JP7040745B2

JP7040745B2 - 情報抽出装置及び情報抽出方法

Info

Publication number: JP7040745B2
Application number: JP2017109404A
Authority: JP
Inventors: 惇允萩原; 幸輝島田
Original assignee: 株式会社オブジェクト・オブ・ヌル
Priority date: 2017-06-01
Filing date: 2017-06-01
Publication date: 2022-03-23
Anticipated expiration: 2037-06-01
Also published as: JP2018205978A

Description

本発明は、ウェブページから情報を抽出するための情報抽出装置及び情報抽出方法に関する。

従来、ウェブサイトをクローリングして、情報を抽出する方法が知られている。特許文献１には、ウェブページに含まれている有用なデータを抽出する検索エンジンが開示されている。従来の検索エンジンにおいては、ウェブページ内のテキストに基づいて、情報を抽出する。例えば、従来の検索エンジンは、日付を示す「年」、「月」、「日」等のテキストがあることを条件として日付情報を抽出する。

特表２０１４－５２２０３０号公報

しかしながら、テキストに基づいて情報を抽出する場合、抽出された情報が所望の情報でないことが多かった。例えば、ウェブページにおいてスポーツや行楽に関するイベントに関する情報を抽出する場合に、検索エンジンは、「２０１７年４月１日」という日付を示す情報をイベントの開催日として抽出する。しかし、抽出した日付はイベントの開催日ではなく、イベントへの参加申し込みの締め切り日であるという場合がある。したがって、検索エンジンがテキストに基づいて情報を抽出する場合、誤った情報を抽出してしまうことがあるという問題が生じていた。

そこで、本発明はこれらの点に鑑みてなされたものであり、ウェブページから情報を抽出する際の精度を向上させることができる情報抽出装置及び情報抽出方法を提供することを目的とする。

本発明の第１の態様の情報抽出装置は、複数のウェブサイトのコンテンツを取得するコンテンツ取得部と、前記コンテンツ取得部が取得した前記コンテンツが画面に表示された状態のスクリーンショット画像を作成する画像作成部と、学習用情報を含む複数の学習用画像コンテンツに基づいて深層学習で作成された深層学習モデルへの入力データとして前記スクリーンショット画像を用いることにより、前記スクリーンショット画像に含まれている抽出対象情報を特定する特定部と、を有する。

前記深層学習モデルは、前記学習用画像コンテンツにおける前記学習用情報が含まれている位置を示す第１位置情報を用いた深層学習をすることにより作成されており、前記特定部は、前記第１位置情報が関連付けられた前記深層学習モデルへの入力データとして、前記抽出対象情報において使用される文字列を含む画像領域の位置を示す第２位置情報を用いることにより前記抽出対象情報を特定してもよい。

前記特定部は、前記コンテンツ取得部が取得した前記コンテンツに含まれている所定の文字列に基づく文字画像を作成し、前記スクリーンショット画像において前記文字画像との相関度が閾値以上である領域を特定することにより、前記画像領域の位置を特定してもよい。前記特定部は、前記画像領域の位置に基づいて、イベントに関連するイベントの日時、場所及び内容の少なくともいずれかを含むイベント情報を前記抽出対象情報として特定してもよい。

また、前記特定部は、前記コンテンツ取得部が取得した前記コンテンツに含まれるテキスト、前記スクリーンショット画像及び前記第２位置情報のうち２つ以上を前記深層学習モデルへの入力データとして用いることにより、前記抽出対象情報を特定してもよい。この場合、前記特定部は、前記テキスト及び前記スクリーンショット画像を前記深層学習モデルへの入力データとして用いて前記抽出対象情報を特定する精度が閾値未満である場合に、前記第２位置情報をさらに前記深層学習モデルへの入力データとして用いてもよい。

前記特定部は、前記深層学習モデルへの複数の入力データのうち、第１の個数の入力データとして前記テキストを用いて前記抽出対象情報を特定した際の精度が前記閾値未満である場合に、第２の個数の入力データとして前記スクリーンショット画像を用いて前記抽出対象情報を特定してもよい。

また、前記特定部は、特定する対象となる前記抽出対象情報の種別の指定を受け、指定を受けた前記種別に対応する前記深層学習モデルを用いて前記抽出対象情報を特定してもよい。

また、情報抽出装置は、特定部が特定した前記抽出対象情報に関連付けられた広告を提供する広告提供部をさらに有してもよい。

本発明の第２の態様の情報抽出方法は、コンピュータが実行する、複数のウェブサイトのコンテンツを取得するステップと、取得した前記コンテンツが画面に表示された状態のスクリーンショット画像を作成するステップと、学習用情報を含む複数の学習用画像コンテンツに基づいて深層学習で作成された深層学習モデルの入力データとして前記スクリーンショット画像を用いることにより、前記スクリーンショット画像に含まれている抽出対象情報を特定するステップと、を有する。

本発明によれば、ウェブページから情報を抽出する際の精度を向上させることができるという効果を奏する。

第１実施形態の情報抽出装置の概要を説明するための図である。情報抽出装置がイベント情報を抽出する方法の概要について説明するための図である。情報抽出装置の構成を示す図である。コンテンツ取得部が取得するコンテンツの一例を示す図である。特定部が位置情報に基づいてイベント情報を特定する動作の手順を示すフローチャートである。イベント情報が登録されたデータベースの一例を示す図である。情報抽出装置の動作フローチャートである。第２実施形態の情報抽出装置の構成を示す図である。コンテンツとともに表示される広告情報を示す図である。第２実施形態の情報抽出装置の動作フローチャートである。

＜第１実施形態＞
［情報抽出装置１の概要］
図１は、第１実施形態の情報抽出装置１の概要を説明するための図である。情報抽出装置１は、インターネットＮを介してアクセス可能な複数のサーバ２から提供されるウェブページに含まれているコンテンツから、所望の情報を抽出するためのコンピュータである。情報抽出装置１は、ウェブページのコンテンツから、予め設定された各種の抽出対象情報を抽出し、抽出した抽出対象情報をデータベース３に登録する。本実施の形態においては、情報抽出装置１が、各種のイベントに関するイベント情報を抽出対象情報として抽出し、抽出したイベント情報をデータベース３に登録する場合を例示するが、情報抽出装置１が抽出する抽出対象情報はイベント情報に限定されない。

なお、イベントは、特定の日又は期間に開催される行事であり、例えば、スポーツの試合、祭り、展示会及び特売セールである。イベント情報は、イベントの開催日又は開催期間、イベントの開催場所、及びイベントの内容の少なくともいずれかを含む情報である。

データベース３に登録されたイベント情報は、各種のアプリケーションにより使用され得る。例えば、車両に搭載されたカーナビゲーションシステムは、データベース３に登録されたイベント情報を取得して、取得したイベント情報に基づいて、車両の現在位置又は目的地までの経路から所定の範囲内で開催されているイベントを抽出する。カーナビゲーションシステムが、抽出したイベントに関する情報を表示することで、車両内の人が、近くでイベントが開催されていることを認識することが可能になる。

［イベント情報の抽出方法の概要］
図２は、情報抽出装置１がイベント情報を抽出する方法の概要について説明するための図である。情報抽出装置１は、ウェブページに含まれているウェブコンテンツから得られる各種のデータを、予め作成された深層学習モデルの入力データとして用いて、高い精度でイベント情報を抽出することができる。深層学習モデルは、学習用情報として用いられる多数の教師データを使用して入力変数と出力変数との間の関係を学習することにより係数が決定されたニューラルネットワークにより構成されるモデルである。

情報抽出装置１は、深層学習モデルへの入力データとして、テキスト、画像、及びウェブページ内における所定の画像の座標を示す位置情報を組み合わせて用いることができる。情報抽出装置１は、ウェブページ内のテキストを深層学習モデルの入力データとして用いる場合、ウェブページのソースコードから予め登録された複数のテキストを抽出し、抽出した複数のテキストを深層学習モデルの入力データとする。このようにすることで、情報抽出装置１は、深層学習モデルに入力した複数のテキストの組み合わせに基づいて、高い確率で正しくイベント情報を抽出することができる。

情報抽出装置１は、テキストに代えて、又はテキストと共に、ウェブページ内のソースコードをレンダリングすることにより得られるスクリーンショット画像を深層学習モデルの入力データとして用いることもできる。スクリーンショット画像は、ウェブページがコンピュータの画面に表示された状態の画像である。スクリーンショット画像を入力データとして用いることができる画像用の深層学習モデルは、学習用の多数のスクリーンショット画像を用いて作成されている。情報抽出装置１が、スクリーンショット画像を画像用の深層学習モデルの入力データとして用いることで、ユーザがウェブページを視認した際にイベント情報であると認識する情報を抽出できるので、イベント情報を正しく抽出できる確率がさらに高まる。

情報抽出装置１は、例えば、テキストだけを用いてイベント情報を抽出した場合の精度が低いと考えられる場合に、テキストと共にスクリーンショット画像を深層学習モデルの入力データとして用いてもよい。情報抽出装置１は、テキスト及びスクリーンショット画像を組み合わせて、深層学習モデルの一部の入力データとしてテキストを用いて、深層学習モデルの他の一部の入力データとして用いることで、イベント情報を正しく抽出できる確率をさらに高めることができる。

情報抽出装置１は、スクリーンショット画像における所定のテキストの位置を特定し、特定した位置を示す座標を深層学習モデルの入力データとして用いることで、イベント情報を正しく抽出できる確率をさらに高めることができる。情報抽出装置１がスクリーンショット画像における所定のテキストの位置を特定する方法の詳細については後述する。

［深層学習モデルの作成方法］
深層学習モデルは、既知の各種の方法を用いて作成することができる。テキストを入力データとして使用できる深層学習モデルを作成する場合、多数（例えば１００万）のウェブページに含まれているテキストを教師データとして使用する。深層学習モデルの作成者は、学習のために使用されるウェブページを視認することにより、ウェブページに基づいて把握できるイベント情報を特定する。そして、特定された学習用のイベント情報を、教師データとして使用されるウェブページのソースコードから抽出されるテキストに関連付けることで、テキストを入力データとするテキスト用の深層学習モデルを作成することができる。なお、深層学習モデルの作成者が特定するイベント情報は、ウェブページに含まれているテキストと同一であってもよく、ウェブページに含まれるテキストと異なる内容であってもよい。

同様に、スクリーンショット画像を入力データとして使用できる深層学習モデルを作成する場合、多数のウェブページのスクリーンショット画像を教師データとして使用する。そして、学習のために使用されるウェブページを深層学習モデルの作成者が視認することにより特定された学習用のイベント情報を、教師データとして使用されるウェブページのソースコードをレンダリングして得られるスクリーンショット画像に関連付けることで、スクリーンショット画像を入力データとする画像用の深層学習モデルを作成することができる。

また、位置情報を入力データとして使用できる深層学習モデルを作成する場合、多数のウェブページに含まれるテキストの位置を教師データとして使用する。そして、学習のために使用されるウェブページを深層学習モデルの作成者が視認することにより特定された学習用のイベント情報を、教師データとして使用されるウェブページに含まれるテキストの位置情報に関連付けることで、位置情報を入力データとする位置用の深層学習モデルを作成することができる。

なお、深層学習モデルの作成者は、定期的に新たな学習用のウェブページを使用して学習作業を行うことにより、深層学習モデルを更新することで、直近のウェブページの構成の傾向に合致した深層学習モデルを作成することができる。

また、深層学習モデルの作成者は、ウェブページから抽出したい情報の種別ごとに深層学習モデルを作成することができる。例えば、深層学習モデルの作成者は、サッカーの試合に関するイベント情報が含まれている教師データを用いて深層学習モデルを作成することにより、サッカーの試合に関するイベント情報を正しく抽出できる確率が高まる深層学習モデルを作成することができる。情報抽出装置１は、抽出する対象の情報の種別に基づいて選択した深層学習モデルを使用することで、所望の情報を正しく抽出できる確率を高めることができる。
以下、情報抽出装置１の構成及び動作の詳細について説明する。

［情報抽出装置１の構成］
図３は、情報抽出装置１の構成を示す図である。情報抽出装置１は、通信部１１と、記憶部１２と、制御部１３とを有する。

通信部１１は、情報抽出装置１がインターネットＮを介してサーバ２及びデータベース３との間でデータを送受信するための通信コントローラを含む通信インターフェースである。通信部１１は、インターネットＮを介して受信したウェブページのコンテンツを制御部１３に入力する。また、制御部１３が出力したイベント情報をデータベース３に対して送信する。

記憶部１２は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）及びハードディスク等の記憶媒体を含む。記憶部１２は、制御部１３が実行するプログラムを記憶している。

制御部１３は、例えばＣＰＵ（Central Processing Unit）であり、記憶部１２に記憶されたプログラムを実行することにより、コンテンツ取得部１３１、画像作成部１３２、特定部１３３及び登録部１３４として機能する。

コンテンツ取得部１３１は、通信部１１を介して、複数のウェブサイトのコンテンツを取得する。コンテンツ取得部１３１は、取得したコンテンツを記憶部１２に記憶させる。

図４は、コンテンツ取得部１３１が取得するコンテンツの一例を示す図である。図４に示すコンテンツは、Ｕ公園におけるお花見イベントに関する情報を含んでいる。以下の説明においては、図４に示すコンテンツに基づいてイベント情報を特定する処理について説明する。

コンテンツ取得部１３１は、テキストに基づいてイベント情報を抽出する場合、取得したコンテンツを特定部１３３に入力する。また、コンテンツ取得部１３１は、スクリーンショット画像に基づいてイベント情報を抽出する場合、取得したコンテンツを画像作成部１３２にも入力する。

画像作成部１３２は、コンテンツ取得部１３１が取得したコンテンツが画面に表示された状態のスクリーンショット画像を作成する。画像作成部１３２は、作成したスクリーンショット画像を特定部１３３に入力する。

特定部１３３は、コンテンツ取得部１３１が取得したコンテンツに含まれるテキスト、スクリーンショット画像及び位置情報を用いることにより、コンテンツ取得部１３１が取得したコンテンツに含まれている抽出対象情報としてのイベント情報を特定する。

特定部１３３は、図４に示すコンテンツに含まれるテキストを深層学習モデルの入力データとして用いる場合、例えば、「桜祭り」、「開園時間」、「会場」、「アクセス」、「３月下旬～４月上旬」、「３月２５日～４月５日」、「８：００～２１：００」、「Ｕ公園」、「２０１７年３月２０日」を、深層学習モデルの入力データとするテキストとして抽出する。その結果、特定部１３３は、深層学習モデルから、イベント日時が「３月２５日～４月５日」の「８：００～２１：００」であり、イベントの開催場所が「Ｕ公園」であり、イベントの内容が「桜祭り」であることを示す出力を得ることができる。

しかしながら、図４に示すコンテンツには、日付を示す「２０１７年３月２０日」というテキストも含まれているため、深層学習モデルから、イベント日時が「２０１７年３月２０日」であるという誤った出力が得られる可能性がある。そこで、特定部１３３は、テキスト、スクリーンショット画像及び位置情報のうち２つ以上を学習モデルへの入力として用いることにより、正しい抽出対象情報を特定する確率を高めることができる。例えば、特定部１３３は、深層学習モデルへの複数の入力データのうち、第１の個数の入力データとしてテキストを用いて抽出対象情報を特定した際の精度が閾値未満である場合に、第２の個数の入力データとしてスクリーンショット画像を用いて抽出対象情報を特定してもよい。

図４に示す例の場合、桜祭りの開催日を示す「３月２５日～４月５日」というテキストの周囲には網模様が付されている。特定部１３３は、深層学習モデルへの入力データとしてスクリーンショット画像を用いると、日付を示す複数のテキスト「３月２５日～４月５日」及び「２０１７年３月２０日」のうち、網模様に囲まれたテキストである「３月２５日～４月５日」が深層学習モデルから出力される。このように、特定部１３３は、スクリーンショット画像を深層学習モデルへの入力データとして用いることで、イベント情報を正しく特定できる。

また、特定部１３３は、テキスト及びスクリーンショット画像を深層学習モデルへの入力として用いてイベント情報を特定する精度が閾値未満である場合に、イベント情報において使用される文字列を含む画像領域の位置を示す位置情報をさらに学習モデルへの入力として用いる。具体的には、特定部１３３は、学習用画像コンテンツにおける学習用情報としての所定のテキストが含まれている位置を示す位置情報を用いた深層学習をすることにより作成された位置用の深層学習モデルに、コンテンツ取得部１３１が取得したコンテンツに含まれている所定の文字列と文字列の位置を示す座標を入力する。このようにすることで、深層学習モデルからは、入力された文字列の位置に対応するイベント情報が出力される。

特定部１３３は、文字列の位置を特定するために、コンテンツ取得部１３１が取得したコンテンツに含まれている所定の文字列に基づく文字画像を作成し、スクリーンショット画像において文字画像との相関度が閾値以上である領域を特定する。特定部１３３は、イベント情報に使用されるテキストが含まれている画像領域の位置を特定することで、深層学習モデルの入力データとして用いる文字列の位置を特定することができる。このようにすることで、特定部１３３は、イベント情報に使用されるテキストが含まれている画像領域の位置に基づいて、イベントに関連するイベントの日時、場所及び内容の少なくともいずれかを含むイベント情報を抽出対象情報として特定することができる。

図５は、特定部１３３が位置情報に基づいてイベント情報を特定する動作の手順を示すフローチャートである。以下、図４及び図５を参照しながら、特定部１３３が位置情報に基づいてイベント情報を特定する動作について説明する。

まず、特定部１３３は、コンテンツ取得部１３１が取得したコンテンツをレンダリングしてスクリーンショット画像を作成する（Ｓ１）。続いて、コンテンツ取得部１３１が取得したコンテンツに含まれる所定のテキストを画像に変換する（Ｓ２）。図４に示す例の場合、特定部１３３は、「桜祭り」、「開園時間」、「会場」、「アクセス」、「３月下旬～４月上旬」、「３月２５日～４月５日」、「８：００～２１：００」、「Ｕ公園」、「２０１７年３月２０日」というテキストを画像に変換する。

続いて、特定部１３３は、テキストを変換した画像のそれぞれが、ステップＳ１において作成したスクリーンショット画像におけるどの位置にあるかを検索する（Ｓ３）。特定部１３３は、スクリーンショット画像における、テキストを変換した画像との相関度が最も高い画像領域を特定することにより、ウェブページにおける各テキストの位置を特定する（Ｓ４）。特定部１３３は、それぞれのテキストと、テキストに対応する画像領域の座標とを関連付けて記憶部１２に記憶させる（Ｓ５）。

続いて、特定部１３３は、ステップＳ５において記憶部１２に記憶させたテキスト及び座標を深層学習モデルに入力する（Ｓ６）。特定部１３３は、テキストの位置関係に基づいて深層学習モデルから出力されるイベント情報を特定し（Ｓ７）、登録部１３４に通知する。

図４に示す例においては、「桜祭り」というイベントの内容を示すテキストの位置の右隣にイベントの開催日を示すテキストが配置されている。また、「会場」というテキストの位置の右隣にイベントの開催場所を示すテキストが配置されている。一方、ウェブページの右下に配置されている日時は、イベントの開催日時ではない可能性が高い。このように、イベント情報を示すテキストが配置される位置と、所定のテキストが配置される位置との間には、一定の関係があると考えられる。したがって、特定部１３３が、多数のウェブページにおけるテキストの位置情報を含む教師データに基づいて作成された位置用の深層学習モデルにテキストとテキストに対応する画像領域の座標とを入力することで、イベント情報の特定精度を向上させることができる。

なお、特定部１３３は、多数のウェブページのコンテンツに基づいて、テキスト、スクリーンショット画像及び位置情報の少なくともいずれかを用いて多数のイベント情報を特定し、登録部１３４は多数のイベント情報を順次データベース３に登録する。

図６は、イベント情報が登録されたデータベース３の一例を示す図である。図６に示すイベント情報データベースにおいては、イベント番号と、イベントの開催日と、イベントの開催時刻と、イベントの開催場所と、イベントの内容とが関連付けられている。図４に示したウェブページに基づいて特定されたイベント情報は、イベント番号が０００２のイベント情報である。

登録部１３４は、異なるウェブページから特定されるイベント情報が異なっている場合、所定の割合以上のウェブページにおいて一致するイベント情報のみをデータベース３に登録してもよい。例えば、登録部１３４は、複数のウェブページに基づいて特定されたイベント情報のうち、一つだけイベントの開催日が異なる場合、開催日が異なっているイベント情報を登録しないようにしてもよい。

登録部１３４は、特定部１３３が特定したイベント情報が、既にデータベース３に登録されているイベント情報と異なる文字列から構成されていることを条件として、特定されたイベント情報をデータベース３に登録してもよい。このようにすることで、同一のイベントに関する情報が多数データベース３に登録されることを防止できる。

また、登録部１３４は、イベント情報に関連付けて、イベント情報を特定する根拠となったウェブページの数に対応する数値をデータベース３に登録してもよい。データベース３に登録されたイベント情報を参照するアプリケーションは、登録された数値を用いることで、信頼度が高いイベント情報を選択することができる。

なお、登録部１３４は、特定部１３３が特定した全てのイベント情報をデータベース３に登録してもよい。この場合、データベース３を参照するアプリケーション側で、アプリケーションで求められる精度に基づいて、使用するイベント情報を取捨選択することにより、アプリケーションを使用するユーザは、適切なイベント情報を取得することができる。

［情報抽出装置１の動作フローチャート］
図７は、情報抽出装置１の動作フローチャートである。情報抽出装置１がイベント情報を特定する処理を開始すると、まず、コンテンツ取得部１３１が多数のウェブページのコンテンツを取得する（Ｓ１１）。コンテンツ取得部１３１がコンテンツを取得すると、特定部１３３は、コンテンツに含まれるテキストをテキスト用の深層学習モデルに入力することによりイベント情報を特定する（Ｓ１２）。

特定部１３３が、テキストに基づいて特定したイベント情報の精度が閾値以上であると判定した場合（Ｓ１３においてＹｅｓ）、ステップＳ１７に進んで、登録部１３４がイベント情報をデータベース３に登録する（Ｓ１７）。一方、特定部１３３は、テキストに基づいて特定したイベント情報の精度が閾値未満であると判定した場合（Ｓ１３においてＮｏ）、ステップＳ１４に進んで、スクリーンショット画像を画像用の深層学習モデルに入力することによりイベント情報を特定する（Ｓ１４）。ステップＳ１４において、特定部１３３は、テキスト及びスクリーンショット画像の両方を用いてイベント情報を特定してもよい。

特定部１３３が、スクリーンショット画像に基づいて特定したイベント情報の精度が閾値以上であると判定した場合（Ｓ１５においてＹｅｓ）、ステップＳ１７に進んで、登録部１３４がイベント情報をデータベース３に登録する（Ｓ１７）。一方、特定部１３３は、スクリーンショット画像に基づいて特定したイベント情報の精度が閾値未満であると判定した場合（Ｓ１５においてＮｏ）、ステップＳ１６に進んで、位置情報を位置用の深層学習モデルに入力することによりイベント情報を特定する（Ｓ１６）。ステップＳ１６における処理は、図５に示したステップＳ１からＳ７までの処理である。ステップＳ１６において、特定部１３３は、テキスト、スクリーンショット画像及び位置情報の全てを組み合わせてイベント情報を特定してもよい。

以上のように、情報抽出装置１は、ウェブページに含まれるテキスト、ソースコードに基づいて作成したスクリーンショット画像、及びイベントに関連するテキストの位置を示す位置情報を組み合わせて深層学習モデルの入力データとして用いることで、高い精度でイベント情報を特定することができる。

［変形例１］
以上の説明において、特定部１３３は、予め定められた深層学習モデルを使用したが、イベントの種類、ウェブページを作成した人の国籍、及びウェブページで使用されている言語等によって、ウェブページにおける抽出対象情報の掲載方法の傾向が異なると考えられる。そこで、特定部１３３は、抽出対象情報を正しく特定できる確率を高めるために、抽出対象情報の種別に基づいて異なる深層学習モデルを使用してもよい。具体的には、特定部１３３は、通信部１１を介して外部のコンピュータから、特定する対象となる抽出対象情報の種別の指定を受け、指定を受けた種別に対応する深層学習モデルを用いて抽出対象情報を特定することができる。

抽出対象情報の種別は、例えば、対象となるウェブページの言語、ウェブページが作成された国、及びイベントの種別である。具体的には、特定部１３３は、「日本語サイトに掲載されたサッカー関連イベント」、「英語サイトに掲載されたサッカー関連イベント」、「英語サイトに掲載されたアート関連イベント」、又は「中国語サイトに掲載された音楽関連イベント」等を抽出対象情報の種別として用いることができる。特定部１３３は、指定された種別の抽出対象情報を特定するために適した深層学習モデルを用いることで、抽出対象情報を正しく特定できる確率を高めることができる。

［第１実施形態の情報抽出装置１による効果］
以上説明したように、本実施形態の情報抽出装置１は、コンテンツ取得部１３１が取得したコンテンツが画面に表示された状態のスクリーンショット画像を作成する画像作成部１３２と、深層学習モデルへの入力データとしてスクリーンショット画像を用いることにより、スクリーンショット画像に含まれている抽出対象情報としてのイベント情報を特定する特定部１３３とを有する。このように、特定部１３３がスクリーンショット画像を用いてイベント情報を特定することにより、ウェブページを閲覧する人が視認する画面の傾向に基づいて、ウェブページに含まれるイベント情報を特定できるので、イベント情報を正しく特定できる確率を高めることができる。

特に、特定部１３３は、イベントに関連する所定のテキストの第１位置情報が関連付けられた深層学習モデルへの入力データとして、イベント情報において使用される文字列を含む画像領域の位置を示す第２位置情報を用いてイベント情報を特定することで、ウェブページに含まれるテキストの位置関係の傾向に基づいて、ウェブページに含まれるイベント情報を特定できる。したがって、イベント情報に類似するテキストがウェブページ内に複数含まれている場合であっても、特定部１３３は、高い確率でイベント情報を正しく特定することができる。

本発明は、検索エンジンが、検索キーワードとの関連性が高い順にウェブページをランキングする際にも効果的である。従来の検索エンジンのように、テキストだけに基づいて検索キーワードとウェブページとの関連性を特定する方法を用いる場合、ユーザが視認しないタグに検索キーワードを埋め込むＳＥＯ（Search Engine Optimization）対策をすることで、ウェブページを上位にランキング表示させることが可能になってしまう。これに対して、本発明では、スナップショット画像のピクセルデータを用いることで、ウェブページを閲覧するユーザが視認することができる内容に基づいてウェブページをランキングすることができる。したがって、ウェブページにＳＥＯ対策のためのコードが埋め込まれている場合にも、検索の精度を向上させることが可能になる。

＜第２実施形態＞
図８は、第２実施形態の情報抽出装置４の構成を示す図である。情報抽出装置４は、第１実施形態の情報抽出装置１における登録部１３４の代わりに、広告提供部１３５を有する点で情報抽出装置１と異なる。

また、情報抽出装置４における特定部１３３が情報を特定する方法は第１実施形態と同様であるが、情報抽出装置４における特定部１３３は、スクリーンショット画像から抽出する対象の情報である抽出対象情報として、イベント情報以外の情報も特定する。抽出対象情報は、例えば、予め作成された辞書に含まれているテキスト及び画像である。

記憶部１２は、特定部１３３が特定可能な各種の情報に関連付けて広告情報を記憶する。広告提供部１３５は、特定部１３３が特定した情報を取得すると、取得した情報に関連付けて記憶部１２に記憶された広告情報をサーバ２に提供する。サーバ２は、ウェブページにアクセスする端末に対して、ウェブページのコンテンツとともに、広告提供部１３５から提供された広告情報を送信する。

図９は、コンテンツとともに表示される広告情報Ａ１及び広告情報Ａ２を示す図である。特定部１３３は、図９に示すウェブページ内の各種の情報を特定する。特定部１３３は、例えば、「Ｕ公園」、「お花見」、「桜」、「祭り」等の情報を特定する。また、特定部１３３は、特定した情報が表示されている位置も特定し、特定した位置に基づいて情報の重要度を決定する。

特定部１３３は、重要度が閾値以上の情報を広告提供部１３５に通知する。特定部１３３は、例えば「Ｕ公園」という情報を広告提供部１３５に通知する。この場合、広告提供部１３５が、「Ｕ公園」に関連付けて記憶部１２に記憶された広告情報Ａ１及び広告Ａ２をサーバ２に送信することで、広告情報Ａ１及び広告Ａ２がウェブページに表示される。

図１０は、第２実施形態の情報抽出装置４の動作フローチャートである。Ｓ２１からＳ２６は、図７に示した動作フローチャートにおけるＳ１１からＳ１６に対応する。ただし、Ｓ２２、Ｓ２４及びＳ２６において特定する情報は、イベント情報に限らない抽出対象情報である。ステップＳ２２からＳ２６までにおいて特定部１３３が抽出対象情報を特定すると、広告提供部１３５は、特定された抽出対象情報に基づいて広告情報を選択する。続いて、Ｓ２８において、広告提供部１３５は、選択した広告情報をサーバ２に提供する。

［第２実施形態の情報抽出装置４による効果］
以上説明したように、本実施形態の情報抽出装置４においては、特定部１３３がウェブページ内の抽出対象情報を特定し、広告提供部１３５が、特定された抽出対象情報に関連付けられた広告情報をサーバ２に提供する。このように、情報抽出装置４を利用することで、ウェブページのコンテンツに関連する商品やサービスに関する広告をウェブページ内に表示することができるので、ウェブページを閲覧中のユーザが関心を抱く確率を高めることができる。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。

１情報抽出装置
２サーバ
３データベース
４情報抽出装置
１１通信部
１２記憶部
１３制御部
１３１コンテンツ取得部
１３２画像作成部
１３３特定部
１３４登録部
１３５広告提供部

Claims

複数のウェブサイトのコンテンツを取得するコンテンツ取得部と、
前記コンテンツ取得部が取得した前記コンテンツが画面に表示された状態のスクリーンショット画像を作成する画像作成部と、
学習用情報を含む複数の学習用画像コンテンツに基づいて深層学習で作成された深層学習モデルへの入力データとして前記スクリーンショット画像を用いることにより、前記スクリーンショット画像に含まれている抽出対象情報を特定する特定部と、
を有し、
前記深層学習モデルは、前記学習用画像コンテンツにおける前記学習用情報が含まれている位置を示す第１位置情報を用いた深層学習をすることにより作成されており、
前記特定部は、前記第１位置情報が関連付けられた前記深層学習モデルへの入力データとして、前記抽出対象情報において使用される文字列を含む画像領域の位置を示す第２位置情報を用いることにより前記抽出対象情報を特定する情報抽出装置。
前記特定部は、前記コンテンツ取得部が取得した前記コンテンツに含まれている所定の文字列に基づく文字画像を作成し、前記スクリーンショット画像において前記文字画像との相関度が閾値以上である領域を特定することにより、前記画像領域の位置を特定する、
請求項１に記載の情報抽出装置。
前記特定部は、前記画像領域の位置に基づいて、イベントに関連するイベントの日時、場所及び内容の少なくともいずれかを含むイベント情報を前記抽出対象情報として特定する、
請求項１又は２に記載の情報抽出装置。
前記特定部は、前記コンテンツ取得部が取得した前記コンテンツに含まれるテキスト、前記スクリーンショット画像及び前記第２位置情報のうち２つ以上を前記深層学習モデルへの入力データとして用いることにより、前記抽出対象情報を特定する、
請求項１から３のいずれか一項に記載の情報抽出装置。
前記特定部は、前記テキスト及び前記スクリーンショット画像を前記深層学習モデルへの入力データとして用いて前記抽出対象情報を特定する精度が閾値未満である場合に、前記第２位置情報をさらに前記深層学習モデルへの入力データとして用いる、
請求項４に記載の情報抽出装置。
前記特定部は、前記深層学習モデルへの複数の入力データのうち、第１の個数の入力データとして前記テキストを用いて前記抽出対象情報を特定した際の精度が閾値未満である場合に、第２の個数の入力データとして前記スクリーンショット画像を用いて前記抽出対象情報を特定する、
請求項４に記載の情報抽出装置。
前記特定部は、特定する対象となる前記抽出対象情報の種別の指定を受け、指定を受けた前記種別に対応する前記深層学習モデルを用いて前記抽出対象情報を特定する、
請求項１から６のいずれか一項に記載の情報抽出装置。
前記特定部が特定した前記抽出対象情報に関連付けられた広告を提供する広告提供部をさらに有する、
請求項１から７のいずれか一項に記載の情報抽出装置。
コンピュータが実行する、
複数のウェブサイトのコンテンツを取得するステップと、
取得した前記コンテンツが画面に表示された状態のスクリーンショット画像を作成するステップと、
学習用情報を含む複数の学習用画像コンテンツに基づいて深層学習で作成された深層学習モデルの入力データとして前記スクリーンショット画像を用いることにより、前記スクリーンショット画像に含まれている抽出対象情報を特定するステップと、
を有し、
前記深層学習モデルは、前記学習用画像コンテンツにおける前記学習用情報が含まれている位置を示す第１位置情報を用いた深層学習をすることにより作成されており、
前記特定するステップにおいて、前記第１位置情報が関連付けられた前記深層学習モデルへの入力データとして、前記抽出対象情報において使用される文字列を含む画像領域の位置を示す第２位置情報を用いることにより前記抽出対象情報を特定する情報抽出方法。