JP7040745B2 - 情報抽出装置及び情報抽出方法 - Google Patents

情報抽出装置及び情報抽出方法 Download PDF

Info

Publication number
JP7040745B2
JP7040745B2 JP2017109404A JP2017109404A JP7040745B2 JP 7040745 B2 JP7040745 B2 JP 7040745B2 JP 2017109404 A JP2017109404 A JP 2017109404A JP 2017109404 A JP2017109404 A JP 2017109404A JP 7040745 B2 JP7040745 B2 JP 7040745B2
Authority
JP
Japan
Prior art keywords
information
deep learning
image
learning model
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017109404A
Other languages
English (en)
Other versions
JP2018205978A (ja
Inventor
惇允 萩原
幸輝 島田
Original Assignee
株式会社オブジェクト・オブ・ヌル
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社オブジェクト・オブ・ヌル filed Critical 株式会社オブジェクト・オブ・ヌル
Priority to JP2017109404A priority Critical patent/JP7040745B2/ja
Publication of JP2018205978A publication Critical patent/JP2018205978A/ja
Application granted granted Critical
Publication of JP7040745B2 publication Critical patent/JP7040745B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ウェブページから情報を抽出するための情報抽出装置及び情報抽出方法に関する。
従来、ウェブサイトをクローリングして、情報を抽出する方法が知られている。特許文献1には、ウェブページに含まれている有用なデータを抽出する検索エンジンが開示されている。従来の検索エンジンにおいては、ウェブページ内のテキストに基づいて、情報を抽出する。例えば、従来の検索エンジンは、日付を示す「年」、「月」、「日」等のテキストがあることを条件として日付情報を抽出する。
特表2014-522030号公報
しかしながら、テキストに基づいて情報を抽出する場合、抽出された情報が所望の情報でないことが多かった。例えば、ウェブページにおいてスポーツや行楽に関するイベントに関する情報を抽出する場合に、検索エンジンは、「2017年4月1日」という日付を示す情報をイベントの開催日として抽出する。しかし、抽出した日付はイベントの開催日ではなく、イベントへの参加申し込みの締め切り日であるという場合がある。したがって、検索エンジンがテキストに基づいて情報を抽出する場合、誤った情報を抽出してしまうことがあるという問題が生じていた。
そこで、本発明はこれらの点に鑑みてなされたものであり、ウェブページから情報を抽出する際の精度を向上させることができる情報抽出装置及び情報抽出方法を提供することを目的とする。
本発明の第1の態様の情報抽出装置は、複数のウェブサイトのコンテンツを取得するコンテンツ取得部と、前記コンテンツ取得部が取得した前記コンテンツが画面に表示された状態のスクリーンショット画像を作成する画像作成部と、学習用情報を含む複数の学習用画像コンテンツに基づいて深層学習で作成された深層学習モデルへの入力データとして前記スクリーンショット画像を用いることにより、前記スクリーンショット画像に含まれている抽出対象情報を特定する特定部と、を有する。
前記深層学習モデルは、前記学習用画像コンテンツにおける前記学習用情報が含まれている位置を示す第1位置情報を用いた深層学習をすることにより作成されており、前記特定部は、前記第1位置情報が関連付けられた前記深層学習モデルへの入力データとして、前記抽出対象情報において使用される文字列を含む画像領域の位置を示す第2位置情報を用いることにより前記抽出対象情報を特定してもよい。
前記特定部は、前記コンテンツ取得部が取得した前記コンテンツに含まれている所定の文字列に基づく文字画像を作成し、前記スクリーンショット画像において前記文字画像との相関度が閾値以上である領域を特定することにより、前記画像領域の位置を特定してもよい。前記特定部は、前記画像領域の位置に基づいて、イベントに関連するイベントの日時、場所及び内容の少なくともいずれかを含むイベント情報を前記抽出対象情報として特定してもよい。
また、前記特定部は、前記コンテンツ取得部が取得した前記コンテンツに含まれるテキスト、前記スクリーンショット画像及び前記第2位置情報のうち2つ以上を前記深層学習モデルへの入力データとして用いることにより、前記抽出対象情報を特定してもよい。この場合、前記特定部は、前記テキスト及び前記スクリーンショット画像を前記深層学習モデルへの入力データとして用いて前記抽出対象情報を特定する精度が閾値未満である場合に、前記第2位置情報をさらに前記深層学習モデルへの入力データとして用いてもよい。
前記特定部は、前記深層学習モデルへの複数の入力データのうち、第1の個数の入力データとして前記テキストを用いて前記抽出対象情報を特定した際の精度が前記閾値未満である場合に、第2の個数の入力データとして前記スクリーンショット画像を用いて前記抽出対象情報を特定してもよい。
また、前記特定部は、特定する対象となる前記抽出対象情報の種別の指定を受け、指定を受けた前記種別に対応する前記深層学習モデルを用いて前記抽出対象情報を特定してもよい。
また、情報抽出装置は、特定部が特定した前記抽出対象情報に関連付けられた広告を提供する広告提供部をさらに有してもよい。
本発明の第2の態様の情報抽出方法は、コンピュータが実行する、複数のウェブサイトのコンテンツを取得するステップと、取得した前記コンテンツが画面に表示された状態のスクリーンショット画像を作成するステップと、学習用情報を含む複数の学習用画像コンテンツに基づいて深層学習で作成された深層学習モデルの入力データとして前記スクリーンショット画像を用いることにより、前記スクリーンショット画像に含まれている抽出対象情報を特定するステップと、を有する。
本発明によれば、ウェブページから情報を抽出する際の精度を向上させることができるという効果を奏する。
第1実施形態の情報抽出装置の概要を説明するための図である。 情報抽出装置がイベント情報を抽出する方法の概要について説明するための図である。 情報抽出装置の構成を示す図である。 コンテンツ取得部が取得するコンテンツの一例を示す図である。 特定部が位置情報に基づいてイベント情報を特定する動作の手順を示すフローチャートである。 イベント情報が登録されたデータベースの一例を示す図である。 情報抽出装置の動作フローチャートである。 第2実施形態の情報抽出装置の構成を示す図である。 コンテンツとともに表示される広告情報を示す図である。 第2実施形態の情報抽出装置の動作フローチャートである。
<第1実施形態>
[情報抽出装置1の概要]
図1は、第1実施形態の情報抽出装置1の概要を説明するための図である。情報抽出装置1は、インターネットNを介してアクセス可能な複数のサーバ2から提供されるウェブページに含まれているコンテンツから、所望の情報を抽出するためのコンピュータである。情報抽出装置1は、ウェブページのコンテンツから、予め設定された各種の抽出対象情報を抽出し、抽出した抽出対象情報をデータベース3に登録する。本実施の形態においては、情報抽出装置1が、各種のイベントに関するイベント情報を抽出対象情報として抽出し、抽出したイベント情報をデータベース3に登録する場合を例示するが、情報抽出装置1が抽出する抽出対象情報はイベント情報に限定されない。
なお、イベントは、特定の日又は期間に開催される行事であり、例えば、スポーツの試合、祭り、展示会及び特売セールである。イベント情報は、イベントの開催日又は開催期間、イベントの開催場所、及びイベントの内容の少なくともいずれかを含む情報である。
データベース3に登録されたイベント情報は、各種のアプリケーションにより使用され得る。例えば、車両に搭載されたカーナビゲーションシステムは、データベース3に登録されたイベント情報を取得して、取得したイベント情報に基づいて、車両の現在位置又は目的地までの経路から所定の範囲内で開催されているイベントを抽出する。カーナビゲーションシステムが、抽出したイベントに関する情報を表示することで、車両内の人が、近くでイベントが開催されていることを認識することが可能になる。
[イベント情報の抽出方法の概要]
図2は、情報抽出装置1がイベント情報を抽出する方法の概要について説明するための図である。情報抽出装置1は、ウェブページに含まれているウェブコンテンツから得られる各種のデータを、予め作成された深層学習モデルの入力データとして用いて、高い精度でイベント情報を抽出することができる。深層学習モデルは、学習用情報として用いられる多数の教師データを使用して入力変数と出力変数との間の関係を学習することにより係数が決定されたニューラルネットワークにより構成されるモデルである。
情報抽出装置1は、深層学習モデルへの入力データとして、テキスト、画像、及びウェブページ内における所定の画像の座標を示す位置情報を組み合わせて用いることができる。情報抽出装置1は、ウェブページ内のテキストを深層学習モデルの入力データとして用いる場合、ウェブページのソースコードから予め登録された複数のテキストを抽出し、抽出した複数のテキストを深層学習モデルの入力データとする。このようにすることで、情報抽出装置1は、深層学習モデルに入力した複数のテキストの組み合わせに基づいて、高い確率で正しくイベント情報を抽出することができる。
情報抽出装置1は、テキストに代えて、又はテキストと共に、ウェブページ内のソースコードをレンダリングすることにより得られるスクリーンショット画像を深層学習モデルの入力データとして用いることもできる。スクリーンショット画像は、ウェブページがコンピュータの画面に表示された状態の画像である。スクリーンショット画像を入力データとして用いることができる画像用の深層学習モデルは、学習用の多数のスクリーンショット画像を用いて作成されている。情報抽出装置1が、スクリーンショット画像を画像用の深層学習モデルの入力データとして用いることで、ユーザがウェブページを視認した際にイベント情報であると認識する情報を抽出できるので、イベント情報を正しく抽出できる確率がさらに高まる。
情報抽出装置1は、例えば、テキストだけを用いてイベント情報を抽出した場合の精度が低いと考えられる場合に、テキストと共にスクリーンショット画像を深層学習モデルの入力データとして用いてもよい。情報抽出装置1は、テキスト及びスクリーンショット画像を組み合わせて、深層学習モデルの一部の入力データとしてテキストを用いて、深層学習モデルの他の一部の入力データとして用いることで、イベント情報を正しく抽出できる確率をさらに高めることができる。
情報抽出装置1は、スクリーンショット画像における所定のテキストの位置を特定し、特定した位置を示す座標を深層学習モデルの入力データとして用いることで、イベント情報を正しく抽出できる確率をさらに高めることができる。情報抽出装置1がスクリーンショット画像における所定のテキストの位置を特定する方法の詳細については後述する。
[深層学習モデルの作成方法]
深層学習モデルは、既知の各種の方法を用いて作成することができる。テキストを入力データとして使用できる深層学習モデルを作成する場合、多数(例えば100万)のウェブページに含まれているテキストを教師データとして使用する。深層学習モデルの作成者は、学習のために使用されるウェブページを視認することにより、ウェブページに基づいて把握できるイベント情報を特定する。そして、特定された学習用のイベント情報を、教師データとして使用されるウェブページのソースコードから抽出されるテキストに関連付けることで、テキストを入力データとするテキスト用の深層学習モデルを作成することができる。なお、深層学習モデルの作成者が特定するイベント情報は、ウェブページに含まれているテキストと同一であってもよく、ウェブページに含まれるテキストと異なる内容であってもよい。
同様に、スクリーンショット画像を入力データとして使用できる深層学習モデルを作成する場合、多数のウェブページのスクリーンショット画像を教師データとして使用する。そして、学習のために使用されるウェブページを深層学習モデルの作成者が視認することにより特定された学習用のイベント情報を、教師データとして使用されるウェブページのソースコードをレンダリングして得られるスクリーンショット画像に関連付けることで、スクリーンショット画像を入力データとする画像用の深層学習モデルを作成することができる。
また、位置情報を入力データとして使用できる深層学習モデルを作成する場合、多数のウェブページに含まれるテキストの位置を教師データとして使用する。そして、学習のために使用されるウェブページを深層学習モデルの作成者が視認することにより特定された学習用のイベント情報を、教師データとして使用されるウェブページに含まれるテキストの位置情報に関連付けることで、位置情報を入力データとする位置用の深層学習モデルを作成することができる。
なお、深層学習モデルの作成者は、定期的に新たな学習用のウェブページを使用して学習作業を行うことにより、深層学習モデルを更新することで、直近のウェブページの構成の傾向に合致した深層学習モデルを作成することができる。
また、深層学習モデルの作成者は、ウェブページから抽出したい情報の種別ごとに深層学習モデルを作成することができる。例えば、深層学習モデルの作成者は、サッカーの試合に関するイベント情報が含まれている教師データを用いて深層学習モデルを作成することにより、サッカーの試合に関するイベント情報を正しく抽出できる確率が高まる深層学習モデルを作成することができる。情報抽出装置1は、抽出する対象の情報の種別に基づいて選択した深層学習モデルを使用することで、所望の情報を正しく抽出できる確率を高めることができる。
以下、情報抽出装置1の構成及び動作の詳細について説明する。
[情報抽出装置1の構成]
図3は、情報抽出装置1の構成を示す図である。情報抽出装置1は、通信部11と、記憶部12と、制御部13とを有する。
通信部11は、情報抽出装置1がインターネットNを介してサーバ2及びデータベース3との間でデータを送受信するための通信コントローラを含む通信インターフェースである。通信部11は、インターネットNを介して受信したウェブページのコンテンツを制御部13に入力する。また、制御部13が出力したイベント情報をデータベース3に対して送信する。
記憶部12は、ROM(Read Only Memory)、RAM(Random Access Memory)及びハードディスク等の記憶媒体を含む。記憶部12は、制御部13が実行するプログラムを記憶している。
制御部13は、例えばCPU(Central Processing Unit)であり、記憶部12に記憶されたプログラムを実行することにより、コンテンツ取得部131、画像作成部132、特定部133及び登録部134として機能する。
コンテンツ取得部131は、通信部11を介して、複数のウェブサイトのコンテンツを取得する。コンテンツ取得部131は、取得したコンテンツを記憶部12に記憶させる。
図4は、コンテンツ取得部131が取得するコンテンツの一例を示す図である。図4に示すコンテンツは、U公園におけるお花見イベントに関する情報を含んでいる。以下の説明においては、図4に示すコンテンツに基づいてイベント情報を特定する処理について説明する。
コンテンツ取得部131は、テキストに基づいてイベント情報を抽出する場合、取得したコンテンツを特定部133に入力する。また、コンテンツ取得部131は、スクリーンショット画像に基づいてイベント情報を抽出する場合、取得したコンテンツを画像作成部132にも入力する。
画像作成部132は、コンテンツ取得部131が取得したコンテンツが画面に表示された状態のスクリーンショット画像を作成する。画像作成部132は、作成したスクリーンショット画像を特定部133に入力する。
特定部133は、コンテンツ取得部131が取得したコンテンツに含まれるテキスト、スクリーンショット画像及び位置情報を用いることにより、コンテンツ取得部131が取得したコンテンツに含まれている抽出対象情報としてのイベント情報を特定する。
特定部133は、図4に示すコンテンツに含まれるテキストを深層学習モデルの入力データとして用いる場合、例えば、「桜祭り」、「開園時間」、「会場」、「アクセス」、「3月下旬~4月上旬」、「3月25日~4月5日」、「8:00~21:00」、「U公園」、「2017年3月20日」を、深層学習モデルの入力データとするテキストとして抽出する。その結果、特定部133は、深層学習モデルから、イベント日時が「3月25日~4月5日」の「8:00~21:00」であり、イベントの開催場所が「U公園」であり、イベントの内容が「桜祭り」であることを示す出力を得ることができる。
しかしながら、図4に示すコンテンツには、日付を示す「2017年3月20日」というテキストも含まれているため、深層学習モデルから、イベント日時が「2017年3月20日」であるという誤った出力が得られる可能性がある。そこで、特定部133は、テキスト、スクリーンショット画像及び位置情報のうち2つ以上を学習モデルへの入力として用いることにより、正しい抽出対象情報を特定する確率を高めることができる。例えば、特定部133は、深層学習モデルへの複数の入力データのうち、第1の個数の入力データとしてテキストを用いて抽出対象情報を特定した際の精度が閾値未満である場合に、第2の個数の入力データとしてスクリーンショット画像を用いて抽出対象情報を特定してもよい。
図4に示す例の場合、桜祭りの開催日を示す「3月25日~4月5日」というテキストの周囲には網模様が付されている。特定部133は、深層学習モデルへの入力データとしてスクリーンショット画像を用いると、日付を示す複数のテキスト「3月25日~4月5日」及び「2017年3月20日」のうち、網模様に囲まれたテキストである「3月25日~4月5日」が深層学習モデルから出力される。このように、特定部133は、スクリーンショット画像を深層学習モデルへの入力データとして用いることで、イベント情報を正しく特定できる。
また、特定部133は、テキスト及びスクリーンショット画像を深層学習モデルへの入力として用いてイベント情報を特定する精度が閾値未満である場合に、イベント情報において使用される文字列を含む画像領域の位置を示す位置情報をさらに学習モデルへの入力として用いる。具体的には、特定部133は、学習用画像コンテンツにおける学習用情報としての所定のテキストが含まれている位置を示す位置情報を用いた深層学習をすることにより作成された位置用の深層学習モデルに、コンテンツ取得部131が取得したコンテンツに含まれている所定の文字列と文字列の位置を示す座標を入力する。このようにすることで、深層学習モデルからは、入力された文字列の位置に対応するイベント情報が出力される。
特定部133は、文字列の位置を特定するために、コンテンツ取得部131が取得したコンテンツに含まれている所定の文字列に基づく文字画像を作成し、スクリーンショット画像において文字画像との相関度が閾値以上である領域を特定する。特定部133は、イベント情報に使用されるテキストが含まれている画像領域の位置を特定することで、深層学習モデルの入力データとして用いる文字列の位置を特定することができる。このようにすることで、特定部133は、イベント情報に使用されるテキストが含まれている画像領域の位置に基づいて、イベントに関連するイベントの日時、場所及び内容の少なくともいずれかを含むイベント情報を抽出対象情報として特定することができる。
図5は、特定部133が位置情報に基づいてイベント情報を特定する動作の手順を示すフローチャートである。以下、図4及び図5を参照しながら、特定部133が位置情報に基づいてイベント情報を特定する動作について説明する。
まず、特定部133は、コンテンツ取得部131が取得したコンテンツをレンダリングしてスクリーンショット画像を作成する(S1)。続いて、コンテンツ取得部131が取得したコンテンツに含まれる所定のテキストを画像に変換する(S2)。図4に示す例の場合、特定部133は、「桜祭り」、「開園時間」、「会場」、「アクセス」、「3月下旬~4月上旬」、「3月25日~4月5日」、「8:00~21:00」、「U公園」、「2017年3月20日」というテキストを画像に変換する。
続いて、特定部133は、テキストを変換した画像のそれぞれが、ステップS1において作成したスクリーンショット画像におけるどの位置にあるかを検索する(S3)。特定部133は、スクリーンショット画像における、テキストを変換した画像との相関度が最も高い画像領域を特定することにより、ウェブページにおける各テキストの位置を特定する(S4)。特定部133は、それぞれのテキストと、テキストに対応する画像領域の座標とを関連付けて記憶部12に記憶させる(S5)。
続いて、特定部133は、ステップS5において記憶部12に記憶させたテキスト及び座標を深層学習モデルに入力する(S6)。特定部133は、テキストの位置関係に基づいて深層学習モデルから出力されるイベント情報を特定し(S7)、登録部134に通知する。
図4に示す例においては、「桜祭り」というイベントの内容を示すテキストの位置の右隣にイベントの開催日を示すテキストが配置されている。また、「会場」というテキストの位置の右隣にイベントの開催場所を示すテキストが配置されている。一方、ウェブページの右下に配置されている日時は、イベントの開催日時ではない可能性が高い。このように、イベント情報を示すテキストが配置される位置と、所定のテキストが配置される位置との間には、一定の関係があると考えられる。したがって、特定部133が、多数のウェブページにおけるテキストの位置情報を含む教師データに基づいて作成された位置用の深層学習モデルにテキストとテキストに対応する画像領域の座標とを入力することで、イベント情報の特定精度を向上させることができる。
なお、特定部133は、多数のウェブページのコンテンツに基づいて、テキスト、スクリーンショット画像及び位置情報の少なくともいずれかを用いて多数のイベント情報を特定し、登録部134は多数のイベント情報を順次データベース3に登録する。
図6は、イベント情報が登録されたデータベース3の一例を示す図である。図6に示すイベント情報データベースにおいては、イベント番号と、イベントの開催日と、イベントの開催時刻と、イベントの開催場所と、イベントの内容とが関連付けられている。図4に示したウェブページに基づいて特定されたイベント情報は、イベント番号が0002のイベント情報である。
登録部134は、異なるウェブページから特定されるイベント情報が異なっている場合、所定の割合以上のウェブページにおいて一致するイベント情報のみをデータベース3に登録してもよい。例えば、登録部134は、複数のウェブページに基づいて特定されたイベント情報のうち、一つだけイベントの開催日が異なる場合、開催日が異なっているイベント情報を登録しないようにしてもよい。
登録部134は、特定部133が特定したイベント情報が、既にデータベース3に登録されているイベント情報と異なる文字列から構成されていることを条件として、特定されたイベント情報をデータベース3に登録してもよい。このようにすることで、同一のイベントに関する情報が多数データベース3に登録されることを防止できる。
また、登録部134は、イベント情報に関連付けて、イベント情報を特定する根拠となったウェブページの数に対応する数値をデータベース3に登録してもよい。データベース3に登録されたイベント情報を参照するアプリケーションは、登録された数値を用いることで、信頼度が高いイベント情報を選択することができる。
なお、登録部134は、特定部133が特定した全てのイベント情報をデータベース3に登録してもよい。この場合、データベース3を参照するアプリケーション側で、アプリケーションで求められる精度に基づいて、使用するイベント情報を取捨選択することにより、アプリケーションを使用するユーザは、適切なイベント情報を取得することができる。
[情報抽出装置1の動作フローチャート]
図7は、情報抽出装置1の動作フローチャートである。情報抽出装置1がイベント情報を特定する処理を開始すると、まず、コンテンツ取得部131が多数のウェブページのコンテンツを取得する(S11)。コンテンツ取得部131がコンテンツを取得すると、特定部133は、コンテンツに含まれるテキストをテキスト用の深層学習モデルに入力することによりイベント情報を特定する(S12)。
特定部133が、テキストに基づいて特定したイベント情報の精度が閾値以上であると判定した場合(S13においてYes)、ステップS17に進んで、登録部134がイベント情報をデータベース3に登録する(S17)。一方、特定部133は、テキストに基づいて特定したイベント情報の精度が閾値未満であると判定した場合(S13においてNo)、ステップS14に進んで、スクリーンショット画像を画像用の深層学習モデルに入力することによりイベント情報を特定する(S14)。ステップS14において、特定部133は、テキスト及びスクリーンショット画像の両方を用いてイベント情報を特定してもよい。
特定部133が、スクリーンショット画像に基づいて特定したイベント情報の精度が閾値以上であると判定した場合(S15においてYes)、ステップS17に進んで、登録部134がイベント情報をデータベース3に登録する(S17)。一方、特定部133は、スクリーンショット画像に基づいて特定したイベント情報の精度が閾値未満であると判定した場合(S15においてNo)、ステップS16に進んで、位置情報を位置用の深層学習モデルに入力することによりイベント情報を特定する(S16)。ステップS16における処理は、図5に示したステップS1からS7までの処理である。ステップS16において、特定部133は、テキスト、スクリーンショット画像及び位置情報の全てを組み合わせてイベント情報を特定してもよい。
以上のように、情報抽出装置1は、ウェブページに含まれるテキスト、ソースコードに基づいて作成したスクリーンショット画像、及びイベントに関連するテキストの位置を示す位置情報を組み合わせて深層学習モデルの入力データとして用いることで、高い精度でイベント情報を特定することができる。
[変形例1]
以上の説明において、特定部133は、予め定められた深層学習モデルを使用したが、イベントの種類、ウェブページを作成した人の国籍、及びウェブページで使用されている言語等によって、ウェブページにおける抽出対象情報の掲載方法の傾向が異なると考えられる。そこで、特定部133は、抽出対象情報を正しく特定できる確率を高めるために、抽出対象情報の種別に基づいて異なる深層学習モデルを使用してもよい。具体的には、特定部133は、通信部11を介して外部のコンピュータから、特定する対象となる抽出対象情報の種別の指定を受け、指定を受けた種別に対応する深層学習モデルを用いて抽出対象情報を特定することができる。
抽出対象情報の種別は、例えば、対象となるウェブページの言語、ウェブページが作成された国、及びイベントの種別である。具体的には、特定部133は、「日本語サイトに掲載されたサッカー関連イベント」、「英語サイトに掲載されたサッカー関連イベント」、「英語サイトに掲載されたアート関連イベント」、又は「中国語サイトに掲載された音楽関連イベント」等を抽出対象情報の種別として用いることができる。特定部133は、指定された種別の抽出対象情報を特定するために適した深層学習モデルを用いることで、抽出対象情報を正しく特定できる確率を高めることができる。
[第1実施形態の情報抽出装置1による効果]
以上説明したように、本実施形態の情報抽出装置1は、コンテンツ取得部131が取得したコンテンツが画面に表示された状態のスクリーンショット画像を作成する画像作成部132と、深層学習モデルへの入力データとしてスクリーンショット画像を用いることにより、スクリーンショット画像に含まれている抽出対象情報としてのイベント情報を特定する特定部133とを有する。このように、特定部133がスクリーンショット画像を用いてイベント情報を特定することにより、ウェブページを閲覧する人が視認する画面の傾向に基づいて、ウェブページに含まれるイベント情報を特定できるので、イベント情報を正しく特定できる確率を高めることができる。
特に、特定部133は、イベントに関連する所定のテキストの第1位置情報が関連付けられた深層学習モデルへの入力データとして、イベント情報において使用される文字列を含む画像領域の位置を示す第2位置情報を用いてイベント情報を特定することで、ウェブページに含まれるテキストの位置関係の傾向に基づいて、ウェブページに含まれるイベント情報を特定できる。したがって、イベント情報に類似するテキストがウェブページ内に複数含まれている場合であっても、特定部133は、高い確率でイベント情報を正しく特定することができる。
本発明は、検索エンジンが、検索キーワードとの関連性が高い順にウェブページをランキングする際にも効果的である。従来の検索エンジンのように、テキストだけに基づいて検索キーワードとウェブページとの関連性を特定する方法を用いる場合、ユーザが視認しないタグに検索キーワードを埋め込むSEO(Search Engine Optimization)対策をすることで、ウェブページを上位にランキング表示させることが可能になってしまう。これに対して、本発明では、スナップショット画像のピクセルデータを用いることで、ウェブページを閲覧するユーザが視認することができる内容に基づいてウェブページをランキングすることができる。したがって、ウェブページにSEO対策のためのコードが埋め込まれている場合にも、検索の精度を向上させることが可能になる。
<第2実施形態>
図8は、第2実施形態の情報抽出装置4の構成を示す図である。情報抽出装置4は、第1実施形態の情報抽出装置1における登録部134の代わりに、広告提供部135を有する点で情報抽出装置1と異なる。
また、情報抽出装置4における特定部133が情報を特定する方法は第1実施形態と同様であるが、情報抽出装置4における特定部133は、スクリーンショット画像から抽出する対象の情報である抽出対象情報として、イベント情報以外の情報も特定する。抽出対象情報は、例えば、予め作成された辞書に含まれているテキスト及び画像である。
記憶部12は、特定部133が特定可能な各種の情報に関連付けて広告情報を記憶する。広告提供部135は、特定部133が特定した情報を取得すると、取得した情報に関連付けて記憶部12に記憶された広告情報をサーバ2に提供する。サーバ2は、ウェブページにアクセスする端末に対して、ウェブページのコンテンツとともに、広告提供部135から提供された広告情報を送信する。
図9は、コンテンツとともに表示される広告情報A1及び広告情報A2を示す図である。特定部133は、図9に示すウェブページ内の各種の情報を特定する。特定部133は、例えば、「U公園」、「お花見」、「桜」、「祭り」等の情報を特定する。また、特定部133は、特定した情報が表示されている位置も特定し、特定した位置に基づいて情報の重要度を決定する。
特定部133は、重要度が閾値以上の情報を広告提供部135に通知する。特定部133は、例えば「U公園」という情報を広告提供部135に通知する。この場合、広告提供部135が、「U公園」に関連付けて記憶部12に記憶された広告情報A1及び広告A2をサーバ2に送信することで、広告情報A1及び広告A2がウェブページに表示される。
図10は、第2実施形態の情報抽出装置4の動作フローチャートである。S21からS26は、図7に示した動作フローチャートにおけるS11からS16に対応する。ただし、S22、S24及びS26において特定する情報は、イベント情報に限らない抽出対象情報である。ステップS22からS26までにおいて特定部133が抽出対象情報を特定すると、広告提供部135は、特定された抽出対象情報に基づいて広告情報を選択する。続いて、S28において、広告提供部135は、選択した広告情報をサーバ2に提供する。
[第2実施形態の情報抽出装置4による効果]
以上説明したように、本実施形態の情報抽出装置4においては、特定部133がウェブページ内の抽出対象情報を特定し、広告提供部135が、特定された抽出対象情報に関連付けられた広告情報をサーバ2に提供する。このように、情報抽出装置4を利用することで、ウェブページのコンテンツに関連する商品やサービスに関する広告をウェブページ内に表示することができるので、ウェブページを閲覧中のユーザが関心を抱く確率を高めることができる。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。
1 情報抽出装置
2 サーバ
3 データベース
4 情報抽出装置
11 通信部
12 記憶部
13 制御部
131 コンテンツ取得部
132 画像作成部
133 特定部
134 登録部
135 広告提供部

Claims (9)

  1. 複数のウェブサイトのコンテンツを取得するコンテンツ取得部と、
    前記コンテンツ取得部が取得した前記コンテンツが画面に表示された状態のスクリーンショット画像を作成する画像作成部と、
    学習用情報を含む複数の学習用画像コンテンツに基づいて深層学習で作成された深層学習モデルへの入力データとして前記スクリーンショット画像を用いることにより、前記スクリーンショット画像に含まれている抽出対象情報を特定する特定部と、
    を有し、
    前記深層学習モデルは、前記学習用画像コンテンツにおける前記学習用情報が含まれている位置を示す第1位置情報を用いた深層学習をすることにより作成されており、
    前記特定部は、前記第1位置情報が関連付けられた前記深層学習モデルへの入力データとして、前記抽出対象情報において使用される文字列を含む画像領域の位置を示す第2位置情報を用いることにより前記抽出対象情報を特定する情報抽出装置。
  2. 前記特定部は、前記コンテンツ取得部が取得した前記コンテンツに含まれている所定の文字列に基づく文字画像を作成し、前記スクリーンショット画像において前記文字画像との相関度が閾値以上である領域を特定することにより、前記画像領域の位置を特定する、
    請求項に記載の情報抽出装置。
  3. 前記特定部は、前記画像領域の位置に基づいて、イベントに関連するイベントの日時、場所及び内容の少なくともいずれかを含むイベント情報を前記抽出対象情報として特定する、
    請求項又はに記載の情報抽出装置。
  4. 前記特定部は、前記コンテンツ取得部が取得した前記コンテンツに含まれるテキスト、前記スクリーンショット画像及び前記第2位置情報のうち2つ以上を前記深層学習モデルへの入力データとして用いることにより、前記抽出対象情報を特定する、
    請求項からのいずれか一項に記載の情報抽出装置。
  5. 前記特定部は、前記テキスト及び前記スクリーンショット画像を前記深層学習モデルへの入力データとして用いて前記抽出対象情報を特定する精度が閾値未満である場合に、前記第2位置情報をさらに前記深層学習モデルへの入力データとして用いる、
    請求項に記載の情報抽出装置。
  6. 前記特定部は、前記深層学習モデルへの複数の入力データのうち、第1の個数の入力データとして前記テキストを用いて前記抽出対象情報を特定した際の精度が閾値未満である場合に、第2の個数の入力データとして前記スクリーンショット画像を用いて前記抽出対象情報を特定する、
    請求項に記載の情報抽出装置。
  7. 前記特定部は、特定する対象となる前記抽出対象情報の種別の指定を受け、指定を受けた前記種別に対応する前記深層学習モデルを用いて前記抽出対象情報を特定する、
    請求項1からのいずれか一項に記載の情報抽出装置。
  8. 前記特定部が特定した前記抽出対象情報に関連付けられた広告を提供する広告提供部をさらに有する、
    請求項1からのいずれか一項に記載の情報抽出装置。
  9. コンピュータが実行する、
    複数のウェブサイトのコンテンツを取得するステップと、
    取得した前記コンテンツが画面に表示された状態のスクリーンショット画像を作成するステップと、
    学習用情報を含む複数の学習用画像コンテンツに基づいて深層学習で作成された深層学習モデルの入力データとして前記スクリーンショット画像を用いることにより、前記スクリーンショット画像に含まれている抽出対象情報を特定するステップと、
    を有し、
    前記深層学習モデルは、前記学習用画像コンテンツにおける前記学習用情報が含まれている位置を示す第1位置情報を用いた深層学習をすることにより作成されており、
    前記特定するステップにおいて、前記第1位置情報が関連付けられた前記深層学習モデルへの入力データとして、前記抽出対象情報において使用される文字列を含む画像領域の位置を示す第2位置情報を用いることにより前記抽出対象情報を特定する情報抽出方法。
JP2017109404A 2017-06-01 2017-06-01 情報抽出装置及び情報抽出方法 Active JP7040745B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017109404A JP7040745B2 (ja) 2017-06-01 2017-06-01 情報抽出装置及び情報抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017109404A JP7040745B2 (ja) 2017-06-01 2017-06-01 情報抽出装置及び情報抽出方法

Publications (2)

Publication Number Publication Date
JP2018205978A JP2018205978A (ja) 2018-12-27
JP7040745B2 true JP7040745B2 (ja) 2022-03-23

Family

ID=64957158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017109404A Active JP7040745B2 (ja) 2017-06-01 2017-06-01 情報抽出装置及び情報抽出方法

Country Status (1)

Country Link
JP (1) JP7040745B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102064521B1 (ko) * 2019-05-08 2020-01-09 주식회사 우리홈쇼핑 금지어를 필터링 하는 방법 및 장치
JP2021170221A (ja) * 2020-04-15 2021-10-28 ネットスター株式会社 学習済みモデル、サイト判定プログラム及びサイト判定システム
CN113343158B (zh) * 2021-07-09 2023-07-04 北京市顺义区妇幼保健院 一种筛选数据的提取与融合方法
CN116110051B (zh) * 2023-04-13 2023-07-14 合肥机数量子科技有限公司 一种文件信息处理方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009294925A (ja) 2008-06-05 2009-12-17 Nippon Telegr & Teleph Corp <Ntt> 属性推定システムおよび属性推定方法
JP2013164874A (ja) 2013-05-28 2013-08-22 Nec Corp 検索装置、検索方法及び検索プログラム
US20130318083A1 (en) 2012-05-24 2013-11-28 International Business Machines Corporation Method and apparatus for obtaining content in screenshot
JP2015060568A (ja) 2013-09-20 2015-03-30 ヤフー株式会社 検索システム、検索方法、端末装置および検索プログラム
JP2015118591A (ja) 2013-12-19 2015-06-25 富士通株式会社 データ特定プログラム、データ特定方法および情報処理装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009294925A (ja) 2008-06-05 2009-12-17 Nippon Telegr & Teleph Corp <Ntt> 属性推定システムおよび属性推定方法
US20130318083A1 (en) 2012-05-24 2013-11-28 International Business Machines Corporation Method and apparatus for obtaining content in screenshot
JP2013164874A (ja) 2013-05-28 2013-08-22 Nec Corp 検索装置、検索方法及び検索プログラム
JP2015060568A (ja) 2013-09-20 2015-03-30 ヤフー株式会社 検索システム、検索方法、端末装置および検索プログラム
JP2015118591A (ja) 2013-12-19 2015-06-25 富士通株式会社 データ特定プログラム、データ特定方法および情報処理装置

Also Published As

Publication number Publication date
JP2018205978A (ja) 2018-12-27

Similar Documents

Publication Publication Date Title
CN107145496B (zh) 基于关键词将图像与内容项目匹配的方法
US9390144B2 (en) Objective and subjective ranking of comments
JP6423845B2 (ja) 検索クエリに応答してコンテンツとマッチングしようとする画像を動的にランキングする方法及びシステム
JP7040745B2 (ja) 情報抽出装置及び情報抽出方法
US8756219B2 (en) Relevant navigation with deep links into query
TWI585598B (zh) 搜尋輔助系統與方法
CN105912669B (zh) 用于补全搜索词及建立个体兴趣模型的方法及装置
US20110191327A1 (en) Method for Human Ranking of Search Results
US9760636B1 (en) Systems and methods for browsing historical content
JP2007531160A (ja) 検索エンジンにおいて検索結果を可変的にパーソナライズ化すること
KR20110085995A (ko) 검색 결과들의 제공
CN101288067A (zh) 从电子文档组装、提取和配置内容的方法和装置
US20160299951A1 (en) Processing a search query and retrieving targeted records from a networked database system
US11586694B2 (en) System and method for improved searching across multiple databases
EP2612290A1 (en) Selecting web page content based on user permission for collecting user-selected content
EP2557511A1 (en) Information processing device, information processing method, information processing programme, and recording medium
CN107463592B (zh) 用于将内容项目与图像匹配的方法、设备和数据处理系统
EP2945076A1 (en) Ranking system for search results on network
CN102893280A (zh) 数据搜索装置、数据搜索方法和程序
US20080270375A1 (en) Local news search engine
CN107766398B (zh) 用于使图像与内容项目匹配的方法、装置和数据处理系统
JP2017117021A (ja) キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム
WO2007139290A1 (en) Method and apparatus for using tab corresponding to query to provide additional information
US20070174266A1 (en) Method of optimization of listed result of internet-based search and system based on the method
US10783398B1 (en) Image editor including localized editing based on generative adversarial networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200525

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220303

R150 Certificate of patent or registration of utility model

Ref document number: 7040745

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150