JP2018205978A - Information extracting device and information extracting method - Google Patents
Information extracting device and information extracting method Download PDFInfo
- Publication number
- JP2018205978A JP2018205978A JP2017109404A JP2017109404A JP2018205978A JP 2018205978 A JP2018205978 A JP 2018205978A JP 2017109404 A JP2017109404 A JP 2017109404A JP 2017109404 A JP2017109404 A JP 2017109404A JP 2018205978 A JP2018205978 A JP 2018205978A
- Authority
- JP
- Japan
- Prior art keywords
- information
- image
- deep learning
- learning model
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、ウェブページから情報を抽出するための情報抽出装置及び情報抽出方法に関する。 The present invention relates to an information extraction apparatus and an information extraction method for extracting information from a web page.
従来、ウェブサイトをクローリングして、情報を抽出する方法が知られている。特許文献1には、ウェブページに含まれている有用なデータを抽出する検索エンジンが開示されている。従来の検索エンジンにおいては、ウェブページ内のテキストに基づいて、情報を抽出する。例えば、従来の検索エンジンは、日付を示す「年」、「月」、「日」等のテキストがあることを条件として日付情報を抽出する。
Conventionally, a method of extracting information by crawling a website is known.
しかしながら、テキストに基づいて情報を抽出する場合、抽出された情報が所望の情報でないことが多かった。例えば、ウェブページにおいてスポーツや行楽に関するイベントに関する情報を抽出する場合に、検索エンジンは、「2017年4月1日」という日付を示す情報をイベントの開催日として抽出する。しかし、抽出した日付はイベントの開催日ではなく、イベントへの参加申し込みの締め切り日であるという場合がある。したがって、検索エンジンがテキストに基づいて情報を抽出する場合、誤った情報を抽出してしまうことがあるという問題が生じていた。 However, when extracting information based on text, the extracted information is often not desired information. For example, when extracting information about an event related to sports or amusement on a web page, the search engine extracts information indicating a date “April 1, 2017” as the date of the event. However, in some cases, the extracted date is not the date of the event, but the deadline for applying to participate in the event. Therefore, when the search engine extracts information based on the text, there has been a problem that incorrect information may be extracted.
そこで、本発明はこれらの点に鑑みてなされたものであり、ウェブページから情報を抽出する際の精度を向上させることができる情報抽出装置及び情報抽出方法を提供することを目的とする。 Therefore, the present invention has been made in view of these points, and an object thereof is to provide an information extraction apparatus and an information extraction method capable of improving accuracy when extracting information from a web page.
本発明の第1の態様の情報抽出装置は、複数のウェブサイトのコンテンツを取得するコンテンツ取得部と、前記コンテンツ取得部が取得した前記コンテンツが画面に表示された状態のスクリーンショット画像を作成する画像作成部と、学習用情報を含む複数の学習用画像コンテンツに基づいて深層学習で作成された深層学習モデルへの入力データとして前記スクリーンショット画像を用いることにより、前記スクリーンショット画像に含まれている抽出対象情報を特定する特定部と、を有する。 An information extraction device according to a first aspect of the present invention creates a content acquisition unit that acquires content of a plurality of websites, and a screenshot image in a state where the content acquired by the content acquisition unit is displayed on a screen. Included in the screenshot image by using the screenshot image as input data to an image creation unit and a deep learning model created by deep learning based on a plurality of learning image contents including learning information And a specifying unit for specifying the extraction target information.
前記深層学習モデルは、前記学習用画像コンテンツにおける前記学習用情報が含まれている位置を示す第1位置情報を用いた深層学習をすることにより作成されており、前記特定部は、前記第1位置情報が関連付けられた前記深層学習モデルへの入力データとして、前記抽出対象情報において使用される文字列を含む画像領域の位置を示す第2位置情報を用いることにより前記抽出対象情報を特定してもよい。 The deep learning model is created by performing deep learning using first position information indicating a position where the learning information is included in the learning image content, and the specifying unit includes the first learning information. As the input data to the deep learning model associated with the position information, the extraction target information is specified by using the second position information indicating the position of the image region including the character string used in the extraction target information. Also good.
前記特定部は、前記コンテンツ取得部が取得した前記コンテンツに含まれている所定の文字列に基づく文字画像を作成し、前記スクリーンショット画像において前記文字画像との相関度が閾値以上である領域を特定することにより、前記画像領域の位置を特定してもよい。前記特定部は、前記画像領域の位置に基づいて、イベントに関連するイベントの日時、場所及び内容の少なくともいずれかを含むイベント情報を前記抽出対象情報として特定してもよい。 The specifying unit creates a character image based on a predetermined character string included in the content acquired by the content acquisition unit, and an area having a correlation degree with the character image in the screen shot image is a threshold value or more. The position of the image area may be specified by specifying. The specifying unit may specify, as the extraction target information, event information including at least one of an event date and time, a place, and a content related to an event based on the position of the image area.
また、前記特定部は、前記コンテンツ取得部が取得した前記コンテンツに含まれるテキスト、前記スクリーンショット画像及び前記第2位置情報のうち2つ以上を前記深層学習モデルへの入力データとして用いることにより、前記抽出対象情報を特定してもよい。この場合、前記特定部は、前記テキスト及び前記スクリーンショット画像を前記深層学習モデルへの入力データとして用いて前記抽出対象情報を特定する精度が閾値未満である場合に、前記第2位置情報をさらに前記深層学習モデルへの入力データとして用いてもよい。 Further, the specifying unit uses two or more of the text, the screenshot image, and the second position information included in the content acquired by the content acquisition unit as input data to the deep learning model. The extraction target information may be specified. In this case, when the accuracy of specifying the extraction target information using the text and the screenshot image as input data to the deep learning model is less than a threshold, the specifying unit further adds the second position information. It may be used as input data to the deep learning model.
前記特定部は、前記深層学習モデルへの複数の入力データのうち、第1の個数の入力データとして前記テキストを用いて前記抽出対象情報を特定した際の精度が前記閾値未満である場合に、第2の個数の入力データとして前記スクリーンショット画像を用いて前記抽出対象情報を特定してもよい。 When the accuracy when the extraction target information is specified using the text as the first number of input data among the plurality of input data to the deep learning model is less than the threshold, The extraction target information may be specified using the screenshot image as the second number of input data.
また、前記特定部は、特定する対象となる前記抽出対象情報の種別の指定を受け、指定を受けた前記種別に対応する前記深層学習モデルを用いて前記抽出対象情報を特定してもよい。 The specifying unit may receive specification of the type of the extraction target information to be specified, and specify the extraction target information using the deep learning model corresponding to the specified type.
また、情報抽出装置は、特定部が特定した前記抽出対象情報に関連付けられた広告を提供する広告提供部をさらに有してもよい。 The information extraction device may further include an advertisement providing unit that provides an advertisement associated with the extraction target information specified by the specifying unit.
本発明の第2の態様の情報抽出方法は、コンピュータが実行する、複数のウェブサイトのコンテンツを取得するステップと、取得した前記コンテンツが画面に表示された状態のスクリーンショット画像を作成するステップと、学習用情報を含む複数の学習用画像コンテンツに基づいて深層学習で作成された深層学習モデルの入力データとして前記スクリーンショット画像を用いることにより、前記スクリーンショット画像に含まれている抽出対象情報を特定するステップと、を有する。 The information extraction method according to the second aspect of the present invention includes a step of acquiring contents of a plurality of websites executed by a computer, a step of creating a screenshot image in a state where the acquired contents are displayed on a screen, By using the screenshot image as input data of a deep learning model created by deep learning based on a plurality of learning image contents including learning information, the extraction target information included in the screenshot image is obtained. Identifying.
本発明によれば、ウェブページから情報を抽出する際の精度を向上させることができるという効果を奏する。 According to the present invention, it is possible to improve the accuracy when extracting information from a web page.
<第1実施形態>
[情報抽出装置1の概要]
図1は、第1実施形態の情報抽出装置1の概要を説明するための図である。情報抽出装置1は、インターネットNを介してアクセス可能な複数のサーバ2から提供されるウェブページに含まれているコンテンツから、所望の情報を抽出するためのコンピュータである。情報抽出装置1は、ウェブページのコンテンツから、予め設定された各種の抽出対象情報を抽出し、抽出した抽出対象情報をデータベース3に登録する。本実施の形態においては、情報抽出装置1が、各種のイベントに関するイベント情報を抽出対象情報として抽出し、抽出したイベント情報をデータベース3に登録する場合を例示するが、情報抽出装置1が抽出する抽出対象情報はイベント情報に限定されない。
<First Embodiment>
[Outline of Information Extraction Apparatus 1]
FIG. 1 is a diagram for explaining an overview of an
なお、イベントは、特定の日又は期間に開催される行事であり、例えば、スポーツの試合、祭り、展示会及び特売セールである。イベント情報は、イベントの開催日又は開催期間、イベントの開催場所、及びイベントの内容の少なくともいずれかを含む情報である。 An event is an event held on a specific day or period, for example, a sporting game, a festival, an exhibition, or a special sale. The event information is information including at least one of an event date or period, an event location, and an event content.
データベース3に登録されたイベント情報は、各種のアプリケーションにより使用され得る。例えば、車両に搭載されたカーナビゲーションシステムは、データベース3に登録されたイベント情報を取得して、取得したイベント情報に基づいて、車両の現在位置又は目的地までの経路から所定の範囲内で開催されているイベントを抽出する。カーナビゲーションシステムが、抽出したイベントに関する情報を表示することで、車両内の人が、近くでイベントが開催されていることを認識することが可能になる。
The event information registered in the
[イベント情報の抽出方法の概要]
図2は、情報抽出装置1がイベント情報を抽出する方法の概要について説明するための図である。情報抽出装置1は、ウェブページに含まれているウェブコンテンツから得られる各種のデータを、予め作成された深層学習モデルの入力データとして用いて、高い精度でイベント情報を抽出することができる。深層学習モデルは、学習用情報として用いられる多数の教師データを使用して入力変数と出力変数との間の関係を学習することにより係数が決定されたニューラルネットワークにより構成されるモデルである。
[Outline of event information extraction method]
FIG. 2 is a diagram for explaining an outline of a method by which the
情報抽出装置1は、深層学習モデルへの入力データとして、テキスト、画像、及びウェブページ内における所定の画像の座標を示す位置情報を組み合わせて用いることができる。情報抽出装置1は、ウェブページ内のテキストを深層学習モデルの入力データとして用いる場合、ウェブページのソースコードから予め登録された複数のテキストを抽出し、抽出した複数のテキストを深層学習モデルの入力データとする。このようにすることで、情報抽出装置1は、深層学習モデルに入力した複数のテキストの組み合わせに基づいて、高い確率で正しくイベント情報を抽出することができる。
The
情報抽出装置1は、テキストに代えて、又はテキストと共に、ウェブページ内のソースコードをレンダリングすることにより得られるスクリーンショット画像を深層学習モデルの入力データとして用いることもできる。スクリーンショット画像は、ウェブページがコンピュータの画面に表示された状態の画像である。スクリーンショット画像を入力データとして用いることができる画像用の深層学習モデルは、学習用の多数のスクリーンショット画像を用いて作成されている。情報抽出装置1が、スクリーンショット画像を画像用の深層学習モデルの入力データとして用いることで、ユーザがウェブページを視認した際にイベント情報であると認識する情報を抽出できるので、イベント情報を正しく抽出できる確率がさらに高まる。
The
情報抽出装置1は、例えば、テキストだけを用いてイベント情報を抽出した場合の精度が低いと考えられる場合に、テキストと共にスクリーンショット画像を深層学習モデルの入力データとして用いてもよい。情報抽出装置1は、テキスト及びスクリーンショット画像を組み合わせて、深層学習モデルの一部の入力データとしてテキストを用いて、深層学習モデルの他の一部の入力データとして用いることで、イベント情報を正しく抽出できる確率をさらに高めることができる。
For example, when it is considered that the accuracy when event information is extracted using only text is low, the
情報抽出装置1は、スクリーンショット画像における所定のテキストの位置を特定し、特定した位置を示す座標を深層学習モデルの入力データとして用いることで、イベント情報を正しく抽出できる確率をさらに高めることができる。情報抽出装置1がスクリーンショット画像における所定のテキストの位置を特定する方法の詳細については後述する。
The
[深層学習モデルの作成方法]
深層学習モデルは、既知の各種の方法を用いて作成することができる。テキストを入力データとして使用できる深層学習モデルを作成する場合、多数(例えば100万)のウェブページに含まれているテキストを教師データとして使用する。深層学習モデルの作成者は、学習のために使用されるウェブページを視認することにより、ウェブページに基づいて把握できるイベント情報を特定する。そして、特定された学習用のイベント情報を、教師データとして使用されるウェブページのソースコードから抽出されるテキストに関連付けることで、テキストを入力データとするテキスト用の深層学習モデルを作成することができる。なお、深層学習モデルの作成者が特定するイベント情報は、ウェブページに含まれているテキストと同一であってもよく、ウェブページに含まれるテキストと異なる内容であってもよい。
[How to create a deep learning model]
The deep learning model can be created using various known methods. When creating a deep learning model that can use text as input data, text included in a large number (for example, 1 million) of web pages is used as teacher data. The creator of the deep learning model identifies event information that can be grasped based on the web page by visually recognizing the web page used for learning. Then, it is possible to create a deep learning model for text using text as input data by associating the identified learning event information with text extracted from the source code of a web page used as teacher data it can. The event information specified by the creator of the deep learning model may be the same as the text included in the web page, or may be different content from the text included in the web page.
同様に、スクリーンショット画像を入力データとして使用できる深層学習モデルを作成する場合、多数のウェブページのスクリーンショット画像を教師データとして使用する。そして、学習のために使用されるウェブページを深層学習モデルの作成者が視認することにより特定された学習用のイベント情報を、教師データとして使用されるウェブページのソースコードをレンダリングして得られるスクリーンショット画像に関連付けることで、スクリーンショット画像を入力データとする画像用の深層学習モデルを作成することができる。 Similarly, when creating a deep learning model that can use screen shot images as input data, screen shot images of many web pages are used as teacher data. The event information for learning specified by the creator of the deep learning model visually confirming the web page used for learning is obtained by rendering the source code of the web page used as teacher data. By associating with a screenshot image, it is possible to create a deep learning model for an image using the screenshot image as input data.
また、位置情報を入力データとして使用できる深層学習モデルを作成する場合、多数のウェブページに含まれるテキストの位置を教師データとして使用する。そして、学習のために使用されるウェブページを深層学習モデルの作成者が視認することにより特定された学習用のイベント情報を、教師データとして使用されるウェブページに含まれるテキストの位置情報に関連付けることで、位置情報を入力データとする位置用の深層学習モデルを作成することができる。 Further, when creating a deep learning model that can use position information as input data, the positions of texts included in many web pages are used as teacher data. The event information for learning specified by the creator of the deep learning model visually confirming the web page used for learning is associated with the position information of the text included in the web page used as teacher data. Thus, it is possible to create a deep learning model for position using position information as input data.
なお、深層学習モデルの作成者は、定期的に新たな学習用のウェブページを使用して学習作業を行うことにより、深層学習モデルを更新することで、直近のウェブページの構成の傾向に合致した深層学習モデルを作成することができる。 In addition, the creator of the deep learning model regularly updates the deep learning model by using a new learning web page to match the trend of the most recent web page configuration. A deep learning model can be created.
また、深層学習モデルの作成者は、ウェブページから抽出したい情報の種別ごとに深層学習モデルを作成することができる。例えば、深層学習モデルの作成者は、サッカーの試合に関するイベント情報が含まれている教師データを用いて深層学習モデルを作成することにより、サッカーの試合に関するイベント情報を正しく抽出できる確率が高まる深層学習モデルを作成することができる。情報抽出装置1は、抽出する対象の情報の種別に基づいて選択した深層学習モデルを使用することで、所望の情報を正しく抽出できる確率を高めることができる。
以下、情報抽出装置1の構成及び動作の詳細について説明する。
Further, the creator of the deep learning model can create a deep learning model for each type of information that is desired to be extracted from the web page. For example, the creator of a deep learning model creates a deep learning model using teacher data that includes event information related to a soccer game, thereby increasing the probability that event information related to a soccer game can be correctly extracted. A model can be created. The
Hereinafter, the configuration and operation of the
[情報抽出装置1の構成]
図3は、情報抽出装置1の構成を示す図である。情報抽出装置1は、通信部11と、記憶部12と、制御部13とを有する。
[Configuration of Information Extraction Apparatus 1]
FIG. 3 is a diagram illustrating a configuration of the
通信部11は、情報抽出装置1がインターネットNを介してサーバ2及びデータベース3との間でデータを送受信するための通信コントローラを含む通信インターフェースである。通信部11は、インターネットNを介して受信したウェブページのコンテンツを制御部13に入力する。また、制御部13が出力したイベント情報をデータベース3に対して送信する。
The
記憶部12は、ROM(Read Only Memory)、RAM(Random Access Memory)及びハードディスク等の記憶媒体を含む。記憶部12は、制御部13が実行するプログラムを記憶している。
The
制御部13は、例えばCPU(Central Processing Unit)であり、記憶部12に記憶されたプログラムを実行することにより、コンテンツ取得部131、画像作成部132、特定部133及び登録部134として機能する。
The
コンテンツ取得部131は、通信部11を介して、複数のウェブサイトのコンテンツを取得する。コンテンツ取得部131は、取得したコンテンツを記憶部12に記憶させる。
The
図4は、コンテンツ取得部131が取得するコンテンツの一例を示す図である。図4に示すコンテンツは、U公園におけるお花見イベントに関する情報を含んでいる。以下の説明においては、図4に示すコンテンツに基づいてイベント情報を特定する処理について説明する。
FIG. 4 is a diagram illustrating an example of content acquired by the
コンテンツ取得部131は、テキストに基づいてイベント情報を抽出する場合、取得したコンテンツを特定部133に入力する。また、コンテンツ取得部131は、スクリーンショット画像に基づいてイベント情報を抽出する場合、取得したコンテンツを画像作成部132にも入力する。
When extracting event information based on text, the
画像作成部132は、コンテンツ取得部131が取得したコンテンツが画面に表示された状態のスクリーンショット画像を作成する。画像作成部132は、作成したスクリーンショット画像を特定部133に入力する。
The
特定部133は、コンテンツ取得部131が取得したコンテンツに含まれるテキスト、スクリーンショット画像及び位置情報を用いることにより、コンテンツ取得部131が取得したコンテンツに含まれている抽出対象情報としてのイベント情報を特定する。
The specifying
特定部133は、図4に示すコンテンツに含まれるテキストを深層学習モデルの入力データとして用いる場合、例えば、「桜祭り」、「開園時間」、「会場」、「アクセス」、「3月下旬〜4月上旬」、「3月25日〜4月5日」、「8:00〜21:00」、「U公園」、「2017年3月20日」を、深層学習モデルの入力データとするテキストとして抽出する。その結果、特定部133は、深層学習モデルから、イベント日時が「3月25日〜4月5日」の「8:00〜21:00」であり、イベントの開催場所が「U公園」であり、イベントの内容が「桜祭り」であることを示す出力を得ることができる。
When the text included in the content shown in FIG. 4 is used as input data for the deep learning model, the specifying
しかしながら、図4に示すコンテンツには、日付を示す「2017年3月20日」というテキストも含まれているため、深層学習モデルから、イベント日時が「2017年3月20日」であるという誤った出力が得られる可能性がある。そこで、特定部133は、テキスト、スクリーンショット画像及び位置情報のうち2つ以上を学習モデルへの入力として用いることにより、正しい抽出対象情報を特定する確率を高めることができる。例えば、特定部133は、深層学習モデルへの複数の入力データのうち、第1の個数の入力データとしてテキストを用いて抽出対象情報を特定した際の精度が閾値未満である場合に、第2の個数の入力データとしてスクリーンショット画像を用いて抽出対象情報を特定してもよい。
However, since the content shown in FIG. 4 also includes the text “March 20, 2017” indicating the date, the deep learning model incorrectly indicates that the event date is “March 20, 2017”. Output may be obtained. Therefore, the specifying
図4に示す例の場合、桜祭りの開催日を示す「3月25日〜4月5日」というテキストの周囲には網模様が付されている。特定部133は、深層学習モデルへの入力データとしてスクリーンショット画像を用いると、日付を示す複数のテキスト「3月25日〜4月5日」及び「2017年3月20日」のうち、網模様に囲まれたテキストである「3月25日〜4月5日」が深層学習モデルから出力される。このように、特定部133は、スクリーンショット画像を深層学習モデルへの入力データとして用いることで、イベント情報を正しく特定できる。
In the case of the example shown in FIG. 4, a net pattern is added around the text “March 25 to April 5” indicating the date of the cherry blossom festival. When the screen shot image is used as the input data to the deep learning model, the specifying
また、特定部133は、テキスト及びスクリーンショット画像を深層学習モデルへの入力として用いてイベント情報を特定する精度が閾値未満である場合に、イベント情報において使用される文字列を含む画像領域の位置を示す位置情報をさらに学習モデルへの入力として用いる。具体的には、特定部133は、学習用画像コンテンツにおける学習用情報としての所定のテキストが含まれている位置を示す位置情報を用いた深層学習をすることにより作成された位置用の深層学習モデルに、コンテンツ取得部131が取得したコンテンツに含まれている所定の文字列と文字列の位置を示す座標を入力する。このようにすることで、深層学習モデルからは、入力された文字列の位置に対応するイベント情報が出力される。
The specifying
特定部133は、文字列の位置を特定するために、コンテンツ取得部131が取得したコンテンツに含まれている所定の文字列に基づく文字画像を作成し、スクリーンショット画像において文字画像との相関度が閾値以上である領域を特定する。特定部133は、イベント情報に使用されるテキストが含まれている画像領域の位置を特定することで、深層学習モデルの入力データとして用いる文字列の位置を特定することができる。このようにすることで、特定部133は、イベント情報に使用されるテキストが含まれている画像領域の位置に基づいて、イベントに関連するイベントの日時、場所及び内容の少なくともいずれかを含むイベント情報を抽出対象情報として特定することができる。
The specifying
図5は、特定部133が位置情報に基づいてイベント情報を特定する動作の手順を示すフローチャートである。以下、図4及び図5を参照しながら、特定部133が位置情報に基づいてイベント情報を特定する動作について説明する。
FIG. 5 is a flowchart showing a procedure of an operation in which the specifying
まず、特定部133は、コンテンツ取得部131が取得したコンテンツをレンダリングしてスクリーンショット画像を作成する(S1)。続いて、コンテンツ取得部131が取得したコンテンツに含まれる所定のテキストを画像に変換する(S2)。図4に示す例の場合、特定部133は、「桜祭り」、「開園時間」、「会場」、「アクセス」、「3月下旬〜4月上旬」、「3月25日〜4月5日」、「8:00〜21:00」、「U公園」、「2017年3月20日」というテキストを画像に変換する。
First, the specifying
続いて、特定部133は、テキストを変換した画像のそれぞれが、ステップS1において作成したスクリーンショット画像におけるどの位置にあるかを検索する(S3)。特定部133は、スクリーンショット画像における、テキストを変換した画像との相関度が最も高い画像領域を特定することにより、ウェブページにおける各テキストの位置を特定する(S4)。特定部133は、それぞれのテキストと、テキストに対応する画像領域の座標とを関連付けて記憶部12に記憶させる(S5)。
Subsequently, the specifying
続いて、特定部133は、ステップS5において記憶部12に記憶させたテキスト及び座標を深層学習モデルに入力する(S6)。特定部133は、テキストの位置関係に基づいて深層学習モデルから出力されるイベント情報を特定し(S7)、登録部134に通知する。
Subsequently, the specifying
図4に示す例においては、「桜祭り」というイベントの内容を示すテキストの位置の右隣にイベントの開催日を示すテキストが配置されている。また、「会場」というテキストの位置の右隣にイベントの開催場所を示すテキストが配置されている。一方、ウェブページの右下に配置されている日時は、イベントの開催日時ではない可能性が高い。このように、イベント情報を示すテキストが配置される位置と、所定のテキストが配置される位置との間には、一定の関係があると考えられる。したがって、特定部133が、多数のウェブページにおけるテキストの位置情報を含む教師データに基づいて作成された位置用の深層学習モデルにテキストとテキストに対応する画像領域の座標とを入力することで、イベント情報の特定精度を向上させることができる。
In the example shown in FIG. 4, text indicating the date of the event is arranged to the right of the text position indicating the content of the event “Sakura Festival”. In addition, a text indicating the place where the event is held is arranged to the right of the position of the text “venue”. On the other hand, the date and time arranged at the lower right of the web page is highly likely not the event date and time. As described above, it is considered that there is a certain relationship between the position where the text indicating the event information is arranged and the position where the predetermined text is arranged. Therefore, the specifying
なお、特定部133は、多数のウェブページのコンテンツに基づいて、テキスト、スクリーンショット画像及び位置情報の少なくともいずれかを用いて多数のイベント情報を特定し、登録部134は多数のイベント情報を順次データベース3に登録する。
The specifying
図6は、イベント情報が登録されたデータベース3の一例を示す図である。図6に示すイベント情報データベースにおいては、イベント番号と、イベントの開催日と、イベントの開催時刻と、イベントの開催場所と、イベントの内容とが関連付けられている。図4に示したウェブページに基づいて特定されたイベント情報は、イベント番号が0002のイベント情報である。
FIG. 6 is a diagram illustrating an example of the
登録部134は、異なるウェブページから特定されるイベント情報が異なっている場合、所定の割合以上のウェブページにおいて一致するイベント情報のみをデータベース3に登録してもよい。例えば、登録部134は、複数のウェブページに基づいて特定されたイベント情報のうち、一つだけイベントの開催日が異なる場合、開催日が異なっているイベント情報を登録しないようにしてもよい。
When event information specified from different web pages is different, the
登録部134は、特定部133が特定したイベント情報が、既にデータベース3に登録されているイベント情報と異なる文字列から構成されていることを条件として、特定されたイベント情報をデータベース3に登録してもよい。このようにすることで、同一のイベントに関する情報が多数データベース3に登録されることを防止できる。
The
また、登録部134は、イベント情報に関連付けて、イベント情報を特定する根拠となったウェブページの数に対応する数値をデータベース3に登録してもよい。データベース3に登録されたイベント情報を参照するアプリケーションは、登録された数値を用いることで、信頼度が高いイベント情報を選択することができる。
Further, the
なお、登録部134は、特定部133が特定した全てのイベント情報をデータベース3に登録してもよい。この場合、データベース3を参照するアプリケーション側で、アプリケーションで求められる精度に基づいて、使用するイベント情報を取捨選択することにより、アプリケーションを使用するユーザは、適切なイベント情報を取得することができる。
The
[情報抽出装置1の動作フローチャート]
図7は、情報抽出装置1の動作フローチャートである。情報抽出装置1がイベント情報を特定する処理を開始すると、まず、コンテンツ取得部131が多数のウェブページのコンテンツを取得する(S11)。コンテンツ取得部131がコンテンツを取得すると、特定部133は、コンテンツに含まれるテキストをテキスト用の深層学習モデルに入力することによりイベント情報を特定する(S12)。
[Operation Flowchart of Information Extraction Apparatus 1]
FIG. 7 is an operation flowchart of the
特定部133が、テキストに基づいて特定したイベント情報の精度が閾値以上であると判定した場合(S13においてYes)、ステップS17に進んで、登録部134がイベント情報をデータベース3に登録する(S17)。一方、特定部133は、テキストに基づいて特定したイベント情報の精度が閾値未満であると判定した場合(S13においてNo)、ステップS14に進んで、スクリーンショット画像を画像用の深層学習モデルに入力することによりイベント情報を特定する(S14)。ステップS14において、特定部133は、テキスト及びスクリーンショット画像の両方を用いてイベント情報を特定してもよい。
When the specifying
特定部133が、スクリーンショット画像に基づいて特定したイベント情報の精度が閾値以上であると判定した場合(S15においてYes)、ステップS17に進んで、登録部134がイベント情報をデータベース3に登録する(S17)。一方、特定部133は、スクリーンショット画像に基づいて特定したイベント情報の精度が閾値未満であると判定した場合(S15においてNo)、ステップS16に進んで、位置情報を位置用の深層学習モデルに入力することによりイベント情報を特定する(S16)。ステップS16における処理は、図5に示したステップS1からS7までの処理である。ステップS16において、特定部133は、テキスト、スクリーンショット画像及び位置情報の全てを組み合わせてイベント情報を特定してもよい。
When the specifying
以上のように、情報抽出装置1は、ウェブページに含まれるテキスト、ソースコードに基づいて作成したスクリーンショット画像、及びイベントに関連するテキストの位置を示す位置情報を組み合わせて深層学習モデルの入力データとして用いることで、高い精度でイベント情報を特定することができる。
As described above, the
[変形例1]
以上の説明において、特定部133は、予め定められた深層学習モデルを使用したが、イベントの種類、ウェブページを作成した人の国籍、及びウェブページで使用されている言語等によって、ウェブページにおける抽出対象情報の掲載方法の傾向が異なると考えられる。そこで、特定部133は、抽出対象情報を正しく特定できる確率を高めるために、抽出対象情報の種別に基づいて異なる深層学習モデルを使用してもよい。具体的には、特定部133は、通信部11を介して外部のコンピュータから、特定する対象となる抽出対象情報の種別の指定を受け、指定を受けた種別に対応する深層学習モデルを用いて抽出対象情報を特定することができる。
[Modification 1]
In the above description, the specifying
抽出対象情報の種別は、例えば、対象となるウェブページの言語、ウェブページが作成された国、及びイベントの種別である。具体的には、特定部133は、「日本語サイトに掲載されたサッカー関連イベント」、「英語サイトに掲載されたサッカー関連イベント」、「英語サイトに掲載されたアート関連イベント」、又は「中国語サイトに掲載された音楽関連イベント」等を抽出対象情報の種別として用いることができる。特定部133は、指定された種別の抽出対象情報を特定するために適した深層学習モデルを用いることで、抽出対象情報を正しく特定できる確率を高めることができる。
The type of extraction target information is, for example, the language of the target web page, the country in which the web page was created, and the type of event. Specifically, the specifying
[第1実施形態の情報抽出装置1による効果]
以上説明したように、本実施形態の情報抽出装置1は、コンテンツ取得部131が取得したコンテンツが画面に表示された状態のスクリーンショット画像を作成する画像作成部132と、深層学習モデルへの入力データとしてスクリーンショット画像を用いることにより、スクリーンショット画像に含まれている抽出対象情報としてのイベント情報を特定する特定部133とを有する。このように、特定部133がスクリーンショット画像を用いてイベント情報を特定することにより、ウェブページを閲覧する人が視認する画面の傾向に基づいて、ウェブページに含まれるイベント情報を特定できるので、イベント情報を正しく特定できる確率を高めることができる。
[Effects of the
As described above, the
特に、特定部133は、イベントに関連する所定のテキストの第1位置情報が関連付けられた深層学習モデルへの入力データとして、イベント情報において使用される文字列を含む画像領域の位置を示す第2位置情報を用いてイベント情報を特定することで、ウェブページに含まれるテキストの位置関係の傾向に基づいて、ウェブページに含まれるイベント情報を特定できる。したがって、イベント情報に類似するテキストがウェブページ内に複数含まれている場合であっても、特定部133は、高い確率でイベント情報を正しく特定することができる。
In particular, the specifying
本発明は、検索エンジンが、検索キーワードとの関連性が高い順にウェブページをランキングする際にも効果的である。従来の検索エンジンのように、テキストだけに基づいて検索キーワードとウェブページとの関連性を特定する方法を用いる場合、ユーザが視認しないタグに検索キーワードを埋め込むSEO(Search Engine Optimization)対策をすることで、ウェブページを上位にランキング表示させることが可能になってしまう。これに対して、本発明では、スナップショット画像のピクセルデータを用いることで、ウェブページを閲覧するユーザが視認することができる内容に基づいてウェブページをランキングすることができる。したがって、ウェブページにSEO対策のためのコードが埋め込まれている場合にも、検索の精度を向上させることが可能になる。 The present invention is also effective when a search engine ranks web pages in descending order of relevance with a search keyword. When using a method that identifies the relationship between a search keyword and a web page based only on text, as in conventional search engines, take SEO (Search Engine Optimization) measures to embed the search keyword in a tag that the user does not see Thus, it becomes possible to display the ranking of the web page at the top. On the other hand, in this invention, a web page can be ranked based on the content which the user who browses a web page can visually recognize by using the pixel data of a snapshot image. Therefore, even when a code for SEO countermeasures is embedded in the web page, it is possible to improve the search accuracy.
<第2実施形態>
図8は、第2実施形態の情報抽出装置4の構成を示す図である。情報抽出装置4は、第1実施形態の情報抽出装置1における登録部134の代わりに、広告提供部135を有する点で情報抽出装置1と異なる。
Second Embodiment
FIG. 8 is a diagram illustrating a configuration of the
また、情報抽出装置4における特定部133が情報を特定する方法は第1実施形態と同様であるが、情報抽出装置4における特定部133は、スクリーンショット画像から抽出する対象の情報である抽出対象情報として、イベント情報以外の情報も特定する。抽出対象情報は、例えば、予め作成された辞書に含まれているテキスト及び画像である。
The method for specifying information by the specifying
記憶部12は、特定部133が特定可能な各種の情報に関連付けて広告情報を記憶する。広告提供部135は、特定部133が特定した情報を取得すると、取得した情報に関連付けて記憶部12に記憶された広告情報をサーバ2に提供する。サーバ2は、ウェブページにアクセスする端末に対して、ウェブページのコンテンツとともに、広告提供部135から提供された広告情報を送信する。
The
図9は、コンテンツとともに表示される広告情報A1及び広告情報A2を示す図である。特定部133は、図9に示すウェブページ内の各種の情報を特定する。特定部133は、例えば、「U公園」、「お花見」、「桜」、「祭り」等の情報を特定する。また、特定部133は、特定した情報が表示されている位置も特定し、特定した位置に基づいて情報の重要度を決定する。
FIG. 9 is a diagram showing advertisement information A1 and advertisement information A2 displayed together with content. The specifying
特定部133は、重要度が閾値以上の情報を広告提供部135に通知する。特定部133は、例えば「U公園」という情報を広告提供部135に通知する。この場合、広告提供部135が、「U公園」に関連付けて記憶部12に記憶された広告情報A1及び広告A2をサーバ2に送信することで、広告情報A1及び広告A2がウェブページに表示される。
The specifying
図10は、第2実施形態の情報抽出装置4の動作フローチャートである。S21からS26は、図7に示した動作フローチャートにおけるS11からS16に対応する。ただし、S22、S24及びS26において特定する情報は、イベント情報に限らない抽出対象情報である。ステップS22からS26までにおいて特定部133が抽出対象情報を特定すると、広告提供部135は、特定された抽出対象情報に基づいて広告情報を選択する。続いて、S28において、広告提供部135は、選択した広告情報をサーバ2に提供する。
FIG. 10 is an operation flowchart of the
[第2実施形態の情報抽出装置4による効果]
以上説明したように、本実施形態の情報抽出装置4においては、特定部133がウェブページ内の抽出対象情報を特定し、広告提供部135が、特定された抽出対象情報に関連付けられた広告情報をサーバ2に提供する。このように、情報抽出装置4を利用することで、ウェブページのコンテンツに関連する商品やサービスに関する広告をウェブページ内に表示することができるので、ウェブページを閲覧中のユーザが関心を抱く確率を高めることができる。
[Effects of
As described above, in the
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の分散・統合の具体的な実施の形態は、以上の実施の形態に限られず、その全部又は一部について、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を合わせ持つ。 As mentioned above, although this invention was demonstrated using embodiment, the technical scope of this invention is not limited to the range as described in the said embodiment, A various deformation | transformation and change are possible within the range of the summary. is there. For example, the specific embodiments of device distribution / integration are not limited to the above-described embodiments, and all or a part of them may be configured to be functionally or physically distributed / integrated in arbitrary units. Can do. In addition, new embodiments generated by any combination of a plurality of embodiments are also included in the embodiments of the present invention. The effect of the new embodiment produced by the combination has the effect of the original embodiment.
1 情報抽出装置
2 サーバ
3 データベース
4 情報抽出装置
11 通信部
12 記憶部
13 制御部
131 コンテンツ取得部
132 画像作成部
133 特定部
134 登録部
135 広告提供部
DESCRIPTION OF
Claims (10)
前記コンテンツ取得部が取得した前記コンテンツが画面に表示された状態のスクリーンショット画像を作成する画像作成部と、
学習用情報を含む複数の学習用画像コンテンツに基づいて深層学習で作成された深層学習モデルへの入力データとして前記スクリーンショット画像を用いることにより、前記スクリーンショット画像に含まれている抽出対象情報を特定する特定部と、
を有する情報抽出装置。 A content acquisition unit for acquiring content of a plurality of websites;
An image creation unit that creates a screenshot image in a state where the content acquired by the content acquisition unit is displayed on a screen;
By using the screenshot image as input data to a deep learning model created by deep learning based on a plurality of learning image contents including learning information, the extraction target information included in the screenshot image is obtained. A specific part to identify;
An information extraction apparatus having
前記特定部は、前記第1位置情報が関連付けられた前記深層学習モデルへの入力データとして、前記抽出対象情報において使用される文字列を含む画像領域の位置を示す第2位置情報を用いることにより前記抽出対象情報を特定する、
請求項1に記載の情報抽出装置。 The deep learning model is created by performing deep learning using first position information indicating a position where the learning information is included in the learning image content,
The specifying unit uses, as input data to the deep learning model associated with the first position information, second position information indicating a position of an image area including a character string used in the extraction target information. Specifying the extraction target information;
The information extraction device according to claim 1.
請求項2に記載の情報抽出装置。 The specifying unit creates a character image based on a predetermined character string included in the content acquired by the content acquisition unit, and an area having a correlation degree with the character image in the screen shot image is a threshold value or more By specifying the position of the image area,
The information extraction device according to claim 2.
請求項2又は3に記載の情報抽出装置。 The specifying unit specifies, as the extraction target information, event information including at least one of an event date and time, a place, and contents related to an event based on the position of the image area.
The information extraction device according to claim 2 or 3.
請求項2から4のいずれか一項に記載の情報抽出装置。 The specifying unit uses the two or more of the text included in the content acquired by the content acquisition unit, the screenshot image, and the second position information as input data to the deep learning model. Identify target information,
The information extraction device according to any one of claims 2 to 4.
請求項5に記載の情報抽出装置。 The specifying unit further uses the text and the screenshot image as input data to the deep learning model to specify the extraction target information when the accuracy of specifying the extraction target information is less than a threshold value. Used as input data to the model,
The information extraction device according to claim 5.
請求項5又は6に記載の情報抽出装置。 When the accuracy when the extraction target information is specified using the text as the first number of input data among the plurality of input data to the deep learning model is less than the threshold, Identifying the extraction target information using the screenshot image as a second number of input data;
The information extraction device according to claim 5 or 6.
請求項1から7のいずれか一項に記載の情報抽出装置。 The specifying unit receives the specification of the type of the extraction target information to be specified, and specifies the extraction target information using the deep learning model corresponding to the specified type.
The information extraction device according to any one of claims 1 to 7.
請求項1から8のいずれか一項に記載の情報抽出装置。 An advertisement providing unit that provides an advertisement associated with the extraction target information identified by the identifying unit;
The information extraction device according to any one of claims 1 to 8.
複数のウェブサイトのコンテンツを取得するステップと、
取得した前記コンテンツが画面に表示された状態のスクリーンショット画像を作成するステップと、
学習用情報を含む複数の学習用画像コンテンツに基づいて深層学習で作成された深層学習モデルの入力データとして前記スクリーンショット画像を用いることにより、前記スクリーンショット画像に含まれている抽出対象情報を特定するステップと、
を有する情報抽出方法。
The computer runs,
Acquiring content from multiple websites;
Creating a screenshot image of the acquired content displayed on the screen;
By using the screenshot image as input data of a deep learning model created by deep learning based on a plurality of learning image contents including learning information, the extraction target information included in the screenshot image is identified. And steps to
An information extraction method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017109404A JP7040745B2 (en) | 2017-06-01 | 2017-06-01 | Information extraction device and information extraction method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017109404A JP7040745B2 (en) | 2017-06-01 | 2017-06-01 | Information extraction device and information extraction method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018205978A true JP2018205978A (en) | 2018-12-27 |
JP7040745B2 JP7040745B2 (en) | 2022-03-23 |
Family
ID=64957158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017109404A Active JP7040745B2 (en) | 2017-06-01 | 2017-06-01 | Information extraction device and information extraction method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7040745B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102064521B1 (en) * | 2019-05-08 | 2020-01-09 | 주식회사 우리홈쇼핑 | Method and apparatus for filtering forbidden word |
CN113343158A (en) * | 2021-07-09 | 2021-09-03 | 北京市顺义区妇幼保健院 | Extraction and fusion method of screening data |
JP2021170221A (en) * | 2020-04-15 | 2021-10-28 | ネットスター株式会社 | Learned model, site determination program and site determination system |
CN116110051A (en) * | 2023-04-13 | 2023-05-12 | 合肥机数量子科技有限公司 | File information processing method and device, computer equipment and storage medium |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009294925A (en) * | 2008-06-05 | 2009-12-17 | Nippon Telegr & Teleph Corp <Ntt> | Attribute estimation system and attribute estimation method |
JP2013164874A (en) * | 2013-05-28 | 2013-08-22 | Nec Corp | Retrieval device, retrieval method and retrieval program |
US20130318083A1 (en) * | 2012-05-24 | 2013-11-28 | International Business Machines Corporation | Method and apparatus for obtaining content in screenshot |
JP2015060568A (en) * | 2013-09-20 | 2015-03-30 | ヤフー株式会社 | Search system, search method, terminal device, and search program |
JP2015118591A (en) * | 2013-12-19 | 2015-06-25 | 富士通株式会社 | Data specification program, data specification method, and information processing apparatus |
-
2017
- 2017-06-01 JP JP2017109404A patent/JP7040745B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009294925A (en) * | 2008-06-05 | 2009-12-17 | Nippon Telegr & Teleph Corp <Ntt> | Attribute estimation system and attribute estimation method |
US20130318083A1 (en) * | 2012-05-24 | 2013-11-28 | International Business Machines Corporation | Method and apparatus for obtaining content in screenshot |
JP2013164874A (en) * | 2013-05-28 | 2013-08-22 | Nec Corp | Retrieval device, retrieval method and retrieval program |
JP2015060568A (en) * | 2013-09-20 | 2015-03-30 | ヤフー株式会社 | Search system, search method, terminal device, and search program |
JP2015118591A (en) * | 2013-12-19 | 2015-06-25 | 富士通株式会社 | Data specification program, data specification method, and information processing apparatus |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102064521B1 (en) * | 2019-05-08 | 2020-01-09 | 주식회사 우리홈쇼핑 | Method and apparatus for filtering forbidden word |
JP2021170221A (en) * | 2020-04-15 | 2021-10-28 | ネットスター株式会社 | Learned model, site determination program and site determination system |
CN113343158A (en) * | 2021-07-09 | 2021-09-03 | 北京市顺义区妇幼保健院 | Extraction and fusion method of screening data |
CN113343158B (en) * | 2021-07-09 | 2023-07-04 | 北京市顺义区妇幼保健院 | Extraction and fusion method of screening data |
CN116110051A (en) * | 2023-04-13 | 2023-05-12 | 合肥机数量子科技有限公司 | File information processing method and device, computer equipment and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP7040745B2 (en) | 2022-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9002894B2 (en) | Objective and subjective ranking of comments | |
TWI604325B (en) | Search assistant system and method | |
JP6423845B2 (en) | Method and system for dynamically ranking images to be matched with content in response to a search query | |
US20150169710A1 (en) | Method and apparatus for providing search results | |
CN109906455A (en) | Object detection in visual search query | |
US20080059897A1 (en) | Method and system of social networking through a cloud | |
WO2016169016A1 (en) | Method and system for presenting search result in search result card | |
JP7040745B2 (en) | Information extraction device and information extraction method | |
US20140095308A1 (en) | Advertisement distribution apparatus and advertisement distribution method | |
CN106688215A (en) | Automated click type selection for content performance optimization | |
US11586694B2 (en) | System and method for improved searching across multiple databases | |
CN106095766A (en) | Use selectivity again to talk and correct speech recognition | |
US20160171111A1 (en) | Method and system to detect use cases in documents for providing structured text objects | |
US20160299951A1 (en) | Processing a search query and retrieving targeted records from a networked database system | |
JP2017182646A (en) | Information processing device, program and information processing method | |
CN113127736A (en) | Classification recommendation method and device based on search history | |
JP6433270B2 (en) | Content search result providing system and content search result providing method | |
JP2020129239A (en) | Post Analysis System, Post Analysis Device, and Post Analysis Method | |
US20210056149A1 (en) | Search system, search method, and program | |
US20070174266A1 (en) | Method of optimization of listed result of internet-based search and system based on the method | |
JP2022111544A (en) | Information processing system and information processing method | |
JP2019109777A (en) | Information processing device, information processing method and program | |
CN111027737B (en) | Professional interest prediction method, device, equipment and storage medium based on big data | |
CN111797257B (en) | Picture recommendation method and related equipment based on word vector | |
LU102575B1 (en) | Providing recent event information for web search queries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200525 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210520 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210803 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210910 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220303 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7040745 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |