JP7040745B2 - 情報抽出装置及び情報抽出方法 - Google Patents
情報抽出装置及び情報抽出方法 Download PDFInfo
- Publication number
- JP7040745B2 JP7040745B2 JP2017109404A JP2017109404A JP7040745B2 JP 7040745 B2 JP7040745 B2 JP 7040745B2 JP 2017109404 A JP2017109404 A JP 2017109404A JP 2017109404 A JP2017109404 A JP 2017109404A JP 7040745 B2 JP7040745 B2 JP 7040745B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- deep learning
- image
- learning model
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
[情報抽出装置1の概要]
図1は、第1実施形態の情報抽出装置1の概要を説明するための図である。情報抽出装置1は、インターネットNを介してアクセス可能な複数のサーバ2から提供されるウェブページに含まれているコンテンツから、所望の情報を抽出するためのコンピュータである。情報抽出装置1は、ウェブページのコンテンツから、予め設定された各種の抽出対象情報を抽出し、抽出した抽出対象情報をデータベース3に登録する。本実施の形態においては、情報抽出装置1が、各種のイベントに関するイベント情報を抽出対象情報として抽出し、抽出したイベント情報をデータベース3に登録する場合を例示するが、情報抽出装置1が抽出する抽出対象情報はイベント情報に限定されない。
図2は、情報抽出装置1がイベント情報を抽出する方法の概要について説明するための図である。情報抽出装置1は、ウェブページに含まれているウェブコンテンツから得られる各種のデータを、予め作成された深層学習モデルの入力データとして用いて、高い精度でイベント情報を抽出することができる。深層学習モデルは、学習用情報として用いられる多数の教師データを使用して入力変数と出力変数との間の関係を学習することにより係数が決定されたニューラルネットワークにより構成されるモデルである。
深層学習モデルは、既知の各種の方法を用いて作成することができる。テキストを入力データとして使用できる深層学習モデルを作成する場合、多数(例えば100万)のウェブページに含まれているテキストを教師データとして使用する。深層学習モデルの作成者は、学習のために使用されるウェブページを視認することにより、ウェブページに基づいて把握できるイベント情報を特定する。そして、特定された学習用のイベント情報を、教師データとして使用されるウェブページのソースコードから抽出されるテキストに関連付けることで、テキストを入力データとするテキスト用の深層学習モデルを作成することができる。なお、深層学習モデルの作成者が特定するイベント情報は、ウェブページに含まれているテキストと同一であってもよく、ウェブページに含まれるテキストと異なる内容であってもよい。
以下、情報抽出装置1の構成及び動作の詳細について説明する。
図3は、情報抽出装置1の構成を示す図である。情報抽出装置1は、通信部11と、記憶部12と、制御部13とを有する。
図7は、情報抽出装置1の動作フローチャートである。情報抽出装置1がイベント情報を特定する処理を開始すると、まず、コンテンツ取得部131が多数のウェブページのコンテンツを取得する(S11)。コンテンツ取得部131がコンテンツを取得すると、特定部133は、コンテンツに含まれるテキストをテキスト用の深層学習モデルに入力することによりイベント情報を特定する(S12)。
以上の説明において、特定部133は、予め定められた深層学習モデルを使用したが、イベントの種類、ウェブページを作成した人の国籍、及びウェブページで使用されている言語等によって、ウェブページにおける抽出対象情報の掲載方法の傾向が異なると考えられる。そこで、特定部133は、抽出対象情報を正しく特定できる確率を高めるために、抽出対象情報の種別に基づいて異なる深層学習モデルを使用してもよい。具体的には、特定部133は、通信部11を介して外部のコンピュータから、特定する対象となる抽出対象情報の種別の指定を受け、指定を受けた種別に対応する深層学習モデルを用いて抽出対象情報を特定することができる。
以上説明したように、本実施形態の情報抽出装置1は、コンテンツ取得部131が取得したコンテンツが画面に表示された状態のスクリーンショット画像を作成する画像作成部132と、深層学習モデルへの入力データとしてスクリーンショット画像を用いることにより、スクリーンショット画像に含まれている抽出対象情報としてのイベント情報を特定する特定部133とを有する。このように、特定部133がスクリーンショット画像を用いてイベント情報を特定することにより、ウェブページを閲覧する人が視認する画面の傾向に基づいて、ウェブページに含まれるイベント情報を特定できるので、イベント情報を正しく特定できる確率を高めることができる。
図8は、第2実施形態の情報抽出装置4の構成を示す図である。情報抽出装置4は、第1実施形態の情報抽出装置1における登録部134の代わりに、広告提供部135を有する点で情報抽出装置1と異なる。
以上説明したように、本実施形態の情報抽出装置4においては、特定部133がウェブページ内の抽出対象情報を特定し、広告提供部135が、特定された抽出対象情報に関連付けられた広告情報をサーバ2に提供する。このように、情報抽出装置4を利用することで、ウェブページのコンテンツに関連する商品やサービスに関する広告をウェブページ内に表示することができるので、ウェブページを閲覧中のユーザが関心を抱く確率を高めることができる。
2 サーバ
3 データベース
4 情報抽出装置
11 通信部
12 記憶部
13 制御部
131 コンテンツ取得部
132 画像作成部
133 特定部
134 登録部
135 広告提供部
Claims (9)
- 複数のウェブサイトのコンテンツを取得するコンテンツ取得部と、
前記コンテンツ取得部が取得した前記コンテンツが画面に表示された状態のスクリーンショット画像を作成する画像作成部と、
学習用情報を含む複数の学習用画像コンテンツに基づいて深層学習で作成された深層学習モデルへの入力データとして前記スクリーンショット画像を用いることにより、前記スクリーンショット画像に含まれている抽出対象情報を特定する特定部と、
を有し、
前記深層学習モデルは、前記学習用画像コンテンツにおける前記学習用情報が含まれている位置を示す第1位置情報を用いた深層学習をすることにより作成されており、
前記特定部は、前記第1位置情報が関連付けられた前記深層学習モデルへの入力データとして、前記抽出対象情報において使用される文字列を含む画像領域の位置を示す第2位置情報を用いることにより前記抽出対象情報を特定する情報抽出装置。 - 前記特定部は、前記コンテンツ取得部が取得した前記コンテンツに含まれている所定の文字列に基づく文字画像を作成し、前記スクリーンショット画像において前記文字画像との相関度が閾値以上である領域を特定することにより、前記画像領域の位置を特定する、
請求項1に記載の情報抽出装置。 - 前記特定部は、前記画像領域の位置に基づいて、イベントに関連するイベントの日時、場所及び内容の少なくともいずれかを含むイベント情報を前記抽出対象情報として特定する、
請求項1又は2に記載の情報抽出装置。 - 前記特定部は、前記コンテンツ取得部が取得した前記コンテンツに含まれるテキスト、前記スクリーンショット画像及び前記第2位置情報のうち2つ以上を前記深層学習モデルへの入力データとして用いることにより、前記抽出対象情報を特定する、
請求項1から3のいずれか一項に記載の情報抽出装置。 - 前記特定部は、前記テキスト及び前記スクリーンショット画像を前記深層学習モデルへの入力データとして用いて前記抽出対象情報を特定する精度が閾値未満である場合に、前記第2位置情報をさらに前記深層学習モデルへの入力データとして用いる、
請求項4に記載の情報抽出装置。 - 前記特定部は、前記深層学習モデルへの複数の入力データのうち、第1の個数の入力データとして前記テキストを用いて前記抽出対象情報を特定した際の精度が閾値未満である場合に、第2の個数の入力データとして前記スクリーンショット画像を用いて前記抽出対象情報を特定する、
請求項4に記載の情報抽出装置。 - 前記特定部は、特定する対象となる前記抽出対象情報の種別の指定を受け、指定を受けた前記種別に対応する前記深層学習モデルを用いて前記抽出対象情報を特定する、
請求項1から6のいずれか一項に記載の情報抽出装置。 - 前記特定部が特定した前記抽出対象情報に関連付けられた広告を提供する広告提供部をさらに有する、
請求項1から7のいずれか一項に記載の情報抽出装置。 - コンピュータが実行する、
複数のウェブサイトのコンテンツを取得するステップと、
取得した前記コンテンツが画面に表示された状態のスクリーンショット画像を作成するステップと、
学習用情報を含む複数の学習用画像コンテンツに基づいて深層学習で作成された深層学習モデルの入力データとして前記スクリーンショット画像を用いることにより、前記スクリーンショット画像に含まれている抽出対象情報を特定するステップと、
を有し、
前記深層学習モデルは、前記学習用画像コンテンツにおける前記学習用情報が含まれている位置を示す第1位置情報を用いた深層学習をすることにより作成されており、
前記特定するステップにおいて、前記第1位置情報が関連付けられた前記深層学習モデルへの入力データとして、前記抽出対象情報において使用される文字列を含む画像領域の位置を示す第2位置情報を用いることにより前記抽出対象情報を特定する情報抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017109404A JP7040745B2 (ja) | 2017-06-01 | 2017-06-01 | 情報抽出装置及び情報抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017109404A JP7040745B2 (ja) | 2017-06-01 | 2017-06-01 | 情報抽出装置及び情報抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018205978A JP2018205978A (ja) | 2018-12-27 |
JP7040745B2 true JP7040745B2 (ja) | 2022-03-23 |
Family
ID=64957158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017109404A Active JP7040745B2 (ja) | 2017-06-01 | 2017-06-01 | 情報抽出装置及び情報抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7040745B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102064521B1 (ko) * | 2019-05-08 | 2020-01-09 | 주식회사 우리홈쇼핑 | 금지어를 필터링 하는 방법 및 장치 |
JP2021170221A (ja) * | 2020-04-15 | 2021-10-28 | ネットスター株式会社 | 学習済みモデル、サイト判定プログラム及びサイト判定システム |
CN113343158B (zh) * | 2021-07-09 | 2023-07-04 | 北京市顺义区妇幼保健院 | 一种筛选数据的提取与融合方法 |
CN116110051B (zh) * | 2023-04-13 | 2023-07-14 | 合肥机数量子科技有限公司 | 一种文件信息处理方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009294925A (ja) | 2008-06-05 | 2009-12-17 | Nippon Telegr & Teleph Corp <Ntt> | 属性推定システムおよび属性推定方法 |
JP2013164874A (ja) | 2013-05-28 | 2013-08-22 | Nec Corp | 検索装置、検索方法及び検索プログラム |
US20130318083A1 (en) | 2012-05-24 | 2013-11-28 | International Business Machines Corporation | Method and apparatus for obtaining content in screenshot |
JP2015060568A (ja) | 2013-09-20 | 2015-03-30 | ヤフー株式会社 | 検索システム、検索方法、端末装置および検索プログラム |
JP2015118591A (ja) | 2013-12-19 | 2015-06-25 | 富士通株式会社 | データ特定プログラム、データ特定方法および情報処理装置 |
-
2017
- 2017-06-01 JP JP2017109404A patent/JP7040745B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009294925A (ja) | 2008-06-05 | 2009-12-17 | Nippon Telegr & Teleph Corp <Ntt> | 属性推定システムおよび属性推定方法 |
US20130318083A1 (en) | 2012-05-24 | 2013-11-28 | International Business Machines Corporation | Method and apparatus for obtaining content in screenshot |
JP2013164874A (ja) | 2013-05-28 | 2013-08-22 | Nec Corp | 検索装置、検索方法及び検索プログラム |
JP2015060568A (ja) | 2013-09-20 | 2015-03-30 | ヤフー株式会社 | 検索システム、検索方法、端末装置および検索プログラム |
JP2015118591A (ja) | 2013-12-19 | 2015-06-25 | 富士通株式会社 | データ特定プログラム、データ特定方法および情報処理装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2018205978A (ja) | 2018-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107145496B (zh) | 基于关键词将图像与内容项目匹配的方法 | |
US9390144B2 (en) | Objective and subjective ranking of comments | |
JP6423845B2 (ja) | 検索クエリに応答してコンテンツとマッチングしようとする画像を動的にランキングする方法及びシステム | |
JP7040745B2 (ja) | 情報抽出装置及び情報抽出方法 | |
US8756219B2 (en) | Relevant navigation with deep links into query | |
TWI585598B (zh) | 搜尋輔助系統與方法 | |
CN105912669B (zh) | 用于补全搜索词及建立个体兴趣模型的方法及装置 | |
US20110191327A1 (en) | Method for Human Ranking of Search Results | |
US9760636B1 (en) | Systems and methods for browsing historical content | |
JP2007531160A (ja) | 検索エンジンにおいて検索結果を可変的にパーソナライズ化すること | |
KR20110085995A (ko) | 검색 결과들의 제공 | |
CN101288067A (zh) | 从电子文档组装、提取和配置内容的方法和装置 | |
US20160299951A1 (en) | Processing a search query and retrieving targeted records from a networked database system | |
US11586694B2 (en) | System and method for improved searching across multiple databases | |
EP2612290A1 (en) | Selecting web page content based on user permission for collecting user-selected content | |
EP2557511A1 (en) | Information processing device, information processing method, information processing programme, and recording medium | |
CN107463592B (zh) | 用于将内容项目与图像匹配的方法、设备和数据处理系统 | |
EP2945076A1 (en) | Ranking system for search results on network | |
CN102893280A (zh) | 数据搜索装置、数据搜索方法和程序 | |
US20080270375A1 (en) | Local news search engine | |
CN107766398B (zh) | 用于使图像与内容项目匹配的方法、装置和数据处理系统 | |
JP2017117021A (ja) | キーワード抽出装置、コンテンツ生成システム、キーワード抽出方法、およびプログラム | |
WO2007139290A1 (en) | Method and apparatus for using tab corresponding to query to provide additional information | |
US20070174266A1 (en) | Method of optimization of listed result of internet-based search and system based on the method | |
US10783398B1 (en) | Image editor including localized editing based on generative adversarial networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200525 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210520 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210803 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210910 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220303 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7040745 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |