JP2018072873A - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2018072873A JP2018072873A JP2016207685A JP2016207685A JP2018072873A JP 2018072873 A JP2018072873 A JP 2018072873A JP 2016207685 A JP2016207685 A JP 2016207685A JP 2016207685 A JP2016207685 A JP 2016207685A JP 2018072873 A JP2018072873 A JP 2018072873A
- Authority
- JP
- Japan
- Prior art keywords
- data
- entity
- unit
- image data
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 24
- 238000003672 processing method Methods 0.000 title claims abstract description 7
- 238000000605 extraction Methods 0.000 claims abstract description 75
- 238000013480 data collection Methods 0.000 claims abstract description 5
- 239000000284 extract Substances 0.000 claims description 24
- 238000000034 method Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 11
- 101150071665 img2 gene Proteins 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 101150013335 img1 gene Proteins 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
<1−1.ナレッジデータサーバの使用環境>
図1は、第1の実施形態に係るナレッジデータサーバ100の使用環境を示す図である。ナレッジデータサーバ100は、収集部110と、ナレッジデータ生成部120と、第1記憶部130と、第2記憶部140と、所在情報取得部150とを備える。
図2は、第1の実施形態に係る端末装置200の表示部210に表示される検索結果ページの一例を示す図である。図2に示されるように、表示部210には、検索クエリ入力領域211と、ナレッジパネル220と、検索結果230とが含まれる検索結果ページが表示される。ナレッジパネル220には、検索クエリに含まれるエンティティ221と、エンティティ221に関連する画像222と、エンティティ221に関連する情報223とが含まれる。
図3は、第1の実施形態に係るナレッジデータ生成部120の詳細な構成を示すブロック図である。以下、図3を用いて、ナレッジデータ生成部120の具体的な処理について説明する。前述したように、画像データおよびHTMLデータを含むページデータが、ナレッジデータ生成部120に入力される。ナレッジデータ生成部120は、エンティティ抽出部121と、特徴抽出部122と、生成部123と、優先順位決定部124とを備える。
<img src=“actress-a.jpg” alt=“映画のヒロイン役に抜擢された女優A” />
この場合、エンティティ抽出部121は、ファイル名が“actress-a.jpg”の画像に関連するエンティティとして、alt属性に記載されているデータから「女優A」を抽出する。
<meta property=“og:title” content=“映画のヒロイン役に抜擢された女優A” />
<meta property=“og:image” content=“actress-a.jpg” />
この場合、エンティティ抽出部121は、プロパティが“og:image”のメタタグに記載されているファイル名が“actress-a.jpg”の画像に関連するエンティティとして、プロパティが“og:title”のメタタグに記載されているデータから「女優A」を抽出する。
図8は、第1の実施形態に係るナレッジデータ生成処理を示すフローチャートである。本フローチャートによる処理は、ナレッジデータサーバ100によって実行される。
<2−1.ナレッジデータサーバの使用環境>
第1の実施形態においては、特徴抽出部122は、収集部110から入力された画像データに対して画像処理(例えば、Viola−Jones法などの顔検出処理)を行うことにより、特徴を抽出することとした。これに対し、第2の実施形態において、特徴抽出部122は、収集部110から入力された画像データを特徴量表現に変換することとする。本実施形態においては、特徴量表現の一例としてベクトルデータを使用する。画像データから変換された特徴量表現を用いることで、例えば、人名のエンティティに、同姓同名の他人の画像が関連付けられることを防止することができる。以下、第2の実施形態について詳細に説明する。
図11は、実施形態に係るナレッジデータサーバ100のハードウェア構成の一例を示す図である。ナレッジデータサーバ100は、例えば、CPU160、RAM161、ROM162、フラッシュメモリやHDDなどの二次記憶装置163、NIC(Network Interface Card)164、ドライブ装置165、キーボード166、およびマウス167が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置165には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置163、またはドライブ装置165に装着された可搬型記憶媒体に記憶されたプログラムがDMA(Direct Memory Access)コントローラ(不図示)などによってRAM161に展開され、CPU160によって実行されることで、ナレッジデータサーバ100の機能部が実現される。
110…収集部(クローラ)
120…ナレッジデータ生成部
121…エンティティ抽出部
122…特徴抽出部
123…生成部
124…優先順位決定部
130…第1記憶部
140…第2記憶部
150…所在情報取得部
200…端末装置
300…ウェブサーバ
Claims (15)
- 画像データおよびテキストデータを含むページデータを収集する収集部と、
前記ページデータに含まれる前記テキストデータから、前記ページデータに含まれる前記画像データに関連するエンティティを抽出するエンティティ抽出部と、
前記ページデータに含まれる前記画像データから、データ収集対象となり得る所定の特徴を抽出する特徴抽出部と、
前記特徴抽出部によって前記所定の特徴が抽出された場合、前記エンティティに前記画像データの所在情報が関連付けられたナレッジデータを生成する生成部と、
を備える情報処理装置。 - 前記生成部によって生成された前記ナレッジデータを記憶する記憶部と、
前記記憶部に記憶された前記ナレッジデータを参照して、前記画像データの所在情報を取得する所在情報取得部と、を更に備える
請求項1記載の情報処理装置。 - 前記所在情報取得部は、外部装置からエンティティを受信した場合、受信した前記エンティティに関連付けられた画像データの所在情報を前記記憶部から取得し、取得した前記画像データの所在情報を前記外部装置に送信する
請求項2記載の情報処理装置。 - 前記エンティティ抽出部は、前記ページデータにおける前記画像データが埋め込まれた位置の周辺のテキストを前記テキストデータから取得し、取得した前記テキストから前記エンティティを抽出する
請求項1から3の何れか一項に記載の情報処理装置。 - 前記テキストデータは、HTMLのソースを示すHTMLデータであり、
前記エンティティ抽出部は、前記HTMLデータのタグに記載されているデータから、前記エンティティを抽出する
請求項1から3の何れか一項に記載の情報処理装置。 - 前記生成部は、前記エンティティ抽出部によって抽出された前記エンティティに、前記HTMLデータのタグに記載されている画像データの所在情報を関連付けることで、前記ナレッジデータを生成する
請求項5記載の情報処理装置。 - 前記生成部は、前記エンティティ抽出部によって抽出された前記エンティティが人名であり、前記特徴抽出部によって画像データから人の顔が一つだけ抽出された場合、前記エンティティに前記画像データの所在情報が関連付けられた前記ナレッジデータを生成する
請求項1記載の情報処理装置。 - 前記特徴抽出部は、前記ページデータに含まれる前記画像データを特徴量表現に変換し、
前記生成部は、前記特徴抽出部によって変換された前記特徴量表現を複数のクラスタに分類し、最もデータ数の多いクラスタに属する特徴量表現に対応する画像データの所在情報を前記エンティティに関連付けることで、前記ナレッジデータを生成する
請求項1記載の情報処理装置。 - 前記エンティティ抽出部によって抽出された、前記画像データの属するIPアドレスごとの前記エンティティの数に基づいて、前記収集部がデータを収集するIPアドレスの優先順位を決定する優先順位決定部を更に備える
請求項1から7の何れか一項に記載の情報処理装置。 - 前記優先順位決定部は、前記エンティティ抽出部によって抽出された前記エンティティの数が多いIPアドレスほど、前記優先順位を高くする
請求項9記載の情報処理装置。 - 画像データおよびテキストデータを含むページデータを収集する収集部と、
前記ページデータに含まれる前記テキストデータから、前記画像データに関連するエンティティを抽出するエンティティ抽出部と、
前記エンティティ抽出部によって抽出された、前記画像データの属するIPアドレスごとの前記エンティティの数に基づいて、前記収集部がデータを収集するIPアドレスの優先順位を決定する優先順位決定部と、
を備える情報処理装置。 - 画像データおよびテキストデータを含むページデータを収集する収集工程と、
前記ページデータに含まれる前記テキストデータから、前記画像データに関連するエンティティを抽出するエンティティ抽出工程と、
前記ページデータに含まれる前記画像データから特徴を抽出する特徴抽出工程と、
前記特徴抽出工程において前記エンティティに関連する特徴が抽出された場合、前記エンティティに前記画像データの所在情報が関連付けられたナレッジデータを生成する生成工程と、
を備える情報処理方法。 - 画像データおよびテキストデータを含むページデータを収集する収集工程と、
前記ページデータに含まれる前記テキストデータから、前記画像データに関連するエンティティを抽出するエンティティ抽出工程と、
前記エンティティ抽出工程において抽出された、前記画像データの属するIPアドレスごとの前記エンティティの数に基づいて、前記収集工程においてデータを収集するIPアドレスの優先順位を決定する優先順位決定工程と、
を備える情報処理方法。 - コンピュータを、
画像データおよびテキストデータを含むページデータを収集する収集部、
前記ページデータに含まれる前記テキストデータから、前記画像データに関連するエンティティを抽出するエンティティ抽出部、
前記ページデータに含まれる前記画像データから特徴を抽出する特徴抽出部、
前記特徴抽出部によって前記エンティティに関連する特徴が抽出された場合、前記エンティティに前記画像データの所在情報が関連付けられたナレッジデータを生成する生成部、
として機能させるためのプログラム。 - コンピュータを、
画像データおよびテキストデータを含むページデータを収集する収集部、
前記ページデータに含まれる前記テキストデータから、前記画像データに関連するエンティティを抽出するエンティティ抽出部、
前記エンティティ抽出部によって抽出された、前記画像データの属するIPアドレスごとの前記エンティティの数に基づいて、前記収集部がデータを収集するIPアドレスの優先順位を決定する優先順位決定部、
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016207685A JP6727097B2 (ja) | 2016-10-24 | 2016-10-24 | 情報処理装置、情報処理方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016207685A JP6727097B2 (ja) | 2016-10-24 | 2016-10-24 | 情報処理装置、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018072873A true JP2018072873A (ja) | 2018-05-10 |
JP6727097B2 JP6727097B2 (ja) | 2020-07-22 |
Family
ID=62115437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016207685A Active JP6727097B2 (ja) | 2016-10-24 | 2016-10-24 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6727097B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245197A (zh) * | 2019-05-20 | 2019-09-17 | 北京百度网讯科技有限公司 | 一种全网实体关联方法及系统 |
CN113806552A (zh) * | 2021-08-30 | 2021-12-17 | 北京百度网讯科技有限公司 | 信息提取方法、装置、电子设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11224256A (ja) * | 1998-02-05 | 1999-08-17 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法および情報検索プログラムを記録した記録媒体 |
JP2006059036A (ja) * | 2004-08-18 | 2006-03-02 | Nippon Telegr & Teleph Corp <Ntt> | 画像検索装置および方法、そのプログラム及び記録媒体 |
US20090164425A1 (en) * | 2007-12-20 | 2009-06-25 | Yahoo! Inc. | System and method for crawl ordering by search impact |
JP2010511938A (ja) * | 2006-12-01 | 2010-04-15 | グーグル・インコーポレーテッド | 顔認識を用いた画像の識別 |
JP2010146187A (ja) * | 2008-12-17 | 2010-07-01 | Yahoo Japan Corp | 画像情報収集装置、その方法およびそのプログラム |
US7774782B1 (en) * | 2003-12-18 | 2010-08-10 | Google Inc. | Limiting requests by web crawlers to a web host |
US20120130970A1 (en) * | 2010-11-18 | 2012-05-24 | Shepherd Daniel W | Method And Apparatus For Enhanced Web Browsing |
-
2016
- 2016-10-24 JP JP2016207685A patent/JP6727097B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11224256A (ja) * | 1998-02-05 | 1999-08-17 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法および情報検索プログラムを記録した記録媒体 |
US7774782B1 (en) * | 2003-12-18 | 2010-08-10 | Google Inc. | Limiting requests by web crawlers to a web host |
JP2006059036A (ja) * | 2004-08-18 | 2006-03-02 | Nippon Telegr & Teleph Corp <Ntt> | 画像検索装置および方法、そのプログラム及び記録媒体 |
JP2010511938A (ja) * | 2006-12-01 | 2010-04-15 | グーグル・インコーポレーテッド | 顔認識を用いた画像の識別 |
US20090164425A1 (en) * | 2007-12-20 | 2009-06-25 | Yahoo! Inc. | System and method for crawl ordering by search impact |
JP2010146187A (ja) * | 2008-12-17 | 2010-07-01 | Yahoo Japan Corp | 画像情報収集装置、その方法およびそのプログラム |
US20120130970A1 (en) * | 2010-11-18 | 2012-05-24 | Shepherd Daniel W | Method And Apparatus For Enhanced Web Browsing |
Non-Patent Citations (2)
Title |
---|
上田 高徳、佐藤 亘、鈴木 大地、打田 研二、森本 浩介、秋岡 明香、山名 早人: "Producer−Consumer型モジュールで構成された並列分散Webクローラの開発", 情報処理学会論文誌 データベース VOL.6 NO.2, JPN6020001653, 15 April 2013 (2013-04-15), JP, pages 85 - 97, ISSN: 0004236422 * |
山田 剛一、外2名: "新聞記事における写真と言語表現の対応の学習", 電子情報通信学会技術研究報告, vol. 第97巻,第593号, JPN6020010753, 12 March 1998 (1998-03-12), JP, pages 65 - 70, ISSN: 0004236421 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245197A (zh) * | 2019-05-20 | 2019-09-17 | 北京百度网讯科技有限公司 | 一种全网实体关联方法及系统 |
CN113806552A (zh) * | 2021-08-30 | 2021-12-17 | 北京百度网讯科技有限公司 | 信息提取方法、装置、电子设备和存储介质 |
CN113806552B (zh) * | 2021-08-30 | 2022-06-14 | 北京百度网讯科技有限公司 | 信息提取方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP6727097B2 (ja) | 2020-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6423845B2 (ja) | 検索クエリに応答してコンテンツとマッチングしようとする画像を動的にランキングする方法及びシステム | |
US20120054166A1 (en) | System for displaying search engine results with images | |
JP2017157192A (ja) | キーワードに基づいて画像とコンテンツアイテムをマッチングする方法 | |
US10210181B2 (en) | Searching and annotating within images | |
JP6064392B2 (ja) | 検索装置、検索方法、検索プログラムおよび検索システム | |
JP6363682B2 (ja) | 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法 | |
KR102361112B1 (ko) | 유사 그룹 요소 추출 | |
JP5103051B2 (ja) | 情報処理システム及び情報処理方法 | |
JP5197680B2 (ja) | 特徴情報作成装置、方法及びプログラム | |
JP5492047B2 (ja) | 購買行動分析装置、購買行動分析方法、購買行動分析プログラム、購買行動分析システム及び制御方法 | |
JP4750628B2 (ja) | 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2019040260A (ja) | 情報処理装置及びプログラム | |
JP6727097B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP5234836B2 (ja) | コンテンツ管理装置,情報関連度算出方法および情報関連度算出プログラム | |
JP5321258B2 (ja) | 情報収集システムおよび情報収集方法ならびにそのプログラム | |
WO2017074710A1 (en) | Search system | |
JP6140835B2 (ja) | 情報検索システムおよび情報検索方法 | |
JP2017072964A (ja) | 情報分析装置及び情報分析方法 | |
US20160092459A1 (en) | Translating a keyword search into a structured query | |
JP6190904B1 (ja) | 類似文書検索装置 | |
US20120239662A1 (en) | Document management apparatus and document management method | |
JP6707410B2 (ja) | 文献検索装置、文献検索方法およびコンピュータプログラム | |
JP4715031B2 (ja) | 構造化文書変換システム及び構造化文書変換プログラム | |
JP2019109777A (ja) | 情報処理装置、情報処理方法及びプログラム | |
WO2024071172A1 (ja) | 情報同期システム、情報同期プログラム及び情報同期方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190325 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200324 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200515 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200602 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200630 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6727097 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |