JP6727097B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP6727097B2 JP6727097B2 JP2016207685A JP2016207685A JP6727097B2 JP 6727097 B2 JP6727097 B2 JP 6727097B2 JP 2016207685 A JP2016207685 A JP 2016207685A JP 2016207685 A JP2016207685 A JP 2016207685A JP 6727097 B2 JP6727097 B2 JP 6727097B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- entity
- image data
- unit
- extraction unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 22
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000000605 extraction Methods 0.000 claims description 75
- 239000000284 extract Substances 0.000 claims description 30
- 238000003860 storage Methods 0.000 claims description 30
- 230000014509 gene expression Effects 0.000 claims description 10
- 238000013480 data collection Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 11
- 238000000034 method Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 4
- 101150071665 img2 gene Proteins 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 101150013335 img1 gene Proteins 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
<1−1.ナレッジデータサーバの使用環境>
図1は、第1の実施形態に係るナレッジデータサーバ100の使用環境を示す図である。ナレッジデータサーバ100は、収集部110と、ナレッジデータ生成部120と、第1記憶部130と、第2記憶部140と、所在情報取得部150とを備える。
図2は、第1の実施形態に係る端末装置200の表示部210に表示される検索結果ページの一例を示す図である。図2に示されるように、表示部210には、検索クエリ入力領域211と、ナレッジパネル220と、検索結果230とが含まれる検索結果ページが表示される。ナレッジパネル220には、検索クエリに含まれるエンティティ221と、エンティティ221に関連する画像222と、エンティティ221に関連する情報223とが含まれる。
図3は、第1の実施形態に係るナレッジデータ生成部120の詳細な構成を示すブロック図である。以下、図3を用いて、ナレッジデータ生成部120の具体的な処理について説明する。前述したように、画像データおよびHTMLデータを含むページデータが、ナレッジデータ生成部120に入力される。ナレッジデータ生成部120は、エンティティ抽出部121と、特徴抽出部122と、生成部123と、優先順位決定部124とを備える。
<img src=“actress-a.jpg” alt=“映画のヒロイン役に抜擢された女優A” />
この場合、エンティティ抽出部121は、ファイル名が“actress-a.jpg”の画像に関連するエンティティとして、alt属性に記載されているデータから「女優A」を抽出する。
<meta property=“og:title” content=“映画のヒロイン役に抜擢された女優A” />
<meta property=“og:image” content=“actress-a.jpg” />
この場合、エンティティ抽出部121は、プロパティが“og:image”のメタタグに記載されているファイル名が“actress-a.jpg”の画像に関連するエンティティとして、プロパティが“og:title”のメタタグに記載されているデータから「女優A」を抽出する。
図8は、第1の実施形態に係るナレッジデータ生成処理を示すフローチャートである。本フローチャートによる処理は、ナレッジデータサーバ100によって実行される。
<2−1.ナレッジデータサーバの使用環境>
第1の実施形態においては、特徴抽出部122は、収集部110から入力された画像データに対して画像処理(例えば、Viola−Jones法などの顔検出処理)を行うことにより、特徴を抽出することとした。これに対し、第2の実施形態において、特徴抽出部122は、収集部110から入力された画像データを特徴量表現に変換することとする。本実施形態においては、特徴量表現の一例としてベクトルデータを使用する。画像データから変換された特徴量表現を用いることで、例えば、人名のエンティティに、同姓同名の他人の画像が関連付けられることを防止することができる。以下、第2の実施形態について詳細に説明する。
図11は、実施形態に係るナレッジデータサーバ100のハードウェア構成の一例を示す図である。ナレッジデータサーバ100は、例えば、CPU160、RAM161、ROM162、フラッシュメモリやHDDなどの二次記憶装置163、NIC(Network Interface Card)164、ドライブ装置165、キーボード166、およびマウス167が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置165には、光ディスクなどの可搬型記憶媒体が装着される。二次記憶装置163、またはドライブ装置165に装着された可搬型記憶媒体に記憶されたプログラムがDMA(Direct Memory Access)コントローラ(不図示)などによってRAM161に展開され、CPU160によって実行されることで、ナレッジデータサーバ100の機能部が実現される。
110…収集部(クローラ)
120…ナレッジデータ生成部
121…エンティティ抽出部
122…特徴抽出部
123…生成部
124…優先順位決定部
130…第1記憶部
140…第2記憶部
150…所在情報取得部
200…端末装置
300…ウェブサーバ
Claims (14)
- 画像データおよびテキストデータを含むページデータを収集する収集部と、
前記ページデータに含まれる前記テキストデータから、前記ページデータに含まれる前記画像データに関連するエンティティを抽出するエンティティ抽出部と、
前記ページデータに含まれる前記画像データから、データ収集対象となり得る所定の特徴を抽出する特徴抽出部と、
前記特徴抽出部によって前記所定の特徴が抽出された場合、前記エンティティに前記画像データの所在情報が関連付けられたナレッジデータを生成する生成部と、
前記エンティティ抽出部によって抽出された、前記画像データの属するIPアドレスごとの前記エンティティの数に基づいて、前記収集部がデータを収集するIPアドレスの優先順位を決定する優先順位決定部と、
を備える情報処理装置。 - 前記生成部によって生成された前記ナレッジデータを記憶する記憶部と、
前記記憶部に記憶された前記ナレッジデータを参照して、前記画像データの所在情報を取得する所在情報取得部と、を更に備える
請求項1記載の情報処理装置。 - 前記所在情報取得部は、外部装置からエンティティを受信した場合、受信した前記エンティティに関連付けられた画像データの所在情報を前記記憶部から取得し、取得した前記画像データの所在情報を前記外部装置に送信する
請求項2記載の情報処理装置。 - 前記エンティティ抽出部は、前記ページデータにおける前記画像データが埋め込まれた位置の周辺のテキストを前記テキストデータから取得し、取得した前記テキストから前記エンティティを抽出する
請求項1から3の何れか一項に記載の情報処理装置。 - 前記テキストデータは、HTMLのソースを示すHTMLデータであり、
前記エンティティ抽出部は、前記HTMLデータのタグに記載されているデータから、前記エンティティを抽出する
請求項1から3の何れか一項に記載の情報処理装置。 - 前記生成部は、前記エンティティ抽出部によって抽出された前記エンティティに、前記HTMLデータのタグに記載されている画像データの所在情報を関連付けることで、前記ナレッジデータを生成する
請求項5記載の情報処理装置。 - 前記生成部は、前記エンティティ抽出部によって抽出された前記エンティティが人名であり、前記特徴抽出部によって画像データから人の顔が一つだけ抽出された場合、前記エンティティに前記画像データの所在情報が関連付けられた前記ナレッジデータを生成する 請求項1記載の情報処理装置。
- 前記特徴抽出部は、前記ページデータに含まれる前記画像データを特徴量表現に変換し、
前記生成部は、前記特徴抽出部によって変換された前記特徴量表現を複数のクラスタに分類し、最もデータ数の多いクラスタに属する特徴量表現に対応する画像データの所在情報を前記エンティティに関連付けることで、前記ナレッジデータを生成する
請求項1記載の情報処理装置。 - 前記優先順位決定部は、前記エンティティ抽出部によって抽出された前記エンティティの数が多いIPアドレスほど、前記優先順位を高くする
請求項1から8の何れか一項に記載の情報処理装置。 - 画像データおよびテキストデータを含むページデータを収集する収集部と、
前記ページデータに含まれる前記テキストデータから、前記画像データに関連するエンティティを抽出するエンティティ抽出部と、
前記エンティティ抽出部によって抽出された、前記画像データの属するIPアドレスごとの前記エンティティの数に基づいて、前記収集部がデータを収集するIPアドレスの優先順位を決定する優先順位決定部と、
を備える情報処理装置。 - コンピュータが、
画像データおよびテキストデータを含むページデータを収集する収集工程と、
前記ページデータに含まれる前記テキストデータから、前記画像データに関連するエンティティを抽出するエンティティ抽出工程と、
前記ページデータに含まれる前記画像データから特徴を抽出する特徴抽出工程と、
前記特徴抽出工程において前記エンティティに関連する特徴が抽出された場合、前記エンティティに前記画像データの所在情報が関連付けられたナレッジデータを生成する生成工程と、
を実行する情報処理方法であって、
前記エンティティ抽出工程において抽出された、前記画像データの属するIPアドレスごとの前記エンティティの数に基づいて、前記収集工程においてデータを収集するIPアドレスの優先順位を決定する、
情報処理方法。 - コンピュータが、
画像データおよびテキストデータを含むページデータを収集する収集工程と、
前記ページデータに含まれる前記テキストデータから、前記画像データに関連するエンティティを抽出するエンティティ抽出工程と、
前記エンティティ抽出工程において抽出された、前記画像データの属するIPアドレスごとの前記エンティティの数に基づいて、前記収集工程においてデータを収集するIPアドレスの優先順位を決定する優先順位決定工程と、
を実行する情報処理方法。 - コンピュータを、
画像データおよびテキストデータを含むページデータを収集する収集部、
前記ページデータに含まれる前記テキストデータから、前記画像データに関連するエンティティを抽出するエンティティ抽出部、
前記ページデータに含まれる前記画像データから特徴を抽出する特徴抽出部、
前記特徴抽出部によって前記エンティティに関連する特徴が抽出された場合、前記エンティティに前記画像データの所在情報が関連付けられたナレッジデータを生成する生成部、
前記エンティティ抽出部によって抽出された、前記画像データの属するIPアドレスごとの前記エンティティの数に基づいて、前記収集部がデータを収集するIPアドレスの優先順位を決定する優先順位決定部、
として機能させるためのプログラム。 - コンピュータを、
画像データおよびテキストデータを含むページデータを収集する収集部、
前記ページデータに含まれる前記テキストデータから、前記画像データに関連するエンティティを抽出するエンティティ抽出部、
前記エンティティ抽出部によって抽出された、前記画像データの属するIPアドレスごとの前記エンティティの数に基づいて、前記収集部がデータを収集するIPアドレスの優先順位を決定する優先順位決定部、
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016207685A JP6727097B2 (ja) | 2016-10-24 | 2016-10-24 | 情報処理装置、情報処理方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016207685A JP6727097B2 (ja) | 2016-10-24 | 2016-10-24 | 情報処理装置、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018072873A JP2018072873A (ja) | 2018-05-10 |
JP6727097B2 true JP6727097B2 (ja) | 2020-07-22 |
Family
ID=62115437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016207685A Active JP6727097B2 (ja) | 2016-10-24 | 2016-10-24 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6727097B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245197B (zh) * | 2019-05-20 | 2022-01-28 | 北京百度网讯科技有限公司 | 一种全网实体关联方法及系统 |
CN113806552B (zh) * | 2021-08-30 | 2022-06-14 | 北京百度网讯科技有限公司 | 信息提取方法、装置、电子设备和存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11224256A (ja) * | 1998-02-05 | 1999-08-17 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法および情報検索プログラムを記録した記録媒体 |
US7774782B1 (en) * | 2003-12-18 | 2010-08-10 | Google Inc. | Limiting requests by web crawlers to a web host |
JP4313738B2 (ja) * | 2004-08-18 | 2009-08-12 | 日本電信電話株式会社 | 画像検索装置および方法、そのプログラム及び記録媒体 |
US8085995B2 (en) * | 2006-12-01 | 2011-12-27 | Google Inc. | Identifying images using face recognition |
US7899807B2 (en) * | 2007-12-20 | 2011-03-01 | Yahoo! Inc. | System and method for crawl ordering by search impact |
JP4825261B2 (ja) * | 2008-12-17 | 2011-11-30 | ヤフー株式会社 | 画像情報収集装置、その方法およびそのプログラム |
US9323861B2 (en) * | 2010-11-18 | 2016-04-26 | Daniel W. Shepherd | Method and apparatus for enhanced web browsing |
-
2016
- 2016-10-24 JP JP2016207685A patent/JP6727097B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018072873A (ja) | 2018-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6423845B2 (ja) | 検索クエリに応答してコンテンツとマッチングしようとする画像を動的にランキングする方法及びシステム | |
KR101721338B1 (ko) | 검색 엔진 및 그의 구현 방법 | |
JP5336391B2 (ja) | 構造化された地理的なデータの検索 | |
JP6167493B2 (ja) | 情報を管理するための方法、コンピュータプログラム、記憶媒体及びシステム | |
JP2017157192A (ja) | キーワードに基づいて画像とコンテンツアイテムをマッチングする方法 | |
JP5856139B2 (ja) | 仮想ドキュメントを用いたインデックス付与と検索 | |
US20120054166A1 (en) | System for displaying search engine results with images | |
JP6363682B2 (ja) | 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法 | |
KR102361112B1 (ko) | 유사 그룹 요소 추출 | |
US20090187516A1 (en) | Search summary result evaluation model methods and systems | |
US10275472B2 (en) | Method for categorizing images to be associated with content items based on keywords of search queries | |
US20090083266A1 (en) | Techniques for tokenizing urls | |
JP5103051B2 (ja) | 情報処理システム及び情報処理方法 | |
CN107704620B (zh) | 一种档案管理的方法、装置、设备和存储介质 | |
JP7290391B2 (ja) | 情報処理装置及びプログラム | |
JP6727097B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP4750628B2 (ja) | 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP5321258B2 (ja) | 情報収集システムおよび情報収集方法ならびにそのプログラム | |
JP5234836B2 (ja) | コンテンツ管理装置,情報関連度算出方法および情報関連度算出プログラム | |
WO2017074710A1 (en) | Search system | |
CN107622125B (zh) | 一种信息爬取方法和装置、电子设备 | |
Shen et al. | A Catalogue Service for Internet GIS ervices Supporting Active Service Evaluation and Real‐Time Quality Monitoring | |
KR101592670B1 (ko) | 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법 | |
JP5610215B2 (ja) | 検索装置、検索システム、検索方法及び検索プログラム | |
JP6777445B2 (ja) | 引用マップ生成装置、引用マップ生成方法およびコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190325 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200324 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200515 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200602 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200630 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6727097 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |