JP2021149560A - 情報処理装置、情報処理システム、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理システム、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2021149560A JP2021149560A JP2020049207A JP2020049207A JP2021149560A JP 2021149560 A JP2021149560 A JP 2021149560A JP 2020049207 A JP2020049207 A JP 2020049207A JP 2020049207 A JP2020049207 A JP 2020049207A JP 2021149560 A JP2021149560 A JP 2021149560A
- Authority
- JP
- Japan
- Prior art keywords
- information
- unit
- web page
- entity
- knowledge database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 33
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000011156 evaluation Methods 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims description 61
- 238000000034 method Methods 0.000 claims description 51
- 230000001419 dependent effect Effects 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 5
- 238000012854 evaluation process Methods 0.000 claims 6
- 238000004458 analytical method Methods 0.000 description 27
- 238000012545 processing Methods 0.000 description 25
- 238000005070 sampling Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 8
- 230000010354 integration Effects 0.000 description 3
- 238000005553 drilling Methods 0.000 description 2
- 241000271566 Aves Species 0.000 description 1
- 241000272194 Ciconiiformes Species 0.000 description 1
- 241000271567 Struthioniformes Species 0.000 description 1
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 210000001364 upper extremity Anatomy 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
情報処理装置は、一以上のプロセッサにより実現される。実施形態の情報処理装置は、第1収集部と、評価部と、第2収集部と、提供部とを備える。第1収集部は、ネットワークを介してアクセス可能な装置からウエブページの情報を収集する。評価部は、複数のエンティティとエンティティ間の関係情報とを含むナレッジデータベースが有する情報を参照し、第1収集部により収集されたウエブページのデータの提供元である装置を評価する。第2収集部は、評価部により第1所定度合以上の評価であると評価された装置から第1収集部がウエブページの情報を収集する度合よりも高い度合でウエブページの情報を収集する。そして、提供部は、第2収集部により収集された情報の少なくとも一部をナレッジデータベースに提供する。
[構成]
図1は、情報処理システム1の機能構成の一例を示す図である。情報処理システム1は、例えば、端末装置10、一以上のホスト20(図では20−1〜20−3)と、ナレッジデータベース装置30と、検索装置50と、収集装置100とを備える。端末装置10、ホスト20、および検索装置50は、ネットワークNWを介して互いに通信する。また、ナレッジデータベース装置30、検索装置50、および収集装置100は、ネットワークNWを介して互いに通信する。ネットワークNWは、例えばWAN(Wide Area Network)やLAN(Local Area Network)、インターネット、専用回線、無線基地局、プロバイダなどを含む。
収集装置100は、例えば、通信部102と、第1収集部104と、第2収集部106と、解析部108と、抽出部110と、提供部112と、記憶部130を備える。第1収集部104、第2収集部106、解析部108、抽出部110、および提供部112は、CPU(Central Processing Unit)等のハードウェアプロセッサが、記憶装置に記憶されたプログラムを実行することにより実現される。また、これらの機能部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等のハードウェアによって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。また、上記のプログラムは、予め記憶装置に格納されていてもよいし、DVDやCD−ROMなどの着脱可能な記憶媒体に格納されており、記憶媒体が収集装置100のドライブ装置に装着されることで記憶装置にインストールされてもよい。解析部108は、「評価部」の一例である。
(5)抽出部110は、深堀処理で収集されたコンテンツを解析して、新しい知識を獲得する。
(6)提供部112は、抽出された新しい知識を保存して、ナレッジデータベース装置30に提供する。
図5は、収集装置100により実行される処理の流れの一例を示すフローチャートである。本処理は、収集装置100が、対象のホストを深堀処理の対象とするか否かを決定する決定処理の一例である。処理の詳細については、後述する図6〜図8を参照して説明する。
また、上述したフローチャートの例では、抽出部110が、プロパティで関連付けられたエンティティとエンティティとの組み合わせのうち、一つの組み合わせを選択し(S12)、選択した一つの組み合わせが、選択したサンプリングウエブページに含まれているか否かを判定するものとしたが、これに代えて、以下のように処理が行われてもよい。
(A)抽出部110が、抽出対象のエンティティ(例えば、後述する図6、7のC美術館を列挙する。
(B)抽出部110が、サンプリングウエブページに、抽出対象のエンティティが含まれているか否かを判定する。
(C)抽出対象のエンティティが含まれている場合、抽出部110は、ナレッジデータベース42に含まれ、且つウエブページに含まれていたエンティティ(例えば、図6、7のAミュージアム、B博物館)と抽出対象のプロパティ(例えば、図6、7の公式サイト)で関連付けられていたエンティティ(例えば、図6、7のAミュージアム、B博物館の公式サイト)を列挙する。
(D)抽出部110が、抽出対象のプロパティで関連付けられたエンティティが当該ウエブページに含まれているか否かを判定する処理を行う。そして、抽出部110は、判定結果に基づいて、当該ウエブページの提供元のホスト20を深堀対象とするか否かを決定する。
図6は、S10で選択されたサンプリングウエブページの情報の一例を示す図である。例えば、サンプリングウエブページにおいて、観光地の名称と、観光地のURLとが含まれているものとする。例えば、サンプリングウエブページにおいて「Aミュージアム」、「URL001」、「B博物館」、「URL002」、「C美術館」、および「URL003」が含まれている。
例えば、解析部108は、ウエブページにおける既知のエンティティの組み合わせの割合に基づいて、信頼度である統合スコアを導出し、導出した統合スコアと抽出情報140とを合わせて信頼度付抽出情報142を生成する。そして、解析部108は、統合スコアが閾値以上のエンティティの組み合わせをナレッジデータベース装置30に提供することを決定する。
例えば、解析部108は、ホスト20ごとや、ドメインごとに、そのホスト20またはドメインを深堀対象とするか否かを決定することに代えて、ドメインよりも下位の階層を深堀対象とするか否かを決定してもよい。
図12は、収集装置100により実行される未知情報の抽出処理の流れの一例を示すフローチャートである。本フローチャートは、特定エンティティに対して、所定のプロパティで関連付けられるべきエンティティを特定する処理である。特定エンティティとは、関連付けられるべきエンティティ(第2従属エンティティ)が関連付けられていないエンティティ(第2主エンティティ)である。上述した例では、C美術館が特定エンティティに該当する。C美術館に対して、関連付けられるべきエンティティ「URL***」が関連付けられていないためである。処理の詳細については、後述する図13〜図15を参照して説明する。
Claims (11)
- ネットワークを介してアクセス可能な装置からウエブページの情報を収集する第1収集部と、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースが有する情報を参照し、前記第1収集部により収集されたウエブページのデータの提供元である装置を評価する評価部と、
前記評価部により第1所定度合以上の評価であると評価された装置から前記第1収集部がウエブページの情報を収集する度合よりも高い度合でウエブページの情報を収集する第2収集部と、
前記第2収集部により収集された情報の少なくとも一部を前記ナレッジデータベースに提供する提供部と、
を備える情報処理装置。 - 前記評価部は、ナレッジデータベースが有する情報と、前記第1収集部が収集した情報とに基づいて、前記ナレッジデータベースが有していない情報を第2所定度合以上有していると推定される装置の評価を、前記第1所定度合以上であると評価する、
請求項1に記載の情報処理装置。 - 前記評価部は、ナレッジデータベースが有する主エンティティと、前記主エンティティに従属する従属エンティティとの情報を参照し、前記第1収集部により収集されたウエブページの情報において、前記主エンティティと前記従属エンティティとが含まれる度合に基づいて、前記装置を評価する、
請求項1または2に記載の情報処理装置。 - 前記第2収集部により収集されたウエブページの情報から、前記ナレッジデータベースが有していない情報を抽出する抽出部を更に備え、
前記提供部は、前記抽出部により抽出された抽出情報を前記ナレッジデータベースに提供する、
請求項1から3のうちいずれか1項に記載の情報処理装置。 - 前記抽出部は、
前記第2収集部により収集されたウエブページの情報において、前記ナレッジデータベースに含まれる第1主エンティティと、前記第1主エンティティに従属する第1従属エンティティとを含む表現である第1表現パターンを認識し、
前記ウエブページにおいて、前記ナレッジデータベースに含まれ、関連付けられるべき前記第1従属エンティティと同種の第2従属エンティティが関連付けられてない第2主エンティティを含み、且つ前記第1表現パターンに合致する第2表現パターンにおける前記第2主エンティティに従属する第2従属エンティティを抽出し、
前記提供部は、少なくとも前記抽出部により抽出された前記第2従属エンティティを前記ナレッジデータベースに提供する、
請求項4に記載の情報処理装置。 - 前記第1表現パターンおよび前記第2表現パターンは、ウエブページの生成に用いられる言語の記述パターンである、
請求項5に記載の情報処理装置。 - 前記記述パターンは、言語の階層構造である、
請求項6に情報処理装置。 - 前記第1表現パターンであるウエブページの生成に用いられる言語の第1記述パターンと、前記第2表現パターンである前記言語の第2記述パターンとは類似し、
前記抽出部は、前記第1記述パターンにおける前記第1主エンティティの第1位置、前記第1記述パターンにおける前記第1従属エンティティの第2位置、および前記第2記述パターンにおける前記第2主エンティティの第1位置に基づいて、前記第2記述パターンにおける第2位置を特定し、前記第2位置に記述された情報を前記第2従属エンティティとして抽出する、
請求項5から7のうちいずれか1項に記載の情報処理装置。 - 請求項4から8のうちいずれか1項に記載された情報処理装置と、
前記情報処理装置の前記抽出部により提供された抽出情報を取得し、前記抽出情報に基づく情報を利用者の端末装置に提供するナレッジデータベースと、
を備える情報処理システム。 - コンピュータが、
ネットワークを介してアクセス可能な装置からウエブページの情報を収集する第1収集処理と、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースが有する情報を参照し、前記第1収集処理により収集されたウエブページのデータの提供元である装置を評価する評価処理と、
前記評価処理により第1所定度合以上の評価であると評価された装置から前記第1収集処理がウエブページの情報を収集する度合よりも高い度合でウエブページの情報を収集する第2収集処理と、
前記第2収集処理により収集された情報の少なくとも一部を前記ナレッジデータベースに提供する提供処理と、
を備える情報処理方法。 - コンピュータに、
ネットワークを介してアクセス可能な装置からウエブページの情報を収集する第1収集処理と、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースが有する情報を参照し、前記第1収集処理により収集されたウエブページのデータの提供元である装置を評価する評価処理と、
前記評価処理により第1所定度合以上の評価であると評価された装置から前記第1収集処理がウエブページの情報を収集する度合よりも高い度合でウエブページの情報を収集する第2収集処理と、
前記第2収集処理により収集された情報の少なくとも一部を前記ナレッジデータベースに提供する提供処理と、
を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020049207A JP7197531B2 (ja) | 2020-03-19 | 2020-03-19 | 情報処理装置、情報処理システム、情報処理方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020049207A JP7197531B2 (ja) | 2020-03-19 | 2020-03-19 | 情報処理装置、情報処理システム、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021149560A true JP2021149560A (ja) | 2021-09-27 |
JP7197531B2 JP7197531B2 (ja) | 2022-12-27 |
Family
ID=77848952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020049207A Active JP7197531B2 (ja) | 2020-03-19 | 2020-03-19 | 情報処理装置、情報処理システム、情報処理方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7197531B2 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006132793A2 (en) * | 2005-05-31 | 2006-12-14 | Google Inc. | Learning facts from semi-structured text |
WO2011105606A1 (ja) * | 2010-02-26 | 2011-09-01 | 楽天株式会社 | 情報処理装置、情報処理方法、情報処理装置用のプログラム、および、記録媒体 |
JP2012238296A (ja) * | 2011-04-28 | 2012-12-06 | Ird:Kk | データベース構築装置、商標侵害検知装置、データベース構築方法、およびプログラム |
JP2014527228A (ja) * | 2011-08-04 | 2014-10-09 | グーグル・インコーポレーテッド | 検索結果を伴う知識パネルを提供すること |
JP2019040297A (ja) * | 2017-08-23 | 2019-03-14 | ヤフー株式会社 | データ収集装置、データ収集方法、およびプログラム |
-
2020
- 2020-03-19 JP JP2020049207A patent/JP7197531B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006132793A2 (en) * | 2005-05-31 | 2006-12-14 | Google Inc. | Learning facts from semi-structured text |
US20060293879A1 (en) * | 2005-05-31 | 2006-12-28 | Shubin Zhao | Learning facts from semi-structured text |
WO2011105606A1 (ja) * | 2010-02-26 | 2011-09-01 | 楽天株式会社 | 情報処理装置、情報処理方法、情報処理装置用のプログラム、および、記録媒体 |
JP2012238296A (ja) * | 2011-04-28 | 2012-12-06 | Ird:Kk | データベース構築装置、商標侵害検知装置、データベース構築方法、およびプログラム |
JP2014527228A (ja) * | 2011-08-04 | 2014-10-09 | グーグル・インコーポレーテッド | 検索結果を伴う知識パネルを提供すること |
JP2019040297A (ja) * | 2017-08-23 | 2019-03-14 | ヤフー株式会社 | データ収集装置、データ収集方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7197531B2 (ja) | 2022-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6759844B2 (ja) | 画像を施設に対して関連付けるシステム、方法、プログラム及び装置 | |
US8682881B1 (en) | System and method for extracting structured data from classified websites | |
US10346457B2 (en) | Platform support clusters from computer application metadata | |
US20090248707A1 (en) | Site-specific information-type detection methods and systems | |
US20150287047A1 (en) | Extracting Information from Chain-Store Websites | |
JP7166116B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2020098596A (ja) | ウェブページから情報を抽出する方法、装置及び記憶媒体 | |
Luo et al. | Automated structural semantic annotation for RESTful services | |
JP6145562B2 (ja) | 情報構造化システム及び情報構造化方法 | |
CN109948015B (zh) | 一种元搜索列表结果抽取方法及系统 | |
JP2016045552A (ja) | 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置 | |
JP2021149560A (ja) | 情報処理装置、情報処理システム、情報処理方法、およびプログラム | |
JP7434493B2 (ja) | 情報処理装置、情報処理システム、情報処理方法、およびプログラム | |
JP7003020B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6982520B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US10726076B2 (en) | Information acquisition method, and information acquisition device | |
JP7078569B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6971209B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6985189B2 (ja) | データ収集装置、データ収集方法、およびプログラム | |
JP7354019B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6971210B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7183077B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN113656574B (zh) | 用于搜索结果排序的方法、计算设备和存储介质 | |
JP5394512B2 (ja) | 教師データ生成装置、方法及びプログラム | |
KR100871470B1 (ko) | 색인 데이터를 구축하기 위한 검색 시스템 및 이를 위한 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211020 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220829 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220906 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221026 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221215 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7197531 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |