JP7434493B2 - 情報処理装置、情報処理システム、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理システム、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP7434493B2 JP7434493B2 JP2022170801A JP2022170801A JP7434493B2 JP 7434493 B2 JP7434493 B2 JP 7434493B2 JP 2022170801 A JP2022170801 A JP 2022170801A JP 2022170801 A JP2022170801 A JP 2022170801A JP 7434493 B2 JP7434493 B2 JP 7434493B2
- Authority
- JP
- Japan
- Prior art keywords
- entity
- information
- subordinate
- knowledge database
- main
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 35
- 238000003672 processing method Methods 0.000 title claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 35
- 238000000605 extraction Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 26
- 238000005070 sampling Methods 0.000 description 19
- 238000004891 communication Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 4
- 238000009795 derivation Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 241000272194 Ciconiiformes Species 0.000 description 1
- 241000272534 Struthio camelus Species 0.000 description 1
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 1
- 210000003323 beak Anatomy 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 210000001364 upper extremity Anatomy 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Description
情報処理装置は、一以上のプロセッサにより実現される。実施形態の情報処理装置は、ウエブページの情報を取得し、複数のエンティティとエンティティ間の関係情報とを含むナレッジデータベースを参照し、取得部により取得されたウエブページにおいて、ナレッジデータベースに含まれる第1主エンティティと、第1主エンティティに従属する第1従属エンティティとを含む表現である第1表現パターンを認識する。そして、情報処理装置は、ウエブページにおいて、ナレッジデータベースに含まれ、関連付けられるべき第1従属エンティティと同種の第2従属エンティティが関連付けられてない第2主エンティティを含み、且つ第1表現パターンに合致する第2表現パターンを抽出し、ナレッジデータベースを拡充するために第2表現パターンに基づく情報をナレッジデータベースに提供する。「表現パターン」とは、例えば、ウエブページの生成に用いられる言語の記述パターンである。
情報処理装置は、ウエブページの情報を取得し、ナレッジデータベースを参照し、取得されたウエブページにおける主エンティティと主エンティティに従属する従属エンティティとが含まれる度合に基づいて、ウエブページに関して、ナレッジデータベースにおいて、第4主エンティティに対して関連付けられるべき従属エンティティと同種の第4従属エンティティの抽出対象とするか否かを決定する。
[構成]
図1は、情報処理システム1の機能構成の一例を示す図である。情報処理システム1は、例えば、端末装置10、一以上のホスト20(図では20-1~20-3)と、ナレッジデータベース装置30と、検索装置50と、収集装置100とを備える。端末装置10、ホスト20、および検索装置50は、ネットワークNWを介して互いに通信する。また、ナレッジデータベース装置30、検索装置50、および収集装置100は、ネットワークNWを介して互いに通信する。ネットワークNWは、例えばWAN(Wide Area Network)やLAN(Local Area Network)、インターネット、専用回線、無線基地局、プロバイダなどを含む。
収集装置100は、例えば、通信部102と、収集部104と、決定部106と、対象情報取得部108と、認識部110と、抽出部112と、特定部114と、提供部116と、記憶部130を備える。収集部104、決定部106、対象情報取得部108、認識部110、抽出部112、特定部114、および提供部116は、CPU(Central Processing Unit)等のハードウェアプロセッサが、記憶装置に記憶されたプログラムを実行することにより実現される。また、これらの機能部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等のハードウェアによって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。また、上記のプログラムは、予め記憶装置に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体に格納されており、記憶媒体が収集装置100のドライブ装置に装着されることで記憶装置にインストールされてもよい。
図4は、収集装置100の決定部106により実行される処理の流れの一例を示すフローチャートである。処理の詳細については、後述する図5~図7を参照して説明する。
(1)決定部106が、抽出対象のエンティティ(例えば、後述する図5、6のC美術館)を列挙する。
(2)決定部106が、サンプリングウエブページに、抽出対象のエンティティが含まれているか否かを判定する。
(3)抽出対象のエンティティが含まれている場合、決定部106は、ナレッジデータベース42に含まれる、ウエブページに含まれていたエンティティ(例えば、図5、6のAミュージアム、B博物館)と抽出対象のプロパティ(例えば、図5、6の公式サイト)で関連付けられていたエンティティ(例えば、図5、6のAミュージアム、B博物館の公式サイト)を列挙する。
(4)決定部106が、抽出対象のプロパティで関連付けられたエンティティが当該ウエブページに含まれているか否かを判定する処理を行う。そして、決定部106は、判定結果に基づいて、当該ウエブページの提供元のホスト20を深堀対象とするか否かを決定する。
図8は、収集装置100により実行される未知情報の抽出処理の流れの一例を示すフローチャートである。本フローチャートは、特定エンティティに対して、所定のプロパティで関連付けられるべきエンティティを特定する処理である。特定エンティティとは、関連付けられるべきエンティティ(第2従属エンティティ)が関連付けられていないエンティティ(第2主エンティティ)である。上述した例では、C美術館が特定エンティティに該当する。C美術館に対して、関連付けられるべきエンティティ「URL***」が関連付けられていないためである。処理の詳細については、後述する図9~図11を参照して説明する。
ことができる。
以下、第2実施形態について説明する。第2実施形態では、収集装置100Aが、抽出したエンティティに対する信頼度を導出し、導出した信頼度が閾値以上のエンティティをナレッジデータベース装置30に提供する。以下、第1実施形態との相違点について説明する。
Claims (11)
- ウエブページの情報を取得する取得部と、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースを参照し、対象の第1主エンティティを特定し、
前記対象の第1主エンティティは、前記ナレッジデータベースにおいて前記第1主エンティティに予め設定されたエンティティ間の関係を示す関係情報で関連付けられるべき第1従属エンティティが対応付けられていないエンティティであり、
前記対象の第1主エンティティが前記ウエブページに含まれるか否かを判定し、
前記対象の前記第1主エンティティが前記ウエブページに含まれると判定した場合、前記ナレッジデータベースに含まれ且つ前記ウエブページに含まれる前記関係情報で関連付けられた主エンティティと前記主エンティティに従属する従属エンティティを列挙し、
列挙した主エンティティと前記主エンティティに従属する従属エンティティとの組み合わせの数が条件を満たし、且つ前記第1主エンティティに合致する主エンティティと前記主エンティティに従属する従属エンティティとの組み合わせが含まれる前記ウエブページを提供しているホストを、前記第1従属エンティティの抽出対象に決定する決定部と、
を備える情報処理装置。 - 所定のホストが提供するウエブページの情報を取得する取得部と、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースを参照し、前記ウエブページに前記ナレッジデータベースが有する主エンティティと前記主エンティティに従属する従属エンティティとの組み合わせが含まれる個数に基づいてスコアを導出し、
導出したスコアが閾値以上である場合、前記ホストを、前記ナレッジデータベースに含まれる第1主エンティティであって前記従属エンティティと同種の第1従属エンティティであり前記第1主エンティティに対して関連付けられるべき前記第1従属エンティティの抽出対象に決定し、
導出したスコアが閾値未満である場合、前記ホストを、抽出対象外に決定する決定部と、
を備える情報処理装置。 - 前記決定部は、前記ウエブページに前記ナレッジデータベースが有する主エンティティと前記主エンティティに従属する従属エンティティとの組み合わせが含まれる個数と、前記ウエブページにおける前記ナレッジデータベースに含まれない前記組み合わせの個数とに基づいて、前記スコアを導出する、
請求項2に記載の情報処理装置。 - 前記抽出対象として決定されたホストが有する情報を、前記抽出対象であると決定されていないホストが有する情報よりも優先して情報を収集する収集部を備える、
請求項1から3のうちいずれか1項に記載の情報処理装置。 - 前記収集部により収集された情報に基づいて、ナレッジデータベースを拡充する処理部を備える、
請求項4に記載の情報処理装置。 - 前記処理部は、前記収集部により収集された情報に基づいて、ナレッジデータベースに含まれる主エンティティであって前記主エンティティに関連付けられるべき従属エンティティが関連付けられていない従属エンティティを用いて前記ナレッジデータベースを拡充する、
請求項5に記載の情報処理装置。 - 請求項1から6のうちいずれか1項に記載の情報処理装置と、
ユーザの端末装置のリクエストに応じて前記主エンティティと前記情報処理装置により拡充された従属エンティティとが関連付けた情報を前記ユーザの端末装置に提供するナレッジデータベース装置と、
を備える情報処理システム。 - コンピュータが、
ウエブページの情報を取得し、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースを参照し、対象の第1主エンティティを特定し、
前記対象の第1主エンティティは、前記ナレッジデータベースにおいて前記第1主エンティティに予め設定されたエンティティ間の関係を示す関係情報で関連付けられるべき第1従属エンティティが対応付けられていないエンティティであり、
前記対象の第1主エンティティが前記ウエブページに含まれるか否かを判定し、
前記対象の前記第1主エンティティが前記ウエブページに含まれると判定した場合、前記ナレッジデータベースに含まれ且つ前記ウエブページに含まれる前記関係情報で関連付けられた主エンティティと前記主エンティティに従属する従属エンティティを列挙し、
列挙した主エンティティと前記主エンティティに従属する従属エンティティとの組み合わせの数が条件を満たし、且つ前記第1主エンティティに合致する主エンティティと前記主エンティティに従属する従属エンティティとの組み合わせが含まれる前記ウエブページを提供しているホストを、前記第1従属エンティティの抽出対象に決定する、
情報処理方法。 - コンピュータに、
ウエブページの情報を取得させ、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースを参照し、対象の第1主エンティティを特定させ、
前記対象の第1主エンティティは、前記ナレッジデータベースにおいて前記第1主エンティティに予め設定されたエンティティ間の関係を示す関係情報で関連付けられるべき第1従属エンティティが対応付けられていないエンティティであり、
前記対象の第1主エンティティが前記ウエブページに含まれるか否かを判定させ、
前記対象の前記第1主エンティティが前記ウエブページに含まれると判定した場合、前記ナレッジデータベースに含まれ且つ前記ウエブページに含まれる前記関係情報で関連付けられた主エンティティと前記主エンティティに従属する従属エンティティを列挙させ、
列挙した主エンティティと前記主エンティティに従属する従属エンティティとの組み合わせの数が条件を満たし、且つ前記第1主エンティティに合致する主エンティティと前記主エンティティに従属する従属エンティティとの組み合わせが含まれる前記ウエブページを提供しているホストを、前記第1従属エンティティの抽出対象に決定させる、
プログラム。 - コンピュータが、
所定のホストが提供するウエブページの情報を取得し、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースを参照し、前記ウエブページに前記ナレッジデータベースが有する主エンティティと前記主エンティティに従属する従属エンティティとの組み合わせが含まれる個数に基づいてスコアを導出し、
導出したスコアが閾値以上である場合、前記ホストを、前記ナレッジデータベースに含まれる第1主エンティティであって前記従属エンティティと同種の第1従属エンティティであり前記第1主エンティティに対して関連付けられるべき前記第1従属エンティティの抽出対象に決定し
導出したスコアが閾値未満である場合、前記ホストを、抽出対象外に決定する、
情報処理方法。 - コンピュータに、
所定のホストが提供するウエブページの情報を取得させ、
複数のエンティティと前記エンティティ間の関係情報とを含むナレッジデータベースを参照し、前記ウエブページに前記ナレッジデータベースが有する主エンティティと前記主エンティティに従属する従属エンティティとの組み合わせが含まれる個数に基づいてスコアを導出させ、
導出したスコアが閾値以上である場合、前記ホストを、前記ナレッジデータベースに含まれる第1主エンティティであって前記従属エンティティと同種の第1従属エンティティであり前記第1主エンティティに対して関連付けられるべき前記第1従属エンティティの抽出対象に決定させ、
導出したスコアが閾値未満である場合、前記ホストを、抽出対象外に決定させる、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022170801A JP7434493B2 (ja) | 2018-09-19 | 2022-10-25 | 情報処理装置、情報処理システム、情報処理方法、およびプログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018174410A JP6998282B2 (ja) | 2018-09-19 | 2018-09-19 | 情報処理装置、情報処理方法、およびプログラム |
JP2021093524A JP2021192232A (ja) | 2018-09-19 | 2021-06-03 | 情報処理装置、情報処理システム、情報処理方法、およびプログラム |
JP2022170801A JP7434493B2 (ja) | 2018-09-19 | 2022-10-25 | 情報処理装置、情報処理システム、情報処理方法、およびプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021093524A Division JP2021192232A (ja) | 2018-09-19 | 2021-06-03 | 情報処理装置、情報処理システム、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022191487A JP2022191487A (ja) | 2022-12-27 |
JP7434493B2 true JP7434493B2 (ja) | 2024-02-20 |
Family
ID=69899761
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018174410A Active JP6998282B2 (ja) | 2018-09-19 | 2018-09-19 | 情報処理装置、情報処理方法、およびプログラム |
JP2021093524A Pending JP2021192232A (ja) | 2018-09-19 | 2021-06-03 | 情報処理装置、情報処理システム、情報処理方法、およびプログラム |
JP2022170801A Active JP7434493B2 (ja) | 2018-09-19 | 2022-10-25 | 情報処理装置、情報処理システム、情報処理方法、およびプログラム |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018174410A Active JP6998282B2 (ja) | 2018-09-19 | 2018-09-19 | 情報処理装置、情報処理方法、およびプログラム |
JP2021093524A Pending JP2021192232A (ja) | 2018-09-19 | 2021-06-03 | 情報処理装置、情報処理システム、情報処理方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (3) | JP6998282B2 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003303201A (ja) | 2002-04-10 | 2003-10-24 | Toshiba Corp | 知識情報収集システムおよび知識情報収集方法 |
US20060293879A1 (en) | 2005-05-31 | 2006-12-28 | Shubin Zhao | Learning facts from semi-structured text |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060179024A1 (en) * | 2005-02-04 | 2006-08-10 | Bechtel Michael E | Knowledge discovery tool extraction and integration |
US9514202B2 (en) | 2010-02-26 | 2016-12-06 | Rakuten, Inc. | Information processing apparatus, information processing method, program for information processing apparatus and recording medium |
KR101636477B1 (ko) * | 2014-11-28 | 2016-07-06 | (주)아이와즈 | 구조화된 지식정보와 문서수집을 이용한 지식확장 및 검증 시스템, 그 방법, 기록매체 |
-
2018
- 2018-09-19 JP JP2018174410A patent/JP6998282B2/ja active Active
-
2021
- 2021-06-03 JP JP2021093524A patent/JP2021192232A/ja active Pending
-
2022
- 2022-10-25 JP JP2022170801A patent/JP7434493B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003303201A (ja) | 2002-04-10 | 2003-10-24 | Toshiba Corp | 知識情報収集システムおよび知識情報収集方法 |
US20060293879A1 (en) | 2005-05-31 | 2006-12-28 | Shubin Zhao | Learning facts from semi-structured text |
Non-Patent Citations (1)
Title |
---|
吉永直樹ほか,Webからの属性情報記述ページの発見,言語処理学会第12回年次大会発表論文集,言語処理学会,2006年03月13日,pp.801-804 |
Also Published As
Publication number | Publication date |
---|---|
JP2020046896A (ja) | 2020-03-26 |
JP2022191487A (ja) | 2022-12-27 |
JP2021192232A (ja) | 2021-12-16 |
JP6998282B2 (ja) | 2022-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6423845B2 (ja) | 検索クエリに応答してコンテンツとマッチングしようとする画像を動的にランキングする方法及びシステム | |
JP2009211211A (ja) | 分析システム、情報処理装置、アクティビティ分析方法、およびプログラム | |
JP6165955B1 (ja) | 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム | |
US10769216B2 (en) | Data acquisition method, data acquisition apparatus, and recording medium | |
US20170255653A1 (en) | Method for categorizing images to be associated with content items based on keywords of search queries | |
JP5226241B2 (ja) | タグを付与する方法 | |
JP7434493B2 (ja) | 情報処理装置、情報処理システム、情報処理方法、およびプログラム | |
JP6145562B2 (ja) | 情報構造化システム及び情報構造化方法 | |
US9990444B2 (en) | Apparatus and method for supporting visualization of connection relationship | |
JP2016045552A (ja) | 特徴抽出プログラム、特徴抽出方法、および特徴抽出装置 | |
CN110069691A (zh) | 用于处理点击行为数据的方法和装置 | |
JP7197531B2 (ja) | 情報処理装置、情報処理システム、情報処理方法、およびプログラム | |
JP6982520B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7003020B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2018072873A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP5826148B2 (ja) | 図面管理サーバ及びこれを用いた図面管理システム | |
JP5108660B2 (ja) | 情報収集方法、装置及びプログラム | |
JP6097429B1 (ja) | 情報抽出装置、情報抽出方法、およびプログラム | |
CN111078976A (zh) | 一种基于医疗系统爬虫提取数据的方法 | |
JP7354019B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6985189B2 (ja) | データ収集装置、データ収集方法、およびプログラム | |
JP6971209B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP7078569B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6960289B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP7323484B2 (ja) | 情報処理装置、情報処理方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221118 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231004 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231010 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20231026 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7434493 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |