JP7428250B2 - 文書検索の性能を評価する方法、システム、および装置 - Google Patents
文書検索の性能を評価する方法、システム、および装置 Download PDFInfo
- Publication number
- JP7428250B2 JP7428250B2 JP2022530027A JP2022530027A JP7428250B2 JP 7428250 B2 JP7428250 B2 JP 7428250B2 JP 2022530027 A JP2022530027 A JP 2022530027A JP 2022530027 A JP2022530027 A JP 2022530027A JP 7428250 B2 JP7428250 B2 JP 7428250B2
- Authority
- JP
- Japan
- Prior art keywords
- document data
- search
- search query
- label
- analysis case
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 38
- 238000011156 evaluation Methods 0.000 claims description 52
- 238000010801 machine learning Methods 0.000 claims description 24
- 150000001875 compounds Chemical class 0.000 claims description 13
- 239000000126 substance Substances 0.000 claims description 4
- 230000015556 catabolic process Effects 0.000 claims 3
- 238000006731 degradation reaction Methods 0.000 claims 3
- 238000004458 analytical method Methods 0.000 description 218
- 239000013598 vector Substances 0.000 description 46
- 238000010586 diagram Methods 0.000 description 28
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 27
- 230000007423 decrease Effects 0.000 description 24
- 150000007523 nucleic acids Chemical class 0.000 description 13
- 102000039446 nucleic acids Human genes 0.000 description 13
- 108020004707 nucleic acids Proteins 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 238000012360 testing method Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 230000010365 information processing Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000003672 processing method Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 238000004895 liquid chromatography mass spectrometry Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 150000003212 purines Chemical class 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- 229930013930 alkaloid Natural products 0.000 description 1
- 150000003797 alkaloid derivatives Chemical class 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
- G06F16/3326—Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
上述した例示的な実施の形態は、以下の態様の具体例であることが当業者により理解される。
Claims (8)
- 複数の文書データを含むデータベースから、検索クエリに関連する複数の関連文書データを検索し、前記複数の関連文書データの各々と前記検索クエリとの関連度に応じて前記複数の関連文書データを順位付ける文書検索の性能を評価する、プロセッサによって実行される方法であって、
前記関連度は、前記データベースを用いる機械学習によって生成された言語モデルによって抽出される前記複数の文書データの各々の特徴と、前記言語モデルによって抽出される前記検索クエリの特徴とに基づいて算出され、
前記複数の文書データに含まれる複数の特定文書データの各々には、当該特定文書データに関連する第1ラベルおよび前記第1ラベルの上位概念である第2ラベルが予め付されており、
前記方法は、
前記データベースに少なくとも1つの文書データが追加された場合、前記機械学習によって前記言語モデルを更新するステップと、
前記複数の特定文書データに付された複数の第1ラベルの各々を前記検索クエリとする前記文書検索の結果から、前記複数の特定文書データの各々の順位に関する第1統計値を算出するステップと、
前記複数の特定文書データに付された複数の第2ラベルの各々を前記検索クエリとする前記文書検索の結果から、前記複数の特定文書データの各々の順位に関する第2統計値を算出するステップと、
前記少なくとも1つの文書データの追加に伴う前記言語モデルの更新による前記第1統計値の変動値が第1閾値より大きく、かつ前記更新による前記第2統計値の変動値が第2閾値よりも大きい場合、前記性能の低下を検出するステップとを含む、方法。 - 前記第1ラベルは、前記第1ラベルが付された特定文書データにおいて分析対象とされている化合物の名称を示す文字列を含み、
前記第2ラベルは、前記化合物の化学的または生物学的な上位概念を示す文字列を含む、請求項1に記載の方法。 - 前記言語モデルは、前記複数の文書データに含まれる単語および文章の各々の分散表現および前記複数の文書データの各々の分散表現を生成可能であり、
前記関連度は、前記複数の関連文書データの各々の分散表現と前記検索クエリの分散表現との間の距離を用いて算出される、請求項1に記載の方法。 - 前記関連度は、前記距離および前記複数の関連文書データの各々に含まれる前記検索クエリの数に基づいて算出される、請求項3に記載の方法。
- 前記少なくとも1つの文書データを前記データベースに追加するステップをさらに含む、請求項1に記載の方法。
- 前記第1閾値は、前記第2閾値よりも大きい、請求項1に記載の方法。
- 複数の文書データを含むデータベースから、検索クエリに関連する複数の関連文書データを検索し、前記複数の関連文書データの各々と前記検索クエリとの関連度に応じて前記複数の関連文書データを順位付ける文書検索の性能を評価するシステムであって、
前記関連度は、前記データベースを用いる機械学習によって生成された言語モデルによって抽出される前記複数の文書データの各々の特徴と、前記言語モデルによって抽出される前記検索クエリの特徴とに基づいて算出され、
前記複数の文書データに含まれる複数の特定文書データの各々には、当該特定文書データに関連する第1ラベルおよび前記第1ラベルの上位概念である第2ラベルが予め付されており、
前記システムは、
前記検索クエリが入力される端末装置と、
前記端末装置から前記検索クエリを受信して前記文書検索を行うサーバ装置とを備え、
前記サーバ装置は、
前記データベースに少なくとも1つの文書データが追加された場合、前記機械学習によって前記言語モデルを更新する学習部と、
前記性能を評価する性能評価部とを含み、
前記性能評価部は、
前記複数の特定文書データに付された複数の第1ラベルの各々を前記検索クエリとする前記文書検索の結果から、前記複数の特定文書データの各々の順位に関する第1統計値を算出し、
前記複数の特定文書データに付された複数の第2ラベルの各々を前記検索クエリとする前記文書検索の結果から、前記複数の特定文書データの各々の順位に関する第2統計値を算出し、
前記少なくとも1つの文書データの追加に伴う前記言語モデルの更新による前記第1統計値の変動値が第1閾値より大きく、かつ前記更新による前記第2統計値の変動値が第2閾値よりも大きい場合、前記性能の低下を検出する、システム。 - 複数の文書データを含むデータベースから、検索クエリに関連する複数の関連文書データを検索し、前記複数の関連文書データの各々と前記検索クエリとの関連度に応じて前記複数の関連文書データを順位付ける文書検索の性能を評価する装置であって、
前記関連度は、前記データベースを用いる機械学習によって生成された言語モデルによって抽出される前記複数の文書データの各々の特徴と、前記言語モデルによって抽出される前記検索クエリの特徴とに基づいて算出され、
前記複数の文書データに含まれる複数の特定文書データの各々には、当該特定文書データに関連する第1ラベルおよび前記第1ラベルの上位概念である第2ラベルが予め付されており、
前記装置は、
前記検索クエリが入力される入出力部と、
前記検索クエリを受けて前記文書検索を行う検索部と、
前記データベースに少なくとも1つの文書データが追加された場合、前記機械学習によって前記言語モデルを更新する学習部と、
前記性能を評価する性能評価部とを備え、
前記性能評価部は、
前記複数の特定文書データに付された複数の第1ラベルの各々を前記検索クエリとする前記文書検索の結果から、前記複数の特定文書データの各々の順位に関する第1統計値を算出し、
前記複数の特定文書データに付された複数の第2ラベルの各々を前記検索クエリとする前記文書検索の結果から、前記複数の特定文書データの各々の順位に関する第2統計値を算出し、
前記少なくとも1つの文書データの追加に伴う前記言語モデルの更新による前記第1統計値の変動値が第1閾値より大きく、かつ前記更新による前記第2統計値の変動値が第2閾値よりも大きい場合、前記性能の低下を検出する、装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020101523 | 2020-06-11 | ||
JP2020101523 | 2020-06-11 | ||
PCT/JP2021/008353 WO2021250950A1 (ja) | 2020-06-11 | 2021-03-04 | 文書検索の性能を評価する方法、システム、および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021250950A1 JPWO2021250950A1 (ja) | 2021-12-16 |
JP7428250B2 true JP7428250B2 (ja) | 2024-02-06 |
Family
ID=78847182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022530027A Active JP7428250B2 (ja) | 2020-06-11 | 2021-03-04 | 文書検索の性能を評価する方法、システム、および装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US12099535B2 (ja) |
JP (1) | JP7428250B2 (ja) |
CN (1) | CN115698980A (ja) |
WO (1) | WO2021250950A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118215913A (zh) * | 2021-11-04 | 2024-06-18 | 三星电子株式会社 | 用于提供与查询语句相关的搜索结果的电子设备和方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009515231A (ja) | 2005-07-18 | 2009-04-09 | マイクロソフト コーポレーション | 任意のコストファンクションを用いて学習システムをトレーニングすること |
JP2014153744A (ja) | 2013-02-05 | 2014-08-25 | Nippon Hoso Kyokai <Nhk> | 情報検索装置及び情報検索プログラム |
US20150095300A1 (en) | 2010-06-20 | 2015-04-02 | Remeztech Ltd. | System and method for mark-up language document rank analysis |
JP2016224847A (ja) | 2015-06-03 | 2016-12-28 | 明 潮田 | 文書素性抽出装置、文書素性抽出方法、文書分類装置、文書分類方法、文書検索装置、文書検索方法、コンピュータプログラム、および、コンピュータプログラムを記録した記録媒体 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3347088B2 (ja) * | 1999-02-12 | 2002-11-20 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 関連情報検索方法およびシステム |
JP2003099439A (ja) | 2001-09-21 | 2003-04-04 | Shimadzu Corp | 分析処理方法検索装置 |
JP3961804B2 (ja) | 2001-10-05 | 2007-08-22 | エヌ・ティ・ティ・コミュニケーションズ株式会社 | 商品又は役務の説明支援システム、商品又は役務の説明支援方法、及び、商品又は役務の説明支援システム用プログラム |
US7571157B2 (en) * | 2004-12-29 | 2009-08-04 | Aol Llc | Filtering search results |
JP4224131B2 (ja) | 2008-08-08 | 2009-02-12 | 株式会社日立製作所 | 文書検索システム |
JP5796494B2 (ja) * | 2010-01-15 | 2015-10-21 | 日本電気株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US9684683B2 (en) * | 2010-02-09 | 2017-06-20 | Siemens Aktiengesellschaft | Semantic search tool for document tagging, indexing and search |
US20150292197A1 (en) * | 2014-04-11 | 2015-10-15 | Samuel Miller | Rodent-Resistant, Reinforced Weather Stripping |
US20170177712A1 (en) * | 2015-12-21 | 2017-06-22 | Ebay Inc. | Single step cross-linguistic search using semantic meaning vectors |
JP6943190B2 (ja) | 2018-01-18 | 2021-09-29 | 株式会社ナカヨ | マニュアル検索システム |
US11789953B2 (en) * | 2018-03-23 | 2023-10-17 | Semiconductor Energy Laboratory Co., Ltd. | Document search system, document search method, program, and non-transitory computer readable storage medium |
WO2020079748A1 (ja) * | 2018-10-16 | 2020-04-23 | 株式会社島津製作所 | 事例検索方法および事例検索システム |
-
2021
- 2021-03-04 CN CN202180041586.4A patent/CN115698980A/zh active Pending
- 2021-03-04 US US18/008,736 patent/US12099535B2/en active Active
- 2021-03-04 JP JP2022530027A patent/JP7428250B2/ja active Active
- 2021-03-04 WO PCT/JP2021/008353 patent/WO2021250950A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009515231A (ja) | 2005-07-18 | 2009-04-09 | マイクロソフト コーポレーション | 任意のコストファンクションを用いて学習システムをトレーニングすること |
US20150095300A1 (en) | 2010-06-20 | 2015-04-02 | Remeztech Ltd. | System and method for mark-up language document rank analysis |
JP2014153744A (ja) | 2013-02-05 | 2014-08-25 | Nippon Hoso Kyokai <Nhk> | 情報検索装置及び情報検索プログラム |
JP2016224847A (ja) | 2015-06-03 | 2016-12-28 | 明 潮田 | 文書素性抽出装置、文書素性抽出方法、文書分類装置、文書分類方法、文書検索装置、文書検索方法、コンピュータプログラム、および、コンピュータプログラムを記録した記録媒体 |
Non-Patent Citations (1)
Title |
---|
欅 惇志、外1名,語義と分散表現を用いたランキング学習,第12回データ工学と情報マネジメントに関するフォーラム (第18回日本データベース学会年次大会),日本,2020年03月04日,p.1-8 |
Also Published As
Publication number | Publication date |
---|---|
CN115698980A (zh) | 2023-02-03 |
WO2021250950A1 (ja) | 2021-12-16 |
US20230244705A1 (en) | 2023-08-03 |
US12099535B2 (en) | 2024-09-24 |
JPWO2021250950A1 (ja) | 2021-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5638031B2 (ja) | 格付け方法、検索結果分類方法、格付けシステム及び検索結果分類システム | |
US20200097560A1 (en) | Ranking Enterprise Search Results Based on Relationships Between Users | |
KR100666064B1 (ko) | 인터랙티브 검색 쿼리 개선 시스템 및 방법 | |
JP5391633B2 (ja) | オントロジー空間を規定するタームの推奨 | |
US20020073079A1 (en) | Method and apparatus for searching a database and providing relevance feedback | |
US7428538B2 (en) | Retrieval of structured documents | |
KR101203345B1 (ko) | 요약을 이용하여 디스플레이 페이지를 분류하는 방법 및시스템 | |
CN109271574A (zh) | 一种热词推荐方法及装置 | |
US8930822B2 (en) | Method for human-centric information access and presentation | |
KR101538998B1 (ko) | 지식 구조를 기반으로 한 검색 서비스 제공 방법 및 장치 | |
US20060155751A1 (en) | System and method for document analysis, processing and information extraction | |
US20080021891A1 (en) | Searching a document using relevance feedback | |
CN109906450A (zh) | 用于通过相似性关联对电子信息排名的方法和装置 | |
JP2009093650A (ja) | 文書の段落分析によるその文書のタグの選択 | |
JP2002230021A (ja) | 情報検索装置及び情報検索方法並びに記憶媒体 | |
Liu et al. | Stratified sampling for data mining on the deep web | |
JP2003016089A (ja) | 情報検索システム及びサーバ | |
CN108205572A (zh) | 一种搜索方法、装置及设备 | |
KR20220119745A (ko) | 콘텐츠를 검색하는 방법, 장치, 기기 및 컴퓨터 판독 가능 저장 매체 | |
JP2010061420A (ja) | 商品情報検索装置、方法及びシステム | |
JPH11102377A (ja) | データベースからドキュメントを検索する方法および装置 | |
JP7428250B2 (ja) | 文書検索の性能を評価する方法、システム、および装置 | |
Afuan et al. | Query expansion in information retrieval using frequent pattern (FP) growth algorithm for frequent itemset search and association rules mining | |
JP2012104051A (ja) | 文書インデックス作成装置 | |
Milo et al. | Simmeme: A search engine for internet memes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231024 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240108 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7428250 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |