JP7428250B2 - 文書検索の性能を評価する方法、システム、および装置 - Google Patents

文書検索の性能を評価する方法、システム、および装置 Download PDF

Info

Publication number
JP7428250B2
JP7428250B2 JP2022530027A JP2022530027A JP7428250B2 JP 7428250 B2 JP7428250 B2 JP 7428250B2 JP 2022530027 A JP2022530027 A JP 2022530027A JP 2022530027 A JP2022530027 A JP 2022530027A JP 7428250 B2 JP7428250 B2 JP 7428250B2
Authority
JP
Japan
Prior art keywords
document data
search
search query
label
analysis case
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022530027A
Other languages
English (en)
Other versions
JPWO2021250950A1 (ja
Inventor
健太郎 森本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shimadzu Corp
Original Assignee
Shimadzu Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shimadzu Corp filed Critical Shimadzu Corp
Publication of JPWO2021250950A1 publication Critical patent/JPWO2021250950A1/ja
Application granted granted Critical
Publication of JP7428250B2 publication Critical patent/JP7428250B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書検索の性能を評価する方法、システム、および装置に関する。
従来、データベースから所望の情報を検索する構成が知られている。たとえば、特開2003-99439号公報(特許文献1)には、各種分析処理方法をデータベースとして保持し、データベースから所望の分析処理方法を検索して表示する分析処理方法検索装置が開示されている。当該分析処理方法検索装置によれば、直感的に把握しやすいキーワードが分析処理方法を特徴づける属性データとして設定されているため、当該属性データを検索キーとすることにより、目的の処理にあった分析処理方法を容易に検索することができる。
特開2003-99439号公報
検索対象の情報を含むデータベースには新たな情報が追加されることがあるため、検索クエリが同じでも、検索のタイミングによって当該検索クエリを用いた検索結果は変化し得る。データベースに追加される情報によっては、データベースに含まれる情報の傾向が急激に変化し、検索クエリとの関連性が相対的に低い文書データが上位に順位付けされ得る。しかし、特許文献1に開示された分析処理方法検索装置においては、データベースに含まれる情報の傾向の変化に伴う文書検索の性能の低下について考慮されていない。
本発明は、このような課題を解決するためになされたものであって、その目的は、文書検索の性能の低下を自動的に検出することである。
本発明の一局面に係る方法は、複数の文書データを含むデータベースから、検索クエリに関連する複数の関連文書データを検索し、複数の関連文書データの各々と検索クエリとの関連度に応じて複数の関連文書データを順位付ける文書検索の性能を評価する。当該関連度は、データベースを用いる機械学習によって生成された言語モデルによって抽出される複数の文書データの各々の特徴と、当該言語モデルによって抽出される検索クエリの特徴とに基づいて算出される。複数の文書データに含まれる複数の特定文書データの各々には、当該特定文書データに関連する第1ラベルおよび第1ラベルの上位概念である第2ラベルが予め付されている。当該方法は、データベースに少なくとも1つの文書データが追加された場合、機械学習によって言語モデルを更新するステップと、複数の特定文書データに付された複数の第1ラベルの各々を検索クエリとする文書検索の結果から、複数の特定文書データの各々の順位に関する第1統計値を算出するステップと、複数の特定文書データに付された複数の第2ラベルの各々を検索クエリとする文書検索の結果から、複数の特定文書データの各々の順位に関する第2統計値を算出するステップと、少なくとも1つの文書データの追加に伴う言語モデルの更新による第1統計値の変動値が第1閾値より大きく、かつ当該更新による第2統計値の変動値が第2閾値よりも大きい場合、文書検索の性能の低下を検出するステップとを含む。
本発明の他の局面に係るシステムは、複数の文書データを含むデータベースから、検索クエリに関連する複数の関連文書データを検索し、複数の関連文書データの各々と検索クエリとの関連度に応じて複数の関連文書データを順位付ける文書検索の性能を評価する。当該関連度は、データベースを用いる機械学習によって生成された言語モデルによって抽出される複数の文書データの各々の特徴と、言語モデルによって抽出される検索クエリの特徴とに基づいて算出される。複数の文書データに含まれる複数の特定文書データの各々には、当該特定文書データに関連する第1ラベルおよび第1ラベルの上位概念である第2ラベルが予め付されている。当該システムは、端末装置と、サーバ装置とを備える。端末装置には、検索クエリが入力される。サーバ装置は、端末装置から検索クエリを受信して文書検索を行う。サーバ装置は、学習部と、性能評価部とを含む。学習部は、データベースに少なくとも1つの文書データが追加された場合、機械学習によって言語モデルを更新する。性能評価部は、文書検索の性能を評価する。性能評価部は、複数の特定文書データに付された複数の第1ラベルの各々を検索クエリとする文書検索の結果から、複数の特定文書データの各々の順位に関する第1統計値を算出する。性能評価部は、複数の特定文書データに付された複数の第2ラベルの各々を検索クエリとする文書検索の結果から、複数の特定文書データの各々の順位に関する第2統計値を算出する。性能評価部は、少なくとも1つの文書データの追加に伴う言語モデルの更新による第1統計値の変動値が第1閾値より大きく、かつ更新による第2統計値の変動値が第2閾値よりも大きい場合、文書検索の性能の低下を検出する。
本発明の他の局面に係る装置は、複数の文書データを含むデータベースから、検索クエリに関連する複数の関連文書データを検索し、複数の関連文書データの各々と検索クエリとの関連度に応じて複数の関連文書データを順位付ける文書検索の性能を評価する。当該関連度は、データベースを用いる機械学習によって生成された言語モデルによって抽出される複数の文書データの各々の特徴と、言語モデルによって抽出される検索クエリの特徴とに基づいて算出される。複数の文書データに含まれる複数の特定文書データの各々には、当該特定文書データに関連する第1ラベルおよび第1ラベルの上位概念である第2ラベルが予め付されている。当該装置は、入出力部と、検索部と、学習部と、性能評価部とを備える。入出力部には、検索クエリが入力される。検索部は、検索クエリを受けて文書検索を行う。学習部は、データベースに少なくとも1つの文書データが追加された場合、機械学習によって言語モデルを更新する。性能評価部は、文書検索の性能を評価する。性能評価部は、複数の特定文書データに付された複数の第1ラベルの各々を検索クエリとする文書検索の結果から、複数の特定文書データの各々の順位に関する第1統計値を算出する。性能評価部は、複数の特定文書データに付された複数の第2ラベルの各々を検索クエリとする文書検索の結果から、複数の特定文書データの各々の順位に関する第2統計値を算出する。性能評価部は、少なくとも1つの文書データの追加に伴う言語モデルの更新による第1統計値の変動値が第1閾値より大きく、かつ更新による第2統計値の変動値が第2閾値よりも大きい場合、性能の低下を検出する。
本発明に係る方法、システム、および装置によれば、少なくとも1つの文書データの追加に伴う言語モデルの更新による第1統計値の変動値が第1閾値より大きく、かつ当該更新による第2統計値の変動値が第2閾値よりも大きい場合に文書検索の性能の低下が検出されることにより、文書検索の性能の低下を自動的に検出することができる。
実施の形態に係る文書検索システムの一例である分析事例検索システムの構成を示すブロック図である。 図1の計算機および入出力部のハードウェア構成を示すブロック図である。 図1のサーバ装置およびデータベースの機能構成を示すブロック図である。 分析事例データベースに含まれる分析事例データの一例である分析事例データを示す図である。 検索クエリが「プリン体」である場合に、図1のディスプレイに表示される検索結果ウィンドウの一例を示す図である。 検索クエリが「核酸」である場合に、図1のディスプレイに表示される検索結果ウィンドウの一例を示す図である。 図1の分析事例検索システムにおいて行われる検索処理の概略的な流れを示す図である。 テストクエリデータベースにおいて形成されている、第1ラベル、第2ラベル、および特定分析事例データの識別子が関連付けられた構造を示す図である。 複数の第1ラベルの各々を検索クエリとした場合の、複数の特定分析事例データの順位の頻度の分布曲線を示す図である。 複数の第2ラベルの各々を検索クエリとした場合の、複数の特定分析事例データの順位の頻度の分布曲線を示す図である。 図3のサーバ装置において行われる性能評価処理の概略的な流れを示す図である。 図3のサーバ装置のハードウェア構成を示すブロック図である。 実施の形態の変形例に係る情報処理装置の構成を示すブロック図である。 図13の情報処理装置のハードウェア構成を示すブロック図である。
以下に、実施の形態について図面を参照して詳細に説明する。なお、以下では図中の同一または相当部分には同一符号を付してその説明は原則的に繰返さない。
図1は、実施の形態に係る文書検索システムの一例である分析事例検索システム1000の構成を示すブロック図である。図1に示されるように、分析事例検索システム1000は、端末装置100と、サーバ装置200と、データベース300とを備える。端末装置100およびサーバ装置200は、ネットワークNWを介して接続されている。データベース300は、複数の分析事例データ(文書データ)を含む。ネットワークNWは、たとえばインターネット、WAN(Wan Area Network)、またはLAN(Lan Area Network)を含む。
端末装置100は、計算機120と、入出力部130とを含む。入出力部130は、ディスプレイ131と、キーボード132と、マウス133とを含む。ディスプレイ131と、キーボード132と、マウス133とは、計算機120に接続されている。
ディスプレイ131には、検索ウィンドウWn1およびカーソルCrが表示されている。ユーザは、マウス133を操作することによりカーソルCrを操作する。ユーザは、キーボード132を操作することにより検索クエリQRYを検索ウィンドウWn1に入力する。図1には、プリン体の分析に適した分析装置、分析方法、および分析条件等が記載された分析事例データ(文書データ)を検索するため、検索クエリQRYとして「プリン体」という文字列をユーザが検索ウィンドウWn1に入力した場合が示されている。
分析事例検索システム1000においては、ユーザによって入力された検索クエリが、端末装置100から、ネットワークNWを介してサーバ装置200へ送信される。サーバ装置200は、データベース300から検索クエリQRYに関連する複数の関連分析事例データ(関連文書データ)を検索する。サーバ装置200は、検索クエリQRYとの関連度に応じて、複数の関連分析事例データの各々を順位付けて、検索結果を端末装置100に送信する。端末装置100は、サーバ装置200からの検索結果に基づいて、複数の関連分析事例データを順位順に表示する。
図2は、図1の計算機120および入出力部130のハードウェア構成を示すブロック図である。図2に示されるように、計算機120は、プロセッサ121と、記憶部としてのメモリ122およびハードディスク123と、通信インターフェース124とを含む。これらは、バス125を介して相互に通信可能に接続されている。
ハードディスク123は、不揮発性の記憶装置である。ハードディスク123には、たとえばオペレーティングシステム(OS:Operating System)のプログラム41、および分析事例検索アプリケーションのクライアントプログラム42が保存されている。図2に示されるデータ以外にも、ハードディスク123には、たとえば各種アプリケーションの設定および出力が保存される。メモリ122は、揮発性の記憶装置であり、たとえばDRAM(Dynamic Random Access Memory)を含む。
プロセッサ121は、CPU(Central Processing Unit)を含む。プロセッサ121は、GPU(Graphics Processing Unit)をさらに含んでもよい。プロセッサ121は、ハードディスク123に保存されているプログラムをメモリ122に読み込んで実行する。プロセッサ121は、通信インターフェース124を介してネットワークNWに接続する。
入出力部130は、ディスプレイ131と、マウス133と、キーボード132とを含む。ディスプレイ131、マウス133、およびキーボード132の各々は、計算機120に接続されている。ディスプレイ131には、分析事例検索アプリケーションのGUI(Graphical User Interface)が表示される。ユーザは、ディスプレイ131の表示を参照しながら、キーボード132の操作、またはマウス133の操作によって、分析事例検索アプリケーションへ所望の入力を行う。
図3は、図1のサーバ装置200およびデータベース300の機能構成を示すブロック図である。図3に示されるように、サーバ装置200は、通信部210と、ベクトル生成部220と、検索部230と、表示制御部250と、学習部260と、性能評価部270と、分析事例生成部280とを含む。データベース300は、分析事例データベース310と、テストクエリデータベース320とを含む。
分析事例データベース310には、検索対象である複数の分析事例データ(分析レポート、技術論文、または特許文献など)が記憶されている。分析事例データベース310に記憶されている複数の分析事例データは、一般に公開可能な分析事例データと、特定のユーザのみに公開が許可される分析事例データとに分類されてもよい。分析事例生成部280は、新たな分析事例データを生成し、当該分析事例データを分析事例データベース310に追加する。分析事例生成部280は、複数の新たな分析事例データを一度に分析事例データベース310に追加してもよい。分析事例生成部280は、新たな分析事例データを分析事例データベース310に追加したことを学習部260に通知する。分析事例生成部280は、サーバ装置200とは別個の装置として形成されてもよい。データベース200内の情報の設定および更新は、所定の期間ごとに自動的に実行されてもよい。
図4は、分析事例データベース310に含まれる分析事例データの一例である分析事例データD1を示す図である。図4に示されるように、分析事例データD1は、高速液体クロマトグラフ(HPLC:High Performance Liquid Chromatograph)による食品中総プリン体量の測定という分析事例に関する情報を含む。当該分析事例において、分析の対象となる具体的な化合物は、アデニン、およびグアニン等のプリン体である。分析事例データD1は、「プリン体」を検索クエリQRYとする分析事例の検索において、検索結果の上位に順位付けられることがユーザに望まれる分析事例データである。また、プリン体は核酸に分類される分子でもあるため、分析事例データD1は、「プリン体」の上位概念である「核酸」、または「核酸」に関連する化合物を検索クエリQRYとする検索においても、検索結果の上位に順位付けられることがユーザに望まれる分析事例データである。
再び図3を参照して、学習部260は、分析事例データベース310を用いる機械学習により、当該分析事例データに対応する特定自然言語の分散表現(ベクトル)を言語モデル61に学習させ、言語モデル61を学習済みモデルとする。分析事例データベース310は、当該機械学習においてコーパスとしての役割を果たす。分析事例データベース310を用いる機械学習においては、分析事例データベース310に含まれる複数の分析事例データに対して、形態素解析を含む自然言語処理が行われる。形態素解析においては、意味を有する最小の言語単位(形態素あるいは単語)に解析対象の文字列が分割される。分析事例データに対応する特定自然言語とは、当該分析事例データに含まれる情報を表現するのに使用されている自然言語である。
言語モデル61は、共起行列を用いるカウントベースの言語モデルであってもよいし、ニューラルネットワークを用いる推論ベースの言語モデルであってもよい。推論ベースの言語モデルとしては、たとえば、単語の分散表現を生成するword2vecのCBOW(Continuous Bag-of-Words)モデルおよびskip-gramモデル、ならびに文書の分散表現を生成するdoc2vecのPV-DM(Paragraph Vector Distributed Memory)モデルおよびPV-DBOW(Paragraph Vector Distributed Bag-of-Words)モデルを挙げることができる。
ベクトル生成部220は、学習済みの言語モデル61を用いて、分析事例データベース310に含まれる複数の分析事例データの各々について、当該分析事例データに含まれる単語の特徴を表す単語ベクトル、当該分析事例データに含まれる文章の特徴を表す文章ベクトル、および文書の特徴を表す文書ベクトルを生成する。ベクトル生成部220は、分析事例データベース310に含まれる複数の分析事例データの各々をベクトル化して、当該分析事例データがベクトル化されたデータを当該分析事例データに関連付けて分析事例データベース310に保存する。
通信部210は、検索クエリQRYの情報をネットワークNWを介して端末装置100から受信して、検索クエリQRYをベクトル生成部220に出力する。検索クエリQRYは自然言語で表現された文字列である。
ベクトル生成部220は、検索クエリQRYに対して、形態素解析によって、検索クエリQRYを最小単位の言語単位に分割する。ベクトル生成部220は、言語モデル61を用いて、当該言語単位を特徴付ける単語ベクトルWVCを算出する。ベクトル生成部220は、単語ベクトルWVCの情報を検索部230に出力する。
検索部230は、分析事例データベース310に記憶されている複数の分析事例データから、単語ベクトルWVCに類似する特徴を含む複数の関連分析事例データを検索する。具体的には、検索部230は、複数の分析事例データの各々について、検索クエリQRYのベクトルと当該分析事例データのベクトルとの間の距離の大きさに応じて、検索クエリと当該分析事例データとの関連度を算出する。当該距離としては、たとえば、コサイン距離(コサイン類似度)を挙げることができる。2つのベクトル間の距離が小さいほど、2つのベクトルによってそれぞれ表現される2つの言語単位の関連度は大きい。検索部230は、複数の分析事例データのうち、検索クエリQRYとの関連度が所定の閾値よりも大きい複数の関連分析事例データを関連度に応じて順位付ける。検索部230は、当該複数の関連分析事例データの順位を示すランキング情報RNKを表示制御部250へ出力する。
なお、検索部230によって行われる検索は、検索クエリQRYに含まれる文字列(キーワード)から、検索したい分析事例の内容を解釈するセマンティック検索である。セマンティック検索は、キーワードの意味表現、検索を求める意図、目的等に基づいて、検索文字列に合致する検索対象を特定する。すなわち、セマンティック検索は、キーワードを単なる文字列として捉えるのではなく、検索要求を含めた意味を持つ文字列として捉える。
また、検索部230によって行われる検索においては、セマンティック検索と、キーワードと一致する文字列を含む分析事例データを検索するキーワード検索とが統合的に用いられてもよい。すなわち、検索クエリと分析事例データとの関連度は、キーワードのベクトルと当該分析事例データのベクトルとの距離、および当該分析事例データに含まれるキーワードの数に基づいて算出されてもよい。たとえば、キーワードをより多く含む分析事例データが上位に順位付けられ、キーワードを含まない分析事例データはセマンティック検索によってキーワードを含む分析事例データよりも下位に順位付けられてもよい。セマンティック検索とキーワード検索とが統合的に用いられることにより、セマンティック検索の検索根拠の明確性を向上させることができる。
表示制御部250は、ランキング情報RNKに基づいて、端末装置100のディスプレイ131に表示される検索結果の画面情報DSPを作成する。表示制御部250は、通信部210を介して、端末装置100に画面情報DSPを送信する。端末装置100においては、画面情報DSPに従って、複数の関連分析事例データの名称が順位順にディスプレイ131に表示される。
図5は、検索クエリQRYが「プリン体」である場合に、図1のディスプレイ131に表示される検索結果ウィンドウWn2の一例を示す図である。図5に示されるように、検索結果ウィンドウWn2には、関連分析事例データD1~D11の名称が、順位1~11とともにこの順にそれぞれ表示されている。関連分析事例データD1~D11の各々の名称には、当該関連分析事例データへのハイパーリンクが設定されている。分析事例データベース310に含まれる複数の分析事例データのうち、「プリン体」という検索クエリQRYに最も関連のある分析事例データはD1である。
図6は、検索クエリQRYが「核酸」である場合に、図1のディスプレイ131に表示される検索結果ウィンドウWn2の一例を示す図である。図6に示されるように、検索結果ウィンドウWn2には、関連分析事例データD5,D1,D9,D3,D2,D6~D8,D4,D10,D11の名称が、順位1~11とともにこの順にそれぞれ表示されている。関連分析事例データD1~D11の各々の名称には、当該関連分析事例データへのハイパーリンクが設定されている。分析事例データベース310に含まれる複数の分析事例データのうち、「核酸」という検索クエリQRYに最も関連のある分析事例データはD5である。
図7は、図1の分析事例検索システム1000において行われる検索処理の概略的な流れを示す図である。以下ではステップを単にSと記載する。図7に示されるように、S10においてユーザによって端末装置100に検索クエリQRYが入力され、処理がS20に進めされる。S20において、ベクトル生成部220は、検索クエリQRYのベクトルを算出し、処理をS30に進める。S30において、検索部230は、分析事例データベース310から検索クエリQRYに関連する複数の関連分析事例データを検索し、複数の関連分析事例データを順位付けて処理をS40に進める。S40において、端末装置100のディスプレイ131に検索結果が表示されて検索処理が終了する。
再び図3を参照して、分析事例データベース310に新たな分析事例データが追加された場合、学習部260は、分析事例データベース310を用いる機械学習を行い、言語モデル61を更新する。ベクトル生成部220は、更新された言語モデル61を用いて、分析事例データベース310に含まれる複数の分析事例データの各々のベクトルを更新する。
分析事例データベース310に新たな分析事例データが追加されると、検索クエリQRYのベクトルおよび分析事例データベース310に含まれる複数の分析事例データの各々のベクトルが変化し得る。そのため、同じ検索クエリQRYが用いられても、分析事例データベース310に新たな分析事例データが追加される前の検索結果と、分析事例データベース310に新たな分析事例データが追加された後の検索結果とは異なり得る。分析事例データベース310に追加される情報によっては、分析事例データベース310に含まれる情報の傾向が急激に変化し、検索クエリQRYとの関連性が相対的に低い分析事例データが上位に順位付けされ得る。
そこで、分析事例検索システム1000においては、分析事例データベース310に新たな分析事例データが追加された場合、予め定められた複数のテストクエリを用いて、複数の分析事例データの順位の頻度の分布の変動を当該分布の特徴を表す統計値の変化として算出する。分析事例検索システム1000によれば、検索性能の変化を定量的に算出することができるため、予め定められた基準に基づいて検索性能の低下を自動的に検知することができる。
第1ラベルは、当該特定分析事例データに関連する文字列を含む。第1ラベルは、たとえば、当該分析事例データにおいて主に説明される分析対象の化合物の名称の文字列または当該化合物の分析を行う装置の名称の文字列を含む。
第2ラベルは、第1ラベルの上位概念を表す文字列を含む。第1ラベルが化合物の名称の文字列を含む場合、第2ラベルは当該化合物の化学的または生物学的な上位概念を示す文字列を含む。たとえば、第1ラベルが「プリン体」または「プリン塩基」である場合、第2ラベルは、たとえば「核酸」、「アルカロイド」または「塩基」であってよい。特定分析事例データの第1ラベルおよび第2ラベルは、当該特定分析事例データに自動的に付されてもよいし、オペレータによって付されてもよい。
また、たとえば第1ラベルが装置の名称の文字列としてLCMS(Liquid Chromatograph Mass Spectrometer)-XYZW(XYZWは当該装置の型番)である場合、第2ラベルは四重極型LC/MS、飛行時間型LC/MS、または単にLC/MSであってもよい。
第1ラベルおよび第2ラベルが分析対象の化合物または当該化合物の分析を行う装置に関する概念によって互いに関連付けられているため、化学的または生物学的な分析に関する情報を含む文書データが蓄積されたデータベースに対する文書検索の性能の低下を高精度に検出することができる。
図8は、テストクエリデータベース320において形成されている、第1ラベル、第2ラベル、および特定分析事例データの識別子が関連付けられた構造を示す図である。図8に示されるように、特定分析事例データDa11,Da12,Da13の各々には、第1ラベルCa1および第2ラベルCAが付されている。特定分析事例データDa21,Da22,Da23の各々には、第1ラベルCa2および第2ラベルCAが付されている。第2ラベルCAは、第1ラベルCa1,Ca2の上位概念であり、第1ラベルCa1,Ca2を包含する。特定分析事例データD1,D3,D6の各々には、第1ラベルの「プリン体」および第2ラベルの「核酸」が付されている。特定分析事例データD5には、第1ラベルCb1および第2ラベルの「核酸」が付されている。特定分析事例データD9には、第1ラベルCb2および第2ラベルの「核酸」が付されている。「核酸」は、「プリン体」,第1ラベルCb1,Cb2の上位概念であり、「プリン体」,第1ラベルCb1,Cb2を包含する。なお、特定分析事例データD1,D3,D5,D6,D9は、図5および図6に示される分析事例データD1,D3,D5,D6,D9にそれぞれ対応する。
再び図3を参照して、ベクトル生成部220は、分析事例データベース310に新たな分析事例データが追加されたことに伴う分析事例データベース310に含まれる複数の分析事例データのベクトルの更新が完了したことの通知を、性能評価部270に出力する。性能評価部270は、当該通知に応じて、テストクエリデータベース320から複数のテストクエリを取得して、当該複数のテストクエリの各々を検索クエリTQRYとした分析事例データの検索を行う。
性能評価部270は、検索部230から検索クエリTQRYに関するランキング情報RNKを取得する。性能評価部270は、複数のテストクエリのうち、複数の第1ラベルに関するランキング情報RNKにおける、複数の特定分析事例データの各々の順位の頻度を集計し、第1ラベルに関する統計値(第1統計値)を算出する。性能評価部270は、複数のテストクエリのうち、複数の第2ラベルに関するランキング情報RNKにおける、複数の特定分析事例データの各々の順位の頻度を集計し、複数の第2ラベルに関する統計値(第2統計値)を算出する。第1ラベルに関する統計値および第2ラベルに関する統計値の各々は、当該統計値が算出されたタイミングと関連付けられて記憶部に保存される。
性能評価部270は、言語モデル61の更新による第1ラベルに関する統計値の変動値が予め定められた閾値Th1(第1閾値)より大きく、かつ言語モデル61の更新による第2ラベルに関する統計値の変動値が予め定められた閾値Th2(第2閾値)より大きい場合、検索性能の低下を検出する。閾値Th1,Th2は、実機実験あるいはシミュレーションによって適宜決定することができる。なお、統計値の変動値とは、分析事例データベース310に新たな分析事例データが追加された後の当該統計値と、分析事例データベース310に新たな分析事例データが追加される前の当該統計値との差の絶対値である。なお、性能評価部270によって行われる検索においては、図7のS20,S30と同様の処理が行われる。
検索クエリTQRYが第1ラベルの「プリン体」である場合の検索結果の順位が図5に示されている順位と同じであるとする。図8および図5を参照しながら、「プリン体」が付されている特定分析事例データD1,D3,D6の順位は、それぞれ1位,3位、6位である。そのため、1位,3位、6位の各々の第1ラベルに関する頻度が1だけ増加される。同様に、検索クエリTQRYが第1ラベルCa1である場合、検索結果における特定分析事例データDa11,Da12,Da13の各々の順位の第1ラベルに関する頻度が1だけ増加される。検索クエリTQRYが第1ラベルCa2である場合、検索結果における特定分析事例データDa21,Da22,Da23の各々の第1ラベルに関する順位の頻度が1だけ増加される。検索クエリTQRYが第1ラベルCb1である場合、検索結果における特定分析事例データD5の順位の第1ラベルに関する頻度が1だけ増加される。検索クエリTQRYが第1ラベルCb2である場合、検索結果における特定分析事例データD9の第1ラベルに関する順位の頻度が1だけ増加される。
検索クエリTQRYが第2ラベルの「核酸」である場合の検索結果の順位が図6に示されている順位と同じであるとする。図8および図6を参照しながら、「核酸」が付されている特定分析事例データD1,D3,D5,D6,D9の順位は、それぞれ2位,4位,1位,6位,3位である。そのため、2位,4位,1位,6位,3位の各々の第2ラベルに関する頻度が1だけ増加される。検索クエリTQRYが第2ラベルCAである場合、検索結果における特定分析事例データDa11,Da12,Da13,Da21,Da22,Da23の各々の順位の第2ラベルに関する頻度が1だけ増加される。
図9は、複数の第1ラベルの各々を検索クエリTQRYとした場合の、複数の特定分析事例データの順位の頻度の分布曲線を示す図である。図9において実線は分析事例データベース310に新たな分析事例データが追加される前の分布曲線を示し、点線は分析事例データベース310に新たな分析事例データが追加された後の分布曲線を示す。また、図9においては、分布の特徴を表す統計値として最頻値が用いられる。図10においても同様である。なお、分布の特徴を表す統計値は、最頻値以外の統計値であってもよく、たとえば中央値、または平均値であってもよい。
図9に示されるように、分析事例データベース310に新たな分析事例データが追加される前の第1ラベルに関する最頻値は、Vs11である。分析事例データベース310に新たな分析事例データが追加された後の第1ラベルに関する最頻値は、Vs12である。第1ラベルに関する最頻値の変動値は、Vc1である。
図10は、複数の第2ラベルの各々を検索クエリTQRYとした場合の、複数の特定分析事例データの順位の頻度の分布曲線を示す図である。図10に示されるように、分析事例データベース310に新たな分析事例データが追加される前の第2ラベルに関する最頻値は、Vs21である。分析事例データベース310に新たな分析事例データが追加された後の第2ラベルに関する最頻値は、Vs22である。第2ラベルに関する最頻値の変動値は、Vc2(<Vc1)である。
第2ラベルは、通常、互いに異なる複数の第1ラベルを包含する。第2ラベルが付された分析事例データの数は、第2ラベルの下位概念の1つである第1ラベルが付された分析事例データの数よりも大きい。そのため、言語モデル61の更新による検索結果の順位の変動は、第2ラベルを検索クエリとする場合よりも、第1ラベルを検索クエリとする場合の方が大きくなり易い。言語モデル61の更新による検索結果の順位の変動の生じ易さに合わせて、第1ラベルに関する統計値の閾値Th1は、第2ラベルに関する統計値の閾値Th2より大きいことが望ましい。閾値Th1がTh2より大きいことにより、第1ラベルに関する統計値の変動および第2ラベルに関する統計値の変動の各々に現れる異常の兆候を整合的に検出することができる。
図11は、図3のサーバ装置200において行われる性能評価処理の概略的な流れを示す図である。図11に示されるように、S110において、分析事例生成部280は、新たな分析事例データを分析事例データベース310に追加して、処理をS120に進める。S120において、学習部260は、分析事例データベース310を用いる機械学習を行い、言語モデル61および分析事例データベース310に含まれる複数の分析事例データの各々のベクトルを更新し、処理をS130に進める。S130において、検索部230は、テストクエリデータベース320に登録されている複数の第1ラベルおよび複数の第2ラベルの各々を検索クエリTQRYとする分析事例データの検索を行い、処理をS140に進める。
S140において、性能評価部270は、複数の第1ラベルの各々を検索クエリTQRYとする分析事例データの検索結果から第1ラベルに関する統計値Vs1を算出し、処理をS150に進める。S150において、性能評価部270は、複数の第2ラベルの各々を検索クエリTQRYとする分析事例データの検索結果から第2ラベルに関する統計値Vs2を算出し、処理をS160に進める。
S160において性能評価部270は、統計値Vs1の変動値Vc1が閾値Th1より大きいか否かを判定する。変動値Vc1が閾値Th1以下である場合(S160においてNO)、性能評価部270は、S190において通常の検索処理の開始を許可して、処理を終了する。変動値Vc1が閾値Th1より大きい場合(S160においてYES)、性能評価部270は、処理をS170に進める。
S170において、性能評価部270は、統計値Vs2の変動値Vc2が閾値Th2より大きいか否かを判定する。変動値Vc2が閾値Th2以下である場合(S170においてNO)、性能評価部270は、S190において通常の検索処理の開始を許可して、処理を終了する。変動値Vc2が閾値Th2より大きい場合(S170においてYES)、性能評価部270は、S180において、検索性能の低下を検出して、処理を終了する。分析事例検索システム1000においては、分析事例データベース310への新たな分析事例データの追加が性能評価処理に含まれているため、分析事例データベース310への新たな分析事例データの追加と文書検索の性能評価を一体的かつ連続的に行うことができる。
検索性能の低下の原因としては、たとえば、分析事例データベース310に追加された分析事例データの傾向が分析事例データベース310に既に含まれている複数の分析事例データの傾向から乖離していること、あるいは、分析事例データベース310と機械学習のハイパーパラメータとの不適合を挙げることができる。検索性能の低下が検出された場合、検出性能の低下が予め定められた関係者(たとえば分析事例検索システム1000の管理者)に通知される。検索性能の低下が検出された場合、分析事例データベース310から追加された分析事例データが削除されて、当該分析事例データが追加される前の言語モデル61および複数の分析事例データの各々のベクトルが分析事例データの検索に使用されてもよい。
図12は、図3のサーバ装置200のハードウェア構成を示すブロック図である。図12に示されるように、サーバ装置200は、プロセッサ201と、記憶部としてのメモリ202およびハードディスク203と、通信部210としての通信インターフェース204と、入出力部205とを含む。これらは、バス206を介して相互に通信可能に接続されている。
ハードディスク203は、不揮発性の記憶装置である。ハードディスク203には、たとえばオペレーティングシステム(OS:Operating System)のプログラム51、分析事例検索サーバプログラム52、性能評価プログラム53、機械学習プログラム54、および言語モデル61が保存されている。図12に示されるデータ以外にも、ハードディスク203には、たとえば各種アプリケーションの設定および出力(たとえば第1ラベルに関する統計値および第2ラベルに関する統計値)が保存される。メモリ202は、揮発性の記憶装置であり、たとえばDRAM(Dynamic Random Access Memory)を含む。
プロセッサ201は、CPU(Central Processing Unit)を含む。プロセッサ201は、GPU(Graphics Processing Unit)をさらに含んでもよい。プロセッサ201は、ハードディスク203に保存されているプログラムをメモリ202に読み込んで実行し、サーバ装置200の各種機能を実現する。たとえば、分析事例検索サーバプログラム52を実行するプロセッサ201は、ベクトル生成部220,検索部230,表示制御部250,分析事例生成部280として機能する。性能評価プログラム53を実行するプロセッサ201は、ベクトル生成部220および性能評価部270として機能する。機械学習プログラム54を実行するプロセッサ201は、ベクトル生成部220および学習部260として機能する。プロセッサ201は、通信インターフェース204を介してネットワークNWに接続する。
実施の形態においては、ユーザが検索クエリを入力する端末装置100とは別個のサーバ装置200にベクトル生成部220、検索部230、表示制御部250、学習部260、性能評価部270、および分析事例生成部280が形成されているシステムについて説明した。ベクトル生成部、検索部、表示制御部、学習部、性能評価部、および分析事例生成部は、ユーザが検索クエリを入力する装置に形成されていてもよい。
図13は、実施の形態の変形例に係る情報処理装置100Aの構成を示すブロック図である。図13に示されるように、情報処理装置100Aは、ベクトル生成部220A、検索部230A、表示制御部250A、学習部260A、性能評価部270A、および分析事例生成部280Aを含む。ベクトル生成部220A、検索部230A、表示制御部250A、学習部260A、性能評価部270A、および分析事例生成部280Aは、図3のベクトル生成部220、検索部230、表示制御部250、学習部260、性能評価部270、および分析事例生成部280のそれぞれと同様の機能を有するため、当該機能の説明を繰り返さない。データベース300は、情報処理装置100Aに接続されている。
図14は、図13の情報処理装置100Aのハードウェア構成を示すブロック図である。情報処理装置100Aのハードウェア構成は、図2のハードディスク123に図12の性能評価プログラム53、機械学習プログラム54、および言語モデル61が加えられているとともに、分析事例検索クライアントプログラム42が分析事例検索プログラム42Aに置き換えられた構成である。これら以外は同様であるため、説明を繰り返さない。
図14に示されるように、分析事例検索プログラム42Aを実行するプロセッサ121は、ベクトル生成部220A,検索部230A,表示制御部250A,分析事例生成部280Aとして機能する。性能評価プログラム53を実行するプロセッサ121は、ベクトル生成部220Aおよび性能評価部270Aとして機能する。機械学習プログラム54を実行するプロセッサ121は、ベクトル生成部220Aおよび学習部260Aとして機能する。
以上、実施の形態に係るシステムおよび方法、ならびに変形例に係る装置によれば、文書検索の性能の低下を自動的に検出することができる。
[態様]
上述した例示的な実施の形態は、以下の態様の具体例であることが当業者により理解される。
(第1項)一態様に係る方法は、複数の文書データを含むデータベースから、検索クエリに関連する複数の関連文書データを検索し、複数の関連文書データの各々と検索クエリとの関連度に応じて複数の関連文書データを順位付ける文書検索の性能を評価する。当該関連度は、データベースを用いる機械学習によって生成された言語モデルによって抽出される複数の文書データの各々の特徴と、当該言語モデルによって抽出される検索クエリの特徴とに基づいて算出される。複数の文書データに含まれる複数の特定文書データの各々には、当該特定文書データに関連する第1ラベルおよび第1ラベルの上位概念である第2ラベルが予め付されている。当該方法は、データベースに少なくとも1つの文書データが追加された場合、機械学習によって言語モデルを更新するステップと、複数の特定文書データに付された複数の第1ラベルの各々を検索クエリとする文書検索の結果から、複数の特定文書データの各々の順位に関する第1統計値を算出するステップと、複数の特定文書データに付された複数の第2ラベルの各々を検索クエリとする文書検索の結果から、複数の特定文書データの各々の順位に関する第2統計値を算出するステップと、少なくとも1つの文書データの追加に伴う言語モデルの更新による第1統計値の変動値が第1閾値より大きく、かつ当該更新による第2統計値の変動値が第2閾値よりも大きい場合、文書検索の性能の低下を検出するステップとを含む。
第1項に記載の方法によれば、少なくとも1つの文書データの追加に伴う言語モデルの更新による第1統計値の変動値が第1閾値より大きく、かつ当該更新による第2統計値の変動値が第2閾値よりも大きい場合に文書検索の性能の低下が検出されることにより、文書検索の性能の低下を自動的に検出することができる。
(第2項) 第1項に記載の方法において、第1ラベルは、当該第1ラベルが付された特定文書データにおいて分析対象とされている化合物の名称を示す文字列を含む。第2ラベルは、当該化合物の化学的または生物学的な上位概念を示す文字列を含む。
第2項に記載の方法によれば、第1ラベルおよび第2ラベルが分析対象の化合物に関する概念によって互いに関連付けられているため、化学的または生物学的な分析に関する情報を含む文書データが蓄積されたデータベースに対する文書検索の性能の低下を高精度に検出することができる。
(第3項)第1項または第2項に記載の方法において、言語モデルは、複数の文書データに含まれる単語および文章の各々の分散表現および複数の文書データの各々の分散表現を生成可能である。複数の関連文書データの各々と検索クエリとの関連度は、当該関連文書データの分散表現と検索クエリの分散表現との間の距離を用いて算出される。
第3項に記載の方法によれば、複数の関連文書データの各々と検索クエリとの関連度が当該関連文書データの分散表現と検索クエリの分散表現との間の距離を用いて算出されることにより、当該関連度を検索クエリと複数の関連文書データの各々との意味的な近さを表す指標として算出することができる。
(第4項)第3項に記載の方法において、複数の関連文書データの各々と検索クエリとの関連度は、当該関連文書データの分散表現と検索クエリの分散表現との間の距離および当該関連文書データに含まれる検索クエリの数に基づいて算出される。
第4項に記載の方法によれば、当該関連度の算出に関連文書データに含まれる検索クエリの数も用いられることにより、検索根拠の明確性を向上させることができる。
(第5項)第1項~第4項のいずれか1項に記載の方法は、少なくとも1つの文書データをデータベースに追加するステップを含む。
第5項に記載の方法によれば、データベースへの新たな文書データの追加と文書検索の性能評価を一体的かつ連続的に行うことができる。
(第6項)第1項~第5項のいずれか1項に記載の方法において、第1閾値は、第2閾値よりも大きい。
第6項に記載の方法によれば、第1統計値の変動および第2統計値の変動の各々に現れる異常の兆候を整合的に検出することができる。
(第7項)一態様に係るシステムは、複数の文書データを含むデータベースから、検索クエリに関連する複数の関連文書データを検索し、複数の関連文書データの各々と検索クエリとの関連度に応じて複数の関連文書データを順位付ける文書検索の性能を評価する。当該関連度は、データベースを用いる機械学習によって生成された言語モデルによって抽出される複数の文書データの各々の特徴と、言語モデルによって抽出される検索クエリの特徴とに基づいて算出される。複数の文書データに含まれる複数の特定文書データの各々には、当該特定文書データに関連する第1ラベルおよび第1ラベルの上位概念である第2ラベルが予め付されている。当該システムは、端末装置と、サーバ装置とを備える。端末装置には、検索クエリが入力される。サーバ装置は、端末装置から検索クエリを受信して文書検索を行う。サーバ装置は、学習部と、性能評価部とを含む。学習部は、データベースに少なくとも1つの文書データが追加された場合、機械学習によって言語モデルを更新する。性能評価部は、文書検索の性能を評価する。性能評価部は、複数の特定文書データに付された複数の第1ラベルの各々を検索クエリとする文書検索の結果から、複数の特定文書データの各々の順位に関する第1統計値を算出する。性能評価部は、複数の特定文書データに付された複数の第2ラベルの各々を検索クエリとする文書検索の結果から、複数の特定文書データの各々の順位に関する第2統計値を算出する。性能評価部は、少なくとも1つの文書データの追加に伴う言語モデルの更新による第1統計値の変動値が第1閾値より大きく、かつ更新による第2統計値の変動値が第2閾値よりも大きい場合、文書検索の性能の低下を検出する。
第7項に記載のシステムによれば、少なくとも1つの文書データの追加に伴う言語モデルの更新による第1統計値の変動値が第1閾値より大きく、かつ当該更新による第2統計値の変動値が第2閾値よりも大きい場合に文書検索の性能の低下が検出されることにより、文書検索の性能の低下を自動的に検出することができる。
(第8項)一態様に係る装置は、複数の文書データを含むデータベースから、検索クエリに関連する複数の関連文書データを検索し、複数の関連文書データの各々と検索クエリとの関連度に応じて複数の関連文書データを順位付ける文書検索の性能を評価する。当該関連度は、データベースを用いる機械学習によって生成された言語モデルによって抽出される複数の文書データの各々の特徴と、言語モデルによって抽出される検索クエリの特徴とに基づいて算出される。複数の文書データに含まれる複数の特定文書データの各々には、当該特定文書データに関連する第1ラベルおよび第1ラベルの上位概念である第2ラベルが予め付されている。当該装置は、入出力部と、検索部と、学習部と、性能評価部とを備える。入出力部には、検索クエリが入力される。検索部は、検索クエリを受けて文書検索を行う。学習部は、データベースに少なくとも1つの文書データが追加された場合、機械学習によって言語モデルを更新する。性能評価部は、文書検索の性能を評価する。性能評価部は、複数の特定文書データに付された複数の第1ラベルの各々を検索クエリとする文書検索の結果から、複数の特定文書データの各々の順位に関する第1統計値を算出する。性能評価部は、複数の特定文書データに付された複数の第2ラベルの各々を検索クエリとする文書検索の結果から、複数の特定文書データの各々の順位に関する第2統計値を算出する。性能評価部は、少なくとも1つの文書データの追加に伴う言語モデルの更新による第1統計値の変動値が第1閾値より大きく、かつ更新による第2統計値の変動値が第2閾値よりも大きい場合、性能の低下を検出する。
第8項に記載の装置によれば、少なくとも1つの文書データの追加に伴う言語モデルの更新による第1統計値の変動値が第1閾値より大きく、かつ当該更新による第2統計値の変動値が第2閾値よりも大きい場合に文書検索の性能の低下が検出されることにより、文書検索の性能の低下を自動的に検出することができる。
なお、上述した実施の形態および変更例について、明細書内で言及されていない組み合わせを含めて、不都合または矛盾が生じない範囲内で、実施の形態で説明された構成を適宜組み合わせることは出願当初から予定されている。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて請求の範囲によって示され、請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
61 言語モデル、100 端末装置、100A 情報処理装置、120 計算機、121,201 プロセッサ、122,202 メモリ、123,203 ハードディスク、124,204 通信インターフェース、125,206 バス、130,205 入出力部、131 ディスプレイ、132 キーボード、133 マウス、200 サーバ装置、210 通信部、220,220A ベクトル生成部、230,230A 検索部、250,250A 表示制御部、260,260A 学習部、270,270A 性能評価部、280,280A 分析事例生成部、300 データベース、310 分析事例データベース、320 テストクエリデータベース、1000 分析事例検索システム、CA 第2ラベル、Ca1,Ca2,Cb1,Cb2 第1ラベル、D1,D2,D3,D4,D5,D6,D8,D9,D10,D11 分析事例データ、NW ネットワーク、QRY,TQRY 検索クエリ、Th1,Th2 閾値、Vc1,Vc2 変動値、Vs1,Vs2 統計値、WVC 単語ベクトル。

Claims (8)

  1. 複数の文書データを含むデータベースから、検索クエリに関連する複数の関連文書データを検索し、前記複数の関連文書データの各々と前記検索クエリとの関連度に応じて前記複数の関連文書データを順位付ける文書検索の性能を評価する、プロセッサによって実行される方法であって、
    前記関連度は、前記データベースを用いる機械学習によって生成された言語モデルによって抽出される前記複数の文書データの各々の特徴と、前記言語モデルによって抽出される前記検索クエリの特徴とに基づいて算出され、
    前記複数の文書データに含まれる複数の特定文書データの各々には、当該特定文書データに関連する第1ラベルおよび前記第1ラベルの上位概念である第2ラベルが予め付されており、
    前記方法は、
    前記データベースに少なくとも1つの文書データが追加された場合、前記機械学習によって前記言語モデルを更新するステップと、
    前記複数の特定文書データに付された複数の第1ラベルの各々を前記検索クエリとする前記文書検索の結果から、前記複数の特定文書データの各々の順位に関する第1統計値を算出するステップと、
    前記複数の特定文書データに付された複数の第2ラベルの各々を前記検索クエリとする前記文書検索の結果から、前記複数の特定文書データの各々の順位に関する第2統計値を算出するステップと、
    前記少なくとも1つの文書データの追加に伴う前記言語モデルの更新による前記第1統計値の変動値が第1閾値より大きく、かつ前記更新による前記第2統計値の変動値が第2閾値よりも大きい場合、前記性能の低下を検出するステップとを含む、方法。
  2. 前記第1ラベルは、前記第1ラベルが付された特定文書データにおいて分析対象とされている化合物の名称を示す文字列を含み、
    前記第2ラベルは、前記化合物の化学的または生物学的な上位概念を示す文字列を含む、請求項1に記載の方法。
  3. 前記言語モデルは、前記複数の文書データに含まれる単語および文章の各々の分散表現および前記複数の文書データの各々の分散表現を生成可能であり、
    前記関連度は、前記複数の関連文書データの各々の分散表現と前記検索クエリの分散表現との間の距離を用いて算出される、請求項1に記載の方法。
  4. 前記関連度は、前記距離および前記複数の関連文書データの各々に含まれる前記検索クエリの数に基づいて算出される、請求項3に記載の方法。
  5. 前記少なくとも1つの文書データを前記データベースに追加するステップをさらに含む、請求項1に記載の方法。
  6. 前記第1閾値は、前記第2閾値よりも大きい、請求項1に記載の方法。
  7. 複数の文書データを含むデータベースから、検索クエリに関連する複数の関連文書データを検索し、前記複数の関連文書データの各々と前記検索クエリとの関連度に応じて前記複数の関連文書データを順位付ける文書検索の性能を評価するシステムであって、
    前記関連度は、前記データベースを用いる機械学習によって生成された言語モデルによって抽出される前記複数の文書データの各々の特徴と、前記言語モデルによって抽出される前記検索クエリの特徴とに基づいて算出され、
    前記複数の文書データに含まれる複数の特定文書データの各々には、当該特定文書データに関連する第1ラベルおよび前記第1ラベルの上位概念である第2ラベルが予め付されており、
    前記システムは、
    前記検索クエリが入力される端末装置と、
    前記端末装置から前記検索クエリを受信して前記文書検索を行うサーバ装置とを備え、
    前記サーバ装置は、
    前記データベースに少なくとも1つの文書データが追加された場合、前記機械学習によって前記言語モデルを更新する学習部と、
    前記性能を評価する性能評価部とを含み、
    前記性能評価部は、
    前記複数の特定文書データに付された複数の第1ラベルの各々を前記検索クエリとする前記文書検索の結果から、前記複数の特定文書データの各々の順位に関する第1統計値を算出し、
    前記複数の特定文書データに付された複数の第2ラベルの各々を前記検索クエリとする前記文書検索の結果から、前記複数の特定文書データの各々の順位に関する第2統計値を算出し、
    前記少なくとも1つの文書データの追加に伴う前記言語モデルの更新による前記第1統計値の変動値が第1閾値より大きく、かつ前記更新による前記第2統計値の変動値が第2閾値よりも大きい場合、前記性能の低下を検出する、システム。
  8. 複数の文書データを含むデータベースから、検索クエリに関連する複数の関連文書データを検索し、前記複数の関連文書データの各々と前記検索クエリとの関連度に応じて前記複数の関連文書データを順位付ける文書検索の性能を評価する装置であって、
    前記関連度は、前記データベースを用いる機械学習によって生成された言語モデルによって抽出される前記複数の文書データの各々の特徴と、前記言語モデルによって抽出される前記検索クエリの特徴とに基づいて算出され、
    前記複数の文書データに含まれる複数の特定文書データの各々には、当該特定文書データに関連する第1ラベルおよび前記第1ラベルの上位概念である第2ラベルが予め付されており、
    前記装置は、
    前記検索クエリが入力される入出力部と、
    前記検索クエリを受けて前記文書検索を行う検索部と、
    前記データベースに少なくとも1つの文書データが追加された場合、前記機械学習によって前記言語モデルを更新する学習部と、
    前記性能を評価する性能評価部とを備え、
    前記性能評価部は、
    前記複数の特定文書データに付された複数の第1ラベルの各々を前記検索クエリとする前記文書検索の結果から、前記複数の特定文書データの各々の順位に関する第1統計値を算出し、
    前記複数の特定文書データに付された複数の第2ラベルの各々を前記検索クエリとする前記文書検索の結果から、前記複数の特定文書データの各々の順位に関する第2統計値を算出し、
    前記少なくとも1つの文書データの追加に伴う前記言語モデルの更新による前記第1統計値の変動値が第1閾値より大きく、かつ前記更新による前記第2統計値の変動値が第2閾値よりも大きい場合、前記性能の低下を検出する、装置。
JP2022530027A 2020-06-11 2021-03-04 文書検索の性能を評価する方法、システム、および装置 Active JP7428250B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020101523 2020-06-11
JP2020101523 2020-06-11
PCT/JP2021/008353 WO2021250950A1 (ja) 2020-06-11 2021-03-04 文書検索の性能を評価する方法、システム、および装置

Publications (2)

Publication Number Publication Date
JPWO2021250950A1 JPWO2021250950A1 (ja) 2021-12-16
JP7428250B2 true JP7428250B2 (ja) 2024-02-06

Family

ID=78847182

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022530027A Active JP7428250B2 (ja) 2020-06-11 2021-03-04 文書検索の性能を評価する方法、システム、および装置

Country Status (4)

Country Link
US (1) US12099535B2 (ja)
JP (1) JP7428250B2 (ja)
CN (1) CN115698980A (ja)
WO (1) WO2021250950A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118215913A (zh) * 2021-11-04 2024-06-18 三星电子株式会社 用于提供与查询语句相关的搜索结果的电子设备和方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009515231A (ja) 2005-07-18 2009-04-09 マイクロソフト コーポレーション 任意のコストファンクションを用いて学習システムをトレーニングすること
JP2014153744A (ja) 2013-02-05 2014-08-25 Nippon Hoso Kyokai <Nhk> 情報検索装置及び情報検索プログラム
US20150095300A1 (en) 2010-06-20 2015-04-02 Remeztech Ltd. System and method for mark-up language document rank analysis
JP2016224847A (ja) 2015-06-03 2016-12-28 明 潮田 文書素性抽出装置、文書素性抽出方法、文書分類装置、文書分類方法、文書検索装置、文書検索方法、コンピュータプログラム、および、コンピュータプログラムを記録した記録媒体

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3347088B2 (ja) * 1999-02-12 2002-11-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 関連情報検索方法およびシステム
JP2003099439A (ja) 2001-09-21 2003-04-04 Shimadzu Corp 分析処理方法検索装置
JP3961804B2 (ja) 2001-10-05 2007-08-22 エヌ・ティ・ティ・コミュニケーションズ株式会社 商品又は役務の説明支援システム、商品又は役務の説明支援方法、及び、商品又は役務の説明支援システム用プログラム
US7571157B2 (en) * 2004-12-29 2009-08-04 Aol Llc Filtering search results
JP4224131B2 (ja) 2008-08-08 2009-02-12 株式会社日立製作所 文書検索システム
JP5796494B2 (ja) * 2010-01-15 2015-10-21 日本電気株式会社 情報処理装置、情報処理方法、及びプログラム
US9684683B2 (en) * 2010-02-09 2017-06-20 Siemens Aktiengesellschaft Semantic search tool for document tagging, indexing and search
US20150292197A1 (en) * 2014-04-11 2015-10-15 Samuel Miller Rodent-Resistant, Reinforced Weather Stripping
US20170177712A1 (en) * 2015-12-21 2017-06-22 Ebay Inc. Single step cross-linguistic search using semantic meaning vectors
JP6943190B2 (ja) 2018-01-18 2021-09-29 株式会社ナカヨ マニュアル検索システム
US11789953B2 (en) * 2018-03-23 2023-10-17 Semiconductor Energy Laboratory Co., Ltd. Document search system, document search method, program, and non-transitory computer readable storage medium
WO2020079748A1 (ja) * 2018-10-16 2020-04-23 株式会社島津製作所 事例検索方法および事例検索システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009515231A (ja) 2005-07-18 2009-04-09 マイクロソフト コーポレーション 任意のコストファンクションを用いて学習システムをトレーニングすること
US20150095300A1 (en) 2010-06-20 2015-04-02 Remeztech Ltd. System and method for mark-up language document rank analysis
JP2014153744A (ja) 2013-02-05 2014-08-25 Nippon Hoso Kyokai <Nhk> 情報検索装置及び情報検索プログラム
JP2016224847A (ja) 2015-06-03 2016-12-28 明 潮田 文書素性抽出装置、文書素性抽出方法、文書分類装置、文書分類方法、文書検索装置、文書検索方法、コンピュータプログラム、および、コンピュータプログラムを記録した記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
欅 惇志、外1名,語義と分散表現を用いたランキング学習,第12回データ工学と情報マネジメントに関するフォーラム (第18回日本データベース学会年次大会),日本,2020年03月04日,p.1-8

Also Published As

Publication number Publication date
CN115698980A (zh) 2023-02-03
WO2021250950A1 (ja) 2021-12-16
US20230244705A1 (en) 2023-08-03
US12099535B2 (en) 2024-09-24
JPWO2021250950A1 (ja) 2021-12-16

Similar Documents

Publication Publication Date Title
JP5638031B2 (ja) 格付け方法、検索結果分類方法、格付けシステム及び検索結果分類システム
US20200097560A1 (en) Ranking Enterprise Search Results Based on Relationships Between Users
KR100666064B1 (ko) 인터랙티브 검색 쿼리 개선 시스템 및 방법
JP5391633B2 (ja) オントロジー空間を規定するタームの推奨
US20020073079A1 (en) Method and apparatus for searching a database and providing relevance feedback
US7428538B2 (en) Retrieval of structured documents
KR101203345B1 (ko) 요약을 이용하여 디스플레이 페이지를 분류하는 방법 및시스템
CN109271574A (zh) 一种热词推荐方法及装置
US8930822B2 (en) Method for human-centric information access and presentation
KR101538998B1 (ko) 지식 구조를 기반으로 한 검색 서비스 제공 방법 및 장치
US20060155751A1 (en) System and method for document analysis, processing and information extraction
US20080021891A1 (en) Searching a document using relevance feedback
CN109906450A (zh) 用于通过相似性关联对电子信息排名的方法和装置
JP2009093650A (ja) 文書の段落分析によるその文書のタグの選択
JP2002230021A (ja) 情報検索装置及び情報検索方法並びに記憶媒体
Liu et al. Stratified sampling for data mining on the deep web
JP2003016089A (ja) 情報検索システム及びサーバ
CN108205572A (zh) 一种搜索方法、装置及设备
KR20220119745A (ko) 콘텐츠를 검색하는 방법, 장치, 기기 및 컴퓨터 판독 가능 저장 매체
JP2010061420A (ja) 商品情報検索装置、方法及びシステム
JPH11102377A (ja) データベースからドキュメントを検索する方法および装置
JP7428250B2 (ja) 文書検索の性能を評価する方法、システム、および装置
Afuan et al. Query expansion in information retrieval using frequent pattern (FP) growth algorithm for frequent itemset search and association rules mining
JP2012104051A (ja) 文書インデックス作成装置
Milo et al. Simmeme: A search engine for internet memes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240108

R151 Written notification of patent or utility model registration

Ref document number: 7428250

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151