JP7357830B1 - 文書検索装置、文書検索方法及び文書検索プログラム - Google Patents
文書検索装置、文書検索方法及び文書検索プログラム Download PDFInfo
- Publication number
- JP7357830B1 JP7357830B1 JP2023544755A JP2023544755A JP7357830B1 JP 7357830 B1 JP7357830 B1 JP 7357830B1 JP 2023544755 A JP2023544755 A JP 2023544755A JP 2023544755 A JP2023544755 A JP 2023544755A JP 7357830 B1 JP7357830 B1 JP 7357830B1
- Authority
- JP
- Japan
- Prior art keywords
- evaluation
- document
- search
- group
- calculation unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
参照履歴利用検索では、ある検索文を検索した利用者のログから各文書の参照頻度と所定期間内の参照回数とを重みづけ加算して、参照履歴利用検索のスコアが計算される。このとき、重みはシミュレーションを用いて計算される。
本開示は、利用者の要求に合致する文書を上位に表示可能にすることを目的とする。
検索対象の複数の文書に含まれる単語を分類した複数のグループのうち、検索文が関連するグループを関連グループとして特定するグループ特定部と、
前記複数の文書それぞれを対象の文書とし、前記複数のグループそれぞれを対象のグループとして、前記対象の文書及び前記対象のグループに対して設定された評価パラメータであって、前記対象のグループに関連する検索文による検索結果として示された前記対象の文書に対して行われた操作に基づき設定された評価パラメータのうち、前記グループ特定部によって特定された前記関連グループに対する評価パラメータに基づき、前記複数の文書それぞれに対する評価値を計算する評価値計算部と、
前記評価値計算部によって計算された前記評価値に基づき、前記複数の文書についての検索順位を計算する順位計算部と
を備える。
***構成の説明***
図1を参照して、実施の形態1に係る文書検索システム100の構成を説明する。
文書検索システム100は、文書検索装置10と、検索クライアント20とを備える。文書検索装置10と検索クライアント20とは、伝送路30を介して接続されている。
文書検索装置10は、検索文に関連する文書の検索を行うコンピュータである。検索クライアント20は、文書検索装置10に対して検索を指示するコンピュータである。伝送路30は、具体例としては、有線LAN又は無線LAN等である。LANは、Local Area Networkの略である。
文書検索装置10は、プロセッサ11と、メモリ12と、ストレージ13と、通信インタフェース14とのハードウェアを備える。プロセッサ11は、信号線を介して他のハードウェアと接続され、これら他のハードウェアを制御する。
文書検索装置10は、通信インタフェース14を介して伝送路30に接続されている。
ストレージ13には、文書検索装置10の各機能構成要素の機能を実現するプログラムが格納されている。このプログラムは、プロセッサ11によりメモリ12に読み込まれ、プロセッサ11によって実行される。これにより、文書検索装置10の各機能構成要素の機能が実現される。
検索クライアント20は、プロセッサ21と、メモリ22と、ストレージ23と、通信インタフェース24と、入出力インタフェース25とのハードウェアを備える。プロセッサ21は、信号線を介して他のハードウェアと接続され、これら他のハードウェアを制御する。
検索クライアント20は、通信インタフェース24を介して伝送路30に接続されている。検索クライアント20は、入出力インタフェース25を介して入力装置41と出力装置42と接続されている。入力装置41は、具体例としては、キーボード、マウスである。出力装置42は、具体例としては、ディスプレイである。
ストレージ23には、検索クライアント20の各機能構成要素の機能を実現するプログラムが格納されている。このプログラムは、プロセッサ21によりメモリ22に読み込まれ、プロセッサ21によって実行される。これにより、検索クライアント20の各機能構成要素の機能が実現される。
図4から図13を参照して、実施の形態1に係る文書検索システム100の動作を説明する。
実施の形態1に係る文書検索システム100の動作手順は、実施の形態1に係る文書検索方法に相当する。また、実施の形態1に係る文書検索システム100の動作を実現するプログラムは、実施の形態1に係る文書検索プログラムに相当する。
操作ログ132には、操作対象の文書131の検索順位と、操作対象の文書131の識別子と、検索結果が示された際に行われた操作の内容と、検索に使用した検索文と、検索文のグループと、操作を行った日時と、操作を行った利用者の識別子といった情報が含まれる。操作の内容としては、文書131のクリックと、文書131が役に立つことの表明と、文書131が役に立たないことの表明と、文書131の閲覧とが含まれる。文書131のクリックは、文書131に関する情報を表示させる場合に行われる操作である。
図5及び図6を参照して、実施の形態1に係る前処理を説明する。
前処理では、文書検索処理で使用される情報がストレージ13に設定される。具体的には、モデル133と重要度パラメータ134と評価パラメータ135とがストレージ13に設定される。
前処理は、文書検索処理が実行される度に実行されてもよい。また、前処理は、任意に定めた期間又は任意に定めた文書検索処理の実行回数毎に実行されてもよい。
モデル計算部111は、複数の文書131に含まれる単語を、類似する意味の単語が同一のグループになるように複数のグループに分類するモデル133を生成する。
具体的には、モデル計算部111は、ストレージ13に記憶された複数の文書131それぞれを対象の文書131に設定する。モデル計算部111は、対象の文書131に記載されている文を単語毎に分割する。そして、モデル計算部111は、対象の文書131を単語の出現回数に基づきベクトル化する。このとき、モデル計算部111は、検索に不必要な単語の削除と、類義語のマージと等を行ってもよい。また、モデル計算部111は、単語の重要性と単語間の関係性といった指標に基き、ベクトルを調整してもよい。例えば、モデル計算部111は、利用者が重要とする単語に関連するベクトルの要素を調整することが考えられる。また、モデル計算部111は、単語の上位下位関係に基づき、上位の単語と下位の単語とに関連するベクトルの要素を調整することが考えられる。
その後、モデル計算部111は、各文書131に記載された単語が似通った意味を持つかどうかを判定する。そして、モデル計算部111は、似通った意味をもつ単語が同じグループとなるように、単語を複数のグループに分類する。これにより、モデル計算部111は、単語とグループの識別子であるグループ番号との関係を表すモデル133を生成する。モデル計算部111は、モデル133をストレージ13に書き込む。モデル計算部111は、機械学習の手法であるトピックモデルと、k-means法等のクラスタリング手法と等を用いて、モデル133を生成することができる。
なお、モデル計算処理は前処理実行の度に毎回行われる必要はない。文書131に新たな文書ファイルが追加されたときのみ、モデル計算処理を行うことも可能である。
操作信頼度計算部112は、操作ログ132を参照して、操作信頼度を計算する。操作信頼度は、各操作ログ132について計算される。操作信頼度は、検索結果が示された際に行われた操作の信頼度である。言い換えると、操作信頼度は、操作が、正しく行われた操作であったことの度合を示す。つまり、操作信頼度が高い場合には、その操作は正しく行われた可能性が高い。一方、操作信頼度が低い場合には、その操作は誤って行われた可能性が高い。
操作信頼度計算処理について詳しくは後述する。
重要度パラメータ計算部113は、ステップS12で計算された操作信頼度に基づき、重要度パラメータ134を設定する。重要度パラメータ134は、検索順位の決定に使用する重要度を計算する際に、類似度と評価値とをどの程度の割合で考慮するかを決定するためのパラメータである。重要度パラメータ134は、基準値Lと、グループ毎の類似係数Wsk及び評価係数Wekとを含む。
重要度パラメータ計算処理について詳しくは後述する。
なお、重要度パラメータ計算処理は事前処理実行のたびに毎回行われる必要はない。モデル計算処理が行われた場合、又は、検索精度の品質が定めた閾値よりも低い場合のみに重要度パラメータ計算処理を行うことも可能である。検索精度の品質は、平均逆順位、中央値、正解文書が上位に出現する割合等である。
評価パラメータ計算部114は、ステップS12で計算された操作信頼度に基づき、評価パラメータ135を設定する。評価パラメータ135は、評価値を計算するためのパラメータである。評価パラメータ135は、文書131毎及びグループ毎に値が設定される。
評価パラメータ計算処理について詳しくは後述する。
図7及び図8を参照して、実施の形態1に係る文書検索処理を説明する。
文書検索処理では、前処理で設定されたモデル133と重要度パラメータ134と評価パラメータ135とを用いて、複数の文書131から検索文に対応する文書131を検索する。具体的には、検索文に対応する文書131ほど高い検索順位の文書131として出力される。
検索文受付部211は、利用者から検索文の入力を受け付ける。検索文は、文書131を検索するキーワードである。検索文は、1つ以上の単語から構成されている。検索文受付部211は、伝送路30を介して検索文を文書検索装置10に送信する。
類似度計算部115は、各文書131と、ステップS21で送信された検索文との間の類似度を計算する。
具体的には、まず類似度計算部115は、図5のステップS11と同様に、各文書131をベクトル化する。なお、類似度計算部115は、図5のステップS11で生成された各文書131についてのベクトルを使用してもよい。
次に類似度計算部115は、検索文をベクトル化する。つまり、類似度計算部115は、検索文を単語毎に分割する。そして、類似度計算部115は、検索文を単語の出現回数に基づきベクトル化する。図5のステップS11で説明した文書131のベクトル化の処理と同様に、類似度計算部115は、検索に不必要な単語の削除と、類義語のマージと等を行ってもよい。また、類似度計算部115は、単語の重要性と単語間の関係性といった指標に基き、ベクトルを調整してもよい。
そして、類似度計算部115は、各文書131についてのベクトルと、検索文についてのベクトルとを用いて、各文書131と検索文との類似度を計算する。ここでは、類似度計算部115は、ストレージ13に記憶された複数の文書131それぞれを対象の文書131に設定する。類似度計算部115は、対象の文書131についてのベクトルと、検索文についてのベクトルとのコサイン類似度を、対象の文書131と検索文との間の類似度として計算する。
グループ特定部116は、複数の文書131に含まれる単語を分類した複数のグループのうち、検索文が関連するグループを特定する。
具体的には、グループ特定部116は、検索文をベクトル化する。なお、グループ特定部116は、ステップS22で生成された検索文についてのベクトルを使用してもよい。そして、グループ特定部116は、モデル133を用いて、検索文をグループに分類することにより、検索文が関連するグループを特定する。
モデル133によって、検索文に関連するグループとして複数のグループが特定される場合がある。この場合には、グループ特定部116は、最も関連する度合が強いグループを関連グループとして特定する。又は、グループ特定部116は、複数のグループそれぞれについて検索文が関連する度合を示す所属割合を特定し、所属割合が基準値以上のグループを関連グループとして特定してもよい。例えば、モデル133によって、複数のグループそれぞれについて検索文が関連する確信度が計算される場合がある。グループ特定部116は、この確信度を所属割合とすることができる。
評価値計算部117は、評価パラメータ135を参照して、複数の文書131それぞれに対する評価値を計算する。評価パラメータ135は、図9に示すように、文書131毎及びグループ毎に値が設定される。評価値計算部117は、評価パラメータ135のうち、ステップS23で特定された関連グループに対する評価パラメータ135の値に基づき、複数の文書131それぞれに対する評価値を計算する。
具体的には、評価値計算部117は、複数の文書131それぞれを文書jに設定する。そして、評価値計算部117は、式1により、文書jに対する評価値E(j)を計算する。ここで、Pe(k,j)は、文書j及びグループ番号kのグループに対応する評価パラメータ135の値である。B(k)は、検索文のグループ番号kのグループへの所属割合である。ステップS23で最も関連する度合が強いグループが特定された場合には、そのグループへの所属割合は1になる。ここでは、k=1,...,Kのグループ番号のグループが検索文に関連グループとして特定されているとする。ここでは、評価値計算部117は、評価値E(j)とともに、グループ毎の評価値(k,j)を計算する。
*式1*
E(j)=Σk=1 KPe(k,j)×B(k)
E(k,j)=Pe(k,j)×B(k)
評価信頼度計算部118は、関連グループに関連する検索文による検索結果が示された際に行われた操作から、関連グループの評価値の信頼度である評価信頼度を計算する。
具体的には、評価信頼度計算部118は、操作信頼度が第1閾値よりも高い操作ログ132を抽出する。評価信頼度計算部118は、抽出された操作ログ132に含まれる検索結果のうち、関連グループに関連する検索文による検索が行われた検索結果である関連検索結果の数を検索総数として特定する。また、評価信頼度計算部118は、関連検索結果について操作が行われた回数である操作総数を特定する。ある操作ログ132についての操作が行われた回数は、操作の内容に有が付された数である。例えば、図4の1行目のレコードが示す操作ログ132であれば、役立つと閲覧とに有が付されているので、操作が行われた回数は2になる。
正確には、評価信頼度計算部118は、式2により、検索総数fを計算する。また、評価信頼度計算部118は、式3により、操作総数sを計算する。ここで、f(k)は、グループ番号kに関連する検索文により検索された回数である。s(k)は、グループ番号kに関連する検索文による関連検索結果に含まれる文書の操作が行われた回数である。B(k)は、検索文のグループ番号kのグループへの所属割合である。
*式2*
f=Σk=1 Kf(k)×B(k)
*式3*
s=Σk=1 Ks(k)×B(k)
そして、評価信頼度計算部118は、検索総数と操作総数とから、関連グループの評価値の信頼度である評価信頼度を計算する。具体例としては、評価信頼度計算部118は、式4により、評価信頼度tを計算する。
*式4*
t=s/f
重要度計算部119は、複数の文書131それぞれについて、ステップS22で計算された検索文との類似度と、ステップS24で計算された評価値とから重要度を計算する。
具体的には、重要度計算部119は、式5により、類似重みWs(tk)を計算する。また、重要度計算部119は、式6により、評価重みWe(tk)を計算する。ここで、tkは、グループ番号kのグループについての評価信頼度である。Lは、図5のステップS13で設定された重要度パラメータ134に含まれる値である。
*式5*
tk≧Lのとき、Ws(tk)=Wsk
tk<Lのとき、Ws(tk)=(L-tk)Wsk
*式6*
We(tk)=tkWek
具体的には、重要度計算部119は、複数の文書131それぞれを文書jに設定する。そして、重要度計算部119は、文書jについて、式7により、重要度I(k,j)を計算する。重要度I(k,j)は、グループ番号kのグループに関連する検索文によって検索された文書jの重要度である。S(j)は、文書jの類似度である。E(k,j)は、文書jのグループkについての評価値である。
*式7*
I(k,j)=S(j)×Ws(tk)+E(k,j)×We(tk)
重要度計算部119は、各グループの所属割合を用いて、重要度I(k,j)から文書jの重要度I(j)を計算する。具体的には、重要度計算部119は、式8により、重要度I(j)を計算する。
*式8*
I(j)=Σk=1 KI(k,j)×B(k)
順位計算部120は、類似度と評価値とに基づき、複数の文書131についての検索順位を計算する。ここでは、順位計算部120は、ステップS26で計算された各文書131の重要度の高い順に、各文書131についての検索順位を決定する。
そして、順位計算部120は、伝送路30を介して、各文書131を示す情報と、各文書131の検索順位とを示す検索結果を検索クライアント20に送信する。例えば、順位計算部120は、検索順位が高い文書131を示す情報ほど上位になるように各文書131を示す情報を並べて、検索結果を生成する。順位計算部120は、検索順位が上位の一部の文書131だけを示す検索結果を生成してもよい。
結果表示部212は、ステップS27で送信された検索結果を表示装置に表示する。
操作取得部213は、ステップS28で表示された検索結果に対する操作を示す操作情報を取得する。そして、操作取得部213は、伝送路30を介して、操作情報を検索クライアント20に送信する。
ログ記録部121は、ステップS29で送信された操作情報に基づき、操作ログ132をストレージ13に書き込む。ここで、ログ記録部121は、ステップS27で送信された検索結果について、その検索結果に表示された文書131毎に1つのレコードを操作ログ132として書き込む。
操作信頼度計算処理(図5のステップS12)について説明する。
操作信頼度計算部112は、以下の(1)から(5)の信頼度のうち少なくともいずれかを用いて、操作ログiについての操作信頼度を計算する。iは、操作ログ132を識別するための添え字である。つまり、操作ログiはi番目の操作ログ132を表す。操作信頼度計算部112は、2つ以上の信頼度を用いる場合には、各信頼度を乗算する、又は、重み付け加算するといった方法により、操作信頼度を計算する。
操作信頼度計算部112は、操作ログiにおける文書jの閲覧時間viewjと文書jの記載量amountjとを用いて、閲覧時間による信頼度timeiを計算する。文書の記載量としては、文字数と、文字の密度と、表及び図の大きさと等がある。文字の密度は、1ページ当たりの文字数である。閲覧時間による信頼度timeiを用いる場合には、閲覧時間viewjが操作ログ132に含めて記録されるものとする。
具体的には、操作信頼度計算部112は、式8により、操作ログiの閲覧時間による信頼度timeiを計算する。
*式8*
timei=viewj/amountj
後述する利用者の習熟度expertiが高い場合、文書131の内容を読み込まなくても要求に合致する文書かどうか判定できる可能性がある。そのため、操作信頼度計算部112は、式8について閲覧時間に関係なく閲覧時間の信頼度timeiを高くする。例えば、文書の記載量amountjを1以下の値に補正して式8により閲覧時間による信頼度timeiを計算する。
操作信頼度計算部112は、操作ログiに記載されているいずれかの項目を用いて、ログ項目による信頼度operationiを計算する。操作ログiに記載されている項目とは、操作ログ132における操作内容を示す項目である。例えば、項目には、文書131のクリックがされたか否かの項目と、検索された文書131が役に立つことの表明がされたか否かの項目と、検索された文書131が役に立たないことの表明がされたか否かの項目と等がある。
具体的には、操作信頼度計算部112は、式9により、ログ項目による信頼度operationiを計算する。式9において、F_clickは、文書131のクリックがされた場合に1、参照されていない場合に0をとる。F_goodは、役に立つことの表明がされた場合に1、表明されていない場合に0をとる。F_badは、役に立たないことの表明がされた場合に1、表明されていない場合に0をとる。また、b,c,dは事前に設定される任意の値である。
*式9*
operationi=b×F_click+c×F_good+d×F_bad
操作信頼度計算部112は、利用者の検索日時now_dateと、操作ログiに記載されている検索日時log_dateiとの差分から、ログ取得日時による信頼度dateiを計算する。利用者の検索日時は、現在日時である。利用者の検索日時に代えて、指定した任意の日時をnow_dateとしてもよい。
具体的には、操作信頼度計算部112は、式10により、ログ取得日時による信頼度dateiを計算する。
*式10*
datei=now_date-log_datei
操作信頼度計算部112は、操作ログiにおける利用者uの習熟度から利用者の習熟度による信頼度expertiを計算する。操作信頼度計算部112は、利用者uの習熟度を、経験年数experienceuと、検索総数countのいずれかを用いて計算する。経験年数experienceu及び検索総数countは、ストレージ13に記憶されているものとする。経験年数に代えて役職に応じた値をexperienceuとしてもよい。検索総数に代えて、操作ログiに記載されている操作ログについてのグループの検索総数をcountとしてもよい。
具体的には、操作信頼度計算部112は、式11により、利用者の習熟度による信頼度expertiを計算する。式11において、e,fは事前に設定される任意の値である。
*式11*
experti=e×experienceu+f×count
操作信頼度計算部112は、操作ログiに記載されている文書jの検索順位log_rankjを用いて、検索順位による信頼度rankiを計算する。
具体的には、操作信頼度計算部112は、式12により、検索順位による信頼度rankiを計算する
*式12*
ranki=1/log_rankj
重要度パラメータ計算処理(図5のステップS13)について説明する。
重要度パラメータ計算部113は、操作信頼度と操作ログ132とを用いて、シミュレーションを行い、重要度パラメータ134を設定する。
重要度パラメータ134には、基準値Lと、グループ毎の類似係数Wsk及び評価係数Wekとが含まれる。ここでは、基準値Lは固定値とする。したがって、重要度パラメータ計算部113は、グループ毎に類似係数Wsk及び評価係数Wekを設定する。
(ステップS131:ペア設定処理)
重要度パラメータ計算部113は、検索文と正解文書のペアを設定する。正解文書は、検索文により検索されるべき文書131である。つまり、正解文書は、検索文に関して、利用者の要求に合致する文書131である。
具体的には、重要度パラメータ計算部113は、操作信頼度が第2閾値よりも高い操作ログ132における検索文と文書131とのペアを、検索文と正解文書のペアとして設定する。第2閾値は事前に定められた値であり、ある程度の信頼がおける操作ログ132を示す値である。あるいは、重要度パラメータ計算部113は、利用者又は設計者等によって入力された検索文と正解文書のペアを受け付け、設定してもよい。
重要度パラメータ計算部113は、グループ毎に類似係数Wsk及び評価係数Wekの値を設定する。例えば、重要度パラメータ計算部113は、各グループの類似係数Wsk及び評価係数Wekに全て同じ値に設定する。具体例としては、各グループの類似係数Wsk及び評価係数Wekに0.5を設定する。なお、重要度パラメータ計算部113は、各グループの類似係数Wsk及び評価係数Wekに同じ値を設定する必要はなく、任意の値を設定すればよい。
重要度パラメータ計算部113は、ステップS131で設定されたペアからランダムに対象のペアを選択する。
重要度パラメータ計算部113は、ステップS133で選択された対象のペアにおける検索文により文書検索処理を行った場合の操作ログ132を抽出する。重要度パラメータ計算部113は、抽出された操作ログ132から、正解文書についての操作ログ132を抽出する。
重要度パラメータ計算部113は、ステップS134で抽出された操作ログ132に基づき、評価パラメータの値を更新する。ここでは、重要度パラメータ計算部113は、ステップS133で選択された対象のペアにおける検索文の関連グループについての評価パラメータの値を更新する。
具体的には、図11に示すように、重要度パラメータ計算部113は、操作ログ132の項目に応じた加算点を設定しておく。図11では、文書131のクリックの有無と、文書131が役に立つことの表明の有無との組合せに応じて、評価パラメータの値の加算点が設定されている。重要度パラメータ計算部113は、ステップS134で抽出された操作ログ132における、文書131のクリックの有無と、文書131が役に立つことの表明の有無とを特定する。重要度パラメータ計算部113は、特定された文書131のクリックの有無と、文書131が役に立つことの表明の有無との組合せに対応する加算点を特定する。そして、重要度パラメータ計算部113は、特定された加算点を評価パラメータの値に加算する。
(A)に示すように、対象のペアは検索文“特許”と正解文書“B”とである。(B)に示すように、ステップS134では、正解文書“B”の操作ログ132である検索順位“2”の操作ログ132が抽出される。したがって、文書131のクリックの無と文書131が役に立つことの表明の有との組合せとなる。図11において、この組合せの場合には、評価パラメータPeの値の加算点は0.2である。ここで、検索文“特許”は、グループ1であるとする。したがって、(C)に示すように、グループ1の評価パラメータPeの値に0.2が加算される。
*式13*
Pe(k,j)=Pe(k,j)’+S(i)×B(k)
加算点の値は、利用者又は設計者によって任意に設定される。また、加算点の値は、コンテキストバンディットのアルゴリズム等を用いて設定されてもよい。加算点の値は、抽出された操作ログ132における利用者の習熟度と、操作ログ132の取得日時と、正解文書の検索順位との少なくともいずれかに応じて変動させてもよい。
操作ログ132の取得日時に応じて加算点の値を変動させる場合には、抽出された操作ログ132の取得日時と、最新の操作ログ132の取得日時との差分により、加算点の値を変動させることが考えられる。
重要度パラメータ計算部113は、各グループについての類似係数Wsk及び評価係数Wekが最適化されたか否かを判定する。重要度パラメータ計算部113は、最適化されたと判定した場合には処理を終了する。一方、重要度パラメータ計算部113は、最適化されていないと判定した場合には処理をステップS132に戻す。この場合、S132に戻り、類似係数Wsk及び評価係数Wekを別の値に設定し直す。この時、プログラムのfor文などを用いて、係数をaずつ変更しても良い。aの値は任意に設定する。
重要度パラメータ計算部113は、検索精度の品質に基づき、各グループについての類似係数Wsk及び評価係数Wekが最適化されたか否かを判定する。例えば、重要度パラメータ計算部113は、検索精度の品質が、向上したか、又は、任意の精度以上になったかにより、最適化されたか否かを判定する。検索精度の品質としては、平均逆順位と、中央値と、正解文書が上位に出現する割合といった指標がある。どの指標を用いるかは文書検索システム100の意図に応じて任意に選択される。
評価パラメータ計算処理(図5のステップS14)について説明する。
評価パラメータ計算部114は、複数の文書131それぞれを対象の文書に設定し、複数のグループそれぞれを対象のグループに設定する。評価パラメータ計算部114は、対象のグループに関連する検索文による検索結果として示された対象の文書131に対して行われた操作に基づき、対象の文書131及び対象のグループに対する評価パラメータの値を設定する。
具体的には、評価パラメータ計算部114は、操作ログ132から操作信頼度が第3閾値よりも高い操作ログ132を抽出する。第3閾値は事前に定められた値であり、ある程度の信頼がおける操作ログ132を示す値である。評価パラメータ計算部114は、抽出された各操作ログ132を対象の操作ログ132として、対象の操作ログ132に基づき、評価パラメータ135の値を更新する。ここでは、評価パラメータ計算部114は、対象の操作ログ132における操作対象の文書131と、対象の操作ログ132における検索文のグループについての評価パラメータ135の値を更新する。なお、評価パラメータ135には、初期状態では任意の値が設定されているとする。
図11に示すように、評価パラメータ計算部114は、操作ログ132の項目に応じた加算点を設定しておく。図11では、文書131のクリックの有無と、文書131が役に立つことの表明の有無との組合せに応じて、加算点が設定されている。評価パラメータ計算部114は、対象の操作ログ132における、文書131のクリックの有無と、文書131が役に立つことの表明の有無とを特定する。評価パラメータ計算部114は、特定された文書131のクリックの有無と、文書131が役に立つことの表明の有無との組合せに対応する加算点を特定する。そして、評価パラメータ計算部114は、特定された加算点を評価パラメータ135の値に加算する。
*式14*
Pe(k,j)=Pe(k,j)’+S(i)×B(k)
(A)に示すように、対象の操作ログ132は、文書“C”であるとする。そのため、文書131のクリックの無、文書131が役に立つことの表明の無である。また、検索文のグループは1であるとする。図11において、この組合せの場合には、加算点は-0.1である。したがって、(B)に示すように、文書A及びグループ1の評価パラメータ135の値に-0.1が加算される。
加算点の値は、利用者又は設計者によって任意に設定される。また、加算点の値は、コンテキストバンディットのアルゴリズム等を用いて設定されてもよい。加算点の値は、抽出された操作ログ132における利用者の習熟度と、操作ログ132の取得日時と、正解文書の検索順位との少なくともいずれかに応じて変動させてもよい。
操作ログ132の取得日時に応じて加算点の値を変動させる場合には、抽出された操作ログ132の取得日時と、最新の操作ログ132の取得日時との差分により、加算点の値を変動させることが考えられる。
以上のように、実施の形態1に係る文書検索装置10は、検索文に関連するグループについての操作ログ132から計算された評価パラメータ135から複数の文書131それぞれに対する評価値を計算する。これにより、適切な操作ログ132を用いて評価値が計算され易い。文書検索装置10が稼働し始めた初期段階といった、操作ログ132が十分に蓄積されていない状況であっても、適切な評価値が計算され易い。
そして、実施の形態1に係る文書検索装置10は、評価値に基づき、複数の文書131についての検索順位を計算する。そのため、操作ログ132が十分に蓄積されていない状況であっても、利用者の要求に合致する文書を上位に表示可能である。
評価値は、評価パラメータ135から計算される。そのため、適切な評価値が計算され易い。
<変形例1>
実施の形態1では、評価信頼度計算部118は、検索総数と操作総数とから評価信頼度を計算した。これに代えて、評価信頼度計算部118は、信頼度が第1閾値よりも高い操作ログ132の操作信頼度の和を評価信頼度として計算してもよい。あるいは、評価信頼度計算部118は、検索総数と操作総数と信頼度が第1閾値よりも高い操作ログ132の操作信頼度の和とから評価信頼度を計算してもよい。
評価信頼度計算部118は、複数の文書131それぞれについて、文書信頼度を計算してもよい。評価信頼度計算部118は、評価信頼度と同様の方法により文書信頼度を計算する。
具体的には、評価信頼度計算部118は、信頼度が第1閾値よりも高い操作ログ132を抽出する。評価信頼度計算部118は、抽出された操作ログ132に含まれる検索結果のうち、関連グループに関連する検索文による検索が行われた検索結果である関連検索結果の数を検索総数として特定する。評価信頼度計算部118は、複数の文書131それぞれを対象の文書131に設定する。評価信頼度計算部118は、関連検索結果において対象の文書131ついて操作が行われた回数である操作総数を特定する。そして、評価信頼度計算部118は、評価信頼度と同様に、検索総数と、対象の文書131についての操作総数とから、対象の文書131についての文書信頼度を計算する。
順位計算部120は、文書信頼度により、検索結果として表示する文書131を絞り込んでもよい。例えば、順位計算部120は、文書信頼度が基準よりも高い文書131だけを検索結果に含めることが考えられる。また、順位計算部120は、文書信頼度に応じて、文書131を示す情報の表示態様を変更してもよい。
これにより、検索結果から適切な文書131を利用者が容易に発見することができるようになる。
実施の形態1では、各機能構成要素がソフトウェアで実現された。しかし、変形例3として、各機能構成要素はハードウェアで実現されてもよい。この変形例3について、実施の形態1と異なる点を説明する。
各機能構成要素がハードウェアで実現される場合には、文書検索装置10は、プロセッサ11とメモリ12とストレージ13とに代えて、電子回路15を備える。電子回路15は、各機能構成要素と、メモリ12と、ストレージ13との機能とを実現する専用の回路である。
各機能構成要素がハードウェアで実現される場合には、検索クライアント20は、プロセッサ21とメモリ22とストレージ23とに代えて、電子回路26を備える。電子回路26は、各機能構成要素と、メモリ22と、ストレージ23との機能とを実現する専用の回路である。
各機能構成要素を1つの電子回路15,26で実現してもよいし、各機能構成要素を複数の電子回路15,26に分散させて実現してもよい。
変形例4として、一部の各機能構成要素がハードウェアで実現され、他の各機能構成要素がソフトウェアで実現されてもよい。
Claims (14)
- 検索対象の複数の文書に含まれる単語を分類した複数のグループのうち、検索文が関連するグループを関連グループとして特定するグループ特定部と、
前記複数の文書それぞれを対象の文書とし、前記複数のグループそれぞれを対象のグループとして、前記対象の文書及び前記対象のグループに対して設定された評価パラメータであって、前記対象のグループに関連する検索文による検索結果として示された前記対象の文書に対して行われた操作に基づき設定された評価パラメータのうち、前記グループ特定部によって特定された前記関連グループに対する評価パラメータに基づき、前記複数の文書それぞれに対する評価値を計算する評価値計算部と、
前記評価値計算部によって計算された前記評価値に基づき、前記複数の文書についての検索順位を計算する順位計算部と
を備える文書検索装置。 - 前記文書検索装置は、さらに、
前記複数の文書それぞれについて、前記検索文との類似度と、前記評価値とから重要度を計算する重要度計算部
を備え、
前記順位計算部は、前記重要度計算部によって計算された前記重要度に基づき、前記複数の文書についての検索順位を計算する
請求項1に記載の文書検索装置。 - 前記文書検索装置は、さらに、
前記関連グループに関連する検索文による検索結果である関連検索結果が示された際に行われた操作から、前記関連グループの評価値の信頼度である評価信頼度を計算する評価信頼度計算部
を備え、
前記重要度計算部は、前記評価信頼度計算部によって計算された前記評価信頼度から前記評価値に対する重みである評価重みを計算して、前記類似度と前記評価値に前記評価重みを加味した値とから前記重要度を計算する
請求項2に記載の文書検索装置。 - 前記重要度計算部は、前記評価信頼度から前記類似度に対する重みである類似重みを計算して、前記類似度に前記類似重みを加味した値と前記評価値に前記評価重みを加味した値とから前記重要度を計算する
請求項3に記載の文書検索装置。 - 前記重要度計算部は、前記評価信頼度が高いほど、前記評価値が重視されるように前記類似重み及び前記評価重みを計算する
請求項4に記載の文書検索装置。 - 前記評価信頼度計算部は、前記関連グループに関連する検索文による検索が行われた回数に対する、前記関連検索結果について操作が行われた回数から、前記評価信頼度を計算する
請求項3から5までのいずれか1項に記載の文書検索装置。 - 前記文書検索装置は、さらに、
前記対象のグループに関連する検索文による検索結果として示された前記対象の文書に対して行われた操作の信頼度である操作信頼度を加味して前記対象の文書及び前記対象のグループに対する前記評価パラメータを計算する評価パラメータ計算部
を備え、
前記評価値計算部は、前記評価パラメータ計算部によって計算された前記評価パラメータに基づき前記評価値を計算する
請求項1から6までのいずれか1項に記載の文書検索装置。 - 前記評価パラメータ計算部は、前記操作信頼度が基準値以上の操作のみに基づき前記評価パラメータを計算する
請求項7に記載の文書検索装置。 - 前記文書検索装置は、さらに、
前記対象の文書の閲覧時間と、前記操作の内容と、前記操作が行われた日時と、前記操作を行った利用者の習熟度と、前記対象の文書の検索順位との少なくともいずれかに基づき、前記操作信頼度を計算する操作信頼度計算部
を備え、
前記評価パラメータ計算部は、前記操作信頼度計算部によって計算された前記操作信頼度を加味して前記評価パラメータを計算する
請求項7又は8に記載の文書検索装置。 - 前記評価値計算部は、検索された文書が役に立つことの表明を前記操作として、前記評価値を計算する
請求項1から9までのいずれか1項に記載の文書検索装置。 - 前記複数の文書に含まれる単語は、類似する意味の単語が同一のグループになるように前記複数のグループに分類され、
前記グループ特定部は、前記検索文が最も関連するグループを前記関連グループとして特定する
請求項1から10までのいずれか1項に記載の文書検索装置。 - 前記複数の文書に含まれる単語は、類似する意味の単語が同一のグループになるように前記複数のグループに分類され、
前記グループ特定部は、各グループに前記検索文が関連する度合を示す所属割合が基準値以上のグループを前記関連グループとして特定する
請求項1から10までのいずれか1項に記載の文書検索装置。 - コンピュータが、検索対象の複数の文書に含まれる単語を分類した複数のグループのうち、検索文が関連するグループを関連グループとして特定し、
コンピュータが、前記複数の文書それぞれを対象の文書とし、前記複数のグループそれぞれを対象のグループとして、前記対象の文書及び前記対象のグループに対して設定された評価パラメータであって、前記対象のグループに関連する検索文による検索結果として示された前記対象の文書に対して行われた操作に基づき設定された評価パラメータのうち、前記関連グループに対する評価パラメータに基づき、前記複数の文書それぞれに対する評価値を計算し、
コンピュータが、前記評価値に基づき、前記複数の文書についての検索順位を計算する文書検索方法。 - 検索対象の複数の文書に含まれる単語を分類した複数のグループのうち、検索文が関連するグループを関連グループとして特定するグループ特定処理と、
前記複数の文書それぞれを対象の文書とし、前記複数のグループそれぞれを対象のグループとして、前記対象の文書及び前記対象のグループに対して設定された評価パラメータであって、前記対象のグループに関連する検索文による検索結果として示された前記対象の文書に対して行われた操作に基づき設定された評価パラメータのうち、前記グループ特定処理によって特定された前記関連グループに対する評価パラメータに基づき、前記複数の文書それぞれに対する評価値を計算する評価値計算処理と、
前記評価値計算処理によって計算された前記評価値に基づき、前記複数の文書についての検索順位を計算する順位計算処理と
を行う文書検索装置としてコンピュータを機能させる文書検索プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2021/042398 WO2023089729A1 (ja) | 2021-11-18 | 2021-11-18 | 文書検索装置、文書検索方法及び文書検索プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2023089729A1 JPWO2023089729A1 (ja) | 2023-05-25 |
JP7357830B1 true JP7357830B1 (ja) | 2023-10-06 |
Family
ID=86396428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023544755A Active JP7357830B1 (ja) | 2021-11-18 | 2021-11-18 | 文書検索装置、文書検索方法及び文書検索プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7357830B1 (ja) |
WO (1) | WO2023089729A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008282322A (ja) | 2007-05-14 | 2008-11-20 | Sony Ericsson Mobilecommunications Japan Inc | 情報処理装置及び情報処理方法 |
JP2012221431A (ja) | 2011-04-13 | 2012-11-12 | Nippon Telegr & Teleph Corp <Ntt> | 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム |
JP2014123286A (ja) | 2012-12-21 | 2014-07-03 | Fuji Xerox Co Ltd | 文書分類装置及びプログラム |
-
2021
- 2021-11-18 JP JP2023544755A patent/JP7357830B1/ja active Active
- 2021-11-18 WO PCT/JP2021/042398 patent/WO2023089729A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008282322A (ja) | 2007-05-14 | 2008-11-20 | Sony Ericsson Mobilecommunications Japan Inc | 情報処理装置及び情報処理方法 |
JP2012221431A (ja) | 2011-04-13 | 2012-11-12 | Nippon Telegr & Teleph Corp <Ntt> | 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム |
JP2014123286A (ja) | 2012-12-21 | 2014-07-03 | Fuji Xerox Co Ltd | 文書分類装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2023089729A1 (ja) | 2023-05-25 |
WO2023089729A1 (ja) | 2023-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8918348B2 (en) | Web-scale entity relationship extraction | |
US7769771B2 (en) | Searching a document using relevance feedback | |
US9053115B1 (en) | Query image search | |
US8380719B2 (en) | Semantic content searching | |
JP3882048B2 (ja) | 質問応答システムおよび質問応答処理方法 | |
JP6299596B2 (ja) | クエリ類似度評価システム、評価方法、及びプログラム | |
WO2017201647A1 (en) | Relevant passage retrieval system | |
KR20060045720A (ko) | 태스크에 대한 쿼리 매핑을 위한 방법 및 시스템 | |
Li et al. | Knowledge verification for long-tail verticals | |
CN110008309B (zh) | 一种短语挖掘方法及装置 | |
US20160357857A1 (en) | Apparatus, system and method for string disambiguation and entity ranking | |
JP2004213626A (ja) | 情報の格納及び検索 | |
JP4819628B2 (ja) | ドキュメントデータを検索する方法、サーバ、およびプログラム | |
JP7357830B1 (ja) | 文書検索装置、文書検索方法及び文書検索プログラム | |
CN112579729A (zh) | 文档质量评价模型的训练方法、装置、电子设备和介质 | |
CN107784112A (zh) | 短文本数据增强方法、系统及检测认证服务平台 | |
KR20120038418A (ko) | 탐색 방법 및 디바이스 | |
JP7203554B2 (ja) | 情報処理装置 | |
CN116484829A (zh) | 用于信息处理的方法和设备 | |
JP5310196B2 (ja) | 分類体系改正支援プログラム、分類体系改正支援装置、および分類体系改正支援方法 | |
US11954137B2 (en) | Data generation device and data generation method | |
WO2015043389A1 (zh) | 一种基于视频搜索的分词信息推送方法和装置 | |
JP7384614B2 (ja) | 文書検索装置、文書検索方法、及び、コンピュータプログラム | |
JP7477744B2 (ja) | 情報処理装置、制御方法、プログラム | |
JP7464814B2 (ja) | 情報処理装置、制御方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230725 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230725 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230829 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230926 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7357830 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |