JP7357830B1 - 文書検索装置、文書検索方法及び文書検索プログラム - Google Patents

文書検索装置、文書検索方法及び文書検索プログラム Download PDF

Info

Publication number
JP7357830B1
JP7357830B1 JP2023544755A JP2023544755A JP7357830B1 JP 7357830 B1 JP7357830 B1 JP 7357830B1 JP 2023544755 A JP2023544755 A JP 2023544755A JP 2023544755 A JP2023544755 A JP 2023544755A JP 7357830 B1 JP7357830 B1 JP 7357830B1
Authority
JP
Japan
Prior art keywords
evaluation
document
search
group
calculation unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023544755A
Other languages
English (en)
Other versions
JPWO2023089729A1 (ja
Inventor
頌子 衣巻
恭平 西出
恒次 阪田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2023089729A1 publication Critical patent/JPWO2023089729A1/ja
Application granted granted Critical
Publication of JP7357830B1 publication Critical patent/JP7357830B1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

グループ特定部(116)は、検索対象の複数の文書(131)に含まれる単語を分類した複数のグループのうち、検索文が関連するグループを関連グループとして特定する。評価値計算部(117)は、文書及びグループの組合せ毎に対して設定された評価パラメータであって、組合せにおけるグループに関連する検索文による検索結果として示された組合せにおける文書(131)に対して行われた操作に基づき設定された評価パラメータのうち、関連グループに対する評価パラメータに基づき、各文書(131)に対する評価値を計算する。順位計算部(120)は、評価値に基づき、各文書(131)についての検索順位を計算する。

Description

本開示は、検索文に関連する文書を検索する技術に関する。
特許文献1には、文書検索方式について記載されている。特許文献1に記載された文書検索方式では、4種類の検索方式それぞれでスコアが計算される。そして、計算されたスコアを重みづけ加算することによって、検索順位の計算が行なわれる。4つの検索方式として、コンテンツ検索と、属性検索と、参照履歴利用検索と、コミュニケーション履歴利用検索とが用いられている。
コンテンツ検索は、検索文と類似度の高い文書を検索する方式である。属性検索は、利用者が指定した文書作成者及び文書作成日に合致する文書を検索する方式である。参照履歴利用検索は、利用者が文書を参照した参照回数が多い順に文書を検索する方式である。コミュニケーション履歴利用検索とは、各文書に投稿されたメッセージの投稿先の場所同士の近い順に文書を検索する方式である。
参照履歴利用検索では、ある検索文を検索した利用者のログから各文書の参照頻度と所定期間内の参照回数とを重みづけ加算して、参照履歴利用検索のスコアが計算される。このとき、重みはシミュレーションを用いて計算される。
特開2005-332326号公報
特許文献1に記載された文書検索方式は、検索された回数の多い検索文には有効である。しかし、特許文献1に記載された文書検索方式は、検索文についての操作ログが少ないと、利用者の要求に合致する文書を上位に表示することが難しい。操作ログは、文書の参照といった操作の履歴である。そのため、検索文について検索された回数が少ない場合と、検索装置が稼働し始めた初期段階といった状況では、適切な文書を上位に表示することが難しい。
本開示は、利用者の要求に合致する文書を上位に表示可能にすることを目的とする。
本開示に係る文書検索装置は、
検索対象の複数の文書に含まれる単語を分類した複数のグループのうち、検索文が関連するグループを関連グループとして特定するグループ特定部と、
前記複数の文書それぞれを対象の文書とし、前記複数のグループそれぞれを対象のグループとして、前記対象の文書及び前記対象のグループに対して設定された評価パラメータであって、前記対象のグループに関連する検索文による検索結果として示された前記対象の文書に対して行われた操作に基づき設定された評価パラメータのうち、前記グループ特定部によって特定された前記関連グループに対する評価パラメータに基づき、前記複数の文書それぞれに対する評価値を計算する評価値計算部と、
前記評価値計算部によって計算された前記評価値に基づき、前記複数の文書についての検索順位を計算する順位計算部と
を備える。
本開示では、検索文に関連するグループについての評価パラメータから複数の文書それぞれに対する評価値が計算される。そして、評価値に基づき、複数の文書についての検索順位が計算される。これにより、文書検索装置が稼働し始めた初期段階といった状況でも、適切な評価値が計算され易い。そのため、利用者の要求に合致する文書を上位に表示可能である。
実施の形態1に係る文書検索システム100の構成図。 実施の形態1に係る文書検索装置10の構成図。 実施の形態1に係る検索クライアント20の構成図。 実施の形態1に係る操作ログ132の説明図。 実施の形態1に係る前処理のフローチャート。 実施の形態1に係る前処理の説明図。 実施の形態1に係る文書検索処理のフローチャート。 実施の形態1に係る文書検索処理の説明図。 実施の形態1に係る評価パラメータ135の説明図。 実施の形態1に係る重要度パラメータ計算処理のフローチャート。 実施の形態1に係る重要度パラメータ計算処理の説明図。 実施の形態1に係る重要度パラメータ計算処理の説明図。 実施の形態1に係る評価パラメータ計算処理の説明図。 変形例3に係る文書検索装置10の構成図。 変形例3に係る検索クライアント20の構成図。
実施の形態1.
***構成の説明***
図1を参照して、実施の形態1に係る文書検索システム100の構成を説明する。
文書検索システム100は、文書検索装置10と、検索クライアント20とを備える。文書検索装置10と検索クライアント20とは、伝送路30を介して接続されている。
文書検索装置10は、検索文に関連する文書の検索を行うコンピュータである。検索クライアント20は、文書検索装置10に対して検索を指示するコンピュータである。伝送路30は、具体例としては、有線LAN又は無線LAN等である。LANは、Local Area Networkの略である。
図2を参照して、実施の形態1に係る文書検索装置10の構成を説明する。
文書検索装置10は、プロセッサ11と、メモリ12と、ストレージ13と、通信インタフェース14とのハードウェアを備える。プロセッサ11は、信号線を介して他のハードウェアと接続され、これら他のハードウェアを制御する。
文書検索装置10は、通信インタフェース14を介して伝送路30に接続されている。
文書検索装置10は、機能構成要素として、モデル計算部111と、操作信頼度計算部112と、重要度パラメータ計算部113と、評価パラメータ計算部114と、類似度計算部115と、グループ特定部116と、評価値計算部117と、評価信頼度計算部118と、重要度計算部119と、順位計算部120と、ログ記録部121とを備える。文書検索装置10の各機能構成要素の機能はソフトウェアにより実現される。
ストレージ13には、文書検索装置10の各機能構成要素の機能を実現するプログラムが格納されている。このプログラムは、プロセッサ11によりメモリ12に読み込まれ、プロセッサ11によって実行される。これにより、文書検索装置10の各機能構成要素の機能が実現される。
ストレージ13には、複数の文書131と、複数の操作ログ132と、モデル133と、重要度パラメータ134と、評価パラメータ135とが記憶される。なお、これらのデータは、ストレージ13ではなく、文書検索装置10の外部のストレージに記憶されてもよい。
図3を参照して、実施の形態1に係る検索クライアント20の構成を説明する。
検索クライアント20は、プロセッサ21と、メモリ22と、ストレージ23と、通信インタフェース24と、入出力インタフェース25とのハードウェアを備える。プロセッサ21は、信号線を介して他のハードウェアと接続され、これら他のハードウェアを制御する。
検索クライアント20は、通信インタフェース24を介して伝送路30に接続されている。検索クライアント20は、入出力インタフェース25を介して入力装置41と出力装置42と接続されている。入力装置41は、具体例としては、キーボード、マウスである。出力装置42は、具体例としては、ディスプレイである。
検索クライアント20は、機能構成要素として、検索文受付部211と、結果表示部212と、操作取得部213とを備える。検索クライアント20の各機能構成要素の機能はソフトウェアにより実現される。
ストレージ23には、検索クライアント20の各機能構成要素の機能を実現するプログラムが格納されている。このプログラムは、プロセッサ21によりメモリ22に読み込まれ、プロセッサ21によって実行される。これにより、検索クライアント20の各機能構成要素の機能が実現される。
プロセッサ11,21は、プロセッシングを行うICである。ICはIntegrated Circuitの略である。プロセッサ11,21は、具体例としては、CPU、DSP、GPUである。CPUは、Central Processing Unitの略である。DSPは、Digital Signal Processorの略である。GPUは、Graphics Processing Unitの略である。
メモリ12,22は、データを一時的に記憶する記憶装置である。メモリ12,22は、具体例としては、SRAM、DRAMである。SRAMは、Static Random Access Memoryの略である。DRAMは、Dynamic Random Access Memoryの略である。
ストレージ13,23は、データを保管する記憶装置である。ストレージ13,23は、具体例としては、HDDである。HDDは、Hard Disk Driveの略である。また、ストレージ13,23は、SD(登録商標)メモリカード、CompactFlash(登録商標)、NANDフラッシュ、フレキシブルディスク、光ディスク、コンパクトディスク、ブルーレイ(登録商標)ディスク、DVDといった可搬記録媒体であってもよい。SDは、Secure Digitalの略である。DVDは、Digital Versatile Diskの略である。
通信インタフェース14,24は、外部の装置と通信するためのインタフェースである。通信インタフェース14,24は、具体例としては、Ethernet(登録商標)のポートである。
入出力インタフェース25は、入力装置41又は出力装置42を接続するためのインタフェースである。入出力インタフェース25は、USB、HDMI(登録商標)のポートである。USBは、Universal Serial Busの略である。HDMIは、High-Definition Multimedia Interfaceの略である。
図2では、プロセッサ11は、1つだけ示されていた。しかし、プロセッサ11は、複数であってもよく、複数のプロセッサ11が、各機能を実現するプログラムを連携して実行してもよい。同様に、図3では、プロセッサ21は、1つだけ示されていた。しかし、プロセッサ21は、複数であってもよく、複数のプロセッサ21が、各機能を実現するプログラムを連携して実行してもよい。
***動作の説明***
図4から図13を参照して、実施の形態1に係る文書検索システム100の動作を説明する。
実施の形態1に係る文書検索システム100の動作手順は、実施の形態1に係る文書検索方法に相当する。また、実施の形態1に係る文書検索システム100の動作を実現するプログラムは、実施の形態1に係る文書検索プログラムに相当する。
以下の説明の前提として、ストレージ13には、複数の文書131と、複数の操作ログ132とが記憶されているものとする。
複数の文書131は、検索対象となる文書データである。文書131は、1つ以上の文から構成されている。文は、複数の単語から構成されている。
操作ログ132は、過去に文書131が検索された検索結果が示された際に行われた操作についてのログである。図4に示すように、各検索結果について、その検索結果に表示された文書131毎に1つのレコードが操作ログ132として記録される。
操作ログ132には、操作対象の文書131の検索順位と、操作対象の文書131の識別子と、検索結果が示された際に行われた操作の内容と、検索に使用した検索文と、検索文のグループと、操作を行った日時と、操作を行った利用者の識別子といった情報が含まれる。操作の内容としては、文書131のクリックと、文書131が役に立つことの表明と、文書131が役に立たないことの表明と、文書131の閲覧とが含まれる。文書131のクリックは、文書131に関する情報を表示させる場合に行われる操作である。
文書検索システム100の動作は、前処理と、文書検索処理とを含む。
<前処理の説明>
図5及び図6を参照して、実施の形態1に係る前処理を説明する。
前処理では、文書検索処理で使用される情報がストレージ13に設定される。具体的には、モデル133と重要度パラメータ134と評価パラメータ135とがストレージ13に設定される。
前処理は、文書検索処理が実行される度に実行されてもよい。また、前処理は、任意に定めた期間又は任意に定めた文書検索処理の実行回数毎に実行されてもよい。
(ステップS11:モデル計算処理)
モデル計算部111は、複数の文書131に含まれる単語を、類似する意味の単語が同一のグループになるように複数のグループに分類するモデル133を生成する。
具体的には、モデル計算部111は、ストレージ13に記憶された複数の文書131それぞれを対象の文書131に設定する。モデル計算部111は、対象の文書131に記載されている文を単語毎に分割する。そして、モデル計算部111は、対象の文書131を単語の出現回数に基づきベクトル化する。このとき、モデル計算部111は、検索に不必要な単語の削除と、類義語のマージと等を行ってもよい。また、モデル計算部111は、単語の重要性と単語間の関係性といった指標に基き、ベクトルを調整してもよい。例えば、モデル計算部111は、利用者が重要とする単語に関連するベクトルの要素を調整することが考えられる。また、モデル計算部111は、単語の上位下位関係に基づき、上位の単語と下位の単語とに関連するベクトルの要素を調整することが考えられる。
その後、モデル計算部111は、各文書131に記載された単語が似通った意味を持つかどうかを判定する。そして、モデル計算部111は、似通った意味をもつ単語が同じグループとなるように、単語を複数のグループに分類する。これにより、モデル計算部111は、単語とグループの識別子であるグループ番号との関係を表すモデル133を生成する。モデル計算部111は、モデル133をストレージ13に書き込む。モデル計算部111は、機械学習の手法であるトピックモデルと、k-means法等のクラスタリング手法と等を用いて、モデル133を生成することができる。
なお、モデル計算処理は前処理実行の度に毎回行われる必要はない。文書131に新たな文書ファイルが追加されたときのみ、モデル計算処理を行うことも可能である。
(ステップS12:操作信頼度計算処理)
操作信頼度計算部112は、操作ログ132を参照して、操作信頼度を計算する。操作信頼度は、各操作ログ132について計算される。操作信頼度は、検索結果が示された際に行われた操作の信頼度である。言い換えると、操作信頼度は、操作が、正しく行われた操作であったことの度合を示す。つまり、操作信頼度が高い場合には、その操作は正しく行われた可能性が高い。一方、操作信頼度が低い場合には、その操作は誤って行われた可能性が高い。
操作信頼度計算処理について詳しくは後述する。
(ステップS13:重要度パラメータ計算処理)
重要度パラメータ計算部113は、ステップS12で計算された操作信頼度に基づき、重要度パラメータ134を設定する。重要度パラメータ134は、検索順位の決定に使用する重要度を計算する際に、類似度と評価値とをどの程度の割合で考慮するかを決定するためのパラメータである。重要度パラメータ134は、基準値Lと、グループ毎の類似係数Wsk及び評価係数Wekとを含む。
重要度パラメータ計算処理について詳しくは後述する。
なお、重要度パラメータ計算処理は事前処理実行のたびに毎回行われる必要はない。モデル計算処理が行われた場合、又は、検索精度の品質が定めた閾値よりも低い場合のみに重要度パラメータ計算処理を行うことも可能である。検索精度の品質は、平均逆順位、中央値、正解文書が上位に出現する割合等である。
(ステップS14:評価パラメータ計算処理)
評価パラメータ計算部114は、ステップS12で計算された操作信頼度に基づき、評価パラメータ135を設定する。評価パラメータ135は、評価値を計算するためのパラメータである。評価パラメータ135は、文書131毎及びグループ毎に値が設定される。
評価パラメータ計算処理について詳しくは後述する。
<文書検索処理の説明>
図7及び図8を参照して、実施の形態1に係る文書検索処理を説明する。
文書検索処理では、前処理で設定されたモデル133と重要度パラメータ134と評価パラメータ135とを用いて、複数の文書131から検索文に対応する文書131を検索する。具体的には、検索文に対応する文書131ほど高い検索順位の文書131として出力される。
ステップS22からステップS27の処理と、ステップS30の処理とは、文書検索装置10によって実行される。ステップS21の処理とステップS28の処理とステップS29の処理とは、検索クライアント20によって実行される。
(ステップS21:検索文受付処理)
検索文受付部211は、利用者から検索文の入力を受け付ける。検索文は、文書131を検索するキーワードである。検索文は、1つ以上の単語から構成されている。検索文受付部211は、伝送路30を介して検索文を文書検索装置10に送信する。
(ステップS22:類似度計算処理)
類似度計算部115は、各文書131と、ステップS21で送信された検索文との間の類似度を計算する。
具体的には、まず類似度計算部115は、図5のステップS11と同様に、各文書131をベクトル化する。なお、類似度計算部115は、図5のステップS11で生成された各文書131についてのベクトルを使用してもよい。
次に類似度計算部115は、検索文をベクトル化する。つまり、類似度計算部115は、検索文を単語毎に分割する。そして、類似度計算部115は、検索文を単語の出現回数に基づきベクトル化する。図5のステップS11で説明した文書131のベクトル化の処理と同様に、類似度計算部115は、検索に不必要な単語の削除と、類義語のマージと等を行ってもよい。また、類似度計算部115は、単語の重要性と単語間の関係性といった指標に基き、ベクトルを調整してもよい。
そして、類似度計算部115は、各文書131についてのベクトルと、検索文についてのベクトルとを用いて、各文書131と検索文との類似度を計算する。ここでは、類似度計算部115は、ストレージ13に記憶された複数の文書131それぞれを対象の文書131に設定する。類似度計算部115は、対象の文書131についてのベクトルと、検索文についてのベクトルとのコサイン類似度を、対象の文書131と検索文との間の類似度として計算する。
(ステップS23:グループ特定処理)
グループ特定部116は、複数の文書131に含まれる単語を分類した複数のグループのうち、検索文が関連するグループを特定する。
具体的には、グループ特定部116は、検索文をベクトル化する。なお、グループ特定部116は、ステップS22で生成された検索文についてのベクトルを使用してもよい。そして、グループ特定部116は、モデル133を用いて、検索文をグループに分類することにより、検索文が関連するグループを特定する。
モデル133によって、検索文に関連するグループとして複数のグループが特定される場合がある。この場合には、グループ特定部116は、最も関連する度合が強いグループを関連グループとして特定する。又は、グループ特定部116は、複数のグループそれぞれについて検索文が関連する度合を示す所属割合を特定し、所属割合が基準値以上のグループを関連グループとして特定してもよい。例えば、モデル133によって、複数のグループそれぞれについて検索文が関連する確信度が計算される場合がある。グループ特定部116は、この確信度を所属割合とすることができる。
(ステップS24:評価値計算処理)
評価値計算部117は、評価パラメータ135を参照して、複数の文書131それぞれに対する評価値を計算する。評価パラメータ135は、図9に示すように、文書131毎及びグループ毎に値が設定される。評価値計算部117は、評価パラメータ135のうち、ステップS23で特定された関連グループに対する評価パラメータ135の値に基づき、複数の文書131それぞれに対する評価値を計算する。
具体的には、評価値計算部117は、複数の文書131それぞれを文書jに設定する。そして、評価値計算部117は、式1により、文書jに対する評価値E(j)を計算する。ここで、P(k,j)は、文書j及びグループ番号kのグループに対応する評価パラメータ135の値である。B(k)は、検索文のグループ番号kのグループへの所属割合である。ステップS23で最も関連する度合が強いグループが特定された場合には、そのグループへの所属割合は1になる。ここでは、k=1,...,Kのグループ番号のグループが検索文に関連グループとして特定されているとする。ここでは、評価値計算部117は、評価値E(j)とともに、グループ毎の評価値(k,j)を計算する。
*式1*
E(j)=Σk=1 (k,j)×B(k)
E(k,j)=P(k,j)×B(k)
(ステップS25:評価信頼度計算処理)
評価信頼度計算部118は、関連グループに関連する検索文による検索結果が示された際に行われた操作から、関連グループの評価値の信頼度である評価信頼度を計算する。
具体的には、評価信頼度計算部118は、操作信頼度が第1閾値よりも高い操作ログ132を抽出する。評価信頼度計算部118は、抽出された操作ログ132に含まれる検索結果のうち、関連グループに関連する検索文による検索が行われた検索結果である関連検索結果の数を検索総数として特定する。また、評価信頼度計算部118は、関連検索結果について操作が行われた回数である操作総数を特定する。ある操作ログ132についての操作が行われた回数は、操作の内容に有が付された数である。例えば、図4の1行目のレコードが示す操作ログ132であれば、役立つと閲覧とに有が付されているので、操作が行われた回数は2になる。
正確には、評価信頼度計算部118は、式2により、検索総数fを計算する。また、評価信頼度計算部118は、式3により、操作総数sを計算する。ここで、f(k)は、グループ番号kに関連する検索文により検索された回数である。s(k)は、グループ番号kに関連する検索文による関連検索結果に含まれる文書の操作が行われた回数である。B(k)は、検索文のグループ番号kのグループへの所属割合である。
*式2*
f=Σk=1 f(k)×B(k)
*式3*
s=Σk=1 s(k)×B(k)
そして、評価信頼度計算部118は、検索総数と操作総数とから、関連グループの評価値の信頼度である評価信頼度を計算する。具体例としては、評価信頼度計算部118は、式4により、評価信頼度tを計算する。
*式4*
t=s/f
なお、ここでは、評価信頼度計算部118は、グループ毎に評価信頼度を計算した。しかし、評価信頼度計算部118は、全てのグループに共通した評価信頼度を計算してもよい。この場合には、評価信頼度計算部118は、操作信頼度が第1閾値よりも高い操作ログ132に含まれる検索結果のうち、全ての検索文による検索が行われた検索結果の数を検索総数として特定する。また、評価信頼度計算部118は、全ての検索結果について操作が行われた回数を操作総数として特定する。
(ステップS26:重要度計算処理)
重要度計算部119は、複数の文書131それぞれについて、ステップS22で計算された検索文との類似度と、ステップS24で計算された評価値とから重要度を計算する。
この際、重要度計算部119は、類似係数Wskと、ステップS25で計算された評価信頼度とから類似度に対する重みである類似重みW(t)を計算する。また、重要度計算部119は、評価係数Wekと、ステップS25で計算された評価信頼度とから評価値に対する重みである評価重みW(t)を計算する。類似係数Wsk及び評価係数Wekは、図5のステップS13で設定された重要度パラメータ134に含まれる値である。重要度計算部119は、評価信頼度が高いほど、評価値が重視されるように類似重みW(t)及び評価重みW(t)を計算する。
具体的には、重要度計算部119は、式5により、類似重みW(t)を計算する。また、重要度計算部119は、式6により、評価重みW(t)を計算する。ここで、tは、グループ番号kのグループについての評価信頼度である。Lは、図5のステップS13で設定された重要度パラメータ134に含まれる値である。
*式5*
≧Lのとき、W(t)=Wsk
<Lのとき、W(t)=(L-t)Wsk
*式6*
(t)=tek
そして、重要度計算部119は、複数の文書131それぞれについて、類似度に類似重みW(t)を加味した値と評価値に評価重みW(t)を加味した値とから重要度を計算する。
具体的には、重要度計算部119は、複数の文書131それぞれを文書jに設定する。そして、重要度計算部119は、文書jについて、式7により、重要度I(k,j)を計算する。重要度I(k,j)は、グループ番号kのグループに関連する検索文によって検索された文書jの重要度である。S(j)は、文書jの類似度である。E(k,j)は、文書jのグループkについての評価値である。
*式7*
I(k,j)=S(j)×W(t)+E(k,j)×W(t
重要度計算部119は、各グループの所属割合を用いて、重要度I(k,j)から文書jの重要度I(j)を計算する。具体的には、重要度計算部119は、式8により、重要度I(j)を計算する。
*式8*
I(j)=Σk=1 I(k,j)×B(k)
(ステップS27:順位計算処理)
順位計算部120は、類似度と評価値とに基づき、複数の文書131についての検索順位を計算する。ここでは、順位計算部120は、ステップS26で計算された各文書131の重要度の高い順に、各文書131についての検索順位を決定する。
そして、順位計算部120は、伝送路30を介して、各文書131を示す情報と、各文書131の検索順位とを示す検索結果を検索クライアント20に送信する。例えば、順位計算部120は、検索順位が高い文書131を示す情報ほど上位になるように各文書131を示す情報を並べて、検索結果を生成する。順位計算部120は、検索順位が上位の一部の文書131だけを示す検索結果を生成してもよい。
(ステップS28:結果表示処理)
結果表示部212は、ステップS27で送信された検索結果を表示装置に表示する。
(ステップS29:操作取得処理)
操作取得部213は、ステップS28で表示された検索結果に対する操作を示す操作情報を取得する。そして、操作取得部213は、伝送路30を介して、操作情報を検索クライアント20に送信する。
(ステップS30:ログ記録処理)
ログ記録部121は、ステップS29で送信された操作情報に基づき、操作ログ132をストレージ13に書き込む。ここで、ログ記録部121は、ステップS27で送信された検索結果について、その検索結果に表示された文書131毎に1つのレコードを操作ログ132として書き込む。
<操作信頼度計算処理の説明>
操作信頼度計算処理(図5のステップS12)について説明する。
操作信頼度計算部112は、以下の(1)から(5)の信頼度のうち少なくともいずれかを用いて、操作ログiについての操作信頼度を計算する。iは、操作ログ132を識別するための添え字である。つまり、操作ログiはi番目の操作ログ132を表す。操作信頼度計算部112は、2つ以上の信頼度を用いる場合には、各信頼度を乗算する、又は、重み付け加算するといった方法により、操作信頼度を計算する。
(1)閲覧時間による信頼度time
操作信頼度計算部112は、操作ログiにおける文書jの閲覧時間viewと文書jの記載量amountとを用いて、閲覧時間による信頼度timeを計算する。文書の記載量としては、文字数と、文字の密度と、表及び図の大きさと等がある。文字の密度は、1ページ当たりの文字数である。閲覧時間による信頼度timeを用いる場合には、閲覧時間viewが操作ログ132に含めて記録されるものとする。
具体的には、操作信頼度計算部112は、式8により、操作ログiの閲覧時間による信頼度timeを計算する。
*式8*
time=view/amount
操作信頼度計算部112は、文書jの記載量amountが任意の値xよりも小さい場合は、閲覧時間に関係なく閲覧時間による信頼度timeを高くする。例えば、文書の記載量amountを1以下の値に補正して式8により閲覧時間による信頼度timeを計算する。文書の記載量が各文書131を通してあまり変わらない場合、閲覧時間viewのみを用いて閲覧時間による信頼度timeを計算してもよい。例えば、操作信頼度計算部112は、time=viewにより、閲覧時間による信頼度timeを計算する。閲覧時間が各文書131を通してあまり変わらない、又は、閲覧時間が取得できない場合、文書jの記載量amountのみを用いて閲覧時間による信頼度timeを計算しても良い。例えば、操作信頼度計算部112は、time=1/amountにより、閲覧時間による信頼度timeを計算する。
後述する利用者の習熟度expertが高い場合、文書131の内容を読み込まなくても要求に合致する文書かどうか判定できる可能性がある。そのため、操作信頼度計算部112は、式8について閲覧時間に関係なく閲覧時間の信頼度timeを高くする。例えば、文書の記載量amountを1以下の値に補正して式8により閲覧時間による信頼度timeを計算する。
(2)ログ項目による信頼度
操作信頼度計算部112は、操作ログiに記載されているいずれかの項目を用いて、ログ項目による信頼度operationを計算する。操作ログiに記載されている項目とは、操作ログ132における操作内容を示す項目である。例えば、項目には、文書131のクリックがされたか否かの項目と、検索された文書131が役に立つことの表明がされたか否かの項目と、検索された文書131が役に立たないことの表明がされたか否かの項目と等がある。
具体的には、操作信頼度計算部112は、式9により、ログ項目による信頼度operationを計算する。式9において、F_clickは、文書131のクリックがされた場合に1、参照されていない場合に0をとる。F_goodは、役に立つことの表明がされた場合に1、表明されていない場合に0をとる。F_badは、役に立たないことの表明がされた場合に1、表明されていない場合に0をとる。また、b,c,dは事前に設定される任意の値である。
*式9*
operation=b×F_click+c×F_good+d×F_bad
(3)ログ取得日時による信頼度
操作信頼度計算部112は、利用者の検索日時now_dateと、操作ログiに記載されている検索日時log_dateとの差分から、ログ取得日時による信頼度dateを計算する。利用者の検索日時は、現在日時である。利用者の検索日時に代えて、指定した任意の日時をnow_dateとしてもよい。
具体的には、操作信頼度計算部112は、式10により、ログ取得日時による信頼度dateを計算する。
*式10*
date=now_date-log_date
(4)利用者の習熟度による信頼度
操作信頼度計算部112は、操作ログiにおける利用者uの習熟度から利用者の習熟度による信頼度expertを計算する。操作信頼度計算部112は、利用者uの習熟度を、経験年数experienceと、検索総数countのいずれかを用いて計算する。経験年数experience及び検索総数countは、ストレージ13に記憶されているものとする。経験年数に代えて役職に応じた値をexperienceとしてもよい。検索総数に代えて、操作ログiに記載されている操作ログについてのグループの検索総数をcountとしてもよい。
具体的には、操作信頼度計算部112は、式11により、利用者の習熟度による信頼度expertを計算する。式11において、e,fは事前に設定される任意の値である。
*式11*
expert=e×experience+f×count
(5)検索順位による信頼度
操作信頼度計算部112は、操作ログiに記載されている文書jの検索順位log_rankを用いて、検索順位による信頼度rankを計算する。
具体的には、操作信頼度計算部112は、式12により、検索順位による信頼度rankを計算する
*式12*
rank=1/log_rank
<重要度パラメータ計算処理の説明>
重要度パラメータ計算処理(図5のステップS13)について説明する。
重要度パラメータ計算部113は、操作信頼度と操作ログ132とを用いて、シミュレーションを行い、重要度パラメータ134を設定する。
重要度パラメータ134には、基準値Lと、グループ毎の類似係数Wsk及び評価係数Wekとが含まれる。ここでは、基準値Lは固定値とする。したがって、重要度パラメータ計算部113は、グループ毎に類似係数Wsk及び評価係数Wekを設定する。
図10を参照して具体的に説明する。
(ステップS131:ペア設定処理)
重要度パラメータ計算部113は、検索文と正解文書のペアを設定する。正解文書は、検索文により検索されるべき文書131である。つまり、正解文書は、検索文に関して、利用者の要求に合致する文書131である。
具体的には、重要度パラメータ計算部113は、操作信頼度が第2閾値よりも高い操作ログ132における検索文と文書131とのペアを、検索文と正解文書のペアとして設定する。第2閾値は事前に定められた値であり、ある程度の信頼がおける操作ログ132を示す値である。あるいは、重要度パラメータ計算部113は、利用者又は設計者等によって入力された検索文と正解文書のペアを受け付け、設定してもよい。
(ステップS132:係数値設定処理)
重要度パラメータ計算部113は、グループ毎に類似係数Wsk及び評価係数Wekの値を設定する。例えば、重要度パラメータ計算部113は、各グループの類似係数Wsk及び評価係数Wekに全て同じ値に設定する。具体例としては、各グループの類似係数Wsk及び評価係数Wekに0.5を設定する。なお、重要度パラメータ計算部113は、各グループの類似係数Wsk及び評価係数Wekに同じ値を設定する必要はなく、任意の値を設定すればよい。
重要度パラメータ計算部113は、ステップS133からステップS135の処理を、基準回数だけ繰り返し実行する。基準回数は、事前に設定された値である。
(ステップS133:ペア選択処理)
重要度パラメータ計算部113は、ステップS131で設定されたペアからランダムに対象のペアを選択する。
(ステップS134:ログ抽出処理)
重要度パラメータ計算部113は、ステップS133で選択された対象のペアにおける検索文により文書検索処理を行った場合の操作ログ132を抽出する。重要度パラメータ計算部113は、抽出された操作ログ132から、正解文書についての操作ログ132を抽出する。
(ステップS135:パラメータ更新処理)
重要度パラメータ計算部113は、ステップS134で抽出された操作ログ132に基づき、評価パラメータの値を更新する。ここでは、重要度パラメータ計算部113は、ステップS133で選択された対象のペアにおける検索文の関連グループについての評価パラメータの値を更新する。
具体的には、図11に示すように、重要度パラメータ計算部113は、操作ログ132の項目に応じた加算点を設定しておく。図11では、文書131のクリックの有無と、文書131が役に立つことの表明の有無との組合せに応じて、評価パラメータの値の加算点が設定されている。重要度パラメータ計算部113は、ステップS134で抽出された操作ログ132における、文書131のクリックの有無と、文書131が役に立つことの表明の有無とを特定する。重要度パラメータ計算部113は、特定された文書131のクリックの有無と、文書131が役に立つことの表明の有無との組合せに対応する加算点を特定する。そして、重要度パラメータ計算部113は、特定された加算点を評価パラメータの値に加算する。
図12を参照して具体例を説明する。
(A)に示すように、対象のペアは検索文“特許”と正解文書“B”とである。(B)に示すように、ステップS134では、正解文書“B”の操作ログ132である検索順位“2”の操作ログ132が抽出される。したがって、文書131のクリックの無と文書131が役に立つことの表明の有との組合せとなる。図11において、この組合せの場合には、評価パラメータPeの値の加算点は0.2である。ここで、検索文“特許”は、グループ1であるとする。したがって、(C)に示すように、グループ1の評価パラメータPeの値に0.2が加算される。
より正確には、重要度パラメータ計算部113は、所属割合を考慮して、各関連グループについて、更新後の評価パラメータの値を計算する。具体的には、重要度パラメータ計算部113は、式13により、更新後の評価パラメータの値P(k,j)を計算する。ここで、P(k,j)は、文書j及びグループ番号kのグループに対応する評価パラメータ135の値である。P(k,j)’は更新前の評価パラメータの値である。S(i)は、組合せiについての評価パラメータの加算点である。B(k)は、検索文のグループ番号kのグループへの所属割合である。
*式13*
(k,j)=P(k,j)’+S(i)×B(k)
なお、加算点は、操作ログ132における他の項目を用いた組合せに対して設定されていてもよい。例えば、加算点は、役に立たないことの表明を用いた組合せに対して設定されていてもよい。
加算点の値は、利用者又は設計者によって任意に設定される。また、加算点の値は、コンテキストバンディットのアルゴリズム等を用いて設定されてもよい。加算点の値は、抽出された操作ログ132における利用者の習熟度と、操作ログ132の取得日時と、正解文書の検索順位との少なくともいずれかに応じて変動させてもよい。
操作ログ132の取得日時に応じて加算点の値を変動させる場合には、抽出された操作ログ132の取得日時と、最新の操作ログ132の取得日時との差分により、加算点の値を変動させることが考えられる。
(ステップS136:最適化判定処理)
重要度パラメータ計算部113は、各グループについての類似係数Wsk及び評価係数Wekが最適化されたか否かを判定する。重要度パラメータ計算部113は、最適化されたと判定した場合には処理を終了する。一方、重要度パラメータ計算部113は、最適化されていないと判定した場合には処理をステップS132に戻す。この場合、S132に戻り、類似係数Wsk及び評価係数Wekを別の値に設定し直す。この時、プログラムのfor文などを用いて、係数をaずつ変更しても良い。aの値は任意に設定する。
重要度パラメータ計算部113は、検索精度の品質に基づき、各グループについての類似係数Wsk及び評価係数Wekが最適化されたか否かを判定する。例えば、重要度パラメータ計算部113は、検索精度の品質が、向上したか、又は、任意の精度以上になったかにより、最適化されたか否かを判定する。検索精度の品質としては、平均逆順位と、中央値と、正解文書が上位に出現する割合といった指標がある。どの指標を用いるかは文書検索システム100の意図に応じて任意に選択される。
<評価パラメータ計算処理の説明>
評価パラメータ計算処理(図5のステップS14)について説明する。
評価パラメータ計算部114は、複数の文書131それぞれを対象の文書に設定し、複数のグループそれぞれを対象のグループに設定する。評価パラメータ計算部114は、対象のグループに関連する検索文による検索結果として示された対象の文書131に対して行われた操作に基づき、対象の文書131及び対象のグループに対する評価パラメータの値を設定する。
具体的には、評価パラメータ計算部114は、操作ログ132から操作信頼度が第3閾値よりも高い操作ログ132を抽出する。第3閾値は事前に定められた値であり、ある程度の信頼がおける操作ログ132を示す値である。評価パラメータ計算部114は、抽出された各操作ログ132を対象の操作ログ132として、対象の操作ログ132に基づき、評価パラメータ135の値を更新する。ここでは、評価パラメータ計算部114は、対象の操作ログ132における操作対象の文書131と、対象の操作ログ132における検索文のグループについての評価パラメータ135の値を更新する。なお、評価パラメータ135には、初期状態では任意の値が設定されているとする。
図11を参照して具体例を説明する。
図11に示すように、評価パラメータ計算部114は、操作ログ132の項目に応じた加算点を設定しておく。図11では、文書131のクリックの有無と、文書131が役に立つことの表明の有無との組合せに応じて、加算点が設定されている。評価パラメータ計算部114は、対象の操作ログ132における、文書131のクリックの有無と、文書131が役に立つことの表明の有無とを特定する。評価パラメータ計算部114は、特定された文書131のクリックの有無と、文書131が役に立つことの表明の有無との組合せに対応する加算点を特定する。そして、評価パラメータ計算部114は、特定された加算点を評価パラメータ135の値に加算する。
より正確には、評価パラメータ計算部114は、所属割合を考慮して、評価パラメータ135の値を計算する。具体的には、評価パラメータ計算部114は、式14により、評価パラメータ135の値P(k,j)を計算する。ここで、P(k,j)は、文書j及びグループ番号kのグループに対応する評価パラメータ135の値である。P(k,j)’は、更新前の評価パラメータ135の値である。S(i)は、組合せiについての評価パラメータの加算点である。B(k)は、検索文のグループ番号kのグループへの所属割合である。
*式14*
(k,j)=P(k,j)’+S(i)×B(k)
図13を参照して具体例を説明する。
(A)に示すように、対象の操作ログ132は、文書“C”であるとする。そのため、文書131のクリックの無、文書131が役に立つことの表明の無である。また、検索文のグループは1であるとする。図11において、この組合せの場合には、加算点は-0.1である。したがって、(B)に示すように、文書A及びグループ1の評価パラメータ135の値に-0.1が加算される。
なお、加算点は、操作ログ132における他の項目を用いた組合せに対して設定されていてもよい。例えば、加算点は、役に立たないことの表明を用いた組合せに対して設定されていてもよい。
加算点の値は、利用者又は設計者によって任意に設定される。また、加算点の値は、コンテキストバンディットのアルゴリズム等を用いて設定されてもよい。加算点の値は、抽出された操作ログ132における利用者の習熟度と、操作ログ132の取得日時と、正解文書の検索順位との少なくともいずれかに応じて変動させてもよい。
操作ログ132の取得日時に応じて加算点の値を変動させる場合には、抽出された操作ログ132の取得日時と、最新の操作ログ132の取得日時との差分により、加算点の値を変動させることが考えられる。
***実施の形態1の効果***
以上のように、実施の形態1に係る文書検索装置10は、検索文に関連するグループについての操作ログ132から計算された評価パラメータ135から複数の文書131それぞれに対する評価値を計算する。これにより、適切な操作ログ132を用いて評価値が計算され易い。文書検索装置10が稼働し始めた初期段階といった、操作ログ132が十分に蓄積されていない状況であっても、適切な評価値が計算され易い。
そして、実施の形態1に係る文書検索装置10は、評価値に基づき、複数の文書131についての検索順位を計算する。そのため、操作ログ132が十分に蓄積されていない状況であっても、利用者の要求に合致する文書を上位に表示可能である。
実施の形態1に係る文書検索装置10は、操作ログ132の操作信頼度を考慮して評価パラメータ135を計算する。これにより、誤った操作に基づき得られた操作ログ132に比べ、正しい操作に基づき得られた操作ログ132を重視して評価パラメータ135を計算可能である。したがって、評価パラメータ135を適切に計算可能である。
評価値は、評価パラメータ135から計算される。そのため、適切な評価値が計算され易い。
実施の形態1に係る文書検索装置10は、検索文に関連するグループについての操作ログ132から評価信頼度を計算する。そして、実施の形態1に係る文書検索装置10は、評価信頼度に基づき、類似重みと評価重みとを計算し、類似度と評価値とを考慮する割合を決定する。具体的には、検索文に関連するグループについての操作ログ132の信頼度が高い場合には、評価値を重視するように制御される。一方、検索文に関連するグループについての操作ログ132の信頼度が低い場合には、類似度を重視するように制御される。これにより、適切な検索順位を計算可能である。
実施の形態1に係る文書検索装置10は、前処理を繰り返し行うことにより、類似重みと評価重みとを計算するための重要度パラメータ134と、評価パラメータ135と等を計算し直す。これにより、時間経過とともに変化する利用者の要求に合わせて適切な検索順位を計算することが可能である。
***他の構成***
<変形例1>
実施の形態1では、評価信頼度計算部118は、検索総数と操作総数とから評価信頼度を計算した。これに代えて、評価信頼度計算部118は、信頼度が第1閾値よりも高い操作ログ132の操作信頼度の和を評価信頼度として計算してもよい。あるいは、評価信頼度計算部118は、検索総数と操作総数と信頼度が第1閾値よりも高い操作ログ132の操作信頼度の和とから評価信頼度を計算してもよい。
<変形例2>
評価信頼度計算部118は、複数の文書131それぞれについて、文書信頼度を計算してもよい。評価信頼度計算部118は、評価信頼度と同様の方法により文書信頼度を計算する。
具体的には、評価信頼度計算部118は、信頼度が第1閾値よりも高い操作ログ132を抽出する。評価信頼度計算部118は、抽出された操作ログ132に含まれる検索結果のうち、関連グループに関連する検索文による検索が行われた検索結果である関連検索結果の数を検索総数として特定する。評価信頼度計算部118は、複数の文書131それぞれを対象の文書131に設定する。評価信頼度計算部118は、関連検索結果において対象の文書131ついて操作が行われた回数である操作総数を特定する。そして、評価信頼度計算部118は、評価信頼度と同様に、検索総数と、対象の文書131についての操作総数とから、対象の文書131についての文書信頼度を計算する。
順位計算部120は、文書信頼度により、検索結果として表示する文書131を絞り込んでもよい。例えば、順位計算部120は、文書信頼度が基準よりも高い文書131だけを検索結果に含めることが考えられる。また、順位計算部120は、文書信頼度に応じて、文書131を示す情報の表示態様を変更してもよい。
これにより、検索結果から適切な文書131を利用者が容易に発見することができるようになる。
<変形例3>
実施の形態1では、各機能構成要素がソフトウェアで実現された。しかし、変形例3として、各機能構成要素はハードウェアで実現されてもよい。この変形例3について、実施の形態1と異なる点を説明する。
図14を参照して、変形例3に係る文書検索装置10の構成を説明する。
各機能構成要素がハードウェアで実現される場合には、文書検索装置10は、プロセッサ11とメモリ12とストレージ13とに代えて、電子回路15を備える。電子回路15は、各機能構成要素と、メモリ12と、ストレージ13との機能とを実現する専用の回路である。
図15を参照して、変形例3に係る検索クライアント20の構成を説明する。
各機能構成要素がハードウェアで実現される場合には、検索クライアント20は、プロセッサ21とメモリ22とストレージ23とに代えて、電子回路26を備える。電子回路26は、各機能構成要素と、メモリ22と、ストレージ23との機能とを実現する専用の回路である。
電子回路15,26としては、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ロジックIC、GA、ASIC、FPGAが想定される。GAは、Gate Arrayの略である。ASICは、Application Specific Integrated Circuitの略である。FPGAは、Field-Programmable Gate Arrayの略である。
各機能構成要素を1つの電子回路15,26で実現してもよいし、各機能構成要素を複数の電子回路15,26に分散させて実現してもよい。
<変形例4>
変形例4として、一部の各機能構成要素がハードウェアで実現され、他の各機能構成要素がソフトウェアで実現されてもよい。
プロセッサ11とメモリ12とストレージ13と電子回路15とを処理回路という。つまり、各機能構成要素の機能は、処理回路により実現される。
また、以上の説明における「部」を、「回路」、「工程」、「手順」、「処理」又は「処理回路」に読み替えてもよい。
以上、本開示の実施の形態及び変形例について説明した。これらの実施の形態及び変形例のうち、いくつかを組み合わせて実施してもよい。また、いずれか1つ又はいくつかを部分的に実施してもよい。なお、本開示は、以上の実施の形態及び変形例に限定されるものではなく、必要に応じて種々の変更が可能である。
100 文書検索システム、10 文書検索装置、11 プロセッサ、12 メモリ、13 ストレージ、14 通信インタフェース、15 電子回路、111 モデル計算部、112 操作信頼度計算部、113 重要度パラメータ計算部、114 評価パラメータ計算部、115 類似度計算部、116 グループ特定部、117 評価値計算部、118 評価信頼度計算部、119 重要度計算部、120 順位計算部、121 ログ記録部、131 文書、132 操作ログ、133 モデル、134 重要度パラメータ、135 評価パラメータ、20 検索クライアント、21 プロセッサ、22 メモリ、23 ストレージ、24 通信インタフェース、25 電子回路、211 検索文受付部、212 結果表示部、213 操作取得部、30 伝送路、41 入力装置、42 出力装置。

Claims (14)

  1. 検索対象の複数の文書に含まれる単語を分類した複数のグループのうち、検索文が関連するグループを関連グループとして特定するグループ特定部と、
    前記複数の文書それぞれを対象の文書とし、前記複数のグループそれぞれを対象のグループとして、前記対象の文書及び前記対象のグループに対して設定された評価パラメータであって、前記対象のグループに関連する検索文による検索結果として示された前記対象の文書に対して行われた操作に基づき設定された評価パラメータのうち、前記グループ特定部によって特定された前記関連グループに対する評価パラメータに基づき、前記複数の文書それぞれに対する評価値を計算する評価値計算部と、
    前記評価値計算部によって計算された前記評価値に基づき、前記複数の文書についての検索順位を計算する順位計算部と
    を備える文書検索装置。
  2. 前記文書検索装置は、さらに、
    前記複数の文書それぞれについて、前記検索文との類似度と、前記評価値とから重要度を計算する重要度計算部
    を備え、
    前記順位計算部は、前記重要度計算部によって計算された前記重要度に基づき、前記複数の文書についての検索順位を計算する
    請求項1に記載の文書検索装置。
  3. 前記文書検索装置は、さらに、
    前記関連グループに関連する検索文による検索結果である関連検索結果が示された際に行われた操作から、前記関連グループの評価値の信頼度である評価信頼度を計算する評価信頼度計算部
    を備え、
    前記重要度計算部は、前記評価信頼度計算部によって計算された前記評価信頼度から前記評価値に対する重みである評価重みを計算して、前記類似度と前記評価値に前記評価重みを加味した値とから前記重要度を計算する
    請求項2に記載の文書検索装置。
  4. 前記重要度計算部は、前記評価信頼度から前記類似度に対する重みである類似重みを計算して、前記類似度に前記類似重みを加味した値と前記評価値に前記評価重みを加味した値とから前記重要度を計算する
    請求項3に記載の文書検索装置。
  5. 前記重要度計算部は、前記評価信頼度が高いほど、前記評価値が重視されるように前記類似重み及び前記評価重みを計算する
    請求項4に記載の文書検索装置。
  6. 前記評価信頼度計算部は、前記関連グループに関連する検索文による検索が行われた回数に対する、前記関連検索結果について操作が行われた回数から、前記評価信頼度を計算する
    請求項3から5までのいずれか1項に記載の文書検索装置。
  7. 前記文書検索装置は、さらに、
    前記対象のグループに関連する検索文による検索結果として示された前記対象の文書に対して行われた操作の信頼度である操作信頼度を加味して前記対象の文書及び前記対象のグループに対する前記評価パラメータを計算する評価パラメータ計算部
    を備え、
    前記評価値計算部は、前記評価パラメータ計算部によって計算された前記評価パラメータに基づき前記評価値を計算する
    請求項1から6までのいずれか1項に記載の文書検索装置。
  8. 前記評価パラメータ計算部は、前記操作信頼度が基準値以上の操作のみに基づき前記評価パラメータを計算する
    請求項7に記載の文書検索装置。
  9. 前記文書検索装置は、さらに、
    前記対象の文書の閲覧時間と、前記操作の内容と、前記操作が行われた日時と、前記操作を行った利用者の習熟度と、前記対象の文書の検索順位との少なくともいずれかに基づき、前記操作信頼度を計算する操作信頼度計算部
    を備え、
    前記評価パラメータ計算部は、前記操作信頼度計算部によって計算された前記操作信頼度を加味して前記評価パラメータを計算する
    請求項7又は8に記載の文書検索装置。
  10. 前記評価値計算部は、検索された文書が役に立つことの表明を前記操作として、前記評価値を計算する
    請求項1から9までのいずれか1項に記載の文書検索装置。
  11. 前記複数の文書に含まれる単語は、類似する意味の単語が同一のグループになるように前記複数のグループに分類され、
    前記グループ特定部は、前記検索文が最も関連するグループを前記関連グループとして特定する
    請求項1から10までのいずれか1項に記載の文書検索装置。
  12. 前記複数の文書に含まれる単語は、類似する意味の単語が同一のグループになるように前記複数のグループに分類され、
    前記グループ特定部は、各グループに前記検索文が関連する度合を示す所属割合が基準値以上のグループを前記関連グループとして特定する
    請求項1から10までのいずれか1項に記載の文書検索装置。
  13. コンピュータが、検索対象の複数の文書に含まれる単語を分類した複数のグループのうち、検索文が関連するグループを関連グループとして特定し、
    コンピュータが、前記複数の文書それぞれを対象の文書とし、前記複数のグループそれぞれを対象のグループとして、前記対象の文書及び前記対象のグループに対して設定された評価パラメータであって、前記対象のグループに関連する検索文による検索結果として示された前記対象の文書に対して行われた操作に基づき設定された評価パラメータのうち、前記関連グループに対する評価パラメータに基づき、前記複数の文書それぞれに対する評価値を計算し、
    コンピュータが、前記評価値に基づき、前記複数の文書についての検索順位を計算する文書検索方法。
  14. 検索対象の複数の文書に含まれる単語を分類した複数のグループのうち、検索文が関連するグループを関連グループとして特定するグループ特定処理と、
    前記複数の文書それぞれを対象の文書とし、前記複数のグループそれぞれを対象のグループとして、前記対象の文書及び前記対象のグループに対して設定された評価パラメータであって、前記対象のグループに関連する検索文による検索結果として示された前記対象の文書に対して行われた操作に基づき設定された評価パラメータのうち、前記グループ特定処理によって特定された前記関連グループに対する評価パラメータに基づき、前記複数の文書それぞれに対する評価値を計算する評価値計算処理と、
    前記評価値計算処理によって計算された前記評価値に基づき、前記複数の文書についての検索順位を計算する順位計算処理と
    を行う文書検索装置としてコンピュータを機能させる文書検索プログラム。
JP2023544755A 2021-11-18 2021-11-18 文書検索装置、文書検索方法及び文書検索プログラム Active JP7357830B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/042398 WO2023089729A1 (ja) 2021-11-18 2021-11-18 文書検索装置、文書検索方法及び文書検索プログラム

Publications (2)

Publication Number Publication Date
JPWO2023089729A1 JPWO2023089729A1 (ja) 2023-05-25
JP7357830B1 true JP7357830B1 (ja) 2023-10-06

Family

ID=86396428

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023544755A Active JP7357830B1 (ja) 2021-11-18 2021-11-18 文書検索装置、文書検索方法及び文書検索プログラム

Country Status (2)

Country Link
JP (1) JP7357830B1 (ja)
WO (1) WO2023089729A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008282322A (ja) 2007-05-14 2008-11-20 Sony Ericsson Mobilecommunications Japan Inc 情報処理装置及び情報処理方法
JP2012221431A (ja) 2011-04-13 2012-11-12 Nippon Telegr & Teleph Corp <Ntt> 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム
JP2014123286A (ja) 2012-12-21 2014-07-03 Fuji Xerox Co Ltd 文書分類装置及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008282322A (ja) 2007-05-14 2008-11-20 Sony Ericsson Mobilecommunications Japan Inc 情報処理装置及び情報処理方法
JP2012221431A (ja) 2011-04-13 2012-11-12 Nippon Telegr & Teleph Corp <Ntt> 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム
JP2014123286A (ja) 2012-12-21 2014-07-03 Fuji Xerox Co Ltd 文書分類装置及びプログラム

Also Published As

Publication number Publication date
JPWO2023089729A1 (ja) 2023-05-25
WO2023089729A1 (ja) 2023-05-25

Similar Documents

Publication Publication Date Title
US8918348B2 (en) Web-scale entity relationship extraction
US7769771B2 (en) Searching a document using relevance feedback
US9053115B1 (en) Query image search
US8380719B2 (en) Semantic content searching
JP3882048B2 (ja) 質問応答システムおよび質問応答処理方法
JP6299596B2 (ja) クエリ類似度評価システム、評価方法、及びプログラム
WO2017201647A1 (en) Relevant passage retrieval system
KR20060045720A (ko) 태스크에 대한 쿼리 매핑을 위한 방법 및 시스템
Li et al. Knowledge verification for long-tail verticals
CN110008309B (zh) 一种短语挖掘方法及装置
US20160357857A1 (en) Apparatus, system and method for string disambiguation and entity ranking
JP2004213626A (ja) 情報の格納及び検索
JP4819628B2 (ja) ドキュメントデータを検索する方法、サーバ、およびプログラム
JP7357830B1 (ja) 文書検索装置、文書検索方法及び文書検索プログラム
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN107784112A (zh) 短文本数据增强方法、系统及检测认证服务平台
KR20120038418A (ko) 탐색 방법 및 디바이스
JP7203554B2 (ja) 情報処理装置
CN116484829A (zh) 用于信息处理的方法和设备
JP5310196B2 (ja) 分類体系改正支援プログラム、分類体系改正支援装置、および分類体系改正支援方法
US11954137B2 (en) Data generation device and data generation method
WO2015043389A1 (zh) 一种基于视频搜索的分词信息推送方法和装置
JP7384614B2 (ja) 文書検索装置、文書検索方法、及び、コンピュータプログラム
JP7477744B2 (ja) 情報処理装置、制御方法、プログラム
JP7464814B2 (ja) 情報処理装置、制御方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230725

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230829

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230926

R150 Certificate of patent or registration of utility model

Ref document number: 7357830

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150