JP7400408B2 - 検索根拠可視化システム、プログラム、および方法 - Google Patents

検索根拠可視化システム、プログラム、および方法 Download PDF

Info

Publication number
JP7400408B2
JP7400408B2 JP2019215838A JP2019215838A JP7400408B2 JP 7400408 B2 JP7400408 B2 JP 7400408B2 JP 2019215838 A JP2019215838 A JP 2019215838A JP 2019215838 A JP2019215838 A JP 2019215838A JP 7400408 B2 JP7400408 B2 JP 7400408B2
Authority
JP
Japan
Prior art keywords
search
term
unit
word
displayed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019215838A
Other languages
English (en)
Other versions
JP2021086461A (ja
Inventor
嘉偉 勇
聖彦 篠宮
克己 金崎
晋太郎 川村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2019215838A priority Critical patent/JP7400408B2/ja
Priority to CN202080082432.5A priority patent/CN114730319A/zh
Priority to EP20808520.9A priority patent/EP4066130A1/en
Priority to US17/760,888 priority patent/US11899702B2/en
Priority to PCT/IB2020/060594 priority patent/WO2021105810A1/en
Publication of JP2021086461A publication Critical patent/JP2021086461A/ja
Application granted granted Critical
Publication of JP7400408B2 publication Critical patent/JP7400408B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、検索根拠可視化システム、プログラム、および方法に関する。
従来、ユーザによって入力された自然文から抽出した検索語等に基づいて検索を実行し、その検索の結果に順位を付けることが知られている。
例えば、特許文献1では、検索条件に適合する度合いの指標となる文書の重要度を算出して、それらの文書を表示している。具体的には、2次元平面上において左上ならびに右下にプロットされる文書が、各々の検索条件に詳しい文書であるように表示される(特許文献1の明細書の段落[0145]、図32)。
しかしながら、特許文献1では、どちらの検索条件に詳しい文書であるかを表示しているに過ぎず、ユーザが検索の根拠をより理解できることが求められている。
そこで、本発明の一実施形態では、検索の根拠の可視化を向上することを目的とする。
上述した課題を解決するために、本発明の一実施形態は、検索語を取得する検索語取得部と、前記検索語に基づいて、検索を実行する全文検索部と、3つ以上の前記検索語と前記検索の結果との対応関係を表示する可視化部と、を備える。
本発明の一実施形態によれば、検索の根拠の可視化を向上することができる。
本発明の一実施形態に係る検索システムを含む全体の構成図である。 本発明の一実施形態に係る検索システムのハードウェア構成図である。 本発明の一実施形態に係る検索システムの機能ブロック図(実施例1)である。 本発明の一実施形態に係る検索システムの機能ブロック図(実施例2)である。 本発明の一実施形態に係る全文検索部の機能ブロック図である。 本発明の一実施形態に係る拡張語取得部の機能ブロック図である。 本発明の一実施形態に係る可視化部の機能ブロック図である。 本発明の一実施形態に係る検索対象のデータ構造情報の一例である。 本発明の一実施形態に係る検索文および検索結果のデータ構造情報の一例である。 本発明の一実施形態に係る検索語影響度のデータ構造情報の一例である。 本発明の一実施形態に係る検索処理のシーケンス図(実施例1)である。 本発明の一実施形態に係る検索処理のシーケンス図(実施例2)である。 本発明の一実施形態に係る検索処理のフローチャート(実施例1)である。 本発明の一実施形態に係る検索処理のフローチャート(実施例2)である。 本発明の一実施形態に係る入力画面の一例である。 本発明の一実施形態に係る検索結果一覧の画面の一例(実施例1)である。 本発明の一実施形態に係る検索結果一覧の画面の一例(実施例2)である。 本発明の一実施形態に係る検索結果の根拠可視化の画面の一例である。 本発明の一実施形態に係る検索語と検索結果の関係可視化の画面の一例である。 本発明の一実施形態に係る検索結果の根拠可視化の画面の一例である。 本発明の一実施形態に係る検索結果の根拠可視化の比較画面の一例である。
以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。
<システム構成>
図1は、本発明の一実施形態に係る検索システム10を含む全体の構成図である。図1に示されるように、検索システム10は、任意のネットワーク40を介して、入力装置20および出力装置30と通信可能に接続されている。以下、それぞれについて説明する。
検索システム10は、ユーザによって入力された自然文(以下、検索文ともいう)から検索語を抽出して検索を実行するシステムである。検索システム10は、検索の根拠を可視化する(つまり、出力装置30に表示する)ことができる。後段で、図3および図4を参照しながら、検索システム10について詳細に説明する。
入力装置20は、ユーザが検索文を入力するための装置である。例えば、入力装置20は、パーソナルコンピュータ、タブレット、スマートフォン等である。
出力装置30は、検索システム10が検索した結果を表示するための装置である。例えば、出力装置30は、パーソナルコンピュータ、タブレット、スマートフォン等である。
なお、図1では入力装置20と出力装置30とを別々の装置として説明したが、入力装置20と出力装置30とを1つの装置で実装するようにしてもよい。
なお、実施例に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの1つを示すものにすぎない。ある実施形態では、検索システム10は、サーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリ等を含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。
<ハードウェア構成>
図2は、本発明の一実施形態に係る検索システム10のハードウェア構成図である。
図2に示されているように、検索システム10は、コンピュータによって構築されており、図2に示されているように、CPU1001、ROM1002、RAM1003、HD1004、HDD(Hard Disk Drive)コントローラ1005、ディスプレイ1006、外部機器接続I/F(Interface)1007、ネットワークI/F1008、データバス1009、キーボード1010、ポインティングデバイス1011、DVD-RW(Digital Versatile Disk Rewritable)ドライブ1013、メディアI/F1015を備えている。
これらのうち、CPU1001は、検索システム10全体の動作を制御する。ROM1002は、IPL等のCPU1001の駆動に用いられるプログラムを記憶する。RAM1003は、CPU1001のワークエリアとして使用される。HD1004は、プログラム等の各種データを記憶する。HDDコントローラ1005は、CPU1001の制御にしたがってHD1004に対する各種データの読み出し又は書き込みを制御する。ディスプレイ1006は、カーソル、メニュー、ウィンドウ、文字、又は画像等の各種情報を表示する。外部機器接続I/F1007は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリやプリンタ等である。ネットワークI/F1008は、ネットワーク40を利用してデータ通信をするためのインターフェースである。バスライン1009は、図2に示されているCPU1001等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
また、キーボード1010は、文字、数値、各種指示等の入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス1011は、各種指示の選択や実行、処理対象の選択、カーソルの移動等を行う入力手段の一種である。DVD-RWドライブ1013は、着脱可能な記録媒体の一例としてのDVD-RW1012に対する各種データの読み出し又は書き込みを制御する。なお、DVD-RWに限らず、DVD-R等であってもよい。メディアI/F1015は、フラッシュメモリ等の記録メディア1014に対するデータの読み出し又は書き込み(記憶)を制御する。
<機能ブロック>
以下、検索システム10の機能ブロックを(実施例1)と(実施例2)とに分けて説明する。
(実施例1)
図3は、本発明の一実施形態に係る検索システム10の機能ブロック図(実施例1)である。図3に示されるように、検索システム10は、検索語取得部101、全文検索部102、検索結果取得部103、可視化部104、検索文修正部105を備えることができる。また、検索システム10は、プログラムを実行することによって、検索語取得部101、全文検索部102、検索結果取得部103、可視化部104、検索文修正部105として機能することができる。以下、それぞれについて説明する。
検索語取得部101は、検索のために用いられる検索語を取得する。具体的には、検索語取得部101は、入力装置20から、ユーザが入力した自然文(つまり、検索文)を受信する。また、検索語取得部101は、受信した検索文を単語に分割して、検索語を抽出する。また、検索語取得部101は、全文検索部102および可視化部104が参照できるように、検索語をメモリに記憶する。
なお、検索語取得部101は、ユーザが入力した検索語を入力装置20から受信することによって、検索語を取得する構成とすることもできる。
全文検索部102は、検索語に基づいて、検索を実行する。具体的には、全文検索部102は、検索語を用いて検索用のクエリを生成する。また、全文検索部102は、クエリに基づいて、検索対象となる文書を検索する。また、全文検索部102は、検索結果取得部103が参照できるように、検索した結果をメモリに記憶する。
検索結果取得部103は、全文検索部102が検索した結果を取得する。
可視化部104は、文書と検索語(例えば、3つ以上の検索語)との対応関係を可視化したグラフを作成して出力装置30へ送信する。
検索文修正部105は、検索用のクエリを修正して(例えば、検索語の変更、追加、削除の少なくとも1つを実施して)検索を実行する。
(実施例2)
図4は、本発明の一実施形態に係る検索システム10の機能ブロック図(実施例2)である。
上記の(実施例1)では、ユーザが入力した検索文から抽出した検索語(あるいは、ユーザが入力した検索語)に基づいて、検索が実行される。(実施例2)では、検索語(以下、元検索語ともいう)および元検索語から導出される用語(以下、拡張語ともいう)に基づいて、検索が実行される。なお、元検索語と拡張語とをあわせて、新たな検索語(以下、新検索語ともいう)とも呼ぶ。
拡張語は、ユーザが要求している文書を検索するための検索用のクエリに用いられる用語である。例えば、拡張語は、擬似適合フィードバック(PRF:pseudo relevance feedback)を用いた検索において、検索語による検索(以下、初期検索ともいう)により抽出された文書の中から抽出された用語である。なお、拡張語は、検索語の類義語、検索語の上位概念を示す用語、検索語の下位概念を示す用語、検索語と共起関係にある用語も含む。例えば、検索語が"複合機"の場合、類義語は"MFP"であり、上位概念を示す用語は"事務機器"であり、下位概念を示す用語は"レーザープリンター"であり、共起関係にある用語は"紙"、"コピー"、"詰まる"等である。
図4に示されるように、検索システム10は、検索語取得部111、全文検索部112、検索結果取得部113、可視化部114、検索文修正部115、拡張語取得部116を備えることができる。また、検索システム10は、プログラムを実行することによって、検索語取得部111、全文検索部112、検索結果取得部113、可視化部114、検索文修正部115、拡張語取得部116として機能することができる。以下、それぞれについて説明する。
検索語取得部111は、検索のために用いられる検索語を取得する。具体的には、検索語取得部111は、入力装置20から、ユーザが入力した自然文(つまり、検索文)を受信する。また、検索語取得部111は、受信した検索文を単語に分割して、検索語を抽出する。また、検索語取得部111は、全文検索部112および可視化部114が参照できるように、検索語をメモリに記憶する。
なお、検索語取得部111は、ユーザが入力した検索語を入力装置20から受信することによって、検索語を取得する構成とすることもできる。
拡張語取得部116は、拡張語を取得する。後段で、図6を参照しながら、拡張語取得部116について詳細に説明する。
全文検索部112は、新たな検索語(元検索語および拡張語)に基づいて、検索を実行する。具体的には、全文検索部112は、新たな検索語(元検索語および拡張語)を用いて検索用のクエリを生成する。また、全文検索部112は、クエリに基づいて、検索対象となる文書を検索する。また、全文検索部112は、検索結果取得部113が参照できるように、検索した結果をメモリに記憶する。後段で、図5を参照しながら、全文検索部112について詳細に説明する。
検索結果取得部113は、全文検索部112が検索した結果を取得する。
可視化部114は、文書と新たな検索語(例えば、3つ以上の新たな検索語(元検索語および拡張語))との対応関係を可視化したグラフを作成して出力装置30へ送信する。後段で、図7を参照しながら、可視化部114について詳細に説明する。
検索文修正部115は、検索用のクエリを修正して(例えば、検索語の変更、追加、削除の少なくとも1つを実施して)検索を実行する。
図5は、本発明の一実施形態に係る全文検索部112の機能ブロック図である。全文検索部112は、検索語受信部201、拡張語受信部202、クエリ生成部203、検索対象収集部204、インデックス記憶部205、検索部206、検索id送信部207を備える。以下、それぞれについて説明する。
検索語受信部201は、検索語取得部111から、検索語を受信する。
拡張語受信部202は、拡張語取得部116から、拡張語を受信する。
クエリ生成部203は、検索語受信部201が受信した検索語(元検索語)および拡張語受信部202が受信した拡張語を用いて、検索用のクエリを生成する。例えば、クエリ生成部203は、重み付けされた検索語(元検索語)および拡張語を検索演算子で繋ぎ、全文検索用のクエリを生成する。なお、初期検索の際には、検索語受信部201が受信した検索語を用いて、検索用のクエリを生成する。
検索対象収集部204は、検索の結果の候補となる(つまり、検索対象となる)文書を収集して、インデックス記憶部205に記憶する。
インデックス記憶部205には、検索対象となる文書が記憶されている。なお、本発明は、インデックス記憶部205内の任意の文書を検索する際に適用することもできるし、インターネット上に存在する情報(ウェブページ、ウェブサイト等)を検索する際に適用することもできる。
検索部206は、クエリ生成部203が生成したクエリに基づいて、インデックス記憶部205内の検索対象となる文書を検索して、文書に順位を付ける。例えば、検索部206は、Okapi BM25を用いて、クエリと各文書との関連性に応じて、検索により抽出された文書に順位を付ける。
検索id送信部207は、検索部206が検索した結果を検索結果取得部113へ送信する。例えば、検索id送信部207は、検索の結果(つまり、検索により抽出された文書の情報、および、各文書の順位)を検索結果取得部113へ送信する。
なお、(実施例1)の場合、全文検索部102は、拡張語を受信せず、検索語取得部101から受信した検索語に基づいて、検索を実行する。
図6は、本発明の一実施形態に係る拡張語取得部116の機能ブロック図である。拡張語取得部116は、初期結果受信部301、予備単語算出部302、拡張語選択部303、拡張語送信部304を備える。以下、それぞれについて説明する。
初期結果受信部301は、検索結果取得部113から、初期検索(つまり、検索語による検索)の結果を受信する。例えば、初期結果受信部301は、擬似適合フィードバック(PRF:pseudo relevance feedback)を用いた検索において、初期検索により抽出された文書の情報を受信する。
予備単語算出部302は、初期結果受信部301が受信した初期検索の結果に基づいて、拡張語の候補を抽出して順位を付ける。
拡張語選択部303は、予備単語算出部302が順位を付けた拡張語のうち、上位の順位を付けられた所定の個数(例えば、ユーザにより指定された個数、あるいは、予め定められた個数)の拡張語を選択する。
拡張語送信部304は、拡張語選択部303が選択した拡張語を可視化部114および全文検索部112へ送信する。
図7は、本発明の一実施形態に係る可視化部114の機能ブロック図である。可視化部114は、テキスト受信部401、一時記憶部402、影響度計算部403、可視化グラフ作成部404、可視化グラフ送信部405を備える。以下、それぞれについて説明する。
テキスト受信部401は、拡張語取得部116から、拡張語の情報を受信して、一時記憶部402に記憶する。また、テキスト受信部401は、検索語取得部111から、元検索語(つまり、拡張語を導出するために用いられた検索語)の情報を受信して、一時記憶部402に記憶する。また、テキスト受信部401は、検索結果取得部113から、検索の結果(つまり、検索(元検索語と拡張語による検索)により抽出された文書の情報、および、各文書の順位)を受信して、一時記憶部402に記憶する。
一時記憶部402には、テキスト受信部401が受信した拡張語の情報、元検索語の情報、検索の結果が記憶されている。
影響度計算部403は、検索により抽出された各文書に対する新検索語(つまり、元検索語と拡張語)の影響度(例えば、出現回数、ベクトル類似度)を算出する。
可視化グラフ作成部404は、影響度計算部403が算出した影響度に基づいて、距離や大きさ等で影響度の度合いを表わすグラフを作成する。
可視化グラフ送信部405は、可視化グラフ作成部404が作成したグラフを出力装置30へ送信する。
なお、(実施例1)の場合、可視化部104は、拡張語を受信せず、検索語取得部101から受信した検索語の情報および検索結果取得部103から受信した検索の結果に基づいて、グラフを作成する。
<データ構造>
図8は、本発明の一実施形態に係る検索対象のデータ構造情報の一例である。インデックス記憶部205には、図8のような検索対象のデータが記憶されうる。図8に示されるように、文書(例えば、ユーザが蓄積した議事録、報告書、日報等)の、文書を特定するための識別子(文書ID)、文書のタイトル、文書の本文内容(テキスト)が記憶されうる。本文内容(テキスト)が検索対象となる。
図9は、本発明の一実施形態に係る検索文および検索結果のデータ構造情報の一例である。一時記憶部402には、図9のような検索文および検索結果のデータが記憶されうる。図9は、(実施例2)の場合である。図9に示されるように、新たな検索語(つまり、元検索語と拡張語)と各々の重み、および、新たな検索語を用いて生成されたクエリに基づいて検索した結果(つまり、検索(元検索語と拡張語による検索)により抽出された文書の情報、および、各文書の順位)が記憶されうる。
なお、(実施例1)の場合、拡張語は記憶されず、検索語および検索の結果が記憶される。
ここで、元検索語および拡張語の重み付けについて説明する。本発明の一実施形態では、元検索語および拡張語に重み付けをして検索を実行することができる。重みは、ユーザにより指定された値とすることもできるし、あるいは、予め定められた値とすることもできる。なお、全ての元検索語に同一の重みを付与することもできるし、あるいは、元検索語のそれぞれに重みを付与することもできる。また、全ての拡張語に同一の重みを付与することもできるし、あるいは、拡張語のそれぞれに重みを付与することもできる。
図10は、本発明の一実施形態に係る検索語影響度のデータ構造情報の一例である。影響度計算部403は、図10のような検索語影響度を算出しうる。図10は、(実施例2)の場合である。図10に示されるように、検索により抽出された各文書に対する新検索語(つまり、元検索語と拡張語)の影響度が算出されうる。例えば、影響度は、各文書内で新検索語(つまり、元検索語と拡張語)が出現する回数(出現回数)、各文書と新検索語(つまり、元検索語と拡張語)の類似度(ベクトル類似度)である。
なお、(実施例1)の場合、拡張語の影響度は算出されず、検索語の影響度が算出される。
<処理方法>
以下、検索処理のシーケンスを(実施例1)と(実施例2)とに分けて説明する。
図11は、本発明の一実施形態に係る検索処理のシーケンス図(実施例1)である。
・ユーザは、入力装置20に自然文(つまり、検索文)を入力する(1)。
・入力装置20は、検索語取得部101に対して、検索語を取得するよう請求する(1.1)。
・検索語取得部101は、全文検索部102に対して、検索を実行するよう請求する(1.1.1)。
・全文検索部102は、検索結果取得部103に対して、検索の結果を取得するよう請求する(2)。
・検索結果取得部103は、可視化部104に対して、文書と検索語との対応関係を可視化したグラフを作成するよう請求する(2.1)。
・検索語取得部101は、可視化部104に対して、文書と検索語との対応関係を可視化したグラフを作成するよう請求する(3)。
・可視化部104は、グラフを作成する(4)。
・可視化部104は、出力装置30に対して、グラフを出力するよう請求する(5)。
・ユーザは、出力装置30に対して、検索の根拠を提示するよう請求する(6)。
・ユーザは、出力装置30を介して検索文修正部105に対して、検索用のクエリを修正して検索を実行するよう請求する(7)。
図12は、本発明の一実施形態に係る検索処理のシーケンス図(実施例2)である。
・ユーザは、入力装置20に自然文(つまり、検索文)を入力する(1)。
・入力装置20は、検索語取得部111に対して、検索語を取得するよう請求する(1.1)。
・検索語取得部111は、全文検索部112に対して、初期検索(つまり、検索語による検索)を実行するよう請求する(1.1.1)。
・全文検索部112は、検索結果取得部113に対して、初期検索の結果を取得するよう請求する(1.1.1.1)。
・検索結果取得部113は、拡張語取得部116に対して、拡張語を取得するよう請求する(1.1.1.1.1)。
・拡張語取得部116は、全文検索部112に対して、再検索(元検索語と拡張語による検索)を実行するよう請求する(1.1.1.1.1.1)。
・全文検索部112は、検索結果取得部113に対して、再検索の結果を取得するよう請求する(1.1.1.1.1.1.1)。
・検索結果取得部113は、可視化部114に対して、文書と新たな検索語(元検索語および拡張語)との対応関係を可視化したグラフを作成するよう請求する(1.1.1.1.1.1.1.1)。
・検索語取得部111は、可視化部114に対して、文書と新たな検索語(元検索語および拡張語)との対応関係を可視化したグラフを作成するよう請求する(2)。
・拡張語取得部116は、可視化部114に対して、文書と新たな検索語(元検索語および拡張語)との対応関係を可視化したグラフを作成するよう請求する(3)。
・可視化部114は、グラフを作成する(4)。
・可視化部114は、出力装置30に対して、グラフを出力するよう請求する(5)。
・ユーザは、出力装置30に対して、検索の根拠を提示するよう請求する(6)。
・ユーザは、出力装置30を介して検索文修正部115に対して、検索用のクエリを修正して検索を実行するよう請求する(7)。
以下、検索処理のフローチャートを(実施例1)と(実施例2)とに分けて説明する。
図13は、本発明の一実施形態に係る検索処理のフローチャート(実施例1)である。
ステップ10(S10)において、検索語取得部101は、入力装置20から受信した検索文が新検索文であるか否かを判断する。具体的には、検索語取得部101は、入力装置20から受信した検索文を過去に受信したことがあるか否かを判断する。新検索文である場合にはステップ11へ進み、新検索文ではない場合にはステップ12へ進む。
なお、S10の新検索文であるか否かの判断を省略して、全ての検索文から検索語を抽出する構成とすることもできる。
ステップ11(S11)において、検索語取得部101は、S10で受信した検索文から検索語を抽出する。
ステップ12(S12)において、全文検索部102は、S11で抽出された検索語(または過去に抽出された検索語)に基づいて、検索を実行する。
ステップ13(S13)において、可視化部104は、検索の根拠を提示する必要があるか否かを判断する。具体的には、可視化部104は、ユーザから出力装置30を介して、検索の根拠を提示するよう請求されたか否かを判断する。検索の根拠を提示する必要がある場合にはステップ14へ進み、検索の根拠を提示する必要がない場合にはステップ17へ進む。
ステップ14(S14)において、可視化部104は、検索により抽出された各文書に対する検索語の影響度(例えば、出現回数、ベクトル類似度)を算出する。
ステップ15(S15)において、可視化部104は、S14で算出した検索語の影響度に基づいて、距離や大きさ等で影響度の度合いを表わすグラフを作成する。
ステップ16(S16)において、検索文修正部105は、検索用のクエリを修正して(例えば、検索語の変更、追加、削除の少なくとも1つを実施して)検索を実行する。
ステップ17(S17)において、検索文修正部105は、検索が終了したか否かを判断する。終了した場合には処理を終了し、終了していない場合にはS10へ戻る。
図14は、本発明の一実施形態に係る検索処理のフローチャート(実施例2)である。
ステップ20(S20)において、検索語取得部111は、入力装置20から受信した検索文が新検索文であるか否かを判断する。具体的には、検索語取得部111は、入力装置20から受信した検索文を過去に受信したことがあるか否かを判断する。新検索文である場合にはステップ21へ進み、新検索文ではない場合にはステップ22へ進む。
なお、S20の新検索文であるか否かの判断を省略して、全ての検索文から検索語を抽出する構成とすることもできる。
ステップ21(S21)において、検索語取得部111は、S20で受信した検索文から検索語を抽出する。
ステップ22(S22)において、全文検索部112は、S21で抽出された検索語(または過去に抽出された検索語)に基づいて、初期検索を実行する。
ステップ23(S23)において、拡張語取得部116は、S22の初期検索により抽出された文書の中から拡張語を抽出する。
ステップ24(S24)において、全文検索部112は、S21で抽出された検索語(または過去に抽出された検索語)およびS23で抽出された拡張語に基づいて、再検索を実行する。
ステップ25(S25)において、可視化部114は、検索の根拠を提示する必要があるか否かを判断する。具体的には、可視化部114は、ユーザから出力装置30を介して、検索の根拠を提示するよう請求されたか否かを判断する。検索の根拠を提示する必要がある場合にはステップ26へ進み、検索の根拠を提示する必要がない場合にはステップ29へ進む。
ステップ26(S26)において、可視化部114は、再検索により抽出された各文書に対する検索語(元検索語)および拡張語の影響度(例えば、出現回数、ベクトル類似度)を算出する。
ステップ27(S27)において、可視化部114は、S26で算出した検索語(元検索語)および拡張語の影響度に基づいて、距離や大きさ等で影響度の度合いを表わすグラフを作成する。
ステップ28(S28)において、検索文修正部115は、検索用のクエリを修正して(例えば、検索語の変更、追加、削除の少なくとも1つを実施して)検索を実行する。
ステップ29(S29)において、検索文修正部115は、検索が終了したか否かを判断する。終了した場合には処理を終了し、終了していない場合にはS20へ戻る。
以下、入力装置20および出力装置30に表示される画面の一例について説明する。
図15は、本発明の一実施形態に係る入力画面の一例である。ユーザは、入力装置20に表示される入力画面に検索文を入力することができる。検索ボタンが押下されると、検索が実行される。また、PRFパラメータ設定ボタンが押下されると、元検索語と拡張語の重みを設定するための画面へ遷移される。
図16は、本発明の一実施形態に係る検索結果一覧の画面の一例(実施例1)である。ユーザは、出力装置30に表示される検索結果一覧の画面で検索結果を確認することができる。図16に示されるように、検索文から抽出された検索語と、検索の結果(つまり、検索により抽出された文書の情報、および、各文書の順位)と、が表示される。
図17は、本発明の一実施形態に係る検索結果一覧の画面の一例(実施例2)である。ユーザは、出力装置30に表示される検索結果一覧の画面で検索結果を確認することができる。図17に示されるように、検索文から抽出された検索語(元検索語)および初期検索により抽出された文書の中から抽出された拡張語と、検索の結果(つまり、検索(元検索語と拡張語による検索)により抽出された文書の情報、および、各文書の順位)と、が表示される。
ここで、検索用のクエリの修正について説明する。図16および図17の検索結果一覧の画面には、検索用のクエリを修正するためのボタン(例えば、検索語を変更するためのボタン、検索語を追加するためのボタン、検索語を削除するためのボタン)が表示される。これらのボタンが押下されると、検索文修正部105、115は、検索用のクエリを修正して(例えば、検索語の変更、追加、削除の少なくとも1つを実施して)検索を実行する。
図18は、本発明の一実施形態に係る検索結果の根拠可視化の画面の一例である。例えば、図16および図17にて各文書の根拠ボタンが押下されると、図18のような文書と新たな検索語(元検索語および拡張語)との対応関係を可視化したグラフが表示される。なお、(実施例1)の場合、拡張語は表示されない。
図18に示されるように、文書の順位、文書ID、タイトルが同心円の中心に表示され、その文書を抽出した検索用のクエリに含まれる新検索語(つまり、元検索語と拡張語)が同心円内に表示される。以下、可視化部104、114によって実行されるグラフの作成方法をより詳細に説明する。
(1)可視化部104、114は、中心を共有する2つ以上の図形(例えば、同心円)を作成する。例えば、同心円は等間隔で配置される。
(2)可視化部104、114は、元検索語または拡張語のベクトル類似度に基づいて、ベクトル類似度が高ければ高いほど、元検索語または拡張語を中心に近い位置に配置する。具体的には、可視化部104、114は、円と円との間の各領域に、所定の範囲内のベクトル類似度の元検索語または拡張語を配置する(例えば、外側の領域から順に、ベクトル類似度が0~0.05、0.05~0.10、0.10~0.15・・・である元検索語または拡張語が配置される)。つまり、同じ範囲内のベクトル類似度の元検索語または拡張語は、同じ領域に配置される。また、可視化部104、114は、元検索語および拡張語間の類似度に基づいて、各領域内での配置の位置を決定する。
(3)可視化部104、114は、元検索語または拡張語の出現回数に基づいて、出現回数が多ければ多いほど、元検索語または拡張語の文字の大きさを大きく表示する。
(4)可視化部104、114は、元検索語と拡張語とを区別できるように表わす(例えば、拡張語に下線を付ける、元検索語とは異なる色で拡張語を表示する等の文字修飾を行う)。
図19は、本発明の一実施形態に係る検索語と検索結果の関係可視化の画面の一例である。例えば、図16および図17にて検索語または拡張語ボタンが押下されると、図19のような文書と新たな検索語(元検索語および拡張語)との対応関係を可視化したグラフが表示される。なお、(実施例1)の場合、拡張語は表示されない。
図19に示されるように、検索語または拡張語が同心円の中心に表示され、その検索語またはその拡張語を含む検索用のクエリに基づいて抽出された文書が同心円内に表示される。以下、可視化部104、114によって実行されるグラフの作成方法をより詳細に説明する。
(1)可視化部104、114は、中心を共有する2つ以上の図形(例えば、同心円)を作成する。例えば、同心円は等間隔で配置される。
(2)可視化部104、114は、元検索語または拡張語のベクトル類似度に基づいて、ベクトル類似度が高ければ高いほど、文書を中心に近い位置に配置する。具体的には、可視化部104、114は、円と円との間の各領域に、所定の範囲内のベクトル類似度の文書を配置する(例えば、外側の領域から順に、ベクトル類似度が0~0.05、0.05~0.10、0.10~0.15・・・である文書が配置される)。つまり、同じ範囲内のベクトル類似度の文書は、同じ領域に配置される。また、可視化部104、114は、文書間の類似度に基づいて、各領域内での配置の位置を決定する。
(3)可視化部104、114は、元検索語または拡張語の出現回数に基づいて、出現回数が多ければ多いほど、文書の文字の大きさを大きく表示する。
図20は、本発明の一実施形態に係る検索結果の根拠可視化の画面の一例である。本発明の一実施形態では、図18、図19、図21のような同心円ではなく、アルキメデスの螺旋を用いて、文書と新たな検索語(元検索語および拡張語)との対応関係を表示する構成とすることもできる。アルキメデスの螺旋では、中心との距離をより細かく分別することができるので、文書と新たな検索語(元検索語および拡張語)との対応関係がより分かりやすく表示される。なお、アルキメデスの螺旋を用いた場合にも、文字の大きさによって新検索語(つまり、元検索語と拡張語)の出現回数を表わすことができる。また、アルキメデスの螺旋を用いた場合にも、新検索語(つまり、元検索語と拡張語)を区別できるように表わすことができる。
図21は、本発明の一実施形態に係る検索結果の根拠可視化の比較画面の一例である。例えば、図16および図17にて複数(例えば、2つ)の根拠ボタンが押下されると、検索結果の根拠可視化の比較画面が表示される。図21に示されるように、根拠ボタンが押下された文書の、文書と新たな検索語(元検索語および拡張語)との対応関係を可視化したグラフが表示される。そのため、ユーザは、複数の文書についての文書と新たな検索語(元検索語および拡張語)との対応関係を比較することができる。
このように、本発明の一実施形態では、文書と検索語との対応関係、文書と新たな検索語(元検索語および拡張語)との対応関係を可視化することができる。そのため、ユーザは、対応関係をもとに検索語を修正して、検索の精度を向上させることができる。
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせ等、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。
10 検索システム
20 入力装置
30 出力装置
40 ネットワーク
101 検索語取得部
102 全文検索部
103 検索結果取得部
104 可視化部
105 検索文修正部
111 検索語取得部
112 全文検索部
113 検索結果取得部
114 可視化部
115 検索文修正部
116 拡張語取得部
201 検索語受信部
202 拡張語受信部
203 クエリ生成部
204 検索対象収集部
205 インデックス記憶部
206 検索部
207 検索id送信部
301 初期結果受信部
302 予備単語算出部
303 拡張語選択部
304 拡張語送信部
国際公開第2009/048130号

Claims (10)

  1. 検索語を取得する検索語取得部と、
    前記検索語に基づいて、検索を実行する全文検索部と、
    3つ以上の前記検索語と前記検索の結果との対応関係を表示する可視化部と
    を備え
    前記可視化部は、前記検索の結果が中心に表示されており、前記検索語が、前記検索の結果との類似度が高いほど中心に近い位置に表示されており、かつ、前記検索の結果内で出現する回数が多いほど大きな文字で表示されている画面を出力する、検索システム。
  2. 検索語を取得する検索語取得部と、
    前記検索語に基づいて、検索を実行する全文検索部と、
    3つ以上の前記検索語と前記検索の結果との対応関係を表示する可視化部と
    を備え
    前記可視化部は、前記検索語が中心に表示されており、前記検索の結果が、前記検索語との類似度が高いほど中心に近い位置に表示されており、かつ、前記検索の結果内で出現する回数が多いほど大きな文字で表示されている画面を出力する、検索システム。
  3. 前記検索語は、元検索語、および、前記元検索語から導出される拡張語であり、
    前記全文検索部は、前記元検索語および前記拡張語に基づいて、検索を実行し、
    前記可視化部は、前記元検索語および前記拡張語と前記検索の結果との対応関係を表示する、請求項1または2に記載の検索システム。
  4. 前記拡張語は、擬似適合フィードバックを用いた検索において、前記元検索語による検索の結果から抽出された用語である、請求項に記載の検索システム。
  5. 前記拡張語は、前記元検索語の類義語と、前記元検索語の上位概念を示す用語と、前記元検索語の下位概念を示す用語と、前記元検索語と共起関係にある用語とのうちの少なくとも1つである、請求項に記載の検索システム。
  6. 検索用のクエリを修正して検索を実行する検索文修正部、をさらに備えた請求項1からのいずれか一項に記載の検索システム。
  7. 前記可視化部は、前記検索の結果が中心に表示されており前記検索語が螺旋状に配置されている画面を出力する、請求項に記載の検索システム。
  8. 前記可視化部は、前記検索語が中心に表示されており前記検索の結果が螺旋状に配置されている画面を出力する、請求項2に記載の検索システム。
  9. コンピュータを
    検索語を取得する検索語取得部、
    前記検索語に基づいて、検索を実行する全文検索部、
    3つ以上の前記検索語と前記検索の結果との対応関係を表示する可視化部
    として機能させ
    前記可視化部は、前記検索の結果が中心に表示されており、前記検索語が、前記検索の結果との類似度が高いほど中心に近い位置に表示されており、かつ、前記検索の結果内で出現する回数が多いほど大きな文字で表示されている画面を出力する、プログラム。
  10. コンピュータが実行する方法であって、
    検索語を取得するステップと、
    前記検索語に基づいて、検索を実行するステップと、
    3つ以上の前記検索語と前記検索の結果との対応関係を表示するステップと
    を含み、
    前記表示するステップでは、前記検索の結果が中心に表示されており、前記検索語が、前記検索の結果との類似度が高いほど中心に近い位置に表示されており、かつ、前記検索の結果内で出現する回数が多いほど大きな文字で表示されている画面を出力する、方法。
JP2019215838A 2019-11-28 2019-11-28 検索根拠可視化システム、プログラム、および方法 Active JP7400408B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2019215838A JP7400408B2 (ja) 2019-11-28 2019-11-28 検索根拠可視化システム、プログラム、および方法
CN202080082432.5A CN114730319A (zh) 2019-11-28 2020-11-11 搜索有效度可视化系统、搜索有效度可视化方法及载体装置
EP20808520.9A EP4066130A1 (en) 2019-11-28 2020-11-11 System of visualizing validity level of searching, method of visualizing validity level of searching, and carrier means
US17/760,888 US11899702B2 (en) 2019-11-28 2020-11-11 System of visualizing validity level of searching, method of visualizing validity level of searching, and carrier means
PCT/IB2020/060594 WO2021105810A1 (en) 2019-11-28 2020-11-11 System of visualizing validity level of searching, method of visualizing validity level of searching, and carrier means

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019215838A JP7400408B2 (ja) 2019-11-28 2019-11-28 検索根拠可視化システム、プログラム、および方法

Publications (2)

Publication Number Publication Date
JP2021086461A JP2021086461A (ja) 2021-06-03
JP7400408B2 true JP7400408B2 (ja) 2023-12-19

Family

ID=73476204

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019215838A Active JP7400408B2 (ja) 2019-11-28 2019-11-28 検索根拠可視化システム、プログラム、および方法

Country Status (5)

Country Link
US (1) US11899702B2 (ja)
EP (1) EP4066130A1 (ja)
JP (1) JP7400408B2 (ja)
CN (1) CN114730319A (ja)
WO (1) WO2021105810A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001350793A (ja) 2000-06-05 2001-12-21 Fuji Xerox Co Ltd 関連情報表示制御装置及び関連情報表示方法
JP2008027021A (ja) 2006-07-19 2008-02-07 Ricoh Co Ltd 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体。
JP2008250623A (ja) 2007-03-30 2008-10-16 Nomura Research Institute Ltd 検索システム
JP2012068755A (ja) 2010-09-21 2012-04-05 Nomura Research Institute Ltd 検索システム及び検索プログラム
JP2014052803A (ja) 2012-09-06 2014-03-20 Ryukoku Univ 音声ドキュメント検索方法および音声ドキュメント検索システム
JP2017515249A (ja) 2014-05-01 2017-06-08 レクシスネクシス ア ディヴィジョン オブ リード エルザヴィア インコーポレイテッド 結果文書セットに関する推定関連性指示子を表示するため及びクエリ可視化を表示するためのシステム及び方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2758826B2 (ja) 1994-03-02 1998-05-28 株式会社リコー 文書検索装置
JP2970443B2 (ja) * 1994-12-09 1999-11-02 松下電器産業株式会社 文書検索装置
JPH11338873A (ja) * 1998-05-26 1999-12-10 Nippon Telegr & Teleph Corp <Ntt> 再検索方法及び装置及び再検索プログラムを格納した記憶媒体及び追加検索語候補提示方法及び装置及び追加検索語候補提示プログラムを格納した記憶媒体
JP2003323275A (ja) 2002-02-28 2003-11-14 Ricoh Co Ltd 画像描画処理装置及び画像処理システム
JP2005242994A (ja) 2004-01-27 2005-09-08 Ricoh Co Ltd サービス提供装置、情報処理装置、サービス提供方法、情報処理方法、サービス提供プログラム、情報処理プログラム及び記録媒体
JP4447345B2 (ja) 2004-02-19 2010-04-07 株式会社エヌ・ティ・ティ・データ 類似特許明細書検索システム及びその方法並びにプログラム
US7941429B2 (en) * 2007-07-10 2011-05-10 Yahoo! Inc. Interface for visually searching and navigating objects
JP5187313B2 (ja) 2007-10-12 2013-04-24 日本電気株式会社 文書重要度算出システム、文書重要度算出方法およびプログラム
US9213961B2 (en) * 2008-09-21 2015-12-15 Oracle International Corporation Systems and methods for generating social index scores for key term analysis and comparisons
US9257090B2 (en) * 2012-10-04 2016-02-09 Spirority, Inc. Graphical display of content on a display device in a spiral pattern
IN2014CH01007A (ja) * 2014-02-27 2015-09-04 Accenture Global Services Ltd
US9984160B2 (en) * 2015-09-30 2018-05-29 International Business Machines Corporation Determining a query answer selection
JP6870260B2 (ja) 2016-09-27 2021-05-12 株式会社リコー 通信システム、通信装置、通信管理方法、及びプログラム
US20180373719A1 (en) * 2017-06-22 2018-12-27 Microsoft Technology Licensing, Llc Dynamic representation of suggested queries
JP2019215838A (ja) 2017-09-29 2019-12-19 横浜特殊船舶株式会社 車両の一時預かりシステムおよびペットの一時預かりシステム
JP7196393B2 (ja) 2017-12-01 2022-12-27 株式会社リコー 情報提示装置、情報提示システム、情報提示方法およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001350793A (ja) 2000-06-05 2001-12-21 Fuji Xerox Co Ltd 関連情報表示制御装置及び関連情報表示方法
JP2008027021A (ja) 2006-07-19 2008-02-07 Ricoh Co Ltd 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体。
JP2008250623A (ja) 2007-03-30 2008-10-16 Nomura Research Institute Ltd 検索システム
JP2012068755A (ja) 2010-09-21 2012-04-05 Nomura Research Institute Ltd 検索システム及び検索プログラム
JP2014052803A (ja) 2012-09-06 2014-03-20 Ryukoku Univ 音声ドキュメント検索方法および音声ドキュメント検索システム
JP2017515249A (ja) 2014-05-01 2017-06-08 レクシスネクシス ア ディヴィジョン オブ リード エルザヴィア インコーポレイテッド 結果文書セットに関する推定関連性指示子を表示するため及びクエリ可視化を表示するためのシステム及び方法

Also Published As

Publication number Publication date
EP4066130A1 (en) 2022-10-05
JP2021086461A (ja) 2021-06-03
WO2021105810A1 (en) 2021-06-03
CN114730319A (zh) 2022-07-08
US11899702B2 (en) 2024-02-13
US20220342917A1 (en) 2022-10-27

Similar Documents

Publication Publication Date Title
JP4746439B2 (ja) 文書検索サーバおよび文書検索方法
US7769771B2 (en) Searching a document using relevance feedback
US8984012B2 (en) Self-tuning alterations framework
US8301616B2 (en) Search equalizer
JP4937812B2 (ja) 検索システム
JP5194826B2 (ja) 情報検索装置、情報検索方法及び制御プログラム
US9075879B2 (en) System, method and computer program for searching within a sub-domain by linking to other sub-domains
US12105762B2 (en) Methods and servers for ranking digital documents in response to a query
CN111373386A (zh) 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序
WO2010109594A1 (ja) 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法
JP5139883B2 (ja) 検索システム
JP5193669B2 (ja) 検索システム
JP4945015B2 (ja) 文書検索システム、文書検索プログラム、および文書検索方法
JP7400408B2 (ja) 検索根拠可視化システム、プログラム、および方法
JP2009086774A (ja) 検索サービス装置
JP2008250625A (ja) 検索システム
JP6534454B2 (ja) 情報検索方法及び情報検索装置並びに情報検索システム
JP2009271671A (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP5870776B2 (ja) リンク付与装置、リンク付与方法、およびプログラム
JP2009146013A (ja) コンテンツ検索方法及び装置並びにプログラム
JP2010086210A (ja) 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ
JP2009086772A (ja) 検索サービス装置
JP4879800B2 (ja) 2次元マップ上における表示要素間の重複回避プログラム
Spirin et al. Searching for design examples with crowdsourcing
JP2009116413A (ja) ファイル検索システム、プログラム、及びコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230725

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231120

R151 Written notification of patent or utility model registration

Ref document number: 7400408

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151