JP2017049836A - 検索支援装置、検索支援プログラムおよび記憶媒体 - Google Patents

検索支援装置、検索支援プログラムおよび記憶媒体 Download PDF

Info

Publication number
JP2017049836A
JP2017049836A JP2015173115A JP2015173115A JP2017049836A JP 2017049836 A JP2017049836 A JP 2017049836A JP 2015173115 A JP2015173115 A JP 2015173115A JP 2015173115 A JP2015173115 A JP 2015173115A JP 2017049836 A JP2017049836 A JP 2017049836A
Authority
JP
Japan
Prior art keywords
search
vocabulary
information
phrase
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015173115A
Other languages
English (en)
Inventor
和直 恩田
Kazunao Onda
和直 恩田
幸毅 岩崎
Koki Iwasaki
幸毅 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2015173115A priority Critical patent/JP2017049836A/ja
Publication of JP2017049836A publication Critical patent/JP2017049836A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索結果のヒット数を減少させる絞り込み検索語句を提供することによって検索を支援する。【解決手段】検索支援装置100は、検索索引マスターテーブルSIM、語彙索引マスターテーブルPIMを取得する索引取得部IACと、ユーザ検索語句を取得する検索語句取得部PACと、ユーザ検索語句から語彙情報を抽出する語彙抽出部PEXと、抽出された語彙情報に基づき、検索索引マスターテーブルを参照して、語彙情報に対応する複数の検索索引を含む検索結果情報を生成する検索部SEAと、前記語彙索引マスターテーブルを参照して、検索語句取得部により取得されたユーザ検索語句に関連する語彙を関連語彙として抽出する関連語彙抽出部PREと、検索部により生成された検索結果情報と共に、前記関連語彙抽出部により抽出された関連語彙を含む絞り込み検索語句を出力する出力部OUTとを有する。【選択図】図1

Description

本発明は、検索支援装置、検索支援プログラムおよび記憶媒体に関し、特に、検索結果のヒット数を減少させる絞り込み検索語句を提供することによって検索を支援する検索支援装置、検索支援プログラムおよび記憶媒体に関するものである。
情報処理技術の進歩に伴い、膨大な情報が蓄積された記憶手段が構築され、それら膨大な情報から所望の情報に辿り着くために、幾つもの検索技法が発展してきた。代表的なものは、インターネット検索サイトにおける検索エンジンである。これは、ユーザが検索フレーズ(検索キー)を入力し、検索エンジンが、検索フレーズに対応する検索結果(ヒットしたもののリスト)を応答して返すものである。しかしながら、記憶手段の大容量化が急速に進んだ結果、インターネットでアクセスできる多数のサーバにある膨大な情報量からは、検索フレーズに合致する「膨大な数量のウェブサイト」がヒットしてしまうことがよくある。これは、ローカルのサーバや記憶手段における検索においても同様である。
このような「膨大な数量のウェブサイト(検索結果)」をユーザが1つ1つ閲覧するのは、事実上困難である。そのため、所望の情報に辿り着くための典型的な手法としては以下の2つがある。1つは、ヒットしたウェブサイトにおいて優劣を付けて、より有効なサイトを上位表示させる技法である。商用の検索エンジンにおいては、よく行われる手法である。ユーザは、検索エンジンが提示した上位表示だけを閲覧して、下位の表示は閲覧することを断念することになる。このような上位表示されたウェブサイトが下位のものよりも、検索者にとって、より有効、有益なものであれば、この技法は有益なものとなる。もう1つは、予めドメインやディレクトリで絞っておき、検索する前の段階でウェブサイトの数量を「絞り込み」によって減らす技法である。このようなドメインやディレクトリで絞り込む手法は、結局は、人が作業するものであるため、近年のように情報量が急速に増加していく時代では、あまり役に立たない。
さて、有効なサイトを上位表示させる技法の従来技術として、以下の従来技術がある。これは、入力された検索条件に適合する文書群を検索して提示する提示手段と、前記検索条件を受け付ける入力手段と、前記入力手段によって受け付けた前記検索条件を含む文書を検索する検索手段とを有する検索装置において、前記検索手段によって検索された前記文書と前記検索条件との適合度を算出する適合度計算手段と、前記検索手段によって検索された前記文書の特性を示す計算条件情報を抽出する抽出手段と、前記抽出手段によって抽出された前記計算条件情報に基づいて、前記適合度計算手段によって算出された前記各文書の前記適合度を重み付けしてスコアを算出するスコア算出手段と、前記スコア算出手段によって算出されたスコアに基づいて前記文書群を整列させる整列手段とを有し、前記提示手段は、前記整列手段によって整列された前記文書群をユーザに提示することを特徴とするものである(特許文献1を参照されたい。)。即ち、この従来技術は、与えられた検索条件に適合する文書を検索し、検索された文書と検索条件との適合度を算出し、検索された文書に含まれる文書の特性を示す計算条件情報を抽出し、計算条件情報に基づいて各文書について算出された適合度を重み付けしてスコアを算出し、算出されたスコアに基づいて検索された文書群を整列してユーザに提供することにより、入力された検索条件に合った信頼性の高い文書をユーザに提供することを狙ったものである。
特開2008−112310号公報
上記の従来技術のような何らかのスコア計算によって、上位表示させる技法は、トラックバックや被リンクなどによって、ウェブサイトの適合度や重要度などのスコアを計算するものであり、多くのユーザには、より有用で役に立つウェブサイト(情報)が提示されることになる。しかしながら、SEOと称する検索エンジン対策技法が発達し、さほど有用でなく、役に立たないウェブサイトが上位表示されるなどの不都合な事態も生じている。即ち、本質的な意味や情報の内容とは関係なく、ウェブサイトを上位表示させる手法が散見される。これに対する検索エンジン側での対処は、不適切な被リンクなどを持つウェブサイトのランクを下げるなどがあるが、SEO業者とのイタチごっこのような状況にあり、あまり効果的な手法は開発されていないのが現状である。
小規模なローカルのデータベースであっても、現在は、数十テラバイト程度を超えるものが多くなり、検索してヒットする文書数も大量になってきている。このような場合も、上記のインターネットと同様に、検索して効率よく有効な文書へのアクセスを支援するという必要性がある。
また、ユーザは、検索エンジンで、検索フレーズ(検索キー)を入力しなければ、どの程度のサイト数(文書数)が検索結果として表示されるか、不明である。検索結果が多過ぎる場合は、ユーザは、その都度、自分の経験や考えなどによって、検索フレーズを追加したり、別のものに変えたりするが、この場合であっても、どの程度、絞り込めるか、減らせるかは、試行錯誤によるしかなかった。いずれにしても、ユーザによる試行錯誤は、人手がかかるものであり、どのような結果になるのか全く予想できず、効率が悪いものであった。
このような諸課題を解消すべく、本願発明者らは、情報に含まれる語句の持つ機能に着目し、検索によって提示されるウェブサイトやテキスト情報を絞り込みつつ、かつ、検索するユーザに検索の絞り込みの意味を与える技法を着想するに至った。
そこで、本発明の目的は、検索結果のヒット数を減少させる絞り込み検索語句を提供することによって検索を支援する検索支援装置、検索支援プログラムおよび記憶媒体を提供することである。
上述した諸課題を解決すべく、第1の発明による検索支援装置は、
検索対象のテキスト情報に基づき作成された、検索索引を含む検索索引マスターテーブル、および、語彙から成る語彙索引を含む語彙索引マスターテーブル、を取得する索引取得部(或いは格納する記憶部)と、
ユーザにより入力されたユーザ検索語句を取得する検索語句取得部と、
前記検索語句取得部により取得されたユーザ検索語句から(形態素解析技術を利用して)語彙情報を抽出する語彙抽出部と、
前記語彙抽出部により抽出された語彙情報に基づき、前記検索索引マスターテーブルを参照して、抽出された語彙情報に対応する複数の検索索引を含む検索結果情報を生成する検索部と、
前記検索語句取得部により取得されたユーザ検索語句に基づき、前記語彙索引マスターテーブルを参照して、取得されたユーザ検索語句に関連する語彙(または語句)を関連語彙として抽出する関連語彙抽出部と、
前記検索部により生成された検索結果情報と共に、前記関連語彙抽出部により抽出された関連語彙を含む絞り込み検索語句を出力する出力部と、
を有する。
また、第2の発明による検索支援装置は、
前記絞り込み検索語句に基づき、前記検索索引マスターテーブルを参照して、複数の検索索引を含む、絞り込み検索結果情報を生成し、絞り込み検索結果情報の検索索引の数と、絞り込み前の検索索引の数とを比較し、所定の絞り込み基準(例えば、100個少なくなる、40%減少する、8割減少、40個程度になる、30個以下になる、など)を満たすものだけを前記絞り込み検索語句とする絞り込み有効語彙判定部、をさらに有する、
ことを特徴とする。
また、第3の発明による検索支援装置は、
前記絞り込み検索語句に基づき、前記検索索引マスターテーブルを参照して、複数の検索索引を含む、絞り込み検索結果情報を生成し、絞り込み検索語句毎に、絞り込み検索結果情報の検索索引の数を関連付ける、絞り込み件数関連付け部、をさらに有し、
前記出力部が、
前記絞り込み検索語句毎に、関連付けられた、絞り込み検索結果情報の検索索引の数をさらに出力する、
ことを特徴とする。
上述したように本発明の解決手段を装置として説明してきたが、本発明はこれらに実質的に相当する方法、プログラム、プログラムを記録した記憶媒体としても実現し得るものであり、本発明の範囲にはこれらも包含されるものと理解されたい。なお、下記の方法やプログラムの各ステップは、データの処理においては必要に応じて、CPU、DSPなどの演算処理装置を使用するものであり、入力したデータや加工・生成したデータなどを磁気テープ、HDD、メモリなどの記憶装置に格納するものである。
例えば、本発明をプログラムとして実現させた、第4の発明による検索支援プログラムは、
演算処理装置を第1−3のいずれかの発明に記載の検索支援装置として機能させる検索支援プログラムである。
また、第5の発明による検索支援装置プログラムは、
検索処理をコンピュータに実行させるための検索支援装置プログラムであって、
検索対象のテキスト情報に基づき作成された、検索索引を含む検索索引マスターテーブル、および、語彙から成る語彙索引を含む語彙索引マスターテーブル、を取得する索引取得部(或いは格納する記憶部)と、
ユーザにより入力されたユーザ検索語句を取得する検索語句取得部と、
前記検索語句取得部により取得されたユーザ検索語句から(形態素解析技術を利用して)語彙情報を抽出する語彙抽出部と、
前記語彙抽出部により抽出された語彙情報に基づき、前記検索索引マスターテーブルを参照して、抽出された語彙情報に対応する複数の検索索引を含む検索結果情報を生成する検索部と、
前記検索語句取得部により取得されたユーザ検索語句に基づき、前記語彙索引マスターテーブルを参照して、取得されたユーザ検索語句に関連する語彙(または語句)を関連語彙として抽出する関連語彙抽出部と、
前記検索部により生成された検索結果情報と共に、前記関連語彙抽出部により抽出された関連語彙を含む絞り込み検索語句を出力する出力部と、
をコンピュータに機能させるための検索支援装置プログラムである。
また、第6の発明による検索支援装置プログラムは、
ユーザ端末からの検索処理要求をコンピュータに実行させるための検索支援装置プログラムであって、
検索対象のテキスト情報に基づき作成された、検索索引を含む検索索引マスターテーブル、および、語彙から成る語彙索引を含む語彙索引マスターテーブル、を格納する記憶部と、
ユーザ端末からの検索処理要求である、ユーザにより入力された検索処理要求としてのユーザ検索語句を取得(受信)する検索語句取得部(受信部)と、
前記検索語句取得部により取得されたユーザ検索語句から(形態素解析技術を利用して)語彙情報を抽出する語彙抽出部と、
前記語彙抽出部により抽出された語彙情報に基づき、前記検索索引マスターテーブルを参照して、抽出された語彙情報に対応する複数の検索索引を含む検索結果情報を生成する検索部と、
前記検索語句取得部により取得されたユーザ検索語句に基づき、前記語彙索引マスターテーブルを参照して、取得されたユーザ検索語句に関連する語彙(または語句)を関連語彙として抽出する関連語彙抽出部と、
前記検索部により生成された検索結果情報と共に、前記関連語彙抽出部により抽出された関連語彙を含む絞り込み検索語句をユーザ端末に送信する送信部(出力部)と、
をコンピュータに機能させるための検索支援装置プログラムである。
また、例えば、本発明をコンピュータ可読な記録媒体として実現させた、第7の発明によるコンピュータ可読な記録媒体は、
第4〜6のいずれかの発明に記載の検索支援装置プログラムを格納したコンピュータ可読な記憶媒体である。
本発明によれば、検索結果のヒット数を減少させる絞り込み検索語句を提供することによって検索を支援することが可能になる。即ち、検索によって提示されるウェブサイトやテキスト情報を絞り込みつつ、かつ、検索するユーザに検索の絞り込みの意味を与えることが可能となる。
図1は、本発明の一実施態様による検索支援装置の概要を示すブロック図である。 図2は、図1に示した検索支援装置で実行される処理の一例を示すフローチャートである。 図3は、索引作成装置の処理を示す模式図である。 図4は、図1の検索支援装置の処理を示す模式図である。 図5は、索引作成装置の検索索引の機能を説明するブロック図である。 図6は、索引作成装置の検索索引のさらなる機能を説明するブロック図である。 図7は、索引作成装置の語彙索引の機能を説明するブロック図である。 図8は、索引作成装置の語彙索引のさらなる機能を説明するブロック図である。 図9は、検索支援装置に含まれる語彙抽出部の機能の一例を示すブロック図である。 図10は、検索支援装置に含まれる検索部の機能の一例を示すブロック図である。 図11は、検索支援装置に含まれる関連語彙抽出部の機能の一例を示すブロック図である。 図12は、検索支援装置に含まれる絞り込み有効語彙判定部の機能の一例を示すブロック図である。 図13は、本装置が使用するインターネット上の実際のテキスト情報の模式図である。 図14は、索引作成装置IXRに含まれる検索索引作成部の処理を示す模式図である。 図15は、索引作成装置IXRに含まれる検索索引作成部の処理(図14の後続処理)を示す模式図である。 図16は、索引作成装置IXRに含まれる語彙索引作成部の処理を示す模式図である。 図17は、索引作成装置IXRに含まれる語彙索引作成部の処理(図16の後続処理)を示す模式図である。 図18は、索引作成装置IXRに含まれる語彙索引作成部の処理(図17の後続処理)を示す模式図である。 図19は、ユーザ検索語句を取得したときの処理の一例を示す模式図である。 図20は、索引検索で検索したときの処理の一例を示す模式図である。 図21は、絞り込み語句(絞り込み検索語句)の生成処理の一例を示す模式図である。 図22は、絞り込み語句(絞り込み検索語句)の生成処理(図21の後続処理)の一例を示す模式図である。 図23は、絞り込み語句(絞り込み検索語句)の有効語彙判定処理(図22の後続処理)の一例を示す模式図である。 図24は、本検索支援プログラムのユーザ検索語句を入力する画面インターフェイスを示す図である。 図25は、本検索支援プログラムで検索語句を絞り込ませたときの画面インターフェイスを示す図である。 図26は、本検索支援プログラムで検索語句を、さらに絞り込ませたときの画面インターフェイスを示す図である。 図27は、本検索支援プログラムで検索語句を、またさらに絞り込ませたときの画面インターフェイスを示す図である。 図28は、本検索支援プログラムで検索語句を、またさらに絞り込ませたときの画面インターフェイスを示す図である。 図29は、本検索支援プログラムのユーザ検索語句を入力する画面インターフェイスを示す図である。 図30は、本検索支援プログラムで検索語句を絞り込ませたときの画面インターフェイスを示す図である。 図31は、本検索支援プログラムで検索語句を、絞り込ませたときの画面インターフェイスを示す図である。 図32は、本発明の一実施態様による検索支援装置の概要を示すブロック図である。
以降、諸図面を参照しながら、本発明の実施態様を詳細に説明する。
<実施態様1>
図1は、本発明の一実施態様による検索支援装置の概要を示すブロック図である。図に示すように、検索支援装置100(SAD)は、制御部(CPU、演算処理装置、プロセッサ)110、入力部IN、通信部COM、記憶部120、および、表示部DISを有する。制御部110は、索引取得部IAC、検索語句取得部PAC、検索部SEA、語彙抽出部PEX、関連語彙抽出部RPE、出力部OUTとを有する。索引取得部IACは、検索対象のテキスト情報に基づき作成された、検索索引を含む検索索引マスターテーブル、および、語彙から成る語彙索引を含む語彙索引マスターテーブル、を取得する(或いは格納する記憶部としてもよい)。記憶部120は、取得した検索索引を含む検索索引マスターテーブルSIM,語彙から成る語彙索引を含む語彙索引マスターテーブルPIMを格納する。なお、検索対象のテキスト情報(文書ファイルやウェブコンテンツなど)は、ウェブ上、例えば、情報提供サーバIDSなどに存在する。
検索語句取得部PACは、入力部INを介して、マウスMUSやキーボードKBD、或いは、通信部COMやネットワークNETを介して接続された端末PC1やPC2、携帯端末PDA1、携帯電話端末MS1などのユーザにより入力されたユーザ検索語句を取得する。語彙抽出部PEXは、検索語句取得部により取得されたユーザ検索語句から(形態素解析技術を利用して)語彙情報を抽出する。検索部SEAは、語彙抽出部により抽出された語彙情報に基づき、前記検索索引マスターテーブルを参照して、抽出された語彙情報に対応する複数の検索索引を含む検索結果情報を生成する。
関連語彙抽出部RPEは、検索語句取得部により取得されたユーザ検索語句に基づき、語彙索引マスターテーブルを参照して、取得されたユーザ検索語句に関連する語彙(または語句)を関連語彙として抽出する。出力部OUT(これは情報生成部としてもよい)は、検索部により生成された検索結果情報と共に、前記関連語彙抽出部により抽出された関連語彙を含む絞り込み検索語句を出力する(生成する)。出力された(生成された)検索結果情報は、関連語彙抽出部により抽出された関連語彙を含む絞り込み検索語句と共に、表示部DISに表示したり、通信部を介して、ユーザが使用し、検索処理を要求してきた端末PC1などに送信したりする。
上述したように、検索支援装置100は、通信部COM、ネットワークNETを介して、検索処理を要求するユーザが持つ端末PC1、PC2などと接続し、情報のやり取りが可能である。表示部DISは、本装置に格納される情報や生成された情報を表示することができる。入力部INは、マウスMUSやキーボードKBDを介して入力される操作指示や情報入力を受け付け、受け付けた情報やデータを索引取得部や検索語句取得部などに渡す。
制御部に含まれる各機能部は、制御部のメモリ空間に読み込まれたプログラムモジュールによって実現することが好適である。通常は、記憶部或いはウェブサイトから、プロセッサを本装置の各部として機能させるソフトウェアをダウンロードして、PC(装置)にインストールして起動することで、PCが、本装置として動作する。なお、制御部に設けた各機能部は、機能上一定のまとまりのあるステップを1つにまとめたものに過ぎず、複数の機能部を1つの機能部にしたり、その一部を他の機能部に組み入れたり、他の独立した機能部に分割したりすることが可能である。
このように、生成・抽出した情報や中間データおよび取得したデータを外部に送信したり、表示部に表示したり、生成・抽出した情報や中間データおよび取得したデータなどを記憶部に格納したりすることは、後述する他の実態態様でも同様に可能であることに注意されたい。なお、本装置は、汎用コンピュータ、特定用途コンピュータ、サーバ、PC、スマートフォンなどの携帯端末などのコンピュータ、或いは、本装置の機能や処理手順(方法)をコンピュータ上で実現(実行)するプログラムモジュールをコンピュータが持つCPUや記憶部に保持したり、外部のサーバやストレージから読み込んだりすることで、コンピュータ上に本装置を構築することが好適であり、後続の各実施態様においても同様である。また、各機能部は、ネットワークで接続された別個のコンピュータや装置に分散させてもよい。また、複数の機能部を1つにしたり、処理ステップの一部を他の機能部にさせたりするような形態でもよい。
図2は、図1に示した検索支援装置で実行される処理の一例を示すフローチャートである。図に示すように、ステップS11にて、検索対象のテキスト情報に基づき作成された、検索索引を含む検索索引マスターテーブル、および、語彙から成る語彙索引を含む語彙索引マスターテーブル、を取得する(または、これらにアクセスする)。
検索索引マスターテーブル、および、語彙索引マスターテーブルを取得する。次にステップS12では、ユーザにより入力されたユーザ検索語句を取得する。そして、ステップS13では、取得されたユーザ検索語句から(形態素解析技術を利用して)語彙情報を抽出する。次にステップS14では、抽出された語彙情報に基づき、検索索引マスターテーブルを参照して、抽出された語彙情報に対応する複数の検索索引を含む検索結果情報を生成する。次にステップS15では、取得されたユーザ検索語句に基づき、語彙索引マスターテーブルを参照して、取得されたユーザ検索語句に関連する語彙(または語句)を関連語彙として抽出する。最後に、ステップS16では、生成された検索結果情報と共に、抽出された関連語彙を含む絞り込み検索語句を出力する。なお、マスターテーブルの取得に代えて、格納する格納ステップとしてもよい。その場合、格納ステップは、一回実施しておけば、その情報が変更されるまでは再実施する必要はない。或いは、ユーザ入力以外の取得ステップや、格納ステップは、当該情報を格納したROMやフラッシュメモリを装置やコンピュータに搭載することで不要となる。なお、マスターテーブルの作成方法について後述する。
検索支援装置は、検索索引マスターテーブルと、語彙索引マスターテーブルとを取得、或いは、格納する。次は、これらマスターテーブルの作成の仕方について説明する。
図3は、索引作成装置の処理を示す模式図である。図に示すように、情報読み取り装置IRDは、検索対象とする情報である文書ファイルやウェブコンテンツWEBCからテキスト情報TXIを抽出する。次に、索引作成装置IXRが、抽出したテキスト情報TXIに基づき、検索索引と語彙索引を作成し、検索索引マスターテーブルSIMと、語彙索引マスターテーブルPIMとする。即ち、検索対象のテキスト情報に基づき作成された、検索索引を含む検索索引マスターテーブル、および、語彙から成る語彙索引を含む語彙索引マスターテーブルを得る。これらマスターテーブルが、本検索支援装置が取得、或いは、格納する。或いは、情報読み取り装置IRDと、索引作成装置IXRとのどちらか、または双方を本検索支援装置に含ませてもよい。
制御部110は、絞り込み検索語句に基づき、前記検索索引マスターテーブルを参照して、複数の検索索引を含む、絞り込み検索結果情報を生成し、絞り込み検索結果情報の検索索引の数と、絞り込み前の検索索引の数とを比較し、所定の絞り込み基準(例えば、100個少なくなる、40%減少する、8割減少、40個程度になる、30個以下になる、など)を満たすものだけを前記絞り込み検索語句とする絞り込み有効語彙判定部FPD、をさらに有する。このとき、絞り込み検索語句毎に、絞り込み検索結果情報の検索索引の数を関連付け、出力部は、絞り込み検索語句毎に、関連付けられた、絞り込み検索結果情報の検索索引の数をさらに出力する、ことが好適である。
また、制御部110は、絞り込み検索語句に基づき、検索索引マスターテーブルを参照して、複数の検索索引を含む、絞り込み検索結果情報を生成し、絞り込み検索語句毎に、絞り込み検索結果情報の検索索引の数を関連付ける、絞り込み件数関連付け部FNR、をさらに有する。このとき、出力部は、絞り込み検索語句毎に、関連付けられた、絞り込み検索結果情報の検索索引の数をさらに出力する。この場合は、ユーザ自身が、絞り込み検索語句がどのような文字列であり、どの程度の件数まで絞り込めるのかを確認し、所望の「絞り込み検索語句」を「ユーザ検索語句」に追加して、再度、検索する。また、本装置は、表示された「絞り込み検索語句」をクリックするだけで、そのクリックした「絞り込み検索語句」を「ユーザ検索語句」に追加して、再度、検索するように構成させることが可能である。
図4は、図1の検索支援装置の処理を示す模式図である。図に示すように、検索語句取得部PACは、ユーザ検索語句USP(検索文字列)を取得する。取得したユーザ検索語句USPは、後続処理を行う、語彙抽出部PEXに渡される。語彙抽出部PEXは、入力された文字情報であるユーザ検索語句USPから、形態素解析技術を用いて、語彙情報(語彙)を抽出する。抽出した語彙を抽出語彙EXPと呼ぶものとする。次に、検索部SEAが、抽出された語彙情報(抽出語彙EXP)に基づき、検索索引マスターテーブルSIMを参照して、抽出された語彙情報に対応する複数の検索索引を含む検索結果情報HSI(ヒットした検索索引のリスト)を生成する。
次に、関連語彙抽出部PREは、入力された文字情報であるユーザ検索語句USP(検索文字列)から、語彙索引マスターテーブルPIMを参照して、関連する語彙(関連語彙ECP、関連語句)を抽出、生成、或いは、取得する。絞り込み有効語彙判定部FPDは、抽出関連語彙ECPを絞り込む、例えば、抽出関連語彙ECP(候補の絞り込み検索語句)に基づき、検索索引マスターテーブルSIMを参照して、複数の検索索引を含む、絞り込み検索結果情報を生成し、絞り込み検索結果情報の検索索引の数と、絞り込み前の検索索引の数とを比較し、所定の絞り込み基準(例えば、100個少なくなる、40%減少する、8割減少、40個程度になる、30個以下になる、など)を満たすものだけを絞り込み検索語句FCPとする。出力部は、検索結果情報HSIと、絞り込み検索語句FCPとを出力情報OUTIとして出力する。を出力情報OUTIは、表示部に表示されたり、外部の端末などに送信されたり、表示されたりする。
図5は、索引作成装置の検索索引の機能を説明するブロック図である。上述したように、索引作成装置IXRは、検索索引マスターテーブルSIMと、語彙索引マスターテーブルPIMの内容物を作成する機能を持つが、ここでは、検索索引マスターテーブルSIMの内容物である検索索引の作成について説明する。索引作成装置IXRは、形態素解析部、語彙分割部、語彙連結部、語彙ID化部、不要語彙除去部、同義語変換部を有する。
形態素解析部は、入力されたテキストを形態素(語彙)に分割する手段であって、一般的な形態素解析を利用するが、利用する形態素解析の癖(語彙の分割判定)に応じて、必要な情報の加工を行ったうえで、語彙情報を出力する。このような形態素解析部は、本発明の各実施態様の検索支援装置内にも組み込まれるものである。以下の各部も、同様に、必要に応じて、本発明の各実施態様の検索支援装置内にも組み込まれるものである。
語彙分割部は、形態素解析部で出力された語彙情報を入力とし、形態素解析部で、別々の語彙として分離してほしい語彙を、あらかじめ設定した語彙分割設定情報に基づき、語彙を分割する手段である。即ち、語彙分割部は、入力した語彙情報から、分離対象の語彙情報を削除し、分離した語彙情報を追加した語彙情報を出力する。
語彙連結部は、語彙分割部(装置)で出力された語彙情報を入力とし、連続する別々の語彙を一つの語彙として扱いたい語彙を、あらかじめ設定した語彙連結設定情報に基づき、語彙を連結する手段である。即ち、語彙連結部は、入力した語彙情報から、連結対象の語彙情報を削除し、連結した語彙情報を追加した語彙情報を出力する。
語彙ID化部は、語彙連結部で出力された語彙情報に、語彙IDを付加する手段である。即ち、語彙ID化部は、語彙索引に未登録の語彙は、新たなIDを割り振られ、語彙索引へ登録する。また、語彙IDが付加された語彙情報を出力する。
不要語彙除去部は、語彙ID化部(装置)で出力された語彙情報のうち、不要語彙に、不要語彙情報を付加する手段である。即ち、不要語彙除去部は、あらかじめ設定した不要語彙設定情報に登録されている語彙が、語彙情報にあった場合にのみ、その語彙情報に不要語彙である旨の情報を付加する。この場合は、その不要語彙の情報は除去されたものして扱われる。そして、処理された語彙情報を出力する。
同義語情報追加部は、不要語彙情報付加部で出力された語彙情報に、同義語情報を追加する手段である。即ち、同義語情報追加部は、あらかじめ設定した同義語彙設定情報に登録されている語彙が、語彙情報にあった場合にのみ、その語彙情報に同義語彙情報を付加する。そして、処理された語彙情報を出力する。
図6は、索引作成装置の検索索引のさらなる機能を説明するブロック図である。図に示すように、索引作成装置IXRは、さらに、重複語彙除去部と検索索引作成部とを有する。重複語彙除去部は、同義語情報追加部で出力された語彙情報を入力とし、同一語彙IDをもつ語彙情報を除去する手段である。即ち、重複語彙除去部は、対象のテキスト情報(情報読み取り単位)に、重複する語彙を索引として持たせないための処理である。そして、重複語彙情報を除去した語彙情報を出力する。検索索引作成部は、重複語彙除去部で出力された語彙情報を入力とし、検索索引を作成する手段である。検索索引作成部は、対象のテキスト情報(情報読み取り情報単位)毎にIDを振り、語彙情報の語彙IDをその下位情報として検索索引に登録する。
図7は、索引作成装置の語彙索引の機能を説明するブロック図である。上述したように、索引作成装置IXRは、検索索引マスターテーブルSIMと、語彙索引マスターテーブルPIMの内容物を作成する機能を持つが、ここでは、語彙索引マスターテーブルPIMの内容物である語彙索引の作成について説明する。索引作成装置IXRは、形態素解析部、語彙分割部、語彙連結部、不要語彙情報付加部、語彙ID化部を有する。
形態素解析部は、入力されたテキストを形態素(語彙)に分割する手段であって、一般的な形態素解析を利用するが、利用する形態素解析の癖(語彙の分割判定)に応じて、必要な情報の加工を行ったうえで、語彙情報を出力する。このような形態素解析部は、本発明の各実施態様の検索支援装置内にも組み込まれるものである。以下の各部も、同様に、必要に応じて、本発明の各実施態様の検索支援装置内にも組み込まれるものである。
語彙分割部は、形態素解析部で出力された語彙情報を入力とし、形態素解析部で、別々の語彙として分離してほしい語彙を、あらかじめ設定した語彙分割設定情報に基づき、語彙を分割する手段である。即ち、語彙分割部は、入力した語彙情報から、分離対象の語彙情報を削除し、分離した語彙情報を追加した語彙情報を出力する。
語彙連結部は、語彙分割装置で出力された語彙情報を入力とし、連続する別々の語彙を一つの語彙として扱いたい語彙を、あらかじめ設定した語彙連結設定情報に基づき、語彙を連結する手段である。即ち、語彙連結部は、入力した語彙情報から、連結対象の語彙情報を削除し、連結した語彙情報を追加した語彙情報を出力する。
不要語彙情報付加部は、語彙ID化部で出力された語彙情報に、不要語彙情報を付加する手段である。即ち、不要語彙情報付加部は、あらかじめ設定した不要語彙設定情報に登録されている語彙が、語彙情報にあった場合にのみ、その語彙情報に不要語彙である旨の情報を付加する。また、処理された語彙情報を出力する。
語彙ID化部は、語彙連結部で出力された語彙情報に、語彙IDを付加する手段である。即ち、語彙ID化部は、語彙索引に未登録の語彙は、新たなIDを割り振られ、語彙索引へ登録する。また、語彙IDが付加された語彙情報を出力する。索引作成装置IXRは、さらに、語句情報生成部と、隣接関係情報生成部とを有する。
図8は、索引作成装置の語彙索引のさらなる機能を説明するブロック図である。図に示すように、索引作成装置IXRは、語句情報生成部と、隣接関係情報生成部とを有する。語句情報生成部は、語彙ID化部で出力された語彙情報を入力とし、連続した語彙から特定の法則に基づき、語句情報を生成する手段である。ここでいう特定の法則とは、名詞もしくは名詞とみなす語句が連続するまとまりを語句として生成するものである。生成した語句情報は語句情報索引に登録する。そして、語彙情報に語句情報を追加したものを出力する。
隣接関係情報生成部は、語句情報生成部にて出力された語彙情報、語句情報を入力とし、語彙(語句)同士の隣接関係情報を作成する手段である。生成した隣接情報は隣接語彙(語句)索引に登録する。索引作成装置IXRは、語句検索索引追加部をさらに有し、語句検索索引追加部は、対象のテキスト情報(情報読み取り情報単位)毎に、作成した語句情報をまとめて検索索引に追加する手段である。上記の各部は、一例であり、既存の形態素技法を使用した他の機能であってもよい。以下、同様である。
図9は、検索支援装置に含まれる語彙抽出部の機能の一例を示すブロック図である。語彙抽出部PEXは、形態素解析部、語彙分割部、語彙連結部、語彙ID化部、および不要語彙情報付加部を有する。各部の機能は、上述した通りである。
図10は、検索支援装置に含まれる検索部の機能の一例を示すブロック図である。検索部SEAは、同義語変換部と索引検索部とを有する。同義語変換部は、語彙抽出部で出力された語彙情報を入力として、語彙情報の語彙を同義語に変換する手段である。また、同義語変換部は、あらかじめ設定した同義語彙設定情報に登録されている語彙が、語彙情報にあった場合にのみ、その語彙情報を削除し同義語彙情報を追加する。処理された語彙情報を出力する。索引検索部は、同義語変換部にて出力された語彙情報を入力として、検索索引から検索結果を導出する手段である。即ち、索引検索部は、語彙情報の語彙IDを下位情報として持つ、検索索引のIDを取得し、そのヒットする語彙ID数の降順のリストを検索結果情報として出力する。
図11は、検索支援装置に含まれる関連語彙抽出部の機能の一例を示すブロック図である。関連語彙抽出部PREは、語句情報抽出部、同義情報追加部、疑似確定語句取得部、上位語句取得部、および隣接語彙(語句)取得部を有する。
語句情報抽出部は、語彙抽出部から出力された語彙情報を入力として、その中に含まれる語彙(語句)情報を抽出する手段である。即ち、語句情報抽出部は、連続する語彙が、語句情報内の語句の構成語彙と符合する場合、語句と判断し、語句情報として語彙情報とともに出力する。同義情報追加部は、語句情報抽出部から出力された語句・語彙情報を入力とし、同義語情報を付加する手段であって、あらかじめ設定した同義語設定情報を参照し、符合する語彙情報があった場合に同義語情報を付加し、符合しない語句・語彙情報とともに出力する。疑似確定語句取得部は、同義情報追加部で出力された語彙情報を入力とし、語句索引を参照して、語句を取得する手段であって、語彙情報に、語句を構成する語彙要素がすべて揃っている語句を語句索引より取得し、疑似確定語句として出力する(語彙を入れ替えても極力拾ってナビで可能性のある語句を提示してもよい。)。上位語句取得部は、同義情報追加部で出力された語句・語彙情報および疑似確定語句を入力とし、語句索引を参照して、上位語句を取得する手段であって、語句・語彙情報毎に、上位語句を構成する語句または語彙要素の一部と符合し、かつ直近の上位語句のみを取得し、上位語句情報として出力する。隣接語彙(語句)取得部は、語句情報抽出部から出力された語句・語彙情報を入力とし、隣接語彙索引を参照して、隣接語彙(語句)を取得する手段であって、語句・語彙情報毎に、隣接語彙を取得し、出力する。
図12は、検索支援装置に含まれる絞り込み有効語彙判定部の機能の一例を示すブロック図である。絞り込み語句有効判定部FPDは、関連語彙抽出部で出力された、上位語句情報および隣接語彙(語句)情報と、検索装置で出力された検索結果情報を入力として、検索結果情報をより絞り込むための上位語句および隣接語句を判定する手段であって、検索索引を参照し、上位語句および隣接語彙(語句)が検索結果情報を減らすことに有効かどうかをチェックし、減らすことが可能な上位語句および隣接語彙(語句)を絞り込み有効語句として出力する。
以下、インターネット上の実際のテキスト情報に本装置を適用した結果を図13〜図31を参照しながら説明する。
図13は、本装置が使用するインターネット上の実際のテキスト情報の模式図である。図に示すように、役所のQAサイト(がん検診についてまとめたもの)のテキスト情報を使用した。これは、サイト収集して、1リンクを1情報としてファイルとしたものである。例えば、以下のようなテキスト情報である。
・がん検診を受けたいのですが、どこに申し込めばよいですか http://xxx.jp/mmm1
・区の子宮がん検診とは別に、… http://xxx.jp/mmm4
・奇数年齢の方の子宮がん検診受診までの流れはこちらhttp://xxx.jp/mmm2
・奇数年齢の方の乳がん検診受診までの流れはこちら http://xxx.jp/mmm3
これらは、1行(=1ページリンク)1情報として扱う。
図14は、索引作成装置IXRに含まれる検索索引作成部の処理を示す模式図である。図15は、索引作成装置IXRに含まれる検索索引作成部の処理(図14の後続処理)を示す模式図である。図に示すように、これは、「がん検診を受けたいのですが、どこに申し込めばよいですか http://xxx.jp/mmm1」の検索索引作成の処理である。このテキスト情報(1つのURL,即ち、1つのウェブサイト)には、図15のような検索索引が設定される。
図16は、索引作成装置IXRに含まれる語彙索引作成部の処理を示す模式図である。図17は、索引作成装置IXRに含まれる語彙索引作成部の処理(図16の後続処理)を示す模式図である。図18は、索引作成装置IXRに含まれる語彙索引作成部の処理(図17の後続処理)を示す模式図である。図に示すように、これは、「奇数年齢の方の乳がん検診受診までの流れはこちら・・・http://xxx.jp/mmm3」の語彙索引作成の処理である。このテキスト情報(1つのURL,即ち、1つのウェブサイト)には、図17のような語彙索引が設定される。図17の語句情報生成では、原則として、連続する名詞のみを処理対象としているが、語句が2,3個(所定の複数の語句数)離れたものを対象としてもよいし、動詞を含ませてもよい。また、図18に示すように、作成された語彙索引(L004 がん検診)を検索索引に付加することが好適である。
次に、図を参照しながら、ユーザにより入力されたユーザ検索語句を「がん検診について」とした場合に、どのような処理ロジックでどのような「絞り込み語句」が提示されるのかを説明する。
図19は、ユーザ検索語句を取得したときの処理の一例を示す模式図である。図に示すように、ユーザ検索語句を「がん検診について」とした場合は、「がん」「検診」「について」に分割され、「について」は不要とされ、語句としては、「がん」「検診」の2つが有効となる。
図20は、索引検索で検索したときの処理の一例を示す模式図である。図に示すように、不要語を除いた「がん」「検診」の2つの語彙で検索された検索結果情報が得られる。
図21は、絞り込み語句(絞り込み検索語句)の生成処理の一例を示す模式図である。図22は、絞り込み語句(絞り込み検索語句)の生成処理(図21の後続処理)の一例を示す模式図である。図に示すように、多数の関連語彙が抽出・生成されるが、その中で、上位語句として、「子宮がん検診」、「大腸がん検診」、「がん検診一覧」が選択されている。但し、これらはまだ候補であるが、絞り込み語句(語彙)として使用可能である。次に絞り込み語句として有効か否かを判定する。
図23は、絞り込み語句(絞り込み検索語句)の有効語彙判定処理(図22の後続処理)の一例を示す模式図である。図に示すように、候補であった上位語句の「子宮がん検診」、「大腸がん検診」、「がん検診一覧」がそのまま有効と判定され、提示されている。
次に、実際に、本検索支援プログラムをPCに導入し、ウェブブラウザーで検索する実施例を2つ示す。
<実施例1>
図24は、本検索支援プログラムのユーザ検索語句を入力する画面インターフェイスを示す図である。図に示すように、設定としては、ユーザは、「がんの検診」について知りたいとする。本装置の効果を際立たせるために、そこでとりあえず、広めのユーザ検索語句「検診」を入れて検索することにする。ちなみに、現実には次ページの「がん検診」からの方が適切であるが、ここでは、「漠然としたキーワード」或いは「一般的な広めのキーワード」から本装置が適切な「絞り込み検索語句」を提示できることを示すために、あえて、「検診」で検索させた。
図25は、本検索支援プログラムで検索語句を絞り込ませたときの画面インターフェイスを示す図である。
ユーザ検索語句:検診
絞り込み検索語句その1:がん検診、歯周疾患検診、乳がん検診、胃がん検診
絞り込み検索語句その2:乳がん、実施、疾患、妊婦・・・
検索結果情報(23件)
1.10月は乳がん・・・
2.21年4月から・・・
3.がん検診を受けたい・・・
上記のように、絞り込み検索語句その1では、「検診」という語彙を含む上位語句が表示される。
図26は、本検索支援プログラムで検索語句を、さらに絞り込ませたときの画面インターフェイスを示す図である。この図は、図25にて、「絞り込み検索語句その1」の「がん検診」を選択したときの検索結果である。即ち、ここでは、「がん検診」が、新たな「ユーザ検索語句」となる。即ち、以下のようになる。
ユーザ検索語句:がん検診
絞り込み検索語句その1:大腸がん検診、子宮がん検診、がん検診一覧
絞り込み検索語句その2:受ける、種類、子宮・・・
検索結果情報(12件)
1.がん検診を受けたい・・・
2.どんな種類のがん検診・・・
3. 奇数年齢の方の子宮がん・・・
上記のように、より具体的に「がん検診」の対象部位を狭めるような効果的な「絞り込み検索語句」が抽出、生成されていて、より、効果的で対象を絞った検索結果情報が得られるのが示されている。また、絞り込みが成功して、検索結果情報のヒット数が、23件から12件へと半減しているのが分かる。
図27は、本検索支援プログラムで検索語句を、またさらに絞り込ませたときの画面インターフェイスを示す図である。この図は、図26にて、「絞り込み検索語句その1」の「子宮がん検診」を選択したときの検索結果である。即ち、ここでは、「子宮がん検診」が、さらに新たな「ユーザ検索語句」となる。即ち、以下のようになる。
ユーザ検索語句:子宮がん検診
絞り込み検索語句その1:大腸がん検診受診
絞り込み検索語句その2(意味的に関連がある言葉、語句、語彙):受診、方、区、・・・
検索結果情報(3件)
1.奇数年齢の方の子宮がん
2.子宮がん検診
3.区の子宮がん検診・・・
上記のように、より具体的に「子宮がん検診」の対象部位を狭めるような効果的な「絞り込み検索語句」が抽出、生成されていて、より、効果的で対象を絞った検索結果情報が得られるのが示されている。また、さらに絞り込みが成功して、検索結果情報のヒット数が、12件から3件へと減少しているのが分かる。
図28は、本検索支援プログラムで検索語句を、またさらに絞り込ませたときの画面インターフェイスを示す図である。この図は、図27にて、「絞り込み検索語句その1」の「子宮がん検診受診」を選択したときの検索結果である。即ち、ここでは、「子宮がん検診受診」が、さらに新たな「ユーザ検索語句」となる。即ち、以下のようになる。
ユーザ検索語句:子宮がん検診受診
絞り込み検索語句その1(意味的に関連がある言葉、語句、語彙):流れ、方
検索結果情報(2件)
1.奇数年齢の方の子宮がん
2.区の子宮がん検診・・・
上記のように、より具体的に「子宮がん検診受診」の対象部位を狭めるような効果的な「絞り込み検索語句」が抽出、生成されていて、より、効果的で対象を絞った検索結果情報が得られるのが示されている。また、さらに絞り込みが成功して、検索結果情報のヒット数が、3件から2件へと減少しているのが分かる。
<実施例2>
図29は、本検索支援プログラムのユーザ検索語句を入力する画面インターフェイスを示す図である。図に示すように、設定としては、ユーザは、「年金の受給」について知りたいとする。本装置の効果を際立たせるために、そこでとりあえず、広めであり、少し漠然としたユーザ検索語句「年金」を入れて検索することにする。ここでは、「漠然としたキーワード」或いは「一般的な広めのキーワード」から本装置が適切な「絞り込み検索語句」を提示できることを示すために、あえて、「年金」で検索させた。
図30は、本検索支援プログラムで検索語句を絞り込ませたときの画面インターフェイスを示す図である。
ユーザ検索語句:年金
絞り込み検索語句その1:年金相談、年金特別徴収、年金収入・・・・
絞り込み検索語句その2:受ける、引き落とす、・・・・受給、税・・・
検索結果情報(70件)
1.2か所から・・・
2.65歳から・・・
3.65歳から・・・
上記のように、絞り込み検索語句その1では、「年金相談」などという語彙を含む上位語句が表示される。また、絞り込み検索語句その2では、「受給」などという語彙を含む隣接語句が表示される。
図31は、本検索支援プログラムで検索語句を、絞り込ませたときの画面インターフェイスを示す図である。この図は、図30にて、「絞り込み検索語句その2」の「受給」を選択したときの検索結果である。即ち、ここでは、「年金 受給」が、新たな「ユーザ検索語句」となる。即ち、以下のようになる。
ユーザ検索語句:年金 受給
絞り込み検索語句その1:国民年金
絞り込み検索語句その2:年金相談、年金特別徴収・・・
検索結果情報(4件)
1.65歳未満で・・・
2.国民年金の受給について
3.相続税・・・
4.相続税・・・
上記のように、より具体的に「年金」の対象を狭めるような効果的な「絞り込み検索語句」が抽出、生成されていて、より、効果的で対象を絞った検索結果情報が得られるのが示されている。また、絞り込みが成功して、検索結果情報のヒット数が、70件から4件へと減少しているのが分かる。
<実施態様2>
これは、サーバとして本装置を実現させた場合の実施態様である。図32は、本発明の一実施態様による検索支援装置の概要を示すブロック図である。図に示すように、検索支援サーバ200(SAS)は、制御部(CPU、演算処理装置、プロセッサ)210、入力部IN、通信部COM、記憶部220、および、表示部DISを有する。記憶部220は、検索対象のテキスト情報に基づき作成された、検索索引を含む検索索引マスターテーブル、および、語彙から成る語彙索引を含む語彙索引マスターテーブル、を格納する。制御部210は、検索語句取得部PAC、語彙抽出部PEX、検索部SEA、関連語彙抽出部PRE、出力部OUTを有する。また、制御部210は、絞り込み有効語彙判定部FPDと絞り込み件数関連付け部とを有してもよいが、これらの機能は、実施態様1と同じ名称や符号のものは特に言及しない限り同様のものである。
検索語句取得部PACは、ユーザ端末からの検索処理要求である、ユーザにより入力された検索処理要求としてのユーザ検索語句を、受信部COM、ネットワークNETを介して取得(受信)する。語彙抽出部PEXは、検索語句取得部により取得されたユーザ検索語句から(形態素解析技術を利用して)語彙情報を抽出する。検索部SEAは、前記語彙抽出部により抽出された語彙情報に基づき、前記検索索引マスターテーブルを参照して、抽出された語彙情報に対応する複数の検索索引を含む検索結果情報を生成する。関連語彙抽出部PREは、前記検索語句取得部により取得されたユーザ検索語句に基づき、前記語彙索引マスターテーブルを参照して、取得されたユーザ検索語句に関連する語彙(または語句)を関連語彙として抽出する。出力部OUT(送信部である通信部としてもよい)は、検索部により生成された検索結果情報と共に、前記関連語彙抽出部により抽出された関連語彙を含む絞り込み検索語句をユーザ端末に送信する(出力する)。
検索語句取得部PACは、通信部COMやネットワークNETを介して接続された端末PC1やPC2、携帯端末PDA1、携帯電話端末MS1などのユーザにより入力されたユーザ検索語句を取得する。また、検索結果情報は、関連語彙を含む絞り込み検索語句と共に、通信部を介して、ユーザが使用し、検索処理を要求してきた端末PC1などに送信される(返送される)。
最後に、本発明の各実施態様による利点や効果を説明する。本発明によれば、入力された用語に対応して、上位の項目と絞り込みに関連する用語を自動的に抽出し、利用者が最短でかつ内容を理解できるナビゲーションを行い、より少ない回数で「解」を得ることが可能である。また、業界用語辞書を自動生成することが可能であるため、辞書構築が不要となる利点がある。
データの読込、検索のための辞書、用語関連づけ、上位項目の抽出のための語彙構造などすべて自動で構築可能である。初期の追加作業としては、同義語処理、単語分解の是正、ゴミ処理、等のみである。後に発生するデータの追加、変更、修正等はすべて自動処理することが可能である。夜間バッチ処理にてデータ更新でき、常に最新のデータを自動処理で提供することが可能である。
本発明の各実施態様の応用例を説明する。
(1)イントラネット内の情報の検索(情報整理の支援・検索支援)
自動収集ツール(text,word,PDF対応で自動読込し、検索のための単語の関連構造を自動構築することが可能である。どこに何が書かれているのか、どのような情報が眠っているのか、を自在に検証することを実現できる。
(2)文脈が出鱈目な文書にも対応(とりあえず対応せざる得ないネットワークへの対応)
本発明の装置やプログラムを利用すれば、SNSなどで好き勝手に書かれ、携帯電話言語(隠語)などもどのような意味合いで書かれているのかを、調査・分類できる。知りたい内容を文章で入力すると自動的にそれに類する文章群を抽出することも可能である。
例えば、アンケートなどの文章を解析対象とした場合、単語のヒットや統計でなく、知りたい内容に沿ったグループ化を実現することができる。分類したいファクターからの整理、そのファクターでは捉えられない内容の抽出と分類、分類に入らないがヒントとなる捉え方など、調査・研究者にすぐれたものである。
本発明による装置やプログラムは、すべて自動処理することが可能であるため、携帯電話による問い合わせによる膨大なデータを解析対象にすることが可能である。携帯電話になると問い合わせ件数も数百万件となります。このような膨大の情報は、その整理に膨大な経費が必要となり、維持も大変でした。SB技術は膨大なデータにも対応する技術です。
また、本発明の各実施態様の応用例を説明する。例えば、作成した語彙索引を利用し、文書に含まれる語彙および語句の包含関係や隣接関係の一覧を取得できる。さらに、その情報を利用することで、語句の記述の誤り(文書内での語句の記述統一有無)を発見するための支援に利用することも可能である。
本発明を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本発明の範囲に含まれることに留意されたい。例えば、各部、各ステップなどに含まれる処理や機能などは論理的に矛盾しないように再配置可能であり、複数の手段/部やステップなどを1つに組み合わせたり、或いは分割したりすることが可能である。或いは、本発明による装置、方法、プログラムなどの一部の構成要素、機能、処理、ステップなどを遠隔地のサーバなどに配置することも可能であることに注意されたい。
100 検索支援装置
110 制御部
120 記憶部
200 検索支援サーバ
210 制御部
220 記憶部
COM 通信部
DIS 表示部
FNR 絞り込み件数関連付け部
FPD 絞り込み有効語彙有効判定部
HSI 検索結果情報
IAC 索引取得部
IDS 情報提供サーバ
IN 入力部
IXR 索引作成装置
KBD キーボード
MS1 携帯電話端末
MUS マウス
NET ネットワーク
OUT 出力部
PAC 検索語句取得部
PC1 端末
PDA1 携帯端末
PEX 語彙抽出部
PIM 語彙索引マスターテーブル
PRE 関連語彙抽出部
SEA 検索部
SIM 検索索引マスターテーブル
TXI テキスト情報
USP ユーザ検索語句
WEBC ウェブコンテンツ

Claims (7)

  1. 検索支援装置であって、
    検索対象のテキスト情報に基づき作成された、検索索引を含む検索索引マスターテーブル、および、語彙から成る語彙索引を含む語彙索引マスターテーブル、を取得する索引取得部と、
    ユーザにより入力されたユーザ検索語句を取得する検索語句取得部と、
    前記検索語句取得部により取得されたユーザ検索語句から語彙情報を抽出する語彙抽出部と、
    前記語彙抽出部により抽出された語彙情報に基づき、前記検索索引マスターテーブルを参照して、抽出された語彙情報に対応する複数の検索索引を含む検索結果情報を生成する検索部と、
    前記検索語句取得部により取得されたユーザ検索語句に基づき、前記語彙索引マスターテーブルを参照して、取得されたユーザ検索語句に関連する語彙を関連語彙として抽出する関連語彙抽出部と、
    前記検索部により生成された検索結果情報と共に、前記関連語彙抽出部により抽出された関連語彙を含む絞り込み検索語句を出力する出力部と、
    を有する検索支援装置。
  2. 請求項1に記載の検索支援装置において、
    前記絞り込み検索語句に基づき、前記検索索引マスターテーブルを参照して、複数の検索索引を含む、絞り込み検索結果情報を生成し、絞り込み検索結果情報の検索索引の数と、絞り込み前の検索索引の数とを比較し、所定の絞り込み基準を満たすものだけを前記絞り込み検索語句とする絞り込み有効語彙判定部、をさらに有する、
    ことを特徴とする検索支援装置。
  3. 請求項1に記載の検索支援装置において、
    前記絞り込み検索語句に基づき、前記検索索引マスターテーブルを参照して、複数の検索索引を含む、絞り込み検索結果情報を生成し、絞り込み検索語句毎に、絞り込み検索結果情報の検索索引の数を関連付ける、絞り込み件数関連付け部、をさらに有し、
    前記出力部が、
    前記絞り込み検索語句毎に、関連付けられた、絞り込み検索結果情報の検索索引の数をさらに出力する、
    ことを特徴とする検索支援装置。
  4. 演算処理装置を請求項1〜3に記載の検索支援装置として機能させる検索支援プログラム。
  5. 検索処理をコンピュータに実行させるための検索支援装置プログラムであって、
    検索対象のテキスト情報に基づき作成された、検索索引を含む検索索引マスターテーブル、および、語彙から成る語彙索引を含む語彙索引マスターテーブル、を取得する索引取得部と、
    ユーザにより入力されたユーザ検索語句を取得する検索語句取得部と、
    前記検索語句取得部により取得されたユーザ検索語句から語彙情報を抽出する語彙抽出部と、
    前記語彙抽出部により抽出された語彙情報に基づき、前記検索索引マスターテーブルを参照して、抽出された語彙情報に対応する複数の検索索引を含む検索結果情報を生成する検索部と、
    前記検索語句取得部により取得されたユーザ検索語句に基づき、前記語彙索引マスターテーブルを参照して、取得されたユーザ検索語句に関連する語彙を関連語彙として抽出する関連語彙抽出部と、
    前記検索部により生成された検索結果情報と共に、前記関連語彙抽出部により抽出された関連語彙を含む絞り込み検索語句を出力する出力部と、
    をコンピュータに機能させるための検索支援装置プログラム。
  6. ユーザ端末からの検索処理要求をコンピュータに実行させるための検索支援装置プログラムであって、
    検索対象のテキスト情報に基づき作成された、検索索引を含む検索索引マスターテーブル、および、語彙から成る語彙索引を含む語彙索引マスターテーブル、を格納する記憶部と、
    ユーザ端末からの検索処理要求である、ユーザにより入力された検索処理要求としてのユーザ検索語句を取得する検索語句取得部と、
    前記検索語句取得部により取得されたユーザ検索語句から語彙情報を抽出する語彙抽出部と、
    前記語彙抽出部により抽出された語彙情報に基づき、前記検索索引マスターテーブルを参照して、抽出された語彙情報に対応する複数の検索索引を含む検索結果情報を生成する検索部と、
    前記検索語句取得部により取得されたユーザ検索語句に基づき、前記語彙索引マスターテーブルを参照して、取得されたユーザ検索語句に関連する語彙を関連語彙として抽出する関連語彙抽出部と、
    前記検索部により生成された検索結果情報と共に、前記関連語彙抽出部により抽出された関連語彙を含む絞り込み検索語句をユーザ端末に送信する送信部と、
    をコンピュータに機能させるための検索支援装置プログラム。
  7. 請求項4〜6のいずれか1項に記載の検索支援装置プログラムを格納したコンピュータ可読な記憶媒体。
JP2015173115A 2015-09-02 2015-09-02 検索支援装置、検索支援プログラムおよび記憶媒体 Pending JP2017049836A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015173115A JP2017049836A (ja) 2015-09-02 2015-09-02 検索支援装置、検索支援プログラムおよび記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015173115A JP2017049836A (ja) 2015-09-02 2015-09-02 検索支援装置、検索支援プログラムおよび記憶媒体

Publications (1)

Publication Number Publication Date
JP2017049836A true JP2017049836A (ja) 2017-03-09

Family

ID=58279766

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015173115A Pending JP2017049836A (ja) 2015-09-02 2015-09-02 検索支援装置、検索支援プログラムおよび記憶媒体

Country Status (1)

Country Link
JP (1) JP2017049836A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020113047A (ja) * 2019-01-11 2020-07-27 富士ゼロックス株式会社 情報処理装置及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002230037A (ja) * 2001-01-31 2002-08-16 Kddi Corp 検索システム、方法及びプログラム
JP2002342373A (ja) * 2001-05-21 2002-11-29 Nippon Telegr & Teleph Corp <Ntt> 文書検索方法、装置、プログラム、同プログラムを記録した記録媒体
JP2006178599A (ja) * 2004-12-21 2006-07-06 Fuji Xerox Co Ltd 文書検索装置および方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002230037A (ja) * 2001-01-31 2002-08-16 Kddi Corp 検索システム、方法及びプログラム
JP2002342373A (ja) * 2001-05-21 2002-11-29 Nippon Telegr & Teleph Corp <Ntt> 文書検索方法、装置、プログラム、同プログラムを記録した記録媒体
JP2006178599A (ja) * 2004-12-21 2006-07-06 Fuji Xerox Co Ltd 文書検索装置および方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020113047A (ja) * 2019-01-11 2020-07-27 富士ゼロックス株式会社 情報処理装置及びプログラム
JP7302173B2 (ja) 2019-01-11 2023-07-04 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Similar Documents

Publication Publication Date Title
US9323827B2 (en) Identifying key terms related to similar passages
US9558263B2 (en) Identifying and displaying relationships between candidate answers
US9507867B2 (en) Discovery engine
US20160041986A1 (en) Smart Search Engine
US9830379B2 (en) Name disambiguation using context terms
US20120278302A1 (en) Multilingual search for transliterated content
US20150088846A1 (en) Suggesting keywords for search engine optimization
JP2015523659A (ja) 多言語混合検索方法およびシステム
WO2012178152A1 (en) Methods and systems for retrieval of experts based on user customizable search and ranking parameters
CN109643315B (zh) 基于结构化网络知识自动生成中文本体库的方法、系统、计算机设备和计算机可读介质
JP2008186452A (ja) 検索システム及び検索方法
KR101651780B1 (ko) 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템
JP5497105B2 (ja) 文書検索装置および方法
JP5165719B2 (ja) 情報処理装置、データ抽出方法及びプログラム
Almeida et al. Neuralsearchx: Serving a multi-billion-parameter reranker for multilingual metasearch at a low cost
JP2013222418A (ja) パッセージ分割方法、装置、及びプログラム
JP2017049836A (ja) 検索支援装置、検索支援プログラムおよび記憶媒体
CN114020867A (zh) 一种搜索词的扩展方法、装置、设备及介质
JP5072792B2 (ja) 情報量に応じたページを優先的に表示する検索方法、プログラム及びサーバ
Ren et al. Role-explicit query extraction and utilization for quantifying user intents
TW201822031A (zh) 以文字資訊建立圖表索引方法及其電腦程式產品
Cameron et al. Semantics-empowered text exploration for knowledge discovery
Vuković et al. Quote Erat Demonstrandum: A Web Interface for Exploring the Quotebank Corpus
Iyad et al. Towards supporting exploratory search over the Arabic web content: The case of ArabXplore
Dinesh Real world evaluation of approaches to research paper recommendation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180818

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190827

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191001

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20191117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200616

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210112