JP2004295301A - Document retrieval device - Google Patents
Document retrieval device Download PDFInfo
- Publication number
- JP2004295301A JP2004295301A JP2003084461A JP2003084461A JP2004295301A JP 2004295301 A JP2004295301 A JP 2004295301A JP 2003084461 A JP2003084461 A JP 2003084461A JP 2003084461 A JP2003084461 A JP 2003084461A JP 2004295301 A JP2004295301 A JP 2004295301A
- Authority
- JP
- Japan
- Prior art keywords
- document
- related word
- keyword
- word
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、キーワードと、このキーワードに関係する関連語とに基づいて文書を検索する文書検索装置に関し、特に、関連語の表示に関するものである。
【0002】
【従来の技術】
従来、任意の文書に対し、複数のキーワードおよび各キーワードの関連語を与えて検索を行い、検索結果として、文書中のキーワードや関連語に一致する部分を強調表示する装置があった(例えば、特許文献1参照)。このような装置では、あるキーワードとその関連語を一つの集合としてキーワード毎に集合を作り、集合毎に異なる強調表示を行うことにより、同じキーワードから派生した部分は文書中のどこであるかが判別可能な強調表示としている。
【0003】
また、強調表示する場合に、元のキーワードとその類義語では強調表示方法を変えることにより、元のキーワードと類義語とを判別できるようにしたものがあった(例えば、特許文献2参照)。
【0004】
【特許文献1】
特開平5−274314号公報
【特許文献2】
特開平8−255163号公報
【0005】
【発明が解決しようとする課題】
上記従来の装置による従来技術としては、キーワードやその関連語で検索された文書を表示するとき、同じキーワードから派生した関連語は例えば同じ色で、そしてキーワードは実線で、また、関連語は破線のアンダーラインを付与するといった異なる強調表示を行っていた。
このような表示方法を行えば、ある強調表示された単語について、それが関連語であるのか、キーワードであるのか、また、同じキーワードを元にした関連語であるか等を知ることができる。
【0006】
しかしながら、ある強調表示された単語が、ユーザが入力したキーワードではない、即ち、関連語である場合において、ユーザが元のキーワードのどれを元にその結果になったのかを知りたい場合がある。この場合、文書全体から同じ色で強調された単語でかつキーワードを示す強調表示された単語を探すといったことを行わないと、その強調表示された関連語がどのキーワードから派生したものかが分からないという問題があった。
【0007】
このような問題は、文書が長文などの場合、画面をスクロールするなどして探す必要があり非常に効率が悪い。また、文書中に元のキーワードが含まれていない場合は、どのキーワードに基づいているか見つけることができない。しかも、その事実は事前に知ることができないために、ユーザが文書を無駄に探すことにもなる。特に、ユーザが知らない単語などが関連語として出現した場合などでは、このような状態では非常に使いづらいという問題があった。
【0008】
【課題を解決するための手段】
本発明は、前述の課題を解決するため次の構成を採用する。
〈構成1〉
文書から、所定のキーワードに基づいて生成された関連語を検索する検索処理部と、文書を表示する場合に、検索処理部の検索結果に基づいて文書中の関連語を強調表示すると共に、関連語の元キーワードを判別可能な状態で表示する表示制御部とを備えたことを特徴とする文書検索装置。
【0009】
〈構成2〉
構成1に記載の文書検索装置において、関連語と元キーワードとの関係を示す対応キー情報を記憶する対応キー情報記憶部と、関連語を強調表示する場合、対応キー情報記憶部を参照して関連語の元キーワードを求める表示制御部とを備えたことを特徴とする文書検索装置。
【0010】
〈構成3〉
検索対象となる文書中の、所定のキーワードに基づいて生成された関連語となり得る文字列を含む各文字列の位置情報を示す単語情報と、検索するためのキーワードから関連語を生成する関連語展開部と、単語情報を参照して、関連語展開部で生成された関連語の文字列と一致する文字列があった場合は、一致した文字列の文書中の位置情報と、関連語の元キーワードとを一致情報として記憶する一致情報記憶部と、文書を表示する場合に、一致情報に基づいて文書中の関連語の位置を強調表示すると共に、関連語の元キーワードを判別可能な状態で表示する表示制御部とを備えたことを特徴とする文書検索装置。
【0011】
〈構成4〉
構成1〜3のいずれかに記載の文書検索装置において、関連語と元キーワードとを併記することで、関連語の元キーワードを判別可能な状態で表示する表示制御部を備えたことを特徴とする文書検索装置。
【0012】
〈構成5〉
構成1〜3のいずれかに記載の文書検索装置において、関連語を指示した場合に元キーワードをポップアップ表示することで、関連語の元キーワードを判別可能な状態で表示する表示制御部を備えたことを特徴とする文書検索装置。
【0013】
〈構成6〉
構成1〜3のいずれかに記載の文書検索装置において、関連語から元キーワードにハイパーリンクを張ったハイパーテキストとすることで、関連語の元キーワードを判別可能な状態で表示する表示制御部を備えたことを特徴とする文書検索装置。
【0014】
【発明の実施の形態】
以下、本発明の実施の形態を具体例を用いて詳細に説明する。
《具体例1》
〈構成〉
図1は、本発明の文書検索装置の具体例1を示す構成図である。
図の装置は、例えばコンピュータで構成され、キーワード入力手段1、関連語展開部2、対応キー情報記憶部3、文書データベース4、検索処理部5、表示制御部6、表示部7を備えている。
【0015】
キーワード入力手段1は、ユーザが文書検索に用いるキーワードを指定するための手段であり、キーボードやマウス等の入力装置からなる。関連語展開部2は、キーワード入力手段1から入力されたキーワードと関係する関連語を生成する機能部であり、具体例では関連語として類義語であるとする。この関連語展開部2は、例えば、ある単語に対する類義語を記憶した類義語データベースを備え、この類義語データベースを検索して、キーワードに該当する単語の類義語を抽出するよう構成されている。また、関連語展開部2は、生成された類義語と元のキーワードとを対応付けて対応キー情報記憶部3に記憶する機能を有している。
【0016】
対応キー情報記憶部3は、例えばハードディスク装置等の記憶装置あるいは主メモリ上に一時的に形成される一時記憶部からなり、関連語展開部2で得られた類義語と、その類義語の元のキーワードとを対応付けて示す対応キーを記憶する機能を有している。
【0017】
図2は、対応キー情報記憶部3における対応キー情報の説明図である。
図示のように、類義語と元キーワードのとが対となって対応キー情報を構成している。
【0018】
文書データベース4は、検索対象となる文書を格納するハードディスク装置等からなる記憶部、あるいは外部装置から文書を取り込むためのネットワークのインタフェース等である。検索処理部5は、キーワード入力手段1から入力されたキーワードと、関連語展開部2で生成された類義語を用いて、文書データベース4中の対象文書からこれらキーワードおよび類義語を検索する機能部である。尚、この検索機能は、一般的な文書検索の手法を用いて実現されている。
【0019】
表示制御部6は、文書データベース4中の対象文書を表示する場合に、その対象文書中のキーワードと類義語の箇所を強調表示すると共に、対応キー情報記憶部3の対応キーに基づいて、類義語の元キーワードを判別可能な状態で表示部7に表示させる機能部である。この表示制御部6は、単語抽出処理部61、対応キー検索処理部62、強調処理部63を備えている。
【0020】
単語抽出処理部61は、検索処理部5で得られた文書から、キーワード入力手段1で入力されたキーワードおよび関連語展開部2で生成された類義語と一致する文字列をその文字位置と共に抽出する機能部である。対応キー検索処理部62は、単語抽出処理部61で得られた文字列について、対応キー情報記憶部3を検索し、対応した元キーワードを取得する機能部である。また、抽出された文字列がキーワードそのものであった場合は、対応キー情報記憶部3に対応キー情報として記録されていないことで判定することができる。強調処理部63は、検索処理部5で得られた文書に対し、単語抽出処理部61で抽出された文字列部分について強調表示を行うよう修正を加える。この時、対応キー検索処理部62により対応したキーワードが検索された文字列に関しては、そのキーワードが分かるよう強調表示させる機能部である。
【0021】
この元キーワードが判別可能な状態で表示する構成としては、例えば、類義語の文字列の横に、「()」内に、その類義語の元となったキーワードを入れて文書中に挿入する等のものがある。また、強調表示の構成としては、例えば文書がHTMLで記述されているのであれば、特開2002−73685「検索結果提供方法・検索結果提供装置」等に記載されているような、表示形態を変更するHTMLタグを、抽出された類義語の文字列および併記するように挿入した元キーワードの前後に挿入するなどの方法を用いて実現可能である。
【0022】
尚、上記の関連語展開部2、検索処理部5および表示制御部6は、それぞれの構成に対応したソフトウェアと、これらのソフトウェアを実行するためのCPUやメモリ等のハードウェアから実現されているものである。
【0023】
表示部7は、ディスプレイ等からなり、キーワード入力手段1への入力内容を表示したり、検索結果を表示したりするための表示装置である。
【0024】
〈動作〉
図3は、具体例1の動作を示すフローチャートである。
先ず、ユーザがキーワード入力手段1を用いて、キーワードとして「キンセンカ」「マリーゴールド」を入力したとする(ステップS1)。
【0025】
次に、関連語展開部2は、キーワード入力手段1で入力されたキーワード「キンセンカ」「マリーゴールド」に対して、それぞれの類義語を生成する(ステップS2)。この処理としては、類義語の辞書等を備え、この辞書を検索するといった一般的な手法で行うものである。この結果、先ずキーワード「キンセンカ」については、類義語「金盞花」「カレンデュラ」「唐金盞」が得られたとする。関連語展開部2は、これらの類義語を元キーワードである「キンセンカ」に対応付けて対応キー情報記憶部3に記憶する(ステップS3)。また、「マリーゴールド」に対しても、類義語「タゲテス」が得られたとすると、この「タゲテス」に元キーワードである「マリーゴールド」を対応付けて対応キー情報記憶部3に記憶する。この状態が図3に示す対応キー情報である。
【0026】
検索処理部5では、キーワード入力手段1により入力されたキーワード「キンセンカ」「マリーゴールド」および関連語展開部2より得られた類義語「金盞花」「カレンデュラ」「唐金盞」「タゲテス」を用いて、文書データベース4からそれらの単語を含む文書を検索する(ステップS4)。尚、この検索処理は既知の文書検索の手法を用いて行うものである。その結果、文書として次のようなものが抽出されたとする。
【0027】
図4は、文書データベース4から抽出された文書の一例を示す説明図である。
図示のように、キーワード、類義語である「カレンデュラ」「マリーゴールド」「タゲテス」が含まれている文書が抽出される。
【0028】
尚、図2のフローチャートでは、関連語展開部2による類義語生成および類義語記憶処理(ステップS2〜ステップS3)の後、検索処理部5による検索処理(ステップS4)を行っているが、これらの処理は逆に行ってもよく、また、並行処理であってもよい。
【0029】
次に、表示制御部6では表示制御処理を行う(ステップS5)。この表示制御処理では、先ず、単語抽出処理部61が、検索処理部5で検索された文書から、キーワード入力手段1から入力されたキーワード「キンセンカ」「マリーゴールド」と、関連語展開部2より得られた類義語「金盞花」「カレンデュラ」「唐金盞」「タゲテス」の文字列を検出する。この結果、図3中の文書中の位置W11、W12に「カレンデュラ」、W13、W14に「マリーゴールド」、W15に「タゲテス」が検出される。
【0030】
次に、対応キー検索処理部62により、単語抽出処理部61で得られた「カレンデュラ」「マリーゴールド」「タゲテス」について、対応キー情報記憶部3から元キーワードを検索する。この結果、「カレンデュラ」については元キーワードとして「キンセンカ」が得られる。同様に「タゲテス」に対しては、「マリーゴールド」が得られる。W13、W14の「マリーゴールド」についてはキーワードそのものであるため、図3に示した記憶内容には類義語としては登録されていない。
【0031】
次に、強調処理部63は、図4の文書について単語抽出処理部61で得られた文書中の位置W11、W12、W13、W14、W15について、類義語については元キーワードが判別可能な状態で強調表示を行う。例えば、W11、W12の「カレンデュラ」については、対応キー検索処理部62の処理により元キーワードとして「キンセンカ」が得られているので、「キンセンカ」を「()」で挟み併記した「カレンデュラ(キンセンカ)」という文字列と置き換えたうえで強調表示制御を行い、これが表示部7で表示される(ステップS6)。
【0032】
図5は、表示例の説明図である。
例えば、図4におけるW11の部分であれば、図5のD11に示すように強調表示される。尚、ここでは強調表示として該当部分にアンダーラインを付与した例を示している。同様に、図4のW15の「タゲテス」についても、図5のD13のように表示される。また、図4のW13、W14の「マリーゴールド」については、対応キー検索処理部62の処理で結果が得られない、即ち、元キーワードであるため、そのまま強調表示し、図5中では、D12に示すように従来の検索処理時の強調表示と同様の表示となる。
【0033】
〈効果〉
以上のように、具体例1によれば、文書を表示する場合に、キーワードの関連語の箇所を強調表示すると共に、関連語の元キーワードを判別可能な状態で表示するようにしたので次のような効果がある。即ち、ユーザは強調された単語が類義語である場合、元のキーワードが文書中のたとえ離れた位置にあっても、また、ユーザの知らない単語であっても、迅速にユーザ自身が入力したどのキーワードに対する強調表示であるかを判断することができる。これにより、検索結果への自分が入力したキーワードの影響を容易に知ることができ、検索条件を変えて他の視点の検索を行おうとする場合に、どのようなキーワードを入れるべきかといった判断をし易くなるなど利便性の向上に寄与することができる。
【0034】
また、具体例1によれば、関連語と元キーワード(ユーザが入力したキーワード)との関係を示す対応キー情報を記憶し、この対応キー情報に基づいて関連語の元キーワードを求めるようにしたので、元のキーワードが文書中に存在しない場合でも、その関連語がどのキーワードに基づくものかを知ることができるという効果がある。
【0035】
《具体例2》
具体例2は、検索対象となる文書と共に、各文書中の単語の位置を示す単語情報を備え、この単語情報を用いて表示制御を行うようにしたものである。
【0036】
〈構成〉
図6は、具体例2の構成図である。
図示の装置は、キーワード入力手段1、関連語展開部2a、文書データベース4a、表示制御部6a、表示部7、単語抽出部8、一致情報記憶部9、キーワード検索部10、関連語検索部11、文書検索部12からなる。
【0037】
キーワード入力手段1は、具体例1と同様の機能を有している。関連語展開部2aは、基本的な機能は具体例1と同様にキーワードの類義語を生成するものであるが、具体例2では、その出力を関連語検索部11に送るように構成されている。文書データベース4aは、具体例1と同様に文書を格納するデータベースであるが、具体例2では、単語情報41を備えている。
【0038】
図7は、単語情報の一例を示す説明図である。
図示のように、単語情報41は、その文書中の検索キーワード(キーワード自体やその関連語)となり得る単語およびその文書中での位置を示す情報である。
【0039】
単語抽出部8は、文書データベース4aに文書を登録する時に、その文書から検索のキーワードとなる単語を抽出し、その文書中での位置(例えば、文書の先頭からの文字数など)を示す情報を単語情報41として、その文書と対応付けて文書データベース4aに登録する機能部である。単語の抽出は、形態素解析を行って名詞等のキーワードになる得る単語を選択するなど、既存の自然言語技術により実現することができる。
【0040】
一致情報記憶部9は、ハードディスク装置あるは主メモリ上に一時的に形成される一時記憶部からなり、キーワード検索部10、関連語検索部11により得られる文書データベース4a中の単語情報41を、その単語情報41と対応した文書を示す識別子と共に記憶し、また単語情報41が関連語検索部11により得られた場合は、更に、キーワード入力手段1より入力されたキーワードを元キーワードとして記憶する記憶部である。
【0041】
図8は、一致情報記憶部9における一致情報の一例を示す説明図である。
図示のように、文書識別子と単語とその単語の文書中の位置と元キーワードとの関係が示されている。
【0042】
キーワード検索部10は、キーワード入力手段1より得られるキーワードと一致する文字列を、文書データベース4aの各文書の単語情報41に記憶された単語である文字列より検索し、それを対応した文書を示す識別子と共に一致情報記憶部9に記憶する機能部である。
【0043】
関連語検索部11は、関連語展開部2aで得られた類義語と一致する文字列を、文書データベース4aの各文書の単語情報41に記憶された単語である文字列より検索し、それを対応した文書を示す識別子と、その類義語の元となったキーワードと共に一致情報記憶部9に記憶する機能部である。
【0044】
文書検索部12は、一致情報記憶部9に記憶された各文書の識別子毎の一致した単語の数などに基づき、検索結果となる文書を選択し、その文書を文書データベース4aより検索結果として引き出し、これを表示制御部6aに出力する機能部である。
【0045】
表示制御部6aは、文書検索部12により検索結果として得られた文書を表示する時に、その文書の識別子に対応して一致情報記憶部9に記憶された単語情報を元に強調表示制御を行い、これを表示部7に出力する機能部である。この強調表示とは、表示しようとする文書の文書識別子について一致情報記憶部9に記憶されている位置の文字列に対して行われ、また、その一致情報記憶部9の一致情報に元キーワードが含まれる場合は、その元キーワードを「()」で挟み併記するなどの方法で明示を行うよう構成されている。尚、表示部7は具体例1と同様の構成である。
【0046】
尚、上記の関連語展開部2a、表示制御部6a、単語抽出部8、キーワード検索部10、関連語検索部11および文書検索部12は、それぞれの構成に対応したソフトウェアと、これらのソフトウェアを実行するためのCPUやメモリ等のハードウェアから実現されているものである。
【0047】
〈動作〉
先ず、文書データベース4aへの登録動作を説明する。
図9は、文書の一例を示す説明図である。
図9に示すような文書を文書データベース4aに投入する時、単語抽出部8は、キーワードとなる得る単語として、ここでは名称とその文書中の位置を形態素解析などの技術を用いて取り出す(ここでは、説明を簡略化するため名称のみとしたが、名詞一般を抽出するといった取出方法を用いてもよい)。この結果、図9中に、W21、W22、W23、W24、W25、W26、W27の位置に対象となる文字列が抽出される(図中、破線枠で示す)。単語抽出部8は、これらの情報を図9の文書と対応付けて単語情報41として文書データベース4aに保存する。これが図7に示す状態である。尚、単語の位置は説明の都合上図9で示した記号で表しているが、文書先頭からの文字数など一般的な表現を用いても良い。
【0048】
次に、このような文書やその単語情報41が登録された状態における強調表示動作について説明する。
図10は、具体例2の強調表示動作を示すフローチャートである。
具体例2においても、具体例1と同様に、ユーザがキーワード入力手段1を用いて、キーワードとして「キンセンカ」「マリーゴールド」を入力したとする(ステップS11)。
【0049】
キーワード検索部10は、文書データベース4aの各文書について、その単語情報41から、キーワード「キンセンカ」「マリーゴールド」と一致する単語を検索する(ステップS12)。この結果、図9の文書に対する単語情報41からは図7のK21がキーワード「マリーゴールド」と一致するものとして得られる。そして、これを図9の文書の識別子(説明上、これを「図9」とする)と共に一致情報として一致情報記憶部9に記憶する(ステップS13)。
【0050】
一方、関連語展開部2aにより、キーワード「キンセンカ」に対しては類義語として「金盞花」「カレンデュラ」「唐金盞」を得たとする(ステップS14)。これにより関連語検索部11では、関連語展開部2aで得られた「金盞花」「カレンデュラ」「唐金盞」のいずれかと一致する単語を、文書データベース4aの単語情報41から検索する(ステップS15)。その結果、図9の文書に対する単語情報41からは、図7のS21、S22に示した単語がキーワード「キンセンカ」の類義語「カレンデュラ」と一致するものとして得られ、これを一致情報記憶部9に記憶する(ステップS16)。この時、元のキーワードとして、「キンセンカ」も記憶する。
【0051】
また、キーワード「マリーゴールド」についても同様に、関連語展開部2aで「タゲテス」を得(ステップS14)、図7に示したような単語情報41からはS23に示す単語「タゲテス」を得(ステップS15)、元のキーワード「マリーゴールド」と共に一致情報記憶部9に記憶する(ステップS16)。
【0052】
尚、図10のフローチャートでは、キーワード検索部10による検索処理(ステップS12〜ステップS13)の後、関連語展開部2aと関連語検索部11による類義語生成処理および検索処理(ステップS14〜ステップS16)を行っているが、これらの処理は逆であってもよく、また、並行処理であってもよい。
【0053】
以上のような処理を行った結果、一致情報記憶部9の一致情報の図9の文書に対する部分は図8に示すようになる。
【0054】
文書検索部12は、検索結果として図9の文書を表示する時に、図9に関する一致情報、即ち、図8に例示した内容を参照して強調表示制御を行う(ステップS17)。例えば、図8のS21aの情報からは、先ず位置W23を得て図9中のW23で示した部分を強調することを示す情報を得る。また、元キーワードに「キンセンカ」と記憶されているため、これを併記した形で強調表示制御を行い、これを表示部7で表示する(ステップS18)。
【0055】
図11は、具体例2の強調表示の説明図である。
図11中のW23aに示すように、元キーワードを併記した状態で強調表示される。また、図8のK21aの情報については、図9のW26の位置の強調表示を行うが、元キーワードが記憶されていないため、元キーワードの併記は行わずに強調表示を行う(図11中、W26aに示す状態)。更に、図8に例示した他の一致情報についても同様の強調表示を行い、図11のような表示を行う。
【0056】
〈効果〉
以上説明したように、具体例2によれば、文書を文書データベース4aに格納する時に、その文書における単語の位置を示す単語情報41を設け、この単語情報41を用いて、元キーワードが判別可能な状態で類義語の箇所を強調表示するようにしたので、ユーザにとっての利便性が向上すると共に、文書データベース4aへの文書の登録時に検索の効率化のためのインデックス作成の目的などで事前に単語の抽出が行われている場合に、その情報を再利用しながら強調表示箇所および元キーワードを特定することが可能となる。
【0057】
《利用形態》
●上記各具体例では、類義語の元キーワードを判別可能な状態で表示する方法として、元キーワードを「()」で挟んで併記するようにしたが、これ以外にも次のような方法を用いることができる。
(1)類義語を強調表示する場合、その強調表示箇所にカーソルあるいはポインタを移動した場合、即ち、その箇所を何らかの形で指示した場合に、元キーワードをポップアップ表示するよう構成する。尚、この構成は既知のポップアップ表示を行う手段を用いて実現可能である。
(2)類義語を強調表示する場合、その強調表示箇所から元キーワードにハイパーリンクを張ったハイパーテキストとして表示する。これにより、ユーザが類義語の元キーワードを知りたい場合は、その強調表示箇所をクリックするといった操作により元キーワードが表示されることになる。
【0058】
●上記各具体例では関連語として類義語の場合を説明したが、類義語以外にもキーワードに関係する語句であればどのような関連語であっても適用可能である。
【0059】
●上記各具体例では、強調表示の方法としてディスプレイ表示である場合を説明したが、関連語と元キーワードとを併記する構成であれば、これ以外にも、例えば印刷出力であっても同様に適用可能である。
●上記各具体例では、強調表示の構成として関連語と元キーワードの箇所あるいはキーワードの箇所に対してアンダーラインを付与したが、これ以外も表示色を変える等、どのようなものであってもよい。
【0060】
【発明の効果】
以上のように、本発明によれば、文書中の関連語を強調表示する場合に、その元キーワードを判別可能な状態で表示するようにしたので、ユーザが複数のキーワードを指定した場合でも、その関連語がどのキーワードによるものかを容易に知ることができる。これは、対象となる文書が長文の場合や、文書中に元になるキーワードが含まれていない場合等では特に有効である。
【図面の簡単な説明】
【図1】本発明の文書検索装置の具体例1を示す構成図である。
【図2】対応キー情報の説明図である。
【図3】具体例1の動作を示すフローチャートである。
【図4】具体例1の文書の一例を示す説明図である。
【図5】具体例1の表示例の説明図である。
【図6】具体例2の構成図である。
【図7】単語情報の一例を示す説明図である。
【図8】一致情報の一例を示す説明図である。
【図9】具体例2の文書の一例を示す説明図である。
【図10】具体例2の強調表示動作を示すフローチャートである。
【図11】具体例2の強調表示の説明図である。
【符号の説明】
2、2a 関連語展開部
3 対応キー情報記憶部
4 文書データベース
5 検索処理部
6、6a 表示制御部
7 表示部
9 一致情報記憶部
10 キーワード検索部
11 関連語検索部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a document search device that searches for a document based on a keyword and a related word related to the keyword, and more particularly to a display of a related word.
[0002]
[Prior art]
Conventionally, there has been an apparatus that performs a search by giving a plurality of keywords and related words of each keyword to an arbitrary document, and highlights a portion that matches the keyword or the related word in the document as a search result (for example, Patent Document 1). In such a device, a set is created for each keyword by setting a certain keyword and its related words as one set, and different highlighting is performed for each set, thereby determining where in the document a portion derived from the same keyword is located. With possible highlighting.
[0003]
Further, in the case of highlighting, there has been a configuration in which the original keyword and its synonyms can be distinguished from each other by changing the highlighting method for the original keyword and its synonyms (for example, see Patent Document 2).
[0004]
[Patent Document 1]
JP-A-5-274314
[Patent Document 2]
JP-A-8-255163
[0005]
[Problems to be solved by the invention]
As a conventional technique using the above-described conventional apparatus, when displaying a document searched for a keyword or a related word thereof, related words derived from the same keyword are, for example, the same color, the keyword is a solid line, and the related word is a broken line. Different highlighting, such as underlining.
By performing such a display method, it is possible to know, for a certain highlighted word, whether it is a related word, a keyword, or a related word based on the same keyword.
[0006]
However, when a certain highlighted word is not a keyword input by the user, that is, a related word, the user may want to know which of the original keywords resulted in the result. In this case, unless the entire document is searched for the highlighted word indicating the keyword and the word highlighted in the same color, it is impossible to know from which keyword the related word highlighted is derived. There was a problem.
[0007]
Such a problem is very inefficient when the document is a long sentence or the like because it is necessary to scroll the screen to find the document. If the original keyword is not included in the document, it is not possible to find out which keyword is used. In addition, since the fact cannot be known in advance, the user may wastefully search for the document. In particular, when a word or the like unknown to the user appears as a related word, there is a problem that it is very difficult to use in such a state.
[0008]
[Means for Solving the Problems]
The present invention employs the following configuration to solve the above-described problem.
<
A search processing unit for searching a document for a related word generated based on a predetermined keyword, and, when displaying the document, highlighting the related word in the document based on a search result of the search processing unit. A display control unit for displaying the original keyword of the word in a distinguishable state.
[0009]
<
In the document search device according to the first aspect, the corresponding key information storage unit that stores the corresponding key information indicating the relationship between the related word and the original keyword, and when the related word is highlighted, refer to the corresponding key information storage unit. A document search device comprising: a display control unit that obtains an original keyword of a related word.
[0010]
<
Word information indicating the position information of each character string including a character string that can be a related word generated based on a predetermined keyword in a document to be searched, and a related word that generates a related word from the keyword to be searched When there is a character string that matches the character string of the related word generated by the related word developing unit with reference to the expansion unit and the word information, the position information of the matched character string in the document and the related word A matching information storage unit that stores the original keyword as matching information, and a state in which, when displaying the document, the position of the related word in the document is highlighted based on the matching information and the original keyword of the related word can be determined. A document search device comprising: a display control unit for displaying a document.
[0011]
<Configuration 4>
The document search device according to any one of
[0012]
<
The document search device according to any one of the
[0013]
<
In the document search device according to any one of
[0014]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail using specific examples.
<< Specific Example 1 >>
<Constitution>
FIG. 1 is a configuration diagram showing a specific example 1 of the document search device of the present invention.
The apparatus shown in the figure is, for example, a computer, and includes a
[0015]
The keyword input means 1 is a means for a user to specify a keyword used for document search, and is composed of an input device such as a keyboard and a mouse. The related
[0016]
The corresponding key
[0017]
FIG. 2 is an explanatory diagram of the corresponding key information in the corresponding key
As shown, the synonym and the original keyword are paired to form corresponding key information.
[0018]
The document database 4 is a storage unit such as a hard disk device for storing documents to be searched, or a network interface for taking in documents from an external device. The
[0019]
When displaying the target document in the document database 4, the
[0020]
The word
[0021]
As a configuration in which the original keyword is displayed in a distinguishable state, for example, a keyword that is the source of the synonym is inserted in “()” next to the character string of the synonym and inserted into the document. There is something. Further, as a configuration of the highlighting, for example, if the document is described in HTML, a display form described in Japanese Patent Application Laid-Open No. 2002-73685 “Search result providing method / search result providing device” or the like is used. The HTML tag to be changed can be realized by a method of inserting it before and after the extracted synonym character string and the original keyword inserted so as to be written together.
[0022]
The related-
[0023]
The
[0024]
<motion>
FIG. 3 is a flowchart showing the operation of the first embodiment.
First, it is assumed that the user uses the
[0025]
Next, the related-
[0026]
The
[0027]
FIG. 4 is an explanatory diagram illustrating an example of a document extracted from the document database 4.
As shown in the figure, a document including keywords and synonyms “calendula”, “marigold”, and “tagetes” is extracted.
[0028]
In the flowchart of FIG. 2, after the synonym generation and the synonym storage process (steps S2 to S3) by the related
[0029]
Next, the
[0030]
Next, the corresponding key
[0031]
Next, the
[0032]
FIG. 5 is an explanatory diagram of a display example.
For example, the portion W11 in FIG. 4 is highlighted as indicated by D11 in FIG. Note that, here, an example is shown in which an underline is added to the corresponding portion as highlighting. Similarly, “Target” of W15 in FIG. 4 is also displayed as D13 in FIG. In addition, as for “Marigold” of W13 and W14 in FIG. 4, no result is obtained by the processing of the corresponding key
[0033]
<effect>
As described above, according to the first specific example, when a document is displayed, a portion of a related word of a keyword is highlighted, and the original keyword of the related word is displayed in a distinguishable state. There is such an effect. That is, if the emphasized word is a synonym, even if the original keyword is at a distant position in the document or a word unknown to the user, It can be determined whether or not the keyword is highlighted. This makes it easy to know the effect of the keyword you have entered on the search results, and when you try to search from other viewpoints by changing the search conditions, you can determine what keywords to include It is possible to contribute to the improvement of convenience such as ease of operation.
[0034]
Further, according to the specific example 1, the corresponding key information indicating the relationship between the related word and the original keyword (the keyword input by the user) is stored, and the original keyword of the related word is obtained based on the corresponding key information. Therefore, even when the original keyword does not exist in the document, it is possible to know which keyword the related word is based on.
[0035]
<< Specific Example 2 >>
In the specific example 2, word information indicating a position of a word in each document is provided together with a document to be searched, and display control is performed using the word information.
[0036]
<Constitution>
FIG. 6 is a configuration diagram of the specific example 2.
The illustrated device includes a
[0037]
The
[0038]
FIG. 7 is an explanatory diagram illustrating an example of the word information.
As illustrated, the
[0039]
When registering a document in the
[0040]
The matching
[0041]
FIG. 8 is an explanatory diagram illustrating an example of the match information in the match
As shown in the figure, the relationship between the document identifier, the word, the position of the word in the document, and the original keyword is shown.
[0042]
The
[0043]
The related
[0044]
The
[0045]
When displaying a document obtained as a search result by the
[0046]
Note that the above-described related
[0047]
<motion>
First, the registration operation to the
FIG. 9 is an explanatory diagram illustrating an example of a document.
When a document as shown in FIG. 9 is input to the
[0048]
Next, the highlighting operation in a state where such a document and its
FIG. 10 is a flowchart showing the highlighting operation of the second embodiment.
In the specific example 2, as in the specific example 1, it is assumed that the user uses the
[0049]
For each document in the
[0050]
On the other hand, it is assumed that the related-
[0051]
Similarly, for the keyword “Marigold”, “Tagetes” is obtained in the related
[0052]
In the flowchart of FIG. 10, after the search processing by the keyword search unit 10 (steps S12 to S13), the synonym generation processing and the search processing by the related
[0053]
As a result of the above processing, the portion of the matching information in the matching
[0054]
When displaying the document of FIG. 9 as a search result, the
[0055]
FIG. 11 is an explanatory diagram of highlighting of the specific example 2.
As indicated by W23a in FIG. 11, the original keyword is highlighted with the original keyword also written. Also, for the information of K21a in FIG. 8, the position of W26 in FIG. 9 is highlighted, but since the original keyword is not stored, the highlight is displayed without the original keyword being additionally written (in FIG. 11, W26a). Further, the same highlighting is performed on the other matching information illustrated in FIG. 8, and a display as shown in FIG. 11 is performed.
[0056]
<effect>
As described above, according to the specific example 2, when the document is stored in the
[0057]
《Usage form》
● In each of the above specific examples, as a method of displaying the original keyword of a synonym in a distinguishable state, the original keyword is described by sandwiching it between "()". In addition, the following method is used. be able to.
(1) When the synonym is highlighted, the original keyword is displayed in a pop-up display when the cursor or the pointer is moved to the highlighted position, that is, when the position is indicated in some form. This configuration can be realized by using a known means for performing pop-up display.
(2) When a synonym is highlighted, it is displayed as a hypertext in which a hyperlink is provided from the highlighted portion to the original keyword. Accordingly, when the user wants to know the original keyword of the synonym, the original keyword is displayed by an operation such as clicking on the highlighted portion.
[0058]
In the above specific examples, synonyms are described as related words. However, any related words other than synonyms as long as they are related to keywords can be applied.
[0059]
● In each of the above specific examples, the case of display display as a method of highlighting has been described. However, as long as the related word and the original keyword are described together, the same applies to print output, for example. Applicable.
● In each of the above specific examples, underlining is applied to the location of the related word and the original keyword or the location of the keyword as the configuration of the highlighting, but other than that, such as changing the display color, etc. Good.
[0060]
【The invention's effect】
As described above, according to the present invention, when a related word in a document is highlighted, the original keyword is displayed in a distinguishable state. Therefore, even when the user specifies a plurality of keywords, It is easy to know which keyword the related word is based on. This is particularly effective when the target document is a long document, or when the document does not include the original keyword.
[Brief description of the drawings]
FIG. 1 is a configuration diagram showing a specific example 1 of a document search device of the present invention.
FIG. 2 is an explanatory diagram of corresponding key information.
FIG. 3 is a flowchart illustrating an operation of a specific example 1.
FIG. 4 is an explanatory diagram illustrating an example of a document according to a specific example 1.
FIG. 5 is an explanatory diagram of a display example of a specific example 1.
FIG. 6 is a configuration diagram of a specific example 2.
FIG. 7 is an explanatory diagram showing an example of word information.
FIG. 8 is an explanatory diagram illustrating an example of matching information.
FIG. 9 is an explanatory diagram illustrating an example of a document of a specific example 2.
FIG. 10 is a flowchart showing a highlighting operation of a specific example 2;
FIG. 11 is an explanatory diagram of highlighting of a specific example 2;
[Explanation of symbols]
2, 2a Related word expansion unit
3 Corresponding key information storage
4 Document database
5 Search processing section
6, 6a display control unit
7 Display
9 Matching information storage
10 Keyword search section
11 Related word search section
Claims (6)
前記文書を表示する場合に、前記検索処理部の検索結果に基づいて当該文書中の関連語を強調表示すると共に、前記関連語の元キーワードを判別可能な状態で表示する表示制御部とを備えたことを特徴とする文書検索装置。A search processing unit that searches a document for a related word generated based on a predetermined keyword;
A display control unit that, when displaying the document, highlights a related word in the document based on a search result of the search processing unit and displays the original keyword of the related word in a distinguishable state. A document search device characterized by the following.
関連語と元キーワードとの関係を示す対応キー情報を記憶する対応キー情報記憶部と、
前記関連語を強調表示する場合、前記対応キー情報記憶部を参照して当該関連語の元キーワードを求める表示制御部とを備えたことを特徴とする文書検索装置。The document search device according to claim 1,
A corresponding key information storage unit that stores corresponding key information indicating a relationship between the related word and the original keyword;
A display control unit that refers to the corresponding key information storage unit to obtain an original keyword of the related word when the related word is highlighted.
検索するためのキーワードから関連語を生成する関連語展開部と、
前記単語情報を参照して、前記関連語展開部で生成された関連語の文字列と一致する文字列があった場合は、当該一致した文字列の文書中の位置情報と、前記関連語の元キーワードとを一致情報として記憶する一致情報記憶部と、
前記文書を表示する場合に、前記一致情報に基づいて当該文書中の関連語の位置を強調表示すると共に、前記関連語の元キーワードを判別可能な状態で表示する表示制御部とを備えたことを特徴とする文書検索装置。Word information indicating position information of each character string including a character string that can be a related word generated based on a predetermined keyword in a document to be searched,
A related word expansion unit that generates related words from keywords for searching,
Referring to the word information, if there is a character string that matches the character string of the related word generated by the related word expansion unit, the position information of the matched character string in the document and the related word A matching information storage unit that stores the original keyword as matching information;
A display control unit that, when displaying the document, highlights a position of a related word in the document based on the matching information and displays the original keyword of the related word in a distinguishable state. A document search device characterized by the following.
関連語と元キーワードとを併記することで、当該関連語の元キーワードを判別可能な状態で表示する表示制御部を備えたことを特徴とする文書検索装置。The document search device according to any one of claims 1 to 3,
A document search device comprising: a display control unit that displays a related word and an original keyword together so that the original keyword of the related word can be determined.
関連語を指示した場合に元キーワードをポップアップ表示することで、当該関連語の元キーワードを判別可能な状態で表示する表示制御部を備えたことを特徴とする文書検索装置。The document search device according to any one of claims 1 to 3,
A document search device comprising: a display control unit that pops up an original keyword when a related word is instructed to display the original keyword of the related word in a distinguishable state.
関連語から元キーワードにハイパーリンクを張ったハイパーテキストとすることで、当該関連語の元キーワードを判別可能な状態で表示する表示制御部を備えたことを特徴とする文書検索装置。The document search device according to any one of claims 1 to 3,
A document search device, comprising: a display control unit configured to display a hypertext in which a hyperlink is extended from a related word to an original keyword so that the original keyword of the related word can be identified.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003084461A JP2004295301A (en) | 2003-03-26 | 2003-03-26 | Document retrieval device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003084461A JP2004295301A (en) | 2003-03-26 | 2003-03-26 | Document retrieval device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004295301A true JP2004295301A (en) | 2004-10-21 |
Family
ID=33399628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003084461A Pending JP2004295301A (en) | 2003-03-26 | 2003-03-26 | Document retrieval device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004295301A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012212329A (en) * | 2011-03-31 | 2012-11-01 | Tottori Univ | Information analyzer for analyzing redundancy of text data |
JP2013061699A (en) * | 2011-09-12 | 2013-04-04 | Dainippon Printing Co Ltd | Content display system, content display method, content display terminal, and program |
JP2016014911A (en) * | 2014-06-30 | 2016-01-28 | カシオ計算機株式会社 | Information display control device and program |
JP2019153271A (en) * | 2018-03-05 | 2019-09-12 | 株式会社テンクー | Search system and search system operation method |
-
2003
- 2003-03-26 JP JP2003084461A patent/JP2004295301A/en active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012212329A (en) * | 2011-03-31 | 2012-11-01 | Tottori Univ | Information analyzer for analyzing redundancy of text data |
JP2013061699A (en) * | 2011-09-12 | 2013-04-04 | Dainippon Printing Co Ltd | Content display system, content display method, content display terminal, and program |
JP2016014911A (en) * | 2014-06-30 | 2016-01-28 | カシオ計算機株式会社 | Information display control device and program |
JP2019153271A (en) * | 2018-03-05 | 2019-09-12 | 株式会社テンクー | Search system and search system operation method |
CN111699485A (en) * | 2018-03-05 | 2020-09-22 | 株式会社天空 | Information retrieval system and information retrieval method using index |
JP7240662B2 (en) | 2018-03-05 | 2023-03-16 | 株式会社テンクー | Search system and method of operation of the search system |
US11755833B2 (en) | 2018-03-05 | 2023-09-12 | Xcoo, Inc. | Information search system and information search method using index |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9075873B2 (en) | Generation of context-informative co-citation graphs | |
JP2000029906A (en) | System for managing document information | |
JP2003223437A (en) | Method of displaying candidate for correct word, method of checking spelling, computer device, and program | |
US20180004838A1 (en) | System and method for language sensitive contextual searching | |
JP2000029906A5 (en) | ||
EP2162833A1 (en) | A method, system and computer program for intelligent text annotation | |
JP2002197104A (en) | Device and method for data retrieval processing, and recording medium recording data retrieval processing program | |
JPH08161349A (en) | Character string retrieving device | |
JPH09198395A (en) | Document retrieval device | |
JP2008052548A (en) | Retrieval program, information retrieval device and information retrieval method | |
JP2004295301A (en) | Document retrieval device | |
JP5285491B2 (en) | Information retrieval system, method and program, index creation system, method and program, | |
JP6114090B2 (en) | Machine translation apparatus, machine translation method and program | |
JP4607671B2 (en) | Translation support program, method and apparatus | |
JP2004157965A (en) | Search support device and method, program and recording medium | |
JP5379416B2 (en) | Language processing apparatus and language processing method | |
JP2007164462A (en) | Question answering system, question answering method and question answering program | |
WO2016131260A1 (en) | Word processing method and apparatus | |
JP2004348774A (en) | Document information management device and document information management method | |
JP2004348774A5 (en) | ||
JP2006172029A (en) | Method for presenting retrieval result | |
JP2005228033A (en) | Document search device and method | |
JP3537260B2 (en) | Linked document search and display system | |
JP2004152041A (en) | Program, recording medium and apparatus for extracting key phrase | |
JPH09305623A (en) | Document display system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060131 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060330 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080129 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080603 |