JP3693734B2 - Information retrieval apparatus and information retrieval method thereof - Google Patents

Information retrieval apparatus and information retrieval method thereof Download PDF

Info

Publication number
JP3693734B2
JP3693734B2 JP03248996A JP3248996A JP3693734B2 JP 3693734 B2 JP3693734 B2 JP 3693734B2 JP 03248996 A JP03248996 A JP 03248996A JP 3248996 A JP3248996 A JP 3248996A JP 3693734 B2 JP3693734 B2 JP 3693734B2
Authority
JP
Japan
Prior art keywords
word
document
synonym
information
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03248996A
Other languages
Japanese (ja)
Other versions
JPH09231227A (en
Inventor
▲泰▼造 小谷
Original Assignee
株式会社インターグループ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社インターグループ filed Critical 株式会社インターグループ
Priority to JP03248996A priority Critical patent/JP3693734B2/en
Publication of JPH09231227A publication Critical patent/JPH09231227A/en
Application granted granted Critical
Publication of JP3693734B2 publication Critical patent/JP3693734B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、蓄積された文書データベースから意味的にデータを検索する情報検索装置およびその情報検索方法に関する。
【0002】
【従来の技術】
従来、パーソナルコンピュータなどの情報処理装置に文書データを蓄積しておき、上記文書データに記載されている語句をキーワード検索により検出する情報検索装置が知られている。検索の精度を上げるためにユーザが与える文字列の中の一部が含まれている語句を文書中で探す情報検索装置も実用化されている。また、特開平6−266770号公報のようにユーザが与える文字列を同義語に変換し、同義語での検索を行って、文書中の同義語を検出する情報検索装置も提案されている。
【0003】
【発明が解決しようとする課題】
しかしながら、上述の情報検索装置を使用した検索ではユーザが与えた文字列についての完全一致、一部一致、および同義語だけでは、検索の精度が悪く、ユーザからは、さらに、検索精度を向上させて欲しいとの要望が強まってきている。たとえば、同義語検索を行って、該当の文書、あるいは文、段落等を検索し、500点の検索結果が得られると、ユーザはその500点の内容を表示画面上で確認しなければならない。このための操作はユーザにとって非常に煩雑なものとなる。
【0004】
そこで、本発明の目的は、上述の点に鑑みて、これまでにはない検索手法を使用して検索精度を向上させる情報検索装置およびその情報検索方法を提供することにある。
【0005】
【課題を解決するための手段】
このような目的を達成するために、請求項1の発明は、複数の文書を有する文書データベースを搭載し、与えられたキーワードに関連する文字列を有する文書を検索する情報検索装置において、単語およびその同義語を記載した単語連想辞書と、単語とその意味属性を記載した意味属性体系辞書と、前記キーワードについての同義語を前記単語連想辞書から取得する手段と、前記キーワードについての意味属性を前記意味属性体系辞書から取得する手段と、当該取得した同義語を有し、かつ、該同義語を含む所定長さの範囲内に当該取得した意味属性が同一となる単語が存在する文書を前記文書データベース中で検索する手段とを具えたことを特徴とする。
【0006】
請求項2の発明は、請求項1に記載の情報検索装置において、前記キーワードは複数の単語で構成され、当該キーワードから予め定めた単語を不要な単語として除去する手段をさらに具えたことを特徴とする。
【0007】
請求項3の発明は、請求項1に記載の情報検索装置において、前記所定長さの範囲は所定数以上の文字列で構成され、意味的に1つの単語を構成する単語列であり、前記検索する手段は、当該単語列の最後尾に位置する単語の意味属性を前記意味属性体系辞書から取得して、前記キーワードの意味属性と比較し、一致の有無を判定することを特徴とする。
【0008】
請求項4の発明は、請求項1に記載の情報検索装置において、前記検索する手段は、検索の過程において、前記同義語のみを含む同義語関連文書を前記文書データベース上で検索することを特徴とする。
【0009】
請求項5の発明は、請求項1に記載の検索で得られた文書および請求項4に記載の検索で得られた同義語関連文書を報知するための情報を表示する手段をさらに具えたことを特徴とする。
【0010】
請求項6の発明は、請求項5に記載の情報検索装置において、前記表示する手段は請求項1に記載の検索で得られた文書および請求項4に記載の検索で得られた同義語関連文書を報知するための情報を区別して表示することを特徴とする。
【0011】
請求項7の発明は、請求項5に記載の情報検索装置において、請求項1に記載の検索で得られた文書および請求項4に記載の検索で得られた同義語関連文書を報知するための情報は当該文書および同義語関連文書の一部であることを特徴とする。
【0012】
請求項8の発明は、複数の文書を有する文書データベースを搭載し、与えられたキーワードに関連する文字列を有する文書を検索する情報検索装置の情報検索方法において、単語およびその同義語を記載した単語連想辞書と、単語とその意味属性を記載した意味属性体系辞書とを予め前記情報検索装置に搭載しておき、当該情報検索装置は、前記キーワードについての同義語を前記単語連想辞書から取得し、前記キーワードについての意味属性を前記意味属性体系辞書から取得し、当該取得した同義語を有し、かつ、該同義語を含む所定長さの範囲内に当該取得した意味属性が同一となる単語が存在する文書を前記文書データベース中で検索することを特徴とする。
【0013】
請求項9の発明は、請求項8に記載の情報検索装置の情報検索方法において、前記キーワードと一致する単語を含む文書を前記文書データベース中で検索し、該当する文書がないときに請求項8に記載の検索に移行することを特徴とする。
【0014】
請求項10の発明は、請求項8に記載の情報検索装置の情報検索方法において、検索結果として得られる文書の前記同義語が含まれる文を表示画面に表示し、当該同義語および意味属性が同一となる単語を識別可能に表示することを特徴とする。
【0015】
【発明の実施の形態】
以下、図面を参照して本発明の実施例を詳細に説明する。図1は本発明を適用した情報検索装置のシステム構成の一例を示す。情報検索装置にはパーソナルコンピュータやワークステーション等の情報処理装置を使用することができる。図1において、情報検索装置はCPU1、ROM2、RAM3、入力インタフェース4、ハードディスク記憶装置7、フロッピーディスクドライブおよび出力インタフェース9を有する。CPU1はROM2やハードディスク記憶装置7に格納されたシステムプログラムによりシステム処理、たとえば、メモリや記憶装置に対する情報の読み書き、後述の表示装置11に情報を表示するための文字コード−イメージ変換(文字発生とも呼ばれる)や表示制御、プリンタ10の制御、キーボード5、マウス6からの入力情報の受け付けを行う。ROM2には上記システム処理を実行するためのシステムプログラムおよび関連情報が格納されている。
【0016】
RAM3はCPU1の情報処理に使用する情報や情報処理結果を一時格納する。本発明に関わる情報としてはハードディスク記憶装置7の文書データベースから取得した文書情報を一時格納する。入力インタフェース4はキーボード5およびマウスのような座標入力装置(以下、マウスと称する)6からの入力情報をCPU1に転送する。
【0017】
キーボード5は主に文字入力に使用される。マウス6は表示画面上の位置の指定に使用される。ハードディスク記憶装置7にはシステムプログラムの他、本発明に関わる情報検索プログラムおよび検索対象の文書データベース、情報検索に使用する単語連想辞書および意味属性体系辞書が格納されている。単語連想辞書および意味属性体系辞書は本発明に関わるので、後で詳細に説明する。本実施例の文書データベースは複数の文書で構成され、この文書は、少なくとも文書名(ファイル名)、文字コード形態の文書データを有する。
【0018】
フロッピーディスクドライブ8はフロッピーディスクを受け付け、このフロッピーディスクに対して情報の読み書きを行う。フロッピーディスクは他で作成された文書を上記文書データベースに登録するために使用される。出力インタフェース9は表示または印刷すべき情報、制御情報をプリンタ10、表示装置11に転送する。
【0019】
このようなシステム構成において、本実施例は文書データベースに対して同義語検索を施し、該当する検索結果が複数得られたときには、同義語が含まれる文を調べる。キーワードの持つ意味属性と同じ意味属性を有する単語がその文に含まれているときにはその文を重み付けの高い検索結果として取り扱うことに特徴がある。
【0020】
このための詳細な説明を以下、行う。上述の情報検索に使用する単語連想辞書の内容の一部を図2に示し、意味属性体系辞書の内容の一部を図3に示す。単語連想辞書は、複数のレコードからなり、1レコードは1文字漢字、単語、句等の文字列(以下、単語と総称する)51、その単語に割り当てた識別コード、同義語(類似語を含む)53およびその単語に関連する意味属性を示す識別コード(意味属性コードと称する)を有する。必要に応じて他の情報たとえば、名詞、形容詞等を示す文法情報、単語の読み(表記)を付加することもできる。
【0021】
意味属性体系辞書も複数レコードから構成され、1レコードが単語、その単語が持つ意味属性を示す識別コード(意味属性コード)、その意味属性を示す単語の文字列を有する。意味属性体系辞書に記載される上記単語(1文字漢字を含む)としては1つ以上の単語列の中に含まれ、最後尾に位置する単語として頻繁に使用される単語が予め用意される。図3に示されている漢字「者」は同行者、管理者等の単語列の最後尾に使用される単語である。この単語に対して人物、組織という意味属性が与えられ、この意味属性に対して1001の識別コードが与えられていることを図3は示している。
【0022】
このような、単語連想辞書、意味属性体系辞書を使用する情報検索処理を図4および図5を参照して説明する。図4はハードディスク記憶装置7に格納された情報検索処理プログラムの処理内容を機能的に示す。図5は図4の処理内の詳細処理を示す。キーボード5から検索の実行を指示すると、図4の情報検索プログラムが起動され、CPU1において情報検索処理が開始される。情報検索の一例として、「夏の甲子園」という単語の文字列が与えられ、この単語に関連する単語が記載された文書の該当する文を検索する例を説明する。
【0023】
ユーザがキーボード5からキーワードとして、「夏の甲子園」を入力するとCPU1は入力された単語、すなわち、「夏の甲子園」を受け付け、RAM3に一時記憶する(ステップS10)。
【0024】
次にCPU1はこのキーワードと完全一致する単語を文書データベース上で検索する。この処理は従来と同様の検索処理であるので、詳細な説明を要しないであろう。該当する単語が見つかった場合には、その単語を含む文または文書、あるいは文書名等が表示される(ステップS20→S30→S35)。
【0025】
一方、完全一致の単語が検出されない場合には、CPU1は同義語検索に移行する。RAM3の入力単語「夏の甲子園」を最小単位の単語「夏の」、「甲子園」に分解し、検索に使用しない単語を除去する(ステップS40)。この基準はたとえば、上記単語連想辞書に記載されていない単語や単語連想辞書に同義語が記載されていない予め定められた単語を不要単語することができる。また、単語には通常、使用しない文字、たとえば、?、@等の文字をも除去するとよい。
【0026】
本例の場合、「夏の」が除かれ、同義語検索用のキーワードとして、「甲子園」が得られる。なお、単語の分解のために手法は構文解析の名でよく知られているので詳細な説明を要しないであろう。一番簡単な手法としては単語連想辞書に記載されている単語単位で文字列を区切ることができる。CPU1は得られたキーワード「甲子園」に基づき単語連想辞書を参照して同義語「高校野球」および意味属性コード「2004」を取得する(ステップS50、図2参照)。
【0027】
次にCPU1は取得した同義語が記載された文書を探すべくハードディスク記憶装置7の文書データベースを検索する(ステップS60)。該当する文書が見つかった場合には(ステップS70のYES判定)、ユーザから与えられたキーワード(甲子園)と同義語(高校野球)との間の関連の度合いについて重みづけ、すなわち、関連度の度合いを計算する(ステップS80)。このための詳細手順を図5に示す。
【0028】
図5において、CPU1は検索の結果、得られた文書の中から、同義語が含まれる文を抽出する。簡単な方法は同義語の前後の「。」や空白文字等の文の区切れを表す文字コードを検出し、この文字コードで挟まれた文字列を文として取り出す(ステップS100)。取り出した文を単語に分解、より具体的には予め定めた不要な単語を除いて、4文字以上の文字列で構成される単語(句等を含む)に文を分解する(ステップS110)。そして、同義語が含まれる単語(の中の最小単位長さの単語で、かつ最後尾に位置する単語を取り出す。たとえば、取り出された文が「今年の全国高校野球選手大会は....」とすると、4文字以上の単語(所定数以上の文字列で構成され、意味的に1つの単語を構成する単語列)として「全国高校野球大会」の文字列が取り出される。次に最後尾の、最小単位長さの単語として、「大会」取り出される。
【0029】
この単語「大会」についてCPU1は図3の意味属性体系辞書を参照し、意味属性コードとして「2004」を取得する。このような処理を検索結果(同義語が含まれる文書)全てに対して行うと、各文書毎に意味属性コードが得られる(ステップS120→S130)。上述したようにユーザのキーワード「甲子園」についての意味属性コードは既に調べられ、RAM3に格納されているので、CPU11はユーザのキーワードの意味属性コード(2004)と検索結果の全文書から導き出した複数の意味属性コードとを比較する(ステップS140)。一致が見られた文書が関連度の高い文書として取り扱われ、一致がない文書は関連度の低い文書として取り扱われる。これらの文書はRAM3上の各対応領域に格納される(ステップS150,155)。
【0030】
図4に戻り、CPU1は関連度(重み)の程度に応じて検索結果の文書の中の該当個所をRAM3から取り出して表示する(ステップS90)。表示の一例を図6に示す。この表示例では意味属性コードが一致した文を最終的な検索結果として表示しており、参照として、すなわち、同義語を含むが、意味属性コードが一致しなかった文を参照として表示し、関連度の程度を2つに分けた例である。
【0031】
以上、説明してきたように本実施例では、同義語検索に加えて、同義語(類似語)の近くにキーワードと意味属性が一致する単語が存在する文を検出するようにしているので、ユーザが探そうとしている文に近いものが得られる。
【0032】
本実施例の他に次の例を実施できる。
【0033】
1)本実施例では検索対象を文書に記載された文としているが、段落、文書全体等を検索対象としてもよい。また、文、段落、文書等の種別をキーボードから指示してもよい。さらに、文の内容に変わり、文書データベースに登録されたタイトル名やファイル名を検索結果として使用してもよいし、これらの情報と、該当文を併記して表示してもよい。換言すると請求項1に記載の文書とは文書そのもの、文書の一部、文書のタイトル、ファイル名等を含む。
【0034】
2)本実施例ではキーワードの同じ意味属性を持つ同義語近くの文書中の単語を検出するために文書中の同義語を含む最長単語(複合語なども含まれる)を取り出し、その最後尾の意味属性を調べている。これは上記最長単語の最後尾の単語が日本語の場合、意味属性を最もよく表すと言うことに発明者が気がついたからであるが、検索時間を犠牲にしてもさらに検索精度を上げたいときは次のような検出方法を使用するとよい。同義語を含む文を取り出した後、同義語を起点にして文頭と、文末の各方向に向かって、単語を取り出す。取り出した単語の意味属性コードを意味属性体系辞書から取り出し、キーワードの意味属性コードと比較する。一致が得られた場合、その文を関連度の高い文として取り扱う。また、検索精度の程度を変化させたい場合にはキーワードの意味属性と同じものを持つ単語の調査範囲を同義語を含む文に限定せず、段落、ページ、文書全体に選択的に広げてもよい。この選択は、文、段落...というように同じ意味属性コードの単語が見つかるまで調査範囲を自動的に広げてもよいし、ユーザがキーボードから手動で調査範囲を指示してもよい。
【0035】
3)本実施例ではキーワードと検索対象の文の関連度を2段階に分けているが2段階以上にすることができる。この場合には同義語が含まれる所定長さの文、例えば、1ページ中に含まれる同一意味属性の単語の個数を計数する。この数値に対応させて検索精度を多数階に段階分けすることができる。
【0036】
4)検索結果の表示形態としては同義語を含む文の他、同義語を含む最長単語を図6に示すように矩形表示したり、同義語、意味属性の一致した単語を別の色で表示するなどキーワードに関連する単語をユーザに知らせることができる。また、報知の形態としては色、矩形などの図形、書体の変更、アンダーラインの付加、文字の大きさの変更等が考えられる。
【0037】
5)情報検索装置の利用法としては単独で使用してもよいし、通信回線と接続して、検索依頼の他のコンピュータからキーワードを受け付け、検索結果を検索依頼のコンピュータに返すことも考えられる。この場合には情報検索装置に通信手段を備えればよい。
【0038】
6)情報検索装置に搭載する文書データベースの格納場所はハードディスク記憶装置に限らず光磁気記憶装置等好適な周知の記憶手段を使用すればよい。
【0039】
【発明の効果】
以上、説明したように、請求項1、8の発明によれば、キーワードに対して同義語および意味属性が同一の単語の双方を有し、かつ、この2つの単語が近接している文書を検索するようにしたので、同義語のみ、あるいは意味属性のみの検索を続けて行った場合よりもキーワードにより関連のある文書を得ることができる。
【0040】
請求項2の発明によれば、単一の単語を用意することなく、ユーザは所望の複数の単語で構成されるキーワードを使用できる。
【0041】
請求項3の発明によれば、同義語に関連し、意味属性を最もよく表す単語を取り出すことができる。
【0042】
請求項4の発明によれば、同義語検索のみの検索結果をも取得することによってキーワードの絞り込みによる検索落ちをなくす。
【0043】
請求項5の発明によれば、文書のタイトル名、文書そのもの、文書等の一部を表示することによりユーザは文書の内容や、所在を知ることができる。
【0044】
請求項6の発明では、キーワードの関連度に応じた文書の所在をユーザが知ることができる。
【0045】
請求項7の発明によれば、検索結果として文書の一部を表示することによって、キーワードとの関連の度合いユーザが確認できる。
【0046】
請求項9の発明によれば、キーワードの一致検索を行った後に、本発明に関わる同義語検索を実行することにより、検索時間と、検索精度のバランスをとることができる。
【0047】
請求項10の発明では、自動検索に使用された同義語、意味属性の単語をユーザが知ることができる。
【図面の簡単な説明】
【図1】本発明を適用した情報検索装置のシステム構成を示すブロック図である。
【図2】単語連想辞書の内容の一部を示す説明図である。
【図3】意味属性体系辞書の内容の一部を示す説明図である。
【図4】情報検索に関わる処理手順を示すフローチャートである。
【図5】情報検索に関わる処理手順を示すフローチャートである。
【図6】検索結果の表示例を示す説明図である。
【符号の説明】
1 CPU
2 ROM
3 RAM
4 入力インタフェース
5 キーボード
6 マウス
7 ハードディスク記憶装置
8 フロッピーディスクドライブ
9 出力インタフェース
10 プリンタ
11 表示装置
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an information retrieval apparatus that semantically retrieves data from an accumulated document database and an information retrieval method thereof.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, there has been known an information search apparatus that stores document data in an information processing apparatus such as a personal computer and detects a word / phrase described in the document data by keyword search. An information retrieval apparatus that searches a document for a phrase that includes a part of a character string provided by a user in order to increase the accuracy of retrieval has been put into practical use. In addition, as in Japanese Patent Application Laid-Open No. 6-266770, an information search apparatus that converts a character string provided by a user into a synonym and performs a search with the synonym to detect a synonym in the document has been proposed.
[0003]
[Problems to be solved by the invention]
However, in the search using the above-described information search apparatus, the search accuracy is poor only with the complete match, partial match, and synonyms for the character string given by the user, and the search accuracy is further improved from the user. There is a growing demand for this. For example, if a synonym search is performed to search for a corresponding document, sentence, paragraph, or the like and 500 search results are obtained, the user must confirm the contents of the 500 points on the display screen. The operation for this is very complicated for the user.
[0004]
Therefore, in view of the above-described points, an object of the present invention is to provide an information search apparatus and an information search method thereof that improve search accuracy using a search method that has not been available so far.
[0005]
[Means for Solving the Problems]
In order to achieve such an object, an invention according to claim 1 is an information retrieval apparatus that includes a document database having a plurality of documents and retrieves a document having a character string related to a given keyword. A word association dictionary describing the synonyms, a semantic attribute system dictionary describing the words and their semantic attributes, means for obtaining synonyms for the keywords from the word association dictionary, and semantic attributes for the keywords Means for acquiring from a semantic attribute system dictionary, and a document having the acquired synonym and having a word having the same acquired semantic attribute within a predetermined length range including the synonym. And a means for searching in a database.
[0006]
According to a second aspect of the present invention, in the information search device according to the first aspect, the keyword includes a plurality of words, and further includes means for removing a predetermined word as an unnecessary word from the keyword. And
[0007]
The invention according to claim 3 is the information search device according to claim 1, wherein the range of the predetermined length is formed of a predetermined number or more of character strings, and is a word string that semantically constitutes one word, The searching means acquires the semantic attribute of the word located at the end of the word string from the semantic attribute system dictionary, compares it with the semantic attribute of the keyword, and determines whether or not there is a match.
[0008]
According to a fourth aspect of the present invention, in the information retrieval apparatus according to the first aspect, in the retrieval process, the retrieval unit retrieves a synonym related document including only the synonym in the document database. And
[0009]
The invention of claim 5 further comprises means for displaying information for notifying the document obtained by the search of claim 1 and the synonym-related document obtained by the search of claim 4. It is characterized by.
[0010]
According to a sixth aspect of the present invention, in the information retrieval device according to the fifth aspect, the means for displaying is related to the document obtained by the retrieval according to the first aspect and the synonym relation obtained by the retrieval according to the fourth aspect. It is characterized by distinguishing and displaying information for informing a document.
[0011]
According to a seventh aspect of the present invention, in the information retrieval device according to the fifth aspect, to notify the document obtained by the retrieval according to the first aspect and the synonym related document obtained by the retrieval according to the fourth aspect. This information is a part of the document and synonym related documents.
[0012]
The invention of claim 8 includes a document database having a plurality of documents, and describes a word and its synonyms in an information search method of an information search apparatus for searching for a document having a character string related to a given keyword. A word association dictionary and a semantic attribute system dictionary describing a word and its semantic attributes are preinstalled in the information retrieval device, and the information retrieval device acquires a synonym for the keyword from the word association dictionary. , A semantic attribute for the keyword is acquired from the semantic attribute system dictionary, has the acquired synonym, and the acquired semantic attribute is the same within a predetermined length including the synonym The document database is searched for the document in which the document exists.
[0013]
The invention according to claim 9 is the information search method of the information search apparatus according to claim 8, wherein a document including a word that matches the keyword is searched in the document database, and there is no corresponding document. It shifts to the search of description, It is characterized by the above-mentioned.
[0014]
The invention according to claim 10 is the information search method of the information search device according to claim 8, wherein a sentence including the synonym of the document obtained as a search result is displayed on a display screen, and the synonym and the semantic attribute are displayed. The same word is displayed so that it can be identified.
[0015]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 shows an example of the system configuration of an information retrieval apparatus to which the present invention is applied. An information processing apparatus such as a personal computer or a workstation can be used as the information retrieval apparatus. In FIG. 1, the information retrieval apparatus has a CPU 1, a ROM 2, a RAM 3, an input interface 4, a hard disk storage device 7, a floppy disk drive, and an output interface 9. The CPU 1 uses system programs stored in the ROM 2 or the hard disk storage device 7 to perform system processing, for example, read / write information to / from the memory or storage device, and character code-image conversion for displaying information on the display device 11 (to be described later). Called), display control, control of the printer 10, and reception of input information from the keyboard 5 and mouse 6. The ROM 2 stores a system program and related information for executing the above system processing.
[0016]
The RAM 3 temporarily stores information used for information processing by the CPU 1 and information processing results. As information related to the present invention, document information acquired from the document database of the hard disk storage device 7 is temporarily stored. The input interface 4 transfers input information from a keyboard 5 and a coordinate input device (hereinafter referred to as a mouse) 6 such as a mouse to the CPU 1.
[0017]
The keyboard 5 is mainly used for character input. The mouse 6 is used for designating a position on the display screen. In addition to the system program, the hard disk storage device 7 stores an information search program according to the present invention, a document database to be searched, a word association dictionary and a semantic attribute system dictionary used for information search. Since the word association dictionary and the semantic attribute system dictionary are related to the present invention, they will be described in detail later. The document database of this embodiment is composed of a plurality of documents, and this document has at least a document name (file name) and document data in a character code form.
[0018]
The floppy disk drive 8 receives a floppy disk and reads / writes information from / to the floppy disk. The floppy disk is used to register documents created elsewhere in the document database. The output interface 9 transfers information to be displayed or printed and control information to the printer 10 and the display device 11.
[0019]
In such a system configuration, the present embodiment performs a synonym search on the document database, and examines a sentence including the synonym when a plurality of corresponding search results are obtained. It is characterized in that when a word having the same semantic attribute as the keyword has is included in the sentence, the sentence is handled as a highly weighted search result.
[0020]
A detailed description for this will be given below. FIG. 2 shows a part of the contents of the word association dictionary used for the above information search, and FIG. 3 shows a part of the contents of the semantic attribute system dictionary. The word associative dictionary is composed of a plurality of records, and one record is a character string (hereinafter collectively referred to as a word) 51 such as one character kanji, a word, or a phrase, an identification code assigned to the word, and a synonym (including a similar word). ) 53 and an identification code (referred to as a semantic attribute code) indicating a semantic attribute related to the word. If necessary, other information such as grammatical information indicating nouns, adjectives, etc., and word reading (notation) can be added.
[0021]
The semantic attribute system dictionary is also composed of a plurality of records, each record having a word, an identification code (semantic attribute code) indicating the semantic attribute of the word, and a character string of the word indicating the semantic attribute. The above-mentioned words (including one-character kanji) described in the semantic attribute system dictionary are included in one or more word strings, and a word that is frequently used as the last word is prepared in advance. The Chinese character “person” shown in FIG. 3 is a word used at the end of the word string of accompanying persons, managers, and the like. FIG. 3 shows that a semantic attribute such as person or organization is given to this word, and an identification code of 1001 is given to this semantic attribute.
[0022]
Information search processing using such a word association dictionary and semantic attribute system dictionary will be described with reference to FIGS. 4 and 5. FIG. FIG. 4 functionally shows the processing contents of the information retrieval processing program stored in the hard disk storage device 7. FIG. 5 shows detailed processing in the processing of FIG. When the execution of search is instructed from the keyboard 5, the information search program of FIG. 4 is started and the information search process is started in the CPU 1. As an example of information search, an example will be described in which a character string of the word “Natsu no Koshien” is given and a corresponding sentence in a document in which a word related to this word is described is searched.
[0023]
When the user inputs “Summer Koshien” as a keyword from the keyboard 5, the CPU 1 accepts the input word, that is, “Summer Koshien”, and temporarily stores it in the RAM 3 (step S10).
[0024]
Next, the CPU 1 searches the document database for a word that completely matches the keyword. Since this process is the same as the conventional search process, detailed description will not be required. When a corresponding word is found, a sentence or document including the word, or a document name is displayed (steps S20 → S30 → S35).
[0025]
On the other hand, when a completely matched word is not detected, the CPU 1 proceeds to synonym search. The input word “Natsu no Koshien” in the RAM 3 is decomposed into the minimum unit words “Natsu no Koshien” and “Koshien”, and words not used in the search are removed (step S40). For example, this criterion can make unnecessary words a word that is not described in the word association dictionary or a predetermined word that does not have a synonym described in the word association dictionary. Also, words that are not normally used in words, such as? , @, Etc. should also be removed.
[0026]
In this example, “summer” is removed, and “Koshien” is obtained as a synonym search keyword. It should be noted that the technique for word decomposition is well known in the name of parsing and will not require detailed explanation. The simplest method is to divide the character string in units of words described in the word association dictionary. The CPU 1 acquires the synonym “high school baseball” and the semantic attribute code “2004” by referring to the word association dictionary based on the obtained keyword “Koshien” (see step S50, FIG. 2).
[0027]
Next, the CPU 1 searches the document database of the hard disk storage device 7 to search for a document in which the acquired synonym is described (step S60). When a corresponding document is found (YES in step S70), the degree of association between the keyword (Koshien) given by the user and the synonym (high school baseball) is weighted, that is, the degree of association. Is calculated (step S80). A detailed procedure for this is shown in FIG.
[0028]
In FIG. 5, the CPU 1 extracts a sentence including synonyms from a document obtained as a result of the search. A simple method is to detect a character code representing a sentence delimiter such as “.” Before and after the synonym and a space character, and take out a character string sandwiched between the character codes as a sentence (step S100). The taken-out sentence is decomposed into words, more specifically, excluding predetermined unnecessary words, the sentence is decomposed into words (including phrases and the like) composed of four or more character strings (step S110). Then, the word including the synonym (with the smallest unit length and located at the end is extracted. For example, the extracted sentence is “This year's National High School Baseball Players ... ", A character string of" National High School Baseball Tournament "is taken out as a word of four or more characters (a word string composed of a predetermined number of character strings and semantically constituting one word). "Meeting" is taken out as a word of minimum unit length.
[0029]
For this word “meeting”, the CPU 1 refers to the semantic attribute system dictionary of FIG. 3 and acquires “2004” as the semantic attribute code. When such processing is performed on all search results (documents including synonyms), a semantic attribute code is obtained for each document (steps S120 → S130). As described above, since the semantic attribute code for the user keyword “Koshien” has already been checked and stored in the RAM 3, the CPU 11 uses a plurality of keywords derived from the semantic attribute code (2004) of the user keyword and all the search results documents. Are compared with the meaning attribute codes (step S140). A document in which a match is found is treated as a highly relevant document, and a document that does not match is treated as a less relevant document. These documents are stored in the corresponding areas on the RAM 3 (steps S150 and S155).
[0030]
Returning to FIG. 4, the CPU 1 extracts the corresponding part in the document as a search result from the RAM 3 and displays it according to the degree of relevance (weight) (step S <b> 90). An example of the display is shown in FIG. In this display example, the sentence with the matching semantic attribute code is displayed as the final search result, and as a reference, that is, the sentence that includes the synonym but the semantic attribute code does not match is displayed as the reference, and the related This is an example in which the degree is divided into two.
[0031]
As described above, in this embodiment, in addition to the synonym search, a sentence in which a word having a keyword and a semantic attribute is present near a synonym (similar word) is detected. You can get something close to the sentence you are looking for.
[0032]
In addition to this example, the following example can be implemented.
[0033]
1) In this embodiment, the search target is a sentence described in the document, but a paragraph, the entire document, or the like may be the search target. In addition, the type of sentence, paragraph, document, etc. may be designated from the keyboard. Furthermore, instead of the content of the sentence, the title name or file name registered in the document database may be used as a search result, or the information and the corresponding sentence may be displayed together. In other words, the document described in claim 1 includes the document itself, a part of the document, the document title, the file name, and the like.
[0034]
2) In the present embodiment, in order to detect a word in a document near a synonym having the same semantic attribute of a keyword, the longest word (including a compound word) including the synonym in the document is extracted, Checking semantic attributes. This is because the inventor realized that when the last word of the longest word is Japanese, it expresses the semantic attribute best, but if you want to further improve the search accuracy even at the expense of search time. The following detection method may be used. After extracting a sentence including a synonym, the word is extracted from the synonym as a starting point toward the beginning and end of the sentence. The semantic attribute code of the extracted word is extracted from the semantic attribute system dictionary and compared with the semantic attribute code of the keyword. If a match is found, the sentence is treated as a sentence with high relevance. In addition, if you want to change the degree of search accuracy, the search range for words that have the same semantic attributes as keywords is not limited to sentences containing synonyms, but can be selectively expanded to paragraphs, pages, or entire documents. Good. This selection is sentence, paragraph. . . Thus, the search range may be automatically expanded until a word having the same semantic attribute code is found, or the user may manually specify the search range from the keyboard.
[0035]
3) In this embodiment, the degree of association between the keyword and the sentence to be searched is divided into two stages, but it can be made two or more stages. In this case, the number of words having the same meaning attribute included in a predetermined length sentence including synonyms, for example, one page is counted. Corresponding to this numerical value, the search accuracy can be divided into multiple levels.
[0036]
4) As a display form of the search result, in addition to the sentence including the synonym, the longest word including the synonym is displayed in a rectangle as shown in FIG. 6, or the word having the same synonym and semantic attribute is displayed in another color. It is possible to inform the user of words related to the keyword such as. In addition, the form of notification may be a color, a figure such as a rectangle, a typeface change, an underline, a character size change, or the like.
[0037]
5) As a method of using the information search apparatus, it may be used alone, or it may be connected to a communication line, accepting a keyword from another computer of the search request, and returning the search result to the computer of the search request. . In this case, the information retrieval apparatus may be provided with a communication means.
[0038]
6) The storage location of the document database mounted on the information retrieval apparatus is not limited to the hard disk storage device, and any suitable known storage means such as a magneto-optical storage device may be used.
[0039]
【The invention's effect】
As described above, according to the inventions of claims 1 and 8, a document having both a synonym and a word having the same semantic attribute with respect to a keyword, and the two words are close to each other. Since the search is performed, it is possible to obtain a document related to the keyword as compared with the case where the search for only the synonym or the semantic attribute is continuously performed.
[0040]
According to the invention of claim 2, the user can use a keyword composed of a plurality of desired words without preparing a single word.
[0041]
According to the third aspect of the present invention, it is possible to take out a word that best relates to a synonym and expresses a semantic attribute.
[0042]
According to the fourth aspect of the present invention, the search failure due to the narrowing down of the keyword is eliminated by acquiring the search result of only the synonym search.
[0043]
According to the invention of claim 5, the user can know the contents and location of the document by displaying the title name of the document, the document itself, and a part of the document.
[0044]
In the invention of claim 6, the user can know the location of the document according to the degree of relevance of the keyword.
[0045]
According to the invention of claim 7, by displaying a part of the document as the search result, the user can confirm the degree of association with the keyword.
[0046]
According to the ninth aspect of the present invention, the search time and the search accuracy can be balanced by executing the synonym search according to the present invention after performing the keyword matching search.
[0047]
In the invention of claim 10, the user can know the synonyms and semantic attribute words used in the automatic search.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a system configuration of an information search apparatus to which the present invention is applied.
FIG. 2 is an explanatory diagram showing a part of the contents of a word association dictionary.
FIG. 3 is an explanatory diagram showing a part of the contents of a semantic attribute system dictionary.
FIG. 4 is a flowchart showing a processing procedure related to information retrieval.
FIG. 5 is a flowchart showing a processing procedure related to information retrieval.
FIG. 6 is an explanatory diagram showing a display example of search results.
[Explanation of symbols]
1 CPU
2 ROM
3 RAM
4 Input interface 5 Keyboard 6 Mouse 7 Hard disk storage device 8 Floppy disk drive 9 Output interface 10 Printer 11 Display device

Claims (10)

複数の文書を有する文書データベースを搭載し、与えられたキーワードに関連する文字列を有する文書を検索する情報検索装置において、
単語およびその同義語を記載した単語連想辞書と、
単語とその意味属性を記載した意味属性体系辞書と、
前記キーワードについての同義語を前記単語連想辞書から取得する手段と、
前記キーワードについての意味属性を前記意味属性体系辞書から取得する手段と、
当該取得した同義語を有し、かつ、該同義語を含む所定長さの範囲内に当該取得した意味属性が同一となる単語が存在する文書を前記文書データベース中で検索する手段とを具えたことを特徴とする情報検索装置。
In an information retrieval apparatus for loading a document database having a plurality of documents and retrieving a document having a character string related to a given keyword,
A word association dictionary that lists words and their synonyms;
A semantic attribute system dictionary describing words and their semantic attributes;
Means for obtaining a synonym for the keyword from the word association dictionary;
Means for obtaining a semantic attribute for the keyword from the semantic attribute system dictionary;
And means for searching the document database for a document having the acquired synonym and having a word having the same acquired semantic attribute within a predetermined length including the synonym. An information retrieval apparatus characterized by that.
請求項1に記載の情報検索装置において、前記キーワードは複数の単語で構成され、当該キーワードから予め定めた単語を不要な単語として除去する手段をさらに具えたことを特徴とする情報検索装置。The information search apparatus according to claim 1, further comprising means for removing a predetermined word from the keyword as an unnecessary word, the keyword being composed of a plurality of words. 請求項1に記載の情報検索装置において、前記所定長さの範囲は所定数以上の文字列で構成され、意味的に1つの単語を構成する単語列であり、前記検索する手段は、当該単語列の最後尾に位置する単語の意味属性を前記意味属性体系辞書から取得して、前記キーワードの意味属性と比較し、一致の有無を判定することを特徴とする情報検索装置。2. The information search apparatus according to claim 1, wherein the range of the predetermined length is a word string composed of a predetermined number or more of character strings, semantically constituting one word, and the means for searching includes the word An information search apparatus characterized in that a semantic attribute of a word located at the end of a column is acquired from the semantic attribute system dictionary and compared with the semantic attribute of the keyword to determine whether or not there is a match. 請求項1に記載の情報検索装置において、前記検索する手段は、検索の過程において、前記同義語のみを含む同義語関連文書を前記文書データベース上で検索することを特徴とする情報検索装置。2. The information search apparatus according to claim 1, wherein the searching unit searches the document database for a synonym related document including only the synonym in a search process. 請求項1に記載の検索で得られた文書および請求項4に記載の検索で得られた同義語関連文書を報知するための情報を表示する手段をさらに具えたことを特徴とする情報検索装置。An information retrieval apparatus further comprising means for displaying information for notifying the document obtained by the search according to claim 1 and the synonym related document obtained by the search according to claim 4. . 請求項5に記載の情報検索装置において、前記表示する手段は請求項1に記載の検索で得られた文書および請求項4に記載の検索で得られた同義語関連文書を報知するための情報を区別して表示することを特徴とする情報検索装置。6. The information search apparatus according to claim 5, wherein the display means is information for notifying the document obtained by the search according to claim 1 and the synonym related document obtained by the search according to claim 4. Information search apparatus characterized by distinguishing and displaying 請求項5に記載の情報検索装置において、請求項1に記載の検索で得られた文書および請求項4に記載の検索で得られた同義語関連文書を報知するための情報は当該文書および同義語関連文書の一部であることを特徴とする情報検索装置。6. The information search apparatus according to claim 5, wherein information for notifying the document obtained by the search according to claim 1 and the synonym related document obtained by the search according to claim 4 is the document and the synonym. An information search apparatus characterized by being part of a word-related document. 複数の文書を有する文書データベースを搭載し、与えられたキーワードに関連する文字列を有する文書を検索する情報検索装置の情報検索方法において、
単語およびその同義語を記載した単語連想辞書と、単語とその意味属性を記載した意味属性体系辞書とを予め前記情報検索装置に搭載しておき、当該情報検索装置は、前記キーワードについての同義語を前記単語連想辞書から取得し、
前記キーワードについての意味属性を前記意味属性体系辞書から取得し、
当該取得した同義語を有し、かつ、該同義語を含む所定長さの範囲内に当該取得した意味属性が同一となる単語が存在する文書を前記文書データベース中で検索する
ことを特徴とする情報検索装置の情報検索方法。
In an information search method of an information search apparatus for loading a document database having a plurality of documents and searching for a document having a character string related to a given keyword,
A word association dictionary describing a word and its synonyms and a semantic attribute system dictionary describing a word and its semantic attributes are preinstalled in the information search device, and the information search device is a synonym for the keyword From the word association dictionary,
Obtaining a semantic attribute for the keyword from the semantic attribute system dictionary;
The document database is searched for a document having the acquired synonym and having a word having the same acquired semantic attribute within a predetermined length including the synonym. Information retrieval method of information retrieval apparatus.
請求項8に記載の情報検索装置の情報検索方法において、前記キーワードと一致する単語を含む文書を前記文書データベース中で検索し、該当する文書がないときに請求項8に記載の検索に移行することを特徴とする情報検索装置の情報検索方法。9. The information search method of the information search device according to claim 8, wherein a document including a word that matches the keyword is searched in the document database, and when there is no corresponding document, the search is shifted to the search according to claim 8. The information search method of the information search device characterized by the above-mentioned. 請求項8に記載の情報検索装置の情報検索方法において、検索結果として得られる文書の前記同義語が含まれる文を表示画面に表示し、当該同義語および意味属性が同一となる単語を識別可能に表示することを特徴とする情報検索装置の情報検索方法。9. The information search method of the information search device according to claim 8, wherein a sentence including the synonym of the document obtained as a search result is displayed on a display screen, and the word having the same synonym and semantic attribute can be identified. An information search method for an information search apparatus, characterized by:
JP03248996A 1996-02-20 1996-02-20 Information retrieval apparatus and information retrieval method thereof Expired - Fee Related JP3693734B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03248996A JP3693734B2 (en) 1996-02-20 1996-02-20 Information retrieval apparatus and information retrieval method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03248996A JP3693734B2 (en) 1996-02-20 1996-02-20 Information retrieval apparatus and information retrieval method thereof

Publications (2)

Publication Number Publication Date
JPH09231227A JPH09231227A (en) 1997-09-05
JP3693734B2 true JP3693734B2 (en) 2005-09-07

Family

ID=12360412

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03248996A Expired - Fee Related JP3693734B2 (en) 1996-02-20 1996-02-20 Information retrieval apparatus and information retrieval method thereof

Country Status (1)

Country Link
JP (1) JP3693734B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4724701B2 (en) * 2007-10-30 2011-07-13 日本電信電話株式会社 Text search server computer, text search method, text search program, and recording medium recording the program
JP4609527B2 (en) 2008-06-03 2011-01-12 株式会社デンソー Automotive information provision system
CN107229659B (en) * 2016-03-25 2021-06-22 华为技术有限公司 Information searching method and device

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3123836B2 (en) * 1992-11-10 2001-01-15 日本電信電話株式会社 Text type database device
JPH07262217A (en) * 1994-03-24 1995-10-13 Fuji Xerox Co Ltd Text retrieval device

Also Published As

Publication number Publication date
JPH09231227A (en) 1997-09-05

Similar Documents

Publication Publication Date Title
US6654717B2 (en) Multi-language document search and retrieval system
JP4544674B2 (en) A system that provides information related to the selected string
US6424983B1 (en) Spelling and grammar checking system
US6859800B1 (en) System for fulfilling an information need
US5523945A (en) Related information presentation method in document processing system
US6697801B1 (en) Methods of hierarchically parsing and indexing text
EP0155284B1 (en) Indexing subject-locating method
US20020123994A1 (en) System for fulfilling an information need using extended matching techniques
US20090144249A1 (en) Method and system for retrieving information based on meaningful core word
JPH11110416A (en) Method and device for retrieving document from data base
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
CN101251844A (en) Apparatus and method for retrieval of contents
JP2001526425A (en) Identify the language and character set of the data display text
JP2002197104A (en) Device and method for data retrieval processing, and recording medium recording data retrieval processing program
KR100396826B1 (en) Term-based cluster management system and method for query processing in information retrieval
JP2000200281A (en) Device and method for information retrieval and recording medium where information retrieval program is recorded
JP2005038395A (en) Database retrieval device
JP4065346B2 (en) Method for expanding keyword using co-occurrence between words, and computer-readable recording medium recording program for causing computer to execute each step of the method
JP3693734B2 (en) Information retrieval apparatus and information retrieval method thereof
JP2009086903A (en) Retrieval service device
JP2002132789A (en) Document retrieving method
JP3187671B2 (en) Electronic dictionary display
JP4206266B2 (en) Full-text search device, processing method, processing program, and recording medium
JPH07296005A (en) Japanese text registration/retrieval device
JPH0991297A (en) Method and device for character string retrieval

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050610

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050622

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090701

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090701

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100701

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100701

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110701

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110701

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120701

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees