JPH01185724A - Retriever - Google Patents

Retriever

Info

Publication number
JPH01185724A
JPH01185724A JP63010276A JP1027688A JPH01185724A JP H01185724 A JPH01185724 A JP H01185724A JP 63010276 A JP63010276 A JP 63010276A JP 1027688 A JP1027688 A JP 1027688A JP H01185724 A JPH01185724 A JP H01185724A
Authority
JP
Japan
Prior art keywords
search
word
words
information
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63010276A
Other languages
Japanese (ja)
Other versions
JP2854000B2 (en
Inventor
Motohiko Hasegawa
長谷川 元彦
Tsuguro Sonoda
園田 嗣朗
Toshiaki Bungoya
豊後屋 寿昭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
M C WAADE CENTER KK
Original Assignee
M C WAADE CENTER KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by M C WAADE CENTER KK filed Critical M C WAADE CENTER KK
Priority to JP63010276A priority Critical patent/JP2854000B2/en
Publication of JPH01185724A publication Critical patent/JPH01185724A/en
Application granted granted Critical
Publication of JP2854000B2 publication Critical patent/JP2854000B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To improve the accuracy and the efficiency of retrieval by extracting a key word used in the retrieval from a query text inputted in a natural language format, and performing the retrieval after performing the analysis processing of information targeted to be retrieved. CONSTITUTION:The query text inputted to a retriever in the natural language format by a query text input means 1 is analyzed by a query text analysis means 2 provided in the retriever. In other words, a word set as a key word is extracted from the query text, and it is judged whether or not the word is defined by a dictionary. And for the word defined in the dictionary, the existence of an unrequired word which makes a noise for a retrieval object is decided, and a processing to eliminate it from the key word for retrieval is performed, and the word having relationship is drawn out by deciding the word such as a word with many meanings, a synonym, and a word with different morpheme, etc., based on the variety of a natural language, and a related word is set as the key word for retrieval. After that, the retrieval is performed on storage information in which character information set as the object to be retrieved is accumulated by only a required key word. In such a way, the efficiency of retrieval accuracy can be improved.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、文字情報が蓄積された記憶装置から、必要な
情報を自然言語形式の質問文を入力することにより検索
する検索装置に関する。特に自然言語形式の文書情報が
蓄積された記憶装置の検索装置に関する。本発明の検索
装置は文字情報が蓄積されたデータベースの検索に利用
できるだけでなく、一般のワードプロセッサやオフィス
コンビ二一夕等の記憶装置に蓄積された文字情報の検索
に利用できる。
DETAILED DESCRIPTION OF THE INVENTION [Field of Industrial Application] The present invention relates to a search device that searches for necessary information from a storage device storing character information by inputting a question in natural language format. In particular, the present invention relates to a search device for a storage device storing document information in natural language format. The search device of the present invention can be used not only to search a database storing character information, but also to search character information stored in a storage device such as a general word processor or an office computer.

〔概要〕〔overview〕

本発明は、記憶装置に記憶された検索対象となる文字情
報を自然言語形式で入力された質問文から検索を行う検
索装置において、 自然言語形式で入力された質問文から検索に使用すべき
キーワードを抽出し、そのキーワードについて検索対象
情報に対して不用語であるか、同義語、類義語あるいは
異なる形態等があるかの解析処゛理を行ったのち検索を
行うことにより、自然言語形式による検索の精度と効率
を向上させ、さらに、通常のOA用情報処理装置等で作
成され記憶された情報を手軽に検索できるようにするも
のである。
The present invention provides a search device that searches text information to be searched stored in a storage device from a question text input in a natural language format, and a keyword to be used for searching from a question text input in a natural language format. Search in natural language format by extracting keywords and analyzing whether the keyword is a non-term in the search target information, whether it has a synonym, synonym, or a different form, etc., and then perform a search. The purpose is to improve the accuracy and efficiency of information processing, and also to easily search information created and stored in a normal OA information processing device or the like.

〔従来の技術〕[Conventional technology]

文字情報あるいは図形情報を含む文字情報を蓄積してデ
ータベースを構成し、これをホストコンピュータに接続
される端末装置から、検索式を入力することにより、必
要なデータを取り出すデータベースシステムが構築され
ている。
A database system has been constructed in which character information including character information or graphic information is accumulated to form a database, and required data is retrieved by inputting a search formula from a terminal device connected to a host computer. .

このデータベースシステムには、データベースから必要
な情報を検索する場合に、質問式を論理式で構成された
検索式を直接端末装置から入力するのではなく、自然言
語形式で質問式を入力して、その質問式から必要なキー
ワードとなる単語を抽出して検索を行う自然言語情報検
索処理方式のものも存在している。
In this database system, when searching for necessary information from a database, instead of inputting a search formula consisting of a logical formula directly from a terminal device, the query formula is input in natural language format. There is also a natural language information search processing method that performs a search by extracting words that serve as necessary keywords from the question expression.

また、オフィスでは各種の情報処理装置により各種の文
書が作成され、その記憶装置に文字情報の形で蓄積され
ている。
Furthermore, in offices, various documents are created by various information processing devices and stored in the storage devices in the form of character information.

〔発明が解決しようとする問題点〕[Problem that the invention seeks to solve]

しかし、従来の自然言語形式の質問文によるデータベー
ス検索には次の問題があった。
However, conventional database searches using natural language questions have the following problems.

まず、統制語といわれるデータベースに登録済の単語で
しかそのデータベースを検索することができないので、
検索者は、質問文を作成入力する場合に使用可能なキー
ワードは限られており、非統制語といわれる登録されて
いない語によって検索することが困難である問題がある
。特に自然言語には、同義語や類義語、あるいは言い換
えなど異形態の語が数多く存在するため、それらの語が
質問対象情報に存在する場合には、データベースで規定
された統制語に言い換え、あるいはそれらの統制語に当
たるかを調べてから質問式を作成して検索をしなければ
ならず、検索を行う者には専門的な知識と技能を要求さ
れ、検索を簡単にまた効率よく行うことができなかった
First, you can only search the database using words that have already been registered in the database, called controlled words.
When a searcher creates and inputs a question, there are a limited number of keywords that can be used, and there is a problem in that it is difficult to search using unregistered words called uncontrolled words. Especially in natural language, there are many different words such as synonyms, synonyms, and paraphrases, so if these words exist in the information to be questioned, they should be replaced with controlled words specified in the database, or It is necessary to create a query formula after searching to see if it corresponds to the controlled term, and the person conducting the search is required to have specialized knowledge and skills, making it difficult to conduct the search easily and efficiently. There wasn't.

また、自然言語形式で質問文を作成すると、こんどは検
索対象には不用であるキーワードが質問式に入ってくる
ことになるため、入力された自然言語形式の質問文で検
索を行うと不用の情報も検索出力され、検索精度が低く
なり、ホストコンピュータの占有時間が多くなり、経費
が高くなる問題があった。
Also, if you create a question text in natural language format, keywords that are unnecessary for the search target will be included in the question formula, so if you search using the entered natural language format question text, unnecessary keywords will be included in the question format. Information is also searched and output, resulting in lower search accuracy, more time occupied by the host computer, and higher costs.

さらに、現在、オフィスには事務処理用オフィスコンビ
コータやワードプロセッサあるいはパーソナルコンピユ
ー夕が普及し、それらの情報処理装置等で支社宛、客先
宛の手紙、報告書等の各種の文書が作成され、記憶装置
に蓄積されているが、その記憶装置に蓄積された文書内
容を検索するには、文書の作成者以外のものは、そのフ
ァイル名で索引して検索できるだけであり、文書の作成
者以外のものが、どのような文書内容が作成され記憶さ
れているかを自然言語形式の質問文を入力して簡便な方
法で検索できるものではなかった。
Furthermore, office combi coaters, word processors, and personal computers are now commonplace in offices, and these information processing devices are used to create various documents such as letters to branch offices and customers, and reports. , but in order to search the contents of the document stored in the storage device, anyone other than the creator of the document can only search by indexing the file name; However, it is not possible to easily search for what kind of document content has been created and stored by inputting a question in natural language format.

また、これらのOA機器に記憶された文書を自然言語形
式の質問文で検索しようとしても上述のデータベースの
検索と同じく、不用語や多義語、類義語等の存在により
、効率良く蓄積された文書情報を検索することができな
かった。
Furthermore, even if you try to search documents stored in these OA devices using questions in natural language format, as with the above-mentioned database search, due to the presence of unused terms, polysemous words, synonyms, etc., it is difficult to efficiently accumulate document information. could not be searched.

本発明は、上述の問題を解決するものであり、各種の記
憶装置に記憶された文字情報を自然言語形式の質問文を
入力して簡便に検索でき、その検索精度の効率を上げる
ことができる検索用装置を提供することを目的とする。
The present invention solves the above-mentioned problems, and enables easy searching of character information stored in various storage devices by inputting a question sentence in natural language format, and improves the efficiency of the search accuracy. The purpose is to provide a search device.

〔問題点を解決するための手段〕[Means for solving problems]

本発明は、記憶装置に記憶された検索対象となる文字情
報を自然言語形式で入力された質問文によって検索を行
う検索装置において、 入力された質問文からその質問文を構成する単語を抽出
し、この抽出された単語がこの検索装置の辞書に存在す
るか否かを判定する辞書マツチング判定手段と、質問す
べき対象には不用な単語であるか否かを判定して検索用
の単語から除く不用語判定処理手段と、検索用の単語に
ついて多義語あるいは類義語あるいは異形態などの関連
性ある単語が構成されているかを検討しこれらの関連性
ある単語を検索用のキーワードとする検討語判定処理手
段とを含み、上記辞書マツチング判定手段または上記不
用語判定処理手段もしくは検討語判定処理手段により処
理された質問文を構成する単語に基づいて検索を行う手
段を備えたことを特徴とする。
The present invention provides a search device that searches text information to be searched stored in a storage device using a question text input in natural language format, which extracts words constituting the question text from the input question text. , a dictionary matching determination means for determining whether the extracted word exists in the dictionary of this search device, and a dictionary matching determination means for determining whether or not the extracted word exists in the dictionary of the search device, and a dictionary matching determination means for determining whether or not the extracted word exists in the dictionary of the search device, and a dictionary matching determination means for determining whether or not the extracted word exists in the dictionary of the search device, and a dictionary matching determination means for determining whether or not the extracted word exists in the dictionary of the search device. A processing means for determining non-words to be excluded, and a consideration word determination method that considers whether the search word contains related words such as polysemous words, synonyms, or allomorphs, and uses these related words as keywords for the search. processing means, and means for performing a search based on the words constituting the question sentence processed by the dictionary matching determination means, the non-word determination processing means, or the consideration word determination processing means.

また、この検索装置は、ワードプロセッサ、オフィスコ
ンピュータ、パーソナルコンピュータ、ワークステーシ
ョンの一部としてそのワードプロセッサ、オフィスコン
ピュータ、パーソナルコンピュータ、ワークステーショ
ンに実装することができる。
Further, this search device can be implemented as part of a word processor, office computer, personal computer, or workstation.

また、不用語判定処理手段は、抽出された単語から不用
語候補を抽出し、その不用語候補の単語を活用形により
活用した活用パターンに合致するかを判定したのち、不
用語判定情報により不用語を確定する手段を含むことが
好ましい。
Further, the non-word determination processing means extracts non-word candidates from the extracted words, determines whether the word of the non-word candidate matches a usage pattern using the conjugated form, and then determines whether the non-word candidate word matches a usage pattern using the conjugated form. Preferably, it includes means for defining terms.

また、検討語判定処理手段は、質問文から抽出された単
語に多義語、類義語、表記形態の異なる異形態語、意味
的に関連性ある語が存在するかを判定し検討対象語を確
定する手段を含むことが好ましい。
Further, the consideration word determination processing means determines whether polysemous words, synonyms, heteromorphic words with different written forms, and semantically related words exist in the words extracted from the question sentence, and determines the words to be examined. Preferably, it includes a means.

また、質問文の解析の結果により再度質問文の入力を促
し、検索精度を高める手段を含むことが好ましい。
Further, it is preferable to include means for prompting the user to input the question again based on the result of analyzing the question to improve search accuracy.

さらに質問文の解析および検索は、対話形式で行うこと
が好ましく、特に、検索を行う手段は、マルチウィンド
ウ形式で検索結果を表示し、検索用キーワードが検索対
象情報のどこに現れたかを表示する画面と、検索対象情
報が表示されその内容を操作者がスクロールできる画面
とを表示する手段を含むことが好ましい。
Furthermore, it is preferable to analyze and search the question text in an interactive format.In particular, the means for performing the search is a screen that displays search results in a multi-window format and displays where the search keyword appears in the search target information. It is preferable to include means for displaying: and a screen on which search target information is displayed and the contents thereof can be scrolled by the operator.

また、検索を行う手段は、マルチウィンドウ形式で検索
結果を表示し、その表示結果に基づき検索用キーワード
を追加または修正し、検索結果を記憶する手段を含むこ
とが好ましい。
Preferably, the means for performing a search includes means for displaying search results in a multi-window format, adding or modifying search keywords based on the displayed results, and storing the search results.

〔作用〕[Effect]

本発明の検索装置に自然言語形式で入力された質問文は
、この検索装置が備える質問文解析手段により解析され
る。
A question text input into the search device of the present invention in a natural language format is analyzed by a question text analysis means included in the search device.

まず、質問文からキーワードとなる単語を抽出し、この
単語が辞書によって定義されているか否かを判断する。
First, a word serving as a keyword is extracted from the question sentence, and it is determined whether this word is defined by a dictionary.

辞書に定義されている単語については、次の二つの処理
が行われる。
The following two processes are performed for words defined in the dictionary.

一つは検索対象に対してノイズとなる不用梧を判定し、
検索用のキーワードから削除する処理であり、他の一つ
は自然言語がもつ多義多様性にもとづいて、多義語、類
義語、異形態などの語を判定して関連性ある単語を引き
出し、この関連性ある単語を検索用のキーワードとする
処理である。
One is to determine unnecessary noise that becomes noise for the search target,
This is the process of deleting keywords for search, and the other process is based on the polysemic diversity of natural language, and the process of extracting related words by determining polysemous words, synonyms, allomorphic words, etc., and extracting related words. This is a process in which words with specific characteristics are used as search keywords.

この画処理を終えたのち、必要なキーワードのみで検索
対象となる文字情報が蓄積された記憶情報に対して検索
を行う。
After completing this image processing, a search is performed on the stored information in which character information to be searched is stored using only the necessary keywords.

〔実施例〕〔Example〕

以下図面を参照して本発明の詳細な説明する。 The present invention will be described in detail below with reference to the drawings.

第1図は本発明の検索装置が備える処理手段を示す図で
ある。
FIG. 1 is a diagram showing processing means included in the search device of the present invention.

すなわち、自然言語形式により質問文を入力する質問文
入力手段1と、この入力された質問文を解析して、必要
な検索用キーワードを抽出して確定する質問文解析手段
゛2と、質問文解析手段2により解析された質問文のキ
ーワードに基づいて、検索対象となる文字、文書情報が
蓄積された記憶装置にアクセスして検索を行いその結果
を記憶できる検索処理手段3と、この検索結果を表示し
、あるいはプリント出力する検索出力手段4とを備えて
いる。この検索装置では検索出力手段4の結果を評価し
てその評価に基づいて検索用キーワードの追加あるいは
修正を行い、また再度質問文を入力することが可能であ
り、さらに質問文解析手段2の結果により再度質問文の
入力を促すなど、それぞれの手段による処理結果によっ
て前の処理を変更させることができるものである。
Namely, a question text input means 1 inputs a question text in a natural language format, a question text analysis means 2 analyzes the input question text and extracts and determines a necessary search keyword, and a question text input means 1 inputs a question text in a natural language format. A search processing means 3 that can access a storage device in which characters and document information to be searched are stored based on the keywords of the question text analyzed by the analysis means 2, perform a search, and store the results; and the search results. and a search output means 4 for displaying or printing out. In this search device, it is possible to evaluate the results of the search output means 4, add or modify search keywords based on the evaluation, input the question again, and furthermore, it is possible to input the question again. The previous processing can be changed depending on the processing results of each means, such as prompting the user to input a question again.

次に第2図の本発明実施例の検索装置のシステム構成を
示すブロック図を用いて検索装置の構成を説明する。
Next, the configuration of the search device will be explained using the block diagram shown in FIG. 2 showing the system configuration of the search device according to the embodiment of the present invention.

本実施例検索装置は、マイクロプロセッサ12を備え、
このマイクロプロセッサ12が接続された共通バス11
には、漢字等を記憶するROM13と、実行するプログ
ラム等を記憶するRAM14と、この検索装置に接続さ
れたフロッピーディスク装置16を接続しその制御を行
うフロッピーディスク制御回路15と、この検索装置で
使用する辞書、質問文解析手段で使用する単語の活用情
報あるいは不用譜となる不用譜候補語等を含む情報を記
憶でき、またその他の文書情報も記憶できるハードディ
スク装置18を接続しこのハードディスク装置を制御す
るハードディスク制御回路17と、R3232C規格に
準拠し外部回線とのインタフェースをとる回線インタフ
ェース回路19と、キーボード21に接続・されキーボ
ード21とのデータ転送を制御するキーボードインタフ
ェース回路20と、テキスト画面に表示される文字情報
を記憶するメモリであるT−VRAM22と、グラフィ
ック表示データを記憶するメモリであるG−VRAM2
5と、これらのT−VRAM22とG−VRAM25が
接続され、専用高解像度のデイスプレィ装置24でのテ
キスト表示とグラフィック表示を制御し、これらの混合
制御データを記憶するCRT制御回路23と、プリンタ
27に接続されこのプリンタ27を制御しインタフェー
スをとるプリンタインタフェース回路26と、検索装置
で使用する辞書等を記憶する増設用RAMボード28と
が接続される構成となっている。
The search device of this embodiment includes a microprocessor 12,
A common bus 11 to which this microprocessor 12 is connected
This includes a ROM 13 for storing kanji, etc., a RAM 14 for storing programs to be executed, etc., and a floppy disk control circuit 15 for connecting and controlling a floppy disk device 16 connected to this search device. This hard disk device is connected to a hard disk device 18 that can store information including dictionaries to be used, word utilization information used by the question text analysis means, and information including candidate words for unused music sheets, as well as other document information. A hard disk control circuit 17 that controls the hard disk, a line interface circuit 19 that complies with the R3232C standard and interfaces with an external line, a keyboard interface circuit 20 that is connected to the keyboard 21 and controls data transfer with the keyboard 21, and a text screen. T-VRAM 22, which is a memory that stores displayed character information, and G-VRAM 2, which is a memory that stores graphic display data.
5, a CRT control circuit 23 to which these T-VRAM 22 and G-VRAM 25 are connected, controls text display and graphic display on a dedicated high-resolution display device 24, and stores mixed control data thereof, and a printer 27. A printer interface circuit 26 is connected to the printer 27 to control and provide an interface to the printer 27, and an additional RAM board 28 for storing dictionaries and the like used in the search device are connected.

この検索装置は、回線インタフェース回路19を介して
外部回線によりホストコンピュータ29に接続でき、ホ
ストコンピュータ29のデータベースを検索する場合に
は回線インタフェース回路19を介してホストコンピュ
ータにアクセスして、データベースの検索を実行し、必
要に応じてデータをダウンロードする。また、例えば他
のワードプロセッサで作成された文書を記憶しているフ
ロッピーディスク内の文書を検索する場合には、フロッ
ピーディスク装置に対象となるフロッピーディスクを挿
入して検索を実行する。また、ハードディスク装置に記
憶されている文書情報を検索する場合にはハードディス
ク装置の記憶情報に対して検索を実行する。なお、これ
らの検索装置の構成そのものは周知のマイクロプロセッ
サを用いたシステムによって構成することができ、ワー
ドプロセッサ、オフィスコンピュータ、パーソナルコン
ビュ−タあるいはワークステーションの一部として実装
することができる。
This search device can be connected to a host computer 29 via an external line via a line interface circuit 19, and when searching the database of the host computer 29, it accesses the host computer via the line interface circuit 19 and searches the database. and download data as needed. For example, when searching for a document on a floppy disk that stores a document created with another word processor, the user inserts the target floppy disk into the floppy disk device and executes the search. Furthermore, when searching for document information stored in the hard disk drive, the search is performed on the information stored in the hard disk drive. The configuration of these search devices themselves can be constructed by a system using a well-known microprocessor, and can be implemented as a part of a word processor, office computer, personal computer, or workstation.

次に第3図ないし第6図に基づいてこの検索装置を使用
した検索の処理動作を例に挙げて説明する。
Next, a search processing operation using this search device will be described as an example based on FIGS. 3 to 6.

第3図はこの検索装置による検索を行うときのその処理
全体の流れを示すフローチャートを示すものである。
FIG. 3 shows a flowchart showing the overall flow of processing when performing a search using this search device.

まず、上述の質問文入力手段1により質問文を入力する
(ステップ31)。この質問文の入力はキーボード21
を検索者が操作することにより入力する。この質問文の
入力の際に日本文としての自然言語形式で入力するため
にカナ漢字変換プロセッサを使用し、あるいはこの検索
用端末装置が備えるカナ漢字変換手段により漢字入力の
形式で行うことができる。
First, a question text is input using the above-mentioned question text input means 1 (step 31). Enter this question using the keyboard 21
is input by the searcher. When inputting this question text, a kana-kanji conversion processor can be used to input it in a natural language format as a Japanese sentence, or it can be done in the form of kanji input using the kana-kanji conversion means provided in this search terminal device. .

次に入力された質問文を解析する。この質問文の解析手
段は本発明の特徴とするところで、この第3図のフロー
チャートではステップ32〜40(なお37〜39は判
定結果を示すもので処理そのものではない。)までの処
理に該当する。
Next, the input question text is analyzed. This means of analyzing the question text is a feature of the present invention, and in the flowchart of FIG. .

すなわち、入力された質問文から単語を抽出してその質
問文を構成する単語が、この検索装置で使用する辞書に
合致するか否かを判定する辞書マツチングの判定を行う
(ステップ32)。
That is, dictionary matching is performed to extract words from the input question and determine whether the words constituting the question match the dictionary used by the search device (step 32).

この辞書マツチング判定により質問文を構成する単語に
ついて辞書にない場合はこれは未知梧として確定させる
(未知語確定37)。確定された未知語についてはその
まま検索用のキーワードとすることができる。
As a result of this dictionary matching determination, if a word constituting the question sentence is not found in the dictionary, it is determined as an unknown word (unknown word determination 37). The determined unknown word can be used as a search keyword as it is.

辞書に含まれる単語については不用語であるか否かを検
討し、その判定処理を行う(ステップ33.34)。
It is examined whether or not words included in the dictionary are unused words, and a determination process is performed (steps 33 and 34).

この不用語判定結果により不用語であることが確定した
単語は、不用語として確定させる(不用語確定39)。
A word that is determined to be an unused word based on the unused word determination result is determined as an unused word (unused word determination 39).

不用語でないことが確定した単語については、その同義
語、類義語、異形態、意味的な関連性ある語あるいは活
用形による変形等の関連性ある語についての検討語判定
処理を行う(ステップ35.36)。この判定結果によ
り確定した検討語は、検討語として確定させる(検討語
確定38)。確定しない検討語については未知語として
確定させる(未知梧確定)。
For words that are determined not to be unused terms, a study word determination process is performed for related words such as synonyms, synonyms, allomorphs, semantically related words, or transformations by conjugation (step 35). 36). The study word determined based on this determination result is confirmed as a study word (consideration word confirmation 38). The unconfirmed study words are confirmed as unknown words (unknown words).

以上の処理により、質問文の構成単語に関し、あらかじ
め定めであるレベル程度まで検討して解析し確定したか
を判定する(ステップ40)。一定レベルに達していな
いものについては質問文を構成する単工吾の辞書とのマ
ツチング処理32に戻る。
Through the above processing, it is determined whether the constituent words of the question sentence have been examined and analyzed to a predetermined level (step 40). For questions that have not reached a certain level, the process returns to the matching process 32 with the single Kogo dictionary that forms the question.

この一定レベル程度までの解析で十分というのは、質問
文がたとえば長文の場合には全部の単語を検討しなけれ
ば必要な検索情報が得られないことはないので、全ての
単語について判定を行う必要がなく、たとえば90%程
度の単語について解析判定を行ったことにより検索処理
を行ってもよいことを示す。
The reason why analysis up to a certain level is sufficient is because if the question text is long, the necessary search information cannot be obtained unless all words are considered, so the judgment is made for all words. This indicates that it is not necessary and that the search process may be performed by analyzing and determining, for example, about 90% of the words.

この判定処理ステップ40で上述の解析判定が一部レベ
ルに達しているものについては、その解析結果に基づい
て検索処理手段3にあたる検索対象情報に対する検索処
理を行う(ステップ41)。
If the above-mentioned analysis judgment has partially reached the level in this judgment processing step 40, the search processing means 3 performs search processing for the search target information based on the analysis result (step 41).

その検索処理結果は、検索出力手段4として該当情報を
出力する(ステップ42)。
As a result of the search processing, the corresponding information is output as the search output means 4 (step 42).

なお、上述の不用語判定処理(ステップ33.34)と
、検討語判定処理(ステップ35.36)とは、その処
理順序を変更しても処理結果は変わらないので、先に検
討語判定処理を行ってから不用語判定処理を行ってもよ
い。
Note that the processing results of the above-mentioned non-word determination processing (steps 33 and 34) and consideration word determination processing (step 35 and 36) do not change even if the processing order is changed, so the examination word determination processing is performed first. The non-word determination process may be performed after this.

次に第4図に基づいて不用語判定処理手順を説明する。Next, the procedure for determining non-words will be explained based on FIG.

まず、検索対象情報に対してそれぞれの単語が不用すな
わちノイズとなる不用語候補であるか否かを判定する(
ステップ50)。これは不用語候補となる単語として辞
書に登録された見出し語すなわちキーワードと合致する
するか否かを判断するものである。この判定で不用請が
なければ、次の単語の処理に移り順次性の単語について
検討したのち非不用語確定として検討語判定処理ステッ
プ35に入る。
First, it is determined whether each word is an unnecessary word candidate for the search target information, that is, it is a noise candidate (
Step 50). This is to determine whether the word matches a headword, that is, a keyword, registered in the dictionary as a word that is a candidate word. If there is no unnecessary word in this judgment, the processing moves to the next word, and after examining words of sequential nature, the process enters step 35 of the consideration word judgment processing as a non-unnecessary word.

不用語候補となった単語については活用形により他の活
用形が存在することを示す活用情報があるか否かを検討
する。この活用情報とは、単語の活用形からキーワード
を確定するためのもので、活用情報がある場合には、そ
の活用情報として指示される主要な活用パターンに合致
するか否かを単語の活用情報を元にマツチング処理を行
う。その処理結果により、合致しない場合は非不用語と
して確定させ(非不用語確定結果58)、合致する場合
には不用語判定処理ステップ54〜56に入る。
For words that are unused word candidates, we examine whether there is usage information that indicates the existence of other conjugations depending on the conjugation form. This usage information is used to determine keywords from the usage form of the word, and if usage information is available, the usage information of the word is used to determine whether or not it matches the main usage pattern specified as the usage information. Matching processing is performed based on. Based on the processing result, if the word does not match, it is determined as a non-word (non-word confirmation result 58), and if it matches, the process enters steps 54 to 56 for the non-word determination process.

活用情報がない場合には、同じく不用語判定処理ステッ
プ54〜56に入る。
If there is no usage information, the process similarly enters non-word determination processing steps 54-56.

不用語判定処理は、まず、不用語判定情報があるか否か
を検討し、ある場合には不用語判定処理55を行い、不
用語判定情報がない場合には不用語確定とする(不用語
判定結果58)。この不用語判定情報としては、種々の
条件が設定されており、−例として、不用語候補語の前
接の単語の品詞が助動詞あるいは動詞でかつ後接の単語
が“が”、“を”、“は”、“に”、′だ”、“で”の
場合には不用語として判定する。具体的には、「・・・
するときは・・」の場合の“とき”は不用語として判定
する。
In the unword determination process, first, it is examined whether or not there is unword determination information, and if there is, the unword determination process 55 is performed, and if there is no unword determination information, it is determined that the unword is determined (unword determination processing 55). Judgment result 58). Various conditions are set for this non-word determination information. For example, the part of speech of the word preceding the non-word candidate word is an auxiliary verb or a verb, and the word following the non-word candidate word is "ga" or "wo". , “wa”, “ni”, ’da”, and “de” are judged as non-words.Specifically, “...
"When you do...", "toki" is determined to be a non-word.

この不用語判定処理での判定により、非不用語であれば
非不用語として確定させ、不用語であれば不用語として
確定させる。
As a result of the judgment in this unused word determination process, if the word is unused, it is determined as unused, and if it is unused, it is determined as unused.

この結果、不用語と確定したものについては不用語を検
索用単語として使用しないように検索用キーワードから
除く。
As a result, those determined to be non-words are removed from the search keywords so that the non-words are not used as search words.

次に検討語判定処理について第5図を用いて説明する。Next, the study word determination process will be explained using FIG. 5.

この検討語判定処理は、自然言語形式の質問文による検
索であるため、その自然言語のもつ特性により使用すべ
き単語を確定する必要があるためである。すなわち、自
然言語の多義性によって一つの単語が複数の意義に使用
されることがあるため、どの意義に使用するのかを決定
する必要があること、同一の意義に使用される類義語が
あり、これらの類義語が存在するかを検討して検索に使
用するかを検討する必要があること、単語としての表記
の形態の違う異形態の表現、例えば「照り返し」と「照
返し」があること、また関連的な表現、例えば「先方」
と「客先」という表現があること、さらに単語の活用形
により、使用する単語を確定する必要があるためである
This is because this study word determination process is a search using question sentences in natural language format, and therefore it is necessary to determine the words to be used based on the characteristics of the natural language. In other words, due to the ambiguity of natural language, one word may be used for multiple meanings, so it is necessary to decide which meaning to use, and there are synonyms that can be used for the same meaning, and these It is necessary to consider whether there are synonyms for , and to consider whether to use it in a search, and there are different forms of expression that are written as words, such as ``terigae'' and ``terigae.'' Related expressions, e.g. "the other party"
This is because there are expressions such as ``customer'' and ``customer'', and it is necessary to determine the word to be used depending on the conjugation of the word.

この検討語判定処理は、まず挙げられた検討語候補につ
いて単語の異形態、類義語形態、同義語形態、関連的な
表現形態および活用形態等の活用情報があるか否かを判
定する。そして、その活用情報により指示される主要な
活用パターンと合致するか否かを判定しくステップ63
.64)、検討語確定(結果65)または非検討語確定
(結果66)とする。それを一定レベルの単語について
行って質問文解析を終える。
In this study word determination process, it is first determined whether or not there is utilization information such as word variants, synonymous forms, synonymous forms, related expression forms, and inflection forms for the selected study word candidates. Then, in step 63, it is determined whether or not it matches the main usage pattern indicated by the usage information.
.. 64), the study word is determined (result 65) or the non-examination word is determined (result 66). This is done for a certain level of words to complete the question sentence analysis.

これらの活用情報あるいは不用語判定情報等の情報は、
検索装置の増設用RAM28、ハードディスク装置18
等にこの検索装置の辞書とともに記憶させ、それらの情
報に基づいて上述の質問文解析処理を行う。
Information such as usage information or non-word determination information, etc.
RAM 28 for expansion of search device, hard disk device 18
etc., along with the dictionary of this search device, and the above-mentioned question sentence analysis process is performed based on that information.

さらに、第6図を参照して、検索対象情報に対する検索
処理ステップ41を説明する。
Furthermore, with reference to FIG. 6, a search processing step 41 for search target information will be explained.

質問文解析手段による解析の結果、抽出された未知語、
検討語の評価を行う(ステップ71)。その評価結果に
より、検索式を作成するのに不十分である場合には質問
文再入力要求83を行う。十分″であれば、検索式を生
成する(ステップ73)。この検索式はキーワードによ
って構成された検索式である。
As a result of the analysis by the question sentence analysis means, the extracted unknown words,
The study words are evaluated (step 71). If the evaluation result is insufficient to create a search formula, a question text re-input request 83 is made. If "sufficient", a search expression is generated (step 73). This search expression is a search expression composed of keywords.

、:、 ノ生成された検索式によりホストコンビ二一夕
よりダウンロードされたデータベースやその他の検索対
象情報に対して検索を実行する(ステップ74)。この
検索は質問文から上述の質問文の解析によって得られた
キーワードについて原則的にアンド条件をとって、条件
を満足する検索対象情報を抽出する方法で行うが、必ず
しもアンド条件に限られるものではない。例えば類義語
については複数ある類義語をオア条件として検索するこ
とも可能である。
, :, A search is performed on the database downloaded from the host computer and other search target information using the generated search formula (step 74). This search is performed in principle by using AND conditions on the keywords obtained from the above-mentioned analysis of the question text, and extracting search target information that satisfies the conditions, but it is not necessarily limited to AND conditions. do not have. For example, it is also possible to search for synonyms using multiple synonyms as an OR condition.

この検索結果については、CRT24あるいはプリンタ
27に出力されて表示されるとともに、検索結果評価を
行い、検索者が検索対象情報でないと評価する場合は質
問文再入力要求83に戻る。検索を続行する場合には、
さらに検索式構成キーワードが検索に適合するか否かを
評価する(ステップ76)。ここで、抽出されたキーワ
ードにより検索対象情報を検索し、ヒツトした用語を適
合悟といい、ヒツトしないキーワードを非適合語という
The search results are output and displayed on the CRT 24 or the printer 27, and the search results are evaluated. If the searcher evaluates that the information is not the search target information, the process returns to the question re-input request 83. To continue your search, click
Furthermore, it is evaluated whether the search formula constituent keywords are suitable for the search (step 76). Here, the information to be searched is searched using the extracted keywords, and the terms that are hit are called relevant words, and the keywords that are not hit are called non-relevant words.

この検索式キーワードの評価(ステップ76.77)に
おいて、適合語であった場合は、検索式を再生成して、
検索を実行する。
In the evaluation of this search expression keyword (steps 76 and 77), if it is a matching word, the search expression is regenerated,
Perform a search.

評価結果判定(ステップ77)で非適合語が含まれる場
合に当該非適合語が関連語展開禁止語である場合または
非適合語に対する関連語がない場合には、非適合語をキ
ーワードとしない検索式を再生成し、また、当該非適合
語が関連語展開禁止語ではなく、非適合語に対する関連
語が存在する場合には、非適合語の代わりに関連語をキ
ーワードとする検索式を再生成して検索をさらに実行す
る。
If a non-conforming word is included in the evaluation result judgment (step 77) and the non-conforming word is a prohibited word from related word development, or if there is no related word for the non-conforming word, a search is performed that does not use the non-conforming word as a keyword. Regenerates the expression, and if the non-compatible word is not a prohibited word from related word expansion and there is a related word for the non-compatible word, regenerates a search formula that uses the related word as a keyword instead of the non-compatible word. to perform further searches.

なお、ここで関連語とは同義語、類義語を含む概念で検
討語判定対象となる梧のことをいい、関連3展開禁止語
とは、検索者が質問文で関連語への展開を禁止し、完全
一致を指定した場合のキーワードをいう。
Note that related words here refer to the concepts that include synonyms and synonyms and are subject to consideration word determination, and related words that are prohibited from being expanded into related words in the question text are words that are prohibited from being expanded into related words in the question text. , refers to the keyword when exact match is specified.

したがって、検索者がキーワードの完全一致を指定した
関連3吾展開禁止語である場合には、別の□キーワード
を指定して検索式を再生成し、検索者が完全一致を指定
じておらず、ヒツトしない場合には、別の関連語が存在
するしていれば置き換えを行って検索式を再生成して検
索を続行することになる。
Therefore, if the searcher specifies an exact match for the keyword and it is a prohibited word, the search expression will be regenerated by specifying another □ keyword, and if the searcher did not specify an exact match. If there is no hit, if another related term exists, it will be replaced, the search formula will be regenerated, and the search will continue.

このようにして自然言語形式により入力された質問式を
解析し検索式を生成して検索を行った後に再評価を行っ
て、さらに精度の高い検索を行うようにする。
In this way, a query expression input in natural language format is analyzed, a search expression is generated, and after a search is performed, re-evaluation is performed to perform a more accurate search.

なお、上述の質問文解析および検索の実行はその解析お
よび検索結果を表示して操作者(検索者)に確認を行い
ながら処理を行う対話形式で行う。
Note that the above-described question text analysis and search are executed in an interactive manner in which the analysis and search results are displayed and the processing is performed while the operator (searcher) confirms the results.

この対話方式では、質問文を入力して解析し、抽出、解
析され、その解析結果によって検索を実行したとき、検
索に使用したキーワードが検索対象情報のどの部分に現
れたかを表示し、操作者が把握するための縮小画面とし
て表示し、また、検索対象の情報を一部拡大画面とし、
その内容を操作者が自由にスクロールできる一部拡大画
面として同時に表示するマルチウィンドウ形式にし、検
索者はこれらの画面をみながらキーワードの増減、修正
を行いながら検索を行うことができる。
In this interactive method, a question text is input and analyzed, extracted and analyzed, and when a search is executed based on the analysis results, it is displayed in which part of the search target information the keyword used for the search appears, and the operator Displays the information as a reduced screen for understanding, and partially enlarges the information to be searched.
The content is displayed simultaneously in a multi-window format as partially enlarged screens that the operator can freely scroll through, and the searcher can search while viewing these screens while adding, subtracting, or modifying keywords.

例えば、ワードプロセッサで作成された手紙などの文書
内容の検索を実行する場合に、入力された一定範囲の文
字数内で構成された質問文をこの検索装置の画面の下欄
に表示し、この質問文の単語を上述の解析手段により、
抽出、不用語の削除、検討語の確定の処理を行った後、
そのキーワードのアンド条件で、この検索対象の文書、
例えばフロンビイディスク内の文書の内容のキーワード
を検索し、そのキーワードが検索対象としている文書の
どこに現れているかを画面上に縮小画面として表示しな
がら、必要に応じて文書全体をスクロールしながら操作
者が見れるように、画面の別のところに検索対象の文書
を一部拡大画面として表示する。
For example, when searching the contents of a document such as a letter created using a word processor, a question text consisting of a certain number of characters entered is displayed in the bottom column of the screen of this search device, and the question text using the above-mentioned analysis means,
After extracting, deleting unnecessary words, and finalizing the study words,
With the AND condition of that keyword, this search target document,
For example, you can search for a keyword in the content of a document on a Fronbi disk, and display where the keyword appears in the document you are searching as a thumbnail on the screen, while scrolling through the entire document as necessary. The document to be searched is displayed as a partially enlarged screen on another part of the screen so that the person can see it.

また、上述の検索用キーワードの追加、修正は検索結果
の表示を見ながら必要に応じてでき、検索結果をハード
ディスク装置等の記憶装置に記憶して保存することもで
きる。
Further, the above-mentioned search keywords can be added or modified as needed while viewing the display of the search results, and the search results can also be stored in a storage device such as a hard disk drive.

次にこの質問文解析による実際の検索事例について説明
する。なお、この実施例では質問文の最大文字数の約3
0文字程度に限定している。
Next, an actual search example using this question text analysis will be explained. In addition, in this example, the maximum number of characters in the question text is approximately 3.
It is limited to about 0 characters.

まず、不用語処理による検索の効果について述べる。First, we will discuss the effects of searching using non-word processing.

たとえば、必要な検索対象情報が「今週に入り主要通貨
の為替が極めて不安定な為ヨーロッパ向は送金は一時中
断する。」である場合に、検索質問文として「パリを除
く欧州全店への今週の送金通知の内容は?」という入力
をした場合、従来の検索では、「パリ」、「全店」 「
通知」、「今週」のキーワードとの完全一致を採るので
、たとえば「全店通知:パリのホテルは、国際航空ショ
ウの為今週−杯満室状況にあるので、この期間同地出張
を計画される方は至急本店総務部宛ご連絡下さい。」と
いう不用な情報が検索出力されてしまっていたが、この
不用語処理により、「全店」および「通知」を不用語と
して処理し、類義語として「欧州」と「ヨーロッパ」を
処理して、検索対象の情報を検索出力することができる
For example, if the required search information is ``Due to the extremely unstable exchange rates of major currencies this week, remittances to Europe will be temporarily suspended.'', and the search question is ``This week, remittances to all European stores except Paris will be temporarily suspended.'' What is the content of the remittance notice?'', the conventional search would search for ``Paris,'' ``All stores,'' ``
For example, "Notification for all stores: Hotels in Paris are fully booked this week due to the International Air Show, so if you are planning a business trip to the same area during this period." Please contact the general affairs department of the head office as soon as possible.''The unnecessary information was output in the search, but with this unnecessary word processing, ``all stores'' and ``notification'' were treated as unnecessary words, and ``Europe'' was changed as a synonym. and "Europe" can be processed and the information to be searched can be searched and output.

次に多義語を識別して検索を行う効果を述べる。Next, we will discuss the effects of searching by identifying polysemous words.

質問文が「わが国の米に対する本年度の投資総額は?」
というときに、「米」が、「米国」を意味することもあ
るので、検討語判定処理により「米」を「コメ」である
ことを確認した後、検索を行い、たとえば「わが国の対
米投資総額はX億ドルとなった。」という不要な情報を
検索出力することを防止し、本来の検索対象情報である
「今年の我国の米の生産性向上に向けられる投資はY億
円。」を検索できる。
The question is ``What is the total amount of investment in rice in our country this year?''
In this case, ``rice'' may also mean ``United States,'' so after confirming that ``rice'' is ``rice'' using the consideration word determination process, perform a search such as ``Our country's relationship with the United States.'' This prevents the search from outputting unnecessary information such as ``The total investment amounted to $X billion.'', and prevents the search from outputting unnecessary information such as ``The total investment amount is $X billion.'', instead of searching for the original search target information, ``The investment to improve rice productivity in our country this year is Y billion yen.'' ” can be searched.

次に関連的表現路、類義語を用いて検索をする場合を説
明すると、たとえば検索対象の情報がrANAは198
7年頃より米国に乗り入れ出して・・・・」というもの
である場合、検索質問文が「全日空はいつ頃からアメリ
カに入ったか。」というものであると、従来の検索では
一致するキーワードがないため検索が実行できないが、
本実施例では「いつ頃」とr1987年項」とは関連的
表現路とし、「アメリカ」と「米国」、「全日空」とr
ANAJとが類義語として検索を行うことがで″きる。
Next, to explain the case of searching using related expression paths and synonyms, for example, if the information to be searched is rANA, 198
If the search question is ``When did All Nippon Airways fly into the United States since around 1997?'', there are no matching keywords in conventional searches. Therefore, the search cannot be performed, but
In this example, "about when" and "r1987" are related expressions, and "America" and "United States" and "All Nippon Airways" and r
You can search for ANAJ as a synonym.

さらに、異形態、類義語等を機能させて検索する場合を
説明する。たとえば必要な検索対象情報が「イラク向は
発電プラント:客先の申し入れに応じL/Cl8ODA
YSにて応札した。ファイナンスは、わが社で手配し代
金回収リスクは、全額わが社負担とすることでメーカー
と取り決めた。」である場合、質問文が「我社のイラク
向は商談のうち、先方の要請に基づき金融に関する条件
が付いている案件はどれか。」というものである場合、
従来の検索であると、「イラク」、「要請」、「条件」
のキーワードの完全一致から不必要な「わが国はイラク
政府の要請に応じて一千万ドルの条件付き緊急物資援助
を約束した。」という情報を検索出力してしまうが、本
実施例では、「要請」と「申し入れ」、「金融」と「フ
ァイナンス」を類義語として処理し、「我社」と「わが
社」を異形態として処理し、「先方」と「客先」とを関
連的表現路として処理して検索式を生成するので、上述
の不必要な情報は除外され、必要な検索対象情報を検索
することができる。
Furthermore, a case will be described in which a search is performed using variants, synonyms, etc. For example, the necessary search target information is ``Power plant for Iraq: L/Cl8ODA in response to customer request.
I made a bid at YS. We made an agreement with the manufacturer that our company would arrange the financing and that we would bear the entire cost collection risk. ”, and the question is, “Among the business negotiations our company has with Iraq, which ones have financial conditions attached at the request of the other party?”
Traditional search: "Iraq", "request", "conditions"
However, in this example, the unnecessary information ``Japan has promised conditional emergency material aid of 10 million dollars in response to the request of the Iraqi government'' is output based on a complete match of the keyword. We treat "request" and "offer", "finance" and "finance" as synonyms, "our company" and "our company" as different forms, and "party" and "customer" as related expressions. Since the above-mentioned unnecessary information is excluded, necessary search target information can be searched.

なお、検索を行うための質問文の文字数は一定限度の文
字数に限定すれば、その解析処理工数が少なくなるため
、上述の実施例では30文字程度にその文字数を限定し
たが、実際には質問文の文字数を限定しなくても本発明
の効果を実現することができる。
Note that if the number of characters in the question text for performing a search is limited to a certain limit, the number of man-hours required for analysis will be reduced. The effects of the present invention can be achieved without limiting the number of characters in a sentence.

また、上記実施例は自然言語形式で入力された質問文か
らキーワードを抽出解析した後、検索式を生成、あるい
はキーワードのアンド条件のみで検索する方式で説明し
たが、データベースシステムの検索は必ずしも論理式で
構成される検索式を用いる必要はな(、文章形態のまま
、ホストコンピュータ側で文法解析を行うことによって
データベースの検索を行う方式であれば、質問文のキー
ワードについて、不用語であるか否か、同義語、類義語
等の関連性についての処理を行った後、文章形態の検索
文のまま検索処理を行う方式にも本発明は適用できる。
In addition, in the above embodiment, keywords are extracted and analyzed from a question text input in natural language format, and then a search expression is generated, or a search is performed using only the keyword AND condition. However, database system searches are not always logical. There is no need to use a search formula consisting of formulas (If the database is searched by parsing the sentences on the host computer side, there is no need to use a search formula consisting of expressions). However, the present invention can also be applied to a method in which a search process is performed on the search sentence in the form of a sentence after processing on the relevance of synonyms, similar words, etc.

〔発明の効果〕〔Effect of the invention〕

以上説明したように、本発明は、上述のようにデータベ
ースや種々の情報処理装置の記憶装置に記憶された文書
を自然言語形式で入力された質問文の解析処理を行って
から検索を実行するので、検索の精度を上げるとともに
、必要な情報の検索を行うことができる。特に自然言語
形式で蓄積された文書情報の検索を自然言語による問い
合わせの形で実行でき、検索のための専門的知識および
技能を必要としないので、誰でも必要な情報を簡便にま
た違和感をもたずに検索することができる効果がある。
As explained above, the present invention analyzes documents stored in a database or storage devices of various information processing devices in a natural language format, and then executes a search. Therefore, it is possible to improve search accuracy and search for necessary information. In particular, since document information stored in natural language format can be searched in the form of queries using natural language, and no specialized knowledge or skills are required for searching, anyone can easily and easily retrieve the information they need. This has the effect of allowing you to search without having to do anything.

また、ホストコンピュータ側で文法解析を行いデータベ
ースを検索する場合にはホストコンピュータを占有する
時間を短縮できるので、検索費用を経済的にすることが
できる。
Furthermore, when searching a database by performing grammar analysis on the host computer side, the time that the host computer is occupied can be shortened, making the search cost economical.

さらに、ワードプロセッサ、オフィスコンピュータやパ
ーソナルコンピュータ、ワークステーション等のOA機
器で作成され、記憶された文書を自然言語形式の質問文
を入力するのみで簡便に検索できる検索装置を提供する
ことができ、事務所における手紙等の文書の検索を誰で
も容易に行なうことが可能となった。
Furthermore, it is possible to provide a search device that can easily search documents created and stored in office automation equipment such as word processors, office computers, personal computers, and workstations by simply inputting questions in natural language format. It has become possible for anyone to easily search for documents such as letters at the office.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明一実施例装置での処理を説明する図。 第2図は実施例装置の構成ブロック図。 第3図は実施例処理フローチャート。 第4図は不用語処理フローチャート。 第5図は検討8吾処理フローチヤート。 第6図は検索処理フローチャート。 1・・・質問文入力手段、2・・・質問文解析手段、3
・・・検索処理手段、4・・・検索出力手段。
FIG. 1 is a diagram illustrating processing in an apparatus according to an embodiment of the present invention. FIG. 2 is a block diagram of the configuration of the embodiment device. FIG. 3 is a processing flowchart of the embodiment. FIG. 4 is a flowchart for processing unused words. Figure 5 is a flowchart of the process of consideration. FIG. 6 is a search processing flowchart. 1... Question text input means, 2... Question text analysis means, 3
...Search processing means, 4...Search output means.

Claims (1)

【特許請求の範囲】 1、記憶装置に記憶された検索対象となる文字情報を自
然言語形式で入力された質問文によって検索を行う検索
装置において、 入力された質問文からその質問文を構成する単語を抽出
し、この抽出された単語がこの検索装置の辞書に存在す
るか否かを判定する辞書マッチング判定手段と、 質問すべき対象には不用な単語であるか否かを判定して
検索用の単語から除く不用語判定処理手段と、 検索用の単語について多義語あるいは類義語あるいは異
形態などの関連性ある単語が構成されているかを検討し
これらの関連性ある単語を検索用のキーワードとする検
討語判定処理手段と を含み、 上記辞書マッチング判定手段または不用語判定処理手段
もしくは上記検討語判定処理手段により処理された質問
文を構成する単語に基づいて検索を行う手段 を備えたことを特徴とする検索装置。 2、ワードプロセッサ、オフィスコンピュータ、パーソ
ナルコンピュータまたはワークステーションの一部とし
てそのワードプロセッサ、オフィスコンピュータ、パー
ソナルコンピュータまたはワークステーションに実装さ
れた請求項1に記載の検索装置。 3、不用語判定処理手段は、抽出された単語から不用語
候補を抽出し、その不用語候補の単語を活用形により活
用した活用パターンに合致するかを判定したのち、不用
語判定情報により不用語を確定する手段を含む請求項1
または2に記載の検索装置。 4、検討語判定処理手段は、質問文から抽出された単語
に多義語、類義語、表記形態の異なる異形態語、意味的
に関連性ある語が存在するかを判定し検討用キーワード
を確定する手段を含む請求項1または2に記載の検索装
置。 5、質問文から単語を抽出し抽出された単語が辞書に存
在するか否かを判定する手段、不用語判定処理手段、検
討語判定処理手段または検索を行う手段の各手段はいず
れも操作者に確認を行いながらその処理を実行する対話
形式である請求項1ないし4のいずれかに記載の検索装
置。 6、検索を行う手段は、マルチウィンドウ形式で検索結
果を表示し、検索用キーワードが検索対象情報のどこに
現れたかを表示する画面と、検索対象情報が表示されそ
の内容を操作者がスクロールできる画面とを表示する手
段を含む請求項5に記載の検索装置。 7、検索を行う手段は、マルチウィンドウ形式で検索結
果を表示し、その表示結果に基づき検索用キーワードを
追加または修正する手段を含む請求項6に記載の検索装
置。 8、検索を行う手段は、検索結果を記憶する手段を含む
請求項7に記載の検索装置。
[Claims] 1. In a search device that searches text information to be searched stored in a storage device using a question text input in natural language format, the question text is constructed from the input question text. Dictionary matching determining means for extracting a word and determining whether the extracted word exists in the dictionary of this search device; A processing means for determining non-words to be removed from the search words, and considering whether the search words contain related words such as polysemous words, synonyms, or allomorphs, and selecting these related words as search keywords. and means for performing a search based on the words constituting the question sentence processed by the dictionary matching determining means, the non-word determining processing means, or the examined word determining processing means. Characteristic search device. 2. The search device according to claim 1, implemented as part of a word processor, office computer, personal computer, or workstation. 3. The non-word determination processing means extracts non-word candidates from the extracted words, determines whether the word of the non-word candidate matches a usage pattern using the conjugated form, and then identifies non-word candidates based on the non-word determination information. Claim 1 including means for determining the term
Or the search device described in 2. 4. The consideration word determination processing means determines whether polysemous words, synonyms, heteromorphic words with different written forms, and semantically related words exist in the words extracted from the question text, and determines keywords for consideration. The search device according to claim 1 or 2, further comprising means. 5. The means for extracting words from a question sentence and determining whether the extracted words exist in the dictionary, the non-word determination processing means, the consideration word determination processing means, and the means for performing a search are all operated by the operator. 5. The retrieval device according to claim 1, wherein the retrieval device is of an interactive type, in which the retrieval device executes the processing while checking the retrieval device. 6. The means for performing a search is a screen that displays search results in a multi-window format and displays where the search keyword appears in the search target information, and a screen that displays the search target information and allows the operator to scroll its contents. 6. The search device according to claim 5, further comprising means for displaying. 7. The search device according to claim 6, wherein the means for performing the search includes means for displaying the search results in a multi-window format and adding or modifying search keywords based on the displayed results. 8. The search device according to claim 7, wherein the means for performing the search includes means for storing search results.
JP63010276A 1988-01-20 1988-01-20 Search device Expired - Fee Related JP2854000B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63010276A JP2854000B2 (en) 1988-01-20 1988-01-20 Search device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63010276A JP2854000B2 (en) 1988-01-20 1988-01-20 Search device

Publications (2)

Publication Number Publication Date
JPH01185724A true JPH01185724A (en) 1989-07-25
JP2854000B2 JP2854000B2 (en) 1999-02-03

Family

ID=11745788

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63010276A Expired - Fee Related JP2854000B2 (en) 1988-01-20 1988-01-20 Search device

Country Status (1)

Country Link
JP (1) JP2854000B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01265323A (en) * 1988-04-18 1989-10-23 Sharp Corp Document file retrieving system
JPH03148765A (en) * 1989-11-06 1991-06-25 Matsushita Electric Ind Co Ltd Document retrieving device
EP0838765A1 (en) * 1996-10-23 1998-04-29 ITI, Inc. A document searching system for multilingual documents
US8005665B2 (en) 1998-09-28 2011-08-23 Schukhaus Group Gmbh, Llc Method and apparatus for generating a language independent document abstract

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01265323A (en) * 1988-04-18 1989-10-23 Sharp Corp Document file retrieving system
JPH03148765A (en) * 1989-11-06 1991-06-25 Matsushita Electric Ind Co Ltd Document retrieving device
EP0838765A1 (en) * 1996-10-23 1998-04-29 ITI, Inc. A document searching system for multilingual documents
US8005665B2 (en) 1998-09-28 2011-08-23 Schukhaus Group Gmbh, Llc Method and apparatus for generating a language independent document abstract

Also Published As

Publication number Publication date
JP2854000B2 (en) 1999-02-03

Similar Documents

Publication Publication Date Title
Habash et al. MADA+ TOKAN: A toolkit for Arabic tokenization, diacritization, morphological disambiguation, POS tagging, stemming and lemmatization
Milosevic et al. A framework for information extraction from tables in biomedical literature
US7890533B2 (en) Method and system for information extraction and modeling
US4829423A (en) Menu-based natural language understanding system
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
US20150331855A1 (en) Translation and dictionary selection by context
Alshalabi et al. Arabic light-based stemmer using new rules
JP4967037B2 (en) Information search device, information search method, terminal device, and program
US20210263915A1 (en) Search Text Generation System and Search Text Generation Method
JPH0576067B2 (en)
JPH01185724A (en) Retriever
JP5439028B2 (en) Information search apparatus, information search method, and program
JP2003323425A (en) Parallel translation dictionary creating device, translation device, parallel translation dictionary creating program, and translation program
JP3848014B2 (en) Document search method and document search apparatus
Vázquez-González et al. Creating a corpus of historical documents for emotions identification
Colton Text classification using Python
Bernhard et al. Elal: An emotion lexicon for the analysis of alsatian theatre plays
Riaz Improving Search via Named Entity Recognition in Morphologically Rich Languages–A Case Study in Urdu
JP2002366556A (en) Information retrieving method
JPH0793345A (en) Document retrieval device
Dave et al. A Systematic Review of Stemmers of Indian and Non-Indian Vernacular Languages
JPH0561902A (en) Mechanical translation system
JP4110460B2 (en) Expression extraction apparatus and method
Chelamet A Text Summarization System for Faster Data Access
Litvak et al. EASY: Evaluation System for Summarization

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees