JPH09160929A - Document processor and method therefor - Google Patents

Document processor and method therefor

Info

Publication number
JPH09160929A
JPH09160929A JP7321325A JP32132595A JPH09160929A JP H09160929 A JPH09160929 A JP H09160929A JP 7321325 A JP7321325 A JP 7321325A JP 32132595 A JP32132595 A JP 32132595A JP H09160929 A JPH09160929 A JP H09160929A
Authority
JP
Japan
Prior art keywords
document data
document
key
characters
search key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7321325A
Other languages
Japanese (ja)
Inventor
Takashi Katooka
隆 加登岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP7321325A priority Critical patent/JPH09160929A/en
Publication of JPH09160929A publication Critical patent/JPH09160929A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To automatically generate a proper retrieval key from document data. SOLUTION: When document data to be stored in a data base 14 is inputted in a document input means 16, a document division means 17 divides document data into a prescribed unit and a character extraction means 19 extracts the partial characters from the divided unit. Because a key generation means 20 combines the extracted characters to generate a retrieval key, the retrieval key on which the contents of document data is reflected is automatically generated.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、データベースから
文書データを検索する文書処理装置及び方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document processing apparatus and method for retrieving document data from a database.

【0002】[0002]

【従来の技術】文書管理システム等の文書処理装置は、
多数の文書データが予め格納されたデータベースを有し
ており、このデータベースから所望の文書データを検索
して出力することができる。一般的な文書処理装置で
は、データベースの文書データにキーワードとなる単語
により検索キーが付与されているので、ユーザが所望の
単語から検索キーを作成して文書処理装置に入力する
と、検索キーの整合する文書データがデータベースから
検索される。
2. Description of the Related Art A document processing device such as a document management system is
It has a database in which a large number of document data are stored in advance, and desired document data can be searched and output from this database. In a general document processing device, a search key is added to the document data of a database by using a word that is a keyword. Therefore, when a user creates a search key from a desired word and inputs it into the document processing device, the search key matches. The document data to be retrieved is retrieved from the database.

【0003】また、現在では文書データの翻訳を支援す
る翻訳支援装置も開発されており、このような翻訳支援
装置に上述のような文書処理装置を利用することも特開
平4-160473号公報等に提案されている。つまり、文章を
翻訳する場合、同一の文章や類似の文章が出現すること
がある。そこで、特開平4-160473号公報に開示された翻
訳支援装置では、翻訳を完了した文書データをクラスタ
リングして訳文と共にデータベースに格納しておき、こ
れから翻訳する文書データに類似した文書データをデー
タベースから検索する。これが検索されると相違する部
分のみ自動翻訳し、これを検索した文書データの訳文に
組み合わせ、翻訳する文書データの訳文とする。
At present, a translation support device for assisting translation of document data has also been developed, and it is also possible to use the document processing device as described above as such a translation support device. Has been proposed to. That is, when translating a sentence, the same sentence or a similar sentence may appear. Therefore, in the translation support device disclosed in Japanese Patent Laid-Open No. 4-160473, the translated document data is clustered and stored in the database together with the translated text, and the document data similar to the document data to be translated is stored in the database. Search for. When this is searched, only the different portion is automatically translated, and this is combined with the translated sentence of the retrieved document data to be the translated sentence of the document data to be translated.

【0004】[0004]

【発明が解決しようとする課題】前述のような文書処理
装置では、検索キーが整合する文書データをデータベー
スから検索することができる。しかし、データベースに
文書データを格納する場合に、文書データに内容を反映
した検索キーを付与する必要があり、この作業が煩雑で
ある。同様に、文書データを検索する場合、文書データ
の内容を反映した検索キーをユーザが適切に作成する必
要もあり、この作業も煩雑である。
With the above-described document processing apparatus, it is possible to search the database for document data whose search keys match. However, when storing the document data in the database, it is necessary to add a search key reflecting the content to the document data, and this work is complicated. Similarly, when the document data is searched, the user needs to appropriately create a search key that reflects the content of the document data, and this work is also complicated.

【0005】また、文書処理装置を利用した翻訳支援装
置では、翻訳を完了した文書データを資料として利用で
きるので、自動翻訳の精度を改善することができる。し
かし、特開平4-160473号公報に開示された翻訳支援装置
では、類似した文書データを検索するために類似度を計
算するので、この処理の負担が大きく速度が低い。
Further, in the translation support device using the document processing device, since the translated document data can be used as a material, the accuracy of automatic translation can be improved. However, in the translation support device disclosed in Japanese Patent Laid-Open No. 4-160473, the similarity is calculated in order to search for similar document data, so the load of this process is large and the speed is low.

【0006】[0006]

【課題を解決するための手段】請求項1記載の文書処理
装置は、多数の文書データが格納されるデータベース
と、このデータベースに格納する文書データが入力され
る文書入力手段と、入力された文書データを所定の単位
に分割する文書分割手段と、分割された単位から一部の
文字を抽出する文字抽出手段と、抽出された文字を組み
合わせて検索キーを生成するキー生成手段と、生成され
た検索キーを文書データに対応させて登録するキー登録
手段とを有する。従って、データベースに格納する文書
データが入力されると、この文書データを所定の単位に
分割し、この分割された単位から一部の文字を抽出す
る。この抽出された文字を組み合わせて検索キーを生成
し、この生成された検索キーを文書データに対応させて
登録するので、文書データを自然言語等により入力すれ
ば、その内容を反映した検索キーが自動的に生成され
る。
According to another aspect of the present invention, there is provided a document processing apparatus, a database in which a large number of document data are stored, a document inputting unit for inputting document data stored in the database, and an input document. Document dividing means for dividing the data into predetermined units, character extracting means for extracting some characters from the divided units, key generating means for generating a search key by combining the extracted characters, and And a key registration means for registering the search key in association with the document data. Therefore, when the document data to be stored in the database is input, the document data is divided into predetermined units, and some characters are extracted from the divided units. A search key is generated by combining the extracted characters, and the generated search key is registered in association with the document data. Therefore, if the document data is input in natural language or the like, the search key that reflects the content will be displayed. It is automatically generated.

【0007】請求項2記載の文書処理装置は、多数の文
書データが格納されたデータベースと、文書データを所
定の単位に分割してから一部の文字を抽出して組み合わ
せた検索キーが文書データに対応して登録されたキー登
録手段と、検索要求の文書データの入力を受け付ける文
書入力手段と、入力された文書データを所定の単位に分
割する文書分割手段と、分割された単位から一部の文字
を抽出する文字抽出手段と、抽出された文字を組み合わ
せて検索キーを生成するキー生成手段と、生成された検
索キーを前記キー登録手段から検索して対応する文書デ
ータを前記データベースから検出する文書検索手段とを
有する。従って、多数の文書データをデータベースに格
納しておき、文書データを所定の単位に分割してから一
部の文字を抽出して組み合わせた検索キーを文書データ
に対応してキー登録手段に登録しておき、検索要求の文
書データが入力されると、この入力された文書データを
所定の単位に分割し、この分割された単位から一部の文
字を抽出する。この抽出された文字を組み合わせて検索
キーを生成し、この生成された検索キーを前記キー登録
手段から検索して対応する文書データを前記データベー
スから検出するので、検索要求を自然言語等により文書
データとして入力すれば、その内容を反映した検索キー
が自動的に生成される。
According to another aspect of the document processing apparatus of the present invention, a database storing a large number of document data and a search key obtained by dividing the document data into predetermined units, extracting some characters, and combining the search keys are the document data. Key registration means registered corresponding to, document input means for receiving the input of the document data of the search request, document dividing means for dividing the input document data into predetermined units, and a part of the divided units. Character extracting means for extracting the characters, key generating means for generating the search key by combining the extracted characters, and searching the generated search key from the key registration means to detect corresponding document data from the database. And a document search means for performing the search. Therefore, a large number of document data are stored in a database, the document data is divided into predetermined units, some characters are extracted, and the combined search key is registered in the key registration means in association with the document data. When the document data of the search request is input, the input document data is divided into predetermined units, and some characters are extracted from the divided units. A search key is generated by combining the extracted characters, the generated search key is searched from the key registration means, and corresponding document data is detected from the database. Therefore, the search request is made in natural language or the like. If you input as, the search key reflecting the content is automatically generated.

【0008】請求項3記載の文書処理装置では、請求項
1記載の文書処理装置において、文書検索手段は、生成
された検索キーをキー登録手段から検索する際、パター
ンのマッチングが不完全でも類似の検索キーを検索す
る。従って、検索キーが完全に一致する文書データだけ
でなく、検索キーが類似の文書データも検索される。
According to a third aspect of the present invention, in the document processing apparatus according to the first aspect, when the document search means searches the generated search key from the key registration means, the pattern matching is incomplete even if the pattern matching is incomplete. Search for the search key. Therefore, not only the document data whose search keys completely match, but also the document data whose search keys are similar are searched.

【0009】請求項4記載の文書処理装置では、請求項
1,2又は3記載の文書処理装置において、文字抽出手
段は、文書データの分割された単位の先頭から所定数の
文字を抽出する。従って、検索キーが少数の文字により
形成される。
According to a fourth aspect of the present invention, in the document processing apparatus according to the first, second or third aspect, the character extracting means extracts a predetermined number of characters from the head of the divided unit of the document data. Therefore, the search key is formed by a small number of characters.

【0010】請求項5記載の文書処理装置では、請求項
1,2又は3記載の文書処理装置において、文字抽出手
段は、文書データの分割された単位の先頭から文字を一
文字置きに抽出する。従って、検索キーが少数の文字に
より形成される。
In the document processing apparatus according to the fifth aspect, in the document processing apparatus according to the first, second or third aspect, the character extracting means extracts every other character from the beginning of the divided unit of the document data. Therefore, the search key is formed by a small number of characters.

【0011】請求項6記載の文書処理装置では、請求項
1,2,3,4又は5記載の文書処理装置において、文
書データを構文解析して分割された単語の役割を判定す
る構文解析手段を設け、文書分割手段は、文書データを
単語に分割し、前記構文解析手段は、文書データを構文
解析して分割された単語の役割を判定し、キー生成手段
は、単語から抽出された文字に役割も組み合わせて検索
キーを生成する。従って、検索キーに文書データの単語
の文字だけでなく単語の役割も盛り込まれる。
According to a sixth aspect of the present invention, in the document processing apparatus according to the first, second, third, fourth or fifth aspect, the syntactic analysis means for syntactically analyzing the document data to determine the role of the divided words. The document dividing means divides the document data into words, the syntactic analysis means parses the document data to determine the role of the divided words, and the key generation means determines the characters extracted from the words. A search key is generated by combining the roles of and. Therefore, not only the character of the word of the document data but also the role of the word is included in the search key.

【0012】請求項7記載の文書処理装置では、請求項
6記載の文書処理装置において、文字抽出手段は、特定
の役割の単語のみ文字を抽出する対象とする。従って、
文書データの構文構造で主要な役割や必須の役割の単語
のみから検索キーを生成することができる。
According to a seventh aspect of the present invention, there is provided the document processing apparatus according to the sixth aspect, wherein the character extracting means is a target for extracting characters of only words having a specific role. Therefore,
In the syntactic structure of document data, a search key can be generated only from words having a main role or an essential role.

【0013】請求項8記載の文書処理装置では、請求項
1,2,3,4又は5記載の文書処理装置において、分
割された単語の品詞を推定する品詞推定手段を設け、文
書分割手段は、文書データを単語に分割し、前記品詞推
定手段は、分割された単語の品詞を推定し、キー生成手
段は、単語から抽出された文字に品詞も組み合わせて検
索キーを生成する。従って、検索キーに文書データの単
語の文字だけでなく単語の品詞も盛り込まれる。
The document processing apparatus according to claim 8 is the document processing apparatus according to any one of claims 1, 2, 3, 4 and 5, further comprising a part-of-speech estimating means for estimating the part-of-speech of the divided word, and the document dividing means is , The document data is divided into words, the part-of-speech estimation means estimates the part-of-speech of the divided words, and the key generation means combines the characters extracted from the words with the part-of-speech to generate a search key. Therefore, not only the character of the word of the document data but also the part of speech of the word is included in the search key.

【0014】請求項9記載の文書処理装置では、請求項
8記載の文書処理装置において、文字抽出手段は、特定
の品詞の単語のみ文字を抽出する対象とする。従って、
文書データの主要な品詞や必須の品詞の単語のみから検
索キーを生成することができる。
According to a ninth aspect of the present invention, there is provided the document processing apparatus according to the eighth aspect, wherein the character extraction means targets only the words of a specific part of speech. Therefore,
The search key can be generated only from the main part of speech of the document data and the word of the required part of speech.

【0015】請求項10記載の文書処理装置では、請求
項1,2,3,4又は5記載の文書処理装置において、
単語の属性データを予め記憶した属性記憶手段を設け、
分割された単語の属性データを検出する属性検出手段を
設け、文書分割手段は、文書データを単語に分割し、前
記属性検出手段は、分割された単語の属性データを検出
し、キー生成手段は、単語から抽出された文字に属性デ
ータも組み合わせて検索キーを生成する。従って、検索
キーに文書データの単語の文字だけでなく単語の属性デ
ータも盛り込まれる。
The document processing apparatus according to claim 10 is the document processing apparatus according to any one of claims 1, 2, 3, 4 and 5,
Providing attribute storage means for storing attribute data of words in advance,
Attribute detecting means for detecting attribute data of the divided words is provided, the document dividing means divides the document data into words, the attribute detecting means detects the attribute data of the divided words, and the key generating means , The search key is generated by combining the character extracted from the word with the attribute data. Therefore, not only the character of the word of the document data but also the attribute data of the word is included in the search key.

【0016】請求項11記載の文書処理方法では、デー
タベースに格納する文書データが入力されると、この文
書データを所定の単位に分割し、この分割された単位か
ら一部の文字を抽出し、この抽出された文字を組み合わ
せて検索キーを生成し、この生成された検索キーを文書
データに対応させて登録するようにした。従って、文書
データを自然言語等により入力すれば、その内容を反映
した検索キーが自動的に生成される。
In the document processing method according to the eleventh aspect, when the document data to be stored in the database is input, the document data is divided into predetermined units, and some characters are extracted from the divided units, A search key is generated by combining the extracted characters, and the generated search key is registered in association with the document data. Therefore, if the document data is input in natural language or the like, a search key that reflects the content is automatically generated.

【0017】請求項12記載の文書処理方法では、多数
の文書データをデータベースに格納しておき、文書デー
タを所定の単位に分割してから一部の文字を抽出して組
み合わせた検索キーを文書データに対応してキー登録手
段に登録しておき、検索要求の文書データが入力される
と、この入力された文書データを所定の単位に分割し、
この分割された単位から一部の文字を抽出し、この抽出
された文字を組み合わせて検索キーを生成し、この生成
された検索キーを前記キー登録手段から検索して対応す
る文書データを前記データベースから検出するようにし
た。従って、検索要求を自然言語等により文書データと
して入力すれば、その内容を反映した検索キーが自動的
に生成される。
In the document processing method according to the twelfth aspect, a large number of document data are stored in a database, the document data is divided into predetermined units, some characters are extracted, and a search key obtained by combining them is used as a document. When the document data of the search request is input in advance by registering in the key registration means corresponding to the data, the input document data is divided into predetermined units,
Some characters are extracted from the divided units, the extracted characters are combined to generate a search key, the generated search key is searched from the key registration means, and the corresponding document data is searched for in the database. It was detected from. Therefore, when a search request is input as document data in natural language or the like, a search key reflecting the content is automatically generated.

【0018】[0018]

【発明の実施の形態】本発明の文書処理装置の実施の一
形態を図面に基づいて以下に説明する。まず、ここで例
示する文書処理装置1は、翻訳支援装置(図示せず)の
一部として設けられており、図2に示すように、データ
処理装置2と電子ファイルシステム3とを有している。
前記データ処理装置2は、既存のマイクロコンピュータ
やワークステーションからなり、前記電子ファイルシス
テム3は、HD(Hard Disk)やMO(Magneto Optical D
isk)等の大容量の記憶デバイスからなる。
BEST MODE FOR CARRYING OUT THE INVENTION An embodiment of a document processing apparatus of the present invention will be described below with reference to the drawings. First, the document processing device 1 illustrated here is provided as a part of a translation support device (not shown), and has a data processing device 2 and an electronic file system 3 as shown in FIG. There is.
The data processing device 2 is an existing microcomputer or workstation, and the electronic file system 3 is an HD (Hard Disk) or MO (Magneto Optical D).
It consists of a large-capacity storage device such as isk).

【0019】前記データ処理装置2は、CPU(Central
Processing Unit)4を有しており、このCPU4に
は、ROM(Read Only Memory)5、RAM(Random Acce
ss Memory)6、マウス7を有するキーボード8、ディス
プレイ9、通信I/F(Interface)10,11が接続さ
れている。第一の前記通信I/F10には、通信回線1
2が接続されており、この通信回線12には、文書デー
タを出力するFDD(Floppy Disk Drive)やホストコン
ピュータ(共に図示せず)が接続されている。第二の前
記通信I/F11には、接続コネクタ13により前記電
子ファイルシステム3が接続されており、この電子ファ
イルシステム3には、データベース14とキー登録手段
であるキーインデックス15とが構築されている。
The data processing device 2 has a CPU (Central
Processing Unit) 4, which has a ROM (Read Only Memory) 5 and a RAM (Random Acce
An ss memory (6), a keyboard 8 having a mouse 7, a display 9, and communication I / Fs (Interfaces) 10 and 11 are connected. The communication line 1 is provided in the first communication I / F 10.
2 is connected to the communication line 12. An FDD (Floppy Disk Drive) for outputting document data and a host computer (both not shown) are connected to the communication line 12. The electronic file system 3 is connected to the second communication I / F 11 by a connector 13, and a database 14 and a key index 15 as a key registration means are built in the electronic file system 3. There is.

【0020】前述のように、本実施の形態の文書処理装
置1は翻訳支援装置の一部として設けられており、この
翻訳支援装置は、英語の長大な文書データの全文を一文
ずつ日本語に翻訳する。そこで、文書処理装置1は、翻
訳対象の一つの文書データの全文を一文ずつに分割した
ものを検索対象とし、翻訳を実行する一文を検索要求と
して類似した一文を検索する。このため、前記データベ
ース14には、翻訳する一つの長大な文書データの全文
が、文単位に分割されて検索対象の複数の文書データと
して格納され、前記キーインデックス15には、検索対
象の複数の文書データの各々から一つずつ生成された検
索キーが登録される。
As described above, the document processing apparatus 1 according to the present embodiment is provided as a part of the translation support apparatus, and this translation support apparatus converts the whole sentence of English long document data into Japanese one by one. translate. Therefore, the document processing apparatus 1 searches for a sentence obtained by dividing the whole sentence of one piece of document data to be translated into sentences, and retrieves a similar sentence using a sentence to be translated as a search request. Therefore, the whole sentence of one large document data to be translated is divided into sentence units and stored as a plurality of document data items to be searched in the database 14, and the key index 15 stores a plurality of document data items to be searched. Search keys generated one by one from each of the document data are registered.

【0021】本実施の形態の文書処理装置1は、上述の
ような文書データの格納と検索とを実行するため、図1
に模式的に示すように、文書入力手段16、文書分割手
段17、構文解析手段18、文字抽出手段19、キー生
成手段20、文書検索手段21、を有している。
The document processing apparatus 1 according to the present embodiment executes the storage and retrieval of the document data as described above, and therefore, FIG.
As schematically shown in FIG. 1, it has a document inputting unit 16, a document dividing unit 17, a syntax analyzing unit 18, a character extracting unit 19, a key generating unit 20, and a document searching unit 21.

【0022】前記文書入力手段16は、検索対象として
前記データベース14に格納される全文の文書データ
と、検索要求として検索キーに変換される一文の文書デ
ータとが、例えば、前記通信I/F10により翻訳支援
装置から入力される。このように入力された文書データ
が検索対象となる全文の場合は、この文書データを前記
通信I/F11により前記データベース14に格納す
る。なお、翻訳支援装置により文書データの翻訳が実行
されると、この訳文も前記データベース14に格納され
た文書データに順次付加される。
The document input means 16 receives, as a search target, full-text document data stored in the database 14 and one-sentence document data converted into a search key as a search request by, for example, the communication I / F 10. It is input from the translation support device. When the document data input in this way is the whole sentence to be searched, this document data is stored in the database 14 by the communication I / F 11. When the translation support device translates the document data, this translated sentence is also sequentially added to the document data stored in the database 14.

【0023】前記文書分割手段17は、入力された文書
データを形態素解析し、その文書データを所定の単位に
分割する。つまり、入力された文書データが検索対象と
なる全文の場合は、これを文単位に分割して複数の検索
対象の文書データを生成し、この複数の文書データの各
々を単語単位に分割する。入力された文書データが検索
要求の一文の場合は、この文書データを単語単位に分割
する。ここでは文書データが英語により記述されている
ので、文単位の分割はピリオドの検出に対応して実行さ
れ、単語単位の分割はスペースやカンマの検出に対応し
て実行される。
The document dividing means 17 performs morphological analysis on the input document data and divides the document data into predetermined units. That is, when the input document data is a whole sentence to be searched, this is divided into sentence units to generate a plurality of document data to be searched, and each of the plurality of document data is divided into words. When the input document data is one sentence of the search request, this document data is divided into word units. Here, since the document data is written in English, the sentence-based division is performed in response to the detection of a period, and the word-based division is performed in response to the detection of spaces or commas.

【0024】前記構文解析手段18は、上述のように入
力された文書データを構文解析し、分割された単語の役
割を判定する。この単語の役割とは、主語、動詞、目的
語、補語、等のことであり、これは単語辞書を利用した
既存の構文解析等により判定される。前記文字抽出手段
19は、上述のように分割された単語から一部の文字を
抽出するが、このように文字を抽出する対象を、構文構
造における特定の役割の単語のみとする。
The syntactic analysis means 18 syntactically analyzes the document data input as described above, and determines the role of the divided words. The role of this word is a subject, a verb, an object, a complement, etc., which is determined by existing syntactic analysis using a word dictionary. The character extracting means 19 extracts some characters from the words divided as described above, but only the words having a specific role in the syntactic structure are extracted from the characters.

【0025】より具体的には、図4に示すように、構文
解析の結果は木構造に生成されるので、ここでは先頭の
親ノードと、これに直接に係る子ノードとを検出し、こ
れらのノードから“S(主語),V(動詞),O(目的語),
C(補語)”の単語のみを検出し、これらの単語の各々か
ら先頭の三文字を抽出する。つまり、英語の五文形“S
V,SVO,SVC,SVOO,SVOC”は“S,
V,O,C”により形成されているので、上述のように
処理することで各文形の骨格に相当する部分のみを処理
対象とする。
More specifically, as shown in FIG. 4, since the result of the syntax analysis is generated in a tree structure, here, the leading parent node and the child node directly related to this are detected, and these are detected. From the node of "S (subject), V (verb), O (object),
Only the word "C (complement)" is detected and the first three letters are extracted from each of these words.
"V, SVO, SVC, SVOO, SVOC" is "S,
Since it is formed by V, O, and C ″, by performing the above-described processing, only the portion corresponding to the skeleton of each sentence pattern is processed.

【0026】前記キー生成手段20は、上述のように複
数の単語から抽出された三文字の各々に、その単語の役
割も組み合わせて検索キーを生成する。この検索キーが
検索対象の文書データから生成された場合は、この検索
キーは文書データに対応してキーインデックス15に登
録される。ここでは検索対象の複数の文書データの各々
から検索キーが一つずつ生成されるので、図3に示すよ
うに、検索キーの各々に一つの文書データのアドレスと
長さとが設定される。この検索対象の文書データは、一
つの全文の文書データを一文ずつに分割したものなの
で、そのアドレスは全文の先頭から各々の先頭までの文
字数として設定されており、その長さは各々の文字数と
して設定されている。
The key generation means 20 generates a search key by combining each of the three characters extracted from a plurality of words with the role of the word as described above. When this search key is generated from the document data to be searched, this search key is registered in the key index 15 corresponding to the document data. Here, since one search key is generated from each of the plurality of document data to be searched, as shown in FIG. 3, the address and length of one document data are set for each search key. Since the document data to be searched is one full-text document data divided into each sentence, its address is set as the number of characters from the beginning of each sentence to the beginning of each sentence, and its length is the number of characters. It is set.

【0027】一方、検索キーが検索要求の文書データか
ら生成された場合は、この検索キーは前記文書検索手段
21に出力される。この文書検索手段21は、検索要求
の文書データから生成された検索キーを前記キーインデ
ックス15から検索し、この検索結果に対応する文書デ
ータを前記データベース14から検出する。このような
検索キーの検索処理は、一般的な文字列のパターンマッ
チングにより実行され、検出された文書データは訳文と
共に前記ディスプレイ9により表示される。
On the other hand, when the search key is generated from the document data of the search request, this search key is output to the document search means 21. The document search means 21 searches the key index 15 for the search key generated from the document data of the search request, and detects the document data corresponding to the search result from the database 14. Such search processing of the search key is executed by general pattern matching of the character string, and the detected document data is displayed on the display 9 together with the translated text.

【0028】このような構成において、本実施の形態の
文書処理装置1は、翻訳支援装置の一部として機能す
る。この翻訳支援装置は、英語の長大な文書データの全
文を一文ずつ日本語に翻訳するもので、例えば、その翻
訳は自動に実行されて結果はディスプレイ9の表示によ
りユーザに提示される。このユーザがキーボード8の手
動操作により訳文の承認や修正を入力すると、この入力
に対応して文書データの翻訳を完了する。
In such a configuration, the document processing device 1 of this embodiment functions as a part of the translation support device. This translation support device translates the whole sentence of a long English document data into Japanese one sentence at a time. For example, the translation is automatically executed and the result is presented to the user by the display on the display 9. When the user inputs the approval or correction of the translated text by manually operating the keyboard 8, the translation of the document data is completed in response to this input.

【0029】このような処理動作を翻訳支援装置が開始
する際、文書処理装置1は英語の全文の文書データを文
単位の複数の文書データに分割してデータベース14に
格納し、複数の文書データに個々に対応した検索キーを
生成してキーインデックス15に登録する。この状態で
翻訳支援装置が文単位の翻訳を実行すると、その訳文も
文書処理装置1によりデータベース14に原文の文書デ
ータに対応して格納される。
When the translation support device starts such a processing operation, the document processing device 1 divides the document data of the entire English sentence into a plurality of document data in units of sentence and stores them in the database 14, A search key individually corresponding to is generated and registered in the key index 15. In this state, when the translation support device performs sentence-by-sentence translation, the translated sentence is also stored in the database 14 by the document processing device 1 in correspondence with the document data of the original sentence.

【0030】このような処理工程において、これから翻
訳支援装置が翻訳する一文に類似した一文を文書処理装
置1はデータベース14から検索し、この検索された文
書データに訳文が設定されていれば、この訳文を翻訳支
援装置に提供する。このため、翻訳支援装置により翻訳
の作業を実行するユーザには、以前に翻訳した文章と類
似の文章に対しては、以前の訳文が提供されるので、簡
易かつ正確に翻訳作業を実行することができる。
In such a processing step, the document processing apparatus 1 searches the database 14 for a sentence similar to one sentence to be translated by the translation support device, and if a translated sentence is set in the retrieved document data, The translated text is provided to the translation support device. For this reason, the user who performs the translation work by the translation support device is provided with the previous translated text for the sentence similar to the previously translated text, so that the translation work can be performed easily and accurately. You can

【0031】上述のような文書処理装置1の文書処理方
法を、図面に基づいて以下に順次説明する。まず、これ
から翻訳する全文の文書データを、各々一文の複数の文
書データに分割して検索キーと共に格納する文書処理方
法を最初に説明する。
The document processing method of the document processing apparatus 1 as described above will be sequentially described below with reference to the drawings. First, a document processing method of dividing the document data of the whole sentence to be translated into a plurality of document data of one sentence and storing the divided document data together with the search key will be described first.

【0032】翻訳支援装置に翻訳対象の一つの文書デー
タが設定されると、図5に示すように、この文書データ
は文書処理装置1の文書入力手段16に通信I/F10
から入力される。このように入力された一つの全文の文
書データは、検索対象の複数の文書データとして通信I
/F11からデータベース14に格納される。これとは
別個に、入力された文書データは文書分割手段17によ
り形態素解析され、文単位に分割されて複数の検索対象
の文書データに変換されてから、この複数の文書データ
の各々が単語単位に順番に分割される。
When one piece of document data to be translated is set in the translation support device, this document data is transmitted to the document input means 16 of the document processing device 1 via the communication I / F 10 as shown in FIG.
Is entered from One full-text document data input as described above is used as a plurality of document data to be searched for by the communication I.
/ F11 to the database 14. Separately from this, the input document data is morphologically analyzed by the document dividing unit 17, divided into sentence units and converted into a plurality of document data to be searched, and then each of the plurality of document data is divided into word units. It is divided in order.

【0033】例えば、入力された一つの全文の文書デー
タが“He certainly didn't want awife who was fickl
e as Ann. He had married her.”の場合、この一文は
“Hecertainly didn't want a wife who was fickle as
Ann ”“He had married her”なる二つの文書データ
に分割されてから、“He/certainly/didn't/want/a
/wife/who/was/fickle/as/Ann ”“He/had/mar
ried/her”なる単語に各々分割される。
For example, the input full-text document data is "He certainly didn't want a wife who was fickl.
e as Ann. He had married her. ”, this sentence is“ Hecertainly didn't want a wife who was fickle as
Ann ”“ He had married her ”divided into two document data, then“ He / certainly / didn't / want / a
/ Wife / who / was / fickle / as / Ann ”“ He / had / mar
Each is divided into words "ried / her".

【0034】また、上述のように分割された検索対象の
文書データは構文解析手段18により順番に構文解析さ
れ、図4に示すように、分割された単語の各々の役割が
判定される。なお、ここでは図中(a)に第一の文書デ
ータの構文構造のみを示し、図中(b)に第一の文書デ
ータの単語の役割等を順番に示す。この文書データの構
文解析が完了すると、これに対応した特定の単語が文字
抽出手段19により抽出され、これらの単語から先頭の
三文字が抽出される。
The search target document data divided as described above are parsed in order by the syntax analysis means 18, and the role of each of the divided words is determined as shown in FIG. Note that, here, only the syntactic structure of the first document data is shown in (a) in the figure, and the roles of words in the first document data are shown in order in (b) in the figure. When the syntactic analysis of this document data is completed, the specific words corresponding to this are extracted by the character extracting means 19, and the first three letters are extracted from these words.

【0035】ここでは構文解析の結果が木構造に生成さ
れ、その先頭の親ノードと、これに直接に係る子ノード
とから“S(主語),V(動詞),O(目的語),C(補語)”
の単語のみが検出され、これらの単語の各々から先頭の
三文字が抽出される。例えば、上述した第一の文書デー
タでは、図4に示すように、先頭の親ノードが“V=wa
nt”であり、これに直接に連結された“S,O,C”の
子ノードは“S=He,O=wife”である。
Here, the result of the syntactic analysis is generated in a tree structure, and "S (subject), V (verb), O (object), C is calculated from the leading parent node and the child node directly related to it. (complement)"
Are detected, and the first three letters are extracted from each of these words. For example, in the above-described first document data, as shown in FIG. 4, the leading parent node is “V = wa
nt ”, and the child nodes of“ S, O, C ”directly connected to this are“ S = He, O = wife ”.

【0036】このように抽出された文字は、キー生成手
段20により単語の役割の識別子“S,V,O,C”と
組み合わされ、これが検索キーとしてキーインデックス
15にアルファベットの順番に登録される。図3に示す
ように、上記した第一の文書データの検索キーは“SHe
VwanOwif”となり、第二の文書データの検索キーは
“SHeVmarOher”となる。この時、文書データのアド
レスと長さもカウントされ、これも検索キーに対応して
キーインデックス15に登録されるので、この検索キー
は文書データに対応した形態で登録されることになる。
The characters thus extracted are combined by the key generation means 20 with the word role identifiers "S, V, O, C", which are registered in the key index 15 in alphabetical order as search keys. . As shown in FIG. 3, the search key of the above-mentioned first document data is “SHe
VwanOwif ”, and the search key for the second document data becomes“ SHeVmarOher. ”At this time, the address and length of the document data are also counted, and this is also registered in the key index 15 corresponding to the search key. The search key will be registered in a form corresponding to the document data.

【0037】上述のような文書処理装置1による検索キ
ーの生成と登録とが、分割した複数の文書データの全部
で完了されると、翻訳支援装置による文書データの翻訳
の処理が開始される。この時、翻訳支援装置が一文の翻
訳を完了すると、文書処理装置1は、その訳文をデータ
ベース14に文書データに対応して格納する。同時に、
翻訳支援装置が、これから翻訳する一文に類似した一文
を文書処理装置1は検索し、この検索された文書データ
に訳文が設定されている場合は、この訳文を翻訳支援装
置に提供する。
When the generation and registration of the search key by the document processing apparatus 1 as described above is completed for all the plurality of divided document data, the translation support apparatus starts the process of translating the document data. At this time, when the translation support device completes the translation of one sentence, the document processing device 1 stores the translated sentence in the database 14 corresponding to the document data. at the same time,
The document processing apparatus 1 searches for a sentence similar to the sentence to be translated by the translation support device, and if a translation is set in the retrieved document data, provides the translation support device with the translation.

【0038】つぎに、このような文書処理装置1の文書
処理方法を以下に順次説明する。まず、翻訳支援装置は
全部の文書データを一文ずつ処理するので、図6に示す
ように、この一文が検索要求の文書データとして文書処
理装置1の文書入力手段16に通信I/F10から入力
される。このように検索要求として入力された一文の文
書データは、検索対象の文書データの場合と同様に、単
語単位に分割されてから構文解析され、単語の役割識別
子と先頭三文字とにより検索キーが生成される。
Next, the document processing method of the document processing apparatus 1 will be sequentially described below. First, since the translation support device processes all the document data one sentence at a time, as shown in FIG. 6, this one sentence is input from the communication I / F 10 to the document input means 16 of the document processing device 1 as the document data of the search request. It As described above, the document data of one sentence input as the search request is divided into word units and then parsed, and the search key is composed of the word role identifier and the first three characters. Is generated.

【0039】このように検索要求の検索キーが生成され
ると、これを文書検索手段21がバイナリサーチ等のパ
ターンマッチングによりキーインデックス15から検索
するので、パターンがマッチングする検索キーが検索さ
れると文書データのアドレスと長さとが読み出され、こ
のアドレスと長さとに従って文書データがデータベース
14から検出される。
When the search key of the search request is generated in this way, the document search means 21 searches the key index 15 by pattern matching such as binary search, so that the search key matching the pattern is searched. The address and the length of the document data are read, and the document data is detected from the database 14 according to the address and the length.

【0040】例えば、これから翻訳を実行する検索要求
の文書データが“He wants a wifeas Barbra.”の場
合、その検索キーは“SHeVwanOwif”となるので、こ
れは前述した“He certainly didn't want a wife who
was fickle as Ann.”なる第一の文書データの検索キー
とマッチングする。
For example, when the document data of the search request to be translated is "He wants a wifeas Barbra.", The search key is "SHeVwanOwif", which is the "He certainly didn't want a". wife who
Matches with the search key of the first document data "was fickle as Ann."

【0041】このように類似の文書データが検索される
と、ここでは訳文の有無が判断され、この訳文の存在が
判断されると、この訳文と文書データとが文書処理装置
1から翻訳支援装置に提供される。そこで、この翻訳支
援装置は提供された文書データと訳文とをディスプレイ
9に表示し、提供された文書データと訳文とを利用して
現在の文書データを翻訳し、これもディスプレイ9に表
示する。このため、翻訳支援装置は文書データの翻訳を
簡易かつ正確に実行することができ、以前の類似の文章
と訳文とをユーザに提示できるので、ユーザは今回の翻
訳の精度を良好に確認することができる。
When similar document data are searched in this way, it is determined here whether or not there is a translated sentence. When it is determined that this translated sentence exists, the translated sentence and the document data are transferred from the document processing device 1 to the translation support device. Provided to. Therefore, this translation support device displays the provided document data and translated text on the display 9, translates the current document data using the provided document data and translated text, and also displays this on the display 9. For this reason, the translation support device can easily and accurately perform the translation of the document data, and can present the user with the previously similar sentence and the translated sentence. Therefore, the user should confirm the accuracy of this translation well. You can

【0042】本実施の形態の文書処理装置1は、上述の
ように検索対象となる文書データが自然言語等により入
力されれば、その内容を反映した検索キーを自動的に生
成できるので、ユーザが検索キーを作成する必要がな
く、簡易にデータベース14を構築することができる。
同様に、検索要求の文書データからも適正な検索キーを
自動的に生成できるので、ユーザが検索キーを作成する
必要がなく、簡易に文書データを検索することができ
る。
If the document data to be searched is input in natural language or the like as described above, the document processing apparatus 1 of the present embodiment can automatically generate a search key reflecting the contents of the document data. Does not need to create a search key, and the database 14 can be easily constructed.
Similarly, since an appropriate search key can be automatically generated from the document data of the search request, the user does not need to create a search key, and the document data can be searched easily.

【0043】しかも、検索キーの生成には、文書データ
の単語の全部の文字は使用せず、先頭の三文字のみを利
用するので、検索キーを形成する文字が少数に制限され
る。このため、検索キーを登録するキーインデックス1
5の記憶容量を節約することができ、文書検索手段21
によるパターンマッチングの処理負担を軽減することが
できる。しかも、文書データを構文解析して特定の単語
を検出し、その単語のみ文字を抽出する対象とするの
で、文書データの構文構造で主要な役割や必須の役割の
単語のみから検索キーを生成することができ、検索キー
を形成する文字を良好に削減しながらも、文書データの
内容を良好に反映させることができる。さらに、検索キ
ーに単語の文字だけでなく構文解析による役割も組み込
むので、より良好に文書データの内容を検索キーに反映
させることができ、検索精度を向上させることができ
る。
Moreover, since all the characters of the word of the document data are not used for generating the search key, but only the first three characters are used, the number of characters forming the search key is limited. Therefore, the key index 1 for registering the search key
The storage capacity of 5 can be saved, and the document search means 21
It is possible to reduce the processing load of pattern matching due to. Moreover, because the document data is parsed to detect a specific word and only that word is targeted for extraction of characters, a search key is generated only from words that play a major role or an essential role in the syntax structure of the document data. Therefore, the content of the document data can be well reflected while the characters forming the search key are well reduced. Further, since not only the characters of the words but also the role of syntactic analysis is incorporated in the search key, the content of the document data can be better reflected in the search key, and the search accuracy can be improved.

【0044】なお、本発明は上述した文書処理装置1に
限定されるものではなく、各種の変形を許容する。例え
ば、上述した実施の形態では、文書処理装置1を翻訳支
援装置の一部とし、翻訳する全文を分割した一文を処理
の対象とすることを例示したが、このような翻訳とは無
関係に一般的な文書データを処理の対象とすることも可
能である。
The present invention is not limited to the document processing device 1 described above, and allows various modifications. For example, in the above-described embodiment, the document processing device 1 is used as a part of the translation support device, and one sentence obtained by dividing the whole sentence to be translated is targeted for processing. It is also possible to process general document data.

【0045】また、検索キーの文字を削減するため、文
書データの単語から先頭三文字のみを利用することを例
示したが、これでは接頭辞が検索キーに設定されて検索
精度が低下する懸念もある。これが問題となる場合に
は、例えば、文書データの単語から文字を一文字置きに
抽出し、これを検索キーの生成に利用することが好まし
い。
Further, in order to reduce the number of characters of the search key, only the first three letters from the word of the document data are used. However, in this case, the prefix is set in the search key, and there is a concern that the search accuracy is lowered. is there. If this causes a problem, for example, it is preferable to extract every other character from the word of the document data and use this for generating the search key.

【0046】さらに、検索精度を向上させるため、文書
データを構文解析して単語の役割も検索キーに設定する
ことを例示したが、このような構文解析を実行する構文
解析手段18に換えて品詞推定手段(図示せず)を設
け、この品詞推定手段により単語の品詞を推定すること
も可能である。このような品詞の推定は、形態素解析と
連接確率とを利用した既存の処理により実行することが
でき、このような処理により構文解析より負担を軽減す
ることができる。なお、このように形態素解析と連接確
率とを利用して品詞を推定する処理は、特開平2-254565
号公報や特開平4-112364号公報に詳述されている。
Furthermore, in order to improve the retrieval accuracy, it has been illustrated that the document data is syntactically analyzed and the role of the word is also set as the retrieval key. However, the syntactic analysis means 18 for performing such syntactic analysis is replaced by the part of speech. It is also possible to provide an estimation means (not shown) and estimate the part of speech of the word by this part of speech estimation means. Such part-of-speech estimation can be performed by an existing process that uses morphological analysis and concatenation probability, and such a process can reduce the load more than parsing. It should be noted that the process of estimating the part of speech using the morphological analysis and the connection probability in this way is disclosed in Japanese Patent Laid-Open No. 2-254565.
It is described in detail in Japanese Patent Laid-Open Publication No. 4-112364.

【0047】このように単語の品詞を推定する場合、特
定の品詞のみ文字を抽出する対象とすることも可能であ
り、この場合は文書データの主要な品詞や必須の品詞の
単語のみから検索キーを生成することができるので、検
索キーの文字を削減しながら文書データの内容を良好に
反映させることができる。
When estimating the part-of-speech of a word in this way, it is also possible to extract characters of only a specific part-of-speech. In this case, the search key is obtained only from the main part-of-speech of the document data or the word of the required part-of-speech. Can be generated, so that the content of the document data can be well reflected while reducing the characters of the search key.

【0048】さらに、単語の属性データを予め記憶した
属性記憶手段を設け、分割された単語の属性データを検
出する属性検出手段を設け(共に図示せず)、このよう
な属性データを検索キーに組み込むことも可能である。
例えば、“apple”“orange”なる単語には“F(=Frui
ts)”なる属性データを付加する。この場合、所定の単
語の所望の属性を付加することができるので、複数の名
詞を一つの象徴に抽象化するようなことができ、やはり
検索キーの文字を削減しながら文書データの内容を良好
に反映させることができる。
Further, attribute storage means for storing attribute data of words in advance is provided, and attribute detection means for detecting attribute data of divided words is provided (neither is shown), and such attribute data is used as a search key. It is also possible to incorporate it.
For example, the words "apple" and "orange" have "F (= Frui
ts) ”attribute data is added. In this case, it is possible to add a desired attribute of a predetermined word, so that it is possible to abstract multiple nouns into a single symbol, and also search key characters. The content of the document data can be reflected well while reducing the.

【0049】また、上述した文書処理装置1では、検索
キーのパターンマッチングにより文書データを検索する
ので、検索キーの文字が一つでも相違すると類似の文書
データが検索されない。これが問題となる場合には、音
声認識で既存のDP(Dynamic-Programming)マッチング
を利用し、パターンのマッチングが不完全でも類似の検
索キーを検索できるようにすることが好ましい。この場
合、検索キーが完全に一致する文書データだけでなく、
検索キーが類似の文書データも検索されるので、より良
好に文書データを検索することができる。
Further, in the above-described document processing apparatus 1, since the document data is searched by the pattern matching of the search key, if one character of the search key is different, similar document data is not searched. If this causes a problem, it is preferable to use existing DP (Dynamic-Programming) matching in voice recognition so that a similar search key can be searched even if pattern matching is incomplete. In this case, not only the document data whose search key exactly matches,
Document data having a similar search key is also searched, so that the document data can be searched better.

【0050】このようなDPマッチングを利用した検索
キーの検索処理を以下に説明する。まず、DPマッチン
グは音声認識の代表的な処理方法であり、パターン長の
変動を吸収して整列化することにより文字列の類似度を
検出する。この類似度を二つの検索キーの距離と定義す
ると、この距離が所定の閾値より小さければ、二つの文
字列を略同一として認識することができる。ここで、検
索要求と検索対象との検索キーの文字列“A,B”の距
離Dを検出する場合、 A :文字列 A1,A2,…,Am (mはAの文字数) B :文字列 B1,B2,…,Bn (nはBの文字数) D(i,j) :文字Aiまでと文字BjまでとのAとBとの距離 d(i,j) :文字Aiと文字Bjとの距離 INSERT :挿入エラーに伴うペナルティ DELETE :脱落エラーに伴うペナルティ とすると、下記の数1に示すように、文字列“A,B”
の検索キーの距離D(m,n)は、
A search key search process using such DP matching will be described below. First, DP matching is a typical processing method of voice recognition, and the similarity of character strings is detected by absorbing variations in pattern length and aligning. If this similarity is defined as the distance between the two search keys, the two character strings can be recognized as substantially the same if this distance is smaller than a predetermined threshold value. Here, when detecting the distance D of the character string "A, B" of the search key between the search request and the search target, A: character string A1, A2, ..., Am (m is the number of characters of A) B: character string B1, B2, ..., Bn (n is the number of characters of B) D (i, j): Distance between A and B between characters Ai and Bj d (i, j): Between characters Ai and Bj Distance INSERT: Penalty associated with insertion error DELETE: Penalty associated with dropout error, as shown in Equation 1 below, character strings "A, B"
The search key distance D (m, n) is

【0051】[0051]

【数1】 [Equation 1]

【0052】なる数式により計算される。なお、ここで
は“INSERT=1,DELETE=1”を想定して
いるが、これは所望により各種数値に設定することが可
能である。このようにDPマッチングにより二つの検索
キーの距離が算定されるので、この距離が所定の閾値よ
り小さければ、二つの検索キーを類似と判定することが
できる。
It is calculated by the following equation. It is assumed here that “INSERT = 1, DELETE = 1”, but this can be set to various numerical values as desired. Since the distance between the two search keys is calculated by DP matching in this way, if the distance is smaller than a predetermined threshold, the two search keys can be determined to be similar.

【0053】なお、完全に一致しない類似の検索キーを
検出する手段も、上述したDPマッチングに限定される
ものではなく、既存の各種の処理を適用できる。例え
ば、下記の表1に示すようなコンフィージョンマトリク
スを設け、
The means for detecting similar search keys that do not completely match is not limited to the DP matching described above, and various existing processes can be applied. For example, by providing a confusion matrix as shown in Table 1 below,

【0054】[0054]

【表1】 [Table 1]

【0055】これを利用して文字の類似度を個々に判定
し、これに基づいて文字列である検索キーの類似度を判
定することもできる。
By utilizing this, it is also possible to judge the similarity of characters individually, and to judge the similarity of the search key which is a character string based on this.

【0056】上述したコンフィージョンマトリクスは、
検索対象と検索要求との検索キーの少なくとも一方がO
CR(Optical Character Reader)の読取結果として入力
される場合を想定しており、文字の類似度を形状に基づ
いて検出するので、光学読取のエラーも補償することが
できる。なお、検索キーの入力がキーボード8の手動操
作による場合、隣接するキーによる文字の誤入力を予想
できるので、これを文字の類似度としてコンフィージョ
ンマトリクスを作成すれば、操作エラーを補償すること
ができる。
The confusion matrix described above is
At least one of the search key of the search target and the search request is O
It is assumed that the data is input as a CR (Optical Character Reader) reading result, and the character similarity is detected based on the shape, so that an optical reading error can also be compensated. When the input of the search key is a manual operation of the keyboard 8, erroneous input of a character by an adjacent key can be expected. Therefore, if a confusion matrix is created by using this as a character similarity, an operation error can be compensated. it can.

【0057】ここでは各種の変形例を説明したが、この
ような変形例は内容が相反しない範囲で自在に組み合わ
せることが可能である。
Although various modified examples have been described here, such modified examples can be freely combined within a range in which the contents do not conflict with each other.

【0058】[0058]

【発明の効果】請求項1記載の文書処理装置は、多数の
文書データが格納されるデータベースと、このデータベ
ースに格納する文書データが入力される文書入力手段
と、入力された文書データを所定の単位に分割する文書
分割手段と、分割された単位から一部の文字を抽出する
文字抽出手段と、抽出された文字を組み合わせて検索キ
ーを生成するキー生成手段と、生成された検索キーを文
書データに対応させて登録するキー登録手段とを有する
ことにより、データベースに格納する文書データが入力
されると、その内容を反映した検索キーが自動的に生成
されるので、検索キーをユーザが作成する必要がなく、
文書データを良好に検索できるデータベースを簡易に構
築することができる。
According to the document processing apparatus of the present invention, a database for storing a large number of document data, a document input means for inputting the document data to be stored in the database, and a predetermined document data for the input document data. A document dividing unit that divides into units, a character extracting unit that extracts some characters from the divided units, a key generating unit that combines the extracted characters to generate a search key, and a document that stores the generated search keys. By having the key registration means for registering in correspondence with the data, when the document data to be stored in the database is input, the search key reflecting the content is automatically generated, so that the user can create the search key. You do n’t have to
It is possible to easily build a database that can search document data satisfactorily.

【0059】請求項2記載の文書処理装置は、多数の文
書データが格納されたデータベースと、文書データを所
定の単位に分割してから一部の文字を抽出して組み合わ
せた検索キーが文書データに対応して登録されたキー登
録手段と、検索要求の文書データの入力を受け付ける文
書入力手段と、入力された文書データを所定の単位に分
割する文書分割手段と、分割された単位から一部の文字
を抽出する文字抽出手段と、抽出された文字を組み合わ
せて検索キーを生成するキー生成手段と、生成された検
索キーをキー登録手段から検索して対応する文書データ
をデータベースから検出する文書検索手段とを有するこ
とにより、検索要求を自然言語等により文書データとし
て入力すれば、その内容を反映した検索キーが自動的に
生成され、この検索キーに対応する文書データがデータ
ベースから検索されるので、検索キーをユーザが作成す
る必要がなく、適正な文書データを簡易に検索すること
ができる。
According to another aspect of the document processing apparatus of the present invention, a database storing a large number of document data and a search key obtained by combining the document data by dividing the document data into predetermined units and extracting some characters Key registration means registered corresponding to, document input means for receiving the input of the document data of the search request, document dividing means for dividing the input document data into predetermined units, and a part of the divided units. A character extracting means for extracting the characters of the above, a key generating means for generating the search key by combining the extracted characters, a document for searching the generated search key from the key registration means and detecting the corresponding document data from the database. By having a search means, if a search request is input as document data in natural language or the like, a search key reflecting the content is automatically generated, and this search is performed. Since document data corresponding to the key is retrieved from the database, there is no need to create a user search key, it is possible to find the proper document data easily.

【0060】請求項3記載の文書処理装置では、文書検
索手段は、生成された検索キーをキー登録手段から検索
する際、パターンのマッチングが不完全でも類似の検索
キーを検索することにより、検索キーが完全に一致する
文書データだけでなく、検索キーが類似の文書データも
検索することができる。
In the document processing apparatus according to the third aspect, the document search means searches the generated search key from the key registration means by searching a similar search key even if the pattern matching is incomplete. It is possible to search not only document data whose keys are exactly the same, but also document data whose search keys are similar.

【0061】請求項4記載の文書処理装置では、文字抽
出手段は、文書データの分割された単位の先頭から所定
数の文字を抽出することにより、検索キーを形成する文
字を少数に削減することができるので、キー登録手段の
記憶容量を節約することができ、文書検索手段の処理負
担を軽減することができる。
In the document processing apparatus according to the fourth aspect, the character extraction means reduces the number of characters forming the search key to a small number by extracting a predetermined number of characters from the beginning of the divided unit of the document data. Therefore, the storage capacity of the key registration means can be saved, and the processing load of the document search means can be reduced.

【0062】請求項5記載の文書処理装置では、文字抽
出手段は、文書データの分割された単位の先頭から文字
を一文字置きに抽出することにより、検索キーを形成す
る文字を少数に削減することができるので、キー登録手
段の記憶容量を節約することができ、文書検索手段の処
理負担を軽減することができ、接頭辞に起因した誤検索
も防止することができる。
In the document processing apparatus according to the present invention, the character extraction means reduces the number of characters forming the search key to a small number by extracting every other character from the beginning of the divided unit of the document data. Therefore, the storage capacity of the key registration unit can be saved, the processing load of the document search unit can be reduced, and erroneous search due to the prefix can be prevented.

【0063】請求項6記載の文書処理装置では、文書分
割手段は、文書データを単語に分割し、構文解析手段
は、文書データを構文解析して分割された単語の役割を
判定し、キー生成手段は、単語から抽出された文字に役
割も組み合わせて検索キーを生成することにより、検索
キーに文書データの単語の文字だけでなく単語の役割も
組み込むことができるので、より良好に文書データの内
容を検索キーに反映させることができる。
In the document processing apparatus according to the sixth aspect, the document dividing unit divides the document data into words, and the syntactic analyzing unit syntactically analyzes the document data to determine the role of the divided words and generate a key. By generating a search key by combining the character extracted from the word with the role, the means can incorporate not only the character of the word of the document data but also the role of the word in the search key, so that the document data The content can be reflected in the search key.

【0064】請求項7記載の文書処理装置では、特定の
役割の単語のみ文字を抽出する対象とすることにより、
文書データの構文構造で主要な役割や必須の役割の単語
のみから検索キーを生成するようなことができるので、
検索キーの文字の個数を良好に削減しながらも、文書デ
ータの内容を検索キーに良好に反映させることができ
る。
In the document processing apparatus according to the seventh aspect, by extracting only the characters of the words having a specific role,
Since the search key can be generated only from the words of the main role and the essential role in the syntax structure of the document data,
The content of the document data can be well reflected in the search key while the number of characters of the search key is properly reduced.

【0065】請求項8記載の文書処理装置では、文書分
割手段は、文書データを単語に分割し、品詞推定手段
は、分割された単語の品詞を推定し、キー生成手段は、
単語から抽出された文字に品詞も組み合わせて検索キー
を生成することにより、検索キーに文書データの単語の
文字だけでなく単語の品詞も組み込むことができるの
で、より良好に文書データの内容を検索キーに反映させ
ることができる。
In the document processing apparatus according to the eighth aspect, the document dividing unit divides the document data into words, the part-of-speech estimating unit estimates the part-of-speech of the divided word, and the key generating unit,
By generating the search key by combining the character extracted from the word with the part of speech, it is possible to incorporate not only the character of the word of the document data but also the part of speech of the word into the search key, so that the content of the document data can be searched better Can be reflected in the key.

【0066】請求項9記載の文書処理装置では、文字抽
出手段は、特定の品詞の単語のみ文字を抽出する対象と
することにより、従って、文書データの主要な品詞や必
須の品詞の単語のみから検索キーを生成するようなこと
ができるので、検索キーの文字の個数を良好に削減しな
がらも、文書データの内容を検索キーに良好に反映させ
ることができる。
In the document processing apparatus according to the ninth aspect, the character extracting means targets only the words of a specific part of speech to extract characters, and accordingly, only the main part of speech of the document data and the words of the essential part of speech are extracted. Since the search key can be generated, the content of the document data can be well reflected in the search key while the number of characters of the search key is favorably reduced.

【0067】請求項10記載の文書処理装置では、単語
の属性データを予め記憶した属性記憶手段を設け、文書
分割手段は、文書データを単語に分割し、属性検出手段
は、分割された単語の属性データを検出し、キー生成手
段は、単語から抽出された文字に属性データも組み合わ
せて検索キーを生成することにより、検索キーに文書デ
ータの単語の文字だけでなく単語の属性データも組み込
むことができるので、より良好に文書データの内容を検
索キーに反映させることができる。
In the document processing apparatus according to the tenth aspect, attribute storage means for storing attribute data of words in advance is provided, the document dividing means divides the document data into words, and the attribute detecting means detects the divided words. Detecting the attribute data, the key generating means incorporates not only the character of the word of the document data but also the attribute data of the word into the search key by combining the character extracted from the word with the attribute data to generate the search key. Therefore, the content of the document data can be reflected in the search key more favorably.

【0068】請求項11記載の文書処理方法では、デー
タベースに格納する文書データが入力されると、この文
書データを所定の単位に分割し、この分割された単位か
ら一部の文字を抽出し、この抽出された文字を組み合わ
せて検索キーを生成し、この生成された検索キーを文書
データに対応させて登録するようにしたことにより、デ
ータベースに格納する文書データが入力されると、その
内容を反映した検索キーが自動的に生成されるので、検
索キーをユーザが作成する必要がなく、文書データを良
好に検索できるデータベースを簡易に構築することがで
きる。
In the document processing method according to the eleventh aspect, when the document data to be stored in the database is input, the document data is divided into predetermined units, and some characters are extracted from the divided units, By generating a search key by combining the extracted characters and registering the generated search key in association with the document data, when the document data to be stored in the database is input, the content is changed. Since the reflected search key is automatically generated, it is not necessary for the user to create the search key, and it is possible to easily construct a database capable of satisfactorily searching document data.

【0069】請求項12記載の文書処理方法では、多数
の文書データをデータベースに格納しておき、文書デー
タを所定の単位に分割してから一部の文字を抽出して組
み合わせた検索キーを文書データに対応してキー登録手
段に登録しておき、検索要求の文書データが入力される
と、この入力された文書データを所定の単位に分割し、
この分割された単位から一部の文字を抽出し、この抽出
された文字を組み合わせて検索キーを生成し、この生成
された検索キーをキー登録手段から検索して対応する文
書データをデータベースから検出するようにしたことに
より、検索要求を自然言語等により文書データとして入
力すれば、その内容を反映した検索キーが自動的に生成
され、この検索キーに対応する文書データがデータベー
スから検索されるので、検索キーをユーザが作成する必
要がなく、適正な文書データを簡易に検索することがで
きる。
In the document processing method according to the twelfth aspect of the present invention, a large number of document data are stored in a database, the document data is divided into predetermined units, some characters are extracted, and a search key obtained by combining them is used as the document When the document data of the search request is input in advance by registering in the key registration means corresponding to the data, the input document data is divided into predetermined units,
Some characters are extracted from the divided units, the extracted characters are combined to generate a search key, and the generated search key is searched from the key registration means to detect the corresponding document data from the database. By doing so, if a search request is input as document data in natural language or the like, a search key reflecting the content is automatically generated, and the document data corresponding to this search key is searched from the database. Since it is not necessary for the user to create a search key, it is possible to easily search for appropriate document data.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施の一形態の文書処理装置を機能的
に示す模式図である。
FIG. 1 is a schematic diagram functionally showing a document processing apparatus according to an embodiment of the present invention.

【図2】文書処理装置の実際の回路構造を示すブロック
図である。
FIG. 2 is a block diagram showing an actual circuit structure of the document processing apparatus.

【図3】キー登録手段であるキーインデックスの記憶内
容を示す模式図である。
FIG. 3 is a schematic diagram showing stored contents of a key index which is a key registration means.

【図4】文書データを構文解析の結果を示す模式図であ
る。
FIG. 4 is a schematic diagram showing a result of parsing document data.

【図5】文書データから検索キーを生成して登録する文
書処理方法を示すフローチャートである。
FIG. 5 is a flowchart showing a document processing method for generating and registering a search key from document data.

【図6】文書データから検索キーを生成して文書データ
を検索する文書処理方法を示すフローチャートである。
FIG. 6 is a flowchart showing a document processing method for generating a search key from document data and searching the document data.

【符号の説明】[Explanation of symbols]

1 文書処理装置 14 データベース 15 キー登録手段 16 文書入力手段 17 文書分割手段 18 構文解析手段 19 文字抽出手段 20 キー生成手段 21 文書検索手段 1 Document Processing Device 14 Database 15 Key Registration Means 16 Document Input Means 17 Document Dividing Means 18 Parsing Means 19 Character Extracting Means 20 Key Generating Means 21 Document Searching Means

Claims (12)

【特許請求の範囲】[Claims] 【請求項1】 多数の文書データが格納されるデータベ
ースと、このデータベースに格納する文書データが入力
される文書入力手段と、入力された文書データを所定の
単位に分割する文書分割手段と、分割された単位から一
部の文字を抽出する文字抽出手段と、抽出された文字を
組み合わせて検索キーを生成するキー生成手段と、生成
された検索キーを文書データに対応させて登録するキー
登録手段と、を有することを特徴とする文書処理装置。
1. A database for storing a large number of document data, a document input means for inputting document data to be stored in this database, a document dividing means for dividing the input document data into predetermined units, and a division. Character extracting means for extracting a part of characters from the generated unit, key generating means for generating a search key by combining the extracted characters, and key registration means for registering the generated search key in correspondence with the document data. And a document processing device.
【請求項2】 多数の文書データが格納されたデータベ
ースと、文書データを所定の単位に分割してから一部の
文字を抽出して組み合わせた検索キーが文書データに対
応して登録されたキー登録手段と、検索要求の文書デー
タの入力を受け付ける文書入力手段と、入力された文書
データを所定の単位に分割する文書分割手段と、分割さ
れた単位から一部の文字を抽出する文字抽出手段と、抽
出された文字を組み合わせて検索キーを生成するキー生
成手段と、生成された検索キーを前記キー登録手段から
検索して対応する文書データを前記データベースから検
出する文書検索手段と、を有することを特徴とする文書
処理装置。
2. A database in which a large number of document data is stored, and a search key in which the document data is divided into predetermined units, some characters are extracted and combined, and the search keys are registered corresponding to the document data. Registration means, document input means for receiving input of document data of a search request, document dividing means for dividing the input document data into predetermined units, and character extracting means for extracting some characters from the divided units And key generation means for generating a search key by combining the extracted characters, and document search means for searching the generated search key from the key registration means and detecting corresponding document data from the database. A document processing device characterized by the above.
【請求項3】 文書検索手段は、生成された検索キーを
キー登録手段から検索する際、パターンのマッチングが
不完全でも類似の検索キーを検索することを特徴とする
請求項1記載の文書処理装置。
3. The document processing according to claim 1, wherein the document search means searches for a similar search key even if pattern matching is incomplete, when searching the generated search key from the key registration means. apparatus.
【請求項4】 文字抽出手段は、文書データの分割され
た単位の先頭から所定数の文字を抽出することを特徴と
する請求項1,2又は3記載の文書処理装置。
4. The document processing apparatus according to claim 1, wherein the character extracting means extracts a predetermined number of characters from the beginning of the divided unit of the document data.
【請求項5】 文字抽出手段は、文書データの分割され
た単位の先頭から文字を一文字置きに抽出することを特
徴とする請求項1,2又は3記載の文書処理装置。
5. The document processing apparatus according to claim 1, wherein the character extracting unit extracts every other character from the beginning of the divided unit of the document data.
【請求項6】 文書データを構文解析して分割された単
語の役割を判定する構文解析手段を設け、文書分割手段
は、文書データを単語に分割し、前記構文解析手段は、
文書データを構文解析して分割された単語の役割を判定
し、キー生成手段は、単語から抽出された文字に役割も
組み合わせて検索キーを生成することを特徴とする請求
項1,2,3,4又は5記載の文書処理装置。
6. A syntactic analysis unit for syntactically analyzing document data to determine a role of a word divided, the document dividing unit divides the document data into words, and the syntactic analysis unit includes:
4. The document data is syntactically analyzed to determine the role of the divided word, and the key generation means generates a search key by combining the character extracted from the word with the role. , 4 or 5 document processing device.
【請求項7】 文字抽出手段は、特定の役割の単語のみ
文字を抽出する対象とすることを特徴とする請求項6記
載の文書処理装置。
7. The document processing apparatus according to claim 6, wherein the character extracting means extracts characters only from words having a specific role.
【請求項8】 分割された単語の品詞を推定する品詞推
定手段を設け、文書分割手段は、文書データを単語に分
割し、前記品詞推定手段は、分割された単語の品詞を推
定し、キー生成手段は、単語から抽出された文字に品詞
も組み合わせて検索キーを生成することを特徴とする請
求項1,2,3,4又は5記載の文書処理装置。
8. A part-of-speech estimating unit for estimating a part-of-speech of a divided word is provided, the document dividing unit divides document data into words, and the part-of-speech estimating unit estimates a part of speech of the divided word, and a key 6. The document processing apparatus according to claim 1, wherein the generation unit combines the character extracted from the word with a part of speech to generate a search key.
【請求項9】 文字抽出手段は、特定の品詞の単語のみ
文字を抽出する対象とすることを特徴とする請求項8記
載の文書処理装置。
9. The document processing apparatus according to claim 8, wherein the character extracting means extracts characters only from words having a specific part of speech.
【請求項10】 単語の属性データを予め記憶した属性
記憶手段を設け、分割された単語の属性データを検出す
る属性検出手段を設け、文書分割手段は、文書データを
単語に分割し、前記属性検出手段は、分割された単語の
属性データを検出し、キー生成手段は、単語から抽出さ
れた文字に属性データも組み合わせて検索キーを生成す
ることを特徴とする請求項1,2,3,4又は5記載の
文書処理装置。
10. An attribute storage unit for storing attribute data of a word in advance is provided, and an attribute detection unit for detecting attribute data of the divided word is provided. The document dividing unit divides the document data into words, and the attribute 4. The detecting means detects the attribute data of the divided words, and the key generating means combines the characters extracted from the words with the attribute data to generate the search key. 4. The document processing device according to 4 or 5.
【請求項11】 データベースに格納する文書データが
入力されると、この文書データを所定の単位に分割し、
この分割された単位から一部の文字を抽出し、この抽出
された文字を組み合わせて検索キーを生成し、この生成
された検索キーを文書データに対応させて登録するよう
にしたことを特徴とする文書処理方法。
11. When the document data to be stored in the database is input, the document data is divided into predetermined units,
It is characterized in that some characters are extracted from this divided unit, a search key is generated by combining the extracted characters, and the generated search key is registered in association with the document data. How to process documents.
【請求項12】 多数の文書データをデータベースに格
納しておき、文書データを所定の単位に分割してから一
部の文字を抽出して組み合わせた検索キーを文書データ
に対応してキー登録手段に登録しておき、検索要求の文
書データが入力されると、この入力された文書データを
所定の単位に分割し、この分割された単位から一部の文
字を抽出し、この抽出された文字を組み合わせて検索キ
ーを生成し、この生成された検索キーを前記キー登録手
段から検索して対応する文書データを前記データベース
から検出するようにしたことを特徴とする文書処理方
法。
12. A key registration means for storing a large number of document data in a database, dividing the document data into predetermined units, extracting some characters, and combining the retrieval keys in correspondence with the document data. When the search request document data is input, the input document data is divided into predetermined units, some characters are extracted from the divided units, and the extracted characters are extracted. A document processing method is characterized in that a search key is generated by combining the above, and the generated search key is searched from the key registration means to detect corresponding document data from the database.
JP7321325A 1995-12-11 1995-12-11 Document processor and method therefor Pending JPH09160929A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7321325A JPH09160929A (en) 1995-12-11 1995-12-11 Document processor and method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7321325A JPH09160929A (en) 1995-12-11 1995-12-11 Document processor and method therefor

Publications (1)

Publication Number Publication Date
JPH09160929A true JPH09160929A (en) 1997-06-20

Family

ID=18131339

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7321325A Pending JPH09160929A (en) 1995-12-11 1995-12-11 Document processor and method therefor

Country Status (1)

Country Link
JP (1) JPH09160929A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002524799A (en) * 1998-09-09 2002-08-06 インベンション・マシーン・コーポレーション Semantic analysis and selection of documents with knowledge creativity

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002524799A (en) * 1998-09-09 2002-08-06 インベンション・マシーン・コーポレーション Semantic analysis and selection of documents with knowledge creativity

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
KR102268875B1 (en) System and method for inputting text into electronic devices
JP4544674B2 (en) A system that provides information related to the selected string
US8060357B2 (en) Linguistic user interface
US20100332217A1 (en) Method for text improvement via linguistic abstractions
US5475586A (en) Translation apparatus which uses idioms with a fixed and variable portion where a variable portion is symbolic of a group of words
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JP3015223B2 (en) Electronic dictionary device for processing special co-occurrence, machine translation device, and information search device
US7409381B1 (en) Index to a semi-structured database
US7684975B2 (en) Morphological analyzer, natural language processor, morphological analysis method and program
JPH0844771A (en) Information retrieval device
JP2003167898A (en) Information retrieving system
Benajiba et al. Arabic question answering
Georgantopoulos MSc in Speech and Language Processing Dissertation: Automatic summarising based on sentence extraction: A statistical approach
JP4783563B2 (en) Index generation program, search program, index generation method, search method, index generation device, and search device
JPH11259524A (en) Information retrieval system, information processing method in information retrieval system and record medium
JPH09160929A (en) Document processor and method therefor
Bhowmik et al. Development of A Word Based Spell Checker for Bangla Language
JPH09245051A (en) Device and method for retrieving natural language instance
JPH0540783A (en) Natural language analysis device
JP5454871B2 (en) Dictionary evaluation support apparatus and program
JPH03161865A (en) Method for retrieving document
JP3139624B2 (en) Morphological analyzer
JPH03229367A (en) Text base retrieving system
JPH07141381A (en) Electronic dictionary display device

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040224

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040622