JPH06314297A - Device and method for processing of document and device and method for retrieving data base - Google Patents

Device and method for processing of document and device and method for retrieving data base

Info

Publication number
JPH06314297A
JPH06314297A JP5124751A JP12475193A JPH06314297A JP H06314297 A JPH06314297 A JP H06314297A JP 5124751 A JP5124751 A JP 5124751A JP 12475193 A JP12475193 A JP 12475193A JP H06314297 A JPH06314297 A JP H06314297A
Authority
JP
Japan
Prior art keywords
keyword
importance
word
classification
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5124751A
Other languages
Japanese (ja)
Other versions
JP3428068B2 (en
Inventor
Toshimi Kudo
敏巳 工藤
Futoshi Hayashi
太志 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP12475193A priority Critical patent/JP3428068B2/en
Publication of JPH06314297A publication Critical patent/JPH06314297A/en
Application granted granted Critical
Publication of JP3428068B2 publication Critical patent/JP3428068B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To register a keyword extracted from inputted document information along with inputted document information in data base by converting the keyword into a regulated word. CONSTITUTION:A keyword candidate is extracted by a keyword extracting device from document information which is inputted by a document input device 11, keyword statistical information is generated by a keyword statistical information generator concerning to the extracted respective keyword candidates and keyword statistical information generated by referring to a relational word dictionary 16 is shared. The keyword importance degree of the respective keyword candidates is calculated based on keyword statistical information, a natural word/regulated word dictionary 21 is referred to and the keyword candidate is converted into the regulated word. The converted regulated word is registered in a data base 23 as the keyword of inputted document information along with the keyword importance degree.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【技術分野】この発明は,文書処理装置および方法,な
らびにデータ・ベース検索装置および方法に関する。
TECHNICAL FIELD The present invention relates to a document processing apparatus and method, and a data base searching apparatus and method.

【0002】[0002]

【従来技術とその問題点】文書情報からキーワードを自
動抽出し,抽出したキーワードの重要度を評価する技術
が特開平3−135669号公報に記載されている。
2. Description of the Related Art A technique for automatically extracting a keyword from document information and evaluating the importance of the extracted keyword is described in Japanese Patent Laid-Open No. 3-135669.

【0003】しかしながら,この技術においては文書か
ら抽出されたキーワードを統制語キーワードに変換する
機能が付加されていないので,統制語キーワードを文書
のキーワードとして登録するデータ・ベース・システム
を利用する場合,人手によって統制語キーワードを文書
に付加して登録しなければならないという問題点があっ
た。
However, this technique does not have a function of converting a keyword extracted from a document into a controlled word keyword. Therefore, when using a database system that registers a controlled word keyword as a keyword of a document, There is a problem in that the controlled word keyword must be manually added to the document and registered.

【0004】また,統制語キーワードを文書のキーワー
ドとして登録しているデータ・ベース・システムを検索
する場合,検索条件中に自然語キーワードを統制語キー
ワードに変換しなければならないという問題点があっ
た。
Also, when searching a database system in which controlled word keywords are registered as document keywords, there is a problem that natural language keywords must be converted into controlled word keywords in the search conditions. .

【0005】[0005]

【発明の開示】第1の発明は,入力された文書情報とと
もにその統制語を登録できる文書処理装置を提供するこ
とを目的としている。
DISCLOSURE OF THE INVENTION A first object of the present invention is to provide a document processing apparatus capable of registering the controlled word together with the input document information.

【0006】第1の発明による文書処理装置は,文書情
報を入力する文書入力手段,文書入力手段により入力さ
れた上記文書情報からキーワード候補を抽出するキーワ
ード抽出手段,上記キーワード抽出手段により抽出され
た上記キーワード候補に関するキーワード統計情報を作
成するキーワード統計情報作成手段,重要度評価規則お
よびメンバーシップ関数が分類毎にあらかじめ登録され
ている分類別重要度評価規則辞書,入力された文書情報
の分類に応じて,上記分類別重要度評価規則辞書に登録
されている重要度評価規則およびメンバーシップ関数を
選択する重要度評価規則選択手段,上記分類別重要度評
価規則辞書から上記重要度評価規則選択手段により選択
された重要度評価規則およびメンバーシップ関数にした
がって,上記キーワード統計情報作成手段により作成さ
れた上記キーワード統計情報に基づいて,上記キーワー
ド抽出手段により抽出された上記キーワード候補のキー
ワード重要度を算出するキーワード重要度評価手段,複
数の自然語,および上記複数の自然語に対応する統制語
があらかじめ登録されている自然語/統制語辞書,上記
キーワード抽出手段により抽出された上記キーワード候
補を,上記自然語/統制語辞書を参照して統制語に変換
し,上記キーワード重要度評価手段により算出された上
記キーワード候補のキーワード重要度を変換した上記統
制語のキーワード重要度とする統制語生成手段,ならび
に上記統制語生成手段により生成された上記統制語およ
び上記統制語のキーワード重要度と入力された上記文書
情報とを関連させて登録するデータ・ベース・システム
を備えている。
In the document processing apparatus according to the first aspect of the present invention, the document input means for inputting the document information, the keyword extracting means for extracting the keyword candidates from the document information input by the document input means, and the keyword extracting means for extracting the keyword candidates are extracted. A keyword statistical information creating means for creating keyword statistical information about the above keyword candidates, a classification importance evaluation rule dictionary in which importance evaluation rules and membership functions are registered in advance for each classification, and according to the classification of input document information By the importance evaluation rule selecting means for selecting the importance evaluation rule and the membership function registered in the classification importance evaluation rule dictionary, and the importance evaluation rule selecting means from the classification importance evaluation rule dictionary. The above key according to the selected importance evaluation rule and membership function Keyword importance evaluation means for calculating the keyword importance of the keyword candidates extracted by the keyword extraction means based on the keyword statistical information created by the keyword statistical information creation means, a plurality of natural languages, and the plurality of A natural language / controlled word dictionary in which a controlled word corresponding to the natural language is registered in advance, and the keyword candidates extracted by the keyword extracting means are converted into controlled words by referring to the natural language / controlled word dictionary. A controlled word generation means for converting the keyword importance of the keyword candidate calculated by the keyword importance evaluation means to a keyword importance of the controlled word, and the controlled word generated by the controlled word generation means and the above Data to be registered by associating the keyword importance of controlled words with the above-mentioned input document information And it includes a base system.

【0007】第1の発明による文書処理方法は,重要度
評価規則およびメンバーシップ関数を分類別重要度辞書
に分類毎にあらかじめ登録しておき,複数の自然語,お
よび上記複数の自然語に対応する統制語を分類別重要度
辞書にあらかじめ登録しておき,入力される文書情報を
受付け,入力された上記文書情報からキーワード候補を
抽出し,抽出された上記キーワード候補に関するキーワ
ード統計情報を作成し,入力された文書情報の分類に応
じて,上記分類別重要度評価規則辞書に登録されている
重要度評価規則およびメンバーシップ関数を選択し,上
記分類別重要度評価規則辞書から選択された重要度評価
規則およびメンバーシップ関数にしたがって,作成され
た上記キーワード統計情報に基づいて,抽出された上記
キーワード候補のキーワード重要度を算出し,抽出され
た上記キーワード候補を,上記自然語/統制語辞書を参
照して統制語に変換し,算出された上記キーワード候補
のキーワード重要度を変換した上記統制語のキーワード
重要度とし,生成された上記統制語および上記統制語の
キーワード重要度と入力された上記文書情報とを関連さ
せてデータ・ベース・システムに登録するものである。
In the document processing method according to the first aspect of the present invention, the importance evaluation rule and the membership function are registered in advance in the classification-specific importance dictionary for each classification to correspond to a plurality of natural words and the plurality of natural words. The controlled words to be registered are registered in advance in the classification importance dictionary, the input document information is accepted, the keyword candidates are extracted from the input document information, and the keyword statistical information on the extracted keyword candidates is created. , The importance evaluation rules and membership functions registered in the classification importance evaluation rule dictionary are selected according to the classification of the input document information, and the importance selected from the classification importance evaluation rule dictionary is selected. Of the extracted keyword candidates based on the keyword statistical information created according to the degree evaluation rule and the membership function. -The keyword of the controlled word obtained by calculating the word importance, converting the extracted keyword candidate into a controlled word by referring to the natural language / controlled word dictionary, and converting the calculated keyword importance of the keyword candidate The degree of importance is registered in the database system in association with the generated controlled word and the keyword importance of the controlled word and the input document information.

【0008】第1の発明によると,入力された文書情報
から抽出されたキーワード候補毎にキーワード統計情報
が作成され,これに基づいてキーワード候補のキーワー
ド重要度が算出される。抽出されたキーワード候補は,
自然語/統制語辞書を用いて統制語に変換されるので,
入力された文書情報とそれに関連する統制語およびその
重要度を付加してデータ・ベース・システムに登録する
ことができる。
According to the first invention, the keyword statistical information is created for each keyword candidate extracted from the input document information, and the keyword importance of the keyword candidate is calculated based on this. The extracted keyword candidates are
Since it is converted to a controlled word using a natural language / controlled word dictionary,
It is possible to add the input document information, the related controlled word, and its importance to the data base system for registration.

【0009】第1の発明による文書処理装置の好ましい
実施態様においては,複数の第1の見出し語,上記第1
の各見出し語に関連する関連語,および第1の見出し語
と上記関連語との関連の度合いを表わす関連度があらか
じめ登録されている関連語辞書をさらに備え,上記キー
ワード統計情報作成手段は,上記キーワード抽出手段に
より抽出された上記キーワード候補のそれぞれについ
て,上記関連語辞書から関連語および関連度を読出し,
一のキーワード候補について読出した関連語と同じ語が
他のキーワード候補にあれば,該他のキーワード候補の
キーワード統計情報と読出した上記関連度とに基づい
て,上記一のキーワード候補のキーワード統計情報の少
なくとも一部を共有化的修正を行なうものである。
In a preferred embodiment of the document processing apparatus according to the first invention, a plurality of first headwords, the first
The keyword statistical information creating means further comprises a related word dictionary in which a related word related to each headword and a degree of relevance indicating a degree of relationship between the first headword and the related word are registered in advance. For each of the keyword candidates extracted by the keyword extracting means, a related word and a degree of association are read from the related word dictionary,
If the same word as the read related word for one keyword candidate is present in another keyword candidate, the keyword statistical information of the one keyword candidate is based on the keyword statistical information of the other keyword candidate and the read degree of association. At least a part of this is to be shared.

【0010】したがって,抽出したキーワード候補のキ
ーワード統計情報が抽出したキーワード候補の関連語も
考慮して作成される。
Therefore, the keyword statistical information of the extracted keyword candidates is created in consideration of the related words of the extracted keyword candidates.

【0011】第1の発明による文書処理装置の好ましい
実施態様においては,複数の第2の見出し語,および上
記第2の各見出し語についてそれが属する分類毎に分類
別重要度があらかじめ登録されている分類別重要度辞
書,および上記キーワード抽出手段により抽出されたキ
ーワード候補の分類別重要度を上記分類別重要度辞書か
ら読出し,上記キーワード候補の上記分類別重要度と上
記キーワード候補のキーワード統計情報に含まれる情報
とに基づいて,入力された文書情報の属する分類を決定
する分類決定手段をさらに備えている。
In a preferred embodiment of the document processing apparatus according to the first aspect of the present invention, the plurality of second headwords and the classification importance for each of the second headwords are registered in advance for each classification to which it belongs. The classified importance dictionary and the classified importance of the keyword candidates extracted by the keyword extraction means are read from the classified importance dictionary, and the classified importance of the keyword candidate and the keyword statistical information of the keyword candidate are read. Further, there is further provided a classification determining means for determining the classification to which the input document information belongs, based on the information included in.

【0012】したがって,入力された文書情報に分類が
付加されていない場合にも,その文書情報が属する分類
を求めることができる。
Therefore, even if no classification is added to the input document information, the classification to which the document information belongs can be obtained.

【0013】第1の発明による文書処理装置のさらに好
ましい実施態様においては,上記データ・ベース・シス
テムは,所定の閾値以上のキーワード重要度をもつ統制
語を,入力された文書情報のキーワードとして登録す
る。
In a further preferred embodiment of the document processing apparatus according to the first invention, the database system registers a controlled word having a keyword importance of a predetermined threshold value or more as a keyword of input document information. To do.

【0014】このようにして,入力された文書情報に関
する有益性の低いキーワードは登録されないので,後の
検索を的確に行うことができる。
In this way, since the keyword of low usefulness regarding the input document information is not registered, the subsequent retrieval can be performed accurately.

【0015】第2の発明は,検索条件として文書情報を
入力し,この文書情報と使用されている用語の観点から
類似すると判断される文書情報を検索できるデータ・ベ
ース検索装置を提供することを目的としている。
A second aspect of the present invention is to provide a data base retrieval apparatus capable of inputting document information as a retrieval condition and retrieving document information which is judged to be similar from the viewpoint of terms used in this document information. Has an aim.

【0016】第2の発明によるデータ・ベース検索装置
は,複数の文書情報に関する統制語キーワードを含む検
索用データを有するデータ・ベース,および所与のデー
タ・ベース検索条件に基づいて上記データ・ベースの検
索を行なうデータ・ベース管理手段を備えたデータ・ベ
ース・システムを利用して,上記データ・ベースを検索
するための装置において,文書情報を検索条件として入
力する文書入力手段,文書入力手段により入力された上
記文書情報からキーワード候補を抽出するキーワード抽
出手段,上記キーワード抽出手段により抽出された上記
キーワード候補に関するキーワード統計情報を作成する
キーワード統計情報作成手段,重要度評価規則およびメ
ンバーシップ関数が分類毎にあらかじめ登録されている
分類別重要度評価規則辞書,入力された文書情報の分類
に応じて,上記分類別重要度評価規則に登録されている
重要度評価規則およびメンバーシップ関数を選択する重
要度評価規則選択手段,上記分類別重要度評価規則辞書
から上記重要度評価規則選択手段により選択された重要
度評価規則およびメンバーシップ関数にしたがって,上
記キーワード統計情報作成手段により作成された上記キ
ーワード統計情報に基づいて,上記キーワード抽出手段
により抽出された上記キーワード候補のキーワード重要
度を算出するキーワード重要度評価手段,複数の自然
語,および上記複数の自然語に対応する統制語があらか
じめ登録されている自然語/統制語辞書,上記キーワー
ド抽出手段により抽出された上記キーワード候補を,上
記自然語/統制語辞書を参照して統制語に変換し,上記
キーワード重要度評価手段により算出された上記キーワ
ード候補のキーワード重要度を変換した上記統制語のキ
ーワード重要度とする統制語生成手段,上記統制語生成
手段により生成された上記統制語を検索キーワードと
し,上記キーワード重要度を重視度としてデータ・ベー
ス検索条件を作成して,上記データ・ベース管理手段に
与え,上記作成されたデータ・ベース検索条件にしたが
って少くとも上記検索用データを検索させるデータ・ベ
ース検索条件作成手段,ならびに検索された上記検索用
データと上記データ・ベース検索条件との合致度を,上
記キーワード重要度に基づいて算出する合致度演算手段
を備えている。
According to a second aspect of the present invention, there is provided a data base search device which has a data base having search data including controlled word keywords relating to a plurality of document information, and the data base based on a given data base search condition. In the apparatus for searching the above-mentioned data base by using the data base system provided with the data base management means for searching, the document input means for inputting the document information as the search condition, and the document input means Keyword extracting means for extracting keyword candidates from the input document information, keyword statistical information creating means for creating keyword statistical information on the keyword candidates extracted by the keyword extracting means, importance evaluation rules and membership functions are classified. Pre-registered importance classification classification classification Rule dictionary, importance evaluation rule selecting means for selecting an importance evaluation rule and a membership function registered in the above-mentioned importance evaluation rule for each classification according to the classification of the input document information, the importance evaluation for each classification Extracted by the keyword extracting means based on the keyword statistical information created by the keyword statistical information creating means according to the importance evaluating rule and the membership function selected from the rule dictionary by the importance evaluating rule selecting means. A keyword importance evaluation means for calculating the keyword importance of the keyword candidate, a plurality of natural words, and a natural language / controlled word dictionary in which controlled words corresponding to the plurality of natural words are registered in advance, and the keyword extraction means Control the keyword candidates extracted by referring to the natural language / controlled word dictionary And the controlled word generated by the controlled word generating means as the keyword importance of the controlled word converted from the keyword importance of the keyword candidate calculated by the keyword importance evaluation means. Is used as a search keyword, and a data base search condition is created with the keyword importance as an importance level and given to the database management means, and at least the search data is acquired according to the created database search condition. The data base search condition creating means for searching and the matching degree calculating means for calculating the matching degree between the searched search data and the data base search condition are calculated based on the keyword importance.

【0017】第2の発明によるデータ・ベース検索方法
は,複数の文書情報に関する統制語キーワードを含む検
索用データを有するデータ・ベース,および所与のデー
タ・ベース検索条件に基づいて上記データ・ベースの検
索を行なうデータ・ベース管理手段を備えたデータ・ベ
ース・システムを利用して,上記データ・ベースを検索
するための装置において,重要度評価規則およびメンバ
ーシップ関数を分類別重要度評価規則辞書に分類毎にあ
らかじめ登録しておき,複数の自然語,および上記複数
の自然語に対応する統制語を自然語/統制語辞書にあら
かじめ登録しておき,入力される文書情報を検索条件と
して受付け,入力された上記文書情報からキーワード候
補を抽出し,抽出された上記キーワード候補に関するキ
ーワード統計情報を作成し,入力された文書情報の分類
に応じて,上記分類別重要度評価規則辞書に登録されて
いる重要度評価規則およびメンバーシップ関数を選択
し,上記分類別重要度評価規則辞書から選択された重要
度評価規則およびメンバーシップ関数にしたがって,作
成された上記キーワード統計情報に基づいて,抽出され
た上記キーワード候補のキーワード重要度を算出し,抽
出された上記キーワード候補を,上記自然語/統制語辞
書を参照して統制語に変換し,算出された上記キーワー
ド候補のキーワード重要度を変換した上記統制語のキー
ワード重要度とし,生成された上記統制語を検索キーワ
ードとし,上記キーワード重要度を重視度としてデータ
・ベース検索条件を作成して,上記データ・ベース管理
手段に与え,上記作成されたデータ・ベース検索条件に
したがって少くとも上記検索用データを検索させ,検索
された上記検索用データと上記データ・ベース検索条件
との合致度を,上記キーワード重要度に基づいて算出す
るものである。
According to a second aspect of the present invention, there is provided a data base search method, which comprises a data base having search data including controlled word keywords relating to a plurality of document information, and the data base based on a given data base search condition. In a device for searching the above-mentioned data base using a data base system having a data base management means for searching, the importance evaluation rule dictionary for each classification of importance evaluation rules and membership functions Are registered in advance for each classification, and a plurality of natural words and controlled words corresponding to the plurality of natural words are registered in the natural language / controlled word dictionary in advance, and the input document information is accepted as a search condition. , Keyword candidates are extracted from the input document information, and keyword statistical information about the extracted keyword candidates According to the classification of the created and input document information, the importance evaluation rule and the membership function registered in the classification importance evaluation rule dictionary are selected and selected from the classification importance evaluation rule dictionary. The keyword importance of the extracted keyword candidates is calculated based on the created keyword statistical information according to the importance evaluation rule and the membership function, and the extracted keyword candidates are converted into the natural language / control. The keyword importance of the above-mentioned controlled word is converted into the controlled word by referring to the word dictionary, and the calculated keyword importance of the above-mentioned keyword candidate is set as the keyword importance of the above-mentioned controlled word. A database search condition is created as the degree of importance, and given to the above database management means, At least according to over scan search conditions to search for data for the search, the matching degree between the found the search data and the data base retrieval condition, and calculates based on the keyword importance degree.

【0018】第2の発明によると,検索条件として入力
された文書情報からキーワード候補が抽出され,抽出さ
れたキーワード候補のキーワード重要度が算出される。
キーワード候補は,統制語に変換されて検索キーワード
となり,この検索キーワードを用いてデータ・ベース検
索条件が作成される。またキーワード重要度は作成され
た検索条件において検索キーワードの重視度として用い
られる。データ・ベース・システムはこのようにして作
成されたデータ・ベース検索条件にしたがって文書情報
を検索する。その検索結果について文書情報とデータ・
ベース検索条件との合致度が算出され出力される。
According to the second invention, the keyword candidates are extracted from the document information input as the search condition, and the keyword importance of the extracted keyword candidates is calculated.
The keyword candidates are converted into controlled words to become search keywords, and database search conditions are created using these search keywords. The keyword importance is used as the importance of the search keyword in the created search condition. The database system searches the document information according to the database search condition created in this way. Document information and data about the search results
The degree of matching with the base search condition is calculated and output.

【0019】したがって,利用者は文書情報を指定する
だけでデータ・ベース・システムから指定した文書情報
に使用される語句の観点から類似する文書情報を検索で
きる。また,検索された文書情報については検索条件と
の合致度が算出されるので,利用者はこの合致度に基づ
いて検索された文書情報の選択ができる。
Therefore, the user can retrieve similar document information from the viewpoint of words and phrases used for the designated document information from the data base system by simply designating the document information. In addition, since the degree of agreement with the search condition is calculated for the retrieved document information, the user can select the retrieved document information based on this degree of agreement.

【0020】第2の発明によるデータ・ベース検索装置
の好ましい実施態様においては,上記データ・ベースが
複数の文書情報に関する上記検索用データに加えて,上
記複数の文書情報を格納するものであり,上記データ・
ベース管理手段は所与のデータ・ベース検索条件に合致
する検索用データを探し出したのち,その検索用データ
に関連する文書情報を読出すものである。
In a preferred embodiment of the data base retrieval apparatus according to the second invention, the data base stores the plurality of document information in addition to the retrieval data relating to the plurality of document information, The above data
The base management means searches for search data that matches a given data base search condition, and then reads out document information related to the search data.

【0021】このようにして,利用者が指定した文書情
報に使用される用語の観点から類似すると判断される文
書情報をデータ・ベースから検索できる。
In this way, the document information that is judged to be similar in terms of terms used in the document information designated by the user can be retrieved from the database.

【0022】第2の発明によるデータ・ベース検索装置
の好ましい実施態様においては,合致度演算手段は,合
致度が所定値以上の検索用データに関する文書情報を読
出すものである。
In a preferred embodiment of the data base retrieval apparatus according to the second aspect of the present invention, the matching degree calculating means reads the document information relating to the search data having the matching degree of a predetermined value or more.

【0023】したがって,利用者は,指定した文書情報
に使用される用語の観点から類似すると判断される文書
情報の中で重要な文書情報を得ることができる。
Therefore, the user can obtain the important document information among the document information judged to be similar from the viewpoint of the term used for the designated document information.

【0024】第2の発明によるデータ・ベース検索装置
の好ましい実施態様においては,複数の第1の見出し
語,上記第1の各見出し語に関連する関連語,および第
1の見出し語と上記関連語との関連の度合いを表わす関
連度があらかじめ登録されている関連語辞書をさらに備
え,上記キーワード統計情報作成手段は,上記キーワー
ド抽出手段により抽出された上記キーワード候補のそれ
ぞれについて,上記関連語辞書から関連語および関連度
を読出し,一のキーワード候補について読出した関連語
と同じ語が他のキーワード候補にあれば,該他のキーワ
ード候補のキーワード統計情報と読出した上記関連度と
に基づいて,上記一のキーワード候補のキーワード統計
情報の少なくとも一部を共有化的修正を行なうものであ
る。
In a preferred embodiment of the data base retrieval apparatus according to the second aspect of the present invention, a plurality of first headwords, related words related to each of the first headwords, and first related words and the above-mentioned relations. The keyword statistical information creating means further includes a related word dictionary in which a degree of relevance indicating a degree of relationship with a word is registered in advance, and the keyword statistical information creating means includes the related word dictionary for each of the keyword candidates extracted by the keyword extracting means. If the related word and the degree of relevance are read from, and the same word as the related word read for one keyword candidate is present in another keyword candidate, based on the keyword statistical information of the other keyword candidate and the read degree of relevance, At least a part of the keyword statistical information of the one keyword candidate is shared and corrected.

【0025】したがって,抽出したキーワード候補のキ
ーワード統計情報が抽出したキーワード候補の関連語も
考慮して作成される。
Therefore, the keyword statistical information of the extracted keyword candidates is created in consideration of the related words of the extracted keyword candidates.

【0026】第2の発明によるデータ・ベース検索装置
の好ましい実施態様においては,複数の第2の見出し
語,および上記第2の各見出し語についてそれが属する
分類毎に分類別重要度があらかじめ登録されている分類
別重要度辞書,および上記キーワード抽出手段により抽
出されたキーワード候補の分類別重要度を上記分類別重
要度辞書から読出し,上記キーワード候補の上記分類別
重要度と上記キーワード候補のキーワード統計情報に含
まれる情報とに基づいて,入力された文書情報の属する
分類を決定する分類決定手段をさらに備えている。
In a preferred embodiment of the data base retrieval apparatus according to the second aspect of the present invention, a plurality of second headwords and the classification importance of each of the second headwords are registered in advance for each classification to which it belongs. The classified importance dictionary and the classified importance of the keyword candidates extracted by the keyword extraction means are read from the classified importance dictionary, and the classified importance of the keyword candidate and the keyword of the keyword candidate are read. The apparatus further includes a classification determining unit that determines a classification to which the input document information belongs, based on the information included in the statistical information.

【0027】したがって,入力された文書情報に分類が
付加されていない場合にも,その文書情報が属する分類
を求めることができる。
Therefore, even if no classification is added to the input document information, the classification to which the document information belongs can be obtained.

【0028】この発明は,入力された文書情報から統制
語を作成する装置および方法を提供している。
The present invention provides an apparatus and method for creating a controlled word from input document information.

【0029】この発明による入力された文書情報から統
制語を作成する装置は,文書情報を入力する文書入力手
段,文書入力手段により入力された上記文書情報からキ
ーワード候補を抽出するキーワード抽出手段,上記キー
ワード抽出手段により抽出された上記キーワード候補に
関するキーワード統計情報を作成するキーワード統計情
報作成手段,重要度評価規則およびメンバーシップ関数
が分類毎にあらかじめ登録されている分類別重要度評価
規則辞書,入力された文書情報の分類に応じて,上記分
類別重要度評価規則辞書に登録されている重要度評価規
則およびメンバーシップ関数を選択する重要度評価規則
選択手段,上記分類別重要度評価規則辞書から上記重要
度評価規則選択手段により選択された重要度評価規則お
よびメンバーシップ関数にしたがって,上記キーワード
統計情報作成手段により作成された上記キーワード統計
情報に基づいて,上記キーワード抽出手段により抽出さ
れた上記キーワード候補のキーワード重要度を算出する
キーワード重要度評価手段,複数の自然語,および上記
複数の自然語に対応する統制語があらかじめ登録されて
いる自然語/統制語辞書,ならびに上記キーワード抽出
手段により抽出された上記キーワード候補を,上記自然
語/統制語辞書を参照して統制語に変換し,上記キーワ
ード重要度評価手段により算出された上記キーワード候
補のキーワード重要度を変換した上記統制語のキーワー
ド重要度とする統制語生成手段を備えている。
An apparatus for creating controlled words from input document information according to the present invention is a document input means for inputting document information, a keyword extracting means for extracting keyword candidates from the document information input by the document input means, A keyword statistical information creating means for creating keyword statistical information about the keyword candidates extracted by the keyword extracting means, an importance evaluation rule and a membership importance evaluation rule-based dictionary in which membership functions are registered in advance for each classification are input. The importance evaluation rule selecting means for selecting the importance evaluation rule and the membership function registered in the classification importance evaluation rule dictionary according to the classification of the document information, The importance evaluation rule and membership selected by the importance evaluation rule selection means. A keyword importance evaluation means for calculating the keyword importance of the keyword candidate extracted by the keyword extraction means based on the keyword statistical information created by the keyword statistical information creation means according to a function, and a plurality of natural words , And the natural language / controlled word dictionary in which controlled words corresponding to the plurality of natural languages are registered in advance, and the keyword candidates extracted by the keyword extracting means are referred to the natural language / controlled word dictionary. The control word generating means is provided for converting the control word into a control word and converting the keyword importance of the keyword candidate calculated by the keyword importance evaluation means into the keyword importance of the control word.

【0030】この発明による入力された文書情報から統
制語を作成する方法は,重要度評価規則およびメンバー
シップ関数を分類別重要度評価規則辞書に分類毎にあら
かじめ登録しておき,複数の自然語,および上記複数の
自然語に対応する統制語を自然語/統制語辞書にあらか
じめ登録しておき,入力される文書情報を受付け,入力
された上記文書情報からキーワード候補を抽出し,抽出
された上記キーワード候補に関するキーワード統計情報
を作成し,入力された文書情報の分類に応じて,上記分
類別重要度評価規則辞書に登録されている重要度評価規
則およびメンバーシップ関数を選択し,上記分類別重要
度評価規則辞書から選択された重要度評価規則およびメ
ンバーシップ関数にしたがって,上記キーワード統計情
報に基づいて,抽出された上記キーワード候補のキーワ
ード重要度を算出し,抽出された上記キーワード候補
を,上記自然語/統制語辞書を参照して統制語に変換
し,算出された上記キーワード候補のキーワード重要度
を変換した上記統制語のキーワード重要度とするもので
ある。
In the method of creating controlled words from the input document information according to the present invention, the importance evaluation rules and membership functions are registered in advance in the classification-specific importance evaluation rule dictionary for each classification, and a plurality of natural words are registered. , And the controlled words corresponding to the plurality of natural languages are registered in advance in the natural language / controlled word dictionary, the input document information is accepted, and the keyword candidates are extracted from the input document information and extracted. Create keyword statistical information about the keyword candidates, select the importance evaluation rules and membership functions registered in the classification importance evaluation rule dictionary according to the classification of the input document information, and select the above classification According to the importance evaluation rule and membership function selected from the importance evaluation rule dictionary, based on the above keyword statistical information, the extraction is performed. The keyword importance of the extracted keyword candidates is calculated, the extracted keyword candidates are converted into controlled words by referring to the natural language / controlled word dictionary, and the calculated keyword importance of the calculated keyword candidates is converted. The keyword importance of the controlled word is used.

【0031】この発明によると,入力された文書情報か
ら抽出されたキーワード候補毎にキーワード統計情報が
作成され,これに基づいてキーワード候補のキーワード
重要度が算出される。抽出されたキーワード候補は,自
然語/統制語辞書を用いて統制語に変換される。
According to the present invention, the keyword statistical information is created for each keyword candidate extracted from the input document information, and the keyword importance of the keyword candidate is calculated based on this. The extracted keyword candidates are converted into controlled words using a natural language / controlled word dictionary.

【0032】このようにして,入力された文書情報から
統制語を作成することができる。
In this way, controlled words can be created from the input document information.

【0033】この発明による入力された文書情報から統
制語を作成する装置の好ましい実施態様においては,複
数の第1の見出し語,上記第1の各見出し語に関連する
関連語,および第1の見出し語と上記関連語との関連の
度合いを表わす関連度があらかじめ登録されている関連
語辞書をさらに備え,上記キーワード統計情報作成手段
は,上記キーワード抽出手段により抽出された上記キー
ワード候補のそれぞれについて,上記関連語辞書から関
連語および関連度を読出し,一のキーワード候補につい
て読出した関連語と同じ語が他のキーワード候補にあれ
ば,該他のキーワード候補のキーワード統計情報と読出
した上記関連度とに基づいて,上記一のキーワード候補
のキーワード統計情報の少なくとも一部を共有化的修正
を行なうものである。
In a preferred embodiment of the apparatus for creating controlled words from input document information according to the present invention, a plurality of first headwords, related words related to the first headwords, and first headwords are provided. The keyword statistical information creating means further includes a related word dictionary in which a degree of association indicating a degree of association between the headword and the related word is registered in advance, and the keyword statistical information creating means is provided for each of the keyword candidates extracted by the keyword extracting means. If the same word as the related word read for one keyword candidate is present in another keyword candidate, the related word and the related degree are read from the related word dictionary, and the keyword statistical information of the other keyword candidate and the read related degree Based on the above, at least a part of the keyword statistical information of the above-mentioned keyword candidate is corrected in a shared manner. .

【0034】したがって,抽出したキーワード候補のキ
ーワード統計情報が抽出したキーワード候補の関連語も
考慮して作成される。
Therefore, the keyword statistical information of the extracted keyword candidates is created in consideration of the related words of the extracted keyword candidates.

【0035】この発明による入力された文書情報から統
制語を作成する装置の好ましい実施態様においては,複
数の第2の見出し語,および上記第2の各見出し語につ
いてそれが属する分類毎に分類別重要度があらかじめ登
録されている分類別重要度辞書,および上記キーワード
抽出手段により抽出されたキーワード候補の分類別重要
度を上記分類別重要度辞書から読出し,上記キーワード
候補の上記分類別重要度と上記キーワード候補のキーワ
ード統計情報に含まれる情報とに基づいて,入力された
文書情報の属する分類を決定する分類決定手段をさらに
備えている。
In a preferred embodiment of the apparatus for creating controlled words from the input document information according to the present invention, a plurality of second headwords and the respective second headwords are classified according to the classification to which they belong. The category-specific importance dictionary in which the degree of importance is registered in advance, and the category-specific importance of the keyword candidates extracted by the keyword extracting means are read from the category-specific importance dictionary, and the keyword candidates are classified into the category-specific importance. It further comprises a classification determining means for determining the classification to which the input document information belongs based on the information contained in the keyword statistical information of the keyword candidates.

【0036】したがって,入力された文書情報に分類が
付加されていない場合にも,その文書情報が属する分類
を求めることができる。
Therefore, even when no classification is added to the input document information, the classification to which the document information belongs can be obtained.

【0037】この発明による入力された文書情報から統
制語を作成する装置の好ましい実施態様においては,上
記統制語生成手段は,生成された上記統制語の中で,所
定閾値以上のキーワード重要度をもつ統制語を入力され
た文書情報のキーワードとして選択するものである。
In a preferred embodiment of the apparatus for creating a controlled word from the input document information according to the present invention, the controlled word generation means has a keyword importance of a predetermined threshold value or more in the generated controlled words. The controlled word is selected as a keyword of the input document information.

【0038】したがって,入力された文書情報に関して
有益性のある統制語を作成することができる。
Therefore, a useful controlled word can be created for the input document information.

【0039】この発明は,入力された文書情報を分類す
る装置および方法を提供している。
The present invention provides an apparatus and method for classifying input document information.

【0040】この発明による入力された文書情報を分類
する装置は,文書情報を入力する文書入力手段,文書入
力手段により入力された上記文書情報からキーワード候
補を抽出するキーワード抽出手段,上記キーワード抽出
手段により抽出された上記キーワード候補に関するキー
ワード統計情報を作成するキーワード統計情報作成手
段,複数の第1の見出し語,および上記第1の各見出し
語についてそれが属する分類毎に分類別重要度があらか
じめ登録されている分類別重要度辞書,および上記キー
ワード抽出手段により抽出されたキーワード候補の分類
別重要度を上記分類別重要度辞書から読出し,上記キー
ワード候補の上記分類別重要度と上記キーワード候補の
キーワード統計情報に含まれる情報とに基づいて,入力
された文書情報の属する分類を決定する分類決定手段を
備えている。
An apparatus for classifying input document information according to the present invention is a document input means for inputting document information, a keyword extracting means for extracting keyword candidates from the document information input by the document input means, and the keyword extracting means. The keyword statistical information creating means for creating the keyword statistical information about the keyword candidates extracted by the above, a plurality of first headwords, and the classification importance for each category to which each of the first headwords belongs belongs in advance. The classified importance dictionary and the classified importance of the keyword candidates extracted by the keyword extraction means are read from the classified importance dictionary, and the classified importance of the keyword candidate and the keyword of the keyword candidate are read. Based on the information included in the statistical information, the attribute of the entered document information And a classification determining means for determining a classification that.

【0041】この発明による入力された文書情報を分類
する方法は,複数の第1の見出し語,および上記第1の
各見出し語についてそれが属する分類毎に分類別重要度
を分類別重要度辞書にあらかじめ登録しておき,入力さ
れる文書情報を受付け,入力された上記文書情報からキ
ーワード候補を抽出し,抽出された上記キーワード候補
に関するキーワード統計情報を作成し,抽出されたキー
ワード候補の分類別重要度を上記分類別重要度辞書から
読出し,上記キーワード候補の上記分類別重要度と上記
キーワード候補のキーワード統計情報に含まれる情報と
に基づいて,入力された文書情報の属する分類を決定す
るものである。
According to the method of classifying the input document information according to the present invention, a plurality of first headwords and the classification importance for each category to which the first headword belongs belong to the classification importance dictionary. Registered in advance, accepts the input document information, extracts keyword candidates from the input document information, creates keyword statistical information on the extracted keyword candidates, and classifies the extracted keyword candidates A method of reading the importance level from the classification importance dictionary and determining the classification to which the input document information belongs based on the classification importance of the keyword candidate and the information included in the keyword statistical information of the keyword candidate. Is.

【0042】このようにして,入力された文書情報を,
分類別重要度辞書を用いて分類することができる。
In this way, the input document information is
Classification can be performed using a classification-based importance dictionary.

【0043】この発明による入力された文書情報を分類
する装置の好ましい実施態様においては,複数の第1の
見出し語,上記第1の各見出し語に関連する関連語,お
よび第1の見出し語と上記関連語との関連の度合いを表
わす関連度があらかじめ登録されている関連語辞書をさ
らに備え,上記キーワード統計情報作成手段は,上記キ
ーワード抽出手段により抽出された上記キーワード候補
のそれぞれについて,上記関連語辞書から関連語および
関連度を読出し,一のキーワード候補について読出した
関連語と同じ語が他のキーワード候補にあれば,該他の
キーワード候補のキーワード統計情報と読出した上記関
連度とに基づいて,上記一のキーワード候補のキーワー
ド統計情報の少なくとも一部を共有化的修正を行なうも
のである。
In a preferred embodiment of the apparatus for classifying input document information according to the present invention, a plurality of first headwords, related words related to each of the first headwords, and first headwords The keyword statistical information creating means may further include a related word dictionary in which a degree of association indicating a degree of association with the related word is registered in advance, and the keyword statistical information creating means may provide the above-mentioned association for each of the keyword candidates extracted by the keyword extracting means. If the related word and the degree of association are read from the word dictionary and the same word as the related word read out for one keyword candidate is present in another keyword candidate, based on the keyword statistical information of the other keyword candidate and the above-mentioned degree of association read out. Then, at least a part of the keyword statistical information of the one keyword candidate is corrected in a shared manner.

【0044】したがって,抽出したキーワード候補のキ
ーワード統計情報が抽出したキーワード候補の関連語も
考慮して作成される。
Therefore, the keyword statistical information of the extracted keyword candidates is created in consideration of the related words of the extracted keyword candidates.

【0045】[0045]

【実施例の説明】[Explanation of Examples]

第1実施例 図1は第1実施例における文書処理装置の全体的構成を
示すブロック図である。この実施例は特許文書から自然
語キーワードを抽出し,抽出した自然語キーワードのう
ち重要と判定されたものを,あらかじめ定められた特許
文書検索用統制語キーワードに変換し,これらの統制語
キーワードを文書とともにデータ・ベースに格納するも
のである。
First Embodiment FIG. 1 is a block diagram showing the overall configuration of a document processing apparatus according to the first embodiment. In this embodiment, natural language keywords are extracted from a patent document, and the extracted natural language keywords that are determined to be important are converted into pre-determined controlled word keywords for patent document retrieval. It is stored in the database together with the document.

【0046】この文書処理装置はそのすべてをハードウ
ェア・アーキテクチャにより実現することもできるし,
プログラムされたコンピュータ・システムにより実現す
ることもできる。また文書処理装置の一部をハードウェ
アにより,他の部分をソフトウェアにより実現すること
もできる。
This document processing device can be realized entirely by a hardware architecture,
It can also be realized by a programmed computer system. Further, a part of the document processing device can be realized by hardware and the other part can be realized by software.

【0047】文書入力装置11は特許文書情報(文書デー
タ)を入力するものであり,キーボード,イメージ・リ
ーダとそれによって読込まれたイメージ情報を文字コー
ドに変換する文字認識装置とからなるもの,電子化され
たファイルを入力するための読取装置等により実現され
る。
The document input device 11 is for inputting patent document information (document data), and is composed of a keyboard, an image reader, and a character recognition device for converting the image information read by the keyboard into a character code. It is realized by a reading device or the like for inputting the converted file.

【0048】図2に文書入力装置11から入力される特許
文書情報の一例が示されている。
FIG. 2 shows an example of patent document information input from the document input device 11.

【0049】特許文書情報の一例として特許公開公報が
図示されている。特許文書情報には,特許公開公報番
号,国際特許分類,発明の名称,発明者名,出願人名等
の特許出願に関する方式データ,および発明の技術内容
を記載した明細書等が含まれる。明細書には「発明の名
称」,「特許請求の範囲」,「発明の詳細な説明」等の
項目が付加されている。
A patent publication is shown as an example of patent document information. The patent document information includes patent publication number, international patent classification, invention name, inventor name, applicant name and other method data relating to the patent application, and a description describing the technical content of the invention. Items such as “title of invention”, “claims”, and “detailed description of invention” are added to the description.

【0050】文書入力装置11から入力された文書情報は
キーワード抽出装置12およびデータ・ベース管理システ
ム22に与えられる。
The document information input from the document input device 11 is given to the keyword extracting device 12 and the database management system 22.

【0051】キーワード抽出装置12は,文書入力装置11
から与えられた特許文書情報からキーワードの候補とな
るキーワード候補を抽出するものである。
The keyword extracting device 12 includes the document input device 11
The keyword candidates that are the keyword candidates are extracted from the patent document information given by the above.

【0052】キーワード候補の抽出には最長一致法,構
文解析等が用いられる。例えば,キーワード候補の抽出
処理は次のようにして行なわれる。
The longest match method, syntactic analysis and the like are used to extract the keyword candidates. For example, the keyword candidate extraction process is performed as follows.

【0053】まず,入力された特許文書情報によって表
わされる文書の中から『が,は,に,を,の,な,な
ど,などの』等の助詞を持つ文節(「単語+助詞」)ま
たは体言止めで終る名詞が探し出される。ま
た『。,,,・,{},「」,〔〕,(),[]』等の
記号を持つ文節(「単語+記号」)が探し出される。探
し出された文節は文章中から取り出される。取り出され
た文節から助詞または記号が削除され,単語すなわちキ
ーワード候補が抽出される。
First, from the document represented by the input patent document information, a phrase having a particle such as "ga, ha, ni, o, na, na, etc."("word + particle") or A noun that ends with blatant words is searched for. Also". ,,,,, {}, “”, [], (), [] ”and other clauses (“ word + symbol ”) are searched for. The found clause is taken out from the sentence. Particles or symbols are deleted from the extracted clauses, and words, that is, keyword candidates are extracted.

【0054】上述のようにして,図2に示される特許文
書情報から抽出されたキーワード候補が図3に示されて
いる。
FIG. 3 shows keyword candidates extracted from the patent document information shown in FIG. 2 as described above.

【0055】抽出されたキーワード候補は,キーワード
抽出装置12からキーワード統計情報作成装置13に与えら
れる。
The extracted keyword candidates are given from the keyword extracting device 12 to the keyword statistical information creating device 13.

【0056】キーワード統計情報作成装置13は,キーワ
ード抽出装置12から与えられたキーワード候補について
キーワード候補毎にキーワード統計情報を作成し,関連
語辞書14を参照して一のキーワード候補の関連語を見つ
け出し,見付け出した関連語が他のキーワード候補と同
じ単語であったならば,当該一のキーワード候補のキー
ワード統計情報に含まれる出現回数,強調表現回数およ
び文法情報を,見付け出された関連語のキーワード統計
情報を用いて共有化的修正を行うものである。この共有
化的修正はすべてのキーワード候補毎に行なわれる。
The keyword statistical information creation device 13 creates keyword statistical information for each keyword candidate given from the keyword extraction device 12 and refers to the related word dictionary 14 to find a related word of one keyword candidate. , If the related word found is the same word as other keyword candidates, the number of appearances, the number of emphasized expressions and the grammatical information included in the keyword statistical information of the one keyword candidate are set to the value of the found related word. This is a shared correction using keyword statistical information. This sharing modification is performed for every keyword candidate.

【0057】関連語辞書14の一例が図5に示されてい
る。関連語辞書14はハード・ディスク,ROM等のメモ
リにより実現される。関連語辞書14には見出し語毎に,
この見出し語に関連のある関連語および見出し語と関連
語との関連の度合いを表わす関連度があらかじめ登録さ
れている。
An example of the related word dictionary 14 is shown in FIG. The related word dictionary 14 is realized by a memory such as a hard disk or a ROM. In the related word dictionary 14, for each headword,
The related word related to the headword and the degree of association indicating the degree of association between the headword and the related word are registered in advance.

【0058】キーワード抽出装置12から与えられたキー
ワード候補のそれぞれについてのキーワード統計情報の
作成は次のように行なわれる。
The creation of the keyword statistical information for each of the keyword candidates given from the keyword extracting device 12 is performed as follows.

【0059】キーワード統計情報の種類には文字数,文
字種類,単語種類,出現回数,出現位置,強調表現回
数,文法情報等が含まれる。
The types of keyword statistical information include the number of characters, the type of characters, the type of words, the number of appearances, the position of appearance, the number of emphasized expressions, grammatical information, and the like.

【0060】文字数はキーワード候補を構成する文字列
に含まれる文字数を表わす。たとえば,キーワード候補
「エラー検知」の文字数は「5」である。
The number of characters represents the number of characters included in the character string forming the keyword candidate. For example, the number of characters of the keyword candidate “error detection” is “5”.

【0061】文字種類はキーワード候補を構成する文字
列に含まれる文字の種類を表わす。文字の種類として
は,漢字,ひらがな,カタカナ,アルファベット,数字
等がある。たとえば,キーワード候補「エラー検知」の
文字種類は「カタカナ,漢字混じり」となる。
The character type represents the type of character included in the character string forming the keyword candidate. The types of characters include kanji, hiragana, katakana, alphabets and numbers. For example, the character type of the keyword candidate “error detection” is “mixed katakana and kanji”.

【0062】単語種類はキーワード候補である単語の種
類(文法上の品詞またはこれに類するもの)を表わす。
単語の種類としては,一般名詞,企業名,人名などがあ
る。たとえば,キーワード候補「エラー検知」の単語種
類は「一般名詞」である。
The word type represents the type of word that is a keyword candidate (grammatical part of speech or something similar thereto).
The types of words include general nouns, company names, and personal names. For example, the word type of the keyword candidate “error detection” is “general noun”.

【0063】出現回数は入力された一つの文書情報の中
で同一のキーワード候補が現われた回数を表わす。たと
えば,キーワード候補「エラー検知」の出現回数は
「2」である。
The number of appearances represents the number of times the same keyword candidate appears in one input document information. For example, the number of appearances of the keyword candidate “error detection” is “2”.

【0064】出現位置は入力された文字情報の中でキー
ワード候補がどのような位置に出現したかを表わす。出
現位置は上述した,発明の名称,特許請求の範囲,発明
の詳細な説明等の項目によって表現される。たとえば,
キーワード候補「エラー検知」は「特許請求の範囲,発
明の詳細な説明」に出現している。
The appearance position represents in what position the keyword candidate appears in the input character information. The appearance position is represented by the items such as the title of the invention, the claims, and the detailed description of the invention described above. For example,
The keyword candidate “error detection” appears in “Claims, Detailed Description of the Invention”.

【0065】強調表現回数は,キーワード候補に強調表
現(たとえば,『「」,[],“”』等)が付加されて
いる回数を表わす。たとえば,キーワード候補「エラー
検知」には強調表現がないので,強調表現回数は「0」
である。
The number of emphasized expressions represents the number of times the emphasized expressions (eg, "", [], """, etc.) are added to the keyword candidates. For example, since the keyword candidate “error detection” has no emphasized expression, the number of emphasized expressions is “0”.
Is.

【0066】文法情報はキーワード候補の直後に『が,
は,に,を』等の助詞が付く回数を表わす。たとえば,
キーワード候補「エラー検知」の直後には助詞「を」が
2回付いている。
The grammatical information is "
Represents the number of times a particle such as ”is attached. For example,
Immediately after the keyword candidate “error detection”, the particle “o” is attached twice.

【0067】図3に示すキーワード候補のいくつかにつ
いてのキーワード統計情報の一例が図4に示されてい
る。
FIG. 4 shows an example of the keyword statistical information about some of the keyword candidates shown in FIG.

【0068】各キーワード候補について作成されたキー
ワード統計情報の共有化的修正処理は,次のようにして
行なわれる。
The shared correction processing of the keyword statistical information created for each keyword candidate is performed as follows.

【0069】キーワード統計情報作成装置13は,与えら
れたキーワード候補のそれぞれについて,関連語辞書14
を検索して,キーワード候補の関連語とその関連度を読
出す。与えられたキーワード候補の中から読出した関連
語を探し出す。与えられたキーワード候補の中に関連語
が存在すると,その関連語のキーワード統計情報と関連
度とに基づいて,その関連語が関連するキーワード候補
のキーワード統計情報の一部が共有化的修正が行なわれ
る。キーワード統計情報中の文字数,出現回数,強調表
現回数および文法情報の各項目について,次のような演
算が行なわれる。
The keyword statistical information creating device 13 is related word dictionary 14 for each of the given keyword candidates.
Is read and the related word of the keyword candidate and its related degree are read out. The related word read out is searched for from the given keyword candidates. If a related word is present in a given keyword candidate, a part of the keyword statistical information of the keyword candidate to which the related word is related may be modified by sharing based on the keyword statistical information and the degree of association of the related word. Done. The following calculation is performed for each item of the number of characters, the number of appearances, the number of emphasized expressions, and the grammatical information in the keyword statistical information.

【0070】 文字数 :MAX[文字数,(関連語の文字数)×(関連度)] …(1) 出現回数 :出現回数 +Σ[(関連語の出現回数)×(関連度)] …(2) 強調表現回数:強調表現回数 +Σ[(関連語の強調表現回数)×(関連度)] …(3) 文法情報 :「が」の回数 +Σ[(関連語の「が」の回数)×(関連度)] …(4) :「は」の回数 +Σ[(関連語の「は」の回数)×(関連度)] …(5) :「に」の回数 +Σ[(関連語の「に」の回数)×(関連度)] …(6) :「を」の回数 +Σ[(関連語の「を」の回数)×(関連度)] …(7) Number of Characters: MAX [Number of Characters, (Number of Characters of Related Words) × (Relevance)] (1) Number of Occurrences: Number of Occurrences + Σ [(Number of Occurrences of Related Words) × (Relevance)] (2) Emphasis Number of expressions: number of emphasized expressions + Σ [(number of emphasized expressions of related words) × (relevance)] (3) Grammar information: number of “ga” + Σ [(number of related words “ga”) × (relevance )] (4): Number of "ha" + Σ [(number of "ha" of related words) x (relevance)] ... (5): Number of "ni" + Σ [(of related words "ni" (Number of times) × (degree of relevance)] (6): Number of "wa" + Σ [(number of times of "wa" of related words) x (degree of relevance)] (7)

【0071】式(1) 〜(7) により各項目について演算が
行なわれると,キーワード候補の文字数,出現回数,強
調表現回数および文法情報の各キーワード統計情報が,
式(1) 〜(7) により算出された対応するキーワード統計
情報に置き換えられる。
When the calculation is performed for each item by the expressions (1) to (7), the keyword statistical information such as the number of characters of the keyword candidate, the number of appearances, the number of emphasized expressions and the grammatical information is
It is replaced with the corresponding keyword statistical information calculated by equations (1) to (7).

【0072】たとえば,図5に示す関連語辞書14を参照
すると,キーワード候補「エラー検知」には,関連語
「エラー認識」がある。与えられたキーワード候補の中
に「エラー認識」が存在するので,この関連語「エラー
検知」のキーワード統計情報および関連度「1.0 」を用
いてキーワード候補「エラー検知」について共有化的修
正が行なわれる。したがって,式(1) 〜(7) を用いて共
有化を行なうと,文字数はMAX[5,5×1.0 ]=
5,出現回数は2+1×1.0 =3,強調表現回数は0+
0×1.0 =0,文法情報は,「を」:2+0×1.0 =
2,「が」:0+1×1.0 =1となる。キーワード候補
「エラー検知」のキーワード統計情報がこのようにして
算出されたものに置き換えられる。
For example, referring to the related word dictionary 14 shown in FIG. 5, the keyword candidate “error detection” includes the related word “error recognition”. Since "error recognition" exists in the given keyword candidates, the keyword statistical information of this related word "error detection" and the degree of association "1.0" are used to make a shared correction of the keyword candidates "error detection". Be done. Therefore, if sharing is performed using equations (1) to (7), the number of characters is MAX [5,5 × 1.0] =
5, the number of appearances is 2 + 1 × 1.0 = 3, the number of emphasized expressions is 0+
0x1.0 = 0, grammar information is "wa": 2 + 0x1.0 =
2, “ga”: 0 + 1 × 1.0 = 1. The keyword statistical information of the keyword candidate “error detection” is replaced with the one calculated in this way.

【0073】以上がキーワード統計情報の共有化的修正
処理である。
The above is the shared correction processing of the keyword statistical information.

【0074】関連語辞書14に関連語が登録されていない
キーワード候補については,この共有化的修正処理は行
なわれない。
This shared correction processing is not performed on keyword candidates for which related words are not registered in the related word dictionary 14.

【0075】このようにして図4に示すキーワード候補
について共有化されたキーワード統計情報が図6に示さ
れている。図6においてはキーワード候補「エラー検
知」についてのみ共有化的修正が行なわれている。
FIG. 6 shows the keyword statistical information shared for the keyword candidates shown in FIG. 4 in this way. In FIG. 6, sharing correction is performed only for the keyword candidate “error detection”.

【0076】共有化されたキーワード統計情報は分類決
定装置15およびキーワード重要度評価装置19に与えられ
る。
The shared keyword statistical information is given to the classification determination device 15 and the keyword importance evaluation device 19.

【0077】分類決定装置15は,入力された特許文書情
報についてキーワード統計情報作成装置13から与えられ
るキーワード統計情報を用い,分類別重要度辞書16を参
照して国際特許分類を新たに決定するものである。
The classification determining device 15 uses the keyword statistical information provided from the keyword statistical information creating device 13 for the input patent document information, and refers to the classification importance dictionary 16 to newly determine the international patent classification. Is.

【0078】分類別重要度辞書16の一例が図7に示され
ている。分類別重要度辞書16はハード・ディスク,RO
M等のメモリにより実現される。分類別重要度辞書16に
は,各見出し語について各分類における分類別重要度が
あらかじめ登録されている。
An example of the classification importance dictionary 16 is shown in FIG. The classification importance dictionary 16 is a hard disk, RO
It is realized by a memory such as M. In the classification importance dictionary 16, the classification importance of each category for each headword is registered in advance.

【0079】分類決定装置15はキーワード統計情報作成
装置13から与えられる各キーワード候補についての各分
類における分類別重要度を,分類別重要度辞書16から得
る。また各キーワード候補のキーワード統計情報に含ま
れている出現回数を得る。得られた各キーワード候補の
分類別重要度および出現回数を用いて,次式により分類
別重要度の総和を分類ごとに(B62D,C01,G0
6F,H01G等の分類ごとに)算出する。
The classification determining device 15 obtains the classification importance in each classification for each keyword candidate given from the keyword statistical information creating device 13 from the classification importance dictionary 16. Also, the number of appearances included in the keyword statistical information of each keyword candidate is obtained. Using the obtained classification-specific importance and the number of appearances of each keyword candidate, the sum of classification-specific importance is calculated for each classification by the following formula (B62D, C01, G0).
6F, H01G, etc.).

【0080】 分類別重要度の総和 =Σ(キーワード候補の分類別重要度)×(キーワード候補の出現回数) …(8) Sum of importance by classification = Σ (importance by keyword of keyword candidate) × (number of appearances of keyword candidate) (8)

【0081】したがって,図2に示される特許文書情報
の各分類における分類別重要度の総和は式(8) を用いる
と次のようになる。
Therefore, the sum of the classification importances in each classification of the patent document information shown in FIG. 2 is as follows using the equation (8).

【0082】 分類別重要度の総和(分類「B62D」) =(0.50/エラー検知)×3 +(0.45/条件分岐)×1 +(0.50/短時間)×1 +… =1.50+0.45+0.50+… 分類別重要度の総和(分類「C01」) =(0.50/エラー検知)×3 +(0.30/条件分岐)×1 +(0.10/短時間)×1 +… =1.50+0.30+0.10+… 分類別重要度の総和(分類「G06F」) =(0.85/エラー検知)×3 +(0.75/条件分岐)×1 +(0.60/短時間)×1 +… =2.55+0.75+0.60+… 分類別重要度の総和(分類「H01G」) =(0.65/エラー検知)×3 +(0.60/条件分岐)×1 +(0.55/短時間)×1 +… =1.95+0.60+0.65+…Sum of importance by classification (classification “B62D”) = (0.50 / error detection) × 3 + (0.45 / conditional branch) × 1 + (0.50 / short time) × 1 + ... = 1.50 + 0.45 + 0. 50 +… Sum of importance by classification (classification “C01”) = (0.50 / error detection) x 3 + (0.30 / conditional branch) x 1 + (0.10 / short time) x 1 + ... = 1.50 + 0.30 + 0.10 + … Sum of importance by classification (classification “G06F”) = (0.85 / error detection) x 3 + (0.75 / conditional branch) x 1 + (0.60 / short time) x 1 + ... = 2.55 + 0.75 + 0.60 + ... Sum of importance by classification (classification "H01G") = (0.65 / error detection) x 3 + (0.60 / conditional branch) x 1 + (0.55 / short time) x 1 + ... = 1.95 + 0.60 + 0.65 + ...

【0083】得られた各分類における分類別重要度の総
和に基づいてヒストグラムを作成する。作成されたヒス
トグラムの一例が図8に示されている。
A histogram is created on the basis of the obtained sum of classification-based importance in each classification. An example of the created histogram is shown in FIG.

【0084】このヒストグラムの最大のものすなわち,
分類「G06F」が選択され,入力された特許文書情報
の属する分類がG06F「計算の少なくとも一部は電気
的に行なわれるデジタル計算機;計算機デジタルを取り
扱う装置」に決定される。
The maximum of this histogram, ie,
The classification “G06F” is selected, and the classification to which the input patent document information belongs is determined to be G06F “digital computer in which at least a part of calculation is electrically performed; computer digital handling device”.

【0085】決定された分類は,入力された特許文書情
報にその国際特許分類として付加される。特許公開公報
(図2)に既に付与されている国際特許分類はそのまま
保存される。この分類決定装置15で決定された国際特許
分類は,重要度評価規則選択装置17において後述するよ
うに利用される他に,既に付与されている国際特許分類
のチェック,多分野にわたって分類されている可能性は
ないのかのチェック等にも用いられる。
The determined classification is added to the input patent document information as the international patent classification. The international patent classification already assigned to the patent publication (Fig. 2) is preserved. The international patent classification determined by the classification determination device 15 is used in the importance evaluation rule selection device 17 as described later, and is also checked for the already assigned international patent classification, and is classified over multiple fields. It is also used to check if there is a possibility.

【0086】決定された分類は,分類決定装置15から重
要度評価規則選択装置17に与えられる。
The determined classification is given from the classification determining device 15 to the importance evaluation rule selecting device 17.

【0087】重要度評価規則選択装置17は,分類別重要
度評価規則辞書18に分類毎にあらかじめ登録されている
重要度評価規則を,分類決定装置15により決定された分
類に基づいて選択するものである。
The importance evaluation rule selection device 17 selects the importance evaluation rules registered in advance in the classification-based importance evaluation rule dictionary 18 for each classification based on the classification determined by the classification determination device 15. Is.

【0088】分類別重要度評価規則辞書18には,分類毎
に重要度評価規則があらかじめ格納されているととも
に,キーワード統計情報の種類,これに関連する項目等
に関するメンバーシップ関数があらかじめ登録されてい
る。分類別重要度評価規則辞書18はハード・ディスク,
ROM等のメモリにより実現される。
In the category-specific importance evaluation rule dictionary 18, importance evaluation rules are stored in advance for each classification, and membership functions related to the types of keyword statistical information and related items are registered in advance. There is. Classification importance dictionary 18 is a hard disk,
It is realized by a memory such as a ROM.

【0089】「計算の少なくとも一部は電気的に行なわ
れるデジタル計算機;計算機デジタルを取り扱う装置」
(G06F)用の一組の重要度評価規則の例を次に示
す。
"Digital computer in which at least part of calculation is performed electrically; device for handling computer digital"
An example of a set of importance rating rules for (G06F) is shown below.

【0090】 重要度評価規則1 IF 文字数 =少ない 文字種類 =* 単語種類 =一般名詞 出現回数 =少ない 出現位置 =* 強調表現回数=少ない 文法情報 (「が」の回数+「は」の回数)/(出現回数)=少ない (「に」の回数+「を」の回数)/(出現回数)=少ない THEN 重要度 =0.2 重要度評価規則2 IF 文字数 =少ない 文字種類 =漢字,ひらがな混じり 単語種類 =一般名詞 出現回数 =少ない 出現位置 =* 強調表現回数=少ない 文法情報 (「が」の回数+「は」の回数)/(出現回数)=少ない (「に」の回数+「を」の回数)/(出現回数)=普通 THEN 重要度 =0.4 重要度評価規則3 IF 文字数 =普通 文字種類 =* 単語種類 =* 出現回数 =普通 出現位置 =* 強調表現回数=普通 文法情報 (「が」の回数+「は」の回数)/(出現回数)=普通 (「に」の回数+「を」の回数)/(出現回数)=普通 THEN 重要度 =0.6 重要度評価規則4 IF 文字数 =多い 文字種類 =* 単語種類 =企業名,個人名 出現回数 =多い 出現位置 =特許請求の範囲,発明の詳細な説明 強調表現回数=多い 文法情報 (「が」の回数+「は」の回数)/(出現回数)=多い (「に」の回数+「を」の回数)/(出現回数)=普通 THEN 重要度 =0.8 重要度評価規則5 IF 文字数 =多い 文字種類 =カタカナ,漢字混じり, アルファベット,漢字混じり 単語種類 =企業名,個人名 出現回数 =多い 出現位置 =発明の名称,特許請求の範囲 強調表現回数=多い 文法情報 (「が」の回数+「は」の回数)/(出現回数)=多い (「に」の回数+「を」の回数)/(出現回数)=普通 THEN 重要度 =1.0 Importance evaluation rule 1 IF number of characters = small number of characters = * word type = general noun appearance count = small appearance position = * emphasized expression count = small grammatical information (number of "ga" + number of "ha") / (Number of occurrences) = Small (number of “ni” + number of “”) / (number of occurrences) = Some THEN importance = 0.2 Importance evaluation rule 2 IF number of characters = small character type = Kanji and Hiragana mixed word type = General nouns Number of occurrences = Low Number of occurrences = * Number of emphasized expressions = Little Grammar information (number of "ga" + number of "ha") / (number of occurrences) = Little (number of "ni" + number of "wa") / (Number of occurrences) = Normal THEN Importance = 0.4 Importance rating rule 3 Number of IF characters = Normal Character type = * Word type = * Number of occurrences = Normal Occurrence position = * Number of emphasized expressions = Normal Grammar information (of "ga" Number + number of "ha") / (number of appearances) = normal (number of "ni" + number of "wa") / (number of appearances) = normal THEN importance = 0.6 importance evaluation rule 4 IF characters = large characters Type = * Word type = Company name, personal name Number of occurrences = Many Occurrence positions = Claims, detailed explanation of invention Number of emphasized expressions = Many Grammar information (number of "ga" + number of "ha") / ( Number of occurrences = Many (number of "ni" + Number of ")" / (Number of occurrences) = Normal THEN Importance = 0.8 Importance rating rule 5 IF number of characters = Many character types = Katakana, mixed Kanji, alphabet, Kanji Mixed word type = Company name, personal name Number of occurrences = Many Occurrence position = Name of invention, scope of claims Number of emphasized expressions = Many Grammar information (number of "ga" + number of "ha") / (number of occurrences) = Many (number of "ni" + "of" Number) / (number of occurrences) = average THEN Severity = 1.0

【0091】重要度評価規則1〜5の前件部(IF)お
ける*は,そのキーワード統計情報が使用されないこと
を表わす。
The * in the antecedent part (IF) of the importance evaluation rules 1 to 5 indicates that the keyword statistical information is not used.

【0092】文法情報については助詞「が」または
「は」が付いて主語として用いられる回数と,助詞
「に」または「を」が付いて目的語として用いられる回
数とが別個に考慮されている。しかも,これらの回数は
出現回数で除すことにより,主語として用いられる回数
の割合,目的語として用いられる回数の割合が重要度評
価規則における前件部の変数となっている。
Regarding the grammar information, the number of times a particle "ga" or "ha" is used as a subject and the number of times a particle "ni" or "wa" is used as an object are separately considered. . Moreover, by dividing these numbers by the number of appearances, the ratio of the number of times used as the subject and the ratio of the number of times used as the object are variables of the antecedent part in the importance evaluation rule.

【0093】これらの重要度評価規則から分るように,
前件部の変数「文字数」,「出現回数」,「強調表現回
数」,「(「が」の回数+「は」の回数)/(出現回
数)」(主語として用いられる回数の割合)および
「(「に」の回数+「を」の回数)/(出現回数)」
(目的語として用いられる回数の割合)はファジィ集合
表現で表わされている。これに対して,前件部の変数
「文字種類」,「単語種類」,「出現位置」および後件
部の「重要度」はクリスプ集合表現で表わされている。
As can be seen from these importance evaluation rules,
Variables in the antecedent part "Number of characters", "Number of appearances", "Number of emphasized expressions", "(Number of" ga "+ number of" ha ") / (Number of appearances)" (ratio of the number of times used as subject) and "(Number of" ni "+ number of" wa ") / (number of appearances)"
(Ratio of the number of times it is used as an object) is expressed by fuzzy set expression. On the other hand, the variables “character type”, “word type”, “appearance position” in the antecedent part and “importance” in the consequent part are represented by a crisp set expression.

【0094】ファジィ集合表現で表わされる変数につい
てはメンバーシップ関数があらかじめ用意され,上述の
ように分類別重要度評価規則辞書18に登録されている。
図9(A) 〜(E) はこれらのメンバーシップ関数の例を示
すものである。(A) ,(B) ,(C) ,(D) および(E) はそ
れぞれ,文字数,出現回数,強調表現回数,(「が」の
回数+「は」の回数)/(出現回数)および(「に」の
回数+「を」の回数)/(出現回数)に関して,言語情
報「少ない」,「普通」および「多い」の3つのメンバ
ーシップ関数を表わしている。
Membership functions are prepared in advance for the variables represented by the fuzzy set representation, and are registered in the classification-based importance evaluation rule dictionary 18 as described above.
FIGS. 9A to 9E show examples of these membership functions. (A), (B), (C), (D) and (E) are the number of characters, the number of appearances, the number of emphasized expressions, (the number of "ga" + the number of "ha") / (the number of occurrences) and Regarding (number of "ni" + number of "wa") / (number of appearances), three membership functions of language information "low", "normal" and "high" are shown.

【0095】重要度評価規則選択装置17は,所定の記憶
場所に格納されている重要度評価規則選択テーブルを参
照して,与えられた分類に基づいて重要度評価規則を選
択する。
The importance evaluation rule selection device 17 refers to the importance evaluation rule selection table stored in a predetermined storage location and selects the importance evaluation rule based on the given classification.

【0096】重要度評価規則選択テーブルの一例が図10
に示されている。
FIG. 10 shows an example of the importance evaluation rule selection table.
Is shown in.

【0097】分類決定装置15により決定された分類は
「G06F」であるので,「計算の少なくとも一部は電
気的に行なわれるデジタル計算機;計算機デジタルを取
り扱う装置」用重要度評価規則が選択される。これに応
じて,分類別重要度評価規則辞書18から重要度評価規則
およびメンバーシップ関数が読出される。読出された重
要度評価規則およびメンバーシップ関数は,キーワード
重要度評価装置19に与えられる。
Since the classification determined by the classification determining device 15 is "G06F", the importance evaluation rule for "a digital computer in which at least a part of calculation is performed electrically; a device that handles computer digital" is selected. . In response to this, the importance evaluation rule and the membership function are read out from the classification importance evaluation rule dictionary 18. The read importance evaluation rule and membership function are given to the keyword importance evaluation device 19.

【0098】キーワード重要度評価装置19は,重要度評
価規則選択装置17から与えられた重要度評価規則にした
がって,キーワード統計情報作成装置13から与えられた
キーワード候補毎のキーワード統計情報に基づいてキー
ワード候補のキーワード重要度を算出(または評価)す
るものである。
The keyword importance evaluation device 19 follows the keyword evaluation information provided by the keyword evaluation information selection device 17 and uses the keyword statistical information for each keyword candidate provided by the keyword statistical information creation device 13 to determine the keyword The keyword importance of the candidate is calculated (or evaluated).

【0099】キーワード候補のキーワード重要度の算出
は次のようにして行なわれる。
The keyword importance of the keyword candidate is calculated as follows.

【0100】重要度評価規則選択装置17から与えられた
重要度評価規則にしたがって,メンバーシップ関数で表
わされるファジィ変数については,そのメンバーシップ
関数に対するキーワード統計情報(またはこれらを加工
して得られた情報)の適合度が算出される。クリスプ集
合表現の変数(すなわち,文字種類,単語種類および出
現位置)については,与えられたキーワード統計情報が
評価規則の前件部の条件と一致していれば適合度が「1.
0 」,不一致であれば「0.0 」とされる。
According to the importance evaluation rule given from the importance evaluation rule selection device 17, for the fuzzy variables represented by the membership function, the keyword statistical information for the membership function (or obtained by processing these is obtained. Information) is calculated. For variables in the crisp set expression (that is, character type, word type, and appearance position), if the given keyword statistical information matches the condition in the antecedent part of the evaluation rule, the goodness of fit is "1.
0 ", and if they do not match, it is set to" 0.0 ".

【0101】重要度評価規則毎にマッチングによって得
られた前件部適合度の総和が算出される。
The sum of the antecedent part conformances obtained by matching is calculated for each importance evaluation rule.

【0102】このようにして得られたキーワード候補
「エラー検知」についてのマッチング結果および適合度
の総和が図11に示されている。図11において,*は重要
度評価規則の前件部で使用されていないことを表わして
いる。
FIG. 11 shows the sum of the matching results and the goodness of fit for the keyword candidate “error detection” thus obtained. In FIG. 11, * indicates that it is not used in the antecedent part of the importance evaluation rule.

【0103】算出された適合度の総和の中で,最大値と
2番目に大きい値が探し出されるとともに,それらを生
じさせた重要度評価規則の後件部に記述された重要度が
取出される。
The maximum value and the second largest value are searched for in the sum of the calculated goodness of fit, and the importance described in the consequent part of the importance evaluation rule that causes them is extracted. It

【0104】得られた適合度の総和の最大値と2番目に
大きい値,およびそれらに対応する重要度に基づいて,
次式で示される加重平均によりキーワード候補のキーワ
ード重要度が算出される。
Based on the maximum value and the second largest value of the obtained total sum of the goodness of fit and the corresponding degrees of importance,
The keyword importance of the keyword candidate is calculated by the weighted average represented by the following formula.

【0105】 キーワード重要度=[(適合度の最大値)×(最大値に対応する重要度)+ (適合度の2番目に大きい値)×(2番目に大きい値に対応する 重要度)]/[(適合度の最大値)+(適合度の2番目に大きい値)] …(9) Keyword importance = [(maximum value of goodness of fit) × (importance corresponding to maximum value) + (second largest value of goodness of fit) × (importance corresponding to second largest value)] / [(The maximum value of the goodness of fit) + (the second largest value of the goodness of fit)] (9)

【0106】図11に示されたキーワード候補「エラー検
知」の適合度の最大値は「4.7 」,2番目に大きい値は
「3.7 」であり,それらに対応する重要度はそれぞれ
「1.0」および「0.8 」である。したがって,式(9) に
よりキーワード候補「エラー検知」のキーワード重要度
は[(4.7 ×1.0 )+(3.7 ×0.8 )]/[4.7 +3.
7]=0.91となる。
The maximum value of the goodness of fit of the keyword candidate "error detection" shown in FIG. 11 is "4.7", the second largest value is "3.7", and the corresponding degrees of importance are "1.0" and It is "0.8". Therefore, according to Eq. (9), the keyword importance of the keyword candidate “error detection” is [(4.7 × 1.0) + (3.7 × 0.8)] / [4.7 + 3.
7] = 0.91.

【0107】このようにして,抽出されたすべてのキー
ワード候補のキーワード重要度が算出される。算出され
たキーワード重要度の一例が図12に示されている。
In this way, the keyword importance of all the extracted keyword candidates is calculated. An example of the calculated keyword importance is shown in FIG.

【0108】キーワード候補とそのキーワード重要度
は,キーワード重要度評価装置19から自然語/統制語変
換装置20に与えられる。
The keyword candidates and the keyword importance thereof are given from the keyword importance evaluation device 19 to the natural language / controlled word conversion device 20.

【0109】自然語/統制語変換装置20は,自然語/統
制語辞書21を参照して,与えられたキーワード候補(自
然語)を統制語キーワード(統制語)に変換するもので
ある。
The natural language / controlled word conversion device 20 refers to the natural language / controlled word dictionary 21 and converts a given keyword candidate (natural language) into a controlled word keyword (controlled word).

【0110】統制語はその意味範囲や使い方がシソーラ
ス,件名標目表等により規定された語句である。特許文
書関係の統制語としては,たとえばFターム(File For
mingTerm )がある。一方,自然語は何も規定がない語
句であり,自然語は,たとえば文書等から抽出された語
句である。
A controlled word is a word whose meaning range and usage are defined by a thesaurus, subject heading table, and the like. Examples of controlled words related to patent documents include the F term (File For
mingTerm). On the other hand, a natural language is a phrase that does not have any regulation, and a natural language is a phrase extracted from, for example, a document.

【0111】自然語/統制語辞書21の一例が図13に示さ
れている。自然語/統制語辞書21はハード・ディスク,
ROM等のメモリにより実現される。自然語/統制語辞
書21には統制語とこの統制語に関する自然語とが相互に
関連させてあらかじめ登録されている。また統制語には
統制語コードが付加されている。
An example of the natural language / controlled language dictionary 21 is shown in FIG. The natural language / controlled language dictionary 21 is a hard disk,
It is realized by a memory such as a ROM. In the natural language / controlled word dictionary 21, a controlled word and a natural language related to this controlled word are registered in advance in association with each other. A controlled word code is added to the controlled word.

【0112】キーワード候補の統制語への変換処理は次
のようにして行なわれる。
Conversion processing of keyword candidates into controlled words is performed as follows.

【0113】自然語/統制語変換装置20は,与えられた
キーワード候補のそれぞれについて自然語/統制語辞書
21を検索し,それらにそれぞれ対応する統制語およびそ
の統制語コードを読出す。キーワード候補のキーワード
重要度は読出した対応する統制語のキーワード重要度と
される。
The natural language / controlled word conversion device 20 uses the natural language / controlled word dictionary for each of the given keyword candidates.
21 is searched, and the controlled words and the controlled word codes corresponding to them are read out. The keyword importance of the keyword candidate is the keyword importance of the corresponding controlled word read out.

【0114】たとえば,キーワード候補「エラー検知」
については統制語「エラー検出,信頼性向上」およびそ
の統制語コード「5B022FA11」が自然語/統制
語辞書21から読出される。キーワード候補「エラー検
知」のキーワード重要度「0.91」が統制語「エラー検
出,信頼性向上」のキーワード重要度となる。
For example, the keyword candidate “error detection”
For, the controlled word “error detection and reliability improvement” and its controlled word code “5B022FA11” are read from the natural language / controlled word dictionary 21. The keyword importance “0.91” of the keyword candidate “error detection” becomes the keyword importance of the controlled word “error detection and reliability improvement”.

【0115】図12に示すキーワード候補について変換さ
れた統制語が図14に示されている。
FIG. 14 shows the controlled words converted for the keyword candidates shown in FIG.

【0116】自然語/統制語変換装置20はまた,変換さ
れた統制語についてそのキーワード重要度に基づいて閾
値処理を行ない,入力された特許文書情報のインデック
ス・データを作成する。
The natural language / controlled word conversion device 20 also performs threshold processing on the converted controlled word based on the keyword importance thereof to create index data of the input patent document information.

【0117】閾値処理は次のようにして行なわれる。The threshold processing is performed as follows.

【0118】自然語/統制語変換装置20は,所定の閾値
よりも大きいキーワード重要度をもつ統制語をキーワー
ドとして特許文書情報のインデックス・データを作成す
る。閾値よりも小さいキーワード重要度を持つ統制語は
削除されてインデックス・データとして用いられない。
The natural language / controlled word conversion device 20 creates index data of patent document information using a controlled word having a keyword importance greater than a predetermined threshold as a keyword. A controlled word having a keyword importance smaller than the threshold is deleted and is not used as index data.

【0119】たとえば,閾値が0.5 に設定された場合,
図14に示される統制語について閾値処理が行なわれる
と,統制語「比較,判定」および「演算モード」は削除
され,統制語「エラー検知,信頼性向上」がキーワード
となる。したがって,インデックス・データは図15に示
すようになる。インデックス・データには特許公開番
号,国際特許分類,発明の名称等の方式データを含む。
ここで国際特許分類としては分類決定装置15において決
定されたもの(図15上段),文書にあらかじめ付与され
ていたもの(同,下段)が付加されている。
For example, if the threshold is set to 0.5,
When the controlled word shown in FIG. 14 is subjected to the threshold processing, the controlled words “comparison, determination” and “calculation mode” are deleted, and the controlled word “error detection, reliability improvement” becomes a keyword. Therefore, the index data is as shown in FIG. The index data includes method data such as patent publication number, international patent classification, and title of invention.
Here, as the international patent classification, the one determined by the classification determination device 15 (the upper part of FIG. 15) and the one previously assigned to the document (the same, the lower part) are added.

【0120】作成されたインデックス・データは自然語
/統制語変換装置20からデータ・ベース管理システム22
に与えられる。
The created index data is transferred from the natural language / controlled word conversion device 20 to the data base management system 22.
Given to.

【0121】データ・ベース23は文書ファイル23aおよ
びインデックス・ファイル23bからなる。文書ファイル
23aには入力された特許文書情報が登録され,インデッ
クス・ファイル23aには入力された特許文書情報に関す
るインデックス・データが登録される。インデックス・
ファイル23bのインデックス・データとそれに対応する
文書ファイル23aの特許文書情報とは相互にリンクされ
る。
The data base 23 is composed of a document file 23a and an index file 23b. Document file
The input patent document information is registered in 23a, and the index data relating to the input patent document information is registered in the index file 23a. index·
The index data of the file 23b and the corresponding patent document information of the document file 23a are linked to each other.

【0122】データ・ベース管理システム22は,データ
・ベース23の管理を行なうものであり,データ・ベース
23への文書情報,インデックス・データ等の登録,その
他の処理を行なう。
The data base management system 22 manages the data base 23.
Registration of document information, index data, etc. in 23, and other processing.

【0123】データ・ベース管理システム22は,文書入
力装置11から与えられた特許文書情報と自然語/統制語
変換装置20から与えられたインデックス・データとを結
びつけて,それぞれ文書ファイル23aおよびインデック
ス・ファイル23bに登録する。
The data base management system 22 connects the patent document information given from the document input device 11 and the index data given from the natural language / controlled word conversion device 20, and links the document file 23a and the index file, respectively. Register in file 23b.

【0124】データ・ベース23として,インデックス・
ファイルを持たない公知のシステムを用いた場合,イン
デックス・データは別途に設けられた記憶装置に登録さ
れる。
As a database 23, an index
When a known system having no file is used, index data is registered in a storage device provided separately.

【0125】第2実施例 図16は第2実施例におけるデータ・ベース検索装置の全
体的構成を示すブロック図である。
Second Embodiment FIG. 16 is a block diagram showing the overall structure of a data base retrieval apparatus according to the second embodiment.

【0126】第2実施例においては,検索条件として特
許文書情報が入力される。第2実施例の装置はこの特許
文書情報から検索キーワードを抽出し,入力された特許
文書情報に類似する特許文書情報をデータ・ベース33か
ら検索する。
In the second embodiment, patent document information is input as a search condition. The apparatus of the second embodiment extracts a search keyword from this patent document information and searches the database 33 for patent document information similar to the input patent document information.

【0127】第2実施例におけるデータ・ベース検索装
置は第1実施例における文書処理装置と同様にそのすべ
てをハードウェア・アーキテクチャにより実現すること
もできるし,プログラムされたコンピュータ・システム
により実現することもできる。またデータ・ベース検索
装置の一部をハードウェアにより,他の部分をソフトウ
ェアにより実現することもできる。
The database retrieving apparatus in the second embodiment can be realized entirely by a hardware architecture like the document processing apparatus in the first embodiment, or by a programmed computer system. You can also It is also possible to implement part of the data base retrieval device by hardware and the other part by software.

【0128】図16において図1に示すものと同一物には
同一符号を付し,詳細な説明は省略する。
In FIG. 16, the same parts as those shown in FIG. 1 are designated by the same reference numerals, and detailed description thereof will be omitted.

【0129】データ・ベース33は文書ファイル33aおよ
び検索用データ・ファイル33bからなる。文書ファイル
33aには公開特許公報,公告特許公報等の電子化された
特許文書情報があらかじめ登録されている。また検索用
データ・ファイル33bには,文書ファイル33aに登録さ
れている特許文書情報のそれぞれについて特許出願に関
する方式的情報,統制語キーワード,およびその統制語
コード(これらを総括して以下「検索用データ」とい
う)があらかじめ登録されている。
The data base 33 comprises a document file 33a and a search data file 33b. Document file
Digitized patent document information such as open patent publications and published patent publications is registered in advance in 33a. Further, in the search data file 33b, for each of the patent document information registered in the document file 33a, formal information regarding the patent application, controlled word keywords, and controlled word codes (hereinafter, these are collectively referred to as "searched data"). "Data") is registered in advance.

【0130】またデータ・ベース33は,検索用データ・
ファイル33bのみを有するものであってもよい。この場
合には特許文書情報はイメージ・データによって表わさ
れるかまたは印刷物上に表わされる。
The data base 33 is a search data
It may have only the file 33b. In this case, the patent document information is represented by image data or on a print.

【0131】データ・ベース管理システム32は,データ
・ベース33の管理を行なうものであり,データ・ベース
の検索,その他の処理を行なう。このデータ・ベース管
理システム32による検索処理の詳細については後述す
る。
The data base management system 32 manages the data base 33, and retrieves the data base and performs other processing. Details of the search processing by the database management system 32 will be described later.

【0132】自然語/統制語変換装置30は,自然語/統
制語辞書21を参照して,キーワード統計情報作成装置13
から与えられるキーワード候補(自然語)を統制語キー
ワード(統制語)に変換するものである。
The natural language / controlled word conversion device 30 refers to the natural language / controlled word dictionary 21 and refers to the keyword statistical information creation device 13
The keyword candidates (natural language) given by are converted into controlled word keywords (controlled words).

【0133】キーワード候補の統制語キーワードへの変
換処理は次のようにして行なわれる。
Conversion processing of keyword candidates into controlled word keywords is performed as follows.

【0134】自然語/統制語変換装置30は,与えられる
キーワード候補のそれぞれについて自然語/統制語辞書
21を検索し,統制語キーワードおよびその統制語コード
を読出す。キーワード候補のキーワード重要度は読出し
た統制語キーワードのキーワード重要度とされる。
The natural language / controlled word conversion device 30 uses the natural language / controlled word dictionary for each of the given keyword candidates.
21 is searched and the controlled word keyword and its controlled word code are read. The keyword importance of the keyword candidate is the keyword importance of the read controlled word keyword.

【0135】たとえば,キーワード候補「エラー検知」
については統制語「エラー検出,信頼性向上」およびそ
の統制語コード「5B022FA11」が自然語/統制
語辞書21から読出される。キーワード候補「エラー検
知」のキーワード重要度「0.91」が統制語キーワード
「エラー検出,信頼性向上」のキーワード重要度とな
る。
For example, the keyword candidate “error detection”
For, the controlled word “error detection and reliability improvement” and its controlled word code “5B022FA11” are read from the natural language / controlled word dictionary 21. The keyword importance “0.91” of the keyword candidate “error detection” becomes the keyword importance of the controlled word keyword “error detection and reliability improvement”.

【0136】図12に示すキーワード候補について変換さ
れた統制語キーワードが図17に示されている。
FIG. 17 shows the controlled word keywords converted for the keyword candidates shown in FIG.

【0137】変換された統制語キーワードは自然語/統
制語変換装置31からデータ・ベース検索条件作成装置32
に与えられる。
The converted controlled word keyword is converted from the natural language / controlled word converting device 31 to the data base search condition creating device 32.
Given to.

【0138】データ・ベース検索条件作成装置31は,自
然語/統制語変換装置30から与えられる統制語キーワー
ドおよびそのキーワード重要度に基づいて,データ・ベ
ース33を検索するためのデータ・ベース検索条件を作成
するものである。
The data base search condition creating device 31 is a data base search condition for searching the data base 33 based on the controlled word keyword given from the natural language / controlled word conversion device 30 and its keyword importance. Is to create.

【0139】データ・ベース検索条件作成装置31は,与
えられる統制語キーワードを検索キーワードとし,統制
語キーワードのキーワード重要度を重視度としてデータ
・ベース検索条件を作成する。重視度は検索キーワード
をどの程度重要視するかを表わす度合いである。検索キ
ーワードは論理和ORにより結合されて検索条件式が作
成される。
The data base search condition creating device 31 creates a data base search condition with the given controlled word keyword as the search keyword and the keyword importance of the controlled word keyword as the importance level. The degree of importance is the degree of importance of the search keyword. The search keywords are combined by a logical sum OR to create a search condition expression.

【0140】たとえば,図18に示される統制語キーワー
ドについての検索条件は次のようになる。 検索条件式 (「エラー検出,信頼性向上」OR 重視度 0.91 「比較,判定」OR「処理時間,演算速度」) …(10) 0.29 0.29
For example, the search conditions for the controlled word keywords shown in FIG. 18 are as follows. Search condition formula (“Error detection, reliability improvement” OR importance 0.91 “Comparison, judgment” OR “Processing time, calculation speed”)… (10) 0.29 0.29

【0141】また式(10)で表わされる検索条件をコード
化して表現すると,次のようになる。 S1=((FT=5B022FA11) 重視度 0.91 +(FT=5B0220A06)+(FT=5B022FA01)) 0.29 0.29 …(11) ここで,「S1」は検索条件式,「FT」は統制語コー
ド,「+」は論理和結合「OR」をそれぞれ表わす。
The search condition expressed by the equation (10) is coded and expressed as follows. S1 = ((FT = 5B0222FA11) importance 0.91 + (FT = 5B0220A06) + (FT = 5B0222FA01)) 0.29 0.29 (11) where "S1" is a search condition expression, "FT" is a controlled word code, and " “+” Represents a logical sum combination “OR”.

【0142】作成された検索条件はデータ・ベース検索
条件としてデータ・ベース管理システム32および合致度
演算装置34に与えられる。
The created search conditions are provided to the data base management system 32 and the matching degree calculation device 34 as data base search conditions.

【0143】データ・ベース管理システム32はデータ・
ベース検索条件作成装置31から与えられるデータ・ベー
ス検索条件に基づいてデータ・ベース33のうち検索用デ
ータ・ファイル33bを検索する。データ・ベース検索条
件中の検索キーワードを少なくとも1つ含む検索用デー
タを検索用データ・ファイル33bから得る。
Data base management system 32
The search data file 33b is searched from the data base 33 based on the data base search condition given from the base search condition creating device 31. The search data including at least one search keyword in the data base search condition is obtained from the search data file 33b.

【0144】検索により得られた検索結果の一例が図18
に示されている。
FIG. 18 shows an example of the search result obtained by the search.
Is shown in.

【0145】検索により得られた検索結果は,データ・
ベース管理システム32から合致度演算装置34に与えられ
る。
The search result obtained by the search is data.
It is given from the base management system 32 to the matching degree calculation device 34.

【0146】合致度演算装置34は,データ・ベース検索
条件作成装置31から与えられるデータ・ベース検索条件
と検索データ・ベース33から得られた検索用データに含
まれるキーワードとの合致度を算出する。
The matching degree calculation device 34 calculates the matching degree between the data base search condition given from the data base search condition creating device 31 and the keyword contained in the search data obtained from the search data base 33. .

【0147】合致度は,検索により得られた検索用デー
タのキーワードがデータ・ベース検索条件をどの程度満
足しているかを表わす度合いであり,0.0 〜1.0 の数字
で表わされる。合致度が1.0 に近い程データ・ベース検
索条件をより満足している。
The degree of matching is a degree indicating how much the keyword of the retrieval data obtained by the retrieval satisfies the data base retrieval condition, and is represented by a number of 0.0 to 1.0. The closer the match is to 1.0, the more satisfied the database search condition is.

【0148】合致度は検索用データ中のキーワードと一
致する検索キーワードの重視度を用いて,次式で算出さ
れる。
The degree of matching is calculated by the following equation using the degree of importance of the search keyword that matches the keyword in the search data.

【0149】 合致度=[Σ(一致した検索キーワードの重視度) /Σ(全ての検索キーワードの重視度)] …(12)Matching degree = [Σ (weighting degree of matching search keyword) / Σ (weighting degree of all search keywords)] (12)

【0150】図18に示される検索結果について,特許文
書情報のキーワードと検索キーワードと一致した検索キ
ーワード,およびその重視度の一覧が図19に示されてい
る。
With respect to the search results shown in FIG. 18, FIG. 19 shows a list of patent document information keywords, search keywords that match the search keywords, and their importance levels.

【0151】たとえば,特許公開番号「P06−300
01」の特許文書情報の合致度は,式(12)を用いて
「(0.91+0.29)/(0.91+0.29+0.29)=0.81」とな
る。このようにして算出された合致度の演算結果が図20
に示されている。
For example, the patent publication number "P06-300"
The degree of coincidence of the patent document information of “01” is “(0.91 + 0.29) / (0.91 + 0.29 + 0.29) = 0.81” using the equation (12). The calculation result of the matching degree calculated in this way is shown in FIG.
Is shown in.

【0152】検索により得られた特許文書情報は,合致
度の大きい順に出力装置34から表示,出力される。また
合致度に閾値を設け,この閾値以上の検索結果を表示,
出力するようにしてもよい。
The patent document information obtained by the search is displayed and output from the output device 34 in descending order of coincidence. In addition, a threshold is set for the degree of matching, and search results above this threshold are displayed.
You may make it output.

【図面の簡単な説明】[Brief description of drawings]

【図1】第1実施例における文書処理装置の全体的構成
を示すブロック図である。
FIG. 1 is a block diagram showing an overall configuration of a document processing apparatus according to a first embodiment.

【図2】特許文書情報の一例を示す。FIG. 2 shows an example of patent document information.

【図3】特許文書情報から抽出されたキーワード候補の
一例を示す。
FIG. 3 shows an example of keyword candidates extracted from patent document information.

【図4】キーワード統計情報の一例を示す。FIG. 4 shows an example of keyword statistical information.

【図5】関連語辞書の一例を示す。FIG. 5 shows an example of a related word dictionary.

【図6】キーワード統計情報の一例を示す。FIG. 6 shows an example of keyword statistical information.

【図7】分類別重要度辞書の一例を示す。FIG. 7 shows an example of a classification-based importance dictionary.

【図8】分類毎の分類別重要度の総和を示すヒストグラ
ムである。
FIG. 8 is a histogram showing the total sum of importance for each classification.

【図9】(A) ,(B) ,(C) ,(D) および(E) は,文字
数,出現回数,強調表現回数,(「が」の回数+「は」
の回数)/(出現回数)および(「に」の回数+「を」
の回数)/(出現回数)に関して,言語情報「少な
い」,「普通」および「多い」のメンバーシップ関数を
それぞれ示す。
[Fig. 9] (A), (B), (C), (D) and (E) are the number of characters, the number of appearances, the number of emphasized expressions, (the number of "ga" + "wa").
Number of times) / (number of appearances) and (number of "ni" + "wa"
With respect to (number of times) / (number of occurrences), the membership functions of the language information “small”, “normal” and “large” are shown respectively.

【図10】重要度評価規則選択テーブルの一例を示す。FIG. 10 shows an example of an importance evaluation rule selection table.

【図11】キーワード統計情報とメンバーシップ関数と
のマッチング結果の一例を示す。
FIG. 11 shows an example of a matching result between keyword statistical information and a membership function.

【図12】キーワード候補とそのキーワード重要度の一
例を示す。
FIG. 12 shows an example of keyword candidates and their keyword importance.

【図13】自然語/統制語辞書の一例を示す。FIG. 13 shows an example of a natural language / controlled language dictionary.

【図14】変換された統制語の一例を示す。FIG. 14 shows an example of a converted controlled word.

【図15】インデックス・データの一例を示す。FIG. 15 shows an example of index data.

【図16】第2実施例におけるデータ・ベース検索装置
の全体的構成を示すブロック図である。
FIG. 16 is a block diagram showing an overall configuration of a data base search device according to a second embodiment.

【図17】変換された統制語の一例を示す。FIG. 17 shows an example of a converted controlled word.

【図18】データ・ベースから検索された特許文書情報
の一例を示す。
FIG. 18 shows an example of patent document information retrieved from a data base.

【図19】特許文書情報のキーワードと検索キーワード
と一致した検索キーワードおよびその重視度の一覧を示
す。
FIG. 19 shows a list of search keywords that match the patent document information keywords and the search keywords, and their importance levels.

【図20】検索された特許文書情報とその合致度を示
す。
FIG. 20 shows the retrieved patent document information and its matching degree.

【符号の説明】[Explanation of symbols]

11 文書情報入力装置 12 キーワード抽出装置 13 キーワード統計情報作成装置 14 関連語辞書 15 分類決定装置 16 分類別重要度辞書 17 重要度評価規則選択装置 18 分類別重要度評価規則辞書 19 キーワード重要度評価装置 20,30 自然語/統制語変換装置 21 自然語/統制語辞書 22,32 データ・ベース管理システム 23,33 データ・ベース 23a,33a 文書ファイル 23b インデックス・ファイル 31 データ・ベース検索条件作成装置 33b 検索用データ・ファイル 34 合致度演算装置 35 検索結果出力装置 11 Document information input device 12 Keyword extraction device 13 Keyword statistical information creation device 14 Related term dictionary 15 Classification determination device 16 Classification importance dictionary 17 Importance evaluation rule selection device 18 Classification importance evaluation rule dictionary 19 Keywords Importance evaluation device 20, 30 Natural language / controlled word conversion device 21 Natural language / controlled word dictionary 22, 32 Data base management system 23, 33 Data base 23a, 33a Document file 23b Index file 31 Data base search condition creation device 33b Search Data file 34 Matching calculation device 35 Search result output device

Claims (30)

【特許請求の範囲】[Claims] 【請求項1】 文書情報を入力する文書入力手段,文書
入力手段により入力された上記文書情報からキーワード
候補を抽出するキーワード抽出手段,上記キーワード抽
出手段により抽出された上記キーワード候補に関するキ
ーワード統計情報を作成するキーワード統計情報作成手
段,重要度評価規則およびメンバーシップ関数が分類毎
にあらかじめ登録されている分類別重要度評価規則辞
書,入力された文書情報の分類に応じて,上記分類別重
要度評価規則辞書に登録されている重要度評価規則およ
びメンバーシップ関数を選択する重要度評価規則選択手
段,上記分類別重要度評価規則辞書から上記重要度評価
規則選択手段により選択された重要度評価規則およびメ
ンバーシップ関数にしたがって,上記キーワード統計情
報作成手段により作成された上記キーワード統計情報に
基づいて,上記キーワード抽出手段により抽出された上
記キーワード候補のキーワード重要度を算出するキーワ
ード重要度評価手段,複数の自然語,および上記複数の
自然語に対応する統制語があらかじめ登録されている自
然語/統制語辞書,上記キーワード抽出手段により抽出
された上記キーワード候補を,上記自然語/統制語辞書
を参照して統制語に変換し,上記キーワード重要度評価
手段により算出された上記キーワード候補のキーワード
重要度を変換した上記統制語のキーワード重要度とする
統制語生成手段,ならびに上記統制語生成手段により生
成された上記統制語および上記統制語のキーワード重要
度と入力された上記文書情報とを関連させて登録するデ
ータ・ベース・システム,を備えた文書処理装置。
1. Document input means for inputting document information, keyword extraction means for extracting keyword candidates from the document information input by the document input means, and keyword statistical information relating to the keyword candidates extracted by the keyword extraction means. A keyword statistical information creation means to be created, a classification importance evaluation rule dictionary in which the importance evaluation rules and membership functions are registered in advance for each classification, and the above-mentioned importance evaluation by classification according to the classification of the input document information. An importance evaluation rule selecting means for selecting an importance evaluation rule and a membership function registered in the rule dictionary; an importance evaluation rule selected by the importance evaluation rule selecting means from the classification-based importance evaluation rule dictionary; Created by the above keyword statistical information creation means according to the membership function Keyword importance evaluation means for calculating the keyword importance of the keyword candidates extracted by the keyword extraction means based on the obtained keyword statistical information, a plurality of natural words, and controlled words corresponding to the plurality of natural words Is registered in advance, the keyword candidates extracted by the keyword extracting means are converted into controlled words by referring to the natural language / controlled word dictionary, and the keyword importance evaluation means is used. A controlled word generation means for converting the calculated keyword importance of the keyword candidate into the keyword importance of the controlled word, and the controlled word generated by the controlled word generation and the keyword importance of the controlled word and input A document having a database system for registering the document information stored in association with the document information Management apparatus.
【請求項2】 複数の第1の見出し語,上記第1の各見
出し語に関連する関連語,および第1の見出し語と上記
関連語との関連の度合いを表わす関連度があらかじめ登
録されている関連語辞書をさらに備え,上記キーワード
統計情報作成手段は,上記キーワード抽出手段により抽
出された上記キーワード候補のそれぞれについて,上記
関連語辞書から関連語および関連度を読出し,一のキー
ワード候補について読出した関連語と同じ語が他のキー
ワード候補にあれば,該他のキーワード候補のキーワー
ド統計情報と読出した上記関連度とに基づいて,上記一
のキーワード候補のキーワード統計情報の少なくとも一
部を共有化的修正を行なうものである,請求項1に記載
の文書処理装置。
2. A plurality of first headwords, related words related to each of the first headwords, and a degree of relevance indicating a degree of relevance between the first headword and the related words are registered in advance. The related keyword dictionary is further provided, and the keyword statistical information creating means reads out the related word and the degree of association from the related word dictionary for each of the keyword candidates extracted by the keyword extracting means, and reads out one keyword candidate. If the same word as the related word is present in another keyword candidate, at least a part of the keyword statistical information of the one keyword candidate is shared based on the keyword statistical information of the other keyword candidate and the read degree of association. The document processing apparatus according to claim 1, wherein the document processing apparatus is adapted to perform a chemical modification.
【請求項3】 複数の第2の見出し語,および上記第2
の各見出し語についてそれが属する分類毎に分類別重要
度があらかじめ登録されている分類別重要度辞書,およ
び上記キーワード抽出手段により抽出されたキーワード
候補の分類別重要度を上記分類別重要度辞書から読出
し,上記キーワード候補の上記分類別重要度と上記キー
ワード候補のキーワード統計情報に含まれる情報とに基
づいて,入力された文書情報の属する分類を決定する分
類決定手段,をさらに備えた請求項1に記載の文書処理
装置。
3. A plurality of second headwords, and the second
For each headword, the category-by-category importance degree dictionary in which the category-by-category degree of importance is registered in advance, and the category-by-category degree of importance of the keyword candidates extracted by the keyword extracting means are as mentioned above. A classification determining unit that determines the classification to which the input document information belongs, based on the importance of each of the keyword candidates classified by category and the information included in the keyword statistical information of the keyword candidates. 1. The document processing device according to 1.
【請求項4】 上記データ・ベース・システムは,所定
の閾値以上のキーワード重要度をもつ統制語を,入力さ
れた文書情報のキーワードとして登録するものである,
請求項1に記載の文書処理装置。
4. The database system registers a controlled word having a keyword importance of a predetermined threshold value or more as a keyword of input document information,
The document processing apparatus according to claim 1.
【請求項5】 重要度評価規則およびメンバーシップ関
数を分類別重要度辞書に分類毎にあらかじめ登録してお
き,複数の自然語,および上記複数の自然語に対応する
統制語を分類別重要度辞書にあらかじめ登録しておき,
入力される文書情報を受付け,入力された上記文書情報
からキーワード候補を抽出し,抽出された上記キーワー
ド候補に関するキーワード統計情報を作成し,入力され
た文書情報の分類に応じて,上記分類別重要度評価規則
辞書に登録されている重要度評価規則およびメンバーシ
ップ関数を選択し,上記分類別重要度評価規則辞書から
選択された重要度評価規則およびメンバーシップ関数に
したがって,作成された上記キーワード統計情報に基づ
いて,抽出された上記キーワード候補のキーワード重要
度を算出し,抽出された上記キーワード候補を,上記自
然語/統制語辞書を参照して統制語に変換し,算出され
た上記キーワード候補のキーワード重要度を変換した上
記統制語のキーワード重要度とし,生成された上記統制
語および上記統制語のキーワード重要度と入力された上
記文書情報とを関連させてデータ・ベース・システムに
登録する,文書処理方法。
5. An importance evaluation rule and a membership function are registered in advance in a classification-specific importance dictionary for each classification, and a plurality of natural words and controlled words corresponding to the plurality of natural words are classified by importance. Register in the dictionary in advance,
Accepts the input document information, extracts keyword candidates from the input document information, creates keyword statistical information about the extracted keyword candidates, and classifies the input document information according to the classification. The keyword statistics created by selecting the importance evaluation rules and membership functions registered in the degree evaluation rule dictionary, and according to the importance evaluation rules and membership functions selected from the classification-based importance evaluation rule dictionary The keyword importance of the extracted keyword candidates is calculated based on information, the extracted keyword candidates are converted into controlled words by referring to the natural language / controlled word dictionary, and the calculated keyword candidates are calculated. The keyword importance of the controlled word is converted to the keyword importance of the controlled word, and the generated controlled word and the controlled word Keyword importance and is related to the input the document information registered in the data base system, a document processing method.
【請求項6】 複数の第1の見出し語,上記第1の各見
出し語に関連する関連語,および第1の見出し語と上記
関連語との関連の度合いを表わす関連度を関連語辞書に
あらかじめ登録しておき,抽出された上記キーワード候
補のそれぞれについて,上記関連語辞書から関連語およ
び関連度を読出し,一のキーワード候補について読出し
た関連語と同じ語が他のキーワード候補にあれば,該他
のキーワード候補のキーワード統計情報と読出した上記
関連度とに基づいて,上記一のキーワード候補のキーワ
ード統計情報の少なくとも一部を共有化的修正を行な
う,請求項5に記載の文書処理方法。
6. A related word dictionary stores a plurality of first headwords, related words related to each of the first headwords, and a degree of relevance indicating a degree of relevance between the first headword and the related words. For each of the extracted keyword candidates that have been registered in advance, the related word and the degree of association are read from the related word dictionary, and if the same word as the read related word for one keyword candidate exists in another keyword candidate, 6. The document processing method according to claim 5, wherein at least a part of the keyword statistical information of the one keyword candidate is shared-corrected based on the keyword statistical information of the other keyword candidate and the read degree of association. .
【請求項7】 複数の第2の見出し語,および上記第2
の各見出し語についてそれが属する分類毎に分類別重要
度を分類別重要度辞書にあらかじめ登録しておき,抽出
されたキーワード候補の分類別重要度を上記分類別重要
度辞書から読出し,上記キーワード候補の上記分類別重
要度と上記キーワード候補のキーワード統計情報に含ま
れる情報とに基づいて,入力された文書情報の属する分
類を決定する,請求項5に記載の文書処理方法。
7. A plurality of second headwords and said second headword
For each headword of, the category-specific importance for each category to which it belongs is registered in advance in the category-specific importance dictionary, and the category-specific importance of the extracted keyword candidates is read from the category-specific importance dictionary. 6. The document processing method according to claim 5, wherein the classification to which the input document information belongs is determined based on the importance of the candidates by classification and the information included in the keyword statistical information of the keyword candidates.
【請求項8】 所定の閾値以上のキーワード重要度をも
つ統制語を,入力された文書情報のキーワードとしてデ
ータ・ベース・システムに登録する,請求項5に記載の
文書処理方法。
8. The document processing method according to claim 5, wherein a controlled word having a keyword importance of a predetermined threshold value or more is registered in the database system as a keyword of the input document information.
【請求項9】 複数の文書情報に関する統制語キーワー
ドを含む検索用データを有するデータ・ベース,および
所与のデータ・ベース検索条件に基づいて上記データ・
ベースの検索を行なうデータ・ベース管理手段を備えた
データ・ベース・システムを利用して,上記データ・ベ
ースを検索するための装置において,文書情報を検索条
件として入力する文書入力手段,文書入力手段により入
力された上記文書情報からキーワード候補を抽出するキ
ーワード抽出手段,上記キーワード抽出手段により抽出
された上記キーワード候補に関するキーワード統計情報
を作成するキーワード統計情報作成手段,重要度評価規
則およびメンバーシップ関数が分類毎にあらかじめ登録
されている分類別重要度評価規則辞書,入力された文書
情報の分類に応じて,上記分類別重要度評価規則辞書に
登録されている重要度評価規則およびメンバーシップ関
数を選択する重要度評価規則選択手段,上記分類別重要
度評価規則辞書から上記重要度評価規則選択手段により
選択された重要度評価規則およびメンバーシップ関数に
したがって,上記キーワード統計情報作成手段により作
成された上記キーワード統計情報に基づいて,上記キー
ワード抽出手段により抽出された上記キーワード候補の
キーワード重要度を算出するキーワード重要度評価手
段,複数の自然語,および上記複数の自然語に対応する
統制語があらかじめ登録されている自然語/統制語辞
書,上記キーワード抽出手段により抽出された上記キー
ワード候補を,上記自然語/統制語辞書を参照して統制
語に変換し,上記キーワード重要度評価手段により算出
された上記キーワード候補のキーワード重要度を変換し
た上記統制語のキーワード重要度とする統制語生成手
段,上記統制語生成手段により生成された上記統制語を
検索キーワードとし,上記キーワード重要度を重視度と
してデータ・ベース検索条件を作成して,上記データ・
ベース管理手段に与え,上記作成されたデータ・ベース
検索条件にしたがって少くとも上記検索用データを検索
させるデータ・ベース検索条件作成手段,ならびに検索
された上記検索用データと上記データ・ベース検索条件
との合致度を,上記キーワード重要度に基づいて算出す
る合致度演算手段,を備えたデータ・ベース検索装置。
9. A data base having search data containing controlled word keywords relating to a plurality of document information, and the data base based on a given data base search condition.
Document input means and document input means for inputting document information as a search condition in an apparatus for searching the above-mentioned data base using a data base system having a data base management means for searching the base A keyword extracting means for extracting a keyword candidate from the document information input by the above, a keyword statistical information creating means for creating keyword statistical information on the keyword candidate extracted by the keyword extracting means, an importance evaluation rule and a membership function. The importance evaluation rules and membership functions registered in the above-mentioned classification importance evaluation rule dictionary are selected according to the classification importance evaluation rule dictionary registered in advance for each classification and the classification of the input document information. Importance evaluation rule selection means, whether the above-mentioned classification-based importance evaluation rule dictionary The keyword extracted by the keyword extracting means based on the keyword statistical information created by the keyword statistical information creating means in accordance with the importance evaluation rule and the membership function selected by the importance evaluation rule selecting means. A keyword importance evaluation means for calculating the keyword importance of a candidate, a plurality of natural words, and a natural language / controlled word dictionary in which controlled words corresponding to the plurality of natural words are registered in advance, and extracted by the keyword extraction means. The keyword importance of the controlled word obtained by converting the keyword candidate into a controlled word by referring to the natural language / controlled word dictionary and converting the keyword importance of the keyword candidate calculated by the keyword importance evaluation means. Generated by the above controlled word generation means The serial control word as a search keyword, and create a data base search the keyword importance as a value level, the above-mentioned data
A data base search condition creating means for giving the base management means at least the search data according to the created database search condition, and the searched search data and the database search condition A database retrieval device comprising a matching degree calculating means for calculating the matching degree of the above based on the keyword importance.
【請求項10】 上記データ・ベースが複数の文書情報
に関する上記検索用データに加えて,上記複数の文書情
報を格納するものであり,上記データ・ベース管理手段
は所与のデータ・ベース検索条件に合致する検索用デー
タを探し出したのち,その検索用データに関連する文書
情報を読出すものである,請求項9に記載のデータ・ベ
ース検索装置。
10. The database stores the plurality of pieces of document information in addition to the search data relating to the plurality of pieces of document information, and the database management means gives a given database search condition. 10. The data base retrieval device according to claim 9, wherein the retrieval data matching with is searched out, and then the document information related to the retrieval data is read out.
【請求項11】 合致度演算手段は,合致度が所定値以
上の検索用データに関する文書情報を読出すものであ
る,請求項10に記載のデータ・ベース検索装置。
11. The data base search device according to claim 10, wherein the matching degree calculation means reads document information relating to the search data having a matching degree of a predetermined value or more.
【請求項12】 複数の第1の見出し語,上記第1の各
見出し語に関連する関連語,および第1の見出し語と上
記関連語との関連の度合いを表わす関連度があらかじめ
登録されている関連語辞書をさらに備え,上記キーワー
ド統計情報作成手段は,上記キーワード抽出手段により
抽出された上記キーワード候補のそれぞれについて,上
記関連語辞書から関連語および関連度を読出し,一のキ
ーワード候補について読出した関連語と同じ語が他のキ
ーワード候補にあれば,該他のキーワード候補のキーワ
ード統計情報と読出した上記関連度とに基づいて,上記
一のキーワード候補のキーワード統計情報の少なくとも
一部を共有化的修正を行なうものである,請求項9に記
載のデータ・ベース検索装置。
12. A plurality of first headwords, related words related to each of the first headwords, and a degree of relevance indicating a degree of relevance between the first headword and the related words are registered in advance. The related keyword dictionary is further provided, and the keyword statistical information creating means reads out the related word and the degree of association from the related word dictionary for each of the keyword candidates extracted by the keyword extracting means, and reads out one keyword candidate. If the same word as the related word is present in another keyword candidate, at least a part of the keyword statistical information of the one keyword candidate is shared based on the keyword statistical information of the other keyword candidate and the read degree of association. The data base retrieval device according to claim 9, which is for performing a sexual modification.
【請求項13】 複数の第2の見出し語,および上記第
2の各見出し語についてそれが属する分類毎に分類別重
要度があらかじめ登録されている分類別重要度辞書,お
よび上記キーワード抽出手段により抽出されたキーワー
ド候補の分類別重要度を上記分類別重要度辞書から読出
し,上記キーワード候補の上記分類別重要度と上記キー
ワード候補のキーワード統計情報に含まれる情報とに基
づいて,入力された文書情報の属する分類を決定する分
類決定手段,をさらに備えた請求項9に記載のデータ・
ベース検索装置。
13. A plurality of second headwords, a category-specific importance dictionary in which a category-specific importance is registered in advance for each category to which each of the second headwords belongs, and the keyword extracting means. The category-specific importance of the extracted keyword candidates is read from the category-specific importance dictionary, and the input document is read based on the category-specific importance of the keyword candidates and the information included in the keyword statistical information of the keyword candidates. The data according to claim 9, further comprising: a classification determining unit that determines a classification to which the information belongs.
Base search device.
【請求項14】 複数の文書情報に関する統制語キーワ
ードを含む検索用データを有するデータ・ベース,およ
び所与のデータ・ベース検索条件に基づいて上記データ
・ベースの検索を行なうデータ・ベース管理手段を備え
たデータ・ベース・システムを利用して,上記データ・
ベースを検索するための装置において,重要度評価規則
およびメンバーシップ関数を分類別重要度評価規則辞書
に分類毎にあらかじめ登録しておき,複数の自然語,お
よび上記複数の自然語に対応する統制語を自然語/統制
語辞書にあらかじめ登録しておき,入力される文書情報
を検索条件として受付け,入力された上記文書情報から
キーワード候補を抽出し,抽出された上記キーワード候
補に関するキーワード統計情報を作成し,入力された文
書情報の分類に応じて,上記分類別重要度評価規則辞書
に登録されている重要度評価規則およびメンバーシップ
関数を選択し,上記分類別重要度評価規則辞書から選択
された重要度評価規則およびメンバーシップ関数にした
がって,作成された上記キーワード統計情報に基づい
て,抽出された上記キーワード候補のキーワード重要度
を算出し,抽出された上記キーワード候補を,上記自然
語/統制語辞書を参照して統制語に変換し,算出された
上記キーワード候補のキーワード重要度を変換した上記
統制語のキーワード重要度とし,生成された上記統制語
を検索キーワードとし,上記キーワード重要度を重視度
としてデータ・ベース検索条件を作成して,上記データ
・ベース管理手段に与え,上記作成されたデータ・ベー
ス検索条件にしたがって少くとも上記検索用データを検
索させ,検索された上記検索用データと上記データ・ベ
ース検索条件との合致度を,上記キーワード重要度に基
づいて算出する,データ・ベース検索方法。
14. A data base having search data including controlled word keywords relating to a plurality of document information, and a database management means for searching the data base based on a given data base search condition. Using the provided data base system,
In an apparatus for searching a base, an importance evaluation rule and a membership function are registered in advance in a classification-based importance evaluation rule dictionary for each classification, and a plurality of natural words and a control corresponding to the plurality of natural words are controlled. Words are registered in the natural language / controlled word dictionary in advance, the input document information is accepted as a search condition, keyword candidates are extracted from the input document information, and keyword statistical information regarding the extracted keyword candidates is extracted. According to the classification of the created and input document information, the importance evaluation rule and the membership function registered in the classification importance evaluation rule dictionary are selected and selected from the classification importance evaluation rule dictionary. Based on the above keyword statistical information created according to the importance evaluation rules and membership functions, the above extracted The control in which the keyword importance of the word candidate is calculated, the extracted keyword candidate is converted into a controlled word by referring to the natural language / controlled word dictionary, and the calculated keyword importance of the calculated keyword candidate is converted. The data base search condition is created with the keyword importance of the word as the search keyword, the generated controlled word as the search keyword, and the keyword importance as the importance, and is given to the data base management means to create the data. A data base search in which the search data is searched at least according to the base search condition, and the degree of matching between the searched search data and the data base search condition is calculated based on the keyword importance. Method.
【請求項15】 上記データ・ベースが複数の文書情報
に関する上記検索用データに加えて,上記複数の文書情
報を格納するものであり,上記データ・ベース管理手段
は所与のデータ・ベース検索条件に合致する検索用デー
タを探し出したのち,その検索用データに関連する文書
情報を読出す,請求項14に記載のデータ・ベース検索方
法。
15. The database stores the plurality of pieces of document information in addition to the search data relating to the plurality of pieces of document information, and the database management means provides a given data base search condition. 15. The database search method according to claim 14, wherein after searching for the search data that matches with, the document information related to the search data is read.
【請求項16】 合致度が所定値以上の検索用データに
関する文書情報を読出す,請求項15に記載のデータ・ベ
ース検索方法。
16. The database search method according to claim 15, wherein the document information regarding the search data having a matching degree of a predetermined value or more is read.
【請求項17】 複数の第1の見出し語,上記第1の各
見出し語に関連する関連語,および第1の見出し語と上
記関連語との関連の度合いを表わす関連度があらかじめ
登録されている関連語辞書をさらに備え,抽出された上
記キーワード候補のそれぞれについて,上記関連語辞書
から関連語および関連度を読出し,一のキーワード候補
について読出した関連語と同じ語が他のキーワード候補
にあれば,該他のキーワード候補のキーワード統計情報
と読出した上記関連度とに基づいて,上記一のキーワー
ド候補のキーワード統計情報の少なくとも一部を共有化
的修正を行なう,請求項14に記載のデータ・ベース検索
方法。
17. A plurality of first headwords, related words related to each of the first headwords, and a degree of relevance indicating a degree of relevance between the first headword and the related words are registered in advance. A related word dictionary is further provided, and for each of the extracted keyword candidates, the related word and the degree of association are read from the related word dictionary, and the same word as the related word read for one keyword candidate is used as another keyword candidate. 15. The data according to claim 14, wherein at least a part of the keyword statistical information of the one keyword candidate is sharedly corrected based on the keyword statistical information of the other keyword candidate and the read degree of association. -Base search method.
【請求項18】 複数の第2の見出し語,および上記第
2の各見出し語についてそれが属する分類毎に分類別重
要度を分類別重要度辞書にあらかじめ登録しておき,抽
出されたキーワード候補の分類別重要度を上記分類別重
要度辞書から読出し,上記キーワード候補の上記分類別
重要度と上記キーワード候補のキーワード統計情報に含
まれる情報とに基づいて,入力された文書情報の属する
分類を決定する,請求項14に記載のデータ・ベース検索
方法。
18. A keyword candidate extracted from a plurality of second headwords and each of the second headwords registered in advance in a classification importance dictionary for each classification to which it belongs. Is read from the classification importance dictionary and the classification to which the input document information belongs is determined based on the classification importance of the keyword candidates and the information included in the keyword statistical information of the keyword candidates. The database search method according to claim 14, which is determined.
【請求項19】 文書情報を入力する文書入力手段,文
書入力手段により入力された上記文書情報からキーワー
ド候補を抽出するキーワード抽出手段,上記キーワード
抽出手段により抽出された上記キーワード候補に関する
キーワード統計情報を作成するキーワード統計情報作成
手段,重要度評価規則およびメンバーシップ関数が分類
毎にあらかじめ登録されている分類別重要度評価規則辞
書,入力された文書情報の分類に応じて,上記分類別重
要度評価規則辞書に登録されている重要度評価規則およ
びメンバーシップ関数を選択する重要度評価規則選択手
段,上記分類別重要度評価規則辞書から上記重要度評価
規則選択手段により選択された重要度評価規則およびメ
ンバーシップ関数にしたがって,上記キーワード統計情
報作成手段により作成された上記キーワード統計情報に
基づいて,上記キーワード抽出手段により抽出された上
記キーワード候補のキーワード重要度を算出するキーワ
ード重要度評価手段,複数の自然語,および上記複数の
自然語に対応する統制語があらかじめ登録されている自
然語/統制語辞書,ならびに上記キーワード抽出手段に
より抽出された上記キーワード候補を,上記自然語/統
制語辞書を参照して統制語に変換し,上記キーワード重
要度評価手段により算出された上記キーワード候補のキ
ーワード重要度を変換した上記統制語のキーワード重要
度とする統制語生成手段,を備えた入力された文書情報
から統制語を作成する装置。
19. Document input means for inputting document information, keyword extraction means for extracting keyword candidates from the document information input by the document input means, and keyword statistical information relating to the keyword candidates extracted by the keyword extraction means. A keyword statistical information creation means to be created, a classification importance evaluation rule dictionary in which the importance evaluation rules and membership functions are registered in advance for each classification, and the above-mentioned importance evaluation by classification according to the classification of the input document information. An importance evaluation rule selecting means for selecting an importance evaluation rule and a membership function registered in the rule dictionary; an importance evaluation rule selected by the importance evaluation rule selecting means from the classification-based importance evaluation rule dictionary; Created by the above keyword statistical information creation means according to the membership function. Keyword importance evaluation means for calculating the keyword importance of the keyword candidates extracted by the keyword extraction means based on the generated keyword statistical information, a plurality of natural words, and controls corresponding to the plurality of natural words The natural language / controlled word dictionary in which words are registered in advance, and the keyword candidates extracted by the keyword extraction means are converted into controlled words by referring to the natural language / controlled word dictionary, and the keyword importance evaluation is performed. An apparatus for creating a controlled word from input document information, comprising controlled word generation means for converting the keyword importance of the keyword candidate calculated by the means into the keyword importance of the controlled word.
【請求項20】 複数の第1の見出し語,上記第1の各
見出し語に関連する関連語,および第1の見出し語と上
記関連語との関連の度合いを表わす関連度があらかじめ
登録されている関連語辞書をさらに備え,上記キーワー
ド統計情報作成手段は,上記キーワード抽出手段により
抽出された上記キーワード候補のそれぞれについて,上
記関連語辞書から関連語および関連度を読出し,一のキ
ーワード候補について読出した関連語と同じ語が他のキ
ーワード候補にあれば,該他のキーワード候補のキーワ
ード統計情報と読出した上記関連度とに基づいて,上記
一のキーワード候補のキーワード統計情報の少なくとも
一部を共有化的修正を行なうものである,請求項19に記
載の入力された文書情報から統制語を作成する装置。
20. A plurality of first headwords, related words related to each of the first headwords, and a degree of relevance indicating a degree of relevance between the first headword and the related words are registered in advance. The related keyword dictionary is further provided, and the keyword statistical information creating means reads out the related word and the degree of association from the related word dictionary for each of the keyword candidates extracted by the keyword extracting means, and reads out one keyword candidate. If the same word as the related word is present in another keyword candidate, at least a part of the keyword statistical information of the one keyword candidate is shared based on the keyword statistical information of the other keyword candidate and the read degree of association. 20. An apparatus for creating a controlled word from the input document information according to claim 19, which is for making a chemical modification.
【請求項21】 複数の第2の見出し語,および上記第
2の各見出し語についてそれが属する分類毎に分類別重
要度があらかじめ登録されている分類別重要度辞書,お
よび上記キーワード抽出手段により抽出されたキーワー
ド候補の分類別重要度を上記分類別重要度辞書から読出
し,上記キーワード候補の上記分類別重要度と上記キー
ワード候補のキーワード統計情報に含まれる情報とに基
づいて,入力された文書情報の属する分類を決定する分
類決定手段,をさらに備えた請求項19に記載の入力され
た文書情報から統制語を作成する装置。
21. A plurality of second headwords, a category-specific importance dictionary in which a category-specific importance is registered in advance for each category to which each of the second headwords belongs, and the keyword extracting means. The category-specific importance of the extracted keyword candidates is read from the category-specific importance dictionary, and the input document is read based on the category-specific importance of the keyword candidates and the information included in the keyword statistical information of the keyword candidates. 20. An apparatus for creating a controlled word from the input document information according to claim 19, further comprising a classification determining means for determining a classification to which information belongs.
【請求項22】 上記統制語生成手段は,生成された上
記統制語の中で,所定閾値以上のキーワード重要度をも
つ統制語を入力された文書情報の統制語キーワードとし
て選択するものである,請求項19に記載の入力された文
書情報から統制語を作成する装置。
22. The controlled word generation means selects a controlled word having a keyword importance of a predetermined threshold value or more among the generated controlled words as a controlled word keyword of input document information, An apparatus for creating a controlled word from the input document information according to claim 19.
【請求項23】 重要度評価規則およびメンバーシップ
関数を分類別重要度評価規則辞書に分類毎にあらかじめ
登録しておき,複数の自然語,および上記複数の自然語
に対応する統制語を自然語/統制語辞書にあらかじめ登
録しておき,入力される文書情報を受付け,入力された
上記文書情報からキーワード候補を抽出し,抽出された
上記キーワード候補に関するキーワード統計情報を作成
し,入力された文書情報の分類に応じて,上記分類別重
要度評価規則辞書に登録されている重要度評価規則およ
びメンバーシップ関数を選択し,上記分類別重要度評価
規則辞書から選択された重要度評価規則およびメンバー
シップ関数にしたがって,上記キーワード統計情報に基
づいて,抽出された上記キーワード候補のキーワード重
要度を算出し,抽出された上記キーワード候補を,上記
自然語/統制語辞書を参照して統制語に変換し,算出さ
れた上記キーワード候補のキーワード重要度を変換した
上記統制語のキーワード重要度とする,入力された文書
情報から統制語を作成する方法。
23. An importance evaluation rule and a membership function are registered in advance in a classification-based importance evaluation rule dictionary for each classification, and a plurality of natural words and control words corresponding to the plurality of natural words are assigned to natural words. / Registered in the controlled word dictionary in advance, accept input document information, extract keyword candidates from the input document information, create keyword statistical information on the extracted keyword candidates, and input document The importance evaluation rules and membership functions registered in the classification importance evaluation rule dictionary are selected according to the information classification, and the importance evaluation rules and members selected from the classification importance evaluation rule dictionary are selected. According to the ship function, the keyword importance of the extracted keyword candidates is calculated and extracted based on the keyword statistical information. The selected keyword candidates are converted into controlled words by referring to the natural language / controlled word dictionary, and the calculated keyword importance of the keyword candidates is converted into the keyword importance of the controlled words. How to create controlled words from document information.
【請求項24】 複数の第1の見出し語,上記第1の各
見出し語に関連する関連語,および第1の見出し語と上
記関連語との関連の度合いを表わす関連度を関連語辞書
にあらかじめ登録しておき,抽出された上記キーワード
候補のそれぞれについて,上記関連語辞書から関連語お
よび関連度を読出し,一のキーワード候補について読出
した関連語と同じ語が他のキーワード候補にあれば,該
他のキーワード候補のキーワード統計情報と読出した上
記関連度とに基づいて,上記一のキーワード候補のキー
ワード統計情報の少なくとも一部を共有化的修正を行な
う,請求項23に記載の入力された文書情報から統制語を
作成する方法。
24. A plurality of first headwords, related words related to each of the first headwords, and a degree of relevance indicating a degree of relevance between the first headword and the related words are stored in a related word dictionary. For each of the extracted keyword candidates that have been registered in advance, the related word and the degree of association are read from the related word dictionary, and if the same word as the read related word for one keyword candidate exists in another keyword candidate, 24. The input according to claim 23, wherein at least a part of the keyword statistical information of the one keyword candidate is shared based on the keyword statistical information of the other keyword candidate and the read degree of association. How to create controlled words from document information.
【請求項25】 複数の第2の見出し語,および上記第
2の各見出し語についてそれが属する分類毎に分類別重
要度を分類別重要度辞書にあらかじめ登録しておき,抽
出されたキーワード候補の分類別重要度を上記分類別重
要度辞書から読出し,上記キーワード候補の上記分類別
重要度と上記キーワード候補のキーワード統計情報に含
まれる情報とに基づいて,入力された文書情報の属する
分類を決定する,請求項23に記載の入力された文書情報
から統制語を作成する方法。
25. A plurality of second headwords and, for each of the second headwords, a classification importance for each classification to which it belongs are registered in advance in a classification importance dictionary, and extracted keyword candidates. Is read from the classification importance dictionary and the classification to which the input document information belongs is determined based on the classification importance of the keyword candidates and the information included in the keyword statistical information of the keyword candidates. A method of creating a controlled word from the input document information according to claim 23, which is determined.
【請求項26】 生成された上記統制語の中で,所定閾
値以上のキーワード重要度をもつ統制語を入力された文
書情報の統制語キーワードとして選択する,請求項23に
記載の入力された文書情報から統制語を作成する方法。
26. The input document according to claim 23, wherein, of the generated control words, a control word having a keyword importance of a predetermined threshold value or more is selected as a control word keyword of the input document information. How to create controlled words from information.
【請求項27】 文書情報を入力する文書入力手段,文
書入力手段により入力された上記文書情報からキーワー
ド候補を抽出するキーワード抽出手段,上記キーワード
抽出手段により抽出された上記キーワード候補に関する
キーワード統計情報を作成するキーワード統計情報作成
手段,複数の第1の見出し語,および上記第1の各見出
し語についてそれが属する分類毎に分類別重要度があら
かじめ登録されている分類別重要度辞書,および上記キ
ーワード抽出手段により抽出されたキーワード候補の分
類別重要度を上記分類別重要度辞書から読出し,上記キ
ーワード候補の上記分類別重要度と上記キーワード候補
のキーワード統計情報に含まれる情報とに基づいて,入
力された文書情報の属する分類を決定する分類決定手
段,を備えた入力された文書情報を分類する装置。
27. Document input means for inputting document information, keyword extraction means for extracting keyword candidates from the document information input by the document input means, and keyword statistical information regarding the keyword candidates extracted by the keyword extraction means. Keyword statistical information creating means to be created, a plurality of first headwords, a category-specific importance dictionary in which a category-specific importance is registered in advance for each category to which each of the first headwords belongs, and the keyword The categorized importance of the keyword candidates extracted by the extraction means is read from the categorized importance dictionary, and is input based on the categorized importance of the keyword candidates and the information included in the keyword statistical information of the keyword candidates. Input means provided with a classification determining means for determining the classification to which the document information that has been registered belongs. A device for classifying document information.
【請求項28】 複数の第2の見出し語,上記第2の各
見出し語に関連する関連語,および第2の見出し語と上
記関連語との関連の度合いを表わす関連度があらかじめ
登録されている関連語辞書をさらに備え,上記キーワー
ド統計情報作成手段は,上記キーワード抽出手段により
抽出された上記キーワード候補のそれぞれについて,上
記関連語辞書から関連語および関連度を読出し,一のキ
ーワード候補について読出した関連語と同じ語が他のキ
ーワード候補にあれば,該他のキーワード候補のキーワ
ード統計情報と読出した上記関連度とに基づいて,上記
一のキーワード候補のキーワード統計情報の少なくとも
一部を共有化的修正を行なうものである,請求項27に記
載の入力された文書情報を分類する装置。
28. A plurality of second headwords, related words related to each of the second headwords, and a degree of relevance indicating a degree of relevance between the second headwords and the related words are registered in advance. The related keyword dictionary is further provided, and the keyword statistical information creating means reads out the related word and the degree of association from the related word dictionary for each of the keyword candidates extracted by the keyword extracting means, and reads out one keyword candidate. If the same word as the related word is present in another keyword candidate, at least a part of the keyword statistical information of the one keyword candidate is shared based on the keyword statistical information of the other keyword candidate and the read degree of association. The device for classifying the input document information according to claim 27, which is adapted to make a chemical modification.
【請求項29】 複数の第1の見出し語,および上記第
1の各見出し語についてそれが属する分類毎に分類別重
要度を分類別重要度辞書にあらかじめ登録しておき,入
力される文書情報を受付け,入力された上記文書情報か
らキーワード候補を抽出し,抽出された上記キーワード
候補に関するキーワード統計情報を作成し,抽出された
キーワード候補の分類別重要度を上記分類別重要度辞書
から読出し,上記キーワード候補の上記分類別重要度と
上記キーワード候補のキーワード統計情報に含まれる情
報とに基づいて,入力された文書情報の属する分類を決
定する,入力された文書情報を分類する方法。
29. A plurality of first headwords and, for each of the first headwords, the classification importance for each category to which the classification importance is registered in advance in the classification importance dictionary, and the input document information. Is received, the keyword candidates are extracted from the input document information, keyword statistical information regarding the extracted keyword candidates is created, and the classified importance of the extracted keyword candidates is read from the classified importance dictionary, A method for classifying input document information, wherein the classification to which the input document information belongs is determined based on the importance of the keyword candidates by classification and the information included in the keyword statistical information of the keyword candidates.
【請求項30】 複数の第2の見出し語,上記第2の各
見出し語に関連する関連語,および第2の見出し語と上
記関連語との関連の度合いを表わす関連度を関連語辞書
にあらかじめ登録しておき,抽出された上記キーワード
候補のそれぞれについて,上記関連語辞書から関連語お
よび関連度を読出し,一のキーワード候補について読出
した関連語と同じ語が他のキーワード候補にあれば,該
他のキーワード候補のキーワード統計情報と読出した上
記関連度とに基づいて,上記一のキーワード候補のキー
ワード統計情報の少なくとも一部を共有化的修正を行な
う,請求項29に記載の入力された文書情報を分類する方
法。
30. A plurality of second headwords, a related word related to each of the second headwords, and a degree of relevance indicating a degree of relevance between the second headword and the related word are stored in a related word dictionary. For each of the extracted keyword candidates that have been registered in advance, the related word and the degree of association are read from the related word dictionary, and if the same word as the read related word for one keyword candidate exists in another keyword candidate, 30. The input according to claim 29, wherein at least a part of the keyword statistical information of the one keyword candidate is shared based on the keyword statistical information of the other keyword candidate and the read degree of association. How to classify document information.
JP12475193A 1993-04-30 1993-04-30 Document processing apparatus and method, and database search apparatus and method Expired - Fee Related JP3428068B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP12475193A JP3428068B2 (en) 1993-04-30 1993-04-30 Document processing apparatus and method, and database search apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12475193A JP3428068B2 (en) 1993-04-30 1993-04-30 Document processing apparatus and method, and database search apparatus and method

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2002366351A Division JP2003178082A (en) 2002-12-18 2002-12-18 Device and method for classifying document information

Publications (2)

Publication Number Publication Date
JPH06314297A true JPH06314297A (en) 1994-11-08
JP3428068B2 JP3428068B2 (en) 2003-07-22

Family

ID=14893219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12475193A Expired - Fee Related JP3428068B2 (en) 1993-04-30 1993-04-30 Document processing apparatus and method, and database search apparatus and method

Country Status (1)

Country Link
JP (1) JP3428068B2 (en)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08249341A (en) * 1995-03-08 1996-09-27 Nec Corp Document storage and retrieval device for document data base
JPH08340519A (en) * 1995-06-13 1996-12-24 Matsushita Electric Ind Co Ltd Information extract device and teletext broadcast receiver with information extract function
JPH0973464A (en) * 1995-09-07 1997-03-18 Fujitsu Ltd Similar instance retrieval device
JPH11353314A (en) * 1998-06-02 1999-12-24 Sharp Corp Method and device for preparing index, use of index and storage medium
JP2003085177A (en) * 2001-09-14 2003-03-20 Murata Mach Ltd Information storage device
JP2004501421A (en) * 2000-03-27 2004-01-15 ドキュメンタム,インコーポレイティド Method and apparatus for generating metadata for documents
JP2005173999A (en) * 2003-12-11 2005-06-30 Ricoh Co Ltd Device, system and method for searching electronic file, program, and recording media
JP2009505288A (en) * 2005-08-15 2009-02-05 エブリックス・テクノロジーズ・インコーポレイテッド Use information from images as search criteria for the Internet and other search engines
JP2016522922A (en) * 2013-04-17 2016-08-04 トムトム ナビゲーション ベスローテン フエンノートシャップTomTom Navigation B.V. Method, apparatus and computer software for facilitating search and display of locations associated with a digital map
JP2016524736A (en) * 2013-04-17 2016-08-18 トムトム ナビゲーション ベスローテン フエンノートシャップTomTom Navigation B.V. Method, apparatus and computer software for facilitating search and display of locations associated with a digital map
US10281295B2 (en) 2013-04-17 2019-05-07 Tomtom Navigation B.V. Methods, devices and computer software for facilitating searching and display of locations relevant to a digital map
CN115204123A (en) * 2022-07-29 2022-10-18 北京知元创通信息技术有限公司 Analysis method, analysis device and storage medium for collaborative editing of document

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63244259A (en) * 1987-03-31 1988-10-11 Matsushita Electric Ind Co Ltd Keyword extractor
JPH01112331A (en) * 1987-10-26 1989-05-01 Nippon Telegr & Teleph Corp <Ntt> Automatic evaluation device for significance of key word
JPH01188934A (en) * 1988-01-22 1989-07-28 Nec Corp Automatic document sorting device
JPH0378872A (en) * 1989-08-23 1991-04-04 Nec Corp Document field estimating system
JPH03232064A (en) * 1990-02-08 1991-10-16 Matsushita Electric Ind Co Ltd Information retrieving device
JPH0454564A (en) * 1990-06-21 1992-02-21 Nippon Telegr & Teleph Corp <Ntt> Weight learning type text base retrieving device
JPH0498461A (en) * 1990-08-10 1992-03-31 Ricoh Co Ltd Keyword extracting device

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63244259A (en) * 1987-03-31 1988-10-11 Matsushita Electric Ind Co Ltd Keyword extractor
JPH01112331A (en) * 1987-10-26 1989-05-01 Nippon Telegr & Teleph Corp <Ntt> Automatic evaluation device for significance of key word
JPH01188934A (en) * 1988-01-22 1989-07-28 Nec Corp Automatic document sorting device
JPH0378872A (en) * 1989-08-23 1991-04-04 Nec Corp Document field estimating system
JPH03232064A (en) * 1990-02-08 1991-10-16 Matsushita Electric Ind Co Ltd Information retrieving device
JPH0454564A (en) * 1990-06-21 1992-02-21 Nippon Telegr & Teleph Corp <Ntt> Weight learning type text base retrieving device
JPH0498461A (en) * 1990-08-10 1992-03-31 Ricoh Co Ltd Keyword extracting device

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08249341A (en) * 1995-03-08 1996-09-27 Nec Corp Document storage and retrieval device for document data base
JPH08340519A (en) * 1995-06-13 1996-12-24 Matsushita Electric Ind Co Ltd Information extract device and teletext broadcast receiver with information extract function
JPH0973464A (en) * 1995-09-07 1997-03-18 Fujitsu Ltd Similar instance retrieval device
JPH11353314A (en) * 1998-06-02 1999-12-24 Sharp Corp Method and device for preparing index, use of index and storage medium
JP2004501421A (en) * 2000-03-27 2004-01-15 ドキュメンタム,インコーポレイティド Method and apparatus for generating metadata for documents
JP2003085177A (en) * 2001-09-14 2003-03-20 Murata Mach Ltd Information storage device
JP2005173999A (en) * 2003-12-11 2005-06-30 Ricoh Co Ltd Device, system and method for searching electronic file, program, and recording media
JP2009505288A (en) * 2005-08-15 2009-02-05 エブリックス・テクノロジーズ・インコーポレイテッド Use information from images as search criteria for the Internet and other search engines
JP2016522922A (en) * 2013-04-17 2016-08-04 トムトム ナビゲーション ベスローテン フエンノートシャップTomTom Navigation B.V. Method, apparatus and computer software for facilitating search and display of locations associated with a digital map
JP2016524736A (en) * 2013-04-17 2016-08-18 トムトム ナビゲーション ベスローテン フエンノートシャップTomTom Navigation B.V. Method, apparatus and computer software for facilitating search and display of locations associated with a digital map
US10281295B2 (en) 2013-04-17 2019-05-07 Tomtom Navigation B.V. Methods, devices and computer software for facilitating searching and display of locations relevant to a digital map
US10733219B2 (en) 2013-04-17 2020-08-04 Tomtom Navigation B.V. Methods, devices and computer software for facilitating searching and display of locations relevant to a digital map
US11720574B2 (en) 2013-04-17 2023-08-08 Tomtom Navigation B.V. Methods, devices and computer software for facilitating searching and display of locations relevant to a digital map
CN115204123A (en) * 2022-07-29 2022-10-18 北京知元创通信息技术有限公司 Analysis method, analysis device and storage medium for collaborative editing of document
CN115204123B (en) * 2022-07-29 2023-02-17 北京知元创通信息技术有限公司 Collaborative editing document analysis method, analysis device, and storage medium

Also Published As

Publication number Publication date
JP3428068B2 (en) 2003-07-22

Similar Documents

Publication Publication Date Title
Singh et al. Text similarity measures in news articles by vector space model using NLP
KR102020756B1 (en) Method for Analyzing Reviews Using Machine Leaning
US6415283B1 (en) Methods and apparatus for determining focal points of clusters in a tree structure
US6826567B2 (en) Registration method and search method for structured documents
US6826576B2 (en) Very-large-scale automatic categorizer for web content
WO2021076606A1 (en) Conceptual, contextual, and semantic-based research system and method
JP2978044B2 (en) Document classification device
JP2742115B2 (en) Similar document search device
JPH096799A (en) Document sorting device and document retrieving device
Kruger et al. DEADLINER: Building a new niche search engine
Sikdar et al. Differential evolution based feature selection and classifier ensemble for named entity recognition
JP3428068B2 (en) Document processing apparatus and method, and database search apparatus and method
CN114611491A (en) Intelligent government affair public opinion analysis research method based on text mining technology
JP3847273B2 (en) Word classification device, word classification method, and word classification program
JP3198932B2 (en) Document search device
CN111767733A (en) Document security classification discrimination method based on statistical word segmentation
Schweighofer et al. Legal expert system KONTERM—automatic representation of document structure and contents
JPH06282587A (en) Automatic classifying method and device for document and dictionary preparing method and device for classification
JP3368301B2 (en) Document processing apparatus and method
JP4362492B2 (en) Document indexing device, document search device, document classification device, method and program thereof
JP3428060B2 (en) Data base search apparatus and method
Abdolahi et al. A new method for sentence vector normalization using word2vec
JPH09297766A (en) Similar document retrieval device
JP2003178082A (en) Device and method for classifying document information
JP2002108894A (en) Device and method for sorting document and recording medium for executing the method

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090516

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees