JPH0619970A - Key word extracting system - Google Patents

Key word extracting system

Info

Publication number
JPH0619970A
JPH0619970A JP4173941A JP17394192A JPH0619970A JP H0619970 A JPH0619970 A JP H0619970A JP 4173941 A JP4173941 A JP 4173941A JP 17394192 A JP17394192 A JP 17394192A JP H0619970 A JPH0619970 A JP H0619970A
Authority
JP
Japan
Prior art keywords
key word
data
keyword
data holding
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4173941A
Other languages
Japanese (ja)
Inventor
Yukiko Horie
由記子 堀江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP4173941A priority Critical patent/JPH0619970A/en
Publication of JPH0619970A publication Critical patent/JPH0619970A/en
Withdrawn legal-status Critical Current

Links

Abstract

PURPOSE:To fairly and efficiently extract key words. CONSTITUTION:An input means 1 converts a type part except graphics and charts, etc., to a readable form by utilizing an OCR or the like. A data extraction part 12 reads data from the input means 1 and outputs a key word candidate from a dictionary provided beforehand and the predetermined kinds of stop words. A data maintenance part 13 retreives a data holding part 5 relating to the extracted key word candidate, newly stores the key word candidate in the data holding part 5 when it is not present on the data holding part 5 and increases the appearance number of time of counter of the key word candidate by '1' when it is present. An output part 14 outputs the key word candidate for which the value of the appearence number of times of counter of the extracted key word is more than a predetermined value as the key word.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は情報検索システムにおけ
るフルテキストサーチによるキーワード抽出方法に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a keyword extraction method by full text search in an information retrieval system.

【0002】[0002]

【従来の技術】従来の情報検索システムにおけるキーワ
ード抽出方法は、ドキュメントの作成者や、第3者の専
門家によって個別に行われていた。
2. Description of the Related Art A conventional keyword extraction method in an information retrieval system has been individually performed by a document creator or a third party expert.

【0003】[0003]

【発明が解決しようとする課題】上述した従来のキーワ
ード抽出方法は、ドキュメントの作成者や、第3者の専
門家の主感的な判断に頼ってしまい、本人が最も述べた
い重要な事項については押さえることができるが、それ
以外の関連事項などに目が届かないという問題があっ
た。
The above-described conventional keyword extraction method relies on the sensible judgments of the creator of the document and the experts of the third party, and the important matters that the person wants to state most Although I can suppress it, there was a problem that I could not pay attention to other related matters.

【0004】また、対象ドキュメントに対する専門知識
が不足している場合、内容を完全に理解することが困難
なため、抽出すべきキーワードを見落してしまったり、
時間を費やしてしまうという問題があった。
If the target document is lacking in specialized knowledge, it is difficult to completely understand the contents, and some keywords to be extracted may be overlooked.
There was the problem of spending time.

【0005】[0005]

【課題を解決するための手段】第1の発明は、情報検索
システムにおけるキーワード抽出方式において、OCR
等を利用し図や表等を除いた活字部分を読み出し可能な
形式へ変換する入力手段と、前記入力手段からデータを
読み出し予め備えた辞書及び予め定められた種類のスト
ップワードからキーワード候補を出力するデータ抽出部
と、抽出された前記キーワード候補に関し予め備えたデ
ータ保持部を検索し前記データ保持部に存在しなければ
前記キーワード候補を前記データ保持部に新たに格納し
存在すれば前記キーワード候補の出現回数カウンタを1
増加させるデータ保守部と、抽出された前記キーワード
候補の前記出現回数カウンタの値が予め決められた値以
上の前記キーワード候補をキーワードとして出力する出
力手段を備えたことを特徴とする。
A first invention is an OCR in a keyword extraction method in an information retrieval system.
Input means for converting the type part except for figures and tables into a readable format by using the above, and reading keyword data from the input means and outputting keyword candidates from a dictionary and a stop word of a predetermined type. And a data holding unit that is provided in advance for the extracted keyword candidate, and if the data holding unit does not exist, the keyword candidate is newly stored in the data holding unit, and if there is, the keyword candidate. 1 occurrence counter
It is characterized by further comprising: a data maintenance unit for increasing the number; and an output unit for outputting, as a keyword, the keyword candidate in which the value of the appearance frequency counter of the extracted keyword candidate is a predetermined value or more.

【0006】[0006]

【実施例】次に、本発明の実施例について図面を参照し
て説明する。
Embodiments of the present invention will now be described with reference to the drawings.

【0007】図1は本発明の一実施例を示すブロック
図、図2は本実施例におけるデータ保持部5の動作の流
れを示す図である。
FIG. 1 is a block diagram showing an embodiment of the present invention, and FIG. 2 is a diagram showing a flow of operation of the data holding unit 5 in this embodiment.

【0008】入力手段1は、OCR等を利用し、図や表
等を除いた活字部分を読み出し可能な形式へ変換する機
能と、入力データ解読部3に蓄積されたストップワード
を更新する機能を有する。
The input means 1 has a function of using OCR or the like to convert a type part except for figures and tables into a readable format and a function of updating the stop word accumulated in the input data decoding section 3. Have.

【0009】データ抽出部12は、読み出し指示部2に
よって入力手段1からデータを読み出し、入力データ解
読部3で辞書機能により単語を認識しながら、助詞、冠
詞、句読点などのストップワードを検出するまで読み出
し続ける。
The data extraction unit 12 reads data from the input unit 1 by the read instruction unit 2 and recognizes words by the dictionary function in the input data decoding unit 3 until detecting stop words such as particles, articles, and punctuation marks. Continue reading.

【0010】データ保守部13は、抽出された単語をデ
ータ保持部5に格納されたデータと比較演算部4により
比較し、存在しなければデータ保持部5に新たに格納
し、存在すれば出現回数カウンタを1増加させる。
The data maintenance unit 13 compares the extracted word with the data stored in the data holding unit 5 by the comparison operation unit 4, newly stores it in the data holding unit 5 if it does not exist, and appears it if it exists. Increment the frequency counter by 1.

【0011】出力部14は、登録部9により抽出された
データの出現頻度によってレベル分け(重み付け)し、
キーワードとなるものを選出し、出力手段10に出力す
る。制御部6は、メモリ制御部7を介してメモリ8に格
納されたプログラムを実行し、システム全体を制御す
る。
The output unit 14 classifies (weights) the data extracted by the registration unit 9 according to the frequency of appearance,
A keyword is selected and output to the output means 10. The control unit 6 executes the program stored in the memory 8 via the memory control unit 7, and controls the entire system.

【0012】次に、図2を用いて本実施例の動作を説明
する。
Next, the operation of this embodiment will be described with reference to FIG.

【0013】読み出し指示部2により、文頭“ま”から
1文字すづ読み出し、“まいごの”まで読み出したとこ
ろで、入力データ解読部3が“まいご”という単語と
“の”というストップワードを検出すると、比較演算部
4により“まいご”という単語が既にデータ保持部5に
格納されているかどうかを確認する。既に登録されてい
れば、カウンタを1つ増やし、されていなければデータ
保持部5に格納する。この例では、“まいご”という単
語はまだ格納されていないとすると、データ保持部5に
格納しカウンタの値を1とする(ステップ1)。
When the read instruction unit 2 reads out one character from the beginning of the sentence, "Maigo no", the input data decoding unit 3 detects the word "Mago" and the stop word "No". The comparison operation unit 4 confirms whether or not the word “maigo” is already stored in the data holding unit 5. If it is already registered, the counter is incremented by one, and if it is not registered, it is stored in the data holding unit 5. In this example, if the word "maigo" is not stored yet, it is stored in the data holding unit 5 and the value of the counter is set to 1 (step 1).

【0014】以上の動作を繰り返し、ドキュメントの最
後までくると(ステップ4)、登録部9により予め決め
られた値以上の重みを有する単語をキーワードとして指
定し、出力手段10に出力する。
When the above operation is repeated and the end of the document is reached (step 4), a word having a weight of a predetermined value or more is designated by the registration unit 9 as a keyword and output to the output means 10.

【0015】[0015]

【発明の効果】以上説明したように、本発明は、キーワ
ードを決められた基準で、自動的に抽出できるようにし
たことにより、公正に効率良くキーワード抽出が実行さ
れる効果がある。
As described above, according to the present invention, keywords can be automatically extracted on the basis of a predetermined standard, so that keywords can be extracted fairly efficiently.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例を示すブロック図である。FIG. 1 is a block diagram showing an embodiment of the present invention.

【図2】本実施例におけるデータ保持部の動作の流れを
示す図である。
FIG. 2 is a diagram showing a flow of operations of a data holding unit in the present embodiment.

【符号の説明】[Explanation of symbols]

1 入力手段 2 読み出し指示部 3 入力データ解読部 4 比較演算部 5 データ保持部 6 制御部 7 メモリ制御部 8 メモリ 9 登録部 10 出力手段 12 データ抽出部 13 データ保守部 14 出力部 DESCRIPTION OF SYMBOLS 1 Input means 2 Read instruction section 3 Input data decoding section 4 Comparison calculation section 5 Data holding section 6 Control section 7 Memory control section 8 Memory 9 Registration section 10 Output means 12 Data extraction section 13 Data maintenance section 14 Output section

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】情報検索システムにおけるキーワード抽出
方式において、OCR等を利用し図や表等を除いた活字
部分を読み出し可能な形式へ変換する入力手段と、前記
入力手段からデータを読み出し予め備えた辞書及び予め
定められた種類のストップワードからキーワード候補を
出力するデータ抽出部と、抽出された前記キーワード候
補に関し予め備えたデータ保持部を検索し前記データ保
持部に存在しなければ前記キーワード候補を前記データ
保持部に新たに格納し存在すれば前記キーワード候補の
出現回数カウンタを1増加させるデータ保守部と、抽出
された前記キーワード候補の前記出現回数カウンタの値
が予め決められた値以上の前記キーワード候補をキーワ
ードとして出力する出力手段を備えたことを特徴とする
キーワード抽出方式。
1. A keyword extraction method in an information retrieval system, comprising input means for converting a type part except for figures and tables into a readable format by using OCR and the like, and reading data from the input means and preliminarily provided. A data extraction unit that outputs a keyword candidate from a dictionary and a predetermined type of stopword, and a data holding unit that is provided in advance with respect to the extracted keyword candidate are searched, and if the data holding unit does not exist, the keyword candidate is found. A data maintenance unit that increases the appearance count counter of the keyword candidate by 1 if it is newly stored in the data holding unit and a value of the appearance count counter of the extracted keyword candidate is a predetermined value or more. A method for extracting a keyword, characterized by having an output means for outputting a keyword candidate as a keyword .
JP4173941A 1992-07-01 1992-07-01 Key word extracting system Withdrawn JPH0619970A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4173941A JPH0619970A (en) 1992-07-01 1992-07-01 Key word extracting system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4173941A JPH0619970A (en) 1992-07-01 1992-07-01 Key word extracting system

Publications (1)

Publication Number Publication Date
JPH0619970A true JPH0619970A (en) 1994-01-28

Family

ID=15969909

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4173941A Withdrawn JPH0619970A (en) 1992-07-01 1992-07-01 Key word extracting system

Country Status (1)

Country Link
JP (1) JPH0619970A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000055765A1 (en) * 1999-03-05 2000-09-21 Cai Co., Ltd. Method for sorting/searching/abstracting documents
US8180772B2 (en) 2008-02-26 2012-05-15 Sharp Kabushiki Kaisha Electronic data retrieving apparatus

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000055765A1 (en) * 1999-03-05 2000-09-21 Cai Co., Ltd. Method for sorting/searching/abstracting documents
US8180772B2 (en) 2008-02-26 2012-05-15 Sharp Kabushiki Kaisha Electronic data retrieving apparatus

Similar Documents

Publication Publication Date Title
US7197449B2 (en) Method for extracting name entities and jargon terms using a suffix tree data structure
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US20020077816A1 (en) Method and system for automatically extracting new word
Zhang et al. A trainable method for extracting Chinese entity names and their relations
US7212963B2 (en) System for distinguishing names in Asian writing systems
JP2572314B2 (en) Keyword extraction device
JPH01217623A (en) Automatic key word generating device
JPH05324722A (en) Document retrieval system
JPH0619970A (en) Key word extracting system
JP2000148754A (en) Multilingual system, multilingual processing method, and medium storing program for multilingual processing
JPS61248160A (en) Document information registering system
JPH0619968A (en) Automatic extraction device for technical term
JP2885489B2 (en) Document content search device
JPS6389976A (en) Language analyzer
JPH0969785A (en) Method and device for data compression
JP4096093B2 (en) Character string input device and program
JP2001184351A (en) Document information extracting device and document sorting device
JPH07319890A (en) Document registration/retrieval system
JP2570784B2 (en) Document reader post-processing device
JPH07141396A (en) Information watching system
JP3233283B2 (en) Japanese sentence analyzer
CN114398880A (en) System and method for optimizing Chinese word segmentation
JPH0954781A (en) Document retrieving system
JPH0535794A (en) Generating retrieval keyword for knowledge data base
JPH03229358A (en) Japanese sentence analyzing device

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19991005