JP2002197095A - Keyword extracting device and information retrieving device - Google Patents

Keyword extracting device and information retrieving device

Info

Publication number
JP2002197095A
JP2002197095A JP2000394194A JP2000394194A JP2002197095A JP 2002197095 A JP2002197095 A JP 2002197095A JP 2000394194 A JP2000394194 A JP 2000394194A JP 2000394194 A JP2000394194 A JP 2000394194A JP 2002197095 A JP2002197095 A JP 2002197095A
Authority
JP
Japan
Prior art keywords
document
keyword
appearance
character string
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000394194A
Other languages
Japanese (ja)
Inventor
Kyoji Umemura
恭司 梅村
Yoshinori Takenami
佳則 武並
Masahiro Kishida
正博 岸田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sumitomo Electric Industries Ltd
Original Assignee
Sumitomo Electric Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sumitomo Electric Industries Ltd filed Critical Sumitomo Electric Industries Ltd
Priority to JP2000394194A priority Critical patent/JP2002197095A/en
Publication of JP2002197095A publication Critical patent/JP2002197095A/en
Withdrawn legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To extract a keyword from a document without necessity of a dictionary. SOLUTION: A keyword extracting device includes a suffix file generating part 22 to receive a group of documents and to generate a suffix file to be described later from the group of documents, a suffix file storage part 24 to store the suffix file, a punctuating part 28 to receive an optional document to be included in the group of documents or a document in the same field as the group of documents and to punctuate the document at a break of a sentence such as punctuation marks, a score calculating part 26 to properly punctuate the sentence based on the suffix file and the sentence supplied from the punctuating part 28 and to calculate appearance frequency α, a degree β of concentration of appearance and weight, etc., to be described later, an operation result storage part 30 to store an operation result, a document separating part 32 to punctuate the document into candidates of the keyword based on the operation result and a narrowing part 34 to narrow down the candidates of the keyword.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明はキーワード抽出装置
および情報検索装置に関し、特に、辞書を必要とせずに
ドキュメント群からキーワードを抽出可能なキーワード
抽出装置および情報検索装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a keyword extraction device and an information retrieval device, and more particularly to a keyword extraction device and an information retrieval device capable of extracting a keyword from a document group without requiring a dictionary.

【0002】[0002]

【従来の技術】最新の技術情報の速報やニュースなどを
整理する際には、検索のために記事の内容を特定できる
キーワードの付与が行なわれている。キーワードを付与
する作業を自動化できれば、キーワードが付与されてい
ないドキュメントの操作も容易になる。これまで検討さ
れているキーワード自動抽出は、辞書を用いて形態素解
析を行ない、その後、品詞情報と頻度情報とをもとにキ
ーワードを弁別する手法により行なわれている。
2. Description of the Related Art When arranging breaking news or news of the latest technical information, a keyword for specifying the content of an article is provided for search. If the task of assigning a keyword can be automated, the operation of a document to which no keyword has been assigned can be facilitated. The automatic keyword extraction that has been studied so far is performed by performing a morphological analysis using a dictionary, and then discriminating keywords based on part of speech information and frequency information.

【0003】[0003]

【発明が解決しようとする課題】しかし、辞書を用いる
手法は日々新しい単語が生まれるインターネット時代の
情報処理としては問題がある。その理由として、処理の
自動化が必要な最新の文章からキーワードを辞書に登録
し続ける必要があるため生産性が悪いことと、辞書に登
録されていない全く未知の用語に対する汎用性がないこ
とが挙げられる。
However, the method using a dictionary has a problem as information processing in the Internet age where new words are born every day. The reasons for this are that productivity must be low because keywords must be registered in the dictionary from the latest sentence that requires automated processing, and that there is no versatility for completely unknown terms that are not registered in the dictionary. Can be

【0004】本発明は上述の課題を解決するためになさ
れたもので、その目的は、辞書を必要とせずにドキュメ
ントよりキーワードを抽出可能なキーワード抽出装置を
提供することである。
SUMMARY OF THE INVENTION The present invention has been made to solve the above-described problem, and an object of the present invention is to provide a keyword extracting device capable of extracting a keyword from a document without requiring a dictionary.

【0005】本発明の他の目的は、辞書を必要とせずに
あるドキュメントに関連したドキュメントをドキュメン
ト群から抽出可能な情報検索装置を提供することであ
る。
It is another object of the present invention to provide an information retrieval apparatus capable of extracting a document related to a certain document from a group of documents without requiring a dictionary.

【0006】[0006]

【課題を解決するための手段】本発明のある局面に従う
キーワード抽出装置は、ドキュメント群における各ドキ
ュメントに含まれる部分文字列のドキュメント群中での
出現頻度を求めるための出現頻度算出手段と、部分文字
列のドキュメント群中での出現集中度を求めるための出
現集中度算出手段と、出現頻度算出手段および出現集中
度算出手段に接続され、出現頻度および出現集中度に基
づいて、入力されたドキュメントからキーワードを抽出
するための第1のキーワード抽出手段とを含む。
According to an aspect of the present invention, there is provided a keyword extracting apparatus comprising: an appearance frequency calculating unit for obtaining an appearance frequency of a partial character string included in each document in the document group; A document input device that is connected to an appearance concentration calculation unit for calculating the occurrence concentration degree of the character string in the document group, and an appearance frequency calculation unit and an appearance concentration degree calculation unit, and based on the appearance frequency and the appearance concentration degree, And first keyword extracting means for extracting a keyword from the keyword.

【0007】部分文字列の出現頻度および出現集中度に
基づいて、キーワードを抽出する。このため、辞書を必
要とせずにドキュメントよりキーワードを抽出すること
ができる。
A keyword is extracted based on the appearance frequency and appearance concentration of the partial character string. Therefore, keywords can be extracted from the document without requiring a dictionary.

【0008】好ましくは、第1のキーワード抽出手段
は、入力されたドキュメントを部分文字列に分割するた
めのドキュメント分割手段と、ドキュメント分割手段、
出現頻度算出手段および出現集中度算出手段に接続さ
れ、出現頻度および出現集中度に基づいて、部分文字列
の単語らしさを算出するための単語らしさ算出手段と、
単語らしさ算出手段に接続され、単語らしさの合計値に
基づいて、ドキュメントよりキーワードを抽出するため
の第2のキーワード抽出手段とを含む。
Preferably, the first keyword extracting means includes: a document dividing means for dividing the input document into partial character strings;
A word likeness calculating means connected to the appearance frequency calculating means and the appearance concentration degree calculating means, for calculating the word likeness of the partial character string based on the appearance frequency and the appearance concentration degree;
A second keyword extracting unit connected to the word-likeness calculating unit for extracting a keyword from the document based on the total value of the word-likeness.

【0009】さらに好ましくは、単語らしさ算出手段
は、ドキュメント分割手段、出現頻度算出手段および出
現集中度算出手段に接続され、出現頻度、出現集中度、
部分文字列の長さおよびドキュメントの平均サイズに基
づいて、部分文字列の単語らしさを算出するための手段
を含む。
More preferably, the word-likeness calculating means is connected to the document dividing means, the appearance frequency calculating means, and the appearance concentration degree calculating means.
Means for calculating wordiness of the partial character string based on the length of the partial character string and the average size of the document is included.

【0010】ドキュメントの平均サイズが小さくなる
と、出現集中度が0に近くなる傾向にある。このため、
ドキュメントの平均サイズで単語らしさの計算方法を変
えることにより、出現頻度が小さくなっても適切な単語
らしさを計算することができる。
[0010] As the average size of a document decreases, the degree of appearance concentration tends to approach zero. For this reason,
By changing the method of calculating the word-likeness at the average size of the document, it is possible to calculate the appropriate word-likeness even if the appearance frequency is reduced.

【0011】さらに好ましくは、キーワード抽出装置
は、さらに、第2のキーワード抽出手段、出現頻度算出
手段および出現集中度算出手段に接続され、第2のキー
ワード抽出手段で抽出されたキーワードを、出現頻度、
出現集中度および部分文字列の長さに基づいて絞り込む
ための絞込み手段を含む。
[0011] More preferably, the keyword extracting device is further connected to a second keyword extracting means, an appearance frequency calculating means, and an appearance concentration degree calculating means, and outputs the keyword extracted by the second keyword extracting means. ,
A narrowing-down unit for narrowing down based on the appearance concentration degree and the length of the partial character string is included.

【0012】さらに好ましくは、キーワード抽出装置
は、さらに、入力されたドキュメントを句読点で区切
り、ドキュメント分割手段に供給するための区切り手段
を含む。
[0012] More preferably, the keyword extracting apparatus further includes a separating unit for separating the input document by punctuation marks and supplying the document to the document dividing unit.

【0013】さらに好ましくは、ドキュメント分割手段
は、先頭文字が予め定められた文字より始まらないよう
に、入力されたドキュメントを部分文字列に分割するた
めの手段を含む。
[0013] More preferably, the document dividing means includes a means for dividing the input document into partial character strings so that the first character does not start with a predetermined character.

【0014】さらに好ましくは、ドキュメント分割手段
は、部分文字列の長さが予め定められた文字数以上にな
らないように、入力されたドキュメントを部分文字列に
分割するための手段を含む。
[0014] More preferably, the document dividing means includes means for dividing the input document into partial character strings such that the length of the partial character string does not exceed a predetermined number of characters.

【0015】本発明の他の局面に従う情報検索装置は、
ドキュメント群における各ドキュメントに含まれる部分
文字列のドキュメント群中での出現頻度を求めるための
出現頻度算出手段と、部分文字列のドキュメント群中で
の出現集中度を求めるための出現集中度算出手段と、出
現頻度算出手段および出現集中度算出手段に接続され、
出現頻度および出現集中度に基づいて、入力されたドキ
ュメントからキーワードを抽出するためのキーワード抽
出手段と、キーワード抽出手段に接続され、ドキュメン
ト群中の各ドキュメントについて、キーワード抽出手段
で抽出された各キーワードとの一致度を計算するための
一致度計算手段と、一致度計算手段に接続され、一致度
に基づいて、ドキュメント群中の各ドキュメントについ
て、入力されたドキュメントとの類似度を計算するため
の類似度計算手段と、類似度計算手段に接続され、類似
度に基づいて、入力されたドキュメントと関連するドキ
ュメントをドキュメント群より抽出するための手段とを
含む。
[0015] An information retrieval apparatus according to another aspect of the present invention comprises:
Appearance frequency calculation means for calculating the appearance frequency of the partial character string included in each document in the document group, and occurrence concentration calculation means for obtaining the appearance concentration degree of the partial character string in the document group And an appearance frequency calculation unit and an appearance concentration degree calculation unit,
Keyword extraction means for extracting a keyword from the input document based on the frequency of appearance and the degree of occurrence concentration, and each keyword extracted by the keyword extraction means for each document in the document group connected to the keyword extraction means A degree-of-match calculating means for calculating the degree of coincidence with, and a degree-of-similarity for each document in the document group based on the degree of similarity with the input document based on the degree of matching. A similarity calculating unit; and a unit connected to the similarity calculating unit, for extracting a document related to the input document from the document group based on the similarity.

【0016】入力されたドキュメントから辞書を用いず
にキーワードが抽出され、そのキーワードに関連するド
キュメントが抽出される。このため、辞書を必要とせず
に入力されたドキュメントに関連するドキュメントを抽
出することができる。
A keyword is extracted from the input document without using a dictionary, and a document related to the keyword is extracted. Therefore, it is possible to extract a document related to the input document without requiring a dictionary.

【0017】[0017]

【発明の実施の形態】[実施の形態1]図1を参照し
て、本発明の実施の形態に係るキーワード抽出装置は、
ドキュメント群を受け、ドキュメント群から後述するサ
フィックスファイルを作成するサフィックスファイル作
成部22と、サフィックスファイル作成部22に接続さ
れ、サフィックスファイル作成部22で作成されたサフ
ィックスファイルを記憶するサフィックスファイル記憶
部24と、ドキュメント群に含まれる任意のドキュメン
トまたはドキュメント群と同じ分野のドキュメントを受
け、「、」や「。」などの文章の切れ目でドキュメント
分割する区切り部28と、サフィックスファイル記憶部
24および区切り部28に接続され、サフィックスファ
イル記憶部24に記憶されたサフィックスファイルおよ
び区切り部28より供給された文章に基づいて、文章を
適宜区切り、後述する出現頻度α、出現集中度βおよび
重みなどの計算を行なうスコア計算部26と、スコア計
算部26に接続され、スコア計算部26での演算結果を
記憶する演算結果記憶部30と、演算結果記憶部30に
接続され、演算結果記憶部30に記憶された演算結果に
基づいて、ドキュメントをキーワードの候補に分割して
いくドキュメント分割部32と、ドキュメント分割部3
2に接続され、キーワード候補を絞込み、キーワードを
抽出する絞込み部34とを含む。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS [Embodiment 1] Referring to FIG. 1, a keyword extracting apparatus according to an embodiment of the present invention
A suffix file creation unit 22 that receives a document group and creates a suffix file described later from the document group, and a suffix file storage unit 24 that is connected to the suffix file creation unit 22 and stores the suffix file created by the suffix file creation unit 22 And a document included in the document group or a document in the same field as the document group, and separates the document at a break of a sentence such as “,” or “.”, A suffix file storage unit 24 and a separation unit 28, based on the suffix file stored in the suffix file storage unit 24 and the text supplied from the delimiter unit 28, the text is appropriately divided, and calculation of an appearance frequency α, an appearance concentration β, and a weight, which will be described later, is performed. line The score calculation unit 26, a calculation result storage unit 30 connected to the score calculation unit 26 and storing the calculation result of the score calculation unit 26, and a calculation result storage unit 30 connected to the calculation result storage unit 30 and stored in the calculation result storage unit 30 A document dividing unit 32 that divides the document into keyword candidates based on the calculated result, and a document dividing unit 3
2 and a narrowing-down unit 34 for narrowing down keyword candidates and extracting keywords.

【0018】[本発明の概要]本発明は文字列の出現頻
度に加えて出現集中度を示す統計量を用いることを特徴
とする。本発明にかかるキーワード抽出においては、す
べての部分文字列について出現集中度を求める必要があ
るため、単純に求めると計算量が膨大になる。我々は、
多数のドキュメント内の文字列の、出現集中度を求める
ための「サフィックスファイル」を用いる技術を既に確
立しており、これを利用する。
[Summary of the Present Invention] The present invention is characterized in that a statistic indicating the degree of appearance concentration is used in addition to the appearance frequency of a character string. In the keyword extraction according to the present invention, it is necessary to calculate the appearance concentration degree for all partial character strings. we,
A technique using a "suffix file" for determining the degree of occurrence concentration of character strings in many documents has already been established and is used.

【0019】[キーワード抽出の原理]出現集中度はad
aptationとして知られる統計量であり、「ある単語が1
つのドキュメントに現れたという条件で、同じ単語がも
う一度そのドキュメント内に出現する確率:P(2回出
現|1回出現)」の推定値である。この確率を推定する
ために、対象の文字列xに関して、「その文字列xを含
むドキュメントの数:df(x)」と「その文字列xを
2回以上含むドキュメントの数:df2(x)」を数え
上げる。そして、ベイズの規則を考慮した次式(1)よ
り上記した確率を推定する。ここでNは全ドキュメント
数である。
[Principle of keyword extraction] The appearance concentration is ad
A statistic known as aptation, where "a word is 1
Probability that the same word appears again in the document under the condition that it appears in one document: P (two occurrences | one occurrence). " In order to estimate this probability, regarding the target character string x, “the number of documents including the character string x: df (x)” and “the number of documents including the character string x twice or more: df2 (x)” ". Then, the above-mentioned probability is estimated from the following equation (1) in consideration of Bayes rule. Here, N is the total number of documents.

【0020】[0020]

【数1】 (Equation 1)

【0021】このdf(x)、df2(x)の引数x
は、すべての部分文字列を取り得る。単純な方法では大
規模なテキストを扱う際にメモリ量または計算量のどち
らかが実際的ではない程大きなものになる。
The arguments x of df (x) and df2 (x)
Can take all substrings. In a simple way, when dealing with large texts, either the amount of memory or the amount of computation is so large that it is impractical.

【0022】そこで、後述するサフィックスファイルと
して知られるデータ構造を利用して、部分文字列の抽出
を行なう。サフィックスファイルは、テキストの5倍の
メモリ空間を要するが、すべての部分文字列の位置がl
og(n)(n:テキストの大きさ)のオーダの計算量
で特定できる。
Therefore, a partial character string is extracted using a data structure known as a suffix file described later. The suffix file requires five times the memory space of the text, but the position of all substrings is l
og (n) (n: text size) can be specified by the amount of calculation.

【0023】サフィックスファイルの作成法と利用法に
ついては、「M.Yamamoto and K.W.Church, Using Suffi
x Arrays to Compute Term Frequency and Document Fr
equency for All Substrings in a Corpus, In proceed
ing of 6th Workshop on Very Large Corpora, Ed. Eug
ene Charniak, Motreal, pp28-37, 1998」にその詳細が
開示されている。
For details on how to create and use suffix files, see "M. Yamamoto and KWChurch, Using Suffi.
x Arrays to Compute Term Frequency and Document Fr
equency for All Substrings in a Corpus, In proceed
ing of 6th Workshop on Very Large Corpora, Ed.Eug
ene Charniak, Motreal, pp. 28-37, 1998 ".

【0024】サフィックスファイルを使うと、ある文字
列がドキュメントデータベース内に出現する回数を高速
に求めることができる。サフィックスファイルは、すべ
てのドキュメントにおいて生じうる部分の文字列を、文
字コード順に並べ替えて、通し番号(サフィックス)を
つけておくことで実現する。文字列がドキュメントデー
タベースに出現する回数tfは、その文字列と一致する
文字列がサフィックスファイルの中にいくつあるかを算
出することで求められる。
By using a suffix file, the number of times a certain character string appears in a document database can be obtained at high speed. The suffix file is realized by rearranging a character string of a part that can occur in all documents in the order of character codes and adding a serial number (suffix). The number of times tf that a character string appears in the document database can be obtained by calculating the number of character strings that match the character string in the suffix file.

【0025】具体的には、まず、ある文字列と一致する
文字列が出現するサフィックスの最小値minおよび最
大値maxをそれぞれ二分探索法により求める。一致す
る文字列がなければ、当該文字列がドキュメントデータ
ベースに出現する回数は0である。サフィックスの最小
値minおよび最大値maxとが求まれば、当該文字列
が出現する回数tfはtf=max−min+1として
求められる。
Specifically, first, a minimum value min and a maximum value max of a suffix in which a character string matching a certain character string appears are obtained by a binary search method. If there is no matching character string, the number of times the character string appears in the document database is zero. If the minimum value min and the maximum value max of the suffix are obtained, the number of times tf that the character string appears can be obtained as tf = max−min + 1.

【0026】ドキュメントデータベースのドキュメント
は、ドキュメント番号によって互いに区別されるものと
し、サフィックスファイルに登録する部分文字列にはこ
のドキュメント番号をつけておく。これによって、ある
部分文字列を含むドキュメントを効率的に検索すること
ができる。また、ある部分文字列を含むドキュメントの
数dfは、重複するドキュメント番号の数を数え上げ、
その数をtfから引くことによって計算することができ
る。またこのとき、この部分文字列を2回以上含むドキ
ュメント数がdf2である。
The documents in the document database are distinguished from each other by a document number, and the partial character string registered in the suffix file is given this document number. Thus, a document including a certain partial character string can be efficiently searched. In addition, the number of documents df including a certain partial character string is calculated by counting the number of duplicate document numbers,
It can be calculated by subtracting that number from tf. At this time, the number of documents including the partial character string twice or more is df2.

【0027】ここで、文字列xの出現確率の推定値(出
現頻度)であるdf(x)/Nをαとし、adaptationを
推定するdf2(x)/df(x)の推定値(出現集中
度)をβとする。文字列の出現がポアソン分布に従うと
仮定すると、αおよびβは同じ値になる。実際のコーパ
スではβの値が大きく、キーワードと認める文字列なら
αに比べその差は特に大きくなることが観測できる。
Here, df (x) / N, which is the estimated value (appearance frequency) of the appearance probability of the character string x, is α, and the estimated value of df2 (x) / df (x) for estimating the adaptation (appearance concentration) Degree) is β. Assuming that the occurrence of the character string follows a Poisson distribution, α and β have the same value. It can be observed that the value of β is large in an actual corpus, and the difference is particularly large in a character string recognized as a keyword compared to α.

【0028】出現集中の様子として、ここでは「ロボッ
トについて」という語の部分文字列xの一例とそれに対
応するdf、df2、α(=df/N)およびβ(=d
f2/df)とを図2に示す。ここで観測できることは
二つある。一つは、キーワードを構成する文字列では、
αに比べてβが大きいということである。このことは、
キーワードとなる語はドキュメント中に複数回出現する
ことが多いことを表わす。またこのことは、図2におい
ても容易に確認できる。もう一つは、語の境界を越える
とβが小さくなることである。これは、ある語は常に同
じ語として表われるが、その後に続く文字が様々に変化
し得ることから導かれる。これは、図2において、部分
文字列xが「ロボット」から「ロボットに」に変化する
と、それまではほぼ一定値のβが小さくなっていること
からも確認できる。
As the appearance and concentration, here, an example of a partial character string x of the word “about a robot” and corresponding df, df2, α (= df / N) and β (= d
f2 / df) is shown in FIG. There are two things we can observe here. One is the character strings that make up the keyword.
This means that β is larger than α. This means
The word used as a keyword indicates that it often appears more than once in a document. This can also be easily confirmed in FIG. The other is that β becomes smaller beyond word boundaries. This is derived from the fact that certain words always appear as the same word, but the characters that follow can vary. This can be confirmed from the fact that, when the partial character string x changes from "robot" to "robot" in FIG.

【0029】βの値をもとに、文字列の単語らしさ(重
み)を推定することで単語の分割を行なう。重み(sc
ore)の推定は図3のように分類される。ここでは、
df2があまりに少ない文字列x、すなわちdf2が3
以下の場合には(S2でNO)、単語とみなさず重みを
低く定義している(S4)。単語と認められるとき、す
なわちdf2が3より大きくかつtfがN以下の場合
(S2でYESかつS6でNO)、βの値を推定し、そ
の対数値を重みとする(S8)。ただし、総出現数tf
がNを超えるところでは、単語らしさが正しくβに反映
しない。これは、文章において助詞などは、多数出現す
るにも関わらず語にはならないということを意味する。
そこで、tf>Nの条件を満たすところでは単語らしさ
が飽和するとし(S6でYES)、定数0.5の対数を
重みとする(S10)。すべての文字列分割において、
以上のように重みを求め、各文字列の重みの総和が最大
となる分割を求める。
The word is divided by estimating the likelihood (weight) of the character string based on the value of β. Weight (sc
ore) are classified as shown in FIG. here,
Character string x with too small df2, that is, df2 is 3
In the following cases (NO in S2), the weight is defined as low without being regarded as a word (S4). When the word is recognized as a word, that is, when df2 is greater than 3 and tf is equal to or less than N (YES in S2 and NO in S6), the value of β is estimated, and its logarithmic value is used as a weight (S8). However, the total number of appearances tf
Where N exceeds N, the wordiness is not correctly reflected in β. This means that particles, etc., do not become words even though they appear many times in sentences.
Therefore, it is assumed that the word-likeness is saturated where the condition of tf> N is satisfied (YES in S6), and the logarithm of the constant 0.5 is used as the weight (S10). For all string splits,
As described above, the weight is obtained, and the division in which the total sum of the weights of the respective character strings is maximized is obtained.

【0030】ここで、単語らしさを決めるためにいくつ
かのしきい値を用いた。すべての単語を網羅しなければ
ならない辞書とは異なり、サンプルの単語から値を求め
ることができるため、これは、新しいドキュメントでも
実行できる操作である。たとえば、βの値はドキュメン
トの長さの影響を受けるが、このしきい値の決定により
対応できる。
Here, several thresholds were used to determine the wordiness. This is an operation that can be performed on new documents, because unlike a dictionary, which must cover all words, it can obtain values from sample words. For example, the value of β is affected by the length of the document, and can be handled by determining this threshold.

【0031】そこでこの方法で分割した例および形態素
解析を用いて分割した例を図4および図5にそれぞれ示
す。助詞・助動詞の分割は不自然であるが、キーワード
は正確に抽出できていることが観測できる。
FIGS. 4 and 5 show examples of division using this method and examples of division using morphological analysis. Although it is unnatural to divide particles and auxiliary verbs, it can be observed that keywords are accurately extracted.

【0032】[キーワード候補の選別]部分文字列xの
出現頻度αが大きい場合には、その文字列xが非常に多
数のドキュメントに現れる文字列であることを示す。そ
のためそうした文字列xはドキュメントを識別する能力
が低い。逆に、αが小さい場合、たとえば一度しか出現
しないような文字列は稀にしか使われない非常に特殊な
文字列であると考えられる。そうした文字列は、他のド
キュメントとの関連を示す能力がないと考えられる。そ
のため、キーワードとして望ましい文字列は、ドキュメ
ントを特定できる単語という性質上、αがある一定の範
囲内に含まれるような文字列である。さらに、単語がド
キュメントの内容に関わるものかを推定するために、β
の値の考慮して求めた重みを再び用いる。αおよびβの
値の範囲については、コーパスを利用して学習を行な
い、抽出する範囲の候補を選別する。
[Selection of Keyword Candidates] When the appearance frequency α of the partial character string x is large, it indicates that the character string x is a character string that appears in a very large number of documents. Therefore, such a character string x has a low ability to identify a document. Conversely, when α is small, for example, a character string that appears only once is considered to be a very special character string that is rarely used. Such a string would not have the ability to indicate relevance to other documents. Therefore, a character string desirable as a keyword is a character string in which α is included within a certain range due to the nature of a word that can specify a document. Furthermore, to estimate whether a word is related to the content of the document,
The weight determined in consideration of the value of is used again. With respect to the range of the values of α and β, learning is performed using a corpus, and candidates for the range to be extracted are selected.

【0033】具体的には例えば図6の条件をすべて満た
したものをキーワードと考えている。すなわち、部分文
字列xのαの値が0.00005より大きくかつ0.1
未満であり、部分文字列xの重みが−1.0よりも大き
く、かつ部分文字列xの長さが1よりも大きい場合には
(S12でYES、S14でYESかつS18でYE
S)、部分文字列xをキーワードであると決定する(S
20)。それ以外の場合には、キーワードではないと決
定する(S16)。なお、len[x]は文字列xの長
さとする。なおここで用いた各値は、これらに限定され
るものではない。たとえば、対象ドキュメント群によっ
ても変化し得るし、抽出すべきキーワード数を調節する
という観点からも変化させることができる。
More specifically, keywords satisfying all the conditions shown in FIG. 6 are considered as keywords. That is, the value of α of the partial character string x is greater than 0.00005 and 0.1
If the weight of the partial character string x is greater than -1.0 and the length of the partial character string x is greater than 1 (YES in S12, YES in S14 and YE in S18)
S), and determine that the partial character string x is a keyword (S)
20). Otherwise, it is determined that it is not a keyword (S16). Note that len [x] is the length of the character string x. The values used here are not limited to these. For example, it can change depending on the target document group, and can also change from the viewpoint of adjusting the number of keywords to be extracted.

【0034】[サフィックスファイル作成部22の処
理]図7を参照して、サフィックスファイル作成部22
の処理について説明する。サフィックスファイル作成部
22は、ドキュメント群を形成する複数のドキュメント
をつないで長大な1つの文字列を作成する(S22)。
たとえば、図8(A)に示すように、この文字列が「a
bcabd」として求められているものとする。
[Process of Suffix File Creation Unit 22] Referring to FIG.
Will be described. The suffix file creating unit 22 creates one long character string by connecting a plurality of documents forming a document group (S22).
For example, as shown in FIG.
bcabd ”.

【0035】作成した文字列よりスタート位置を1文字
ずつずらしながら生じうる部分文字列を作成する。ま
た、各部分文字列に通し番号(サフィックス)をつける
(S24)。文字列「abcabd」より部分文字列お
よびサフィックスを作成すると、図8(B)のようにな
る。
A partial character string that can occur while shifting the start position one character at a time from the created character string is created. A serial number (suffix) is assigned to each partial character string (S24). When a partial character string and a suffix are created from the character string “abcabd”, the result is as shown in FIG.

【0036】部分文字列を辞書順に並べ替えることによ
りサフィックスファイルを作成する(S26)。サフィ
ックスファイルのうち、サフィックスの並びのことをサ
フィックスアレイという。すなわち、図8(C)のよう
なサフィックスファイルが作成される。作成されたサフ
ィックスファイルは、サフィックスファイル記憶部24
に記憶される。このサフィックスファイルを用いること
により、もとのドキュメント群中における全文字列の出
現頻度と出現集中度とを少ない計算量で求めることがで
きる。
A suffix file is created by rearranging the partial character strings in dictionary order (S26). A sequence of suffixes in a suffix file is called a suffix array. That is, a suffix file as shown in FIG. 8C is created. The created suffix file is stored in the suffix file storage unit 24.
Is stored. By using this suffix file, the appearance frequency and appearance concentration of all character strings in the original document group can be obtained with a small amount of calculation.

【0037】[区切り部28の処理]図9を参照して、
区切り部28の処理について説明する。
[Processing of Separator 28] Referring to FIG.
The processing of the separation unit 28 will be described.

【0038】区切り部28は、ドキュメントを開き(S
32)、文字列を一時的に記憶するために用意されたバ
ッファ(図示せず)をクリアする(S34)。ドキュメ
ントより文字列を読込む(S36)。S36における文
字読込みはドキュメントの先頭文字より行なわれ、S3
6の処理が行なわれる毎に順次、次の文字が読込まれ
る。
The separator 28 opens the document (S
32), a buffer (not shown) prepared for temporarily storing the character string is cleared (S34). A character string is read from the document (S36). The character reading in S36 is performed from the first character of the document.
The next character is sequentially read every time the processing of step 6 is performed.

【0039】読込んだ文字がEOF(End Of File)で
あるか否か判断される(S38)。読込んだ文字がEO
Fである場合には(S38でYES)、バッファに格納
されている文章を区切り部28からスコア計算部26に
出力し(S40)、処理を終了する。
It is determined whether the read character is EOF (End Of File) (S38). The read character is EO
If it is F (YES in S38), the sentence stored in the buffer is output from the delimiter 28 to the score calculator 26 (S40), and the process ends.

【0040】読込んだ文字がEOFでなければ(S38
でNO)、読込んだ文字が「。」または「、」などの区
切り文字であるか否か判断される(S42)。読込んだ
文字が区切り文字でなければ(S42でNO)、読込ん
だ一文字をバッファに追加する(S44)。その後、S
36に戻る。
If the read character is not EOF (S38)
NO), it is determined whether the read character is a delimiter such as "." Or "," (S42). If the read character is not a delimiter (NO in S42), the read one character is added to the buffer (S44). Then, S
Return to 36.

【0041】読込んだ文字が区切り文字である場合には
(S42でYES)、バッファに格納されている文章を
区切り部28からスコア計算部26に出力し(S4
6)、バッファをクリアする(S48)。その後、S3
6に戻る。
If the read character is a delimiter (YES in S42), the sentence stored in the buffer is output from the delimiter 28 to the score calculator 26 (S4).
6), clear the buffer (S48). Then, S3
Return to 6.

【0042】[スコア計算部26の処理]図10および
図11を参照して、スコア計算部26の処理について説
明する。
[Process of Score Calculation Unit 26] The process of the score calculation unit 26 will be described with reference to FIG. 10 and FIG.

【0043】図11を参照して、スコア計算部26は、
区切り部28より入力される入力文字列Xの長さをle
n_Xとし、len_Xの要素数を有する配列valu
e,tableおよびfromを作成する(S52)。
ここで、table[i]は1文字目からi文字目まで
の重みの最適値(最大値)を示す。value[i]は
from[i]文字目からi文字目までの重みの最適値
(最大値)を示す。from[i]はi文字目における
重みが最適(最大)になる区切りの開始位置を示す。
Referring to FIG. 11, score calculation unit 26
The length of the input character string X input from the delimiter 28 is set to le
An array value having n_X and len_X elements
e, table and from are created (S52).
Here, table [i] indicates the optimum value (maximum value) of the weight from the first character to the i-th character. value [i] indicates the optimum value (maximum value) of the weight from the first character to the i-th character. “from [i]” indicates the start position of the segment where the weight at the i-th character is optimal (maximum).

【0044】配列value,tableおよびfro
mの要素を初期化する(S54)。すなわち、配列ta
bleのすべての要素をmin_score×len_
Xに初期化する。ここで、min_scoreは予め定
められた定数であり、ここでは、min_score=
−10000とする。また、配列valueのすべての
要素を0に初期化する。さらに、配列fromのすべて
の要素について、k番目の要素を(k−1)に初期化す
る。
The sequences value, table and fr
The element of m is initialized (S54). That is, the array ta
ble_min_core × len_
Initialize to X. Here, min_score is a predetermined constant, and here, min_score =
-10000. Also, all the elements of the array value are initialized to 0. Further, the k-th element is initialized to (k-1) for all elements of the array from.

【0045】次に、入力文字列の着目文字を表わすカウ
ンタiを1に設定する(S56)。すなわち、入力文字
列の先頭を指示するようにカウンタiの値を設定する。
Next, the counter i representing the character of interest in the input character string is set to 1 (S56). That is, the value of the counter i is set so as to indicate the head of the input character string.

【0046】table[i]=min_score×
len_Xであれば、table[i]=0とし、それ
以外の場合には何もしない(S58)。
Table [i] = min_score ×
If len_X, table [i] = 0 is set, otherwise, nothing is performed (S58).

【0047】カウンタjの値をi+1に設定する(S6
0)。文字列Xのi文字目からj文字目までの文字列を
xとする(S62)。文字列xの先頭文字が「−」また
は「」(空白)であるか否かを判断する(S64)。文
字列xの先頭文字が「−」または「 」でなければ(S
64でNO)、文字列xのtf,dfおよびdf2を計
算する(S66)。dfが1以上か否か、すなわち文字
列xがドキュメント群内に出現したか否かが判断される
(S68)。なお、tfは全ドキュメントにおいて文字
列xの出現する回数を示す。
The value of the counter j is set to i + 1 (S6
0). The character string from the i-th character to the j-th character of the character string X is x (S62). It is determined whether the first character of the character string x is "-" or "" (blank) (S64). If the first character of the character string x is not "-" or "" (S
NO at 64), tf, df and df2 of the character string x are calculated (S66). It is determined whether or not df is 1 or more, that is, whether or not the character string x has appeared in the document group (S68). Note that tf indicates the number of times the character string x appears in all documents.

【0048】文字列xがドキュメント群内に出現してい
れば(S68でYES)、df2の値がmin_df2
よりも大きいか否かが判断される(S70)。min_
df2は予め定められた定数であり、ここでは3として
いる。
If the character string x appears in the document group (YES in S68), the value of df2 becomes min_df2
It is determined whether it is greater than (S70). min_
df2 is a predetermined constant, and is set to 3 here.

【0049】df2がmin_df2よりも大きい場合
には(S70でYES)、tfが全ドキュメント数Nよ
りも大きいか否かが判断される(S72)。tfがNよ
りも大きい場合には(S72でYES)、重みscor
eがlog(saturation_score)とし
て求められる(S74)。ここで、saturatio
n_scoreは予め定められた定数であり、ここでは
0.5に設定されている。
If df2 is greater than min_df2 (YES in S70), it is determined whether tf is greater than the total number of documents N (S72). If tf is larger than N (YES in S72), the weight scor
e is obtained as log (saturation_score) (S74). Here, satatio
n_score is a predetermined constant, and is set to 0.5 here.

【0050】tfがN以下の場合には(S72でN
O)、重みscoreがlog(df2/df)として
求められる(S76)。
If tf is equal to or smaller than N (N in S72)
O), and the weight score is obtained as log (df2 / df) (S76).

【0051】df2がmin_df2以下の場合には
(S70でNO)、重みscoreがmin_scor
eとして求められる(S78)。
When df2 is equal to or less than min_df2 (NO in S70), the weight score is min_scor.
e (S78).

【0052】S74、S76またはS78の後、tab
le[j]が(score+table[i])よりも
小さいか否かが判断される(S80)。table
[j]が(score+table[j])よりも小さ
い場合には(S80でYES)、from[j]にiが
代入され、table[j]に(score+tabl
e[i])が代入され、value[j]にscore
が代入される(S82)。
After S74, S76 or S78, tab
It is determined whether le [j] is smaller than (score + table [i]) (S80). table
If [j] is smaller than (score + table [j]) (YES in S80), i is substituted for from [j] and (score + tabl) is assigned to table [j].
e [i]), and score [value] is assigned to value [j].
Is substituted (S82).

【0053】文字列xの先頭の文字が「−」または
「 」である場合(S64でYES)、dfが0の場合
(S68でNO)、table[j]が(score+
table[i])以上の場合(S80でNO)または
S82の処理の後、カウンタjの値を1つインクリメン
トする(S84)。その後、jがlen_Xよりも大き
くなったか否かが判断される(S86)。
If the first character of the character string x is "-" or "" (YES in S64), if df is 0 (NO in S68), table [j] is set to (score +
table [i]) or more (NO in S80) or after the processing in S82, the value of the counter j is incremented by one (S84). Thereafter, it is determined whether j is larger than len_X (S86).

【0054】jがlen_X以下の場合には(S86で
NO)、S62に戻る。jがlen_Xより大きい場合
には(S86でYES)、カウンタiの値を1つインク
リメントする(S88)。その後、iがlen_Xより
も大きいか否かが判断される(S90)。iがlen_
X以下の場合には(S90でNO)、S58に戻る。i
がlen_Xよりも大きい場合には(S90でYE
S)、配列fromおよびvalueを演算結果記憶部
30に記憶し(S92)、スコア計算部26における処
理を終了する。
If j is equal to or less than len_X (NO in S86), the flow returns to S62. If j is larger than len_X (YES in S86), the value of the counter i is incremented by one (S88). Thereafter, it is determined whether i is greater than len_X (S90). i is len_
If X or less (NO in S90), the process returns to S58. i
Is larger than len_X (YE in S90)
S), the arrays from and value are stored in the operation result storage unit 30 (S92), and the processing in the score calculation unit 26 ends.

【0055】たとえば、文字列「2000年問題の対応
策について」を分割したときの配列from,valu
eおよびtableの値は図12に示すようになる。こ
れより各単語は図13のように区切られる。なお、括弧
内が各単語の重みを示している。
For example, an array "from" and "valu" obtained by dividing the character string "Year 2000 countermeasures"
The values of e and table are as shown in FIG. Thus, each word is separated as shown in FIG. The weight in parentheses indicates the weight of each word.

【0056】図14を参照して、文字列aの出現するド
キュメントの数dfおよび文字列aが二回以上出現する
ドキュメントの数df2を求める処理(図10のS6
6)について説明する。この処理では、同一の文字列に
対する処理時間を短縮するために、文字列aと計算した
dfおよびdf2とを、ドキュメントの数を記憶するた
めのハッシュテーブル(以下「ドキュメント数ハッシュ
テーブル」という)に登録することで、再度の計算を不
要としている。文字列aがドキュメント数ハッシュテー
ブルに登録されているかを判定する。文字列aが登録済
みであれば(S101でYES)、登録されているdf
およびdf2を求める(S102)。
Referring to FIG. 14, a process for determining the number df of documents in which character string a appears and the number df2 of documents in which character string a appears twice or more (S6 in FIG. 10).
6) will be described. In this processing, in order to reduce the processing time for the same character string, the character string a and the calculated df and df2 are stored in a hash table for storing the number of documents (hereinafter, referred to as a “document number hash table”). Registration eliminates the need for recalculation. It is determined whether the character string a is registered in the document number hash table. If the character string a has been registered (YES in S101), the registered df
And df2 are obtained (S102).

【0057】文字列aが登録されていなければ(S10
1でNO)、サフィックスファイルの先頭から順に文字
列aを探し、最初に見つかった文字列aに対応するサフ
ィックスをminとする(S103)。サフィックスm
inが求まらない場合、すなわちサフィックスファイル
に文字列aが含まれていない場合は(S104でYE
S)、文字列aがドキュメントに出現しない場合であ
る。このため、dfおよびdf2の値を0とする(S1
05)。
If the character string a is not registered (S10
1 and NO), the character string a is searched in order from the beginning of the suffix file, and the suffix corresponding to the character string a found first is set to min (S103). Suffix m
If in cannot be obtained, that is, if the character string a is not included in the suffix file (YE in S104)
S), where the character string a does not appear in the document. For this reason, the values of df and df2 are set to 0 (S1
05).

【0058】サフィックスminが求まった場合は(S
104でNO)、サフィックスファイル中、サフィック
スmin以降で最後に出現する文字列aに対応するサフ
ィックスをmaxとする(S106)。サフィックスが
minからmaxまでの範囲が文字列aと一致する文字
列である。これらの文字列に付されたドキュメント番号
で相異なるものの数を求め、この数をdfとする(S1
07)。また、これらの文字列に付されたドキュメント
番号を参照し、同一のドキュメント番号が2つ以上存在
するものの数を求め、その数をdf2とする(S10
8)。
When the suffix min is obtained, (S
NO in 104), the suffix corresponding to the character string a that appears last after the suffix min in the suffix file is set to max (S106). A character string whose suffix ranges from min to max matches the character string a. The number of different document numbers assigned to these character strings is obtained, and this number is set to df (S1
07). Also, referring to the document numbers assigned to these character strings, the number of documents having two or more identical document numbers is obtained, and the number is set to df2 (S10).
8).

【0059】S98の処理またはS95の処理の後、文
字列aとドキュメントの数dfおよびdf2とをドキュ
メント数ハッシュテーブルに登録する(S109)。S
99の処理またはS92の処理の後、dfおよびdf2
をそれぞれ、文字列aの出現するドキュメントの数、文
字列aが2回以上出現するドキュメントの数として返す
(S110)。
After the processing of S98 or S95, the character string a and the number of documents df and df2 are registered in the document number hash table (S109). S
After the processing of 99 or the processing of S92, df and df2
Are returned as the number of documents in which the character string a appears and the number of documents in which the character string a appears twice or more (S110).

【0060】図15を参照して、全ドキュメントにおい
て文字列aの出現する回数tfを求める処理(図10の
S66)について説明する。
With reference to FIG. 15, a description will be given of a process (S66 in FIG. 10) for calculating the number of occurrences tf of the character string a in all documents.

【0061】サフィックスファイルの先頭から順に文字
列aを探し、最初に出現する文字列aのサフィックスを
minとする(S121)。サフィックスminが求ま
らない場合、すなわちサフィックスファイルに文字列a
が含まれていない場合は(S122でYES)、tfに
0を代入する(S123)。サフィックスminが求ま
った場合には(S122でNO)、サフィックスファイ
ルにおいて、最後に出現する文字列aのサフィックスを
maxとする(S124)。tfを次式(2)にしたが
って求める(S125)。
The character string a is searched sequentially from the beginning of the suffix file, and the suffix of the character string a that appears first is set to min (S121). If the suffix min is not obtained, that is, the character string a
Is not included (YES in S122), 0 is substituted for tf (S123). When the suffix min is obtained (NO in S122), the suffix of the character string a that appears last in the suffix file is set to max (S124). tf is obtained according to the following equation (2) (S125).

【0062】 tf=max−min+1 …(2) S123またはS125の後、tfを文字列aの出現す
る回数として返す(S126)。
Tf = max−min + 1 (2) After S123 or S125, tf is returned as the number of appearances of the character string a (S126).

【0063】[ドキュメント分割部32の処理]ドキュ
メント分割部32は、演算結果記憶部30に記憶された
配列fromおよびvalueに基づいて、入力された
ドキュメントを分割する。すなわち、ドキュメントを分
割した際の重みscoreの合計値が最大となるよう
に、ドキュメントを分割する。
[Process of Document Dividing Unit 32] The document dividing unit 32 divides an input document based on the arrays “from” and “value” stored in the operation result storage unit 30. That is, the document is divided such that the total value of the weights score when the document is divided is maximized.

【0064】[絞込み部34の処理]絞込み部34は、
上述の[キーワード候補の選別]で説明した図6のフロ
ーチャートで示される処理を実行し、キーワードを絞り
込む。
[Processing of Narrowing Unit 34] The narrowing unit 34
The process shown in the flowchart of FIG. 6 described in [Selection of Keyword Candidates] is executed to narrow down keywords.

【0065】[キーワード抽出装置20の構成例]上述
したキーワード抽出装置20は、コンピュータにより実
現することが可能である。図16を参照して、キーワー
ド抽出装置20は、コンピュータ41と、コンピュータ
41に指示を与えるためのキーボード45およびマウス
46と、コンピュータ41により演算された結果等を表
示するためのディスプレイ42と、コンピュータ41が
実行するプログラムをそれぞれ読取るための磁気テープ
装置43、CD−ROM(Compact Disc-Read Only Mem
ory)装置47および通信モデム49とを含む。
[Configuration Example of Keyword Extraction Apparatus 20] The above-described keyword extraction apparatus 20 can be realized by a computer. Referring to FIG. 16, keyword extracting device 20 includes a computer 41, a keyboard 45 and a mouse 46 for giving instructions to computer 41, a display 42 for displaying results and the like calculated by computer 41, and a computer 41. 41, a magnetic tape device 43 for reading a program executed by each of the programs, and a CD-ROM (Compact Disc-Read Only Mem
ory) device 47 and a communication modem 49.

【0066】キーワード抽出装置20のプログラムは、
コンピュータ41で読取可能な記録媒体である磁気テー
プ44またはCD−ROM48に記録され、磁気テープ
装置43およびCD−ROM装置47でそれぞれ読取ら
れる。または、通信回線を介して通信モデム49で読取
られる。
The program of the keyword extracting device 20 is as follows:
The information is recorded on a magnetic tape 44 or a CD-ROM 48 which is a recording medium readable by the computer 41, and is read by a magnetic tape device 43 and a CD-ROM device 47, respectively. Alternatively, it is read by the communication modem 49 via the communication line.

【0067】図17を参照して、コンピュータ41は、
磁気テープ装置43、CD−ROM装置47または通信
モデム49を介して読取られたプログラムを実行するた
めのCPU(Central Processing Unit)50と、コン
ピュータ41の動作に必要なその他のプログラムおよび
データを記憶するためのROM(Read Only Memory)5
1と、プログラム、プログラム実行時のパラメータ、演
算結果などを記憶するためのRAM(Random Access Me
mory)52と、プログラムおよびデータなどを記憶する
ための磁気ディスク53とを含む。
Referring to FIG. 17, computer 41 includes:
A CPU (Central Processing Unit) 50 for executing a program read via the magnetic tape device 43, the CD-ROM device 47 or the communication modem 49, and other programs and data necessary for the operation of the computer 41 are stored. (Read Only Memory) 5 for
1 and a RAM (Random Access Memory) for storing a program, parameters at the time of program execution, a calculation result, and the like.
mory) 52 and a magnetic disk 53 for storing programs and data.

【0068】磁気テープ装置43、CD−ROM装置4
7または通信モデム49により読取られたプログラム
は、CPU50で実行され、キーワード抽出処理が実行
される。
Magnetic tape device 43, CD-ROM device 4
7 or the program read by the communication modem 49 is executed by the CPU 50, and a keyword extraction process is executed.

【0069】なお、サフィックスファイル記憶部24お
よび演算結果記憶部30は、RAM52または磁気ディ
スク53により実現される。その他のキーワード抽出装
置20の構成部は、CPU50で実行されるソフトウェ
アにより実現される。
The suffix file storage unit 24 and the operation result storage unit 30 are realized by the RAM 52 or the magnetic disk 53. Other components of the keyword extracting device 20 are realized by software executed by the CPU 50.

【0070】[文字列xの重みの計算式の変形例]図3
のS8または図10のS76では、文字列xの重みをl
og(df2/df)として求めているが、出現頻度、
出現集中度、部分文字列長およびドキュメントの平均サ
イズを考慮して、ドキュメントの平均サイズが200文
字より大きいときは、log{(N/df)×(df2
/df)×len(x)}として重みを求め、ドキュメ
ントの平均サイズが200文字以下の場合には、log
{(N/df)×len(x)}として重みを求めるよ
うにしてもよい。各ドキュメントが小さくなると、出現
集中度が0に近くなる傾向がある。このため、ドキュメ
ントの平均サイズで重みの計算方法を変えることによ
り、出現頻度の値が小さくなっても適切な重みを計算す
ることが可能になる。
[Modification of Weight Expression for Character String x] FIG. 3
In S8 of FIG. 10 or in S76 of FIG.
og (df2 / df), but the frequency of appearance,
When the average size of the document is larger than 200 characters, considering the occurrence concentration, the partial character string length, and the average size of the document, log {(N / df) × (df2
/ Df) × len (x)}, and if the average document size is 200 characters or less, log
The weight may be obtained as {(N / df) × len (x)}. As each document becomes smaller, the degree of appearance concentration tends to approach zero. Therefore, by changing the calculation method of the weight based on the average size of the document, it is possible to calculate an appropriate weight even if the value of the appearance frequency becomes small.

【0071】以上説明したように、本実施の形態による
と形態素解析のように辞書を予め必要としなくてもキー
ワードの抽出ができる。
As described above, according to the present embodiment, keywords can be extracted without requiring a dictionary in advance as in morphological analysis.

【0072】[実施の形態2]本実施の形態に係る情報
検索装置は、実施の形態1で説明したのと同様のコンピ
ュータにより実現される。
[Second Embodiment] An information retrieval apparatus according to the present embodiment is realized by a computer similar to that described in the first embodiment.

【0073】本実施の形態は、抽出したキーワードによ
る文字列同士の類似度の算出方法に関する。入力された
文字列とデータベースに登録された複数のドキュメント
との類似度を算出することが想定されている。文字列同
士の一致部分を求める際に、データベース中のすべての
ドキュメントそれぞれに対して、入力文字列から抽出し
たキーワードを含むドキュメントをサフィックスファイ
ルの利用によって効率的にデータベース内から検索する
という方法を用いている。
This embodiment relates to a method for calculating the similarity between character strings based on extracted keywords. It is assumed that the similarity between an input character string and a plurality of documents registered in a database is calculated. When searching for a match between strings, a method is used in which all documents in the database are searched efficiently for documents containing keywords extracted from the input string by using a suffix file. ing.

【0074】一致情報の収集は抽出されたキーワードに
対し、次のような方法で行なう。ドキュメントデータベ
ース全体からそのキーワードを含むドキュメントを求め
る。それら各ドキュメント内におけるそのキーワードの
出現場所、入力文字列におけるキーワードの出現場所、
キーワードの長さ、キーワードの重みを一致情報として
記録する。
Collection of matching information is performed on the extracted keywords in the following manner. Find documents containing the keyword from the entire document database. Where the keyword appears in each of those documents, where the keyword appears in the input string,
The length of the keyword and the weight of the keyword are recorded as matching information.

【0075】通常、得られた一致情報は、記録・管理す
ることなく、そのまま重みが加算され類似度が算出され
る。しかし、これを記録・管理することにより、一致し
たキーワードの重みを加算して類似度を算出する方法だ
けでなく、高速性を保ったまま、多くの類似度算出方法
に適用可能としている。
Normally, the obtained coincidence information is not recorded and managed, and the weight is added as it is to calculate the similarity. However, by recording and managing this, not only a method of calculating the similarity by adding the weights of the matched keywords, but also it is applicable to many similarity calculation methods while maintaining high speed.

【0076】入力文字列とデータベース内のドキュメン
トとの類似度は、一致したキーワードに付けられた重み
を加算することによって算出される。
The similarity between the input character string and the document in the database is calculated by adding the weight given to the matching keyword.

【0077】本発明において、計算対象とするキーワー
ドを抽出して算出する文字列類似度によるドキュメント
検索プログラムの処理フローを図18〜図21に示す。
本プログラムは、入力した検索文章に基づき、ドキュメ
ントデータベースを検索し、類似度の高い複数のドキュ
メントを検索する。
In the present invention, the processing flow of the document search program based on the character string similarity calculated by extracting the keyword to be calculated is shown in FIGS.
This program searches the document database based on the input search text and searches for a plurality of documents having a high degree of similarity.

【0078】図18を参照して、検索文章に基づいてド
キュメントデータベースを検索し、類似度の高いドキュ
メントを選び出して出力する処理について説明する。
Referring to FIG. 18, a process of searching a document database based on a search sentence, selecting and outputting a document having a high similarity will be described.

【0079】まず、ある文字列の出現回数を効率よく計
算する準備のために、ドキュメントデータベースに含ま
れる全ドキュメントを統合してサフィックスファイル
(Suffix File)を作成する(S131)。
First, in preparation for efficiently calculating the number of appearances of a certain character string, a suffix file (Suffix File) is created by integrating all documents included in the document database (S131).

【0080】次に、検索文章を文字列Xに読込む(S1
32)。文字列Xから抽出したキーワードを、キーワー
ド管理テーブルに記録する(S133)。
Next, the search text is read into the character string X (S1).
32). The keyword extracted from the character string X is recorded in the keyword management table (S133).

【0081】キーワード管理テーブルに記録された各キ
ーワードに対し、一致情報を収集し、一致情報管理テー
ブルへの記録を行なう(S134)。一致情報とは、キ
ーワードの文字列Xにおける出現場所、キーワードのド
キュメント内における出現場所、キーワードの長さおよ
びキーワードの重みを表わす情報のことである。一致情
報管理テーブルには、ドキュメント番号毎に、一致情報
がリストとして記録される。S134の処理については
後に詳述する。
Matching information is collected for each keyword recorded in the keyword management table and recorded in the matching information management table (S134). The matching information is information indicating the location of the keyword in the character string X, the location of the keyword in the document, the length of the keyword, and the weight of the keyword. In the matching information management table, matching information is recorded as a list for each document number. The process of S134 will be described later in detail.

【0082】一致情報管理テーブルからある1つのドキ
ュメントYのリストを取出す(S135)。
A list of one document Y is extracted from the matching information management table (S135).

【0083】取出したリストより文字列Xおよびドキュ
メントYの類似度を計算する(S136)。S136の
処理については後に詳述する。
The similarity between the character string X and the document Y is calculated from the extracted list (S136). The process of S136 will be described later in detail.

【0084】求めた類似度とドキュメント番号とを組に
してドキュメント管理テーブルに登録する(S13
7)。
A set of the obtained similarity and the document number is registered in the document management table (S13).
7).

【0085】一致情報管理テーブルに記録されたすべて
のリストについて類似度を計算したかどうかを判定する
(S138)。すべてのリストについて類似度を計算し
ていなければ(S138でNO)、S135に戻る。
It is determined whether similarities have been calculated for all lists recorded in the matching information management table (S138). If the similarities have not been calculated for all the lists (NO in S138), the process returns to S135.

【0086】すべてのリストについて類似度を計算して
いれば(S138でYES)、ドキュメント管理テーブ
ルの類似度とドキュメント番号との組を、類似度の高い
順に並べ替える。
If the similarities have been calculated for all the lists (YES in S138), the sets of the similarities and the document numbers in the document management table are rearranged in descending order of the similarities.

【0087】類似度の高いドキュメントを出力する(S
140)。出力するドキュメントは、1つだけであって
もよいし、予め定められた所定の個数であってもよい。
または、所定の類似度以上のドキュメントを出力するよ
うにしてもよい。
A document having a high similarity is output (S
140). Only one document may be output, or a predetermined number of documents may be output.
Alternatively, a document having a predetermined similarity or higher may be output.

【0088】図19を参照して、キーワード管理テーブ
ルに記録された各キーワードと、ドキュメントデータベ
ース内の各ドキュメントとの一致情報を収集し、その情
報を一致情報管理テーブルに記録する処理(図18のS
134)について説明する。
Referring to FIG. 19, a process of collecting matching information between each keyword recorded in the keyword management table and each document in the document database and recording the information in the matching information management table (FIG. 18) S
134) will be described.

【0089】キーワード管理テーブルからある1つのキ
ーワードを選びaとする(S151)。ドキュメントデ
ータベース内でキーワードaが出現する場所をすべて求
め、これを出現する場所の順に並べ替える(S15
2)。
A certain keyword is selected from the keyword management table and set as a (S151). All locations where the keyword a appears in the document database are obtained, and the keywords are sorted in the order of appearance (S15).
2).

【0090】キーワードaの各出現場所に対し、キーワ
ードaを含むドキュメント番号を求める。このとき、キ
ーワードaは出現場所順に並んでいるので、得られるド
キュメント番号も小さい順に並んでいる(S153)。
For each occurrence of keyword a, a document number containing keyword a is determined. At this time, since the keywords a are arranged in the order of appearance, the obtained document numbers are also arranged in ascending order (S153).

【0091】キーワードaの出現場所を、出現場所の前
から順に1つ選ぶ(S154)。選んだキーワードaの
出現場所が、それを含むドキュメント内において最も前
方にある出現場所かどうかを判定する(S155)。す
なわち、選んだ出現場所のドキュメントと、1つ前に選
んだ出現場所のドキュメントとが異なっていれば、それ
は選んだドキュメントにおける最初の出現場所である。
選んだ出現場所のドキュメントと、1つ前に選んだ出現
場所のドキュメントとが同じであれば、それは選んだド
キュメントにおける2番目以降の出現場所である。
One of the appearance locations of the keyword a is selected in order from the front of the appearance location (S154). It is determined whether or not the appearance location of the selected keyword a is the forefront appearance location in the document including the keyword a (S155). That is, if the document at the selected appearance location is different from the document at the previous appearance location selected, it is the first appearance location in the selected document.
If the document at the selected appearance location is the same as the document at the previous appearance location selected, it is the second or later occurrence location in the selected document.

【0092】キーワードaの出現場所がドキュメント内
において最初であると判断された場合には(S155で
YES)、入力文字列Xにおけるキーワードaの出現場
所(以下「startX」という)、ドキュメント内に
おけるキーワードaの出現場所(以下「startdo
c」という)、キーワードaの長さ(以下「terml
ength」という)およびキーワードaの重み(以下
「score」という)を組にして一致情報管理テーブ
ルに記録する(S156)。
If it is determined that the keyword a appears first in the document (YES in S155), the keyword a appears in the input character string X (hereinafter referred to as "startX") a (where "startdo
c ”), the length of the keyword a (hereinafter“ terml ”)
and the weight of the keyword a (hereinafter, referred to as “score”) is recorded as a set in the matching information management table (S156).

【0093】図20を参照して、一致情報管理テーブル
は、ドキュメント情報毎の一致情報のリストによって構
成される。ドキュメント番号0002に一致情報1およ
び5が、ドキュメント番号0100に一致情報2、3お
よび6が、ドキュメント番号0111に一致情報4およ
び7がリストとして記録されている。それぞれの一致情
報には、入力文字列Xにおけるキーワードのstart
X、startdoc、termlengthおよびs
coreが格納されている。
Referring to FIG. 20, the matching information management table includes a list of matching information for each document information. Matching information 1 and 5 are recorded as a document number 0002, matching information 2, 3 and 6 are recorded as a document number 0100, and matching information 4 and 7 are recorded as a document number 0111 as a list. Each match information includes the keyword start in the input character string X.
X, startdoc, termlength and s
core is stored.

【0094】新たにドキュメント番号0002に関する
一致情報8が得られた場合、図20に示すように、これ
まで一致情報5を指していたリストの先頭を指すポイン
タは一致情報8を指し、一致情報8から一致情報5への
ポインタが張られ、ドキュメント情報0002のリスト
の先頭に一致情報8は記録される。
When the match information 8 relating to the document number 0002 is newly obtained, as shown in FIG. 20, the pointer pointing to the head of the list that has previously pointed to the match information 5 points to the match information 8 and the match information 8 , A pointer to the matching information 5 is set, and the matching information 8 is recorded at the head of the list of the document information 0002.

【0095】再度図19を参照して、S156の後また
はキーワードaの出現場所がドキュメント内において2
番目以降だと判断された場合には(S155でNO)、
キーワードaの出現場所をすべて調べたか否かを判定す
る(S157)。
Referring to FIG. 19 again, after S156 or the appearance position of keyword a is 2 in the document.
If it is determined that it is the third or later (NO in S155),
It is determined whether all occurrence locations of the keyword a have been checked (S157).

【0096】調べていない出現場所があれば(S157
でNO)、S154に戻る。すべての出現場所について
調べて終えていれば(S157でYES)、キーワード
管理テーブル内のすべてのキーワードについて、一致情
報の収集を行なったか否かを判定する(S158)。一
致情報の収集をしていないキーワードが存在する場合に
は(S158でNO)、まだ選んでいないキーワードa
を読込むためにS151に戻る。すべてのキーワードに
ついて一致情報の収集が終わっていれば(S158でY
ES)、得られた一致情報管理テーブルを返す(S15
9)。
If there is an appearance location that has not been checked (S157)
NO), and returns to S154. If all the appearance locations have been checked (YES in S157), it is determined whether or not matching information has been collected for all keywords in the keyword management table (S158). If there is a keyword for which matching information has not been collected (NO in S158), a keyword a that has not yet been selected
The process returns to S151 in order to read. If the matching information has been collected for all keywords (Y in S158)
ES), and returns the obtained matching information management table (S15)
9).

【0097】図21を参照して、入力文章Xとドキュメ
ントYとの類似度を、一致情報管理テーブルから取出し
たリストを用いて、一致した文字列の重みの加算によっ
て求める処理(図18のS136)について説明する。
Referring to FIG. 21, a process of calculating the similarity between input text X and document Y by adding the weight of the matched character string using the list extracted from the matching information management table (S136 in FIG. 18) ) Will be described.

【0098】XとYの類似度(以下「sim」という)
を0に初期化する(S161)。一致情報管理テーブル
に記録されているYに関するリストからある一つの一致
情報を選び、Iとする(S162)。
Similarity between X and Y (hereinafter referred to as “sim”)
Is initialized to 0 (S161). One piece of matching information is selected from the list related to Y recorded in the matching information management table, and is set as I (S162).

【0099】simに一致情報Iのscoreを加算す
る(S163)。ドキュメントYに関する一致情報のリ
ストに記録されたすべての一致情報について調べたかど
うかを判定する(S164)。もし、調べていない一致
情報があれば(S164でNO)、S162に戻る。す
べての一致情報について調べていれば(S164でYE
S)、得られたsimを入力文章XとドキュメントYと
の類似度として返す(S165)。
The score of the coincidence information I is added to sim (S163). It is determined whether all the pieces of matching information recorded in the list of matching information regarding document Y have been checked (S164). If there is unmatched matching information (NO in S164), the process returns to S162. If all matching information has been checked (YE in S164)
S), the obtained sim is returned as the similarity between the input text X and the document Y (S165).

【0100】以上説明したように本実施の形態に係る情
報検索装置によると、ユーザが入力したドキュメントと
類似するドキュメントを予め登録されているデータベー
スの中から探し出すことができるようになる。このた
め、たとえばFAQ(Frequently Asked Questions)シ
ステムなどにおいて、ユーザが質問を入力文章として与
えた場合に、その入力文章に対応するFAQを取出すこ
とができるようになる。
As described above, according to the information search apparatus of the present embodiment, a document similar to the document input by the user can be searched from a database registered in advance. Therefore, for example, in a FAQ (Frequently Asked Questions) system or the like, when a user gives a question as an input sentence, an FAQ corresponding to the input sentence can be extracted.

【0101】今回開示された実施の形態はすべての点で
例示であって制限的なものではないと考えられるべきで
ある。本発明の範囲は上記した説明ではなくて特許請求
の範囲によって示され、特許請求の範囲と均等の意味お
よび範囲内でのすべての変更が含まれることが意図され
る。
The embodiments disclosed this time are to be considered in all respects as illustrative and not restrictive. The scope of the present invention is defined by the terms of the claims, rather than the description above, and is intended to include any modifications within the scope and meaning equivalent to the terms of the claims.

【0102】[0102]

【発明の効果】辞書を必要とせずにドキュメントよりキ
ーワードを抽出することができる。
According to the present invention, keywords can be extracted from a document without requiring a dictionary.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明の実施の形態1に係るキーワード抽出
装置の構成を示すブロック図である。
FIG. 1 is a block diagram showing a configuration of a keyword extraction device according to Embodiment 1 of the present invention.

【図2】 「ロボットについて」という語の部分文字列
xとそれに対応するdf、df2、αおよびβの値を示
す図である。
FIG. 2 is a diagram illustrating a partial character string x of the word “about a robot” and corresponding values of df, df2, α, and β.

【図3】 文字列の単語らしさ(重み)を推定するため
の処理のフローチャートである。
FIG. 3 is a flowchart of a process for estimating wordiness (weight) of a character string.

【図4】 文字列の重みを用いてドキュメントを分割し
た例を示す図である。
FIG. 4 is a diagram illustrating an example in which a document is divided using the weight of a character string.

【図5】 形態素解析によりドキュメントを分割した例
を示す図である。
FIG. 5 is a diagram showing an example in which a document is divided by morphological analysis.

【図6】 キーワードを抽出するための処理のフローチ
ャートである。
FIG. 6 is a flowchart of a process for extracting a keyword.

【図7】 サフィックスファイル作成部22の行なう処
理のフローチャートである。
FIG. 7 is a flowchart of a process performed by a suffix file creation unit 22.

【図8】 サフィックスファイルを説明するための図で
ある。
FIG. 8 is a diagram for explaining a suffix file.

【図9】 区切り部28の行なう処理のフローチャート
である。
FIG. 9 is a flowchart of a process performed by a separation unit.

【図10】 スコア計算部26の実行する処理のフロー
チャートである。
FIG. 10 is a flowchart of a process executed by a score calculation unit 26.

【図11】 スコア計算部26での重み計算に用いられ
る配列value、tableおよびfromを説明す
るための図である。
11 is a diagram for explaining arrays value, table, and from used for weight calculation in the score calculation unit 26. FIG.

【図12】 文字列「2000年問題の対応策につい
て」を分割したときの配列from、valueおよび
tableの値を示す図である。
FIG. 12 is a diagram showing values of arrays from, value, and table when the character string “about the measure against the year 2000 problem” is divided.

【図13】 重みにより各単語を区切った一例を示す図
である。
FIG. 13 is a diagram showing an example in which each word is divided by weight.

【図14】 文字列aの出現するドキュメントの数df
および文字列aが二回以上出現するドキュメントの数d
f2を求める処理のフローチャートである。
FIG. 14 shows the number df of documents in which a character string a appears.
And the number d of documents in which the character string a appears twice or more
It is a flowchart of a process of obtaining f2.

【図15】 全ドキュメントにおいて文字列aの出現す
る回数tfを求める処理のフローチャートである。
FIG. 15 is a flowchart of a process for obtaining the number of times tf that a character string a appears in all documents.

【図16】 キーワード抽出装置を実現するコンピュー
タの外観図である。
FIG. 16 is an external view of a computer that realizes the keyword extracting device.

【図17】 図16に示すコンピュータのハードウェア
構成を示す図である。
17 is a diagram illustrating a hardware configuration of the computer illustrated in FIG.

【図18】 検索文章に基づいてドキュメントデータベ
ースを検索し、類似度の高いドキュメントを選び出して
出力する処理のフローチャートである。
FIG. 18 is a flowchart of a process of searching a document database based on a search sentence, selecting and outputting a document having a high degree of similarity.

【図19】 キーワード管理テーブルに記録された各キ
ーワードと、ドキュメントデータベース内の各ドキュメ
ントとの一致情報を収集し、その情報を一致情報管理テ
ーブルに記録する処理のフローチャートである。
FIG. 19 is a flowchart of a process of collecting matching information between each keyword recorded in the keyword management table and each document in the document database, and recording the information in the matching information management table.

【図20】 一致情報管理テーブルの構成を示す図であ
る。
FIG. 20 is a diagram showing a configuration of a coincidence information management table.

【図21】 入力文章XとドキュメントYとの類似度
を、一致情報管理テーブルから取出したリストを用い
て、一致した文字列の重みの加算によって求める処理の
フローチャートである。
FIG. 21 is a flowchart of a process of calculating the similarity between an input sentence X and a document Y by adding the weight of a matched character string using a list extracted from a matching information management table.

【符号の説明】[Explanation of symbols]

20 キーワード抽出装置、22 サフィックスファイ
ル作成部、24 サフィックスファイル記憶部、26
スコア計算部、28 区切り部、30 演算結果記憶
部、32 ドキュメント分割部、34 絞込み部、41
コンピュータ、42 ディスプレイ、43 磁気テー
プ装置、44 磁気テープ、45 キーボード、46
マウス、47 CD−ROM装置、48 CD−RO
M、49 通信モデム、50 CPU、51 ROM、
52 RAM、53 磁気ディスク。
Reference Signs List 20 Keyword extraction device, 22 Suffix file creation unit, 24 Suffix file storage unit, 26
Score calculation section, 28 delimiter section, 30 calculation result storage section, 32 document division section, 34 narrowing down section, 41
Computer, 42 display, 43 magnetic tape device, 44 magnetic tape, 45 keyboard, 46
Mouse, 47 CD-ROM device, 48 CD-RO
M, 49 communication modem, 50 CPU, 51 ROM,
52 RAM, 53 magnetic disk.

フロントページの続き (72)発明者 武並 佳則 大阪市此花区島屋一丁目1番3号 住友電 気工業株式会社大阪製作所内 (72)発明者 岸田 正博 大阪市此花区島屋一丁目1番3号 住友電 気工業株式会社大阪製作所内 Fターム(参考) 5B075 ND03 NK31 PP02 PP03 PP22 PQ02 PR04 PR06 QM08 Continued on the front page (72) Inventor Yoshinori Takenami 1-3-1 Shimaya, Konohana-ku, Osaka Sumitomo Electric Industries, Ltd. Osaka Works (72) Inventor Masahiro Kishida 1-1-3 Shimaya, Konohana-ku, Osaka Sumitomo Electric Industry Co., Ltd. Osaka Works F-term (reference) 5B075 ND03 NK31 PP02 PP03 PP22 PQ02 PR04 PR06 QM08

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】 ドキュメント群における各ドキュメント
に含まれる部分文字列の前記ドキュメント群中での出現
頻度を求めるための出現頻度算出手段と、 前記部分文字列の前記ドキュメント群中での出現集中度
を求めるための出現集中度算出手段と、 前記出現頻度算出手段および前記出現集中度算出手段に
接続され、前記出現頻度および前記出現集中度に基づい
て、入力されたドキュメントからキーワードを抽出する
ための第1のキーワード抽出手段とを含む、キーワード
抽出装置。
An appearance frequency calculating means for obtaining an appearance frequency of a partial character string included in each document in the document group in the document group; and an appearance concentration degree of the partial character string in the document group. An appearance concentration degree calculating means for obtaining, and an appearance concentration degree calculating means connected to the appearance frequency calculation means and the appearance concentration degree calculation means, for extracting a keyword from an input document based on the appearance frequency and the appearance concentration degree. A keyword extracting device, comprising: one keyword extracting unit.
【請求項2】 前記第1のキーワード抽出手段は、 入力されたドキュメントを部分文字列に分割するための
ドキュメント分割手段と、 前記ドキュメント分割手段、前記出現頻度算出手段およ
び前記出現集中度算出手段に接続され、前記出現頻度お
よび前記出現集中度に基づいて、前記部分文字列の単語
らしさを算出するための単語らしさ算出手段と、 前記単語らしさ算出手段に接続され、前記単語らしさの
合計値に基づいて、前記ドキュメントよりキーワードを
抽出するための第2のキーワード抽出手段とを含む、請
求項1に記載のキーワード抽出装置。
2. The method according to claim 1, wherein the first keyword extracting unit includes: a document dividing unit configured to divide the input document into partial character strings; and a document dividing unit, the appearance frequency calculating unit, and the appearance concentration calculating unit. Connected, based on the appearance frequency and the appearance concentration degree, word-likeness calculating means for calculating the word-likeness of the partial character string; connected to the word-likeness calculating means, based on the total value of the word-likeness 2. The keyword extracting apparatus according to claim 1, further comprising a second keyword extracting unit for extracting a keyword from the document.
【請求項3】 前記単語らしさ算出手段は、前記ドキュ
メント分割手段、前記出現頻度算出手段および前記出現
集中度算出手段に接続され、前記出現頻度、前記出現集
中度、前記部分文字列の長さおよび前記ドキュメントの
平均サイズに基づいて、前記部分文字列の単語らしさを
算出するための手段を含む、請求項2に記載のキーワー
ド抽出装置。
3. The word likeness calculating means is connected to the document dividing means, the appearance frequency calculating means, and the appearance concentration degree calculating means, and includes the appearance frequency, the appearance concentration degree, the length of the partial character string, 3. The keyword extracting device according to claim 2, further comprising: means for calculating a wordiness of the partial character string based on an average size of the document.
【請求項4】 さらに、前記第2のキーワード抽出手
段、前記出現頻度算出手段および前記出現集中度算出手
段に接続され、前記第2のキーワード抽出手段で抽出さ
れたキーワードを、前記出現頻度、前記出現集中度およ
び前記部分文字列の長さに基づいて絞り込むための絞込
み手段を含む、請求項2に記載のキーワード抽出装置。
4. The method further comprising the steps of: connecting the keyword extracted by the second keyword extraction unit to the second keyword extraction unit, the appearance frequency calculation unit, and the appearance concentration degree calculation unit; 3. The keyword extracting device according to claim 2, further comprising a narrowing unit for narrowing down based on an appearance concentration degree and a length of the partial character string.
【請求項5】 さらに、前記入力されたドキュメントを
句読点で区切り、前記ドキュメント分割手段に供給する
ための区切り手段を含む、請求項2に記載のキーワード
抽出装置。
5. The keyword extracting apparatus according to claim 2, further comprising a separating unit for separating the input document by punctuation marks and supplying the separated document to the document dividing unit.
【請求項6】 前記ドキュメント分割手段は、先頭文字
が予め定められた文字より始まらないように、入力され
たドキュメントを部分文字列に分割するための手段を含
む、請求項2に記載のキーワード抽出装置。
6. The keyword extracting apparatus according to claim 2, wherein said document dividing means includes means for dividing an input document into partial character strings such that a leading character does not start with a predetermined character. apparatus.
【請求項7】 前記ドキュメント分割手段は、部分文字
列の長さが予め定められた文字数以上にならないよう
に、入力されたドキュメントを部分文字列に分割するた
めの手段を含む、請求項2に記載のキーワード抽出装
置。
7. The apparatus according to claim 2, wherein said document dividing means includes means for dividing an input document into partial character strings such that the length of the partial character string does not exceed a predetermined number of characters. The described keyword extraction device.
【請求項8】 ドキュメント群における各ドキュメント
に含まれる部分文字列の前記ドキュメント群中での出現
頻度を求めるための出現頻度算出手段と、 前記部分文字列の前記ドキュメント群中での出現集中度
を求めるための出現集中度算出手段と、 前記出現頻度算出手段および前記出現集中度算出手段に
接続され、前記出現頻度および前記出現集中度に基づい
て、入力されたドキュメントからキーワードを抽出する
ためのキーワード抽出手段と、 前記キーワード抽出手段に接続され、前記ドキュメント
群中の各ドキュメントについて、前記キーワード抽出手
段で抽出された各キーワードとの一致度を計算するため
の一致度計算手段と、 前記一致度計算手段に接続され、前記一致度に基づい
て、前記ドキュメント群中の各ドキュメントについて、
前記入力されたドキュメントとの類似度を計算するため
の類似度計算手段と、 前記類似度計算手段に接続され、前記類似度に基づい
て、前記入力されたドキュメントと関連するドキュメン
トを前記ドキュメント群より抽出するための手段とを含
む、情報検索装置。
8. An appearance frequency calculating means for calculating an appearance frequency of a partial character string included in each document in the document group in the document group, and an appearance concentration degree of the partial character string in the document group. A keyword for extracting a keyword from an input document based on the frequency of appearance and the degree of concentration of appearance based on the frequency of appearance and the degree of concentration of appearance. Extraction means, connected to the keyword extraction means, and a coincidence calculation means for calculating the degree of coincidence of each document in the document group with each keyword extracted by the keyword extraction means; Means for connecting each document in the document group based on the degree of coincidence. Te,
A similarity calculating unit for calculating a similarity with the input document; and a similarity calculating unit connected to the similarity calculating unit. Means for extracting information.
JP2000394194A 2000-12-26 2000-12-26 Keyword extracting device and information retrieving device Withdrawn JP2002197095A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000394194A JP2002197095A (en) 2000-12-26 2000-12-26 Keyword extracting device and information retrieving device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000394194A JP2002197095A (en) 2000-12-26 2000-12-26 Keyword extracting device and information retrieving device

Publications (1)

Publication Number Publication Date
JP2002197095A true JP2002197095A (en) 2002-07-12

Family

ID=18859858

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000394194A Withdrawn JP2002197095A (en) 2000-12-26 2000-12-26 Keyword extracting device and information retrieving device

Country Status (1)

Country Link
JP (1) JP2002197095A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872363A (en) * 2010-06-24 2010-10-27 北京邮电大学 Method for extracting keywords
CN102375863A (en) * 2010-08-27 2012-03-14 北京四维图新科技股份有限公司 Method and device for keyword extraction in geographic information field
JP2012168678A (en) * 2011-02-14 2012-09-06 Nec Corp Inter-document similarity calculation device, inter-document similarity calculation method and inter-document similarity calculation program
JP2013061745A (en) * 2011-09-12 2013-04-04 Nippon Telegr & Teleph Corp <Ntt> Representative document selection device, method, and program, and computer-readable recording medium

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872363A (en) * 2010-06-24 2010-10-27 北京邮电大学 Method for extracting keywords
CN102375863A (en) * 2010-08-27 2012-03-14 北京四维图新科技股份有限公司 Method and device for keyword extraction in geographic information field
JP2012168678A (en) * 2011-02-14 2012-09-06 Nec Corp Inter-document similarity calculation device, inter-document similarity calculation method and inter-document similarity calculation program
JP2013061745A (en) * 2011-09-12 2013-04-04 Nippon Telegr & Teleph Corp <Ntt> Representative document selection device, method, and program, and computer-readable recording medium

Similar Documents

Publication Publication Date Title
CN107644010B (en) Text similarity calculation method and device
CN109960724B (en) Text summarization method based on TF-IDF
JP3041268B2 (en) Chinese Error Checking (CEC) System
US8855998B2 (en) Parsing culturally diverse names
CN108776709B (en) Computer-readable storage medium and dictionary updating method
US20050273468A1 (en) System and method for adaptive multi-cultural searching and matching of personal names
EP3489837A1 (en) Method and system for key phrase extraction and generation from text
CN111324750B (en) Large-scale text similarity calculation and text duplicate checking method
CN106557777B (en) One kind being based on the improved Kmeans document clustering method of SimHash
JP2008090401A (en) Document retrieval apparatus, method and program
CN110866102A (en) Search processing method
KR20070007001A (en) Method and apparatus for searching information using automatic query creation
CN107239455B (en) Core word recognition method and device
CN109885641B (en) Method and system for searching Chinese full text in database
JP2006227823A (en) Information processor and its control method
TW202022635A (en) System and method for adaptively adjusting related search words
EP3944234A1 (en) Method for processing a video file comprising audio content and visual content comprising text content
EP1315096B1 (en) Method and apparatus for retrieving relevant information
JP2004013726A (en) Device for extracting keyword and device for retrieving information
JP5447368B2 (en) NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM
JP2002197095A (en) Keyword extracting device and information retrieving device
Gupta et al. Songs recommendation using context-based semantic similarity between lyrics
JP4594992B2 (en) Document data classification device, document data classification method, program thereof, and recording medium
JP2002297660A (en) Method, device, program, and recording medium for character similarity calculation
JP2011090463A (en) Document retrieval system, information processing apparatus, and program

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080304