JPH11272702A

JPH11272702A - 文字列自動分類装置およびその方法並びにその制御プログラムを記録した媒体

Info

Publication number: JPH11272702A
Application number: JP10073920A
Authority: JP
Inventors: Sayori Shimohata; さより下畑
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1998-03-23
Filing date: 1998-03-23
Publication date: 1999-10-08
Anticipated expiration: 2018-03-23
Also published as: JP3609252B2

Abstract

(57)【要約】【課題】テキストから抽出された任意の文字列を、特
定の分野で使われる専門表現と、分野に関係なく使用さ
れる一般表現に分類する。【解決手段】自然言語で記述された複数の文書を保存
する文書格納手段と、複数の文書のうち、任意の文書か
ら文字列を抽出する文字列抽出手段と、文字列抽出手段
により抽出した文字列の、抽出した文書内での重要度を
文書内重要として算出する文書内重要度計算手段と、文
字列抽出手段により抽出した文字列の、複数の文書全体
での重要度を文書間重要度として算出する文書間重要度
計算手段と、文書内重要度と文書間重要度に基き抽出し
た文字列の重要度を文字列重要度として算出する文字列
重要度計算手段と、文字列重要度計算手段で得られた文
字列重要度に基き抽出した文字列を分類する文字列分類
手段を有する文字列自動分類装置を提供する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、テキストから抽出
された任意の文字列を、特定の分野で使われる専門表現
と分野に関係なく使われる一般表現に分類する方法およ
び装置に関する。

【０００２】

【従来の技術】情報処理装置で使用できるようにデータ
化された文書を、自動的に翻訳する機械翻訳システム
や、文書をサーチして該当するキーワードを使用した文
書を検索するといったシステムでは、文書中に存在する
一定の意味を持った文字列を抽出する処理が必要であ
る。文献１「情報処理学会研究報告 Vol.93, No.61(93-NL
-96-1)」文献１に開示された手法では、テキスト文書に含まれる
すべての文字を先頭とするすべての長さの文字列（テキ
ストの長さをlとした場合、テキスト中に出現する文字
ｉ（１≦ｉ≦Ｌ）を先頭とする長さｎ（１≦ｎ≦Ｌ−
ｉ）の文字列。以下、n-gram文字列と呼ぶ）を抽出し、
その出現回数をカウントすることで、処理対象となるテ
キスト文書から文字列を抽出している。この手法は、形
態素解析を行なったり辞書を使用したりする必要がな
く、統計処理だけで文字列を抽出できるという特徴があ
る。しかし、テキストに出現する文字列を文字数と出現
回数により網羅的に抽出するため、言語として意味をな
さない文字列（以下、断片的文字列と呼ぶ）が混在する
という問題がある。

【０００３】ところで、単語や句のようにひとまとまり
として認識すべき連続文字列（以下、「表現」と呼ぶ）
は、テキスト中での出現頻度が高く、またその前後には
様々な語が出現するという特徴がある。文献２情報処理学会研究報告 Vol.95, No.110(95-NL
-110-11) 文献２に開示された技術では、上記特徴を利用して、任
意の文字列の直前の文字の分散値と、直後の文字の分散
値を計算することにより、妥当な連続文字列を抽出する
手法について述べたものである。この手法では、文献１
の手法で抽出された文字列から分散値の低い文字列を断
片的文字列として除去することにより、意味のある文字
列、すなわち「表現」だけを抽出するものである。

【０００４】

【発明が解決しようとする課題】通常、「表現」には様
々なレベル（例えば専門用語や固有名詞などの専門表
現、一般用語や慣用句などの一般表現）のものがある。
しかしながら、従来の文字列抽出方法では、文書中から
抽出した文字列に含まれる断片的文字列は排除され、意
味のある文字列「表現」が抽出されるものの、様々なレ
ベルの表現の文字列が混在した状態で抽出されてしま
う。従って、抽出結果を実際に利用する際には、さらに
これを用途に合わせて分類しなければならないという問
題があった。

【０００５】このような点から、本発明はテキスト文書
から抽出された任意の文字列を、特定の分野で使われる
専門表現と、分野に関係なく使われる一般表現に、適切
に分類することができる文字列自動分類装置を提供する
ことを目的とする。

【０００６】

【課題を解決するための手段】係る課題を解決するた
め、本発明は、自然言語で記述された複数の文書を保存
する文書格納手段と、複数の文書のうち、任意の文書か
ら文字列を抽出する文字列抽出手段と、文字列抽出手段
により抽出した文字列の、抽出した文書内での重要度を
文書内重要度として算出する文書内重要度計算手段と、
文字列抽出手段により抽出した文字列の、複数の文書全
体での重要度を文書間重要度として算出する文書間重要
度計算手段と、文書内重要度と文書間重要度に基き抽出
した文字列の重要度を文字列重要度として算出する文字
列重要度計算手段と、文字列重要度計算手段で得られた
文字列重要度に基き抽出した文字列を分類する文字列分
類手段を有する文字列自動分類装置を提供する。

【０００７】また、文書内重要度計算手段は、抽出した
文字列が、抽出した前記文書中に出現する頻度に基づき
文書内重要度を決定し、文書間重要度計算手段は、抽出
した文字列が、複数の文書全体において出現する文書の
数に基づいて文書間重要度を決定し、文字列重要度計算
手段は、抽出した文字列の文書内重要度と文書間重要度
により重み付けした文字列重要度を算出する。

【０００８】さらに、文字列分類手段は、文字列重要度
を予め定めた閾値と比較することで抽出した文字列を一
般表現または専門表現のいずれかに分類する第１の分類
部と、抽出した文字列を分割し、その分割した各々の文
字列の構成要素が前記第１の分類結果に存在するかを参
照し、各々の文字列が存在し、かつ、その分割した文字
列の構成要素の組み合せが予め定めた分類条件と一致す
る場合は前記第１の分類部での分類結果を、新たな分類
に置き換える第２の分類部とを有することで文字列を一
般表現と専門表現と一般表現と専門表現の組み合わせの
いずれかに分類することができる。

【０００９】

【発明の実施の形態】以下、本発明の実施形態に係る文
字列自動分類装置について、図面を用いて詳細に説明す
る。（Ａ）第１の実施形態図１は、本発明の文字列自動分類装置の第１の実施形態
を示すブロック構成図であり、ワークステーションやパ
ソコン等の情報処理装置上で実現されるものである。

【００１０】図１において、文字列自動分類装置は、入
出力装置１と、処理装置２と、記憶装置3を有する。入
出力装置１は、テキストの入力、抽出結果の表示などを
行なう機能を有する。処理装置２は、連続文字列を抽出
し、その結果を分類するための各種処理を実行する機能
を有する。記憶装置３は、入力されたテキストや各段階
の処理結果を保存する機能を有する。

【００１１】更に、入出力装置１は、入力部１１と出力
部１２を有する。入力部１１はデータとなるテキスト文
書を入力する機能を有し、例えばキーボード等から構成
される。出力部１２は抽出した文字列等の表示を行う機
能を有し、例えばディスプレイやプリンタ等で構成され
る。

【００１２】処理装置２は、文字列抽出部２１と重要度
計算部２２と文字列分類部２３を有する。文字列抽出部
２１は、後述する文書ファイルを読み込み、その文書フ
ァイルに含まれる任意のn-gram文字列を抽出する。この
抽出方法は、例えば、文献１に示した文字列抽出方法を
用いる。また、抽出結果に対して、文献２のような断片
的文字列を除去する処理を行ってもよい。なお、従来技
術で記載した方法にかかわらず、単語や句、節の様な文
字列が抽出できる方法ならよい。

【００１３】重要度計算部２２は、文字列抽出部２１で
抽出したn-gram文字列の文書内および文書間の重要度を
計算し、この２つの重要度から文字列に重み付けをした
最終的な文字列の重要度（以下、文字列重要度と呼ぶ）
を求めるものである。文字列分類部２３は、重要度計算
部２２で抽出した文字列毎に付与された重要度に基い
て、特定分野で利用される専門表現、または、分野に関
係なく通常の文書中に多く利用される一般表現に分類す
るものである。重要度計算部２２および文字列分類部２
３については、詳細を後述する。

【００１４】記憶装置３は、文書ファイル３１と文書内
重要度テーブル３２と文書間重要度テーブル３３とキー
ワードテーブル３４とバッファ３５を有する。文書ファ
イル３１は、入力部１２から入力されたデータとなるテ
キスト文書を文書ファイルとして保存するものである。
本実施の形態では、文書ファイル３１は複数個存在し、
文書ファイル３１の記載分野（内容）は限定されず、文
書ファイル毎に異なる分野のものであってもよい。

【００１５】図２に文書内重要度テーブル３２の例を示
す。文書内重要度テーブル３２は、文字列抽出部２１に
よって文書ファイル３１から生成されたn-gram文字列を
格納する文字列格納部と、文字列の文書内の重要度を
格納する文書内重要度格納部と、その文字列の文書内
での重要度と、文書内での文字列の重要度に文書間での
文字列の重要度を加味した重みつき重要度を格納する文
字列重要度格納部を有する。

【００１６】なお、文書内重要度格納テーブル３２は、
複数の文書ファイル３１毎に対応している。図３に文書
間重要度テーブル３３の例を示す。文書間重要度テーブ
ル３３は、文字列抽出部２１によって文書ファイル３１
から生成されたn-gram文字列を格納する文字列格納部
と、複数の文書ファイル３１の内の１つの文書ファイル
３１において抽出されたn-gram文字列が、その他の文書
ファイル３１に出現する数を格納する出現文書数格納部
と、複数の文書ファイル３１における文字列の重要度を
格納する文書間重要度格納部を有する。本実施形態で
は、１つのテーブルで構成している。

【００１７】なお、文書間重要度格納テーブル３３は、
複数の文書ファイル３１毎に生成された複数の文書内重
要度格納テーブル３２に格納されている文字列から作成
されるものである。

【００１８】キーワードテーブル３４は、文字列分類部
２３によって文書ファイル３１内で重要と判断され抽出
された文字列（キーワード）を格納する。図４にキーワ
ードテーブル３４の例を示す。キーワードテーブル３４
は、抽出された文字列を格納する文字列格納部と、文書
内重要度テーブル３２の文字列重要度格納部に格納され
ている文字列分類部２３によって文書ファイル３１内で
重要と判断され抽出された文字列（キーワード）を格納
する重要度格納部を有する。なお、キーワードテーブル
３４は、複数の文書ファイル３１毎に対応している。

【００１９】バッファ３５は、各処理の過程で得られる
値や途中結果など格納する。

【００２０】ここで、重要度計算部２２について詳細に
説明する。図５は、重要度計算部２２の機能を示す構成
図である。重要度計算部２２は、さらに、文書内重要度
計算部２２１と文書間重要度計算部２２２と文字列重要
度計算部２２３を有するものである。それぞれ、文書内
重要度テーブル３２と文書間重要度テーブル３３と関連
して処理を行う。

【００２１】文書内重要度計算部２２１は、記憶装置２
に格納された複数の文書ファイル３１から１つの文書フ
ァイル３１を読み出し、その文書ファイル３１から抽出
したn-gram 文字列のその文書ファイル３１における文
書内重要度を計算する。文書内重要度には、例えば、あ
る文字列が文書ファイル３１に出現する出現頻度を用い
る。計算した文書内重要度は文書内重要度テーブル３２
の文書内重要度格納部に格納する。この文書内重要度の
計算処理をすべての文書ファイル３１に対して繰り返し
行う。

【００２２】出現頻度は、文献１および２の方法でn-gr
am文字列を抽出する際に同時に求めることができる。

【００２３】文書間重要度計算部２２２は、抽出したn-
gram文字列の、複数ある文書ファイル３１全体における
重要度を求めるものである。まず、文書ファイル３１に
対応する文書内重要度テーブル３２から、１レコードづ
つ読み込みn-gram文字列が、幾つの文書ファイル３１に
出現する文字列であるかを計数する。この計数は、複数
個の文書ファイル３１に対応する文書内重要度テーブル
３２それぞれに対し行い、ある文字列が出現する文書フ
ァイル３１の累計を出現文書数とする。出現文書数が多
い時はその文字列が特定の文書ファイル３１にかかわら
ず多く出現する文字列であることがわかり、逆に出現文
書数が少ないときは、特定の文書ファイルにしか出現し
ない文字列であることがわかる。

【００２４】求めた出現文書数は、文書間重要度テーブ
ル３３の出現文書数格納部に格納する。さらに、各文字
列の文書間重要度を計算する。ここでは、ある文字列_k
を含む文書ファイル３１が少ないほど文書間の重要度が
大きな値をとるようにする。この値は、例えば、invers
e document frequencyを用いる。inverse document fre
quencyとは、ある文字列を含む文書の数の逆数に、全体
の文書数を掛けたものである。文字列_kのinverse docum
ent frequencyをｉｄｆ_kとし、文書ファイル数をＮ、抽
出した文字列を含む文書ファイル３１の数（出現文書
数）をｎ_kとすると、次の式で求められる。

【００２５】（式１）ｉｄｆ_k＝ｌｏｇ（Ｎ／ｎ_k）ここ
で、ｉｄｆ_kはｎ_k＝１のとき最大値をとり、ｎ_k＝Ｎの
とき最小値（＝０）をとり、文字列_kを含む文書ファイ
ル３１の数によって変化する。文書間重要度は、文字列
ｋを含む文書ファイル３１が多いほど小さな値をとる。
逆に、文字列ｋが少ない文書ファイル３１にしか含まれ
ない場合は大きな値をとる。

【００２６】この文書間重要度の計算処理を文書間重要
度テーブル３３の文字列格納部に格納されているすべて
のn-gram 文字列に対して繰り返し行う。求めた文書間
重要度は、文書間重要度テーブル３３の文書間重要度格
納部に格納する。

【００２７】文字列重要度計算部２２３は、文書内重要
度テーブル３２から文書内重要度を、文書間重要度テー
ブル３３から文書間重要度をそれぞれ読み出し、文字列
の文書内での重要度を文書間の重要度によって重み付け
された、文字列の重要度の計算を行う。ここでは、特定
の文書ファイル３１での出現頻度は高いが、それ以外の
文書ファイル３１ではほとんど出現しない文字列、すな
わち特定分野に関連する文字列の重要度が高くなるよう
に設定し、逆に特定の文書ファイル３１に関係なく、多
くの文書ファイル３１に出現する、すなわち特定分野に
関係なく出現する文字列の値が低くなるように設定す
る。算出方法は、例えば、文書内重要度と文書間重要度
の積を用いる。

【００２８】ここで、文書ファイル_i３１（１≦_i≦Ｎ）
から抽出した文字列_kの文字列重要度をＷ_ikとする。文
字列_kの文書ファイル_i３１における出現頻度を表す文書
内重要度をｔｆ_ikとし、文字列_kの文書間における重要
度を表す文書間重要度をｉｄｆ_kとすると、次の式２で
求められる。(式２）Ｗ_ik＝ｔｆ_ik×ｉｄｆ_k文字列重要
度は、文字列_kが少ない文書ファイルにしか出現しない
ためｉｄｆ_kの値が高く、かつ、文字列_kが抽出された文
書ファイル内での出現頻度が高いため、ｔｆ_ikの値が高
い場合に、高い値を得る。

【００２９】文字列重要度が高い値を得た場合に、文字
列_kがその文書ファイル内において重要なキーワードで
あると判断する。求めた、文字列重要度は、文書内重要
度テーブル３３の文字列重要度格納部に格納する。この
文字列の重要度の計算処理を、文書内重要度テーブル３
２のすべての文字列に対して繰り返して行う。

【００３０】次に、文字列分類部２３について詳細に説
明する。文字列分類部２３は、文書内重要度テーブル３
２から１レコードづつ読み込み、文字列重要度格納部に
格納されている文字列の重要度に基き、文字列を専門表
現と一般表現の２つに分類し、専門表現のみを抽出す
る。

【００３１】分類方法は、例えば、予め閾値を定めてお
き、その閾値と比較することで行う。ここで、閾値をＴ
とし、文字列の重要度が閾値Ｔより大きい場合にその文
字列は重要度が高いと判断する。閾値と比較が終了し、
重要だと判断された文字列は、文字列とその文字列の重
要度とともに、キーワードテーブル３４に格納する。こ
の分類処理を、すべての文書内重要度テーブル３２に対
して繰り返しておこない、文書ファイル３１内で重要で
ある文字列として分類する。

【００３２】図６は、本発明の文字列自動抽出装置の動
作を示すフローチャートである。ここで、入力部１１か
らデータとなるテキスト文書を文書ファイルとして、記
憶部３の文書ファイル３１に入力し、複数の文書ファイ
ル３１が格納されているものとする。また、文書ファイ
ル３１の総数は予めわかっているものとする。

【００３３】まず、文字列抽出部２１は、文書ファイル
３１から複数存在する文書ファイル中から１つの文書フ
ァイルを読み込み（ステップ１）、読み込んだ文書ファ
イルからn-gram文字列を抽出し、文書内重要度テーブル
３２の文字列格納部に格納する。（ステップ２）。

【００３４】抽出したn-gram文字列がその文書ファイル
中に出現する頻度を求め、文書内重要度テーブル３２の
文書内重要度格納部に格納する。（ステップ３）。ここ
で、文字列抽出が未処理である文書ファイル３１が存在
するかを判断する。未処理の文書ファイル３１が存在す
る場合はステップ１の処理に戻り、最後の文書ファイル
３１であるときには次のステップ４の処理に進む（ステ
ップ４）。

【００３５】次に文字列毎に求めた文書内重要度を用い
て、文字列の文書間重要度を求める。ステップ３までの
処理過程で生成したすべての文書内重要度テーブル３２
を参照し、各文字列の文書間重要度を計算して文書間重
要度テーブル３３に格納する（ステップ５）。

【００３６】次に、文書内重要度と文書間重要度を用い
て、抽出したn-gram文字列に重み付けをした文字列の重
要度を計算し、文書内重要度テーブル３３の文字列重要
度格納部に格納する。（ステップ６）。最後に、重み付
けされた文字列の重要度と予め設定した閾値とを比較し
て文字列の分類を行う（ステップ７）。

【００３７】ここで、文書間重要度の処理を行うステッ
プ５について図７のフローチャートを用いて詳細に説明
する。まず、文書内重要度テーブル３２から１レコード
読み込む（ステップ５１）。読み込んだ文字列が文書間
重要度テーブル３３の文字列格納部にすでに格納されて
いるかを判断し、格納されている場合はステップ５４に
進む。

【００３８】格納されていない場合は、ステップ５３に
進み、文字列重要度テーブル３３の文字列格納部に文字
列を格納した後、ステップ５４に処理を進める（ステッ
プ５２、５３）。ステップ５４において、その文字列の
出現文書数を１増加する（ステップ５４）。対象となっ
ている文書内重要度テーブル３２に未処理のレコードが
在るかを判断し、まだ未処理のレコードがあればステッ
プ５１に戻り、無ければステップ５６に進む（ステップ
５５）。

【００３９】次に、ステップ５５までの処理をすべての
文書内重要度テーブルに実行したかを判断する。まだ未
処理の文書内重要度テーブル３２がある場合は、ステッ
プ５７に進み、未処理の文書内重要度テーブル３２が無
い場合はステップ５８に処理に進める（ステップ５
６）。未処理の文書内重要度テーブル３２がある場合は
次の文書内重要度テーブル３２に処理を移し、すべての
文書内重要度テーブル３２に対してステップ５１からス
テップ５５の処理を行う（ステップ５７）。

【００４０】次に、文書間重要度テーブル３３から１レ
コード読み込む（ステップ５８）。出現文書数と文書フ
ァイル総数を用いて文書間での文字列の重要度を計算
し、（ステップ５９）求めた文書間重要度を文書間重要
度テーブル３３の文書間重要度格納部に格納する（ステ
ップ５１１）。次に、文書間重要度テーブル３３に存在
するすべてのレコードに処理を実行したかを判断する。
まだ未処理のレコードがある場合は、ステップ５８に進
み、未処理のレコードが無い場合は処理を終了する（ス
テップ５１２）。

【００４１】次に、文字列重要度の処理を行うステップ
６について、図８のフローチャートを用いて詳細に説明
する。

【００４２】まず、文書内重要度テーブル３２から１レ
コード読み込む（ステップ６１）。読み込んだ文字列に
該当する文書間重要度を文書間重要度テーブル３３から
参照し、重み付けした文字列の重要度を計算し（ステッ
プ６２）、求めた文字列重要度を現在処理の対象となっ
ている文書内重要度格納テーブル３２の文字列重要度格
納部に格納する（ステップ６３）。

【００４３】ここで、対象となっている文書内重要度テ
ーブル３２に未処理のレコードが在るかを判断し、まだ
未処理のレコードがあればステップ６１に戻り処理を続
け、無ければステップ６５に進む（ステップ６４）。次
にステップ６４までの処理をすべての文書内重要度テー
ブル３２に実行し、重み付けした文字列重要度を算出し
たかを判断する。

【００４４】まだ未処理の文書内重要度テーブル３２が
ある場合はステップ６６に進み、未処理の文書内重要度
テーブル３２が無い場合は、図６のステップ７に進む
（ステップ６５）。未処理の文書内重要度テーブル３２
がある場合は次の文書内重要度テーブル３２に処理を移
しすべての文書内重要度テーブル３２に対してステップ
６１からステップ６５の処理を行う（ステップ６６）。

【００４５】次に、重み付けされた文字列の分類処理を
行うステップ７について、図９のフローチャートを用い
て詳細に説明する。

【００４６】まず、文書内重要度テーブルから１レコー
ド読み込む（ステップ７１）。読み込んだ文字列重要度
と予め設定した閾値との比較を行い、文字列重要度が閾
値より大きければステップ７３に進み、閾値より小さけ
ればステップ７４に進む（ステップ７２）。閾値より大
きいと判断された文字列重要度と、その文字列重要度に
対応する文字列を、対象となっている文書内重要度テー
ブル３２に対応する、キーワードテーブル３４の重要度
格納部と文字列格納部にそれぞれ格納する。

【００４７】ここで、対象となっている文書内重要度テ
ーブル３２に未処理のレコードが在るかを判断し、まだ
未処理のレコードがあればステップ７１に戻り処理を続
け、無ければステップ７５に進む（ステップ７４）。次
にステップ７４までの処理をすべての文書内重要度テー
ブル３２に実行し、文字列の分類を行ったかを判断す
る。

【００４８】まだ未処理の文書内重要度テーブル３２が
ある場合はステップ７６に進み、未処理の文書内重要度
テーブル３２が無い場合は処理を終了する。未処理の文
書内重要度テーブル３２がある場合は次の文書内重要度
テーブル３２に処理を移しすべての文書内重要度テーブ
ル３２に対してステップ７１からステップ７５の処理を
行う（ステップ７６）。

【００４９】次に、実際の事例と図６から図９のフロー
チャートを用いて、本発明の処理過程を具体的に説明す
る。

【００５０】記憶装置３にはＮ個の文書ファイル３１が
格納されているものとする。図１０は文書内重要度テー
ブル３２の例である。

【００５１】まず、文書ファイル_i３１（１≧_i≧Ｎ）の
内容を読み込み、n-gram文字列を抽出し、抽出した文字
列の文書ファイル_i３１中における出現頻度を求め、そ
れぞれ対応する文書内重要度テーブル３２に格納する
（図６のステップ１、２、３）。

【００５２】図１０に抽出した文字列と出現頻度（文書
内重要度）を格納した文書内重要度テーブル３２を示
す。図６のステップ１、２、３の処理をＮ個の文書ファ
イル_i３１に対して各々行う。この処理の終了後は、文
書ファイル_i３１（１≦_i≦Ｎ）に対応して、文書内重要
度テーブルｉ３２（１≦ｉ≦Ｎ）が作成される。

【００５３】次に、各文字列の文書間の重要度を計算
し、これを文書間重要度テーブル３３に格納する。図１
１に文書間重要度テーブルの例を示す。ここで、図１０
の文書内重要度テーブル_i３２を処理対象とし、読み込
んだ文字列_k＝“での“が、その他の文書内重要度テー
ブル３２にが存在するかを判断する。存在する場合は他
の文書での出現数としてカウントして合計値を文書間重
要度テーブル_i３３の出現文書数格納部に格納する。こ
こでは、他文書での出現数ｎ_k＝４３であったとする。
（図７ステップ５１〜５７）。

【００５４】次に文書間重要度を求める。文書ファイル
３１の数Ｎ＝５０、文字列_k＝“での“、出現文書数ｎ_k
＝４３を式（１）に従って、文書ファイル_i３１におけ
る文字列_kの文書間重要度ｉｄｆ_k＝ｌｏｇ（５０／４
３）＝０．１５を求め、文書間重要度格納部に０．１５
を格納する（図７ステップ５８〜５１１）。図１１に図
１０に示した文書内重要度テーブル３２に文書間重要度
計算を実行した後の文書間重要度テーブル３３の内容を
示す。

【００５５】次に、n-gram文字列に重み付けした文字列
重要度を求める。図１０の文書内重要度テーブル_i３１
から文字列_k＝“での”の文書内重要度ｔｆ_ik＝１１を
読み込む。また、図１１の文書間重要度テーブル３３か
ら文字列_k＝“での”の文書間重要度ｉｄｆ_k＝０．１５
を読み込む。式（２）に従って、文書ファイル_i３１に
おける文字列_kの重要度Ｗ_ik＝１１×０．１５＝１．６
５を求め、得られた値を文書内重要度テーブルｉ３１の
文字列重要度格納部に格納する（図８ステップ６１から
６３）。

【００５６】この処理を、文書内重要度テーブル_i３３
のすべての文字列に対して繰り返して行う（ステップ６
５、６６）。図１２に、図１０の文書内重要度テーブル
_i３２に対し、図１１の文書間重要度テーブル３３を用
いて文字列に重み付けを行った後の内容を示す。図示し
ないが、文書内重要度テーブル_i３２以外の文書内重要
度テーブル３２が存在すれば次のテーブルに移り、同様
の処理を繰り返す。

【００５７】最後に、n-gram文字列の分類処理を行う。
図１２の文書内重要度テーブル_i３２から文字列_k＝“で
の”と文字列_k＝“での”に対応する重み付き文字列重
要度Ｗ_ik＝１．６５を読み込み、予め定めた閾値Ｔ＝１
０との比較を行う。文字列の重要度が閾値Ｔより大きけ
ればキーワードとして登録するが、文字列の重要度１．
６５は閾値１０よりも小さいため、キーワードテーブル
_i３４には格納されない（図９ステップ７１から７
４）。

【００５８】この処理を文書内重要度テーブル_i３２中
のすべてのレコードに対して繰り返して行う（図９ステ
ップ７５、７６）。

【００５９】続いて同様の処理を行うと、文字列_k＝
“で”および“の”の文字列重要度Ｗ_i _kは０であり、閾
値１０より小さいためキーワードとして登録されない。
これに対して、文字列_k＝“ネットワーク”の文字列重
要度Ｗ_ikは３９．３３であり、閾値１０より大きいの
で、文字列“ネットワーク”と文字列重要度をキーワー
ドテーブル_i３４に格納する。

【００６０】図１３に、図１２の文書内重要度テーブル
_i３２に対し、閾値Ｔ＝１０として分類処理を行った後
の内容を示す。以上の処理を複数の文書ファイル（１〜
Ｎ）に対して行う、この結果、すべての文書ファイル３
１に対して、対応するキーワード３４が作成される。

【００６１】＜第1の実施形態の効果＞本発明の第１の
実施形態によれば、テキストから抽出したn-gram文字列
を専門表現と一般表現に分類することができる。文書内
での重要度のみで判断するのではなく、文書間の重要度
を加味することにより、各文書における専門表現と一般
表現を相対的に分類することができる。つまり、文書内
での出現頻度が少ない文字列であっても専門性が高いと
判断されれば（特定の文書にしか出現しなければ）専門
表現としての値が高くなり、キーワードとして登録する
ことができる。

【００６２】また、用意された文書ファイルの内容に応
じて、適切な分類が行うことができる。例えば、第１の
実施形態において“ネットワーク”という文字列は、少
ない文書ファイルにしか出現しないため文書中での専門
性が高いと判断でき専門表現として分類できる。しか
し、文書ファイルがすべてネットワーク関連の論文等で
あった場合は文字列“ネットワーク”の重要度は低くな
り抽出されなくなる。この特徴は、キーワード検索装置
で利用するキーワードを抽出する際等に有効である。

【００６３】（Ｂ）第２の実施形態図１４は、本発明の文字列自動分類装置の第２の実施形
態を示すブロック構成図である。第２の実施形態におい
て第１の実施形態と同様の機能を備えるブロックには同
一の番号を付与し、第２の実施形態において第１の実施
形態と異なるブロックについてのみ詳細に説明する。

【００６４】処理装置２は第１の実施形態での文字列分
類部２３に代わり、文字列複数分類部２４を備える。

【００６５】文字列複数分類部２４は抽出したn-gram文
字列を、重要度計算部２２で文字列毎に付与された重要
度に基いて、専門表現、一般表現、または一般表現と専
門表現の組合わせの３種類に分類するものである。

【００６６】まず、文書内重要度テーブル３２から１レ
コードづつ読み込み、文字列重要度格納部に格納されて
いる文字列の重要度に基き文字列を分類する。

【００６７】分類方法は、例えば、予め閾値を定めてお
き、その閾値と比較することで行う。ここで、閾値をＴ
とした場合、文字列の重要度が閾値Ｔより大きい場合に
その文字列は重要度が高いと判断して、専門表現を表す
分類コード（ＤＣ＝domain dependent collocation、以
下、専門表現ＤＣ）を付与し、閾値Ｔより小さい場合
は、一般表現を表す分類コード（ＧＣ＝general colloc
ation、以下、一般表現ＧＣ）を付与する。

【００６８】この処理ですべての文字列に専門表現ＤＣ
または一般表現ＧＣのいずれかの分類コードを付与した
後、この分類コードに基き、更に文字の並び方を考慮し
て分類コードを再付与する。ここで、専門表現ＤＣと一
般表現ＧＣの他に、この２つの表現を組合わせた表現で
ある場合、組合わせを表す分類コード（ＣＧＤ＝combin
ation of general and domain dependent collocatio
n、以下、一般・専門表現ＣＧＤ）を付与する。

【００６９】分類コードの付与処理が終了した後、文字
列とその文字列の分類コードを文字列分類テーブル３６
に格納する。この分類コードの付与処理を、すべての文
書内重要度テーブル３２に対して繰り返しおこない、文
書ファイル３１内の文字列を分類する。

【００７０】なお、一般・専門表現ＣＧＤは、２つの表
現の組合わせ順に関係なく、専門表現ＤＣ・一般表現Ｇ
Ｃの順、または一般表現ＧＣ・専門表現ＤＣの順でも一
般・専門表現ＣＧＤを構成するものとする。また、専門
表現ＤＣと一般表現・専門表現ＣＧＤの組み合せと、一
般表現ＧＣと一般表現・専門表現ＣＧＤの組み合せの場
合も、一般・専門表現ＣＧＤを構成する。この場合も、
２つの表現の順序は問わない。

【００７１】記憶装置３は第１の実施形態でのキーワー
ドテーブル３４に代わり、文字列分類テーブル３６を備
える。

【００７２】文字列分類テーブル３６は、文字列複数分
類部２４によって文書ファイル３１内で重要と判断され
抽出された文字列（キーワード）と、文字列ごとに付与
した分類コードを格納する。

【００７３】図１６に文字列分類テーブル３６の例を示
す。文字列分類テーブル３６は、抽出された文字列を格
納する文字列格納部と、文字列複数分類部２４によって
文字列に付与された分類コードを格納する分類コード格
納部を有する。なお、文字列分類テーブル３６は、複数
の文書ファイル毎に対応している。

【００７４】次に、第２の実施形態の特徴である文字列
複数分類処理についてフローチャートを用いて説明す
る。本発明における文字列複数分類処理以外の処理は、
第１の実施形態と同様である。

【００７５】図１５は、文字列複数分類部の動作を示す
フローチャートである。図１５のステップ７２０等に記
載されている記号“＋”は文字列の要素の組み合せを表
すものである。例えば、“ＧＣ＋ＤＣ”は一般表現の要
素である文字列と専門表現の要素である文字列のと組み
合せであることを表す。また、分類コードの並び順は関
係がない。例えば、“ＧＣ＋ＣＧＤ”と記載した場合
は、“ＣＧＤ＋ＧＣ”の並び順も含むものとする。

【００７６】まず、文書内重要度テーブル３２から１レ
コード読み込む（ステップ７１１）。読み込んだ文字列
重要度と予め設定した閾値との比較を行い、文字列重要
度が閾値より大きければステップ７１３に進み、閾値よ
り小さければステップ７１４に進む（ステップ７１
２）。閾値より大きいと判断された場合は、その文字列
に専門表現ＤＣを付与する（ステップ７１３）。

【００７７】閾値より小さいと判断された場合は、その
文字列に一般表現ＧＣを付与し、ステップ７１５に進む
（ステップ７１４）。分類コードが付与された文字列と
その分類コードを、文字列を読み込んだ文書内重要度テ
ーブル３２に対応する文字列分類テーブル３６の文字列
格納部と分類コード格納部にそれぞれ格納する（ステッ
プ７１５）。

【００７８】ここで、対象となっている文書内重要度テ
ーブル３２に未処理のレコードが在るかを判断し、まだ
未処理のレコードがあればステップ７１１に戻り、ステ
ップ７１１からステップ７１５の処理を繰り返し、文書
内重要度テーブル３２のすべての文字列に対して専門表
現ＤＣまたは一般表現ＧＣのいずれかの分類コードを付
与する。未処理のレコードが無ければステップ７１７に
進む（ステップ７１６）。ステップ７１７ではフラグを
０にセットする（ステップ７１７）。

【００７９】次に、文字列分類テーブル３６から１レコ
ード読み込む（ステップ７１８）。読み込んだレコード
の文字列の要素が、「一般表現ＧＣ」または「一般・専
門ＣＧＤ」であるかを判断する。２つの表現のいずれか
に該当する場合はステップ７２５に進み、該当しない場
合はステップ７２０に進む（ステップ７１９）。

【００８０】次に、文字列の要素が「一般表現ＧＣと一
般表現ＧＣの組合わせ」であるかを判断する。この組合
わせに該当する場合はステップ７２１へ進み、該当しな
い場合はステップ７２２へ進む（ステップ７２０）。こ
の組合わせに該当する場合は、文字列に一般表現ＧＣを
付与し（ステップ７２１）、文字列分類テーブル３６の
分類コード格納部に格納されている分類コードを一般表
現ＧＣに置き換え（ステップ７２９）、フラグを１にし
て（ステップ７２４）処理をステップ７２５に進める。

【００８１】更に、文字列の要素が「一般表現ＧＣと専
門表現ＤＣの組合わせ」または「一般表現ＧＣと一般・
専門表現ＣＧＤの組合わせ」もしくは「専門表現ＤＣと
一般・専門表現ＣＧＤの組合わせ」であるか判断する。
この３つの表現のいずれかに該当する場合はステップ７
２３に進み、該当しない場合はステップ７２５に進む
（ステップ７２２）。

【００８２】この３つの表現に該当す場合は、文字列に
一般・専門表現ＣＧＤを付与し（ステップ７２３）、文
字列分類テーブル３６の分類コード格納部に格納されて
いる分類コードを一般・専門表現ＣＧＤに置換へ、（ス
テップ７２９）、フラグを１にして（ステップ７２４）
処理をステップ７２５に進める。

【００８３】ここで、対象となっている文書内重要度テ
ーブル３２に未処理のレコードが在るかを判断し、まだ
未処理のレコードがあればステップ７１８に戻り、ステ
ップ７１８からステップ７２５の処理を繰り返し、文書
内重要度テーブル３２のすべての文字列に対して専門表
現ＤＣまたは一般表現ＧＣもしくは一般・専門表現ＣＧ
Ｄのいずれかの分類コードを付与する。未処理のレコー
ドが無ければステップ７２６に進む（ステップ７２
５）。ステップ７２６ではフラグを０にセットする（ス
テップ７２６）。

【００８４】次にステップ７２６までの処理をすべての
文書内重要度テーブル３２に実行し、文字列の分類を行
ったかを判断する。まだ未処理の文書内重要度テーブル
３２がある場合はステップ７２８に進み、未処理の文書
内重要度テーブル３２が無い場合は、処理を終了する
（ステップ７２７）。

【００８５】未処理の文書内重要度テーブル３２がある
場合は次の文書内重要度テーブル３２に処理を移しすべ
ての文書内重要度テーブル３２に対してステップ７１１
からステップ７２７の処理を行う（ステップ７６）。

【００８６】ここで、文字列が２つの要素の組み合せで
あるかの判断方法について説明する。まず、ステップ７
１１からステップ７１７までの処理を実行し、文字列に
ＤＣまたはＧＣのいずれかの分類コードが付与され文字
列分類テーブル３６に格納されているものとする。

【００８７】文字列を２つの要素に分割するには、文字
列の区切り位置を１つづつずらして、各々の文字列が文
字列分類テーブル３６中に存在し、かつその文字列の分
類コードが判断条件に合致したときに分類コードを付与
する。図１９に、文字列“ネットワークの構築“を２つ
の要素に分割する方法を示す。

【００８８】ここで、文字列“ネットワーク”には専門
表現ＤＣが、文字列“ネットワークの”には一般・専門
表現ＣＧＤが、文字列“構築”には専門表現ＤＣが付与
されているものとし、２つの要素の組み合せとする判断
条件は、「一般表現ＧＣと専門表現ＤＣの組み合せ」ま
たは「一般表現ＧＣと一般・専門表現ＣＧＤの組み合
せ」であることとする。

【００８９】図１９において、番号部は文字列を分割し
た回数を示し、文字列Ａ部および文字列Ｂ部は２つに分
割した文字列の各要素を示し、照合結果部は文字列Ａお
よび文字列Ｂの両方の要素が文字列分類テーブル３６に
存在するかを照合した結果を示す。

【００９０】まず、“ネットワークの構築“の区切り位
置を１文字づつずらしていくと、番号１では、文字列Ａ
が“ネ”で文字列Ｂが“ットワークの構築”となる。こ
の２つの要素は文字列分類テーブル３６に存在しないの
で、２つの要素の組み合せでは無いと判断される。

【００９１】次に、番号６では、文字列Ａが“ネットワ
ーク”で文字列Ｂが“の構築”である。文字列Ａの“ネ
ットワーク”は、文字列分類テーブル３６に存在する
が、文字列Ｂの“の構築”は文字列分類テーブル３６に
存在しないため、２つの要素の組み合せとはならない。

【００９２】番号７では、文字列Ａが“ネットワーク
の”で文字列Ｂが“構築”である。文字列Ａと文字列Ｂ
の両方が文字列分類テーブル３６に存在し、かつ、各々
の分類コードが一般・専門表現ＣＧＤと一般表現ＧＣで
ある。したがって、文字列“ネットワークの構築“は、
「一般表現ＧＣと一般・専門表現ＣＧＤの組み合せ」で
あると判断される。

【００９３】次に、実際の事例と図１５のフローチャー
トを用いて、第２の実施形態における文字列複数分類処
理の過程を具体的に説明する。図６の文字列自動抽出装
置の動作を示すフローチャートのステップ1からステッ
プ５までの処理を実行し、図１２の文書内重要度テーブ
ル３２の内容が得られているものとする。

【００９４】また、記憶装置３にはＮ個の文書ファイル
３１が格納されているものとする。図１２の文書内重要
度テーブル_i３１から文字列_k＝“での”と文字列_k＝
“での”に対応する文字列重要度Ｗ_ik＝１．６５を読み
込み、予め定めた閾値Ｔ＝１０との比較を行う。文字列
の重要度１．６５は閾値１０よりも小さいため、一般表
現ＧＣを付与し、文字列分類テーブル_i３６に文字列と
分類コードの一般表現ＧＣを格納する。（図１５ステッ
プ７１１から７１５）。

【００９５】この処理を文書内重要度テーブル_i３２中
のすべてのレコードに対して繰り返して行う（図１５ス
テップ７１６）。続いて同様の処理を行うと、文字列
_k＝“で”および“の”の文字列重要度Ｗ_ikは０であ
り、閾値１０より小さいため、一般表現ＧＣを付与し、
文字列分類テーブル_i３６に文字列と分類コードの一般
表現ＧＣを格納する（図１５ステップ７１４、７１
５）。

【００９６】これに対して、文字列_k＝“ネットワー
ク”の文字列重要度Ｗ_ikは３９．３３であり、閾値１０
より大きいので、専門表現ＤＣを付与し、文字列分類テ
ーブル_i３６に文字列と分類コードの専門表現ＤＣを格
納する（ステップ７１３、７１５）。図１７に、図１
２の文書内重要度テーブル_i３２に対し、閾値Ｔ＝１０
として文字列複数分類処理を行った後の内容を示す。

【００９７】次に、フラグを０にセットし、文字列分類
テーブル_i３６から１レコード読み込む。1レコードめの
文字列“での”の分類コードは、一般表現ＧＣであり、
最後のレコードではないので処理を次のレコードに移す
（図１５ステップ７１８、７１９、７２５）。続いて読
み込んだ文字列_k＝“で”および“の”についても分類
コードは、一般表現ＧＣとなる。

【００９８】次に、文字列_k＝“ネットワーク”を読み
込む。ここで、文字列_k＝“ネットワーク”は、図１５
のステップ７１９、７２０、７２２に示す条件のいずれ
にも該当しない。また、最後のレコードでは無いので処
理を次のレコードに移す（ステップ７１８、７１９、７
２２、７２５）。

【００９９】次に、文字列_k＝“ネットワークの”を読
み込む。文字列_k＝“ネットワークの”は、専門表現Ｄ
Ｃの“ネットワーク”と一般表現ＧＣ“の”の２つの要
素で構成された文字列であるためステップ７２２の条件
に該当し、分類コードとして一般・専門表現ＣＧＤを付
与し、文字列分類テーブルｉ３６の分類コード格納部に
すでに格納されている分類コードＤＣを一般・専門表現
ＣＧＤに置き換える（ステップ７１８、７２２、７２
３、７２９）。フラグが１にセットされ、最後のレコー
ドではないので、次のレコードに処理を移す（ステップ
７２４、７２５）。

【０１００】次に、文字列_k＝“ネットワークの構築”
を読み込む。文字列_k＝“ネットワークの構築”は、
“ネットワークの”と“構築”の２つの要素に分割され
る。ここで、“ネットワークの”は先の処理で一般・専
門表現ＣＧＤに分類コードが置き換えられているので、
ステップ７２２の条件「一般・専門表現ＣＧＤと専門表
現ＤＣの組み合せ」に該当し、分類コードとして一般・
専門表現ＣＧＤを付与し、文字列分類テーブルｉ３６の
分類コード格納部にすでに格納されている分類コードＤ
Ｃを一般・専門表現ＣＧＤに置き換える。

【０１０１】文字列分類テーブル_i３６の最後のレコー
ドまで以上の処理を繰り返し、最後のレコードまで処理
を行った後に、フラグが０であるかを判断する。この
時、フラグは１となっているので処理をステップ７１７
に進め、フラグを０にセットする。ステップ７１８から
７２６の処理をステップ７２６の判断でフラグが０にな
るまで繰り返す。

【０１０２】フラグが０の場合、文字列分類テーブル３
６に格納されているすべての文字列に対して文字列複数
分類処理が終了したことになる。ステップ７２７で、他
に文字列分類テーブル３６があるかを判断し、すべての
文字列分類テーブル_i３６に対して処理を実行する。
図１８に、図１７の文字列分類テーブル_i３６に対し、
文字列複数分類処理を行った後の内容を示す。

【０１０３】以上の処理を複数の文書ファイル３１（１
〜Ｎ）に対して行う、この結果、すべての文書ファイル
３１に対して、対応する文字列分類テーブル３６が作成
される。

【０１０４】＜第２の実施形態の効果＞本発明の第２の
実施形態によれば、第１の実施形態で得られる効果の他
に、テキストから抽出したn-gram文字列を専門表現、一
般表現、専門表現と一般表現の組合わせの３つの表現に
分類することができる。

【０１０５】専門表現と一般表現を組合わせた表現に分
類することで、専門用語辞書を作成する際に不要な語句
を除去することが可能である。

【０１０６】例えば、図１８の文字列分類テーブル３６
から専門用語辞書を作成する場合に、一般・専門表現Ｃ
ＧＤが付与されている“ネットワークの”のような辞書
に登録する必要の無い文字列を除き、専門表現ＤＣが付
与されている文字列のみで専門用語辞書を作成できる。

【０１０７】また、一般・専門表現ＣＧＤが付与される
文字列は、専門用語に伴って用いられる単語を含んでお
り、専門的な言い回しを表すものである。従って、一般
・専門表現ＣＧＤが付与される文字列を抽出した専門表
現辞書（専門的な言い回しを格納した辞書）を作成する
ことができる。

【０１０８】抽出した文字列が専門表現と一般表現を組
合わせた表現かどうかを判断する際の文字列の分割は、
１度文字列を分割した結果を利用して文字列の再分割を
行う方法である。これにより、複数の表現で構成される
文字列を１度に分割するよりも効率よく表現の組み合せ
であるかの判断が行える。

【０１０９】この効果は特に、文字列を２つに分割する
のを繰り返し行うときに生じる。例えば、図１８の文字
列分類テーブル３６の文字列“ネットワークの構築”を
分割するとき１度に“ネットワーク／の／構築”（／は
単語の分割区切りを表す）の３つに分割して一般・専門
表現であると判断するよりも効率がよい。

【０１１０】（Ｃ）他の実施の形態（ｃ−１）第１および第２の実施形態においては、テキ
ストから抽出した文字列を様々なレベルの表現に分類す
ることを特徴とするものであり、文書中からキーワード
を検索する際に必要となる、キーワードの抽出や、機械
翻訳などのシステムで用いる専門用語辞書の自動抽出な
どに適用することができる。

【０１１１】（ｃ―２）第１および第２の実施の形態に
おいて、分類後の文字列をキーワードテーブルおよび文
字列分類テーブルに格納したが、抽出した文字列の出力
を行う際は、各テーブルの形式を変更して出力してもよ
いし、文字列の重要度の大きさや分類コードおよび文字
列の類似度に基いて並び替えるなど各種変形が可能であ
る。また、出力はキーワードテーブルや文字列分類テー
ブルに格納されている最終的な分類結果のみに限定せ
ず、キーワードの分類における各処理過程の結果も任意
に出力してもよい。

【０１１２】（ｃ−３）本発明の処理にかかわらず、特
定の文字列を専門表現または一般表現等に分類を固定し
たい場合は、その文字列の固定する分類を記憶装置に登
録しておき、分類処理の前に抽出した文字列が分類を固
定する文字列に該当するかを判断し、該当する場合は、
登録された分類を付与する構成にしてもよい。

【０１１３】

【発明の効果】以上のように、本発明によれば、抽出し
た文字列を自動的に分類する文字列自動分類装置に関
し、文字列の文書内での重要度と複数の文書ファイル全
体での重要度を考慮して、その文字列の重要度を決定す
る構成にしたことで、抽出した文字列を文書内での重要
度のみで判断することなく、専門表現や一般表現に分類
することができる。

【０１１４】また、専門表現と一般表現のほかに、この
２つ要素の組み合わせで構成されている文字列であるこ
とを判断することで、３つに分類することができる。文
字列が組み合わせで構成されているとの情報を得ること
で、専門用語辞書を作成する際に不要な語句を除去する
ことが可能となり、また、専門表現辞書（専門的な言い
回しを格納した辞書）を作成することが可能となる。

【図面の簡単な説明】

【図１】本発明の文字列自動抽出装置の第１の実施の形
態を示すブロック図である。

【図２】文書内重要度テーブルを示す図である。

【図３】文書間重要度テーブルを示す図である。

【図４】キーワードテーブルを示す図である。

【図５】重要度計算部の機能を示すブロック図である。

【図６】本発明の文字列自動抽出装置の動作を示すフロ
ーチャートである。

【図７】文書間重要度処理の動作を示すフローチャート
である。

【図８】文字列重要度処理の動作を示すフローチャート
である。

【図９】第１の実施の形態の文字列分類処理の動作を示
すフローチャートである。

【図１０】文書内重要度テーブルに格納された途中結果
例を示す図である。

【図１１】文書間重要度テーブルに格納された例を示す
図である。

【図１２】文書内重要度テーブルに格納された例を示す
図である。

【図１３】キーワードテーブルに格納された例を示す図
である。

【図１４】本発明の文字列自動抽出装置の第２の実施の
形態を示すブロック図である。

【図１５】第２の実施の形態の文字列分類処理の動作を
示すフローチャートである。

【図１６】文字列分類テーブルを示す図である。

【図１７】文字列分類テーブルの途中結果例を示す図で
ある。

【図１８】文字列分類テーブルの例を示す図である。

【図１９】文字列が２つの要素で構成されているかの判
断方法を示す図である。

【符号の説明】

１・・入力装置１１・・入力部１２・・出力部２・・処理装置２１・・文字列抽出部２２・・重要度計算部２３・・文字列分類部２４・・文字列複数分類部３・・記憶装置３１・・文書ファイル３２・・文書内重要度テーブル３３・・文書間重要度テーブル３４・・キーワードテーブル３５・・バッファ３６・・文字列分類テーブル。

Claims

【特許請求の範囲】

【請求項１】自然言語で記述された複数の文書を保存
する文書格納手段と、前記複数の文書のうち、任意の文書から文字列を抽出す
る文字列抽出手段と、前記文字列抽出手段により抽出した文字列の、抽出した
前記文書内での重要度を文書内重要度として算出する文
書内重要度計算手段と、前記文字列抽出手段により抽出した文字列の、前記複数
の文書全体での重要度を文書間重要度として算出する文
書間重要度計算手段と、前記文書内重要度と前記文書間
重要度に基き抽出した文字列の重要度を文字列重要度と
して算出する文字列重要度計算手段と、前記文字列重要度計算手段で得られた前記文字列重要度
に基き抽出した文字列を分類する文字列分類手段を備え
ることを特徴とする文字列自動分類装置。
【請求項２】請求項１に記載の文字列自動分類装置に
おいて、前記文書内重要度計算手段は、抽出した文字列が、抽出
した前記文書中に出現する頻度に基づき前記文書内重要
度を決定することを特徴とする文字列自動分類装置。
【請求項３】請求項１に記載の文字列自動分類装置に
おいて、前記文書間重要度計算手段は、抽出した文字列が、前記
複数の文書全体において出現する文書の数に基づき前記
文書間重要度を決定することを特徴とする文字列自動分
類装置。
【請求項４】請求項１に記載の文字列自動分類装置に
おいて、前記文字列重要度計算手段は、抽出した文字列の前記文
書内重要度と前記文書間重要度により重み付けした前記
文字列重要度を算出することを特徴とする文字列自動分
類装置。
【請求項５】請求項１に記載の文字列自動分類装置に
おいて、前記文字列分類手段は、前記文字列重要度を予め定めた
閾値と比較することで抽出した文字列を特定分野に関係
なく用いられる一般表現または特定分野で用いられる専
門表現のいずれかに分類することを特徴とする文字列自
動分類装置。
【請求項６】請求項１に記載の文字列自動分類装置に
おいて、前記文字列分類手段は、前記文字列重要度を予め定めた
閾値と比較することで抽出した文字列を前記一般表現ま
たは前記専門表現のいずれかに分類する第１の分類部
と、抽出した文字列を分割し、その分割した各々の文字列の
構成要素が前記第１の分類結果に存在するかを参照し、
各々の文字列が存在し、かつ、その分割した文字列の構
成要素の組み合せが予め定めた分類条件と一致する場合
は前記第１の分類部での分類結果を、新たな分類に置き
換える第２の分類部とを備えることを特徴とする文字列
自動分類装置。
【請求項７】請求項６に記載の文字列自動分類装置に
おいて、前記第２の分類部において、前記第１の分類結果を新た
な分類に置き換えた場合は、前記第２の分類部での前記
第１の分類結果の参照の際は前記新たな分類に置き換え
た後の分類結果を参照することを特徴とする文字列自動
分類装置。
【請求項８】請求項６に記載の文字列自動分類装置に
おいて、前記第２の分類部は、前記分割した文字列の構成要素が前記一般表現と前記専
門表現の組み合せである場合は、前記分割前の抽出した
文字列を一般表現と専門表現を組み合せた文字列である
ことを示す一般専門表現に分類し、または、前記分割し
た文字列の構成要素が前記一般表現と前記一般専門表現
の組み合せ、または前記専門表現と前記一般専門表現の
組み合せである場合は前記分割前の抽出した文字列を前
記一般専門表現とすることを特徴とする文字列自動分類
装置。
【請求項９】請求項１に記載の文字列自動分類装置に
おいて、前記文字列抽出手段は、文書に含まれるすべての文字を
先頭とするすべての長さの文字列を抽出することを特徴
とする文字列自動分類装置。
【請求項１０】自然言語で記述された複数の文書を保
存する文書格納処理と、前記複数の文書のうち、任意の文書から文字列を抽出す
る文字列抽出処理と、前記文字列抽出手段により抽出した文字列の、抽出した
前記文書内での重要度を文書内重要度として算出する文
書内重要度計算処理と、前記文字列抽出手段により抽出した文字列の、前記複数
の文書全体での重要度を文書間重要度として算出する文
書間重要度計算処理と、前記文書内重要度と前記文書間重要度に基き抽出した文
字列の重要度を文字列重要度として算出する文字列重要
度計算処理と、前記文字列重要度計算手段で得られた前記文字列重要度
に基き抽出した文字列を分類する文字列分類処理を実行
することを特徴とする文字列自動分類方法。
【請求項１１】請求項１０に記載の文字列自動分類方
法において、前記文字列分類処理は、前記文字列重要度を予め定めた
閾値と比較することで抽出した文字列を前記一般表現ま
たは前記専門表現のいずれかに分類する第１の分類処理
と、抽出した文字列を分割し、その分割した各々の文字列の
構成要素が前記第１の分類結果に存在するかを参照し、
各々の文字列が存在し、かつ、その分割した文字列の構
成要素の組み合せが予め定めた分類条件と一致する場合
は前記第１の分類処理での分類結果を、新たな分類に置
き換える第２の分類処理と、前記第２の分類処理において、前記第１の分類結果を新
たな分類に置き換えた場合は、前記第２の分類処理での
前記第１の分類結果の参照の際は、新たな分類に置き換
えた後の分類結果を参照することを特徴とする文字列自
動分類方法。
【請求項１２】請求項１０に記載の文字列自動分類方
法において、前記文字列抽出方法は、文書に含まれるすべての文字を
先頭とするすべての長さの文字列を抽出することを特徴
とする文字列自動分類方法。
【請求項１３】自然言語で記述された複数の文書のう
ち、任意の文書から文字列を抽出し、その抽出した文字
列の、抽出した前記文書内での重要度と前記複数の文書
全体での重要度を算出し、前記各重要度に基き、抽出し
た文字列の重要度を算出し、前記文字列の重要度に基き
抽出した文字列を分類することを特徴とする文字列自動
分類制御プログラムを記録した媒体。