JPH11272702A - 文字列自動分類装置およびその方法並びにその制御プログラムを記録した媒体 - Google Patents

文字列自動分類装置およびその方法並びにその制御プログラムを記録した媒体

Info

Publication number
JPH11272702A
JPH11272702A JP10073920A JP7392098A JPH11272702A JP H11272702 A JPH11272702 A JP H11272702A JP 10073920 A JP10073920 A JP 10073920A JP 7392098 A JP7392098 A JP 7392098A JP H11272702 A JPH11272702 A JP H11272702A
Authority
JP
Japan
Prior art keywords
character string
importance
document
classification
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10073920A
Other languages
English (en)
Other versions
JP3609252B2 (ja
Inventor
Sayori Shimohata
さより 下畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP07392098A priority Critical patent/JP3609252B2/ja
Publication of JPH11272702A publication Critical patent/JPH11272702A/ja
Application granted granted Critical
Publication of JP3609252B2 publication Critical patent/JP3609252B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 テキストから抽出された任意の文字列を、特
定の分野で使われる専門表現と、分野に関係なく使用さ
れる一般表現に分類する。 【解決手段】 自然言語で記述された複数の文書を保存
する文書格納手段と、複数の文書のうち、任意の文書か
ら文字列を抽出する文字列抽出手段と、文字列抽出手段
により抽出した文字列の、抽出した文書内での重要度を
文書内重要として算出する文書内重要度計算手段と、文
字列抽出手段により抽出した文字列の、複数の文書全体
での重要度を文書間重要度として算出する文書間重要度
計算手段と、文書内重要度と文書間重要度に基き抽出し
た文字列の重要度を文字列重要度として算出する文字列
重要度計算手段と、文字列重要度計算手段で得られた文
字列重要度に基き抽出した文字列を分類する文字列分類
手段を有する文字列自動分類装置を提供する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキストから抽出
された任意の文字列を、特定の分野で使われる専門表現
と分野に関係なく使われる一般表現に分類する方法およ
び装置に関する。
【0002】
【従来の技術】情報処理装置で使用できるようにデータ
化された文書を、自動的に翻訳する機械翻訳システム
や、文書をサーチして該当するキーワードを使用した文
書を検索するといったシステムでは、文書中に存在する
一定の意味を持った文字列を抽出する処理が必要であ
る。 文献1 「情報処理学会研究報告 Vol.93, No.61(93-NL
-96-1)」 文献1に開示された手法では、テキスト文書に含まれる
すべての文字を先頭とするすべての長さの文字列(テキ
ストの長さをlとした場合、テキスト中に出現する文字
i(1≦i≦L)を先頭とする長さn(1≦n≦L−
i)の文字列。以下、n-gram文字列と呼ぶ)を抽出し、
その出現回数をカウントすることで、処理対象となるテ
キスト文書から文字列を抽出している。この手法は、形
態素解析を行なったり辞書を使用したりする必要がな
く、統計処理だけで文字列を抽出できるという特徴があ
る。しかし、テキストに出現する文字列を文字数と出現
回数により網羅的に抽出するため、言語として意味をな
さない文字列(以下、断片的文字列と呼ぶ)が混在する
という問題がある。
【0003】ところで、単語や句のようにひとまとまり
として認識すべき連続文字列(以下、「表現」と呼ぶ)
は、テキスト中での出現頻度が高く、またその前後には
様々な語が出現するという特徴がある。 文献2 情報処理学会研究報告 Vol.95, No.110(95-NL
-110-11) 文献2に開示された技術では、上記特徴を利用して、任
意の文字列の直前の文字の分散値と、直後の文字の分散
値を計算することにより、妥当な連続文字列を抽出する
手法について述べたものである。この手法では、文献1
の手法で抽出された文字列から分散値の低い文字列を断
片的文字列として除去することにより、意味のある文字
列、すなわち「表現」だけを抽出するものである。
【0004】
【発明が解決しようとする課題】通常、「表現」には様
々なレベル(例えば専門用語や固有名詞などの専門表
現、一般用語や慣用句などの一般表現)のものがある。
しかしながら、従来の文字列抽出方法では、文書中から
抽出した文字列に含まれる断片的文字列は排除され、意
味のある文字列「表現」が抽出されるものの、様々なレ
ベルの表現の文字列が混在した状態で抽出されてしま
う。従って、抽出結果を実際に利用する際には、さらに
これを用途に合わせて分類しなければならないという問
題があった。
【0005】このような点から、本発明はテキスト文書
から抽出された任意の文字列を、特定の分野で使われる
専門表現と、分野に関係なく使われる一般表現に、適切
に分類することができる文字列自動分類装置を提供する
ことを目的とする 。
【0006】
【課題を解決するための手段】係る課題を解決するた
め、本発明は、自然言語で記述された複数の文書を保存
する文書格納手段と、複数の文書のうち、任意の文書か
ら文字列を抽出する文字列抽出手段と、文字列抽出手段
により抽出した文字列の、抽出した文書内での重要度を
文書内重要度として算出する文書内重要度計算手段と、
文字列抽出手段により抽出した文字列の、複数の文書全
体での重要度を文書間重要度として算出する文書間重要
度計算手段と、文書内重要度と文書間重要度に基き抽出
した文字列の重要度を文字列重要度として算出する文字
列重要度計算手段と、文字列重要度計算手段で得られた
文字列重要度に基き抽出した文字列を分類する文字列分
類手段を有する文字列自動分類装置を提供する。
【0007】また、文書内重要度計算手段は、抽出した
文字列が、抽出した前記文書中に出現する頻度に基づき
文書内重要度を決定し、文書間重要度計算手段は、抽出
した文字列が、複数の文書全体において出現する文書の
数に基づいて文書間重要度を決定し、文字列重要度計算
手段は、抽出した文字列の文書内重要度と文書間重要度
により重み付けした文字列重要度を算出する。
【0008】さらに、文字列分類手段は、文字列重要度
を予め定めた閾値と比較することで抽出した文字列を一
般表現または専門表現のいずれかに分類する第1の分類
部と、抽出した文字列を分割し、その分割した各々の文
字列の構成要素が前記第1の分類結果に存在するかを参
照し、各々の文字列が存在し、かつ、その分割した文字
列の構成要素の組み合せが予め定めた分類条件と一致す
る場合は前記第1の分類部での分類結果を、新たな分類
に置き換える第2の分類部とを有することで文字列を一
般表現と専門表現と一般表現と専門表現の組み合わせの
いずれかに分類することができる。
【0009】
【発明の実施の形態】以下、本発明の実施形態に係る文
字列自動分類装置について、図面を用いて詳細に説明す
る。 (A)第1の実施形態 図1は、本発明の文字列自動分類装置の第1の実施形態
を示すブロック構成図であり、ワークステーションやパ
ソコン等の情報処理装置上で実現されるものである。
【0010】図1において、文字列自動分類装置は、入
出力装置1と、処理装置2と、記憶装置3を有する。入
出力装置1は、テキストの入力、抽出結果の表示などを
行なう機能を有する。処理装置2は、連続文字列を抽出
し、その結果を分類するための各種処理を実行する機能
を有する。記憶装置3は、入力されたテキストや各段階
の処理結果を保存する機能を有する。
【0011】更に、入出力装置1は、入力部11と出力
部12を有する。入力部11はデータとなるテキスト文
書を入力する機能を有し、例えばキーボード等から構成
される。出力部12は抽出した文字列等の表示を行う機
能を有し、例えばディスプレイやプリンタ等で構成され
る。
【0012】処理装置2は、文字列抽出部21と重要度
計算部22と文字列分類部23を有する。文字列抽出部
21は、後述する文書ファイルを読み込み、その文書フ
ァイルに含まれる任意のn-gram文字列を抽出する。この
抽出方法は、例えば、文献1に示した文字列抽出方法を
用いる。また、抽出結果に対して、文献2のような断片
的文字列を除去する処理を行ってもよい。なお、従来技
術で記載した方法にかかわらず、単語や句、節の様な文
字列が抽出できる方法ならよい。
【0013】重要度計算部22は、文字列抽出部21で
抽出したn-gram文字列の文書内および文書間の重要度を
計算し、この2つの重要度から文字列に重み付けをした
最終的な文字列の重要度(以下、文字列重要度と呼ぶ)
を求めるものである。文字列分類部23は、重要度計算
部22で抽出した文字列毎に付与された重要度に基い
て、特定分野で利用される専門表現、または、分野に関
係なく通常の文書中に多く利用される一般表現に分類す
るものである。重要度計算部22および文字列分類部2
3については、詳細を後述する。
【0014】記憶装置3は、文書ファイル31と文書内
重要度テーブル32と文書間重要度テーブル33とキー
ワードテーブル34とバッファ35を有する。文書ファ
イル31は、入力部12から入力されたデータとなるテ
キスト文書を文書ファイルとして保存するものである。
本実施の形態では、文書ファイル31は複数個存在し、
文書ファイル31の記載分野(内容)は限定されず、文
書ファイル毎に異なる分野のものであってもよい。
【0015】図2に文書内重要度テーブル32の例を示
す。文書内重要度テーブル32は、文字列抽出部21に
よって文書ファイル31から生成されたn-gram文字列を
格納する文字列格納部と、 文字列の文書内の重要度を
格納する文書内重要度格納部と、 その文字列の文書内
での重要度と、文書内での文字列の重要度に文書間での
文字列の重要度を加味した重みつき重要度を格納する文
字列重要度格納部を有する。
【0016】なお、文書内重要度格納テーブル32は、
複数の文書ファイル31毎に対応している。図3に文書
間重要度テーブル33の例を示す。文書間重要度テーブ
ル33は、文字列抽出部21によって文書ファイル31
から生成されたn-gram文字列を格納する文字列格納部
と、複数の文書ファイル31の内の1つの文書ファイル
31において抽出されたn-gram文字列が、その他の文書
ファイル31に出現する数を格納する出現文書数格納部
と、複数の文書ファイル31における文字列の重要度を
格納する文書間重要度格納部を有する。本実施形態で
は、1つのテーブルで構成している。
【0017】なお、文書間重要度格納テーブル33は、
複数の文書ファイル31毎に生成された複数の文書内重
要度格納テーブル32に格納されている文字列から作成
されるものである。
【0018】キーワードテーブル34は、文字列分類部
23によって文書ファイル31内で重要と判断され抽出
された文字列(キーワード)を格納する。図4にキーワ
ードテーブル34の例を示す。キーワードテーブル34
は、抽出された文字列を格納する文字列格納部と、文書
内重要度テーブル32の文字列重要度格納部に格納され
ている文字列分類部23によって文書ファイル31内で
重要と判断され抽出された文字列(キーワード)を格納
する重要度格納部を有する。なお、キーワードテーブル
34は、複数の文書ファイル31毎 に対応している。
【0019】バッファ35は、各処理の過程で得られる
値や途中結果など格納する。
【0020】ここで、重要度計算部22について詳細に
説明する。図5は、重要度計算部22の機能を示す構成
図である。重要度計算部22は、さらに、文書内重要度
計算部221と文書間重要度計算部222と文字列重要
度計算部223を有するものである。それぞれ、文書内
重要度テーブル32と文書間重要度テーブル33と関連
して処理を行う。
【0021】文書内重要度計算部221は、記憶装置2
に格納された複数の文書ファイル31から1つの文書フ
ァイル31を読み出し、その文書ファイル31から抽出
したn-gram 文字列のその文書ファイル31における文
書内重要度を計算する。文書内重要度には、例えば、あ
る文字列が文書ファイル31に出現する出現頻度を用い
る。計算した文書内重要度は文書内重要度テーブル32
の文書内重要度格納部に格納する。この文書内重要度の
計算処理をすべての文書ファイル31に対して繰り返し
行う。
【0022】出現頻度は、文献1および2の方法でn-gr
am文字列を抽出する際に同時に求めることができる。
【0023】文書間重要度計算部222は、抽出したn-
gram文字列の、複数ある文書ファイル31全体における
重要度を求めるものである。まず、文書ファイル31に
対応する文書内重要度テーブル32から、1レコードづ
つ読み込みn-gram文字列が、幾つの文書ファイル31に
出現する文字列であるかを計数する。この計数は、複数
個の文書ファイル31に対応する文書内重要度テーブル
32それぞれに対し行い、ある文字列が出現する文書フ
ァイル31の累計を出現文書数とする。出現文書数が多
い時はその文字列が特定の文書ファイル31にかかわら
ず多く出現する文字列であることがわかり、逆に出現文
書数が少ないときは、特定の文書ファイルにしか出現し
ない文字列であることがわかる。
【0024】求めた出現文書数は、文書間重要度テーブ
ル33の出現文書数格納部に格納する。さらに、各文字
列の文書間重要度を計算する。ここでは、ある文字列k
を含む文書ファイル31が少ないほど文書間の重要度が
大きな値をとるようにする。この値は、例えば、invers
e document frequencyを用いる。inverse document fre
quencyとは、ある文字列を含む文書の数の逆数に、全体
の文書数を掛けたものである。文字列kのinverse docum
ent frequencyをidfkとし、文書ファイル数をN、抽
出した文字列を含む文書ファイル31の数(出現文書
数)をnkとすると、次の式で求められる。
【0025】(式1)idfk=log(N/nk)ここ
で、idfkはnk=1のとき最大値をとり、nk=Nの
とき最小値(=0)をとり、文字列kを含む文書ファイ
ル31の数によって変化する。文書間重要度は、文字列
kを含む文書ファイル31が多いほど小さな値をとる。
逆に、文字列kが少ない文書ファイル31にしか含まれ
ない場合は大きな値をとる。
【0026】この文書間重要度の計算処理を文書間重要
度テーブル33の文字列格納部に格納されているすべて
のn-gram 文字列に対して繰り返し行う。求めた文書間
重要度は、文書間重要度テーブル33の文書間重要度格
納部に格納する。
【0027】文字列重要度計算部223は、文書内重要
度テーブル32から文書内重要度を、文書間重要度テー
ブル33から文書間重要度をそれぞれ読み出し、文字列
の文書内での重要度を文書間の重要度によって重み付け
された、文字列の重要度の計算を行う。ここでは、特定
の文書ファイル31での出現頻度は高いが、それ以外の
文書ファイル31ではほとんど出現しない文字列、すな
わち特定分野に関連する文字列の重要度が高くなるよう
に設定し、逆に特定の文書ファイル31に関係なく、多
くの文書ファイル31に出現する、すなわち特定分野に
関係なく出現する文字列の値が低くなるように設定す
る。算出方法は、例えば、文書内重要度と文書間重要度
の積を用いる。
【0028】ここで、文書ファイルi31(1≦i≦N)
から抽出した文字列kの文字列重要度をWikとする。文
字列kの文書ファイルi31における出現頻度を表す文書
内重要度をtfikとし、文字列kの文書間における重要
度を表す文書間重要度をidfkとすると、次の式2で
求められる。(式2)Wik=tfik×idfk文字列重要
度は、文字列kが少ない文書ファイルにしか出現しない
ためidfkの値が高く、かつ、文字列kが抽出された文
書ファイル内での出現頻度が高いため、tfikの値が高
い場合に、高い値を得る。
【0029】文字列重要度が高い値を得た場合に、文字
kがその文書ファイル内において重要なキーワードで
あると判断する。求めた、文字列重要度は、文書内重要
度テーブル33の文字列重要度格納部に格納する。この
文字列の重要度の計算処理を、文書内重要度テーブル3
2のすべての文字列に対して繰り返して行う。
【0030】次に、文字列分類部23について詳細に説
明する。文字列分類部23は、文書内重要度テーブル3
2から1レコードづつ読み込み、文字列重要度格納部に
格納されている文字列の重要度に基き、文字列を専門表
現と一般表現の2つに分類し、専門表現のみを抽出す
る。
【0031】分類方法は、例えば、予め閾値を定めてお
き、その閾値と比較することで行う。ここで、閾値をT
とし、文字列の重要度が閾値Tより大きい場合にその文
字列は重要度が高いと判断する。閾値と比較が終了し、
重要だと判断された文字列は、文字列とその文字列の重
要度とともに、キーワードテーブル34に格納する。こ
の分類処理を、すべての文書内重要度テーブル32に対
して繰り返しておこない、文書ファイル31内で重要で
ある文字列として分類する。
【0032】図6は、本発明の文字列自動抽出装置の動
作を示すフローチャートである。ここで、入力部11か
らデータとなるテキスト文書を文書ファイルとして、記
憶部3の文書ファイル31に入力し、複数の文書ファイ
ル31が格納されているものとする。また、文書ファイ
ル31の総数は予めわかっているものとする。
【0033】まず、文字列抽出部21は、文書ファイル
31から複数存在する文書ファイル中から1つの文書フ
ァイルを読み込み(ステップ1)、読み込んだ文書ファ
イルからn-gram文字列を抽出し、文書内重要度テーブル
32の文字列格納部に格納する。(ステップ2)。
【0034】抽出したn-gram文字列がその文書ファイル
中に出現する頻度求め、文書内重要度テーブル32の
文書内重要度格納部に格納する。(ステップ3)。ここ
で、文字列抽出が未処理である文書ファイル31が存在
するかを判断する。未処理の文書ファイル31が存在す
る場合はステップ1の処理に戻り、最後の文書ファイル
31であるときには次のステップ4の処理に進む(ステ
ップ4)。
【0035】次に文字列毎に求めた文書内重要度を用い
て、文字列の文書間重要度を求める。ステップ3までの
処理過程で生成したすべての文書内重要度テーブル32
を参照し、各文字列の文書間重要度を計算して文書間重
要度テーブル33に格納する(ステップ5)。
【0036】次に、文書内重要度と文書間重要度を用い
て、抽出したn-gram文字列に重み付けをした文字列の重
要度を計算し、文書内重要度テーブル33の文字列重要
度格納部に格納する。(ステップ6)。最後に、重み付
けされた文字列の重要度と予め設定した閾値とを比較し
て文字列の分類を行う(ステップ7)。
【0037】ここで、文書間重要度の処理を行うステッ
プ5について図7のフローチャートを用いて詳細に説明
する。まず、文書内重要度テーブル32から1レコード
読み込む(ステップ51)。読み込んだ文字列が文書間
重要度テーブル33の文字列格納部にすでに格納されて
いるかを判断し、格納されている場合はステップ54に
進む。
【0038】格納されていない場合は、ステップ53に
進み、文字列重要度テーブル33の文字列格納部に文字
列を格納した後、ステップ54に処理を進める(ステッ
プ52、53)。ステップ54において、その文字列の
出現文書数を1増加する(ステップ54)。対象となっ
ている文書内重要度テーブル32に未処理のレコードが
在るかを判断し、まだ未処理のレコードがあればステッ
プ51に戻り、無ければステップ56に進む(ステップ
55)。
【0039】次に、ステップ55までの処理をすべての
文書内重要度テーブルに実行したかを判断する。まだ未
処理の文書内重要度テーブル32がある場合は、ステッ
プ57に進み、未処理の文書内重要度テーブル32が無
い場合はステップ58に処理に進める(ステップ5
6)。未処理の文書内重要度テーブル32がある場合は
次の文書内重要度テーブル32に処理を移し、すべての
文書内重要度テーブル32に対してステップ51からス
テップ55の処理を行う(ステップ57)。
【0040】次に、文書間重要度テーブル33から1レ
コード読み込む(ステップ58)。出現文書数と文書フ
ァイル総数を用いて文書間での文字列の重要度を計算
し、(ステップ59)求めた文書間重要度を文書間重要
度テーブル33の文書間重要度格納部に格納する(ステ
ップ511)。次に、文書間重要度テーブル33に存在
するすべてのレコードに処理を実行したかを判断する。
まだ未処理のレコードがある場合は、ステップ58に進
み、未処理のレコードが無い場合は処理を終了する(ス
テップ512)。
【0041】次に、文字列重要度の処理を行うステップ
6について、図8のフローチャートを用いて詳細に説明
する。
【0042】まず、文書内重要度テーブル32から1レ
コード読み込む(ステップ61)。読み込んだ文字列に
該当する文書間重要度を文書間重要度テーブル33から
参照し、重み付けした文字列の重要度を計算し(ステッ
プ62)、求めた文字列重要度を現在処理の対象となっ
ている文書内重要度格納テーブル32の文字列重要度格
納部に格納する(ステップ63)。
【0043】ここで、対象となっている文書内重要度テ
ーブル32に未処理のレコードが在るかを判断し、まだ
未処理のレコードがあればステップ61に戻り処理を続
け、無ければステップ65に進む(ステップ64)。次
にステップ64までの処理をすべての文書内重要度テー
ブル32に実行し、重み付けした文字列重要度を算出し
たかを判断する。
【0044】まだ未処理の文書内重要度テーブル32が
ある場合はステップ66に進み、未処理の文書内重要度
テーブル32が無い場合は、図6のステップ7に進む
(ステップ65)。未処理の文書内重要度テーブル32
がある場合は次の文書内重要度テーブル32に処理を移
しすべての文書内重要度テーブル32に対してステップ
61からステップ65の処理を行う(ステップ66)。
【0045】次に、重み付けされた文字列の分類処理を
行うステップ7について、図9のフローチャートを用い
て詳細に説明する。
【0046】まず、文書内重要度テーブルから1レコー
ド読み込む(ステップ71)。読み込んだ文字列重要度
と予め設定した閾値との比較を行い、文字列重要度が閾
値より大きければステップ73に進み、閾値より小さけ
ればステップ74に進む(ステップ72)。閾値より大
きいと判断された文字列重要度と、その文字列重要度に
対応する文字列を、対象となっている文書内重要度テー
ブル32に対応する、キーワードテーブル34の重要度
格納部と文字列格納部にそれぞれ格納する。
【0047】ここで、対象となっている文書内重要度テ
ーブル32に未処理のレコードが在るかを判断し、まだ
未処理のレコードがあればステップ71に戻り処理を続
け、無ければステップ75に進む(ステップ74)。次
にステップ74までの処理をすべての文書内重要度テー
ブル32に実行し、文字列の分類を行ったかを判断す
る。
【0048】まだ未処理の文書内重要度テーブル32が
ある場合はステップ76に進み、未処理の文書内重要度
テーブル32が無い場合は処理を終了する。未処理の文
書内重要度テーブル32がある場合は次の文書内重要度
テーブル32に処理を移しすべての文書内重要度テーブ
ル32に対してステップ71からステップ75の処理を
行う(ステップ76)。
【0049】次に、実際の事例と図6から図9のフロー
チャートを用いて、本発明の処理過程を具体的に説明す
る。
【0050】記憶装置3にはN個の文書ファイル31が
格納されているものとする。図10は文書内重要度テー
ブル32の例である。
【0051】まず、文書ファイルi31(1≧i≧N)の
内容を読み込み、n-gram文字列を抽出し、抽出した文字
列の文書ファイルi31中における出現頻度を求め、そ
れぞれ対応する文書内重要度テーブル32に格納する
(図6のステップ1、2、3)。
【0052】図10に抽出した文字列と出現頻度(文書
内重要度)を格納した文書内重要度テーブル32を示
す。図6のステップ1、2、3の処理をN個の文書ファ
イルi31に対して各々行う。この処理の終了後は、文
書ファイルi31(1≦i≦N)に対応して、文書内重要
度テーブルi32(1≦i≦N)が作成される。
【0053】次に、各文字列の文書間の重要度を計算
し、これを文書間重要度テーブル33に格納する。図1
1に文書間重要度テーブルの例を示す。ここで、図10
の文書内重要度テーブルi32を処理対象とし、読み込
んだ文字列k=“での“が、その他の文書内重要度テー
ブル32にが存在するかを判断する。存在する場合は他
の文書での出現数としてカウントして合計値を文書間重
要度テーブルi33の出現文書数格納部に格納する。こ
こでは、他文書での出現数nk=43であったとする。
(図7ステップ51〜57)。
【0054】次に文書間重要度を求める。文書ファイル
31の数N=50、文字列k=“での“、出現文書数nk
=43を式(1)に従って、文書ファイルi31におけ
る文字列kの文書間重要度idfk=log(50/4
3)=0.15を求め、文書間重要度格納部に0.15
を格納する(図7ステップ58〜511)。図11に図
10に示した文書内重要度テーブル32に文書間重要度
計算を実行した後の文書間重要度テーブル33の内容を
示す。
【0055】次に、n-gram文字列に重み付けした文字列
重要度を求める。図10の文書内重要度テーブルi31
から文字列k=“での”の文書内重要度tfik=11を
読み込む。また、図11の文書間重要度テーブル33か
ら文字列k=“での”の文書間重要度idfk=0.15
を読み込む。式(2)に従って、文書ファイルi31に
おける文字列kの重要度Wik=11×0.15=1.6
5を求め、得られた値を文書内重要度テーブルi31の
文字列重要度格納部に格納する(図8ステップ61から
63)。
【0056】この処理を、文書内重要度テーブルi33
のすべての文字列に対して繰り返して行う(ステップ6
5、66)。図12に、図10の文書内重要度テーブル
i32に対し、図11の文書間重要度テーブル33を用
いて文字列に重み付けを行った後の内容を示す。図示し
ないが、文書内重要度テーブルi32以外の文書内重要
度テーブル32が存在すれば次のテーブルに移り、同様
の処理を繰り返す。
【0057】最後に、n-gram文字列の分類処理を行う。
図12の文書内重要度テーブルi32から文字列k=“で
の”と文字列k=“での”に対応する重み付き文字列重
要度Wik=1.65を読み込み、予め定めた閾値T=1
0との比較を行う。文字列の重要度が閾値Tより大きけ
ればキーワードとして登録するが、文字列の重要度1.
65は閾値10よりも小さいため、キーワードテーブル
i34には格納されない(図9ステップ71から7
4)。
【0058】この処理を文書内重要度テーブルi32中
のすべてのレコードに対して繰り返して行う(図9ステ
ップ75、76)。
【0059】続いて同様の処理を行うと、文字列k
“で”および“の”の文字列重要度Wi kは0であり、閾
値10より小さいためキーワードとして登録されない。
これに対して、文字列k=“ネットワーク”の文字列重
要度Wikは39.33であり、閾値10より大きいの
で、文字列“ネットワーク”と文字列重要度をキーワー
ドテーブルi34に格納する。
【0060】図13に、図12の文書内重要度テーブル
i32に対し、閾値T=10として分類処理を行った後
の内容を示す。以上の処理を複数の文書ファイル(1〜
N)に対して行う、この結果、すべての文書ファイル3
1に対して、対応するキーワード34が作成される。
【0061】<第1の実施形態の効果>本発明の第1の
実施形態によれば、テキストから抽出したn-gram文字列
を専門表現と一般表現に分類することができる。文書内
での重要度のみで判断するのではなく、文書間の重要度
を加味することにより、各文書における専門表現と一般
表現を相対的に分類することができる。つまり、文書内
での出現頻度が少ない文字列であっても専門性が高いと
判断されれば(特定の文書にしか出現しなければ)専門
表現としての値が高くなり、キーワードとして登録する
ことができる。
【0062】また、用意された文書ファイルの内容に応
じて、適切な分類が行うことができる。例えば、第1の
実施形態において“ネットワーク”という文字列は、少
ない文書ファイルにしか出現しないため文書中での専門
性が高いと判断でき専門表現として分類できる。しか
し、文書ファイルがすべてネットワーク関連の論文等で
あった場合は文字列“ネットワーク”の重要度は低くな
り抽出されなくなる。この特徴は、キーワード検索装置
で利用するキーワードを抽出する際等に有効である。
【0063】(B)第2の実施形態 図14は、本発明の文字列自動分類装置の第2の実施形
態を示すブロック構成図である。第2の実施形態におい
て第1の実施形態と同様の機能を備えるブロックには同
一の番号を付与し、第2の実施形態において第1の実施
形態と異なるブロックについてのみ詳細に説明する。
【0064】処理装置2は第1の実施形態での文字列分
類部23に代わり、文字列複数分類部24を備える。
【0065】文字列複数分類部24は抽出したn-gram文
字列を、重要度計算部22で文字列毎に付与された重要
度に基いて、専門表現、一般表現、または一般表現と専
門表現の組合わせの3種類に分類するものである。
【0066】まず、文書内重要度テーブル32から1レ
コードづつ読み込み、文字列重要度格納部に格納されて
いる文字列の重要度に基き文字列を分類する。
【0067】分類方法は、例えば、予め閾値を定めてお
き、その閾値と比較することで行う。ここで、閾値をT
とした場合、文字列の重要度が閾値Tより大きい場合に
その文字列は重要度が高いと判断して、専門表現を表す
分類コード(DC=domain dependent collocation、以
下、専門表現DC)を付与し、閾値Tより小さい場合
は、一般表現を表す分類コード(GC=general colloc
ation、以下、一般表現GC)を付与する。
【0068】この処理ですべての文字列に専門表現DC
または一般表現GCのいずれかの分類コードを付与した
後、この分類コードに基き、更に文字の並び方を考慮し
て分類コードを再付与する。ここで、専門表現DCと一
般表現GCの他に、この2つの表現を組合わせた表現で
ある場合、組合わせを表す分類コード(CGD=combin
ation of general and domain dependent collocatio
n、以下、一般・専門表現CGD)を付与する。
【0069】分類コードの付与処理が終了した後、文字
列とその文字列の分類コードを文字列分類テーブル36
に格納する。この分類コードの付与処理を、すべての文
書内重要度テーブル32に対して繰り返しおこない、文
書ファイル31内の文字列を分類する。
【0070】なお、一般・専門表現CGDは、2つの表
現の組合わせ順に関係なく、専門表現DC・一般表現G
Cの順、または一般表現GC・専門表現DCの順でも一
般・専門表現CGDを構成するものとする。また、専門
表現DCと一般表現・専門表現CGDの組み合せと、一
般表現GCと一般表現・専門表現CGDの組み合せの場
合も、一般・専門表現CGDを構成する。この場合も、
2つの表現の順序は問わない。
【0071】記憶装置3は第1の実施形態でのキーワー
ドテーブル34に代わり、文字列分類テーブル36を備
える。
【0072】文字列分類テーブル36は、文字列複数分
類部24によって文書ファイル31内で重要と判断され
抽出された文字列(キーワード)と、文字列ごとに付与
した分類コードを格納する。
【0073】図16に文字列分類テーブル36の例を示
す。文字列分類テーブル36は、抽出された文字列を格
納する文字列格納部と、文字列複数分類部24によって
文字列に付与された分類コードを格納する分類コード格
納部を有する。なお、文字列分類テーブル36は、複数
の文書ファイル毎に対応している。
【0074】次に、第2の実施形態の特徴である文字列
複数分類処理についてフローチャートを用いて説明す
る。本発明における文字列複数分類処理以外の処理は、
第1の実施形態と同様である。
【0075】図15は、文字列複数分類部の動作を示す
フローチャートである。図15のステップ720等に記
載されている記号“+”は文字列の要素の組み合せを表
すものである。例えば、“GC+DC”は一般表現の要
素である文字列と専門表現の要素である文字列のと組み
合せであることを表す。また、分類コードの並び順は関
係がない。例えば、“GC+CGD”と記載した場合
は、“CGD+GC”の並び順も含むものとする。
【0076】まず、文書内重要度テーブル32から1レ
コード読み込む(ステップ711)。読み込んだ文字列
重要度と予め設定した閾値との比較を行い、文字列重要
度が閾値より大きければステップ713に進み、閾値よ
り小さければステップ714に進む(ステップ71
2)。閾値より大きいと判断された場合は、その文字列
に専門表現DCを付与する(ステップ713)。
【0077】閾値より小さいと判断された場合は、その
文字列に一般表現GCを付与し、ステップ715に進む
(ステップ714)。分類コードが付与された文字列と
その分類コードを、文字列を読み込んだ文書内重要度テ
ーブル32に対応する文字列分類テーブル36の文字列
格納部と分類コード格納部にそれぞれ格納する(ステッ
プ715)。
【0078】ここで、対象となっている文書内重要度テ
ーブル32に未処理のレコードが在るかを判断し、まだ
未処理のレコードがあればステップ711に戻り、ステ
ップ711からステップ715の処理を繰り返し、文書
内重要度テーブル32のすべての文字列に対して専門表
現DCまたは一般表現GCのいずれかの分類コードを付
与する。未処理のレコードが無ければステップ717に
進む(ステップ716)。ステップ717ではフラグを
0にセットする(ステップ717)。
【0079】次に、文字列分類テーブル36から1レコ
ード読み込む(ステップ718)。読み込んだレコード
の文字列の要素が、「一般表現GC」または「一般・専
門CGD」であるかを判断する。2つの表現のいずれか
に該当する場合はステップ725に進み、該当しない場
合はステップ720に進む(ステップ719)。
【0080】次に、文字列の要素が「一般表現GCと一
般表現GCの組合わせ」であるかを判断する。この組合
わせに該当する場合はステップ721へ進み、該当しな
い場合はステップ722へ進む(ステップ720)。こ
の組合わせに該当する場合は、文字列に一般表現GCを
付与し(ステップ721)、文字列分類テーブル36の
分類コード格納部に格納されている分類コードを一般表
現GCに置き換え(ステップ729)、フラグを1にし
て(ステップ724)処理をステップ725に進める。
【0081】更に、文字列の要素が「一般表現GCと専
門表現DCの組合わせ」または「一般表現GCと一般・
専門表現CGDの組合わせ」もしくは「専門表現DCと
一般・専門表現CGDの組合わせ」であるか判断する。
この3つの表現のいずれかに該当する場合はステップ7
23に進み、該当しない場合はステップ725に進む
(ステップ722)。
【0082】この3つの表現に該当す場合は、文字列に
一般・専門表現CGDを付与し(ステップ723)、文
字列分類テーブル36の分類コード格納部に格納されて
いる分類コードを一般・専門表現CGDに置換へ、(ス
テップ729)、フラグを1にして(ステップ724)
処理をステップ725に進める。
【0083】ここで、対象となっている文書内重要度テ
ーブル32に未処理のレコードが在るかを判断し、まだ
未処理のレコードがあればステップ718に戻り、ステ
ップ718からステップ725の処理を繰り返し、文書
内重要度テーブル32のすべての文字列に対して専門表
現DCまたは一般表現GCもしくは一般・専門表現CG
Dのいずれかの分類コードを付与する。未処理のレコー
ドが無ければステップ726に進む(ステップ72
5)。ステップ726ではフラグを0にセットする(ス
テップ726)。
【0084】次にステップ726までの処理をすべての
文書内重要度テーブル32に実行し、文字列の分類を行
ったかを判断する。まだ未処理の文書内重要度テーブル
32がある場合はステップ728に進み、未処理の文書
内重要度テーブル32が無い場合は、処理を終了する
(ステップ727)。
【0085】未処理の文書内重要度テーブル32がある
場合は次の文書内重要度テーブル32に処理を移しすべ
ての文書内重要度テーブル32に対してステップ711
からステップ727の処理を行う(ステップ76)。
【0086】ここで、文字列が2つの要素の組み合せで
あるかの判断方法について説明する。まず、ステップ7
11からステップ717までの処理を実行し、文字列に
DCまたはGCのいずれかの分類コードが付与され文字
列分類テーブル36に格納されているものとする。
【0087】文字列を2つの要素に分割するには、文字
列の区切り位置を1つづつずらして、各々の文字列が文
字列分類テーブル36中に存在し、かつその文字列の分
類コードが判断条件に合致したときに分類コードを付与
する。図19に、文字列“ネットワークの構築“を2つ
の要素に分割する方法を示す。
【0088】ここで、文字列“ネットワーク”には専門
表現DCが、文字列“ネットワークの”には一般・専門
表現CGDが、文字列“構築”には専門表現DCが付与
されているものとし、2つの要素の組み合せとする判断
条件は、「一般表現GCと専門表現DCの組み合せ」ま
たは「一般表現GCと一般・専門表現CGDの組み合
せ」であることとする。
【0089】図19において、番号部は文字列を分割し
た回数を示し、文字列A部および文字列B部は2つに分
割した文字列の各要素を示し、照合結果部は文字列Aお
よび文字列Bの両方の要素が文字列分類テーブル36に
存在するかを照合した結果を示す。
【0090】まず、“ネットワークの構築“の区切り位
置を1文字づつずらしていくと、番号1では、文字列A
が“ネ”で文字列Bが“ットワークの構築”となる。こ
の2つの要素は文字列分類テーブル36に存在しないの
で、2つの要素の組み合せでは無いと判断される。
【0091】次に、番号6では、文字列Aが“ネットワ
ーク”で文字列Bが“の構築”である。文字列Aの“ネ
ットワーク”は、文字列分類テーブル36に存在する
が、文字列Bの“の構築”は文字列分類テーブル36に
存在しないため、2つの要素の組み合せとはならない。
【0092】番号7では、文字列Aが“ネットワーク
の”で文字列Bが“構築”である。文字列Aと文字列B
の両方が文字列分類テーブル36に存在し、かつ、各々
の分類コードが一般・専門表現CGDと一般表現GCで
ある。したがって、文字列“ネットワークの構築“は、
「一般表現GCと一般・専門表現CGDの組み合せ」で
あると判断される。
【0093】次に、実際の事例と図15のフローチャー
トを用いて、第2の実施形態における文字列複数分類処
理の過程を具体的に説明する。図6の文字列自動抽出装
置の動作を示すフローチャートのステップ1からステッ
プ5までの処理を実行し、図12の文書内重要度テーブ
ル32の内容が得られているものとする。
【0094】また、記憶装置3にはN個の文書ファイル
31が格納されているものとする。図12の文書内重要
度テーブルi31から文字列k=“での”と文字列k
“での”に対応する文字列重要度Wik=1.65を読み
込み、予め定めた閾値T=10との比較を行う。文字列
の重要度1.65は閾値10よりも小さいため、一般表
現GCを付与し、文字列分類テーブルi36に文字列と
分類コードの一般表現GCを格納する。(図15ステッ
プ711から715)。
【0095】この処理を文書内重要度テーブルi32中
のすべてのレコードに対して繰り返して行う(図15ス
テップ716)。 続いて同様の処理を行うと、文字列
k=“で”および“の”の文字列重要度Wikは0であ
り、閾値10より小さいため、一般表現GCを付与し、
文字列分類テーブルi36に文字列と分類コードの一般
表現GCを格納する(図15ステップ714、71
5)。
【0096】これに対して、文字列k=“ネットワー
ク”の文字列重要度Wikは39.33であり、閾値10
より大きいので、専門表現DCを付与し、文字列分類テ
ーブルi36に文字列と分類コードの専門表現DCを格
納する(ステップ713、715)。 図17に、図1
2の文書内重要度テーブルi32に対し、閾値T=10
として文字列複数分類処理を行った後の内容を示す。
【0097】次に、フラグを0にセットし、文字列分類
テーブルi36から1レコード読み込む。1レコードめの
文字列“での”の分類コードは、一般表現GCであり、
最後のレコードではないので処理を次のレコードに移す
(図15ステップ718、719、725)。続いて読
み込んだ文字列k=“で”および“の”についても分類
コードは、一般表現GCとなる。
【0098】次に、文字列k=“ネットワーク”を読み
込む。ここで、文字列k=“ネットワーク”は、図15
のステップ719、720、722に示す条件のいずれ
にも該当しない。また、最後のレコードでは無いので処
理を次のレコードに移す(ステップ718、719、7
22、725)。
【0099】次に、文字列k=“ネットワークの”を読
み込む。文字列k=“ネットワークの”は、専門表現D
Cの“ネットワーク”と一般表現GC“の”の2つの要
素で構成された文字列であるためステップ722の条件
に該当し、分類コードとして一般・専門表現CGDを付
与し、文字列分類テーブルi36の分類コード格納部に
すでに格納されている分類コードDCを一般・専門表現
CGDに置き換える(ステップ718、722、72
3、729)。フラグが1にセットされ、最後のレコー
ドではないので、次のレコードに処理を移す(ステップ
724、725)。
【0100】次に、文字列k=“ネットワークの構築”
を読み込む。文字列k=“ネットワークの構築”は、
“ネットワークの”と“構築”の2つの要素に分割され
る。ここで、“ネットワークの”は先の処理で一般・専
門表現CGDに分類コードが置き換えられているので、
ステップ722の条件「一般・専門表現CGDと専門表
現DCの組み合せ」に該当し、分類コードとして一般・
専門表現CGDを付与し、文字列分類テーブルi36の
分類コード格納部にすでに格納されている分類コードD
Cを一般・専門表現CGDに置き換える。
【0101】文字列分類テーブルi36の最後のレコー
ドまで以上の処理を繰り返し、最後のレコードまで処理
を行った後に、フラグが0であるかを判断する。この
時、フラグは1となっているので処理をステップ717
に進め、フラグを0にセットする。ステップ718から
726の処理をステップ726の判断でフラグが0にな
るまで繰り返す。
【0102】フラグが0の場合、文字列分類テーブル3
6に格納されているすべての文字列に対して文字列複数
分類処理が終了したことになる。ステップ727で、他
に文字列分類テーブル36があるかを判断し、すべての
文字列分類テーブルi36に対して処理を実行する。
図18に、図17の文字列分類テーブルi36に対し、
文字列複数分類処理を行った後の内容を示す。
【0103】以上の処理を複数の文書ファイル31(1
〜N)に対して行う、この結果、すべての文書ファイル
31に対して、対応する文字列分類テーブル36が作成
される。
【0104】<第2の実施形態の効果>本発明の第2の
実施形態によれば、第1の実施形態で得られる効果の他
に、テキストから抽出したn-gram文字列を専門表現、一
般表現、専門表現と一般表現の組合わせの3つの表現に
分類することができる。
【0105】専門表現と一般表現を組合わせた表現に分
類することで、専門用語辞書を作成する際に不要な語句
を除去することが可能である。
【0106】例えば、図18の文字列分類テーブル36
から専門用語辞書を作成する場合に、一般・専門表現C
GDが付与されている“ネットワークの”のような辞書
に登録する必要の無い文字列を除き、専門表現DCが付
与されている文字列のみで専門用語辞書を作成できる。
【0107】また、一般・専門表現CGDが付与される
文字列は、専門用語に伴って用いられる単語を含んでお
り、専門的な言い回しを表すものである。従って、一般
・専門表現CGDが付与される文字列を抽出した専門表
現辞書(専門的な言い回しを格納した辞書)を作成する
ことができる。
【0108】抽出した文字列が専門表現と一般表現を組
合わせた表現かどうかを判断する際の文字列の分割は、
1度文字列を分割した結果を利用して文字列の再分割を
行う方法である。これにより、複数の表現で構成される
文字列を1度に分割するよりも効率よく表現の組み合せ
であるかの判断が行える。
【0109】この効果は特に、文字列を2つに分割する
のを繰り返し行うときに生じる。例えば、図18の文字
列分類テーブル36の文字列“ネットワークの構築”を
分割するとき1度に“ネットワーク/の/構築”(/は
単語の分割区切りを表す)の3つに分割して一般・専門
表現であると判断するよりも効率がよい。
【0110】(C)他の実施の形態 (c−1)第1および第2の実施形態においては、テキ
ストから抽出した文字列を様々なレベルの表現に分類す
ることを特徴とするものであり、文書中からキーワード
を検索する際に必要となる、キーワードの抽出や、機械
翻訳などのシステムで用いる専門用語辞書の自動抽出な
どに適用することができる。
【0111】(c―2)第1および第2の実施の形態に
おいて、分類後の文字列をキーワードテーブルおよび文
字列分類テーブルに格納したが、抽出した文字列の出力
を行う際は、各テーブルの形式を変更して出力してもよ
いし、文字列の重要度の大きさや分類コードおよび文字
列の類似度に基いて並び替えるなど各種変形が可能であ
る。また、出力はキーワードテーブルや文字列分類テー
ブルに格納されている最終的な分類結果のみに限定せ
ず、キーワードの分類における各処理過程の結果も任意
に出力してもよい。
【0112】(c−3)本発明の処理にかかわらず、特
定の文字列を専門表現または一般表現等に分類を固定し
たい場合は、その文字列の固定する分類を記憶装置に登
録しておき、分類処理の前に抽出した文字列が分類を固
定する文字列に該当するかを判断し、該当する場合は、
登録された分類を付与する構成にしてもよい。
【0113】
【発明の効果】以上のように、本発明によれば、抽出し
た文字列を自動的に分類する文字列自動分類装置に関
し、文字列の文書内での重要度と複数の文書ファイル全
体での重要度を考慮して、その文字列の重要度を決定す
る構成にしたことで、抽出した文字列を文書内での重要
度のみで判断することなく、専門表現や一般表現に分類
することができる。
【0114】また、専門表現と一般表現のほかに、この
2つ要素の組み合わせで構成されている文字列であるこ
とを判断することで、3つに分類することができる。文
字列が組み合わせで構成されているとの情報を得ること
で、専門用語辞書を作成する際に不要な語句を除去する
ことが可能となり、また、専門表現辞書(専門的な言い
回しを格納した辞書)を作成することが可能となる。
【図面の簡単な説明】
【図1】本発明の文字列自動抽出装置の第1の実施の形
態を示すブロック図である。
【図2】文書内重要度テーブルを示す図である。
【図3】文書間重要度テーブルを示す図である。
【図4】キーワードテーブルを示す図である。
【図5】重要度計算部の機能を示すブロック図である。
【図6】本発明の文字列自動抽出装置の動作を示すフロ
ーチャートである。
【図7】文書間重要度処理の動作を示すフローチャート
である。
【図8】文字列重要度処理の動作を示すフローチャート
である。
【図9】第1の実施の形態の文字列分類処理の動作を示
すフローチャートである。
【図10】文書内重要度テーブルに格納された途中結果
例を示す図である。
【図11】文書間重要度テーブルに格納された例を示す
図である。
【図12】文書内重要度テーブルに格納された例を示す
図である。
【図13】キーワードテーブルに格納された例を示す図
である。
【図14】本発明の文字列自動抽出装置の第2の実施の
形態を示すブロック図である。
【図15】第2の実施の形態の文字列分類処理の動作を
示すフローチャートである。
【図16】文字列分類テーブルを示す図である。
【図17】文字列分類テーブルの途中結果例を示す図で
ある。
【図18】文字列分類テーブルの例を示す図である。
【図19】文字列が2つの要素で構成されているかの判
断方法を示す図である。
【符号の説明】
1・・入力装置 11・・入力部 12・・出力部 2・・処理装置 21・・文字列抽出部 22・・重要度計算部 23・・文字列分類部 24・・文字列複数分類部 3・・記憶装置 31・・文書ファイル 32・・文書内重要度テーブル 33・・文書間重要度テーブル 34・・キーワードテーブル 35・・バッファ 36・・文字列分類テーブル。

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 自然言語で記述された複数の文書を保存
    する文書格納手段と、 前記複数の文書のうち、任意の文書から文字列を抽出す
    る文字列抽出手段と、 前記文字列抽出手段により抽出した文字列の、抽出した
    前記文書内での重要度を文書内重要度として算出する文
    書内重要度計算手段と、 前記文字列抽出手段により抽出した文字列の、前記複数
    の文書全体での重要度を文書間重要度として算出する文
    書間重要度計算手段と、前記文書内重要度と前記文書間
    重要度に基き抽出した文字列の重要度を文字列重要度と
    して算出する文字列重要度計算手段と、 前記文字列重要度計算手段で得られた前記文字列重要度
    に基き抽出した文字列を分類する文字列分類手段を備え
    ることを特徴とする文字列自動分類装置。
  2. 【請求項2】 請求項1に記載の文字列自動分類装置に
    おいて、 前記文書内重要度計算手段は、抽出した文字列が、抽出
    した前記文書中に出現する頻度に基づき前記文書内重要
    度を決定することを特徴とする文字列自動分類装置。
  3. 【請求項3】 請求項1に記載の文字列自動分類装置に
    おいて、 前記文書間重要度計算手段は、抽出した文字列が、前記
    複数の文書全体において出現する文書の数に基づき前記
    文書間重要度を決定することを特徴とする文字列自動分
    類装置。
  4. 【請求項4】 請求項1に記載の文字列自動分類装置に
    おいて、 前記文字列重要度計算手段は、抽出した文字列の前記文
    書内重要度と前記文書間重要度により重み付けした前記
    文字列重要度を算出することを特徴とする文字列自動分
    類装置。
  5. 【請求項5】 請求項1に記載の文字列自動分類装置に
    おいて、 前記文字列分類手段は、前記文字列重要度を予め定めた
    閾値と比較することで抽出した文字列を特定分野に関係
    なく用いられる一般表現または特定分野で用いられる専
    門表現のいずれかに分類することを特徴とする文字列自
    動分類装置。
  6. 【請求項6】 請求項1に記載の文字列自動分類装置に
    おいて、 前記文字列分類手段は、前記文字列重要度を予め定めた
    閾値と比較することで抽出した文字列を前記一般表現ま
    たは前記専門表現のいずれかに分類する第1の分類部
    と、 抽出した文字列を分割し、その分割した各々の文字列の
    構成要素が前記第1の分類結果に存在するかを参照し、
    各々の文字列が存在し、かつ、その分割した文字列の構
    成要素の組み合せが予め定めた分類条件と一致する場合
    は前記第1の分類部での分類結果を、新たな分類に置き
    換える第2の分類部とを備えることを特徴とする文字列
    自動分類装置。
  7. 【請求項7】 請求項6に記載の文字列自動分類装置に
    おいて、 前記第2の分類部において、前記第1の分類結果を新た
    な分類に置き換えた場合は、前記第2の分類部での前記
    第1の分類結果の参照の際は前記新たな分類に置き換え
    た後の分類結果を参照することを特徴とする文字列自動
    分類装置。
  8. 【請求項8】 請求項6に記載の文字列自動分類装置に
    おいて、 前記第2の分類部は、 前記分割した文字列の構成要素が前記一般表現と前記専
    門表現の組み合せである場合は、前記分割前の抽出した
    文字列を一般表現と専門表現を組み合せた文字列である
    ことを示す一般専門表現に分類し、または、前記分割し
    た文字列の構成要素が前記一般表現と前記一般専門表現
    の組み合せ、または前記専門表現と前記一般専門表現の
    組み合せである場合は前記分割前の抽出した文字列を前
    記一般専門表現とすることを特徴とする文字列自動分類
    装置。
  9. 【請求項9】 請求項1に記載の文字列自動分類装置に
    おいて、 前記文字列抽出手段は、文書に含まれるすべての文字を
    先頭とするすべての長さの文字列を抽出することを特徴
    とする文字列自動分類装置。
  10. 【請求項10】 自然言語で記述された複数の文書を保
    存する文書格納処理と、 前記複数の文書のうち、任意の文書から文字列を抽出す
    る文字列抽出処理と、 前記文字列抽出手段により抽出した文字列の、抽出した
    前記文書内での重要度を文書内重要として算出する文
    書内重要度計算処理と、 前記文字列抽出手段により抽出した文字列の、前記複数
    の文書全体での重要度を文書間重要度として算出する文
    書間重要度計算処理と、 前記文書内重要度と前記文書間重要度に基き抽出した文
    字列の重要度を文字列重要度として算出する文字列重要
    度計算処理と、 前記文字列重要度計算手段で得られた前記文字列重要度
    に基き抽出した文字列を分類する文字列分類処理を実行
    することを特徴とする文字列自動分類方法。
  11. 【請求項11】 請求項10に記載の文字列自動分類方
    法において、 前記文字列分類処理は、前記文字列重要度を予め定めた
    閾値と比較することで抽出した文字列を前記一般表現ま
    たは前記専門表現のいずれかに分類する第1の分類処理
    と、 抽出した文字列を分割し、その分割した各々の文字列の
    構成要素が前記第1の分類結果に存在するかを参照し、
    各々の文字列が存在し、かつ、その分割した文字列の構
    成要素の組み合せが予め定めた分類条件と一致する場合
    は前記第1の分類処理での分類結果を、新たな分類に置
    き換える第2の分類処理と、 前記第2の分類処理において、前記第1の分類結果を新
    たな分類に置き換えた場合は、前記第2の分類処理での
    前記第1の分類結果の参照の際は、新たな分類に置き換
    えた後の分類結果を参照することを特徴とする文字列自
    動分類方法。
  12. 【請求項12】 請求項10に記載の文字列自動分類方
    法において、 前記文字列抽出方法は、文書に含まれるすべての文字を
    先頭とするすべての長さの文字列を抽出することを特徴
    とする文字列自動分類方法。
  13. 【請求項13】 自然言語で記述された複数の文書のう
    ち、任意の文書から文字列を抽出し、その抽出した文字
    列の、抽出した前記文書内での重要度と前記複数の文書
    全体での重要度を算出し、前記各重要度に基き、抽出し
    た文字列の重要度を算出し、前記文字列の重要度に基き
    抽出した文字列を分類することを特徴とする文字列自動
    分類制御プログラムを記録した媒体。
JP07392098A 1998-03-23 1998-03-23 文字列自動分類装置およびその方法 Expired - Fee Related JP3609252B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP07392098A JP3609252B2 (ja) 1998-03-23 1998-03-23 文字列自動分類装置およびその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP07392098A JP3609252B2 (ja) 1998-03-23 1998-03-23 文字列自動分類装置およびその方法

Publications (2)

Publication Number Publication Date
JPH11272702A true JPH11272702A (ja) 1999-10-08
JP3609252B2 JP3609252B2 (ja) 2005-01-12

Family

ID=13532088

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07392098A Expired - Fee Related JP3609252B2 (ja) 1998-03-23 1998-03-23 文字列自動分類装置およびその方法

Country Status (1)

Country Link
JP (1) JP3609252B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007199906A (ja) * 2006-01-25 2007-08-09 Nomura Research Institute Ltd キーワード対応関係分析装置及び分析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03116374A (ja) * 1989-09-29 1991-05-17 Ricoh Co Ltd 専門用語抽出システム
JPH08329118A (ja) * 1994-11-18 1996-12-13 Matsushita Electric Ind Co Ltd 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03116374A (ja) * 1989-09-29 1991-05-17 Ricoh Co Ltd 専門用語抽出システム
JPH08329118A (ja) * 1994-11-18 1996-12-13 Matsushita Electric Ind Co Ltd 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007199906A (ja) * 2006-01-25 2007-08-09 Nomura Research Institute Ltd キーワード対応関係分析装置及び分析方法

Also Published As

Publication number Publication date
JP3609252B2 (ja) 2005-01-12

Similar Documents

Publication Publication Date Title
US5960383A (en) Extraction of key sections from texts using automatic indexing techniques
US6470307B1 (en) Method and apparatus for automatically identifying keywords within a document
US8090571B2 (en) Method and system for building and contracting a linguistic dictionary
US7398196B1 (en) Method and apparatus for summarizing multiple documents using a subsumption model
Witten Adaptive text mining: inferring structure from sequences
US20040225497A1 (en) Compressed yet quickly searchable digital textual data format
JP4426894B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP3198932B2 (ja) 文書検索装置
JPH10334106A (ja) 関連語提示装置及び関連語提示用プログラムを記録した媒体
JP2004318510A (ja) 対訳情報作成装置、対訳情報作成用プログラム、対訳情報作成方法、対訳情報検索装置、対訳情報検索用プログラム及び対訳情報検索方法
JP2002007433A (ja) 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム
JP3594701B2 (ja) キーセンテンス抽出装置
JP4856573B2 (ja) 要約文生成装置及び要約文生成プログラム
JP3609252B2 (ja) 文字列自動分類装置およびその方法
JP2894301B2 (ja) 文脈情報を用いた文書検索方法および装置
JP7131130B2 (ja) 分類方法、装置、及びプログラム
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JPH10177575A (ja) 語句抽出装置および方法、情報記憶媒体
JP3744136B2 (ja) 訳語選択装置と記憶媒体
JPH1196170A (ja) データベース作成方法および情報検索方法および情報検索装置および記録媒体
JP2012022443A (ja) 文書検索装置、文書検索方法及び文書検索プログラム
JP2006501545A (ja) オブジェクト分類のための顕著な特徴を自動的に判定する方法および装置
JPH07325837A (ja) 抽象単語による通信文検索装置及び抽象単語による通信文検索方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040706

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040827

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040921

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041013

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081022

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081022

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091022

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101022

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111022

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111022

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121022

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121022

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131022

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees