JP3333998B2 - 自動分類付与装置および方法 - Google Patents

自動分類付与装置および方法

Info

Publication number
JP3333998B2
JP3333998B2 JP25038592A JP25038592A JP3333998B2 JP 3333998 B2 JP3333998 B2 JP 3333998B2 JP 25038592 A JP25038592 A JP 25038592A JP 25038592 A JP25038592 A JP 25038592A JP 3333998 B2 JP3333998 B2 JP 3333998B2
Authority
JP
Japan
Prior art keywords
classification
keyword
classes
keywords
classifications
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP25038592A
Other languages
English (en)
Other versions
JPH0675995A (ja
Inventor
泰明 岸大路
時夫 尾崎
敦司 久野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Priority to JP25038592A priority Critical patent/JP3333998B2/ja
Publication of JPH0675995A publication Critical patent/JPH0675995A/ja
Application granted granted Critical
Publication of JP3333998B2 publication Critical patent/JP3333998B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【技術分野】この発明は,学術論文,科学記事,特許公
報とその抄録,その他の文書を複数のカテゴリーに分類
する自動分類付与装置および方法,ならびにこの自動分
類付与のために用いる分類間距離テーブルやキーワード
/分類テーブルの作成装置および方法に関する。
【0002】
【従来技術とその問題点】従来の自動分類付与装置に
は,特開平1−188934号公報や特開平2−98778 号公報
に記載のものがある。これらの装置は電子化された文書
からキーワードを抽出しキーワードの頻度だけで分類を
決定したり,あらかじめ作成された生成規則を用いるも
のである。しかしながら頻度だけに基づいたのでは全く
的はずれな分類を付与してしまう可能性があり,また生
成規則を用いるものでもあらかじめ人間が生成規則辞書
を作成しないといけないという煩わしさがあった。
【0003】
【発明の開示】この発明は,既に分類が付与された文書
に基づいて自動分類付与のためのデータ・ベースを作成
し,このデータ・ベースに基づいて適切な分類を付与す
ることのできる装置および方法を提供するものである。
【0004】この発明による自動分類付与装置は,分類
未付与文書に含まれる複数のキーワードを入力する手
段,キーワードごとに,そのキーワードに関連の深い分
類およびその分類の関連の深さを示す度合をあらかじめ
記憶したキーワード/分類テーブルを参照して,入力さ
れたキーワードに関連する分類の関連度合の合計値を分
類ごとに算出し,この合計値の大きさの順序にしたがっ
て付与すべき分類の候補を選択する手段,ならびに2つ
の分類間の関連性の強さを表わすあらかじめ作成された
分類間距離テーブルを参照して,選択された複数の候補
分類相互間の距離が妥当な範囲内にあるかどうかを検査
し,妥当な範囲内にあれば候補分類を最終分類と決定す
る手段を備えている。
【0005】この発明の実施態様においては,上記決定
手段は,上記合計値が所定値以上である候補分類が1つ
である場合に,上記分類間距離テーブルを参照すること
なくその候補分類を最終分類と決定する。
【0006】この発明の他の好ましい実施態様において
は,上記合計値が所定値よりも大きい候補分類がない場
合に,上記合計値の大きさの順序にしたがって複数の分
類からなる分類パターンを作成し,同一分類パターンが
所定回数出現したときに新たな分類を創設して付与する
手段がさらに設けられる。
【0007】この発明による自動分類付与方法は,分類
未付与文書に含まれる複数のキーワードを入力し,キー
ワードごとに,そのキーワードに関連の深い分類および
その分類の関連の深さを示す度合をあらかじめ記憶した
キーワード/分類テーブルを参照して,入力されたキー
ワードに関連する分類の関連度合の合計値を分類ごとに
算出し,この合計値の大きさの順序にしたがって付与す
べき分類の候補を選択し,2つの分類間の関連性の強さ
を表わすあらかじめ作成された分類間距離テーブルを参
照して,選択された複数の候補分類相互間の距離が妥当
な範囲内にあるかどうかを検査し,妥当な範囲内にあれ
ば候補分類を最終分類と決定するものである。
【0008】この発明は上述した自動分類付与装置およ
び方法で用いられる分類間距離テーブルを作成する装置
および方法を提供している。
【0009】この発明による分類間距離テーブル作成装
置は,一文書について複数の分類からなる分類の組があ
らかじめ付与された複数の分類付与済文書のそれぞれに
ついて,それらの文書に付与された分類の組を入力する
ための手段,および入力された分類の組に2つの分類が
同時に含まれる程度に基づいて,2つの分類間の距離
を,すべての分類の中から選択されたすべての組合せの
分類対について求め,分類間距離テーブルを作成する手
段を備えている。
【0010】この発明による分類間距離テーブル作成方
法は,一文書について複数の分類からなる分類の組があ
らかじめ付与された複数の分類付与済文書のそれぞれに
ついて,それらの文書に付与された分類の組を入力し,
入力された分類の組に2つの分類が同時に含まれる程度
に基づいて,2つの分類間の距離を,すべての分類の中
から選択されたすべての組合せの分類対について求め,
分類間距離テーブルを作成するものである。
【0011】この発明はさらに上記自動分類付与装置お
よび方法で用いるキーワード/分類テーブル作成装置お
よび方法を提供している。
【0012】この発明によるキーワード/分類テーブル
作成装置は,分類があらかじめ付与された複数の分類付
与済文書のそれぞれについて,それらの文書に付与され
た分類とそれらの文書から抽出されたキーワードとを相
互に関連させて入力するための手段,入力されたキーワ
ードごとに,それらのキーワードに関連する分類の関連
度合を求め,関連度合の大きさの順序にしたがって所定
数の分類を選択する手段,キーワードごとに,それに関
連する選択された分類の関連度合に基づいてキーワード
を評価し,関連度合の低い分類のみが関連するキーワー
ドを削除するキーワード評価手段,および削除されずに
残ったキーワードのそれぞれについて,そのキーワード
に関連の深い所定数の分類およびその分類の関連度合を
対応させて記憶するキーワード/分類テーブルを作成す
る手段を備えている。
【0013】好ましい実施態様においては,上記キーワ
ード評価手段は,2つの分類間の関連性の強さを表わす
あらかじめ作成された分類間距離テーブルを参照してキ
ーワードを評価し,分類間距離の大きい2つの分類が関
連するキーワードを削除するものである。
【0014】この発明によるキーワード/分類テーブル
作成方法は,分類があらかじめ付与された複数の分類付
与済文書のそれぞれについて,それらの文書に付与され
た分類とそれらの文書から抽出されたキーワードとを相
互に関連させて入力し,入力されたキーワードごとに,
それらのキーワードに関連する分類の関連度合を求め,
関連度合の大きさの順序にしたがって所定数の分類を選
択し,キーワードごとに,それに関連する選択された分
類の関連度合に基づいてキーワードを評価し,関連度合
の低い分類のみが関連するキーワードを削除するととも
に,2つの分類間の関連性の強さを表わすあらかじめ作
成された分類間距離テーブルを参照してキーワードを評
価し,分類間距離の大きい2つの分類が関連するキーワ
ードを削除し,削除されずに残ったキーワードのそれぞ
れについて,そのキーワードに関連の深い所定数の分類
およびその分類の関連度合を対応させて記憶するキーワ
ード/分類テーブルを作成するものである。
【0015】分類付与済文書への分類の付与は,一般に
専門家によって行なわれるであろう。上記分類間距離は
後述する実施例では分類間の技術距離として具体化され
ている。
【0016】この発明によると,あらかじめ分類が付与
された分類付与済文書における分類とキーワードのデー
タを用いて,自動分類付与のためのデータ・ベースとな
る分類間距離テーブルおよびキーワード/分類テーブル
が作成されている。既存の分類付与済文書に基づいてデ
ータ・ベースが作成されるので,上述した従来例のよう
に人間が生成規則辞書を作成する煩わしさがなくなる。
また,データ・ベースの作成のためにより多くの情報
(分類付与済文書のデータ)を与えれば与えるほどより
正確な分類間距離テーブルおよびキーワード/分類テー
ブルが得られる。すなわち,この発明は学習機能をもっ
ており,この学習により,より正確な分類の自動付与が
達成される。さらに,この発明では分類間距離という概
念を導入してこの分類間距離をキーワード/分類テーブ
ルの作成および自動分類付与処理に利用しているので,
妥当でない分類の付与を排除してより正しい分類の付与
が可能となる。
【0017】
【実施例の説明】図1は自動分類付与装置の電気的構成
の概要を示している。
【0018】自動分類付与装置は最も好ましい形態にお
いてはコンピュータ・システム10を含み,このコンピュ
ータ・システム10には入力装置11,出力装置12,内部メ
モリ13および外部メモリ14が接続される。入力装置11は
後述する分類付与済文書の分類(コード),キーワード
等を入力するとともに,分類未付与文書に記載された文
章を入力するものであり,キーボード,マウス,イメー
ジ・リーダ等を含む。分類未付与文書はキーボードから
入力してもよいし,イメージ・リーダによって読込んだ
ドット・データを文字コードに変換する文字認識処理に
より入力を達成することもできる。出力装置12は主に分
類結果を出力するものであり,CRT表示装置やプリン
タを含む。分類結果は好ましくは文書の分類欄にプリン
タによって印字される。内部メモリ13はコンピュータ・
システム10のプログラムを格納するとともに各種処理の
ためのワーク・エリア(後述する各種テーブルの作成
等)を含む。外部メモリ14は入力された文書データ,分
類データ等を記憶する。プログラムを外部メモリ14に格
納しておいてもよい。
【0019】自動分類付与装置はあらかじめ分類が付与
された複数の文書(分類付与済文書)における分類とキ
ーワードに関するデータに基づいて分類のための基礎デ
ータを作成し,この基礎データを用いて分類未付与文書
にその記載内容に適した分類を付与するものである。分
類付与処理のための基礎データとしては,分類間の技術
距離テーブル(図4)とキーワード/分類テーブル(図
8)とがある。したがって,自動分類付与装置は,分類
付与処理(図11および図14〜図16)に先だって,分類間
の技術距離テーブル作成処理(図3)およびキーワード
/分類テーブルの作成処理(図7)を実行する。
【0020】ここで文書とは文字で記載された内容が情
報としての意味をもつすべての文書を含む。もちろん文
書は人間が読むことができる形態で表わされていても,
マシン・リーダブルな形態で表わされていてもよい。最
も典型的な文書には技術文書があろう。中でも,特許公
報,その抄録のような特許文献が最もなじみが深いもの
かも知れない。分類とはこのような文書を大系化して整
理するためにその内容に応じて文書をグループ分けする
のに用いる記号である。分類は大分類,中分類,小分類
のようにヒエラルキー構造とすることもできよう。最も
身近な分類には特許関係分書に付与されるIPC(国際
特許分類),各企業で付与する社内分類等があろう。文
書に記載された内容の輪郭を端的に表現する用語はキー
ワードと呼ばれている。キーワードは一般的には文書の
中で用いられる用語の中から抽出される。特許文献や学
術論文ではキーワードが特定の欄に羅列して表わされて
いる。
【0021】図2は分類付与済文書の一例を示してい
る。
【0022】分類付与済文書には,文書を識別するため
の文書番号が付与されている。また文書に付与された分
類を記載する分類欄と文書から抽出されたキーワードを
記載するキーワード欄が設けられている。この実施例で
は一つの文書に最大3種類の分類が付与されるものとす
る。この明細書では分類(コード)をA,B,C,D,
E,F,GおよびHと表現する。またキーワードをa,
b,c,d,e,f,g,…等の小文字のアルファベッ
トで表わす。一般には専門家によって分類が付与された
文書が分類付与済文書となろう。
【0023】まず図3から図6を参照して分類間の技術
距離テーブル作成処理について説明する。
【0024】あらかじめ用意された分類付与済文書の分
類欄に記載されている分類の組(一文書について最大3
種類の分類からなる)が文書ごとに入力される(ステッ
プ21)。一つの文書について分類の組が入力されるとP
(I,J)テーブルおよびQ(I,J)テーブルのデー
タが更新される(ステップ22)。
【0025】P(I,J)テーブルは,図5に示すよう
に,入力された分類の組の中で分類IまたはJが含まれ
る分類の組の数を,分類IとJのすべての組合せP
(I,J)(I≠J,I,J=A〜H)について記憶す
るものである。Q(I,J)テーブルは,図6に示すよ
うに,入力された分類の組の中で分類IおよびJがとも
に含まれる分類の組の数を,分類IとJのすべての組合
せQ(I,J)(I≠J,I,J=A〜H)について記
憶するものである。
【0026】分類付与済文書のすべてについて,その分
類欄に記載されている分類の組の入力と,P(I,J)
テーブルおよびQ(I,J)テーブルのデータの更新が
繰返して実行される(ステップ23)。これによりP
(I,J)テーブルとQ(I,J)テーブルとが完成す
る。
【0027】分類Iと分類Jとの技術距離L(I,J)
は,たとえば次式にしたがって算出される。
【0028】
【数1】 L(I,J)=100 −[Q(I,J)/P(I,J)]×α ‥式1 αは定数である。
【0029】技術距離L(I,J)は0〜100 の間の値
をとる。
【0030】分類Iと分類Jのすべての組合せについて
式1にしたがって技術距離L(I,J)が算出され,図
4に示すような分類間の技術距離テーブルが作成され
る。
【0031】技術距離L(I,J)は,文書が技術文書
である場合に,それらに付与される分類間の技術上の関
連性の近さ,または遠さを表わしている。技術距離が大
きければ2つの分類間の関連性が小さく,小さければ大
きい。
【0032】技術距離を一般文書についての分類間距離
という概念に敷衍することができる。分類間距離は2つ
の分類間の関連性の近さまたは遠さを表わす。分類間距
離または分類間の技術距離は式1のみならず他の演算式
によっても定義することができよう。
【0033】分類付与済文書が10枚あったとして,それ
らに付与された分類の組が次の10個であったと仮定す
る。
【0034】(A,B,C),(A,B,D),(A,
E,F),(B,F,G),(B,F,G),(C,
D,E),(C,G,H),(C,G,H),(D,
E,F),(D,G,H)
【0035】この場合に,P(A,B)=5,Q(A,
B)=2となる。α=100 とすると,分類AとBとの技
術距離L(A,B)は式1にしたがうと,
【数2】 L(A,B)=100 −(2/5)×100 =60 ‥式2 となる。この値L(A,B)=60は単純化した一例であ
るから図4に示すものとは異なっている。
【0036】続いて図7から図10を参照して,キーワー
ド/分類テーブルの作成処理について説明する。
【0037】あらかじめ用意されたすべての分類付与済
文書に記載されている分類(最大3種類の分類)および
キーワードが,文書ごとに入力される(ステップ31)。
後に示す自動分類付与処理と同じように,文書も入力し
て,入力された文書からキーワードを抽出するようにし
てもよい。
【0038】分類付与済文書についての分類とキーワー
ドの入力ごとに図9に示すようなキーワード別分類頻度
テーブルにおける度数(頻度)が加算される。たとえ
ば,一文書について分類A,BおよびDとキーワード
a,b,c,eおよびhが入力されたときには,キーワ
ードa,b,c,eおよびhのそれぞれについて分類
A,BおよびDの度数が+1される。すべての分類付与
済文書についての分類とキーワードの入力が終了する
と,キーワード別分類頻度テーブルが完成し,このテー
ブルに基づいて図10に示すようなキーワード別分類ヒス
トグラムがキーワードごとに作成される(ステップ3
2)。
【0039】このキーワード別分類頻度テーブルまたは
キーワード別分類ヒストグラムは,キーワードごとに,
そのキーワードと関連性がある分類についてその関連性
(関係)の深さまたは強さを表わす度数から構成されて
いる。度数はキーワードと分類との関係の深さまたは強
さを表わしており,度数が大きいほど関係が強いといえ
る。たとえば,図10を参照して,キーワードaに最も関
係が強い分類はAであり,次に分類Bが関係が強く,第
3番目は分類Dである。
【0040】このようなキーワード別分類頻度テーブル
またはキーワード別分類ヒストグラムに基づいてキーワ
ードの評価処理(その1)が行なわれる(ステップ3
3)。キーワードは特定の分類(できるだけ少数の分
類)に強く関係している方が後に示す自動分類付与処理
に役立つ。逆に言えば,強く関係している特定の分類が
無く多くの分類に同程度に弱く関係しているキーワード
は,分類付与処理のためのキーワードとして役に立たな
い。そこで,1または2,3程度の少数の特定の分類に
関係しているとは言い切れない役に立ちそうもないキー
ワードを削除するのがこのキーワード評価処理(その
1)である。
【0041】一つのキーワードについて度数の大きいも
のから所定数(この実施例では3個)の分類を抽出し,
その分類についての度数の和が求められ,これが所定数
βよりも小さいかどうかがチェックされる。たとえば,
度数の高いものからn番目の分類コードの度数をδ(n)
とすると(ここでnはキーワードを表わす符号とは異な
り一般的な番号を表わす),
【数3】δ(1) +δ(2) +δ(3) <β ‥式3 βはたとえば50 を満たすキーワードが削除される。
【0042】上述したキーワードaについては,度数の
高い3種類の分類A,B,Dについての度数はそれぞれ
80,70,10であり,これらの和は160 であるから,キー
ワードaは削除されない。
【0043】続いて,既に作成された分類間の技術距離
テーブルを参照したキーワードの評価処理(その2)が
行なわれる(ステップ34)。
【0044】キーワード評価処理(その1)において削
除されなかったキーワードには度数の高い3種類の分類
が対応しているが,これらの3種類の分類の中に相互の
関連性がきわめて低い分類対が含まれている場合には,
キーワードと3種類の分類との関連性に疑問があると考
えられるので,このようなキーワードが削除される。
【0045】このキーワード評価処理(その2)におい
ては,あるキーワードについて度数の大きい3種類の分
類をI,J,Kとすると,これらの3種類の分類から選
択された1対の分類間の技術距離L(I,J),L
(I,K),L(J,K)のうち1つでもしきい値γよ
りも大きいものがあれば,そのキーワードは削除され
る。すなわち,
【数4】{L(I,J)>γ}or {L(I,K)>γ}or {L(J,K)>γ}=真 ‥式4 であればそのキーワードは削除される。
【0046】たとえばキーワードaについては,図4の
技術距離テーブルを参照すると, L(A,B)=10 L(A,D)=14 L(B,D)=30 であり,γ=40とすると,式4の条件を満たさないので
削除されない。
【0047】このようにして2種類のキーワード評価処
理(その1)(その2)において削除されずに残ったキ
ーワードのそれぞれについて,そのキーワードに関係す
る度数の最も高い分類から3番目に高い分類までの重要
な3種類の分類とその度数とが対応づけられることによ
り,図8に示すようなキーワード/分類テーブルが作成
される(ステップ35)。たとえば,キーワードaについ
ては,分類A(度数80)と分類B(度数70)と分類D
(度数10)とが正しく関係するものとして対応づけられ
る。
【0048】図11は自動分類付与処理の概要を示してい
る。
【0049】分類未付与文書に記載された文章が入力さ
れる(ステップ41)。上述したように,文書の文章はキ
ーボードから入力されてもよいし,イメージ・リーダか
ら入力されてもよい。または,あらかじめ外部メモリ14
に格納しておいてこれを読出してもよい。いずれにして
も入力された文章を構成する各文字を表わすコードの列
がコンピュータ・システム10内に入力され,このコード
列からキーワードを表わすコード列が抽出される(ステ
ップ42)。入力された文章からキーワードを抽出する処
理は公知であり,たとえば文章が分かち書きされ,助詞
などの不要語が除かれることにより単語(主に名詞,動
詞が含まれてもよい)が抽出される。この単語がここで
はキーワードとなる。したがって,先に説明したキーワ
ード/分類テーブルに登録されていない単語(キーワー
ド)が抽出されても問題は無い。キーワードの抽出処理
の進行にともなって抽出されたキーワードは,図12に示
すようなキーワード・リストに登録される(ステップ4
3)。
【0050】このようにして,入力された文章からキー
ワードの抽出処理,抽出されたキーワードのリストの作
成が終了すると,キーワード・リストに挙げられている
キーワードのそれぞれについて,リストの順番に,キー
ワード/分類テーブルに登録されているかどうかが調べ
られ,登録されていればそのキーワードに対応する分類
と度数が読取られ,キーワードごとに図13に示すような
度数加算表に書加えられる。また,文類ごとに度数が加
算される(ステップ44)。抽出されたキーワードがキー
ワード/分類テーブルに登録されていなければそのキー
ワードについては何らの処理も行なわれない。度数加算
表はキーワードごとに,そのキーワードにキーワード/
分類テーブルにおいて対応する分類についてその度数を
記憶するとともに,分類ごとにその度数の合計を記憶す
るものである。
【0051】このようにして作成された度数加算表を用
いて,また必要に応じて先に作成された分類間の技術距
離テーブルを参照して分類決定処理が行なわれる(ステ
ップ45)。
【0052】この分類決定処理において次の4種類の結
論が得られる。
【0053】(1) 文書への既存の分類(コード)の付与
(最大3種類の分類) (2) 新しい分類(コード)の付与 (3) 検討中であることを示すコードの付与 (4) 分類不可能であることを示すコードの付与
【0054】図14から図16は分類決定処理(ステップ4
5)の詳細を示すものである。
【0055】まず図14において,先にステップ44で作成
された度数加算表における分類ごとの合計度数を用いて
ヒストグラムが作成され,このヒストグラムが正規化さ
れる(ステップ51)。
【0056】図13に示す度数加算表に基づいて作成され
たヒストグラムが図17に示されている。このようなヒス
トグラムの正規化は次式にしたがって行なわれる。
【0057】分類Iの正規化された度数をD(I) とす
る。
【0058】
【数5】
【0059】正規化されたヒストグラムが図18に示され
ている。この正規化されたヒストグラムに基づいて分類
の付与か行なわれる。
【0060】まず,正規化されたヒストグラムにおい
て,度数の最も高い分類の度数が所定のしきい値TH1
を越えているかどうかがチェックされる(ステップ5
2)。図18に示すヒストグラムにおいては分類Dの度数
がしきい値TH1を越えている。
【0061】このステップ52における判断がYES であれ
ば次に,しきい値TH1を越えた度数をもつ分類が1つ
のみであるかどうかがチェックされる(ステップ53)。
【0062】しきい値TH1を越えた度数をもつ分類が
1つのみであればその分類が付与されることになる(ス
テップ54)。図18に示すヒストグラムではしきい値TH
1を越える度数をもつ分類は分類Dのみであるから,こ
のヒストグラムを生じさせた文書には1つの分類Dのみ
が付与される。
【0063】分類の付与は上述したように文書の分類欄
に,付与されるべき分類を表わす符号もしくは記号また
はコードをプリンタによって印字することによって,ま
たは文書番号に対応して分類を表示,プリント・アウト
もしくはメモリに記憶することによって行なわれよう。
【0064】度数がしきい値TH1を越えた分類が1つ
だけでない場合には,度数がしきい値TH1を越えた分
類が2つかどうかがチェックされる(ステップ55)。
【0065】度数がしきい値TH1を越えた分類が2つ
の場合には,これらの2つの分類間の技術距離が技術距
離テーブル(図4)を参照して求められ(ステップ5
6),求められた技術距離が所定値よりも小さいかどう
かが判定される(ステップ57)。
【0066】2つの分類間の技術距離が所定値よりも小
さければ,これらの2つの分類は技術的な観点からいっ
て比較的近いから,これらの2つの分類は妥当とみなさ
れ,その2つの分類が該当文書に付与されることになる
(ステップ58)。
【0067】2つの分類間の技術距離が所定値よりも大
きい場合には,これらの2つの分類は比較的遠く,何ら
かの誤りを含んでいる可能性があるので分類不可能の旨
が出力される(ステップ59)。この出力は,文書番号と
分類不可能の旨を示す記号またはコードの表示,プリン
ト・アウトもしくは記憶,または該当文書の分類欄への
分類不可能の旨の印字によって達成される。
【0068】正規化されたヒストグラムにおいて度数が
しきい値TH1を越える分類が3つ以上ある場合には,
図15を参照して,これらの3つ以上の分類の中から任意
の3つの分類を選択して一つの組を構成する。そして,
各組ごとにその組に含まれる分類の技術距離の合計を技
術距離テーブルを参照して算出する(ステップ60)。
【0069】たとえば,度数がしきい値TH1を越える
分類がA,C,D,F,Gの5種類あったと仮定する。
この5種類の分類の中から任意の3種類の分類が選ばれ
組が構成される。生成される組は,(A,C,D),
(A,C,F),(A,C,G),(A,D,F),
(A,D,G),(A,F,G),(C,D,F),
(C,D,G),(C,F,G),(D,F,G)の10
組である。
【0070】組(A,C,D)の技術距離の合計L
(A,C,D)は次式で求められる。
【0071】
【数6】 L(A,C,D)=L(A,C)+L(C,D)+L(D,A) ‥式6
【0072】他のすべての組についても同じように技術
距離の合計が算出される。
【0073】続いて,このようにして算出された技術距
離の合計がある所定値と比較され,その所定値よりも小
さい組があるかどうかがチェックされる(ステップ6
1)。技術距離の合計があまりに大きいということは,
その組に含まれる分類の中に関連性の薄いものが含まれ
ている可能性があるので,そのような分類の組を排除す
るためである。
【0074】技術距離の合計が所定値よりも小さい組が
一つでもあれば,その中で技術距離の合計が最も小さい
組が選択され,その組に含まれる3種類の分類が妥当な
ものとして該当文書に付与される(ステップ62)。
【0075】度数がしきい値TH1を越える分類が3つ
の場合にはその3つの分類についての技術距離の合計が
算出され,この合計が所定値よりも小さければその3つ
の分類が付与されることになるのはいうまでもない。
【0076】技術距離の合計が所定値よりも小さい組が
ない場合には,分類付与不可能の旨が出力される(ステ
ップ63)。
【0077】正規化されたヒストグラムにおいて,度数
がしきい値TH1を越える分類が存在しない場合には
(ステップ52でNO),まだ定義されていない新しい分類
に振分けられる文書である可能性がある。図19は,度数
がしきい値TH1を越えるものが存在しない場合の正規
化されたヒストグラムを示している。
【0078】図16はこのような新分類の決定を含む処理
を示すものである。
【0079】図19に示すように第1のしきい値TH1よ
りも低い第2のしきい値TH2があらかじめ定められて
いる。度数がこの第2のしきい値TH2を越える分類が
あるかどうかがチェックされる(ステップ64)。もし第
2のしきい値TH2を越える度数をもつ分類が存在しな
ければ分類付与不可能ということになる(ステップ6
3)。
【0080】しきい値TH2を越えた度数をもつ分類が
一つでもあれば次にヒストグラム・パターン作成に移る
(ステップ65)。図20に示すように,しきい値TH1と
TH2との間を等分し複数(この例では5個)のランク
に分ける。度数の高い方からランク1,2,3,4,5
となっている。しきい値TH2を越える度数をもつ分類
のうち上位複数種類(この例では5種類)の分類が選ば
れ,これらの分類がどのランクに属するかが判定され,
この判定結果に基づいて図21に示すようなヒストグラム
・パターンが作成される(ステップ65)。
【0081】しきい値TH2を越える度数をもつ分類が
5個以上無い場合にはしきい値TH2を越える度数をも
つ分類のみでパターンを作成する。度数の高いものから
合計5分類になるまで選択し,しきい値TH2以下のも
のにランク6を付与してまたはランクを付与せずにヒス
トグラム・パターンを作成してもよい。または分類不可
能と判定してもよい。
【0082】一方,図22に示すように新分類テーブルと
未定分類テーブルとが設けられている。同一のヒストグ
ラム・パターンをもつ文書の数が所定数に達したときに
そのヒストグラム・パターンに新たな分類コードが付与
され,この新たな分類コードが付与されたパターンが新
分類コードとともに新分類テーブルに登録される。同一
のヒストグラム・パターンをもつ文書の数が所定数に達
しないヒストグラム・パターンがそのパターンをもつ文
書の数(出現回数:カウント)とともに未定分類テーブ
ルに登録されている。
【0083】ステップ65で作成されたヒストグラム・パ
ターンと同一のパターンが新分類テーブルにあるかどう
かがチェックされ,もしあればそのパターンに与えられ
た新分類が付与されることになる(ステップ66,67,6
8)。
【0084】新分類テーブルに同一パターンのものが存
在しない場合には,作成されたヒストグラム・パターン
は未定分類テーブルのパターンと比較される(ステップ
69)。未定分類テーブルに同一のパターンがあればその
パターンのカウントが1つインクレメントされ(ステッ
プ70,71),そのパターンのカウントが所定数に達した
かどうかがチェックされる(ステップ72)。
【0085】未定分類テーブルのあるパターンのカウン
トが所定数に達すると,そのパターンは新分類テーブル
に移されかつそのパターンに新分類コードが割当てられ
(ステップ73),そのパターンと同一のヒストグラム・
パターンを生じさせた文書に新たに割当てられた新分類
コードが付与される(ステップ74)。
【0086】未定分類テーブルに同一パターンが存在し
ない場合には,作成されたパターンが未定分類テーブル
に追加され,カウント1が与えられる(ステップ76)。
この場合,およびステップ72において該当パターンのカ
ウントが所定数に達しない場合には,その文書に検討中
である旨のコードが付与される(ステップ75)。
【0087】ヒストグラム・パターンを構成する分類の
数は5個に限られず,ランクは必ずしも必要ではない。
要するに,ヒストグラム・パターンが類似しているかど
うかを判定できるものであればよい。
【図面の簡単な説明】
【図1】自動分類付与装置の構成を示すブロック図であ
る。
【図2】分類付与済文書の例を示す。
【図3】分類間の技術距離テーブル作成処理を示すフロ
ー・チャートである。
【図4】分類間の技術距離テーブルを示す。
【図5】P(I,J)テーブルを示す。
【図6】Q(I,J)テーブルを示す。
【図7】キーワード/分類テーブルの作成処理を示す。
【図8】キーワード/分類テーブルを示す。
【図9】キーワード別分類頻度テーブルを示す。
【図10】キーワード別分類ヒストグラムを示す。
【図11】自動分類付与処理の概要を示すフロー・チャ
ートである。
【図12】キーワード・リストを示す。
【図13】度数加算表を示す。
【図14】分類決定処理を示すフロー・チャートであ
る。
【図15】分類決定処理を示すフロー・チャートであ
る。
【図16】分類決定処理を示すフロー・チャートであ
る。
【図17】度数加算表から作成されるヒストグラムを示
す。
【図18】正規化されたヒストグラムを示す。
【図19】正規化されたヒストグラムを示す。
【図20】ヒストグラム・パターンの作成の様子を示
す。
【図21】ヒストグラム・パターンを示す。
【図22】新分類テーブルと未定分類テーブルを示す。
【符号の説明】
10 コンピュータ・システム 11 入力装置 12 出力装置 13 内部メモリ 14 外部メモリ
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平2−105973(JP,A) 特開 平3−78872(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (9)

    (57)【特許請求の範囲】
  1. 【請求項1】 分類未付与文書に含まれる複数のキーワ
    ードを入力する手段,キーワードごとに,そのキーワー
    ドに関連の深い分類およびその分類の関連の深さを示す
    度合をあらかじめ記憶したキーワード/分類テーブルを
    参照して,入力されたキーワードに関連する分類の関連
    度合の合計値を分類ごとに算出し,この合計値の大きさ
    の順序にしたがって付与すべき分類の候補を選択する手
    段,ならびに2つの分類間の関連性の強さを表わすあら
    かじめ作成された分類間距離テーブルを参照して,選択
    された複数の候補分類相互間の距離が妥当な範囲内にあ
    るかどうかを検査し,妥当な範囲内にあれば候補分類を
    最終分類と決定する手段,を備えた自動分類付与装置。
  2. 【請求項2】 上記決定手段は,上記合計値が所定値以
    上である候補分類が1つである場合に,上記分類間距離
    テーブルを参照することなくその候補分類を最終分類と
    決定する,請求項1に記載の自動分類付与装置。
  3. 【請求項3】 上記合計値が所定値よりも大きい候補分
    類がない場合に,上記合計値の大きさの順序にしたがっ
    て複数の分類からなる分類パターンを作成し,同一分類
    パターンが所定回数出現したときに新たな分類を創設し
    て付与する手段,をさらに備えた請求項1に記載の自動
    分類付与装置。
  4. 【請求項4】 一文書について複数の分類からなる分類
    の組があらかじめ付与された複数の分類付与済文書のそ
    れぞれについて,それらの文書に付与された分類の組を
    入力するための手段,および入力された分類の組に2つ
    の分類が同時に含まれる程度に基づいて,2つの分類間
    の距離を,すべての分類の中から選択されたすべての組
    合せの分類対について求め,分類間距離テーブルを作成
    する手段,を備えた分類間距離テーブル作成装置。
  5. 【請求項5】 分類があらかじめ付与された複数の分類
    付与済文書のそれぞれについて,それらの文書に付与さ
    れた分類とそれらの文書から抽出されたキーワードとを
    相互に関連させて入力するための手段,入力されたキー
    ワードごとに,それらのキーワードに関連する分類の関
    連度合を求め,関連度合の大きさの順序にしたがって所
    定数の分類を選択する手段,キーワードごとに,それに
    関連する選択された分類の関連度合に基づいてキーワー
    ドを評価し,関連度合の低い分類のみが関連するキーワ
    ードを削除するキーワード評価手段,および削除されず
    に残ったキーワードのそれぞれについて,そのキーワー
    ドに関連の深い所定数の分類およびその分類の関連度合
    を対応させて記憶するキーワード/分類テーブルを作成
    する手段,を備えたキーワード/分類テーブル作成装
    置。
  6. 【請求項6】 上記キーワード評価手段は,2つの分類
    間の関連性の強さを表わすあらかじめ作成された分類間
    距離テーブルを参照してキーワードを評価し,分類間距
    離の大きい2つの分類が関連するキーワードを削除する
    ものである,請求項5に記載のキーワード/分類テーブ
    ル作成装置。
  7. 【請求項7】 分類未付与文書に含まれる複数のキーワ
    ードを入力し,キーワードごとに,そのキーワードに関
    連の深い分類およびその分類の関連の深さを示す度合を
    あらかじめ記憶したキーワード/分類テーブルを参照し
    て,入力されたキーワードに関連する分類の関連度合の
    合計値を分類ごとに算出し,この合計値の大きさの順序
    にしたがって付与すべき分類の候補を選択し,2つの分
    類間の関連性の強さを表わすあらかじめ作成された分類
    間距離テーブルを参照して,選択された複数の候補分類
    相互間の距離が妥当な範囲内にあるかどうかを検査し,
    妥当な範囲内にあれば候補分類を最終分類と決定する,
    自動分類付与方法。
  8. 【請求項8】 一文書について複数の分類からなる分類
    の組があらかじめ付与された複数の分類付与済文書のそ
    れぞれについて,それらの文書に付与された分類の組を
    入力し,入力された分類の組に2つの分類が同時に含ま
    れる程度に基づいて,2つの分類間の距離を,すべての
    分類の中から選択されたすべての組合せの分類対につい
    て求め,分類間距離テーブルを作成する,分類間距離テ
    ーブル作成方法。
  9. 【請求項9】 分類があらかじめ付与された複数の分類
    付与済文書のそれぞれについて,それらの文書に付与さ
    れた分類とそれらの文書から抽出されたキーワードとを
    相互に関連させて入力し,入力されたキーワードごと
    に,それらのキーワードに関連する分類の関連度合を求
    め,関連度合の大きさの順序にしたがって所定数の分類
    を選択し,キーワードごとに,それに関連する選択され
    た分類の関連度合に基づいてキーワードを評価し,関連
    度合の低い分類のみが関連するキーワードを削除すると
    ともに,2つの分類間の関連性の強さを表わすあらかじ
    め作成された分類間距離テーブルを参照してキーワード
    を評価し,分類間距離の大きい2つの分類が関連するキ
    ーワードを削除し,削除されずに残ったキーワードのそ
    れぞれについて,そのキーワードに関連の深い所定数の
    分類およびその分類の関連度合を対応させて記憶するキ
    ーワード/分類テーブルを作成する,キーワード/分類
    テーブル作成方法。
JP25038592A 1992-08-27 1992-08-27 自動分類付与装置および方法 Expired - Lifetime JP3333998B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25038592A JP3333998B2 (ja) 1992-08-27 1992-08-27 自動分類付与装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25038592A JP3333998B2 (ja) 1992-08-27 1992-08-27 自動分類付与装置および方法

Publications (2)

Publication Number Publication Date
JPH0675995A JPH0675995A (ja) 1994-03-18
JP3333998B2 true JP3333998B2 (ja) 2002-10-15

Family

ID=17207135

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25038592A Expired - Lifetime JP3333998B2 (ja) 1992-08-27 1992-08-27 自動分類付与装置および方法

Country Status (1)

Country Link
JP (1) JP3333998B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259504A (ja) * 1998-03-11 1999-09-24 Mitsubishi Electric Corp データベース作成装置およびデータベース検索装置
JP2000132553A (ja) * 1998-10-22 2000-05-12 Sharp Corp キーワード抽出方法、キーワード抽出装置、及びキーワード抽出プログラムを記録したコンピュータ読み取り可能な記録媒体
JP4233836B2 (ja) * 2002-10-16 2009-03-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
JP4569179B2 (ja) * 2004-06-03 2010-10-27 富士ゼロックス株式会社 ドキュメント検索装置
JP4569178B2 (ja) * 2004-06-03 2010-10-27 富士ゼロックス株式会社 分類符号処理装置
US7716162B2 (en) 2004-12-30 2010-05-11 Google Inc. Classification of ambiguous geographic references
JP4964917B2 (ja) * 2009-05-18 2012-07-04 日本電信電話株式会社 ベクトル間距離算出装置、ベクトル間距離算出方法、プログラム及び記録媒体
JP5880052B2 (ja) * 2012-01-10 2016-03-08 富士ゼロックス株式会社 文書処理装置及びプログラム
JP5530476B2 (ja) * 2012-03-30 2014-06-25 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
JP2016189036A (ja) * 2013-08-23 2016-11-04 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
TW201508525A (zh) * 2013-08-29 2015-03-01 Ubic Inc 文件分類系統、文件分類方法及文件分類程式
JP5850973B2 (ja) * 2014-04-18 2016-02-03 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
JP6971719B2 (ja) * 2017-08-31 2021-11-24 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02105973A (ja) * 1988-10-14 1990-04-18 Nippon Telegr & Teleph Corp <Ntt> 文書自動分類装置
JPH0378872A (ja) * 1989-08-23 1991-04-04 Nec Corp 文書の分野推定システム

Also Published As

Publication number Publication date
JPH0675995A (ja) 1994-03-18

Similar Documents

Publication Publication Date Title
Kadhim An evaluation of preprocessing techniques for text classification
CN110287328B (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
US7031969B2 (en) System and method for identifying relationships between database records
Doermann et al. The function of documents
US5542090A (en) Text retrieval method and system using signature of nearby words
US10997560B2 (en) Systems and methods to improve job posting structure and presentation
JP2978044B2 (ja) 文書分類装置
JP3333998B2 (ja) 自動分類付与装置および方法
US20110270826A1 (en) Document analysis system
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
JP2000511671A (ja) 自動文書分類システム
JPH06110948A (ja) 文献を識別し、検索し、分類する方法
JP2005038386A (ja) 文章分類装置および方法
Noaman et al. Naive Bayes classifier based Arabic document categorization
CN107506472B (zh) 一种学生浏览网页分类方法
CN109062895B (zh) 一种智能语义处理方法
JP6577692B1 (ja) 学習システム、学習方法、及びプログラム
JP4426894B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
CN111221968A (zh) 基于学科树聚类的作者消歧方法及装置
Irfan et al. Implementation of Fuzzy C-Means algorithm and TF-IDF on English journal summary
KR20200053334A (ko) 융합 연구 촉진을 위한 연구원 맵 구축 방법 및 시스템
JP2002007433A (ja) 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム
Xu et al. Using SVM to extract acronyms from text
WO2007070010A1 (en) Improvements in electronic document analysis
US20140181124A1 (en) Method, apparatus, system and storage medium having computer executable instrutions for determination of a measure of similarity and processing of documents

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080802

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080802

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090802

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100802

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100802

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110802

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110802

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120802

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130802

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130802

Year of fee payment: 11