JP2005275996A - 文書管理装置、文書管理方法、プログラム及び記憶媒体 - Google Patents

文書管理装置、文書管理方法、プログラム及び記憶媒体 Download PDF

Info

Publication number
JP2005275996A
JP2005275996A JP2004090817A JP2004090817A JP2005275996A JP 2005275996 A JP2005275996 A JP 2005275996A JP 2004090817 A JP2004090817 A JP 2004090817A JP 2004090817 A JP2004090817 A JP 2004090817A JP 2005275996 A JP2005275996 A JP 2005275996A
Authority
JP
Japan
Prior art keywords
document
category
word
phrase
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004090817A
Other languages
English (en)
Inventor
Shuichi Morisawa
秀一 森澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004090817A priority Critical patent/JP2005275996A/ja
Publication of JP2005275996A publication Critical patent/JP2005275996A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【目的】 認識処理結果に対する言語解析結果を以後の認識処理反映して、認識後処理による認識精度を向上する。
【解決手段】 有効語ベクトル計算手段(303)は、有効語抽出手段(308)によって抽出された有効語の有効語ベクトルを算出する。文書ベクトル計算手段(304)は、学習用文書の有効語ベクトルから、その文書ベクトルを計算するとともに、分類対象文書の文書ベクトルを計算する。フォルダベクトル計算手段(305)は、各カテゴリに属する学習用文書について、フォルダベクトルを算出する。
カテゴリ推定手段(307)は、分類対象文書保持部(306)に保持された文書データの文書ベクトルと、フォルダベクトルとを比較して分類対象文書の分類カテゴリを決定する。学習手段311は、カテゴリ推定手段(307)によって決定されたカテゴリに対しユーザが修正を加えたときに、その修正に呼応して評価項目テーブル(310)の重要度を修正する。
【選択図】 図3

Description

本発明は原稿画像中の文字列を認識し、管理する文書管理装置、文書管理方法、プログラム及び記憶媒体に係り、特に、認識誤りの言語的補正等の文字認識後処理を含む文書管理装置、文書管理方法、プログラム及び記憶媒体に関する。
例えば、大量の電子化文書を保存・管理する文書管理サーバ等の文書管理装置において、紙媒体等に記録された原稿画像を効率よく読込み、電子化する際に、OCR(光学的文字読取装置)により読み取られた文字列の認識誤りを、言語的に補正する後処理が行われることがある。
このような文字認識後処理においては、文字認識の結果出力された候補文字列を、あらかじめ作成された単語辞書に格納されている単語表記と比較し、良好なマッチングが取れた候補文字列を順次切り出す。これによって、誤認識を含む文字認識結果を言語的により妥当な単語列に置き換え得る。
例えば、特許文献1の「文字認識装置および文字認識方法」では、候補文字列を認識評価して認識評価値を算出するとともに、候補文字列で構成される単語の出現頻度を求め、これら認識評価値と出現頻度に基いて単語評価値を計算する。これによって、総合的な評価に基いた文字認識結果の決定が可能である。
また、特許文献1では、誤認識の単語を修正するとともに、誤認識単語の出現頻度を更新し、修正結果の単語が未登録のときは、該単語およびその出現頻度を新規登録する。
さらに、文字認識後処理を行う文字認識装置において、認識精度を向上させるため、認識用辞書に登録された単語に対して、意味分野(カテゴリ)ごとに尤度に差を与える方法がある。すなわち、特定分野に関する原稿における出現可能性が高い単語の尤度を高め、認識処理過程において、意味解析結果から分野を特定し、その分野で尤度が高い単語をヒットし易くする。これによって、各分野の特徴を反映した認識後処理を行う。
例えば特許文献2の「文字列認識装置」では、特定分野の帳票等について、住所、氏名等の意味カテゴリごとに、キーワードの単語を登録しておき、候補文字列を意味カテゴリごとの複数の文字列に分割し、候補文字列に意味カテゴリのデータを付加する。
これによって候補文字列は、自動的に、意味カテゴリごとに分類、出力され、認識後処理において意味カテゴリを活用し得る。
しかし特許文献2では、認識処理結果を認識用辞書に反映することは容易でなく、辞書のメンテナンスは個々の認識処理とは無関係なタイミングで行われる。また、分野情報は固定的な情報であり、解析結果がその後の認識処理に活用されない。
特開平7−271921号公報 特開平5−089292号公報
本発明は、このような従来の問題点を解消すべく創案されたもので、認識精度を向上することを目的とする。
本発明によれば、認識精度を向上し得る。
本発明は、原稿画像中の文字列を認識して管理する文書管理装置であって、前記原稿画像中の文字列を認識処理して文節候補を生成する文節候補生成手段と、所定の単語をカテゴリに分類して保存した学習用文書データベースと、前記文節候補よりなる文書を分類対象文書として、該分類対象文書における単語からカテゴリ分類に有効な有効語を、前記学習用文書データベースを参照しつつ抽出する有効語抽出手段と、前記有効語の前記各カテゴリへの帰属度を求める帰属度算出手段と、前記分類対象文節の内容に対する前記有効語の文書内重要度を算出する重要度算出手段と、前記帰属度および文書内重要度に基いて前記分類対象文節が属するカテゴリを推定するカテゴリ推定手段と、前記推定されたカテゴリへの前記帰属度に基づいて、前記文節候補生成手段によって生成された文節候補を修正する文節変更手段と、前記文節変更手段により生成された文節候補に基づいて、前記原稿画像中の文字列に対する文字認識結果を確定する確定手段とを備える。
これによって、認識精度を向上し得る。
本発明に係る文書管理装置において、前記カテゴリ推定手段によって推定されたカテゴリをユーザが修正し得るカテゴリ指定手段と、前記カテゴリ指定手段によって前記カテゴリが修正されたときに、該修正に基づいて前記文書内重要度を調整する学習手段とをさらに備えてもよい。
本発明に係る文書管理装置において、前記カテゴリ推定手段によってカテゴリ推定が可能であったか否かを判断する手段をさらに備え、前記文節候補生成手段は、前記原稿画像における先頭段落からの部分文字列を認識処理し、前記カテゴリ推定手段は、前記部分文字列に基づいてカテゴリを推定し、前記文節変更手段は、カテゴリ推定が可能か否かを判断する手段によってカテゴリ指定が可能と判断されたときに、該カテゴリの学習用文書データベースを参照し、前記原稿画像中の文字列を認識処理して文節候補を生成してもよい。
本発明は、原稿画像中の文字列を認識して管理する文書管理方法であって、前記原稿画像中の文字列を認識処理して文節候補を生成する文節候補生成ステップと、前記文節候補よりなる文書を分類対象文書として、該分類対象文書における単語からカテゴリ分類に有効な有効語を、所定の単語をカテゴリに分類して保存した学習用文書データベースを参照しつつ、抽出する有効語抽出ステップと、前記有効語の前記各カテゴリへの帰属度を求める帰属度算出ステップと、前記分類対象文節の内容に対する前記有効語の文書内重要度を算出する重要度算出ステップと、前記帰属度および文書内重要度に基いて前記分類対象文節が属するカテゴリを推定するカテゴリ推定ステップと、前記推定されたカテゴリへの前記帰属度に基づいて、前記文節候補生成手段によって生成された文節候補を修正する文節変更ステップと、前記文節変更手段により生成された文節候補に基づいて、前記原稿画像中の文字列に対する文字認識結果を確定する確定ステップとを備える。
これによって、認識精度を向上し得る。
次に本発明に係る文書管理装置および文書管理方法の好適な実施例を図面に基いて説明する。
図1は本発明に係る文書管理装置の実施例1を示す全体ブロック図である。
図1において、文書管理装置は文字認識装置101を含み、文字認識装置101は紙媒体等に記録された原稿画像をコンピュータ上に読み込み、原稿画像内の文字部分を検出して文字コードに変換する。
文字認識装置101には、文字認識装置101によって電子化された文書データを記憶する電子化文書保管装置102が接続されており、電子化文書保管装置102はハードディスク等によって構成される。
電子化文書保管装置102には文書自動分類装置103が接続され、文書自動分類装置103は、電子化文書保管装置102に記憶された電子化文書データを所定のカテゴリに分類する。
文書自動分類装置103には第二認識後処理装置104が接続され、第二認識後処理装置104は、後述する有効語辞書を参照しつつ再度認識後処理を実行する。
図2において、文字認識装置101はスキャナなどのOCR手段201、形態素解析手段202および標準日本語辞書(認識用辞書)203を有する。
形態素解析手段202は、文字認識結果の候補文字列を言語的に補正するために、文字列の形態素解析を実行する。
標準日本語辞書203は、形態素解析手段203が、候補文字列から単語列を切り出す際に、参照される。
図3において、文書自動分類装置103は、学習用文書データベース301、共起頻度計算手段302、有効語ベクトル計算手段303、文書ベクトル計算手段304、フォルダベクトル計算手段305、分類対象文書保持部306、カテゴリ推定手段307、有効語抽出手段308、有効語辞書309、評価項目テーブル310、学習手段311、分類結果保持部312を含む。
学習用文書データベース301には、予め正しく分類された学習用文書が格納され、有効語抽出手段308は学習用文書データベース301から、形態素解析に基き、分類に有用な語(以下、有効語という。)を選出する。
有効語抽出手段308によって抽出された有効語は、共起頻度計算手段302によって出現頻度や単語共起確率が算出され、さらに出現頻度や単語共起確率に基いて、有効語ベクトル計算手段303によって有効語ベクトルが算出される。
有効語辞書309には、各有効語を見出しとし、その有効語ベクトル、および各カテゴリへの帰属度(後述する。)が格納される。
分類対象文書保持部306は、カテゴリ分類すべき分類対象文書を保持する。なお、分類対象文書は、原稿画像を文字認識した結果得られる電子化文書(文書データ)である。
文書ベクトル計算手段304は、学習用文書に含まれる各有効語ベクトルの重み付き平均を計算して、学習用文書の文書ベクトルを求める。また文書ベクトル計算手段304は、分類対象文書保持部306に保持されたカテゴリ分類すべき文書データの文書ベクトルを計算する。
フォルダベクトル計算手段305は、各カテゴリに属する学習用文書について、文書ベクトルの平均値を求めることによってフォルダベクトルを算出する。
カテゴリ推定手段307は、分類対象文書保持部306に保持された文書データの文書ベクトルと、フォルダベクトルとを比較し、その比較結果に基いて分類対象文書の分類カテゴリを決定する。
分類結果保持部312は、カテゴリ推定手段307で推定された分類カテゴリを各分類対象文書とともに保持する。
評価項目テーブル310には、有効語の重要度を評価するための評価項目別に重要度の値が記述されている。
学習手段311は、カテゴリ推定手段307によって推定されたカテゴリに対しユーザが修正を加えたときに、その修正に呼応して評価項目テーブル310の重要度を修正する。
次に、文書管理装置の処理を順次説明する。
[紙文書の認識、及び認識後処理]
図4は、文書管理サーバに新規に登録され、文書文字認識装置101における、文字認識された文書データに対する認識後処理を示すフローチャートである。
図4において、認識後処理は以下の各ステップによって実行される。
ステップS401:例えば、「製造業の開発部門に米国型管理を導入しよう」という原稿画像について、後半部の部分文字列「米国型管理を導入しよう」の文字認識の結果、曖昧性を含む文字列として入力される。
図5に示すように、入力される文字列は1個または複数の認識文字候補よりなり、「米国型管理を導入しよう」については、例えば、第1文字候補「米固型管理を暮入しよう」、第2文字候補「来回聖奮埋と尊入じょう」、第3文字候補「氷目塑省樫な薄八けまラ」、第4文字候補「水日翌菅狸□寧大もiウ」、第5文字候補「末口控督塑□簿才レ□ゥ」、第6文字候補「末国筆沓煙□革□□□多」が入力される。
ステップS402:ステップS401で入力された文字候補について標準日本語辞書203を参照することにより、単語候補を抽出する。
すなわち、図6に示すように、各文字候補の切り出し位置に基づいて辞書検索を行い、抽出された単語候補を示す情報を単語候補情報として管理する。単語候補情報は、例えば、「米国」に対して「来日」、「水口」等であり、各単語候補は接頭語、接尾語、付属誤、通常の自立語等に分類される。ここで使用する辞書は自立語辞書データ、付属語辞書データ等を含む辞書デーを備える。
ステップS403:単語候補情報を文法的にチェックする。すなわち、図7に示すように、抽出された単語候補情報が示す単語候補同士の接続の可否をチェックして、文節候補の抽出を行う。図中破線は「接続不可」、細線は接続可(弱い接続)、太線は接続可(強い接続)を示し、例えば、「来日」と「型(接尾語)」は接続不可、「来日」は単語自体が文節となりうる。また、「水口(姓)」と「型」は接続可能であり、複合語となる文節になりうる。また、「尊大」は「も(副助詞)」とは接続できるが、「し(接続助詞・サ変動詞)」あるいは「じ(ザ変動詞)」とは接続できない。このように、各単語候補同士において自立語と自立語間で複合語が生成されるか、自立語と付属語間で文節を生成できるか等のチェックを行う。
ステップS404:ステップS403のチェックに基いて、抽出された文節候補より文節候補の並びの候補(連文節候補)を作成し、その作成された連文節候補の中から最も優先度の高い連文節優先度となる連文節候補を第一候補として決定する。
図8は第一位候補決定の様子を表す図であり、例えば、「来日」の文節優先度は20、「筆管」は10、「樫を/と」および「狸を/と」は17、「翌管理を」は42、「米国型」は35、「水口型」は22、「管理を」は35等の定量化を行う。以上より、先頭から6文字目までの、それぞれの連文節優先度は表1のとおりとなる。
Figure 2005275996
図7の接続可否をチェックし、表1の連文節優先度を参照することにより、「米国型−管理を−尊大も−よう」が第一位候補として決定される。
[蓄積文書の自動分類処理]
文書管理サーバに蓄積された文書データ群をユーザの意図に沿って、あらかじめ決められたカテゴリ群のいずれかに分類する方法は、例えば「ベクトル空間モデル」を利用した方法である。
ベクトル空間モデルによるカテゴリ分類は、分類に有効な単語や文書、カテゴリをベクトルで表現し、ベクトルの方向を目安として、文書データが属するカテゴリを決定する。
カテゴリ分類に際しては、「学習フェーズ」および「分類フェーズ」の2段階の処理が実行される。
「学習フェーズ」では、ユーザの意図に沿って予め正しく分類された学習用文書データから有効語を選出し、各有効語の出現頻度や単語共起確率等に基いて、有効語ベクトルを算出し、有効語辞書を生成する。そして文書ベクトルおよびフォルダベクトルが算出される。
「分類フェーズ」では、学習フェーズで得られた有効語辞書を用いて分類対象文書の文書ベクトルを算出し、文書ベクトルとフォルダベクトルとを比較することによって、分類対象文書が属するカテゴリを決定する。
[学習フェーズ]
次に学習フェーズについてより詳細に説明する。
図9は、図3の文書自動分類装置103をより詳細に示すブロック図である。図中、図3と同一部分には同一符号を付す。
図9において、文書自動分類装置103は学習用文書データベース301に接続された有効語処理部901を有し、共起頻度計算手段302は有効語処理部901に接続されている。有効語処理部901は、学習用文書と有効語辞書とを参照して各文書に含まれている有効語の数を求める有効語数計算部902と、求められた有効語数を保持する有効語数保持部903とを備える。
共起頻度計算手段302は、有効語の数をもとに各有効語の組の共起頻度を求める共起頻度計算部904と、求められた共起頻度を保持する共起頻度保持部905とを備える。
有効語ベクトル計算手段303は、共起頻度を参照して各有効語の有効語ベクトルを求める有効語ベクトル計算部906と、求められた有効語ベクトルを保持する有効語ベクトル保持部907とを備える。
文書ベクトル計算手段304は、学習用文書と分類対象文書とのそれぞれについて有効語ベクトルを参照して文書ベクトルを求める文書ベクトル計算部908と、求められた文書ベクトルを保持する文書ベクトル保持部909とを備える。
フォルダベクトル計算手段305は、学習用文書について求められた文書ベクトルを用いて各カテゴリのフォルダベクトルを求めるフォルダベクトル計算部910と、求められたフォルダベクトルを保持するフォルダベクトル保持部911とを備える。
分類結果保持手段312には、カテゴリ設定インターフェース912が接続され、カテゴリ設定インターフェース912は、カテゴリ推定手段307によって、カテゴリごとに分類された分類対象文書の一覧を表示する分類結果表示手段914と、分類結果表示手段914によって表示されたカテゴリがユーザの意図に反する場合に、分類結果表示手段914上で適当と思われるカテゴリを1個または複数選択し、指示し得る正解カテゴリ指定手段913とを備える。
学習手段311は、正解カテゴリ指定手段913の指定に基き、評価項目テーブル310内の重要度の値を修正する。
有効語数保持部903に保持された文書内の有効語数は共起頻度計算部904に入力され、共起頻度計算部904は入力された有効語数を用いて各有効語の組の共起頻度を求め、共起頻度保持部905に入力する。
共起頻度保持部905に入力された共起頻度は、共起頻度保持部908に保持された後に、有効語ベクトル計算部906に入力される。
有効語ベクトル計算部906は、共起頻度を用いて各有効語の有効語ベクトルを算出する。
ここで、有効語Ti と有効語Tjの共起確率をci,j 、有効語数をNとすると、有効語Ti
の有効語ベクトルTi は、式(1)式により算出される。
Ti =(ci,1 ,ci,2 ,…,ci,N ) 式(1)
また、共起確率ci,j は式(2)式により定義される。
ci,j =(Ti とTj の両方を含む文書データ数)/(Ti
を含む文書データ数)
式(2)
フォルダベクトル保持部911に保持された各カテゴリのフォルダベクトルは、文書ベクトル保持部909に保持された分類対象文書の文書ベクトルとともにカテゴリ推定手段9307に入力され、カテゴリ推定手段307は分類対象文書の文書ベクトルと各カテゴリのフォルダベクトルとを比較する。該比較結果に基いて分類対象文書が属するカテゴリが決定され、決定されたカテゴリは分類結果保持部312に保持される。
図10は、学習フェーズの処理を示すフローチャートである。
図10において、学習フェーズの処理は以下の各ステップによって実行される。
ステップS1001:まず、学習用文書を形態素解析し、それに含まれる語の中から、分類に有用な語を有効語として選定する。
ステップS1002:ステップS1001に続いて、各学習用文書に含まれる有効語の数を求める。有効語の抽出は、例えば、普通名詞、固有名詞、サ変名詞および未知語に注目し、特定のカテゴリに偏って出現する単語を抽出する。
有効語数の算出に続いて、各有効語の重み付けを行う。
重みは次の2つのパラメータから決定される。すなわち、(1)有効語自体の分類に関する有効度すなわち帰属度w1と、(2)有効語の各文書中における重要度(文書内重要度という。)w2である。
帰属度w1は、各有効語のカテゴリへの帰属の度合いを表すもので、特定のカテゴリを特徴付ける度合いの高い有効語ほど帰属度w1は大である。
帰属度w1の算出に際しては、まず式(3)によって、カテゴリCkに属する学習用文書の中で、有効語Wiを含む文書の割合Pikを求める。
Pik =(カテゴリCkに属し有効語Wiを含む文書の数)/(カテゴリCkに属する文書の数) 式(3)
ただしPikは、すべてのカテゴリにわたるPikの和ΣPik=1となるように正規化する。
ここでPikのエントロピーをH(Wi)とし、式(4)によってw1を算出する。
w1=1−H(Wi) 式(4)
重要度w2は、分類対象文書において、有効語がどのように使われているか、すなわち学習用文書の内容とどのように関わっているのか、という側面を評価する。
例えば、新聞記事「…テレビの発達したマスメディア国家アメリカでは、サーカスみたいな政治になっていて、優れた学生は政治家になりたいとは思わないだろう。」が「政治」のカテゴリに属す学習用文書であったとき、この学習用文書においては「サーカス」という単語はアメリカの「政治」に対する比喩として用いられたに過ぎず、文章の主題との関係は希薄である。従って、この新聞記事の学習用文書では単語「サーカス」の重要度w2は低い。しかし、「娯楽」のカテゴリにおいては、単語「サーカス」は帰属度w1が高い。
すなわち有効語は、カテゴリによって重要度が変化し、カテゴリとの対応関係を誤ると、誤認識の原因となる。
そこで、帰属度w1、文書内重要度w2の両者の評価が必須である。
重要度w2の評価は、(1)その有効語の出現位置、および(2)その有効語の格役割、修飾タイプなどの言語的役割によって決定され、あらかじめ評価項目を設定しておく。そして、有効語が各評価項目の条件を満たした場合に与える重みの値は、学習によって調整される。
重要度w2は学習用文書中での有効語の出現位置との相関が強い。例えば、新聞記事では先頭段落に大意を表現するような重要な単語が現れることは周知の事実である。そこで文書全体を、文を単位としてn個のブロックに等分し、各ブロックに対する重みを求める。
有効語の言語的役割と文書内重要度w2との相関に関して、例えば、「…が」、「…は」等の主語の形で使われている単語は、一般に重要度w2が高く、「連体修飾する用言」は一般に重度が低い、等の評価基準が考えられる。
具体的には、例えば表2の評価項目が用意され、それぞれの重みは学習によって求められる。
Figure 2005275996
図11は、各評価項目に対する重要度w2の値の例を示す評価項目テーブルである。
図11において、評価項目として、有効語が「段落の先頭文に含まれているか」、有効語の「が」格、「を」格等の「格役割」、有効語が「文末のサ変名詞」であるか等を採用している。なお、評価項目としては、その有効語の文書内での出現位置や、その単語の係り受けの役割等を採用することも可能である。w2の値は初期値であり、全て“1.0”設定されており、その後の学習によって調整される。
ステップS1003:ステップS1002に続いて、有効語数から各有効語の組の共起頻度を求める。
ステップS1004:ステップS1003に続いて、共起頻度から有効語ベクトルを算出し、有効語ベクトルを参照して学習用文書から有効語を取り出す。
ステップS1005:ステップS1004に続いて、取り出した有効語の有効語ベクトルの平均を取って学習用文書の文書ベクトルを求める。
ステップS1006:ステップS1005に続いて、各カテゴリに属するすべての学習用文書の文書ベクトルの平均を求め、この平均値を各カテゴリの代表ベクトルとして、処理を終了する。
図12は、文書内重要度の値の学習アルゴリズムを示すフローチャートである。
図12において、文書内重要度の値の学習は以下の各ステップによって実行される。
ステップS1201:まず、すべての評価項目に対する文書内重要度w2の値を“1.0”に初期化し、学習に用いた学習用文書の数のカウンタ変数nを“0”に初期化する。
ステップS1202:ステップS1201に続いて、正しい分類カテゴリ(=C*とする)が付与された学習用文書を読出し、カウンタ変数nを“1”だけインクリメントする。
ここで、読み出した文書として、カテゴリ「事件」に分類されている図13のような文書を想定する。
ステップS1203:ステップS1202に続いて、読み出した学習用文書の中から、有効語辞書309に格納された有効語を抽出し、評価項目テーブル310の評価項目に従って有効語の属性テーブル(図14)を作成する。
ここで、図13の文書データ「xx大学の研究室で化学実験を行っていたところ、xxが原因と見られる事故で火災が発生し、逃げ送れた学生ら数人が負傷した。」において有効語辞書309を用いて有効語を抽出し、評価項目テーブル310によって評価した結果を属性デーブル(図14)に示す。
図14では有効語「工学部」、「研究室」、「火災」、「負傷」、「実験」が抽出され、図11の評価項目1、2、3について、「工学部」はTRUE、「の」の連体、FALSE、「研究室」はTRUE、「で」の連体、FALSE、「火災」はTRUE、「が」の連体、「負傷」はTRUE、その他、TRUE、「実験」はFALSE、「の」の連体、FALSEの評価が与えられている。
ステップS1204:ステップS1203に続いて、抽出した各有効語に係る属性テーブルと評価項目テーブル310に記述された重要度の値に基づいて、各有効語の文書内重要度を計算する。
ステップS1205:ステップS1204に続いて、計算した文書内重要度、有効語辞書309に保持された各有効語のカテゴリへの帰属度データ等を用いて、分類対象文書の各カテゴリへの帰属度を計算する。そして、最も帰属度の高いカテゴリを分類結果(=C)とする。
ステップS1206:ステップS1205に続いて、分類結果のカテゴリCが、ステップ1202で取得した分類カテゴリC*と一致するか否か判断する。カテゴリCがカテゴリC*に一致したときは、ステップS1208にジャンプし、カテゴリCがカテゴリC*と一致しなかったときはステップS1206に進む。
ステップS1207:評価項目テーブル310の重要度の値を修正し、ステップS1208に進む。
ここで、図11、図13、図14を用いて重要度の値の更新方法を説明する。
例えば、図13の文書がカテゴリ「科学」に誤分類されたとき、カテゴリ「科学」に対して帰属度の大きい有効語「工学部」、「研究室」、「化学実験」が誤分類の原因である可能性が高い。
そこで、これら有効語の文書内重要度を小さくするように、図11の評価項目テーブルの重要度の値を修正する。
図14の属性テーブルの評価において、有効語「工学部」は、「段落先頭文にあるか否か」(図11の評価項目1)の属性値が“TRUE”であり、「格役割」(図11の評価項目2)が“「の」の連体”である。そこで、評価項目テーブルの「段落先頭文にあるか否か」の“TRUE”、および「格役割」の“「の」の連体”の重要度の値を微小量だけ減ずる。そして、「研究室」、「化学実験」に着目した際にも、「工学部」と同様の処理を行う。
次に、分類結果を正しく修正するために、正しい分類カテゴリである「事件」への帰属度が高い有効語「火災」、「負傷」に注目する。これら有効語の文書内重要度を高めることによって正しい分類が行われる可能性が高まるからである。
有効語「火災」では、属性テーブルの「段落先頭文にあるか否か」(評価項目1)の属性値は“TRUE”であり、「格役割」(評価項目2)は“「が」格”なので、評価項目テーブル310の「段落先頭文にあるか否か」の“TRUE”、および「格役割」の“「が格」”の重要度の値を微小量だけ増やす。「負傷」に着目した際にも、「火災」と同様の処理を行う。
このようにして重要度の値を更新した後は、ステップS1208に進む。
ステップS1208:ステップS1201以下の処理における、学習用文書分類の正解率rを計算する。このとき評価する学習用文書の個数をNは、学習用文書の総数nよりも小(N≦n)である。
ステップS1209:ステップS1208に続いて、正解率rが所定の閾値Thを越えているか否か、また学習に用いた学習用文書数nが所定の閾値Mを越えているか否かを判定する。
これら正解率r、学習用文書数nの条件のいずれかが満たされていたときはそのまま処理を終了し、いずれの条件も満たされていないときは、ステップS1202に戻り、以後の学習用文書に基づいて同様の処理を行う。
図12の文書内重要度学習処理を実行することによって、各評価項目の重要度が適切に修正された評価項目テーブル310が生成される。
このように、単語の出現位置、格役割、修飾タイプなど、文書内重要度の評価に有用であると思われる評価項目に対する具体的な重要度の値を、カテゴリごとに別けて保存された複数の学習用文書を用いて、学習によって調整する。
以上のとおり、文書内重要度学習処理は、各評価項目の重要度に適当な初期値を与え、学習用文書の分類結果を見て、誤分類が生じたときに、誤分類対する影響が大きい有効語の重要度を減じ、正しい分類に対する影響が大きい有効語の重要度を高める。
このような処理を大量の学習用文書に対して行い、重要度を適正化することによって、文書内重要度の値は自動的に最適化され、分類の正解率が最大限に高められる。
[紙文書のカテゴリ推定処理]
図15は、カテゴリ不明の文書データに対する自動分類の分類フェーズの処理を示すフローチャートである。
図15において、分類フェーズは以下の各ステップによって実行される。
ステップS1501:まず、図10のステップS1004で求めた有効語ベクトルを参照し、分類対象文書から有効語を抽出する。
ステップS1502:ステップS1501に続いて、抽出した有効語のベクトルの平均値を計算し、この平均値から分類対象文書の文書ベクトルを求める。
ステップS1503:ステップS1502に続いて、分類対象文書の文書ベクトルと、学習フェーズで求めたフォルダベクトルとを比較し、該比較結果に基いて分類対象文書が属するカテゴリを決定し、処理を終了する。
[紙文書の再認識後処理]
以上の認識処理、自動分類処理に続いて、分類されたカテゴリに重みを置いた文字認識後処理を実行する。
文字認識後処理では、有効語辞書309において分類カテゴリに対する尤度(カテゴリへの帰属度)が所定の閾値より高い単語に注目し、該単語の優先度を高める。そして優先度が高い単語を含む文節を、優先度の高い文節候補とする。すなわち、単語候補や文節候補の抽出に際して、日本語標準辞書をそのまま用いることなく、分類カテゴリ重視の再評価を行う。
ここで図16は原稿画像から分類対象文書を得ることとする。図16は図5の文書データを含み、「設備型産業における投資の伸び悩みが景気の回復を遅らせていると見る財界関係者の間では、製造業の開発部門に米国型管理を導入しよういう意見が少なくない。」なる文書である。
図17は、図16の文書の内「製造業の開発部門に」の部分文字列について、各認識文字候補の一部を示す。
図17の部分文字列に対して、図4のフローチャート(紙文書の認識、及び認識後処理)の処理を実行すれば、例えば、図18の文節候補が得られる。
図18において、原稿画像の「開発部門」について、「閃光−部門に」、「閣僚−部門に」、「開発−部門に」の文節候補が抽出され、すべて連文節優先度が等しい。
この場合、認識文字候補の候補順位が高い文字が優先される。図17の例では「閃光」>「閣僚」>「開発」の優先度順位となっているため、最も優先度の高い連文節候補「製造業の−閃光−部門に」が第一位候補に決定される。
次に、文書自動分類装置103によってカテゴリ分類を行う。なお、説明を単純化するために、カテゴリ分類のために用意されたカテゴリの種類を、「政治」、「経済」、「文化」、「事故・災害」、「教育」の5種類のみとする。
図19は再認識後処理を説明するフローチャートである。
図19において、再認識後処理は以下の各ステップによって実行される。
ステップS1901:図15の分類フェーズ(紙文書のカテゴリ推定処理)を実行する。このとき、文書データ中の単語「産業」、「投資」、「景気」、「財界」、「製造業」等が「経済」カテゴリを特徴づける有効語と判定され、「経済」カテゴリに分類される。
ステップS1902:ステップS1901に続いて、有効語辞書において、経済カテゴリの尤度が閾値以上の単語を検索する。尤度が閾値以上の単語については、優先度を高め、閾値より低い尤度の単語は文節候補時に無視する。これによって認識文字候補を抽出する。
ステップS1903:ステップS1902に続いて、有効語辞書309を参照して単語候補を抽出する。
図20は有効語辞書の一部を示すものであり、単語「閃光」、「閣僚」、「開発」の経済カテゴリの尤度はそれぞれ「4」、「12」、「22」となっている。いま閾値が10に設定されていたとすると、「閃光」は無視され、「閣僚」、「開発」の2単語のみが抽出される。
ステップS1905:ステップS1904で抽出された単語による連文節尤度が最大のものを抽出する。
図18の文節候補では、図21に示すように、「閣僚−部門に」、「開発−部門に」の2つの連文節候補が残るが、これら連文節候補の連文節尤度は等しい。
ステップS1905:図21の「閣僚−部門に」、「開発−部門に」のように、連文節尤度は等しい複数の連文節候補が残ったか否かを判断する。複数の連文節候補が残ったときはステップS1906に進み、1個の連文節候補に絞り込まれたときはステップS1907に進む。
ステップS1906:ステップS1905に続いて、分類カテゴリに注目した認識処理を行う。すなわち、図20の有効語辞書における経済カテゴリの尤度を比較し、「開発」=22>「閣僚」=12であるので、「開発−部門に」を選択する。
ステップS1907:最終的に『製造業の−開発−部門に』が第一位候補として決定する。
次に本発明に係る文書管理装置および文書管理方法の実施例2を図面に基いて説明する。
実施例1では新たな紙ドキュメントを取り込む際に、まず全文をスキャンして文字認識及び認識後処理を行い、それに対して自動分類装置によるカテゴリ分類を行ってその文書の属するカテゴリを決定し、当該カテゴリへの帰属度が高い単語の優先度を上げてから再度、当該文書に対する認識後処理を行う。
しかし、1個の文書の中に互いに関連性の少ない複数個の話題が並列されるようなドキュメントの場合を除けば、通例では文書の先頭からある部分までの解析を行えば、その文書全体で展開する話題分野を特定できることが多い。
また、ドキュメントのジャンルや様式、例えば技術論文や特許明細書、あるいは新聞記事などによる固有のレイアウト情報を利用して、最も重要な内容がかかれている部分、例えば論文なら末尾段落、新聞記事なら先頭段落等を記憶しておき、最初に重要部分を認識してカテゴリの判別を行うことが可能である。
このように文書の先頭から文字認識、言語解析を行っていき、文書の属すると思われるカテゴリが指定できた段階で、またはその文書にとって最も重要な段落のみ解析を行うことにより文書全体のカテゴリを推定した段階で、その文書の残りの部分に対して当該カテゴリの帰属度を反映した単語辞書による認識後処理(言語解析)を実行し得る。
この方法によれば、最初に認識を行った部分についてはカテゴリを単語辞書に反映できないものの、残りの部分は実施例1と同様の効果が得られ、しかも同一文書に対して認識後処理を二度行う必要がない。
図22は、図1の文書管理装置によって実行される文書管理方法に実施例2の処理を示すフローチャートである。
図22において、文書管理方法の実施例2は以下の各ステップによって実行される。
ステップS2201:まず、原稿画像の特徴的なレイアウト情報を判定し得るか否か判断する。すなわち、原稿画像が技術論文や特許明細書等の特徴的なレイアウトを有する場合には、以後レイアウトを手がかりとしたカテゴリ分類を実行するため、ステップS2202に進む。一方、レイアウト情報の判定が不可のときはステップS2205に進む。
ステップS2202:ステップS2201で取得したレイアウト情報に基いて、カテゴリ判定に有効な重要部分を抽出する。
ステップS2203:ステップS2202で抽出した重要部分について図15の分類フェーズを実行し、その結果カテゴリが決定されたか否かを判断する。カテゴリが決定されたときはステップS2204に進む。一方、適正な単語が記載されていなかった場合等、カテゴリが決定されなかったときはステップS2205に進む。
ステップS2204:図19の再認識後処理を実行し、そのまま処理を終了する。
ステップS2205:レイアウト情報を手がかりとしたカテゴリ決定が不可能であったときは、原稿画像の文字列を先頭から順次読み込んで、部分文字列によるカテゴリ分類を行う。そこで、まず所定量の部分文字列を読み込む。
ステップS2206:図4の認識後処理を実行し、ステップS2207に進む。
ステップS2207:ステップS2206の認識後処理の結果に対して、図15の分類フェーズを実行し、その結果カテゴリが決定されたか否かを判断する。カテゴリが決定されたときはステップS2204(再認識後処理)に進み、カテゴリが決定されなかったときはステップS2208に進む。
ステップS2208:より多くの情報によるカテゴリ分類を行うために、部分文字列を追加し、ステップS2206に戻る。
なお、文書管理装置は図1の構成に限定されるものではなく、汎用コンピュータや携帯型コンピュータ、携帯電話などの情報処理端末をゲーム装置のようなゲーム処理端末として適用することも可能である。
汎用コンピュータを文書管理装置とし、本発明に係る文書管理システムを構成する際には、ユーザが文書管理を実行するためのプログラムの各ステップを汎用コンピュータに実行させるためプログラムコードを含むコンピュータ実行可能なプログラムを、汎用コンピュータに読み込ませる。
汎用コンピュータが文書管理を実行するためのプログラムは、汎用コンピュータに内蔵されたROMや、汎用コンピュータが読み取り得る記憶媒体から読み込まれ、あるいはネットワークを通じてサーバ等から読み込まれる。
本発明に係る文書管理装置の実施例1を示すブロック図である。(実施例1) 図1の文字認識装置を示すブロック図である。(実施例1) 図1における文字自動分類装置を示すブロック図である。(実施例1) 図1の文字認識装置の後処理を示すフローチャートである。(実施例1) 図1の文字認識装置への入力である候補文字列を示す図である。(実施例1) 図1の文字認識装置において日本語標準辞書によって得られた単語候補を示す図である。(実施例1) 図6の単語候補同士の接続可否の判定状況を示す図である。(実施例1) 図7の判定の結果得られた文節候補の優先度を表した図である。(実施例1) 図3の文字自動分類装置における各構成要素間の制御の流れを示す図である。(実施例1) 図3の文字自動分類装置における学習フェーズの処理手順を示すフローチャートである。(実施例1) 図9の評価項目テーブルの例を示した図である。(実施例1) 図3の文字自動分類装置における文書内重要度の学習アルゴリズムを説明するフローチャートである。(実施例1) 図3の文字自動分類装置における分類対象文書の一例を示す図である。(実施例1) 図3の文字自動分類装置における属性テーブルの一例を示す図である。(実施例1) 図3の文字自動分類装置における分類フェーズの処理手順を示すフローチャートである。(実施例1) 図2の文字認識装置の処理対象である紙文書の例を示す図である。(実施例1) 図16の紙文書を文字認識装置で処理した結果の候補文字列の例を示す図である。(実施例1) 図17の単語候補接続可否判定の結果得られた文節候補を示す図である。(実施例1) 図3の文字自動分類装置における再認識後処理の処理手順を示したフローチャートである。(実施例1) 図19の再認識後処理における有効語辞書のカテゴリ尤度の例を示した図である。(実施例1) 図19の再認識後処理における第1位の連文節候補決定の状況を示す図である。(実施例1) 図1の文字認識装置による処理の実施例2を示すフローチャートである。(実施例2)
符号の説明
101 文字認識装置
102 電子化文書保管装置
103 文書自動分類装置
104 第二認識後処理装置
201 OCR
202 形態素解析装置
203 標準日本語辞書
301 学習用文書データベース
302 共起頻度計算手段
303 有効語ベクトル計算手段
304 文書ベクトル計算手段
305 フォルダベクトル計算手段
306 分類対象文書保持部
307 カテゴリ推定手段
308 有効語抽出手段
309 有効語辞書
310 評価項目テーブル
311 学習手段
312 分類結果保持部
901 有効語処理部
913 正解カテゴリ指定手段
914 分類結果表示手段

Claims (6)

  1. 原稿画像中の文字列を認識して管理する文書管理装置であって、
    前記原稿画像中の文字列を認識処理して文節候補を生成する文節候補生成手段と、
    所定の単語をカテゴリに分類して保存した学習用文書データベースと、
    前記文節候補よりなる文書を分類対象文書として、該分類対象文書における単語からカテゴリ分類に有効な有効語を、前記学習用文書データベースを参照しつつ抽出する有効語抽出手段と、
    前記有効語の前記各カテゴリへの帰属度を求める帰属度算出手段と、
    前記分類対象文節の内容に対する前記有効語の文書内重要度を算出する重要度算出手段と、
    前記帰属度および文書内重要度に基いて前記分類対象文節が属するカテゴリを推定するカテゴリ推定手段と、
    前記推定されたカテゴリへの前記帰属度に基づいて、前記文節候補生成手段によって生成された文節候補を修正する文節変更手段と、
    前記文節変更手段により生成された文節候補に基づいて、前記原稿画像中の文字列に対する文字認識結果を確定する確定手段と、
    を備えた文書管理装置。
  2. 前記カテゴリ推定手段によって推定されたカテゴリをユーザが修正し得るカテゴリ指定手段と、
    前記カテゴリ指定手段によって前記カテゴリが修正されたときに、該修正に基づいて前記文書内重要度を調整する学習手段と、
    をさらに備えたことを特徴とする請求項1記載の文書管理装置。
  3. 前記カテゴリ推定手段によってカテゴリ推定が可能であったか否かを判断する手段をさらに備え、
    前記文節候補生成手段は、前記原稿画像における先頭段落からの部分文字列を認識処理し、
    前記カテゴリ推定手段は、前記部分文字列に基づいてカテゴリを推定し、
    前記文節変更手段は、カテゴリ推定が可能か否かを判断する手段によってカテゴリ指定が可能と判断されたときに、該カテゴリの学習用文書データベースを参照し、前記原稿画像中の文字列を認識処理して文節候補を生成する、
    ことを特徴とする請求項1または2に記載の文書管理装置。
  4. 原稿画像中の文字列を認識して管理する文書管理方法であって、
    前記原稿画像中の文字列を認識処理して文節候補を生成する文節候補生成ステップと、
    前記文節候補よりなる文書を分類対象文書として、該分類対象文書における単語からカテゴリ分類に有効な有効語を、所定の単語をカテゴリに分類して保存した学習用文書データベースを参照しつつ、抽出する有効語抽出ステップと、
    前記有効語の前記各カテゴリへの帰属度を求める帰属度算出ステップと、
    前記分類対象文節の内容に対する前記有効語の文書内重要度を算出する重要度算出ステップと、
    前記帰属度および文書内重要度に基いて前記分類対象文節が属するカテゴリを推定するカテゴリ推定ステップと、
    前記推定されたカテゴリへの前記帰属度に基づいて、前記文節候補生成手段によって生成された文節候補を修正する文節変更ステップと、
    前記文節変更手段により生成された文節候補に基づいて、前記原稿画像中の文字列に対する文字認識結果を確定する確定ステップと、
    を備えた文書管理方法。
  5. 請求項4記載の文書管理方法をコンピュータに実行させるプログラムコードを含むコンピュータ実行可能なプログラム。
  6. 請求項5記載のコンピュータ実行可能なプログラムが格納されたコンピュータ読み取り可能な記憶媒体。
JP2004090817A 2004-03-26 2004-03-26 文書管理装置、文書管理方法、プログラム及び記憶媒体 Withdrawn JP2005275996A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004090817A JP2005275996A (ja) 2004-03-26 2004-03-26 文書管理装置、文書管理方法、プログラム及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004090817A JP2005275996A (ja) 2004-03-26 2004-03-26 文書管理装置、文書管理方法、プログラム及び記憶媒体

Publications (1)

Publication Number Publication Date
JP2005275996A true JP2005275996A (ja) 2005-10-06

Family

ID=35175583

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004090817A Withdrawn JP2005275996A (ja) 2004-03-26 2004-03-26 文書管理装置、文書管理方法、プログラム及び記憶媒体

Country Status (1)

Country Link
JP (1) JP2005275996A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013041535A (ja) * 2011-08-19 2013-02-28 Fuji Xerox Co Ltd 情報処理装置およびプログラム
JP2021056750A (ja) * 2019-09-30 2021-04-08 キヤノン株式会社 データ入力支援装置、データ入力支援方法及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013041535A (ja) * 2011-08-19 2013-02-28 Fuji Xerox Co Ltd 情報処理装置およびプログラム
JP2021056750A (ja) * 2019-09-30 2021-04-08 キヤノン株式会社 データ入力支援装置、データ入力支援方法及びプログラム
JP7387363B2 (ja) 2019-09-30 2023-11-28 キヤノン株式会社 データ入力支援装置、データ入力支援方法及びプログラム

Similar Documents

Publication Publication Date Title
WO2021051521A1 (zh) 获取应答信息的方法、装置、计算机设备及存储介质
Bellegarda Latent semantic mapping: Principles and applications
EP1462950B1 (en) Method for language modelling
CN107180084B (zh) 词库更新方法及装置
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
KR101511656B1 (ko) 퍼스널 아이덴티티를 기술하는 데이터에 대한 액셔너블 속성의 애스클라이빙
JP2004005600A (ja) データベースに格納された文書をインデックス付け及び検索する方法及びシステム
Plank Domain adaptation for parsing
US11574287B2 (en) Automatic document classification
CN113886604A (zh) 一种职位知识图谱生成方法和系统
KR20160149050A (ko) 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법
CN115168567B (zh) 一种基于知识图谱的对象推荐方法
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
Ji et al. Improving name tagging by reference resolution and relation detection
GB2572320A (en) Hate speech detection system for online media content
EP3970031A1 (en) Systems and methods for event summarization from data
CN111767733A (zh) 一种基于统计分词的文献密级甄别方法
JP2004240488A (ja) 文書管理装置
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
Byambakhishig et al. Error correction of automatic speech recognition based on normalized web distance.
CN115831117A (zh) 实体识别方法、装置、计算机设备和存储介质
JP2005275996A (ja) 文書管理装置、文書管理方法、プログラム及び記憶媒体
CN114661892A (zh) 稿件摘要生成方法和装置、设备及存储介质
JPH117447A (ja) 話題抽出方法及びこれに用いる話題抽出モデルとその作成方法、話題抽出プログラム記録媒体
CN111159360A (zh) 获得讯询问话题分类模型、讯询问话题分类的方法和装置

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060606

A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070605