JP2003317034A - 文書分類システムおよび該システム実現のためのプログラム - Google Patents

文書分類システムおよび該システム実現のためのプログラム

Info

Publication number
JP2003317034A
JP2003317034A JP2002116976A JP2002116976A JP2003317034A JP 2003317034 A JP2003317034 A JP 2003317034A JP 2002116976 A JP2002116976 A JP 2002116976A JP 2002116976 A JP2002116976 A JP 2002116976A JP 2003317034 A JP2003317034 A JP 2003317034A
Authority
JP
Japan
Prior art keywords
document
image data
word
type
classification system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002116976A
Other languages
English (en)
Other versions
JP2003317034A5 (ja
Inventor
Masashi Koga
昌史 古賀
Katsumi Marukawa
勝美 丸川
Masako Tanaka
雅子 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2002116976A priority Critical patent/JP2003317034A/ja
Priority to CN02141403.3A priority patent/CN1452098A/zh
Publication of JP2003317034A publication Critical patent/JP2003317034A/ja
Publication of JP2003317034A5 publication Critical patent/JP2003317034A5/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】書状類の内容に応じた分類を効率的に行う。 【解決手段】重要単語辞書に記憶した単語の出現頻度を
文字認識装置で測定し、文書種類識別部にて文書種類を
推定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、企業、官公庁など
における顧客窓口において、問合せの書状、電子メール
などを計算機を用いて自動的に分類するための、文書分
類の技術、および問合せに対する回答を支援するシステ
ムに関する技術に属する。
【0002】製造業、保険業、通信販売業、官公庁など
では、顧客から直に電子メール、書状、FAXなどの文書
で問合せを受付ける業務が、近年重要になってきてい
る。多様な問合せに対する回答を一人で効率的に行うの
は困難な場合が多い。通常、問合せの件数は、一人では
対処しきれないほど多い。さらに、内容が多岐に及ぶこ
とが多い。例えば、製造業においては、製品に対するク
レーム、購入方法、取り扱い方法などの問合せの文書に
対処する必要がある。一人でそれら全てに対処するに
は、広汎な知識が必要となる。通常、こうした広汎な知
識を有する作業者を確保するのは困難である。そこで、
問合せの文書の種類を識別し、これらを分類して各々の
内容に応じた専門家である作業者に割り振り、これら作
業者が回答をするようなシステムが必要になってきてい
る。
【0003】本発明は、上記のような文書の分類を計算
機で実行する技術、および計算機を用いて問合せへの回
答を支援するシステムに関する技術に関わるものであ
る。
【0004】
【従来の技術】計算機を用い、電子メールでの問合せを
分類する技術はすでに知られている。典型的な方法とし
ては、文書中での特定の単語(重要単語)群の出現頻度
を特徴量とした多変量のパタン認識技術を用いる方法が
ある。電子メールの本文、件名はテキストデータであ
り、単語の出現頻度は単純な単語照合、あるいは形態素
解析で得ることができる。ひとたび問合せの電子メール
の種類が識別されたなら、この種類に応じて自動的に電
子メールなどで回答する技術もすでに知られている。
【0005】また、問合せの書状の種類を識別する方法
としては、書状の内容を文字認識装置でテキスト化し
て、上と同様の手法を適用する方法がある。
【0006】しかし、従来のこうした文字認識を用いた
書状の種類の識別には、認識精度の問題があった。一般
に、文字認識を高精度化するには、出現しうる単語を事
前に辞書として記憶しておく必要がある。特に、手書き
の文字を認識するには、単語数を数百程度に絞り込んで
おく必要がある。しかし、従来の書状の種類の識別で用
いられる文字認識装置では、予め出現しうる単語の絞り
込みを行う事は困難であった。このため、十分に高い精
度で書状の種類を識別することが困難であった。また、
通常の文字認識では、文字の切出し結果、文字認識結果
に曖昧性が残る。例えば、通常は文字として切出された
部分画像毎に、複数の文字認識の候補文字が得られる。
文字の切出し方自身に曖昧さが残ることもある。このよ
うな文字認識結果から特定の単語の出現頻度を推定する
ことは、自明な処理ではなく、テキストデータからの単
語出現頻度算出の手法をそのまま用いることは出来な
い。また、この様な曖昧さを許容せず、文字認識結果を
単純にテキストとして扱うと、文書中の単語の多くを見
のがすこととなる。
【0007】また、文字認識では、認識の誤りが生じる
ことが避けられない。そうした誤りにより、文書の種類
の識別が不能になったり、誤ったりすることはしばしば
生じる。従来の方式では、このような識別不能や誤りが
発生した場合には、大きく作業の効率が落ちるという問
題があった。
【0008】
【発明が解決しようとする課題】本発明が解決しようと
する第1の課題は、このような問合せ回答を支援するシ
ステムにおいて、文字認識を利用した書状の種類の識別
を高速、高精度に実現することである。
【0009】本発明が解決しようとする第2の課題は、
文字認識用の単語辞書の保守性を高めることである。
【0010】本発明が解決しようとする第3の課題は、
結果に曖昧性のある文字認識処理と、テキストデータを
入力とする文書分類処理のインタフェースを改善し、シ
ステム中での親和性を高めることである。
【0011】本発明が解決しようとする第4の課題は、
文書種類の識別が不能であったり識別に誤りがあった場
合にも、効率良く回答作業が継続できるような環境を提
供することである。
【0012】
【課題を解決するための手段】文書種類識別における重
要単語の集合を、文字認識の単語辞書として用いる。ま
た、文字認識では、従来のように全ての文字を読取るの
ではなく、ワードスポッティングの技術を用いて重要単
語の出現頻度を計測するようにする。文字認識処理の出
力形式は、従来と異なり、単語の出現頻度を表すベクト
ルとする。得られた出現頻度を従来の文書種類識別へ入
力し、文書種の識別を行う。
【0013】回答作業を行う装置には、文字認識を行う
装置から、文書種類の識別結果のみならず、文書種類識
別における2位以下の候補と、単語の認識結果も併せて
送信する。回答作業装置は、問合せ書状の画像上で重要
単語をハイライトすることで、回答作業を支援する。ま
た、文書種類が誤っている場合には、2位以下の文書種
類の候補を利用して、適切な回答者に書状画像を転送で
きる環境を提供する。
【0014】
【発明の実施の形態】図1に、本発明の実施の例である
問合せ回答システム、すなわち、顧客からの問合せを自
動的に分類し、解答作業を支援するシステムの構成を示
す。本システムの入力は電子メール、書状、電話などに
よる問合せである。出力は、電子メール、書状、電話に
よる問合せの回答である。外部との通信のため、本シス
テムはインターネットと電話回線で外部と繋がれてい
る。また、本システムを構成する計算機類は、LANを
経由して情報の交換を行う。
【0015】本システムによる問合せの受付に先立ち、
問合せ文書の種類を識別するために必要な情報を算出し
辞書を作成する処理、すなわち学習が必要がある。10
1は学習をつかさどる学習用計算機である。学習用計算
機101は、学習用データファイルシステム102中に
予め収集してある学習データを参照し、文書種類の識別
に必要な情報を算出し、辞書ファイルシステム103に
分類用辞書として格納する。学習データとは、問合せ内
容をテキスト化したテキストデータとその問合せの種類
の識別子の対の集合である。学習データ中のテキストデ
ータには過去の問合せの事例を用いる。対応する文書の
種類は人手で指定する。作成した分類用辞書は、随時電
子メール分類用計算機106の辞書ファイルシステム1
07、書状分類用計算機108の辞書ファイルシステム
109、音声問合せ分類計算機114の辞書ファイルシ
ステム115にLANを経由して複写する。
【0016】電子メールによる問合せは、システム外部
のインターネット104から、ゲートウエイ105を介
して、電子メール分類用計算機106で受信する。電子
メール分類用計算機106は、電子メールの種類を問合
せ内容に基づいて識別し、文書種類の識別結果と後述す
る重要単語の位置とを電子メールと対応付けて自動回答
用計算機116へ転送する。
【0017】問合せの書状は、書状分類用計算機108
に接続したソータ付きスキャナ110によって光電変換
し、画像として取込む。書状分類用計算機108は後述
するワードスポッティングの技術を用い、画像中の文字
を認識し、書状の種類を問合せ内容に基づいて識別す
る。識別結果は画像と後述する重要単語の位置とに対応
付けて自動回答用計算機116へ転送する。ファックス
による問合せも電話回線111から回線制御装置113
を介して書状分類用計算機108へ取込まれ、同様の処
理を施す。上記の処理の後、書状はスキャナのソータを
用い、文書種類の識別結果に応じて仕分け、保管する。
【0018】電話による問合せは電話回線111から回
線制御装置113を介して音声問合せ分類用計算機11
4に取込む。音声問合せ分類用計算機114は音声を認
識してテキスト化し、問合せ内容に応じて分類し、回答
通話用電話器112に転送する。内容に応じた専門家で
ある作業者が回答通話用電話器112を用いて回答を行
う。
【0019】自動回答用計算着116は、転送された問
合せ文書の種類が自動回答可能なものである場合には、
適切な回答例文を回答例文ファイルシステム117中か
ら検索し、電子メールにて回答、あるいは回答文を自動
封かんプリンタ118を用いて印刷し書状にて回答す
る。もし、自動回答が出来ない場合には、問合せ文書に
対応付けられた文書種類に応じ、適切な専門家が待機す
る回答作業装置(121、125、126)へ転送す
る。
【0020】121に示すように、回答作業装置は計算
機122、キーボード、マウスなどからなる入力装置1
23、画像表示装置124で構成される。これらを用
い、各作業者が問合せ文書を参照しながら回答文書を作
成し、自動回答用計算機116に転送する。自動回答用
計算機116は上で説明したと同じように、回答の電子
メールの発信、もしくは回答の書状の印刷を行う。
【0021】次に本システムでの処理の流れを図2のデ
ータフロー図で説明する。本図では、ゲーン・サーソン
記法に従い(J.マーチン「ソフトウエア構造化技法」
近代科学社、ISBN4 - 7649 - 0124 - 2 C3050 P5562
E)、実線の矢印が情報の流れを、白抜きの矢印が物の
流れを示す。また、角の丸い矩形が処理を、右の空いた
矩形が格納された情報を示す。
【0022】まず、学習データ201を用い、学習20
2、すなわち問合せ文書の種類を識別するために必要な
情報を算出する処理を実行し、単語統計量辞書203お
よび重要単語辞書204を作成する。重要単語辞書20
4は、文書の種類を識別する上で重要な特徴となる単語
の集合を格納する。単語統計量辞書203は、重要単語
の出現頻度に応じて文書の種類を識別するのに必要な統
計量を格納する。本処理は学習用計算機101にて実現
する。
【0023】問合せの電子メールを受信した際には、電
子メール分類205にて単語統計量辞書203と重要単
語辞書204を参照して問合せ文書種類を識別する。得
られた問合せ文書種類は、電子メール自体と処理の過程
で得られた重要単語の位置の情報とに対応付けて、回答
作業用データとして出力する。本処理は電子メール分類
用計算機106にて実現する。
【0024】書状での問合せがあった場合には、書状分
類206にて単語統計量辞書203と重要単語辞書20
4を参照して問合せ文書種類を識別する。得られた問合
せ文書種類は、文書画像と処理の過程で得られた重要単
語の出現場所とに対応付けて、回答作業用データとして
出力する。一方、保存などの便のため、得られた問合せ
文書種類に応じて書状自体も仕分ける。本処理は書状分
類用計算機108およびソータ付きスキャナ110にて
実現する。
【0025】回答用データを用い、回答208にて回答
文を作成し、回答の書状印刷、あるいは回答の電子メー
ルの送信を行う。併せて単語統計量辞書203の更新の
ため、重要単語の出現頻度と回答する際に確定した文書
種類の情報を、辞書更新210に出力する。入力が電子
メールであった場合には、文書種類と電子メールの内容
のテキストデータを学習データに追加する。このように
追加された学習データを用いて再度学習を実行すること
により、単語統計量辞書203と重要単語辞書204と
が運用の実態に適応できるようになる。本処理は、自動
回答用計算機116、自動封かんプリンタ118、回答
作業装置121、125、126で実現する。
【0026】辞書更新210は、運用中に得られた問合
せ文書中での重要単語の出現頻度と文書種に基づき、分
類用辞書を更新する処理である。こうした識別のための
統計量の更新は、標準的なパタン認識の手法で実現でき
る。本処理は、学習用計算機101で実現する。
【0027】電話での問合せがあった場合には、音声問
合せ分類207にて問合せ内容の種類を識別し、内容に
応じた専門家である作業者により回答通話208を行
う。本処理は、音声問合せ分類計算機114および回答
通話用電話器112で実現する。
【0028】次に、学習202の処理の流れを図3のデ
ータフロー図で示す。まず、重要単語抽出301にて学
習データ201中から文書種類を識別する上で重要な単
語を抽出し、重要単語辞書204に格納する。この処理
は、自然言語処理における形態素解析の技術、およびパ
タン認識における特徴選択の技術を用いて実現する。次
に、単語統計量算出302で文書種類を識別する上で必
要な統計量を計算を行い、単語統計量辞書203に格納
する。ここでの識別の手法には、パタン認識での標準的
な手法、例えば二次識別関数ニューラルネットワークな
どを用いる。二次識別関数を用いた場合には、単語統計
量とは各単語の出現頻度およびそれらの共分散係数を意
味する。ニューラルネットワークを用いた場合には、単
語統計量はネットワークの接続の重みとなる。
【0029】次に、電子メール分類205の処理の流れ
を図4のデータフロー図で示す。まず、単語抽出401
にて、重要単語辞書204を参照し、電子メール中での
各重要単語の出現頻度を算出する。重要単語を検出する
には、形態素解析などの一般的な言語処理の技術を用い
る。次に、文書種類識別402にて単語統計量辞書20
3中の単語統計量を利用し、文書種類を識別する。識別
には、二次識別関数やニューラルネットワークなど標準
的なパタン認識の手法を用いる。最後に、回答作業用デ
ータ作成403にて重要単語の出現位置と文書種類の識
別結果と電子メールとの対応を取るデータ、すなわち回
答作業用データを作成し、出力する。通常、文書種類に
は異なる確信度の複数の候補が挙がる。回答作業用デー
タにはこれら全てを格納する。
【0030】次に、書状分類206の処理の流れを図5
のデータフロー図に示す。まず、画像入力501にて、
書状に文章が書かれている面を画像として入力する。次
に、ワードスポティング認識502にて、重要単語辞書
204を参照し、重要単語を画像中から認識し、各重要
単語の出現頻度を出力する。次に、文書種類識別503
にて、単語統計量辞書203に格納された単語統計量を
参照し、重要単語の出現頻度に基づいて文書種種類を識
別する。次に、回答作業用データ作成505にて、画像
と重要単語の出現位置と文書種類の識別結果を対応付け
て出力する。書状自体は、文書種類識別結果に基づき、
仕分けられる。
【0031】次に、回答208の処理の流れを図6のデ
ータフロー図にて説明する。まず、送信先決定601に
て、回答作業用データに付与されている文書種に応じ、
回答作業用データを回答作業1〜3(602、603、
604)または自動回答605に転送する。本処理は、
自動回答用計算機116にて実現する。回答作業1〜3
(602、603、604)では、各文書種類の専門家
である作業者が問合せ内容を検討し、回答文を作成す
る。これらは回答作業装置1〜3(121、125、1
26)を用いた作業者の作業によって実現する。自動回
答605では、文書種に応じた回答例文を回答例文集6
06から検索し、出力する。本処理は、自動回答用計算
機116にて実現する。回答作業1〜3(602、60
3、604)または自動回答605で得られた回答例文
を回答電子メール発信607にて電子メールで発信す
る。本処理は、自動回答用計算機116にて実現する。
また、回答文印刷608は回答文を紙に印刷し回答書状
を作成する。本処理は、自動封かんプリンタ118で実
現する。
【0032】実際には、計算機による文書種の識別は必
ずしも正しいと限らない。また、識別処理において、識
別不能と拒絶されることもある。そこで、本システムで
は以下のような方法で文書種の識別の誤りや拒絶に対応
する。回答作業1または2または3(602、603、
604)において、割振られた問合せ文書が自分の担当
分野のものでなかった場合には、作業者は後述する操作
画面上で転送の操作を行う。上述のように、文書識別結
果として通常は異なる確信度の複数の候補が得られてい
る。これを利用し、転送の操作が行われた場合には、自
動的に2位以下の文書種候補に対応する転送先に当該の
回答作業用データを転送する。転送先は、作業者自身が
指定してもよい。また、識別で拒絶された場合にも、電
子メールのテキスト中または書状の画像中で検出された
重要単語をハイライトし、回答作業を支援する。
【0033】図7は回答作業装置1〜3(121、12
5、126)において画像表示装置に表示する画面の一
例を示す。画面701中の問合せ文書ウィンドウ708
には問合せ文書を表示する。電子メールによる問合せの
場合にはテキストを、書状での問合せの場合には書状の
画像を表示する。また、回答作業用データ中の重要単語
出現位置を利用し、同ウインドウ中で、重要単語をハイ
ライトし、回答作業を容易にならしめる。作業者は、回
答文編集ウインドウ709で回答文を編集する。これに
は、通常のワードプロセッサなどを用いる。もし、問合
せ文書ウインドウ708に表示されているのが自分の担
当でない文書である場合には、作業者は自動転送のボタ
ン703を入力装置として備えられているマウスでクリ
ックする。これに応じ、識別結果の2位以下の候補に対
応する回答作業装置または自動回答用計算機へ回答作業
用データが転送される。ウインドウ702には、2位以
下の候補も含めた文書種識別結果の候補が表示されてい
る。操作者が行き先を指定して回答作業用データを転送
する際には、ウインドウ702に設けられたラジオボタ
ンで文書種を指定した上で、転送ボタン704をクリッ
クする。文書種に応じた過去の例文を検索したい場合に
は、例文検索ボタン705をクリックする。すると、L
ANを介して回答例文用ファイルシステム117から該
当する回答例文が転送され、回答文編集ウインドウ70
9に表示される。送信ボタン706をクリックすると、
編集した回答文が電子メールで問合せを発した人へ返信
される。また、印刷ボタン707をクリックすると、編
集した回答文が自動封かんプリンタ118より印刷され
る。
【0034】図8に、学習202の処理手順を示す。重
要単語抽出にて、まず各学習用テキストデータTi(1≦i
≦N、 N:データ数)から形態素解析で単語を抽出し、出
現頻度をベクトルui=(ui1、ui2、...uiM) (1≦i≦N、.u
ij:Ti中の単語jの出現回数、 M:総単語数)の形で記憶す
る。ベクトルuiと各テキストデータTiの種類ci(人手で
付与)の対の集合{(ui、ci)}から、Branch and Boundア
ルゴリズムの特徴選択などの既知の手法を用い、分類上
重要な単語M'個(M'<<M)を選択する。必要であれば、人
手で重要単語を選択してもよい。次に単語統計量算出に
て各重要単語の出現頻度を算出しベクトルvi=(vi1、vi
2、...viM')で記憶する。さらに文書種の識別に必要な
統計量を算出する。例えば、識別方式が二次識別関数の
場合には、各変数vi1、vi2、...viM'の平均、相関係数
などの統計量を算出する。
【0035】図9に、書状分類206の処理手順を示
す。本処理は画像入力、ワードスポッティング認識、文
書種類識別、仕分け、回答作業用データ作成の各ステッ
プからなる。
【0036】通常の文字認識では,画像中の全ての文字
を認識する。これに対し,ワードスポッティング認識で
は、実行に先立って外部から読取り対象の単語を指定す
る。認識の過程では,指定された単語で出現しうる文字
のみに認識対象の文字種を限定し,指定された単語とし
て尤もらしい文字列を検出する。本実施例では,特開平
11−85909にあるような方式を用い重要単語を画
像中から認識し、出現頻度を算出する。本処理は、文字
切出し仮説を生成するステップと、重要単語を探索的に
認識するステップと、重要単語の出現頻度を計算するス
テップから成る。重要単語の出現頻度はベクトルw=(w
1、 w2、 ...wM')で表現する。このような、与えられた
単語の集合を探索的に認識する手法を用いることによ
り、大幅に認識の精度と速度を向上できる。なお、認識
と精度はこのような方式に劣るが、従来のように画像中
から全ての文字を認識し、従来の単語照合の技術を用い
てベクトルwを求めてもよい。
【0037】文書種類識別においては、二次識別関数や
ニューラルネットワークなど一般的なパタン認識の手法
を用い、ベクトルwと単語統計量から、各文書種として
の確信度を算出し、文書種を確信度に応じて順序付け
る。さらに、一般的な手法にならい、1位と2位の文書
種候補の確信度の差が一定値より小さい時、および1位
の文書種候補の確信度が一定値より小さい時に、識別拒
絶と判定する。
【0038】仕分けにおいては、文書種類の識別結果に
応じてソータ付きスキャナ110を制御し、書状を所定
のスタッカに仕分ける。
【0039】回答用データ作成においては、重要単語の
出現位置と文書種類の識別結果と画像の対応を取るデー
タ、すなわち回答作業用データを作成し、出力する。
【0040】図10に、ワードスポッティング認識の出
力である単語出現頻度のデータ形式を示す。これはM'個
のレコードからなる配列である。各レコードには、M'個
目の重要単語の出現頻度を格納する。格納する出現頻度
は、整数値でも、認識の確からしさに応じた実数値でも
よい。
【0041】図11に、回答作業用データのデータ形式
を示す。変数kindOfMessage1101には、問合せが電
子メールなどのテキストで表されるものであるか、書状
やファックスの用に画像で表されるものであるかの区別
を示すフラグを格納する。変数sizeOfMsg1102に
は、回答作業用データに格納する文書のデータのサイズ
を示す。これに続くsizeOfMsgバイトの領域1103に
は、問合せ文書の実体を格納する。電子メールなどの場
合はテキストデータ、書状やファックスの場合には画像
データを格納する。変数numberOfCandidate1104に
は、文書種類の識別の結果得られた、文書種類候補の数
を格納する。これに続く領域1105には、文書種類候
補をnumberOfCandidateレコード分格納する。各レコー
ドは、文書種類を表す整数の識別子と、その確信度の値
の対から成る。変数numberOfWords1106には、検出
された重要単語の数を格納する。それに続く領域110
7には、重要単語の検出結果をnumberOfWordsレコード
格納する。各レコードは、重要単語の識別子wordIDと検
出された位置を表すレコードlocationの対から成る。検
出位置としては、テキストデータの場合には、テキスト
データ中での重要単語の先頭の文字が出現するバイト数
を格納する。画像データの場合には、重要単語が認識さ
れた領域の上端、下端、左端、右端の座標を格納する。
【0042】以下では、ワードスポッティング認識の概
要を述べる。図12に問合せの書状の例を模式的に示
す。通常、問合せの書状には特に定められた書式はな
い。このため文字行の位置や文字の大きさを予め知るこ
とはできない。また、縦書きか、横書きかも分からない
場合が多い。さらに、この例の様に文字行の間隔が小さ
い上に、2行目の「え」の上の点のように、上の行に属
するのか下の行に属するのか、判定が困難な成分がある
ことがある。
【0043】こうした問題を解決するために、本発明の
ワードスポッティング認識では、特開平11-85909にある
ような方式を採用する。これは、入力画像から文字パタ
ンの候補を抽出し、それらの接続関係を切出し仮説ネッ
トワークで表現したのち、予め指定された単語を切出し
仮説ネットワーク中で探索的に認識するものである。こ
れは、単語の情報を予測的に利用することにより、高精
度かつ高速な単語の認識を可能とする方式である。文字
パタンの候補を抽出する手法としては、例えば文字行中
の連結成分の任意個数の組合せのうちで、それらを合成
して得られる図形の高さと幅が予め指定した上限値と下
限値の間に収まっているものを選択する手法を用いる。
探索の方式としては、一般的な幅優先探索を用い、探索
木の展開の判定は文字認識の結果に基づいて行う。
【0044】特開平11-85909では、文字行内での文字切
出しの困難さを解決するために切出し仮説ネットワーク
を導入している。図12の例では、文字切出しに先立つ
文字行の抽出自体も困難となっている。そこで、本発明
のワードスポッティング認識では、画像全体から文字パ
タンの候補を抽出すると共に、縦横いずれの方向にも文
字パタンの候補が接続可能か否か、すなわち単語として
続けて読めるように文字がつながっているかどうか、を
切出し仮説ネットワークで表すようにした。図13にこ
うして得られた切出し仮説ネットワークの例を示す。図
中の楕円は、文字パタンの候補を示す。例えば、130
1は二つの連結成分を合せて一つの文字パタンの候補が
生成されていることを示す。この場合、文字パタンの候
補1301は「ら」に対応している。また、候補パタン
1302は、「ら」の上の点に対応している。辺130
3は、候補パタン1302と候補パタン1304が接続
可能、すなわち単語の中で文字として続いている可能性
があることを示している。なお、ここでは、辺1303
のように内部から辺が外に向かって出ている場合には、
候補パタン1301も候補パタン1304と接続可能で
あるものとする。接続可能であるかどうかは、候補パタ
ン間の距離で判定する。距離が予め定められた閾値以下
の場合には接続可能とする。
【0045】こうして得られた切出し仮説ネットワーク
を入力とし、文字認識を利用して重要単語を探索するこ
とで、重要単語の出現場所を検出することができる。例
えば、「ちらし」と「価格」が重要単語であった場合、
図14の1401と1402に示すように、重要単語の
位置を検出することができる。
【0046】
【発明の効果】文書の分類に必要最小限の単語からなる
単語辞書を文字認識に用いることにより、書状類の自動
分類を高速、高精度に行うことが可能となる。
【0047】電子メール分類における重要単語辞書と共
通化することにより、文字認識装置の単語辞書の作成が
容易になる。また、運用中に電子メールで得られた事例
に基づいて単語辞書を自動的に更新できる。
【0048】文字認識処理の出力が単語の出現頻度とな
ることで、単語出現頻度に基づく文書種識別処理とのシ
ステム中での親和性が高くなる。これにより、多くの既
存の文書種識別手段を流用できる、システム中で文字認
識に基づく文書種識別とテキストに基づく文書種識別の
共存が容易になるなどの効果が得られる。
【0049】分類不能の場合にも、画像上で重要単語を
回答作業者に指示することで、回答作業者の作業を支援
することが可能となる。また、分類に誤りがあった場合
にも回答作業を効率良く継続できる環境を提供できる。
【図面の簡単な説明】
【図1】実施例のハードウエア構成。
【図2】実施例の処理の流れを示すデータフロー図。
【図3】学習処理の流れを示すデータフロー図。
【図4】電子メール分類処理の流れを示すデータフロー
図。
【図5】書状分類処理の流れを示すデータフロー図。
【図6】回答処理の流れを示すデータフロー図。
【図7】回答作業用の表示画面。
【図8】学習の処理手順を示すアクションダイアグラ
ム。
【図9】書状分類の処理手順を示すアクションダイアグ
ラム。
【図10】単語出現頻度のデータ形式。
【図11】回答作業用データのデータ形式。
【図12】入力画像の例。
【図13】切出し仮説ネットワーク。
【図14】検出された重要単語。
【符号の説明】
101・・・学習用計算機、102・・・学習データファイル
システム、103・・・辞書ファイルシステム、104・・・
インターネット、105・・・ゲートウエイ、106・・・電
子メール分類用計算機、107・・・辞書ファイルシステ
ム、108・・・書状分類用計算機、109・・・辞書ファイ
ルシステム、110・・・ソータ付きスキャナ、111・・・
電話回線、112・・・加藤通話用電話機、113・・・回線
制御装置、114・・・音声問合せ分類用計算機、115・
・・辞書ファイルシステム、116・・・自動回答用計算
機、117・・・回答例文ファイルシステム、118・・・自
動封かんプリンタ、121、125、126・・・回答作
業装置、122・・・計算機、123・・・入力装置、124
・・・画像表示装置、201・・・学習データ、202・・・学
習、203・・・単語統計量辞書、204・・・重要単語辞
書、205・・・電子メール分類、206・・・書状分類、2
07・・・音声問合せ分類、208・・・回答、209・・・回
答通話、210・・・辞書更新。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06K 9/03 G06K 9/03 J (72)発明者 田中 雅子 東京都江東区新砂一丁目6番27号 株式会 社日立製作所公共システム事業部内 Fターム(参考) 5B064 AA01 EA19 EA32 FA05 FA13 5B075 ND06 ND20 NK06 NK32 UU06 UU24 5E501 AA30 AC19 BA09 FA14 FA46 FB44

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】文書の画像データを入力するための入力装
    置と、上記文書の種類の識別に用いる重要単語とその出
    現頻度に関する情報を蓄積する記憶装置と、上記画像デ
    ータを処理する処理装置とを備え、上記処理装置は、上
    記入力装置から入力された画像データ中の上記重要単語
    のワードスポッティング技術を用いて認識し、その出現
    回数をカウントし、上記記憶装置に蓄積される情報と上
    記カウント値に基づいて上記文書の種類を識別し、上記
    文書種識別結果を上記画像データと対応づけて出力する
    ことを特徴とする文書分類システム。
  2. 【請求項2】上記システムはさらに表示装置を有し、前
    記表示装置は前記入力装置から入力された画像データと
    前記文書種識別結果を対応づけて表示することを特徴と
    する請求項1に記載の文書分類システム。
  3. 【請求項3】上記システムは上記文書への回答例文を上
    記種類と対応づけて記録手段に記録しており、上記表示
    手段は上記画像データと該画像データの識別結果に対応
    づけられる上記回答例文を表示することを特徴とする請
    求項2に記載の文書分類システム。
  4. 【請求項4】上記処理装置は、上記カウントされた重要
    単語の上記画像データ内の位置情報も出力し、上記位置
    情報に基づいて上記表示装置に上記画像データ中の該重
    要単語を強調して表示することを特徴とする請求項2乃
    至3に記載の文書分類システム。
  5. 【請求項5】上記システムはさらにソータを有し、上記
    ソータは上記文書を識別された種類ごとに仕分けして排
    出することを特徴とする請求項1乃至4の何れかにに記
    載の文書分類システム。
  6. 【請求項6】上記文書分類システムは通信網に接続さ
    れ、上記処理装置は、該通信網を介して受信した電子メ
    ールについても上記種類の識別を行うことを特徴とする
    請求項1乃至5の何れかに記載の文書分類システム。
  7. 【請求項7】上記処理装置は上記識別結果と上記重要単
    語の出現回数用いて上記記憶装置に蓄積される情報を更
    新することを特徴とする請求項1乃至6の何れかに記載
    の文書分類システム。
  8. 【請求項8】文書種識別装置とネットワークを介して接
    続される複数の文書処理装置を有する文書分類システム
    であって、上記文書種識別装置は文書の画像データ若し
    くはテキストデータを取得する手段と、上記文書の種類
    と該種類識別に用いる重要単語に関する情報とを対応づ
    けて記録する記録手段と、上記画像データ若しくはテキ
    ストデータを処理する処理装置とを有し、上記処理装置
    は、上記情報に基づいて上記文書の識別を行い、該識別
    結果を上記種類毎の確信度とともに出力し、該確信度に
    従って出力する上記文書処理装置を決定することを特徴
    とする文書分類システム。
  9. 【請求項9】上記処理装置は、該識別が間違っていると
    の入力を受けた場合に、上記確信度に従って、他の上記
    文書処理装置へ上記文書を転送することを特徴とする請
    求項8記載の文書分類システム。
  10. 【請求項10】画像データ入力手段に接続され、データ
    記憶手段と制御手段を有するコンピュータに文書種識別
    方法を実行させるプログラムであって、該文書種識別方
    法は、上記画像データ入力手段により文書データを取得
    するステップと、上記画像データ中から予め前記記憶手
    段に格納される重要単語をワードスポッティング技術を
    用いて認識し、該重要単語ごとの出現回数をカウントす
    るステップと、上記カウント値に基づいて文書種を識別
    するステップと、上記文書データと上記文書種識別結果
    を対応づけて出力するステップを有することを特徴とす
    るプログラム。
JP2002116976A 2002-04-19 2002-04-19 文書分類システムおよび該システム実現のためのプログラム Pending JP2003317034A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002116976A JP2003317034A (ja) 2002-04-19 2002-04-19 文書分類システムおよび該システム実現のためのプログラム
CN02141403.3A CN1452098A (zh) 2002-04-19 2002-08-28 文档分类系统及其实现程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002116976A JP2003317034A (ja) 2002-04-19 2002-04-19 文書分類システムおよび該システム実現のためのプログラム

Publications (2)

Publication Number Publication Date
JP2003317034A true JP2003317034A (ja) 2003-11-07
JP2003317034A5 JP2003317034A5 (ja) 2005-08-18

Family

ID=29243476

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002116976A Pending JP2003317034A (ja) 2002-04-19 2002-04-19 文書分類システムおよび該システム実現のためのプログラム

Country Status (2)

Country Link
JP (1) JP2003317034A (ja)
CN (1) CN1452098A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8842928B2 (en) 2011-03-28 2014-09-23 Fuji Xerox Co., Ltd. System and method of document image compression

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4693466B2 (ja) * 2005-04-06 2011-06-01 東芝ソリューション株式会社 レポートチェック装置、レポート作成装置、記憶媒体、プログラム
US7917492B2 (en) * 2007-09-21 2011-03-29 Limelight Networks, Inc. Method and subsystem for information acquisition and aggregation to facilitate ontology and language-model generation within a content-search-service system
US8966389B2 (en) 2006-09-22 2015-02-24 Limelight Networks, Inc. Visual interface for identifying positions of interest within a sequentially ordered information encoding
US9015172B2 (en) 2006-09-22 2015-04-21 Limelight Networks, Inc. Method and subsystem for searching media content within a content-search service system
CN102637205B (zh) * 2012-03-19 2014-10-15 南京大学 一种基于Hadoop的文档分类方法
US20160182430A1 (en) * 2014-12-17 2016-06-23 Microsoft Technology Licensing, Llc Optimizing view of messages based on importance classification

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8842928B2 (en) 2011-03-28 2014-09-23 Fuji Xerox Co., Ltd. System and method of document image compression
US9042668B2 (en) 2011-03-28 2015-05-26 Fuji Xerox Co., Ltd. Color-information based image compression method and apparatus

Also Published As

Publication number Publication date
CN1452098A (zh) 2003-10-29

Similar Documents

Publication Publication Date Title
CN110515846B (zh) 一种关于用户体验测试的数据自动化处理分析系统
US7251644B2 (en) Processing an electronic document for information extraction
US7983468B2 (en) Method and system for extracting information from documents by document segregation
JP4311552B2 (ja) ドキュメントの自動分離
US7120318B2 (en) Automatic document reading system for technical drawings
US7965891B2 (en) System and method for identifying and labeling fields of text associated with scanned business documents
US6243501B1 (en) Adaptive recognition of documents using layout attributes
EP1936536B1 (en) System and method for performing classification through generative models of features occuring in an image
US6014450A (en) Method and apparatus for address block location
CN109685052A (zh) 文本图像处理方法、装置、电子设备及计算机可读介质
WO2008058871A1 (en) Automated generation of form definitions from hard-copy forms
JP3485020B2 (ja) 文字認識方法及び装置ならびに記憶媒体
Den Hartog et al. Knowledge-based interpretation of utility maps
CN111078979A (zh) 一种基于ocr和文本处理技术识别网贷网站的方法及系统
JP2003317034A (ja) 文書分類システムおよび該システム実現のためのプログラム
Baumann et al. Message extraction from printed documents-a complete solution
EP1202213B1 (en) Document format identification apparatus and method
JP2000259669A (ja) 文書分類装置及びその方法
JP4356908B2 (ja) 財務諸表自動入力装置
JP3872923B2 (ja) 情報処理型郵便区分システム
CN110688445A (zh) 一种数字化档案建设方法
JP2006252575A (ja) 財務諸表自動入力装置及び財務諸表自動入力方法
US20210064862A1 (en) System and a method for developing a tool for automated data capture
CN112348022A (zh) 一种基于深度学习的自由格式文档识别方法
CN111860263A (zh) 信息录入方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050128

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050128

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060419

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080131

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080318