JP2003317034A

JP2003317034A - 文書分類システムおよび該システム実現のためのプログラム

Info

Publication number: JP2003317034A
Application number: JP2002116976A
Authority: JP
Inventors: Masashi Koga; 昌史古賀; Katsumi Marukawa; 勝美丸川; Masako Tanaka; 雅子田中
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2002-04-19
Filing date: 2002-04-19
Publication date: 2003-11-07
Also published as: CN1452098A

Abstract

(57)【要約】【課題】書状類の内容に応じた分類を効率的に行う。【解決手段】重要単語辞書に記憶した単語の出現頻度を
文字認識装置で測定し、文書種類識別部にて文書種類を
推定する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、企業、官公庁など
における顧客窓口において、問合せの書状、電子メール
などを計算機を用いて自動的に分類するための、文書分
類の技術、および問合せに対する回答を支援するシステ
ムに関する技術に属する。

【０００２】製造業、保険業、通信販売業、官公庁など
では、顧客から直に電子メール、書状、FAXなどの文書
で問合せを受付ける業務が、近年重要になってきてい
る。多様な問合せに対する回答を一人で効率的に行うの
は困難な場合が多い。通常、問合せの件数は、一人では
対処しきれないほど多い。さらに、内容が多岐に及ぶこ
とが多い。例えば、製造業においては、製品に対するク
レーム、購入方法、取り扱い方法などの問合せの文書に
対処する必要がある。一人でそれら全てに対処するに
は、広汎な知識が必要となる。通常、こうした広汎な知
識を有する作業者を確保するのは困難である。そこで、
問合せの文書の種類を識別し、これらを分類して各々の
内容に応じた専門家である作業者に割り振り、これら作
業者が回答をするようなシステムが必要になってきてい
る。

【０００３】本発明は、上記のような文書の分類を計算
機で実行する技術、および計算機を用いて問合せへの回
答を支援するシステムに関する技術に関わるものであ
る。

【０００４】

【従来の技術】計算機を用い、電子メールでの問合せを
分類する技術はすでに知られている。典型的な方法とし
ては、文書中での特定の単語（重要単語）群の出現頻度
を特徴量とした多変量のパタン認識技術を用いる方法が
ある。電子メールの本文、件名はテキストデータであ
り、単語の出現頻度は単純な単語照合、あるいは形態素
解析で得ることができる。ひとたび問合せの電子メール
の種類が識別されたなら、この種類に応じて自動的に電
子メールなどで回答する技術もすでに知られている。

【０００５】また、問合せの書状の種類を識別する方法
としては、書状の内容を文字認識装置でテキスト化し
て、上と同様の手法を適用する方法がある。

【０００６】しかし、従来のこうした文字認識を用いた
書状の種類の識別には、認識精度の問題があった。一般
に、文字認識を高精度化するには、出現しうる単語を事
前に辞書として記憶しておく必要がある。特に、手書き
の文字を認識するには、単語数を数百程度に絞り込んで
おく必要がある。しかし、従来の書状の種類の識別で用
いられる文字認識装置では、予め出現しうる単語の絞り
込みを行う事は困難であった。このため、十分に高い精
度で書状の種類を識別することが困難であった。また、
通常の文字認識では、文字の切出し結果、文字認識結果
に曖昧性が残る。例えば、通常は文字として切出された
部分画像毎に、複数の文字認識の候補文字が得られる。
文字の切出し方自身に曖昧さが残ることもある。このよ
うな文字認識結果から特定の単語の出現頻度を推定する
ことは、自明な処理ではなく、テキストデータからの単
語出現頻度算出の手法をそのまま用いることは出来な
い。また、この様な曖昧さを許容せず、文字認識結果を
単純にテキストとして扱うと、文書中の単語の多くを見
のがすこととなる。

【０００７】また、文字認識では、認識の誤りが生じる
ことが避けられない。そうした誤りにより、文書の種類
の識別が不能になったり、誤ったりすることはしばしば
生じる。従来の方式では、このような識別不能や誤りが
発生した場合には、大きく作業の効率が落ちるという問
題があった。

【０００８】

【発明が解決しようとする課題】本発明が解決しようと
する第１の課題は、このような問合せ回答を支援するシ
ステムにおいて、文字認識を利用した書状の種類の識別
を高速、高精度に実現することである。

【０００９】本発明が解決しようとする第２の課題は、
文字認識用の単語辞書の保守性を高めることである。

【００１０】本発明が解決しようとする第３の課題は、
結果に曖昧性のある文字認識処理と、テキストデータを
入力とする文書分類処理のインタフェースを改善し、シ
ステム中での親和性を高めることである。

【００１１】本発明が解決しようとする第４の課題は、
文書種類の識別が不能であったり識別に誤りがあった場
合にも、効率良く回答作業が継続できるような環境を提
供することである。

【００１２】

【課題を解決するための手段】文書種類識別における重
要単語の集合を、文字認識の単語辞書として用いる。ま
た、文字認識では、従来のように全ての文字を読取るの
ではなく、ワードスポッティングの技術を用いて重要単
語の出現頻度を計測するようにする。文字認識処理の出
力形式は、従来と異なり、単語の出現頻度を表すベクト
ルとする。得られた出現頻度を従来の文書種類識別へ入
力し、文書種の識別を行う。

【００１３】回答作業を行う装置には、文字認識を行う
装置から、文書種類の識別結果のみならず、文書種類識
別における２位以下の候補と、単語の認識結果も併せて
送信する。回答作業装置は、問合せ書状の画像上で重要
単語をハイライトすることで、回答作業を支援する。ま
た、文書種類が誤っている場合には、２位以下の文書種
類の候補を利用して、適切な回答者に書状画像を転送で
きる環境を提供する。

【００１４】

【発明の実施の形態】図１に、本発明の実施の例である
問合せ回答システム、すなわち、顧客からの問合せを自
動的に分類し、解答作業を支援するシステムの構成を示
す。本システムの入力は電子メール、書状、電話などに
よる問合せである。出力は、電子メール、書状、電話に
よる問合せの回答である。外部との通信のため、本シス
テムはインターネットと電話回線で外部と繋がれてい
る。また、本システムを構成する計算機類は、ＬＡＮを
経由して情報の交換を行う。

【００１５】本システムによる問合せの受付に先立ち、
問合せ文書の種類を識別するために必要な情報を算出し
辞書を作成する処理、すなわち学習が必要がある。１０
１は学習をつかさどる学習用計算機である。学習用計算
機１０１は、学習用データファイルシステム１０２中に
予め収集してある学習データを参照し、文書種類の識別
に必要な情報を算出し、辞書ファイルシステム１０３に
分類用辞書として格納する。学習データとは、問合せ内
容をテキスト化したテキストデータとその問合せの種類
の識別子の対の集合である。学習データ中のテキストデ
ータには過去の問合せの事例を用いる。対応する文書の
種類は人手で指定する。作成した分類用辞書は、随時電
子メール分類用計算機１０６の辞書ファイルシステム１
０７、書状分類用計算機１０８の辞書ファイルシステム
１０９、音声問合せ分類計算機１１４の辞書ファイルシ
ステム１１５にＬＡＮを経由して複写する。

【００１６】電子メールによる問合せは、システム外部
のインターネット１０４から、ゲートウエイ１０５を介
して、電子メール分類用計算機１０６で受信する。電子
メール分類用計算機１０６は、電子メールの種類を問合
せ内容に基づいて識別し、文書種類の識別結果と後述す
る重要単語の位置とを電子メールと対応付けて自動回答
用計算機１１６へ転送する。

【００１７】問合せの書状は、書状分類用計算機１０８
に接続したソータ付きスキャナ１１０によって光電変換
し、画像として取込む。書状分類用計算機１０８は後述
するワードスポッティングの技術を用い、画像中の文字
を認識し、書状の種類を問合せ内容に基づいて識別す
る。識別結果は画像と後述する重要単語の位置とに対応
付けて自動回答用計算機１１６へ転送する。ファックス
による問合せも電話回線１１１から回線制御装置１１３
を介して書状分類用計算機１０８へ取込まれ、同様の処
理を施す。上記の処理の後、書状はスキャナのソータを
用い、文書種類の識別結果に応じて仕分け、保管する。

【００１８】電話による問合せは電話回線１１１から回
線制御装置１１３を介して音声問合せ分類用計算機１１
４に取込む。音声問合せ分類用計算機１１４は音声を認
識してテキスト化し、問合せ内容に応じて分類し、回答
通話用電話器１１２に転送する。内容に応じた専門家で
ある作業者が回答通話用電話器１１２を用いて回答を行
う。

【００１９】自動回答用計算着１１６は、転送された問
合せ文書の種類が自動回答可能なものである場合には、
適切な回答例文を回答例文ファイルシステム１１７中か
ら検索し、電子メールにて回答、あるいは回答文を自動
封かんプリンタ１１８を用いて印刷し書状にて回答す
る。もし、自動回答が出来ない場合には、問合せ文書に
対応付けられた文書種類に応じ、適切な専門家が待機す
る回答作業装置（１２１、１２５、１２６）へ転送す
る。

【００２０】１２１に示すように、回答作業装置は計算
機１２２、キーボード、マウスなどからなる入力装置１
２３、画像表示装置１２４で構成される。これらを用
い、各作業者が問合せ文書を参照しながら回答文書を作
成し、自動回答用計算機１１６に転送する。自動回答用
計算機１１６は上で説明したと同じように、回答の電子
メールの発信、もしくは回答の書状の印刷を行う。

【００２１】次に本システムでの処理の流れを図２のデ
ータフロー図で説明する。本図では、ゲーン・サーソン
記法に従い（Ｊ．マーチン「ソフトウエア構造化技法」
近代科学社、ISBN4 - 7649 - 0124 - 2 C3050 P5562
E）、実線の矢印が情報の流れを、白抜きの矢印が物の
流れを示す。また、角の丸い矩形が処理を、右の空いた
矩形が格納された情報を示す。

【００２２】まず、学習データ２０１を用い、学習２０
２、すなわち問合せ文書の種類を識別するために必要な
情報を算出する処理を実行し、単語統計量辞書２０３お
よび重要単語辞書２０４を作成する。重要単語辞書２０
４は、文書の種類を識別する上で重要な特徴となる単語
の集合を格納する。単語統計量辞書２０３は、重要単語
の出現頻度に応じて文書の種類を識別するのに必要な統
計量を格納する。本処理は学習用計算機１０１にて実現
する。

【００２３】問合せの電子メールを受信した際には、電
子メール分類２０５にて単語統計量辞書２０３と重要単
語辞書２０４を参照して問合せ文書種類を識別する。得
られた問合せ文書種類は、電子メール自体と処理の過程
で得られた重要単語の位置の情報とに対応付けて、回答
作業用データとして出力する。本処理は電子メール分類
用計算機１０６にて実現する。

【００２４】書状での問合せがあった場合には、書状分
類２０６にて単語統計量辞書２０３と重要単語辞書２０
４を参照して問合せ文書種類を識別する。得られた問合
せ文書種類は、文書画像と処理の過程で得られた重要単
語の出現場所とに対応付けて、回答作業用データとして
出力する。一方、保存などの便のため、得られた問合せ
文書種類に応じて書状自体も仕分ける。本処理は書状分
類用計算機１０８およびソータ付きスキャナ１１０にて
実現する。

【００２５】回答用データを用い、回答２０８にて回答
文を作成し、回答の書状印刷、あるいは回答の電子メー
ルの送信を行う。併せて単語統計量辞書２０３の更新の
ため、重要単語の出現頻度と回答する際に確定した文書
種類の情報を、辞書更新２１０に出力する。入力が電子
メールであった場合には、文書種類と電子メールの内容
のテキストデータを学習データに追加する。このように
追加された学習データを用いて再度学習を実行すること
により、単語統計量辞書２０３と重要単語辞書２０４と
が運用の実態に適応できるようになる。本処理は、自動
回答用計算機１１６、自動封かんプリンタ１１８、回答
作業装置１２１、１２５、１２６で実現する。

【００２６】辞書更新２１０は、運用中に得られた問合
せ文書中での重要単語の出現頻度と文書種に基づき、分
類用辞書を更新する処理である。こうした識別のための
統計量の更新は、標準的なパタン認識の手法で実現でき
る。本処理は、学習用計算機１０１で実現する。

【００２７】電話での問合せがあった場合には、音声問
合せ分類２０７にて問合せ内容の種類を識別し、内容に
応じた専門家である作業者により回答通話２０８を行
う。本処理は、音声問合せ分類計算機１１４および回答
通話用電話器１１２で実現する。

【００２８】次に、学習２０２の処理の流れを図３のデ
ータフロー図で示す。まず、重要単語抽出３０１にて学
習データ２０１中から文書種類を識別する上で重要な単
語を抽出し、重要単語辞書２０４に格納する。この処理
は、自然言語処理における形態素解析の技術、およびパ
タン認識における特徴選択の技術を用いて実現する。次
に、単語統計量算出３０２で文書種類を識別する上で必
要な統計量を計算を行い、単語統計量辞書２０３に格納
する。ここでの識別の手法には、パタン認識での標準的
な手法、例えば二次識別関数ニューラルネットワークな
どを用いる。二次識別関数を用いた場合には、単語統計
量とは各単語の出現頻度およびそれらの共分散係数を意
味する。ニューラルネットワークを用いた場合には、単
語統計量はネットワークの接続の重みとなる。

【００２９】次に、電子メール分類２０５の処理の流れ
を図４のデータフロー図で示す。まず、単語抽出４０１
にて、重要単語辞書２０４を参照し、電子メール中での
各重要単語の出現頻度を算出する。重要単語を検出する
には、形態素解析などの一般的な言語処理の技術を用い
る。次に、文書種類識別４０２にて単語統計量辞書２０
３中の単語統計量を利用し、文書種類を識別する。識別
には、二次識別関数やニューラルネットワークなど標準
的なパタン認識の手法を用いる。最後に、回答作業用デ
ータ作成４０３にて重要単語の出現位置と文書種類の識
別結果と電子メールとの対応を取るデータ、すなわち回
答作業用データを作成し、出力する。通常、文書種類に
は異なる確信度の複数の候補が挙がる。回答作業用デー
タにはこれら全てを格納する。

【００３０】次に、書状分類２０６の処理の流れを図５
のデータフロー図に示す。まず、画像入力５０１にて、
書状に文章が書かれている面を画像として入力する。次
に、ワードスポティング認識５０２にて、重要単語辞書
２０４を参照し、重要単語を画像中から認識し、各重要
単語の出現頻度を出力する。次に、文書種類識別５０３
にて、単語統計量辞書２０３に格納された単語統計量を
参照し、重要単語の出現頻度に基づいて文書種種類を識
別する。次に、回答作業用データ作成５０５にて、画像
と重要単語の出現位置と文書種類の識別結果を対応付け
て出力する。書状自体は、文書種類識別結果に基づき、
仕分けられる。

【００３１】次に、回答２０８の処理の流れを図６のデ
ータフロー図にて説明する。まず、送信先決定６０１に
て、回答作業用データに付与されている文書種に応じ、
回答作業用データを回答作業１〜３（６０２、６０３、
６０４）または自動回答６０５に転送する。本処理は、
自動回答用計算機１１６にて実現する。回答作業１〜３
（６０２、６０３、６０４）では、各文書種類の専門家
である作業者が問合せ内容を検討し、回答文を作成す
る。これらは回答作業装置１〜３（１２１、１２５、１
２６）を用いた作業者の作業によって実現する。自動回
答６０５では、文書種に応じた回答例文を回答例文集６
０６から検索し、出力する。本処理は、自動回答用計算
機１１６にて実現する。回答作業１〜３（６０２、６０
３、６０４）または自動回答６０５で得られた回答例文
を回答電子メール発信６０７にて電子メールで発信す
る。本処理は、自動回答用計算機１１６にて実現する。
また、回答文印刷６０８は回答文を紙に印刷し回答書状
を作成する。本処理は、自動封かんプリンタ１１８で実
現する。

【００３２】実際には、計算機による文書種の識別は必
ずしも正しいと限らない。また、識別処理において、識
別不能と拒絶されることもある。そこで、本システムで
は以下のような方法で文書種の識別の誤りや拒絶に対応
する。回答作業１または２または３（６０２、６０３、
６０４）において、割振られた問合せ文書が自分の担当
分野のものでなかった場合には、作業者は後述する操作
画面上で転送の操作を行う。上述のように、文書識別結
果として通常は異なる確信度の複数の候補が得られてい
る。これを利用し、転送の操作が行われた場合には、自
動的に２位以下の文書種候補に対応する転送先に当該の
回答作業用データを転送する。転送先は、作業者自身が
指定してもよい。また、識別で拒絶された場合にも、電
子メールのテキスト中または書状の画像中で検出された
重要単語をハイライトし、回答作業を支援する。

【００３３】図７は回答作業装置１〜３（１２１、１２
５、１２６）において画像表示装置に表示する画面の一
例を示す。画面７０１中の問合せ文書ウィンドウ７０８
には問合せ文書を表示する。電子メールによる問合せの
場合にはテキストを、書状での問合せの場合には書状の
画像を表示する。また、回答作業用データ中の重要単語
出現位置を利用し、同ウインドウ中で、重要単語をハイ
ライトし、回答作業を容易にならしめる。作業者は、回
答文編集ウインドウ７０９で回答文を編集する。これに
は、通常のワードプロセッサなどを用いる。もし、問合
せ文書ウインドウ７０８に表示されているのが自分の担
当でない文書である場合には、作業者は自動転送のボタ
ン７０３を入力装置として備えられているマウスでクリ
ックする。これに応じ、識別結果の２位以下の候補に対
応する回答作業装置または自動回答用計算機へ回答作業
用データが転送される。ウインドウ７０２には、２位以
下の候補も含めた文書種識別結果の候補が表示されてい
る。操作者が行き先を指定して回答作業用データを転送
する際には、ウインドウ７０２に設けられたラジオボタ
ンで文書種を指定した上で、転送ボタン７０４をクリッ
クする。文書種に応じた過去の例文を検索したい場合に
は、例文検索ボタン７０５をクリックする。すると、Ｌ
ＡＮを介して回答例文用ファイルシステム１１７から該
当する回答例文が転送され、回答文編集ウインドウ７０
９に表示される。送信ボタン７０６をクリックすると、
編集した回答文が電子メールで問合せを発した人へ返信
される。また、印刷ボタン７０７をクリックすると、編
集した回答文が自動封かんプリンタ１１８より印刷され
る。

【００３４】図８に、学習２０２の処理手順を示す。重
要単語抽出にて、まず各学習用テキストデータTi(1≦i
≦N、 N:データ数)から形態素解析で単語を抽出し、出
現頻度をベクトルui=(ui1、ui2、...uiM) (1≦i≦N、.u
ij:Ti中の単語jの出現回数、 M:総単語数)の形で記憶す
る。ベクトルuiと各テキストデータTiの種類ci（人手で
付与）の対の集合{(ui、ci)}から、Branch and Boundア
ルゴリズムの特徴選択などの既知の手法を用い、分類上
重要な単語M'個(M'<<M)を選択する。必要であれば、人
手で重要単語を選択してもよい。次に単語統計量算出に
て各重要単語の出現頻度を算出しベクトルvi=(vi1、vi
2、...viM')で記憶する。さらに文書種の識別に必要な
統計量を算出する。例えば、識別方式が二次識別関数の
場合には、各変数vi1、vi2、...viM'の平均、相関係数
などの統計量を算出する。

【００３５】図９に、書状分類２０６の処理手順を示
す。本処理は画像入力、ワードスポッティング認識、文
書種類識別、仕分け、回答作業用データ作成の各ステッ
プからなる。

【００３６】通常の文字認識では，画像中の全ての文字
を認識する。これに対し，ワードスポッティング認識で
は、実行に先立って外部から読取り対象の単語を指定す
る。認識の過程では，指定された単語で出現しうる文字
のみに認識対象の文字種を限定し，指定された単語とし
て尤もらしい文字列を検出する。本実施例では，特開平
１１−８５９０９にあるような方式を用い重要単語を画
像中から認識し、出現頻度を算出する。本処理は、文字
切出し仮説を生成するステップと、重要単語を探索的に
認識するステップと、重要単語の出現頻度を計算するス
テップから成る。重要単語の出現頻度はベクトルw=(w
1、 w2、 ...wM')で表現する。このような、与えられた
単語の集合を探索的に認識する手法を用いることによ
り、大幅に認識の精度と速度を向上できる。なお、認識
と精度はこのような方式に劣るが、従来のように画像中
から全ての文字を認識し、従来の単語照合の技術を用い
てベクトルwを求めてもよい。

【００３７】文書種類識別においては、二次識別関数や
ニューラルネットワークなど一般的なパタン認識の手法
を用い、ベクトルwと単語統計量から、各文書種として
の確信度を算出し、文書種を確信度に応じて順序付け
る。さらに、一般的な手法にならい、１位と２位の文書
種候補の確信度の差が一定値より小さい時、および１位
の文書種候補の確信度が一定値より小さい時に、識別拒
絶と判定する。

【００３８】仕分けにおいては、文書種類の識別結果に
応じてソータ付きスキャナ１１０を制御し、書状を所定
のスタッカに仕分ける。

【００３９】回答用データ作成においては、重要単語の
出現位置と文書種類の識別結果と画像の対応を取るデー
タ、すなわち回答作業用データを作成し、出力する。

【００４０】図１０に、ワードスポッティング認識の出
力である単語出現頻度のデータ形式を示す。これはM'個
のレコードからなる配列である。各レコードには、M'個
目の重要単語の出現頻度を格納する。格納する出現頻度
は、整数値でも、認識の確からしさに応じた実数値でも
よい。

【００４１】図１１に、回答作業用データのデータ形式
を示す。変数kindOfMessage１１０１には、問合せが電
子メールなどのテキストで表されるものであるか、書状
やファックスの用に画像で表されるものであるかの区別
を示すフラグを格納する。変数sizeOfMsg１１０２に
は、回答作業用データに格納する文書のデータのサイズ
を示す。これに続くsizeOfMsgバイトの領域１１０３に
は、問合せ文書の実体を格納する。電子メールなどの場
合はテキストデータ、書状やファックスの場合には画像
データを格納する。変数numberOfCandidate１１０４に
は、文書種類の識別の結果得られた、文書種類候補の数
を格納する。これに続く領域１１０５には、文書種類候
補をnumberOfCandidateレコード分格納する。各レコー
ドは、文書種類を表す整数の識別子と、その確信度の値
の対から成る。変数numberOfWords１１０６には、検出
された重要単語の数を格納する。それに続く領域１１０
７には、重要単語の検出結果をnumberOfWordsレコード
格納する。各レコードは、重要単語の識別子wordIDと検
出された位置を表すレコードlocationの対から成る。検
出位置としては、テキストデータの場合には、テキスト
データ中での重要単語の先頭の文字が出現するバイト数
を格納する。画像データの場合には、重要単語が認識さ
れた領域の上端、下端、左端、右端の座標を格納する。

【００４２】以下では、ワードスポッティング認識の概
要を述べる。図１２に問合せの書状の例を模式的に示
す。通常、問合せの書状には特に定められた書式はな
い。このため文字行の位置や文字の大きさを予め知るこ
とはできない。また、縦書きか、横書きかも分からない
場合が多い。さらに、この例の様に文字行の間隔が小さ
い上に、２行目の「え」の上の点のように、上の行に属
するのか下の行に属するのか、判定が困難な成分がある
ことがある。

【００４３】こうした問題を解決するために、本発明の
ワードスポッティング認識では、特開平11-85909にある
ような方式を採用する。これは、入力画像から文字パタ
ンの候補を抽出し、それらの接続関係を切出し仮説ネッ
トワークで表現したのち、予め指定された単語を切出し
仮説ネットワーク中で探索的に認識するものである。こ
れは、単語の情報を予測的に利用することにより、高精
度かつ高速な単語の認識を可能とする方式である。文字
パタンの候補を抽出する手法としては、例えば文字行中
の連結成分の任意個数の組合せのうちで、それらを合成
して得られる図形の高さと幅が予め指定した上限値と下
限値の間に収まっているものを選択する手法を用いる。
探索の方式としては、一般的な幅優先探索を用い、探索
木の展開の判定は文字認識の結果に基づいて行う。

【００４４】特開平11-85909では、文字行内での文字切
出しの困難さを解決するために切出し仮説ネットワーク
を導入している。図１２の例では、文字切出しに先立つ
文字行の抽出自体も困難となっている。そこで、本発明
のワードスポッティング認識では、画像全体から文字パ
タンの候補を抽出すると共に、縦横いずれの方向にも文
字パタンの候補が接続可能か否か、すなわち単語として
続けて読めるように文字がつながっているかどうか、を
切出し仮説ネットワークで表すようにした。図１３にこ
うして得られた切出し仮説ネットワークの例を示す。図
中の楕円は、文字パタンの候補を示す。例えば、１３０
１は二つの連結成分を合せて一つの文字パタンの候補が
生成されていることを示す。この場合、文字パタンの候
補１３０１は「ら」に対応している。また、候補パタン
１３０２は、「ら」の上の点に対応している。辺１３０
３は、候補パタン１３０２と候補パタン１３０４が接続
可能、すなわち単語の中で文字として続いている可能性
があることを示している。なお、ここでは、辺１３０３
のように内部から辺が外に向かって出ている場合には、
候補パタン１３０１も候補パタン１３０４と接続可能で
あるものとする。接続可能であるかどうかは、候補パタ
ン間の距離で判定する。距離が予め定められた閾値以下
の場合には接続可能とする。

【００４５】こうして得られた切出し仮説ネットワーク
を入力とし、文字認識を利用して重要単語を探索するこ
とで、重要単語の出現場所を検出することができる。例
えば、「ちらし」と「価格」が重要単語であった場合、
図１４の１４０１と１４０２に示すように、重要単語の
位置を検出することができる。

【００４６】

【発明の効果】文書の分類に必要最小限の単語からなる
単語辞書を文字認識に用いることにより、書状類の自動
分類を高速、高精度に行うことが可能となる。

【００４７】電子メール分類における重要単語辞書と共
通化することにより、文字認識装置の単語辞書の作成が
容易になる。また、運用中に電子メールで得られた事例
に基づいて単語辞書を自動的に更新できる。

【００４８】文字認識処理の出力が単語の出現頻度とな
ることで、単語出現頻度に基づく文書種識別処理とのシ
ステム中での親和性が高くなる。これにより、多くの既
存の文書種識別手段を流用できる、システム中で文字認
識に基づく文書種識別とテキストに基づく文書種識別の
共存が容易になるなどの効果が得られる。

【００４９】分類不能の場合にも、画像上で重要単語を
回答作業者に指示することで、回答作業者の作業を支援
することが可能となる。また、分類に誤りがあった場合
にも回答作業を効率良く継続できる環境を提供できる。

【図面の簡単な説明】

【図１】実施例のハードウエア構成。

【図２】実施例の処理の流れを示すデータフロー図。

【図３】学習処理の流れを示すデータフロー図。

【図４】電子メール分類処理の流れを示すデータフロー
図。

【図５】書状分類処理の流れを示すデータフロー図。

【図６】回答処理の流れを示すデータフロー図。

【図７】回答作業用の表示画面。

【図８】学習の処理手順を示すアクションダイアグラ
ム。

【図９】書状分類の処理手順を示すアクションダイアグ
ラム。

【図１０】単語出現頻度のデータ形式。

【図１１】回答作業用データのデータ形式。

【図１２】入力画像の例。

【図１３】切出し仮説ネットワーク。

【図１４】検出された重要単語。

【符号の説明】

１０１・・・学習用計算機、１０２・・・学習データファイル
システム、１０３・・・辞書ファイルシステム、１０４・・・
インターネット、１０５・・・ゲートウエイ、１０６・・・電
子メール分類用計算機、１０７・・・辞書ファイルシステ
ム、１０８・・・書状分類用計算機、１０９・・・辞書ファイ
ルシステム、１１０・・・ソータ付きスキャナ、１１１・・・
電話回線、１１２・・・加藤通話用電話機、１１３・・・回線
制御装置、１１４・・・音声問合せ分類用計算機、１１５・
・・辞書ファイルシステム、１１６・・・自動回答用計算
機、１１７・・・回答例文ファイルシステム、１１８・・・自
動封かんプリンタ、１２１、１２５、１２６・・・回答作
業装置、１２２・・・計算機、１２３・・・入力装置、１２４
・・・画像表示装置、２０１・・・学習データ、２０２・・・学
習、２０３・・・単語統計量辞書、２０４・・・重要単語辞
書、２０５・・・電子メール分類、２０６・・・書状分類、２
０７・・・音声問合せ分類、２０８・・・回答、２０９・・・回
答通話、２１０・・・辞書更新。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｋ 9/03 Ｇ０６Ｋ 9/03 Ｊ (72)発明者田中雅子東京都江東区新砂一丁目６番27号株式会社日立製作所公共システム事業部内Ｆターム(参考） 5B064 AA01 EA19 EA32 FA05 FA13 5B075 ND06 ND20 NK06 NK32 UU06 UU24 5E501 AA30 AC19 BA09 FA14 FA46 FB44

Claims

【特許請求の範囲】

【請求項１】文書の画像データを入力するための入力装
置と、上記文書の種類の識別に用いる重要単語とその出
現頻度に関する情報を蓄積する記憶装置と、上記画像デ
ータを処理する処理装置とを備え、上記処理装置は、上
記入力装置から入力された画像データ中の上記重要単語
のワードスポッティング技術を用いて認識し、その出現
回数をカウントし、上記記憶装置に蓄積される情報と上
記カウント値に基づいて上記文書の種類を識別し、上記
文書種識別結果を上記画像データと対応づけて出力する
ことを特徴とする文書分類システム。
【請求項２】上記システムはさらに表示装置を有し、前
記表示装置は前記入力装置から入力された画像データと
前記文書種識別結果を対応づけて表示することを特徴と
する請求項１に記載の文書分類システム。
【請求項３】上記システムは上記文書への回答例文を上
記種類と対応づけて記録手段に記録しており、上記表示
手段は上記画像データと該画像データの識別結果に対応
づけられる上記回答例文を表示することを特徴とする請
求項２に記載の文書分類システム。
【請求項４】上記処理装置は、上記カウントされた重要
単語の上記画像データ内の位置情報も出力し、上記位置
情報に基づいて上記表示装置に上記画像データ中の該重
要単語を強調して表示することを特徴とする請求項２乃
至３に記載の文書分類システム。
【請求項５】上記システムはさらにソータを有し、上記
ソータは上記文書を識別された種類ごとに仕分けして排
出することを特徴とする請求項１乃至４の何れかにに記
載の文書分類システム。
【請求項６】上記文書分類システムは通信網に接続さ
れ、上記処理装置は、該通信網を介して受信した電子メ
ールについても上記種類の識別を行うことを特徴とする
請求項１乃至５の何れかに記載の文書分類システム。
【請求項７】上記処理装置は上記識別結果と上記重要単
語の出現回数用いて上記記憶装置に蓄積される情報を更
新することを特徴とする請求項１乃至６の何れかに記載
の文書分類システム。
【請求項８】文書種識別装置とネットワークを介して接
続される複数の文書処理装置を有する文書分類システム
であって、上記文書種識別装置は文書の画像データ若し
くはテキストデータを取得する手段と、上記文書の種類
と該種類識別に用いる重要単語に関する情報とを対応づ
けて記録する記録手段と、上記画像データ若しくはテキ
ストデータを処理する処理装置とを有し、上記処理装置
は、上記情報に基づいて上記文書の識別を行い、該識別
結果を上記種類毎の確信度とともに出力し、該確信度に
従って出力する上記文書処理装置を決定することを特徴
とする文書分類システム。
【請求項９】上記処理装置は、該識別が間違っていると
の入力を受けた場合に、上記確信度に従って、他の上記
文書処理装置へ上記文書を転送することを特徴とする請
求項８記載の文書分類システム。
【請求項１０】画像データ入力手段に接続され、データ
記憶手段と制御手段を有するコンピュータに文書種識別
方法を実行させるプログラムであって、該文書種識別方
法は、上記画像データ入力手段により文書データを取得
するステップと、上記画像データ中から予め前記記憶手
段に格納される重要単語をワードスポッティング技術を
用いて認識し、該重要単語ごとの出現回数をカウントす
るステップと、上記カウント値に基づいて文書種を識別
するステップと、上記文書データと上記文書種識別結果
を対応づけて出力するステップを有することを特徴とす
るプログラム。