JP2005339040A

JP2005339040A - 文書処理装置および文書処理方法

Info

Publication number: JP2005339040A
Application number: JP2004154971A
Authority: JP
Inventors: Kiyoshi Tashiro; 潔田代; Masatoshi Tagawa; 昌俊田川; Hiroshi Masuichi; 博増市; Atsushi Ito; 篤伊藤; Kyosuke Ishikawa; 恭輔石川; Tsuguaki Ryu; 紹明劉; Michihiro Tamune; 道弘田宗; Naoko Sato; 直子佐藤
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2004-05-25
Filing date: 2004-05-25
Publication date: 2005-12-08
Anticipated expiration: 2024-05-25
Also published as: JP4645065B2

Abstract

【課題】自然言語解析やＯＣＲなどの、結果の確度に揺らぎが生じる文書処理の対象となる文書の特性に特化した、当該処理の精度を上げるために用いられるデータを、手間をかけずに、効率よく収集する。
【解決手段】文書を光学的に読み取って印刷する文書処理装置１が、読み取った文書から略語と当該略語を補足する元の語句との組を抽出し、抽出した組を、文書処理装置１の不揮発性メモリ１５のテーブルに格納する。格納先のテーブルとしては、文書処理装置１が文書を読み取ったときの文書処理装置１の使用者が属するグループに対応したテーブルが選択される。
【選択図】図１

Description

本発明は、文書を処理する際の処理精度を向上させる技術に関する。

ある自然言語の文書を別の自然言語に機械的に翻訳する機械翻訳が普及している。機械翻訳の分野では、文書中の略語を適切に取り扱うことによって好適な翻訳結果を得ようとする技術が提案されている。

特許文献１には、文書中の略語を用いて固有名詞を適切に取り扱う技術が開示されている。この技術では、文書中で略語の直前に現れる単語群が固有名詞として辞書に登録されているか否かが調べられ、登録されていれば固有名詞として翻訳され、登録されていなければそのまま用いられる。例えば、「Organization of Petroleum Exporting Countries (OPEC)」は、「石油輸出国機構（OPEC）」または「Organization of Petroleum Exporting Countries（OPEC）」となり、「諸国を輸出する石油の組織（OPEC）」にはならない。

特許文献２には、略語の翻訳方法を使用者が文書毎に指定することができる技術が開示されている。この技術では、略語と元の語句とが予め対応付けて記憶されており、文書の翻訳時には、その文書について予め指定された翻訳方法（略語をそのまま用いる方法／略語を元の語句に変換してから翻訳する方法）が採られる。

ところで、機械翻訳などの自然言語解析を必須とする文書処理において、文書中の略語から元の語句を特定したい場合がある。例えば、文書中の略語を元の語句に変換する文書処理を行う場合である。この場合には、特許文献２に開示の技術を用いることが考えられる。
しかし、この技術を用いても正しく変換することが困難なケースがある。例えば、ある語句（例えば「現金自動預入引出機」）の略語と他の語句（例えば「非同期伝送モード」）の略語とが一致していると、このような略語（例えば「ＡＴＭ」）から元の語句を正しく特定するのが困難になる。
また、この技術を用いても使用者に負担がかかるケースがある。例えば、会社や部門などの特定の範囲内でのみ用いられる略語は標準的な辞書に登録されていないから、このような略語から元の語句を特定することができるようにするには、使用者が、略語と元の語句とを対応付けて装置に記憶させる作業を予め行わねばならない。つまり、特定の範囲に十分に特化された辞書を得るためには、その範囲内で機械翻訳の対象となる文書の特性に特化した情報（以降、「解析用範囲特化データ」という）を予め大量に収集しておかねばならない。しかし、この収集を効率よく行う技術は提案されていない。

一方、文書を光学的に読み取って得られた画像データから文字を認識する技術であるＯＣＲ（Optical Character Recognition）が普及している。ＯＣＲの分野では、文字の認識精度を向上させるために、様々な技術が提案されている。

特許文献３には、使用者の修正操作に基づいて認識用辞書を更新することにより認識精度を上げる技術が開示されている。この技術によれば、認識されなかった文字や誤認識された文字が使用者の修正操作によって修正されると、修正後の文字について特徴量辞書に登録されている文字形状の特徴量が、修正された文字の認識処理の際に得られた文字形状の特徴量を反映したものに更新される。

特許文献４には、文法解析を行って認識用辞書を更新することにより認識精度を上げる技術が開示されている。この技術によれば、認識結果に対して文法解析が行われ、文法的に正しい文字に修正されるべき文字が特定され、文法的に正しい文字を文法解析なしで認識することができるように認識用辞書が更新される。

特許文献５には、文法解析を行って認識結果を補正する際に単語の出現頻度を用いて正しく補正することにより認識精度を上げる技術が開示されている。この技術によれば、認識結果に対する文法解析において、認識結果中の文字列に対して複数の単語が候補となった場合に、各単語が認識結果中に出現する頻度に基づいて１つの単語が選択される。

特許文献６には、使用者の訂正操作に基づいて修正情報を得て蓄積し、蓄積した修正情報を用いて認識精度を上げる技術が開示されている。また、この文献には、訂正情報を個人のＩＣカードに格納し、ＯＣＲを行う装置を、この装置に接続されているＩＣカードの使用者の専門装置とすることが記載されている。

特許文献７には、文法解析を行って認識結果を補正する際に基本単語辞書に登録されていない未知語を、その信頼度（例えば文章中の出現回数）ともに画面に表示し、ユーザ辞書への登録の参考とする技術が開示されている。また、この文献には、未知語の信頼度が閾値以上であれば自動的にユーザ辞書に登録することが記載されている。

ところで、印刷された文書からのＯＣＲでは、印刷に用いられるフォントに特化した特徴量辞書を文字認識に用いることにより認識精度を上げることができる。例えば、会社や部門などの特定の範囲内で印刷に用いられるフォントは限られているから、印刷に用いられるフォントに十分に特化された特徴量辞書を用意することが可能であり、このような特徴量辞書を用いれば、特定の範囲内の文書に対する認識精度が上がる。

また、手書きの文書からのＯＣＲでは、文書の筆記者に特化した特徴量辞書を用いることにより認識精度を上げることができる。例えば、上記特定の範囲内で手書きで文書を作成する人は限られているから、文書の筆記者に十分に特化された特徴量辞書を用意することが可能であり、このような特徴量辞書を用いれば、特定の範囲内の文書に対する認識精度が上がる。

また、特許文献４、特許文献５および特許文献７の技術のように文法解析を併用する場合には、上記特定の範囲に特化した文法解析を行うことにより認識精度を上げることができる。例えば、上記特定の範囲内で使われる一般的でない単語を文法解析用の辞書に登録しておけば、文法解析の精度を下げる一因である未知語（未登録語）の数を減らすことができるから、認識精度が上がる。また、例えば、上記特定の範囲内での各単語の使用頻度を文法解析用の辞書に登録しておき、使用頻度に基づいた文法解析によって認識精度を上げることも考えられる。

このように、ＯＣＲの対象となる文書の特性に特化した認識処理を行うことによって認識精度を上げることができる。しかし、いずれの場合でも、ＯＣＲの対象となる文書の特性に特化した情報を、認識に用いる辞書へ事前に登録しておく必要がある。また、特定の範囲に十分に特化された辞書とするためには、その範囲内でＯＣＲの対象となる文書の特性に特化した情報（以降、「ＯＣＲ用範囲特化データ」という）を予め大量に収集しておかねばならない。この収集を効率よく行う技術は提案されていない。

例えば、特許文献３および特許文献６の技術では使用者の修正／訂正操作が必要となるから手間がかかる。これに対して、特許文献４、特許文献５および特許文献７の技術では、このような操作は不要である。しかし、特許文献４の技術における辞書の更新、すなわち学習は、実際にＯＣＲの対象となった文書のみに基づいて行われるから、効率が良いとは言えない。また、特許文献５の技術において用いられるのは、今まさに認識中の文書における単語の出現頻度であり、特定の範囲に特化された出現頻度ではない。また、特許文献７は上記特定の範囲を意識しておらず、この文献に開示の技術ではＯＣＲ用範囲特化データを収集することはできない。

特開平３−３５３５４号公報特開平５−２８２３５８号公報特開平２−１８６４８４号公報特開平６−２６６９０６号公報特開平９−４４６０６号公報特開平９−９１３８５号公報特開２００３−２５６４１５号公報

本発明は上述した事情に鑑みてなされたものであり、自然言語解析やＯＣＲなどの、結果の確度に揺らぎが生じる文書処理の対象となる文書の特性に特化した、当該処理の精度を上げるために用いられるデータを、手間をかけずに、効率よく収集することができる技術を提供することを目的としている。

本発明は、文書を光学的に読み取って印刷する入出力手段と、前記入出力手段により読み取られた文書を用いて、結果の確度に揺らぎが生じる文書処理の精度を向上させるために前記文書処理で用いられるデータを取得する取得手段と、使用者の識別子を記憶する識別子記憶手段と、前記入出力手段により文書が読み取られたときに前記識別子記憶手段に記憶されている識別子を用いて、前記取得手段により取得されたデータを、該識別子により特定されるグループ毎に記憶するデータ記憶手段とを有する文書処理装置を提供する。
また、本発明は、特定の範囲内の使用者に共用される文書処理装置が識別子を入力する入力過程と、前記文書処理装置が、文書を光学的に読み取って印刷する一方、読み取られた文書を用いて、結果の確度に揺らぎが生じる文書処理の精度を向上させるために前記文書処理で用いられるデータを取得する取得過程と、前記文書処理装置が、前記取得過程にて取得したデータを、前記入力過程にて入力した識別子により特定されるグループ毎に記憶する記憶過程とを有する文書処理方法を提供する。

本発明によれば、文書処理装置は、文書を光学的に読み取って印刷するときに、使用者に意識させることなく、当該文書を用いて、自然言語解析やＯＣＲなどの、結果の確度に揺らぎが生じる文書処理の精度を向上させるために当該文書処理で用いられるデータを取得し、使用者の属するグループ毎に記憶することができる。また、文書を光学的に読み取って印刷する装置は複数の使用者に共用されることが多いから、本発明によれば、多くのデータを効率的に収集することができる。
以上より、本発明によれば、上記文書処理の精度を向上させるための、自身が属するグループに特化したデータを、手間をかけずに、効率よく収集することができる。

以下、図面を参照して、本発明の実施形態について説明する。
なお、本発明を機械翻訳に適用した実施形態が第１実施形態であり、ＯＣＲに適用した実施形態が第２実施形態である。

［第１実施形態］
［構成］
図１は本発明の第１実施形態に係る文書処理装置１の構成を示す図である。
文書処理装置１は、ある会社の社員に共用されるように当該会社内に設置されており、社員に操作されて当該社員の指示を入力する操作部１１、文書処理装置１の原稿台（図示略）にセットされた文書を光学的に読み取って画像データとして入力するスキャナ１２、画像データを一時的に記憶するＲＡＭ１３、ＲＡＭ１３に記憶されている画像データの画像を用紙上に形成して当該用紙を文書として文書処理装置１外へ排出する印刷部１４、データを記憶する不揮発性メモリ１５、ＩＣカードが装着されると該ＩＣカードから識別子を読み出すＩＣカードリーダ１７、および各部を制御するＣＰＵ１６を有する。なお、ＩＣカードは全社員に渡されており、各社員に固有の識別子を記憶している。

不揮発性メモリ１５は、図示しない電源から電力が供給されなくともデータを保持することが可能であり、ＣＰＵ１６が各部を制御するときに用いる制御プログラムＰ１１、文書処理装置１に後述の複写登録処理を行わせるための複写登録プログラムＰ１２、上記の会社の第１の部署に対応するテーブルＴ１、上記の会社の第２の部署に対応するＴ２、文書処理装置１に後述の加工翻訳処理を行わせるための加工翻訳プログラムＰ１３、翻訳用の辞書Ｄ、および組織表Ｇ１を記憶している。また、不揮発性メモリ１５は、文書処理装置１を使用中の社員の識別子を記憶するための記憶領域である識別子領域Ｒ１を有する。

ＣＰＵ１６は、図示せぬ電源から電力が供給されると、不揮発性メモリ１５から制御プログラムＰ１１を読み出して実行する。これによって、ＣＰＵ１６は文書処理装置１の各部を制御可能となる。ただし、ＣＰＵ１６は、不揮発性メモリ１５の識別子領域Ｒ１に識別子が記憶されている場合にのみ、複写や翻訳の指示を受け付け可能な状態となる。ＣＰＵ１６が識別子領域Ｒ１に識別子を書き込むタイミングは、文書処理装置１の各部を制御可能となったときに装着されているＩＣカードからＩＣカードリーダ１７が識別子を読み出したとき、および文書処理装置１の各部を制御可能となった後に装着されたＩＣカードからＩＣカードリーダ１７が識別子を読み出したときである。また、ＣＰＵ１６が識別子領域Ｒ１の記憶内容をクリアするタイミングは、ＩＣカードリーダ１７からＩＣカードが取り外されたときである。

上記の状態のＣＰＵ１６は、操作部１１を用いて複写の指示が入力されると、不揮発性メモリ１５から複写登録プログラムＰ１２を読み出して実行する。これによって、文書処理装置１は複写登録処理を行う。複写登録処理では、ＣＰＵ１６は、まず、原稿台にセットされた文書をスキャナ１２により光学的に読み取って画像データとして入力し、ＲＡＭ１３に書き込む。次に、操作部１１を用いて特定の指示が入力されていなければ、ＲＡＭ１３に記憶されている画像データから略語とその元の語句との組を抽出する処理を試みて抽出された組をテーブルＴ１またはテーブルＴ２に格納する登録処理と、印刷部１４を用いて、当該画像データの画像を用紙上に形成して当該用紙を文書処理装置１外へ排出する処理とを並列に実行する。

図２はテーブルＴ１のデータ構造を模式的に示す図である。
テーブルＴ１は１つの略語に１つの元の語句（日本語）を対応付けた組を格納するものである。略語は組に固有であり、異なる組に同一の略語が含まれることはない。テーブルＴ１には複数の組が格納され得るが、初期状態では、テーブルＴ１に格納されている組は無い。以上述べたことはテーブルＴ２にもあてはまる。
組織表Ｇは、社員の識別子から当該社員が所属する部署（第１の部署／第２の部署）を識別するためのテーブルであり、社員の識別子と部署の識別子とを対応付けて格納している。

また、上記の状態のＣＰＵ１６は、操作部１１を用いて翻訳の指示が入力されると、不揮発性メモリ１５から加工翻訳プログラムＰ１３を読み出して実行する。これによって、文書処理装置１は加工翻訳処理を実行する。加工翻訳処理では、ＣＰＵ１６は、まず、原稿台にセットされた文書をスキャナ１２により光学的に読み取って画像データとして入力し、ＲＡＭ１３に書き込む。次に、上述の登録処理を行う。次に、ＲＡＭ１３に記憶されている画像データの文書中に元の語句で補足されていない略語が存在し、かつ当該略語が文書処理装置１の使用者に応じたテーブル（テーブルＴ１／テーブルＴ２）に格納されている場合にのみ、当該テーブルを用いて当該画像データを加工する、という加工処理を行う。次に、辞書Ｄを参照してＲＡＭ１３に記憶されている画像データの文書を英語に翻訳することにより当該画像データを加工する。次に、印刷部１４を用いて、加工後の画像データの画像を用紙上に形成して当該用紙を文書処理装置１外へ排出する。

［動作］
次に、上述した構成の文書処理装置１の動作について説明する。
まず、第１の部署に所属する第１の社員が自身のＩＣカードをＩＣカードリーダ１７に装着し、図３に示す日本語の文書を原稿台にセットし、操作部１１を用いて複写の指示を入力したものとする。
すると、ＣＰＵ１６は、原稿台にセットされた文書をスキャナ１２により光学的に読み取って画像データとして入力し、この画像データをＲＡＭ１３に書き込み、印刷部１４を用いて、当該画像データの画像を用紙上に形成して当該用紙を文書処理装置１外へ排出する。こうして文書が複写される。

この複写に並行して、ＣＰＵ１６は図４に示す登録処理を行う。
まず、操作部１１を用いて特定の指示が入力されているか否かを判定する（ステップＳＡ１）。ここでは、この判定結果は「ＮＯ」となる。次に、ＲＡＭ１３に記憶されている画像データからＯＣＲ（Optical Character Recognition）によってテキストデータを生成する（ステップＳＡ２）。次に、このテキストデータに対して形態素解析を行う（ステップＳＡ３）。次に、この形態素解析の結果と辞書Ｄの内容とに基づいて、このテキストデータから略語と当該略語を補足する元の語句との組の抽出を試みる（ステップＳＡ４）。図３の文書の場合、略語「ＡＴＭ」と元の語句「現金自動預入引出機」との組が抽出される。

組の抽出では、ＣＰＵ１６は、形態素解析の結果から辞書Ｄに登録されていない未知語を検出し、検出した未知語のうち、少なくとも２つの大文字のアルファベットから構成されているものを略語として検出する。そして、この略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れるか否かを調べ、現れる場合にのみ、その語句を当該略語を補足する元の語句とみなし、当該略語および当該元の語句を組としてテキストデータから抽出する。

組の抽出を試みたＣＰＵ１６は、次に、少なくとも１つの組が抽出されたか否かを判定する（ステップＳＡ５）。ここでは、「ＡＴＭ」と「現金自動預入引出機」との組が抽出されているから、この判定結果が「ＹＥＳ」となる。したがって、ＣＰＵ１６は、識別子領域Ｒ１から識別子を読み出し、この識別子と組織表Ｇ１とを用いて、抽出された組の格納先のテーブルを特定する（ステップＳＡ６）。この結果、第１の社員が所属している第１の部署に対応しているテーブルＴ１が特定される。次に、抽出した組を、特定されたテーブルＴ１に格納し（ステップＳＡ７）、登録処理を終える。この結果、テーブルＴ１の内容は図５に示す通りとなる。なお、格納しようとする組に含まれている略語と同一の略語を含む組がテーブルに格納されている場合には、ＣＰＵ１６は、格納しようとする組で格納されている組を上書きする。

なお、上記の第１の社員が複写の指示とともに特定の指示を入力した場合には、ステップＳＡ１の判定結果が「ＹＥＳ」となり、登録処理が終わる。つまり、社員は、複写しようとする文書に基づいてテーブルを更新したくないときには、特定の指示を入力することにより、テーブルの更新を回避することができる。ここでは、前述のように、特定の指示が入力されずにテーブルＴ１が更新されたものとして説明を進める。

次に、第２の部署に所属する第２の社員が自身のＩＣカードをＩＣカードリーダ１７に装着し、図６に示す日本語の文書を原稿台にセットし、操作部１１を用いて複写の指示を入力したものとする。
すると、上述と同様の処理が繰り返される。ただし、図６の文書には略語「ＯＤＡ」は存在するものの、この略語を補足する元の語句は存在しない。したがって、ステップＳＡ５の判定結果が「ＮＯ」となり、新たな組がテーブルに登録されることなく登録処理が終了する。なお、略語すら存在しない文書を複写する際にも、これと同様の動作となる。

次に、第１の部署に所属する第３の社員が自身のＩＣカードをＩＣカードリーダ１７に装着し、図７に示す日本語の文書を原稿台にセットし、操作部１１を用いて翻訳の指示を入力したものとする。
すると、ＣＰＵ１６は、原稿台にセットされた文書をスキャナ１２により光学的に読み取って画像データとして入力し、この画像データをＲＡＭ１３に書き込む。次に、図４の登録処理を行う。図７の文書には略語「ＯＤＡ」と当該略語を補足する元の語句「政府開発援助」とが存在するから、この登録処理では、これらの組がテーブルＴ１に格納される。この結果、テーブルＴ１の内容は図８に示す通りとなる。

次に、ＣＰＵ１６は図９に示す加工処理を行う。
まず、ＲＡＭ１３に記憶されている画像データからＯＣＲによってテキストデータを生成する（ステップＳＢ１）。次に、このテキストデータに対して形態素解析を行う（ステップＳＢ２）。次に、この形態素解析の結果と辞書Ｄの内容とに基づいて、このテキストデータから、元の語句で補足されていない略語の検出を試みる（ステップＳＢ３）。図７の文書の場合、「ＡＴＭ」および「ＣＤ」が検出される。

略語の検出では、ＣＰＵ１６は、形態素解析の結果から辞書Ｄに登録されていない未知語を検出し、検出した未知語のうち、少なくとも２つの大文字のアルファベットから構成されているものを略語として検出する。そして、この略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れるか否かを調べ、現れない場合にのみ、当該略語を、元の語句で補足されていない略語として検出する。

元の語句で補足されていない略語の検出を試みたＣＰＵ１６は、次に、少なくとも１つの略語が検出されたか否かを判定する（ステップＳＢ４）。ここでは、「ＡＴＭ」および「ＣＤ」が検出されているから、この判定結果が「ＹＥＳ」となる。したがって、ＣＰＵ１６は、識別子領域Ｒ１から識別子を読み出し、この識別子と組織表Ｇ１とを用いて、抽出された組の格納先のテーブルを特定する（ステップＳＢ５）。この結果、第３の社員が所属している第１の部署に対応しているテーブルＴ１が特定される。次に、検出した略語の各々について、略語を含む組が、特定されたテーブルＴ１に格納されているか否かを調べ、格納されている場合にのみ、当該組に含まれている元の語句を括弧で囲んだ文字列を当該テキストデータにおける当該略語の直後に挿入する、という処理を行う（ステップＳＢ６〜ＳＢ１０）。

次に、ＣＰＵ１６は、この処理の結果として得られたテキストデータから画像データを生成し、ＲＡＭ１３に上書きし（ステップＳＢ１１）、加工処理を終了する。この結果、ＲＡＭ１３に記憶されている画像データは、図１０に示す文書の画像データとなる。

次に、ＣＰＵ１６は、辞書Ｄを参照してＲＡＭ１３に記憶されている画像データの文書を英語に翻訳することにより当該画像データを加工する。この翻訳時には、ＯＣＲや形態素解析などの技術や辞書Ｄが用いられる。次に、印刷部１４を用いて、加工後の画像データの画像を用紙上に形成して当該用紙を文書処理装置１外へ排出する。こうして、文書処理装置１から英語に翻訳された文書が出力される。

次に、第２の部署に所属する第４の社員が自身のＩＣカードをＩＣカードリーダ１７に装着し、図１１に示す日本語の文書を原稿台にセットし、操作部１１を用いて翻訳の指示を入力したものとする。すると、上述と同様の処理が繰り返される。ただし、第４の社員は第２の部署に所属しているから、ステップＳＢ５にてテーブルＴ２が特定される。このテーブルＴ２には組が格納されていないから、ＲＡＭ１３に上書きされる画像データは、スキャナ１２により読み取られた画像データそのものとなり、この画像データを用いて後続の処理が行われることになる。

［まとめ］
以上説明したように、文書処理装置１は、文書を複写するときに、使用者に意識させることなく、当該文書から略語と当該略語を補足する元の語句との組（解析用範囲特化データ）を抽出し、そのときに文書処理装置１を使用している社員の所属する部署に応じたテーブルに格納することができる。また、文書処理装置１は、ある会社の社員に共用されているから、上記の組の収集を効率よく行うことができる。

なお、上述した実施形態を以下に述べるように変形してもよい。
例えば、文書を翻訳するときに行われる収集を、特定の指示が入力されなかったときに限定して行うようにしてもよい。
また、文書処理装置１は、加工処理により加工された画像データの画像を用紙上に形成して当該用紙を排出する装置であってもよい。
また、文書処理装置１に通信機能を持たせ、テーブルＴ１やテーブルＴ２を他の装置へ送信することができるようにしてもよい。
また、ＩＣカードに部署の識別子を記録しておき、これを用いてテーブルを特定するようにしてもよい。

［第２実施形態］
［構成］
図１２は本発明の第２実施形態に係る文書処理装置２の構成を示す図である。
文書処理装置２は、ある会社の社員に共用されるように当該会社内に設置されており、社員に操作されて当該社員の指示を入力する操作部２１、文書処理装置２の原稿台（図示略）にセットされた文書を光学的に読み取って画像データとして入力するスキャナ２２、画像データを一時的に記憶するＲＡＭ２３、ＲＡＭ２３に記憶されている画像データの画像を用紙上に形成して当該用紙を文書として文書処理装置２外へ排出する印刷部２４、データを記憶する不揮発性メモリ２５、図示しない外部の装置との間で通信路（図示略）を介してデータを授受する通信部２６、ＩＣカードが装着されると該ＩＣカードから識別子を読み出すＩＣカードリーダ２８、および各部を制御するＣＰＵ２７を有する。なお、ＩＣカードは全社員に渡されており、各社員に固有の識別子を記憶している。

不揮発性メモリ２５は、図示しない電源から電力が供給されなくともデータを保持することが可能であり、ＣＰＵ２７が各部を制御するときに用いる制御プログラムＰ２１、文書処理装置２に後述の複写登録処理を行わせるための複写登録プログラムＰ２２、文書処理装置２に後述のＯＣＲ処理を行わせるためのＯＣＲ実行プログラムＰ２３、ＯＣＲに用いられる標準特徴量辞書Ｄ２１、および組織表Ｇ２を記憶している。標準特徴量辞書Ｄ２１には、一般的な文書に用いられる文字の各々について、文字と文字の形状の特徴量とが対応付けて登録されている。組織表Ｇは、社員の識別子から当該社員が所属する部署（第１の部署／第２の部署）を識別するためのテーブルであり、社員の識別子と部署の識別子とを対応付けて格納している。

また、不揮発性メモリ２５は、文書処理装置２を使用中の社員の識別子を記憶するための記憶領域である識別子領域Ｒ２を有する。また、不揮発性メモリ２５は、上記の会社の第１の部署に対応する固有特徴量辞書Ｄ２２１、および上記の会社の第２の部署に対応する固有特徴量辞書Ｄ２２２を記憶している。各固有特徴量辞書には、対応する部署内で複写される文書中に現れる文字と文字の形状の特徴量とが対応付けて登録される。なお、初期状態では、固有特徴量辞書Ｄ２２１および固有特徴量辞書Ｄ２２２には何も登録されていない。

ＣＰＵ２７は、図示せぬ電源から電力が供給されると、不揮発性メモリ２５から制御プログラムＰ２１を読み出して実行する。これによって、ＣＰＵ２７は文書処理装置２の各部を制御可能となる。ただし、ＣＰＵ２７は、不揮発性メモリ２５の識別子領域Ｒ２に識別子が記憶されている場合にのみ、複写やＯＣＲの指示を受け付け可能な状態となる。ＣＰＵ２７が識別子領域Ｒ２に識別子を書き込むタイミングは、文書処理装置２の各部を制御可能となったときに装着されているＩＣカードからＩＣカードリーダ２８が識別子を読み出したとき、および文書処理装置２の各部を制御可能となった後に装着されたＩＣカードからＩＣカードリーダ２８が識別子を読み出したときである。また、ＣＰＵ２７が識別子領域Ｒ２の記憶内容をクリアするタイミングは、ＩＣカードリーダ２８からＩＣカードが取り外されたときである。

上記の状態のＣＰＵ２７は、操作部２１を用いて複写の指示が入力されると、不揮発性メモリ２５から複写登録プログラムＰ２２を読み出して実行する。これによって、文書処理装置２は複写登録処理を行う。また、上記の状態のＣＰＵ２７は、操作部２１を用いてＯＣＲ処理の指示が入力されると、不揮発性メモリ２５からＯＣＲ実行プログラムＰ２３を読み出して実行する。これによって、文書処理装置２はＯＣＲ処理を行う。これらの処理の内容については、文書処理装置２の動作に沿って説明する。また、この状態のＣＰＵ２７は、通信部２６を介して所定の要求を受信すると、不揮発性メモリ２５の所定領域からＯＣＲ処理の結果を読み出し、当該要求の送信元へ送信する。

［動作］
次に、上述した構成の文書処理装置２の動作について説明する。
まず、第１の部署に所属する第１の社員が自身のＩＣカードをＩＣカードリーダ２８に装着し、図１３に示す日本語の文書を原稿台にセットするものとする。この文書の先頭部分（最初に読み取られる部分）の文字は、他の部分に現れる文字よりも大きい。

次に、この社員が操作部２１を用いて複写の指示を入力したものとする。すると、ＣＰＵ２７は複写登録処理を行う。
複写登録処理では、ＣＰＵ２７は、原稿台にセットされた文書をスキャナ２２により光学的に読み取って画像データとして入力し、この画像データをＲＡＭ２３に書き込み、印刷部２４を用いて、当該画像データの画像を用紙上に形成して当該用紙を文書処理装置２外へ排出する。こうして文書が複写される。

この複写に並行して、ＣＰＵ２７は図１４に示す登録処理を行う。
まず、操作部１１を用いて特定の指示が入力されているか否かを判定する（ステップＳＣ１）。ここでは、この判定結果は「ＮＯ」となる。次に、識別子領域Ｒ２から識別子を読み出し、この識別子と組織表Ｇ２とを用いて、抽出された組の格納先の固有特徴量辞書を特定する（ステップＳＣ２）。この結果、第１の社員が所属している第１の部署に対応している固有特徴量辞書Ｄ２２１が特定される。

次に、標準特徴量辞書Ｄ２１を用いて文字認識を行う（ステップＳＣ３）。具体的には、まず、ＲＡＭ２３に記憶されている画像データを文字単位で分割する。そして、分割された画像データの各々について、先頭から、画像データから文字形状の特徴量を算出する処理と、算出した特徴量と標準特徴量辞書Ｄ２１に登録されている特徴量とを比較して文字を推定する処理とを行う。この際、推定の確度（確からしさ）をも算出する。こうして、図１３に示す文書について、図１５に示す推定結果と図１６に抜粋して示す確度が得られる。図から明らかなように、大きい文字についての推定結果の確度は比較的に高くなっている。

次に、十分に高い確度の推定結果（文字）について、文字とその推定の際に算出された特徴量とを対応付けて、特定された固有特徴量辞書Ｄ２２１に登録する（ステップＳＣ４）。十分に高い確度であるか否かの判定は、推定結果（文字）の確度と予め定められた登録基準確度（文書処理装置２では９５％）とを比較し、この登録基準確度以上の確度で得られた推定結果であるか否かを判定することにより行われる。このことから明らかなように、例えば「本」については４回の登録が行われる。ただし、「本」についての２回目以降の登録において不揮発性メモリ２５に書き込まれるのは特徴量のみである。こうして、図１７に示すように、固有特徴量辞書Ｄ２２１には、「（」、「１」、「）」、「本」、「願」、「で」、「の」および「題」について、文字と特徴量とが対応付けて登録される。

なお、上記の第１の社員が複写の指示とともに特定の指示を入力した場合には、ステップＳＣ１の判定結果が「ＹＥＳ」となり、登録処理が終わる。つまり、社員は、複写しようとする文書に基づいて固有特徴量辞書を更新したくないときには、特定の指示を入力することにより、固有特徴量辞書の更新を回避することができる。ここでは、前述のように、特定の指示が入力されずに固有特徴量辞書Ｄ２２１が更新されたものとして説明を進める。

次に、第１の部署に所属する第２の社員が自身のＩＣカードをＩＣカードリーダ２８に装着し、図１８に示す日本語の文書を原稿台にセットするものとする。そして、この社員が操作部２１を用いてＯＣＲ処理の指示を入力したものとする。すると、ＣＰＵ２７は図１９に示すＯＣＲ処理を行う。

ＯＣＲ処理では、ＣＰＵ２７は、原稿台にセットされた文書をスキャナ２２により光学的に読み取って画像データとして入力し、この画像データをＲＡＭ２３に書き込む（ステップＳＤ１）。次に、識別子領域Ｒ２から識別子を読み出し、この識別子と組織表Ｇ２とを用いて、ＯＣＲ処理に用いる固有特徴量辞書を特定する（ステップＳＤ２）。この結果、第２の社員が所属している第１の部署に対応している固有特徴量辞書Ｄ２２１が特定される。

次に、ＲＡＭ２３に記憶されている画像データに対して、標準特徴量辞書Ｄ２１を用いて文字認識を行う（ステップＳＤ３）。この文字認識の内容は図１４のステップＳＣ３と同様である。こうして、図１８の文書について、図２０に示す推定結果と図２１に抜粋して示す確度が得られる。図から明らかなように、この段階では誤推定が発生している。具体的には、文書中の「１」に対する推定結果が「Ｉ」、１つ目および２つ目の「願」に対する推定結果が「題」となっている。

次に、推定結果の各文字について、推定の確度が十分に高ければ現在の推定結果（標準特徴量辞書Ｄ２１を用いた推定結果）を採用し、高くなければ、特定された固有特徴量辞書Ｄ２２１を用いて文字認識を行い、この文字認識による推定結果の確度が標準特徴量辞書Ｄ２１を用いた推定結果の確度よりも高い場合には固有特徴量辞書Ｄ２２１を用いた推定結果を採用し、高くない場合には標準特徴量辞書Ｄ２１を用いた推定結果を採用する、という処理を行う（ステップＳＤ４〜ＳＤ１０）。

推定の確度が十分に高いか否かの判定は、標準特徴量辞書Ｄ２１を用いた推定の確度と予め定められた確定基準確度（文書処理装置２では９０％）とを比較し、この確定基準確度以上の確度で得られた推定結果であるか否かを判定することにより行われる。例えば、図２１において推定の確度が十分に高いのは、３つの「本」のみである。固有特徴量辞書Ｄ２２１を用いた文字認識は、これら３つの文字を除いた文字について行われる。こうして得られた推定結果および確度を図２２に抜粋して示す。

図２２における「（」、「１」、「）」、１つ目の「願」、２つ目の「願」、３つ目の「願」は、それぞれ、図２１における「（」、「Ｉ」、「）」、１つ目の「題」、２つ目の「題」、「願」に対応している。そして、この対応関係の上で、図２２における確度が図２１における確度よりも高くなっているのは、図２２における「１」、１つ目の「願」および２つ目の「願」である。よって、採用された推定結果は図２３に示す通りとなる。図から明らかなように、この段階で、誤推定は存在しない。
次に、ＣＰＵ２７は、この推定結果を不揮発性メモリ２５の所定領域に書き込み（ステップＳＤ１１）、ＯＣＲ処理を終了する。

ＯＣＲ処理の後に、第２の社員は、文書処理装置２と通信可能なコンピュータを用いて文書処理装置２へ所定の要求を送信する。この要求は、通信部２６を介してＣＰＵ２７に受信される。すると、ＣＰＵ２７は、不揮発性メモリ２５の所定領域から最終的な推定結果を読み出し、当該要求の送信元である上記コンピュータへ送信する。こうして、ＯＣＲ処理の結果が第２の社員に渡される。

［まとめ］
以上説明したように、文書処理装置２は、文書を複写するときに、使用者に意識させることなく、当該文書から、十分に高い確度で推定された文字の形状の特徴量（ＯＣＲ用範囲特化データ）を算出し、そのときに文書処理装置２を使用している社員の所属する部署に応じた固有特徴量辞書に格納することができる。また、文書処理装置２は、ある会社の社員に共用されているから、上記の特徴量の収集を効率よく行うことができる。
また、文書処理装置２は、文字が十分に高い確度で推定された場合にのみ、上記のデータを蓄積する。したがって、誤ったデータを蓄積して認識精度を低下させてしまう事態を確実に回避することができる。
なお、上述した実施形態を変形し、他の装置からの要求に応じて、固有特徴量辞書Ｄ２２１や固有特徴量辞書Ｄ２２２を当該装置へ送信することができるようにしてもよい。
また、上述した実施形態を変形し、ＩＣカードに部署の識別子を記録しておき、これを用いて固有特徴量辞書を特定するようにしてもよい。

本発明の第１実施形態に係る文書処理装置１の構成を示す図である。文書処理装置１内のテーブルＴ１のデータ構造を模式的に示す図である。文書処理装置１に入力される文書の一例を示す図である。文書処理装置１が行う登録処理のフローチャートである。テーブルＴの内容の一例を模式的に示す図である。文書処理装置１に入力される文書の一例を示す図である。文書処理装置１に入力される文書の一例を示す図である。テーブルＴの内容の一例を模式的に示す図である。文書処理装置１が行う加工処理のフローチャートである。文書処理装置１により形成される文書の一例を示す図である。文書処理装置１に入力される文書の一例を示す図である。本発明の第２実施形態に係る文書処理装置２の構成を示す図である。文書処理装置２に入力される文書の一例を示す図である。文書処理装置２が行う登録処理のフローチャートである。登録処理における推定結果の一例を示す図である。登録処理における推定結果の確度の一例を抜粋して模式的に示す図である。文書処理装置２内の固有特徴量辞書Ｄ２２１の内容の一例を模式的に示す図である。文書処理装置２に入力される文書の一例を示す図である。文書処理装置２が行うＯＣＲ処理のフローチャートである。ＯＣＲ処理の途中における推定結果の一例を示す図である。ＯＣＲ処理の途中における推定結果の確度の一例を抜粋して模式的に示す図である。ＯＣＲ処理の途中における推定結果の確度の一例を抜粋して模式的に示す図である。ＯＣＲ処理における最終的な推定結果の一例を示す図である。

符号の説明

１，２…文書処理装置、１１，２１…操作部、１２，２２…スキャナ、１３，２３…ＲＡＭ、１４，２４…印刷部、１５，２５…不揮発性メモリ、１６，２７…ＣＰＵ、２６…通信部、１７，２８…ＩＣカードリーダ、Ｐ１１，Ｐ２１…制御プログラム、Ｐ１２，Ｐ２２…複写登録プログラム、Ｐ１３…加工翻訳プログラム、Ｐ２３…ＯＣＲ実行プログラム、Ｄ…辞書、Ｄ２１…標準特徴量辞書、Ｄ２２１，Ｄ２２２…固有特徴量辞書、Ｇ１，Ｇ２…組織表、Ｒ１，Ｒ２…識別子領域、Ｔ１，Ｔ２…テーブル。

Claims

文書を光学的に読み取って印刷する入出力手段と、
前記入出力手段により読み取られた文書を用いて、結果の確度に揺らぎが生じる文書処理の精度を向上させるために前記文書処理で用いられるデータを取得する取得手段と、
使用者の識別子を記憶する識別子記憶手段と、
前記入出力手段により文書が読み取られたときに前記識別子記憶手段に記憶されている識別子を用いて、前記取得手段により取得されたデータを、該識別子により特定されるグループ毎に記憶するデータ記憶手段と
を有する文書処理装置。
前記入出力手段は、更に、文書を光学的に読み取って印刷する際に指示を入力し、
前記データ記憶手段は、予め定められた特定の指示が前記入出力手段により入力されなかった場合にのみ、前記入出力手段により文書が読み取られたときに前記識別子記憶手段に記憶されている識別子を用いて、前記取得手段により取得されたデータを、該識別子により特定されるグループ毎に記憶する
ことを特徴とする請求項１に記載の文書処理装置。
特定の範囲内の使用者に共用される文書処理装置が識別子を入力する入力過程と、
前記文書処理装置が、文書を光学的に読み取って印刷する一方、読み取られた文書を用いて、結果の確度に揺らぎが生じる文書処理の精度を向上させるために前記文書処理で用いられるデータを取得する取得過程と、
前記文書処理装置が、前記取得過程にて取得したデータを、前記入力過程にて入力した識別子により特定されるグループ毎に記憶する記憶過程と
を有する文書処理方法。