JP4645065B2 - 文書処理装置およびプログラム - Google Patents

文書処理装置およびプログラム Download PDF

Info

Publication number
JP4645065B2
JP4645065B2 JP2004154971A JP2004154971A JP4645065B2 JP 4645065 B2 JP4645065 B2 JP 4645065B2 JP 2004154971 A JP2004154971 A JP 2004154971A JP 2004154971 A JP2004154971 A JP 2004154971A JP 4645065 B2 JP4645065 B2 JP 4645065B2
Authority
JP
Japan
Prior art keywords
abbreviation
document
dictionary
phrase
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004154971A
Other languages
English (en)
Other versions
JP2005339040A (ja
JP2005339040A5 (ja
Inventor
潔 田代
昌俊 田川
博 増市
篤 伊藤
恭輔 石川
紹明 劉
道弘 田宗
直子 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2004154971A priority Critical patent/JP4645065B2/ja
Publication of JP2005339040A publication Critical patent/JP2005339040A/ja
Publication of JP2005339040A5 publication Critical patent/JP2005339040A5/ja
Application granted granted Critical
Publication of JP4645065B2 publication Critical patent/JP4645065B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、文書を処理する際の処理精度を向上させる技術に関する。
ある自然言語の文書を別の自然言語に機械的に翻訳する機械翻訳が普及している。機械翻訳の分野では、文書中の略語を適切に取り扱うことによって好適な翻訳結果を得ようとする技術が提案されている。
特許文献1には、文書中の略語を用いて固有名詞を適切に取り扱う技術が開示されている。この技術では、文書中で略語の直前に現れる単語群が固有名詞として辞書に登録されているか否かが調べられ、登録されていれば固有名詞として翻訳され、登録されていなければそのまま用いられる。例えば、「Organization of Petroleum Exporting Countries (OPEC)」は、「石油輸出国機構(OPEC)」または「Organization of Petroleum Exporting Countries(OPEC)」となり、「諸国を輸出する石油の組織(OPEC)」にはならない。
特許文献2には、略語の翻訳方法を使用者が文書毎に指定することができる技術が開示されている。この技術では、略語と元の語句とが予め対応付けて記憶されており、文書の翻訳時には、その文書について予め指定された翻訳方法(略語をそのまま用いる方法/略語を元の語句に変換してから翻訳する方法)が採られる。
ところで、機械翻訳などの自然言語解析を必須とする文書処理において、文書中の略語から元の語句を特定したい場合がある。例えば、文書中の略語を元の語句に変換する文書処理を行う場合である。この場合には、特許文献2に開示の技術を用いることが考えられる。
しかし、この技術を用いても正しく変換することが困難なケースがある。例えば、ある語句(例えば「現金自動預入引出機」)の略語と他の語句(例えば「非同期伝送モード」)の略語とが一致していると、このような略語(例えば「ATM」)から元の語句を正しく特定するのが困難になる。
また、この技術を用いても使用者に負担がかかるケースがある。例えば、会社や部門などの特定の範囲内でのみ用いられる略語は標準的な辞書に登録されていないから、このような略語から元の語句を特定することができるようにするには、使用者が、略語と元の語句とを対応付けて装置に記憶させる作業を予め行わねばならない。つまり、特定の範囲に十分に特化された辞書を得るためには、その範囲内で機械翻訳の対象となる文書の特性に特化した情報(以降、「解析用範囲特化データ」という)を予め大量に収集しておかねばならない。しかし、この収集を効率よく行う技術は提案されていない。
一方、文書を光学的に読み取って得られた画像データから文字を認識する技術であるOCR(Optical Character Recognition)が普及している。OCRの分野では、文字の認識精度を向上させるために、様々な技術が提案されている。
特許文献3には、使用者の修正操作に基づいて認識用辞書を更新することにより認識精度を上げる技術が開示されている。この技術によれば、認識されなかった文字や誤認識された文字が使用者の修正操作によって修正されると、修正後の文字について特徴量辞書に登録されている文字形状の特徴量が、修正された文字の認識処理の際に得られた文字形状の特徴量を反映したものに更新される。
特許文献4には、文法解析を行って認識用辞書を更新することにより認識精度を上げる技術が開示されている。この技術によれば、認識結果に対して文法解析が行われ、文法的に正しい文字に修正されるべき文字が特定され、文法的に正しい文字を文法解析なしで認識することができるように認識用辞書が更新される。
特許文献5には、文法解析を行って認識結果を補正する際に単語の出現頻度を用いて正しく補正することにより認識精度を上げる技術が開示されている。この技術によれば、認識結果に対する文法解析において、認識結果中の文字列に対して複数の単語が候補となった場合に、各単語が認識結果中に出現する頻度に基づいて1つの単語が選択される。
特許文献6には、使用者の訂正操作に基づいて修正情報を得て蓄積し、蓄積した修正情報を用いて認識精度を上げる技術が開示されている。また、この文献には、訂正情報を個人のICカードに格納し、OCRを行う装置を、この装置に接続されているICカードの使用者の専門装置とすることが記載されている。
特許文献7には、文法解析を行って認識結果を補正する際に基本単語辞書に登録されていない未知語を、その信頼度(例えば文章中の出現回数)ともに画面に表示し、ユーザ辞書への登録の参考とする技術が開示されている。また、この文献には、未知語の信頼度が閾値以上であれば自動的にユーザ辞書に登録することが記載されている。
ところで、印刷された文書からのOCRでは、印刷に用いられるフォントに特化した特徴量辞書を文字認識に用いることにより認識精度を上げることができる。例えば、会社や部門などの特定の範囲内で印刷に用いられるフォントは限られているから、印刷に用いられるフォントに十分に特化された特徴量辞書を用意することが可能であり、このような特徴量辞書を用いれば、特定の範囲内の文書に対する認識精度が上がる。
また、手書きの文書からのOCRでは、文書の筆記者に特化した特徴量辞書を用いることにより認識精度を上げることができる。例えば、上記特定の範囲内で手書きで文書を作成する人は限られているから、文書の筆記者に十分に特化された特徴量辞書を用意することが可能であり、このような特徴量辞書を用いれば、特定の範囲内の文書に対する認識精度が上がる。
また、特許文献4、特許文献5および特許文献7の技術のように文法解析を併用する場合には、上記特定の範囲に特化した文法解析を行うことにより認識精度を上げることができる。例えば、上記特定の範囲内で使われる一般的でない単語を文法解析用の辞書に登録しておけば、文法解析の精度を下げる一因である未知語(未登録語)の数を減らすことができるから、認識精度が上がる。また、例えば、上記特定の範囲内での各単語の使用頻度を文法解析用の辞書に登録しておき、使用頻度に基づいた文法解析によって認識精度を上げることも考えられる。
このように、OCRの対象となる文書の特性に特化した認識処理を行うことによって認識精度を上げることができる。しかし、いずれの場合でも、OCRの対象となる文書の特性に特化した情報を、認識に用いる辞書へ事前に登録しておく必要がある。また、特定の範囲に十分に特化された辞書とするためには、その範囲内でOCRの対象となる文書の特性に特化した情報(以降、「OCR用範囲特化データ」という)を予め大量に収集しておかねばならない。この収集を効率よく行う技術は提案されていない。
例えば、特許文献3および特許文献6の技術では使用者の修正/訂正操作が必要となるから手間がかかる。これに対して、特許文献4、特許文献5および特許文献7の技術では、このような操作は不要である。しかし、特許文献4の技術における辞書の更新、すなわち学習は、実際にOCRの対象となった文書のみに基づいて行われるから、効率が良いとは言えない。また、特許文献5の技術において用いられるのは、今まさに認識中の文書における単語の出現頻度であり、特定の範囲に特化された出現頻度ではない。また、特許文献7は上記特定の範囲を意識しておらず、この文献に開示の技術ではOCR用範囲特化データを収集することはできない。
特開平3−35354号公報 特開平5−282358号公報 特開平2−186484号公報 特開平6−266906号公報 特開平9−44606号公報 特開平9−91385号公報 特開2003−256415号公報
本発明は上述した事情に鑑みてなされたものであり、自然言語解析やOCRなどの、結果の確度に揺らぎが生じる文書処理の対象となる文書の特性に特化した、当該処理の精度を上げるために用いられるデータを、手間をかけずに、効率よく収集することができる技術を提供することを目的としている。
本発明は、文書を読み取る読取手段により読み取られた文書を用いて、略語から当該略語を補足する元の語句を特定する文書処理で用いられるデータを取得する取得手段と、語句が登録されている辞書を記憶する辞書記憶手段と、前記取得手段によって取得されたデータから、前記辞書に登録されていない未知語を検出する未知語検出手段と、前記未知語検出手段によって検出された未知語のうち、少なくとも2つの大文字のアルファベットから構成されているものを略語として検出する略語検出手段と、前記略語検出手段によって検出された略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れる場合に、その語句を当該略語を補足する元の語句とし、当該略語と当該元の語句とを組として抽出する抽出手段と、使用者の識別子を記憶する識別子記憶手段と、前記読取手段により文書が読み取られたときに前記識別子記憶手段に記憶されている識別子により特定されるグループと対応付けて、前記抽出手段により抽出された前記組を記憶するデータ記憶手段とを有する文書処理装置を提供する。
また、本発明は、コンピュータに、使用者の識別子を入力する入力手順と、文書を読み取って、読み取られた文書を用いて、略語から当該略語を補足する元の語句を特定する文書処理で用いられるデータを取得する取得手順と、前記取得手順にて取得したデータから、前記辞書に登録されていない未知語を検出する未知語検出手順と、前記未知語検出手順にて検出した未知語のうち、少なくとも2つの大文字のアルファベットから構成されているものを略語として検出する略語検出手順と、前記略語検出手順にて検出した略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れる場合に、その語句を当該略語を補足する元の語句とし、当該略語と当該元の語句とを組として抽出する抽出手順と、前記入力手順にて入力された識別子により特定されるグループと対応付けて、前記抽出手順にて抽出した前記組を記憶する記憶手順とを実行させるためのプログラムを提供する。
本発明によれば、文書処理装置は、文書を光学的に読み取って印刷するときに、使用者に意識させることなく、当該文書を用いて、自然言語解析やOCRなどの、結果の確度に揺らぎが生じる文書処理の精度を向上させるために当該文書処理で用いられるデータを取得し、使用者の属するグループ毎に記憶することができる。また、文書を光学的に読み取って印刷する装置は複数の使用者に共用されることが多いから、本発明によれば、多くのデータを効率的に収集することができる。
以上より、本発明によれば、上記文書処理の精度を向上させるための、自身が属するグループに特化したデータを、手間をかけずに、効率よく収集することができる。
以下、図面を参照して、本発明の実施形態について説明する。
なお、本発明を機械翻訳に適用した実施形態が第1実施形態であり、OCRに適用した実施形態が第2実施形態である。
[第1実施形態]
[構成]
図1は本発明の第1実施形態に係る文書処理装置1の構成を示す図である。
文書処理装置1は、ある会社の社員に共用されるように当該会社内に設置されており、社員に操作されて当該社員の指示を入力する操作部11、文書処理装置1の原稿台(図示略)にセットされた文書を光学的に読み取って画像データとして入力するスキャナ12、画像データを一時的に記憶するRAM13、RAM13に記憶されている画像データの画像を用紙上に形成して当該用紙を文書として文書処理装置1外へ排出する印刷部14、データを記憶する不揮発性メモリ15、ICカードが装着されると該ICカードから識別子を読み出すICカードリーダ17、および各部を制御するCPU16を有する。なお、ICカードは全社員に渡されており、各社員に固有の識別子を記憶している。
不揮発性メモリ15は、図示しない電源から電力が供給されなくともデータを保持することが可能であり、CPU16が各部を制御するときに用いる制御プログラムP11、文書処理装置1に後述の複写登録処理を行わせるための複写登録プログラムP12、上記の会社の第1の部署に対応するテーブルT1、上記の会社の第2の部署に対応するT2、文書処理装置1に後述の加工翻訳処理を行わせるための加工翻訳プログラムP13、翻訳用の辞書D、および組織表G1を記憶している。また、不揮発性メモリ15は、文書処理装置1を使用中の社員の識別子を記憶するための記憶領域である識別子領域R1を有する。
CPU16は、図示せぬ電源から電力が供給されると、不揮発性メモリ15から制御プログラムP11を読み出して実行する。これによって、CPU16は文書処理装置1の各部を制御可能となる。ただし、CPU16は、不揮発性メモリ15の識別子領域R1に識別子が記憶されている場合にのみ、複写や翻訳の指示を受け付け可能な状態となる。CPU16が識別子領域R1に識別子を書き込むタイミングは、文書処理装置1の各部を制御可能となったときに装着されているICカードからICカードリーダ17が識別子を読み出したとき、および文書処理装置1の各部を制御可能となった後に装着されたICカードからICカードリーダ17が識別子を読み出したときである。また、CPU16が識別子領域R1の記憶内容をクリアするタイミングは、ICカードリーダ17からICカードが取り外されたときである。
上記の状態のCPU16は、操作部11を用いて複写の指示が入力されると、不揮発性メモリ15から複写登録プログラムP12を読み出して実行する。これによって、文書処理装置1は複写登録処理を行う。複写登録処理では、CPU16は、まず、原稿台にセットされた文書をスキャナ12により光学的に読み取って画像データとして入力し、RAM13に書き込む。次に、操作部11を用いて特定の指示が入力されていなければ、RAM13に記憶されている画像データから略語とその元の語句との組を抽出する処理を試みて抽出された組をテーブルT1またはテーブルT2に格納する登録処理と、印刷部14を用いて、当該画像データの画像を用紙上に形成して当該用紙を文書処理装置1外へ排出する処理とを並列に実行する。
図2はテーブルT1のデータ構造を模式的に示す図である。
テーブルT1は1つの略語に1つの元の語句(日本語)を対応付けた組を格納するものである。略語は組に固有であり、異なる組に同一の略語が含まれることはない。テーブルT1には複数の組が格納され得るが、初期状態では、テーブルT1に格納されている組は無い。以上述べたことはテーブルT2にもあてはまる。
組織表Gは、社員の識別子から当該社員が所属する部署(第1の部署/第2の部署)を識別するためのテーブルであり、社員の識別子と部署の識別子とを対応付けて格納している。
また、上記の状態のCPU16は、操作部11を用いて翻訳の指示が入力されると、不揮発性メモリ15から加工翻訳プログラムP13を読み出して実行する。これによって、文書処理装置1は加工翻訳処理を実行する。加工翻訳処理では、CPU16は、まず、原稿台にセットされた文書をスキャナ12により光学的に読み取って画像データとして入力し、RAM13に書き込む。次に、上述の登録処理を行う。次に、RAM13に記憶されている画像データの文書中に元の語句で補足されていない略語が存在し、かつ当該略語が文書処理装置1の使用者に応じたテーブル(テーブルT1/テーブルT2)に格納されている場合にのみ、当該テーブルを用いて当該画像データを加工する、という加工処理を行う。次に、辞書Dを参照してRAM13に記憶されている画像データの文書を英語に翻訳することにより当該画像データを加工する。次に、印刷部14を用いて、加工後の画像データの画像を用紙上に形成して当該用紙を文書処理装置1外へ排出する。
[動作]
次に、上述した構成の文書処理装置1の動作について説明する。
まず、第1の部署に所属する第1の社員が自身のICカードをICカードリーダ17に装着し、図3に示す日本語の文書を原稿台にセットし、操作部11を用いて複写の指示を入力したものとする。
すると、CPU16は、原稿台にセットされた文書をスキャナ12により光学的に読み取って画像データとして入力し、この画像データをRAM13に書き込み、印刷部14を用いて、当該画像データの画像を用紙上に形成して当該用紙を文書処理装置1外へ排出する。こうして文書が複写される。
この複写に並行して、CPU16は図4に示す登録処理を行う。
まず、操作部11を用いて特定の指示が入力されているか否かを判定する(ステップSA1)。ここでは、この判定結果は「NO」となる。次に、RAM13に記憶されている画像データからOCR(Optical Character Recognition)によってテキストデータを生成する(ステップSA2)。次に、このテキストデータに対して形態素解析を行う(ステップSA3)。次に、この形態素解析の結果と辞書Dの内容とに基づいて、このテキストデータから略語と当該略語を補足する元の語句との組の抽出を試みる(ステップSA4)。図3の文書の場合、略語「ATM」と元の語句「現金自動預入引出機」との組が抽出される。
組の抽出では、CPU16は、形態素解析の結果から辞書Dに登録されていない未知語を検出し、検出した未知語のうち、少なくとも2つの大文字のアルファベットから構成されているものを略語として検出する。そして、この略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れるか否かを調べ、現れる場合にのみ、その語句を当該略語を補足する元の語句とみなし、当該略語および当該元の語句を組としてテキストデータから抽出する。
組の抽出を試みたCPU16は、次に、少なくとも1つの組が抽出されたか否かを判定する(ステップSA5)。ここでは、「ATM」と「現金自動預入引出機」との組が抽出されているから、この判定結果が「YES」となる。したがって、CPU16は、識別子領域R1から識別子を読み出し、この識別子と組織表G1とを用いて、抽出された組の格納先のテーブルを特定する(ステップSA6)。この結果、第1の社員が所属している第1の部署に対応しているテーブルT1が特定される。次に、抽出した組を、特定されたテーブルT1に格納し(ステップSA7)、登録処理を終える。この結果、テーブルT1の内容は図5に示す通りとなる。なお、格納しようとする組に含まれている略語と同一の略語を含む組がテーブルに格納されている場合には、CPU16は、格納しようとする組で格納されている組を上書きする。
なお、上記の第1の社員が複写の指示とともに特定の指示を入力した場合には、ステップSA1の判定結果が「YES」となり、登録処理が終わる。つまり、社員は、複写しようとする文書に基づいてテーブルを更新したくないときには、特定の指示を入力することにより、テーブルの更新を回避することができる。ここでは、前述のように、特定の指示が入力されずにテーブルT1が更新されたものとして説明を進める。
次に、第2の部署に所属する第2の社員が自身のICカードをICカードリーダ17に装着し、図6に示す日本語の文書を原稿台にセットし、操作部11を用いて複写の指示を入力したものとする。
すると、上述と同様の処理が繰り返される。ただし、図6の文書には略語「ODA」は存在するものの、この略語を補足する元の語句は存在しない。したがって、ステップSA5の判定結果が「NO」となり、新たな組がテーブルに登録されることなく登録処理が終了する。なお、略語すら存在しない文書を複写する際にも、これと同様の動作となる。
次に、第1の部署に所属する第3の社員が自身のICカードをICカードリーダ17に装着し、図7に示す日本語の文書を原稿台にセットし、操作部11を用いて翻訳の指示を入力したものとする。
すると、CPU16は、原稿台にセットされた文書をスキャナ12により光学的に読み取って画像データとして入力し、この画像データをRAM13に書き込む。次に、図4の登録処理を行う。図7の文書には略語「ODA」と当該略語を補足する元の語句「政府開発援助」とが存在するから、この登録処理では、これらの組がテーブルT1に格納される。この結果、テーブルT1の内容は図8に示す通りとなる。
次に、CPU16は図9に示す加工処理を行う。
まず、RAM13に記憶されている画像データからOCRによってテキストデータを生成する(ステップSB1)。次に、このテキストデータに対して形態素解析を行う(ステップSB2)。次に、この形態素解析の結果と辞書Dの内容とに基づいて、このテキストデータから、元の語句で補足されていない略語の検出を試みる(ステップSB3)。図7の文書の場合、「ATM」および「CD」が検出される。
略語の検出では、CPU16は、形態素解析の結果から辞書Dに登録されていない未知語を検出し、検出した未知語のうち、少なくとも2つの大文字のアルファベットから構成されているものを略語として検出する。そして、この略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れるか否かを調べ、現れない場合にのみ、当該略語を、元の語句で補足されていない略語として検出する。
元の語句で補足されていない略語の検出を試みたCPU16は、次に、少なくとも1つの略語が検出されたか否かを判定する(ステップSB4)。ここでは、「ATM」および「CD」が検出されているから、この判定結果が「YES」となる。したがって、CPU16は、識別子領域R1から識別子を読み出し、この識別子と組織表G1とを用いて、抽出された組の格納先のテーブルを特定する(ステップSB5)。この結果、第3の社員が所属している第1の部署に対応しているテーブルT1が特定される。次に、検出した略語の各々について、略語を含む組が、特定されたテーブルT1に格納されているか否かを調べ、格納されている場合にのみ、当該組に含まれている元の語句を括弧で囲んだ文字列を当該テキストデータにおける当該略語の直後に挿入する、という処理を行う(ステップSB6〜SB10)。
次に、CPU16は、この処理の結果として得られたテキストデータから画像データを生成し、RAM13に上書きし(ステップSB11)、加工処理を終了する。この結果、RAM13に記憶されている画像データは、図10に示す文書の画像データとなる。
次に、CPU16は、辞書Dを参照してRAM13に記憶されている画像データの文書を英語に翻訳することにより当該画像データを加工する。この翻訳時には、OCRや形態素解析などの技術や辞書Dが用いられる。次に、印刷部14を用いて、加工後の画像データの画像を用紙上に形成して当該用紙を文書処理装置1外へ排出する。こうして、文書処理装置1から英語に翻訳された文書が出力される。
次に、第2の部署に所属する第4の社員が自身のICカードをICカードリーダ17に装着し、図11に示す日本語の文書を原稿台にセットし、操作部11を用いて翻訳の指示を入力したものとする。すると、上述と同様の処理が繰り返される。ただし、第4の社員は第2の部署に所属しているから、ステップSB5にてテーブルT2が特定される。このテーブルT2には組が格納されていないから、RAM13に上書きされる画像データは、スキャナ12により読み取られた画像データそのものとなり、この画像データを用いて後続の処理が行われることになる。
[まとめ]
以上説明したように、文書処理装置1は、文書を複写するときに、使用者に意識させることなく、当該文書から略語と当該略語を補足する元の語句との組(解析用範囲特化データ)を抽出し、そのときに文書処理装置1を使用している社員の所属する部署に応じたテーブルに格納することができる。また、文書処理装置1は、ある会社の社員に共用されているから、上記の組の収集を効率よく行うことができる。
なお、上述した実施形態を以下に述べるように変形してもよい。
例えば、文書を翻訳するときに行われる収集を、特定の指示が入力されなかったときに限定して行うようにしてもよい。
また、文書処理装置1は、加工処理により加工された画像データの画像を用紙上に形成して当該用紙を排出する装置であってもよい。
また、文書処理装置1に通信機能を持たせ、テーブルT1やテーブルT2を他の装置へ送信することができるようにしてもよい。
また、ICカードに部署の識別子を記録しておき、これを用いてテーブルを特定するようにしてもよい。
[第2実施形態]
[構成]
図12は本発明の第2実施形態に係る文書処理装置2の構成を示す図である。
文書処理装置2は、ある会社の社員に共用されるように当該会社内に設置されており、社員に操作されて当該社員の指示を入力する操作部21、文書処理装置2の原稿台(図示略)にセットされた文書を光学的に読み取って画像データとして入力するスキャナ22、画像データを一時的に記憶するRAM23、RAM23に記憶されている画像データの画像を用紙上に形成して当該用紙を文書として文書処理装置2外へ排出する印刷部24、データを記憶する不揮発性メモリ25、図示しない外部の装置との間で通信路(図示略)を介してデータを授受する通信部26、ICカードが装着されると該ICカードから識別子を読み出すICカードリーダ28、および各部を制御するCPU27を有する。なお、ICカードは全社員に渡されており、各社員に固有の識別子を記憶している。
不揮発性メモリ25は、図示しない電源から電力が供給されなくともデータを保持することが可能であり、CPU27が各部を制御するときに用いる制御プログラムP21、文書処理装置2に後述の複写登録処理を行わせるための複写登録プログラムP22、文書処理装置2に後述のOCR処理を行わせるためのOCR実行プログラムP23、OCRに用いられる標準特徴量辞書D21、および組織表G2を記憶している。標準特徴量辞書D21には、一般的な文書に用いられる文字の各々について、文字と文字の形状の特徴量とが対応付けて登録されている。組織表Gは、社員の識別子から当該社員が所属する部署(第1の部署/第2の部署)を識別するためのテーブルであり、社員の識別子と部署の識別子とを対応付けて格納している。
また、不揮発性メモリ25は、文書処理装置2を使用中の社員の識別子を記憶するための記憶領域である識別子領域R2を有する。また、不揮発性メモリ25は、上記の会社の第1の部署に対応する固有特徴量辞書D221、および上記の会社の第2の部署に対応する固有特徴量辞書D222を記憶している。各固有特徴量辞書には、対応する部署内で複写される文書中に現れる文字と文字の形状の特徴量とが対応付けて登録される。なお、初期状態では、固有特徴量辞書D221および固有特徴量辞書D222には何も登録されていない。
CPU27は、図示せぬ電源から電力が供給されると、不揮発性メモリ25から制御プログラムP21を読み出して実行する。これによって、CPU27は文書処理装置2の各部を制御可能となる。ただし、CPU27は、不揮発性メモリ25の識別子領域R2に識別子が記憶されている場合にのみ、複写やOCRの指示を受け付け可能な状態となる。CPU27が識別子領域R2に識別子を書き込むタイミングは、文書処理装置2の各部を制御可能となったときに装着されているICカードからICカードリーダ28が識別子を読み出したとき、および文書処理装置2の各部を制御可能となった後に装着されたICカードからICカードリーダ28が識別子を読み出したときである。また、CPU27が識別子領域R2の記憶内容をクリアするタイミングは、ICカードリーダ28からICカードが取り外されたときである。
上記の状態のCPU27は、操作部21を用いて複写の指示が入力されると、不揮発性メモリ25から複写登録プログラムP22を読み出して実行する。これによって、文書処理装置2は複写登録処理を行う。また、上記の状態のCPU27は、操作部21を用いてOCR処理の指示が入力されると、不揮発性メモリ25からOCR実行プログラムP23を読み出して実行する。これによって、文書処理装置2はOCR処理を行う。これらの処理の内容については、文書処理装置2の動作に沿って説明する。また、この状態のCPU27は、通信部26を介して所定の要求を受信すると、不揮発性メモリ25の所定領域からOCR処理の結果を読み出し、当該要求の送信元へ送信する。
[動作]
次に、上述した構成の文書処理装置2の動作について説明する。
まず、第1の部署に所属する第1の社員が自身のICカードをICカードリーダ28に装着し、図13に示す日本語の文書を原稿台にセットするものとする。この文書の先頭部分(最初に読み取られる部分)の文字は、他の部分に現れる文字よりも大きい。
次に、この社員が操作部21を用いて複写の指示を入力したものとする。すると、CPU27は複写登録処理を行う。
複写登録処理では、CPU27は、原稿台にセットされた文書をスキャナ22により光学的に読み取って画像データとして入力し、この画像データをRAM23に書き込み、印刷部24を用いて、当該画像データの画像を用紙上に形成して当該用紙を文書処理装置2外へ排出する。こうして文書が複写される。
この複写に並行して、CPU27は図14に示す登録処理を行う。
まず、操作部11を用いて特定の指示が入力されているか否かを判定する(ステップSC1)。ここでは、この判定結果は「NO」となる。次に、識別子領域R2から識別子を読み出し、この識別子と組織表G2とを用いて、抽出された組の格納先の固有特徴量辞書を特定する(ステップSC2)。この結果、第1の社員が所属している第1の部署に対応している固有特徴量辞書D221が特定される。
次に、標準特徴量辞書D21を用いて文字認識を行う(ステップSC3)。具体的には、まず、RAM23に記憶されている画像データを文字単位で分割する。そして、分割された画像データの各々について、先頭から、画像データから文字形状の特徴量を算出する処理と、算出した特徴量と標準特徴量辞書D21に登録されている特徴量とを比較して文字を推定する処理とを行う。この際、推定の確度(確からしさ)をも算出する。こうして、図13に示す文書について、図15に示す推定結果と図16に抜粋して示す確度が得られる。図から明らかなように、大きい文字についての推定結果の確度は比較的に高くなっている。
次に、十分に高い確度の推定結果(文字)について、文字とその推定の際に算出された特徴量とを対応付けて、特定された固有特徴量辞書D221に登録する(ステップSC4)。十分に高い確度であるか否かの判定は、推定結果(文字)の確度と予め定められた登録基準確度(文書処理装置2では95%)とを比較し、この登録基準確度以上の確度で得られた推定結果であるか否かを判定することにより行われる。このことから明らかなように、例えば「本」については4回の登録が行われる。ただし、「本」についての2回目以降の登録において不揮発性メモリ25に書き込まれるのは特徴量のみである。こうして、図17に示すように、固有特徴量辞書D221には、「(」、「1」、「)」、「本」、「願」、「で」、「の」および「題」について、文字と特徴量とが対応付けて登録される。
なお、上記の第1の社員が複写の指示とともに特定の指示を入力した場合には、ステップSC1の判定結果が「YES」となり、登録処理が終わる。つまり、社員は、複写しようとする文書に基づいて固有特徴量辞書を更新したくないときには、特定の指示を入力することにより、固有特徴量辞書の更新を回避することができる。ここでは、前述のように、特定の指示が入力されずに固有特徴量辞書D221が更新されたものとして説明を進める。
次に、第1の部署に所属する第2の社員が自身のICカードをICカードリーダ28に装着し、図18に示す日本語の文書を原稿台にセットするものとする。そして、この社員が操作部21を用いてOCR処理の指示を入力したものとする。すると、CPU27は図19に示すOCR処理を行う。
OCR処理では、CPU27は、原稿台にセットされた文書をスキャナ22により光学的に読み取って画像データとして入力し、この画像データをRAM23に書き込む(ステップSD1)。次に、識別子領域R2から識別子を読み出し、この識別子と組織表G2とを用いて、OCR処理に用いる固有特徴量辞書を特定する(ステップSD2)。この結果、第2の社員が所属している第1の部署に対応している固有特徴量辞書D221が特定される。
次に、RAM23に記憶されている画像データに対して、標準特徴量辞書D21を用いて文字認識を行う(ステップSD3)。この文字認識の内容は図14のステップSC3と同様である。こうして、図18の文書について、図20に示す推定結果と図21に抜粋して示す確度が得られる。図から明らかなように、この段階では誤推定が発生している。具体的には、文書中の「1」に対する推定結果が「I」、1つ目および2つ目の「願」に対する推定結果が「題」となっている。
次に、推定結果の各文字について、推定の確度が十分に高ければ現在の推定結果(標準特徴量辞書D21を用いた推定結果)を採用し、高くなければ、特定された固有特徴量辞書D221を用いて文字認識を行い、この文字認識による推定結果の確度が標準特徴量辞書D21を用いた推定結果の確度よりも高い場合には固有特徴量辞書D221を用いた推定結果を採用し、高くない場合には標準特徴量辞書D21を用いた推定結果を採用する、という処理を行う(ステップSD4〜SD10)。
推定の確度が十分に高いか否かの判定は、標準特徴量辞書D21を用いた推定の確度と予め定められた確定基準確度(文書処理装置2では90%)とを比較し、この確定基準確度以上の確度で得られた推定結果であるか否かを判定することにより行われる。例えば、図21において推定の確度が十分に高いのは、3つの「本」のみである。固有特徴量辞書D221を用いた文字認識は、これら3つの文字を除いた文字について行われる。こうして得られた推定結果および確度を図22に抜粋して示す。
図22における「(」、「1」、「)」、1つ目の「願」、2つ目の「願」、3つ目の「願」は、それぞれ、図21における「(」、「I」、「)」、1つ目の「題」、2つ目の「題」、「願」に対応している。そして、この対応関係の上で、図22における確度が図21における確度よりも高くなっているのは、図22における「1」、1つ目の「願」および2つ目の「願」である。よって、採用された推定結果は図23に示す通りとなる。図から明らかなように、この段階で、誤推定は存在しない。
次に、CPU27は、この推定結果を不揮発性メモリ25の所定領域に書き込み(ステップSD11)、OCR処理を終了する。
OCR処理の後に、第2の社員は、文書処理装置2と通信可能なコンピュータを用いて文書処理装置2へ所定の要求を送信する。この要求は、通信部26を介してCPU27に受信される。すると、CPU27は、不揮発性メモリ25の所定領域から最終的な推定結果を読み出し、当該要求の送信元である上記コンピュータへ送信する。こうして、OCR処理の結果が第2の社員に渡される。
[まとめ]
以上説明したように、文書処理装置2は、文書を複写するときに、使用者に意識させることなく、当該文書から、十分に高い確度で推定された文字の形状の特徴量(OCR用範囲特化データ)を算出し、そのときに文書処理装置2を使用している社員の所属する部署に応じた固有特徴量辞書に格納することができる。また、文書処理装置2は、ある会社の社員に共用されているから、上記の特徴量の収集を効率よく行うことができる。
また、文書処理装置2は、文字が十分に高い確度で推定された場合にのみ、上記のデータを蓄積する。したがって、誤ったデータを蓄積して認識精度を低下させてしまう事態を確実に回避することができる。
なお、上述した実施形態を変形し、他の装置からの要求に応じて、固有特徴量辞書D221や固有特徴量辞書D222を当該装置へ送信することができるようにしてもよい。
また、上述した実施形態を変形し、ICカードに部署の識別子を記録しておき、これを用いて固有特徴量辞書を特定するようにしてもよい。
本発明の第1実施形態に係る文書処理装置1の構成を示す図である。 文書処理装置1内のテーブルT1のデータ構造を模式的に示す図である。 文書処理装置1に入力される文書の一例を示す図である。 文書処理装置1が行う登録処理のフローチャートである。 テーブルTの内容の一例を模式的に示す図である。 文書処理装置1に入力される文書の一例を示す図である。 文書処理装置1に入力される文書の一例を示す図である。 テーブルTの内容の一例を模式的に示す図である。 文書処理装置1が行う加工処理のフローチャートである。 文書処理装置1により形成される文書の一例を示す図である。 文書処理装置1に入力される文書の一例を示す図である。 本発明の第2実施形態に係る文書処理装置2の構成を示す図である。 文書処理装置2に入力される文書の一例を示す図である。 文書処理装置2が行う登録処理のフローチャートである。 登録処理における推定結果の一例を示す図である。 登録処理における推定結果の確度の一例を抜粋して模式的に示す図である。 文書処理装置2内の固有特徴量辞書D221の内容の一例を模式的に示す図である。 文書処理装置2に入力される文書の一例を示す図である。 文書処理装置2が行うOCR処理のフローチャートである。 OCR処理の途中における推定結果の一例を示す図である。 OCR処理の途中における推定結果の確度の一例を抜粋して模式的に示す図である。 OCR処理の途中における推定結果の確度の一例を抜粋して模式的に示す図である。 OCR処理における最終的な推定結果の一例を示す図である。
符号の説明
1,2…文書処理装置、11,21…操作部、12,22…スキャナ、13,23…RAM、14,24…印刷部、15,25…不揮発性メモリ、16,27…CPU、26…通信部、17,28…ICカードリーダ、P11,P21…制御プログラム、P12,P22…複写登録プログラム、P13…加工翻訳プログラム、P23…OCR実行プログラム、D…辞書、D21…標準特徴量辞書、D221,D222…固有特徴量辞書、G1,G2…組織表、R1,R2…識別子領域、T1,T2…テーブル。

Claims (2)

  1. 文書を読み取る読取手段により読み取られた文書を用いて、略語から当該略語を補足する元の語句を特定する文書処理で用いられるデータを取得する取得手段と、
    語句が登録されている辞書を記憶する辞書記憶手段と、
    前記取得手段によって取得されたデータから、前記辞書に登録されていない未知語を検出する未知語検出手段と、
    前記未知語検出手段によって検出された未知語のうち、少なくとも2つの大文字のアルファベットから構成されているものを略語として検出する略語検出手段と、
    前記略語検出手段によって検出された略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れる場合に、その語句を当該略語を補足する元の語句とし、当該略語と当該元の語句とを組として抽出する抽出手段と、
    使用者の識別子を記憶する識別子記憶手段と、
    前記読取手段により文書が読み取られたときに前記識別子記憶手段に記憶されている識別子により特定されるグループと対応付けて、前記抽出手段により抽出された前記組を記憶するデータ記憶手段と
    を有する文書処理装置。
  2. ンピュータに、
    使用者の識別子を入力する入力手順と、
    文書を読み取って、読み取られた文書を用いて、略語から当該略語を補足する元の語句を特定する文書処理で用いられるデータを取得する取得手順と、
    前記取得手順にて取得したデータから、前記辞書に登録されていない未知語を検出する未知語検出手順と、
    前記未知語検出手順にて検出した未知語のうち、少なくとも2つの大文字のアルファベットから構成されているものを略語として検出する略語検出手順と、
    前記略語検出手順にて検出した略語の直後に、括弧で囲われた、当該略語よりも長い語句が現れる場合に、その語句を当該略語を補足する元の語句とし、当該略語と当該元の語句とを組として抽出する抽出手順と、
    前記入力手順にて入力された識別子により特定されるグループと対応付けて、前記抽出手順にて抽出した前記組を記憶する記憶手順と
    を実行させるためのプログラム。
JP2004154971A 2004-05-25 2004-05-25 文書処理装置およびプログラム Expired - Fee Related JP4645065B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004154971A JP4645065B2 (ja) 2004-05-25 2004-05-25 文書処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004154971A JP4645065B2 (ja) 2004-05-25 2004-05-25 文書処理装置およびプログラム

Publications (3)

Publication Number Publication Date
JP2005339040A JP2005339040A (ja) 2005-12-08
JP2005339040A5 JP2005339040A5 (ja) 2007-06-07
JP4645065B2 true JP4645065B2 (ja) 2011-03-09

Family

ID=35492562

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004154971A Expired - Fee Related JP4645065B2 (ja) 2004-05-25 2004-05-25 文書処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP4645065B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0253099A (ja) * 1988-08-17 1990-02-22 Asahi Chem Ind Co Ltd 文字認識装置
JPH077419B2 (ja) * 1989-06-30 1995-01-30 シャープ株式会社 機械翻訳装置における略称付き固有名詞処理方法
JPH07182333A (ja) * 1993-12-24 1995-07-21 Sharp Corp 日本語処理装置
JP3267064B2 (ja) * 1994-09-20 2002-03-18 株式会社日立製作所 パターン情報処理装置
JPH0916722A (ja) * 1995-06-30 1997-01-17 Smk Corp 光学式文字読取装置

Also Published As

Publication number Publication date
JP2005339040A (ja) 2005-12-08

Similar Documents

Publication Publication Date Title
JP2008225695A (ja) 文字認識誤り修正装置およびプログラム
US7680331B2 (en) Document processing device and document processing method
Lehal et al. A post-processor for Gurmukhi OCR
JP4645065B2 (ja) 文書処理装置およびプログラム
JP4720309B2 (ja) 文書読取システム
JP4424057B2 (ja) 学習装置およびプログラム
JP2006252164A (ja) 中国語文書処理装置
JPH10177623A (ja) 文書認識装置および言語処理装置
JP2007264858A (ja) 人名性別判定プログラム、機械翻訳プログラム、人名性別判定装置、機械翻訳装置、人名性別判定処理方法および機械翻訳処理方法
JPS592191A (ja) 手書き日本語文の認識処理方式
JP4424056B2 (ja) 文書処理装置およびプログラム
JP3455643B2 (ja) 文字認識装置における学習辞書の更新方法及び文字認識装置
JP2939945B2 (ja) ローマ字住所認識装置
JP2985813B2 (ja) 文字列認識装置および知識データベース学習方法
WO2024134769A1 (ja) 自然言語処理装置、自然言語処理方法およびコンピュータプログラム
JP3157557B2 (ja) 文字認識装置
JP2000090193A (ja) 文字認識装置および項目分類方法
JP7257204B2 (ja) 文字列検索装置、文字列検索方法、および、文字列検索プログラム
JP2000011095A (ja) 文字認識装置及び方法
JP2977247B2 (ja) 文字間スペース処理方法
JP2838850B2 (ja) 仮名漢字変換装置
CN116737905A (zh) 内容提取方法及其在研发创意应答中的应用
JP2006276917A (ja) 文書処理装置及び文書処理方法
JP2002074262A (ja) 認識文字修正方法
JPH0576666B2 (ja)

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070417

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070417

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100223

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100810

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101012

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101109

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101122

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131217

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4645065

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees
S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370