JP2011065373A

JP2011065373A - 辞書更新装置及び辞書更新プログラム並びに文字認識装置及び文字認識プログラム。

Info

Publication number: JP2011065373A
Application number: JP2009214869A
Authority: JP
Inventors: Taira Ashikawa; 平芦川; Shigeo Uchida; 茂生内田; Satoshi Koyama; 悟史小山
Original assignee: Toshiba TEC Corp
Current assignee: Toshiba TEC Corp
Priority date: 2009-09-16
Filing date: 2009-09-16
Publication date: 2011-03-31
Anticipated expiration: 2029-09-16
Also published as: JP5101584B2

Abstract

【課題】認識用辞書ファイルを容易に低コストで更新できるようにし、手書き文字等の文字認識精度を向上させる。
【解決手段】入力部１１は、入力された画像データから当該画像データに付随する付随データを抽出する。メタデータ生成部１２は、付随データからその付随データの属性と値とがセットされたメタデータを生成する。外部システム連携部１６は、辞書選択ルールに定義された外部システムに当該辞書選択ルールに定義された命令を与えその結果を取得する。辞書選択部１３は、外部システムから得られた情報とメタデータとを基に辞書選択ルールを判定し、成立するルールに定義された辞書ファイルを選択する。辞書更新部１４は、選択された辞書ファイルに対して設定された辞書更新ルールを判定し、成立する辞書更新ルールに定義された更新内容に従いそのルールに設定された辞書ファイルを更新する。
【選択図】図１

Description

本発明は、文字認識処理等で利用する辞書を更新する辞書更新装置及びこの辞書更新機能を有した文字認識装置に関する。

特許文献１は、手書き情報認識装置を開示する。この装置は、通信により端末と接続されている。この装置は、発信者と通信を行う情報通信手段と、該情報通信手段により受信した情報を編集する情報編集手段と、手書き文字パターンを認識する手書き情報認識手段と、受信した情報に発信者の属性を付加する属性付加手段と、発信者の属性に応じて手書き情報を分類し、分類した手書き情報をそれぞれの発信者の手書き文字の癖に特化した認識用辞書ファイルを用いて認識させる認識制御手段とを備えている。このような手段を備えた手書き情報認識装置であれば、発信者の手書き文字の癖に特化した認識用辞書ファイルを用いて認識できるので、正確な認識が可能となる。

しかしながら、たとえ発信者の手書き文字の癖に特化した認識用辞書ファイルを用いても、ファイルに登録されていない用語は認識することができない。通常、認識用辞書ファイルには汎用性のある用語は登録されているものの、特定の業界だけに通用するような特殊な用語は登録されていないことが多い。

このため、例えば会議においてホワイトボードに手書きされた文字を、会議後に自動認識技術により電子化して議事録の作成に供する場合があるが、会議では特殊な用語が用いられることが多いため、文字認識に失敗する確率が高い。このような問題は、認識用辞書ファイルを適宜更新すればよいが、辞書ファイルの更新作業は大変煩雑でコストがかかるため、更新されていないのが実情である。

本発明はこのような事情に基づいてなされたもので、その目的は、認識用辞書ファイルを容易に低コストで更新できるようにし、手書き文字等の文字認識精度を向上させることにある。

本発明は、入力された画像データから当該画像データに付随する付随データを抽出する入力手段と、前記付随データから、その付随データの属性と値とがセットされたメタデータを生成するメタデータ生成手段と、辞書選択ルールに定義された外部システムに、当該辞書選択ルールに定義された命令を与え、その結果を取得する外部システム連携手段と、この外部システム連携手段により前記外部システムから得られた情報と前記メタデータ生成手段により生成されたメタデータとを基に前記辞書選択ルールを判定し、成立するルールに定義された辞書ファイルを選択する辞書選択手段と、この辞書選択手段により選択された辞書ファイルに対して設定された辞書更新ルールを判定し、成立する辞書更新ルールに定義された更新内容に従いそのルールに設定された辞書ファイルを更新する辞書更新手段とを備えたものである。
また本発明は、前記入力手段を介して入力された画像データを取得する画像取得手段と、この画像取得手段により得られた画像データを、前記辞書更新手段により更新された辞書ファイルを用いて文字認識する文字認識手段とをさらに備えたものである、

かかる手段を講じた本発明によれば、認識用辞書ファイルを容易に低コストで更新でき、手書き文字等の文字認識精度を向上させることができる。

本発明に係る第１の実施の形態のシステム構成図。同実施形態のサーバにおいて、辞書更新機能を実現するために必要な構成要素を示すブロック図。同実施形態において、辞書データベースに保存される認識用辞書ファイルの一例を示す図。同実施形態において、辞書選択ルールファイルに記録されるルールデータの一例を示す図。同実施形態において、辞書連結ルールファイルに記録されるルールデータの一例を示す図。同実施形態において、辞書更新ルールファイルに記録されるルールデータの一例を示す図。同実施形態において、連携情報データベースに保存される連携情報データファイルの一例を示す図。同実施形態において、サーバの辞書更新機能に関する基本処理の手順を示す流れ図。同実施形態において、基本処理の中の辞書選択処理の手順を詳細に示す流れ図。同実施形態において、基本処理の中のルール連結処理の手順を詳細に示す流れ図。同実施形態において、ルール連結処理の中の選択辞書候補取得処理の手順を詳細に示す流れ図。同実施形態において、基本処理の中の辞書更新処理の手順を詳細に示す流れ図。本発明に係る第２の実施の形態のシステム構成図。同実施形態のサーバにおいて、辞書更新機能及び文字認識機能を実現するために必要な構成要素を示すブロック図。同実施形態において、サーバの辞書更新機能及び文字認識機能に関する基本処理の手順を示す流れ図。

以下、本発明に係る実施形態を、図面を用いて説明する。
（第１の実施形態）
はじめに、本発明の辞書更新装置に係る第１の実施の形態について、図１〜図１２を用いて説明する。

図１は、第１の実施の形態のシステム構成図である。本システムは、サーバ１とクライアント２と複合機３とを備え、これらの間をネットワーク４で接続している。ネットワーク４は、イントラネットでもよいしインターネットでもよい。

サーバ１は、クライアント２と、SMTP(Simple Mail Transfer Protocol)を用いて電子メールをやり取りすることができる。また、サーバ１は、複合機３が備えるスキャナ機能により読み取られた原稿読取データを取り込むことができる。

なお、クライアント２及び複合機３の台数は１台に限定されるものではなく、複数台のクライアント２及び複合機３が、ネットワーク４を介してサーバ１に接続されていてもよい。この場合、サーバ１と各クライアント２とを接続するネットワークと、サーバ１と各複合機３を接続するネットラークとを別系統にしてもよい。

サーバ１は、辞書更新装置として機能する。すなわちサーバ１は、辞書データベース５に登録されている種々の認識用辞書ファイルを、クライアント２や複合機３から受信したデータを基に、グループウェアシステムやＷｅｂ辞書システム等を含む１乃至複数の外部システム６を適宜利用して更新する辞書更新機能７を有する。辞書更新機能７は、サーバ１に実装された辞書更新プログラムによって実現される。

辞書更新プログラムは、サーバ１内部の記憶装置に予め記憶されていてもよいし、ネットワークからサーバ１にダウンロードしても良い。また、記録媒体に記憶させたものをサーバ１にインストールしてもよい。記録媒体としては、ＣＤ−ＲＯＭ等プログラムを記憶でき、かつサーバ１が読み取り可能な記録媒体であれば、その形態は何れの形態であっても良い。

図２は、サーバ１において、辞書更新機能７を実現するために必要な構成要素を示すブロック図である。サーバ１は、入力部１１、メタデータ生成部１２、辞書選択部１３、辞書更新部１４、関連情報検索部１５、前記外部システム６別の外部システム連携部１６及びデータベース記憶部１７を備えている。

データベース記憶部１７は、前記辞書データベース５のほかにルールデータベース２０と連携情報データベース３０とを記憶している。なお、図１ではサーバ１内の記憶装置にデータベース記憶部１７を設けているが、データベース記憶部１７は、サーバ１に対して外付けされた補助記憶装置に設けてもよい。あるいは、例えばルールデータベース２０と連携情報データベース３０はサーバ１内の記憶装置で記憶し、辞書データベース５はサーバ１外の補助記憶装置で記憶するというように、データベースの一部を内部に、残りを外部に設けることも可能である。

辞書データベース５に保存される認識用辞書ファイルの一例を図３に示す。辞書ファイルには、辞書名ファイル７１、語ファイル７２、辞書・語関連ファイル７３等がある。辞書名ファイル７１には、辞書ＩＤに関連付けて辞書タイプ及び辞書名などが記録されている。語ファイル７２には、語ＩＤに関連付けて語などが記録されている。辞書・語関連ファイル７３には辞書ＩＤ及び語ＩＤに関連付けて出現頻度等が記録されている。

辞書ＩＤは、対応する辞書タイプ及び辞書名の辞書を識別するためのコードである。語ＩＤは、対応する語を識別するためのコードである。出現頻度は、対応する辞書ＩＤによって特定される辞書において、対応する語ＩＤによって特定される語が出現する頻度である。

ルールデータベース２０に保存されるルールファイルには、辞書選択ルールファイル２１、辞書連結ルールファイル２２及び辞書更新ルールファイル２３がある。辞書選択ルールファイル２１に記録されるルールデータの一例を図４に示す。図示するように、辞書選択ルールファイル２１には、固有のルールＩＤに１対１で対応して、対象データコード、属性、比較値、条件、外部連携ＩＤ、選択辞書ＩＤが少なくとも記録されている。

対象データコードは、比較対象となるデータを指定するコードであり、コード“０”は、比較対象データがメタデータであることを示し、コード“１”は、比較対象データが外部システムから取得したデータであることを示し、コード“２”は、比較対象データがメタデータと外部システムから取得したデータの両方であることを示している。属性は、比較する属性を指定する情報である。

比較値は、比較対象データと比較される値を指定する情報であり、例えば、ｅメールアドレスを示す“Taro.tokyo@ttt.co.jp”，“東京太郎”等の文字列や、“２”，“１００”等の数値等の情報がセットされる。なお、比較値が何も指定されない場合は、データ“NULL”がセットされる。条件は、比較対象データの属性の値と比較値とが成立する関係を指定する情報であり、例えば、“完全一致”、“部分一致”等の文字列比較の条件を示す情報がセットされたり、“差が比較値以内”、“差が比較値以上”などの数値比較の条件を示す情報がセットされたりする。なお、比較値が指定されていないために条件が問われない場合は、データ“Ｎｏｔ”がセットされる。

外部連携ＩＤは、外部システム６と連携する場合において、その連携先となる外部システム６を識別するコードである。各外部システム６には、それぞれ固有の外部連携ＩＤが割当設定されている。なお、外部システム６と連携しない場合は、外部連携ＩＤとして“０”がセットされる。選択辞書ＩＤは、比較対象データと比較値との間で条件が成立する場合に、選択される辞書ファイルを識別するコードである。辞書データベース５に保存されている各辞書ファイルには、それぞれ固有の辞書ＩＤが割当設定されている。

例えば、ルールＩＤ“１”に対応する辞書選択ルールの場合、対象データコードが“０”、属性が“送信者アドレス”、比較値が“Taro.tokyo@ttt.co.jp”、条件が“完全一致”、外部連携ＩＤが“０”、選択辞書ＩＤが“１”であるから、メタデータの中の送信者アドレスが“Taro.tokyo@ttt.co.jp”と完全一致の場合に条件が成立し、辞書ＩＤ“１”で識別される辞書ファイルが選択される。

また、ルールＩＤ“２”に対応する辞書選択ルールの場合、対象データコードが“０”、属性が“宛先アドレス”、比較値が“Group1”、条件が“前方一致”、外部連携ＩＤが“０”、選択辞書ＩＤが“２”であるから、メタデータの中の宛先アドレスが“Group1”で始まる場合に条件が成立し、辞書ＩＤ“２”で識別される辞書ファイルが選択される。

また、ルールＩＤ“１１”に対応する辞書選択ルールの場合、対象データコードが“２”、属性が“Ｄａｔｅ”、比較値が“２”、条件が“差が比較値以内”、外部連携ＩＤが“１”、選択辞書ＩＤが“１”であるから、メタデータの中の日付と外部連携ＩＤ“１”によって識別される外部システム６から取得したデータの日付との差が２日以内である場合に条件が成立し、辞書ＩＤ“１”で識別される辞書ファイルが選択される。

同様に、ルールＩＤ“１３”に対応する辞書選択ルールの場合、対象データコードが“１”、属性が“グループ名”、比較値が“Ｎｕｌｌ”、条件が“Ｎｏｔ”、外部連携ＩＤが“２”、選択辞書ＩＤが“３”であるから、外部連携ＩＤ“２”によって識別される外部システム６から取得したデータのグループ名に対し、辞書ＩＤ“３”で識別される辞書ファイルが選択される。

辞書連結ルールファイル２２に記録されるルールデータの一例を図５に示す。図示するように、辞書連結ルールファイル２２には、固有の連結ルールＩＤに１対１で対応して、連結対象となる２つの辞書選択ルールの各ルールＩＤ（ルールＩＤａ，ルールＩＤｂ）と、条件と、辞書選択方法とが記録されている。

条件は、連結対象となる２つの辞書選択ルールが成立する関係を示す情報であり、少なくとも一方の辞書選択ルールが成立する場合に連結条件が成立したとみなす情報“ＯＲ”と、双方の辞書選択ルールが成立した場合に連結条件が成立したとみなす“ＡＮＤ”とがある。辞書選択方法は、連結条件が成立した際に選択する辞書ファイルを指定する情報であり、“Ｂｏｔｈ”、“ＴｒｕｅＯｎｌｙ”、“Ｒｕｌｅ２Ｏｎｌｙ”等がある。“Ｂｏｔｈ”は、連結対象となる２つの辞書選択ルールによりそれぞれ選択される２つの辞書ファイルを連結条件が成立した際に選択する。“ＴｒｕｅＯｎｌｙ”は、連結対象となる２つの辞書選択ルールのうち成立した方のルールに対応する辞書ファイルを連結条件が成立した際に選択する。“Ｒｕｌｅ２Ｏｎｌｙ”は、連結対象となる２つの辞書選択ルールのうちルールＩＤｂに対応する辞書ファイルを連結条件が成立した際に選択する。

例えば、連結ルールＩＤ“１０１”に対応する辞書連結ルールの場合、ルールＩＤａが“１”、ルールＩＤｂが“２”、条件“ＯＲ”、辞書選択方法“Ｂｏｔｈ”であるので、ルールＩＤ“１”の辞書選択ルールとルールＩＤ“２”の辞書選択ルールのうち少なくとも一方が成立した場合は、ルールＩＤ“１”の辞書選択ルールとルールＩＤ“２”の辞書選択ルールのそれぞれの選択辞書ＩＤで識別される辞書ファイルを選択する。

また、連結ルールＩＤ“１０２” に対応する辞書連結ルールの場合、ルールＩＤａが“１１”、ルールＩＤｂが“１２”、条件“ＡＮＤ”、辞書選択方法“Ｂｏｔｈ”であるので、ルールＩＤ“１１”の辞書選択ルールとルールＩＤ“１２”の辞書選択ルールの双方が成立した場合に限り、ルールＩＤ“１１”の辞書選択ルールとルールＩＤ“１２”の辞書選択ルールのそれぞれの選択辞書ＩＤで識別される辞書ファイルを選択する。

同様に、連結ルールＩＤ“１０３” に対応する辞書連結ルールの場合、ルールＩＤａが“３”、ルールＩＤｂが“４”、条件“ＯＲ”、辞書選択方法“ＴｒｕｅＯｎｌｙ”であるので、ルールＩＤ“３”の辞書選択ルールとルールＩＤ“４”の辞書選択ルールのうち少なくとも一方が成立した場合は、その成立した辞書選択ルールの選択辞書ＩＤで識別される辞書ファイルを選択する。

また、連結ルールＩＤ“１０４” に対応する辞書連結ルールの場合、ルールＩＤａが“１３”、ルールＩＤｂが“１４”、条件“ＡＮＤ”、辞書選択方法“Ｒｕｌｅ２Ｏｎｌｙ”であるので、ルールＩＤ“１３”の辞書選択ルールとルールＩＤ“１４”の辞書選択ルールの双方が成立した場合に限り、ルールＩＤ“１４”の辞書選択ルールの選択辞書ＩＤで識別される辞書ファイルを選択する。

辞書更新ルールファイル２３に記録されるルールデータの一例を図６に示す。辞書更新ルールファイル２３には、固有の辞書ＩＤに１対１で対応して、対象データコード、属性、比較値、条件、更新内容、外部連携ＩＤが少なくとも記録されている。対象データコード、属性、比較値、条件及び外部連携ＩＤは、辞書選択ルールファイル２１に記録されるデータと同様である。更新内容は、条件が成立した場合に更新される内容を示す情報であって、例えば“追加更新”は、辞書ＩＤで特定される辞書ファイルに、対象データのなかの属性の語を追加する。あるいは、既に属性の語が当該辞書ファイルに登録されている場合は、その後の頻度を＋１加算する。

例えば、図６において、先頭の辞書更新ルールの場合、辞書ＩＤが「１」、対象データコードが「０」、属性が「頻出語」、比較値が「Ｎｕｌｌ」、条件が「Ｎｏｔ」、更新内容が「追加更新」、外部連携ＩＤが「０」であるので、辞書ＩＤ「１」の辞書ファイルが更新対象であるとき、メタデータの頻出語を当該辞書ファイルに追加更新する。

また、図６において、先頭より２番目の辞書更新ルールの場合、辞書ＩＤが「３」、対象データコードが「１」、属性が「人名」、比較値が「Ｎｕｌｌ」、条件が「Ｎｏｔ」、更新内容が「追加更新」、外部連携ＩＤが「３」であるので、辞書ＩＤ「３」の辞書ファイルが更新対象であるとき、外部連携ＩＤ「３」で識別される外部システム６から戻り値として取得した人名を当該辞書ファイルに追加更新する。

同様に、図６において、先頭より３番目の辞書更新ルールの場合、辞書ＩＤが「１」、対象データコードが「１」、属性が「同義語」、比較値が「Ｎｕｌｌ」、条件が「Ｎｏｔ」、更新内容が「追加更新」、外部連携ＩＤが「１」であるので、辞書ＩＤ「１」の辞書ファイルが更新対象であるとき、外部連携ＩＤ「１」で識別される外部システム６から戻り値として取得した同義語を当該辞書ファイルに追加更新する。

また、図６において、先頭より４番目の辞書更新ルールの場合、辞書ＩＤが「２」、対象データコードが「１」、属性が「関連語」、比較値が「Ｎｕｌｌ」、条件が「Ｎｏｔ」、更新内容が「追加更新」、外部連携ＩＤが「２」であるので、辞書ＩＤ「２」の辞書ファイルが更新対象であるとき、外部連携ＩＤ「２」で識別される外部システム６から戻り値として取得した関連語を当該辞書ファイルに追加更新する。

連携情報データベース３０に保存される連携情報データファイル３１の一例を図７に示す。図示するように、連携情報データファイル３１には、各外部システム６をそれぞれ識別する外部連携ＩＤに１対１で対応して、サービス先、アクション及び属性の各項目からなるデータが設定記憶されている。項目「サービス先」は、外部システム６の形態を示す情報であり、例えば「GroupWare」は、対応する外部連携ＩＤで識別される外部システム６がグループウェアシステムであることを示し、「辞書サービス」は、対応する外部連携ＩＤで識別される外部システム６がＷｅｂ上の辞書サービスシステムであることを示している。

グループウェアは、企業など組織内のメンバ同士が情報共有や協調作業を支援するためのソフトウェアであり、グループウェアシステムは、グループウェアが搭載されているシステムである。グループウェアで提供されている機能としては、ウェブ掲示板、電子メール転送、スケジュール管理、メンバ管理等の機能がある。

辞書サービスシステムは、公開されたＡＰＩ（Application Program Interface）を用いてＷｅｂ上の辞書サイトに検索語を含むクエリを送信すると、指定された語の意味や同義語等のデータを返すシステムである。この他の外部システムとしては、例えばＷｅｂ上の検索サービスシステムがある。このシステムは、公開されたＡＰＩを用いてＷｅｂ上の検索サイトに検索語を含むクエリを送信すると、指定された語の検索結果として、検索結果数や関連するＷｅｂページの情報あるいは関連後などのデータを返すシステムである。

項目「アクション」は、対応する外部連携ＩＤで識別される外部システム６で実行するアクションを特定する情報であり、項目「属性」は、そのアクションにおいて適用するデータ項目の情報である。

例えば、外部連携ＩＤ「１」を含む連携情報データの場合、サービス先「GroupWare1」、アクション情報「スケジュール情報の取得」、属性「送信日時」が設定されているので、外部連携ＩＤ「１」で識別されるグループウェアシステムに対してスケジュール情報の取得というアクションを実行させ、さらにそのスケジュール情報の中の送信日時を戻り値としてグループウェアシステムから取得することを意味している。

また、外部連携ＩＤ「３」を含む連携情報データの場合、サービス先「辞書サービス」、アクション情報「登録されているか否かの検査」、属性「頻出語」が設定されているので、外部連携ＩＤ「３」で識別されるＷｅｂ上の辞書サービスシステムに対して、メタデータの頻出語が登録されているか否かを検査させ、登録されている場合にその語を戻り値として辞書サービスシステムから取得することを意味している。

次に、サーバ１のデータベース記憶部１７以外の各構成要素（入力部１１、メタデータ生成部１２、辞書選択部１３、辞書更新部１４、関連情報検索部１５、外部システム連携部１６）の機能について、図８〜図１２の流れ図を適宜参照しながら説明する。図８は、サーバ１の辞書更新機能７に関する基本処理の手順を示す流れ図、図９は、上記基本処理の中の辞書選択処理の手順を詳細に示す流れ図、図１０は、上記基本処理の中のルール連結処理の手順を詳細に示す流れ図、図１１は、上記ルール連結処理の中の選択辞書候補取得処理の手順を詳細に示す流れ図、図１２は、上記基本処理の中の辞書更新処理の手順を詳細に示す流れ図である。

入力部１１は、辞書更新に係るデータが入力されるのを待機する（図８：ＳＴ１）。辞書更新に係るデータは、例えばクライアント２から送出される電子メールデータや、複合機３のスキャナ機能から送出される原稿読取データ等である。

ネットワーク４を介して辞書更新に係るデータが入力されると、入力部１１は、その入力データを解析する（図８：ＳＴ２）。そして、入力データから画像データを抽出する（図８：ＳＴ３）。また、入力データから付随データを抽出する（図８：ＳＴ４）。

画像データは、コンピュータで解析可能なバイナリファイル形式のデータであり、電子メールデータに関しては、メール本文に添付される画像ファイル等が該当し、原稿読取データに関しては、スキャニングされた原稿画像データ等が該当する。付随データは、入力データに付随するデータであり、電子メールデータに関しては、ヘッダ情報に含まれる送信者メールアドレス、受信者メールアドレス、送信日時及びタイトルや、メール本文等が該当し、原稿読取データに関しては、インデックスデータに含まれる読取日時、原稿サイズ、読取頁数、読取機器の種別等が該当する（入力手段）。

入力部１１は、入力データから抽出した付随データを、メタデータ生成部１２に送信する。メタデータ生成部１２は、入力部１１から受信した付随データに基づいて、入力データのメタデータを生成する（図８：ＳＴ５）。メタデータには、付随データの属性とその値とがセットされる。例えば付随データの属性が「送信者メールアドレス」の場合、その値は、電子メールのヘッダ情報に含まれる“From”に記述されるメールアドレスとなる。属性「受信者メールアドレス」の場合は、同ヘッダ情報に含まれる“To”や“Cc”に記述されるメールアドレスとなる。属性「送信日時」の場合は、同ヘッダ情報に含まれる“Date”に記述される日付となる。属性「タイトル」の場合は、同ヘッダ情報に含まれる“Subject”に記述される文字列となる。

また、メール本文に関しては、形態素解析を行い、単語と品詞及び出現回数を計算する。そして、属性「最頻出語」に対して出現回数が最も多い名詞をその値とする。また、属性「頻出語」に対して出現回数が一定数以上の単語をその値とする。さらに、形態素解析から人名が得られた場合は、属性「人名」に対して形態素解析で得られた人名をその値とする（メタデータ生成手段）。

メタデータ生成部１２は、生成したメタデータを、辞書選択部１３に送信する。辞書選択部１３は、辞書選択ルールファイル２１に記録されている辞書選択ルールに基づいて、更新対象の辞書ファイルを１または２つ以上選択する（図８：ＳＴ６）。

具体的には、先ず、選択辞書メモリをクリアする（図９：ＳＴ１１）。また、辞書選択ルールのデータ数Ｎをしきい値メモリに記憶する（図９：ＳＴ１２）。さらに、カウンタメモリのカウント値ｉを“０”にリセットする（図９：ＳＴ１３）。選択辞書メモリ、しきい値メモリ及びカウンタメモリは、いずれもサーバ１の内部ＲＡＭ（Random Access Memory）に形成されている。

上記ＳＴ１１〜ＳＴ１３の処理が終了すると、辞書選択部１３は、カウンタメモリのカウント値ｉを“１”ずつカウントアップする（図９：ＳＴ１４）。そして、カウントアップする都度、しきい値メモリの値Ｎと比較し（図９：ＳＴ１５）、カウント値ｉがしきい値Ｎを超えるまで、ＳＴ１６〜ＳＴ２９の処理を繰返し実行する。

すなわち辞書選択部１３は、辞書選択ルールファイル２１から先頭よりｉ番目（ｉはカウント値）の辞書選択ルールデータを読み込み、選択ルールメモリSERule-iに格納する（図９：ＳＴ１６）。そして、選択ルールメモリSERule-iに格納した辞書選択ルールデータの外部連携ＩＤを調べる（図９：ＳＴ１７）。

外部連携ＩＤが“０”の場合（ＳＴ１７のＮＯ）、当該辞書選択ルールデータは、外部システム６と連携する必要がない。この場合、辞書選択部１３は、選択ルールメモリSERule-iに格納した辞書選択ルールデータの属性を認識する。そして、この属性の値を、メタデータ生成部１２から受信したメタデータより抽出し、第１の比較メモリmValueに格納する（図９：ＳＴ１８）。また、選択ルールメモリSERule-iに格納した辞書選択ルールデータの比較値を第２の比較メモリrValueに格納する（図９：ＳＴ１９）。

一方、選択ルールメモリSERule-iに格納した辞書選択ルールデータの外部連携ＩＤが“１”以上の場合は（ＳＴ１７のＹＥＳ）、当該辞書選択ルールデータは、外部システム６と連携する。この場合、辞書選択部１３は、メタデータ生成部１２から受信したメタデータと辞書選択ルールデータの外部連携ＩＤとを関連情報検索部１５に送信する（図９：ＳＴ２０）。そして、関連情報検索部１５からの戻り値を待機する（図９のＳＴ２１）。

関連情報検索部１５は、辞書選択部１３からメタデータと外部連携ＩＤとを受信すると、連携情報データベース３０の連携情報データファイル３１を検索して、その受信した外部連携ＩＤに対応して記憶されているサービス先、アクション及び属性等の外部連携システム情報を取得する。そして、この外部連携システム情報と、辞書選択部１３から受信したメタデータとを、該当する外部システム連携部１６に送信する。

外部システム連携部１６は、関連情報検索部１５から外部連携システム情報とメタデータとを受信すると、当該外部連携システム情報の外部連携ＩＤによって識別される外部システム６に対し、当該外部連携システム情報のアクション命令を与える。そして、外部システム６から当該アクションの結果である戻り値を取得したならば、この戻り値を、関連情報検索部１５を介して辞書選択部１３に与える（外部システム連携手段）。

辞書選択部１３は、関連情報検索部１５を介して外部システム６からの戻り値を受信すると、この戻り値を戻り値メモリsValueに格納する（図９：ＳＴ２２）。次いで、辞書選択部１３は、選択ルールメモリSERule-iに格納した辞書選択ルールデータの対象データコードが“１”であるか“２”であるかを判別する（図９：ＳＴ２３）。

対象データコードが“１”の場合（ＳＴ２３のＹＥＳ）、辞書選択部１３は、戻り値メモリsValueの値を第１の比較メモリmValueに格納する（図９：ＳＴ２４）。また、選択ルールメモリSERule-iに格納した辞書選択ルールデータの比較値を第２の比較メモリrValueに格納する（図９：ＳＴ２５）。

対象データコードが“２”の場合（ＳＴ２３のＮＯ）、辞書選択部１３は、選択ルールメモリSERule-iに格納した辞書選択ルールデータの属性を取得する。そして、メタデータ生成部１２から受信したメタデータより当該属性に該当する値を抽出し、第１の比較メモリmValueに格納する（図９：ＳＴ２６）。また、戻り値メモリsValueの値を第２の比較メモリrValueに格納する（図９：ＳＴ２７）。

第１の比較メモリmValueと第２の比較メモリrValueとにそれぞれ値が格納されると、辞書選択部１３は、第１の比較メモリmValueの値と第２の比較メモリrValueの値とを比較し、選択ルールメモリSERule-iに格納した辞書選択ルールデータの条件が成立するか否かを判断する（図９：ＳＴ２８）。条件が成立しない場合（ＳＴ２８のＮＯ）、ＳＴ１４に戻り、カウンタｉをさらにカウントアップして、ＳＴ１５以降の処理を再度実行する。

条件が成立した場合（ＳＴ２８のＹＥＳ）、辞書選択部１３は、選択ルールメモリSERule-iに格納した辞書選択ルールデータのルールＩＤと選択辞書ＩＤとを対にして、選択辞書メモリに追加する（ＳＴ２９）。しかる後、ＳＴ１４に戻り、カウンタｉをさらにカウントアップして、ＳＴ１５以降の処理を再度実行する。

こうして、辞書選択ルールファイル２１に記録されている全ての辞書選択ルールデータについて、ＳＴ１６〜ＳＴ２９の処理が実行されると、カウンタｉがしきい値Ｎを越え（ＳＴ１５のＹＥＳ）、辞書選択処理が終了する（辞書選択手段）。

辞書選択処理が終了すると、辞書選択部１３は、次に、ルール連結処理を実行する（図８：ＳＴ７）。先ず、辞書連結ルールファイル２２に記録される辞書連結ルールのデータ数Ｎを閾値メモリに記憶する（図１０のＳＴ３１）。また、カウンタメモリのカウント値ｉを“０”にリセットする（図１０：ＳＴ３２）。

上記ＳＴ３１〜ＳＴ３２の処理が終了すると、辞書選択部１３は、カウンタメモリのカウント値ｉを“１”ずつカウントアップする（図１０：ＳＴ３３）。そして、カウントアップする都度、しきい値メモリの値Ｎと比較し（図１０：ＳＴ３４）、カウント値ｉがしきい値Ｎを超えるまで、ＳＴ３５〜ＳＴ３８の処理を繰返し実行する。

すなわち辞書選択部１３は、辞書連結ルールファイル２２から先頭よりｉ番目（ｉはカウント値）の連結辞書ルールデータを読み込み、連結ルールメモリCORule-iに格納する（図１０：ＳＴ３５）。そして、連結ルールメモリCORule-iメモリに格納した連結辞書ルールデータについて、連結ルールＩＤ、連結対象となる２つの辞書選択ルールの各ＩＤ（ルールＩＤａ，ルールＩＤｂ）、条件及び辞書選択方法の各情報をそれぞれ取得し、ＩＤメモリID、第１の対象メモリRule-ia、第２の対象メモリRule-ib、条件メモリCondition及び辞書選択方法メモリDictionaryに分けて格納する（図１０：ＳＴ３６）。

しかる後、辞書選択部１３は、選択辞書候補取得処理を実行する（図１０：ＳＴ３７）。具体的には、先ず、選択辞書候補メモリをクリアする（図１１：ＳＴ５１）。次いで、条件メモリConditionで記憶している条件の情報が“ＡＮＤ”であるか（図１１：ＳＴ５２）、“ＯＲ”であるかを判断する（図１１：ＳＴ５３）。条件情報が“ＡＮＤ”でも“ＯＲ”でもない場合（図１１：ＳＴ５２でＮＯ、ＳＴ５３でＮＯ）、選択辞書候補取得処理が終了する。

条件情報が“ＡＮＤ”の場合（ＳＴ５２のＹＥＳ）、辞書選択部１３は、選択辞書メモリに第１の対象メモリRule-iaで記憶しているルールＩＤと第２の対象メモリRule-ibで記憶しているルールＩＤの両方が存在するか否かを判断する（図１１：ＳＴ５４）。第１の対象メモリRule-iaで記憶しているルールＩＤと第２の対象メモリRule-ibで記憶しているルールＩＤの少なくとも一方が選択辞書メモリに記憶されていない場合（ＳＴ５４のＮＯ）、選択辞書候補取得処理が終了する。

第１の対象メモリRule-iaで記憶しているルールＩＤと第２の対象メモリRule-ibで記憶しているルールＩＤの両方が選択辞書メモリに記憶されている場合（ＳＴ５４のＹＥＳ）、辞書選択方法メモリDictionaryで記憶している辞書選択方法を示す情報の判定処理（図１１：ＳＴ５６、ＳＴ５７、ＳＴ５８）に進む。

一方、条件が”ＯＲ”の場合（ＳＴ５３のＹＥＳ）、辞書選択部１３は、選択辞書メモリに第１の対象メモリRule-iaで記憶しているルールＩＤと第２の対象メモリRule-ibで記憶しているルールＩＤの少なくとも一方が存在するか否かを判断する（図１１：ＳＴ５５）。第１の対象メモリRule-iaで記憶しているルールＩＤと第２の対象メモリRule-ibで記憶しているルールＩＤの両方が選択辞書メモリに記憶されていない場合（ＳＴ５５のＮＯ）、選択辞書候補取得処理が終了する。

第１の対象メモリRule-iaで記憶しているルールＩＤと第２の対象メモリRule-ibで記憶しているルールＩＤの少なくとも一方が選択辞書メモリに記憶されている場合（ＳＴ５５のＹＥＳ）、辞書選択部１３は、辞書選択方法メモリDictionaryで記憶している辞書選択方法を示す情報の判定処理（図１１：ＳＴ５６、ＳＴ５７、ＳＴ５８）に進む。

上記判定処理は、先ず、辞書選択方法メモリDictionaryで記憶している辞書選択方法を示す情報が“Ｂｏｔｈ”であるか否かを判断する（図１１：ＳＴ５６）。辞書選択方法を示す情報が“Ｂｏｔｈ”である場合（ＳＴ５６のＹＥＳ）、辞書選択部１３は、第１の対象メモリRule-iaで記憶しているルールＩＤと対になって選択辞書メモリにて記憶されている選択辞書ＩＤと、第２の対象メモリRule-ibで記憶しているルールＩＤと対になって選択辞書メモリにて記憶されている選択辞書ＩＤとを選択辞書メモリから削除し、選択辞書候補メモリに追加する（図１１：ＳＴ５９）。

辞書選択方法を示す情報が“Ｂｏｔｈ”でない場合（ＳＴ５６のＮＯ）、辞書選択部１３は、辞書選択方法メモリDictionaryで記憶している辞書選択方法を示す情報が“ＴｒｕｅＯｎｌｙ”であるか否かを判断する（図１１：ＳＴ５７）。辞書選択方法を示す情報が“ＴｒｕｅＯｎｌｙ”である場合（ＳＴ５７のＹＥＳ）、辞書選択部１３は、第１の対象メモリRule-iaで記憶しているルールＩＤと対になって選択辞書メモリにて記憶されている選択辞書ＩＤが存在する場合は、その選択辞書ＩＤを選択辞書メモリから削除し、選択辞書候補メモリに追加する。また、第２の対象メモリRule-ibで記憶しているルールＩＤと対になって選択辞書メモリにて記憶されている選択辞書ＩＤが存在する場合は、その選択辞書ＩＤを選択辞書メモリから削除し、選択辞書候補メモリに追加する（図１１：ＳＴ６０）。

辞書選択方法を示す情報が“ＴｒｕｅＯｎｌｙ”でもない場合（ＳＴ５７のＮＯ）、辞書選択部１３は、辞書選択方法メモリDictionaryで記憶している辞書選択方法を示す情報が“Ｒｕｌｅ２Ｏｎｌｙ”であるか否かを判断する（図１１：ＳＴ５８）。辞書選択方法を示す情報が“Ｒｕｌｅ２Ｏｎｌｙ”である場合（ＳＴ５８のＹＥＳ）、辞書選択部１３は、第２の対象メモリRule-ibで記憶しているルールＩＤと対になって選択辞書メモリにて記憶されている選択辞書ＩＤを選択辞書メモリから削除し、選択辞書候補メモリに追加する（図１１：ＳＴ６１）。以上で、選択辞書候補取得処理が終了する。

選択辞書候補取得処理が終了すると、辞書選択部１３は、ＩＤメモリIDに記憶している連結ルールＩＤと、選択辞書候補メモリ内の辞書ＩＤとを対にして、選択辞書メモリに追加する（図１０：ＳＴ３８）。しかる後、ＳＴ３３に戻り、カウンタｉをさらにカウントアップして、ＳＴ３４以降の処理を再度実行する。

こうして、辞書連結ルールファイル２２に記録されている全ての連結辞書ルールデータについて、ＳＴ３５〜ＳＴ３８の処理が実行されると、カウンタｉがしきい値Ｎを越え（ＳＴ３４のＹＥＳ）、辞書選択部１３は、選択辞書メモリ内の辞書ＩＤにより選択辞書リストを作成する（図１０：ＳＴ３９）。以上で、ルール連結処理が終了する。

ルール連結処理が終了すると、辞書選択部１３は、メタデータ生成部１２にて生成されたメタデータと、ルール連結処理によって作成した選択辞書リストとを、辞書更新部１４に送信する。辞書更新部１４は、辞書更新ルールファイル２３に記録されている辞書更新ルールに基づいて、選択辞書リストに記録された辞書ＩＤで識別される辞書ファイルの更新処理を実行する（図８：ＳＴ８）。

先ず、辞書更新ルールファイル２３に記録されている辞書更新ルールデータのデータ数Ｎをしきい値メモリに記憶する（図１２：ＳＴ７１）。また、カウンタメモリのカウント値ｉを“０”にリセットする（図１２：ＳＴ７２）。

上記ＳＴ７１〜ＳＴ７２の処理が終了すると、辞書更新部１４は、カウンタメモリのカウント値ｉを“１”ずつカウントアップする（図１２：ＳＴ７３）。そして、カウントアップする都度、しきい値メモリの値Ｎと比較し（図１２：ＳＴ７４）、カウント値ｉがしきい値Ｎを超えるまで、ＳＴ７５〜ＳＴ８９の処理を繰返し実行する。

すなわち辞書更新部１４は、辞書更新ルールファイル２３から先頭よりｉ番目（ｉはカウント値）の辞書更新ルールデータを読み込み、更新ルールメモリUPRule-iに格納する（図１２：ＳＴ７５）。そして、更新ルールメモリUPRule-iに格納した辞書更新ルールデータの辞書ＩＤが選択辞書リストに含まれているか否かを判断する（図１２：ＳＴ７６）。含まれていない場合（ＳＴ７６のＮＯ）、ＳＴ７３に戻り、カウンタｉをさらにカウントアップして、ＳＴ７４以降の処理を再度実行する。

更新ルールメモリUPRule-iに格納した辞書更新ルールデータの辞書ＩＤが選択辞書リストに含まれていたならば（ＳＴ７６のＹＥＳ）、辞書更新部１４は、更新ルールメモリUPRule-iに格納した辞書更新ルールデータの外部連携ＩＤを調べる（図１２：ＳＴ７７）。

外部連携ＩＤが“０”の場合（ＳＴ７７のＮＯ）、当該辞書更新ルールデータは、外部システム６と連携する必要がない。この場合、辞書更新部１４は、更新ルールメモリUPRule-iに格納した辞書更新ルールデータの属性を認識する。そして、この属性の値を、辞書選択部１３から受信したメタデータより抽出し、第１の比較メモリmValueに格納する（図１２：ＳＴ７８）。また、更新ルールメモリUPRule-i に格納した辞書更新ルールデータの比較値を第２の比較メモリrValueに格納する（図１２：ＳＴ７９）。

一方、更新ルールメモリUPRule-iに格納した辞書更新ルールデータの外部連携ＩＤが“１”以上の場合は（ＳＴ７７のＹＥＳ）、当該辞書更新ルールデータは、外部システム６と連携する。この場合、辞書更新部１４は、辞書選択部１３から受信したメタデータと辞書更新ルールデータの外部連携ＩＤとを関連情報検索部１５に送信する（図１２：ＳＴ８０）。そして、関連情報検索部１５からの戻り値を待機する（図１２のＳＴ８１）。このときの関連情報検索部１５及び外部システム連携部１６の動作は、辞書選択処理のときと同様である。

辞書更新部１４は、関連情報検索部１５を介して外部システム６からの戻り値を受信すると、この戻り値を戻り値メモリsValueに格納する（図１２：ＳＴ８２）。次いで、辞書更新部１４は、更新ルールメモリUPRule-iに格納した辞書更新ルールデータの対象データコードが“１”であるか“２”であるかを判別する（図１２：ＳＴ８３）。

対象データコードが“１”の場合（ＳＴ８３のＹＥＳ）、辞書更新部１４は、戻り値メモリsValueの値を第１の比較メモリmValueに格納する（図１２：ＳＴ８４）。また、更新ルールメモリUPRule-iに格納した辞書更新ルールデータの比較値を第２の比較メモリrValueに格納する（図１２：ＳＴ８５）。

対象データコードが“２”の場合（ＳＴ８３のＮＯ）、辞書更新部１４は、更新ルールメモリUPRule-iに格納した辞書更新ルールデータから属性を取得する。そして、辞書選択部１３から受信したメタデータより当該属性に該当する値を抽出し、第１の比較メモリmValueに格納する（図１２：ＳＴ８６）。また、戻り値メモリsValueの値を第２の比較メモリrValueに格納する（図１２：ＳＴ８７）。

第１の比較メモリmValueと第２の比較メモリrValueとにそれぞれ値が格納されると、辞書更新部１４は、第１の比較メモリmValueの値と第２の比較メモリrValueの値とを比較し、更新ルールメモリUPRule-iに格納した辞書更新ルールデータの条件が成立するか否かを判断する（図１２：ＳＴ８８）。条件が成立しない場合（ＳＴ８８のＮＯ）、ＳＴ７３に戻り、カウンタｉをさらにカウントアップして、ＳＴ７４以降の処理を再度実行する。

条件が成立した場合（ＳＴ８８のＹＥＳ）、辞書更新部１４は、更新ルールメモリUPRule-iに格納した辞書更新ルールデータの更新内容に基づいて、同辞書更新ルールデータの辞書ＩＤで識別される辞書ファイルのデータを更新する（図１２：ＳＴ８９）。しかる後、ＳＴ７３に戻り、カウンタｉをさらにカウントアップして、ＳＴ７４以降の処理を再度実行する。

こうして、辞書更新ルールファイル２３に記録されている全ての辞書更新ルールデータについて、ＳＴ７５〜ＳＴ８９の処理が実行されると、カウンタｉがしきい値Ｎを越え（ＳＴ７４のＹＥＳ）、辞書更新処理が終了する（辞書更新手段）。

このような構成の辞書更新機能７を有するサーバ１において、クライアント２から電子メールを受信すると、入力部１１においては、電子メールから付随データとしてヘッダ情報やメール本文が抽出される。また、電子メールに画像ファイル以外の添付ファイルが存在する場合は、添付ファイル内に含まれているテキストデータが取得される。付随データやテキストデータは、メタデータ生成部１２に送られる。

メタデータ生成部１２においては、付随データのヘッダ情報やメール本文からメタデータが生成される。また、テキストデータが含まれる場合は、このテキストデータからもメタデータが生成される。生成されたメタデータは、辞書選択部１３に送信される。

辞書選択部１３においては、メタデータを基に、辞書選択ルールファイル２１に登録されている辞書選択ルールの条件が成立するか否か判定される。この判定に際し、外部システム６と連携する設定がなされている辞書選択ルールについては、該当する外部システム６と連携して判定が行われる。条件が成立した場合、そのルールのルールＩＤと、そのルールに設定された選択辞書ＩＤとが対になって選択辞書メモリに記憶される。

次いで、辞書選択部１３においては、選択辞書メモリに選択辞書ＩＤと対になって記憶されたルールＩＤに対し、辞書連結ルールファイル２２に登録されている辞書連結ルールの連結条件が成立するか否かが判定される。そして、連結条件が成立する２つのルールＩＤについては、その連結ルールの辞書選択方法に従ったルールＩＤと対になった選択辞書ＩＤが選択辞書メモリに残る。

かくして、辞書選択部１３においては、選択辞書メモリに記憶された選択辞書ＩＤから選択辞書リストが作成される。作成された選択辞書リストは、メタデータ生成部１２で生成されたメタデータとともに辞書更新部１４に送られる。

辞書更新部１４においては、辞書更新ルールファイル２３に登録されている各辞書更新ルールの中から、選択辞書リストに登録されている選択辞書ＩＤを対象とする辞書更新ルールが選択される。そして、メタデータを基に、この選択された辞書更新ルールの条件が成立するか否かが判定される。この判定に際し、外部システム６と連携する設定がなされている辞書更新ルールについては、該当する外部システム６と連携して判定が行われる。条件が成立した場合、そのルールの辞書ＩＤで識別される辞書ファイルが更新される。

このように、本実施形態のサーバ１によれば、入力部１１に入力される辞書更新に係るデータを基に、ユーザに負担をかけることなく自動的に認識用辞書ファイルを更新することができる。したがって、認識用辞書ファイルのメンテナンスに要する手間と時間を省くことができ、コストを削減することができる。

（第２の実施形態）
次に、本発明の文字認識装置に係る第２の実施の形態について、図１３〜図１５を用いて説明する。なお、この第２の実施の形態において、第１の実施の形態と共通する部分には極力同じ符号を付し、詳しい説明は省略する。

図１３は、第２の実施の形態のシステム構成図である。本システムも、サーバ１００とクライアント２と複合機３とを備え、これらの間をネットワーク４で接続している。

サーバ１は、辞書更新装置及び文字認識装置として機能する。すなわちサーバ１は、前記辞書更新機能７に加えて、辞書データベース５に登録されている種々の認識用辞書ファイルを用い、クライアント２や複合機３から受信した画像ファイルの文字認識を実行する文字認識機能１０１を有する。辞書更新機能７及び文字認識機能１０１は、サーバ１００に実装された文字認識プログラムによって実現される。

文字認識プログラムは、サーバ１内部の記憶装置に予め記憶されていてもよいし、ネットワークからサーバ１にダウンロードしても良い。また、記録媒体に記憶させたものをサーバ１にインストールしてもよい。記録媒体としては、ＣＤ−ＲＯＭ等プログラムを記憶でき、かつサーバ１が読み取り可能な記録媒体であれば、その形態は何れの形態であっても良い。

図１４は、サーバ１において、辞書更新機能７と文字認識機能１０１とを実現するために必要な構成要素を示すブロック図である。本実施の形態では、図２に示す第１の実施の形態と比較して、画像取得部１１１、文字認識部１１２及び出力部１１３を追加している。その他の構成要素１１〜１７は、第１の実施形態と同一である。

図１５は、サーバ１の辞書更新機能７及び文字認識機能１０１に関する基本処理の手順を示す流れ図である。以下、この流れ図を適宜参照して、サーバ１の各構成要素の機能について説明する。なお、第１の実施形態と共通する部分については、説明を簡略する。

入力部１１は、辞書更新に係るデータが入力されるのを待機する（図１５：ＳＴ１０１）。ネットワーク４を介して辞書更新に係るデータが入力されると、入力部１１は、その入力データを解析する（図１５：ＳＴ１０２）。そして、入力データから画像データを抽出する（図１５：ＳＴ１０３）。また、入力データから付随データを抽出する（図１５：ＳＴ１０４）。

入力部１１は、入力データから抽出した画像データ及び付随データを、メタデータ生成部１２に送信する。メタデータ生成部１２は、入力部１１から受信した付随データに基づいて、入力データのメタデータを生成する（図１５：ＳＴ１０５）。

また、入力部１１は、入力データから抽出した画像データを画像取得部１１１に送信する。画像取得部１１１は、入力部１１から画像データを取得すると、その画像データの数Ｎをしきい値メモリに記憶する（図１５：ＳＴ１０６）。また、画像データリストメモリをクリアする（図１５：ＳＴ１０７）。さらに、カウンタメモリのカウント値ｉを“０”にリセットする（図１５：ＳＴ１０８）。しきい値メモリ、画像データリストメモリ及びカウンタメモリは、いずれもサーバ１の内部ＲＡＭに形成されている。

上記ＳＴ１０１〜ＳＴ１０８の処理が終了すると、画像取得部１１１は、カウンタメモリのカウント値ｉを“１”ずつカウントアップする（図１５：ＳＴ１０９）。そして、カウントアップする都度、しきい値メモリの値Ｎと比較し（図１５：ＳＴ１１０）、カウント値ｉがしきい値Ｎを超えるまで、ＳＴ１１１〜ＳＴ１１２の処理を繰返し実行する。

すなわち画像取得部１１１は、入力部１１から取得したｉ番目の画像データについて、ノイズ除去、フォーマット変換などの前処理を実行する（図１５：ＳＴ１１１）。そして、この前処理を実行した画像データを前記画像データリストメモリに追加する（図１５：ＳＴ１１２）。

入力部１１から取得した全ての画像データに対して前処理を終えると、カウント値ｉがしきい値Ｎを超える。カウント値ｉがしきい値Ｎを超えたならば（ＳＴ１１０のＹＥＳ）、画像取得部１１１は、画像データリストメモリに記憶された画像のリストデータを文字認識部１１２に与える（画像取得手段）。

一方、辞書選択部１３は、辞書選択ルールファイル２１に記録されている辞書選択ルールに基づいて、更新対象の辞書ファイルを１または２つ以上選択する（図１５：ＳＴ１１３）。辞書選択処理が終了すると、辞書選択部１３は、次に、ルール連結処理を実行する（図１５：ＳＴ１１４）。ルール連結処理が終了すると、辞書選択部１３は、メタデータ生成部１２にて生成されたメタデータと、ルール連結処理によって作成した選択辞書リストとを、辞書更新部１４及び文字認識部１１２に送信する。

辞書更新部１４は、辞書更新ルールファイル２３に記録されている辞書更新ルールに基づいて、選択辞書リストに記録された辞書ＩＤで識別される辞書ファイルの更新処理を実行する（図１５：ＳＴ１１５）。

文字認識部１１２は、画像データリストから画像データを取り込む。そして、選択辞書リストに記録された辞書ＩＤで識別される辞書ファイルを用いて、上記画像データの文字認識を行う（図１５：ＳＴ１１６）。出力部１１３は、文字認識部１１２での文字認識結果を、入力データに添付してクライアント２に送信する（図１５：ＳＴ１１７）。例えば、文字認識結果をテキストデータとして、入力データの画像データとともにクライアント２に送信する。あるいは、画像データの付属情報に文字認識結果のテキストデータを設定して、クライアントに送信する（文字認識手段）。

このように、本実施形態のサーバ１００によれば、入力部１１に入力される辞書更新に係るデータを基に、ユーザに負担をかけることなく自動的に認識用辞書ファイルを更新することができるのに加え、更新後の認識用辞書ファイルを用いて、入力データに添付される画像データの文字認識を行うことができるので、手書き文字などに関して精度の高い文字認識を実現することができる。

なお、この発明は前記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。
例えば前記実施形態では、辞書更新に係るデータとして電子メールデータと原稿読取データとを例示したが、これに限定されるものではなく、文字認識対象である画像データと、この画像データに付随するデータとからなるデータであれば、辞書更新に係るデータとして用いることができる。すなわち、この画像データと付随データとからなるデータをサーバ１またはサーバ１００に送信可能な機器であれば、本実施形態のシステムに組み込むことができる。

この他、前記実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を組合わせてもよい。

１…サーバ（辞書更新装置）、２…クライアント、３…複合機、４…ネットワーク、５…辞書データベース、６…外部システム、７…辞書更新機能、１１…入力部、１２…メタデータ生成部、１３…辞書選択部、１４…辞書更新部、１５…関連情報検索部、１６…外部システム連携部、２０…ルールデータベース、２１…辞書選択ルールファイル、２２…辞書連結ルールファイル、２３…辞書更新ルールファイル、３０…連携情報データベース、１００…サーバ（辞書更新装置、文字認識装置）、１０１…文字認識機能、１１１…画像取得部、１１２…文字認識部、１１３…出力部。

特開平８−７０３２号公報

Claims

文字認識処理に用いる辞書ファイルを更新する辞書更新装置において、
入力された画像データから当該画像データに付随する付随データを抽出する入力手段と、
前記付随データから、その付随データの属性と値とがセットされたメタデータを生成するメタデータ生成手段と、
辞書選択ルールに定義された外部システムに、当該辞書選択ルールに定義された命令を与え、その結果を取得する外部システム連携手段と、
この外部システム連携手段により前記外部システムから得られた情報と前記メタデータ生成手段により生成された前記メタデータとを基に前記辞書選択ルールを判定し、成立するルールに定義された辞書ファイルを選択する辞書選択手段と、
この辞書選択手段により選択された辞書ファイルに対して設定された辞書更新ルールを判定し、成立する辞書更新ルールに定義された更新内容に従いそのルールに設定された辞書ファイルを更新する辞書更新手段と、
を具備したことを特徴とする辞書更新装置。
前記辞書選択手段は、辞書連結ルールに定義された複数の辞書選択ルールについて、それぞれその辞書選択ルールを判定し、その判定結果が当該辞書連結ルールを満足させるとき、当該辞書連結ルールに定義された辞書ファイルを選択することを特徴とする請求項１記載の辞書更新装置。
文字認識処理に用いる辞書ファイルにアクセス可能なコンピュータを、
入力された画像データから当該画像データに付随する付随データを抽出する入力手段、
前記付随データから、その付随データの属性と値とがセットされたメタデータを生成するメタデータ生成手段、
辞書選択ルールに定義された外部システムに、当該辞書選択ルールに定義された命令を与え、その結果を取得する外部システム連携手段、
この外部システム連携手段により前記外部システムから得られた情報と前記メタデータ生成手段により生成されたメタデータとを基に前記辞書選択ルールを判定し、成立するルールに定義された辞書ファイルを選択する辞書選択手段、及び
この辞書選択手段により選択された辞書ファイルに対して設定された辞書更新ルールを判定し、成立する辞書更新ルールに定義された更新内容に従いそのルールに設定された辞書ファイルを更新する辞書更新手段、
として機能させるための辞書更新プログラム。
前記辞書選択手段は、辞書連結ルールに定義された複数の辞書選択ルールについて、それぞれその辞書選択ルールを判定し、その判定結果が当該辞書連結ルールを満足させるとき、当該辞書連結ルールに定義された辞書ファイルを選択するように機能させるための請求項１記載の辞書更新プログラム。
辞書ファイルを用いて文字認識処理を行う文字認識装置において、
入力された画像データから当該画像データに付随する付随データを抽出する入力手段と、
前記付随データから、その付随データの属性と値とがセットされたメタデータを生成するメタデータ生成手段と、
辞書選択ルールに定義された外部システムに、当該辞書選択ルールに定義された命令を与え、その結果を取得する外部システム連携手段と、
この外部システム連携手段により前記外部システムから得られた情報と前記メタデータ生成手段により生成されたメタデータとを基に前記辞書選択ルールを判定し、成立するルールに定義された辞書ファイルを選択する辞書選択手段と、
この辞書選択手段により選択された辞書ファイルに対して設定された辞書更新ルールを判定し、成立する辞書更新ルールに定義された更新内容に従いそのルールに設定された辞書ファイルを更新する辞書更新手段と、
前記入力手段を介して入力された画像データを取得する画像取得手段と、
この画像取得手段により得られた画像データを、前記辞書更新手段により更新された辞書ファイルを用いて文字認識する文字認識手段と、
を具備したことを特徴とする文字認識装置。
文字認識処理に用いる辞書ファイルにアクセス可能なコンピュータを、
入力された画像データから当該画像データに付随する付随データを抽出する入力手段、
前記付随データから、その付随データの属性と値とがセットされたメタデータを生成するメタデータ生成手段、
辞書選択ルールに定義された外部システムに、当該辞書選択ルールに定義された命令を与え、その結果を取得する外部システム連携手段、
この外部システム連携手段により前記外部システムから得られた情報と前記メタデータ生成手段により生成されたメタデータとを基に前記辞書選択ルールを判定し、成立するルールに定義された辞書ファイルを選択する辞書選択手段、
この辞書選択手段により選択された辞書ファイルに対して設定された辞書更新ルールを判定し、成立する辞書更新ルールに定義された更新内容に従いそのルールに設定された辞書ファイルを更新する辞書更新手段、
前記入力手段を介して入力された画像データを取得する画像取得手段、及び
この画像取得手段により得られた画像データを、前記辞書更新手段により更新された辞書ファイルを用いて文字認識する文字認識手段、
として機能させるための文字認識プログラム。