JP5101584B2 - Dictionary update device, dictionary update program, character recognition device, and character recognition program - Google Patents
Dictionary update device, dictionary update program, character recognition device, and character recognition program Download PDFInfo
- Publication number
- JP5101584B2 JP5101584B2 JP2009214869A JP2009214869A JP5101584B2 JP 5101584 B2 JP5101584 B2 JP 5101584B2 JP 2009214869 A JP2009214869 A JP 2009214869A JP 2009214869 A JP2009214869 A JP 2009214869A JP 5101584 B2 JP5101584 B2 JP 5101584B2
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- rule
- update
- selection
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、文字認識処理等で利用する辞書を更新する辞書更新装置及びこの辞書更新機能を有した文字認識装置に関する。 The present invention relates to a dictionary update device that updates a dictionary used in character recognition processing and the like, and a character recognition device having this dictionary update function.
特許文献1は、手書き情報認識装置を開示する。この装置は、通信により端末と接続されている。この装置は、発信者と通信を行う情報通信手段と、該情報通信手段により受信した情報を編集する情報編集手段と、手書き文字パターンを認識する手書き情報認識手段と、受信した情報に発信者の属性を付加する属性付加手段と、発信者の属性に応じて手書き情報を分類し、分類した手書き情報をそれぞれの発信者の手書き文字の癖に特化した認識用辞書ファイルを用いて認識させる認識制御手段とを備えている。このような手段を備えた手書き情報認識装置であれば、発信者の手書き文字の癖に特化した認識用辞書ファイルを用いて認識できるので、正確な認識が可能となる。
しかしながら、たとえ発信者の手書き文字の癖に特化した認識用辞書ファイルを用いても、ファイルに登録されていない用語は認識することができない。通常、認識用辞書ファイルには汎用性のある用語は登録されているものの、特定の業界だけに通用するような特殊な用語は登録されていないことが多い。 However, even if a recognition dictionary file specialized for a caller's handwritten character trap is used, terms that are not registered in the file cannot be recognized. Normally, generic terms are registered in the recognition dictionary file, but there are many cases where special terms that are valid only for a specific industry are not registered.
このため、例えば会議においてホワイトボードに手書きされた文字を、会議後に自動認識技術により電子化して議事録の作成に供する場合があるが、会議では特殊な用語が用いられることが多いため、文字認識に失敗する確率が高い。このような問題は、認識用辞書ファイルを適宜更新すればよいが、辞書ファイルの更新作業は大変煩雑でコストがかかるため、更新されていないのが実情である。 For this reason, for example, characters handwritten on the whiteboard in a meeting may be digitized by automatic recognition technology after the meeting and used to create minutes. However, since special terms are often used in a meeting, character recognition There is a high probability of failure. Such a problem may be obtained by appropriately updating the recognition dictionary file. However, the updating of the dictionary file is very complicated and costly, so the fact is that it has not been updated.
本発明はこのような事情に基づいてなされたもので、その目的は、認識用辞書ファイルを容易に低コストで更新できるようにし、手書き文字等の文字認識精度を向上させることにある。 The present invention has been made based on such circumstances, and an object of the present invention is to make it possible to easily update a recognition dictionary file at a low cost and to improve character recognition accuracy of handwritten characters and the like.
本発明は、入力された画像データから当該画像データに付随する付随データを抽出する入力手段と、前記付随データから、その付随データの属性と値とがセットされたメタデータを生成するメタデータ生成手段と、辞書選択ルールに定義された外部システムに、当該辞書選択ルールに定義された命令を与え、その結果を取得する外部システム連携手段と、この外部システム連携手段により前記外部システムから得られた情報と前記メタデータ生成手段により生成されたメタデータとを基に前記辞書選択ルールを判定し、成立するルールに定義された辞書ファイルを選択する辞書選択手段と、この辞書選択手段により選択された辞書ファイルに対して設定された辞書更新ルールを判定し、成立する辞書更新ルールに定義された更新内容に従いそのルールに設定された辞書ファイルを更新する辞書更新手段とを備えたものである。
また本発明は、前記入力手段を介して入力された画像データを取得する画像取得手段と、この画像取得手段により得られた画像データを、前記辞書更新手段により更新された辞書ファイルを用いて文字認識する文字認識手段とをさらに備えたものである、
The present invention provides an input means for extracting accompanying data accompanying the image data from the input image data, and metadata generation for generating metadata in which attributes and values of the accompanying data are set from the accompanying data. Obtained from the external system by the external system cooperation means for giving the command defined in the dictionary selection rule to the external system defined in the dictionary selection rule and obtaining the result The dictionary selection rule is determined based on the information and the metadata generated by the metadata generation unit, and the dictionary selection unit that selects a dictionary file defined in the rule to be established, and the dictionary selection unit selects the dictionary file. The dictionary update rule set for the dictionary file is determined, and the update is defined according to the updated dictionary update rule. Is obtained by a dictionary updating means for updating the set dictionary file in the rule.
The present invention also provides an image acquisition means for acquiring image data input via the input means, and the image data obtained by the image acquisition means using the dictionary file updated by the dictionary update means. A character recognition means for recognizing,
かかる手段を講じた本発明によれば、認識用辞書ファイルを容易に低コストで更新でき、手書き文字等の文字認識精度を向上させることができる。 According to the present invention in which such measures are taken, the recognition dictionary file can be easily updated at low cost, and the accuracy of recognizing characters such as handwritten characters can be improved.
以下、本発明に係る実施形態を、図面を用いて説明する。
(第1の実施形態)
はじめに、本発明の辞書更新装置に係る第1の実施の形態について、図1〜図12を用いて説明する。
Hereinafter, embodiments according to the present invention will be described with reference to the drawings.
(First embodiment)
First, a first embodiment according to the dictionary updating apparatus of the present invention will be described with reference to FIGS.
図1は、第1の実施の形態のシステム構成図である。本システムは、サーバ1とクライアント2と複合機3とを備え、これらの間をネットワーク4で接続している。ネットワーク4は、イントラネットでもよいしインターネットでもよい。
FIG. 1 is a system configuration diagram of the first embodiment. This system includes a
サーバ1は、クライアント2と、SMTP(Simple Mail Transfer Protocol)を用いて電子メールをやり取りすることができる。また、サーバ1は、複合機3が備えるスキャナ機能により読み取られた原稿読取データを取り込むことができる。
The
なお、クライアント2及び複合機3の台数は1台に限定されるものではなく、複数台のクライアント2及び複合機3が、ネットワーク4を介してサーバ1に接続されていてもよい。この場合、サーバ1と各クライアント2とを接続するネットワークと、サーバ1と各複合機3を接続するネットラークとを別系統にしてもよい。
The number of
サーバ1は、辞書更新装置として機能する。すなわちサーバ1は、辞書データベース5に登録されている種々の認識用辞書ファイルを、クライアント2や複合機3から受信したデータを基に、グループウェアシステムやWeb辞書システム等を含む1乃至複数の外部システム6を適宜利用して更新する辞書更新機能7を有する。辞書更新機能7は、サーバ1に実装された辞書更新プログラムによって実現される。
The
辞書更新プログラムは、サーバ1内部の記憶装置に予め記憶されていてもよいし、ネットワークからサーバ1にダウンロードしても良い。また、記録媒体に記憶させたものをサーバ1にインストールしてもよい。記録媒体としては、CD−ROM等プログラムを記憶でき、かつサーバ1が読み取り可能な記録媒体であれば、その形態は何れの形態であっても良い。
The dictionary update program may be stored in advance in a storage device inside the
図2は、サーバ1において、辞書更新機能7を実現するために必要な構成要素を示すブロック図である。サーバ1は、入力部11、メタデータ生成部12、辞書選択部13、辞書更新部14、関連情報検索部15、前記外部システム6別の外部システム連携部16及びデータベース記憶部17を備えている。
FIG. 2 is a block diagram showing components necessary for realizing the
データベース記憶部17は、前記辞書データベース5のほかにルールデータベース20と連携情報データベース30とを記憶している。なお、図1ではサーバ1内の記憶装置にデータベース記憶部17を設けているが、データベース記憶部17は、サーバ1に対して外付けされた補助記憶装置に設けてもよい。あるいは、例えばルールデータベース20と連携情報データベース30はサーバ1内の記憶装置で記憶し、辞書データベース5はサーバ1外の補助記憶装置で記憶するというように、データベースの一部を内部に、残りを外部に設けることも可能である。
The
辞書データベース5に保存される認識用辞書ファイルの一例を図3に示す。辞書ファイルには、辞書名ファイル71、語ファイル72、辞書・語関連ファイル73等がある。辞書名ファイル71には、辞書IDに関連付けて辞書タイプ及び辞書名などが記録されている。語ファイル72には、語IDに関連付けて語などが記録されている。辞書・語関連ファイル73には辞書ID及び語IDに関連付けて出現頻度等が記録されている。
An example of a recognition dictionary file stored in the
辞書IDは、対応する辞書タイプ及び辞書名の辞書を識別するためのコードである。語IDは、対応する語を識別するためのコードである。出現頻度は、対応する辞書IDによって特定される辞書において、対応する語IDによって特定される語が出現する頻度である。 The dictionary ID is a code for identifying a dictionary having a corresponding dictionary type and dictionary name. The word ID is a code for identifying the corresponding word. The appearance frequency is the frequency at which the word specified by the corresponding word ID appears in the dictionary specified by the corresponding dictionary ID.
ルールデータベース20に保存されるルールファイルには、辞書選択ルールファイル21、辞書連結ルールファイル22及び辞書更新ルールファイル23がある。辞書選択ルールファイル21に記録されるルールデータの一例を図4に示す。図示するように、辞書選択ルールファイル21には、固有のルールIDに1対1で対応して、対象データコード、属性、比較値、条件、外部連携ID、選択辞書IDが少なくとも記録されている。
The rule files stored in the
対象データコードは、比較対象となるデータを指定するコードであり、コード“0”は、比較対象データがメタデータであることを示し、コード“1”は、比較対象データが外部システムから取得したデータであることを示し、コード“2”は、比較対象データがメタデータと外部システムから取得したデータの両方であることを示している。属性は、比較する属性を指定する情報である。 The target data code is a code that specifies data to be compared. The code “0” indicates that the comparison target data is metadata. The code “1” is obtained from the external system. The code “2” indicates that the comparison target data is both metadata and data acquired from the external system. The attribute is information that specifies an attribute to be compared.
比較値は、比較対象データと比較される値を指定する情報であり、例えば、eメールアドレスを示す“Taro.tokyo@ttt.co.jp”,“東京太郎”等の文字列や、“2”,“100”等の数値等の情報がセットされる。なお、比較値が何も指定されない場合は、データ“NULL”がセットされる。条件は、比較対象データの属性の値と比較値とが成立する関係を指定する情報であり、例えば、“完全一致”、“部分一致”等の文字列比較の条件を示す情報がセットされたり、“差が比較値以内”、“差が比較値以上”などの数値比較の条件を示す情報がセットされたりする。なお、比較値が指定されていないために条件が問われない場合は、データ“Not”がセットされる。 The comparison value is information for specifying a value to be compared with the comparison target data. For example, a character string such as “Taro.tokyo@ttt.co.jp” or “Tokyo Taro” indicating an email address, or “2 Information such as numerical values such as “100” is set. If no comparison value is specified, data “NULL” is set. The condition is information for specifying the relationship in which the attribute value of the comparison target data and the comparison value are established. For example, information indicating a condition for string comparison such as “complete match” or “partial match” is set. , Information indicating a numerical comparison condition such as “difference is within comparison value” or “difference is greater than or equal to comparison value” is set. Note that data “Not” is set when the condition is not questioned because the comparison value is not designated.
外部連携IDは、外部システム6と連携する場合において、その連携先となる外部システム6を識別するコードである。各外部システム6には、それぞれ固有の外部連携IDが割当設定されている。なお、外部システム6と連携しない場合は、外部連携IDとして“0”がセットされる。選択辞書IDは、比較対象データと比較値との間で条件が成立する場合に、選択される辞書ファイルを識別するコードである。辞書データベース5に保存されている各辞書ファイルには、それぞれ固有の辞書IDが割当設定されている。
The external cooperation ID is a code for identifying the
例えば、ルールID“1”に対応する辞書選択ルールの場合、対象データコードが“0”、属性が“送信者アドレス”、比較値が“Taro.tokyo@ttt.co.jp”、条件が“完全一致”、外部連携IDが“0”、選択辞書IDが“1”であるから、メタデータの中の送信者アドレスが“Taro.tokyo@ttt.co.jp”と完全一致の場合に条件が成立し、辞書ID“1”で識別される辞書ファイルが選択される。 For example, in the case of a dictionary selection rule corresponding to the rule ID “1”, the target data code is “0”, the attribute is “sender address”, the comparison value is “Taro.tokyo@ttt.co.jp”, and the condition is “ Condition is required when the sender address in the metadata is exactly the same as “Taro.tokyo@ttt.co.jp” because “exact match”, the external linkage ID is “0”, and the selected dictionary ID is “1”. Is established, and the dictionary file identified by the dictionary ID “1” is selected.
また、ルールID“2”に対応する辞書選択ルールの場合、対象データコードが“0”、属性が“宛先アドレス”、比較値が“Group1”、条件が“前方一致”、外部連携IDが“0”、選択辞書IDが“2”であるから、メタデータの中の宛先アドレスが“Group1”で始まる場合に条件が成立し、辞書ID“2”で識別される辞書ファイルが選択される。 In the case of the dictionary selection rule corresponding to the rule ID “2”, the target data code is “0”, the attribute is “destination address”, the comparison value is “Group1”, the condition is “forward match”, and the external linkage ID is “ Since the selected dictionary ID is “0”, the condition is satisfied when the destination address in the metadata starts with “Group1”, and the dictionary file identified by the dictionary ID “2” is selected.
また、ルールID“11”に対応する辞書選択ルールの場合、対象データコードが“2”、属性が“Date”、比較値が“2”、条件が“差が比較値以内”、外部連携IDが“1”、選択辞書IDが“1”であるから、メタデータの中の日付と外部連携ID“1”によって識別される外部システム6から取得したデータの日付との差が2日以内である場合に条件が成立し、辞書ID“1”で識別される辞書ファイルが選択される。
In the case of the dictionary selection rule corresponding to the rule ID “11”, the target data code is “2”, the attribute is “Date”, the comparison value is “2”, the condition is “difference is within the comparison value”, and the external linkage ID Is “1” and the selected dictionary ID is “1”, the difference between the date in the metadata and the date of the data acquired from the
同様に、ルールID“13”に対応する辞書選択ルールの場合、対象データコードが“1”、属性が“グループ名”、比較値が“Null”、条件が“Not”、外部連携IDが“2”、選択辞書IDが“3”であるから、外部連携ID“2”によって識別される外部システム6から取得したデータのグループ名に対し、辞書ID“3”で識別される辞書ファイルが選択される。
Similarly, in the case of the dictionary selection rule corresponding to the rule ID “13”, the target data code is “1”, the attribute is “group name”, the comparison value is “Null”, the condition is “Not”, and the external linkage ID is “ Since the selected dictionary ID is “3”, the dictionary file identified by the dictionary ID “3” is selected for the group name of the data acquired from the
辞書連結ルールファイル22に記録されるルールデータの一例を図5に示す。図示するように、辞書連結ルールファイル22には、固有の連結ルールIDに1対1で対応して、連結対象となる2つの辞書選択ルールの各ルールID(ルールIDa,ルールIDb)と、条件と、辞書選択方法とが記録されている。
An example of rule data recorded in the dictionary
条件は、連結対象となる2つの辞書選択ルールが成立する関係を示す情報であり、少なくとも一方の辞書選択ルールが成立する場合に連結条件が成立したとみなす情報“OR”と、双方の辞書選択ルールが成立した場合に連結条件が成立したとみなす“AND”とがある。辞書選択方法は、連結条件が成立した際に選択する辞書ファイルを指定する情報であり、“Both”、“TrueOnly”、“Rule2Only”等がある。“Both”は、連結対象となる2つの辞書選択ルールによりそれぞれ選択される2つの辞書ファイルを連結条件が成立した際に選択する。“TrueOnly”は、連結対象となる2つの辞書選択ルールのうち成立した方のルールに対応する辞書ファイルを連結条件が成立した際に選択する。“Rule2Only”は、連結対象となる2つの辞書選択ルールのうちルールIDbに対応する辞書ファイルを連結条件が成立した際に選択する。 The condition is information indicating a relationship in which two dictionary selection rules to be connected are established, information “OR” that the connection condition is deemed to be satisfied when at least one dictionary selection rule is established, and both dictionary selections There is “AND” which considers that the connection condition is satisfied when the rule is satisfied. The dictionary selection method is information for designating a dictionary file to be selected when the connection condition is satisfied, and includes “Both”, “TrueOnly”, “Rule2Only”, and the like. “Both” selects two dictionary files respectively selected by the two dictionary selection rules to be connected when the connection condition is satisfied. “TrueOnly” selects a dictionary file corresponding to the rule that is established out of the two dictionary selection rules to be connected when the connection condition is satisfied. “Rule2Only” selects a dictionary file corresponding to the rule IDb among the two dictionary selection rules to be connected when the connection condition is satisfied.
例えば、連結ルールID“101”に対応する辞書連結ルールの場合、ルールIDaが“1”、ルールIDbが“2”、条件“OR”、辞書選択方法“Both”であるので、ルールID“1”の辞書選択ルールとルールID“2”の辞書選択ルールのうち少なくとも一方が成立した場合は、ルールID“1”の辞書選択ルールとルールID“2”の辞書選択ルールのそれぞれの選択辞書IDで識別される辞書ファイルを選択する。 For example, in the case of the dictionary concatenation rule corresponding to the concatenation rule ID “101”, the rule ID “1”, the rule ID b is “2”, the condition “OR”, and the dictionary selection method “Both”. When at least one of the dictionary selection rule of “” and the dictionary selection rule of rule ID “2” is established, the selection dictionary ID of each of the dictionary selection rule of rule ID “1” and the dictionary selection rule of rule ID “2” Select the dictionary file identified by.
また、連結ルールID“102” に対応する辞書連結ルールの場合、ルールIDaが“11”、ルールIDbが“12”、条件“AND”、辞書選択方法“Both”であるので、ルールID“11”の辞書選択ルールとルールID“12”の辞書選択ルールの双方が成立した場合に限り、ルールID“11”の辞書選択ルールとルールID“12”の辞書選択ルールのそれぞれの選択辞書IDで識別される辞書ファイルを選択する。 Further, in the case of the dictionary concatenation rule corresponding to the concatenation rule ID “102”, the rule ID “11”, the rule ID b is “12”, the condition “AND”, and the dictionary selection method “Both”. Only when the dictionary selection rule of “” and the dictionary selection rule of rule ID “12” are both established, the selection dictionary ID of the dictionary selection rule of rule ID “11” and the dictionary selection rule of rule ID “12” Select a dictionary file to be identified.
同様に、連結ルールID“103” に対応する辞書連結ルールの場合、ルールIDaが“3”、ルールIDbが“4”、条件“OR”、辞書選択方法“TrueOnly”であるので、ルールID“3”の辞書選択ルールとルールID“4”の辞書選択ルールのうち少なくとも一方が成立した場合は、その成立した辞書選択ルールの選択辞書IDで識別される辞書ファイルを選択する。 Similarly, in the case of the dictionary concatenation rule corresponding to the concatenation rule ID “103”, the rule ID “3”, the rule ID b is “4”, the condition “OR”, and the dictionary selection method “TrueOnly”. When at least one of the 3 ”dictionary selection rule and the rule ID“ 4 ”dictionary selection rule is established, the dictionary file identified by the selected dictionary ID of the established dictionary selection rule is selected.
また、連結ルールID“104” に対応する辞書連結ルールの場合、ルールIDaが“13”、ルールIDbが“14”、条件“AND”、辞書選択方法“Rule2Only”であるので、ルールID“13”の辞書選択ルールとルールID“14”の辞書選択ルールの双方が成立した場合に限り、ルールID“14”の辞書選択ルールの選択辞書IDで識別される辞書ファイルを選択する。
Further, in the case of the dictionary concatenation rule corresponding to the concatenation rule ID “104”, the rule ID “13”, the rule ID b is “14”, the condition “AND”, and the dictionary selection method “
辞書更新ルールファイル23に記録されるルールデータの一例を図6に示す。辞書更新ルールファイル23には、固有の辞書IDに1対1で対応して、対象データコード、属性、比較値、条件、更新内容、外部連携IDが少なくとも記録されている。対象データコード、属性、比較値、条件及び外部連携IDは、辞書選択ルールファイル21に記録されるデータと同様である。更新内容は、条件が成立した場合に更新される内容を示す情報であって、例えば“追加更新”は、辞書IDで特定される辞書ファイルに、対象データのなかの属性の語を追加する。あるいは、既に属性の語が当該辞書ファイルに登録されている場合は、その後の頻度を+1加算する。
An example of rule data recorded in the dictionary
例えば、図6において、先頭の辞書更新ルールの場合、辞書IDが「1」、対象データコードが「0」、属性が「頻出語」、比較値が「Null」、条件が「Not」、更新内容が「追加更新」、外部連携IDが「0」であるので、辞書ID「1」の辞書ファイルが更新対象であるとき、メタデータの頻出語を当該辞書ファイルに追加更新する。 For example, in the case of the first dictionary update rule in FIG. 6, the dictionary ID is “1”, the target data code is “0”, the attribute is “frequent word”, the comparison value is “Null”, the condition is “Not”, and the update is performed. Since the contents are “additional update” and the external linkage ID is “0”, when the dictionary file with the dictionary ID “1” is the update target, the frequent word of the metadata is additionally updated in the dictionary file.
また、図6において、先頭より2番目の辞書更新ルールの場合、辞書IDが「3」、対象データコードが「1」、属性が「人名」、比較値が「Null」、条件が「Not」、更新内容が「追加更新」、外部連携IDが「3」であるので、辞書ID「3」の辞書ファイルが更新対象であるとき、外部連携ID「3」で識別される外部システム6から戻り値として取得した人名を当該辞書ファイルに追加更新する。
In the case of the second dictionary update rule from the top in FIG. 6, the dictionary ID is “3”, the target data code is “1”, the attribute is “person name”, the comparison value is “Null”, and the condition is “Not”. Since the update content is “additional update” and the external linkage ID is “3”, when the dictionary file with the dictionary ID “3” is an update target, the process returns from the
同様に、図6において、先頭より3番目の辞書更新ルールの場合、辞書IDが「1」、対象データコードが「1」、属性が「同義語」、比較値が「Null」、条件が「Not」、更新内容が「追加更新」、外部連携IDが「1」であるので、辞書ID「1」の辞書ファイルが更新対象であるとき、外部連携ID「1」で識別される外部システム6から戻り値として取得した同義語を当該辞書ファイルに追加更新する。
Similarly, in the case of the third dictionary update rule from the top in FIG. 6, the dictionary ID is “1”, the target data code is “1”, the attribute is “synonym”, the comparison value is “Null”, and the condition is “ “Not”, the update content is “additional update”, and the external linkage ID is “1”. Therefore, when the dictionary file with the dictionary ID “1” is the update target, the
また、図6において、先頭より4番目の辞書更新ルールの場合、辞書IDが「2」、対象データコードが「1」、属性が「関連語」、比較値が「Null」、条件が「Not」、更新内容が「追加更新」、外部連携IDが「2」であるので、辞書ID「2」の辞書ファイルが更新対象であるとき、外部連携ID「2」で識別される外部システム6から戻り値として取得した関連語を当該辞書ファイルに追加更新する。
In the case of the fourth dictionary update rule from the top in FIG. 6, the dictionary ID is “2”, the target data code is “1”, the attribute is “related word”, the comparison value is “Null”, and the condition is “Not”. Since the update content is “additional update” and the external linkage ID is “2”, when the dictionary file with the dictionary ID “2” is the update target, the
連携情報データベース30に保存される連携情報データファイル31の一例を図7に示す。図示するように、連携情報データファイル31には、各外部システム6をそれぞれ識別する外部連携IDに1対1で対応して、サービス先、アクション及び属性の各項目からなるデータが設定記憶されている。項目「サービス先」は、外部システム6の形態を示す情報であり、例えば「GroupWare」は、対応する外部連携IDで識別される外部システム6がグループウェアシステムであることを示し、「辞書サービス」は、対応する外部連携IDで識別される外部システム6がWeb上の辞書サービスシステムであることを示している。
An example of the cooperation information data file 31 stored in the
グループウェアは、企業など組織内のメンバ同士が情報共有や協調作業を支援するためのソフトウェアであり、グループウェアシステムは、グループウェアが搭載されているシステムである。グループウェアで提供されている機能としては、ウェブ掲示板、電子メール転送、スケジュール管理、メンバ管理等の機能がある。 Groupware is software for supporting information sharing and collaborative work among members in an organization such as a company. A groupware system is a system in which groupware is installed. The functions provided by the groupware include functions such as a web bulletin board, e-mail transfer, schedule management, and member management.
辞書サービスシステムは、公開されたAPI(Application Program Interface)を用いてWeb上の辞書サイトに検索語を含むクエリを送信すると、指定された語の意味や同義語等のデータを返すシステムである。この他の外部システムとしては、例えばWeb上の検索サービスシステムがある。このシステムは、公開されたAPIを用いてWeb上の検索サイトに検索語を含むクエリを送信すると、指定された語の検索結果として、検索結果数や関連するWebページの情報あるいは関連後などのデータを返すシステムである。 The dictionary service system is a system that returns data such as the meaning of a specified word and synonyms when a query including a search word is transmitted to a dictionary site on the Web using a public API (Application Program Interface). As another external system, for example, there is a Web search service system. In this system, when a query including a search word is transmitted to a search site on the Web using a public API, the number of search results, information on a related Web page, or after a search, etc., as a search result of a specified word A system that returns data.
項目「アクション」は、対応する外部連携IDで識別される外部システム6で実行するアクションを特定する情報であり、項目「属性」は、そのアクションにおいて適用するデータ項目の情報である。
The item “action” is information for specifying an action to be executed by the
例えば、外部連携ID「1」を含む連携情報データの場合、サービス先「GroupWare1」、アクション情報「スケジュール情報の取得」、属性「送信日時」が設定されているので、外部連携ID「1」で識別されるグループウェアシステムに対してスケジュール情報の取得というアクションを実行させ、さらにそのスケジュール情報の中の送信日時を戻り値としてグループウェアシステムから取得することを意味している。 For example, in the case of cooperation information data including the external cooperation ID “1”, the service destination “GroupWare1”, the action information “acquire schedule information”, and the attribute “transmission date / time” are set. This means that an action of acquiring schedule information is executed for the identified groupware system, and the transmission date and time in the schedule information is acquired as a return value from the groupware system.
また、外部連携ID「3」を含む連携情報データの場合、サービス先「辞書サービス」、アクション情報「登録されているか否かの検査」、属性「頻出語」が設定されているので、外部連携ID「3」で識別されるWeb上の辞書サービスシステムに対して、メタデータの頻出語が登録されているか否かを検査させ、登録されている場合にその語を戻り値として辞書サービスシステムから取得することを意味している。 In the case of linkage information data including the external linkage ID “3”, the service destination “dictionary service”, the action information “check whether registered”, and the attribute “frequent word” are set. The dictionary service system on the web identified by the ID “3” checks whether or not a frequent word of metadata is registered, and if it is registered, the dictionary service system uses the word as a return value. Means to get.
次に、サーバ1のデータベース記憶部17以外の各構成要素(入力部11、メタデータ生成部12、辞書選択部13、辞書更新部14、関連情報検索部15、外部システム連携部16)の機能について、図8〜図12の流れ図を適宜参照しながら説明する。図8は、サーバ1の辞書更新機能7に関する基本処理の手順を示す流れ図、図9は、上記基本処理の中の辞書選択処理の手順を詳細に示す流れ図、図10は、上記基本処理の中のルール連結処理の手順を詳細に示す流れ図、図11は、上記ルール連結処理の中の選択辞書候補取得処理の手順を詳細に示す流れ図、図12は、上記基本処理の中の辞書更新処理の手順を詳細に示す流れ図である。
Next, functions of each component (
入力部11は、辞書更新に係るデータが入力されるのを待機する(図8:ST1)。辞書更新に係るデータは、例えばクライアント2から送出される電子メールデータや、複合機3のスキャナ機能から送出される原稿読取データ等である。
The
ネットワーク4を介して辞書更新に係るデータが入力されると、入力部11は、その入力データを解析する(図8:ST2)。そして、入力データから画像データを抽出する(図8:ST3)。また、入力データから付随データを抽出する(図8:ST4)。
When data related to dictionary update is input via the
画像データは、コンピュータで解析可能なバイナリファイル形式のデータであり、電子メールデータに関しては、メール本文に添付される画像ファイル等が該当し、原稿読取データに関しては、スキャニングされた原稿画像データ等が該当する。付随データは、入力データに付随するデータであり、電子メールデータに関しては、ヘッダ情報に含まれる送信者メールアドレス、受信者メールアドレス、送信日時及びタイトルや、メール本文等が該当し、原稿読取データに関しては、インデックスデータに含まれる読取日時、原稿サイズ、読取頁数、読取機器の種別等が該当する(入力手段)。 The image data is data in a binary file format that can be analyzed by a computer. For e-mail data, an image file attached to the body of an e-mail is applicable, and for scanned document data, scanned document image data is Applicable. The accompanying data is data accompanying the input data, and for the email data, the sender email address, the recipient email address, the transmission date and time, the title, the email text, etc. included in the header information correspond to the document reading data. For example, the reading date and time, the document size, the number of read pages, the type of reading device, and the like included in the index data are applicable (input means).
入力部11は、入力データから抽出した付随データを、メタデータ生成部12に送信する。メタデータ生成部12は、入力部11から受信した付随データに基づいて、入力データのメタデータを生成する(図8:ST5)。メタデータには、付随データの属性とその値とがセットされる。例えば付随データの属性が「送信者メールアドレス」の場合、その値は、電子メールのヘッダ情報に含まれる“From”に記述されるメールアドレスとなる。属性「受信者メールアドレス」の場合は、同ヘッダ情報に含まれる“To”や“Cc”に記述されるメールアドレスとなる。属性「送信日時」の場合は、同ヘッダ情報に含まれる“Date”に記述される日付となる。属性「タイトル」の場合は、同ヘッダ情報に含まれる“Subject”に記述される文字列となる。
The
また、メール本文に関しては、形態素解析を行い、単語と品詞及び出現回数を計算する。そして、属性「最頻出語」に対して出現回数が最も多い名詞をその値とする。また、属性「頻出語」に対して出現回数が一定数以上の単語をその値とする。さらに、形態素解析から人名が得られた場合は、属性「人名」に対して形態素解析で得られた人名をその値とする(メタデータ生成手段)。 For the mail text, morphological analysis is performed, and the word, part of speech, and number of appearances are calculated. Then, the noun having the highest number of appearances with respect to the attribute “most frequently used word” is set as the value. In addition, a word having a certain number of appearances or more with respect to the attribute “frequent word” is set as the value. Further, when a person name is obtained from morphological analysis, the value obtained from the morphological analysis for the attribute “person name” is used as the value (metadata generating means).
メタデータ生成部12は、生成したメタデータを、辞書選択部13に送信する。辞書選択部13は、辞書選択ルールファイル21に記録されている辞書選択ルールに基づいて、更新対象の辞書ファイルを1または2つ以上選択する(図8:ST6)。
The
具体的には、先ず、選択辞書メモリをクリアする(図9:ST11)。また、辞書選択ルールのデータ数Nをしきい値メモリに記憶する(図9:ST12)。さらに、カウンタメモリのカウント値iを“0”にリセットする(図9:ST13)。選択辞書メモリ、しきい値メモリ及びカウンタメモリは、いずれもサーバ1の内部RAM(Random Access Memory)に形成されている。
Specifically, first, the selected dictionary memory is cleared (FIG. 9: ST11). Further, the number of data N of the dictionary selection rule is stored in the threshold memory (FIG. 9: ST12). Further, the count value i of the counter memory is reset to “0” (FIG. 9: ST13). The selection dictionary memory, threshold memory and counter memory are all formed in an internal RAM (Random Access Memory) of the
上記ST11〜ST13の処理が終了すると、辞書選択部13は、カウンタメモリのカウント値iを“1”ずつカウントアップする(図9:ST14)。そして、カウントアップする都度、しきい値メモリの値Nと比較し(図9:ST15)、カウント値iがしきい値Nを超えるまで、ST16〜ST29の処理を繰返し実行する。
When the processes of ST11 to ST13 are completed, the
すなわち辞書選択部13は、辞書選択ルールファイル21から先頭よりi番目(iはカウント値)の辞書選択ルールデータを読み込み、選択ルールメモリSERule-iに格納する(図9:ST16)。そして、選択ルールメモリSERule-iに格納した辞書選択ルールデータの外部連携IDを調べる(図9:ST17)。
That is, the
外部連携IDが“0”の場合(ST17のNO)、当該辞書選択ルールデータは、外部システム6と連携する必要がない。この場合、辞書選択部13は、選択ルールメモリSERule-iに格納した辞書選択ルールデータの属性を認識する。そして、この属性の値を、メタデータ生成部12から受信したメタデータより抽出し、第1の比較メモリmValueに格納する(図9:ST18)。また、選択ルールメモリSERule-iに格納した辞書選択ルールデータの比較値を第2の比較メモリrValueに格納する(図9:ST19)。
When the external linkage ID is “0” (NO in ST17), the dictionary selection rule data need not be linked with the
一方、選択ルールメモリSERule-iに格納した辞書選択ルールデータの外部連携IDが“1”以上の場合は(ST17のYES)、当該辞書選択ルールデータは、外部システム6と連携する。この場合、辞書選択部13は、メタデータ生成部12から受信したメタデータと辞書選択ルールデータの外部連携IDとを関連情報検索部15に送信する(図9:ST20)。そして、関連情報検索部15からの戻り値を待機する(図9のST21)。
On the other hand, when the external linkage ID of the dictionary selection rule data stored in the selection rule memory SERule-i is “1” or more (YES in ST17), the dictionary selection rule data is linked to the
関連情報検索部15は、辞書選択部13からメタデータと外部連携IDとを受信すると、連携情報データベース30の連携情報データファイル31を検索して、その受信した外部連携IDに対応して記憶されているサービス先、アクション及び属性等の外部連携システム情報を取得する。そして、この外部連携システム情報と、辞書選択部13から受信したメタデータとを、該当する外部システム連携部16に送信する。
When the related
外部システム連携部16は、関連情報検索部15から外部連携システム情報とメタデータとを受信すると、当該外部連携システム情報の外部連携IDによって識別される外部システム6に対し、当該外部連携システム情報のアクション命令を与える。そして、外部システム6から当該アクションの結果である戻り値を取得したならば、この戻り値を、関連情報検索部15を介して辞書選択部13に与える(外部システム連携手段)。
When the external
辞書選択部13は、関連情報検索部15を介して外部システム6からの戻り値を受信すると、この戻り値を戻り値メモリsValueに格納する(図9:ST22)。次いで、辞書選択部13は、選択ルールメモリSERule-iに格納した辞書選択ルールデータの対象データコードが“1”であるか“2”であるかを判別する(図9:ST23)。
When the
対象データコードが“1”の場合(ST23のYES)、辞書選択部13は、戻り値メモリsValueの値を第1の比較メモリmValueに格納する(図9:ST24)。また、選択ルールメモリSERule-iに格納した辞書選択ルールデータの比較値を第2の比較メモリrValueに格納する(図9:ST25)。
When the target data code is “1” (YES in ST23), the
対象データコードが“2”の場合(ST23のNO)、辞書選択部13は、選択ルールメモリSERule-iに格納した辞書選択ルールデータの属性を取得する。そして、メタデータ生成部12から受信したメタデータより当該属性に該当する値を抽出し、第1の比較メモリmValueに格納する(図9:ST26)。また、戻り値メモリsValueの値を第2の比較メモリrValueに格納する(図9:ST27)。
When the target data code is “2” (NO in ST23), the
第1の比較メモリmValueと第2の比較メモリrValueとにそれぞれ値が格納されると、辞書選択部13は、第1の比較メモリmValueの値と第2の比較メモリrValueの値とを比較し、選択ルールメモリSERule-iに格納した辞書選択ルールデータの条件が成立するか否かを判断する(図9:ST28)。条件が成立しない場合(ST28のNO)、ST14に戻り、カウンタiをさらにカウントアップして、ST15以降の処理を再度実行する。
When the values are stored in the first comparison memory mValue and the second comparison memory rValue, respectively, the
条件が成立した場合(ST28のYES)、辞書選択部13は、選択ルールメモリSERule-iに格納した辞書選択ルールデータのルールIDと選択辞書IDとを対にして、選択辞書メモリに追加する(ST29)。しかる後、ST14に戻り、カウンタiをさらにカウントアップして、ST15以降の処理を再度実行する。
When the condition is satisfied (YES in ST28), the
こうして、辞書選択ルールファイル21に記録されている全ての辞書選択ルールデータについて、ST16〜ST29の処理が実行されると、カウンタiがしきい値Nを越え(ST15のYES)、辞書選択処理が終了する(辞書選択手段)。
Thus, when the processing of ST16 to ST29 is executed for all dictionary selection rule data recorded in the dictionary
辞書選択処理が終了すると、辞書選択部13は、次に、ルール連結処理を実行する(図8:ST7)。先ず、辞書連結ルールファイル22に記録される辞書連結ルールのデータ数Nを閾値メモリに記憶する(図10のST31)。また、カウンタメモリのカウント値iを“0”にリセットする(図10:ST32)。
When the dictionary selection process ends, the
上記ST31〜ST32の処理が終了すると、辞書選択部13は、カウンタメモリのカウント値iを“1”ずつカウントアップする(図10:ST33)。そして、カウントアップする都度、しきい値メモリの値Nと比較し(図10:ST34)、カウント値iがしきい値Nを超えるまで、ST35〜ST38の処理を繰返し実行する。
When the processes of ST31 to ST32 are completed, the
すなわち辞書選択部13は、辞書連結ルールファイル22から先頭よりi番目(iはカウント値)の連結辞書ルールデータを読み込み、連結ルールメモリCORule-iに格納する(図10:ST35)。そして、連結ルールメモリCORule-iメモリに格納した連結辞書ルールデータについて、連結ルールID、連結対象となる2つの辞書選択ルールの各ID(ルールIDa,ルールIDb)、条件及び辞書選択方法の各情報をそれぞれ取得し、IDメモリID、第1の対象メモリRule-ia、第2の対象メモリRule-ib、条件メモリCondition及び辞書選択方法メモリDictionaryに分けて格納する(図10:ST36)。
That is, the
しかる後、辞書選択部13は、選択辞書候補取得処理を実行する(図10:ST37)。具体的には、先ず、選択辞書候補メモリをクリアする(図11:ST51)。次いで、条件メモリConditionで記憶している条件の情報が“AND”であるか(図11:ST52)、“OR”であるかを判断する(図11:ST53)。条件情報が“AND”でも“OR”でもない場合(図11:ST52でNO、ST53でNO)、選択辞書候補取得処理が終了する。
Thereafter, the
条件情報が“AND”の場合(ST52のYES)、辞書選択部13は、選択辞書メモリに第1の対象メモリRule-iaで記憶しているルールIDと第2の対象メモリRule-ibで記憶しているルールIDの両方が存在するか否かを判断する(図11:ST54)。第1の対象メモリRule-iaで記憶しているルールIDと第2の対象メモリRule-ibで記憶しているルールIDの少なくとも一方が選択辞書メモリに記憶されていない場合(ST54のNO)、選択辞書候補取得処理が終了する。
When the condition information is “AND” (YES in ST52), the
第1の対象メモリRule-iaで記憶しているルールIDと第2の対象メモリRule-ibで記憶しているルールIDの両方が選択辞書メモリに記憶されている場合(ST54のYES)、辞書選択方法メモリDictionaryで記憶している辞書選択方法を示す情報の判定処理(図11:ST56、ST57、ST58)に進む。 When both the rule ID stored in the first target memory Rule-ia and the rule ID stored in the second target memory Rule-ib are stored in the selected dictionary memory (YES in ST54), the dictionary The process proceeds to information determination processing (FIG. 11: ST56, ST57, ST58) indicating the dictionary selection method stored in the selection method memory Dictionary.
一方、条件が”OR”の場合(ST53のYES)、辞書選択部13は、選択辞書メモリに第1の対象メモリRule-iaで記憶しているルールIDと第2の対象メモリRule-ibで記憶しているルールIDの少なくとも一方が存在するか否かを判断する(図11:ST55)。第1の対象メモリRule-iaで記憶しているルールIDと第2の対象メモリRule-ibで記憶しているルールIDの両方が選択辞書メモリに記憶されていない場合(ST55のNO)、選択辞書候補取得処理が終了する。
On the other hand, when the condition is “OR” (YES in ST53), the
第1の対象メモリRule-iaで記憶しているルールIDと第2の対象メモリRule-ibで記憶しているルールIDの少なくとも一方が選択辞書メモリに記憶されている場合(ST55のYES)、辞書選択部13は、辞書選択方法メモリDictionaryで記憶している辞書選択方法を示す情報の判定処理(図11:ST56、ST57、ST58)に進む。
When at least one of the rule ID stored in the first target memory Rule-ia and the rule ID stored in the second target memory Rule-ib is stored in the selected dictionary memory (YES in ST55), The
上記判定処理は、先ず、辞書選択方法メモリDictionaryで記憶している辞書選択方法を示す情報が“Both”であるか否かを判断する(図11:ST56)。辞書選択方法を示す情報が“Both”である場合(ST56のYES)、辞書選択部13は、第1の対象メモリRule-iaで記憶しているルールIDと対になって選択辞書メモリにて記憶されている選択辞書IDと、第2の対象メモリRule-ibで記憶しているルールIDと対になって選択辞書メモリにて記憶されている選択辞書IDとを選択辞書メモリから削除し、選択辞書候補メモリに追加する(図11:ST59)。
In the determination process, first, it is determined whether or not the information indicating the dictionary selection method stored in the dictionary selection method memory Dictionary is “Both” (FIG. 11: ST56). When the information indicating the dictionary selection method is “Both” (YES in ST56), the
辞書選択方法を示す情報が“Both”でない場合(ST56のNO)、辞書選択部13は、辞書選択方法メモリDictionaryで記憶している辞書選択方法を示す情報が“TrueOnly”であるか否かを判断する(図11:ST57)。辞書選択方法を示す情報が“TrueOnly”である場合(ST57のYES)、辞書選択部13は、第1の対象メモリRule-iaで記憶しているルールIDと対になって選択辞書メモリにて記憶されている選択辞書IDが存在する場合は、その選択辞書IDを選択辞書メモリから削除し、選択辞書候補メモリに追加する。また、第2の対象メモリRule-ibで記憶しているルールIDと対になって選択辞書メモリにて記憶されている選択辞書IDが存在する場合は、その選択辞書IDを選択辞書メモリから削除し、選択辞書候補メモリに追加する(図11:ST60)。
When the information indicating the dictionary selection method is not “Both” (NO in ST56), the
辞書選択方法を示す情報が“TrueOnly”でもない場合(ST57のNO)、辞書選択部13は、辞書選択方法メモリDictionaryで記憶している辞書選択方法を示す情報が“Rule2Only”であるか否かを判断する(図11:ST58)。辞書選択方法を示す情報が“Rule2Only”である場合(ST58のYES)、辞書選択部13は、第2の対象メモリRule-ibで記憶しているルールIDと対になって選択辞書メモリにて記憶されている選択辞書IDを選択辞書メモリから削除し、選択辞書候補メモリに追加する(図11:ST61)。以上で、選択辞書候補取得処理が終了する。
If the information indicating the dictionary selection method is not “TrueOnly” (NO in ST57), the
選択辞書候補取得処理が終了すると、辞書選択部13は、IDメモリIDに記憶している連結ルールIDと、選択辞書候補メモリ内の辞書IDとを対にして、選択辞書メモリに追加する(図10:ST38)。しかる後、ST33に戻り、カウンタiをさらにカウントアップして、ST34以降の処理を再度実行する。
When the selected dictionary candidate acquisition process ends, the
こうして、辞書連結ルールファイル22に記録されている全ての連結辞書ルールデータについて、ST35〜ST38の処理が実行されると、カウンタiがしきい値Nを越え(ST34のYES)、辞書選択部13は、選択辞書メモリ内の辞書IDにより選択辞書リストを作成する(図10:ST39)。以上で、ルール連結処理が終了する。
Thus, when the processing of ST35 to ST38 is executed for all the linked dictionary rule data recorded in the dictionary
ルール連結処理が終了すると、辞書選択部13は、メタデータ生成部12にて生成されたメタデータと、ルール連結処理によって作成した選択辞書リストとを、辞書更新部14に送信する。辞書更新部14は、辞書更新ルールファイル23に記録されている辞書更新ルールに基づいて、選択辞書リストに記録された辞書IDで識別される辞書ファイルの更新処理を実行する(図8:ST8)。
When the rule connection process ends, the
先ず、辞書更新ルールファイル23に記録されている辞書更新ルールデータのデータ数Nをしきい値メモリに記憶する(図12:ST71)。また、カウンタメモリのカウント値iを“0”にリセットする(図12:ST72)。
First, the number N of dictionary update rule data recorded in the dictionary
上記ST71〜ST72の処理が終了すると、辞書更新部14は、カウンタメモリのカウント値iを“1”ずつカウントアップする(図12:ST73)。そして、カウントアップする都度、しきい値メモリの値Nと比較し(図12:ST74)、カウント値iがしきい値Nを超えるまで、ST75〜ST89の処理を繰返し実行する。
When the processes of ST71 to ST72 are completed, the
すなわち辞書更新部14は、辞書更新ルールファイル23から先頭よりi番目(iはカウント値)の辞書更新ルールデータを読み込み、更新ルールメモリUPRule-iに格納する(図12:ST75)。そして、更新ルールメモリUPRule-iに格納した辞書更新ルールデータの辞書IDが選択辞書リストに含まれているか否かを判断する(図12:ST76)。含まれていない場合(ST76のNO)、ST73に戻り、カウンタiをさらにカウントアップして、ST74以降の処理を再度実行する。
That is, the
更新ルールメモリUPRule-iに格納した辞書更新ルールデータの辞書IDが選択辞書リストに含まれていたならば(ST76のYES)、辞書更新部14は、更新ルールメモリUPRule-iに格納した辞書更新ルールデータの外部連携IDを調べる(図12:ST77)。
If the dictionary ID of the dictionary update rule data stored in the update rule memory UPRule-i is included in the selected dictionary list (YES in ST76), the
外部連携IDが“0”の場合(ST77のNO)、当該辞書更新ルールデータは、外部システム6と連携する必要がない。この場合、辞書更新部14は、更新ルールメモリUPRule-iに格納した辞書更新ルールデータの属性を認識する。そして、この属性の値を、辞書選択部13から受信したメタデータより抽出し、第1の比較メモリmValueに格納する(図12:ST78)。また、更新ルールメモリUPRule-i に格納した辞書更新ルールデータの比較値を第2の比較メモリrValueに格納する(図12:ST79)。
When the external linkage ID is “0” (NO in ST77), the dictionary update rule data need not be linked with the
一方、更新ルールメモリUPRule-iに格納した辞書更新ルールデータの外部連携IDが“1”以上の場合は(ST77のYES)、当該辞書更新ルールデータは、外部システム6と連携する。この場合、辞書更新部14は、辞書選択部13から受信したメタデータと辞書更新ルールデータの外部連携IDとを関連情報検索部15に送信する(図12:ST80)。そして、関連情報検索部15からの戻り値を待機する(図12のST81)。このときの関連情報検索部15及び外部システム連携部16の動作は、辞書選択処理のときと同様である。
On the other hand, when the external linkage ID of the dictionary update rule data stored in the update rule memory UPRule-i is “1” or more (YES in ST77), the dictionary update rule data is linked to the
辞書更新部14は、関連情報検索部15を介して外部システム6からの戻り値を受信すると、この戻り値を戻り値メモリsValueに格納する(図12:ST82)。次いで、辞書更新部14は、更新ルールメモリUPRule-iに格納した辞書更新ルールデータの対象データコードが“1”であるか“2”であるかを判別する(図12:ST83)。
When the
対象データコードが“1”の場合(ST83のYES)、辞書更新部14は、戻り値メモリsValueの値を第1の比較メモリmValueに格納する(図12:ST84)。また、更新ルールメモリUPRule-iに格納した辞書更新ルールデータの比較値を第2の比較メモリrValueに格納する(図12:ST85)。
When the target data code is “1” (YES in ST83), the
対象データコードが“2”の場合(ST83のNO)、辞書更新部14は、更新ルールメモリUPRule-iに格納した辞書更新ルールデータから属性を取得する。そして、辞書選択部13から受信したメタデータより当該属性に該当する値を抽出し、第1の比較メモリmValueに格納する(図12:ST86)。また、戻り値メモリsValueの値を第2の比較メモリrValueに格納する(図12:ST87)。
When the target data code is “2” (NO in ST83), the
第1の比較メモリmValueと第2の比較メモリrValueとにそれぞれ値が格納されると、辞書更新部14は、第1の比較メモリmValueの値と第2の比較メモリrValueの値とを比較し、更新ルールメモリUPRule-iに格納した辞書更新ルールデータの条件が成立するか否かを判断する(図12:ST88)。条件が成立しない場合(ST88のNO)、ST73に戻り、カウンタiをさらにカウントアップして、ST74以降の処理を再度実行する。
When the values are stored in the first comparison memory mValue and the second comparison memory rValue, respectively, the
条件が成立した場合(ST88のYES)、辞書更新部14は、更新ルールメモリUPRule-iに格納した辞書更新ルールデータの更新内容に基づいて、同辞書更新ルールデータの辞書IDで識別される辞書ファイルのデータを更新する(図12:ST89)。しかる後、ST73に戻り、カウンタiをさらにカウントアップして、ST74以降の処理を再度実行する。
When the condition is satisfied (YES in ST88), the
こうして、辞書更新ルールファイル23に記録されている全ての辞書更新ルールデータについて、ST75〜ST89の処理が実行されると、カウンタiがしきい値Nを越え(ST74のYES)、辞書更新処理が終了する(辞書更新手段)。
Thus, when the processes of ST75 to ST89 are executed for all dictionary update rule data recorded in the dictionary
このような構成の辞書更新機能7を有するサーバ1において、クライアント2から電子メールを受信すると、入力部11においては、電子メールから付随データとしてヘッダ情報やメール本文が抽出される。また、電子メールに画像ファイル以外の添付ファイルが存在する場合は、添付ファイル内に含まれているテキストデータが取得される。付随データやテキストデータは、メタデータ生成部12に送られる。
In the
メタデータ生成部12においては、付随データのヘッダ情報やメール本文からメタデータが生成される。また、テキストデータが含まれる場合は、このテキストデータからもメタデータが生成される。生成されたメタデータは、辞書選択部13に送信される。
In the
辞書選択部13においては、メタデータを基に、辞書選択ルールファイル21に登録されている辞書選択ルールの条件が成立するか否か判定される。この判定に際し、外部システム6と連携する設定がなされている辞書選択ルールについては、該当する外部システム6と連携して判定が行われる。条件が成立した場合、そのルールのルールIDと、そのルールに設定された選択辞書IDとが対になって選択辞書メモリに記憶される。
The
次いで、辞書選択部13においては、選択辞書メモリに選択辞書IDと対になって記憶されたルールIDに対し、辞書連結ルールファイル22に登録されている辞書連結ルールの連結条件が成立するか否かが判定される。そして、連結条件が成立する2つのルールIDについては、その連結ルールの辞書選択方法に従ったルールIDと対になった選択辞書IDが選択辞書メモリに残る。
Next, the
かくして、辞書選択部13においては、選択辞書メモリに記憶された選択辞書IDから選択辞書リストが作成される。作成された選択辞書リストは、メタデータ生成部12で生成されたメタデータとともに辞書更新部14に送られる。
Thus, the
辞書更新部14においては、辞書更新ルールファイル23に登録されている各辞書更新ルールの中から、選択辞書リストに登録されている選択辞書IDを対象とする辞書更新ルールが選択される。そして、メタデータを基に、この選択された辞書更新ルールの条件が成立するか否かが判定される。この判定に際し、外部システム6と連携する設定がなされている辞書更新ルールについては、該当する外部システム6と連携して判定が行われる。条件が成立した場合、そのルールの辞書IDで識別される辞書ファイルが更新される。
In the
このように、本実施形態のサーバ1によれば、入力部11に入力される辞書更新に係るデータを基に、ユーザに負担をかけることなく自動的に認識用辞書ファイルを更新することができる。したがって、認識用辞書ファイルのメンテナンスに要する手間と時間を省くことができ、コストを削減することができる。
As described above, according to the
(第2の実施形態)
次に、本発明の文字認識装置に係る第2の実施の形態について、図13〜図15を用いて説明する。なお、この第2の実施の形態において、第1の実施の形態と共通する部分には極力同じ符号を付し、詳しい説明は省略する。
(Second Embodiment)
Next, a second embodiment according to the character recognition device of the present invention will be described with reference to FIGS. In the second embodiment, parts that are the same as those in the first embodiment are given the same reference numerals as much as possible, and detailed descriptions thereof are omitted.
図13は、第2の実施の形態のシステム構成図である。本システムも、サーバ100とクライアント2と複合機3とを備え、これらの間をネットワーク4で接続している。
FIG. 13 is a system configuration diagram of the second embodiment. This system also includes a
サーバ1は、辞書更新装置及び文字認識装置として機能する。すなわちサーバ1は、前記辞書更新機能7に加えて、辞書データベース5に登録されている種々の認識用辞書ファイルを用い、クライアント2や複合機3から受信した画像ファイルの文字認識を実行する文字認識機能101を有する。辞書更新機能7及び文字認識機能101は、サーバ100に実装された文字認識プログラムによって実現される。
The
文字認識プログラムは、サーバ1内部の記憶装置に予め記憶されていてもよいし、ネットワークからサーバ1にダウンロードしても良い。また、記録媒体に記憶させたものをサーバ1にインストールしてもよい。記録媒体としては、CD−ROM等プログラムを記憶でき、かつサーバ1が読み取り可能な記録媒体であれば、その形態は何れの形態であっても良い。
The character recognition program may be stored in advance in a storage device inside the
図14は、サーバ1において、辞書更新機能7と文字認識機能101とを実現するために必要な構成要素を示すブロック図である。本実施の形態では、図2に示す第1の実施の形態と比較して、画像取得部111、文字認識部112及び出力部113を追加している。その他の構成要素11〜17は、第1の実施形態と同一である。
FIG. 14 is a block diagram showing components necessary for realizing the
図15は、サーバ1の辞書更新機能7及び文字認識機能101に関する基本処理の手順を示す流れ図である。以下、この流れ図を適宜参照して、サーバ1の各構成要素の機能について説明する。なお、第1の実施形態と共通する部分については、説明を簡略する。
FIG. 15 is a flowchart showing a basic processing procedure regarding the
入力部11は、辞書更新に係るデータが入力されるのを待機する(図15:ST101)。ネットワーク4を介して辞書更新に係るデータが入力されると、入力部11は、その入力データを解析する(図15:ST102)。そして、入力データから画像データを抽出する(図15:ST103)。また、入力データから付随データを抽出する(図15:ST104)。
The
入力部11は、入力データから抽出した画像データ及び付随データを、メタデータ生成部12に送信する。メタデータ生成部12は、入力部11から受信した付随データに基づいて、入力データのメタデータを生成する(図15:ST105)。
The
また、入力部11は、入力データから抽出した画像データを画像取得部111に送信する。画像取得部111は、入力部11から画像データを取得すると、その画像データの数Nをしきい値メモリに記憶する(図15:ST106)。また、画像データリストメモリをクリアする(図15:ST107)。さらに、カウンタメモリのカウント値iを“0”にリセットする(図15:ST108)。しきい値メモリ、画像データリストメモリ及びカウンタメモリは、いずれもサーバ1の内部RAMに形成されている。
Further, the
上記ST101〜ST108の処理が終了すると、画像取得部111は、カウンタメモリのカウント値iを“1”ずつカウントアップする(図15:ST109)。そして、カウントアップする都度、しきい値メモリの値Nと比較し(図15:ST110)、カウント値iがしきい値Nを超えるまで、ST111〜ST112の処理を繰返し実行する。
When the processes of ST101 to ST108 are completed, the
すなわち画像取得部111は、入力部11から取得したi番目の画像データについて、ノイズ除去、フォーマット変換などの前処理を実行する(図15:ST111)。そして、この前処理を実行した画像データを前記画像データリストメモリに追加する(図15:ST112)。
That is, the
入力部11から取得した全ての画像データに対して前処理を終えると、カウント値iがしきい値Nを超える。カウント値iがしきい値Nを超えたならば(ST110のYES)、画像取得部111は、画像データリストメモリに記憶された画像のリストデータを文字認識部112に与える(画像取得手段)。
When the preprocessing is completed for all the image data acquired from the
一方、辞書選択部13は、辞書選択ルールファイル21に記録されている辞書選択ルールに基づいて、更新対象の辞書ファイルを1または2つ以上選択する(図15:ST113)。辞書選択処理が終了すると、辞書選択部13は、次に、ルール連結処理を実行する(図15:ST114)。ルール連結処理が終了すると、辞書選択部13は、メタデータ生成部12にて生成されたメタデータと、ルール連結処理によって作成した選択辞書リストとを、辞書更新部14及び文字認識部112に送信する。
On the other hand, the
辞書更新部14は、辞書更新ルールファイル23に記録されている辞書更新ルールに基づいて、選択辞書リストに記録された辞書IDで識別される辞書ファイルの更新処理を実行する(図15:ST115)。
Based on the dictionary update rule recorded in the dictionary
文字認識部112は、画像データリストから画像データを取り込む。そして、選択辞書リストに記録された辞書IDで識別される辞書ファイルを用いて、上記画像データの文字認識を行う(図15:ST116)。出力部113は、文字認識部112での文字認識結果を、入力データに添付してクライアント2に送信する(図15:ST117)。例えば、文字認識結果をテキストデータとして、入力データの画像データとともにクライアント2に送信する。あるいは、画像データの付属情報に文字認識結果のテキストデータを設定して、クライアントに送信する(文字認識手段)。
The
このように、本実施形態のサーバ100によれば、入力部11に入力される辞書更新に係るデータを基に、ユーザに負担をかけることなく自動的に認識用辞書ファイルを更新することができるのに加え、更新後の認識用辞書ファイルを用いて、入力データに添付される画像データの文字認識を行うことができるので、手書き文字などに関して精度の高い文字認識を実現することができる。
As described above, according to the
なお、この発明は前記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。
例えば前記実施形態では、辞書更新に係るデータとして電子メールデータと原稿読取データとを例示したが、これに限定されるものではなく、文字認識対象である画像データと、この画像データに付随するデータとからなるデータであれば、辞書更新に係るデータとして用いることができる。すなわち、この画像データと付随データとからなるデータをサーバ1またはサーバ100に送信可能な機器であれば、本実施形態のシステムに組み込むことができる。
The present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage.
For example, in the above embodiment, e-mail data and document reading data are exemplified as data relating to dictionary update. However, the present invention is not limited to this, and image data that is a character recognition target and data associated with the image data are not limited thereto. Can be used as data relating to dictionary update. That is, any device that can transmit data composed of the image data and accompanying data to the
この他、前記実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を組合わせてもよい。 In addition, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, the constituent elements over different embodiments may be combined.
1…サーバ(辞書更新装置)、2…クライアント、3…複合機、4…ネットワーク、5…辞書データベース、6…外部システム、7…辞書更新機能、11…入力部、12…メタデータ生成部、13…辞書選択部、14…辞書更新部、15…関連情報検索部、16…外部システム連携部、20…ルールデータベース、21…辞書選択ルールファイル、22…辞書連結ルールファイル、23…辞書更新ルールファイル、30…連携情報データベース、100…サーバ(辞書更新装置、文字認識装置)、101…文字認識機能、111…画像取得部、112…文字認識部、113…出力部。
DESCRIPTION OF
Claims (6)
入力された画像データから当該画像データに付随する付随データを抽出する入力手段と、
前記付随データから、その付随データの属性と値とがセットされたメタデータを生成するメタデータ生成手段と、
辞書選択ルールに定義された外部システムに、当該辞書選択ルールに定義された命令を与え、その結果を取得する外部システム連携手段と、
この外部システム連携手段により前記外部システムから得られた情報と前記メタデータ生成手段により生成された前記メタデータとを基に前記辞書選択ルールを判定し、成立するルールに定義された辞書ファイルを選択する辞書選択手段と、
この辞書選択手段により選択された辞書ファイルに対して設定された辞書更新ルールを判定し、成立する辞書更新ルールに定義された更新内容に従いそのルールに設定された辞書ファイルを更新する辞書更新手段と、
を具備したことを特徴とする辞書更新装置。 In a dictionary update device that updates a dictionary file used for character recognition processing,
Input means for extracting accompanying data accompanying the image data from the input image data;
Metadata generation means for generating metadata in which attributes and values of the accompanying data are set from the accompanying data;
An external system linkage means for giving an instruction defined in the dictionary selection rule to an external system defined in the dictionary selection rule and obtaining the result;
The dictionary selection rule is determined based on the information obtained from the external system by the external system cooperation unit and the metadata generated by the metadata generation unit, and the dictionary file defined in the rule established is selected. Dictionary selection means to
A dictionary update unit that determines a dictionary update rule set for the dictionary file selected by the dictionary selection unit, and updates the dictionary file set in the rule according to the update content defined in the established dictionary update rule; ,
A dictionary updating apparatus comprising:
入力された画像データから当該画像データに付随する付随データを抽出する入力手段、
前記付随データから、その付随データの属性と値とがセットされたメタデータを生成するメタデータ生成手段、
辞書選択ルールに定義された外部システムに、当該辞書選択ルールに定義された命令を与え、その結果を取得する外部システム連携手段、
この外部システム連携手段により前記外部システムから得られた情報と前記メタデータ生成手段により生成されたメタデータとを基に前記辞書選択ルールを判定し、成立するルールに定義された辞書ファイルを選択する辞書選択手段、及び
この辞書選択手段により選択された辞書ファイルに対して設定された辞書更新ルールを判定し、成立する辞書更新ルールに定義された更新内容に従いそのルールに設定された辞書ファイルを更新する辞書更新手段、
として機能させるための辞書更新プログラム。 A computer that can access the dictionary file used for character recognition processing.
Input means for extracting accompanying data accompanying the image data from the input image data;
Metadata generation means for generating metadata in which attributes and values of the accompanying data are set from the accompanying data,
An external system linkage means for giving an instruction defined in the dictionary selection rule to the external system defined in the dictionary selection rule and obtaining the result;
The dictionary selection rule is determined based on the information obtained from the external system by the external system cooperation unit and the metadata generated by the metadata generation unit, and the dictionary file defined in the rule that is established is selected. The dictionary selection means and the dictionary update rule set for the dictionary file selected by the dictionary selection means are determined, and the dictionary file set in the rule is updated according to the update contents defined in the established dictionary update rule Dictionary updating means,
Dictionary update program to function as.
入力された画像データから当該画像データに付随する付随データを抽出する入力手段と、
前記付随データから、その付随データの属性と値とがセットされたメタデータを生成するメタデータ生成手段と、
辞書選択ルールに定義された外部システムに、当該辞書選択ルールに定義された命令を与え、その結果を取得する外部システム連携手段と、
この外部システム連携手段により前記外部システムから得られた情報と前記メタデータ生成手段により生成されたメタデータとを基に前記辞書選択ルールを判定し、成立するルールに定義された辞書ファイルを選択する辞書選択手段と、
この辞書選択手段により選択された辞書ファイルに対して設定された辞書更新ルールを判定し、成立する辞書更新ルールに定義された更新内容に従いそのルールに設定された辞書ファイルを更新する辞書更新手段と、
前記入力手段を介して入力された画像データを取得する画像取得手段と、
この画像取得手段により得られた画像データを、前記辞書更新手段により更新された辞書ファイルを用いて文字認識する文字認識手段と、
を具備したことを特徴とする文字認識装置。 In a character recognition device that performs character recognition processing using a dictionary file,
Input means for extracting accompanying data accompanying the image data from the input image data;
Metadata generation means for generating metadata in which attributes and values of the accompanying data are set from the accompanying data;
An external system linkage means for giving an instruction defined in the dictionary selection rule to an external system defined in the dictionary selection rule and obtaining the result;
The dictionary selection rule is determined based on the information obtained from the external system by the external system cooperation unit and the metadata generated by the metadata generation unit, and the dictionary file defined in the rule that is established is selected. Dictionary selection means;
A dictionary update unit that determines a dictionary update rule set for the dictionary file selected by the dictionary selection unit, and updates the dictionary file set in the rule according to the update content defined in the established dictionary update rule; ,
Image acquisition means for acquiring image data input via the input means;
Character recognition means for recognizing characters using the dictionary file updated by the dictionary update means, the image data obtained by the image acquisition means,
A character recognition device comprising:
入力された画像データから当該画像データに付随する付随データを抽出する入力手段、
前記付随データから、その付随データの属性と値とがセットされたメタデータを生成するメタデータ生成手段、
辞書選択ルールに定義された外部システムに、当該辞書選択ルールに定義された命令を与え、その結果を取得する外部システム連携手段、
この外部システム連携手段により前記外部システムから得られた情報と前記メタデータ生成手段により生成されたメタデータとを基に前記辞書選択ルールを判定し、成立するルールに定義された辞書ファイルを選択する辞書選択手段、
この辞書選択手段により選択された辞書ファイルに対して設定された辞書更新ルールを判定し、成立する辞書更新ルールに定義された更新内容に従いそのルールに設定された辞書ファイルを更新する辞書更新手段、
前記入力手段を介して入力された画像データを取得する画像取得手段、及び
この画像取得手段により得られた画像データを、前記辞書更新手段により更新された辞書ファイルを用いて文字認識する文字認識手段、
として機能させるための文字認識プログラム。 A computer that can access the dictionary file used for character recognition processing.
Input means for extracting accompanying data accompanying the image data from the input image data;
Metadata generation means for generating metadata in which attributes and values of the accompanying data are set from the accompanying data,
An external system linkage means for giving an instruction defined in the dictionary selection rule to the external system defined in the dictionary selection rule and obtaining the result;
The dictionary selection rule is determined based on the information obtained from the external system by the external system cooperation unit and the metadata generated by the metadata generation unit, and the dictionary file defined in the rule that is established is selected. Dictionary selection means,
A dictionary update unit that determines a dictionary update rule set for the dictionary file selected by the dictionary selection unit, and updates the dictionary file set in the rule according to the update content defined in the established dictionary update rule;
Image acquisition means for acquiring image data input through the input means, and character recognition means for recognizing the image data obtained by the image acquisition means using the dictionary file updated by the dictionary update means ,
Character recognition program to function as
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009214869A JP5101584B2 (en) | 2009-09-16 | 2009-09-16 | Dictionary update device, dictionary update program, character recognition device, and character recognition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009214869A JP5101584B2 (en) | 2009-09-16 | 2009-09-16 | Dictionary update device, dictionary update program, character recognition device, and character recognition program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011065373A JP2011065373A (en) | 2011-03-31 |
JP5101584B2 true JP5101584B2 (en) | 2012-12-19 |
Family
ID=43951557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009214869A Expired - Fee Related JP5101584B2 (en) | 2009-09-16 | 2009-09-16 | Dictionary update device, dictionary update program, character recognition device, and character recognition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5101584B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5699010B2 (en) | 2011-03-18 | 2015-04-08 | 東芝テック株式会社 | Image processing device |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003173421A (en) * | 2001-12-07 | 2003-06-20 | Hitachi Ltd | Character recognition result correcting device |
JP2003178261A (en) * | 2001-12-10 | 2003-06-27 | Ricoh Co Ltd | Character recognizing device and program |
JP4528705B2 (en) * | 2005-09-30 | 2010-08-18 | 株式会社東芝 | Character recognition device and character recognition method |
-
2009
- 2009-09-16 JP JP2009214869A patent/JP5101584B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011065373A (en) | 2011-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5905863A (en) | Finding an e-mail message to which another e-mail message is a response | |
JP3689455B2 (en) | Information processing method and apparatus | |
US6687671B2 (en) | Method and apparatus for automatic collection and summarization of meeting information | |
US7382939B2 (en) | Information processing apparatus, method, storage medium and program | |
US6963904B2 (en) | Method for correlating an electronic mail message with related messages | |
JP3968277B2 (en) | Mail server, program for realizing the mail server, and portable terminal | |
US20140177001A1 (en) | Internet fax message searching and fax content delivery using keyword detection | |
KR20070102033A (en) | System and method for searching documents | |
US20060069677A1 (en) | Apparatus and method for searching structured documents | |
CN102368252A (en) | Applying search inquiry in content set | |
US20060101007A1 (en) | Information processing apparatus and method, and recording medium | |
US20100169295A1 (en) | Document search system which reflects the situation of using documents in the search results | |
JP2001282825A (en) | Method and server for information retrieval and portable remote terminal | |
GB2383153A (en) | Search engine for computer graphic images | |
JP5101584B2 (en) | Dictionary update device, dictionary update program, character recognition device, and character recognition program | |
US20110149350A1 (en) | Document processing apparatus | |
JPH11224296A (en) | Image workflow system | |
JP2009075678A (en) | Image processor, image processing method, image processing program, and storage medium | |
JP2006277642A (en) | Data transformation system and program | |
EP0798653A2 (en) | Method for retrieving an element of an image over a network | |
JP2000235514A (en) | Method and system for retrieving information and recording medium recording information retrieval processing program | |
JP3863041B2 (en) | Document creation system, document template registration apparatus and method, program, and document template registration data | |
JP2003316802A (en) | Image management system, image management method and image management program | |
CN113610497B (en) | High-efficiency collaborative office system | |
JP2003296441A5 (en) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120816 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120828 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120926 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151005 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5101584 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151005 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |