JP2005215772A - Character string recognition device, program therefor, computer-readable recording medium recording the program, image reader, dictionary information transmitting device, program therefor, and computer-readable recording medium with the program recorded thereon - Google Patents
Character string recognition device, program therefor, computer-readable recording medium recording the program, image reader, dictionary information transmitting device, program therefor, and computer-readable recording medium with the program recorded thereon Download PDFInfo
- Publication number
- JP2005215772A JP2005215772A JP2004018542A JP2004018542A JP2005215772A JP 2005215772 A JP2005215772 A JP 2005215772A JP 2004018542 A JP2004018542 A JP 2004018542A JP 2004018542 A JP2004018542 A JP 2004018542A JP 2005215772 A JP2005215772 A JP 2005215772A
- Authority
- JP
- Japan
- Prior art keywords
- information
- character string
- handler
- dictionary
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
Description
本発明は,文字列画像を含む画像情報から文字列情報を認識する文字列認識装置及びそのプログラム,その文字列認識装置を具備する画像読取り装置,その文字列認識装置に辞書情報を送信する辞書情報送信装置及びそのプログラムに関するものである。 The present invention relates to a character string recognition device for recognizing character string information from image information including a character string image, a program thereof, an image reading device including the character string recognition device, and a dictionary for transmitting dictionary information to the character string recognition device. The present invention relates to an information transmission apparatus and its program.
現在,文字列画像を含む画像が形成された原稿をスキャナ等により画像情報(文字列画像を含む画像情報)として電子化し,そこから文字情報を認識して出力するOCR(Optical Character Reading、光学的文字認識)技術が広く利用されている。
また,特許文献1には,原稿画像を読み取って得た画像データを電子メールにより送信する場合に,読み取った画像データを電子メールの添付ファイル形式に変換するとともに,テキスト画像が形成された用紙から画像を読み取って文字認識した結果(文字コード)を電子メールの本文データとして電子メール送信するネットワークファクシミリ装置が示されている。
文字認識においては,画像情報の画像品質が悪い(読取り元の原稿の画像品質が悪い)等の問題から,文字認識精度が悪い場合があり,文字認識精度をより向上することが要求されている。
文字認識精度を向上させる有効な手段として,まず,文字画像から文字情報(文字コード)を認識し,その並びによって構成される文字列情報を,予め用意委された単語(文字列)の辞書情報を用いて補正して文字列認識を行うものがある。これにより,文字単体ではなく,1又は複数の前後の文字との関係において文字列認識がなされるので,日本語としての意味をなさない誤った文字認識が補正され,文字列認識精度の向上を図ることができる。
この場合,補正に用いる辞書情報の内容が,文字列認識精度に大きく影響することになる。通常は,辞書情報の内容(単語)が充実するほど文字列認識精度が向上すると考えられる。しかし,辞書情報の情報量が増えるほど,文字列認識に要する処理負荷が増大する。さらに,特定の製品群に関する分野や特定の専門技術に関する分野の文章(文字列)等,認識対象とする文字列(文章)の分野が増えると,外観上似ている文字列に対して多くの異なる単語(文字列)が辞書情報に含まれることになり,かえって認識精度が悪化することも考えられる。
これに対し,例えば,特許文献2には,予め各種の電子図書を用意しておき,画像情報に基づく文字認識により得た単語からこれに対応する電子図書を特定し,特定した電子図書に含まれる単語群(辞書情報)と文字認識により得た単語との比較によって誤認識した文字を補正する技術が示されている。これにより,処理対象(文字認識の対象となる画像情報の内容)の分野に応じて用いる辞書情報(単語群)が切り替えられるので,文字列認識ごとに用いる辞書情報の情報量を抑えつつ,文字列の認識精度を向上させることができる。
一方,特許文献3には,複数人数から構成される組織において,知識や情報に詳しい人物を特定するために,単語や分野を指定することにより,当該単語や分野に関係付けられた単語関係者とその単語関係者による度数(当該単語や当該分野に対応する単語の過去の使用度数)とを表示する技術が示されている。これにより,度数の高い者が,その単語や分野に詳しい傾向にあることを容易に把握できる。
Further, in
In character recognition, character recognition accuracy may be poor due to problems such as poor image quality of image information (poor image quality of the original document to be read), and it is required to further improve character recognition accuracy. .
As an effective means for improving the character recognition accuracy, first, character information (character code) is recognized from a character image, and character string information constituted by the arrangement is dictionary information of words (character strings) prepared in advance. Some characters are recognized using character strings. As a result, character string recognition is performed in relation to one or more characters before and after a single character, so that incorrect character recognition that does not make sense as Japanese is corrected, and character string recognition accuracy is improved. Can be planned.
In this case, the contents of the dictionary information used for correction greatly affect the character string recognition accuracy. Normally, it is considered that the character string recognition accuracy improves as the contents (words) of the dictionary information are enriched. However, as the amount of dictionary information increases, the processing load required for character string recognition increases. Furthermore, as the number of character string (text) fields to be recognized increases, such as text (character strings) in a field related to a specific product group or a field related to a specific specialized technology, the number of character strings that are similar in appearance increases. Different words (character strings) are included in the dictionary information, and it may be possible that the recognition accuracy deteriorates.
On the other hand, for example, in
On the other hand,
しかしながら,特許文献2に示される技術では,一旦文字列認識をして得た単語(文字列)から,辞書情報として用いる電子図書を特定するため,元の文字列認識に誤認識があった場合,適切な辞書情報(電子図書)が選択されないという問題点があった。
ここで,使用する辞書情報そのものを利用者に選択させることが考えられるが,処理対象とする画像情報の内容とこれに関連する辞書情報との関連を,利用者がその都度認識して入力することは煩雑であり操作性が悪くなる。
一方,特許文献1や特許文献3には,文字列認識の精度向上に関する技術(処理対象に応じた辞書情報の切り替えに関する技術)は何ら示されていない。従って,例えば特許文献1に示される文字認識において,一般的な単語の辞書情報を用いた場合には,画像情報に専門用語や特殊な略語等の文字列画像が含まれる場合に認識精度が悪化するという問題点があった。さらに,対応範囲を広げた情報量の多い辞書情報を用いた場合は,前述したように処理負荷の増大によりレスポンスが悪化する,或いはかえって認識精度が悪化するという問題点があった。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,処理対象とする画像情報に特定の分野の文字列(単語)画像が含まれる場合であっても,利用者の操作性悪化を招くことなく,文字列認識に用いる辞書情報としてその分野に対応したものを用いて文字列の認識精度を向上することができる文字列認識装置及びそのプログラム,その文字列認識装置を具備する画像読取り装置,その文字列認識装置に辞書情報を送信する辞書情報送信装置及びそのプログラムを提供することにある。
However, in the technique disclosed in
Here, it is possible to let the user select the dictionary information to be used, but the user recognizes and inputs the relationship between the contents of the image information to be processed and the related dictionary information each time. This is complicated and the operability is deteriorated.
On the other hand,
Therefore, the present invention has been made in view of the above circumstances, and the object of the present invention is to use even if a character string (word) image in a specific field is included in the image information to be processed. String recognition device and its program capable of improving the accuracy of character string recognition by using dictionary information used for character string recognition corresponding to the field without deteriorating the user's operability, and its character string recognition To provide an image reading apparatus including the apparatus, a dictionary information transmitting apparatus that transmits dictionary information to the character string recognition apparatus, and a program thereof.
上記目的を達成するために本発明は,文字列画像を含む画像情報から文字列情報を認識する文字列認識装置において,前記画像情報の取扱者に関する取扱者情報を取得する取扱者情報取得手段と,前記取扱者情報取得手段により取得された前記取扱者情報に関連する特定の辞書情報を外部装置又は前記取扱者情報と関連付けて辞書情報を記憶する記憶手段から取得する特定辞書情報取得手段と,前記特定の辞書情報を用いて前記画像情報から文字列情報を認識して出力する文字列認識出力手段と,を具備してなることを特徴とする文字列認識装置として構成されるものである。
一般に,処理対象とする画像情報の分野は,その画像情報の取扱者(文字列認識処理を行わせようとしている利用者自身やその画像情報の提供先の相手,その画像情報の作成者等)と関連が深い。従って,上記構成により,処理対象とする画像情報の取扱者に関連する特定の辞書情報を用いて文字列認識が行われるので,文字列認識に用いる辞書情報としてその分野に対応したものを適切に選択して文字列の認識精度を向上することができる。ここで,前記取扱者情報取得手段が,例えば,利用者の操作や利用者が携帯する無線タグ等からの自動入力により,画像情報の取扱者(利用者自身等)に関する情報を入力或いは選択する手段であれば,利用者は,画像情報の取扱者(利用者自身等)を認識してその情報を入力するだけでよい,或いは何ら意識する必要がないので,利用者の操作性悪化を招くこともない。
To achieve the above object, the present invention provides a handler information acquisition means for acquiring handler information relating to a handler of the image information in a character string recognition device that recognizes character string information from image information including a character string image. Specific dictionary information acquisition means for acquiring specific dictionary information related to the handler information acquired by the handler information acquisition means from an external device or storage means for storing dictionary information in association with the handler information; Character string recognition output means comprising: character string recognition output means for recognizing and outputting character string information from the image information using the specific dictionary information.
In general, the field of image information to be processed is the person who handles the image information (the user who is trying to perform character string recognition processing, the other party to whom the image information is provided, the creator of the image information, etc.) Is closely related. Therefore, with the above configuration, character string recognition is performed using specific dictionary information related to the handler of the image information to be processed. Therefore, the dictionary information used for character string recognition should be appropriate for that field. The recognition accuracy of the character string can be improved by selecting. Here, the handler information acquisition means inputs or selects information about the handler of the image information (such as the user himself / herself) by, for example, user operation or automatic input from a wireless tag carried by the user. If it is a means, the user only needs to recognize the image information handler (the user himself / herself) and input the information, or there is no need to be aware of it, so the user's operability deteriorates. There is nothing.
一方,上記構成の文字列認識装置は,外部装置や予め辞書情報が記憶された記憶手段から前記特定の辞書情報を取得するものであるが,該特定の辞書情報を編成する手段を具備するものも考えられる。
即ち,文字列画像を含む画像情報から文字列情報を認識する文字列認識装置において,前記画像情報の取扱者に関する取扱者情報を取得する取扱者情報取得手段と,複数の単語データと前記取扱者情報と前記取扱者による前記単語データの過去の使用頻度情報とが関連付けられて記憶された単語使用頻度記憶手段と,前記単語使用頻度記憶手段の記憶情報に基づいて前記取扱者情報取得手段により取得された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い単語データを含む特定の辞書情報を編成する第1の特定辞書情報編成手段と,特定の辞書情報を用いて前記画像情報から文字列情報を認識して出力する文字列認識出力手段と,を具備してなることを特徴とする文字列認識装置として構成されるものである。
これにより,前記取扱者に関連する前記特定の辞書情報として,画像情報の取扱者による過去の使用頻度の高い単語データが含まれる辞書情報が自動生成されるので,辞書情報作成の手間を要することなく,文字列の認識精度向上を図ることができる。
この場合,前記取扱者情報が予めグループ化されており,前記第1の特定辞書情報編成手段が,前記取扱者情報取得手段により取得された前記取扱者情報と同じグループに属する前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い前記単語データを前記特定の辞書情報に含めるものが考えられる。
一般に,所属部署や研究テーマ等の共通する属性を有する前記取扱者は,共通の単語(文字列)を使用することが多い。このため,前記取扱者情報を,所属部署や研究テーマ等によって予めグループ化しておき,指定(取得)された前記取扱者情報と同一のグループに属する複数の前記取扱者(取扱者情報に対応する取扱者)の過去の使用頻度が高い単語データを集めることによっても,指定された前記取扱者情報に関連する前記特定の辞書情報を編成することができる。これにより,例えば,過去の単語データの使用実績が少ない新人等が前記取扱者として指定された場合であっても,適切な(内容の充実した)前記特定の辞書情報を編成することができる。
これに対し,前記単語データが予めグループ化されており,前記第1の特定辞書情報編成手段が,前記取扱者情報取得手段により取得された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い前記単語データと同じグループに属する前記単語データを前記特定の辞書情報に含めるものも考えられる。
一般に,業務分野や技術分野等の共通する属性ごとに使用頻度の高い単語データをグループ化(分類)することができる。このため,業務分野や技術分野等の共通する属性ごとに各単語データを予めグループ化(分類)しておき,指定された前記取扱者の使用頻度の高い単語データと同じグループに属する単語データを集めて前記特定の辞書情報に含めれば,指定された前記取扱者情報に関連する前記特定の辞書情報を編成することができる。このような構成によっても,過去の単語データの使用実績が少ない前記取扱者等が指定された場合であっても,適切な(内容の充実した)前記特定の辞書情報を編成することができる。
On the other hand, the character string recognizing device having the above-described configuration acquires the specific dictionary information from an external device or a storage means in which dictionary information is stored in advance, and includes means for organizing the specific dictionary information. Is also possible.
That is, in a character string recognition device for recognizing character string information from image information including a character string image, handler information acquisition means for acquiring handler information regarding the handler of the image information, a plurality of word data, and the handler Information is stored in association with past usage frequency information of the word data by the handler, and is acquired by the handler information acquisition unit based on the stored information of the word usage frequency storage unit. First specific dictionary information organizing means for organizing specific dictionary information including word data frequently used by the operator in the past corresponding to the handled operator information, and the image information using the specific dictionary information. And a character string recognition output means for recognizing and outputting character string information.
Thereby, as the specific dictionary information related to the handler, dictionary information including word data frequently used in the past by the handler of the image information is automatically generated, so that it takes time to create dictionary information. Therefore, the recognition accuracy of the character string can be improved.
In this case, the handler information is grouped in advance, and the first specific dictionary information organizing unit includes the handler information belonging to the same group as the handler information acquired by the handler information acquiring unit. It is possible to include the word data frequently used in the past by the corresponding handler in the specific dictionary information.
In general, the handlers having common attributes such as departments and research themes often use a common word (character string). For this reason, the handler information is grouped in advance according to the department or research theme, etc., and a plurality of the handlers (corresponding to the handler information) belonging to the same group as the designated (acquired) handler information. The specific dictionary information related to the specified handler information can also be organized by collecting word data frequently used by the handler). As a result, for example, even when a new face or the like with little past use of word data is designated as the handler, it is possible to organize the appropriate specific dictionary information (rich in contents).
On the other hand, the word data is grouped in advance, and the first specific dictionary information organizing unit uses past information by the operator corresponding to the operator information acquired by the operator information acquiring unit. It is also possible to include the word data belonging to the same group as the word data with high frequency in the specific dictionary information.
In general, it is possible to group (classify) frequently used word data for each common attribute such as a business field or a technical field. For this reason, each word data is grouped (classified) in advance for each common attribute such as a business field or a technical field, and word data belonging to the same group as the frequently used word data of the specified handler is stored. If collected and included in the specific dictionary information, the specific dictionary information related to the specified handler information can be organized. Even with such a configuration, even if the operator or the like who has little use of past word data is specified, the appropriate specific dictionary information can be organized.
また,本発明は,前記文字列認識装置各々を具備する画像読取り装置として捉えたものであってもよい。
即ち,文字列画像が形成された原稿から画像情報を読み取る画像読取り手段と,該画像読取り手段により読み取られた画像情報から文字列情報を認識する前記各文字列認識装置のいずれかと,を具備してなることを特徴とする画像読取り装置である。
この場合,前記取扱者取得手段を構成する形態としては,例えば,以下の2つが考えられる。
その1つは,当該画像読取り装置の利用者の識別情報を入力する利用者識別情報入力手段を具備し,前記利用者識別情報入力手段が,前記取扱者情報取得手段と兼用され,前記利用者の識別情報を前記取扱者情報とするものである。
ネットワークスキャナ等の画像読取り装置では,装置使用の予約,或いは読み取った画像情報の送信先(利用者自身のパソコン等)の指定等のために,使用前に利用者の識別情報を入力する手段を備えるものがある。これを前記取扱者情報取得手段として兼用すれば,前記特定の辞書情報の取得或いは編成のために,前記取扱者情報を別途入力する必要がなくなる。
前記利用者識別情報入力手段は,一般には,ユーザIDやパスワード等を操作キー等により入力するものであるが,名札等に記録されたバーコード等の識別符号を読み取るものや,名札等に内蔵された無線タグ等から無線信号により識別符号を読み取るもの等も考えられる。
他の1つは,前記画像情報の外部への送信先情報を入力する送信先情報入力手段を具備し,前記送信先情報入力手段が,前記取扱者情報取得手段と兼用され,前記送信先情報を前記取扱者情報とするものである。
ネットワークスキャナやファクシミリ装置等の画像読取り装置では,読み取った画像を外部送信するため,その送信先情報(相手先のメールアドレスや電話番号等)を入力する手段を備えるものがある。これを前記取扱者情報取得手段として兼用すれば,前記特定の辞書情報の取得或いは編成のために,前記取扱者情報を別途入力する必要がなくなる。
また,前記画像情報と前記文字列認識出力手段により出力された文字列情報とを併せて外部へ送信する画像情報等送信手段を具備するものが考えられる。
これにより,前記画像情報の受け取り先では,データサイズの大きな前記画像情報を専用プログラムによって開く(表示手段に表示させる)ことなく,データサイズの小さな前記文字列情報を表示させて見るだけで前記画像情報の内容を把握することができる。例えば,前記文字列情報を電子メールの本文のテキスト情報とし,前記画像情報をその添付データ(添付ファイル)として電子メール送信すること等が考えられる。
Further, the present invention may be understood as an image reading device provided with each of the character string recognition devices.
That is, an image reading unit that reads image information from a document on which a character string image is formed, and any one of the character string recognition devices that recognize character string information from the image information read by the image reading unit. An image reading apparatus characterized by comprising:
In this case, for example, the following two can be considered as the configuration of the handler acquisition means.
One of them is provided with user identification information input means for inputting the identification information of the user of the image reading apparatus, and the user identification information input means is also used as the handler information acquisition means, and the user The identification information is used as the handler information.
In an image reading device such as a network scanner, there is a means for inputting user identification information before use in order to reserve the use of the device or specify the transmission destination (user's own personal computer, etc.) of the read image information. There is something to prepare. If this is also used as the handler information acquisition means, it is not necessary to separately input the handler information in order to acquire or organize the specific dictionary information.
The user identification information input means is generally used to input a user ID, a password, etc. using an operation key, etc., but it reads an identification code such as a barcode recorded on a name tag, etc., or is incorporated in a name tag. A device that reads an identification code from a wireless tag or the like using a wireless signal is also conceivable.
The other one includes transmission destination information input means for inputting transmission destination information to the outside of the image information, and the transmission destination information input means is also used as the handler information acquisition means. Is the handler information.
Some image reading apparatuses such as a network scanner and a facsimile apparatus include means for inputting transmission destination information (e-mail address, telephone number, etc. of the other party) in order to externally transmit the read image. If this is also used as the handler information acquisition means, it is not necessary to separately input the handler information in order to acquire or organize the specific dictionary information.
Further, it is conceivable to include image information transmission means for transmitting the image information and the character string information output by the character string recognition output means together.
As a result, at the recipient of the image information, the image information having a large data size is not opened (displayed on the display means) by a dedicated program, and the character string information having a small data size is displayed and viewed. The contents of information can be grasped. For example, it is conceivable that the character string information is text information of the body of an e-mail, and the image information is sent as an attached data (attached file).
また,本発明は,前記文字列認識装置に辞書情報を送信する辞書情報送信装置として捉えることもできる。
即ち,文字列画像を含む画像情報から文字列情報を認識する文字列認識装置と通信可能に接続され,該文字列認識装置に対して文字列情報の認識に用いる辞書情報を送信する辞書情報送信装置であって,前記画像情報の取扱者に関する取扱者情報を前記文字列認識装置から受信する取扱者情報受信手段と,複数の単語データと前記取扱者情報と前記取扱者による単語データの過去の使用頻度情報とが関連付けられて記憶された単語使用頻度記憶手段と,前記単語使用頻度記憶手段の記憶情報に基づいて,前記取扱者情報受信手段により受信された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い単語データを含む特定の辞書情報を編成する第2の特定辞書情報編成手段と,前記特定の辞書情報を前記取扱者情報の送信元の前記文字列認識装置に送信する特定辞書情報送信手段と,を具備してなることを特徴とする辞書情報送信装置として構成されるものである。
これにより,当該辞書情報送信装置を,複数の前記文字列認識装置(或いは,これを具備する画像読取り装置)との間で共用することが可能となり,辞書情報を一括管理できることになる。
この場合も前記文字列認識装置と同様に,前記取扱者情報が予めグループ化されており,前記第2の特定辞書情報編成手段が,前記取扱者情報受信手段により受信された前記取扱者情報と同じグループに属する前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い前記単語データを前記特定の辞書情報に含めるものが考えられる。
これに対し,前記単語データが予めグループ化されており,前記第2の特定辞書情報編成手段が,前記取扱者情報受信手段により受信された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い前記単語データと同じグループに属する前記単語データを前記特定の辞書情報に含めるものも考えられる。
これらにより,例えば,過去の単語データの使用実績が少ない新人等が前記取扱者として指定された場合であっても,適切な(内容の充実した)前記特定の辞書情報を編成することができる。
The present invention can also be understood as a dictionary information transmission device that transmits dictionary information to the character string recognition device.
That is, dictionary information transmission that is communicably connected to a character string recognition device that recognizes character string information from image information including a character string image, and transmits dictionary information used to recognize character string information to the character string recognition device. A device for receiving information about a handler of the image information from the character string recognition device, a plurality of word data, the handler information, and past data of the word data by the handler. Word usage frequency storage means stored in association with usage frequency information, and the handling corresponding to the handler information received by the handler information reception means based on the storage information of the word usage frequency storage means Second specific dictionary information organizing means for organizing specific dictionary information including word data frequently used by the user in the past, and the specific dictionary information before the sender of the handler information. A specific dictionary information transmitting means for transmitting the character string recognition unit, is constituted as dictionary information transmitting apparatus characterized by comprising comprises a.
As a result, the dictionary information transmitting device can be shared with a plurality of the character string recognizing devices (or image reading devices having the same), and dictionary information can be managed collectively.
Also in this case, as in the character string recognition device, the handler information is grouped in advance, and the second specific dictionary information organizing unit and the handler information received by the handler information receiving unit It is considered that the specific dictionary information includes the word data frequently used in the past by the handler corresponding to the handler information belonging to the same group.
On the other hand, the word data is grouped in advance, and the second specific dictionary information organizing means is used by the handler in the past corresponding to the handler information received by the handler information receiving means. It is also possible to include the word data belonging to the same group as the word data with high frequency in the specific dictionary information.
As a result, for example, even when a new face or the like with little past use of word data is designated as the handler, it is possible to organize the appropriate specific dictionary information (rich in contents).
また,本発明は,前記文字列認識装置が実行する処理をコンピュータに実行させるための文字列認識プログラムとして捉えたものであってもよい。
即ち,文字列画像を含む画像情報から文字列情報を認識する処理をコンピュータに実行させるための文字列認識プログラムにおいて,前記画像情報の取扱者に関する取扱者情報を取得する取扱者情報取得処理と,前記取扱者情報取得処理により取得された前記取扱者情報に関連する特定の辞書情報を外部装置又は前記取扱者情報と関連付けて辞書情報を記憶する記憶手段から取得する特定辞書情報取得処理と,前記特定の辞書情報を用いて前記画像情報から文字列情報を認識して出力する文字列認識出力処理と,の各処理をコンピュータに実行させるための文字列認識プログラムである。
或いは,文字列画像を含む画像情報から文字列情報を認識する処理をコンピュータに実行させるための文字列認識プログラムにおいて,前記画像情報の取扱者に関する取扱者情報を取得する取扱者情報取得処理と,複数の単語データと前記取扱者情報と前記取扱者による前記単語データの過去の使用頻度情報とを関連付けて記憶する単語使用頻度記憶手段の記憶情報に基づいて,前記取扱者情報取得処理により取得された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い単語データを含む特定の辞書情報を編成する第1の特定辞書情報編成処理と,特定の辞書情報を用いて前記画像情報から文字列情報を認識して出力する文字列認識出力処理と,の各処理をコンピュータに実行させるための文字列認識プログラムも考えられる。
また,これら文字列認識プログラムが記録されてなることを特徴とするコンピュータ読み取り可能な記録媒体として構成したものも考えられる。
Further, the present invention may be understood as a character string recognition program for causing a computer to execute processing executed by the character string recognition device.
That is, in a character string recognition program for causing a computer to execute processing for recognizing character string information from image information including a character string image, a handler information acquisition process for acquiring handler information regarding a handler of the image information; Specific dictionary information acquisition processing for acquiring specific dictionary information related to the handler information acquired by the handler information acquisition processing from an external device or storage means for storing dictionary information in association with the handler information; A character string recognition program for causing a computer to execute each process of character string recognition output processing for recognizing and outputting character string information from the image information using specific dictionary information.
Alternatively, in a character string recognition program for causing a computer to execute processing for recognizing character string information from image information including a character string image, a handler information acquisition process for acquiring handler information regarding a handler of the image information; Acquired by the handler information acquisition process based on the storage information of the word usage frequency storage means for storing a plurality of word data, the handler information, and past usage frequency information of the word data by the handler in association with each other. A first specific dictionary information organizing process for organizing specific dictionary information including word data frequently used by the operator in the past corresponding to the handler information, and the image information using the specific dictionary information. A character string recognition output program that recognizes and outputs character string information and a character string recognition program that causes a computer to execute each process are also possible. .
Further, a computer-readable recording medium characterized by recording these character string recognition programs is also conceivable.
同様に,本発明は,前記辞書情報送信装置が実行する処理をコンピュータに実行させるための辞書情報送信プログラムとして捉えたものであってもよい。
即ち,文字列画像を含む画像情報から文字列情報を認識する1又は複数の文字列認識装置と通信可能に接続されたコンピュータに,前記文字列認識装置に対して文字列情報の認識に用いる辞書情報を送信する処理を実行させるための辞書情報送信プログラムであって,複数の単語データと前記画像情報の取扱者に関する取扱者情報を前記文字列認識装置から受信する取扱者情報受信処理と,予め前記取扱者情報と前記取扱者による前記単語データの過去の使用頻度情報とを関連付けて記憶する単語使用頻度記憶手段の記憶情報に基づいて,前記取扱者情報受信手段により受信された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い単語データを含む特定の辞書情報を編成する第2の特定辞書情報編成処理と,前記特定の辞書情報を前記取扱者情報の送信元の前記文字列認識装置に送信する特定辞書情報送信処理と,の各処理をコンピュータに実行させるための辞書情報送信プログラムである。
また,この辞書情報送信プログラムが記録されてなることを特徴とするコンピュータ読み取り可能な記録媒体として構成したものも考えられる。
Similarly, the present invention may be understood as a dictionary information transmission program for causing a computer to execute processing executed by the dictionary information transmission apparatus.
That is, a dictionary used for recognizing character string information for the character string recognition device to a computer that is communicably connected to one or more character string recognition devices that recognize character string information from image information including character string images. A dictionary information transmission program for executing a process of transmitting information, a handler information reception process for receiving a plurality of word data and handler information relating to the handler of the image information from the character string recognition device; The handler information received by the handler information receiving means based on the storage information of the word usage frequency storage means for associating and storing the handler information and past usage frequency information of the word data by the handler. A second specific dictionary information organizing process for organizing specific dictionary information including word data frequently used in the past by the operator corresponding to the specific dictionary, and the specific dictionary A dictionary information transmitting program for executing a specific dictionary information transmission process of transmitting broadcast to the character string recognition apparatus of the transmission source of the handling person information, the processing of the computer.
Further, a computer-readable recording medium in which the dictionary information transmission program is recorded can be considered.
本発明によれば,文字列画像を含む画像情報の取扱者に関する取扱者情報を取得し,これに関連する特定の辞書情報を取得或いは編成し,その特定の辞書情報を用いて前記画像情報から文字列情報を認識して出力するので,文字列認識に用いる辞書情報として,画像情報の取扱者(分野)に対応したものを適切に選択して文字列の認識精度を向上することができる。しかも,利用者は,画像情報の取扱者(利用者自身等)に関する情報を認識してその情報を入力するだけでよい,或いは何ら意識する必要がないので,画像情報と辞書情報との関連を意識する必要がなく,利用者の操作性悪化を招くこともない。
また,複数の単語データと前記取扱者情報と前記取扱者による単語データの過去の使用頻度情報とが関連付けられて記憶された記憶手段の記憶情報に基づいて,取得された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い単語データを含む特定の辞書情報を編成するよう構成することにより,前記取扱者に関連する前記特定の辞書情報として,その取扱者による過去の使用頻度の高い単語データが含まれる辞書情報が自動生成されるので,辞書情報作成の手間を要することなく,文字列の認識精度向上を図ることができる。
この場合,前記取扱者情報が予めグループ化されており,取得された前記取扱者情報と同じグループに属する前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い前記単語データを前記特定の辞書情報に含めるものや,或いは前記単語データが予めグループ化されており,取得された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い前記単語データと同じグループに属する前記単語データを前記特定の辞書情報に含めるものであれば,過去の単語データの使用実績が少ない前記取扱者等が指定された場合であっても,適切な(内容の充実した)前記特定の辞書情報を編成することができるので好適である。
According to the present invention, handler information related to a handler of image information including a character string image is acquired, specific dictionary information related thereto is acquired or organized, and the specific dictionary information is used to obtain the information from the image information. Since character string information is recognized and output, the dictionary information used for character string recognition can be selected appropriately according to the handler (field) of the image information to improve the character string recognition accuracy. In addition, the user only needs to recognize the information related to the image information handler (the user himself / herself) and input the information, or there is no need to be aware of it, so the relationship between the image information and the dictionary information is not necessary. There is no need to be aware of it, and it does not cause any deterioration in the operability of users.
In addition, a plurality of pieces of word data, the handler information, and past usage frequency information of the word data by the handler are associated with the stored information stored in the storage means and correspond to the acquired handler information. By organizing specific dictionary information including word data frequently used by the operator in the past, as the specific dictionary information related to the operator, Since dictionary information including high word data is automatically generated, it is possible to improve character string recognition accuracy without the need for creating dictionary information.
In this case, the handler information is grouped in advance, and the word data frequently used in the past by the handler corresponding to the handler information belonging to the same group as the acquired handler information is identified. What is included in the dictionary information, or the word data is grouped in advance and belongs to the same group as the word data frequently used by the handler in the past corresponding to the acquired handler information As long as data is included in the specific dictionary information, the specific dictionary information that is appropriate (enriched in content) is appropriate even when the operator or the like who has little use of past word data is specified. Can be knitted.
以下添付図面を参照しながら,本発明の実施の形態について説明し,本発明の理解に供する。尚,以下の実施の形態は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
ここに,図1は本発明の実施の形態に係る文字列認識装置Xが搭載されるスキャナY(画像読取り装置)の概略構成を表すブロック図,図2はスキャナYに対して文字列情報の認識に用いる特定の辞書情報を送信する辞書サーバZ概略構成を表すブロック図,図3はスキャナY及び辞書サーバZが接続されるネットワークの接続構成図,図4は一般単語辞書及び専門語辞書の辞書構成の具体例を表す図,図5は使用者別単語データベースの構成の具体例を表す図,図6は専門分野別単語データベースの構成の具体例を表す図,図7はスキャナYのプッシュスキャン処理の手順を表すフローチャートである。
Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings so that the present invention can be understood. The following embodiment is an example embodying the present invention, and does not limit the technical scope of the present invention.
FIG. 1 is a block diagram showing a schematic configuration of a scanner Y (image reading device) on which the character string recognition device X according to the embodiment of the present invention is mounted. FIG. FIG. 3 is a block diagram showing a schematic configuration of a dictionary server Z that transmits specific dictionary information used for recognition, FIG. 3 is a connection configuration diagram of a network to which the scanner Y and the dictionary server Z are connected, and FIG. FIG. 5 is a diagram showing a specific example of the configuration of the word database for each user, FIG. 6 is a diagram showing a specific example of the configuration of the word database for each specialized field, and FIG. It is a flowchart showing the procedure of a scanning process.
まず,図3を用いて,本発明の実施の形態に係る文字列認識装置Xが搭載される画像読取り装置Y(スキャナYという),及び該スキャナY(即ち,前記文字列認識装置X)に対して,文字列情報の認識に用いるユーザ辞書(特定の辞書情報)を送信する辞書情報送信装置の一例である辞書サーバZが接続されるネットワークの接続構成について説明する。
図3に示すネットワークでは,第1部門のLAN,第2部門のLAN,管理部門のLAN等の複数のLANが,互いにルータ6を介して接続されている。
前記スキャナY(画像読取り装置)及び前記辞書サーバZ(辞書情報送信装置)は,例えば前記第1部門のLANや,前記第2部門のLAN等に接続され,相互に通信可能である。これにより,前記辞書サーバZは,画像情報から文字列情報を認識する1又は複数の前記スキャナYと通信可能である。
各部門のLANには,前記スキャナYや前記辞書サーバZの他,各利用者が操作するパーソナルコンピュータ等の端末7や,電子メールデータの送受信処理を行うメールサーバ8,ネットワークプリンタ9等が接続される。また,前記管理部門のLANには,社外のネットワークとの通信中継装置であるファイアウォール11が接続される。
各部門のLANに接続される前記端末5では,文書ファイルを作成するワープロソフト(プログラム)等の文書ファイル作成ソフトや,前記メールサーバ8を介して電子メールを送受信する電子メールソフトや,前記スキャナYや前記ネットワークプリンタ9と通信を行うためのドライバソフト等が動作している。
前記端末7において文書ファイル生成ソフトにより作成された文書ファイルは,前記端末7が備えるハードディスク等の記憶装置内に蓄積され,前記辞書サーバZによって管理される。
First, referring to FIG. 3, the image reading device Y (referred to as scanner Y) on which the character string recognition device X according to the embodiment of the present invention is mounted and the scanner Y (that is, the character string recognition device X) are used. On the other hand, a connection configuration of a network to which a dictionary server Z, which is an example of a dictionary information transmitting device that transmits a user dictionary (specific dictionary information) used for character string information recognition, is connected.
In the network shown in FIG. 3, a plurality of LANs such as a first department LAN, a second department LAN, and a management department LAN are connected to each other via a
The scanner Y (image reading device) and the dictionary server Z (dictionary information transmission device) are connected to, for example, the LAN of the first department, the LAN of the second department, etc., and can communicate with each other. Accordingly, the dictionary server Z can communicate with one or a plurality of the scanners Y that recognize character string information from image information.
In addition to the scanner Y and the dictionary server Z, a
In the
The document file created by the document file generation software in the
図2は,前記辞書サーバZの概略構成を表すブロック図である。前記辞書サーバZは,前記スキャナYに対して画像情報の取扱者に対応したユーザ辞書情報(特定の辞書情報)を送信するとともに,LANに接続された各端末7で作成された文書データ(文書ファイル)や電子メールデータ等が蓄積されるファイルサーバとしての役割も担うものである。
前記辞書サーバZは,ユーザインターフェース(I/F)41,制御部50,記憶部42,通信部43等の一般的な構成を有するコンピュータを用いて具体化される。
前記ユーザI/F41は,例えばキーボード,マウス,ディスプレイ等,利用者が,前記辞書サーバZ(コンピュータ)を操作したり,前記辞書サーバZの処理結果を確認するのに用いるものである。また,前記通信部43は,LANを介して前記端末7等と通信するために用いるNIC等である。
前記制御部50は,コンピュータの演算手段として動作するマイクロプロセッサ及びプログラムの実行時に該プログラムを展開する主メモリ等の周辺機器からなる演算処手段である。
前記記憶部42は,ハードディスクドライブ等の記憶装置であり,各種データベース(DB,421〜426)等のデータに加え,前記制御部50により実行されるプログラム(不図示)が記憶(インストール)されている。
FIG. 2 is a block diagram showing a schematic configuration of the dictionary server Z. The dictionary server Z transmits user dictionary information (specific dictionary information) corresponding to a handler of image information to the scanner Y, and also creates document data (documents) created at each terminal 7 connected to the LAN. File), e-mail data, and the like.
The dictionary server Z is embodied using a computer having a general configuration such as a user interface (I / F) 41, a
The user I /
The
The
前記演算処理部50は,予めインストールされた各種プログラムモジュールを実行することにより,各種処理を実行する。そのプログラムモジュールとしては,ユーザ別辞書検索部51,単語抽出部52,文書データベース(DB)管理部53,使用頻度集計部54,文書データ受信部55,データベース(DB)メンテナンス部56,辞書メンテナンス部57等がある。
また,前記記憶部42には,専門分野別単語データベース421,使用者別単語データベース422,一般単語辞書423,文書データベース425,ユーザ情報データベース426等が記憶(構築)される。これらは,前記演算処理部50が前述した各プログラムモジュールを実行することにより構築されるものである。
The
The
以下,前記辞書サーバZの動作について説明する。
前記辞書サーバZは,前記文書データ受信部55の処理により,前記通信部4を介して,各端末7の利用者が作成等した文書ファイル(文書データ)やイメージファイル等のLANを流れる各種データ(パケット)を取り込み,その文書ファイル等が存在した(取り込み元の)前記端末7の利用者を識別する前記ユーザIDを認識し,該ユーザIDとともにその文書ファイル等を前記文書データベース管理部53に出力する。
前記文書ファイル等に関するパケットは,例えば前記端末7で作成された文書ファイル等をファイルサーバとしての当該辞書サーバZの前記記憶部42に格納しようとする場合や,前記端末7で作成された電子メールデータを前記メールサーバ8にスプールしようとする場合,或いは前記端末7で作成されたイメージファイルを前記ネットワークプリンタ9を用いて印刷しようとした場合等に,LANに流れるパケットである。
前記ユーザIDの認識は,前記端末7から文書ファイル等の付属情報(例えば,当該ファイルの作成・編集者等を表す付属情報等)として送信されてくるものを抽出することや,前記端末7の通信アドレス(IPアドレス等)と関連付けて予め前記記憶部42に記憶しておき,これを参照すること等が考えられる。
前記文書データベース管理部53は,取得した文書ファイル等を前記ユーザIDと関連付けて前記文書データベース425として前記記憶部42に記憶させる。
また,前記文書データ受信部55は,取得したデータが文書ファイルである場合は,その文書ファイルを前記ユーザIDとともに前記単語抽出部52にも出力する。
Hereinafter, the operation of the dictionary server Z will be described.
The dictionary server Z receives various data flowing through the LAN, such as document files (document data) and image files created by the user of each terminal 7 through the
The packet related to the document file or the like is, for example, when the document file or the like created on the
The user ID is recognized by extracting information transmitted from the
The document
Further, when the acquired data is a document file, the document
前記専門語抽出部52は,前記文書データ受信部55により供給された文書ファイルから,前記記憶部42に格納されている一般単語辞書423や専門語辞書424を用いながら専門語を抽出する。
前記一般単語辞書423及び前記専門語辞書424の辞書構成の具体例を,それぞれ図4(a),図4(b)に示す。
図4(a),(b)に示す如く,前記一般単語辞書423や,前記専門語辞書424では,見出し語や,その品詞等が,各単語を識別するためのキー毎に格納されている。
前記一般単語辞書423には,例えば図4(a)に示すように,「さらに」,「ディスク」,「家電」,「漢字」,「表現」等といった日常的に用いられる単語が格納される。これらの単語は,社会生活上必要な知識があればそれほど理解に困難性がない単語等であり,専門語でない単語の集まりとなる。また,文章を構成する上で必要となる接続詞等も含まれる。前記一般単語辞書423は,前記辞書メンテナンス部57により更新可能であり,更新されるごとに,当該辞書サーバZから前記スキャナYに送信される。
一方,前記専門語辞書424には,例えば図4(b)に示すように,「EUC」,「SED/sed」,「ディスクアレイ」,「ユニコード」,「情報家電」,「正規表現」,「第3水準」等といった専門語が格納される。これらの専門語は,コンピュータや半導体等技術に関わる専門語であったり,絵画や音楽等芸術に関わる専門語であったり,日常的に用いられることが少ない専門的な知識として要求される単語である。
前記専門語抽出部52は,前記一般単語辞書423や前記専門語辞書424を用いて,形態素解析等を行いながら,前記文書ファイルから前記専門語辞書424に格納されている専門語と,前記一般単語辞書423及び前記専門語辞書424のいずれにも格納されていない未知語とを抽出する。
本実施の形態においては,前記未知語が抽出されると,当該未知語は前記専門語辞書424に格納される。即ち,前記未知語は,自動的に前記専門語であるとみなされる。これにより,新たに生まれてくる単語を前記専門語として登録する作業負担が軽減される。
前記専門語抽出部52は,抽出した前記専門語(前記未知語を含む)と,前記文書データ受信部55から提供された前記ユーザIDとを関連付けて前記記憶部42に一時格納する(不図示)。
なお,前記専門語抽出部52に供給される文書ファイルは,前記文書データ受信部55を経由したものに限られるわけではなく,当該辞書サーバYを直接操作して入力された文書ファイル等も含まれる。
The technical
Specific examples of the dictionary structure of the
As shown in FIGS. 4A and 4B, in the
In the
On the other hand, in the
The technical
In the present embodiment, when the unknown word is extracted, the unknown word is stored in the
The technical
Note that the document file supplied to the technical
前記使用頻度集計部54は,前記記憶部42に一時格納された前記専門語と前記ユーザIDとの対応関係を参照しながら,前記ユーザIDごと及び前記専門語ごとに,その専門語が抽出された頻度(即ち,前記文書ファイルの送信元のユーザ(作成者等:取扱者の一例)によるその専門語の過去の使用頻度)を集計する。
さらに,前記使用頻度集計部54は,各専門語(複数の単語データ)と前記ユーザID(前記取扱者情報の一例)と前記使用頻度に関する情報とを関連付けて,前記使用者別単語データベース422として前記記憶部42に記憶させる(前記単語使用頻度記憶手段の一例)。
前記使用頻度集計部52により前記記憶部42に構築される前記使用者別単語データベース422の構成の具体例を図5に示す。本実施の形態では,前記使用者別単語データベース422は,2つのデータベース部分(図5(a),図5(b))からなる。
図5(a)に示すように,前記使用者別単語データベース422を構成するデータベース部の一方のキーは,専門語或いはそれに代わるもの(専門語の識別符号等)によって与えられる。各専門語に対して,「田中」,「高橋」,「中村」といった各ユーザID毎(説明の便宜上,名前を用いているが通常は符号を用いる)に,集計された前記使用頻度(度数)が記憶されている。図5(a)に示す例では,「ミラーディスク」という専門語は,「田中」によって180回,「高橋」によって18回,「中村」によって8回使用されたことを表す。
The usage
In addition, the usage
A specific example of the configuration of the user-
As shown in FIG. 5 (a), one key of the database section constituting the user-
一方,前記専門語辞書424に登録(記憶)されている各専門語は,組織の分割単位や研究テーマの分類等を考慮して,予め専門分野ごとにグループ化されている。この専門分野と前記専門語とを関連付けするものが前記専門分野別単語データベース42である。
図6は,前記専門分野別単語データベース42の構成の具体例を表すものである。
図6に示すように,「RAID」,「ディスクアレイ」,「ミラーディスク」等の前記専門語は,「HDD分散多重化」という専門分野に関連付けられる(ポインタが設定される)ことによりグループ化されている。この専門分野別単語データベース42は,前記データベースメンテナンス部56が前記ユーザインターフェース41を通じてデータを入力或いは更新する処理を実行することにより,利用者によって設定入力されるものである。
前記専門語抽出部52は,前記専門分野別単語データベース42を用いて,前記使用者別単語データベース422を構成するもう1つのデータベース部(図5(b))を生成する。具体的には,図5(b)に示すように,各専門分野に対して,各ユーザID毎に,前記専門分野に属する前記専門語について集計された前記使用頻度の合計の全使用頻度に対する割合が記憶されている。
即ち,図5(b)に示すデータベース部は,複数の前記専門語(単語データの一例)と前記ユーザID(前記取扱者情報の一例)と該ユーザIDに対応する利用者(取扱者)による前記専門語(単語データ)の過去の使用頻度情報(前記割合)とが関連付けられて記憶されたデータベース(前記単語使用頻度記憶手段の一例)である。
図5(b)に示す例では,「田中」が過去に使用した前記専門語のうち,前記専門分野「HDD分散多重化」に属する前記専門語の使用頻度の割合が「0.392」で最も高いことを表している。同様に,「高橋」は,前記専門分野「文字コード標準化」に属する前記専門語の使用頻度の割合が「0.209」で最も高い。
後述するように,前記辞書サーバZは,前記スキャナYから前記ユーザIDを指定してそのユーザIDに関連するユーザ辞書(特定の辞書情報)の要求を受けた場合(後述する辞書情報要求コマンドを受信した場合),前記ユーザ別辞書検索部51により,指定されたユーザIDについて,前記使用頻度の割合が最も高い前記専門分野を検索し,さらにその専門分野に属する前記専門語を全て含む(集めた)辞書情報を編成して,これを前記通信部を介して前記スキャナYに送信する。
On the other hand, each technical term registered (stored) in the
FIG. 6 shows a specific example of the structure of the specialized
As shown in FIG. 6, the technical terms such as “RAID”, “disk array”, and “mirror disk” are grouped by being associated with a specialized field “HDD distributed multiplexing” (a pointer is set). Has been. This specialized field-
The technical
That is, the database unit shown in FIG. 5B includes a plurality of technical terms (an example of word data), the user ID (an example of the handler information), and a user (a handler) corresponding to the user ID. It is a database (an example of the word usage frequency storage means) in which past usage frequency information (the ratio) of the technical terms (word data) is stored in association with each other.
In the example shown in FIG. 5B, among the technical terms used in the past by “Tanaka”, the usage frequency ratio of the technical terms belonging to the specialized field “HDD distributed multiplexing” is “0.392”. Represents the highest. Similarly, “Takahashi” has the highest usage rate of the technical term belonging to the specialized field “character code standardization” at “0.209”.
As will be described later, the dictionary server Z designates the user ID from the scanner Y and receives a request for a user dictionary (specific dictionary information) related to the user ID (a dictionary information request command described later). When received), the user-specific
次に,本発明の実施の形態に係る文字列認識装置Xが搭載される前記スキャナYについて説明する。
図1は,前記スキャナYの概略構成を表すブロック図である。本スキャナYは,原稿から画像情報を読み取り,読み取った画像情報から文字列情報を認識する文字列認識装置Xを具備するものである。
前記スキャナYは,原稿に光を照射する光源及びその反射光を偏向する光学系並びにその反射光を受光するCCD等からなり,原稿から画像情報を読み取る画像読取部21(前記画像読取り手段の一例)と,読み取った画像情報に対してシェーディング補正等の画像処理を施す画像処理部22と,読み取った画像データを一時記憶したり各種プログラムやその他のデータを記憶する記憶部23と,LANを介した通信制御を行うネットワークインターフェース(I/F)24と,当該スキャナYの利用者により操作されて各種情報の入力を行う操作キー及び情報表示用の液晶表示部等からなるユーザインターフェース25と,当該スキャナYの利用者が携帯する非接触タグやICカードから無線通信手段或いはICカード読取り部によって利用者の識別情報であるユーザIDを読み取る(取得する)ユーザID入力部26と,当該スキャナYの各種制御処理を実行する制御部30とを具備する。
Next, the scanner Y on which the character string recognition device X according to the embodiment of the present invention is mounted will be described.
FIG. 1 is a block diagram showing a schematic configuration of the scanner Y. The scanner Y includes a character string recognition device X that reads image information from a document and recognizes character string information from the read image information.
The scanner Y includes a light source that irradiates light on a document, an optical system that deflects the reflected light, a CCD that receives the reflected light, and the like, and an
また,前記制御部30は,文字列認識部31,辞書情報記憶部32,ユーザ辞書取得部33,アドレス選択部34,フォーマット変換部35及びメール送信部36を具備している。ここで,文字列認識部31,ユーザ辞書取得部33,アドレス選択部34,フォーマット変換部35及びメール送信部36の各構成要素は,前記制御部30を構成する不図示のCPUが,予め前記記憶部23に記憶された前記各構成要素に対応するプログラムモジュールを実行することにより具現されるものである。
前記文字列認識部31は,前記画像読取部21(画像読取り手段)により読み取られた画像情報(前記画像処理部22による画像処理後の画像情報)から文字列情報を認識して出力するものである。
前記辞書情報記憶部32は,前記文字列認識部31により用いられる辞書情報を記憶する記憶手段である。
前記ユーザ辞書取得部33は,画像情報の取扱者に関する取扱者情報(後述)に関連する特定の辞書情報であるユーザ辞書情報を,前記ネットワークインターフェース24を介して前記辞書サーバZ(外部装置)から取得するものである。
前記アドレス選択部34は,前記記憶部23に予め記憶された画像情報の送信先アドレス(前記端末7各々を送信先とする送信先情報)の中から,前記ユーザインターフェース25或いは前記ユーザID入力部26により入力(取得)された情報に基づいて,その情報に対応する送信先アドレス(電子メールアドレス)を選択するものである。
前記フォーマット変換部35は,前記画像読取部21により読み取られた画像情報を電子メールの添付ファイルとして送信されるデータフォーマット(TIFF形式やJPG形式等)に変換するとともに,前記文字列認識部31により認識され出力される文字列情報を,画像情報が添付される電子メールの本文テキスト情報に変換するものである。
前記メール送信部36は,前記フォーマット変換部35により変換された電子メールデータ,即ち,前記文字列認識部31により認識された文字列情報を本文とし,対応する画像情報を添付ファイルとする電子データを,前記アドレス選択部34で選択された送信先アドレスを宛先として,前記ネットワークインターフェース24を介して送信するものである。送信された電子メールデータは,前記メールサーバ8によって指定の送信先アドレスに対応するメールサーバ8(自身或いは他のメールサーバ8)へ転送され,その記憶手段に蓄積される。
The
The character
The dictionary information storage unit 32 is a storage unit that stores dictionary information used by the character
The user
The
The
The
また,前記ユーザID入力部26は,当該スキャナYの使用の予約のため,或いは読み取った画像情報を利用者自身の端末7(外部)に送信する際の送信先の指定のために,ユーザID(利用者の識別情報)を入力(取得)するものである(前記利用者識別情報入力手段の一例)。
また,前記ユーザインターフェース25は,前記画像読取部21で読み取った画像情報を,利用者以外の他者の端末7(外部)に送信する際に,予め記憶されたアドレス帳情報から送信先アドレス(送信先情報)を選択入力するのに用いられる(前記送信先情報入力手段の一例)。
前記ユーザID入力部26及び前記ユーザインターフェース25は,後述するように,読み取った画像情報の取扱者に関する取扱者情報を取得する手段(前記取扱者情報取得手段に相当)と兼用され,取得(入力)されたユーザID(前記利用者の識別情報の一例)或いは送信先アドレス(前記送信先情報の一例)が,前記取扱者情報として用いられる。
ここで,前記文字列認識部31,前記辞書情報記憶部32,前記ユーザ辞書取得部33,前記アドレス選択部,前記ユーザインターフェース25及び前記ユーザID入力部26が,本発明の実施の形態に係る文字列認識装置Xを構成する。
In addition, the user
In addition, when the
As will be described later, the user
Here, the character
次に,図7に示すフローチャートを用いて,前記スキャナYのプッシュスキャン処理の手順について説明する。プッシュスキャン処理は,前記スキャナYを操作して原稿から画像情報を読み取らせ,その画像情報を指定の宛先に送信する処理である。図7に示す処理は,前記制御部30が制御プログラムを実行することにより具現される。以下,S1,S2,…は,処理手順(ステップ)の識別番号を表す。
まず,前記制御部30は,これから当該スキャナYを操作しようとする利用者の前記ユーザIDを入力し,該ユーザIDに基づくユーザ認証処理を実行する(S1)。
前述したように,前記ユーザIDの入力は,前記ユーザID入力部26を通じて,利用者が携帯する名札等に組み込まれた非接触タグ或いはICカードから前記ユーザIDを無線通信或いは専用のインターフェースを介して入力する。もちろん,前記ユーザインターフェース25により前記ユーザIDを入力させる構成とすることも考えられる。ここでは,前記記憶部23に予め登録(記憶)された前記ユーザID(不図示)と,入力された前記ユーザIDとの照合を行い,これらが一致した場合にユーザ認証が成立したと判別してステップS2へ移行する。一方,照合した前記ユーザIDが一致しなかった場合は,ユーザ認証が不成立であると判別してその旨前記ユーザインターフェース25に表示させた後,S1へ戻って処理を繰り返す(不図示)。
次に,ユーザ認証が成立した場合は,前記制御部30は,前記ユーザインターフェース25への選択メニュー表示等により,これから実行する機能の選択入力処理(操作選択)を実行する(S2)。なお,図示していないが,前記制御部30は,ユーザ認証が成立すると,当該スキャナYの使用権がその利用者によって予約された状態,即ち,当該スキャナYが,ネットワーク経由での他の前記端末7等から操作されることを禁止する状態に移行させる。
ここで,スキャナ機能以外の機能(例えば,ユーザIDの登録機能等)が選択されたと判別した場合は,選択された機能に対応する処理を実行(S4)した後,処理を終了させる。
一方,スキャナ機能が選択されたと判別した場合は,前記制御部30は,前記アドレス選択部34により,原稿から読み取った画像情報の送信先情報(外部への送信先情報の一例)の入力処理を実行する(S10)。
本実施の形態では,画像情報を電子メールの添付ファイルとして送信するものであり,この送信先情報は送信相手の電子メールアドレスである。
前記送信先情報の入力処理(S10)では,まず,前記ユーザインターフェース25を通じて,既に設定済み(登録済み)の送信先情報から選択するか,新たな送信先情報を入力するかの選択入力及びいずれが選択されたかの判別を行う(S11)。ここで,既に設定済みの前記送信先情報から選択する機能が選択された場合は,設定済みの前記送信先情報を前記ユーザインターフェース25にメニュー表示させ,そこから送信先を選択入力させる処理(S12)を実行する。一方,新たな送信先情報を入力することが選択された場合は,新たな送信先情報(電子メールアドレス)を前記ユーザインターフェース25を通じて入力させる送信先手入力処理を実行する(S13)。
その際,前記制御部30は,前記ユーザインターフェース25を通じて,原稿からの画像読取り(スキャン)を開始するスキャン開始操作がなされたか否かをチェックし(S14),スキャン開始操作がなされるまでは,前記送信先情報の入力操作が終了していないもととしてステップS10の処理を繰り返す。
Next, the procedure of the push scan processing of the scanner Y will be described using the flowchart shown in FIG. The push scan process is a process for operating the scanner Y to read image information from a document and transmitting the image information to a specified destination. The processing shown in FIG. 7 is implemented when the
First, the
As described above, the user ID is input via the user
Next, when the user authentication is established, the
If it is determined that a function other than the scanner function (for example, a user ID registration function) is selected, a process corresponding to the selected function is executed (S4), and the process is terminated.
On the other hand, if it is determined that the scanner function has been selected, the
In this embodiment, image information is transmitted as an attached file of an e-mail, and this transmission destination information is an e-mail address of a transmission partner.
In the destination information input process (S10), first, a selection input of whether to select from already set (registered) destination information or to input new destination information through the
At that time, the
ここで,当該スキャナYの利用者も画像情報の送信相手も画像情報の取扱者の一例であり,ステップS3又はステップ10の処理は,前記画像読取部21により読み取られた画像情報の取扱者に関する取扱者情報を取得する手段の一例である。
本実施の形態では,利用者(操作者)の機能選択(S2又は後述するS17)により,次の2通りの処理が可能である。
その1つは,当該スキャナYの利用者(操作者)の識別情報である前記ユーザIDを入力する前記ユーザID入力部26(前記利用者識別情報入力手段の一例)が,前記取扱者情報取得手段として兼用され(S1),前記利用者の識別情報を前記取扱者情報とするものである。
他の1つは,前記画像情報の外部(前記端末7等)への前記送信先情報(電子メールアドレス)を入力(選択を含む)する前記アドレス選択部34が,前記送信先情報取得手段と兼用され,前記送信先情報を前記取扱者情報とするものである。
ネットワークスキャナ等の画像読取り装置では,ユーザIDの入力手段や送信先情報の入力手段は,通常有するものであり,これらを前記取扱者情報取得手段として兼用すれば,前記ユーザ辞書(特定の辞書情報)の取得等のために,前記取扱者情報を別途入力する必要がなくなる。
Here, both the user of the scanner Y and the transmission partner of the image information are examples of the handler of the image information, and the processing in step S3 or step 10 relates to the handler of the image information read by the
In the present embodiment, the following two types of processing are possible depending on the function selection (S2 or S17 described later) of the user (operator).
One of them is that the user ID input unit 26 (an example of the user identification information input means) that inputs the user ID, which is identification information of the user (operator) of the scanner Y, acquires the handler information. It is also used as a means (S1), and the identification information of the user is used as the handler information.
The other one is that the
In an image reading apparatus such as a network scanner, user ID input means and transmission destination information input means are usually provided. If these are also used as the handler information acquisition means, the user dictionary (specific dictionary information) ), It is not necessary to separately input the handler information.
一方,前記スキャン開始操作がなされたと判別した場合は,前記制御部30は,前記画像読取部21及び前記画像処理部22に対して原稿からの画像情報の読取り処理を実行させ(S15),さらに前記フォーマット変換部35に対して読み取った画像情報(画像データ)の変換処理(電子メールの添付ファイルに適したデータフォーマットへの変換)を実行させる(S16)。
また,前記制御部30は,ステップS15,S16の処理と並行して,以下に示すステップS17,S18及びS19の処理を実行する。
まず,ステップS17では,前記ユーザ辞書取得部33により,ステップS3又はステップS10(前記取扱者情報取得手段の処理の一例)により入力(取得)された前記ユーザID又は前記送信先情報(前記取扱者情報の一例)に関連する特定の辞書情報である前記ユーザ辞書を前記辞書サーバZ(外部装置)から取得する(取り寄せる)処理を実行する(S17,前記特定辞書情報取得手段の処理の一例)。
ここでは,前記ユーザ辞書取得部33により,前記ユーザID入力部26により入力(S1)された前記ユーザID(利用者の識別情報)又は前記アドレス選択部34により選択或いは手入力された前記送信先情報(電子メールアドレス)を含む辞書情報要求コマンドを,前記ネットワークインターフェース24を介して前記辞書サーバZに送信し,前記ユーザID(当該スキャナYの操作者)又は前記送信先情報に関連するユーザ辞書(特定の辞書情報)を受信(取得)し,前記辞書情報記憶部32に一時記憶させる。前記ユーザIDと前記送信先情報のいずれを前記取扱者情報とするか,即ち,操作者自身に関連する前記ユーザ辞書を要求するか,画像情報の送信先の利用者に関連する前記ユーザ辞書を要求するかは,ステップS2の機能の選択時或いは当該ステップS17において操作者に選択させる。
On the other hand, if it is determined that the scan start operation has been performed, the
Further, the
First, in step S17, the user ID or the transmission destination information (the handler) input (acquired) by the user
Here, the user dictionary (user identification information) input by the user ID input unit 26 (S1) by the user
一方,前記辞書サーバZにおいては,前記通信部43(前記取扱者情報受信手段の一例)により,前記スキャナY(即ち,前記文字列認識装置X)から前記ユーザID(前記取扱者情報の一例)が指定された前記辞書情報要求コマンドを受信すると,前記ユーザ別辞書検索部51(図2)により前記使用者別単語データベース422を構成するデータベース部(図5(b))を検索し,指定されたユーザIDについて,前記使用頻度の割合が最も高い前記専門分野を検索し,さらにその専門分野に属する前記専門語を全て含む(集めた)辞書情報を編成し,これを前記通信部43によって前記スキャナYに送信する。
ここで,前記ユーザ別辞書検索部51が,前記使用者別単語データベース422(前記単語使用頻度記憶手段の一例)の記憶情報に基づいて,前記通信部43(前記取扱者情報受信手段の一例)により受信された前記ユーザID(前記取扱者情報の一例)に対応するユーザ(取扱者)による過去の使用頻度の高い単語データを含む前記ユーザ辞書情報(特定の辞書情報)を編成する前記第2の特定辞書情報編成手段の一例である。
さらに,前記通信部43が,前記ユーザ辞書(特定の辞書情報)を前記ユーザID(取扱者情報)の送信元の前記文字列認識装置X(スキャナY)に送信する前記特定辞書情報送信手段の一例である。
On the other hand, in the dictionary server Z, the communication unit 43 (an example of the handler information receiving means) causes the user ID (an example of the handler information) from the scanner Y (that is, the character string recognition device X). When the dictionary information request command is specified, the user-specific dictionary search unit 51 (FIG. 2) searches the database unit (FIG. 5B) that constitutes the user-
Here, the user-specific
Furthermore, the
また,前記辞書サーバZは,前記スキャナYから前記送信先情報(送信先の電子メールアドレス,前記取扱者情報の一例)が指定された前記辞書情報要求コマンドを受信すると,まず,その送信先情報に対応する前記ユーザIDを取得し,該ユーザIDについて,前記ユーザIDが指定された場合と同様の処理を実行する。
前記ユーザIDの取得は,例えば,前記管理分門のLANに接続された前記辞書サーバYに予め前記送信先情報(電子メールアドレス)と前記ユーザIDとの対応テーブル(マスターデータベース)を登録(記憶)しておき,前記辞書情報要求コマンドを受信した前記辞書サーバYから前記管理部門の辞書サーバYに対して前記送信先情報を指定して対応する前記ユーザIDを問い合わせて取得することが考えられる。もちろん,常に最新の状態に更新された前記対応テーブルを前記辞書サーバY各々が保持してもよい。また,前記スキャナY自体が前記管理部門の辞書サーバYに前記ユーザIDを問い合わせる,或いは前記対応テーブルを前記スキャナYに保持させる等により,前記スキャナYが前記送信先情報に対応する前記ユーザIDを取得して前記辞書情報要求コマンドに指定することも考えられる。
本実施の形態では,前述したように,前記専門分野別データベース421(図6)によって前記専門語(単語データ)が予め前記専門分野ごとにグループ化されており,前記ユーザ別辞書検索部51(第2の特定辞書情報編成手段)が,前記通信部43(取扱者情報受信手段)により受信された前記ユーザID又は前記送信先情報(取扱者情報)に対応するユーザ(取扱者)による過去の使用頻度の高い(例えば,前記使用頻度の割合が最も高い)前記専門語と同じグループに属する前記専門語全てをを前記ユーザ辞書(特定の辞書情報)に含めるものである。
これにより,例えば,過去の前記専門語の使用実績が少ない新人等がユーザとして指定された場合であっても,適切な(内容の充実した)前記ユーザ辞書を編成することができる。
When the dictionary server Z receives the dictionary information request command in which the destination information (e-mail address of the destination, an example of the handler information) is specified from the scanner Y, first, the destination information The user ID corresponding to is acquired, and the same processing as when the user ID is designated is executed for the user ID.
The acquisition of the user ID is performed by, for example, registering (storing) a correspondence table (master database) between the transmission destination information (email address) and the user ID in advance in the dictionary server Y connected to the LAN of the management branch. It is conceivable that the dictionary server Y that has received the dictionary information request command inquires and obtains the corresponding user ID from the dictionary server Y of the management department by designating the destination information. . Of course, each of the dictionary servers Y may hold the correspondence table that is always updated to the latest state. In addition, the scanner Y itself inquires the user ID to the dictionary server Y of the management department, or the scanner Y stores the correspondence table in the scanner Y, so that the scanner Y obtains the user ID corresponding to the destination information. It is also conceivable to acquire and specify the dictionary information request command.
In the present embodiment, as described above, the technical terms (word data) are grouped in advance by the specialized field by the specialized field database 421 (FIG. 6), and the user-specific dictionary search unit 51 ( The second specific dictionary information organizing means) is the past by the user (handler) corresponding to the user ID or the destination information (handler information) received by the communication unit 43 (handler information receiving means). All the technical terms belonging to the same group as the technical term having the highest usage frequency (for example, the highest usage frequency ratio) are included in the user dictionary (specific dictionary information).
As a result, for example, even when a new face or the like who has little use of the technical terms in the past is designated as a user, the appropriate user dictionary can be organized (the contents are enriched).
また,上記の他,前記ユーザID(取扱者情報)を予めグループ化して記憶しておき,前記ユーザ別辞書検索部51(第2の特定辞書情報編成手段)が,前記通信部43(取扱者情報受信手段)により受信された前記ユーザID等(取扱者情報)と同じグループに属する前記ユーザID全てに対応するユーザ(取扱者)による過去の使用頻度の高い前記専門語(単語データ)を前記ユーザ辞書(特定の辞書情報)に含めるものも考えられる。
前記ユーザIDをグループ化する手段としては,例えば,前記管理部門の前記辞書サーバZの前記記憶部42等に,前記ユーザIDを業務分野や技術分野等の共通する属性で関連付けてグループ化する前記ユーザ情報データベース426を記憶させておき,これをLAN経由で参照すること等が考えられる。前記ユーザ情報データベース426は,前記データベースメンテナンス部56を通じて利用者によって入力される。
このような構成によっても,過去の前記専門語の使用実績が少ないユーザが指定された場合であっても,適切な(内容の充実した)前記ユーザ辞書を編成することができる。
In addition to the above, the user ID (handler information) is grouped and stored in advance, and the user-specific dictionary search unit 51 (second specific dictionary information organizing means) is connected to the communication unit 43 (handler information). The technical terms (word data) frequently used in the past by the user (handler) corresponding to all the user IDs belonging to the same group as the user ID (handler information) received by the information receiving means) What is included in a user dictionary (specific dictionary information) can also be considered.
As a means for grouping the user IDs, for example, the user IDs are grouped by associating them with common attributes such as business fields and technical fields in the
Even with such a configuration, it is possible to organize the appropriate user dictionary (enriched contents) even when a user with a low use record of the technical term in the past is designated.
次に,ステップS18では,前記制御部30は,前記文字列認識部31により,前記画像読取部21(画像読取り手段)により読み取られた画像情報(前記画像処理部22から出力された画像情報)から文字列情報(文字コードの列,即ち,単語)を抽出する処理を実行する(S18)。
ここでは,前記文字列認識部31は,まず,前記画像情報のうち文字と想定される部分を切り出す。さらに,切り出した部分に対して,前記記憶部23に予め記憶されたフォントデータ(文字各々のイメージデータ)との照合によって文字情報(文字コード)を抽出するとともに,それらをつなぎ合わせた文字列情報(文字コードの列,即ち,単語の候補)と予め前記辞書情報記憶部32に記憶された(前記辞書サーバZで更新されるごとにダウンロードされる)前記一般辞書とを照合することにより,第1段階目の文字列認識を行って文字列情報を抽出する。
さらに,ステップ19では,前記制御部30は,前記文字列認識部31により,ステップS17で抽出された(第1段階目の文字列認識の結果である)文字列情報に対し,前記ユーザ辞書取得部33によって取得(S17)された前記ユーザ辞書を用いて,第2段階目の文字列認識処理として,文字列情報の補正処理を実行する(S19)。このステップS18,19で認識(抽出)された文字列情報は,前記フォーマット変換部35へ出力される。
このステップS19では,ステップS18において,前記一般辞書との照合によっては抽出できなかった文字列情報(単語)の部分及びその前後の部分の文字列情報について,前記ユーザ辞書との照合を行うことにより,文字列情報を補正する。
このように,処理対象とする画像情報の取扱者に関連する前記ユーザ辞書を用いて文字列認識が行われるので,前記一般辞書では認識できない前記専門語についても的確な文字列認識を行うことができ,文字列の認識精度を向上することができる。しかも,利用者は,画像情報の取扱者(利用者自身或いは送信先等)に関する情報を認識してその情報を入力するだけでよい,或いは前記無線タグ等により自動取得される場合は何ら意識する必要がないので,利用者の操作性悪化を招くこともない。
ここで,前記文字列認識部31によるステップS18,S19の処理が,前記ユーザ辞書(前記特定の辞書情報の一例)を用いて画像情報から文字列情報を認識して出力する前記文字列認識出力手段の処理の一例である。
Next, in step S18, the
Here, the character
Further, in
In this step S19, the character string information (word) portion that could not be extracted by the collation with the general dictionary in step S18 and the character string information of the portion before and after that portion are collated with the user dictionary. , Correct character string information.
Thus, since the character string recognition is performed using the user dictionary related to the handler of the image information to be processed, accurate character string recognition can be performed even for the technical term that cannot be recognized by the general dictionary. This can improve the accuracy of character string recognition. In addition, the user only needs to recognize information related to the image information handler (the user himself / herself or the transmission destination) and input the information, or is conscious of what is automatically acquired by the wireless tag or the like. Since there is no need, the user's operability is not deteriorated.
Here, the processing of steps S18 and S19 by the character
次に,ステップS15〜S19の処理が終了すると,前記制御部30は,前記フォーマット変換部35により,電子メールデータを生成する。
ここでは,ステップS16で所定のフォーマットに変換された画像情報を電子メールの添付ファイルとし,ステップS19で画像情報から抽出(認識)された文字列情報を電子メールの本文テキスト情報とする電子メールデータを生成する。また,送信先アドレスとしては,ステップS10で選択或いは入力された前記送信先情報が設定される。
最後に,前記制御部30は,前記メール送信部36により,ステップS20で生成された電子メールデータを前記ネットワークインターフェース24を介して送信(S21)した後,処理を終了させる。
これにより,送信された電子メールデータは,SMTPプロトコル等に基づいて,前記メールサーバ8によって指定の送信先アドレスに対応するメールサーバ8(自身或いは他のメールサーバ8)へ転送され,その記憶手段に蓄積される。蓄積された電子メールデータは,そのメールサーバ8にアクセスしてきた前記端末7によって取得される。
このように,前記メール送信部36(前記画像情報等送信手段の一例)によって,画像情報と前記文字列認識部31(文字列認識出力手段)により出力された文字列情報とを併せた電子メールデータとして前記端末7(外部)へ送信される。これにより,画像情報の受け取り先では,データサイズの大きな画像情報を専用プログラムによって開く(表示手段に表示させる)ことなく,データサイズの小さな前記文字列情報を表示させて見るだけで画像情報の内容を簡便に把握することができる。
Next, when the processing of steps S15 to S19 is completed, the
Here, the e-mail data in which the image information converted into the predetermined format in step S16 is an attached file of the e-mail, and the character string information extracted (recognized) from the image information in step S19 is the text text information of the e-mail. Is generated. Further, as the transmission destination address, the transmission destination information selected or input in step S10 is set.
Finally, the
Thus, the transmitted e-mail data is transferred by the
Thus, the e-mail combining the image information and the character string information output by the character string recognition unit 31 (character string recognition output unit) by the mail transmission unit 36 (an example of the image information transmission unit). Data is transmitted to the terminal 7 (external). As a result, at the recipient of the image information, the contents of the image information can be obtained simply by displaying and displaying the character string information having a small data size without opening (displaying on the display means) the image information having a large data size by a dedicated program. Can be easily grasped.
以上示した実施の形態では,前記文字列情報認識装置Xが搭載された前記スキャナYの外部装置である前記辞書サーバZに,前記ユーザ辞書(特定の辞書情報)を編成する前記ユーザ別辞書検索部51を設けた例を示した。
これに対し,前記ユーザ別辞書検索部51(前記第1の特定辞書編成手段の一例)を前記文字列情報認識装置Xに設け,これにより前記ユーザID入力部26により入力(取得)された前記ユーザID(取扱者情報)に関連する前記ユーザ辞書(特定の辞書情報)を編成する構成も考えられる。さらに,前記文字列情報認識装置Xに(即ち,スキャナYに),前記使用者別単語データベース422(前記単語使用頻度記憶手段の一例)を設けた構成も考えられる。
また,前記制御部50が前記文字列情報認識装置Xの機能を実現するために実行する各プログラム(プログラムモジュール)を,パーソナルコンピュータ等のコンピュータに実行させる文字列認識プログラムとして構成したものも考えられる。この場合,前記文字列認識部31(文字列認識出力手段)が実行する処理,前記ユーザ辞書取得部(特定辞書情報取得手段)33が実行する処理及びキーボードやマウス等の入力手段等によって画像情報の取扱者(コンピュータの利用者等)を入力(取得)する処理(取扱者情報取得手段の処理)各々をコンピュータに実行させるためのプログラムを構成すればよい。もちろん,このようなプログラムが記録されたCD−ROMや,DVD−ROM等のコンピュータ読み取り可能な記録媒体として構成したものも考えられる。
同様に,前記辞書サーバZが実行するプログラムが記録されたCD−ROMや,DVD−ROM等のコンピュータ読み取り可能な記録媒体として構成したものも考えられる。
In the embodiment described above, the user-specific dictionary search that organizes the user dictionary (specific dictionary information) in the dictionary server Z that is an external device of the scanner Y on which the character string information recognition device X is mounted. The example which provided the
On the other hand, the user-specific dictionary search unit 51 (an example of the first specific dictionary organizing unit) is provided in the character string information recognition device X, whereby the user
Further, it is also conceivable that each program (program module) executed by the
Similarly, a computer-readable recording medium such as a CD-ROM or a DVD-ROM on which a program executed by the dictionary server Z is recorded is also conceivable.
本発明は,画像情報から文字列情報を認識する文字列情報認識装置への利用が可能である。 The present invention can be applied to a character string information recognition device that recognizes character string information from image information.
X…文字列情報認識装置
Y…スキャナ(画像読取り装置)
Z…辞書サーバ(辞書情報送信装置)
7…端末
8…メールサーバ
21…画像読取部
22…画像処理部
23…スキャナの記憶部
24…ネットワークインターフェース
25…スキャナのユーザインターフェース
26…ユーザID入力部
30…文字列情報認識装置及びスキャナの制御部
31…文字列認識部
32…辞書情報記憶部
33…ユーザ辞書取得部
34…アドレス選択部
35…フォーマット変換部
36…メール送信部
41…辞書サーバのユーザインターフェース
42…辞書サーバの記憶部
43…通信部
50…辞書サーバの制御部
51…ユーザ別辞書検索部
52…辞書情報記憶部
53…文書データベース管理部
54…使用頻度集計部
55…文書データ受信部
421…専門分野別単語データベース
422…使用者別単語データベース
423…一般単語辞書
424…専門語辞書
425…文書データベース
426…ユーザ情報データベース
S1,S2,,,…処理手順(ステップ)
X: Character string information recognition device Y: Scanner (image reading device)
Z ... Dictionary server (dictionary information transmitter)
7. Terminal 8 ...
Claims (16)
前記画像情報の取扱者に関する取扱者情報を取得する取扱者情報取得手段と,
前記取扱者情報取得手段により取得された前記取扱者情報に関連する特定の辞書情報を外部装置又は前記取扱者情報と関連付けて辞書情報を記憶する記憶手段から取得する特定辞書情報取得手段と,
前記特定の辞書情報を用いて前記画像情報から文字列情報を認識して出力する文字列認識出力手段と,
を具備してなることを特徴とする文字列認識装置。 In a character string recognition device that recognizes character string information from image information including a character string image,
Handler information acquisition means for acquiring handler information regarding the handler of the image information;
Specific dictionary information acquisition means for acquiring specific dictionary information related to the handler information acquired by the handler information acquisition means from an external device or storage means for storing dictionary information in association with the handler information;
Character string recognition output means for recognizing and outputting character string information from the image information using the specific dictionary information;
A character string recognition device comprising:
前記画像情報の取扱者に関する取扱者情報を取得する取扱者情報取得手段と,
複数の単語データと前記取扱者情報と前記取扱者による前記単語データの過去の使用頻度情報とが関連付けられて記憶された単語使用頻度記憶手段と,
前記単語使用頻度記憶手段の記憶情報に基づいて前記取扱者情報取得手段により取得された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い単語データを含む特定の辞書情報を編成する第1の特定辞書情報編成手段と,
特定の辞書情報を用いて前記画像情報から文字列情報を認識して出力する文字列認識出力手段と,
を具備してなることを特徴とする文字列認識装置。 In a character string recognition device that recognizes character string information from image information including a character string image,
Handler information acquisition means for acquiring handler information regarding the handler of the image information;
Word usage frequency storage means for storing a plurality of word data, the handler information, and past usage frequency information of the word data by the handler in association with each other;
Based on the stored information of the word usage frequency storage means, specific dictionary information including word data with high frequency of past use by the handler corresponding to the handler information acquired by the handler information acquisition means is organized. First specific dictionary information organization means;
Character string recognition output means for recognizing and outputting character string information from the image information using specific dictionary information;
A character string recognition device comprising:
前記第1の特定辞書情報編成手段が,前記取扱者情報取得手段により取得された前記取扱者情報と同じグループに属する前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い前記単語データを前記特定の辞書情報に含めてなる請求項2に記載の文字列認識装置。 The handler information is grouped in advance,
The word data frequently used by the operator in the past corresponding to the handler information belonging to the same group as the handler information acquired by the handler information acquiring means by the first specific dictionary information organizing means. The character string recognition apparatus according to claim 2, wherein the specific dictionary information is included.
前記第1の特定辞書情報編成手段が,前記取扱者情報取得手段により取得された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い前記単語データと同じグループに属する前記単語データを前記特定の辞書情報に含めてなる請求項2に記載の文字列認識装置。 The word data is grouped in advance,
The word data belonging to the same group as the word data frequently used in the past by the handler corresponding to the handler information acquired by the handler information acquiring means is selected by the first specific dictionary information organizing means. The character string recognition device according to claim 2, wherein the character string recognition device is included in the specific dictionary information.
前記利用者識別情報入力手段が,前記取扱者情報取得手段と兼用され,前記利用者の識別情報を前記取扱者情報とするものである請求項5に記載の画像読取り装置。 Comprising user identification information input means for inputting identification information of the user of the image reading device;
The image reading apparatus according to claim 5, wherein the user identification information input unit is also used as the handler information acquisition unit, and the identification information of the user is used as the handler information.
前記送信先情報入力手段が,前記取扱者情報取得手段と兼用され,前記送信先情報を前記取扱者情報とするものである請求項5に記載の画像読取り装置。 Comprising destination information input means for inputting destination information to the outside of the image information;
The image reading apparatus according to claim 5, wherein the transmission destination information input unit is also used as the handler information acquisition unit and uses the transmission destination information as the handler information.
前記画像情報の取扱者に関する取扱者情報を前記文字列認識装置から受信する取扱者情報受信手段と,
複数の単語データと前記取扱者情報と前記取扱者による単語データの過去の使用頻度情報とが関連付けられて記憶された単語使用頻度記憶手段と,
前記単語使用頻度記憶手段の記憶情報に基づいて,前記取扱者情報受信手段により受信された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い単語データを含む特定の辞書情報を編成する第2の特定辞書情報編成手段と,
前記特定の辞書情報を前記取扱者情報の送信元の前記文字列認識装置に送信する特定辞書情報送信手段と,
を具備してなることを特徴とする辞書情報送信装置。 A dictionary that is communicably connected to one or more character string recognition devices that recognize character string information from image information including character string images, and that transmits dictionary information used for character string information recognition to the character string recognition device An information transmission device,
Handler information receiving means for receiving handler information about the handler of the image information from the character string recognition device;
Word usage frequency storage means for storing a plurality of word data, the handler information, and past usage frequency information of the word data by the handler in association with each other;
Based on the information stored in the word usage frequency storage means, specific dictionary information including word data having a high past use frequency by the handler corresponding to the handler information received by the handler information receiving means is organized. A second specific dictionary information organizing means,
Specific dictionary information transmitting means for transmitting the specific dictionary information to the character string recognition device that is the transmission source of the handler information;
A dictionary information transmitting device comprising:
前記第2の特定辞書情報編成手段が,前記取扱者情報受信手段により受信された前記取扱者情報と同じグループに属する前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い前記単語データを前記特定の辞書情報に含めてなる請求項9に記載の辞書情報送信装置。 The handler information is grouped in advance,
The word data frequently used in the past by the handler corresponding to the handler information belonging to the same group as the handler information received by the handler information receiving means by the second specific dictionary information organizing means. The dictionary information transmitting apparatus according to claim 9, wherein the specific dictionary information is included.
前記第2の特定辞書情報編成手段が,前記取扱者情報受信手段により受信された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い前記単語データと同じグループに属する前記単語データを前記特定の辞書情報に含めてなる請求項9に記載の辞書情報送信装置。 The word data is grouped in advance,
The second specific dictionary information organizing unit selects the word data belonging to the same group as the word data frequently used in the past by the handler corresponding to the handler information received by the handler information receiving unit. The dictionary information transmitting apparatus according to claim 9, wherein the dictionary information transmitting apparatus is included in the specific dictionary information.
前記画像情報の取扱者に関する取扱者情報を取得する取扱者情報取得処理と,
前記取扱者情報取得処理により取得された前記取扱者情報に関連する特定の辞書情報を外部装置又は前記取扱者情報と関連付けて辞書情報を記憶する記憶手段から取得する特定辞書情報取得処理と,
前記特定の辞書情報を用いて前記画像情報から文字列情報を認識して出力する文字列認識出力処理と,
の各処理をコンピュータに実行させるための文字列認識プログラム。 In a character string recognition program for causing a computer to execute processing for recognizing character string information from image information including a character string image,
Handling information acquisition processing for acquiring handling information related to the handling of the image information;
Specific dictionary information acquisition processing for acquiring specific dictionary information related to the handler information acquired by the handler information acquisition processing from an external device or storage means for storing dictionary information in association with the handler information;
A character string recognition output process for recognizing and outputting character string information from the image information using the specific dictionary information;
A character string recognition program for causing a computer to execute each process.
前記画像情報の取扱者に関する取扱者情報を取得する取扱者情報取得処理と,
複数の単語データと前記取扱者情報と前記取扱者による前記単語データの過去の使用頻度情報とが関連付けられて記憶された単語使用頻度記憶手段の記憶情報に基づいて,前記取扱者情報取得処理により取得された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い単語データを含む特定の辞書情報を編成する第1の特定辞書情報編成処理と,
特定の辞書情報を用いて前記画像情報から文字列情報を認識して出力する文字列認識出力処理と,
の各処理をコンピュータに実行させるための文字列認識プログラム。 In a character string recognition program for causing a computer to execute processing for recognizing character string information from image information including a character string image,
Handling information acquisition processing for acquiring handling information related to the handling of the image information;
Based on the stored information of the word usage frequency storage means stored in association with a plurality of word data, the handler information, and the past usage frequency information of the word data by the handler, by the handler information acquisition process A first specific dictionary information organization process for organizing specific dictionary information including word data frequently used in the past by the operator corresponding to the acquired operator information;
Character string recognition output processing for recognizing and outputting character string information from the image information using specific dictionary information;
A character string recognition program for causing a computer to execute each process.
前記画像情報の取扱者に関する取扱者情報を前記文字列認識装置から受信する取扱者情報受信処理と,
複数の単語データと前記取扱者情報と前記取扱者による前記単語データの過去の使用頻度情報とが関連付けられて記憶された単語使用頻度記憶手段の記憶情報に基づいて,前記取扱者情報受信処理により受信された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い単語データを含む特定の辞書情報を編成する第2の特定辞書情報編成処理と,
前記特定の辞書情報を前記取扱者情報の送信元の前記文字列認識装置に送信する特定辞書情報送信処理と,
の各処理をコンピュータに実行させるための辞書情報送信プログラム。 Dictionary information used for character string information recognition to the character string recognition device is connected to a computer that is communicably connected to one or more character string recognition devices that recognize character string information from image information including character string images. A dictionary information transmission program for executing a transmission process,
Handler information reception processing for receiving handler information related to the handler of the image information from the character string recognition device;
Based on the stored information of the word usage frequency storage means stored in association with a plurality of word data, the handler information, and the past usage frequency information of the word data by the handler, by the handler information receiving process A second specific dictionary information organization process for organizing specific dictionary information including word data frequently used in the past by the operator corresponding to the received operator information;
Specific dictionary information transmission processing for transmitting the specific dictionary information to the character string recognition device that is the transmission source of the handler information;
Dictionary information transmission program for causing a computer to execute each of the processes.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004018542A JP2005215772A (en) | 2004-01-27 | 2004-01-27 | Character string recognition device, program therefor, computer-readable recording medium recording the program, image reader, dictionary information transmitting device, program therefor, and computer-readable recording medium with the program recorded thereon |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004018542A JP2005215772A (en) | 2004-01-27 | 2004-01-27 | Character string recognition device, program therefor, computer-readable recording medium recording the program, image reader, dictionary information transmitting device, program therefor, and computer-readable recording medium with the program recorded thereon |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005215772A true JP2005215772A (en) | 2005-08-11 |
Family
ID=34903024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004018542A Pending JP2005215772A (en) | 2004-01-27 | 2004-01-27 | Character string recognition device, program therefor, computer-readable recording medium recording the program, image reader, dictionary information transmitting device, program therefor, and computer-readable recording medium with the program recorded thereon |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005215772A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011065322A (en) * | 2009-09-16 | 2011-03-31 | Konica Minolta Holdings Inc | Character recognition system and character recognition program, and voice recognition system and voice recognition program |
-
2004
- 2004-01-27 JP JP2004018542A patent/JP2005215772A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011065322A (en) * | 2009-09-16 | 2011-03-31 | Konica Minolta Holdings Inc | Character recognition system and character recognition program, and voice recognition system and voice recognition program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8014039B2 (en) | Document management system, a document management method, and a document management program | |
US7623514B2 (en) | Data transmission device capable of transmitting data to a plurality of addresses by simple method | |
US20060085442A1 (en) | Document image information management apparatus and document image information management program | |
US8630852B2 (en) | Image processing apparatus, speech recognition processing apparatus, control method for speech recognition processing apparatus, and computer-readable storage medium for computer program | |
US20080170786A1 (en) | Image processing system, image processing method, and image processing program | |
JP2018124656A (en) | Image processing apparatus, control method thereof and program | |
JPH0683879A (en) | Method and device for labelling document for preservation, handling and introduction | |
US20090128862A1 (en) | Automated method and system for transmitting documents from a scanned source based on textual destination information in the document | |
EP2779613A1 (en) | Document processing apparatus, document processing method, and document processing computer program product | |
US7752603B2 (en) | Systems and methods for data interchange among autonomous processing entities | |
US8032524B2 (en) | Content management system and content management method | |
US8634112B2 (en) | Document processing apparatus for generating an electronic document | |
US7505903B2 (en) | Speech recognition dictionary creation method and speech recognition dictionary creating device | |
JP2003051850A (en) | Fax mail system, fax server device, fax transmission paper, fax mail processing method, fax mail processing program, and computer-readable storage medium for storing the program | |
JP4288761B2 (en) | Mail transmitting apparatus and program storage medium thereof | |
JP4811133B2 (en) | Image forming apparatus and image processing apparatus | |
JP2006313489A (en) | Document registration device, control method for the same, and control program | |
US20120057186A1 (en) | Image processing apparatus, method for managing image data, and computer-readable storage medium for computer program | |
JP2008176764A (en) | Image processing system, image processing method and image processing program | |
JP4673542B2 (en) | Document transfer device, document transfer system, and document transfer method | |
JP3722672B2 (en) | Designated word related person information extracting device, computer-readable recording medium recording designated word related person information extracting program, and set word related person frequency counting device | |
JP2005215772A (en) | Character string recognition device, program therefor, computer-readable recording medium recording the program, image reader, dictionary information transmitting device, program therefor, and computer-readable recording medium with the program recorded thereon | |
JP2007052613A (en) | Translation device, translation system and translation method | |
JP4717592B2 (en) | Document management system, control method and program for document management client | |
US8031352B2 (en) | Apparatus and method for processing received data |