JP2005215772A - Character string recognition device, program therefor, computer-readable recording medium recording the program, image reader, dictionary information transmitting device, program therefor, and computer-readable recording medium with the program recorded thereon - Google Patents

Character string recognition device, program therefor, computer-readable recording medium recording the program, image reader, dictionary information transmitting device, program therefor, and computer-readable recording medium with the program recorded thereon Download PDF

Info

Publication number
JP2005215772A
JP2005215772A JP2004018542A JP2004018542A JP2005215772A JP 2005215772 A JP2005215772 A JP 2005215772A JP 2004018542 A JP2004018542 A JP 2004018542A JP 2004018542 A JP2004018542 A JP 2004018542A JP 2005215772 A JP2005215772 A JP 2005215772A
Authority
JP
Japan
Prior art keywords
information
character string
handler
dictionary
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004018542A
Other languages
Japanese (ja)
Inventor
Kazuyuki Onishi
一幸 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2004018542A priority Critical patent/JP2005215772A/en
Publication of JP2005215772A publication Critical patent/JP2005215772A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To improve, in case that a character string (word) image of a specified field is contained in image information that is a processing object, the recognition accuracy of a character string by use of information corresponding to the specified field as dictionary information used for character string recognition without deteriorating a user's operability. <P>SOLUTION: Handler information for a handler of the image information containing the character string image is inputted through a user ID input part 26, and a user dictionary acquisition part 33 acquires specified dictionary information relevant thereto, and a character string recognition part 31 recognizes character string information from the image information by use of the specified dictionary information. Further, a mail transmission part 36 transmits an e-mail with the character string information recognized by the recognition part 31 as text information of the e-mail text and the image information as attached data to a transmitting destination inputted by an address section part 34. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は,文字列画像を含む画像情報から文字列情報を認識する文字列認識装置及びそのプログラム,その文字列認識装置を具備する画像読取り装置,その文字列認識装置に辞書情報を送信する辞書情報送信装置及びそのプログラムに関するものである。   The present invention relates to a character string recognition device for recognizing character string information from image information including a character string image, a program thereof, an image reading device including the character string recognition device, and a dictionary for transmitting dictionary information to the character string recognition device. The present invention relates to an information transmission apparatus and its program.

現在,文字列画像を含む画像が形成された原稿をスキャナ等により画像情報(文字列画像を含む画像情報)として電子化し,そこから文字情報を認識して出力するOCR(Optical Character Reading、光学的文字認識)技術が広く利用されている。
また,特許文献1には,原稿画像を読み取って得た画像データを電子メールにより送信する場合に,読み取った画像データを電子メールの添付ファイル形式に変換するとともに,テキスト画像が形成された用紙から画像を読み取って文字認識した結果(文字コード)を電子メールの本文データとして電子メール送信するネットワークファクシミリ装置が示されている。
文字認識においては,画像情報の画像品質が悪い(読取り元の原稿の画像品質が悪い)等の問題から,文字認識精度が悪い場合があり,文字認識精度をより向上することが要求されている。
文字認識精度を向上させる有効な手段として,まず,文字画像から文字情報(文字コード)を認識し,その並びによって構成される文字列情報を,予め用意委された単語(文字列)の辞書情報を用いて補正して文字列認識を行うものがある。これにより,文字単体ではなく,1又は複数の前後の文字との関係において文字列認識がなされるので,日本語としての意味をなさない誤った文字認識が補正され,文字列認識精度の向上を図ることができる。
この場合,補正に用いる辞書情報の内容が,文字列認識精度に大きく影響することになる。通常は,辞書情報の内容(単語)が充実するほど文字列認識精度が向上すると考えられる。しかし,辞書情報の情報量が増えるほど,文字列認識に要する処理負荷が増大する。さらに,特定の製品群に関する分野や特定の専門技術に関する分野の文章(文字列)等,認識対象とする文字列(文章)の分野が増えると,外観上似ている文字列に対して多くの異なる単語(文字列)が辞書情報に含まれることになり,かえって認識精度が悪化することも考えられる。
これに対し,例えば,特許文献2には,予め各種の電子図書を用意しておき,画像情報に基づく文字認識により得た単語からこれに対応する電子図書を特定し,特定した電子図書に含まれる単語群(辞書情報)と文字認識により得た単語との比較によって誤認識した文字を補正する技術が示されている。これにより,処理対象(文字認識の対象となる画像情報の内容)の分野に応じて用いる辞書情報(単語群)が切り替えられるので,文字列認識ごとに用いる辞書情報の情報量を抑えつつ,文字列の認識精度を向上させることができる。
一方,特許文献3には,複数人数から構成される組織において,知識や情報に詳しい人物を特定するために,単語や分野を指定することにより,当該単語や分野に関係付けられた単語関係者とその単語関係者による度数(当該単語や当該分野に対応する単語の過去の使用度数)とを表示する技術が示されている。これにより,度数の高い者が,その単語や分野に詳しい傾向にあることを容易に把握できる。
特開2001−22660号公報 特開2003−173421号公報 特開2002−14971号公報
Currently, a document on which an image including a character string image is formed is digitized as image information (image information including a character string image) by a scanner or the like, and OCR (Optical Character Reading, optical) that recognizes and outputs character information therefrom. Character recognition) technology is widely used.
Further, in Patent Document 1, when image data obtained by reading a document image is transmitted by e-mail, the read image data is converted into an attached file format of the e-mail, and from a sheet on which a text image is formed. There is shown a network facsimile apparatus that transmits an e-mail with the result (character code) of reading an image and character recognition as body data of the e-mail.
In character recognition, character recognition accuracy may be poor due to problems such as poor image quality of image information (poor image quality of the original document to be read), and it is required to further improve character recognition accuracy. .
As an effective means for improving the character recognition accuracy, first, character information (character code) is recognized from a character image, and character string information constituted by the arrangement is dictionary information of words (character strings) prepared in advance. Some characters are recognized using character strings. As a result, character string recognition is performed in relation to one or more characters before and after a single character, so that incorrect character recognition that does not make sense as Japanese is corrected, and character string recognition accuracy is improved. Can be planned.
In this case, the contents of the dictionary information used for correction greatly affect the character string recognition accuracy. Normally, it is considered that the character string recognition accuracy improves as the contents (words) of the dictionary information are enriched. However, as the amount of dictionary information increases, the processing load required for character string recognition increases. Furthermore, as the number of character string (text) fields to be recognized increases, such as text (character strings) in a field related to a specific product group or a field related to a specific specialized technology, the number of character strings that are similar in appearance increases. Different words (character strings) are included in the dictionary information, and it may be possible that the recognition accuracy deteriorates.
On the other hand, for example, in Patent Document 2, various electronic books are prepared in advance, an electronic book corresponding to the electronic book is identified from a word obtained by character recognition based on image information, and included in the specified electronic book. A technique for correcting a misrecognized character by comparing a word group (dictionary information) and a word obtained by character recognition is shown. As a result, the dictionary information (word group) used according to the field of the processing target (the content of the image information to be character recognition) is switched, so that the amount of dictionary information used for each character string recognition is suppressed and the character information is reduced. Column recognition accuracy can be improved.
On the other hand, Patent Document 3 discloses a word related person related to a word or field by specifying the word or field in order to identify a person familiar with knowledge and information in an organization composed of a plurality of people. And the frequency by the person concerned with the word (the past frequency of use of the word or the word corresponding to the field). As a result, it is easy to grasp that a person with high frequency tends to be familiar with the word or field.
Japanese Patent Laid-Open No. 2001-22660 JP 2003-173421 A JP 2002-14971 A

しかしながら,特許文献2に示される技術では,一旦文字列認識をして得た単語(文字列)から,辞書情報として用いる電子図書を特定するため,元の文字列認識に誤認識があった場合,適切な辞書情報(電子図書)が選択されないという問題点があった。
ここで,使用する辞書情報そのものを利用者に選択させることが考えられるが,処理対象とする画像情報の内容とこれに関連する辞書情報との関連を,利用者がその都度認識して入力することは煩雑であり操作性が悪くなる。
一方,特許文献1や特許文献3には,文字列認識の精度向上に関する技術(処理対象に応じた辞書情報の切り替えに関する技術)は何ら示されていない。従って,例えば特許文献1に示される文字認識において,一般的な単語の辞書情報を用いた場合には,画像情報に専門用語や特殊な略語等の文字列画像が含まれる場合に認識精度が悪化するという問題点があった。さらに,対応範囲を広げた情報量の多い辞書情報を用いた場合は,前述したように処理負荷の増大によりレスポンスが悪化する,或いはかえって認識精度が悪化するという問題点があった。
従って,本発明は上記事情に鑑みてなされたものであり,その目的とするところは,処理対象とする画像情報に特定の分野の文字列(単語)画像が含まれる場合であっても,利用者の操作性悪化を招くことなく,文字列認識に用いる辞書情報としてその分野に対応したものを用いて文字列の認識精度を向上することができる文字列認識装置及びそのプログラム,その文字列認識装置を具備する画像読取り装置,その文字列認識装置に辞書情報を送信する辞書情報送信装置及びそのプログラムを提供することにある。
However, in the technique disclosed in Patent Document 2, when an electronic book used as dictionary information is identified from a word (character string) obtained by performing character string recognition once, the original character string recognition is erroneously recognized. There is a problem that appropriate dictionary information (electronic book) is not selected.
Here, it is possible to let the user select the dictionary information to be used, but the user recognizes and inputs the relationship between the contents of the image information to be processed and the related dictionary information each time. This is complicated and the operability is deteriorated.
On the other hand, Patent Document 1 and Patent Document 3 do not show any technology related to improving the accuracy of character string recognition (technology related to switching dictionary information in accordance with the processing target). Therefore, for example, in the character recognition shown in Patent Document 1, when general word dictionary information is used, the recognition accuracy deteriorates when the image information includes character string images such as technical terms and special abbreviations. There was a problem of doing. Furthermore, when using dictionary information with a large amount of information with an expanded correspondence range, as described above, there is a problem that the response deteriorates due to an increase in processing load or the recognition accuracy deteriorates.
Therefore, the present invention has been made in view of the above circumstances, and the object of the present invention is to use even if a character string (word) image in a specific field is included in the image information to be processed. String recognition device and its program capable of improving the accuracy of character string recognition by using dictionary information used for character string recognition corresponding to the field without deteriorating the user's operability, and its character string recognition To provide an image reading apparatus including the apparatus, a dictionary information transmitting apparatus that transmits dictionary information to the character string recognition apparatus, and a program thereof.

上記目的を達成するために本発明は,文字列画像を含む画像情報から文字列情報を認識する文字列認識装置において,前記画像情報の取扱者に関する取扱者情報を取得する取扱者情報取得手段と,前記取扱者情報取得手段により取得された前記取扱者情報に関連する特定の辞書情報を外部装置又は前記取扱者情報と関連付けて辞書情報を記憶する記憶手段から取得する特定辞書情報取得手段と,前記特定の辞書情報を用いて前記画像情報から文字列情報を認識して出力する文字列認識出力手段と,を具備してなることを特徴とする文字列認識装置として構成されるものである。
一般に,処理対象とする画像情報の分野は,その画像情報の取扱者(文字列認識処理を行わせようとしている利用者自身やその画像情報の提供先の相手,その画像情報の作成者等)と関連が深い。従って,上記構成により,処理対象とする画像情報の取扱者に関連する特定の辞書情報を用いて文字列認識が行われるので,文字列認識に用いる辞書情報としてその分野に対応したものを適切に選択して文字列の認識精度を向上することができる。ここで,前記取扱者情報取得手段が,例えば,利用者の操作や利用者が携帯する無線タグ等からの自動入力により,画像情報の取扱者(利用者自身等)に関する情報を入力或いは選択する手段であれば,利用者は,画像情報の取扱者(利用者自身等)を認識してその情報を入力するだけでよい,或いは何ら意識する必要がないので,利用者の操作性悪化を招くこともない。
To achieve the above object, the present invention provides a handler information acquisition means for acquiring handler information relating to a handler of the image information in a character string recognition device that recognizes character string information from image information including a character string image. Specific dictionary information acquisition means for acquiring specific dictionary information related to the handler information acquired by the handler information acquisition means from an external device or storage means for storing dictionary information in association with the handler information; Character string recognition output means comprising: character string recognition output means for recognizing and outputting character string information from the image information using the specific dictionary information.
In general, the field of image information to be processed is the person who handles the image information (the user who is trying to perform character string recognition processing, the other party to whom the image information is provided, the creator of the image information, etc.) Is closely related. Therefore, with the above configuration, character string recognition is performed using specific dictionary information related to the handler of the image information to be processed. Therefore, the dictionary information used for character string recognition should be appropriate for that field. The recognition accuracy of the character string can be improved by selecting. Here, the handler information acquisition means inputs or selects information about the handler of the image information (such as the user himself / herself) by, for example, user operation or automatic input from a wireless tag carried by the user. If it is a means, the user only needs to recognize the image information handler (the user himself / herself) and input the information, or there is no need to be aware of it, so the user's operability deteriorates. There is nothing.

一方,上記構成の文字列認識装置は,外部装置や予め辞書情報が記憶された記憶手段から前記特定の辞書情報を取得するものであるが,該特定の辞書情報を編成する手段を具備するものも考えられる。
即ち,文字列画像を含む画像情報から文字列情報を認識する文字列認識装置において,前記画像情報の取扱者に関する取扱者情報を取得する取扱者情報取得手段と,複数の単語データと前記取扱者情報と前記取扱者による前記単語データの過去の使用頻度情報とが関連付けられて記憶された単語使用頻度記憶手段と,前記単語使用頻度記憶手段の記憶情報に基づいて前記取扱者情報取得手段により取得された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い単語データを含む特定の辞書情報を編成する第1の特定辞書情報編成手段と,特定の辞書情報を用いて前記画像情報から文字列情報を認識して出力する文字列認識出力手段と,を具備してなることを特徴とする文字列認識装置として構成されるものである。
これにより,前記取扱者に関連する前記特定の辞書情報として,画像情報の取扱者による過去の使用頻度の高い単語データが含まれる辞書情報が自動生成されるので,辞書情報作成の手間を要することなく,文字列の認識精度向上を図ることができる。
この場合,前記取扱者情報が予めグループ化されており,前記第1の特定辞書情報編成手段が,前記取扱者情報取得手段により取得された前記取扱者情報と同じグループに属する前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い前記単語データを前記特定の辞書情報に含めるものが考えられる。
一般に,所属部署や研究テーマ等の共通する属性を有する前記取扱者は,共通の単語(文字列)を使用することが多い。このため,前記取扱者情報を,所属部署や研究テーマ等によって予めグループ化しておき,指定(取得)された前記取扱者情報と同一のグループに属する複数の前記取扱者(取扱者情報に対応する取扱者)の過去の使用頻度が高い単語データを集めることによっても,指定された前記取扱者情報に関連する前記特定の辞書情報を編成することができる。これにより,例えば,過去の単語データの使用実績が少ない新人等が前記取扱者として指定された場合であっても,適切な(内容の充実した)前記特定の辞書情報を編成することができる。
これに対し,前記単語データが予めグループ化されており,前記第1の特定辞書情報編成手段が,前記取扱者情報取得手段により取得された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い前記単語データと同じグループに属する前記単語データを前記特定の辞書情報に含めるものも考えられる。
一般に,業務分野や技術分野等の共通する属性ごとに使用頻度の高い単語データをグループ化(分類)することができる。このため,業務分野や技術分野等の共通する属性ごとに各単語データを予めグループ化(分類)しておき,指定された前記取扱者の使用頻度の高い単語データと同じグループに属する単語データを集めて前記特定の辞書情報に含めれば,指定された前記取扱者情報に関連する前記特定の辞書情報を編成することができる。このような構成によっても,過去の単語データの使用実績が少ない前記取扱者等が指定された場合であっても,適切な(内容の充実した)前記特定の辞書情報を編成することができる。
On the other hand, the character string recognizing device having the above-described configuration acquires the specific dictionary information from an external device or a storage means in which dictionary information is stored in advance, and includes means for organizing the specific dictionary information. Is also possible.
That is, in a character string recognition device for recognizing character string information from image information including a character string image, handler information acquisition means for acquiring handler information regarding the handler of the image information, a plurality of word data, and the handler Information is stored in association with past usage frequency information of the word data by the handler, and is acquired by the handler information acquisition unit based on the stored information of the word usage frequency storage unit. First specific dictionary information organizing means for organizing specific dictionary information including word data frequently used by the operator in the past corresponding to the handled operator information, and the image information using the specific dictionary information. And a character string recognition output means for recognizing and outputting character string information.
Thereby, as the specific dictionary information related to the handler, dictionary information including word data frequently used in the past by the handler of the image information is automatically generated, so that it takes time to create dictionary information. Therefore, the recognition accuracy of the character string can be improved.
In this case, the handler information is grouped in advance, and the first specific dictionary information organizing unit includes the handler information belonging to the same group as the handler information acquired by the handler information acquiring unit. It is possible to include the word data frequently used in the past by the corresponding handler in the specific dictionary information.
In general, the handlers having common attributes such as departments and research themes often use a common word (character string). For this reason, the handler information is grouped in advance according to the department or research theme, etc., and a plurality of the handlers (corresponding to the handler information) belonging to the same group as the designated (acquired) handler information. The specific dictionary information related to the specified handler information can also be organized by collecting word data frequently used by the handler). As a result, for example, even when a new face or the like with little past use of word data is designated as the handler, it is possible to organize the appropriate specific dictionary information (rich in contents).
On the other hand, the word data is grouped in advance, and the first specific dictionary information organizing unit uses past information by the operator corresponding to the operator information acquired by the operator information acquiring unit. It is also possible to include the word data belonging to the same group as the word data with high frequency in the specific dictionary information.
In general, it is possible to group (classify) frequently used word data for each common attribute such as a business field or a technical field. For this reason, each word data is grouped (classified) in advance for each common attribute such as a business field or a technical field, and word data belonging to the same group as the frequently used word data of the specified handler is stored. If collected and included in the specific dictionary information, the specific dictionary information related to the specified handler information can be organized. Even with such a configuration, even if the operator or the like who has little use of past word data is specified, the appropriate specific dictionary information can be organized.

また,本発明は,前記文字列認識装置各々を具備する画像読取り装置として捉えたものであってもよい。
即ち,文字列画像が形成された原稿から画像情報を読み取る画像読取り手段と,該画像読取り手段により読み取られた画像情報から文字列情報を認識する前記各文字列認識装置のいずれかと,を具備してなることを特徴とする画像読取り装置である。
この場合,前記取扱者取得手段を構成する形態としては,例えば,以下の2つが考えられる。
その1つは,当該画像読取り装置の利用者の識別情報を入力する利用者識別情報入力手段を具備し,前記利用者識別情報入力手段が,前記取扱者情報取得手段と兼用され,前記利用者の識別情報を前記取扱者情報とするものである。
ネットワークスキャナ等の画像読取り装置では,装置使用の予約,或いは読み取った画像情報の送信先(利用者自身のパソコン等)の指定等のために,使用前に利用者の識別情報を入力する手段を備えるものがある。これを前記取扱者情報取得手段として兼用すれば,前記特定の辞書情報の取得或いは編成のために,前記取扱者情報を別途入力する必要がなくなる。
前記利用者識別情報入力手段は,一般には,ユーザIDやパスワード等を操作キー等により入力するものであるが,名札等に記録されたバーコード等の識別符号を読み取るものや,名札等に内蔵された無線タグ等から無線信号により識別符号を読み取るもの等も考えられる。
他の1つは,前記画像情報の外部への送信先情報を入力する送信先情報入力手段を具備し,前記送信先情報入力手段が,前記取扱者情報取得手段と兼用され,前記送信先情報を前記取扱者情報とするものである。
ネットワークスキャナやファクシミリ装置等の画像読取り装置では,読み取った画像を外部送信するため,その送信先情報(相手先のメールアドレスや電話番号等)を入力する手段を備えるものがある。これを前記取扱者情報取得手段として兼用すれば,前記特定の辞書情報の取得或いは編成のために,前記取扱者情報を別途入力する必要がなくなる。
また,前記画像情報と前記文字列認識出力手段により出力された文字列情報とを併せて外部へ送信する画像情報等送信手段を具備するものが考えられる。
これにより,前記画像情報の受け取り先では,データサイズの大きな前記画像情報を専用プログラムによって開く(表示手段に表示させる)ことなく,データサイズの小さな前記文字列情報を表示させて見るだけで前記画像情報の内容を把握することができる。例えば,前記文字列情報を電子メールの本文のテキスト情報とし,前記画像情報をその添付データ(添付ファイル)として電子メール送信すること等が考えられる。
Further, the present invention may be understood as an image reading device provided with each of the character string recognition devices.
That is, an image reading unit that reads image information from a document on which a character string image is formed, and any one of the character string recognition devices that recognize character string information from the image information read by the image reading unit. An image reading apparatus characterized by comprising:
In this case, for example, the following two can be considered as the configuration of the handler acquisition means.
One of them is provided with user identification information input means for inputting the identification information of the user of the image reading apparatus, and the user identification information input means is also used as the handler information acquisition means, and the user The identification information is used as the handler information.
In an image reading device such as a network scanner, there is a means for inputting user identification information before use in order to reserve the use of the device or specify the transmission destination (user's own personal computer, etc.) of the read image information. There is something to prepare. If this is also used as the handler information acquisition means, it is not necessary to separately input the handler information in order to acquire or organize the specific dictionary information.
The user identification information input means is generally used to input a user ID, a password, etc. using an operation key, etc., but it reads an identification code such as a barcode recorded on a name tag, etc., or is incorporated in a name tag. A device that reads an identification code from a wireless tag or the like using a wireless signal is also conceivable.
The other one includes transmission destination information input means for inputting transmission destination information to the outside of the image information, and the transmission destination information input means is also used as the handler information acquisition means. Is the handler information.
Some image reading apparatuses such as a network scanner and a facsimile apparatus include means for inputting transmission destination information (e-mail address, telephone number, etc. of the other party) in order to externally transmit the read image. If this is also used as the handler information acquisition means, it is not necessary to separately input the handler information in order to acquire or organize the specific dictionary information.
Further, it is conceivable to include image information transmission means for transmitting the image information and the character string information output by the character string recognition output means together.
As a result, at the recipient of the image information, the image information having a large data size is not opened (displayed on the display means) by a dedicated program, and the character string information having a small data size is displayed and viewed. The contents of information can be grasped. For example, it is conceivable that the character string information is text information of the body of an e-mail, and the image information is sent as an attached data (attached file).

また,本発明は,前記文字列認識装置に辞書情報を送信する辞書情報送信装置として捉えることもできる。
即ち,文字列画像を含む画像情報から文字列情報を認識する文字列認識装置と通信可能に接続され,該文字列認識装置に対して文字列情報の認識に用いる辞書情報を送信する辞書情報送信装置であって,前記画像情報の取扱者に関する取扱者情報を前記文字列認識装置から受信する取扱者情報受信手段と,複数の単語データと前記取扱者情報と前記取扱者による単語データの過去の使用頻度情報とが関連付けられて記憶された単語使用頻度記憶手段と,前記単語使用頻度記憶手段の記憶情報に基づいて,前記取扱者情報受信手段により受信された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い単語データを含む特定の辞書情報を編成する第2の特定辞書情報編成手段と,前記特定の辞書情報を前記取扱者情報の送信元の前記文字列認識装置に送信する特定辞書情報送信手段と,を具備してなることを特徴とする辞書情報送信装置として構成されるものである。
これにより,当該辞書情報送信装置を,複数の前記文字列認識装置(或いは,これを具備する画像読取り装置)との間で共用することが可能となり,辞書情報を一括管理できることになる。
この場合も前記文字列認識装置と同様に,前記取扱者情報が予めグループ化されており,前記第2の特定辞書情報編成手段が,前記取扱者情報受信手段により受信された前記取扱者情報と同じグループに属する前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い前記単語データを前記特定の辞書情報に含めるものが考えられる。
これに対し,前記単語データが予めグループ化されており,前記第2の特定辞書情報編成手段が,前記取扱者情報受信手段により受信された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い前記単語データと同じグループに属する前記単語データを前記特定の辞書情報に含めるものも考えられる。
これらにより,例えば,過去の単語データの使用実績が少ない新人等が前記取扱者として指定された場合であっても,適切な(内容の充実した)前記特定の辞書情報を編成することができる。
The present invention can also be understood as a dictionary information transmission device that transmits dictionary information to the character string recognition device.
That is, dictionary information transmission that is communicably connected to a character string recognition device that recognizes character string information from image information including a character string image, and transmits dictionary information used to recognize character string information to the character string recognition device. A device for receiving information about a handler of the image information from the character string recognition device, a plurality of word data, the handler information, and past data of the word data by the handler. Word usage frequency storage means stored in association with usage frequency information, and the handling corresponding to the handler information received by the handler information reception means based on the storage information of the word usage frequency storage means Second specific dictionary information organizing means for organizing specific dictionary information including word data frequently used by the user in the past, and the specific dictionary information before the sender of the handler information. A specific dictionary information transmitting means for transmitting the character string recognition unit, is constituted as dictionary information transmitting apparatus characterized by comprising comprises a.
As a result, the dictionary information transmitting device can be shared with a plurality of the character string recognizing devices (or image reading devices having the same), and dictionary information can be managed collectively.
Also in this case, as in the character string recognition device, the handler information is grouped in advance, and the second specific dictionary information organizing unit and the handler information received by the handler information receiving unit It is considered that the specific dictionary information includes the word data frequently used in the past by the handler corresponding to the handler information belonging to the same group.
On the other hand, the word data is grouped in advance, and the second specific dictionary information organizing means is used by the handler in the past corresponding to the handler information received by the handler information receiving means. It is also possible to include the word data belonging to the same group as the word data with high frequency in the specific dictionary information.
As a result, for example, even when a new face or the like with little past use of word data is designated as the handler, it is possible to organize the appropriate specific dictionary information (rich in contents).

また,本発明は,前記文字列認識装置が実行する処理をコンピュータに実行させるための文字列認識プログラムとして捉えたものであってもよい。
即ち,文字列画像を含む画像情報から文字列情報を認識する処理をコンピュータに実行させるための文字列認識プログラムにおいて,前記画像情報の取扱者に関する取扱者情報を取得する取扱者情報取得処理と,前記取扱者情報取得処理により取得された前記取扱者情報に関連する特定の辞書情報を外部装置又は前記取扱者情報と関連付けて辞書情報を記憶する記憶手段から取得する特定辞書情報取得処理と,前記特定の辞書情報を用いて前記画像情報から文字列情報を認識して出力する文字列認識出力処理と,の各処理をコンピュータに実行させるための文字列認識プログラムである。
或いは,文字列画像を含む画像情報から文字列情報を認識する処理をコンピュータに実行させるための文字列認識プログラムにおいて,前記画像情報の取扱者に関する取扱者情報を取得する取扱者情報取得処理と,複数の単語データと前記取扱者情報と前記取扱者による前記単語データの過去の使用頻度情報とを関連付けて記憶する単語使用頻度記憶手段の記憶情報に基づいて,前記取扱者情報取得処理により取得された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い単語データを含む特定の辞書情報を編成する第1の特定辞書情報編成処理と,特定の辞書情報を用いて前記画像情報から文字列情報を認識して出力する文字列認識出力処理と,の各処理をコンピュータに実行させるための文字列認識プログラムも考えられる。
また,これら文字列認識プログラムが記録されてなることを特徴とするコンピュータ読み取り可能な記録媒体として構成したものも考えられる。
Further, the present invention may be understood as a character string recognition program for causing a computer to execute processing executed by the character string recognition device.
That is, in a character string recognition program for causing a computer to execute processing for recognizing character string information from image information including a character string image, a handler information acquisition process for acquiring handler information regarding a handler of the image information; Specific dictionary information acquisition processing for acquiring specific dictionary information related to the handler information acquired by the handler information acquisition processing from an external device or storage means for storing dictionary information in association with the handler information; A character string recognition program for causing a computer to execute each process of character string recognition output processing for recognizing and outputting character string information from the image information using specific dictionary information.
Alternatively, in a character string recognition program for causing a computer to execute processing for recognizing character string information from image information including a character string image, a handler information acquisition process for acquiring handler information regarding a handler of the image information; Acquired by the handler information acquisition process based on the storage information of the word usage frequency storage means for storing a plurality of word data, the handler information, and past usage frequency information of the word data by the handler in association with each other. A first specific dictionary information organizing process for organizing specific dictionary information including word data frequently used by the operator in the past corresponding to the handler information, and the image information using the specific dictionary information. A character string recognition output program that recognizes and outputs character string information and a character string recognition program that causes a computer to execute each process are also possible. .
Further, a computer-readable recording medium characterized by recording these character string recognition programs is also conceivable.

同様に,本発明は,前記辞書情報送信装置が実行する処理をコンピュータに実行させるための辞書情報送信プログラムとして捉えたものであってもよい。
即ち,文字列画像を含む画像情報から文字列情報を認識する1又は複数の文字列認識装置と通信可能に接続されたコンピュータに,前記文字列認識装置に対して文字列情報の認識に用いる辞書情報を送信する処理を実行させるための辞書情報送信プログラムであって,複数の単語データと前記画像情報の取扱者に関する取扱者情報を前記文字列認識装置から受信する取扱者情報受信処理と,予め前記取扱者情報と前記取扱者による前記単語データの過去の使用頻度情報とを関連付けて記憶する単語使用頻度記憶手段の記憶情報に基づいて,前記取扱者情報受信手段により受信された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い単語データを含む特定の辞書情報を編成する第2の特定辞書情報編成処理と,前記特定の辞書情報を前記取扱者情報の送信元の前記文字列認識装置に送信する特定辞書情報送信処理と,の各処理をコンピュータに実行させるための辞書情報送信プログラムである。
また,この辞書情報送信プログラムが記録されてなることを特徴とするコンピュータ読み取り可能な記録媒体として構成したものも考えられる。
Similarly, the present invention may be understood as a dictionary information transmission program for causing a computer to execute processing executed by the dictionary information transmission apparatus.
That is, a dictionary used for recognizing character string information for the character string recognition device to a computer that is communicably connected to one or more character string recognition devices that recognize character string information from image information including character string images. A dictionary information transmission program for executing a process of transmitting information, a handler information reception process for receiving a plurality of word data and handler information relating to the handler of the image information from the character string recognition device; The handler information received by the handler information receiving means based on the storage information of the word usage frequency storage means for associating and storing the handler information and past usage frequency information of the word data by the handler. A second specific dictionary information organizing process for organizing specific dictionary information including word data frequently used in the past by the operator corresponding to the specific dictionary, and the specific dictionary A dictionary information transmitting program for executing a specific dictionary information transmission process of transmitting broadcast to the character string recognition apparatus of the transmission source of the handling person information, the processing of the computer.
Further, a computer-readable recording medium in which the dictionary information transmission program is recorded can be considered.

本発明によれば,文字列画像を含む画像情報の取扱者に関する取扱者情報を取得し,これに関連する特定の辞書情報を取得或いは編成し,その特定の辞書情報を用いて前記画像情報から文字列情報を認識して出力するので,文字列認識に用いる辞書情報として,画像情報の取扱者(分野)に対応したものを適切に選択して文字列の認識精度を向上することができる。しかも,利用者は,画像情報の取扱者(利用者自身等)に関する情報を認識してその情報を入力するだけでよい,或いは何ら意識する必要がないので,画像情報と辞書情報との関連を意識する必要がなく,利用者の操作性悪化を招くこともない。
また,複数の単語データと前記取扱者情報と前記取扱者による単語データの過去の使用頻度情報とが関連付けられて記憶された記憶手段の記憶情報に基づいて,取得された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い単語データを含む特定の辞書情報を編成するよう構成することにより,前記取扱者に関連する前記特定の辞書情報として,その取扱者による過去の使用頻度の高い単語データが含まれる辞書情報が自動生成されるので,辞書情報作成の手間を要することなく,文字列の認識精度向上を図ることができる。
この場合,前記取扱者情報が予めグループ化されており,取得された前記取扱者情報と同じグループに属する前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い前記単語データを前記特定の辞書情報に含めるものや,或いは前記単語データが予めグループ化されており,取得された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い前記単語データと同じグループに属する前記単語データを前記特定の辞書情報に含めるものであれば,過去の単語データの使用実績が少ない前記取扱者等が指定された場合であっても,適切な(内容の充実した)前記特定の辞書情報を編成することができるので好適である。
According to the present invention, handler information related to a handler of image information including a character string image is acquired, specific dictionary information related thereto is acquired or organized, and the specific dictionary information is used to obtain the information from the image information. Since character string information is recognized and output, the dictionary information used for character string recognition can be selected appropriately according to the handler (field) of the image information to improve the character string recognition accuracy. In addition, the user only needs to recognize the information related to the image information handler (the user himself / herself) and input the information, or there is no need to be aware of it, so the relationship between the image information and the dictionary information is not necessary. There is no need to be aware of it, and it does not cause any deterioration in the operability of users.
In addition, a plurality of pieces of word data, the handler information, and past usage frequency information of the word data by the handler are associated with the stored information stored in the storage means and correspond to the acquired handler information. By organizing specific dictionary information including word data frequently used by the operator in the past, as the specific dictionary information related to the operator, Since dictionary information including high word data is automatically generated, it is possible to improve character string recognition accuracy without the need for creating dictionary information.
In this case, the handler information is grouped in advance, and the word data frequently used in the past by the handler corresponding to the handler information belonging to the same group as the acquired handler information is identified. What is included in the dictionary information, or the word data is grouped in advance and belongs to the same group as the word data frequently used by the handler in the past corresponding to the acquired handler information As long as data is included in the specific dictionary information, the specific dictionary information that is appropriate (enriched in content) is appropriate even when the operator or the like who has little use of past word data is specified. Can be knitted.

以下添付図面を参照しながら,本発明の実施の形態について説明し,本発明の理解に供する。尚,以下の実施の形態は,本発明を具体化した一例であって,本発明の技術的範囲を限定する性格のものではない。
ここに,図1は本発明の実施の形態に係る文字列認識装置Xが搭載されるスキャナY(画像読取り装置)の概略構成を表すブロック図,図2はスキャナYに対して文字列情報の認識に用いる特定の辞書情報を送信する辞書サーバZ概略構成を表すブロック図,図3はスキャナY及び辞書サーバZが接続されるネットワークの接続構成図,図4は一般単語辞書及び専門語辞書の辞書構成の具体例を表す図,図5は使用者別単語データベースの構成の具体例を表す図,図6は専門分野別単語データベースの構成の具体例を表す図,図7はスキャナYのプッシュスキャン処理の手順を表すフローチャートである。
Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings so that the present invention can be understood. The following embodiment is an example embodying the present invention, and does not limit the technical scope of the present invention.
FIG. 1 is a block diagram showing a schematic configuration of a scanner Y (image reading device) on which the character string recognition device X according to the embodiment of the present invention is mounted. FIG. FIG. 3 is a block diagram showing a schematic configuration of a dictionary server Z that transmits specific dictionary information used for recognition, FIG. 3 is a connection configuration diagram of a network to which the scanner Y and the dictionary server Z are connected, and FIG. FIG. 5 is a diagram showing a specific example of the configuration of the word database for each user, FIG. 6 is a diagram showing a specific example of the configuration of the word database for each specialized field, and FIG. It is a flowchart showing the procedure of a scanning process.

まず,図3を用いて,本発明の実施の形態に係る文字列認識装置Xが搭載される画像読取り装置Y(スキャナYという),及び該スキャナY(即ち,前記文字列認識装置X)に対して,文字列情報の認識に用いるユーザ辞書(特定の辞書情報)を送信する辞書情報送信装置の一例である辞書サーバZが接続されるネットワークの接続構成について説明する。
図3に示すネットワークでは,第1部門のLAN,第2部門のLAN,管理部門のLAN等の複数のLANが,互いにルータ6を介して接続されている。
前記スキャナY(画像読取り装置)及び前記辞書サーバZ(辞書情報送信装置)は,例えば前記第1部門のLANや,前記第2部門のLAN等に接続され,相互に通信可能である。これにより,前記辞書サーバZは,画像情報から文字列情報を認識する1又は複数の前記スキャナYと通信可能である。
各部門のLANには,前記スキャナYや前記辞書サーバZの他,各利用者が操作するパーソナルコンピュータ等の端末7や,電子メールデータの送受信処理を行うメールサーバ8,ネットワークプリンタ9等が接続される。また,前記管理部門のLANには,社外のネットワークとの通信中継装置であるファイアウォール11が接続される。
各部門のLANに接続される前記端末5では,文書ファイルを作成するワープロソフト(プログラム)等の文書ファイル作成ソフトや,前記メールサーバ8を介して電子メールを送受信する電子メールソフトや,前記スキャナYや前記ネットワークプリンタ9と通信を行うためのドライバソフト等が動作している。
前記端末7において文書ファイル生成ソフトにより作成された文書ファイルは,前記端末7が備えるハードディスク等の記憶装置内に蓄積され,前記辞書サーバZによって管理される。
First, referring to FIG. 3, the image reading device Y (referred to as scanner Y) on which the character string recognition device X according to the embodiment of the present invention is mounted and the scanner Y (that is, the character string recognition device X) are used. On the other hand, a connection configuration of a network to which a dictionary server Z, which is an example of a dictionary information transmitting device that transmits a user dictionary (specific dictionary information) used for character string information recognition, is connected.
In the network shown in FIG. 3, a plurality of LANs such as a first department LAN, a second department LAN, and a management department LAN are connected to each other via a router 6.
The scanner Y (image reading device) and the dictionary server Z (dictionary information transmission device) are connected to, for example, the LAN of the first department, the LAN of the second department, etc., and can communicate with each other. Accordingly, the dictionary server Z can communicate with one or a plurality of the scanners Y that recognize character string information from image information.
In addition to the scanner Y and the dictionary server Z, a terminal 7 such as a personal computer operated by each user, a mail server 8 for transmitting / receiving e-mail data, a network printer 9 and the like are connected to the LAN of each department. Is done. Further, a firewall 11 which is a communication relay device with an external network is connected to the LAN of the management department.
In the terminal 5 connected to the LAN of each department, document file creation software such as word processing software (program) for creating a document file, e-mail software for sending and receiving e-mail via the mail server 8, and the scanner Y and driver software for communicating with the network printer 9 are operating.
The document file created by the document file generation software in the terminal 7 is stored in a storage device such as a hard disk provided in the terminal 7 and managed by the dictionary server Z.

図2は,前記辞書サーバZの概略構成を表すブロック図である。前記辞書サーバZは,前記スキャナYに対して画像情報の取扱者に対応したユーザ辞書情報(特定の辞書情報)を送信するとともに,LANに接続された各端末7で作成された文書データ(文書ファイル)や電子メールデータ等が蓄積されるファイルサーバとしての役割も担うものである。
前記辞書サーバZは,ユーザインターフェース(I/F)41,制御部50,記憶部42,通信部43等の一般的な構成を有するコンピュータを用いて具体化される。
前記ユーザI/F41は,例えばキーボード,マウス,ディスプレイ等,利用者が,前記辞書サーバZ(コンピュータ)を操作したり,前記辞書サーバZの処理結果を確認するのに用いるものである。また,前記通信部43は,LANを介して前記端末7等と通信するために用いるNIC等である。
前記制御部50は,コンピュータの演算手段として動作するマイクロプロセッサ及びプログラムの実行時に該プログラムを展開する主メモリ等の周辺機器からなる演算処手段である。
前記記憶部42は,ハードディスクドライブ等の記憶装置であり,各種データベース(DB,421〜426)等のデータに加え,前記制御部50により実行されるプログラム(不図示)が記憶(インストール)されている。
FIG. 2 is a block diagram showing a schematic configuration of the dictionary server Z. The dictionary server Z transmits user dictionary information (specific dictionary information) corresponding to a handler of image information to the scanner Y, and also creates document data (documents) created at each terminal 7 connected to the LAN. File), e-mail data, and the like.
The dictionary server Z is embodied using a computer having a general configuration such as a user interface (I / F) 41, a control unit 50, a storage unit 42, a communication unit 43, and the like.
The user I / F 41 is used by a user, such as a keyboard, a mouse, and a display, for example, to operate the dictionary server Z (computer) and check the processing result of the dictionary server Z. The communication unit 43 is a NIC or the like used for communicating with the terminal 7 or the like via a LAN.
The control unit 50 is arithmetic processing means including a microprocessor that operates as computer arithmetic means and peripheral devices such as a main memory that develops the program when the program is executed.
The storage unit 42 is a storage device such as a hard disk drive, and stores (installs) programs (not shown) executed by the control unit 50 in addition to data such as various databases (DB, 421 to 426). Yes.

前記演算処理部50は,予めインストールされた各種プログラムモジュールを実行することにより,各種処理を実行する。そのプログラムモジュールとしては,ユーザ別辞書検索部51,単語抽出部52,文書データベース(DB)管理部53,使用頻度集計部54,文書データ受信部55,データベース(DB)メンテナンス部56,辞書メンテナンス部57等がある。
また,前記記憶部42には,専門分野別単語データベース421,使用者別単語データベース422,一般単語辞書423,文書データベース425,ユーザ情報データベース426等が記憶(構築)される。これらは,前記演算処理部50が前述した各プログラムモジュールを実行することにより構築されるものである。
The arithmetic processing unit 50 executes various processes by executing various program modules installed in advance. The program modules include user-specific dictionary search unit 51, word extraction unit 52, document database (DB) management unit 53, usage frequency totaling unit 54, document data receiving unit 55, database (DB) maintenance unit 56, dictionary maintenance unit. There are 57 mag.
The storage section 42 stores (constructs) a specialized field-specific word database 421, a user-specific word database 422, a general word dictionary 423, a document database 425, a user information database 426, and the like. These are constructed by the arithmetic processing unit 50 executing the above-described program modules.

以下,前記辞書サーバZの動作について説明する。
前記辞書サーバZは,前記文書データ受信部55の処理により,前記通信部4を介して,各端末7の利用者が作成等した文書ファイル(文書データ)やイメージファイル等のLANを流れる各種データ(パケット)を取り込み,その文書ファイル等が存在した(取り込み元の)前記端末7の利用者を識別する前記ユーザIDを認識し,該ユーザIDとともにその文書ファイル等を前記文書データベース管理部53に出力する。
前記文書ファイル等に関するパケットは,例えば前記端末7で作成された文書ファイル等をファイルサーバとしての当該辞書サーバZの前記記憶部42に格納しようとする場合や,前記端末7で作成された電子メールデータを前記メールサーバ8にスプールしようとする場合,或いは前記端末7で作成されたイメージファイルを前記ネットワークプリンタ9を用いて印刷しようとした場合等に,LANに流れるパケットである。
前記ユーザIDの認識は,前記端末7から文書ファイル等の付属情報(例えば,当該ファイルの作成・編集者等を表す付属情報等)として送信されてくるものを抽出することや,前記端末7の通信アドレス(IPアドレス等)と関連付けて予め前記記憶部42に記憶しておき,これを参照すること等が考えられる。
前記文書データベース管理部53は,取得した文書ファイル等を前記ユーザIDと関連付けて前記文書データベース425として前記記憶部42に記憶させる。
また,前記文書データ受信部55は,取得したデータが文書ファイルである場合は,その文書ファイルを前記ユーザIDとともに前記単語抽出部52にも出力する。
Hereinafter, the operation of the dictionary server Z will be described.
The dictionary server Z receives various data flowing through the LAN, such as document files (document data) and image files created by the user of each terminal 7 through the communication unit 4 through the processing of the document data receiving unit 55. (Packet) is captured, and the user ID for identifying the user of the terminal 7 in which the document file or the like exists (from the capture source) is recognized, and the document file and the like are stored in the document database management unit 53 together with the user ID. Output.
The packet related to the document file or the like is, for example, when the document file or the like created on the terminal 7 is stored in the storage unit 42 of the dictionary server Z as a file server, or an e-mail created on the terminal 7 A packet that flows to the LAN when data is to be spooled to the mail server 8 or an image file created by the terminal 7 is to be printed using the network printer 9.
The user ID is recognized by extracting information transmitted from the terminal 7 as attached information such as a document file (for example, attached information indicating creation / editor of the file), It is conceivable to store the information in advance in the storage unit 42 in association with a communication address (IP address or the like) and refer to this.
The document database management unit 53 stores the acquired document file or the like in the storage unit 42 as the document database 425 in association with the user ID.
Further, when the acquired data is a document file, the document data receiving unit 55 outputs the document file to the word extracting unit 52 together with the user ID.

前記専門語抽出部52は,前記文書データ受信部55により供給された文書ファイルから,前記記憶部42に格納されている一般単語辞書423や専門語辞書424を用いながら専門語を抽出する。
前記一般単語辞書423及び前記専門語辞書424の辞書構成の具体例を,それぞれ図4(a),図4(b)に示す。
図4(a),(b)に示す如く,前記一般単語辞書423や,前記専門語辞書424では,見出し語や,その品詞等が,各単語を識別するためのキー毎に格納されている。
前記一般単語辞書423には,例えば図4(a)に示すように,「さらに」,「ディスク」,「家電」,「漢字」,「表現」等といった日常的に用いられる単語が格納される。これらの単語は,社会生活上必要な知識があればそれほど理解に困難性がない単語等であり,専門語でない単語の集まりとなる。また,文章を構成する上で必要となる接続詞等も含まれる。前記一般単語辞書423は,前記辞書メンテナンス部57により更新可能であり,更新されるごとに,当該辞書サーバZから前記スキャナYに送信される。
一方,前記専門語辞書424には,例えば図4(b)に示すように,「EUC」,「SED/sed」,「ディスクアレイ」,「ユニコード」,「情報家電」,「正規表現」,「第3水準」等といった専門語が格納される。これらの専門語は,コンピュータや半導体等技術に関わる専門語であったり,絵画や音楽等芸術に関わる専門語であったり,日常的に用いられることが少ない専門的な知識として要求される単語である。
前記専門語抽出部52は,前記一般単語辞書423や前記専門語辞書424を用いて,形態素解析等を行いながら,前記文書ファイルから前記専門語辞書424に格納されている専門語と,前記一般単語辞書423及び前記専門語辞書424のいずれにも格納されていない未知語とを抽出する。
本実施の形態においては,前記未知語が抽出されると,当該未知語は前記専門語辞書424に格納される。即ち,前記未知語は,自動的に前記専門語であるとみなされる。これにより,新たに生まれてくる単語を前記専門語として登録する作業負担が軽減される。
前記専門語抽出部52は,抽出した前記専門語(前記未知語を含む)と,前記文書データ受信部55から提供された前記ユーザIDとを関連付けて前記記憶部42に一時格納する(不図示)。
なお,前記専門語抽出部52に供給される文書ファイルは,前記文書データ受信部55を経由したものに限られるわけではなく,当該辞書サーバYを直接操作して入力された文書ファイル等も含まれる。
The technical term extraction unit 52 extracts technical terms from the document file supplied by the document data receiving unit 55 using the general word dictionary 423 and the technical term dictionary 424 stored in the storage unit 42.
Specific examples of the dictionary structure of the general word dictionary 423 and the technical word dictionary 424 are shown in FIGS. 4A and 4B, respectively.
As shown in FIGS. 4A and 4B, in the general word dictionary 423 and the technical word dictionary 424, a headword, its part of speech, and the like are stored for each key for identifying each word. .
In the general word dictionary 423, for example, as shown in FIG. 4A, words used daily such as “further”, “disc”, “home appliance”, “kanji”, “expression”, and the like are stored. . These words are words that are not so difficult to understand if there is knowledge necessary for social life, and are a collection of words that are not technical words. Also included are conjunctions necessary for composing sentences. The general word dictionary 423 can be updated by the dictionary maintenance unit 57 and is transmitted from the dictionary server Z to the scanner Y each time it is updated.
On the other hand, in the technical term dictionary 424, for example, as shown in FIG. 4B, “EUC”, “SED / sed”, “disk array”, “unicode”, “information appliance”, “regular expression”, Technical terms such as “third level” are stored. These technical terms are technical terms related to technology such as computers and semiconductors, technical terms related to art such as painting and music, and words required as specialized knowledge that is rarely used on a daily basis. is there.
The technical term extraction unit 52 performs the morphological analysis using the general word dictionary 423 and the technical term dictionary 424, and the technical terms stored in the technical term dictionary 424 from the document file, and the general term dictionary 424 Unknown words that are not stored in either the word dictionary 423 or the technical term dictionary 424 are extracted.
In the present embodiment, when the unknown word is extracted, the unknown word is stored in the technical term dictionary 424. That is, the unknown word is automatically regarded as the technical term. This reduces the work burden of registering a newly born word as the technical term.
The technical term extraction unit 52 associates the extracted technical term (including the unknown word) with the user ID provided from the document data receiving unit 55 and temporarily stores it in the storage unit 42 (not shown). ).
Note that the document file supplied to the technical term extraction unit 52 is not limited to the one via the document data receiving unit 55, and includes a document file input by directly operating the dictionary server Y. It is.

前記使用頻度集計部54は,前記記憶部42に一時格納された前記専門語と前記ユーザIDとの対応関係を参照しながら,前記ユーザIDごと及び前記専門語ごとに,その専門語が抽出された頻度(即ち,前記文書ファイルの送信元のユーザ(作成者等:取扱者の一例)によるその専門語の過去の使用頻度)を集計する。
さらに,前記使用頻度集計部54は,各専門語(複数の単語データ)と前記ユーザID(前記取扱者情報の一例)と前記使用頻度に関する情報とを関連付けて,前記使用者別単語データベース422として前記記憶部42に記憶させる(前記単語使用頻度記憶手段の一例)。
前記使用頻度集計部52により前記記憶部42に構築される前記使用者別単語データベース422の構成の具体例を図5に示す。本実施の形態では,前記使用者別単語データベース422は,2つのデータベース部分(図5(a),図5(b))からなる。
図5(a)に示すように,前記使用者別単語データベース422を構成するデータベース部の一方のキーは,専門語或いはそれに代わるもの(専門語の識別符号等)によって与えられる。各専門語に対して,「田中」,「高橋」,「中村」といった各ユーザID毎(説明の便宜上,名前を用いているが通常は符号を用いる)に,集計された前記使用頻度(度数)が記憶されている。図5(a)に示す例では,「ミラーディスク」という専門語は,「田中」によって180回,「高橋」によって18回,「中村」によって8回使用されたことを表す。
The usage frequency totaling unit 54 extracts the technical terms for each user ID and each technical term while referring to the correspondence between the technical terms temporarily stored in the storage unit 42 and the user ID. Frequency (that is, the past use frequency of the technical term by the user (creator or the like: an example of a handler) of the document file).
In addition, the usage frequency totaling unit 54 associates each technical term (a plurality of word data), the user ID (an example of the handler information), and information on the usage frequency, and forms the user-specific word database 422. It memorize | stores in the said memory | storage part 42 (an example of the said word usage frequency memory | storage means).
A specific example of the configuration of the user-specific word database 422 constructed in the storage unit 42 by the use frequency totaling unit 52 is shown in FIG. In the present embodiment, the user-specific word database 422 includes two database parts (FIGS. 5A and 5B).
As shown in FIG. 5 (a), one key of the database section constituting the user-specific word database 422 is given by a technical term or an alternative (technical term identification code or the like). For each technical term, for each user ID such as “Tanaka”, “Takahashi”, “Nakamura” (for convenience of explanation, a name is used but usually a code is used), the collected usage frequency (frequency) ) Is stored. In the example shown in FIG. 5A, the technical term “mirror disk” indicates that it has been used 180 times by “Tanaka”, 18 times by “Takahashi”, and 8 times by “Nakamura”.

一方,前記専門語辞書424に登録(記憶)されている各専門語は,組織の分割単位や研究テーマの分類等を考慮して,予め専門分野ごとにグループ化されている。この専門分野と前記専門語とを関連付けするものが前記専門分野別単語データベース42である。
図6は,前記専門分野別単語データベース42の構成の具体例を表すものである。
図6に示すように,「RAID」,「ディスクアレイ」,「ミラーディスク」等の前記専門語は,「HDD分散多重化」という専門分野に関連付けられる(ポインタが設定される)ことによりグループ化されている。この専門分野別単語データベース42は,前記データベースメンテナンス部56が前記ユーザインターフェース41を通じてデータを入力或いは更新する処理を実行することにより,利用者によって設定入力されるものである。
前記専門語抽出部52は,前記専門分野別単語データベース42を用いて,前記使用者別単語データベース422を構成するもう1つのデータベース部(図5(b))を生成する。具体的には,図5(b)に示すように,各専門分野に対して,各ユーザID毎に,前記専門分野に属する前記専門語について集計された前記使用頻度の合計の全使用頻度に対する割合が記憶されている。
即ち,図5(b)に示すデータベース部は,複数の前記専門語(単語データの一例)と前記ユーザID(前記取扱者情報の一例)と該ユーザIDに対応する利用者(取扱者)による前記専門語(単語データ)の過去の使用頻度情報(前記割合)とが関連付けられて記憶されたデータベース(前記単語使用頻度記憶手段の一例)である。
図5(b)に示す例では,「田中」が過去に使用した前記専門語のうち,前記専門分野「HDD分散多重化」に属する前記専門語の使用頻度の割合が「0.392」で最も高いことを表している。同様に,「高橋」は,前記専門分野「文字コード標準化」に属する前記専門語の使用頻度の割合が「0.209」で最も高い。
後述するように,前記辞書サーバZは,前記スキャナYから前記ユーザIDを指定してそのユーザIDに関連するユーザ辞書(特定の辞書情報)の要求を受けた場合(後述する辞書情報要求コマンドを受信した場合),前記ユーザ別辞書検索部51により,指定されたユーザIDについて,前記使用頻度の割合が最も高い前記専門分野を検索し,さらにその専門分野に属する前記専門語を全て含む(集めた)辞書情報を編成して,これを前記通信部を介して前記スキャナYに送信する。
On the other hand, each technical term registered (stored) in the technical term dictionary 424 is grouped in advance for each specialized field in consideration of the division unit of the organization, the classification of the research theme, and the like. It is the specialized field word database 42 that associates the specialized field with the specialized word.
FIG. 6 shows a specific example of the structure of the specialized field word database 42.
As shown in FIG. 6, the technical terms such as “RAID”, “disk array”, and “mirror disk” are grouped by being associated with a specialized field “HDD distributed multiplexing” (a pointer is set). Has been. This specialized field-specific word database 42 is set and inputted by the user when the database maintenance unit 56 executes a process of inputting or updating data through the user interface 41.
The technical word extraction unit 52 generates another database unit (FIG. 5B) that constitutes the user-specific word database 422 using the technical field-specific word database 42. Specifically, as shown in FIG. 5 (b), for each specialized field, for each user ID, the total usage frequency is a sum of the usage frequencies calculated for the technical terms belonging to the specialized field. The percentage is remembered.
That is, the database unit shown in FIG. 5B includes a plurality of technical terms (an example of word data), the user ID (an example of the handler information), and a user (a handler) corresponding to the user ID. It is a database (an example of the word usage frequency storage means) in which past usage frequency information (the ratio) of the technical terms (word data) is stored in association with each other.
In the example shown in FIG. 5B, among the technical terms used in the past by “Tanaka”, the usage frequency ratio of the technical terms belonging to the specialized field “HDD distributed multiplexing” is “0.392”. Represents the highest. Similarly, “Takahashi” has the highest usage rate of the technical term belonging to the specialized field “character code standardization” at “0.209”.
As will be described later, the dictionary server Z designates the user ID from the scanner Y and receives a request for a user dictionary (specific dictionary information) related to the user ID (a dictionary information request command described later). When received), the user-specific dictionary search unit 51 searches the specialized field having the highest use frequency ratio for the designated user ID, and further includes all the technical terms belonging to the specialized field (collected). D) Organize dictionary information and send it to the scanner Y via the communication unit.

次に,本発明の実施の形態に係る文字列認識装置Xが搭載される前記スキャナYについて説明する。
図1は,前記スキャナYの概略構成を表すブロック図である。本スキャナYは,原稿から画像情報を読み取り,読み取った画像情報から文字列情報を認識する文字列認識装置Xを具備するものである。
前記スキャナYは,原稿に光を照射する光源及びその反射光を偏向する光学系並びにその反射光を受光するCCD等からなり,原稿から画像情報を読み取る画像読取部21(前記画像読取り手段の一例)と,読み取った画像情報に対してシェーディング補正等の画像処理を施す画像処理部22と,読み取った画像データを一時記憶したり各種プログラムやその他のデータを記憶する記憶部23と,LANを介した通信制御を行うネットワークインターフェース(I/F)24と,当該スキャナYの利用者により操作されて各種情報の入力を行う操作キー及び情報表示用の液晶表示部等からなるユーザインターフェース25と,当該スキャナYの利用者が携帯する非接触タグやICカードから無線通信手段或いはICカード読取り部によって利用者の識別情報であるユーザIDを読み取る(取得する)ユーザID入力部26と,当該スキャナYの各種制御処理を実行する制御部30とを具備する。
Next, the scanner Y on which the character string recognition device X according to the embodiment of the present invention is mounted will be described.
FIG. 1 is a block diagram showing a schematic configuration of the scanner Y. The scanner Y includes a character string recognition device X that reads image information from a document and recognizes character string information from the read image information.
The scanner Y includes a light source that irradiates light on a document, an optical system that deflects the reflected light, a CCD that receives the reflected light, and the like, and an image reading unit 21 that reads image information from the document (an example of the image reading unit). ), An image processing unit 22 that performs image processing such as shading correction on the read image information, a storage unit 23 that temporarily stores the read image data and stores various programs and other data, and a LAN. A network interface (I / F) 24 for performing communication control, a user interface 25 including operation keys operated by a user of the scanner Y to input various information, a liquid crystal display unit for displaying information, and the like Use a wireless communication means or IC card reader from a contactless tag or IC card carried by the user of the scanner Y. Reading the user ID is a user identification information (to get) the user ID input unit 26, and a control unit 30 that executes various control processes of the scanner Y.

また,前記制御部30は,文字列認識部31,辞書情報記憶部32,ユーザ辞書取得部33,アドレス選択部34,フォーマット変換部35及びメール送信部36を具備している。ここで,文字列認識部31,ユーザ辞書取得部33,アドレス選択部34,フォーマット変換部35及びメール送信部36の各構成要素は,前記制御部30を構成する不図示のCPUが,予め前記記憶部23に記憶された前記各構成要素に対応するプログラムモジュールを実行することにより具現されるものである。
前記文字列認識部31は,前記画像読取部21(画像読取り手段)により読み取られた画像情報(前記画像処理部22による画像処理後の画像情報)から文字列情報を認識して出力するものである。
前記辞書情報記憶部32は,前記文字列認識部31により用いられる辞書情報を記憶する記憶手段である。
前記ユーザ辞書取得部33は,画像情報の取扱者に関する取扱者情報(後述)に関連する特定の辞書情報であるユーザ辞書情報を,前記ネットワークインターフェース24を介して前記辞書サーバZ(外部装置)から取得するものである。
前記アドレス選択部34は,前記記憶部23に予め記憶された画像情報の送信先アドレス(前記端末7各々を送信先とする送信先情報)の中から,前記ユーザインターフェース25或いは前記ユーザID入力部26により入力(取得)された情報に基づいて,その情報に対応する送信先アドレス(電子メールアドレス)を選択するものである。
前記フォーマット変換部35は,前記画像読取部21により読み取られた画像情報を電子メールの添付ファイルとして送信されるデータフォーマット(TIFF形式やJPG形式等)に変換するとともに,前記文字列認識部31により認識され出力される文字列情報を,画像情報が添付される電子メールの本文テキスト情報に変換するものである。
前記メール送信部36は,前記フォーマット変換部35により変換された電子メールデータ,即ち,前記文字列認識部31により認識された文字列情報を本文とし,対応する画像情報を添付ファイルとする電子データを,前記アドレス選択部34で選択された送信先アドレスを宛先として,前記ネットワークインターフェース24を介して送信するものである。送信された電子メールデータは,前記メールサーバ8によって指定の送信先アドレスに対応するメールサーバ8(自身或いは他のメールサーバ8)へ転送され,その記憶手段に蓄積される。
The control unit 30 includes a character string recognition unit 31, a dictionary information storage unit 32, a user dictionary acquisition unit 33, an address selection unit 34, a format conversion unit 35, and a mail transmission unit 36. Here, the constituent elements of the character string recognition unit 31, the user dictionary acquisition unit 33, the address selection unit 34, the format conversion unit 35, and the mail transmission unit 36 are previously set by the CPU (not shown) constituting the control unit 30 in advance. This is implemented by executing a program module corresponding to each of the components stored in the storage unit 23.
The character string recognition unit 31 recognizes and outputs character string information from image information read by the image reading unit 21 (image reading unit) (image information after image processing by the image processing unit 22). is there.
The dictionary information storage unit 32 is a storage unit that stores dictionary information used by the character string recognition unit 31.
The user dictionary acquisition unit 33 obtains user dictionary information, which is specific dictionary information related to handler information (described later) regarding the handler of image information, from the dictionary server Z (external device) via the network interface 24. To get.
The address selection unit 34 selects the user interface 25 or the user ID input unit from among transmission destination addresses of image information stored in advance in the storage unit 23 (transmission destination information with each of the terminals 7 as a transmission destination). On the basis of the information input (acquired) by H.26, a transmission destination address (e-mail address) corresponding to the information is selected.
The format conversion unit 35 converts the image information read by the image reading unit 21 into a data format (TIFF format, JPG format, etc.) transmitted as an attached file of an e-mail, and the character string recognition unit 31 The character string information that is recognized and output is converted to the text information of the e-mail to which the image information is attached.
The e-mail transmission unit 36 uses the e-mail data converted by the format conversion unit 35, that is, the electronic data using the character string information recognized by the character string recognition unit 31 as the text and the corresponding image information as an attached file. Are transmitted via the network interface 24 with the transmission destination address selected by the address selection unit 34 as a destination. The transmitted e-mail data is transferred by the mail server 8 to the mail server 8 (self or another mail server 8) corresponding to the designated transmission destination address, and stored in the storage means.

また,前記ユーザID入力部26は,当該スキャナYの使用の予約のため,或いは読み取った画像情報を利用者自身の端末7(外部)に送信する際の送信先の指定のために,ユーザID(利用者の識別情報)を入力(取得)するものである(前記利用者識別情報入力手段の一例)。
また,前記ユーザインターフェース25は,前記画像読取部21で読み取った画像情報を,利用者以外の他者の端末7(外部)に送信する際に,予め記憶されたアドレス帳情報から送信先アドレス(送信先情報)を選択入力するのに用いられる(前記送信先情報入力手段の一例)。
前記ユーザID入力部26及び前記ユーザインターフェース25は,後述するように,読み取った画像情報の取扱者に関する取扱者情報を取得する手段(前記取扱者情報取得手段に相当)と兼用され,取得(入力)されたユーザID(前記利用者の識別情報の一例)或いは送信先アドレス(前記送信先情報の一例)が,前記取扱者情報として用いられる。
ここで,前記文字列認識部31,前記辞書情報記憶部32,前記ユーザ辞書取得部33,前記アドレス選択部,前記ユーザインターフェース25及び前記ユーザID入力部26が,本発明の実施の形態に係る文字列認識装置Xを構成する。
In addition, the user ID input unit 26 uses a user ID for reservation of use of the scanner Y or for specifying a transmission destination when the read image information is transmitted to the user's own terminal 7 (external). (User identification information) is input (acquired) (an example of the user identification information input means).
In addition, when the user interface 25 transmits the image information read by the image reading unit 21 to the terminal 7 (external) of another person other than the user, the user interface 25 uses a destination address ( Used to select and input (destination information) (an example of the destination information input means).
As will be described later, the user ID input unit 26 and the user interface 25 are also used as means for acquiring handler information related to the handler of the read image information (corresponding to the handler information acquisition means). The user ID (an example of the user identification information) or the transmission destination address (an example of the transmission destination information) is used as the handler information.
Here, the character string recognition unit 31, the dictionary information storage unit 32, the user dictionary acquisition unit 33, the address selection unit, the user interface 25, and the user ID input unit 26 according to an embodiment of the present invention. The character string recognition device X is configured.

次に,図7に示すフローチャートを用いて,前記スキャナYのプッシュスキャン処理の手順について説明する。プッシュスキャン処理は,前記スキャナYを操作して原稿から画像情報を読み取らせ,その画像情報を指定の宛先に送信する処理である。図7に示す処理は,前記制御部30が制御プログラムを実行することにより具現される。以下,S1,S2,…は,処理手順(ステップ)の識別番号を表す。
まず,前記制御部30は,これから当該スキャナYを操作しようとする利用者の前記ユーザIDを入力し,該ユーザIDに基づくユーザ認証処理を実行する(S1)。
前述したように,前記ユーザIDの入力は,前記ユーザID入力部26を通じて,利用者が携帯する名札等に組み込まれた非接触タグ或いはICカードから前記ユーザIDを無線通信或いは専用のインターフェースを介して入力する。もちろん,前記ユーザインターフェース25により前記ユーザIDを入力させる構成とすることも考えられる。ここでは,前記記憶部23に予め登録(記憶)された前記ユーザID(不図示)と,入力された前記ユーザIDとの照合を行い,これらが一致した場合にユーザ認証が成立したと判別してステップS2へ移行する。一方,照合した前記ユーザIDが一致しなかった場合は,ユーザ認証が不成立であると判別してその旨前記ユーザインターフェース25に表示させた後,S1へ戻って処理を繰り返す(不図示)。
次に,ユーザ認証が成立した場合は,前記制御部30は,前記ユーザインターフェース25への選択メニュー表示等により,これから実行する機能の選択入力処理(操作選択)を実行する(S2)。なお,図示していないが,前記制御部30は,ユーザ認証が成立すると,当該スキャナYの使用権がその利用者によって予約された状態,即ち,当該スキャナYが,ネットワーク経由での他の前記端末7等から操作されることを禁止する状態に移行させる。
ここで,スキャナ機能以外の機能(例えば,ユーザIDの登録機能等)が選択されたと判別した場合は,選択された機能に対応する処理を実行(S4)した後,処理を終了させる。
一方,スキャナ機能が選択されたと判別した場合は,前記制御部30は,前記アドレス選択部34により,原稿から読み取った画像情報の送信先情報(外部への送信先情報の一例)の入力処理を実行する(S10)。
本実施の形態では,画像情報を電子メールの添付ファイルとして送信するものであり,この送信先情報は送信相手の電子メールアドレスである。
前記送信先情報の入力処理(S10)では,まず,前記ユーザインターフェース25を通じて,既に設定済み(登録済み)の送信先情報から選択するか,新たな送信先情報を入力するかの選択入力及びいずれが選択されたかの判別を行う(S11)。ここで,既に設定済みの前記送信先情報から選択する機能が選択された場合は,設定済みの前記送信先情報を前記ユーザインターフェース25にメニュー表示させ,そこから送信先を選択入力させる処理(S12)を実行する。一方,新たな送信先情報を入力することが選択された場合は,新たな送信先情報(電子メールアドレス)を前記ユーザインターフェース25を通じて入力させる送信先手入力処理を実行する(S13)。
その際,前記制御部30は,前記ユーザインターフェース25を通じて,原稿からの画像読取り(スキャン)を開始するスキャン開始操作がなされたか否かをチェックし(S14),スキャン開始操作がなされるまでは,前記送信先情報の入力操作が終了していないもととしてステップS10の処理を繰り返す。
Next, the procedure of the push scan processing of the scanner Y will be described using the flowchart shown in FIG. The push scan process is a process for operating the scanner Y to read image information from a document and transmitting the image information to a specified destination. The processing shown in FIG. 7 is implemented when the control unit 30 executes a control program. Hereinafter, S1, S2,... Represent identification numbers of processing procedures (steps).
First, the control unit 30 inputs the user ID of the user who intends to operate the scanner Y and executes user authentication processing based on the user ID (S1).
As described above, the user ID is input via the user ID input unit 26 from the contactless tag or IC card incorporated in a name tag carried by the user via wireless communication or a dedicated interface. Enter. Of course, a configuration in which the user ID is input by the user interface 25 is also conceivable. Here, the user ID (not shown) registered (stored) in advance in the storage unit 23 is collated with the input user ID, and if they match, it is determined that user authentication has been established. To step S2. On the other hand, if the collated user IDs do not match, it is determined that user authentication has not been established, and the fact is displayed on the user interface 25, and then the process returns to S1 and is repeated (not shown).
Next, when the user authentication is established, the control unit 30 executes a function selection input process (operation selection) to be executed from the selection menu display or the like on the user interface 25 (S2). Although not shown, when the user authentication is established, the control unit 30 is in a state where the right to use the scanner Y is reserved by the user, that is, the scanner Y is connected to the other one via the network. The operation is shifted to a state in which operation from the terminal 7 or the like is prohibited.
If it is determined that a function other than the scanner function (for example, a user ID registration function) is selected, a process corresponding to the selected function is executed (S4), and the process is terminated.
On the other hand, if it is determined that the scanner function has been selected, the control unit 30 uses the address selection unit 34 to input destination information (an example of destination information to the outside) of image information read from the document. Execute (S10).
In this embodiment, image information is transmitted as an attached file of an e-mail, and this transmission destination information is an e-mail address of a transmission partner.
In the destination information input process (S10), first, a selection input of whether to select from already set (registered) destination information or to input new destination information through the user interface 25 and which Is determined (S11). Here, when a function to select from the already set destination information is selected, the set destination information is displayed on the user interface 25 as a menu, and a destination is selected and input from the menu (S12). ). On the other hand, if it is selected to input new destination information, a destination manual input process for inputting new destination information (e-mail address) through the user interface 25 is executed (S13).
At that time, the control unit 30 checks whether or not a scan start operation for starting image reading (scanning) from the document is performed through the user interface 25 (S14), and until the scan start operation is performed, The processing in step S10 is repeated assuming that the input operation of the transmission destination information has not been completed.

ここで,当該スキャナYの利用者も画像情報の送信相手も画像情報の取扱者の一例であり,ステップS3又はステップ10の処理は,前記画像読取部21により読み取られた画像情報の取扱者に関する取扱者情報を取得する手段の一例である。
本実施の形態では,利用者(操作者)の機能選択(S2又は後述するS17)により,次の2通りの処理が可能である。
その1つは,当該スキャナYの利用者(操作者)の識別情報である前記ユーザIDを入力する前記ユーザID入力部26(前記利用者識別情報入力手段の一例)が,前記取扱者情報取得手段として兼用され(S1),前記利用者の識別情報を前記取扱者情報とするものである。
他の1つは,前記画像情報の外部(前記端末7等)への前記送信先情報(電子メールアドレス)を入力(選択を含む)する前記アドレス選択部34が,前記送信先情報取得手段と兼用され,前記送信先情報を前記取扱者情報とするものである。
ネットワークスキャナ等の画像読取り装置では,ユーザIDの入力手段や送信先情報の入力手段は,通常有するものであり,これらを前記取扱者情報取得手段として兼用すれば,前記ユーザ辞書(特定の辞書情報)の取得等のために,前記取扱者情報を別途入力する必要がなくなる。
Here, both the user of the scanner Y and the transmission partner of the image information are examples of the handler of the image information, and the processing in step S3 or step 10 relates to the handler of the image information read by the image reading unit 21. It is an example of a means to acquire handler information.
In the present embodiment, the following two types of processing are possible depending on the function selection (S2 or S17 described later) of the user (operator).
One of them is that the user ID input unit 26 (an example of the user identification information input means) that inputs the user ID, which is identification information of the user (operator) of the scanner Y, acquires the handler information. It is also used as a means (S1), and the identification information of the user is used as the handler information.
The other one is that the address selection unit 34 for inputting (including selection) the transmission destination information (e-mail address) to the outside of the image information (the terminal 7 or the like) includes the transmission destination information acquisition unit. It is also used and the destination information is used as the handler information.
In an image reading apparatus such as a network scanner, user ID input means and transmission destination information input means are usually provided. If these are also used as the handler information acquisition means, the user dictionary (specific dictionary information) ), It is not necessary to separately input the handler information.

一方,前記スキャン開始操作がなされたと判別した場合は,前記制御部30は,前記画像読取部21及び前記画像処理部22に対して原稿からの画像情報の読取り処理を実行させ(S15),さらに前記フォーマット変換部35に対して読み取った画像情報(画像データ)の変換処理(電子メールの添付ファイルに適したデータフォーマットへの変換)を実行させる(S16)。
また,前記制御部30は,ステップS15,S16の処理と並行して,以下に示すステップS17,S18及びS19の処理を実行する。
まず,ステップS17では,前記ユーザ辞書取得部33により,ステップS3又はステップS10(前記取扱者情報取得手段の処理の一例)により入力(取得)された前記ユーザID又は前記送信先情報(前記取扱者情報の一例)に関連する特定の辞書情報である前記ユーザ辞書を前記辞書サーバZ(外部装置)から取得する(取り寄せる)処理を実行する(S17,前記特定辞書情報取得手段の処理の一例)。
ここでは,前記ユーザ辞書取得部33により,前記ユーザID入力部26により入力(S1)された前記ユーザID(利用者の識別情報)又は前記アドレス選択部34により選択或いは手入力された前記送信先情報(電子メールアドレス)を含む辞書情報要求コマンドを,前記ネットワークインターフェース24を介して前記辞書サーバZに送信し,前記ユーザID(当該スキャナYの操作者)又は前記送信先情報に関連するユーザ辞書(特定の辞書情報)を受信(取得)し,前記辞書情報記憶部32に一時記憶させる。前記ユーザIDと前記送信先情報のいずれを前記取扱者情報とするか,即ち,操作者自身に関連する前記ユーザ辞書を要求するか,画像情報の送信先の利用者に関連する前記ユーザ辞書を要求するかは,ステップS2の機能の選択時或いは当該ステップS17において操作者に選択させる。
On the other hand, if it is determined that the scan start operation has been performed, the control unit 30 causes the image reading unit 21 and the image processing unit 22 to read image information from the document (S15), and further The format conversion unit 35 is caused to execute conversion processing of the read image information (image data) (conversion to a data format suitable for an attached file of an e-mail) (S16).
Further, the control unit 30 executes the processes of steps S17, S18, and S19 shown below in parallel with the processes of steps S15 and S16.
First, in step S17, the user ID or the transmission destination information (the handler) input (acquired) by the user dictionary acquisition unit 33 in step S3 or step S10 (an example of processing of the handler information acquisition means). A process of acquiring (obtaining) the user dictionary, which is specific dictionary information related to (an example of information), from the dictionary server Z (external device) is executed (S17, an example of a process of the specific dictionary information acquiring unit).
Here, the user dictionary (user identification information) input by the user ID input unit 26 (S1) by the user dictionary acquisition unit 33 or the transmission destination selected or manually input by the address selection unit 34 A dictionary information request command including information (e-mail address) is transmitted to the dictionary server Z via the network interface 24, and the user dictionary related to the user ID (the operator of the scanner Y) or the destination information (Specific dictionary information) is received (obtained) and temporarily stored in the dictionary information storage unit 32. Which of the user ID and the transmission destination information is used as the handler information, that is, the user dictionary related to the operator itself is requested, or the user dictionary related to the user of the transmission destination of the image information is The request is made to be selected by the operator at the time of selecting the function at step S2 or at step S17.

一方,前記辞書サーバZにおいては,前記通信部43(前記取扱者情報受信手段の一例)により,前記スキャナY(即ち,前記文字列認識装置X)から前記ユーザID(前記取扱者情報の一例)が指定された前記辞書情報要求コマンドを受信すると,前記ユーザ別辞書検索部51(図2)により前記使用者別単語データベース422を構成するデータベース部(図5(b))を検索し,指定されたユーザIDについて,前記使用頻度の割合が最も高い前記専門分野を検索し,さらにその専門分野に属する前記専門語を全て含む(集めた)辞書情報を編成し,これを前記通信部43によって前記スキャナYに送信する。
ここで,前記ユーザ別辞書検索部51が,前記使用者別単語データベース422(前記単語使用頻度記憶手段の一例)の記憶情報に基づいて,前記通信部43(前記取扱者情報受信手段の一例)により受信された前記ユーザID(前記取扱者情報の一例)に対応するユーザ(取扱者)による過去の使用頻度の高い単語データを含む前記ユーザ辞書情報(特定の辞書情報)を編成する前記第2の特定辞書情報編成手段の一例である。
さらに,前記通信部43が,前記ユーザ辞書(特定の辞書情報)を前記ユーザID(取扱者情報)の送信元の前記文字列認識装置X(スキャナY)に送信する前記特定辞書情報送信手段の一例である。
On the other hand, in the dictionary server Z, the communication unit 43 (an example of the handler information receiving means) causes the user ID (an example of the handler information) from the scanner Y (that is, the character string recognition device X). When the dictionary information request command is specified, the user-specific dictionary search unit 51 (FIG. 2) searches the database unit (FIG. 5B) that constitutes the user-specific word database 422, and is specified. For the user ID, the specialized field having the highest use frequency ratio is searched, and dictionary information including (collected) all the specialized terms belonging to the specialized field is organized. Send to Scanner Y.
Here, the user-specific dictionary search unit 51 uses the communication unit 43 (an example of the handler information receiving unit) based on the storage information of the user-specific word database 422 (an example of the word usage frequency storage unit). Organizing the user dictionary information (specific dictionary information) including word data frequently used in the past by a user (handler) corresponding to the user ID (an example of the handler information) received by It is an example of the specific dictionary information organization means.
Furthermore, the communication unit 43 transmits the user dictionary (specific dictionary information) to the character string recognition device X (scanner Y) that is the transmission source of the user ID (handler information). It is an example.

また,前記辞書サーバZは,前記スキャナYから前記送信先情報(送信先の電子メールアドレス,前記取扱者情報の一例)が指定された前記辞書情報要求コマンドを受信すると,まず,その送信先情報に対応する前記ユーザIDを取得し,該ユーザIDについて,前記ユーザIDが指定された場合と同様の処理を実行する。
前記ユーザIDの取得は,例えば,前記管理分門のLANに接続された前記辞書サーバYに予め前記送信先情報(電子メールアドレス)と前記ユーザIDとの対応テーブル(マスターデータベース)を登録(記憶)しておき,前記辞書情報要求コマンドを受信した前記辞書サーバYから前記管理部門の辞書サーバYに対して前記送信先情報を指定して対応する前記ユーザIDを問い合わせて取得することが考えられる。もちろん,常に最新の状態に更新された前記対応テーブルを前記辞書サーバY各々が保持してもよい。また,前記スキャナY自体が前記管理部門の辞書サーバYに前記ユーザIDを問い合わせる,或いは前記対応テーブルを前記スキャナYに保持させる等により,前記スキャナYが前記送信先情報に対応する前記ユーザIDを取得して前記辞書情報要求コマンドに指定することも考えられる。
本実施の形態では,前述したように,前記専門分野別データベース421(図6)によって前記専門語(単語データ)が予め前記専門分野ごとにグループ化されており,前記ユーザ別辞書検索部51(第2の特定辞書情報編成手段)が,前記通信部43(取扱者情報受信手段)により受信された前記ユーザID又は前記送信先情報(取扱者情報)に対応するユーザ(取扱者)による過去の使用頻度の高い(例えば,前記使用頻度の割合が最も高い)前記専門語と同じグループに属する前記専門語全てをを前記ユーザ辞書(特定の辞書情報)に含めるものである。
これにより,例えば,過去の前記専門語の使用実績が少ない新人等がユーザとして指定された場合であっても,適切な(内容の充実した)前記ユーザ辞書を編成することができる。
When the dictionary server Z receives the dictionary information request command in which the destination information (e-mail address of the destination, an example of the handler information) is specified from the scanner Y, first, the destination information The user ID corresponding to is acquired, and the same processing as when the user ID is designated is executed for the user ID.
The acquisition of the user ID is performed by, for example, registering (storing) a correspondence table (master database) between the transmission destination information (email address) and the user ID in advance in the dictionary server Y connected to the LAN of the management branch. It is conceivable that the dictionary server Y that has received the dictionary information request command inquires and obtains the corresponding user ID from the dictionary server Y of the management department by designating the destination information. . Of course, each of the dictionary servers Y may hold the correspondence table that is always updated to the latest state. In addition, the scanner Y itself inquires the user ID to the dictionary server Y of the management department, or the scanner Y stores the correspondence table in the scanner Y, so that the scanner Y obtains the user ID corresponding to the destination information. It is also conceivable to acquire and specify the dictionary information request command.
In the present embodiment, as described above, the technical terms (word data) are grouped in advance by the specialized field by the specialized field database 421 (FIG. 6), and the user-specific dictionary search unit 51 ( The second specific dictionary information organizing means) is the past by the user (handler) corresponding to the user ID or the destination information (handler information) received by the communication unit 43 (handler information receiving means). All the technical terms belonging to the same group as the technical term having the highest usage frequency (for example, the highest usage frequency ratio) are included in the user dictionary (specific dictionary information).
As a result, for example, even when a new face or the like who has little use of the technical terms in the past is designated as a user, the appropriate user dictionary can be organized (the contents are enriched).

また,上記の他,前記ユーザID(取扱者情報)を予めグループ化して記憶しておき,前記ユーザ別辞書検索部51(第2の特定辞書情報編成手段)が,前記通信部43(取扱者情報受信手段)により受信された前記ユーザID等(取扱者情報)と同じグループに属する前記ユーザID全てに対応するユーザ(取扱者)による過去の使用頻度の高い前記専門語(単語データ)を前記ユーザ辞書(特定の辞書情報)に含めるものも考えられる。
前記ユーザIDをグループ化する手段としては,例えば,前記管理部門の前記辞書サーバZの前記記憶部42等に,前記ユーザIDを業務分野や技術分野等の共通する属性で関連付けてグループ化する前記ユーザ情報データベース426を記憶させておき,これをLAN経由で参照すること等が考えられる。前記ユーザ情報データベース426は,前記データベースメンテナンス部56を通じて利用者によって入力される。
このような構成によっても,過去の前記専門語の使用実績が少ないユーザが指定された場合であっても,適切な(内容の充実した)前記ユーザ辞書を編成することができる。
In addition to the above, the user ID (handler information) is grouped and stored in advance, and the user-specific dictionary search unit 51 (second specific dictionary information organizing means) is connected to the communication unit 43 (handler information). The technical terms (word data) frequently used in the past by the user (handler) corresponding to all the user IDs belonging to the same group as the user ID (handler information) received by the information receiving means) What is included in a user dictionary (specific dictionary information) can also be considered.
As a means for grouping the user IDs, for example, the user IDs are grouped by associating them with common attributes such as business fields and technical fields in the storage unit 42 of the dictionary server Z of the management department. It is conceivable to store the user information database 426 and refer to it via the LAN. The user information database 426 is input by the user through the database maintenance unit 56.
Even with such a configuration, it is possible to organize the appropriate user dictionary (enriched contents) even when a user with a low use record of the technical term in the past is designated.

次に,ステップS18では,前記制御部30は,前記文字列認識部31により,前記画像読取部21(画像読取り手段)により読み取られた画像情報(前記画像処理部22から出力された画像情報)から文字列情報(文字コードの列,即ち,単語)を抽出する処理を実行する(S18)。
ここでは,前記文字列認識部31は,まず,前記画像情報のうち文字と想定される部分を切り出す。さらに,切り出した部分に対して,前記記憶部23に予め記憶されたフォントデータ(文字各々のイメージデータ)との照合によって文字情報(文字コード)を抽出するとともに,それらをつなぎ合わせた文字列情報(文字コードの列,即ち,単語の候補)と予め前記辞書情報記憶部32に記憶された(前記辞書サーバZで更新されるごとにダウンロードされる)前記一般辞書とを照合することにより,第1段階目の文字列認識を行って文字列情報を抽出する。
さらに,ステップ19では,前記制御部30は,前記文字列認識部31により,ステップS17で抽出された(第1段階目の文字列認識の結果である)文字列情報に対し,前記ユーザ辞書取得部33によって取得(S17)された前記ユーザ辞書を用いて,第2段階目の文字列認識処理として,文字列情報の補正処理を実行する(S19)。このステップS18,19で認識(抽出)された文字列情報は,前記フォーマット変換部35へ出力される。
このステップS19では,ステップS18において,前記一般辞書との照合によっては抽出できなかった文字列情報(単語)の部分及びその前後の部分の文字列情報について,前記ユーザ辞書との照合を行うことにより,文字列情報を補正する。
このように,処理対象とする画像情報の取扱者に関連する前記ユーザ辞書を用いて文字列認識が行われるので,前記一般辞書では認識できない前記専門語についても的確な文字列認識を行うことができ,文字列の認識精度を向上することができる。しかも,利用者は,画像情報の取扱者(利用者自身或いは送信先等)に関する情報を認識してその情報を入力するだけでよい,或いは前記無線タグ等により自動取得される場合は何ら意識する必要がないので,利用者の操作性悪化を招くこともない。
ここで,前記文字列認識部31によるステップS18,S19の処理が,前記ユーザ辞書(前記特定の辞書情報の一例)を用いて画像情報から文字列情報を認識して出力する前記文字列認識出力手段の処理の一例である。
Next, in step S18, the control unit 30 uses the character string recognition unit 31 to read image information read by the image reading unit 21 (image reading unit) (image information output from the image processing unit 22). A process of extracting character string information (character code string, that is, word) from is executed (S18).
Here, the character string recognition unit 31 first cuts out a portion assumed to be a character from the image information. Further, character information (character code) is extracted from the cut-out portion by collating with the font data (character data of each character) stored in advance in the storage unit 23, and the character string information obtained by connecting them. By comparing the character code string (that is, the word candidate) with the general dictionary stored in advance in the dictionary information storage unit 32 (downloaded every time the dictionary server Z is updated), Character string information is extracted by performing first-stage character string recognition.
Further, in step 19, the control unit 30 obtains the user dictionary for the character string information extracted from the character string recognition unit 31 in step S17 (as a result of the first stage character string recognition). Using the user dictionary acquired by the unit 33 (S17), a character string information correction process is executed as a second-stage character string recognition process (S19). The character string information recognized (extracted) in steps S18 and S19 is output to the format converter 35.
In this step S19, the character string information (word) portion that could not be extracted by the collation with the general dictionary in step S18 and the character string information of the portion before and after that portion are collated with the user dictionary. , Correct character string information.
Thus, since the character string recognition is performed using the user dictionary related to the handler of the image information to be processed, accurate character string recognition can be performed even for the technical term that cannot be recognized by the general dictionary. This can improve the accuracy of character string recognition. In addition, the user only needs to recognize information related to the image information handler (the user himself / herself or the transmission destination) and input the information, or is conscious of what is automatically acquired by the wireless tag or the like. Since there is no need, the user's operability is not deteriorated.
Here, the processing of steps S18 and S19 by the character string recognizing unit 31 recognizes and outputs character string information from image information using the user dictionary (an example of the specific dictionary information). It is an example of the process of a means.

次に,ステップS15〜S19の処理が終了すると,前記制御部30は,前記フォーマット変換部35により,電子メールデータを生成する。
ここでは,ステップS16で所定のフォーマットに変換された画像情報を電子メールの添付ファイルとし,ステップS19で画像情報から抽出(認識)された文字列情報を電子メールの本文テキスト情報とする電子メールデータを生成する。また,送信先アドレスとしては,ステップS10で選択或いは入力された前記送信先情報が設定される。
最後に,前記制御部30は,前記メール送信部36により,ステップS20で生成された電子メールデータを前記ネットワークインターフェース24を介して送信(S21)した後,処理を終了させる。
これにより,送信された電子メールデータは,SMTPプロトコル等に基づいて,前記メールサーバ8によって指定の送信先アドレスに対応するメールサーバ8(自身或いは他のメールサーバ8)へ転送され,その記憶手段に蓄積される。蓄積された電子メールデータは,そのメールサーバ8にアクセスしてきた前記端末7によって取得される。
このように,前記メール送信部36(前記画像情報等送信手段の一例)によって,画像情報と前記文字列認識部31(文字列認識出力手段)により出力された文字列情報とを併せた電子メールデータとして前記端末7(外部)へ送信される。これにより,画像情報の受け取り先では,データサイズの大きな画像情報を専用プログラムによって開く(表示手段に表示させる)ことなく,データサイズの小さな前記文字列情報を表示させて見るだけで画像情報の内容を簡便に把握することができる。
Next, when the processing of steps S15 to S19 is completed, the control unit 30 generates e-mail data by the format conversion unit 35.
Here, the e-mail data in which the image information converted into the predetermined format in step S16 is an attached file of the e-mail, and the character string information extracted (recognized) from the image information in step S19 is the text text information of the e-mail. Is generated. Further, as the transmission destination address, the transmission destination information selected or input in step S10 is set.
Finally, the control unit 30 causes the mail transmission unit 36 to transmit the e-mail data generated in step S20 via the network interface 24 (S21), and then ends the process.
Thus, the transmitted e-mail data is transferred by the mail server 8 to the mail server 8 (self or another mail server 8) corresponding to the specified destination address based on the SMTP protocol or the like, and its storage means. Accumulated in. The accumulated electronic mail data is acquired by the terminal 7 that has accessed the mail server 8.
Thus, the e-mail combining the image information and the character string information output by the character string recognition unit 31 (character string recognition output unit) by the mail transmission unit 36 (an example of the image information transmission unit). Data is transmitted to the terminal 7 (external). As a result, at the recipient of the image information, the contents of the image information can be obtained simply by displaying and displaying the character string information having a small data size without opening (displaying on the display means) the image information having a large data size by a dedicated program. Can be easily grasped.

以上示した実施の形態では,前記文字列情報認識装置Xが搭載された前記スキャナYの外部装置である前記辞書サーバZに,前記ユーザ辞書(特定の辞書情報)を編成する前記ユーザ別辞書検索部51を設けた例を示した。
これに対し,前記ユーザ別辞書検索部51(前記第1の特定辞書編成手段の一例)を前記文字列情報認識装置Xに設け,これにより前記ユーザID入力部26により入力(取得)された前記ユーザID(取扱者情報)に関連する前記ユーザ辞書(特定の辞書情報)を編成する構成も考えられる。さらに,前記文字列情報認識装置Xに(即ち,スキャナYに),前記使用者別単語データベース422(前記単語使用頻度記憶手段の一例)を設けた構成も考えられる。
また,前記制御部50が前記文字列情報認識装置Xの機能を実現するために実行する各プログラム(プログラムモジュール)を,パーソナルコンピュータ等のコンピュータに実行させる文字列認識プログラムとして構成したものも考えられる。この場合,前記文字列認識部31(文字列認識出力手段)が実行する処理,前記ユーザ辞書取得部(特定辞書情報取得手段)33が実行する処理及びキーボードやマウス等の入力手段等によって画像情報の取扱者(コンピュータの利用者等)を入力(取得)する処理(取扱者情報取得手段の処理)各々をコンピュータに実行させるためのプログラムを構成すればよい。もちろん,このようなプログラムが記録されたCD−ROMや,DVD−ROM等のコンピュータ読み取り可能な記録媒体として構成したものも考えられる。
同様に,前記辞書サーバZが実行するプログラムが記録されたCD−ROMや,DVD−ROM等のコンピュータ読み取り可能な記録媒体として構成したものも考えられる。
In the embodiment described above, the user-specific dictionary search that organizes the user dictionary (specific dictionary information) in the dictionary server Z that is an external device of the scanner Y on which the character string information recognition device X is mounted. The example which provided the part 51 was shown.
On the other hand, the user-specific dictionary search unit 51 (an example of the first specific dictionary organizing unit) is provided in the character string information recognition device X, whereby the user ID input unit 26 inputs (acquires) the A configuration for organizing the user dictionary (specific dictionary information) related to the user ID (handler information) is also conceivable. Further, a configuration in which the character string information recognition device X (that is, the scanner Y) is provided with the user-specific word database 422 (an example of the word use frequency storage means) is also conceivable.
Further, it is also conceivable that each program (program module) executed by the control unit 50 for realizing the function of the character string information recognition apparatus X is configured as a character string recognition program that causes a computer such as a personal computer to execute the program. . In this case, the image information is processed by the processing executed by the character string recognition unit 31 (character string recognition output means), the processing executed by the user dictionary acquisition unit (specific dictionary information acquisition means) 33, and input means such as a keyboard and a mouse. What is necessary is just to comprise the program for making a computer perform each process (process of a handler information acquisition means) which inputs (acquires) the person (user of a computer, etc.). Of course, it is also possible to use a computer-readable recording medium such as a CD-ROM or DVD-ROM on which such a program is recorded.
Similarly, a computer-readable recording medium such as a CD-ROM or a DVD-ROM on which a program executed by the dictionary server Z is recorded is also conceivable.

本発明は,画像情報から文字列情報を認識する文字列情報認識装置への利用が可能である。   The present invention can be applied to a character string information recognition device that recognizes character string information from image information.

本発明の実施の形態に係る文字列認識装置Xが搭載されるスキャナY(画像読取り装置)の概略構成を表すブロック図。1 is a block diagram illustrating a schematic configuration of a scanner Y (image reading apparatus) in which a character string recognition apparatus X according to an embodiment of the present invention is mounted. スキャナYに対して文字列情報の認識に用いる特定の辞書情報を送信する辞書サーバZ概略構成を表すブロック図。FIG. 3 is a block diagram showing a schematic configuration of a dictionary server Z that transmits specific dictionary information used for recognition of character string information to a scanner Y. スキャナY及び辞書サーバZが接続されるネットワークの接続構成図。The connection block diagram of the network where the scanner Y and the dictionary server Z are connected. 一般単語辞書及び専門語辞書の辞書構成の具体例を表す図。The figure showing the specific example of the dictionary structure of a general word dictionary and a technical language dictionary. 使用者別単語データベースの構成の具体例を表す図。The figure showing the specific example of a structure of the word database classified by user. 専門分野別単語データベースの構成の具体例を表す図。The figure showing the specific example of a structure of the word database classified by specialty field. スキャナYのプッシュスキャン処理の手順を表すフローチャート。6 is a flowchart illustrating a procedure of push scan processing of the scanner Y.

符号の説明Explanation of symbols

X…文字列情報認識装置
Y…スキャナ(画像読取り装置)
Z…辞書サーバ(辞書情報送信装置)
7…端末
8…メールサーバ
21…画像読取部
22…画像処理部
23…スキャナの記憶部
24…ネットワークインターフェース
25…スキャナのユーザインターフェース
26…ユーザID入力部
30…文字列情報認識装置及びスキャナの制御部
31…文字列認識部
32…辞書情報記憶部
33…ユーザ辞書取得部
34…アドレス選択部
35…フォーマット変換部
36…メール送信部
41…辞書サーバのユーザインターフェース
42…辞書サーバの記憶部
43…通信部
50…辞書サーバの制御部
51…ユーザ別辞書検索部
52…辞書情報記憶部
53…文書データベース管理部
54…使用頻度集計部
55…文書データ受信部
421…専門分野別単語データベース
422…使用者別単語データベース
423…一般単語辞書
424…専門語辞書
425…文書データベース
426…ユーザ情報データベース
S1,S2,,,…処理手順(ステップ)
X: Character string information recognition device Y: Scanner (image reading device)
Z ... Dictionary server (dictionary information transmitter)
7. Terminal 8 ... Mail server 21 ... Image reading unit 22 ... Image processing unit 23 ... Scanner storage unit 24 ... Network interface 25 ... Scanner user interface 26 ... User ID input unit 30 ... Character string information recognition apparatus and scanner control Unit 31 ... Character string recognition unit 32 ... Dictionary information storage unit 33 ... User dictionary acquisition unit 34 ... Address selection unit 35 ... Format conversion unit 36 ... Mail transmission unit 41 ... Dictionary server user interface 42 ... Dictionary server storage unit 43 ... Communication unit 50 ... Dictionary server control unit 51 ... User-specific dictionary search unit 52 ... Dictionary information storage unit 53 ... Document database management unit 54 ... Usage frequency totaling unit 55 ... Document data receiving unit 421 ... Specialized field-specific word database 422 ... Usage Individual word database 423 ... General word dictionary 424 ... Technical term dictionary 425 ... sentence Database 426 ... user information database S1, S2 ,,, ... processing procedure (step)

Claims (16)

文字列画像を含む画像情報から文字列情報を認識する文字列認識装置において,
前記画像情報の取扱者に関する取扱者情報を取得する取扱者情報取得手段と,
前記取扱者情報取得手段により取得された前記取扱者情報に関連する特定の辞書情報を外部装置又は前記取扱者情報と関連付けて辞書情報を記憶する記憶手段から取得する特定辞書情報取得手段と,
前記特定の辞書情報を用いて前記画像情報から文字列情報を認識して出力する文字列認識出力手段と,
を具備してなることを特徴とする文字列認識装置。
In a character string recognition device that recognizes character string information from image information including a character string image,
Handler information acquisition means for acquiring handler information regarding the handler of the image information;
Specific dictionary information acquisition means for acquiring specific dictionary information related to the handler information acquired by the handler information acquisition means from an external device or storage means for storing dictionary information in association with the handler information;
Character string recognition output means for recognizing and outputting character string information from the image information using the specific dictionary information;
A character string recognition device comprising:
文字列画像を含む画像情報から文字列情報を認識する文字列認識装置において,
前記画像情報の取扱者に関する取扱者情報を取得する取扱者情報取得手段と,
複数の単語データと前記取扱者情報と前記取扱者による前記単語データの過去の使用頻度情報とが関連付けられて記憶された単語使用頻度記憶手段と,
前記単語使用頻度記憶手段の記憶情報に基づいて前記取扱者情報取得手段により取得された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い単語データを含む特定の辞書情報を編成する第1の特定辞書情報編成手段と,
特定の辞書情報を用いて前記画像情報から文字列情報を認識して出力する文字列認識出力手段と,
を具備してなることを特徴とする文字列認識装置。
In a character string recognition device that recognizes character string information from image information including a character string image,
Handler information acquisition means for acquiring handler information regarding the handler of the image information;
Word usage frequency storage means for storing a plurality of word data, the handler information, and past usage frequency information of the word data by the handler in association with each other;
Based on the stored information of the word usage frequency storage means, specific dictionary information including word data with high frequency of past use by the handler corresponding to the handler information acquired by the handler information acquisition means is organized. First specific dictionary information organization means;
Character string recognition output means for recognizing and outputting character string information from the image information using specific dictionary information;
A character string recognition device comprising:
前記取扱者情報が予めグループ化されており,
前記第1の特定辞書情報編成手段が,前記取扱者情報取得手段により取得された前記取扱者情報と同じグループに属する前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い前記単語データを前記特定の辞書情報に含めてなる請求項2に記載の文字列認識装置。
The handler information is grouped in advance,
The word data frequently used by the operator in the past corresponding to the handler information belonging to the same group as the handler information acquired by the handler information acquiring means by the first specific dictionary information organizing means. The character string recognition apparatus according to claim 2, wherein the specific dictionary information is included.
前記単語データが予めグループ化されており,
前記第1の特定辞書情報編成手段が,前記取扱者情報取得手段により取得された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い前記単語データと同じグループに属する前記単語データを前記特定の辞書情報に含めてなる請求項2に記載の文字列認識装置。
The word data is grouped in advance,
The word data belonging to the same group as the word data frequently used in the past by the handler corresponding to the handler information acquired by the handler information acquiring means is selected by the first specific dictionary information organizing means. The character string recognition device according to claim 2, wherein the character string recognition device is included in the specific dictionary information.
原稿から画像情報を読み取る画像読取り手段と,該画像読取り手段により読み取られた画像情報から文字列情報を認識する請求項1〜4のいずれかに記載の文字列認識装置と,を具備してなることを特徴とする画像読取り装置。   An image reading means for reading image information from a document, and a character string recognition device according to claim 1 for recognizing character string information from image information read by the image reading means. An image reading apparatus. 当該画像読取り装置の利用者の識別情報を入力する利用者識別情報入力手段を具備し,
前記利用者識別情報入力手段が,前記取扱者情報取得手段と兼用され,前記利用者の識別情報を前記取扱者情報とするものである請求項5に記載の画像読取り装置。
Comprising user identification information input means for inputting identification information of the user of the image reading device;
The image reading apparatus according to claim 5, wherein the user identification information input unit is also used as the handler information acquisition unit, and the identification information of the user is used as the handler information.
前記画像情報の外部への送信先情報を入力する送信先情報入力手段を具備し,
前記送信先情報入力手段が,前記取扱者情報取得手段と兼用され,前記送信先情報を前記取扱者情報とするものである請求項5に記載の画像読取り装置。
Comprising destination information input means for inputting destination information to the outside of the image information;
The image reading apparatus according to claim 5, wherein the transmission destination information input unit is also used as the handler information acquisition unit and uses the transmission destination information as the handler information.
前記画像情報と前記文字列認識出力手段により出力された文字列情報とを併せて外部へ送信する画像情報等送信手段を具備してなる請求項5〜7のいずれかに記載の画像読取り装置。   The image reading apparatus according to claim 5, further comprising image information transmission means for transmitting the image information and the character string information output by the character string recognition output means to the outside. 文字列画像を含む画像情報から文字列情報を認識する1又は複数の文字列認識装置と通信可能に接続され,該文字列認識装置に対して文字列情報の認識に用いる辞書情報を送信する辞書情報送信装置であって,
前記画像情報の取扱者に関する取扱者情報を前記文字列認識装置から受信する取扱者情報受信手段と,
複数の単語データと前記取扱者情報と前記取扱者による単語データの過去の使用頻度情報とが関連付けられて記憶された単語使用頻度記憶手段と,
前記単語使用頻度記憶手段の記憶情報に基づいて,前記取扱者情報受信手段により受信された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い単語データを含む特定の辞書情報を編成する第2の特定辞書情報編成手段と,
前記特定の辞書情報を前記取扱者情報の送信元の前記文字列認識装置に送信する特定辞書情報送信手段と,
を具備してなることを特徴とする辞書情報送信装置。
A dictionary that is communicably connected to one or more character string recognition devices that recognize character string information from image information including character string images, and that transmits dictionary information used for character string information recognition to the character string recognition device An information transmission device,
Handler information receiving means for receiving handler information about the handler of the image information from the character string recognition device;
Word usage frequency storage means for storing a plurality of word data, the handler information, and past usage frequency information of the word data by the handler in association with each other;
Based on the information stored in the word usage frequency storage means, specific dictionary information including word data having a high past use frequency by the handler corresponding to the handler information received by the handler information receiving means is organized. A second specific dictionary information organizing means,
Specific dictionary information transmitting means for transmitting the specific dictionary information to the character string recognition device that is the transmission source of the handler information;
A dictionary information transmitting device comprising:
前記取扱者情報が予めグループ化されており,
前記第2の特定辞書情報編成手段が,前記取扱者情報受信手段により受信された前記取扱者情報と同じグループに属する前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い前記単語データを前記特定の辞書情報に含めてなる請求項9に記載の辞書情報送信装置。
The handler information is grouped in advance,
The word data frequently used in the past by the handler corresponding to the handler information belonging to the same group as the handler information received by the handler information receiving means by the second specific dictionary information organizing means. The dictionary information transmitting apparatus according to claim 9, wherein the specific dictionary information is included.
前記単語データが予めグループ化されており,
前記第2の特定辞書情報編成手段が,前記取扱者情報受信手段により受信された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い前記単語データと同じグループに属する前記単語データを前記特定の辞書情報に含めてなる請求項9に記載の辞書情報送信装置。
The word data is grouped in advance,
The second specific dictionary information organizing unit selects the word data belonging to the same group as the word data frequently used in the past by the handler corresponding to the handler information received by the handler information receiving unit. The dictionary information transmitting apparatus according to claim 9, wherein the dictionary information transmitting apparatus is included in the specific dictionary information.
文字列画像を含む画像情報から文字列情報を認識する処理をコンピュータに実行させるための文字列認識プログラムにおいて,
前記画像情報の取扱者に関する取扱者情報を取得する取扱者情報取得処理と,
前記取扱者情報取得処理により取得された前記取扱者情報に関連する特定の辞書情報を外部装置又は前記取扱者情報と関連付けて辞書情報を記憶する記憶手段から取得する特定辞書情報取得処理と,
前記特定の辞書情報を用いて前記画像情報から文字列情報を認識して出力する文字列認識出力処理と,
の各処理をコンピュータに実行させるための文字列認識プログラム。
In a character string recognition program for causing a computer to execute processing for recognizing character string information from image information including a character string image,
Handling information acquisition processing for acquiring handling information related to the handling of the image information;
Specific dictionary information acquisition processing for acquiring specific dictionary information related to the handler information acquired by the handler information acquisition processing from an external device or storage means for storing dictionary information in association with the handler information;
A character string recognition output process for recognizing and outputting character string information from the image information using the specific dictionary information;
A character string recognition program for causing a computer to execute each process.
文字列画像を含む画像情報から文字列情報を認識する処理をコンピュータに実行させるための文字列認識プログラムにおいて,
前記画像情報の取扱者に関する取扱者情報を取得する取扱者情報取得処理と,
複数の単語データと前記取扱者情報と前記取扱者による前記単語データの過去の使用頻度情報とが関連付けられて記憶された単語使用頻度記憶手段の記憶情報に基づいて,前記取扱者情報取得処理により取得された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い単語データを含む特定の辞書情報を編成する第1の特定辞書情報編成処理と,
特定の辞書情報を用いて前記画像情報から文字列情報を認識して出力する文字列認識出力処理と,
の各処理をコンピュータに実行させるための文字列認識プログラム。
In a character string recognition program for causing a computer to execute processing for recognizing character string information from image information including a character string image,
Handling information acquisition processing for acquiring handling information related to the handling of the image information;
Based on the stored information of the word usage frequency storage means stored in association with a plurality of word data, the handler information, and the past usage frequency information of the word data by the handler, by the handler information acquisition process A first specific dictionary information organization process for organizing specific dictionary information including word data frequently used in the past by the operator corresponding to the acquired operator information;
Character string recognition output processing for recognizing and outputting character string information from the image information using specific dictionary information;
A character string recognition program for causing a computer to execute each process.
請求項12又は13に記載の文字列認識プログラムが記録されてなることを特徴とするコンピュータ読み取り可能な記録媒体。   14. A computer-readable recording medium on which the character string recognition program according to claim 12 is recorded. 文字列画像を含む画像情報から文字列情報を認識する1又は複数の文字列認識装置と通信可能に接続されたコンピュータに,前記文字列認識装置に対して文字列情報の認識に用いる辞書情報を送信する処理を実行させるための辞書情報送信プログラムであって,
前記画像情報の取扱者に関する取扱者情報を前記文字列認識装置から受信する取扱者情報受信処理と,
複数の単語データと前記取扱者情報と前記取扱者による前記単語データの過去の使用頻度情報とが関連付けられて記憶された単語使用頻度記憶手段の記憶情報に基づいて,前記取扱者情報受信処理により受信された前記取扱者情報に対応する前記取扱者による過去の使用頻度の高い単語データを含む特定の辞書情報を編成する第2の特定辞書情報編成処理と,
前記特定の辞書情報を前記取扱者情報の送信元の前記文字列認識装置に送信する特定辞書情報送信処理と,
の各処理をコンピュータに実行させるための辞書情報送信プログラム。
Dictionary information used for character string information recognition to the character string recognition device is connected to a computer that is communicably connected to one or more character string recognition devices that recognize character string information from image information including character string images. A dictionary information transmission program for executing a transmission process,
Handler information reception processing for receiving handler information related to the handler of the image information from the character string recognition device;
Based on the stored information of the word usage frequency storage means stored in association with a plurality of word data, the handler information, and the past usage frequency information of the word data by the handler, by the handler information receiving process A second specific dictionary information organization process for organizing specific dictionary information including word data frequently used in the past by the operator corresponding to the received operator information;
Specific dictionary information transmission processing for transmitting the specific dictionary information to the character string recognition device that is the transmission source of the handler information;
Dictionary information transmission program for causing a computer to execute each of the processes.
請求項15に記載の辞書情報送信プログラムが記録されてなることを特徴とするコンピュータ読み取り可能な記録媒体。   16. A computer-readable recording medium on which the dictionary information transmission program according to claim 15 is recorded.
JP2004018542A 2004-01-27 2004-01-27 Character string recognition device, program therefor, computer-readable recording medium recording the program, image reader, dictionary information transmitting device, program therefor, and computer-readable recording medium with the program recorded thereon Pending JP2005215772A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004018542A JP2005215772A (en) 2004-01-27 2004-01-27 Character string recognition device, program therefor, computer-readable recording medium recording the program, image reader, dictionary information transmitting device, program therefor, and computer-readable recording medium with the program recorded thereon

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004018542A JP2005215772A (en) 2004-01-27 2004-01-27 Character string recognition device, program therefor, computer-readable recording medium recording the program, image reader, dictionary information transmitting device, program therefor, and computer-readable recording medium with the program recorded thereon

Publications (1)

Publication Number Publication Date
JP2005215772A true JP2005215772A (en) 2005-08-11

Family

ID=34903024

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004018542A Pending JP2005215772A (en) 2004-01-27 2004-01-27 Character string recognition device, program therefor, computer-readable recording medium recording the program, image reader, dictionary information transmitting device, program therefor, and computer-readable recording medium with the program recorded thereon

Country Status (1)

Country Link
JP (1) JP2005215772A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011065322A (en) * 2009-09-16 2011-03-31 Konica Minolta Holdings Inc Character recognition system and character recognition program, and voice recognition system and voice recognition program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011065322A (en) * 2009-09-16 2011-03-31 Konica Minolta Holdings Inc Character recognition system and character recognition program, and voice recognition system and voice recognition program

Similar Documents

Publication Publication Date Title
US8014039B2 (en) Document management system, a document management method, and a document management program
US20060085442A1 (en) Document image information management apparatus and document image information management program
US7623514B2 (en) Data transmission device capable of transmitting data to a plurality of addresses by simple method
EP2779613B1 (en) Document processing apparatus, document processing method, and document processing computer program product
US8630852B2 (en) Image processing apparatus, speech recognition processing apparatus, control method for speech recognition processing apparatus, and computer-readable storage medium for computer program
US20080170786A1 (en) Image processing system, image processing method, and image processing program
JPH0683879A (en) Method and device for labelling document for preservation, handling and introduction
JP2018124656A (en) Image processing apparatus, control method thereof and program
US20090128862A1 (en) Automated method and system for transmitting documents from a scanned source based on textual destination information in the document
US20050204282A1 (en) Systems and methods for data interchange among autonomous processing entities
US8032524B2 (en) Content management system and content management method
US8634112B2 (en) Document processing apparatus for generating an electronic document
US7505903B2 (en) Speech recognition dictionary creation method and speech recognition dictionary creating device
JP4811133B2 (en) Image forming apparatus and image processing apparatus
JP4288761B2 (en) Mail transmitting apparatus and program storage medium thereof
US20120057186A1 (en) Image processing apparatus, method for managing image data, and computer-readable storage medium for computer program
JP4673542B2 (en) Document transfer device, document transfer system, and document transfer method
JP3722672B2 (en) Designated word related person information extracting device, computer-readable recording medium recording designated word related person information extracting program, and set word related person frequency counting device
JP2005215772A (en) Character string recognition device, program therefor, computer-readable recording medium recording the program, image reader, dictionary information transmitting device, program therefor, and computer-readable recording medium with the program recorded thereon
JP2007052613A (en) Translation device, translation system and translation method
JP4717592B2 (en) Document management system, control method and program for document management client
US8031352B2 (en) Apparatus and method for processing received data
JP2008176764A (en) Image processing system, image processing method and image processing program
US20230334243A1 (en) Document Processing Method And Information Processing Device
JP2002132792A (en) Electronic data registration system