JP2015045984A - Information processing apparatus, character recognition method, and program - Google Patents

Information processing apparatus, character recognition method, and program Download PDF

Info

Publication number
JP2015045984A
JP2015045984A JP2013176555A JP2013176555A JP2015045984A JP 2015045984 A JP2015045984 A JP 2015045984A JP 2013176555 A JP2013176555 A JP 2013176555A JP 2013176555 A JP2013176555 A JP 2013176555A JP 2015045984 A JP2015045984 A JP 2015045984A
Authority
JP
Japan
Prior art keywords
character
word
character string
characters
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013176555A
Other languages
Japanese (ja)
Other versions
JP6146209B2 (en
Inventor
美佐子 宗
Misako So
美佐子 宗
堀田 悦伸
Yoshinobu Hotta
悦伸 堀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013176555A priority Critical patent/JP6146209B2/en
Publication of JP2015045984A publication Critical patent/JP2015045984A/en
Application granted granted Critical
Publication of JP6146209B2 publication Critical patent/JP6146209B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

PROBLEM TO BE SOLVED: To further improve recognition accuracy.SOLUTION: Provided is an information processing apparatus 10 including: a storage unit 11 storing therein a plurality of first character strings L1 each expressed by characters in a set character group CG, and a first group G1 that is a collection of characters in the character group CG similar in shapes of character parts clipped from a first image P1 including the first character string L1 for each of the first character strings L1 while making each of the first character strings L1 correspond to the first group G1; and an arithmetic unit 12 generating a second group G2 that is a collection of characters in the character group CG similar in shapes of character parts clipped from a second image P2, selecting the first character string L1 based on the second character group G2, calculating an evaluation value representing a difference between the first group G1 corresponding to the selected first character group G1 and the second group G2, and determining the selected first character string L1 as a recognition result when the evaluation value is smaller than a set threshold.

Description

本発明は、情報処理装置、文字認識方法、及びプログラムに関する。   The present invention relates to an information processing apparatus, a character recognition method, and a program.

近年、携帯電話やスマートフォンなど、多くの端末装置にはカメラ機能が搭載されている。こうした端末装置には、カメラ機能を利用して撮影した画像から情報を読み取る様々なアプリケーションソフトウェアが搭載されている。その1つに、画像に含まれる文字領域を切り出して文字を認識する文字認識ソフトウェアがある。例えば、名刺の画像から名前や電話番号などの文字情報を読み取るアプリケーションソフトウェアなどがある。画像に含まれる文字を認識する技術は、OCR(Optical Character Recognition)と呼ばれる。   In recent years, many terminal devices such as mobile phones and smartphones have a camera function. Such terminal devices are equipped with various application software that reads information from images captured using the camera function. One of them is character recognition software that recognizes characters by cutting out character regions included in an image. For example, there is application software that reads character information such as names and telephone numbers from business card images. A technique for recognizing characters included in an image is called OCR (Optical Character Recognition).

OCR機能は、ドキュメントスキャナなどの読み取り装置に搭載されていることも多い。また、パーソナルコンピュータでOCR機能を実現するアプリケーションソフトウェアなども存在する。OCR機能は、画像から文字領域を切り出し、切り出した文字領域の画像パターンと予め用意された登録文字の画像パターンとを照合し、最も類似する登録文字を文字認識結果として出力する機能である。文字認識の精度や認識率は、画像の鮮明度や登録文字の種類などにより異なる。そのため、文字認識の精度や認識率を高めるために様々な手法が提案されている。   The OCR function is often installed in a reading device such as a document scanner. There is also application software that realizes the OCR function in a personal computer. The OCR function is a function of cutting out a character area from an image, collating an image pattern of the cut out character area with an image pattern of a registered character prepared in advance, and outputting the most similar registered character as a character recognition result. The accuracy and recognition rate of character recognition varies depending on the sharpness of the image and the type of registered characters. For this reason, various techniques have been proposed to increase the accuracy and recognition rate of character recognition.

例えば、N文字の文字認識誤りを許容する条件で、文字認識結果と登録単語群とを照合する第1の手法が提案されている。また、文字の切り出し、文字認識、言語処理を統合した手書き文字列の認識系を構築し、その認識系を利用して言語情報を文字の切り出しにフィードバックする第2の手法が提案されている。第2の手法では、文字認識の際に、認識結果の候補として複数の文字列を生成し、言語的に許容される文字列を最終認識結果として出力する処理が行われる。   For example, a first method has been proposed in which a character recognition result and a registered word group are collated under a condition that allows N character recognition errors. Also, a second method has been proposed in which a handwritten character string recognition system that integrates character segmentation, character recognition, and language processing is constructed, and language information is fed back to character segmentation using the recognition system. In the second method, during character recognition, a plurality of character strings are generated as recognition result candidates, and a linguistically acceptable character string is output as a final recognition result.

また、OCRの誤認識を含む可能性がある文字列(以下、誤認識文字列)を正しい文字列(以下、正解文字列)に対応付けて検索文字列群Xを作成し、検索文字列群Xを利用して文字認識を行う第3の手法が提案されている。また、第3の手法では、検索文字列群Xに含まれる文字列の中から1文字をワイルドカード(任意文字列を表す記号)に置き換えて検索文字列群Yを作成し、部分的に誤認識文字列と一致する文字列を検索できるようにしている。これらの手法により、文字認識の精度や認識率の向上が期待できる。   In addition, a search character string group X is created by associating a character string (hereinafter referred to as a misrecognized character string) that may include erroneous recognition of OCR with a correct character string (hereinafter referred to as a correct character string). A third method for performing character recognition using X has been proposed. In the third method, a search character string group Y is created by replacing one character from a character string included in the search character string group X with a wild card (a symbol representing an arbitrary character string), and a partial error is generated. A character string that matches the recognized character string can be searched. These techniques can be expected to improve character recognition accuracy and recognition rate.

特開平4−328682号公報JP-A-4-328682

電子通信学会論文誌,J69−D,No.9,pp.1292(1986)IEICE Transactions, J69-D, no. 9, pp. 1292 (1986) 第51回情報処理学会全国大会講演論文集,pp.4−247(1995)Proceedings of the 51st IPSJ National Convention, pp. 4-247 (1995)

しかし、上記の手法は、文書として人が読むことを前提に紙面に記載された文字列を認識対象としている。そのため、看板やポスターなどに記載された図案的要素を含む特殊な形状の文字(以下、デザイン文字)を対象に上記の手法を適用すると、文字認識の失敗や誤検出が増大する可能性がある。これは、登録文字の形状とデザイン文字の形状とが許容可能な誤差の範囲を超えて異なるために、文字認識誤りが多く発生することに起因する。なお、登録文字のフォントと異なるフォントで記載された文字列に対して上記の手法により文字認識を行う場合にも、同様に文字認識の失敗や誤検出が増大する可能性がある。   However, in the above method, a character string written on a sheet is assumed to be recognized on the assumption that a person reads it as a document. Therefore, if the above method is applied to specially shaped characters (hereinafter referred to as design characters) including design elements described in signs, posters, etc., there may be an increase in character recognition failures and false detections. . This is due to the fact that many character recognition errors occur because the shape of the registered character and the shape of the design character differ beyond the allowable error range. Even when character recognition is performed on a character string described in a font different from the registered character font by the above-described method, there is a possibility that the number of character recognition failures and false detections increase similarly.

例えば、上記第1の手法において文字認識誤りを許容する文字数Nを大きくすると、登録文字と照合する文字数が少なくなり、認識結果として出力する登録文字が絞り込めない。また、上記第2の手法において認識結果の候補として生成する文字列の数を大きくすると、類似度の低い候補の中から言語的に許容される文字列が抽出される可能性を高めることとなり、誤検出の発生リスクが高まる。また、上記第3の手法を適用した場合、認識対象の画像中に誤認識文字列と同じ文字列が偶然存在した場合、誤認識文字列に対応付けられた正解文字列が認識結果として出力される。つまり、誤検出が発生する。   For example, if the number N of characters that allow a character recognition error is increased in the first method, the number of characters to be compared with registered characters decreases, and the registered characters output as recognition results cannot be narrowed down. In addition, if the number of character strings generated as recognition result candidates in the second method is increased, the possibility of extracting linguistically acceptable character strings from candidates with low similarity is increased. Increased risk of false detection. In addition, when the third method is applied, if the same character string as the erroneously recognized character string is accidentally present in the recognition target image, the correct character string associated with the erroneously recognized character string is output as the recognition result. The That is, erroneous detection occurs.

そこで、1つの側面によれば、本発明の目的は、認識精度をより向上させることが可能な、情報処理装置、文字認識方法、及びプログラムを提供することにある。   Therefore, according to one aspect, an object of the present invention is to provide an information processing apparatus, a character recognition method, and a program that can further improve recognition accuracy.

本開示の1つの側面によれば、設定した文字群の文字で表現される複数の第1文字列と、複数の第1文字列のそれぞれについて、第1文字列を含む第1画像から切り出される文字部分の形状と類似する文字群の文字を集めた第1集合と、が対応付けて格納される記憶部と、第2画像から切り出される文字部分の形状と類似する文字群の文字を集めた第2集合を生成し、第2集合に基づいて第1文字列を選択し、選択した第1文字列に対応する第1集合と第2集合との違いを表す評価値を計算し、設定した閾値より評価値が小さい場合に、選択した第1文字列を認識結果とする演算部と、を有する、情報処理装置が提供される。   According to one aspect of the present disclosure, a plurality of first character strings expressed by characters of a set character group and a plurality of first character strings are cut out from the first image including the first character string. A first collection of characters in a character group similar to the shape of the character portion, a storage unit in which the characters are stored in association with each other, and characters in a character group similar to the shape of the character portion cut out from the second image are collected A second set is generated, a first character string is selected based on the second set, and an evaluation value representing a difference between the first set and the second set corresponding to the selected first character string is calculated and set An information processing apparatus is provided that includes an arithmetic unit that uses a selected first character string as a recognition result when the evaluation value is smaller than a threshold value.

また、本開示の他の1つの側面によれば、記憶部にアクセス可能なコンピュータが、設定した文字群の文字で表現される複数の文字列と、複数の文字列のそれぞれについて、文字列を含む第1画像から切り出される文字部分の形状と類似する文字群の文字を集めた第1集合と、が対応付けて格納される記憶部内の情報を参照し、第2画像から切り出される文字部分の形状と類似する文字群の文字を集めた第2集合を生成し、第2集合に基づいて文字列を選択し、選択した文字列に対応する第1集合と第2集合との違いを表す評価値を計算し、設定した閾値より評価値が小さい場合に、選択した文字列を認識結果とする文字認識方法が提供される。   Further, according to another aspect of the present disclosure, a computer that can access the storage unit stores a character string for each of a plurality of character strings represented by characters of a set character group and each of the plurality of character strings. The first set of characters in the character group similar to the shape of the character part cut out from the first image included is referred to the information in the storage unit stored in association with each other, and the character set cut out from the second image An evaluation representing a difference between the first set and the second set corresponding to the selected character string by generating a second set of characters of a character group similar to the shape, selecting a character string based on the second set A character recognition method is provided in which a value is calculated and the selected character string is a recognition result when the evaluation value is smaller than a set threshold value.

また、本開示の他の1つの側面によれば、記憶部にアクセス可能なコンピュータに、設定した文字群の文字で表現される複数の文字列と、複数の文字列のそれぞれについて、文字列を含む第1画像から切り出される文字部分の形状と類似する文字群の文字を集めた第1集合と、が対応付けて格納される記憶部内の情報を参照し、第2画像から切り出される文字部分の形状と類似する文字群の文字を集めた第2集合を生成し、第2集合に基づいて文字列を選択し、選択した文字列に対応する第1集合と第2集合との違いを表す評価値を計算し、設定した閾値より評価値が小さい場合に、選択した文字列を認識結果とする処理を実行させる、プログラムが提供される。   Further, according to another aspect of the present disclosure, a computer that can access the storage unit is provided with a plurality of character strings represented by characters of a set character group and a character string for each of the plurality of character strings. The first set of characters in the character group similar to the shape of the character part cut out from the first image included is referred to the information in the storage unit stored in association with each other, and the character set cut out from the second image An evaluation representing a difference between the first set and the second set corresponding to the selected character string by generating a second set of characters of a character group similar to the shape, selecting a character string based on the second set A program is provided that calculates a value and executes a process of using a selected character string as a recognition result when the evaluation value is smaller than a set threshold value.

本開示によれば、認識精度をより向上させることが可能になる。   According to the present disclosure, the recognition accuracy can be further improved.

第1実施形態に係る情報処理装置の一例を示した図である。It is the figure which showed an example of the information processing apparatus which concerns on 1st Embodiment. 第2実施形態に係る情報提供システムの一例を示した図である。It is the figure which showed an example of the information provision system which concerns on 2nd Embodiment. 第2実施形態に係る端末装置が有する機能を実現可能なハードウェアの一例を示した図である。It is the figure which showed an example of the hardware which can implement | achieve the function which the terminal device which concerns on 2nd Embodiment has. 第2実施形態に係る端末装置が有する機能の一例を示したブロック図である。It is the block diagram which showed an example of the function which the terminal device which concerns on 2nd Embodiment has. 第2実施形態に係るサーバ装置が有する機能の一例を示したブロック図である。It is the block diagram which showed an example of the function which the server apparatus which concerns on 2nd Embodiment has. 第2実施形態に係る情報データベースの一例を示した図である。It is the figure which showed an example of the information database which concerns on 2nd Embodiment. 第2実施形態に係る単語データベースの一例を示した図である。It is the figure which showed an example of the word database which concerns on 2nd Embodiment. 第2実施形態に係る誤り文字列データベースの一例を示した図である。It is the figure which showed an example of the error character string database which concerns on 2nd Embodiment. 第2実施形態に係るサーバ装置による単語認識処理について説明するための第1の図である。It is a 1st figure for demonstrating the word recognition process by the server apparatus which concerns on 2nd Embodiment. 第2実施形態に係るサーバ装置による単語認識処理について説明するための第2の図である。It is a 2nd figure for demonstrating the word recognition process by the server apparatus which concerns on 2nd Embodiment. 第2実施形態に係るサーバ装置による単語認識処理について説明するための第3の図である。It is a 3rd figure for demonstrating the word recognition process by the server apparatus which concerns on 2nd Embodiment. 第2実施形態に係るサーバ装置による単語認識処理について説明するための第4の図である。It is a 4th figure for demonstrating the word recognition process by the server apparatus which concerns on 2nd Embodiment. 第2実施形態に係るサーバ装置が実行する単語認識処理の流れを示した第1の図である。It is the 1st figure which showed the flow of the word recognition process which the server apparatus which concerns on 2nd Embodiment performs. 第2実施形態に係るサーバ装置が実行する単語認識処理の流れを示した第2の図である。It is the 2nd figure which showed the flow of the word recognition process which the server apparatus which concerns on 2nd Embodiment performs. 第2実施形態に係るサーバ装置が実行する単語認識処理の流れを示した第3の図である。It is the 3rd figure which showed the flow of the word recognition process which the server apparatus which concerns on 2nd Embodiment performs. 第2実施形態に係るサーバ装置が実行する単語認識処理の流れを示した第4の図である。It is the 4th figure which showed the flow of the word recognition process which the server apparatus which concerns on 2nd Embodiment performs. 第2実施形態の一変形例に係る検証方法について説明するための第1の図である。It is the 1st figure for explaining the verification method concerning one modification of a 2nd embodiment. 第2実施形態の一変形例に係る検証方法について説明するための第2の図である。It is a 2nd figure for demonstrating the verification method which concerns on the modification of 2nd Embodiment. 第2実施形態の一変形例に係る検証方法について説明するための第3の図である。It is a 3rd figure for demonstrating the verification method which concerns on the modification of 2nd Embodiment. 第2実施形態に係る誤り文字データベースの更新処理の流れを示した第1の図である。It is the 1st figure which showed the flow of the update process of the error character database which concerns on 2nd Embodiment. 第2実施形態に係る誤り文字データベースの更新処理の流れを示した第2の図である。It is the 2nd figure which showed the flow of the update process of the error character database which concerns on 2nd Embodiment. 第2実施形態に係る誤り文字データベースの更新処理の流れを示した第3の図である。It is the 3rd figure which showed the flow of the update process of the error character database which concerns on 2nd Embodiment.

以下に添付図面を参照しながら、本開示に係る実施形態について説明する。なお、本明細書及び図面において実質的に同一の機能を有する要素については、同一の符号を付することにより重複説明を省略する場合がある。   Embodiments according to the present disclosure will be described below with reference to the accompanying drawings. In addition, about the element which has the substantially same function in this specification and drawing, duplication description may be abbreviate | omitted by attaching | subjecting the same code | symbol.

<1.第1実施形態>
第1実施形態について説明する。
図1を参照しながら、第1実施形態に係る情報処理装置10について説明する。図1は、第1実施形態に係る情報処理装置の一例を示した図である。
<1. First Embodiment>
A first embodiment will be described.
An information processing apparatus 10 according to the first embodiment will be described with reference to FIG. FIG. 1 is a diagram illustrating an example of an information processing apparatus according to the first embodiment.

図1に示すように、情報処理装置100は、記憶部11、及び演算部12を有する。
なお、記憶部11は、RAM(Random Access Memory)などの揮発性記憶装置、或いは、HDD(Hard Disk Drive)やフラッシュメモリなどの不揮発性記憶装置である。演算部12は、CPU(Central Processing Unit)やDSP(Digital Signal Processor)などのプロセッサである。但し、演算部12は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの電子回路であってもよい。演算部12は、例えば、記憶部11又は他のメモリに記憶されたプログラムを実行する。
As illustrated in FIG. 1, the information processing apparatus 100 includes a storage unit 11 and a calculation unit 12.
The storage unit 11 is a volatile storage device such as a RAM (Random Access Memory) or a non-volatile storage device such as an HDD (Hard Disk Drive) or a flash memory. The arithmetic unit 12 is a processor such as a CPU (Central Processing Unit) or a DSP (Digital Signal Processor). However, the arithmetic unit 12 may be an electronic circuit such as an application specific integrated circuit (ASIC) or a field programmable gate array (FPGA). For example, the calculation unit 12 executes a program stored in the storage unit 11 or another memory.

記憶部11には、設定した文字群CGの文字で表現される複数の第1文字列L1が格納される。図1の例では、「雪」、「通」、「病」、「富」、「桶」などの文字を含む文字群CGが設定されている。第1文字列L1は、文字群CGに含まれる文字を組み合わせた文字列である。図1には、文字群CGに含まれる「富」、「通」を組み合わせた文字列「富通」などが第1文字列L1の例として示されている。なお、第1実施形態に係る説明の中で、説明の都合上、第1文字列L1の例として文字列「富通」を挙げ、この例を念頭に置いて説明する場合がある。   The storage unit 11 stores a plurality of first character strings L1 expressed by characters of the set character group CG. In the example of FIG. 1, a character group CG including characters such as “snow”, “communication”, “disease”, “wealth”, “、” is set. The first character string L1 is a character string obtained by combining characters included in the character group CG. FIG. 1 shows an example of the first character string L1 such as a character string “Fujitsu”, which is a combination of “wet” and “tetsu” included in the character group CG. In the description according to the first embodiment, for convenience of description, the character string “Fujitsu” is given as an example of the first character string L1, and the description may be made with this example in mind.

また、記憶部11には、複数の第1文字列L1のそれぞれについて、第1文字列L1を含む第1画像P1から切り出される文字部分の形状と類似する文字群CGの文字を集めた第1集合G1が格納される。   In addition, the storage unit 11 collects the characters of the character group CG similar to the shape of the character portion cut out from the first image P1 including the first character string L1 for each of the plurality of first character strings L1. A set G1 is stored.

図1には、文字列「富通」を含む第1画像P1が例示されている。第1画像P1は、例えば、街頭に設置された看板に記載の文字列「富通」をカメラで撮像した撮像画像や、設定したフォントで紙面に印刷した文字列「富通」をカメラで撮像した撮像画像である。画像処理により第1画像P1から、文字列「富通」を含む文字列部分を切り出すことができる。さらに、文字列部分から、1文字ずつ文字部分を切り出すことができる。図1の例では、1文字目の文字部分(「富」を含む文字部分)と、2文字目の文字部分(「通」を含む文字部分)とが切り出されている。   FIG. 1 exemplifies a first image P1 including the character string “Fujitsu”. The first image P1 is, for example, a captured image obtained by capturing a character string “Tomitori” described on a signboard installed on a street with a camera, or a character string “Tomitori” printed on paper with a set font. This is a captured image. A character string portion including the character string “Fujitsu” can be cut out from the first image P1 by image processing. Furthermore, the character part can be cut out character by character from the character string part. In the example of FIG. 1, the first character portion (character portion including “wealth”) and the second character portion (character portion including “to”) are cut out.

第1画像P1から文字部分の画像が切り出されると、例えば、パターンマッチングなどの方法により、文字群CGの中から、切り出した文字部分の形状に類似する文字を抽出することができる。例えば、文字群CGに含まれる文字のテンプレート画像又はその特徴量を用意しておき、文字部分の画像とテンプレート画像との類似度を計算し、類似度が高い文字を文字群CGから抽出する方法などが考えられる。その他にも、ある文字が、文字部分に記載された文字である可能性の高さ(例えば、確率で表現される。)を表す信頼度を用いて文字群CGから文字を抽出する方法などが考えられる。   When the image of the character part is cut out from the first image P1, for example, a character similar to the shape of the cut out character part can be extracted from the character group CG by a method such as pattern matching. For example, a method of preparing a template image of a character included in a character group CG or a feature amount thereof, calculating a similarity between a character part image and a template image, and extracting a character having a high similarity from the character group CG And so on. In addition, there is a method of extracting a character from the character group CG using the reliability indicating the high possibility that a certain character is a character described in the character portion (for example, expressed by a probability). Conceivable.

類似度や信頼度などの指標値を利用して文字群CGから文字を抽出する方法の場合、指標値が大きい順に、候補となる複数の文字が文字群CGから抽出される。そして、指標値が最も大きい文字が結果として出力される。上記第1集合G1は、例えば、指標値が大きい順に、切り出された文字部分毎に、設定した数の文字を集めた集合である。記憶部11には、第1文字列L1を含む第1画像P1の文字部分に対応する文字を抽出する際に得られた第1集合G1が、第1文字列L1に対応付けて格納されている。   In the method of extracting characters from the character group CG using index values such as similarity and reliability, a plurality of candidate characters are extracted from the character group CG in descending order of the index value. Then, the character having the largest index value is output as a result. The first set G1 is, for example, a set in which a set number of characters are collected for each extracted character portion in descending order of index values. The storage unit 11 stores a first set G1 obtained when extracting characters corresponding to the character portion of the first image P1 including the first character string L1 in association with the first character string L1. Yes.

演算部12は、第2画像P2から切り出される文字部分の形状と類似する文字群CGの文字を集めた第2集合G2を生成する。第2画像P2は、例えば、カメラで撮像した撮像画像である。また、第2画像P2に含まれる文字列(「富通」)は未知である。演算部12は、例えば、第1文字列L1を含む第1画像P1から第1集合G1を生成する方法と同じ方法で、指標値が大きい順に、候補となる複数の文字を文字群CGから抽出し、抽出した文字の集合である第2集合G2を生成する。   The calculation unit 12 generates a second set G2 in which characters of the character group CG similar to the shape of the character part cut out from the second image P2 are collected. The second image P2 is a captured image captured by a camera, for example. Further, the character string (“Futtsu”) included in the second image P2 is unknown. For example, the calculation unit 12 extracts a plurality of candidate characters from the character group CG in descending order of the index value by the same method as the method of generating the first set G1 from the first image P1 including the first character string L1. Then, a second set G2, which is a set of extracted characters, is generated.

また、演算部12は、第2集合G2に基づいて第1文字列L1を選択する。例えば、演算部12は、第2集合G2に含まれる文字を組み合わせて文字列を生成し、生成した文字列に一致する第1文字列L1を選択する。なお、第2画像P2に第1文字列L1が含まれていない場合、演算部12は、第2集合G2から第1文字列L1を選択できない可能性がある。しかし、第2画像P2に第1文字列L1が含まれている場合、演算部12は、第2集合G2から第1文字列L1を選択できる可能性が高い。図1の例では、第2画像P2に含まれる文字を組み合わせて文字列「富通」を生成できるため、この場合には第1文字列L1として文字列「富通」が選択される。   In addition, the calculation unit 12 selects the first character string L1 based on the second set G2. For example, the calculation unit 12 generates a character string by combining characters included in the second set G2, and selects a first character string L1 that matches the generated character string. Note that when the first character string L1 is not included in the second image P2, the calculation unit 12 may not be able to select the first character string L1 from the second set G2. However, when the first character string L1 is included in the second image P2, the calculation unit 12 is likely to be able to select the first character string L1 from the second set G2. In the example of FIG. 1, the character string “Tottori” can be generated by combining the characters included in the second image P2. In this case, the character string “Tottori” is selected as the first character string L1.

また、演算部12は、選択した第1文字列L1に対応する第1集合G1と第2集合G2との違いを表す評価値を計算する。評価値としては、例えば、第1集合G1と第2集合G2との間で共通に含まれる文字の個数などを用いることができる。共通に含まれる文字の個数が少なければ、第1集合G1と第2集合G2との違いが大きいと評価できる。また、第1集合G1及び第2集合G2に含まれる各文字について指標値が得られている場合には、共通して含まれる文字に対応する指標値の差を評価値として用いることもできる。例えば、1文字あたりの指標値の差が大きければ、第1集合G1と第2集合G2との違いが大きいと評価できる。   In addition, the calculation unit 12 calculates an evaluation value representing a difference between the first set G1 and the second set G2 corresponding to the selected first character string L1. As the evaluation value, for example, the number of characters included in common between the first set G1 and the second set G2 can be used. If the number of characters included in common is small, it can be evaluated that the difference between the first set G1 and the second set G2 is large. In addition, when an index value is obtained for each character included in the first set G1 and the second set G2, the difference between the index values corresponding to the characters included in common can be used as the evaluation value. For example, if the difference in index value per character is large, it can be evaluated that the difference between the first set G1 and the second set G2 is large.

また、演算部12は、設定した閾値より評価値が小さい場合に、選択した第1文字列L1を認識結果とする。つまり、第1集合G1と第2集合G2との違いが許容範囲内の違いである場合に、第2画像P2から認識された第1文字列L1が出力される。特殊なフォントやデザイン文字などを含む画像から文字列を認識しようとする場合、誤検出や誤認識が生じる可能性がある。しかし、同じ文字列を含む画像に対する認識処理の過程で得られた候補文字の集合は似通った性質を有する。そのため、上記のような評価値に基づく検証処理を行うことで、誤検出や誤認識が生じるリスクを低減することが可能になり、文字列の認識精度を向上させることができる。   In addition, when the evaluation value is smaller than the set threshold, the calculation unit 12 sets the selected first character string L1 as a recognition result. That is, when the difference between the first set G1 and the second set G2 is within the allowable range, the first character string L1 recognized from the second image P2 is output. If a character string is to be recognized from an image including special fonts or design characters, there is a possibility that erroneous detection or erroneous recognition occurs. However, sets of candidate characters obtained in the process of recognition processing for images containing the same character string have similar properties. Therefore, by performing the verification process based on the evaluation value as described above, it becomes possible to reduce the risk of erroneous detection and erroneous recognition, and improve the recognition accuracy of the character string.

以上、第1実施形態について説明した。
<2.第2実施形態>
次に、第2実施形態について説明する。
The first embodiment has been described above.
<2. Second Embodiment>
Next, a second embodiment will be described.

[2−1.システム]
まず、図2を参照しながら、第2実施形態に係る情報提供システムについて説明する。図2は、第2実施形態に係る情報提供システムの一例を示した図である。
[2-1. system]
First, an information providing system according to the second embodiment will be described with reference to FIG. FIG. 2 is a diagram illustrating an example of an information providing system according to the second embodiment.

図2に示すように、第2実施形態に係る情報提供システムは、端末装置100及びサーバ装置200を含む。端末装置100は、サーバ装置200と通信可能である。例えば、端末装置100は、無線LAN(Local Area Network)や携帯電話回線などの無線通信回線を利用してサーバ装置200とデータ通信を行うことが可能である。   As illustrated in FIG. 2, the information providing system according to the second embodiment includes a terminal device 100 and a server device 200. The terminal device 100 can communicate with the server device 200. For example, the terminal device 100 can perform data communication with the server device 200 using a wireless communication line such as a wireless local area network (LAN) or a mobile phone line.

この情報提供システムでは、端末装置100からサーバ装置200へと写真PTが送信されると、写真PTに含まれる単語に関連する登録情報Aがサーバ装置200から端末装置100へと提供される。   In this information providing system, when the photo PT is transmitted from the terminal device 100 to the server device 200, the registration information A related to the word included in the photo PT is provided from the server device 200 to the terminal device 100.

サーバ装置200は、単語と対応付けて登録情報Aが記録された情報データベース201aを保持している。登録情報Aとしては、例えば、地名、店名、観光情報、施設情報(例えば、施設名、入園料、開園時間、住所、電話番号など)、地図情報、商品情報、お得情報(例えば、割引券、クーポンなど)などがある。例えば、情報データベース201aには、単語「富士園」に対応付けて、施設名「富士園」、入園料「500円」、開園時間「9時〜17時」などの登録情報Aが格納されている。   The server apparatus 200 holds an information database 201a in which registration information A is recorded in association with words. Registered information A includes, for example, place name, shop name, sightseeing information, facility information (for example, facility name, entrance fee, opening time, address, telephone number, etc.), map information, product information, and discount information (for example, discount coupon) , Coupons, etc.). For example, in the information database 201a, registration information A such as a facility name “Fujien”, an entrance fee “500 yen”, and an opening time “9:00 to 17:00” is stored in association with the word “Fujien”. Yes.

例えば、看板やポスターなどの写真PTを端末装置100からサーバ装置200へと送信すると、サーバ装置200は、受信した写真PTから文字列を含む画像領域WAを切り出し、その文字列に含まれる文字を認識する。さらに、サーバ装置200は、認識した文字の組み合わせに該当する単語を検出する。   For example, when a photo PT such as a signboard or a poster is transmitted from the terminal device 100 to the server device 200, the server device 200 cuts out an image area WA including a character string from the received photo PT, and characters included in the character string are extracted. recognize. Furthermore, the server device 200 detects a word corresponding to the recognized combination of characters.

サーバ装置200は、情報データベース201aに登録された単語を記録した単語データベース201bを保持している。サーバ装置200は、単語データベース201bを参照し、認識した文字の組み合わせに該当する単語を検出する。該当する単語を検出したサーバ装置200は、情報データベース201aから、検出した単語に対応する登録情報Aを抽出する。そして、サーバ装置200は、抽出した登録情報Aを端末装置100に送信する。登録情報Aを受信した端末装置100は、受信した登録情報Aを画面に表示する。   The server device 200 holds a word database 201b in which words registered in the information database 201a are recorded. The server device 200 refers to the word database 201b and detects a word corresponding to the recognized combination of characters. The server device 200 that detects the corresponding word extracts the registration information A corresponding to the detected word from the information database 201a. Then, the server device 200 transmits the extracted registration information A to the terminal device 100. The terminal device 100 that has received the registration information A displays the received registration information A on the screen.

このように、第2実施形態に係る情報提供システムを利用すると、ユーザは、看板などの文字列を撮像した撮像画像をサーバ装置200へと送信するだけで、その看板などに関連する登録情報Aを容易に取得することが可能になる。二次元バーコードなどの特殊な情報表示を利用しておらず、一般的な文字列が記載されていればよいため、様々な場所に設置された看板などを情報源として利用することができる。そのため、たまたま目にした看板や、広告に記載された単語などを利用して容易に登録情報Aを得ることができるため、利便性が高い。   As described above, when the information providing system according to the second embodiment is used, the user simply transmits a captured image obtained by capturing a character string such as a signboard to the server apparatus 200, and the registration information A related to the signboard or the like. Can be easily obtained. Special information display such as a two-dimensional bar code is not used, and general character strings need only be described. Therefore, signs installed in various places can be used as information sources. Therefore, the registration information A can be easily obtained by using a signboard that happens to be displayed, a word described in an advertisement, or the like, which is highly convenient.

但し、看板などの文字は、特殊なフォントやデザイン文字で描かれていることが多い。書籍に記載された文字列や、申請書類などの書面に記載された文字列を読み取り、文字情報をデジタルデータとして記録するOCR機能を利用した場合、看板などに描かれた特殊な形状の文字を正しく認識できない可能性が高い。単語が認識できない場合や、正しい単語とは異なる単語が検出される場合などが想定される。そこで、第2実施形態では、特殊なフォントやデザイン文字など、文字認識の誤りが生じやすい文字を含む単語を正しく認識する仕組みを提案する。この仕組みを適用することで単語の認識精度が向上し、図2に例示した情報提供システムなどに応用することでユーザの利便性向上に寄与する。   However, characters such as signs are often drawn with special fonts and design characters. When using the OCR function that reads character strings written on books or written documents such as application documents and records character information as digital data, characters with special shapes drawn on signs etc. There is a high possibility that it cannot be recognized correctly. It is assumed that the word cannot be recognized or a word different from the correct word is detected. In view of this, the second embodiment proposes a mechanism for correctly recognizing words including characters that are prone to character recognition errors, such as special fonts and design characters. By applying this mechanism, word recognition accuracy is improved, and by applying to the information providing system illustrated in FIG. 2, the user's convenience is improved.

以上、第2実施形態に係る情報提供システムについて説明した。なお、サーバ装置200が有する機能のうち、文字認識に関する機能を端末装置100に組み込み、端末装置100単体で撮像画像から文字列を認識できるようにしてもよい。さらに、サーバ装置200が有する情報データベース201aの情報を端末装置100に保持させ、端末装置100単体で、認識した文字列から観光情報などの情報が得られるようにしてもよい。以下では、図2に示した情報提供システムを念頭に説明を進めるが、このような変形例も第2実施形態の技術的範囲に含まれる。   The information providing system according to the second embodiment has been described above. Of the functions of the server device 200, a function related to character recognition may be incorporated in the terminal device 100 so that the character string can be recognized from the captured image by the terminal device 100 alone. Further, the information in the information database 201a of the server device 200 may be held in the terminal device 100 so that information such as tourism information can be obtained from the recognized character string by the terminal device 100 alone. In the following, the description will proceed with the information providing system shown in FIG. 2 in mind, but such a modification is also included in the technical scope of the second embodiment.

[2−2.ハードウェア]
次に、図3を参照しながら、端末装置100のハードウェアについて説明する。図3は、第2実施形態に係る端末装置が有する機能を実現可能なハードウェアの一例を示した図である。端末装置100が有する機能は、例えば、図3に示す情報処理装置のハードウェア資源を用いて実現することが可能である。つまり、端末装置100が有する機能は、コンピュータプログラムを用いて図3に示すハードウェアを制御することにより実現される。
[2-2. hardware]
Next, the hardware of the terminal device 100 will be described with reference to FIG. FIG. 3 is a diagram illustrating an example of hardware capable of realizing the functions of the terminal device according to the second embodiment. The functions of the terminal device 100 can be realized using, for example, hardware resources of the information processing apparatus illustrated in FIG. That is, the functions of the terminal device 100 are realized by controlling the hardware shown in FIG. 3 using a computer program.

図3に示すように、このハードウェアは、主に、CPU902と、ROM(Read Only Memory)904と、RAM906と、ホストバス908と、ブリッジ910とを有する。さらに、このハードウェアは、外部バス912と、インタフェース914と、入力部916と、出力部918と、記憶部920と、ドライブ922と、接続ポート924と、通信部926とを有する。   As shown in FIG. 3, this hardware mainly includes a CPU 902, a ROM (Read Only Memory) 904, a RAM 906, a host bus 908, and a bridge 910. The hardware further includes an external bus 912, an interface 914, an input unit 916, an output unit 918, a storage unit 920, a drive 922, a connection port 924, and a communication unit 926.

CPU902は、例えば、演算処理装置又は制御装置として機能し、ROM904、RAM906、記憶部920、又はリムーバブル記録媒体928に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ROM904は、CPU902に読み込まれるプログラムや演算に用いるデータなどを格納する記憶装置の一例である。RAM906には、例えば、CPU902に読み込まれるプログラムや、そのプログラムを実行する際に変化する各種パラメータなどが一時的又は永続的に格納される。   The CPU 902 functions as, for example, an arithmetic processing unit or a control unit, and controls the overall operation of each component or a part thereof based on various programs recorded in the ROM 904, the RAM 906, the storage unit 920, or the removable recording medium 928. . The ROM 904 is an example of a storage device that stores a program read by the CPU 902, data used for calculation, and the like. The RAM 906 temporarily or permanently stores, for example, a program read by the CPU 902 and various parameters that change when the program is executed.

これらの要素は、例えば、高速なデータ伝送が可能なホストバス908を介して相互に接続される。一方、ホストバス908は、例えば、ブリッジ910を介して比較的データ伝送速度が低速な外部バス912に接続される。また、入力部916としては、例えば、マウス、キーボード、タッチパネル、タッチパッド、ボタン、スイッチ、及びレバーなどが用いられる。さらに、入力部916としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラが用いられることもある。   These elements are connected to each other via, for example, a host bus 908 capable of high-speed data transmission. On the other hand, the host bus 908 is connected to an external bus 912 having a relatively low data transmission speed via a bridge 910, for example. As the input unit 916, for example, a mouse, a keyboard, a touch panel, a touch pad, a button, a switch, a lever, or the like is used. Furthermore, as the input unit 916, a remote controller capable of transmitting a control signal using infrared rays or other radio waves may be used.

出力部918としては、例えば、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、又はELD(Electro-Luminescence Display)などのディスプレイ装置が用いられる。また、出力部918として、スピーカやヘッドホンなどのオーディオ出力装置、又はプリンタなどが用いられることもある。つまり、出力部918は、情報を視覚的又は聴覚的に出力することが可能な装置である。   As the output unit 918, for example, a display device such as a CRT (Cathode Ray Tube), an LCD (Liquid Crystal Display), a PDP (Plasma Display Panel), or an ELD (Electro-Luminescence Display) is used. As the output unit 918, an audio output device such as a speaker or headphones, or a printer may be used. In other words, the output unit 918 is a device that can output information visually or audibly.

記憶部920は、各種のデータを格納するための装置である。記憶部920としては、例えば、HDDなどの磁気記憶デバイスが用いられる。また、記憶部920として、SSD(Solid State Drive)やRAMディスクなどの半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイスなどが用いられてもよい。   The storage unit 920 is a device for storing various data. As the storage unit 920, for example, a magnetic storage device such as an HDD is used. Further, as the storage unit 920, a semiconductor storage device such as an SSD (Solid State Drive) or a RAM disk, an optical storage device, a magneto-optical storage device, or the like may be used.

ドライブ922は、着脱可能な記録媒体であるリムーバブル記録媒体928に記録された情報を読み出し、又はリムーバブル記録媒体928に情報を書き込む装置である。リムーバブル記録媒体928としては、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどが用いられる。   The drive 922 is a device that reads information recorded on a removable recording medium 928 that is a removable recording medium or writes information on the removable recording medium 928. As the removable recording medium 928, for example, a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory is used.

接続ポート924は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、光オーディオ端子など、外部接続機器930を接続するためのポートである。外部接続機器930としては、例えば、イヤホン、カメラ、フラッシュ、プリンタなどがある。なお、接続ポート924を介さずにカメラやフラッシュなどのデバイスがインタフェース914に接続されていてもよい。   The connection port 924 is a port for connecting an external connection device 930 such as a USB (Universal Serial Bus) port, an IEEE 1394 port, and an optical audio terminal. Examples of the external connection device 930 include an earphone, a camera, a flash, and a printer. Note that a device such as a camera or a flash may be connected to the interface 914 without using the connection port 924.

通信部926は、ネットワーク932に接続するための通信デバイスである。通信部926としては、例えば、有線又は無線LAN用の通信回路、WUSB(Wireless USB)用の通信回路、光通信用の通信回路やルータ、ADSL(Asymmetric Digital Subscriber Line)用の通信回路やルータ、携帯電話ネットワーク用の通信回路などが用いられる。通信部926に接続されるネットワーク932は、有線又は無線により接続されたネットワークであり、例えば、インターネット、LAN、放送網、衛星通信回線などを含む。   The communication unit 926 is a communication device for connecting to the network 932. Examples of the communication unit 926 include a wired or wireless LAN communication circuit, a WUSB (Wireless USB) communication circuit, an optical communication circuit or router, an ADSL (Asymmetric Digital Subscriber Line) communication circuit or router, A communication circuit for a cellular phone network is used. A network 932 connected to the communication unit 926 is a wired or wireless network, and includes, for example, the Internet, a LAN, a broadcast network, a satellite communication line, and the like.

以上、端末装置100のハードウェアについて説明した。なお、サーバ装置200が有する機能も、端末装置100と同様に、図3に例示したハードウェアを用いて実現可能である。従って、サーバ装置200のハードウェアについては詳細な説明を省略する。   The hardware of the terminal device 100 has been described above. Note that the functions of the server device 200 can also be realized using the hardware illustrated in FIG. 3, similarly to the terminal device 100. Therefore, detailed description of the hardware of the server device 200 is omitted.

[2−3.端末装置の機能]
次に、図4を参照しながら、端末装置100の機能について説明する。図4は、第2実施形態に係る端末装置が有する機能の一例を示したブロック図である。
[2-3. Terminal device functions]
Next, functions of the terminal device 100 will be described with reference to FIG. FIG. 4 is a block diagram illustrating an example of functions of the terminal device according to the second embodiment.

図4に示すように、端末装置100は、画像取得部101、画像送信部102、情報受信部103、及び情報表示部104を有する。画像送信部102及び情報受信部103の機能は、上述した接続ポート924や通信部926などを用いて実現できる。画像取得部101及び情報表示部104の機能は、上述したCPU902などを用いて実現できる。   As illustrated in FIG. 4, the terminal device 100 includes an image acquisition unit 101, an image transmission unit 102, an information reception unit 103, and an information display unit 104. The functions of the image transmission unit 102 and the information reception unit 103 can be realized using the connection port 924, the communication unit 926, and the like described above. The functions of the image acquisition unit 101 and the information display unit 104 can be realized using the above-described CPU 902 or the like.

画像取得部101は、端末装置100のカメラ機能を利用して撮像された撮像画像や、端末装置100に接続されたリムーバブル記録媒体928に格納された撮像画像など、単語の認識に用いられる画像(以下、対象画像)を取得する。画像取得部101により取得された対象画像は、画像送信部102に入力される。画像送信部102は、画像取得部101から入力された対象画像をサーバ装置200へ送信する。   The image acquisition unit 101 uses an image (such as a captured image captured using the camera function of the terminal device 100 or a captured image stored in a removable recording medium 928 connected to the terminal device 100) to recognize words ( Hereinafter, the target image) is acquired. The target image acquired by the image acquisition unit 101 is input to the image transmission unit 102. The image transmission unit 102 transmits the target image input from the image acquisition unit 101 to the server device 200.

サーバ装置200において対象画像から単語が検出された場合、検出された単語に対応する登録情報Aが端末装置100に送信される。情報受信部103は、サーバ装置200から送信された登録情報Aを受信する。情報受信部103により受信された登録情報Aは、情報表示部104に入力される。情報表示部104は、情報受信部103から入力された登録情報Aを端末装置100の画面に表示する。   When a word is detected from the target image in the server device 200, registration information A corresponding to the detected word is transmitted to the terminal device 100. The information receiving unit 103 receives the registration information A transmitted from the server device 200. The registration information A received by the information receiving unit 103 is input to the information display unit 104. The information display unit 104 displays the registration information A input from the information receiving unit 103 on the screen of the terminal device 100.

以上、端末装置100の機能について説明した。
[2−4.サーバ装置の機能]
次に、図5を参照しながら、サーバ装置200の機能について説明する。図5は、第2実施形態に係るサーバ装置が有する機能の一例を示したブロック図である。なお、説明の中で、図6〜図12を適宜参照する。
The function of the terminal device 100 has been described above.
[2-4. Server device functions]
Next, functions of the server device 200 will be described with reference to FIG. FIG. 5 is a block diagram illustrating an example of functions of the server device according to the second embodiment. In the description, FIGS. 6 to 12 are appropriately referred to.

図5に示すように、サーバ装置200は、記憶部201、画像受信部202、単語認識部203、情報送信部204、及びデータベース更新部205を有する。記憶部201の機能は、上述したRAM906や記憶部920などを用いて実現できる。画像受信部202及び情報送信部204の機能は、上述した接続ポート924や通信部926などを用いて実現できる。単語認識部203の機能は、上述したCPU902などを用いて実現できる。   As illustrated in FIG. 5, the server device 200 includes a storage unit 201, an image reception unit 202, a word recognition unit 203, an information transmission unit 204, and a database update unit 205. The function of the storage unit 201 can be realized using the above-described RAM 906, the storage unit 920, or the like. The functions of the image reception unit 202 and the information transmission unit 204 can be realized using the connection port 924, the communication unit 926, and the like described above. The function of the word recognition unit 203 can be realized using the above-described CPU 902 or the like.

(記憶部201)
記憶部201は、情報データベース201a、単語データベース201b、登録文字データベース201c、及び誤り文字列データベース201dを有する。
(Storage unit 201)
The storage unit 201 includes an information database 201a, a word database 201b, a registered character database 201c, and an error character string database 201d.

情報データベース201aは、単語に対応付けて登録情報Aが格納されたデータベースである。単語データベース201bは、文字認識の結果から単語を検出するための情報が格納されたデータベースである。登録文字データベース201cは、文字認識に用いる文字(以下、登録文字)のテンプレートが格納されたデータベースである。誤り文字列データベース201dは、誤った文字列が検出されやすい画像を対象に文字認識した際の認識結果に関する情報が格納されたデータベースである。   The information database 201a is a database in which registration information A is stored in association with words. The word database 201b is a database that stores information for detecting words from the result of character recognition. The registered character database 201c is a database in which templates of characters used for character recognition (hereinafter referred to as registered characters) are stored. The error character string database 201d is a database that stores information on recognition results when characters are recognized for an image in which an erroneous character string is easily detected.

(情報データベース201a)
ここで、図6を参照しながら、情報データベース201aについて、さらに説明する。図6は、第2実施形態に係る情報データベースの一例を示した図である。
(Information database 201a)
Here, the information database 201a will be further described with reference to FIG. FIG. 6 is a diagram illustrating an example of an information database according to the second embodiment.

図6に例示した情報データベース201aには、「単語」及び「情報」の欄が設けられている。また、「単語」の欄には、「富士園」、「雪土国」、「愛染明王像」などの単語が記載されている。但し、「単語」の欄に記載されている単語は、単語データベース201bに格納されている単語である。   The information database 201a illustrated in FIG. 6 has columns of “word” and “information”. Also, in the “word” column, words such as “Fujien”, “Snow Country”, “Aizen Myoo Statue” and the like are described. However, the word described in the “word” column is a word stored in the word database 201b.

さらに、「情報」の欄には、単語毎に、「入園料 500円、開園時間 9時〜17時」などの登録情報Aが記載されている。なお、「No.」の欄に記載された数字は、情報データベース201aのレコードを識別するための番号である。この例のように、情報データベース201aには、単語と登録情報Aとが対応付けて格納されている。   Furthermore, in the “information” column, registration information A such as “admission fee 500 yen, opening hours 9 to 17:00” is described for each word. The numbers described in the “No.” column are numbers for identifying records in the information database 201a. As in this example, the information database 201a stores words and registration information A in association with each other.

(単語データベース201b)
次に、図7を参照しながら、単語データベース201bについて、さらに説明する。図7は、第2実施形態に係る単語データベースの一例を示した図である。
(Word database 201b)
Next, the word database 201b will be further described with reference to FIG. FIG. 7 is a diagram showing an example of a word database according to the second embodiment.

図7に例示した単語データベース201bには、「単語」、「候補順位」、「1文字目」、「2文字目」、「3文字目」、…の欄が設けられている。なお、以下では、「1文字目」、「2文字目」、「3文字目」の欄を「候補文字群」の欄と呼ぶ場合がある。「単語」の欄には、「富士園」、「雪土国」などの単語が記載されている。また、「候補順位」の欄には、単語毎に「第1位」、…、「第4位」の記載がある。そして、「候補文字群」の欄には、文字種及びコストが記載されている。   The word database 201b illustrated in FIG. 7 includes columns of “word”, “candidate rank”, “first character”, “second character”, “third character”,. In the following, the “first character”, “second character”, and “third character” fields may be referred to as “candidate character group” fields. In the “word” column, words such as “Fujien” and “Snow Country” are written. In the “candidate ranking” column, “first place”,..., “Fourth place” is described for each word. In the “candidate character group” column, the character type and cost are described.

「単語」の欄に記載されている単語は、単語データベース201bに格納されている単語である。「候補文字群」の欄に記載された文字種及びコストは、対応する単語を含む画像から文字認識を行った際に、認識結果の候補として抽出された文字(以下、候補文字)及び認識コストの値を表す。   The word described in the “word” column is a word stored in the word database 201b. The character type and cost described in the “candidate character group” column are the characters extracted as candidates of the recognition result (hereinafter referred to as candidate characters) and the recognition cost when the character recognition is performed from the image including the corresponding word. Represents a value.

なお、認識コストとは、候補文字が誤りである可能性の高さを表す指標値の一例である。つまり、認識コストは、値が小さくなるほど正しい文字(以下、正解文字)らしいことを示す量であり、相違度と呼ばれることもある。第2実施形態では、認識コストを指標値として利用する例を中心に説明するが、例えば、認識スコアを指標値として利用することもできる。認識スコアとは、候補文字が、正解文字である可能性の高さを表す指標値の一例である。つまり、認識スコアは、値が大きくなるほど正解文字らしいことを示す量であり、類似度と呼ばれることもある。類似度は、尤もらしさを表す確信度や、正解文字である確率を表す確率値などで表現される場合もある。   Note that the recognition cost is an example of an index value indicating a high possibility that a candidate character is erroneous. That is, the recognition cost is an amount indicating that the smaller the value is, the more likely it is to be a correct character (hereinafter, correct character), and it is sometimes called the difference degree. In the second embodiment, an example in which the recognition cost is used as an index value will be mainly described. However, for example, a recognition score can be used as an index value. The recognition score is an example of an index value that represents a high possibility that the candidate character is a correct character. That is, the recognition score is an amount that indicates that the correct character is more likely to increase as the value increases, and is sometimes referred to as similarity. The degree of similarity may be represented by a certainty factor representing likelihood, a probability value representing the probability of being a correct character, or the like.

図7の例では、単語に含まれる文字毎に4つの候補文字が記載されている。例えば、単語「富士園」の第1文字目「富」に対応する候補文字として、「富」、「雪」、「窓」、「冨」が記載されている。また、図7の例では、コストが低い順に上位4つの候補文字が記載されている。「候補順位」の欄に記載された順位の数字は、コストが低い順に順番を表した順位である。   In the example of FIG. 7, four candidate characters are described for each character included in the word. For example, “wealth”, “snow”, “window”, “冨” are described as candidate characters corresponding to the first character “wealth” of the word “Fujien”. In the example of FIG. 7, the top four candidate characters are listed in ascending order of cost. The rank number described in the “candidate rank” column is a rank representing the order in ascending order of cost.

なお、図7の例では第4位までの候補文字を記載しているが、第3位までの候補文字を記載する設定にすることも可能であるし、第4位より下位の候補文字を記載する設定にすることも可能である。このように、単語データベース201bには、単語と共に候補文字群が格納されている。   In the example of FIG. 7, candidate characters up to the fourth place are described, but it is possible to set the candidate characters up to the third place, and candidate characters lower than the fourth place are displayed. It is also possible to make the setting described. As described above, the word database 201b stores candidate character groups together with words.

(誤り文字列データベース201d)
次に、図8を参照しながら、誤り文字列データベース201dについて、さらに説明する。図8は、第2実施形態に係る誤り文字列データベースの一例を示した図である。
(Error character string database 201d)
Next, the error character string database 201d will be further described with reference to FIG. FIG. 8 is a diagram showing an example of an error character string database according to the second embodiment.

図8に例示した誤り文字列データベース201dには、「単語」、「誤り文字列」、「候補順位」、「1文字目」、「2文字目」、「3文字目」、…の欄が設けられている。なお、「1文字目」、「2文字目」、「3文字目」の欄は「候補文字群」の欄である。「単語」の欄には、「富士園」などの単語が記載されている。また、「誤り文字列」の欄には、単語毎に文字列が記載されている。「候補順位」の欄には、単語毎に「第1位」、…、「第4位」の記載がある。そして、「候補文字群」の欄には、文字種及びコストが記載されている。   The error character string database 201d illustrated in FIG. 8 includes columns of “word”, “error character string”, “candidate rank”, “first character”, “second character”, “third character”,. Is provided. The “first character”, “second character”, and “third character” fields are “candidate character group” fields. In the “word” column, a word such as “Fujien” is written. In the “error character string” column, a character string is described for each word. In the “candidate rank” column, “first place”,..., “Fourth place” is described for each word. In the “candidate character group” column, the character type and cost are described.

「単語」の欄に記載されている単語は、単語データベース201bに格納されている単語である。なお、「単語」の欄には、単語毎に誤り文字列の数が記載されている。「誤り文字列」の欄に記載された文字列は、対応する単語を含む画像から文字認識を行った際に誤認識された文字列(以下、誤り文字列)を表す。   The word described in the “word” column is a word stored in the word database 201b. In the “word” column, the number of error character strings is described for each word. The character string described in the “error character string” column represents a character string (hereinafter referred to as an error character string) erroneously recognized when character recognition is performed from an image including the corresponding word.

例えば、候補文字群の中に正解文字が存在しない場合、候補順位が最上位に位置する候補文字の組み合わせが誤り文字列として得られる。「候補文字群」の欄に記載された文字種及びコストは、対応する単語を含む画像から文字認識を行った際に抽出された候補文字及び認識コストの値を表す。なお、認識コストに代えて認識スコアを指標値として利用することもできる。   For example, if there is no correct character in the candidate character group, a combination of candidate characters with the highest candidate ranking is obtained as an error character string. The character type and cost described in the “candidate character group” column represent candidate characters and recognition cost values extracted when character recognition is performed from an image including a corresponding word. In addition, it can replace with recognition cost and can utilize a recognition score as an index value.

図8の例では、単語「富士園」に対応付けて2つの誤り文字列「蔦企国」、「雪土国」が記載されている。また、誤り文字列「蔦企国」に含まれる文字毎に4つの候補文字が記載されている。例えば、単語「富士園」の第1文字目「富」に対応する誤り文字列「蔦企国」の第1文字目「蔦」について、「蔦」、「夢」、「言」、「雪」が記載されている。   In the example of FIG. 8, two error character strings “Shizukuni” and “Snow Country” are described in association with the word “Fujien”. In addition, four candidate characters are described for each character included in the error character string “蔦 contend country”. For example, “蔦”, “dream”, “word”, “snow” with respect to the first character “の” of the error character string “Tsukukoku” corresponding to the first character “Wealth” of the word “Fujien” Is described.

なお、図8の例では第4位までの候補文字を記載しているが、第3位までの候補文字を記載する設定にすることも可能であるし、第4位より下位の候補文字を記載する設定にすることも可能である。また、単語データベース201bに記載される候補文字の数(順位数)と、誤り文字列データベース201dに記載される候補文字の数(順位数)とは異なる数に設定されていてもよい。例えば、単語データベース201bでは第4位までの候補文字を考慮し、誤り文字列データベース201dでは第8位までの候補文字を考慮するような設定にすることが可能である。   In the example of FIG. 8, candidate characters up to the fourth place are described, but it is possible to set the candidate characters up to the third place, and candidate characters lower than the fourth place are displayed. It is also possible to make the setting described. Further, the number of candidate characters (number of ranks) described in the word database 201b and the number of candidate characters (number of ranks) described in the error character string database 201d may be set to different numbers. For example, the word database 201b can be set so that candidate characters up to the fourth place are considered, and the error character string database 201d can be set up to consider the candidate characters up to the eighth place.

(画像受信部202)
再び図5を参照する。画像受信部202は、端末装置100から単語認識の対象となる写真PTを受信する。画像受信部202により受信された写真PTは、単語認識部203に入力される。なお、画像受信部202により受信された写真PTは、記憶部201に一旦格納されてもよい。
(Image receiving unit 202)
Refer to FIG. 5 again. The image receiving unit 202 receives a photo PT that is a word recognition target from the terminal device 100. The photo PT received by the image receiving unit 202 is input to the word recognition unit 203. Note that the photo PT received by the image receiving unit 202 may be temporarily stored in the storage unit 201.

(単語認識部203)
単語認識部203は、画像受信部202により入力された写真PTから単語を検出する。例えば、単語認識部203は、写真PTから文字列を含む画像領域WAを切り出す。画像領域WAの切り出しとしては、例えば、写真PTの画像データを2値化し、2値画像から文字列を切り出す方法などがある。画像領域WAを切り出した単語認識部203は、登録文字データベース201cを利用し、画像領域WAから各文字を含む部分(以下、文字領域)を切り出す。文字領域の切り出し方法としては、現在又は将来において開示されている任意の文字認識技術を適用することができる。
(Word recognition unit 203)
The word recognition unit 203 detects a word from the photo PT input by the image reception unit 202. For example, the word recognition unit 203 cuts out the image area WA including the character string from the photograph PT. For example, the image area WA may be cut out by binarizing the image data of the photograph PT and cutting out a character string from the binary image. The word recognition unit 203 that cuts out the image area WA uses the registered character database 201c to cut out a portion including each character (hereinafter, a character area) from the image area WA. Any character recognition technique disclosed at present or in the future can be applied as a method for extracting a character region.

文字領域を切り出した単語認識部203は、登録文字データベース201cに格納された登録文字のテンプレートを用いて、各登録文字と文字領域の文字形状とのマッチングを行い、登録文字毎に認識コストを計算する。認識コストの計算方法としては、現在又は将来において開示されている任意の方法を適用することができる。また、単語データベース201b及び誤り文字列データベース201dに記載の指標値が認識スコアである場合には、認識コストに代えて認識スコアが計算される。   The word recognition unit 203 that cuts out the character area matches each registered character with the character shape of the character area using the registered character template stored in the registered character database 201c, and calculates the recognition cost for each registered character. To do. As a method for calculating the recognition cost, any method disclosed at present or in the future can be applied. If the index values described in the word database 201b and the error character string database 201d are recognition scores, the recognition scores are calculated instead of the recognition costs.

単語認識部203は、認識コストが低い順に予め設定された数の登録文字を候補文字として抽出する。つまり、文字領域毎に複数の候補文字を含む候補文字群が生成される。候補文字群を生成した単語認識部203は、候補文字群に含まれる候補文字を組み合わせて、単語データベース201bに記載された単語を検出する。例えば、単語認識部203は、図9に例示するような方法で単語を検出する。図9は、第2実施形態に係るサーバ装置による単語認識処理について説明するための第1の図である。   The word recognizing unit 203 extracts a preset number of registered characters as candidate characters in ascending order of recognition cost. That is, a candidate character group including a plurality of candidate characters for each character region is generated. The word recognizing unit 203 that has generated the candidate character group combines the candidate characters included in the candidate character group and detects the words described in the word database 201b. For example, the word recognition unit 203 detects a word by a method illustrated in FIG. FIG. 9 is a first diagram for explaining word recognition processing by the server device according to the second embodiment.

図9には、写真PTから切り出された画像領域WAである画像P01から単語を検出する処理の例が記載されている。画像P01には、単語「富士園」が記載されている。また、第1文字目「富」を含む文字領域に対する候補文字として、上位から順に「冨」、「富」、「雪」、「言」が得られている。同様に、第2文字目「士」を含む文字領域に対する候補文字として、上位から順に「士」、「土」、「工」、「大」が得られている。さらに、第3文字目「園」を含む文字領域に対する候補文字として、上位から順に「国」、「園」、「回」、「酉」が得られている。   FIG. 9 shows an example of processing for detecting a word from an image P01 that is an image area WA cut out from the photograph PT. In the image P01, the word “Fujien” is described. Further, “冨”, “wealth”, “snow”, and “word” are obtained in order from the top as candidate characters for the character region including the first character “wealth”. Similarly, “shi”, “sat”, “engineering”, and “large” are obtained in order from the top as candidate characters for the character area including the second character “shi”. Furthermore, “country”, “garden”, “times”, and “酉” are obtained in order from the top as candidate characters for the character area including the third character “garden”.

文字認識結果である候補文字群の最上位に位置する候補文字を組み合わせると「冨士国」となり、正解の文字列である「富士園」とはならない。しかし、下位の候補文字も含めて候補文字群を参照すれば、単語データベース201bに含まれる単語「富士園」の第1文字目「富」、第2文字目「士」、第3文字目「園」が得られる。単語認識部203は、図9に例示したように、下位の候補文字を含めた候補文字群の中から、単語データベース201bに記載された単語を検出する。図9の例では、単語認識結果として正しく「富士園」が検出される。   Combining the candidate characters positioned at the top of the candidate character group, which is the character recognition result, results in “Fujishikuni” and not “Fujien” which is the correct character string. However, if the candidate character group including the lower candidate characters is referred to, the first character “wet”, the second character “shi”, and the third character “ Garden "is obtained. As illustrated in FIG. 9, the word recognition unit 203 detects a word described in the word database 201 b from a candidate character group including lower candidate characters. In the example of FIG. 9, “Fujien” is correctly detected as the word recognition result.

上記の方法で単語データベース201bに記載された単語を検出できなかった場合、単語認識部203は、候補文字群に含まれる候補文字を組み合わせて、誤り文字列データベース201dに記載された誤り文字列を検出する。例えば、単語認識部203は、図10に例示するような方法で誤り文字列を検出する。図10は、第2実施形態に係るサーバ装置による単語認識処理について説明するための第2の図である。   When the word described in the word database 201b cannot be detected by the above method, the word recognizing unit 203 combines the candidate characters included in the candidate character group to obtain the error character string described in the error character string database 201d. To detect. For example, the word recognition unit 203 detects an error character string by a method illustrated in FIG. FIG. 10 is a second diagram for explaining word recognition processing by the server device according to the second embodiment.

図10には、写真PTから切り出された画像領域WAである画像P02から単語を検出する処理の例が記載されている。画像P02には、単語「富士園」が記載されている。但し、画像P02に記載された各文字は不鮮明である。   FIG. 10 shows an example of processing for detecting a word from the image P02 that is the image area WA cut out from the photograph PT. In the image P02, the word “Fujien” is described. However, each character described in the image P02 is unclear.

そのため、第1文字目「富」を含む文字領域に対する候補文字として、例えば、上位から順に「蔦」、「夢」、「言」、「雪」が得られている。また、第2文字目「士」を含む文字領域に対する候補文字として、上位から順に「企」、「士」、「述」、「工」が得られている。さらに、第3文字目「園」を含む文字領域に対する候補文字として、上位から順に「国」、「酉」、「田」、「具」が得られている。   Therefore, for example, “蔦”, “dream”, “word”, and “snow” are obtained in order from the top as candidate characters for the character region including the first character “wealth”. Further, “plan”, “shi”, “description”, and “engineer” are obtained in order from the top as candidate characters for the character region including the second character “shi”. Furthermore, “country”, “酉”, “field”, and “tool” are obtained in order from the top as candidate characters for the character region including the third character “garden”.

文字認識結果である候補文字群の最上位に位置する候補文字を組み合わせると「蔦企国」となり、正解の文字列である「富士園」とはならない。さらに、下位の候補文字も含めて候補文字群を参照しても、単語データベース201bに含まれる単語「富士園」の第1文字目「富」、第3文字目「園」が得られない。しかし、候補文字群の最上位に位置する候補文字を組み合わせた文字列「蔦企国」は、誤り文字列データベース201dに記載されている。そこで、単語認識部203は、誤り文字列データベース201dを参照し、誤り文字列「蔦企国」に対応する単語「富士園」を単語認識結果とする。この方法により、図10の例では、単語認識結果として正しく「富士園」が検出される。   Combining the candidate characters positioned at the top of the candidate character group, which is the character recognition result, results in a “contemporary country” and not the correct character string “Fujien”. Furthermore, even if the candidate character group including the lower candidate characters is referred to, the first character “Wealth” and the third character “Garden” of the word “Fujien” included in the word database 201b cannot be obtained. However, the character string “蔦 contend country” combining the candidate characters positioned at the top of the candidate character group is described in the error character string database 201d. Therefore, the word recognition unit 203 refers to the error character string database 201d, and uses the word “Fujien” corresponding to the error character string “invention country” as the word recognition result. By this method, in the example of FIG. 10, “Fujien” is correctly detected as the word recognition result.

(考察#1:写真PTに誤り文字列を含む場合)
ここで、誤り文字列データベース201dに記載された誤り文字列と同じ単語が写真PTに含まれている場合について考えてみたい。例えば、単語データベース201bには記載のない単語「蔦企国」を含む看板を撮影した写真PTが入力された場合、単語認識部203は、図10の例と同様に、誤り文字列データベース201dを利用して候補文字群から誤り文字列「蔦企国」を検出する。この例では正しい単語は「蔦企国」であるため、この検出結果に対応する単語「富士園」を単語認識結果とすると誤りとなる。
(Discussion # 1: When an error character string is included in the photo PT)
Here, let us consider a case where the photo PT contains the same word as the error character string described in the error character string database 201d. For example, in the case where a photograph PT obtained by photographing a signboard including the word “a project country” not described in the word database 201b is input, the word recognition unit 203 stores the error character string database 201d in the same manner as in the example of FIG. Using the candidate character group, the error character string “Tentative Country” is detected. In this example, since the correct word is “a plan country”, an error occurs if the word “Fujien” corresponding to this detection result is used as the word recognition result.

そこで、単語認識部203は、誤り文字列「蔦企国」に対応する単語「富士園」が正しい単語認識結果であるか否かを検証する。正しい単語認識結果と認められる場合、単語認識部203は、誤り文字列「蔦企国」に対応する単語「富士園」を単語認識結果とする。一方、正しい単語認識結果と認められない場合、単語認識部203は、誤り文字列「蔦企国」に対応する単語「富士園」を単語認識結果としない。この場合、単語認識部203は、単語の認識に失敗したと判断する。   Therefore, the word recognition unit 203 verifies whether or not the word “Fujizono” corresponding to the error character string “Foster Country” is a correct word recognition result. If the correct word recognition result is recognized, the word recognizing unit 203 sets the word “Fujien” corresponding to the error character string “Zhigokoku” as the word recognition result. On the other hand, when the result is not recognized as a correct word recognition result, the word recognition unit 203 does not use the word “Fujien” corresponding to the error character string “Foster Country” as the word recognition result. In this case, the word recognition unit 203 determines that word recognition has failed.

(考察#2:候補文字群に複数の単語を含む場合)
ここで、候補文字群の中から複数の単語が検出された場合について考えてみたい。例えば、図9に示した文字認識結果(候補文字群)が得られた場合、この候補文字群の中から、2つの単語「富士園」及び「雪土国」が検出される。
(Discussion # 2: Candidate character group includes multiple words)
Here, let us consider a case where a plurality of words are detected from the candidate character group. For example, when the character recognition result (candidate character group) shown in FIG. 9 is obtained, two words “Fujien” and “Snow Country” are detected from the candidate character group.

そこで、単語認識部203は、2つの単語「富士園」及び「雪土国」のうち、いずれの単語が正しい単語認識結果であるかを検証する。単語の選択方法としては、例えば、認識コストの和や平均が最も小さい単語を選択する方法などが考えられる。但し、第2実施形態では、候補文字群を利用した検証方法を提案する。単語認識部203は、正しい単語認識結果と認められた単語を単語認識結果とする。なお、いずれの単語も正しい単語認識結果と認められない場合、単語認識部203は、単語の認識に失敗したと判断する。   Therefore, the word recognition unit 203 verifies which of the two words “Fujien” and “Snow Country” is the correct word recognition result. As a method of selecting a word, for example, a method of selecting a word having the smallest sum or average of recognition costs can be considered. However, in the second embodiment, a verification method using a candidate character group is proposed. The word recognition unit 203 sets a word recognized as a correct word recognition result as a word recognition result. If none of the words is recognized as a correct word recognition result, the word recognition unit 203 determines that word recognition has failed.

(考察#3:誤り文字列と同じ登録単語が存在する場合)
ここで、誤り文字列データベース201dに記載された誤り文字列と同じ単語が単語データベース201bに記載されている場合について考えてみたい。
(Discussion # 3: When the same registered word as the error character string exists)
Here, let us consider a case where the same word as the error character string described in the error character string database 201d is described in the word database 201b.

上記の説明では、単語データベース201bに記載された単語が候補文字群に含まれない場合に、候補文字群から誤り文字列を検出する方法を例示した。しかし、たまたま候補文字群の中に単語データベース201bに記載された単語と同じ文字列が含まれているが、その単語が正解ではない場合も考えられる。そのため、単語データベース201bに記載された単語と、誤り文字列データベース201dに記載された誤り文字列とを候補文字群から検出し、それぞれの検出結果から正しい文字認識結果を選択する方法を考える。   In the above description, the method of detecting an error character string from the candidate character group when the word described in the word database 201b is not included in the candidate character group is illustrated. However, the same character string as the word described in the word database 201b may be included in the candidate character group, but the word may not be correct. For this reason, a method is considered in which a word described in the word database 201b and an error character string described in the error character string database 201d are detected from the candidate character group, and a correct character recognition result is selected from each detection result.

例えば、図7に例示した単語データベース201bには単語「雪土国」が記載され、図8に例示した誤り文字列データベース201dには誤り文字列「雪土国」が記載されている。この場合、単語認識部203は、図11に示すように、単語データベース201bに記載された単語に基づく単語認識結果#1と、誤り文字列に基づく単語認識結果#2とのいずれが正しい単語認識結果であるかを検証する。図11は、第2実施形態に係るサーバ装置による単語認識処理について説明するための第3の図である。図11の例では、検証の結果、誤り文字列に基づく単語認識結果#2が正しい単語認識結果として得られる。   For example, the word “snow country” is described in the word database 201b illustrated in FIG. 7, and the error character string “snow country” is described in the error character string database 201d illustrated in FIG. In this case, as shown in FIG. 11, the word recognition unit 203 recognizes which of the word recognition result # 1 based on the word described in the word database 201b and the word recognition result # 2 based on the error character string is correct. Verify whether it is a result. FIG. 11 is a third diagram for explaining word recognition processing by the server device according to the second embodiment. In the example of FIG. 11, as a result of the verification, the word recognition result # 2 based on the error character string is obtained as a correct word recognition result.

(検証方法について)
上記考察#1〜#3で述べたように、単語認識部203は、単語データベース201b、及び誤り文字列データベース201dに基づいて検出した単語をそのまま文字認識結果とせずに検証処理を実施する。ここで、図12を参照しながら、単語認識部203による検証処理について説明する。なお、図12は、第2実施形態に係るサーバ装置による単語認識処理について説明するための第4の図である。
(About verification method)
As described in the above considerations # 1 to # 3, the word recognizing unit 203 performs the verification process without directly using the word detected based on the word database 201b and the error character string database 201d as a character recognition result. Here, the verification process by the word recognition unit 203 will be described with reference to FIG. FIG. 12 is a fourth diagram for explaining word recognition processing by the server device according to the second embodiment.

(登録単語に基づく単語認識結果の検証)
画像領域WAに対する文字認識結果(以下、候補文字群X)から、単語データベース201bに記載された単語が検出された場合、単語認識部203は、その単語に対応する単語データベース201bに記載の候補文字群(以下、候補文字群Y)を抽出する。次いで、単語認識部203は、2つの候補文字群X、Yを比較し、両者に共通して存在する候補文字(以下、共通候補文字)の数をカウントする。
(Verification of word recognition results based on registered words)
When a word described in the word database 201b is detected from a character recognition result (hereinafter referred to as a candidate character group X) for the image area WA, the word recognition unit 203 selects a candidate character described in the word database 201b corresponding to the word. A group (hereinafter, candidate character group Y) is extracted. Next, the word recognition unit 203 compares the two candidate character groups X and Y, and counts the number of candidate characters (hereinafter, common candidate characters) that exist in common in both.

次いで、単語認識部203は、共通候補文字の数が、設定した閾値(例えば、7個)よりも大きいか否かを判定する。なお、共通候補文字の数は評価値の一例である。共通候補文字の数が、設定した閾値よりも大きい場合、単語認識部203は、候補文字群Xから検出した単語を文字認識結果とする。一方、共通候補文字の数が、設定した閾値よりも小さい場合、単語認識部203は、候補文字群Xから検出した単語を文字認識結果としない。なお、閾値は、例えば、候補文字群X、Yの一方又は両方に含まれる候補文字の数に基づいて設定される。   Next, the word recognition unit 203 determines whether or not the number of common candidate characters is larger than a set threshold value (for example, 7). The number of common candidate characters is an example of an evaluation value. When the number of common candidate characters is larger than the set threshold value, the word recognition unit 203 uses a word detected from the candidate character group X as a character recognition result. On the other hand, when the number of common candidate characters is smaller than the set threshold, the word recognition unit 203 does not use the word detected from the candidate character group X as the character recognition result. The threshold is set based on the number of candidate characters included in one or both of candidate character groups X and Y, for example.

図12の例では、候補文字群X(図中の「文字認識結果」)と、単語「雪土国」に対応する候補文字群Y(図中の「単語DBより」)とを比較した結果、5個の共通候補文字が得られている。閾値が7個に設定されている場合、共通候補文字数が閾値より小さいため、単語「雪土国」は単語認識結果とされない。なお、候補文字群Xから複数の単語が検出された場合、共通候補文字数が閾値より大きい単語が文字認識結果とされる。   In the example of FIG. 12, the result of comparing the candidate character group X (“character recognition result” in the figure) with the candidate character group Y (from “word DB” in the figure) corresponding to the word “snow country”. Five common candidate characters are obtained. When the threshold is set to 7, the number of common candidate characters is smaller than the threshold, so the word “snow country” is not regarded as a word recognition result. When a plurality of words are detected from the candidate character group X, a word whose number of common candidate characters is larger than the threshold is determined as a character recognition result.

(誤り文字列に基づく単語認識結果の検証)
画像領域WAに対する文字認識結果(候補文字群X)から、誤り文字列データベース201dに記載された誤り文字列が検出された場合、単語認識部203は、その誤り文字列に対応する候補文字群(以下、候補文字群Z)を誤り文字列データベース201dから抽出する。次いで、単語認識部203は、2つの候補文字群X、Zを比較し、両者に共通して存在する候補文字(共通候補文字)の数をカウントする。
(Verification of word recognition results based on error strings)
When an error character string described in the error character string database 201d is detected from a character recognition result (candidate character group X) for the image area WA, the word recognition unit 203 selects a candidate character group ( Hereinafter, the candidate character group Z) is extracted from the error character string database 201d. Next, the word recognition unit 203 compares the two candidate character groups X and Z, and counts the number of candidate characters (common candidate characters) that exist in common in both.

次いで、単語認識部203は、共通候補文字の数が、設定した閾値(例えば、7個)よりも大きいか否かを判定する。共通候補文字の数が、設定した閾値よりも大きい場合、単語認識部203は、候補文字群Xから検出した誤り文字列に対応する単語を文字認識結果とする。一方、共通候補文字の数が、設定した閾値よりも小さい場合、単語認識部203は、候補文字群Xから検出した誤り文字列に対応する単語を文字認識結果としない。なお、閾値は、例えば、候補文字群X、Zの一方又は両方に含まれる候補文字の数に基づいて設定される。   Next, the word recognition unit 203 determines whether or not the number of common candidate characters is larger than a set threshold value (for example, 7). When the number of common candidate characters is larger than the set threshold value, the word recognition unit 203 sets a word corresponding to the error character string detected from the candidate character group X as a character recognition result. On the other hand, when the number of common candidate characters is smaller than the set threshold value, the word recognition unit 203 does not use the word corresponding to the error character string detected from the candidate character group X as the character recognition result. The threshold is set based on the number of candidate characters included in one or both of candidate character groups X and Z, for example.

図12の例では、候補文字群X(図中の「文字認識結果」)と、誤り文字列「雪土国」に対応する候補文字群Z(図中の「誤り文字列DBより」)とを比較した結果、9個の共通候補文字が得られている。閾値が7個に設定されている場合、共通候補文字数が閾値より大きいため、誤り文字列「雪土国」に対応する単語「富士園」が単語認識結果とされる。図12の例では、候補文字群Y(図中の「単語DBより」)、候補文字群Z(図中の「誤り文字列DBより」)が得られているが、誤り文字列「雪土国」に対応する単語「富士園」が単語認識結果とされる。   In the example of FIG. 12, a candidate character group X (“character recognition result” in the figure), a candidate character group Z (from “error character string DB” in the figure) corresponding to the error character string “snow country”, and As a result of comparison, nine common candidate characters are obtained. When the threshold value is set to 7, the number of common candidate characters is larger than the threshold value, so the word “Fujien” corresponding to the error character string “Snow Country” is set as the word recognition result. In the example of FIG. 12, a candidate character group Y (from “word DB” in the figure) and a candidate character group Z (from “error character string DB” in the figure) are obtained. The word “Fujien” corresponding to “country” is taken as the word recognition result.

(検証処理の実装について)
ここで、上記の検証処理の実装形態について述べる。上記の説明では様々な場合について検証処理の適用方法を議論してきたが、実際に上記の検証処理を実装する際には、その一部を省略することもできる。例えば、単語データベース201bに記載された単語が候補文字群Xから検出された場合には、その検出結果について検証を行わないようにしてもよい。この場合、候補文字群から誤り文字列が検出された際に、その誤り文字列に対応する単語について上記の検証が行われる。このように、認識精度への寄与度などを考慮して適用方法を選択することで、認識精度と処理負荷とのバランスを調整することができる。
(About implementation of verification process)
Here, an implementation form of the above verification processing will be described. In the above description, the application method of the verification process has been discussed in various cases. However, when actually implementing the verification process, a part of the verification process can be omitted. For example, when a word described in the word database 201b is detected from the candidate character group X, the detection result may not be verified. In this case, when an error character string is detected from the candidate character group, the above verification is performed on the word corresponding to the error character string. In this way, the balance between recognition accuracy and processing load can be adjusted by selecting an application method in consideration of the degree of contribution to recognition accuracy and the like.

再び図5を参照する。単語認識に成功した場合、単語認識部203は、単語認識結果とした単語を情報送信部204に入力する。一方、単語認識に失敗した場合、単語認識部203は、単語認識に失敗した旨を示す情報を情報送信部204に入力する。この場合、単語認識部203は、単語認識に失敗した旨を示す情報、及び画像領域WAから検出した候補文字群の情報をデータベース更新部205に入力する。   Refer to FIG. 5 again. When the word recognition is successful, the word recognition unit 203 inputs a word as a word recognition result to the information transmission unit 204. On the other hand, when the word recognition fails, the word recognition unit 203 inputs information indicating that the word recognition has failed to the information transmission unit 204. In this case, the word recognizing unit 203 inputs information indicating that the word recognition has failed and information on candidate character groups detected from the image area WA to the database updating unit 205.

(情報送信部204)
情報送信部204は、単語認識部203から単語認識結果(単語)が入力された場合、入力された単語に対応する登録情報Aを情報データベース201aから抽出する。そして、情報送信部204は、情報データベース201aから抽出した登録情報Aを端末装置100に送信する。一方、単語認識部203から単語認識に失敗した旨の情報が入力された場合、情報送信部204は、単語認識に失敗した旨を端末装置100に通知する。
(Information transmission unit 204)
When a word recognition result (word) is input from the word recognition unit 203, the information transmission unit 204 extracts registration information A corresponding to the input word from the information database 201a. Then, the information transmission unit 204 transmits the registration information A extracted from the information database 201a to the terminal device 100. On the other hand, when information indicating that word recognition has failed is input from the word recognition unit 203, the information transmission unit 204 notifies the terminal device 100 that word recognition has failed.

(データベース更新部205)
データベース更新部205は、誤り文字列データベース201dを更新する。例えば、データベース更新部205は、単語認識に失敗した旨の情報、及び画像領域WAから検出した候補文字群の情報が単語認識部203から入力された場合、入力された情報を用いて誤り文字列データベース201dを更新する。
(Database update unit 205)
The database update unit 205 updates the error character string database 201d. For example, when information indicating that word recognition has failed and information on candidate character groups detected from the image area WA are input from the word recognition unit 203, the database update unit 205 uses the input information to generate an error character string. The database 201d is updated.

更新方法としては、例えば、入力された候補文字群から最上位の候補文字を組み合わせた誤り文字列を生成し、候補文字群と誤り文字列とを対応付けて誤り文字列データベース201dに格納する方法が考えられる。この方法は、データベース更新部205が、画像領域WAに含まれる正しい単語の情報を取得できた場合に適用される。例えば、正しい単語の情報が端末装置100からサーバ装置200に通知された場合、データベース更新部205は、通知された単語に、生成した誤り文字列と候補文字群とを対応付けて格納する。サーバ装置200に直接、正しい単語の情報が入力された場合も同様である。   As an update method, for example, a method of generating an error character string combining the highest candidate character from the input candidate character group, and storing the candidate character group and the error character string in association with each other in the error character string database 201d Can be considered. This method is applied when the database update unit 205 can acquire the correct word information included in the image area WA. For example, when the correct word information is notified from the terminal device 100 to the server device 200, the database update unit 205 stores the generated error character string and the candidate character group in association with the notified word. The same applies when correct word information is directly input to the server apparatus 200.

なお、単語認識に成功した場合に誤り文字列データベース201dを更新してもよい。例えば、候補文字群から生成した誤り文字列が誤り文字列データベース201dに既に存在する場合に、画像領域WAから得た候補文字のコストを用いて誤り文字列データベース201dの候補文字群を更新する方法が考えられる。例えば、画像領域WAから得た候補文字のコストと、その候補文字と同じ候補文字に対応する誤り文字列データベース201dに記載のコストとの平均値を計算し、その平均値で誤り文字列データベース201dの記載を更新する方法が考えられる。この方法を適用した場合、更新後のコストに基づいて各候補文字の候補順位も更新される。   The error character string database 201d may be updated when the word recognition is successful. For example, when the error character string generated from the candidate character group already exists in the error character string database 201d, the candidate character group in the error character string database 201d is updated using the cost of the candidate character obtained from the image area WA. Can be considered. For example, an average value of the cost of the candidate character obtained from the image area WA and the cost described in the error character string database 201d corresponding to the same candidate character as the candidate character is calculated, and the error character string database 201d is calculated by the average value. The method of updating the description of can be considered. When this method is applied, the candidate rank of each candidate character is also updated based on the updated cost.

以上、サーバ装置200の機能について説明した。
[2−5.認識処理について]
次に、図13〜図16を参照しながら、サーバ装置200が実行する単語認識処理の流れについて説明する。図13は、第2実施形態に係るサーバ装置が実行する単語認識処理の流れを示した第1の図である。図14は、第2実施形態に係るサーバ装置が実行する単語認識処理の流れを示した第2の図である。図15は、第2実施形態に係るサーバ装置が実行する単語認識処理の流れを示した第3の図である。図16は、第2実施形態に係るサーバ装置が実行する単語認識処理の流れを示した第4の図である。
The function of the server device 200 has been described above.
[2-5. About recognition processing]
Next, the flow of word recognition processing executed by the server device 200 will be described with reference to FIGS. FIG. 13 is a first diagram illustrating a flow of word recognition processing executed by the server device according to the second embodiment. FIG. 14 is a second diagram illustrating a flow of word recognition processing executed by the server device according to the second embodiment. FIG. 15 is a third diagram illustrating the flow of word recognition processing executed by the server device according to the second embodiment. FIG. 16 is a fourth diagram illustrating a flow of word recognition processing executed by the server device according to the second embodiment.

(全体的な処理の流れ)
まず、図13を参照しながら、全体的な処理の流れについて説明する。
(S101)画像受信部202は、端末装置100から単語認識の対象となる写真PTを受信する。画像受信部202により受信された写真PTは、単語認識部203に入力される。なお、画像受信部202により受信された写真PTは、記憶部201に一旦格納されてもよい。
(Overall processing flow)
First, the overall processing flow will be described with reference to FIG.
(S101) The image receiving unit 202 receives a photo PT that is a word recognition target from the terminal device 100. The photo PT received by the image receiving unit 202 is input to the word recognition unit 203. Note that the photo PT received by the image receiving unit 202 may be temporarily stored in the storage unit 201.

(S102)単語認識部203は、写真PTから文字列を含む画像領域WAを切り出す。画像領域WAを切り出した単語認識部203は、画像領域WAから各文字を含む部分(文字領域)を切り出す。   (S102) The word recognition unit 203 cuts out an image area WA including a character string from the photograph PT. The word recognition unit 203 that cuts out the image area WA cuts out a portion (character area) including each character from the image area WA.

(S103)文字領域を切り出した単語認識部203は、登録文字データベース201cに格納された登録文字のテンプレートを用いて、各登録文字と文字領域の文字形状とのマッチングを行い、登録文字毎に認識コストを計算する。また、単語認識部203は、認識コストが低い順に予め設定された数の登録文字を候補文字として抽出する。つまり、文字領域毎に複数の候補文字を含む候補文字群が生成される。   (S103) The word recognition unit 203 that cuts out the character area performs matching between each registered character and the character shape of the character area using the registered character template stored in the registered character database 201c, and recognizes each registered character. Calculate the cost. Further, the word recognition unit 203 extracts a preset number of registered characters as candidate characters in order from the lowest recognition cost. That is, a candidate character group including a plurality of candidate characters for each character region is generated.

(S104)候補文字群を生成した単語認識部203は、候補文字群に含まれる候補文字に基づいて単語データベース201bに記載された単語を検出する。但し、候補文字群に含まれる候補文字を組み合わせても単語データベース201bに記載された単語が検出されない場合、単語認識部203は、誤り文字列データベース201dを利用して候補文字群から単語を検出する。さらに、単語認識部203は、検出した単語が正しい単語認識結果であるか否かを検証する。なお、単語検出に係る処理の流れについては、後段において詳述する。   (S104) The word recognizing unit 203 that has generated the candidate character group detects a word described in the word database 201b based on the candidate character included in the candidate character group. However, if the word described in the word database 201b is not detected even if the candidate characters included in the candidate character group are combined, the word recognition unit 203 uses the error character string database 201d to detect the word from the candidate character group. . Further, the word recognition unit 203 verifies whether or not the detected word is a correct word recognition result. The flow of processing related to word detection will be described in detail later.

(S105)単語認識部203は、単語検出に成功したか否かを判定する。単語検出に成功した場合、処理はS107に進む。一方、単語検出に失敗した場合、処理はS106に進む。この場合、単語認識部203から単語認識に失敗した旨の情報が単語認識部203から情報送信部204に入力される。   (S105) The word recognition unit 203 determines whether or not the word detection is successful. If the word detection is successful, the process proceeds to S107. On the other hand, if the word detection fails, the process proceeds to S106. In this case, information indicating that word recognition has failed from the word recognition unit 203 is input from the word recognition unit 203 to the information transmission unit 204.

(S106)情報送信部204は、単語認識に失敗した旨を端末装置100に通知する。S106の処理が完了すると、図13に示した一連の処理は終了する。
(S107)情報送信部204は、単語認識部203から単語認識結果(単語)が入力された場合、入力された単語に対応する登録情報Aを情報データベース201aから抽出する。そして、情報送信部204は、情報データベース201aから抽出した登録情報Aを端末装置100に送信する。S107の処理が完了すると、図13に示した一連の処理は終了する。
(S106) The information transmission unit 204 notifies the terminal device 100 that word recognition has failed. When the process of S106 is completed, the series of processes illustrated in FIG.
(S107) When a word recognition result (word) is input from the word recognition unit 203, the information transmission unit 204 extracts registration information A corresponding to the input word from the information database 201a. Then, the information transmission unit 204 transmits the registration information A extracted from the information database 201a to the terminal device 100. When the process of S107 is completed, the series of processes shown in FIG.

(単語検出に係る処理の流れ)
ここで、図14及び図15を参照しながら、単語検出に係る処理の流れについて、さらに説明する。なお、図14及び図15に示した処理は、S104の処理に対応する。
(Flow of processing related to word detection)
Here, the flow of processing relating to word detection will be further described with reference to FIGS. 14 and 15. Note that the processing illustrated in FIGS. 14 and 15 corresponds to the processing of S104.

(S111)単語認識部203は、単語データベース201bに記載された単語を選択する。例えば、単語認識部203は、画像領域WAからM個(Mは2以上の自然数)の文字領域が切り出されている場合、M文字の単語を1つ選択する。このとき、単語認識部203は、図14及び図15に示した一連の処理において未選択の単語を選択する。   (S111) The word recognition unit 203 selects a word described in the word database 201b. For example, when M character areas (M is a natural number of 2 or more) are cut out from the image area WA, the word recognition unit 203 selects one word of M letters. At this time, the word recognition unit 203 selects an unselected word in the series of processes shown in FIGS.

(S112)単語認識部203は、画像領域WAから認識した文字の組み合わせ(候補文字群)の中から、S111で選択した単語を探索する。例えば、単語認識部203は、単語から第1文字目の文字を選択し、第1文字目の候補文字から、選択した第1文字目の文字を抽出する。同様に、単語認識部203は、第k文字目(k=2,…,M)の文字を選択し、第k文字目の候補文字から、選択した第k文字目の文字を抽出する。   (S112) The word recognition unit 203 searches for the word selected in S111 from the combination of characters (candidate character group) recognized from the image area WA. For example, the word recognition unit 203 selects the first character from the word, and extracts the selected first character from the first candidate character. Similarly, the word recognition unit 203 selects the kth character (k = 2,..., M), and extracts the selected kth character from the kth candidate character.

第1文字目〜第M文字目まで、全ての文字が候補文字群から抽出できた場合、単語認識部203は、S111で選択した単語が検出できたと判断する。一方、第1文字目〜第M文字目の中で、候補文字群から単語の文字が1つでも抽出できなかった場合、単語認識部203は、S111で選択した単語が検出できなかったと判断する。   When all characters from the first character to the M-th character can be extracted from the candidate character group, the word recognition unit 203 determines that the word selected in S111 has been detected. On the other hand, if even one character of the word cannot be extracted from the candidate character group among the first to Mth characters, the word recognition unit 203 determines that the word selected in S111 could not be detected. .

(S113)単語認識部203によりS112の処理で単語が検出された場合、処理はS120(図15を参照)に進む。一方、単語認識部203によりS112の処理で単語が検出されなかった場合、処理はS114に進む。   (S113) If the word recognition unit 203 detects a word in the process of S112, the process proceeds to S120 (see FIG. 15). On the other hand, if the word recognition unit 203 does not detect a word in the process of S112, the process proceeds to S114.

(S114)単語認識部203は、単語データベース201bに記載された全ての単語について処理が完了したか否かを判定する。単語データベース201bに記載された全ての単語について処理が完了した場合、処理はS115に進む。一方、単語データベース201bに記載された全ての単語について処理が完了していない場合、処理はS111に進む。例えば、画像領域WAからM個の文字領域が切り出されている場合に、S111の処理で選択されていないM文字の単語が存在する場合、処理はS111に進む。   (S114) The word recognition unit 203 determines whether or not the processing has been completed for all the words described in the word database 201b. If the processing is completed for all the words described in the word database 201b, the processing proceeds to S115. On the other hand, when the processing has not been completed for all the words described in the word database 201b, the process proceeds to S111. For example, when M character areas are cut out from the image area WA, if there are M character words not selected in the process of S111, the process proceeds to S111.

(S115)単語認識部203は、誤り文字列データベース201dに記載された誤り文字列を選択する。例えば、単語認識部203は、画像領域WAからM個の文字領域が切り出されている場合、M文字の誤り文字列を1つ選択する。このとき、単語認識部203は、図14及び図15に示した一連の処理において未選択の誤り文字列を選択する。   (S115) The word recognition unit 203 selects an error character string described in the error character string database 201d. For example, when M character areas are cut out from the image area WA, the word recognition unit 203 selects one error character string of M characters. At this time, the word recognition unit 203 selects an unselected error character string in the series of processes shown in FIGS.

(S116)単語認識部203は、画像領域WAから認識した文字の組み合わせ(候補文字群)の中から、S115で選択した誤り文字列を探索する。例えば、単語認識部203は、誤り文字列から第1文字目の文字を選択し、第1文字目の候補文字から、選択した第1文字目の文字を抽出する。同様に、単語認識部203は、第k文字目(k=2,…,M)の文字を選択し、第k文字目の候補文字から、選択した第k文字目の文字を抽出する。   (S116) The word recognizing unit 203 searches for the error character string selected in S115 from the combination of characters (candidate character group) recognized from the image area WA. For example, the word recognition unit 203 selects the first character from the erroneous character string, and extracts the selected first character from the first candidate character. Similarly, the word recognition unit 203 selects the kth character (k = 2,..., M), and extracts the selected kth character from the kth candidate character.

第1文字目〜第M文字目まで、全ての文字が候補文字群から抽出できた場合、単語認識部203は、S115で選択した誤り文字列が検出できたと判断する。一方、第1文字目〜第M文字目の中で、候補文字群から誤り文字列の文字が1つでも抽出できなかった場合、単語認識部203は、S115で選択した誤り文字列が検出できなかったと判断する。   If all characters from the first character to the Mth character can be extracted from the candidate character group, the word recognition unit 203 determines that the error character string selected in S115 has been detected. On the other hand, if even one character in the error character string cannot be extracted from the candidate character group among the first to Mth characters, the word recognition unit 203 can detect the error character string selected in S115. Judge that there was no.

(S117)単語認識部203によりS116の処理で誤り文字列が検出された場合、処理はS123(図15を参照)に進む。一方、単語認識部203によりS116の処理で誤り文字列が検出されなかった場合、処理はS118に進む。   (S117) If an error character string is detected by the word recognition unit 203 in the process of S116, the process proceeds to S123 (see FIG. 15). On the other hand, if no error character string is detected in the process of S116 by the word recognition unit 203, the process proceeds to S118.

(S118)単語認識部203は、誤り文字列データベース201dに記載された全ての誤り文字列について処理が完了したか否かを判定する。誤り文字列データベース201dに記載された全ての誤り文字列について処理が完了した場合、処理はS119に進む。一方、誤り文字列データベース201dに記載された全ての誤り文字列について処理が完了していない場合、処理はS115に進む。例えば、画像領域WAからM個の文字領域が切り出されている場合に、S115の処理で選択されていないM文字の誤り文字列が存在する場合、処理はS115に進む。   (S118) The word recognition unit 203 determines whether or not the processing has been completed for all error character strings described in the error character string database 201d. When the process is completed for all error character strings described in the error character string database 201d, the process proceeds to S119. On the other hand, if the processing has not been completed for all error character strings described in the error character string database 201d, the process proceeds to S115. For example, when M character areas are cut out from the image area WA, if there are M character error character strings not selected in the process of S115, the process proceeds to S115.

(S119)単語認識部203は、単語検出に失敗したと判断する。この場合、単語認識部203は、単語認識に失敗した旨を示す情報を情報送信部204に入力する。また、単語認識部203は、単語認識に失敗した旨を示す情報、及び画像領域WAから検出した候補文字群の情報をデータベース更新部205に入力する。正しい単語の情報が得られている場合、データベース更新部205は、誤り文字列データベース201dを更新する。S119の処理が完了すると、図14及び図15に示した一連の処理は終了する。   (S119) The word recognition unit 203 determines that word detection has failed. In this case, the word recognition unit 203 inputs information indicating that the word recognition has failed to the information transmission unit 204. In addition, the word recognition unit 203 inputs information indicating that word recognition has failed and information on candidate character groups detected from the image area WA to the database update unit 205. If correct word information is obtained, the database update unit 205 updates the error character string database 201d. When the process of S119 is completed, the series of processes shown in FIGS. 14 and 15 ends.

(S120)単語認識部203は、検出結果の検証処理を実行する。例えば、単語認識部203は、検出された単語に対応する候補文字群Yを単語データベース201bから抽出し、画像領域WAに対する文字認識結果(候補文字群X)と比較する。そして、単語認識部203は、2つの候補文字群X、Yに共通する共通候補文字の数をカウントする。共通候補文字の数が閾値よりも大きい場合、単語認識部203は、検出結果が正しいと判断する。一方、共通候補文字の数が閾値よりも小さい場合、単語認識部203は、検出結果が正しくないと判断する。   (S120) The word recognizing unit 203 executes detection result verification processing. For example, the word recognition unit 203 extracts the candidate character group Y corresponding to the detected word from the word database 201b and compares it with the character recognition result (candidate character group X) for the image area WA. The word recognition unit 203 counts the number of common candidate characters common to the two candidate character groups X and Y. If the number of common candidate characters is greater than the threshold, the word recognition unit 203 determines that the detection result is correct. On the other hand, when the number of common candidate characters is smaller than the threshold, the word recognition unit 203 determines that the detection result is not correct.

(S121)S120の処理で検出結果が正しいと判断された場合、処理はS122に進む。一方、S120の処理で検出結果が正しくないと判断された場合、処理はS115(図14を参照)に進む。   (S121) If it is determined in step S120 that the detection result is correct, the process proceeds to step S122. On the other hand, if it is determined in S120 that the detection result is not correct, the process proceeds to S115 (see FIG. 14).

(S122)単語認識部203は、単語検出に成功したと判断する。S122の処理が完了すると、図14及び図15に示した一連の処理は終了する。なお、単語データベース201bに記載された単語が検出された時点で、その検出結果を信頼し、検証処理を省略する仕組みとする場合、S120、S121の処理を省略してもよい。この省略により単語認識に係る処理負荷が低減される。   (S122) The word recognition unit 203 determines that the word detection has succeeded. When the process of S122 is completed, the series of processes shown in FIGS. 14 and 15 ends. Note that when a word described in the word database 201b is detected and the detection result is trusted and the verification process is omitted, the processes of S120 and S121 may be omitted. This omission reduces the processing load associated with word recognition.

(S123)単語認識部203は、検出結果の検証処理を実行する。例えば、単語認識部203は、検出された誤り文字列に対応する候補文字群Zを誤り文字列データベース201dから抽出し、画像領域WAに対する文字認識結果(候補文字群X)と比較する。そして、単語認識部203は、2つの候補文字群X、Zに共通する共通候補文字の数をカウントする。共通候補文字の数が閾値よりも大きい場合、単語認識部203は、検出結果が正しいと判断する。一方、共通候補文字の数が閾値よりも小さい場合、単語認識部203は、検出結果が正しくないと判断する。   (S123) The word recognizing unit 203 executes detection result verification processing. For example, the word recognition unit 203 extracts the candidate character group Z corresponding to the detected error character string from the error character string database 201d, and compares it with the character recognition result (candidate character group X) for the image area WA. Then, the word recognition unit 203 counts the number of common candidate characters common to the two candidate character groups X and Z. If the number of common candidate characters is greater than the threshold, the word recognition unit 203 determines that the detection result is correct. On the other hand, when the number of common candidate characters is smaller than the threshold, the word recognition unit 203 determines that the detection result is not correct.

(S124)S123の処理で検出結果が正しいと判断された場合、処理はS122に進む。一方、S123の処理で検出結果が正しくないと判断された場合、処理はS119(図14を参照)に進む。   (S124) If it is determined in the process of S123 that the detection result is correct, the process proceeds to S122. On the other hand, if it is determined in S123 that the detection result is not correct, the process proceeds to S119 (see FIG. 14).

(検証処理の流れ)
ここで、図16を参照しながら、検出結果の検証に係る処理の流れについて、さらに説明する。なお、図16に示した処理は、S123の処理に対応する。
(Verification process flow)
Here, with reference to FIG. 16, the flow of processing relating to verification of detection results will be further described. The process illustrated in FIG. 16 corresponds to the process of S123.

(S131)単語認識部203は、検出結果に対応する候補文字群を取得する。例えば、文字認識時に生成した候補文字群Xから、単語データベース201bに記載の単語が検出された場合、単語認識部203は、検出した単語に対応する候補文字群Yを単語データベース201bから取得する。また、候補文字群Xから、誤り文字列データベース201dに記載の誤り文字列が検出された場合、単語認識部203は、検出した誤り文字列に対応する候補文字群Zを誤り文字列データベース201dから取得する。   (S131) The word recognition unit 203 acquires a candidate character group corresponding to the detection result. For example, when a word described in the word database 201b is detected from the candidate character group X generated at the time of character recognition, the word recognition unit 203 acquires a candidate character group Y corresponding to the detected word from the word database 201b. When the error character string described in the error character string database 201d is detected from the candidate character group X, the word recognition unit 203 extracts the candidate character group Z corresponding to the detected error character string from the error character string database 201d. get.

(S132)単語認識部203は、S131で取得した候補文字群と、文字認識時に生成した候補文字群とを比較する。そして、単語認識部203は、比較対象とする2つの候補文字群に共通する共通候補文字の数をカウントする。   (S132) The word recognition unit 203 compares the candidate character group acquired in S131 with the candidate character group generated at the time of character recognition. Then, the word recognizing unit 203 counts the number of common candidate characters common to the two candidate character groups to be compared.

(S133)単語認識部203は、カウントした共通候補文字の文字数が閾値よりも大きいか否かを判定する。共通する候補文字の文字数が閾値よりも大きい場合、処理はS134に進む。一方、共通する候補文字の文字数が閾値よりも大きくない場合、処理はS135に進む。なお、閾値は予め設定された値であり、例えば、考慮する候補文字の数などに応じて設定される。   (S133) The word recognition unit 203 determines whether or not the counted number of common candidate characters is greater than a threshold value. If the number of common candidate characters is greater than the threshold, the process proceeds to S134. On the other hand, if the number of common candidate characters is not greater than the threshold, the process proceeds to S135. The threshold value is a preset value, and is set according to, for example, the number of candidate characters to be considered.

(S134)単語認識部203は、検出結果が正しいと判断する。S134の処理が完了すると、図16に示した一連の処理は終了する。
(S135)単語認識部203は、検出結果が正しくないと判断する。S135の処理が完了すると、図16に示した一連の処理は終了する。
(S134) The word recognition unit 203 determines that the detection result is correct. When the process of S134 is completed, the series of processes illustrated in FIG.
(S135) The word recognition unit 203 determines that the detection result is not correct. When the process of S135 is completed, the series of processes illustrated in FIG.

(変形例:コストを考慮した検証方法)
ここで、図17〜図19を参照しながら、コストを考慮した検証方法に係る処理の流れについて説明する。図17は、第2実施形態の一変形例に係る検証方法について説明するための第1の図である。図18は、第2実施形態の一変形例に係る検証方法について説明するための第2の図である。図19は、第2実施形態の一変形例に係る検証方法について説明するための第3の図である。
(Modification: Verification method considering cost)
Here, the flow of processing according to the verification method in consideration of the cost will be described with reference to FIGS. FIG. 17 is a first diagram for describing a verification method according to a modification of the second embodiment. FIG. 18 is a second diagram for explaining a verification method according to a modification of the second embodiment. FIG. 19 is a third diagram for describing a verification method according to a modification of the second embodiment.

(評価値Pの計算について)
これまで、共通候補文字の数を閾値と比較し、その比較結果に応じて検出結果の正否を判定する方法について説明してきた。ここでは、コストを考慮した検証方法を提案する。図17に示すように、本変形例では共通候補文字のコストに注目し、共通候補文字のコストに基づく評価値Pを用いて検証を行う方法を紹介する。
(About calculation of evaluation value P)
So far, a method has been described in which the number of common candidate characters is compared with a threshold value, and the correctness of the detection result is determined according to the comparison result. Here, a verification method considering cost is proposed. As shown in FIG. 17, this modification introduces a method of paying attention to the cost of a common candidate character and performing verification using an evaluation value P based on the cost of the common candidate character.

評価値Pは、下記の式(1)により定義される。評価値Pは、単語(又は誤り文字列)毎に計算した共通候補文字1つあたりの距離の平均値に重みを考慮した値である。この中で、Mは、単語(又は誤り文字列)に含まれる文字の数である。Nは、単語(又は誤り文字列)の1文字に対応する候補文字の数である。Cは、重み値である。Cの値は、例えば、実験結果などに基づいて予め決められる値である。   The evaluation value P is defined by the following formula (1). The evaluation value P is a value in which a weight is considered in the average value of the distances per common candidate character calculated for each word (or error character string). In this, M is the number of characters included in the word (or error character string). N is the number of candidate characters corresponding to one character of a word (or error character string). C is a weight value. The value of C is a value determined in advance based on, for example, experimental results.

ij及びdijは、単語(又は誤り文字列)に含まれる第i番目の文字に対応する共通候補文字のうち、第j番目の共通候補文字に対応するコストである。但し、Dijは、単語データベース201b(又は誤り文字列データベース201d)に記載のコストである。また、dijは、文字認識結果として得たコストである。niは、単語(又は誤り文字列)に含まれる第i番目の文字に対応する共通候補文字の数である。 D ij and d ij are costs corresponding to the j-th common candidate character among the common candidate characters corresponding to the i-th character included in the word (or error character string). However, D ij is the cost described in the word database 201b (or error character string database 201d). D ij is a cost obtained as a result of character recognition. n i is the number of common candidate characters corresponding to the i-th character included in the word (or error character string).

Figure 2015045984
図17の例では、誤り文字列データベース201dから得た候補文字毎のコストと、文字認識結果のコストとに基づいて計算した評価値Pは111となる。一方、単語データベース201bから得た候補文字毎のコストと、文字認識結果のコストとに基づいて計算した評価値Pは778となる。
Figure 2015045984
In the example of FIG. 17, the evaluation value P calculated based on the cost for each candidate character obtained from the error character string database 201d and the cost of the character recognition result is 111. On the other hand, the evaluation value P calculated based on the cost for each candidate character obtained from the word database 201b and the cost of the character recognition result is 778.

単語認識部203は、評価値Pが閾値T(図17の例ではT=500)より小さいか否かを判定する。図17の例では、誤り文字列に基づく検出結果の評価値Pが閾値Tより小さく、単語に基づく検出結果の評価値Pが閾値Tより大きい。この場合、単語認識部203は、誤り文字列「雪土国」に対応する単語「富士園」を単語認識結果とする。   The word recognition unit 203 determines whether or not the evaluation value P is smaller than a threshold value T (T = 500 in the example of FIG. 17). In the example of FIG. 17, the evaluation value P of the detection result based on the error character string is smaller than the threshold T, and the evaluation value P of the detection result based on the word is larger than the threshold T. In this case, the word recognizing unit 203 sets the word “Fujien” corresponding to the error character string “snow country” as the word recognition result.

(検証処理の流れについて)
ここで、図18及び図19を参照しながら、検出結果の検証に係る処理の流れについて、さらに説明する。なお、図18及び図19に示した処理は、S123の処理に対応する。
(About the flow of verification processing)
Here, with reference to FIGS. 18 and 19, the flow of processing related to verification of detection results will be further described. Note that the processing illustrated in FIGS. 18 and 19 corresponds to the processing of S123.

なお、説明の都合上、文字認識時に生成した候補文字群Xから、誤り文字列データベース201dに記載の誤り文字列が検出され、その検出結果を検証する場合を例に説明を進める。但し、文字認識時に生成した候補文字群Xから、単語データベース201bに記載の単語が検出され、その検出結果を検証する場合も同様である。この場合、誤り文字列データベース201dを単語データベース201bに読み替えればよい。   For convenience of explanation, an explanation will be given by taking as an example a case where an error character string described in the error character string database 201d is detected from the candidate character group X generated at the time of character recognition and the detection result is verified. However, the same applies to the case where a word described in the word database 201b is detected from the candidate character group X generated at the time of character recognition and the detection result is verified. In this case, the error character string database 201d may be replaced with the word database 201b.

(S141)単語認識部203は、検出結果に対応する候補文字群(候補文字群Z)を誤り文字列データベース201dから取得する。
(S142)単語認識部203は、インデックスKを1に初期化する。
(S141) The word recognition unit 203 acquires a candidate character group (candidate character group Z) corresponding to the detection result from the error character string database 201d.
(S142) The word recognition unit 203 initializes the index K to 1.

(S143)単語認識部203は、候補文字群Xから、単語(又は誤り文字列)のK文字目に対応する共通候補文字の文字群(以下、候補A)を抽出する。
(S144)単語認識部203は、S141の処理で取得した候補文字群Zから、単語(又は誤り文字列)のK文字目に対応する共通候補文字の文字群(以下、候補B)を選択する。
(S143) The word recognition unit 203 extracts, from the candidate character group X, a character group (hereinafter, candidate A) of common candidate characters corresponding to the K character of the word (or error character string).
(S144) The word recognition unit 203 selects a character group (hereinafter, candidate B) of common candidate characters corresponding to the K character of the word (or error character string) from the candidate character group Z acquired in the process of S141. .

(S145)単語認識部203は、候補Aから候補文字を1つ選択する。このとき、単語認識部203は、図18及び図19に示した一連の処理の中で未選択の候補文字を選択する。   (S145) The word recognition unit 203 selects one candidate character from the candidate A. At this time, the word recognizing unit 203 selects an unselected candidate character in the series of processes shown in FIGS.

(S146)単語認識部203は、S145の処理で選択した候補文字が候補Bに存在するか否かを判定する。S145の処理で選択した候補文字が候補Bに存在する場合、処理はS147に進む。一方、S145の処理で選択した候補文字が候補Bに存在しない場合、処理はS149に進む。   (S146) The word recognition unit 203 determines whether the candidate character selected in the process of S145 exists in the candidate B. If the candidate character selected in the process of S145 exists in candidate B, the process proceeds to S147. On the other hand, if the candidate character selected in the process of S145 does not exist in candidate B, the process proceeds to S149.

(S147)単語認識部203は、候補A、Bに共通して存在する候補文字についてコストの差を計算する。まず、単語認識部203は、S145の処理で選択した候補Aの候補文字に対応するコストを誤り文字列データベース201dから取得する。次いで、単語認識部203は、候補Aの候補文字に対応する候補Bの候補文字について文字認識時に算出したコストと、誤り文字列データベース201dから取得したコストとの差の絶対値を計算する。   (S147) The word recognizing unit 203 calculates a cost difference for candidate characters that exist in common with the candidates A and B. First, the word recognition unit 203 acquires the cost corresponding to the candidate character of candidate A selected in the process of S145 from the error character string database 201d. Next, the word recognizing unit 203 calculates the absolute value of the difference between the cost calculated at the time of character recognition for the candidate character of candidate B corresponding to the candidate character of candidate A and the cost acquired from the error character string database 201d.

(S148)単語認識部203は、S147の処理で計算したコストの差の絶対値を値Q(Qの初期値は0)に加算する。S148の処理が完了すると、処理はS150に進む。   (S148) The word recognition unit 203 adds the absolute value of the cost difference calculated in the process of S147 to the value Q (the initial value of Q is 0). When the process of S148 is completed, the process proceeds to S150.

(S149)単語認識部203は、定数Cを値Qに加算する。定数Cは、上記の式(1)に含まれる値Cと同じである。S149の処理が完了すると、処理はS150に進む。
(S150)単語認識部203は、候補Aに含まれる全ての候補文字をS145の処理で選択したか否かを判定する。候補Aに含まれる全ての候補文字が選択されている場合、処理はS151(図19を参照)に進む。一方、候補Aに含まれる未選択の候補文字が存在する場合、処理はS145に進む。
(S149) The word recognition unit 203 adds the constant C to the value Q. The constant C is the same as the value C included in the above equation (1). When the process of S149 is completed, the process proceeds to S150.
(S150) The word recognition unit 203 determines whether or not all candidate characters included in the candidate A are selected in the process of S145. If all candidate characters included in candidate A have been selected, the process proceeds to S151 (see FIG. 19). On the other hand, if there is an unselected candidate character included in candidate A, the process proceeds to S145.

(S151)単語認識部203は、インデックスKが誤り文字列の文字数Mよりも小さいか否かを判定する。インデックスKが誤り文字列の文字数Mよりも小さい場合(K<Mの場合)、処理はS152に進む。一方、インデックスKが誤り文字列の文字数Mよりも小さくない場合(K=Mの場合)、処理はS153に進む。   (S151) The word recognition unit 203 determines whether or not the index K is smaller than the number M of characters in the error character string. When the index K is smaller than the number M of characters in the error character string (when K <M), the process proceeds to S152. On the other hand, when the index K is not smaller than the number M of characters in the error character string (when K = M), the process proceeds to S153.

(S152)単語認識部203は、インデックスKを1増加させる。S152の処理が完了すると、処理はS143(図18を参照)に進む。
(S153)単語認識部203は、1文字あたりの値Q(評価値P)を計算する。つまり、単語認識部203は、値Qを文字数で割った平均値を評価値Pとする。
(S152) The word recognition unit 203 increments the index K by one. When the process of S152 is completed, the process proceeds to S143 (see FIG. 18).
(S153) The word recognition unit 203 calculates a value Q (evaluation value P) per character. That is, the word recognition unit 203 sets the average value obtained by dividing the value Q by the number of characters as the evaluation value P.

(S154)単語認識部203は、評価値Pが閾値Tよりも小さいか否かを判定する。評価値Pが閾値Tよりも小さい場合(P<T)、処理はS155に進む。一方、評価値Pが閾値Tよりも小さくない場合(P≧T)、処理はS156に進む。   (S154) The word recognition unit 203 determines whether or not the evaluation value P is smaller than the threshold value T. When the evaluation value P is smaller than the threshold value T (P <T), the process proceeds to S155. On the other hand, when the evaluation value P is not smaller than the threshold value T (P ≧ T), the process proceeds to S156.

(S155)単語認識部203は、検出結果が正しいと判断する。S155の処理が完了すると、図18及び図19に示した一連の処理は終了する。
(S156)単語認識部203は、検出結果が正しくないと判断する。S156の処理が完了すると、図18及び図19に示した一連の処理は終了する。
(S155) The word recognition unit 203 determines that the detection result is correct. When the process of S155 is completed, the series of processes shown in FIGS. 18 and 19 ends.
(S156) The word recognition unit 203 determines that the detection result is not correct. When the process of S156 is completed, the series of processes shown in FIGS. 18 and 19 ends.

以上、サーバ装置200が実行する単語認識処理の流れについて説明した。
[2−6.更新処理について]
次に、図20〜図22を参照しながら、誤り文字列データベース201dの更新処理について、さらに説明する。図20は、第2実施形態に係る誤り文字データベースの更新処理の流れを示した第1の図である。図21は、第2実施形態に係る誤り文字データベースの更新処理の流れを示した第2の図である。図22は、第2実施形態に係る誤り文字データベースの更新処理の流れを示した第3の図である。
The flow of word recognition processing executed by the server device 200 has been described above.
[2-6. About update processing]
Next, the update process of the error character string database 201d will be further described with reference to FIGS. FIG. 20 is a first diagram showing a flow of update processing of the error character database according to the second embodiment. FIG. 21 is a second diagram showing a flow of update processing of the error character database according to the second embodiment. FIG. 22 is a third diagram showing a flow of update processing of the error character database according to the second embodiment.

(全体的な処理の流れ)
まず、図20を参照しながら、全体的な処理の流れについて説明する。なお、以下に示す処理は、主にデータベース更新部205により実行される。
(Overall processing flow)
First, the overall processing flow will be described with reference to FIG. Note that the processing shown below is mainly executed by the database update unit 205.

(S161)データベース更新部205は、単語認識部203により、文字認識時に生成された候補文字群の中から単語データベース201bに記載された単語が検出されたか否かを判定する。単語が検出された場合、図20に示した一連の処理は終了する。一方、単語が検出されなかった場合、処理はS162に進む。例えば、候補文字群の中から誤り文字列が検出され、その誤り文字列に対応する単語が単語認識結果とされた場合、処理はS162に進む。   (S161) The database update unit 205 determines whether or not the word recognition unit 203 has detected a word described in the word database 201b from the candidate character group generated during character recognition. When a word is detected, a series of processes shown in FIG. On the other hand, if no word is detected, the process proceeds to S162. For example, when an error character string is detected from the candidate character group and a word corresponding to the error character string is set as the word recognition result, the process proceeds to S162.

(S162)データベース更新部205は、単語認識部203により、文字認識時に生成された候補文字群の中から誤り文字列データベース201dに記載された誤り文字列が検出されたか否かを判定する。誤り文字列が検出された場合、処理はS163に進む。一方、誤り文字列が検出されていない場合、処理はS164に進む。   (S162) The database update unit 205 determines whether or not the word recognition unit 203 has detected an error character string described in the error character string database 201d from the candidate character group generated during character recognition. If an error character string is detected, the process proceeds to S163. On the other hand, if an error character string has not been detected, the process proceeds to S164.

(S163)データベース更新部205は、文字認識時に生成された候補文字群に基づいて誤り文字列データベース201dを更新する。この場合、候補文字群から生成した誤り文字列が誤り文字列データベース201dに既に存在する。そこで、データベース更新部205は、例えば、文字認識時に計算した候補文字のコストを利用し、共通候補文字に関する誤り文字列データベース201dに記載のコストを更新する。S163の処理が完了すると、図20に示した一連の処理は終了する。   (S163) The database update unit 205 updates the error character string database 201d based on the candidate character group generated during character recognition. In this case, the error character string generated from the candidate character group already exists in the error character string database 201d. Therefore, for example, the database update unit 205 updates the cost described in the error character string database 201d regarding the common candidate character by using the cost of the candidate character calculated at the time of character recognition. When the process of S163 is completed, the series of processes illustrated in FIG.

(S164)データベース更新部205は、単語認識の対象とした写真PTについて、正解の単語が通知されたか否かを判定する。正解の単語が通知された場合、処理はS165に進む。例えば、端末装置100から正解の単語が通知された場合や、サーバ装置200に正解の単語が入力された場合、処理はS165に進む。一方、正解の単語が通知されない場合、図20に示した一連の処理は終了する。   (S164) The database update unit 205 determines whether or not a correct word has been notified for the photo PT that is the target of word recognition. If the correct word is notified, the process proceeds to S165. For example, when a correct word is notified from the terminal device 100 or when a correct word is input to the server device 200, the process proceeds to S165. On the other hand, when the correct word is not notified, the series of processes shown in FIG. 20 ends.

(S165)データベース更新部205は、文字認識時に生成された候補文字群に基づいて誤り文字列を生成し、生成した誤り文字列と候補文字群とを対応付けて誤り文字列データベース201dに追加する。S165の処理が完了すると、図20に示した一連の処理は終了する。   (S165) The database update unit 205 generates an error character string based on the candidate character group generated at the time of character recognition, associates the generated error character string with the candidate character group, and adds them to the error character string database 201d. . When the process of S165 is completed, the series of processes illustrated in FIG.

(更新処理について)
ここで、図21を参照しながら、更新処理について、さらに説明する。図21に示した処理は、S163の処理に対応する。
(About update processing)
Here, the update process will be further described with reference to FIG. The process illustrated in FIG. 21 corresponds to the process of S163.

(S171)データベース更新部205は、文字認識時に生成された候補文字群Xと、誤り文字列データベース201dに記載された候補文字群Zとについて、対応する候補文字間におけるコストの重み付け平均値を計算する。但し、候補文字群Zは、候補文字群Xから検出された誤り文字列に対応する候補文字群である。また、2つの候補文字群X、Zに共通する候補文字を共通候補文字と呼ぶ。   (S171) The database updating unit 205 calculates a weighted average value of the cost between corresponding candidate characters for the candidate character group X generated at the time of character recognition and the candidate character group Z described in the error character string database 201d. To do. However, the candidate character group Z is a candidate character group corresponding to an error character string detected from the candidate character group X. A candidate character common to the two candidate character groups X and Z is called a common candidate character.

誤り文字列に含まれるi番目の文字に対応する候補文字群Xの候補文字のうち、j番目の共通候補文字に対応するコストをcijと表記する。また、誤り文字列に含まれるi番目の文字に対応する候補文字群Zの候補文字のうち、j番目の共通候補文字に対応するコストをCijと表記する。また、重みw1、w2を定義する。重みw1、w2は、例えば、「w1=0.75」、「w2=0.25」などと設定される。但し、「w1+w2=1」である。データベース更新部205は、取り得る全てのi、jについて、下記の式(2)により更新後のコストCrijを計算する。 Of the candidate characters in the candidate character group X corresponding to the i-th character included in the error character string, the cost corresponding to the j-th common candidate character is denoted as c ij . Also, the cost corresponding to the j-th common candidate character among the candidate characters of the candidate character group Z corresponding to the i-th character included in the error character string is denoted as C ij . Also, weights w 1 and w 2 are defined. The weights w 1 and w 2 are set, for example, as “w 1 = 0.75”, “w 2 = 0.25”, and the like. However, “w 1 + w 2 = 1”. The database update unit 205 calculates the updated cost Cr ij for all possible i and j by the following equation (2).

Crij=w1・Cij + w2・cij
…(2)
(S172)データベース更新部205は、誤り文字列データベース201dに記載のコストを、S171の処理で計算した重み付け平均値(更新後のコスト)Crijに置換する。つまり、データベース更新部205は、誤り文字列に含まれるi番目の文字に対応する候補文字群Zの候補文字のうち、j番目の共通候補文字に対応するコストCijを重み付け平均値Crijに置き換える。なお、データベース更新部205は、取り得る全てのi、jについてコストCijの置き換え処理を実行する。
Cr ij = w 1 · C ij + w 2 · c ij
... (2)
(S172) a database updating unit 205 replaces the costs according to the error string database 201d, the weighted average value calculated in the processing of S171 (the cost of the updated) Cr ij. That is, the database update unit 205 sets the cost C ij corresponding to the j-th common candidate character among the candidate characters of the candidate character group Z corresponding to the i-th character included in the error character string as the weighted average value Cr ij . replace. Note that the database update unit 205 executes cost C ij replacement processing for all possible i and j.

(S173)データベース更新部205は、置換後のコストに基づいて誤り文字列データベース201dのレコードをソートし直す。つまり、候補文字の候補順位が更新される。また、最上位の候補文字が変更された場合、データベース更新部205は、最上位の候補文字を組み合わせた誤り文字列を生成する。そして、データベース更新部205は、生成した誤り文字列で、誤り文字列データベース201dに記載されていた誤り文字列を更新する。S173の処理が完了すると、図21に示した一連の処理は終了する。   (S173) The database update unit 205 re-sorts the records in the error character string database 201d based on the cost after replacement. That is, the candidate character candidate rank is updated. When the highest candidate character is changed, the database update unit 205 generates an error character string in which the highest candidate character is combined. Then, the database update unit 205 updates the error character string described in the error character string database 201d with the generated error character string. When the process of S173 is completed, the series of processes illustrated in FIG.

(追加処理について)
ここで、図22を参照しながら、追加処理について、さらに説明する。図22に示した処理は、S165の処理に対応する。
(About additional processing)
Here, the additional processing will be further described with reference to FIG. The process illustrated in FIG. 22 corresponds to the process of S165.

(S181)データベース更新部205は、文字認識時に生成された候補文字群Xの最上位に位置する候補文字を組み合わせて誤り文字列を生成する。
(S182)データベース更新部205は、誤り文字列及び候補文字群を正解の単語に対応付けたレコードを誤り文字列データベース201dに記録する。
(S181) The database update unit 205 generates an error character string by combining candidate characters positioned at the top of the candidate character group X generated during character recognition.
(S182) The database update unit 205 records a record in which the error character string and the candidate character group are associated with the correct word in the error character string database 201d.

(S183)データベース更新部205は、正解の単語に対応する誤り文字列の数を1増加させる。例えば、図8に例示した誤り文字列データベース201dの場合、単語「富士園」には2つの誤り文字列「蔦企国」及び「雪土国」が対応付けられ、誤り文字列数が2となっている。この単語「富士園」に新たな誤り文字列「賃圭圓」が追加された場合、誤り文字列の欄に「賃圭圓」が追加され、対応する候補文字群が追加され、誤り文字数が3に更新される。S183の処理が完了すると、図22に示した一連の処理は終了する。   (S183) The database update unit 205 increments the number of error character strings corresponding to the correct word by one. For example, in the case of the error character string database 201d illustrated in FIG. It has become. When a new error character string “Wage” is added to the word “Fujien”, “Wage” is added to the error character string column, the corresponding candidate character group is added, and the number of error characters is reduced. Updated to 3. When the process of S183 is completed, the series of processes illustrated in FIG.

以上、誤り文字列データベース201dの更新処理について説明した。
以上、第2実施形態について説明した。
以上説明したように、第2実施形態に係る単語認識方法は、候補文字群を利用した検証処理を含む。この検証処理は、単語認識の結果、いずれの画像からも正しい単語が検出されない場合でも、同じ単語を含む画像であれば、同じ傾向をもった候補文字の集合が得られるという性質を利用している。認識スコアや認識コストなどの指標値を利用して単語認識を行うシステムの場合、単語認識の過程で候補文字群が得られる。そのため、検証には既に得られた候補文字群を利用すればよく、検証処理に伴う負荷の増加も少ない。
The update process of the error character string database 201d has been described above.
The second embodiment has been described above.
As described above, the word recognition method according to the second embodiment includes the verification process using the candidate character group. This verification process uses the property that even if the correct word is not detected from any image as a result of word recognition, a set of candidate characters having the same tendency can be obtained if the image includes the same word. Yes. In the case of a system that performs word recognition using index values such as a recognition score and a recognition cost, a candidate character group is obtained in the process of word recognition. For this reason, the already obtained candidate character group may be used for the verification, and the increase in the load accompanying the verification process is small.

第2実施形態では、検出された単語を候補文字群により検証する方法と、誤り文字列に基づいて検出された単語を候補文字群により検証する方法とを提案した。誤り文字列を利用することで、デザイン文字で記載された単語など、認識に失敗しやすい単語の検出が可能になる。一方、誤り文字列を利用した単語認識を適用する場合、誤った単語が検出されるリスクが高い。しかし、第2実施形態の方法を適用すれば、単語の誤検出を減らして認識精度を向上させることができ、誤り文字列を利用した単語認識の実用性が向上する。   In the second embodiment, a method for verifying a detected word with a candidate character group and a method for verifying a word detected based on an error character string with a candidate character group have been proposed. By using an error character string, it is possible to detect words that are likely to fail in recognition, such as words written in design characters. On the other hand, when applying word recognition using an error character string, there is a high risk that an incorrect word will be detected. However, if the method of the second embodiment is applied, the recognition accuracy can be improved by reducing erroneous detection of words, and the practicality of word recognition using an error character string is improved.

このように、第2実施形態によれば、負荷の増大を抑制しつつ、単語の認識精度を向上させることができる。その結果、特殊なフォントの文字やデザイン文字などを含む単語が記載された看板やポスターなどをユーザが撮影すると、その写真から自動認識された単語に基づく登録情報Aがユーザに提供されるというサービスが提供可能になる。もちろん、第2実施形態に係る技術を、手書き文書や印刷物から単語を認識するシステムに適用することも可能であり、このようなシステムに適用した場合でも認識率の向上効果が期待できる。   Thus, according to the second embodiment, it is possible to improve word recognition accuracy while suppressing an increase in load. As a result, when the user takes a picture of a signboard or poster on which a word including special font characters or design characters is written, registration information A based on the word automatically recognized from the photograph is provided to the user. Can be provided. Of course, the technology according to the second embodiment can also be applied to a system that recognizes words from handwritten documents or printed materials, and even when applied to such a system, an effect of improving the recognition rate can be expected.

以上、添付図面を参照しながら好適な実施形態について説明したが、本発明は係る例に限定されない。当業者であれば、特許請求の範囲に記載された範疇内において、様々な変形例や修正例に想到し得ることは明らかであり、こうした変形例や修正例についても当然に本開示の技術的範囲に属することは言うまでもない。   As mentioned above, although preferred embodiment was described referring an accompanying drawing, this invention is not limited to the example which concerns. It is obvious for those skilled in the art that various variations and modifications can be conceived within the scope of the claims, and such variations and modifications are naturally also included in the technical scope of the present disclosure. It goes without saying that it belongs to a range.

10 情報処理装置
11 記憶部
12 演算部
CG 文字群
G1 第1集合
G2 第2集合
L1 第1文字列
P1 第1画像
P2 第2画像
DESCRIPTION OF SYMBOLS 10 Information processing apparatus 11 Memory | storage part 12 Calculation part CG Character group G1 1st set G2 2nd set L1 1st character string P1 1st image P2 2nd image

Claims (8)

設定した文字群の文字で表現される複数の第1文字列と、前記複数の第1文字列のそれぞれについて、前記第1文字列を含む第1画像から切り出される文字部分の形状と類似する前記文字群の文字を集めた第1集合と、が対応付けて格納される記憶部と、
第2画像から切り出される文字部分の形状と類似する前記文字群の文字を集めた第2集合を生成し、前記第2集合に基づいて前記第1文字列を選択し、選択した前記第1文字列に対応する前記第1集合と前記第2集合との違いを表す評価値を計算し、設定した閾値より前記評価値が小さい場合に、選択した前記第1文字列を認識結果とする演算部と、
を有する、情報処理装置。
The plurality of first character strings expressed by the characters of the set character group and the shape of the character part cut out from the first image including the first character string for each of the plurality of first character strings A storage unit that stores a first set of characters of a character group in association with each other;
Generating a second set of characters of the character group similar to the shape of the character portion cut out from the second image, selecting the first character string based on the second set, and selecting the selected first character An arithmetic unit that calculates an evaluation value representing a difference between the first set and the second set corresponding to a column, and uses the selected first character string as a recognition result when the evaluation value is smaller than a set threshold value When,
An information processing apparatus.
前記演算部は、前記第1集合と前記第2集合とに共通して含まれる前記文字の個数が小さいほど値が大きくなる指標値を前記評価値として利用する
請求項1に記載の情報処理装置。
The information processing apparatus according to claim 1, wherein the arithmetic unit uses an index value that increases as the number of the characters included in common in the first set and the second set decreases as the evaluation value. .
前記記憶部には、前記第1集合に含まれる前記文字、及び当該文字と前記第1画像から切り出される文字部分の形状との類似度を表す第1指標値が対応付けて格納され、
前記演算部は、前記第2集合に含まれる前記文字と前記第2画像から切り出される文字部分の形状との類似度を表す第2指標値を計算し、前記第1集合と前記第2集合とに共通して含まれる前記文字について前記第1指標値と前記第2指標値との差を計算し、前記差の大きさを前記評価値として利用する
請求項1に記載の情報処理装置。
The storage unit stores the character included in the first set, and a first index value representing the similarity between the character and the shape of the character part cut out from the first image,
The computing unit calculates a second index value representing the similarity between the character included in the second set and the shape of the character portion cut out from the second image, and the first set, the second set, The information processing apparatus according to claim 1, wherein a difference between the first index value and the second index value is calculated for the characters included in common, and the magnitude of the difference is used as the evaluation value.
前記第1集合には、前記第1画像から切り出される文字部分の形状との間の類似度が大きい順に前記文字群の中から抽出された所定数の前記文字が含まれ、
前記第2集合には、前記第2画像から切り出される文字部分の形状との間の類似度が大きい順に前記文字群の中から抽出された前記所定数の前記文字が含まれる
請求項1〜3のいずれか1項に記載の情報処理装置。
The first set includes a predetermined number of the characters extracted from the character group in descending order of similarity with the shape of the character portion cut out from the first image,
The second set includes the predetermined number of characters extracted from the character group in descending order of similarity with the shape of a character portion cut out from the second image. The information processing apparatus according to any one of the above.
前記記憶部には、前記第1文字列の各文字に対応する前記文字部分の形状について、前記第1集合に含まれる前記文字の中で前記類似度が最大となる前記文字を組み合わせた第2文字列と、当該第1集合に対応する前記第1文字列と、が対応付けて格納され、
前記演算部は、
前記第2集合に基づいて前記第1文字列を選択する際に、前記第2集合に含まれる前記文字を組み合わせて前記第1文字列が得られる場合には当該第1文字列を選択し、
前記第2集合に含まれる前記文字を組み合わせて前記第1文字列が得られず、前記第2文字列が得られる場合には当該第2文字列に対応する前記第1文字列を選択する
請求項4に記載の情報処理装置。
The storage unit includes a second combination of the characters having the maximum similarity among the characters included in the first set with respect to the shape of the character portion corresponding to each character of the first character string. A character string and the first character string corresponding to the first set are stored in association with each other,
The computing unit is
When selecting the first character string based on the second set, if the first character string is obtained by combining the characters included in the second set, select the first character string,
The first character string corresponding to the second character string is selected when the first character string is not obtained by combining the characters included in the second set and the second character string is obtained. Item 5. The information processing apparatus according to Item 4.
前記演算部は、前記第1文字列を含む前記第2画像について、前記第2集合に含まれる前記文字を組み合わせて前記第1文字列及び前記第2文字列のいずれも得られない場合、当該第1文字列に対応する前記第1集合に当該第2集合の前記文字を追加する
請求項5に記載の情報処理装置。
The arithmetic unit, for the second image including the first character string, when neither the first character string nor the second character string is obtained by combining the characters included in the second set, The information processing apparatus according to claim 5, wherein the character of the second set is added to the first set corresponding to the first character string.
記憶部にアクセス可能なコンピュータが、
設定した文字群の文字で表現される複数の文字列と、前記複数の文字列のそれぞれについて、前記文字列を含む第1画像から切り出される文字部分の形状と類似する前記文字群の文字を集めた第1集合と、が対応付けて格納される前記記憶部内の情報を参照し、
第2画像から切り出される文字部分の形状と類似する前記文字群の文字を集めた第2集合を生成し、前記第2集合に基づいて前記文字列を選択し、選択した前記文字列に対応する前記第1集合と前記第2集合との違いを表す評価値を計算し、設定した閾値より前記評価値が小さい場合に、選択した前記文字列を認識結果とする
文字認識方法。
A computer that can access the storage unit
For each of the plurality of character strings expressed by the characters of the set character group and the plurality of character strings, the characters of the character group similar to the shape of the character part cut out from the first image including the character string are collected. With reference to the information in the storage unit stored in association with the first set,
Generate a second set of characters of the character group similar to the shape of the character portion cut out from the second image, select the character string based on the second set, and correspond to the selected character string A character recognition method for calculating an evaluation value representing a difference between the first set and the second set, and using the selected character string as a recognition result when the evaluation value is smaller than a set threshold value.
記憶部にアクセス可能なコンピュータに、
設定した文字群の文字で表現される複数の文字列と、前記複数の文字列のそれぞれについて、前記文字列を含む第1画像から切り出される文字部分の形状と類似する前記文字群の文字を集めた第1集合と、が対応付けて格納される前記記憶部内の情報を参照し、
第2画像から切り出される文字部分の形状と類似する前記文字群の文字を集めた第2集合を生成し、前記第2集合に基づいて前記文字列を選択し、選択した前記文字列に対応する前記第1集合と前記第2集合との違いを表す評価値を計算し、設定した閾値より前記評価値が小さい場合に、選択した前記文字列を認識結果とする
処理を実行させる、プログラム。
To a computer that can access the storage unit,
For each of the plurality of character strings expressed by the characters of the set character group and the plurality of character strings, the characters of the character group similar to the shape of the character part cut out from the first image including the character string are collected. With reference to the information in the storage unit stored in association with the first set,
Generate a second set of characters of the character group similar to the shape of the character portion cut out from the second image, select the character string based on the second set, and correspond to the selected character string A program for calculating an evaluation value representing a difference between the first set and the second set, and executing a process of using the selected character string as a recognition result when the evaluation value is smaller than a set threshold value.
JP2013176555A 2013-08-28 2013-08-28 Information processing apparatus, character recognition method, and program Expired - Fee Related JP6146209B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013176555A JP6146209B2 (en) 2013-08-28 2013-08-28 Information processing apparatus, character recognition method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013176555A JP6146209B2 (en) 2013-08-28 2013-08-28 Information processing apparatus, character recognition method, and program

Publications (2)

Publication Number Publication Date
JP2015045984A true JP2015045984A (en) 2015-03-12
JP6146209B2 JP6146209B2 (en) 2017-06-14

Family

ID=52671446

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013176555A Expired - Fee Related JP6146209B2 (en) 2013-08-28 2013-08-28 Information processing apparatus, character recognition method, and program

Country Status (1)

Country Link
JP (1) JP6146209B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016201094A (en) * 2015-04-08 2016-12-01 東芝テック株式会社 Image processing apparatus and image processing method
JP2016201093A (en) * 2015-04-08 2016-12-01 東芝テック株式会社 Image processing apparatus and image processing method
JP2017199103A (en) * 2016-04-26 2017-11-02 京セラドキュメントソリューションズ株式会社 Image processing system, image processing device, and image processing method
WO2020022574A1 (en) * 2018-07-23 2020-01-30 Hewlett-Packard Development Company, L. P. Character recognition using previous recognition result of similar character

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7300050B2 (en) 2018-12-19 2023-06-28 トクラス株式会社 resin products

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04232570A (en) * 1990-12-28 1992-08-20 Fuji Electric Co Ltd Keyword retrieving method
JPH06333083A (en) * 1993-05-26 1994-12-02 Oki Electric Ind Co Ltd Optical character reader
JPH10134150A (en) * 1997-12-10 1998-05-22 Oki Electric Ind Co Ltd Postprocessing method for character recognition result
JP2007280413A (en) * 2007-05-30 2007-10-25 Katsuyoshi Nagashima Automatic input device of financial statement

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04232570A (en) * 1990-12-28 1992-08-20 Fuji Electric Co Ltd Keyword retrieving method
JPH06333083A (en) * 1993-05-26 1994-12-02 Oki Electric Ind Co Ltd Optical character reader
JPH10134150A (en) * 1997-12-10 1998-05-22 Oki Electric Ind Co Ltd Postprocessing method for character recognition result
JP2007280413A (en) * 2007-05-30 2007-10-25 Katsuyoshi Nagashima Automatic input device of financial statement

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016201094A (en) * 2015-04-08 2016-12-01 東芝テック株式会社 Image processing apparatus and image processing method
JP2016201093A (en) * 2015-04-08 2016-12-01 東芝テック株式会社 Image processing apparatus and image processing method
JP2020030857A (en) * 2015-04-08 2020-02-27 東芝テック株式会社 Image processing apparatus and image processing method
JP2017199103A (en) * 2016-04-26 2017-11-02 京セラドキュメントソリューションズ株式会社 Image processing system, image processing device, and image processing method
WO2020022574A1 (en) * 2018-07-23 2020-01-30 Hewlett-Packard Development Company, L. P. Character recognition using previous recognition result of similar character

Also Published As

Publication number Publication date
JP6146209B2 (en) 2017-06-14

Similar Documents

Publication Publication Date Title
US20230013306A1 (en) Sensitive Data Classification
WO2020232861A1 (en) Named entity recognition method, electronic device and storage medium
US8468167B2 (en) Automatic data validation and correction
TWI321294B (en) Method and device for determining at least one recognition candidate for a handwritten pattern
WO2019184217A1 (en) Hotspot event classification method and apparatus, and storage medium
US10943106B2 (en) Recognizing text in image data
CN109101469B (en) Extracting searchable information from digitized documents
US20180109484A1 (en) Generating a Conversation in a Social Network Based on Mixed Media Object Context
US9886669B2 (en) Interactive visualization of machine-learning performance
RU2613734C1 (en) Video capture in data input scenario
US10242296B2 (en) Method and device for realizing chinese character input based on uncertainty information
US20120136812A1 (en) Method and system for machine-learning based optimization and customization of document similarities calculation
CN109791559B (en) Promoting image processing apparatus as a means of use of search queries
JP6146209B2 (en) Information processing apparatus, character recognition method, and program
JP2017224184A (en) Machine learning device
CN109492644A (en) A kind of matching and recognition method and terminal device of exercise image
WO2019061664A1 (en) Electronic device, user&#39;s internet surfing data-based product recommendation method, and storage medium
CN110999264A (en) System and method for integrating message content into a target data processing device
CN114092949A (en) Method and device for training class prediction model and identifying interface element class
KR101852774B1 (en) Error correction method for prescription recognition, and error correction system for prescription recognition
CN114092948B (en) Bill identification method, device, equipment and storage medium
US11989964B2 (en) Techniques for graph data structure augmentation
CN113313114B (en) Certificate information acquisition method, device, equipment and storage medium
US20190250984A1 (en) Facilitating detection of data errors using existing data
US11755659B2 (en) Document search device, document search program, and document search method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160510

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170501

R150 Certificate of patent or registration of utility model

Ref document number: 6146209

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees