JP2011048499A - Recognition result correction device, image processor, and program - Google Patents
Recognition result correction device, image processor, and program Download PDFInfo
- Publication number
- JP2011048499A JP2011048499A JP2009194802A JP2009194802A JP2011048499A JP 2011048499 A JP2011048499 A JP 2011048499A JP 2009194802 A JP2009194802 A JP 2009194802A JP 2009194802 A JP2009194802 A JP 2009194802A JP 2011048499 A JP2011048499 A JP 2011048499A
- Authority
- JP
- Japan
- Prior art keywords
- character
- unit
- search
- recognition
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
Description
本発明は、認識結果修正装置、画像処理装置、プログラムに関する。 The present invention relates to a recognition result correction device, an image processing device, and a program.
文字認識装置において、ある文字から他の文字へ遷移する確率とその遷移関係にある文字の組合せに対応する単語識別情報を記憶する文字遷移確率テーブルを用いて候補文字列を最適化し、各単語を識別するための単語識別情報との単語間の階層関係を示す階層情報を記憶する単語辞書を最適化された候補文字列に対応する単語識別情報に基づいて検索し、階層情報に対応する未入力の単語を抽出する技術が知られている(例えば、特許文献1参照)。 In the character recognition device, a candidate character string is optimized using a character transition probability table that stores word identification information corresponding to a combination of a character having a transition relationship from one character to another character and a character having the transition relationship, A word dictionary storing hierarchical information indicating a hierarchical relationship between words with the word identification information for identification is searched based on the word identification information corresponding to the optimized candidate character string, and no input corresponding to the hierarchical information Is known (see, for example, Patent Document 1).
筆記データに似通っている度合いが大きい1つ以上の文字を表す文字コードのうちの何れか1つを認識結果として出力する際に、同じ字種の文字が連続して出現することが多いという日本語の一般的な傾向を利用して、前回認識結果として出力された文字コードが表す文字の字種と同じ字種となる文字を表す文字コードを、優先的に認識結果として出力する技術も知られている(例えば、特許文献2参照)。 Japan that characters of the same character type often appear continuously when outputting one of the character codes representing one or more characters that are highly similar to written data as a recognition result Also known is a technology that uses the general tendency of words to preferentially output character codes that represent characters that have the same character type as the character code that was output as the previous recognition result. (For example, refer to Patent Document 2).
確率が高い順番に任意の個数の形態素解析候補を求める形態素解析手段、単語モデルに基づく単語仮説生成手段、類似語モデルに基づく類似語検索手段を用いて、辞書に登録されていない入力文中の単語の表記と品詞を正しく同定し、正解文字が候補文字に含まれていない場合でも正確単語を提示し、最も尤もらしい順に、単語列と品詞列の組を提示する技術も知られている(例えば、特許文献3参照)。 Words in the input sentence that are not registered in the dictionary using morpheme analysis means for obtaining an arbitrary number of morpheme analysis candidates in descending order of probability, word hypothesis generation means based on word models, and similar word search means based on similar word models There is also known a technique for correctly identifying the notation and part of speech, presenting the correct word even when the correct character is not included in the candidate character, and presenting the pair of the word sequence and the part of speech sequence in the most likely order (for example, And Patent Document 3).
筆点の時系列パターンを認識するオンライン識別器として構造化字体表現及び線形処理時間伸縮マッチングを用い、非時系列の文字画像パターンを認識するオフライン識別器として修正二次識別関数を用いて、両者を統合し、また、オフラインパターンの特徴次元数及び修正二次識別関数の固有地を削減し、更に、文脈処理を後処理として用いる技術も知られている(例えば、非特許文献1参照)。
Both using a structured font representation and linear processing time expansion / contraction matching as an online discriminator that recognizes the time series pattern of writing points, and a modified secondary discriminant function as an offline discriminator that recognizes non-time series character image patterns In addition, a technique is also known in which the number of feature dimensions of the off-line pattern and the specific place of the modified secondary discriminant function are reduced, and further, context processing is used as post-processing (see Non-Patent
本発明の目的は、文字認識処理及び音声認識処理の何れか一方の認識処理の精度を、認識処理のために文書集合を用意することなく向上することにある。 An object of the present invention is to improve the accuracy of one of character recognition processing and voice recognition processing without preparing a document set for recognition processing.
請求項1に記載の発明は、文字認識処理及び音声認識処理の何れか一方の認識処理の結果として得られた文字列に含まれる特定の文字の当該認識処理における確信度を取得する第1の取得手段と、前記文字列に含まれる前記特定の文字と、前記文字列に含まれる当該特定の文字の直前又は直後の文字とを含む検索語を生成する生成手段と、前記認識処理以外の用途のために用意された文書集合を、前記生成手段により生成された前記検索語を用いて検索することにより、当該検索語の使用に関する指標を取得する第2の取得手段と、前記第1の取得手段により取得された前記特定の文字の前記確信度を、前記第2の取得手段により取得された前記指標に基づいて修正する修正手段とを備えたことを特徴とする認識結果修正装置である。
請求項2に記載の発明は、前記認識処理に関して個別の精度を要求する単位を識別する識別情報を受け付ける識別情報受付手段を更に備え、前記第2の取得手段は、前記識別情報受付手段が受け付けた前記識別情報に予め関連付けられた前記文書集合を検索することを特徴とする請求項1に記載の認識結果修正装置である。
請求項3に記載の発明は、前記第2の取得手段は、前記識別情報受付手段が受け付けた前記識別情報に予め関連付けられた複数の前記文書集合を前記検索語を用いて検索することで得られた各文書集合における当該検索語の使用頻度と、前記識別情報受付手段が受け付けた前記識別情報に予め関連付けられた当該各文書集合の重みとに基づいて、前記指標を取得することを特徴とする請求項2に記載の認識結果修正装置である。
請求項4に記載の発明は、前記文字列に含まれる前記特定の文字を前記認識処理の結果として確定させる指示を受け付ける確定指示受付手段と、前記確定指示受付手段が前記指示を受け付けると、特定の文書集合を前記検索語を用いて検索することで得られた当該検索語の使用頻度に基づいて、当該特定の文書集合の重みを更新する更新手段とを更に備えたことを特徴とする請求項3に記載の認識結果修正装置である。
請求項5に記載の発明は、前記文書集合を選択する利用者の指示を受け付ける選択指示受付手段を更に備え、前記第2の取得手段は、前記選択指示受付手段が受け付けた前記指示により選択された前記文書集合を検索することを特徴とする請求項1に記載の認識結果修正装置である。
請求項6に記載の発明は、前記文字列に対して形態素解析を行う形態素解析手段を更に備え、前記生成手段は、前記形態素解析手段による形態素解析の結果に基づいて、前記検索語に含める前記特定の文字の直前又は直後の文字を特定することを特徴とする請求項1乃至5の何れかに記載の認識結果修正装置である。
請求項7に記載の発明は、画像が記録された記録媒体から当該画像を読み取る読取手段と、前記読取手段により読み取られた前記画像に対して文字認識を行った結果として得られた文字列に含まれる特定の文字の当該文字認識における確信度を取得する第1の取得手段と、前記文字列に含まれる前記特定の文字と、前記文字列に含まれる当該特定の文字の直前又は直後の文字とを含む検索語を生成する生成手段と、前記文字認識以外の用途のために用意された文書集合を、前記生成手段により生成された前記検索語を用いて検索することにより、当該検索語の使用に関する指標を取得する第2の取得手段と、前記第1の取得手段により取得された前記特定の文字の前記確信度を、前記第2の取得手段により取得された前記指標に基づいて修正する修正手段と、前記文字列に含まれる前記特定の文字を、前記修正手段による修正後の当該特定の文字の前記確信度に基づいて表示する表示手段とを備えたことを特徴とする画像処理装置である。
請求項8に記載の発明は、コンピュータに、文字認識処理及び音声認識処理の何れか一方の認識処理の結果として得られた文字列に含まれる特定の文字の当該認識処理における確信度を取得する機能と、前記文字列に含まれる前記特定の文字と、前記文字列に含まれる当該特定の文字の直前又は直後の文字とを含む検索語を生成する機能と、前記認識処理以外の用途のために用意された文書集合を、前記検索語を用いて検索することにより、当該検索語の使用に関する指標を取得する機能と、前記特定の文字の前記確信度を、前記指標に基づいて修正する機能とを実現させるためのプログラムである。
The invention according to
The invention according to
According to a third aspect of the present invention, the second acquisition unit obtains a plurality of document sets previously associated with the identification information received by the identification information reception unit using the search word. The index is acquired based on the frequency of use of the search term in each document set and the weight of each document set associated in advance with the identification information received by the identification information receiving means. The recognition result correcting apparatus according to
According to a fourth aspect of the present invention, a confirmation instruction accepting unit that accepts an instruction for confirming the specific character included in the character string as a result of the recognition process; and a specification when the confirmation instruction accepting unit accepts the instruction And updating means for updating the weight of the specific document set based on the frequency of use of the search word obtained by searching the document set using the search word.
The invention according to
The invention according to claim 6 further comprises morpheme analysis means for performing morpheme analysis on the character string, and the generation means includes the morpheme analysis included in the search word based on a result of morpheme analysis by the morpheme analysis means. 6. The recognition result correcting apparatus according to
According to a seventh aspect of the present invention, there is provided a reading unit that reads an image from a recording medium on which the image is recorded, and a character string obtained as a result of character recognition performed on the image read by the reading unit. A first acquisition unit configured to acquire a certainty factor in the character recognition of the specific character included; the specific character included in the character string; and a character immediately before or immediately after the specific character included in the character string. Generating a search term including: and a search for a set of documents prepared for use other than the character recognition by using the search term generated by the generation unit. A second acquisition unit that acquires an index relating to use, and the certainty factor of the specific character acquired by the first acquisition unit is corrected based on the index acquired by the second acquisition unit Image processing, and a display unit that displays the specific character included in the character string based on the certainty factor of the specific character after correction by the correction unit. Device.
The invention according to claim 8 acquires a certainty factor in the recognition process of a specific character included in the character string obtained as a result of one of the character recognition process and the voice recognition process. A function, a function for generating a search term including the specific character included in the character string, and a character immediately before or immediately after the specific character included in the character string, and for uses other than the recognition process A function for obtaining an index relating to use of the search word by searching the document set prepared in the search word, and a function for correcting the certainty factor of the specific character based on the index It is a program for realizing.
請求項1の発明によれば、文字認識処理及び音声認識処理の何れか一方の認識処理の精度を、認識処理のために文書集合を用意することなく向上することができる。
請求項2の発明によれば、認識処理に関する個別の精度の要求に合致するように、認識処理の精度を向上することができる。
請求項3の発明によれば、複数の文書集合を用いて、認識処理に関する個別の精度の要求に合致するように、認識処理の精度を向上することができる。
請求項4の発明によれば、認識処理を繰り返すに従って、認識処理の精度が向上する。
請求項5の発明によれば、利用者が自由に選択した文書集合を用いて、認識処理の精度を向上することができる。
請求項6の発明によれば、認識処理の精度を向上するために用いる検索語を、手間をかけることなく生成することができる。
請求項7の発明によれば、文字認識の精度を、文字認識のために文書集合を用意することなく向上することができる。
請求項8の発明によれば、文字認識処理及び音声認識処理の何れか一方の認識処理の精度を、認識処理のために文書集合を用意することなく向上することができる。
According to the first aspect of the present invention, the accuracy of any one of the character recognition process and the voice recognition process can be improved without preparing a document set for the recognition process.
According to the second aspect of the present invention, the accuracy of the recognition process can be improved so as to meet the individual accuracy requirements regarding the recognition process.
According to the invention of
According to the invention of
According to the invention of
According to the sixth aspect of the present invention, it is possible to generate a search term used for improving the accuracy of the recognition processing without taking time and effort.
According to the invention of
According to the invention of claim 8, the accuracy of either the character recognition process or the voice recognition process can be improved without preparing a document set for the recognition process.
以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
本実施の形態は、文字認識や音声認識を行う場合に、その認識の精度を簡便に向上させるものである。かかる認識の精度の向上のためには、一般に、Nグラム確率等の膨大なデータを用意する手間が必要となるが、本実施の形態では、文字認識や音声認識の結果が不自然なものとなった場合に、文字認識や音声認識以外の用途のために用意されたデータベースを検索することで、手間をかけずにその結果を修正する(以下、この検索に用いられるデータベースを「検索対象DB」と称する)。尚、このように、本実施の形態は、文字認識に対しても音声認識に対しても適用可能であるが、以下では、文字認識に適用した場合を例にとって説明する。
Embodiments of the present invention will be described below in detail with reference to the accompanying drawings.
In the present embodiment, when character recognition or voice recognition is performed, the accuracy of the recognition is simply improved. In order to improve the accuracy of such recognition, it is generally necessary to prepare an enormous amount of data such as N-gram probabilities, but in this embodiment, the results of character recognition and speech recognition are unnatural. If this happens, search the database prepared for uses other than character recognition and voice recognition, and correct the result without taking time (hereinafter, the database used for this search is referred to as “search target DB”). "). As described above, the present embodiment can be applied to both character recognition and voice recognition. However, in the following, a case where the present embodiment is applied to character recognition will be described as an example.
[第1の実施の形態]
この第1の実施の形態では、ユーザが検索対象DBを明示的に選択する。
図1は、第1の実施の形態における文字認識装置の機能構成例を示したブロック図である。
図示するように、文字認識装置10は、UI(User Interface)部20と、処理部30と、DB(Database)部40とを備える。
UI部20は、ユーザが入力する情報を受け付けたり、ユーザに対して情報を出力したりする部分であり、文字画像読取部21と、DB選択受付部22と、認識結果表示部23とを備える。
処理部30は、UI部20で受け付けた情報に基づいて文字認識を行った結果を、DB部40を用いて修正し、その結果をUI部20に表示する部分であり、文字認識部31と、形態素解析部32と、検索キー作成部33と、単語評価部34と、総合評価部35とを備える。
[First Embodiment]
In the first embodiment, the user explicitly selects the search target DB.
FIG. 1 is a block diagram illustrating a functional configuration example of the character recognition device according to the first embodiment.
As illustrated, the character recognition device 10 includes a UI (User Interface) unit 20, a
The UI unit 20 is a part that receives information input by the user and outputs information to the user, and includes a character
The
DB部40は、処理部30によって用いられるデータベースを含む部分であり、文書データ記憶部41a,41b,41cを備える。尚、図では、文書データ記憶部41a,41b,41cを示したが、これらを区別する必要がない場合は、文書データ記憶部41と称することもある。また、図には、3つの文書データ記憶部41しか示していないが、4つ以上の文書データ記憶部41を設けてもよい。更に、図では、DB部40を文字認識装置10の一部として示しているが、DB部40は文字認識装置10の外部に存在していてもよい。本実施の形態では、文書集合の一例として、DB部40を設けている。
The DB unit 40 includes a database used by the
まず、UI部20の構成要素について説明する。
文字画像読取部21は、紙等の記録媒体に記録された文字画像を読み取る。ここで、文字画像は、筆記具で手書きされた手書き文字の画像であってもよいし、プリンタで印刷された印刷文字の画像であってもよい。また、文字画像読取部21は、例えばスキャナであり、光源から原稿に照射した光に対する反射光をレンズで縮小してCCD(Charge Coupled Devices)で受光するCCD方式や、LED光源から原稿に順に照射した光に対する反射光をCIS(Contact Image Sensor)で受光するCIS方式のものを用いるとよい。本実施の形態では、画像を読み取る読取手段の一例として、文字画像読取部21を設けている。
First, components of the UI unit 20 will be described.
The character
DB選択受付部22は、DB部40の検索に先立ち、ユーザが検索対象DBとして選択した文書データ記憶部41を示す選択情報を受け付ける。本実施の形態では、文書集合を選択する利用者の指示を受け付ける選択指示受付手段の一例として、DB選択受付部22を設けている。
認識結果表示部23は、処理部30によって得られた認識結果を表示する。その際、認識結果は、処理部30にて算出されたスコアに基づいて表示するとよい。ここで、認識結果表示部23としては、例えばLCD(Liquid Crystal Display)を用いるとよい。本実施の形態では、特定の文字を修正後の確信度に基づいて表示する表示手段の一例として、認識結果表示部23を設けている。
The DB
The recognition
次に、処理部30の構成要素について説明する。
文字認識部31は、文字画像読取部21により読み取られた文字画像から1つ1つの文字に相当する部分を切り出して文字認識を行う。また、文字認識結果として、予め定められた個数の候補文字について、その候補文字を表す文字コードとその候補文字の文字スコアとを保持する。ここで、文字スコアとは、候補文字の文字認識結果としての確からしさを示す値である。尚、文字認識部31における文字認識の方法としては、文字を図形的なパターンとして認識するオフライン認識技術を利用する方法や、時系列の情報を利用できる場合にはその情報を利用したオンライン認識技術を利用する方法が用いられることが多く、また、両者の組み合わせによって統合的に判断する方法が用いられることも多い。本実施の形態では、特定の文字の確信度の一例として、文字スコアを用いており、また、確信度を取得する第1の取得手段の一例として、文字認識部31を設けている。
Next, components of the
The
形態素解析部32は、文字認識部31による文字認識で抽出された候補文字からなる文字列を、品詞ごとに複数の語に分解し、各語に品詞情報を付与する。本実施の形態では、文字列に対して形態素解析を行う形態素解析手段の一例として、形態素解析部32を設けている。
The
検索キー作成部33は、形態素解析部32による形態素解析の結果に基づいて分割単位を決定し、この分割単位ごとに、候補文字を組み合わせて検索キーを生成する。ここで、分割単位の決定は、形態素解析部32により得られた語が1つの文字のみを含むものであれば、その文字を前又は後の語と結合することによって行う。このとき、前又は後の何れの語と結合してもよいが、文字スコアが高い方の語と結合するのが好ましい。或いは、特定の品詞どうしの結びつきを優先して決定したり、語の長短によって決定したりしてもよい。また、検索キーの生成は、候補文字を組み合わせることで検索キーの数が膨大になるのを防ぐため、文字スコアが高い候補文字の組み合わせから予め設定された個数だけ選択することによって行ったり、文字スコアが予め設定された閾値より高い候補文字を組み合わせることによって行ったりしてもよい。本実施の形態では、検索語の一例として、検索キーを用いており、また、検索語を生成する生成手段の一例として、検索キー作成部33を設けている。
The search
単語評価部34は、検索キー作成部33により生成された検索キーを用いて、DB選択受付部22で受け付けた選択情報によって示される文書データ記憶部41を検索し、その検索結果に基づくスコアである検索スコアを算出する。この場合、検索でヒットした文書の件数を単純に検索スコアとしてもよいし、検索でヒットした文書中の検索キーの出現頻度の総計を検索スコアとしてもよい。そして、この検索スコアに基づいて、単語としてのスコアである単語スコアを算出する。本実施の形態では、検索語の使用に関する指標の一例として、単語スコアを用いており、また、指標を取得する第2の取得手段の一例として、単語評価部34を設けている。尚、本明細書では、便宜上「単語スコア」という文言を用いるが、このスコアが付される候補文字の組み合わせは、必ずしも文法上の単語を構成するとは限らない。
The
総合評価部35は、文字認識部31による文字認識で得られた文字スコアと、単語評価部34による検索で得られた単語スコアとを統合して、最終的に各文字画像の文字認識結果を決定する。本実施の形態では、特定の文字の確信度を指標に基づいて修正する修正手段の一例として、総合評価部35を設けている。
The
更に、DB部40の構成要素について説明する。
文書データ記憶部41は、検索が可能なように予めインデックスが付された一般の文書データベースであり、この中から選択されたデータベースが、処理部30にて用いられる検索対象DBとなる。この文書データベースは、例えば、個人や組織が所有しているものであってもよいし、インターネット検索エンジンで用いられるウェブページの集合であってもよい。
Furthermore, the components of the DB unit 40 will be described.
The document data storage unit 41 is a general document database that is pre-indexed so as to be searchable, and a database selected from these is a search target DB used by the
次に、第1の実施の形態における文字認識装置10の動作について説明する。
図2は、このときの文字認識装置10の動作例を示したフローチャートである。
まず、ユーザが手書きされた文字画像や印刷された文字画像を文字認識装置10に入力すると、文字画像読取部21が、この文字画像を読み取る(ステップ101)。
また、ユーザが1つの検索対象DBを選択する操作を行うと、DB選択受付部22が、その選択内容を示す選択情報を受け付ける(ステップ102)。尚、この場合、検索対象DBとしては、上述したように、文字認識用の辞書データベースではなく、別の用途のために用意された一般の文書データベースが用いられる。
Next, the operation of the character recognition device 10 in the first embodiment will be described.
FIG. 2 is a flowchart showing an operation example of the character recognition device 10 at this time.
First, when a user inputs a handwritten character image or a printed character image to the character recognition device 10, the character
When the user performs an operation of selecting one search target DB, the DB
UI部20はこのようにして情報を取得すると、これらの情報を処理部30に出力する。
すると、まず、文字認識部31が、文字画像読取部21が出力した文字画像に対して文字認識を行う(ステップ103)。これにより、文字認識部31は、予め定められた個数の候補文字について、その文字コードと、その確からしさ(確信度、尤度)を示す文字スコアとを得る。尚、この文字コードと文字スコアは、処理部30の各機能から参照可能なメモリに記憶される。
次に、形態素解析部32が、文字認識部31が得た候補文字からなる文字列を形態素解析によって複数の語に分解する(ステップ104)。このとき、形態素解析によって得られた各語には、名詞、動詞、助詞、助動詞等の品詞情報が付されている。
When the UI unit 20 acquires the information in this way, the UI unit 20 outputs the information to the
Then, first, the
Next, the
次いで、検索キー作成部33は、形態素解析部32による形態素解析の結果に基づいて、分割単位を決定する(ステップ105)。例えば、形態素解析で得られた語のうち、助詞や助動詞の品詞情報が付された語は、前後の語が名詞、形容詞、動詞であればそれと連結して、分割単位とする。その他の場合は、形態素解析で得られた語をそのまま分割単位とする。
Next, the search
その後、検索キー作成部33は、分割単位ごとに、検索対象DBの検索に用いる検索キーを作成する。
即ち、検索キー作成部33は、まず、1つの分割単位に着目する(ステップ106)。
次に、着目している分割単位に含まれる各文字に対応する候補文字の組み合わせを取得する(ステップ107)。通常は、この取得した候補文字の組み合わせの全てを検索キーとすればよい。
ところが、このような検索キーの生成方法では、膨大な数の検索キーが生成される可能性がある。具体的には、候補文字の数をmとし、分割単位内の文字の数をnとすると、mのn乗個の検索キーが生成されることになる。そこで、このような事態を回避するため、候補文字の文字スコアの平均値が予め与えられた閾値より大きくなるような候補文字の組み合わせのみを検索キーとする。従って、検索キー作成部33は、ステップ103で記憶した文字スコアを参照し、候補文字の文字スコアの平均値が予め定めた閾値よりも大きいかどうかを判定する(ステップ108)。
After that, the search
That is, the search
Next, a combination of candidate characters corresponding to each character included in the division unit of interest is acquired (step 107). Normally, all of the acquired combinations of candidate characters may be used as search keys.
However, in such a search key generation method, a huge number of search keys may be generated. Specifically, assuming that the number of candidate characters is m and the number of characters in the division unit is n, m-th n search keys are generated. Therefore, in order to avoid such a situation, only combinations of candidate characters whose average character score of candidate characters is larger than a predetermined threshold are used as search keys. Accordingly, the search
その結果、文字スコアの平均値が閾値以下である場合は、他の候補文字の組み合わせについてステップ108の判定を行う。一方、文字スコアの平均値が閾値よりも大きい場合は、その候補文字の組み合わせを検索キーとし(ステップ109)、候補文字の組み合わせが他にあるかどうかを判定する(ステップ110)。そして、候補文字の組み合わせが他にあれば、ステップ107〜109の処理を繰り返し、候補文字の組み合わせが他になければ、単語評価部34の処理に移る。
As a result, if the average value of the character scores is equal to or less than the threshold value, the determination in step 108 is performed for other candidate character combinations. On the other hand, if the average value of the character scores is greater than the threshold value, the candidate character combination is used as a search key (step 109), and it is determined whether there are other candidate character combinations (step 110). Then, if there are other candidate character combinations, the processes of steps 107 to 109 are repeated. If there are no other candidate character combinations, the processing of the
そして、単語評価部34は、検索キー作成部33が作成した1つ以上の検索キーを受け取り、この検索キーを用いて、DB選択受付部22で受け付けた選択情報で示される文書データ記憶部41を検索する(ステップ111)。そして、検索結果に基づいて、検索スコアを算出し、この検索スコアに基づいて、候補文字を連結した単語としての確からしさを示す単語スコアを算出する(ステップ112)。ここで、検索スコアは、例えば、検索キーで検索された文書の件数(検索ヒット件数)や、検索された文書における検索キーの出現頻度の総和等で算出すればよい。
Then, the
次に、総合評価部35は、ステップ103で文字認識部31が得た文字スコアと、ステップ112で単語評価部34が算出した単語スコアとを統合して、候補文字ごとの最終的な確からしさを示す総合スコアを算出する(ステップ115)。そして、総合スコアは認識結果表示部23に送られ、認識結果表示部23が、候補文字に最終的な順位を付加して表示する(ステップ116)。この順位としては、例えば、ステップ115で算出された総合スコアの高いものほど上位になるような順位を採用することが考えられる。
更に、総合評価部35は、分割単位が他にあるかどうかを判定する(ステップ117)。そして、分割単位が他にあれば、制御を検索キー作成部33に戻してステップ106〜116の処理を繰り返し、分割単位が他になければ、第1の実施の形態の動作は終了する。
Next, the
Furthermore, the
尚、以上の動作例によって算出される総合スコアは、次のような式で表される。 The total score calculated by the above operation example is expressed by the following equation.
Tijは、ある分割単位におけるi番目の文字のj番目の候補文字の総合スコアである。
Cijは、ある分割単位におけるi番目の文字のj番目の候補文字の文字スコアである。
Sijkは、ある分割単位におけるi番目の文字のj番目の候補文字を含むk番目の検索キーで検索対象DBを検索したときに得られた検索スコアである。尚、Sijkとしては、ヒット件数や、ヒット全文書中の検索キーの出現頻度等を用いればよい。また、出現頻度が0である場合でも検索スコアが0にならないように事前頻度1等を全ての検索キーに加えてもよい。
そして、上記式は、文字スコアCijと、Sijkのkを変動させた場合の最大値である単語スコアとを掛け合わせることにより、総合スコアTijが得られることを示している。
Tij is a total score of the jth candidate character of the ith character in a certain division unit.
C ij is the character score of the j-th candidate character of the i-th character in a certain division unit.
S ijk is a search score obtained when the search target DB is searched with the k-th search key including the j-th candidate character of the i-th character in a certain division unit. As S ijk , the number of hits, the appearance frequency of search keys in all hit documents, etc. may be used. Further, even when the appearance frequency is 0, a
The above formula indicates that the overall score T ij can be obtained by multiplying the character score C ij by the word score that is the maximum value when k of S ijk is varied.
ここで、図2に示した動作例を、具体例を用いて説明する。
図3は、ステップ103で文字認識部31によって算出され、図示しないメモリを介して検索キー作成部33及び総合評価部35に渡される文字スコアCijを示した図である。但し、ここでは、ステップ106で2文字のみからなる分割単位に着目した場合を想定している。尚、このような分割単位は、ステップ104での形態素解析の結果に基づくものであるが、各文字の候補文字のうちどの候補文字からなる文字列について形態素解析を行うかは自由に決めてよい。例えば、文字スコアが最も高い候補文字からなる文字列(図の例では、「・・・士田・・・」という文字列)について形態素解析を行うことが考えられる。
図には、例えば、1番目の文字の1番目の候補文字は「士」で、文字スコアC11は93であり、1番目の文字の2番目の候補文字は「キ」で、文字スコアC12は90であることが示されている。また、2番目の文字の1番目の候補文字は「田」で、文字スコアC21は95であり、2番目の文字の2番目の候補文字は「旧」で、文字スコアC22は75であることが示されている。
Here, the operation example shown in FIG. 2 will be described using a specific example.
FIG. 3 is a diagram showing the character score C ij calculated by the
In the figure, for example, the first candidate character of the first character is “shi”, the character score C 11 is 93, the second candidate character of the first character is “ki”, and the character score C 12 is shown to be 90. The first candidate character of the second character is “da”, the character score C 21 is 95, the second candidate character of the second character is “old”, and the character score C 22 is 75. It is shown that there is.
図4は、ステップ112で単語評価部34によって算出される検索スコアSijkを示した図である。但し、ステップ108で用いる閾値を80とし、文字スコアの平均値がこの閾値を超える候補文字の組み合わせについて検索スコアを示している。
例えば、1番目の文字の1番目の候補文字「士」を含む検索キーのうち、文字スコアの平均値が80を超えるものは、「士田」と「士旧」である。そこで、図には、「士田」を検索キーとして検索対象DBを検索して得られた検索スコアS111と、「士旧」を検索キーとして検索対象DBを検索して得られた検索スコアS112とが示されている。この検索スコアS111と検索スコアS112の中で最大である検索スコアS111が単語スコアとして、図示しないメモリを介して総合評価部35に渡される。同様に、2番目の候補文字「キ」を含む検索キー、3番目の候補文字「土」を含む検索キー、4番目の候補文字「工」を含む検索キーのうち、文字スコアの平均値が80を超える検索キーを用いた場合の検索スコアも示されている。尚、5番目の候補文字「ユ」を含む検索キーで、文字スコアの平均値が80を超えるものはないので、候補文字「ユ」を含む検索キーを用いた場合の検索スコアを格納する欄は設けていない。
FIG. 4 is a diagram showing the search score S ijk calculated by the
For example, among the search keys including the first candidate character “shi” of the first character, those having an average character score of more than 80 are “shida” and “shiji”. Therefore, in the figure, a search score S 111 obtained by searching the search target DB using “Shida” as a search key, and a search score obtained by searching the search target DB using “Shi old” as a search key. S 112 is shown. Maximum a is search score S 111 in this and search score S 111 search score S 112 as a word score, it is passed to the
また、2番目の文字の1番目の候補文字「田」を含む検索キーのうち、文字スコアの平均値が80を超えるものは、「士田」と「キ田」と「土田」と「工田」である。そこで、図には、「士田」を検索キーとして検索対象DBを検索して得られた検索スコアS211と、「キ田」を検索キーとして検索対象DBを検索して得られた検索スコアS212と、「土田」を検索キーとして検索対象DBを検索して得られた検索スコアS213と、「工田」を検索キーとして検索対象DBを検索して得られた検索スコアS214とが示されている。この検索スコアS211と検索スコアS212と検索スコアS213と検索スコアS214の中で最大である検索スコアS213が単語スコアとして、図示しないメモリを介して総合評価部35に渡される。同様に、2番目の候補文字「旧」を含む検索キーのうち、文字スコアの平均値が80を超える検索キーを用いた場合の検索スコアも示されている。尚、3番目の候補文字「口」を含む検索キー、4番目の候補文字「十」を含む検索キー、5番目の候補文字「X」を含む検索キーで、文字スコアの平均値が80を超えるものはないので、候補文字「口」、「十」、「X」を含む検索キーを用いた場合の検索スコアを格納する欄は設けていない。
Of the search keys that include the first candidate character “da” of the second character, those with an average character score exceeding 80 are “Shida”, “Kita”, “Tsuchida”, and “ Rice field ". Therefore, in the figure, the search target DB search search score S 211 obtained as a search key "Sita", "Kita" the search key as the search target DB search was obtained search score S 212 , a search score S 213 obtained by searching the search target DB using “Tsuchida” as a search key, and a search score S 214 obtained by searching the search target DB using “Kuda” as a search key It is shown. As search score S 213 the word score is the largest among the search score S 211 and the search score S 212 and the search score S 213 and the search score S 214, is passed to the
図5は、ステップ115で総合評価部35によって算出される総合スコアTijを示した図である。ここでは、上述したように、Sijkのkを変動させた場合の最大値である単語スコアをCijに乗ずることにより、Tijを求めている。
例えば、1番目の文字の1番目の候補文字「士」を含む検索キーを用いた場合の検索スコアの最大値である単語スコアは、上記の通り、S111=55である。そこで、図には、総合スコアT11が5115であることが示されている(T11=C11×maxS11K=93×55=5115)。同様に、2番目の候補文字「キ」、3番目の候補文字「土」、4番目の候補文字「工」についても、総合スコアが示されている。尚、5番目の候補文字「ユ」については、S15Kが得られていないので、C15をそのままT15としている。
FIG. 5 is a diagram showing the total score T ij calculated by the
For example, as described above, the word score that is the maximum value of the search score when using the search key including the first candidate character “shi” of the first character is S 111 = 55. Therefore, the figure shows that the total score T 11 is 5115 (T 11 = C 11 × maxS 11K = 93 × 55 = 5115). Similarly, the overall score is shown for the second candidate character “K”, the third candidate character “Sat”, and the fourth candidate character “K”. In addition, since S 15K is not obtained for the fifth candidate character “Yu”, C 15 is set as T 15 as it is.
また、2番目の文字の1番目の候補文字「田」を含む検索キーを用いた場合の検索スコアの最大値である単語スコアは、上記の通り、S213=2150である。そこで、図には、総合スコアT21が204250であることが示されている(T21=C21×maxS21K=95×2150=204250)。同様に、2番目の候補文字「旧」についても、総合スコアが示されている。尚、3番目の候補文字「口」、4番目の候補文字「十」、5番目の候補文字「X」については、S2jkが得られていないので、C2jをそのままT2jとしている(j=3,4,5)。 Further, as described above, the word score that is the maximum value of the search score when the search key including the first candidate character “field” of the second character is used is S 213 = 2150. Therefore, in the figure, the total score T 21 is shown to be 204250 (T 21 = C 21 × maxS 21K = 95 × 2150 = 204250). Similarly, the overall score is also shown for the second candidate character “Old”. Since S 2jk is not obtained for the third candidate character “mouth”, the fourth candidate character “ten”, and the fifth candidate character “X”, C 2j is used as T 2j as it is (j = 3,4,5).
以上により、1番目の文字の候補文字については、「土」の総合スコアT13が最大となり、2番目の文字の候補文字については、「田」の総合スコアT21が最大となっている。従って、この分割単位における文字認識結果としては、「土田」という結果の確信度が最も高いことが分かる。 Thus, for the first character of the candidate character, become a total score T 13 is the largest of the "soil", for the second character of the candidate character, the overall score T 21 of the "field" is the largest. Therefore, it can be seen that the character recognition result in this division unit has the highest certainty of the result “Tsuchida”.
尚、この第1の実施の形態では、ユーザが1つの検索対象DBを指定したが、複数の検索対象DBを指定してもよい。
また、この第1の実施の形態では、形態素解析によって、文字列を自動的に品詞ごとのまとまりに分解するようにした。しかしながら、入力された文字列のどの部分を検索キーとするかをユーザが設定してもよい。
更に、この第1の実施の形態では、文字スコアの平均値が閾値を超えた候補文字の組み合わせからなる検索キーを生成したが、文字スコアの平均値が大きいものから予め設定された個数だけ候補文字の組み合わせを選択して検索キーを生成するようにしてもよい。
In the first embodiment, the user specifies one search target DB, but a plurality of search target DBs may be specified.
In the first embodiment, the character string is automatically decomposed into groups of parts of speech by morphological analysis. However, the user may set which part of the input character string is used as the search key.
Furthermore, in this first embodiment, a search key comprising a combination of candidate characters whose average character score exceeds the threshold value is generated. However, only a preset number of candidates are selected from those having a large average character score. A search key may be generated by selecting a combination of characters.
[第2の実施の形態]
第1の実施の形態では、ユーザが検索対象DBを選択しなければならないため、手間がかかることも懸念される。特に、多数のデータベースの中から1つのデータベースを選択しなければならない場合には、ユーザを補助したり、ユーザに相応しい選択を自動的に行ったりする方が好適である。
そこで、この第2の実施の形態では、単語スコアの算出に適した検索対象DBを文字認識装置10が自動的に選択する。
[Second Embodiment]
In 1st Embodiment, since a user must select search object DB, we are anxious also about taking time. In particular, when one database must be selected from a large number of databases, it is preferable to assist the user or automatically make a selection suitable for the user.
Therefore, in the second embodiment, the character recognition device 10 automatically selects a search target DB suitable for calculating a word score.
図6は、第2の実施の形態における文字認識装置の機能構成例を示したブロック図である。
図示するように、文字認識装置10は、UI(User Interface)部20と、処理部30と、DB(Database)部40とを備える。
UI部20は、ユーザが入力する情報を受け付けたり、ユーザに対して情報を出力したりする部分であり、文字画像読取部21と、認識結果表示部23と、ユーザID受付部24と、確定指示受付部25とを備える。
処理部30は、UI部20で受け付けた情報に基づいて文字認識を行った結果を、DB部40を用いて修正し、その結果をUI部20に表示する部分であり、文字認識部31と、形態素解析部32と、検索キー作成部33と、単語評価部34と、総合評価部35と、DB重み保持部36と、DB重み計算部37とを備える。
FIG. 6 is a block diagram illustrating a functional configuration example of the character recognition device according to the second embodiment.
As illustrated, the character recognition device 10 includes a UI (User Interface) unit 20, a
The UI unit 20 is a part that receives information input by the user and outputs information to the user. The UI unit 20 is a character
The
DB部40は、処理部30によって用いられるデータベースを含む部分であり、文書データ記憶部41a,41b,41cを備える。尚、図では、文書データ記憶部41a,41b,41cを示したが、これらを区別する必要がない場合は、文書データ記憶部41と称することもある。また、図には、3つの文書データ記憶部41しか示していないが、4つ以上の文書データ記憶部41を設けてもよい。更に、図では、DB部40を文字認識装置10の一部として示しているが、DB部40は文字認識装置10の外部に存在していてもよい。本実施の形態では、文書集合の一例として、DB部40を設けている。
The DB unit 40 includes a database used by the
まず、UI部20の構成要素について説明する。但し、文字画像読取部21、認識結果表示部23については、第1の実施の形態と同様なのでここでの説明は省略する。
ユーザID受付部24は、処理部30が検索対象DBを自動的に選択するための手がかりとなる情報として、ユーザIDを受け付ける。本実施の形態では、識別情報を受け付ける識別情報受付手段の一例として、ユーザID受付部24を設けている。
確定指示受付部25は、認識結果表示部23が表示した認識結果を最終的に確定させる指示入力を受け付ける。本実施の形態では、特定の文字を認識処理の結果として確定させる指示を受け付ける確定指示受付手段の一例として、確定指示受付部25を設けている。
First, components of the UI unit 20 will be described. However, since the character
The user
The confirmation
次に、処理部30の構成要素について説明する。但し、文字認識部31、形態素解析部32、検索キー作成部33、総合評価部35については、第1の実施の形態と同様なのでここでの説明は省略する。
単語評価部34は、ユーザID受付部24が受け付けたユーザIDをキーにDB重み保持部36を参照して検索対象DBを選択し、選択された検索対象DBごとに、検索キーの検索スコアを算出する。そして、DB重み保持部36を参照して検索スコアを重み付けして単語スコアを算出する。ここで、重み付けは、例えば、重み付け平均をとることによって行われる。本実施の形態では、検索語の使用頻度の一例として、検索スコアを用いている。
Next, components of the
The
DB重み保持部36は、DB重み計算部37によってデータベースに付与された重みを蓄積して保持する。例えば、DB重み計算部37によって与えられた得点を加算して保持する。
DB重み計算部37は、単語スコアをユーザに相応しいものとする検索対象DBが選択されるようにデータベースの重みを計算する。この重みは、確定指示受付部25と連携しており、ユーザが最終的な文字認識結果として確定したのと同じ文字又は文字列が多く見つかったデータベースに対して例えば得点を付与するといった重み付けの機能を持っている。本実施の形態では、特定の文書集合の重みを更新する更新手段の一例として、DB重み計算部37を設けている。
The DB
The DB
DB部40の構成要素については、第1の実施の形態と同様なのでここでの説明は省略する。 Since the components of the DB unit 40 are the same as those in the first embodiment, description thereof is omitted here.
ここで、DB重み保持部36の具体的な内容について説明する。
図7は、DB重み保持部36で保持する情報の例について示した図である。
図示するように、DB重み保持部36では、ユーザごとに、検索対象DBが各データベースの重みと共に設定されている。
例えば、ユーザID「U01」のユーザが文字認識を指示した場合には、検索対象DBとして、DB#1及びDB#2を用い、DB#1を検索して得られた検索スコアの2倍の重みを、DB#2を検索して得られた検索スコアに与えることが設定されている。
Here, specific contents of the DB
FIG. 7 is a diagram showing an example of information held by the DB
As shown in the figure, in the DB
For example, when the user with the user ID “U01” instructs character recognition,
次に、第2の実施の形態における文字認識装置10の動作について説明する。
図8は、このときの文字認識装置10の動作例を示したフローチャートである。
まず、ユーザが手書きされた文字画像や印刷された文字画像を文字認識装置10に入力すると、文字画像読取部21が、この文字画像を読み取る(ステップ151)。
また、ユーザがユーザIDを入力する操作を行うと、ユーザID受付部24が、入力されたユーザIDを受け付ける(ステップ152)。
Next, the operation of the character recognition device 10 in the second embodiment will be described.
FIG. 8 is a flowchart showing an operation example of the character recognition device 10 at this time.
First, when a user inputs a handwritten character image or a printed character image into the character recognition device 10, the character
Further, when the user performs an operation for inputting a user ID, the user
UI部20はこのようにして情報を取得すると、これらの情報を処理部30に出力する。
すると、まず、文字認識部31が、文字画像読取部21が出力した文字画像に対して文字認識を行う(ステップ153)。これにより、文字認識部31は、予め定められた個数の候補文字について、その文字コードと、その確からしさ(確信度、尤度)を示す文字スコアとを得る。尚、この文字コードと文字スコアは、処理部30の各機能から参照可能なメモリに記憶される。
次に、形態素解析部32が、文字認識部31が得た候補文字からなる文字列を形態素解析によって複数の語に分解する(ステップ154)。このとき、形態素解析によって得られた各語には、名詞、動詞、助詞、助動詞等の品詞情報が付されている。
When the UI unit 20 acquires the information in this way, the UI unit 20 outputs the information to the
Then, first, the
Next, the
次いで、検索キー作成部33は、形態素解析部32による形態素解析の結果に基づいて、分割単位を決定する(ステップ155)。例えば、形態素解析で得られた語のうち、助詞や助動詞の品詞情報が付された語は、前後の語が名詞、形容詞、動詞であればそれと連結して、分割単位とする。その他の場合は、形態素解析で得られた語をそのまま分割単位とする。
Next, the search
その後、検索キー作成部33は、分割単位ごとに、検索対象DBの検索に用いる検索キーを作成する。
即ち、検索キー作成部33は、まず、1つの分割単位に着目する(ステップ156)。
次に、着目している分割単位に含まれる各文字に対応する候補文字の組み合わせを取得する(ステップ157)。通常は、この取得した候補文字の組み合わせの全てを検索キーとすればよい。
ところが、このような検索キーの生成方法では、膨大な数の検索キーが生成される可能性がある。具体的には、候補文字の数をmとし、分割単位内の文字の数をnとすると、mのn乗個の検索キーが生成されることになる。そこで、このような事態を回避するため、候補文字の文字スコアの平均値が予め与えられた閾値より大きくなるような候補文字の組み合わせのみを検索キーとする。従って、検索キー作成部33は、ステップ153で記憶した文字スコアを参照し、候補文字の文字スコアの平均値が予め定めた閾値よりも大きいかどうかを判定する(ステップ158)。
After that, the search
That is, the search
Next, a combination of candidate characters corresponding to each character included in the division unit of interest is acquired (step 157). Normally, all of the acquired combinations of candidate characters may be used as search keys.
However, in such a search key generation method, a huge number of search keys may be generated. Specifically, assuming that the number of candidate characters is m and the number of characters in the division unit is n, m-th n search keys are generated. Therefore, in order to avoid such a situation, only combinations of candidate characters whose average character score of candidate characters is larger than a predetermined threshold are used as search keys. Accordingly, the search
その結果、文字スコアの平均値が閾値以下である場合は、他の候補文字の組み合わせについてステップ158の判定を行う。一方、文字スコアの平均値が閾値よりも大きい場合は、その候補文字の組み合わせを検索キーとし(ステップ159)、候補文字の組み合わせが他にあるかどうかを判定する(ステップ160)。そして、候補文字の組み合わせが他にあれば、ステップ157〜159の処理を繰り返し、候補文字の組み合わせが他になければ、単語評価部34の処理に移る。
As a result, if the average value of the character scores is equal to or less than the threshold value, the determination in step 158 is performed for other candidate character combinations. On the other hand, if the average value of the character scores is larger than the threshold value, the candidate character combination is used as a search key (step 159), and it is determined whether there are other candidate character combinations (step 160). If there are other candidate character combinations, the processes of steps 157 to 159 are repeated. If there are no other candidate character combinations, the process proceeds to the
そして、単語評価部34は、検索キー作成部33が作成した1つ以上の検索キーを受け取り、この検索キーを用いて、ユーザID受付部24で受け付けたユーザIDにDB重み保持部36にて対応付けられた文書データ記憶部41を検索対象DBとして検索する(ステップ161)。そして、検索結果に基づいて、検索スコアを算出する(ステップ162)。ここで、検索スコアは、例えば、検索キーで検索された文書の件数(検索ヒット件数)や、検索された文書における検索キーの出現頻度の総和等で算出すればよい。
Then, the
その後、単語評価部34は、ユーザID受付部24で受け付けたユーザIDにDB重み保持部36にて対応付けられた文書データ記憶部41が他にあるかどうかを判定する(ステップ163)。そして、文書データ記憶部41が他にあれば、ステップ161〜162の処理を繰り返す。また、文書データ記憶部41が他になければ、単語評価部34は、DB重み保持部36にて保持されたDBごとの重みで、検索スコアの加重平均をとることにより、単語スコアを算出する(ステップ164)。
Thereafter, the
次に、総合評価部35は、ステップ153で文字認識部31が得た文字スコアと、ステップ164で単語評価部34が算出した単語スコアとを統合して、候補文字ごとの最終的な確からしさを示す総合スコアを算出する(ステップ165)。そして、総合スコアは認識結果表示部23に送られ、認識結果表示部23が、候補文字に最終的な順位を付加して表示する(ステップ166)。この順位としては、例えば、ステップ165で算出された総合スコアの高いものほど上位になるような順位を採用することが考えられる。
更に、総合評価部35は、分割単位が他にあるかどうかを判定する(ステップ167)。そして、分割単位が他にあれば、制御を検索キー作成部33に戻してステップ156〜166の処理を繰り返し、分割単位が他になければ、DB重みを修正する処理に移る。
Next, the
Furthermore, the
即ち、認識結果表示部23が表示した候補文字及びその順位を妥当であると判断すると、ユーザは確定指示を入力し、確定指示受付部25が、この確定指示の入力を受け付ける(ステップ168)。
すると、確定指示の入力を受け付けた旨は確定指示受付部25からDB重み計算部37へと伝えられ、DB重み計算部37が、確定指示に基づいて、DB重み保持部36にて保持されている各データベースの重みを変更し(ステップ169)、第2の実施の形態の動作は終了する。
That is, when it is determined that the candidate characters displayed by the recognition
Then, the fact that the input of the confirmation instruction has been accepted is transmitted from the confirmation
尚、以上の動作例によって算出される総合スコアは、次のような式で表される。 The total score calculated by the above operation example is expressed by the following equation.
Tijは、ある分割単位におけるi番目の文字のj番目の候補文字の総合スコアである。
Cijは、ある分割単位におけるi番目の文字のj番目の候補文字の文字スコアである。
Wmは、m番目の検索対象DBに対して付与された重みである。
Sijkmは、ある分割単位におけるi番目の文字のj番目の候補文字を含むk番目の検索キーでm番目の検索対象DBを検索したときに得られた検索スコアである。尚、Sijkmとしては、ヒット件数や、ヒット全文書中の検索キーの出現頻度等を用いればよい。また、出現頻度が0である場合でも単語スコアが0にならないように事前頻度1等を全ての検索キーに加えてもよい。
そして、上記式は、文字スコアCijと、(Wm×Sijkm)のmに関する総和のkを変動させた場合の最大値である単語スコアとを掛け合わせることにより、総合スコアTijが得られることを示している。
Tij is a total score of the jth candidate character of the ith character in a certain division unit.
C ij is the character score of the j-th candidate character of the i-th character in a certain division unit.
W m is a weight assigned to the m-th search target DB.
S ijkm is a search score obtained when the mth search target DB is searched with the kth search key including the jth candidate character of the ith character in a certain division unit. As S ijkm , the number of hits, the appearance frequency of search keys in all hit documents, and the like may be used. Further, even when the appearance frequency is 0, the
Then, the above formula is obtained by multiplying the character score C ij by the word score which is the maximum value when k of the total sum relating to m of (W m × S ijkm ) is changed to obtain the total score T ij. It is shown that.
ここで、図8に示した動作例を、具体例を用いて説明する。
まず、ステップ153で文字認識部31によって算出され、図示しないメモリを介して検索キー作成部33及び総合評価部35に渡される文字スコアCijは、図3に示したものと同様である。
Here, the operation example shown in FIG. 8 will be described using a specific example.
First, the character score C ij calculated by the
図9は、ステップ162で単語評価部34によって算出される検索スコアSijkmを示した図である。但し、ステップ158で用いる閾値を80とし、文字スコアの平均値がこの閾値を超える候補文字の組み合わせについて検索スコアを示している。また、ここでは、図7に示したユーザID「U01」のユーザが文字認識を指示する場合を想定し、検索対象DBとしてDB#1及びDB#2を用いるものとする。従って、検索スコアとしては、Sijk1及びSijk2が算出されている。
FIG. 9 is a diagram illustrating the search score S ijkm calculated by the
例えば、1番目の文字の1番目の候補文字「士」を含む検索キーのうち、文字スコアの平均値が80を超えるものは、「士田」と「士旧」である。そこで、図には、「士田」を検索キーとしてDB#1を検索して得られた検索スコアS1111と、「士田」を検索キーとしてDB#2を検索して得られた検索スコアS1112と、「士旧」を検索キーとしてDB#1を検索して得られた検索スコアS1121と、「士旧」を検索キーとしてDB#2を検索して得られた検索スコアS1122とが示されている。この検索スコアS1111と検索スコアS1112を重み付けして足し合わせた第1の加重平均と、検索スコアS1121と検索スコアS1122を重み付けして足し合わせた第2の加重平均の中で最大である第1の加重平均が単語スコアとして、図示しないメモリを介して総合評価部35に渡される。同様に、2番目の候補文字「キ」を含む検索キー、3番目の候補文字「土」を含む検索キー、4番目の候補文字「工」を含む検索キーのうち、文字スコアの平均値が80を超える検索キーを用いた場合の検索スコアも示されている。尚、5番目の候補文字「ユ」を含む検索キーで、文字スコアの平均値が80を超えるものはないので、候補文字「ユ」を含む検索キーを用いた場合の検索スコアを格納する欄は設けていない。
For example, among the search keys including the first candidate character “shi” of the first character, those having an average character score of more than 80 are “shida” and “shiji”. Therefore, in the figure, a search score S 1111 obtained by searching
また、2番目の文字の1番目の候補文字「田」を含む検索キーのうち、文字スコアの平均値が80を超えるものは、「士田」と「キ田」と「土田」と「工田」である。そこで、図には、「士田」を検索キーとしてDB#1を検索して得られた検索スコアS2111と、「士田」を検索キーとしてDB#2を検索して得られた検索スコアS2112と、「キ田」を検索キーとしてDB#1を検索して得られた検索スコアS2121と、「キ田」を検索キーとしてDB#2を検索して得られた検索スコアS2122と、「土田」を検索キーとしてDB#1を検索して得られた検索スコアS2131と、「土田」を検索キーとしてDB#2を検索して得られた検索スコアS2132と、「工田」を検索キーとしてDB#1を検索して得られた検索スコアS2141と、「工田」を検索キーとしてDB#2を検索して得られた検索スコアS2142とが示されている。この検索スコアS2111と検索スコアS2112を重み付けして足し合わせた第1の加重平均と、検索スコアS2121と検索スコアS2122を重み付けして足し合わせた第2の加重平均と、検索スコアS2131と検索スコアS2132を重み付けして足し合わせた第3の加重平均と、検索スコアS2141と検索スコアS2142を重み付けして足し合わせた第4の加重平均の中で最大である第3の加重平均が単語スコアとして、図示しないメモリを介して総合評価部35に渡される。同様に、2番目の候補文字「旧」を含む検索キーのうち、文字スコアの平均値が80を超える検索キーを用いた場合の検索スコアも示されている。尚、3番目の候補文字「口」を含む検索キー、4番目の候補文字「十」を含む検索キー、5番目の候補文字「X」を含む検索キーで、文字スコアの平均値が80を超えるものはないので、候補文字「口」、「十」、「X」を含む検索キーを用いた場合の検索スコアを格納する欄は設けていない。
Of the search keys that include the first candidate character “da” of the second character, those with an average character score exceeding 80 are “Shida”, “Kita”, “Tsuchida”, and “ Rice field ". Therefore, in the figure, the search score S 2111 obtained by searching the
尚、図9では、DB#1を検索することによって得られた検索スコアSijk1の値、及び、DB#2を検索することによって得られた検索スコアSijk2の値として、図7でユーザID「U01」のユーザに対して設定されたDBごとの重み付けに基づいて加重平均をとると図4のSijkと等しくなるような値を例示している。
従って、ステップ165で総合評価部35によって算出される総合スコアTijは、図5に示したものと同様のものとなる。
In FIG. 9, the value of the search score S Ijk1 obtained by searching the
Therefore, the total score T ij calculated by the
また、ステップ168でのDB重みの修正について説明する。
例えば、ステップ167でユーザが「土田」を文字認識結果として確定させる指示を行ったとする。この場合、図9において、「土田」は、DB#2において多く見つかっていることが分かる。
一方、図7を参照すると、ユーザID「U01」のユーザに対しては、DB#1の重みが1で、DB#2の重みが2となっている。このような場合、ユーザが最終的に確定した単語がより多く見つかったDB#2の重みを2よりも大きな値に変更する。ここで、重みをどの程度上げるかについては、予め基準を設定しておき、その基準に基づくようにするとよい。
The correction of the DB weight in step 168 will be described.
For example, it is assumed that the user gives an instruction to confirm “Tsuchida” as a character recognition result in step 167. In this case, it can be seen in FIG. 9 that many “Tsuchida” are found in
On the other hand, referring to FIG. 7, the weight of
尚、この第2の実施の形態において、ステップ161では、図7で重みが0以外のデータベースを検索対象DBとして決定したが、これには限らない。例えば、重みの閾値を設定し、重みが0以外のデータベースであってもこの閾値を超える重みのデータベースのみを検索対象DBとすることも考えられる。或いは、例えば、重みの大きいものから予め定めた最大数までデータベースを選択してこれを検索対象DBとしてもよい。また、文字認識装置10が検索対象DBをユーザの意思に関係なく決定するのではなく、ユーザの選択を補助するように、優先すべきデータベースを提示するようにしてもよい。 In the second embodiment, in step 161, the database having a weight other than 0 in FIG. 7 is determined as the search target DB. However, the present invention is not limited to this. For example, it is also conceivable that a threshold value for weight is set and only a database having a weight exceeding this threshold value is set as a search target DB even if the database has a weight other than zero. Alternatively, for example, databases may be selected from a large weight to a predetermined maximum number, and this may be used as a search target DB. Further, the character recognition device 10 may present a database to be prioritized so as to assist the user's selection instead of determining the search target DB regardless of the user's intention.
また、本実施の形態では、ユーザIDに対して検索対象DB及び重みを定義し、文字認識を指示したユーザのユーザIDに対応する検索対象DB及び重みを用いて単語スコアを算出するようにした。これは、ユーザ特有の語彙等をカバーできる可能性が高まり、文字認識の精度向上が期待できるからである。しかしながら、このように文字認識に関して個別の精度を要求する単位としては、ユーザ以外にも、例えば、組織、文書、文書の種類等が考えられる。即ち、組織に対して検索対象DB及び重みを定義し、文字認識を指示したユーザが所属する組織に対応する検索対象DB及び重みを用いて単語スコアを算出したり、文書や文書の種類に対して検索対象DB及び重みを定義し、文字認識の対象の文書や文書の種類に対応する検索対象DB及び重みを用いて単語スコアを算出したりする構成を採用してもよい。 In this embodiment, a search target DB and a weight are defined for the user ID, and a word score is calculated using the search target DB and the weight corresponding to the user ID of the user who has instructed character recognition. . This is because the possibility of covering vocabulary and the like unique to the user is increased, and an improvement in character recognition accuracy can be expected. However, in addition to the user, for example, an organization, a document, a document type, and the like can be considered as a unit for requesting individual accuracy regarding character recognition. That is, the search target DB and weight are defined for the organization, and the word score is calculated using the search target DB and the weight corresponding to the organization to which the user who instructed character recognition belongs, Alternatively, a configuration may be employed in which the search target DB and the weight are defined, and the word score is calculated using the search target DB and the weight corresponding to the character recognition target document or document type.
ところで、本実施の形態における文字認識結果の修正処理は、汎用のコンピュータにおいて実現してもよい。そこで、この処理をコンピュータ90で実現するものとして、そのハードウェア構成について説明する。
図10は、コンピュータ90のハードウェア構成を示した図である。
図示するように、コンピュータ90は、演算手段であるCPU(Central Processing Unit)91と、記憶手段であるメインメモリ92及び磁気ディスク装置(HDD:Hard Disk Drive)93とを備える。ここで、CPU91は、OS(Operating System)やアプリケーション等の各種ソフトウェアを実行し、上述した各機能を実現する。また、メインメモリ92は、各種ソフトウェアやその実行に用いるデータ等を記憶する記憶領域であり、磁気ディスク装置93は、各種ソフトウェアに対する入力データや各種ソフトウェアからの出力データ等を記憶する記憶領域である。
更に、コンピュータ90は、外部との通信を行うための通信I/F94と、ビデオメモリやディスプレイ等からなる表示機構95と、キーボードやマウス等の入力デバイス96とを備える。
By the way, the correction process of the character recognition result in the present embodiment may be realized by a general-purpose computer. Therefore, the hardware configuration will be described assuming that this processing is realized by the
FIG. 10 is a diagram illustrating a hardware configuration of the
As shown in the figure, the
Further, the
尚、本実施の形態を実現するプログラムは、通信手段により提供することはもちろん、CD−ROM等の記録媒体に格納して提供することも可能である。 The program for realizing this embodiment can be provided not only by communication means but also by storing it in a recording medium such as a CD-ROM.
10…文字認識装置、20…UI部、30…処理部、40…DB部 DESCRIPTION OF SYMBOLS 10 ... Character recognition apparatus, 20 ... UI part, 30 ... Processing part, 40 ... DB part
Claims (8)
前記文字列に含まれる前記特定の文字と、前記文字列に含まれる当該特定の文字の直前又は直後の文字とを含む検索語を生成する生成手段と、
前記認識処理以外の用途のために用意された文書集合を、前記生成手段により生成された前記検索語を用いて検索することにより、当該検索語の使用に関する指標を取得する第2の取得手段と、
前記第1の取得手段により取得された前記特定の文字の前記確信度を、前記第2の取得手段により取得された前記指標に基づいて修正する修正手段と
を備えたことを特徴とする認識結果修正装置。 First acquisition means for acquiring a certainty factor in the recognition process of a specific character included in the character string obtained as a result of the recognition process of any one of the character recognition process and the voice recognition process;
Generating means for generating a search word including the specific character included in the character string and a character immediately before or after the specific character included in the character string;
Second acquisition means for acquiring an index relating to use of the search word by searching a set of documents prepared for a purpose other than the recognition processing using the search word generated by the generation means; ,
A recognition result comprising correction means for correcting the certainty factor of the specific character acquired by the first acquisition means based on the index acquired by the second acquisition means Correction device.
前記第2の取得手段は、前記識別情報受付手段が受け付けた前記識別情報に予め関連付けられた前記文書集合を検索することを特徴とする請求項1に記載の認識結果修正装置。 An identification information receiving means for receiving identification information for identifying a unit that requires individual accuracy with respect to the recognition processing;
The recognition result correcting apparatus according to claim 1, wherein the second obtaining unit searches the document set associated in advance with the identification information received by the identification information receiving unit.
前記確定指示受付手段が前記指示を受け付けると、特定の文書集合を前記検索語を用いて検索することで得られた当該検索語の使用頻度に基づいて、当該特定の文書集合の重みを更新する更新手段と
を更に備えたことを特徴とする請求項3に記載の認識結果修正装置。 A confirmation instruction accepting unit that accepts an instruction to confirm the specific character included in the character string as a result of the recognition process;
When the confirmation instruction receiving unit receives the instruction, the weight of the specific document set is updated based on the use frequency of the search word obtained by searching the specific document set using the search word. The recognition result correcting apparatus according to claim 3, further comprising update means.
前記第2の取得手段は、前記選択指示受付手段が受け付けた前記指示により選択された前記文書集合を検索することを特徴とする請求項1に記載の認識結果修正装置。 A selection instruction receiving means for receiving an instruction of a user for selecting the document set;
The recognition result correcting apparatus according to claim 1, wherein the second acquisition unit searches the document set selected by the instruction received by the selection instruction receiving unit.
前記生成手段は、前記形態素解析手段による形態素解析の結果に基づいて、前記検索語に含める前記特定の文字の直前又は直後の文字を特定することを特徴とする請求項1乃至5の何れかに記載の認識結果修正装置。 It further comprises morphological analysis means for performing morphological analysis on the character string,
The said generation means specifies the character immediately before or after the said specific character included in the said search word based on the result of the morphological analysis by the said morpheme analysis means, The one in any one of Claim 1 thru | or 5 characterized by the above-mentioned. The recognition result correction device described.
前記読取手段により読み取られた前記画像に対して文字認識を行った結果として得られた文字列に含まれる特定の文字の当該文字認識における確信度を取得する第1の取得手段と、
前記文字列に含まれる前記特定の文字と、前記文字列に含まれる当該特定の文字の直前又は直後の文字とを含む検索語を生成する生成手段と、
前記文字認識以外の用途のために用意された文書集合を、前記生成手段により生成された前記検索語を用いて検索することにより、当該検索語の使用に関する指標を取得する第2の取得手段と、
前記第1の取得手段により取得された前記特定の文字の前記確信度を、前記第2の取得手段により取得された前記指標に基づいて修正する修正手段と、
前記文字列に含まれる前記特定の文字を、前記修正手段による修正後の当該特定の文字の前記確信度に基づいて表示する表示手段と
を備えたことを特徴とする画像処理装置。 Reading means for reading the image from the recording medium on which the image is recorded;
First acquisition means for acquiring a certainty factor in character recognition of a specific character included in a character string obtained as a result of performing character recognition on the image read by the reading means;
Generating means for generating a search word including the specific character included in the character string and a character immediately before or after the specific character included in the character string;
Second acquisition means for acquiring an index relating to use of the search word by searching a document set prepared for use other than the character recognition using the search word generated by the generation means; ,
Correction means for correcting the certainty factor of the specific character acquired by the first acquisition means based on the index acquired by the second acquisition means;
An image processing apparatus comprising: a display unit configured to display the specific character included in the character string based on the certainty factor of the specific character after correction by the correction unit.
文字認識処理及び音声認識処理の何れか一方の認識処理の結果として得られた文字列に含まれる特定の文字の当該認識処理における確信度を取得する機能と、
前記文字列に含まれる前記特定の文字と、前記文字列に含まれる当該特定の文字の直前又は直後の文字とを含む検索語を生成する機能と、
前記認識処理以外の用途のために用意された文書集合を、前記検索語を用いて検索することにより、当該検索語の使用に関する指標を取得する機能と、
前記特定の文字の前記確信度を、前記指標に基づいて修正する機能と
を実現させるためのプログラム。 On the computer,
A function of acquiring a certainty factor in the recognition process of a specific character included in the character string obtained as a result of the recognition process of any one of the character recognition process and the voice recognition process;
A function of generating a search term including the specific character included in the character string and a character immediately before or after the specific character included in the character string;
A function for obtaining an index relating to use of the search word by searching a set of documents prepared for use other than the recognition process using the search word;
A program for realizing a function of correcting the certainty factor of the specific character based on the index.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009194802A JP2011048499A (en) | 2009-08-25 | 2009-08-25 | Recognition result correction device, image processor, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009194802A JP2011048499A (en) | 2009-08-25 | 2009-08-25 | Recognition result correction device, image processor, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011048499A true JP2011048499A (en) | 2011-03-10 |
Family
ID=43834773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009194802A Pending JP2011048499A (en) | 2009-08-25 | 2009-08-25 | Recognition result correction device, image processor, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011048499A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014120059A (en) * | 2012-12-18 | 2014-06-30 | Fuji Xerox Co Ltd | Information processing apparatus and information processing program |
JP2019191776A (en) * | 2018-04-20 | 2019-10-31 | 株式会社東芝 | Information management device and information management method |
CN111160390A (en) * | 2019-12-02 | 2020-05-15 | 云知声智能科技股份有限公司 | Image identification method and device |
-
2009
- 2009-08-25 JP JP2009194802A patent/JP2011048499A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014120059A (en) * | 2012-12-18 | 2014-06-30 | Fuji Xerox Co Ltd | Information processing apparatus and information processing program |
JP2019191776A (en) * | 2018-04-20 | 2019-10-31 | 株式会社東芝 | Information management device and information management method |
CN111160390A (en) * | 2019-12-02 | 2020-05-15 | 云知声智能科技股份有限公司 | Image identification method and device |
CN111160390B (en) * | 2019-12-02 | 2023-06-20 | 云知声智能科技股份有限公司 | Image recognition method and device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7831911B2 (en) | Spell checking system including a phonetic speller | |
JP5710624B2 (en) | Method and system for extraction | |
JP5257071B2 (en) | Similarity calculation device and information retrieval device | |
US8046368B2 (en) | Document retrieval system and document retrieval method | |
CN102298582B (en) | Data search and matching process and system | |
JP5449521B2 (en) | Search device and search program | |
US20070055493A1 (en) | String matching method and system and computer-readable recording medium storing the string matching method | |
CN1426561A (en) | Computer-aided reading system and method with cross-languige reading wizard | |
JP2007004633A (en) | Language model generation device and language processing device using language model generated by the same | |
JP5710581B2 (en) | Question answering apparatus, method, and program | |
US20080077397A1 (en) | Dictionary creation support system, method and program | |
US8583415B2 (en) | Phonetic search using normalized string | |
WO2023045868A1 (en) | Text error correction method and related device therefor | |
Lund et al. | How well does multiple OCR error correction generalize? | |
JP4266222B2 (en) | WORD TRANSLATION DEVICE, ITS PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM | |
CN110888946A (en) | Entity linking method based on knowledge-driven query | |
CN114141384A (en) | Method, apparatus and medium for retrieving medical data | |
JP2011048499A (en) | Recognition result correction device, image processor, and program | |
JP5189413B2 (en) | Voice data retrieval system | |
CN115831117A (en) | Entity identification method, entity identification device, computer equipment and storage medium | |
CN115906878A (en) | Machine translation method based on prompt | |
JP5594134B2 (en) | Character string search device, character string search method, and character string search program | |
JP5298834B2 (en) | Example sentence matching translation apparatus, program, and phrase translation apparatus including the translation apparatus | |
JP2005122665A (en) | Electronic equipment apparatus, method for updating related word database, and program | |
JP5428199B2 (en) | Parallel translation extraction apparatus and parallel translation extraction method |