JP7490861B2 - Character candidate suggestion device, handwritten character identification system, handwritten character identification method and program - Google Patents
Character candidate suggestion device, handwritten character identification system, handwritten character identification method and program Download PDFInfo
- Publication number
- JP7490861B2 JP7490861B2 JP2023096647A JP2023096647A JP7490861B2 JP 7490861 B2 JP7490861 B2 JP 7490861B2 JP 2023096647 A JP2023096647 A JP 2023096647A JP 2023096647 A JP2023096647 A JP 2023096647A JP 7490861 B2 JP7490861 B2 JP 7490861B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- candidate
- characters
- similar
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 39
- 238000012545 processing Methods 0.000 claims description 160
- 230000008569 process Effects 0.000 claims description 30
- 230000005540 biological transmission Effects 0.000 claims description 26
- 238000012790 confirmation Methods 0.000 claims description 15
- 230000000007 visual effect Effects 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 29
- 238000004891 communication Methods 0.000 description 15
- 238000012015 optical character recognition Methods 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000011179 visual inspection Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/768—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/226—Character recognition characterised by the type of writing of cursive writing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/192—Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Character Discrimination (AREA)
Description
本発明は、文字候補提案装置、手書文字識別システム、手書文字識別方法およびプログラムに関するものである。 The present invention relates to a character candidate suggestion device, a handwritten character recognition system, a handwritten character recognition method, and a program.
特許文献1には、「情報処理装置は、画像データから文字列を抽出する文字抽出部224と、入力文字に対応する1または2以上の変換候補文字を含む変換候補リストを作成するリスト作成部244と、前記変換候補リストに含まれる前記1または2以上の変換候補文字と、前記文字抽出部によって抽出された文字列との比較に基づいて、変換先の文字を特定する特定部248と、前記特定部によって特定された前記変換先の文字を含む表示画面を生成する表示制御部252と、を備える」ことについて記載されている。
Patent document 1 describes that "the information processing device includes a
上記技術は、文字の候補を提示できるが、文字の認識を誤ると、適切な結果を得ることが難しい。 The above technology can present character candidates, but if the characters are not recognized correctly, it is difficult to obtain appropriate results.
本発明の目的は、類似する文字列候補をより適切に提案する技術を提供することにある。 The objective of the present invention is to provide a technology that more appropriately suggests similar string candidates.
本願は、上記課題の少なくとも一部を解決する手段を複数含んでいるが、その例を挙げるならば、以下のとおりである。本発明の一態様に係る情報処理装置は、文字の外観の類似関係を記憶する類似文字記憶部と、実存する文字列を記憶する実存文字記憶部と、一つ以上の文字を受信して該文字の外観の類似する文字候補の案出を受託する受託処理部と、受信した前記文字と外観が類似する文字の候補を、前記類似文字記憶部と照合することで特定し、前記外観が類似する文字の候補の組み合わせのうち前記実存文字記憶部に記憶された前記実存する文字列と照合する照合処理部と、前記照合処理部による照合の結果ヒットした前記外観が類似する文字の候補の組み合わせを候補文字として出力する候補文字送信処理部と、を備える。 The present application includes a number of means for solving at least part of the above-mentioned problems, examples of which are as follows: An information processing device according to one aspect of the present invention includes a similar character storage unit that stores similarity relationships in the appearance of characters, an existing character storage unit that stores existing character strings, a request processing unit that receives one or more characters and accepts a request to devise character candidates similar in appearance to the characters, a matching processing unit that identifies character candidates similar in appearance to the received character by matching them with the similar character storage unit and matches combinations of the candidate characters similar in appearance with the existing character strings stored in the existing character storage unit, and a candidate character transmission processing unit that outputs the combinations of candidate characters similar in appearance that are found as a result of matching by the matching processing unit as candidate characters.
また例えば、上記の文字候補提案装置は、前記候補文字を出力後、前記受託処理部が受信した前記文字のいずれかと類似する文字を受け付けると、前記類似文字記憶部に記憶されていない類似関係であれば前記類似文字記憶部に記憶させる類似文字登録処理部、を備えるものであってもよい。 For example, the character candidate suggestion device may also include a similar character registration processing unit that, after outputting the candidate characters, when the entrusted processing unit receives a character similar to any of the characters received, stores the similar character in the similar character storage unit if the similarity relationship is not stored in the similar character storage unit.
また例えば、上記の文字候補提案装置は、前記実存文字記憶部には、実存する人名の文字列が格納されており、前記受託処理部は、案出する前記文字候補として人名の案出を受託し、前記候補文字送信処理部は、前記外観が類似する文字の候補の組み合わせを人名の候補文字として出力するものであってもよい。 For example, in the character candidate suggestion device described above, the existing character storage unit may store character strings of existing personal names, the request processing unit may be commissioned to suggest personal names as the character candidates to be suggested, and the candidate character transmission processing unit may output combinations of candidate characters having similar appearances as candidate characters for personal names.
また例えば、上記の文字候補提案装置であって、前記実存する人名の文字列は、姓と名が区分されており、受信した前記文字を姓と名に区分して前記照合処理部に照合させる姓名判別処理部、を備えるものであってもよい。 For example, the character string of the existing person's name may be divided into a surname and a given name, and the device may include a name discrimination processing unit that divides the received characters into a surname and a given name and causes the matching processing unit to match them.
また例えば、上記の文字候補提案装置であって、前記姓名判別処理部は、受信した前記文字について姓と名を区切る位置を変化させて姓と名に区分した組み合わせを特定し、各組み合わせの姓と名の両方について、前記照合処理部による照合の結果ヒットを得られた場合に前記候補文字とする、ことを特徴とするものであってもよい。 For example, the character candidate suggestion device may be characterized in that the first name discrimination processing unit changes the position separating the first name and last name for the received characters to identify combinations of first names and last names, and when a match is obtained as a result of matching by the matching processing unit for both the first name and last name for each combination, the combination is designated as a candidate character.
また例えば、上記の文字候補提案装置であって、前記候補文字送信処理部は、前記候補文字を、出現頻度に応じて整列して出力する、ことを特徴とするものであってもよい。 For example, in the above character candidate suggestion device, the candidate character transmission processing unit may be characterized in that it outputs the candidate characters after arranging them according to their frequency of appearance.
また例えば、上記の文字候補提案装置であって、前記受託処理部が受信する前記文字は、手書き文字を読み取って認識した文字である、ことを特徴とするものであってもよい。 For example, the character candidate suggestion device described above may be characterized in that the characters received by the processing unit are characters that have been recognized by reading handwritten characters.
また、本発明の別の態様にかかる手書文字識別システムは、文字候補提案装置と、前記文字候補提案装置とネットワークを介して通信可能に接続される業務端末と、前記業務端末からの指示に応じて手書文字を読み取る読取装置と、を含む手書文字識別システムであって、前記業務端末は、前記読取装置から前記手書文字を取得して文字認識を行う文字認識部と、前記文字認識部により認識された文字を前記文字候補提案装置に送信して文字候補の提案を委託する委託処理部と、前記文字候補提案装置から出力された文字候補を表示する目視確認処理部と、を備え、前記文字候補提案装置は、文字の外観の類似関係を記憶する類似文字記憶部と、実存する文字列を記憶する実存文字記憶部と、一つ以上の文字を受信して該文字の外観の類似する文字候補の案出を受託する受託処理部と、受信した前記文字と外観が類似する文字の候補を、前記類似文字記憶部と照合することで特定し、前記外観が類似する文字の候補の組み合わせのうち前記実存文字記憶部に記憶された前記実存する文字列と照合する照合処理部と、前記照合処理部による照合の結果ヒットした前記外観が類似する文字の候補の組み合わせを候補文字として出力する候補文字送信処理部と、を備える、ことを特徴とする。 In addition, a handwritten character identification system according to another aspect of the present invention is a handwritten character identification system including a character candidate suggestion device, a business terminal communicably connected to the character candidate suggestion device via a network, and a reading device that reads handwritten characters in response to instructions from the business terminal, the business terminal including a character recognition unit that acquires the handwritten characters from the reading device and performs character recognition, a commissioning processing unit that transmits the characters recognized by the character recognition unit to the character candidate suggestion device and commissions the suggestion of character candidates, and a visual confirmation processing unit that displays the character candidates output from the character candidate suggestion device, and the character candidate suggestion device is configured to The system is characterized by comprising a similar character storage unit that stores the similarity relationship of character appearances, an existing character storage unit that stores existing character strings, a request processing unit that receives one or more characters and accepts a request to create character candidates similar in appearance to the received characters, a matching processing unit that identifies character candidates similar in appearance to the received characters by matching them with the similar character storage unit and matches combinations of the candidate characters similar in appearance with the existing character strings stored in the existing character storage unit, and a candidate character transmission processing unit that outputs the combinations of candidate characters similar in appearance that are found as a result of matching by the matching processing unit as candidate characters.
また、本発明の別の態様にかかる手書文字識別方法は、文字候補提案装置と、前記文字候補提案装置とネットワークを介して通信可能に接続される業務端末と、前記業務端末からの指示に応じて手書文字を読み取る読取装置と、を含む手書文字識別システムによる手書文字識別方法であって、前記業務端末は、前記読取装置から前記手書文字を取得して文字認識を行う文字認識ステップと、前記文字認識ステップにおいて認識された文字を前記文字候補提案装置に送信して文字候補の提案を委託する委託処理ステップと、前記文字候補提案装置から出力された文字候補を表示する目視確認処理ステップと、を実行し、前記文字候補提案装置は、文字の外観の類似関係を記憶する類似文字記憶部と、実存する文字列を記憶する実存文字記憶部と、を備え、一つ以上の文字を受信して該文字の外観の類似する文字候補の案出を受託する受託処理ステップと、受信した前記文字と外観が類似する文字の候補を、前記類似文字記憶部と照合することで特定し、前記外観が類似する文字の候補の組み合わせのうち前記実存文字記憶部に記憶された前記実存する文字列と照合する照合処理ステップと、前記照合処理ステップによる照合の結果ヒットした前記外観が類似する文字の候補の組み合わせを候補文字として出力する候補文字送信処理ステップと、を実行することを特徴とする。 In addition, a handwritten character identification method according to another aspect of the present invention is a handwritten character identification method using a handwritten character identification system including a character candidate suggestion device, a business terminal communicably connected to the character candidate suggestion device via a network, and a reading device that reads handwritten characters in response to instructions from the business terminal, in which the business terminal executes a character recognition step of acquiring the handwritten characters from the reading device and performing character recognition, a commissioning processing step of transmitting the characters recognized in the character recognition step to the character candidate suggestion device and commissioning the suggestion of character candidates, and a visual confirmation processing step of displaying the character candidates output from the character candidate suggestion device, and The device includes a similar character storage unit that stores the similarity relationship between the appearances of characters, and an existing character storage unit that stores existing character strings, and executes an order processing step of receiving one or more characters and accepting the creation of character candidates similar in appearance to the received character, a matching processing step of identifying character candidates similar in appearance to the received character by matching them with the similar character storage unit, and matching combinations of the candidate characters similar in appearance with the existing character strings stored in the existing character storage unit, and a candidate character transmission processing step of outputting the combination of candidate characters similar in appearance that is found as a result of the matching in the matching processing step as candidate characters.
また、本発明の別の態様にかかるプログラムは、コンピュータに、手書文字の識別を支援させる処理を行わせるプログラムであって、前記コンピュータは、文字の外観の類似関係を記憶する類似文字記憶部と、実存する文字列を記憶する実存文字記憶部と、処理部と、を備え、前記処理部に、一つ以上の文字を受信して該文字の外観の類似する文字候補の案出を受託する受託処理ステップと、受信した前記文字と外観が類似する文字の候補を、前記類似文字記憶部と照合することで特定し、前記外観が類似する文字の候補の組み合わせのうち前記実存文字記憶部に記憶された前記実存する文字列と照合する照合処理ステップと、前記照合処理ステップによる照合の結果ヒットした前記外観が類似する文字の候補の組み合わせを候補文字として出力する候補文字送信処理ステップと、を実施させることを特徴とする。 In addition, a program according to another aspect of the present invention is a program for making a computer perform a process to assist in the identification of handwritten characters, the computer comprising a similar character storage unit that stores similarity relationships in the appearance of characters, an existing character storage unit that stores existing character strings, and a processing unit, and is characterized in that the processing unit performs an order processing step of receiving one or more characters and accepting the creation of character candidates having a similar appearance to the received character, a matching processing step of identifying character candidates having a similar appearance to the received character by matching them with the similar character storage unit, and matching combinations of the candidate characters having a similar appearance with the existing character strings stored in the existing character storage unit, and a candidate character transmission processing step of outputting the combinations of candidate characters having a similar appearance that are found as a result of the matching in the matching processing step as candidate characters.
本発明によると、文章の内容を適切に評価できる技術を提供することができる。 The present invention provides a technology that can appropriately evaluate the content of a text.
上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。 Issues, configurations, and advantages other than those described above will become clear from the description of the embodiments below.
以下に、本発明の一態様に係る実施形態を適用した手書文字識別システム1について、図面を参照して説明する。以下の実施の形態においては便宜上その必要があるときは、複数のセクションまたは実施の形態に分割して説明するが、特に明示した場合を除き、それらはお互いに無関係なものではなく、一方は他方の一部または全部の変形例、詳細、補足説明等の関係にある。 A handwriting recognition system 1 to which an embodiment according to one aspect of the present invention is applied will be described below with reference to the drawings. In the following embodiment, when necessary for convenience, the description will be divided into multiple sections or embodiments. However, unless otherwise specified, they are not unrelated to each other, and one is a partial or complete modification, detail, supplementary explanation, etc. of the other.
また、以下の実施の形態において、要素の数等(個数、数値、量、範囲等を含む)に言及する場合、特に明示した場合および原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではなく、特定の数以上でも以下でもよい。 In addition, in the following embodiments, when referring to the number of elements (including the number, numerical value, amount, range, etc.), unless otherwise specified or clearly limited in principle to a specific number, the number is not limited to that specific number and may be more than or less than the specific number.
さらに、以下の実施の形態において、その構成要素(要素ステップ等も含む)は、特に明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではないことは言うまでもない。 Furthermore, it goes without saying that in the following embodiments, the components (including element steps, etc.) are not necessarily essential unless specifically stated otherwise or considered to be clearly essential in principle.
同様に、以下の実施の形態において、構成要素等の形状、位置関係等に言及するときは特に明示した場合および原理的に明らかにそうではないと考えられる場合等を除き、実質的にその形状等に近似または類似するもの等を含むものとする。このことは、上記数値および範囲についても同様である。 Similarly, in the following embodiments, when referring to the shapes, positional relationships, etc. of components, etc., it is intended to include shapes that are substantially similar or similar to those, unless otherwise specified or considered to be clearly different in principle. The same applies to the above numerical values and ranges.
また、実施の形態を説明するための全図において、同一の部材には原則として同一の符号を付し、その繰り返しの説明は省略する。 In addition, in all drawings used to explain the embodiments, the same components are generally given the same reference numerals, and repeated explanations will be omitted.
図1は、本実施形態に係る手書文字識別システムの概要を例示するブロック図である。手書文字識別システム1は、利用者が業務端末200を用いてブラウザ等を介して文字候補提案装置100に接続して利用するが、これに限られず、文字候補提案装置100の各機能がアプリケーションソフトウェアとして業務端末200に搭載されるものであってもよい。
FIG. 1 is a block diagram illustrating an example of an overview of a handwriting identification system according to this embodiment. A user uses a
なお、業務端末200から文字候補提案装置100に接続する際には、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット、携帯電話網等、あるいはこれらが複合した通信網であるネットワーク50を介して接続される。当該ネットワークは、携帯電話通信網等の無線通信網上のVPN(Virtual Private Network)等であってもよい。
When connecting from the
手書文字識別システム1の応用例を挙げると、手書文字識別システム1は、所定の書面(例えば、保険の申込書や銀行口座の開設申込書等、氏名を所定の様式に従って手書きで入力する書面)の取り扱いを伴う業務システム等がある。 Example applications of the handwriting identification system 1 include business systems that handle specific documents (such as insurance applications and bank account opening applications, where names are entered by hand according to a specific format).
その際には、利用者は、所定の書面の所定の欄に氏名を手書きで書き込むことが想定されるが、大量の書面を事務処理するためには、コンピュータ処理による大量の情報処理を介した方が効率性の面でメリットが大きいため、一般的には氏名等の手書きの記述はOCR(Optical Character Recognition)によりデジタル化されることが多い。 In this case, it is expected that the user will handwrite their name in a designated field on a designated document, but in order to process a large amount of documents, it is more efficient to process large amounts of information using a computer, so generally handwritten notations such as names are often digitized using OCR (Optical Character Recognition).
ここで、紙文書の文字データ電子化技術は向上しているが、誤読や不読が一定の割合で生じ、あらゆる手書き文字を完全に認識可能な技術は存在しない。そのため、最終的に人の目視による文字一致確認を行っているが、この目視作業は文書の文字データ電子化コストの削減を阻害する要因の一つとなっている。具体的には、氏名を読み取りした場合、名字、名前等の氏名に関するデータベースと照合して文字の認識率の向上を図る仕組みが取り入れられているが、読み取りが難しい文字や紛らわしい文字もあり、誤読が発生しているか目視で確認するコストが依然としてかかる。 Although technology for digitizing character data from paper documents has improved, there is still a certain percentage of misreadings and non-readings, and no technology exists that can perfectly recognize all handwritten characters. As a result, characters must ultimately be checked visually by a human to confirm match, but this visual checking is one of the factors that hinders reductions in the cost of digitizing document character data. Specifically, when a name is read, a system has been introduced that compares it with a database of names such as first and last names to improve character recognition rates, but some characters are difficult to read or ambiguous, and visual checks to see if there have been any misreadings are still costly.
つまり、読取した文字に誤読が含まれる場合、例えば正しい名字「川本」をOCR等の文字認識エンジンが「小木」と誤読した場合、誤である「小木」に対して各データベースとの照合を行うため、正である「川本」の候補順位が劣後、または候補洩れする可能性がある。 In other words, if the scanned characters contain a misreading, for example if a character recognition engine such as an OCR misreads the correct surname "Kawamoto" as "Ogi," the incorrect "Ogi" will be compared with each database, and the correct "Kawamoto" may be ranked lower or missed as a candidate.
また、名字部分と名前部分の記入欄が各々明確にしないで氏名をフルネームとして記入する書式を用いる場合には、正しい名字の識別がなされなければ誤読の発生にすら気づかない場合もある。例えば「小山田伸」(おやまだしん)というフルネームの「田」を「由」と誤読すると、名字を「小山」(こやま)と認識し、「由」から始まる「由伸」(よしのぶ)等の名前を候補としてしまう可能性がある。 Also, when using a format in which the name is entered as the full name without clearly separating the spaces for the surname and given name, a misreading may not even be noticed unless the correct surname is identified. For example, if the "田" in the full name "Oyamada Shin" is misread as "由", the surname may be recognized as "Koyama" and a name beginning with "由" such as "Yoshinobu" may be selected as a candidate.
これらを鑑み、本願はOCR等の文字認識エンジンで読取った文字が誤であることも前提に、名字と名前に関するDBとの照合に加えて、過去においてOCR等の文字認識エンジンで誤読の多かった文字の情報を記録した類似文字と照合する。これにより、誤読の発生しやすい文字を含んだ読取文字の候補の範囲を適切に広げ、劣後または候補洩れの可能性のある文字も候補とするとともに、名字と名前の判別処理を行ったうえで、候補文字の選別を行う。また、この類似文字は、文字の目視確認作業を通じて常に新しい類似文字情報が蓄積されうるものとすることで、文字認識の精度向上をねらう。 In light of these issues, this application assumes that characters read by a character recognition engine such as OCR may be incorrect, and in addition to comparing with a database of surnames and given names, compares with similar characters that have been frequently misread by a character recognition engine such as OCR in the past. This appropriately widens the range of candidates for read characters to include characters that are prone to misreading, and also makes characters that may be inferior or have been omitted from the list of candidates, and selects candidate characters after performing a process to distinguish between surnames and given names. Furthermore, the aim is to improve the accuracy of character recognition by allowing new similar character information to be constantly accumulated through the visual confirmation of characters.
本実施形態に係る業務端末200は、そのような所定の書面をデジタル化する業務に用いられる端末である。読取装置300は、スキャナーや撮像装置等であり、業務端末200からの指示に応じて所定の書面を画像等により読み取り、読み取った手書文字画像を業務端末200に受け渡す。
The
当該業務では、業務端末200は、手書文字画像を受け取ると、OCRによりデジタル化して文字列情報へと変換し、変換した文字列を文字候補提案装置100に送信して文字候補提案装置100から案出された候補文字を受け取る。そして、業務端末200は、候補文字を選択的に表示し、利用者に選択された候補文字をデジタル化情報として利用する。
In this business, when the
なお、読取装置300は、スキャナーに限られるものではなく、カメラ付き携帯電話端末、カメラ付きタブレット端末等の画像をデータとして読込み可能な機器であってもかまわず、ネットワーク50を介して業務端末200と通信可能に接続される構成であってもよい。
The
また、読取装置300は必須の装置ではなく、文字候補提案装置100または業務端末200がネットワーク50を介して他の装置から既に読取った画像データや文字認識を行ったデータを受信し、文字候補を提案するものであってもよい。
In addition, the
図2は、手書文字識別システムの構成の例を示す図である。文字候補提案装置100は、記憶部110と、処理部120と、通信部130と、が互いにバス等で通信可能に接続される。
Figure 2 is a diagram showing an example of the configuration of a handwritten character identification system. In the character
記憶部110には、受領データ記憶部111と、実存文字記憶部112と、類似文字記憶部115と、候補文字記憶部116と、が含まれる。実存文字記憶部112には、実存する人名や固有名詞等の文字列が格納される。例えば、実存文字記憶部112には、名字記憶部113と、名前記憶部114と、が含まれる。例えば、日本人の名字は、30万種類以上あるといわれており、その実在が確認されている名字が名字記憶部113に格納される。
The
図3は、受領データ記憶部のデータ構造例を示す図である。受領データ記憶部111には、受託日111Aと、依頼企業ID111Bと、文書番号111Cと、文字識別番号111Dと、認識文字コード111Eと、が含まれる。受託日111Aは、業務端末200から文字候補提案の依頼を受託した日を特定する情報である。依頼企業ID111Bは、文字候補提案を依頼した企業を特定する情報である。文書番号111Cは、文字候補提案の依頼対象となった文書(文書の画像データ)を特定する情報である。文字識別番号111Dは、認識対象の文書に含まれる個々の文字を特定する情報である。認識文字コード111Eは、個々の文字を外観から認識した結果得られた文字の文字コードである。
Figure 3 is a diagram showing an example of the data structure of the received data storage unit. The received
図4は、名字記憶部のデータ構造例を示す図である。名字記憶部113には、名字識別子113Aと、名字113Bと、文字数113Cと、出現頻度113Dと、が含まれる。名字識別子113Aは、名字を他の名字から識別する情報である。名字113Bは、名字の表記情報である。文字数113Cは、名字の表記上の文字数である。出現頻度113Dは、名字の総体の中での出現頻度である。
Figure 4 is a diagram showing an example of the data structure of the surname storage unit. The
図5は、名前記憶部のデータ構造例を示す図である。名前記憶部114には、名前識別子114Aと、名前114Bと、文字数114Cと、出現頻度114Dと、が含まれる。名前識別子114Aは、名前を他の名前から識別する情報である。名前114Bは、名前の表記情報である。文字数114Cは、名前の表記上の文字数である。出現頻度114Dは、名前の総体の中での出現頻度である。
Figure 5 is a diagram showing an example of the data structure of the name storage unit. The
図6は、類似文字記憶部のデータ構造例を示す図である。類似文字記憶部115には、文字コード115Aと、類似文字コード115Bと、出現頻度115Cと、記憶日115Dと、が含まれる。文字コード115Aは、互いに類似関係にある文字のうち基準とする文字のコードである。類似文字コード115Bは、文字コード115Aで特定される文字と外観上類似する文字のコードである。出現頻度115Cは、文字の使用において類似関係として出現する頻度である。記憶日115Dは、類似関係として記憶された日を特定する情報である。
Figure 6 is a diagram showing an example of the data structure of the similar character storage unit. The similar
図7は、候補文字記憶部のデータ構造例を示す図である。候補文字記憶部116には、文字識別番号116Aと、候補文字コード116Bと、が含まれる。文字識別番号116Aは、認識対象の文書に含まれる個々の文字を特定する情報である。候補文字コード116Bは、OCRで認識された文字とは異なる文字候補であって、類似し、かつ実存する文字のコードである。
Figure 7 is a diagram showing an example of the data structure of the candidate character storage unit. The candidate
処理部120には、受託処理部121と、姓名判別処理部122と、照合処理部123と、類似文字登録処理部124と、候補文字送信処理部125と、が含まれる。
The
受託処理部121は、業務端末200からの文字候補の提案依頼を受託する。姓名判別処理部122は、複数の文字列の文字候補の提案を受けた場合に、姓名の区分位置を一文字ずつ変化させて区切った姓と名の組み合わせを特定し姓名として成立するか否か判別する。照合処理部123は、実存文字記憶部112と照合して、実存する文字候補であるか否かを判定する。類似文字登録処理部124は、未登録の類似関係として業務端末200から報告された文字を、類似文字記憶部115に登録する。候補文字送信処理部125は、照合処理部123による照合の結果ヒットした外観が類似する文字の候補の組み合わせを候補文字として出力する。具体的には、候補文字送信処理部125は、候補文字記憶部116に格納された候補を業務端末200に出力(送信)することで案出を実現する。通信部130は、ネットワーク50を介して他の装置と通信を行う。
The
業務端末200は、記憶部210と、処理部220と、通信部230と、が互いにバス等で通信可能に接続される。
The
記憶部210には、文字記憶部211と、候補文字記憶部212と、画像記憶部213と、が含まれる。
The
図8は、文字記憶部のデータ構造例を示す図である。文字記憶部211には、画像データ番号211Aと、読取日211Bと、文字識別番号211Cと、画像211Dと、が含まれる。
Figure 8 is a diagram showing an example of the data structure of the character storage unit. The
画像データ番号211Aは、読取装置300が読み取った文字列の画像を特定する情報である。読取日211Bは、読取装置300が文書を読み取った日を特定する情報である。文字識別番号211Cは、認識対象の文書に含まれる個々の文字を特定する情報である。画像211Dは、文字識別番号211Cで特定される文字単独の画像データ(読取装置300が読み取った画像の一部)を特定する情報である。
図9は、画像記憶部のデータ構造例を示す図である。画像記憶部213には、画像データ番号213Aと、文書番号213Bと、読取日213Cと、画像213Dと、が含まれる。
Figure 9 is a diagram showing an example of the data structure of the image storage unit. The
画像データ番号213Aは、読取装置300が読み取った文字列の画像を特定する情報である。文書番号213Bは、文字候補提案の依頼対象となった文書(文書の画像データ)を特定する情報である。読取日213Cは、読取装置300が文書を読み取った日を特定する情報である。画像213Dは、読取装置300が読み取った画像を特定する情報である。
処理部220には、文字認識部221と、委託処理部222と、目視確認処理部223と、類似文字報告処理部224と、が含まれる。文字認識部221は、いわゆるOCRのエンジンであり、読取装置300から取得した手書文字画像を解析して文字を認識する。
The
委託処理部222は、文字認識部221による誤読に起因する手戻りや手続の誤りを排除するために、文字候補提案装置100に精度の高い候補文字の提案を委託する。
The
目視確認処理部223は、文字候補提案装置100から出力された文字候補のそれぞれを目視で確認できるように選択的に表示し、利用者から候補のいずれかの選択を受け付ける。
The visual
類似文字報告処理部224は、利用者が類似する文字であると認識した文字の入力を受け付けて、文字候補提案装置100に類似文字として登録するよう報告する。
The similar character
通信部230は、ネットワーク50を介して他の装置と通信を行う。
The
その他に、業務端末200は、図示しないが、利用者からの入力を受け付ける入力部と、画面や帳票等の各種出力情報を出力する出力部と、を備える。例えば、入力部は、タイピングやタッチ、フリック入力等の各種の接触入力、あるいは音声入力、または視線入力等の各種の入力を受け付ける。
In addition, the
図10は、文字候補提案装置100のハードウェア構成例を示す図である。文字候補提案装置100は、いわゆるサーバー装置、ワークステーション、パーソナルコンピュータ、スマートフォンあるいはタブレット端末の筐体により実現されるハードウェア構成を備える。文字候補提案装置100は、演算装置101と、主記憶装置102と、補助記憶装置103と、通信装置104と、各装置をつなぐバス107と、を備える。業務端末200についても、同様である。また他に、業務端末200は、タッチパネルやキーボード、マイク、ディスプレイ等の入出力装置を備える。
Figure 10 is a diagram showing an example of the hardware configuration of character
演算装置101は、例えばCPU(Central Processing Unit)などの演算装置である。
The
主記憶装置102は、例えばRAM(Random Access Memory)などのメモリ装置である。
The
補助記憶装置103は、デジタル情報を記憶可能な、いわゆるハードディスク(Hard Disk Drive)やSSD(Solid State Drive)あるいはフラッシュメモリなどの不揮発性記憶装置である。
The
通信装置104は、ネットワークカード等の有線通信装置、あるいは無線通信装置である。
The
上記した文字候補提案装置100の受託処理部121と、姓名判別処理部122と、照合処理部123と、類似文字登録処理部124と、候補文字送信処理部125とは、演算装置101に処理を行わせるプログラムによって実現される。このプログラムは、主記憶装置102、補助記憶装置103または図示しないROM装置内に記憶され、実行にあたって主記憶装置102上にロードされ、演算装置101により実行される。
The above-mentioned
また、文字候補提案装置100の記憶部110は、主記憶装置102及び補助記憶装置103により実現される。また、通信部130は、通信装置104により実現される。以上が、文字候補提案装置100のハードウェア構成例である。
The
文字候補提案装置100の構成は、処理内容に応じて、さらに多くの構成要素に分類することもできる。また、1つの構成要素がさらに多くの処理を実行するように分類することもできる。
The configuration of the character
また、各処理部(受託処理部121と、姓名判別処理部122と、照合処理部123と、類似文字登録処理部124と、候補文字送信処理部125)は、それぞれの機能を実現する専用のハードウェア(ASIC、GPUなど)により構築されてもよい。また、各処理部の処理が一つのハードウェアで実行されてもよいし、複数のハードウェアで実行されてもよい。
In addition, each processing unit (the
次に、本実施形態における手書文字識別システム1の動作を説明する。 Next, the operation of the handwriting recognition system 1 in this embodiment will be described.
図11は、手書文字認識の全体処理フローの例を示す図である。手書文字認識処理は、用者が業務端末200から開始を指示することにより起動される。
Figure 11 is a diagram showing an example of the overall processing flow of handwriting recognition. The handwriting recognition process is started when the user issues a start command from the
まず、業務端末200は、読取装置300に文書の画像データの読取を要求する(ステップS10)。具体的には、文字認識部221は、読取装置300にスキャンあるいは撮影の開始を指示する。
First, the
読取装置300は、業務端末200からの要求を受けて、当該文書の画像を読みとり、画像データを作成して業務端末200宛に応答する(ステップS11)。
Upon receiving a request from the
業務端末200の文字認識部221は、読取装置300から画像データを受領し、画像記憶部213に記憶し、OCRエンジンにて文字認識処理を実行する(ステップS12)。そして、認識した文字データを文字記憶部211に格納する(ステップS13)。なお、このOCRエンジンは、業務端末200が接続可能なネットワーク上に置かれているPC端末、サーバー端末等に実装され、業務端末200から文字認識処理を指示することで実行する構成であってもよい。
The
そして、業務端末200では、認識した文字を委託処理部222が文字候補提案装置100に対して送信し、文字候補の提案処理を委託する(ステップS14)。
Then, in the
そして、文字候補提案装置100の受託処理部121は、業務端末200から認識した文字を受領して受領データ記憶部111に格納する(ステップS15)。
Then, the entrusted
そして、照合処理部123が、受領した文字データを、実存文字記憶部112と、類似文字記憶部115と照合する(ステップS16)。
Then, the matching
そして、照合処理部123が、候補文字を選別し、候補文字記憶部116に格納する(ステップS17)。
Then, the matching
そして、候補文字送信処理部125が、候補文字を業務端末200あてに送信する(ステップS18)。
Then, the candidate character
業務端末200の委託処理部222は、候補文字を受領し、候補文字記憶部212に格納する(ステップS19)。
The
そして、目視確認処理部223は、候補文字と画像記憶部の画像とを対比する画面を出力する(ステップS20)。より具体的には、例えば、当該画面には、読取装置300により読み取った手書文字画像と、その候補文字が選択入力可能なように複数表示される。
Then, the visual
利用者から類似文字の登録指示を受け付けると、類似文字報告処理部224は、候補文字以外に単文字で類似する文字があれば入力を受け付け、文字候補提案装置100へ応答する(ステップS21)。
When an instruction to register similar characters is received from a user, the similar character
文字候補提案装置100の類似文字登録処理部124は、類似文字を受領し、類似文字記憶部115に未格納の場合には、格納する(ステップS22)。
The similar character
以上が、手書文字認識の全体処理フローの例である。手書文字認識の全体処理によれば、類似する文字列候補をより適切に提案することができる。 The above is an example of the overall processing flow for handwriting recognition. This overall processing for handwriting recognition makes it possible to more appropriately suggest similar character string candidates.
図12は、姓名区分照合処理のフローの例を示す図である。姓名区分照合処理は、手書文字認識の全体処理フローの中のステップS16~S18の処理を一連として行う処理の例である。 Figure 12 is a diagram showing an example of the flow of the first name segment matching process. The first name segment matching process is an example of a process that performs steps S16 to S18 as a series in the overall process flow of handwriting recognition.
まず、姓名判別処理部122は、総文字数nを特定する(ステップS1601)。例えば、「小山田伸」の氏名が候補提示の対象となる文字列である場合には、姓名判別処理部122は、「小」「山」「田」「伸」の各漢字を一文字として、総文字数nを「4」と特定する。
First, the name
そして、姓名判別処理部122は、先頭からd(dは1以上n未満、初期値1)文字を名字として、残りの文字を名前とするように分解する(ステップS1602)。
Then, the name
照合処理部123は、名字を構成する文字を一字ずつ分解して類似文字記憶部115と照合し、類似する文字の組み合わせを名字記憶部113と照合して実在する名字候補を選出する(ステップS1603)。
The matching
そして、姓名判別処理部122は、類似文字記憶部115に該当した名字候補が無かったか否か判定する(ステップS1604)。名字候補が無かった場合(ステップS1604にて「Yes」の場合)には、姓名判別処理部122は、制御を後述するステップS1611へ進める。
Then, the name
名字候補があった場合(ステップS1604にて「No」の場合)には、姓名判別処理部122は、当該名字候補には名字記憶部113に1つでも該当するものがあったか否か判定する(ステップS1605)。名字記憶部113に該当するものが無かった場合(ステップS1605にて「No」の場合)には、姓名判別処理部122は、制御を後述するステップS1611へ進める。
If there is a surname candidate (step S1604: No), the surname
名字候補に名字記憶部113に該当する名字があった場合(ステップS1605にて「Yes」の場合)には、姓名判別処理部122は、選出した全ての名字候補を一時保管する(ステップS1606)。
If there is a matching surname in the
そして、照合処理部123は、名前を構成する文字を一字ずつ分解して類似文字記憶部115と照合し、類似する文字の組み合わせを名前記憶部114と照合して実在する名前候補を選出する(ステップS1607)。
Then, the matching
そして、姓名判別処理部122は、類似文字記憶部115に該当した名前候補が無かったか否か判定する(ステップS1608)。名前候補が無かった場合(ステップS1608にて「Yes」の場合)には、姓名判別処理部122は、制御を後述するステップS1611へ進める。
Then, the name
名前候補があった場合(ステップS1608にて「No」の場合)には、姓名判別処理部122は、当該名前候補には名前記憶部114に1つでも該当するものがあったか否か判定する(ステップS1609)。名前記憶部114に該当するものが無かった場合(ステップS1609にて「No」の場合)には、姓名判別処理部122は、制御を後述するステップS1611へ進める。
If there is a name candidate (step S1608: No), the name
名前候補に名前記憶部114に該当する名前があった場合(ステップS1609にて「Yes」の場合)には、姓名判別処理部122は、選出した全ての名前候補を一時保管する(ステップS1610)。
If there is a name that matches the name candidates in the name storage unit 114 ("Yes" at step S1609), the name
そして、姓名判別処理部122は、名字の文字数dをインクリメント(+1)する(ステップS1611)。
Then, the name
そして、姓名判別処理部122は、名字の文字数dが総文字数nと一致するか否か判定する(ステップS1612)。一致しない場合(ステップS1612にて「No」の場合)には、姓名判別処理部122は、制御をステップS1602に戻す。
Then, the name
名字の文字数dが総文字数nと一致する場合(ステップS1612にて「Yes」の場合)には、姓名判別処理部122は、一時保管した名字候補および名前候補(名字長+名前長が総文字数nと一致するもの)の組があるか否か、すなわち結果としてヒットした姓名の組み合わせがあったか否か判定する(ステップS1613)。
If the number of characters in the surname d matches the total number of characters n (if "Yes" in step S1612), the name
一時保管した名字候補および名前候補(名字長+名前長が総文字数nと一致するもの)の組がない場合(ステップS1613にて「No」の場合)には、候補文字送信処理部125は、業務端末200に対して、判別不能を通知する(ステップS1614)。
If there is no temporarily stored pair of surname and given name candidates (where the surname length + given name length matches the total number of characters n) ("No" in step S1613), the candidate character
一時保管した名字候補および名前候補(名字長+名前長が総文字数nと一致するもの)の組がある場合(ステップS1613にて「Yes」の場合)には、候補文字送信処理部125は、業務端末200に対して、文字候補を送信する(ステップS1801)。その際、候補文字送信処理部125は、一時保管した名字候補および名前候補の組ごとに、出現頻度の順に応じて整列させて送信する。すなわち、候補文字送信処理部125は、出現頻度の高い文字から構成されている名字候補および名前候補の順に送信する。
If there is a pair of temporarily stored surname candidates and given name candidates (where the surname length + given name length is equal to the total number of characters n) (if "Yes" in step S1613), the candidate character
以上が、姓名区分照合処理のフローの例である。姓名区分照合処理によれば、一以上の文字からなる氏名について、姓名の区分位置を変えてそれぞれの類似文字を当てはめ、実存する候補を特定することができる。例えば、上記の「小山田伸」の氏名の場合、「田」と「由」が類似文字であり、二文字の名字「小山」と残り部分の名前「由伸」とする候補と、三文字の名字「小山田」と残り部分の名前「伸」とする候補と、を含む候補文字を特定できる。 The above is an example of the flow of the name segment matching process. According to the name segment matching process, for a name consisting of one or more characters, the segment position of the name can be changed and similar characters can be applied to identify existing candidates. For example, in the case of the name "Oyamada Shin" mentioned above, "田" and "由" are similar characters, and candidate characters can be identified that include the two-character surname "Oyama" and the remaining part of the given name "Yoshinobu", and the three-character surname "Oyamada" and the remaining part of the given name "Nobu".
図13は、候補文字受領処理のフローの例を示す図である。候補文字受領処理は、手書文字認識の全体処理フローの中のステップS19~S21の処理を一連として行う処理の例である。 Figure 13 is a diagram showing an example of the flow of the candidate character reception process. The candidate character reception process is an example of a process that performs steps S19 to S21 as a series in the overall process flow of handwriting recognition.
まず、委託処理部222は、受領した候補文字を候補文字記憶部212に記憶させる(ステップS191)。
First, the
そして、目視確認処理部223は、候補文字と手書文字画像を確認表示する(ステップS201)。この確認表示の画面例については、後述する。
Then, the visual
そして、目視確認処理部223は、候補文字の選択入力を受け付ける(ステップS202)。これにより、手書文字のデジタル化を確定する。
Then, the visual
また、類似文字報告処理部224は、新しい類似文字の入力があるか否か判定する(ステップS211)。新しい類似文字の入力がない場合(ステップS211にて「No」の場合)には、類似文字報告処理部224は、候補文字受領処理を終了させる。
The similar character
新しい類似文字の入力がある場合(ステップS211にて「Yes」の場合)には、類似文字報告処理部224は、文字候補提案装置100に対して新たな類似文字となる情報を送信する(ステップS212)。
If new similar characters are input (if "Yes" in step S211), the similar character
以上が、候補文字受領処理のフローの例である。候補文字受領処理によれば、文字候補提案装置100から候補文字を受領して、手書文字と対比しながら候補を選択入力可能となる。また、類似文字に気づいた場合に、文字候補提案装置100へ報告し、新たに類似文字として登録するよう依頼することができる。
The above is an example of the flow of the candidate character receiving process. According to the candidate character receiving process, candidate characters are received from the character
図14は、類似文字登録処理のフローの例を示す図である。類似文字登録処理は、候補文字受領処理において類似文字となる情報が業務端末200から文字候補提案装置100に送信された場合に、文字候補提案装置100にて開始される。
Figure 14 is a diagram showing an example of the flow of the similar character registration process. The similar character registration process is started by the character
まず、類似文字登録処理部124は、受領した類似文字の情報が、類似文字記憶部115に既に記憶されているか否か判定する(ステップS2201)。
First, the similar character
受領した類似文字の情報が、類似文字記憶部115に既に記憶されていない場合(ステップS2201にて「No」の場合)には、類似文字登録処理部124は、類似文字の組み合わせを一対一に特定する(類似関係にある文字を一対一の組み合わせに分解する)(ステップS2202)。
If the received similar character information is not already stored in the similar character storage unit 115 (step S2201: No), the similar character
そして、類似文字登録処理部124は、互いに類似する文字の両方について、それぞれ互いを類似として類似文字記憶部115に格納する(ステップS2203)。
Then, the similar character
受領した類似文字の情報が、類似文字記憶部115に既に記憶されている場合(ステップS2201にて「Yes」の場合)には、類似文字登録処理部124は、業務端末200に、登録済みである旨を通知する(ステップS2204)。
If the received similar character information has already been stored in the similar character storage unit 115 (step S2201: Yes), the similar character
そして、類似文字登録処理部124は、互いに類似する文字の両方について、それぞれ互いの出現頻度を所定量増加させる(ステップS2205)。
Then, the similar character
以上が、類似文字登録処理のフローの例である。類似文字登録処理によれば、業務端末200から登録するよう依頼のあった類似文字が新たな関係であれば類似として登録し、既に登録済みのものであった場合には出現頻度を高めることができる。
The above is an example of the flow of the similar character registration process. According to the similar character registration process, if the similar characters requested to be registered from the
図15は、候補提示画面の例を示す図である。候補提示画面400は、手書文字認識全体処理フローのステップS20、候補文字受領処理のステップS201にて出力される画面である。目視確認を行う元データ(読取装置300で読み取った手書文字画像)が、元データ表示域401に表示され、目視確認を行う対象である候補文字は、名字候補表示域402と、名前候補表示域403に表示される。名字候補表示域402と、名前候補表示域403には、文字候補提案装置100が最も出現率が高い候補として提案した候補文字が表示される。名字候補決定ボタン404は、入力を受け付けると、名字候補表示域402に示された名字を確定させる。名前候補決定ボタン405は、入力を受け付けると、名前候補表示域403に示された名前を確定させる。
Figure 15 is a diagram showing an example of a candidate presentation screen.
次候補以降の候補文字は、各々、名字次候補表示域406と、名前次候補表示域407と、に出現頻度順に整列されて選択可能にリスト表示される。名字次候補表示域406と、名前次候補表示域407とは、リストした文字の選択を受け付ける。名字次候補決定ボタン408は、入力を受け付けると、名字次候補表示域406にて選択された名字を確定させる。名前次候補決定ボタン409は、入力を受け付けると、名前次候補表示域407にて選択された名前を確定させる。
The candidate characters from the next candidate onwards are arranged in order of frequency of appearance and displayed in a selectable list in the surname next
類似文字登録域410および類似文字登録域411は、それぞれ文字の入力を受け付ける。登録ボタン412は、入力を受け付けると、類似文字登録域410および類似文字登録域411に入力された文字を類似関係にある文字として受け付け、文字候補提案装置100への登録処理を開始させる。すなわち、目視確認の結果、目視作業担当者(利用者)が新たな類似文字として登録の必要性を感じる文字がある場合、類似文字登録域410および類似文字登録域411に当該文字を入力し、登録ボタン412を選択することで登録が可能となる。また、必要に応じて、戻るボタン413、次画面ボタン414への入力を受け付けると、前後の業務画面へ遷移する。
Similar
図16は、名字候補提示例を示す図である。本実施形態を適用した手書文字識別システム1では、読取装置300および文字認識部221が誤読した場合でも、提示される候補に正解となる文字が含まれる可能性が高くなるが、このことを具体的に示す。
Figure 16 is a diagram showing an example of surname candidate presentation. In the handwriting identification system 1 to which this embodiment is applied, even if the
正解となる「川本」(a)の名字を、OCR等の文字認識エンジンが「小木」(b)と誤読した場合、誤読である「小木」(b)に対して実存する名字との照合を行うと、本来の正解となる「川本」(a)の文字候補の順位が劣後、または候補漏れが生じる可能性がある。 If a character recognition engine such as OCR misreads the correct surname "Kawamoto" (a) as "Ogi" (b), when comparing the misread "Ogi" (b) with existing surnames, the correct character candidate "Kawamoto" (a) may be ranked lower or may be missed.
誤読である「小木」(b)を、「小」(c)と「木」(d)に文字を分解し、各々を類似文字記憶部115と照合し、それぞれ出現頻度の高い順に類似文字を特定する(e、f)。続いて、出現頻度の高い文字同士を合成した名字と、名字記憶部113とを照合することによって、候補文字(g)を選別して整列させる。これにより、誤読があった場合も、類似文字記憶部115との照合を実行することで、正解である「川本」(a)の劣後、または候補漏れを避けるとともに、文字認識率の向上が期待できる。
The misreading "Oki" (b) is broken down into "O" (c) and "Ki" (d), which are then compared with the similar
以上が、実施形態に係る手書文字識別システムの例である。該実施形態に係る手書文字識別システムの例によれば、手書文字を読み取った画像について、類似する文字列候補をより適切に提案することができるため、利用者は提示された候補から選択するだけで円滑に手書文字の読取業務を行うことができる。 The above is an example of a handwriting recognition system according to an embodiment. According to the example of the handwriting recognition system according to the embodiment, similar character string candidates can be more appropriately suggested for an image in which handwriting has been read, so that a user can smoothly perform the task of reading handwriting by simply selecting from the presented candidates.
また、上記実施形態の例では、手書文字の対象として氏名を例示したが、これに限られず、照合する実存文字記憶部112を差し替えることによって、住所等、あらゆる他の文字データについても適用が可能である。
In addition, in the above embodiment, a name is used as an example of a handwritten character, but this is not limited to this, and by replacing the real
また、上記した実施形態の技術的要素は、単独で適用されてもよいし、プログラム部品とハードウェア部品のような複数の部分に分けられて適用されるようにしてもよい。 In addition, the technical elements of the above-mentioned embodiments may be applied independently, or may be divided into multiple parts, such as program parts and hardware parts, and then applied.
以上、本発明について、実施形態を中心に説明した。 The present invention has been described above, focusing on the embodiments.
1・・・手書文字識別システム、50・・・ネットワーク、100・・・文字候補提案装置、110・・・記憶部、111・・・受領データ記憶部、112・・・実存文字記憶部、113・・・名字記憶部、114・・・名前記憶部、115・・・類似文字記憶部、116・・・候補文字記憶部、120・・・処理部、121・・・受託処理部、122・・・姓名判別処理部、123・・・照合処理部、124・・・類似文字登録処理部、125・・・候補文字送信処理部、130・・・通信部、200・・・業務端末、210・・・記憶部、211・・・文字記憶部、212・・・候補文字記憶部、213・・・画像記憶部、220・・・処理部、221・・・文字認識部、222・・・委託処理部、223・・・目視確認処理部、224・・・類似文字報告処理部、230・・・通信部、300・・・読取装置。 1: Handwritten character identification system, 50: Network, 100: Character candidate suggestion device, 110: Memory unit, 111: Received data memory unit, 112: Existing character memory unit, 113: Family name memory unit, 114: First name memory unit, 115: Similar character memory unit, 116: Candidate character memory unit, 120: Processing unit, 121: Commissioned processing unit, 122: Family name discrimination processing unit, 123: Matching processing unit, 124: Similar character registration processing unit, 125: Candidate character transmission processing unit, 130: Communication unit, 200: Business terminal, 210: Memory unit, 211: Character memory unit, 212: Candidate character memory unit, 213: Image memory unit, 220: Processing unit, 221: Character recognition unit, 222: Commissioned processing unit, 223: Visual confirmation processing unit, 224: Similar character report processing unit, 230: Communication unit, 300: Reading device.
Claims (9)
実存する人名の文字列を記憶する実存文字記憶部と、
一つ以上の文字を受信して該文字の外観の類似する人名の文字候補の案出を受託する受託処理部と、
受信した前記文字と外観が類似する文字の候補を、前記類似文字記憶部と照合することで特定し、前記外観が類似する文字の候補の組み合わせのうち前記実存文字記憶部に記憶された前記実存する文字列と照合する照合処理部と、
前記照合処理部による照合の結果ヒットした前記外観が類似する文字の候補の組み合わせを人名の候補文字として出力する候補文字送信処理部と、
を備え、
前記候補文字送信処理部は、前記外観が類似する文字の候補ごとの出現頻度の高い順に組み合わせた人名の候補文字を整列して出力する、
ることを特徴とする文字候補提案装置。 a similar character storage unit that stores similarity relationships between character appearances;
an existing character storage unit that stores character strings of existing person names ;
a processing unit for receiving one or more characters and generating character candidates for a person's name having a similar appearance to the received characters;
a matching processor that identifies character candidates having a similar appearance to the received character by matching the candidates with the similar character storage unit, and matches a combination of the candidates with a similar appearance with the existing character string stored in the existing character storage unit;
a candidate character transmission processing unit that outputs the combination of candidates of characters having similar appearances that are found as a result of the matching by the matching processing unit as candidate characters for a person's name ;
Equipped with
the candidate character transmission processing unit arranges and outputs candidate characters for the name, which are combinations of the candidates for the characters having similar appearances, in order of frequency of occurrence;
A character candidate suggestion device comprising:
前記候補文字を出力後、前記受託処理部が受信した前記文字のいずれかと類似する文字を受け付けると、前記類似文字記憶部に記憶されていない類似関係であれば前記類似文字記憶部に記憶させる類似文字登録処理部、
を備えることを特徴とする文字候補提案装置。 The character candidate suggestion device according to claim 1 ,
a similar character registration processing unit that, when receiving a character similar to any of the characters received by the processing unit after outputting the candidate characters, stores the character in the similar character storage unit if the similarity relationship is not stored in the similar character storage unit;
A character candidate suggestion device comprising:
前記実存する人名の文字列は、姓と名が区分されており、
受信した前記文字を姓と名に区分して前記照合処理部に照合させる姓名判別処理部、
を備えることを特徴とする文字候補提案装置。 The character candidate suggestion device according to claim 1 ,
The character string of the name of an existing person is divided into a surname and a given name,
a name discrimination processing unit that divides the received characters into a family name and a given name and causes the matching processing unit to match the characters;
A character candidate suggestion device comprising:
前記姓名判別処理部は、受信した前記文字について姓と名を区切る位置を変化させて姓と名に区分した組み合わせを特定し、各組み合わせの姓と名の両方について、前記照合処理部による照合の結果ヒットを得られた場合に前記候補文字とする、
ことを特徴とする文字候補提案装置。 The character candidate suggestion device according to claim 3 ,
The name discrimination processing unit specifies a combination of the received characters divided into a surname and a given name by changing a position separating the surname and the given name, and when a hit is obtained as a result of the matching by the matching processing unit for both the surname and the given name of each combination, the combination is set as the candidate character.
The character candidate suggestion device according to the present invention is characterized in that
前記候補文字送信処理部は、前記候補文字を、出現頻度に応じて整列して出力する、
ことを特徴とする文字候補提案装置。 The character candidate suggestion device according to claim 4 ,
the candidate character transmission processing unit outputs the candidate characters in order according to their appearance frequency.
The character candidate suggestion device according to the present invention is characterized in that
前記受託処理部が受信する前記文字は、手書き文字を読み取って認識した文字である、
ことを特徴とする文字候補提案装置。 The character candidate suggestion device according to claim 1 ,
The characters received by the processing unit are characters obtained by reading and recognizing handwritten characters.
The character candidate suggestion device according to the present invention is characterized in that
前記業務端末は、前記読取装置から前記手書文字を取得して文字認識を行う文字認識部と、
前記文字認識部により認識された文字を前記文字候補提案装置に送信して文字候補の提案を委託する委託処理部と、
前記文字候補提案装置から出力された文字候補を表示する目視確認処理部と、を備え、
前記文字候補提案装置は、
文字の外観の類似関係を記憶する類似文字記憶部と、
実存する人名の文字列を記憶する実存文字記憶部と、
一つ以上の文字を受信して該文字の外観の類似する人名の文字候補の案出を受託する受託処理部と、
受信した前記文字と外観が類似する文字の候補を、前記類似文字記憶部と照合することで特定し、前記外観が類似する文字の候補の組み合わせのうち前記実存文字記憶部に記憶された前記実存する文字列と照合する照合処理部と、
前記照合処理部による照合の結果ヒットした前記外観が類似する文字の候補の組み合わせを人名の候補文字として出力する候補文字送信処理部と、
を備え、
前記候補文字送信処理部は、前記外観が類似する文字の候補ごとの出現頻度の高い順に組み合わせた人名の候補文字を整列して出力する、
ことを特徴とする手書文字識別システム。 A handwritten character identification system including: a character candidate suggestion device; a business terminal communicatively connected to the character candidate suggestion device via a network; and a reading device that reads handwritten characters in response to an instruction from the business terminal,
The business terminal has a character recognition unit that acquires the handwritten characters from the reading device and performs character recognition;
a commissioning processing unit that transmits the characters recognized by the character recognition unit to the character candidate suggestion device to commission the suggestion of character candidates;
a visual confirmation processing unit that displays the character candidates output from the character candidate suggestion device,
The character candidate suggestion device,
a similar character storage unit that stores similarity relationships between character appearances;
an existing character storage unit that stores character strings of existing person names ;
a processing unit for receiving one or more characters and generating character candidates for a person's name having a similar appearance to the received characters;
a matching processor that identifies character candidates having a similar appearance to the received character by matching the candidates with the similar character storage unit, and matches a combination of the candidates with a similar appearance with the existing character string stored in the existing character storage unit;
a candidate character transmission processing unit that outputs the combination of candidates of characters having similar appearances that are found as a result of the matching by the matching processing unit as candidate characters for a person's name ;
Equipped with
the candidate character transmission processing unit arranges and outputs candidate characters for the name, which are combinations of the candidates for the characters having similar appearances, in order of frequency of occurrence;
A handwriting recognition system comprising:
前記業務端末は、前記読取装置から前記手書文字を取得して文字認識を行う文字認識ステップと、
前記文字認識ステップにおいて認識された文字を前記文字候補提案装置に送信して文字候補の提案を委託する委託処理ステップと、
前記文字候補提案装置から出力された文字候補を表示する目視確認処理ステップと、を実行し、
前記文字候補提案装置は、
文字の外観の類似関係を記憶する類似文字記憶部と、
実存する人名の文字列を記憶する実存文字記憶部と、を備え、
一つ以上の文字を受信して該文字の外観の類似する人名の文字候補の案出を受託する受託処理ステップと、
受信した前記文字と外観が類似する文字の候補を、前記類似文字記憶部と照合することで特定し、前記外観が類似する文字の候補の組み合わせのうち前記実存文字記憶部に記憶された前記実存する文字列と照合する照合処理ステップと、
前記照合処理ステップによる照合の結果ヒットした前記外観が類似する文字の候補の組み合わせを人名の候補文字として出力する候補文字送信処理ステップと、
を実行し、
前記候補文字送信処理ステップでは、前記外観が類似する文字の候補ごとの出現頻度の高い順に組み合わせた人名の候補文字を整列して出力する、
ことを特徴とする手書文字識別方法。 A handwriting recognition method using a handwriting recognition system including a character candidate suggestion device, a business terminal communicatively connected to the character candidate suggestion device via a network, and a reading device that reads handwriting in response to an instruction from the business terminal,
a character recognition step in which the business terminal acquires the handwritten characters from the reading device and performs character recognition;
a commissioning process step of transmitting the characters recognized in the character recognition step to the character candidate suggestion device to commission the suggestion of character candidates;
A visual confirmation processing step of displaying the character candidates outputted from the character candidate suggestion device is executed;
The character candidate suggestion device,
a similar character storage unit that stores similarity relationships between character appearances;
an existing character storage unit that stores character strings of existing person names ;
a processing step of receiving one or more characters and generating character candidates for a person's name having a similar appearance to the received characters;
a matching process step of identifying character candidates having a similar appearance to the received character by matching them with the similar character storage unit, and matching a combination of the character candidates having a similar appearance with the existing character string stored in the existing character storage unit;
a candidate character transmission processing step of outputting the candidate combination of characters having similar appearances, which is found as a result of the matching in the matching processing step, as candidate characters for a person's name ;
Run
In the candidate character transmission processing step, candidate characters for a name, which are combinations of the candidates for characters having similar appearances, are arranged in order of frequency of occurrence and output.
A handwriting recognition method comprising:
前記コンピュータは、
文字の外観の類似関係を記憶する類似文字記憶部と、
実存する人名の文字列を記憶する実存文字記憶部と、処理部と、を備え、
前記処理部に、
一つ以上の文字を受信して該文字の外観の類似する人名の文字候補の案出を受託する受託処理ステップと、
受信した前記文字と外観が類似する文字の候補を、前記類似文字記憶部と照合することで特定し、前記外観が類似する文字の候補の組み合わせのうち前記実存文字記憶部に記憶された前記実存する文字列と照合する照合処理ステップと、
前記照合処理ステップによる照合の結果ヒットした前記外観が類似する文字の候補の組み合わせを人名の候補文字として出力する候補文字送信処理ステップと、
を実施させ、
前記候補文字送信処理ステップでは、前記外観が類似する文字の候補ごとの出現頻度の高い順に組み合わせた人名の候補文字を整列して出力させる、
ことを特徴とするプログラム。 A program for causing a computer to perform a process for assisting in the identification of handwritten characters, comprising:
The computer includes:
a similar character storage unit that stores similarity relationships between character appearances;
The apparatus includes an existing character storage unit that stores character strings of existing personal names , and a processing unit,
The processing unit includes:
a processing step of receiving one or more characters and generating character candidates for a person's name having a similar appearance to the received characters;
a matching process step of identifying character candidates having a similar appearance to the received character by matching them with the similar character storage unit, and matching a combination of the character candidates having a similar appearance with the existing character string stored in the existing character storage unit;
a candidate character transmission processing step of outputting the candidate combination of characters having similar appearances, which is found as a result of the matching in the matching processing step, as candidate characters for a person's name ;
Implement the following :
In the candidate character transmission processing step, candidate characters for a name, which are combinations of the candidates for the characters having similar appearances, are arranged in order of frequency of occurrence and output.
A program characterized by:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023096647A JP7490861B2 (en) | 2019-09-09 | 2023-06-13 | Character candidate suggestion device, handwritten character identification system, handwritten character identification method and program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019163641A JP7297610B2 (en) | 2019-09-09 | 2019-09-09 | Character candidate proposal device, handwritten character identification system, handwritten character identification method and program |
JP2023096647A JP7490861B2 (en) | 2019-09-09 | 2023-06-13 | Character candidate suggestion device, handwritten character identification system, handwritten character identification method and program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019163641A Division JP7297610B2 (en) | 2019-09-09 | 2019-09-09 | Character candidate proposal device, handwritten character identification system, handwritten character identification method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023110102A JP2023110102A (en) | 2023-08-08 |
JP7490861B2 true JP7490861B2 (en) | 2024-05-27 |
Family
ID=74864169
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019163641A Active JP7297610B2 (en) | 2019-09-09 | 2019-09-09 | Character candidate proposal device, handwritten character identification system, handwritten character identification method and program |
JP2023096647A Active JP7490861B2 (en) | 2019-09-09 | 2023-06-13 | Character candidate suggestion device, handwritten character identification system, handwritten character identification method and program |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019163641A Active JP7297610B2 (en) | 2019-09-09 | 2019-09-09 | Character candidate proposal device, handwritten character identification system, handwritten character identification method and program |
Country Status (5)
Country | Link |
---|---|
JP (2) | JP7297610B2 (en) |
KR (2) | KR102572500B1 (en) |
CN (1) | CN112789624A (en) |
TW (2) | TWI766360B (en) |
WO (1) | WO2021049070A1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI814564B (en) * | 2022-08-31 | 2023-09-01 | 台灣大哥大股份有限公司 | Text image splitting system and method thereof |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015103082A (en) | 2013-11-26 | 2015-06-04 | 沖電気工業株式会社 | Information processing apparatus, system, method, and program |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02195489A (en) * | 1989-01-25 | 1990-08-02 | Hitachi Ltd | Post processor for character recognition |
JP2892376B2 (en) * | 1989-07-06 | 1999-05-17 | 沖電気工業株式会社 | Character recognition processor |
JP4066507B2 (en) * | 1998-05-11 | 2008-03-26 | 日本電信電話株式会社 | Japanese character recognition error correction method and apparatus, and recording medium on which error correction program is recorded |
JP6822261B2 (en) | 2017-03-24 | 2021-01-27 | 沖電気工業株式会社 | Information processing equipment, programs and information processing methods |
-
2019
- 2019-09-09 JP JP2019163641A patent/JP7297610B2/en active Active
-
2020
- 2020-03-16 CN CN202080003974.9A patent/CN112789624A/en active Pending
- 2020-03-16 KR KR1020227038076A patent/KR102572500B1/en active IP Right Grant
- 2020-03-16 KR KR1020217000508A patent/KR102465524B1/en active IP Right Grant
- 2020-03-16 WO PCT/JP2020/011553 patent/WO2021049070A1/en active Application Filing
- 2020-09-08 TW TW109130732A patent/TWI766360B/en active
- 2020-09-08 TW TW111118179A patent/TWI795292B/en active
-
2023
- 2023-06-13 JP JP2023096647A patent/JP7490861B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015103082A (en) | 2013-11-26 | 2015-06-04 | 沖電気工業株式会社 | Information processing apparatus, system, method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP2021043570A (en) | 2021-03-18 |
TW202234289A (en) | 2022-09-01 |
TW202115603A (en) | 2021-04-16 |
KR102572500B1 (en) | 2023-08-30 |
WO2021049070A1 (en) | 2021-03-18 |
KR20210032380A (en) | 2021-03-24 |
TWI766360B (en) | 2022-06-01 |
JP2023110102A (en) | 2023-08-08 |
CN112789624A (en) | 2021-05-11 |
JP7297610B2 (en) | 2023-06-26 |
KR102465524B1 (en) | 2022-11-11 |
KR20220153096A (en) | 2022-11-17 |
TWI795292B (en) | 2023-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8625899B2 (en) | Method for recognizing and translating characters in camera-based image | |
US20180018564A1 (en) | Artificial intelligence-based prior art document identification system | |
RU2634194C1 (en) | Verification of optical character recognition results | |
KR20100007722A (en) | Method of character recongnition and translation based on camera image | |
JP6527410B2 (en) | Character recognition device, character recognition method, and program | |
JP7490861B2 (en) | Character candidate suggestion device, handwritten character identification system, handwritten character identification method and program | |
RU2571396C2 (en) | Method and system for verification during reading | |
US11475688B2 (en) | Information processing apparatus and information processing method for extracting information from document image | |
JP7387363B2 (en) | Data input support device, data input support method and program | |
RU2665274C2 (en) | Pop-up verification panel | |
JP2016024488A (en) | Image processing apparatus and method of controlling the same | |
EP3356952B1 (en) | Method and system for ideogram character analysis | |
US20060139315A1 (en) | Apparatus and method for inputting alphabet characters on keypad | |
US20230206672A1 (en) | Image processing apparatus, control method of image processing apparatus, and storage medium | |
JP2016018454A (en) | Image processing system and controlling method thereof | |
JP7021496B2 (en) | Information processing equipment and programs | |
JP2019194853A (en) | Information processing device, information processing program, and information processing system | |
US10498910B2 (en) | Image forming apparatus for displaying conference information, non-transitory computer-readable recording medium, conference system and method for controlling conference system | |
JP5752073B2 (en) | Data correction device | |
JP2004046388A (en) | Information processing system and character correction method | |
EP4216174A1 (en) | Information processing device, information processing method, and program | |
JP2023141193A (en) | Information processing device and program | |
US20190294873A1 (en) | Information processing apparatus and non-transitory computer readable recording medium | |
JPH06333083A (en) | Optical character reader | |
JP2017072942A (en) | Document distribution system, information processing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230614 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230614 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240416 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240515 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7490861 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |