JP3244068U - Handwritten character recognition system based on neural network - Google Patents

Handwritten character recognition system based on neural network Download PDF

Info

Publication number
JP3244068U
JP3244068U JP2023002914U JP2023002914U JP3244068U JP 3244068 U JP3244068 U JP 3244068U JP 2023002914 U JP2023002914 U JP 2023002914U JP 2023002914 U JP2023002914 U JP 2023002914U JP 3244068 U JP3244068 U JP 3244068U
Authority
JP
Japan
Prior art keywords
handwritten
character
character string
neural network
handwriting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023002914U
Other languages
Japanese (ja)
Other versions
JP3244068U6 (en
Inventor
庄建明
陳頌光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sunia Pte Ltd
Original Assignee
Sunia Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sunia Pte Ltd filed Critical Sunia Pte Ltd
Application granted granted Critical
Publication of JP3244068U6 publication Critical patent/JP3244068U6/en
Publication of JP3244068U publication Critical patent/JP3244068U/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】右から左に書く言語を含めて高い識別率を有し、適当な書き順の識別をサポートするニューラルネットワークに基づく手書き文字識別システムを提供する。【解決手段】手書き文字識別システムは、オンラインで手書きされた文字列手書き軌跡を受信すると共にプリプロセスを行うために用いられている手書き筆跡入力プロセッサと、手書き筆跡入力プロセッサが処理した多量の文字列手書き軌跡を保存するために用いられている文字列データベースと、エンコーダ、デコーダ、入力インターフェース、及び出力インターフェースを含む文字識別ニューラルネットワークと、を備えている。文字列データベースの文字列手書き軌跡中の各手書き筆跡はエンコーダー及びデコーダに入力されて複数回識別され、可能性のある複数の文字列を獲得する。識別した文字列は出力インターフェースを経由してポストプロセッサに出力されて正規化される。【選択図】図1The present invention provides a handwritten character recognition system based on a neural network that has a high recognition rate including languages written from right to left and supports recognition of appropriate stroke order. [Solution] A handwritten character recognition system includes a handwritten handwriting input processor used to receive a handwritten character string handwritten trajectory online and perform preprocessing, and a large number of character strings processed by the handwritten handwriting input processor. It comprises a character string database used to store handwriting trajectories, and a character identification neural network including an encoder, decoder, input interface, and output interface. Each handwritten stroke in the character string handwriting trajectory of the character string database is input to an encoder and a decoder and identified multiple times to obtain multiple possible character strings. The identified string is output to the post-processor via the output interface and normalized. [Selection diagram] Figure 1

Description

本考案は、文字識別システムに関し、より詳しくは、ニューラルネットワークに基づく手書き文字識別システムに関する。 TECHNICAL FIELD The present invention relates to a character identification system, and more particularly to a handwritten character identification system based on a neural network.

オンライン手書き文字行識別(online handwritten Chinese character recognition)技術は1行の手書き文字の動的筆跡を文字列に変換する技術である。活字体識別技術と比べ、手書き識別は人それぞれ違う書き方の癖を考慮する必要があるため、より困難である。オフライン手書き識別と比べ、オンライン手書き識別では時系列情報をさらに有し、背景ノイズが少ないため、より高い精度を達成できる。 Online handwritten Chinese character recognition technology is a technology that converts the dynamic handwriting of one line of handwritten characters into a character string. Compared to print recognition techniques, handwriting recognition is more difficult because it requires consideration of different writing habits of each person. Compared to offline handwriting identification, online handwriting identification has more time-series information and less background noise, so it can achieve higher accuracy.

従来技術には高い識別率を有する2種類のオンライン手書き識別方法があり、1つは分割デコードメカニズムに基づいて、まず筆画順序に対し分割し、動的計画法を応用して分類器により最適な分割方式及び対応する識別結果を選択する。MyScript社及び初期のGoogle社ではこの方法を採用し、その利点は精確な対応関係を出力できる点である。2つ目の方法は、明示的に分割せず、一般的に双方向循環ニューラルネットワーク及びCTC(Connectionist Temporal Classification)デコーダに基づいている。この方法を採用する企業としてSamsung社及びGoogle社があり、この方法の利点は容易に実施できるため、エンドツーエンド・トレーニング(end-to-end training)方式を使用して関連するモデルをトレーニングできる点である。 In the prior art, there are two types of online handwriting recognition methods with high recognition rates.One is based on a partition decoding mechanism, which first divides the stroke order, and then applies dynamic programming to find the optimal one by a classifier. Select the division method and the corresponding identification result. MyScript and early Google adopted this method, and its advantage is that it outputs accurate correspondence. The second method does not explicitly partition and is generally based on a bidirectional circular neural network and a CTC (Connectionist Temporal Classification) decoder. Companies that have adopted this method include Samsung and Google, and the advantage of this method is that it is easy to implement and the associated models can be trained using an end-to-end training method. It is a point.

しかしながら、前述した従来の文字識別技術では、その識別率は高くなく、世界中のメジャーな自然言語(右から左に書く言語を含む)を高い精度で識別することはできず、或いは適当な書き順で書いた文字を識別できなかった。 However, the conventional character identification technology described above does not have a high recognition rate, and cannot identify the major natural languages of the world (including languages written from right to left) with high accuracy, or cannot identify the major natural languages of the world (including languages written from right to left), or I couldn't identify the letters written in order.

本考案者らは、鋭意検討を重ねた結果、新規のニューラルネットワークに基づく手書き文字識別システムの構成を採用することによって、上記目的が達成されることを見出し、本考案を完成させるに至った。 As a result of extensive studies, the present inventors have found that the above object can be achieved by adopting the configuration of a handwritten character recognition system based on a new neural network, and have completed the present invention.

本考案は、上記問題点に鑑みて本考案者の鋭意研究により成されたものであり、その目的は、ニューラルネットワークに基づく手書き文字識別システムを提供することにある。 The present invention was developed through intensive research by the inventor in view of the above-mentioned problems, and its purpose is to provide a handwritten character recognition system based on a neural network.

上記課題を解決するために、本考案のある態様のニューラルネットワークに基づく手書き文字識別システムは、プロセッサ及びメモリーを備え、前記プロセッサはシステムに必要な操作を実行するために用いられ、前記メモリーは前記システムのコンピュータープログラムのデータまたは演算プログラム、関連する操作結果及び関連するデータを保存するために用いられている。前記システムは、
オンラインで手書きされた文字列手書き軌跡を受信するために用いられている手書き筆跡入力プロセッサであって、前記文字列手書き軌跡は複数の手書き筆跡に分解され、ニューラルネットワークのトレーニング段階及び予測段階において、前記手書き筆跡入力プロセッサは前記文字列手書き軌跡の各手書き筆跡に対しプリプロセスを実行し、トレーニング段階において、前記文字列手書き軌跡のこれら手書き筆跡は既知の文字列に対応し、少なくとも1つの文字で構成され、前記文字列手書き軌跡及びその対応する文字列により文字列サンプルが形成される手書き筆跡入力プロセッサと、
前記手書き筆跡入力プロセッサに接続され、前記手書き筆跡入力プロセッサが処理した多量の文字列手書き軌跡を保存するために用いられている文字列データベースであって、トレーニング段階において、前記文字列データベースは前記文字列手書き軌跡及びそれが対応する文字列で形成されている文字列サンプルを保存する文字列データベースと、
エンコーダーと、デコーダと、前記エンコーダーに位置している入力インターフェースと、前記デコーダに位置している出力インターフェースと、を含む文字識別ニューラルネットワークであって、前記入力インターフェースは前記文字列データベースに接続され、前記文字列手書き軌跡の各手書き筆跡を受信するために用いられ、前記エンコーダーは各手書き筆跡中からコンテキストマトリクス及び前記デコーダが使用する初期状態を探し出し、前記デコーダは前記コンテキストマトリクス及び前記初期状態を受信すると共に、前記出力インターフェースから事前出力された文字列の部分及び信頼度を出力し、この部分及び信頼度を前記デコーダに回帰入力して識別し、これを数回反復した後、可能性のある複数の文字列及び対応する信頼度を獲得すると共に結果候補セットに保存し、前記結果候補セットは前記出力インターフェースを経由して外部に向けて出力し、トレーニング段階において、前記文字列手書き軌跡の各手書き筆跡は前記入力インターフェースを経由して前記文字識別ニューラルネットワークに入力され、前記文字列手書き軌跡が対応する文字列は前記文字識別ニューラルネットワークの事前出力とする文字識別ニューラルネットワークと、
前記文字列データベース及び前記文字識別ニューラルネットワークの前記出力インターフェースに接続され、前記文字識別ニューラルネットワークの前記出力インターフェースが出力した前記結果候補セットの文字列は前記ポストプロセッサにより正規化(Normalization)され、前記文字識別ニューラルネットワークの出力とするポストプロセッサと、を更に備えている。
In order to solve the above problems, a handwritten character identification system based on a neural network according to an aspect of the present invention includes a processor and a memory, the processor is used to perform operations necessary for the system, and the memory is used to perform operations necessary for the system. It is used to store computer program data or calculation programs of the system, related operation results and related data. The system includes:
A handwriting input processor used to receive a character string handwriting trajectory handwritten online, wherein the character string handwriting trajectory is decomposed into a plurality of handwritten handwritings, and in a training stage and a prediction stage of a neural network, The handwriting input processor performs pre-processing on each handwritten stroke of the character string handwritten trajectory, and in a training phase, these handwritten strokes of the character string handwritten trajectory correspond to a known character string and have at least one character. a handwritten handwriting input processor configured such that a character string sample is formed by the character string handwritten trajectory and its corresponding character string;
a character string database connected to the handwritten handwriting input processor and used to store a large number of handwritten character string trajectories processed by the handwritten handwriting input processor; a character string database that stores character string samples formed by column handwritten trajectories and character strings to which they correspond;
A character identification neural network comprising an encoder, a decoder, an input interface located at the encoder, and an output interface located at the decoder, the input interface being connected to the character string database; used to receive each handwritten stroke of the string handwritten trajectory, the encoder finds a context matrix and an initial state used by the decoder in each handwritten stroke, and the decoder receives the context matrix and the initial state. At the same time, the portion and reliability of the pre-output string are output from the output interface, and the portion and reliability are re-inputted into the decoder to identify them. After repeating this several times, possible A plurality of character strings and their corresponding confidence levels are obtained and stored in a result candidate set, the result candidate set is outputted to the outside via the output interface, and in the training stage, each of the character string handwritten trajectories is a character identification neural network in which handwritten handwriting is input to the character identification neural network via the input interface, and a character string to which the character string handwritten trajectory corresponds is a preliminary output of the character identification neural network;
The character strings of the result candidate set, which are connected to the character string database and the output interface of the character identification neural network and output by the output interface of the character identification neural network, are normalized by the post-processor, and the character strings are normalized by the post-processor. The apparatus further includes a post-processor for outputting the character identification neural network.

本考案によれば、より高い識別率を有し、世界中のメジャーな自然言語(右から左に書く言語を含む)をより精確に識別可能であり、入力筆画と出力文字との間の対応関係を提供する。適当な書き順の識別をサポートする。本考案は実際の応用時には必要な文字識別範囲を配置してオープンまたはクローズな辞典への応用をサポートする。本考案は一般的な携帯電話やタブレット端末の即時手書き文字識別にも応用可能である。 According to the present invention, it has a higher recognition rate, can more accurately identify major natural languages around the world (including right-to-left languages), and can improve the correspondence between input strokes and output characters. Provide relationships. Supports identification of appropriate stroke order. In actual application, the present invention supports application to open or closed dictionaries by arranging necessary character recognition ranges. The present invention can also be applied to instant handwritten character recognition on general mobile phones and tablet terminals.

本考案の一実施例に係るニューラルネットワークに基づく手書き文字識別システムの要部を示す概略構成図である。1 is a schematic configuration diagram showing the main parts of a handwritten character identification system based on a neural network according to an embodiment of the present invention. 本考案のトレーニング段階の応用を示す概略図である。FIG. 3 is a schematic diagram illustrating the application of the training stage of the present invention; 本考案の文字列サンプルを示すブロック図である。FIG. 2 is a block diagram showing a sample string of the present invention. 本考案の予測段階の応用を示す概略図である。FIG. 3 is a schematic diagram illustrating the application of the prediction stage of the present invention; 本考案の一実施例に係るニューラルネットワークに基づく手書き文字識別システムのハードウェア構造を示す概略構成図である。1 is a schematic configuration diagram showing the hardware structure of a handwritten character identification system based on a neural network according to an embodiment of the present invention; FIG.

以下、考案の実施の形態を通じて本考案を説明するが、以下の実施形態は実用新案登録請求の範囲にかかる考案を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが考案の解決手段に必須であるとは限らない。 The present invention will be described below through embodiments of the invention, but the following embodiments are not intended to limit the invention claimed as a utility model. Furthermore, not all combinations of features described in the embodiments are essential to the proposed solution.

まず、本考案の一実施例に係るニューラルネットワークに基づく手書き文字識別システム1は、主にプロセッサ2及びメモリー6を含んで構成されている(図5参照)。前記プロセッサ2はシステム1に必要な操作を実行するために用いられている。前記メモリー6は前記システム1のコンピュータープログラムのデータまたは演算プログラム、関連する操作結果及び関連するデータを保存するために用いられている。全ての操作結果及び関連するデータは前記メモリー6に保存されている。 First, a handwritten character identification system 1 based on a neural network according to an embodiment of the present invention mainly includes a processor 2 and a memory 6 (see FIG. 5). The processor 2 is used to perform the operations required by the system 1. The memory 6 is used to store computer program data or calculation programs of the system 1, related operation results, and related data. All operation results and related data are stored in the memory 6.

本考案のニューラルネットワークに基づく手書き文字識別システム(図1乃至図5参照)は、文字識別が1つのSeq2Seq(sequence to sequence)としてモデルが構築されるという問題があり、前記問題の入力は1列のサンプリング点(x座標、y座標、及び手書き筆跡終了標記を含む)であり、出力は1列の文字であり、両者の長さは全て非固定値である。本考案は注意機構に基づいたエンコーダー-デコーダフレームワークを採用してこの問題を解決している。 The handwritten character recognition system based on the neural network of the present invention (see Figures 1 to 5) has a problem in that the model is constructed as one Seq2Seq (sequence to sequence) for character recognition, and the input for the problem is one sequence. (including the x-coordinate, y-coordinate, and handwritten end mark), the output is a line of characters, and the lengths of both are all non-fixed values. The present invention adopts an encoder-decoder framework based on attention mechanism to solve this problem.

本考案の一実施例に係るニューラルネットワークに基づく手書き文字識別システムには、以下の構成が主に含まれる。 A handwritten character identification system based on a neural network according to an embodiment of the present invention mainly includes the following configuration.

<手書き筆跡入力プロセッサ10>
オンラインで手書きされた文字列手書き軌跡80を受信するために用いられ、前記文字列手書き軌跡80は複数の手書き筆跡81に分解される。ニューラルネットワークのトレーニング段階及び予測段階において、前記手書き筆跡入力プロセッサ10は前記文字列手書き軌跡80の各手書き筆跡81に対しプリプロセスを実行する。トレーニング段階において、前記文字列手書き軌跡80のこれら手書き筆跡81は既知の文字列90に対応し、少なくとも1つの文字91で構成され、前記文字列手書き軌跡80及びその対応する文字列90により文字列サンプル100が形成されている(図3参照) 。前記手書き筆跡入力プロセッサ10のプリプロセス方式は以下の通りである。
<Handwritten handwriting input processor 10>
It is used to receive a character string handwritten trajectory 80 handwritten online, and the character string handwritten trajectory 80 is decomposed into a plurality of handwritten strokes 81 . In the training and prediction stages of the neural network, the handwritten handwriting input processor 10 performs preprocessing on each handwritten handwriting 81 of the character string handwritten trajectory 80 . In the training stage, these handwritten strokes 81 of the character string handwritten trajectory 80 correspond to a known character string 90 and are composed of at least one character 91, and the character string handwritten trajectory 80 and its corresponding character string 90 form a character string. A sample 100 is formed (see Figure 3). The preprocessing method of the handwritten handwriting input processor 10 is as follows.

<手書き筆跡順序の正規化>
各手書き筆跡81に対しバウンディングボックスを確定し、前記バウンディングボックスは前記手書き筆跡81の最小ボックスを収容可能である。各手書き筆跡81のバウンディングボックスの左側の位置を基準とし、全ての手書き筆跡81に対し左から右にかけて並べ替えることが所謂正規化である。
<Normalization of handwritten handwriting order>
A bounding box is determined for each handwritten handwriting 81, and the bounding box can accommodate the minimum box of the handwritten handwriting 81. So-called normalization is to rearrange all handwritten handwritings 81 from left to right using the left side position of the bounding box of each handwritten handwriting 81 as a reference.

<行の高さを推定>
1つの手書き筆跡81の長さがそのバウンディングボックスの幅に近似している場合、そのバウンディングボックスの幅を手書き筆跡の尺度とし、そうでなければ前記バウンディングボックスの高さを手書き筆跡の尺度とする。これら手書き筆跡の尺度のある分位数を行の高さとして推定する。
<Estimate row height>
If the length of one handwritten handwriting 81 is close to the width of its bounding box, the width of the bounding box is the measure of the handwritten handwriting; otherwise, the height of the bounding box is the measure of the handwritten handwriting. . A certain quantile of these handwritten strokes is estimated as the line height.

<再サンプリングを実行>
各手書き筆跡81は複数のサンプリング点83で表示し、サンプリング点83に対し、前記サンプリング点83と1つ前のサンプリング点83との距離が行の高さの推定の幾らかの倍数である場合、前記サンプリング点83を削除する。前記サンプリング点83及びその前方及び後方にあるサンプリング点83に対し、三点の間の夾角が平角(180度)に接近している場合、前記サンプリング点83を削除する。こうすることで、サンプリング点83の数量を大量に削減できる。
<Perform resampling>
Each handwritten handwriting 81 is displayed with a plurality of sampling points 83, and when the distance between the sampling point 83 and the previous sampling point 83 is some multiple of the estimated line height. , the sampling point 83 is deleted. If the included angle between the sampling point 83 and the sampling points 83 in front and behind the sampling point approaches a flat angle (180 degrees), the sampling point 83 is deleted. By doing so, the number of sampling points 83 can be greatly reduced.

<座標の正規化>
各サンプリング点83の座標を行の高さの推定で除算する。
<Normalization of coordinates>
Divide the coordinates of each sampling point 83 by the estimated row height.

トレーニング段階において、前記文字列手書き軌跡80の各手書き筆跡81は前記手書き筆跡入力プロセッサ10によりプリプロセスを実行してニューラルネットワークの入力として用い、前記文字列手書き軌跡80が対応する文字列90はニューラルネットワークの事前出力とする。 In the training stage, each handwritten handwriting 81 of the character string handwritten trajectory 80 is preprocessed by the handwritten handwriting input processor 10 and used as an input to the neural network, and the character string 90 to which the character string handwritten trajectory 80 corresponds is processed by the neural network. Use it as a preliminary output of the network.

<文字列データベース20>
前記手書き筆跡入力プロセッサ10に接続され、前記手書き筆跡入力プロセッサ10が処理した多量の文字列手書き軌跡80を保存するために用いられている。トレーニング段階において、前記文字列データベース20は前記文字列手書き軌跡80及びそれに対応する文字列90で形成されている文字列サンプル100を保存する。各前記文字列手書き軌跡80の各手書き筆跡81は複数のサンプリング点83で表示する。各手書き筆跡81の1個目のサンプリング点83は座標(0,0)で表示し、残りのサンプリング点83は1つ前のサンプリング点83に対する変位ベクトルを応用して表示し、各手書き筆跡81の最後のサンプリング点83は終了標記を有している。
<Character string database 20>
It is connected to the handwritten handwriting input processor 10 and is used to store a large amount of character string handwritten trajectories 80 processed by the handwritten handwriting input processor 10. During the training stage, the character string database 20 stores a character string sample 100 formed by the character string handwritten trajectory 80 and a character string 90 corresponding thereto. Each handwritten handwriting 81 of each character string handwritten trajectory 80 is displayed as a plurality of sampling points 83. The first sampling point 83 of each handwritten handwriting 81 is displayed with coordinates (0,0), and the remaining sampling points 83 are displayed by applying the displacement vector to the previous sampling point 83. The last sampling point 83 of has an end mark.

システム全体の一般化識別能力を高めるため、データ拡張法を使用して文字列サンプル100の数量を増加させる。本考案は、コーパス及び手書きサンプルライブラリ35及び前記手書き筆跡入力プロセッサ10に接続されている文字列サンプル生成ユニット30を更に備え、前記コーパス及び手書きサンプルライブラリ35には特定の言語の各種文字及び単語、並びにそれらに対応する手書き筆跡81のサンプルが保存されている。前記文字列サンプル生成ユニット30は前記コーパス及び手書きサンプルライブラリ35中から多量の文字列90及びそれらに対応する手書き筆跡81を抽出し、これら文字列90に対しそれらに対応する文字列手書き軌跡80を合成して多量の文字列サンプル100を形成し、且つ前記手書き筆跡入力プロセッサ10により処理した後に前記文字列データベース20に保存し、ニューラルネットワークのトレーニングに用いる。前記文字列サンプル生成ユニット30が前記文字列手書き軌跡80を合成する方式は以下のステップを含む。
(1)テキスト組版アルゴリズムを利用して前記文字列90をレンダリング(render)し、文字列90中の各文字/単語の位置を記録した後、前記コーパス及び手書きサンプルライブラリ35から各文字/単語の手書き筆跡81を検索すると共に対応する位置に配置し、これら文字/単語の各手書き筆跡81の正規化された手書き筆跡順序及び行の高さの推定を獲得し、前記手書き筆跡入力プロセッサ10に入力して再サンプリング及び座標の正規化を行って対応する文字列サンプル100を獲得する。
In order to increase the generalized discrimination ability of the entire system, a data augmentation method is used to increase the quantity of string samples 100. The present invention further comprises a corpus and handwriting sample library 35 and a character string sample generation unit 30 connected to the handwriting input processor 10, wherein the corpus and handwriting sample library 35 includes various characters and words of a specific language, Also, samples of handwritten handwriting 81 corresponding to these are stored. The character string sample generation unit 30 extracts a large number of character strings 90 and handwritten handwriting 81 corresponding to them from the corpus and handwritten sample library 35, and generates character string handwritten trajectories 80 corresponding to these character strings 90. A large number of character string samples 100 are synthesized, and after being processed by the handwriting input processor 10, they are stored in the character string database 20 and used for training a neural network. The method by which the character string sample generation unit 30 synthesizes the character string handwritten trajectory 80 includes the following steps.
(1) After rendering the character string 90 using a text typesetting algorithm and recording the position of each character/word in the character string 90, The handwritten strokes 81 are retrieved and placed in corresponding positions, and the normalized handwritten stroke order and line height estimates of each handwritten stroke 81 of these characters/words are obtained and input into the handwritten stroke input processor 10. Then, resampling and coordinate normalization are performed to obtain the corresponding string sample 100.

前記文字列90中の文字、単語、及び行等のレベルを分類し、それらに対応する手書き筆跡81に対しランダムアフィン変換(Affine transformation)を実行して対応する文字列手書き軌跡80の多様性を更に高め、ニューラルネットワークのトレーニングに用いる更に多くの文字列サンプル100を獲得する。
(2)注記を有するテキスト行サンプルを利用してSeq2Seq翻訳モデルをトレーニングし、前記注記は前記テキスト行サンプルの対応する文字列90を示し、前記Seq2Seq翻訳モデルは文字列90を対応する文字列手書き軌跡80に変換し、対応する文字列サンプル100を生成するために用いられている。
The levels of characters, words, lines, etc. in the character string 90 are classified, and a random affine transformation is performed on the handwritten handwriting 81 corresponding to the characters, to evaluate the diversity of the corresponding handwritten character string trajectory 80. Further, we obtain more string samples 100 for use in training the neural network.
(2) training a Seq2Seq translation model using a text line sample with an annotation, the annotation indicating a corresponding string 90 of the text line sample, and the Seq2Seq translation model The character string sample 100 is converted into a trajectory 80 and used to generate a corresponding character string sample 100.

前記文字列サンプル生成ユニット30は獲得した文字列サンプル100を前記文字列データベース20に保存する。 The string sample generation unit 30 stores the obtained string samples 100 in the string database 20.

<文字識別ニューラルネットワーク40>
エンコーダー41と、デコーダ42と、前記エンコーダー41に位置している入力インターフェース43と、前記デコーダ42に位置している出力インターフェース44と、を含んで構成されている。前記入力インターフェース43は前記文字列データベース20に接続され、前記文字列手書き軌跡80の各手書き筆跡81を受信するために用いられている。前記エンコーダー41は各手書き筆跡81中からコンテキストマトリクス及び前記デコーダ42が使用する初期状態を探し出すために用いられ、前記デコーダ42は前記コンテキストマトリクス及び前記初期状態を受信すると共に、前記出力インターフェース44から事前出力される文字列の部分及び信頼度を出力し、この部分及び信頼度を前記デコーダ42に回帰入力して識別を行う。これを数回反復した後、可能性のある複数の文字列90及び対応する信頼度を獲得すると共に、結果候補セット70に保存する。前記結果候補セット70は前記出力インターフェース44により外部に向けて出力する。
<Character identification neural network 40>
It is configured to include an encoder 41, a decoder 42, an input interface 43 located at the encoder 41, and an output interface 44 located at the decoder 42. The input interface 43 is connected to the character string database 20 and is used to receive each handwritten stroke 81 of the character string handwritten trajectory 80. The encoder 41 is used to find a context matrix and an initial state used by the decoder 42 in each handwritten stroke 81, and the decoder 42 receives the context matrix and the initial state, and also receives the initial state from the output interface 44. The portion and reliability of the output character string are output, and the portion and reliability are regressively input to the decoder 42 for identification. After repeating this several times, a plurality of possible character strings 90 and their corresponding confidence ratings are obtained and stored in the result candidate set 70. The result candidate set 70 is outputted to the outside by the output interface 44.

図2に示す如く、トレーニング段階において、前記文字列手書き軌跡80の各手書き筆跡81は前記入力インターフェース43により前記文字識別ニューラルネットワーク40に入力し、前記文字列手書き軌跡80が対応する文字列90は前記文字識別ニューラルネットワーク40の事前出力とする。 As shown in FIG. 2, in the training stage, each handwritten stroke 81 of the character string handwritten trajectory 80 is input to the character identification neural network 40 through the input interface 43, and the character string 90 to which the character string handwritten trajectory 80 corresponds is This is the preliminary output of the character identification neural network 40.

<ポストプロセッサ50>
前記文字列データベース20及び前記文字識別ニューラルネットワーク40の前記出力インターフェース44に接続されている。前記文字識別ニューラルネットワーク40の前記出力インターフェース44が出力した前記結果候補セット70の文字列90は前記ポストプロセッサ50により正規化(Normalization)され、前記文字識別ニューラルネットワーク40の出力とする。正規化の方式は以下の通りである。
(1)UnicodeのNFKD形式(Normalization Form KD)で正規化する。主に異なる形式の同じ文字を表現し、同じプログラムコードとして正規化する。
(2)Unicodeの符号位置の順序を正常な論理的順序から視覚的順序(左から右)に変換することで、並べた入力と略位置を揃える。予測段階において、予期可能な識別結果は通常正規化されているため、識別した文字列90に対しUnicodeのNFKCにより正規化を行う必要があり、Unicodeの符号位置の順序を視覚的順序から論理的順序に変換して戻す。
<Post processor 50>
It is connected to the character string database 20 and the output interface 44 of the character identification neural network 40 . The character string 90 of the resultant candidate set 70 outputted by the output interface 44 of the character identification neural network 40 is normalized by the post-processor 50 and becomes the output of the character identification neural network 40 . The normalization method is as follows.
(1) Normalize using Unicode NFKD format (Normalization Form KD). Mainly to represent the same characters in different formats and normalize them as the same program code.
(2) By converting the order of Unicode code points from the normal logical order to the visual order (left to right), the positions are approximately aligned with the arranged input. In the prediction stage, predictable identification results are usually normalized, so it is necessary to normalize the identified string 90 using Unicode's NFKC, which changes the order of Unicode code points from the visual order to the logical order. Convert back to order.

例えば、文字列90中の異なる配列順序を有する部分の文字を同じ配列順序を有するように整理する。こうすることで、ニューラルネットワークのトレーニングを行う際に識別が容易になる。 For example, characters in parts of the character string 90 that have different sequences are arranged so that they have the same sequence. This makes identification easier when training a neural network.

前記エンコーダー41は多層双方向LSTM(Long Short-Term Memory)循環ニューラルネットワーク、及び全結合ニューラルネットワーク(Fully-connect Neural Network、FNN)を含む。前記エンコーダー41に入力する各手書き筆跡81は多層双方向LSTM(Long Short-Term Memory)循環ニューラルネットワークに進入し、前記多層双方向LSTM循環ニューラルネットワークの出力はコンテキストマトリクス(context matrix)である。前記コンテキストマトリクスに対しグローバル平均プーリング(Global Average Pooling)を実行した後、前記全結合ニューラルネットワーク(Fully-connect Neural Network、FNN)を経由し、前記全結合ニューラルネットワークの出力は前記デコーダ42に入力するための初期状態である。 The encoder 41 includes a multilayer bidirectional LSTM (Long Short-Term Memory) cyclic neural network and a fully-connected neural network (FNN). Each handwritten stroke 81 input to the encoder 41 enters a multi-layer bi-directional LSTM (Long Short-Term Memory) cyclic neural network, and the output of the multi-layer bi-directional LSTM (Long Short-Term Memory) cyclic neural network is a context matrix. After performing global average pooling on the context matrix, the output of the fully-connected neural network is input to the decoder 42 via the fully-connected neural network (FNN). This is the initial state for.

前記デコーダ42の入力は、入力文字と、デコード状態と、収斂ベクトルと、前記コンテキストマトリクスと、を含む。前記デコーダ42は複数ステップのデコードを実行し、最初のステップのデコードを行う際に、前記入力文字の初期値は1つのビルトインの開始符号であり、前記収斂ベクトルの初期値は零ベクトルであり、前記デコード状態の初期値は前記エンコーダー41が出力する前記初期状態であり、前記コンテキストマトリクスは前記エンコーダー41により出力される。前記デコーダ42の出力は次の文字及びその信頼度(Confidence)分布、新しいデコード状態、及び新しい収斂ベクトルであり、前記次の文字は新しい入力文字とし、新しいデコード状態及び新しい収斂ベクトルと共に前記デコーダ42に回帰入力し、次のステップのデコードを実行する。前記デコーダ42は上述した方式を応用して複数ステップのデコードを反復して実行する。前記収斂ベクトルの次元は各サンプリング点83を示し、その作用はどのサンプリング点83が対応する出力文字を既に有しているかを記録し、各次元の初期座標は0である。対応する出力文字が存在する場合、前記サンプリング点83に対応する次元座標は1に設定する。こうすることにより、前記収斂ベクトルを応用して字の欠乏また過多の状況を減少させている。 The input to the decoder 42 includes input characters, decoding states, convergence vectors, and the context matrix. The decoder 42 performs multi-step decoding, and when decoding the first step, the initial value of the input character is one built-in starting code, and the initial value of the convergence vector is a zero vector; The initial value of the decoding state is the initial state output by the encoder 41, and the context matrix is output by the encoder 41. The output of the decoder 42 is the next character and its confidence distribution, a new decoding state, and a new convergence vector, the next character being a new input character, and the output of the decoder 42 with a new decoding state and a new convergence vector. and perform the next step of decoding. The decoder 42 repeatedly performs multiple steps of decoding using the method described above. The dimension of said convergence vector indicates each sampling point 83, its action records which sampling point 83 already has a corresponding output character, and the initial coordinate of each dimension is 0. If a corresponding output character exists, the dimensional coordinates corresponding to the sampling point 83 are set to 1. In this way, the convergence vector is applied to reduce the situation of lack or overabundance of characters.

前記デコーダ42は複数の関数の線型結合である損失関数(loss function)を定義し、計算時には必要に応じて意義のある損失関数を定義する。前記損失関数は信頼度分布の交差エントロピー(cross-entropy)を較正し、前記収斂ベクトルの終了時に全て1の平均二乗誤差をガイドするために用いられている。既知のある文字が手書き筆跡81に対応する場合(例えば、データに文字レベル注記がある、または合成である)、1つの文字をデコードするように更にガイドすると、前記収斂ベクトルが手書き筆跡81に関する点に対応する分量が1増大する。こうすることで、予測段階において、前記収斂ベクトルの変化により出力された各文字がどの手書き筆跡81にそれぞれ対応するか判断する。 The decoder 42 defines a loss function that is a linear combination of a plurality of functions, and defines a meaningful loss function as necessary during calculation. The loss function is used to calibrate the cross-entropy of the confidence distribution and guide the all-ones mean squared error at the end of the convergence vector. If some known character corresponds to the handwriting 81 (e.g. the data has character-level annotations or is a composite), then further guidance to decode one character will cause the convergence vector to correspond to the handwriting 81. The amount corresponding to increases by 1. By doing this, in the prediction stage, it is determined which handwritten stroke 81 each output character corresponds to based on the change in the convergence vector.

予測段階において、前記デコーダ42はビームサーチ(Beam Search)方式で候補行を徐々に構成し、且つ未完成の各候補行に対し、その文字列、信頼度、デコード状態、収斂ベクトル、及び予測分析スタック(predictive analysis stack)を記録する。前記予測分析スタックは予測分析法(predictive analytics)の文法記号列を含むスタックである。文字レベルの候補を出力する必要がある場合、各文字の若干の他の候補文字及び対応する信頼度を更に記録する。手書き筆跡81と文字との対応関係を出力する必要がある場合、歴史的収斂ベクトルを更に記録する。前記デコーダ42はデコードの各ステップにおいて、未完成の各候補行に対し以下のステップを実行する。
(1)前記デコーダ42を起動して次の文字の候補リスト及び対応する信頼度を獲得し、同時にデコード状態及び収斂ベクトルを更新する。
(2)前記出力インターフェース44により次の文字の各候補を前記出力インターフェース44と前記ポストプロセッサ50との間に結合されている信頼度調整ユニット60に出力し、前記信頼度調整ユニット60はn-gram方式により獲得する文字列の可能性を計算し、次の文字の各候補の信頼度を調整する。
(3)次の文字の各候補に対し、元の文字列との結合後の信頼度及び予測分析スタックを計算する。
(a)前記候補が終了記号であり、且つ前記予測分析スタックがブランクである場合、完成した1行の候補行を獲得する。
(b)前記候補が終了記号ではなく、且つ前記予測分析スタックが間違い状態にない場合、未完成の1行の候補行を獲得し、次のステップのデコード時に処理を行うために用いる。毎回次のステップのデコードの開始時には、前記デコーダ42が信頼度が最も高い若干の候補行のみを保留する。既に完成した候補行の数量が既定値に達した場合、デコードを停止し、この際完成した候補行は可能性のある若干の文字列90であり、これら文字列90及びその信頼度を前記結果候補セット70に保存し、前記出力インターフェース44により外部に向けて出力する。
In the prediction stage, the decoder 42 gradually constructs candidate rows using a beam search method, and for each incomplete candidate row, determines its character string, reliability, decoding state, convergence vector, and predictive analysis. Record the stack (predictive analysis stack). The predictive analytics stack is a stack containing grammar strings of predictive analytics. If character-level candidates need to be output, some other candidate characters for each character and the corresponding reliability are also recorded. If it is necessary to output the correspondence between handwritten handwriting 81 and characters, a historical convergence vector is further recorded. In each step of decoding, the decoder 42 performs the following steps for each unfinished candidate row.
(1) Activate the decoder 42 to obtain the next character candidate list and the corresponding reliability, and update the decoding state and convergence vector at the same time.
(2) The output interface 44 outputs each candidate for the next character to a confidence adjustment unit 60 coupled between the output interface 44 and the post-processor 50, and the confidence adjustment unit 60 outputs n- Calculate the probability of the string obtained using the gram method and adjust the confidence level of each candidate for the next character.
(3) For each candidate next character, calculate the reliability and predictive analysis stack after combination with the original character string.
(a) If the candidate is a termination symbol and the predictive analysis stack is blank, obtain one completed candidate line.
(b) If the candidate is not a termination symbol and the predictive analysis stack is not in an error state, obtain one incomplete candidate line and use it for processing during the next step of decoding. At the beginning of each next step of decoding, the decoder 42 reserves only a few candidate lines with the highest reliability. When the number of already completed candidate lines reaches a predetermined value, decoding is stopped, and at this time, the completed candidate lines are some possible strings 90, and these strings 90 and their reliability are evaluated as above results. It is stored in the candidate set 70 and output to the outside through the output interface 44.

予測段階において(図4参照)、識別したい文字列手書き軌跡80の各手書き筆跡81を前記手書き筆跡入力プロセッサ10により処理した後、前記文字列データベース20により前記文字識別ニューラルネットワーク40に入力して識別を行い、識別結果を前記ポストプロセッサ50により処理した後に得られる前記結果候補セット70は、前記文字列手書き軌跡80に対応する可能性のある若干の文字列90及びその信頼度を含む。 In the prediction stage (see FIG. 4), each handwritten handwriting 81 of the character string handwritten trajectory 80 to be identified is processed by the handwritten handwriting input processor 10, and then input to the character identification neural network 40 using the character string database 20 for identification. The candidate result set 70 obtained after processing the identification results by the post-processor 50 includes some character strings 90 that may correspond to the handwritten character string trajectory 80 and their reliability.

本考案は、その精神又は主要な特徴から逸脱することなく、他のいろいろな形態で実施することができる。そのため、上述の実施形態はあらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。本考案の範囲は実用新案登録請求の範囲によって示すものであって、明細書本文には何ら拘束されない。更に、実用新案登録請求の範囲の均等範囲に属する変形や変更は、すべて本考案の範囲内のものである。 The invention may be embodied in various other forms without departing from its spirit or essential characteristics. Therefore, the above-described embodiments are merely illustrative in all respects, and should not be interpreted in a limiting manner. The scope of the present invention is indicated by the claims of the utility model registration, and is not restricted in any way by the main text of the specification. Furthermore, all modifications and changes that fall within the scope of equivalents of the claims for utility model registration are within the scope of the present invention.

1 手書き文字識別システム
2 プロセッサ
6 メモリー
10 手書き筆跡入力プロセッサ
20 文字列データベース
30 文字列サンプル生成ユニット
35 手書きサンプルライブラリ
41 エンコーダー
42 デコーダ
43 入力インターフェース
44 出力インターフェース
50 ポストプロセッサ
60 信頼度調整ユニット
70 結果候補セット
80 文字列手書き軌跡
81 手書き筆跡
83 サンプリング点
90 文字列
100 文字列サンプル
1 Handwritten character identification system 2 Processor 6 Memory 10 Handwritten handwriting input processor 20 Character string database 30 Character string sample generation unit 35 Handwritten sample library 41 Encoder 42 Decoder 43 Input interface 44 Output interface 50 Post processor 60 Reliability adjustment unit 70 Result candidate set 80 Character string handwritten trajectory 81 Handwritten handwriting 83 Sampling point 90 Character string 100 Character string sample

Claims (12)

プロセッサ及びメモリーを備え、前記プロセッサはシステムに必要な操作を実行するために用いられ、前記メモリーは前記システムのコンピュータープログラムのデータまたは演算プログラム、関連する操作結果及び関連するデータを保存するために用いられているニューラルネットワークに基づく手書き文字識別システムであって、
オンラインで手書きされた文字列手書き軌跡を受信するために用いられている手書き筆跡入力プロセッサであって、前記文字列手書き軌跡は複数の手書き筆跡に分解され、ニューラルネットワークのトレーニング段階及び予測段階において、前記手書き筆跡入力プロセッサは前記文字列手書き軌跡の各手書き筆跡に対しプリプロセスを実行し、トレーニング段階において、前記文字列手書き軌跡のこれら手書き筆跡は既知の文字列に対応し、少なくとも1つの文字で構成され、前記文字列手書き軌跡及びその対応する文字列により文字列サンプルが形成される手書き筆跡入力プロセッサと、
前記手書き筆跡入力プロセッサに接続され、前記手書き筆跡入力プロセッサが処理した多量の文字列手書き軌跡を保存するために用いられている文字列データベースであって、トレーニング段階において、前記文字列データベースは前記文字列手書き軌跡及びそれが対応する文字列で形成されている文字列サンプルを保存する文字列データベースと、
エンコーダーと、デコーダと、前記エンコーダーに位置している入力インターフェースと、前記デコーダに位置している出力インターフェースと、を含む文字識別ニューラルネットワークであって、前記入力インターフェースは前記文字列データベースに接続され、前記文字列手書き軌跡の各手書き筆跡を受信するために用いられ、前記エンコーダーは各手書き筆跡中からコンテキストマトリクス及び前記デコーダが使用する初期状態を探し出し、前記デコーダは前記コンテキストマトリクス及び前記初期状態を受信すると共に、前記出力インターフェースから事前出力された文字列の部分及び信頼度を出力し、この部分及び信頼度を前記デコーダに回帰入力して識別し、これを数回反復した後、可能性のある複数の文字列及び対応する信頼度を獲得すると共に結果候補セットに保存し、前記結果候補セットは前記出力インターフェースを経由して外部に向けて出力し、トレーニング段階において、前記文字列手書き軌跡の各手書き筆跡は前記入力インターフェースを経由して前記文字識別ニューラルネットワークに入力され、前記文字列手書き軌跡が対応する文字列は前記文字識別ニューラルネットワークの事前出力とする文字識別ニューラルネットワークと、
前記文字列データベース及び前記文字識別ニューラルネットワークの前記出力インターフェースに接続され、前記文字識別ニューラルネットワークの前記出力インターフェースが出力した前記結果候補セットの文字列はポストプロセッサにより正規化(Normalization)され、前記文字識別ニューラルネットワークの出力とするポストプロセッサと、を更に備えていることを特徴とするニューラルネットワークに基づく手書き文字識別システム。
comprising a processor and a memory, the processor is used to perform operations necessary for the system, and the memory is used to store computer program data or arithmetic programs, related operation results and related data of the system; A handwritten character recognition system based on a neural network,
A handwriting input processor used to receive a character string handwriting trajectory handwritten online, wherein the character string handwriting trajectory is decomposed into a plurality of handwritten handwritings, and in a training stage and a prediction stage of a neural network, The handwriting input processor performs pre-processing on each handwritten stroke of the character string handwritten trajectory, and in a training phase, these handwritten strokes of the character string handwritten trajectory correspond to a known character string and have at least one character. a handwritten handwriting input processor configured such that a character string sample is formed by the character string handwritten trajectory and its corresponding character string;
a character string database connected to the handwritten handwriting input processor and used to store a large number of handwritten character string trajectories processed by the handwritten handwriting input processor; a character string database that stores character string samples formed by column handwritten trajectories and character strings to which they correspond;
A character identification neural network comprising an encoder, a decoder, an input interface located at the encoder, and an output interface located at the decoder, the input interface being connected to the character string database; used to receive each handwritten stroke of the string handwritten trajectory, the encoder finds a context matrix and an initial state used by the decoder in each handwritten stroke, and the decoder receives the context matrix and the initial state. At the same time, the portion and reliability of the pre-output string are output from the output interface, and the portion and reliability are re-inputted into the decoder to identify them. After repeating this several times, possible A plurality of character strings and their corresponding confidence levels are obtained and stored in a result candidate set, the result candidate set is outputted to the outside via the output interface, and in the training stage, each of the character string handwritten trajectories is a character identification neural network in which handwritten handwriting is input to the character identification neural network via the input interface, and a character string to which the character string handwritten trajectory corresponds is a preliminary output of the character identification neural network;
The character strings of the result candidate set, which are connected to the character string database and the output interface of the character identification neural network and output by the output interface of the character identification neural network, are normalized by a post-processor to A handwritten character recognition system based on a neural network, further comprising: a post-processor for outputting the output of the recognition neural network.
前記手書き筆跡入力プロセッサのプリプロセス方式は、手書き筆跡順序を正規化し、行の高さを推定し、再度サンプリングを行い、最後に座標の正規化を行い、各サンプリング点の座標は行の高さで除算して推定することを特徴とする請求項1に記載のニューラルネットワークに基づく手書き文字識別システム。 The preprocessing method of the handwritten handwriting input processor is to normalize the handwritten handwriting order, estimate the line height, sample again, and finally normalize the coordinates, and the coordinates of each sampling point are the line height. 2. The handwritten character identification system based on a neural network according to claim 1, wherein the handwritten character identification system is estimated by dividing by . コーパス及び手書きサンプルライブラリ及び前記手書き筆跡入力プロセッサに接続されている文字列サンプル生成ユニットを更に備え、前記コーパス及び手書きサンプルライブラリには特定の言語の各種文字及び単語並びにそれらが対応する手書き筆跡のサンプルが保存され、前記文字列サンプル生成ユニットは前記コーパス及び手書きサンプルライブラリ中から多量の文字列及びそれらが対応する手書き筆跡を抽出し、これら文字列に対しそれらが対応する文字列手書き軌跡と合成して多量の文字列サンプルを形成し、且つ前記手書き筆跡入力プロセッサにより処理した後に前記文字列データベースに保存し、ニューラルネットワークのトレーニングに使用することを特徴とする請求項1に記載のニューラルネットワークに基づく手書き文字識別システム。 further comprising a character string sample generation unit connected to a corpus and handwriting sample library and the handwritten handwriting input processor, wherein the corpus and handwriting sample library includes samples of various characters and words of a specific language and their corresponding handwritten handwritings; is stored, and the character string sample generation unit extracts a large number of character strings and their corresponding handwritten strokes from the corpus and handwritten sample library, and synthesizes these character strings with their corresponding character string handwritten trajectories. 2. The method according to claim 1, wherein a large number of character string samples are formed by the handwriting input processor and stored in the character string database after being processed by the handwriting input processor and used for training the neural network. Handwritten character identification system. 前記文字列サンプル生成ユニットが前記文字列手書き軌跡を合成する方式は、テキスト組版アルゴリズムを利用して前記文字列をレンダリング(render)し、且つ文字列中の各文字/単語の位置を記録した後、前記コーパス及び手書きサンプルライブラリから各文字/単語の手書き筆跡を検索すると共に対応する位置に配置することで、これら文字/単語中の各手書き筆跡の正規化された手書き筆跡順序及び行の高さの推定を獲得し、前記手書き筆跡入力プロセッサに入力して再度サンプリング及び座標の正規化を行って対応する文字列サンプルを獲得し、
前記文字列中の文字、単語、及び行等のレベルを分類し、それらが対応する手書き筆跡に対しランダムアフィン変換(Affine transformation)を行って対応する文字列手書き軌跡の多様性を更に高めることを特徴とする請求項3に記載のニューラルネットワークに基づく手書き文字識別システム。
The character string sample generation unit synthesizes the character string handwritten trajectory by rendering the character string using a text composition algorithm and recording the position of each character/word in the character string. , by searching the handwritten strokes of each character/word from the corpus and handwriting sample library and placing them in the corresponding positions, the normalized handwritten stroke order and line height of each handwritten stroke in these characters/words can be determined. obtain an estimate of , and input it into the handwritten handwriting input processor to perform sampling and coordinate normalization again to obtain a corresponding character string sample;
Classify the levels of characters, words, lines, etc. in the character string, and perform random affine transformation on the handwritten handwriting to which they correspond to further increase the diversity of the corresponding character string handwritten trajectory. A handwritten character recognition system based on a neural network according to claim 3.
前記文字列サンプル生成ユニットが前記文字列手書き軌跡を合成する方式は、注記を有するテキスト行サンプルを利用してSeq2Seq翻訳モデルをトレーニングし、前記注記は前記テキスト行サンプル中で対応する文字列を示し、前記Seq2Seq翻訳モデルは文字列を対応する文字列手書き軌跡に変換し、対応する文字列サンプルを生成するために用いられていることを特徴とする請求項3に記載のニューラルネットワークに基づく手書き文字識別システム。 The string sample generation unit synthesizes the string handwritten trajectory by training a Seq2Seq translation model using text line samples with annotations, and the annotations indicate corresponding strings in the text line samples. 4. The handwritten character based on neural network according to claim 3, wherein the Seq2Seq translation model is used to convert a character string into a corresponding character string handwritten trajectory and generate a corresponding character string sample. identification system. 前記ポストプロセッサが正規化を行う方式は、UnicodeのNFKD形式(Normalization Form KD)で正規化を行い、主に異なる形式の同じ文字として表現し、同じプログラムコードとして正規化することを特徴とする請求項1に記載のニューラルネットワークに基づく手書き文字識別システム。 The method by which the post-processor performs normalization is characterized in that the normalization is performed in Unicode NFKD format (Normalization Form KD), and the characters are mainly expressed as the same character in different formats and normalized as the same program code. A handwritten character recognition system based on the neural network according to item 1. 前記ポストプロセッサが正規化を行う方式は、Unicodeの符号位置の順序を正常な論理的順序から視覚的順序に変換することで、並べた入力と略位置を揃え、識別した文字列に対しUnicodeのNFKC正規化を行うと共に、Unicodeの符号位置の順序を視覚的順序から論理的順序に変換して戻すことを特徴とする請求項1に記載のニューラルネットワークに基づく手書き文字識別システム。 The method by which the post-processor performs normalization is to convert the order of Unicode code points from the normal logical order to the visual order, roughly aligning the positions with the arranged input, and applying the Unicode code to the identified string. 2. The neural network-based handwritten character identification system according to claim 1, wherein the system performs NFKC normalization and converts the order of Unicode code positions from visual order to logical order. 前記エンコーダーは多層双方向LSTM(Long Short-Term Memory)循環ニューラルネットワーク、及び全結合ニューラルネットワーク(Fully-connect Neural Network、FNN)を含み、前記エンコーダーに入力する各手書き筆跡は多層双方向LSTM(Long Short-Term Memory)循環ニューラルネットワークに進入し、前記多層双方向LSTM循環ニューラルネットワークの出力はコンテキストマトリクス(context matrix)であり、前記コンテキストマトリクスに対しグローバル平均プーリング(Global Average Pooling)を行った後、前記全結合ニューラルネットワーク(Fully-connect Neural Network、FNN)を経由し、前記全結合ニューラルネットワークの出力は前記デコーダに入力するための初期状態であることを特徴とする請求項1に記載のニューラルネットワークに基づく手書き文字識別システム。 The encoder includes a multi-layer bi-directional LSTM (Long Short-Term Memory) circular neural network and a fully-connected neural network (FNN), and each handwritten stroke input to the encoder is processed by a multi-layer bi-directional LSTM (Long Short-Term Memory). Short-Term Memory) cyclic neural network, the output of the multi-layer bidirectional LSTM cyclic neural network is a context matrix, and after performing Global Average Pooling on the context matrix, The neural network according to claim 1, wherein the neural network is passed through the fully-connected neural network (FNN), and the output of the fully-connected neural network is an initial state to be input to the decoder. A handwritten character identification system based on 各前記文字列手書き軌跡の各手書き筆跡は複数のサンプリング点により表示され、各手書き筆跡の1個目のサンプリング点は座標(0,0)で表示し、残りのサンプリング点は1つ前のサンプリング点に対する変位ベクトルを応用して表示し、各手書き筆跡の最後のサンプリング点は終了標記を有し、
前記デコーダの入力は、入力文字と、デコード状態と、収斂ベクトルと、前記コンテキストマトリクスと、を含み、前記デコーダは複数ステップのデコードを行い、最初のステップのデコードを行う際に、前記入力文字の初期値はビルトインの1つの開始符号であり、前記収斂ベクトルの初期値は零ベクトルであり、前記デコード状態の初期値は前記エンコーダーが出力する前記初期状態であり、前記コンテキストマトリクスは前記エンコーダーにより出力され、前記デコーダの出力は次の文字及びその信頼度(Confidence)分布、新しいデコード状態、及び新しい収斂ベクトルであり、前記次の文字は新しい入力文字とし、新しいデコード状態及び新しい収斂ベクトルは共に前記デコーダに回帰入力され、次のステップのデコードを行い、前記デコーダは上述した方式を応用して複数ステップのデコードを反復して実行し、前記収斂ベクトルの次元は各サンプリング点を示し、その作用はどのサンプリング点が既に有している対応する出力文字を記録し、各次元の初期座標は0であり、対応する出力文字が存在する場合、前記サンプリング点に対応する次元座標を1に設定することを特徴とする請求項8に記載のニューラルネットワークに基づく手書き文字識別システム。
Each handwritten stroke of each character string handwritten trajectory is displayed by a plurality of sampling points, the first sampling point of each handwritten stroke is displayed with coordinates (0,0), and the remaining sampling points are the previous sampling points. The displacement vector for the point is applied and displayed, and the last sampling point of each handwritten stroke has an end mark;
The input of the decoder includes an input character, a decoding state, a convergence vector, and the context matrix, and the decoder performs multiple steps of decoding, and when decoding the first step, The initial value is a built-in one starting code, the initial value of the convergence vector is a zero vector, the initial value of the decoding state is the initial state output by the encoder, and the context matrix is output by the encoder. and the output of the decoder is the next character and its confidence distribution, a new decoding state, and a new convergence vector, where the next character is a new input character, and the new decoding state and new convergence vector are both The recursive input is input to the decoder and the next step is decoded, and the decoder repeatedly performs multiple steps of decoding by applying the above-mentioned method, the dimension of the convergence vector indicates each sampling point, and its action is Record which sampling point already has a corresponding output character, the initial coordinate of each dimension is 0, and if the corresponding output character exists, set the dimension coordinate corresponding to said sampling point to 1; A handwritten character identification system based on a neural network according to claim 8.
前記デコーダ中に複数の関数の線型結合である損失関数(loss function)を定義し、計算時には必要に応じて意義のある損失関数を定義し、前記損失関数は信頼度分布の交差エントロピー(cross-entropy)を較正し、前記収斂ベクトルの終了時に全て1の平均二乗誤差をガイドするために用いられ、既知のある文字が手書き筆跡に対応する場合、1つの文字をデコードするように更にガイドすると、前記収斂ベクトルが手書き筆跡に関する点に対応する分量が1増大し、予測段階において前記収斂ベクトルの変化により出力された各文字がどの手書き筆跡にそれぞれ対応するか判断することを特徴とする請求項9に記載のニューラルネットワークに基づく手書き文字識別システム。 A loss function that is a linear combination of multiple functions is defined in the decoder, and a meaningful loss function is defined as necessary during calculation, and the loss function is based on the cross-entropy of the confidence distribution. entropy) and is used to guide a mean squared error of all 1 at the end of the convergence vector, further guiding to decode one character if a known character corresponds to handwriting; 10. The method of claim 9, wherein the amount of the convergence vector corresponding to a point related to handwritten handwriting is increased by 1, and in the prediction step, it is determined based on the change in the convergence vector to which handwritten handwriting each output character corresponds. A handwritten character recognition system based on a neural network described in . 予測段階において、前記デコーダはビームサーチ(Beam Search)方式で候補行を徐々に構成し、且つ未完成の各候補行に対し、その文字列、信頼度、デコード状態、収斂ベクトル、及び予測分析スタック(predictive analysis stack)を記録し、前記予測分析スタックは予測分析法(predictive analytics)の文法記号列を含むスタックであり、文字レベルの候補を出力する必要がある場合、各文字の若干の他の候補文字及び対応する信頼度を更に記録し、手書き筆跡と文字との対応関係を出力する必要がある場合、歴史的収斂ベクトルを更に記録することを特徴とする請求項9に記載のニューラルネットワークに基づく手書き文字識別システム。 In the prediction stage, the decoder gradually constructs candidate rows using a beam search method, and for each incomplete candidate row, stores its character string, reliability, decoding state, convergence vector, and predictive analysis stack. (predictive analysis stack), said predictive analysis stack is a stack containing grammatical symbol strings of predictive analytics method (predictive analytics), and if character-level candidates need to be output, some other The neural network according to claim 9, further comprising recording candidate characters and corresponding confidence levels, and further recording historical convergence vectors when it is necessary to output a correspondence between handwritten strokes and characters. based handwritten character identification system. 前記デコーダは各ステップのデコードにおいて未完成の各候補行に対し、
(1)前記デコーダを応用して次の文字の候補リスト及び対応する信頼度を獲得し、同時にデコード状態及び収斂ベクトルを更新するステップと、
(2)次の文字の各候補を前記出力インターフェースを経由して前記出力インターフェースと前記ポストプロセッサとの間に結合されている信頼度調整ユニットに出力し、前記信頼度調整ユニットはn-gram方式を応用して獲得する文字列の可能性を計算し、次の文字の各候補の信頼度を調整するステップと、
(3)次の文字の各候補に対し、元の文字列との結合後の信頼度及び予測分析スタックを計算するステップと、
(a)前記候補が終了記号であり、且つ前記予測分析スタックがブランクである場合、完成した1行の候補行を獲得するステップと、
(b)前記候補が終了記号ではなく、且つ前記予測分析スタックが間違い状態にない場合、未完成の1行の候補行を獲得し、次のステップのデコード時に処理を行うために用いられるステップと、を実行し、
毎回次のステップのデコードの開始時には、前記デコーダは信頼度が最も高い若干の候補行のみを保留し、既に完成した候補行の数量が既定値に達した場合、デコードを停止し、この際完成した候補行は可能性のある若干の文字列であり、これら文字列及びその信頼度を前記結果候補セットに保存し、前記出力インターフェースにより外部に向けて出力することを特徴とする請求項11に記載のニューラルネットワークに基づく手書き文字識別システム。
For each unfinished candidate row in each step of decoding, the decoder
(1) applying the decoder to obtain the next character candidate list and the corresponding reliability, and simultaneously updating the decoding state and convergence vector;
(2) outputting each candidate of the next character via the output interface to a reliability adjustment unit coupled between the output interface and the post-processor, the reliability adjustment unit using an n-gram method; calculating the probability of a character string to be obtained by applying , and adjusting the confidence level of each candidate for the next character;
(3) calculating a confidence level and a predictive analysis stack after combination with the original string for each candidate next character;
(a) if the candidate is a termination symbol and the predictive analysis stack is blank, obtaining a completed candidate line;
(b) if the candidate is not a termination symbol and the predictive analysis stack is not in an error state, obtaining one incomplete candidate line and processing it during decoding of the next step; , execute
Each time at the start of decoding the next step, the decoder only reserves some candidate rows with the highest confidence, and if the quantity of already completed candidate rows reaches a predetermined value, it stops decoding and at this time 12. The candidate rows are some possible character strings, and these character strings and their reliability are stored in the result candidate set and outputted to the outside by the output interface. A handwritten character recognition system based on the described neural network.
JP2023002914U 2022-10-26 2023-08-10 Handwritten character recognition system based on neural network Active JP3244068U (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE202022106460 2022-10-26
DE202022106040.1 2022-10-26
DE202022106040.1U DE202022106040U1 (en) 2022-10-26 2022-10-26 Handwriting recognition system based on a neural network

Publications (2)

Publication Number Publication Date
JP3244068U6 JP3244068U6 (en) 2023-10-06
JP3244068U true JP3244068U (en) 2023-10-06

Family

ID=84192324

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023002914U Active JP3244068U (en) 2022-10-26 2023-08-10 Handwritten character recognition system based on neural network

Country Status (3)

Country Link
JP (1) JP3244068U (en)
DE (1) DE202022106040U1 (en)
TW (1) TWM654255U (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118334682A (en) * 2024-04-17 2024-07-12 重庆邮电大学 Cross-modal handwritten text recognition method based on graphic structure guided sensing

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240087349A1 (en) * 2022-09-14 2024-03-14 Jianming Zhuang Handwriting text recognition system based on neural network

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118334682A (en) * 2024-04-17 2024-07-12 重庆邮电大学 Cross-modal handwritten text recognition method based on graphic structure guided sensing

Also Published As

Publication number Publication date
TWM654255U (en) 2024-04-21
DE202022106040U1 (en) 2022-11-08

Similar Documents

Publication Publication Date Title
US20200402500A1 (en) Method and device for generating speech recognition model and storage medium
Kang et al. Convolve, attend and spell: An attention-based sequence-to-sequence model for handwritten word recognition
Zhang et al. A gru-based encoder-decoder approach with attention for online handwritten mathematical expression recognition
CN109933801B (en) Bidirectional LSTM named entity identification method based on predicted position attention
Truong et al. Improvement of end-to-end offline handwritten mathematical expression recognition by weakly supervised learning
CN114787914A (en) System and method for streaming end-to-end speech recognition with asynchronous decoder
CN108549637A (en) Method for recognizing semantics, device based on phonetic and interactive system
WO2021127817A1 (en) Speech synthesis method, device, and apparatus for multilingual text, and storage medium
Wang et al. Stroke constrained attention network for online handwritten mathematical expression recognition
JP3244068U (en) Handwritten character recognition system based on neural network
Mabona et al. Neural generative rhetorical structure parsing
JP3244068U6 (en) Handwritten character recognition system based on neural network
CN117099157A (en) Multitasking learning for end-to-end automatic speech recognition confidence and erasure estimation
CN111046751A (en) Formula identification method and device
CN111833848B (en) Method, apparatus, electronic device and storage medium for recognizing voice
CN115759119B (en) Financial text emotion analysis method, system, medium and equipment
CN113327574A (en) Speech synthesis method, device, computer equipment and storage medium
CN116564289A (en) Visual speech recognition for digital video using generative countermeasure learning
Ngo et al. Recurrent neural network transducer for Japanese and Chinese offline handwritten text recognition
Wolf et al. Self-training of handwritten word recognition for synthetic-to-real adaptation
Zhu et al. Attention combination of sequence models for handwritten Chinese text recognition
KR20240065125A (en) Large-scale language model data selection for rare word speech recognition.
Yin et al. Spatial temporal enhanced network for continuous sign language recognition
CN112599129B (en) Speech recognition method, apparatus, device and storage medium
Calvo-Zaragoza et al. Recognition of pen-based music notation with finite-state machines

Legal Events

Date Code Title Description
R150 Certificate of patent or registration of utility model

Ref document number: 3244068

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150