JP2014081710A - Frame undefined handwritten character recognition system or method thereof - Google Patents

Frame undefined handwritten character recognition system or method thereof Download PDF

Info

Publication number
JP2014081710A
JP2014081710A JP2012227856A JP2012227856A JP2014081710A JP 2014081710 A JP2014081710 A JP 2014081710A JP 2012227856 A JP2012227856 A JP 2012227856A JP 2012227856 A JP2012227856 A JP 2012227856A JP 2014081710 A JP2014081710 A JP 2014081710A
Authority
JP
Japan
Prior art keywords
stroke
word
string
character recognition
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012227856A
Other languages
Japanese (ja)
Inventor
Takashi Miyata
高志 宮田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP2012227856A priority Critical patent/JP2014081710A/en
Publication of JP2014081710A publication Critical patent/JP2014081710A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PROBLEM TO BE SOLVED: To raise predictability and to reduce load of handwriting input even in a frame undefined handwritten character recognition.SOLUTION: A morphological analysis unit 6 divides a first place candidate generated by a character string candidate generation unit 5 in words. A stroke string division unit 10 divides a stroke string to a part which has been finished writing and a part which is unfinished as a word based on data of a stroke string recording unit 4, the morphological analysis unit 6 and a morphological analysis result recording unit 7. A predictive candidate generation unit 11 calculates a predictive candidate based on information from the stroke string division unit 10, a verbal resource unit 8 and an input history recording unit 9. A candidate display unit 12 presents calculated character string candidate group and predictive candidate group calculated by the character string candidate generation unit 5 and the predictive candidate generation unit 11 to a user.

Description

この発明は、枠未定義手書き文字認識方法に関し、特に、予測精度向上に関する。   The present invention relates to a frame-undefined handwritten character recognition method, and more particularly to improvement of prediction accuracy.

今日、手書き文字列認識の一つの手法として、枠未定義手書き文字列認識技術が知られている。枠未定義手書き文字列認識とは、1文字を定められた枠内に記載する枠あり手書き文字列認識と異なり、1文字を手書きする領域が定められていない手書き文字認識をいう。枠未定義手書き文字列認識においては、1文字の入力確定を何らかの方法で行う必要がある。   Today, a frame-undefined handwritten character string recognition technique is known as one method of handwritten character string recognition. The frame undefined handwritten character string recognition refers to handwritten character recognition in which an area for handwriting one character is not defined, unlike frame-based handwritten character string recognition in which one character is written in a defined frame. In recognition of a frame-undefined handwritten character string, it is necessary to confirm the input of one character by some method.

特許文献1には、入力されたストローク列のうち、文字として認識すべき部分と入力途中である部分とを自動的に分割する方法が開示されている。具体的には、入力途中である部分に対する文字認識結果は予測計算においてノイズであると判断し、このノイズを除いて予測候補を求める。   Patent Document 1 discloses a method of automatically dividing a portion to be recognized as a character and a portion in the middle of input in an input stroke sequence. Specifically, the character recognition result for the part in the middle of input is determined to be noise in the prediction calculation, and a prediction candidate is obtained by removing this noise.

特開2004-258800号公報JP 2004-258800 A

上記特許文献1に開示された予測方法には、入力途中である部分に対する文字をノイズとして扱うので、予測精度が低いという問題があった。   The prediction method disclosed in Patent Document 1 has a problem that prediction accuracy is low because a character for a portion in the middle of input is handled as noise.

例えば、「夏の終わり」という語を入力する場合、ユーザが「夏の」の直後に糸へんを書き始めた段階では、まだ、糸へんの部分については、ノイズと判断されるので、共起辞書を用いたとしても、「終わり」を予測候補として提示することはできない。   For example, when the word “end of summer” is entered, when the user starts writing a thread immediately after “summer”, the thread part is still judged to be noise, so the co-occurrence dictionary is Even if it is used, “end” cannot be presented as a prediction candidate.

かかる問題を解決するために、入力された全てのストローク列について、DPマッチングを用いて、予測することも考えられる。しかし、辞書中の全ての単語に対してDPマッチングを実時間で行なうことは現実的ではない。   In order to solve such a problem, it is conceivable to predict all input stroke sequences using DP matching. However, it is not realistic to perform DP matching on all words in the dictionary in real time.

この発明は、上記問題を解決し、予測精度が高く、かつ、手書き入力の負荷を低減することのできる枠未定義手書き文字判定方法またはその装置を提供することを目的とする。   An object of the present invention is to provide a frame-undefined handwritten character determination method or apparatus capable of solving the above problems, having high prediction accuracy, and reducing the load of handwriting input.

(1)本発明にかかる枠未定義手書き文字認識装置は、ストローク列と対応する文字列との対応辞書を記憶する手書き文字辞書記憶手段、共起される自立語文字列の組み合わせを記憶する共起辞書記憶手段、ユーザが確定した変換文字列とストローク列との組み合わせを単語毎に記憶する確定文字列記憶手段、手書き文字入力部から与えられたストローク列を記憶するストローク列記録手段、前記ストローク列記憶手段に記憶されたストローク列について、前記手書き文字辞書記憶手段を用いて、文字認識を行なう文字認識手段、前記文字認識手段によって得られた認識文字列候補群について、形態素解析を行なう形態素解析手段、前記形態素解析手段による形態素解析結果について、1画入力前の結果と比較することにより、単語として完成している部分と、単語として未完成な部分に分離する分離手段、未完成部の予測候補を求める予測候補演算手段であって、前記確定文字列記憶手段に記憶された変換文字列のストローク列と前記未完成な部分のストローク列との一致度および前記共起辞書を用いて、単語として完成している部分のうち最後尾の自立語との共起度合いに基づいて、前記予測候補を決定する予測候補決定手段、前記予測候補演算手段が予測した予測候補を提示する提示手段、を備えている。   (1) A frame-undefined handwritten character recognition apparatus according to the present invention includes a handwritten character dictionary storage unit that stores a correspondence dictionary of stroke strings and corresponding character strings, and a co-occurring combination of independent word character strings. Dictionary dictionary storage means, confirmed character string storage means for storing a combination of a conversion character string and a stroke string determined by a user for each word, stroke string recording means for storing a stroke string given from a handwritten character input unit, the stroke A morpheme analysis is performed on a character recognition unit that performs character recognition using the handwritten character dictionary storage unit and a recognized character string candidate group obtained by the character recognition unit with respect to the stroke sequence stored in the column storage unit. The result of the morpheme analysis by the morpheme analysis unit is completed as a word by comparing it with the result before one stroke input. A separation means that separates a word into an incomplete part as a word, a prediction candidate calculation means for obtaining a prediction candidate for an incomplete part, and a stroke string of a converted character string stored in the confirmed character string storage means and the Prediction that determines the prediction candidate based on the degree of coincidence with the stroke sequence of the unfinished part and the degree of co-occurrence with the last independent word among the parts completed as words using the co-occurrence dictionary Candidate determining means, and presenting means for presenting prediction candidates predicted by the prediction candidate calculating means.

このように、形態素解析結果を用いて、単語として未完成な部分について、予測候補を決定することにより、予測演算の対象を減らすとともに、高精度の予測が可能となる。   In this way, by using the morphological analysis results to determine prediction candidates for incomplete parts as words, it is possible to reduce the number of prediction calculation targets and perform highly accurate prediction.

(2)本発明にかかる枠未定義手書き文字認識装置においては、 前記予測候補決定手段は、ストローク列の履歴の一致度が高いものから候補を選択するとともに、前記提示手段に、共起頻度順に並び替えて表示させる。したがって、ストローク列履歴の一致度の高いものから候補を選択し、かつ、共起頻度順に並び替えて表示できる。   (2) In the frame undefined handwritten character recognition device according to the present invention, the prediction candidate determination means selects candidates from those having a high degree of coincidence of stroke sequence histories, and also presents the presentation means in the order of co-occurrence frequencies. Sort and display. Accordingly, candidates can be selected from those having a high degree of coincidence in the stroke sequence history, and rearranged in the order of the co-occurrence frequencies.

(3)本発明にかかる枠未定義手書き文字認識装置においては、手書き文字入力部から与えられたストローク列について、ストローク列と対応する文字列との対応辞書を記憶する手書き文字辞書記憶手段を用いて、文字認識を行なう文字認識手段、前記文字認識手段によって得られた認識文字列候補群について、形態素解析を行なう形態素解析手段、前記形態素解析手段による形態素解析結果に基づき、単語として完成している部分と、単語として未完成な部分に分離する分離手段、未完成部の予測候補を求める予測候補演算手段であって、前記確定文字列記憶手段に記憶された変換文字列のストローク列と前記未完成な部分のストローク列との一致度に基づいて、前記予測候補を決定する予測候補決定手段、前記予測候補演算手段が予測した予測候補を提示する提示手段、を備えている。   (3) In the frame undefined handwritten character recognition apparatus according to the present invention, for the stroke string given from the handwritten character input unit, a handwritten character dictionary storage means for storing a correspondence dictionary between the stroke string and the corresponding character string is used. The character recognition means for performing character recognition, the recognized character string candidate group obtained by the character recognition means, the morpheme analysis means for performing morpheme analysis, and the morpheme analysis result by the morpheme analysis means are completed as words A separation means for separating a part into an incomplete part as a word, and a prediction candidate calculation means for obtaining a prediction candidate for an incomplete part, the stroke string of the converted character string stored in the confirmed character string storage means and the unfinished part Based on the degree of coincidence with the stroke string of the completed part, the prediction candidate determining means for determining the prediction candidate and the prediction predicted by the prediction candidate calculating means And it includes a presentation means, for presenting a candidate.

このように、形態素解析結果を用いて、単語として未完成な部分について、予測候補を決定することにより、予測演算の対象を減らすとともに、高精度の予測が可能となる。   In this way, by using the morphological analysis results to determine prediction candidates for incomplete parts as words, it is possible to reduce the number of prediction calculation targets and perform highly accurate prediction.

(4)本発明にかかる枠未定義手書き文字認識プログラムは、 コンピュータを下記手段として実行させるための手書き文字認識プログラムであって、手書き文字入力部から与えられたストローク列について、ストローク列と対応する文字列との対応辞書を記憶する手書き文字辞書記憶手段を用いて、文字認識を行なう文字認識手段、前記文字認識手段によって得られた認識文字列候補群について、形態素解析を行なう形態素解析手段、前記形態素解析手段による形態素解析結果に基づき、単語として完成している部分と、単語として未完成な部分に分離する分離手段、未完成部の予測候補を求める予測候補演算手段であって、前記確定文字列記憶手段に記憶された変換文字列のストローク列と前記未完成な部分のストローク列との一致度に基づいて、前記予測候補を決定する予測候補決定手段、前記予測候補演算手段が予測した予測候補を提示する提示手段。   (4) A frame-undefined handwritten character recognition program according to the present invention is a handwritten character recognition program for causing a computer to execute as the following means, and corresponds to a stroke sequence for a stroke sequence given from a handwritten character input unit. Character recognition means for performing character recognition using handwritten character dictionary storage means for storing a correspondence dictionary with character strings, morpheme analysis means for performing morphological analysis on a recognized character string candidate group obtained by the character recognition means, Separation means for separating a completed part as a word and an incomplete part as a word based on a morpheme analysis result by a morpheme analysis means, a prediction candidate calculation means for obtaining a prediction candidate for an incomplete part, wherein the fixed character Based on the degree of coincidence between the stroke string of the converted character string stored in the string storage means and the stroke string of the incomplete part Predicting candidate determining means for determining the prediction candidate, and presenting means for presenting the prediction candidate predicted by the prediction candidate calculating means.

このように、形態素解析結果を用いて、単語として未完成な部分について、予測候補を決定することにより、予測演算の対象を減らすとともに、高精度の予測が可能となる。   In this way, by using the morphological analysis results to determine prediction candidates for incomplete parts as words, it is possible to reduce the number of prediction calculation targets and perform highly accurate prediction.

(5)本発明にかかる枠未定義手書き文字認識装置または手書き文字認識プログラムにおいては、前記分離手段は、前記形態素解析結果について、1画入力前の結果と比較することにより、単語として完成している部分と、単語として未完成な部分に分離する。したがって、形態素解析による分離が可能となる。   (5) In the frame undefined handwritten character recognition device or the handwritten character recognition program according to the present invention, the separating means is completed as a word by comparing the morpheme analysis result with the result before one-stroke input. And the unfinished part as a word. Therefore, separation by morphological analysis is possible.

(6)本発明にかかる枠未定義手書き文字認識装置または手書き文字認識プログラムにおいては、前記予測候補決定手段は、連結して使用される自立語文字列の組み合わせを記憶する連結文字列辞書から、連結関係にある自立語文字列の組み合わせを読み出して、単語として完成している部分のうち最後尾の自立語との連結される度合いが高いものを候補として表示する。したがって、前記連結関係にある自立語を候補として表示できる。   (6) In the frame-undefined handwritten character recognition device or the handwritten character recognition program according to the present invention, the prediction candidate determination means is from a connected character string dictionary that stores combinations of independent word character strings used in connection with each other. A combination of independent word strings in a connected relationship is read, and a part that is highly connected to the last independent word among the parts completed as words is displayed as a candidate. Therefore, the independent words in the connection relationship can be displayed as candidates.

(7)本発明にかかる枠未定義手書き文字認識装置または手書き文字認識プログラムにおいては、前記予測候補決定手段は、前記連結文字列辞書により候補を絞ったあと、前記予測候補を決定する。したがって、ストローク履歴判定処理の対象を減らすことができる。   (7) In the frame undefined handwritten character recognition apparatus or the handwritten character recognition program according to the present invention, the prediction candidate determining means determines the prediction candidate after narrowing down candidates by the connected character string dictionary. Therefore, the number of stroke history determination processing targets can be reduced.

(8)本発明にかかる枠未定義手書き文字認識装置または手書き文字認識プログラムにおいては、前記予測候補決定手段は、連結文字列辞書による連結度が高いものを前記候補絞り込まれる候補とする。したがって、連結度が高いものについて、前記予測候補が決定される。よって前記予測候補の決定対象を絞り込むことができる。   (8) In the frame-undefined handwritten character recognition apparatus or the handwritten character recognition program according to the present invention, the prediction candidate determining means sets a candidate having a high degree of connection based on a connected character string dictionary as the candidate to be narrowed down. Accordingly, the prediction candidates are determined for those having a high degree of connectivity. Therefore, the determination target of the prediction candidate can be narrowed down.

(9)本発明にかかる枠未定義手書き文字認識装置または手書き文字認識プログラムにおいては、前記確定文字列記憶手段には、ユーザが確定した変換文字列とストローク列との組み合わせが単語毎に記憶されている。したがって、ユーザの確定履歴に基づく候補が特定可能である。   (9) In the frame undefined handwritten character recognition device or the handwritten character recognition program according to the present invention, the fixed character string storage unit stores a combination of the converted character string and the stroke string determined by the user for each word. ing. Therefore, candidates based on the user's confirmed history can be specified.

(10)本発明にかかる枠未定義手書き文字認識装置または手書き文字認識プログラムにおいては、前記予測候補決定手段は、当該ユーザが実際、連結した履歴がある単語である場合に、候補として決定する。したがって、ユーザが連結して変換したことのある確定履歴に基づく候補が特定可能となる。   (10) In the frame-undefined handwritten character recognition apparatus or the handwritten character recognition program according to the present invention, the prediction candidate determination means determines a candidate when the user actually has a connected history. Therefore, it becomes possible to specify a candidate based on a confirmed history that the user has connected and converted.

(11)本発明にかかる枠未定義手書き文字認識方法においては、コンピュータの記憶部に、下記1)〜3)を記憶しておき、1)手書き文字入力部から与えられたストローク列について、ストローク列と対応する文字列との対応辞書、2)連結使用される自立語文字列の組み合わせ、3)単語毎に、ユーザが確定した変換文字列とストローク列との組み合わせ;、コンピュータが下記ステップを実行する。手書き文字入力部からストローク列が与えられると、前記対応辞書を参照して、文字認識を行なうステップ、前記得られた認識文字列候補群について、形態素解析を行なうステップ、前記形態素解析手段による形態素解析結果に基づき、単語として完成している部分と、単語として未完成な部分に分離するステップ、前記記憶された変換文字列のストローク列と前記未完成な部分のストローク列との一致度に基づいて、前記未完成部の予測候補を求めるステップ、前記予測した予測候補を提示するステップ、を特徴とする。   (11) In the frame undefined handwritten character recognition method according to the present invention, the following 1) to 3) are stored in the storage unit of the computer, and 1) the stroke is given to the stroke sequence given from the handwritten character input unit. 2) a combination of independent word strings to be used in combination; 3) a combination of conversion strings and stroke strings determined by the user for each word; Run. When a stroke string is given from the handwritten character input unit, a step of performing character recognition with reference to the correspondence dictionary, a step of performing morpheme analysis on the obtained recognized character string candidate group, and a morpheme analysis by the morpheme analysis unit Based on the result, a step of separating the completed part as a word into an incomplete part as a word, based on the degree of coincidence between the stroke string of the stored conversion character string and the stroke string of the incomplete part , Obtaining a prediction candidate of the unfinished part, and presenting the predicted prediction candidate.

このように、形態素解析結果を用いて、単語として未完成な部分について、予測候補を決定することにより、予測演算の対象を減らすとともに、高精度の予測が可能となる。   In this way, by using the morphological analysis results to determine prediction candidates for incomplete parts as words, it is possible to reduce the number of prediction calculation targets and perform highly accurate prediction.

なお、本明細書において「連結使用」とは、自立語が付属語を介してまたは介することなく、連結して使用される場合をいい、実施形態では、共起関係にある自立語が該当する。   In the present specification, the term “concatenated use” refers to a case where independent words are used in conjunction with or without accompanying words. In the embodiment, independent words in a co-occurrence relationship are applicable. .

手書き文字認識方法装置1の機能ブロック図である。It is a functional block diagram of the handwritten character recognition method apparatus. 手書き文字認識方法装置1を、CPUを用いて構成した場合のハード構成の一例である。It is an example of the hardware constitutions at the time of constituting handwritten character recognition method device 1 using CPU. 共起辞書のデータ構造の一例である。It is an example of the data structure of a co-occurrence dictionary. 全体のフローチャートである。It is the whole flowchart. 入力されるストローク列の時系列の履歴を示す図である。It is a figure which shows the history of the time series of the stroke sequence input. 予測候補生成処理の詳細フローチャートである。It is a detailed flowchart of a prediction candidate production | generation process. 入力履歴記憶部26rに記憶される変換履歴を示す図である。It is a figure which shows the conversion history memorize | stored in the input history memory | storage part 26r.

以下、本発明における実施形態について、図面を参照して説明する。   Embodiments of the present invention will be described below with reference to the drawings.

(1.1 機能ブロック)
図1に、本発明の1実施形態にかかる手書き文字認識装置1の機能ブロック図を示す。手書き文字認識装置1は、手書き入力部3、ストローク列記録部4、文字列候補生成部5、形態素解析部6、形態素解析結果記録部7、言語的リソース部8、入力履歴記録部9、ストローク列分割部10、予測候補生成部11、候補表示部12、および候補選択部13を備えている。
(1.1 Function block)
FIG. 1 shows a functional block diagram of a handwritten character recognition apparatus 1 according to an embodiment of the present invention. The handwritten character recognition device 1 includes a handwriting input unit 3, a stroke string recording unit 4, a character string candidate generation unit 5, a morpheme analysis unit 6, a morpheme analysis result recording unit 7, a linguistic resource unit 8, an input history recording unit 9, and a stroke. A column division unit 10, a prediction candidate generation unit 11, a candidate display unit 12, and a candidate selection unit 13 are provided.

手書き入力部3には、手書き文字パターンがストロークとして入力される。ストローク列記録部4は、入力されたストローク列が記録される。文字列候補生成部5は、ストローク列記録部4に記録されたストローク列から文字列の候補を生成する。形態素解析部6は、文字列候補生成部5で生成された第一位候補を単語に分割する。形態素解析結果記録部7は、直前のストローク入力時の形態素解析結果を一時的に保持する。言語的リソース部8は、予測の手がかりとして利用する単語の共起頻度等の言語的な情報を格納する。入力履歴記録部9は、入力された単語列とストローク列の対応関係を格納する。ストローク列分割部10は、ストローク列記録部4、形態素解析部6、および形態素解析結果記録部7のデータに基づき、ストローク列を単語として書き終わった部分と単語としては未完成な部分に分割する。予測候補生成部11は、 ストローク列分割部10、言語的リソース部8および、入力履歴記録部9からの情報をもとに予測候補を計算する。候補表示部12は、文字列候補生成部5および予測候補生成部11で計算された文字列候補群・予測候補群をユーザに提示する。候補選択部13は、候補表示部が提示した候補群の中からユーザに候補を選択させる。   A handwritten character pattern is input to the handwriting input unit 3 as a stroke. The stroke sequence recording unit 4 records the input stroke sequence. The character string candidate generation unit 5 generates a character string candidate from the stroke sequence recorded in the stroke sequence recording unit 4. The morpheme analysis unit 6 divides the first candidate generated by the character string candidate generation unit 5 into words. The morpheme analysis result recording unit 7 temporarily holds the morpheme analysis result at the time of the previous stroke input. The linguistic resource unit 8 stores linguistic information such as the co-occurrence frequency of words used as a clue for prediction. The input history recording unit 9 stores the correspondence between the input word string and the stroke string. The stroke sequence dividing unit 10 divides the stroke sequence into a part that has been written as a word and an incomplete part as a word based on the data of the stroke sequence recording unit 4, the morpheme analysis unit 6, and the morpheme analysis result recording unit 7. . The prediction candidate generation unit 11 calculates a prediction candidate based on information from the stroke string division unit 10, the linguistic resource unit 8, and the input history recording unit 9. The candidate display unit 12 presents the character string candidate group / prediction candidate group calculated by the character string candidate generation unit 5 and the prediction candidate generation unit 11 to the user. The candidate selection unit 13 causes the user to select a candidate from the candidate group presented by the candidate display unit.

なお、文字列候補生成部5は、入力されたストローク列と辞書だけを参照して候補となる文字列群を生成するものとし、ストローク列の末尾が文字を形成しているかどうかの判定は行なわない。そのため、各候補の末尾には認識誤りが含まれていることがある。   The character string candidate generation unit 5 generates candidate character string groups by referring only to the input stroke string and dictionary, and determines whether the end of the stroke string forms a character. Absent. Therefore, a recognition error may be included at the end of each candidate.

また、文字認識候補生成部5は、受け取ったストローク列と各文字との対応関係も出力する。   In addition, the character recognition candidate generation unit 5 also outputs the correspondence between the received stroke sequence and each character.

形態素解析部6は、与えられた文字列を単語に分割し、各単語に品詞を付与する。単語・品詞の定義はどのようなものでも構わないが、単語が自立語かどうかを弁別できることを前提とする。入力が完全な文であることは前提としない。そのため、解析結果の末尾には解析誤りが含まれていることがある。   The morpheme analysis unit 6 divides the given character string into words, and gives parts of speech to each word. Any definition of words and parts of speech may be used, but it is assumed that it is possible to distinguish whether a word is an independent word. It is not assumed that the input is a complete sentence. Therefore, an analysis error may be included at the end of the analysis result.

(1.2 ハードウェア構成)
図1に示す手書き文字認識装置1のハードウェア構成について、図2を用いて説明する。手書き文字認識装置1は、CPU23、メモリ27、フラッシュメモリ26、タッチパネル式表示部31、通信部37、スピーカ33,位置情報取得部35およびバスライン29を備えている。CPU23は、フラッシュメモリ26に記憶された各プログラムにしたがいバスライン29を介して、各部を制御する。
(1.2 Hardware configuration)
A hardware configuration of the handwritten character recognition apparatus 1 shown in FIG. 1 will be described with reference to FIG. The handwritten character recognition device 1 includes a CPU 23, a memory 27, a flash memory 26, a touch panel display unit 31, a communication unit 37, a speaker 33, a position information acquisition unit 35, and a bus line 29. The CPU 23 controls each unit via the bus line 29 according to each program stored in the flash memory 26.

フラッシュメモリ26は、オペレーティングシステムプログラム26o(以下OSと略す)、メインプログラム26pに加えて、各種のデータが記憶されている。上記プログラムは、予めフラッシュメモリ26にインストールされたものであるが、通信部37を介して、ダウンロードするようにしてもよい。   The flash memory 26 stores various data in addition to an operating system program 26o (hereinafter abbreviated as OS) and a main program 26p. The program is installed in the flash memory 26 in advance, but may be downloaded via the communication unit 37.

フラッシュメモリ26に記憶されるデータについて説明する。辞書記憶部26jには、各文字を手書き文字認識するための、入力されたストローク列と文字との対応を記憶したストローク対応辞書(図示せず)に加えて、形態素解析をするための形態素解析辞書、さらに、共起辞書が記憶されている。この共起辞書には、図3に示すように、先行単語と後続単語の組み合わせが、その頻度と共に記憶されている。この共起辞書では、先行単語と後続単語がそのまま連続して用いられる場合は、もちろん、付属語で接続される場合も共起されるとして記憶されている。例えば、「夏」と「涼し」は、「夏は涼し」と共起されるような場合も含んでいる。また、過去に入力確定された文字列については、形態素解析して単語毎のストローク列対応データが記憶される入力履歴記憶部26rを有する。   Data stored in the flash memory 26 will be described. In the dictionary storage unit 26j, in addition to a stroke correspondence dictionary (not shown) that stores correspondence between input stroke sequences and characters for recognizing handwritten characters, morphological analysis for morphological analysis is performed. A dictionary and a co-occurrence dictionary are stored. In this co-occurrence dictionary, as shown in FIG. 3, combinations of preceding words and succeeding words are stored together with their frequencies. In this co-occurrence dictionary, when the preceding word and the succeeding word are used continuously as they are, of course, they are stored as being co-occurring when they are connected by an attached word. For example, “summer” and “cool” include a case where “summer is cool”. Further, the character string whose input has been confirmed in the past has an input history storage unit 26r in which morphological analysis is performed and stroke string correspondence data for each word is stored.

タッチパネル36には、各文字の領域が限定されておらず、ストロークが入力されると、CPU23は、メインプログラム26pに従い、後述するように、手書き文字認識処理を行う。   The area of each character is not limited on the touch panel 36, and when a stroke is input, the CPU 23 performs handwritten character recognition processing according to the main program 26p as described later.

RAM27は、タッチパネル36から受け取ったストローク列が記憶されるストローク列記憶部27sおよび、1ストローク入力があるたびに、文字認識第一位候補を形態素解析した結果が上書きされる形態素解析結果記憶部27kを有している。   The RAM 27 stores a stroke string storage unit 27s in which the stroke string received from the touch panel 36 is stored, and a morpheme analysis result storage unit 27k in which the result of morphological analysis of the first character recognition candidate is overwritten each time one stroke is input. have.

(1.3 フローチャートの説明)
図2に示すプログラム26pによる処理について図4を用いて説明する。以下では、図5に示すように、タッチパネル36から、文字列「夏には甲子園に」と入力した履歴があり、その後、「夏の甲子園は」と手書き入力する場合における予測変換を例として説明する。
(1.3 Explanation of flowchart)
Processing by the program 26p shown in FIG. 2 will be described with reference to FIG. In the following, as shown in FIG. 5, there is a history of inputting the character string “in summer in Koshien” from the touch panel 36, and then predictive conversion in the case of handwriting input as “in summer in Koshien” will be described as an example. To do.

手書き文字認識処理は、大きく分けると、以下に示す、1)完成部分決定処理(図4ステップS101〜ステップS111)、2)予測候補生成処理(ステップS113)、3)予測候補確定処理(ステップS115〜ステップS119)がある。   The handwritten character recognition process can be broadly divided into the following: 1) completion part determination process (steps S101 to S111 in FIG. 4), 2) prediction candidate generation process (step S113), and 3) prediction candidate determination process (step S115). To step S119).

CPU23は、ストローク列記憶部27sおよび、形態素解析結果記憶部27kを空にする(ステップS101)。CPU23は、タッチパネル36からストロークを受け取ったか否か判断しており(ステップS103)、ストロークを受け取ると、これをストローク列記憶部27Sに記憶する。例えば、図5Aに示すような、ストローク「横棒」を受け取った場合、この形状を示すデータが記憶される。   The CPU 23 empties the stroke string storage unit 27s and the morpheme analysis result storage unit 27k (step S101). The CPU 23 determines whether or not a stroke is received from the touch panel 36 (step S103). When the CPU 23 receives the stroke, the CPU 23 stores it in the stroke string storage unit 27S. For example, when a stroke “horizontal bar” as shown in FIG. 5A is received, data indicating this shape is stored.

CPU23は、辞書記憶部26jのストローク列対応辞書を用いて、認識文字列候補群を取得する(ステップS107)。ここでは、ストローク「横棒」に対応する認識文字列候補「一」が取得されたものとする。CPU23は、第一位の候補に対して形態素解析を行う(ステップS109)。この場合、文字列「一」について、形態素解析が行われる。   The CPU 23 acquires a recognized character string candidate group using the stroke string correspondence dictionary in the dictionary storage unit 26j (step S107). Here, it is assumed that the recognized character string candidate “one” corresponding to the stroke “horizontal bar” has been acquired. The CPU 23 performs morphological analysis on the first candidate (step S109). In this case, the morphological analysis is performed on the character string “one”.

CPU23は、単語として書き終わった部分と単語としては未完成な部分に分割して記憶する(ステップS111)。本実施形態においては、1つ前に形態素解析結果記憶部27kに記憶された文字列と比較し、共通接頭辞となっている部分を「単語として書き終わった部分」、その後ろを「単語としては未完成な部分」とした。したがって、この場合は、共通接頭辞は、存在しないので、単語として書き終わった部分なしとして記憶される。   The CPU 23 divides and stores the part that has been written as a word and the unfinished part as a word (step S111). In the present embodiment, the character string stored in the previous morphological analysis result storage unit 27k is compared with the character prefix stored in the morpheme analysis result storage unit 27k. Is an incomplete part. Therefore, in this case, since the common prefix does not exist, it is stored as no part that has been written as a word.

CPU23は単語として書き終わった部分を使って入力しようとしている文字列の予測候補を生成する(ステップS113)。この場合、単語として書き終わった部分が無いので、予測候補は生成されない。CPU23は、予測候補を表示する(ステップS115)。この場合、予測候補は存在しないので、表示は行われない。   The CPU 23 generates a prediction candidate for the character string to be input using the part that has been written as a word (step S113). In this case, since there is no portion that has been written as a word, a prediction candidate is not generated. CPU23 displays a prediction candidate (step S115). In this case, since no prediction candidate exists, no display is performed.

CPU23は候補選択があるか否か判断しており(ステップS117)、候補選択がない場合には、ステップS103以下の処理を繰り返す。以下、同様にして、「夏の」まで、ストローク列が入力されたものとする。この場合、形態素解析結果記憶部27kには、文字列「夏/の」が記憶されている(図5参照)。図5において、「/」は単語の区切りを表す。   The CPU 23 determines whether or not there is a candidate selection (step S117). If there is no candidate selection, the processing from step S103 is repeated. Hereinafter, similarly, it is assumed that the stroke sequence is input until “summer”. In this case, the character string “summer / no” is stored in the morphological analysis result storage unit 27k (see FIG. 5). In FIG. 5, “/” represents a word break.

CPU23は、タッチパネル36からストロークを受け取ったか否か判断しており(ステップS103)、ストロークを受け取ると、これをストローク列記憶部27Sに記憶する。ここでは、図5Aに示すような、ストローク「縦棒」を受け取り、この形状を示すデータ自体が記憶される。   The CPU 23 determines whether or not a stroke is received from the touch panel 36 (step S103). When the CPU 23 receives the stroke, the CPU 23 stores it in the stroke string storage unit 27S. Here, the stroke “vertical bar” as shown in FIG. 5A is received, and the data itself indicating this shape is stored.

1)完成部分決定処理
CPU23は、辞書記憶部26jのストローク列対応辞書を用いて、認識文字列候補群を取得する(ステップS107)。ここでは、ストローク「縦棒」に対して、文字列候補「1」が取得されたものとする。CPU23は、第一位の候補に対して形態素解析を行う(ステップS109)。この場合、文字列「夏の1」について、形態素解析が行われ、「夏/の/1」に分解される。
1) Completed part determination process The CPU 23 acquires a recognized character string candidate group using the stroke string correspondence dictionary in the dictionary storage unit 26j (step S107). Here, it is assumed that the character string candidate “1” is acquired for the stroke “vertical bar”. The CPU 23 performs morphological analysis on the first candidate (step S109). In this case, the morphological analysis is performed on the character string “summer 1”, and it is decomposed into “summer / no / 1”.

CPU23は、単語として書き終わった部分と単語としては未完成な部分に分割して記憶する(ステップS111)。この場合、形態素解析結果記憶部27kには、1つ前の形態素解析結果として文字列「夏/の」が記憶されている。したがってCPU23は、共通接頭辞となっている文字列「夏/の」が、単語として書き終わった部分として判断する。これにより図5C、Dに示すように、形態素解析結果として、文字列「夏/の/1」が記憶される。   The CPU 23 divides and stores the part that has been written as a word and the unfinished part as a word (step S111). In this case, the character string “summer / no” is stored in the morpheme analysis result storage unit 27k as the previous morpheme analysis result. Therefore, the CPU 23 determines that the character string “Natsu / no” as the common prefix has been written as a word. As a result, as shown in FIGS. 5C and 5D, the character string “summer / no / 1” is stored as the morphological analysis result.

2)予測候補生成処理
CPU23は、ステップS109の形態素解析によって区別された、未完成部分について、予測候補を生成する(ステップS113)。ステップS113の予測候補生成処理について図6を用いて、説明する。
2) Prediction candidate generation process CPU23 produces | generates a prediction candidate about the incomplete part identified by the morphological analysis of step S109 (step S113). The prediction candidate generation process of step S113 is demonstrated using FIG.

CPU23は、「単語として書き終わった部分」の単語列末尾の単語Wを取り出す(図6ステップS201)。この場合、書き終わった部分である文字列「夏/の」から、末尾の単語「の」が単語Wとして取り出される。CPU23は、単語Wが自立語か否か判断する(ステップS203)。自立語か否かは、例えば、形態素解析結果の品詞から判断する。   The CPU 23 extracts the word W at the end of the word string of “the portion that has been written as a word” (step S201 in FIG. 6). In this case, the last word “no” is extracted as the word W from the character string “summer / no” which is the part that has been written. The CPU 23 determines whether or not the word W is an independent word (step S203). Whether or not it is an independent word is determined from, for example, the part of speech of the morphological analysis result.

この場合、単語Wは単語「の」であるので、自立語でないと判断し、「単語として書き終わった部分」の単語列中でWより左で最も近い自立語W'を取り出し、自立語W'を単語Wとする(ステップS205)。この場合、単語「夏」が取り出される。CPU23は、入力履歴記憶部26rに記録された過去の入力履歴の中で、単語Wよりも右に位置し、かつ、最も近い自立語である単語Wiを抽出する(ステップS209)。ここでは、図7に示すような入力履歴があるとする。この場合、単語「休み」「花火」「旅行」「野菜」「な(る)」「海」「甲子園」「暑」が抽出される。   In this case, since the word W is the word “no”, it is determined that it is not an independent word, and the independent word W ′ that is closest to the left of W is extracted from the word sequence of “the part that has been written as a word”. 'Is a word W (step S205). In this case, the word “summer” is extracted. The CPU 23 extracts the word Wi, which is the closest independent word and located to the right of the word W, from the past input history recorded in the input history storage unit 26r (step S209). Here, it is assumed that there is an input history as shown in FIG. In this case, the words “rest”, “fireworks”, “travel”, “vegetables”, “na”, “sea”, “koshien”, and “hot” are extracted.

なお、ステップS209にて、単語Wよりも右に位置し、かつ、最も近い自立語である単語Wiを抽出しているのは、自立語の後に、複数の付属語が連続してから自立語が存在する場合があるからである。   Note that in step S209, the word Wi, which is located to the right of the word W and is the closest independent word, is extracted because the independent word is followed by a plurality of attached words. This is because there may be.

CPU23は、入力履歴記憶部26rに記憶されている入力文字列と、ストローク列との履歴を参照して、単語Wiに対する入力履歴中のストローク列(の先頭部分)と「単語としては未完成な部分」のストローク列の幾何的な照合を行ない、図6ステップS207で抽出した各単語について、一致度Yiを計算する(ステップS211)。この場合、単語「休み」−0、単語「花火」−0、単語「旅行」−0、単語「野菜」−0.65、単語「な(る)」−0、単語「海」−0、単語「甲子園」−0.7、単語「暑」−0.7が得られたものとする。本実施形態においては、かかる幾何的な照合は、DPマッチング演算手法を採用した。   The CPU 23 refers to the history of the input character string and the stroke string stored in the input history storage unit 26r, and refers to the stroke string (the first part) in the input history for the word Wi and “the word is incomplete. The “part” stroke sequence is geometrically collated, and the degree of matching Yi is calculated for each word extracted in step S207 in FIG. 6 (step S211). In this case, the word “rest” -0, the word “fireworks” -0, the word “travel” -0, the word “vegetable” -0.65, the word “na” -0, the word “sea” -0, the word “ It is assumed that Koshien -0.7 and the word "hot" -0.7 are obtained. In the present embodiment, the DP matching calculation method is used for such geometric matching.

CPU23は、共起辞書を使って単語Wと単語Wiとの共起頻度Xiを計算する。具体的に、図3に示す共起辞書から、 単語「夏」と共起する単語について、共起頻度Xiが計算される。この場合、共起頻度Xiは、単語「休み」−0、単語「花火」−0、単語「旅行」−0、単語「な(る)」−0、単語「海」−0、単語「暑」−46533/46533、単語「野菜」−44234/46533、単語「甲子園」−41267/46533、と計算される。本実施形態においては、頻度の最大値で正規化するようにしたが、これは任意である。   The CPU 23 calculates the co-occurrence frequency Xi between the word W and the word Wi using the co-occurrence dictionary. Specifically, the co-occurrence frequency Xi is calculated for the word co-occurring with the word “summer” from the co-occurrence dictionary shown in FIG. In this case, the co-occurrence frequency Xi includes the word “rest” -0, the word “fireworks” -0, the word “travel” -0, the word “na” -0, the word “sea” -0, and the word “hot”. -46533/46533, the word "vegetable" -44234/46533, and the word "Koshien" -41267/46533. In this embodiment, normalization is performed with the maximum value of the frequency, but this is arbitrary.

3)予測候補確定処理
CPU23は、予測候補をタッチパネル36に表示する(ステップS115)。本実施形態においては、一致度Yiの値が、上位n個について、共起頻度Xi順に候補を並べて表示するようにした。この場合、「野菜」「甲子園」「暑」が候補として選択され、かつ、「暑」「野菜」「甲子園」の順に並べられて表示される。
3) Prediction candidate confirmation process CPU23 displays a prediction candidate on the touch panel 36 (step S115). In the present embodiment, candidates are arranged and displayed in order of the co-occurrence frequency Xi for the top n values of the matching degree Yi. In this case, “vegetables”, “koshien”, and “hot” are selected as candidates, and are arranged in the order of “hot”, “vegetables”, and “koshien”.

ユーザは、入力希望である「甲子園」を選択する。CPU23は、候補の選択があるか否か判断しており(ステップS117)、選択がなされたので、結果を入力履歴記憶部26rに記憶する(ステップS119)。   The user selects “Koshien”, which is an input request. The CPU 23 determines whether or not a candidate is selected (step S117). Since the selection is made, the result is stored in the input history storage unit 26r (step S119).

このようにして、ユーザは、入力希望である「甲子園」を、簡易に入力することができる。なお、上記予測は、ストローク列の入力が進めば、予測精度がより向上する。   In this way, the user can easily input “Koshien” that he / she wants to input. Note that the prediction accuracy is further improved as the input of the stroke sequence proceeds.

本実施形態においては、単語として書き終わった部分から得られる共起などの言語的な情報と、単語としては未完成である部分から得られるストローク列の幾何的な類似性を複合的に用いている。これにより、精度の高い入力予測が可能となる。したがって、ユーザは入力しようとしているテキストを全て筆記することなく、入力しようとする各単語の最初の数画を筆記するだけで予測候補から選択することでテキスト入力を行なうことができる。   In the present embodiment, linguistic information such as co-occurrence obtained from a part written as a word and the geometric similarity of stroke sequences obtained from an unfinished part as a word are used in combination. Yes. Thereby, highly accurate input prediction is attained. Therefore, the user can input text by selecting from the prediction candidates only by writing the first few strokes of each word to be input without writing all the text to be input.

また、本件において、予測を開始するタイミングは、一旦、形態素解析をしたあと、未確定状態ではあるが単語として完成した部分ができ、かつ、単語としては未完成の部分についてストローク入力が開始された途中段階である。これにより、ストローク列判定する対象を減らすことができる。これに対して、一般的な手書き文字認識の場合は、ストローク入力を開始したタイミングであり、また、キーボード等から1文字をそのまま入力する一般的なカナ漢字変換とも異なる。   Also, in this case, the timing to start the prediction was once the morphological analysis was performed, and a part that was incomplete but was completed as a word, and stroke input was started for the part that was not completed as a word It is a middle stage. Thereby, the object which determines a stroke sequence can be reduced. On the other hand, in the case of general handwritten character recognition, it is the timing at which stroke input is started, and is different from general kana-kanji conversion in which one character is input as it is from a keyboard or the like.

(2.他の実施形態)
本実施形態において、図4ステップS111にて「文字として書き終わった部分」ではなく「単語として書き終わった部分」を抽出しているのは、1)枠未定義手書き入力においては、予測候補の粒度として単語もしくは文節が自然であり、予測が的中した時に最も効果的なのはその書き始めであること、2)画数が多い漢字には文字としても使われる部分が含まれることが多く、適切に判断することが難しいことによる。したがって、ストローク列の入力進行に伴い、形態素解析結果が適切ではない場合がある。この場合、「単語として書き終わった部分」の判断が適切ではないことがある。
(2. Other embodiments)
In the present embodiment, in step S111 in FIG. 4, “the part that has been written as a word” is extracted instead of “the part that has been written as a word”. The word or phrase is natural as the granularity, and the most effective when the prediction is correct is the beginning of writing, and 2) Kanji with many strokes often includes parts that are also used as characters, It is difficult to judge. Therefore, the morphological analysis result may not be appropriate as the input of the stroke sequence proceeds. In this case, the determination of “the part that has been written as a word” may not be appropriate.

例えば、図5において、「夏の」まで入力したあと、「甲」の字を筆記し終わるまではこの部分に対する文字認識結果もストロークを入力するごとに変わるため、「夏の」までが「単語として書き終わった部分」と判断される。   For example, in FIG. 5, the character recognition result for this part changes every time a stroke is input until “summer” is written until “summer” is written. It is determined that the part has been written as.

一方、「甲」を筆記し終わった時点と次の「子」を筆記し始めた時点では、文字認識結果およびその形態素解析結果によって二通りの場合がある。   On the other hand, there are two cases depending on the character recognition result and the morphological analysis result at the time when writing of “K” is completed and when the next “child” starts to be written.

1つはストローク列末尾部分が「申す」のように認識された場合である。この場合は最後の形態素が直前の形態素解析結果と一致しないため、依然として「夏の」までが「単語として書き終わった部分」とされる。   One is a case where the end part of the stroke sequence is recognized as “suggest”. In this case, since the last morpheme does not match the previous morpheme analysis result, “summer” is still “the part that has been written as a word”.

もう1つはストローク列末尾部分が「甲了」のように認識され、形態素解析も「夏/の/甲/了」のように「甲」の部分まで直前の形態素解析結果と一致した場合である。この場合は「甲」までが「単語として書き終わった部分」とされる。さらに「甲子」まで筆記されると(文字認識器が「甲子」と認識し、形態素解析器が「甲子」を1形態素と解析すれば)、いずれの場合も「夏の」が「単語として書き終わった部分」とされる。   The other is when the end of the stroke sequence is recognized as “Kou”, and the morphological analysis also matches the previous morphological analysis results up to “K”, such as “Summer / No / Koh / End”. is there. In this case, “upper” is regarded as “the part that has been written as a word”. Furthermore, when “Koshi” is written (if the character recognizer recognizes “Koshi” and the morphological analyzer analyzes “Koshi” as one morpheme), “Summer” will be written as “Word” in both cases. The finished part.

本実施形態においては、候補について、ストローク列の幾何的な一致度Yiについて上位n個に絞った後、共起頻度Xiの降順に並べ直すようにしている。しかし、これに限定されず、一致度Yiについては、任意の個数ではなく、閾値を設けておき、これ以下の候補については、対象としないようにしてもよい。   In this embodiment, the candidates are rearranged in descending order of the co-occurrence frequencies Xi after narrowing down the top n geometrical matching degrees Yi of the stroke sequences. However, the present invention is not limited to this, and the degree of coincidence Yi is not an arbitrary number, and a threshold value may be provided so that candidates less than this may not be targeted.

また、ストローク列の幾何的な一致度Yiおよび共起頻度Xiから、総合的に判断するようにしてもよい。たとえば、いずれか一方または双方に、重み付けをして加算してスコアを決定するようにしてよい。   Further, it may be determined comprehensively from the geometric matching degree Yi and the co-occurrence frequency Xi of the stroke sequence. For example, the score may be determined by weighting and adding either or both.

例えば、予測候補のスコアを共起スコアCとDPマッチングスコアMの線形和 S = αC + βM で計算し、履歴検索の段階で共起スコアを計算することにより、第一位とのスコア差が βM' (M'は「正解との平均的なDPマッチングスコア」)より大きくなった候補については、DPマッチングを行なわないようにしてもよい。   For example, by calculating the prediction candidate score as the linear sum S = αC + βM of the co-occurrence score C and the DP matching score M, and calculating the co-occurrence score at the history search stage, the score difference from the first rank is calculated. DP matching may not be performed for candidates that are larger than βM ′ (M ′ is “average DP matching score with correct answer”).

また、本実施形態においては、過去に手書き入力した履歴から候補として表示するものを限定している。これは、一度その文字列を用いているので、候補として可能性が高いからである。   Moreover, in this embodiment, what is displayed as a candidate from the history input by handwriting in the past is limited. This is because the character string is used once, so that the possibility is high.

しかし、これに限定されず、共起辞書から候補を選択して、それとストローク列が一致する場合には、候補として選択するようにしてもよい。この場合、図6ステップS209で、単語Wiが決定された段階で、共起辞書から、そのあとに引き続く可能性のある単語を候補として1または2以上抽出して、抽出した候補について、ストローク列の一致度合いYiを計算すればよい。   However, the present invention is not limited to this, and a candidate may be selected from the co-occurrence dictionary, and may be selected as a candidate when it matches the stroke sequence. In this case, at the stage where the word Wi is determined in step S209 in FIG. 6, one or more words that are likely to follow are extracted from the co-occurrence dictionary as candidates, and a stroke sequence is extracted for the extracted candidates. What is necessary is just to calculate the coincidence degree Yi.

このように、DPマッチングで決定する候補を、共起される候補を記憶した辞書にあるものに限定することにより、DPマッチングの演算量を減らすことができる。   Thus, by limiting the candidates determined by DP matching to those in the dictionary storing the co-occurring candidates, the amount of DP matching calculation can be reduced.

例えば、図3にはあるコーパスにおいて、「夏」の直後に出現する自立語とその頻度を記載したものである(「夏」と自立語の間に付属語が出現しているものも含んでいる)。入力ストローク列のうち「夏/の」までが「単語として書き終わった部分」と認定された場合、次にくると予想される単語は、最後の自立語である「夏」との共起頻度が十分に高い単語「暑」「祭り」等である可能性が高い。そこで「夏」との共起頻度が高いものに限定して、それらの単語に対する(標準的な)ストローク列と入力ストローク列のうち、「単語としては未完成な部分」とのDPマッチングを行なえばよい。   For example, FIG. 3 shows an independent word appearing immediately after “Summer” and its frequency in a corpus (including an adjunct appearing between “Summer” and an independent word). ) If it is recognized that “summary / no” in the input stroke sequence is “the part that has been written as a word”, the next expected word is the co-occurrence frequency of “summer”, the last independent word. Is likely to be a sufficiently high word such as “hot” or “festival”. Therefore, DP matching with “unfinished part as a word” in the (standard) stroke sequence and input stroke sequence for those words can be performed only for those with high frequency of occurrence with “summer”. That's fine.

これにより、ストローク列対応辞書に記憶された文字から始まる単語について、履歴として記憶されていなくても、予測させることができる。   Thereby, even if it is not memorize | stored as a log | history, it can be predicted about the word which starts from the character memorize | stored in the stroke sequence corresponding dictionary.

本実施形態においては、形態素解析を行う文字列は、生成した第一位候補のみを対象としたが、計算資源に余裕がある場合は第二位以下の候補についても同様の方法で候補を予測生成するようにしてもよい。   In this embodiment, the character string for morphological analysis is targeted only for the generated first candidate. However, if there is a surplus in computational resources, the candidate for the second or lower candidate is predicted in the same way. You may make it produce | generate.

また「単語としては未完成の部分」がある本数以上のストローク列を含む場合は、DPマッチングの計算コストが増大してユーザの入力に即応できなくなるおそれがある。したがって、かかる場合には、上記予測を行なわないようにしてもよい。   In addition, if there are more than a certain number of stroke strings having “unfinished parts as words”, the calculation cost of DP matching may increase, making it impossible to immediately respond to user input. Therefore, in such a case, the prediction may not be performed.

なお、「予測候補の生成」において予測候補として入力履歴ではなく、事前に用意したコーパスや辞書を用いることもできる。   In addition, instead of the input history as a prediction candidate in “Generation of prediction candidate”, a corpus or dictionary prepared in advance can be used.

また、予測候補の選別処理では候補の優先度に自立語の共起頻度を用いたが、他にも、文字n-gramや意味的な類似性といった様々な言語的リソースを利用することもできる。   In addition, in the prediction candidate selection process, the co-occurrence frequency of independent words was used as the priority of the candidate, but various other linguistic resources such as character n-gram and semantic similarity can also be used. .

本実施形態においては、「単語としては未完成な部分」について、DPマッチングするようにしたが、ストローク列同士の照合は位置および形状の一致を反映する方法であればどのようなものであっても構わない。   In the present embodiment, DP matching is performed for “an incomplete part as a word”, but any matching of stroke sequences is possible as long as it matches the position and shape. It doesn't matter.

なお、入力履歴中に単語Wが一度も出現していない場合は、予測を行なわないようにしてもよい。   Note that if the word W has never appeared in the input history, the prediction may not be performed.

本実施形態においては、「単語として書き終わった部分」と「単語としては未完成な部分」の切り分けですが、本実施形態においては、1つ前に形態素解析結果記憶部27kに記憶された文字列と比較し、共通接頭辞となっている部分を「単語として書き終わった部分」とするようにしている。しかしこれに限定されず、例えば、文字単位で認識を行ない、「末尾の認識結果を捨てる」 (文字としては未完成な部分とみなしたり、形態素解析は用いずに認識結果文字列に対して共通接頭辞をとって「書き終わった部分」と「未完成な部分」に切り分けたり、形態素解析結果の最後の単語について、その単語コストおよび直前の単語との連接コストが閾値以上の時は最後の単語に相当するストローク列を未完成だとする等してもよい。   In the present embodiment, “parts written as words” and “unfinished parts as words” are separated, but in this embodiment, the character stored in the previous morpheme analysis result storage unit 27k. Compared with the column, the part that is the common prefix is set to “the part that has been written as a word”. However, the present invention is not limited to this. For example, recognition is performed in units of characters, and the “recognition result at the end is discarded” (characters are regarded as unfinished parts, or common to recognition result character strings without using morphological analysis. Take the prefix and divide it into “completed part” and “unfinished part”, or the last word of the morpheme analysis result when the word cost and the concatenation cost with the previous word are above the threshold A stroke sequence corresponding to a word may be incomplete.

なお、形態素解析における「単語コスト」とは、その単語の出現しにくさを表し、「連接コスト」とは隣接する二つ(もしくはそれ以上)の単語のつながりにくさを表す。例えば、日本語においては「世」という単語はよく出現するが、「丗」(30)という単語はめったに出現しない。つまり「世」の単語コストは「丗」の単語コストより小さい。   Note that “word cost” in morphological analysis represents the difficulty of appearance of the word, and “joint cost” represents the difficulty of connection between two (or more) adjacent words. For example, in Japanese, the word “se” often appears, but the word “丗” (30) rarely appears. In other words, the word cost of “Se” is smaller than the word cost of “丗”.

また、「新聞」の直後には「雑誌」や「を」「に」などは出現しやすいが、「ます」や「った」などの活用語尾は出現しにくい。つまり「新聞−雑誌」「新聞−を」「新聞−に」の連接コストは、「新聞−ます」、「新聞−った」の連接コストより小さい。   In addition, “magazine”, “wo”, “ni”, etc. are likely to appear immediately after “newspaper”, but inflection endings such as “mas” and “t” are unlikely to appear. That is, the connection cost of “newspaper-magazine”, “newspaper-to”, and “newspaper-ni” is smaller than the connection cost of “newspaper-mass” and “newspaper-ta”.

上記説明では、説明を簡略化するために、単語「夏」については、予測候補が提供されない場合を例として説明した。実際は、付属語等を除き、その前に入力した自立語との関係で、共起するものがあれば、候補として「夏」が予測候補として提示されることもある。たとえば、その前の文章で、「・・・は高校球児だ。」という入力がなされている場合、過去に文字列「高校球児の夏」が入力されている場合、「・・・は高校球児だ。」の後に、「夏」について、数ストロークが入力されると、候補として「夏」が提示される。   In the above description, in order to simplify the description, the case where the prediction candidate is not provided for the word “summer” has been described as an example. Actually, except for an attached word or the like, if there is a co-occurrence in relation to an independent word input before that, “summer” may be presented as a candidate for prediction. For example, in the previous sentence, if "... is a high school ball child" has been entered, and if the string "Summer of a high school ball child" has been entered in the past, "... is a high school ball child" After "is", when several strokes are input for "summer", "summer" is presented as a candidate.

本実施形態においては、書き終わった部分についても、ストロークが入力されると、ストローク列からの変換した第一位の文字列候補を決定するようにしている。しかし、これに限定されず、単語として書き終わった部分が、繰り返し判断された部分については、ストローク列からの判断を省略するようにしてもよい。   In the present embodiment, when a stroke is input even for a portion that has been written, the first character string candidate converted from the stroke string is determined. However, the present invention is not limited to this, and the determination from the stroke sequence may be omitted for a portion that has been repeatedly determined as a word.

例えば、「夏の甲子園」と入力したことがない場合でも、「甲子園」は入力したことがあれば、「夏」と「甲子園」が共起辞書にあれば、候補として選択するようにしてもよい。   For example, even if you have never entered "Summer Koshien", if you have entered "Koshien", if "Summer" and "Koshien" are in the co-occurrence dictionary, you may select them as candidates. Good.

なお、ストローク列を記憶する入力履歴記憶部26rは、手書き文字が確定されると、予測入力された単語について、ストローク列との対応を上書きする。これにより、実際には入力されていないが、変換された単語を記憶することができる。   When the handwritten character is confirmed, the input history storage unit 26r that stores the stroke string overwrites the correspondence with the stroke string for the predicted input word. Thereby, although it is not actually input, the converted word can be memorize | stored.

本実施形態においては、未完成部分についてDPマッチングをすることにより、候補を予測している。かかるDPマッチングは、演算量が大きい。したがって、ユーザの入力履歴を先に検索することにより、できる限りDPマッチング処理をする候補を絞っている。   In this embodiment, candidates are predicted by performing DP matching on incomplete parts. Such DP matching is computationally intensive. Therefore, by searching the user input history first, candidates for DP matching processing are narrowed down as much as possible.

本実施形態においては、ストローク列からの変換を行い、これを形態素解析し、単語として完成した部分と未完成な部分に分けて、未完成な部分について、入力履歴記憶部26rの履歴および共起辞書に基づいて、予測候補を決定している。   In the present embodiment, conversion from a stroke sequence is performed, morphological analysis is performed, and the history and co-occurrence of the input history storage unit 26r are divided into a completed part and an incomplete part as words. Prediction candidates are determined based on the dictionary.

しかし、入力履歴記憶部の履歴を用いることなく、辞書記憶部26jのストローク列と文字列の対応を参照するとともに、共起辞書で候補を決定してもよい。   However, without using the history of the input history storage unit, the correspondence between the stroke string and the character string in the dictionary storage unit 26j may be referred to and the candidate may be determined using the co-occurrence dictionary.

また、本実施形態においては、ストローク列からの変換を行い、これを形態素解析し、単語として完成した部分と未完成な部分に分けて、未完成な部分について、DPマッチングにより予測候補を決定している。これにより、入力された文字列全てについてのDPマッチングが必要でなくなるので、演算処理が軽くなる。   Also, in this embodiment, conversion from a stroke sequence is performed, this is morphologically analyzed, divided into a completed part and an incomplete part as words, and prediction candidates are determined by DP matching for the incomplete part. ing. This eliminates the need for DP matching for all input character strings, thus reducing the arithmetic processing.

本実施形態においては、手書き文字認識装置内に辞書を記憶された場合について説明したが、一部または全部をサーバに記憶しておき、候補を手書き文字認識装置に送るようにしてもよい。   In this embodiment, although the case where the dictionary was memorize | stored in the handwritten character recognition apparatus was demonstrated, you may make it memorize | store a part or all in a server, and send a candidate to a handwritten character recognition apparatus.

また、未確定部分について、ストローク数が所定数(例えば、2以上)とならない場合は、上記、候補演算を行わないようにしてもよい。   Further, if the number of strokes does not become a predetermined number (for example, 2 or more) for the undetermined portion, the above candidate calculation may not be performed.

また、過去の入力履歴を対象とするのではなく、辞書記憶部のストローク列と文字との対応を参照して、文字1文字の候補を決めて、その候補が先頭に存在する単語の候補を共起辞書から、選出するようにしてもよい。   Also, instead of targeting the past input history, refer to the correspondence between the stroke sequence and the character in the dictionary storage unit, determine the candidate for one character, and select the candidate word that is at the top of the candidate. You may make it select from a co-occurrence dictionary.

本実施形態においては、共起辞書による共起度が高いものから所定数の候補を絞り込まれる候補としたが、閾値で絞り込まれる候補を決定するようにしてもよい。   In the present embodiment, a predetermined number of candidates are selected from those having a high co-occurrence degree according to the co-occurrence dictionary. However, candidates to be narrowed by a threshold may be determined.

本実施形態においては、日本語について適用した場合について説明したが、以外でも、他の言語(中国語、英語など)についても同様に適用可能である。   In the present embodiment, the case where it is applied to Japanese has been described. However, the present invention can be similarly applied to other languages (such as Chinese and English).

上記実施形態においては、図1に示す機能を実現するために、CPU23を用い、ソフトウェアによってこれを実現している。しかし、その一部もしくは全てを、ロジック回路などのハードウェアによって実現してもよい。なお、プログラムの一部の処理を、オペレーティングシステム(OS)にさせるようにしてもよい。   In the above embodiment, the CPU 23 is used to realize the function shown in FIG. 1, and this is realized by software. However, some or all of them may be realized by hardware such as a logic circuit. In addition, you may make it make an operating system (OS) process a part of program.

23 CPU
27 メモリ
26 フラッシュメモリ
36 タッチパネル
23 CPU
27 Memory 26 Flash Memory 36 Touch Panel

Claims (11)

ストローク列と対応する文字列との対応辞書を記憶する手書き文字辞書記憶手段、
共起される自立語文字列の組み合わせを記憶する共起辞書記憶手段、
ユーザが確定した変換文字列とストローク列との組み合わせを単語毎に記憶する確定文字列記憶手段、
手書き文字入力部から与えられたストローク列を記憶するストローク列記録手段、
前記ストローク列記憶手段に記憶されたストローク列について、前記手書き文字辞書記憶手段を用いて、文字認識を行なう文字認識手段、
前記文字認識手段によって得られた認識文字列候補群について、形態素解析を行なう形態素解析手段、
前記形態素解析手段による形態素解析結果について、1画入力前の結果と比較することにより、単語として完成している部分と、単語として未完成な部分に分離する分離手段、
未完成部の予測候補を求める予測候補演算手段であって、前記確定文字列記憶手段に記憶された変換文字列のストローク列と前記未完成な部分のストローク列との一致度および前記共起辞書を用いて、単語として完成している部分のうち最後尾の自立語との共起度合いに基づいて、前記予測候補を決定する予測候補決定手段、
前記予測候補演算手段が予測した予測候補を提示する提示手段、
を備えたことを特徴とする枠未定義手書き文字認識装置。
A handwritten character dictionary storage means for storing a correspondence dictionary of stroke strings and corresponding character strings;
Co-occurrence dictionary storage means for storing a combination of independent word strings to be co-occurred,
A confirmed character string storage means for storing a combination of the converted character string and the stroke string determined by the user for each word;
Stroke sequence recording means for storing a stroke sequence given from a handwritten character input unit;
Character recognition means for performing character recognition using the handwritten character dictionary storage means for the stroke strings stored in the stroke string storage means,
Morphological analysis means for performing morphological analysis on the recognized character string candidate group obtained by the character recognition means,
Separating means for separating a morphological analysis result by the morphological analysis means into a part that is completed as a word and an incomplete part as a word by comparing with the result before one stroke input,
Prediction candidate calculation means for obtaining a prediction candidate of an incomplete part, the degree of coincidence between the stroke string of the converted character string stored in the fixed character string storage means and the stroke string of the incomplete part, and the co-occurrence dictionary Prediction candidate determination means for determining the prediction candidate based on the degree of co-occurrence with the last independent word of the part completed as a word,
Presenting means for presenting prediction candidates predicted by the prediction candidate calculation means;
A frame-undefined handwritten character recognition device characterized by comprising:
請求項1の枠未定義手書き文字認識装置において、
前記予測候補決定手段は、ストローク列の履歴の一致度が高いものから候補を選択するとともに、前記提示手段に、共起頻度順に並び替えて表示させること、
を特徴とする手書き文字認識装置。
In the frame undefined handwritten character recognition device according to claim 1,
The prediction candidate determining means selects candidates from those having a high degree of coincidence of stroke sequence histories, and causes the presenting means to rearrange and display in order of co-occurrence frequency,
A handwritten character recognition device.
手書き文字入力部から与えられたストローク列について、ストローク列と対応する文字列との対応辞書を記憶する手書き文字辞書記憶手段を用いて、文字認識を行なう文字認識手段、
前記文字認識手段によって得られた認識文字列候補群について、形態素解析を行なう形態素解析手段、
前記形態素解析手段による形態素解析結果に基づき、単語として完成している部分と、単語として未完成な部分に分離する分離手段、
未完成部の予測候補を求める予測候補演算手段であって、前記確定文字列記憶手段に記憶された変換文字列のストローク列と前記未完成な部分のストローク列との一致度に基づいて、前記予測候補を決定する予測候補決定手段、
前記予測候補演算手段が予測した予測候補を提示する提示手段、
を備えたことを特徴とする枠未定義手書き文字認識装置。
Character recognition means for performing character recognition using a handwritten character dictionary storage means for storing a correspondence dictionary of stroke strings and corresponding character strings for a stroke string given from a handwritten character input unit;
Morphological analysis means for performing morphological analysis on the recognized character string candidate group obtained by the character recognition means,
Separating means for separating a completed part as a word and an incomplete part as a word based on the morphological analysis result by the morpheme analyzing means,
Prediction candidate calculation means for obtaining a prediction candidate for an incomplete part, based on the degree of coincidence between the stroke string of the converted character string stored in the fixed character string storage means and the stroke string of the incomplete part, A prediction candidate determining means for determining a prediction candidate;
Presenting means for presenting prediction candidates predicted by the prediction candidate calculation means;
A frame-undefined handwritten character recognition device characterized by comprising:
コンピュータを下記手段として実行させるための枠未定義手書き文字認識プログラム。
手書き文字入力部から与えられたストローク列について、ストローク列と対応する文字列との対応辞書を記憶する手書き文字辞書記憶手段を用いて、文字認識を行なう文字認識手段、
前記文字認識手段によって得られた認識文字列候補群について、形態素解析を行なう形態素解析手段、
前記形態素解析手段による形態素解析結果に基づき、単語として完成している部分と、単語として未完成な部分に分離する分離手段、
未完成部の予測候補を求める予測候補演算手段であって、前記確定文字列記憶手段に記憶された変換文字列のストローク列と前記未完成な部分のストローク列との一致度に基づいて、前記予測候補を決定する予測候補決定手段、
前記予測候補演算手段が予測した予測候補を提示する提示手段。
A frame-undefined handwritten character recognition program for causing a computer to execute as the following means.
Character recognition means for performing character recognition using a handwritten character dictionary storage means for storing a correspondence dictionary of stroke strings and corresponding character strings for a stroke string given from a handwritten character input unit;
Morphological analysis means for performing morphological analysis on the recognized character string candidate group obtained by the character recognition means,
Separating means for separating a completed part as a word and an incomplete part as a word based on the morphological analysis result by the morpheme analyzing means,
Prediction candidate calculation means for obtaining a prediction candidate for an incomplete part, based on the degree of coincidence between the stroke string of the converted character string stored in the fixed character string storage means and the stroke string of the incomplete part, A prediction candidate determining means for determining a prediction candidate;
Presenting means for presenting prediction candidates predicted by the prediction candidate calculation means.
請求項3の枠未定義手書き文字認識装置または請求項4の枠未定義手書き文字認識プログラムにおいて、
前記分離手段は、前記形態素解析結果について、1画入力前の結果と比較することにより、単語として完成している部分と、単語として未完成な部分に分離すること、
を特徴とするもの。
In the frame undefined handwritten character recognition apparatus of claim 3 or the frame undefined handwritten character recognition program of claim 4,
The separating means separates the completed morphological analysis result into a word and an unfinished part as a word by comparing with the result before one stroke input,
It is characterized by.
請求項5の枠未定義手書き文字認識装置または枠未定義手書き文字認識プログラムにおいて、
前記予測候補決定手段は、連結して使用される自立語文字列の組み合わせを記憶する連結文字列辞書から、連結関係にある自立語文字列の組み合わせを読み出して、単語として完成している部分のうち最後尾の自立語との連結される度合いが高いものを候補として表示すること、
を特徴とするもの。
In the frame undefined handwritten character recognition apparatus or the frame undefined handwritten character recognition program of claim 5,
The prediction candidate determining means reads out a combination of independent word character strings in a connected relationship from a connected character string dictionary storing combinations of independent word character strings used in connection, and Of these, the candidate that is highly connected to the last independent word is displayed as a candidate,
It is characterized by.
請求項6の枠未定義手書き文字認識装置または枠未定義手書き文字認識プログラムにおいて、
前記予測候補決定手段は、前記連結文字列辞書により候補を絞ったあと、前記予測候補を決定すること、
を特徴とするもの。
In the frame undefined handwritten character recognition apparatus or the frame undefined handwritten character recognition program according to claim 6,
The prediction candidate determining means determines the prediction candidate after narrowing down candidates by the connected character string dictionary;
It is characterized by.
請求項7の枠未定義手書き文字認識装置または枠未定義手書き文字認識プログラムにおいて、
前記予測候補決定手段は、連結文字列辞書による連結度が高いものから所定数の候補を前記候補絞り込まれる候補とすること、
を特徴とするもの。
In the frame undefined handwritten character recognition apparatus or the frame undefined handwritten character recognition program of claim 7,
The prediction candidate determination means sets a predetermined number of candidates as candidates for narrowing the candidates from those having a high degree of connection according to a connected character string dictionary;
It is characterized by.
請求項3〜請求項8のいずれかの枠未定義手書き文字認識装置または枠未定義手書き文字認識プログラムにおいて、
前記確定文字列記憶手段には、ユーザが確定した変換文字列とストローク列との組み合わせが単語毎に記憶されていること、
を特徴とするもの。
In the frame undefined handwritten character recognition device or the frame undefined handwritten character recognition program according to any one of claims 3 to 8,
In the confirmed character string storage means, a combination of a converted character string and a stroke string confirmed by the user is stored for each word,
It is characterized by.
請求項3〜請求項9のいずれかの枠未定義手書き文字認識装置または枠未定義手書き文字認識プログラムにおいて、
前記予測候補決定手段は、当該ユーザが実際、連結した履歴がある用語である場合に、候補として決定すること、
を特徴とするもの。
In the frame undefined handwritten character recognition apparatus or the frame undefined handwritten character recognition program according to any one of claims 3 to 9,
The prediction candidate determination means determines a candidate when the user actually has a connected history term.
It is characterized by.
コンピュータの記憶部に、下記1)〜3)を記憶しておき
1)手書き文字入力部から与えられたストローク列について、ストローク列と対応する文字列との対応辞書、2)連結使用される自立語文字列の組み合わせ、3)単語毎に、ユーザが確定した変換文字列とストローク列との組み合わせ、
コンピュータが下記ステップを実行すること、
手書き文字入力部からストローク列が与えられると、前記対応辞書を参照して、文字認識を行なうステップ、
前記得られた認識文字列候補群について、形態素解析を行なうステップ、
前記形態素解析手段による形態素解析結果に基づき、単語として完成している部分と、単語として未完成な部分に分離するステップ、
前記記憶された変換文字列のストローク列と前記未完成な部分のストローク列との一致度に基づいて、前記未完成部の予測候補を求めるステップ、
前記予測した予測候補を提示するステップ、
を特徴とする枠未定義手書き文字認識方法。
Store the following 1) to 3) in the storage section of the computer.
1) For stroke strings given from the handwritten character input part, correspondence dictionary of stroke strings and corresponding character strings, 2) combinations of independent word strings used in connection, 3) conversion determined by the user for each word A combination of a string and a stroke string,
That the computer performs the following steps:
When a stroke string is given from the handwritten character input unit, referring to the correspondence dictionary and performing character recognition;
A step of performing morphological analysis on the obtained recognition character string candidate group,
A step of separating a completed part as a word and an incomplete part as a word based on a morphological analysis result by the morpheme analyzing means;
Obtaining a prediction candidate for the incomplete part based on the degree of coincidence between the stroke string of the stored conversion character string and the stroke string of the incomplete part;
Presenting the predicted prediction candidates,
A frame-undefined handwritten character recognition method characterized by
JP2012227856A 2012-10-15 2012-10-15 Frame undefined handwritten character recognition system or method thereof Pending JP2014081710A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012227856A JP2014081710A (en) 2012-10-15 2012-10-15 Frame undefined handwritten character recognition system or method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012227856A JP2014081710A (en) 2012-10-15 2012-10-15 Frame undefined handwritten character recognition system or method thereof

Publications (1)

Publication Number Publication Date
JP2014081710A true JP2014081710A (en) 2014-05-08

Family

ID=50785871

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012227856A Pending JP2014081710A (en) 2012-10-15 2012-10-15 Frame undefined handwritten character recognition system or method thereof

Country Status (1)

Country Link
JP (1) JP2014081710A (en)

Similar Documents

Publication Publication Date Title
US11416679B2 (en) System and method for inputting text into electronic devices
US20210132792A1 (en) System and method for inputting text into electronic devices
US10402493B2 (en) System and method for inputting text into electronic devices
US20080294982A1 (en) Providing relevant text auto-completions
JP7120751B2 (en) Word normalization method, word normalization device and machine translation method, machine translation device
CN103927329B (en) A kind of instant search method and system
JP5449521B2 (en) Search device and search program
JP2012521025A (en) Input method editor
WO2018156351A1 (en) Corpus specific generative query completion assistant
JPH10326275A (en) Method and device for morpheme analysis and method and device for japanese morpheme analysis
US10102199B2 (en) Corpus specific natural language query completion assistant
JP5231484B2 (en) Voice recognition apparatus, voice recognition method, program, and information processing apparatus for distributing program
JP4935243B2 (en) Search program, information search device, and information search method
JP5447368B2 (en) NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM
JP2003242446A (en) Character string estimating device and method, and computer readable program for realizing the method
JP2019095603A (en) Information generation program, word extraction program, information processing device, information generation method and word extraction method
JPH11238051A (en) Chinese input conversion processor, chinese input conversion processing method and recording medium stored with chinese input conversion processing program
JP2014081710A (en) Frame undefined handwritten character recognition system or method thereof
JP3952964B2 (en) Reading information determination method, apparatus and program
KR101777141B1 (en) Apparatus and method for inputting chinese and foreign languages based on hun min jeong eum using korean input keyboard
JP2014164260A (en) Information processor and information processing method
JP7095450B2 (en) Information processing device, character recognition method, and character recognition program
JP2001051996A (en) Method and device for analyzing morpheme and storage medium storing morpheme analysis program
JP3935374B2 (en) Dictionary construction support method, apparatus and program
JP5212725B2 (en) Electronic book creation support device

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20140522