JPH0117192B2 - - Google Patents

Info

Publication number
JPH0117192B2
JPH0117192B2 JP56094909A JP9490981A JPH0117192B2 JP H0117192 B2 JPH0117192 B2 JP H0117192B2 JP 56094909 A JP56094909 A JP 56094909A JP 9490981 A JP9490981 A JP 9490981A JP H0117192 B2 JPH0117192 B2 JP H0117192B2
Authority
JP
Japan
Prior art keywords
frequency
circuit section
category
information
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP56094909A
Other languages
Japanese (ja)
Other versions
JPS57209575A (en
Inventor
Koya Fujita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP56094909A priority Critical patent/JPS57209575A/en
Publication of JPS57209575A publication Critical patent/JPS57209575A/en
Publication of JPH0117192B2 publication Critical patent/JPH0117192B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 本発明は、頻度情報を利用した文字認識装置、
特に類似度あるいは不一致度の類似情報のみで識
別し難い複数のカテゴリ相互間の識別を、文字の
使用頻度を利用して行ない得るようにすると共
に、使用頻度情報を学習によつて精度の高いもの
にしてゆき、交換可能なメモリを用いていれば各
人あるいは各テーマに対応してメモリを差換えて
使用できるようにした頻度情報を利用した文字認
識装置に関するものである。
[Detailed Description of the Invention] The present invention provides a character recognition device using frequency information,
In particular, the frequency of use of characters can be used to distinguish between multiple categories, which is difficult to distinguish only based on similarity information or dissimilarity information, and the frequency of use information can be learned with high precision. The present invention relates to a character recognition device using frequency information, which can be used by replacing the memory according to each person or each theme if a replaceable memory is used.

従来から実用化されている文字認識装置は、英
数字やカナ文字などを対象としたものであり、数
値や品名などを認識するものであつた。このため
に各入力文字の使用頻度も略一様であつた。した
がつて、従来、入力文字を誤りなく正しく認識す
るという方向の努力が重ねられていた。この方向
は漢字認識に当つても継続されていた。
Character recognition devices that have been put into practical use so far have been used to recognize alphanumeric characters, kana characters, and the like, as well as numerical values and product names. For this reason, the frequency of use of each input character was also approximately uniform. Therefore, efforts have been made to accurately recognize input characters without errors. This direction continued when it came to kanji recognition.

しかし、漢字認識の場合には、カテゴリ数も膨
大となりかつ類似する文字がきわめて多く、これ
らを個々に分離して識別することはきわめてむづ
かしい。ただ入力文字として漢字が用いられる如
き用途分野においては、いわば文章や単語を認識
する形で使用されることが多い。このことを利用
して、前後の文字や文法的なつながりなどから判
別を助けることが考慮されている。即ち、予め単
語辞書を用意しておき、認識不能文字について認
識可能となつた前後の文字から単語辞書を用いて
認識を助けることも考慮されている。
However, in the case of kanji recognition, the number of categories is enormous and there are an extremely large number of similar characters, making it extremely difficult to separate and identify them individually. However, in application fields where kanji are used as input characters, they are often used to recognize sentences and words. Consideration is being given to utilizing this fact to aid in discrimination based on surrounding characters and grammatical connections. That is, it is also considered to prepare a word dictionary in advance and use the word dictionary to help recognize unrecognizable characters from the characters before and after the characters become recognizable.

しかし、この方式の場合、入力文字(又は文
章)がどのようなテーマに関するものかなどの使
用分野によつて夫々単語辞書を用意することが必
要となり、また前後の文字から単語を抽出する処
理もそれ程簡単ではない。
However, in the case of this method, it is necessary to prepare a word dictionary for each field of use, such as what kind of theme the input characters (or sentences) relate to, and the process of extracting words from the preceding and following characters is also required. It's not that easy.

本発明は上記の点を解決することを目的として
おり、いわば各人あるいは各テーマ毎に文字の使
用頻度情報を学習によつてリ生成しておき、認識
不能文字に対する認識を助けるようにして、認識
率を向上せしめるようにすることを目的としてい
る。そしてそのため、本発明の頻度情報を利用し
て文字認識装置は、入力文字と辞書部の内容とを
用いて入力文字がいずれのカテゴリに対応するか
についての類似度あるいは不一致度の類似情報を
抽出する類似度抽出処理部をそなえた文字認識装
置において、各カテゴリに対応して当該カテゴリ
に属する文字が入力文字として入力される頻度を
格納する交換可能な頻度テーブル・メモリ回路
部、上記類似情報が互に予め定めた閾値の範囲内
で近似する複数のカテゴリに対して上記頻度テー
ブル・メモリ回路部から読出された頻度情報にも
とづいてカテゴリ判定を行なう頻度判定回路部、
および入力文字を認識した結果にもとづいて当該
入力文字の発生頻度を計算する頻度計算回路部を
そなえ、該頻度計算回路部による計算結果にもと
づいて上記頻度テーブル・メモリ回路部の内容を
更新可能に構成し、上記類似情報と上記頻度情報
との少なくとも両者を利用して入力文字を認識す
るようにしたことを特徴としている。以下図面を
参照しつつ説明する。
The purpose of the present invention is to solve the above-mentioned problems, so to speak, by regenerating character usage frequency information for each person or each theme through learning, and assisting in the recognition of unrecognizable characters. The purpose is to improve the recognition rate. Therefore, using the frequency information of the present invention, the character recognition device uses the input character and the contents of the dictionary section to extract similarity information regarding the degree of similarity or mismatch to which category the input character corresponds. In a character recognition device equipped with a similarity extraction processing unit, a replaceable frequency table/memory circuit unit stores the frequency with which characters belonging to the category are input as input characters corresponding to each category; a frequency determination circuit unit that performs category determination based on frequency information read from the frequency table memory circuit unit for a plurality of categories that are similar to each other within a predetermined threshold;
and a frequency calculation circuit section that calculates the frequency of occurrence of the input character based on the result of recognizing the input character, and the contents of the frequency table memory circuit section can be updated based on the calculation results by the frequency calculation circuit section. The present invention is characterized in that an input character is recognized using at least both of the above-mentioned similarity information and the above-mentioned frequency information. This will be explained below with reference to the drawings.

図は本発明の一実施例構成を示す。図中の符号
1は類似度抽出処理部であつて従来周知の如く辞
書部に格納された標準特徴情報を用いて入力文字
がいずれのカテゴリに対応するかについての類似
情報(類似度あるいは不一致度)を抽出するも
の、2は閾値判定回路部であつて類似度抽出処理
部1によつて抽出された類似情報にもとづいて単
一のカテゴリを分離できるか否かを判定するも
の、3―0,3―1,3―2…は夫々頻度テーブ
ル・メモリ回路部であつて入力される可能性のあ
る文字毎に使用頻度情報を格納してなりかつ各人
によりあるいは各テーマに応じて差換え可能に構
成されるもの、4は頻度判定回路部であつて認識
不能とされた入力文字についての候補カテゴリ名
を受取り頻度テーブル・メモリ回路部3―iの内
容にもとづいて頻度情報から候補カテゴリの1つ
を絞るもの、5は頻度判定制御回路部であつて上
記候補カテゴリ名を受取つて頻度テーブル・メモ
リ回路部3―iを索引しかつ頻度判定回路部4に
対して判定指示を与えるもの、6は表示メモリ回
路部であつて閾値判定回路部2によつて分離され
たカテゴリあるいは頻度判定回路部4を介して分
離されたカテゴリ名を記憶し当該カテゴリの文字
を表示せしめるよう制御するもの、7はデイスプ
レイであつて上記カテゴリの文字を表示するも
の、8はキイ部であつてデイスプレイ7によつて
表示された文字についての修正を行なつたりある
いは修正終了(確認)を行なつたりするもの、9
はメモリ読出し/頻度学習制御部であつてデイス
プレイ7によつて表示された文字が正解であるこ
とを表わす修正終了信号にもとづいて表示メモリ
回路部6上のカテゴリ名を読出すよう指示しかつ
頻度計算を行なうよう指示するもの、10は頻度
計算回路部であつて表示メモリ回路部6上のカテ
ゴリ名を受取つて当該カテゴリについて使用頻度
情報をプラス1するものを表わしている。
The figure shows the configuration of an embodiment of the present invention. Reference numeral 1 in the figure is a similarity extraction processing unit, which uses standard feature information stored in a dictionary as well-known to extract similarity information (similarity or mismatch) regarding which category the input character corresponds to. ); 2 is a threshold determination circuit unit which determines whether a single category can be separated based on the similarity information extracted by the similarity extraction processing unit 1; 3-0 , 3-1, 3-2... are frequency table/memory circuit sections that store usage frequency information for each character that may be input, and can be replaced by each person or according to each theme. 4 is a frequency determination circuit unit which receives candidate category names for input characters that are determined to be unrecognizable and determines one of the candidate categories from the frequency information based on the contents of the frequency table/memory circuit unit 3-i. 5 is a frequency determination control circuit section which receives the candidate category name, indexes the frequency table/memory circuit section 3-i, and gives a determination instruction to the frequency determination circuit section 4; 6; 7 is a display memory circuit unit which stores the categories separated by the threshold value judgment circuit unit 2 or the category names separated by the frequency judgment circuit unit 4 and controls the display of the characters of the category; 8 is a display for displaying the characters of the above categories; 8 is a key section for modifying the characters displayed on the display 7 or for confirming the completion of the modification; 9
is a memory reading/frequency learning control section which instructs to read out the category name on the display memory circuit section 6 based on a correction end signal indicating that the characters displayed on the display 7 are correct; 10 indicates a frequency calculation circuit section which receives the category name on the display memory circuit section 6 and adds 1 to usage frequency information for the category.

従来公知の技術によつて、類似度抽出処理部1
は、入力文字がいずれのカテゴリに対してどのよ
うな類似度あるいは不一致度(以下類似度を出力
するものと仮定する)をもつかを出力する。即ち
例えばカテゴリAについてはa%、カテゴリBに
ついてはb%……の如く例えば類似度の高い順か
ら所定個数のカテゴリに絞つて出力する。閾値判
定回路部2は、最も類似度の高いカテゴリについ
ての類似度α%と次位以下のカテゴリについての
類似度β%、γ%…について、 α―β≧TH α―γ≧TH ……(1) 〓 であるか否かを判定する。そしてその条件が満足
されれば分離可として最も類似度の高いカテゴリ
名を表示メモリ回路部6に通知する。
Similarity extraction processing section 1
outputs what degree of similarity or degree of mismatch (hereinafter it is assumed that the degree of similarity is output) that the input character has with respect to which category. That is, for example, a predetermined number of categories are output in descending order of similarity, such as a% for category A, b% for category B, and so on. The threshold determination circuit unit 2 calculates α−β≧TH α−γ≧TH ( 1) Determine whether 〓 is true. If the condition is satisfied, the display memory circuit unit 6 is notified of the category name with the highest degree of similarity as separable.

第(1)式の条件が満足されない場合には、 α≧TH′ β≧TH′ γ≧TH′ ……(2) を満足するすべてのカテゴリ名を頻度判定回路部
4と頻度判定制御回路部5に通知する。頻度判定
制御回路部5は、現に使用中の頻度テーブルメモ
リ回路部例えば3―0を上記カテゴリ名A,B,
Cにもとづいてアクセスすると共に、頻度判定回
路部4に対して判定開始を指示す。このとき頻度
テーブルメモリ回路部3―0からは、カテゴリA
についての頻度情報a%、カテゴリBについての
頻度情報b%、カテゴリCについての頻度情報c
%…を順次頻度判定回路部4に通知する。頻度判
定回路部4は、例えば最も使用頻度の高いカテゴ
リ例えばBを判定してカテゴリ名Bを表示メモリ
回路部6に通知する。
If the condition of equation (1) is not satisfied, α≧TH′ β≧TH′ γ≧TH′ …(2) Notify 5. The frequency determination control circuit section 5 assigns the frequency table memory circuit section currently in use, for example 3-0, to the above category names A, B,
It accesses based on C and instructs the frequency determination circuit section 4 to start determination. At this time, from the frequency table memory circuit section 3-0, the category A
Frequency information a% about category B, frequency information b% about category C, frequency information c about category C
%... are sequentially notified to the frequency determination circuit section 4. The frequency determination circuit unit 4 determines the most frequently used category, for example, B, and notifies the display memory circuit unit 6 of the category name B.

表示メモリ回路部6に通知されたカテゴリ名
は、図示しないメモリに格納され、表示メモリ回
路部6は当該カテゴリ名に対応した文字をデイス
プレイ7上に表示せしめる。この表示が正解であ
るか否かは、オペレータによつてキイ入力で確認
される。正解でなかつた場合にはキイ入力によつ
て表示メモリ回路部6上のカテゴリ名が修正され
る。
The category name notified to the display memory circuit section 6 is stored in a memory (not shown), and the display memory circuit section 6 causes the display 7 to display characters corresponding to the category name. Whether or not this display is correct is checked by the operator by key input. If the answer is not correct, the category name on the display memory circuit section 6 is corrected by key input.

正解が得られた段階において、メモリ読出し/
頻度学習制御部9が発動される。即ち、表示メモ
リ回路部6上のカテゴリ名が読出されて頻度計算
回路部10に通知され、当該カテゴリについて頻
度テーブル・メモリ回路部3―0の内容をプラス
1して再び頻度テーブル・メモリ回路部3―0内
に格納する。
At the stage when the correct answer is obtained, memory read/
The frequency learning control unit 9 is activated. That is, the category name on the display memory circuit section 6 is read out and notified to the frequency calculation circuit section 10, and the content of the frequency table/memory circuit section 3-0 is added to the content of the frequency table/memory circuit section 3-0 for the category, and then the frequency table/memory circuit section is added again. Store in 3-0.

このようにして、閾値判定回路部2のみによつ
て認識できなかつた文字などについては頻度情報
を利用して(認識できる文字についても頻度情報
を利用してもよい)、認識率を向上せしめるよう
にする。しかし、一般に、各人あるいは各テーマ
毎に文字の使用頻度が異なる。このために、上述
の如く学習効果によつて精度を高められた頻度テ
ーブル・メモリ回路部3―iの内容は、上記各人
や各テーマ毎に当該頻度テーブル・メモリ回路部
3―iを差換え可能にして保存するようにする。
そして再び同じ人の文章や同じテーマについての
文章を認識する場合に、セツトされて利用され
る。
In this way, frequency information is used for characters that cannot be recognized only by the threshold value determination circuit section 2 (frequency information may also be used for characters that can be recognized) to improve the recognition rate. Make it. However, in general, the frequency of use of characters differs depending on each person or each theme. For this purpose, the contents of the frequency table/memory circuit section 3-i, whose accuracy has been increased by the learning effect as described above, can be changed by replacing the frequency table/memory circuit section 3-i for each person or theme. Make it possible and save it.
It is then set and used again when recognizing writings by the same person or writings on the same theme.

以上説明した如く、本発明によれば、類似度抽
出処理部のみによつて正しく認識できない文字に
ついても比較的簡単に認識を行なうことが可能と
なる。また頻度テーブル・メモリ回路部3―iの
内容は学習によつて精度を向上されてゆくため
に、予め頻度情報を準備しておく必要がない。ま
た頻度テーブル・メモリ回路部3―iは、例えば
フロツピイ・デイスクまで差換え可能なメモリを
用いており、上記学習による効果をいつまでも享
受することが可能となる。
As described above, according to the present invention, even characters that cannot be correctly recognized only by the similarity extraction processing section can be recognized relatively easily. Further, since the accuracy of the contents of the frequency table memory circuit section 3-i is improved through learning, there is no need to prepare frequency information in advance. Furthermore, the frequency table memory circuit section 3-i uses a memory that can be replaced with, for example, a floppy disk, making it possible to enjoy the effects of the above-mentioned learning forever.

【図面の簡単な説明】[Brief explanation of drawings]

図は本発明の一実施例構成を示す。 図中1は類似度抽出処理部、2は閾値判定回路
部、3は頻度テーブル・メモリ回路部、4は頻度
判定回路部、6は表示メモリ回路部、10は頻度
計算回路部を表わす。
The figure shows the configuration of an embodiment of the present invention. In the figure, 1 represents a similarity extraction processing section, 2 a threshold determination circuit section, 3 a frequency table/memory circuit section, 4 a frequency determination circuit section, 6 a display memory circuit section, and 10 a frequency calculation circuit section.

Claims (1)

【特許請求の範囲】[Claims] 1 入力文字と辞書部の内容とを用いて入力文字
がいずれのカテゴリに対応するかについての類似
度あるいは不一致度の類似情報を抽出する類似度
抽出処理部をそなえた文字認識装置において、各
カテゴリに対応して当該カテゴリに属する文字が
入力文字として入力される頻度を格納する交換可
能な頻度テーブル・メモリ回路部、上記類似情報
が互に予め定めた閾値の範囲内で近似する複数の
カテゴリに対して上記頻度テーブル・メモリ回路
部から読出された頻度情報にもとづいてカテゴリ
判定を行なう頻度判定回路部、および入力文字を
認識した結果にもとづいて当該入力文字の発生頻
度を計算する頻度計算回路部をそなえ、該頻度計
算回路部による計算結果にもとづいて上記頻度テ
ーブル・メモリ回路部の内容を更新可能に構成
し、上記類似情報と上記頻度情報との少なくとも
両者を利用して入力文字を認識するようにしたこ
とを特徴とする頻度情報を利用した文字認識装
置。
1. In a character recognition device equipped with a similarity extraction processing section that extracts similarity information on the degree of similarity or mismatch to which category an input character corresponds using the input character and the contents of the dictionary section, a replaceable frequency table/memory circuit unit that stores the frequency with which characters belonging to the category are input as input characters, corresponding to a plurality of categories whose similar information is similar to each other within a predetermined threshold; In contrast, there is a frequency determination circuit section that performs category determination based on the frequency information read from the frequency table/memory circuit section, and a frequency calculation circuit section that calculates the frequency of occurrence of the input character based on the result of recognizing the input character. and configured to be able to update the contents of the frequency table/memory circuit section based on the calculation results by the frequency calculation circuit section, and recognize input characters by using at least both of the above similarity information and the frequency information. A character recognition device using frequency information, characterized in that:
JP56094909A 1981-06-19 1981-06-19 Character recognizing device Granted JPS57209575A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56094909A JPS57209575A (en) 1981-06-19 1981-06-19 Character recognizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56094909A JPS57209575A (en) 1981-06-19 1981-06-19 Character recognizing device

Publications (2)

Publication Number Publication Date
JPS57209575A JPS57209575A (en) 1982-12-22
JPH0117192B2 true JPH0117192B2 (en) 1989-03-29

Family

ID=14123131

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56094909A Granted JPS57209575A (en) 1981-06-19 1981-06-19 Character recognizing device

Country Status (1)

Country Link
JP (1) JPS57209575A (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58192181A (en) * 1982-05-04 1983-11-09 Comput Basic Mach Technol Res Assoc Character inputting device
JPS6162985A (en) * 1984-09-04 1986-03-31 Sanyo Electric Co Ltd Recognition order determining system
JP2559031B2 (en) * 1986-09-01 1996-11-27 富士通株式会社 Voice recognition system
JP2748936B2 (en) * 1988-02-29 1998-05-13 富士通株式会社 Character recognition method

Also Published As

Publication number Publication date
JPS57209575A (en) 1982-12-22

Similar Documents

Publication Publication Date Title
US4773009A (en) Method and apparatus for text analysis
EP0262938B1 (en) Language translation system
CN109801630B (en) Digital conversion method, device, computer equipment and storage medium for voice recognition
Boroş et al. A comparison of sequential and combined approaches for named entity recognition in a corpus of handwritten medieval charters
CN112287680A (en) Entity extraction method, device, equipment and storage medium of inquiry information
JPH0117192B2 (en)
JPS61282965A (en) Character string dividing method
JP3673553B2 (en) Filing equipment
JP2538543B2 (en) Character information recognition device
JPS5842904B2 (en) Handwritten kana/kanji character recognition device
JPS6441971A (en) System for learning dictionary for cooccurrence relation of words
JP4568838B2 (en) Visual and auditory similar product name presentation device
JP2640472B2 (en) Character recognition method
Fraenkel et al. Semi-automatic construction of semantic concordances
Jeong et al. Syllable-level Korean Fingerspelling Recognition from a Video
JPH0347554B2 (en)
JPH0338765A (en) Method and device for processing character
JP2656239B2 (en) Speech recognition learning method
JPH03156589A (en) Method for detecting and correcting erroneously read character
JPS61202273A (en) Electronic dictionary
JP2838850B2 (en) Kana-Kanji conversion device
JPH0318987A (en) Dictionary registering method
CN117764694A (en) Risk account identification method, apparatus, electronic device and storage medium
CN110837737A (en) Method for recognizing ability word entity
JPH0614376B2 (en) Japanese sentence error detection device