JP2586372B2 - Information retrieval apparatus and information retrieval method - Google Patents

Information retrieval apparatus and information retrieval method

Info

Publication number
JP2586372B2
JP2586372B2 JP5008734A JP873493A JP2586372B2 JP 2586372 B2 JP2586372 B2 JP 2586372B2 JP 5008734 A JP5008734 A JP 5008734A JP 873493 A JP873493 A JP 873493A JP 2586372 B2 JP2586372 B2 JP 2586372B2
Authority
JP
Japan
Prior art keywords
character
code
recognition
document
codes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP5008734A
Other languages
Japanese (ja)
Other versions
JPH06223121A (en
Inventor
悟 金田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP5008734A priority Critical patent/JP2586372B2/en
Publication of JPH06223121A publication Critical patent/JPH06223121A/en
Application granted granted Critical
Publication of JP2586372B2 publication Critical patent/JP2586372B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は文字データの検索を行う
情報検索装置および情報検索方法に関し、特に文書画像
から得られた文字データの情報検索装置及び情報検索方
法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention searches character data.
Information retrieval apparatus and information retrieval method, especially document image
Information retrieval device and information retrieval method for character data obtained from
About the law.

【0002】[0002]

【従来の技術】近年、文書情報の増大にともない、文書
画像を電子化して蓄積(ファイル)しておき、検索して
取り出す装置の需要が高まっている。このような電子フ
ァイル装置において、文字認識を利用して文書画像の文
書の内容に基づく検索を可能にする情報検索装置が望ま
れている。
2. Description of the Related Art In recent years, with the increase in document information, the demand for an apparatus that digitizes and stores (files) a document image and retrieves and retrieves the document image has been increasing. In such an electronic file device, an information search device that enables a search based on the contents of a document of a document image using character recognition is desired.

【0003】以下、上述した従来の情報検索装置につい
て図を用いて説明する。図5は従来の文字認識を利用し
た情報検索装置のフローチャートである。
Hereinafter, the above-described conventional information retrieval apparatus will be described with reference to the drawings. FIG. 5 is a flowchart of a conventional information retrieval apparatus using character recognition.

【0004】文書を登録する際は、文書をスキャナなど
の画像入力手段1を利用して文書画像データとして入力
し、文書画像蓄積手段2に蓄積する。さらに、文字認識
手段3を利用して文書画像データに含まれている文字パ
タン部分を文字認識する。文字認識で認識が不確かな箇
所が候補の文字が複数ある箇所については、キーボード
などで登録者が修正作業を行う。この認識結果データを
文書画像データと対応づけて認識結果データ蓄積手段6
に蓄積する。
When registering a document, the document is input as document image data using an image input unit 1 such as a scanner and stored in a document image storage unit 2. Further, the character pattern portion included in the document image data is recognized using the character recognition means 3. The registrant corrects a portion where there is a plurality of candidate characters whose location is uncertain in character recognition using a keyboard or the like. Recognition result data storage means 6 associates the recognition result data with the document image data.
To accumulate.

【0005】前記のようにして登録した文書から目的の
文書を検索する際は、キーボード7などからキーワード
などの検索条件を入力し、条件を満たす認識結果データ
を文字検索手段8などにより検索し、認識結果データに
対応する文書画像データを出力する。
When searching for a target document from the document registered as described above, a search condition such as a keyword is input from the keyboard 7 or the like, and recognition result data satisfying the condition is searched by the character search means 8 or the like. The document image data corresponding to the recognition result data is output.

【0006】しかしながら、上記のような方式では、文
書登録時に上記文字認識後に上記修正作業が必要にな
り、手間がかかる。
However, in the above-described method, the above-described correction work is required after the character recognition at the time of document registration, which is troublesome.

【0007】また、上記修正作業を行わないと、認識結
果データに誤りが含まれる可能性があり、検索対象キー
ワードを文字列検索するときに、前記キーワードを含む
認識結果データに誤りがあると、一致しないため検索漏
れが生じる。検索漏れを防ぐために、キーワードの検索
時に数文字までの不一致を許す照合手法や、検索文字列
と類似したパタン形状の文字列を検索文字列と一緒に検
索する手法が考えられてきた。こうした従来例として、
信学技報CA87−25(1987年5月29日)、特
開平4−158478号公報等に記載がある。
If the above correction is not performed, an error may be included in the recognition result data. When a character string search for a search target keyword is performed, if the recognition result data including the keyword includes an error, Because they do not match, search omission occurs. In order to prevent search omission, a matching method that allows a mismatch of up to several characters when searching for a keyword, and a method of searching for a character string having a pattern shape similar to the search character string together with the search character string have been considered. As such a conventional example,
This is described in IEICE Technical Report CA87-25 (May 29, 1987), JP-A-4-158478, and the like.

【0008】[0008]

【発明が解決しようとする課題】しかし、従来技術で行
われていた、検索漏れを防ぐために数文字までの不一致
を許す照合手法を使うと、不適当な検索結果が生じる
(過検索)という問題がある。例えば、1文字までの誤
りを許す検索手法で、検索文字列(”自由”など)を検
索すると、まったく別の文字列(”理由”や”自然”な
ど)とも一致していると判断してしまう。
However, if a collation method that allows a mismatch of up to several characters to prevent omission of search, which is performed in the prior art, an inappropriate search result is generated (over-search). There is. For example, if you search for a search string (such as "free") using a search method that allows an error of up to one character, it is determined that it matches a completely different string (such as "reason" or "natural"). I will.

【0009】また、検索文字列と類似形状の文字列とを
一緒に検索する手法では、文書画像に書体が異なる文字
が含まれている場合など、誤認識の傾向があらかじめ予
想されたものと異なる文字が含まれている場合に、検索
漏れが起こる。
In the method of searching for a search character string and a character string having a similar shape together, the tendency of misrecognition differs from that expected in advance when, for example, a document image contains a character having a different typeface. Search omission occurs when characters are included.

【0010】また、従来技術で、検索対象とする文書認
識データに認識が不確かであった箇所や認識時の候補が
何であったかといった情報が含まれていない場合、この
データだけを用いて修正作業するのは困難である。上記
の文書認識データに含まれない情報は、別に保存してお
く必要があり、管理が困難である。
In the prior art, when document recognition data to be searched does not include information such as a part where recognition is uncertain or a candidate at the time of recognition, a correction operation is performed using only this data. It is difficult. Information that is not included in the above-described document recognition data must be stored separately, and is difficult to manage.

【0011】[0011]

【課題を解決するための手段】図1は本発明の構成を示
すブロック図である。図1に示すように、上記の課題を
解決する第1の情報検索装置は、文書画像データを文字
認識して得られた文書認識データ群から、任意の検索キ
ーワードを含む文書認識データを検索する情報検索装置
において、入力された文書画像データを蓄積する文書画
像データ蓄積手段10と、文書画像データに含まれる文
字部分の文字パターンを認識し、候補となる文字コード
を選択し、文字コードの確からしさの推定値を求める文
字認識手段11と、文字コードの確からしさの推定値の
和が、複数の文字コードを格納する文字コードリスト中
に正確な文字が含まれるように定めた所定の確率を越え
るまで、前記推定値の高い順に候補となる文字コードを
前記文字コードリストに追加し、前記文字コードリスト
の中の候補となる文字コードの数が1つの場合は、先頭
の候補となる文字コードを選択し、前記リスト中の文字
コードの数が定められたしきい値以内の場合は、候補と
なる文字コードが複数あることを示す認識コードをとも
なう先頭の候補となる文字コードを含む複数の候補とな
る文字コードを選択し、前記リスト中の文字コードの数
が定められたしきい値を越えた場合は、候補となる文字
コードが多数あることを示す識別コードを選択する確か
らしさの評価手段12と、これら選択されたコードを
書認識データとして蓄積する文書認識データ蓄積手段1
3と、入力手段から入力した任意のキーワードを前記文
書認識データ蓄積手段から検索する検索手段14を備え
ることを特徴とする。第2の情報検索装置は第1の情報
検索装置に加え、前記文書認識データ蓄積手段の文書認
識データの中の複数の候補となる文字コードから正しい
文字コードの選択や、前記文字コードが多数あることを
示す識別コードに正しい文字コードを入力する修正手段
15を備えることを特徴とする。
FIG. 1 is a block diagram showing the configuration of the present invention. As shown in FIG. 1, a first information retrieval apparatus that solves the above problem retrieves document recognition data including an arbitrary retrieval keyword from a document recognition data group obtained by character recognition of document image data. In the information retrieval apparatus, a document image data storage unit 10 for storing input document image data, and a character code of a character portion included in the document image data recognized as a candidate character code
Select a sentence <br/> character recognition means 11 for determining an estimate of the probability of the character codes, the likelihood of the character code of the estimated value
Sum is in the character code list that stores multiple character codes
Exceeds a certain probability set to contain accurate characters
Until the estimated value is higher,
The character code list added to the character code list
If there is only one candidate character code in
Select a character code that is a candidate for
If the number of codes is within the specified threshold,
With a recognition code indicating that there are multiple character codes
Multiple candidates including the character code of the first candidate
Select the character code to be used, and select the number of character codes in the list.
If the value exceeds the specified threshold,
Means for evaluating the likelihood of selecting an identification code indicating that there are a large number of codes, and document recognition data storage means 1 for storing these selected codes as document recognition data
3 and an arbitrary keyword input from the input means in the sentence
Characterized in that it comprises a retrieval unit 14 for retrieving the writing recognition data accumulation hand stage. In addition to the first information retrieval device, the second information retrieval device includes selection of a correct character code from a plurality of candidate character codes in the document recognition data of the document recognition data storage means, and a large number of the character codes. Correction means 15 for inputting a correct character code as an identification code indicating the above.

【0012】ここで、確からしさの評価手段12は、認
識が不確かな文字については、候補となる複数の文字コ
ードを列挙して出力する。ただし、候補の数が多い場合
は、候補を列挙すると文書認識データが大きくなってし
まうため、代わりに、全ての文字が候補であること(候
補多数)を示す識別コードだけを出力する。
Here, the certainty evaluation means 12 enumerates and outputs a plurality of candidate character codes for characters whose recognition is uncertain. However, when the number of candidates is large, enumerating the candidates increases the document recognition data, and instead outputs only an identification code indicating that all characters are candidates (many candidates).

【0013】本発明の情報検索方法は、 文書画像データ
を文字認識して得られた文書認識データ群から、任意の
検索キーワードを含む文書認識データを検索する情報検
索方法において、 入力された文書画像データを蓄積する
文書画像データ蓄積ステップと、 文書画像データに含ま
れる文字部分の文字パターンを認識し、候補となる文字
コードを選択し、文字コードの確からしさの推定値を求
める文字認識ステップと、文字コードの確からしさの推
定値の和が、複数の文字コードを格納する文字コードリ
スト中に正確な文字が含まれるように定めた所定の確率
を越えるまで、推定値の高い順に候補となる文字コード
を前記文字コードリストに追加し、前記文字コードリス
トの中の候補となる文字コードの数が1つの場合は、先
頭の候補となる文字コードを選択し、前記リスト中の文
字コードの数が定められたしきい値以内の場合は、候補
となる文字コードが複数あることを示す認識コードをと
もなう先頭の候補となる文字コードを含む複数の候補と
なる文字コードを選択し、前記リスト中の文字コードの
数が定められたしきい値を越えた場合は、候補となる文
字コードが多数あることを示す識別コードを選択する確
からしさの評価ステップと、 これら選択されたコードを
文書認識データとして蓄積する文章認識データ蓄積ステ
ップと、 入力した任意のキーワードを、蓄積された文書
認識データから検索する検索ステップを備えることを特
徴とする。
The information retrieval method according to the present invention provides a document image data
From the document recognition data group obtained by character recognition of
Information search to search for document recognition data including search keywords
Accumulates input document image data in search method
Document image data storage step , included in document image data
Recognize the character pattern of the character part to be
Select a code and obtain an estimate of the likelihood of the character code.
Character recognition step and character code certainty
The sum of fixed values is a character code library that stores multiple character codes.
Predetermined probability that exact characters are included in the strike
Character codes that are candidates in descending order of estimated value until
Is added to the character code list, and the character code list is added.
If there is only one candidate character code in the
Select a character code that is a candidate for the head, and select a sentence in the list
If the number of character codes is within the specified threshold,
And a recognition code indicating that there are multiple character codes
Multiple candidates including the character code of the first candidate
Select the character code of the character code in the list
If the number exceeds the specified threshold,
Select an identification code that indicates that there are many character codes.
The evaluation step of the chilliness and the selected code
Document recognition data storage step to store as document recognition data
And-up, any of the keywords you enter, the stored document
It has a search step for searching from recognition data.
Sign.

【0014】[0014]

【作用】確からしさの評価手段12は、文字認識手段1
1により文字認識時に得られた文字コードの確からしさ
の推定値の和が、複数の文字コードを格納する文字コー
ドリスト中に正確な文字が含まれるように定めた所定の
確率を越えるまで、推定値の高い順に候補となる文字コ
ードを前記文字コードリストに追加し、前記文字コード
リストの中の候補となる文字コードの数が1つの場合
は、先頭の候補となる文字コードを選択し、前記リスト
中の文字コードの数が定められたしきい値以内の場合
は、候補となる文字コードが複数あることを示す認識コ
ードをともなう先頭の候補となる文字コードを含む複数
の候補となる文字コードを選択し、前記リスト中の文字
コードの数が定められたしきい値を越えた場合は候補と
なる文字コードが多数あることを示す識別コードを選択
する。
The probability evaluation means 12 is a character recognition means 1
The certainty of the character code obtained at the time of character recognition by 1
The sum of the estimated values of
Specified to ensure that the correct characters are included in the
Until the probability is exceeded, the character
Code is added to the character code list, and the character code
When the number of candidate character codes in the list is one
Selects the character code to be the first candidate,
When the number of character codes inside is within the specified threshold
Is a recognition code indicating that there are multiple candidate character codes.
Multiple characters including the character code of the first candidate with
Select a character code that is a candidate for
If the number of codes exceeds the specified threshold,
Select an identification code indicating that there are many character codes
I do.

【0015】このため、上記のようにして得られた文書
認識データと検索対象キーワードとの文字ごとの照合を
する際に、一致条件をキーワードの各文字が文書認識デ
ータの候補の中のどれかと一致すればよいとしておくこ
とで、検索漏れを低減することができる。また、画像の
条件が良い場合など高い確からしさで認識できる場合は
候補を列挙しないので、余分な一致の発生が低減され
る。
For this reason, when matching the document recognition data obtained as described above with the search target keyword for each character, the matching condition is determined by determining whether each character of the keyword is one of the candidates for the document recognition data. By assuming that they match, search omissions can be reduced. In addition, when recognition is possible with high certainty, such as when image conditions are good, candidates are not enumerated, so that the occurrence of unnecessary matches is reduced.

【0016】また、文字認識の不確かさを評価して、誤
りのありそうな箇所とその候補を選んで選択しているた
め、余分な候補が除去され、文書認識のデータ量が過大
になるのが防がれる。
[0016] In addition, to evaluate the uncertainty of the character recognition, because you have selected to choose the candidate with the likely location of the error, extra candidate is removed, the amount of data of document recognition becomes excessive Is prevented.

【0017】また、文書認識データに、認識が不確かな
箇所と候補の情報が含まれるため、これを使って後から
修正作業を行うことも可能である。
Further, since the document recognition data includes information of a part and a candidate whose recognition is uncertain, it is possible to perform a correction work later using the information.

【0018】[0018]

【実施例】以下この発明の実施例について図面を参照し
ながら説明するが、この発明は以下の実施例に限定され
るものではない。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Embodiments of the present invention will be described below with reference to the drawings, but the present invention is not limited to the following embodiments.

【0019】図2は本発明の実施例の構成のブロック図
を示すものである。図2において文書をスキャナ16な
どの画像読み取り手段で、画像データとして読み込み、
文書画像データ蓄積手段17に蓄積する。文字認識手段
18は、文書画像データ蓄積手段17から画像データを
読み出して、文字が書かれた領域を識別して、文字パタ
ンを認識し、候補となる文字コードとその確からしさを
推定して確率値で出力する。
FIG. 2 is a block diagram showing the configuration of the embodiment of the present invention. In FIG. 2, a document is read as image data by image reading means such as a scanner 16,
The document image data is stored in the document image data storage unit 17. The character recognizing means 18 reads out the image data from the document image data storing means 17, identifies the area in which the character is written, recognizes the character pattern, estimates the candidate character code and its certainty, and sets the probability. Output by value.

【0020】確からしさを推定するためには、パタンを
処理して得られるいくつかの統計量を軸とするベクトル
空間を仮定して、あらかじめいろいろな文字についてそ
の空間での座標を求めておく。そして、文字認識時に認
識対象とする文字パタンを、同様に処理して上記ベクト
ル空間での座標を求め、学習時に近傍にあった座標を見
つけ、それらとの距離から推定する。
In order to estimate the certainty, the coordinates of various characters in the space are determined in advance by assuming a vector space having several statistic axes obtained by processing patterns as axes. Then, the character pattern to be recognized at the time of character recognition is processed in the same manner to obtain the coordinates in the vector space, and the coordinates that were nearby during the learning are found and estimated from the distance between them.

【0021】確からしさの評価手段19は、図3に示す
ようなアルゴリズムに従う。各文字ごとに、文字認識手
段が出力した候補のうち最も有力な候補をリストの先頭
に入れる。そして、認識の確からしさをもとに、正しい
文字がリストに含まれる確率Pを求める。確率Pが、あ
るしきい値Pthより小さいならば、候補から次に有力
な候補をリストに追加して、確率Pを求めなおして繰り
返す。選び出されたリストの中の候補の数(リストの長
さ)が1個ならば、この文字列コードだけを出力する。
リストの中の候補の数があるしきい値の個数Nthより
少ないなら、候補が複数個あることを示す識別コードと
共に出力候補の文字コードを出力する。出力候補の数が
Nthを越えていたならば、出力候補の文字コードの代
わりに、全ての文字が候補であることを示す識別コー
ド、すなわち、候補多数を示す識別コードを出力する。
The reliability evaluation means 19 follows an algorithm as shown in FIG. For each character, the most influential candidate among the candidates output by the character recognition means is placed at the top of the list. Then, based on the likelihood of recognition, a probability P that a correct character is included in the list is obtained. If the probability P is smaller than a certain threshold value Pth, the next most probable candidate is added to the list from the candidates, the probability P is obtained again, and the process is repeated. If the number of candidates (the length of the list) in the selected list is one, only this character string code is output.
If the number of candidates in the list is smaller than a certain threshold number Nth, a character code of an output candidate is output together with an identification code indicating that there are a plurality of candidates. If the number of output candidates exceeds Nth, an identification code indicating that all characters are candidates, that is, an identification code indicating a large number of candidates, is output instead of the character codes of the output candidates.

【0022】識別コードの具体的な例としては、正規表
現に準拠した記述が考えられる。例えば、候補とし
て{”B”、”E”、”3”}を列挙する表現は、”
[BE3]”となり、認識不可の表現は、”.”とな
る。NECというパタンを認識した結果、Nをはっきり
認識し、Eの候補が{”B”、”E”、”3”}で、C
が候補多数であった場合、正規表現で記述すると、”N
[BE3]*”となる。
As a specific example of the identification code, a description based on a regular expression can be considered. For example, an expression listing {"B", "E", "3"} as candidates is "
[BE3] ”, and the unrecognizable expression is“. As a result of recognizing the pattern of NEC, N is clearly recognized, E candidates are {"B", "E", "3"}, and C
Is a large number of candidates, and if it is described by a regular expression, "N
[BE3] * ”.

【0023】文書認識データ蓄積手段20は、評価手段
19が出力する文字コードと識別コードからなるコード
列を文字認識データとして蓄積する。
The document recognition data accumulating means 20 accumulates, as character recognition data, a code string composed of a character code and an identification code output by the evaluation means 19.

【0024】文字列検索手段21は、キーボード24な
どの入力手段から入力した検索対象キーワードと文書認
識データ蓄積手段20から読み出した文書認識データと
を比較照合し、検索対象キーワードを含む文書認識デー
タを検索する。
The character string search means 21 compares and matches the search target keyword input from the input means such as the keyboard 24 with the document recognition data read out from the document recognition data storage means 20, and converts the document recognition data including the search target keyword. Search for.

【0025】この文字列照合の例として図4に示したも
のは、文書認識データのテキストとキーワードを1文字
1文字比較して、キーワードの文字列とテキストが全て
の文字で一致している場合、キーワードの一致が成立し
たと判断するものである。ただし、候補複数を示す識別
コードがあった場合は、該当するキーワードの文字がこ
こに列挙された候補に含まれてたならば、この文字は一
致しているとみなす。また、候補多数を示す識別コード
があった場合は、該当するキーワードの文字が何であっ
ても、この文字は一致しているとみなす。
FIG. 4 shows an example of this character string collation in which the text of the document recognition data and the keyword are compared one character at a time, and the character string of the keyword and the text match in all characters. , It is determined that a keyword match has been established. However, when there is an identification code indicating a plurality of candidates, if the character of the corresponding keyword is included in the candidates listed here, the character is regarded as matching. Also, if there is an identification code indicating a large number of candidates, this character is considered to match regardless of the character of the corresponding keyword.

【0026】検索結果を知らせるために、上記の検索文
字列が含まれる文書認識データ、あるいは、この文書認
識データに対応する文書画像データをディスプレイ22
から表示する。
In order to notify the search result, the document recognition data including the above-mentioned search character string or the document image data corresponding to the document recognition data is displayed on the display 22.
Display from

【0027】文書認識データ修正手段23は、文書認識
データをディスプレイ22に表示し、複数の候補が列挙
されている箇所については、ユーザーにキーボード24
から正しいものを選択される。また、候補が特定されな
かった箇所についは、正しい文字コードをキーボード2
4から入力させる。
The document recognition data correcting means 23 displays the document recognition data on the display 22 and, for a place where a plurality of candidates are listed, gives a keyboard 24 to the user.
Is the right one. If the candidate is not specified, enter the correct character code on the keyboard 2.
Input from 4.

【0028】[0028]

【発明の効果】以上の実施例によれば、第1に、文字パ
タンの認識時に1つの候補だけでは確からしさを保証で
きない箇所は、確からしさの推定値が十分になるように
複数の文字を候補にしたり、全ての文字を候補として指
定するため、認識結果のテキストデータの大きさを過大
にすることを防ぐことができる。
According to the above embodiment, first, when a character pattern is recognized, the probability cannot be guaranteed with only one candidate, and a plurality of characters are selected so that the estimated value of the probability is sufficient. Since the characters are set as candidates or all characters are specified as candidates, it is possible to prevent the size of the text data as the recognition result from being excessively large.

【0029】第2に、認識文字毎の認識の確からしさに
応じて候補を列挙するため、検索漏れと過検索の低減を
両立することができる。
Second, since candidates are listed in accordance with the probability of recognition for each recognized character, both search omission and over-searching can be reduced.

【0030】第3に、文書画像に部分的なノイズや異フ
ォントが含まれる場合など、誤認識の傾向が異なるとき
でも、個別に誤認識の傾向を示すデータ等を用意しなく
ても検索できる。
Third, even when the tendency of misrecognition is different, such as when a document image contains partial noise or a different font, retrieval can be performed without preparing data or the like indicating the tendency of misrecognition individually. .

【0031】第4、に修正作業を後から行うことができ
るため、検索前の修正作業の手間と時間を省くことがで
きる。
Fourth, since the modification work can be performed later, the labor and time for the modification work before the search can be saved.

【0032】第5に、これらの修正作業を形態素解析な
どを行って、候補となる文字を選択した場合、この単語
が辞書に含まれるかどうかによって候補を選択するよう
な処理を行う場合も、これらの処理は処理装置に余裕が
できるまで後回しできる。
Fifth, when these corrections are performed by performing a morphological analysis or the like to select a candidate character, a process for selecting a candidate depending on whether or not this word is included in the dictionary is also performed. These processes can be postponed until there is room in the processing device.

【0033】第6に、認識結果内に複数の候補を記述す
る際の仕様が統一されてさえいれば、文字認識手段は異
なっていてもかまわないため、英文や手書き文など文書
ごとの特性に応じた異なる文字認識手段が作成した認識
結果も同一の検索手段で検索することができる。
Sixth, as long as the specifications for describing a plurality of candidates in the recognition result are unified, the character recognition means may be different. Recognition results created by different corresponding character recognition means can be searched by the same search means.

【0034】第7に、将来、より高性能な文書認識手段
に切り替えた場合でも、それまでに蓄積した文書認識デ
ータを継続して利用することができる。
Seventh, even in the case of switching to higher-performance document recognition means in the future, the document recognition data accumulated so far can be continuously used.

【図面の簡単な説明】[Brief description of the drawings]

【図1】この発明の構成を示すブロック図である。FIG. 1 is a block diagram showing a configuration of the present invention.

【図2】この発明の実施例を示すブロック図である。FIG. 2 is a block diagram showing an embodiment of the present invention.

【図3】確からしさの評価手段の実施例の動作を示すフ
ローチャートである。
FIG. 3 is a flowchart showing an operation of an embodiment of the likelihood evaluation means.

【図4】文字列検索の動作例を示す図である。FIG. 4 is a diagram illustrating an operation example of a character string search.

【図5】従来技術を示すブロック図である。FIG. 5 is a block diagram showing a conventional technique.

【符号の説明】[Explanation of symbols]

16 スキャナ 17 文書画像データ蓄積手段 18 文字認識手段 19 確からしさの評価手段 20 文書認識データ蓄積手段 21 文字列検索手段 23 修正手段 16 Scanner 17 Document image data storage means 18 Character recognition means 19 Probability evaluation means 20 Document recognition data storage means 21 Character string search means 23 Correction means

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G06F 15/403 350C ──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 6 Identification code Agency reference number FI Technical display location G06F 15/403 350C

Claims (3)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】文書画像データを文字認識して得られた文
書認識データ群から、任意の検索キーワードを含む文書
認識データを検索する情報検索装置において、 入力された文書画像データを蓄積する文書画像データ蓄
積手段と、 文書画像データに含まれる文字部分の文字パターンを認
識し、候補となる文字コードを選択し、文字コードの確
からしさの推定値を求める文字認識手段と、文字コードの確からしさの推定値の和が、複数の文字コ
ードを格納する文字コードリスト中に正確な文字が含ま
れるように定めた所定の確率を越えるまで、前記推定値
の高い順に候補となる文字コードを前記文字コードリス
トに追加し、前記文字コードリストの中の候補となる文
字コードの数が1つの場合は、先頭の候補となる文字コ
ードを選択し、前記リスト中の文字コードの数が定めら
れたしきい値以内の場合は、候補となる文字コードが複
数あることを示す認識コードをともなう先頭の候補とな
る文字コードを含む複数の候補となる文字コードを選択
し、前記リスト中の文字コードの数が定められたしきい
値を越えた場合は、候補となる文字コードが多数あるこ
とを示す識別コードを選択する 確からしさの評価手段
と、 これら選択されたコードを文書認識データとして蓄積す
る文書認識データ蓄積手段と、 入力手段から入力した任意のキーワードを前記文書認識
データ蓄積手段から検索する検索手段を備えることを特
徴とする情報検索装置。
An information retrieval apparatus for retrieving document recognition data including an arbitrary search keyword from a document recognition data group obtained by character recognition of document image data, comprising: a document image storing input document image data; Data storage means, character recognition means for recognizing a character pattern of a character portion included in the document image data, selecting a candidate character code, and obtaining an estimated value of certainty of the character code, and character recognition means for determining the certainty of the character code. If the sum of the estimates is
The correct character is included in the character code list that stores the code.
The estimated value until a predetermined probability is determined to be exceeded.
Character codes that are candidates in the descending order of
Sentence that is a candidate in the character code list
If the number of character codes is one, the character code
Mode, and select the number of character codes in the list.
If it is within the specified threshold, the candidate character code
The first candidate with a recognition code indicating that there are
Select multiple candidate character codes including character codes
A threshold for determining the number of character codes in the list.
If the value exceeds the value, there are many candidate character codes.
And certainty evaluating means for selecting an identification code indicating the bets, the document recognition data storage means for storing these selected code as document recognition data, the document recognizes any keyword entered from the input means
An information search device comprising a search means for searching from a data storage means .
【請求項2】前記文書認識データ蓄積手段の文書認識デ
ータの中の複数の候補となる文字コードから正しい文字
コードの選択や、前記文字コードが多数あることを示す
識別コードに正しい文字コードを入力する修正手段を備
えることを特徴とする請求項1記載の情報検索装置。
2. The document recognition data storage means according to claim 1, wherein :
Characters from multiple candidate character codes in data
Indicates the selection of a code or that there are many character codes
Correction means for inputting the correct character code for the identification code is provided.
2. The information retrieval apparatus according to claim 1, wherein the information is retrieved.
【請求項3】文書画像データを文字認識して得られた文
書認識データ群から、任意の検索キーワードを含む文書
認識データを検索する情報検索方法において、 入力された文書画像データを蓄積する文書画像データ蓄
積ステップと文書画像データに含まれる文字部分の文字パターンを認
識し、候補となる文字コードを選択し、文字コードの確
からしさの推定値を求める文字認識ステップと、 文字コードの確からしさの推定値の和が、複数の文字コ
ードを格納する文字コードリスト中に正確な文字が含ま
れるように定めた所定の確率を越えるまで、推定値の高
い順に候補となる文字コードを前記文字コードリストに
追加し、前記文字コードリストの中の候補となる文字コ
ードの数が1つの場合は、先頭の候補となる文字コード
を選択し、前記リスト中の文字コードの数が定められた
しきい値以内の場合は、候補となる文字コードが複数あ
ることを示す認識コードをともなう先頭の候補となる文
字コードを含む複数の候補となる文字コードを選択し、
前記リスト中の文字コードの数が定められたしきい値を
越えた場合は、候補となる文字コードが多数あることを
示す識別コードを選択する確からしさの評価ステップ
と、 これら選択されたコードを文書認識データとして蓄積す
る文章認識データ蓄積ステップと、 入力した任意のキーワードを、蓄積された文書認識デー
タから検索する検索ステップを備えることを特徴とする
情報検索方法。
3. A sentence obtained by character recognition of document image data.
Documents containing arbitrary search keywords from the book recognition data group
In an information search method for searching for recognition data, a document image data storage for storing input document image data is provided.
Product step and the character pattern of the character part contained in the document image data.
And select a candidate character code, and confirm the character code.
The sum of the character recognition step for obtaining the estimated value of the kinshipness and the estimated value of the certainty of the character code is determined by a plurality of character codes.
The correct character is included in the character code list that stores the code.
The estimated value until a predetermined probability
Character codes in the character code list
Add a character code that is a candidate in the character code list.
If the number of characters is one, the character code of the first candidate
Is selected, and the number of character codes in the list is determined.
If it is within the threshold, there are multiple candidate character codes.
First sentence with a recognition code indicating that
Select multiple candidate character codes, including character codes,
A threshold value for the number of character codes in the list is determined.
If it exceeds, check that there are many candidate character codes.
Evaluation step of the certainty of selecting the identification code shown
And store these selected codes as document recognition data.
Storing the sentence recognition data and inputting any keyword into the stored document recognition data.
A search step for searching from the data
Information retrieval method.
JP5008734A 1993-01-22 1993-01-22 Information retrieval apparatus and information retrieval method Expired - Lifetime JP2586372B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5008734A JP2586372B2 (en) 1993-01-22 1993-01-22 Information retrieval apparatus and information retrieval method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5008734A JP2586372B2 (en) 1993-01-22 1993-01-22 Information retrieval apparatus and information retrieval method

Publications (2)

Publication Number Publication Date
JPH06223121A JPH06223121A (en) 1994-08-12
JP2586372B2 true JP2586372B2 (en) 1997-02-26

Family

ID=11701187

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5008734A Expired - Lifetime JP2586372B2 (en) 1993-01-22 1993-01-22 Information retrieval apparatus and information retrieval method

Country Status (1)

Country Link
JP (1) JP2586372B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7305382B2 (en) 2003-01-22 2007-12-04 Canon Kabushiki Kaisha Information searching apparatus and method, information searching program, and storage medium storing the information searching program

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11265391A (en) * 1998-03-17 1999-09-28 Nippon Telegr & Teleph Corp <Ntt> Information retrieval device
JP3803219B2 (en) * 1999-12-14 2006-08-02 三菱電機株式会社 Full-text search device and full-text search method
JP2009230658A (en) * 2008-03-25 2009-10-08 Mitsubishi Electric Corp Character retrieval system
JP7279382B2 (en) * 2019-01-31 2023-05-23 富士フイルムビジネスイノベーション株式会社 Information processing device and information processing program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0282380A (en) * 1988-09-19 1990-03-22 Sanyo Electric Co Ltd Character recognizing method
JPH0350692A (en) * 1989-07-18 1991-03-05 Seiko Epson Corp Character recognizing device
JPH03160580A (en) * 1989-11-20 1991-07-10 Fujitsu Ltd Character correction method in character recognition system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7305382B2 (en) 2003-01-22 2007-12-04 Canon Kabushiki Kaisha Information searching apparatus and method, information searching program, and storage medium storing the information searching program

Also Published As

Publication number Publication date
JPH06223121A (en) 1994-08-12

Similar Documents

Publication Publication Date Title
US6917709B2 (en) Automated search on cursive records not having an ASCII index
JP3689455B2 (en) Information processing method and apparatus
KR100339446B1 (en) Address recognition apparatus and method
US9104700B1 (en) Method and system for searching for information on a network in response to an image query sent by a user from a mobile communications device
EP2372584A1 (en) Local item extraction
JPH07282088A (en) Device and method for matching
US20060045340A1 (en) Character recognition apparatus and character recognition method
EA003619B1 (en) System and method for searching electronic documents created with optical character recognition
JP4991407B2 (en) Information processing apparatus, control program thereof, computer-readable recording medium storing the control program, and control method
JP2014182477A (en) Program and document processing device
JPH087033A (en) Method and device for processing information
US5909509A (en) Statistical-based recognition of similar characters
JPH11328317A (en) Method and device for correcting japanese character recognition error and recording medium with error correcting program recorded
JP3917349B2 (en) Retrieval device and method for retrieving information using character recognition result
JP2586372B2 (en) Information retrieval apparatus and information retrieval method
US11797551B2 (en) Document retrieval apparatus, document retrieval system, document retrieval program, and document retrieval method
US11755659B2 (en) Document search device, document search program, and document search method
JP2001175661A (en) Device and method for full-text retrieval
WO2000036530A1 (en) Searching method, searching device, and recorded medium
JP3975825B2 (en) Character recognition error correction method, apparatus and program
CN110457695B (en) Online text error correction method and system
Lu et al. Word searching in document images using word portion matching
JP4677750B2 (en) Document attribute acquisition method and apparatus, and recording medium recording program
JP3958722B2 (en) Image data document retrieval system
US20230005282A1 (en) Information processing apparatus, information processing method, computer program product, and recording medium

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19961008