JP3526821B2 - Document search device - Google Patents

Document search device

Info

Publication number
JP3526821B2
JP3526821B2 JP2000254697A JP2000254697A JP3526821B2 JP 3526821 B2 JP3526821 B2 JP 3526821B2 JP 2000254697 A JP2000254697 A JP 2000254697A JP 2000254697 A JP2000254697 A JP 2000254697A JP 3526821 B2 JP3526821 B2 JP 3526821B2
Authority
JP
Japan
Prior art keywords
character
keyword
image
matching
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000254697A
Other languages
Japanese (ja)
Other versions
JP2001134617A (en
Inventor
善彦 松川
太郎 今川
堅司 近藤
強司 目片
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2000254697A priority Critical patent/JP3526821B2/en
Publication of JP2001134617A publication Critical patent/JP2001134617A/en
Application granted granted Critical
Publication of JP3526821B2 publication Critical patent/JP3526821B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、文書画像に対して
文字認識を行うことによって得られる認識結果からキー
ワードを検索する文書検索装置および記録媒体に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document search device and a recording medium for searching a keyword from a recognition result obtained by performing character recognition on a document image.

【0002】[0002]

【従来の技術】一般に、紙の形態の文書を文書データベ
ースに蓄積する場合、紙の形態の文書が画像データとし
て読みこまれ、その画像データは文字認識を行うことに
より文字コードの集合(文字認識結果)に変換される。
文書は文字コードの集合として文書データベースに蓄積
される。文書データベースからキーワードを検索する場
合には、キーワードが文字認識結果に含まれるか否かが
判定される。一般に使用されている文字認識では、オリ
ジナルの文書(紙の形態の文書)に書かれた文字が、正
しく文字コードに変換されない場合がある。このよう
に、文字認識において誤りがある場合、文字コードが表
す文字はオリジナルの文書に書かれている文字と異なり
得る。このため、文書データベースに蓄積された文字コ
ードの集合からキーワードを検索する場合に、検索漏れ
が起こる可能性がある。検索漏れとは、オリジナルの文
書にはキーワードと一致する文字列が存在するにもかか
わらず、文書データベースに蓄積された文字認識結果か
らキーワードを検索した場合に、キーワードと一致する
文字列が検出されないことをいう。
2. Description of the Related Art Generally, when a paper-form document is stored in a document database, a paper-form document is read as image data, and the image data is subjected to character recognition to collect a set of character codes (character recognition). Result).
The document is stored in the document database as a set of character codes. When searching for a keyword from the document database, it is determined whether the keyword is included in the character recognition result. In commonly used character recognition, characters written in an original document (document in paper form) may not be correctly converted into a character code. Thus, when there is an error in character recognition, the character represented by the character code may be different from the character written in the original document. Therefore, a search omission may occur when searching for a keyword from a set of character codes accumulated in the document database. Missing search means that even if the original document has a character string that matches the keyword, when the keyword is searched from the character recognition results stored in the document database, the character string that matches the keyword is not detected. Say that.

【0003】このような検索漏れを防ぐ従来技術とし
て、例えば、特開平7−152774に開示される技術
が知られている。
As a conventional technique for preventing such a search omission, for example, the technique disclosed in Japanese Patent Laid-Open No. 7-152774 is known.

【0004】特開平7−152774に開示される従来
技術によれば、検索時に、キーワードに含まれる文字の
うち文字認識を誤りやすい文字について予め複数の候補
を挙げた類似文字のリストを用いて、展開文字列が生成
される。文字認識を誤りやすい文字とは、例えば、その
文字と形状が類似した文字が存在する文字である。
According to the conventional technique disclosed in JP-A-7-152774, at the time of search, using a list of similar characters in which a plurality of candidates are listed in advance for characters that are likely to cause character recognition errors among the characters included in the keyword, The expansion string is generated. A character whose character recognition is likely to be erroneous is, for example, a character whose shape is similar to that of the character.

【0005】特開平7−152774に開示される従来
技術を図24Aおよび図24Bを参照して説明する。
A conventional technique disclosed in Japanese Patent Application Laid-Open No. 7-152774 will be described with reference to FIGS. 24A and 24B.

【0006】図24Aは、オリジナルの文書中に含まれ
る文字「本」および「口」が、文字認識における誤りに
より、それぞれ形状の類似した「木」および「区」とい
う文字に対応する文字コードに変換されている例を示
す。文字認識結果は文字コードの集合であるが、図24
Aでは説明のために、文字コードは、その文字コードに
対応する文字として示されている。オリジナルの文書に
はキーワード「日本」が含まれているにもかかわらず、
キーワード「日本」を文字認識結果から検索すると検索
漏れが起こる。
In FIG. 24A, the characters "book" and "mouth" contained in the original document are converted into character codes corresponding to the characters "tree" and "ku" having similar shapes due to an error in character recognition. An example of conversion is shown. The character recognition result is a set of character codes.
For the sake of explanation, in A, the character code is shown as a character corresponding to the character code. Although the original document contains the keyword "Japan",
When the keyword "Japan" is searched from the character recognition result, a search omission occurs.

【0007】図24Bは、類似文字のリストの例を示
す。行99−1は、文字「本」は、文字「木」、
「大」、「太」および「才」に誤って認識されやすいこ
とを示す。行99−2は、文字「口」は、文字「□(記
号の矩形)」、「回」、「円」および「々」に誤って認
識されやすいことを示す。
FIG. 24B shows an example of a list of similar characters. In line 99-1, the character "book" is the character "tree",
It shows that it is apt to be mistakenly recognized as "large", "thick" and "aged". The line 99-2 indicates that the character "mouth" is apt to be erroneously recognized as the characters "□ (rectangle of symbol)", "times", "circle" and "every".

【0008】特開平7−152774に開示される従来
技術では、キーワード「日本」を検索する場合、図24
Bに示される類似文字のリストを用いて、展開文字列
「日木」、「日大」、「日太」および「日才」が生成さ
れる。文字認識結果からキーワード「日本」を検索する
場合、展開文字列「日木」、「日大」、「日太」および
「日才」のそれぞれも、キーワードとして使用される。
これによって、文字コード中で、「日本」が誤って文字
認識された「日木」の部分が検索され得る。
According to the conventional technique disclosed in Japanese Patent Laid-Open No. 7-152774, when the keyword "Japan" is searched, the search shown in FIG.
Using the list of similar characters shown in B, the expanded character strings “Hiki”, “Nichidai”, “Hita”, and “Nichizai” are generated. When searching for the keyword “Japan” from the character recognition result, each of the expanded character strings “Hiki”, “Nichidai”, “Hita”, and “Nichizai” is also used as a keyword.
As a result, in the character code, a portion of "Hiki" in which "Japan" is erroneously recognized as a character can be searched.

【0009】[0009]

【発明が解決しようとする課題】特開平7−15277
4に開示される従来技術によれば、文書に含まれる文字
が類似文字のリストに含まれない文字として誤って文字
認識された場合には、検索漏れの問題を回避できない。
例えば、図24Aに示される文字認識結果からキーワー
ド「人口」を検索することを仮定する。文字「口」が誤
って文字認識された文字「区」は、図24Bの行99−
2に示される文字「口」についての類似文字のリストに
含まれない。従って、キーワード「人区」を使用した検
索は行われず、検索漏れが発生する。
DISCLOSURE OF THE INVENTION Problems to be Solved by the Invention
According to the related art disclosed in No. 4, if a character included in a document is erroneously recognized as a character not included in the list of similar characters, the problem of omission of search cannot be avoided.
For example, assume that the keyword “population” is searched from the character recognition result shown in FIG. 24A. The character "ku" in which the character "mouth" is erroneously recognized as a character is the line 99- in FIG. 24B.
It is not included in the list of similar characters for the character "mouth" shown in 2. Therefore, a search using the keyword "personal ward" is not performed, and a search omission occurs.

【0010】このような検索漏れの可能性を減らすため
に類似文字のリストに含まれる文字の数を増加させる
と、展開文字列の個数が増え、検索にかかるコスト(時
間および計算量)が増大する。
If the number of characters included in the list of similar characters is increased in order to reduce the possibility of omission of the search, the number of expanded character strings increases, and the cost (time and calculation amount) for the search increases. To do.

【0011】本発明は、このような課題に鑑みてなされ
たものであって、検索にかかるコスト(時間および計算
量)が低くて済み、文字認識の誤りに起因する検索漏れ
を減らすことのできる文書検索装置を提供することを目
的とする。
The present invention has been made in view of the above problems, and the cost (time and amount of calculation) required for retrieval is low, and the omission of retrieval due to character recognition error can be reduced. An object is to provide a document search device.

【0012】[0012]

【課題を解決するための手段】本発明の文書検索装置
は、文書の画像に対して文字認識を行うことによって得
られる認識結果からキーワードを検索する文書検索装置
であって、前記キーワードは、少なくとも1つの第1文
字を含んでおり、前記少なくとも1つの第1文字のそれ
ぞれには文字コード及び文字画像が割り当てられてお
り、前記認識結果は、少なくとも1つの第2文字を含ん
でおり、前記少なくとも1つの第2文字のそれぞれには
文字コードと、前記文書の画像の部分領域とが割り当て
られており、前記文書検索装置は、前記文字コードの比
較に基づいて、前記キーワードに一致する少なくとも1
つの第1一致部分が前記認識結果に存在するか否かを判
定し、存在する場合には、前記少なくとも1つの第1一
致部分を特定する第1一致部分特定手段と、所定の第1
条件を満たす少なくとも1つの第1部分が前記認識結果
から前記特定された少なくとも1つの第1一致部分を除
いた部分に存在するか否かを判定し、存在する場合に
は、前記少なくとも1つの第1部分を特定する第1部分
特定手段と、前記第1部分に含まれる前記第2文字に割
り当てられた前記部分領域の画像の特徴量と、前記キー
ワードに含まれる前記第1文字の前記文字画像の特徴量
との比較に基づいて、前記キーワードに一致する少なく
とも1つの第2一致部分が前記特定された少なくとも1
つの第1部分に存在するか否かを判定し、存在する場合
には、前記少なくとも1つの第2一致部分を特定する第
2一致部分特定手段とを備え、前記所定の第1条件は、
予め定められた幅より小さい幅を有する特定の第2文字
の近傍に前記第1部分があるという条件であり、これに
より上記目的が達成される。本発明の他の文書検索装置
は、文書の画像に対して文字認識を行うことによって得
られる認識結果からキーワードを検索する文書検索装置
であって、前記キーワードは、少なくとも1つの第1文
字を含んでおり、前記少なくとも1つの第1文字のそれ
ぞれには文字コード及び文字画像が割り当てられてお
り、前記認識結果は、少なくとも1つの第2文字を含ん
でおり、前記少なくとも1つの第2文字のそれぞれには
文字コードと、前記文書の画像の部分領域と、前記文字
認識を行った際に得られる文字認識の確からしさを示す
信頼度とが割り当てられており、前記文書検索装置は、
前記文字コードの比較に基づいて、前記キーワードに一
致する少なくとも1つの第1一致部分が前記認識結果に
存在するか否かを判定し、存在する場合には、前記少な
くとも1つの第1一致部分を特定する第1一致部分特定
手段と、所定の第1条件を満たす少なくとも1つの第1
部分が前記認識結果から前記特定された少なくとも1つ
の第1一致部分を除いた部分に存在するか否かを判定
し、存在する場合には、前記少なくとも1つの第1部分
を特定する第1部分特定手段と、前記第1部分に含まれ
る前記第2文字に割り当てられた前記部分領域の画像の
特徴量と、前記キーワードに含まれる前記第1文字の前
記文字画像の特徴量との比較に基づいて、前記キーワー
ドに一致する少なくとも1つの第2一致部分が前記特定
された少なくとも1つの第1部分に存在するか否かを判
定し、存在する場合には、前記少なくとも1つの第2一
致部分を特定する第2一致部分特定手段とを備え、前記
所定の第1条件は、割り当てられた前記信頼度が所定の
閾値よりも小さい特定の第2文字の近傍に前記第1部分
があるという条件であり、これにより上記目的が達成さ
れる。前記文書検索装置は、前記文書の画像の画質を判
定する手段と、前記判定された画像の画質に基づいて前
記所定の閾値を決定する手段とをさらに備えていてもよ
い。前記第2一致部分特定手段は、前記第1部分に含ま
れる前記第2文字の文字コードが、前記キーワードに含
まれる特定の第1文字の文字コードに一致するか否かを
判定する第1判定手段と、前記第1部分に含まれる前記
第2文字の文字コードが、前記キーワードに含まれる特
定の第1文字の文字コードに一致しなかった場合には、
前記第1部分に含まれる前記第2文字を少なくとも含
み、前記特定の第1文字の幅に最も近い幅を有する1ま
たは2以上の連続した第2文字を不一致文字として特定
する不一致文字特定手段と、前記特定の第1文字の画像
の特徴量と、前記不一致文字に含まれる前記1または2
以上の連続した第2文字に割り当てられた1または2以
上の部分領域を含む領域の画像の特徴量との距離が、予
め定められた値よりも小さい場合に、前記特定の第1文
字が前記不一致文字に一致 すると判定する第2判定手段
とを備えていてもよい。前記文書検索装置は、前記少な
くとも1つの第1一致部分から所定の判定基準値を算出
する算出手段と、前記判定基準値に基づいて、前記少な
くとも1つの第2一致部分のうちで、所定の第2条件を
満たす第2一致部分を検出する検出手段とをさらに備え
ていてもよい。前記算出手段は、前記少なくとも1つの
第1一致部分に含まれる前記少なくとも1つの第2文字
に割り当てられた少なくとも1つの部分領域の画像の特
徴量に基づいて前記判定基準値を算出し、前記第2条件
は、前記少なくとも1つの第2一致部分に含まれる前記
少なくとも1つの第2文字に割り当てられた少なくとも
1つの部分領域の画像の特徴量と、前記判定基準値との
距離が予め定められた値よりも小さいという条件を含ん
でもよい。
A document search device of the present invention is a document search device for searching a keyword from a recognition result obtained by performing character recognition on an image of a document, wherein the keyword is at least A character code and a character image are assigned to each of the at least one first character, and the recognition result includes at least one second character; A character code and a partial area of the image of the document are assigned to each one of the second characters, and the document search device, based on the comparison of the character codes, determines that at least one of the second characters matches the keyword.
Determining whether or not one first matching portion is present in the recognition result, and if there is, first matching portion identifying means for identifying the at least one first matching portion;
It is determined whether or not at least one first portion satisfying the condition exists in a portion excluding the specified at least one first matching portion from the recognition result, and if there is, the at least one first portion. a first part specifying means for specifying a first portion, wherein the feature amount of the image of the partial area allocated to the second characters in the first portion, the character image of the first character included in the keyword At least one second matching portion that matches the keyword based on the comparison with the feature amount of
And a second matching portion identifying means for identifying the at least one second matching portion when it is present, and the predetermined first condition is:
A condition that there is the first portion in the vicinity of the specific second character having a width less than the predetermined width, thereby the objective described above being achieved. Other document retrieval device of the present invention
Is obtained by performing character recognition on the image of the document.
Document retrieval device for retrieving keywords from recognized recognition results
And the keyword is at least one first sentence
A character and that of said at least one first character
A character code and character image are assigned to each.
And the recognition result includes at least one second character.
And each of the at least one second character
The character code, the partial area of the image of the document, and the character
Indicates the certainty of character recognition obtained when recognition is performed.
The reliability is assigned, and the document retrieval device
Based on the comparison of the character codes,
At least one first matching part that matches the recognition result
It is judged whether or not it exists, and if it exists, the
First matching part identification for identifying at least one first matching part
Means and at least one first condition satisfying a predetermined first condition
At least one part of which is identified from the recognition result
Determine whether it exists in the part excluding the first matching part of
And, if present, the at least one first portion
And a first part specifying means for specifying
Of the image of the partial area assigned to the second character
Before the feature amount and the first character included in the keyword
Based on the comparison with the feature amount of the character image,
The at least one second matching part that matches the
The presence of at least one first part
And if present, the at least one second
A second matching portion identifying means for identifying a matching portion,
The predetermined first condition is that the assigned reliability is predetermined.
The first part in the vicinity of a particular second character smaller than a threshold
The purpose is to achieve the above objective.
Be done. The document retrieval device determines the image quality of the image of the document.
Means for determining the image quality based on the image quality of the determined image.
And a means for determining a predetermined threshold value.
Yes. The second matching portion identifying means is included in the first portion.
The character code of the second character is included in the keyword.
Whether it matches the character code of the specific first character
First determining means for determining, and the first part included in the first part
The character code of the second character is a special character included in the keyword.
If the character code of the fixed first character does not match,
At least the second character included in the first portion is included.
1 having the width closest to the width of the specific first character.
Or 2 or more consecutive second characters are identified as non-matching characters
Non-matching character specifying means and an image of the specified first character
And the 1 or 2 included in the non-matching character
1 or 2 or more assigned to the above consecutive second characters
The distance from the image feature of the area including the upper partial area is
If the value is less than the specified value, the specific first sentence
Second determining means for determining that a character matches the non-matching character
And may be provided. The document search device is
Calculate a predetermined criterion value from at least one first match
Based on the calculation means and the judgment reference value,
Of the at least one second matching part, the predetermined second condition is satisfied.
And a detection means for detecting the second matching portion that satisfies the condition.
May be. The calculating means includes the at least one
The at least one second character included in the first matching portion
Image features of at least one subregion assigned to
The determination reference value is calculated based on
Is included in the at least one second matching portion
At least one assigned to at least one second character
Of the feature amount of the image of one partial region and the determination reference value
Includes the condition that the distance is less than a predetermined value
But it's okay.

【0013】[0013]

【0014】[0014]

【0015】[0015]

【0016】[0016]

【0017】[0017]

【0018】[0018]

【0019】[0019]

【0020】[0020]

【0021】[0021]

【0022】[0022]

【0023】[0023]

【発明の実施の形態】はじめに、文書を蓄積し、検索す
る文書ファイリングシステム210を説明する。
BEST MODE FOR CARRYING OUT THE INVENTION First, a document filing system 210 for storing and retrieving documents will be described.

【0024】図1は、文書ファイリングシステム210
の構成を示す。文書ファイリングシステム210は、画
像入力装置201と、OCR(optical cha
racter reader)装置202と、文書デー
タベース203と、文書検索装置204と、表示装置2
05とを含む。
FIG. 1 illustrates a document filing system 210.
Shows the configuration of. The document filing system 210 includes an image input device 201 and an OCR (optical cha).
(racker reader) device 202, document database 203, document search device 204, and display device 2
Including 05 and.

【0025】画像入力装置201は、オリジナルの文書
(例えば、紙の形態の文書)を文書画像データDiに変
換する。画像入力装置201は、例えば、スキャナやデ
ジタルカメラである。
The image input device 201 converts an original document (for example, a document in the form of paper) into document image data D i . The image input device 201 is, for example, a scanner or a digital camera.

【0026】OCR装置202は、文書画像データDi
に対して文字認識を実行する。OCR装置202には、
公知のOCR技術が用いられ得る。OCR装置202に
よる文字認識の結果は、文字認識結果DcとしてOCR
装置202から出力される。
The OCR device 202 uses the document image data D i
Perform character recognition on. The OCR device 202 includes
Known OCR techniques can be used. The result of character recognition by the OCR device 202 is OCR as the character recognition result D c.
It is output from the device 202.

【0027】文書データベース203には、文書データ
dが格納されている。文書データDdは、同一の文書に
ついての文字認識結果Dcと文書画像データDiとを含
む。
[0027] in the document database 203, the document data D d is stored. The document data D d includes the character recognition result D c and the document image data D i for the same document.

【0028】文書検索装置204は、文書データベース
203に格納された文書データDdに含まれる文字認識
結果Dcから、キーワードKwを検索する。本発明の文書
検索装置204は、文字認識結果DcからキーワードKw
を検索する際に、文書データDdに含まれる文書画像デ
ータDiを利用する。
The document retrieval device 204 retrieves the keyword K w from the character recognition result D c contained in the document data D d stored in the document database 203. The document search device 204 of the present invention uses the keyword K w from the character recognition result D c.
When searching for, the document image data D i included in the document data D d is used.

【0029】文書検索装置204は、文字認識結果Dc
からキーワードKwが検出された場合には、検索結果R
tを表示装置205に出力する。
The document retrieval device 204 receives the character recognition result D c.
When the keyword K w is detected from the search result R
D t is output to the display device 205.

【0030】表示装置205は、検索結果RDtに基づ
いて検索結果を表示する。例えば、表示装置205は、
文書データベースに格納された文書画像データDiをデ
ィスプレイに表示し、そのディスプレイに表示された文
書画像データDiの領域のうちキーワードKwに対応する
領域を強調表示する。強調表示は、例えば、着色表示や
反転表示であり得る。キーワードKwに対応する領域
は、検索結果RDtに基づいて決定される。
The display device 205 displays the search result based on the search result RD t . For example, the display device 205 is
The document image data D i stored in the document database is displayed on the display, and the area corresponding to the keyword K w in the area of the document image data D i displayed on the display is highlighted. The highlighted display can be, for example, a colored display or a reverse display. The area corresponding to the keyword K w is determined based on the search result RD t .

【0031】次に、文書画像データDiおよび文字認識
結果Dcのデータ構造を説明する。
Next, the data structure of the document image data D i and the character recognition result D c will be described.

【0032】図2Aは、文書画像データDiの例を示
す。文書画像データDiは、例えば、ビットマップ形式
の画像データである。
FIG. 2A shows an example of the document image data D i . The document image data D i is, for example, bitmap image data.

【0033】図2Bは、図2Aに示される文書画像デー
タDiに対して文字認識を実行した結果である文字認識
結果Dcのデータ構造を示す。文字認識結果Dcは、文字
c[j](0≦j≦Nd−1)の集合として得られる。
ここにNdは、文字認識結果Dcに含まれる文字の数であ
る。本明細書中で、[]内に記される数字は添字(イン
デックス)を示す。文字Dc[j]には、文字コードCc
[j]、文字座標(x1[j],y1[j])、(x
2[j],y2[j])および信頼度Cr[j]が割り当
てられている。
FIG. 2B shows a data structure of a character recognition result D c which is a result of performing character recognition on the document image data D i shown in FIG. 2A. The character recognition result D c is obtained as a set of characters D c [j] (0 ≦ j ≦ N d −1).
Here, N d is the number of characters included in the character recognition result D c . In the present specification, the numbers in [] indicate subscripts (indexes). The character code C c is included in the character D c [j].
[J], character coordinates (x 1 [j], y 1 [j]), (x
2 [j], y 2 [j]) and the reliability C r [j] are assigned.

【0034】文字コードCc[j]は、OCR装置20
2によって決定されたコードである。文字コードC
c[j]は、例えば、2バイトで表されるコードであ
る。ただし、図2Bに示される例では、説明のために、
文字コードに代えてその文字コードに対応する文字が示
されている。
The character code C c [j] corresponds to the OCR device 20.
It is the code determined by 2. Letter code C
c [j] is a code represented by 2 bytes, for example. However, in the example shown in FIG. 2B, for the sake of explanation,
Instead of the character code, the character corresponding to the character code is shown.

【0035】文字座標は、OCR装置202によって1
つの文字であると認識された、文書画像データDi内の
部分領域を示す。この部分領域は、例えば、矩形によっ
て表される。文字座標(x1[j],y1[j])は矩形
の左上の頂点の座標であり、文字座標(x2[j],y2
[j])は矩形の右下の頂点の座標である。文字座標の
座標系は任意の座標系が使用され得る。
Character coordinates are set to 1 by the OCR device 202.
A partial area in the document image data D i recognized as one character is shown. This partial area is represented by, for example, a rectangle. The character coordinate (x 1 [j], y 1 [j]) is the coordinate of the upper left vertex of the rectangle, and the character coordinate (x 2 [j], y 2
[J]) is the coordinates of the lower right vertex of the rectangle. Any coordinate system may be used as the coordinate system of the character coordinates.

【0036】信頼度Cr[j]は、例えば、OCR装置
202が文字認識を実行した際の尤度、確度あるいは確
からしさとして定義され得る。
The reliability C r [j] can be defined, for example, as the likelihood, the accuracy, or the certainty when the OCR device 202 executes the character recognition.

【0037】信頼度Cr[j]は、文字認識の結果が正
しいものである可能性が高いか低いかを示している。図
2Bに示される例では、信頼度は0と1との間の数によ
って表され、信頼度が1に近いほど、文字認識の結果が
正しいものである可能性が高い。
The reliability C r [j] indicates whether the result of character recognition is likely to be correct or low. In the example shown in FIG. 2B, the reliability is represented by a number between 0 and 1, and the closer the reliability is to 1, the more likely the result of character recognition is.

【0038】なお、OCR装置202によって文字認識
された文字と、オリジナルの文書に書かれている文字と
は必ずしも一対一に対応しない。OCR装置202によ
る文字認識の際に切り出し誤りが起こっている可能性が
あるからである。切り出し誤りとは、例えば、オリジナ
ルの文書における1つの文字が、複数の文字として認識
されたり、逆に、オリジナルの文書における複数の文字
が、1つの文字として認識されることである。図2Aお
よび図2Bに示される例では、オリジナルの文書におけ
る文字「湖」が、OCR装置202による切り出し誤り
のために、「三」、「古」、「月」という3つの文字と
して認識されている。このため、オリジナルの文書にお
ける文字「湖」は、文字認識結果Dc中の文字Dc[2]
〜文字D c[4]の3つの文字に対応している。このよ
うに、文字認識結果Dc中の文字は、オリジナルの文書
に書かれている1つの文字と対応する場合のほか、文字
の断片と対応する場合や、複数の文字の断片の組み合わ
せに対応する場合があり得る。
Character recognition by the OCR device 202
And the characters written in the original document
Do not necessarily correspond one-to-one. With the OCR device 202
There is a possibility that a cutout error may occur during character recognition.
Because there is. The cut-out error is, for example, original
Recognizes one character in multiple documents as multiple characters
Or vice versa, multiple characters in the original document
Is recognized as one character. Figure 2A
And in the example shown in FIG. 2B, in the original document
The character "Lake" is cut out by the OCR device 202.
For three characters, "three", "old" and "month"
Has been recognized. Therefore, the original document
The letter "Lake" is a character recognition result DcLetter D inc[2]
~ Letter D cIt corresponds to the three characters [4]. This
Character recognition result DcThe letters inside are the original document
Characters that correspond to one character written in
Corresponding to a fragment of a character or a combination of multiple character fragments
In some cases, it may correspond.

【0039】文字認識結果Dc中の文字の配列順序は、
オリジナルの文書での文字の配列順序(例えば、左側に
位置する文字から右側に位置する文字へ向かう順序)と
同一である。
The arrangement order of the characters in the character recognition result D c is
It is the same as the arrangement order of the characters in the original document (for example, the order from the character located on the left side to the character located on the right side).

【0040】本明細書中で、「文字」とは、漢字やアル
ファベット等の特定の言語の文字だけでなく、数字、記
号など、文字コードが割り当てられたあらゆるシンボル
を含む。
In the present specification, "character" includes not only characters of a particular language such as Chinese characters and alphabets but also all symbols to which a character code is assigned such as numbers and symbols.

【0041】「2以上の連続した文字」とは、文字認識
結果Dcにおいて添字jが連続した2以上の文字D
c[j]を意味する。
[0041] "2 or more consecutive characters" is 2 or more characters D subscript j are continuous in character recognition result D c
c [j] is meant.

【0042】また、「オリジナルの文書」は、紙の形態
の文書に限定されない。「オリジナルの文書」は、文字
が書かれた任意の対象物であり得る。
Further, the "original document" is not limited to a document in paper form. The "original document" can be any written object.

【0043】本発明の文書検索装置204は、図2Bに
示されるデータ構造を有する文字認識結果Dcからキー
ワードKwを検索する。
The document retrieval device 204 of the present invention retrieves the keyword K w from the character recognition result D c having the data structure shown in FIG. 2B.

【0044】図2Cは、キーワードKwのデータ構造を
示す。図2Cに示される例では、キーワードKwは、文
字列「琵琶湖畔」であり、キーワードKwは4文字から
なる。ただし、キーワードKwの文字数は4に限定され
ない。キーワードKwは1以上の任意の数の文字を含み
得る。キーワードKwに含まれる文字のそれぞれは、キ
ーワード文字と呼ばれる。キーワード文字は、添字iを
用いてKw[i]と表される。ここで0≦i≦3であ
る。一般に、キーワードKwに含まれる文字の文字数が
kであるとすると、キーワードKwはKw[0]〜K
w[Nk−1]のNk個のキーワード文字からなる文字列
として表される。
FIG. 2C shows the data structure of the keyword K w . In the example shown in FIG. 2C, the keyword K w is the character string “Lake Biwako”, and the keyword K w consists of 4 characters. However, the number of characters of the keyword K w is not limited to 4. The keyword K w may include any number of letters greater than or equal to one. Each of the characters included in the keyword K w is called a keyword character. The keyword character is represented as Kw [i] using the subscript i. Here, 0 ≦ i ≦ 3. Generally, assuming that the number of characters included in the keyword K w is N k , the keyword K w is K w [0] to K.
It is represented as a character string consisting of N k keyword characters of w [N k -1].

【0045】キーワード文字Kw[0]〜Kw[Nk
1]のそれぞれには、文字コードが割り当てられてい
る。例えば、キーワード文字Kw[0](=「琵」)に
は、文字コード「0x487c」(JISコード)が割
り当てられている。
Keyword characters K w [0] to K w [N k
A character code is assigned to each of [1]. For example, the character code “0x487c” (JIS code) is assigned to the keyword character K w [0] (= “biwa”).

【0046】文書検索装置204による検索結果は、検
索結果RDtとして表示装置205に出力される。
The search result by the document search device 204 is output to the display device 205 as the search result RD t .

【0047】図2Dは、検索結果RDtのデータ構造を
示す。図2Dに示される検索結果RDtは、図2Bに示
される文字認識結果Dcから図2Cに示されるキーワー
ドKw(=「琵琶湖畔」)を検索した結果を示す。検索
結果RDtは、Nr個の検索箇所データRDt[t](0
≦t≦Nr−1)の集合である。検索箇所データRD
t[t]は、検索対象となった文字認識結果Dc(図2
B)のうち、キーワードKwに一致した部分(一致部
分)を示す。Nrは、一致部分の個数を示す。
FIG. 2D shows the data structure of the search result RD t . The search result RD t shown in FIG. 2D shows the result of searching the keyword K w (= “Biwako shore”) shown in FIG. 2C from the character recognition result D c shown in FIG. 2B. The search result RD t is N r pieces of search location data RD t [t] (0
≦ t ≦ N r −1). Search location data RD
t [t] is the character recognition result D c (Fig.
The part (matching part) of B) that matches the keyword K w is shown. N r indicates the number of matching parts.

【0048】検索箇所データRDt[0]は、リスト要
素2241、リスト要素2242、リスト要素2243
およびリスト要素2244からなるリストである。リス
トの長さはキーワードKwの長さ(キーワードKwに含ま
れる文字(キーワード文字)の数で、この場合、4)と
等しい。リスト要素2241〜2244のそれぞれは、
キーワードKwに含まれる4個のキーワード文字K
w[0]〜Kw[3]に対応する、文字認識結果Dc中の
1または2以上の連続した文字を示す。例えば、リスト
要素2241は、文字Dc[0]が、キーワード文字Kw
[0](「琵」)に対応することを示す。リスト要素2
242は、文字Dc[1]が、キーワード文字Kw[1]
(「琶」)に対応することを示す。リスト要素2243
は、連続する3個の文字Dc[2]〜Dc[4]が、キー
ワード文字Kw[2](「湖」)に対応することを示
す。リスト要素2244は、文字Dc[5]が、キーワ
ードKw[3](「畔」)に対応することを示す。文字
c[2]〜Dc[4]のそれぞれの文字コードは、キー
ワード文字Kw[2](「湖」)の文字コードと一致し
ない。なぜなら文字Dc[2]〜Dc[4]はそれぞれ、
OCR装置202によって、文字「三」「古」「月」と
して認識された文字だからである。図2Dに示される例
は、文書検索装置204によって、文字「三」「古」
「月」として認識された連続する3個の文字Dc[2]
〜Dc[4]が1つのグループに結合され、その1つの
グループが、キーワード文字Kw[2](「湖」)に対
応すると判定された例を示す。
The search location data RD t [0] has list elements 2241, list elements 2242, and list elements 2243.
And a list element 2244. The length of the list is equal to the length of the keyword K w (the number of characters (keyword characters) included in the keyword K w , in this case, 4). Each of the list elements 2241 to 2244 is
Four keyword characters K included in the keyword K w
corresponding to w [0] ~K w [3 ], 1 or 2 or more consecutive characters in the character recognition result D c. For example, in the list element 2241, the character D c [0] is the keyword character K w.
Indicates that it corresponds to [0] (“Biwa”). List element 2
In 242, the character D c [1] is the keyword character K w [1].
Indicates that it corresponds to ("Biwa"). List element 2243
Indicates that three consecutive characters D c [2] to D c [4] correspond to the keyword character K w [2] (“lake”). List element 2244 indicates that the letter D c [5] corresponds to the keyword K w [3] (“bank”). The character code of each of the characters D c [2] to D c [4] does not match the character code of the keyword character K w [2] (“lake”). Because the characters D c [2] to D c [4] are
This is because the OCR device 202 recognizes the characters “three”, “old”, and “month”. In the example shown in FIG. 2D, the characters “three” and “old” are used by the document search device 204.
Three consecutive characters D c [2] recognized as "month"
.. D c [4] are combined into one group, and the one group is determined to correspond to the keyword character K w [2] (“lake”).

【0049】検索箇所データRDt[t](1≦t≦Nr
−1)も、上述したRDt[0]と同様に、Nkの長さを
有するリストである。ここでNkはキーワードKwの長さ
である。
Search location data RD t [t] (1≤t≤N r
-1) is also a list having a length of N k , similar to RD t [0] described above. Here, N k is the length of the keyword K w .

【0050】OCR装置202は、ある処理単位ごとに
文字認識を実行する。処理単位とは、例えば、文書の1
ページであってもよいし、1つの段落であってもよい。
このような処理単位は、「文字ブロック」と呼ばれる。
The OCR device 202 executes character recognition for each processing unit. The processing unit is, for example, 1 of a document.
It may be a page or a paragraph.
Such a processing unit is called a "character block".

【0051】通常、文字ブロック内では文字フォントや
文字の大きさが一定している場合が多い。従って、文字
ブロックを1つの単位として検索を実行することは、検
索精度の向上の点から好ましい。
Usually, the character font and the character size are often constant in the character block. Therefore, it is preferable to execute the search with the character block as one unit from the viewpoint of improving the search accuracy.

【0052】文字認識結果Dcに含まれる文字Dc[j]
は、文字ブロックごとにグループ化されていてもよい。
このようなグループは文字ブロックデータDtと呼ば
れ、1つの文字ブロック内について文字認識を実行した
結果を表す。
Character D c [j] included in character recognition result D c
May be grouped by character block.
Such a group is referred to as character block data D t and represents the result of performing character recognition within one character block.

【0053】図3は、文字ブロックデータDtの構造を
示す。
FIG. 3 shows the structure of the character block data D t .

【0054】文字ブロックデータDtは、文字ブロック
座標2201と、文字数2202と、方向情報2203
と、文字Dc[j]の集合(図3に示されている例で
は、Dc[0]〜Dc[8])とを含む。
The character block data D t includes character block coordinates 2201, the number of characters 2202, and direction information 2203.
And a set of characters D c [j] (D c [0] to D c [8] in the example shown in FIG. 3).

【0055】文字ブロック座標2201は、文字ブロッ
クに外接する矩形の文書画像データDiにおける座標値
を示す。
The character block coordinates 2201 indicate coordinate values in the rectangular document image data D i circumscribing the character block.

【0056】文字数2202は、文字ブロックデータD
tに含まれる文字の数を示す。
The number of characters 2202 is the character block data D
Indicates the number of characters contained in t .

【0057】方向情報2203は、文字ブロック内に文
字がどの向きに書かれているか(縦書きであるか横書き
であるか)を示す。例えば、方向情報2203の値が1
であることは縦書きを示し、方向情報2203の値が0
であることは横書きを示す。
The direction information 2203 indicates in which direction the characters are written in the character block (whether vertical writing or horizontal writing). For example, the value of the direction information 2203 is 1
Indicates vertical writing, and the value of the direction information 2203 is 0.
Indicates horizontal writing.

【0058】文字ブロックデータDtは、その文字ブロ
ックにおいて使用されているフォントの情報をさらに有
してもよい。
The character block data D t may further include information on the font used in the character block.

【0059】以下、図面を参照しながら本発明の実施の
形態を説明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0060】(実施の形態1)図4は、本発明の実施の
形態1の文書検索装置1の構成を示す。文書検索装置1
は、テキスト検索手段101と、文字特定手段102
と、文字形状検索手段103と、文字幅推定手段104
とを含む。
(Embodiment 1) FIG. 4 shows the configuration of a document retrieval apparatus 1 according to Embodiment 1 of the present invention. Document retrieval device 1
Is a text search means 101 and a character identification means 102.
Character shape search means 103 and character width estimation means 104
Including and

【0061】文書検索装置1は、図1に示される文書検
索装置204として使用され得る。この場合、文書検索
装置1は、文書データベース203に蓄積された文書デ
ータDdからキーワードKwを検索する。文書データDd
は、文書画像データDiと文字認識結果Dcとを含む。
The document search device 1 can be used as the document search device 204 shown in FIG. In this case, the document search device 1 searches the document data D d stored in the document database 203 for the keyword K w . Document data D d
Includes the document image data D i and the character recognition result D c .

【0062】なお、以下の説明では、文書は横書きであ
る(すなわち、文書中の文字は左から右に配列されてい
る)ものと仮定する。以下で説明される文書検索処理の
手順は、文字の幅および高さをそれぞれ文字の高さおよ
び幅に置き換えることにより、縦書きの文書についても
適用することができる。文書が縦書きであるか横書きで
あるかは、例えば、文字ブロックデータDtに含まれる
方向情報2203(図3)を参照することにより判定さ
れ得る。
In the following description, it is assumed that the document is written horizontally (that is, the characters in the document are arranged from left to right). The procedure of the document search process described below can be applied to a vertically written document by replacing the character width and height with the character height and width, respectively. Whether the document is written vertically or horizontally can be determined, for example, by referring to the direction information 2203 (FIG. 3) included in the character block data D t .

【0063】キーワードKwが文書検索装置1の外部か
ら文書検索装置1に入力され、特定の文書データDd
らキーワードKwを検索する旨の指示が与えられる。キ
ーワードKwの入力や検索の指示は、例えば、キーボー
ドなどの入力手段(図示されない)により行われる。
The keyword K w is input from the outside of the document search apparatus 1 to the document search apparatus 1, and an instruction to search the specific document data D d for the keyword K w is given. The input of the keyword K w and the instruction of the search are performed by an input means (not shown) such as a keyboard.

【0064】テキスト検索手段101は、キーワードK
wに含まれるキーワード文字(第1文字)に割り当てら
れた文字コードと文字認識結果Dcに含まれる文字(第
2文字)に割り当てられた文字コードとを比較し、これ
らの文字コードが一致すれば、第2文字が第1文字に一
致すると判定する。キーワードKwの長さをNkとし、文
字認識結果Dc中のNk個の連続する文字のそれぞれが、
キーワードKw中のNk個のキーワード文字のうちの対応
する1つに一致する場合、テキスト検索手段101は、
文字認識結果Dc中のNk個の連続する文字をキーワード
wに一致する一致部分(第1一致部分)として特定す
る。このような一致部分(第1一致部分)は、文字認識
結果Dcにおいて1以上の任意の数だけ存在し得る。テ
キスト検索手段101は1以上の一致部分(第1一致部
分)を第1の検索結果RDt1として出力する。第1の検
索結果RDt1に含まれる一致部分(第1一致部分)の数
をNr1とする。第1の検索結果RDt1は、検出箇所デー
タRDt1[t]を含む。ここで0≦t≦Nr1−1であ
る。検出箇所データRDt1[t]は、テキスト検索手段
101によって特定された1以上の第1一致部分のうち
の1つを表している。検出箇所データRDt1[t]は、
キーワードKwに含まれるキーワード文字の数と同一の
数のリスト要素を含むリストである。各リスト要素は、
対応するキーワード文字の文字コードに一致する文字コ
ードを有する文字を表す。
The text search means 101 uses the keyword K.
The character code assigned to the keyword character (first character) included in w is compared with the character code assigned to the character (second character) included in the character recognition result D c , and if these character codes match. For example, it is determined that the second character matches the first character. Let N k be the length of the keyword K w , and let each of the N k consecutive characters in the character recognition result D c be
If it matches a corresponding one of the N k keyword characters in the keyword K w , the text search means 101
N k consecutive characters in the character recognition result D c are specified as a matching part (first matching part) that matches the keyword K w . Such a matching portion (first matching portion) may exist in any number of 1 or more in the character recognition result D c . The text search means 101 outputs one or more matching parts (first matching part) as the first search result RD t1 . The number of matching parts (first matching part) included in the first search result RD t1 is N r1 . The first search result RD t1 includes detection point data RD t1 [t]. Here, 0 ≦ t ≦ N r1 −1. The detection location data RD t1 [t] represents one of the one or more first matching parts identified by the text search means 101. The detection point data RD t1 [t] is
It is a list including the same number of list elements as the number of keyword characters included in the keyword K w . Each list element is
Represents a character having a character code that matches the character code of the corresponding keyword character.

【0065】このように、テキスト検索手段101は、
文字コードの比較に基づいて、キーワードに一致する少
なくとも1つの一致部分(第1一致部分)が文字認識結
果D cに存在するか否かを判定し、存在する場合には、
その少なくとも1つの第1一致部分を特定する第1一致
部分特定手段として機能する。
As described above, the text search means 101
Based on the character code comparison, the number of matching keywords
At least one matching part (first matching part) is the character recognition result.
Fruit D cIs present in the
A first match identifying the at least one first match
It functions as a part specifying means.

【0066】もし、OCR装置202(図1)による文
字認識に誤りがなければ、認識結果からのキーワードの
検索は、テキスト検索手段101による検索だけで十分
である。しかし、すでに述べたように、OCR装置20
2(図1)における文字認識に誤りがある場合、テキス
ト検索手段101による、文字コードの比較に基づく検
索だけでは、検索漏れが生ずる可能性がある。すなわ
ち、文字認識結果Dcから、テキスト検索手段101に
よって特定された一致部分(第1一致部分)を除いた部
分にも、キーワードKwと一致する部分がある可能性が
ある。
If there is no error in the character recognition by the OCR device 202 (FIG. 1), the text search means 101 is sufficient for searching the keyword from the recognition result. However, as already mentioned, the OCR device 20
If there is an error in the character recognition in 2 (FIG. 1), there is a possibility that a search omission may occur only by the text search means 101 based on the comparison of the character codes. That is, there is a possibility that there is a portion that matches the keyword K w in the portion obtained by removing the matching portion (first matching portion) specified by the text search means 101 from the character recognition result Dc.

【0067】文字特定手段102は、文字認識結果Dc
からテキスト検索手段101によって特定された1以上
の一致部分(第1一致部分)を除いた部分に、所定の条
件を満たす1以上の文字が存在するか否かを判定する。
存在する場合には、文字特定手段102はその所定の条
件を満たす1以上の文字を候補部分SDc(第1部分)
として特定する。ここで「所定の条件」は、例えば、以
下の(1)に示される条件を含む。
The character specifying means 102 determines the character recognition result D c.
It is determined whether or not there are one or more characters satisfying a predetermined condition in the portion excluding the one or more matching portions (first matching portion) specified by the text search means 101 from.
If there is, the character identifying means 102 selects one or more characters satisfying the predetermined condition as the candidate portion SD c (first portion).
Specify as. Here, the “predetermined condition” includes, for example, the condition (1) below.

【0068】(1)「その文字が、文字認識結果Dc
おいて、予め定められた幅より小さい幅を有する特定の
文字の近傍に存在する」あるいは、「所定の条件」は、
(1)の条件に代えて、または、(1)の条件に加え
て、(2)に示される条件を含んでいてもよい。
[0068] (1) "is the character in the character recognition result D c, it is present in the vicinity of the particular character which has a width less than the predetermined width" or "predetermined conditions"
Instead of the condition (1), or in addition to the condition (1), the condition (2) may be included.

【0069】(2)「その文字が、文字認識結果Dc
おいて、予め定められた信頼度よりも小さい信頼度を有
する特定の文字の近傍に存在する」一般に、文字認識結
果Dcに含まれる文字の幅が小さいほど、文字認識にお
いて文字の切り出し誤りが発生している可能性が高い。
また、文字認識結果Dcに含まれる文字の信頼度が低い
ほど、文字認識において文字の認識誤りが生じている可
能性が高い。従って、これらの特定の文字(すなわち、
小さい幅を有する文字または低い信頼性を有する文字)
の近傍では文字認識誤りが発生している可能性が高い。
なお、「近傍」の具体的な意味については、図6を参照
して後述される。
[0069] (2) included in "is the character in the character recognition result D c, present in the vicinity of the particular character with less confidence than a predetermined confidence" Generally, in the character recognition result D c The smaller the width of the character, the higher the possibility that a character cutting error will occur in character recognition.
Further, the lower the reliability of the character included in the character recognition result D c , the higher the possibility that a character recognition error will occur in character recognition. Therefore, these particular characters (ie
Characters with small width or characters with low reliability)
There is a high possibility that a character recognition error has occurred in the vicinity of.
The specific meaning of "nearby" will be described later with reference to FIG.

【0070】なお、第1一致部分が文字認識結果Dc
に存在しない場合には、文字特定手段102は、文字認
識結果Dc中に所定の条件を満たす1以上の文字が存在
するか否かを判定する。文字認識結果Dc中に所定の条
件を満たす1以上の文字が存在する場合には、文字特定
手段102は、その所定の条件を満たす1以上の文字を
候補部分SDc(第1部分)として特定する。
When the first matching portion does not exist in the character recognition result D c , the character identifying means 102 determines whether or not one or more characters satisfying a predetermined condition exist in the character recognition result D c. To determine. When one or more characters satisfying the predetermined condition are present in the character recognition result D c , the character identifying means 102 sets the one or more characters satisfying the predetermined condition as the candidate portion SD c (first portion). Identify.

【0071】このように、文字特定手段102は、所定
の条件を満たす少なくとも1つの候補部分SDc(第1
部分)が、文字認識結果Dcからテキスト検索手段10
1によって特定された少なくとも1つの第1一致部分を
除いた部分に存在するか否かを判定し、存在する場合に
は、その少なくとも1つの第1部分を特定する第1部分
特定手段として機能する。
As described above, the character specifying means 102 determines that at least one candidate portion SD c (first
Part) is the text search means 10 from the character recognition result D c.
It determines whether or not it exists in a portion other than the at least one first matching portion specified by 1, and if it exists, it functions as a first portion specifying means for specifying the at least one first portion. .

【0072】文字形状検索手段103は、少なくとも1
つの候補部分SDc(第1部分)が特定された場合に
は、候補部分SDcに含まれる文字(第2文字)に割り
当てられた部分領域の画像の特徴量と、キーワードKw
に含まれるキーワード文字(第1文字)の画像の特徴量
との比較に基づいて、候補部分SDcにキーワードKw
一致する一致部分(第2一致部分)が存在するか否かを
判定する。文字形状検索手段103の詳細な構成および
動作については、図7を参照して後述される。
The character shape search means 103 has at least 1
When one candidate portion SD c (first portion) is specified, the feature amount of the image of the partial area assigned to the character (second character) included in the candidate portion SD c and the keyword K w.
It is determined whether or not there is a matching portion (second matching portion) that matches the keyword K w in the candidate portion SD c , based on a comparison between the keyword character (first character) included in the image feature amount. . The detailed configuration and operation of the character shape search means 103 will be described later with reference to FIG. 7.

【0073】このような一致部分(第2一致部分)は、
候補部分SDcにおいて1以上の任意の数だけ存在し得
る。文字形状検索手段103は、1以上の一致部分(第
2一致部分)を第2の検索結果RDt2として出力する。
第2の検索結果RDt2に含まれる一致部分(第2一致部
分)の数をNr2とする。第2の検索結果RDt2は、検出
箇所データRDt2[t]を含む。ここで0≦t≦Nr2
1である。検出箇所データRDt2[t]は、文字形状検
索手段103によって特定された1以上の第2一致部分
のうちの1つを表している。検出箇所データRD
t2[t]は、キーワードKwに含まれるキーワード文字
の数と同数のリスト要素を含むリストである。各リスト
要素は、対応するキーワード文字の画像の特徴量との距
離が所定の閾値Thd1以下である画像の特徴量を有す
る1または2以上の連続した文字である。
Such a matching portion (second matching portion) is
There can be any number greater than or equal to 1 in the candidate portion SD c . The character shape search unit 103 outputs one or more matching parts (second matching part) as the second search result RD t2 .
The number of matching parts (second matching part) included in the second search result RD t2 is N r2 . The second search result RD t2 includes detection point data RD t2 [t]. Where 0 ≦ t ≦ N r2
It is 1. The detection location data RD t2 [t] represents one of the one or more second matching parts specified by the character shape searching unit 103. Detection point data RD
t2 [t] is a list including the same number of list elements as the number of keyword characters included in the keyword K w . Each list element is one or more consecutive characters having an image feature amount whose distance from the image feature amount of the corresponding keyword character is a predetermined threshold Thd 1 or less.

【0074】文字幅推定手段104は、キーワードKw
に含まれるそれぞれのキーワード文字の幅Kww[i]
(0≦i≦Nk−1)を推定する。キーワード文字の幅
ww[i]は、文字形状検索手段103によって用いら
れる。文字幅推定手段104はまた、キーワードKw
幅Kwwを推定する。キーワードKwの幅Kwwは文字特定
手段102によって用いられる。
The character width estimation means 104 uses the keyword K w.
Width of each keyword character included in K ww [i]
Estimate (0 ≦ i ≦ N k −1). The width K ww [i] of the keyword character is used by the character shape searching unit 103. The character width estimation means 104 also estimates the width K ww of the keyword K w . The width K ww of the keyword K w is used by the character specifying unit 102.

【0075】テキスト検索手段101による検索結果R
t1と、文字形状検索手段103による検索結果RDt2
とは、文字認識結果DcからキーワードKwを検索した結
果として、文書検索装置1から出力される。
Search result R by the text search means 101
D t1 and the search result RD t2 by the character shape search means 103.
Is output from the document search device 1 as a result of searching the keyword K w from the character recognition result D c .

【0076】図5は、文字幅推定手段104が、キーワ
ードKwに含まれる各文字Kw[i]の文字幅Kww[i]
を推定する例を示す。
In FIG. 5, the character width estimating means 104 causes the character width K ww [i] of each character K w [i] included in the keyword K w .
An example of estimating

【0077】図5に示される例では、キーワードKw
「少子化」であると仮定する。この場合において、キー
ワードKwに含まれる文字「化」(=Kw[2])の文字
幅を推定する例を説明する。
In the example shown in FIG. 5, it is assumed that the keyword K w is "declining birthrate". In this case, an example will be described in which the character width of the character “” (= K w [2]) included in the keyword K w is estimated.

【0078】文字幅推定手段104は、文字認識結果D
cに含まれる文字のうち、最大の高さを有する文字を求
め、この文字の高さを文字高さの推定値aとする。文字
認識結果Dcに含まれる文字の高さは、文字に割り当て
られた文字座標から算出され得る。
The character width estimating means 104 determines the character recognition result D.
Among the characters included in c , the character having the maximum height is obtained, and the height of this character is set as the estimated value a of the character height. The height of the character included in the character recognition result D c can be calculated from the character coordinates assigned to the character.

【0079】あるいは、文字高さの推定値aとして、文
字ブロックデータDt内の文字のうち、最大の高さを有
する文字の高さを用いてもよい。
Alternatively, the height of the character having the maximum height among the characters in the character block data D t may be used as the estimated value a of the character height.

【0080】あるいは、文字高さの推定値aは、文字の
高さの最大値である代わりに、最頻値、平均値またはメ
ディアン値であってもよい。文字幅および文字の高さの
単位は、例えば、ピクセルである。
Alternatively, the character height estimation value a may be a mode value, an average value, or a median value instead of the maximum character height value. The unit of the character width and the character height is, for example, pixel.

【0081】文字幅推定手段104は、文字「化」の標
準の高さbと、標準の幅cとを用いて、文字「化」(=
w[2])の幅Kww[2]を(数1)により算出す
る。
The character width estimating means 104 uses the standard height b and the standard width c of the character "ka" to convert the character "ka" (=
The width K ww [2] of K w [2]) is calculated by ( Equation 1).

【0082】[0082]

【数1】Kww[2]=a・c/b文字「化」の標準の高
さbと標準の幅cとは、文書検索装置1が有しているフ
ォントを用いて文字「化」の画像(文字画像KC
i[2])を生成し、文字画像KCi[2]の高さと幅と
を得ることにより求められる。あるいは、文字の標準の
高さbと、標準の幅cとの比b/cが、予め全ての文字
について定められていてもよい。文字ブロックデータD
tが、文字ブロックにおいて使用されているフォントの
情報を有する場合、文字「化」の画像を生成する際にそ
のフォントと同一のフォントが使用され得る。
[ Equation 1] K ww [2] = a · c / b The standard height b and standard width c of the character “ka” are the characters “ka” using the font of the document retrieval apparatus 1. Image (character image KC
i [2]) and obtain the height and width of the character image KC i [2]. Alternatively, the ratio b / c of the standard height b of the character and the standard width c may be determined in advance for all the characters. Character block data D
If t has information of the font used in the character block, the same font as that font may be used when generating the image of the character “”.

【0083】図6は、所定の条件を満たす候補部分SD
cを特定する処理の例を示す。この処理は、文字特定手
段102によって実行される。
FIG. 6 shows a candidate portion SD satisfying a predetermined condition.
An example of a process for identifying c will be shown. This processing is executed by the character identifying means 102.

【0084】キーワードKwが「少子化」であり、文字
認識結果Dc中に文字列「・・・少子イヒの問題・・
・」があるとする。図6では、説明のために、文字認識
結果Dc中の文字は割り当てられた文字コードに対応す
る文字として表されている。また、ここでは「所定の条
件」はすでに述べた(2)の条件であるものとする。
[0084] keyword K w is "low birth rate", a character string in the character recognition result D c "... declining birthrate torquecontrol of the problem ...
・ " In FIG. 6, for the sake of explanation, the characters in the character recognition result D c are represented as the characters corresponding to the assigned character code. Further, here, the “predetermined condition” is assumed to be the condition (2) already described.

【0085】また、文字認識結果Dc中の各文字に割り
当てられた信頼度のうち、文字「イ」および「ヒ」の信
頼度が、予め定められた閾値Thrよりも低く、それ以
外は閾値Thrよりも高いとする。
Further, of the reliability assigned to each character in the character recognition result D c , the reliability of the characters “a” and “hi” is lower than a predetermined threshold value Thr, and the other values are threshold values. It is assumed to be higher than Thr.

【0086】文字幅推定手段104により、キーワード
wの幅Kwwが求められる。キーワードKwの幅Kwwは、
キーワードKwに含まれるそれぞれの文字の幅の合計と
して求められる。
The character width estimation means 104 determines the width K ww of the keyword K w . The width K ww of the keyword K w is
It is calculated as the sum of the widths of the respective characters included in the keyword K w .

【0087】文字特定手段102が候補部分SDcを特
定する場合、まず、信頼度が閾値よりも低い文字「イ」
を終点(右端)とし、幅がKwwと等しい範囲A(「少子
イ」の部分)と、「イ」を始点(左端)とし、幅がKww
と等しい範囲B(「イヒの問」の部分)とを求める。特
定の文字の近傍とは、このように、特定の文字(この場
合文字「イ」)を中心とし、その左と右とに設定された
幅がKwwと等しい範囲内を意味する。
When the character specifying means 102 specifies the candidate portion SD c , first, the character "a" whose reliability is lower than the threshold value is used.
Was an end point (right end), and a width of K ww equal range A (the part of "low birth rate I"), the "I" and the starting point (the left end), a width of K ww
And a range B (part of "question of Ihi") equal to. As described above, the vicinity of a specific character means a range in which the width set to the left and right of the specific character (in this case, the character “a”) is equal to K ww .

【0088】範囲Bの中にさらに信頼度が閾値Thrよ
りも低い文字(「ヒ」)があれば、その文字「ヒ」を始
点とし、幅がKwwと等しい範囲Cを求める。範囲A、B
およびCのいずれかに含まれる文字が、候補部分SDc
として特定される。
[0088] If there is a range more reliability is lower than the threshold Thr characters in B ( "human"), the start point of the character "human", width seek range C equal to K ww. Range A, B
The character included in any one of C and C is a candidate portion SD c
Specified as.

【0089】図7は、文字形状検索手段103の詳細な
構成を示す。
FIG. 7 shows a detailed structure of the character shape search means 103.

【0090】文字形状検索手段103は、文字画像抽出
手段301と、文字画像テーブル302と、形状照合手
段303と、照合制御手段304とを含む。
The character shape search means 103 includes a character image extraction means 301, a character image table 302, a shape matching means 303, and a matching control means 304.

【0091】文字画像抽出手段301は、キーワードK
w中の特定の文字の幅に最も近い幅を有する1または2
以上の連続した文字を不一致文字として特定し、その不
一致文字と対応する文書画像の領域(すなわち、文字画
像)を抽出する。
The character image extracting means 301 uses the keyword K.
1 or 2 with a width that is closest to the width of a particular character in w
The above consecutive characters are specified as non-matching characters, and the area of the document image (that is, the character image) corresponding to the non-matching characters is extracted.

【0092】文字画像テーブル302には、キーワード
wに含まれる文字の画像が予め格納されている。この
文字の画像は、例えば、ビットマップ形式のフォントで
ある。
The character image table 302 stores in advance images of characters included in the keyword K w . The image of this character is, for example, a bitmap font.

【0093】形状照合手段303は、文字画像抽出手段
301により抽出された領域の画像の特徴量と、文字画
像テーブル302に格納されている、キーワードKw
含まれる文字の画像の特徴量とを比較し、この2つの画
像が類似しているか否かを判定する。
The shape matching means 303 compares the feature amount of the image of the area extracted by the character image extracting means 301 and the feature amount of the image of the character included in the keyword K w stored in the character image table 302. The two images are compared to determine whether or not the two images are similar.

【0094】照合制御手段304は、文字形状検索手段
103の動作を制御する。
The collation control means 304 controls the operation of the character shape search means 103.

【0095】文字形状検索手段103の動作を以下のス
テップS101〜S103に示す。この処理は、照合制
御手段304によって実行される。ここで、候補部分S
cは、文字SDc[j]の集合であるとする。それぞれ
の文字SDc[j]は、図2Bを参照して説明した文字
と同様のデータ構造を有する。なお、ステップS101
〜S103において、変数jは文字SDc[j]の添字
を表し、変数iは、キーワード文字Kw[i]の添字を
表す。
The operation of the character shape retrieval means 103 is shown in steps S101 to S103 below. This processing is executed by the collation control means 304. Here, the candidate portion S
Let D c be the set of characters SD c [j]. Each character SD c [j] has the same data structure as the character described with reference to FIG. 2B. Note that step S101
In S103, the variable j represents the subscript of the character SD c [j], and the variable i represents the subscript of the keyword character K w [i].

【0096】文字認識結果Dc中には、複数の候補部分
SDcが存在し得る。文字認識結果D c中に、複数の候補
部分SDcが存在する場合には、それぞれの候補部分S
cについて以下のステップS101〜S103の処理
が行われる。
Character recognition result DcSome candidate parts
SDcCan exist. Character recognition result D cMultiple candidates in
Partial SDcIs present, each candidate part S
DcProcessing of steps S101 to S103 below
Is done.

【0097】ステップS101:変数jに変数star
t_jが代入され、変数iに値「0」が代入される。変
数start_jは、候補部分SDcの始端(左端)に
位置する文字の添字である。また、ステップS101に
おいてキーワードKwの長さNkと等しい長さを有するリ
ストが検出箇所データとして用意される。
Step S101: Variable j is variable star
t_j is substituted, and the value “0” is substituted for the variable i. The variable start_j is a subscript of a character located at the start end (left end) of the candidate portion SD c . Further, in step S101, a list having a length equal to the length N k of the keyword K w is prepared as detection point data.

【0098】ステップS102:候補部分SDcのうち
から、キーワード文字Kw[i]と対応させるべき1ま
たは2以上の連続する文字が「不一致文字」として特定
され、画像Ciが抽出される。この処理は文字画像抽出
手段301によって実行される。この処理の詳細は、図
8を参照して後述される。画像Ciは、不一致文字とし
て特定された1または2以上の連続する文字に割り当て
れた部分領域の画像である。また、キーワード文字Kw
[i]の画像KCiが文字画像テーブル302から得ら
れる。
Step S102: One or more consecutive characters that should be associated with the keyword character K w [i] are identified as “mismatched characters” from the candidate portion SD c , and the image C i is extracted. This processing is executed by the character image extracting means 301. Details of this processing will be described later with reference to FIG. The image C i is an image of a partial area assigned to one or more consecutive characters specified as a non-matching character. Also, the keyword character K w
The image KC i of [i] is obtained from the character image table 302.

【0099】ステップS103:キーワード文字K
w[i]と、ステップS102で特定された不一致文字
とが一致するか否かが判定される。この判定を行うため
に、まず、形状照合手段303を用いて、画像Ciと画
像KCiとが照合される。画像の照合は、それぞれの画
像の特徴量を比較することによって行われる。画像Ci
の特徴量と画像KCiの特徴量とのユークリッド距離
が、所定の閾値Thd1よりも小さいことは、画像Ci
画像KCiとが類似していることを示す。画像Ciと画像
KCiとが類似していれば、ステップS102で特定さ
れた不一致文字がキーワード文字Kw[i]に一致する
と判定される。
Step S103: Keyword letter K
It is determined whether w [i] and the non-matching character specified in step S102 match. In order to make this determination, first, the shape matching means 303 is used to match the image C i with the image KC i . The image matching is performed by comparing the feature amounts of the images. Image C i
The Euclidean distance between the feature amount of the image and the feature amount of the image KC i is smaller than the predetermined threshold Thd 1 , which indicates that the image C i and the image KC i are similar to each other. If the image C i and the image KC i are similar, it is determined that the unmatched character specified in step S102 matches the keyword character K w [i].

【0100】キーワード文字Kw[i]と、ステップS
102で特定された不一致文字とが一致すると判定され
た場合には、検出箇所データのi番目の位置に、文字S
c[j]が登録され、変数iが1だけ増加され、変数
jに変数next_jが代入され、ステップ102へ戻
る。これは、キーワード中の次の文字を、候補部分SD
c中の照合が終わった文字の右に隣接する部分から探す
ことを意味する。変数next_jは、候補部分SDc
中の照合が終わった文字の右に隣接する文字の添字を示
す。変数next_jの値は、ステップS102におい
て文字画像抽出手段301によって決定される。
The keyword character K w [i] and step S
When it is determined that the non-matching character specified in 102 matches, the character S is added to the i-th position of the detection location data.
D c [j] is registered, the variable i is incremented by 1, the variable next_j is substituted for the variable j, and the process returns to step 102. This is the next character in the keyword, the candidate part SD
Means to search from the part to the right of the matched character in c . The variable next_j is a candidate part SD c.
Indicates the subscript of the character adjacent to the right of the character in which the matching is completed. The value of the variable next_j is determined by the character image extracting means 301 in step S102.

【0101】キーワード文字Kw[i]と、ステップS
102で特定された不一致文字とが一致しないと判定さ
れた場合には、変数iに値「0」が代入され、変数jに
変数start_j+1が代入され、変数start_
jに変数jが代入され、ステップ102に戻る。これ
は、候補部分SDc中の着目している文字を1文字分右
にシフトして、再び最初のキーワード文字Kw[0]を
探すことを意味する。
The keyword character K w [i] and step S
When it is determined that the non-matching character specified in 102 does not match, the value “0” is assigned to the variable i, the variable start_j + 1 is assigned to the variable j, and the variable start_
The variable j is substituted for j, and the process returns to step 102. This means that the character of interest in the candidate portion SD c is shifted to the right by one character and the first keyword character K w [0] is searched again.

【0102】以上のステップS101〜S103に示す
処理によりキーワードKwに含まれる全てのキーワード
文字の画像KCiが対応する画像Ciに類似すれば、キー
ワードKw中に含まれるそれぞれのキーワード文字に対
応する候補部分SDc中の文字が、一致部分(第2一致
部分)として特定される。
If the image KC i of all the keyword characters included in the keyword K w is similar to the corresponding image C i by the processing shown in steps S101 to S103 above, the keyword characters included in the keyword K w become The character in the corresponding candidate portion SDc is specified as the matching portion (second matching portion).

【0103】このように、文字形状検索手段103は、
候補部分SDc(第1部分)に含まれる文字(第2文
字)に割り当てられた部分領域の画像の特徴量と、キー
ワードに含まれるキーワード文字(第1文字)の画像の
特徴量との比較に基づいて、キーワードKwに一致する
少なくとも1つの第2一致部分が、文字特定手段102
によって特定された少なくとも1つの候補部分SD
c(第1部分)に存在するか否かを判定し、存在する場
合には、前記少なくとも1つの第2一致部分を特定する
第2一致部分特定手段として機能する。
As described above, the character shape search means 103
Comparison of the feature amount of the image of the partial area assigned to the character (second character) included in the candidate portion SD c (first portion) and the image feature amount of the keyword character (first character) included in the keyword Based on the above, at least one second matching part that matches the keyword K w is the character identifying means 102.
At least one candidate part SD identified by
It determines whether or not it exists in c (first part), and if it exists, it functions as a second matching part specifying means for specifying the at least one second matching part.

【0104】図8は、文字画像抽出手段301において
キーワードKw中の特定の文字と対応する候補部分SDc
中の文字が特定される例を示す。
FIG. 8 shows a candidate portion SD c corresponding to a specific character in the keyword K w in the character image extracting means 301.
An example in which the characters inside are specified is shown.

【0105】キーワードKwを「少子化」とし、文書画
像データDiには、「・・・少子化の問題・・・」と書
かれている部分があるとする。いま、「少子」までは照
合が終わっているとすると、次にキーワードKw中の文
字「化」(=Kw[2])の照合が行われる。文書画像
中の「化」は、OCR装置202における文字認識の切
り出し誤りのために、文字の断片「イ」と、文字の断片
「ヒ」とに分割されている。それぞれの文字の断片に
は、候補部分SDc中の文字SDc[j]と、文字SD c
[j+1]とが対応している。矩形1310、1311
および1312はそれぞれ、文字SDc[j]、SD
c[j+1]およびSDc[j+2]に割り当てられた文
書画像データDi中の部分領域である。
Keyword KwIs "declining birthrate"
Image data DiWrites, "... the problem of declining birthrate ..."
Suppose there is a part. Now, let's shine until "the little child"
If the match is over, then the keyword KwSentence in
Character "ka" (= Kw[2]) is collated. Document image
The “” in the text indicates that the character recognition in the OCR device 202 is off.
Due to a mistaken protrusion, the character fragment "a" and the character fragment
It is divided into "hi". Into each character fragment
Is the candidate part SDcCharacter SD inc[J] and the character SD c
It corresponds to [j + 1]. Rectangle 1310, 1311
And 1312 are the characters SDc[J], SD
c[J + 1] and SDcSentence assigned to [j + 2]
Calligraphy image data DiIt is a partial area inside.

【0106】矩形1310の幅をw1とし、矩形131
0と矩形1311とを包含する領域(矩形1313)の
幅をw2とし、矩形1310〜矩形1312を包含する
領域の幅をw3とする。
The width of the rectangle 1310 is w 1, and the width of the rectangle 131
The width of a region (rectangle 1313) including 0 and a rectangle 1311 is w 2, and the width of a region including rectangles 1310 and 1312 is w 3 .

【0107】キーワードKw中の文字「化」の照合を行
う場合、文字「化」(=Kw[2])についての文字幅
推定値Kww[2]と、幅w1〜幅w3のそれぞれとが比較
される。幅w1〜幅w3のうち、文字幅推定値Kww[2]
と最も近い値を有するものが幅w2であったとすると、
文字SDc[j]と文字SDc[j+1]とが不一致文字
として特定される。
[0107] keyword K When performing the collation of the character "of" in the w, character "of" (= K w [2]) and the character width estimated value K ww [2] for, width w 1 ~ width w 3 Are compared with each. Character width estimated value K ww [2] of width w 1 to width w 3
If the one having the value closest to is the width w 2 ,
The character SD c [j] and the character SD c [j + 1] are identified as non-matching characters.

【0108】また、文書画像データDiから、矩形13
13内の画像が、文字画像Ciとして抽出される。さら
に、不一致文字として特定された2つの文字(文字SD
c[j]と文字SDc[j+1])の次の文字(右隣の文
字)の番号「j+2」が、変数next_jの値として
決定される。
Further, from the document image data D i , the rectangle 13
The image in 13 is extracted as the character image C i . In addition, the two characters (character SD
The number “j + 2” of the character (the character on the right) next to the character c [j] and the character SD c [j + 1]) is determined as the value of the variable next_j.

【0109】図9は、文字画像Ciから特徴量(ベクト
ル量)を求める方法の例を示す。
FIG. 9 shows an example of a method for obtaining the characteristic amount (vector amount) from the character image C i .

【0110】文字「あ」の文字画像Ciが16個のブロ
ックB[i](0≦i≦15)に分割される。各ブロッ
クは、左上から右下へ順に番号iが付与されている。i
=0〜15について、ブロックB[i]の黒画素密度
(ブロック内の黒画素の数をブロックの面積で割った
値)が計算され、16個の値が得られる。この16個の
値を成分とする16次元のベクトル量を特徴量とする。
このようにして求められた特徴量は、形状の特徴を示
す。
The character image C i of the character "A" is divided into 16 blocks B [i] (0≤i≤15). Each block is numbered from upper left to lower right. i
= 0 to 15, the black pixel density of the block B [i] (the number of black pixels in the block divided by the area of the block) is calculated, and 16 values are obtained. A 16-dimensional vector amount having these 16 values as components is set as a feature amount.
The feature amount thus obtained indicates the feature of the shape.

【0111】以上のように、本発明の文書検索装置1に
よれば、テキスト検索手段101による文字コードに基
づく検索の後に、テキスト検索手段101による検索に
おいて検索漏れが生ずる可能性が高い部分から、画像の
特徴量に基づく検索がさらに行われる。これにより検索
漏れを減らすことができる。
As described above, according to the document search apparatus 1 of the present invention, after the search based on the character code by the text search means 101, there is a high possibility that a search omission occurs in the search by the text search means 101. The search is further performed based on the image feature amount. This can reduce the omission of search.

【0112】また、画像の特徴量の比較に基づく検索の
対象は、検索漏れが生ずる可能性が高い部分に限定され
るので、検索にかかるコスト(時間および計算量)は低
くて済む。
Further, since the target of the search based on the comparison of the image feature amounts is limited to the part where the search omission is likely to occur, the cost (time and calculation amount) required for the search can be low.

【0113】なお、以上の説明では、テキスト検索手段
101における文字コードに基づく検索では、文字認識
結果Dc中の文字の文字コードとキーワードKw中のキー
ワード文字の文字コードとを単純に比較していた。しか
し、文字認識結果Dc中の文字のそれぞれが、OCR装
置202による文字認識処理における候補文字を複数保
持しておき、この複数の候補文字のいずれかの文字コー
ドとキーワードKw中の特定のキーワード文字の文字コ
ードとが一致すれば、文字認識結果Dc中の文字とキー
ワードKw中の特定のキーワード文字とが一致すると判
断してもよい。あるいは、キーワードKw中の特定の文
字を類似した複数の文字に展開し、この複数の類似文字
のいずれかの文字コードと文字認識結果Dc中の文字の
文字コードとが一致した場合に、文字認識結果Dc中の
文字とキーワードKw中の特定のキーワード文字とが一
致すると判断してもよい。
In the above description, in the search based on the character code in the text search means 101, the character code of the character in the character recognition result D c and the character code of the keyword character in the keyword K w are simply compared. Was there. However, each of the characters in the character recognition result D c holds a plurality of candidate characters in the character recognition processing by the OCR device 202, and any one of the character codes of the plurality of candidate characters and the specific keyword in the keyword Kw are stored. if there is a match and the character code may be determined that a specific keyword character and in keyword K w in the character recognition result Dc match. Alternatively, when a specific character in the keyword K w is expanded into a plurality of similar characters and one of the character codes of the plurality of similar characters matches the character code of the character in the character recognition result D c , It may be determined that the character in the character recognition result D c matches the specific keyword character in the keyword K w .

【0114】テキスト検索手段101による検索として
は、シソーラス等の類義語辞書を用いた曖昧検索を用い
てもよく、他の公知の検索方法を用いてもよい。
As the search by the text search means 101, an ambiguous search using a synonym dictionary such as a thesaurus may be used, or another known search method may be used.

【0115】文書データDdは、インデックス形式であ
ってもよい。
The document data D d may be in the index format.

【0116】文字画像テーブル302は、フォントデー
タのように文字コードと文字画像が対になっているデー
タを用いることができるとしたが、実際の文書画像デー
タから文字コードごとに文字画像を収集し、文字コード
ごとに特徴量の平均値とったものを用いてもよい。さら
に、同じキーワードによる確信度の高い検索結果(例え
ばテキスト検索手段101の検索結果RDt1)が存在す
る場合には、その検索結果から文字コードと文字画像の
対を生成して文字画像テーブル302として用い、その
ような検索結果が存在しない場合には、フォントデータ
を用いるようにしてもよい。
The character image table 302 can use data in which character codes and character images are paired like font data. However, character images are collected for each character code from actual document image data. Alternatively, the average value of the feature amount for each character code may be used. Further, when there is a search result with a high degree of certainty with the same keyword (for example, the search result RD t1 of the text search means 101), a pair of a character code and a character image is generated from the search result, and a character image table 302 is created. If the search result does not exist, the font data may be used.

【0117】文字幅推定手段104は、省略することも
可能である。文字幅推定手段104を省略した場合に
は、文字幅の推定値として文字にかかわらず同じ値(例
えば、文字高さの推定値a)を用いてもよい。
The character width estimating means 104 can be omitted. When the character width estimation means 104 is omitted, the same value (for example, the character height estimation value a) may be used as the character width estimation value regardless of the character.

【0118】文字特定手段102による処理の後に、候
補部分SDcに含まれる文字を統合・再分割する処理が
行われてもよい。この処理を実現するために、文字再分
割手段が文書検索装置1に追加され得る。文字再分割手
段は、文字特定手段102で特定された候補部分SDc
中の文字を統合し、統合された文字に対応する画像を文
書データDdから抽出する。抽出された画像は、可能な
限り細かく分割される。文書が横書きである場合、この
分割は例えば、垂直方向に黒画素の射影ヒストグラムを
求め、射影ヒストグラムが予め定めた閾値よりも小さい
部分で行われる。このようにして可能な限り細かく分割
された部分は、細分化要素と呼ばれる。細分化要素は、
一般に、候補部分SDc中の文字と比較してサイズが等
しいか小さい要素である。文字画像抽出手段301にお
いて、不一致文字の文字幅を決める際に、候補部分SD
c中の文字単位に文字幅が可変にされたが、細分化要素
単位に文字幅が可変にされてもよい。このように細分化
要素を用いることにより、OCR装置202における文
字認識の際に文字の切り出し位置を誤った場合にも、キ
ーワード文字の文字幅を基準に適切な切り出し位置を特
定することが可能になる。
After the processing by the character specifying means 102, the processing of integrating / re-dividing the characters included in the candidate portion SD c may be performed. In order to realize this process, a character subdivision unit may be added to the document search device 1. The character subdivision means is a candidate part SD c identified by the character identification means 102.
The characters inside are integrated, and the image corresponding to the integrated character is extracted from the document data D d . The extracted image is divided into as fine pieces as possible. When the document is written horizontally, for example, this division is performed in a portion where the projection histogram of black pixels in the vertical direction is obtained and the projection histogram is smaller than a predetermined threshold value. The portion thus divided into as much as possible is called a subdivision element. The subdivision element is
Generally, it is an element whose size is equal to or smaller than the character in the candidate portion SD c . When determining the character width of the non-matching character in the character image extraction means 301, the candidate portion SD
Although the character width is variable for each character in c , the character width may be variable for each subdivision element. By using the subdivision element in this way, even when the character cutout position is incorrect at the time of character recognition in the OCR device 202, it is possible to specify an appropriate cutout position based on the character width of the keyword character. Become.

【0119】以下、本発明の実施の形態1の文書検索装
置1のいくつかのバリエーションを図面を参照しながら
説明する。
Hereinafter, some variations of the document search device 1 according to the first embodiment of the present invention will be described with reference to the drawings.

【0120】図10は、文字形状検索手段103のバリ
エーションとしての文字形状検索手段103aの構成を
示す。
FIG. 10 shows the configuration of a character shape search means 103a as a variation of the character shape search means 103.

【0121】文字形状検索手段103aは、図7に示さ
れる文字形状検索手段103の代わりに用いられ得る。
図10において、図7に示される構成要素と同一の構成
要素には同一の参照番号を付し、その説明を省略する。
The character shape searching means 103a can be used in place of the character shape searching means 103 shown in FIG.
10, the same components as those shown in FIG. 7 are designated by the same reference numerals, and the description thereof will be omitted.

【0122】文字形状検索手段103aは、照合制御手
段606と、類似文字照合手段602とを含む。
The character shape searching means 103a includes a matching control means 606 and a similar character matching means 602.

【0123】照合制御手段606は、文字形状検索手段
103a全体の動作を制御する。
The collation control means 606 controls the operation of the entire character shape search means 103a.

【0124】類似文字照合手段602は、候補部分SD
cに含まれる文字の文字コードCc[j]が、キーワード
文字Kw[i]の文字コードに一致しているか否かを判
定する。あるいは、文字コードCc[j]が、キーワー
ド文字Kw[i]についての類似文字リスト(図24
B)に含まれるいずれかの文字の文字コードと一致して
いるか否かを判定してもよい。このような類似文字リス
トは、予め全ての文字に対して用意されており、誤って
認識される傾向の強い文字のリストである。
The similar character collating means 602 determines the candidate portion SD.
It is determined whether the character code C c [j] of the character included in c matches the character code of the keyword character K w [i]. Alternatively, the character code C c [j] has a similar character list (see FIG. 24) for the keyword character K w [i].
It may be determined whether or not it matches the character code of any of the characters included in B). Such a similar character list is prepared in advance for all characters and is a list of characters that are likely to be erroneously recognized.

【0125】文字形状検索手段103aの動作を以下の
ステップS301〜S303に示す。この処理は、照合
制御手段606によって実行される。ここで、候補部分
SD cは、文字SDc[j]の集合であるとする。それぞ
れの文字SDc[j]は、図2Bを参照して説明した文
字と同様のデータ構造を有する。なお、S301〜S3
03において、変数jは文字SDc[j]の添字を表
し、変数iは、キーワード文字Kw[i]の添字を表
す。
The operation of the character shape retrieval means 103a will be described below.
This is shown in steps S301 to S303. This process is a collation
It is executed by the control means 606. Where the candidate part
SD cIs the character SDcLet it be a set of [j]. That's it
This character SDc[J] is the sentence described with reference to FIG. 2B
It has the same data structure as a character. Note that S301 to S3
In 03, the variable j is the character SDcShow the subscript of [j]
The variable i is the keyword letter KwShow subscript of [i]
You

【0126】文字認識結果Dc中には、複数の候補部分
SDcが存在し得る。文字認識結果D c中に、複数の候補
部分SDcが存在する場合には、それぞれの候補部分S
cについて以下のステップS301〜S303の処理
が行われる。
Character recognition result DcSome candidate parts
SDcCan exist. Character recognition result D cMultiple candidates in
Partial SDcIs present, each candidate part S
DcThe following steps S301 to S303
Is done.

【0127】ステップS301:変数jに変数star
t_jが代入され、変数iに値「0」が代入される。変
数start_jは、候補部分SDcの始端(左端)に
位置する文字の添字である。また、ステップS301に
おいてキーワードKwの長さNkと等しい長さを有するリ
ストが検出箇所データとして用意される。
Step S301: Variable j is variable star
t_j is substituted, and the value “0” is substituted for the variable i. The variable start_j is a subscript of a character located at the start end (left end) of the candidate portion SD c . Further, in step S301, a list having a length equal to the length N k of the keyword K w is prepared as detection point data.

【0128】ステップS302:文字SDc[j]が、
キーワード文字Kw[i]に一致するか否かが、文字コ
ードの比較に基づいて類似文字照合手段602によって
判定される。
Step S302: The character SD c [j] is
Whether or not it matches the keyword character K w [i] is determined by the similar character collating means 602 based on the comparison of the character codes.

【0129】もし一致すれば、検出箇所データのi番目
の位置に、文字SDc[j]が登録され、変数iおよび
変数jがともに1だけ増加され、ステップS302を繰
り返す。これは、候補部分SDc中の次の文字と、次の
キーワード文字との照合がなされることを意味する。
If they match, the character SD c [j] is registered at the i-th position of the detected position data, both the variable i and the variable j are incremented by 1, and step S302 is repeated. This means that the next character in the candidate portion SD c will be matched with the next keyword character.

【0130】もし一致しなければ、ステップS303に
進む。
If they do not match, the process proceeds to step S303.

【0131】このように、類似文字照合手段602は候
補部分SDc(第1部分)に含まれる文字(第2文字)
の文字コードが、キーワードに含まれる特定のキーワー
ド文字Kw[i](第1文字)の文字コードに一致する
か否かを判定する第1判定手段として機能する。
As described above, the similar character collating means 602 causes the character (second character) included in the candidate portion SD c (first portion).
Function as a first determination unit that determines whether or not the character code of No. 1 matches the character code of the specific keyword character K w [i] (first character) included in the keyword.

【0132】ステップS303:候補部分SDcのうち
から、キーワード文字Kw[i]と対応させるべき1ま
たは2以上の連続する文字が「不一致文字」として特定
され、その画像Ciが抽出される。この処理は文字画像
抽出手段301によって行われ、図8を用いてすでに述
べた。また、キーワード文字Kw[i]の画像KCiが文
字画像テーブル302から得られる。
Step S303: One or more consecutive characters that should be associated with the keyword character K w [i] are identified as “mismatched characters” from the candidate portion SD c , and the image C i thereof is extracted. . This processing is performed by the character image extracting means 301 and has already been described with reference to FIG. Further, the image KC i of the keyword character K w [i] is obtained from the character image table 302.

【0133】次にキーワード文字Kw[i]が、不一致
文字に一致するか否かが形状照合手段303により判定
される。この判定を行うために、まず、形状照合手段3
03を用いて、画像Ciと画像KCiとが照合される。画
像の照合は、それぞれの画像の特徴量を比較することに
よって行われる。画像Ciの特徴量と画像KCiの特徴量
とのユークリッド距離が、所定の閾値Thd1よりも小
さいことは、画像Ciと画像KCiとが類似していること
を示す。画像Ciと画像KCiとが類似していれば、ステ
ップS303で特定された不一致文字がキーワード文字
w[i]に一致すると判定される。
Next, the shape matching means 303 determines whether or not the keyword character K w [i] matches the non-matching character. In order to make this determination, first, the shape matching means 3
03 is used to collate the image C i with the image KC i . The image matching is performed by comparing the feature amounts of the images. The Euclidean distance between the feature amount of the image C i and the feature amount of the image KC i being smaller than the predetermined threshold Thd 1 indicates that the image C i and the image KC i are similar to each other. If the image C i and the image KC i are similar, it is determined that the non-matching character specified in step S303 matches the keyword character K w [i].

【0134】キーワード文字Kw[i]が、不一致文字
に一致すると判定された場合には、検出箇所データのi
番目の位置に、不一致文字として特定された1または2
以上の連続する文字が登録され、変数iが1だけ増加さ
れ、変数jに変数next_jが代入され、処理はステ
ップS302に戻る。これは、キーワード中の次の文字
を、候補部分SDc中の照合が終わった文字の右に隣接
する部分から探すことを意味する。変数next_j
は、候補部分SDc中の照合が終わった文字の右に隣接
する文字の添字を示す。変数next_jの値は、ステ
ップS303において文字画像抽出手段301によって
決定される。
When it is determined that the keyword character K w [i] matches the non-matching character, i of the detected position data is detected.
1 or 2 identified as the non-matching character in the th position
The above consecutive characters are registered, the variable i is incremented by 1, the variable next_j is substituted for the variable j, and the process returns to step S302. This means that the next character in the keyword is searched for in the part adjacent to the right of the character in the candidate part SD c that has been matched. Variable next_j
Indicates the subscript of the character adjacent to the right of the character in the candidate portion SDc that has been collated. The value of the variable next_j is determined by the character image extracting means 301 in step S303.

【0135】キーワード文字Kw[i]が、不一致文字
に一致しないと判定された場合には、変数iに値「0」
が代入され、変数jに変数start_j+1が代入さ
れ、変数start_jに変数jが代入され、処理はス
テップ302へ戻る。これは、候補部分SDc中の着目
している文字を1文字分右にシフトして、再び最初のキ
ーワード文字Kw[0]を探すことを意味する。
When it is determined that the keyword character K w [i] does not match the unmatched character, the variable i has the value “0”.
Is assigned, the variable start_j + 1 is assigned to the variable j, the variable j is assigned to the variable start_j, and the process returns to step 302. This means that the character of interest in the candidate portion SD c is shifted to the right by one character and the first keyword character K w [0] is searched again.

【0136】このように、文字画像抽出手段301は、
候補部分SDc(第1部分)に含まれる文字SDc[j]
(第2文字)の文字コードが、キーワードKwに含まれ
る特定のキーワード文字Kw[i]の文字コードに一致
しなかった場合には、候補部分SDc(第1部分)に含
まれる文字SDc[j](第2文字)を少なくとも含
み、キーワード文字Kw[i]の幅に最も近い幅を有す
る1または2以上の連続した文字を不一致文字として特
定する不一致文字特定手段として機能する。
As described above, the character image extracting means 301
Characters SD c [j] included in the candidate part SD c (first part)
If the character code of (second character) does not match the character code of the specific keyword character K w [i] included in the keyword K w , the character SD included in the candidate portion SDc (first portion) It functions as a non-matching character specifying means that specifies at least one continuous character having at least the width of the keyword character K w [i] and including c [j] (second character) as a non-matching character.

【0137】また、形状照合手段303は、特定のキー
ワード文字Kw[i](第1文字)の画像の特徴量と、
不一致文字に含まれる1または2以上の連続した文字
(第2文字)に割り当てられた1または2以上の部分領
域を含む領域の画像の特徴量との距離が、所定の閾値T
hd1よりも小さい場合に、特定のキーワード文字K
w[i]が前記不一致文字に一致すると判定する第2判
定手段として機能する。
Further, the shape matching means 303 detects the feature quantity of the image of the specific keyword character K w [i] (first character),
The distance from the feature amount of the image of the area including one or more partial areas assigned to one or more consecutive characters (second character) included in the non-matching character is a predetermined threshold T.
a particular keyword character K if less than hd 1
w [i] functions as a second determination unit that determines that the mismatched character matches.

【0138】以上に述べたステップS301〜S303
に示される処理手順は、ステップS101〜S103に
示される処理手順と比較して、画像の特徴量の比較に基
づく照合処理(ステップS303)の前に、文字コード
の比較に基づく照合処理(ステップS302)が追加さ
れている。文字コードの比較に基づく照合処理によって
候補部分SDc中の文字SDc[j]がキーワード文字K
w[i]に一致すると判定されれば、候補部分SDc中の
文字SDc[j]と、キーワード文字Kw[i]との画像
の特徴量の比較に基づく照合処理は行われない。一般
に、文字コードの比較に基づく照合処理は、画像の特徴
量の比較に基づく照合処理よりも高速に行い得るので、
ステップS301〜S303に示される処理手順を行う
ことにより文書検索装置1における検索の処理速度を向
上することが可能になる。
Steps S301 to S303 described above
Compared with the processing procedure shown in steps S101 to S103, the processing procedure shown in (1) is performed before the matching processing based on the comparison of the image feature amounts (step S303), and based on the comparison of the character code (step S302). ) Has been added. By the matching process based on the comparison of the character codes, the character SD c [j] in the candidate portion SD c becomes the keyword character K.
If it is determined that the matching w [i], the character SD c in the candidate portion SD c [j], the matching processing based on the comparison of the feature amount of the image with the keyword character K w [i] is not performed. In general, the matching process based on the comparison of character codes can be performed faster than the matching process based on the comparison of image feature amounts.
By performing the processing procedure shown in steps S301 to S303, it becomes possible to improve the processing speed of the search in the document search device 1.

【0139】また、ステップS303において、候補部
分SDc中の文字SDc[j]の信頼度Cr[j]が所定
の閾値よりも高い場合には、形状照合手段303による
照合を省略してもよい。なぜなら、文字SDc[j]の
信頼度Cr[j]が所定の閾値よりも高いことはOCR
装置202における文字認識が正しく行われた可能性が
高く、画像の特徴量の比較を行う必要性が低いからであ
る。
If the reliability C r [j] of the character SD c [j] in the candidate portion SD c is higher than a predetermined threshold value in step S303, the shape matching means 303 omits the matching. Good. Because the reliability C r [j] of the character SD c [j] is higher than the predetermined threshold, it is OCR.
This is because there is a high possibility that the character recognition in the device 202 has been performed correctly, and there is less need to compare the feature amounts of the images.

【0140】図11は、文書検索装置1のバリエーショ
ンとしての文書検索装置701の構成を示す。文書検索
装置701は、例えば、図4に示される文書検索装置1
の代わりに用いられ得る。
FIG. 11 shows the configuration of a document search device 701 as a variation of the document search device 1. The document search device 701 is, for example, the document search device 1 shown in FIG.
Can be used instead of.

【0141】図11において、図4に示される構成要素
と同一の構成要素には同一の参照番号を付し、その説明
を省略する。
In FIG. 11, the same components as those shown in FIG. 4 are designated by the same reference numerals, and the description thereof will be omitted.

【0142】文書検索装置701は、文字特定手段10
2において使用される閾値Thrを生成する検索精度制
御手段705を含む。
The document search device 701 is provided with the character specifying means 10
The search precision control means 705 which produces | generates the threshold value Thr used in 2 is included.

【0143】文書検索装置701に入力される文書デー
タDdは、品質情報を有するものとする。品質情報は、
文書画像データDiの画質に関連する値であり、例え
ば、文書画像データDiの解像度、文字のかすれの度合
いおよび文字のつぶれの度合いを表す。品質情報は、例
えば、0〜1の間の値で表され、値が大きいほど文書画
像データDiの画質が良いものとする。
The document data D d input to the document search device 701 has quality information. Quality information is
It is a value related to the image quality of the document image data D i , and represents, for example, the resolution of the document image data D i , the degree of character blurring, and the degree of character collapse. The quality information is represented by, for example, a value between 0 and 1, and the larger the value, the better the image quality of the document image data D i .

【0144】検索精度制御手段705は、予め品質情報
と閾値Thrとの関係を定めたテーブルに基づいて、文
書データDdの品質情報に応じた閾値Thrを出力す
る。予め定められた品質情報と閾値Thrとの関係とし
ては、例えば、品質情報と閾値Thrとが等しいという
関係が用いられ得る。
The search accuracy control means 705 outputs the threshold value Thr according to the quality information of the document data D d based on a table in which the relationship between the quality information and the threshold value Thr is determined in advance. As the relationship between the predetermined quality information and the threshold Thr, for example, the relationship that the quality information is equal to the threshold Thr can be used.

【0145】一般に、文書画像データDiの画質が良い
場合には、OCR装置202における文字認識は正しく
行われることが期待される。従って、文書画像データD
iの画質に応じて閾値Thrを調節することで、文字特
定手段102で特定される候補部分SDcの数を調節す
ることができる。これにより、品質の良い文書データD
dについては必要以上に文字形状検索手段103の処理
対象(候補部分SDcの数)が増えることを抑制でき、
処理時間の短縮や過剰検出の抑制が可能になる。また、
品質の悪い文書データDdについては、文字形状検索手
段103の処理対象を増やすことにより、OCR装置2
02における文字認識の際の切り出し誤りや認識誤りに
起因する検索漏れを減らすことが可能になる。
Generally, when the image quality of the document image data D i is good, it is expected that the character recognition in the OCR device 202 will be performed correctly. Therefore, the document image data D
By adjusting the threshold Thr according to the image quality of i , it is possible to adjust the number of candidate portions SD c specified by the character specifying means 102. As a result, good quality document data D
With respect to d, it is possible to prevent the number of processing targets (the number of candidate portions SD c ) of the character shape search unit 103 from increasing more than necessary,
The processing time can be shortened and excessive detection can be suppressed. Also,
For document data D d of poor quality, the OCR device 2 is increased by increasing the processing targets of the character shape search means 103.
It is possible to reduce the omission of search due to a clipping error or a recognition error in character recognition in 02.

【0146】図12は、文書検索装置701のバリエー
ションとしての文書検索装置801の構成を示す。文書
検索装置801は、例えば、図11に示される文書検索
装置701の代わりに用いられ得る。
FIG. 12 shows the configuration of a document search device 801 as a variation of the document search device 701. The document search device 801 can be used, for example, instead of the document search device 701 shown in FIG.

【0147】図12において、図11に示される構成要
素と同一の構成要素には同一の参照番号を付し、その説
明を省略する。
In FIG. 12, the same components as those shown in FIG. 11 are designated by the same reference numerals, and the description thereof will be omitted.

【0148】文書検索装置801は、文字認識結果Dc
中の文字に割り当てられた信頼度から、文書データDd
についての品質情報を求める品質情報抽出手段805を
含む。
The document search device 801 receives the character recognition result D c.
Document data D d from the reliability assigned to the middle character
Quality information extraction means 805 for obtaining quality information about

【0149】信頼度Cr[j]は、文字認識が正解する
確率を反映したものであり、品質情報の高い文書は文字
認識が正解する確率が高いと考えられる。従って、信頼
度C r[j]から品質情報を求めることができる。
Reliability CrCharacter recognition is correct for [j]
It reflects the probability, and documents with high quality information are written
It is considered that the probability of correct recognition is high. Therefore trust
Degree C rThe quality information can be obtained from [j].

【0150】品質情報抽出手段805は、例えば、文書
データDdの文字認識結果Dcに含まれる全ての文字の信
頼度Cr[j]の平均値として、品質情報を求め得る。
The quality information extraction means 805 can obtain the quality information as an average value of the reliability C r [j] of all the characters included in the character recognition result D c of the document data D d .

【0151】図12に示される構成によれば、品質情報
を文書データDdに含まれる文字の信頼度から客観的に
求めることができる。
According to the configuration shown in FIG. 12, the quality information can be objectively obtained from the reliability of the characters included in the document data D d .

【0152】図13は、文書検索装置701のバリエー
ションとしての文書検索装置901の構成を示す。文書
検索装置901は、例えば、図11に示される文書検索
装置701の代わりに用いられ得る。
FIG. 13 shows the configuration of a document search device 901 as a variation of the document search device 701. The document search device 901 can be used instead of the document search device 701 shown in FIG. 11, for example.

【0153】図13において、図11に示される構成要
素と同一の構成要素には同一の参照番号を付し、その説
明を省略する。
In FIG. 13, the same components as those shown in FIG. 11 are designated by the same reference numerals, and the description thereof will be omitted.

【0154】文書検索装置901は、文字特定手段10
2において使用される閾値Thrのユーザによる指定を
可能にする検索精度指定手段905を含む。
The document retrieving apparatus 901 includes the character specifying means 10
2 includes a search precision designating unit 905 that allows the user to designate the threshold Thr used in 2.

【0155】検索精度指定手段905によれば、ユーザ
が目的に応じて閾値Thrを指定することができる。ユ
ーザが、過剰な検出箇所の数を増やすことをいとわずに
正しい検出箇所をできるだけ多く知りたい場合には、閾
値Thrを大きくすればよい。ユーザが、正しい検出箇
所を1つ知れば十分であると考え、過剰な検出箇所の数
を増やしたくない場合には閾値Thrを小さくすればよ
い。過剰な検出箇所とは、オリジナルの文書中でキーワ
ードと一致しないが、文書検索装置により一致部分して
検出される部分を指す。
The search precision designating means 905 allows the user to designate the threshold Thr according to the purpose. When the user wants to know as many correct detection points as possible without being willing to increase the number of excessive detection points, the threshold Thr may be increased. If the user thinks that it is sufficient to know one correct detection point and does not want to increase the number of excessive detection points, the threshold Thr may be reduced. Excessive detection points are the points that do not match the keywords in the original document, but are detected as matching parts by the document search device.

【0156】このように、文書検索装置901によれ
ば、ユーザの意図に応じた検索が可能になる。
As described above, according to the document search device 901, it is possible to search according to the intention of the user.

【0157】図14は、文書検索装置1のバリエーショ
ンとしての文書検索装置1151の構成を示す。文書検
索装置1151は、図4に示される文書検索装置1の代
わりに用いられ得る。
FIG. 14 shows a configuration of a document search device 1151 as a variation of the document search device 1. The document search device 1151 can be used instead of the document search device 1 shown in FIG.

【0158】図14において、図4に示される構成要素
と同一の構成要素には同一の参照番号を付し、その説明
を省略する。
In FIG. 14, the same components as those shown in FIG. 4 are designated by the same reference numerals, and the description thereof will be omitted.

【0159】文書検索装置1151は、第1一致部分の
集合RDt1に含まれる検出箇所データから画像の特徴量
の平均値を求める類似文字列平均化手段1102と、類
似文字列平均化手段1102で求められた画像の特徴量
の平均値を用いて第2一致部分の集合RDt2に含まれる
検出箇所データを精製する文字列再検出手段1103と
を含む。
The document retrieval device 1151 includes a similar character string averaging means 1102 for obtaining an average value of image feature amounts from the detection point data included in the first matching portion set RD t1 and a similar character string averaging means 1102. And a character string re-detection means 1103 for refining the detection point data included in the set RD t2 of the second matching parts by using the obtained average value of the feature amount of the image.

【0160】テキスト検索手段101における検索結果
であるRDt1に含まれる過剰な検出箇所の数は、文字形
状検索手段103における検索結果RDt2に含まれる過
剰な検出箇所の数よりも少ないと考えられる。従って、
検索結果RDt1に含まれる検出箇所データは、キーワー
ドと真に一致している可能性が高い。
It is considered that the number of excessive detection points included in the search result RD t1 in the text search means 101 is smaller than the number of excessive detection points included in the search result RD t2 in the character shape search means 103. . Therefore,
It is highly possible that the detection location data included in the search result RD t1 truly matches the keyword.

【0161】類似文字列平均化手段1102は、検索結
果RDt1に含まれる検出箇所データを参照し、それぞれ
のキーワード文字と対応する文書画像データDiの部分
領域の文字画像Ciを抽出する。この文字画像Ciは、キ
ーワード文字がオリジナルの文書中でどのような形状で
書かれているかを示す。類似文字列平均化手段1102
はさらに、抽出された文字画像Ciの特徴量を算出し、
その特徴量を同一のキーワード文字について平均化す
る。この平均化された特徴量は、文字列再検出手段11
03において判断基準値として使用される。
The similar character string averaging means 1102 refers to the detected position data included in the search result RD t1 and extracts the character image C i of the partial area of the document image data D i corresponding to each keyword character. The character image C i shows how the keyword character is written in the original document. Similar character string averaging means 1102
Further calculates the feature amount of the extracted character image C i ,
The feature amounts are averaged for the same keyword character. This averaged feature amount is used as the character string re-detection means 11
In 03, it is used as a criterion value.

【0162】このように、類似文字列平均化手段110
2は、検索結果RDt1(少なくとも1つの第1一致部
分)から所定の判定基準値を算出する算出手段として機
能する。
As described above, the similar character string averaging means 110
2 functions as a calculation unit that calculates a predetermined determination reference value from the search result RD t1 (at least one first matching portion).

【0163】文字形状検索手段103における検索結果
であるRDt2に含まれる検出箇所データには、過剰な検
出箇所が含まれている可能性がある。文字形状検索手段
103では、オリジナルの文書で用いられているフォン
トとは異なる文字画像を使用して検索が行われている可
能性があるからである。
There is a possibility that the detection position data included in RD t2 , which is the search result by the character shape searching means 103, includes an excessive detection position. This is because there is a possibility that the character shape searching means 103 may be searching using a character image different from the font used in the original document.

【0164】文字列再検出手段1103は、類似文字列
平均化手段1102で算出された平均化された特徴量
(判定基準値)を用いて、このような検出箇所をふるい
にかける処理を行う。
The character string re-detection means 1103 carries out a process of sieving such detection points by using the averaged feature amount (judgment reference value) calculated by the similar character string averaging means 1102.

【0165】文字列再検出手段1103は、検索結果R
t2に含まれる検出箇所データを参照し、それぞれのキ
ーワード文字と対応する文書画像データDiの部分領域
の文字画像Ciを抽出する。次に、抽出された文字画像
iの特徴量と判定基準値との距離が所定の閾値Thd2
よりも小さくなるような検出箇所データを検出する。
The character string rediscovery means 1103 retrieves the search result R.
The character image C i of the partial area of the document image data D i corresponding to each keyword character is extracted by referring to the detection point data included in D t2 . Next, the distance between the feature amount of the extracted character image C i and the determination reference value is a predetermined threshold Thd 2
The detection point data that is smaller than the above is detected.

【0166】このように、文字列再検出手段1103
は、判定基準値に基づいて、検索結果RDt2(少なくと
も1つの第2一致部分)のうちで所定の第2条件を満た
す第2一致部分を検出する検出手段として機能する。
In this way, the character string re-detection means 1103
Functions as a detection unit that detects a second matching portion satisfying a second predetermined condition in the search result RD t2 (at least one second matching portion) based on the determination reference value.

【0167】以上のように文字列再検出手段1103に
より検出された検出箇所データは、検出箇所データの新
たな集合として出力される。
The detection location data detected by the character string re-detection means 1103 as described above is output as a new set of detection location data.

【0168】なお、類似文字列平均化手段1102で算
出された平均化された特徴量(判定基準値)を用いて、
再度文書データDdを検索すれば、より検索の精度を上
げることが可能になる。
It should be noted that, using the averaged feature amount (judgment reference value) calculated by the similar character string averaging means 1102,
If the document data D d is searched again, the accuracy of the search can be improved.

【0169】このように、文書検索装置1151によれ
ば、比較的信頼性の低い検索結果RDt2に含まれる検
出箇所データのうちから、ある判断基準値に基づいて所
定の条件を満たす検出箇所データを検出することによっ
て、過剰な検出箇所の数を抑制することができる。
As described above, according to the document retrieval apparatus 1151, among the detected location data included in the relatively unreliable retrieval result RDt 2 , the detected location data satisfying a predetermined condition based on a certain criterion value. By detecting, it is possible to suppress the number of excessive detection points.

【0170】また、図14に参照番号1101で示され
る多段階検索手段は、上述した例では図4に示される文
書検索装置1であるとした。しかし、多段階検索手段1
101として採用され得る文書検索装置の構成は、これ
に限定されない。多段階検索手段1101としては、検
索結果に含まれる過剰な検出箇所の数を段階的に制御す
ることが可能な任意の文書検索装置が採用され得る。
Further, the multi-stage search means indicated by reference numeral 1101 in FIG. 14 is assumed to be the document search apparatus 1 shown in FIG. 4 in the above-mentioned example. However, the multi-stage search means 1
The configuration of the document search device that can be adopted as 101 is not limited to this. As the multi-stage search means 1101, an arbitrary document search device capable of controlling the number of excessive detection points included in the search result stepwise can be adopted.

【0171】多段階検索手段1101によって得られた
検索結果は、検索結果RDt1,検索結果RDt2,・・
・,検索結果RDtnからなり、これらのうち、含まれる
過剰な検出箇所の数が最も少ない検索結果が検索結果R
t1であるとすると、類似文字列平均化手段1102は
検索結果RDt1に基づいて判断基準値を算出する。
The search results obtained by the multi-stage search means 1101 are search results RD t1 , search results RD t2 , ...
, Search result RD tn , and of these, the search result with the smallest number of excessive detection points included is the search result R
If it is D t1 , the similar character string averaging means 1102 calculates a judgment reference value based on the search result RD t1 .

【0172】あるいは、多段階検索手段1101に代え
て、検索結果に含まれる過剰な検出箇所の数を段階的に
制御しない任意の文書検索装置を採用してもよい。その
ような例を図15に示す。
Alternatively, instead of the multi-step search means 1101, any document search device that does not control the number of excessive detection points included in the search results stepwise may be adopted. Such an example is shown in FIG.

【0173】図15は、文書検索装置1151のバリエ
ーションとしての文書検索装置1051の構成を示す。
文書検索装置1051は、図14に示される文書検索装
置1151の代わりに用いられ得る。
FIG. 15 shows the structure of a document search device 1051 as a variation of the document search device 1151.
The document search device 1051 can be used instead of the document search device 1151 shown in FIG.

【0174】図15において、図14に示される構成要
素と同一の構成要素には同一の参照番号を付し、その説
明を省略する。
In FIG. 15, the same components as those shown in FIG. 14 are designated by the same reference numerals, and the description thereof will be omitted.

【0175】文書検索装置1051は、検索手段100
1と、類似文字列平均化手段1002とを含む。
The document retrieving apparatus 1051 is comprised of retrieving means 100.
1 and a similar character string averaging means 1002.

【0176】検索手段1001としては、任意の文書検
索装置が採用され得る。検索手段1001における検索
結果は、RDtとして出力される。
As the search means 1001, an arbitrary document search device can be adopted. The search result in the search means 1001 is output as RD t .

【0177】類似文字列平均化手段1002は、検索結
果RDtのうち、キーワードと類似している少なくとも
1つの検出箇所データを参照し、それぞれのキーワード
文字と対応する文書画像データの部分領域の文字画像C
iを抽出する。この文字画像Ciは、キーワード文字がオ
リジナルの文書中でどのような形状で書かれているかを
示す。類似文字列平均化手段1002はさらに、抽出さ
れた文字画像Ciの特徴量を算出し、その特徴量を同一
のキーワード文字について平均化する。この平均化され
た特徴量は、文字列再検出手段1103において判断基
準値として使用される。
The similar character string averaging means 1002 refers to at least one detection point data similar to the keyword in the search result RD t , and refers to the character of the partial area of the document image data corresponding to each keyword character. Image C
Extract i . The character image C i shows how the keyword character is written in the original document. The similar character string averaging means 1002 further calculates the feature amount of the extracted character image C i and averages the feature amount for the same keyword character. The averaged feature amount is used as a determination reference value in the character string redetection unit 1103.

【0178】類似文字列平均化手段1002が、検索結
果RDtのうち、キーワードと類似している少なくとも
1つの検出箇所データを求める処理は以下のように行わ
れる。
The processing for the similar character string averaging means 1002 to obtain at least one detection point data similar to the keyword in the search result RD t is performed as follows.

【0179】まず、キーワードKwに含まれるそれぞれ
のキーワード文字が画像化され、文字画像KCiが得ら
れる。文字ブロックデータDtが、文字ブロックにおい
て使用されているフォントの情報を有する場合、キーワ
ード文字の画像を生成する際にそのフォントと同一のフ
ォントが使用され得る。
First, each keyword character contained in the keyword K w is imaged to obtain a character image KC i . When the character block data D t has information on the font used in the character block, the same font as that font can be used when generating the image of the keyword character.

【0180】文字画像KCiから、特徴量が求められ
る。ここで、特徴量としては、例えば、文字認識におい
て使用される特徴量や、図9を参照して説明した特徴量
が採用され得る。次に、検出箇所データ中の、キーワー
ドKwの各文字に対応する文字認識結果Dc中の文字の位
置情報を参照して、文書画像データDiから文字画像C i
が抽出される。その文字画像Ciから、特徴量が求めら
れる。文字画像KCiから求められた特徴量と、文字画
像Ciから求められた特徴量との間のユークリッド距離
が算出される。このユークリッド距離をキーワードKw
に含まれる全ての文字について加算し、その和をキーワ
ードKwに含まれる文字数で割った値が、検出箇所デー
タとキーワードKwとの距離と定義される。検出箇所デ
ータがキーワードKwと類似しているとは、検出箇所デ
ータとキーワードKwとの距離が小さいことを意味す
る。
Character image KCiThe feature quantity is calculated from
It Here, as the feature amount, for example, in character recognition,
Features that are used by the user and the features that were described with reference to FIG.
Can be adopted. Next, the key word in the detected location data
De KwCharacter recognition result D corresponding to each character ofcCharacter position in
Document image data D by referring to the placement informationiFrom character image C i
Is extracted. The character image CiFrom the feature amount,
Be done. Character image KCiCharacteristic amount obtained from
Image CiEuclidean distance from the feature value obtained from
Is calculated. This Euclidean distance is the keyword Kw
Add all the characters included in and add the sum to the key
KwThe value divided by the number of characters included in
Keyword KwIs defined as the distance from. Detection point data
Keyword is KwIs similar to
Data and keyword KwMeans a small distance from
It

【0181】以上のように、検索結果RDtの各検出箇
所データについてキーワードKwとの距離を求め、その
距離が小さいものから順に予め定められた数の検出箇所
データを選択する。このようにして、キーワードと類似
している少なくとも1つの検出箇所が求められる。
As described above, the distance from the keyword K w for each detection point data of the search result RD t is obtained, and a predetermined number of detection point data are selected in order from the smallest distance. In this way, at least one detection position similar to the keyword is obtained.

【0182】(実施の形態2)図16は、本発明の実施
の形態2の文書検索装置451の構成を示す。
(Second Embodiment) FIG. 16 shows the configuration of a document search device 451 according to the second embodiment of the present invention.

【0183】文書検索装置451は、ワイルドカード検
索手段401と、文字形状検索手段402と、文字幅推
定手段403と、文字画像テーブル404とを含む。
The document search device 451 includes a wild card search means 401, a character shape search means 402, a character width estimation means 403, and a character image table 404.

【0184】文書検索装置451は、図1に示される文
書検索装置204として使用され得る。この場合、文書
検索装置451は、文書データベース203に蓄積され
た文書データDdからキーワードKwを検索する。文書デ
ータDdは、文書画像データDiと文字認識結果Dcとを
含む。
The document search device 451 can be used as the document search device 204 shown in FIG. In this case, the document search device 451 searches for the keyword K w from the document data D d stored in the document database 203. The document data D d includes the document image data D i and the character recognition result D c .

【0185】ワイルドカード検索手段401は、キーワ
ードKwに含まれる文字(第1文字)に割り当てられた
文字コードと文字認識結果Dcに含まれる文字(第2文
字)に割り当てられた文字コードとを比較し、少なくと
も1文字が一致する部分を特定し、これを検索結果RD
t1として出力する。検索結果RDt1に含まれる一致部分
の数をNr1とする。検索結果RDt1は、検出箇所データ
RDt[t]を含む。ここで0≦t≦Nr1−1である。
検出箇所データRDt[t]は、キーワード文字の少な
くとも1つが文字コードの比較において文字認識結果D
cに含まれる文字に一致する一致部分を示す。
The wildcard search means 401 determines the character code assigned to the character (first character) included in the keyword K w and the character code assigned to the character (second character) included in the character recognition result D c. Are compared, the part where at least one character matches is specified, and this is searched result RD
Output as t1 . The number of matching parts included in the search result RD t1 is N r1 . The search result RD t1 includes detection location data RD t [t]. Here, 0 ≦ t ≦ N r1 −1.
In the detection point data RD t [t], at least one of the keyword characters is the character recognition result D in the comparison of the character codes.
Indicates a match that matches the characters contained in c .

【0186】文字形状検索手段402は、文字コードの
比較において文字認識結果Dcに含まれる文字に一致し
ないキーワード文字(ワイルドカード文字)を特定し、
画像の特徴量の比較に基づいて、そのワイルドカード文
字が文字認識結果Dcに含まれる文字に一致するか否か
を判定する。
The character shape searching means 402 specifies a keyword character (wildcard character) which does not match the character included in the character recognition result D c in the comparison of the character codes,
Based on the comparison of the image feature amounts, it is determined whether the wildcard character matches the character included in the character recognition result D c .

【0187】文字幅推定手段403は、キーワード文字
の幅の推定値を算出する。この推定値は、ワイルドカー
ド検索手段401および文字形状検索手段402におい
て用いられる。
The character width estimating means 403 calculates the estimated value of the width of the keyword character. This estimated value is used in the wildcard search means 401 and the character shape search means 402.

【0188】文字画像テーブル404は、図7に示され
る文字画像テーブル302と同様であり、ここではその
説明を省略する。
The character image table 404 is similar to the character image table 302 shown in FIG. 7, and the description thereof is omitted here.

【0189】図17は、ワイルドカード検索手段401
による処理手順を示す。
FIG. 17 shows the wildcard search means 401.
The processing procedure by is shown.

【0190】以下、図17に示される処理手順を各ステ
ップごとに説明する。
The processing procedure shown in FIG. 17 will be described below step by step.

【0191】ステップS1701:変数iに値「0」が
代入される。変数iは、キーワード文字のキーワード中
での位置を表す添字である。変数iに値「0」を代入す
ることは、キーワードの最初の文字Kw[0]から順に
処理が行われることを意味する。
Step S1701: The value "0" is assigned to the variable i. The variable i is a subscript indicating the position of the keyword character in the keyword. Substituting the value “0” for the variable i means that the processing is performed in order from the first character K w [0] of the keyword.

【0192】ステップS1702:変数iと変数Nk
が等しいか否かが判定される。変数Nkは、キーワード
wの文字数を表す。ステップS1702における判定
が「Yes」であれば、処理は終了する。変数iと変数
kとが等しい場合には、キーワードKwの最後の文字ま
で処理が終わったことを意味するからである。ステップ
S1702における判定が「No」であれば、処理はス
テップS1703に進む。
Step S1702: It is determined whether the variable i is equal to the variable N k . The variable N k represents the number of characters of the keyword K w . If the determination in step S1702 is "Yes", the process ends. This is because when the variable i is equal to the variable N k , it means that the processing has been completed up to the last character of the keyword K w . If the determination in step S1702 is “No”, the process proceeds to step S1703.

【0193】ステップS1703:変数jに、値「0」
が代入される。変数jは、文字認識結果Dc中の文字の
位置を表す添字である。変数jに値「0」を代入するこ
とは、文字認識結果Dcの最初から順に処理が行われる
ことを意味する。
Step S1703: The value "0" is set in the variable j.
Is substituted. The variable j is a subscript indicating the position of the character in the character recognition result D c . Substituting the value “0” into the variable j means that the processing is sequentially performed from the beginning of the character recognition result D c .

【0194】ステップS1704:変数jと変数Nd
が等しいか否かが判定される。変数Ndは、文字認識結
果Dc中の文字の数を表す。ステップS1704におけ
る判定が「Yes」であれば、処理はステップS170
8に進む。変数jと変数Ndとが等しい場合には、文字
認識結果Dc中の最後の文字まで処理が終わったことを
意味するからである。ステップS1704における判定
が「No」であれば、処理はステップS1705に進
む。
Step S1704: It is determined whether the variable j is equal to the variable N d . The variable N d represents the number of characters in the character recognition result D c . If the determination in step S1704 is “Yes”, the process is step S170.
Go to 8. This is because if the variable j and the variable N d are equal, it means that the processing has been completed up to the last character in the character recognition result D c . If the determination in step S1704 is “No”, the process proceeds to step S1705.

【0195】ステップS1705:Kw[i]とC
c[j]とが等しいか否かが判定される。Kw[i]は、
キーワードのi番目の文字の文字コードを表し、C
c[j]は、文字認識結果Dc中のj番目の文字の文字コ
ードを表す。ステップS1705における判定が「Ye
s」であれば、処理はステップS1706に進む。ステ
ップS1705における判定が「No」であれば、処理
はステップS1707に進む。
Step S1705: K w [i] and C
It is determined whether or not c [j] is equal. K w [i] is
Represents the character code of the i-th character of the keyword, C
c [j] represents the character code of the jth character in the character recognition result D c . The determination in step S1705 is “Yes
If “s”, the process proceeds to step S1706. If the determination in step S1705 is “No”, the process proceeds to step S1707.

【0196】このように、ワイルドカード検索手段40
1は、ステップS1705において、文字コードの比較
により、キーワードKwの少なくとも一部が認識結果Dc
の少なくとも一部に一致するか否かを判定する第1判定
手段として機能する。
As described above, the wildcard search means 40
In step S1705, at least a part of the keyword K w is the recognition result D c by comparing the character codes in step S1705.
Functioning as a first determining unit that determines whether or not at least part of

【0197】ステップS1706:検出箇所データのi
番目の位置に、文字Dc[j]が登録される。検出箇所
データは、図2Dを参照して既述したように、長さがN
kのリストである。このリストのi番目のリスト要素と
して、文字Dc[j]が登録される。ステップS170
6の詳細な処理手順は、図19を参照して後述される。
Step S1706: i of detected location data
The character D c [j] is registered at the th position. The detection point data has a length of N as described above with reference to FIG. 2D.
Here is a list of k . The character D c [j] is registered as the i-th list element of this list. Step S170
The detailed processing procedure of 6 will be described later with reference to FIG.

【0198】ステップS1707:変数jが1だけ増加
させられる。これは、認識結果Dc中の次の文字につい
て以降の処理が行われることを意味する。
Step S1707: The variable j is incremented by 1. This means that the subsequent processing is performed for the next character in the recognition result D c .

【0199】ステップS1708:変数iが1だけ増加
させられる。これは、キーワードK w中の次のキーワー
ド文字について以降の処理が行われることを意味する。
Step S1708: The variable i is incremented by 1.
To be made. This is the keyword K wNext Kiwa in
It means that the following processing is performed for the character.

【0200】図18は、図17に示される処理手順によ
って検索された検索結果RDt1を示す。検出箇所データ
RDt[1]には、キーワードKw(=「琵琶湖」)に
含まれる全てのキーワード文字に対して、文字コードが
一致する認識結果Dc中の文字が存在している。検出箇
所データRDt[0]には、キーワードKwの一部の文字
に対して、文字コードが一致する認識結果Dc中の文字
が存在している。検出箇所データRDt[0]中に
「*」で示されるリスト要素1861は、キーワード文
字Kw[2](=「湖」)に文字コードが一致する認識
結果Dc中の文字が存在せず、キーワード文字Kw[2]
に対応する認識結果Dc中の文字が未定であることを意
味する。このようなリスト要素を「ワイルドカード」と
呼ぶ。
FIG. 18 shows the search result RD t1 searched by the processing procedure shown in FIG. In the detection location data RD t [1], there is a character in the recognition result D c whose character code matches all the keyword characters included in the keyword Kw (= “Lake Biwa”). In the detection location data RD t [0], there is a character in the recognition result D c in which the character codes of some characters of the keyword K w match. The list element 1861 indicated by “*” in the detection point data RD t [0] indicates that a character in the recognition result D c whose character code matches the keyword character K w [2] (= “lake”) exists. No, keyword character K w [2]
It means that the character in the recognition result D c corresponding to is undecided. Such list elements are called "wildcards".

【0201】図19は、図17に示されるステップS1
706の詳細な処理手順を示す。
FIG. 19 shows step S1 shown in FIG.
The detailed processing procedure of 706 is shown.

【0202】以下、図19に示される処理手順を各ステ
ップごとに説明する。
The processing procedure shown in FIG. 19 will be described below step by step.

【0203】ステップS1901:変数tに値「0」が
代入される。変数tは、検出箇所データの添字である。
Step S1901: The value "0" is assigned to the variable t. The variable t is a subscript of the detection point data.

【0204】ステップS1902:変数tと変数Nr
が等しいか否かが判定される。変数Nrは、現時点まで
に検出された検出箇所データの数を示す。この判定が
「Yes」であれば処理はステップS1907に進む。
この判定が「Yes」であることは、Dc[j]を登録
可能な検出箇所データが、現時点までに検出された検出
箇所データの中に存在しないことを意味する。ステップ
S1902における判定が「No」であれば処理はステ
ップS1903に進む。
Step S1902: It is judged whether or not the variable t and the variable N r are equal. The variable N r indicates the number of detection point data detected so far. If this determination is “Yes”, the process proceeds to step S1907.
If this determination is “Yes”, it means that the detection point data capable of registering D c [j] does not exist in the detection point data detected up to the present time. If the determination in step S1902 is “No”, the process proceeds to step S1903.

【0205】ステップS1903:検出箇所データRD
t[t]に最後に登録された文字Dc[k]が取得され
る。
Step S1903: Detected location data RD
The last registered character D c [k] at t [t] is obtained.

【0206】ステップS1904:文字Dc[k]に対
応するキーワード文字Kw[m]の添字mが取得され
る。キーワード文字Kw[m]の添字mは、検出箇所デ
ータRDt[t]のリスト中のどの位置に文字Dc[k]
が登録されているかを調べることにより取得される。
Step S1904: The subscript m of the keyword character K w [m] corresponding to the character D c [k] is acquired. The subscript m of the keyword character K w [m] is the character D c [k] at which position in the list of the detection location data RD t [t].
It is obtained by checking if is registered.

【0207】ステップS1905:文字Dc[k]と、
文字Dc[j]との間に、キーワード文字Kw[m+1]
〜Kw[i−1]が過不足なく収まるか否かが判定され
る。この判定は、例えば、文字Dc[k]と、文字D
c[j]との間のスペースが、キーワード文字Kw[m+
1]〜Kw[i−1]の幅の1倍〜1.2倍の範囲内に
あるか否かを判定することにより行われる。この範囲
は、文書の文字と文字との間のスペースの幅に応じて可
変であってもよい。
Step S1905: Character D c [k],
Between keyword D c [j] and keyword character K w [m + 1]
~K w [i-1] is whether fits just enough is determined. This determination is made by, for example, character D c [k] and character D c
The space between c [j] and the keyword character K w [m +
Is performed by determining whether or not within the range of 1 × to 1.2 times the width of 1] ~K w [i-1 ]. This range may be variable depending on the width of the space between characters in the document.

【0208】ステップS1905における判定が「Ye
s」であれば、処理はステップS1909に進む。判定
が「Yes」であることは、文字Dc[j]は検出箇所
データRDt[t]に登録され得ることを意味する。
The determination in step S1905 is “Yes
If “s”, the process proceeds to step S1909. The determination being “Yes” means that the character D c [j] can be registered in the detection location data RD t [t].

【0209】ステップS1905における判定が「N
o」であれば処理はステップS1906に進む。
[0209] The judgment in step S1905 is "N".
If “o”, the process proceeds to step S1906.

【0210】ステップS1906:変数tの値が1だけ
増加される。すなわち、検出箇所データRDt[t]に
は文字Dc[j]を登録せずに、次の検出箇所データに
ついての処理に移る。
Step S1906: The value of the variable t is incremented by 1. That is, the character D c [j] is not registered in the detection location data RD t [t], and the process proceeds to the next detection location data.

【0211】ステップS1907:新たな検出箇所デー
タのためのリストRDt[Nr]が確保され、そのi番目
の位置に文字Dc[j]を登録する。確保されたリスト
RDt[Nr]のi番目の位置以外のリスト要素はワイル
ドカードとなっている。
Step S1907: The list RD t [N r ] for the new detection point data is secured, and the character D c [j] is registered at the i-th position. List elements other than the i-th position of the secured list RD t [N r ] are wild cards.

【0212】ステップS1908:変数Nrの値が1だ
け増加させられる。
Step S1908: The value of the variable N r is incremented by 1.

【0213】ステップS1909:検出箇所データRD
t[t]のi番目の位置に文字Dc[j]が登録される。
Step S1909: Detection location data RD
The character D c [j] is registered at the i-th position of t [t].

【0214】以下、図20Aおよび図20Bを参照し
て、図19に示される処理手順に従って文字認識結果D
cからキーワードKwを検索した例を説明する。ここで、
文字認識結果Dcは図2Bに示されるデータ構造を有す
るものとし、キーワードKwは「琵琶湖畔」であると仮
定する。
Hereinafter, referring to FIGS. 20A and 20B, the character recognition result D according to the processing procedure shown in FIG.
An example of searching the keyword K w from c will be described. here,
It is assumed that the character recognition result D c has the data structure shown in FIG. 2B, and the keyword K w is “shore of Lake Biwa”.

【0215】いま、キーワードKw「琵琶湖畔」のう
ち、「琵琶湖」については処理が完了しており、次にキ
ーワード文字「畔」(Kw[3]、i=3)についての
処理が行われる。
Now, of the keywords K w “Biwako shore”, the processing for “Biwako” has been completed, and the processing for the keyword character “shore” (K w [3], i = 3) is performed next. Be seen.

【0216】図20Aは、キーワードKw「琵琶湖畔」
のうち、「琵琶湖」についての照合処理が完了した時点
の検出箇所データRDt[0]の状態を示す。すでに処
理が完了した「琵琶湖」のうち、「琵」と「琶」につい
ては文字コードが一致する認識結果Dc中の文字(それ
ぞれDc[0]およびDc[1])が存在している。キー
ワード文字「湖」については、文字コードが一致する認
識結果Dc中の文字が存在しないために対応関係が未定
である。キーワード文字「畔」については、文字コード
が一致する認識結果Dc中の文字があるかどうかの判定
がまだ行われていないために、対応関係が未定である。
この判定は、ステップS1705(図17)において行
われる。
FIG. 20A shows the keyword K w "shore of Lake Biwa".
Of these, the state of the detection point data RD t [0] at the time when the matching process for “Lake Biwa” is completed is shown. Among the “Biwako” that have already been processed, there are characters (D c [0] and D c [1]) in the recognition result D c with the same character code for “Biwa” and “Biwa”, respectively. There is. For the keyword character “lake”, there is no character in the recognition result D c having a matching character code, so the correspondence relationship is undetermined. For the keyword character “Kan”, the correspondence relationship is undecided because it has not been determined whether there is a character in the recognition result D c having a matching character code.
This determination is made in step S1705 (FIG. 17).

【0217】いま、変数j=5を仮定する。ステップS
1705において文字Dc[5]の文字コードCc[5]
と、キーワード文字「畔」(Kw[3])の文字コード
とが等しいと判定される。従って処理はステップS17
06に進む。ステップS1706の詳細な処理手順は図
19に示される。
Now, assume that the variable j = 5. Step S
Character code C c of the character D c [5] In 1705 [5]
And the character code of the keyword character "Kan" ( Kw [3]) are determined to be equal. Therefore, the process is step S17.
Proceed to 06. The detailed processing procedure of step S1706 is shown in FIG.

【0218】いま、変数t=0を仮定する。ステップS
1903において、検出箇所データRDt[0]に最後
に登録された文字Dc[k]は、図20Aに参照符号2
062で示される文字Dc[1]である。従って、k=
1となる。
Now, assume that the variable t = 0. Step S
In 1903, the character D c [k] last registered in the detection location data RD t [0] is indicated by reference numeral 2 in FIG. 20A.
It is the character D c [1] indicated by 062. Therefore, k =
It becomes 1.

【0219】ステップS1904において、検出箇所デ
ータRDt[0]の文字Dc[1]に対応するキーワード
文字はキーワード文字Kw[1]である。従って、m=
1となる。
In step S1904, the keyword character corresponding to the character D c [1] of the detection location data RD t [0] is the keyword character K w [1]. Therefore, m =
It becomes 1.

【0220】ステップS1905において、文字D
c[1(=k)]と文字Dc[5(=j)]との間のスペ
ースに、キーワード文字Kw[m+1]〜Kw[i−1]
(この場合、Kw[2])が過不足なく収まるか否かが
判定される。文字Dc[1(=k)]と文字Dc[5(=
j)]との間のスペースは、131である(図2Bに示
されるDc[1]の右下角のx座標318とDc[5]の
左上角のx座標449との差として求められる)。キー
ワード文字Kw[2]の文字幅は、文字幅推定手段40
3により、図5を参照して説明した手順と同様の手順に
よって求められる。キーワード文字Kw[2]の文字幅
が125であるとする。125<131<125×1.
2(=150)が成立するので、文字Dc[1]と文字
c[5]との間のスペースに、キーワード文字K
w[2]が過不足なく収まると判定される。従って処理
はステップS1909に進む。
In step S1905, the character D
c [1 (= k)] and in the space between the characters D c [5 (= j) ], keyword character K w [m + 1] ~K w [i-1]
(In this case, K w [2]) is determined whether it fits in exactly. Character D c [1 (= k)] and character D c [5 (=
j)] is 131 (determined as the difference between the x coordinate 318 of the lower right corner of D c [1] and the x coordinate 449 of the upper left corner of D c [5] shown in FIG. 2B. ). The character width of the keyword character K w [2] is the character width estimation means 40.
3 is obtained by a procedure similar to that described with reference to FIG. It is assumed that the character width of the keyword character K w [2] is 125. 125 <131 <125 × 1.
Since 2 (= 150) is established, the keyword character K is placed in the space between the character D c [1] and the character D c [5].
w It is determined that [2] fits in exactly. Therefore, the process proceeds to step S1909.

【0221】ステップS1909において、RDt
[0]の3(=i)番目の位置に文字D c[5(=
j)]が登録される。
At step S1909, RDt
The character D at the 3 (= i) th position of [0] c[5 (=
j)] is registered.

【0222】図20Bは、文字Dc[5]を登録した時
点における検出箇所データRDt[0]の状態を示す。
図20Bに示される検出箇所データRDt[0]には、
ワイルドカードが含まれている。ワイルドカード検索手
段401は、このようにワイルドカードを有し得る検出
箇所データRDt[t]を含む検索結果RDt1を出力す
る。
FIG. 20B shows the state of the detection point data RD t [0] at the time when the character D c [5] is registered.
The detection location data RD t [0] shown in FIG.
Contains wildcards. The wild card search means 401 outputs the search result RD t1 including the detection location data RD t [t] that may have a wild card in this way.

【0223】検出箇所データにワイルドカードが含まれ
る場合、文字形状検索手段402は、そのワイルドカー
ドの照合を行う。
When the detected location data includes a wild card, the character shape search means 402 collates the wild card.

【0224】図21は、文字形状検索手段402によっ
て行われるワイルドカードの照合の処理手順を示す。
FIG. 21 shows the processing procedure of wildcard matching performed by the character shape searching means 402.

【0225】以下、図21に示される処理手順を各ステ
ップごとに説明する。
The processing procedure shown in FIG. 21 will be described below step by step.

【0226】ステップS2101:変数tに値「0」が
代入される。変数tは、検出箇所データの添字である。
Step S2101: The value "0" is assigned to the variable t. The variable t is a subscript of the detection point data.

【0227】ステップS2102:変数tと変数Nr
が等しいか否かが判定される。変数Nrは、ワイルドカ
ード検索手段401における検索結果RDt1に含まれ
る検出箇所データの個数を示す。ステップS2102に
おける判定が「Yes」であれば処理はステップS21
07に進む。この判定が「Yes」であることは、検索
結果RDt1に含まれる検出箇所データについて処理が完
了したことを意味する。
Step S2102: It is determined whether or not the variable t is equal to the variable N r . The variable N r indicates the number of detection point data included in the search result RDt 1 in the wildcard search means 401. If the determination in step S2102 is "Yes", the process is step S21.
Proceed to 07. If this determination is “Yes”, it means that the processing has been completed for the detection point data included in the search result RD t1 .

【0228】ステップS2102における判定が「N
o」であれば処理はステップS2103に進む。
The judgment in step S2102 is "N".
If “o”, the process proceeds to step S2103.

【0229】ステップS2103:検出箇所データRD
t[t]に、ワイルドカードが存在するか否かが判定さ
れる。ステップS2103における判定が「Yes」で
あれば処理はステップS2104に進む。
Step S2103: Detection location data RD
At t [t], it is determined whether or not a wild card exists. If the determination in step S2103 is "Yes", the process proceeds to step S2104.

【0230】ステップS2103における判定が「N
o」であれば処理はステップS2106に進む。
The judgment in step S2103 is "N".
If “o”, the process proceeds to step S2106.

【0231】ステップS2104:ワイルドカードに対
応するキーワード文字および認識結果Dc中の文字が特
定される。
Step S2104: The keyword character corresponding to the wild card and the character in the recognition result D c are specified.

【0232】ステップS2105:ステップS2104
で特定されたキーワード文字と認識結果Dc中の文字と
が形状照合される。この形状照合でキーワード文字と認
識結果Dc中の文字とが一致した場合には、検出箇所デ
ータRDt[t]のうちのワイルドカードであるリスト
要素に、認識結果Dc中の文字を登録する。一致しなか
った場合には、検出箇所データRDt[t]のうちのワ
イルドカードであるリスト要素はワイルドカードのまま
にしておく。
Step S2105: Step S2104
The shape of the keyword character specified in step 3 is collated with the character in the recognition result D c . If this shape matching the keyword character and the character recognition result in the D c are matched, the list element is a wildcard of the detection point data RD t [t], registers the character recognition result in the D c To do. If they do not match, the list element, which is a wild card, of the detection location data RD t [t] is left as a wild card.

【0233】ステップS2106:変数tを1だけ増加
させる。
Step S2106: The variable t is incremented by 1.

【0234】ステップS2107:ワイルドカードを含
む検出箇所データが削除される。検索結果RDt1に含ま
れる検出箇所データのうち、ステップS2107におい
てワイルドカードを含む検出箇所データを削除した残り
の検出箇所データが、検索結果RDtとして出力され
る。
Step S2107: The detection point data including the wild card is deleted. Of the detection point data included in the search result RD t1 , the remaining detection point data obtained by deleting the detection point data including the wild card in step S2107 is output as the search result RD t .

【0235】いま、文字形状検索手段402に入力され
る検索結果RDt1に含まれる1つの検出箇所データR
t[0]が、図20Bに示される状態であると仮定す
る。この検出箇所データRDt[0(=t)]につい
て、図21に示される処理手順を具体的に適用する例を
以下に説明する。
Now, one detection point data R included in the search result RDt 1 input to the character shape search means 402.
Suppose D t [0] is in the state shown in FIG. 20B. An example in which the processing procedure shown in FIG. 21 is specifically applied to the detection location data RD t [0 (= t)] will be described below.

【0236】検出箇所データRDt[0]の中にはワイ
ルドカードが含まれるので、ステップS2103におけ
る判定は、「Yes」である。
Since the wild card is included in the detection location data RD t [0], the determination in step S2103 is “Yes”.

【0237】ステップS2104において、ワイルドカ
ードに対応するキーワード文字は、検出箇所データRD
t[0]のうち、ワイルドカードの位置を調べることに
より特定される。これにより、ワイルドカードに対応す
るキーワード文字は、Kw[2]と特定される。
[0237] In step S2104, the keyword character corresponding to the wild card is the detection location data RD.
It is specified by checking the position of the wild card in t [0]. As a result, the keyword character corresponding to the wild card is specified as K w [2].

【0238】このように、文字形状検索手段402は、
ステップS2104において、キーワードに含まれる少
なくとも1つのキーワード文字(第1文字)のうち、文
字認識結果に一致しない第1文字を第1不一致文字(こ
の場合Kw[2])として特定する第1不一致文字特定
手段として機能する。
As described above, the character shape searching means 402 is
In step S2104, the first non-matching that identifies the first character that does not match the character recognition result among the at least one keyword character (first character) included in the keyword as the first non-matching character (K w [2] in this case). Functions as a character identification means.

【0239】ステップS2104において、ワイルドカ
ードに対応する認識結果Dc中の文字を特定する処理
は、以下のように行われる。ワイルドカードに対応する
認識結果Dc中の文字は、認識結果Dc中の1または2以
上の連続した文字を結合したものであり、これを第2不
一致文字と呼ぶ。
In step S2104, the process of specifying the character in the recognition result D c corresponding to the wild card is performed as follows. Character recognition result in D c for each wild card is obtained by combining the one or more consecutive characters in the recognition result D c, it is referred to as a second mismatch characters.

【0240】検出箇所データRDt[0]において、ワ
イルドカードの左隣に文字Dc[1]が存在するので、
第2不一致文字は左端の文字として文字Dc[2]を含
むと考えられる。しかし、この時点では、第2不一致文
字の右端の文字がDc[2]〜Dc[4]のうちのどれで
あるのか不明である。すなわち、第2不一致文字が文字
Dc[2]のみからなるのか、文字Dc[2]と文字Dc
[3]とからなるのか、文字Dc[2]と文字Dc[3]
と文字Dc[4]とからなるのか不明である。第2不一
致文字の右端の文字がDc[5]である可能性は考慮す
る必要がない。文字Dc[5]は、すでに検出箇所デー
タRDt[0]の3番目の位置に登録されているからで
ある。
In the detection location data RD t [0], since the character D c [1] exists to the left of the wild card,
The second non-matching character is considered to include the character D c [2] as the leftmost character. However, at this point, it is unclear which of the rightmost characters of the second non-matching character is D c [2] to D c [4]. That is, whether the second mismatch character consists only of characters Dc [2], letter D c [2] and letter D c
Character D c [2] and character D c [3]
It is unknown whether or not it consists of the character D c [4]. It is not necessary to consider the possibility that the rightmost character of the second non-matching character is D c [5]. This is because the character D c [5] has already been registered at the third position of the detection location data RD t [0].

【0241】ステップS2104では、第1不一致文字
(この場合Kw[2])の幅に最も近い幅を有するよう
な第2不一致文字が特定される。第2不一致文字の幅
は、第2不一致文字に含まれるそれぞれの文字に割り当
てられたする部分領域を包含する領域の領域幅として定
義される。このように、文字形状検索手段402はま
た、ステップS2104において、文字認識結果に含ま
れる少なくとも1つの第2文字のうち、第1不一致文字
の幅に最も近い幅を有する1または2以上の連続した第
2文字を第2不一致文字として特定する第2不一致文字
特定手段として機能する。
In step S2104, the second non-matching character having the width closest to the width of the first non-matching character (K w [2] in this case) is specified. The width of the second non-matching character is defined as the area width of the area including the partial area assigned to each character included in the second non-matching character. Thus, in step S2104, the character shape search unit 402 also continuously has at least one or more second characters included in the character recognition result and having one or more consecutive widths that are closest to the width of the first non-matching character. It functions as a second non-matching character specifying means for specifying the second character as the second non-matching character.

【0242】図22は、結合される文字と領域幅との関
係を示す。
FIG. 22 shows the relationship between the characters to be combined and the area width.

【0243】文字Dc[2]の領域幅は35であり、文
字Dc[2]と文字Dc[3]とを結合した場合の領域幅
は80であり、文字Dc[2]と文字Dc[3]と文字D
c[4]とを結合した場合の領域幅は125である。こ
のような領域幅は、図2Bに示される文字座標から求め
られる。
The area width of the character D c [2] is 35, the area width when the character D c [2] and the character D c [3] are combined is 80, and the area width of the character D c [2] is Character D c [3] and character D
The area width when c and [4] are combined is 125. Such a region width is obtained from the character coordinates shown in FIG. 2B.

【0244】一方、文字幅推定手段403によりキーワ
ード文字Kw[2]の幅Kww[2]が求められる。Kww
[2]=125である場合には、第1不一致文字(この
場合Kw[2])の幅に最も近い幅を有するような第2
不一致文字として、文字Dc[2]と文字Dc[3]と文
字Dc[4]とを結合したものが特定される。文字D
c[2]と文字Dc[3]と文字Dc[4]とを結合した
ものを、リスト(Dc[2],Dc[3],Dc[4])
と記載する。
On the other hand, the character width estimating means 403 obtains the width K ww [2] of the keyword character K w [2]. K ww
If [2] = 125, then the second with the width closest to the width of the first non-matching character (K w [2] in this case).
As the non-matching character, a combination of the character D c [2], the character D c [3], and the character D c [4] is specified. Letter D
A list (D c [2], D c [3], D c [4]) obtained by combining c [2] and the character D c [3] and the character D c [4].
Enter.

【0245】ステップS2105(図21)で、キーワ
ード文字Kw[2]と、文字(Dc[2],Dc[3],
c[4])とが形状照合される。この形状照合は、文
字Dc[2]〜Dc[4]に割り当てられた部分領域を包
含する矩形で囲まれる文字画像(文書画像Diから求め
られる)の特徴量と、キーワード文字Kw[2]の文字
画像(文字画像テーブル404から求められる)の特徴
量とを比較することによって行われる。それぞれの特徴
量はベクトル量であり、両者のユークリッド距離が所定
の閾値Thd1より小さい場合には、リスト(D
c[2],Dc[3],Dc[4])を検出箇所データR
t[0]の2番目の位置に登録する。あるいは、図2
2に参照符号2262として示される文字を新たに生成
し、文字2262を検出箇所データRDt[0]の2番
目の位置に登録してもよい。新たに生成した文字226
2は、文字Dc[2]、Dc[3]、Dc[4]を結合し
た文字を示す。
At step S2105 (FIG. 21), the keyword character K w [2] and the characters (D c [2], D c [3],
D c [4]) is shape-matched. In this shape matching, the feature amount of a character image (obtained from the document image D i ) enclosed by a rectangle including the partial areas assigned to the characters D c [2] to D c [4] and the keyword character K w. It is performed by comparing with the feature amount of the character image of [2] (obtained from the character image table 404). Each feature amount is a vector amount, and if the Euclidean distance between them is smaller than a predetermined threshold Thd 1 , the list (D
c [2], D c [3], D c [4]) is detected point data R
Register at the second position of D t [0]. Alternatively, FIG.
The character indicated by reference numeral 2262 in 2 may be newly generated, and the character 2262 may be registered in the second position of the detection location data RDt [0]. Newly generated character 226
2 indicates a character in which the characters D c [2], D c [3], and D c [4] are combined.

【0246】このように、文字形状検索手段402は、
ステップS2105において、キーワード文字K
w[2](第1不一致文字)の画像の特徴量と、第2不
一致文字に含まれる文字Dc[2]、Dc[3]、D
c[4](1または2以上の連続した第2文字)に割り
当てられた1または2以上の部分領域を含む領域の画像
の特徴量とを比較することにより、前記第1不一致文字
が前記第2不一致文字に一致するか否かを判定する第2
判定手段として機能する。
In this way, the character shape retrieval means 402
In step S2105, the keyword character K
w [2] (first non-matching character) image feature amount and characters D c [2], D c [3], D included in the second non-matching character
c [4] (1 or 2 or more consecutive second characters) is compared with a feature amount of an image of an area including 1 or 2 or more partial areas assigned to the first non-matching character 2nd judgment of whether or not it matches 2 non-matching characters
It functions as a judgment means.

【0247】また、キーワードが「琵琶湖」である別の
例で、図18に示される検出箇所データRDt[0]の
ようにワイルドカードが検出箇所データの端にある場合
でも、上述した処理手順と同様の処理手順により第2不
一致文字を特定することができる。
Further, in another example in which the keyword is "Lake Biwa", even when the wild card is at the end of the detection point data as in the detection point data RD t [0] shown in FIG. 18, the above-mentioned processing procedure is performed. The second non-matching character can be specified by the same processing procedure as.

【0248】検出箇所データRDt[0](図18)で
はワイルドカードの左隣のリスト要素に文字Dc[1]
が登録されているので、第2不一致文字の左端の文字は
c[2]であると考えられる。文字Dc[2]を基準と
して、結合する文字の数を可変とし、キーワード文字K
w[2]の幅と領域幅(結合された少なくとも1つの文
字の幅、すなわち第2不一致文字の幅)との比較を繰り
返すことにより、第2不一致文字が特定される。この比
較の際に、キーワード文字Kw[2]の幅に応じて、第
2不一致文字の幅の許容値を算出し、第2不一致文字の
幅がこの許容幅よりも小さいという条件下で、第2不一
致文字を特定してもよい。例えば、許容幅をキーワード
文字Kw[2]の1.2倍とすると、結合する文字の数
が4である場合(Dc[2]+Dc[3]+Dc[4]+
c[5]の場合)の領域幅は、図22の参照符号22
61に示されるように、253となり、許容幅(125
×1.2=150)を超える。従って、結合する文字の
数が4以上の場合は考慮する必要がなくなり、文字Dc
[2]、Dc[3]およびDc[4]が、第2不一致文字
として特定される。
In the detection location data RD t [0] (FIG. 18), the character D c [1] is added to the list element to the left of the wild card.
Is registered, it is considered that the leftmost character of the second mismatch character is D c [2]. With the character D c [2] as a reference, the number of characters to be combined is variable, and the keyword character K
The second non-matching character is specified by repeating the comparison between the width of w [2] and the region width (the width of the combined at least one character, that is, the width of the second non-matching character). In this comparison, the allowable value of the width of the second non-matching character is calculated according to the width of the keyword character K w [2], and under the condition that the width of the second non-matching character is smaller than this allowable width, The second non-matching character may be specified. For example, if the allowable width is 1.2 times the keyword character K w [2], and the number of characters to be combined is 4, (D c [2] + D c [3] + D c [4] +
The area width of D c [5]) is 22 in FIG.
As shown in 61, it becomes 253, and the allowable width (125
X1.2 = 150) is exceeded. Therefore, when the number of characters to be combined is 4 or more, it is not necessary to consider, and the character D c
[2], D c [3], and D c [4] are specified as the second mismatch character.

【0249】別の状況で、ワイルドカードが連続して存
在する場合、上述した処理手順により、1つずつ第2不
一致文字を特定することが可能である。
In another situation, when the wildcards are consecutively present, it is possible to specify the second non-matching characters one by one by the processing procedure described above.

【0250】上述した例では、第2不一致文字を特定す
る際に、第2不一致文字の左端の文字(Dc[2])を
固定し、その右側に結合する文字の数を可変としてい
た。これとは逆に、第2不一致文字を特定する際に、第
2不一致文字の右端の文字を固定し、その左側に結合す
る文字の数を可変とする処理も、上述した処理手順と同
様に行われ得る。
In the above example, when the second non-matching character is specified, the leftmost character (D c [2]) of the second non-matching character is fixed, and the number of characters to be joined to the right side of the second non-matching character is variable. On the contrary, when specifying the second non-matching character, the process of fixing the rightmost character of the second non-matching character and varying the number of characters to the left of the second non-matching character is similar to the above-described processing procedure. Can be done.

【0251】なお、ワイルドカードが連続している場合
や、検出箇所データの端にワイルドカード文字が存在す
る場合、第2不一致文字として特定される可能性のある
文字を可能な限り小さな要素に分割し、この要素に対し
てステップS2104およびステップS2105の処理
を行ってもよい。この分割は、OCR装置202によっ
て隣接する文字が結合して認識された場合でも検索漏れ
を防ぐために行われる。文書が横書きである場合、この
分割は、例えば、垂直方向に黒画素の射影ヒストグラム
を求め、射影ヒストグラムが予め定められた閾値よりも
小さい部分で行われる。
When wildcards are continuous or when wildcard characters are present at the end of the detected position data, the character that may be specified as the second non-matching character is divided into the smallest possible elements. However, the processing of steps S2104 and S2105 may be performed on this element. This division is performed to prevent omission of search even when adjacent characters are combined and recognized by the OCR device 202. When the document is written horizontally, for example, this division is performed in a portion where the projection histogram of black pixels in the vertical direction is obtained and the projection histogram is smaller than a predetermined threshold value.

【0252】なお、ワイルドカード検索手段401は、
キーワード中の文字が少なくとも1つ以上文字認識結果
に一致する検出箇所データを検索結果RDt1として出力
したが、キーワード中の文字が予め指定した数以上文字
認識結果に一致する検出箇所データを検索結果RDt1
して出力してもよい。例えば、ワイルドカード検索手段
401は、キーワード中の文字のうち、半分以上が文字
認識結果に一致する検出箇所データを出力してもよい。
The wildcard search means 401 is
The detection location data in which at least one character in the keyword matches the character recognition result is output as the search result RD t1 , but the detection location data in which the number of characters in the keyword matches the character recognition result in a predetermined number or more It may be output as RD t1 . For example, the wildcard search means 401 may output detection location data in which more than half of the characters in the keyword match the character recognition result.

【0253】また、ワイルドカード検索手段401にお
いて、キーワード文字の文字コードと文字認識結果Dc
中の文字の文字コードが一致するか否かを判定していた
が、キーワード文字の類似文字の文字コードと、文字認
識結果Dc中の文字の文字コードが一致するか否かを判
定してもよい。類似文字とは、例えば、(カタカナの
「タ」と漢字の「夕」)、(「犬」と「大」と「太」)
などのように、形状の類似した文字を意味する。
Further, in the wild card search means 401, the character code of the keyword character and the character recognition result D c
It was determined whether or not the character codes of the middle characters match, but it is determined whether or not the character codes of the similar characters of the keyword character and the character codes of the character recognition result D c match. Good. The similar characters are, for example, ("kata" in katakana and "evening" in kanji), ("dog", "large" and "thick").
It means a character with a similar shape, such as.

【0254】以上のように、本発明の実施の形態2の文
書検索装置451によれば、文字コードの比較におい
て、キーワードに含まれるキーワード文字のうち1文字
でも文字認識結果Dc中の文字と一致すれば、文字認識
結果Dcのうち、その近傍を対象として画像の特徴量の
比較に基づく照合が行われる。文字コードの比較におい
て、キーワードの文字の全てが文字認識結果Dc中の文
字と一致することは必要ではない。従って、文字認識の
誤りに起因する検索漏れを減らすことができる。また、
画像の特徴量の比較に基づく検索の対象は、文字コード
の比較においてキーワードの文字のうち1文字でも文字
認識結果Dc中の文字と一致した検出箇所に限定される
ので、検索にかかるコスト(時間および計算量)は低く
て済む。
As described above, according to the document retrieval apparatus 451 of the second embodiment of the present invention, even if one of the keyword characters included in the keyword is compared with the character in the character recognition result D c in the character code comparison. If they match, the matching is performed based on the comparison of the image feature amounts in the vicinity of the character recognition result D c . In comparing the character codes, it is not necessary that all the characters of the keyword match the characters in the character recognition result D c . Therefore, it is possible to reduce the omission of search due to an error in character recognition. Also,
Since the target of the search based on the comparison of the image feature amounts is limited to the detection position where even one of the characters of the keyword in the character code matches the character in the character recognition result D c , the cost of the search ( Time and calculation amount) are low.

【0255】(実施の形態3)図23は本発明の実施の
形態3の文書検索システム1561の構成を示す。文書
検索システム1561は、実施の形態1および実施の形
態2で説明された文書検索装置の利用形態の一例であ
る。
(Third Embodiment) FIG. 23 shows the configuration of a document search system 1561 according to a third embodiment of the present invention. The document search system 1561 is an example of a usage pattern of the document search device described in the first and second embodiments.

【0256】文書検索システム1561は、第1の通信
手段1501と、センター1502と、画像登録サーバ
1503と、画像検索サーバ1504と、画像データベ
ース1505と、第2の通信手段1506と、端末15
07とを備える。
The document search system 1561 includes a first communication means 1501, a center 1502, an image registration server 1503, an image search server 1504, an image database 1505, a second communication means 1506, and a terminal 15.
07 and.

【0257】第1の通信手段1501と第2の通信手段
1506とは、通信回線1509を介して通信を行う。
通信回線1509は、例えば、電話回線(PHS、携帯
電話を含む)やインターネット(無線または有線)であ
り得る。
[0257] The first communication means 1501 and the second communication means 1506 communicate with each other via the communication line 1509.
The communication line 1509 can be, for example, a telephone line (including PHS and mobile phone) or the Internet (wireless or wired).

【0258】画像登録サーバ1503は、OCRによる
文字認識の機能を有する。
The image registration server 1503 has a function of character recognition by OCR.

【0259】端末1507は、例えば、スキャナを備え
ており、オリジナルの文書から文書画像データを得るこ
とができる。あるいは、端末1507は、デジタルカメ
ラで撮影した文書画像データを取込むことができる。
The terminal 1507 is equipped with a scanner, for example, and can obtain document image data from an original document. Alternatively, the terminal 1507 can capture document image data captured by a digital camera.

【0260】画像検索サーバ1504は、例えば、実施
の形態1および実施の形態2で説明された文書検索装置
を備える。
The image search server 1504 includes, for example, the document search device described in the first and second embodiments.

【0261】ユーザは端末1507に、スキャナやデジ
タルカメラ等により得られた文書画像データを入力す
る。端末1507は、この文書画像データをセンター1
502に送信する。センター1502は文書画像データ
を受け取り、画像登録サーバ1503に送る。画像登録
サーバ1503は文書画像データに対してOCRによる
文字認識を行い、文字認識結果と文書画像データとを画
像データベース1505に保存する。
The user inputs the document image data obtained by a scanner, a digital camera or the like into the terminal 1507. The terminal 1507 sends this document image data to the center 1
Send to 502. The center 1502 receives the document image data and sends it to the image registration server 1503. The image registration server 1503 performs character recognition by OCR on the document image data, and stores the character recognition result and the document image data in the image database 1505.

【0262】ユーザはセンター1502と通信可能な任
意の端末から、画像データベース1505に保存された
文書を検索することができる。また、閲覧・印刷・回覧
等のサービスも利用することができる。画像データベー
ス1505に保存された文書の閲覧は、画像閲覧ソフト
を介して行われる。画像閲覧ソフトとしては、例えば、
HTML(Hyper Text Markup La
nguage)形式の文書を閲覧するブラウザが使用さ
れ得る。
The user can retrieve the document stored in the image database 1505 from any terminal capable of communicating with the center 1502. You can also use services such as browsing, printing, and circulation. The document stored in the image database 1505 is browsed through image browsing software. As image browsing software, for example,
HTML (Hyper Text Markup La
A browser that browses documents in the ngage) format may be used.

【0263】センター1502は、個人同定手段を有し
ており、画像テータベース1505をユーザごとに専用
化したり、サービスの利用に対する課金をユーザごとに
行うことが可能である。
The center 1502 has a personal identification means, and it is possible to dedicate the image database 1505 to each user and to charge the use of the service for each user.

【0264】個人同定手段としては、公知の技術による
指紋照合システムやパスワードが使用され得る。
As a personal identification means, a fingerprint collation system or password according to a known technique can be used.

【0265】このように、本発明の実施の形態3の文書
検索システム1561によれば、ユーザは、ユーザの保
有する文書を、いつでも、どこからでも閲覧・検索する
ことが可能になる。
As described above, according to the document search system 1561 of the third embodiment of the present invention, the user can browse and search the document owned by the user anytime, anywhere.

【0266】上述した実施の形態1および2で説明した
文書検索処理は、プログラムの形式で記録媒体に記録さ
れ得る。記録媒体としては、フロッピー(登録商標)デ
ィスクやCD−ROMなどのコンピュータによって読み
取り可能な任意のタイプの記録媒体を使用することがで
きる。記録媒体から読み出された文書検索処理プログラ
ムをコンピュータにインストールすることにより、その
コンピュータを文書検索装置として機能させることが可
能になる。
The document search process described in the first and second embodiments can be recorded in the recording medium in the form of a program. As the recording medium, any type of computer-readable recording medium such as a floppy (registered trademark) disk or a CD-ROM can be used. By installing the document search processing program read from the recording medium into the computer, the computer can be made to function as the document search device.

【0267】なお、上述した実施の形態1および2で
は、日本語の文書を例にとり説明した。しかし、本発明
の適用は、日本語の文書に限定されない。他の任意の言
語の文書(例えば、中国語の文書、英語の文書、韓国語
の文書)に本発明を適用することも可能である。
In the above-described first and second embodiments, a Japanese document has been described as an example. However, the application of the present invention is not limited to Japanese documents. It is also possible to apply the present invention to documents in any other language (for example, Chinese documents, English documents, Korean documents).

【0268】また、上述した実施の形態1および2で
は、形状照合手段において、キーワード文字の文字画像
KCiの特徴量と文書画像データ中の文字画像Ciの特徴
量とを比較する際の閾値Thd1は所定の値であるとし
た。閾値Thd1は、キーワード文字の文字コードに応
じて変化させてもよい。例えば、予め文字画像テーブル
を用いて、使用されているフォントの文字画像の特徴量
と、文書画像データ中の文字画像の特徴量との距離の確
率分布を求め、任意の確率を設定することにより閾値T
hd1を決めることができる。また、閾値Thd1を制御
することにより、検索の精度を自由に制御することが可
能になる。
Further, in the above-described first and second embodiments, the threshold value used when the shape matching means compares the feature amount of the character image KC i of the keyword character with the feature amount of the character image C i in the document image data. Thd 1 is assumed to be a predetermined value. The threshold Thd 1 may be changed according to the character code of the keyword character. For example, by using a character image table in advance, the probability distribution of the distance between the feature amount of the character image of the font used and the feature amount of the character image in the document image data is obtained, and an arbitrary probability is set. Threshold T
You can decide hd 1 . Further, by controlling the threshold value Thd 1 , it becomes possible to freely control the accuracy of the search.

【0269】[0269]

【発明の効果】本発明によれば、検索漏れを減らすこと
ができる文書検索装置および記録媒体を提供することが
できる。
As described above, according to the present invention, it is possible to provide a document retrieval device and a recording medium capable of reducing omission of retrieval.

【0270】本発明によれば、文字認識結果からキーワ
ードを検索する際に、まず、文字コードの比較に基づく
検索がなされる。次に、文字コードの比較に基づく検索
によってキーワードと一致しなかった部分のうち、所定
の条件を満たす部分について画像の特徴量の比較に基づ
く検索がなされる。これによって、文字コードの比較に
基づく検索において発生し得る検索漏れは、画像の特徴
量の比較に基づく検索によってカバーされる。従って、
文字認識の誤りに起因する検索漏れを減らすことができ
る。また、画像の特徴量の比較に基づく検索の対象は、
所定の条件を満たす部分に限定されるので、検索にかか
るコスト(時間および計算量)は低くて済む。
According to the present invention, when searching a keyword from a character recognition result, first, a search is performed based on comparison of character codes. Next, of the portions that do not match the keyword by the search based on the comparison of the character codes, the portion that satisfies the predetermined condition is searched based on the comparison of the image feature amounts. Thus, a search omission that may occur in the search based on the comparison of character codes is covered by the search based on the comparison of image feature amounts. Therefore,
It is possible to reduce search omissions due to character recognition errors. In addition, the target of the search based on the comparison of the image feature amount is
Since it is limited to the part that satisfies the predetermined condition, the cost (time and calculation amount) required for the search can be low.

【0271】本発明によれば、文字コードの比較におい
て、キーワードの文字のうち1文字でも文字認識結果中
の文字と一致すれば、その近傍を対象として画像の特徴
量の比較に基づく照合が行われる。文字コードの比較に
おいて、キーワードの文字の全てが文字認識結果中の文
字と一致することは必要ではない。従って、文字認識の
誤りに起因する検索漏れを減らすことができる。また、
画像の特徴量の比較に基づく検索の対象は、文字コード
の比較においてキーワードの文字のうち1文字でも文字
認識結果中の文字と一致した検出箇所に限定されるの
で、検索にかかるコスト(時間および計算量)は低くて
済む。
According to the present invention, in the comparison of character codes, if any one of the characters of the keyword matches with the character in the character recognition result, the collation based on the comparison of the image feature amount is performed in the vicinity thereof. Be seen. In comparing character codes, it is not necessary that all the characters of the keyword match the characters in the character recognition result. Therefore, it is possible to reduce the omission of search due to an error in character recognition. Also,
The search target based on the comparison of the image feature amounts is limited to the detection position where even one of the characters of the keyword matches the character in the character recognition result in the comparison of the character codes. The amount of calculation) is low.

【図面の簡単な説明】[Brief description of drawings]

【図1】文書ファイリングシステム210の構成を示す
FIG. 1 is a diagram showing the configuration of a document filing system 210.

【図2A】文書画像データDiの例を示す図FIG. 2A is a diagram showing an example of document image data D i .

【図2B】文書画像データDiについて文字認識を実行
した結果である文字認識結果Dcのデータ構造を示す図
FIG. 2B is a diagram showing a data structure of a character recognition result D c which is a result of performing character recognition on document image data D i .

【図2C】キーワードKwのデータ構造を示す図FIG. 2C is a diagram showing a data structure of a keyword K w .

【図2D】検索結果RDtのデータ構造を示す図FIG. 2D is a diagram showing a data structure of a search result RD t .

【図3】文字ブロックデータDtの構造を示す図FIG. 3 is a diagram showing a structure of character block data D t .

【図4】本発明の実施の形態1の文書検索装置1の構成
を示すブロック図
FIG. 4 is a block diagram showing a configuration of a document search device 1 according to the first embodiment of the present invention.

【図5】文字幅推定手段104が、キーワードKwに含
まれる各文字Kw[i]の文字幅を推定する例を示す図
FIG. 5 is a diagram showing an example in which a character width estimation unit 104 estimates a character width of each character K w [i] included in a keyword K w .

【図6】所定の条件を満たす候補部分SDcを特定する
処理の例を示す図
FIG. 6 is a diagram showing an example of processing for identifying a candidate portion SD c that satisfies a predetermined condition.

【図7】文字形状検索手段103の詳細な構成を示すブ
ロック図
FIG. 7 is a block diagram showing a detailed configuration of a character shape search unit 103.

【図8】文字画像抽出手段301においてキーワードK
w中の特定の文字と対応する候補部分SDc中の文字が特
定される例を示す図
FIG. 8 shows a keyword K in the character image extracting means 301.
shows an example in which the character is identified in the corresponding candidate portions in SD c with a particular character in w

【図9】文字画像Ciから特徴量(ベクトル量)を求め
る方法の例を示す図
FIG. 9 is a diagram showing an example of a method for obtaining a feature amount (vector amount) from a character image C i .

【図10】文字形状検索手段103のバリエーションと
しての文字形状検索手段103aの構成を示すブロック
FIG. 10 is a block diagram showing the configuration of a character shape search unit 103a as a variation of the character shape search unit 103.

【図11】文書検索装置1のバリエーションとしての文
書検索装置701の構成を示すブロック図
FIG. 11 is a block diagram showing the configuration of a document search device 701 as a variation of the document search device 1.

【図12】文書検索装置701のバリエーションとして
の文書検索装置801の構成を示すブロック図
FIG. 12 is a block diagram showing the configuration of a document search device 801 as a variation of the document search device 701.

【図13】文書検索装置701のバリエーションとして
の文書検索装置901の構成を示すブロック図
FIG. 13 is a block diagram showing the configuration of a document search device 901 as a variation of the document search device 701.

【図14】文書検索装置1のバリエーションとしての文
書検索装置1151の構成を示すブロック図
FIG. 14 is a block diagram showing the configuration of a document search device 1151 as a variation of the document search device 1.

【図15】文書検索装置1151のバリエーションとし
ての文書検索装置1051の構成を示すブロック図
FIG. 15 is a block diagram showing the configuration of a document search device 1051 as a variation of the document search device 1151.

【図16】本発明の実施の形態2の文書検索装置451
の構成を示すブロック図
FIG. 16 is a document search device 451 according to the second embodiment of the present invention.
Block diagram showing the configuration of

【図17】ワイルドカード検索手段401における処理
手順を示すフローチャート
FIG. 17 is a flowchart showing a processing procedure in the wildcard search means 401.

【図18】図17に示される処理手順によって検索され
た検索結果RDt1を示す図
FIG. 18 is a diagram showing a search result RD t1 searched by the processing procedure shown in FIG. 17;

【図19】図17に示されるステップS1706の詳細
な処理手順を示すフローチャート
FIG. 19 is a flowchart showing a detailed processing procedure of step S1706 shown in FIG.

【図20A】キーワードKw「琵琶湖畔」のうち、「琵
琶湖」についての照合処理が完了した時点の検出箇所デ
ータRDt[0]の状態を示す図
FIG. 20A is a diagram showing a state of detection point data RD t [0] at the time when the matching process for “Lake Biwa” in the keyword K w “Biwako shore” is completed.

【図20B】文字Dc[5]を登録した時点における検
出箇所データRDt[0]の状態を示す図
FIG. 20B is a diagram showing a state of detection point data RD t [0] when the character D c [5] is registered.

【図21】文字形状検索手段402におけるワイルドカ
ードの照合の処理手順を示すフローチャート
FIG. 21 is a flowchart showing a wild card matching process procedure in the character shape searching unit 402.

【図22】結合される文字と領域幅の関係を示す図FIG. 22 is a diagram showing a relationship between a combined character and a region width.

【図23】本発明の実施の形態3の文書検索システム1
561の構成を示す図
FIG. 23 is a document search system 1 according to the third embodiment of the present invention.
Diagram showing the configuration of 561

【図24A】オリジナルの文書中に含まれる文字「本」
および「口」が、文字認識における誤りにより、それぞ
れ形状の類似した「木」および「区」という文字に対応
する文字コードに変換されている例を示す図
FIG. 24A is a character “book” included in an original document.
And "mouth" are converted into character codes corresponding to the characters "tree" and "ku", which have similar shapes, due to an error in character recognition.

【図24B】類似文字のリストの例を示す図FIG. 24B is a diagram showing an example of a list of similar characters.

【符号の説明】[Explanation of symbols]

1、451、701、801、901、1051、11
51 文書検索装置 101 テキスト検索手段 102 文字特定手段 103、402 文字形状検索手段 104、403 文字幅推定手段 201 画像入力装置 202 OCR装置 203 文書データベース 204 文書検索装置 205 表示装置 210 文書ファイリングシステム 301 文字画像抽出手段 302、404 文字画像テーブル 303 形状照合手段 304、606 照合制御手段 401 ワイルドカード検索手段 602 類似文字照合手段 705 検索精度制御手段 805 品質情報抽出手段 905 検索精度指定手段 1002、1102 類似文字列平均化手段 1103 文字列再検出手段
1, 451, 701, 801, 901, 1051, 11
51 document search device 101 text search means 102 character specification means 103, 402 character shape search means 104, 403 character width estimation means 201 image input device 202 OCR device 203 document database 204 document search device 205 display device 210 document filing system 301 character image Extracting means 302, 404 Character image table 303 Shape matching means 304, 606 Matching control means 401 Wildcard searching means 602 Similar character matching means 705 Search accuracy control means 805 Quality information extracting means 905 Search accuracy specifying means 1002, 1102 Similar character string average Characterizing means 1103 character string re-detecting means

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G06K 9/00 G06K 9/00 S 9/62 620 9/62 620D (72)発明者 目片 強司 大阪府門真市大字門真1006番地 松下電 器産業株式会社内 (56)参考文献 特開2001−337993(JP,A) 松川善彦、今川太郎、近藤堅司、目方 強司,形状特徴検索併用による文書画像 検索の性能向上,電子情報通信学会技術 研究報告,日本,社団法人電子情報通信 学会,1999年 9月16日,第99巻、第 305号、PRMU99−74,第77−83頁 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 310 - 419 G06K 9/00 - 9/72 ─────────────────────────────────────────────────── ─── Continuation of the front page (51) Int.Cl. 7 Identification code FI G06K 9/00 G06K 9/00 S 9/62 620 9/62 620D (72) Inventor Koji Kaji, Osaka Prefecture Kadoma City Daimon Kadoma 1006 Address: Matsushita Electric Industrial Co., Ltd. (56) References JP 2001-337993 (JP, A) Matsukawa Yoshihiko, Imagawa Taro, Kondo Kenji, Meguro Koji, improved document image search performance using shape feature search, electronic information IEICE Technical Report, Japan, The Institute of Electronics, Information and Communication Engineers, September 16, 1999, Volume 99, No. 305, PRMU99-74, 77-83 (58) Fields investigated (Int.Cl. 7 , DB name) G06F 17/30 310-419 G06K 9/00-9/72

Claims (6)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 文書の画像に対して文字認識を行うこと
によって得られる認識結果からキーワードを検索する文
書検索装置であって、 前記キーワードは、少なくとも1つの第1文字を含んで
おり、前記少なくとも1つの第1文字のそれぞれには文
字コード及び文字画像が割り当てられており、 前記認識結果は、少なくとも1つの第2文字を含んでお
り、前記少なくとも1つの第2文字のそれぞれには文字
コードと、前記文書の画像の部分領域とが割り当てられ
ており、前記文書検索装置は、 前記文字コードの比較に基づいて、前記キーワードに一
致する少なくとも1つの第1一致部分が前記認識結果に
存在するか否かを判定し、存在する場合には、前記少な
くとも1つの第1一致部分を特定する第1一致部分特定
手段と、 所定の第1条件を満たす少なくとも1つの第1部分が前
記認識結果から前記特定された少なくとも1つの第1一
致部分を除いた部分に存在するか否かを判定し、存在す
る場合には、前記少なくとも1つの第1部分を特定する
第1部分特定手段と、 前記第1部分に含まれる前記第2文字に割り当てられた
前記部分領域の画像の特徴量と、前記キーワードに含ま
れる前記第1文字の前記文字画像の特徴量との比較に基
づいて、前記キーワードに一致する少なくとも1つの第
2一致部分が前記特定された少なくとも1つの第1部分
に存在するか否かを判定し、存在する場合には、前記少
なくとも1つの第2一致部分を特定する第2一致部分特
定手段とを備え、 前記所定の第1条件は、予め定められた幅より小さい幅
を有する特定の第2文字の近傍に前記第1部分がある
いう条件である、文書検索装置。
1. A document search device for searching a keyword from a recognition result obtained by performing character recognition on an image of a document, wherein the keyword includes at least one first character, A character code and a character image are assigned to each one of the first characters, the recognition result includes at least one second character, and each of the at least one second character includes a character code and a character code. , A partial area of the image of the document is assigned, and the document search device determines whether at least one first matching portion matching the keyword is present in the recognition result based on the comparison of the character codes. It is determined whether or not there is, and if there is, a first matching part specifying means for specifying the at least one first matching part, and a predetermined first condition. It is determined whether or not at least one first portion to be added exists in a portion excluding the specified at least one first matching portion from the recognition result, and if there is, at least one first portion. a first part specifying means for specifying a part, the feature amount of the image of the said partial area assigned to the second character included in the first part, of the character image of the first character included in the keyword Based on the comparison with the feature amount, it is determined whether at least one second matching portion that matches the keyword is present in the specified at least one first portion. A second matching part specifying unit for specifying one second matching part, wherein the predetermined first condition is a width smaller than a predetermined width.
The document search device having a condition that the first portion is present in the vicinity of a specific second character having a .
【請求項2】 文書の画像に対して文字認識を行うこと
によって得られる認識結果からキーワードを検索する文
書検索装置であって、 前記キーワードは、少なくとも1つの第1文字を含んで
おり、前記少なくとも1つの第1文字のそれぞれには文
字コード及び文字画像が割り当てられており、 前記認識結果は、少なくとも1つの第2文字を含んでお
り、前記少なくとも1つの第2文字のそれぞれには文字
コードと、前記文書の画像の部分領域と、前記文字認識
を行った際に得られる文字認識の確からしさを示す信頼
度とが割り当てられており、 前記文書検索装置は、 前記文字コードの比較に基づいて、前記キーワードに一
致する少なくとも1つの第1一致部分が前記認識結果に
存在するか否かを判定し、存在する場合には、前記少な
くとも1つの第1一致部分を特定する第1一致部分特定
手段と、 所定の第1条件を満たす少なくとも1つの第1部分が前
記認識結果から前記特定された少なくとも1つの第1一
致部分を除いた部分に存在するか否かを判定し、存在す
る場合には、前記少なくとも1つの第1部分を特定する
第1部分特定手段と、 前記第1部分に含まれる前記第2文字に割り当てられた
前記部分領域の画像の特徴量と、前記キーワードに含ま
れる前記第1文字の前記文字画像の特徴量との比較に基
づいて、前記キーワードに一致する少なくとも1つの第
2一致部分が前記特定された少なくとも1つの第1部分
に存在するか否かを判定し、存在する場合には、前記少
なくとも1つの第2一致部分を特定する第2一致部分特
定手段を備え 前記所定の第1条件は割り当てられた前記信頼度が所
定の閾値よりも小さい特定の第2文字の近傍に前記第1
部分があるという条件である、文書検索装置。
2. A document search device for searching a keyword from a recognition result obtained by performing character recognition on an image of a document, wherein the keyword includes at least one first character, A character code and a character image are assigned to each one of the first characters, the recognition result includes at least one second character, and each of the at least one second character includes a character code and a character code. , The partial area of the image of the document and the character recognition
Trust that indicates the certainty of character recognition obtained when performing
And the document search device determines whether or not at least one first matching portion that matches the keyword exists in the recognition result based on the comparison of the character codes, and In the case of performing, at least one first matching part specifying means for specifying the at least one first matching part, and at least one first part satisfying a predetermined first condition are at least one first specified part from the recognition result. The first part specifying means for judging whether or not the first part is present in the part excluding the one matching part, and if the part is present, the second part included in the first part and the feature quantity of the image of the partial area allocated to the character, based on a comparison of the feature quantity of the character image of the first character included in the keyword, the less matches said keyword Also determines whether one second matching portion exists in the specified at least one first portion, and if so, specifies a second matching portion that specifies the at least one second matching portion. and means, the predetermined first condition, wherein the confidence assigned to the vicinity of the small specific second character than a predetermined threshold value first
A document retrieval device, provided that there is a part .
【請求項3】 前記文書の画像の画質を判定する手段
と、 前記判定された画像の画質に基づいて前記所定の閾値を
決定する手段とをさらに備えた、請求項2に記載の文書
検索装置。
3. The document search device according to claim 2, further comprising: a unit that determines the image quality of the image of the document; and a unit that determines the predetermined threshold value based on the determined image quality of the image. .
【請求項4】 前記第2一致部分特定手段は、前記第1
部分に含まれる前記第2文字の文字コードが、前記キー
ワードに含まれる特定の第1文字の文字コードに一致す
るか否かを判定する第1判定手段と、 前記第1部分に含まれる前記第2文字の文字コードが、
前記キーワードに含まれる特定の第1文字の文字コード
に一致しなかった場合には、前記第1部分に含まれる前
記第2文字を少なくとも含み、前記特定の第1文字の幅
に最も近い幅を有する1または2以上の連続した第2文
字を不一致文字として特定する不一致文字特定手段と、 前記特定の第1文字の画像の特徴量と、前記不一致文字
に含まれる前記1または2以上の連続した第2文字に割
り当てられた1または2以上の部分領域を含む領域の画
像の特徴量との距離が、予め定められた値よりも小さい
場合に、前記特定の第1文字が前記不一致文字に一致す
ると判定する第2判定手段とを備えている、請求項1ま
たは2に記載の文書検索装置。
4. The second matching portion identifying means is the first matching portion identifying means.
First determining means for determining whether or not the character code of the second character included in the portion matches the character code of the specific first character included in the keyword; and the first determining means included in the first portion. The two-letter character code is
When the character code of the specific first character included in the keyword does not match, the width that includes at least the second character included in the first portion and is closest to the width of the specific first character is set. A non-matching character specifying unit for specifying one or more continuous second characters as a non-matching character, a feature amount of the image of the specific first character, and one or more continuous two or more characters included in the non-matching character. The specific first character matches the unmatched character when the distance from the image feature amount of the area including one or more partial areas assigned to the second character is smaller than a predetermined value. The document search device according to claim 1, further comprising a second determination unit that determines to do so.
【請求項5】 前記文書検索装置は、前記少なくとも1
つの第1一致部分から所定の判定基準値を算出する算出
手段と、 前記判定基準値に基づいて、前記少なくとも1つの第2
一致部分のうちで、所定の第2条件を満たす第2一致部
分を検出する検出手段とをさらに備えた、請求項1また
は2に記載の文書検索装置。
5. The document search device comprises the at least one
Calculating means for calculating a predetermined judgment reference value from one of the first matching portions, and the at least one second judgment portion based on the judgment reference value.
The document search device according to claim 1, further comprising: a detection unit that detects a second matching portion satisfying a predetermined second condition among the matching portions.
【請求項6】 前記算出手段は、前記少なくとも1つの
第1一致部分に含まれる前記少なくとも1つの第2文字
に割り当てられた少なくとも1つの部分領域の画像の特
徴量に基づいて前記判定基準値を算出し、 前記第2条件は、前記少なくとも1つの第2一致部分に
含まれる前記少なくとも1つの第2文字に割り当てられ
た少なくとも1つの部分領域の画像の特徴量と、前記判
定基準値との距離が予め定められた値よりも小さいとい
う条件を含む、請求項5に記載の文書検索装置。
6. The calculating means determines the determination reference value based on a characteristic amount of an image of at least one partial region assigned to the at least one second character included in the at least one first matching portion. The second condition is calculated as a distance between a feature amount of an image of at least one partial region assigned to the at least one second character included in the at least one second matching portion and the determination reference value. The document search device according to claim 5, including a condition that is smaller than a predetermined value.
JP2000254697A 1999-08-25 2000-08-24 Document search device Expired - Lifetime JP3526821B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000254697A JP3526821B2 (en) 1999-08-25 2000-08-24 Document search device

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP11-238031 1999-08-25
JP23803199 1999-08-25
JP2000254697A JP3526821B2 (en) 1999-08-25 2000-08-24 Document search device

Publications (2)

Publication Number Publication Date
JP2001134617A JP2001134617A (en) 2001-05-18
JP3526821B2 true JP3526821B2 (en) 2004-05-17

Family

ID=26533496

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000254697A Expired - Lifetime JP3526821B2 (en) 1999-08-25 2000-08-24 Document search device

Country Status (1)

Country Link
JP (1) JP3526821B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4453687B2 (en) 2006-08-03 2010-04-21 日本電気株式会社 Text mining device, text mining method, and text mining program
JP5962419B2 (en) * 2012-10-15 2016-08-03 富士ゼロックス株式会社 Image processing apparatus and image processing program
US11755659B2 (en) 2018-10-04 2023-09-12 Resonac Corporation Document search device, document search program, and document search method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
松川善彦、今川太郎、近藤堅司、目方強司,形状特徴検索併用による文書画像検索の性能向上,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,1999年 9月16日,第99巻、第305号、PRMU99−74,第77−83頁

Also Published As

Publication number Publication date
JP2001134617A (en) 2001-05-18

Similar Documents

Publication Publication Date Title
US6470336B1 (en) Document image search device and recording medium having document search program stored thereon
US7162086B2 (en) Character recognition apparatus and method
US6047251A (en) Automatic language identification system for multilingual optical character recognition
JP4421134B2 (en) Document image search device
US8340425B2 (en) Optical character recognition with two-pass zoning
MXPA06012760A (en) Apparatus and method for handwriting recognition.
JP2010217996A (en) Character recognition device, character recognition program, and character recognition method
CN111340020A (en) Formula identification method, device, equipment and storage medium
US7697722B2 (en) Portable terminal and character reading method using a portable terminal
US11551461B2 (en) Text classification
JP3526821B2 (en) Document search device
US11755659B2 (en) Document search device, document search program, and document search method
CN110765767B (en) Extraction method, device, server and storage medium of local optimization keywords
Ul-Hasan et al. OCR-free table of contents detection in Urdu books
JP2005182772A (en) Character recognition device, program and recording medium
Lu et al. Word searching in document images using word portion matching
Kaur et al. Adverse conditions and techniques for cross-lingual text recognition
JPH07282193A (en) Processor for form including table
JP3817442B2 (en) Image recognition apparatus, image recognition method, program for realizing image recognition method, and recording medium for the program
JP2019164687A (en) Information processing device
JP7247472B2 (en) Information processing device and program
CN112883727B (en) Method and device for determining association relationship between people
JP2011180687A (en) Multilingual document analysis device
JP3115139B2 (en) Character extraction method
JP2746345B2 (en) Post-processing method for character recognition

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040217

R150 Certificate of patent or registration of utility model

Ref document number: 3526821

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080227

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090227

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100227

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100227

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110227

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120227

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130227

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130227

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140227

Year of fee payment: 10

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term