JP4294456B2 - Specific character string search device, specific character string search method, specific character string search program, and recording medium - Google Patents

Specific character string search device, specific character string search method, specific character string search program, and recording medium Download PDF

Info

Publication number
JP4294456B2
JP4294456B2 JP2003408941A JP2003408941A JP4294456B2 JP 4294456 B2 JP4294456 B2 JP 4294456B2 JP 2003408941 A JP2003408941 A JP 2003408941A JP 2003408941 A JP2003408941 A JP 2003408941A JP 4294456 B2 JP4294456 B2 JP 4294456B2
Authority
JP
Japan
Prior art keywords
character
character string
dictionary
specific
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003408941A
Other languages
Japanese (ja)
Other versions
JP2005173696A (en
Inventor
秀明 山形
慶久 大黒
敏文 山合
利夫 宮澤
史裕 長谷川
裕子 杉浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2003408941A priority Critical patent/JP4294456B2/en
Publication of JP2005173696A publication Critical patent/JP2005173696A/en
Application granted granted Critical
Publication of JP4294456B2 publication Critical patent/JP4294456B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

本発明は、高性能でないCPUが搭載され、あるいは少ないメモリ資源しか搭載されていない場合であっても、ビットマップの文書画像から特定の文字列の検索を高速に行なうことができる特定キャラクタ列検索装置、特定キャラクタ列検索方法、特定キャラクタ列検索プログラム、および記録媒体に関する。 The present invention is a specific character string search capable of performing a high-speed search for a specific character string from a bitmap document image even when a low-performance CPU is mounted or when only a small memory resource is mounted. The present invention relates to a device, a specific character string search method, a specific character string search program, and a recording medium .

近年、ビットマップイメージの文書画像を文字認識装置にかけ、得られた認識結果の文字列の中から検索対象の文字列を抽出している。   In recent years, a document image of a bitmap image is applied to a character recognition device, and a character string to be searched is extracted from character strings obtained as a result of recognition.

たとえば、複写機では、画像を内部処理するために、複雑な画像処理を可能としている。この処理には専用のハードウェア(DSP等)を使用するので、CPUにはそれほど高い性能は要求されず、当該CPUとして低価格のものが使用される。また、複写機に搭載される記憶装置にはさほど大きな容量は要求されない。   For example, in a copying machine, in order to internally process an image, complicated image processing is possible. Since dedicated hardware (DSP or the like) is used for this processing, the CPU does not require so high performance, and a low-priced CPU is used. Also, a large capacity is not required for the storage device mounted on the copying machine.

ところで、複写機、ファクシミリ、携帯型電話、PDA等にOCRを搭載する場合、日本語OCRのように認識対象となる文字種が多い場合には、文字認識処理に長時間を要する。すなわち、日本語OCRにおいては、文字や行の切り出し処理と比較して、文字画像を文字コードに変換する文字認識処理に時間がかかる。このため、複写機等において、高性能のCPUを使用しない限り、OCRのリアルタイム処理はできない。また、パターン辞書の容量は膨大であり、メモリ資源の小さい複写機等に文字認識機能を搭載することはできない。   By the way, when an OCR is installed in a copying machine, a facsimile machine, a portable phone, a PDA or the like, if there are many character types to be recognized, such as Japanese OCR, a long time is required for the character recognition processing. That is, in Japanese OCR, character recognition processing for converting a character image into a character code takes longer time than character and line segmentation processing. For this reason, real-time processing of OCR is not possible unless a high-performance CPU is used in a copying machine or the like. Further, the capacity of the pattern dictionary is enormous, and a character recognition function cannot be installed in a copying machine or the like with a small memory resource.

このため、複写機において、「機密」なる文字が原稿に含まれるときは複写機能を停止させるような場合には、高機能のCPU、大容量の記憶装置を搭載せざるを得ず、機器価格が高騰してしまう。   For this reason, in a copying machine, when the “confidential” character is included in the document, the copying function is stopped, and therefore, a high-performance CPU and a large-capacity storage device must be installed. Will soar.

本発明は、かかる実情に鑑みてなされたものであり、高性能でないCPUが搭載され、あるいは少ないメモリ資源しか搭載されていない場合であっても、ビットマップの文書画像から特定の文字列の検索を高速に行なうことができる特定キャラクタ列検索装置、特定キャラクタ列検索方法、特定キャラクタ列検索プログラム、および記録媒体を提供することを目的としている。 The present invention has been made in view of such circumstances, and even when a low-performance CPU or a small memory resource is installed, a specific character string is searched from a bitmap document image. It is an object of the present invention to provide a specific character string search device, a specific character string search method, a specific character string search program, and a recording medium.

この発明は、上記の目的を達成するため、検索対象画像に対してキャラクタ認識を行い、当該画像中の特定キャラクタ列を抽出する特定キャラクタ列検索装置において、多数の文字が登録されたパターン辞書から、上記特定キャラクタ列に含まれる1つ以上の特定キャラクタ、および、その1つ以上の特定キャラクタのおのおのと相違度が小さい複数の小相違度キャラクタの辞書レコードのみを抽出して部分辞書を生成する辞書生成手段と、上記辞書生成手段により生成された部分辞書を用い、検索対象画像中のキャラクタについて、上記特定キャラクタおよび上記小相違度キャラクタとのキャラクタ認識処理を行うキャラクタ認識手段と、上記キャラクタ認識手段により得られた複数のキャラクタ列について、上記特定のキャラクタとのキャラクタ認識処理を行って、上記特定キャラクタ列と同一性を有するキャラクタ列を抽出するキャラクタ列検索手段とを備えたものである。In order to achieve the above object, the present invention provides a specific character string search device that performs character recognition on a search target image and extracts a specific character string in the image, from a pattern dictionary in which a large number of characters are registered. A partial dictionary is generated by extracting only one or more specific characters included in the specific character string and a plurality of small difference character dictionary records having a small difference from each of the one or more specific characters. Character recognition means for performing character recognition processing between the specific character and the small difference character for the character in the search target image using the dictionary generation means, the partial dictionary generated by the dictionary generation means, and the character recognition For the plurality of character strings obtained by the means, the key with the specific character is used. Performing Rakuta recognition processing, in which a character string search means for extracting a character string having the specific character string and identity.
また、上記キャラクタ認識手段は、上記検索対象画像中のキャラクタについて、上記特定キャラクタ列を構成する各キャラクタおよび小相違度キャラクタとの同一/非同一を判断するとよい。The character recognizing means may determine whether the character in the search target image is the same / non-identical with each character constituting the specific character string and the small difference character.
また、検索対象画像に対してキャラクタ認識を行い、該画像中の特定キャラクタ列を抽出する特定キャラクタ列検索方法において、多数の文字が登録されたパターン辞書から、上記特定キャラクタ列に含まれる1つ以上の特定キャラクタ、および、その1つ以上の特定キャラクタのおのおのと相違度が小さい複数の小相違度キャラクタの辞書レコードのみを抽出して部分辞書を生成する辞書生成ステップと、上記辞書生成ステップにより生成された部分辞書を用い、検索対象画像中のキャラクタについて、前記特定キャラクタおよび前記小相違度キャラクタとのキャラクタ認識処理を行うキャラクタ認識ステップと、上記キャラクタ認識ステップにより得られた複数のキャラクタ列について、上記特定のキャラクタとのキャラクタ認識処理を行って、上記特定キャラクタ列と同一性を有するキャラクタ列を抽出するキャラクタ列検索ステップとを備えたものである。Further, in a specific character string search method for performing character recognition on a search target image and extracting a specific character string in the image, one of the character strings included in the specific character string from a pattern dictionary in which a large number of characters are registered. A dictionary generation step of extracting only dictionary records of the above-mentioned specific character and a plurality of small difference characters having a small difference from each of the one or more specific characters to generate a partial dictionary; and A character recognition step for performing character recognition processing between the specific character and the small difference character for the character in the search target image using the generated partial dictionary, and a plurality of character strings obtained by the character recognition step , Character recognition process with the specific character What is obtained by a character string search step of extracting a character string having the specific character string and identity.
また、上記キャラクタ認識ステップは、上記検索対象画像中のキャラクタについて、前記特定キャラクタ列を構成する各キャラクタおよび小相違度キャラクタとの同一/非同一を判断するとよい。Moreover, the said character recognition step is good to determine the same / non-identity with respect to the character in the said search object image with each character and small difference character which comprise the said specific character row | line | column.
また、コンピュータに、上記のキャラクタ列検索方法の各ステップを実行させることを特徴とする特定キャラクタ列検索プログラムも提供する。Also provided is a specific character string search program that causes a computer to execute each step of the character string search method.
また、上記の特定キャラクタ列検索プログラムを格納したコンピュータに読み取り可能な記録媒体も提供する。Also provided is a computer-readable recording medium storing the above-described specific character string search program.

本発明の上述した構成により、ビットマップの文書画像から特定の文字列の検索を高速に行なうことができるという効果を得る。With the above-described configuration of the present invention, it is possible to obtain a specific character string from a bitmap document image at high speed.

図1は本発明の特定文字・図形検出装置の第1実施形態を示す機能ブロック図である。図1において、特定文字・図形検出装置1は、制御手段11と、記憶手段12と、画像入力手段13と、操作・表示手段14とを備えている。   FIG. 1 is a functional block diagram showing a first embodiment of a specific character / graphics detection apparatus of the present invention. In FIG. 1, the specific character / graphic detection device 1 includes a control unit 11, a storage unit 12, an image input unit 13, and an operation / display unit 14.

制御手段11は、特定文字・図形検出装置1全体を制御する。記憶手段12は、RAM,ROM,磁気記憶装置等からなる。   The control means 11 controls the specific character / graphics detection apparatus 1 as a whole. The storage unit 12 includes a RAM, a ROM, a magnetic storage device, and the like.

記憶手段12にはプログラム121(文字・図形認識プログラムP1,辞書生成プログラムP2,文字列・図形検索プログラムP3,検索結果出力プログラムP4)と部分辞書122とパターン辞書123とが格納され、処理対象画像格納領域124を備えている。   The storage means 12 stores a program 121 (character / graphic recognition program P1, dictionary generation program P2, character string / graphic search program P3, search result output program P4), a partial dictionary 122, and a pattern dictionary 123. A storage area 124 is provided.

プログラムP1,P2,P3,P4はそれぞれ制御手段11により実行され、プログラムP1と制御手段11とが文字・図形認識手段M1を構成し、プログラムP2と制御手段11とが辞書生成手段M2を構成し、プログラムP3と制御手段11とが文字列・図形検索手段M3を構成し、検索結果出力プログラムP4と制御手段11とが検索結果出力手段M4を構成する。   The programs P1, P2, P3 and P4 are executed by the control means 11, respectively. The program P1 and the control means 11 constitute a character / graphic recognition means M1, and the program P2 and the control means 11 constitute a dictionary generation means M2. The program P3 and the control means 11 constitute a character string / graphics search means M3, and the search result output program P4 and the control means 11 constitute a search result output means M4.

画像入力手段13はイメージスキャナ、デジタルカメラのような画像入力装置であってもよいし、外部機器との通信により画像の取得ができる図示しない通信手段であってもよいし、あるアプリケーションから画像を取得できる図示しない画像取得手段(プログラム)であってもよい。   The image input unit 13 may be an image input device such as an image scanner or a digital camera, may be a communication unit (not shown) that can acquire an image by communicating with an external device, or an image from an application. Image acquisition means (program) (not shown) that can be acquired may be used.

操作・表示手段14はユーザ・インタフェースであり、典型的には、キーボード,マウス等の操作手段と、ディスプレイ等の表示手段とからなる。
〔第1動作例〕
以下、図1の特定文字・図形検出装置1の第1動作例を、文字列“機密”を検索する場合を例に、図2のフローチャートを参照して説明する。本動作例では、まず、ユーザは操作・表示手段14を用いて検索対象画像TG(本動作例では図3に示す画像とする)の指定、および検索文字列・図形LSの指定(ここでは、文字列“機密”の指定)を行なう(S101)。
The operation / display unit 14 is a user interface, and typically includes an operation unit such as a keyboard and a mouse, and a display unit such as a display.
[First operation example]
Hereinafter, the first operation example of the specific character / graphics detection apparatus 1 of FIG. 1 will be described with reference to the flowchart of FIG. In this operation example, first, the user uses the operation / display unit 14 to specify a search target image TG (in this operation example, the image shown in FIG. 3) and a search character string / graphic LS (here, (Designation of character string “confidential”) is performed (S101).

検索対象画像TGの指定に際しては、予め画像入力手段13から入力されて記憶手段12に記憶されている画像ファイルを検索対象画像TGとすることができるし、このような画像ファイル中のあるページ、またはこのページ内の画像領域を指定することにより行なうこともでき、検索文字列・図形LSの指定(文字列“機密”の指定)はキーボード等からの文字列の入力、マウス等によるあるファイル中の文字列・図形の選択により行なうことができる。   When designating the search target image TG, an image file input in advance from the image input unit 13 and stored in the storage unit 12 can be used as the search target image TG, and a certain page in such an image file, Alternatively, the image area in this page can be designated, and the search character string / graphic LS (character string “confidential” designation) can be performed by inputting a character string from a keyboard or the like, or in a certain file using a mouse or the like. This can be done by selecting a character string / graphic.

辞書生成手段M2は、指定された文字列“機密”を構成する文字“機”および“密”の辞書レコード(記録されているデータは特徴量である)をパターン辞書123から抽出し、これを部分辞書122として保存する(S102)。すなわち、本動作例では、部分辞書122は、辞書レコードとして“機”,“密”2語のみを含む辞書として生成される。   The dictionary generation means M2 extracts from the pattern dictionary 123 the dictionary records (the recorded data is a feature amount) of the characters “machine” and “dense” that constitute the designated character string “confidential”. It is stored as the partial dictionary 122 (S102). That is, in this operation example, the partial dictionary 122 is generated as a dictionary including only “machine” and “dense” words as dictionary records.

一方、文字・図形認識手段M1は、検索対象画像TGを所定の作業領域(通常、記憶手段12にワークエリアとして確保される)に取り込み、辞書生成手段M2により生成された部分辞書122を用いて文字認識を行なう(S103)。   On the other hand, the character / graphic recognition unit M1 takes the search target image TG into a predetermined work area (usually secured as a work area in the storage unit 12), and uses the partial dictionary 122 generated by the dictionary generation unit M2. Character recognition is performed (S103).

文字・図形認識手段M1による検索対象画像TGに含まれる各文字についての認識結果は、図4に示すように、部分辞書122に含まれている文字“機”,“密”,認識不能文字(何れの文字としても判定されないリジェクト文字)の何れかである。図4では認識した“機”,“密”を白抜き文字で示し、リジェクト文字を“□”で示してある。   As shown in FIG. 4, the recognition result of each character included in the search target image TG by the character / graphic recognition means M1 is the character “machine”, “dense”, unrecognizable character ( Reject character that is not determined as any character). In FIG. 4, the recognized “machine” and “dense” are indicated by white characters, and the reject character is indicated by “□”.

文字列・図形検索手段M3は、文字・図形認識手段M1による認識結果を受け取り、この中から“機密”の文字列を検索する(S104)。図5に、図4に示した文字・図形認識手段M1による認識結果(文字列)の中の“機密”部分(第1行第11,第12番目、第2行第2,第3番目,第11,第12番目、第5行第3,第4番目、第6行第5,第6番目)を黒塗り文字で示す。   The character string / figure search means M3 receives the recognition result by the character / figure recognition means M1, and searches for the “confidential” character string from the recognition result (S104). FIG. 5 shows a “confidential” portion (first line 11th, 12th, second line 2, 2nd, 3rd, etc.) in the recognition result (character string) by the character / figure recognition means M1 shown in FIG. (11th, 12th, 5th row, 3rd, 4th, 6th row, 5th, 6th) are indicated by black characters.

検索結果出力手段M4は、文字列・図形検索手段M3により“機密”として検索された、検索対象画像TG上の文字列部分の座標情報を受け取り、この部分を、たとえば図6に示すように強調して操作・表示手段14の表示部(ディスプレイ)に出力する(S105)(強調後の検索対象画像TGを検索結果画像RGで示す)。図6では、第1行第11,第12番目文字の“報告”、第2行第2,第3番目文字の“報告”,第11,第12番目文字の“機密”、第5行第3,第4番目文字の“現在”、第6行第5,第6番間文字の“動向”部分が強調されて示されている。なお、この強調の方法は、該当文字列の色の変更(たとえば、検索対象画像TG上の色が黒であれば赤に変更する)、該当文字列への網掛け、該当文字列へのアンダーライン付与等により行なうことができる。   The search result output means M4 receives the coordinate information of the character string portion on the search target image TG searched as “confidential” by the character string / graphic search means M3, and emphasizes this portion as shown in FIG. Then, it is output to the display unit (display) of the operation / display means 14 (S105) (the search target image TG after the enhancement is indicated by the search result image RG). In FIG. 6, “Report” in the 11th and 12th characters in the first line, “Report” in the 2nd and 3rd characters in the 2nd line, “Secret” in the 11th and 12th characters in the 5th line 3, “Current” of the fourth character, and “Trend” portion of the sixth and fifth character are highlighted. This emphasis method is performed by changing the color of the corresponding character string (for example, changing to red if the color on the search target image TG is black), shading the corresponding character string, and underlining the corresponding character string. This can be done by adding lines.

ユーザは、操作・表示手段14の表示部(ディスプレイ)に表示された図6に示したような検索結果画像RG中の強調された文字を見るだけで、検索対象画像TGに検索文字列・図形LSである“機密”が含まれているか否か、または含まれているときにはその記載部分を容易に見つけ出すことができる。
〔第2動作例〕
以下、図1の特定文字・図形検出装置1の第2動作例を、第1動作例と同様、文字列“機密”を検索する場合を例に、図7のフローチャートを参照して説明する。本動作例では、S201,S202の処理は第1動作例におけるS101,S102の処理(図2参照)と同じであり、ユーザは操作・表示手段14を用いて検索対象画像TG(図3参照)の指定、および検索文字列・図形LSの指定(文字列“機密”の指定)を行ない(S201)、辞書生成手段M2は、指定された文字列“機密”を構成する文字“機”および“密”の辞書レコードをパターン辞書123から抽出し、これを部分辞書122として保存する(S202)。
The user simply looks at the emphasized characters in the search result image RG as shown in FIG. 6 displayed on the display unit (display) of the operation / display unit 14 and displays the search character string / figure in the search target image TG. It is possible to easily find out whether or not “confidential” which is LS is included, or when it is included.
[Second operation example]
Hereinafter, the second operation example of the specific character / figure detection apparatus 1 in FIG. 1 will be described with reference to the flowchart in FIG. 7 by taking as an example the case of searching for the character string “confidential” as in the first operation example. In this operation example, the processing in S201 and S202 is the same as the processing in S101 and S102 in the first operation example (see FIG. 2), and the user uses the operation / display unit 14 to search for an image TG (see FIG. 3). And the search character string / graphic LS (character string “confidential”) are designated (S201), and the dictionary generating means M2 determines the characters “machine” and “ The “dense” dictionary record is extracted from the pattern dictionary 123 and stored as the partial dictionary 122 (S202).

一方、文字・図形認識手段M1は、第1動作例のS103の処理と同様、検索対象画像TGを所定の作業領域(通常、記憶手段12にワークエリアとして確保される)に取り込み、辞書生成手段M2により生成された部分辞書122を用いて文字認識を行なう(S203)。このとき、本動作例では、文字・図形認識手段M1による検索対象画像TGに含まれる各文字についての認識結果は、図4に示したように、部分辞書122に含まれている文字“機”,“密”,認識不能文字(何れの文字としても判定されないリジェクト文字)の何れかである。ただし、本動作例では、文字・図形認識手段M1は、検索対象画像TGに含まれる各文字について相違度DDを記憶しておく。この相違度DDは、たとえば各文字の辞書レコードの複数の特徴量から適宜の周知方法により求めることができる。   On the other hand, the character / figure recognition means M1 takes the search target image TG into a predetermined work area (usually secured as a work area in the storage means 12), as in the process of S103 of the first operation example, and creates a dictionary. Character recognition is performed using the partial dictionary 122 generated by M2 (S203). At this time, in this operation example, the recognition result of each character included in the search target image TG by the character / graphic recognition unit M1 is the character “machine” included in the partial dictionary 122 as shown in FIG. , “Dense”, or an unrecognizable character (a reject character that is not determined as any character). However, in this operation example, the character / figure recognition unit M1 stores the difference DD for each character included in the search target image TG. The degree of difference DD can be obtained by an appropriate well-known method from, for example, a plurality of feature amounts of the dictionary record for each character.

文字列・図形検索手段M3は、文字・図形認識手段M1による相違度DDを含む認識結果を受け取り、この中から“機密”の文字列を検索する(S204)とともに、さらに各“機密”の文字列を構成する文字(“機”,“密”)の相違度DDの平均値を算出し、これを所定のしきい値SHと比較し、しきい値SHよりも低い値の“機密”の文字列を実際に“機密”と表示されているものとして抽出する(S205)。図8に、図3に示した文字・図形認識手段M1による認識結果(文字列)の中の“機密”部分(第1行第11,第12番目、第2行第2,第3番目,第11,第12番目、第5行第3,第4番目、第6行第5,第6番目)を黒塗り文字で示すとともに、“機密”部分に、各文字(“機”,“密”)の相違度DDを数値で示す。   The character string / figure search means M3 receives the recognition result including the degree of difference DD by the character / figure recognition means M1, searches for a “confidential” character string from the recognition result (S204), and further each “confidential” character. An average value of the dissimilarity DD of the characters (“machine”, “fine”) constituting the column is calculated, and this is compared with a predetermined threshold value SH, and the “secret” value lower than the threshold value SH is calculated. The character string is extracted as what is actually displayed as “confidential” (S205). FIG. 8 shows a “confidential” portion (first line 11th, 12th, second line 2, 2nd, 3rd, etc.) in the recognition result (character string) by the character / graphic recognition means M1 shown in FIG. The eleventh, twelfth, fifth row, third, fourth, sixth row, fifth and sixth characters are indicated by black characters, and each character (“machine”, “secret” is indicated in the “confidential” portion. )) Is indicated by a numerical value.

本動作例では、しきい値SHは“20”に設定されている。図8に、図3に示した文字・図形認識手段M1による認識結果(文字列)の中の第1行第11,第12番目の“機密”の平均値は(89+76)/2=82.5、第2行第2,第3番目の“機密”の平均値は(68+78)/2=73、第2行第11,第12番目の“機密”の平均値は(13+8)/2=10.5、第5行第3,第4番目の“機密”の平均値は(48+97)/2=72.5、第6行第5,第6番目の“機密”の平均値は(53+64)/2=58.5であ、しきい値SHである“20”よりも小さい値をとる“機密”は第2行第11,第12番目の“機密”のみである。したがって、文字・図形認識手段M1は、第2行第11,第12番目の“機密”のみを、検索対象画像TG上において実際に“機密”として表示されていると判断することができる。 In this operation example, the threshold value SH is set to “20”. In FIG. 8, the average value of the 11th and 12th “secret” in the first row in the recognition result (character string) by the character / graphic recognition means M1 shown in FIG. 3 is (89 + 76) / 2 = 82. 5. The average value of the second and second “secret” in the second row is (68 + 78) / 2 = 73, and the average value of the second and eleventh and twelfth “secret” is (13 + 8) / 2 = 10.5, the average value of the third and fourth “secret” in the fifth row is (48 + 97) /2=72.5, and the average value of the fifth and sixth “secret” in the sixth row is (53 + 64). ) /2=58.5 der is, takes a value smaller than "20" is a threshold SH "confidential" in the second row 11, only the 12-th "confidential". Therefore, the character / figure recognition means M1 can determine that only the “secret” in the second and eleventh and twelfth rows is actually displayed as “confidential” on the search target image TG.

検索結果出力手段M4は、文字列・図形検索手段M3によりS205で“機密”として抽出した検索対象画像TG上の文字列部分の座標情報を受け取り座標情報を受け取り、この部分を、たとえば図9に示すように強調して操作・表示手段14の表示部(ディスプレイ)に出力する(S105)(強調後の検索対象画像TGを検索結果画像RGで示す)。図9では、第2行第11,第12番目文字の“機密”部分が強調されて示されている。なお、本動作例においても第1動作例と同様、この強調の方法は、該当文字列の色の変更(たとえば、検索対象画像TG上の色が黒であれば赤に変更する)、該当文字列への網掛け、該当文字列へのアンダーライン付与等により行なうことができる。   The search result output means M4 receives the coordinate information of the character string portion on the search target image TG extracted as “confidential” in S205 by the character string / figure search means M3, and receives the coordinate information. As shown, it is emphasized and output to the display unit (display) of the operation / display unit 14 (S105) (the search target image TG after the enhancement is indicated by a search result image RG). In FIG. 9, the “confidential” portion of the 11th and 12th characters in the second line is highlighted. In this operation example, as in the first operation example, this emphasis method changes the color of the corresponding character string (for example, changes to red if the color on the search target image TG is black), and the corresponding character. This can be done by shading a column or adding an underline to the corresponding character string.

本動作例では、操作・表示手段14の表示部(ディスプレイ)には、図9に示したように“機密”部分が強調表示されているので、検索対象画像TGに“機密”が含まれているか否か、あるいは含まれているときはさらにその記載部分を認識することができる。
〔第3動作例〕
以下、図1の特定文字・図形検出装置1の第3動作例を、第1動作例と同様、文字列“機密”を検索する場合を例に、図10のフローチャートを参照して説明する。本動作例では、S301の処理は第1動作例におけるS101の処理(図2参照)と同じであり、ユーザは操作・表示手段14を用いて検索対象画像TG(図3参照)の指定、および検索文字列・図形LSの指定(文字列“機密”の指定)を行なう(S301)。
In this operation example, since the “confidential” portion is highlighted on the display unit (display) of the operation / display unit 14 as shown in FIG. 9, “confidential” is included in the search target image TG. Whether or not it is included, the description can be further recognized.
[Third example of operation]
Hereinafter, the third operation example of the specific character / graphics detection apparatus 1 in FIG. 1 will be described with reference to the flowchart in FIG. In this operation example, the process of S301 is the same as the process of S101 in the first operation example (see FIG. 2), and the user designates the search target image TG (see FIG. 3) using the operation / display unit 14, and The search character string / graphic LS is designated (designation of the character string “confidential”) (S301).

つぎに、辞書生成手段M2は、指定された文字列“機密”を構成する文字“機”,“密”、および“機”に対して相違度DDが小さい複数個(本動作例では5つ)の文字、並びに“密”に対して相違度DDが小さい複数個(本動作例では5つ)の文字の辞書レコードをパターン辞書123から抽出し、各文字についてそれぞれ6つの辞書レコードを部分辞書122として保存する(S302)。すなわち、S302の“機”についての辞書レコードの抽出に際しては、“機”の辞書レコードとの相違度DDが小さい他の5つの辞書レコードと相違度DDを抽出する。一般に、辞書レコードを構成する文字の特徴量は、n次元(nは2以上の整数)の特徴量空間SSの値で表されるが、この特徴量空間は本動作例では、説明の便宜上、図11(A)に示す2次元とする。図11(A)では特徴量の座標は“〇”で示されており、“炭”,“磯”,“幾”,“礎”,“楚”および“機”の6文字の辞書レコードが部分辞書122として保存される。同様にしてS302の“密”についての辞書レコードの抽出に際しては、“蛍”,“蜜”,“栄”,“秘”,“家”および“密”の6文字の辞書レコードが部分辞書122として保存される。   Next, the dictionary generating means M2 has a plurality of small differences DD with respect to the characters “machine”, “secret”, and “machine” constituting the designated character string “confidential” (in this operation example, five). ) And a plurality of (5 in this operation example) character dictionary records whose degree of difference DD is smaller than “dense” are extracted from the pattern dictionary 123, and six dictionary records for each character are stored in the partial dictionary. It is stored as 122 (S302). That is, when extracting the dictionary record for “machine” in S302, the degree of difference DD is extracted from the other five dictionary records having a small degree of difference DD from the dictionary record of “machine”. In general, the feature amount of a character constituting a dictionary record is represented by a value of an n-dimensional (n is an integer of 2 or more) feature amount space SS. In this operation example, this feature amount space is represented for convenience of explanation. The two dimensions shown in FIG. In FIG. 11A, the feature coordinates are indicated by “◯”, and a 6-character dictionary record of “char”, “磯”, “some”, “foundation”, “楚”, and “machine” is displayed. It is stored as a partial dictionary 122. Similarly, when extracting a dictionary record for “dense” in S302, a 6-character dictionary record of “firefly”, “honey”, “sakae”, “secret”, “house”, and “dense” is the partial dictionary 122. Saved as

一方、文字・図形認識手段M1は、第1動作例のS103の処理と同様、検索対象画像TGを所定の作業領域(通常、記憶手段12にワークエリアとして確保される)に取り込み、辞書生成手段M2により生成された部分辞書122を用いて文字認識を行なう(S303)。このとき、本動作例では、文字・図形認識手段M1による検索対象画像TGに含まれる各文字についての認識結果は、図12に示すように、部分辞書122に含まれている“炭”,“磯”,“幾”,“礎”,“楚”および“機”、“蛍”,“蜜”,“栄”,“秘”,“家”および“密”の12文字、ならびに認識不能文字(何れの文字としても判定されないリジェクト文字)の何れかである。   On the other hand, the character / figure recognition means M1 takes the search target image TG into a predetermined work area (usually secured as a work area in the storage means 12), as in the process of S103 of the first operation example, and creates a dictionary. Character recognition is performed using the partial dictionary 122 generated by M2 (S303). At this time, in this operation example, the recognition result for each character included in the search target image TG by the character / graphic recognition means M1 is “char”, “character” included in the partial dictionary 122 as shown in FIG. Twelve characters such as 磯, 幾, “foundation”, “,” and “machine”, “firefly”, “honey”, “sakae”, “secret”, “house” and “dense”, and unrecognizable characters (Reject character that is not determined as any character).

文字列・図形検索手段M3は、文字・図形認識手段M1による認識結果を受け取り、この中から“機密”の文字列(図12では第2列第10,11文字:符号Pで示す)を検索する(S304)。   The character string / figure search means M3 receives the recognition result by the character / figure recognition means M1, and searches the character string of “confidentiality” (second character 10th and 11th characters: indicated by symbol P in FIG. 12). (S304).

検索結果出力手段M4は、文字列・図形検索手段M3によりS304で検出した、検索対象画像TG上の文字列部分をたとえば図9に示したように強調して操作・表示手段14の表示部(ディスプレイ)に出力する(S305)(強調後の検索対象画像TGを検索結果画像RGで示す)。図9では、第2行第11,第12番目文字の“機密”部分が強調されて示されている。なお、本動作例においても第1,第2動作例と同様、この強調の方法は、該当文字列の色の変更(たとえば、検索対象画像TG上の色が黒であれば赤に変更する)、該当文字列への網掛け、該当文字列へのアンダーライン付与等により行なうことができる。   The search result output means M4 emphasizes the character string portion on the search target image TG detected in S304 by the character string / graphic search means M3, for example, as shown in FIG. (S305) (the search target image TG after enhancement is indicated by a search result image RG). In FIG. 9, the “confidential” portion of the 11th and 12th characters in the second line is highlighted. In this operation example, as in the first and second operation examples, this emphasis method changes the color of the corresponding character string (for example, changes to red if the color on the search target image TG is black). This can be done by shading the corresponding character string, adding an underline to the corresponding character string, or the like.

本動作例では、操作・表示手段14の表示部(ディスプレイ)には、図9に示したように“機密”部分が強調表示されているので、検索対象画像TGに“機密”が含まれているか否か、あるいは含まれているときはさらにその記載部分を認識することができる。特に、本動作例では、誤って認識される可能性が高い複数個(ここでは5個)の文字辞書レコードとして抽出しているので、認識精度が高くなる。   In this operation example, since the “confidential” portion is highlighted on the display unit (display) of the operation / display unit 14 as shown in FIG. 9, “confidential” is included in the search target image TG. Whether or not it is included, the description can be further recognized. In particular, in this operation example, since a plurality of (here, five) character dictionary records that are highly likely to be recognized erroneously are extracted, the recognition accuracy is increased.

なお、上記の動作例では、S302の辞書生成手段M2による部分辞書122の作成に際しては、図11(B)に示すように、2次元の特徴量空間SSにおいて検索文字列・図形LSを構成する各文字(図11(B)では、“機”)を中心に所定値(図11(B)では“30”)の内の文字を文字辞書レコードとして抽出することができる。図11(B)では、辞書生成手段M2は、文字辞書レコードとして、“磯”,“楚”および“機”の3文字を抽出している。
《第2実施形態》
図13は本発明の特定文字・図形検出装置の第2実施形態を示す機能ブロック図である。図13において複写機2(図1の特定文字・図形検出装置に対応する)は、中央処理装置(CPU)21と、メモリ221と、磁気記憶装置222と、イメージスキャナ23と、オペレーションパネル24と、プリンタ25とを備えている。
In the above operation example, when the dictionary generation unit M2 in S302 creates the partial dictionary 122, as shown in FIG. 11B, the search character string / figure LS is configured in the two-dimensional feature amount space SS. Characters within a predetermined value (“30” in FIG. 11B) centering on each character (“machine” in FIG. 11B) can be extracted as a character dictionary record. In FIG. 11B, the dictionary generation means M2 extracts three characters “磯”, “楚”, and “machine” as a character dictionary record.
<< Second Embodiment >>
FIG. 13 is a functional block diagram showing a second embodiment of the specific character / graphics detection apparatus of the present invention. In FIG. 13, a copying machine 2 (corresponding to the specific character / graphic detection device in FIG. 1) includes a central processing unit (CPU) 21, a memory 221, a magnetic storage device 222, an image scanner 23, an operation panel 24, and the like. The printer 25 is provided.

中央処理装置21は図1の制御手段11に対応し、メモリ221および磁気記憶装置222は図1の記憶手段12に対応し、イメージスキャナ23は図1の画像入力手段13に対応し、オペレーションパネル24は各種キーおよびディスプレイを含むもので図1の操作・表示手段24に対応する。プリンタ25は、図示はしていないが、複写用紙の給紙機構、プリントされた用紙の排紙機構等を含んでいる。   The central processing unit 21 corresponds to the control means 11 of FIG. 1, the memory 221 and the magnetic storage device 222 correspond to the storage means 12 of FIG. 1, the image scanner 23 corresponds to the image input means 13 of FIG. Reference numeral 24 includes various keys and a display and corresponds to the operation / display means 24 of FIG. Although not shown, the printer 25 includes a paper feeding mechanism for copying paper, a paper discharging mechanism for printed paper, and the like.

メモリ221にはプログラム2211(文字・図形認識プログラムP1,辞書生成プログラムP2,文字列・図形検索プログラムP3,検索結果出力プログラムP4)と部分辞書2212とが格納されている。磁気記憶装置222にはパターン辞書2221が格納されている。プログラムP1,P2,P3,P4はそれぞれ中央処理装置21により実行され、プログラムP1と中央処理装置21とが文字・図形認識手段M1を構成し、プログラムP2と中央処理装置21とが辞書生成手段M2を構成し、プログラムP3と中央処理装置21とが文字列・図形検索手段M3を構成し、検索結果出力プログラムP4と中央処理装置21とが検索結果出力手段M4を構成する。なお、メモリ221にはコピー機を制御するプリンタドラバ等のソフトウェアが格納される記憶領域、読み取った原稿を一時的に格納する記憶領域が確保されているし、コピー機の設定を記憶するための記憶領域等が確保されている。   The memory 221 stores a program 2211 (a character / figure recognition program P1, a dictionary generation program P2, a character string / figure search program P3, a search result output program P4), and a partial dictionary 2212. A pattern dictionary 2221 is stored in the magnetic storage device 222. The programs P1, P2, P3, and P4 are respectively executed by the central processing unit 21, and the program P1 and the central processing unit 21 constitute character / graphic recognition means M1, and the program P2 and the central processing unit 21 are dictionary generation means M2. The program P3 and the central processing unit 21 constitute a character string / figure search means M3, and the search result output program P4 and the central processing unit 21 constitute a search result output means M4. The memory 221 has a storage area for storing software such as a printer driver for controlling the copier, a storage area for temporarily storing the read original, and a setting for storing the copier settings. A storage area or the like is secured.

本実施形態の複写機2は、特定の文字列"社外秘"が複写原稿中に記載されている場合にプリントしない(複写しない)ように構成される。   The copying machine 2 according to the present embodiment is configured not to print (do not copy) when a specific character string “confidential” is described in a copy document.

一般に、日本語や中国語を対象としたOCRにおいては、文字や行の切り出しに比較して、文字画像を文字コードに変換する文字認識の処理量が膨大となり、また文字認識に用いるパターン辞書も大容量となる。したがって、乏しい資源でOCR処理を行なう場合には、認識対象とする文字数を少なくして、文字認識処理の計算量を減らしおよびパターン辞書の容量を小さくする必要がある。   In general, in OCR for Japanese and Chinese, the amount of character recognition processing for converting character images into character codes is enormous compared to character and line segmentation, and there is also a pattern dictionary used for character recognition. Large capacity. Therefore, when performing OCR processing with scarce resources, it is necessary to reduce the number of characters to be recognized, reduce the amount of calculation of character recognition processing, and reduce the capacity of the pattern dictionary.

ハードディスクは近年安価となっていることから、本発明の複写機2に搭載される磁気記憶装置222の容量も十分に大きく構成できる。パターン辞書2221はメモリ221に格納することもできるが、辞書容量が大きいことからして、パターン辞書2221は磁気記憶装置222に格納することが好ましい。また、中央処理装置21がパターン辞書2221中の全ての文字について文字認識処理(マッチング処理)を行なうことは、複写機2に搭載される処理装置の性能からみて非現実的である。   Since hard disks have recently become inexpensive, the capacity of the magnetic storage device 222 mounted in the copying machine 2 of the present invention can be configured to be sufficiently large. The pattern dictionary 2221 can be stored in the memory 221, but the pattern dictionary 2221 is preferably stored in the magnetic storage device 222 because the dictionary capacity is large. In addition, it is impractical for the central processing unit 21 to perform character recognition processing (matching processing) for all characters in the pattern dictionary 2221 in view of the performance of the processing device mounted on the copying machine 2.

このようなことから、本実施形態では、処理能力が特に大きくない中央処理装置21により、メモリ221に格納した部分辞書2212中の限定された数の文字について文字認識処理(マッチング処理)を行なうようにした。   For this reason, in this embodiment, the central processing unit 21 having a particularly low processing capability performs character recognition processing (matching processing) for a limited number of characters in the partial dictionary 2212 stored in the memory 221. I made it.

ユーザがたとえばオペレーションパネル24を用いて複写を制限する文字列を入力すると、辞書生成手段M2がこの文字列を取得して部分辞書2212の生成を行なう。また、ユーザにとってオペレーションパネル24を用いた入力は必ずしも快適ではないことがある。このような場合、ユーザはコンピュータ等の外部装置から文字列を指定し、これをネットワークを介して複写機2の辞書生成手段M2に転送することもできる。   When the user inputs a character string that restricts copying using the operation panel 24, for example, the dictionary generation means M2 acquires this character string and generates a partial dictionary 2212. In addition, the user may not always be comfortable using the operation panel 24 for input. In such a case, the user can designate a character string from an external device such as a computer and transfer it to the dictionary generation means M2 of the copying machine 2 via the network.

以下、複写を制限する文字列が"機密"である場合の複写機2の動作を図14のフローチャートにより説明する。本動実施形態では、まずユーザはオペレーションパネル24を用いて検索文字列・図形LSの指定(文字列“機密”の指定)を行なう(S401)。   The operation of the copying machine 2 when the character string that restricts copying is "confidential" will be described below with reference to the flowchart of FIG. In this embodiment, the user first designates the search character string / graphic LS (designation of the character string “confidential”) using the operation panel 24 (S401).

つぎに、辞書生成手段M2は、指定された文字列“機密”を構成する文字“機”,“密”、および“機”に対して相違度DDが小さい複数個(本動作例では5つ)の文字、並びに“密”に対して相違度DDが小さい複数個(本動作例では5つ)の文字の辞書レコードをパターン辞書2221から抽出し、各文字についてそれぞれ6つの辞書レコードを部分辞書2212として保存する(S402)。この処理は第1実施形態の第3動作例におけるS302と同じである(図10参照)。   Next, the dictionary generating means M2 has a plurality of small differences DD with respect to the characters “machine”, “secret”, and “machine” constituting the designated character string “confidential” (in this operation example, five). ) And a plurality of (5 in this operation example) character dictionary records having a small difference DD with respect to “dense” are extracted from the pattern dictionary 2221, and six dictionary records for each character are stored in the partial dictionary. It is stored as 2212 (S402). This process is the same as S302 in the third operation example of the first embodiment (see FIG. 10).

一方、複写機2がコンタクトガラス上の原稿を読み取ると、文字・図形認識手段M1は、この読み取り画像を検索対象画像TGとして、所定の作業領域(通常、メモリ221にワークエリアとして確保される)に取り込み(S403)、辞書生成手段M2により生成された部分辞書2212を用いて文字認識を行なう(S404)。なお、この文字認識は、検索対象画像TGの上部(たとえば上1/3)についてのみ行なうこともできる。これにより、文字列“機密”が通常の文章中に表われる場合(複写を制限する必要がない場合)の複写制限の適用を回避することができる。   On the other hand, when the copying machine 2 reads a document on the contact glass, the character / graphic recognition unit M1 uses the read image as a search target image TG and a predetermined work area (usually secured as a work area in the memory 221). (S403), and character recognition is performed using the partial dictionary 2212 generated by the dictionary generation means M2 (S404). Note that this character recognition can be performed only on the upper part (for example, upper 3) of the search target image TG. As a result, it is possible to avoid the application of the copy restriction when the character string “confidential” appears in a normal sentence (when there is no need to restrict the copy).

本実施形態では、文字・図形認識手段M1による検索対象画像TGに含まれる各文字についての認識結果は、第1実施形態の第3動作例のS303と同じである。文字列・図形検索手段M3は、文字・図形認識手段M1による認識結果を受け取り、この中から“機密”の文字列を検索する(S405)。   In the present embodiment, the recognition result for each character included in the search target image TG by the character / graphic recognition means M1 is the same as S303 in the third operation example of the first embodiment. The character string / figure search means M3 receives the recognition result by the character / figure recognition means M1, and searches for a “confidential” character string from the recognition result (S405).

次に、文字列・図形検索手段M3が文字列"機密"が抽出されないとき(S406の"NO")は、メモリ221に格納されている検索対象画像TGをプリント出力するが(S407)、抽出されたときは(S406の"YES")、メモリに格納されている検索対象画像TGをプリント出力せずにユーザにプリント出力の制限がされている旨を通知する(S408)。この通知は、たとえばオペレーションパネル24のディスプレイに文字等により表示してもよいし、オペレーションパネル24の警告灯を点灯させてもよいし、オペレーションパネル24のスピーカからメッセージまたは警告音を発生させてもよい。
《第3実施形態》
図15は本発明の特定文字・図形検出装置の第3実施形態を示す機能ブロック図である。図15において特定文字・図形検出装置3は、ネットワーク500を介して専用サーバ4に接続されている。本実施形態では、パターン辞書と部分辞書が、異なる装置(特定文字・図形検出装置3および専用サーバ4)により保持/管理される。
Next, when the character string / graphic search means M3 does not extract the character string “confidential” (“NO” in S406), the search target image TG stored in the memory 221 is printed out (S407). When it is determined (“YES” in S406), the user is notified that the print output is restricted without printing the search target image TG stored in the memory (S408). For example, the notification may be displayed on the display of the operation panel 24 by characters or the like, the warning lamp of the operation panel 24 may be turned on, or a message or warning sound may be generated from the speaker of the operation panel 24. Good.
<< Third Embodiment >>
FIG. 15 is a functional block diagram showing a third embodiment of the specific character / graphic detection apparatus of the present invention. In FIG. 15, the specific character / graphic detection device 3 is connected to the dedicated server 4 via the network 500. In the present embodiment, the pattern dictionary and the partial dictionary are held / managed by different devices (specific character / graphic detection device 3 and dedicated server 4).

特定文字・図形検出装置3は、制御手段31と、記憶手段32と、画像入力手段33と、操作・表示手段34と、画像出力手段35と、通信手段36とを備えている。制御手段31は特定文字・図形検出装置3全体の制御を行う。   The specific character / graphic detection device 3 includes a control unit 31, a storage unit 32, an image input unit 33, an operation / display unit 34, an image output unit 35, and a communication unit 36. The control means 31 controls the specific character / graphic detection device 3 as a whole.

記憶手段32にはプログラム321(文字・図形認識プログラムP1,文字列・図形検索プログラムP3,検索結果出力プログラムP4)と部分辞書322とが格納されている。   The storage means 32 stores a program 321 (character / graphic recognition program P1, character string / graphic search program P3, search result output program P4) and a partial dictionary 322.

プログラムP1,P3,P4はそれぞれ制御手段31により実行され、プログラムP1と制御手段31とが文字・図形認識手段M1を構成し、プログラムP3と制御手段31とが文字列・図形検索手段M3を構成し、検索結果出力プログラムP4と制御手段31とが検索結果出力手段M4を構成する。   The programs P1, P3, and P4 are respectively executed by the control means 31, and the program P1 and the control means 31 constitute a character / graphic recognition means M1, and the program P3 and the control means 31 constitute a character string / graphics search means M3. The search result output program P4 and the control means 31 constitute search result output means M4.

画像入力手段33はイメージスキャナ、デジタルカメラのような画像入力装置であってもよい、あるアプリケーションから画像を取得できる図示しない画像取得手段(プログラム)であってもよい。   The image input unit 33 may be an image input device such as an image scanner or a digital camera, or may be an image acquisition unit (program) (not shown) that can acquire an image from a certain application.

操作・表示手段34はユーザ・インタフェースであり、典型的には、キーボード,マウス等の操作手段と、ディスプレイ等の表示手段とからなる。画像出力手段35はプリンタであり、通信手段36は、ネットワーク500に接続するための手段である。   The operation / display unit 34 is a user interface, and typically includes an operation unit such as a keyboard and a mouse, and a display unit such as a display. The image output means 35 is a printer, and the communication means 36 is a means for connecting to the network 500.

専用サーバ4は、制御手段41と、記憶手段42と、通信手段43とを備えている。制御手段41は専用サーバ4全体の制御を行う。   The dedicated server 4 includes a control unit 41, a storage unit 42, and a communication unit 43. The control means 41 controls the entire dedicated server 4.

記憶手段42にはプログラム421(辞書生成プログラムP2)とパターン辞書422とが格納されている。プログラムP2は制御手段41により実行され、プログラムP2と制御手段41とが辞書生成手段M2を構成する。通信手段43は、ネットワーク500に接続するための手段である。   The storage means 42 stores a program 421 (dictionary generation program P2) and a pattern dictionary 422. The program P2 is executed by the control means 41, and the program P2 and the control means 41 constitute a dictionary generation means M2. The communication unit 43 is a unit for connecting to the network 500.

パターン辞書は、認識対象とする文字種、フォント等を拡張するにつれ、その容量が大きくなる。また、世の中の動向(新しいフォントの発表,フォントの流行等)に応じて、適宜メンテナンスが必要とされることがある。したがって、本実施形態では、パターン辞書422は、専用サーバ4で集中的に管理し、必要に応じて部分辞書322を切り出して用いるので、パターン辞書422のメンテナンス性および認識性能の向上が期待できる。   The capacity of the pattern dictionary increases as the character type, font, and the like to be recognized are expanded. In addition, maintenance may be required as appropriate according to trends in the world (new font announcements, font trends, etc.). Therefore, in the present embodiment, the pattern dictionary 422 is centrally managed by the dedicated server 4 and the partial dictionary 322 is cut out and used as necessary, so that the maintainability and recognition performance of the pattern dictionary 422 can be expected.

本実施形態では、検出対象とする文字列および部分辞書322は、データ量が少ないので、ここでは辞書生成手段M2とパターン辞書422を専用サーバ4に配置してある。特定文字・図形検出装置3は、ネットワーク500を介してアクセスすることができる。なお、たとえばネットワーク500の負荷が極端に増大しないような場合には、パターン辞書422のみを専用サーバ4に配置することができる。   In the present embodiment, the character string to be detected and the partial dictionary 322 have a small amount of data, and therefore the dictionary generation means M2 and the pattern dictionary 422 are arranged in the dedicated server 4 here. The specific character / graphic detection device 3 can be accessed via the network 500. For example, when the load on the network 500 does not increase extremely, only the pattern dictionary 422 can be arranged in the dedicated server 4.

以下、図15の特定文字・図形検出装置3の動作例を図16のフローチャートにより説明する。ユーザが検索対象となる文字列を操作・表示手段34から入力する。ここで、文字列“機密”が入力されると、この文字列はネットワーク500を介して専用サーバ4上の辞書生成手段M2に送られる(S501)。辞書生成手段M2は、受け取った文字列“機密”を元に、パターン辞書422から特定の辞書レコードを抽出し、ネットワーク500を介して特定文字・図形検出装置3に送信する。   Hereinafter, an example of the operation of the specific character / graphics detection device 3 of FIG. 15 will be described with reference to the flowchart of FIG. The user inputs a character string to be searched from the operation / display unit 34. Here, when the character string “confidential” is input, this character string is sent to the dictionary generation means M2 on the dedicated server 4 via the network 500 (S501). The dictionary generation means M2 extracts a specific dictionary record from the pattern dictionary 422 based on the received character string “confidential”, and transmits it to the specific character / figure detecting device 3 via the network 500.

特定文字・図形検出装置3は、辞書レコードを受信するとこれをの部分辞書322として保存する(S502)。以下、第1実施形態の第3動作例のS303〜S305と同様、検索対象画像TGについて部分辞書322を用いて文字認識を行ない(S503)、文字認識結果を受け取り"機密"の文字列を検索し(S504)、"機密"として検索された検索対象画像TG上の文字列部分を強調して操作・表示手段34のディスプレイに表示する(S505)。
《第4実施形態》
図17は本発明の特定文字・図形検出装置の第4実施形態を示す機能ブロック図である。図17において、特定文字・図形検出装置6は、第1実施形態の特定文字・図形検出装置1(図1参照)の構成と概略同じであり、図17の、制御手段61、記憶手段62、画像入力手段63、操作・表示手段64,プログラム621,部分辞書622,パターン辞書623,処理対象画像格納領域624,文字・図形認識手段M1′,辞書生成手段M2,文字列・図形検索手段M3,検索結果出力手段M4の構成は、図1の制御手段11、記憶手段12、画像入力手段13、操作・表示手段14,プログラム121,部分辞書122,パターン辞書123,処理対象画像格納領域124,文字・図形認識手段M1,辞書生成手段M2,文字列・図形検索手段M3,検索結果出力手段M4の構成と概ね同じである。ただし、本実施形態では文字・図形認識手段M1′によるマッチング方式が図1の文字・図形認識手段M1によるマッチング方式と異なる。
When the specific character / figure detecting device 3 receives the dictionary record, it stores it as a partial dictionary 322 (S502). Thereafter, as in S303 to S305 in the third operation example of the first embodiment, character recognition is performed on the search target image TG using the partial dictionary 322 (S503), the character recognition result is received, and a “confidential” character string is searched. Then, the character string portion on the search target image TG searched as “confidential” is emphasized and displayed on the display of the operation / display unit 34 (S505).
<< 4th Embodiment >>
FIG. 17 is a functional block diagram showing a fourth embodiment of the specific character / graphic detection apparatus of the present invention. In FIG. 17, the specific character / graphic detection device 6 is substantially the same as the configuration of the specific character / graphic detection device 1 (see FIG. 1) of the first embodiment, and the control means 61, storage means 62, Image input means 63, operation / display means 64, program 621, partial dictionary 622, pattern dictionary 623, processing target image storage area 624, character / graphic recognition means M1 ′, dictionary generation means M2, character string / graphic search means M3 The search result output means M4 is composed of the control means 11, storage means 12, image input means 13, operation / display means 14, program 121, partial dictionary 122, pattern dictionary 123, processing target image storage area 124, character in FIG. The configuration is almost the same as that of the figure recognition means M1, the dictionary generation means M2, the character string / graphic search means M3, and the search result output means M4. However, in this embodiment, the matching method by the character / graphic recognition means M1 ′ is different from the matching method by the character / graphic recognition means M1 in FIG.

また、パターン辞書623が学習データにおけるデータ分布に関する情報が含まれているのに対し、図1のパターン辞書123はデータ分布に関する情報は含まない点。パターン辞書623に含まれている情報は、ベイズ識別関数や、修正2次識別関数などの一般的な統計的手法を用いる場合には必須であり、パターン辞書中に含まれていることは珍しくない。本実施形態では、カテゴリ内の特徴量標準偏差値がパターン辞書623のレコードに含まれているものとする。辞書生成装置により“機”,“密”の辞書レコードが抽出された様子を図18に示す。図18は特徴量空間SSであり、楕円内は学習データのカテゴリ内標準偏差を示している。   In addition, the pattern dictionary 623 includes information on the data distribution in the learning data, whereas the pattern dictionary 123 in FIG. 1 does not include information on the data distribution. The information included in the pattern dictionary 623 is indispensable when a general statistical method such as a Bayes discriminant function or a modified secondary discriminant function is used, and it is not uncommon for it to be included in the pattern dictionary. . In this embodiment, it is assumed that the feature amount standard deviation value in the category is included in the record of the pattern dictionary 623. FIG. 18 shows a state where “dictionary” and “dense” dictionary records are extracted by the dictionary generation device. FIG. 18 shows the feature amount space SS, and the inside of the ellipse indicates the standard deviation within the category of the learning data.

以下、図17の特定文字・図形検出装置6の動作例を図19のフローチャートにより説明する。図19においてS601,S602の処理は、第1実施形態の第1動作例におけるS101,S102と同じである。すなわち、ユーザは操作・表示手段64を用いて検索対象画像TGの指定、および検索文字列・図形LSの指定(ここでは、文字列“機密”の指定)を行なう(S601)。   Hereinafter, an operation example of the specific character / graphics detection device 6 of FIG. 17 will be described with reference to the flowchart of FIG. In FIG. 19, the processing of S601 and S602 is the same as S101 and S102 in the first operation example of the first embodiment. That is, the user uses the operation / display unit 64 to specify the search target image TG and the search character string / graphic LS (here, the character string “confidential”) (S601).

辞書生成手段M2は、指定された文字列“機密”を構成する文字“機”および“密”の辞書レコード(記録されているデータは特徴量である)をパターン辞書623から抽出し、これを部分辞書122として保存する(S602)。   The dictionary generation means M2 extracts from the pattern dictionary 623 the dictionary records of the characters “machine” and “dense” that make up the designated character string “confidential” (the recorded data is a feature quantity), and this is extracted. It is stored as the partial dictionary 122 (S602).

次に検索対象画像TGから切り出された文字画像から特徴量を抽出し(S603)、切り出した文字画像の特徴量と部分辞書622内の文字("機","密")の特徴量との差をそれぞれ求める(S604)。   Next, a feature amount is extracted from the character image cut out from the search target image TG (S603), and the feature amount of the cut out character image and the feature amount of the characters (“machine”, “fine”) in the partial dictionary 622 are obtained. Each difference is obtained (S604).

そして、特徴量の差が標準偏差の範囲内である文字画像について、対応する文字全て(ここでは、"機","密")を文字・図形認識手段M1′により認識処理し、その結果を出力する(S605)。図18において、黒丸で示す点は検索対象画像TG中の各文字画像の特徴量を示しており各楕円内に含まれる点に対応する文字画像が"機","密"として認識される。2つの楕円双方に含まれる点については、"機"および"密"の2つを認識文字とする。図19に認識結果の例を示す。“(機密)”
は、文字部分が"機"および"密"として認識されたことを示している。
The character / graphic recognition means M1 ′ recognizes all the corresponding characters (in this case, “machine”, “fine”) for character images whose feature amounts are within the standard deviation range, and the result is It outputs (S605). In FIG. 18, the points indicated by black circles indicate the feature amounts of the character images in the search target image TG, and the character images corresponding to the points included in each ellipse are recognized as “machine” and “dense”. For the points included in both ellipses, the two characters “machine” and “dense” are recognized characters. FIG. 19 shows an example of the recognition result. “(Confidential)”
Indicates that the character part is recognized as "machine" and "dense".

さらに、文字認識結果を受け取り、文字列・図形検索手段M3により"機密"の文字列を検索する(S606)。たとえば、“(機密)密”の場合には、その部分は“機密”および“密密”であり、したがって“(機密)密”の場合には、検索文字列が“機密”であるときはヒットする(図20の楕円で囲った部分参照)。これに対し、“密(機密)”の場合には、その部分は“密機”および“密密”なので検索文字列が“機密”であるときはヒットしない。   Further, the character recognition result is received, and the “confidential” character string is searched by the character string / graphic search means M3 (S606). For example, in the case of “(confidential) secret”, the part is “confidential” and “confidential”, so in the case of “(confidential) secret”, when the search string is “confidential” Hit (see the part enclosed by an ellipse in FIG. 20). On the other hand, in the case of “secret (confidential)”, since the portion is “confidential” and “confidential”, no hit occurs when the search character string is “confidential”.

"機密"として抽出された検索対象画像上の文字列部分を強調して検索結果出力手段M4によりディスプレイに出力する。   The character string portion on the search target image extracted as “confidential” is emphasized and output to the display by the search result output means M4.

上記の第1〜第4実施形態では、文字列“機密”を検索する場合を例に説明したが、ロゴ等、文字・図形認識手段M1により認識可能な図形を検索対象することができる。たとえば、特定の会社のレターヘッド等に付与されるロゴ等を検索対象図形とすることえ、特定の会社の原稿のみを検出することができる。   In the first to fourth embodiments described above, the case of searching for the character string “confidential” has been described as an example. However, it is possible to search for a graphic such as a logo that can be recognized by the character / graphic recognition means M1. For example, it is possible to detect only a manuscript of a specific company by using a logo or the like attached to a letterhead of a specific company as a search target graphic.

本発明の特定文字・図形検出装置の第1実施形態を示す機能ブロック図である。It is a functional block diagram which shows 1st Embodiment of the specific character and figure detection apparatus of this invention. 図1の特定文字・図形検出装置の第1動作例を示すフローチャートである。3 is a flowchart illustrating a first operation example of the specific character / figure detecting apparatus of FIG. 1. 図1の特定文字・図形検出装置に適用される検索対象画像の例を示す図である。It is a figure which shows the example of the search object image applied to the specific character and figure detection apparatus of FIG. 図1の特定文字・図形検出装置による検索対象画像に含まれる各文字についての認識結果を示す図である。It is a figure which shows the recognition result about each character contained in the search object image by the specific character and figure detection apparatus of FIG. 図4に示した文字・図形認識手段による認識結果の中の“機密”部分を黒塗り文字で示した図である。FIG. 5 is a diagram showing a “confidential” portion in the recognition result by the character / figure recognition unit shown in FIG. 第1動作例において検索結果にかかる検索対象画像上の文字列部分を強調して操作・表示手段の表示部に出力した例を示す図である。It is a figure which shows the example which emphasized the character string part on the search object image concerning a search result in the 1st operation example, and output it to the display part of the operation / display means. 図1の特定文字・図形検出装置の第2動作例を示すフローチャートである。It is a flowchart which shows the 2nd operation example of the specific character and figure detection apparatus of FIG. 図3に示した文字・図形認識手段による認識結果(文字列)の中の“機密”部分を黒塗り文字で示すとともに、“機密”部分に、各文字(“機”,“密”)の相違度を数値で示した図である。The “confidential” part in the recognition result (character string) by the character / graphic recognition means shown in FIG. 3 is indicated by black characters, and each character (“machine”, “secret”) is displayed in the “confidential” part. It is the figure which showed the difference degree numerically. 第2動作例において検索結果にかかる検索対象画像上の文字列部分を強調して操作・表示手段の表示部に出力した例を示す図である。It is a figure which shows the example which highlighted the character string part on the search object image concerning a search result in the 2nd operation example, and output it to the display part of the operation / display means. 図1の特定文字・図形検出装置の第3動作例を示すフローチャートである。6 is a flowchart illustrating a third operation example of the specific character / figure detecting apparatus in FIG. 1. 辞書レコードを構成する文字の特徴量を2次元で表した図である。It is the figure which represented the feature-value of the character which comprises a dictionary record in two dimensions. 第3動作例において文字・図形認識手段による検索対象画像に含まれる各文字についての認識結果を示す図である。It is a figure which shows the recognition result about each character contained in the search object image by a character and figure recognition means in a 3rd operation example. 本発明の特定文字・図形検出装置の第2実施形態を示す機能ブロック図である。It is a functional block diagram which shows 2nd Embodiment of the specific character and figure detection apparatus of this invention. 複写を制限する文字列が"機密"である場合の複写機の動作を示すフローチャートである。6 is a flowchart showing the operation of the copying machine when the character string that restricts copying is “confidential”. 本発明の特定文字・図形検出装置の第3実施形態を示す機能ブロック図である。It is a functional block diagram which shows 3rd Embodiment of the specific character and figure detection apparatus of this invention. 図15の特定文字・図形検出装置の動作例を示すフローチャートである。It is a flowchart which shows the operation example of the specific character and figure detection apparatus of FIG. 本発明の特定文字・図形検出装置の第4実施形態を示す機能ブロック図である。It is a functional block diagram which shows 4th Embodiment of the specific character and figure detection apparatus of this invention. 図17の辞書生成装置により“機”,“密”の辞書レコードが抽出された様子を示す図である。It is a figure which shows a mode that the dictionary record of "machine" and "dense" was extracted by the dictionary production | generation apparatus of FIG. 図17の特定文字・図形検出装置の動作例を示すフローチャートである。It is a flowchart which shows the operation example of the specific character and figure detection apparatus of FIG. 図17の特定文字・図形検出装置の動作を説明するための図である。It is a figure for demonstrating operation | movement of the specific character and figure detection apparatus of FIG.

符号の説明Explanation of symbols

1 特定文字・図形検出装置
2 複写機
3,6 特定文字・図形検出装置
4 専用サーバ
11,31,41,61 制御手段
12,32,42,62 記憶手段
13,33,63 画像入力手段
14,34,64 操作・表示手段
21 中央処理装置
23 イメージスキャナ
24 オペレーションパネル
25 プリンタ
35 画像出力手段
36,43 通信手段
121,321,621,421,2211 プログラム
122,322,622,2212 部分辞書
123,623,422,2221 パターン辞書
124,624 処理対象画像格納領域
221 メモリ
222 磁気記憶装置
500 ネットワーク
M1 文字・図形認識手段
M2 辞書生成手段
M3 文字列・図形検索手段
M4 検索結果出力手段
DESCRIPTION OF SYMBOLS 1 Specific character and figure detection apparatus 2 Copier 3,6 Specific character and figure detection apparatus 4 Dedicated server 11, 31, 41, 61 Control means 12, 32, 42, 62 Storage means 13, 33, 63 Image input means 14, 34, 64 Operation / display means 21 Central processing unit 23 Image scanner 24 Operation panel 25 Printer 35 Image output means 36, 43 Communication means 121, 321, 621, 421, 2211 Program 122, 322, 622, 2212 Partial dictionary 123, 623 , 422, 2221 Pattern dictionary 124, 624 Processing target image storage area 221 Memory 222 Magnetic storage device 500 Network M1 Character / graphic recognition means M2 Dictionary generation means M3 Character string / graphics search means M4 Search result output means

Claims (6)

検索対象画像に対してキャラクタ認識を行い、当該画像中の特定キャラクタ列を抽出する特定キャラクタ列検索装置において、
多数の文字が登録されたパターン辞書から、前記特定キャラクタ列に含まれる1つ以上の特定キャラクタ、および、その1つ以上の特定キャラクタのおのおのと相違度が小さい複数の小相違度キャラクタの辞書レコードのみを抽出して部分辞書を生成する辞書生成手段と、
前記辞書生成手段により生成された部分辞書を用い検索対象画像中のキャラクタについて、前記特定キャラクタおよび前記小相違度キャラクタとのキャラクタ認識処理を行うキャラクタ認識手段と、
前記キャラクタ認識手段により得られた複数のキャラクタ列について、前記特定のキャラクタとのキャラクタ認識処理を行って、前記特定キャラクタ列と同一性を有するキャラクタ列を抽出するキャラクタ列検索手段とを備えたことを特徴とする特定キャラクタ列検索装置。
In a specific character string search device that performs character recognition on a search target image and extracts a specific character string in the image,
A dictionary record of one or more specific characters included in the specific character string and a plurality of small difference characters having a small difference from each of the one or more specific characters from a pattern dictionary in which a large number of characters are registered A dictionary generating means for extracting only the data and generating a partial dictionary;
Using the generated partial dictionary by the dictionary generation means for a character in the search target image, and character recognition means for performing character recognition processing of the specific character and the small degree of difference character,
For the character recognition plurality of character string obtained by means that, the performing character recognition processing of a particular character, and a character string search means for extracting a character string with a specified character string and identity The specific character string search device characterized by the above.
前記キャラクタ認識手段は、前記検索対象画像中のキャラクタについて、前記特定キャラクタ列を構成する各キャラクタおよび小相違度キャラクタとの同一/非同一を判断することを特徴とする請求項1に記載の特定キャラクタ列検索装置。 2. The specification according to claim 1, wherein the character recognition unit determines whether the characters in the search target image are the same / non-identical with each character constituting the specific character string and a small difference character. Character string search device. 検索対象画像に対してキャラクタ認識を行い、当該画像中の特定キャラクタ列を抽出する特定キャラクタ列検索方法において、
多数の文字が登録されたパターン辞書から、前記特定キャラクタ列に含まれる1つ以上の特定キャラクタ、および、その1つ以上の特定キャラクタのおのおのと相違度が小さい複数の小相違度キャラクタの辞書レコードのみを抽出して部分辞書を生成する辞書生成ステップと、
前記辞書生成ステップにより生成された部分辞書を用い検索対象画像中のキャラクタについて、前記特定キャラクタおよび前記小相違度キャラクタとのキャラクタ認識処理を行うキャラクタ認識ステップと、
前記キャラクタ認識ステップにより得られた複数のキャラクタ列について、前記特定のキャラクタとのキャラクタ認識処理を行って、前記特定キャラクタ列と同一性を有するキャラクタ列を抽出するキャラクタ列検索ステップとを備えたことを特徴とする特定キャラクタ列検索方法。
In a specific character string search method for performing character recognition on a search target image and extracting a specific character string in the image,
A dictionary record of one or more specific characters included in the specific character string and a plurality of small difference characters having a small difference from each of the one or more specific characters from a pattern dictionary in which a large number of characters are registered A dictionary generation step of generating only a partial dictionary by extracting only
Using the generated partial dictionary by said dictionary generating step, for the character in the search target image, and character recognition step of performing character recognition processing of the specific character and the small degree of difference character,
For a plurality of character string obtained by the character recognition step to the performing character recognition processing of a particular character, and a character string search step of extracting a character string with a specified character string and identity The specific character string search method characterized by the above.
前記キャラクタ認識ステップは、前記検索対象画像中のキャラクタについて、前記特定キャラクタ列を構成する各キャラクタおよび小相違度キャラクタとの同一/非同一を判断することを特徴とする請求項3に記載の特定キャラクタ列検索方法。   4. The specification according to claim 3, wherein the character recognition step determines whether the characters in the search target image are the same / non-identical with each character constituting the specific character string and the small difference character. Character string search method. コンピュータに、請求項3または4に記載のキャラクタ列検索方法の各ステップを実行させることを特徴とする特定キャラクタ列検索プログラム。 A specific character string search program that causes a computer to execute each step of the character string search method according to claim 3 or 4 . 請求項5に記載された特定キャラクタ列検索プログラムを格納したコンピュータに読み取り可能な記録媒体。A computer-readable recording medium storing the specific character string search program according to claim 5.
JP2003408941A 2003-12-08 2003-12-08 Specific character string search device, specific character string search method, specific character string search program, and recording medium Expired - Fee Related JP4294456B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003408941A JP4294456B2 (en) 2003-12-08 2003-12-08 Specific character string search device, specific character string search method, specific character string search program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003408941A JP4294456B2 (en) 2003-12-08 2003-12-08 Specific character string search device, specific character string search method, specific character string search program, and recording medium

Publications (2)

Publication Number Publication Date
JP2005173696A JP2005173696A (en) 2005-06-30
JP4294456B2 true JP4294456B2 (en) 2009-07-15

Family

ID=34730480

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003408941A Expired - Fee Related JP4294456B2 (en) 2003-12-08 2003-12-08 Specific character string search device, specific character string search method, specific character string search program, and recording medium

Country Status (1)

Country Link
JP (1) JP4294456B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4548843B2 (en) * 2005-11-15 2010-09-22 株式会社トーショー Prescription acceptance device
CN101571921B (en) * 2008-04-28 2012-07-25 富士通株式会社 Method and device for identifying key words

Also Published As

Publication number Publication date
JP2005173696A (en) 2005-06-30

Similar Documents

Publication Publication Date Title
JP4742404B2 (en) Image recognition apparatus, image forming apparatus, image recognition method, and computer-readable recording medium storing image recognition program
JP5042562B2 (en) Image processing apparatus, handwritten information recognition method, handwritten information recognition program
JP4461769B2 (en) Document retrieval / browsing technique and document retrieval / browsing device
US20060285748A1 (en) Document processing device
US9710524B2 (en) Image processing apparatus, image processing method, and computer-readable storage medium
JP4780169B2 (en) Data generation device, scanner, and computer program
US20150055155A1 (en) Information processing apparatus, image processing apparatus, and information processing system
JP2013196479A (en) Information processing system, information processing program, and information processing method
JPWO2008090606A1 (en) Information search program, recording medium storing the program, information search device, and information search method
US9881001B2 (en) Image processing device, image processing method and non-transitory computer readable recording medium
JP2006221569A (en) Document processing system, document processing method, program, and storage medium
JP2008129793A (en) Document processing system, apparatus and method, and recording medium with program recorded thereon
US20210166284A1 (en) Information processing system, information processing method, and non-transitory recording medium
US20210295033A1 (en) Information processing apparatus and non-transitory computer readable medium
JP2007310501A (en) Information processor, its control method, and program
US10638001B2 (en) Information processing apparatus for performing optical character recognition (OCR) processing on image data and converting image data to document data
JP2000322417A (en) Device and method for filing image and storage medium
JP4294456B2 (en) Specific character string search device, specific character string search method, specific character string search program, and recording medium
JP5353325B2 (en) Document data generation apparatus and document data generation method
US11064094B2 (en) Image forming apparatus for forming image represented by image data on recording paper sheet
JP7268389B2 (en) Information processing device and program
JP7302175B2 (en) Information processing device and information processing program
JP2022185874A (en) Information processing device, information processing system, information processing method, and program
JP2021018520A (en) Information processor, information processing method, and program
CN104469051A (en) Management system, image forming device, and terminal device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090106

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090131

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090407

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090408

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120417

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120417

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130417

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140417

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees