JP2011065597A - Device and data searching, and program - Google Patents

Device and data searching, and program Download PDF

Info

Publication number
JP2011065597A
JP2011065597A JP2009218009A JP2009218009A JP2011065597A JP 2011065597 A JP2011065597 A JP 2011065597A JP 2009218009 A JP2009218009 A JP 2009218009A JP 2009218009 A JP2009218009 A JP 2009218009A JP 2011065597 A JP2011065597 A JP 2011065597A
Authority
JP
Japan
Prior art keywords
search
character
characters
data
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009218009A
Other languages
Japanese (ja)
Inventor
Hiroyasu Ide
博康 井手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2009218009A priority Critical patent/JP2011065597A/en
Publication of JP2011065597A publication Critical patent/JP2011065597A/en
Withdrawn legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To obtain a desired search result with less search omission even when an error recognition character is included in text data. <P>SOLUTION: A memory 16 includes an error recognition database 23 where characters with high possibility for error recognition are prestored as error recognition characters concerning the respective characters. When a search word is input through an input part 13, a CPU 11 exchanges the respective characters of the search word with the error recognition characters stored in the database 23, thereby to search a text by adding the search word after character exchange to the search words. Consequently, the desired search result with less search omission is obtained even when the error recognition character is included in the text data. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、例えばPC(Personal Computer)等の情報処理装置に用いられ、文字認識した結果に対してデータ検索を行うデータ検索装置、データ検索方法及びプログラムに関する。   The present invention relates to a data search apparatus, a data search method, and a program that are used in an information processing apparatus such as a PC (Personal Computer), for example, and perform data search on the result of character recognition.

従来、手書き文字を文字認識して得られたデータに対して検索を行う技術として、以下のような特許文献1,2がある。   Conventionally, there are the following Patent Documents 1 and 2 as techniques for performing a search on data obtained by character recognition of handwritten characters.

特許文献1には、検索対象がテキストだけでなく、文字のイメージ(画像)が含まれている場合において、検索語をイメージ化してパターンマッチングによって検索を行うことで、テキストと文字のイメージの両方を検索可能とすることが開示されている。   In Patent Document 1, when a search target includes not only text but also a character image (image), both the text and the character image are obtained by making a search word into an image and performing a search by pattern matching. Is made searchable.

特許文献2には、検索語の入力手段が文字認識であり、その認識結果を複数用意して検索を行うことで、検索漏れを少なくすることが開示されている。   Patent Document 2 discloses that search word input means is character recognition, and a plurality of recognition results are prepared and searched to reduce search omissions.

特開平8−55134号公報JP-A-8-55134 特開2006−163830号公報JP 2006-163830 A

通常、手書き文字や活字が記述された書類を文字認識した場合に、必ずしも全ての文字が正しく認識されるわけではなく、一部の文字が誤認識されることが多い。このような誤認識文字を含んだテキストデータを検索対象とすると、検索語を正しく入力しても、検索漏れが生じてしまうことがある。上述した特許文献1,2では、このような誤認識文字に対する処理について特に言及されていない。   Usually, when a document in which handwritten characters or printed characters are described is recognized, not all characters are recognized correctly, and some characters are often erroneously recognized. If text data including such misrecognized characters is used as a search target, a search omission may occur even if a search word is correctly input. In Patent Documents 1 and 2 described above, there is no particular mention of processing for such erroneously recognized characters.

本発明は前記のような点に鑑みなされたもので、テキストデータに誤認識文字が含まれている場合であっても、検索漏れを少なくして所望の検索結果を得ることのできるデータ検索装置、データ検索方法及びプログラムを提供することを目的とする。   The present invention has been made in view of the above points, and a data search apparatus capable of obtaining a desired search result with reduced search omission even when erroneous recognition characters are included in text data. An object of the present invention is to provide a data search method and program.

本発明に係るデータ検索装置は、文字認識されたテキストデータを検索対象として取得する検索対象取得手段と、予め各文字について、誤認識される可能性の高い文字が誤認識文字として記憶された誤認識用データベースと、検索語を入力する入力手段と、この入力手段によって入力された検索語の各文字を前記誤認識用データベースに記憶された誤認識文字と入れ替える文字置換手段と、前記検索語に前記文字置換手段によって得られた文字入れ替え後の検索語を加えて前記テキストデータを検索する検索処理手段とを具備したことを特徴とする。   The data search device according to the present invention includes a search target acquisition unit that acquires text data that has been character-recognized as a search target, and an error in which characters that are likely to be erroneously recognized are stored as erroneously recognized characters in advance. A recognition database, an input means for inputting a search word, a character replacement means for replacing each character of the search word input by the input means with an erroneous recognition character stored in the erroneous recognition database, and the search word And a search processing means for searching for the text data by adding a search term after the character replacement obtained by the character replacement means.

また、本発明に係るデータ検索方法は、文字認識されたテキストデータを検索対象として取得し、予め各文字について、誤認識される可能性の高い文字が誤認識文字として記憶された誤認識用データベースを用いて、入力された検索語の各文字を前記誤認識用データベースに記憶された誤認識文字と入れ替え、前記検索語に前記文字入れ替え後の検索語を加えて前記テキストデータを検索することを特徴とする。   In addition, the data search method according to the present invention acquires character-recognized text data as a search target, and a database for erroneous recognition in which characters that are likely to be erroneously recognized are stored as erroneously recognized characters in advance for each character. To replace each character of the input search word with a misrecognized character stored in the database for misrecognition, and to search the text data by adding the search word after the character replacement to the search word. Features.

また、本発明に係るプログラムは、コンピュータによって実行されるデータ検索用のプログラムであって、前記コンピュータに、文字認識されたテキストデータを検索対象として取得する機能と、予め各文字について、誤認識される可能性の高い文字が誤認識文字として記憶された誤認識用データベースを用いて、入力された検索語の各文字を前記誤認識用データベースに記憶された誤認識文字と入れ替える機能と、前記検索語に前記文字入れ替え後の検索語を加えて前記テキストデータを検索する機能とを実現させることを特徴とする。   The program according to the present invention is a data search program executed by a computer, and the computer has a function of acquiring text data that has been recognized as a search target, and each character has been erroneously recognized in advance. A function of replacing each character of the input search word with a misrecognized character stored in the misrecognition database, using a misrecognition database in which characters that are likely to be stored as misrecognized characters, and the search And a function for searching the text data by adding a search word after the character replacement to a word.

本発明によれば、入力された検索語の各文字を誤認識される可能性の高い文字と入れ替えてデータ検索が行なわれる。これにより、テキストデータに誤認識文字が含まれている場合であっても、検索漏れを少なくして所望の検索結果を得ることができる。   According to the present invention, data search is performed by replacing each character of the input search word with a character that is highly likely to be erroneously recognized. Thereby, even if a misrecognized character is included in the text data, it is possible to reduce a search omission and obtain a desired search result.

図1は本発明の第1の実施形態に係るデータ検索装置の構成を示すブロック図である。FIG. 1 is a block diagram showing a configuration of a data search apparatus according to the first embodiment of the present invention. 図2は同実施形態におけるデータ検索装置に設けられた検索対象データベースの構成を示す図である。FIG. 2 is a diagram showing a configuration of a search target database provided in the data search apparatus according to the embodiment. 図3は同実施形態におけるデータ検索装置に設けられた誤認識確率データベースの構成を示す図である。FIG. 3 is a diagram showing a configuration of a misrecognition probability database provided in the data search apparatus according to the embodiment. 図4は同実施形態におけるデータ検索装置に設けられたCPUの機能構成を示す図である。FIG. 4 is a diagram illustrating a functional configuration of a CPU provided in the data search apparatus according to the embodiment. 図5は同実施形態におけるデータ検索装置の処理動作を示すフローチャートである。FIG. 5 is a flowchart showing the processing operation of the data search apparatus in the embodiment. 図6は同実施形態における検索語の一例を示す図である。FIG. 6 is a diagram showing an example of a search word in the same embodiment. 図7は同実施形態における検索語の各文字に対応した誤認識文字の一例を示す図である。FIG. 7 is a diagram illustrating an example of a misrecognized character corresponding to each character of a search word in the embodiment. 図8は同実施形態における検索語の各文字に対応した誤認識文字の一例を示す図である。FIG. 8 is a diagram showing an example of a misrecognized character corresponding to each character of the search word in the embodiment. 図9は本発明の第2の実施形態に係るデータ検索装置の処理動作を示すフローチャートである。FIG. 9 is a flowchart showing the processing operation of the data search apparatus according to the second embodiment of the present invention. 図10は同実施形態における検索候補の一例を示す図である。FIG. 10 is a diagram showing an example of search candidates in the embodiment.

以下、図面を参照して本発明の実施形態を説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

(第1の実施形態)
図1は本発明の第1の実施形態に係るデータ検索装置の構成を示すブロック図である。
(First embodiment)
FIG. 1 is a block diagram showing a configuration of a data search apparatus according to the first embodiment of the present invention.

本実施形態におけるデータ検索装置は、CPU11と、そのCPU11にシステムバス10を介して接続された表示部12と、入力部13と、スキャナ部14と、記憶装置15と、メモリ16と、媒体読取装置17とを備える。   The data search apparatus according to the present embodiment includes a CPU 11, a display unit 12, an input unit 13, a scanner unit 14, a storage device 15, a memory 16, and a medium reading device connected to the CPU 11 via a system bus 10. Device 17.

CPU11は、本装置全体の制御を行うものであり、入力指示に従ったプログラムの起動によりデータ検索に関わる一連の処理を実行する。表示部12は、例えばCRT(Cathode-ray tube)やLCD(Liquid Crystal Display)等の表示デバイスからなり、データ検索結果を含む各種データの表示を行う。入力部13は、例えばキーボードやマウス等の入力デバイスからなり、検索語を含む各種データの入力や指示を行う。スキャナ部14は、書類や写真をイメージ化して取り込むための装置である。   The CPU 11 controls the entire apparatus, and executes a series of processes related to data retrieval by starting a program according to an input instruction. The display unit 12 includes a display device such as a CRT (Cathode-ray tube) or an LCD (Liquid Crystal Display), and displays various data including a data search result. The input unit 13 includes an input device such as a keyboard and a mouse, and inputs and instructs various data including a search term. The scanner unit 14 is an apparatus for capturing and capturing documents and photographs.

記憶装置15は、例えばフラッシュメモリ、ハードディスク装置などからなり、ここでは画像データベース(画像DB)21、検索対象データベース(検索対象DB)22、誤認識確率データベース(誤認識確率DB)23を有する。   The storage device 15 includes, for example, a flash memory, a hard disk device, and the like. The storage device 15 includes an image database (image DB) 21, a search target database (search target DB) 22, and an error recognition probability database (error recognition probability DB) 23.

画像データベース21は、各種画像データを記憶している。検索対象データベース22は、検索対象として用いられるデータを記憶している。本実施形態では、新聞の紙面をスキャナ部14で取り込み、その紙面の記事を文字認識して得た結果のテキストデータが検索対象として検索対象データベース22に記憶されている。なお、以下では、「文字認識して得た結果のテキストデータ」のことを単に「文字認識されたテキストデータ」と称す。このテキストデータには、誤認識された文字が含まれているものとする。   The image database 21 stores various image data. The search target database 22 stores data used as a search target. In the present embodiment, text data obtained as a result of reading a newspaper page by the scanner unit 14 and character recognition of an article on the page is stored in the search target database 22 as a search target. Hereinafter, “text data obtained as a result of character recognition” is simply referred to as “text data with character recognition”. It is assumed that the text data includes misrecognized characters.

また、記事に関連した画像については、スキャナ部14によって取り込まれて画像データベース21に記憶される。その際、検索対象データベース22には、図2に示すように、文字認識されたテキストデータと共に画像データの保存先を示すリンク情報が記憶される。   Further, the image related to the article is captured by the scanner unit 14 and stored in the image database 21. At that time, as shown in FIG. 2, the search target database 22 stores link information indicating the storage destination of the image data together with the text data that has been character-recognized.

誤認識確率データベース23は、検索対象データベース22の作成時に使わされた文字認識アルゴリズムが誤認識をする確率が収められている。具体的には、平仮名、カタカナ、漢字、アルファベット等の各種文字について、これらの文字が誤認識される文字とその確率を対応付けた表が記憶されている。なお、この表は別途文字画像のコーパスデータから生成しておくものとするが、その生成方法については特に限定されるものではなく、いかなる方法であってもよい。   The misrecognition probability database 23 stores the probability that the character recognition algorithm used when the search target database 22 was created will misrecognize. Specifically, for various characters such as hiragana, katakana, kanji, and alphabet, a table is stored in which characters that are erroneously recognized and their probabilities are associated with each other. This table is separately generated from the corpus data of the character image. However, the generation method is not particularly limited, and any method may be used.

図3に平仮名文字に対する誤認識確率データベース23の一例を示す。
平仮名文字「あ」,「い」,「う」…に対して、誤認識される文字とその確率が対応付けられている。例えば、平仮名文字の「あ」であれば、「お」といった文字に誤認識される確率が(20)、「め」といった文字に誤認識される確率が(7)、「ぬ」といった文字に誤認識される確率が(3)である。
FIG. 3 shows an example of the erroneous recognition probability database 23 for hiragana characters.
Hiragana characters “A”, “I”, “U”,... Are associated with characters that are misrecognized and their probabilities. For example, if the hiragana character is “a”, the probability of being erroneously recognized as a character such as “o” is (20), and the probability of being erroneously recognized as a character such as “me” is (7). The probability of erroneous recognition is (3).

ここで、図4に示すように、主制御装置であるCPU11には、このような誤認識文字を含むテキストデータを検索対象とした場合の機能構成として、文字置換部11a、検索処理部11b、検索候補生成部11cが備えられている。   Here, as shown in FIG. 4, the CPU 11 as the main control device has a character replacement unit 11a, a search processing unit 11b, as a functional configuration when text data including such misrecognized characters is a search target. A search candidate generation unit 11c is provided.

文字置換部11aは、入力部13によって入力された検索語の文字を検索対象データベース22に記憶された誤認識文字と入れ替えるための処理を行う。検索処理部11bは、入力された検索語に文字置換部11aによって得られた文字入れ替え後の検索語を加えてテキストデータを検索するための処理を行う。検索候補生成部11cは、後述する第2の実施形態における一括検索時に所定数の検索候補を生成するための処理を行う。   The character replacement unit 11 a performs a process for replacing the character of the search term input by the input unit 13 with a misrecognized character stored in the search target database 22. The search processing unit 11b performs processing for searching for text data by adding the search term after the character replacement obtained by the character replacement unit 11a to the input search term. The search candidate generation unit 11c performs processing for generating a predetermined number of search candidates at the time of batch search in the second embodiment to be described later.

また、図1において、メモリ16は、ROMやRAMなどからなり、CPU11の処理動作に必要な各データを記憶している。このメモリ16には、プログラム記憶部24、入力バッファ25、出力バッファ26、検索数記憶部27、検索候補記憶部28が設けられている。   In FIG. 1, the memory 16 includes a ROM, a RAM, and the like, and stores various data necessary for the processing operation of the CPU 11. The memory 16 includes a program storage unit 24, an input buffer 25, an output buffer 26, a search number storage unit 27, and a search candidate storage unit 28.

プログラム記憶部24には、本発明を実現するためのプログラムの他、文字認識のためのアプリケーションプログラムなどの各種プログラムが記憶されている。入力バッファ25には、入力部13から入力された検索語が記憶される。出力バッファ26には、検索結果として得られたデータが記憶される。   The program storage unit 24 stores various programs such as an application program for character recognition in addition to a program for realizing the present invention. The input buffer 25 stores a search term input from the input unit 13. The output buffer 26 stores data obtained as a search result.

検索数記憶部27は、ユーザが指定した検索数(テキストデータから検索結果として抽出する個数)を記憶する。また、検索候補記憶部28は、後述する第2の実施形態における一括検索時に生成される所定数の検索候補のデータを記憶する。   The number-of-search storage unit 27 stores the number of searches designated by the user (number extracted from the text data as a search result). Further, the search candidate storage unit 28 stores data of a predetermined number of search candidates generated at the time of batch search in the second embodiment to be described later.

媒体読取装置17は、記録媒体18に記録されたプログラムを含む各種データを読み取るための装置である。記録媒体18としては、例えば磁気ディスク(フレキシブルディスク、ハードディスク等)、光ディスク(CD−ROM、DVD−ROM等)、半導体メモリなどがある。   The medium reading device 17 is a device for reading various data including a program recorded on the recording medium 18. Examples of the recording medium 18 include a magnetic disk (flexible disk, hard disk, etc.), an optical disk (CD-ROM, DVD-ROM, etc.), and a semiconductor memory.

次に、本装置の動作について説明する。
図5は第1の実施形態におけるデータ検索装置の処理動作を示すフローチャートである。なお、このフローチャートで示される処理は、CPU11によって読み取り可能なプログラムの形態で記録媒体18に記録されて媒体読取装置17を通じてインストールされるか、あるいは、メモリ16のプログラム記憶部24に予め記憶されている。
Next, the operation of this apparatus will be described.
FIG. 5 is a flowchart showing the processing operation of the data search apparatus in the first embodiment. The processing shown in this flowchart is recorded on the recording medium 18 in the form of a program readable by the CPU 11 and installed through the medium reading device 17 or stored in advance in the program storage unit 24 of the memory 16. Yes.

大量の新聞の紙面をスキャナ部14で読み取って文字認識したテキストデータが記事毎に検索対象データベース22に記憶されており、その中から所望の記事を検索する場合を想定する。なお、テキストデータには、その記事に関連した用語に誤認識文字が含まれているものとする。   It is assumed that text data obtained by reading a large number of newspaper pages with the scanner unit 14 and character-recognizing is stored in the search target database 22 for each article, and a desired article is searched from the text data. Note that the text data includes misrecognized characters in terms related to the article.

まず、初期設定として、ユーザが入力部13を通じて所望の記事に関連した用語を検索語として入力すると共に(ステップS11)、その記事を抽出したい個数を検索数として指定しておく(ステップS12)。これにより、CPU11は、入力部13から入力された検索語をメモリ16の入力バッファ25に記憶すると共に、指定の検索数をメモリ16の検索数記憶部27に記憶した後、以下のような検索処理を実行する。   First, as an initial setting, the user inputs a term related to a desired article as a search term through the input unit 13 (step S11), and designates the number of articles to be extracted as the number of searches (step S12). As a result, the CPU 11 stores the search word input from the input unit 13 in the input buffer 25 of the memory 16 and stores the designated search number in the search number storage unit 27 of the memory 16, and then searches as follows. Execute the process.

すなわち、CPU11は、前記入力バッファ25に記憶された検索語に基づいて検索対象データベース22を検索し、その検索対象データベース22に記憶されたテキストデータの中から検索語と一致する記事データを検索結果として抽出し、例えばメモリ16の図示せぬワーク領域に保持しておく(ステップS13)。この場合、テキストデータの中から該当する記事データが全て抽出され、そのデータの数が今回の検索数としてカウントされる。   That is, the CPU 11 searches the search target database 22 based on the search word stored in the input buffer 25, and searches for article data that matches the search word from the text data stored in the search target database 22. And stored in a work area (not shown) of the memory 16 (step S13). In this case, all relevant article data is extracted from the text data, and the number of the data is counted as the number of searches this time.

ここで、今回の検索数が前記検索数記憶部27に記憶された検索数(例えば100個)に達していなければ(ステップS14のNo)、CPU11は、入力された検索語を構成する各文字を誤認識確率データベース23の中の該当する誤認識文字と入れ替えることにより、誤認識の確率の高い検索語を生成して(ステップS15)、その生成された新たな検索語を用いてテキストデータを再検索する(ステップS13)。   Here, if the current number of searches does not reach the number of searches (for example, 100) stored in the search number storage unit 27 (No in step S14), the CPU 11 determines each character constituting the input search word. Is replaced with the corresponding misrecognized character in the misrecognition probability database 23 to generate a search word with a high probability of misrecognition (step S15), and text data is generated using the generated new search word. Search again (step S13).

図6乃至図8を用いて、誤認識の確率の高い検索語を生成する処理について具体的に説明する。   A process for generating a search word with a high probability of erroneous recognition will be specifically described with reference to FIGS.

今、図6に示すように「選挙違反」といった文字列が検索語として入力されたとすると、この「選挙違反」を構成する「選」,「挙」,「違」,「反」の各文字を誤認識確率データベース23で調べ、その結果、図7に示すような誤認識文字のデータが得られる。   If a character string such as “election violation” is input as a search word as shown in FIG. 6, the characters “selection”, “lift”, “fault”, “anti” that constitute this “election violation” As a result, erroneous recognition character data as shown in FIG. 7 is obtained.

なお、図中の括弧内の数字は誤認識の確率を表しており、例えば「選」に対しては、「達」,「逮」,「速」といった誤認識文字があり、それぞれに誤認識される確率が(20),(12),(5)であることを示している。   The numbers in parentheses in the figure represent the probability of misrecognition. For example, there are misrecognized characters such as “achievement”, “arrest”, and “speed” for “Select”, each of which is misrecognized. It is shown that the probability of being (20), (12), (5).

ここで、検索語「選挙違反」の各文字に対応した誤認識文字の中で最も誤認識率の高い文字は、確率(23)を有する「遣」である。この「遣」は、検索語「選挙違反」の「違」に対応した誤認識文字である。そこで、図8に示すように、「選挙違反」の「違」を「遣」と入り替えて、「選挙遣反」といった新たな検索語を生成し(ステップS15)、その検索語でテキストデータを再検索する(ステップS13)。   Here, the character with the highest misrecognition rate among the misrecognized characters corresponding to each character of the search term “election violation” is “sent” having a probability (23). This “sent” is a misrecognized character corresponding to “wrong” of the search term “election violation”. Therefore, as shown in FIG. 8, a new search term such as “election sentiment” is generated by replacing “fault” in “election violation” with “send” (step S15), and text data is generated using the search term. Is searched again (step S13).

この再検索にて指定数の検索結果が得られなかった場合には(ステップS14のNo)、次に誤認識の確率が高い「運」を選んで、「違」を「運」と入り替えて、「選挙運反」といった新たな検索語を生成し(ステップS15)、新たに生成された検索語でテキストデータを再検索する(ステップS13)。この再検索でも指定数の検索結果が得られなかった場合には、次に誤認識の確率が高い「達」を選んで、「選」を「達」と入り替えて、「達挙遣反」といった新たな検索語でテキストデータを再検索する。   If the specified number of search results are not obtained by this re-search (No in step S14), “luck” with the next highest probability of misrecognition is selected, and “wrong” is replaced with “luck”. Then, a new search word such as “election luck” is generated (step S15), and the text data is re-searched with the newly generated search word (step S13). If the specified number of search results is not obtained even after this re-search, select the next “Dachi” with the highest probability of misrecognition, replace “Select” with “Dai”, The text data is re-searched with a new search term such as "".

なお、1文字ずつの入れ替えで指定数の検索結果が得られなかった場合には、誤認識の確率の高い文字から順に各文字を適宜組み合わせて、新たな検索語を生成していくものとする。その場合の組み合わせた方は任意であるが、まずは、誤認識の確率の高い文字から順に2文字ずつ組み合わせて再検索を行い、その次に3文字ずつ組み合わせて再検索を行うといったように、徐々に入れ替え対象とする文字数を多くして再検索を行うことが好ましい。これは、一般的に用語の全ての文字が誤認識されていることは少なく、一部の文字だけが誤認識されていることが多いためである。   If a specified number of search results cannot be obtained by replacing one character at a time, a new search word is generated by appropriately combining the characters in order from the character with the highest probability of misrecognition. . In this case, the combination is arbitrary, but first, the character is searched for in combination with two characters in descending order of the probability of misrecognition. It is preferable to perform the search again by increasing the number of characters to be replaced. This is because, in general, all characters of a term are rarely misrecognized, and only some characters are often misrecognized.

このようにして、誤認識の確率が高い順に文字を入れ替えてテキストデータを再検索する。そして、指定数の検索結果が得られた場合、詳しくは、現時点で得られた検索数の合計値が前記検索数記憶部27に記憶された検索数(例えば100個)に達した場合に(ステップS14のYes)、CPU11は、これらの検索結果をメモリ16のワーク領域から読み出して出力バッファ26に展開した後、表示部12に所定の形式で表示するなどして、ユーザに確認できるように出力する(ステップS16)。   In this way, the text data is searched again by exchanging characters in descending order of the probability of erroneous recognition. When the specified number of search results are obtained, specifically, when the total value of the search numbers obtained at the current time reaches the search number (for example, 100) stored in the search number storage unit 27 ( In step S14, the CPU 11 reads these search results from the work area of the memory 16, develops them in the output buffer 26, and displays them in a predetermined format on the display unit 12 so that the user can confirm them. Output (step S16).

ここでは、「選挙違反」に関する記事が検索対象データベース22のテキストデータから所定数(100個)抽出されて、表示部12の画面上に表示されることになる。なお、抽出した記事に画像が含まれていれば、その記事のテキストデータに付加されたリンク情報に基づいて画像データベース21から該当する画像データが読み出されて、テキストデータと併せて表示されることになる。   Here, a predetermined number (100) of articles related to “election violation” is extracted from the text data of the search target database 22 and displayed on the screen of the display unit 12. If an image is included in the extracted article, the corresponding image data is read from the image database 21 based on the link information added to the text data of the article and displayed together with the text data. It will be.

このように本実施形態によれば、文字認識されたテキストデータの中から検索語と一致するデータを検索する場合に、単純な文字の置換ではなく、誤認識の可能性の高い文字と入れ替えてデータ検索を続けることで、テキストデータに誤認識文字が含まれていても、検索漏れを少なくして所望の検索結果を得ることができる。   As described above, according to the present embodiment, when searching for data that matches the search word from text data that has been character-recognized, it is not replaced with a simple character, but replaced with a character that is likely to be erroneously recognized. By continuing the data search, even if a misrecognized character is included in the text data, it is possible to reduce a search omission and obtain a desired search result.

また、予め各文字について、誤認識される文字と共にその文字に誤認識される確率を誤認識用データベース(誤認識確率データベース23)に記憶しておき、検索語の各文字の入れ替えに際し、その誤認識用データベースを参照して誤認識の確率の高い文字から順に入れ替えることで、誤認識文字を含んだテキストデータに対して効率的な検索を行うことができる。   In addition, for each character, the misrecognized character and the probability of misrecognizing the character are stored in the misrecognition database (the misrecognition probability database 23) in advance, and when replacing each character in the search term, By referring to the recognition database and sequentially replacing characters with a high probability of erroneous recognition, efficient search can be performed on text data including erroneously recognized characters.

また、一定数の検索結果が得られるまで、文字の入れ替えを行って検索を続けることで、各箇所で違う文字に誤認識されている場合であっても、それらを漏らすことなく、検索することが可能となる。   Also, by continuing the search by replacing the characters until a certain number of search results are obtained, even if they are misrecognized as different characters at each location, search without leaking them Is possible.

(第2の実施形態)
次に、本発明の第2の実施形態について説明する。
(Second Embodiment)
Next, a second embodiment of the present invention will be described.

前記第1の実施形態では、一定数の検索結果を得るまで、検索語の各文字を順次入れ替えながらテキスト検索を行う構成としたが、第2の実施形態では、予め検索語から複数の検索候補を生成しておき、これらの検索候補を用いて一括検索を行うようにしたものである。   In the first embodiment, the text search is performed while sequentially replacing each character of the search word until a certain number of search results are obtained. However, in the second embodiment, a plurality of search candidates from the search word in advance. Is generated, and a batch search is performed using these search candidates.

なお、装置構成について前記第1の実施形態と同様であるため、ここでは図9及び10を参照して、第2の実施形態としての検索処理について説明する。   Since the apparatus configuration is the same as that of the first embodiment, here, the search processing as the second embodiment will be described with reference to FIGS.

図9は第2の実施形態におけるデータ検索装置の処理動作を示すフローチャートである。なお、このフローチャートで示される処理は、CPU11によって読み取り可能なプログラムの形態で記録媒体18に記録されて媒体読取装置17を通じてインストールされるか、あるいは、メモリ16のプログラム記憶部24に予め記憶されている。   FIG. 9 is a flowchart showing the processing operation of the data search apparatus in the second embodiment. The processing shown in this flowchart is recorded in the recording medium 18 in the form of a program readable by the CPU 11 and installed through the medium reading device 17 or stored in advance in the program storage unit 24 of the memory 16. Yes.

新聞の紙面を文字認識したテキストデータが検索対象データベース22に記憶されており、その中から所望の記事を検索する場合を想定する。なお、テキストデータには、その記事に関連した用語に誤認識文字が含まれているものとする。   Assume that text data obtained by character recognition of a newspaper page is stored in the search target database 22, and a desired article is searched from the text data. Note that the text data includes misrecognized characters in terms related to the article.

まず、初期設定として、ユーザが入力部13を通じて所望の記事に関連した用語を検索語として入力する(ステップS21)。これにより、CPU11は、入力部13から入力された検索語をメモリ16の入力バッファ25に記憶した後、以下のような検索処理を実行する。   First, as an initial setting, a user inputs a term related to a desired article as a search word through the input unit 13 (step S21). Thus, the CPU 11 stores the search word input from the input unit 13 in the input buffer 25 of the memory 16 and then executes the following search process.

すなわち、CPU11は、前記入力バッファ25に記憶された検索語から所定数の検索候補を生成する(ステップS22)。詳しくは、検索語を構成する各文字を検索対象データベース22の中の該当する誤認識文字と入れ替えることにより、所定数の検索候補を生成して、入力された検索語と共に検索候補記憶部28に記憶する。   That is, the CPU 11 generates a predetermined number of search candidates from the search terms stored in the input buffer 25 (step S22). Specifically, a predetermined number of search candidates are generated by replacing each character constituting the search word with the corresponding erroneously recognized character in the search target database 22 and stored in the search candidate storage unit 28 together with the input search word. Remember.

図10に検索候補記憶部28に記憶された検索候補の一例を示す。括弧内の数字は検索候補の優先順を示している。   FIG. 10 shows an example of search candidates stored in the search candidate storage unit 28. The numbers in parentheses indicate the priority order of search candidates.

例えば、「選挙違反」といった検索語が入力され、この「選挙違反」を構成する「選」,「挙」,「違」,「反」の各文字を誤認識確率データベース23で調べた結果、図7に示すような誤認識文字が得られたとする。これらの中で誤認識の確率の高い「遣」,「運」,「達」,「辛」を検索語の該当する文字と入れ替えて、図10の例のような検索候補を生成する。   For example, a search term such as “election violation” is input, and the characters “selection”, “lift”, “difference”, and “anti” constituting this “election violation” are checked in the erroneous recognition probability database 23, Assume that an erroneously recognized character as shown in FIG. 7 is obtained. Among these, “sent”, “luck”, “achi”, “spicy”, which have a high probability of erroneous recognition, are replaced with corresponding characters of the search word to generate a search candidate like the example of FIG.

なお、基本的には、各誤認識文字の中で確率の高い文字から優先して入れ替えるものとするが、誤認識文字の組み合わせ方は任意であり、また、候補数についても任意に設定可能である。   Basically, it replaces the characters with high probability among the misrecognized characters with priority, but the method of combining the misrecognized characters is arbitrary, and the number of candidates can also be set arbitrarily. is there.

このように所定数の検索候補が生成されると、CPU11は、検索候補記憶部28に記憶された元の検索語と各検索候補に基づいて検索対象データベース22を一括検索し、その検索対象データベース22に記憶されたテキストデータの中から検索語あるいは各検索候補のいずれかと一致するデータを検索結果として抽出して、例えばメモリ16の図示せぬワーク領域に保持しておく(ステップS23)。   When a predetermined number of search candidates are generated in this way, the CPU 11 collectively searches the search target database 22 based on the original search words and each search candidate stored in the search candidate storage unit 28, and the search target database. Data that matches either the search word or each search candidate is extracted from the text data stored in 22 as a search result, and stored in a work area (not shown) of the memory 16, for example (step S23).

すなわち、図10の例であれば、元の検索語「選挙違反」、あるいは、変換候補「選挙遣反」,「選挙運反」,「達挙違反」,「達挙遣反」のいずれかと一致するデータが検索結果として抽出されることになる。   That is, in the example of FIG. 10, the original search word “election violation”, or any of the conversion candidates “election refusal”, “election refusal”, “advance violation”, “admission refusal” Matching data is extracted as a search result.

CPU11は、これらの検索結果をメモリ16のワーク領域から読み出して出力バッファ26に展開した後、表示部12に所定の形式で表示するなどして、ユーザに確認できるように出力する(ステップS16)。   The CPU 11 reads out these search results from the work area of the memory 16, expands them in the output buffer 26, displays them in a predetermined format on the display unit 12, and outputs them so that they can be confirmed by the user (step S 16). .

このように、予め検索語から所定数の検索候補を生成して、これらを用いてテキスト検索を行うことでも、前記第1の実施形態と同様に、検索対象とするテキストデータに誤認識された文字が含まれている場合であっても、検索漏れを少なくして所望の検索結果を得ることができる。   In this way, even when a predetermined number of search candidates are generated from the search words in advance and a text search is performed using them, the text data to be searched is erroneously recognized as in the first embodiment. Even when characters are included, it is possible to reduce a search omission and obtain a desired search result.

なお、前記各実施形態では、新聞の紙面をスキャナで取り込み、これを文字認識して得たテキストデータを検索対象とした場合を例にして説明したが、本発明は新聞の紙面に限らず、何らかの書類を文字認識したテキストデータであれば、同様に適用可能である。また、予め文字認識されたテキストデータを外部から記録媒体あるいは通信媒体を介して取得することでもよい。   In each of the above embodiments, a case has been described in which a newspaper page is captured by a scanner and text data obtained by character recognition is used as a search target, but the present invention is not limited to a newspaper page. The present invention can be similarly applied to text data obtained by character recognition of some document. Alternatively, text data that has been character-recognized in advance may be acquired from the outside via a recording medium or a communication medium.

要するに、本発明は前記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。   In short, the present invention is not limited to the above-described embodiments as they are, and can be embodied by modifying constituent elements without departing from the scope of the invention in the implementation stage. Various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the respective embodiments. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined.

また、上述した実施形態において記載した手法は、コンピュータに実行させることのできるプログラムとして、例えば磁気ディスク(フレキシブルディスク、ハードディスク等)、光ディスク(CD−ROM、DVD−ROM等)、半導体メモリなどの記録媒体に書き込んで各種装置に適用したり、そのプログラム自体をネットワーク等の伝送媒体により伝送して各種装置に適用することも可能である。本装置を実現するコンピュータは、記録媒体に記録されたプログラムあるいは伝送媒体を介して提供されたプログラムを読み込み、このプログラムによって動作が制御されることにより、上述した処理を実行する。   In addition, the method described in the above-described embodiment is a program that can be executed by a computer, such as a magnetic disk (flexible disk, hard disk, etc.), an optical disk (CD-ROM, DVD-ROM, etc.), a semiconductor memory, etc. The program can be written on a medium and applied to various apparatuses, or the program itself can be transmitted through a transmission medium such as a network and applied to various apparatuses. A computer that implements this apparatus reads a program recorded on a recording medium or a program provided via a transmission medium, and performs the above-described processing by controlling operations by this program.

10…システムバス、11…CPU、11a…文字置換部、11b…検索処理部、11c…検索候補生成部、12…表示部、13…入力部、14…スキャナ部、15…記憶装置、16…メモリ、17…媒体読取装置、18…記録媒体、21…画像データベース、22…検索対象データベース、23…誤認識確率データベース、24…プログラム記憶部、25…入力バッファ、26…出力バッファ、27…検索数記憶部、28…検索候補記憶部。   DESCRIPTION OF SYMBOLS 10 ... System bus, 11 ... CPU, 11a ... Character substitution part, 11b ... Search processing part, 11c ... Search candidate production | generation part, 12 ... Display part, 13 ... Input part, 14 ... Scanner part, 15 ... Memory | storage device, 16 ... Memory: 17 ... Media reader, 18 ... Recording medium, 21 ... Image database, 22 ... Search target database, 23 ... Error recognition probability database, 24 ... Program storage unit, 25 ... Input buffer, 26 ... Output buffer, 27 ... Search Number storage unit, 28 ... search candidate storage unit.

Claims (6)

文字認識されたテキストデータを検索対象として取得する検索対象取得手段と、
予め各文字について、誤認識される可能性の高い文字が誤認識文字として記憶された誤認識用データベースと、
検索語を入力する入力手段と、
この入力手段によって入力された検索語の各文字を前記誤認識用データベースに記憶された誤認識文字と入れ替える文字置換手段と、
前記検索語に前記文字置換手段によって得られた文字入れ替え後の検索語を加えて前記テキストデータを検索する検索処理手段と
を具備したことを特徴とするデータ検索装置。
A search object acquisition means for acquiring text-recognized text data as a search object;
For each character, a database for erroneous recognition in which characters that are likely to be erroneously recognized are stored as erroneously recognized characters,
An input means for entering a search term;
Character replacement means for replacing each character of the search term input by the input means with a misrecognized character stored in the erroneous recognition database;
A data search device comprising: search processing means for searching the text data by adding a search word after character replacement obtained by the character replacement means to the search word.
前記誤認識用データベースには、予め各文字に対応させて複数の異なる誤認識文字が誤認識率と共に記憶されており、
前記文字置換手段は、前記検索語の各文字を誤認識率の高い誤認識文字から順に入れ替えることを特徴とする請求項1記載のデータ検索装置。
In the database for misrecognition, a plurality of different misrecognized characters are stored together with a misrecognition rate in association with each character in advance.
2. The data search device according to claim 1, wherein the character replacement means replaces each character of the search word in order from a misrecognized character having a high error recognition rate.
前記文字置換手段は、前記検索処理手段によって一定数の検索結果が得られるまで、前記検索語の各文字を誤認識率の高い誤認識文字から順に入れ替えることを特徴とする請求項2記載のデータ検索装置。   The data according to claim 2, wherein the character replacement means replaces each character of the search word in order from the erroneous recognition character having a high recognition rate until a predetermined number of search results are obtained by the search processing means. Search device. 前記文字置換手段による誤認識文字との入れ替えにより、所定数の検索候補を生成する検索候補生成手段を備え、
前記検索処理手段は、前記検索語に前記検索候補生成手段によって生成された各検索候補を加えて前記テキストデータを検索することを特徴とする請求項1または2記載のデータ検索装置。
Search candidate generation means for generating a predetermined number of search candidates by replacement with misrecognized characters by the character replacement means,
The data search apparatus according to claim 1 or 2, wherein the search processing means searches the text data by adding each search candidate generated by the search candidate generation means to the search word.
文字認識されたテキストデータを検索対象として取得し、
予め各文字について、誤認識される可能性の高い文字が誤認識文字として記憶された誤認識用データベースを用いて、入力された検索語の各文字を前記誤認識用データベースに記憶された誤認識文字と入れ替え、
前記検索語に前記文字入れ替え後の検索語を加えて前記テキストデータを検索することを特徴とするデータ検索方法。
Get text-recognized text data as search target,
For each character, a misrecognition database in which characters that are likely to be misrecognized are stored as misrecognized characters, and each character of the input search word is stored in the misrecognition database. Replace with letters,
A data search method, wherein the text data is searched by adding the search word after the character replacement to the search word.
コンピュータによって実行されるデータ検索用のプログラムであって、
前記コンピュータに、
文字認識されたテキストデータを検索対象として取得する機能と、
予め各文字について、誤認識される可能性の高い文字が誤認識文字として記憶された誤認識用データベースを用いて、入力された検索語の各文字を前記誤認識用データベースに記憶された誤認識文字と入れ替える機能と、
前記検索語に前記文字入れ替え後の検索語を加えて前記テキストデータを検索する機能と
を実現させることを特徴とするプログラム。
A data search program executed by a computer,
In the computer,
The ability to retrieve text data with character recognition as a search target;
For each character, a misrecognition database in which characters that are likely to be misrecognized are stored as misrecognized characters, and each character of the input search word is stored in the misrecognition database. The ability to replace characters,
A program for searching the text data by adding the search word after the character replacement to the search word.
JP2009218009A 2009-09-18 2009-09-18 Device and data searching, and program Withdrawn JP2011065597A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009218009A JP2011065597A (en) 2009-09-18 2009-09-18 Device and data searching, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009218009A JP2011065597A (en) 2009-09-18 2009-09-18 Device and data searching, and program

Publications (1)

Publication Number Publication Date
JP2011065597A true JP2011065597A (en) 2011-03-31

Family

ID=43951734

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009218009A Withdrawn JP2011065597A (en) 2009-09-18 2009-09-18 Device and data searching, and program

Country Status (1)

Country Link
JP (1) JP2011065597A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2674896B1 (en) * 2011-05-17 2015-11-18 Panasonic Intellectual Property Management Co., Ltd. Character string extraction method and character string extraction device
US20170262474A1 (en) * 2015-09-30 2017-09-14 Emc Corporation Method and system for ideogram character analysis
CN113474767A (en) * 2019-02-14 2021-10-01 昭和电工株式会社 Document search device, document search system, document search program, and document search method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2674896B1 (en) * 2011-05-17 2015-11-18 Panasonic Intellectual Property Management Co., Ltd. Character string extraction method and character string extraction device
US20170262474A1 (en) * 2015-09-30 2017-09-14 Emc Corporation Method and system for ideogram character analysis
US11321384B2 (en) * 2015-09-30 2022-05-03 Open Text Corporation Method and system for ideogram character analysis
US20220222292A1 (en) * 2015-09-30 2022-07-14 Open Text Corporation Method and system for ideogram character analysis
CN113474767A (en) * 2019-02-14 2021-10-01 昭和电工株式会社 Document search device, document search system, document search program, and document search method
CN113474767B (en) * 2019-02-14 2023-09-01 株式会社力森诺科 File search device, file search system, file search program, and file search method

Similar Documents

Publication Publication Date Title
KR101435265B1 (en) Method for disambiguating multiple readings in language conversion
JP5802292B2 (en) Shared language model
JP6180470B2 (en) Sentence candidate presentation terminal, sentence candidate presentation system, sentence candidate presentation method, and program
JP2013097446A (en) Information output device, information output method, and computer program
JP2006236315A (en) Method and apparatus for enabling foreign language text display when encoding is not available
US20150205765A1 (en) Font process method and font process system
JP2011065597A (en) Device and data searching, and program
JP5623574B2 (en) Form identification device and form identification method
JP4470913B2 (en) Character string search device and program
JP2016133960A (en) Keyword extraction system, keyword extraction method, and computer program
US20210019554A1 (en) Information processing device and information processing method
JP2017091024A (en) Input assistance device
JP2010003000A (en) Item determination system and item determination program
US20180253417A1 (en) Information processing device and non-transitory computer readable medium
JP2019204221A (en) Search word suggestion device, method for generating specific expression information, and program for generating specific expression information
JP2013196091A (en) Data correction device
JP7139669B2 (en) Information processing device and program
JP7268316B2 (en) Information processing device and program
JP2011100332A (en) Attribute analysis method by full name, program, and system
JP2020123232A (en) Information processing device and information processing program
JP2009199254A (en) Electronic mail transmission system, information processor, electronic mail transmission method, program, and recording medium
JP2007004429A (en) Document processor
CA2862955C (en) Kernel based string descriptors
JP2002245470A (en) Language specifying device, translating device, and language specifying method
JP2024030790A (en) Character conversion device, character conversion method, and character conversion program

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20121204