JP2011065597A - Device and data searching, and program - Google Patents
Device and data searching, and program Download PDFInfo
- Publication number
- JP2011065597A JP2011065597A JP2009218009A JP2009218009A JP2011065597A JP 2011065597 A JP2011065597 A JP 2011065597A JP 2009218009 A JP2009218009 A JP 2009218009A JP 2009218009 A JP2009218009 A JP 2009218009A JP 2011065597 A JP2011065597 A JP 2011065597A
- Authority
- JP
- Japan
- Prior art keywords
- search
- character
- characters
- data
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
本発明は、例えばPC(Personal Computer)等の情報処理装置に用いられ、文字認識した結果に対してデータ検索を行うデータ検索装置、データ検索方法及びプログラムに関する。 The present invention relates to a data search apparatus, a data search method, and a program that are used in an information processing apparatus such as a PC (Personal Computer), for example, and perform data search on the result of character recognition.
従来、手書き文字を文字認識して得られたデータに対して検索を行う技術として、以下のような特許文献1,2がある。
Conventionally, there are the following
特許文献1には、検索対象がテキストだけでなく、文字のイメージ(画像)が含まれている場合において、検索語をイメージ化してパターンマッチングによって検索を行うことで、テキストと文字のイメージの両方を検索可能とすることが開示されている。 In Patent Document 1, when a search target includes not only text but also a character image (image), both the text and the character image are obtained by making a search word into an image and performing a search by pattern matching. Is made searchable.
特許文献2には、検索語の入力手段が文字認識であり、その認識結果を複数用意して検索を行うことで、検索漏れを少なくすることが開示されている。
通常、手書き文字や活字が記述された書類を文字認識した場合に、必ずしも全ての文字が正しく認識されるわけではなく、一部の文字が誤認識されることが多い。このような誤認識文字を含んだテキストデータを検索対象とすると、検索語を正しく入力しても、検索漏れが生じてしまうことがある。上述した特許文献1,2では、このような誤認識文字に対する処理について特に言及されていない。
Usually, when a document in which handwritten characters or printed characters are described is recognized, not all characters are recognized correctly, and some characters are often erroneously recognized. If text data including such misrecognized characters is used as a search target, a search omission may occur even if a search word is correctly input. In
本発明は前記のような点に鑑みなされたもので、テキストデータに誤認識文字が含まれている場合であっても、検索漏れを少なくして所望の検索結果を得ることのできるデータ検索装置、データ検索方法及びプログラムを提供することを目的とする。 The present invention has been made in view of the above points, and a data search apparatus capable of obtaining a desired search result with reduced search omission even when erroneous recognition characters are included in text data. An object of the present invention is to provide a data search method and program.
本発明に係るデータ検索装置は、文字認識されたテキストデータを検索対象として取得する検索対象取得手段と、予め各文字について、誤認識される可能性の高い文字が誤認識文字として記憶された誤認識用データベースと、検索語を入力する入力手段と、この入力手段によって入力された検索語の各文字を前記誤認識用データベースに記憶された誤認識文字と入れ替える文字置換手段と、前記検索語に前記文字置換手段によって得られた文字入れ替え後の検索語を加えて前記テキストデータを検索する検索処理手段とを具備したことを特徴とする。 The data search device according to the present invention includes a search target acquisition unit that acquires text data that has been character-recognized as a search target, and an error in which characters that are likely to be erroneously recognized are stored as erroneously recognized characters in advance. A recognition database, an input means for inputting a search word, a character replacement means for replacing each character of the search word input by the input means with an erroneous recognition character stored in the erroneous recognition database, and the search word And a search processing means for searching for the text data by adding a search term after the character replacement obtained by the character replacement means.
また、本発明に係るデータ検索方法は、文字認識されたテキストデータを検索対象として取得し、予め各文字について、誤認識される可能性の高い文字が誤認識文字として記憶された誤認識用データベースを用いて、入力された検索語の各文字を前記誤認識用データベースに記憶された誤認識文字と入れ替え、前記検索語に前記文字入れ替え後の検索語を加えて前記テキストデータを検索することを特徴とする。 In addition, the data search method according to the present invention acquires character-recognized text data as a search target, and a database for erroneous recognition in which characters that are likely to be erroneously recognized are stored as erroneously recognized characters in advance for each character. To replace each character of the input search word with a misrecognized character stored in the database for misrecognition, and to search the text data by adding the search word after the character replacement to the search word. Features.
また、本発明に係るプログラムは、コンピュータによって実行されるデータ検索用のプログラムであって、前記コンピュータに、文字認識されたテキストデータを検索対象として取得する機能と、予め各文字について、誤認識される可能性の高い文字が誤認識文字として記憶された誤認識用データベースを用いて、入力された検索語の各文字を前記誤認識用データベースに記憶された誤認識文字と入れ替える機能と、前記検索語に前記文字入れ替え後の検索語を加えて前記テキストデータを検索する機能とを実現させることを特徴とする。 The program according to the present invention is a data search program executed by a computer, and the computer has a function of acquiring text data that has been recognized as a search target, and each character has been erroneously recognized in advance. A function of replacing each character of the input search word with a misrecognized character stored in the misrecognition database, using a misrecognition database in which characters that are likely to be stored as misrecognized characters, and the search And a function for searching the text data by adding a search word after the character replacement to a word.
本発明によれば、入力された検索語の各文字を誤認識される可能性の高い文字と入れ替えてデータ検索が行なわれる。これにより、テキストデータに誤認識文字が含まれている場合であっても、検索漏れを少なくして所望の検索結果を得ることができる。 According to the present invention, data search is performed by replacing each character of the input search word with a character that is highly likely to be erroneously recognized. Thereby, even if a misrecognized character is included in the text data, it is possible to reduce a search omission and obtain a desired search result.
以下、図面を参照して本発明の実施形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
(第1の実施形態)
図1は本発明の第1の実施形態に係るデータ検索装置の構成を示すブロック図である。
(First embodiment)
FIG. 1 is a block diagram showing a configuration of a data search apparatus according to the first embodiment of the present invention.
本実施形態におけるデータ検索装置は、CPU11と、そのCPU11にシステムバス10を介して接続された表示部12と、入力部13と、スキャナ部14と、記憶装置15と、メモリ16と、媒体読取装置17とを備える。
The data search apparatus according to the present embodiment includes a
CPU11は、本装置全体の制御を行うものであり、入力指示に従ったプログラムの起動によりデータ検索に関わる一連の処理を実行する。表示部12は、例えばCRT(Cathode-ray tube)やLCD(Liquid Crystal Display)等の表示デバイスからなり、データ検索結果を含む各種データの表示を行う。入力部13は、例えばキーボードやマウス等の入力デバイスからなり、検索語を含む各種データの入力や指示を行う。スキャナ部14は、書類や写真をイメージ化して取り込むための装置である。
The
記憶装置15は、例えばフラッシュメモリ、ハードディスク装置などからなり、ここでは画像データベース(画像DB)21、検索対象データベース(検索対象DB)22、誤認識確率データベース(誤認識確率DB)23を有する。
The
画像データベース21は、各種画像データを記憶している。検索対象データベース22は、検索対象として用いられるデータを記憶している。本実施形態では、新聞の紙面をスキャナ部14で取り込み、その紙面の記事を文字認識して得た結果のテキストデータが検索対象として検索対象データベース22に記憶されている。なお、以下では、「文字認識して得た結果のテキストデータ」のことを単に「文字認識されたテキストデータ」と称す。このテキストデータには、誤認識された文字が含まれているものとする。
The
また、記事に関連した画像については、スキャナ部14によって取り込まれて画像データベース21に記憶される。その際、検索対象データベース22には、図2に示すように、文字認識されたテキストデータと共に画像データの保存先を示すリンク情報が記憶される。
Further, the image related to the article is captured by the
誤認識確率データベース23は、検索対象データベース22の作成時に使わされた文字認識アルゴリズムが誤認識をする確率が収められている。具体的には、平仮名、カタカナ、漢字、アルファベット等の各種文字について、これらの文字が誤認識される文字とその確率を対応付けた表が記憶されている。なお、この表は別途文字画像のコーパスデータから生成しておくものとするが、その生成方法については特に限定されるものではなく、いかなる方法であってもよい。
The misrecognition probability database 23 stores the probability that the character recognition algorithm used when the
図3に平仮名文字に対する誤認識確率データベース23の一例を示す。
平仮名文字「あ」,「い」,「う」…に対して、誤認識される文字とその確率が対応付けられている。例えば、平仮名文字の「あ」であれば、「お」といった文字に誤認識される確率が(20)、「め」といった文字に誤認識される確率が(7)、「ぬ」といった文字に誤認識される確率が(3)である。
FIG. 3 shows an example of the erroneous recognition probability database 23 for hiragana characters.
Hiragana characters “A”, “I”, “U”,... Are associated with characters that are misrecognized and their probabilities. For example, if the hiragana character is “a”, the probability of being erroneously recognized as a character such as “o” is (20), and the probability of being erroneously recognized as a character such as “me” is (7). The probability of erroneous recognition is (3).
ここで、図4に示すように、主制御装置であるCPU11には、このような誤認識文字を含むテキストデータを検索対象とした場合の機能構成として、文字置換部11a、検索処理部11b、検索候補生成部11cが備えられている。
Here, as shown in FIG. 4, the
文字置換部11aは、入力部13によって入力された検索語の文字を検索対象データベース22に記憶された誤認識文字と入れ替えるための処理を行う。検索処理部11bは、入力された検索語に文字置換部11aによって得られた文字入れ替え後の検索語を加えてテキストデータを検索するための処理を行う。検索候補生成部11cは、後述する第2の実施形態における一括検索時に所定数の検索候補を生成するための処理を行う。
The character replacement unit 11 a performs a process for replacing the character of the search term input by the
また、図1において、メモリ16は、ROMやRAMなどからなり、CPU11の処理動作に必要な各データを記憶している。このメモリ16には、プログラム記憶部24、入力バッファ25、出力バッファ26、検索数記憶部27、検索候補記憶部28が設けられている。
In FIG. 1, the
プログラム記憶部24には、本発明を実現するためのプログラムの他、文字認識のためのアプリケーションプログラムなどの各種プログラムが記憶されている。入力バッファ25には、入力部13から入力された検索語が記憶される。出力バッファ26には、検索結果として得られたデータが記憶される。
The
検索数記憶部27は、ユーザが指定した検索数(テキストデータから検索結果として抽出する個数)を記憶する。また、検索候補記憶部28は、後述する第2の実施形態における一括検索時に生成される所定数の検索候補のデータを記憶する。
The number-of-
媒体読取装置17は、記録媒体18に記録されたプログラムを含む各種データを読み取るための装置である。記録媒体18としては、例えば磁気ディスク(フレキシブルディスク、ハードディスク等)、光ディスク(CD−ROM、DVD−ROM等)、半導体メモリなどがある。
The
次に、本装置の動作について説明する。
図5は第1の実施形態におけるデータ検索装置の処理動作を示すフローチャートである。なお、このフローチャートで示される処理は、CPU11によって読み取り可能なプログラムの形態で記録媒体18に記録されて媒体読取装置17を通じてインストールされるか、あるいは、メモリ16のプログラム記憶部24に予め記憶されている。
Next, the operation of this apparatus will be described.
FIG. 5 is a flowchart showing the processing operation of the data search apparatus in the first embodiment. The processing shown in this flowchart is recorded on the
大量の新聞の紙面をスキャナ部14で読み取って文字認識したテキストデータが記事毎に検索対象データベース22に記憶されており、その中から所望の記事を検索する場合を想定する。なお、テキストデータには、その記事に関連した用語に誤認識文字が含まれているものとする。
It is assumed that text data obtained by reading a large number of newspaper pages with the
まず、初期設定として、ユーザが入力部13を通じて所望の記事に関連した用語を検索語として入力すると共に(ステップS11)、その記事を抽出したい個数を検索数として指定しておく(ステップS12)。これにより、CPU11は、入力部13から入力された検索語をメモリ16の入力バッファ25に記憶すると共に、指定の検索数をメモリ16の検索数記憶部27に記憶した後、以下のような検索処理を実行する。
First, as an initial setting, the user inputs a term related to a desired article as a search term through the input unit 13 (step S11), and designates the number of articles to be extracted as the number of searches (step S12). As a result, the
すなわち、CPU11は、前記入力バッファ25に記憶された検索語に基づいて検索対象データベース22を検索し、その検索対象データベース22に記憶されたテキストデータの中から検索語と一致する記事データを検索結果として抽出し、例えばメモリ16の図示せぬワーク領域に保持しておく(ステップS13)。この場合、テキストデータの中から該当する記事データが全て抽出され、そのデータの数が今回の検索数としてカウントされる。
That is, the
ここで、今回の検索数が前記検索数記憶部27に記憶された検索数(例えば100個)に達していなければ(ステップS14のNo)、CPU11は、入力された検索語を構成する各文字を誤認識確率データベース23の中の該当する誤認識文字と入れ替えることにより、誤認識の確率の高い検索語を生成して(ステップS15)、その生成された新たな検索語を用いてテキストデータを再検索する(ステップS13)。
Here, if the current number of searches does not reach the number of searches (for example, 100) stored in the search number storage unit 27 (No in step S14), the
図6乃至図8を用いて、誤認識の確率の高い検索語を生成する処理について具体的に説明する。 A process for generating a search word with a high probability of erroneous recognition will be specifically described with reference to FIGS.
今、図6に示すように「選挙違反」といった文字列が検索語として入力されたとすると、この「選挙違反」を構成する「選」,「挙」,「違」,「反」の各文字を誤認識確率データベース23で調べ、その結果、図7に示すような誤認識文字のデータが得られる。 If a character string such as “election violation” is input as a search word as shown in FIG. 6, the characters “selection”, “lift”, “fault”, “anti” that constitute this “election violation” As a result, erroneous recognition character data as shown in FIG. 7 is obtained.
なお、図中の括弧内の数字は誤認識の確率を表しており、例えば「選」に対しては、「達」,「逮」,「速」といった誤認識文字があり、それぞれに誤認識される確率が(20),(12),(5)であることを示している。 The numbers in parentheses in the figure represent the probability of misrecognition. For example, there are misrecognized characters such as “achievement”, “arrest”, and “speed” for “Select”, each of which is misrecognized. It is shown that the probability of being (20), (12), (5).
ここで、検索語「選挙違反」の各文字に対応した誤認識文字の中で最も誤認識率の高い文字は、確率(23)を有する「遣」である。この「遣」は、検索語「選挙違反」の「違」に対応した誤認識文字である。そこで、図8に示すように、「選挙違反」の「違」を「遣」と入り替えて、「選挙遣反」といった新たな検索語を生成し(ステップS15)、その検索語でテキストデータを再検索する(ステップS13)。 Here, the character with the highest misrecognition rate among the misrecognized characters corresponding to each character of the search term “election violation” is “sent” having a probability (23). This “sent” is a misrecognized character corresponding to “wrong” of the search term “election violation”. Therefore, as shown in FIG. 8, a new search term such as “election sentiment” is generated by replacing “fault” in “election violation” with “send” (step S15), and text data is generated using the search term. Is searched again (step S13).
この再検索にて指定数の検索結果が得られなかった場合には(ステップS14のNo)、次に誤認識の確率が高い「運」を選んで、「違」を「運」と入り替えて、「選挙運反」といった新たな検索語を生成し(ステップS15)、新たに生成された検索語でテキストデータを再検索する(ステップS13)。この再検索でも指定数の検索結果が得られなかった場合には、次に誤認識の確率が高い「達」を選んで、「選」を「達」と入り替えて、「達挙遣反」といった新たな検索語でテキストデータを再検索する。 If the specified number of search results are not obtained by this re-search (No in step S14), “luck” with the next highest probability of misrecognition is selected, and “wrong” is replaced with “luck”. Then, a new search word such as “election luck” is generated (step S15), and the text data is re-searched with the newly generated search word (step S13). If the specified number of search results is not obtained even after this re-search, select the next “Dachi” with the highest probability of misrecognition, replace “Select” with “Dai”, The text data is re-searched with a new search term such as "".
なお、1文字ずつの入れ替えで指定数の検索結果が得られなかった場合には、誤認識の確率の高い文字から順に各文字を適宜組み合わせて、新たな検索語を生成していくものとする。その場合の組み合わせた方は任意であるが、まずは、誤認識の確率の高い文字から順に2文字ずつ組み合わせて再検索を行い、その次に3文字ずつ組み合わせて再検索を行うといったように、徐々に入れ替え対象とする文字数を多くして再検索を行うことが好ましい。これは、一般的に用語の全ての文字が誤認識されていることは少なく、一部の文字だけが誤認識されていることが多いためである。 If a specified number of search results cannot be obtained by replacing one character at a time, a new search word is generated by appropriately combining the characters in order from the character with the highest probability of misrecognition. . In this case, the combination is arbitrary, but first, the character is searched for in combination with two characters in descending order of the probability of misrecognition. It is preferable to perform the search again by increasing the number of characters to be replaced. This is because, in general, all characters of a term are rarely misrecognized, and only some characters are often misrecognized.
このようにして、誤認識の確率が高い順に文字を入れ替えてテキストデータを再検索する。そして、指定数の検索結果が得られた場合、詳しくは、現時点で得られた検索数の合計値が前記検索数記憶部27に記憶された検索数(例えば100個)に達した場合に(ステップS14のYes)、CPU11は、これらの検索結果をメモリ16のワーク領域から読み出して出力バッファ26に展開した後、表示部12に所定の形式で表示するなどして、ユーザに確認できるように出力する(ステップS16)。
In this way, the text data is searched again by exchanging characters in descending order of the probability of erroneous recognition. When the specified number of search results are obtained, specifically, when the total value of the search numbers obtained at the current time reaches the search number (for example, 100) stored in the search number storage unit 27 ( In step S14, the
ここでは、「選挙違反」に関する記事が検索対象データベース22のテキストデータから所定数(100個)抽出されて、表示部12の画面上に表示されることになる。なお、抽出した記事に画像が含まれていれば、その記事のテキストデータに付加されたリンク情報に基づいて画像データベース21から該当する画像データが読み出されて、テキストデータと併せて表示されることになる。
Here, a predetermined number (100) of articles related to “election violation” is extracted from the text data of the
このように本実施形態によれば、文字認識されたテキストデータの中から検索語と一致するデータを検索する場合に、単純な文字の置換ではなく、誤認識の可能性の高い文字と入れ替えてデータ検索を続けることで、テキストデータに誤認識文字が含まれていても、検索漏れを少なくして所望の検索結果を得ることができる。 As described above, according to the present embodiment, when searching for data that matches the search word from text data that has been character-recognized, it is not replaced with a simple character, but replaced with a character that is likely to be erroneously recognized. By continuing the data search, even if a misrecognized character is included in the text data, it is possible to reduce a search omission and obtain a desired search result.
また、予め各文字について、誤認識される文字と共にその文字に誤認識される確率を誤認識用データベース(誤認識確率データベース23)に記憶しておき、検索語の各文字の入れ替えに際し、その誤認識用データベースを参照して誤認識の確率の高い文字から順に入れ替えることで、誤認識文字を含んだテキストデータに対して効率的な検索を行うことができる。 In addition, for each character, the misrecognized character and the probability of misrecognizing the character are stored in the misrecognition database (the misrecognition probability database 23) in advance, and when replacing each character in the search term, By referring to the recognition database and sequentially replacing characters with a high probability of erroneous recognition, efficient search can be performed on text data including erroneously recognized characters.
また、一定数の検索結果が得られるまで、文字の入れ替えを行って検索を続けることで、各箇所で違う文字に誤認識されている場合であっても、それらを漏らすことなく、検索することが可能となる。 Also, by continuing the search by replacing the characters until a certain number of search results are obtained, even if they are misrecognized as different characters at each location, search without leaking them Is possible.
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。
(Second Embodiment)
Next, a second embodiment of the present invention will be described.
前記第1の実施形態では、一定数の検索結果を得るまで、検索語の各文字を順次入れ替えながらテキスト検索を行う構成としたが、第2の実施形態では、予め検索語から複数の検索候補を生成しておき、これらの検索候補を用いて一括検索を行うようにしたものである。 In the first embodiment, the text search is performed while sequentially replacing each character of the search word until a certain number of search results are obtained. However, in the second embodiment, a plurality of search candidates from the search word in advance. Is generated, and a batch search is performed using these search candidates.
なお、装置構成について前記第1の実施形態と同様であるため、ここでは図9及び10を参照して、第2の実施形態としての検索処理について説明する。 Since the apparatus configuration is the same as that of the first embodiment, here, the search processing as the second embodiment will be described with reference to FIGS.
図9は第2の実施形態におけるデータ検索装置の処理動作を示すフローチャートである。なお、このフローチャートで示される処理は、CPU11によって読み取り可能なプログラムの形態で記録媒体18に記録されて媒体読取装置17を通じてインストールされるか、あるいは、メモリ16のプログラム記憶部24に予め記憶されている。
FIG. 9 is a flowchart showing the processing operation of the data search apparatus in the second embodiment. The processing shown in this flowchart is recorded in the
新聞の紙面を文字認識したテキストデータが検索対象データベース22に記憶されており、その中から所望の記事を検索する場合を想定する。なお、テキストデータには、その記事に関連した用語に誤認識文字が含まれているものとする。
Assume that text data obtained by character recognition of a newspaper page is stored in the
まず、初期設定として、ユーザが入力部13を通じて所望の記事に関連した用語を検索語として入力する(ステップS21)。これにより、CPU11は、入力部13から入力された検索語をメモリ16の入力バッファ25に記憶した後、以下のような検索処理を実行する。
First, as an initial setting, a user inputs a term related to a desired article as a search word through the input unit 13 (step S21). Thus, the
すなわち、CPU11は、前記入力バッファ25に記憶された検索語から所定数の検索候補を生成する(ステップS22)。詳しくは、検索語を構成する各文字を検索対象データベース22の中の該当する誤認識文字と入れ替えることにより、所定数の検索候補を生成して、入力された検索語と共に検索候補記憶部28に記憶する。
That is, the
図10に検索候補記憶部28に記憶された検索候補の一例を示す。括弧内の数字は検索候補の優先順を示している。
FIG. 10 shows an example of search candidates stored in the search
例えば、「選挙違反」といった検索語が入力され、この「選挙違反」を構成する「選」,「挙」,「違」,「反」の各文字を誤認識確率データベース23で調べた結果、図7に示すような誤認識文字が得られたとする。これらの中で誤認識の確率の高い「遣」,「運」,「達」,「辛」を検索語の該当する文字と入れ替えて、図10の例のような検索候補を生成する。 For example, a search term such as “election violation” is input, and the characters “selection”, “lift”, “difference”, and “anti” constituting this “election violation” are checked in the erroneous recognition probability database 23, Assume that an erroneously recognized character as shown in FIG. 7 is obtained. Among these, “sent”, “luck”, “achi”, “spicy”, which have a high probability of erroneous recognition, are replaced with corresponding characters of the search word to generate a search candidate like the example of FIG.
なお、基本的には、各誤認識文字の中で確率の高い文字から優先して入れ替えるものとするが、誤認識文字の組み合わせ方は任意であり、また、候補数についても任意に設定可能である。 Basically, it replaces the characters with high probability among the misrecognized characters with priority, but the method of combining the misrecognized characters is arbitrary, and the number of candidates can also be set arbitrarily. is there.
このように所定数の検索候補が生成されると、CPU11は、検索候補記憶部28に記憶された元の検索語と各検索候補に基づいて検索対象データベース22を一括検索し、その検索対象データベース22に記憶されたテキストデータの中から検索語あるいは各検索候補のいずれかと一致するデータを検索結果として抽出して、例えばメモリ16の図示せぬワーク領域に保持しておく(ステップS23)。
When a predetermined number of search candidates are generated in this way, the
すなわち、図10の例であれば、元の検索語「選挙違反」、あるいは、変換候補「選挙遣反」,「選挙運反」,「達挙違反」,「達挙遣反」のいずれかと一致するデータが検索結果として抽出されることになる。 That is, in the example of FIG. 10, the original search word “election violation”, or any of the conversion candidates “election refusal”, “election refusal”, “advance violation”, “admission refusal” Matching data is extracted as a search result.
CPU11は、これらの検索結果をメモリ16のワーク領域から読み出して出力バッファ26に展開した後、表示部12に所定の形式で表示するなどして、ユーザに確認できるように出力する(ステップS16)。
The
このように、予め検索語から所定数の検索候補を生成して、これらを用いてテキスト検索を行うことでも、前記第1の実施形態と同様に、検索対象とするテキストデータに誤認識された文字が含まれている場合であっても、検索漏れを少なくして所望の検索結果を得ることができる。 In this way, even when a predetermined number of search candidates are generated from the search words in advance and a text search is performed using them, the text data to be searched is erroneously recognized as in the first embodiment. Even when characters are included, it is possible to reduce a search omission and obtain a desired search result.
なお、前記各実施形態では、新聞の紙面をスキャナで取り込み、これを文字認識して得たテキストデータを検索対象とした場合を例にして説明したが、本発明は新聞の紙面に限らず、何らかの書類を文字認識したテキストデータであれば、同様に適用可能である。また、予め文字認識されたテキストデータを外部から記録媒体あるいは通信媒体を介して取得することでもよい。 In each of the above embodiments, a case has been described in which a newspaper page is captured by a scanner and text data obtained by character recognition is used as a search target, but the present invention is not limited to a newspaper page. The present invention can be similarly applied to text data obtained by character recognition of some document. Alternatively, text data that has been character-recognized in advance may be acquired from the outside via a recording medium or a communication medium.
要するに、本発明は前記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。 In short, the present invention is not limited to the above-described embodiments as they are, and can be embodied by modifying constituent elements without departing from the scope of the invention in the implementation stage. Various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the respective embodiments. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined.
また、上述した実施形態において記載した手法は、コンピュータに実行させることのできるプログラムとして、例えば磁気ディスク(フレキシブルディスク、ハードディスク等)、光ディスク(CD−ROM、DVD−ROM等)、半導体メモリなどの記録媒体に書き込んで各種装置に適用したり、そのプログラム自体をネットワーク等の伝送媒体により伝送して各種装置に適用することも可能である。本装置を実現するコンピュータは、記録媒体に記録されたプログラムあるいは伝送媒体を介して提供されたプログラムを読み込み、このプログラムによって動作が制御されることにより、上述した処理を実行する。 In addition, the method described in the above-described embodiment is a program that can be executed by a computer, such as a magnetic disk (flexible disk, hard disk, etc.), an optical disk (CD-ROM, DVD-ROM, etc.), a semiconductor memory, etc. The program can be written on a medium and applied to various apparatuses, or the program itself can be transmitted through a transmission medium such as a network and applied to various apparatuses. A computer that implements this apparatus reads a program recorded on a recording medium or a program provided via a transmission medium, and performs the above-described processing by controlling operations by this program.
10…システムバス、11…CPU、11a…文字置換部、11b…検索処理部、11c…検索候補生成部、12…表示部、13…入力部、14…スキャナ部、15…記憶装置、16…メモリ、17…媒体読取装置、18…記録媒体、21…画像データベース、22…検索対象データベース、23…誤認識確率データベース、24…プログラム記憶部、25…入力バッファ、26…出力バッファ、27…検索数記憶部、28…検索候補記憶部。
DESCRIPTION OF
Claims (6)
予め各文字について、誤認識される可能性の高い文字が誤認識文字として記憶された誤認識用データベースと、
検索語を入力する入力手段と、
この入力手段によって入力された検索語の各文字を前記誤認識用データベースに記憶された誤認識文字と入れ替える文字置換手段と、
前記検索語に前記文字置換手段によって得られた文字入れ替え後の検索語を加えて前記テキストデータを検索する検索処理手段と
を具備したことを特徴とするデータ検索装置。 A search object acquisition means for acquiring text-recognized text data as a search object;
For each character, a database for erroneous recognition in which characters that are likely to be erroneously recognized are stored as erroneously recognized characters,
An input means for entering a search term;
Character replacement means for replacing each character of the search term input by the input means with a misrecognized character stored in the erroneous recognition database;
A data search device comprising: search processing means for searching the text data by adding a search word after character replacement obtained by the character replacement means to the search word.
前記文字置換手段は、前記検索語の各文字を誤認識率の高い誤認識文字から順に入れ替えることを特徴とする請求項1記載のデータ検索装置。 In the database for misrecognition, a plurality of different misrecognized characters are stored together with a misrecognition rate in association with each character in advance.
2. The data search device according to claim 1, wherein the character replacement means replaces each character of the search word in order from a misrecognized character having a high error recognition rate.
前記検索処理手段は、前記検索語に前記検索候補生成手段によって生成された各検索候補を加えて前記テキストデータを検索することを特徴とする請求項1または2記載のデータ検索装置。 Search candidate generation means for generating a predetermined number of search candidates by replacement with misrecognized characters by the character replacement means,
The data search apparatus according to claim 1 or 2, wherein the search processing means searches the text data by adding each search candidate generated by the search candidate generation means to the search word.
予め各文字について、誤認識される可能性の高い文字が誤認識文字として記憶された誤認識用データベースを用いて、入力された検索語の各文字を前記誤認識用データベースに記憶された誤認識文字と入れ替え、
前記検索語に前記文字入れ替え後の検索語を加えて前記テキストデータを検索することを特徴とするデータ検索方法。 Get text-recognized text data as search target,
For each character, a misrecognition database in which characters that are likely to be misrecognized are stored as misrecognized characters, and each character of the input search word is stored in the misrecognition database. Replace with letters,
A data search method, wherein the text data is searched by adding the search word after the character replacement to the search word.
前記コンピュータに、
文字認識されたテキストデータを検索対象として取得する機能と、
予め各文字について、誤認識される可能性の高い文字が誤認識文字として記憶された誤認識用データベースを用いて、入力された検索語の各文字を前記誤認識用データベースに記憶された誤認識文字と入れ替える機能と、
前記検索語に前記文字入れ替え後の検索語を加えて前記テキストデータを検索する機能と
を実現させることを特徴とするプログラム。 A data search program executed by a computer,
In the computer,
The ability to retrieve text data with character recognition as a search target;
For each character, a misrecognition database in which characters that are likely to be misrecognized are stored as misrecognized characters, and each character of the input search word is stored in the misrecognition database. The ability to replace characters,
A program for searching the text data by adding the search word after the character replacement to the search word.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009218009A JP2011065597A (en) | 2009-09-18 | 2009-09-18 | Device and data searching, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009218009A JP2011065597A (en) | 2009-09-18 | 2009-09-18 | Device and data searching, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011065597A true JP2011065597A (en) | 2011-03-31 |
Family
ID=43951734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009218009A Withdrawn JP2011065597A (en) | 2009-09-18 | 2009-09-18 | Device and data searching, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011065597A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2674896B1 (en) * | 2011-05-17 | 2015-11-18 | Panasonic Intellectual Property Management Co., Ltd. | Character string extraction method and character string extraction device |
US20170262474A1 (en) * | 2015-09-30 | 2017-09-14 | Emc Corporation | Method and system for ideogram character analysis |
CN113474767A (en) * | 2019-02-14 | 2021-10-01 | 昭和电工株式会社 | Document search device, document search system, document search program, and document search method |
-
2009
- 2009-09-18 JP JP2009218009A patent/JP2011065597A/en not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2674896B1 (en) * | 2011-05-17 | 2015-11-18 | Panasonic Intellectual Property Management Co., Ltd. | Character string extraction method and character string extraction device |
US20170262474A1 (en) * | 2015-09-30 | 2017-09-14 | Emc Corporation | Method and system for ideogram character analysis |
US11321384B2 (en) * | 2015-09-30 | 2022-05-03 | Open Text Corporation | Method and system for ideogram character analysis |
US20220222292A1 (en) * | 2015-09-30 | 2022-07-14 | Open Text Corporation | Method and system for ideogram character analysis |
CN113474767A (en) * | 2019-02-14 | 2021-10-01 | 昭和电工株式会社 | Document search device, document search system, document search program, and document search method |
CN113474767B (en) * | 2019-02-14 | 2023-09-01 | 株式会社力森诺科 | File search device, file search system, file search program, and file search method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101435265B1 (en) | Method for disambiguating multiple readings in language conversion | |
JP5802292B2 (en) | Shared language model | |
JP6180470B2 (en) | Sentence candidate presentation terminal, sentence candidate presentation system, sentence candidate presentation method, and program | |
JP2013097446A (en) | Information output device, information output method, and computer program | |
JP2006236315A (en) | Method and apparatus for enabling foreign language text display when encoding is not available | |
US20150205765A1 (en) | Font process method and font process system | |
JP2011065597A (en) | Device and data searching, and program | |
JP5623574B2 (en) | Form identification device and form identification method | |
JP4470913B2 (en) | Character string search device and program | |
JP2016133960A (en) | Keyword extraction system, keyword extraction method, and computer program | |
US20210019554A1 (en) | Information processing device and information processing method | |
JP2017091024A (en) | Input assistance device | |
JP2010003000A (en) | Item determination system and item determination program | |
US20180253417A1 (en) | Information processing device and non-transitory computer readable medium | |
JP2019204221A (en) | Search word suggestion device, method for generating specific expression information, and program for generating specific expression information | |
JP2013196091A (en) | Data correction device | |
JP7139669B2 (en) | Information processing device and program | |
JP7268316B2 (en) | Information processing device and program | |
JP2011100332A (en) | Attribute analysis method by full name, program, and system | |
JP2020123232A (en) | Information processing device and information processing program | |
JP2009199254A (en) | Electronic mail transmission system, information processor, electronic mail transmission method, program, and recording medium | |
JP2007004429A (en) | Document processor | |
CA2862955C (en) | Kernel based string descriptors | |
JP2002245470A (en) | Language specifying device, translating device, and language specifying method | |
JP2024030790A (en) | Character conversion device, character conversion method, and character conversion program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20121204 |