JP2013196091A - Data correction device - Google Patents
Data correction device Download PDFInfo
- Publication number
- JP2013196091A JP2013196091A JP2012059733A JP2012059733A JP2013196091A JP 2013196091 A JP2013196091 A JP 2013196091A JP 2012059733 A JP2012059733 A JP 2012059733A JP 2012059733 A JP2012059733 A JP 2012059733A JP 2013196091 A JP2013196091 A JP 2013196091A
- Authority
- JP
- Japan
- Prior art keywords
- correction
- keyword
- character recognition
- data
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
この発明は、文字認識処理で文字を誤認識して生成された誤認識データの修正を行うデータ修正装置に関するものである。 The present invention relates to a data correction apparatus for correcting erroneous recognition data generated by erroneously recognizing a character in character recognition processing.
紙の文書や図面に記載された手書き文字や活字文字を文字認識した場合、誤認識が発生するが、この誤認識されたデータは検索時にヒットしない。検索ヒット率を上げるためには、正しい認識情報に修正しておく必要がある。
従来では、この修正は、次のように行われる。ツールにより、文字認識データをユーザが見やすいようにテキスト出力し、この出力されたテキストデータと文字認識する対象の元データを目視にて確認し、誤認識されているものを、修正必要データとして洗い出しする。そして、この洗い出したデータを元に、修正機能にて文字認識データを修正するようになっていた。
また、特許文献1には、文字認識部によって認識された認識結果を修正する場合に、オペレータが正しい文字を検索キーとして指定すると、検索部が修正用辞書のうちのその検索キーを含む専門用語をリスト表示し、そのうちの一つの専門用語をオペレータが選択すると、その選択した専門用語で認識結果が一括して置き換えられるものが記載されている。
When a handwritten character or printed character described in a paper document or drawing is recognized, erroneous recognition occurs, but the erroneously recognized data is not hit at the time of retrieval. In order to increase the search hit rate, it is necessary to correct it to correct recognition information.
Conventionally, this correction is performed as follows. Using a tool, text recognition data is output in a text that is easy for the user to see. The output text data and the original data to be recognized are visually checked, and misrecognized data is identified as data that needs correction. To do. Then, based on the extracted data, the character recognition data is corrected by a correction function.
Further, in
従来は、文字認識時に誤認識したデータを確認するには、元データ(紙の文書や図面)と認識結果を目視にて比べて誤認識箇所を得る必要があり、手間がかかるという問題があった。
特許文献1のものでは、検索キーの指定をオペレータが行うとともに、修正用辞書のうちのその検索キーを含む専門用語をリスト表示したものの中から1つの専門用語をオペレータが選択するようになっており、オペレータの介入によって始めて修正が可能になっていたので、オペレータの時間が取られるという問題がある。
Conventionally, in order to check the erroneously recognized data at the time of character recognition, it is necessary to compare the recognition result with the original data (paper document or drawing), and there is a problem that it takes time and effort. It was.
In
この発明は、上述のような課題を解決するためになされたものであり、文字認識時に誤認識したデータ箇所の修正を自動的に行うデータ修正装置を得ることを目的とする。 The present invention has been made to solve the above-described problems, and an object of the present invention is to obtain a data correction apparatus that automatically corrects a data portion erroneously recognized during character recognition.
この発明に係わるデータ修正装置においては、文書・図面のイメージデータから文字認識されて形成された文字認識データを格納した文字認識データベースに対する修正用のキーワードをキーワードデータベースに蓄積するキーワード蓄積手段、キーワードデータベースから修正用のキーワードを抽出する修正文字抽出手段、及びこの修正文字抽出手段によって抽出された修正用のキーワードを用いて、文字認識データベース中の文字列を修正する文字認識データ修正手段を備え、文字認識データ修正手段は、文字認識データベースから抽出した文字列と修正用のキーワードを比較し、異なる文字数が所定の割合以下の場合に文字認識データベース中の比較した文字列を修正用のキーワードに置き換えるものである。 In the data correction apparatus according to the present invention, a keyword storage means for storing, in a keyword database, correction keywords for a character recognition database storing character recognition data formed by character recognition from document / drawing image data; And a character recognition data correcting means for correcting a character string in the character recognition database by using a correction character extracting means for extracting a correction keyword from the correction character extracting means extracted by the corrected character extracting means. The recognition data correction means compares the character string extracted from the character recognition database with the correction keyword, and replaces the compared character string in the character recognition database with the correction keyword when the number of different characters is equal to or less than a predetermined ratio. It is.
この発明によれば、文書・図面のイメージデータから文字認識されて形成された文字認識データを格納した文字認識データベースに対する修正用のキーワードをキーワードデータベースに蓄積するキーワード蓄積手段、キーワードデータベースから修正用のキーワードを抽出する修正文字抽出手段、及びこの修正文字抽出手段によって抽出された修正用のキーワードを用いて、文字認識データベース中の文字列を修正する文字認識データ修正手段を備え、文字認識データ修正手段は、文字認識データベースから抽出した文字列と修正用のキーワードを比較し、異なる文字数が所定の割合以下の場合に文字認識データベース中の比較した文字列を修正用のキーワードに置き換えるので、文字認識時に誤認識したデータ箇所の修正を自動的に行うことができる。 According to the present invention, the keyword accumulating means for accumulating in the keyword database the keyword for correcting the character recognition database storing the character recognition data formed by character recognition from the image data of the document / drawing. Character correction data extraction means for extracting a keyword, and character recognition data correction means for correcting a character string in a character recognition database using a correction keyword extracted by the correction character extraction means. Compares the character string extracted from the character recognition database with the keyword for correction, and if the number of different characters is less than the specified percentage, the compared character string in the character recognition database is replaced with the correction keyword. Automatically correct misrecognized data locations Door can be.
実施の形態1.
以下、この発明の実施の形態1を図に基づいて説明する。
図1は、この発明の実施の形態1によるデータ修正装置を示す全体構成図である。
図1において、文書・図面イメージデータ1は、文字認識する対象の元データであり、紙の文書や図面に記載された漢字を含む手書き文字や活字文字である。文字認識機能2は、文書・図面イメージデータ1を、所定の文字認識アルゴリズムにより文字認識する。文字認識データ3(文字認識データベース)は、文字認識機能2によって文字認識された結果を蓄積している。
検索画面4は、ユーザが、文字認識データ3の検索時に利用する画面であり、検索キーワード入力、結果の一覧表示を実施する。検索処理機能5は、検索画面4で入力された検索キーワードを元に、文字認識データ3に対して検索処理を実施し、検索結果を検索画面4に返し、表示させる。
FIG. 1 is an overall configuration diagram showing a data correction apparatus according to
In FIG. 1, document /
The
検索キーワード蓄積機能6(キーワード蓄積手段)は、検索画面4でユーザによって入力された検索キーワードを蓄積する。蓄積キーワード7(キーワードデータベース)は、検索キーワード蓄積機能6によって蓄積されたキーワード群である。
修正文字抽出機能8(修正文字抽出手段)は、蓄積キーワード7から1レコードのキーワードを抽出して修正用の文字列(修正用のキーワード)とする。なお、この修正用の文字列は、キーワードから所定のアルゴリズムにより抽出した文字列としてもよい。ここでは3文字以上とする。
文字認識データ修正機能9(文字認識データ修正手段)は、修正文字抽出機能8によって抽出されたキーワードを用いて、文字認識データ3の該当データを修正する。
なお、検索キーワード蓄積機能6と修正文字抽出機能8と文字認識データ修正機能9とは、データ修正装置を構成する。データ修正装置はコンピュータにより形成されている。
また、文字認識データ3、蓄積キーワード7は、記憶装置に格納されている。
The search keyword storage function 6 (keyword storage means) stores search keywords input by the user on the
The corrected character extracting function 8 (corrected character extracting means) extracts a keyword of one record from the accumulated
The character recognition data correction function 9 (character recognition data correction means) corrects the corresponding data of the
The search
The
図2は、この発明の実施の形態1によるデータ修正装置の検索キーワード蓄積機能を説明する説明図である。
図2において、4、6、7は図1におけるものと同一のものである。図2では、検索キーワード蓄積機能6について説明する。蓄積キーワード7は、図示するような構造であり、検索キーワードがそのまま、または検索キーワードから抽出された文字列を格納している。図2では、英文字及び数字の文字列を示したが、これに限らず、漢字の文字列であってもよい。
FIG. 2 is an explanatory diagram for explaining the search keyword storage function of the data correction apparatus according to the first embodiment of the present invention.
2, 4, 6, and 7 are the same as those in FIG. In FIG. 2, the search
次に、動作について説明する。
文書・図面イメージデータ1の文書、図面の生成のつど、適宜、文字認識機能2により文字認識を行い、文字認識データ3に蓄積する。
ユーザは、文字認識データ3を検索する必要が生じた場合には、検索画面4から検索キーワードを入力し、検索処理機能5により、検索し、検索結果を検索画面4に表示するようになっている。
Next, the operation will be described.
Characters are recognized by the
When the user needs to search the
このとき、検索に使用した検索キーワードを、検索キーワード蓄積機能6により、蓄積キーワード7に追加蓄積する。
そして、検索処理機能5の運用時間帯の外で、蓄積キーワード7を用いて、文字認識データ3の誤認識されている文字列の修正を行う。
この場合、修正文字抽出機能8が、蓄積キーワード7から修正用のキーワードを抽出し、次に、文字認識データ修正機能9によって、文字認識データ3の修正を実行する。
At this time, the search keyword used for the search is additionally stored in the
Then, the misrecognized character string in the
In this case, the corrected character extraction function 8 extracts a correction keyword from the
次に、修正文字抽出機能8及び文字認識データ修正機能9による文字認識データ修正処理について、図3を用いて説明する。
修正文字抽出機能8が、蓄積キーワード7から、1つのレコードである1つのキーワード(A)を抽出する(ステップS1)。次に、修正文字抽出機能8が、抽出したキーワード(A)が3文字以上かどうかを判定する(ステップS2)。Noであれば、ステップS2に戻る。
Yesの場合には、文字認識データ修正機能9が、キーワード(A)と文字認識データ3中の文字列(B)とを比較する(ステップS3)。この文字列(B)は、文字認識データ3から任意のアルゴリズムで取り出された単語の文字列であり、キーワード(A)と同じ文字数とする。
Next, character recognition data correction processing by the corrected character extraction function 8 and the character recognition
The corrected character extraction function 8 extracts one keyword (A), which is one record, from the accumulated keyword 7 (step S1). Next, the corrected character extraction function 8 determines whether the extracted keyword (A) is 3 characters or more (step S2). If No, the process returns to step S2.
In the case of Yes, the character recognition
この比較で、キーワード(A)と文字認識データ3中の文字列(B)とが全く同じであれば(ステップS4)、ステップS1に戻る。
同じでなければ、文字認識データ修正機能9は、キーワード(A)と文字列(B)とで、違う文字数が所定の割合(しきい値)以下かどうかを判定する(ステップS5)。ここで、所定の割合は、例えば文字数の20パーセントである。この場合、5文字で1文字以内の違いであれば、Yesということになる。
ステップS5の判定で、Noの場合には、元々異なる単語か、もしくは単語を誤認識したものかが不明であるので、修正候補リスト10に、キーワード(A)と文字列(B)と対にして格納して、ステップS1に戻る。
In this comparison, if the keyword (A) and the character string (B) in the
If they are not the same, the character recognition
In the case of No in step S5, since it is unknown whether the word is originally different or the word is misrecognized, the keyword (A) and the character string (B) are paired in the
ステップS5の判定で、Yesの場合には、文字認識データ修正機能9は、文字認識データ3中に文字列(B)と同一の他の文字列があるかどうかを判定する(ステップS6)。Yes(有るとき)であれば、誤認識した可能性があるか、正しく認識されているかが不明であるので、修正候補リスト10に、キーワード(A)と文字列(B)と対にして格納して、ステップS1に戻る。
Noの場合には、文字認識データ修正機能9は、誤認識と判断し、文字認識データ3中の文字列(B)をキーワード(A)で置き換え、文字認識データ3を修正する(ステップS7)。
なお、修正候補リスト10の取り扱いについては、実施の形態5で後述し、ここでは述べない。
If the determination in step S5 is Yes, the character recognition
In the case of No, the character recognition
The handling of the
なお、上述の説明では、ステップS2では、3文字以上とし、ステップS5では、キーワード(A)と文字列(B)とで、違う文字数が所定の割合(しきい値)以下かどうかを判定したが、このしきい値は、ステップS2の文字数に応じて、変動させても良い。 In the above description, it is determined in step S2 that there are three or more characters, and in step S5, it is determined whether the number of different characters between the keyword (A) and the character string (B) is equal to or less than a predetermined ratio (threshold). However, this threshold value may be varied according to the number of characters in step S2.
実施の形態1によれば、文字認識時の誤認識したデータ箇所を自動的に修正し、文字認識データを検索する場合における検索ヒット率を上げることができる。 According to the first embodiment, it is possible to automatically correct a misrecognized data portion at the time of character recognition and increase a search hit rate when searching for character recognition data.
実施の形態2.
実施の形態1では、蓄積キーワードを検索キーワードから自動的に生成するようにしたが、文字認識結果のデータ修正は、検索キーワードだけでなく、客先にて運用している業務システムのデータを用いることでも修正可能である。
実施の形態2は、図1の蓄積キーワード7を客先業務データから生成するようにした。この場合、検索キーワード蓄積機能6が、客先業務データから必要に応じて、誤認識の修正に用いるキーワードとしての単語を切り出し、蓄積キーワード7に蓄積する。
In the first embodiment, the stored keyword is automatically generated from the search keyword. However, the data correction of the character recognition result uses not only the search keyword but also data of a business system operated by the customer. Can also be corrected.
In the second embodiment, the stored
実施の形態2によれば、蓄積キーワードを客先業務データから生成するようにしたので、文字認識の修正度合を上げることができる。 According to the second embodiment, since the accumulated keyword is generated from the customer business data, the correction degree of character recognition can be increased.
実施の形態3.
実施の形態1では、蓄積キーワードを検索キーワードから自動的に生成するようにしたが、文字認識結果のデータ修正は、検索キーワードや業務システムのデータ(実施の形態2)だけでなく、客先での業務用の専門用語をリストアップしたデータを用いることでも修正可能である。
すなわち、実施の形態3は、図1の蓄積キーワード7として、客先での専門用語リストを用いるようにした。
In the first embodiment, the stored keyword is automatically generated from the search keyword. However, data correction of the character recognition result is performed not only by the search keyword and business system data (second embodiment) but also by the customer. It can also be corrected by using data that lists the technical terms of the company.
That is, in
実施の形態3によれば、蓄積キーワード7として、客先の専門用語リストを用いるようにしたので、文字認識の修正度合を上げることができる。
According to the third embodiment, since the customer's technical term list is used as the
実施の形態4.
実施の形態1では、蓄積キーワードを検索キーワードから自動的に生成するようにしたが、文字認識結果の修正は、検索キーワードや、業務システムのデータ(実施の形態2)や、客先での業務用の専門用語をリストアップしたデータ(実施の形態3)だけでなく、住所や人名をリストアップしたデータを用いることでも修正可能である。
実施の形態4は、図1の蓄積キーワード7として、住所リスト/人名リストを用いるようにした。
In the first embodiment, the stored keyword is automatically generated from the search keyword. However, the correction of the character recognition result is performed by using the search keyword, the business system data (second embodiment), and the business at the customer. The data can be corrected not only by using data that lists technical terms for use (third embodiment) but also by using data that lists addresses and names.
In the fourth embodiment, an address list / person name list is used as the
実施の形態4によれば、蓄積キーワードとして、住所リスト/人名リストを用いるようにしたので、文字認識の修正度合を上げることができる。 According to the fourth embodiment, since the address list / person name list is used as the accumulation keyword, the correction degree of character recognition can be increased.
実施の形態5.
実施の形態1では、誤認識と判定できないものを修正候補リスト10に蓄積するようにした。実施の形態5は、この修正候補リスト10を用いて、誤認識文字の修正を行うものである。
In the first embodiment, information that cannot be determined as erroneous recognition is accumulated in the
図4は、この発明の実施の形態5によるデータ修正装置を示す全体構成図である。
図4において、1〜9は図1におけるものと同一のものである。図4では、データ修正装置に修正候補リスト修正I/F(インタフェース)機能11(修正インタフェース手段)を設け、この修正候補リスト修正I/F機能11は、文字認識データ修正機能9の実行時に、修正するかどうかの判断ができなかった修正候補リスト10を一覧表示し、この一覧表示の各行に示される誤認識データの修正を行う。
FIG. 4 is an overall configuration diagram showing a data correction apparatus according to
4, 1 to 9 are the same as those in FIG. In FIG. 4, the data correction apparatus is provided with a correction candidate list correction I / F (interface) function 11 (correction interface means). The correction candidate list correction I / F function 11 is executed when the character recognition
図5は、この発明の実施の形態5によるデータ修正装置の修正候補リスト修正I/F機能の処理を説明する説明図である。
図5において、修正用画面21は、修正候補リスト修正I/F機能11により、修正候補リスト10(修正候補リストデータベース)を読み出し、一覧表示した画面である。キーワード(A)に対応する文字認識データの文字列(B)が各行に表示され、それぞれ該当文書名及びその頁数が表示される。同行の表示ボタン22を押下すれば、該当文書の該当頁23が表示され、該当する文字認識データの文字列(B)24も強調表示されている。
FIG. 5 is an explanatory diagram for explaining the processing of the modification candidate list modification I / F function of the data modification apparatus according to the fifth embodiment of the present invention.
In FIG. 5, a
実施の形態5は、修正候補リスト修正I/F機能11によって修正候補リスト10を修正用画面21に一覧表示し、修正する箇所をクリックするだけで、誤認識データの修正を実施することが可能である。
図5に示す修正用画面21には、修正候補リスト10に蓄積されているキーワード(A)と、修正判断がつかなかった文字認識結果(文字認識データの文字列(B)、該当文書の文書名、該当頁)が一覧表示される。
誤認識とユーザが判断した行の表示ボタン22を押すと、該当文書の該当頁23がイメージ等で表示されるとともに、該当する文字認識データの文字列(B)24が強調表示される。
そして、この強調表示された文字認識データの文字列(B)24をクリックすると、文字認識データ3中の該当する文字列が、修正用のキーワード(A)に修正される。
なお、修正用画面21の表示項目は、すべて修正候補リスト10に蓄積されているものとする。
In the fifth embodiment, the
The
When the
When the character string (B) 24 of the highlighted character recognition data is clicked, the corresponding character string in the
It is assumed that all the display items of the
次に、図6を用いて、修正候補リスト修正I/F機能11の修正候補リスト修正処理について説明する。
まず、修正候補リスト修正I/F機能11は、修正候補リスト10から、図5に示す修正用画面21の一覧表を表示する(ステップS11)。修正する対象行の表示ボタン22をクリックする(ステップS12)。そうすると、表示される該当文献の該当頁23のうちの該当する文字認識データの文字列(B)24が強調表示されるので、その強調表示箇所をクリックする(ステップS13)。
これにより、強調表示された文字列24に対応する行のキーワード(A)によって、強調表示された文字認識データ3の該当する文字列を修正する(ステップS14)。次いで、修正した文字認識データの文字列(B)に該当する行を、修正候補リスト10から削除し、修正用画面21を再表示する(ステップS15)。
他に修正箇所がなければ終了し、有れば、ステップS12に戻る。
Next, the correction candidate list correction process of the correction candidate list correction I / F function 11 will be described with reference to FIG.
First, the correction candidate list correction I / F function 11 displays a list of the
Thereby, the corresponding character string of the highlighted
If there is no other correction part, it will be complete | finished, and if there exists, it will return to step S12.
実施の形態5によれば、修正候補リストを一覧表示することで、ユーザは変更必要箇所を確認でき、該当の表示箇所をクリックするだけで、自動的に文字認識データに蓄積されている該当データを修正することができる。 According to the fifth embodiment, by displaying the correction candidate list as a list, the user can confirm the change-necessary portion, and by simply clicking the corresponding display portion, the corresponding data automatically stored in the character recognition data. Can be corrected.
実施の形態6.
実施の形態5は、修正候補リストから1つずつ修正する場合のついてのものであるが、実施の形態6は、修正候補リストの文字認識データの修正箇所を一括修正するようにしたものである。
図7は、この発明の実施の形態6によるデータ修正装置を示す全体構成図である。
図7において、1〜9は図1におけるものと同一のものである。図7ではデータ修正装置に修正候補リスト一括修正I/F機能12(一括修正インタフェース手段)を設け、この修正候補リスト一括修正I/F機能12は、文字認識データ修正機能9の実行時に、修正するかどうかの判断ができなかった修正候補リスト10を一覧表示し、この一覧表示の各行に示される誤認識データの一括修正を行う。
The fifth embodiment is for correcting one by one from the correction candidate list, but the sixth embodiment is a method in which correction portions of character recognition data in the correction candidate list are corrected collectively. .
FIG. 7 is an overall configuration diagram showing a data correction apparatus according to
In FIG. 7, 1 to 9 are the same as those in FIG. In FIG. 7, the data correction apparatus is provided with a correction candidate list batch correction I / F function 12 (batch correction interface means), and this correction candidate list batch correction I /
図8は、この発明の実施の形態6によるデータ修正装置の修正候補リスト一括修正I/F機能の処理を説明する説明図である。
図8において、3、10は図5におけるものと同一のものである。図8では、修正候補リスト一括修正I/F機能12により、修正候補リスト10から、一括修正用画面31が表示され、この状態で、一括修正ボタン32を押下することにより、一覧表示された全ての文字認識データ3の該当箇所が修正される。
修正用のキーワード(A)が複数表示されている場合には、そのいずれかを選択して、キーワード(A)に対応する文字認識データの文字列を一括修正することができるようになっている。
FIG. 8 is an explanatory diagram for explaining the processing of the correction candidate list batch correction I / F function of the data correction apparatus according to the sixth embodiment of the present invention.
In FIG. 8, 3 and 10 are the same as those in FIG. In FIG. 8, the correction candidate list batch correction I /
When a plurality of correction keywords (A) are displayed, one of them can be selected and the character string of the character recognition data corresponding to the keyword (A) can be corrected collectively. .
実施の形態6は、修正候補リスト10から読み出した一括修正用画面31で、一括修正ボタン32を押下することにより、文字認識データ3の該当する部分が自動的に修正されるようになっている。
図8の一括修正用画面31には、修正候補リスト10に蓄積されている修正用のキーワード(A)と、修正判断がつかなかった文字認識結果(文字認識データの文字列(B)、該当文書の文書名、頁)が一覧表示される。この状態で、一括修正ボタン32を押すと、キーワード(A)に対応してリスト表示しているものについて、自動的に文字認識データ3に蓄積されている該当データを修正する。
図8に示すように、例えば、誤認識した文字認識データ内容が「1294」、「1284」の場合、必ず修正用のキーワード(A)の「1234」という文字に修正する場合に有効である。
In the sixth embodiment, the corresponding portion of the
The
As shown in FIG. 8, for example, when the misrecognized character recognition data contents are “1294” and “1284”, it is effective when the correction is always made to the character “1234” of the correction keyword (A).
次に、図9を用いて、修正候補リスト一括修正I/F機能12の一括修正処理について説明する。
まず、修正候補リスト一括修正I/F機能12は、修正候補リスト10を読み出し、一括修正用画面31を表示する(ステップ21)。次に、修正用のキーワード(A)が複数ある場合には選択して、一括修正ボタン32をクリックする(ステップS22)。選択されたキーワード(A)に対応して一覧表示されている文字認識データ(B)全てについて、文字認識データ3の該当文字列を修正する(ステップS23)。他に修正に用いるべきキーワードがなければ終了し、有ればステップS22に戻る。
Next, batch correction processing of the correction candidate list batch correction I /
First, the correction candidate list batch correction I /
なお、上述の説明では、一括修正用画面31に表示されたキーワード(A)に対応する文字認識データの文字列(B)を全て一括修正するものとしたが、文字認識データの文字列(B)を選択して、この選択したものだけを一括修正するようにしてもよい。
In the above description, the character strings (B) of the character recognition data corresponding to the keyword (A) displayed on the
実施の形態6によれば、修正候補リストを一覧表示し、ユーザは一括修正ボタンを押下するだけで、一括して、自動的に文字認識データに蓄積されている該当データを修正することができる。 According to the sixth embodiment, the correction candidate list is displayed as a list, and the user can automatically correct the corresponding data accumulated in the character recognition data by simply pressing the batch correction button. .
なお、本発明は、その発明の範囲内において、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略することが可能である。 It should be noted that the present invention can be freely combined with each other within the scope of the invention, and each embodiment can be appropriately modified or omitted.
1 文書・図面イメージデータ
2 文字認識機能
3 文字認識データ
4 検索画面
5 検索処理機能
6 検索キーワード蓄積機能
7 蓄積キーワード
8 修正文字抽出機能
9 文字認識データ修正機能
10 修正候補リスト
11 修正候補リスト修正I/F機能
12 修正候補リスト一括修正I/F機能
21 修正用画面
22 表示ボタン
23 該当文書の該当頁
24 強調表示された文字認識データの文字列(B)
31 一括修正用画面
32 一括修正ボタン
1 Document /
31
Claims (10)
上記キーワードデータベースから修正用のキーワードを抽出する修正文字抽出手段、
及びこの修正文字抽出手段によって抽出された修正用のキーワードを用いて、上記文字認識データベース中の文字列を修正する文字認識データ修正手段を備え、
上記文字認識データ修正手段は、上記文字認識データベースから抽出した文字列と上記修正用のキーワードを比較し、異なる文字数が所定の割合以下の場合に上記文字認識データベース中の上記比較した文字列を上記修正用のキーワードに置き換えることを特徴とするデータ修正装置。 A keyword accumulating means for accumulating in a keyword database a keyword for correction to a character recognition database storing character recognition data formed by character recognition from image data of a document / drawing;
Correction character extraction means for extracting a correction keyword from the keyword database;
And character recognition data correction means for correcting the character string in the character recognition database using the correction keyword extracted by the correction character extraction means,
The character recognition data correction means compares the character string extracted from the character recognition database with the keyword for correction, and when the number of different characters is a predetermined ratio or less, the character recognition data correction means A data correction device characterized by replacing with a keyword for correction.
上記キーワードデータベースから修正用のキーワードを抽出する修正文字抽出手段、
及びこの修正文字抽出手段によって抽出された修正用のキーワードを用いて、上記文字認識データベース中の文字列を修正する文字認識データ修正手段を備え、
上記文字認識データ修正手段は、上記文字認識データベースから抽出した文字列と上記修正用のキーワードを比較し、異なる文字数が所定の割合以下の場合で、かつ上記比較した文字列と同じ文字列が上記文字認識データベース中にない場合に上記文字認識データベース中の上記比較した文字列を上記修正用のキーワードに置き換えることを特徴とするデータ修正装置。 A keyword accumulating means for accumulating in a keyword database a keyword for correction to a character recognition database storing character recognition data formed by character recognition from image data of a document / drawing;
Correction character extraction means for extracting a correction keyword from the keyword database;
And character recognition data correction means for correcting the character string in the character recognition database using the correction keyword extracted by the correction character extraction means,
The character recognition data correction means compares the character string extracted from the character recognition database with the correction keyword, and when the number of different characters is equal to or less than a predetermined ratio and the same character string as the compared character string is A data correction apparatus characterized by replacing the compared character string in the character recognition database with the correction keyword when it is not in the character recognition database.
及びこの修正文字抽出手段によって抽出された修正用のキーワードを用いて、上記文字認識データベース中の文字列を修正する文字認識データ修正手段を備え、
上記文字認識データ修正手段は、上記文字認識データベースから抽出した文字列と上記修正用のキーワードを比較し、異なる文字数が所定の割合以下の場合で、かつ上記比較した文字列と同じ文字列が上記文字認識データベース中にない場合に上記文字認識データベース中の上記比較した文字列を上記修正用のキーワードに置き換えることを特徴とするデータ修正装置。 A correction character extraction means for extracting a keyword for correction to a character recognition database storing character recognition data formed by character recognition from image data of a document / drawing from a separately created keyword database;
And character recognition data correction means for correcting the character string in the character recognition database using the correction keyword extracted by the correction character extraction means,
The character recognition data correction means compares the character string extracted from the character recognition database with the correction keyword, and when the number of different characters is equal to or less than a predetermined ratio and the same character string as the compared character string is A data correction apparatus characterized by replacing the compared character string in the character recognition database with the correction keyword when it is not in the character recognition database.
いずれかの上記対が操作されることにより、上記操作された対中の上記修正用のキーワードによって、対応する上記比較した文字列を置き換える修正インタフェース手段を備えたことを特徴とする請求項8記載のデータ修正装置。 From the correction candidate list database, the comparison character string and the correction keyword pairs are read and displayed as a list,
9. The apparatus according to claim 8, further comprising a correction interface unit that replaces the corresponding character string compared with the correction keyword in the operated pair by operating any one of the pairs. Data correction device.
いずれかの上記修正用のキーワードが選択され、一括修正ボタンが操作されることにより、上記選択された修正用のキーワードに対応して一覧表示された上記比較した文字列を、上記選択された修正用のキーワードに置き換える一括修正インタフェース手段を備えたことを特徴とする請求項8記載のデータ修正装置。 From the correction candidate list database, the pair of the compared character string and the keyword for correction is read out, displayed as a list for each keyword for correction,
When any one of the keywords for correction is selected and the batch correction button is operated, the compared character string displayed in a list corresponding to the selected keyword for correction is changed to the selected correction. 9. The data correction apparatus according to claim 8, further comprising a batch correction interface means for replacing with a keyword for use.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012059733A JP5752073B2 (en) | 2012-03-16 | 2012-03-16 | Data correction device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012059733A JP5752073B2 (en) | 2012-03-16 | 2012-03-16 | Data correction device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013196091A true JP2013196091A (en) | 2013-09-30 |
JP5752073B2 JP5752073B2 (en) | 2015-07-22 |
Family
ID=49395021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012059733A Expired - Fee Related JP5752073B2 (en) | 2012-03-16 | 2012-03-16 | Data correction device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5752073B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930505A (en) * | 2016-05-09 | 2016-09-07 | 广州神马移动信息科技有限公司 | Information search method and apparatus |
JP2017162147A (en) * | 2016-03-09 | 2017-09-14 | キヤノン株式会社 | Information processor, program, and information processing method |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05108689A (en) * | 1991-10-16 | 1993-04-30 | Fujitsu Ltd | Transfer operation processor |
JP2002324210A (en) * | 2001-04-24 | 2002-11-08 | Toshiba Corp | Character recognition processing system and its program |
-
2012
- 2012-03-16 JP JP2012059733A patent/JP5752073B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05108689A (en) * | 1991-10-16 | 1993-04-30 | Fujitsu Ltd | Transfer operation processor |
JP2002324210A (en) * | 2001-04-24 | 2002-11-08 | Toshiba Corp | Character recognition processing system and its program |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017162147A (en) * | 2016-03-09 | 2017-09-14 | キヤノン株式会社 | Information processor, program, and information processing method |
CN105930505A (en) * | 2016-05-09 | 2016-09-07 | 广州神马移动信息科技有限公司 | Information search method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP5752073B2 (en) | 2015-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10956786B2 (en) | Machine learning based extraction of partition objects from electronic documents | |
US8468167B2 (en) | Automatic data validation and correction | |
US9208185B2 (en) | Indexing and search query processing | |
US8005819B2 (en) | Indexing and searching product identifiers | |
US8504553B2 (en) | Unstructured and semistructured document processing and searching | |
US9898464B2 (en) | Information extraction supporting apparatus and method | |
US20220222292A1 (en) | Method and system for ideogram character analysis | |
US11520835B2 (en) | Learning system, learning method, and program | |
JP2014182477A (en) | Program and document processing device | |
US20150317315A1 (en) | Method and apparatus for recommending media at electronic device | |
US9720896B1 (en) | Synthesizing union tables from the web | |
JP5752073B2 (en) | Data correction device | |
JP5229102B2 (en) | Form search device, form search program, and form search method | |
US9672438B2 (en) | Text parsing in complex graphical images | |
JP6884930B2 (en) | Document search device, document search program, document search method | |
WO2014170965A1 (en) | Document processing method, document processing device, and document processing program | |
US20210042555A1 (en) | Information Processing Apparatus and Table Recognition Method | |
US20110172991A1 (en) | Sentence extracting method, sentence extracting apparatus, and non-transitory computer readable record medium storing sentence extracting program | |
JP3979288B2 (en) | Document search apparatus and document search program | |
US9483463B2 (en) | Method and system for motif extraction in electronic documents | |
JP2010237909A (en) | Knowledge correction program, knowledge correcting device and knowledge correction method | |
US20130311489A1 (en) | Systems and Methods for Extracting Names From Documents | |
JP6303508B2 (en) | Document analysis apparatus, document analysis system, document analysis method, and program | |
US20210064586A1 (en) | Data processing device and data processing method | |
CN116521133B (en) | Software function safety requirement analysis method, device, equipment and readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141007 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150421 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150519 |
|
LAPS | Cancellation because of no payment of annual fees |