JP5752073B2 - データ修正装置 - Google Patents
データ修正装置 Download PDFInfo
- Publication number
- JP5752073B2 JP5752073B2 JP2012059733A JP2012059733A JP5752073B2 JP 5752073 B2 JP5752073 B2 JP 5752073B2 JP 2012059733 A JP2012059733 A JP 2012059733A JP 2012059733 A JP2012059733 A JP 2012059733A JP 5752073 B2 JP5752073 B2 JP 5752073B2
- Authority
- JP
- Japan
- Prior art keywords
- correction
- keyword
- character recognition
- character
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
Description
従来では、この修正は、次のように行われる。ツールにより、文字認識データをユーザが見やすいようにテキスト出力し、この出力されたテキストデータと文字認識する対象の元データを目視にて確認し、誤認識されているものを、修正必要データとして洗い出しする。そして、この洗い出したデータを元に、修正機能にて文字認識データを修正するようになっていた。
また、特許文献1には、文字認識部によって認識された認識結果を修正する場合に、オペレータが正しい文字を検索キーとして指定すると、検索部が修正用辞書のうちのその検索キーを含む専門用語をリスト表示し、そのうちの一つの専門用語をオペレータが選択すると、その選択した専門用語で認識結果が一括して置き換えられるものが記載されている。
特許文献1のものでは、検索キーの指定をオペレータが行うとともに、修正用辞書のうちのその検索キーを含む専門用語をリスト表示したものの中から1つの専門用語をオペレータが選択するようになっており、オペレータの介入によって始めて修正が可能になっていたので、オペレータの時間が取られるという問題がある。
以下、この発明の実施の形態1を図に基づいて説明する。
図1は、この発明の実施の形態1によるデータ修正装置を示す全体構成図である。
図1において、文書・図面イメージデータ1は、文字認識する対象の元データであり、紙の文書や図面に記載された漢字を含む手書き文字や活字文字である。文字認識機能2は、文書・図面イメージデータ1を、所定の文字認識アルゴリズムにより文字認識する。文字認識データ3(文字認識データベース)は、文字認識機能2によって文字認識された結果を蓄積している。
検索画面4は、ユーザが、文字認識データ3の検索時に利用する画面であり、検索キーワード入力、結果の一覧表示を実施する。検索処理機能5は、検索画面4で入力された検索キーワードを元に、文字認識データ3に対して検索処理を実施し、検索結果を検索画面4に返し、表示させる。
修正文字抽出機能8(修正文字抽出手段)は、蓄積キーワード7から1レコードのキーワードを抽出して修正用の文字列(修正用のキーワード)とする。なお、この修正用の文字列は、キーワードから所定のアルゴリズムにより抽出した文字列としてもよい。ここでは3文字以上とする。
文字認識データ修正機能9(文字認識データ修正手段)は、修正文字抽出機能8によって抽出されたキーワードを用いて、文字認識データ3の該当データを修正する。
なお、検索キーワード蓄積機能6と修正文字抽出機能8と文字認識データ修正機能9とは、データ修正装置を構成する。データ修正装置はコンピュータにより形成されている。
また、文字認識データ3、蓄積キーワード7は、記憶装置に格納されている。
図2において、4、6、7は図1におけるものと同一のものである。図2では、検索キーワード蓄積機能6について説明する。蓄積キーワード7は、図示するような構造であり、検索キーワードがそのまま、または検索キーワードから抽出された文字列を格納している。図2では、英文字及び数字の文字列を示したが、これに限らず、漢字の文字列であってもよい。
文書・図面イメージデータ1の文書、図面の生成のつど、適宜、文字認識機能2により文字認識を行い、文字認識データ3に蓄積する。
ユーザは、文字認識データ3を検索する必要が生じた場合には、検索画面4から検索キーワードを入力し、検索処理機能5により、検索し、検索結果を検索画面4に表示するようになっている。
そして、検索処理機能5の運用時間帯の外で、蓄積キーワード7を用いて、文字認識データ3の誤認識されている文字列の修正を行う。
この場合、修正文字抽出機能8が、蓄積キーワード7から修正用のキーワードを抽出し、次に、文字認識データ修正機能9によって、文字認識データ3の修正を実行する。
修正文字抽出機能8が、蓄積キーワード7から、1つのレコードである1つのキーワード(A)を抽出する(ステップS1)。次に、修正文字抽出機能8が、抽出したキーワード(A)が3文字以上かどうかを判定する(ステップS2)。Noであれば、ステップS2に戻る。
Yesの場合には、文字認識データ修正機能9が、キーワード(A)と文字認識データ3中の文字列(B)とを比較する(ステップS3)。この文字列(B)は、文字認識データ3から任意のアルゴリズムで取り出された単語の文字列であり、キーワード(A)と同じ文字数とする。
同じでなければ、文字認識データ修正機能9は、キーワード(A)と文字列(B)とで、違う文字数が所定の割合(しきい値)以下かどうかを判定する(ステップS5)。ここで、所定の割合は、例えば文字数の20パーセントである。この場合、5文字で1文字以内の違いであれば、Yesということになる。
ステップS5の判定で、Noの場合には、元々異なる単語か、もしくは単語を誤認識したものかが不明であるので、修正候補リスト10に、キーワード(A)と文字列(B)と対にして格納して、ステップS1に戻る。
Noの場合には、文字認識データ修正機能9は、誤認識と判断し、文字認識データ3中の文字列(B)をキーワード(A)で置き換え、文字認識データ3を修正する(ステップS7)。
なお、修正候補リスト10の取り扱いについては、実施の形態5で後述し、ここでは述べない。
実施の形態1では、蓄積キーワードを検索キーワードから自動的に生成するようにしたが、文字認識結果のデータ修正は、検索キーワードだけでなく、客先にて運用している業務システムのデータを用いることでも修正可能である。
実施の形態2は、図1の蓄積キーワード7を客先業務データから生成するようにした。この場合、検索キーワード蓄積機能6が、客先業務データから必要に応じて、誤認識の修正に用いるキーワードとしての単語を切り出し、蓄積キーワード7に蓄積する。
実施の形態1では、蓄積キーワードを検索キーワードから自動的に生成するようにしたが、文字認識結果のデータ修正は、検索キーワードや業務システムのデータ(実施の形態2)だけでなく、客先での業務用の専門用語をリストアップしたデータを用いることでも修正可能である。
すなわち、実施の形態3は、図1の蓄積キーワード7として、客先での専門用語リストを用いるようにした。
実施の形態1では、蓄積キーワードを検索キーワードから自動的に生成するようにしたが、文字認識結果の修正は、検索キーワードや、業務システムのデータ(実施の形態2)や、客先での業務用の専門用語をリストアップしたデータ(実施の形態3)だけでなく、住所や人名をリストアップしたデータを用いることでも修正可能である。
実施の形態4は、図1の蓄積キーワード7として、住所リスト/人名リストを用いるようにした。
実施の形態1では、誤認識と判定できないものを修正候補リスト10に蓄積するようにした。実施の形態5は、この修正候補リスト10を用いて、誤認識文字の修正を行うものである。
図4において、1〜9は図1におけるものと同一のものである。図4では、データ修正装置に修正候補リスト修正I/F(インタフェース)機能11(修正インタフェース手段)を設け、この修正候補リスト修正I/F機能11は、文字認識データ修正機能9の実行時に、修正するかどうかの判断ができなかった修正候補リスト10を一覧表示し、この一覧表示の各行に示される誤認識データの修正を行う。
図5において、修正用画面21は、修正候補リスト修正I/F機能11により、修正候補リスト10(修正候補リストデータベース)を読み出し、一覧表示した画面である。キーワード(A)に対応する文字認識データの文字列(B)が各行に表示され、それぞれ該当文書名及びその頁数が表示される。同行の表示ボタン22を押下すれば、該当文書の該当頁23が表示され、該当する文字認識データの文字列(B)24も強調表示されている。
図5に示す修正用画面21には、修正候補リスト10に蓄積されているキーワード(A)と、修正判断がつかなかった文字認識結果(文字認識データの文字列(B)、該当文書の文書名、該当頁)が一覧表示される。
誤認識とユーザが判断した行の表示ボタン22を押すと、該当文書の該当頁23がイメージ等で表示されるとともに、該当する文字認識データの文字列(B)24が強調表示される。
そして、この強調表示された文字認識データの文字列(B)24をクリックすると、文字認識データ3中の該当する文字列が、修正用のキーワード(A)に修正される。
なお、修正用画面21の表示項目は、すべて修正候補リスト10に蓄積されているものとする。
まず、修正候補リスト修正I/F機能11は、修正候補リスト10から、図5に示す修正用画面21の一覧表を表示する(ステップS11)。修正する対象行の表示ボタン22をクリックする(ステップS12)。そうすると、表示される該当文献の該当頁23のうちの該当する文字認識データの文字列(B)24が強調表示されるので、その強調表示箇所をクリックする(ステップS13)。
これにより、強調表示された文字列24に対応する行のキーワード(A)によって、強調表示された文字認識データ3の該当する文字列を修正する(ステップS14)。次いで、修正した文字認識データの文字列(B)に該当する行を、修正候補リスト10から削除し、修正用画面21を再表示する(ステップS15)。
他に修正箇所がなければ終了し、有れば、ステップS12に戻る。
実施の形態5は、修正候補リストから1つずつ修正する場合のついてのものであるが、実施の形態6は、修正候補リストの文字認識データの修正箇所を一括修正するようにしたものである。
図7は、この発明の実施の形態6によるデータ修正装置を示す全体構成図である。
図7において、1〜9は図1におけるものと同一のものである。図7ではデータ修正装置に修正候補リスト一括修正I/F機能12(一括修正インタフェース手段)を設け、この修正候補リスト一括修正I/F機能12は、文字認識データ修正機能9の実行時に、修正するかどうかの判断ができなかった修正候補リスト10を一覧表示し、この一覧表示の各行に示される誤認識データの一括修正を行う。
図8において、3、10は図5におけるものと同一のものである。図8では、修正候補リスト一括修正I/F機能12により、修正候補リスト10から、一括修正用画面31が表示され、この状態で、一括修正ボタン32を押下することにより、一覧表示された全ての文字認識データ3の該当箇所が修正される。
修正用のキーワード(A)が複数表示されている場合には、そのいずれかを選択して、キーワード(A)に対応する文字認識データの文字列を一括修正することができるようになっている。
図8の一括修正用画面31には、修正候補リスト10に蓄積されている修正用のキーワード(A)と、修正判断がつかなかった文字認識結果(文字認識データの文字列(B)、該当文書の文書名、頁)が一覧表示される。この状態で、一括修正ボタン32を押すと、キーワード(A)に対応してリスト表示しているものについて、自動的に文字認識データ3に蓄積されている該当データを修正する。
図8に示すように、例えば、誤認識した文字認識データ内容が「1294」、「1284」の場合、必ず修正用のキーワード(A)の「1234」という文字に修正する場合に有効である。
まず、修正候補リスト一括修正I/F機能12は、修正候補リスト10を読み出し、一括修正用画面31を表示する(ステップ21)。次に、修正用のキーワード(A)が複数ある場合には選択して、一括修正ボタン32をクリックする(ステップS22)。選択されたキーワード(A)に対応して一覧表示されている文字認識データ(B)全てについて、文字認識データ3の該当文字列を修正する(ステップS23)。他に修正に用いるべきキーワードがなければ終了し、有ればステップS22に戻る。
2 文字認識機能
3 文字認識データ
4 検索画面
5 検索処理機能
6 検索キーワード蓄積機能
7 蓄積キーワード
8 修正文字抽出機能
9 文字認識データ修正機能
10 修正候補リスト
11 修正候補リスト修正I/F機能
12 修正候補リスト一括修正I/F機能
21 修正用画面
22 表示ボタン
23 該当文書の該当頁
24 強調表示された文字認識データの文字列(B)
31 一括修正用画面
32 一括修正ボタン
Claims (9)
- 文書・図面のイメージデータから文字認識されて形成された文字認識データを格納した文字認識データベースに対する修正用のキーワードをキーワードデータベースに蓄積するキーワード蓄積手段、
上記キーワードデータベースから修正用のキーワードを抽出する修正文字抽出手段、
及びこの修正文字抽出手段によって抽出された修正用のキーワードを用いて、上記文字認識データベース中の文字列を修正する文字認識データ修正手段を備え、
上記文字認識データ修正手段は、上記文字認識データベースから抽出した文字列と上記修正用のキーワードを比較し、異なる文字数が所定の割合以下の場合に上記文字認識データベース中の上記比較した文字列を上記修正用のキーワードに置き換えるとともに、
上記文字認識データベースから抽出した文字列と上記修正用のキーワードとの比較結果、異なる文字数が所定の割合を超える場合、及び上記異なる文字数が所定の割合以下であっても、上記比較した文字列と同じ文字列が上記文字認識データベース中にある場合には、上記比較した文字列と上記修正用のキーワードを対にして修正候補リストデータベースに格納することを特徴とするデータ修正装置。 - 文書・図面のイメージデータから文字認識されて形成された文字認識データを格納した文字認識データベースに対する修正用のキーワードをキーワードデータベースに蓄積するキーワード蓄積手段、
上記キーワードデータベースから修正用のキーワードを抽出する修正文字抽出手段、
及びこの修正文字抽出手段によって抽出された修正用のキーワードを用いて、上記文字認識データベース中の文字列を修正する文字認識データ修正手段を備え、
上記文字認識データ修正手段は、上記文字認識データベースから抽出した文字列と上記修正用のキーワードを比較し、異なる文字数が所定の割合以下の場合で、かつ上記比較した文字列と同じ文字列が上記文字認識データベース中にない場合に上記文字認識データベース中の上記比較した文字列を上記修正用のキーワードに置き換えるとともに、
上記文字認識データベースから抽出した文字列と上記修正用のキーワードとの比較結果、異なる文字数が所定の割合を超える場合、及び上記異なる文字数が所定の割合以下であっても、上記比較した文字列と同じ文字列が上記文字認識データベース中にある場合には、上記比較した文字列と上記修正用のキーワードを対にして修正候補リストデータベースに格納することを特徴とするデータ修正装置。 - 上記キーワード蓄積手段は、上記文字認識データベースの検索に用いられた検索キーワードを蓄積することを特徴とする請求項1または請求項2記載のデータ修正装置。
- 上記キーワード蓄積手段は、客先の業務データを基にして上記修正用のキーワードを蓄積することを特徴とする請求項1または請求項2記載のデータ修正装置。
- 文書・図面のイメージデータから文字認識されて形成された文字認識データを格納した文字認識データベースに対する修正用のキーワードを、別途作成されたキーワードデータベースから抽出する修正文字抽出手段、
及びこの修正文字抽出手段によって抽出された修正用のキーワードを用いて、上記文字認識データベース中の文字列を修正する文字認識データ修正手段を備え、
上記文字認識データ修正手段は、上記文字認識データベースから抽出した文字列と上記修正用のキーワードを比較し、異なる文字数が所定の割合以下の場合で、かつ上記比較した文字列と同じ文字列が上記文字認識データベース中にない場合に上記文字認識データベース中の上記比較した文字列を上記修正用のキーワードに置き換えるとともに、
上記文字認識データベースから抽出した文字列と上記修正用のキーワードとの比較結果、異なる文字数が所定の割合を超える場合、及び上記異なる文字数が所定の割合以下であっても、上記比較した文字列と同じ文字列が上記文字認識データベース中にある場合には、上記比較した文字列と上記修正用のキーワードを対にして修正候補リストデータベースに格納することを特徴とするデータ修正装置。 - 上記キーワードデータベースは、専門用語リストであることを特徴とする請求項5記載のデータ修正装置。
- 上記キーワードデータベースは、住所リストまたは人名リストであることを特徴とする請求項5記載のデータ修正装置。
- 上記修正候補リストデータベースから、上記比較した文字列と上記修正用のキーワードの対を読み出し、一覧表示するとともに、
いずれかの上記対が操作されることにより、上記操作された対中の上記修正用のキーワードによって、対応する上記比較した文字列を置き換える修正インタフェース手段を備えたことを特徴とする請求項1から請求項7のいずれか一項記載のデータ修正装置。 - 上記修正候補リストデータベースから、上記比較した文字列と上記修正用のキーワードの対を読み出し、上記修正用のキーワードごとに一覧表示するとともに、
いずれかの上記修正用のキーワードが選択され、一括修正ボタンが操作されることにより、上記選択された修正用のキーワードに対応して一覧表示された上記比較した文字列を、上記選択された修正用のキーワードに置き換える一括修正インタフェース手段を備えたことを特徴とする請求項1から請求項7のいずれか一項記載のデータ修正装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012059733A JP5752073B2 (ja) | 2012-03-16 | 2012-03-16 | データ修正装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012059733A JP5752073B2 (ja) | 2012-03-16 | 2012-03-16 | データ修正装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013196091A JP2013196091A (ja) | 2013-09-30 |
JP5752073B2 true JP5752073B2 (ja) | 2015-07-22 |
Family
ID=49395021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012059733A Expired - Fee Related JP5752073B2 (ja) | 2012-03-16 | 2012-03-16 | データ修正装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5752073B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6679350B2 (ja) * | 2016-03-09 | 2020-04-15 | キヤノン株式会社 | 情報処理装置、プログラム及び情報処理方法 |
CN105930505A (zh) * | 2016-05-09 | 2016-09-07 | 广州神马移动信息科技有限公司 | 一种信息搜索方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05108689A (ja) * | 1991-10-16 | 1993-04-30 | Fujitsu Ltd | 為替振込処理装置 |
JP4190159B2 (ja) * | 2001-04-24 | 2008-12-03 | 株式会社東芝 | 文字認識処理システムおよびプログラム |
-
2012
- 2012-03-16 JP JP2012059733A patent/JP5752073B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013196091A (ja) | 2013-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10956786B2 (en) | Machine learning based extraction of partition objects from electronic documents | |
US8468167B2 (en) | Automatic data validation and correction | |
US10169354B2 (en) | Indexing and search query processing | |
US8005819B2 (en) | Indexing and searching product identifiers | |
US8504553B2 (en) | Unstructured and semistructured document processing and searching | |
US20220222292A1 (en) | Method and system for ideogram character analysis | |
JP2014182477A (ja) | プログラム及び帳票処理装置 | |
US10896292B1 (en) | OCR error correction | |
US20210224323A1 (en) | Learning system, learning method, and program | |
JP5526057B2 (ja) | データ分析支援装置およびプログラム | |
JP5752073B2 (ja) | データ修正装置 | |
US9530070B2 (en) | Text parsing in complex graphical images | |
WO2014170965A1 (ja) | 文書処理方法、文書処理装置および文書処理プログラム | |
US20210042555A1 (en) | Information Processing Apparatus and Table Recognition Method | |
JP3979288B2 (ja) | 文書検索装置および文書検索プログラム | |
JP2010237909A (ja) | 知識補正プログラム、知識補正装置および知識補正方法 | |
JP6303508B2 (ja) | 文書分析装置、文書分析システム、文書分析方法およびプログラム | |
US20210064586A1 (en) | Data processing device and data processing method | |
US20230267274A1 (en) | Mapping entities in unstructured text documents via entity correction and entity resolution | |
US11995908B2 (en) | Information processing device and non-transitory computer readable medium | |
JP5095518B2 (ja) | 文字列生成装置及び方法、並びに、文字列生成プログラム及びその文字列生成プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
WO2017126057A1 (ja) | 情報検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141007 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150421 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150519 |
|
LAPS | Cancellation because of no payment of annual fees |