JP5833956B2 - 文書を校正する情報処理装置、方法およびプログラム - Google Patents

文書を校正する情報処理装置、方法およびプログラム Download PDF

Info

Publication number
JP5833956B2
JP5833956B2 JP2012049519A JP2012049519A JP5833956B2 JP 5833956 B2 JP5833956 B2 JP 5833956B2 JP 2012049519 A JP2012049519 A JP 2012049519A JP 2012049519 A JP2012049519 A JP 2012049519A JP 5833956 B2 JP5833956 B2 JP 5833956B2
Authority
JP
Japan
Prior art keywords
line
text
row
document file
proofreading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012049519A
Other languages
English (en)
Other versions
JP2013186568A (ja
Inventor
辰也 石原
辰也 石原
▲高▼木 啓伸
啓伸 ▲高▼木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2012049519A priority Critical patent/JP5833956B2/ja
Priority to CN201310069423.4A priority patent/CN103324926B/zh
Priority to US13/784,897 priority patent/US8908999B2/en
Publication of JP2013186568A publication Critical patent/JP2013186568A/ja
Application granted granted Critical
Publication of JP5833956B2 publication Critical patent/JP5833956B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/987Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns with the intervention of an operator

Description

本発明は、文書の校正技術に関し、より詳細には、原稿画像にOCR処理を施して生成された電子化文書を校正する情報処理装置、方法およびプログラムに関する。
昨今、文化の保存を目的として古い書籍の電子化の必要性が増加しており、国立国会図書館の電子化プロジェクトやEUのIMPACTプロジェクトなどの電子化プロジェクトが行われている。
このような大規模な電子化プロジェクトでは、取り扱う蔵書数が膨大であるため、書籍をOCR(Optical Character Recognition)処理して作成された原稿画像の文字校正を効率的に行うことが求められている。
特開2009−181225号公報
Mayur Datar, Nicole Immorlica, Piotr Indyk, and Vahab S. Mirrokni.2004.Locality-sensitive hashing scheme based on p-stable distributions. In Proceedings of the twentieth annual symposium on Computational geometry(SCG'04).ACM,NewYork,NY,USA,253-262.
従来、特許文献1が示すOCR装置のように、OCRソフトに付属している校正ソフトウェアを用いて原稿画像の校正が行われている。しかながら、このような校正ソフトウェアは、ベンダーが開発した独自のインタフェースを採用するため、原稿画像の校正を行うユーザが、そのインタフェースに慣れるまでに時間を要することがある。また、これらの校正ソフトウェアの多くは、スペルチェックや文法チェック等の機能を有していないため、作業効率が悪いという問題があった。
このような問題を解決するために、Microsoft Word(登録商標)等の汎用の文書作成ソフトに原稿画像のテキストをコピーして校正を行う方法も考えられるが、この方法では、文字情報以外のOCRの出力情報、例えば、文字の認識候補や文字や図の位置情報等が失われてしまう。これを回避するために、OCRの出力情報をテキストに変換して汎用の文書作成ソフトで校正した結果を、OCRの出力情報とマージする方法が考えられるが、原稿画像の校正時にテキストの配置位置が変更され、OCR処理の読み取り順序が修正された場合には、正確に反映することができず、校正精度が低くなるという問題がある。また、OCR処理の文字認識精度が低く、校正すべき文字が多い場合も、校正漏れが起こる可能性が高くなり、校正精度が低くなるという問題がある。
本発明は上記の課題を解決するものであり、ユーザの校正作業によってテキストの配置位置が変更された場合でも、校正の結果をOCR処理の出力情報に正確に反映すると共に、ユーザによる校正漏れを検出して校正精度を向上させる情報処理装置、方法およびプログラムを提供することを目的とする。
すなわち、本発明によれば、原稿画像にOCR処理を施して得られたテキストおよびテキストの位置を規定する情報を含む出力情報から、OCR処理のテキストの読み取り順序に従ってテキストを配置したドキュメントファイルを生成し、ユーザがドキュメントファイルに対して行った校正による行の移動の有無を検出し、行の移動を検出した場合に、移動された行の移動先を示すテキストの位置を規定する情報に従って、出力情報に含まれる当該行の構成要素であるテキストを移動して、ドキュメントファイルに対する校正の結果を出力情報に反映する情報処理装置、方法およびプログラムを提供することができる。
また、本発明によれば、校正頻度の高い頻出校正文字と未校正の文字とを抽出し、頻出校正文字の特徴ベクトルと、未校正の文字の特徴ベクトルとを算出し、頻出校正文字の特徴ベクトルと近似する特徴ベクトルを有する未校正の文字を、校正漏れの可能性がある文字として検出する情報処理装置、方法およびプログラムを提供することができる。
本発明は上記構成を採用することにより、ユーザの校正作業によってテキストの配置位置が変更された場合でも、校正の結果をOCRの出力情報にマージすることができると共に、ユーザによる校正漏れを検出することができる。
本発明の情報処理装置の機能構成を示す図。 本発明の情報処理装置がOCR処理によって生成する出力情報の一実施形態を示す図。 本発明の情報処理装置が実行する処理を示すフローチャート。 図3に示すステップS302の処理を示すフローチャート。 図4に示すステップS401の処理を示すフローチャート。 本発明の情報処理装置が実行する文字単位の編集距離の算出方法を示す概念図。 本発明の情報処理装置が実行する行区切り検出方法を示す概念図。 本発明の情報処理装置が実行する行単位の編集距離の算出方法を示す概念図。 本発明の情報処理装置が実行する行の移動操作の検出方法を示す概念図。 図3に示すステップS303の校正漏れ検出処理を示すフローチャート。 本願発明を利用した文書校正の作業イメージを示す図。 電子化すべき原稿と当該原稿にOCR処理を施して生成されるドキュメントの一実施形態を示す図。 図12に示すドキュメントファイルを校正した後のドキュメントファイルと、これらのファイルの差分を示す図。 電子化すべき原稿と当該原稿にOCR処理を施して生成されるドキュメントの別の実施形態を示す図。 図14に示すドキュメントファイルを校正した後のドキュメントファイルと、これらのファイルの差分を示す図。 電子化すべき原稿と当該原稿にOCR処理を施して生成されるドキュメントの他の実施形態を示す図。 図16に示すドキュメントファイルを校正した後のドキュメントファイルと、これらのファイルの差分を示す図。 電子化すべき原稿と当該原稿にOCR処理を施して生成されるドキュメントの他の実施形態を示す図。 図18に示すドキュメントファイルを校正した後のドキュメントファイルと、これらのファイルの差分を示す図。
以下、本発明について実施形態をもって説明するが、本発明は、後述する実施形態に限定されるものではない。図1は、本発明の情報処理装置の機能構成を示す図である。以下、図1を参照して、情報処理装置100の機能構成について説明する。
情報処理装置100は、ユーザの指示に従って文章を校正する情報処理装置である。情報処理装置100は、Windows(登録商標)7、Windows Vista(登録商標)、Windows XP(登録商標)等のWindowsシリーズ、Mac OS(登録商標)、UNIX(登録商標)、LINUX(登録商標)、Google Chrome OSなどのOSの管理下で、アセンブラ、C、C++、Java(登録商標)、JavaScript(登録商標)、PERL、PHP、RUBY、PYTHONなどのプログラム言語で記述された本発明のプログラムを実行する。
情報処理装置100は、本発明のプログラムを実行するための実行空間を提供するRAM、プログラムやデータなどを持続的に保持するためのハードディスク装置(HDD)やフラッシュメモリなどの記憶装置を含んでおり、本発明のプログラムを実行することにより、後述する本実施形態の各機能を情報処理装置100上に実現する。本実施形態の各機能部は、上述したプログラミング言語などで記述された装置実行可能なプログラムにより実現できる。
情報処理装置100は、OCR処理部110と、ファイル生成部112と、エディタ114と、記憶装置116,118,120とを含んでいる。
OCR処理部110は、種々の文字や数字、記号等の文字情報であるテキストが印刷された原稿をスキャンして生成された原稿画像にOCR処理を施して出力情報を生成する機能部である。OCR処理部110は、記憶装置116から原稿画像を取得し、当該原稿画像に含まれるテキスト領域を認識し、当該テキスト領域に含まれるテキストの候補(以下、「認識候補」とする。)および当該認識候補の確信度を算出して出力情報を生成し、記憶装置118に保存する。出力情報には、原稿画像のレイアウト情報、当該原稿画像の行のレイアウト情報、当該行の構成要素であるテキスト、認識候補、認識候補の確信度等が含まれる。本実施形態では、出力情報のフォーマットとして、図2に示すようなXMLフォーマットの1つであるALTO(The Analyzed Layout and Text Object)を採用する。他の実施形態では、出力情報のフォーマットとして、任意のマークアップ言語のフォーマットを採用することができる。
出力情報200には、レイアウト情報210と、レイアウト情報220と、テキスト情報222と、認識候補230および確信度232とが含まれている。
レイアウト情報210は、原稿画像のページのレイアウトを規定する情報である。レイアウト情報210には、ページの識別情報やページサイズ、マージン、プリント位置等が含まれる。
レイアウト情報220は、当該原稿画像に含まれる行のレイアウトを規定する情報である。レイアウト情報220には、原稿画像の行の識別情報やサイズ等が含まれる。
テキスト情報222は、OCR処理によって生成されたテキストを示す情報である。図2に示す実施形態では、テキスト情報222が示す文字列「本令」が、レイアウト情報220が示す行の構成要素であり、レイアウト情報220が示す行の領域に文字列「本令」が表示される。出力情報200では、OCR処理のテキストの読み取り順序に従って、行を規定するレイアウト情報220と、当該行の構成要素であるテキスト情報222とが生成される。すなわち、レイアウト情報220、テキスト情報222、これらの配置順序が、テキスト情報222が示すテキストの位置を規定する。
認識候補230は、OCR処理でテキスト情報222が示すテキストの認識候補(VS)として挙げられたテキストである。確信度232は、当該認識候補の確信度(VC)である。
ファイル生成部112は、校正対象のドキュメントファイルを生成する機能部である。ファイル生成部112は、記憶装置118から出力情報を取得し、エディタ114が処理可能なドキュメントファイルを生成する。ドキュメントファイルは、ページの区切りを規定するページ区切り情報をメタ情報として有しており、原稿画像と同一のページ単位でページが構成される。また、ドキュメントファイルは、OCR処理による原稿画像のテキストの読み取り順序に従って、確信度の最も高い認識候補であるテキストが配置される。
エディタ114は、ファイル生成部112が生成したドキュメントファイルを編集するMicrosoft Word(登録商標)やOpen Office等の種々の文書作成ソフトである。エディタ114は、ドキュメントファイルを情報処理装置100の表示装置(図示せず)に表示し、校正者であるユーザの指示に基づいて、ドキュメントファイルに含まれるテキストの削除や移動、編集、挿入等を行う。エディタ114は、校正されたドキュメントファイルを記憶装置120に保存する。なお、校正者であるユーザは、ドキュメントファイルのページ区切りを校正しないものとする。
マージ制御部122は、ユーザがドキュメントファイルに対して行った校正作業の内容を出力情報に反映するマージ処理の全体制御を行う機能部である。マージ制御部122は、後述する機能部を適宜呼び出してマージ処理を実行する。
ページ区切り検出部124は、ドキュメントファイルのページの区切りを検出する機能部である。ページ区切り検出部124は、記憶装置120に保存された校正済みのドキュメントファイルのページ区切り情報を使用して、ドキュメントファイルのページの区切りを検出する。
編集距離算出部126は、テキストの類似度を示す編集距離を算出する機能部である。編集距離算出部126は、記憶装置118に保存された出力情報と、記憶装置120に保存された校正済みのドキュメントファイルとを用いて、出力情報に含まれるテキスト(以下、「校正前テキスト」とする。)と、校正されたドキュメントファイルに含まれるテキスト(以下、「校正後テキスト」とする。)との編集距離を、文字単位および行単位で算出する。編集距離算出部126は、行単位で編集距離を算出する際に、校正作業による行操作の有無を示す情報、当該行操作の種類を示す情報、当該行操作の対象である校正前テキストの行番号を示す情報、当該行操作の対象である校正後テキストの行番号を示す情報(以下、「行操作情報」とする。)を生成する。なお、編集距離の算出方法については、図6および図8を参照して詳細に説明する。
行区切り検出部128は、校正されたドキュメントファイルの行の区切りを検出する機能部である。行区切り検出部128は、記憶装置118に保存された出力情報と、記憶装置120に保存された校正済みのドキュメントファイルとを用いて、当該ドキュメントファイルの行の区切りをページ毎に検出する。なお、当該検出方法については、図5および図7を参照して詳細に説明する。
行移動検出部130は、ユーザがドキュメントファイルに対して行った行操作を、行を削除する行削除操作と、行の構成要素であるテキストを置換する行編集操作または行を挿入する行挿入操作に分類し、これらの行操作のマッチングを調べることにより、ユーザの校正作業による行の移動を検出する機能部である。
具体的には、行移動検出部130は、編集距離算出部126が生成する行操作情報を用いて、ユーザによる行操作を、行削除操作の集合と行挿入・行編集操作の集合とから成る完全2部グラフを導出する。行移動検出部130は、当該完全2部グラフの行削除操作の集合の構成要素と、行挿入・行編集操作の集合の構成要素との間のマッチングの程度を示す重みを算出する。
行移動検出部130は、完全2部グラフの最大重みマッチングを算出し、マッチングのとれた組み合わせを行の移動操作とする。このとき、最もマッチングする行操作のうちの行削除操作の対象である行が移動元の行に相当し、当該行操作のうちの行編集または行挿入の対象である行が移動先の行に相当する。
マージ部132は、ユーザがドキュメントファイルに対して行った校正の結果を出力情報に反映する機能部である。具体的には、校正作業によってドキュメントファイルのテキストが削除された場合、マージ部132は、編集距離算出部126が生成した行操作情報を使用して、削除されたテキストに対応する出力情報のテキストを特定し、当該テキストを削除する。また、校正作業によってドキュメントファイルのテキストが編集された場合には、すなわち、テキストが置換された場合には、マージ部132は、行操作情報を使用して、当該編集されたテキストに対応する出力情報のテキストを特定し、当該編集されたテキストに変更する。さらに、校正作業によってドキュメントファイルのテキストが移動された場合には、マージ部132は、行操作情報を使用して、当該テキストに対応する出力情報のテキストを特定し、当該出力情報のテキストを移動先に移動する。当該移動先は、後述する行操作の重みwを算出する際に算出すべき編集距離Edit()のパラメータである校正前テキストの行番号iと校正後テキストの行番号jによって特定することができる。
校正漏れ検出部134は、校正漏れの可能性の文字を検出する機能部である。校正漏れ検出部134は、校正されなかった文字の特徴ベクトルと、校正された文字の特徴ベクトルとを算出し、校正されなかった文字のうち校正された文字と特徴ベクトルが近い文字を、校正漏れの可能性がある文字として検出する。なお、校正漏れ文字の検出方法については、図10を参照して詳細に説明する。
図3は、本発明の情報処理装置が実行する処理を示すフローチャートである。以下、図3を参照して、ユーザがドキュメントファイルに対して行った校正結果を出力情報に反映する処理について説明する。
図3の処理は、ステップS300から開始し、ステップS301では、マージ制御部122がページ区切り検出部124を呼び出し、ページ区切り検出部124が、記憶装置120から校正済みのドキュメントファイルを取得し、当該ドキュメントファイルのページ区切り情報を使用してドキュメントファイルのページ区切りを検出する。ステップS302では、マージ制御部122が、編集距離算出部126、行区切り検出部128、行移動検出部130およびマージ部132を呼び出し、ユーザが校正したテキストを、ドキュメントファイルのページ毎に出力情報にマージする。ステップS303では、校正漏れ検出部134が、ユーザが校正したドキュメントファイルから校正漏れの可能性がある文字を検出する処理(以下、「校正漏れ検出処理」とする。)を実行し、ステップS304で処理が終了する。
図4は、図3に示すステップS302の処理を示すフローチャートである。図4の処理は、ステップS400から開始し、ステップS401で行区切り検出部128が、校正されたドキュメントファイルから行の区切りを検出する。ステップS402では、編集距離算出部126が、ステップS401で得た行区切りが形成する行単位で、校正前テキストと校正後テキストの編集距離を算出する。
ステップS403では、編集距離算出部126は、ステップS402で算出した編集距離が最小となる解の候補であるパス、すなわち、テキストが最も類似するパスを特定し、当該パスにおける行操作情報を生成する。換言すると、編集距離算出部126は、校正前テキストの行と、これに対応する校正後テキストの行についての行操作情報を生成する。
ステップS404では、マージ制御部122が、ステップS403で生成された行操作情報を使用して行削除操作が行われたか否か判断する。行削除操作が行われていない場合には(no)、処理がステップS405に分岐する。ステップS405では、マージ部132が、記憶装置118に保存された出力情報にドキュメントファイルに対する校正の結果をマージし、ステップS409で処理が終了する。
より詳細には、マージ部132は、ユーザの校正作業によってテキストが編集された場合には、行操作情報を使用して、当該編集されたテキストに対応する出力情報に含まれるテキストを特定し、出力情報のテキストを当該編集されたテキストに変更する。また、ユーザの校正作業によって行の一部に相当するテキストが削除された場合には、マージ部132は、行操作情報を使用して、当該テキストに対応する出力情報に含まれるテキストを特定して削除する。なお、ユーザの校正作業によって行が挿入された場合には、当該行は意図せず入ったものとみなし、マージ部132は、当該行のテキストを出力情報にマージしない。
一方、ステップS404の判定で行削除操作が行われたと判断した場合には(yes)、処理をステップS406に分岐する。ステップS406では、行移動検出部130が、ステップS403で生成された行操作情報を使用して完全2部グラフを計算する。ステップS407では、行移動検出部130は、完全2部グラフの最大重みマッチングを算出して行の移動操作を特定する。ステップS408では、マージ部132は、記憶装置118に保存された出力情報にドキュメントファイルに対する校正の結果をマージし、ステップS409で処理が終了する。
より詳細には、マージ部132は、校正作業によってテキストが編集された場合には、行操作情報を使用して、当該編集されたテキストに対応する出力情報に含まれるテキストを特定し、当該出力情報のテキストを当該編集されたテキストに変更する。また、校正作業によって行の一部に相当するテキストが削除された場合には、マージ部132は、行操作情報を使用して、当該テキストに対応する出力情報に含まれるテキストを特定して削除する。
さらに、行の挿入操作があった場合において、当該挿入操作に対応する行の削除操作が存在するとき、すなわち、校正作業によって行が別の位置に移動されたときには、マージ部132は、行操作情報を使用して、出力情報に含まれる当該移動された行のテキストを特定し、移動先である出力情報内の位置に移動する。なお、行の挿入操作があった場合において、当該挿入操作に対応する行の削除操作が存在しないときは、当該挿入操作によって挿入された行は校正時に意図せず入ったものとみなし、マージ部132は、当該行のテキストを出力情報にマージしない。
図5は、図4に示すステップS401の処理を示すフローチャートである。図5の処理は、ステップS500から開始し、ステップS501で行区切り検出部128が、未対応の行領域のそれぞれに対して、校正前テキストと、校正後テキストの未対応の行を1つの文字列として、編集距離を算出する。
ステップS502では、行区切り検出部128は、ステップS501で算出した編集距離が最小となるパス、すなわち、解の候補である校正後テキストの領域のうち、校正前テキストの行に対応する1のテキスト領域を特定する。ステップS503では、行区切り検出部128は、ステップS501で行った編集距離の算出過程から、ステップS502で特定した校正後テキストの領域に対して、テキストの挿入操作が行われていないか判断する。ステップ504では、テキストの挿入操作が行われていない場合に(yes)、処理をステップS505に分岐する。ステップS505では、行区切り検出部128は、見つけた校正後テキストの領域を、校正後テキストにおける1つの行領域とする。
一方、テキストの挿入操作が行われている場合には(no)、処理をステップS505に分岐する。すなわち、当該校正後のテキストの領域に対して校正者が意図せず文字を入力したものとみなし、当該校正後のテキストの領域は校正前テキストにマージされない。
ステップS506では、行区切り検出部128は、校正前テキストの総ての行について、上述した処理を実行したか否か判断する。校正前テキストの総ての行について上述した処理を実行していない場合には(no)、処理をステップS501に戻し、校正前テキストの別の行について上述した処理を実行する。一方、校正前テキストの総ての行について上述した処理を実行した場合には(yes)、ステップS507に分岐する。
ステップS507では、行区切り検出部128は、上述した処理において、校正後テキストのテキスト領域のうち校正前テキストのいずれの行とも対応付けられなかったテキスト領域を別の行領域として識別し、ステップS508で処理が終了する。対応付けられなかった不連続のテキスト領域が複数ある場合には、行区切り検出部128は、当該テキスト領域をそれぞれ別の行領域として識別する。
図6は、本発明の情報処理装置が実行する文字単位の編集距離の算出方法を示す概念図である。以下、OCR処理部110が生成した出力情報に含まれる校正前テキスト「しV本令基ぎ」600が、校正後テキスト「しく本令、基き」620に校正された場合について説明する。
本実施形態では、ユーザの校正作業によって「V」610が「く」621に置換され、「ぎ」612が「き」625に置換されている。また、「令」622と「基」624との間に読点「、」623が追加されている。本発明では、編集距離を算出するために、テキストの編集操作に対して値が割り当てられる。例えば、テキストの削除、挿入、置換について、それぞれ「1」がコストとして割り当てられたと仮定すると、この校正作業による総コストである編集距離は「3」となる。
本実施形態では、テキストの置換のコストについて、OCR処理で認識候補に挙がっているテキストの確信度を用いて算出したコストを割り当てる。当該コストは、下記数式1によって導出することができる。
例えば、校正前テキスト600の2文字目「V」610の認識候補が「V」、「く」、「〈」、「<」、「<」、「ぐ」、「之」であり、その確信度が「81」、「80」、「72」、「72」、「72」、「46」、「26」であった場合、「V」610が「く」621に校正されたときの編集コストは、「く」の確信度「80」を上記数式2に代入して求められる「0.2」(=(100−80)/100)となる。
図6に示す実施形態では、日本語で記載された原稿にOCR処理を施して、校正前テキストおよび校正後テキストについて編集距離を算出するが、本発明は、他のいずれの言語についても編集距離を算出することができる。
図7は、本発明の情報処理装置が実行する行区切り検出方法を示す概念図である。以下、情報処理装置100の行区切り検出部128が実行する行区切り検出方法について説明する。
行区切り検出方法では、校正前テキストの行700と、校正後テキストの1ページに含まれる総てのテキスト710との編集距離を算出する。そして、編集距離が最小となる校正後テキストのテキスト領域、すなわち、校正前テキストの行700に含まれるテキストと最も類似するテキストを有するテキスト領域を特定する。図7に示す実施形態では、校正前テキストの行700に対応する校正後テキストのテキスト領域が存在しないものとする。
次に、校正前テキストの行701と、校正後テキストの1ページに含まれる総てのテキスト710との編集距離を算出し、編集距離が最小となる校正後テキストのテキスト領域を特定する。図7に示す実施形態では、校正後テキストのテキスト領域712が、校正前テキストの行701に対応するものとする。
同様に、校正前テキストの他の行702,703,704,705について、校正後テキストの1ページに含まれる総てのテキスト710との編集距離を算出し、編集距離が最小となる校正後テキストのテキスト領域を特定する。
当該行区切りの検出方法において、特定されたテキスト領域712,714は、校正後テキストの1つの行領域に相当する。また、特定されなかったテキスト領域711,713,715は、別の行領域に相当する。これにより、校正後テキスト710の行区切りを検出することができる。
図8は、本発明の情報処理装置が実行する行単位の編集距離の算出方法を示す概念図である。この算出方法は、図6を参照して説明した文字単位の編集距離の算出方法と同様に、テキストの編集操作に対してコストが割り当てられ、校正前テキスト800の各行と校正後テキスト820の各行との編集距離をページ毎に算出する。
図8に示す実施形態では、ユーザの校正作業によって、文字「O」で構成される行810の全体が削除されているため、当該行810の削除操作が行われたことを示す行操作情報が生成される。また、文字列「に就てもO等しV」で構成される行812が、文字列「に就ても、等しく」で構成される行822に置換されているため、当該行822の編集操作が行われたことを示す行操作情報が生成される。同様に、文字列「本令に基ぎ主務大臣」で構成される行814が、文字列「本令に基き主務大臣」で構成される行824に置換されているため、当該行824の編集操作が行われたことを示す行操作情報が生成される。
図8に示す実施形態では、日本語で記載された原稿にOCR処理を施して、校正前テキストおよび校正後テキストについて編集距離を算出するが、本発明は、他のいずれの言語についても編集距離を算出することができる。
図9は、本発明の情報処理装置が実行する行の移動操作の検出方法を示す概念図である。以下、図9を参照して、図4に示すステップS406〜S408の処理で示す行の移動操作の検出方法について説明する。
行の移動操作の検出方法では、まず、行移動検出部130が、行操作情報を使用してユーザの校正作業による行操作を、行削除操作の集合{D}910と、行編集操作および行挿入操作の集合{E,I}920とに分類する完全2部グラフを生成する。具体的には、行移動検出部130は、下記数式2を用いて、集合{D}910に含まれる操作Mと、集合{E,I}920に含まれる操作M’とのグラフの辺930の重みw(M,M’)を算出して完全2部グラフを生成する。
ここで、iは、行削除操作Mが行われた校正前テキストの行番号を示し、jは、行編集操作または行挿入操作M’が行われた校正後テキストの行番号を示す。また、L(i)は、行削除操作Mが行われた校正前テキストの行を示し、L’(j)は、行編集操作または行挿入操作M’が行われた校正後テキストの行を示す。さらに、Edit(L(i),L’(j))は、行削除操作Mが行われた校正前テキストの行L(i)と、行編集操作または行挿入操作M’が行われた校正後テキストの行L’(j)との編集距離を示す。
Dist(M,M’)は、行削除操作Mと,行編集操作または行挿入操作M’のマッチングの重み付けの程度を示す。εは、Edit(L(i),L’(j))の値が近似する行が複数存在する場合に、校正前テキストおよび校正後テキストそれぞれについて、L(i)およびL’(j)が示す行の直前の行のテキストが類似する行の組み合わせを優先するための定数であり、1以下の正の数を採用する。他の実施形態では、出力情報に含まれるレイアウト情報を使用して、Dist(M,M’)を算出してもよい。
次に、行移動検出部130は、上記数式2を用いて算出した重みw(M,M’)を用いて、重みが最大となる行削除操作Mmaxと、行編集操作または行挿入操作M’maxとの組み合わせを特定し、行削除操作Mmaxにマッチングする行編集操作または行挿入操作M’maxを特定する。このとき、行編集操作または行挿入操作M’maxとマッチングする行削除操作Mmaxの対象の行が移動元の行に該当し、当該行編集操作または行挿入操作M’maxの対象の行が移動先の行に該当する。
そして、マージ部132が、校正結果を校正前テキストに反映する。集合{D}912のいずれの行削除操作Mにもマッチングしない{E,I}922の行編集操作M’923,924が存在する場合には、当該行編集操作M’の対象である行の一部の文字が校正されたとみなし、マージ部132は、校正結果を校正前テキストに反映する。
また、集合{D}912のいずれの行削除操作Mにもマッチングしない集合{E,I}922の行挿入操作M’923,924が存在する場合には、当該行挿入操作M’の対象である行は校正時に意図せずに入力されたものとみなし、マージ部132は、当該行挿入操作を校正前テキストに反映させない。
さらに、集合{E,I}926のいずれの行編集操作または行挿入操作M’にもマッチングしない集合{D}914の行削除操作M915,916が存在する場合には、当該行削除操作Mの対象である行は、校正時にユーザが削除した行であるとみなし、マージ部132は、当該行を校正前テキストから削除する。
本発明では、上記数式2において、i,jが共に1以上の場合、すなわち、2番目以降の行に対する行削除操作Mと行編集操作または行挿入操作M’の重みw(M,M’)を算出する場合には、行削除操作Mが行われた行の直前の行L(i−1)と、行編集操作または行挿入操作M’が行われた行の直前の行L(j−1)の編集距離を考慮して重みw(M,M’)を算出する。したがって、直前の行の編集距離が小さい場合、すなわち、直前の行の文字列同士が類似する場合には、重みw(M,M’)の値が大きくなる。一方、直前の行の編集距離が大きい場合、すなわち、直前の行の文字列同士が類似しない場合には、重みw(M,M’)の値が小さくなる。
通常、OCR処理の読み取り順序は、段落等のブロック単位では正しいことが多い。本発明の情報処理装置100は、上述したように直前の行の編集距離を考慮して算出した行操作の重みw(M,M’)を用いて行操作のマッチングを判断するため、類似するテキストが同一ページ内に複数存在する場合でも、直前の行同士が類似する行が最もマッチングすると判断する。これにより、本発明では、OCR処理によるブロック単位の読み取り順序を優先して、校正されたテキストを出力情報にマージすることができ、マージ精度を向上させることができる。
本実施形態では、情報処理装置100は、上述したように直前の行の編集距離を考慮して算出した行操作の重みw(M,M’)を用いて行操作をマッチングするが、他の実施形態では、直後の行の編集距離を考慮して算出した行操作の重みw(M,M’)を用いて行操作をマッチングしてもよい。
図10は、図3に示すステップS303の校正漏れ検出処理を示すフローチャートである。図10の処理は、ステップS1000から開始し、ステップS1001で校正漏れ検出部134が、ユーザの校正作業によって校正されたテキストを特定し、校正されたテキストのうち校正頻度の高い頻出校正テキストを識別する。
より詳細には、校正漏れ検出部134は、行操作情報を使用して、校正後テキストから行編集操作対象の行のテキストを抽出する。校正漏れ検出部134は、出力情報を使用して、行編集操作対象の行のテキストに対応する校正前テキストの行のテキストを取得し、これらのテキストの編集距離を編集距離算出部126に算出させる。校正漏れ検出部134は、当該編集距離が大きいテキスト、すなわち、校正作業によって校正されたテキストを検出する。校正漏れ検出部134は、当該校正されたテキストの検出回数を計数し、当該回数が所定の閾値以上のテキストを頻出校正テキストとして識別する。
ステップS1002では、校正漏れ検出部134は、校正作業によって校正されていない未校正テキストを抽出する。具体的には、校正漏れ検出部134は、行編集操作対象の行のテキストと、これに対応する校正前テキストの行のテキストとの編集距離が小さいテキストを校正後テキストから抽出すると共に、行操作情報を使用して、校正後テキストから行編集操作対象でない行のテキストを抽出することにより、未校正テキストを抽出する。
ステップS1003では、校正漏れ検出部134は、ステップS1001で識別した頻出校正テキストから1の頻出校正テキストを取得する。ステップS1004では、校正漏れ検出部134は、出力情報に含まれる認識候補および確信度を使用して、ステップS1001で取得した校正されたテキストの特徴ベクトル、ステップS1002で抽出した総ての未校正テキストの特徴ベクトル、およびステップS1003で取得した頻出校正テキストの特徴ベクトルを算出する。
具体的には、例えば、OCR処理で文字「と」と認識されたテキストのうち、ユーザによって校正された頻出校正テキストと、未校正テキストの認識候補が(「あ」,「か」,「2」,「こ」,「さ」,「と」,「C」)である場合、これらのテキストの特徴ベクトルは、7次元のベクトルとなる。例えば、当該頻出校正テキストの認識候補の確信度が(「あ」:80,「と」:60,「C」:40)であるとき、当該頻出校正テキストの特徴ベクトルは、7次元ベクトル(80,0,0,0,0,60,40)となる。同様に、未校正テキストの特徴ベクトルも算出することができる。本実施形態では、非特許文献1に示す近似的に最近傍の特徴ベクトルを算出する方法を用いて、高次元の特徴ベクトルを算出することができる。
ステップS1005では、校正漏れ検出部134は、ステップS1004で算出した特徴ベクトルを使用して、未校正テキストの中から校正漏れの可能性のあるテキストを検出する。具体的には、校正漏れ検出部134は、頻出校正テキストの特徴ベクトルと、未校正テキストおよび校正されたテキストの特徴ベクトルを比較し、頻出校正テキストの特徴ベクトルと近似する特徴ベクトルを有する未校正テキストおよび校正されたテキストをk個(k:奇数の整数)選択する。そして、校正漏れ検出部134は、選択したテキストのうち未校正テキストよりも校正されたテキストの方が多い場合には、当該未校正テキストを校正漏れの可能性があるテキストとして検出する。
ステップS1006では、校正漏れ検出部134は、ステップS1001で識別した総ての頻出校正テキストについて、ステップS1003からステップS1005に示す処理を実行したか否か判断する。総ての頻出校正テキストについて当該処理を実行していない場合には(no)、処理をステップS1003に戻し、総ての頻出校正テキストについて当該処理を実行する。一方、総ての頻出校正テキストについて当該処理を実行した場合には(yes)、ステップS1007に分岐して処理が終了する。
図11は、本願発明を利用した文書校正の作業イメージを示す図である。原稿画像1100は、電子化すべき原稿の原稿画像である。UI(User Interface)1111は、当該原稿画像にOCR処理を施して生成されたテキストを校正するエディタのUIである。エディタは、任意の文書作成ソフトである。このため、ユーザは、使い慣れたエディタで校正作業をすることができ、作業効率を向上させることができる。また、当該エディタが有するスペルチェック機能や文法チェック機能を利用することにより、より一層作業効率を高めることができる。
図12は、電子化すべき原稿と当該原稿にOCR処理を施して生成されるドキュメントファイルの一実施形態を示す図である。
原稿1200は、電子化すべき原稿である。原稿1200には、OCR処理の読み取り順序が矢印で示されている。ドキュメントファイル1210は、原稿1200にOCR処理を施して得られた出力情報から生成される校正前のドキュメントファイルである。ドキュメントファイル1210は、当該矢印が示すOCR処理の読み取り順序でテキストが構成されている。
図13は、図12に示すドキュメントファイル1210を校正した後のドキュメントファイルと、これらのファイルの差分を示す図である。
原稿1300は、図12に示す原稿1200と同一の電子化すべき原稿である。ドキュメントファイル1310は、ユーザがドキュメントファイル1210を校正することによって生成されたファイルである。ドキュメントファイル1210では、ユーザの校正作業によって、テキストの配置が行単位で変更されており、OCR処理の読み取り順序が、図12に示す原稿1200の矢印が示す順序から、原稿1300の矢印が示す順序に変更されている。
差分1320は、校正前のドキュメントファイル1210と、校正後のドキュメントファイル1310との差分である。本実施形態では、校正作業によって、文字「陽」が文字「隔」1322に編集され、文字列「猪の音」が「猛の者」1324に編集されている。マージ部132は、出力情報の校正前テキストに含まれる当該文字「陽」を文字「隔」に変更し、当該文字列「猪の音」を文字列「猛の者」に変更する。
また、校正作業によって、文字列「2竹取翁の物語」から成る行1326が削除されると共に、当該文字列から成る行1328が挿入されている。当該削除操作と当該挿入操作は対応しているため、マージ部132は、校正後のドキュメントファイル1310の挿入位置1312に対応する出力情報の校正前テキストの位置に当該文字列を挿入する。
図14は、電子化すべき原稿と当該原稿にOCR処理を施して生成されるドキュメントの別の実施形態を示す図である。
原稿1400は、電子化すべき原稿である。原稿1400には、OCR処理の読み取り順序が矢印で示されている。ドキュメントファイル1410は、原稿1400にOCR処理を施して得られた出力情報から生成される校正前のドキュメントファイルである。ドキュメントファイル1410は、当該矢印が示すOCR処理の読み取り順序でテキストが構成されている。
図15は、図14に示すドキュメントファイル1410を校正した後のドキュメントファイルと、これらのファイルの差分を示す図である。
原稿1500は、図14に示す原稿1400と同一の電子化すべき原稿である。ドキュメントファイル1510は、ユーザがドキュメントファイル1410を校正することによって生成されたファイルである。ドキュメントファイル1410では、ユーザの校正作業によって、テキストの配置が行単位で変更されており、OCR処理の読み取り順序が、図14に示す原稿1400の矢印が示す順序から、原稿1500の矢印が示す順序に変更されている。
差分1520は、校正前のドキュメントファイル1410と、校正後のドキュメントファイル1510との差分である。本実施形態では、ユーザの校正作業によって、文字列「Political Bands which have connected them with another,」から成る行1522が削除されると共に、当該文字列から成る行1524が挿入されている。当該削除操作と当該挿入操作は対応しているため、マージ部132は、校正後のドキュメントファイル1510の挿入位置1512に対応する出力情報の校正前テキストの位置に当該文字列を挿入する。
図16は、電子化すべき原稿と当該原稿にOCR処理を施して生成されるドキュメントの他の実施形態を示す図である。
原稿1600は、電子化すべき原稿である。原稿1600には、OCR処理の読み取り順序が矢印で示されている。ドキュメントファイル1610は、原稿1600にOCR処理を施して得られた出力情報から生成される校正前のドキュメントファイルである。ドキュメントファイル1610は、当該矢印が示すOCR処理の読み取り順序でテキストが構成されている。
図17は、図16に示すドキュメントファイル1610を校正した後のドキュメントファイルと、これらのファイルの差分を示す図である。
原稿1700は、図16に示す原稿1600と同一の電子化すべき原稿である。ドキュメントファイル1710は、ユーザがドキュメントファイル1610を校正することによって生成されたファイルである。ドキュメントファイル1710では、ユーザの校正作業によって、テキストの配置が行単位で変更されており、OCR処理の読み取り順序が、図16に示す原稿1600の矢印が示す順序から、原稿1700の矢印が示す順序に変更されている。
差分1720は、校正前のドキュメントファイル1610と、校正後のドキュメントファイル1710との差分である。本実施形態では、ユーザの校正作業によって、文字列「第三十三回芥川賞作品「白い人」は、」から成る行1721が削除されると共に、当該文字列から成る行1722が挿入されている。当該削除操作と当該挿入操作は対応しているため、マージ部132は、校正後のドキュメントファイル1710の挿入位置1712に対応する出力情報の校正前テキストの位置に当該文字列を挿入する。
図18は、電子化すべき原稿と当該原稿にOCR処理を施して生成されるドキュメントの他の実施形態を示す図である。
原稿1800は、電子化すべき原稿である。原稿1800には、OCR処理の読み取り順序が矢印で示されている。テキスト1810は、原稿1800にOCR処理を施して得られた出力情報から生成される校正前のドキュメントファイルである。ドキュメントファイル1810は、当該矢印が示すOCR処理の読み取り順序でテキストが構成されている。
図19は、図18に示すドキュメントファイル1810を校正した後のドキュメントファイルと、これらのファイルの差分を示す図である。
原稿1900は、図18に示す原稿1800と同一の電子化すべき原稿である。ドキュメントファイル1910は、ユーザがドキュメントファイル1810を校正することによって生成されたファイルである。ドキュメントファイル1810では、ユーザの校正作業によって、テキストの配置が行単位で変更されており、OCR処理の読み取り順序が、図18に示す原稿1800の矢印が示す順序から、原稿1900の矢印が示す順序に変更されている。
差分1920は、校正前のドキュメントファイル1810と、校正後のドキュメントファイル1910との差分である。本実施形態では、ユーザの校正作業によって、文字または文字列1921〜1930が削除されている。当該削除操作に対応する挿入操作は存在しないため、マージ部132は、校正前テキストから当該文字または文字列を削除する。
また、ユーザの校正作業によって、文字列「94O0−」から成る行1931が削除されると共に、当該文字列を編集した文字列「−40−」から成る行1932が挿入されている。当該削除操作と当該挿入操作は対応しているため、マージ部132は、校正後のドキュメントファイル1910の挿入位置1912に対応する出力情報の校正前テキストの位置に当該文字列を挿入する。
さらに、ユーザの校正作業によって、ドキュメントファイル1920に示すように、取り消し線が示す他の文字が、これに対応する下線が示す文字に編集されている。マージ部132は、校正前テキストに含まれる当該文字を変更する。
これまで本実施形態につき説明してきたが、本発明は、上述した実施形態に限定されるものではなく、当該実施形態の機能手段の変更や削除、他の機能手段の追加など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
本発明は、種々の原稿の電子化に利用することができ、特に、国立国会図書館の電子化プロジェクトや欧州の電子化プロジェクト、豪州の新聞電子化プロジェクト等の膨大な文書量を校正する必要がある大規模な電子化プロジェクトに有用である。
100…情報処理装置、110…OCR処理部、112…ファイル生成部、114…エディタ、116,118,120…記憶装置、122…マージ制御部、124…ページ区切り検出部、126…編集距離算出部、128…行区切り検出部、130…行移動検出部、132…マージ部、134…校正漏れ検出部

Claims (7)

  1. 文章を校正する情報処理装置であって、
    原稿画像にOCR処理を施して得られた出力情報であって、該OCR処理のテキストの読み取り順序に従って配置された該原稿画像の行のレイアウト情報と該行の構成要素であるテキストを含む出力情報を格納する第1格納部と、
    前記出力情報に含まれる前記行の構成要素であるテキストを前記読み取り順序に従って配置して生成されたドキュメントファイルであって、ユーザにより校正された校正済みドキュメントファイルを格納する第2格納部と、
    前記出力情報に含まれる前記行の構成要素であるテキストと、前記校正済みドキュメントファイルに含まれるテキストとの編集距離が最小となるテキスト領域を1つの行領域として特定することによって行の区切りを検出する行区切り検出部と、
    前記出力情報に含まれるテキストと前記校正済みドキュメントファイルに含まれるテキストとの編集距離を、前記行区切り検出部が検出した行の区切りが形成する行単位で算出し、算出した編集距離が最小となるパスにおけるユーザの校正作業による行操作の種類、該行操作の対象である前記出力情報に含まれるテキストの行番号および該行操作の対象である前記校正済みドキュメントファイルに含まれるテキストの行番号を示す行操作情報であって、該行操作の種類は、行を削除する行削除操作、行の構成要素であるテキストを置換する行編集操作および行を挿入する行挿入操作である、行操作情報を生成する、編集距離算出部と、
    前記ユーザが前記ドキュメントファイルに対して行った校正による前記ドキュメントファイルに含まれるテキストで構成された行の移動を検出する行移動検出部と、
    前記ドキュメントファイルに対する校正の結果を前記出力情報に反映するマージ部とを備え、
    前記行移動検出部は、
    前記行削除操作の対象である行の構成要素であるテキストと、前記行挿入操作または前記行編集操作の対象である行の構成要素であるテキストとの編集距離を用いて、前記行削除操作と前記行挿入操作または前記行編集操作とのマッチングの程度を示す重みを算出し、前記重みが最大となる前記行削除操作と前記行挿入操作または前記行編集操作の組み合わせを行の移動操作として特定し、
    前記マージ部は、
    前記行移動検出部が前記行削除操作と前記行挿入操作または前記行編集操作の組み合わせを行の移動操作として特定した場合に、前記行操作情報を使用して、前記出力情報に含まれる該行削除操作の対象である行の構成要素であるテキストを特定し、特定した該テキストを、該出力情報内の該行挿入操作または該行編集操作の対象である行の位置に移動する、
    情報処理装置。
  2. 前記行移動検出部は、
    前記行削除操作の対象である前記出力情報の行の構成要素であるテキストと、前記行挿入操作または行編集操作の対象である前記ドキュメントファイルの行の構成要素であるテキストとの編集距離と、
    前記出力情報の行に隣接する行の構成要素であるテキストと、前記ドキュメントファイルの行に隣接する行の構成要素であるテキストとの編集距離とを用いて、前記重みを算出する、請求項1に記載の情報処理装置。
  3. 前記情報処理装置は、
    校正頻度の高い頻出校正テキストと未校正のテキストとを抽出し、
    前記頻出校正テキストの特徴ベクトルと、前記未校正のテキストの特徴ベクトルとを算出し、
    前記頻出校正テキストの特徴ベクトルと近似する特徴ベクトルを有する未校正のテキストを、校正漏れの可能性があるテキストとして検出する校正漏れ検出部をさらに含む、請求項1に記載の情報処理装置。
  4. 文章を校正する情報処理装置が実行する方法であって、前記方法は、前記情報処理装置が、
    原稿画像にOCR処理を施して得られた出力情報であって、該OCR処理のテキストの読み取り順序に従って配置された該原稿画像の行の構成要素であるテキストを含む出力情報から、該行の構成要素であるテキストを該読み取り順序に従って配置したドキュメントファイルを生成するステップと、
    前記出力情報に含まれる前記行の構成要素であるテキストと、ユーザにより校正された校正済みドキュメントファイルに含まれるテキストとの編集距離が最小となるテキスト領域を1つの行領域として特定することによって行の区切りを検出するステップと、
    前記出力情報に含まれるテキストと前記校正済みドキュメントファイルに含まれるテキストとの編集距離を、前記行の区切りが形成する行単位で算出し、算出した編集距離が最小となるパスにおけるユーザの校正作業による行操作の種類、該行操作の対象である前記出力情報に含まれるテキストの行番号および該行操作の対象である前記校正済みドキュメントファイルに含まれるテキストの行番号を示す行操作情報であって、該行操作の種類は、行を削除する行削除操作、行の構成要素であるテキストを置換する行編集操作および行を挿入する行挿入操作である、行操作情報を生成するステップと、
    ユーザが前記ドキュメントファイルに対して行った校正による前記ドキュメントファイルに含まれるテキストで構成された行の移動を検出するステップと、
    前記ドキュメントファイルに対する校正の結果を前記出力情報に反映するステップとを含み、
    前記行の移動を検出するステップは、
    前記行削除操作の対象である行の構成要素であるテキストと、前記行挿入操作または前記行編集操作の対象である行の構成要素であるテキストとの編集距離を用いて、前記行削除操作と前記行挿入操作または前記行編集操作とのマッチングの程度を示す重みを算出するステップと、
    前記重みが最大となる前記行削除操作と前記行挿入操作または前記行編集操作の組み合わせを行の移動操作として特定するステップとを含み、
    前記反映するステップは、
    前記行削除操作と前記行挿入操作または前記行編集操作の組み合わせを行の移動操作として特定した場合に、前記行操作情報を使用して、前記出力情報に含まれる該行削除操作の対象である行の構成要素であるテキストを特定し、特定した該テキストを、該出力情報内の該行挿入操作または該行編集操作の対象である行の位置に移動するステップを含む、方法。
  5. 前記行の移動を検出するステップは、
    前記行削除操作の対象である前記出力情報の行の構成要素であるテキストと、前記行挿入操作または行編集操作の対象である前記ドキュメントファイルの行の構成要素であるテキストとの編集距離と、
    前記出力情報の行に隣接する行の構成要素であるテキストと、前記ドキュメントファイルの行に隣接する行の構成要素であるテキストとの編集距離とを用いて、前記重みを算出するステップを含む、請求項に記載の方法。
  6. 前記方法は、前記情報処理装置が、
    校正頻度の高い頻出校正テキストと未校正のテキストとを抽出するステップと、
    前記頻出校正テキストの特徴ベクトルと、前記未校正のテキストの特徴ベクトルとを算出するステップと、
    前記頻出校正テキストの特徴ベクトルと近似する特徴ベクトルを有する未校正のテキストを、校正漏れの可能性があるテキストとして検出するステップと
    をさらに含む、請求項に記載の方法。
  7. 文章を校正する情報処理装置が実行する方法を、前記情報処理装置が実行するためのプログラムであって、前記プログラムは、前記情報処理装置が、
    原稿画像にOCR処理を施して得られた出力情報であって、該OCR処理のテキストの読み取り順序に従って配置された該原稿画像の行の構成要素であるテキストを含む出力情報から、該行の構成要素であるテキストを該読み取り順序に従って配置したドキュメントファイルを生成するステップと、
    前記出力情報に含まれる前記行の構成要素であるテキストと、ユーザにより校正された校正済みドキュメントファイルに含まれるテキストとの編集距離が最小となるテキスト領域を1つの行領域として特定することによって行の区切りを検出するステップと、
    前記出力情報に含まれるテキストと前記校正済みドキュメントファイルに含まれるテキストとの編集距離を、前記行の区切りが形成する行単位で算出し、算出した編集距離が最小となるパスにおけるユーザの校正作業による行操作の種類、該行操作の対象である前記出力情報に含まれるテキストの行番号および該行操作の対象である前記校正済みドキュメントファイルに含まれるテキストの行番号を示す行操作情報であって、該行操作の種類は、行を削除する行削除操作、行の構成要素であるテキストを置換する行編集操作および行を挿入する行挿入操作である、行操作情報を生成するステップと、
    ユーザが前記ドキュメントファイルに対して行った校正による前記ドキュメントファイルに含まれるテキストで構成された行の移動を検出するステップと、
    前記ドキュメントファイルに対する校正の結果を前記出力情報に反映するステップとを
    実行するための装置実行可能なプログラムであって、
    前記行の移動を検出するステップは、
    前記行削除操作の対象である行の構成要素であるテキストと、前記行挿入操作または前記行編集操作の対象である行の構成要素であるテキストとの編集距離を用いて、前記行削除操作と前記行挿入操作または前記行編集操作とのマッチングの程度を示す重みを算出するステップと、
    前記重みが最大となる前記行削除操作と前記行挿入操作または前記行編集操作の組み合わせを行の移動操作として特定するステップとを含み、
    前記反映するステップは、
    前記行削除操作と前記行挿入操作または前記行編集操作の組み合わせを行の移動操作として特定した場合に、前記行操作情報を使用して、前記出力情報に含まれる該行削除操作の対象である行の構成要素であるテキストを特定し、特定した該テキストを、該出力情報内の該行挿入操作または該行編集操作の対象である行の位置に移動するステップを含む、プログラム。
JP2012049519A 2012-03-06 2012-03-06 文書を校正する情報処理装置、方法およびプログラム Active JP5833956B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012049519A JP5833956B2 (ja) 2012-03-06 2012-03-06 文書を校正する情報処理装置、方法およびプログラム
CN201310069423.4A CN103324926B (zh) 2012-03-06 2013-03-05 用于文档校对的信息处理器和方法
US13/784,897 US8908999B2 (en) 2012-03-06 2013-03-05 Information processor, method, and program for document proofreading

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012049519A JP5833956B2 (ja) 2012-03-06 2012-03-06 文書を校正する情報処理装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2013186568A JP2013186568A (ja) 2013-09-19
JP5833956B2 true JP5833956B2 (ja) 2015-12-16

Family

ID=49157691

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012049519A Active JP5833956B2 (ja) 2012-03-06 2012-03-06 文書を校正する情報処理装置、方法およびプログラム

Country Status (3)

Country Link
US (1) US8908999B2 (ja)
JP (1) JP5833956B2 (ja)
CN (1) CN103324926B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156766B (zh) 2015-03-25 2020-02-18 阿里巴巴集团控股有限公司 文本行分类器的生成方法及装置
US10296788B1 (en) * 2016-12-19 2019-05-21 Matrox Electronic Systems Ltd. Method and system for processing candidate strings detected in an image to identify a match of a model string in the image
RU2657181C1 (ru) * 2017-09-01 2018-06-08 Общество с ограниченной ответственностью "Аби Продакшн" Способ улучшения качества распознавания отдельного кадра
JP7031465B2 (ja) * 2018-04-18 2022-03-08 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
CN108734110B (zh) * 2018-04-24 2022-08-09 达而观信息科技(上海)有限公司 基于最长公共子序列的文本段落识别对比方法及系统
CN108921103B (zh) * 2018-07-05 2019-04-16 掌阅科技股份有限公司 用于校对的标记同步方法、计算设备及计算机存储介质
CN109857302B (zh) * 2019-01-29 2020-01-21 掌阅科技股份有限公司 电子书信息的修复方法、电子设备及计算机存储介质
CN111159982B (zh) * 2019-12-24 2023-05-16 中信银行股份有限公司 文档编辑方法、装置、电子设备及计算机可读存储介质
US11367296B2 (en) * 2020-07-13 2022-06-21 NextVPU (Shanghai) Co., Ltd. Layout analysis
CN112668301A (zh) * 2020-10-30 2021-04-16 生态环境部环境工程评估中心 一种环评文件重复度检测方法及系统
US11853688B2 (en) * 2022-03-04 2023-12-26 Adobe Inc. Automatic detection and removal of typesetting errors in electronic documents

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01222368A (ja) * 1988-02-29 1989-09-05 Photo Composing Mach Mfg Co Ltd 入力編集方法
US8074184B2 (en) * 2003-11-07 2011-12-06 Mocrosoft Corporation Modifying electronic documents with recognized content or other associated data
KR101443404B1 (ko) * 2006-09-15 2014-10-02 구글 인코포레이티드 페이퍼 및 전자 문서내의 주석의 캡처 및 디스플레이
US8290270B2 (en) * 2006-10-13 2012-10-16 Syscom, Inc. Method and system for converting image text documents in bit-mapped formats to searchable text and for searching the searchable text
JP5134383B2 (ja) 2008-01-29 2013-01-30 株式会社日立製作所 Ocr装置、証跡管理装置及び証跡管理システム
KR100992858B1 (ko) * 2008-12-30 2010-11-09 엔에이치엔(주) Ocr 결과를 보정하기 위한 방법, 시스템 및 컴퓨터 판독가능한 기록 매체
CN101887519B (zh) * 2010-08-16 2012-04-18 同方知网(北京)技术有限公司 文字识别、编改的方法

Also Published As

Publication number Publication date
US8908999B2 (en) 2014-12-09
US20130243263A1 (en) 2013-09-19
CN103324926A (zh) 2013-09-25
JP2013186568A (ja) 2013-09-19
CN103324926B (zh) 2016-04-13

Similar Documents

Publication Publication Date Title
JP5833956B2 (ja) 文書を校正する情報処理装置、方法およびプログラム
US9135249B2 (en) Number sequences detection systems and methods
US6581034B1 (en) Phonetic distance calculation method for similarity comparison between phonetic transcriptions of foreign words
US8225200B2 (en) Extracting a character string from a document and partitioning the character string into words by inserting space characters where appropriate
JP4682284B2 (ja) 文書差分検出装置
US20180267956A1 (en) Identification of reading order text segments with a probabilistic language model
US20060285746A1 (en) Computer assisted document analysis
CN102592299B (zh) 文件生成装置和文件生成方法
AU2018226399A1 (en) Detecting style breaches in multi-author content or collaborative writing
JP2007058605A (ja) 文書管理システム
JP2011065646A (ja) 文字列認識装置及び文字列認識方法
WO2019153979A1 (zh) 文本翻译方法、装置、计算机设备和存储介质
US10534846B1 (en) Page stream segmentation
EP2138959A1 (en) Word recognizing method and word recognizing program
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
CN111460789B (zh) 基于字符嵌入的lstm分句方法、系统及介质
JP4983526B2 (ja) データ処理装置及びデータ処理プログラム
US20090063127A1 (en) Apparatus, method, and computer program product for creating data for learning word translation
US11907656B2 (en) Machine based expansion of contractions in text in digital media
US8977538B2 (en) Constructing and analyzing a word graph
JP3943582B2 (ja) 対訳文対応付け装置
US20210019554A1 (en) Information processing device and information processing method
Chowdhury et al. Implementation of an optical character reader (ocr) for bengali language
CN113723082A (zh) 从文本中检测中文拼音的方法和装置
JP5795302B2 (ja) 形態素解析装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150508

TRDD Decision of grant or rejection written
RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20151006

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151030

R150 Certificate of patent or registration of utility model

Ref document number: 5833956

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150