JP5833956B2

JP5833956B2 - 文書を校正する情報処理装置、方法およびプログラム

Info

Publication number: JP5833956B2
Application number: JP2012049519A
Authority: JP
Inventors: 辰也石原; ▲高▼木　啓伸; 啓伸 ▲高▼木
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-03-06
Filing date: 2012-03-06
Publication date: 2015-12-16
Anticipated expiration: 2032-03-06
Also published as: US8908999B2; US20130243263A1; CN103324926A; JP2013186568A; CN103324926B

Description

本発明は、文書の校正技術に関し、より詳細には、原稿画像にＯＣＲ処理を施して生成された電子化文書を校正する情報処理装置、方法およびプログラムに関する。

昨今、文化の保存を目的として古い書籍の電子化の必要性が増加しており、国立国会図書館の電子化プロジェクトやＥＵのＩＭＰＡＣＴプロジェクトなどの電子化プロジェクトが行われている。

このような大規模な電子化プロジェクトでは、取り扱う蔵書数が膨大であるため、書籍をＯＣＲ（Optical Character Recognition）処理して作成された原稿画像の文字校正を効率的に行うことが求められている。

特開２００９−１８１２２５号公報

Mayur Datar, Nicole Immorlica, Piotr Indyk, and Vahab S. Mirrokni.2004.Locality-sensitive hashing scheme based on p-stable distributions. In Proceedings of the twentieth annual symposium on Computational geometry(SCG'04).ACM,NewYork,NY,USA,253-262.

従来、特許文献１が示すＯＣＲ装置のように、ＯＣＲソフトに付属している校正ソフトウェアを用いて原稿画像の校正が行われている。しかながら、このような校正ソフトウェアは、ベンダーが開発した独自のインタフェースを採用するため、原稿画像の校正を行うユーザが、そのインタフェースに慣れるまでに時間を要することがある。また、これらの校正ソフトウェアの多くは、スペルチェックや文法チェック等の機能を有していないため、作業効率が悪いという問題があった。

このような問題を解決するために、ＭｉｃｒｏｓｏｆｔＷｏｒｄ（登録商標）等の汎用の文書作成ソフトに原稿画像のテキストをコピーして校正を行う方法も考えられるが、この方法では、文字情報以外のＯＣＲの出力情報、例えば、文字の認識候補や文字や図の位置情報等が失われてしまう。これを回避するために、ＯＣＲの出力情報をテキストに変換して汎用の文書作成ソフトで校正した結果を、ＯＣＲの出力情報とマージする方法が考えられるが、原稿画像の校正時にテキストの配置位置が変更され、ＯＣＲ処理の読み取り順序が修正された場合には、正確に反映することができず、校正精度が低くなるという問題がある。また、ＯＣＲ処理の文字認識精度が低く、校正すべき文字が多い場合も、校正漏れが起こる可能性が高くなり、校正精度が低くなるという問題がある。

本発明は上記の課題を解決するものであり、ユーザの校正作業によってテキストの配置位置が変更された場合でも、校正の結果をＯＣＲ処理の出力情報に正確に反映すると共に、ユーザによる校正漏れを検出して校正精度を向上させる情報処理装置、方法およびプログラムを提供することを目的とする。

すなわち、本発明によれば、原稿画像にＯＣＲ処理を施して得られたテキストおよびテキストの位置を規定する情報を含む出力情報から、ＯＣＲ処理のテキストの読み取り順序に従ってテキストを配置したドキュメントファイルを生成し、ユーザがドキュメントファイルに対して行った校正による行の移動の有無を検出し、行の移動を検出した場合に、移動された行の移動先を示すテキストの位置を規定する情報に従って、出力情報に含まれる当該行の構成要素であるテキストを移動して、ドキュメントファイルに対する校正の結果を出力情報に反映する情報処理装置、方法およびプログラムを提供することができる。

また、本発明によれば、校正頻度の高い頻出校正文字と未校正の文字とを抽出し、頻出校正文字の特徴ベクトルと、未校正の文字の特徴ベクトルとを算出し、頻出校正文字の特徴ベクトルと近似する特徴ベクトルを有する未校正の文字を、校正漏れの可能性がある文字として検出する情報処理装置、方法およびプログラムを提供することができる。

本発明は上記構成を採用することにより、ユーザの校正作業によってテキストの配置位置が変更された場合でも、校正の結果をＯＣＲの出力情報にマージすることができると共に、ユーザによる校正漏れを検出することができる。

本発明の情報処理装置の機能構成を示す図。本発明の情報処理装置がＯＣＲ処理によって生成する出力情報の一実施形態を示す図。本発明の情報処理装置が実行する処理を示すフローチャート。図３に示すステップＳ３０２の処理を示すフローチャート。図４に示すステップＳ４０１の処理を示すフローチャート。本発明の情報処理装置が実行する文字単位の編集距離の算出方法を示す概念図。本発明の情報処理装置が実行する行区切り検出方法を示す概念図。本発明の情報処理装置が実行する行単位の編集距離の算出方法を示す概念図。本発明の情報処理装置が実行する行の移動操作の検出方法を示す概念図。図３に示すステップＳ３０３の校正漏れ検出処理を示すフローチャート。本願発明を利用した文書校正の作業イメージを示す図。電子化すべき原稿と当該原稿にＯＣＲ処理を施して生成されるドキュメントの一実施形態を示す図。図１２に示すドキュメントファイルを校正した後のドキュメントファイルと、これらのファイルの差分を示す図。電子化すべき原稿と当該原稿にＯＣＲ処理を施して生成されるドキュメントの別の実施形態を示す図。図１４に示すドキュメントファイルを校正した後のドキュメントファイルと、これらのファイルの差分を示す図。電子化すべき原稿と当該原稿にＯＣＲ処理を施して生成されるドキュメントの他の実施形態を示す図。図１６に示すドキュメントファイルを校正した後のドキュメントファイルと、これらのファイルの差分を示す図。電子化すべき原稿と当該原稿にＯＣＲ処理を施して生成されるドキュメントの他の実施形態を示す図。図１８に示すドキュメントファイルを校正した後のドキュメントファイルと、これらのファイルの差分を示す図。

以下、本発明について実施形態をもって説明するが、本発明は、後述する実施形態に限定されるものではない。図１は、本発明の情報処理装置の機能構成を示す図である。以下、図１を参照して、情報処理装置１００の機能構成について説明する。

情報処理装置１００は、ユーザの指示に従って文章を校正する情報処理装置である。情報処理装置１００は、Ｗｉｎｄｏｗｓ（登録商標）７、ＷｉｎｄｏｗｓＶｉｓｔａ（登録商標）、ＷｉｎｄｏｗｓＸＰ（登録商標）等のＷｉｎｄｏｗｓシリーズ、ＭａｃＯＳ（登録商標）、ＵＮＩＸ（登録商標）、ＬＩＮＵＸ（登録商標）、ＧｏｏｇｌｅＣｈｒｏｍｅＯＳなどのＯＳの管理下で、アセンブラ、Ｃ、Ｃ＋＋、Ｊａｖａ（登録商標）、ＪａｖａＳｃｒｉｐｔ（登録商標）、ＰＥＲＬ、ＰＨＰ、ＲＵＢＹ、ＰＹＴＨＯＮなどのプログラム言語で記述された本発明のプログラムを実行する。

情報処理装置１００は、本発明のプログラムを実行するための実行空間を提供するＲＡＭ、プログラムやデータなどを持続的に保持するためのハードディスク装置（ＨＤＤ）やフラッシュメモリなどの記憶装置を含んでおり、本発明のプログラムを実行することにより、後述する本実施形態の各機能を情報処理装置１００上に実現する。本実施形態の各機能部は、上述したプログラミング言語などで記述された装置実行可能なプログラムにより実現できる。

情報処理装置１００は、ＯＣＲ処理部１１０と、ファイル生成部１１２と、エディタ１１４と、記憶装置１１６，１１８，１２０とを含んでいる。

ＯＣＲ処理部１１０は、種々の文字や数字、記号等の文字情報であるテキストが印刷された原稿をスキャンして生成された原稿画像にＯＣＲ処理を施して出力情報を生成する機能部である。ＯＣＲ処理部１１０は、記憶装置１１６から原稿画像を取得し、当該原稿画像に含まれるテキスト領域を認識し、当該テキスト領域に含まれるテキストの候補（以下、「認識候補」とする。）および当該認識候補の確信度を算出して出力情報を生成し、記憶装置１１８に保存する。出力情報には、原稿画像のレイアウト情報、当該原稿画像の行のレイアウト情報、当該行の構成要素であるテキスト、認識候補、認識候補の確信度等が含まれる。本実施形態では、出力情報のフォーマットとして、図２に示すようなＸＭＬフォーマットの１つであるＡＬＴＯ（The Analyzed Layout and Text Object）を採用する。他の実施形態では、出力情報のフォーマットとして、任意のマークアップ言語のフォーマットを採用することができる。

出力情報２００には、レイアウト情報２１０と、レイアウト情報２２０と、テキスト情報２２２と、認識候補２３０および確信度２３２とが含まれている。

レイアウト情報２１０は、原稿画像のページのレイアウトを規定する情報である。レイアウト情報２１０には、ページの識別情報やページサイズ、マージン、プリント位置等が含まれる。

レイアウト情報２２０は、当該原稿画像に含まれる行のレイアウトを規定する情報である。レイアウト情報２２０には、原稿画像の行の識別情報やサイズ等が含まれる。

テキスト情報２２２は、ＯＣＲ処理によって生成されたテキストを示す情報である。図２に示す実施形態では、テキスト情報２２２が示す文字列「本令」が、レイアウト情報２２０が示す行の構成要素であり、レイアウト情報２２０が示す行の領域に文字列「本令」が表示される。出力情報２００では、ＯＣＲ処理のテキストの読み取り順序に従って、行を規定するレイアウト情報２２０と、当該行の構成要素であるテキスト情報２２２とが生成される。すなわち、レイアウト情報２２０、テキスト情報２２２、これらの配置順序が、テキスト情報２２２が示すテキストの位置を規定する。

認識候補２３０は、ＯＣＲ処理でテキスト情報２２２が示すテキストの認識候補（ＶＳ）として挙げられたテキストである。確信度２３２は、当該認識候補の確信度（ＶＣ）である。

ファイル生成部１１２は、校正対象のドキュメントファイルを生成する機能部である。ファイル生成部１１２は、記憶装置１１８から出力情報を取得し、エディタ１１４が処理可能なドキュメントファイルを生成する。ドキュメントファイルは、ページの区切りを規定するページ区切り情報をメタ情報として有しており、原稿画像と同一のページ単位でページが構成される。また、ドキュメントファイルは、ＯＣＲ処理による原稿画像のテキストの読み取り順序に従って、確信度の最も高い認識候補であるテキストが配置される。

エディタ１１４は、ファイル生成部１１２が生成したドキュメントファイルを編集するＭｉｃｒｏｓｏｆｔＷｏｒｄ（登録商標）やＯｐｅｎＯｆｆｉｃｅ等の種々の文書作成ソフトである。エディタ１１４は、ドキュメントファイルを情報処理装置１００の表示装置（図示せず）に表示し、校正者であるユーザの指示に基づいて、ドキュメントファイルに含まれるテキストの削除や移動、編集、挿入等を行う。エディタ１１４は、校正されたドキュメントファイルを記憶装置１２０に保存する。なお、校正者であるユーザは、ドキュメントファイルのページ区切りを校正しないものとする。

マージ制御部１２２は、ユーザがドキュメントファイルに対して行った校正作業の内容を出力情報に反映するマージ処理の全体制御を行う機能部である。マージ制御部１２２は、後述する機能部を適宜呼び出してマージ処理を実行する。

ページ区切り検出部１２４は、ドキュメントファイルのページの区切りを検出する機能部である。ページ区切り検出部１２４は、記憶装置１２０に保存された校正済みのドキュメントファイルのページ区切り情報を使用して、ドキュメントファイルのページの区切りを検出する。

編集距離算出部１２６は、テキストの類似度を示す編集距離を算出する機能部である。編集距離算出部１２６は、記憶装置１１８に保存された出力情報と、記憶装置１２０に保存された校正済みのドキュメントファイルとを用いて、出力情報に含まれるテキスト（以下、「校正前テキスト」とする。）と、校正されたドキュメントファイルに含まれるテキスト（以下、「校正後テキスト」とする。）との編集距離を、文字単位および行単位で算出する。編集距離算出部１２６は、行単位で編集距離を算出する際に、校正作業による行操作の有無を示す情報、当該行操作の種類を示す情報、当該行操作の対象である校正前テキストの行番号を示す情報、当該行操作の対象である校正後テキストの行番号を示す情報（以下、「行操作情報」とする。）を生成する。なお、編集距離の算出方法については、図６および図８を参照して詳細に説明する。

行区切り検出部１２８は、校正されたドキュメントファイルの行の区切りを検出する機能部である。行区切り検出部１２８は、記憶装置１１８に保存された出力情報と、記憶装置１２０に保存された校正済みのドキュメントファイルとを用いて、当該ドキュメントファイルの行の区切りをページ毎に検出する。なお、当該検出方法については、図５および図７を参照して詳細に説明する。

行移動検出部１３０は、ユーザがドキュメントファイルに対して行った行操作を、行を削除する行削除操作と、行の構成要素であるテキストを置換する行編集操作または行を挿入する行挿入操作に分類し、これらの行操作のマッチングを調べることにより、ユーザの校正作業による行の移動を検出する機能部である。

具体的には、行移動検出部１３０は、編集距離算出部１２６が生成する行操作情報を用いて、ユーザによる行操作を、行削除操作の集合と行挿入・行編集操作の集合とから成る完全２部グラフを導出する。行移動検出部１３０は、当該完全２部グラフの行削除操作の集合の構成要素と、行挿入・行編集操作の集合の構成要素との間のマッチングの程度を示す重みを算出する。

行移動検出部１３０は、完全２部グラフの最大重みマッチングを算出し、マッチングのとれた組み合わせを行の移動操作とする。このとき、最もマッチングする行操作のうちの行削除操作の対象である行が移動元の行に相当し、当該行操作のうちの行編集または行挿入の対象である行が移動先の行に相当する。

マージ部１３２は、ユーザがドキュメントファイルに対して行った校正の結果を出力情報に反映する機能部である。具体的には、校正作業によってドキュメントファイルのテキストが削除された場合、マージ部１３２は、編集距離算出部１２６が生成した行操作情報を使用して、削除されたテキストに対応する出力情報のテキストを特定し、当該テキストを削除する。また、校正作業によってドキュメントファイルのテキストが編集された場合には、すなわち、テキストが置換された場合には、マージ部１３２は、行操作情報を使用して、当該編集されたテキストに対応する出力情報のテキストを特定し、当該編集されたテキストに変更する。さらに、校正作業によってドキュメントファイルのテキストが移動された場合には、マージ部１３２は、行操作情報を使用して、当該テキストに対応する出力情報のテキストを特定し、当該出力情報のテキストを移動先に移動する。当該移動先は、後述する行操作の重みｗを算出する際に算出すべき編集距離Ｅｄｉｔ（）のパラメータである校正前テキストの行番号ｉと校正後テキストの行番号ｊによって特定することができる。

校正漏れ検出部１３４は、校正漏れの可能性の文字を検出する機能部である。校正漏れ検出部１３４は、校正されなかった文字の特徴ベクトルと、校正された文字の特徴ベクトルとを算出し、校正されなかった文字のうち校正された文字と特徴ベクトルが近い文字を、校正漏れの可能性がある文字として検出する。なお、校正漏れ文字の検出方法については、図１０を参照して詳細に説明する。

図３は、本発明の情報処理装置が実行する処理を示すフローチャートである。以下、図３を参照して、ユーザがドキュメントファイルに対して行った校正結果を出力情報に反映する処理について説明する。

図３の処理は、ステップＳ３００から開始し、ステップＳ３０１では、マージ制御部１２２がページ区切り検出部１２４を呼び出し、ページ区切り検出部１２４が、記憶装置１２０から校正済みのドキュメントファイルを取得し、当該ドキュメントファイルのページ区切り情報を使用してドキュメントファイルのページ区切りを検出する。ステップＳ３０２では、マージ制御部１２２が、編集距離算出部１２６、行区切り検出部１２８、行移動検出部１３０およびマージ部１３２を呼び出し、ユーザが校正したテキストを、ドキュメントファイルのページ毎に出力情報にマージする。ステップＳ３０３では、校正漏れ検出部１３４が、ユーザが校正したドキュメントファイルから校正漏れの可能性がある文字を検出する処理（以下、「校正漏れ検出処理」とする。）を実行し、ステップＳ３０４で処理が終了する。

図４は、図３に示すステップＳ３０２の処理を示すフローチャートである。図４の処理は、ステップＳ４００から開始し、ステップＳ４０１で行区切り検出部１２８が、校正されたドキュメントファイルから行の区切りを検出する。ステップＳ４０２では、編集距離算出部１２６が、ステップＳ４０１で得た行区切りが形成する行単位で、校正前テキストと校正後テキストの編集距離を算出する。

ステップＳ４０３では、編集距離算出部１２６は、ステップＳ４０２で算出した編集距離が最小となる解の候補であるパス、すなわち、テキストが最も類似するパスを特定し、当該パスにおける行操作情報を生成する。換言すると、編集距離算出部１２６は、校正前テキストの行と、これに対応する校正後テキストの行についての行操作情報を生成する。

ステップＳ４０４では、マージ制御部１２２が、ステップＳ４０３で生成された行操作情報を使用して行削除操作が行われたか否か判断する。行削除操作が行われていない場合には（ｎｏ）、処理がステップＳ４０５に分岐する。ステップＳ４０５では、マージ部１３２が、記憶装置１１８に保存された出力情報にドキュメントファイルに対する校正の結果をマージし、ステップＳ４０９で処理が終了する。

より詳細には、マージ部１３２は、ユーザの校正作業によってテキストが編集された場合には、行操作情報を使用して、当該編集されたテキストに対応する出力情報に含まれるテキストを特定し、出力情報のテキストを当該編集されたテキストに変更する。また、ユーザの校正作業によって行の一部に相当するテキストが削除された場合には、マージ部１３２は、行操作情報を使用して、当該テキストに対応する出力情報に含まれるテキストを特定して削除する。なお、ユーザの校正作業によって行が挿入された場合には、当該行は意図せず入ったものとみなし、マージ部１３２は、当該行のテキストを出力情報にマージしない。

一方、ステップＳ４０４の判定で行削除操作が行われたと判断した場合には（ｙｅｓ）、処理をステップＳ４０６に分岐する。ステップＳ４０６では、行移動検出部１３０が、ステップＳ４０３で生成された行操作情報を使用して完全２部グラフを計算する。ステップＳ４０７では、行移動検出部１３０は、完全２部グラフの最大重みマッチングを算出して行の移動操作を特定する。ステップＳ４０８では、マージ部１３２は、記憶装置１１８に保存された出力情報にドキュメントファイルに対する校正の結果をマージし、ステップＳ４０９で処理が終了する。

より詳細には、マージ部１３２は、校正作業によってテキストが編集された場合には、行操作情報を使用して、当該編集されたテキストに対応する出力情報に含まれるテキストを特定し、当該出力情報のテキストを当該編集されたテキストに変更する。また、校正作業によって行の一部に相当するテキストが削除された場合には、マージ部１３２は、行操作情報を使用して、当該テキストに対応する出力情報に含まれるテキストを特定して削除する。

さらに、行の挿入操作があった場合において、当該挿入操作に対応する行の削除操作が存在するとき、すなわち、校正作業によって行が別の位置に移動されたときには、マージ部１３２は、行操作情報を使用して、出力情報に含まれる当該移動された行のテキストを特定し、移動先である出力情報内の位置に移動する。なお、行の挿入操作があった場合において、当該挿入操作に対応する行の削除操作が存在しないときは、当該挿入操作によって挿入された行は校正時に意図せず入ったものとみなし、マージ部１３２は、当該行のテキストを出力情報にマージしない。

図５は、図４に示すステップＳ４０１の処理を示すフローチャートである。図５の処理は、ステップＳ５００から開始し、ステップＳ５０１で行区切り検出部１２８が、未対応の行領域のそれぞれに対して、校正前テキストと、校正後テキストの未対応の行を１つの文字列として、編集距離を算出する。

ステップＳ５０２では、行区切り検出部１２８は、ステップＳ５０１で算出した編集距離が最小となるパス、すなわち、解の候補である校正後テキストの領域のうち、校正前テキストの行に対応する１のテキスト領域を特定する。ステップＳ５０３では、行区切り検出部１２８は、ステップＳ５０１で行った編集距離の算出過程から、ステップＳ５０２で特定した校正後テキストの領域に対して、テキストの挿入操作が行われていないか判断する。ステップ５０４では、テキストの挿入操作が行われていない場合に（ｙｅｓ）、処理をステップＳ５０５に分岐する。ステップＳ５０５では、行区切り検出部１２８は、見つけた校正後テキストの領域を、校正後テキストにおける１つの行領域とする。

一方、テキストの挿入操作が行われている場合には（ｎｏ）、処理をステップＳ５０５に分岐する。すなわち、当該校正後のテキストの領域に対して校正者が意図せず文字を入力したものとみなし、当該校正後のテキストの領域は校正前テキストにマージされない。

ステップＳ５０６では、行区切り検出部１２８は、校正前テキストの総ての行について、上述した処理を実行したか否か判断する。校正前テキストの総ての行について上述した処理を実行していない場合には（ｎｏ）、処理をステップＳ５０１に戻し、校正前テキストの別の行について上述した処理を実行する。一方、校正前テキストの総ての行について上述した処理を実行した場合には（ｙｅｓ）、ステップＳ５０７に分岐する。

ステップＳ５０７では、行区切り検出部１２８は、上述した処理において、校正後テキストのテキスト領域のうち校正前テキストのいずれの行とも対応付けられなかったテキスト領域を別の行領域として識別し、ステップＳ５０８で処理が終了する。対応付けられなかった不連続のテキスト領域が複数ある場合には、行区切り検出部１２８は、当該テキスト領域をそれぞれ別の行領域として識別する。

図６は、本発明の情報処理装置が実行する文字単位の編集距離の算出方法を示す概念図である。以下、ＯＣＲ処理部１１０が生成した出力情報に含まれる校正前テキスト「しＶ本令基ぎ」６００が、校正後テキスト「しく本令、基き」６２０に校正された場合について説明する。

本実施形態では、ユーザの校正作業によって「Ｖ」６１０が「く」６２１に置換され、「ぎ」６１２が「き」６２５に置換されている。また、「令」６２２と「基」６２４との間に読点「、」６２３が追加されている。本発明では、編集距離を算出するために、テキストの編集操作に対して値が割り当てられる。例えば、テキストの削除、挿入、置換について、それぞれ「１」がコストとして割り当てられたと仮定すると、この校正作業による総コストである編集距離は「３」となる。

本実施形態では、テキストの置換のコストについて、ＯＣＲ処理で認識候補に挙がっているテキストの確信度を用いて算出したコストを割り当てる。当該コストは、下記数式１によって導出することができる。

例えば、校正前テキスト６００の２文字目「Ｖ」６１０の認識候補が「Ｖ」、「く」、「〈」、「＜」、「<」、「ぐ」、「之」であり、その確信度が「８１」、「８０」、「７２」、「７２」、「７２」、「４６」、「２６」であった場合、「Ｖ」６１０が「く」６２１に校正されたときの編集コストは、「く」の確信度「８０」を上記数式２に代入して求められる「０．２」（＝（１００−８０）／１００）となる。

図６に示す実施形態では、日本語で記載された原稿にＯＣＲ処理を施して、校正前テキストおよび校正後テキストについて編集距離を算出するが、本発明は、他のいずれの言語についても編集距離を算出することができる。

図７は、本発明の情報処理装置が実行する行区切り検出方法を示す概念図である。以下、情報処理装置１００の行区切り検出部１２８が実行する行区切り検出方法について説明する。

行区切り検出方法では、校正前テキストの行７００と、校正後テキストの１ページに含まれる総てのテキスト７１０との編集距離を算出する。そして、編集距離が最小となる校正後テキストのテキスト領域、すなわち、校正前テキストの行７００に含まれるテキストと最も類似するテキストを有するテキスト領域を特定する。図７に示す実施形態では、校正前テキストの行７００に対応する校正後テキストのテキスト領域が存在しないものとする。

次に、校正前テキストの行７０１と、校正後テキストの１ページに含まれる総てのテキスト７１０との編集距離を算出し、編集距離が最小となる校正後テキストのテキスト領域を特定する。図７に示す実施形態では、校正後テキストのテキスト領域７１２が、校正前テキストの行７０１に対応するものとする。

同様に、校正前テキストの他の行７０２，７０３，７０４，７０５について、校正後テキストの１ページに含まれる総てのテキスト７１０との編集距離を算出し、編集距離が最小となる校正後テキストのテキスト領域を特定する。

当該行区切りの検出方法において、特定されたテキスト領域７１２，７１４は、校正後テキストの１つの行領域に相当する。また、特定されなかったテキスト領域７１１，７１３，７１５は、別の行領域に相当する。これにより、校正後テキスト７１０の行区切りを検出することができる。

図８は、本発明の情報処理装置が実行する行単位の編集距離の算出方法を示す概念図である。この算出方法は、図６を参照して説明した文字単位の編集距離の算出方法と同様に、テキストの編集操作に対してコストが割り当てられ、校正前テキスト８００の各行と校正後テキスト８２０の各行との編集距離をページ毎に算出する。

図８に示す実施形態では、ユーザの校正作業によって、文字「Ｏ」で構成される行８１０の全体が削除されているため、当該行８１０の削除操作が行われたことを示す行操作情報が生成される。また、文字列「に就てもＯ等しＶ」で構成される行８１２が、文字列「に就ても、等しく」で構成される行８２２に置換されているため、当該行８２２の編集操作が行われたことを示す行操作情報が生成される。同様に、文字列「本令に基ぎ主務大臣」で構成される行８１４が、文字列「本令に基き主務大臣」で構成される行８２４に置換されているため、当該行８２４の編集操作が行われたことを示す行操作情報が生成される。

図８に示す実施形態では、日本語で記載された原稿にＯＣＲ処理を施して、校正前テキストおよび校正後テキストについて編集距離を算出するが、本発明は、他のいずれの言語についても編集距離を算出することができる。

図９は、本発明の情報処理装置が実行する行の移動操作の検出方法を示す概念図である。以下、図９を参照して、図４に示すステップＳ４０６〜Ｓ４０８の処理で示す行の移動操作の検出方法について説明する。

行の移動操作の検出方法では、まず、行移動検出部１３０が、行操作情報を使用してユーザの校正作業による行操作を、行削除操作の集合｛Ｄ｝９１０と、行編集操作および行挿入操作の集合｛Ｅ，Ｉ｝９２０とに分類する完全２部グラフを生成する。具体的には、行移動検出部１３０は、下記数式２を用いて、集合｛Ｄ｝９１０に含まれる操作Ｍと、集合｛Ｅ，Ｉ｝９２０に含まれる操作Ｍ’とのグラフの辺９３０の重みｗ（Ｍ，Ｍ’）を算出して完全２部グラフを生成する。

ここで、ｉは、行削除操作Ｍが行われた校正前テキストの行番号を示し、ｊは、行編集操作または行挿入操作Ｍ’が行われた校正後テキストの行番号を示す。また、Ｌ（ｉ）は、行削除操作Ｍが行われた校正前テキストの行を示し、Ｌ’（ｊ）は、行編集操作または行挿入操作Ｍ’が行われた校正後テキストの行を示す。さらに、Ｅｄｉｔ（Ｌ（ｉ），Ｌ’（ｊ））は、行削除操作Ｍが行われた校正前テキストの行Ｌ（ｉ）と、行編集操作または行挿入操作Ｍ’が行われた校正後テキストの行Ｌ’（ｊ）との編集距離を示す。

Ｄｉｓｔ（Ｍ，Ｍ’）は、行削除操作Ｍと，行編集操作または行挿入操作Ｍ’のマッチングの重み付けの程度を示す。εは、Ｅｄｉｔ（Ｌ（ｉ），Ｌ’（ｊ））の値が近似する行が複数存在する場合に、校正前テキストおよび校正後テキストそれぞれについて、Ｌ（ｉ）およびＬ’（ｊ）が示す行の直前の行のテキストが類似する行の組み合わせを優先するための定数であり、１以下の正の数を採用する。他の実施形態では、出力情報に含まれるレイアウト情報を使用して、Ｄｉｓｔ（Ｍ，Ｍ’）を算出してもよい。

次に、行移動検出部１３０は、上記数式２を用いて算出した重みｗ（Ｍ，Ｍ’）を用いて、重みが最大となる行削除操作Ｍ_ｍａｘと、行編集操作または行挿入操作Ｍ’_ｍａｘとの組み合わせを特定し、行削除操作Ｍ_ｍａｘにマッチングする行編集操作または行挿入操作Ｍ’_ｍａｘを特定する。このとき、行編集操作または行挿入操作Ｍ’_ｍａｘとマッチングする行削除操作Ｍ_ｍａｘの対象の行が移動元の行に該当し、当該行編集操作または行挿入操作Ｍ’_ｍａｘの対象の行が移動先の行に該当する。

そして、マージ部１３２が、校正結果を校正前テキストに反映する。集合｛Ｄ｝９１２のいずれの行削除操作Ｍにもマッチングしない｛Ｅ，Ｉ｝９２２の行編集操作Ｍ’９２３，９２４が存在する場合には、当該行編集操作Ｍ’の対象である行の一部の文字が校正されたとみなし、マージ部１３２は、校正結果を校正前テキストに反映する。

また、集合｛Ｄ｝９１２のいずれの行削除操作Ｍにもマッチングしない集合｛Ｅ，Ｉ｝９２２の行挿入操作Ｍ’９２３，９２４が存在する場合には、当該行挿入操作Ｍ’の対象である行は校正時に意図せずに入力されたものとみなし、マージ部１３２は、当該行挿入操作を校正前テキストに反映させない。

さらに、集合｛Ｅ，Ｉ｝９２６のいずれの行編集操作または行挿入操作Ｍ’にもマッチングしない集合｛Ｄ｝９１４の行削除操作Ｍ９１５，９１６が存在する場合には、当該行削除操作Ｍの対象である行は、校正時にユーザが削除した行であるとみなし、マージ部１３２は、当該行を校正前テキストから削除する。

本発明では、上記数式２において、ｉ，ｊが共に１以上の場合、すなわち、２番目以降の行に対する行削除操作Ｍと行編集操作または行挿入操作Ｍ’の重みｗ（Ｍ，Ｍ’）を算出する場合には、行削除操作Ｍが行われた行の直前の行Ｌ（ｉ−１）と、行編集操作または行挿入操作Ｍ’が行われた行の直前の行Ｌ（ｊ−１）の編集距離を考慮して重みｗ（Ｍ，Ｍ’）を算出する。したがって、直前の行の編集距離が小さい場合、すなわち、直前の行の文字列同士が類似する場合には、重みｗ（Ｍ，Ｍ’）の値が大きくなる。一方、直前の行の編集距離が大きい場合、すなわち、直前の行の文字列同士が類似しない場合には、重みｗ（Ｍ，Ｍ’）の値が小さくなる。

通常、ＯＣＲ処理の読み取り順序は、段落等のブロック単位では正しいことが多い。本発明の情報処理装置１００は、上述したように直前の行の編集距離を考慮して算出した行操作の重みｗ（Ｍ，Ｍ’）を用いて行操作のマッチングを判断するため、類似するテキストが同一ページ内に複数存在する場合でも、直前の行同士が類似する行が最もマッチングすると判断する。これにより、本発明では、ＯＣＲ処理によるブロック単位の読み取り順序を優先して、校正されたテキストを出力情報にマージすることができ、マージ精度を向上させることができる。

本実施形態では、情報処理装置１００は、上述したように直前の行の編集距離を考慮して算出した行操作の重みｗ（Ｍ，Ｍ’）を用いて行操作をマッチングするが、他の実施形態では、直後の行の編集距離を考慮して算出した行操作の重みｗ（Ｍ，Ｍ’）を用いて行操作をマッチングしてもよい。

図１０は、図３に示すステップＳ３０３の校正漏れ検出処理を示すフローチャートである。図１０の処理は、ステップＳ１０００から開始し、ステップＳ１００１で校正漏れ検出部１３４が、ユーザの校正作業によって校正されたテキストを特定し、校正されたテキストのうち校正頻度の高い頻出校正テキストを識別する。

より詳細には、校正漏れ検出部１３４は、行操作情報を使用して、校正後テキストから行編集操作対象の行のテキストを抽出する。校正漏れ検出部１３４は、出力情報を使用して、行編集操作対象の行のテキストに対応する校正前テキストの行のテキストを取得し、これらのテキストの編集距離を編集距離算出部１２６に算出させる。校正漏れ検出部１３４は、当該編集距離が大きいテキスト、すなわち、校正作業によって校正されたテキストを検出する。校正漏れ検出部１３４は、当該校正されたテキストの検出回数を計数し、当該回数が所定の閾値以上のテキストを頻出校正テキストとして識別する。

ステップＳ１００２では、校正漏れ検出部１３４は、校正作業によって校正されていない未校正テキストを抽出する。具体的には、校正漏れ検出部１３４は、行編集操作対象の行のテキストと、これに対応する校正前テキストの行のテキストとの編集距離が小さいテキストを校正後テキストから抽出すると共に、行操作情報を使用して、校正後テキストから行編集操作対象でない行のテキストを抽出することにより、未校正テキストを抽出する。

ステップＳ１００３では、校正漏れ検出部１３４は、ステップＳ１００１で識別した頻出校正テキストから１の頻出校正テキストを取得する。ステップＳ１００４では、校正漏れ検出部１３４は、出力情報に含まれる認識候補および確信度を使用して、ステップＳ１００１で取得した校正されたテキストの特徴ベクトル、ステップＳ１００２で抽出した総ての未校正テキストの特徴ベクトル、およびステップＳ１００３で取得した頻出校正テキストの特徴ベクトルを算出する。

具体的には、例えば、ＯＣＲ処理で文字「と」と認識されたテキストのうち、ユーザによって校正された頻出校正テキストと、未校正テキストの認識候補が（「あ」，「か」，「２」，「こ」，「さ」，「と」，「Ｃ」）である場合、これらのテキストの特徴ベクトルは、７次元のベクトルとなる。例えば、当該頻出校正テキストの認識候補の確信度が（「あ」：８０，「と」：６０，「Ｃ」：４０）であるとき、当該頻出校正テキストの特徴ベクトルは、７次元ベクトル（８０，０，０，０，０，６０，４０）となる。同様に、未校正テキストの特徴ベクトルも算出することができる。本実施形態では、非特許文献１に示す近似的に最近傍の特徴ベクトルを算出する方法を用いて、高次元の特徴ベクトルを算出することができる。

ステップＳ１００５では、校正漏れ検出部１３４は、ステップＳ１００４で算出した特徴ベクトルを使用して、未校正テキストの中から校正漏れの可能性のあるテキストを検出する。具体的には、校正漏れ検出部１３４は、頻出校正テキストの特徴ベクトルと、未校正テキストおよび校正されたテキストの特徴ベクトルを比較し、頻出校正テキストの特徴ベクトルと近似する特徴ベクトルを有する未校正テキストおよび校正されたテキストをｋ個（ｋ：奇数の整数）選択する。そして、校正漏れ検出部１３４は、選択したテキストのうち未校正テキストよりも校正されたテキストの方が多い場合には、当該未校正テキストを校正漏れの可能性があるテキストとして検出する。

ステップＳ１００６では、校正漏れ検出部１３４は、ステップＳ１００１で識別した総ての頻出校正テキストについて、ステップＳ１００３からステップＳ１００５に示す処理を実行したか否か判断する。総ての頻出校正テキストについて当該処理を実行していない場合には（ｎｏ）、処理をステップＳ１００３に戻し、総ての頻出校正テキストについて当該処理を実行する。一方、総ての頻出校正テキストについて当該処理を実行した場合には（ｙｅｓ）、ステップＳ１００７に分岐して処理が終了する。

図１１は、本願発明を利用した文書校正の作業イメージを示す図である。原稿画像１１００は、電子化すべき原稿の原稿画像である。ＵＩ（User Interface）１１１１は、当該原稿画像にＯＣＲ処理を施して生成されたテキストを校正するエディタのＵＩである。エディタは、任意の文書作成ソフトである。このため、ユーザは、使い慣れたエディタで校正作業をすることができ、作業効率を向上させることができる。また、当該エディタが有するスペルチェック機能や文法チェック機能を利用することにより、より一層作業効率を高めることができる。

図１２は、電子化すべき原稿と当該原稿にＯＣＲ処理を施して生成されるドキュメントファイルの一実施形態を示す図である。

原稿１２００は、電子化すべき原稿である。原稿１２００には、ＯＣＲ処理の読み取り順序が矢印で示されている。ドキュメントファイル１２１０は、原稿１２００にＯＣＲ処理を施して得られた出力情報から生成される校正前のドキュメントファイルである。ドキュメントファイル１２１０は、当該矢印が示すＯＣＲ処理の読み取り順序でテキストが構成されている。

図１３は、図１２に示すドキュメントファイル１２１０を校正した後のドキュメントファイルと、これらのファイルの差分を示す図である。

原稿１３００は、図１２に示す原稿１２００と同一の電子化すべき原稿である。ドキュメントファイル１３１０は、ユーザがドキュメントファイル１２１０を校正することによって生成されたファイルである。ドキュメントファイル１２１０では、ユーザの校正作業によって、テキストの配置が行単位で変更されており、ＯＣＲ処理の読み取り順序が、図１２に示す原稿１２００の矢印が示す順序から、原稿１３００の矢印が示す順序に変更されている。

差分１３２０は、校正前のドキュメントファイル１２１０と、校正後のドキュメントファイル１３１０との差分である。本実施形態では、校正作業によって、文字「陽」が文字「隔」１３２２に編集され、文字列「猪の音」が「猛の者」１３２４に編集されている。マージ部１３２は、出力情報の校正前テキストに含まれる当該文字「陽」を文字「隔」に変更し、当該文字列「猪の音」を文字列「猛の者」に変更する。

また、校正作業によって、文字列「２竹取翁の物語」から成る行１３２６が削除されると共に、当該文字列から成る行１３２８が挿入されている。当該削除操作と当該挿入操作は対応しているため、マージ部１３２は、校正後のドキュメントファイル１３１０の挿入位置１３１２に対応する出力情報の校正前テキストの位置に当該文字列を挿入する。

図１４は、電子化すべき原稿と当該原稿にＯＣＲ処理を施して生成されるドキュメントの別の実施形態を示す図である。

原稿１４００は、電子化すべき原稿である。原稿１４００には、ＯＣＲ処理の読み取り順序が矢印で示されている。ドキュメントファイル１４１０は、原稿１４００にＯＣＲ処理を施して得られた出力情報から生成される校正前のドキュメントファイルである。ドキュメントファイル１４１０は、当該矢印が示すＯＣＲ処理の読み取り順序でテキストが構成されている。

図１５は、図１４に示すドキュメントファイル１４１０を校正した後のドキュメントファイルと、これらのファイルの差分を示す図である。

原稿１５００は、図１４に示す原稿１４００と同一の電子化すべき原稿である。ドキュメントファイル１５１０は、ユーザがドキュメントファイル１４１０を校正することによって生成されたファイルである。ドキュメントファイル１４１０では、ユーザの校正作業によって、テキストの配置が行単位で変更されており、ＯＣＲ処理の読み取り順序が、図１４に示す原稿１４００の矢印が示す順序から、原稿１５００の矢印が示す順序に変更されている。

差分１５２０は、校正前のドキュメントファイル１４１０と、校正後のドキュメントファイル１５１０との差分である。本実施形態では、ユーザの校正作業によって、文字列「Political Bands which have connected them with another,」から成る行１５２２が削除されると共に、当該文字列から成る行１５２４が挿入されている。当該削除操作と当該挿入操作は対応しているため、マージ部１３２は、校正後のドキュメントファイル１５１０の挿入位置１５１２に対応する出力情報の校正前テキストの位置に当該文字列を挿入する。

図１６は、電子化すべき原稿と当該原稿にＯＣＲ処理を施して生成されるドキュメントの他の実施形態を示す図である。

原稿１６００は、電子化すべき原稿である。原稿１６００には、ＯＣＲ処理の読み取り順序が矢印で示されている。ドキュメントファイル１６１０は、原稿１６００にＯＣＲ処理を施して得られた出力情報から生成される校正前のドキュメントファイルである。ドキュメントファイル１６１０は、当該矢印が示すＯＣＲ処理の読み取り順序でテキストが構成されている。

図１７は、図１６に示すドキュメントファイル１６１０を校正した後のドキュメントファイルと、これらのファイルの差分を示す図である。

原稿１７００は、図１６に示す原稿１６００と同一の電子化すべき原稿である。ドキュメントファイル１７１０は、ユーザがドキュメントファイル１６１０を校正することによって生成されたファイルである。ドキュメントファイル１７１０では、ユーザの校正作業によって、テキストの配置が行単位で変更されており、ＯＣＲ処理の読み取り順序が、図１６に示す原稿１６００の矢印が示す順序から、原稿１７００の矢印が示す順序に変更されている。

差分１７２０は、校正前のドキュメントファイル１６１０と、校正後のドキュメントファイル１７１０との差分である。本実施形態では、ユーザの校正作業によって、文字列「第三十三回芥川賞作品「白い人」は、」から成る行１７２１が削除されると共に、当該文字列から成る行１７２２が挿入されている。当該削除操作と当該挿入操作は対応しているため、マージ部１３２は、校正後のドキュメントファイル１７１０の挿入位置１７１２に対応する出力情報の校正前テキストの位置に当該文字列を挿入する。

図１８は、電子化すべき原稿と当該原稿にＯＣＲ処理を施して生成されるドキュメントの他の実施形態を示す図である。

原稿１８００は、電子化すべき原稿である。原稿１８００には、ＯＣＲ処理の読み取り順序が矢印で示されている。テキスト１８１０は、原稿１８００にＯＣＲ処理を施して得られた出力情報から生成される校正前のドキュメントファイルである。ドキュメントファイル１８１０は、当該矢印が示すＯＣＲ処理の読み取り順序でテキストが構成されている。

図１９は、図１８に示すドキュメントファイル１８１０を校正した後のドキュメントファイルと、これらのファイルの差分を示す図である。

原稿１９００は、図１８に示す原稿１８００と同一の電子化すべき原稿である。ドキュメントファイル１９１０は、ユーザがドキュメントファイル１８１０を校正することによって生成されたファイルである。ドキュメントファイル１８１０では、ユーザの校正作業によって、テキストの配置が行単位で変更されており、ＯＣＲ処理の読み取り順序が、図１８に示す原稿１８００の矢印が示す順序から、原稿１９００の矢印が示す順序に変更されている。

差分１９２０は、校正前のドキュメントファイル１８１０と、校正後のドキュメントファイル１９１０との差分である。本実施形態では、ユーザの校正作業によって、文字または文字列１９２１〜１９３０が削除されている。当該削除操作に対応する挿入操作は存在しないため、マージ部１３２は、校正前テキストから当該文字または文字列を削除する。

また、ユーザの校正作業によって、文字列「９４Ｏ０−」から成る行１９３１が削除されると共に、当該文字列を編集した文字列「−４０−」から成る行１９３２が挿入されている。当該削除操作と当該挿入操作は対応しているため、マージ部１３２は、校正後のドキュメントファイル１９１０の挿入位置１９１２に対応する出力情報の校正前テキストの位置に当該文字列を挿入する。

さらに、ユーザの校正作業によって、ドキュメントファイル１９２０に示すように、取り消し線が示す他の文字が、これに対応する下線が示す文字に編集されている。マージ部１３２は、校正前テキストに含まれる当該文字を変更する。

これまで本実施形態につき説明してきたが、本発明は、上述した実施形態に限定されるものではなく、当該実施形態の機能手段の変更や削除、他の機能手段の追加など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。

本発明は、種々の原稿の電子化に利用することができ、特に、国立国会図書館の電子化プロジェクトや欧州の電子化プロジェクト、豪州の新聞電子化プロジェクト等の膨大な文書量を校正する必要がある大規模な電子化プロジェクトに有用である。

１００…情報処理装置、１１０…ＯＣＲ処理部、１１２…ファイル生成部、１１４…エディタ、１１６，１１８，１２０…記憶装置、１２２…マージ制御部、１２４…ページ区切り検出部、１２６…編集距離算出部、１２８…行区切り検出部、１３０…行移動検出部、１３２…マージ部、１３４…校正漏れ検出部

Claims

文章を校正する情報処理装置であって、
原稿画像にＯＣＲ処理を施して得られた出力情報であって、該ＯＣＲ処理のテキストの読み取り順序に従って配置された該原稿画像の行のレイアウト情報と該行の構成要素であるテキストを含む出力情報を格納する第１格納部と、
前記出力情報に含まれる前記行の構成要素であるテキストを前記読み取り順序に従って配置して生成されたドキュメントファイルであって、ユーザにより校正された校正済みドキュメントファイルを格納する第２格納部と、
前記出力情報に含まれる前記行の構成要素であるテキストと、前記校正済みドキュメントファイルに含まれるテキストとの編集距離が最小となるテキスト領域を１つの行領域として特定することによって行の区切りを検出する行区切り検出部と、
前記出力情報に含まれるテキストと前記校正済みドキュメントファイルに含まれるテキストとの編集距離を、前記行区切り検出部が検出した行の区切りが形成する行単位で算出し、算出した編集距離が最小となるパスにおけるユーザの校正作業による行操作の種類、該行操作の対象である前記出力情報に含まれるテキストの行番号および該行操作の対象である前記校正済みドキュメントファイルに含まれるテキストの行番号を示す行操作情報であって、該行操作の種類は、行を削除する行削除操作、行の構成要素であるテキストを置換する行編集操作および行を挿入する行挿入操作である、行操作情報を生成する、編集距離算出部と、
前記ユーザが前記ドキュメントファイルに対して行った校正による前記ドキュメントファイルに含まれるテキストで構成された行の移動を検出する行移動検出部と、
前記ドキュメントファイルに対する校正の結果を前記出力情報に反映するマージ部とを備え、
前記行移動検出部は、
前記行削除操作の対象である行の構成要素であるテキストと、前記行挿入操作または前記行編集操作の対象である行の構成要素であるテキストとの編集距離を用いて、前記行削除操作と前記行挿入操作または前記行編集操作とのマッチングの程度を示す重みを算出し、前記重みが最大となる前記行削除操作と前記行挿入操作または前記行編集操作の組み合わせを行の移動操作として特定し、
前記マージ部は、
前記行移動検出部が前記行削除操作と前記行挿入操作または前記行編集操作の組み合わせを行の移動操作として特定した場合に、前記行操作情報を使用して、前記出力情報に含まれる該行削除操作の対象である行の構成要素であるテキストを特定し、特定した該テキストを、該出力情報内の該行挿入操作または該行編集操作の対象である行の位置に移動する、
情報処理装置。
前記行移動検出部は、
前記行削除操作の対象である前記出力情報の行の構成要素であるテキストと、前記行挿入操作または行編集操作の対象である前記ドキュメントファイルの行の構成要素であるテキストとの編集距離と、
前記出力情報の行に隣接する行の構成要素であるテキストと、前記ドキュメントファイルの行に隣接する行の構成要素であるテキストとの編集距離とを用いて、前記重みを算出する、請求項１に記載の情報処理装置。
前記情報処理装置は、
校正頻度の高い頻出校正テキストと未校正のテキストとを抽出し、
前記頻出校正テキストの特徴ベクトルと、前記未校正のテキストの特徴ベクトルとを算出し、
前記頻出校正テキストの特徴ベクトルと近似する特徴ベクトルを有する未校正のテキストを、校正漏れの可能性があるテキストとして検出する校正漏れ検出部をさらに含む、請求項１に記載の情報処理装置。
文章を校正する情報処理装置が実行する方法であって、前記方法は、前記情報処理装置が、
原稿画像にＯＣＲ処理を施して得られた出力情報であって、該ＯＣＲ処理のテキストの読み取り順序に従って配置された該原稿画像の行の構成要素であるテキストを含む出力情報から、該行の構成要素であるテキストを該読み取り順序に従って配置したドキュメントファイルを生成するステップと、
前記出力情報に含まれる前記行の構成要素であるテキストと、ユーザにより校正された校正済みドキュメントファイルに含まれるテキストとの編集距離が最小となるテキスト領域を１つの行領域として特定することによって行の区切りを検出するステップと、
前記出力情報に含まれるテキストと前記校正済みドキュメントファイルに含まれるテキストとの編集距離を、前記行の区切りが形成する行単位で算出し、算出した編集距離が最小となるパスにおけるユーザの校正作業による行操作の種類、該行操作の対象である前記出力情報に含まれるテキストの行番号および該行操作の対象である前記校正済みドキュメントファイルに含まれるテキストの行番号を示す行操作情報であって、該行操作の種類は、行を削除する行削除操作、行の構成要素であるテキストを置換する行編集操作および行を挿入する行挿入操作である、行操作情報を生成するステップと、
ユーザが前記ドキュメントファイルに対して行った校正による前記ドキュメントファイルに含まれるテキストで構成された行の移動を検出するステップと、
前記ドキュメントファイルに対する校正の結果を前記出力情報に反映するステップとを含み、
前記行の移動を検出するステップは、
前記行削除操作の対象である行の構成要素であるテキストと、前記行挿入操作または前記行編集操作の対象である行の構成要素であるテキストとの編集距離を用いて、前記行削除操作と前記行挿入操作または前記行編集操作とのマッチングの程度を示す重みを算出するステップと、
前記重みが最大となる前記行削除操作と前記行挿入操作または前記行編集操作の組み合わせを行の移動操作として特定するステップとを含み、
前記反映するステップは、
前記行削除操作と前記行挿入操作または前記行編集操作の組み合わせを行の移動操作として特定した場合に、前記行操作情報を使用して、前記出力情報に含まれる該行削除操作の対象である行の構成要素であるテキストを特定し、特定した該テキストを、該出力情報内の該行挿入操作または該行編集操作の対象である行の位置に移動するステップを含む、方法。
前記行の移動を検出するステップは、
前記行削除操作の対象である前記出力情報の行の構成要素であるテキストと、前記行挿入操作または行編集操作の対象である前記ドキュメントファイルの行の構成要素であるテキストとの編集距離と、
前記出力情報の行に隣接する行の構成要素であるテキストと、前記ドキュメントファイルの行に隣接する行の構成要素であるテキストとの編集距離とを用いて、前記重みを算出するステップを含む、請求項４に記載の方法。
前記方法は、前記情報処理装置が、
校正頻度の高い頻出校正テキストと未校正のテキストとを抽出するステップと、
前記頻出校正テキストの特徴ベクトルと、前記未校正のテキストの特徴ベクトルとを算出するステップと、
前記頻出校正テキストの特徴ベクトルと近似する特徴ベクトルを有する未校正のテキストを、校正漏れの可能性があるテキストとして検出するステップと
をさらに含む、請求項４に記載の方法。
文章を校正する情報処理装置が実行する方法を、前記情報処理装置が実行するためのプログラムであって、前記プログラムは、前記情報処理装置が、
原稿画像にＯＣＲ処理を施して得られた出力情報であって、該ＯＣＲ処理のテキストの読み取り順序に従って配置された該原稿画像の行の構成要素であるテキストを含む出力情報から、該行の構成要素であるテキストを該読み取り順序に従って配置したドキュメントファイルを生成するステップと、
前記出力情報に含まれる前記行の構成要素であるテキストと、ユーザにより校正された校正済みドキュメントファイルに含まれるテキストとの編集距離が最小となるテキスト領域を１つの行領域として特定することによって行の区切りを検出するステップと、
前記出力情報に含まれるテキストと前記校正済みドキュメントファイルに含まれるテキストとの編集距離を、前記行の区切りが形成する行単位で算出し、算出した編集距離が最小となるパスにおけるユーザの校正作業による行操作の種類、該行操作の対象である前記出力情報に含まれるテキストの行番号および該行操作の対象である前記校正済みドキュメントファイルに含まれるテキストの行番号を示す行操作情報であって、該行操作の種類は、行を削除する行削除操作、行の構成要素であるテキストを置換する行編集操作および行を挿入する行挿入操作である、行操作情報を生成するステップと、
ユーザが前記ドキュメントファイルに対して行った校正による前記ドキュメントファイルに含まれるテキストで構成された行の移動を検出するステップと、
前記ドキュメントファイルに対する校正の結果を前記出力情報に反映するステップとを
実行するための装置実行可能なプログラムであって、
前記行の移動を検出するステップは、
前記行削除操作の対象である行の構成要素であるテキストと、前記行挿入操作または前記行編集操作の対象である行の構成要素であるテキストとの編集距離を用いて、前記行削除操作と前記行挿入操作または前記行編集操作とのマッチングの程度を示す重みを算出するステップと、
前記重みが最大となる前記行削除操作と前記行挿入操作または前記行編集操作の組み合わせを行の移動操作として特定するステップとを含み、
前記反映するステップは、
前記行削除操作と前記行挿入操作または前記行編集操作の組み合わせを行の移動操作として特定した場合に、前記行操作情報を使用して、前記出力情報に含まれる該行削除操作の対象である行の構成要素であるテキストを特定し、特定した該テキストを、該出力情報内の該行挿入操作または該行編集操作の対象である行の位置に移動するステップを含む、プログラム。