JP2007073044A

JP2007073044A - Ｐｄｆ変換器用テキスト修正

Info

Publication number: JP2007073044A
Application number: JP2006234135A
Authority: JP
Inventors: Herve Dejean; ドゥジャンエルヴェ; Andre Kempe; ケンペアンドレ
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2005-09-02
Filing date: 2006-08-30
Publication date: 2007-03-22
Anticipated expiration: 2026-08-30
Also published as: JP5105798B2; US7827484B2; US20070055933A1

Abstract

【課題】本発明は、非テキストフォーマットから変換することによって作成されたテキストベースの文書に取り込まれたエラーを修正することを目的とする。
【解決手段】文書において少なくとも一つの余分なあるいは欠落したスペースを修正する方法であって、前記文書からテキストを抽出する工程と、少なくとも、余分のスペースの除去と欠落したスペースの挿入とを含む一組の修正から選択された一つ以上の修正を、前記抽出されたテキストに選択的に適用することによって、前記抽出されたテキストから修正されたテキストの候補を構築する工程と、少なくとも前記修正されたテキストの候補内のトークンのトークン加重に基づいて、前記修正されたテキスト候補に対応する修正加重を算出する工程と、前記修正されたテキスト候補の修正加重に基づいて、前記修正されたテキスト候補から修正されたテキストを選択する工程と、を含むことを特徴とする方法を提供する。
【選択図】図１

Description

本発明は情報処理技術に関する。本発明は特に、非テキストフォーマットから変換することによって作成されたテキストベースの文書に取り込まれたエラーの修正に関し、これに特に関連するように記載されている。しかしながら以下はさらに一般的に、テキストとして直接に作成された、あるいは変換処理の使用を通して作成されたテキストベースの文書のエラー修正に関している。

テキストあるいはテキストベースのフォーマットへの文書変換は、文書の再利用を促進すること、内容の検索を可能にすること、文書の構築を容易にすることなどにとって、有用である。例えば、文書を、構造化された拡張可能マークアップ言語（ＸＭＬ）、ハイパーテキスト・マークアップ言語（ＨＴＭＬ）、標準汎用マークアップ言語（ＳＧＭＬ）、あるいは他のマークアップタグを含む構造化フォーマットに変換することによって、一般的な文書構造を用いる一体化された文書データベース環境が促進される。

元々ポータブル・ドキュメント・フォーマット（ＰＤＦ）ファイルとしてフォーマット化された文書、あるいは他の非テキストフォーマットを、ＡＳＣＩＩファイル、リッチテキストフォーマット（ＲＴＦ）、ＨＴＭＬ文書、ＸＭＬ文書、ＳＧＭＬ文書などのようなテキストフォーマットに変換することによって、エラーを導入する可能性が生じる。ＰＤＦをテキストへ変換する際に生じる最も一般的なエラーには、余分なスペースの導入（一語であるべきものを「分割」してしまう）、スペースの不適切な削除（「複数の単語をまとめる」）、および余分なハイフンの挿入あるいは保持が含まれる。このようなエラーは、例えば、複数のフォントサイズ、フォントスタイル、および／またはフォントタイプを有するＰＤＦファイルや、ページレイアウトフォーマットのテキストの行の最後における単語のハイフンなどによって発生する可能性がある。フォントサイズ、フォントスタイル、フォントタイプ、あるいは特別なフォントの効果によるエラーは、変換されたセクションの見出し、表題、および拡張されたフォント、ボールド体、アンダーラインなどを用いる傾向のある他の「非標準」テキストにおいてさらに頻繁に生じる可能性がある。セクションの見出し、あるいは他の文書構造の注釈におけるエラーは、自動目次エクストラクタの性能、あるいはテキストに変換後に適用される他の自動文書構成動作の性能を低下させる可能性がある。

ＰＤＦあるいは他のフォーマットをＸＭＬなどの構造化フォーマットに変換する場合、生じうるもう一種のエラーは、不適切なテキストフロー、あるいは不適切なテキストの遮断である。例えば、＜ＰＡＲＡＧＲＡＰＨ＞＜／ＰＡＲＡＧＲＡＰＨ＞、＜ＴＥＸＴ＞＜／ＴＥＸＴ＞などのＸＭＬマークアップタグ対は、パラグラフあるいは他のテキストのブロックを描出するように、典型的に使用されている。一方、ＰＤＦおよび他のいくつかのページレイアウトフォーマットは、テキストをページ上の物理的な行で描出する。ＰＤＦあるいは他のページレイアウトフォーマットをＸＭＬに変換する場合、たとえページ上の物理的な行が論理的なグループ分けあるいはテキストのブロックに対応していなくても、テキストの各々の物理的な行が、＜ＴＥＸＴ＞＜／ＴＥＸＴ＞などの適切なＸＭＬマークアップタグ対によって描出されることも可能である。

本明細書に例示された本発明のある態様によると、文書内の少なくとも一つの余分のあるいは欠落したスペースを修正するための方法が提供される。テキストは文書から抽出される。少なくとも、（１）余分なスペースを削除すること、（２）欠落したスペースを挿入することを含む一組の修正から選択された一つ以上の修正を抽出されたテキストに選択的に適用することによって、修正されたテキストの候補が抽出されたテキストから構築される。修正の加重は、少なくとも修正されたテキスト候補内のトークンにおけるトークンの加重に基づいて、修正されたテキスト候補に対応して計算される。修正されたテキストは、修正されたテキスト候補の修正の加重に基づいて、修正されたテキスト候補から選択される。

本明細書に例示された本発明のある態様によると、文書内の少なくとも一つの余分のあるいは欠落したスペースを修正するための装置が提供される。本装置は加重トークンの辞書と、少なくとも（１）余分なスペースを削除すること、（２）欠落したスペースを挿入することを含む一組の修正から選択した一つ以上の修正を適用することによって、文書のテキストから修正されたテキストを生成するテキストコレクタを含む。前記修正の適用は、修正されたテキストのトークンにおける辞書の加重に対して最適化される。

本明細書に例示された本発明のある態様によると、文書内の少なくとも一つの余分のあるいは欠落したスペースを修正するための方法が提供される。加重は辞書に内蔵されたトークンに割り当てられる。各トークンは非スペース・シンボルの順序付けされたシーケンスによって定義される。加重は、トークンの長さと文書内のトークンの発生頻度のうちの少なくとも一つに基づいて割り当てられる。修正されたテキストは、少なくとも（１）スペースの除去、（２）スペースの挿入、および（３）シンボルのコピーを含むシンボル・レベル変換のグループから選択された、シンボル・レベル変換の順序付けされたシーケンスを適用することによって、文書のテキストから生成される。シンボル・レベル変換の順序付けされたシーケンスは、修正されたテキストのトークンの加重による目的関数の各々に対して最適化される。

図面を参照して、テキストベース文書１０は、余分なスペース、余分なハイフン、あるいは欠落したスペースなどのエラーに関して修正されることになる。文書１０は、例えば、ＰＤＦ文書１４をＸＭＬに変換するＰＤＦ／ＸＭＬ変換器１２によって生成されてもよい。この場合、例えば隣接するタグからテキストを連結させるとき、文書１０はまたテキストフロー問題を有している場合もある。例えば、パラグラフを構築するために＜ＴＥＸＴ＞タグを削除することによって、テキストフロー問題が生じうる。図示された文書１０はＸＭＬ文書であるが、ＲＴＦ、ＨＴＭＬ、ＡＳＣＩＩなどのテキストベースフォーマットなどもまた、本明細書に記載された方法や装置を用いることによって修正されうる。

テキスト・エクストラクタ１６は、処理用のテキストベース文書１０からテキストの一部を抽出する。このテキストの一部は、例えばブロック描出マークアップタグ対によって描出された一部のような、文書のテキストの選択された一部であってもよいし、あるいは文書１０のテキスト全体であってもよい。図示されたＸＭＬ文書１０の場合は、テキスト・エクストラクタ１６が、抽出されたテキストから任意のマークアップタグを随意的に除去する。

加重トークナイザ２０は文書１０を処理して、それぞれが割り当てられたトークン加重２６を有するトークン２４を含む加重辞書２２を生成する。例えば、各トークンは、文書１０内に発生する非スペース・シンボルの順序付けされたシーケンスによって定義することが可能である。典型的に各トークンは一つ以上の文字からなる単語に対応しているが、トークンは数値、１６進値、頭字語、英数文字列などにも対応することもできる。いくつかの実施形態において、トークンは文字の順序付けされたシーケンスに限定されているため、各トークンは単語、頭字語、あるいは他の文字のシーケンスに対応する。典型的に、加重トークナイザ２０は、テキスト・エクストラクタ１６によって抽出されるように文書１０のテキスト全体を処理する。このときマークアップタグあるいは他の識別可能な文書マークアップは除去される。例えば、ＸＭＬノードおよびそれらの属性は除去され、テキストノードのみが抽出される。随意的に、辞書２２は、文書１０のテキスト全体からではなく文書１０のテキストの選択された部分から生成されることが可能である。

加重トークナイザ２０はまた、トークン２４に対応するトークン加重２６を割り当てる。各トークン加重は、テキスト内あるいはテキスト部分に現れる対応するトークンが「正確」である確度を示している。例えば、テキスト内に現われる長いトークン（すなわち多くのシンボルの順序付けされたシーケンスからなるトークン）は、エラーによって発生する可能性がより短いトークンよりも低い。同様に文書１０内で頻繁に発生するトークンは、一度あるいは数回のみ発生するトークンに比べて、正確である可能性が高い。いくつかの実施形態において、トークン加重は下記に比例する。

ｌｅｎｇｔｈ（ｔｏｋｅｎ）×ｌｏｇ（ｆｒｅｑｕｅｍｃｙ（ｔｏｋｅｎ）＋１）（１）

ここで「ｔｏｋｅｎ」はトークンを示し、「ｌｅｎｇｔｈ（ｔｏｋｅｎ）」はトークンの長さを示し、「ｆｒｅｑｕｅｍｃｙ（ｔｏｋｅｎ）」は文書内のトークンの発生頻度を示し、「ｌｏｇ（）」は一般的な、自然対数、あるいは他の対数関数を示す。数式（１）によるトークン加重において、比較的大きい加重が、長いトークンや文書１０内で頻繁に発生するトークンに好適に割り当てられる。

テキストコレクタ３０は、文書１０からテキスト・エクストラクタ１６によって抽出されたテキストを受け取り、そのテキストにシンボル・レベル変換３２を適用し、余分なスペース、欠落したスペース、および余分なハイフンなどのエラーがほぼ除去されたような修正済みのテキスト３４を生成する。余分のまたは欠落したスペースの修正を可能にするためには、シンボル・レベル変換３２は、少なくとも、スペースをテキストに挿入するためのスペース挿入シンボル・レベル変換と、スペースをテキストから除去するためのスペース除去シンボル・レベル変換を含まなければならない。テキストからハイフンを除去するハイフン除去シンボル・レベル変換や、ハイフンをテキストに挿入するハイフン挿入シンボル・レベル変換などの付加的な修正シンボル・レベル変換３２を含むことも可能である。

例示された方法において、テキストコレクタ３０は、シンボル・レベル変換の順序付けされたシーケンスをテキストに当てはめる再トークン化オートマトンを生成する、再トークン化オートマトン生成装置３６を含む。順序付けされたシーケンスのシンボル・レベル変換は、シンボル・レベル変換３２のグループから選択される。オートマトンあるいは変換器を用いる実施形態においては、シンボル・レベル変換３２は、変更なしでテキストのシンボルをコピー又はマッピングするシンボルコピー変換を適切に含む。加重オートマトンパス・オプティマイザ３８は、再トークン化オートマトンを定義するシンボル・レベル変換の順序付けられたシーケンスを最適化して、少なくともオートマトンによって出力された修正済みのテキストのトークンの加重に機能的に依存している目的関数を最適化する。例えば、いくつかの最適化方法においては、抽出されたテキストに適用されるとき、シンボル・レベル変換の順序付けられたシーケンスの各々は、修正されたテキスト候補を定義する。この修正されたテキスト候補は、目的関数を用いて計算された対応する修正加重と関連しており、オプティマイザ３８は、修正加重に基づく修正されたテキスト候補から、修正されたテキストを選択する。

例示された方法によるある実施形態において、シンボル・レベル変換３２のグループは以下のようなセットになる。

Ｔｓ＝｛％：０，０：％，？：？｝（２）

ここでＴｓはシンボル・レベル変換のグループあるいはセットを示し、「％」はスペースを示し、「０」は任意のシンボルの欠如を示し、「？」は任意のシンボルを示し、「％：０」はスペースを除去する場合のシンボル・レベル変換を示し、「０：％」はスペースを挿入する場合のシンボル・レベル変換を示し、「？：？」は変更なしでシンボルをコピー又はマッピングする場合のシンボル・レベル変換を示す。他のシンボル・レベル変換も含むことが可能である。例えば、余分のハイフンを除去できることが望まれる場合、数式（２）の変換のセットは以下のように選択することができる。

Ｔｓ＝｛％：０，０：％，−：０，？：？｝（３）

ここで「−：０」はハイフンを除去するための付加的なシンボル・レベル変換を示している。

再トークン化は以下の数式によって適切に示されている。

修正されたテキスト候補＝Ｓ．ｏ．Ｔｓ^*．ｏ．Ｄ^* （４）

ここで「Ｓ」は修正されるべき抽出されたテキストを示し、「Ｔｓ^*」は再トークン化オートマトンを示し、「Ｄ」は辞書２２を示し、シンボル「.ｏ．」は変換構成動作を示し、シンボル「*」は文字列Ｓが辞書エントリのシーケンス（最終的には空白）からなることを示すクリーネ・スターを示している。各修正済みのテキスト候補の各々に関する修正加重は、例えば、各文字のトークン加重の積あるいは合計として適切に算出される。

いくつかの実施形態において、各シンボル・レベル変換には、修正済みのテキスト候補を評価するために用いられる目的関数に盛り込まれる加重も割り当てられる。例えば、目的関数は、トークンの加重とシンボル・レベル変換加重との積の修正されたテキストの合計又は積であってもよい。シンボル・レベル変換加重は例えば、試行錯誤に基づいて手動で設定されてもよいし、テキスト対＜ｓ₁，ｓ₂＞からなるトレーニングセットを用いて自動的に調整されてもよい。このとき、ｓ₁は正確なテキストであり、ｓ₂は対応するエラーを有するテキストである。例えば、間違ったテキストｓ₂は、ｓ₁テキストを無作為に改悪することによって、あるいは変換過程においてエラーを呈する改悪アルゴリズムに基づいて、生成されることもある。トレーニングはシンボル・レベル変換加重を最適化して、テキストコレクタ３０を用いて、対応するｓ₁テキストサンプルに順調に修正される改悪されたｓ₂テキストサンプルの数を最大化する。

テスト運転において、テキストコレクタ３０の効果はシンボル・レベル変換の相対的な加重に依存していることが判明した。いくつかの実施形態においてスペース除去変換「％：０」には、最適化がスペースの除去に偏向するように、実質的に他のシンボル・レベル変換より高い加重が割り当てられる。この偏向は、ＰＤＦ変換のプロセスにおいて、余分のスペースの挿入が、余分なハイフンの挿入、あるいは誤ったスペース省略などの他のエラーの導入よりも頻繁に起こる傾向がある、ある変換されたＰＤＦ文書に関して有利であることが発見された。「％：０」スペース除去変換に対して５、「０：％」スペース挿入変換に対して０．５、および「？：？」シンボルコピー変換に対して０．５の加重が、変換されたＰＤＦ文書の修正にとって、効果があることが発見された。「−：０」ハイフン除去変換も含む数式（４）のシンボル・レベル変換のセットに関して、「−：０」ハイフン除去変換に０．５の加重を割り当てることもまた、変換されたＰＤＦ文書の修正にとって、効果があることが発見された。

種々の最適化技術が用いられて、数式（４）の再トークン化を最適することが可能になる。いくつかの実施形態においては、ビタビ最適化アルゴリズムを用いることによって、パスによって定義された修正済みのテキスト候補の修正加重の各々に対して、再トークン化オートマトンのパスが最適化される。ビタビアルゴリズムは、例えば、ＦｏｒｔｎｅｙＪｒ．，“ＴｈｅＶｉｔｅｒｂｉＡｌｇｏｒｉｔｈｍ”Ｐｒｏｃ．ｏｆｔｈｅＩＥＥＥｖｏｌ．６１，ｎｏ．３，ｐｐ．２６８−７８（１９７３）に記載されている。ビタビ最適化においては、可能なパスの数が典型的に多いため、これに対して有利な線形時間内で最良のパスが発見される。いくつかの実施形態において、最適化は、広範囲の最適パスではない最適化されたパスを識別してもよい。例えば、最適化は、そのパスが選択された最適化終了閾値を通過する修正加重を有しているときに、終了してもよい。

修正すべきテキストは、テキスト・エクストラクタ１６によって文書１０から抽出される。文書１０が、ＨＴＭＬ文書、ＸＭＬ文書、ＳＧＭＬ文書などのマークアップ付きの構造化文書であれば、テキスト・エクストラクタ１６は随意的にテキストから任意のマークアップタグを除去する。マークアップタグが除去されるとき、除去されたタグの前後のトークンは誤って連結されることもあり（すなわち、スペースが欠落する）、あるいは余分のハイフン等を含むこともある。例えば、ページレイアウトフォーマットからＸＭＬフォーマットに変換された文書の以下の部分を考えたい。

＜ＰＡＲＡＧＲＡＰＨ＞
＜ＴＥＸＴ＞Ｓａｆｅｔｙｓｔａｎｄａｒｄｓｔｏｂｅｏｂｓｅｒｖｅｄ＜／ＴＥＸＴ＞（遵守すべき安全標準）
＜ＴＥＸＴ＞ｄｕｒｉｎｇｒｅｐａｉｒｏｒｍａｉｎｔｅｎａｎｃｅｏｐｅｒ−＜／ＴＥＸＴ＞（修理あるいは保守中）
＜ＴＥＸＴ＞ａｔｉｏｎｓｏｎｖｅｈｉｃｌｅｓｅｑｕｉｐｐｅｄｗｉｔｈ＜／ＴＥＸＴ＞（が設けられた車両における動作）
＜ＴＥＸＴ＞ａｉｒ−ｂａｇｓｙｓｔｅｍｓｐｒｏｖｉｄｅｄｂｙｔｈｅｓｕｐｐｌｉｅｒ＜／ＴＥＸＴ＞（供給者によって提供されたエアバッグシステム）
＜／ＰＡＲＡＧＲＡＰＨ＞

このテキストには、ＸＭＬマークアップによってページレイアウトフォーマットからテキストフォーマットへの変換中に導入された一つのエラー（「Ｓａｆｅｔｙ」、余分なスペース）が含まれる。さらにＸＭＬへの変換は、＜ＴＥＸＴ＞と＜／ＴＥＸＴ＞とのタグ対で各行を描出することによって、テキストの４行の物理的なレイアウトを保持した。言い換えれば、源ページレイアウト文書におけるテキストの物理的な各行は、ＸＭＬ文書の一枚として変換される。これらの＜ＴＥＸＴ＞と＜／ＴＥＸＴ＞との描出は好ましくない。なぜならページレイアウトフォーマットの行がテキストの論理的なグループ分け又はテキブロックに対応していないからである。よってテキスト・エクストラクタ１６は、＜ＰＡＲＡＧＲＡＰＨ＞と＜／ＰＡＲＡＧＲＡＰＨ＞マークアップタグの間のテキスト部分を抽出する。なぜならこのテキストはテキストの論理的なグループ分けであるパラグラフに対応するからである。抽出中、これらの＜ＴＥＸＴ＞と＜／ＴＥＸＴ＞タグは省略される。テキスト・エクストラクタ１６の出力はしたがって、以下のようになる。

Ｓａｆｅｔｙｓｔａｎｄａｒｄｓｔｏｂｅｏｂｓｅｒｖｅｄｄｕｒｉｎｇ
ｒｅｐａｉｒｏｒｍａｉｎｔｅｎａｎｃｅｏｐｅｒ−ａｔｉｏｎｓｏｎｖｅｈｉｃｌｅｓｅｑｕｉｐｐｅｄｗｉｔｈａｉｒ−ｂａｇｓｙｓｔｅｍｓｐｒｏｖｉｄｅｄｂｙｔｈｅｓｕｐｐｌｉｅｒ

ここでテキストは現在、単なるシンボルの継続した文字列として扱われている。抽出されたタグから＜ＴＥＸＴ＞と＜／ＴＥＸＴ＞のマークアップタグを除去することは、以下の付加的なエラーを生じさせる。すなわち、「ｏｂｓｅｒｖｅｄｄｕｒｉｎｇ」（スペースの欠落）、「ｏｐｅｒ−ａｔｉｏｎｓ」（余分なハイフン）、および「ｗｉｔｈａｉｒ−ｂａｇ」（スペースの欠落）である。テキストコレクタ３０は、ＸＭＬへの変換中に導入されたエラーと、タグを除去することによって導入されたエラーの両方を修正する。マークアップタグの除去によって、導入されたエラーを修正することは、除去されたマークアップタグを超えたテキストの再フローを達成させる。テキストコレクタ３０の出力は以下のようになる。

Ｓａｆｅｔｙｓｔａｎｄａｒｄｓｔｏｂｅｏｂｓｅｒｖｅｄｄｕｒｉｎｇｒｅｐａｉｒｏｒｍａｉｎｔｅｎａｎｃｅｏｐｅｒａｔｉｏｎｓｏｎｖｅｈｉｃｌｅｓｅｑｕｉｐｐｅｄｗｉｔｈａｉｒ−ｂａｇｓｙｓｔｅｍｓｐｒｏｖｉｄｅｄｂｙｔｈｅｓｕｐｐｌｉｅｒ

最終的なテキストは、ＸＭＬへの変換によって導入されたエラーを修正して、テキストがテキストの論理的なパラグラフ・ブロックに対応するように再フローされる。

例示された実施形態において、辞書２２は、加重トークナイザ２０によって文書１０から導出される。テキストコレクタ３０の使用する外部辞書を用いることも考慮される。外部辞書は、言語内に発生する頻度或いは他の基準に基づいて前もって割り当てられる加重を有してもよいし、文書１０に特有な特徴、例えば文書１０内での発生頻度に基づいて割り当てられた加重を有してもよい。他に考慮された実施形態において、辞書が導出され、この導出された辞書は外部辞書４０によって補完される。

文書１０から抽出され、外部辞書４０によって随意的に補完される辞書の利点は、合成された辞書が文書１０にとって特有なものになることである。技術文書あるいは他の特殊な主題に関する文書を修正する場合、外部辞書は文書内で用いられた単語と他のトークンを総合的に網羅しない可能性がある。

図に示されたテキスト修正を含むＰＤＦからＸＭＬへの変換を用いて、機械に関する技術文書を修正する。表１は元のテキスト部分と対応する修正とを示している。テキストは、（ｉ）「ＥＮＧＩＮＥＥＲＩＮＧ」が修正されておらず、「ｃｈｅｃｋｉｎｇｂｅｎｄｉｎｇ」が不完全に修正され、「ｏｉｌｖａｐｏｕｒｆｕｌｌｒｅｃｉｒｃｕｌａｔｉｏｎｓｙｓｔｅｍ」（Ｂｌｏｗ −ｂｙ）が不完全に修正された場合を除く各場合において適切に修正されている。「ＥＮＧＩＮＥＥＲＩＮＧ」は文書中で一度しか出てこない単語であり、抽出された辞書が外部辞書によって補完されれば適切に修正されたと思われる。テキストの修正処理は、表１のリストの誤ったテキスト部分を実質的に修正することに加えて、元の正しいテキスト内にいかなるエラーを導入することもない。

図面は、欠落したスペースや余分なスペースあるいはハイフンを修正してＰＤＦ文書をＸＭＬ文書に変換する、テキスト変換および修正システムを示している。

Claims

文書において少なくとも一つの余分なあるいは欠落したスペースを修正する方法であって、
前記文書からテキストを抽出する工程と、
少なくとも、余分のスペースの除去と欠落したスペースの挿入とを含む一組の修正から選択された一つ以上の修正を、前記抽出されたテキストに選択的に適用することによって、前記抽出されたテキストから修正されたテキストの候補を構築する工程と、
少なくとも前記修正されたテキストの候補内のトークンのトークン加重に基づいて、前記修正されたテキスト候補に対応する修正加重を算出する工程と、
前記修正されたテキスト候補の修正加重に基づいて、前記修正されたテキスト候補から修正されたテキストを選択する工程と、を含むことを特徴とする方法。
前記文書からトークンの辞書を導出する工程と、
前記トークンの長さおよび前記文書内で発生する頻度に基づいて、加重を前記各トークンに割り当てる工程と更に含み、
前記修正されたテキストに対応する修正加重の算出において、前記割り当てられたトークン加重が使用されることを特徴とする請求項１に記載の方法。
前記一組の修正は、さらにハイフンの除去を含むことを特徴とする請求項１に記載の方法。
前記一組の修正は、さらに少なくともシンボルを変更しないことを含み、
前記修正されたテキストの選択は、
前記一組の修正から選択された修正の選択された順序付けシーケンスによって定義されるパスを有する再トークン化オートマトンを構築する工程と、
前記パスによって定義された修正されたテキスト候補の修正加重の各々に対して、再トークン化オートマトンのパスを最適化する工程と、を含むことを特徴とする請求項１に記載の方法。