JP2007073044A - Pdf変換器用テキスト修正 - Google Patents

Pdf変換器用テキスト修正 Download PDF

Info

Publication number
JP2007073044A
JP2007073044A JP2006234135A JP2006234135A JP2007073044A JP 2007073044 A JP2007073044 A JP 2007073044A JP 2006234135 A JP2006234135 A JP 2006234135A JP 2006234135 A JP2006234135 A JP 2006234135A JP 2007073044 A JP2007073044 A JP 2007073044A
Authority
JP
Japan
Prior art keywords
text
document
token
modified
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006234135A
Other languages
English (en)
Other versions
JP5105798B2 (ja
Inventor
Herve Dejean
ドゥジャン エルヴェ
Andre Kempe
ケンペ アンドレ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2007073044A publication Critical patent/JP2007073044A/ja
Application granted granted Critical
Publication of JP5105798B2 publication Critical patent/JP5105798B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/163Handling of whitespace
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Abstract

【課題】本発明は、非テキストフォーマットから変換することによって作成されたテキストベースの文書に取り込まれたエラーを修正することを目的とする。
【解決手段】文書において少なくとも一つの余分なあるいは欠落したスペースを修正する方法であって、前記文書からテキストを抽出する工程と、少なくとも、余分のスペースの除去と欠落したスペースの挿入とを含む一組の修正から選択された一つ以上の修正を、前記抽出されたテキストに選択的に適用することによって、前記抽出されたテキストから修正されたテキストの候補を構築する工程と、少なくとも前記修正されたテキストの候補内のトークンのトークン加重に基づいて、前記修正されたテキスト候補に対応する修正加重を算出する工程と、前記修正されたテキスト候補の修正加重に基づいて、前記修正されたテキスト候補から修正されたテキストを選択する工程と、を含むことを特徴とする方法を提供する。
【選択図】図1

Description

本発明は情報処理技術に関する。本発明は特に、非テキストフォーマットから変換することによって作成されたテキストベースの文書に取り込まれたエラーの修正に関し、これに特に関連するように記載されている。しかしながら以下はさらに一般的に、テキストとして直接に作成された、あるいは変換処理の使用を通して作成されたテキストベースの文書のエラー修正に関している。
テキストあるいはテキストベースのフォーマットへの文書変換は、文書の再利用を促進すること、内容の検索を可能にすること、文書の構築を容易にすることなどにとって、有用である。例えば、文書を、構造化された拡張可能マークアップ言語(XML)、ハイパーテキスト・マークアップ言語(HTML)、標準汎用マークアップ言語(SGML)、あるいは他のマークアップタグを含む構造化フォーマットに変換することによって、一般的な文書構造を用いる一体化された文書データベース環境が促進される。
元々ポータブル・ドキュメント・フォーマット(PDF)ファイルとしてフォーマット化された文書、あるいは他の非テキストフォーマットを、ASCIIファイル、リッチテキストフォーマット(RTF)、HTML文書、XML文書、SGML文書などのようなテキストフォーマットに変換することによって、エラーを導入する可能性が生じる。PDFをテキストへ変換する際に生じる最も一般的なエラーには、余分なスペースの導入(一語であるべきものを「分割」してしまう)、スペースの不適切な削除(「複数の単語をまとめる」)、および余分なハイフンの挿入あるいは保持が含まれる。このようなエラーは、例えば、複数のフォントサイズ、フォントスタイル、および/またはフォントタイプを有するPDFファイルや、ページレイアウトフォーマットのテキストの行の最後における単語のハイフンなどによって発生する可能性がある。フォントサイズ、フォントスタイル、フォントタイプ、あるいは特別なフォントの効果によるエラーは、変換されたセクションの見出し、表題、および拡張されたフォント、ボールド体、アンダーラインなどを用いる傾向のある他の「非標準」テキストにおいてさらに頻繁に生じる可能性がある。セクションの見出し、あるいは他の文書構造の注釈におけるエラーは、自動目次エクストラクタの性能、あるいはテキストに変換後に適用される他の自動文書構成動作の性能を低下させる可能性がある。
PDFあるいは他のフォーマットをXMLなどの構造化フォーマットに変換する場合、生じうるもう一種のエラーは、不適切なテキストフロー、あるいは不適切なテキストの遮断である。例えば、<PARAGRAPH></PARAGRAPH>、<TEXT></TEXT>などのXMLマークアップタグ対は、パラグラフあるいは他のテキストのブロックを描出するように、典型的に使用されている。一方、PDFおよび他のいくつかのページレイアウトフォーマットは、テキストをページ上の物理的な行で描出する。PDFあるいは他のページレイアウトフォーマットをXMLに変換する場合、たとえページ上の物理的な行が論理的なグループ分けあるいはテキストのブロックに対応していなくても、テキストの各々の物理的な行が、<TEXT></TEXT>などの適切なXMLマークアップタグ対によって描出されることも可能である。
本明細書に例示された本発明のある態様によると、文書内の少なくとも一つの余分のあるいは欠落したスペースを修正するための方法が提供される。テキストは文書から抽出される。少なくとも、(1)余分なスペースを削除すること、(2)欠落したスペースを挿入することを含む一組の修正から選択された一つ以上の修正を抽出されたテキストに選択的に適用することによって、修正されたテキストの候補が抽出されたテキストから構築される。修正の加重は、少なくとも修正されたテキスト候補内のトークンにおけるトークンの加重に基づいて、修正されたテキスト候補に対応して計算される。修正されたテキストは、修正されたテキスト候補の修正の加重に基づいて、修正されたテキスト候補から選択される。
本明細書に例示された本発明のある態様によると、文書内の少なくとも一つの余分のあるいは欠落したスペースを修正するための装置が提供される。本装置は加重トークンの辞書と、少なくとも(1)余分なスペースを削除すること、(2)欠落したスペースを挿入することを含む一組の修正から選択した一つ以上の修正を適用することによって、文書のテキストから修正されたテキストを生成するテキストコレクタを含む。前記修正の適用は、修正されたテキストのトークンにおける辞書の加重に対して最適化される。
本明細書に例示された本発明のある態様によると、文書内の少なくとも一つの余分のあるいは欠落したスペースを修正するための方法が提供される。加重は辞書に内蔵されたトークンに割り当てられる。各トークンは非スペース・シンボルの順序付けされたシーケンスによって定義される。加重は、トークンの長さと文書内のトークンの発生頻度のうちの少なくとも一つに基づいて割り当てられる。修正されたテキストは、少なくとも(1)スペースの除去、(2)スペースの挿入、および(3)シンボルのコピーを含むシンボル・レベル変換のグループから選択された、シンボル・レベル変換の順序付けされたシーケンスを適用することによって、文書のテキストから生成される。シンボル・レベル変換の順序付けされたシーケンスは、修正されたテキストのトークンの加重による目的関数の各々に対して最適化される。
図面を参照して、テキストベース文書10は、余分なスペース、余分なハイフン、あるいは欠落したスペースなどのエラーに関して修正されることになる。文書10は、例えば、PDF文書14をXMLに変換するPDF/XML変換器12によって生成されてもよい。この場合、例えば隣接するタグからテキストを連結させるとき、文書10はまたテキストフロー問題を有している場合もある。例えば、パラグラフを構築するために<TEXT>タグを削除することによって、テキストフロー問題が生じうる。図示された文書10はXML文書であるが、RTF、HTML、ASCIIなどのテキストベースフォーマットなどもまた、本明細書に記載された方法や装置を用いることによって修正されうる。
テキスト・エクストラクタ16は、処理用のテキストベース文書10からテキストの一部を抽出する。このテキストの一部は、例えばブロック描出マークアップタグ対によって描出された一部のような、文書のテキストの選択された一部であってもよいし、あるいは文書10のテキスト全体であってもよい。図示されたXML文書10の場合は、テキスト・エクストラクタ16が、抽出されたテキストから任意のマークアップタグを随意的に除去する。
加重トークナイザ20は文書10を処理して、それぞれが割り当てられたトークン加重26を有するトークン24を含む加重辞書22を生成する。例えば、各トークンは、文書10内に発生する非スペース・シンボルの順序付けされたシーケンスによって定義することが可能である。典型的に各トークンは一つ以上の文字からなる単語に対応しているが、トークンは数値、16進値、頭字語、英数文字列などにも対応することもできる。いくつかの実施形態において、トークンは文字の順序付けされたシーケンスに限定されているため、各トークンは単語、頭字語、あるいは他の文字のシーケンスに対応する。典型的に、加重トークナイザ20は、テキスト・エクストラクタ16によって抽出されるように文書10のテキスト全体を処理する。このときマークアップタグあるいは他の識別可能な文書マークアップは除去される。例えば、XMLノードおよびそれらの属性は除去され、テキストノードのみが抽出される。随意的に、辞書22は、文書10のテキスト全体からではなく文書10のテキストの選択された部分から生成されることが可能である。
加重トークナイザ20はまた、トークン24に対応するトークン加重26を割り当てる。各トークン加重は、テキスト内あるいはテキスト部分に現れる対応するトークンが「正確」である確度を示している。例えば、テキスト内に現われる長いトークン(すなわち多くのシンボルの順序付けされたシーケンスからなるトークン)は、エラーによって発生する可能性がより短いトークンよりも低い。同様に文書10内で頻繁に発生するトークンは、一度あるいは数回のみ発生するトークンに比べて、正確である可能性が高い。いくつかの実施形態において、トークン加重は下記に比例する。

length(token)×log(frequemcy(token)+1) (1)

ここで「token」はトークンを示し、「length(token)」はトークンの長さを示し、「frequemcy(token)」は文書内のトークンの発生頻度を示し、「log()」は一般的な、自然対数、あるいは他の対数関数を示す。数式(1)によるトークン加重において、比較的大きい加重が、長いトークンや文書10内で頻繁に発生するトークンに好適に割り当てられる。
テキストコレクタ30は、文書10からテキスト・エクストラクタ16によって抽出されたテキストを受け取り、そのテキストにシンボル・レベル変換32を適用し、余分なスペース、欠落したスペース、および余分なハイフンなどのエラーがほぼ除去されたような修正済みのテキスト34を生成する。余分のまたは欠落したスペースの修正を可能にするためには、シンボル・レベル変換32は、少なくとも、スペースをテキストに挿入するためのスペース挿入シンボル・レベル変換と、スペースをテキストから除去するためのスペース除去シンボル・レベル変換を含まなければならない。テキストからハイフンを除去するハイフン除去シンボル・レベル変換や、ハイフンをテキストに挿入するハイフン挿入シンボル・レベル変換などの付加的な修正シンボル・レベル変換32を含むことも可能である。
例示された方法において、テキストコレクタ30は、シンボル・レベル変換の順序付けされたシーケンスをテキストに当てはめる再トークン化オートマトンを生成する、再トークン化オートマトン生成装置36を含む。順序付けされたシーケンスのシンボル・レベル変換は、シンボル・レベル変換32のグループから選択される。オートマトンあるいは変換器を用いる実施形態においては、シンボル・レベル変換32は、変更なしでテキストのシンボルをコピー又はマッピングするシンボルコピー変換を適切に含む。加重オートマトンパス・オプティマイザ38は、再トークン化オートマトンを定義するシンボル・レベル変換の順序付けられたシーケンスを最適化して、少なくともオートマトンによって出力された修正済みのテキストのトークンの加重に機能的に依存している目的関数を最適化する。例えば、いくつかの最適化方法においては、抽出されたテキストに適用されるとき、シンボル・レベル変換の順序付けられたシーケンスの各々は、修正されたテキスト候補を定義する。この修正されたテキスト候補は、目的関数を用いて計算された対応する修正加重と関連しており、オプティマイザ38は、修正加重に基づく修正されたテキスト候補から、修正されたテキストを選択する。
例示された方法によるある実施形態において、シンボル・レベル変換32のグループは以下のようなセットになる。

Ts={%:0,0:%,?:?} (2)

ここでTsはシンボル・レベル変換のグループあるいはセットを示し、「%」はスペースを示し、「0」は任意のシンボルの欠如を示し、「?」は任意のシンボルを示し、「%:0」はスペースを除去する場合のシンボル・レベル変換を示し、「0:%」はスペースを挿入する場合のシンボル・レベル変換を示し、「?:?」は変更なしでシンボルをコピー又はマッピングする場合のシンボル・レベル変換を示す。他のシンボル・レベル変換も含むことが可能である。例えば、余分のハイフンを除去できることが望まれる場合、数式(2)の変換のセットは以下のように選択することができる。

Ts={%:0,0:%,−:0,?:?} (3)

ここで「−:0」はハイフンを除去するための付加的なシンボル・レベル変換を示している。
再トークン化は以下の数式によって適切に示されている。

修正されたテキスト候補=S.o.Ts*.o.D* (4)

ここで「S」は修正されるべき抽出されたテキストを示し、「Ts*」は再トークン化オートマトンを示し、「D」は辞書22を示し、シンボル「.o.」は変換構成動作を示し、シンボル「*」は文字列Sが辞書エントリのシーケンス(最終的には空白)からなることを示すクリーネ・スターを示している。各修正済みのテキスト候補の各々に関する修正加重は、例えば、各文字のトークン加重の積あるいは合計として適切に算出される。
いくつかの実施形態において、各シンボル・レベル変換には、修正済みのテキスト候補を評価するために用いられる目的関数に盛り込まれる加重も割り当てられる。例えば、目的関数は、トークンの加重とシンボル・レベル変換加重との積の修正されたテキストの合計又は積であってもよい。シンボル・レベル変換加重は例えば、試行錯誤に基づいて手動で設定されてもよいし、テキスト対<s1,s2>からなるトレーニングセットを用いて自動的に調整されてもよい。このとき、s1は正確なテキストであり、s2は対応するエラーを有するテキストである。例えば、間違ったテキストs2は、s1テキストを無作為に改悪することによって、あるいは変換過程においてエラーを呈する改悪アルゴリズムに基づいて、生成されることもある。トレーニングはシンボル・レベル変換加重を最適化して、テキストコレクタ30を用いて、対応するs1テキストサンプルに順調に修正される改悪されたs2テキストサンプルの数を最大化する。
テスト運転において、テキストコレクタ30の効果はシンボル・レベル変換の相対的な加重に依存していることが判明した。いくつかの実施形態においてスペース除去変換「%:0」には、最適化がスペースの除去に偏向するように、実質的に他のシンボル・レベル変換より高い加重が割り当てられる。この偏向は、PDF変換のプロセスにおいて、余分のスペースの挿入が、余分なハイフンの挿入、あるいは誤ったスペース省略などの他のエラーの導入よりも頻繁に起こる傾向がある、ある変換されたPDF文書に関して有利であることが発見された。「%:0」スペース除去変換に対して5、「0:%」スペース挿入変換に対して0.5、および「?:?」シンボルコピー変換に対して0.5の加重が、変換されたPDF文書の修正にとって、効果があることが発見された。「−:0」ハイフン除去変換も含む数式(4)のシンボル・レベル変換のセットに関して、「−:0」ハイフン除去変換に0.5の加重を割り当てることもまた、変換されたPDF文書の修正にとって、効果があることが発見された。
種々の最適化技術が用いられて、数式(4)の再トークン化を最適することが可能になる。いくつかの実施形態においては、ビタビ最適化アルゴリズムを用いることによって、パスによって定義された修正済みのテキスト候補の修正加重の各々に対して、再トークン化オートマトンのパスが最適化される。ビタビアルゴリズムは、例えば、Fortney Jr.,“The Viterbi Algorithm”Proc.of the IEEE vol.61,no.3,pp.268−78(1973)に記載されている。ビタビ最適化においては、可能なパスの数が典型的に多いため、これに対して有利な線形時間内で最良のパスが発見される。いくつかの実施形態において、最適化は、広範囲の最適パスではない最適化されたパスを識別してもよい。例えば、最適化は、そのパスが選択された最適化終了閾値を通過する修正加重を有しているときに、終了してもよい。
修正すべきテキストは、テキスト・エクストラクタ16によって文書10から抽出される。文書10が、HTML文書、XML文書、SGML文書などのマークアップ付きの構造化文書であれば、テキスト・エクストラクタ16は随意的にテキストから任意のマークアップタグを除去する。マークアップタグが除去されるとき、除去されたタグの前後のトークンは誤って連結されることもあり(すなわち、スペースが欠落する)、あるいは余分のハイフン等を含むこともある。例えば、ページレイアウトフォーマットからXMLフォーマットに変換された文書の以下の部分を考えたい。

<PARAGRAPH>
<TEXT> Safe ty standards to be observed </TEXT>(遵守すべき安全標準)
<TEXT> during repair or maintenance oper−</TEXT> (修理あるいは保守中)
<TEXT> ations on vehicles equipped with </TEXT> (が設けられた車両における動作)
<TEXT> air−bag systems provided by the supplier </TEXT> (供給者によって提供されたエアバッグシステム)
</PARAGRAPH>

このテキストには、XMLマークアップによってページレイアウトフォーマットからテキストフォーマットへの変換中に導入された一つのエラー(「Safe ty」、余分なスペース)が含まれる。さらにXMLへの変換は、<TEXT>と</TEXT>とのタグ対で各行を描出することによって、テキストの4行の物理的なレイアウトを保持した。言い換えれば、源ページレイアウト文書におけるテキストの物理的な各行は、XML文書の一枚として変換される。これらの<TEXT>と</TEXT>との描出は好ましくない。なぜならページレイアウトフォーマットの行がテキストの論理的なグループ分け又はテキブロックに対応していないからである。よってテキスト・エクストラクタ16は、<PARAGRAPH>と</PARAGRAPH>マークアップタグの間のテキスト部分を抽出する。なぜならこのテキストはテキストの論理的なグループ分けであるパラグラフに対応するからである。抽出中、これらの<TEXT>と</TEXT>タグは省略される。テキスト・エクストラクタ16の出力はしたがって、以下のようになる。

Safe ty standards to be observedduring
repair or maintenance oper−ations on vehicles equipped withair−bag systems provided by the supplier

ここでテキストは現在、単なるシンボルの継続した文字列として扱われている。抽出されたタグから<TEXT>と</TEXT>のマークアップタグを除去することは、以下の付加的なエラーを生じさせる。すなわち、「observedduring」(スペースの欠落)、「oper−ations」(余分なハイフン)、および「withair−bag」(スペースの欠落)である。テキストコレクタ30は、XMLへの変換中に導入されたエラーと、タグを除去することによって導入されたエラーの両方を修正する。マークアップタグの除去によって、導入されたエラーを修正することは、除去されたマークアップタグを超えたテキストの再フローを達成させる。テキストコレクタ30の出力は以下のようになる。

Safety standards to be observed during repair or maintenance operations on vehicles equipped with air−bag systems provided by the supplier

最終的なテキストは、XMLへの変換によって導入されたエラーを修正して、テキストがテキストの論理的なパラグラフ・ブロックに対応するように再フローされる。
例示された実施形態において、辞書22は、加重トークナイザ20によって文書10から導出される。テキストコレクタ30の使用する外部辞書を用いることも考慮される。外部辞書は、言語内に発生する頻度或いは他の基準に基づいて前もって割り当てられる加重を有してもよいし、文書10に特有な特徴、例えば文書10内での発生頻度に基づいて割り当てられた加重を有してもよい。他に考慮された実施形態において、辞書が導出され、この導出された辞書は外部辞書40によって補完される。
文書10から抽出され、外部辞書40によって随意的に補完される辞書の利点は、合成された辞書が文書10にとって特有なものになることである。技術文書あるいは他の特殊な主題に関する文書を修正する場合、外部辞書は文書内で用いられた単語と他のトークンを総合的に網羅しない可能性がある。
図に示されたテキスト修正を含むPDFからXMLへの変換を用いて、機械に関する技術文書を修正する。表1は元のテキスト部分と対応する修正とを示している。テキストは、(i)「ENGINEERING」が修正されておらず、「ch ec kin g b en d in g」が不完全に修正され、「oil vap ou r full r e cir cu lat ion s ys t em」(B low −by)が不完全に修正された場合を除く各場合において適切に修正されている。「ENGINEERING」は文書中で一度しか出てこない単語であり、抽出された辞書が外部辞書によって補完されれば適切に修正されたと思われる。テキストの修正処理は、表1のリストの誤ったテキスト部分を実質的に修正することに加えて、元の正しいテキスト内にいかなるエラーを導入することもない。
Figure 2007073044
図面は、欠落したスペースや余分なスペースあるいはハイフンを修正してPDF文書をXML文書に変換する、テキスト変換および修正システムを示している。

Claims (4)

  1. 文書において少なくとも一つの余分なあるいは欠落したスペースを修正する方法であって、
    前記文書からテキストを抽出する工程と、
    少なくとも、余分のスペースの除去と欠落したスペースの挿入とを含む一組の修正から選択された一つ以上の修正を、前記抽出されたテキストに選択的に適用することによって、前記抽出されたテキストから修正されたテキストの候補を構築する工程と、
    少なくとも前記修正されたテキストの候補内のトークンのトークン加重に基づいて、前記修正されたテキスト候補に対応する修正加重を算出する工程と、
    前記修正されたテキスト候補の修正加重に基づいて、前記修正されたテキスト候補から修正されたテキストを選択する工程と、を含むことを特徴とする方法。
  2. 前記文書からトークンの辞書を導出する工程と、
    前記トークンの長さおよび前記文書内で発生する頻度に基づいて、加重を前記各トークンに割り当てる工程と更に含み、
    前記修正されたテキストに対応する修正加重の算出において、前記割り当てられたトークン加重が使用されることを特徴とする請求項1に記載の方法。
  3. 前記一組の修正は、さらにハイフンの除去を含むことを特徴とする請求項1に記載の方法。
  4. 前記一組の修正は、さらに少なくともシンボルを変更しないことを含み、
    前記修正されたテキストの選択は、
    前記一組の修正から選択された修正の選択された順序付けシーケンスによって定義されるパスを有する再トークン化オートマトンを構築する工程と、
    前記パスによって定義された修正されたテキスト候補の修正加重の各々に対して、再トークン化オートマトンのパスを最適化する工程と、を含むことを特徴とする請求項1に記載の方法。
JP2006234135A 2005-09-02 2006-08-30 Pdf変換器用テキスト修正 Expired - Fee Related JP5105798B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/219496 2005-09-02
US11/219,496 US7827484B2 (en) 2005-09-02 2005-09-02 Text correction for PDF converters

Publications (2)

Publication Number Publication Date
JP2007073044A true JP2007073044A (ja) 2007-03-22
JP5105798B2 JP5105798B2 (ja) 2012-12-26

Family

ID=37831324

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006234135A Expired - Fee Related JP5105798B2 (ja) 2005-09-02 2006-08-30 Pdf変換器用テキスト修正

Country Status (2)

Country Link
US (1) US7827484B2 (ja)
JP (1) JP5105798B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008171400A (ja) * 2006-12-13 2008-07-24 Canon Inc 文書処理方法及び文書処理装置
KR20100051424A (ko) * 2008-11-07 2010-05-17 주식회사 솔리데오시스템즈 시설물 관리 시스템 및 제공방법
JP2015531513A (ja) * 2012-09-07 2015-11-02 アメリカン ケミカル ソサイエティ 自動構成評価器

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100912502B1 (ko) * 2007-07-27 2009-08-17 한국전자통신연구원 Pdf 파일을 대상으로 하는 자동 번역 방법
US8161023B2 (en) * 2008-10-13 2012-04-17 Internatioanal Business Machines Corporation Inserting a PDF shared resource back into a PDF statement
US8423353B2 (en) * 2009-03-25 2013-04-16 Microsoft Corporation Sharable distributed dictionary for applications
US8099397B2 (en) * 2009-08-26 2012-01-17 International Business Machines Corporation Apparatus, system, and method for improved portable document format (“PDF”) document archiving
US20110258535A1 (en) * 2010-04-20 2011-10-20 Scribd, Inc. Integrated document viewer with automatic sharing of reading-related activities across external social networks
US8340425B2 (en) 2010-08-10 2012-12-25 Xerox Corporation Optical character recognition with two-pass zoning
GB201200643D0 (en) 2012-01-16 2012-02-29 Touchtype Ltd System and method for inputting text
US9542479B2 (en) * 2011-02-15 2017-01-10 Telenav, Inc. Navigation system with rule based point of interest classification mechanism and method of operation thereof
JP5594269B2 (ja) * 2011-09-29 2014-09-24 コニカミノルタ株式会社 ファイル名作成装置、画像形成装置、およびファイル名作成プログラム
WO2013110286A1 (en) 2012-01-23 2013-08-01 Microsoft Corporation Paragraph property detection and style reconstruction engine
CN104081320B (zh) * 2012-01-27 2017-12-12 触摸式有限公司 用户数据输入预测
US8881005B2 (en) * 2012-04-20 2014-11-04 King Abdulaziz City For Science And Technology Methods and systems for large-scale statistical misspelling correction
WO2014005609A1 (en) 2012-07-06 2014-01-09 Microsoft Corporation Paragraph alignment detection and region-based section reconstruction
US8843845B2 (en) 2012-10-16 2014-09-23 Google Inc. Multi-gesture text input prediction
US8850350B2 (en) 2012-10-16 2014-09-30 Google Inc. Partial gesture text entry
US8701032B1 (en) * 2012-10-16 2014-04-15 Google Inc. Incremental multi-word recognition
US8832589B2 (en) 2013-01-15 2014-09-09 Google Inc. Touch keyboard using language and spatial models
CN104516868B (zh) * 2013-09-30 2018-03-06 北大方正集团有限公司 一种版面空格的流式还原方法与系统
US9940305B2 (en) * 2013-11-06 2018-04-10 Documill Oy Preparation of textual content
CN104615591B (zh) * 2015-03-10 2019-02-05 上海触乐信息科技有限公司 基于上下文的前向输入纠错方法和装置
US10402486B2 (en) * 2017-02-15 2019-09-03 LAWPRCT, Inc. Document conversion, annotation, and data capturing system
GB2587923A (en) * 2018-02-28 2021-04-14 Kahn Rocky Document viewer aligning PDF and XML
US11003835B2 (en) * 2018-10-16 2021-05-11 Atos Syntel, Inc. System and method to convert a webpage built on a legacy framework to a webpage compatible with a target framework

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04195692A (ja) * 1990-11-28 1992-07-15 Toshiba Corp 文書読取装置
JP2004536369A (ja) * 2001-02-13 2004-12-02 株式会社ジャストシステム テキストに対するユーザの変更および修正によって学習するコンピュータを用いた学習方法および学習装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5572423A (en) * 1990-06-14 1996-11-05 Lucent Technologies Inc. Method for correcting spelling using error frequencies
DE4323241A1 (de) * 1993-07-12 1995-02-02 Ibm Verfahren und Computersystem zur Suche fehlerhafter Zeichenketten in einem Text
US5933525A (en) * 1996-04-10 1999-08-03 Bbn Corporation Language-independent and segmentation-free optical character recognition system and method
US6043802A (en) * 1996-12-17 2000-03-28 Ricoh Company, Ltd. Resolution reduction technique for displaying documents on a monitor
US6167369A (en) * 1998-12-23 2000-12-26 Xerox Company Automatic language identification using both N-gram and word information
US6618697B1 (en) 1999-05-14 2003-09-09 Justsystem Corporation Method for rule-based correction of spelling and grammar errors
US7356760B2 (en) * 2001-02-15 2008-04-08 Nbor Corporation System and method for editing an electronic document of text and graphic objects
US7380203B2 (en) * 2002-05-14 2008-05-27 Microsoft Corporation Natural input recognition tool
US20070016862A1 (en) * 2005-07-15 2007-01-18 Microth, Inc. Input guessing systems, methods, and computer program products

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04195692A (ja) * 1990-11-28 1992-07-15 Toshiba Corp 文書読取装置
JP2004536369A (ja) * 2001-02-13 2004-12-02 株式会社ジャストシステム テキストに対するユーザの変更および修正によって学習するコンピュータを用いた学習方法および学習装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008171400A (ja) * 2006-12-13 2008-07-24 Canon Inc 文書処理方法及び文書処理装置
KR20100051424A (ko) * 2008-11-07 2010-05-17 주식회사 솔리데오시스템즈 시설물 관리 시스템 및 제공방법
KR101698851B1 (ko) 2008-11-07 2017-01-24 주식회사 솔리데오시스템즈 시설물 관리 시스템과 이의 작동 방법
JP2015531513A (ja) * 2012-09-07 2015-11-02 アメリカン ケミカル ソサイエティ 自動構成評価器

Also Published As

Publication number Publication date
JP5105798B2 (ja) 2012-12-26
US7827484B2 (en) 2010-11-02
US20070055933A1 (en) 2007-03-08

Similar Documents

Publication Publication Date Title
JP5105798B2 (ja) Pdf変換器用テキスト修正
US11037028B2 (en) Computer-implemented method of creating a translation model for low resource language pairs and a machine translation system using this translation model
US8108202B2 (en) Machine translation method for PDF file
EP0281742B1 (en) Method for verifying spelling of compound words
US8302002B2 (en) Structuring document based on table of contents
US8069033B2 (en) Document based character ambiguity resolution
JP2002269499A (ja) 数式認識装置および数式認識方法並びに文字認識装置および文字認識方法
JP2002312357A (ja) 機械翻訳用辞書登録装置、機械翻訳用辞書登録方法、機械翻訳装置、機械翻訳方法及び記録媒体
US20020016796A1 (en) Document processing method, system and medium
JP3794716B2 (ja) 単語を語形変化させる方法及びその方法を実行するデータ処理装置
Basri et al. Automatic spell checker for Malay blog
US10896292B1 (en) OCR error correction
CN112182353A (zh) 用于信息搜索的方法、电子设备和存储介质
Hocking et al. Optical character recognition for South African languages
Isroilov et al. Personal names spell-checking–a study related to Uzbek
CN104239294A (zh) 藏汉翻译系统的多策略藏语长句切分方法
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质
JP3398729B2 (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JP5057916B2 (ja) 固有表現抽出装置、その方法、プログラム及び記録媒体
EP3674929A1 (en) A computer-implemented method of creating a translation model for low resource language pairs and a machine translation system using this translation model
KR100434526B1 (ko) 문맥정보및지역적문서형태를이용한문장추출방법
Kodydek A word analysis system for German hyphenation, full text search, and spell checking, with regard to the latest reform of German orthography
EP1711936A2 (fr) Procede de correspondance automatique entre des elements graphiques et des elements phonetiques
CN112001168A (zh) 词语纠错方法、装置、电子设备及存储介质
CN115099248A (zh) 翻译方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120228

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121002

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151012

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees