JP2007073044A - Pdf変換器用テキスト修正 - Google Patents
Pdf変換器用テキスト修正 Download PDFInfo
- Publication number
- JP2007073044A JP2007073044A JP2006234135A JP2006234135A JP2007073044A JP 2007073044 A JP2007073044 A JP 2007073044A JP 2006234135 A JP2006234135 A JP 2006234135A JP 2006234135 A JP2006234135 A JP 2006234135A JP 2007073044 A JP2007073044 A JP 2007073044A
- Authority
- JP
- Japan
- Prior art keywords
- text
- document
- token
- modified
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/163—Handling of whitespace
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Abstract
【解決手段】文書において少なくとも一つの余分なあるいは欠落したスペースを修正する方法であって、前記文書からテキストを抽出する工程と、少なくとも、余分のスペースの除去と欠落したスペースの挿入とを含む一組の修正から選択された一つ以上の修正を、前記抽出されたテキストに選択的に適用することによって、前記抽出されたテキストから修正されたテキストの候補を構築する工程と、少なくとも前記修正されたテキストの候補内のトークンのトークン加重に基づいて、前記修正されたテキスト候補に対応する修正加重を算出する工程と、前記修正されたテキスト候補の修正加重に基づいて、前記修正されたテキスト候補から修正されたテキストを選択する工程と、を含むことを特徴とする方法を提供する。
【選択図】図1
Description
length(token)×log(frequemcy(token)+1) (1)
ここで「token」はトークンを示し、「length(token)」はトークンの長さを示し、「frequemcy(token)」は文書内のトークンの発生頻度を示し、「log()」は一般的な、自然対数、あるいは他の対数関数を示す。数式(1)によるトークン加重において、比較的大きい加重が、長いトークンや文書10内で頻繁に発生するトークンに好適に割り当てられる。
Ts={%:0,0:%,?:?} (2)
ここでTsはシンボル・レベル変換のグループあるいはセットを示し、「%」はスペースを示し、「0」は任意のシンボルの欠如を示し、「?」は任意のシンボルを示し、「%:0」はスペースを除去する場合のシンボル・レベル変換を示し、「0:%」はスペースを挿入する場合のシンボル・レベル変換を示し、「?:?」は変更なしでシンボルをコピー又はマッピングする場合のシンボル・レベル変換を示す。他のシンボル・レベル変換も含むことが可能である。例えば、余分のハイフンを除去できることが望まれる場合、数式(2)の変換のセットは以下のように選択することができる。
Ts={%:0,0:%,−:0,?:?} (3)
ここで「−:0」はハイフンを除去するための付加的なシンボル・レベル変換を示している。
修正されたテキスト候補=S.o.Ts*.o.D* (4)
ここで「S」は修正されるべき抽出されたテキストを示し、「Ts*」は再トークン化オートマトンを示し、「D」は辞書22を示し、シンボル「.o.」は変換構成動作を示し、シンボル「*」は文字列Sが辞書エントリのシーケンス(最終的には空白)からなることを示すクリーネ・スターを示している。各修正済みのテキスト候補の各々に関する修正加重は、例えば、各文字のトークン加重の積あるいは合計として適切に算出される。
<PARAGRAPH>
<TEXT> Safe ty standards to be observed </TEXT>(遵守すべき安全標準)
<TEXT> during repair or maintenance oper−</TEXT> (修理あるいは保守中)
<TEXT> ations on vehicles equipped with </TEXT> (が設けられた車両における動作)
<TEXT> air−bag systems provided by the supplier </TEXT> (供給者によって提供されたエアバッグシステム)
</PARAGRAPH>
このテキストには、XMLマークアップによってページレイアウトフォーマットからテキストフォーマットへの変換中に導入された一つのエラー(「Safe ty」、余分なスペース)が含まれる。さらにXMLへの変換は、<TEXT>と</TEXT>とのタグ対で各行を描出することによって、テキストの4行の物理的なレイアウトを保持した。言い換えれば、源ページレイアウト文書におけるテキストの物理的な各行は、XML文書の一枚として変換される。これらの<TEXT>と</TEXT>との描出は好ましくない。なぜならページレイアウトフォーマットの行がテキストの論理的なグループ分け又はテキブロックに対応していないからである。よってテキスト・エクストラクタ16は、<PARAGRAPH>と</PARAGRAPH>マークアップタグの間のテキスト部分を抽出する。なぜならこのテキストはテキストの論理的なグループ分けであるパラグラフに対応するからである。抽出中、これらの<TEXT>と</TEXT>タグは省略される。テキスト・エクストラクタ16の出力はしたがって、以下のようになる。
Safe ty standards to be observedduring
repair or maintenance oper−ations on vehicles equipped withair−bag systems provided by the supplier
ここでテキストは現在、単なるシンボルの継続した文字列として扱われている。抽出されたタグから<TEXT>と</TEXT>のマークアップタグを除去することは、以下の付加的なエラーを生じさせる。すなわち、「observedduring」(スペースの欠落)、「oper−ations」(余分なハイフン)、および「withair−bag」(スペースの欠落)である。テキストコレクタ30は、XMLへの変換中に導入されたエラーと、タグを除去することによって導入されたエラーの両方を修正する。マークアップタグの除去によって、導入されたエラーを修正することは、除去されたマークアップタグを超えたテキストの再フローを達成させる。テキストコレクタ30の出力は以下のようになる。
Safety standards to be observed during repair or maintenance operations on vehicles equipped with air−bag systems provided by the supplier
最終的なテキストは、XMLへの変換によって導入されたエラーを修正して、テキストがテキストの論理的なパラグラフ・ブロックに対応するように再フローされる。
Claims (4)
- 文書において少なくとも一つの余分なあるいは欠落したスペースを修正する方法であって、
前記文書からテキストを抽出する工程と、
少なくとも、余分のスペースの除去と欠落したスペースの挿入とを含む一組の修正から選択された一つ以上の修正を、前記抽出されたテキストに選択的に適用することによって、前記抽出されたテキストから修正されたテキストの候補を構築する工程と、
少なくとも前記修正されたテキストの候補内のトークンのトークン加重に基づいて、前記修正されたテキスト候補に対応する修正加重を算出する工程と、
前記修正されたテキスト候補の修正加重に基づいて、前記修正されたテキスト候補から修正されたテキストを選択する工程と、を含むことを特徴とする方法。 - 前記文書からトークンの辞書を導出する工程と、
前記トークンの長さおよび前記文書内で発生する頻度に基づいて、加重を前記各トークンに割り当てる工程と更に含み、
前記修正されたテキストに対応する修正加重の算出において、前記割り当てられたトークン加重が使用されることを特徴とする請求項1に記載の方法。 - 前記一組の修正は、さらにハイフンの除去を含むことを特徴とする請求項1に記載の方法。
- 前記一組の修正は、さらに少なくともシンボルを変更しないことを含み、
前記修正されたテキストの選択は、
前記一組の修正から選択された修正の選択された順序付けシーケンスによって定義されるパスを有する再トークン化オートマトンを構築する工程と、
前記パスによって定義された修正されたテキスト候補の修正加重の各々に対して、再トークン化オートマトンのパスを最適化する工程と、を含むことを特徴とする請求項1に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/219496 | 2005-09-02 | ||
US11/219,496 US7827484B2 (en) | 2005-09-02 | 2005-09-02 | Text correction for PDF converters |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007073044A true JP2007073044A (ja) | 2007-03-22 |
JP5105798B2 JP5105798B2 (ja) | 2012-12-26 |
Family
ID=37831324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006234135A Expired - Fee Related JP5105798B2 (ja) | 2005-09-02 | 2006-08-30 | Pdf変換器用テキスト修正 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7827484B2 (ja) |
JP (1) | JP5105798B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008171400A (ja) * | 2006-12-13 | 2008-07-24 | Canon Inc | 文書処理方法及び文書処理装置 |
KR20100051424A (ko) * | 2008-11-07 | 2010-05-17 | 주식회사 솔리데오시스템즈 | 시설물 관리 시스템 및 제공방법 |
JP2015531513A (ja) * | 2012-09-07 | 2015-11-02 | アメリカン ケミカル ソサイエティ | 自動構成評価器 |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100912502B1 (ko) * | 2007-07-27 | 2009-08-17 | 한국전자통신연구원 | Pdf 파일을 대상으로 하는 자동 번역 방법 |
US8161023B2 (en) * | 2008-10-13 | 2012-04-17 | Internatioanal Business Machines Corporation | Inserting a PDF shared resource back into a PDF statement |
US8423353B2 (en) * | 2009-03-25 | 2013-04-16 | Microsoft Corporation | Sharable distributed dictionary for applications |
US8099397B2 (en) * | 2009-08-26 | 2012-01-17 | International Business Machines Corporation | Apparatus, system, and method for improved portable document format (“PDF”) document archiving |
US20110258535A1 (en) * | 2010-04-20 | 2011-10-20 | Scribd, Inc. | Integrated document viewer with automatic sharing of reading-related activities across external social networks |
US8340425B2 (en) | 2010-08-10 | 2012-12-25 | Xerox Corporation | Optical character recognition with two-pass zoning |
GB201200643D0 (en) | 2012-01-16 | 2012-02-29 | Touchtype Ltd | System and method for inputting text |
US9542479B2 (en) * | 2011-02-15 | 2017-01-10 | Telenav, Inc. | Navigation system with rule based point of interest classification mechanism and method of operation thereof |
JP5594269B2 (ja) * | 2011-09-29 | 2014-09-24 | コニカミノルタ株式会社 | ファイル名作成装置、画像形成装置、およびファイル名作成プログラム |
WO2013110286A1 (en) | 2012-01-23 | 2013-08-01 | Microsoft Corporation | Paragraph property detection and style reconstruction engine |
CN104081320B (zh) * | 2012-01-27 | 2017-12-12 | 触摸式有限公司 | 用户数据输入预测 |
US8881005B2 (en) * | 2012-04-20 | 2014-11-04 | King Abdulaziz City For Science And Technology | Methods and systems for large-scale statistical misspelling correction |
WO2014005609A1 (en) | 2012-07-06 | 2014-01-09 | Microsoft Corporation | Paragraph alignment detection and region-based section reconstruction |
US8843845B2 (en) | 2012-10-16 | 2014-09-23 | Google Inc. | Multi-gesture text input prediction |
US8850350B2 (en) | 2012-10-16 | 2014-09-30 | Google Inc. | Partial gesture text entry |
US8701032B1 (en) * | 2012-10-16 | 2014-04-15 | Google Inc. | Incremental multi-word recognition |
US8832589B2 (en) | 2013-01-15 | 2014-09-09 | Google Inc. | Touch keyboard using language and spatial models |
CN104516868B (zh) * | 2013-09-30 | 2018-03-06 | 北大方正集团有限公司 | 一种版面空格的流式还原方法与系统 |
US9940305B2 (en) * | 2013-11-06 | 2018-04-10 | Documill Oy | Preparation of textual content |
CN104615591B (zh) * | 2015-03-10 | 2019-02-05 | 上海触乐信息科技有限公司 | 基于上下文的前向输入纠错方法和装置 |
US10402486B2 (en) * | 2017-02-15 | 2019-09-03 | LAWPRCT, Inc. | Document conversion, annotation, and data capturing system |
GB2587923A (en) * | 2018-02-28 | 2021-04-14 | Kahn Rocky | Document viewer aligning PDF and XML |
US11003835B2 (en) * | 2018-10-16 | 2021-05-11 | Atos Syntel, Inc. | System and method to convert a webpage built on a legacy framework to a webpage compatible with a target framework |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04195692A (ja) * | 1990-11-28 | 1992-07-15 | Toshiba Corp | 文書読取装置 |
JP2004536369A (ja) * | 2001-02-13 | 2004-12-02 | 株式会社ジャストシステム | テキストに対するユーザの変更および修正によって学習するコンピュータを用いた学習方法および学習装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5572423A (en) * | 1990-06-14 | 1996-11-05 | Lucent Technologies Inc. | Method for correcting spelling using error frequencies |
DE4323241A1 (de) * | 1993-07-12 | 1995-02-02 | Ibm | Verfahren und Computersystem zur Suche fehlerhafter Zeichenketten in einem Text |
US5933525A (en) * | 1996-04-10 | 1999-08-03 | Bbn Corporation | Language-independent and segmentation-free optical character recognition system and method |
US6043802A (en) * | 1996-12-17 | 2000-03-28 | Ricoh Company, Ltd. | Resolution reduction technique for displaying documents on a monitor |
US6167369A (en) * | 1998-12-23 | 2000-12-26 | Xerox Company | Automatic language identification using both N-gram and word information |
US6618697B1 (en) | 1999-05-14 | 2003-09-09 | Justsystem Corporation | Method for rule-based correction of spelling and grammar errors |
US7356760B2 (en) * | 2001-02-15 | 2008-04-08 | Nbor Corporation | System and method for editing an electronic document of text and graphic objects |
US7380203B2 (en) * | 2002-05-14 | 2008-05-27 | Microsoft Corporation | Natural input recognition tool |
US20070016862A1 (en) * | 2005-07-15 | 2007-01-18 | Microth, Inc. | Input guessing systems, methods, and computer program products |
-
2005
- 2005-09-02 US US11/219,496 patent/US7827484B2/en not_active Expired - Fee Related
-
2006
- 2006-08-30 JP JP2006234135A patent/JP5105798B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04195692A (ja) * | 1990-11-28 | 1992-07-15 | Toshiba Corp | 文書読取装置 |
JP2004536369A (ja) * | 2001-02-13 | 2004-12-02 | 株式会社ジャストシステム | テキストに対するユーザの変更および修正によって学習するコンピュータを用いた学習方法および学習装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008171400A (ja) * | 2006-12-13 | 2008-07-24 | Canon Inc | 文書処理方法及び文書処理装置 |
KR20100051424A (ko) * | 2008-11-07 | 2010-05-17 | 주식회사 솔리데오시스템즈 | 시설물 관리 시스템 및 제공방법 |
KR101698851B1 (ko) | 2008-11-07 | 2017-01-24 | 주식회사 솔리데오시스템즈 | 시설물 관리 시스템과 이의 작동 방법 |
JP2015531513A (ja) * | 2012-09-07 | 2015-11-02 | アメリカン ケミカル ソサイエティ | 自動構成評価器 |
Also Published As
Publication number | Publication date |
---|---|
JP5105798B2 (ja) | 2012-12-26 |
US7827484B2 (en) | 2010-11-02 |
US20070055933A1 (en) | 2007-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5105798B2 (ja) | Pdf変換器用テキスト修正 | |
US11037028B2 (en) | Computer-implemented method of creating a translation model for low resource language pairs and a machine translation system using this translation model | |
US8108202B2 (en) | Machine translation method for PDF file | |
EP0281742B1 (en) | Method for verifying spelling of compound words | |
US8302002B2 (en) | Structuring document based on table of contents | |
US8069033B2 (en) | Document based character ambiguity resolution | |
JP2002269499A (ja) | 数式認識装置および数式認識方法並びに文字認識装置および文字認識方法 | |
JP2002312357A (ja) | 機械翻訳用辞書登録装置、機械翻訳用辞書登録方法、機械翻訳装置、機械翻訳方法及び記録媒体 | |
US20020016796A1 (en) | Document processing method, system and medium | |
JP3794716B2 (ja) | 単語を語形変化させる方法及びその方法を実行するデータ処理装置 | |
Basri et al. | Automatic spell checker for Malay blog | |
US10896292B1 (en) | OCR error correction | |
CN112182353A (zh) | 用于信息搜索的方法、电子设备和存储介质 | |
Hocking et al. | Optical character recognition for South African languages | |
Isroilov et al. | Personal names spell-checking–a study related to Uzbek | |
CN104239294A (zh) | 藏汉翻译系统的多策略藏语长句切分方法 | |
CN111310457B (zh) | 词语搭配不当识别方法、装置、电子设备和存储介质 | |
JP3398729B2 (ja) | キーワード自動抽出装置およびキーワード自動抽出方法 | |
JP5057916B2 (ja) | 固有表現抽出装置、その方法、プログラム及び記録媒体 | |
EP3674929A1 (en) | A computer-implemented method of creating a translation model for low resource language pairs and a machine translation system using this translation model | |
KR100434526B1 (ko) | 문맥정보및지역적문서형태를이용한문장추출방법 | |
Kodydek | A word analysis system for German hyphenation, full text search, and spell checking, with regard to the latest reform of German orthography | |
EP1711936A2 (fr) | Procede de correspondance automatique entre des elements graphiques et des elements phonetiques | |
CN112001168A (zh) | 词语纠错方法、装置、电子设备及存储介质 | |
CN115099248A (zh) | 翻译方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090828 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120228 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120525 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120904 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121002 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151012 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |