JP5833956B2 - 文書を校正する情報処理装置、方法およびプログラム - Google Patents
文書を校正する情報処理装置、方法およびプログラム Download PDFInfo
- Publication number
- JP5833956B2 JP5833956B2 JP2012049519A JP2012049519A JP5833956B2 JP 5833956 B2 JP5833956 B2 JP 5833956B2 JP 2012049519 A JP2012049519 A JP 2012049519A JP 2012049519 A JP2012049519 A JP 2012049519A JP 5833956 B2 JP5833956 B2 JP 5833956B2
- Authority
- JP
- Japan
- Prior art keywords
- line
- text
- row
- document file
- proofreading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
- G06V10/987—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns with the intervention of an operator
Description
Claims (7)
- 文章を校正する情報処理装置であって、
原稿画像にOCR処理を施して得られた出力情報であって、該OCR処理のテキストの読み取り順序に従って配置された該原稿画像の行のレイアウト情報と該行の構成要素であるテキストを含む出力情報を格納する第1格納部と、
前記出力情報に含まれる前記行の構成要素であるテキストを前記読み取り順序に従って配置して生成されたドキュメントファイルであって、ユーザにより校正された校正済みドキュメントファイルを格納する第2格納部と、
前記出力情報に含まれる前記行の構成要素であるテキストと、前記校正済みドキュメントファイルに含まれるテキストとの編集距離が最小となるテキスト領域を1つの行領域として特定することによって行の区切りを検出する行区切り検出部と、
前記出力情報に含まれるテキストと前記校正済みドキュメントファイルに含まれるテキストとの編集距離を、前記行区切り検出部が検出した行の区切りが形成する行単位で算出し、算出した編集距離が最小となるパスにおけるユーザの校正作業による行操作の種類、該行操作の対象である前記出力情報に含まれるテキストの行番号および該行操作の対象である前記校正済みドキュメントファイルに含まれるテキストの行番号を示す行操作情報であって、該行操作の種類は、行を削除する行削除操作、行の構成要素であるテキストを置換する行編集操作および行を挿入する行挿入操作である、行操作情報を生成する、編集距離算出部と、
前記ユーザが前記ドキュメントファイルに対して行った校正による前記ドキュメントファイルに含まれるテキストで構成された行の移動を検出する行移動検出部と、
前記ドキュメントファイルに対する校正の結果を前記出力情報に反映するマージ部とを備え、
前記行移動検出部は、
前記行削除操作の対象である行の構成要素であるテキストと、前記行挿入操作または前記行編集操作の対象である行の構成要素であるテキストとの編集距離を用いて、前記行削除操作と前記行挿入操作または前記行編集操作とのマッチングの程度を示す重みを算出し、前記重みが最大となる前記行削除操作と前記行挿入操作または前記行編集操作の組み合わせを行の移動操作として特定し、
前記マージ部は、
前記行移動検出部が前記行削除操作と前記行挿入操作または前記行編集操作の組み合わせを行の移動操作として特定した場合に、前記行操作情報を使用して、前記出力情報に含まれる該行削除操作の対象である行の構成要素であるテキストを特定し、特定した該テキストを、該出力情報内の該行挿入操作または該行編集操作の対象である行の位置に移動する、
情報処理装置。 - 前記行移動検出部は、
前記行削除操作の対象である前記出力情報の行の構成要素であるテキストと、前記行挿入操作または行編集操作の対象である前記ドキュメントファイルの行の構成要素であるテキストとの編集距離と、
前記出力情報の行に隣接する行の構成要素であるテキストと、前記ドキュメントファイルの行に隣接する行の構成要素であるテキストとの編集距離とを用いて、前記重みを算出する、請求項1に記載の情報処理装置。 - 前記情報処理装置は、
校正頻度の高い頻出校正テキストと未校正のテキストとを抽出し、
前記頻出校正テキストの特徴ベクトルと、前記未校正のテキストの特徴ベクトルとを算出し、
前記頻出校正テキストの特徴ベクトルと近似する特徴ベクトルを有する未校正のテキストを、校正漏れの可能性があるテキストとして検出する校正漏れ検出部をさらに含む、請求項1に記載の情報処理装置。 - 文章を校正する情報処理装置が実行する方法であって、前記方法は、前記情報処理装置が、
原稿画像にOCR処理を施して得られた出力情報であって、該OCR処理のテキストの読み取り順序に従って配置された該原稿画像の行の構成要素であるテキストを含む出力情報から、該行の構成要素であるテキストを該読み取り順序に従って配置したドキュメントファイルを生成するステップと、
前記出力情報に含まれる前記行の構成要素であるテキストと、ユーザにより校正された校正済みドキュメントファイルに含まれるテキストとの編集距離が最小となるテキスト領域を1つの行領域として特定することによって行の区切りを検出するステップと、
前記出力情報に含まれるテキストと前記校正済みドキュメントファイルに含まれるテキストとの編集距離を、前記行の区切りが形成する行単位で算出し、算出した編集距離が最小となるパスにおけるユーザの校正作業による行操作の種類、該行操作の対象である前記出力情報に含まれるテキストの行番号および該行操作の対象である前記校正済みドキュメントファイルに含まれるテキストの行番号を示す行操作情報であって、該行操作の種類は、行を削除する行削除操作、行の構成要素であるテキストを置換する行編集操作および行を挿入する行挿入操作である、行操作情報を生成するステップと、
ユーザが前記ドキュメントファイルに対して行った校正による前記ドキュメントファイルに含まれるテキストで構成された行の移動を検出するステップと、
前記ドキュメントファイルに対する校正の結果を前記出力情報に反映するステップとを含み、
前記行の移動を検出するステップは、
前記行削除操作の対象である行の構成要素であるテキストと、前記行挿入操作または前記行編集操作の対象である行の構成要素であるテキストとの編集距離を用いて、前記行削除操作と前記行挿入操作または前記行編集操作とのマッチングの程度を示す重みを算出するステップと、
前記重みが最大となる前記行削除操作と前記行挿入操作または前記行編集操作の組み合わせを行の移動操作として特定するステップとを含み、
前記反映するステップは、
前記行削除操作と前記行挿入操作または前記行編集操作の組み合わせを行の移動操作として特定した場合に、前記行操作情報を使用して、前記出力情報に含まれる該行削除操作の対象である行の構成要素であるテキストを特定し、特定した該テキストを、該出力情報内の該行挿入操作または該行編集操作の対象である行の位置に移動するステップを含む、方法。 - 前記行の移動を検出するステップは、
前記行削除操作の対象である前記出力情報の行の構成要素であるテキストと、前記行挿入操作または行編集操作の対象である前記ドキュメントファイルの行の構成要素であるテキストとの編集距離と、
前記出力情報の行に隣接する行の構成要素であるテキストと、前記ドキュメントファイルの行に隣接する行の構成要素であるテキストとの編集距離とを用いて、前記重みを算出するステップを含む、請求項4に記載の方法。 - 前記方法は、前記情報処理装置が、
校正頻度の高い頻出校正テキストと未校正のテキストとを抽出するステップと、
前記頻出校正テキストの特徴ベクトルと、前記未校正のテキストの特徴ベクトルとを算出するステップと、
前記頻出校正テキストの特徴ベクトルと近似する特徴ベクトルを有する未校正のテキストを、校正漏れの可能性があるテキストとして検出するステップと
をさらに含む、請求項4に記載の方法。 - 文章を校正する情報処理装置が実行する方法を、前記情報処理装置が実行するためのプログラムであって、前記プログラムは、前記情報処理装置が、
原稿画像にOCR処理を施して得られた出力情報であって、該OCR処理のテキストの読み取り順序に従って配置された該原稿画像の行の構成要素であるテキストを含む出力情報から、該行の構成要素であるテキストを該読み取り順序に従って配置したドキュメントファイルを生成するステップと、
前記出力情報に含まれる前記行の構成要素であるテキストと、ユーザにより校正された校正済みドキュメントファイルに含まれるテキストとの編集距離が最小となるテキスト領域を1つの行領域として特定することによって行の区切りを検出するステップと、
前記出力情報に含まれるテキストと前記校正済みドキュメントファイルに含まれるテキストとの編集距離を、前記行の区切りが形成する行単位で算出し、算出した編集距離が最小となるパスにおけるユーザの校正作業による行操作の種類、該行操作の対象である前記出力情報に含まれるテキストの行番号および該行操作の対象である前記校正済みドキュメントファイルに含まれるテキストの行番号を示す行操作情報であって、該行操作の種類は、行を削除する行削除操作、行の構成要素であるテキストを置換する行編集操作および行を挿入する行挿入操作である、行操作情報を生成するステップと、
ユーザが前記ドキュメントファイルに対して行った校正による前記ドキュメントファイルに含まれるテキストで構成された行の移動を検出するステップと、
前記ドキュメントファイルに対する校正の結果を前記出力情報に反映するステップとを
実行するための装置実行可能なプログラムであって、
前記行の移動を検出するステップは、
前記行削除操作の対象である行の構成要素であるテキストと、前記行挿入操作または前記行編集操作の対象である行の構成要素であるテキストとの編集距離を用いて、前記行削除操作と前記行挿入操作または前記行編集操作とのマッチングの程度を示す重みを算出するステップと、
前記重みが最大となる前記行削除操作と前記行挿入操作または前記行編集操作の組み合わせを行の移動操作として特定するステップとを含み、
前記反映するステップは、
前記行削除操作と前記行挿入操作または前記行編集操作の組み合わせを行の移動操作として特定した場合に、前記行操作情報を使用して、前記出力情報に含まれる該行削除操作の対象である行の構成要素であるテキストを特定し、特定した該テキストを、該出力情報内の該行挿入操作または該行編集操作の対象である行の位置に移動するステップを含む、プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012049519A JP5833956B2 (ja) | 2012-03-06 | 2012-03-06 | 文書を校正する情報処理装置、方法およびプログラム |
CN201310069423.4A CN103324926B (zh) | 2012-03-06 | 2013-03-05 | 用于文档校对的信息处理器和方法 |
US13/784,897 US8908999B2 (en) | 2012-03-06 | 2013-03-05 | Information processor, method, and program for document proofreading |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012049519A JP5833956B2 (ja) | 2012-03-06 | 2012-03-06 | 文書を校正する情報処理装置、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013186568A JP2013186568A (ja) | 2013-09-19 |
JP5833956B2 true JP5833956B2 (ja) | 2015-12-16 |
Family
ID=49157691
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012049519A Active JP5833956B2 (ja) | 2012-03-06 | 2012-03-06 | 文書を校正する情報処理装置、方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8908999B2 (ja) |
JP (1) | JP5833956B2 (ja) |
CN (1) | CN103324926B (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156766B (zh) | 2015-03-25 | 2020-02-18 | 阿里巴巴集团控股有限公司 | 文本行分类器的生成方法及装置 |
US10296788B1 (en) * | 2016-12-19 | 2019-05-21 | Matrox Electronic Systems Ltd. | Method and system for processing candidate strings detected in an image to identify a match of a model string in the image |
RU2657181C1 (ru) * | 2017-09-01 | 2018-06-08 | Общество с ограниченной ответственностью "Аби Продакшн" | Способ улучшения качества распознавания отдельного кадра |
JP7031465B2 (ja) * | 2018-04-18 | 2022-03-08 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
CN108734110B (zh) * | 2018-04-24 | 2022-08-09 | 达而观信息科技(上海)有限公司 | 基于最长公共子序列的文本段落识别对比方法及系统 |
CN108921103B (zh) * | 2018-07-05 | 2019-04-16 | 掌阅科技股份有限公司 | 用于校对的标记同步方法、计算设备及计算机存储介质 |
CN109857302B (zh) * | 2019-01-29 | 2020-01-21 | 掌阅科技股份有限公司 | 电子书信息的修复方法、电子设备及计算机存储介质 |
CN111159982B (zh) * | 2019-12-24 | 2023-05-16 | 中信银行股份有限公司 | 文档编辑方法、装置、电子设备及计算机可读存储介质 |
US11367296B2 (en) * | 2020-07-13 | 2022-06-21 | NextVPU (Shanghai) Co., Ltd. | Layout analysis |
CN112668301A (zh) * | 2020-10-30 | 2021-04-16 | 生态环境部环境工程评估中心 | 一种环评文件重复度检测方法及系统 |
US11853688B2 (en) * | 2022-03-04 | 2023-12-26 | Adobe Inc. | Automatic detection and removal of typesetting errors in electronic documents |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01222368A (ja) * | 1988-02-29 | 1989-09-05 | Photo Composing Mach Mfg Co Ltd | 入力編集方法 |
US8074184B2 (en) * | 2003-11-07 | 2011-12-06 | Mocrosoft Corporation | Modifying electronic documents with recognized content or other associated data |
KR101443404B1 (ko) * | 2006-09-15 | 2014-10-02 | 구글 인코포레이티드 | 페이퍼 및 전자 문서내의 주석의 캡처 및 디스플레이 |
US8290270B2 (en) * | 2006-10-13 | 2012-10-16 | Syscom, Inc. | Method and system for converting image text documents in bit-mapped formats to searchable text and for searching the searchable text |
JP5134383B2 (ja) | 2008-01-29 | 2013-01-30 | 株式会社日立製作所 | Ocr装置、証跡管理装置及び証跡管理システム |
KR100992858B1 (ko) * | 2008-12-30 | 2010-11-09 | 엔에이치엔(주) | Ocr 결과를 보정하기 위한 방법, 시스템 및 컴퓨터 판독가능한 기록 매체 |
CN101887519B (zh) * | 2010-08-16 | 2012-04-18 | 同方知网(北京)技术有限公司 | 文字识别、编改的方法 |
-
2012
- 2012-03-06 JP JP2012049519A patent/JP5833956B2/ja active Active
-
2013
- 2013-03-05 CN CN201310069423.4A patent/CN103324926B/zh active Active
- 2013-03-05 US US13/784,897 patent/US8908999B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US8908999B2 (en) | 2014-12-09 |
US20130243263A1 (en) | 2013-09-19 |
CN103324926A (zh) | 2013-09-25 |
JP2013186568A (ja) | 2013-09-19 |
CN103324926B (zh) | 2016-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5833956B2 (ja) | 文書を校正する情報処理装置、方法およびプログラム | |
US9135249B2 (en) | Number sequences detection systems and methods | |
US6581034B1 (en) | Phonetic distance calculation method for similarity comparison between phonetic transcriptions of foreign words | |
US8225200B2 (en) | Extracting a character string from a document and partitioning the character string into words by inserting space characters where appropriate | |
JP4682284B2 (ja) | 文書差分検出装置 | |
US20180267956A1 (en) | Identification of reading order text segments with a probabilistic language model | |
US20060285746A1 (en) | Computer assisted document analysis | |
CN102592299B (zh) | 文件生成装置和文件生成方法 | |
AU2018226399A1 (en) | Detecting style breaches in multi-author content or collaborative writing | |
JP2007058605A (ja) | 文書管理システム | |
JP2011065646A (ja) | 文字列認識装置及び文字列認識方法 | |
WO2019153979A1 (zh) | 文本翻译方法、装置、计算机设备和存储介质 | |
US10534846B1 (en) | Page stream segmentation | |
EP2138959A1 (en) | Word recognizing method and word recognizing program | |
JP5097802B2 (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
CN111460789B (zh) | 基于字符嵌入的lstm分句方法、系统及介质 | |
JP4983526B2 (ja) | データ処理装置及びデータ処理プログラム | |
US20090063127A1 (en) | Apparatus, method, and computer program product for creating data for learning word translation | |
US11907656B2 (en) | Machine based expansion of contractions in text in digital media | |
US8977538B2 (en) | Constructing and analyzing a word graph | |
JP3943582B2 (ja) | 対訳文対応付け装置 | |
US20210019554A1 (en) | Information processing device and information processing method | |
Chowdhury et al. | Implementation of an optical character reader (ocr) for bengali language | |
CN113723082A (zh) | 从文本中检测中文拼音的方法和装置 | |
JP5795302B2 (ja) | 形態素解析装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140902 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150217 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150508 |
|
TRDD | Decision of grant or rejection written | ||
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20151006 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151030 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5833956 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |