JP2020173779A5 - 文書における見出しのシーケンスの識別方法、プログラム及びシステム - Google Patents
文書における見出しのシーケンスの識別方法、プログラム及びシステム Download PDFInfo
- Publication number
- JP2020173779A5 JP2020173779A5 JP2019237067A JP2019237067A JP2020173779A5 JP 2020173779 A5 JP2020173779 A5 JP 2020173779A5 JP 2019237067 A JP2019237067 A JP 2019237067A JP 2019237067 A JP2019237067 A JP 2019237067A JP 2020173779 A5 JP2020173779 A5 JP 2020173779A5
- Authority
- JP
- Japan
- Prior art keywords
- list
- chain
- candidate
- headings
- chain fragments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000012634 fragment Substances 0.000 claims description 102
- 238000000034 method Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 9
- 230000014509 gene expression Effects 0.000 claims description 2
Description
一般に、本発明は一側面によれば、電子文書(ED)を処理し、EDのセクション見出しのシーケンスを推論する方法に関する。当該方法は、コンピュータープロセッサーによって、所定のセクション見出しパターンとEDの複数の文字との間の通常の表現のマッチングに基づいて、EDの候補見出しのリストを生成し、コンピュータープロセッサーによって、前記候補見出しのリストに基づいてセクション見出しのシーケンスの一部を推論するためのチェーンフラグメントのリストを生成し、コンピュータープロセッサーによって、所定の基準に基づいて、前記チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを合わせてセクション見出しのシーケンスを生成する。
一般に、本発明は一側面によれば、電子文書(ED)を処理し、EDのセクション見出しのシーケンスを推論するためのプログラムに関する。当該プログラムは、コンピューターに以下の機能を実行させる、所定のセクション見出しパターンとEDの複数の文字との間の通常の表現のマッチングに基づいて、EDの候補見出しのリストを生成し、前記候補見出しのリストに基づいてセクション見出しのシーケンスの一部を推論するためのチェーンフラグメントのリストを生成し、所定の基準に基づいて、前記チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを合わせてセクション見出しのシーケンスを生成する。
一般に、本発明は一側面によれば、電子文書(ED)を処理し、EDのセクション見出しのシーケンスを推論するシステムに関する。前記システムは、メモリーと、メモリーと接続するコンピュータープロセッサーと、を備え、前記コンピュータープロセッサーは、以下の機能を実行する、所定のセクション見出しパターンとEDの複数の文字との間の通常の表現のマッチングに基づいて、EDの候補見出しのリストを生成し、前記候補見出しのリストに基づいてセクション見出しのシーケンスの一部を推論するためのチェーンフラグメントのリストを生成し、
所定の基準に基づいて、前記チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを合わせてセクション見出しのシーケンスを生成する。
所定の基準に基づいて、前記チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを合わせてセクション見出しのシーケンスを生成する。
Claims (20)
- 電子文書(ED)を処理し、EDのセクション見出しのシーケンスを推論する方法であって、
コンピュータープロセッサーによって、所定のセクション見出しパターンとEDの複数の文字との間の通常の表現のマッチングに基づいて、EDの候補見出しのリストを生成し、
コンピュータープロセッサーによって、前記候補見出しのリストに基づいてセクション見出しのシーケンスの一部を推論するためのチェーンフラグメントのリストを生成し、
コンピュータープロセッサーによって、所定の基準に基づいて、前記チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを合わせてセクション見出しのシーケンスを生成する、方法。 - EDの複数の文字に関するスタイル属性が含まれる解析済みのEDを生成し、
前記スタイル属性の特有性の値に基づいて、前記候補見出しのリストのそれぞれの候補見出しの信頼度を判断する、
請求項1に記載の方法。 - 前記候補見出しのリストのそれぞれの候補見出しの信頼度に基づいて、前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントの信頼度を判断し、
所定の信頼度の閾値とそれぞれのチェーンフラグメントの信頼度とに基づいて、前記セクション見出しのシーケンスを推論するために前記チェーンフラグメントのリストから少なくとも一つのチェーンフラグメントを除外する、
請求項2に記載の方法。 - 複数の前記候補見出しはそれぞれ前記所定のセクション見出しパターンに応じた一以上のシーケンス文字を有し、
前記チェーンフラグメントのリストを生成するステップは、シーケンス文字のネストレベルに基づいて前記候補見出しのリストのそれぞれの候補見出しのランクを判断することを含み、
前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントは、当該チェーンフラグメントのランクを定義する単一のランクを含む一以上の候補見出しを含む、
請求項1から3のいずれか一項に記載の方法。 - 前記チェーンフラグメントのリストを生成するステップは、
前記候補見出しのリストをさかのぼって検討して、前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントについて先頭候補見出しを識別し、
前記先頭候補見出しから前記候補見出しのリストを先に進んで検討してそれぞれのチェーンフラグメントの残りの候補見出しを識別し、
前記先頭候補見出しは前記シーケンス文字の最も右の桁に先頭シーケンス文字を含む、
請求項4に記載の方法。 - 前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントの前記ランクに応じて前記チェーンフラグメントのリストはソートされる、
請求項4又は5に記載の方法。 - 前記少なくとも二つのチェーンフラグメントを合わせるステップは、
前記チェーンフラグメントのリストにおけるより高いランクのチェーンフラグメントとより低いランクのチェーンフラグメントとの間の近接性の値を判断し、前記より高いランクのチェーンフラグメントは前記より低いランクのチェーンフラグメントより一ランク高い、複数のより高いランクのチェーンフラグメントのうちの一つであり、
近接性の値の重み付平均とより高いランクのチェーンフラグメントの信頼度とに基づいて前記より高いランクのチェーンフラグメントの点数を生成し、
前記点数に基づいて、前記チェーンフラグメントのリストのうちの前記複数のより高いランクのチェーンフラグメントから前記より低いランクのチェーンフラグメントに合わせる前記より高いランクのチェーンフラグメントを選択する、
請求項4から6のいずれか一項に記載の方法。 - 電子文書(ED)を処理し、EDのセクション見出しのシーケンスを推論するためのコンピューターに、
所定のセクション見出しパターンとEDの複数の文字との間の通常の表現のマッチングに基づいて、EDの候補見出しのリストを生成する機能と、
前記候補見出しのリストに基づいてセクション見出しのシーケンスの一部を推論するためのチェーンフラグメントのリストを生成する機能と、
所定の基準に基づいて、前記チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを合わせてセクション見出しのシーケンスを生成する機能と、を実行させるプログラム。 - EDの複数の文字に関するスタイル属性が含まれる解析済みのEDを生成する機能と、
前記スタイル属性の特有性の値に基づいて、前記候補見出しのリストのそれぞれの候補見出しの信頼度を判断する機能と、
を実行させる請求項8に記載のプログラム。 - 前記候補見出しのリストのそれぞれの候補見出しの信頼度に基づいて、前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントの信頼度を判断する機能と、
所定の信頼度の閾値とそれぞれのチェーンフラグメントの信頼度とに基づいて、前記セクション見出しのシーケンスを推論するために前記チェーンフラグメントのリストから少なくとも一つのチェーンフラグメントを除外する機能と、
を実行させる請求項9に記載のプログラム。 - 複数の前記候補見出しはそれぞれ前記所定のセクション見出しパターンに応じた一以上のシーケンス文字を有し、
前記チェーンフラグメントのリストを生成する機能は、シーケンス文字のネストレベルに基づいて前記候補見出しのリストのそれぞれの候補見出しのランクを判断することを含み、
前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントは、当該チェーンフラグメントのランクを定義する単一のランクを含む一以上の候補見出しを含む、
請求項8から10のいずれか一項に記載のプログラム。 - 前記チェーンフラグメントのリストを生成する機能は、
前記候補見出しのリストをさかのぼって検討して、前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントについて先頭候補見出しを識別し、
前記先頭候補見出しから前記候補見出しのリストを先に進んで検討してそれぞれのチェーンフラグメントの残りの候補見出しを識別し、
前記先頭候補見出しは前記シーケンス文字の最も右の桁に先頭シーケンス文字を含む、
請求項11に記載のプログラム。 - 前記少なくとも二つのチェーンフラグメントを合わせる機能は、
前記チェーンフラグメントのリストにおけるより高いランクのチェーンフラグメントとより低いランクのチェーンフラグメントとの間の近接性の値を判断し、前記より高いランクのチェーンフラグメントは前記より低いランクのチェーンフラグメントより一ランク高い、複数のより高いランクのチェーンフラグメントのうちの一つであり、
近接性の値の重み付平均とより高いランクのチェーンフラグメントの信頼度とに基づいて前記より高いランクのチェーンフラグメントの点数を生成し、
前記点数に基づいて、前記チェーンフラグメントのリストのうちの前記複数のより高いランクのチェーンフラグメントから前記より低いランクのチェーンフラグメントに合わせる前記より高いランクのチェーンフラグメントを選択する、
請求項11又は12に記載のプログラム。 - 電子文書(ED)を処理し、EDのセクション見出しのシーケンスを推論するシステムであって、
メモリーと、
メモリーと接続するコンピュータープロセッサーと、
を備え、
前記コンピュータープロセッサーは、
所定のセクション見出しパターンとEDの複数の文字との間の通常の表現のマッチングに基づいて、EDの候補見出しのリストを生成し、
前記候補見出しのリストに基づいてセクション見出しのシーケンスの一部を推論するためのチェーンフラグメントのリストを生成し、
所定の基準に基づいて、前記チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを合わせてセクション見出しのシーケンスを生成するシステム。 - 前記コンピュータープロセッサーは、
EDの複数の文字に関するスタイル属性が含まれる解析済みのEDを生成し、
前記スタイル属性の特有性の値に基づいて、前記候補見出しのリストのそれぞれの候補見出しの信頼度を判断する、
請求項14に記載のシステム。 - 前記コンピュータープロセッサーは、
前記候補見出しのリストのそれぞれの候補見出しの信頼度に基づいて、前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントの信頼度を判断し、
所定の信頼度の閾値とそれぞれのチェーンフラグメントの信頼度とに基づいて、前記セクション見出しのシーケンスを推論するために前記チェーンフラグメントのリストから少なくとも一つのチェーンフラグメントを除外する、
請求項15に記載のシステム。 - 複数の前記候補見出しはそれぞれ前記所定のセクション見出しパターンに応じた一以上のシーケンス文字を有し、
前記チェーンフラグメントのリストを生成する機能は、シーケンス文字のネストレベルに基づいて前記候補見出しのリストのそれぞれの候補見出しのランクを判断することを含み、
前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントは、当該チェーンフラグメントのランクを定義する単一のランクを含む一以上の候補見出しを含む、
請求項14から16のいずれか一項に記載のシステム。 - 前記チェーンフラグメントのリストを生成する機能は、
前記候補見出しのリストをさかのぼって検討して、前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントについて先頭候補見出しを識別し、
前記先頭候補見出しから前記候補見出しのリストを先に進んで検討してそれぞれのチェーンフラグメントの残りの候補見出しを識別し、
前記先頭候補見出しは前記シーケンス文字の最も右の桁に先頭シーケンス文字を含む、
請求項17に記載のシステム。 - 前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントの前記ランクに応じて前記チェーンフラグメントのリストはソートされる、
請求項17又は18に記載のシステム。 - 前記少なくとも二つのチェーンフラグメントを合わせる機能は、
前記チェーンフラグメントのリストにおけるより高いランクのチェーンフラグメントとより低いランクのチェーンフラグメントとの間の近接性の値を判断し、前記より高いランクのチェーンフラグメントは前記より低いランクのチェーンフラグメントより一ランク高い、複数のより高いランクのチェーンフラグメントのうちの一つであり、
近接性の値の重み付平均とより高いランクのチェーンフラグメントの信頼度とに基づいて前記より高いランクのチェーンフラグメントの点数を生成し、
前記点数に基づいて、前記チェーンフラグメントのリストのうちの前記複数のより高いランクのチェーンフラグメントから前記より低いランクのチェーンフラグメントに合わせる前記より高いランクのチェーンフラグメントを選択する、
請求項17から19のいずれか一項に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/370,724 | 2019-03-29 | ||
US16/370,724 US11468346B2 (en) | 2019-03-29 | 2019-03-29 | Identifying sequence headings in a document |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020173779A JP2020173779A (ja) | 2020-10-22 |
JP2020173779A5 true JP2020173779A5 (ja) | 2022-06-27 |
JP7493937B2 JP7493937B2 (ja) | 2024-06-03 |
Family
ID=72606019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019237067A Active JP7493937B2 (ja) | 2019-03-29 | 2019-12-26 | 文書における見出しのシーケンスの識別方法、プログラム及びシステム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11468346B2 (ja) |
JP (1) | JP7493937B2 (ja) |
CN (1) | CN111753534B (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10956731B1 (en) * | 2019-10-09 | 2021-03-23 | Adobe Inc. | Heading identification and classification for a digital document |
US10949604B1 (en) | 2019-10-25 | 2021-03-16 | Adobe Inc. | Identifying artifacts in digital documents |
CN112329548A (zh) * | 2020-10-16 | 2021-02-05 | 北京临近空间飞行器系统工程研究所 | 一种文档章节分割方法、装置及存储介质 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62256075A (ja) * | 1986-04-30 | 1987-11-07 | Hitachi Ltd | 辞書検索方式 |
US6298357B1 (en) * | 1997-06-03 | 2001-10-02 | Adobe Systems Incorporated | Structure extraction on electronic documents |
EP1508080A2 (en) * | 2002-05-20 | 2005-02-23 | Tata Infotech Ltd. | Document structure identifier |
US8706475B2 (en) | 2005-01-10 | 2014-04-22 | Xerox Corporation | Method and apparatus for detecting a table of contents and reference determination |
US7743327B2 (en) * | 2006-02-23 | 2010-06-22 | Xerox Corporation | Table of contents extraction with improved robustness |
US7873950B2 (en) * | 2006-03-23 | 2011-01-18 | Oracle America, Inc. | Graph theory-based approach to XML data binding |
US7991709B2 (en) * | 2008-01-28 | 2011-08-02 | Xerox Corporation | Method and apparatus for structuring documents utilizing recognition of an ordered sequence of identifiers |
US7937338B2 (en) * | 2008-04-30 | 2011-05-03 | International Business Machines Corporation | System and method for identifying document structure and associated metainformation |
US8352857B2 (en) * | 2008-10-27 | 2013-01-08 | Xerox Corporation | Methods and apparatuses for intra-document reference identification and resolution |
US9135249B2 (en) * | 2009-05-29 | 2015-09-15 | Xerox Corporation | Number sequences detection systems and methods |
JP5663866B2 (ja) * | 2009-08-20 | 2015-02-04 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP2011070558A (ja) * | 2009-09-28 | 2011-04-07 | Konica Minolta Business Technologies Inc | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム |
JP5536687B2 (ja) * | 2011-01-31 | 2014-07-02 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 目次と見出しの対応付け方法、対応付け装置、及び対応付けプログラム |
CA2840233A1 (en) * | 2011-07-11 | 2013-01-17 | Paper Software LLC | System and method for processing document |
US9001390B1 (en) * | 2011-10-06 | 2015-04-07 | Uri Zernik | Device, system and method for identifying sections of documents |
JP2013206261A (ja) * | 2012-03-29 | 2013-10-07 | Toshiba Corp | 構造化データ生成装置、データ処理装置、構造化データ生成方法、及び構造化データ生成プログラム |
JP5971069B2 (ja) * | 2012-10-04 | 2016-08-17 | 新日鐵住金株式会社 | 情報処理装置、タイトル抽出方法及びプログラム |
US9058374B2 (en) | 2013-09-26 | 2015-06-16 | International Business Machines Corporation | Concept driven automatic section identification |
US20150169676A1 (en) | 2013-12-18 | 2015-06-18 | International Business Machines Corporation | Generating a Table of Contents for Unformatted Text |
TWI549003B (zh) * | 2014-08-18 | 2016-09-11 | 葆光資訊有限公司 | 自動切割章節方法 |
US9946924B2 (en) * | 2015-06-10 | 2018-04-17 | Accenture Global Services Limited | System and method for automating information abstraction process for documents |
US10108695B1 (en) * | 2015-08-03 | 2018-10-23 | Amazon Technologies, Inc. | Multi-level clustering for associating semantic classifiers with content regions |
CN105302778A (zh) * | 2015-10-23 | 2016-02-03 | 北京奇虎科技有限公司 | 文章章节生成方法、系统和电子书阅读器 |
US10565444B2 (en) * | 2017-09-07 | 2020-02-18 | International Business Machines Corporation | Using visual features to identify document sections |
US10726198B2 (en) * | 2017-10-17 | 2020-07-28 | Handycontract, LLC | Method, device, and system, for identifying data elements in data structures |
US10691937B2 (en) * | 2018-07-30 | 2020-06-23 | Wipro Limited | Method and system for determining structural blocks of a document |
-
2019
- 2019-03-29 US US16/370,724 patent/US11468346B2/en active Active
- 2019-12-26 JP JP2019237067A patent/JP7493937B2/ja active Active
-
2020
- 2020-03-24 CN CN202010210764.9A patent/CN111753534B/zh active Active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020173779A5 (ja) | 文書における見出しのシーケンスの識別方法、プログラム及びシステム | |
JP2005302043A5 (ja) | ||
JP5611852B2 (ja) | 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム | |
WO2019005611A1 (en) | SELECTIVE APPRENTICESHIP FOR ERROR DECORRELATION | |
JP5840110B2 (ja) | 同一項目検出装置及びプログラム | |
CN102105901A (zh) | 注释图像 | |
JP5862413B2 (ja) | 情報変換規則生成プログラム、情報変換規則生成装置および情報変換規則生成方法 | |
WO2022044064A1 (ja) | 機械学習データ生成プログラム、機械学習データ生成方法、機械学習データ生成装置、分類データ生成プログラム、分類データ生成方法および分類データ生成装置 | |
US20150332172A1 (en) | Learning method, information processing device, and recording medium | |
US20160335249A1 (en) | Information processing apparatus, information processing method, and non-transitory computer readable medium | |
JP7193000B2 (ja) | 類似文書検索方法、類似文書検索プログラム、類似文書検索装置、索引情報作成方法、索引情報作成プログラムおよび索引情報作成装置 | |
CN105247481A (zh) | 网页输出选择 | |
CN111666965B (zh) | 改进图像识别的多级别深度特征和多匹配器融合 | |
JP5676692B2 (ja) | 機械学習装置、機械学習方法、およびプログラム | |
US20180144048A1 (en) | Apparatus and method for matching multiplecolumn keyword patterns | |
WO2021033274A1 (ja) | パターン抽出およびルール生成装置、方法およびプログラム | |
US20200349454A1 (en) | Logical calculation device, logical calculation method, and program | |
JPWO2019235074A1 (ja) | 生成方法、生成装置および生成プログラム | |
US20210241021A1 (en) | Information processing method and information processing system | |
US11823491B2 (en) | Processing apparatus, processing method, and non-transitory storage medium | |
CN113537392A (zh) | 相似图像的识别方法、装置、计算设备及计算机存储介质 | |
CN113590436A (zh) | 一种告警方法及装置 | |
WO2021069505A1 (en) | Method for assigning at least one query triplet to at least one respective class | |
JP2021018520A5 (ja) | ||
CN111310066A (zh) | 一种基于主题模型和关联规则算法的好友推荐方法及系统 |