JP2020173779A5 - 文書における見出しのシーケンスの識別方法、プログラム及びシステム - Google Patents

文書における見出しのシーケンスの識別方法、プログラム及びシステム Download PDF

Info

Publication number
JP2020173779A5
JP2020173779A5 JP2019237067A JP2019237067A JP2020173779A5 JP 2020173779 A5 JP2020173779 A5 JP 2020173779A5 JP 2019237067 A JP2019237067 A JP 2019237067A JP 2019237067 A JP2019237067 A JP 2019237067A JP 2020173779 A5 JP2020173779 A5 JP 2020173779A5
Authority
JP
Japan
Prior art keywords
list
chain
candidate
headings
chain fragments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019237067A
Other languages
English (en)
Other versions
JP2020173779A (ja
JP7493937B2 (ja
Filing date
Publication date
Priority claimed from US16/370,724 external-priority patent/US11468346B2/en
Application filed filed Critical
Publication of JP2020173779A publication Critical patent/JP2020173779A/ja
Publication of JP2020173779A5 publication Critical patent/JP2020173779A5/ja
Application granted granted Critical
Publication of JP7493937B2 publication Critical patent/JP7493937B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

一般に、本発明は一側面によれば、電子文書(ED)を処理し、EDのセクション見出しのシーケンスを推論する方法に関する。当該方法は、コンピュータープロセッサーによって、所定のセクション見出しパターンとEDの複数の文字との間の通常の表現のマッチングに基づいて、EDの候補見出しのリストを生成し、コンピュータープロセッサーによって、前記候補見出しのリストに基づいてセクション見出しのシーケンスの一部を推論するためのチェーンフラグメントのリストを生成し、コンピュータープロセッサーによって、所定の基準に基づいて、前記チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを合わせてセクション見出しのシーケンスを生成する。
一般に、本発明は一側面によれば、電子文書(ED)を処理し、EDのセクション見出しのシーケンスを推論するためのプログラムに関する。当該プログラムは、コンピューターに以下の機能を実行させる、所定のセクション見出しパターンとEDの複数の文字との間の通常の表現のマッチングに基づいて、EDの候補見出しのリストを生成し、前記候補見出しのリストに基づいてセクション見出しのシーケンスの一部を推論するためのチェーンフラグメントのリストを生成し、所定の基準に基づいて、前記チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを合わせてセクション見出しのシーケンスを生成する。
一般に、本発明は一側面によれば、電子文書(ED)を処理し、EDのセクション見出しのシーケンスを推論するシステムに関する。前記システムは、メモリーと、メモリーと接続するコンピュータープロセッサーと、を備え、前記コンピュータープロセッサーは、以下の機能を実行する、所定のセクション見出しパターンとEDの複数の文字との間の通常の表現のマッチングに基づいて、EDの候補見出しのリストを生成し、前記候補見出しのリストに基づいてセクション見出しのシーケンスの一部を推論するためのチェーンフラグメントのリストを生成し、
所定の基準に基づいて、前記チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを合わせてセクション見出しのシーケンスを生成する。

Claims (20)

  1. 電子文書(ED)を処理し、EDのセクション見出しのシーケンスを推論する方法であって、
    コンピュータープロセッサーによって、所定のセクション見出しパターンとEDの複数の文字との間の通常の表現のマッチングに基づいて、EDの候補見出しのリストを生成し、
    コンピュータープロセッサーによって、前記候補見出しのリストに基づいてセクション見出しのシーケンスの一部を推論するためのチェーンフラグメントのリストを生成し、
    コンピュータープロセッサーによって、所定の基準に基づいて、前記チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを合わせてセクション見出しのシーケンスを生成する、方法
  2. EDの複数の文字に関するスタイル属性が含まれる解析済みのEDを生成し、
    前記スタイル属性の特有性の値に基づいて、前記候補見出しのリストのそれぞれの候補見出しの信頼度を判断する、
    請求項1に記載の方法。
  3. 前記候補見出しのリストのそれぞれの候補見出しの信頼度に基づいて、前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントの信頼度を判断し、
    所定の信頼度の閾値とそれぞれのチェーンフラグメントの信頼度とに基づいて、前記セクション見出しのシーケンスを推論するために前記チェーンフラグメントのリストから少なくとも一つのチェーンフラグメントを除外する、
    請求項2に記載の方法。
  4. 数の前記候補見出しはそれぞれ前記所定のセクション見出しパターンに応じた一以上のシーケンス文字を有し、
    前記チェーンフラグメントのリストを生成するステップは、シーケンス文字のネストレベルに基づいて前記候補見出しのリストのそれぞれの候補見出しのランクを判断することを含み、
    前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントは、当該チェーンフラグメントのランクを定義する単一のランクを含む一以上の候補見出しを含む、
    請求項1から3のいずれか一項に記載の方法。
  5. 前記チェーンフラグメントのリストを生成するステップは、
    前記候補見出しのリストをさかのぼって検討して、前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントについて先頭候補見出しを識別し、
    前記先頭候補見出しから前記候補見出しのリストを先に進んで検討してそれぞれのチェーンフラグメントの残りの候補見出しを識別し、
    前記先頭候補見出しは前記シーケンス文字の最も右の桁に先頭シーケンス文字を含む、
    請求項4に記載の方法。
  6. 前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントの前記ランクに応じて前記チェーンフラグメントのリストはソートされる、
    請求項4又は5に記載の方法。
  7. 前記少なくとも二つのチェーンフラグメントを合わせるステップは、
    前記チェーンフラグメントのリストにおけるより高いランクのチェーンフラグメントとより低いランクのチェーンフラグメントとの間の近接性の値を判断し、前記より高いランクのチェーンフラグメントは前記より低いランクのチェーンフラグメントより一ランク高い、複数のより高いランクのチェーンフラグメントのうちの一つであり、
    近接性の値の重み付平均とより高いランクのチェーンフラグメントの信頼度とに基づいて前記より高いランクのチェーンフラグメントの点数を生成し、
    前記点数に基づいて、前記チェーンフラグメントのリストのうちの前記複数のより高いランクのチェーンフラグメントから前記より低いランクのチェーンフラグメントに合わせる前記より高いランクのチェーンフラグメントを選択する、
    請求項4から6のいずれか一項に記載の方法。
  8. 電子文書(ED)を処理し、EDのセクション見出しのシーケンスを推論するためのコンピューターに、
    所定のセクション見出しパターンとEDの複数の文字との間の通常の表現のマッチングに基づいて、EDの候補見出しのリストを生成する機能と
    前記候補見出しのリストに基づいてセクション見出しのシーケンスの一部を推論するためのチェーンフラグメントのリストを生成する機能と
    所定の基準に基づいて、前記チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを合わせてセクション見出しのシーケンスを生成する機能と、を実行させるプログラム
  9. Dの複数の文字に関するスタイル属性が含まれる解析済みのEDを生成する機能と
    前記スタイル属性の特有性の値に基づいて、前記候補見出しのリストのそれぞれの候補見出しの信頼度を判断する機能と
    を実行させる請求項8に記載のプログラム
  10. 記候補見出しのリストのそれぞれの候補見出しの信頼度に基づいて、前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントの信頼度を判断する機能と
    所定の信頼度の閾値とそれぞれのチェーンフラグメントの信頼度とに基づいて、前記セクション見出しのシーケンスを推論するために前記チェーンフラグメントのリストから少なくとも一つのチェーンフラグメントを除外する機能と
    を実行させる請求項9に記載のプログラム
  11. 数の前記候補見出しはそれぞれ前記所定のセクション見出しパターンに応じた一以上のシーケンス文字を有し、
    前記チェーンフラグメントのリストを生成する機能は、シーケンス文字のネストレベルに基づいて前記候補見出しのリストのそれぞれの候補見出しのランクを判断することを含み、
    前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントは、当該チェーンフラグメントのランクを定義する単一のランクを含む一以上の候補見出しを含む、
    請求項8から10のいずれか一項に記載のプログラム
  12. 前記チェーンフラグメントのリストを生成する機能は、
    前記候補見出しのリストをさかのぼって検討して、前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントについて先頭候補見出しを識別し、
    前記先頭候補見出しから前記候補見出しのリストを先に進んで検討してそれぞれのチェーンフラグメントの残りの候補見出しを識別し、
    前記先頭候補見出しは前記シーケンス文字の最も右の桁に先頭シーケンス文字を含む、
    請求項11に記載のプログラム
  13. 前記少なくとも二つのチェーンフラグメントを合わせる機能は、
    前記チェーンフラグメントのリストにおけるより高いランクのチェーンフラグメントとより低いランクのチェーンフラグメントとの間の近接性の値を判断し、前記より高いランクのチェーンフラグメントは前記より低いランクのチェーンフラグメントより一ランク高い、複数のより高いランクのチェーンフラグメントのうちの一つであり、
    近接性の値の重み付平均とより高いランクのチェーンフラグメントの信頼度とに基づいて前記より高いランクのチェーンフラグメントの点数を生成し、
    前記点数に基づいて、前記チェーンフラグメントのリストのうちの前記複数のより高いランクのチェーンフラグメントから前記より低いランクのチェーンフラグメントに合わせる前記より高いランクのチェーンフラグメントを選択する、
    請求項11又は12に記載のプログラム
  14. 電子文書(ED)を処理し、EDのセクション見出しのシーケンスを推論するシステムであって
    モリーと、
    メモリーと接続するコンピュータープロセッサーと、
    を備え、
    前記コンピュータープロセッサーは
    定のセクション見出しパターンとEDの複数の文字との間の通常の表現のマッチングに基づいて、EDの候補見出しのリストを生成し、
    前記候補見出しのリストに基づいてセクション見出しのシーケンスの一部を推論するためのチェーンフラグメントのリストを生成し、
    所定の基準に基づいて、前記チェーンフラグメントのリストにおける少なくとも二つのチェーンフラグメントを合わせてセクション見出しのシーケンスを生成するシステム
  15. 前記コンピュータープロセッサーは、
    EDの複数の文字に関するスタイル属性が含まれる解析済みのEDを生成し、
    前記スタイル属性の特有性の値に基づいて、前記候補見出しのリストのそれぞれの候補見出しの信頼度を判断する、
    請求項14に記載のシステム。
  16. 前記コンピュータープロセッサーは、
    前記候補見出しのリストのそれぞれの候補見出しの信頼度に基づいて、前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントの信頼度を判断し、
    所定の信頼度の閾値とそれぞれのチェーンフラグメントの信頼度とに基づいて、前記セクション見出しのシーケンスを推論するために前記チェーンフラグメントのリストから少なくとも一つのチェーンフラグメントを除外する、
    請求項15に記載のシステム。
  17. 数の前記候補見出しはそれぞれ前記所定のセクション見出しパターンに応じた一以上のシーケンス文字を有し、
    前記チェーンフラグメントのリストを生成する機能は、シーケンス文字のネストレベルに基づいて前記候補見出しのリストのそれぞれの候補見出しのランクを判断することを含み、
    前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントは、当該チェーンフラグメントのランクを定義する単一のランクを含む一以上の候補見出しを含む、
    請求項14から16のいずれか一項に記載のシステム。
  18. 前記チェーンフラグメントのリストを生成する機能は、
    前記候補見出しのリストをさかのぼって検討して、前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントについて先頭候補見出しを識別し、
    前記先頭候補見出しから前記候補見出しのリストを先に進んで検討してそれぞれのチェーンフラグメントの残りの候補見出しを識別し、
    前記先頭候補見出しは前記シーケンス文字の最も右の桁に先頭シーケンス文字を含む、
    請求項17に記載のシステム。
  19. 前記チェーンフラグメントのリストのそれぞれのチェーンフラグメントの前記ランクに応じて前記チェーンフラグメントのリストはソートされる、
    請求項17又は18に記載のシステム。
  20. 前記少なくとも二つのチェーンフラグメントを合わせる機能は、
    前記チェーンフラグメントのリストにおけるより高いランクのチェーンフラグメントとより低いランクのチェーンフラグメントとの間の近接性の値を判断し、前記より高いランクのチェーンフラグメントは前記より低いランクのチェーンフラグメントより一ランク高い、複数のより高いランクのチェーンフラグメントのうちの一つであり、
    近接性の値の重み付平均とより高いランクのチェーンフラグメントの信頼度とに基づいて前記より高いランクのチェーンフラグメントの点数を生成し、
    前記点数に基づいて、前記チェーンフラグメントのリストのうちの前記複数のより高いランクのチェーンフラグメントから前記より低いランクのチェーンフラグメントに合わせる前記より高いランクのチェーンフラグメントを選択する、
    請求項17から19のいずれか一項に記載のシステム。
JP2019237067A 2019-03-29 2019-12-26 文書における見出しのシーケンスの識別方法、プログラム及びシステム Active JP7493937B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/370,724 2019-03-29
US16/370,724 US11468346B2 (en) 2019-03-29 2019-03-29 Identifying sequence headings in a document

Publications (3)

Publication Number Publication Date
JP2020173779A JP2020173779A (ja) 2020-10-22
JP2020173779A5 true JP2020173779A5 (ja) 2022-06-27
JP7493937B2 JP7493937B2 (ja) 2024-06-03

Family

ID=72606019

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019237067A Active JP7493937B2 (ja) 2019-03-29 2019-12-26 文書における見出しのシーケンスの識別方法、プログラム及びシステム

Country Status (3)

Country Link
US (1) US11468346B2 (ja)
JP (1) JP7493937B2 (ja)
CN (1) CN111753534B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10956731B1 (en) * 2019-10-09 2021-03-23 Adobe Inc. Heading identification and classification for a digital document
US10949604B1 (en) 2019-10-25 2021-03-16 Adobe Inc. Identifying artifacts in digital documents
CN112329548A (zh) * 2020-10-16 2021-02-05 北京临近空间飞行器系统工程研究所 一种文档章节分割方法、装置及存储介质

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62256075A (ja) * 1986-04-30 1987-11-07 Hitachi Ltd 辞書検索方式
US6298357B1 (en) * 1997-06-03 2001-10-02 Adobe Systems Incorporated Structure extraction on electronic documents
EP1508080A2 (en) * 2002-05-20 2005-02-23 Tata Infotech Ltd. Document structure identifier
US8706475B2 (en) 2005-01-10 2014-04-22 Xerox Corporation Method and apparatus for detecting a table of contents and reference determination
US7743327B2 (en) * 2006-02-23 2010-06-22 Xerox Corporation Table of contents extraction with improved robustness
US7873950B2 (en) * 2006-03-23 2011-01-18 Oracle America, Inc. Graph theory-based approach to XML data binding
US7991709B2 (en) * 2008-01-28 2011-08-02 Xerox Corporation Method and apparatus for structuring documents utilizing recognition of an ordered sequence of identifiers
US7937338B2 (en) * 2008-04-30 2011-05-03 International Business Machines Corporation System and method for identifying document structure and associated metainformation
US8352857B2 (en) * 2008-10-27 2013-01-08 Xerox Corporation Methods and apparatuses for intra-document reference identification and resolution
US9135249B2 (en) * 2009-05-29 2015-09-15 Xerox Corporation Number sequences detection systems and methods
JP5663866B2 (ja) * 2009-08-20 2015-02-04 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2011070558A (ja) * 2009-09-28 2011-04-07 Konica Minolta Business Technologies Inc 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
JP5536687B2 (ja) * 2011-01-31 2014-07-02 インターナショナル・ビジネス・マシーンズ・コーポレーション 目次と見出しの対応付け方法、対応付け装置、及び対応付けプログラム
CA2840233A1 (en) * 2011-07-11 2013-01-17 Paper Software LLC System and method for processing document
US9001390B1 (en) * 2011-10-06 2015-04-07 Uri Zernik Device, system and method for identifying sections of documents
JP2013206261A (ja) * 2012-03-29 2013-10-07 Toshiba Corp 構造化データ生成装置、データ処理装置、構造化データ生成方法、及び構造化データ生成プログラム
JP5971069B2 (ja) * 2012-10-04 2016-08-17 新日鐵住金株式会社 情報処理装置、タイトル抽出方法及びプログラム
US9058374B2 (en) 2013-09-26 2015-06-16 International Business Machines Corporation Concept driven automatic section identification
US20150169676A1 (en) 2013-12-18 2015-06-18 International Business Machines Corporation Generating a Table of Contents for Unformatted Text
TWI549003B (zh) * 2014-08-18 2016-09-11 葆光資訊有限公司 自動切割章節方法
US9946924B2 (en) * 2015-06-10 2018-04-17 Accenture Global Services Limited System and method for automating information abstraction process for documents
US10108695B1 (en) * 2015-08-03 2018-10-23 Amazon Technologies, Inc. Multi-level clustering for associating semantic classifiers with content regions
CN105302778A (zh) * 2015-10-23 2016-02-03 北京奇虎科技有限公司 文章章节生成方法、系统和电子书阅读器
US10565444B2 (en) * 2017-09-07 2020-02-18 International Business Machines Corporation Using visual features to identify document sections
US10726198B2 (en) * 2017-10-17 2020-07-28 Handycontract, LLC Method, device, and system, for identifying data elements in data structures
US10691937B2 (en) * 2018-07-30 2020-06-23 Wipro Limited Method and system for determining structural blocks of a document

Similar Documents

Publication Publication Date Title
JP2020173779A5 (ja) 文書における見出しのシーケンスの識別方法、プログラム及びシステム
JP2005302043A5 (ja)
JP5611852B2 (ja) 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム
WO2019005611A1 (en) SELECTIVE APPRENTICESHIP FOR ERROR DECORRELATION
JP5840110B2 (ja) 同一項目検出装置及びプログラム
CN102105901A (zh) 注释图像
JP5862413B2 (ja) 情報変換規則生成プログラム、情報変換規則生成装置および情報変換規則生成方法
WO2022044064A1 (ja) 機械学習データ生成プログラム、機械学習データ生成方法、機械学習データ生成装置、分類データ生成プログラム、分類データ生成方法および分類データ生成装置
US20150332172A1 (en) Learning method, information processing device, and recording medium
US20160335249A1 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
JP7193000B2 (ja) 類似文書検索方法、類似文書検索プログラム、類似文書検索装置、索引情報作成方法、索引情報作成プログラムおよび索引情報作成装置
CN105247481A (zh) 网页输出选择
CN111666965B (zh) 改进图像识别的多级别深度特征和多匹配器融合
JP5676692B2 (ja) 機械学習装置、機械学習方法、およびプログラム
US20180144048A1 (en) Apparatus and method for matching multiplecolumn keyword patterns
WO2021033274A1 (ja) パターン抽出およびルール生成装置、方法およびプログラム
US20200349454A1 (en) Logical calculation device, logical calculation method, and program
JPWO2019235074A1 (ja) 生成方法、生成装置および生成プログラム
US20210241021A1 (en) Information processing method and information processing system
US11823491B2 (en) Processing apparatus, processing method, and non-transitory storage medium
CN113537392A (zh) 相似图像的识别方法、装置、计算设备及计算机存储介质
CN113590436A (zh) 一种告警方法及装置
WO2021069505A1 (en) Method for assigning at least one query triplet to at least one respective class
JP2021018520A5 (ja)
CN111310066A (zh) 一种基于主题模型和关联规则算法的好友推荐方法及系统