JP2020173784A5 - - Google Patents

Download PDF

Info

Publication number
JP2020173784A5
JP2020173784A5 JP2020018867A JP2020018867A JP2020173784A5 JP 2020173784 A5 JP2020173784 A5 JP 2020173784A5 JP 2020018867 A JP2020018867 A JP 2020018867A JP 2020018867 A JP2020018867 A JP 2020018867A JP 2020173784 A5 JP2020173784 A5 JP 2020173784A5
Authority
JP
Japan
Prior art keywords
filtered
candidates
candidate
title
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020018867A
Other languages
English (en)
Other versions
JP7433068B2 (ja
JP2020173784A (ja
Filing date
Publication date
Priority claimed from US16/370,110 external-priority patent/US20200311412A1/en
Application filed filed Critical
Publication of JP2020173784A publication Critical patent/JP2020173784A/ja
Publication of JP2020173784A5 publication Critical patent/JP2020173784A5/ja
Application granted granted Critical
Publication of JP7433068B2 publication Critical patent/JP7433068B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

主として、一側面において、本発明は、電子文書(ED)を処理し、当該EDの構文解析版におけるタイトル及びセクションを推測するためのプログラムを格納した、非一時的なコンピューター読取り可能な媒体(CRM)のプログラムに関する。前記プログラムは、コンピューターに、前記電子文書に視覚分析を適用させて、前記電子文書のタイトル候補及びセクション候補を特定させ、前記セクション候補に基づき、前記タイトル候補をフィルタリングさせ、前記フィルタリングされたタイトル候補に基づき、前記セクション候補をフィルタリングさせ、前記電子文書に意味分析を適用させて、前記電子文書の話題及び部分を特定させ、前記特定された話題及び部分に基づき、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込ませ、前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成させる。

Claims (20)

  1. 電子文書(ED)を処理し、前記電子文書におけるタイトル及びセクションを推測する方法であって、
    前記電子文書に視覚分析を適用し、前記電子文書のタイトル候補及びセクション候補を特定する工程と、
    前記セクション候補に基づき、前記タイトル候補をフィルタリングする工程と、
    前記フィルタリングされたタイトル候補に基づき、前記セクション候補をフィルタリングする工程と、
    前記電子文書に意味分析を適用し、前記電子文書の話題及び部分を特定する工程と、
    前記特定された話題及び部分に基づき、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込む工程と、
    前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成する工程と、を含む方法。
  2. 前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補に基づき、前記話題及び前記部分を絞り込む工程と、
    前記絞り込まれた話題及び前記絞り込まれた部分に基づき、前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を更に絞り込む工程と、
    前記更に絞り込まれたタイトル候補及び前記更に絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成する工程と、を更に含む請求項1に記載の方法。
  3. 前記タイトル候補及び前記セクション候補を絞り込む前記工程は、更に、
    前記視覚分析を前記部分のうち第一の部分にのみ再度適用する工程であって、前記第一の部分は前記話題のうち第一の話題に関連している工程と、
    前記第一の部分内において特定された、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を、前記第一の話題と比較する工程であって、前記第一の部分内にある前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補は、前記話題のうち第二の話題に関連している工程と、
    前記第一の話題が前記第二の話題と調和することに基づき、前記第一の部分内にある前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補が、前記第一の部分と関連していると判断する工程と、を含む請求項1又は2に記載の方法。
  4. 前記視覚分析及び前記意味分析を前記電子文書の全体に行うことに基づき、前記第一の話題と前記第二の話題との間の潜在的な非一貫性を特定する工程と、
    前記潜在的な非一貫性に基づき、前記第一の部分を選択する工程と、を更に含む請求項3に記載の方法。
  5. 前記セクション候補はそれぞれ、前記タイトル候補のうち少なくとも一つと関連しており、
    前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込む前記工程は、更に、
    前記フィルタリングされたセクション候補のうち、前記フィルタリングされたタイトル候補のいずれとも関連していない第一のフィルタリングされたセクション候補を特定する工程と、
    前記視覚分析を、前記第一のフィルタリングされたセクション候補にのみ再度適用する工程と、
    前記第一のフィルタリングされたセクション候補が非テキストオブジェクトを含むと判断する工程と、
    前記視覚分析を用いて、前記フィルタリングされたタイトル候補のいずれかが前記非テキストオブジェクトの所定領域内にあるかどうか探す工程と、
    前記フィルタリングされたタイトル候補のうち第一のフィルタリングされたタイトル候補を、前記所定領域内において特定することに基づき、前記第一のフィルタリングされたタイトル候補が、前記第のフィルタリングされたセクション候補のタイトルであると判断する工程と、を含む請求項1から4のいずれか一項に記載の方法。
  6. 前記電子文書は複数のページを含み、
    前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込む前記工程は、更に、
    前記話題又は前記部分に基づき、前記電子文書を、前記ページの第一サブセットと、前記第一サブセットと重複しない前記ページの第二サブセットとに分割する工程と、
    前記第一サブセット及び前記第二サブセット内において見逃したタイトル候補及びセクション候補を特定するために、前記視覚分析を前記第一サブセット及び前記第二サブセットに対して別々に適用する工程と、を含む請求項1から5のいずれか一項に記載の方法。
  7. 前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込む前記工程は、更に、
    前記話題又は前記部分に基づき、前記電子文書を、第一部と、前記第一部と重複せずかつマスクされた第二部に分割する工程と、
    前記第一内において見逃したタイトル候補及びセクション候補を特定するために、前記視覚分析を前記第一部にのみ再度適用する工程と、を含む請求項1から6のいずれか一項に記載の方法。
  8. 前記電子文書の前記タイトル及び前記セクションはタグを含まない、請求項1から7のいずれか一項に記載の方法。
  9. 前記視覚分析は、畳み込みニューラルネットワーク(CNN)を回帰型ニューラルネットワーク(RNN)と組み合わせて用いて適用される、請求項1から8のいずれか一項に記載の方法。
  10. 前記意味分析は、自然言語処理(NLP)を用いて適用される、請求項1から9のいずれか一項に記載の方法。
  11. 電子文書(ED)を処理して、前記電子文書の構文解析版におけるタイトル及びセクションを推測するためプログラムを格納した、非一時的なコンピューター読取り可能な媒体(CRM)において、前記プログラムは、コンピューターに
    前記電子文書に視覚分析を適用させて、前記電子文書のタイトル候補及びセクション候補を特定させ、
    前記セクション候補に基づき、前記タイトル候補をフィルタリングさせ、
    前記フィルタリングされたタイトル候補に基づき、前記セクション候補をフィルタリングさせ、
    前記電子文書に意味分析を適用させて、前記電子文書の話題及び部分を特定させ、
    前記特定された話題及び部分に基づき、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込ませ、
    前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成させるプログラム
  12. 記プログラムは、更に、コンピューターに
    前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補に基づき、前記話題及び前記部分を絞り込ませ、
    前記絞り込まれた話題及び前記絞り込まれた部分に基づき、前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を更に絞り込ませ、
    前記更に絞り込まれたタイトル候補及び前記更に絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成させる、請求項11に記載のプログラム
  13. 前記タイトル候補及び前記セクション候補の前記絞り込みは、更に、
    前記視覚分析を、前記部分のうち第一の部分にのみ再度適用する工程であって、前記第一の部分は前記話題のうち第一の話題に関連している工程と、
    前記第一の部分内において特定された、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を前記第一の話題と比較する工程であって、前記第一の部分内にある前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補は、前記話題のうち第二の話題に関連している工程と、
    前記第一の話題が前記第二の話題と調和することに基づき、前記第一の部分内にある前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補が、前記第一の部分と関連していると判断する工程と、を含む、請求項11又は12に記載のプログラム
  14. 記プログラムは、更に、コンピューターに、
    前記視覚分析及び前記意味分析を前記電子文書の全体に行うことに基づき、前記第一の話題と前記第二の話題との間の潜在的な非一貫性を特定させ、
    前記潜在的な非一貫性に基づき、前記第一の部分を選択させる、請求項13に記載のプログラム
  15. 前記セクション候補はそれぞれ、前記タイトル候補のうち少なくとも一つと関連しており、
    前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補の前記絞り込みは、更に、
    前記フィルタリングされたセクション候補のうち、前記フィルタリングされたタイトル候補のいずれとも関連していない第一のフィルタリングされたセクション候補を特定する工程と、
    前記視覚分析を、前記第一のフィルタリングされたセクション候補にのみ再度適用する工程と、
    前記第一のフィルタリングされたセクション候補が非テキストオブジェクトを含むと判断する工程と、
    前記視覚分析を用いて、前記フィルタリングされたタイトル候補のいずれかが前記非テキストオブジェクトの所定領域内にあるかどうか探す工程と、
    前記フィルタリングされたタイトル候補のうち第一のフィルタリングされたタイトル候補を、前記所定領域内において特定することに基づき、前記第一のフィルタリングされたタイトル候補が、前記第二のフィルタリングされたセクション候補のタイトルであると判断する工程と、を含む、請求項11から14のいずれか一項に記載のプログラム
  16. 電子文書(ED)を処理して、前記電子文書の構文解析版におけるタイトル及びセクションを推測するためのシステムであって、前記システムは
    メモリーと、
    前記メモリーと接続されたプロセッサーを備え、前記プロセッサーは、
    前記電子文書に視覚分析を適用し、前記電子文書のタイトル候補及びセクション候補を特定し、
    前記セクション候補に基づき、前記タイトル候補をフィルタリングし、
    前記フィルタリングされたタイトル候補に基づき、前記セクション候補をフィルタリングし、
    前記電子文書に意味分析を適用し、前記電子文書の話題及び部分を特定し、
    前記特定された話題及び部分に基づき、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込み、
    前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成するシステム。
  17. 前記プロセッサーは、更に、
    前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補に基づき、前記話題及び前記部分を絞り込み、
    前記絞り込まれた話題及び前記絞り込まれた部分に基づき、前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を更に絞り込み、
    前記更に絞り込まれたタイトル候補及び前記更に絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成する、請求項16に記載のシステム。
  18. 前記タイトル候補及び前記セクション候補の前記絞り込みは、更に、
    前記視覚分析を、前記部分のうち第一の部分にのみ再度適用する工程であって、前記第一の部分は前記話題のうち第一の話題に関連している工程と、
    前記第一の部分内において特定された、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を前記第一の話題と比較する工程であって、前記第一の部分内にある前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補は、前記話題のうち第二の話題に関連している工程と、
    前記第一の話題が前記第二の話題と調和することに基づき、前記第一の部分内にある前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補が、前記第一の部分と関連していると判断する工程と、を含む、請求項16又は17に記載のシステム。
  19. 前記プロセッサーは、更に、
    前記視覚分析及び前記意味分析を前記電子文書の全体に行うことに基づき、前記第一の話題と前記第二の話題との間の潜在的な非一貫性を特定し、
    前記潜在的な非一貫性に基づき、前記第一の部分を選択する、請求項18に記載のシステム。
  20. 前記セクション候補はそれぞれ、前記タイトル候補のうち少なくとも一つと関連しており、
    前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補の前記絞り込みは、更に、
    前記フィルタリングされたセクション候補のうち、前記フィルタリングされたタイトル候補のいずれとも関連していない第一のフィルタリングされたセクション候補を特定する工程と、
    前記視覚分析を、前記第一のフィルタリングされたセクション候補にのみ再度適用する工程と、
    前記第一のフィルタリングされたセクション候補が非テキストオブジェクトを含むと判断する工程と、
    前記視覚分析を用いて、前記フィルタリングされたタイトル候補のいずれかが前記非テキストオブジェクトの所定領域内にあるかどうか探す工程と、
    前記フィルタリングされたタイトル候補のうち第一のフィルタリングされたタイトル候補を、前記所定領域内において特定することに基づき、前記第一のフィルタリングされたタイトル候補が、前記第二のフィルタリングされたセクション候補のタイトルであると判断する工程と、を含む、請求項16から19のいずれか一項に記載のシステム。
JP2020018867A 2019-03-29 2020-02-06 文書におけるタイトル及びセクションの推測 Active JP7433068B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/370,110 2019-03-29
US16/370,110 US20200311412A1 (en) 2019-03-29 2019-03-29 Inferring titles and sections in documents

Publications (3)

Publication Number Publication Date
JP2020173784A JP2020173784A (ja) 2020-10-22
JP2020173784A5 true JP2020173784A5 (ja) 2022-07-28
JP7433068B2 JP7433068B2 (ja) 2024-02-19

Family

ID=72605970

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020018867A Active JP7433068B2 (ja) 2019-03-29 2020-02-06 文書におけるタイトル及びセクションの推測

Country Status (2)

Country Link
US (1) US20200311412A1 (ja)
JP (1) JP7433068B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11803706B2 (en) * 2020-01-24 2023-10-31 Thomson Reuters Enterprise Centre Gmbh Systems and methods for structure and header extraction
WO2022187215A1 (en) * 2021-03-01 2022-09-09 Schlumberger Technology Corporation System and method for automated document analysis

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3940491B2 (ja) * 1998-02-27 2007-07-04 株式会社東芝 文書処理装置および文書処理方法
JP2004178010A (ja) 2002-11-22 2004-06-24 Toshiba Corp 文書処理装置並びにその方法及びプログラム
WO2005050474A2 (en) 2003-11-21 2005-06-02 Philips Intellectual Property & Standards Gmbh Text segmentation and label assignment with user interaction by means of topic specific language models and topic-specific label statistics
CN104094278A (zh) * 2012-01-23 2014-10-08 微软公司 模式匹配引擎
US20150169676A1 (en) 2013-12-18 2015-06-18 International Business Machines Corporation Generating a Table of Contents for Unformatted Text
US11200412B2 (en) * 2017-01-14 2021-12-14 Innoplexus Ag Method and system for generating parsed document from digital document
US10089742B1 (en) * 2017-03-14 2018-10-02 Adobe Systems Incorporated Automatically segmenting images based on natural language phrases
US20180300315A1 (en) * 2017-04-14 2018-10-18 Novabase Business Solutions, S.A. Systems and methods for document processing using machine learning
US20190180097A1 (en) * 2017-12-10 2019-06-13 Walmart Apollo, Llc Systems and methods for automated classification of regulatory reports
US10885282B2 (en) * 2018-12-07 2021-01-05 Microsoft Technology Licensing, Llc Document heading detection

Similar Documents

Publication Publication Date Title
Primpeli et al. The WDC training dataset and gold standard for large-scale product matching
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
Urvoy et al. Tracking web spam with html style similarities
US8965894B2 (en) Automated web page classification
JP2020173784A5 (ja)
Samothrakis et al. Emotional sentence annotation helps predict fiction genre
Sejal et al. Image recommendation based on ANOVA cosine similarity
CN104615768A (zh) 文档的同本识别方法及装置
Cremisini et al. A challenging dataset for bias detection: the case of the crisis in the ukraine
Raghav et al. Text and citations based cluster analysis of legal judgments
Quesada-Martínez et al. Approaching the axiomatic enrichment of the Gene Ontology from a lexical perspective
Zhao et al. Missing RDF triples detection and correction in knowledge graphs
CN111767482B (zh) 一种聚焦网络爬虫自适应爬取方法
Jain Automatic Text Summarization of Hindi Text Using Extractive Approach
Aleid et al. Framework to classify and analyze social media content
KC et al. Similarity based web data extraction and integration system for web content mining
Almonajed et al. Sentiment Analysis on Twitter Data using Big Data
Khan et al. Towards building an Arabic plagiarism detection system: plagiarism detection in Arabic
Amador Penichet et al. New similarity function for scientific articles clustering based on the bibliographic references
LAIC et al. Automatic image annotation
Smith et al. Classification of text to subject using LDA
US20200125682A1 (en) Associating documents with application programming interfaces
US20230281225A1 (en) Semantic content clustering based on user interactions for content moderation
US11599728B1 (en) Semantic content clustering based on user interactions
Ara et al. Upgrading YouTube video search by generating tags through semantic analysis of contextual data