JP2020173784A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2020173784A5 JP2020173784A5 JP2020018867A JP2020018867A JP2020173784A5 JP 2020173784 A5 JP2020173784 A5 JP 2020173784A5 JP 2020018867 A JP2020018867 A JP 2020018867A JP 2020018867 A JP2020018867 A JP 2020018867A JP 2020173784 A5 JP2020173784 A5 JP 2020173784A5
- Authority
- JP
- Japan
- Prior art keywords
- filtered
- candidates
- candidate
- title
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 claims description 19
- 238000001914 filtration Methods 0.000 claims description 8
- 238000000034 method Methods 0.000 claims 9
- 238000013527 convolutional neural network Methods 0.000 claims 2
- 238000003058 natural language processing Methods 0.000 claims 2
- 238000013528 artificial neural network Methods 0.000 claims 1
- 230000000306 recurrent effect Effects 0.000 claims 1
Description
主として、一側面において、本発明は、電子文書(ED)を処理し、当該EDの構文解析版におけるタイトル及びセクションを推測するためのプログラムを格納した、非一時的なコンピューター読取り可能な媒体(CRM)のプログラムに関する。前記プログラムは、コンピューターに、前記電子文書に視覚分析を適用させて、前記電子文書のタイトル候補及びセクション候補を特定させ、前記セクション候補に基づき、前記タイトル候補をフィルタリングさせ、前記フィルタリングされたタイトル候補に基づき、前記セクション候補をフィルタリングさせ、前記電子文書に意味分析を適用させて、前記電子文書の話題及び部分を特定させ、前記特定された話題及び部分に基づき、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込ませ、前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成させる。
Claims (20)
- 電子文書(ED)を処理し、前記電子文書におけるタイトル及びセクションを推測する方法であって、
前記電子文書に視覚分析を適用し、前記電子文書のタイトル候補及びセクション候補を特定する工程と、
前記セクション候補に基づき、前記タイトル候補をフィルタリングする工程と、
前記フィルタリングされたタイトル候補に基づき、前記セクション候補をフィルタリングする工程と、
前記電子文書に意味分析を適用し、前記電子文書の話題及び部分を特定する工程と、
前記特定された話題及び部分に基づき、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込む工程と、
前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成する工程と、を含む方法。 - 前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補に基づき、前記話題及び前記部分を絞り込む工程と、
前記絞り込まれた話題及び前記絞り込まれた部分に基づき、前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を更に絞り込む工程と、
前記更に絞り込まれたタイトル候補及び前記更に絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成する工程と、を更に含む請求項1に記載の方法。 - 前記タイトル候補及び前記セクション候補を絞り込む前記工程は、更に、
前記視覚分析を前記部分のうち第一の部分にのみ再度適用する工程であって、前記第一の部分は前記話題のうち第一の話題に関連している工程と、
前記第一の部分内において特定された、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を、前記第一の話題と比較する工程であって、前記第一の部分内にある前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補は、前記話題のうち第二の話題に関連している工程と、
前記第一の話題が前記第二の話題と調和することに基づき、前記第一の部分内にある前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補が、前記第一の部分と関連していると判断する工程と、を含む請求項1又は2に記載の方法。 - 前記視覚分析及び前記意味分析を前記電子文書の全体に行うことに基づき、前記第一の話題と前記第二の話題との間の潜在的な非一貫性を特定する工程と、
前記潜在的な非一貫性に基づき、前記第一の部分を選択する工程と、を更に含む請求項3に記載の方法。 - 前記セクション候補はそれぞれ、前記タイトル候補のうち少なくとも一つと関連しており、
前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込む前記工程は、更に、
前記フィルタリングされたセクション候補のうち、前記フィルタリングされたタイトル候補のいずれとも関連していない第一のフィルタリングされたセクション候補を特定する工程と、
前記視覚分析を、前記第一のフィルタリングされたセクション候補にのみ再度適用する工程と、
前記第一のフィルタリングされたセクション候補が非テキストオブジェクトを含むと判断する工程と、
前記視覚分析を用いて、前記フィルタリングされたタイトル候補のいずれかが前記非テキストオブジェクトの所定領域内にあるかどうか探す工程と、
前記フィルタリングされたタイトル候補のうち第一のフィルタリングされたタイトル候補を、前記所定領域内において特定することに基づき、前記第一のフィルタリングされたタイトル候補が、前記第一のフィルタリングされたセクション候補のタイトルであると判断する工程と、を含む請求項1から4のいずれか一項に記載の方法。 - 前記電子文書は複数のページを含み、
前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込む前記工程は、更に、
前記話題又は前記部分に基づき、前記電子文書を、前記ページの第一サブセットと、前記第一サブセットと重複しない前記ページの第二サブセットとに分割する工程と、
前記第一サブセット及び前記第二サブセット内において見逃したタイトル候補及びセクション候補を特定するために、前記視覚分析を前記第一サブセット及び前記第二サブセットに対して別々に適用する工程と、を含む請求項1から5のいずれか一項に記載の方法。 - 前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込む前記工程は、更に、
前記話題又は前記部分に基づき、前記電子文書を、第一部と、前記第一部と重複せずかつマスクされた第二部に分割する工程と、
前記第一部内において見逃したタイトル候補及びセクション候補を特定するために、前記視覚分析を前記第一部にのみ再度適用する工程と、を含む請求項1から6のいずれか一項に記載の方法。 - 前記電子文書の前記タイトル及び前記セクションはタグを含まない、請求項1から7のいずれか一項に記載の方法。
- 前記視覚分析は、畳み込みニューラルネットワーク(CNN)を回帰型ニューラルネットワーク(RNN)と組み合わせて用いて適用される、請求項1から8のいずれか一項に記載の方法。
- 前記意味分析は、自然言語処理(NLP)を用いて適用される、請求項1から9のいずれか一項に記載の方法。
- 電子文書(ED)を処理して、前記電子文書の構文解析版におけるタイトル及びセクションを推測するためプログラムを格納した、非一時的なコンピューター読取り可能な媒体(CRM)において、前記プログラムは、コンピューターに
前記電子文書に視覚分析を適用させて、前記電子文書のタイトル候補及びセクション候補を特定させ、
前記セクション候補に基づき、前記タイトル候補をフィルタリングさせ、
前記フィルタリングされたタイトル候補に基づき、前記セクション候補をフィルタリングさせ、
前記電子文書に意味分析を適用させて、前記電子文書の話題及び部分を特定させ、
前記特定された話題及び部分に基づき、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込ませ、
前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成させるプログラム。 - 前記プログラムは、更に、コンピューターに
前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補に基づき、前記話題及び前記部分を絞り込ませ、
前記絞り込まれた話題及び前記絞り込まれた部分に基づき、前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を更に絞り込ませ、
前記更に絞り込まれたタイトル候補及び前記更に絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成させる、請求項11に記載のプログラム。 - 前記タイトル候補及び前記セクション候補の前記絞り込みは、更に、
前記視覚分析を、前記部分のうち第一の部分にのみ再度適用する工程であって、前記第一の部分は前記話題のうち第一の話題に関連している工程と、
前記第一の部分内において特定された、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を前記第一の話題と比較する工程であって、前記第一の部分内にある前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補は、前記話題のうち第二の話題に関連している工程と、
前記第一の話題が前記第二の話題と調和することに基づき、前記第一の部分内にある前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補が、前記第一の部分と関連していると判断する工程と、を含む、請求項11又は12に記載のプログラム。 - 前記プログラムは、更に、コンピューターに、
前記視覚分析及び前記意味分析を前記電子文書の全体に行うことに基づき、前記第一の話題と前記第二の話題との間の潜在的な非一貫性を特定させ、
前記潜在的な非一貫性に基づき、前記第一の部分を選択させる、請求項13に記載のプログラム。 - 前記セクション候補はそれぞれ、前記タイトル候補のうち少なくとも一つと関連しており、
前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補の前記絞り込みは、更に、
前記フィルタリングされたセクション候補のうち、前記フィルタリングされたタイトル候補のいずれとも関連していない第一のフィルタリングされたセクション候補を特定する工程と、
前記視覚分析を、前記第一のフィルタリングされたセクション候補にのみ再度適用する工程と、
前記第一のフィルタリングされたセクション候補が非テキストオブジェクトを含むと判断する工程と、
前記視覚分析を用いて、前記フィルタリングされたタイトル候補のいずれかが前記非テキストオブジェクトの所定領域内にあるかどうか探す工程と、
前記フィルタリングされたタイトル候補のうち第一のフィルタリングされたタイトル候補を、前記所定領域内において特定することに基づき、前記第一のフィルタリングされたタイトル候補が、前記第二のフィルタリングされたセクション候補のタイトルであると判断する工程と、を含む、請求項11から14のいずれか一項に記載のプログラム。 - 電子文書(ED)を処理して、前記電子文書の構文解析版におけるタイトル及びセクションを推測するためのシステムであって、前記システムは
メモリーと、
前記メモリーと接続されたプロセッサーを備え、前記プロセッサーは、
前記電子文書に視覚分析を適用し、前記電子文書のタイトル候補及びセクション候補を特定し、
前記セクション候補に基づき、前記タイトル候補をフィルタリングし、
前記フィルタリングされたタイトル候補に基づき、前記セクション候補をフィルタリングし、
前記電子文書に意味分析を適用し、前記電子文書の話題及び部分を特定し、
前記特定された話題及び部分に基づき、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込み、
前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成するシステム。 - 前記プロセッサーは、更に、
前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補に基づき、前記話題及び前記部分を絞り込み、
前記絞り込まれた話題及び前記絞り込まれた部分に基づき、前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を更に絞り込み、
前記更に絞り込まれたタイトル候補及び前記更に絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成する、請求項16に記載のシステム。 - 前記タイトル候補及び前記セクション候補の前記絞り込みは、更に、
前記視覚分析を、前記部分のうち第一の部分にのみ再度適用する工程であって、前記第一の部分は前記話題のうち第一の話題に関連している工程と、
前記第一の部分内において特定された、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を前記第一の話題と比較する工程であって、前記第一の部分内にある前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補は、前記話題のうち第二の話題に関連している工程と、
前記第一の話題が前記第二の話題と調和することに基づき、前記第一の部分内にある前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補が、前記第一の部分と関連していると判断する工程と、を含む、請求項16又は17に記載のシステム。 - 前記プロセッサーは、更に、
前記視覚分析及び前記意味分析を前記電子文書の全体に行うことに基づき、前記第一の話題と前記第二の話題との間の潜在的な非一貫性を特定し、
前記潜在的な非一貫性に基づき、前記第一の部分を選択する、請求項18に記載のシステム。 - 前記セクション候補はそれぞれ、前記タイトル候補のうち少なくとも一つと関連しており、
前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補の前記絞り込みは、更に、
前記フィルタリングされたセクション候補のうち、前記フィルタリングされたタイトル候補のいずれとも関連していない第一のフィルタリングされたセクション候補を特定する工程と、
前記視覚分析を、前記第一のフィルタリングされたセクション候補にのみ再度適用する工程と、
前記第一のフィルタリングされたセクション候補が非テキストオブジェクトを含むと判断する工程と、
前記視覚分析を用いて、前記フィルタリングされたタイトル候補のいずれかが前記非テキストオブジェクトの所定領域内にあるかどうか探す工程と、
前記フィルタリングされたタイトル候補のうち第一のフィルタリングされたタイトル候補を、前記所定領域内において特定することに基づき、前記第一のフィルタリングされたタイトル候補が、前記第二のフィルタリングされたセクション候補のタイトルであると判断する工程と、を含む、請求項16から19のいずれか一項に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/370,110 | 2019-03-29 | ||
US16/370,110 US20200311412A1 (en) | 2019-03-29 | 2019-03-29 | Inferring titles and sections in documents |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020173784A JP2020173784A (ja) | 2020-10-22 |
JP2020173784A5 true JP2020173784A5 (ja) | 2022-07-28 |
JP7433068B2 JP7433068B2 (ja) | 2024-02-19 |
Family
ID=72605970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020018867A Active JP7433068B2 (ja) | 2019-03-29 | 2020-02-06 | 文書におけるタイトル及びセクションの推測 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20200311412A1 (ja) |
JP (1) | JP7433068B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11803706B2 (en) * | 2020-01-24 | 2023-10-31 | Thomson Reuters Enterprise Centre Gmbh | Systems and methods for structure and header extraction |
WO2022187215A1 (en) * | 2021-03-01 | 2022-09-09 | Schlumberger Technology Corporation | System and method for automated document analysis |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3940491B2 (ja) * | 1998-02-27 | 2007-07-04 | 株式会社東芝 | 文書処理装置および文書処理方法 |
JP2004178010A (ja) | 2002-11-22 | 2004-06-24 | Toshiba Corp | 文書処理装置並びにその方法及びプログラム |
WO2005050474A2 (en) | 2003-11-21 | 2005-06-02 | Philips Intellectual Property & Standards Gmbh | Text segmentation and label assignment with user interaction by means of topic specific language models and topic-specific label statistics |
CN104094278A (zh) * | 2012-01-23 | 2014-10-08 | 微软公司 | 模式匹配引擎 |
US20150169676A1 (en) | 2013-12-18 | 2015-06-18 | International Business Machines Corporation | Generating a Table of Contents for Unformatted Text |
US11200412B2 (en) * | 2017-01-14 | 2021-12-14 | Innoplexus Ag | Method and system for generating parsed document from digital document |
US10089742B1 (en) * | 2017-03-14 | 2018-10-02 | Adobe Systems Incorporated | Automatically segmenting images based on natural language phrases |
US20180300315A1 (en) * | 2017-04-14 | 2018-10-18 | Novabase Business Solutions, S.A. | Systems and methods for document processing using machine learning |
US20190180097A1 (en) * | 2017-12-10 | 2019-06-13 | Walmart Apollo, Llc | Systems and methods for automated classification of regulatory reports |
US10885282B2 (en) * | 2018-12-07 | 2021-01-05 | Microsoft Technology Licensing, Llc | Document heading detection |
-
2019
- 2019-03-29 US US16/370,110 patent/US20200311412A1/en not_active Abandoned
-
2020
- 2020-02-06 JP JP2020018867A patent/JP7433068B2/ja active Active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Primpeli et al. | The WDC training dataset and gold standard for large-scale product matching | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
Urvoy et al. | Tracking web spam with html style similarities | |
US8965894B2 (en) | Automated web page classification | |
JP2020173784A5 (ja) | ||
Samothrakis et al. | Emotional sentence annotation helps predict fiction genre | |
Sejal et al. | Image recommendation based on ANOVA cosine similarity | |
CN104615768A (zh) | 文档的同本识别方法及装置 | |
Cremisini et al. | A challenging dataset for bias detection: the case of the crisis in the ukraine | |
Raghav et al. | Text and citations based cluster analysis of legal judgments | |
Quesada-Martínez et al. | Approaching the axiomatic enrichment of the Gene Ontology from a lexical perspective | |
Zhao et al. | Missing RDF triples detection and correction in knowledge graphs | |
CN111767482B (zh) | 一种聚焦网络爬虫自适应爬取方法 | |
Jain | Automatic Text Summarization of Hindi Text Using Extractive Approach | |
Aleid et al. | Framework to classify and analyze social media content | |
KC et al. | Similarity based web data extraction and integration system for web content mining | |
Almonajed et al. | Sentiment Analysis on Twitter Data using Big Data | |
Khan et al. | Towards building an Arabic plagiarism detection system: plagiarism detection in Arabic | |
Amador Penichet et al. | New similarity function for scientific articles clustering based on the bibliographic references | |
LAIC et al. | Automatic image annotation | |
Smith et al. | Classification of text to subject using LDA | |
US20200125682A1 (en) | Associating documents with application programming interfaces | |
US20230281225A1 (en) | Semantic content clustering based on user interactions for content moderation | |
US11599728B1 (en) | Semantic content clustering based on user interactions | |
Ara et al. | Upgrading YouTube video search by generating tags through semantic analysis of contextual data |