JP7186107B2 - タイトル推定器 - Google Patents
タイトル推定器 Download PDFInfo
- Publication number
- JP7186107B2 JP7186107B2 JP2019022865A JP2019022865A JP7186107B2 JP 7186107 B2 JP7186107 B2 JP 7186107B2 JP 2019022865 A JP2019022865 A JP 2019022865A JP 2019022865 A JP2019022865 A JP 2019022865A JP 7186107 B2 JP7186107 B2 JP 7186107B2
- Authority
- JP
- Japan
- Prior art keywords
- score
- text
- attributes
- layout
- style
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/048—Fuzzy inferencing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Automation & Control Theory (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
電子文書(ED)(たとえば、ワードプロセッシング文書、スプレッドシート、スライドショー、ウェブページなど)は、ED内の内容を最もよく説明しているタイトル(たとえば、名前、見出し、説明文、ラベル、キャプションなど)を含みうる。多くの場合、タイトル内のテキストはユーザーにとって思い出しやすいものである。
概して、一態様では、本発明は、電子文書(ED)を処理してED内のタイトルを推定する方法に関する。ここで、EDは複数の文字を含む。この方法は、ED内の文字のテキストスタイル属性、テキストレイアウト属性、およびテキストコンテンツ情報を含む、EDのマークアップ版を生成することと、ここで、文字は、テキストレイアウト属性に基づいて、少なくとも第1段落および第2段落にグループ化され、テキストスタイル属性およびテキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられ、テキストスタイル属性およびテキストレイアウト属性の統計情報を生成することと、テキストスタイル属性およびテキストレイアウト属性のそれぞれについて、所定の重みスコアおよび統計情報に基づいて相対重みスコアを算出することと、第1段落および第2段落のそれぞれについて、統計情報および相対重みスコアに基づいてスタイル基準スコアおよびレイアウト基準スコアと、テキストコンテンツ情報に基づくテキストコンテンツスコアと、スタイル基準スコア、レイアウト基準スコア、およびテキストコンテンツスコアに基づくタイトル信頼度スコアと、を算出することと、EDについて、そのED内のタイトルを推定する際に使用するための、第1段落および第2段落のそれぞれについてのタイトル信頼度スコアを含むメタデータを生成することと、を含む。
概して、一態様では、本発明は、電子文書(ED)をコンピューターによって処理してED内のタイトルを推定する方法に関する。ここで、EDは複数の文字を含む。この方法は、ED内の文字のテキストスタイル属性、テキストレイアウト属性、およびテキストコンテンツ情報を含む、EDのマークアップ版を生成することと、ここで、文字は、テキストレイアウト属性に基づいて、少なくとも第1段落および第2段落にグループ化され、テキストスタイル属性およびテキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられ、テキストスタイル属性およびテキストレイアウト属性の統計情報を生成することと、テキストスタイル属性およびテキストレイアウト属性のそれぞれについて、所定の重みスコアおよび統計情報に基づいて相対重みスコアを算出することと、第1段落および第2段落のそれぞれについて、統計情報および相対重みスコアに基づいてスタイル基準スコアおよびレイアウト基準スコアと、テキストコンテンツ情報に基づくテキストコンテンツスコアと、スタイル基準スコア、レイアウト基準スコア、およびテキストコンテンツスコアに基づくタイトル信頼度スコアと、を算出することと、EDについて、そのED内のタイトルを推定する際に使用するための、第1段落および第2段落のそれぞれについてのタイトル信頼度スコアを含むメタデータを生成することと、を含む。
centering_score = 1 - (leading_white_space - trailing_white_space) ÷ (leading_white_space + trailing_white_space)
white_space_score = horiz_white_space_score × vert_white_space_score
horiz_white_space_score = min_max_width ÷ content_bounding_box_width
uniqueness_score = distribution_ratio × sparsity_score
sparsity_score = 1 - (num_char_variation ÷ total_char_ED)
desirability_score=(most_com_var_para - most_com_var_ED) ÷ (desired_variation - most_com_var_ED)
scoring_function = uniqueness_score
scoring_function = uniqueness_score × desirability_score
text_score = 1 - (par_visible_char_count ÷ largest_par_visible_char_count)
title_confidence_score =(styling_criteria_score + layout_criteria_score) × text_score
Claims (21)
- 電子文書内のタイトルを推定するために前記電子文書をコンピューターによって処理する方法であって、
前記電子文書は複数の文字を含み、
前記電子文書内の文字の複数のテキストスタイル属性、複数のテキストレイアウト属性、およびテキストコンテンツ情報を含む、前記電子文書のマークアップ版を生成するステップと、ここで、前記複数の文字は、前記複数のテキストレイアウト属性に基づいて少なくとも第1段落と第2段落にグループ化され、前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられ、
前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性の統計情報を生成するステップと、
前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性のそれぞれについて、前記所定の重みスコアおよび前記統計情報に基づいて相対重みスコアを算出するステップと
前記第1段落と前記第2段落のそれぞれについて、前記統計情報および前記相対重みスコアに基づくスタイル基準スコアおよびレイアウト基準スコアと、前記テキストコンテンツ情報に基づくテキストコンテンツスコアと、前記スタイル基準スコア、前記レイアウト基準スコア、および前記テキストコンテンツスコアに基づくタイトル信頼度スコアとを算出するステップと、
前記電子文書について、前記第1段落および前記第2段落のそれぞれについてのタイトル信頼度スコアを含むメタデータを、前記電子文書内のタイトルを推定する際に使用するために生成するステップと、を有する、方法。 - 前記複数のテキストスタイル属性は、OOXMLスタイル名属性、フォントサイズ属性、太字属性、下線属性、フォント名属性、フォントカラー属性、および見出しタグ属性を含むグループから選択され、
前記複数のテキストレイアウト属性は、センタリング属性および空白属性を含むグループから選択され、
前記テキストコンテンツ情報は、前記電子文書内の前記複数の文字の文字数を含む、請求項1に記載の方法。 - 前記所定の重みスコアの合計は1である、請求項2に記載の方法。
- 前記複数のテキストレイアウト属性のそれぞれについて前記相対重みスコアを算出することは、
前記複数のテキストレイアウト属性のうちの所定のテキストレイアウト属性に対する前記相対重みスコアとして前記所定の重みスコアを設定するステップと、
残りの前記複数のテキストレイアウト属性のそれぞれについて、
前記統計情報に基づいて複数のレイアウトスコア関数を算出するステップと、
前記所定の重みスコアと前記レイアウトスコア関数の最大レイアウトスコア関数とに基づいて前記相対重みスコアを算出するステップと、を有する、請求項1~3のいずれか1項に記載の方法。 - 前記複数のテキストスタイル属性のそれぞれについて前記相対重みスコアを算出することは、
前記複数のテキストスタイル属性のそれぞれついて、前記統計情報に基づいて可変性を決定するステップと、
前記複数のテキストスタイル属性の、テキストスタイル属性の可変性が1であると決定したことに応じて、前記テキストスタイル属性の相対重みスコアをゼロに設定するステップと、
前記テキストスタイル属性の可変性が1よりも大きいと判断したことに応じて、前記所定の重みスコアに基づいて前記テキストスタイル属性の前記相対重みスコアを算出する、請求項4に記載の方法。 - 前記相対重みスコアの合計が1に等しくないことに応じて、前記相対重みスコアが合計1になるようにスケーリングされる、請求項5に記載の方法。
- 前記第1段落について前記スタイル基準スコアを計算することは、前記複数のテキストスタイル属性のそれぞれについて、固有性スコアおよび前記相対重みスコアに基づいて最終スタイルスコアを計算するステップ、を有し、
前記スタイル基準スコアは、複数のテキストスタイル属性のそれぞれについての最終スタイルスコアの合計である、請求項1~6のいずれか1項に記載の方法。 - 前記複数のテキストスタイル属性のうち、テキストスタイル属性の前記固有性スコアは、前記テキストスタイル属性の配分率およびまばら性スコアに基づき、
前記配分率は、前記第1段落の前記テキストスタイル属性が変化した文字数と前記第1段落の合計文字数の比率であり、
前記まばら性スコアは、前記テキストスタイル属性のバリエーションのある前記第1段落の文字数と前記電子文書の文字数の合計と補足比(complement ratio)である、請求項7に記載の方法。 - 前記第1段落の前記レイアウト基準スコアを算出することは、前記複数のテキストレイアウト属性のそれぞれについて、前記統計情報に基づく複数のレイアウトスコア関数と、前記相対重みスコアおよび前記レイアウトスコア関数に基づく最終レイアウトスコアと、算出するステップを、有し、
前記レイアウト基準スコアは、前記複数のテキストレイアウト属性のそれぞれに対する前記最終レイアウトスコアの合計である、請求項1~8のいずれか1項に記載の方法。 - 前記電子文書は、第2電子文書を含む電子文書の集合内の第1電子文書であり、前記第2電子文書は、第3段落および第4段落と、第3段落および第4段落のタイトル信頼度スコアを含むメタデータと、を含み、
前記第1段落および前記第3段落は、前記電子文書の集合内のタイトルを推定する要求において指定された所定の検索語を含み、
前記第1段落のタイトル信頼度スコアが前記第3段落のタイトル信頼度スコアよりも大きいことに応じて、前記第1電子文書は、前記第2電子文書の前にディスプレイに表示される、請求項1~9のいずれか1項に記載の方法。 - 電子文書を処理し、前記電子文書内に埋め込まれたタイトルを推定するためのコンピュータープログラムであって、
前記電子文書は複数の文字を含み、
前記電子文書内の複数のテキストスタイル属性、複数のテキストレイアウト属性、および文字のテキストコンテンツ情報を含む、前記電子文書のマークアップ版を生成することと、ここで、前記複数の文字は、前記複数のテキストレイアウト属性に基づいて少なくとも第1段落と第2段落とにグループ化され、前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられ、
前記複数のテキストスタイル属性と前記複数のテキストレイアウト属性の統計情報を生成することと、
前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性のそれぞれについて、前記所定の重みスコアおよび前記統計情報に基づいて相対重みスコアを算出することと、
前記第1段落と前記第2段落のそれぞれについて、
前記統計情報および前記相対重みスコアに基づくスタイル基準スコアおよびレイアウト基準スコアと、前記テキストコンテンツ情報に基づくテキストコンテンツスコアと、前記スタイル基準スコア、前記レイアウト基準スコア、および前記テキストコンテンツスコアに基づくタイトル信頼度スコアと、を算出することと、
前記電子文書について、前記第1段落および前記第2段落のそれぞれについてのタイトル信頼度スコアを含むメタデータを、前記電子文書内のタイトルを推定する際に使用するために生成することと、をコンピューターに実行させるためのコンピュータープログラム。 - 前記複数のテキストスタイル属性は、OOXMLスタイル名属性、フォントサイズ属性、太字属性、下線属性、フォント名属性、フォントカラー属性、および見出しタグ属性を含む群から選択され、
前記複数のテキストレイアウト属性は、センタリング属性および空白属性を含む群から選択され、
前記テキストコンテンツ情報は、前記電子文書内の前記複数の文字の文字数を含む、請求項11に記載のコンピュータープログラム。 - 前記複数のテキストレイアウト属性のそれぞれについて前記相対重みスコアを算出することは、
前記複数のテキストレイアウト属性のうち、所定のテキストレイアウト属性に対する前記相対重みスコアとして前記所定の重みスコアを設定することと、
残りの前記複数のテキストレイアウト属性のそれぞれについて、前記統計情報に基づいて複数のレイアウトスコア関数を算出すること、
前記所定の重みスコアと前記レイアウトスコア関数の最大レイアウトスコア関数とに基づいて前記相対重みスコアを算出することと、を含む、請求項11または12に記載のコンピュータープログラム。 - 前記複数のテキストスタイル属性のそれぞれについて前記相対重みスコアを算出することは、
前記複数のテキストスタイル属性のそれぞれについて、前記統計情報に基づいて可変性を決定することと、
前記複数のテキストスタイル属性の、テキストスタイル属性の可変性が1であると決定したことに応じて、前記テキストスタイル属性の前記相対重みスコアをゼロに設定することと、
前記テキストスタイル属性の可変性が1より大きいと判断したことに応じて、前記所定の重みスコアに基づいて前記テキストスタイル属性の前記相対重みスコアを算出することと、を含む、請求項13に記載のコンピュータープログラム。 - 前記電子文書は、第2電子文書を含む電子文書の集合内の第1電子文書であり、前記第2電子文書は、第3段落および第4段落と、第3段落および第4段落のタイトル信頼度スコアを含むメタデータと、を含み、
前記第1段落および前記第3段落は、前記電子文書の集合内のタイトルを推定する要求において指定された所定の検索語を含み、
前記第1段落のタイトル信頼度スコアが前記第3段落のタイトル信頼度スコアよりも大きいことに応じて、前記第1電子文書は、前記第2電子文書の前にディスプレイに表示される、請求項11~14のいずれか1項に記載のコンピュータープログラム。 - 電子文書内のタイトルを推定するために電子文書を処理するためのシステムであって、
前記電子文書は、複数の文字を含み、
前記システムは、メモリーと、
前記メモリーに接続されるコンピュータープロセッサーと、を含み、
前記コンピュータープロセッサーは、
前記電子文書内の文字の複数のテキストスタイル属性、複数のテキストレイアウト属性、およびテキストコンテンツ情報を含むマークアップ版の電子文書を生成し、
前記複数の文字は、前記複数のテキストレイアウト属性に基づいて少なくとも第1段落と第2段落にグループ化され、前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられ、
前記複数のテキストスタイル属性と前記複数のテキストレイアウト属性の統計情報を生成し、
前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性のそれぞれについて、前記所定の重みスコアおよび前記統計情報に基づいて相対重みスコアを算出し、
前記第1段落と前記第2段落のそれぞれについて、前記統計情報および前記相対重みスコアに基づくスタイル基準スコアおよびレイアウト基準スコアと、前記テキストコンテンツ情報に基づくテキストコンテンツスコアと、前記スタイル基準スコア、前記レイアウト基準スコア、および前記テキストコンテンツスコアに基づくタイトル信頼度スコアと、を算出し、
前記電子文書について、前記第1段落および前記第2段落のそれぞれについての前記タイトル信頼度スコアを含むメタデータを、前記電子文書内のタイトルを推定する際に使用するために生成する、システム。 - 前記複数のテキストスタイル属性は、OOXMLスタイル名属性、フォントサイズ属性、太字属性、下線属性、フォント名属性、フォントカラー属性、および見出しタグ属性を含む群から選択され、
前記複数のテキストレイアウト属性は、センタリング属性および空白属性を含む群から選択され、
前記テキストコンテンツ情報は、前記電子文書内の複数の文字の文字数を含む、請求項16に記載のシステム。 - 前記複数のテキストレイアウト属性のそれぞれについて前記相対重みスコアを算出することは、
前記複数のテキストレイアウト属性のうち、所定のテキストレイアウト属性に対する相対重みスコアとして前記所定の重みスコアを設定することと、
残りの前記複数のテキストレイアウト属性のそれぞれについて、前記統計情報に基づいて複数のレイアウトスコア関数を算出すること、
前記所定の重みスコアと前記レイアウトスコア関数の最大レイアウトスコア関数とに基づいて相対重みスコアを算出することと、を含む、請求項16または17に記載のシステム。 - 前記複数のテキストスタイル属性のそれぞれについて前記相対重みスコアを算出することは、
前記複数のテキストスタイル属性について、前記統計情報に基づいて可変性を決定し、
前記複数のテキストスタイル属性の、テキストスタイル属性の可変性が1であると決定したことに応じて、前記テキストスタイル属性の前記相対重みスコアをゼロに設定し、
前記テキストスタイル属性の可変性が1より大きいと判断したことに応じて、前記所定の重みスコアに基づいて前記テキストスタイル属性の前記相対重みスコアを算出すること、を含む、請求項16~18のいずれか1項に記載のシステム。 - 前記電子文書は、第2電子文書を含む電子文書の集合内の第1電子文書であり、前記第2電子文書は、第3段落および第4段落と、第3段落および第4段落のタイトル信頼度スコアを含むメタデータと、を含み、
前記第1段落および前記第3段落は、前記電子文書の集合内のタイトルを推定する要求において指定された所定の検索語を含み、
前記第1段落のタイトル信頼度スコアが前記第3段落のタイトル信頼度スコアよりも大きいことに応じて、前記第1電子文書は、前記第2電子文書の前にディスプレイに表示される、請求項16~19のいずれか1項に記載のシステム。 - 請求項11~15のいずれか1項に記載のコンピュータープログラムを格納したコンピューター読取可能な記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/897,911 US10572587B2 (en) | 2018-02-15 | 2018-02-15 | Title inferencer |
US15/897,911 | 2018-02-15 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019169137A JP2019169137A (ja) | 2019-10-03 |
JP7186107B2 true JP7186107B2 (ja) | 2022-12-08 |
Family
ID=65279494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019022865A Active JP7186107B2 (ja) | 2018-02-15 | 2019-02-12 | タイトル推定器 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10572587B2 (ja) |
EP (1) | EP3528139A1 (ja) |
JP (1) | JP7186107B2 (ja) |
CN (1) | CN110162773B (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956173B (zh) * | 2020-02-18 | 2020-06-23 | 江西软云科技股份有限公司 | 题目内容识别方法、装置、可读存储介质及计算机设备 |
US11176311B1 (en) * | 2020-07-09 | 2021-11-16 | International Business Machines Corporation | Enhanced section detection using a combination of object detection with heuristics |
US11416671B2 (en) | 2020-11-16 | 2022-08-16 | Issuu, Inc. | Device dependent rendering of PDF content |
US11030387B1 (en) | 2020-11-16 | 2021-06-08 | Issuu, Inc. | Device dependent rendering of PDF content including multiple articles and a table of contents |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000148788A (ja) | 1998-11-05 | 2000-05-30 | Ricoh Co Ltd | 文書画像からのタイトル領域抽出装置およびタイトル領域抽出方法,並びに文書検索方法 |
JP2003058556A (ja) | 2001-08-16 | 2003-02-28 | Ricoh Co Ltd | 文書画像のタイトル抽出方法、抽出プログラム、及びタイトル抽出装置 |
JP2011070529A (ja) | 2009-09-28 | 2011-04-07 | Hitachi Solutions Ltd | 文書処理装置 |
US20120278705A1 (en) | 2010-01-18 | 2012-11-01 | Yang sheng-wen | System and Method for Automatically Extracting Metadata from Unstructured Electronic Documents |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5438512A (en) * | 1993-10-22 | 1995-08-01 | Xerox Corporation | Method and apparatus for specifying layout processing of structured documents |
JP3425834B2 (ja) * | 1995-09-06 | 2003-07-14 | 富士通株式会社 | 文書画像からのタイトル抽出装置および方法 |
US5893916A (en) * | 1996-12-13 | 1999-04-13 | Ncr Corporation | Method of converting man pages to help topic files |
US6327387B1 (en) * | 1996-12-27 | 2001-12-04 | Fujitsu Limited | Apparatus and method for extracting management information from image |
US6298357B1 (en) * | 1997-06-03 | 2001-10-02 | Adobe Systems Incorporated | Structure extraction on electronic documents |
US6088711A (en) * | 1997-07-01 | 2000-07-11 | Microsoft Corporation | Method and system for defining and applying a style to a paragraph |
US7099507B2 (en) * | 1998-11-05 | 2006-08-29 | Ricoh Company, Ltd | Method and system for extracting title from document image |
US7013309B2 (en) * | 2000-12-18 | 2006-03-14 | Siemens Corporate Research | Method and apparatus for extracting anchorable information units from complex PDF documents |
US7120868B2 (en) * | 2002-05-30 | 2006-10-10 | Microsoft Corp. | System and method for adaptive document layout via manifold content |
US20040006742A1 (en) * | 2002-05-20 | 2004-01-08 | Slocombe David N. | Document structure identifier |
US20060224952A1 (en) * | 2005-03-30 | 2006-10-05 | Xiaofan Lin | Adaptive layout templates for generating electronic documents with variable content |
EP1748365A1 (en) * | 2005-07-27 | 2007-01-31 | Hewlett-Packard Development Company, L.P. | Document Template Generation |
US7958444B2 (en) * | 2006-06-15 | 2011-06-07 | Xerox Corporation | Visualizing document annotations in the context of the source document |
CN101246475B (zh) | 2007-02-14 | 2010-05-19 | 北京书生国际信息技术有限公司 | 一种基于版面信息的检索方法 |
JP2011070558A (ja) * | 2009-09-28 | 2011-04-07 | Konica Minolta Business Technologies Inc | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム |
FR2977692B1 (fr) * | 2011-07-07 | 2015-09-18 | Aquafadas Sas | Enrichissement de document electronique |
US10025979B2 (en) * | 2012-01-23 | 2018-07-17 | Microsoft Technology Licensing, Llc | Paragraph property detection and style reconstruction engine |
CN103838801A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种网页主题信息抽取方法 |
US9411790B2 (en) * | 2013-07-26 | 2016-08-09 | Metrodigi, Inc. | Systems, methods, and media for generating structured documents |
US10733256B2 (en) * | 2015-02-10 | 2020-08-04 | Researchgate Gmbh | Online publication system and method |
CN104881401B (zh) * | 2015-05-27 | 2017-10-17 | 大连理工大学 | 一种专利文献聚类方法 |
US9679198B2 (en) * | 2015-11-05 | 2017-06-13 | International Business Machines Corporation | Ingestion plan based on table uniqueness |
CN105488160A (zh) * | 2015-11-30 | 2016-04-13 | 北大方正集团有限公司 | 一种图片挂接方法及装置、知识图谱的制作方法 |
US9508043B1 (en) * | 2016-02-05 | 2016-11-29 | International Business Machines Corporation | Extracting data from documents using proximity of labels and data and font attributes |
CN106776538A (zh) * | 2016-11-23 | 2017-05-31 | 国网福建省电力有限公司 | 企业非标准格式文档的信息提取方法 |
-
2018
- 2018-02-15 US US15/897,911 patent/US10572587B2/en active Active
-
2019
- 2019-02-04 EP EP19155375.9A patent/EP3528139A1/en not_active Withdrawn
- 2019-02-12 JP JP2019022865A patent/JP7186107B2/ja active Active
- 2019-02-13 CN CN201910111922.2A patent/CN110162773B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000148788A (ja) | 1998-11-05 | 2000-05-30 | Ricoh Co Ltd | 文書画像からのタイトル領域抽出装置およびタイトル領域抽出方法,並びに文書検索方法 |
JP2003058556A (ja) | 2001-08-16 | 2003-02-28 | Ricoh Co Ltd | 文書画像のタイトル抽出方法、抽出プログラム、及びタイトル抽出装置 |
JP2011070529A (ja) | 2009-09-28 | 2011-04-07 | Hitachi Solutions Ltd | 文書処理装置 |
US20120278705A1 (en) | 2010-01-18 | 2012-11-01 | Yang sheng-wen | System and Method for Automatically Extracting Metadata from Unstructured Electronic Documents |
Also Published As
Publication number | Publication date |
---|---|
JP2019169137A (ja) | 2019-10-03 |
US10572587B2 (en) | 2020-02-25 |
US20190251163A1 (en) | 2019-08-15 |
EP3528139A1 (en) | 2019-08-21 |
CN110162773A (zh) | 2019-08-23 |
CN110162773B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7186107B2 (ja) | タイトル推定器 | |
JP6254374B2 (ja) | 出版物からocr認識されたテキストとそれに対応するイメージをクライアント装置において選択的に表示すること | |
US7469251B2 (en) | Extraction of information from documents | |
US8416243B2 (en) | Approximating font metrics for a missing font when substituting an available replacement | |
JP4682284B2 (ja) | 文書差分検出装置 | |
US6330576B1 (en) | User-friendly information processing device and method and computer program product for retrieving and displaying objects | |
US9870484B2 (en) | Document redaction | |
US8515176B1 (en) | Identification of text-block frames | |
US20090180126A1 (en) | Information processing apparatus, method of generating document, and computer-readable recording medium | |
CN102081594A (zh) | 从可移植电子文档中提取字符外接矩形的设备和方法 | |
US9734132B1 (en) | Alignment and reflow of displayed character images | |
JP7186075B2 (ja) | 電子文書中の文字列塊を推測する方法 | |
KR20170140808A (ko) | 단어 사이의 불확실성에 따른 단어 공백의 비대칭 포맷팅을 위한 시스템 및 방법 | |
US20200311059A1 (en) | Multi-layer word search option | |
JP5715172B2 (ja) | 文書表示装置、文書表示方法及び文書表示プログラム | |
CN114564915A (zh) | 文本排版方法、电子设备及存储介质 | |
US20130031460A1 (en) | Using a common input/output format to generate a page of an electronic document | |
JP5612552B2 (ja) | レイアウト依存文書内のページ参照を解決する方法、コンピューター読取可能媒体及びシステム | |
JPH10301929A (ja) | 文書処理装置、文書処理方法及び記録媒体 | |
US20140016150A1 (en) | System and method to store embedded fonts | |
JP2015069235A (ja) | 情報処理装置及び情報処理方法 | |
JP7493937B2 (ja) | 文書における見出しのシーケンスの識別方法、プログラム及びシステム | |
US11238219B2 (en) | Sentence extraction system, sentence extraction method and information storage medium | |
US20230205910A1 (en) | Information processing device, confidentiality level determination program, and method | |
JP2013130916A (ja) | 文書速読支援装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210916 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221017 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221018 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221128 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7186107 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |