JP7186107B2 - タイトル推定器 - Google Patents

タイトル推定器 Download PDF

Info

Publication number
JP7186107B2
JP7186107B2 JP2019022865A JP2019022865A JP7186107B2 JP 7186107 B2 JP7186107 B2 JP 7186107B2 JP 2019022865 A JP2019022865 A JP 2019022865A JP 2019022865 A JP2019022865 A JP 2019022865A JP 7186107 B2 JP7186107 B2 JP 7186107B2
Authority
JP
Japan
Prior art keywords
score
text
attributes
layout
style
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019022865A
Other languages
English (en)
Other versions
JP2019169137A (ja
Inventor
ユージン ベラート ダレル
Original Assignee
コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド filed Critical コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド
Publication of JP2019169137A publication Critical patent/JP2019169137A/ja
Application granted granted Critical
Publication of JP7186107B2 publication Critical patent/JP7186107B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Automation & Control Theory (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、タイトル推定器に関する。
背景
電子文書(ED)(たとえば、ワードプロセッシング文書、スプレッドシート、スライドショー、ウェブページなど)は、ED内の内容を最もよく説明しているタイトル(たとえば、名前、見出し、説明文、ラベル、キャプションなど)を含みうる。多くの場合、タイトル内のテキストはユーザーにとって思い出しやすいものである。
しかしながら、タイトルは、ED内で必ずしも明示的に識別される(すなわち、ラベル付けおよび/またはタグ付けされる)とは限らない。それにも関わらず、ユーザーはそれでもEDのタイトルを捜すことを望む。
概要
概して、一態様では、本発明は、電子文書(ED)を処理してED内のタイトルを推定する方法に関する。ここで、EDは複数の文字を含む。この方法は、ED内の文字のテキストスタイル属性、テキストレイアウト属性、およびテキストコンテンツ情報を含む、EDのマークアップ版を生成することと、ここで、文字は、テキストレイアウト属性に基づいて、少なくとも第1段落および第2段落にグループ化され、テキストスタイル属性およびテキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられ、テキストスタイル属性およびテキストレイアウト属性の統計情報を生成することと、テキストスタイル属性およびテキストレイアウト属性のそれぞれについて、所定の重みスコアおよび統計情報に基づいて相対重みスコアを算出することと、第1段落および第2段落のそれぞれについて、統計情報および相対重みスコアに基づいてスタイル基準スコアおよびレイアウト基準スコアと、テキストコンテンツ情報に基づくテキストコンテンツスコアと、スタイル基準スコア、レイアウト基準スコア、およびテキストコンテンツスコアに基づくタイトル信頼度スコアと、を算出することと、EDについて、そのED内のタイトルを推定する際に使用するための、第1段落および第2段落のそれぞれについてのタイトル信頼度スコアを含むメタデータを生成することと、を含む。
概して、一態様では、本発明は、電子文書(ED)を処理してED内のタイトルを推定するためのシステムに関する。ここで、EDは複数の文字を含む。このシステムは、ED内の文字のテキストスタイル属性、テキストレイアウト属性、およびテキストコンテンツ情報を含むマークアップ版のEDを生成する。ここで、文字は、テキストレイアウト属性に基づいて、少なくとも第1段落および第2段落にグループ化され、テキストスタイル属性およびテキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられる。テキストスタイル属性とテキストレイアウト属性の統計情報を生成する。テキストスタイル属性およびテキストレイアウト属性のそれぞれについて、所定の重みスコアおよび統計情報に基づいて相対重みスコアを計算する。第1段落および第2段落のそれぞれについて、統計情報および相対重みスコアに基づいてスタイル基準スコアおよびレイアウト基準スコアを計算する。テキストコンテンツ情報に基づくテキストコンテンツスコアと、スタイル基準スコア、レイアウト基準スコア、およびテキストコンテンツスコアに基づくタイトル信頼度スコアと、を算出する。EDについて、そのED内のタイトルを推定する際に使用するための、第1段落および第2段落のそれぞれについてのタイトル信頼度スコアを含むメタデータを生成する。
概して、一態様では、本発明は、電子文書(ED)を処理し、ED内に埋め込まれたタイトルを推定するためのコンピュータープログラムである。EDは複数の文字を含む。コンピュータープログラムは、ED内の文字のテキストスタイル属性、テキストレイアウト属性、および文字のテキストコンテンツ情報を含む、EDのマークアップ版を生成することと、ここで、文字は、テキストレイアウト属性に基づいて少なくとも第1段落と第2段落とにグループ化され、テキストスタイル属性および前記テキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられ、テキストスタイル属性とテキストレイアウト属性の統計情報を生成することと、テキストスタイル属性およびテキストレイアウト属性のそれぞれについて、所定の重みスコアおよび前記統計情報に基づいて相対重みスコアを算出することと、第1段落と第2段落のそれぞれについて、統計情報および相対重みスコアに基づくスタイル基準スコアおよびレイアウト基準スコアと、テキストコンテンツ情報に基づくテキストコンテンツスコアと、スタイル基準スコア、レイアウト基準スコア、およびテキストコンテンツスコアに基づくタイトル信頼度スコアと、を算出することと、電子文書について、第1段落および第2段落のそれぞれについてのタイトル信頼度スコアを含むメタデータを、電子文書内のタイトルを推定する際に使用するために生成することと、をコンピューターに実行させる。
本発明の他の態様は、以下の説明および添付の特許請求の範囲から明らかとなろう。
図1は、本発明の1つ以上の実施形態によるシステムを示す。 図2は、本発明の1つ以上の実施形態によるフローチャートを示す。 図3Aは、発明の1つ以上の実施形態による実装例を示す図である。 図3Bは、発明の1つ以上の実施形態による実装例を示す図である。 図3Cは、発明の1つ以上の実施形態による実装例を示す図である。 図3Dは、発明の1つ以上の実施形態による実装例を示す図である。 図3Eは、発明の1つ以上の実施形態による実装例を示す図である。 図3Fは、発明の1つ以上の実施形態による実装例を示す図である。 図3Gは、発明の1つ以上の実施形態による実装例を示す図である。 図3Hは、発明の1つ以上の実施形態による実装例を示す図である。 図3Iは、発明の1つ以上の実施形態による実装例を示す図である。 図3Jは、発明の1つ以上の実施形態による実装例を示す図である。 図3Kは、発明の1つ以上の実施形態による実装例を示す図である。 図4は、本発明の1つ以上の実施形態による計算システムを示す。
概要
概して、一態様では、本発明は、電子文書(ED)をコンピューターによって処理してED内のタイトルを推定する方法に関する。ここで、EDは複数の文字を含む。この方法は、ED内の文字のテキストスタイル属性、テキストレイアウト属性、およびテキストコンテンツ情報を含む、EDのマークアップ版を生成することと、ここで、文字は、テキストレイアウト属性に基づいて、少なくとも第1段落および第2段落にグループ化され、テキストスタイル属性およびテキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられ、テキストスタイル属性およびテキストレイアウト属性の統計情報を生成することと、テキストスタイル属性およびテキストレイアウト属性のそれぞれについて、所定の重みスコアおよび統計情報に基づいて相対重みスコアを算出することと、第1段落および第2段落のそれぞれについて、統計情報および相対重みスコアに基づいてスタイル基準スコアおよびレイアウト基準スコアと、テキストコンテンツ情報に基づくテキストコンテンツスコアと、スタイル基準スコア、レイアウト基準スコア、およびテキストコンテンツスコアに基づくタイトル信頼度スコアと、を算出することと、EDについて、そのED内のタイトルを推定する際に使用するための、第1段落および第2段落のそれぞれについてのタイトル信頼度スコアを含むメタデータを生成することと、を含む。
本発明の実施形態の以下の詳細な説明では、本発明のより完全な理解を提供するために多数の具体的な詳細が述べられている。しかしながら、本発明がこれらの具体的な詳細なしで実施されてもよいことは当業者に明らかであろう。他の例では、説明を不必要に複雑にすることを避けるために、よく知られた特徴は詳細に説明されていない。
一般に、本発明の実施形態は、ED内でタイトル(たとえば、名前、見出し、説明、ラベル、キャプションなど)を推定(infer)するために電子文書(ED)を処理する方法、コンピュータープログラム、およびシステムを提供する。具体的には、1行または複数行のテキストを含む電子文書(ED)が取得され、EDの構文解析によってEDのマークアップ(校正)版が生成される。EDのマークアップ版には、テキストの行を構成する文字の内容、レイアウト、およびスタイル情報が含まれている。マークアップ版のEDに対して1つ以上のプロセスが実行され、テキストの行が段落にグループ化され、各段落のタイトル信頼度スコアが算出される。各段落についてのタイトル信頼度スコアが算出されると、たとえタイトルが明確に識別(すなわち、ラベル付けおよび/またはタグ付け)されていなくても、EDのタイトルを推定できる。
図1は、本発明の1つまたは複数の実施形態によるシステム(100)を示す。図1に示すように、システム(100)は、たとえば、バッファー(104)、解析エンジン(108)、およびタイトルエンジン(110)を含む複数の構成要素を有する。これらの構成要素(104,108,110)のそれぞれは、同じ計算装置(たとえば、パーソナルコンピューター(PC)、ノート型パソコン、タブレットPC、スマートフォン、多機能プリンター、自動券売機(kiosk)、サーバーなど)または、有線および/または無線セグメントを有する任意のサイズのネットワークによって接続された異なる計算装置上に配置できる。これらの構成要素のそれぞれについて以下に説明する。
本発明の1つ以上の実施形態では、バッファー(104)は、ハードウェア(すなわち回路)、ソフトウェア、またはそれらの任意の組み合わせで実装できる。バッファー(104)は、文字からなる1行以上のテキストを含む電子文書(ED)(106)を格納するように構成される。ED(106)は画像およびグラフィックも含むことができる。ED(106)は、任意の供給源から入手できる(たとえば、ダウンロード、スキャンなど)。ED(106)は、EDの集合の一部であり得る。さらに、ED(106)は、任意のサイズおよび任意のフォーマット(たとえば、PDF、OOXML、ODF、HTMLなど)であり得る。
本発明の1つ以上の実施形態では、構文解析エンジン(108)は、ハードウェア(すなわち回路)、ソフトウェア、またはそれらの任意の組み合わせで実装できる。解析エンジン(108)は、ED(106)を解析して、ED内の文字の内容(コンテンツ)、レイアウト、およびスタイル情報を抽出し、抽出した情報に基づいてED(107)のマークアップ版を生成する。マークアップ版のED(107)はバッファー(104)に格納されてもよい。
本発明の1つ以上の実施形態では、スタイル情報は、ED(106)内の各文字のスタイルの詳細を識別する1つ以上のテキストスタイル属性を含みうる。たとえば、テキストスタイル属性には、OOXMLのスタイル名属性、HTMLの見出しタグ、フォントサイズ属性、太字(ボールド)属性、下線属性、フォント名属性、フォントカラー属性などが含まれる。図3Bおよび図3Cを参照して、以下でより詳細に例示する。
本発明の1つ以上の実施形態では、レイアウト情報は、コンテンツ境界ボックス情報(content bounding box information)(たとえば、ED(106)の単一ページ上の全コンテンツの境界ボックスおよび各テキスト行の境界ボックス)および行間隔情報を含むことができる。レイアウト情報は、テキストの各行の基礎となる構造を特定する1つ以上のテキストレイアウト属性を決定および/または算出するために使用されうる。たとえば、レイアウト情報は、センタリング属性、空白属性(white space attribute)などのような属性を含むことができる。これは、図3Bおよび図3F~図3Hを参照して、以下でより詳細に例示する。
本発明の1つ以上の実施形態では、構文解析エンジン(108)は、テキストレイアウト属性を使用してED(106)内の1つ以上の段落を特定する。1つ以上の実施形態では、電子文書(106)内の段落は、一行のテキストのみを含む場合もある。また、段落は必ずしもインデントで始まるとは限らない。
本発明の1つ以上の実施形態では、テキストコンテンツ情報は、ED(106)の単一および/またはすべての段落における文字数(「文字数」)を含むことができる。たとえば、段落は、たとえば空白によって、テキスト行の1つまたは複数のグループから分離されたテキストの1つまたは複数の行のグループである場合がある。これは、図3Aを参照して、以下でより詳細に例示される。
本発明の1つ以上の実施形態では、タイトルエンジン(110)は、ハードウェア(すなわち回路)、ソフトウェア、またはそれらの任意の組み合わせで実装できる。タイトルエンジン(110)は、ED(106)内の各段落についてのタイトル信頼度スコアを算出し、各段落のタイトル信頼度スコアに基づいてED(106)内の可能性のあるタイトルを特定(すなわち推定)するように構成される。1つ以上の実施形態では、ED(106)はタイトルを含まなくてもよく、または複数のタイトル(すなわち、一致する最高のタイトル信頼度スコアを有する潜在的に複数の段落)を有してもよい。
本発明の1つ以上の実施形態では、タイトルエンジン(110)は、テキストスタイル属性およびテキストレイアウト属性についての一集合の所定の重みスコアを取り出す。それぞれのテキストスタイル属性およびテキストレイアウト属性は、上記集合内の所定の重みスコアに関連付けられている(すなわち、結び付けられている)。所定の重みスコアは、どのテキストスタイル属性およびテキストレイアウト属性がタイトルの優先順位を示す可能性が最も高いか(すなわち、EDで見つかったタイトルのうち、どのテキストスタイル属性およびテキストレイアウト属性が最も共通に関連付けられているか)に関するユーザーの考慮に基づいてユーザーによって決定される。たとえば、タイトルには固有のフォントカラーではなく太字が含まれる可能性が高いことをユーザーが認識しているとする。太字属性に対する所定の重みスコアは、フォントカラー属性に対する所定の重みスコアよりも大きいであろう。別の例として、タイトルが、太字を含むよりも中央に配置される可能性が高いことをユーザーが認識しているとする。センタリング属性に対する所定の重みスコアは、太字属性に対する所定の重みスコアよりも大きいであろう。これは、図3Dを参照して、以下でより詳細に例示される。
本発明の1つ以上の実施形態では、上記一集合の所定の重みスコアは、バッファー(108)に格納されてもよく、ユーザーによっていつでも決定、アクセスおよび/または修正されてもよい。所定の重みスコアは、たとえば、EDに関連付けられた構成ファイルおよび/またはEDに格納されているデフォルト・パラメーターによって事前に定義することもできる。1つ以上の実施形態では、所定の重みスコアの合計は1に設定される。あるいは、所定の重みスコアの合計は任意の定数(たとえば、10、100、0.1、5など)に設定されうる。
本発明の1つ以上の実施形態では、タイトルエンジン(110)は、マークアップ版のED(107)内の各テキストスタイル属性およびテキストレイアウト属性を特定し、各テキストスタイル属性およびテキストレイアウト属性に関する統計情報を生成する。
本発明の1つ以上の実施形態では、各テキストスタイル属性の統計情報は、各テキストスタイル属性の可変性(variability)および頻度を含むことができる。テキストスタイル属性の可変性は、特定されたテキストスタイル属性のいくつかのバリエーションに基づいて決定できる。たとえば、フォントサイズが11、14、および16の文字がED(106)で特定される(つまり、フォントサイズの3つのバリエーションが特定される)場合、フォントサイズ属性の可変性は3になる。他の例として、ED(106)に太字の文字があるとする。太字の属性の可変性は2となる(たとえば、太字の文字については真、太字ではない文字については偽)。テキストスタイル属性の頻度は、テキストスタイル属性の各バリエーションを有する文字の濃度に基づいて決定できる。たとえば、ED(106)が合計745文字を有し、745文字のうちの29文字が16のフォントサイズを有すると仮定する。16のフォントサイズ属性の頻度は29である。これは、図3Eを参照して、以下で詳細に例示される。
本発明の1つ以上の実施形態では、各テキストレイアウト属性の統計情報は、ED(106)の単一ページ上の全コンテンツの境界ボックスの1つまたは複数の値(すなわち、ED(106)の単一ページ上の全コンテンツの右、左、上、および下の境界を記述する値)を含みうる。各テキストレイアウト属性の統計情報には、各段落に関連付けられている空白の量も含まれる場合がある。これには、垂直方向の空白(つまり、テキスト行または文書または境界ボックスの端の間の空白)と、水平方向の空白(つまり、テキスト行の最初と最後の文字の間の空白、およびページ上の全コンテンツの境界ボックスの左右の境界線の間の空白)と、の量が含まれる。水平方向の空白は、先頭の空白(つまり、テキスト行の最初の文字とページ上の全コンテンツの境界ボックスの左端との間の空白)と、末尾の空白(つまり、テキスト行の最後の文字と、ページ上の全コンテンツの境界ボックスの右端との間の空白)と、に分割されうる。これは、図3A、図3F~3Hを参照して、以下に詳細に例示される。
本発明の1つ以上の実施形態では、タイトルエンジン(110)は、テキストスタイル属性およびテキストレイアウト属性の統計情報に基づいて、テキストスタイル属性およびテキストレイアウト属性のそれぞれについての所定の重みスコアを相対重みスコア(relative weight score)に調整する。調整は、相対重みスコアをユーザー定義の値に設定すること、または所定の重みスコアと、テキストスタイル属性およびテキストレイアウト属性の統計情報とを使用して相対重みスコアを算出することによって実施できる。1つ以上の実施形態では、所定の重みスコアは、上記統計情報によって反映されるように、いくつかのテキストスタイル属性およびテキストレイアウト属性がED(106)内のタイトルの推定にとって関心を引かない(すなわち関連性がない)ことを考慮して調整される。
たとえば、ED(106)がPDF文書であると仮定する。PDF文書は、OOXML文書に含まれるスタイル名属性を含まない。したがって、スタイル名属性の現在のフォーマット(すなわちPDF)にスタイル名属性が関連しないことを反映するように、スタイル名属性の所定の重みスコアが下げられる(すなわち調整される)。別の例として、1つ以上の実施形態では、1の可変性を有する(すなわち、それらは変動しない)すべてのテキストスタイル属性の所定の重みスコアを0の相対重みスコアに設定できる。センタリング属性については、相対重みスコアは、所定の重みスコアを、ED(106)内の段落を最良のセンタリング(すなわち、ED(106)内の最も中央に配置された段落)を反映するセンタリングスコア(下記に例示)でスケーリングすることによって算出できる。また、空白属性については、すべての文書に空白が含まれるため、相対重みスコアを所定の重みスコアと同じに設定する。これは、図3Iを参照して、以下で詳細に例示される。
所定の重みスコアを調整する方法は、上述の例に限定されない。1つ以上の実施形態では、統計情報に基づくED(106)内の各テキストスタイル属性およびテキストレイアウト属性の関連性を考慮に入れる他の方法を使用して、所定の重みスコアを調整できる。
本発明の1つ以上の実施形態では、相対重みスコアの合計が1に等しくない場合、タイトルエンジン(110)は、相対重みスコアの合計が1になるように相対重みスコアをスケーリングする。これは、図3Iを参照して、以下に詳細に例示される。あるいは、相対重みスコアの合計が、所定の重みスコアの合計に対して設定された定数(たとえば、10、100、0.1、5など)と等しくない場合、タイトルエンジン(110)は、相対重みスコアの合計が設定された定数と等しくなるように、相対重みスコアをスケーリングする。
本発明の1つ以上の実施形態では、タイトルエンジン(110)は、ED(106)内の各段落についてセンタリングスコアを算出する。段落のセンタリングスコアは、段落がED内でセンタリングされる(すなわち、段落の行がセンタリングされる)程度を特定する。センタリングスコアは、0がセンタリングなし、1が高度のセンタリング度で、0から1の間の値として算出できる。一般的に、タイトルは中央に配置されることが知られている。したがって、中央揃えされた段落は、ED(106)のタイトルである可能性が高い。1つ以上の実施形態では、センタリングスコア(「centering_score」)は、テキストの各行の末尾の空白(「trailing_white_space」)および先頭の空白(「leading_white_space」)に基づいて、次のように算出される。
centering_score = 1 - (leading_white_space - trailing_white_space) ÷ (leading_white_space + trailing_white_space)
1つ以上の実施形態では、センタリング属性の相対重みスコアを算出するために使用されるセンタリングスコアは、ED(106)内の各段落について算出された最大センタリングスコアでありうる。
センタリングスコアの算出方法は、上記の例に限定されない。1つ以上の実施形態では、テキストレイアウト属性の統計情報およびED(106)のレイアウト情報を考慮に入れる他の方法を使用してセンタリングスコアを算出できる。
本発明の1つ以上の実施形態では、タイトルエンジン(110)は、ED(106)の各段落について空白スコア(white space score)を算出する。段落の空白スコアは、段落を囲む空白の量(すなわち、その段落を囲む水平方向および垂直方向の空白の量)に基づいて算出される。高い空白スコアは、段落がオフセットされる可能性が最も高いことを示し、これは一般にタイトルの既知のレイアウトに関連する(すなわち、タイトルはEDの本体内でオフセットされることが知られている)。空白スコアは、0から1の間の値で、0が最低スコア、1が最高スコアである。1つ以上の実施形態では、テキスト行の空白スコア(「white_space_score」)は、次のように算出できる。
white_space_score = horiz_white_space_score × vert_white_space_score
水平空白スコア(horiz_white_space_score)は、次のように算出できる。
horiz_white_space_score = min_max_width ÷ content_bounding_box_width
段落のmin_max_widthは、段落におけるテキストの各行の最大水平方向空白を含む集合の最小値である。1行のテキストしかない段落の場合、min_max_widthは最大水平方向空白である。たとえば、段落に3行のテキストが含まれ、3行のそれぞれの最大水平方向空白を含む集合がX={0.01、0.01、および4.87}であるとする。集合Xの最小値0.01は、その段落のmin_max_widthである。content_bouding_box_widthは、段落を含むEDのページのコンテンツ境界ボックスの幅である。たとえば、段落がEDの1ページ目にあり、EDの1ページ目に左境界が0.99、右境界が7.45のコンテンツ境界ボックスがあるとする。content_boudning_box_widthは6.46(すなわち7.45-0.99)に設定される。
1つ以上の実施形態では、垂直空白スコア(vert_white_space_score)は、段落の最大垂直空白(「max_vert_white_space」)を見つけ、最大垂直空白を最小閾値(「min_threshold」)および最大閾値(「max_threshold」)と比較することによって算出できる。最大垂直空白が最大閾値より大きい場合、垂直空白スコアは1に設定される。最大垂直空白スコアが最小閾値より小さい場合、垂直空白スコアは0に設定される。最大垂直空白が最大閾値と最小閾値の間にある場合、垂直空白スコアは、((max_vert_white_space - min_threshold) ÷ (max_threshold - min_threshold))として算出できる。最大閾値は、1.5×統計情報で算出されたED(106)の平均行間隔に設定され、最小閾値は、平均行間隔の0.5に設定されてもよい。たとえば、ED(106)の平均行間隔が0.1であると仮定すると、最大閾値は0.15となり、最小閾値は0.05となる。
空白スコアの算出方法は、上記の例に限定されない。1つ以上の実施形態では、テキストレイアウト属性の統計情報およびED(106)のレイアウト情報を考慮に入れる他の方法を使用して空白スコアを算出できる。
本発明の1つ以上の実施形態では、タイトルエンジン(110)は、ED(106)の各段落についてスタイル基準スコアを算出する。スタイル基準スコアは、段落内の文字のスタイルが、一般にタイトルに関連する1つまたは複数のスタイル(すなわち、既知のタイトルスタイル)にどれだけ一致するかを表す0から1の間の値でありうる。0は、タイトルスタイルである可能性が低く、1はタイトルスタイルである可能性が非常に高い。スタイル基準スコアは、各テキストスタイル属性の最終スタイルスコアの合計として算出できる。テキストスタイル属性の最終スタイルスコアは、テキストスタイル属性のスコア関数(すなわち、スタイルスコア関数)およびテキストスタイル属性の相対重みスコアに基づいて算出される。
本発明の1つ以上の実施形態では、テキストスタイル属性のスコア関数を算出するために、タイトルエンジン(110)は、テキストスタイル属性の固有性スコア(uniqueness score)および/または望ましさスコア(desirability score)を算出できる。本発明の1つ以上の実施形態では、固有性スコアは、テキストスタイル属性のバリエーションがED(106)内で一意(すなわち、特殊/希少)であることを反映している。テキストスタイル属性の固有性スコア(「uniqueness_score」)は、段落ごとに次のように算出できる。
uniqueness_score = distribution_ratio × sparsity_score
1つ以上の実施形態では、distribution_ratio(配分率)は、テキストスタイル属性の最も一般的なバリエーションが段落内に出現する頻度を反映する。たとえば、EDの段落Aが合計29文字を含み、29文字のうち29文字が太字である(すなわち、太字属性のバリエーション真)と仮定する。段落Aの太字の属性の配分比は、(29÷29)の結果として1になる。
1つ以上の実施形態では、sparsity_score(まばら性スコア)は、テキストスタイル属性のバリエーションがED(106)内にどれほどまれにあるかを反映する。
sparsity_score = 1 - (num_char_variation ÷ total_char_ED)
たとえば、上記と同じ条件を仮定し、さらにED(106)が745の総文字数(「total_char_ED」)を有し、745文字のうちの38が太字である(すなわち、太字属性のバリエーション真)と仮定する。太字属性のスパース性スコアは、1-(38÷745)の結果、0.95である。さらに、(1×0.95)の結果として、段落Aの太字属性の固有性スコアは0.95である。
本発明の1つ以上の実施形態では、望ましさスコアは、テキストスタイル属性のバリエーションが一意であるだけでなく、ED(106)のスタイル属性におけるテキストの最も一般的なバリエーションよりもタイトルに見られるスタイルに関連付けられる可能性が高いことを反映している。たとえば、ED(106)に11、14、および16のフォントサイズの文字が含まれているとする。11のフォントサイズがフォント属性の最も一般的なバリエーションである。16のフォントサイズは最大のフォントサイズであり、タイトル内のテキストは一般的に大きいことが知られているため、タイトルのフォントサイズである可能性が高くなる。フォント属性の望ましさスコアは、フォントサイズ16(すなわち、desired_variation)に基づいて算出できる。各フォントサイズにも数値が割り当てられている。たとえば、フォントサイズ11に11の値を割り当て、フォントサイズ16に16の値を割り当てることができる。
本発明の1つ以上の実施形態では、テキストスタイル属性の望ましさスコア(「desiability_score」)は、各段落について、以下のように算出できる。
desirability_score=(most_com_var_para - most_com_var_ED) ÷ (desired_variation - most_com_var_ED)
たとえば、文書のフォントサイズが11、14、16である、上記と同じ条件で、フォントサイズ16が望ましさのバリエーションとして選択されると仮定する。ED(106)の最も一般的なフォントサイズ(「most_com_var_ED」)は11で、段落Bの最も一般的なバリエーション(「most_com_var_para」)は16のフォントサイズである。段落Bのフォント属性の望ましさスコアは(16-11)÷(16-11)=1のように算出される。
本発明の1つ以上の実施形態では、テキストスタイル属性のスコア関数は、各段落について、以下のように算出できる。
scoring_function = uniqueness_score
本発明の1つ以上の実施形態では、望ましさスコアがテキストスタイル属性について算出されるとき、テキストスタイル属性に関するスコア関数は、各段落について、以下のように算出されてもよい。
scoring_function = uniqueness_score × desirability_score
本発明の1つ以上の実施形態では、タイトルエンジン(110)は、ED(106)の各段落についてレイアウト基準スコアを算出する。レイアウト基準スコアは、段落のレイアウトが、一般にタイトルに関連する1つまたは複数のレイアウト(すなわち、既知のタイトルレイアウト)にどれだけ近く一致するかを表す0から1の間の値でありうる。0は、タイトルレイアウトである可能性が低く、1は、タイトルレイアウトである可能性が非常に高い。レイアウト基準スコアは、各テキストレイアウト属性の最終レイアウトスコアの合計として算出できる。テキストレイアウト属性の最終レイアウトスコアは、テキストレイアウト属性のスコア関数(すなわち、レイアウトスコア関数)およびテキストレイアウト属性の相対重みスコアに基づいて算出される。1つ以上の実施形態では、上述のセンタリングスコアおよび空白スコアは、それぞれセンタリング属性およびホワイトスペース属性のレイアウトスコア関数である。
テキストスタイル属性およびテキストレイアウト属性のスコア関数を算出するための方法は、上述の例に限定されない。1つ以上の実施形態では、テキストスタイル属性およびテキストレイアウト属性の統計情報を考慮に入れる他の方法を使用して、テキストスタイル属性およびテキストレイアウト属性のスコア関数を算出できる。
本発明の1つ以上の実施形態では、タイトルエンジン(110)は、テキストコンテンツ情報に基づいて、ED(106)の各段落についてのテキストコンテンツスコアを算出する。テキストコンテンツスコアは、段落の文字数に基づいて段落がタイトルになる可能性を表す。タイトルは一般的に短い(すなわち、より少ない文字を含む)ことが知られており、より高いテキストコンテンツスコアは段落がより短く(すなわちより少ない文字を含む)、タイトルである可能性が高いことを示す。
本発明の1つ以上の実施形態では、段落のテキストコンテンツスコア(「text_score」)は、次のように算出できる。
text_score = 1 - (par_visible_char_count ÷ largest_par_visible_char_count)
par_visible_char_countは、text_scoreが算出されている段落の可視文字数(つまり、各単語間のスペースを含まない文字数)を表す。largest_par_visible_char_countは、ED(106)内の最大段落の可視文字数を表す。たとえば、text_scoreが算出されている段落に可視文字数24が含まれ、ED(106)の最大の段落に可視文字数191が含まれているとする。したがって、この段落のテキストコンテンツスコアは0.87である。
段落のテキストコンテンツスコアを算出するための方法は、上述の例に限定されない。1つ以上の実施形態では、各段落の文字数スコアを考慮に入れる他の方法を使用して、各段落のテキストコンテンツスコアを算出できる。
本発明の1つ以上の実施形態では、タイトルエンジン(110)は、各段落のスタイル基準スコア、レイアウト基準スコア、およびテキストコンテンツスコアを使用して、各段落のタイトル信頼度スコアを算出する。1つ以上の実施形態では、タイトル信頼度スコアは0から1の間の定数とすることができ、1に近いタイトル信頼度スコアは段落がED(106)内のタイトルである可能性が高いことを示す。
本発明の1つ以上の実施形態では、段落のタイトル信頼度スコアは、次のように算出できる。
title_confidence_score =(styling_criteria_score + layout_criteria_score) × text_score
たとえば、段落が0.4277のスタイル基準スコア、0.3552のレイアウト基準スコア、および0.87のテキストコンテンツスコアを有すると仮定する。段落のタイトル信頼度スコアは0.68である。これは、段落がED(106)のタイトルである可能性が高いことを示す。
段落のタイトル信頼度スコアを算出する方法は、上記の例に限定されない。1つ以上の実施形態では、テキストスタイル属性およびテキストレイアウト属性の統計情報、テキストコンテンツ情報、ならびに相対重みスコアを考慮に入れる他の方法を使用して、各段落のタイトル信頼度スコアを算出できる。
本発明の1つ以上の実施形態では、タイトルエンジン(110)は、各段落のタイトル信頼度スコアを含むED(106)のメタデータ(112)を生成し、そのメタデータ(112)をバッファー(104)に格納する。あるいは、1つ以上の実施形態では、タイトルエンジン(110)は、タイトル信頼度スコアをED(107)のマークアップ版に書き戻す。1つ以上の実施形態では、メタデータ(112)は、外部バッファーに格納され、ED(106)のタイトルを推定する必要があるときはいつでもタイトルエンジン(110)によって取り出されてもよい。
本発明の1つ以上の実施形態では、タイトルエンジン(110)は、検索語(たとえば、タイトルに現れるテキスト)を含むEDの集合内のタイトルを検索するというユーザーからの要求を受信する。タイトルエンジン(110)は、検索語を含む段落を特定するためにEDの集合を解析する。タイトルエンジン(110)は、段落を含む集合内の検索語を含むEDを取りだし、各段落のタイトル信頼度スコアを比較する。各段落のタイトル信頼度スコアを比較した後、タイトルエンジン(110)は、検索語を含む段落に対して、最大の、決定されたタイトル信頼度スコアを含むEDから始めて、最小の、決定されたタイトル信頼度スコアを含むEDまで、取り出されたEDを画面上に表示する。たとえば、EDの集合に文書Aと文書Bが含まれているとする。文書Aには検索語句のある段落が含まれ、その段落のタイトル信頼度スコアは0.68である。文書Bには検索語句のある段落が含まれており、その段落のタイトル信頼度スコアは0.07である。タイトルエンジン(110)は、文書Aと文書Bの両方を取り出し、文書Bの前に文書Aを表示する。
システム(100)は、3つの構成要素(104、108、110)を有するように示されているが、本発明の他の実施形態では、システム(100)はより多い、またはより少ない構成要素を有することができる。さらに、上述の各構成要素の機能は、構成要素にわたって分割されてもよい。さらにまた、各構成要素(104、108、110)は、反復動作を実行するために複数回利用されてもよい。
図2は、本発明の1つ以上の実施形態によるフローチャートを示す。このフローチャートは、電子文書(ED)内のタイトルを推定するためのプロセスを示している。図2のステップのうちの1つまたは複数のステップは、図1を参照して上述したシステム(100)の構成要素によって実行できる。本発明の1つ以上の実施形態では、図2に示される1つまたは複数のステップは、省略、繰り返し、または図2に示される順序とは異なる順序で実行されうる。したがって、本発明の範囲は、図2に示されるステップの特定の構成に限定されると考えるべきではない。
図2に示すように、まず、文字からなる1行以上のテキストを含むEDが取得される(ステップ205)。1行以上のテキストは、EDの段落を構成する。EDには画像やグラフィックも含まれる。EDは、任意の供給源から入手(たとえば、ダウンロード、スキャンなど)できる。EDはEDの集合の一部である可能性がある。さらに、EDは、任意のサイズおよび任意のフォーマット(たとえば、PDF、OOXML、ODF、HTMLなど)でありうる。
ステップ210において、図1を参照して上述したように、EDは、テキストスタイル属性、テキストレイアウト属性、および文字のテキストコンテンツ情報を含むEDのマークアップ版を生成するために解析される。
ステップ215において、図1を参照して上述したように、一集合の所定の重みスコアが、テキストスタイル属性およびテキストレイアウト属性について取り出される。1つ以上の実施形態では、各テキストスタイル属性およびテキストレイアウト属性は、その集合内の所定の重みスコアに関連付けられている(すなわち、結び付けられている)。
ステップ220において、図1を参照して上述したように、テキストスタイル属性およびテキストレイアウト属性の統計情報は、マークアップ版のEDを使用して生成される。
ステップ225において、図1を参照して上述したように、相対重みスコアは、所定の重みスコアおよび生成された統計情報に基づいて各テキストスタイル属性およびテキストレイアウト属性に対して算出および/または設定される。
ステップ230において、図1を参照して上述したように、相対重みスコアおよび生成された統計情報を使用して、段落ごとにスタイル基準スコア、レイアウト基準スコア、およびテキストコンテンツスコアが算出される。
ステップ235において、図1を参照して上述したように、タイトル信頼度スコアは、各段落のスタイル基準スコア、レイアウト基準スコア、およびテキストコンテンツスコアを使用して、ED内の各段落について算出される。
ステップ240において、図1を参照して上述したように、ED内の各段落についてのタイトル信頼度スコアを格納するメタデータが生成され、EDが格納されているのと同じバッファーに格納される。あるいは、バッファーは、EDを含まない異なるバッファーでありうる。1つ以上の実施形態では、タイトル信頼度スコアはマークアップ版のEDに書き戻される。
図3A~図3Kは、本発明の1つ以上の実施形態による実装例を示す図である。1つ以上の実施形態では、図1を参照して上述した例示的な算出方法が、図3A~図3Kに示す実施例に適用される。しかしながら、異なる算出方法が適用されてもよいことは当業者には明らかであろう。
図3Aは、文字からなる1行以上のテキストを含む電子文書(ED)(301)を示す。テキストの各行は段落(302)に分類されてもよい。図3Bでは、上から下に数えて1から6段落を含む合計6段落(302)(一部の段落は読みやすくするためにマークが付いていない)がある。各段落(302)は、単一行または複数行のテキストを含みうる。また、各段落(302)は、インデントを必要としない。
図3Aでは、全ての段落(302)がEDコンテンツ境界ボックス(303)内に囲まれている。1つ以上の実施形態では、EDコンテンツ境界ボックス(303)は、ED(301)の単一ページ内の全コンテンツの基礎構造を定義する。EDコンテンツ境界ボックス(303)は、ページに対して設定された余白によって定義されてもよい。
図3Aに見られるように、テキスト行境界ボックス(305)は、EDコンテンツ境界ボックス(303)内のテキスト行の基本構造を定義する。ED(301)内のテキストの各行は、テキスト行境界ボックス(305)を含む。テキストの各行はまた、図1を参照して上述したように、先頭の空白(307)および末尾の空白(309)を含みうる。テキスト行境界ボックス(305)およびEDコンテンツ境界ボックス(303)を使用して、各テキスト行の先頭の空白(307)および末尾の空白(309)を算出する。
図3Bは、ED(315)のマークアップ版(「マークアップED」)の一部を示す。図3Bに見られるように、マークアップED(315)は、ED(301)の段落1(すなわち最上段落)の文字についてのスタイル情報(321)、レイアウト情報(317)、およびコンテンツ情報(319)を含む。図3Bでは、スタイル情報(321)は、テキスト(すなわちstyle_id)の様々な特徴または態様(すなわちスタイル)を定義する変数(すなわちv:1)として提示される。レイアウト情報(317)は、図3Aに示されるテキスト境界ボックス(305)の行の寸法を含む。これは、ED(301)のテキストレイアウト属性を算出するために使用される。コンテンツ情報(319)は、スタイル情報(321)が適用されているテキスト行内のすべての文字を含む。
図3Cは、マークアップED(315)の一部を示す。図3Cに見られるように、スタイル情報(321)は、ED(301)内の文字のテキストスタイル属性(たとえば、フォント、フォントサイズ、フォントカラー、太字)を含む。
図3Dは、ED(301)内の文字のテキストスタイル属性およびテキストレイアウト属性に対する集合の所定の重みスコアを含む表を示す。表に示されていない他の属性もED(301)に見出すことができることは当業者には明らかであろう。図3Dに見られるように、一般に、タイトルに見られる属性(すなわちタイトル属性)に関連する属性には、より高い所定の重みスコアが与えられる。所定の重みスコアは、ユーザーによって設定および修正されてもよい。
図3Eは、図3Dに示す表にリストされたテキストスタイル属性についての統計情報を含む表を示す。図3Eに見られるように、テキストスタイル属性の各バリエーションおよび各バリエーションの頻度が提供されている。バリエーション情報は、テキストスタイル属性のバリエーションスコアを決定するために使用されてもよい。バリエーションの頻度は、そのバリエーションがあるED内の文字数を反映する。たとえば、ED(301)の文字数が合計745文字であるとする。図3Eに見られるように、ED(301)内の全ての文字は、同じOOXML_STYLE_NAME(すなわちスタイル名属性)、FONT_NAME(すなわちフォント名属性)、およびFONT_COLOR(すなわちフォントカラー属性)を有する。
図3Fは、図3Aに示すEDコンテンツ境界ボックス(303)の寸法を含む表を示す。図3Fに見られるように、値は、ED(301)の最も左の境界および最も上の境界に基づいて算出される。
図3Gは、図3Aに示したED(301)の段落1~3の縦方向および横方向の間隔情報を含む表である。図3Gに見られるように、垂直方向の間隔の前および後の値は、それぞれ段落の上下の空白の量を表す。水平方向の間隔の前および後の値は、それぞれ先頭と末尾の空白(307、309)を表す。図3Gに示す間隔情報は、テキスト行を段落にグループ化するために使用できる。
本発明の1つ以上の実施形態では、図3Gの表に示されている垂直方向および水平方向の間隔の値は、図3Bのレイアウト情報(317)と、図3FのEDコンテンツ境界ボックス(303)の寸法と、に基づいて算出できる。たとえば、段落番号1の場合、レイアウト情報(317)は、段落1がED(301)の左端の境界から2.69インチで始まることを示す(つまり、段落1の最初の文字はEDの境界(301)の左端から2.69インチで始まる)。この値は、EDコンテンツ境界ボックス(303)の左境界の値(すなわち、0.99インチ)によって減算されて、段落1に対して1.69インチの先行空白値をもたらす。さらに、図3Bでは、段落1の幅は3.11インチである。したがって、段落1の最後の文字は、ED(301)の左端の境界から5.8インチ(つまり、2.69インチ+3.11インチ)である。図3Fに見られるように、EDコンテンツ境界ボックス(303)の右境界は、ED(301)の最も左の境界から7.45インチで終了する。したがって、段落1の末尾の空白値は、7.45インチから5.8インチを引いた値として1.65と算出できる。
図3Hは、図3Aに示すED(301)における垂直方向の間隔の要約を含む表を示す。図3Hに示す情報は、図1を参照して説明したレイアウトスコア関数を算出するために、図3Hを使用できる。
図3Iは、図3Aに示されるED(301)内の各テキストスタイル属性およびテキストレイアウト属性に対する相対重みスコアの集合を含む表を示す。図3Iに示すように、図1を参照して説明した、所定の重みスコアを調整する方法が適用される。具体的には、1つ以上の実施形態では、1の可変性を有するすべてのテキストスタイル属性の所定の重みスコアは、0の相対重みスコアに設定されうる。センタリング属性については、相対重みスコアは、所定の重みスコアを、ED(106)内の最良のセンタリングの段落(すなわち、ED(106)内の最も中央に配置された段落)を反映したセンタリングスコアでスケーリングすることによって算出できる。また、空白属性については、すべての文書に空白が含まれるため、相対重みスコアを所定の重みスコアと同じに設定する。
図3Iに見られるように、上記の調整方法に基づいて、一部のテキストスタイル属性の相対重みスコアが0になり、相対重みスコアの合計が1にならなくなる。相対重みスコアは、相対重みスコアの合計が1になるようにスケーリングされる。相対重みスコアは、図3Iの表の最も右の列に示されている。
図3Jは、段落1から3のセンタリングスコアを含む表を示す。図3Jに示されている情報は、図1を参照して説明したように、レイアウトスコア関数と、テキストレイアウト属性の相対重みスコアとを算出するために使用できる。たとえば、段落1のセンタリングスコアがED(106)の最大センタリングスコアであると仮定する(すなわち、段落1はED(301)の最も中央に配置された段落(502)である)。段落1のセンタリングスコアは、センタリング属性の相対重みスコアを算出するために使用される。図3Iに見られるように、センタリング属性の所定の重みスコアで除算されたセンタリング属性の相対重みスコアは、0.99(すなわち、最大センタリングスコア)である。同様に、1つ以上の実施形態では、各段落のセンタリングスコアは、センタリング属性の最終レイアウトスコアを算出するためのレイアウトスコア関数として設定できる。段落に複数のセンタリングスコアが含まれている場合は、段落の最小センタリングスコアがレイアウトスコア関数に設定される。
図3Kは、図3Aに示されるED(301)の段落1および段落2のタイトル信頼度スコアを含む表を示す。図3Kはさらに、タイトル信頼度スコアを算出するのに必要な各段落について1つまたは複数の値(たとえば、スタイルおよびレイアウトスコア関数、スケーリングされた相対重みスコア、最終的なスタイルおよびレイアウトスコア、ならびにテキストコンテンツスコア)を含む。図3Kに見られるように、段落1のタイトル信頼度スコアは0.68である。これは1に近く、段落1がタイトルである可能性が高いことを示している。これに対して、段落2のタイトル信頼度スコアは0.07である。これは0に近く、段落2がタイトルではない可能性が高いことを示している。図3Aに戻る。図3Aを一見すると、段落1(すなわち、「Why Dogs are Better than Cats」)がED(301)の可能性のあるタイトルであるように見え、段落2が通常の文であるように見えることを示している。
本発明の実施形態は、使用されているプラットフォームにかかわらず、事実上あらゆるタイプの計算システム上で実施できる。たとえば、計算システムは、1つまたは複数のモバイルデバイス(たとえば、ラップトップコンピューター、スマートフォン、パーソナルデジタルアシスタント、タブレットコンピューター、または他のモバイルデバイス)、デスクトップコンピューター、サーバー、サーバシャーシ内のブレード、あるいは任意の他のタイプまたは本発明の1つまたは複数の実施形態を実行するために、少なくとも最小処理能力、メモリー、および入力および出力装置を含む1つまたは複数の計算装置からなる。たとえば、図4に示すように、計算システム(400)は、1つまたは複数のコンピュータープロセッサー(402)、関連メモリー(404)(たとえば、ランダムアクセスメモリー(RAM)、キャッシュメモリー、フラッシュメモリーなど)、1つまたは複数の記憶装置(406)(たとえば、ハードディスク、コンパクトディスク(CD)ドライブまたはデジタル多用途ディスク(DVD)ドライブなどの光学ドライブ、フラッシュメモリースティックなど)、および他の多数の要素および機能を含む。コンピュータープロセッサー(402)は、命令を処理するための集積回路でありうる。
たとえば、コンピュータープロセッサーは、1つ以上のコア、またはプロセッサーのマイクロコアでありうる。計算システム(400)はまた、タッチスクリーン、キーボード、マウス、マイクロフォン、タッチパッド、電子ペン、または任意の他の種類の入力装置などの1つ以上の入力装置(410)を含みうる。さらに、計算システム(400)は、スクリーン(たとえば、液晶ディスプレイ(LCD)、プラズマディスプレイ、タッチスクリーン、陰極線管(CRT)モニターなどの1つ以上の出力装置(408)、プロジェクター、または他の表示装置、プリンター、外部記憶装置、または他の任意の出力装置)を含むことができる。1つ以上の出力装置は入力装置と同じでも異なっていてもよい。計算システム(400)は、ネットワーク(412)(たとえば、ローカルエリアネットワーク(LAN)、インターネットなどのワイドエリアネットワーク(WAN)、モバイルネットワーク、または任意の他の種類のネットワーク)にネットワークインタフェース接続(図示せず)を介して接続できる。入力および出力装置は、コンピュータープロセッサー(402)、メモリー(404)、および記憶装置(406)にローカルまたはリモートで(たとえばネットワーク(412)を介して)接続されてもよい。多くの異なる種類の計算システムが存在し、前述の入力および出力装置は他の形態を取りうる。
本発明の実施形態を実行するためのコンピューター読取可能なプログラムコードの形態のソフトウェア命令は、全体的にまたは部分的に、CD、DVD、記憶装置、ディスク、テープ、フラッシュメモリー、物理メモリー、またはその他のコンピューター読取可能な記憶媒体などのコンピューター読取可能な記録媒体に一時的または恒久的に格納できる。具体的には、ソフトウェア命令は、プロセッサーによって実行されたときに本発明の実施形態を実行するように構成されたコンピューター読取可能なプログラムコードに対応しうる。
さらに、前述の計算システム(400)の1つまたは複数の要素を遠隔地に配置し、ネットワーク(412)を介して他の要素に接続できる。さらに、本発明の1つ以上の実施形態は、複数のノードを有する分散システム上で実施することができ、本発明の各部分は分散システム内の異なるノード上に配置できる。本発明の一実施形態では、ノードは別個の計算装置に対応する。あるいは、ノードは関連する物理メモリーを有するコンピュータープロセッサーに対応しうる。あるいは、ノードは、共有メモリーおよび/またはリソースを有するコンピュータープロセッサーまたはコンピュータープロセッサーのマイクロコアに対応しうる。
本発明を限られた数の実施形態に関して説明してきたが、本開示の恩恵を受ける当業者であれば、ここに開示された本発明の範囲から逸脱しない他の実施形態を考案できることを理解するであろう。したがって、本発明の範囲は添付の特許請求の範囲によってのみ限定されるべきである。

Claims (21)

  1. 電子文書内のタイトルを推定するために前記電子文書をコンピューターによって処理する方法であって、
    前記電子文書は複数の文字を含み、
    前記電子文書内の文字の複数のテキストスタイル属性、複数のテキストレイアウト属性、およびテキストコンテンツ情報を含む、前記電子文書のマークアップ版を生成するステップと、ここで、前記複数の文字は、前記複数のテキストレイアウト属性に基づいて少なくとも第1段落と第2段落にグループ化され、前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられ、
    前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性の統計情報を生成するステップと、
    前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性のそれぞれについて、前記所定の重みスコアおよび前記統計情報に基づいて相対重みスコアを算出するステップと
    前記第1段落と前記第2段落のそれぞれについて、前記統計情報および前記相対重みスコアに基づくスタイル基準スコアおよびレイアウト基準スコアと、前記テキストコンテンツ情報に基づくテキストコンテンツスコアと、前記スタイル基準スコア、前記レイアウト基準スコア、および前記テキストコンテンツスコアに基づくタイトル信頼度スコアとを算出するステップと、
    前記電子文書について、前記第1段落および前記第2段落のそれぞれについてのタイトル信頼度スコアを含むメタデータを、前記電子文書内のタイトルを推定する際に使用するために生成するステップと、を有する、方法。
  2. 前記複数のテキストスタイル属性は、OOXMLスタイル名属性、フォントサイズ属性、太字属性、下線属性、フォント名属性、フォントカラー属性、および見出しタグ属性を含むグループから選択され、
    前記複数のテキストレイアウト属性は、センタリング属性および空白属性を含むグループから選択され、
    前記テキストコンテンツ情報は、前記電子文書内の前記複数の文字の文字数を含む、請求項1に記載の方法。
  3. 前記所定の重みスコアの合計は1である、請求項2に記載の方法。
  4. 前記複数のテキストレイアウト属性のそれぞれについて前記相対重みスコアを算出することは、
    前記複数のテキストレイアウト属性のうちの所定のテキストレイアウト属性に対する前記相対重みスコアとして前記所定の重みスコアを設定するステップと、
    残りの前記複数のテキストレイアウト属性のそれぞれについて、
    前記統計情報に基づいて複数のレイアウトスコア関数を算出するステップと、
    前記所定の重みスコアと前記レイアウトスコア関数の最大レイアウトスコア関数とに基づいて前記相対重みスコアを算出するステップと、を有する、請求項1~3のいずれか1項に記載の方法。
  5. 前記複数のテキストスタイル属性のそれぞれについて前記相対重みスコアを算出することは、
    前記複数のテキストスタイル属性のそれぞれついて、前記統計情報に基づいて可変性を決定するステップと、
    前記複数のテキストスタイル属性の、テキストスタイル属性の可変性が1であると決定したことに応じて、前記テキストスタイル属性の相対重みスコアをゼロに設定するステップと、
    前記テキストスタイル属性の可変性が1よりも大きいと判断したことに応じて、前記所定の重みスコアに基づいて前記テキストスタイル属性の前記相対重みスコアを算出する、請求項4に記載の方法。
  6. 前記相対重みスコアの合計が1に等しくないことに応じて、前記相対重みスコアが合計1になるようにスケーリングされる、請求項5に記載の方法。
  7. 前記第1段落について前記スタイル基準スコアを計算することは、前記複数のテキストスタイル属性のそれぞれについて、固有性スコアおよび前記相対重みスコアに基づいて最終スタイルスコアを計算するステップ、を有し、
    前記スタイル基準スコアは、複数のテキストスタイル属性のそれぞれについての最終スタイルスコアの合計である、請求項1~6のいずれか1項に記載の方法。
  8. 前記複数のテキストスタイル属性のうち、テキストスタイル属性の前記固有性スコアは、前記テキストスタイル属性の配分率およびまばら性スコアに基づき、
    前記配分率は、前記第1段落の前記テキストスタイル属性が変化した文字数と前記第1段落の合計文字数の比率であり、
    前記まばら性スコアは、前記テキストスタイル属性のバリエーションのある前記第1段落の文字数と前記電子文書の文字数の合計と補足比(complement ratio)である、請求項7に記載の方法。
  9. 前記第1段落の前記レイアウト基準スコアを算出することは、前記複数のテキストレイアウト属性のそれぞれについて、前記統計情報に基づく複数のレイアウトスコア関数と、前記相対重みスコアおよび前記レイアウトスコア関数に基づく最終レイアウトスコアと、算出するステップを、有し、
    前記レイアウト基準スコアは、前記複数のテキストレイアウト属性のそれぞれに対する前記最終レイアウトスコアの合計である、請求項1~8のいずれか1項に記載の方法。
  10. 前記電子文書は、第2電子文書を含む電子文書の集合内の第1電子文書であり、前記第2電子文書は、第3段落および第4段落と、第3段落および第4段落のタイトル信頼度スコアを含むメタデータと、を含み、
    前記第1段落および前記第3段落は、前記電子文書の集合内のタイトルを推定する要求において指定された所定の検索語を含み、
    前記第1段落のタイトル信頼度スコアが前記第3段落のタイトル信頼度スコアよりも大きいことに応じて、前記第1電子文書は、前記第2電子文書の前にディスプレイに表示される、請求項1~9のいずれか1項に記載の方法。
  11. 電子文書を処理し、前記電子文書内に埋め込まれたタイトルを推定するためのコンピュータープログラムであって、
    前記電子文書は複数の文字を含み、
    前記電子文書内の複数のテキストスタイル属性、複数のテキストレイアウト属性、および文字のテキストコンテンツ情報を含む、前記電子文書のマークアップ版を生成することと、ここで、前記複数の文字は、前記複数のテキストレイアウト属性に基づいて少なくとも第1段落と第2段落とにグループ化され、前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられ、
    前記複数のテキストスタイル属性と前記複数のテキストレイアウト属性の統計情報を生成することと、
    前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性のそれぞれについて、前記所定の重みスコアおよび前記統計情報に基づいて相対重みスコアを算出することと、
    前記第1段落と前記第2段落のそれぞれについて、
    前記統計情報および前記相対重みスコアに基づくスタイル基準スコアおよびレイアウト基準スコアと、前記テキストコンテンツ情報に基づくテキストコンテンツスコアと、前記スタイル基準スコア、前記レイアウト基準スコア、および前記テキストコンテンツスコアに基づくタイトル信頼度スコアと、を算出することと、
    前記電子文書について、前記第1段落および前記第2段落のそれぞれについてのタイトル信頼度スコアを含むメタデータを、前記電子文書内のタイトルを推定する際に使用するために生成することと、をコンピューターに実行させるためのコンピュータープログラム。
  12. 前記複数のテキストスタイル属性は、OOXMLスタイル名属性、フォントサイズ属性、太字属性、下線属性、フォント名属性、フォントカラー属性、および見出しタグ属性を含む群から選択され、
    前記複数のテキストレイアウト属性は、センタリング属性および空白属性を含む群から選択され、
    前記テキストコンテンツ情報は、前記電子文書内の前記複数の文字の文字数を含む、請求項11に記載のコンピュータープログラム。
  13. 前記複数のテキストレイアウト属性のそれぞれについて前記相対重みスコアを算出することは、
    前記複数のテキストレイアウト属性のうち、所定のテキストレイアウト属性に対する前記相対重みスコアとして前記所定の重みスコアを設定することと、
    残りの前記複数のテキストレイアウト属性のそれぞれについて、前記統計情報に基づいて複数のレイアウトスコア関数を算出すること、
    前記所定の重みスコアと前記レイアウトスコア関数の最大レイアウトスコア関数とに基づいて前記相対重みスコアを算出することと、を含む、請求項11または12に記載のコンピュータープログラム。
  14. 前記複数のテキストスタイル属性のそれぞれについて前記相対重みスコアを算出することは、
    前記複数のテキストスタイル属性のそれぞれについて、前記統計情報に基づいて可変性を決定することと、
    前記複数のテキストスタイル属性の、テキストスタイル属性の可変性が1であると決定したことに応じて、前記テキストスタイル属性の前記相対重みスコアをゼロに設定することと、
    前記テキストスタイル属性の可変性が1より大きいと判断したことに応じて、前記所定の重みスコアに基づいて前記テキストスタイル属性の前記相対重みスコアを算出することと、を含む、請求項13に記載のコンピュータープログラム。
  15. 前記電子文書は、第2電子文書を含む電子文書の集合内の第1電子文書であり、前記第2電子文書は、第3段落および第4段落と、第3段落および第4段落のタイトル信頼度スコアを含むメタデータと、を含み、
    前記第1段落および前記第3段落は、前記電子文書の集合内のタイトルを推定する要求において指定された所定の検索語を含み、
    前記第1段落のタイトル信頼度スコアが前記第3段落のタイトル信頼度スコアよりも大きいことに応じて、前記第1電子文書は、前記第2電子文書の前にディスプレイに表示される、請求項11~14のいずれか1項に記載のコンピュータープログラム。
  16. 電子文書内のタイトルを推定するために電子文書を処理するためのシステムであって、
    前記電子文書は、複数の文字を含み、
    前記システムは、メモリーと、
    前記メモリーに接続されるコンピュータープロセッサーと、を含み、
    前記コンピュータープロセッサーは、
    前記電子文書内の文字の複数のテキストスタイル属性、複数のテキストレイアウト属性、およびテキストコンテンツ情報を含むマークアップ版の電子文書を生成し、
    前記複数の文字は、前記複数のテキストレイアウト属性に基づいて少なくとも第1段落と第2段落にグループ化され、前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられ、
    前記複数のテキストスタイル属性と前記複数のテキストレイアウト属性の統計情報を生成し、
    前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性のそれぞれについて、前記所定の重みスコアおよび前記統計情報に基づいて相対重みスコアを算出し、
    前記第1段落と前記第2段落のそれぞれについて、前記統計情報および前記相対重みスコアに基づくスタイル基準スコアおよびレイアウト基準スコアと、前記テキストコンテンツ情報に基づくテキストコンテンツスコアと、前記スタイル基準スコア、前記レイアウト基準スコア、および前記テキストコンテンツスコアに基づくタイトル信頼度スコアと、を算出し、
    前記電子文書について、前記第1段落および前記第2段落のそれぞれについての前記タイトル信頼度スコアを含むメタデータを、前記電子文書内のタイトルを推定する際に使用するために生成する、システム。
  17. 前記複数のテキストスタイル属性は、OOXMLスタイル名属性、フォントサイズ属性、太字属性、下線属性、フォント名属性、フォントカラー属性、および見出しタグ属性を含む群から選択され、
    前記複数のテキストレイアウト属性は、センタリング属性および空白属性を含む群から選択され、
    前記テキストコンテンツ情報は、前記電子文書内の複数の文字の文字数を含む、請求項16に記載のシステム。
  18. 前記複数のテキストレイアウト属性のそれぞれについて前記相対重みスコアを算出することは、
    前記複数のテキストレイアウト属性のうち、所定のテキストレイアウト属性に対する相対重みスコアとして前記所定の重みスコアを設定することと、
    残りの前記複数のテキストレイアウト属性のそれぞれについて、前記統計情報に基づいて複数のレイアウトスコア関数を算出すること、
    前記所定の重みスコアと前記レイアウトスコア関数の最大レイアウトスコア関数とに基づいて相対重みスコアを算出することと、を含む、請求項16または17に記載のシステム。
  19. 前記複数のテキストスタイル属性のそれぞれについて前記相対重みスコアを算出することは、
    前記複数のテキストスタイル属性について、前記統計情報に基づいて可変性を決定し、
    前記複数のテキストスタイル属性の、テキストスタイル属性の可変性が1であると決定したことに応じて、前記テキストスタイル属性の前記相対重みスコアをゼロに設定し、
    前記テキストスタイル属性の可変性が1より大きいと判断したことに応じて、前記所定の重みスコアに基づいて前記テキストスタイル属性の前記相対重みスコアを算出すること、を含む、請求項16~18のいずれか1項に記載のシステム。
  20. 前記電子文書は、第2電子文書を含む電子文書の集合内の第1電子文書であり、前記第2電子文書は、第3段落および第4段落と、第3段落および第4段落のタイトル信頼度スコアを含むメタデータと、を含み、
    前記第1段落および前記第3段落は、前記電子文書の集合内のタイトルを推定する要求において指定された所定の検索語を含み、
    前記第1段落のタイトル信頼度スコアが前記第3段落のタイトル信頼度スコアよりも大きいことに応じて、前記第1電子文書は、前記第2電子文書の前にディスプレイに表示される、請求項16~19のいずれか1項に記載のシステム。
  21. 請求項11~15のいずれか1項に記載のコンピュータープログラムを格納したコンピューター読取可能な記録媒体。
JP2019022865A 2018-02-15 2019-02-12 タイトル推定器 Active JP7186107B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/897,911 US10572587B2 (en) 2018-02-15 2018-02-15 Title inferencer
US15/897,911 2018-02-15

Publications (2)

Publication Number Publication Date
JP2019169137A JP2019169137A (ja) 2019-10-03
JP7186107B2 true JP7186107B2 (ja) 2022-12-08

Family

ID=65279494

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019022865A Active JP7186107B2 (ja) 2018-02-15 2019-02-12 タイトル推定器

Country Status (4)

Country Link
US (1) US10572587B2 (ja)
EP (1) EP3528139A1 (ja)
JP (1) JP7186107B2 (ja)
CN (1) CN110162773B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956173B (zh) * 2020-02-18 2020-06-23 江西软云科技股份有限公司 题目内容识别方法、装置、可读存储介质及计算机设备
US11176311B1 (en) * 2020-07-09 2021-11-16 International Business Machines Corporation Enhanced section detection using a combination of object detection with heuristics
US11416671B2 (en) 2020-11-16 2022-08-16 Issuu, Inc. Device dependent rendering of PDF content
US11030387B1 (en) 2020-11-16 2021-06-08 Issuu, Inc. Device dependent rendering of PDF content including multiple articles and a table of contents

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148788A (ja) 1998-11-05 2000-05-30 Ricoh Co Ltd 文書画像からのタイトル領域抽出装置およびタイトル領域抽出方法,並びに文書検索方法
JP2003058556A (ja) 2001-08-16 2003-02-28 Ricoh Co Ltd 文書画像のタイトル抽出方法、抽出プログラム、及びタイトル抽出装置
JP2011070529A (ja) 2009-09-28 2011-04-07 Hitachi Solutions Ltd 文書処理装置
US20120278705A1 (en) 2010-01-18 2012-11-01 Yang sheng-wen System and Method for Automatically Extracting Metadata from Unstructured Electronic Documents

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5438512A (en) * 1993-10-22 1995-08-01 Xerox Corporation Method and apparatus for specifying layout processing of structured documents
JP3425834B2 (ja) * 1995-09-06 2003-07-14 富士通株式会社 文書画像からのタイトル抽出装置および方法
US5893916A (en) * 1996-12-13 1999-04-13 Ncr Corporation Method of converting man pages to help topic files
US6327387B1 (en) * 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
US6298357B1 (en) * 1997-06-03 2001-10-02 Adobe Systems Incorporated Structure extraction on electronic documents
US6088711A (en) * 1997-07-01 2000-07-11 Microsoft Corporation Method and system for defining and applying a style to a paragraph
US7099507B2 (en) * 1998-11-05 2006-08-29 Ricoh Company, Ltd Method and system for extracting title from document image
US7013309B2 (en) * 2000-12-18 2006-03-14 Siemens Corporate Research Method and apparatus for extracting anchorable information units from complex PDF documents
US7120868B2 (en) * 2002-05-30 2006-10-10 Microsoft Corp. System and method for adaptive document layout via manifold content
US20040006742A1 (en) * 2002-05-20 2004-01-08 Slocombe David N. Document structure identifier
US20060224952A1 (en) * 2005-03-30 2006-10-05 Xiaofan Lin Adaptive layout templates for generating electronic documents with variable content
EP1748365A1 (en) * 2005-07-27 2007-01-31 Hewlett-Packard Development Company, L.P. Document Template Generation
US7958444B2 (en) * 2006-06-15 2011-06-07 Xerox Corporation Visualizing document annotations in the context of the source document
CN101246475B (zh) 2007-02-14 2010-05-19 北京书生国际信息技术有限公司 一种基于版面信息的检索方法
JP2011070558A (ja) * 2009-09-28 2011-04-07 Konica Minolta Business Technologies Inc 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
FR2977692B1 (fr) * 2011-07-07 2015-09-18 Aquafadas Sas Enrichissement de document electronique
US10025979B2 (en) * 2012-01-23 2018-07-17 Microsoft Technology Licensing, Llc Paragraph property detection and style reconstruction engine
CN103838801A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种网页主题信息抽取方法
US9411790B2 (en) * 2013-07-26 2016-08-09 Metrodigi, Inc. Systems, methods, and media for generating structured documents
US10733256B2 (en) * 2015-02-10 2020-08-04 Researchgate Gmbh Online publication system and method
CN104881401B (zh) * 2015-05-27 2017-10-17 大连理工大学 一种专利文献聚类方法
US9679198B2 (en) * 2015-11-05 2017-06-13 International Business Machines Corporation Ingestion plan based on table uniqueness
CN105488160A (zh) * 2015-11-30 2016-04-13 北大方正集团有限公司 一种图片挂接方法及装置、知识图谱的制作方法
US9508043B1 (en) * 2016-02-05 2016-11-29 International Business Machines Corporation Extracting data from documents using proximity of labels and data and font attributes
CN106776538A (zh) * 2016-11-23 2017-05-31 国网福建省电力有限公司 企业非标准格式文档的信息提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148788A (ja) 1998-11-05 2000-05-30 Ricoh Co Ltd 文書画像からのタイトル領域抽出装置およびタイトル領域抽出方法,並びに文書検索方法
JP2003058556A (ja) 2001-08-16 2003-02-28 Ricoh Co Ltd 文書画像のタイトル抽出方法、抽出プログラム、及びタイトル抽出装置
JP2011070529A (ja) 2009-09-28 2011-04-07 Hitachi Solutions Ltd 文書処理装置
US20120278705A1 (en) 2010-01-18 2012-11-01 Yang sheng-wen System and Method for Automatically Extracting Metadata from Unstructured Electronic Documents

Also Published As

Publication number Publication date
JP2019169137A (ja) 2019-10-03
US10572587B2 (en) 2020-02-25
US20190251163A1 (en) 2019-08-15
EP3528139A1 (en) 2019-08-21
CN110162773A (zh) 2019-08-23
CN110162773B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
JP7186107B2 (ja) タイトル推定器
JP6254374B2 (ja) 出版物からocr認識されたテキストとそれに対応するイメージをクライアント装置において選択的に表示すること
US7469251B2 (en) Extraction of information from documents
US8416243B2 (en) Approximating font metrics for a missing font when substituting an available replacement
JP4682284B2 (ja) 文書差分検出装置
US6330576B1 (en) User-friendly information processing device and method and computer program product for retrieving and displaying objects
US9870484B2 (en) Document redaction
US8515176B1 (en) Identification of text-block frames
US20090180126A1 (en) Information processing apparatus, method of generating document, and computer-readable recording medium
CN102081594A (zh) 从可移植电子文档中提取字符外接矩形的设备和方法
US9734132B1 (en) Alignment and reflow of displayed character images
JP7186075B2 (ja) 電子文書中の文字列塊を推測する方法
KR20170140808A (ko) 단어 사이의 불확실성에 따른 단어 공백의 비대칭 포맷팅을 위한 시스템 및 방법
US20200311059A1 (en) Multi-layer word search option
JP5715172B2 (ja) 文書表示装置、文書表示方法及び文書表示プログラム
CN114564915A (zh) 文本排版方法、电子设备及存储介质
US20130031460A1 (en) Using a common input/output format to generate a page of an electronic document
JP5612552B2 (ja) レイアウト依存文書内のページ参照を解決する方法、コンピューター読取可能媒体及びシステム
JPH10301929A (ja) 文書処理装置、文書処理方法及び記録媒体
US20140016150A1 (en) System and method to store embedded fonts
JP2015069235A (ja) 情報処理装置及び情報処理方法
JP7493937B2 (ja) 文書における見出しのシーケンスの識別方法、プログラム及びシステム
US11238219B2 (en) Sentence extraction system, sentence extraction method and information storage medium
US20230205910A1 (en) Information processing device, confidentiality level determination program, and method
JP2013130916A (ja) 文書速読支援装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210916

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221128

R150 Certificate of patent or registration of utility model

Ref document number: 7186107

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150