JP7186107B2

JP7186107B2 - タイトル推定器

Info

Publication number: JP7186107B2
Application number: JP2019022865A
Authority: JP
Inventors: ユージンベラートダレル
Original assignee: コニカミノルタラボラトリーユー．エス．エー．，インコーポレイテッド
Priority date: 2018-02-15
Filing date: 2019-02-12
Publication date: 2022-12-08
Anticipated expiration: 2039-02-12
Also published as: JP2019169137A; US10572587B2; US20190251163A1; EP3528139A1; CN110162773A; CN110162773B

Description

本発明は、タイトル推定器に関する。

背景
電子文書（ＥＤ）（たとえば、ワードプロセッシング文書、スプレッドシート、スライドショー、ウェブページなど）は、ＥＤ内の内容を最もよく説明しているタイトル（たとえば、名前、見出し、説明文、ラベル、キャプションなど）を含みうる。多くの場合、タイトル内のテキストはユーザーにとって思い出しやすいものである。

しかしながら、タイトルは、ＥＤ内で必ずしも明示的に識別される（すなわち、ラベル付けおよび／またはタグ付けされる）とは限らない。それにも関わらず、ユーザーはそれでもＥＤのタイトルを捜すことを望む。

概要
概して、一態様では、本発明は、電子文書（ＥＤ）を処理してＥＤ内のタイトルを推定する方法に関する。ここで、ＥＤは複数の文字を含む。この方法は、ＥＤ内の文字のテキストスタイル属性、テキストレイアウト属性、およびテキストコンテンツ情報を含む、ＥＤのマークアップ版を生成することと、ここで、文字は、テキストレイアウト属性に基づいて、少なくとも第１段落および第２段落にグループ化され、テキストスタイル属性およびテキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられ、テキストスタイル属性およびテキストレイアウト属性の統計情報を生成することと、テキストスタイル属性およびテキストレイアウト属性のそれぞれについて、所定の重みスコアおよび統計情報に基づいて相対重みスコアを算出することと、第１段落および第２段落のそれぞれについて、統計情報および相対重みスコアに基づいてスタイル基準スコアおよびレイアウト基準スコアと、テキストコンテンツ情報に基づくテキストコンテンツスコアと、スタイル基準スコア、レイアウト基準スコア、およびテキストコンテンツスコアに基づくタイトル信頼度スコアと、を算出することと、ＥＤについて、そのＥＤ内のタイトルを推定する際に使用するための、第１段落および第２段落のそれぞれについてのタイトル信頼度スコアを含むメタデータを生成することと、を含む。

概して、一態様では、本発明は、電子文書（ＥＤ）を処理してＥＤ内のタイトルを推定するためのシステムに関する。ここで、ＥＤは複数の文字を含む。このシステムは、ＥＤ内の文字のテキストスタイル属性、テキストレイアウト属性、およびテキストコンテンツ情報を含むマークアップ版のＥＤを生成する。ここで、文字は、テキストレイアウト属性に基づいて、少なくとも第１段落および第２段落にグループ化され、テキストスタイル属性およびテキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられる。テキストスタイル属性とテキストレイアウト属性の統計情報を生成する。テキストスタイル属性およびテキストレイアウト属性のそれぞれについて、所定の重みスコアおよび統計情報に基づいて相対重みスコアを計算する。第１段落および第２段落のそれぞれについて、統計情報および相対重みスコアに基づいてスタイル基準スコアおよびレイアウト基準スコアを計算する。テキストコンテンツ情報に基づくテキストコンテンツスコアと、スタイル基準スコア、レイアウト基準スコア、およびテキストコンテンツスコアに基づくタイトル信頼度スコアと、を算出する。ＥＤについて、そのＥＤ内のタイトルを推定する際に使用するための、第１段落および第２段落のそれぞれについてのタイトル信頼度スコアを含むメタデータを生成する。

概して、一態様では、本発明は、電子文書（ＥＤ）を処理し、ＥＤ内に埋め込まれたタイトルを推定するためのコンピュータープログラムである。ＥＤは複数の文字を含む。コンピュータープログラムは、ＥＤ内の文字のテキストスタイル属性、テキストレイアウト属性、および文字のテキストコンテンツ情報を含む、ＥＤのマークアップ版を生成することと、ここで、文字は、テキストレイアウト属性に基づいて少なくとも第１段落と第２段落とにグループ化され、テキストスタイル属性および前記テキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられ、テキストスタイル属性とテキストレイアウト属性の統計情報を生成することと、テキストスタイル属性およびテキストレイアウト属性のそれぞれについて、所定の重みスコアおよび前記統計情報に基づいて相対重みスコアを算出することと、第１段落と第２段落のそれぞれについて、統計情報および相対重みスコアに基づくスタイル基準スコアおよびレイアウト基準スコアと、テキストコンテンツ情報に基づくテキストコンテンツスコアと、スタイル基準スコア、レイアウト基準スコア、およびテキストコンテンツスコアに基づくタイトル信頼度スコアと、を算出することと、電子文書について、第１段落および第２段落のそれぞれについてのタイトル信頼度スコアを含むメタデータを、電子文書内のタイトルを推定する際に使用するために生成することと、をコンピューターに実行させる。

本発明の他の態様は、以下の説明および添付の特許請求の範囲から明らかとなろう。
図１は、本発明の１つ以上の実施形態によるシステムを示す。図２は、本発明の１つ以上の実施形態によるフローチャートを示す。図３Ａは、発明の１つ以上の実施形態による実装例を示す図である。図３Ｂは、発明の１つ以上の実施形態による実装例を示す図である。図３Ｃは、発明の１つ以上の実施形態による実装例を示す図である。図３Ｄは、発明の１つ以上の実施形態による実装例を示す図である。図３Ｅは、発明の１つ以上の実施形態による実装例を示す図である。図３Ｆは、発明の１つ以上の実施形態による実装例を示す図である。図３Ｇは、発明の１つ以上の実施形態による実装例を示す図である。図３Ｈは、発明の１つ以上の実施形態による実装例を示す図である。図３Ｉは、発明の１つ以上の実施形態による実装例を示す図である。図３Ｊは、発明の１つ以上の実施形態による実装例を示す図である。図３Ｋは、発明の１つ以上の実施形態による実装例を示す図である。図４は、本発明の１つ以上の実施形態による計算システムを示す。

概要
概して、一態様では、本発明は、電子文書（ＥＤ）をコンピューターによって処理してＥＤ内のタイトルを推定する方法に関する。ここで、ＥＤは複数の文字を含む。この方法は、ＥＤ内の文字のテキストスタイル属性、テキストレイアウト属性、およびテキストコンテンツ情報を含む、ＥＤのマークアップ版を生成することと、ここで、文字は、テキストレイアウト属性に基づいて、少なくとも第１段落および第２段落にグループ化され、テキストスタイル属性およびテキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられ、テキストスタイル属性およびテキストレイアウト属性の統計情報を生成することと、テキストスタイル属性およびテキストレイアウト属性のそれぞれについて、所定の重みスコアおよび統計情報に基づいて相対重みスコアを算出することと、第１段落および第２段落のそれぞれについて、統計情報および相対重みスコアに基づいてスタイル基準スコアおよびレイアウト基準スコアと、テキストコンテンツ情報に基づくテキストコンテンツスコアと、スタイル基準スコア、レイアウト基準スコア、およびテキストコンテンツスコアに基づくタイトル信頼度スコアと、を算出することと、ＥＤについて、そのＥＤ内のタイトルを推定する際に使用するための、第１段落および第２段落のそれぞれについてのタイトル信頼度スコアを含むメタデータを生成することと、を含む。

本発明の実施形態の以下の詳細な説明では、本発明のより完全な理解を提供するために多数の具体的な詳細が述べられている。しかしながら、本発明がこれらの具体的な詳細なしで実施されてもよいことは当業者に明らかであろう。他の例では、説明を不必要に複雑にすることを避けるために、よく知られた特徴は詳細に説明されていない。

一般に、本発明の実施形態は、ＥＤ内でタイトル（たとえば、名前、見出し、説明、ラベル、キャプションなど）を推定（ｉｎｆｅｒ）するために電子文書（ＥＤ）を処理する方法、コンピュータープログラム、およびシステムを提供する。具体的には、１行または複数行のテキストを含む電子文書（ＥＤ）が取得され、ＥＤの構文解析によってＥＤのマークアップ（校正）版が生成される。ＥＤのマークアップ版には、テキストの行を構成する文字の内容、レイアウト、およびスタイル情報が含まれている。マークアップ版のＥＤに対して１つ以上のプロセスが実行され、テキストの行が段落にグループ化され、各段落のタイトル信頼度スコアが算出される。各段落についてのタイトル信頼度スコアが算出されると、たとえタイトルが明確に識別（すなわち、ラベル付けおよび／またはタグ付け）されていなくても、ＥＤのタイトルを推定できる。

図１は、本発明の１つまたは複数の実施形態によるシステム（１００）を示す。図１に示すように、システム（１００）は、たとえば、バッファー（１０４）、解析エンジン（１０８）、およびタイトルエンジン（１１０）を含む複数の構成要素を有する。これらの構成要素（１０４，１０８，１１０）のそれぞれは、同じ計算装置（たとえば、パーソナルコンピューター（ＰＣ）、ノート型パソコン、タブレットＰＣ、スマートフォン、多機能プリンター、自動券売機（ｋｉｏｓｋ）、サーバーなど）または、有線および／または無線セグメントを有する任意のサイズのネットワークによって接続された異なる計算装置上に配置できる。これらの構成要素のそれぞれについて以下に説明する。

本発明の１つ以上の実施形態では、バッファー（１０４）は、ハードウェア（すなわち回路）、ソフトウェア、またはそれらの任意の組み合わせで実装できる。バッファー（１０４）は、文字からなる１行以上のテキストを含む電子文書（ＥＤ）（１０６）を格納するように構成される。ＥＤ（１０６）は画像およびグラフィックも含むことができる。ＥＤ（１０６）は、任意の供給源から入手できる（たとえば、ダウンロード、スキャンなど）。ＥＤ（１０６）は、ＥＤの集合の一部であり得る。さらに、ＥＤ（１０６）は、任意のサイズおよび任意のフォーマット（たとえば、ＰＤＦ、ＯＯＸＭＬ、ＯＤＦ、ＨＴＭＬなど）であり得る。

本発明の１つ以上の実施形態では、構文解析エンジン（１０８）は、ハードウェア（すなわち回路）、ソフトウェア、またはそれらの任意の組み合わせで実装できる。解析エンジン（１０８）は、ＥＤ（１０６）を解析して、ＥＤ内の文字の内容（コンテンツ）、レイアウト、およびスタイル情報を抽出し、抽出した情報に基づいてＥＤ（１０７）のマークアップ版を生成する。マークアップ版のＥＤ（１０７）はバッファー（１０４）に格納されてもよい。

本発明の１つ以上の実施形態では、スタイル情報は、ＥＤ（１０６）内の各文字のスタイルの詳細を識別する１つ以上のテキストスタイル属性を含みうる。たとえば、テキストスタイル属性には、ＯＯＸＭＬのスタイル名属性、ＨＴＭＬの見出しタグ、フォントサイズ属性、太字（ボールド）属性、下線属性、フォント名属性、フォントカラー属性などが含まれる。図３Ｂおよび図３Ｃを参照して、以下でより詳細に例示する。

本発明の１つ以上の実施形態では、レイアウト情報は、コンテンツ境界ボックス情報（ｃｏｎｔｅｎｔｂｏｕｎｄｉｎｇｂｏｘｉｎｆｏｒｍａｔｉｏｎ）（たとえば、ＥＤ（１０６）の単一ページ上の全コンテンツの境界ボックスおよび各テキスト行の境界ボックス）および行間隔情報を含むことができる。レイアウト情報は、テキストの各行の基礎となる構造を特定する１つ以上のテキストレイアウト属性を決定および／または算出するために使用されうる。たとえば、レイアウト情報は、センタリング属性、空白属性（ｗｈｉｔｅｓｐａｃｅａｔｔｒｉｂｕｔｅ）などのような属性を含むことができる。これは、図３Ｂおよび図３Ｆ～図３Ｈを参照して、以下でより詳細に例示する。

本発明の１つ以上の実施形態では、構文解析エンジン（１０８）は、テキストレイアウト属性を使用してＥＤ（１０６）内の１つ以上の段落を特定する。１つ以上の実施形態では、電子文書（１０６）内の段落は、一行のテキストのみを含む場合もある。また、段落は必ずしもインデントで始まるとは限らない。

本発明の１つ以上の実施形態では、テキストコンテンツ情報は、ＥＤ（１０６）の単一および／またはすべての段落における文字数（「文字数」）を含むことができる。たとえば、段落は、たとえば空白によって、テキスト行の１つまたは複数のグループから分離されたテキストの１つまたは複数の行のグループである場合がある。これは、図３Ａを参照して、以下でより詳細に例示される。

本発明の１つ以上の実施形態では、タイトルエンジン（１１０）は、ハードウェア（すなわち回路）、ソフトウェア、またはそれらの任意の組み合わせで実装できる。タイトルエンジン（１１０）は、ＥＤ（１０６）内の各段落についてのタイトル信頼度スコアを算出し、各段落のタイトル信頼度スコアに基づいてＥＤ（１０６）内の可能性のあるタイトルを特定（すなわち推定）するように構成される。１つ以上の実施形態では、ＥＤ（１０６）はタイトルを含まなくてもよく、または複数のタイトル（すなわち、一致する最高のタイトル信頼度スコアを有する潜在的に複数の段落）を有してもよい。

本発明の１つ以上の実施形態では、タイトルエンジン（１１０）は、テキストスタイル属性およびテキストレイアウト属性についての一集合の所定の重みスコアを取り出す。それぞれのテキストスタイル属性およびテキストレイアウト属性は、上記集合内の所定の重みスコアに関連付けられている（すなわち、結び付けられている）。所定の重みスコアは、どのテキストスタイル属性およびテキストレイアウト属性がタイトルの優先順位を示す可能性が最も高いか（すなわち、ＥＤで見つかったタイトルのうち、どのテキストスタイル属性およびテキストレイアウト属性が最も共通に関連付けられているか）に関するユーザーの考慮に基づいてユーザーによって決定される。たとえば、タイトルには固有のフォントカラーではなく太字が含まれる可能性が高いことをユーザーが認識しているとする。太字属性に対する所定の重みスコアは、フォントカラー属性に対する所定の重みスコアよりも大きいであろう。別の例として、タイトルが、太字を含むよりも中央に配置される可能性が高いことをユーザーが認識しているとする。センタリング属性に対する所定の重みスコアは、太字属性に対する所定の重みスコアよりも大きいであろう。これは、図３Ｄを参照して、以下でより詳細に例示される。

本発明の１つ以上の実施形態では、上記一集合の所定の重みスコアは、バッファー（１０８）に格納されてもよく、ユーザーによっていつでも決定、アクセスおよび／または修正されてもよい。所定の重みスコアは、たとえば、ＥＤに関連付けられた構成ファイルおよび／またはＥＤに格納されているデフォルト・パラメーターによって事前に定義することもできる。１つ以上の実施形態では、所定の重みスコアの合計は１に設定される。あるいは、所定の重みスコアの合計は任意の定数（たとえば、１０、１００、０．１、５など）に設定されうる。

本発明の１つ以上の実施形態では、タイトルエンジン（１１０）は、マークアップ版のＥＤ（１０７）内の各テキストスタイル属性およびテキストレイアウト属性を特定し、各テキストスタイル属性およびテキストレイアウト属性に関する統計情報を生成する。

本発明の１つ以上の実施形態では、各テキストスタイル属性の統計情報は、各テキストスタイル属性の可変性（ｖａｒｉａｂｉｌｉｔｙ）および頻度を含むことができる。テキストスタイル属性の可変性は、特定されたテキストスタイル属性のいくつかのバリエーションに基づいて決定できる。たとえば、フォントサイズが１１、１４、および１６の文字がＥＤ（１０６）で特定される（つまり、フォントサイズの３つのバリエーションが特定される）場合、フォントサイズ属性の可変性は３になる。他の例として、ＥＤ（１０６）に太字の文字があるとする。太字の属性の可変性は２となる（たとえば、太字の文字については真、太字ではない文字については偽）。テキストスタイル属性の頻度は、テキストスタイル属性の各バリエーションを有する文字の濃度に基づいて決定できる。たとえば、ＥＤ（１０６）が合計７４５文字を有し、７４５文字のうちの２９文字が１６のフォントサイズを有すると仮定する。１６のフォントサイズ属性の頻度は２９である。これは、図３Ｅを参照して、以下で詳細に例示される。

本発明の１つ以上の実施形態では、各テキストレイアウト属性の統計情報は、ＥＤ（１０６）の単一ページ上の全コンテンツの境界ボックスの１つまたは複数の値（すなわち、ＥＤ（１０６）の単一ページ上の全コンテンツの右、左、上、および下の境界を記述する値）を含みうる。各テキストレイアウト属性の統計情報には、各段落に関連付けられている空白の量も含まれる場合がある。これには、垂直方向の空白（つまり、テキスト行または文書または境界ボックスの端の間の空白）と、水平方向の空白（つまり、テキスト行の最初と最後の文字の間の空白、およびページ上の全コンテンツの境界ボックスの左右の境界線の間の空白）と、の量が含まれる。水平方向の空白は、先頭の空白（つまり、テキスト行の最初の文字とページ上の全コンテンツの境界ボックスの左端との間の空白）と、末尾の空白（つまり、テキスト行の最後の文字と、ページ上の全コンテンツの境界ボックスの右端との間の空白）と、に分割されうる。これは、図３Ａ、図３Ｆ～３Ｈを参照して、以下に詳細に例示される。

本発明の１つ以上の実施形態では、タイトルエンジン（１１０）は、テキストスタイル属性およびテキストレイアウト属性の統計情報に基づいて、テキストスタイル属性およびテキストレイアウト属性のそれぞれについての所定の重みスコアを相対重みスコア（ｒｅｌａｔｉｖｅｗｅｉｇｈｔｓｃｏｒｅ）に調整する。調整は、相対重みスコアをユーザー定義の値に設定すること、または所定の重みスコアと、テキストスタイル属性およびテキストレイアウト属性の統計情報とを使用して相対重みスコアを算出することによって実施できる。１つ以上の実施形態では、所定の重みスコアは、上記統計情報によって反映されるように、いくつかのテキストスタイル属性およびテキストレイアウト属性がＥＤ（１０６）内のタイトルの推定にとって関心を引かない（すなわち関連性がない）ことを考慮して調整される。

たとえば、ＥＤ（１０６）がＰＤＦ文書であると仮定する。ＰＤＦ文書は、ＯＯＸＭＬ文書に含まれるスタイル名属性を含まない。したがって、スタイル名属性の現在のフォーマット（すなわちＰＤＦ）にスタイル名属性が関連しないことを反映するように、スタイル名属性の所定の重みスコアが下げられる（すなわち調整される）。別の例として、１つ以上の実施形態では、１の可変性を有する（すなわち、それらは変動しない）すべてのテキストスタイル属性の所定の重みスコアを０の相対重みスコアに設定できる。センタリング属性については、相対重みスコアは、所定の重みスコアを、ＥＤ（１０６）内の段落を最良のセンタリング（すなわち、ＥＤ（１０６）内の最も中央に配置された段落）を反映するセンタリングスコア（下記に例示）でスケーリングすることによって算出できる。また、空白属性については、すべての文書に空白が含まれるため、相対重みスコアを所定の重みスコアと同じに設定する。これは、図３Ｉを参照して、以下で詳細に例示される。

所定の重みスコアを調整する方法は、上述の例に限定されない。１つ以上の実施形態では、統計情報に基づくＥＤ（１０６）内の各テキストスタイル属性およびテキストレイアウト属性の関連性を考慮に入れる他の方法を使用して、所定の重みスコアを調整できる。

本発明の１つ以上の実施形態では、相対重みスコアの合計が１に等しくない場合、タイトルエンジン（１１０）は、相対重みスコアの合計が１になるように相対重みスコアをスケーリングする。これは、図３Ｉを参照して、以下に詳細に例示される。あるいは、相対重みスコアの合計が、所定の重みスコアの合計に対して設定された定数（たとえば、１０、１００、０．１、５など）と等しくない場合、タイトルエンジン（１１０）は、相対重みスコアの合計が設定された定数と等しくなるように、相対重みスコアをスケーリングする。

本発明の１つ以上の実施形態では、タイトルエンジン（１１０）は、ＥＤ（１０６）内の各段落についてセンタリングスコアを算出する。段落のセンタリングスコアは、段落がＥＤ内でセンタリングされる（すなわち、段落の行がセンタリングされる）程度を特定する。センタリングスコアは、０がセンタリングなし、１が高度のセンタリング度で、０から１の間の値として算出できる。一般的に、タイトルは中央に配置されることが知られている。したがって、中央揃えされた段落は、ＥＤ（１０６）のタイトルである可能性が高い。１つ以上の実施形態では、センタリングスコア（「ｃｅｎｔｅｒｉｎｇ＿ｓｃｏｒｅ」）は、テキストの各行の末尾の空白（「ｔｒａｉｌｉｎｇ＿ｗｈｉｔｅ＿ｓｐａｃｅ」）および先頭の空白（「ｌｅａｄｉｎｇ＿ｗｈｉｔｅ＿ｓｐａｃｅ」）に基づいて、次のように算出される。
ｃｅｎｔｅｒｉｎｇ＿ｓｃｏｒｅ＝１－（ｌｅａｄｉｎｇ＿ｗｈｉｔｅ＿ｓｐａｃｅ－ｔｒａｉｌｉｎｇ＿ｗｈｉｔｅ＿ｓｐａｃｅ） ÷ （ｌｅａｄｉｎｇ＿ｗｈｉｔｅ＿ｓｐａｃｅ＋ｔｒａｉｌｉｎｇ＿ｗｈｉｔｅ＿ｓｐａｃｅ）

１つ以上の実施形態では、センタリング属性の相対重みスコアを算出するために使用されるセンタリングスコアは、ＥＤ（１０６）内の各段落について算出された最大センタリングスコアでありうる。

センタリングスコアの算出方法は、上記の例に限定されない。１つ以上の実施形態では、テキストレイアウト属性の統計情報およびＥＤ（１０６）のレイアウト情報を考慮に入れる他の方法を使用してセンタリングスコアを算出できる。

本発明の１つ以上の実施形態では、タイトルエンジン（１１０）は、ＥＤ（１０６）の各段落について空白スコア（ｗｈｉｔｅｓｐａｃｅｓｃｏｒｅ）を算出する。段落の空白スコアは、段落を囲む空白の量（すなわち、その段落を囲む水平方向および垂直方向の空白の量）に基づいて算出される。高い空白スコアは、段落がオフセットされる可能性が最も高いことを示し、これは一般にタイトルの既知のレイアウトに関連する（すなわち、タイトルはＥＤの本体内でオフセットされることが知られている）。空白スコアは、０から１の間の値で、０が最低スコア、１が最高スコアである。１つ以上の実施形態では、テキスト行の空白スコア（「ｗｈｉｔｅ＿ｓｐａｃｅ＿ｓｃｏｒｅ」）は、次のように算出できる。
ｗｈｉｔｅ＿ｓｐａｃｅ＿ｓｃｏｒｅ＝ｈｏｒｉｚ＿ｗｈｉｔｅ＿ｓｐａｃｅ＿ｓｃｏｒｅ × ｖｅｒｔ＿ｗｈｉｔｅ＿ｓｐａｃｅ＿ｓｃｏｒｅ

水平空白スコア（ｈｏｒｉｚ＿ｗｈｉｔｅ＿ｓｐａｃｅ＿ｓｃｏｒｅ）は、次のように算出できる。
ｈｏｒｉｚ＿ｗｈｉｔｅ＿ｓｐａｃｅ＿ｓｃｏｒｅ＝ｍｉｎ＿ｍａｘ＿ｗｉｄｔｈ ÷ ｃｏｎｔｅｎｔ＿ｂｏｕｎｄｉｎｇ＿ｂｏｘ＿ｗｉｄｔｈ

段落のｍｉｎ＿ｍａｘ＿ｗｉｄｔｈは、段落におけるテキストの各行の最大水平方向空白を含む集合の最小値である。１行のテキストしかない段落の場合、ｍｉｎ＿ｍａｘ＿ｗｉｄｔｈは最大水平方向空白である。たとえば、段落に３行のテキストが含まれ、３行のそれぞれの最大水平方向空白を含む集合がＸ＝｛０．０１、０．０１、および４．８７｝であるとする。集合Ｘの最小値０．０１は、その段落のｍｉｎ＿ｍａｘ＿ｗｉｄｔｈである。ｃｏｎｔｅｎｔ＿ｂｏｕｄｉｎｇ＿ｂｏｘ＿ｗｉｄｔｈは、段落を含むＥＤのページのコンテンツ境界ボックスの幅である。たとえば、段落がＥＤの１ページ目にあり、ＥＤの１ページ目に左境界が０．９９、右境界が７．４５のコンテンツ境界ボックスがあるとする。ｃｏｎｔｅｎｔ＿ｂｏｕｄｎｉｎｇ＿ｂｏｘ＿ｗｉｄｔｈは６．４６（すなわち７．４５－０．９９）に設定される。

１つ以上の実施形態では、垂直空白スコア（ｖｅｒｔ＿ｗｈｉｔｅ＿ｓｐａｃｅ＿ｓｃｏｒｅ）は、段落の最大垂直空白（「ｍａｘ＿ｖｅｒｔ＿ｗｈｉｔｅ＿ｓｐａｃｅ」）を見つけ、最大垂直空白を最小閾値（「ｍｉｎ＿ｔｈｒｅｓｈｏｌｄ」）および最大閾値（「ｍａｘ＿ｔｈｒｅｓｈｏｌｄ」）と比較することによって算出できる。最大垂直空白が最大閾値より大きい場合、垂直空白スコアは１に設定される。最大垂直空白スコアが最小閾値より小さい場合、垂直空白スコアは０に設定される。最大垂直空白が最大閾値と最小閾値の間にある場合、垂直空白スコアは、（（ｍａｘ＿ｖｅｒｔ＿ｗｈｉｔｅ＿ｓｐａｃｅ－ｍｉｎ＿ｔｈｒｅｓｈｏｌｄ） ÷ （ｍａｘ＿ｔｈｒｅｓｈｏｌｄ－ｍｉｎ＿ｔｈｒｅｓｈｏｌｄ））として算出できる。最大閾値は、１．５×統計情報で算出されたＥＤ（１０６）の平均行間隔に設定され、最小閾値は、平均行間隔の０．５に設定されてもよい。たとえば、ＥＤ（１０６）の平均行間隔が０．１であると仮定すると、最大閾値は０．１５となり、最小閾値は０．０５となる。

空白スコアの算出方法は、上記の例に限定されない。１つ以上の実施形態では、テキストレイアウト属性の統計情報およびＥＤ（１０６）のレイアウト情報を考慮に入れる他の方法を使用して空白スコアを算出できる。

本発明の１つ以上の実施形態では、タイトルエンジン（１１０）は、ＥＤ（１０６）の各段落についてスタイル基準スコアを算出する。スタイル基準スコアは、段落内の文字のスタイルが、一般にタイトルに関連する１つまたは複数のスタイル（すなわち、既知のタイトルスタイル）にどれだけ一致するかを表す０から１の間の値でありうる。０は、タイトルスタイルである可能性が低く、１はタイトルスタイルである可能性が非常に高い。スタイル基準スコアは、各テキストスタイル属性の最終スタイルスコアの合計として算出できる。テキストスタイル属性の最終スタイルスコアは、テキストスタイル属性のスコア関数（すなわち、スタイルスコア関数）およびテキストスタイル属性の相対重みスコアに基づいて算出される。

本発明の１つ以上の実施形態では、テキストスタイル属性のスコア関数を算出するために、タイトルエンジン（１１０）は、テキストスタイル属性の固有性スコア（ｕｎｉｑｕｅｎｅｓｓｓｃｏｒｅ）および／または望ましさスコア（ｄｅｓｉｒａｂｉｌｉｔｙｓｃｏｒｅ）を算出できる。本発明の１つ以上の実施形態では、固有性スコアは、テキストスタイル属性のバリエーションがＥＤ（１０６）内で一意（すなわち、特殊／希少）であることを反映している。テキストスタイル属性の固有性スコア（「ｕｎｉｑｕｅｎｅｓｓ＿ｓｃｏｒｅ」）は、段落ごとに次のように算出できる。
ｕｎｉｑｕｅｎｅｓｓ＿ｓｃｏｒｅ＝ｄｉｓｔｒｉｂｕｔｉｏｎ＿ｒａｔｉｏ × ｓｐａｒｓｉｔｙ＿ｓｃｏｒｅ

１つ以上の実施形態では、ｄｉｓｔｒｉｂｕｔｉｏｎ＿ｒａｔｉｏ（配分率）は、テキストスタイル属性の最も一般的なバリエーションが段落内に出現する頻度を反映する。たとえば、ＥＤの段落Ａが合計２９文字を含み、２９文字のうち２９文字が太字である（すなわち、太字属性のバリエーション真）と仮定する。段落Ａの太字の属性の配分比は、（２９÷２９）の結果として１になる。

１つ以上の実施形態では、ｓｐａｒｓｉｔｙ＿ｓｃｏｒｅ（まばら性スコア）は、テキストスタイル属性のバリエーションがＥＤ（１０６）内にどれほどまれにあるかを反映する。
ｓｐａｒｓｉｔｙ＿ｓｃｏｒｅ＝１－（ｎｕｍ＿ｃｈａｒ＿ｖａｒｉａｔｉｏｎ ÷ ｔｏｔａｌ＿ｃｈａｒ＿ＥＤ）

たとえば、上記と同じ条件を仮定し、さらにＥＤ（１０６）が７４５の総文字数（「ｔｏｔａｌ＿ｃｈａｒ＿ＥＤ」）を有し、７４５文字のうちの３８が太字である（すなわち、太字属性のバリエーション真）と仮定する。太字属性のスパース性スコアは、１－（３８÷７４５）の結果、０．９５である。さらに、（１×０．９５）の結果として、段落Ａの太字属性の固有性スコアは０．９５である。

本発明の１つ以上の実施形態では、望ましさスコアは、テキストスタイル属性のバリエーションが一意であるだけでなく、ＥＤ（１０６）のスタイル属性におけるテキストの最も一般的なバリエーションよりもタイトルに見られるスタイルに関連付けられる可能性が高いことを反映している。たとえば、ＥＤ（１０６）に１１、１４、および１６のフォントサイズの文字が含まれているとする。１１のフォントサイズがフォント属性の最も一般的なバリエーションである。１６のフォントサイズは最大のフォントサイズであり、タイトル内のテキストは一般的に大きいことが知られているため、タイトルのフォントサイズである可能性が高くなる。フォント属性の望ましさスコアは、フォントサイズ１６（すなわち、ｄｅｓｉｒｅｄ＿ｖａｒｉａｔｉｏｎ）に基づいて算出できる。各フォントサイズにも数値が割り当てられている。たとえば、フォントサイズ１１に１１の値を割り当て、フォントサイズ１６に１６の値を割り当てることができる。

本発明の１つ以上の実施形態では、テキストスタイル属性の望ましさスコア（「ｄｅｓｉａｂｉｌｉｔｙ＿ｓｃｏｒｅ」）は、各段落について、以下のように算出できる。
ｄｅｓｉｒａｂｉｌｉｔｙ＿ｓｃｏｒｅ＝（ｍｏｓｔ＿ｃｏｍ＿ｖａｒ＿ｐａｒａ－ｍｏｓｔ＿ｃｏｍ＿ｖａｒ＿ＥＤ） ÷ （ｄｅｓｉｒｅｄ＿ｖａｒｉａｔｉｏｎ－ｍｏｓｔ＿ｃｏｍ＿ｖａｒ＿ＥＤ）

たとえば、文書のフォントサイズが１１、１４、１６である、上記と同じ条件で、フォントサイズ１６が望ましさのバリエーションとして選択されると仮定する。ＥＤ（１０６）の最も一般的なフォントサイズ（「ｍｏｓｔ＿ｃｏｍ＿ｖａｒ＿ＥＤ」）は１１で、段落Ｂの最も一般的なバリエーション（「ｍｏｓｔ＿ｃｏｍ＿ｖａｒ＿ｐａｒａ」）は１６のフォントサイズである。段落Ｂのフォント属性の望ましさスコアは（１６－１１）÷（１６－１１）＝１のように算出される。

本発明の１つ以上の実施形態では、テキストスタイル属性のスコア関数は、各段落について、以下のように算出できる。
ｓｃｏｒｉｎｇ＿ｆｕｎｃｔｉｏｎ＝ｕｎｉｑｕｅｎｅｓｓ＿ｓｃｏｒｅ

本発明の１つ以上の実施形態では、望ましさスコアがテキストスタイル属性について算出されるとき、テキストスタイル属性に関するスコア関数は、各段落について、以下のように算出されてもよい。
ｓｃｏｒｉｎｇ＿ｆｕｎｃｔｉｏｎ＝ｕｎｉｑｕｅｎｅｓｓ＿ｓｃｏｒｅ × ｄｅｓｉｒａｂｉｌｉｔｙ＿ｓｃｏｒｅ

本発明の１つ以上の実施形態では、タイトルエンジン（１１０）は、ＥＤ（１０６）の各段落についてレイアウト基準スコアを算出する。レイアウト基準スコアは、段落のレイアウトが、一般にタイトルに関連する１つまたは複数のレイアウト（すなわち、既知のタイトルレイアウト）にどれだけ近く一致するかを表す０から１の間の値でありうる。０は、タイトルレイアウトである可能性が低く、１は、タイトルレイアウトである可能性が非常に高い。レイアウト基準スコアは、各テキストレイアウト属性の最終レイアウトスコアの合計として算出できる。テキストレイアウト属性の最終レイアウトスコアは、テキストレイアウト属性のスコア関数（すなわち、レイアウトスコア関数）およびテキストレイアウト属性の相対重みスコアに基づいて算出される。１つ以上の実施形態では、上述のセンタリングスコアおよび空白スコアは、それぞれセンタリング属性およびホワイトスペース属性のレイアウトスコア関数である。

テキストスタイル属性およびテキストレイアウト属性のスコア関数を算出するための方法は、上述の例に限定されない。１つ以上の実施形態では、テキストスタイル属性およびテキストレイアウト属性の統計情報を考慮に入れる他の方法を使用して、テキストスタイル属性およびテキストレイアウト属性のスコア関数を算出できる。

本発明の１つ以上の実施形態では、タイトルエンジン（１１０）は、テキストコンテンツ情報に基づいて、ＥＤ（１０６）の各段落についてのテキストコンテンツスコアを算出する。テキストコンテンツスコアは、段落の文字数に基づいて段落がタイトルになる可能性を表す。タイトルは一般的に短い（すなわち、より少ない文字を含む）ことが知られており、より高いテキストコンテンツスコアは段落がより短く（すなわちより少ない文字を含む）、タイトルである可能性が高いことを示す。

本発明の１つ以上の実施形態では、段落のテキストコンテンツスコア（「ｔｅｘｔ＿ｓｃｏｒｅ」）は、次のように算出できる。
ｔｅｘｔ＿ｓｃｏｒｅ＝１－（ｐａｒ＿ｖｉｓｉｂｌｅ＿ｃｈａｒ＿ｃｏｕｎｔ ÷ ｌａｒｇｅｓｔ＿ｐａｒ＿ｖｉｓｉｂｌｅ＿ｃｈａｒ＿ｃｏｕｎｔ）

ｐａｒ＿ｖｉｓｉｂｌｅ＿ｃｈａｒ＿ｃｏｕｎｔは、ｔｅｘｔ＿ｓｃｏｒｅが算出されている段落の可視文字数（つまり、各単語間のスペースを含まない文字数）を表す。ｌａｒｇｅｓｔ＿ｐａｒ＿ｖｉｓｉｂｌｅ＿ｃｈａｒ＿ｃｏｕｎｔは、ＥＤ（１０６）内の最大段落の可視文字数を表す。たとえば、ｔｅｘｔ＿ｓｃｏｒｅが算出されている段落に可視文字数２４が含まれ、ＥＤ（１０６）の最大の段落に可視文字数１９１が含まれているとする。したがって、この段落のテキストコンテンツスコアは０．８７である。

段落のテキストコンテンツスコアを算出するための方法は、上述の例に限定されない。１つ以上の実施形態では、各段落の文字数スコアを考慮に入れる他の方法を使用して、各段落のテキストコンテンツスコアを算出できる。

本発明の１つ以上の実施形態では、タイトルエンジン（１１０）は、各段落のスタイル基準スコア、レイアウト基準スコア、およびテキストコンテンツスコアを使用して、各段落のタイトル信頼度スコアを算出する。１つ以上の実施形態では、タイトル信頼度スコアは０から１の間の定数とすることができ、１に近いタイトル信頼度スコアは段落がＥＤ（１０６）内のタイトルである可能性が高いことを示す。

本発明の１つ以上の実施形態では、段落のタイトル信頼度スコアは、次のように算出できる。
ｔｉｔｌｅ＿ｃｏｎｆｉｄｅｎｃｅ＿ｓｃｏｒｅ＝（ｓｔｙｌｉｎｇ＿ｃｒｉｔｅｒｉａ＿ｓｃｏｒｅ＋ｌａｙｏｕｔ＿ｃｒｉｔｅｒｉａ＿ｓｃｏｒｅ） × ｔｅｘｔ＿ｓｃｏｒｅ

たとえば、段落が０．４２７７のスタイル基準スコア、０．３５５２のレイアウト基準スコア、および０．８７のテキストコンテンツスコアを有すると仮定する。段落のタイトル信頼度スコアは０．６８である。これは、段落がＥＤ（１０６）のタイトルである可能性が高いことを示す。

段落のタイトル信頼度スコアを算出する方法は、上記の例に限定されない。１つ以上の実施形態では、テキストスタイル属性およびテキストレイアウト属性の統計情報、テキストコンテンツ情報、ならびに相対重みスコアを考慮に入れる他の方法を使用して、各段落のタイトル信頼度スコアを算出できる。

本発明の１つ以上の実施形態では、タイトルエンジン（１１０）は、各段落のタイトル信頼度スコアを含むＥＤ（１０６）のメタデータ（１１２）を生成し、そのメタデータ（１１２）をバッファー（１０４）に格納する。あるいは、１つ以上の実施形態では、タイトルエンジン（１１０）は、タイトル信頼度スコアをＥＤ（１０７）のマークアップ版に書き戻す。１つ以上の実施形態では、メタデータ（１１２）は、外部バッファーに格納され、ＥＤ（１０６）のタイトルを推定する必要があるときはいつでもタイトルエンジン（１１０）によって取り出されてもよい。

本発明の１つ以上の実施形態では、タイトルエンジン（１１０）は、検索語（たとえば、タイトルに現れるテキスト）を含むＥＤの集合内のタイトルを検索するというユーザーからの要求を受信する。タイトルエンジン（１１０）は、検索語を含む段落を特定するためにＥＤの集合を解析する。タイトルエンジン（１１０）は、段落を含む集合内の検索語を含むＥＤを取りだし、各段落のタイトル信頼度スコアを比較する。各段落のタイトル信頼度スコアを比較した後、タイトルエンジン（１１０）は、検索語を含む段落に対して、最大の、決定されたタイトル信頼度スコアを含むＥＤから始めて、最小の、決定されたタイトル信頼度スコアを含むＥＤまで、取り出されたＥＤを画面上に表示する。たとえば、ＥＤの集合に文書Ａと文書Ｂが含まれているとする。文書Ａには検索語句のある段落が含まれ、その段落のタイトル信頼度スコアは０．６８である。文書Ｂには検索語句のある段落が含まれており、その段落のタイトル信頼度スコアは０．０７である。タイトルエンジン（１１０）は、文書Ａと文書Ｂの両方を取り出し、文書Ｂの前に文書Ａを表示する。

システム（１００）は、３つの構成要素（１０４、１０８、１１０）を有するように示されているが、本発明の他の実施形態では、システム（１００）はより多い、またはより少ない構成要素を有することができる。さらに、上述の各構成要素の機能は、構成要素にわたって分割されてもよい。さらにまた、各構成要素（１０４、１０８、１１０）は、反復動作を実行するために複数回利用されてもよい。

図２は、本発明の１つ以上の実施形態によるフローチャートを示す。このフローチャートは、電子文書（ＥＤ）内のタイトルを推定するためのプロセスを示している。図２のステップのうちの１つまたは複数のステップは、図１を参照して上述したシステム（１００）の構成要素によって実行できる。本発明の１つ以上の実施形態では、図２に示される１つまたは複数のステップは、省略、繰り返し、または図２に示される順序とは異なる順序で実行されうる。したがって、本発明の範囲は、図２に示されるステップの特定の構成に限定されると考えるべきではない。

図２に示すように、まず、文字からなる１行以上のテキストを含むＥＤが取得される（ステップ２０５）。１行以上のテキストは、ＥＤの段落を構成する。ＥＤには画像やグラフィックも含まれる。ＥＤは、任意の供給源から入手（たとえば、ダウンロード、スキャンなど）できる。ＥＤはＥＤの集合の一部である可能性がある。さらに、ＥＤは、任意のサイズおよび任意のフォーマット（たとえば、ＰＤＦ、ＯＯＸＭＬ、ＯＤＦ、ＨＴＭＬなど）でありうる。

ステップ２１０において、図１を参照して上述したように、ＥＤは、テキストスタイル属性、テキストレイアウト属性、および文字のテキストコンテンツ情報を含むＥＤのマークアップ版を生成するために解析される。

ステップ２１５において、図１を参照して上述したように、一集合の所定の重みスコアが、テキストスタイル属性およびテキストレイアウト属性について取り出される。１つ以上の実施形態では、各テキストスタイル属性およびテキストレイアウト属性は、その集合内の所定の重みスコアに関連付けられている（すなわち、結び付けられている）。

ステップ２２０において、図１を参照して上述したように、テキストスタイル属性およびテキストレイアウト属性の統計情報は、マークアップ版のＥＤを使用して生成される。

ステップ２２５において、図１を参照して上述したように、相対重みスコアは、所定の重みスコアおよび生成された統計情報に基づいて各テキストスタイル属性およびテキストレイアウト属性に対して算出および／または設定される。

ステップ２３０において、図１を参照して上述したように、相対重みスコアおよび生成された統計情報を使用して、段落ごとにスタイル基準スコア、レイアウト基準スコア、およびテキストコンテンツスコアが算出される。

ステップ２３５において、図１を参照して上述したように、タイトル信頼度スコアは、各段落のスタイル基準スコア、レイアウト基準スコア、およびテキストコンテンツスコアを使用して、ＥＤ内の各段落について算出される。

ステップ２４０において、図１を参照して上述したように、ＥＤ内の各段落についてのタイトル信頼度スコアを格納するメタデータが生成され、ＥＤが格納されているのと同じバッファーに格納される。あるいは、バッファーは、ＥＤを含まない異なるバッファーでありうる。１つ以上の実施形態では、タイトル信頼度スコアはマークアップ版のＥＤに書き戻される。

図３Ａ～図３Ｋは、本発明の１つ以上の実施形態による実装例を示す図である。１つ以上の実施形態では、図１を参照して上述した例示的な算出方法が、図３Ａ～図３Ｋに示す実施例に適用される。しかしながら、異なる算出方法が適用されてもよいことは当業者には明らかであろう。

図３Ａは、文字からなる１行以上のテキストを含む電子文書（ＥＤ）（３０１）を示す。テキストの各行は段落（３０２）に分類されてもよい。図３Ｂでは、上から下に数えて１から６段落を含む合計６段落（３０２）（一部の段落は読みやすくするためにマークが付いていない）がある。各段落（３０２）は、単一行または複数行のテキストを含みうる。また、各段落（３０２）は、インデントを必要としない。

図３Ａでは、全ての段落（３０２）がＥＤコンテンツ境界ボックス（３０３）内に囲まれている。１つ以上の実施形態では、ＥＤコンテンツ境界ボックス（３０３）は、ＥＤ（３０１）の単一ページ内の全コンテンツの基礎構造を定義する。ＥＤコンテンツ境界ボックス（３０３）は、ページに対して設定された余白によって定義されてもよい。

図３Ａに見られるように、テキスト行境界ボックス（３０５）は、ＥＤコンテンツ境界ボックス（３０３）内のテキスト行の基本構造を定義する。ＥＤ（３０１）内のテキストの各行は、テキスト行境界ボックス（３０５）を含む。テキストの各行はまた、図１を参照して上述したように、先頭の空白（３０７）および末尾の空白（３０９）を含みうる。テキスト行境界ボックス（３０５）およびＥＤコンテンツ境界ボックス（３０３）を使用して、各テキスト行の先頭の空白（３０７）および末尾の空白（３０９）を算出する。

図３Ｂは、ＥＤ（３１５）のマークアップ版（「マークアップＥＤ」）の一部を示す。図３Ｂに見られるように、マークアップＥＤ（３１５）は、ＥＤ（３０１）の段落１（すなわち最上段落）の文字についてのスタイル情報（３２１）、レイアウト情報（３１７）、およびコンテンツ情報（３１９）を含む。図３Ｂでは、スタイル情報（３２１）は、テキスト（すなわちｓｔｙｌｅ＿ｉｄ）の様々な特徴または態様（すなわちスタイル）を定義する変数（すなわちｖ：１）として提示される。レイアウト情報（３１７）は、図３Ａに示されるテキスト境界ボックス（３０５）の行の寸法を含む。これは、ＥＤ（３０１）のテキストレイアウト属性を算出するために使用される。コンテンツ情報（３１９）は、スタイル情報（３２１）が適用されているテキスト行内のすべての文字を含む。

図３Ｃは、マークアップＥＤ（３１５）の一部を示す。図３Ｃに見られるように、スタイル情報（３２１）は、ＥＤ（３０１）内の文字のテキストスタイル属性（たとえば、フォント、フォントサイズ、フォントカラー、太字）を含む。

図３Ｄは、ＥＤ（３０１）内の文字のテキストスタイル属性およびテキストレイアウト属性に対する集合の所定の重みスコアを含む表を示す。表に示されていない他の属性もＥＤ（３０１）に見出すことができることは当業者には明らかであろう。図３Ｄに見られるように、一般に、タイトルに見られる属性（すなわちタイトル属性）に関連する属性には、より高い所定の重みスコアが与えられる。所定の重みスコアは、ユーザーによって設定および修正されてもよい。

図３Ｅは、図３Ｄに示す表にリストされたテキストスタイル属性についての統計情報を含む表を示す。図３Ｅに見られるように、テキストスタイル属性の各バリエーションおよび各バリエーションの頻度が提供されている。バリエーション情報は、テキストスタイル属性のバリエーションスコアを決定するために使用されてもよい。バリエーションの頻度は、そのバリエーションがあるＥＤ内の文字数を反映する。たとえば、ＥＤ（３０１）の文字数が合計７４５文字であるとする。図３Ｅに見られるように、ＥＤ（３０１）内の全ての文字は、同じＯＯＸＭＬ＿ＳＴＹＬＥ＿ＮＡＭＥ（すなわちスタイル名属性）、ＦＯＮＴ＿ＮＡＭＥ（すなわちフォント名属性）、およびＦＯＮＴ＿ＣＯＬＯＲ（すなわちフォントカラー属性）を有する。

図３Ｆは、図３Ａに示すＥＤコンテンツ境界ボックス（３０３）の寸法を含む表を示す。図３Ｆに見られるように、値は、ＥＤ（３０１）の最も左の境界および最も上の境界に基づいて算出される。

図３Ｇは、図３Ａに示したＥＤ（３０１）の段落１～３の縦方向および横方向の間隔情報を含む表である。図３Ｇに見られるように、垂直方向の間隔の前および後の値は、それぞれ段落の上下の空白の量を表す。水平方向の間隔の前および後の値は、それぞれ先頭と末尾の空白（３０７、３０９）を表す。図３Ｇに示す間隔情報は、テキスト行を段落にグループ化するために使用できる。

本発明の１つ以上の実施形態では、図３Ｇの表に示されている垂直方向および水平方向の間隔の値は、図３Ｂのレイアウト情報（３１７）と、図３ＦのＥＤコンテンツ境界ボックス（３０３）の寸法と、に基づいて算出できる。たとえば、段落番号１の場合、レイアウト情報（３１７）は、段落１がＥＤ（３０１）の左端の境界から２．６９インチで始まることを示す（つまり、段落１の最初の文字はＥＤの境界（３０１）の左端から２．６９インチで始まる）。この値は、ＥＤコンテンツ境界ボックス（３０３）の左境界の値（すなわち、０．９９インチ）によって減算されて、段落１に対して１．６９インチの先行空白値をもたらす。さらに、図３Ｂでは、段落１の幅は３．１１インチである。したがって、段落１の最後の文字は、ＥＤ（３０１）の左端の境界から５．８インチ（つまり、２．６９インチ＋３．１１インチ）である。図３Ｆに見られるように、ＥＤコンテンツ境界ボックス（３０３）の右境界は、ＥＤ（３０１）の最も左の境界から７．４５インチで終了する。したがって、段落１の末尾の空白値は、７．４５インチから５．８インチを引いた値として１．６５と算出できる。

図３Ｈは、図３Ａに示すＥＤ（３０１）における垂直方向の間隔の要約を含む表を示す。図３Ｈに示す情報は、図１を参照して説明したレイアウトスコア関数を算出するために、図３Ｈを使用できる。

図３Ｉは、図３Ａに示されるＥＤ（３０１）内の各テキストスタイル属性およびテキストレイアウト属性に対する相対重みスコアの集合を含む表を示す。図３Ｉに示すように、図１を参照して説明した、所定の重みスコアを調整する方法が適用される。具体的には、１つ以上の実施形態では、１の可変性を有するすべてのテキストスタイル属性の所定の重みスコアは、０の相対重みスコアに設定されうる。センタリング属性については、相対重みスコアは、所定の重みスコアを、ＥＤ（１０６）内の最良のセンタリングの段落（すなわち、ＥＤ（１０６）内の最も中央に配置された段落）を反映したセンタリングスコアでスケーリングすることによって算出できる。また、空白属性については、すべての文書に空白が含まれるため、相対重みスコアを所定の重みスコアと同じに設定する。

図３Ｉに見られるように、上記の調整方法に基づいて、一部のテキストスタイル属性の相対重みスコアが０になり、相対重みスコアの合計が１にならなくなる。相対重みスコアは、相対重みスコアの合計が１になるようにスケーリングされる。相対重みスコアは、図３Ｉの表の最も右の列に示されている。

図３Ｊは、段落１から３のセンタリングスコアを含む表を示す。図３Ｊに示されている情報は、図１を参照して説明したように、レイアウトスコア関数と、テキストレイアウト属性の相対重みスコアとを算出するために使用できる。たとえば、段落１のセンタリングスコアがＥＤ（１０６）の最大センタリングスコアであると仮定する（すなわち、段落１はＥＤ（３０１）の最も中央に配置された段落（５０２）である）。段落１のセンタリングスコアは、センタリング属性の相対重みスコアを算出するために使用される。図３Ｉに見られるように、センタリング属性の所定の重みスコアで除算されたセンタリング属性の相対重みスコアは、０．９９（すなわち、最大センタリングスコア）である。同様に、１つ以上の実施形態では、各段落のセンタリングスコアは、センタリング属性の最終レイアウトスコアを算出するためのレイアウトスコア関数として設定できる。段落に複数のセンタリングスコアが含まれている場合は、段落の最小センタリングスコアがレイアウトスコア関数に設定される。

図３Ｋは、図３Ａに示されるＥＤ（３０１）の段落１および段落２のタイトル信頼度スコアを含む表を示す。図３Ｋはさらに、タイトル信頼度スコアを算出するのに必要な各段落について１つまたは複数の値（たとえば、スタイルおよびレイアウトスコア関数、スケーリングされた相対重みスコア、最終的なスタイルおよびレイアウトスコア、ならびにテキストコンテンツスコア）を含む。図３Ｋに見られるように、段落１のタイトル信頼度スコアは０．６８である。これは１に近く、段落１がタイトルである可能性が高いことを示している。これに対して、段落２のタイトル信頼度スコアは０．０７である。これは０に近く、段落２がタイトルではない可能性が高いことを示している。図３Ａに戻る。図３Ａを一見すると、段落１（すなわち、「ＷｈｙＤｏｇｓａｒｅＢｅｔｔｅｒｔｈａｎＣａｔｓ」）がＥＤ（３０１）の可能性のあるタイトルであるように見え、段落２が通常の文であるように見えることを示している。

本発明の実施形態は、使用されているプラットフォームにかかわらず、事実上あらゆるタイプの計算システム上で実施できる。たとえば、計算システムは、１つまたは複数のモバイルデバイス（たとえば、ラップトップコンピューター、スマートフォン、パーソナルデジタルアシスタント、タブレットコンピューター、または他のモバイルデバイス）、デスクトップコンピューター、サーバー、サーバシャーシ内のブレード、あるいは任意の他のタイプまたは本発明の１つまたは複数の実施形態を実行するために、少なくとも最小処理能力、メモリー、および入力および出力装置を含む１つまたは複数の計算装置からなる。たとえば、図４に示すように、計算システム（４００）は、１つまたは複数のコンピュータープロセッサー（４０２）、関連メモリー（４０４）（たとえば、ランダムアクセスメモリー（ＲＡＭ）、キャッシュメモリー、フラッシュメモリーなど）、１つまたは複数の記憶装置（４０６）（たとえば、ハードディスク、コンパクトディスク（ＣＤ）ドライブまたはデジタル多用途ディスク（ＤＶＤ）ドライブなどの光学ドライブ、フラッシュメモリースティックなど）、および他の多数の要素および機能を含む。コンピュータープロセッサー（４０２）は、命令を処理するための集積回路でありうる。

たとえば、コンピュータープロセッサーは、１つ以上のコア、またはプロセッサーのマイクロコアでありうる。計算システム（４００）はまた、タッチスクリーン、キーボード、マウス、マイクロフォン、タッチパッド、電子ペン、または任意の他の種類の入力装置などの１つ以上の入力装置（４１０）を含みうる。さらに、計算システム（４００）は、スクリーン（たとえば、液晶ディスプレイ（ＬＣＤ）、プラズマディスプレイ、タッチスクリーン、陰極線管（ＣＲＴ）モニターなどの１つ以上の出力装置（４０８）、プロジェクター、または他の表示装置、プリンター、外部記憶装置、または他の任意の出力装置）を含むことができる。１つ以上の出力装置は入力装置と同じでも異なっていてもよい。計算システム（４００）は、ネットワーク（４１２）（たとえば、ローカルエリアネットワーク（ＬＡＮ）、インターネットなどのワイドエリアネットワーク（ＷＡＮ）、モバイルネットワーク、または任意の他の種類のネットワーク）にネットワークインタフェース接続（図示せず）を介して接続できる。入力および出力装置は、コンピュータープロセッサー（４０２）、メモリー（４０４）、および記憶装置（４０６）にローカルまたはリモートで（たとえばネットワーク（４１２）を介して）接続されてもよい。多くの異なる種類の計算システムが存在し、前述の入力および出力装置は他の形態を取りうる。

本発明の実施形態を実行するためのコンピューター読取可能なプログラムコードの形態のソフトウェア命令は、全体的にまたは部分的に、ＣＤ、ＤＶＤ、記憶装置、ディスク、テープ、フラッシュメモリー、物理メモリー、またはその他のコンピューター読取可能な記憶媒体などのコンピューター読取可能な記録媒体に一時的または恒久的に格納できる。具体的には、ソフトウェア命令は、プロセッサーによって実行されたときに本発明の実施形態を実行するように構成されたコンピューター読取可能なプログラムコードに対応しうる。

さらに、前述の計算システム（４００）の１つまたは複数の要素を遠隔地に配置し、ネットワーク（４１２）を介して他の要素に接続できる。さらに、本発明の１つ以上の実施形態は、複数のノードを有する分散システム上で実施することができ、本発明の各部分は分散システム内の異なるノード上に配置できる。本発明の一実施形態では、ノードは別個の計算装置に対応する。あるいは、ノードは関連する物理メモリーを有するコンピュータープロセッサーに対応しうる。あるいは、ノードは、共有メモリーおよび／またはリソースを有するコンピュータープロセッサーまたはコンピュータープロセッサーのマイクロコアに対応しうる。

本発明を限られた数の実施形態に関して説明してきたが、本開示の恩恵を受ける当業者であれば、ここに開示された本発明の範囲から逸脱しない他の実施形態を考案できることを理解するであろう。したがって、本発明の範囲は添付の特許請求の範囲によってのみ限定されるべきである。

Claims

電子文書内のタイトルを推定するために前記電子文書をコンピューターによって処理する方法であって、
前記電子文書は複数の文字を含み、
前記電子文書内の文字の複数のテキストスタイル属性、複数のテキストレイアウト属性、およびテキストコンテンツ情報を含む、前記電子文書のマークアップ版を生成するステップと、ここで、前記複数の文字は、前記複数のテキストレイアウト属性に基づいて少なくとも第１段落と第２段落にグループ化され、前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられ、
前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性の統計情報を生成するステップと、
前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性のそれぞれについて、前記所定の重みスコアおよび前記統計情報に基づいて相対重みスコアを算出するステップと
前記第１段落と前記第２段落のそれぞれについて、前記統計情報および前記相対重みスコアに基づくスタイル基準スコアおよびレイアウト基準スコアと、前記テキストコンテンツ情報に基づくテキストコンテンツスコアと、前記スタイル基準スコア、前記レイアウト基準スコア、および前記テキストコンテンツスコアに基づくタイトル信頼度スコアとを算出するステップと、
前記電子文書について、前記第１段落および前記第２段落のそれぞれについてのタイトル信頼度スコアを含むメタデータを、前記電子文書内のタイトルを推定する際に使用するために生成するステップと、を有する、方法。
前記複数のテキストスタイル属性は、ＯＯＸＭＬスタイル名属性、フォントサイズ属性、太字属性、下線属性、フォント名属性、フォントカラー属性、および見出しタグ属性を含むグループから選択され、
前記複数のテキストレイアウト属性は、センタリング属性および空白属性を含むグループから選択され、
前記テキストコンテンツ情報は、前記電子文書内の前記複数の文字の文字数を含む、請求項１に記載の方法。
前記所定の重みスコアの合計は１である、請求項２に記載の方法。
前記複数のテキストレイアウト属性のそれぞれについて前記相対重みスコアを算出することは、
前記複数のテキストレイアウト属性のうちの所定のテキストレイアウト属性に対する前記相対重みスコアとして前記所定の重みスコアを設定するステップと、
残りの前記複数のテキストレイアウト属性のそれぞれについて、
前記統計情報に基づいて複数のレイアウトスコア関数を算出するステップと、
前記所定の重みスコアと前記レイアウトスコア関数の最大レイアウトスコア関数とに基づいて前記相対重みスコアを算出するステップと、を有する、請求項１～３のいずれか１項に記載の方法。
前記複数のテキストスタイル属性のそれぞれについて前記相対重みスコアを算出することは、
前記複数のテキストスタイル属性のそれぞれついて、前記統計情報に基づいて可変性を決定するステップと、
前記複数のテキストスタイル属性の、テキストスタイル属性の可変性が１であると決定したことに応じて、前記テキストスタイル属性の相対重みスコアをゼロに設定するステップと、
前記テキストスタイル属性の可変性が１よりも大きいと判断したことに応じて、前記所定の重みスコアに基づいて前記テキストスタイル属性の前記相対重みスコアを算出する、請求項４に記載の方法。
前記相対重みスコアの合計が１に等しくないことに応じて、前記相対重みスコアが合計１になるようにスケーリングされる、請求項５に記載の方法。
前記第１段落について前記スタイル基準スコアを計算することは、前記複数のテキストスタイル属性のそれぞれについて、固有性スコアおよび前記相対重みスコアに基づいて最終スタイルスコアを計算するステップ、を有し、
前記スタイル基準スコアは、複数のテキストスタイル属性のそれぞれについての最終スタイルスコアの合計である、請求項１～６のいずれか１項に記載の方法。
前記複数のテキストスタイル属性のうち、テキストスタイル属性の前記固有性スコアは、前記テキストスタイル属性の配分率およびまばら性スコアに基づき、
前記配分率は、前記第１段落の前記テキストスタイル属性が変化した文字数と前記第１段落の合計文字数の比率であり、
前記まばら性スコアは、前記テキストスタイル属性のバリエーションのある前記第１段落の文字数と前記電子文書の文字数の合計と補足比（ｃｏｍｐｌｅｍｅｎｔｒａｔｉｏ）である、請求項７に記載の方法。
前記第１段落の前記レイアウト基準スコアを算出することは、前記複数のテキストレイアウト属性のそれぞれについて、前記統計情報に基づく複数のレイアウトスコア関数と、前記相対重みスコアおよび前記レイアウトスコア関数に基づく最終レイアウトスコアと、算出するステップを、有し、
前記レイアウト基準スコアは、前記複数のテキストレイアウト属性のそれぞれに対する前記最終レイアウトスコアの合計である、請求項１～８のいずれか１項に記載の方法。
前記電子文書は、第２電子文書を含む電子文書の集合内の第１電子文書であり、前記第２電子文書は、第３段落および第４段落と、第３段落および第４段落のタイトル信頼度スコアを含むメタデータと、を含み、
前記第１段落および前記第３段落は、前記電子文書の集合内のタイトルを推定する要求において指定された所定の検索語を含み、
前記第１段落のタイトル信頼度スコアが前記第３段落のタイトル信頼度スコアよりも大きいことに応じて、前記第１電子文書は、前記第２電子文書の前にディスプレイに表示される、請求項１～９のいずれか１項に記載の方法。
電子文書を処理し、前記電子文書内に埋め込まれたタイトルを推定するためのコンピュータープログラムであって、
前記電子文書は複数の文字を含み、
前記電子文書内の複数のテキストスタイル属性、複数のテキストレイアウト属性、および文字のテキストコンテンツ情報を含む、前記電子文書のマークアップ版を生成することと、ここで、前記複数の文字は、前記複数のテキストレイアウト属性に基づいて少なくとも第１段落と第２段落とにグループ化され、前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられ、
前記複数のテキストスタイル属性と前記複数のテキストレイアウト属性の統計情報を生成することと、
前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性のそれぞれについて、前記所定の重みスコアおよび前記統計情報に基づいて相対重みスコアを算出することと、
前記第１段落と前記第２段落のそれぞれについて、
前記統計情報および前記相対重みスコアに基づくスタイル基準スコアおよびレイアウト基準スコアと、前記テキストコンテンツ情報に基づくテキストコンテンツスコアと、前記スタイル基準スコア、前記レイアウト基準スコア、および前記テキストコンテンツスコアに基づくタイトル信頼度スコアと、を算出することと、
前記電子文書について、前記第１段落および前記第２段落のそれぞれについてのタイトル信頼度スコアを含むメタデータを、前記電子文書内のタイトルを推定する際に使用するために生成することと、をコンピューターに実行させるためのコンピュータープログラム。
前記複数のテキストスタイル属性は、ＯＯＸＭＬスタイル名属性、フォントサイズ属性、太字属性、下線属性、フォント名属性、フォントカラー属性、および見出しタグ属性を含む群から選択され、
前記複数のテキストレイアウト属性は、センタリング属性および空白属性を含む群から選択され、
前記テキストコンテンツ情報は、前記電子文書内の前記複数の文字の文字数を含む、請求項１１に記載のコンピュータープログラム。
前記複数のテキストレイアウト属性のそれぞれについて前記相対重みスコアを算出することは、
前記複数のテキストレイアウト属性のうち、所定のテキストレイアウト属性に対する前記相対重みスコアとして前記所定の重みスコアを設定することと、
残りの前記複数のテキストレイアウト属性のそれぞれについて、前記統計情報に基づいて複数のレイアウトスコア関数を算出すること、
前記所定の重みスコアと前記レイアウトスコア関数の最大レイアウトスコア関数とに基づいて前記相対重みスコアを算出することと、を含む、請求項１１または１２に記載のコンピュータープログラム。
前記複数のテキストスタイル属性のそれぞれについて前記相対重みスコアを算出することは、
前記複数のテキストスタイル属性のそれぞれについて、前記統計情報に基づいて可変性を決定することと、
前記複数のテキストスタイル属性の、テキストスタイル属性の可変性が１であると決定したことに応じて、前記テキストスタイル属性の前記相対重みスコアをゼロに設定することと、
前記テキストスタイル属性の可変性が１より大きいと判断したことに応じて、前記所定の重みスコアに基づいて前記テキストスタイル属性の前記相対重みスコアを算出することと、を含む、請求項１３に記載のコンピュータープログラム。
前記電子文書は、第２電子文書を含む電子文書の集合内の第１電子文書であり、前記第２電子文書は、第３段落および第４段落と、第３段落および第４段落のタイトル信頼度スコアを含むメタデータと、を含み、
前記第１段落および前記第３段落は、前記電子文書の集合内のタイトルを推定する要求において指定された所定の検索語を含み、
前記第１段落のタイトル信頼度スコアが前記第３段落のタイトル信頼度スコアよりも大きいことに応じて、前記第１電子文書は、前記第２電子文書の前にディスプレイに表示される、請求項１１～１４のいずれか１項に記載のコンピュータープログラム。
電子文書内のタイトルを推定するために電子文書を処理するためのシステムであって、
前記電子文書は、複数の文字を含み、
前記システムは、メモリーと、
前記メモリーに接続されるコンピュータープロセッサーと、を含み、
前記コンピュータープロセッサーは、
前記電子文書内の文字の複数のテキストスタイル属性、複数のテキストレイアウト属性、およびテキストコンテンツ情報を含むマークアップ版の電子文書を生成し、
前記複数の文字は、前記複数のテキストレイアウト属性に基づいて少なくとも第１段落と第２段落にグループ化され、前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられ、
前記複数のテキストスタイル属性と前記複数のテキストレイアウト属性の統計情報を生成し、
前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性のそれぞれについて、前記所定の重みスコアおよび前記統計情報に基づいて相対重みスコアを算出し、
前記第１段落と前記第２段落のそれぞれについて、前記統計情報および前記相対重みスコアに基づくスタイル基準スコアおよびレイアウト基準スコアと、前記テキストコンテンツ情報に基づくテキストコンテンツスコアと、前記スタイル基準スコア、前記レイアウト基準スコア、および前記テキストコンテンツスコアに基づくタイトル信頼度スコアと、を算出し、
前記電子文書について、前記第１段落および前記第２段落のそれぞれについての前記タイトル信頼度スコアを含むメタデータを、前記電子文書内のタイトルを推定する際に使用するために生成する、システム。
前記複数のテキストスタイル属性は、ＯＯＸＭＬスタイル名属性、フォントサイズ属性、太字属性、下線属性、フォント名属性、フォントカラー属性、および見出しタグ属性を含む群から選択され、
前記複数のテキストレイアウト属性は、センタリング属性および空白属性を含む群から選択され、
前記テキストコンテンツ情報は、前記電子文書内の複数の文字の文字数を含む、請求項１６に記載のシステム。
前記複数のテキストレイアウト属性のそれぞれについて前記相対重みスコアを算出することは、
前記複数のテキストレイアウト属性のうち、所定のテキストレイアウト属性に対する相対重みスコアとして前記所定の重みスコアを設定することと、
残りの前記複数のテキストレイアウト属性のそれぞれについて、前記統計情報に基づいて複数のレイアウトスコア関数を算出すること、
前記所定の重みスコアと前記レイアウトスコア関数の最大レイアウトスコア関数とに基づいて相対重みスコアを算出することと、を含む、請求項１６または１７に記載のシステム。
前記複数のテキストスタイル属性のそれぞれについて前記相対重みスコアを算出することは、
前記複数のテキストスタイル属性について、前記統計情報に基づいて可変性を決定し、
前記複数のテキストスタイル属性の、テキストスタイル属性の可変性が１であると決定したことに応じて、前記テキストスタイル属性の前記相対重みスコアをゼロに設定し、
前記テキストスタイル属性の可変性が１より大きいと判断したことに応じて、前記所定の重みスコアに基づいて前記テキストスタイル属性の前記相対重みスコアを算出すること、を含む、請求項１６～１８のいずれか１項に記載のシステム。
前記電子文書は、第２電子文書を含む電子文書の集合内の第１電子文書であり、前記第２電子文書は、第３段落および第４段落と、第３段落および第４段落のタイトル信頼度スコアを含むメタデータと、を含み、
前記第１段落および前記第３段落は、前記電子文書の集合内のタイトルを推定する要求において指定された所定の検索語を含み、
前記第１段落のタイトル信頼度スコアが前記第３段落のタイトル信頼度スコアよりも大きいことに応じて、前記第１電子文書は、前記第２電子文書の前にディスプレイに表示される、請求項１６～１９のいずれか１項に記載のシステム。
請求項１１～１５のいずれか１項に記載のコンピュータープログラムを格納したコンピューター読取可能な記録媒体。