JP5446877B2 - 目次構造特定装置 - Google Patents

目次構造特定装置 Download PDF

Info

Publication number
JP5446877B2
JP5446877B2 JP2009548918A JP2009548918A JP5446877B2 JP 5446877 B2 JP5446877 B2 JP 5446877B2 JP 2009548918 A JP2009548918 A JP 2009548918A JP 2009548918 A JP2009548918 A JP 2009548918A JP 5446877 B2 JP5446877 B2 JP 5446877B2
Authority
JP
Japan
Prior art keywords
slide
contents
slides
text box
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009548918A
Other languages
English (en)
Other versions
JPWO2009087999A1 (ja
Inventor
康高 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009548918A priority Critical patent/JP5446877B2/ja
Publication of JPWO2009087999A1 publication Critical patent/JPWO2009087999A1/ja
Application granted granted Critical
Publication of JP5446877B2 publication Critical patent/JP5446877B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、プレゼンテーション文書の目次構造を特定する目次構造特定装置、目次構造特定方法、およびその記録媒体に関する。
近年、プレゼンテーション文書が、電子文書として増加してきている。プレゼンテーション文書は、いわば電子的な紙芝居であり、複数のスライドに読者や聴衆に伝えたい情報をまとめた文書である。各スライドには、そのスライドのタイトル、伝えたい情報に関する説明文、イラスト、図表などが、記載されている。プレゼンテーション文書を作成するソフトとして、例えば、Microsoft Powerpoint(登録商標)が、代表的である。プレゼンテーション文書は、必要な情報がコンパクトにまとめられた集積物であり、資料としての価値が高い。また、1つのトピックが、1枚もしくは複数のスライドにより説明されるため、文書が各トピックごとにモジュール化されていることが多い。そのため、その文書と類似する内容の文書が作成される際に、プレゼンテーション文書は再利用しやすいという特徴がある。
プレゼンテーション文書は、論理的かつ分かりやすく内容を伝えるために、階層構造を有するものが多い。例えば、1つのスライドで概要が説明され、その後のスライドで詳しい内容が説明される形式は、よく用いられる。このとき、概要を説明するためのスライドを第1章とするならば、後の詳細な内容を説明するためのスライドは、1.1章、1.2章・・・に相当する。ここで、章とは、ある内容に関するスライドの集合と定義する。章は、その中にさらに章を有するという入れ子構造をとることができる。このスライド間に生じる入れ子構造は、関係構造と呼ばれる。これは、全体として1つの内容を説明し、その中で細かいトピックに分かれている場合に相当する。このとき、章のモジュール化及び階層化されたプレゼンテーション文書の構造は、目次構造と呼ばれる。目次構造は、一般的な文書における目次に相当する。
目次は、文書のもっとも単純化された要約である。目次を閲覧することで、話の流れや重視されている内容を把握することができる。また、目次により、章の区切れ目が明らかになるため、文書を細かい単位で管理及び活用することができる。例えば、文書に対してその章ごとに索引が付けられることにより、その文書が非常に長くても、検索者が必要とする内容が記載されている箇所をその文書の中から容易に検索することができる。また、機器障害などにより、その機器内に保存されているデータの一部が破損した場合であっても、全ての文書が利用できなくなることを回避できる。もちろん、プレゼンテーション文書も、目次構造を特定することで、上記と同様のメリットを得る事ができる。
しかし、目次が明記されていないプレゼンテーション文書が多い。人が目次構造を判別し、登録することは、莫大な労力を要するため、現実的ではない。そのため、プレゼンテーション文書から目次構造を自動で特定できる技術が望まれている。
関連する技術において、プレゼンテーション文書でのみ使用される情報を利用して、目次構造を特定する技術は見当たらない。しかし、文書中に明記されている目次を抽出する技術や、目次の生成を支援する技術は、存在している。代表的な関連する技術を以下に示す。
Microsoft Word(登録商標)は、文書の作成者により指定された任意の行の文字列を用いて、目次を自動的に生成する機能を有する。作成者が、逐次目次構造を明示化しておくことは望ましい。しかし、既に蓄積されているプレゼンテーション文書に対して、そのような処理の実施をすることは困難である。
目次構造を特定する技術の一例が、特許文献1に記載されている。特許文献1に記載された「画像処理装置、画像読み取り装置およびプログラム」は、複数のページから構成される文書の画像データのうち、目次が記載されたページに対応する画像データを特定する。そして、その画像データから、目次の各見出しに対応するページ番号とそのページの見出しとを関連付ける。
他の目次構造を特定する技術の一例が、特許文献2に記載されている。特許文献2に記載された「検索対象となる電子文書の解析方法及び電子文書登録システム」は、抽出された目次の各見出しに対応する部分を本文から特定する。これにより、本文を分割し、分割された本文データを検索単位として登録することができる。
他の目次構造を特定する技術の一例が特許文献3に記載されている。特許文献3に記載された「スライド構造化装置」は、スライド内の文字列から「第1章」、「単元2」、「(3)」など、章番号であるキーワードを抽出し、目次構造を特定する。
特許文献4には、構造化された文書を章節の検索が容易な態様で印刷を行い、また、他の印刷ジョブの印刷物が紛れ込まないようにする技術が記載されている。特許文献4の技術は、HTML文書ファイルを解析して抽象ツリー構造を生成し、各描画オブジェクトの印刷位置を決定する。
特開2006−4050号公報 特開2000−330979号公報 特開2006−134036号公報 特開2003−85159号公報
関連する技術では、目次構造を特定するために、目次が書かれているページが存在するか、もしくは、明示的に章番号等が文書中に記載されている必要がある。また、ある特徴を持つスライドは第何階層であるというような、固定的な目次構造の特定しか行えない。さらには、複数の情報源を統合して、目次構造を特定することができない。
特許文献1および特許文献2に記載の方法は、目次構造の特定に目次のページを利用しているため、目次ページがないプレゼンテーション文書には適用できない。また、特許文献1においては、画像処理やOCRなど様々な分析技術を統合する必要があるため、各分析技術に対し、高い精度が求められる。特許文献2では、ルールによって階層の深さ(レベル)を決めている。このルールとレベルの対応が1対1であるため、「1章」に相当する項目がレベル1と決められている場合は、いずれの文書においても「1章」はレベル1と判定される。しかしながら、章の立て方は資料の作成者によって異なるため、ある人は「1章」をレベル1として用い、別のある人は「1章」をレベル2として用いることもある。すなわち、目次構造は、文書の全体的書式の中で相対的に決まるものであり、固定的なルールを用いる方法では対応できない文書が生じる。
特許文献3に記載の方法では、スライド中の文字列から章番号等を抽出し目次構造の特定を行っているため、目次のページが存在する必要はない。しかしながら、プレゼンテーション文書は、口頭による説明と共に利用されることが多い。そのため、作成されたスライドが、そのスライドを見ている人にとって話題の切り替わりが分かるものであればよく、必ずしもスライドに章番号等が明示的に記載されているとは限らない。特許文献4の技術は、もともと構造化されたHTML文書を対象としている。
また、特許文献1から4のいずれの方法においても、目次ページ、タイトルの章番号、特徴的な文字列など、ある一つの情報に基づいて、目次構造が特定されている。複数の情報が取得される場合には、単一の情報が取得される場合よりも詳細な目次構造が特定されることが期待される。そのため、複数の情報を積極的に活用すべきである。しかしながら、ある情報に基づいて、スライドAの内容はスライドBの内容に従属すると判定されるが、他の情報に基づくと従属しないと判定される場合がある。このように、複数の情報を利用する場合には、目次構造が互いに競合することもあるため、複数の情報を扱う目次構造の特定は容易ではない。それにも関わらず、特許文献1から4の方法では、目次構造を特定するための複数の情報が取得される場合についての処理が、何ら考慮されていない。
本発明では、目次が記載されているページや章番号等が明記されている目次情報のみに依存することなく、プレゼンテーション文書における書式や文字列など複数の情報に基づいて、文書に見合った目次構造を特定することを目的とする。
本発明の第1の観点に係る目次構造特定装置は、テキストボックス、表形式、ベクター図形または画像であるオブジェクトを含む複数のスライドから構成されるプレゼンテーション文書の、前記スライド間の関係構造を抽出する目次構造特定装置であって、前記スライド毎に、前記スライドに含まれるオブジェクトと、該オブジェクトの書式と、を表す構成情報を記憶する構成情報記憶手段と、(a)前記複数のスライドから、前記構成情報が表すオブジェクト及び属性が所定の第1条件を満たす第1スライドを特定し、(b)特定された第1スライド毎に、該第1のスライドから、次の特定された第1のスライドまで、または最後のスライドまで、の連続するスライドで構成される部分集合を特定し、(c)特定された部分集合毎に、前記構成情報が表すオブジェクト及び属性が所定の第2条件を満たす第2スライドと、前記構成情報が表すオブジェクト及び属性が所定の第3条件を満たす第3スライドと、を特定し、(d)前記第1スライドが、該第1スライドが属する部分集合を構成するスライドのうち、該第1スライド以外のスライドと、同じ階層または上位の階層に位置し、前記第2スライドが、前記第3スライドの上位の階層に位置するとして、前記部分集合のスライド間の相対的な関係構造を抽出する部分構造抽出手段と、前記部分集合の前記第1スライドの前記プレゼンテーション文書内の階層を、最上層又は最上層の直下の層として特定し、特定された前記第1スライドの前記プレゼンテーション文書内の階層と、前記部分構造抽出手段により抽出された、前記部分集合のスライド間の相対的な関係構造によって決まる階層と、を統合して、前記プレゼンテーション文書を構成する各スライドの階層を決定する統合手段と、を備えることを特徴とする。
本発明の第2の観点に係る目次構造特定方法は、テキストボックス、表形式、ベクター図形または画像であるオブジェクトを含む複数のスライドから構成されるプレゼンテーション文書の、前記スライド間の関係構造を抽出する目次構造特定装置が実行する目次構造特定方法であって、前記目次構造特定装置は、前記スライド毎に、前記スライドに含まれるオブジェクトと、該オブジェクトの書式と、を表す構成情報を記憶する構成情報記憶手段と、部分構造抽出手段と、統合手段と、を備え、前記部分構造抽出手段が、(a)前記複数のスライドから、前記構成情報が表すオブジェクト及び属性が所定の第1条件を満たす第1スライドを特定し、(b)特定された第1スライド毎に、該第1のスライドから、次の特定された第1のスライドまで、または最後のスライドまで、の連続するスライドで構成される部分集合を特定し、(c)特定された部分集合毎に、前記構成情報が表すオブジェクト及び属性が所定の第2条件を満たす第2スライドと、前記構成情報が表すオブジェクト及び属性が所定の第3条件を満たす第3スライドと、を特定し、(d)前記第1スライドが、該第1スライドが属する部分集合を構成するスライドのうち、該第1スライド以外のスライドと、同じ階層または上位の階層に位置し、前記第2スライドが、前記第3スライドの上位の階層に位置するとして、前記部分集合のスライド間の相対的な関係構造を抽出する部分構造抽出ステップと、前記統合手段が、前記部分集合の前記第1スライドの前記プレゼンテーション文書内の階層を、最上層又は最上層の直下の層として特定し、特定された前記第1スライドの前記プレゼンテーション文書内の階層と、前記部分構造抽出ステップにおいて抽出された、前記部分集合のスライド間の相対的な関係構造によって決まる階層と、を統合して、前記プレゼンテーション文書を構成する各スライドの階層を決定する統合ステップと、を備えることを特徴とする。
本発明の第3の観点に係るプログラムは、テキストボックス、表形式、ベクター図形または画像であるオブジェクトを含む複数のスライドから構成されるプレゼンテーション文書の、前記スライド間の関係構造を抽出するために、コンピュータを、前記スライド毎に、前記スライドに含まれるオブジェクトと、該オブジェクトの書式と、を表す構成情報を記憶する構成情報記憶手段、(a)前記複数のスライドから、前記構成情報が表すオブジェクト及び属性が所定の第1条件を満たす第1スライドを特定し、(b)特定された第1スライド毎に、該第1のスライドから、次の特定された第1のスライドまで、または最後のスライドまで、の連続するスライドで構成される部分集合を特定し、(c)特定された部分集合毎に、前記構成情報が表すオブジェクト及び属性が所定の第2条件を満たす第2スライドと、前記構成情報が表すオブジェクト及び属性が所定の第3条件を満たす第3スライドと、を特定し、(d)前記第1スライドが、該第1スライドが属する部分集合を構成するスライドのうち、該第1スライド以外のスライドと、同じ階層または上位の階層に位置し、前記第2スライドが、前記第3スライドの上位の階層に位置するとして、前記部分集合のスライド間の相対的な関係構造を抽出する部分構造抽出手段、前記部分集合の前記第1スライドの前記プレゼンテーション文書内の階層を、最上層又は最上層の直下の層として特定し、特定された前記第1スライドの前記プレゼンテーション文書内の階層と、前記部分構造抽出手段により抽出された、前記部分集合のスライド間の相対的な関係構造によって決まる階層と、を統合して、前記プレゼンテーション文書を構成する各スライドの階層を決定する統合手段、として機能させることを特徴とする。
本発明の目次構造特定装置によれば、プレゼンテーション文書における書式や文字列など複数の情報に基づいて、明記された目次情報がない場合においても、文書に見合った目次構造を特定することができる。
本発明の実施の形態1に係る目次構造特定装置の構成例を示すブロック図である。 目次構造を特定するための動作の一例を示すフローチャートである。 構成情報の抽出例を模式的に示す概念図である。 スライド内のタイトルの表記方法の一例を模式的に示す概念図である。 表紙スライドの一例を模式的に示す概念図である。 表紙抽出手段により得られる目次構造特定表の一例を示す説明図である。 目次スライドから目次相当情報を抽出する一例を模式的に示す概念図である。 複数の目次スライドが挿入されているプレゼンテーション文書から目次に相当する情報を抽出する一例を模式的に示す概念図である。 複数の目次スライドが挿入されており、各目次スライドで強調される章名が異なるプレゼンテーション文書から、目次に相当する情報を抽出する一例を模式的に示す概念図である。 タイトル内の章番号等から、目次に相当する情報を抽出する一例を模式的に示す概念図である。 タイトル内の章番号等から、目次に相当する情報の目次列および区切り列の値を求める一例を模式的に示す概念図である。 目次に相当する情報がない場合の目次構造特定表の一例を示す図である。 目次に相当する情報がないプレゼンテーション文書の一例を模式的に示す概念図である。 ヘッドラインスライドの一例を模式的に示す概念図である。 セグメント抽出手段により得られる並列パターンのセグメントの一例を示す説明図である。 セグメント抽出手段により得られる階層パターンのセグメントの一例を示す説明図である。 複数のヘッドラインスライドがあるプレゼンテーション文書の一例を模式的に示す概念図である。 部分目次の一例を模式的に示す概念図である。 部分階層抽出手段により得られる目次構造特定表の一例を示す説明図である。 部分階層抽出手段により得られる目次構造特定表の別の例を示す説明図である。 目次構造の特定過程の一例を示す説明図である。 目次構造の特定過程の他の例を示す説明図である。 目次構造を階層化した表示様態の一例を示す説明図である。 目次構造を階層化した表示様態の別の一例を示す説明図である。 目次構造を索引とした表示様態の一例を示す説明図である。 本発明の実施の形態2に係る目次構造特定装置の構成例を示すブロック図である。 連続スライドの一例を模式的に示す概念図である。 連続スライド抽出手段により得られる目次構造特定表の一例を示す説明図である。 実施の形態2による目次構造の特定過程の一例を示す説明図である。 実施の形態2による目次構造の特定過程の別の一例を示す説明図である。 実施の形態2において目次構造を階層化した表示様態の一例を示す説明図である。 実施の形態2において目次構造を階層化した表示様態の別の一例を示す説明図である。 実施の形態2における目次構造を索引とした表示様態の一例を示す説明図である。 本発明の実施の形態に係る目次構造特定装置のハードウェアの構成の一例を示すブロック図である。
10 目次構造特定装置
101 構成情報抽出部
102 表紙抽出部
103 目次相当情報抽出部
104 セグメント抽出部
105 部分階層抽出部
106 抽出情報結合部
107 連続スライド抽出部
301 文書データベース
302 出力部
プレゼンテーション文書の作り方は、作成者の好みに依存する。しかしながら、論理的かつ分かりやすい文書の作り方は、多くの作成者に共通するノウハウを有し、それらの多くは文書の目次構造を明確にするためのものである。以下に、プレゼンテーション文書を作成するためのノウハウの一例が示される。
・ 目次のページを用意し、文書の全体像を分かりやすくする。
・ 「1.はじめに」や「1−1.背景」など、各スライドのタイトルに章番号を付与し、章の構成が分かるようにする。
・ タイトルのみを記載したスライドをプレゼンテーション文書の途中に挿入し、スライド間の区切れ目を明確にする。
・ 「事例1」「事例2」のようにタイトルに連番を付与し、スライド間の繋がりが分かるようにする。
・ 説明する内容を予め列挙し、その後、列挙された各情報を詳述するという順序でスライドを構成し、話を論理的に進められるようにする。
以上のノウハウにより、プレゼンテーション文書の作成者は、明示的もしくは暗黙的に目次構造を発生させる。そのため、逆に、これらの情報をプレゼンテーション文書から抽出することにより、目次構造の特定を行うことが可能になる。
本発明による目次構造特定装置は、1つの章からさらに細かい単位の章を特定し、その章間の関係構造を特定する処理を再帰的に繰り返し、目次構造を特定することを特徴とする。章の特定には、表紙スライドの存在、目次スライドの存在、タイトル番号の存在、ヘッドラインスライドの存在、部分階層の存在、の5つの情報を用いる。この記述された順序で情報を利用することにより、これら複数の情報を利用しても、各情報から得られた目次構造を競合させることなく一つの目次構造に統合することができる。ただし、目次構造の特定において、これら全ての情報が必要というわけではない。その情報のうち一つ以上の情報源があれば、目次構造を特定することができる。なお、本発明においては、章間の関係構造は、階層の深さや章が切り替わったことを表すフラグ等で表現する。
(実施の形態1)
図1は、本発明による目次構造特定装置の構成の一例を示すブロック図である。目次構造特定装置10は、構成情報抽出部101と表紙抽出部102と目次相当情報抽出部103とセグメント抽出部104と部分階層抽出部105と抽出情報結合部106から構成される。また、本実施の形態は、文書データベース301と出力部302とを備える。本実施の形態において、目次構造特定装置10は、例えば、プログラムに従って動作するコンピュータ(例えば、パーソナルコンピュータ等の情報処理装置)によって実現される。
図2は、目次構造特定装置10を用いて行う目次構造特定の動作の一例を示すフローチャートである。図2に示されたステップS101からステップS106までの処理が、章を細分化し、それら章間の関係構造を特定していく処理である。図2に示された順序で各処理が行われることにより、目次構造が適切に特定される。以下、図1および図2を参照して、目次構造特定装置10の各構成要素の機能、動作および処理が説明される。なお、本実施の形態では、目次構造は各スライドの階層の深さをスライド順に並べたものと、各スライドにおいて該スライドが話題の区切れ目に相当するか否かを表すフラグをスライド順に並べたものによって表現される。
プレゼンテーション文書は、各スライド中に含まれるテキスト情報や各テキストの位置や文字の装飾情報(色、フォントの種類、フォントのサイズ)、線、図、表などの情報を抽出できる形式で記録されているものとする。そのような形式の代表としてXMLなどがある。また、テキストやベクター図形、画像、表などのスライドを構成する要素はオブジェクトと呼ばれる。
文書データベース301には、目次構造を特定する対象となるプレゼンテーション文書が記録されている。文書データベース301へのプレゼンテーション文書の登録は、各プレゼンテーション文書の作成者により行われてもよいし、クローラなどにより自動で行われてもよい。
構成情報抽出部101は、文書データベース301からプレゼンテーション文書を選択し、その文書中の各スライドの構成情報を抽出する。該処理は、図2のステップS101に対応している。
構成情報とは、各スライドに含まれるオブジェクトからさまざまな観点で抽出された属性が、オブジェクトごとにまとめられたものである。例えば、オブジェクトがテキストである場合は、オブジェクトは、該テキストがスライドのタイトルであるか、箇条書きで記載されているものであるか、など属性情報を含む。該属性情報は、目次構造特定装置内のすべての構成要素から参照できる。
プレゼンテーション文書のスライドから構成情報を抽出した例が図3に示される。構成情報には、プレゼンテーション文書の識別符号(資料ID)、スライドのページ数を表すスライド番号、各スライドに含まれるオブジェクトを特定するためのオブジェクトID、該オブジェクトの位置、種類、背景色、含まれるテキスト、該テキストの属性情報、フォントのサイズ、種類、色、などが格納されている。図3の例において、位置情報は、オブジェクトの(左上のx座標,左上のy座標)、(右下のx座標,右下のy座標)という形式で記憶され、色情報はRGB値で記憶されている。図3では、見やすくするため、表形式で構成情報がまとめられているが、他の形式、例えばXMLでもよい。
一つのオブジェクトのテキストにおいて、途中で字の大きさやフォントの色が変化している場合には、その変化点においてテキストが分離され、記憶されるようにしてもよい。このように記憶されても、オブジェクトIDが同一であるテキストが集められることにより、元の一つのテキストが再現される。
図3では、文書の資料IDがP001の1枚目のスライドに関する構成情報が記憶されている。該スライドは4つのオブジェクトを有し、そのうち3つはテキストを有する。オブジェクトID:001には、「はじめに」というテキストが含まれている。また、背景色は白色であり、字は黒色であることがわかる。また、該テキストは、タイトルとして用いられていることも構成情報から明らかである。
プレゼンテーション文書がXMLなどで構造化されて記録されている場合には、テキストの属性情報は、該XMLのタグを利用することにより抽出できる。例えば、プレゼンテーション作成ツールのテンプレート機能は、タイトルに相当するテキストに、<title></title>などのタグを与える。または、その機能は、<text property=“title”></text>などタグの属性としてテキストの種類を与えることもある。また、その機能は、箇条書きのテンプレートを利用して書かれた文字列に、<itemize></itemize>などのタグを与える。さらに、その機能は、該タグ内で箇条書きされている文字列毎に、<item></item>などのタグを与える。これらのタグから、構成情報抽出部101は各テキストの属性情報を抽出する。
タグ情報がない場合においても、プレゼンテーション文書の書式の特徴から属性情報が得られる。例えば、タイトルの属性情報を得るためには、以下に示す特徴が利用されればよい。プレゼンテーション文書におけるタイトルの書式の典型例が図4に示される。図4中の「タイトルテキスト」501が、このスライドのタイトルである。図4に示されるように、タイトルは、(i)スライド内において相対的に大きなフォントで記述される、(ii)スライドの上部に記載される、(iii)境界線502の上部にある、などの特徴を有する。境界線とは、スライドにおいて説明文や図表などを記載するボディ部分503とタイトルとを分けるために用いられる横長の線や図である。境界線は、プレゼンテーション文書のテンプレートなどではよく用いられる。例えば、一つのスライド内において、他のテキストと比較してフォントサイズが大きいテキストがスライドの上部α%以内にある場合は、該テキストがタイトルとみなされるなどの処理が行われることにより、タイトルが抽出される。
表紙や話の切り替わりのために用いられるスライドにおいては、タイトルがスライドの中央に大きなフォントで書かれることが多い。このようなスライドにおいて、あるテキストのフォントサイズが他のテキストよりも大きくかつ中央にあり、さらに他のテキスト情報が少ない場合には、該テキストがタイトルとして抽出されればよい。なお、タイトルがないスライドもあるため、上記の特徴を有するテキストが無いスライドは、タイトルの属性情報を有するテキストを含まないと判定されることもできる。
表紙抽出部102は、構成情報に基づいて、各プレゼンテーション文書から表紙スライドを抽出し、目次構造特定表としてその結果を目次相当情報抽出部103に出力する。該処理は、図2のS102に対応している。
表紙スライドは、プレゼンテーション文書の全体のタイトルが記載されているスライドである。表紙スライドは、表紙スライドとそれ以外のスライドという最も単純な目次構造を特定するために用いられる。複数のプレゼンテーション文書を一つにまとめた文書は、複数の表紙スライドに相当するスライドを有することがある。また、表紙スライドに相当するスライドがなく、いきなり本題が始まるプレゼンテーション文書もある。そのため、表紙抽出部102は0枚以上の表紙スライドを抽出する。
表紙とその他のスライドの関係構造が階層構造として表現される場合において、本実施の形態では、表紙スライドは、木構造として表現される目次構造におけるルート(根)である。図5に表紙スライドの一例が示される。表紙スライドは、図5に示されるように、(i)スライドの中央にタイトルが存在する、(ii)日付、人名、所属に関する情報が記載されている、などの特徴がある。そのため、例えば、スライドが、これらの特徴を含み、かつ1枚目のスライドであれば、該スライドは表紙スライドと判定される。なお、日付や人名や所属の判定に関しては、辞書が必要になるが、該辞書は表紙抽出部102により内部に保有されてもよいし、辞書用の記憶装置が別途用意されてもよい。プレゼンテーション文書作成ツールは、一般的に表紙用のテンプレートを有する。そのため、1枚目のスライドが表紙用のテンプレートを利用しているスライドであれば、このスライドが表紙スライドとして抽出されてもよい。
表紙抽出部102は、抽出された表紙スライドを目次構造特定表としてまとめる。目次構造特定表には、目次構造特定装置10内の各抽出手段により抽出される目次構造の手がかりが、順次記録されていく。表紙抽出後の目次構造特定表の一例が図6に示される。図6の目次構造特定表には、スライド番号が格納される「#」列と、各スライドにおいてそれまでのスライドと内容が区切れているか否かを表すためのフラグを格納する区切りフラグ列と、表紙抽出部102において特定される各スライドの階層の深さを格納する表紙列がある。
図6に示されている例は、1枚目が表紙スライドであり16枚のスライドを有するプレゼンテーション文書に対して、表紙抽出部102が特定した目次構造特定表を表している。表紙抽出部102は、目次構造特定表の表紙スライドの行の表紙列に「0」を与え、それ以外のスライドの行の表紙列に「1」を与える。「0」や「1」は、目次構造における階層の深さを表す。図6に示されている例は、表紙が根、それ以外のスライドが1階層目に存在することを表す。
区切りフラグ列には、「1」が文書内容の切り替わりが行われたスライド及び階層の深さが前方スライドよりも深くなったスライドに、「0」がそれ以外のスライドに与えられる。表紙は新規の話題が始まったスライドであり、表紙の次のスライドは階層の深さが深くなっている。そのため、表紙抽出部102は、目次構造特定表の表紙スライドおよびその次のスライドの行の区切りフラグ列に「1」を与え、それ以外のスライドの行の区切りフラグ列に初期設定の「0」を与える。なお、表紙抽出部102は表紙スライドを抽出できなかった場合、目次構造特定表の全てのスライドの表紙列に「1」を与える。また、表紙抽出部102は、先頭スライドの区切りフラグ列に「1」、その他のスライドの区切りフラグ列に「0」を与える。
なお、目次構造特定装置10の各抽出段階においては、目次構造特定表の区切りフラグ列が「10・・・0」(0は1つ以上)のように並んでいる部分が、細分化された章に対応し、以降の抽出処理の対象である。図6に示されている例では、スライド2からスライド16の部分504が、目次相当情報抽出部103により処理される。
目次相当情報抽出部103は、表紙抽出部102から表紙抽出後の目次構造特定表を得て、目次相当情報の抽出結果を目次構造特定表に追加し、該目次構造特定表をセグメント抽出部104に出力する。この目次相当情報抽出処理は、図2のステップS103に相当する。
目次相当情報とは、プレゼンテーション文書中に明記された文書の目次構造(木構造)に関する正解情報である。目次相当情報を抽出できる情報源の代表として、(i)目次スライドと(ii)タイトル番号がある。
目次相当情報抽出部103は、目次スライドとタイトル番号の情報から、目次構造を特定する。なお、これら2つの情報が同時に得られた場合は、目次相当情報抽出部103は、目次スライドから目次構造を特定した後、タイトル番号から目次構造を特定する。
(i)目次スライドとは、プレゼンテーション文書の目次が記載されているスライドである。目次では、プレゼンテーション文書に含まれる各章の見出し(以降、章名)が箇条書きで記載されることが多い。さらに、一般に、章名をタイトルとして有するスライド(以降、章名スライド)が、目次スライド以降のスライドに現れる。また、箇条書きにおけるインデント(字下げ)の深さは、章の階層性に対応している。そのため、目次相当情報抽出部103は、インデントの深さと章名スライドを抽出することにより、プレゼンテーション文書全体の目次構造を特定することができる。
図7は、目次スライドと章名スライドの一例を表している。図7の目次スライドでは、そのインデントから、「ABC」と「JKL」が第1階層で並列関係にあり、「DEF」と「GHI」が「ABC」を親とする第2階層に位置することがわかる。すなわち、目次相当情報抽出部103は、「ABC」の話題を記したスライド群の階層の深さを「1」、「DEF」と「GHI」の話題を記したスライド群の階層の深さを「2」、「JKL」の話題を記したスライド群の階層の深さを「1」とするための目次相当情報を抽出する。
目次スライドの特定には、タイトルの文字列が利用される。目次スライドに用いられやすいタイトルが目次相当情報抽出部103に登録され、そのタイトルの文字列に一致するスライドがあれば、そのスライドが目次スライドと特定される。「目次」「概要」「Table of contents」などの文字列が、目次相当情報抽出部103に登録される。また、他言語の「目次」に相当する語が、目次相当情報抽出部103に登録されていてもよい。また、スライド内のテキストが全て箇条書きで記載され、かつそのスライドがプレゼンテーション文書の前半に存在していることを条件として、目次スライドが特定されてもよい。この処理では、タイトルに「目次」の文字列が明記されていない場合でも、目次スライドが抽出される。
各スライド内において、箇条書きで記載されているテキストがあるか否かは、構成情報中の属性情報から判定することができる。そして、該スライドがプレゼンテーション文書の前半にあるか否かは、構成情報において、同一文書IDを文書中のスライド番号と対比することにより判定できる。章名スライドは、目次スライド中の章名と、それ以降のスライドタイトルのテキスト情報との一致性により判定することができる。なお、一つの章名に対して一致する章名スライドが複数存在する場合は、スライド番号の一番小さいもののみが章名スライドと判定される。
目次スライドを用いて目次相当情報を抽出する他の例が次に示される。図8に、目次スライドが複数挿入されているプレゼンテーション文書が示される。目次スライドの枚数と目次スライドにおける章名の数が一致していれば、章の変わり目毎に目次スライドが挿入されていると推定できる。例えば図8では、一枚目の目次スライド505から次の目次スライド506までのスライド群508は、一つ目の章名である「ABC」507に関する話題を記したスライド群であり、目次スライド506から次の目次スライド509までのスライド群510が、2つめの章名「DEF」に関する話題を記したスライド群であると判断される。
さらに、目次スライドにおいて、「ABC」と「DEF」は並列に記載されているため、スライド群508とスライド群510は、目次構造特定表において同階層に位置すると判定される。なお、このとき、章名「ABC」507に関する話題が始まるスライドに目次スライド505が含まれるか否かは、特定したい目次構造に依存するため、目次構造特定装置の利用者が選択できるようにしておけばよい。
目次スライドが複数用いられている場合においても、どの章名に対する話題が始まるかを明示するために、目次中のいずれかの章名を目立たせる工夫がなされていることもある。図9にその一例が示される。図9に示されるスライドは、各章名の先頭部分に○が付与されることにより、どの章名に対する話題が始まるかが明示されている。この他にも、字の色を変える、字を大きくするなど字の装飾を変化させることで、章名が目立つこともある。そのため、目次スライド中の章名のフォントサイズや色、背景色などが構成情報から取得され、複数の目次スライド間での章名の装飾の変化が検出されることにより、各目次スライド以降のスライドがどの章名に関する話題を記したものであるかが特定される。
なお、本実施の形態では、階層構造として目次構造が表現される際において、目次スライドは、階層構造上において、一番階層の浅い章名スライドと並列に配置される。階層的構造にする場合においては、目次スライドの部分木として章名スライドが配置されてもよい。その場合には、上記アルゴリズムにおいて、抽出対象のスライド群の中の目次スライド以外のスライドの目次列の値全てに、1が加算されればよい。階層構造により表現される場合において、目次スライドと章名スライドとがどのような配置関係を有するかは、目次構造特定装置の利用者が任意に決定して構わない。
(ii)タイトル番号とは、スライドタイトルに付与された「1.はじめに」や「2.2.検索方法」などの章番号である。これは文書の階層構造そのものであり、有用な目次相当情報である。各スライドにおいて、タイトル前に付与されている番号が抽出される。タイトル番号の一例が図10に示される。図10では、1章のスライドの後に2章のスライドがあり、2章のスライドの後に、2.1章、2.2章に関するスライドがある。なお、タイトル番号のつけ方には、「第1章」、「1−1」、「(1)」、「Step 1」など様々なバリエーションが考えられるため、これらのバリエーションに対応できるように、「第*章」や「*−*」など、用いられやすい書式がテンプレート化され、該書式がパターンマッチングされ、タイトル番号が抽出される。
目次相当情報抽出部103は、目次構造特定表に目次列を追加し、前記(i)と(ii)の処理により得られるスライド間の階層の深さの相対的な変化量を目次列に記録する。すなわち、目次相当情報抽出部103は、目次構造において第1階層となる*章に該当するスライドの行の目次列に「0」を、第2階層となる*.*章に該当するスライドの行の目次列に「+1」を、第3階層となる*.*.*章に該当するスライドの行の目次列に「+2」を与える。この例よりも深い階層があり、目次相当情報抽出手段により第n階層であると判定されたスライドがあった場合においても、上述の規則に従い、目次相当情報抽出部103は、該スライドの行の目次列に「+(n−1)」を与える。
また、目次相当情報抽出部103は、目次構造特定表において、話題の区切れ目となるスライドの行の区切りフラグ列に「1」を与える。目次スライドはそれ以前のスライドとは異なる話題と考えられるため、目次相当情報抽出部103は、目次構造特定表の目次スライドの行の区切りフラグ列に「1」を与える。また、章名スライドは新しい話題の始まりであるため、目次相当情報抽出部103は、章名スライドの行の区切りフラグ列にも「1」を与える。タイトル番号を有するスライドにおいては、目次相当情報抽出部103は、タイトル番号が切り替わっているスライドの行の区切りフラグ列に「1」を与える。
目次構造特定表の記述例が図11に示される。図11は、16枚のスライドからなるプレゼンテーション文書の目次構造特定表の例である。図11の左側は、各スライドにおいてタイトルが属性情報であるテキスト情報が集められた構成情報の一例である。説明に不必要な構成情報は省略されている。図11の例で示される構成情報の各スライドのテキスト列から明らかなように、この例に記載されているスライド群は3章から構成されており、さらに各章それぞれが階層構造を有している。
図11に示されている目次構造特定表の各スライドの行の目次列には、前記のように章の階層性から1を減じた値が付与されていることがわかる。また、同表において章番号が切り替わっているスライドの行の区切りフラグ列に「1」が与えられていることもわかる。図11の例では、構成情報の各スライドの行のテキストにおいて、スライド番号4とスライド番号10のスライドの章番号は明示的に切り替わっていないため、目次構造特定表のこれらのスライドの行の区切りフラグ列のみに「0」が与えられている。
目次相当情報(i)と(ii)は、同時に得られる場合もある。この場合には、(i)の目次スライドによる処理が先に行われ、目次構造特定表の区切りフラグ列が「10・・・0」(0は1つ以上)のように並んでいる部分(新しい章)に対して、(ii)のタイトル番号に対する処理が行われる。以下に目次スライドとタイトル番号が両方とも得られた場合におけるタイトル番号による階層の深さの求め方が説明される。
Step1: 新しい章の最初のスライドのタイトル番号が抽出される。
Step2: Step 1でタイトル番号が存在すれば、そのタイトル番号の深さが「d」とされる。タイトル番号がなければ、章内で最初にタイトル番号を有するスライドの「タイトル番号の深さ−1」がdとされる。なお、タイトル番号の深さとは、「1.2」なら2、「2−3−1」なら3、「1.2.4.12」なら4というように、階層を表現するために区切られた領域の数である。
Step3: 新しい章内においてタイトル番号がある全てのスライドのタイトル番号の深さDが求められる。
Step4: タイトル番号のあるスライドの行の目次列(目次スライドで得られた階層の深さが記録されている)に「D−d」が加算される。
Step5: スライドにタイトル番号がない場合には、そのスライドより前方にある最寄りのスライドであってタイトル番号のあるスライドが検出される。そして、検出されたスライドの行の目次列と同じ値が、そのタイトル番号のないスライドの行の目次列に代入される。
なお、各スライドの区切りフラグ列の付与方法として、(ii)の方法がそのまま用いられればよい。上記アルゴリズムにより、章名スライドで区切られたスライド群(章)はタイトル番号によりさらに細分化される。例えば、目次スライドの章名ごとにプレゼンテーション資料全体が幾つかの大きな章に分けられ、各章内においてタイトル番号が付与されることもある。この場合、各章内で独自のタイトル番号が用いられることがあるため、タイトル番号に対する処理が先に行われると、不自然な目次構造が得られることがある。しかしながら、上記アルゴリズムでは各章内でタイトル番号による差分だけが階層の深さとして加算されているため、このような問題が生じない。
また、(i)目次スライドと(ii)タイトル番号は目次相当情報の一例である。その他に明示的に記載された目次に関する情報があれば、その情報が利用され、同様の書式により記憶されてもよい。
図11の目次構造特定表では、区切りフラグ列がスライド順に「10・・0」のように並んでいる部分(511、512)がほとんどない。目次構造特定表において、区切り列が「10・・0」(0は一つ以上)のように並んでいる個所に対応するスライド群がセグメント抽出部104により処理される。そのため、図11の例では、目次相当情報抽出部103で、ほとんどの目次構造の抽出が行えていることになる。これは図11の例では構成情報のテキスト列から明らかなように、各スライドに目次相当情報が漏れなく記載されているためである。しかしながら、このように目次相当情報が漏れなく記載されている例は少ない。
図12に目次相当情報が得られなかった場合における目次相当情報抽出後の目次構造特定表が示される。図12では、「}」512で示すスライド番号2〜16がセグメント抽出部104により処理される。目次スライドの章名と章名スライドを用いた目次構造特定やタイトル番号を用いた目次構造特定は前記の関連する技術においてもなされている。しかし、これらを組み合わせて目次構造を特定できることは本発明の効果の一つである。本発明では、目次相当情報が得られない図12のような状況でも、以降の処理により目次構造が特定される。なお、図12のような状況においては、目次構造特定表の目次列が先頭スライド以外全て0であるため、これらを記憶する必要はなく、使用するメモリを節約することができる。
以降では、図13に示すプレゼンテーション文書を例に、各処理の過程が説明される。図13のプレゼンテーション用文書は16枚のスライドから構成される。各スライドの横に記載された「#数字」はスライド番号を表す。このプレゼンテーション文書は、表紙スライドは存在するが、目次相当情報を含んでいない。そのため、目次相当情報抽出部103での処理が終了した時、目次構造特定表は図12に記載されているものになる。
セグメント抽出部104は、目次相当情報抽出部103から目次構造特定表を取得し、話題の切れ目となるセグメントを抽出する。そして、セグメント抽出部104は、その結果を目次構造特定表に追加し、得られた目次構造特定表を部分階層抽出部105に出力する。セグメント抽出処理は、図2のステップS104に相当する。
セグメントとは、書式の特徴により一つの章を形成するスライド群である。セグメントを識別する書式の代表としてヘッドラインスライドがある。ヘッドラインスライドとは、プレゼンテーション文書において、そのタイトルのみが実質的な内容を有するスライドである。
ヘッドラインスライドの一例が図14に示される。図14において、タイトル「XYZ」のみ含むスライドがヘッドラインスライドである。ヘッドラインスライドは比較的大きく話題が変化する際に挿入されることが多い。そのため、ヘッドラインスライドから次のヘッドラインスライドまたは最後のスライドまでが一つのセグメントであり、そのセグメントを代表するスライドがヘッドラインスライドとなる。
図13に示される例においては、スライド番号2とスライド番号10がヘッドラインスライドである。ヘッドラインスライドの特定方法は、表紙スライドの特定方法とほぼ同じである。ただし、氏名や所属や日付などの情報がヘッドラインスライドに含まれることは稀であるため、これらの情報はヘッドラインスライドを特定する際に適用しない。なお、表紙スライド抽出時にヘッドラインスライドが抽出されていれば、セグメント抽出部104においてヘッドラインスライドが再度抽出される必要はない。
セグメント抽出部104は、ヘッドラインスライドを情報源として目次構造を特定する。セグメント抽出部104は、セグメントの基点となるヘッドラインスライドとその他のスライドの関係構造を特定する。本実施の形態では、目次構造が階層構造として抽出される場合において、セグメント抽出部104により得られる前記関係構造の表現方法が2通り説明される。
ヘッドラインスライドによるセグメントの抽出においては、ヘッドラインスライドがセグメントの基点に相当する。ヘッドラインスライドからある章が始まる場合、ヘッドラインスライドとそれに続くスライド群はその章の内容が説明されているスライドである。そのため、そのヘッドラインスライドとそれに続くスライド群は、階層構造として表現される目次構造において、同階層と捉えることができる。一方、ヘッドラインスライドは、次のヘッドラインスライドまでのスライド群を代表するスライドであるため、目次構造においてヘッドラインスライドに続くスライド群の親として位置すると捉えることもできる。ここで前者は並列パターン、後者は階層パターンと呼ばれる。
これらのパターンは、どちらが正しいというわけではなく、目次構造特定装置の利用者が、どのような目次構造を特定したいかに依存する。そのため、システムの利用者が、目次構造として並列パターン、階層パターンのどちらを用いるかを設定できるようにしておけばよい。なお、このように、基点となるスライドとその他のスライドとの関係構造をどのように表現するかには、表紙抽出部102、目次相当情報抽出部103、部分階層抽出部105のいずれの抽出手段でも、セグメント抽出手段と同様の自由度がある。ただし、本発明では、目次構造が階層的に表現された際の見易さを考慮し、表紙抽出部102における表紙とその他のスライドは階層パターン、目次相当情報抽出部103における目次スライドと章名スライドは、並列パターンを基礎としている。また、後述する部分階層抽出部105については、階層パターンを基礎として目次構造が特定されている。
図15と図16に、図13のプレゼンテーション文書から得られた図12に示されている目次構造特定表に対して、セグメント列が追加された目次構造特定表が示されている。図15は並列パターンの記憶方法、図16は階層パターンの記憶方法を示す。
セグメント抽出部104は、図15に示す並列パターンにおいて、目次構造特定表における処理の対象となるスライドの行のセグメント列に「0」を与える。セグメント列に何も記載されていない個所は、セグメント抽出部104が処理するスライドではないことを意味する。また、セグメントにより話題の転換がなされるため、セグメント抽出部104は、目次構造特定表におけるヘッドラインスライド(スライド番号2と10)の行の区切りフラグ列に「1」を与える。
セグメント抽出部104は、図16に示す階層パターンにおいて、ヘッドラインスライドとそれに従属するスライドを階層化するために、目次構造特定表におけるヘッドラインスライドの行のセグメント列に「0」を与え、それに従属するスライド群の行のセグメント列に「+1」を与える。この値は、階層の深さの相対的変化量を表すため、「+1」はヘッドラインスライドと比較してヘッドラインスライドに従属するスライド群の階層が一つ深くなっていることを表す。
階層パターンでは、ヘッドラインスライドを代表スライドとして、その次のスライドから新しい話題が始まると捉えられる。そのため、セグメント抽出部104は、目次構造特定表におけるヘッドラインスライドおよびその次のスライドの行の区切りフラグ列に「1」を与える。この処理により、図16に示される図13のプレゼンテーション文書に対する目次構造特定表では、スライド番号2とスライド番号3およびスライド番号10とスライド番号11の行の区切りフラグ列に「1」が与えられる。
図17に示されるように、ヘッドラインスライドが複数枚連続して存在する場合がある。図17では、2枚のヘッドラインスライドが連続する部分が2箇所存在している。このように、複数枚のヘッドラインスライドが続けて存在する場合には、以下の処理により目次構造が特定される。
Step1: 処理の対象である章内で、ヘッドラインスライドが最高何回連続するかが抽出される。(α回が抽出されたとする)
Step2: α枚数分だけ続くヘッドスライドの先頭スライドのみがヘッドラインスライドとみなされ、前記セグメント抽出部104が処理を行う。ただし、並列パターンであっても、前記先頭スライドの次のスライドがヘッドラインスライドである場合には、例外的に後者のヘッドラインスライドの行の区切りフラグ列に「1」が与えられる。
Step3:Step2におけるセグメント抽出部104の処理後の目次構造特定表において、区切りフラグ列が「10・・0」(0は一つ以上)のように並んでいる個所が新しい章とみなされ、次の抽出処理の対象となる。
Step4:処理の対象となる章に対して、Step 1からStep 3までが再帰的に繰り返される。
該再帰処理の終了条件について次に説明される。該処理が行われると、処理対象が少しずつ狭まるため、いずれα=1となる。α=1は、処理対象区間に連続するヘッドラインスライドが存在しなくなったことを意味する。そのため、この章に対して再度セグメントを抽出するための処理を行い、その後処理を終了する。なお、再帰処理が行われている間は、各スライドの行のセグメント列に記録される階層の深さは、セグメント抽出部104が適用される毎に以前の結果の値に加算されていく。
図17においては、513と514および516と517でヘッドラインスライドが2枚連続しているため、α=2となる。そのため、まず、513および516のみがヘッドラインスライドと判定され、セグメント抽出が行われる。この処理により、区切りフラグ列が「10・・0」のようになる章は、514のヘッドラインスライドから516の手前までと、517のヘッドラインスライドから最後のスライドまでである。これらの各章においてStep 1を適用すると、各章共にα=1となる。そのため、再度、これらの各章からセグメント抽出が行われ、処理が終了する。
ヘッドラインスライドが複数連続する場合においては、連続するヘッドスライドの階層関係が予め以下のように決められて、目次構造が特定されてもよい。1枚目のヘッドラインスライド513が1章のタイトルを表すとすると、2枚目のヘッドラインスライド514が1.1章のタイトルを表すと考えられる。そこで、セグメント抽出部104は、目次構造特定表において1枚目のヘッドラインスライド513の行のセグメント列に「0」を、2枚目のヘッドラインスライド514の行のセグメント列に「+1」を与え、ヘッドラインスライド514に従属するスライド群の行のセグメント列に「+1」または「+2」を与える。セグメント抽出部104がヘッドラインスライド514に従属するスライド群の行のセグメント列に「+1」または「+2」のどちらを与えるかは、前記の並列パターン、階層パターンのどちらが採用されるかにより決まる。
なお、図17の例の場合、目次構造特定表において、ヘッドラインスライド515の行のセグメント列に「0」が与えられる場合と「+1」が与えられる場合がある。しかしながら、下記に示すルール等が用いられることにより、目次構造の特定精度が高まる。
(1)2枚連続するヘッドラインスライド(513、514)があり、再度2枚連続するヘッドラインスライド(516、517)が検出された場合、目次構造特定表において、2枚連続するヘッドラインスライドと次の2枚連続するヘッドラインスライドとの間の単一のヘッドラインスライド515の行のセグメント列に「+1」が与えられる。
(2)2枚連続するヘッドラインスライド(513、514)がある場合、これら2枚のヘッドラインスライドのタイトルの装飾情報がそれぞれ得られる。次に、これら2つの装飾情報と単一のヘッドラインスライド515のタイトルの装飾情報との類似度がそれぞれ算出される。2つの類似度が比較され、類似度が高い方のヘッドラインスライドが特定される。目次構造特定表において類似度が高いヘッドラインスライドの行のセグメント列の値が、単一のヘッドラインスライド515の行のセグメント列にコピーされる。
(3)2枚連続するヘッドラインスライド(513、514)がある場合、その次に現れる単一ヘッドラインスライド515が特定される。目次構造特定表において該ヘッドラインスライド515の行のセグメント列に、2枚連続するヘッドラインスライドの後方のスライド514の行のセグメント列と同じ値が与えられる。なぜならば、2枚連続するヘッドラインスライドは、1枚目のヘッドラインスライド513が1章、2枚目のヘッドラインスライド514が1.1章と捉えられ、通常、1.1章がある場合、次には1.2章が存在すると考えられるためである。
なお、2枚連続するヘッドラインスライドが存在する場合にセグメント抽出の精度を上げるためのルールは、上記以外のルールが用いられても構わない。
部分階層抽出部105は、セグメント抽出部104から目次構造特定表を取得し、スライド間に存在する部分的な階層関係を抽出する。そして、部分階層抽出部105は、その結果を目次構造特定表に追加し、該目次構造特定表を抽出情報結合部106に出力する。部分階層抽出処理は図2のステップS105に相当する。
部分階層抽出処理の対象となるスライドは、セグメント抽出部104までに得られた目次構造特定表の区切りフラグ列が「10・・・0」である箇所のみである。そのため、ここまでの抽出手段により目次構造特定表の区切りフラグ列が1を多く含む場合は、全スライドに対して該処理が適用される場合に比べ、計算量が大幅に削減される。
プレゼンテーション文書から部分的な階層構造が抽出される代表的な特徴として、部分目次スライドがある。部分目次スライドとは、そのスライド以降の複数のスライドのタイトルを含むスライドである。このとき、部分目次スライドにおいて後のスライドでタイトルとして現れるテキストは「小見出し」と呼ばれ、小見出しをタイトルとするスライドは小見出しスライドと呼ばれる。
部分目次スライドと小見出しスライドの関係の一例が図18に示される。図18の左側の例は、目次相当情報抽出部103における目次スライドと章名スライドの関係に似ている。図18の左側の例は、「ABC」「DEF」「GHI」という小見出しを有する部分目次スライド518があり、その後方のスライドに小見出しスライドがあるという構成のプレゼンテーション文書を表している。部分目次スライド中の箇条書きされている小見出しにおいて、各小見出しは並列の関係にある。そのため、小見出しスライドの話題が記しされているスライドも目次構造において同階層に位置すると推定される。
図18の右側には、部分目次の別の一例が示されている。「ABC」「DEF」「GHI」という小見出しを含む部分目次スライド519が存在し、その後方のスライドに小見出しスライドがある構成のプレゼンテーション文書である。部分目次スライド519は、部分目次スライドにおける小見出しが箇条書きなどの整理されたテキスト情報ではない点で図18の左側のスライドと異なる。ただし、3つの小見出しは同等に強調されていることから、該小見出しは並列の関係であると推定される。すなわち、右図の例においても小見出しスライドは並列の関係にあることが推定される。
以上のように、図18の例においては、左右の両図とも、小見出しスライドは部分目次スライドよりも一つ階層が深いという部分的な階層関係が抽出される。具体的には、下記の方法により部分階層が抽出されればよい。
図18の左側の例に対する部分目次スライドと小見出しスライドの抽出方法が以下で説明される。処理の対象となっているスライド群において、構成情報が参照され、属性情報が「箇条書き」であるテキストが抽出される。そして、このテキストにおいて箇条書きされている文字列が小見出しとして抽出される。この小見出しが抽出されたスライドが部分目次スライドの候補である。該小見出しに対する小見出しスライドがあれば、前記の部分目次スライドの候補が正式な部分目次スライドとされ、小見出しスライドと共に抽出される。
次に、図18の右側の例に対する部分目次スライドと小見出しスライドの抽出方法が以下で説明される。処理の対象となっているスライド群において、構成情報が参照され、一枚のスライド内で類似する強調表現が用いられているテキスト群が小見出しとして抽出される。類似する強調表現の例としては、同一の強調用オブジェクトが用いられている、フォントや背景色に特殊な色が塗られているなどがある。強調用に用いられやすいオブジェクトは、事前に部分階層抽出部105に登録されている。
なお、テキストの色の情報については、テキストがプレゼンテーション文書であまり使われていない色で塗られていれば、異なる色であっても類似する強調表現が用いられていると判定される。例えば、テキストAとテキストBがそれぞれ赤色と青色で塗られており、赤色と青色はこのプレゼンテーション文書ではあまり使われていない色であるとする。その場合においては、テキストAとテキストBは類似する強調表現が用いられていると判定される。なぜならば、プレゼンテーション文書においては、同格の情報を対比する際に、それぞれの情報を示すテキストの色を変えて強調することが多いためである。
このようにして、小見出しが抽出されたスライドは部分目次の候補である。該小見出しに対する小見出しスライドがあれば、前記の部分目次スライドの候補が正式な部分目次スライドとされ、小見出しスライドが抽出される。
上記のいずれの方法においても、全ての小見出しに対して小見出しスライドが抽出されるとは限らないため、全ての小見出しのうち、対応する小見出しスライドがα個以上もしくはβ割以上あれば、部分目次スライドの小見出しに対応する小見出しスライドが見つかったと判定される。上記の方法では、まず部分目次の候補が見つけられるというアルゴリズムである。しかし、はじめにスライドのタイトルが抽出され、これらタイトルが抽出されたスライドよりも前方のスライドにおいて、該タイトル群を含む箇条書きのテキストもしくは類似する強調表現が用いられているテキストを含む一枚のスライドが検出されるというアルゴリズムが用いられても、同様の結果が得られる。また、小見出しと小見出しスライドのタイトルの一致性を調べる際には、目次相当情報におけるタイトル番号「第1章」や「(1)」がノイズとなる可能性が高い。そのため、タイトル番号の文字列が除去された後に、部分目次が抽出される方がよい。
部分階層抽出部105は、目次構造特定表に部分階層列を追加し、この部分階層列に部分階層の抽出結果を記録する。記録する値は、部分階層の抽出により生じた階層の深さの相対的変化量である。まず、目次構造特定表の部分目次スライドの行の部分階層列に「0」が与えられる。部分目次スライドの子である小見出しスライドは、部分目次スライドよりも一段深い階層であるため、目次構造特定表の小見出しスライドの行の部分階層列に「+1」が与えられる。ただし、部分目次スライドにおける小見出しが箇条書きされ、インデントで階層化されている場合には、目次構造特定表のこの小見出しに対応する小見出しスライドの行の部分階層列に「+インデントの段階分+1」が与えられる。
次に目次構造特定表の区切りフラグ列の変更方法が以下で説明される。小見出しスライドは新しい話題の始まりであるため、目次構造特定表の小見出しスライドの行の区切りフラグ列に「1」が与えられる。ただし、同一の小見出しに対して2つ以上の小見出しスライドが存在する場合は、該2つ以上の小見出しスライドの内で最も前方にある小見出しスライドの行の区切りフラグ列のみに「1」が与えられる。
図13に示されるプレゼンテーション文書に対する目次構造特定表に部分階層列が追加された表が、図19と図20に示される。セグメント抽出部104において、並列パターンが採用された場合における部分階層抽出結果が図19に、階層パターンが採用された場合における部分階層抽出結果が図20に示される。図19と図20では、セグメントが異なるため、部分階層が抽出される対象となるスライド群が異なっている。
図13に示されるプレゼンテーション文書には、部分目次を有する2つのスライドがある。一つは箇条書きを含むスライド番号4と、もう一つは同一装飾文字列を含むスライド番号11である。スライド群5、6、7、8がスライド番号4の小見出しスライドに対応し、スライド群12、14、15、16がスライド番号11の小見出しスライドに対応する。そのため、図19および図20に示される目次構造特定表において、これら小見出しスライド群の行の部分階層列に「+1」が与えられる。
なお、図13に示されるように、スライド番号13はタイトルを持たない。しかし、該スライドが部分階層抽出部105により処理される場合には、目次構造特定表において該タイトルがないスライドの行の部分階層列に、一つ前のスライドであるスライド番号12の行の部分階層列の値がコピーされる。スライド番号5、7、8およびスライド番号12、14、15は小見出しスライドであるため、目次構造特定表において該スライドの行の区切りフラグ列に「1」が与えられている。
なお、部分目次は部分階層構造が抽出される一例であり、スライド間の部分的な階層関係が抽出できるならば、他の情報が用いられても構わない。
抽出情報結合部106は、部分階層抽出部105から目次構造特定表を取得し、目次構造を特定する。そして抽出情報結合部106は、その結果を出力部302に出力する。抽出情報結合処理は、図2のステップS106に対応している。
抽出情報結合部106は、各情報抽出手段により抽出された目次構造特定表の表紙列、目次列、セグメント列、部分階層列の値をスライド毎に加算し、各スライドの最終的な階層の深さを特定する。また、抽出情報結合部106は、目次構造特定表に階層の深さ列を追加し、算出された階層の深さを該階層の深さ列に記録する。表紙抽出部102によって基盤となる階層が抽出され、以降の目次相当情報抽出部103、セグメント抽出部104、部分階層抽出部105により階層の深さの相対的変化量が順次同定されているため、前記加算処理により目次構造を同定することが可能である。
図21と図22に、それぞれ図19と図20の目次構造特定表から階層の深さが特定された結果が示される。また、図21と図22の両図の右側に、目次構造特定表から区切りフラグ列と階層の深さ列が抜き出され、目次構造としてまとめられた結果が示される。図21および図22の目次構造の階層の深さ列から、各スライドが大きな章に属するかまたは小さな章に属するかがわかる。また、区切りフラグ列から、どの時点で新しい章が始まっているかがわかる。
目次構造において区切りフラグ列の値に「1」が与えられ、階層の深さ列の値に「1」が与えられているスライドは、目次構造上の*章の始まりである。同様に、区切りフラグ列の値に「1」が与えられ、階層の深さ列の値に「2」が与えられているスライドは、目次構造上の*.*章の始まりである。図21と図22に示されるように、図13のような目次相当情報がないスライドからでも、本発明により階層構造を有する目次構造が特定される。図21と図22では、セグメントの扱い方が異なるため目次構造が異なるが、いずれも図13に示されたプレゼンテーション文書の目次構造が適切に表現されていることが確認できる。
なお、目次構造特定表において、表紙列、目次列、セグメント列、部分階層列のいずれか一つがあれば、暫定的な目次構造が特定されるため、表紙抽出部102、目次相当情報抽出部103、セグメント抽出部104、部分階層抽出部105の全てが揃っている必要はない。ただし、表紙抽出部102が無い場合は、構成情報抽出部101の後に動作する目次相当情報抽出部103、セグメント抽出部104、部分階層抽出部105のうちのいずれかの手段が、表紙列が全て1である目次構造特定表を生成する。
出力部302は、目次構造特定装置10により特定された目次構造特定表を、例えば、ディスプレイ装置を使って表示する。出力部302は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。なお、抽出結果はファイルとして出力されてもよいし、印刷機などを用いて出力されてもよい。
図23および図24は、出力の様態の一例を示し、それぞれ図21および図22の目次構造が木構造のグラフとして表示された結果を示す。図のノードは一つのスライドを表し、ノード中の「#数字」はスライドの番号を表している。図23または図24の木構造は以下のルールにより作られる。
ルール:目次構造特定表において、各スライドは該スライドの階層の深さ列の値より小さい階層の深さ列の値を有する近接の前方スライドの子である。
セグメント抽出部104において並列パターンが採用されている図23では、破線枠(520、521)において、ヘッドラインスライドとそれに従属するスライド群が階層関係で表現されていない。なお、図23においてスライド番号9とスライド番号10は同じ階層にある。しかし、図21の目次構造特定表のスライド番号10の行の区切り列の値に「1」が与えられているため、スライド番号10から新しい話題が始まっていることがわかる。そのため、出力部302は、スライド番号9とスライド番号10の内容が異なることを判定できる。図23の出力の様態においては、スライド番号9とスライド番号10の間で内容が区切れていることを明示するため、該スライド間のノードの間に区切り線が表示されてもよいし、図23の破線枠(520、521)が表示されてもよい。
一方、セグメント抽出部104において階層パターンが採用されている図24では、図23の破線枠(520、521)に対応する部分が、破線枠(522、523)により示されるように階層関係で表現されている。これはヘッドラインスライドとそれに従属するスライド群が階層化されるためである。図23と比較すると、階層化が多い分、図24はスライド番号9とスライド番号10との間で話題が区切れていることが階層関係だけでわかるという特徴がある。
このように、全体的なスライドの構成が分かりやすく表示されることが木構造のグラフによる出力の様態の利点である。なお、図23および図24の各ノードにおいては、スライド番号の代わりにスライドのタイトルが表示されてもよい。
また、他の出力の様態の一例が図25に示される。図25では、得られた目次構造に基づいて結果が索引形式で表示されている。図25の左図524が図21に、右図525が図22に対する表示結果である。なお、該表示においては、目次構造特定表の階層の深さ列の値に「1」が与えられ、かつ区切りフラグ列の値に「1」が与えられている行のスライドが章の始まりであるとみなされる。そして、章の始まりであるとみなされたスライド2とスライド10はそれぞれ章番号「第1章」と「第2章」が与えられる。なお、目次スライドが存在する場合、該スライドは出力の対象外である。図25の出力の様態を用いることにより、目次構造特定装置10の利用者は、一般的な書籍で用いられている見慣れた様態で目次構造を閲覧できるため、利用者が必要とするスライドを見つけやすい。
(実施の形態2)
本発明の実施の形態2に係る目次構造特定装置は、実施の形態1の目次構造特定装置の構成要素に加えて、内容が連続するスライドを一つにまとめることにより、目次構造をコンパクトにでき、分かりやすくすることを可能にする連続スライド抽出部107を有することを特徴とする。図26は、実施の形態2に係る目次構造特定装置の構成の一例を示すブロック図である。
連続スライド抽出部107は、目次相当情報抽出部103から目次構造特定表を取得し、連続スライドを抽出する。そして、連続スライド抽出部107は、その結果を目次構造特定表に追加し、セグメント抽出部104に出力する。
連続スライドとは、同一章内においてタイトルの一部または全てに同一性のあるスライド群である。連続スライドが一つにまとめられることにより、(a)階層性が特定される際に調査すべきスライドを減らすことができる、(b)出力の際に複数のスライドが一まとめにされるため見やすく表示することができる、などの効果が得られる。
連続スライドの代表的な特徴として、(i)同一のタイトルが連続する、(ii)タイトルに連番が振られている、(iii)「続き」や「Cont’d」や「タイトルがないスライド」が続いている、などがある。
(i)同一のタイトルが連続する一例が図27の左側の枠526に示される。このように同一のスライドタイトルが連続する場合は、これらのスライドは同一の内容について記載されていると判断できる。そのため、これらのスライドは一つにまとめられる。該処理は、タイトルの同一性を調べることにより実現できる。また、タイトルの後に「〜○○○〜」のようにサブタイトルが付けられ、サブタイトル部のみが変更されているスライドなども一つにまとめられる。該処理においては、タイトル中における「−」、「〜」、「スペース」、「タブ」などの文字の前の文字列が同一であるかどうかが調べられればよい。
(ii)連番が振られているスライドの一例が図27の中央の枠527に示される。この例では、スライドは(1/3)〜(3/3)という番号を付与されているが、この他にも丸数字の1、2、・・・や、(その1)(その2)などが付与されることもある。また数字ではなく、A、B、・・・のようにアルファベットやローマ数字などの記号が付与される場合もある。この場合においても(i)と同様、タイトルの同一性を調べることにより、スライドの連続性が抽出される。ただし、連番の部分はタイトルの類似度を低くするため、事前にタイトルの最後に位置する英数字の情報はタイトルの類似度の算出において考慮されないなどの処理が行われる必要がある。また、予め想定される連番の書き方が辞書に登録され、またはルールとして定められる場合に、その辞書に含まれる書式やルールに適合するものであって、かつタイトル文字列が同一であるものが連続スライドとして抽出されてもよい。
(iii)タイトルがないスライドが用いられる一例が図27の右側の枠528に示される。表などは一枚のスライド内では収めることができない場合もある。このような場合、次のスライドではタイトルが省かれること多い。そのため、タイトルがないスライドは該スライドの前スライドとの連続スライドであると判定される。また、前スライドからの続きであることを明記するために、タイトル部分に「続き」や「Continued」などの文字列が記述される場合もある。そのため、「続き」となる文字列が連続スライド抽出部107に登録され、その文字列を含むスライドは連続スライドと判定される。
連続スライド抽出部107は、目次構造特定表に連続列を追加し、前記(i)〜(iii)の処理により抽出された連続スライドを連続列に記録する。記録方法は以下の方法である。目次構造特定表において、連続スライドの先頭スライド以外のスライドの行の連続列に「連続スライドの先頭のスライド番号」を与える。ただし、これは目次構造特定表の連続列の記録方法の一例であり、スライドが連続していることがわかれば、記録方法はこれに限定されるものではない。
図28に図13のプレゼンテーション文書において連続スライドが抽出された際に得られる目次構造特定表が示される。図13のプレゼンテーション文書においては、前記(i)〜(iii)の処理により、スライド番号5とスライド番号6、スライド番号12とスライド番号13、スライド番号15とスライド番号16が連続スライドとして抽出される。なぜならば、スライド番号5とスライド番号6は連番が振られたタイトルを有し、スライド番号13はタイトルを持たず、スライド番号15とスライド番号16は同一タイトルを連続して有しているためである。図28では、目次構造特定表のスライド番号6の行の連続列に「#5」が、スライド番号13の行の連続列に「#12」、スライド番号16の行の連続列に「#15」が与えられている。
なお、(i)〜(iii)は連続スライドを抽出する一例であり、スライドの連続性を判断できるならば、これ以外の情報が用いられても構わない。
以降のセグメント抽出部104、部分階層抽出部105、抽出情報結合部106においては、連続スライドが一つのスライドとみなされる。そして、実施の形態1と同様の処理が行われることにより、目次構造が特定される。なお、部分階層抽出部105は、小見出しスライドを特定するためにスライドのタイトルを参照する必要がある。そのため、連続スライドが一つのスライドとみなされる場合には、連続スライドにおける代表タイトルが必要になる。代表タイトルは以下の処理により得られる。(1)連続スライド中のスライドにおいて共通する文字列を代表タイトルとする。(2)「続き」に相当するタイトルやタイトルがないために連続スライドとなっている場合には、連続スライド内の先頭のスライドのタイトルを代表タイトルとする。
図28の目次構造特定表から、セグメント抽出部104、部分階層抽出部105、抽出情報結合部106を経て得られる目次構造特定表ならびに目次構造が図29および図30に示される。図29ではセグメント抽出部104において並列パターンが用いられ、図30ではセグメント抽出部104において階層パターンが用いられている。図29および図30共に、目次構造特定表ならびに目次構造の連続スライドとなるスライドの行のセグメント列、部分階層列、階層の深さ列が併合されて示されている。
出力部302は、目次構造特定装置10により特定された連続スライドの情報を含む目次構造特定表を、例えば、ディスプレイ装置を使って表示する。
図31および図32は、図23と図24と同様、木構造のグラフによる出力の様態であり、それぞれ図29および図30の目次構造が表示された結果である。図31および図32中の各ノードの「#数字」はスライド番号を表しており、「#数字−#数字」は連続スライドを表す。図31および図32のように目次構造が階層化され、かつ連続スライドがひとまとめにされて表示されることにより、図23、図24よりも簡便にスライド間の階層関係が表示される。なお、図31および図32では、スライド番号の代わりに各スライドのタイトルが表示されてもよい。このとき、連続スライドのノードには前記代表タイトルが用いられればよい。
また、図33に図25と同様の出力の様態で表示された結果が示される。図33では、得られた目次構造が、索引形式で表示されている。図33の左図529が図29の目次構造、右図530が図30の目次構造を表示した結果を示す。図25では、同じタイトルが連続して索引として現れている。しかし、図30では、連続するスライドを一つのスライドとして捉えられるため、複数のスライド番号を索引とすることでタイトルの重複をなくすことができている。そのため、図25と比較し、図33に示される結果は、索引としてより自然に表示されている。このように連続スライドの抽出は、出力の際に特に大きな効果を発揮する。
図34は、図1または図26に示される目次構造特定装置10のハードウェア構成の一例を示すブロック図である。目次構造特定装置10は、図34に示されるように、制御部31、主記憶部32、外部記憶部33、操作部34、表示部35及び入力部36を備える。主記憶部32、外部記憶部33、操作部34、表示部35及び入力部36はいずれも内部バス30を介して制御部31に接続されている。
制御部31はCPU(Central Processing Unit)等から構成される。制御部31は、外部記憶部33に記憶されている目次構造特定用プログラム500に従って、前述の目次構造特定装置10の処理を実行する。
主記憶部32はRAM(Random-Access Memory)等から構成される。主記憶部32は、外部記憶部33に記憶されている目次構造特定用プログラム500をロードし、制御部31の作業領域として用いられる。図3の構成情報、図6などの目次構造特定表および図21などの目次構造のデータは、主記憶部32に構造化された記憶領域として構成される。
外部記憶部33は、フラッシュメモリ、ハードディスク、DVD−RAM(Digital Versatile Disc Random-Access Memory)、DVD−RW(Digital Versatile Disc ReWritable)等の不揮発性メモリから構成される。外部記憶部33は、前記の処理を制御部31に行わせるための目次構造特定用プログラム500を予め記憶する。また、制御部31の指示に従って、このプログラムが記憶するデータを制御部31に供給し、制御部31から供給されたデータを記憶する。図1または図26の文書データベース301は、外部記憶部33に構成される。目次構造特定処理が行われているときは、それらのデータの一部は主記憶部32に記憶されて制御部31の作業に用いられる。文書データベース301は、目次構造特定装置10のハードウェアとは別の装置で構成されて、目次構造特定装置10とネットワークを介して接続してもよい。また、文書データベース301は、外部記憶部33に接続できる上述の記憶媒体で供給されてもよい。
操作部34は、キーボード及びマウスなどのポインティングデバイス等と、キーボード及びポインティングデバイス等を内部バス30に接続するインターフェース装置から構成されている。操作部34を介して、目次を特定する対象の文書を指定する指令などが入力され、制御部31に供給される。
表示部35は、例えば、CRT(Cathode Ray Tube)もしくはLCD(Liquid Crystal
Display)とそれらの画像表示部を駆動する回路を備え、それらを用いて、文書の目次構造を表または木構造のブロック図などの形式で表示する。
入力部36は、例えば、ネットワークインタフェースを備え、外部の文書データベース301から目的の文書のデータを入力し、制御部31に供給する。
図1または図26の構成情報抽出部101、表紙抽出部102、目次相当情報抽出部103、セグメント抽出部104、部分階層抽出部105、抽出情報結合部106および連続スライド抽出部107の処理は、目次構造特定用プログラム500が、制御部31、主記憶部32、外部記憶部33、操作部34、表示部35および入力部36などを資源として用いて処理することによって実行する。
本発明の目次構造特定装置10は、上述された構成を採用することにより、プレゼンテーション文書における書式や文字列など複数の情報源に基づいて,明記された目次情報がない場合においても文書に見合った目次構造を特定することができる。そして、連続したスライドから構成されるプレゼンテーション文書の部分集合に対して、再帰的に上述の目次構造特定処理が適用されることによって、目次構造特定装置10は、任意の階層構造を有するプレゼンテーション文書についても、その目次構造を特定することができる。さらに、目次構造特定装置10は、連続スライドを抽出し、まとめて表示することができるので、プレゼンテーション文書の構造は容易に把握される。
その他、本発明の好適な変形として、以下の構成が含まれる。
本発明の第1の観点に係る目次構造特定装置について、好ましくは、前記部分構造抽出手段は、所定の書式を有するテキストボックスのみを含むスライドをヘッドラインスライドとして抽出し、1つの前記ヘッドラインスライドから、1つ以上のスライドを間において、前記ヘッドラインスライドのテキストボックスと類似の書式のテキストボックスを含む次のヘッドラインスライドの直前まで、または最後のスライドまで、のスライド群をセグメントとして抽出し、前記1つのヘッドラインスライドをそのセグメントを代表する代表スライドとするセグメント抽出手段を含む。
さらに、前記部分構造抽出手段は、所定の書式のテキストボックスである表題を含むスライドの、前記表題に含まれる文字列である小見出しを、表題以外のテキストボックスの文字列に含むスライドを部分目次スライドとして抽出し、前記部分目次スライドと、前記小見出しを前記表題に含むスライドである小見出しスライドとを、前記部分集合のスライド間の目次と内容の相対的な関係構造として抽出する部分目次抽出手段を含んでもよい。
好ましくは、前記部分目次抽出手段は、箇条書きのみのテキストボックスに含まれる文字列、または、共通の書式を有するテキストボックスの文字列を前記小見出しとして抽出する。
好ましくは、前記部分構造抽出手段は、前記プレゼンテーション文書内に同一の箇条書きのテキストボックスを含む複数のスライドが存在し、前記同一の箇条書きのテキストボックスを含むスライドの数と、前記同一の箇条書きの文字列の行数が一致している場合において、前記同一の箇条書きのテキストボックスを含むスライドの間に挟まれるスライド群と、前記同一の箇条書きの各行の文字列とを対応付け、前記同一の箇条書きの各行に合わせて前記スライド群の相対的な関係構造を抽出する複数目次スライド抽出手段を含む。
好ましくは、前記複数目次スライド抽出手段は、前記同一の箇条書きのテキストボックスにおいて行ごとの書式の違いに基づいて、前記同一の箇条書きのテキストボックスを含むスライドの間に挟まれるスライド群と、前記同一の箇条書きの各行の文字列とを対応付ける。
前記統合手段で決定された各スライドの階層を、各スライドをノードとする木構造により表示する出力手段を備えてもよい。
スライドの書式の特徴を用いて前記プレゼンテーション文書における表紙のスライドを特定し、前記特定した表紙のスライドとそれ以外のスライドを、表紙と本文の関係構造として抽出する表紙抽出手段を備えてもよい。
さらに、前記プレゼンテーション文書全体について、スライドのテキストボックスの書式および/または文字列の情報を用いて目次相当情報を検出し、目次を含むスライド、および/または、見出し項目に該当するスライドを特定する目次相当情報抽出手段を備えてもよい。
好ましくは、前記目次相当情報抽出手段は、前記目次を含むスライドと、前記目次に含まれる見出しを表題とするタイトルスライドを特定する。
さらに、前記プレゼンテーション文書のうち隣接するスライドに、同一の書式を有するテキストボックスであって、それに含まれる文字列の一部または全てに同一性がある場合に、前記隣接するスライドの前記同一の書式を有するテキストボックスの同一の文字列を、前記隣接するスライドの代表表題として抽出する、連続スライド抽出手段を備えてもよい。
本発明の第2の観点に係る目次構造特定方法について、好ましくは、前記部分構造抽出ステップは、所定の書式を有するテキストボックスのみを含むスライドをヘッドラインスライドとして抽出し、1つの前記ヘッドラインスライドから、1つ以上のスライドを間において、前記ヘッドラインスライドのテキストボックスと類似の書式のテキストボックスを含む次のヘッドラインスライドの直前まで、または最後のスライドまで、のスライド群をセグメントとして抽出し、前記1つのヘッドラインスライドをそのセグメントを代表する代表スライドとするセグメント抽出ステップを含む。
さらに前記部分構造抽出ステップは、所定の書式のテキストボックスである表題を含むスライドの、前記表題に含まれる文字列である小見出しを、表題以外のテキストボックスの文字列に含むスライドを部分目次スライドとして抽出し、前記部分目次スライドと、前記小見出しを前記表題に含むスライドである小見出しスライドとを、前記部分集合のスライド間の目次と内容の相対的な関係構造として抽出する部分目次抽出ステップを含んでもよい。
好ましくは、前記部分目次抽出ステップは、箇条書きのみのテキストボックスに含まれる文字列、または、共通の書式を有するテキストボックスの文字列を前記小見出しとして抽出する。
好ましくは、前記部分構造抽出ステップは、前記プレゼンテーション文書内に同一の箇条書きのテキストボックスを含む複数のスライドが存在し、前記同一の箇条書きのテキストボックスを含むスライドの数と、前記同一の箇条書きの文字列の行数が一致している場合において、前記同一の箇条書きのテキストボックスを含むスライドの間に挟まれるスライド群と、前記同一の箇条書きの各行の文字列とを対応付け、前記同一の箇条書きの各行に合わせて前記スライド群の相対的な関係構造を抽出する複数目次スライド抽出ステップを含む。
好ましくは、前記複数目次スライド抽出ステップは、前記同一の箇条書きのテキストボックスにおいて行ごとの書式の違いに基づいて、前記同一の箇条書きのテキストボックスを含むスライドの間に挟まれるスライド群と、前記同一の箇条書きの各行の文字列とを対応付ける。
前記目次構造特定方法は、前記統合ステップで決定された各スライドの階層を、各スライドをノードとする木構造により表示する出力ステップを備えてもよい。
前記目次構造特定方法は、スライドの書式の特徴を用いて前記プレゼンテーション文書における表紙のスライドを特定し、前記特定した表紙のスライドとそれ以外のスライドを、表紙と本文の関係構造として抽出する表紙抽出ステップを備えてもよい。
さらに、前記目次構造特定方法は、前記プレゼンテーション文書全体について、スライドのテキストボックスの書式および/または文字列の情報を用いて目次相当情報を検出し、目次を含むスライド、および/または、見出し項目に該当するスライドを特定する目次相当情報抽出ステップを備えてもよい。
好ましくは、前記目次相当情報抽出ステップは、前記目次を含むスライドと、前記目次に含まれる見出しを表題とするタイトルスライドを特定する。
さらに、前記目次構造特定方法は、前記プレゼンテーション文書のうち隣接するスライドに、同一の書式を有するテキストボックスであって、それに含まれる文字列の一部または全てに同一性がある場合に、前記隣接するスライドの前記同一の書式を有するテキストボックスの同一の文字列を、前記隣接するスライドの代表表題として抽出する、連続スライド抽出ステップを備えてもよい。
その他、前記のハードウエア構成やフローチャートは一例であり、任意に変更及び修正が可能である。
制御部31、主記憶部32、外部記憶部33、操作部34、内部バス30などから構成される目次構造特定処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するためのコンピュータプログラムが、コンピュータが読み取り可能な記録媒体(フレキシブルディスク、CD−ROM、DVD−ROM等)に格納されて配布され、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する目次構造特定装置が構成されてもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムが格納され、通常のコンピュータシステムがダウンロード等することで目次構造特定装置が構成されてもよい。
また、目次構造特定装置の機能を、OS(オペレーティングシステム)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみが記録媒体や記憶装置に格納されもよい。
また、搬送波にコンピュータプログラムが重畳され、通信ネットワークを介して配信されることも可能である。たとえば、通信ネットワーク上の掲示板(BBS, Bulletin Board System)に前記コンピュータプログラムが掲示され、ネットワークを介して前記コンピュータプログラムが配信されてもよい。そして、このコンピュータプログラムが起動され、OSの制御下で、他のアプリケーションプログラムと同様に実行されることにより、前記の処理が実行されるように目次構造特定装置が構成されてもよい。
本出願は、2008年1月11日に出願された、日本国特許出願2008−003964号に基づく。本明細書中に日本国特許出願2008−003964号の明細書、特許請求の範囲、図面全体を参照として取り込むものとする。
本発明は、企業等における目次構造抽出サービスや文書添削サービス等の用途に好適に適用される。

Claims (23)

  1. テキストボックス、表形式、ベクター図形または画像であるオブジェクトを含む複数のスライドから構成されるプレゼンテーション文書の、前記スライド間の関係構造を抽出する目次構造特定装置であって、
    前記スライド毎に、前記スライドに含まれるオブジェクトと、該オブジェクトの書式と、を表す構成情報を記憶する構成情報記憶手段と、
    (a)前記複数のスライドから、前記構成情報が表すオブジェクト及び属性が所定の第1条件を満たす第1スライドを特定し、(b)特定された第1スライド毎に、該第1のスライドから、次の特定された第1のスライドまで、または最後のスライドまで、の連続するスライドで構成される部分集合を特定し、(c)特定された部分集合毎に、前記構成情報が表すオブジェクト及び属性が所定の第2条件を満たす第2スライドと、前記構成情報が表すオブジェクト及び属性が所定の第3条件を満たす第3スライドと、を特定し、(d)前記第1スライドが、該第1スライドが属する部分集合を構成するスライドのうち、該第1スライド以外のスライドと、同じ階層または上位の階層に位置し、前記第2スライドが、前記第3スライドの上位の階層に位置するとして、前記部分集合のスライド間の相対的な関係構造を抽出する部分構造抽出手段と、
    前記部分集合の前記第1スライドの前記プレゼンテーション文書内の階層を、最上層又は最上層の直下の層として特定し、特定された前記第1スライドの前記プレゼンテーション文書内の階層と、前記部分構造抽出手段により抽出された、前記部分集合のスライド間の相対的な関係構造によって決まる階層と、を統合して、前記プレゼンテーション文書を構成する各スライドの階層を決定する統合手段と、
    を備えることを特徴とする目次構造特定装置。
  2. 前記部分構造抽出手段は、
    所定の書式を有するテキストボックスのみを含むことを前記第1条件として、ヘッドラインスライドを前記第1スライドとして抽出し、
    1つの前記ヘッドラインスライドから、1つ以上のスライドを間において、前記ヘッドラインスライドのテキストボックスと類似の書式のテキストボックスを含む次のヘッドラインスライドの直前まで、または最後のスライドまで、のスライド群をセグメントとして抽出し、
    前記1つのヘッドラインスライドをそのセグメントを代表する代表スライドとするセグメント抽出手段を含むことを特徴とする請求項1に記載の目次構造抽出装置。
  3. 前記部分構造抽出手段は、
    所定の書式のテキストボックスである表題を含むスライドの、前記表題に含まれる文字列である小見出しを、表題以外のテキストボックスの文字列に含むことを前記第2条件として、部分目次スライドを前記第2スライドとして抽出し、
    前記第2スライドに含まれる、表題以外のテキストボックスの文字列を前記表題に含むことを前記第3条件として、小見出しスライドを前記第3スライドとして抽出し、
    前記部分目次スライドが、前記小見出しスライドの上位の階層に位置するとして、前記部分集合のスライド間の目次と内容の相対的な関係構造抽出する
    部分目次抽出手段を含むことを特徴とする請求項1に記載の目次構造特定装置。
  4. 前記部分目次抽出手段は、表題以外のテキストボックスであって、箇条書きのみのテキストボックスに含まれる文字列、または、表題以外のテキストボックスであって、共通の書式を有するテキストボックスの文字列に、前記小見出しを含むことを前記第2条件として、前記部分目次スライドを抽出することを特徴とする請求項3に記載の目次構造特定装置。
  5. 前記部分構造抽出手段は、前記プレゼンテーション文書内に同一の箇条書きのテキストボックスを含む複数のスライドが存在し、前記同一の箇条書きのテキストボックスを含むスライドの数と、前記同一の箇条書きの文字列の行数が一致している場合において、
    前記同一の箇条書きのテキストボックスを含むスライドの間に挟まれるスライド群と、前記同一の箇条書きの各行の文字列とを対応付け、
    前記同一の箇条書きの各行に合わせて前記スライド群の相対的な関係構造を抽出する
    複数目次スライド抽出手段を含むことを特徴とする請求項1に記載の目次構造特定装置。
  6. 前記複数目次スライド抽出手段は、前記同一の箇条書きのテキストボックスにおいて行ごとの書式の違いに基づいて、前記同一の箇条書きのテキストボックスを含むスライドの間に挟まれるスライド群と、前記同一の箇条書きの各行の文字列とを対応付ける
    ことを特徴とする請求項5に記載の目次構造特定装置。
  7. 前記統合手段で決定された各スライドの階層を、各スライドをノードとする木構造により表示する出力手段を備えることを特徴とする請求項1に記載の目次構造特定装置。
  8. スライドの書式の特徴を用いて前記プレゼンテーション文書における表紙のスライドを特定し、前記特定した表紙のスライドとそれ以外のスライドを、表紙と本文の関係構造として抽出する表紙抽出手段を備えることを特徴とする請求項1に記載の目次構造特定装置。
  9. 前記プレゼンテーション文書全体について、スライドのテキストボックスの書式および/または文字列の情報を用いて目次相当情報を検出し、目次を含むスライド、および/または、見出し項目に該当するスライドを特定する目次相当情報抽出手段を備えることを特徴とする請求項1に記載の目次構造特定装置。
  10. 前記目次相当情報抽出手段は、前記目次を含むスライドと、前記目次に含まれる見出しを表題とするタイトルスライドを特定することを特徴とする請求項9に記載の目次構造特定装置。
  11. 前記プレゼンテーション文書のうち隣接するスライドに、同一の書式を有するテキストボックスであって、それに含まれる文字列の一部または全てに同一性がある場合に、前記隣接するスライドの前記同一の書式を有するテキストボックスの同一の文字列を、前記隣接するスライドの代表表題として抽出する、連続スライド抽出手段を備えることを特徴とする請求項1に記載の目次構造特定装置。
  12. テキストボックス、表形式、ベクター図形または画像であるオブジェクトを含む複数のスライドから構成されるプレゼンテーション文書の、前記スライド間の関係構造を抽出する目次構造特定装置が実行する目次構造特定方法であって、
    前記目次構造特定装置は、前記スライド毎に、前記スライドに含まれるオブジェクトと、該オブジェクトの書式と、を表す構成情報を記憶する構成情報記憶手段と、部分構造抽出手段と、統合手段と、を備え、
    前記部分構造抽出手段が、(a)前記複数のスライドから、前記構成情報が表すオブジェクト及び属性が所定の第1条件を満たす第1スライドを特定し、(b)特定された第1スライド毎に、該第1のスライドから、次の特定された第1のスライドまで、または最後のスライドまで、の連続するスライドで構成される部分集合を特定し、(c)特定された部分集合毎に、前記構成情報が表すオブジェクト及び属性が所定の第2条件を満たす第2スライドと、前記構成情報が表すオブジェクト及び属性が所定の第3条件を満たす第3スライドと、を特定し、(d)前記第1スライドが、該第1スライドが属する部分集合を構成するスライドのうち、該第1スライド以外のスライドと、同じ階層または上位の階層に位置し、前記第2スライドが、前記第3スライドの上位の階層に位置するとして、前記部分集合のスライド間の相対的な関係構造を抽出する部分構造抽出ステップと、
    前記統合手段が、前記部分集合の前記第1スライドの前記プレゼンテーション文書内の階層を、最上層又は最上層の直下の層として特定し、特定された前記第1スライドの前記プレゼンテーション文書内の階層と、前記部分構造抽出ステップにおいて抽出された、前記部分集合のスライド間の相対的な関係構造によって決まる階層と、を統合して、前記プレゼンテーション文書を構成する各スライドの階層を決定する統合ステップと、
    を備えることを特徴とする目次構造特定方法。
  13. 前記部分構造抽出手段は、セグメント抽出手段を含み、
    前記部分構造抽出ステップは、
    前記セグメント抽出手段が、
    所定の書式を有するテキストボックスのみを含むことを前記第1条件として、ヘッドラインスライドを前記第1スライドとして抽出し、
    1つの前記ヘッドラインスライドから、1つ以上のスライドを間において、前記ヘッドラインスライドのテキストボックスと類似の書式のテキストボックスを含む次のヘッドラインスライドの直前まで、または最後のスライドまで、のスライド群をセグメントとして抽出し、
    前記1つのヘッドラインスライドをそのセグメントを代表する代表スライドとする
    セグメント抽出ステップを含むことを特徴とする請求項12に記載の目次構造特定方法。
  14. 前記部分構造抽出手段は、部分目次抽出手段を含み、
    前記部分構造抽出ステップは、
    前記部分目次抽出手段が、
    所定の書式のテキストボックスである表題を含むスライドの、前記表題に含まれる文字列である小見出しを、表題以外のテキストボックスの文字列に含むことを前記第2条件として、部分目次スライドを前記第2スライドとして抽出し、
    前記第2スライドに含まれる、表題以外のテキストボックスの文字列を前記表題に含むことを前記第3条件として、小見出しスライドを前記第3スライドとして抽出し、
    前記部分目次スライドが、前記小見出しスライドの直上の階層に位置するとして、前記部分集合のスライド間の目次と内容の相対的な関係構造として抽出する
    部分目次抽出ステップを含むことを特徴とする請求項12に記載の目次構造特定方法。
  15. 前記部分目次抽出ステップにおいて、前記部分目次抽出手段は、表題以外のテキストボックスであって、箇条書きのみのテキストボックスに含まれる文字列、または、表題以外のテキストボックスであって、共通の書式を有するテキストボックスの文字列に、前記小見出しを含むことを前記第2条件として、前記部分目次スライドを抽出することを特徴とする請求項14に記載の目次構造特定方法。
  16. 前記部分構造抽出手段は、複数目次スライド抽出手段を含み、
    前記部分構造抽出ステップは、前記プレゼンテーション文書内に同一の箇条書きのテキストボックスを含む複数のスライドが存在し、前記同一の箇条書きのテキストボックスを含むスライドの数と、前記同一の箇条書きの文字列の行数が一致している場合において、
    前記複数目次スライド抽出手段が、
    前記同一の箇条書きのテキストボックスを含むスライドの間に挟まれるスライド群と、前記同一の箇条書きの各行の文字列とを対応付け、
    前記同一の箇条書きの各行に合わせて前記スライド群の相対的な関係構造を抽出する
    複数目次スライド抽出ステップを含むことを特徴とする請求項12に記載の目次構造特定方法。
  17. 前記複数目次スライド抽出ステップにおいて、前記複数目次スライド抽出手段は、前記同一の箇条書きのテキストボックスにおいて行ごとの書式の違いに基づいて、前記同一の箇条書きのテキストボックスを含むスライドの間に挟まれるスライド群と、前記同一の箇条書きの各行の文字列とを対応付ける
    ことを特徴とする請求項16に記載の目次構造特定方法。
  18. 前記目次構造特定装置は、出力手段をさらに備え、
    前記出力手段が、前記統合ステップで決定された各スライドの階層を、各スライドをノードとする木構造により表示する出力ステップを備えることを特徴とする請求項12に記載の目次構造特定方法。
  19. 前記目次構造特定装置は、表紙抽出手段をさらに備え、
    前記表紙抽出手段が、スライドの書式の特徴を用いて前記プレゼンテーション文書における表紙のスライドを特定し、前記特定した表紙のスライドとそれ以外のスライドを、表紙と本文の関係構造として抽出する表紙抽出ステップを備えることを特徴とする請求項12に記載の目次構造特定方法。
  20. 前記目次構造特定装置は、目次相当情報抽出手段をさらに備え、
    前記目次相当情報抽出手段が、前記プレゼンテーション文書全体について、スライドのテキストボックスの書式および/または文字列の情報を用いて目次相当情報を検出し、目次を含むスライド、および/または、見出し項目に該当するスライドを特定する目次相当情報抽出ステップを備えることを特徴とする請求項12に記載の目次構造特定方法。
  21. 前記目次相当情報抽出ステップにおいて、前記目次相当情報抽出手段は、前記目次を含むスライドと、前記目次に含まれる見出しを表題とするタイトルスライドを特定することを特徴とする請求項20に記載の目次構造特定方法。
  22. 前記目次構造特定装置は、連続スライド抽出手段をさらに備え、
    前記連続スライド抽出手段が、前記プレゼンテーション文書のうち隣接するスライドに、同一の書式を有するテキストボックスであって、それに含まれる文字列の一部または全てに同一性がある場合に、前記隣接するスライドの前記同一の書式を有するテキストボックスの同一の文字列を、前記隣接するスライドの代表表題として抽出する、連続スライド抽出ステップを備えることを特徴とする請求項12に記載の目次構造特定方法。
  23. テキストボックス、表形式、ベクター図形または画像であるオブジェクトを含む複数のスライドから構成されるプレゼンテーション文書の、前記スライド間の関係構造を抽出するために、コンピュータを、
    前記スライド毎に、前記スライドに含まれるオブジェクトと、該オブジェクトの書式と、を表す構成情報を記憶する構成情報記憶手段、
    (a)前記複数のスライドから、前記構成情報が表すオブジェクト及び属性が所定の第1条件を満たす第1スライドを特定し、(b)特定された第1スライド毎に、該第1のスライドから、次の特定された第1のスライドまで、または最後のスライドまで、の連続するスライドで構成される部分集合を特定し、(c)特定された部分集合毎に、前記構成情報が表すオブジェクト及び属性が所定の第2条件を満たす第2スライドと、前記構成情報が表すオブジェクト及び属性が所定の第3条件を満たす第3スライドと、を特定し、(d)前記第1スライドが、該第1スライドが属する部分集合を構成するスライドのうち、該第1スライド以外のスライドと、同じ階層または上位の階層に位置し、前記第2スライドが、前記第3スライドの上位の階層に位置するとして、前記部分集合のスライド間の相対的な関係構造を抽出する部分構造抽出手段、
    前記部分集合の前記第1スライドの前記プレゼンテーション文書内の階層を、最上層又は最上層の直下の層として特定し、特定された前記第1スライドの前記プレゼンテーション文書内の階層と、前記部分構造抽出手段により抽出された、前記部分集合のスライド間の相対的な関係構造によって決まる階層と、を統合して、前記プレゼンテーション文書を構成する各スライドの階層を決定する統合手段、
    として機能させることを特徴とするプログラム。
JP2009548918A 2008-01-11 2009-01-06 目次構造特定装置 Expired - Fee Related JP5446877B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009548918A JP5446877B2 (ja) 2008-01-11 2009-01-06 目次構造特定装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008003964 2008-01-11
JP2008003964 2008-01-11
PCT/JP2009/050045 WO2009087999A1 (ja) 2008-01-11 2009-01-06 目次構造特定装置
JP2009548918A JP5446877B2 (ja) 2008-01-11 2009-01-06 目次構造特定装置

Publications (2)

Publication Number Publication Date
JPWO2009087999A1 JPWO2009087999A1 (ja) 2011-05-26
JP5446877B2 true JP5446877B2 (ja) 2014-03-19

Family

ID=40853112

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009548918A Expired - Fee Related JP5446877B2 (ja) 2008-01-11 2009-01-06 目次構造特定装置

Country Status (2)

Country Link
JP (1) JP5446877B2 (ja)
WO (1) WO2009087999A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8108777B2 (en) 2008-08-11 2012-01-31 Microsoft Corporation Sections of a presentation having user-definable properties
JP5556458B2 (ja) * 2010-07-09 2014-07-23 コニカミノルタ株式会社 プレゼンテーション支援装置
US10620795B2 (en) 2013-03-14 2020-04-14 RELX Inc. Computer program products and methods for displaying digital looseleaf content
JP6940112B2 (ja) * 2016-11-22 2021-09-22 株式会社インタラクティブソリューションズ スライド情報管理装置、スライド情報管理システム、スライド情報管理装置の制御方法及びスライド情報管理装置の制御プログラム
CN109670047B (zh) * 2018-11-19 2022-09-20 内蒙古大学 一种抽象笔记生成方法、计算机装置及可读存储介质
CN110704573B (zh) * 2019-09-04 2023-12-22 平安科技(深圳)有限公司 目录存储方法、装置、计算机设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006134036A (ja) * 2004-11-05 2006-05-25 Matsushita Electric Ind Co Ltd スライド構造化装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006134036A (ja) * 2004-11-05 2006-05-25 Matsushita Electric Ind Co Ltd スライド構造化装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNJ200810065221; 山本 康高 外1名: '社内文書検索システム(4)' 第70回(平成20年)全国大会講演論文集(1) アーキテクチャ ソフトウェア科学・工学 データベース , 20080313, p.1-451〜1-452, 社団法人情報処理学会 *
JPN6013014367; 山本 康高 外1名: '社内文書検索システム(4)' 第70回(平成20年)全国大会講演論文集(1) アーキテクチャ ソフトウェア科学・工学 データベース , 20080313, p.1-451〜1-452, 社団法人情報処理学会 *

Also Published As

Publication number Publication date
WO2009087999A1 (ja) 2009-07-16
JPWO2009087999A1 (ja) 2011-05-26

Similar Documents

Publication Publication Date Title
JP3425408B2 (ja) 文書読取装置
JP5663866B2 (ja) 情報処理装置及び情報処理プログラム
US7853869B2 (en) Creation of semantic objects for providing logical structure to markup language representations of documents
US7823061B2 (en) System and method for text segmentation and display
EP1739574B1 (en) Method of identifying words in an electronic document
JP4682284B2 (ja) 文書差分検出装置
US20090123071A1 (en) Document processing apparatus, document processing method, and computer program product
JP5446877B2 (ja) 目次構造特定装置
CN110704570A (zh) 一种连续页版式文档结构化信息提取方法
US11934774B2 (en) Systems and methods for generating social assets from electronic publications
US20170132484A1 (en) Two Step Mathematical Expression Search
US6175843B1 (en) Method and system for displaying a structured document
JP2010108208A (ja) 文書処理装置
US9049400B2 (en) Image processing apparatus, and image processing method and program
JPH11184894A (ja) 論理要素抽出方法および記録媒体
US20120014612A1 (en) Document processing apparatus and computer readable medium
CN113673294B (zh) 文献关键信息的提取方法、装置、计算机设备和存储介质
JP2012190434A (ja) 帳票定義装置、帳票定義方法、プログラム及び記録媒体
CN115995087B (zh) 基于融合视觉信息的文档目录智能生成方法及系统
JP2003186889A (ja) 文書に注釈付けし、文書イメージから要約を生成する方法及び装置
CN110457659B (zh) 条款文档生成方法及终端设备
JP2011060268A (ja) 画像処理装置及び画像処理プログラム
CN114997138B (zh) 一种化学品说明书解析方法、装置、设备及可读存储介质
US20230385540A1 (en) Information processing method, information processing apparatus, and storage medium
JP2002024796A (ja) 文字認識装置および方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130527

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131216

R150 Certificate of patent or registration of utility model

Ref document number: 5446877

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees