JP7433068B2

JP7433068B2 - 文書におけるタイトル及びセクションの推測

Info

Publication number: JP7433068B2
Application number: JP2020018867A
Authority: JP
Inventors: ティムプレブル，
Original assignee: コニカミノルタビジネスソリューションズユー．エス．エー．，インコーポレイテッド
Priority date: 2019-03-29
Filing date: 2020-02-06
Publication date: 2024-02-19
Anticipated expiration: 2040-02-06
Also published as: US20200311412A1; JP2020173784A

Description

本発明は、文書におけるタイトル及びセクションの推測に関する。

ある文書の内容をあらかじめ理解するにあたり、その文書のタイトル及びセクションはユーザーにとって助けとなる。例えばＯＯＸＭＬ文書やＰＤＦ文書等の電子文書は、ユーザーがこれらのタイトル及びセクションを特定できるようにするためのタグを含んでいる。しかし、電子文書の作成方法によっては、全てのタイトルとセクションをタグで特定できない場合があり、タイトルとセクションに誤ったタグ付けがなされる場合もある。それでも、ユーザーはこれら電子文書のタイトル及びセクションを正確に特定したいと考えている。

主として、一側面において、本発明は、コンピューターを用いて、電子文書（ｅｌｅｃｔｒｏｎｉｃｄｏｃｕｍｅｎｔ，ＥＤ）を処理し、当該ＥＤにおけるタイトル及びセクションを推測する方法に関する。当該方法は、前記コンピューターが、前記電子文書に視覚分析を適用し、前記電子文書のタイトル候補及びセクション候補を特定する工程と、前記セクション候補に基づき、前記タイトル候補をフィルタリングする工程と、前記フィルタリングされたタイトル候補に基づき、前記セクション候補をフィルタリングする工程と、前記電子文書に意味分析を適用し、前記電子文書の話題及び部分を特定する工程と、前記特定された話題及び部分に基づき、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込む工程と、前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成する工程と、を含む。

主として、一側面において、本発明は、電子文書（ＥＤ）を処理し、当該ＥＤの構文解析版におけるタイトル及びセクションを推測するためのプログラムを格納した、非一時的なコンピューター読取り可能な媒体（ＣＲＭ）のプログラムに関する。前記プログラムは、コンピューターに、前記電子文書に視覚分析を適用させて、前記電子文書のタイトル候補及びセクション候補を特定させ、前記セクション候補に基づき、前記タイトル候補をフィルタリングさせ、前記フィルタリングされたタイトル候補に基づき、前記セクション候補をフィルタリングさせ、前記電子文書に意味分析を適用させて、前記電子文書の話題及び部分を特定させ、前記特定された話題及び部分に基づき、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込ませ、前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成させる。

主として、一側面において、本発明は、電子文書（ＥＤ）を処理し、当該ＥＤの構文解析版におけるタイトル及びセクションを推測するためのシステムに関する。システムは、メモリーと、前記メモリーと接続されたプロセッサーを備える。前記プロセッサーは、前記電子文書に視覚分析を適用し、前記電子文書のタイトル候補及びセクション候補を特定し、前記セクション候補に基づき、前記タイトル候補をフィルタリングし、前記フィルタリングされたタイトル候補に基づき、前記セクション候補をフィルタリングし、前記電子文書に意味分析を適用し、前記電子文書の話題及び部分を特定し、前記特定された話題及び部分に基づき、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込み、前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成する。

本発明のその他の側面は、以下の説明及び添付の特許請求の範囲から明らかとなる。

本発明の一以上の実施形態に係るシステムを示す。本発明の一以上の実施形態に係るフローチャートを示す。図３Ａ～３Ｅは、本発明の一以上の実施形態に係る実行例を示す。本発明の一以上の実施形態に係るコンピューティングシステムを示す。

本発明の具体的な実施形態を、添付の図面を参照して詳細に説明する。複数の図における同様の構成要素は、一貫性を保つため、同様の参照符号で示される。

以下の本発明の実施形態の詳細な説明では、本発明がより十分に理解されるよう、具体的な詳細を数多く示している。しかし、当業者にとっては、これらの具体的な詳細がなくとも本発明が実施可能であることは明らかであろう。他の例では、説明が不必要に複雑化するのを避けるため、周知の特徴について詳細に説明していない。

主として、本発明の実施形態は、電子文書（ＥＤ）を処理して当該電子文書のタイトル及びセクションを推測するための方法、非一時的なコンピューター読取り可能な媒体（ＣＲＭ）、及びシステムを提供する。具体的には、１ページ以上で、少なくとも１つのセクションを含むＥＤを取得する。ＥＤはタイトルを含んでも含まなくてもよい。ＥＤに対し、視覚分析及び意味分析を組み合わせて適用する処理を一つ以上行い、内容情報（例えば、ＥＤのタイトル候補、セクション候補、話題、及び部分）を取得する。たとえ当該ＥＤのタイトル及びセクションがはっきりと特定されていないとしても（すなわち、ラベル付け及び／又はタグ付けがされていないとしても）、特定されたＥＤの内容から、当該ＥＤのタイトル及びセクションを推測することができる。

図１は本発明の一以上の実施形態に係るシステム（１００）を示す。図１に示されるように、システム（１００）は、例えばバッファ（１０２）、推測エンジン（１０６）、収束エンジン（１０８）といった複数の構成要素を有する。これら構成要素（１０２、１０６、及び１０８）はそれぞれ、同じコンピューティング装置（例えば、パーソナルコンピューター（ＰＣ）、ノート型コンピューター、タブレットＰＣ、スマートフォン、多機能プリンター、キオスク、サーバー等）に配されてもよいし、有線及び／又は無線セグメントを有する任意のサイズのネットワークによって接続された、異なるコンピューティング装置に配されてもよい。各構成要素については以下で説明する。

バッファ（１０２）は、ハードウェア（すなわち、回路）、ソフトウェア、又はこれらの任意の組み合わせに実装できる。バッファ（１０２）は、電子文書（ＥＤ）（１０４）を記憶するように構成される。ＥＤ（１０４）は、文字からなる１行以上のテキストと非テキストオブジェクト（例えば、画像、図、表、図表、グラフ等）との組み合わせを含み得る。ＥＤ（１０４）は、どのような情報源から取得されてもよい（例えば、ダウンロードやスキャン等）。ＥＤ（１０４）は、１ページの文書でも複数ページの文書でもよい。またＥＤ（１０４）は、いかなるサイズ、フォーマットでもよい（例えば、ＰＤＦ、ＯＯＸＭＬ、ＯＤＦ、ＨＴＭＬ等）。

システム（１００）は、推測エンジン（１０６）を含む。推測エンジン（１０６）は、ハードウェア（すなわち、回路）、ソフトウェア、又はこれらの任意の組み合わせに実装できる。推測エンジン（１０６）は、ＥＤ（１０４）を構文解析して、ＥＤ（１０４）内の文字の内容、レイアウト及びスタイル情報を抽出し、抽出された情報に基づいて、ＥＤ（１０４）の構文解析版を生成する。ＥＤ（１０４）の構文解析版は、バッファ（１０２）に記憶され得る。あるいは、推測エンジン（１０６）がＥＤ（１０４）をビットマップオブジェクトに変換し、ＥＤ（１０４）のビットマップ変換版をバッファ（１０２）に記憶する。

推測エンジン（１０６）は更に、ＥＤ（１０４）に視覚分析を適用し、ＥＤ（１０４）の構文解析版における文字のレイアウト及びスタイル情報、又はＥＤ（１０４）のビットマップ変換版に基づいて、タイトル候補及びセクション候補（すなわち、タイトル及びセクションの可能性があるもの）を特定する。視覚分析は、文字のレイアウト及びスタイル情報並びに／又はＥＤ（１０４）のビットマップ変換版を用いて正確にタイトル及びセクション候補を認識できる、いかなるシステム、プログラム、ソフトウェア、又はこれらの組み合わせ（以降、「視覚推測手段」と称する）を用いて適用され得る。例えば、視覚推測手段は、文書のタイトル及びセクションを認識するよう（例えば、人工知能を用いて）訓練された、畳み込みニューラルネットワーク、回帰型ニューラルネットワーク、又はこれらの組み合わせのいずれかであってよい。

タイトル候補は、ＥＤ（１０４）全体としての名前、ＥＤ（１０４）のセクション及び／又はＥＤ（１０４）内の非テキストオブジェクトのいずれかを特定する、テキスト又は複数のテキストの組み合わせを含み得る。タイトル候補は、ＥＤ（１０４）内の他のテキストとは視覚的に異なることがある（例えば、タイトル候補は、より大きなフォントサイズ、異なるフォントスタイル、異なるフォントカラー、又はこれらの組み合わせを有することがある）。ＥＤ（１０４）は、必ずしもタイトル候補を含む必要はない。

セクション候補は、ＥＤ（１０４）の一部を含み得る。このＥＤ（１０４）の一部の内容は、ＥＤ（１０４）の他の内容とは視覚的に異なっている（例えば、一つの段落や段落群、いずれかの非テキストオブジェクト等）。セクション候補は、ネストされた又は階層的に示された小さなセクションを二つ以上含む大きなセクションでもよい。ＥＤ（１０４）は、少なくとも一つのセクション候補を含まなければならない（例えば、一つのセクション候補がＥＤ全体をカバーする）。ＥＤ（１０４）の各セクション候補は、タイトル候補と関連し得る。

推測エンジン（１０６）は更に、ＥＤ（１０４）に対して意味分析を適用し、ＥＤ（１０４）の構文解析版における文字の内容情報、又はＥＤ（１０４）のビットマップ変換版に基づき、話題及び部分を特定する。意味分析は、ＥＤ（１０４）内のテキストの意味（すなわち、意味及び論理）を正確に認識できるいかなるシステム、プログラム、ソフトウェア、又はこれらの組み合わせ（以降、「意味推測手段」と称する）を用いて適用され得る。例えば、意味分析は一以上の自然言語処理（ＮＬＰ）技術を用いて適用され得る。

一以上の実施形態において、ＥＤ（１０４）の話題は、ＥＤ（１０４）全体の、又はＥＤ（１０４）の一以上の箇所の主な内容である。ＥＤ（１０４）は、少なくとも１つ話題を有していなければならない。ＥＤ（１０４）の話題は、タイトル及びセクション候補のうち一つ以上と関連し得る。

一以上の実施形態において、ＥＤ（１０４）の部分は、ＥＤ（１０４）の内容を識別することに基づき特定されるＥＤ（１０４）の一部（すなわち、領域）である。例えば、ＥＤ（１０４）が内容Ａを有するＡ部と、内容Ｂを有するＢ部とを含み、更にこの内容Ａと内容Ｂは異なるとすると、ＥＤ（１０４）のＡ部とＢ部は、それぞれＥＤ（１０４）の部分として特定されるだろう。一以上の実施形態において、ＥＤ（１０４）内の非テキストオブジェクトは、それぞれＥＤ（１０４）の部分として特定される。ＥＤ（１０４）の内容は、話題に基づいて識別され得る（すなわち、異なる話題は異なる内容として扱われる）。ＥＤ（１０４）は、少なくとも一つの部分を含む（すなわち、ＥＤ（１０４）全体が単一の部分として扱われる）。一つの部分は、その部分内にネストされた又は階層的に示された他の部分を一以上含み得る。ＥＤ（１０４）の部分は、タイトル候補及びセクション候補のうち一つ以上と関連し得る（すなわち、ＥＤ（１０４）の部分は、ＥＤ（１０４）の話題の一つ以上と関連し得る）。

一以上の実施形態において、ＥＤ（１０４）のタイトル候補及びセクション候補を特定するのに、単一の視覚推測手段を用いてよい。あるいは、タイトル候補及びセクション候補を特定するのに、複数の視覚推測手段を用いてもよい（例えば、タイトル候補について一以上の視覚推測手段、セクション候補について一以上の視覚推測手段を用いてよい）。同様に、ＥＤ（１０４）の話題及び部分を特定するのに、単一の意味推測手段を用いてよい。あるいは、話題及び部分を特定するのに、複数の意味推測手段を用いてもよい（例えば、話題について一以上の意味推測手段、部分について一以上の意味推測手段を用いてよい）。

システム（１００）は、収束エンジン（１０８）を含む。収束エンジン（１０８）は、ハードウェア（すなわち、回路）、ソフトウェア、又はこれらの任意の組み合わせに実装できる。収束エンジン（１０８）は、推測エンジン（１０６）と連携して機能し、視覚分析と意味分析を所定の順序で適用することによって、ＥＤ（１０４）のタイトル及びセクションを推測するための一以上の実施形態に係る反復処理を実行する。一以上の実施形態に係る反復処理については、以下、図２に示すフローチャートを参照して詳細に説明する。

収束エンジン（１０８）は、更に、タイトル候補及びセクション候補が特定された（すなわち、ユーザーの為に、タイトル候補及びセクション候補が囲みやハイライト等を用いてＥＤ（１０４）の他の内容から区別された）ＥＤ（１０４）のマークアップ版を生成する。一以上の実施形態において、ＥＤ（１０４）のマークアップ版におけるタイトル及びセクションの特定結果は、ＥＤ（１０４）に適用された視覚及び意味推測手段の種類によって異なり得る。

システム（１００）は３つの構成要素（１０２、１０６、１０８）を有するものとしているが、本発明の他の実施形態においては、システム（１００）の構成要素はより多くても少なくてもよい。また、上述した各構成要素の機能は、構成要素間で分担されてもよい。また、反復処理を遂行するにあたり、各構成要素（１０２、１０６、１０８）を複数回用いてよい。

図２は、電子文書（ＥＤ）を処理して当該ＥＤのタイトル及びセクションを推測するための、一以上の実施形態に係る処理のフローチャートである。図２のステップのうち一つ以上が、図１を参照しながら上述したシステム（１００）の構成要素によって実行され得る。本発明の一以上の実施形態において、図２のステップのうち一つ以上を省略し、反復し、及び／又は図２に示される順序とは異なる順序で実施してもよい。よって、本発明の範囲は、図２に示される具体的なステップの配置に限定されるとみなされるべきではない。

はじめに、ＥＤが取得される（ステップ２０５）。ＥＤは、文字から成る１行以上のテキストや非テキストオブジェクト等の組み合わせを含み得る。ＥＤ（１０４）は、どのような情報源から取得されてもよい（例えば、ダウンロードやスキャン等）。ＥＤ（１０４）は、１ページの文書でも複数ページの文書でもよい。また、ＥＤ（１０４）は、いかなるサイズ、フォーマットでもよい（例えば、ＰＤＦ、ＯＯＸＭＬ、ＯＤＦ、ＨＴＭＬ等）。ＥＤは少なくとも一つのセクション、少なくとも一つの話題、少なくとも一つの部分を含み、タイトルは含まなくてもよい。

ステップ２１０Ａでは、図１を参照して上述した視覚推測手段を用いて、ＥＤに対して視覚分析を適用し、ＥＤのタイトル候補を特定する。ステップ２１０Ｂでは、図１を参照して上述した視覚推測手段を用いて、ＥＤに対して視覚分析を適用し、ＥＤのセクション候補を特定する。これについては以下、図３Ｂで詳細に例示する。

ステップ２１５では、ステップ２１０Ｂで特定されたセクション候補を考慮しつつ（すなわち、セクション候補に基づき）、視覚推測手段をＥＤに適用し、ステップ２１０Ａで特定されたタイトル候補をフィルタリングする（すなわち、絞り込む）。ステップ２２０では、ステップ２１５でフィルタリングされたタイトル候補（すなわち、フィルタリングされたタイトル候補）を考慮しつつ、視覚推測手段をＥＤに適用し、ステップ２１０Ｂで特定されたセクション候補をフィルタリングする。

一以上の実施形態において、ステップ２１５及び２２０で生じ得る、特定されたタイトル候補及びセクション候補の変化の度合い（すなわち、新たに特定されたタイトル候補及びセクション候補の数、特定されたタイトル候補及びセクション候補のうち除かれたものの数、特定されたタイトル候補と特定されたセクション候補との関連性、等）については、視覚推測手段が行う分析の特性に左右される（すなわち、視覚推測手段の能力に左右される）。異なる種類の視覚推測手段を用いれば、ステップ２１５と２２０の結果は異なり得る。これについては以下、図３Ｃで詳細に例示する。

ステップ２２５では、図１を参照して説明した意味推測手段を用いて、ＥＤに対して意味分析を適用し、話題及び部分を特定するとともに、特定された部分と特定された話題とを関連付ける。これについては以下、図３Ｄで詳細に例示する。

ステップ２３０では、ステップ２１５と２２０でフィルタリングされたタイトル候補及びセクション候補（すなわち、フィルタリングされたタイトル候補及びフィルタリングされたセクション候補）を再評価し絞り込む。ここでの再評価及び絞り込みは、ステップ２２５で特定された話題及び部分に基づき、視覚推測手段と意味推測手段の組み合わせを用いて行う。

一以上の実施形態において、フィルタリングされたタイトル候補及びセクション候補の絞り込みは、ＥＤの一部のみに基づく絞り込まれたインプットを視覚推測手段に与えることにより、話題及び部分に基づいて行われる。例えば、推測手段へのある絞り込まれたインプットは、ステップ２３０で特定された部分のうち一つに基づき得る（例えば、視覚推測手段による視覚分析は、当該一つの部分のみに対して行われる）。これらの絞り込まれたインプットを用いることで、視覚推測手段の対象が絞られる。これにより、ＥＤの視覚的な特徴（すなわち、ＥＤのスタイル及びレイアウト情報、又はビットマップ変換版におけるあるビット）が、視覚分析をＥＤ全体に適用した場合と比べて、より際立つこととなる。

視覚推測手段の対象は、潜在的な非一貫性のある箇所にフォーカスするよう絞られ得る。例えば、潜在的な非一貫性は、意味推測手段によって特定された情報を用いて、一以上のタイトル候補と、そのタイトル候補に関連のある話題との間において特定され得る（すなわち、あるタイトル候補と関連のある話題を鑑みると、そのタイトル候補がＥＤの実際のタイトルである可能性は低そうである）。そして、視覚推測手段の対象は、この潜在的な非一貫性の周辺箇所（すなわち、一以上の部分又はセクション候補）に絞られ得る。

また、視覚推測手段の対象は、非テキストオブジェクトにフォーカスするよう絞られ得る。例えば、非テキストオブジェクトは、当該非テキストオブジェクトを説明するキャプション（すなわち、非テキストオブジェクトのタイトル）と関連していることがある。こうしたキャプションは、また、ユーザーが非テキストオブジェクトを容易に特定し理解できるよう、非テキストオブジェクトの所定領域内に存在していることがある。以前にタイトル候補として特定されたものであって、非テキストオブジェクトのキャプションである可能性のあるものを探すため、視覚推測手段の対象は、この所定領域に絞られ得る。

一以上の実施形態において、絞り込まれたインプットは、また、視覚分析を更に適用する前のＥＤを一部マスクすることに基づき決定され得る。これらのマスクされた箇所は、ステップ２１０Ａから２２０までに行われた以前の視覚分析で、ＥＤのタイトルではなさそうであると判断されたタイトル候補及びセクション候補を含み得る。ＥＤの一部であって、マスクされないものについては、絞り込まれたインプットとしてその後の分析に供される。

ステップ２３５では、ステップ２３０で特定された話題及び部分を再評価し絞り込む。ここでの再評価及び絞り込みは、ステップ２３０で再評価され絞り込まれた、フィルタリングされたタイトル候補及びセクション候補に基づき、視覚推測手段と意味推測手段の組み合わせを用いて行う。

ステップ２４０では、ステップ２３０以降で絞り込まれたタイトル候補及びセクション候補を更に再評価し絞り込む。ここでの再評価及び絞り込みは、ステップ２３５で再評価され絞り込まれた話題及び部分に基づき、視覚推測手段と意味推測手段の組み合わせを用いて行う。

一以上の実施形態において、再評価及び絞り込みを行った後にステップ２３０から２４０において生じ得る、フィルタリングされたタイトル候補及びセクション候補、並びに話題及び部分についての変化の度合いは、視覚及び意味推測手段が実行する分析の特性に依存し得る（すなわち、視覚及び意味推測手段の能力に依存する）。異なる種類の視覚及び意味推測手段を適用すれば、異なる結果が生じ得る。これについては以下、図３Ｅの説明において詳細に論じる。

ステップ２４５では、収束点（すなわち、これ以上絞り込みを行っても何も変化しない、かつ／又は異なる結果とならない点）に達したかどうか判断する。ステップ２４５の判断がＮＯであれば、処理はステップ２３５に戻り、タイトル候補及びセクション候補、並びに話題及び部分を、相互に基づいて更に絞り込む。

ステップ２４５の判断がＹＥＳであれば、ＥＤのマークアップ版（図１を参照し上述）が生成される。ＥＤのマークアップ版では、更なる再評価及び絞り込みが全て完了した後に残った全てのタイトル候補及びセクション候補が特定されている。

図３Ａから３Ｅは、一以上の実施形態に係る実行例である。図３Ａに示すように、電子文書（ＥＤ）（３０１）は、一行以上のテキストと非テキストオブジェクト（例えば、ワシの絵と円グラフ）を含む。ＥＤ（３０１）に対し、図１と図２を参照して上述した一以上の実施形態に係る反復処理が行われる。一以上の実施形態において、図３Ｂから３Ｅに示される反復処理の結果は、ＥＤ（３０１）に対して行われた視覚及び意味推測手段の種類によって異なり得る。

図３Ｂは、タイトル候補とセクション候補が最初に特定された（図２のステップ２１０Ａと２１０Ｂにおいて上述）後のＥＤ（３０１）を示す。図３Ｂに見られるように、タイトル候補及びセクション候補は、実線の枠で囲まれることで特定される。視覚推測手段は、特殊なスタイル及びレイアウトを有するテキストをタイトル候補として特定し、ＥＤ（３０１）における区別可能な箇所をセクション候補として特定している。

図３Ｃは、最初に特定されたタイトル候補及びセクション候補がフィルタリングされた（図２のステップ２１５と２２０において上述）後のＥＤ（３０１）を示す。図３Ｃに示すように、タイトル候補については何の変化もない（すなわち、ステップ２１５の結果、タイトル候補についての変化の度合いはゼロである）。他方で、セクション候補の枠のうち、２つの枠の境界を定める境界線が変化している。具体的には、２つの非テキストオブジェクトを含むセクション候補は、もはやタイトル候補の「Bald Eagle（ハクトウワシ）」を含んでいない。タイトル候補の「Bald Eagle（ハクトウワシ）」は、今度は、２つの非テキストオブジェクトを持つセクション候補の直下にあるセクション候補に含まれている。

図３Ｄは、話題及び部分が最初に特定された（ステップ２２５において上述）後のＥＤ（３０１）を示す。図３Ｄに見られるように、ＥＤの特定された部分は重複することがある。特定された部分は、異なるスタイルの枠に囲まれて示される。枠のスタイルは、「Birds（鳥）」、「Eagle（ワシ）」、「Fish（魚）」、及び「Science（科学）」を含む特定された話題に基づくものである。ＥＤ（３０１）全体の話題は「Birds（鳥）」と特定されている。長・短・短のダッシュ線の枠は、ＥＤ（３０１）において「Eagle（ワシ）」の話題と関連付けられた部分を示す。点線の枠は、「Fish（魚）」の話題と関連付けられたＥＤ（３０１）の部分を示す。ダッシュ・点・点の線の枠は、「Science（科学）」の話題と関連付けられたＥＤ（３０１）の部分を示す。太い実線の枠は、ＥＤ（３０１）の部分であって、非テキストオブジェクトを含む部分を示すのに用いられているが、これら非テキストオブジェクトはどの話題とも関連付けられていない。

図３Ｅは、収束点に達したと判断された（図２のステップ２３０から２４５において上述）後の、ＥＤ（３０１）のマークアップ版である。図３Ｅに見られるように、視覚及び意味分析の範囲が絞られ、ＥＤ（３０１）の別個の箇所にフォーカスしている。これは、非テキストオブジェクトがそれぞれタイトル候補を含む（すなわち、それぞれキャプションを含む）別々のセクション候補として特定されている箇所において、明らかである。図３Ｂで示されていたセクション候補の中には、拡大して他のセクション候補をカバーしているものもある（すなわち、これらのセクションは、一以上のネストされた／階層的な小さいセクションを含む大きなセクションとなった）。また、最上位のセクション候補以外のセクション候補は、それぞれ少なくとも一つのタイトル候補を含んで示されている。ユーザーは、直接目視確認することにより、ＥＤ（３０１）の全てのタイトルとセクションが正確に特定されていることがわかるだろう。

本発明の実施形態は、使用するプラットフォームにかかわらず、事実上あらゆる種類のコンピューティングシステムに実装できる。例えば、コンピューティングシステムは、一以上の可搬装置（例えば、ノート型コンピューター、スマートフォン、パーソナルデジタルアシスタント、タブレット型コンピューター又はその他の可搬装置）、デスクトップコンピューター、サーバー、サーバーシャーシにおけるブレード、又は本発明の一以上の実施形態を実施するための最低限の処理能力、メモリー及び入出力装置を少なくとも備えるその他の種類の一以上のコンピューティング装置であってよい。例えば図４に示すように、コンピューティングシステム（４００）は、一以上のコンピュータープロセッサー（４０２）、関連するメモリー（４０４）（例えば、ランダムアクセスメモリー（ＲＡＭ）、キャッシュメモリー、フラッシュメモリー等）、一以上の記憶装置（４０６）（例えば、ハードディスク、コンパクトディスク（ＣＤ）ドライブやデジタル多用途ディスク（ＤＶＤ）ドライブといった光ドライブ、フラッシュメモリースティック等）、その他多くの要素及び機能を備え得る。コンピュータープロセッサー（４０２）は、指示を処理するための集積回路でもよい。例えば、コンピュータープロセッサーは、一以上のコア又はプロセッサーのマイクロコアでもよい。また、コンピューティングシステム（４００）は、タッチスクリーン、キーボード、マウス、マイク、タッチパッド、電子ペン、又はその他の種類の入力装置といった、一以上の入力装置（４１０）を備えてよい。また、コンピューティングシステム（４００）は、スクリーン（例えば、液晶ディスプレイ（ＬＣＤ）、プラズマディスプレイ、タッチスクリーン、ブラウン管（ＣＲＴ）モニター、プロジェクタ、又はその他の表示装置）、プリンター、外部記憶装置、又はその他の出力装置といった、一以上の出力装置（４０８）を備えてよい。出力装置のうち一以上が入力装置と同じでもよいし、異なってもよい。コンピューティングシステム（４００）は、ネットワークインターフェース接続（図示なし）を介してネットワーク（４１２）（例えば、ローカルエリアネットワーク（ＬＡＮ）、インターネット等の広域ネットワーク（ＷＡＮ）、モバイルネットワーク、又はその他の種類のネットワーク）に接続されてよい。入力及び出力装置は、ローカルに又はリモートに（例えば、ネットワーク（４１２）を介して）コンピュータープロセッサー（４０２）、メモリー（４０４）及び記憶装置（４０６）に接続されてよい。コンピューティングシステムには多くの異なる種類があり、前述の入力及び出力装置は他の形態をとってもよい。

本発明の実施形態を実施するためのコンピューター読取り可能なプログラムコードの形態をとるソフトウェア指示は、その全体又は一部が、一時的に又は恒久的に、ＣＤ、ＤＶＤ、記憶装置、ディスケット、テープ、フラッシュメモリー、物理メモリー、又はその他のコンピューター読取り可能な記憶媒体といった非一時的なコンピューター読取り可能な媒体に記憶されてよい。具体的には、ソフトウェア指示は、プロセッサーによって実行された際に本発明の実施形態を実施するよう構成された、コンピューター読取り可能なプログラムコードに相当し得る。

更に、前述のコンピューティングシステム（４００）の構成要素は、そのうち一つ以上が遠隔に配され、ネットワーク（４１２）を介してその他の構成要素と接続されてもよい。また、本発明の一以上の実施形態は、複数のノードを有する分散システムに実装されてもよく、本発明の各部は、分散システム内の異なるノード上に配されてもよい。本発明の一実施形態では、ノードは別個のコンピューティング装置に相当する。あるいは、ノードは関連する物理メモリーを有するコンピュータープロセッサーに相当してもよい。あるいは、ノードは、共有メモリー及び/又は情報源を有するコンピュータープロセッサー又はコンピュータープロセッサーのマイクロコアに相当してもよい。

本発明の一以上の実施形態は、以下のうち一以上の効果を有し得る:タグを含まない一以上の電子文書のタイトル及びセクションを正確に特定することができる；電子文書の不正確にタグ付けされたタイトル及びセクションを特定することができる；ユーザーの介入なしに、上記の特定を行うことができる；等。

限られた数の実施形態に関して本発明を説明したが、本開示の恩恵に浴する当業者であれば、ここに開示された本発明の範囲から逸脱しない他の実施形態が考案可能であると分かるだろう。したがって、本発明の範囲は、添付の特許請求の範囲によってのみ限定されるものである。

Claims

コンピューターを用いて、電子文書（ＥＤ）を処理し、前記電子文書におけるタイトル及びセクションを推測する方法であって、前記コンピューターが、
前記電子文書に視覚分析を適用し、前記電子文書のタイトル候補及びセクション候補を特定する工程と、
前記セクション候補に基づき、前記タイトル候補をフィルタリングする工程と、
前記フィルタリングされたタイトル候補に基づき、前記セクション候補をフィルタリングする工程と、
前記電子文書に意味分析を適用し、前記電子文書の話題及び部分を特定する工程と、
前記特定された話題及び部分に基づき、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込む工程と、
前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成する工程と、を含む方法。
前記コンピューターが、
前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補に基づき、前記話題及び前記部分を絞り込む工程と、
前記絞り込まれた話題及び前記絞り込まれた部分に基づき、前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を更に絞り込む工程と、
前記更に絞り込まれたタイトル候補及び前記更に絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成する工程と、を更に含む請求項１に記載の方法。
前記タイトル候補及び前記セクション候補を絞り込む前記工程は、更に、
前記コンピューターが、
前記視覚分析を前記部分のうち第一の部分にのみ再度適用する工程であって、前記第一の部分は前記話題のうち第一の話題に関連している工程と、
前記第一の部分内において特定された、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を、前記第一の話題と比較する工程であって、前記第一の部分内にある前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補は、前記話題のうち第二の話題に関連している工程と、
前記第一の話題が前記第二の話題と一致することに基づき、前記第一の部分内にある前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補が、前記第一の部分と関連していると判断する工程と、を含む請求項１又は２に記載の方法。
前記コンピューターが、
前記視覚分析及び前記意味分析を前記電子文書の全体に行うことに基づき、前記第一の話題と前記第二の話題との間の潜在的な非一貫性を特定する工程と、
前記潜在的な非一貫性に基づき、前記第一の部分を選択する工程と、を更に含む請求項３に記載の方法。
前記セクション候補はそれぞれ、前記タイトル候補のうち少なくとも一つと関連しており、
前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込む前記工程は、更に、
前記コンピューターが、
前記フィルタリングされたセクション候補のうち、前記フィルタリングされたタイトル候補のいずれとも関連していない第一のフィルタリングされたセクション候補を特定する工程と、
前記視覚分析を、前記第一のフィルタリングされたセクション候補にのみ再度適用する工程と、
前記第一のフィルタリングされたセクション候補が非テキストオブジェクトを含むと判断する工程と、
前記視覚分析を用いて、前記フィルタリングされたタイトル候補のいずれかが前記非テキストオブジェクトの所定領域内にあるかどうか探す工程と、
前記フィルタリングされたタイトル候補のうち第一のフィルタリングされたタイトル候補を、前記所定領域内において特定することに基づき、前記第一のフィルタリングされたタイトル候補が、前記第一のフィルタリングされたセクション候補のタイトルであると判断する工程と、を含む請求項１から４のいずれか一項に記載の方法。
前記電子文書は複数のページを含み、
前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込む前記工程は、更に、
前記コンピューターが、
前記話題又は前記部分に基づき、前記電子文書を、前記ページの第一サブセットと、前記第一サブセットと重複しない前記ページの第二サブセットとに絞り込む工程と、
前記第一サブセット及び前記第二サブセット内において、特定されなかった追加のタイトル候補及びセクション候補を特定するために、前記視覚分析を前記第一サブセット及び前記第二サブセットに対して別々に適用する工程と、を含む請求項１から５のいずれか一項に記載の方法。
前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込む前記工程は、更に、
前記コンピューターが、
前記話題又は前記部分に基づき、前記電子文書を、第一部と、前記第一部と重複せずかつマスクされた第二部に絞り込む工程と、
前記第一部内において、特定されなかった追加のタイトル候補及びセクション候補を特定するために、前記視覚分析を前記第一部にのみ再度適用する工程と、を含む請求項１から６のいずれか一項に記載の方法。
前記電子文書の前記タイトル及び前記セクションはタグを含まない、請求項１から７のいずれか一項に記載の方法。
前記視覚分析は、畳み込みニューラルネットワーク（ＣＮＮ）を回帰型ニューラルネットワーク（ＲＮＮ）と組み合わせて用いて適用される、請求項１から８のいずれか一項に記載の方法。
前記意味分析は、自然言語処理（ＮＬＰ）を用いて適用される、請求項１から９のいずれか一項に記載の方法。
電子文書（ＥＤ）を処理して、前記電子文書の構文解析版におけるタイトル及びセクションを推測するためプログラムを格納した、非一時的なコンピューター読取り可能な媒体（ＣＲＭ）において、前記プログラムは、コンピューターに
前記電子文書に視覚分析を適用させて、前記電子文書のタイトル候補及びセクション候補を特定させ、
前記セクション候補に基づき、前記タイトル候補をフィルタリングさせ、
前記フィルタリングされたタイトル候補に基づき、前記セクション候補をフィルタリングさせ、
前記電子文書に意味分析を適用させて、前記電子文書の話題及び部分を特定させ、
前記特定された話題及び部分に基づき、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込ませ、
前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成させるプログラム。
前記プログラムは、更に、コンピューターに
前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補に基づき、前記話題及び前記部分を絞り込ませ、
前記絞り込まれた話題及び前記絞り込まれた部分に基づき、前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を更に絞り込ませ、
前記更に絞り込まれたタイトル候補及び前記更に絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成させる、請求項１１に記載のプログラム。
前記タイトル候補及び前記セクション候補の前記絞り込みは、更に、
前記視覚分析を、前記部分のうち第一の部分にのみ再度適用する工程であって、前記第一の部分は前記話題のうち第一の話題に関連している工程と、
前記第一の部分内において特定された、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を前記第一の話題と比較する工程であって、前記第一の部分内にある前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補は、前記話題のうち第二の話題に関連している工程と、
前記第一の話題が前記第二の話題と一致することに基づき、前記第一の部分内にある前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補が、前記第一の部分と関連していると判断する工程と、を含む、請求項１１又は１２に記載のプログラム。
前記プログラムは、更に、コンピューターに、
前記視覚分析及び前記意味分析を前記電子文書の全体に行うことに基づき、前記第一の話題と前記第二の話題との間の潜在的な非一貫性を特定させ、
前記潜在的な非一貫性に基づき、前記第一の部分を選択させる、請求項１３に記載のプログラム。
前記セクション候補はそれぞれ、前記タイトル候補のうち少なくとも一つと関連しており、
前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補の前記絞り込みは、更に、
前記フィルタリングされたセクション候補のうち、前記フィルタリングされたタイトル候補のいずれとも関連していない第一のフィルタリングされたセクション候補を特定する工程と、
前記視覚分析を、前記第一のフィルタリングされたセクション候補にのみ再度適用する工程と、
前記第一のフィルタリングされたセクション候補が非テキストオブジェクトを含むと判断する工程と、
前記視覚分析を用いて、前記フィルタリングされたタイトル候補のいずれかが前記非テキストオブジェクトの所定領域内にあるかどうか探す工程と、
前記フィルタリングされたタイトル候補のうち第一のフィルタリングされたタイトル候補を、前記所定領域内において特定することに基づき、前記第一のフィルタリングされたタイトル候補が、前記第一のフィルタリングされたセクション候補のタイトルであると判断する工程と、を含む、請求項１１から１４のいずれか一項に記載のプログラム。
電子文書（ＥＤ）を処理して、前記電子文書の構文解析版におけるタイトル及びセクションを推測するためのシステムであって、前記システムは
メモリーと、
前記メモリーと接続されたプロセッサーを備え、前記プロセッサーは、
前記電子文書に視覚分析を適用し、前記電子文書のタイトル候補及びセクション候補を特定し、
前記セクション候補に基づき、前記タイトル候補をフィルタリングし、
前記フィルタリングされたタイトル候補に基づき、前記セクション候補をフィルタリングし、
前記電子文書に意味分析を適用し、前記電子文書の話題及び部分を特定し、
前記特定された話題及び部分に基づき、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込み、
前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成するシステム。
前記プロセッサーは、更に、
前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補に基づき、前記話題及び前記部分を絞り込み、
前記絞り込まれた話題及び前記絞り込まれた部分に基づき、前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を更に絞り込み、
前記更に絞り込まれたタイトル候補及び前記更に絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成する、請求項１６に記載のシステム。
前記タイトル候補及び前記セクション候補の前記絞り込みは、更に、
前記視覚分析を、前記部分のうち第一の部分にのみ再度適用する工程であって、前記第一の部分は前記話題のうち第一の話題に関連している工程と、
前記第一の部分内において特定された、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を前記第一の話題と比較する工程であって、前記第一の部分内にある前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補は、前記話題のうち第二の話題に関連している工程と、
前記第一の話題が前記第二の話題と一致することに基づき、前記第一の部分内にある前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補が、前記第一の部分と関連していると判断する工程と、を含む、請求項１６又は１７に記載のシステム。
前記プロセッサーは、更に、
前記視覚分析及び前記意味分析を前記電子文書の全体に行うことに基づき、前記第一の話題と前記第二の話題との間の潜在的な非一貫性を特定し、
前記潜在的な非一貫性に基づき、前記第一の部分を選択する、請求項１８に記載のシステム。
前記セクション候補はそれぞれ、前記タイトル候補のうち少なくとも一つと関連しており、
前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補の前記絞り込みは、更に、
前記フィルタリングされたセクション候補のうち、前記フィルタリングされたタイトル候補のいずれとも関連していない第一のフィルタリングされたセクション候補を特定する工程と、
前記視覚分析を、前記第一のフィルタリングされたセクション候補にのみ再度適用する工程と、
前記第一のフィルタリングされたセクション候補が非テキストオブジェクトを含むと判断する工程と、
前記視覚分析を用いて、前記フィルタリングされたタイトル候補のいずれかが前記非テキストオブジェクトの所定領域内にあるかどうか探す工程と、
前記フィルタリングされたタイトル候補のうち第一のフィルタリングされたタイトル候補を、前記所定領域内において特定することに基づき、前記第一のフィルタリングされたタイトル候補が、前記第一のフィルタリングされたセクション候補のタイトルであると判断する工程と、を含む、請求項１６から１９のいずれか一項に記載のシステム。