JP6110389B2

JP6110389B2 - 電子文書の内容を自動的に要約するための方法、有形のコンピュータ可読媒体及びシステム

Info

Publication number: JP6110389B2
Application number: JP2014535720A
Authority: JP
Inventors: インダージートマニ; エウジェニオシウラナ; ニコラスダロイシオ−モンティラ; バートケイスワンソン
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2011-10-14
Filing date: 2012-09-11
Publication date: 2017-04-05
Anticipated expiration: 2032-09-11
Also published as: CN103874994B; CN103874994A; AU2012327239B2; US9916309B2; EP2756425A1; JP2014528620A; WO2013066497A9; AU2012327239A1; CA2851772A1; RU2595594C2; EP2756425A4; AU2012327239B8; US10599721B2; US20180196804A1; EP2756425B1; WO2013066497A1; US20150095770A1; IL231802A; IL231802A0; RU2014119239A

Description

関連出願の相互参照
本出願は、２０１１年１２月７日に出願された英国特許出願番号１１２１０３３．３及び２０１１年１２月８日に出願された米国仮特許出願番号６１／５６８，１８８の優先権を主張するものであり、それらの両方の全体が、引用により本明細書に組み込まれる。

本発明は、電子文書の内容を自動的に要約するための方法、有形のコンピュータ可読媒体及びシステムに関する。

検索エンジンを用いてワールドワイドウェブ上で実行される一般的な検索は、複数の検索結果（例えば、ニュース記事、ウェブページ、ソーシャルメディアコンテンツ、及び同様のもの）を生成する。しかしながら、検索結果の少なくとも一部分は、多くの場合、検索に関係するものではない。さらに、関係するものであっても、検索結果の内容は文書毎に異なる場合がある。

さらに、ソーシャルメディアは、ユーザが、様々な電子文書を別のユーザに推薦することを可能にする。しかしながら、統一資源位置識別子（ＵＲＬ）又はタイトルを見たときに、リンクされた電子文書が、関心がありそうか否かを見分けるのは困難である場合がある。

Ｃｈｉｎ−ＹｅｗＬｉｎ著「ＲＯＵＧＥ：ＡＰａｃｋａｇｅｆｏｒＡｕｔｏｍａｔｉｃＥｖａｌｕａｔｉｏｎｏｆＳｕｍｍａｒｉｅｓ（ＲＯＵＧＥ：要約の自動評価のためのパッケージ）」、ＷｏｒｋｓｈｏｐｏｎｔｅｘｔＳｕｍｍａｒｉｚａｔｉｏｎＢｒａｎｃｈｅｓＯｕｔ会報（ＷＡＳ２００４）スペイン、バルセロナ、２００４年７月２５〜２６日Ｈｓｕ他著「ＡＰｒａｃｔｉｃａｌＧｕｉｄｅｔｏＳｕｐｐｏｒｔＶｅｃｔｏｒＣｌａｓｓｉｆｉｃａｔｉｏｎ（実践サポートベクトル分類ガイド）」、ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ、ＮａｔｉｏｎａｌＴａｉｗａｎＵｎｉｖｅｒｓｉｔｙＢｒｉｎ他著「ＴｈｅＡｎａｔｏｍｙｏｆａＬａｒｇｅ−ＳｃａｌｅＨｙｐｅｒｔｅｘｔｕａｌＷｅｂｓｅａｒｃｈＥｎｇｉｎｅ（大規模ハイパーテキストウェブ検索エンジンの精密な解析）」、ＣｏｍｐｕｔｅｒＮｅｔｗｏｒｋｓａｎｄＩＳＤＮＳｙｓｔｅｍｓ、第３０巻、１〜７頁（１９９８年）Ｍｉｈａｌｃｅａ著「Ｇｒａｐｈ−ＢａｓｅｄＲａｎｋｉｎｇＡｌｇｏｒｉｔｈｍｓｆｏｒＳｅｎｔｅｎｃｅＥｘｔｒａｃｔｉｏｎ，ＡｐｐｌｉｅｄｔｏＴｅｘｔＳｕｍｍａｒｉｚａｔｉｏｎ（テキスト要約に適用される、文抽出のためのグラフ利用のランク付けアルゴリズム）」、Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４２ｎｄＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（ＡＣＬ２００４）スペイン、バルセロナ

従って、実際に関係する又は関心のある内容を有する文書を発見することは、ユーザが、複数の文書を、その内容の予備知識をほとんど有さずに１つ１つ調べることを必要とする場合もあるので、ある程度の試行錯誤を伴う。この試行錯誤は、特に文書のどれも長い場合（例えば、書籍又はいずれかのニュース記事の場合）には、時間を要する労作業である可能性がある。移動体デバイス（例えば、スマートフォン）上で行われる場合には、様々な文書を１つ１つ校閲することは、これらの文書が、より長い閲覧時間及びデバイス上へのロード時間を必要とする場合があるので、さらに一層時間を要する可能性がある。

電子文書を要約するための方法の一実施形態は、電子文書を、各々が、個別の長さ、個別の情報性スコア、及び個別の一貫性スコアに関係付けられた複数の語句に分割する段階と、サブセットの総計情報性スコアが最大化されるが、複数の語句からなるサブセットの総計長さが長さ上限よりも短い又はそれに等しいように、前記サブセットを自動的に選択する段階と、サブセットを電子文書の要約として配列する段階とを含む。

更なる実施形態では、サブセットは、複数の語句の全てよりも少ない語句を含み、語句のうちの少なくとも１つは文を含み、複数の語句のうちの所与の語句に関する個別の情報性スコアは、言語に依存しないスコア付け手法に従って割り当てられ、スコア付け手法は、手動でコード化されたルールセットに従って所与の語句の複数の特徴に重み値を割り当て、複数の語句のうちの所与の語句に関する個別の情報性スコアは、言語に依存するスコア付け手法に従って割り当てられ、スコア付け手法は、統計分類器を用いる監視あり機械学習手法であり、統計分類器は、サポートベクトルマシンであり、スコア付け手法は、所与の語句を有向グラフ内の重み付きノードとして表す監視なし機械学習手法であり、複数の語句の各々に関する個別の情報性スコアは、少なくとも閾値に等しく、複数の語句の各々の個別の一貫性スコアは、少なくとも閾値に等しく、方法はさらに、分割する段階の後で自動的に選択する段階の前に、複数の語句の各々の枝刈りを行う段階を含み、自動的に選択する段階は、組み合わせ最適化器を用いて実行され、自動的に選択する段階は、複数の語句の各々を個別に評価してサブセット内に包含する段階を含み、評価する段階は、複数の語句のうちで、サブセットの現在の総計長さを超える個別の長さを有する語句をサブセット内への包含から除外する段階を含み、評価する段階は、複数の語句のうちの所与の語句に関して、所与の語句が除外され、総計長さが前記長さ上限よりも短い又はそれに等しい、複数の語句からなる最も情報性の高いサブセット、に関連する個別の情報性スコアの合計値である第１の合計値を算出する段階と、第１の合計値から所与の語句の個別の長さを減算した値に等しい第１の値と、所与の語句の個別の情報性スコアである第２の値との合計値である第２の合計値を算出する段階と、所与の語句を前記サブセット内に含めるか否かを、前記第１の合計値と前記第２の合計値との比較に基づいて決定する段階とを含み、判定する段階は、第２の合計値が第１の合計値よりも大きい場合に、所与の語句をサブセット内に含める段階と、第１の合計値が第２の合計値よりも大きい場合に、所与の語句をサブセットから除外する段階とを含み、複数の語句は、複数の語句の各々が電子文書内で出現する順序により整列し、方法はさらに、分割する段階、自動的に選択する段階、及び配列する段階の前に、電子文書が要約可能であることを判定する段階を含み、判定する段階は、電子文書に関して、電子文書の複数の特徴を含む特徴ベクトルを生成する段階と、複数の特徴の各々に重み値を割り当てる段階と、電子文書が要約可能であるか否かを示すスコアを、複数の特徴の各々に割り当てられた重み値に従って電子文書に割り当てる段階とを含み、重み値は自動的に学習され、重み値を割り当てる段階は、複数の特徴のうちの所与の特徴に関して、所与の特徴が、要約可能な文書を含む学習例のセットにおいて少なくとも所定の頻度で出現する場合に、重み値を増加させる段階と、所与の特徴が、要約可能な文書を含む学習例のセットにおいて少なくとも所定の頻度で出現する場合に、重み値を増加させる段階とを含み、重み値を割り当てる段階及びスコアを割り当てる段階は、電子文書が記述された言語に特有の方法で実行される。

電子文書を要約するための実行可能プログラムを含む有形のコンピュータ可読媒体の一実施形態は、電子文書を、各々が、個別の長さ、個別の情報性スコア、及び個別の一貫性スコアに関係付けられた複数の語句に分割する段階と、サブセットの総計情報性スコアが最大化されるが、複数の語句からなるサブセットの総計長さが長さ上限よりも短い又はそれに等しいように、前記サブセットを自動的に選択する段階と、サブセットを電子文書の要約として配列する段階とを含む動作を実行するプログラムを含む。

電子文書を要約するためのシステムの一実施形態は、プロセッサと、電子文書を、各々が、個別の長さ、個別の情報性スコア、及び個別の一貫性スコアに関係付けられた複数の語句に分割する段階と、サブセットの総計情報性スコアが最大化されるが、複数の語句からなるサブセットの総計長さが長さ上限よりも短い又はそれに等しいように、前記サブセットを自動的に選択する段階と、サブセットを電子文書の要約として配列する段階とを含む動作をプロセッサに実行させる実行可能プログラムを含むコンピュータ可読媒体とを含む。

本発明の教示は、以下の詳細な説明を、添付図面と併せて考慮することによって容易に理解することができる。

本発明の実施形態を展開することができる通信ネットワークの一実施例を示すブロック図である。図１に示すアプリケーションサーバのより詳細な実施形態を示すブロック図である。本発明による、電子文書から内容を抽出するための方法の一実施形態を示すフロー図である。本発明による、電子文書を要約することができるか否かを判定するための方法の一実施形態を示すフロー図である。本発明による、電子文書を要約するための方法の一実施形態を示すフロー図である。本発明による、文セットを選択して文書要約を形成するための方法の一実施形態を示すフロー図である。汎用コンピューティングデバイスを用いて実装された本発明の高水準ブロック図である。

一実施形態では、本発明は、電子文書の内容を自動的に要約するための方法及び装置である。本発明の実施形態は、電子文書をデバイス上にロードすることを必要とせずに電子文書の内容を要約することによって、簡潔で効率的なコンテンツ消費を容易にする。一実施形態では、本発明は、スマートフォン又はタブレットコンピュータ等の、ネットワークを介して遠隔地サーバと相互作用する移動体デバイス用のアプリケーションとして実装される。

図１は、本発明の実施形態を内部に展開することができる通信ネットワーク１００の一実施例を示すブロック図である。通信ネットワーク１００は、本開示に関連する、例えば、従来の回路交換ネットワーク（例えば、公衆交換電話網（ＰＳＴＮ）又はインターネットプロトコル（ＩＰ）ネットワーク（例えば、ＩＰマルチメディアサブシステム（ＩＭＳ）ネットワーク、非同期転送モード（ＡＴＭ）ネットワーク、無線ネットワーク、セルラーネットワーク（例えば、２Ｇ、３Ｇ、及び同様のもの）、ロング・ターム・エボリューション（ＬＴＥ）ネットワーク、及び同様のもの）等のいずれかの種類の通信ネットワークとすることができる。ＩＰネットワークは、データパケットを交換する上でインターネットプロトコルを用いるネットワークとして広義に定義されることに留意されたい。別の例示的なＩＰネットワークは、ボイスオーバーＩＰ（ＶｏＩＰ）ネットワーク、サービスオーバーＩＰ（ＳｏＩＰ）ネットワーク、及び同様のものを含む。

一実施形態では、ネットワーク１００は、コアネットワーク１０２を備えることができる。コアネットワーク１０２は、１つ又はそれ以上のアクセスネットワーク１２０及び１２２と通信することができる。アクセスネットワーク１２０及び１２２は、無線アクセスネットワーク（例えばＷｉＦｉネットワーク及び同様のもの）、セルラーアクセスネットワーク、ＰＳＴＮアクセスネットワーク、ケーブルアクセスネットワーク、有線アクセスネットワーク、及び同様のものを含むことができる。一実施形態では、アクセスネットワーク１２０及び１２２は、全て異なる種類のアクセスネットワークとすること、全て同じ種類のアクセスネットワークとすること、又は幾つかのアクセスネットワークを同じ種類のアクセスネットワークとし、その他のアクセスネットワークを、別の種類のアクセスネットワークとすることができる。コアネットワーク１０２とアクセスネットワーク１２０及び１２２は、異なるサービスプロバイダ、同じサービスプロバイダ、又はそれらの組み合わせによって運用することができる。

一実施形態では、コアネットワーク１０２は、アプリケーションサーバ（ＡＳ）１０４とデータベース（ＤＢ）１０６とを含むことができる。単一のＡＳ１０４及び単一のＤＢ１０６のみを示しているが、任意の数のアプリケーションサーバ１０４又はデータベース１０６を展開できることに留意されたい。例えば、コアネットワーク１０２は、サービス及びアプリケーションを高度な負荷分散方式に対応するクラウド環境の一部分を備えることができる。

一実施形態では、ＡＳ１０４は、図７に示し、以下に説明するように、汎用コンピュータを含むことができる。一実施形態では、ＡＳ１０４は、電子文書の内容を要約することに関して以下に説明する方法及びアルゴリズムを実行することができる。

一実施形態では、ＤＢ１０６は、ＡＳ１０４によって収集され要約された電子文書の要約を格納する。別の実施形態では、ＤＢ１０６は、ネットワーク１００のユーザに関するプロファイルを選択的に格納することができる。例えば、ＤＢ１０６は、各ユーザに関する携帯電話番号、電子メールアドレス、ソーシャルメディアプロファイル、及び同様のものを格納することができる。この個人情報は、ユーザのプライバシーを保護するように、暗号化形態で格納することができる。さらに、ユーザ認可を必要として、ＤＢ１０６が任意の個人情報を格納することができる。追加的に、ＤＢ１０６は、関心のある内容（例えば、芸能、スポーツ、科学等に関連するニュース記事）の種類に関するユーザの選好性を格納することができる。

一実施形態では、アクセスネットワーク１２０は、１つ又はそれ以上のユーザ端末デバイス（「端末デバイス」又は「ＵＥ」とも呼称）１０８及び１１０と通信することができる。一実施形態では、アクセスネットワーク１２２は、１つ又はそれ以上のユーザ端末デバイス１１２及び１１４と通信することができる。

一実施形態では、ユーザ端末デバイス１０８、１１０、１１２、及び１１４は、任意の種類の端末デバイスとすることができ、例えば、デスクトップコンピュータ、又はセルラー電話、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、ネットブック、ウルトラブック、携帯メディアデバイス（例えばＭＰ３プレーヤ）、ゲーム機、携帯ゲームデバイス、及び同様のもの等の移動体端末デバイスとすることができる。図１には４つのユーザ端末デバイスのみを示してが、任意の個数のユーザ端末デバイスを展開できることに留意されたい。一実施形態では、任意のユーザ端末デバイスは、内部に組み込まれた１つ又はそれ以上のセンサを有することができる。これらのセンサは、例えば、位置センサ、環境センサ、音響センサ、ポジションセンサ、光センサ、圧力センサ、近接センサ、及び同様のものを含むことができる。ＡＳ１０４は、以下により詳細に解説するように、これらのセンサの出力を定期受信することができる。

ネットワーク１００は、単純化したものであることに留意されたい。例えば、ネットワーク１００は、ネットワーク境界要素、ルータ、スイッチ、ポリシーサーバ、セキュリティデバイス、コンテンツ分散ネットワーク（ＣＤＮ）、及び同様のもの等の他のネットワーク要素を含むことができる。

図２は、図１に示すアプリケーションサーバ１０４のより詳細な実施形態を示すブロック図である。図示のように、ＡＳ１０４は、全体が、自然言語処理（ＮＬＰ）システム２００とバス２０４とを備える。

バス２０４は、複数の情報源２０６₁〜２０６_n（以下では集合的に「供給源２０６」と呼称）から電子文書を収集する。一実施形態では、バス２０４は、これらの文書を情報源２０６から取り出す。従って文書は、例えば、ウェブフィード（例えば、リッチサイトサマリー（ＲＳＳ）フィード、アトムフィード等）及びウェブページ（例えば、ニュースサイト、ソーシャルメディアサイト等）を含むことができる。バス２０４は、収集した文書を、以下により詳細に説明する更なる処理及び要約に向けてＮＬＰシステム２００に転送する。一実施形態では、バス２０６は、ミュールエンタープライズサービスバス（ＥＳＢ）である。

ＮＬＰシステム２００は、一般的に抽出器２０８と、分類器２１０と、要約器２１２とを備える。抽出器２０８は、バス２０４から収集済み文書を受け取って、これらの文書から内容を抽出する第１のフィルタを備える。一実施形態では、抽出対象のコンテンツは、テキスト、画像、又はビデオのうちの１つ又はそれ以上を含む。抽出対象のコンテンツは、任意の言語におけるものとすることができる。一実施形態では、抽出器２０８は、コンテンツを抽出する上で発見的手法を用いる。

分類器２１０は、抽出器２０８から抽出済みコンテンツのうちの少なくとも幾つかを受け取り、これらの抽出済みコンテンツに基づいて、元の文書を要約することができるか否かを判定する。一実施形態では、分類器２１０は、学習された（例えば、監視あり）言語モデルを用いる統計分類器である。例えば、特定の一実施形態において、分類器２１０は線形回帰分類器である。

要約器２１２は、分類器によって要約可能であると判定された元の文書を受け取って文書を要約する。一実施形態では、要約器２１２は、様々な長さを有する少なくとも２つの要約情報を生成する。例えば、要約器２１２は、「短い」要約情報と「長い」要約情報とを生成することができ、長い要約情報は、短い要約情報よりも約３３パーセントから５０パーセント長い（例えば、短い要約情報は、約３９０文字に制限することができ、長い要約情報は、約５９０文字に制限される）。要約器２１２は、要約情報を格納用のデータベース１０６に出力する。次に、データベース１０６は、以下により詳細に説明するように、要約情報を１つ又はそれ以上のユーザ端末デバイス１０８、１１０、１１２、及び１１４に転送することができる。

図３は、本発明による、電子文書から内容を抽出するための方法３００の一実施形態を示すフロー図である。方法３００は、例えば、図１及び図２に示すアプリケーションサーバ１０４で実装することができる。従って、方法３００の説明において、図２に示す様々な要素に言及する。しかしながら、方法３００は、図２に示すサーバ構成を用いた実施例に限定されず、かかる言及は、ほとんどが説明を容易にするために行うものであることが理解されよう。

方法３００は、段階３０２で開始する。段階３０４では、バス２０４が、ＵＲＬ及びタイトルを有する電子文書を取得する。上記に説明したように、バス２０４は、文書をネットワーク１００から取り出すことができる。一実施形態では、文書は、ウェブフィード又はウェブページである。

段階３０６では、抽出器２０８が、ＵＲＬが妥当であるか否か（すなわち、要約に適する内容を含む）を判定する。例えば、手紙、議論、広告、連絡アドレス、又は同様のもの等の特定の文書は、要約には適さない可能性がある。一実施形態では、この判定は、１つ又はそれ以上の事前に指定されたパターンに従って行われる。例えば、ストーリー｜エントリ｜ページ｜コンテンツ｜テキスト｜本文、又は同様のもの等のパターンは、要約に適する内容を示すものとすることができ、一方、Ｖカード｜宣伝｜バナー広告｜マストヘッド、又は同様のもの等のパターンは、要約には適さない内容を示すものとすることができる。抽出器２０８は、段階３０６においてＵＲＬが妥当ではないと結論付けた場合には、段階３０８において文書を破棄し、その後、方法３００は段階３２０において終了する。

或いは、抽出器２０８が段階３０６においてＵＲＬが妥当であると結論付けた場合には、方法３００は段階３１０に進む。段階３１０において、抽出器２０８は、文書のソースコード（例えばハイパーテキストマークアップ（ＨＴＴＰ）コード）を構文解析する。一実施形態では、ソースコードを構文解析する段階は、パラグラフタグ（すなわち＜ｐ＞）又はヘッダータグ（例えば＜ｈ１＞）でマーキングされた任意の要素を含む全てのパラグラフリストを文書オブジェクトモデル（ＤＯＭ）ツリー内で収集する段階を含む。かかる各パラグラフには、初期（デフォルト）スコアが割り当てられ、最も近い関係の構造タグには、このタグに関係付けられたパラグラフのスコアの合計値であるスコアが割り当てられる。一実施形態では、構造タグは、パラグラフがテキスト内容を有することを示すクラス属性又はＩＤ属性を有する＜ｄｉｖ＞タグである場合に、関連性のあるとみなされる。

段階３１２において、抽出器２０８は、最高スコアを有するソースコード内のタグを識別し、このスコアは、上記に説明した加重方式に基づく。このタグは、最も関連性のある内容を含むＤＯＭノードを表す。

段階３１４において、抽出器２０８は、識別されたタグのソースコードからテキストを抽出する。一実施形態では、抽出器２０８は、無関係な素材（例えば、画像キャプション、ナビゲーションリンク、署名、及びソーシャルメディアサイトへのリンク）を含む可能性が高いノードの下にあるテキストを削除する抽出手法を用いる。

段階３１６において、抽出器２０８は、文書内で参照されている全ての画像のセットをスコア付けする。スコア付けは、関連性のある可能性が最も高い（すなわち、要約されるコンテンツに直接関連する）画像を識別する。関連性のある画像は、例えば、主な文書内容に一致するもの等の特徴を有する画像、所定の最小サイズよりも大きい画像（例えば、大きい画像は、文書と関連性のある可能性が非常に高い）、共同写真専門家グループ（ＪＰＥＧ）フォーマット画像（例えば、アイコン及びロゴ等の無関係な画像は、ポータブルネットワークグラフィックス（ＰＮＧ）フォーマット及びグラフィックス交換フォーマット（ＧＩＦ）フォーマット等の別のフォーマットで到来する傾向を有する）、及び文書と同じ情報源を起点として送られる画像（例えば、広告画像は、多くの場合、外部情報源からインポートされたものである）を含むことができる。無関係な画像は、例えば、アイコン、ロゴ、ナビゲーション要素、広告、又は同様のものを含むことができる。

一実施形態では、スコア付け手法は、画像の様々な特徴に基づく重み付け手法である。これらの特徴は、画像並びに画像コンテンツ（例えば、画像処理手法を用いて得られる）に関するメタデータを含むことができる。例えば、この特徴は、所与の画像が適切なサイズのものであるか否か、又は画像がどの種類のファイル形式で格納されているかを含むことができる。この場合、重み値の線形組み合わせの合計値が計算されスケール調整される（例えば、ゼロから１までのスケールに）。例えば、画像をスコア付けするための１つの重み付けアルゴリズムは、次式として規定することができる。

数式１の場合には、画像の特徴を、ｊ（ｊ＝｛１，…，ｎ｝）と表し、画像のスコアは、一定の重み付け係数β₀を、各特徴の重み付け係数β_jと値（Ｖａｌｕｅ（Ｆｅａｔ_j））との積の合計値に加算したものに等しい。一般的に、抽出器２０８は、各特徴を、存在するか（この場合、値は１である）又は存在しないか（この場合、値はゼロである）のいずれかとみなす。しかしながら、一実施形態では、数式１が要約の状況で用いられる場合に、特徴の値は、この特徴が文書内で何回出現するかを反映する数である。

段階３１８において、抽出器２０８は、抽出済みテキストとｘ個の最高スコア画像（一実施形態ではｘ＝３）とを出力する（例えば分類器２１０に）。一実施形態では、ｘ個の最高スコア画像は、抽出器２０８によって出力されるように、所定の閾値θ（一実施形態ではθ＝０．６７）を上回るスコアを有する必要がある。さらに、一実施形態では、ｘ個の最高スコア画像に関するスコアが抽出器２０８によって出力される。

その後、方法３００は、段階３２０で終了する。

図４は、本発明による、電子文書を要約することができるか否かを判定するための方法４００の一実施形態を示すフロー図である。方法４００は、例えば、図１及び図２に示すアプリケーションサーバ１０４で実装することができる。従って、方法４００の説明において、図２に示す様々な要素に言及する。しかしながら、方法４００は、図２に示すサーバ構成を用いた実施例に限定されず、かかる言及は、ほとんどが説明を容易にするために行うものであることが理解されよう。

方法４００は、段階４０２で開始する。段階４０４では、分類器２１０が、電子文書を取得する（例えばバス２０４から）。段階４０６において、分類器２１０は、文書の言語を識別する。一実施形態では、言語は、文書に関係付けられた言語コード又は識別子を調査することによって識別される。しかしながら、別の実施形態では、分類器１は、文書内容を解析することによって言語を識別する言語識別構成要素を含む。一実施形態では、本発明は言語に依存しない、すなわち、本明細書に開示するシステム及び方法（方法４００の残りの段階等）は、元の文書が記述された言語に関わらず適用可能である。

段階４０８において、分類器２１０は、文書に関する特徴ベクトルを生成する。一実施形態では、特徴ベクトルは、言語、ジャンル、文書の長さ、及び同様のものの変化量に対して頑強性があるように設計され、特徴カウント（例えば、文字数、数字数、上付き文字数及び下付き文字数、空白及び句読点数、単語数、上位ｍ番目までの単語数、上位ｙ番目までの文字数、特有の単語数等）を含む。

段階４１０において、分類器２１０は、文書の特徴ベクトルを、（蓄積された）「モデル」ファイル内に格納された、識別済み言語に関して要約スコアを返す関数に渡す。一実施形態では、この格納された関数は、数式１の形式をとり、この場合ｙは、文書の要約スコアを表し、例示的な特徴は、段階４０８に関連して上記に説明した特徴である。重み付け係数βは、システム展開の前の分類器の学習過程の間に自動的に学習される。例えば、マシン学習プログラムでは、肯定的な学習例（例えば、要約可能な文書のフォルダ内の）は、肯定的な例において比較的高頻度な（例えば、少なくとも所定の頻度で出現する）特徴に関して大きい重み値をもたらし、一方、否定的な学習例（例えば、要約不能な文書のフォルダ内の）は、否定的な例において比較的高頻度な（例えば、少なくとも所定の頻度で出現する）特徴に関して小さい重み値をもたらす。一実施形態では、分類器は、アプリケーションサーバ１０４が処理することができる各言語に関して複数のフォルダを管理する。第１のフォルダは、要約することができる複数の例示的な文書（すなわち、上記に説明した肯定的な学習例）を備え、一方、第２のフォルダは、要約することができない複数の例示的な文書（すなわち、上記に説明した否定的な学習例）を備える。一実施形態では、要約することができない種類の文書は、編集者への投書、編集者の意見記事、及び小説類を含み、その他の種類の文書は潜在的に要約可能である。

段階４１２において、分類器２１０は、段階４１０で実行された計算に従って文書をスコア付けする。一実施形態では、入力文書から構築された特徴ベクトルは、上記に説明したように展開前の学習過程の間に自動的に学習された係数を有する数式１に基づく関数に渡される。

段階４１４において、分類器２１０は、文書のスコア（段階４１２で生成された）が、所定の閾値よりも大きい又はそれに等しいか、或いはそれ以外かを判定する。分類器２１０が、段階４１４において文書のスコアが閾値よりも大きい又はそれに等しいと結論付けた場合には、分類器２１０は、文書を要約できることを示す。従って、方法４００は段階４１６に進み、分類器２１０は、要約するよう文書を要約器２１２に渡す。

或いは、分類器２１０が段階４１４において文書のスコアが閾値よりも小さいと結論付けた場合には、分類器２１０は、文書を要約できないことを示す。従って、方法４００は段階４１８に進み、文書は破棄される。

文書が要約器に渡される（段階４１６に従って）こと又は破棄される（段階４１８に従って）ことのいずれかが行われると、方法４００は段階４２０において終了する。

上記に説明したように、分類器２１０は、文書の特徴ベクトルの特徴量を重み付けするよう、例示的な文書を基にして学習されたモデルを用いる。一実施形態では、例示的な文書は、人間の操作者が、要約可能又は要約不能とラベル付けすることができる。別の実施形態では、ラベル付けは、いずれかの他のタスクにおいてラベル付け済みである既存のコーパスを用いること、又はラベルが付いていない文書集合内の所与の文書が要約可能であるか否かを判定するためにこの集合からの統計量を用いることのいずれかによってブートストラップ推定される。後者の場合には、関係する統計量は、例えば文書の長さとすることができる（例えば、長さ分布と比較して過度に短い又は過度に長い文書を要約不能とラベル付けすることができる）。同じく上記に説明したように、分類器２１０は、異なる言語に関して複数のモデルを用いることができる。

図５は、本発明による、電子文書を要約するための方法５００の一実施形態を示すフロー図である。方法５００は、例えば、図１及び図２に示すアプリケーションサーバ１０４で実装することができる。従って、方法５００の説明において、図２に示す様々な要素に言及する。しかしながら、方法５００は、図２に示すサーバ構成を用いた実装に限定されず、かかる言及は、ほとんどが説明を容易にするために行うものであることが理解されよう。

方法５００は、段階５０２で開始する。段階５０４では、要約器２１２が、電子文書を取得する（例えばバス２０４から）。

段階５０６において、要約器２１２は、文書を複数の文に分割する。説明を容易にするために文を用いるが、文書はさらに、句、節、段落、又はブロック、或いは様々な種類のテキスト単位の組み合わせ等のその他のテキスト単位に分割することができることが理解されよう。一実施形態では、分割する段階は、学習された言語モデルに基づいてテキストを複数の文（又はその他のテキスト単位）に分解する文分割器を用いて実現される。別の実施形態では、分割器は、文書が記述された言語用に構成される。

段階５０８では、要約器２１２は、評価するよう文のうちの１つを選択する。一実施形態では、文は、文書内に出現する順序で評価される。

段階５１０において、要約器２１２は、文の情報性を評価する。一実施形態では、情報性は、複数の利用可能なアルゴリズムのうちの１つに従って評価される。例えば一実施形態では、３つのアルゴリズム、すなわち（１）短い要約情報（例えば、約３９０文字よりも短い）に関して常に用いられる第１のアルゴリズム、（２）長い要約情報（例えば、短い要約情報よりも３３パーセントから５０パーセント長い）に関して常に用いられ、参照要約情報に基づいて英語で言語学習されたモデルが望ましい場合に用いられる第２のアルゴリズム、及び（３）全てのその他の事例において用いられる第３の監視なしアルゴリズムが用いられる。

一実施形態では、第１のアルゴリズムは、言語に依存しない複数の特徴に基づき手動でコード化されたルールセットを用いる。これらの特徴は、例えば、文書内での文の位置、又は文の長さを含むことができる。一実施形態では、これらの特徴は、ブール特徴（例えば、「この文は文書の最初のｘ個の文の中に出現するか？」又は「文の長さはｙ個の文字よりも短い／長いか？」）に変換され、次に、数式１を参照して上記に説明した重み付けと同様の方式で重み付けされる。第１のアルゴリズムの出力は、各文に関する情報性スコア配列である。

一実施形態では、第２のアルゴリズムは、人間が作成した参照要約情報を基にして学習された、監視あり機械学習手法である。第２のアルゴリズムは、Ｃｈｉｎ−ＹｅｗＬｉｎによって「ＲＯＵＧＥ：ＡＰａｃｋａｇｅｆｏｒＡｕｔｏｍａｔｉｃＥｖａｌｕａｔｉｏｎｏｆＳｕｍｍａｒｉｅｓ（ＲＯＵＧＥ：要約情報の自動評価のためのパッケージ）」ＷｏｒｋｓｈｏｐｏｎｔｅｘｔＳｕｍｍａｒｉｚａｔｉｏｎＢｒａｎｃｈｅｓＯｕｔ会報（ＷＡＳ２００４）スペイン、バルセロナ、２００４年７月２５〜２６日に開示された、公知のＲｅｃａｌｌ−ＯｒｉｅｎｔｅｄＵｎｄｅｒｓｔｕｄｙｆｏｒＧｉｓｔｉｎｇＥｖａｌｕａｔｉｏｎ（要旨評価のための再現率指向の代替法）（ＲＯＵＧＥ）指標に基づいて関数を最大化することを試みる。ＲＯＵＧＥは、システムが生成した要約情報内に存在する参照要約情報内の単語の比率の関数としてシステムの精度を評価し、次式のように定義することができる。

ここでｃｏｕｎｔ_match（Ｎ−ｇｒａｍ）は、参照要約情報とシステムが生成した要約情報との両方において共通して生じるＮ−ｇｒａｍの最大数であり、ｃｏｕｎｔ（Ｎ−ｇｒａｍ）は、参照要約情報で生じるＮ−ｇｒａｍの総数である。

第２のアルゴリズムは、各文を分類インスタンスとして取り扱い、次に、要約情報において共通して用いられる標準的な特徴セットを用いて各インスタンスを特徴付ける。一実施形態では、これらの特徴は、文書内での文の位置（例えば、文番号による、及び一般的な位置による）、文内での数字の存在、文内での代名詞の存在、文内での大文字単語の存在、及び文のサイズのうちの１つ又はそれ以上を含む。一実施形態では、分類器は、最も高いＲＯＵＧＥ₁スコアを有する文が肯定的（すなわち要約を含む）とラベル付けされ、残りの文が否定的（すなわち要約を含まない）とラベル付けされる学習セットを用いる。

一実施形態では、第２のアルゴリズムは、統計分類器としてサポートベクトルマシン（ＳＶＭ）を用いる。一実施形態では、ＳＶＭは、Ｈｓｕ他著「ＡＰｒａｃｔｉｃａｌＧｕｉｄｅｔｏＳｕｐｐｏｒｔＶｅｃｔｏｒＣｌａｓｓｉｆｉｃａｔｉｏｎ（サポートベクトル分類実践ガイド）」、ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ、ＮａｔｉｏｎａｌＴａｉｗａｎＵｎｉｖｅｒｓｉｔｙにより、次式のように規定することができ、

ここで、各文ｉは、ラベルｙ∈｛−１，＋１｝ⁿを有する特徴ベクトル

として表される。関数Φは、学習ベクトルを高次元特徴空間に写像する。この場合、ｗは、超平面の法線ベクトルであり、ｂは、マージンサイズ（すなわち、肯定的なクラスと否定的なクラスとを分離する最適な超平面から最も近い学習例又はサポートベクトルまでの距離）であり、Ｃ＞０は、エラー項のペナルティーを表す正則化パラメータであり、ξ_i≧０は、ｘの誤分類の程度の評価するスラック変数である。ＳＶＭは、この超空間内で最大マージンを有する最適な超平面を求める。ＳＶＭの出力は、各文に関するスコアの配列である。一実施形態では、ＤｏｃｕｍｅｎｔＵｎｄｅｒｓｔａｎｄｉｎｇＣｏｎｆｅｒｅｎｃｅｓ（ＤＵＣ）によるデータに基づいて英語文書に関して学習されたモデルが提供される。

一実施形態では、第３のアルゴリズムは、グラフのランダムウォークによって有向グラフ内の際立ったノードを識別する、監視なしマシン学習手法（例えばページランク手法）である。特定の実施形態では、第３のアルゴリズムは、文を選択するタスクをグラフベースの最適化問題として取り扱う。具体的に、第３のアルゴリズムは、文を有向グラフ内のノードとして表し、ノード間のエッジは、文書内で後に出現する文を文書内で先行して出現する文にリンク付けする。ノードは重み付けされ、最初に、文書内で対応する文の位置により重み付けされる（例えば、文書内で先行して出現する文は、より大きく重み付けされ、文書内で後に出現する文に遭遇するにつれて重み値は指数関数的に小さくなる）。初期重み値は、対応するノード間のリンクに基づいて調整され、ノードｘとノードｙとを接続するリンクの重み値ｗ_xyは、次式により修正されたコサイン類似度として算出され、

ここで文内の語句（例えば単語）は、１からｎまでに番号付けされ、文ｘ内の語句ｉの重み値はｘ_iと表される。一実施形態では、語句の重み値は、対応する文内での語句の頻度を、文書内でこの語句を含む文の数によって除算した値である。

上記に説明したように、一実施形態では、第３のアルゴリズムは、有向グラフ内で際立ったノードを識別するページランク手法を用いる。第３のアルゴリズムとして実装することができる１つの特定のページランク手法は、Ｂｒｉｎ他による「ＴｈｅＡｎａｔｏｍｙｏｆａＬａｒｇｅ−ＳｃａｌｅＨｙｐｅｒｔｅｘｔｕａｌＷｅｂｓｅａｒｃｈＥｎｇｉｎｅ（大規模ハイパーテキストウェブ検索エンジンの分析）」、ＣｏｍｐｕｔｅｒＮｅｔｗｏｒｋｓａｎｄＩＳＤＮＳｙｓｔｅｍｓ、第３０巻、１〜７頁（１９９８年）、及びＭｉｈａｌｃｅａによる「Ｇｒａｐｈ−ＢａｓｅｄＲａｎｋｉｎｇＡｌｇｏｒｉｔｈｍｓｆｏｒＳｅｎｔｅｎｃｅＥｘｔｒａｃｔｉｏｎ，ＡｐｐｌｉｅｄｔｏＴｅｘｔＳｕｍｍａｒｉｚａｔｉｏｎ（テキスト要約に適用される、文抽出のためのグラフベースランク付けアルゴリズム）」スペイン、バルセロナのＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４２ｎｄＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ（ＡＣＬ２００４）において詳細に開示されている。特定の一実施形態では、グラフの各ノードは、当該ノードを指し示す後のノードからの到来リンクの重み値に基づいて重み付けられ、当該ノードが指し示す外向きリンクの重み値によって正規化される。本質的にページランク手法は、ランダムウォークから生じる主要ノードを識別するように用いられる。従って、ノードの重み値（又はスコア）は、次式として算出することができ、

ノードからのエッジの重み値は、遷移確率を表すように再正規化される。出力は、各文に関して１つのスコアの配列である。この手法は、最初の言及を大きく重み付けする傾向があり、トピック全体にわたって重み値が散在し、トピックの最初の言及を含む文は、トピックを表すとみなされる。

文を、適切なアルゴリズムに従って情報性に関してスコア付けすると、方法は段階５１２に進む。段階５１２において、要約器２１２は、文の情報性が第１の所定の閾値よりも大きい又はそれに等しいか、或いはそれ以外かを判定する。要約器２１２は、段階５１２において文の情報性が第１の所定の閾値よりも低いと結論付けた場合には、段階５１６においてこの文を破棄する。次に、方法５００は段階５２０に進み、要約器２１２は、評価するいずれかの文が残っているか否かを判定する。

或いは、要約器２１２が段階５１２において文の情報性が第１の所定の閾値よりも大きい又は等しいと結論付けた場合には、方法５００は段階５１４に進む。段階５１４において、要約器２１２は、文の一貫性を評価し、それによって、最終的に生成される要約の各文の可読性を維持することを目指す。一実施形態では、文の一貫性は、その存在が、程度の差はあるが文を判読可能にする様々なブール特徴（特徴の中でもとりわけ、例えば、文が引用符に囲まれているか否か、文が質問を含むか否か、文が代名詞を含むか否か、文が引用符を欠いて出現するか否か、文の長さ）に基づいて文に重み値を割り当てることによってスコア付けされる。

段階５１８において、要約器２１２は、文の一貫性が第２の所定の閾値よりも大きい又はそれに等しいか、或いはそれ以外かを判定する。要約器２１２が段階５１８において文の一貫性が第２の所定の閾値を下回ると結論付けた場合には、方法５００は段階５１６に進み、要約器２１２は、上記に説明したようにこの文を破棄する。

或いは、要約器２１２が、段階５１８において文の一貫性が第２の所定の閾値よりも大きい又はそれに等しいと結論付けた場合には、方法５００は段階５２０に進む。

段階５２０において、要約器２１２は、評価するいずれかの文が残っているか否かを判定する。要約器２１２が、段階５２０において評価する文が残っていると結論付けた場合には、方法５００は段階５０８に戻り、要約器２１２は、次に進み、上記に説明したように、文書から次の文を選択して評価する。

或いは、要約器２１２が段階５２０において評価する文が残っていないと結論付けた場合には、方法５００は段階５２２に進む。別の実施形態では、評価されていない文が存在する可能性があるが、要約器２１２は、いずれにしても文書をそれ以上評価しないことを決定し（例えば、要約器は、既に、十分な数の文を取得している可能性がある）、単純に続行することができる。段階５２２において、要約器２１２は、枝刈りされた文の部分列を生成する。一実施形態では、部分列は、組み合わせ最適化器を用いて生成される。

一実施形態では、組み合わせ最適化器は、Ｇｏｄｄａｒｄによる「ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ：０−１ＫｎａｐｓａｃｋＰｒｏｂｌｅｍ（動的プログラミング：０−１ナップザック問題）」（２０１２年、ｗｗｗ．ｃｓｅ．ｕｎｌ．ｅｄｕ／〜ｇｏｄｄａｒｄ／Ｃｏｕｒｓｅｓ／ＣＳＣＥ３１０Ｊ）において仮定された古典的な０／１ナップザック問題を解く動的プログラミング手法を用い、この問題は、各々が重量と価値とを有するｉ個の品物が与えられた場合に、合計重量が限界値よりも小さい又はそれに等しく、合計の価値が最大化されるように、どの品物をナップザックの中に収めるかを決定することとして定義される。要約の観点で表現すると、この問題は、次式として記述することができる。

０／１ナップザック問題に関する標準的な動的プログラミング解決手段を用いると、合計長さｐを有する、文１からｉからなる最も情報性の高い部分列は、文ｉを含むか、又は文ｉを含まないかのいずれかである。文ｉの長さがｐよりも大きい場合には、文ｉは除外され、要約器２１２は、文１からｉ−１からなる最も情報性が高い部分列を選択する。文ｉの長さがｐよりも大きくない場合には、文１からｉの最も情報性が高い部分列の値は、２つの数値、すなわち、（１）合計長さｐを有する、１からｉ−１の文からなる最も情報性の高い部分列の値と、（２）ａが、合計長さ（ｐ−長さ（文ｉ））を有する、１からｉ−１の文からなる最も情報性の高い部分列の値であり、ｂが文ｉの情報性である場合の、合計値（ａ）＋（ｂ）と、うちの最大値である。（２）がより大きい場合には、要約内に包含するよう文ｉが選択され、それ以外の場合には、文ｉは選択されない。

従って、要約すると、段階５２２において、最適化器には、枝刈りされた文の全て及びその情報性スコアと共に、部分列に関する目標長さが提供される。次に、最適化器は、目標長さと文の情報性とに基づいて文からなる最良の部分列を返す。一実施形態では、文は、文書内で出現する順序により部分列内で順序付けされる。

段階５２４において、要約器２１２は、部分列を文書要約として出力する（例えば、ユーザ端末デバイス１０８、１１０、１１２、又は１１４、或いはデータベース１０６に）。その後、方法５００は段階５２６で終了する。

図６は、本発明による、一組の文を選択して文書要約を形成するための方法６００の一実施形態を示すフロー図である。方法６００は、例えば、方法５００の段階５２２に従って、図１及び図２に示すアプリケーションサーバ１０４で実装することができる。従って、方法６００の説明において、図２に示す様々な要素に言及する。しかしながら、方法６００は、図２に示すサーバ構成を用いた実装に限定されず、かかる言及は、ほとんどが説明を容易にするために行うものであることが理解されよう。

方法６００は、一組の文を文毎の基準で評価するにように要約情報を構築する。従って、要約情報は、方法６００が一組の文を通して作用するにつれて進化し、変化することができる。

方法６００は段階６０２で開始する。段階６０４において、要約器２１２は、各々が上記に説明した方法５００に従って処理されたＮ個の文からなるセットを取得する。それに加えて、各文は、上記に説明した情報性スコア及び文の長さに関連する。

段階６０６において、要約器２１２は、目標要約長さを取得する。この目標長さはデフォルトの長さとすること、又はユーザが定義する長さとすることができる。

段階６０８において、要約器２１２は、Ｎ個の文からなるセットからの文ｉを考慮する。一実施形態では、文は、元の文書内で出現する順序でこのセットから選択される。

段階６１０において、要約器２１２は文の枝刈りをする。一実施形態では、文の枝刈りをする段階は、文から素材を削除する１つ又はそれ以上の削減を含む。一実施形態では、文が記述された言語に関わらず、特定の種類の素材（例えば、日付行、ボールドプレフィクス、挿入句）を削除又は削減することができる。枝刈りは、文の情報性に影響を与える可能性があるが、文は、文の一貫性に影響を与えないように枝刈りされる。

別の実施形態では、削除又は削減することができる特定の種類の素材は、特定の言語に特定のものである。例えば、１つの英語に特定の実施形態では、段階６１０は、英語の「ｗｈｉｃｈｉｓ」という語句を削除する段階を含むことができる。代替的に、段階６１０は、英語の「ｗｈｉｃｈｈａｖｅ」という語句を、英語の「ｗｉｔｈ」という語句で置き換える段階、又は「ｗｈｉｃｈ［ｖｅｒｂ］」という語句を、「［ｖｅｒｂ］ｉｎｇ」で置き換える（例えば「ｗｈｉｃｈｇｏ」が「ｇｏｉｎｇ」になる）段階を含むことができる。別の実施形態では、段階６１０は、動詞の対に共通の参照主語を有する一対の英語の節から、同等のものを減じる段階を含むことができる（例えば、「Ｔｈｅｒｏｇｕｅｃｏｍｐｕｔｅｒｐｒｏｇｒａｍｄｅｓｔｒｏｙｅｄｄａｔａｏｖｅｒａｆｉｖｅｍｏｎｔｈｐｅｒｉｏｄ，ａｎｄｔｈｅｐｒｏｇｒａｍｉｎｆｅｃｔｅｄｃｌｏｓｅｔｏｏｎｅｈｕｎｄｒｅｄｃｏｍｐｕｔｅｒｓ」は、「Ｔｈｅｒｏｇｕｅｃｏｍｐｕｔｅｒｐｒｏｇｒａｍｄｅｓｔｒｏｙｅｄｄａｔａｏｖｅｒａｆｉｖｅｍｏｎｔｈｐｅｒｉｏｄａｎｄｉｎｆｅｃｔｅｄｃｌｏｓｅｔｏｏｎｅｈｕｎｄｒｅｄｃｏｍｐｕｔｅｒｓ」になる）。さらに別の実施形態において、段階６１０は、名詞句、代名詞、及び／又は固有名称の参照を解決する共通の参照構成要素を仮定する段階を含むことができる。

段階６１２において、要約器２１２は、現在の要約長さが目標長さを上回る否かを判定する。要約器２１２は、段階６１２において現在の要約長さが目標長さを上回ると結論付けた場合には、段階６２２において、既存のスコアを要約スコアとして設定し、文ｉは要約内に含まれない。一実施形態では、スコアは、方法６００の開始時にゼロに初期化され、要約内に包含されるように選択される文のスコアにより増加する。

或いは、要約器２１２が、段階６１２において現在の要約情報の長さが目標の長さを上回らないと結論付けた場合には、方法６００は段階６１４に進む。段階６１４において、要約器２１２は、選択された文ｉの長さが現在の要約情報の長さよりも短い又はそれに等しいか、或いはそれ以外かを判定する。一実施形態では、要約情報は、要約情報内に包含されるように文が選択されるにつれて増加する構成要素数を有する空白セットとして初期化される。

要約器２１２は、段階６１４において、選択された文ｉの長さが現在の要約の長さよりも長いと結論付けた場合には、段階６２２において既存のスコアを要約スコアとして設定し、上記に説明したように文ｉは要約情報内に含まれない。

或いは、要約器２１２が、段階６１４において、選択された文ｉの長さが現在の要約情報の長さよりも短い又はそれに等しいと結論付けた場合には、方法６００は段階６１６に進む。段階６１６において、要約器２１２は、文ｉの包含を考慮した、要約情報に関する新しいスコアを計算する。上記に説明したように、新しいスコアは、２つの数値、すなわち、（１）合計長さｐを有する、１からｉ−１の文からなる最も情報性の高い部分列の値と、（２）ａが、合計長さ（ｐ−長さ（文ｉ））を有する、１からｉ−１の文からなる最も情報性の高い部分列の値であり、ｂが文ｉの情報性である場合の、合計値（ａ）＋（ｂ）と、のうちの最大値である。一実施形態では、文の枝刈りが行われなかった場合には、文の情報性スコア（ｂ）は、要約器２１２によって既に計算されている（例えば方法５００に従って）。

段階６１８において要約器２１２は、新しいスコアが既存のスコアを上回るか否かを判定する。要約器２１２は、段階６１８において新しいスコアが既存のスコアを上回らないと結論付けた場合には、段階６２２において既存のスコアを要約スコアとして設定し、上記に説明したように文ｉは要約情報内に含まれない。

或いは、要約器２１２が段階６１８において新しいスコアが既存のスコアを上回ると結論付けた場合には、要約器２１２は、段階６２０において新しいスコアを要約スコアとして設定する。この場合、文ｉを要約情報内に含めることができる。文ｉが要約情報に追加される最初の文である場合には、文ｉは、無条件に含められる。一実施形態では、文ｉは、要約情報に追加される最初の文ではない場合に無条件に含められる。しかしながら、別の実施形態では、文ｉは、それまでに蓄積された要約情報に関連する場合には含められる。文ｉが要約情報に関連するか否かは、文ｉ内に含まれる単語と、それまでの要約情報内に含まれる単語との重複を計算し、この重複が閾値を満たすか否かを判定することによって判定することができる。

要約スコアが、段階６２０又は段階６２２のいずれかに従って設定されと、方法６００は段階６２４に進み、要約器は、Ｎ個の文のセット内に評価されるいずれかの文が残っているか否かを判定する。要約器２１２が、段階６２４において評価される文が残っていると結論付けた場合には、方法６００は段階６０８に戻り、要約器２１２は、上記に説明した評価を行うように新しい文に考慮する。

或いは、要約器２１２が、段階６２４において評価される文が残っていないと結論付けた場合には、方法６００は段階６２６で終了する。

図７は、汎用コンピューティングデバイス７００を用いて実装された本発明の高水準ブロック図である。一実施形態では、汎用コンピューティングデバイス７００は、図１に示すＡＳ１０４等のアプリケーションサーバとして展開される。本発明の実施形態は、通信チャネルを通じてプロセッサに結合された物理デバイス又はサブシステムとして実装できることを理解されたい。従って、一実施形態では、汎用コンピューティングデバイス７００は、プロセッサ７０２と、メモリ７０４と、要約モジュール７０５と、ディスプレイ、キーボード、マウス、モデム、マイクロフォン、スピーカ、タッチスクリーン、適応Ｉ／Ｏデバイス、及び同様のもの等の様々な入力／出力（Ｉ／Ｏ）デバイス７０６を備える。一実施形態では、少なくとも１つのＩ／Ｏデバイスは、記憶デバイス（例えば、ディスクドライブ、光ディスクドライブ、フロッピー（登録商標）ディスクドライブ）である。

代替的に、本発明の実施形態（例えば、要約モジュール７０５）は、１つ又はそれ以上のソフトウェアアプリケーション（又はさらに、例えば特定用途向け集積回路（ＡＳＩＣ）を用いたソフトウェアとハードウェアとの組み合わせ）によって表すことができ、ソフトウェアは、記憶媒体（例えば、Ｉ／Ｏデバイス７０６）からロードされ、汎用コンピューティングデバイス７００のメモリ７０４内でプロセッサ７０２によって動作する。従って、一実施形態では、前述の図を参照して本明細書で説明した、電子文書を自動的に要約するための要約モジュール７０５を、非一時的コンピュータ可読媒体（例えば、ＲＡＭ、磁気又は光のドライブ又はディスケット、及び同様のもの）に格納することができる。

明示していないが、本明細書で説明する方法の１つ又はそれ以上の段階は、特定のアプリケーション関して要求されるように、格納する段階、表示する段階、及び／又は出力する段階を含むことができることに留意されたい。言い換えれば、これらの方法において説明したデータ、レコード、フィールド、及び／又は中間結果は、のアプリケーション関して要求されるように、格納する、表示する、及び／又は別のデバイスに出力することができる。さらに、判定動作を列記した、又は決定を含む、添付図における段階又はブロックは、必ずしも判定動作の両方の分枝を実行することを必要とするものではない。言い換えれば、判定動作の分枝のうちの一方は、選択的な段階とみなすことができる。本明細書において、本発明の教示を組み込む様々な実施形態を示し、詳細に説明したが、当業者は、これらの教示を依然として組み込む多くの別の実施形態を容易に考案することができる。

１００通信ネットワーク
１０２コアネットワーク
１０４アプリケーションサーバ
１０６データベース
１２０、１２２アクセスネットワーク
１０８、１１０、１１２、１１４ユーザ端末デバイス

Claims

コンピュータが実行する電子文書を要約するための方法であって、
前記電子文書を、複数の語句に分割する分割工程と、
前記分割工程によって分割された複数の語句の各々の情報性を、当該複数の語句の各々をノードとし、当該複数の語句間のリンクをエッジとし、当該リンクが当該語句間の類似度により重み付けされた有向グラフ内の際立ったノードを当該有向グラフ上のランダムウォークによって識別する機械学習アルゴリズムに従って、情報性スコアとして評価し、かつ、前記分割工程によって分割された複数の語句の各々の一貫性を、当該複数の語句の各々を判読可能にするブール特徴に基づいて、一貫性スコアとして評価する評価工程と、
前記評価工程によって評価された情報性スコアが第１の所定の閾値より大きい又は等しく、かつ、前記評価工程によって評価された一貫性スコアが第２の所定の閾値よりも大きい又は等しい前記複数の語句の各々からなる部分列であって、前記評価工程によって評価された前記複数の語句の各々の前記情報性スコアの総計が最大化され、かつ、列の総計長さが長さ上限よりも短い又はそれに等しい部分列を自動的に選択する選択工程と、
前記選択工程によって選択された部分列を前記電子文書の要約として配列する配列工程と、
を含んだことを特徴とする方法。
前記部分列は、前記複数の語句の全てよりも少ない語句を含む、請求項１に記載の方法。
前記複数の語句のうちの少なくとも１つは文を含む、請求項１に記載の方法。
前記分割工程の後で前記選択工程の前に、前記複数の語句の各々の枝刈りを行う工程をさらに含む、請求項１に記載の方法。
前記選択工程は、組み合わせ最適化器としてナップザック問題を解くプログラミング手法を用いて実行される、請求項１に記載の方法。
前記選択工程は、前記複数の語句のうちで、前記部分列の現在の総計長さを超える長さを有する語句を、前記部分列内への包含から除外する工程を含む、請求項１に記載の方法。
前記選択工程は、前記複数の語句のうちの所与の語句に関して、前記所与の語句が除外され、総計長さが前記長さ上限よりも短い又はそれに等しい、前記複数の語句からなる最も情報性の高い部分列、に関連する前記情報性スコアの合計値である第１の合計値を算出する第１の算出工程と、
前記第１の合計値から前記所与の語句の長さを減算した値に等しい第１の値と、前記所与の語句の前記情報性スコアである第２の値との合計値である第２の合計値を算出する第２の算出工程と、
前記所与の語句を前記部分列内に含めるか否かを、前記第１の算出工程によって算出された前記第１の合計値と前記第２の算出工程によって算出された前記第２の合計値との比較に基づいて決定する決定工程と、
を含む、請求項１に記載の方法。
前記決定工程は、
前記第２の合計値が前記第１の合計値よりも大きい場合に、前記所与の語句を前記部分列内に含める工程と、
前記第１の合計値が前記第２の合計値よりも大きい場合に、前記所与の語句を前記部分列から除外する工程と、
を含む、請求項７に記載の方法。
前記複数の語句は、前記複数の語句の各々が前記電子文書内で出現する順序により整列する、請求項１に記載の方法。
前記分割工程、前記評価工程、前記選択工程、及び前記配列工程の前に、前記電子文書が要約可能であることを判定する判定工程をさらに含む、請求項１に記載の方法。
前記判定工程は、
前記電子文書に関して、前記電子文書の複数の特徴を含む特徴ベクトルを生成する特徴ベクトル生成工程と、
前記複数の特徴の各々に重み値を割り当てる重み値割り当て工程と、
前記電子文書が要約可能であるか否かを示すスコアを、前記複数の特徴の各々に割り当てられた前記重み値に従って前記電子文書に割り当てるスコア割り当て工程と、
を含む、請求項１０に記載の方法。
前記重み値は、自動的に学習される、請求項１１に記載の方法。
前記重み値割り当て工程は、前記複数の特徴のうちの所与の特徴に関して、
前記所与の特徴が、要約可能な文書を含む学習例のセットにおいて少なくとも所定の頻度で出現する場合に、前記重み値を増加させる工程と、
前記所与の特徴が、要約不可能な文書を含む学習例のセットにおいて少なくとも所定の頻度で出現する場合に、前記重み値を低減させる工程と、
を含む、請求項１２に記載の方法。
前記重み値割り当て工程及び前記スコア割り当て工程は、前記電子文書が記述された言語に特有の方法で実行される、請求項１３に記載の方法。
電子文書を要約するための実行可能プログラム含む有形のコンピュータ可読媒体であって、
前記プログラムは、
前記電子文書を、複数の語句に分割する分割手順と、
前記分割手順によって分割された複数の語句の各々の情報性を、当該複数の語句の各々をノードとし、当該複数の語句間のリンクをエッジとし、当該リンクが当該語句間の類似度により重み付けされた有向グラフ内の際立ったノードを当該有向グラフ上のランダムウォークによって識別する機械学習アルゴリズムに従って、情報性スコアとして評価し、かつ、前記分割手順によって分割された複数の語句の各々の一貫性を、当該複数の語句の各々を判読可能にするブール特徴に基づいて、一貫性スコアとして評価する評価手順と、
前記評価手順によって評価された情報性スコアが第１の所定の閾値より大きい又は等しく、かつ、前記評価手順によって評価された一貫性スコアが第２の所定の閾値よりも大きい又は等しい前記複数の語句の各々からなる部分列であって、前記評価手順によって評価された前記複数の語句の各々の前記情報性スコアの総計が最大化され、かつ、列の総計長さが長さ上限よりも短い又はそれに等しい部分列を自動的に選択する選択手順と、
前記選択手順によって選択された部分列を前記電子文書の要約として配列する配列手順と、
を含む動作を実行する、有形のコンピュータ可読媒体。
電子文書を要約するためのシステムであって、
プロセッサと、
前記プロセッサに、
前記電子文書を、複数の語句に分割する分割ステップと、
前記分割ステップによって分割された複数の語句の各々の情報性を、当該複数の語句の各々をノードとし、当該複数の語句間のリンクをエッジとし、当該リンクが当該語句間の類似度により重み付けされた有向グラフ内の際立ったノードを当該有向グラフ上のランダムウォークによって識別する機械学習アルゴリズムに従って、情報性スコアとして評価し、かつ、前記分割ステップによって分割された複数の語句の各々の一貫性を、当該複数の語句の各々を判読可能にするブール特徴に基づいて、一貫性スコアとして評価する評価ステップと、
前記評価ステップによって評価された情報性スコアが第１の所定の閾値より大きい又は等しく、かつ、前記評価ステップによって評価された一貫性スコアが第２の所定の閾値よりも大きい又は等しい前記複数の語句の各々からなる部分列であって、前記評価ステップによって評価された前記複数の語句の各々の前記情報性スコアの総計が最大化され、かつ、列の総計長さが長さ上限よりも短い又はそれに等しい部分列を自動的に選択する選択ステップと、
前記選択ステップによって選択された部分列を前記電子文書の要約として配列する配列ステップと、
を含む動作を実施させる実行可能プログラムを含むコンピュータ可読媒体と、
を備えるシステム。