JPH0916630A

JPH0916630A - 自然言語ドキュメントのセンテンスからセンテンスの部分集合を自動的に抽出する方法及びその製造品

Info

Publication number: JPH0916630A
Application number: JP8180104A
Authority: JP
Inventors: Julian M Kupiec; エム．クピエクジュリアン; Jan O Pedersen; オー．ペダーセンジャン; Francine R Chen; アール．チェンフランシヌ; Daniel C Brotsky; シー．ブロツキーダニエル; Steven B Putz; ビー．プッツスティーブン
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1995-06-28
Filing date: 1996-06-20
Publication date: 1997-01-17
Anticipated expiration: 2016-06-20
Also published as: US5918240A; DE69623082D1; EP0751469B1; EP0751469A1; JP2810650B2; DE69623082T2

Abstract

(57)【要約】【課題】自動的にドキュメントの抽出物を作成する方
法を提供し、該方法によりエキスパートが抽出するかも
しれないセンテンスの集合と同じセンテンスの集合を抽
出する。【解決手段】本発明の方法は反復的アプローチに基づ
く。先ず、コンピュータシステムはドキュメントのセン
テンスを選択センテンスとして示す。次に、コンピュー
タシステムは特徴集合の各特徴の選択センテンスに対し
て値を決定する。次に、コンピュータシステムは選択セ
ンテンスに対する特徴の値及びその値と関係する確率に
基づいて選択センテンスに対してスコアを増分する。次
に、ドキュメントのセンテンスの全てをスコアリング
後、コンピュータシステムは抽出されるハイスコアセン
テンスの部分集合を選択する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、自動テキスト処理
方法に関する。特に、本発明は自然言語テキストから抄
録抽出物（summary extracts) を特徴確率を用いて自動
作成する方法に関する。

【０００２】

【従来技術及び発明が解決しようとする課題】抄録(sum
maries) 及び抽出物(extract) は、ドキュメント（文
書) のタイトル（表題）よりも参考になる、簡潔である
が一見して十分に吸収できるほど簡単であるドキュメン
ト描写を提供する。

【０００３】著者により提供される従来の直接的抄録(i
ndicative abstract) は、それが得られると、簡潔なド
キュメント描写に対する必要性を満たす。著者により提
供される抄録がない場合は自動的に作成されるドキュメ
ント抄録を用いて克服することができる。多くの研究者
が自動的なドキュメントの要約に取り組んだ。ドキュメ
ントの概要をなす一貫性のある記述を作成する一般的な
タスクは、現在、あまりにも問題が多いと考えられてい
る。その理由は、ドキュメント内容の理解・抽出、及び
言語生成を該タスクが含有するからである。より単純な
アプローチは、ドキュメント概要を抽出による抄録と定
義することにより言語理解についての中心的な困難を回
避することである。即ち、このアプローチの目的は、ド
キュメントのコンテント( 内容) を示すドキュメントセ
ンテンスの部分集合を見つけることである。典型的に
は、このアプローチ下ではドキュメントセンテンスをス
コア( 評価) して、ハイスコアセンテンスを選択して抽
出する。

【０００４】数々のヒューリスティック（発見的方法）
は概要(summarization) を抽出するためにセンテンスを
スコアすることを提案した。軌跡は特徴の組み合わせが
最良の成果をもたらすことを提案する。

【０００５】概要を抽出するために使用された従来の特
徴は、頻度の高いキーワードヒューリスティック、ロケ
ーションヒューリステック、及びキューワード(cue wor
d)を含む。

【０００６】本発明の目的は、上記記載した従来技術の
欠点を克服することである。

【０００７】

【課題を解決するための手段】請求項１に記載の発明
は、機械可読形態でプロセッサに呈された、プロセッサ
により実施される方法であって、ドキュメントが複数の
センテンスを含み、プロセッサはセンテンスを抽出する
ための機械可読命令を格納するメモリに結合され、メモ
リが特徴集合の各特徴の各値に対して確率を格納し、ド
キュメントコーパスとこれに関係する手作業により作成
される抄録のコーパスの統計的分析により確率が生成さ
れ、（ａ）ドキュメントのセンテンスを選択センテンス
として示すステップを有し、（ｂ）特徴集合の各特徴の
選択センテンスに対して値を決定するステップを有し、
（ｃ）特徴毎に、選択センテンスに対する特徴の値及び
特徴の値と関係する確率に基づいて選択センテンスに対
してスコアを増すステップを有し、（ｄ）ドキュメント
の全センテンスが選択センテンスとして示されなかった
場合、ステップ（ａ）乃至（ｃ）を繰り返すステップを
有し、（ｅ）抽出されるセンテンスの部分集合をセンテ
ンススコアに基づいて選択するステップを有する、自然
言語ドキュメントのセンテンスからセンテンスの部分集
合を自動的に抽出する方法を特徴とする。

【０００８】請求項２に記載の自然言語ドキュメントの
センテンスからセンテンスの部分集合を自動的に抽出す
る方法は、請求項１に記載の自然言語ドキュメントのセ
ンテンスからセンテンスの部分集合を自動的に抽出する
方法において、特徴集合がロケーション特徴及び大文字
特徴を含み、ロケーション特徴が第１ロケーション値、
第２ロケーション値及び第３ロケーション値を有し、第
１ロケーション値が選択センテンスが選択ドキュメント
の開始部分内に含まれることを示し、第２ロケーション
値が選択センテンスが選択ドキュメントの中間部分内に
含まれることを示し、そして第３ロケーション値が選択
センテンスが選択ドキュメントの終わり部分内に含まれ
ることを示し、大文字特徴が第１大文字値及び第２大文
字値を有し、第１大文字値が選択センテンスが複数の選
択大文字フレーズのいずれも含まないことを示し、第２
大文字値が選択センテンスが選択大文字フレーズのうち
１つを含むことを示す。

【０００９】請求項３に記載の自然言語ドキュメントの
センテンスからセンテンスの部分集合を自動的に抽出す
る方法は、請求項２に記載の自然言語ドキュメントのセ
ンテンスからセンテンスの部分集合を自動的に抽出する
方法において、特徴集合が更に直接的テーマ特徴を含
み、直接的テーマ特徴が選択センテンスが選択ドキュメ
ントのテーマを表すことを示す第１値を有し、直接テー
マ特徴が選択センテンスが選択ドキュメントのテーマを
表さないことを示す第２値を有する。

【００１０】請求項４に記載の本発明は、（ａ）メモリを有し、（ｂ）メモリにより格納されるデータを有し、データが
特徴集合の各特徴の値毎に確率を含み、ドキュメントコ
ーパス及びこれに関係する手作業により作成された抄録
のコーパスの統計的分析から確率が生成され、（ｃ）メモリにより格納される命令を有し、格納された
命令がセンテンスの部分集合を機械可読形態の自然言語
ドキュメントのセンテンスから抽出するためにアクセス
可能であり、ドキュメントが複数のセンテンスを含み、
命令が、（１）ドキュメントのセンテンスを選択センテ
ンスとして示すステップと、（２）特徴集合の各特徴の
選択センテンスに対して値を決定するステップと、
（３）特徴毎に、選択センテンスに対する特徴値及び特
徴値と関係する確率に基づいて選択センテンスに対して
スコアを増すステップと、（４）ドキュメントの全セン
テンスが選択センテンスとして示されなかった場合、ス
テップ（１）乃至（３）を繰り返すステップと、（５）
抽出されるセンテンスの部分集合をセンテンススコアに
基づいて選択するステップと、を表す、製造品を特徴と
する。

【００１１】

【発明の実施の形態】ベイズの法則(Bayes' rule) によ
れば、特徴(feature) 、Ｆ_j；ｊ＝１，２，．．．ｋと
称されるセンテンス特性(characteristic)の集合ｋが与
えられると、センテンスｓが抄録Ｓに含まれる確率は、
下記式（１）のように数学的に表され得る。

【００１２】

【数１】

【００１３】特徴の統計的独立を仮定すると、センテン
スｓが抄録Ｓに含まれる確率は下記式（２）のように再
び表され得る。

【００１４】

【数２】

【００１５】即ち、センテンスｓが抄録Ｓに含まれる全
体の確率は、センテンスｓに対して個々に評価された各
特徴により提供された確率の積に比例する。記載するト
レイニング（学習）方法は、この事実を利用して、特徴
の集合に対する確率を手作業により作成した抄録が整合
するトレイニングコーパスから生成する。

【００１６】特徴特徴の記述コンピュータシステム１０は特徴として既知のセンテン
ス特性を使用して、手作業により作成される抄録中に選
択的に含められる可能性の高いセンテンスを自動的に抽
出する。

【００１７】センテンス長さ特徴は、センテンス中のワ
ード（語）数が最低長さと整合するか又はそれを越える
かを示す。最低長さは、部分ヘッディング（見出し）の
ような、手作業により作成される抄録にめったに含まれ
ない短いセンテンスを識別するために選択される。

【００１８】直接的テーマ特徴は、センテンスがドキュ
メントの主題（メインテーマ）の内の１つをアドレスす
るか否かを決定する。直接的テーマ特徴は、ドキュメン
ト内で頻繁に使用されるコンテント（内容）ワードが、
そのドキュメントのテーマを同様に示すという直観(int
uition) を使用する。直接的テーマ特徴の値は、センテ
ンスがドキュメントの直接的テーマセンテンスの内の１
つであるか否かを示す。

【００１９】大文字特徴はセンテンスが重要な固有名詞
又は頭字語(acronyms)を含むか否かを示す。固有名詞及
び頭字語が典型的にはそれらの位置に関係なく、センテ
ンス内で大文字を用いて表されるためにそのように名付
けられる。

【００２０】キューワード特徴は、ドキュメントを要約
することを示すワードシーケンスをセンンテンスが含ん
でいるか否かを示す。このようなワードシーケンスは、
「この論説」、「その論説」、「この調査」、「本調
査」、「この論文」、「この研究」、「この作品」、
「本作品」、「この文筆」、「要するに」、「〜と推論
される」、「〜と結論を下す」、「我々は〜と締めくく
る」、「要約すると」、「結果」、「我々の結果」、
「結果が〜を示す」、「結果が〜を表す」、「結果は〜
である」等を、含む。

【００２１】キューワードのこのリストは全てを網羅す
ることは意図しない。キューワードを含むセンテンスの
識別方法は当業者に明白になるであろう。

【００２２】ロケーション特徴は、ドキュメント内のセ
ンテンスのロケーション（位置）が抄録に含まれそうな
ものであるか否かを示す。パラグラフの始まり及び終わ
りで検出されるセンテンスは、パラグラフの中間にある
センテンスよりも手作業で作成される抄録に含まれる可
能性が高い。更に、ドキュメントの始まり及び終わりの
センテンスは、ドキュメントの中間にあるセンテンスと
比べて、短い抄録に含まれる可能性が高い。使用される
他の特徴と異なって、ロケーション特徴は、２よりも大
きな値を取り得る。

【００２３】特徴評価抄録のトレイニング及び抽出中に使用されるトークン化
手段(tokenizer) は、上記記載した特徴の評価を容易に
する。トークン化手段は自然言語ドキュメントの機械可
読表現を分析して、パラグラフ境界、センテンス境界及
び各センテンス内のワードを識別する。

【００２４】ロケーション特徴の評価ロケーション特徴の評価は、テキストのメインボディ内
のセンテンスロケーションが既知である場合は真っ直ぐ
進む。センテンス位置とセンテンスのパラグラフ番号の
両方が与えられると、ロケーション特徴を容易に評価す
ることができる。

【００２５】論じる必要があるのは、パラグラフの特徴
を評価するのに必要なセンテンス数及びパラグラフ番号
を得ることである。そのタスクはテキストのメインボデ
ィの始まり箇所、及び著者が提供したタイトル又は要約
が存在する場合にはそれを識別することを伴う。その理
由は、これらはにはドキュメント抽出に関係のない日
付、住所、名前及び他の注釈(notation)がついているこ
とがよくあるからである。

【００２６】プロセッサ１１はステップ２８を用いて、
命令２７を実行し始め、このステップ中にセンテンスカ
ウンタが０に初期設定される。プロセッサ１１はセンテ
ンスカウンタを用いて、最低長さよりも長い連続センテ
ンスが幾つ検出されたかをトラックする。

【００２７】ステップ２９の間に、プロセッサ１１は選
択ドキュメントのセンテンスの内の１つを選択センテン
スとして示す。プロセッサ１１はステップ３０に分岐し
て、テキストのメインボディの最初の部分の探索を始め
る準備をする。

【００２８】ステップ３０中にプロセッサ１１は最初の
試験を行い、選択センテンスがテキストのメインボディ
の第１（最初の）パラグラフの部分を形成しているか否
かを識別する。プロセッサ１１は、センテンス境界を探
すために選択センテンスのトークンを探索する。テキス
トのメインボディに付いている注釈は、句読点を入れら
れないことがしばしばあるので、プロセッサ１１は、選
択センテンスがセンテンス境界を欠く場合に、それをメ
インテキストボディの部分とみなさない。選択センテン
スがセンテンス境界を欠くことが発見されると、プロセ
ッサ１１はステップ３３へ進む。一方、選択センテンス
がセンテンス境界を含む場合、選択センテンスはメイン
テキストボディの第１パラグラフの部分を形成し得る。
その確率を調査するために、更にプロセッサ１１はステ
ップ３１へ分岐する。

【００２９】ステップ３１の間にプロセッサ１１は第２
試験を行い、選択センテンスがメインテキストボディの
第１パラグラフの部分を形成するか否かをを決定する。
プロセッサ１１は、選択センテンスが句読点を除いて長
さが少なくとも最低のワード数であるか否かを決定す
る。メインテキストボディについている注釈が短いこと
はよくある。選択センテンスが短すぎる場合は、プロセ
ッサ１１はステップ３３へ進む。反対に、選択センテン
スの長さが最低長さに整合するか、又はそれを越える場
合、プロセッサ１１はステップ３２へ分岐する。

【００３０】ステップ３２へのエントリは、選択センテ
ンスがメインテキストボディの第１パラグラフの部分を
形成し得ることを意味する。プロセッサ１１はステップ
３２の間に選択センテンスの最後の試験を行う。プロセ
ッサ１１は、選択センテンスが次のセンテンスから、パ
ラグラフ境界、あるいはパラグラフ境界が示されない場
合には字下げ(indentation) 若しくは任意のホワイト空
間介在により分割した２つのキャリッジリターン（復
帰）により、分割されるか否かを決定した。選択センテ
ンスと次のセンテンスとの間のこの分割は、それらが同
一パラグラフの部分でないことを示す。２つのセンテン
スが異なるパラグラフに属す場合、プロセッサ１１はメ
インテキストボディの第１パラグラフを発見してなかっ
た。その場合、プロセッサ１１はステップ３３へ分岐す
る。一方、選択センテンスと次のセンテンスが同一パラ
グラフに属す場合、プロセッサ１１はメインテキストボ
ディの第１パラグラフのセンテンスの内の１つを識別し
た可能性がある。それに応答して、プロセッサ１１はス
テップ３４へ進み、センテンスカウンタを増分する。

【００３１】センテンスカウンタを増分すると、プロセ
ッサ１１は、ステップ３５の間に、最低長さの連続セン
テンスの最小数を既に発見したか否かを決定する。現行
パラグラフの更なる評価が可能であるか否を決定するた
めに、プロセッサ１１はステップ３６へ進む。一方、セ
ンテンスカウンタが最小数である場合、プロセッサはメ
インテキストボディの第１パラグラフを検出した。この
発見に応答して、プロッセッサ１１はステップ３７へ進
む。

【００３２】ステップ３７の間に、プロセッサ１１はメ
インテキストボディの第１センテンスとして、センテン
スＩ．Ｄ．が選択センテンスのセンテンスＩ．Ｄ．より
も２少ないセンテンスを識別する。メインテキストボデ
ィの第１パラグラフの第１センテンスを識別したので、
テキストのメインボディに対するセンテンス位置とパラ
グラフ番号を容易に決定することができ、これにより次
々にドキュメントの全センテンスに対してロケーション
特徴を容易に評価することができる。プセッサ１１はス
テップ３９へ分岐する。

【００３３】次に、ステップ３３及び３６へのエントリ
の作用を考察する。いずれかのステップへのエントリ
は、プロセッサ１１がメインテキストボディの第１パラ
グラフをまだ発見していなかったことを示す。この両方
のステップの間に、プロセッサ１１は、選択された全ド
キュメントが調べられたか否かを尋ねることにより、そ
の第１パラグラフを探索し続けることができるか否かを
決定する。全センテンスがまだ調べられていないという
発見に対するプロセッサ１１の応答は、２つのステップ
間で異なる。その理由は、異なるイベントがステップ３
３とステップ３６へのエントリを命令するからである。
プロセッサ１１は、選択センテンスがメインテキストボ
ディの第１パラグラフの部分を形成すると思われない時
はいつでも、いかなる理由であれステップ３３へ分岐す
る。その結果として、ドキュメントがまだ調べられてい
ないセンテンスを含む場合、プロセッサ１１が重要視す
る事は、選択センテンスを含まない１パラグラフ中の最
低長さの連続センテンスの集合を識別することである。
従って、プロセッサ１１はステップ２８へ分岐して、セ
ンテンスカウンタを再び初期設定する。反対に、ステッ
プ３６へのエントリは、選択センテンスが単一パラグラ
フにおいて最低長さの連続センテンスの集合の部分を形
成し得ることを意味する。従って、ドキュメントが選択
センテンスの後にセンテンスを含む時、プロセッサ１１
はステップ２９へ分岐して選択センテンスと同一パラグ
ラフ内で他の最低長さセンテンスを探索する。

【００３４】プロセッサ１１がステップ３３か又は３６
の間に、全センテンスを調べたが、単一パラグラフにお
いて終端句読点を有する３つの連続センテンスが見つけ
られなかったと決定する場合、プロセッサ１１はステッ
プ３８へ進む。ステップ３８の間にプロセッサ１１はド
キュメントの第１センテンスを、メインテキストボディ
の第１パラグラフの第１センテンスとして識別する。次
にプロセッサ１１はステップ３９へ進み、その現行タス
クを終了する。

【００３５】直接的テーマ特徴の評価必要に応じて、命令４０の実行開始前に、コンピュータ
ユーザは直接的テーマセンテンスとして選択されたセン
テンスの数「Ｚ」をデフォルト数(default number)から
変更することができる。

【００３６】プロセッサ１１は、トークン化された機械
可読ドキュメントの入力に、ステップ４２へ分岐するこ
とにより応答する。このステップに関しては、プロセッ
サ１１はドキュメント内に含まれるターム（語）リスト
を、ドキュメントから１ワード（語）を選択することに
より構築するように試み始める。それが成されると、プ
ロセッサ１１はステップ４３へ分岐する。

【００３７】ステップ４３の間に、プロセッサ１１は選
択ワードをストップワードのリストと比較する。本明細
書で使用されるように、「ストップワード」とは主題的
な意味を伝達せず、自然言語テキスト中に非常に頻繁に
発生するワードである。ストップワードとして、大半の
代名詞、前置詞、省略形、限定詞、及び動詞「to be」
の不定詞の活用形が分類される。選択ワードがストップ
ワードであれば、プロセッサ１１はステップ４７へ進
む。反対に、選択ワードがストップワードでない場合、
プロセッサ１１はステップ４４へ分岐する。

【００３８】ステップ４４中、プロセッサ１１は選択ワ
ードをタームインデックス（ドキュメントのワードをそ
のタームの発生毎にロケーションと関係付けるデータ構
造）の中に既に含まれているタームと比較する。選択ワ
ードがまだインデックス中に含まれていなければ、プロ
セッサ１１はステップ４５に分岐して、選択ワードに対
するタームインデックスにエントリを追加する。各ター
ムインデックスエントリはターム自体と、そのタームが
ドキュメント中で何回発生したかを示すカウンタと、各
タームが発生するセンテンスに対応するセンテンスＩ．
Ｄ．とを含む。一方、選択ワードに関してインデックス
エントリが既に存在する場合、プロセッサ１１はステッ
プ４６へ分岐する。ステップ４６の間に、プロセッサ１
１は選択ワードに対するタームインデックスエントリを
検出し、タームカウント（計数）を増分し、選択ワード
に対するセンテンスＩ．Ｄ．をインデックスエントリに
加える。

【００３９】タームインデックスを選択ワードに応答し
て変更すると、プロセッサ１１はステップ４７へ進む。
次に、プロセッサ１１は、ドキュメント中の全ワードが
既に調べられたか否かを決定する。調べられていなかっ
た場合、プロセッサ１１はタームインデックスを完了し
ない。それに応答して、プロセッサ１１はステップ４２
へ戻り、記載した方法でタームリストを構築し続ける。
一方、ドキュメントの全ワードが調べられていた場合、
タームインデックスは完了して、プロセッサ１１はステ
ップ５０へ分岐する。

【００４０】ステップ４７の実行の開始後でステップ５
０の実行前のステップ４８の間に、プロセッサ１１は主
題的センテンスを選択する際に使用される主題的ターム
の数を決定する。「Ｋ」で示されるその数は、直接的テ
ーマ（主題）センテンスとして選択されたセンテンスの
数に基づいて、即ち「Ｚ」に基づいて、決定される。一
般的に、ＫはＺよりも小さく、また１よりも大きくなる
べきである。Ｚよりも小さなＫを要求することにより、
選択された主題的なセンテンス同士の間でテーマの幾ら
かの属性の共有(commonality) が保証される。好ましく
は、Ｋは、下記式（３）により決定される。

【００４１】

【数３】

【００４２】Ｋの値及びステップ４６中に生成されたタ
ームカウントが与えられると、プロセッサ１１はＫ個の
主題的タームを選択する処理を開始する。ステップ５０
の間に、プロセッサ１１は、タームインデックスのター
ムをそれらのカウント、即ちドキュメント中の各ターム
の発生総数、に従ってソートする。ソートされたターム
インデックスを作成して、そのインデックスをメモリ中
に格納すると、プロセッサ１１はステップ５２へ分岐す
る。ステップ５２の間に、プロセッサ１１はソートされ
たタームインデッスクからハイカウントを有するＫ個の
タームを選択する。それが成されると、プロセッサ１１
はステップ５４へ進む。

【００４３】ステップ５４の間に、プロセッサ１１はド
キュメント中のＫ個の主題的タームの総発生数を計算す
る。「Ｎ」で示されたその数は、Ｋ個の主題的タームの
カウントを総計することにより計算される。プロセッサ
１１はステップ５６へ分岐する。

【００４４】主題的タームを選択してそれらのカウント
が決定すると、プロセッサ１１はドキュメントのセンテ
ンスの主題的コンテントを評価し始める準備をする。ス
テップ５６、５８、６０及び６２の間に、プロセッサ１
１はＫ個の主題的タームのうちの少なくとも１個を含む
センテンスだけを考察する。これは、タームインデック
スに含まれる情報が与えられると容易に行われる。プロ
セッサ１１は、ソートされたタームインデックスのＫ個
のハイスコアタームを調べることによりその処理を行
う。ステップ５６の間にｔ_sで示されるタームを選択し
た後、プロセッサ１１はステップ５８の間にｔ_sと関係
する各センテンスＩ．Ｄ．を調べる。ｔ_sと関係する各
センテンスＩ．Ｄ．に対して、プロセッサ１１はそのセ
ンテンスのスコアを増分する。好ましくは、各センテン
スに対するスコアはδだけ増分され、ここでδは、下記
式（４）により表される。

【００４５】

【数４】

【００４６】ステップ５８の間に、センテンススコアは
センテンススコアリストを作成することによりトラック
され得る。プロセッサ１１がセンテンスＩ．Ｄ．を選択
する度に、センテンススコアリストは調べられ、リスト
がそのセンテンスＩ．Ｄ．を含んでいるか否かを見る。
含んでいなければ、センテンスＩ．Ｄ．は、センテンス
スコアリストに加えられ、そのスコアは適切に増やされ
る。一方、センテンススコアリストが既に特定のセンテ
ンスＩ．Ｄ．を含んでいる場合、センテンスと既に関係
付したスコアは、先に論じた方法で増分される。

【００４７】選択タームｔ₂と関係する全センテンスの
スコアを増分した後、プロセッサ１１はステップ６０へ
分岐する。ステップ６０の間にプロセッサ１１は全部の
主題的タームが評価されたか否かを決定する。評価され
てない場合、プロセッサ１１はステップ５６へ戻り、選
択タームとして別の主題的タームを選択する。プロセッ
サ１１は、主題的タームの全てが調べられるまで、ステ
ップ５６、５８及び６０を通って、既に記載したように
分岐する。イベントが発生すると、プロセッサ１１はス
テップ６２へ分岐する。

【００４８】ステップ６２の間にプロセッサ１１は主題
的センテンスとしてハイスコアを有するＺ個のセンテン
スを選択する。プロセッサ１１はこの選択をセンテンス
スコアリストをスコアでソートすることにより行う。主
題的センテンスを選択すると、ステップ６２の間にプロ
セッサ１１は、これらのセンテンスに対して直接的テー
マ特徴を真に設定する。続くステップの間に、プロセッ
サ１１はドキュメント内の他の全センテンスに対して直
接テーマ特徴を偽に設定する。その後、プロセッサ１１
はステップ６４へ分岐する。

【００４９】大文字特徴の評価プロセッサ１１は、機械可読形態のドキュメントが選択
されてトークン化された後、ステップ８０でドキュメン
トの大文字特徴の評価を開始する。ステップ８０の間
に、プロセッサ１１はドキュメントからワードを選択す
る。次に、プロセッサ１１はステップ８２へ進み、許容
可能な大文字ワードを識別する工程を開始する。ステッ
プ８２の間に、プロセッサ１１は選択ワードがストップ
ワードであるか否かを決定する。ストップワードは頭字
語又は固有名詞と関係する可能性が低い。選択ワードが
ストップワードでない場合、プロセッサ１１はステップ
８４へ進む。そのステップの間に、プロセッサ１１は、
選択ワードが大文字で始まるか否かを、そのＡＳＣＩＩ
表現を調べることにより決定する。そのワードが大文字
から始まる場合、選択ワードが固有名詞又は頭字語を表
す可能性がある。プロセッサ１１はステップ８６へ分岐
することによりこの確率に応答する。ステップ８６の間
に、プロッセッサ１１は選択ワードがセンテンスの第１
ワードであるか否かを決定する。選択ワードがセンテン
スの第１ワードでなければ、選択ワードは固有名詞又は
頭字語で有り得る。プロセッサ１１はステップ８８へ進
んで、選択ワードにある最後の試験を施す。ステップ８
８の間にプロセッサ１１は、選択ワードが１レターより
も多いレターを含むか否かを決定する。１レターよりも
多いレターを含む場合、ステップ８８の次のステップの
間に、プロセッサ１１は選択ワードを許容可能な大文字
ワードとして処理する。

【００５０】ステップ９０の間に、プロセッサ１１は選
択ワードが大文字リストにすでに載っているか否かを決
定する。載っていなければ、ステップ９２の間に、プロ
セッサ１１は選択ワードを大文字リストに加えて、その
ワードに対してカウントを１に設定する。一方、選択ワ
ードが既に大文字リストにある場合、ステップ９４の間
に、プロセッサ１１は大文字リスト上の選択ワードと関
係するカウントを単に増やす。それが成されると、プロ
セッサ１１はステップ９６へ分岐して、ドキュメントの
ワードのその評価を続ける。プロセッサ１１はステップ
８０、８２、８４、８６、８８、９０、９２、９４及び
９６を、選択ドキュメントの全ワードが評価されるまで
実行する。ドキュメントの全ワードが評価されると、プ
ロセッサ１１はステップ９８へ進む。

【００５１】プロセッサ１１は、ステップ９８の間に選
択ドキュメントの各センテンスをスコアする準備を始め
る。先ず、プロセッサ１１はワードを大文字リスト中
に、より多くのカウントを有するワードをより少ないカ
ウントを有するワードよりも高いランクにランク付けす
る。プロセッサ１１は頻度の低い大文字ワードをランク
しない。ステップ１００の間に、プロセッサ１１は大文
字リストのワードランキングを使用して「Ｔｏｔａｌ
Ｕｐｐｅｒ（大文字総数）」で示される頻度の高い大文
字ワードの発生総数を決定する。それを行うと、プロセ
ッサ１１は、ドキュメントの各センテンスを開始する用
意をして、ステップ１０２へ分岐する。

【００５２】ステップ１０２の間に、プロセッサ１１は
センテンスを選択してスコアする。次のステップの間
に、プロセッサ１１は選択センテンスを１度に１ワード
調べる。先ず、ステップ１０４の間に、プロセッサ１１
はセンテンスに対してスコアを０に初期設定する。その
後、ステップ１０６の間に、プロセッサ１１は選択セン
テンスのワードの内の１つを選択する。プロセッサ１１
は、ステップ１０８の間に選択ワードが頻度の高い大文
字ワードか否かを決定する。もしそうであれば、プロセ
ッサ１１はステップ１１０へ進む。ステップ１１０の間
にプロセッサ１１は選択センテンスのスコアを、選択さ
れた大文字ワードの頻度に比例する量だけ増分する。好
ましくは、プロセッサ１１はｌ_sだけセンテンススコア
を増分し、ここでｌ_sは下記式（５）により表される。

【００５３】

【数５】

【００５４】次に、ステップ１１２及び１１４の間に、
プロセッサ１１は選択センテンスのスコアを、このスコ
アがドキュメント内の選択ワードの最初の発生である場
合に、更に増やす。その後、プロセッサ１１はステップ
１１６へ進み、選択センテンスの各ワードが調べられる
まで、ステップ１０６、１０８、１１０、１１２及び１
１４を実行することにより選択センテンスのワードを調
べ続ける。それが行われると、プロセッサ１１はステッ
プ１１８へ分岐する。ステップ１１８では、プロセッサ
１１はそのアテンションを出来るかぎりドキュメントの
別のセンテンスのスコアリングに向ける。プロセッサ１
１はステップ１０２、１０４、１０６、１０８、１１
０、１１２、１１４及び１１６を、選択ドキュメントの
全センテンスがスコアされるまで実行する。それが行わ
れると、プロセッサ１１はステップ１２０へ分岐する。

【００５５】ステップ１２０の間に、プロセッサ１１は
センテンススコアをランクする。センテンスのスコアは
高くなるに従って、より高いランキングを有する。プロ
セッサ１１はステップ１２２の間に、センテンスのこの
ランキングを使用して、大文字センテンスとして、ハイ
スコアセンテンスの部分集合を選択する。その後、ステ
ップ１２４の間にプロッセッサ１１は大文字センテンス
に対して大文字特徴値を真に設定する。また、プロセッ
サ１１は、ドキュメントの他の全てのセンテンスに対し
て大文字特徴を偽に設定する。

【００５６】特徴確率を生成するトレイニング方法統計的アプローチを使用して、プロセッサ１１は、特徴
確率をトレイニングドキュメントのコーパス及び短い抄
録の関連コーパスから各ドキュメントに対して１つ生成
する。特徴確率の生成は各抄録センテンスの特徴を評価
することを必要とする。幾つかの特徴値を抄録だけから
決定すること又は正確に決定することはできない。更
に、幾つかの特徴値は適切な抄録センテンスを用いても
正確に決定されないこともある。その理由は、幾つかの
抄録センテンスは元のセンテンスの連結や変更であるた
めである。従って、各抄録センテンスの特徴評価は、抄
録の対応するドキュメント内で整合センテンスを識別す
る必要がある。これはトレイニング開始前になされなく
てはならない。

【００５７】抄録センテンスとドキュメントセンテンス
の整合図７及び図８はプロセッサ１１により実行される命令２
００をフロー図形態で示し、関係する手作業により作成
された抄録の各センテンスに対して整合するドキュメン
ト内のセンテンスを識別する。

【００５８】簡潔に記載すると、命令２００はドキュメ
ントセンテンスを識別し、ドキュメントセンテンスは手
作業により作成された抄録センテンスと、１回に１つ整
合し得る。整合される抄録センテンスを選択後、プロセ
ッサ１１は関連するドキュメントの各ドキュメントセン
テンスを選択された抄録センテンスに対してスコアす
る。プロセッサ１１はステップ２０８〜２４９の間に、
ワードの属性の共有、類似のワードのオーダー、及び類
似の大文字使用に基づいてドキュメントセンテンスをス
コアする。その後、ステップ２５０の間に、プロセッサ
１１は選択抄録センテンスに対する可能な整合としてハ
イスコアリングドキュメントセンテンスの部分集合を識
別する。

【００５９】簡潔な記載がなされたので、次に命令２０
０の詳細な説明を行う。命令２００の実行は、トレイニ
ングドキュメントのコーパス及びそれらと対応する手作
業で作成された抄録のコーパスの識別及び選択により開
始され、それらは全て機械可読形態である。開始する
と、プロセッサ１１はステップ２０２へ進み、１つのド
キュメントとそれに対応する抄録とを選択する。その
後、ステップ２０４の間に、プロセッサ１１は抄録セン
テンスを選択し、その抄録センテンスの整合を識別す
る。次に、プロセッサ１１は元のセンテンスを選択し、
選択ドキュメントセンテンスを選択抄録センテンスと比
較する。次に、プロセッサ１１はステップ２０８へ進
み、選択ドキュメントセンテンスの評価を開始する前に
追加のタスクを行う。ステップ２０８の間に、プロセッ
サ１１は選択ドキュメントセンテンスに対してスコアを
０に設定する。プロセッサ１１はステップ２１０へ分岐
する。

【００６０】ステップ２１０の間に、プロセッサ１１は
選択抄録センテンスのワードの内の１つを適切に選択
し、それを選択抄録ワードｗ_tとする。プロセッサ１１
は次にステップ２１２へ進み、選択抄録ワードを選択ド
キュメントセンテンス内で探索する。選択ドキュメント
センテンスが選択抄録ワードを含まない場合、プロセッ
サ１１はステップ２４８へ分岐する。一方、選択ドキュ
メントセンテンスが選択抄録ワードを含む場合、その最
初の発生時に、プロセッサ１１はステップ２１４へ進
む。

【００６１】選択ドキュメントセンテンス内の選択抄録
ワードの発見は、プロセッサ１１が選択ドキュメントセ
ンテンスのスコアを増やすことを意味する。プロセッサ
１１が単なる選択抄録の存在に対してスコアをどのくら
い増やすかは、下記２つの式に対する答えに依存する；１．選択抄録ワードはストップワードか？２．これは選択抄録ワードの選択ドキュメントセンテン
スにおける最初の発生か？

【００６２】ステップ２１４の間に、プロセッサ１１は
選択抄録ワードがストップワードであるか否かを決定す
ることにより第１の問いに答える。もしもストップワー
ドであれば、ステップ２２０の間にプロセッサ１１は選
択ドキュメントセンテンスに対してスコアを、幾分か、
好ましくは１だけ増やす。次に、プロセッサ１１はステ
ップ２３４に進む。ステップ２３４の間及びその次のア
クションは後まで据え置かれる。一方、選択抄録ワード
がストップワードでない場合、プロセッサ１１はステッ
プ２１６へ分岐する。ステップ２１６の間に、増分され
るべきスコアの量を提供する第２の問いについて考察す
る。プロセッサ１１はステップ２１６の間に、選択抄録
ワードの現在の発生が選択ドキュメントセンテンス内で
のその最初の発生であるか否かを決定する。もし最初の
発生であれば、プロセッサ１１はステップ２１８の間に
センテンススコアを幾分、好ましくは３だけ増やす。そ
の後、プロセッサ１１はステップ２３０へ進む。一方、
現在の発生が、選択ドキュメントセンテンス内での選択
抄録ワードの最初の発生でない場合、プロセッサ１１は
ステップ２１７の間に、ステップ２１８の量よりも少な
い幾らかの量、好ましくは１だけセンテンススコアを増
やす。プロセッサ１１は次にステップ２３０へ進む。

【００６３】ステップ２３０の間に、プロセッサ１１
は、選択センテンス内において、選択抄録ワードの大文
字使用(capitalization)が選択抄録センンテンス内のそ
の大文字使用と整合するか否かを決定する。整合する場
合には、プロセッサ１１はステップ２３２へ進み、選択
ドキュメントセンテンスに対してスコアを、幾分増や
す。その後、プロセッサ１１はステップ２３４へ分岐す
る。プロセッサ１１は、選択抄録ワードの大文字使用が
選択抄録センテンス及び選択ドキュメントセンテンス内
の大文字使用と同一でない時、ステップ２３４へ直接進
む。

【００６４】ステップ２３４の間に、プロセッサ１１
は、ワード順（オーダー）を、選択抄録センテンスと選
択ドキュメントセンテンスとの間の類似性のインジケー
タとして考察する。プロッセッサ１１は、選択抄録ワー
ドが、既に選択された抄録ワードｗ_t-1の発生に次い
で、選択ドキュメントセンテンス内で発生するか否かを
決定する。ｗ_tがそのｗ_t-1での発生後に選択ドキュメ
ントセンテンス内で発生しない場合、プロセッサ１１は
選択ドキュメントセンテンスのスコアを、選択ドキュメ
ントセンテンス内の選択抄録ワードの現在の発生に基づ
いてそれ以上増やさない。既に選択された抄録ワードが
現在選択された抄録ワードよりも選択ドキュメントセン
テンス内で先に生じない時、プロセッサ１１はステップ
２３４を出る。選択抄録ワードに基づいて、選択ドキュ
メントセンテンスのスコアリングは終了する。それに応
答して、プロセッサ１１はステップ２４８へ進む。ステ
ップ２４８に関する説明はしばらく据え置く。一方、選
択抄録ワードが、既に選択された抄録ワードの後で選択
ドキュメントセンテンス内に生じる場合、選択抄録ワー
ドの現在の発生に基づく選択ドキュメントセンテンスの
スコアに対する更なる増加は、正当であると認められ
る。その場合、プロセッサ１１はステップ２３６へ進
む。

【００６５】ステップ２３６の間に、プロセッサ１１は
選択ドキュメントセンテンスを幾分か、好ましくは１だ
け増やし、ワードオーダー試験を満足させる。次に、プ
ロセッサ１１はステップ２３８へ進み、更なる増加が容
認されるか否かを調べる。

【００６６】選択抄録ワードがストップワードである場
合、プロセッサ１１はスコアの更なる増加は容認されな
いと見なす。その理由は、ストップワードは選択ドキュ
メントセンテンス及び選択抄録センテンスとの共通のコ
ンテントを示していないからである。選択抄録ワードが
ストップワードであることを発見すると、プロセッサ１
１はステップ２４８へ進む。ステップ２４８の間のアク
ティビティに関する説明はしばらく据え置く。逆に言え
ば、選択抄録ワードがストップワードでない時に、プロ
セッサ１１は選択ドキュメントセンテンスのスコアに対
する更なる増加が容認されるとみなす。このシチュエー
ション（状況）では、プロセッサ１１はステップ２４０
へ分岐して、どのくらい多くの増加がなされれるべきか
を決定する。そのステップの間に、プロセッサ１１は選
択ドキュメントセンテンス中の選択抄録ワードの現在の
発生が第１の発生であるか否かを決定する。もし第１の
発生であれば、プロセッサ１１はステップ２４２へ進
み、幾分か、好ましくは３だけスコアを増加する。その
後、プロセッサ１１はステップ２４８へ進む。一方、選
択抄録ワードの現在の発生が、第１発生でない場合、プ
ロセッサ１１はステップ２４４へ分岐する。ステップ２
４４の間に、プロセッサ１１は幾分かスコアを増す。そ
の後、プロセッサ１１はステップ２４８へ進む。

【００６７】ステップ２４８の間に、プロセッサ１１は
選択抄録センテンスに関して選択ドキュメントセンテン
スをスコアすることを終えたか否かを決定する。プロセ
ッサ１１がまだ選択抄録センテンスの境界に出会わない
場合、選択ドキュメントセンテンスのスコアリングは完
成していない。プロセッサ１１はステップ２１０に分岐
することによりこのシチュエーションに応答する。ステ
ップ２４８では、プロセッサ１１は選択抄録センテンス
の別のワードを選択することより、その選択ドキュメン
トセンテンスのスコアリングを続ける。やがて、プロセ
ッサ１１はプロセッサ１１が選択ドキュメントセンテン
ス内の選択抄録センテンスの各ワードに対して探索した
ことを発見する。これは、選択抄録センテンスに関して
選択ドキュメントセンテンスのスコアリングの完成を示
す。それが生じると、プロセッサ１１はステップ２４９
へ分岐する。

【００６８】プロセッサ１１はステップ２４９の間に、
選択抄録センテンスに関して元のセンテンスのスコアリ
ングを完成したか否かを決定する。完成していなけれ
ば、プロセッサ１１はステップ２０６へ戻り、選択ドキ
ュメントセンテンスとして別の元のセンテンスを示す。
スコアリングは先に論じられた方法でなされる。一度、
全ドキュメントセンテンスがスコアされると、プロセッ
サ１１は抄録センテンスと整合するドキュメントセンテ
ンスを選択することができる。そうするために、プロセ
ッサ１１はステップ２５０へ分岐する。

【００６９】プロセッサ１１は、ステップ２５０の間
に、ドキュメントの元のセンテンスの部分集合を、選択
抄録センテンスに対する可能な整合として選択する。プ
ロセッサ１１は、選択抄録センテンスに関してハイスコ
アを有する元のセンテンスに基づいて部分集合を選択す
る。好ましくは、プロセッサ１１は１つよりも多い元の
センテンスを可能な整合として示す。その理由は、ハイ
スコアリングセンテンスが選択抄録センテンスに良好に
整合しないこともあるという確率が存在するからであ
る。

【００７０】整合し得るセンテンスの部分集合を選択す
ると、プロセッサ１１は２５０を出て、ステップ２６０
へ進む。

【００７１】ステップ２６０の間に、プロセッサ１１は
抄録の各センテンスに整合する元のセンテンスを選択し
たか否かを決定する。選択していなければ、プロセッサ
１１はステップ２０４へ戻り、選択抄録の別の抄録セン
テンスに整合する元のセンテンスを識別する方法を開始
する。一方、もしも整合が選択抄録の全センテンスに対
して見つけられた場合、プロセッサ１１はステップ２６
２へ進む。プロセッサ１１はステップ２６２の間に、コ
ーパスの全抄録に整合するセンテンスを見つけたか否か
を決定する。みつけていなければ、プロセッサ１１は、
ステップ２０２へ戻るように分岐し、トレイニングコー
パスに別のドキュメント抄録対に関して再び処理を開始
する。一方、全体のコーパスに対して整合が識別される
と、プロセッサ１１はステップ２６４へ進み、その現行
タスクを完成する。

【００７２】各抄録センテンスに整合し得る多数のセン
テンスが命令２００を用いて識別されると、整合ドキュ
メントセンテンスを手作業により選択することができ
る、また手作業により選択することが好ましい。整合す
るドキュメントセンテンスの最終的な手作業による選択
は、以下２つの理由のために望ましい。先ず第１に、手
作業による選択により、整合しないドキュメントセンテ
ンスが存在する抄録センテンスを識別することができる
からである。抄録センテンスは、抄録作成のエキスパー
ト（熟練者）により構成されたので、整合するドキュメ
ントセンテンスを有していないこともあり得るからであ
る。第２に、手作業による整合センテンスの選択は、抄
録センテンスが２つの結合されたドキュメントセンテン
スから作られたものである時に有用であり、そのうちの
１つだけが整合センテンスとして示される。

【００７３】特徴確率の生成トレイニングトレイニングは、後で使用されエキスパートが抄録のた
めに選択し得るのと同じセンテンスの集合をドキュメン
トから自動的に抽出する特徴確率を決定する。トレイニ
ングは特徴集合及び整合したトレイニングコーパスを必
要とする。これらの事前要求が与えられると、トレイニ
ング中にプロセッサ１１は、各特徴をトレイニング集合
内の各センテンスに対して個々に評価して、各特徴が、
抄録センテンスと整合するセンテンス内及び全センテン
ス内で取り得る値の各々を取る回数を計数する。プロセ
ッサ１１はこれらのカウントを使用して、下記２種類の
確率を決定する。１．特徴ｊの値を抄録Ｓに含まれるセンテンスｓ中で観
察する確率、Ｐ（Ｆ_j｜ｓ∈Ｓ）。２．特徴ｊが観察された値を取る確率、Ｐ（Ｆ_j）。

【００７４】図９及び１０は、プロセッサ１１により実
行される命令３００をフロー図形態で示し、要求される
確率を整合トレイニングコーパスから決定する。

【００７５】プロセッサ１１はステップ３０１を用いて
命令３００の実行を開始する。そのステップの間に、プ
ロセッサ１１は、コーパスのドキュメントを選択ドキュ
メントＤ_Sとして示す。次のステップの間に、プロセッ
サ１１は抄録センテンスと整合するドキュメントセンテ
ンスを含むＤ_Sの全センテンスに対して特徴の値を決定
する。それが成されると、プロセッサ１１はステップ３
０２へ進み、特徴を選択し、その選択特徴Ｆ_Sを評価す
る。下記論議は、各特徴に対して値を別個に評価すると
するが、一方、適切なデータ構造が与えられれば、全特
徴に対して値を同時に評価することができる。特徴値を
決定する両方の方法は、本発明と一致する。プロセッサ
１１はステップ３０４へ分岐する。

【００７６】ステップ３０４の間に、プロセッサ１１は
選択ドキュメントからセンテンスを選択し、そのセンテ
ンスに対して選択特徴の値を決定する。プロセッサ１１
は、その値を選択センテンスと関係付ける。次に、プロ
セッサ１１はステップ３０６の間に、選択特徴に対する
値が選択ドキュメントの全センテンスに対して決定され
たか否かを決定する。プロセッサ１１は、選択特徴の値
が選択ドキュメントの全センテンスに対して決定される
まで、ステップ３０４へ戻るように分岐する。全センテ
ンスが評価されると、プロセッサ１１はステップ３０８
へ進む。

【００７７】ステップ３０８の間に、プロセッサ１１は
選択特徴がドキュメント内の全センテンスに対してその
可能な値の各々を取る回数を決定する。例えば、Ｆ_sが
真及び偽の値だけを取る特徴である場合、プロセッサ１
１はＦ_sが真ｔである選択ドキュメント内のセンテンス
の数、及びＦ_sが偽ｆである回数を決定する。これらの
量を概略的に「ＤｏｃＮ_FV」で示し、それは、単一ドキ
ュメント内で特徴Ｆが特定の値Ｖを取る回数Ｎを表す。
従って、選択特徴が２つの値、即ち真及び偽を取り得る
場合、ステップ３０８の間に、プロセッサ１１は２つの
量をＤｏｃＮ_FT及びＤｏｃＮ_FFを計算する。ステップ３
０８の間に、プロセッサ１１はドキュメントに対する値
をトレイニングコーパスに対する移動総数(running tot
als)に加え、これはＴｏｔａｌＤｏｃＮ_FVとして概略的
に示される。次に、プロセッサ１１はステップ３１０へ
進み同様のタスクを実行する。

【００７８】ステップ３１０の間に、プロセッサ１１は
Ｆ_Sがその可能値の各々を、Ｄ_Sが整合する元のセンテ
ンス内で取る回数を決定する。これらの量を概略的に
「ＭａｔｃｈＮ_FV」として表す。次に、この特定のドキ
ュメントに対する値は、「ＴｏｔａｌＭａｔｃｈＮ_FV」
で示される移動総数に加えられる。選択特徴の評価が完
了すると、プロセッサ１１はステップ３１２に進む。

【００７９】プロセッサ１１は、ステップ３１２の間
に、選択ドキュメントに対して全特徴を決定したか否か
を決定する。プロセッサ１１がまだ全特徴を評価してい
なかった場合、プロセッサ１１はステップ３０２へ戻
る。次に、プロセッサ１１は、各特徴に対して特徴値が
決定されるまで、ステップ３０２、３０４、３０６、３
０８、３１０及び３１２を上記記載した方法で実行す
る。

【００８０】プロセッサ１１は、ステップ３１４の間に
特徴値がトレイニングコーパス内の全ドキュメントに対
して計算されたか否かを決定する。計算されていなけれ
ば、プロセッサ１１はステップ３０１へ戻り、全特徴値
がトレイニングコーパス内の全ドキュメントに対して計
算されるまで、ステップ３０１、３０２、３０４、３０
６、３０８、３１０、３１２及び３１４を記載した方法
で実行する。それが行われると、プロセッサ１１は特徴
確率を計算する準備ができ、ステップ３１６へ進む。

【００８１】特徴確率の計算は、使用される特徴の選択
集合から１つの特徴を選択することによりステップ３１
６において始まる。次に、ステップ３１８の間に、プロ
セッサ１１は選択特徴の各値に関係する可能性を計算す
る。プロセッサ１１は、整合センテンスが特定の特徴値
ＴｏｔａｌＭａｔｃｈ_FVを取った総回数を、トレイニン
グコーパス内のセンテンスがその同じ特徴値Ｔｏｔａｌ
Ｄｏｃ_FVを取った総回数で割ることにより前記可能性を
計算する。ステップ３１８の間に特徴に対して計算され
た確率の数は、特徴が取ることができる数となる。選択
特徴と関係する全確率を計算後、プロセッサ１１はステ
ップ３２０へ分岐する。

【００８２】プロセッサ１１は、ステップ３２０の間
に、特徴全部に対して確率を計算したか否かを決定す
る。計算されていなければ、プロセッサ１１はステップ
３１６へ戻り、全特徴確率が計算されるまでステップ３
１６、３１８及び３２０を繰り返す。それが行われる
と、プロセッサ１１はステップ３２４へ分岐して、トレ
イニングを完了する。次にプロセッサ１１はこれらの特
徴確率を使用して、手作業により作成された抄録に匹敵
する品質のドキュメント抄録を自動的に作成することが
できる。

【００８３】抄録センテンスの自動抽出方法命令３５０の実行は、コンピュータユーザがドキュメン
トを抽出物が作成されるべき機械可読形態で示すと開始
する。特定のドキュメントの選択に応答して、プロセッ
サ１１はステップ３５２へ分岐してセンテンスを選択ド
キュメントから選択する。その後、プロセッサ１１はス
テップ３５４へ進み、選択センテンスに対するスコア
を、ある非０の数、好ましくは１に初期設定する。次に
プロセッサ１１はステップ３５６へ分岐する。

【００８４】ステップ３５６に関しては、プロセッサ１
１は選択ドキュメントの抽出物に含まれる選択センテン
スの適正を決定する工程を開始する。プロセッサ１１は
この工程を、特徴集合から評価用の特徴を選択すること
により開始する。次に、プロセッサ１１はステップ３５
８の間に、選択センテンスに対して特徴の値を決定す
る。次に、プロセッサ１１はステップ３６０へ進む。特
徴値が与えられると、プロセッサ１１はその特徴値と関
係する確率を探索（ルックアップ）する。次に、ステッ
プ３６２の間に、プロセッサ１１は選択センテンスに対
してスコアを丁度探索された確率と比例する量だけ変更
する。

【００８５】１つの特徴の評価を完了すると、プロセッ
サ１１はステップ３６４の間に、選択センテンスに対し
て全特徴の全値が決定されたか否かを決定する。決定さ
れていなければ、プロセッサ１１は選択センテンスのそ
のスコアリングを完了しない。その場合、プロセッサ１
１はステップ３５６へ戻り、選択センテンスのスコアを
調整して全特徴の値を反映するまで、ステップ３５６、
３５８、３６０、３６２及び３６４を実行する。プロセ
ッサ１１が選択センテンスのスコアリングを完了する
と、プロセッサ１１はステップ３６６へ分岐する。

【００８６】ステップ３６６の間に、プロセッサ１１は
将来の参考のために選択センテンスに対して最終スコア
を格納する。１センテンスのスコアリングを完了する
と、プロセッサ１１は、後続ステップ３６８の間に選択
ドキュメントの各センテンスをスコアしたか否かを決定
する。スコアしていなければ、プロセッサ１１はステッ
プ３５２へ戻り、評価のために選択ドキュメントから別
のセンテンスを選択する。プロセッサ１１は、選択ドキ
ュメントの各センテンスに対して最終スコアを生成する
まで、ステップ３５２、３５４、３５６、３５８、３６
０、３６２、３６４、３６６及び３６８を実行する。プ
ロセッサ１１が全センテンスをスコアしたことを決定す
ると、プロセッサ１１はステップ３７０へ進む。

【００８７】プロセッサ１１はステップ３７０の間に、
ハイスコアリングセンテンスの部分集合を選択して、ド
キュメント抽出物を作成する。

【図面の簡単な説明】

【図１】本発明が適用可能なコンピュータシステムを示
す。

【図２】ドキュメント内でテキストの開始箇所を検出す
る方法のフロー図である。

【図３】ドキュメントの主題の抄録の作成する方法のフ
ロー図である。

【図４】ドキュメントの主題の抄録の作成する方法の図
３から続くフロー図である。

【図５】大文字センテンスを識別する方法のフロー図で
ある。

【図６】大文字センテンスを識別する方法の図５から続
くフロー図である。

【図７】ドキュメント内でセンテンスを検出する方法の
フロー図であり、そのセンテンスはそのドキュメントに
関して手作業で作成された抄録内のセンテンスと整合す
る。

【図８】ドキュメント内でセンテンスを検出する方法の
図７から続くフロー図であり、そのセンテンスはそのド
キュメントに関して手作業で作成された抄録内のセンテ
ンスと整合する。

【図９】特徴確率を生成する方法のフロー図である。

【図１０】特徴確率を生成する方法の図９から続くフロ
ー図である。

【図１１】自然言語ドキュメントの機械可読表現に関し
て抽出物を自動的に生成する方法のフロー図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジャンオー．ペダーセンアメリカ合衆国 94303 カリフォルニア州パロアルトビビッツドライブ 3913 (72)発明者フランシヌアール．チェンアメリカ合衆国 94025 カリフォルニア州サンマテオシャーマンアベニュー 975 (72)発明者ダニエルシー．ブロツキーアメリカ合衆国 94707 カリフォルニア州バークレイコルサアベニュー 1162 (72)発明者スティーブンビー．プッツアメリカ合衆国 95051 カリフォルニア州サンタクララロウズモントドライブ 351

Claims

【特許請求の範囲】

【請求項１】機械可読形態でプロセッサに呈された、
プロセッサにより実施される方法であって、ドキュメン
トが複数のセンテンスを含み、プロセッサはセンテンス
を抽出するための機械可読命令を格納するメモリに結合
され、メモリが特徴集合の各特徴の各値に対して確率を
格納し、ドキュメントコーパスとこれに関係する手作業
により作成される抄録のコーパスの統計的分析により確
率が生成され、（ａ）ドキュメントのセンテンスを選択センテンスとし
て示すステップを有し、（ｂ）特徴集合の各特徴の選択センテンスに対して値を
決定するステップを有し、（ｃ）特徴毎に、選択センテンスに対する特徴の値及び
特徴の値と関係する確率に基づいて選択センテンスに対
してスコアを増すステップを有し、（ｄ）ドキュメントの全センテンスが選択センテンスと
して示されなかった場合、ステップ（ａ）乃至（ｃ）を
繰り返すステップを有し、（ｅ）抽出されるセンテンスの部分集合をセンテンスス
コアに基づいて選択するステップを有する、自然言語ドキュメントのセンテンスからセンテンスの部
分集合を自動的に抽出する方法。
【請求項２】特徴集合がロケーション特徴及び大文字
特徴を含み、ロケーション特徴が第１ロケーション値、
第２ロケーション値及び第３ロケーション値を有し、第
１ロケーション値が選択センテンスが選択ドキュメント
の開始部分内に含まれることを示し、第２ロケーション
値が選択センテンスが選択ドキュメントの中間部分内に
含まれることを示し、そして第３ロケーション値が選択
センテンスが選択ドキュメントの終わり部分内に含まれ
ることを示し、大文字特徴が第１大文字値及び第２大文
字値を有し、第１大文字値が選択センテンスが複数の選
択大文字フレーズのいずれも含まないことを示し、第２
大文字値が選択センテンスが選択大文字フレーズのうち
１つを含むことを示す、請求項１に記載の自然言語ドキ
ュメントのセンテンスからセンテンスの部分集合を自動
的に抽出する方法。
【請求項３】特徴集合が更に直接的テーマ特徴を含
み、直接的テーマ特徴が選択センテンスが選択ドキュメ
ントのテーマを表すことを示す第１値を有し、直接テー
マ特徴が選択センテンスが選択ドキュメントのテーマを
表さないことを示す第２値を有する、請求項２に記載の
自然言語ドキュメントのセンテンスからセンテンスの部
分集合を自動的に抽出する方法。
【請求項４】（ａ）メモリを有し、（ｂ）メモリにより格納されるデータを有し、データが
特徴集合の各特徴の値毎に確率を含み、ドキュメントコ
ーパス及びこれに関係する手作業により作成された抄録
のコーパスの統計的分析から確率が生成され、（ｃ）メモリにより格納される命令を有し、格納された
命令がセンテンスの部分集合を機械可読形態の自然言語
ドキュメントのセンテンスから抽出するためにアクセス
可能であり、ドキュメントが複数のセンテンスを含み、
命令が、（１）ドキュメントのセンテンスを選択センテ
ンスとして示すステップと、（２）特徴集合の各特徴の
選択センテンスに対して値を決定するステップと、
（３）特徴毎に、選択センテンスに対する特徴値及び特
徴値と関係する確率に基づいて選択センテンスに対して
スコアを増すステップと、（４）ドキュメントの全セン
テンスが選択センテンスとして示されなかった場合、ス
テップ（１）乃至（３）を繰り返すステップと、（５）
抽出されるセンテンスの部分集合をセンテンススコアに
基づいて選択するステップと、を表す、製造品。