JPH0916630A - 自然言語ドキュメントのセンテンスからセンテンスの部分集合を自動的に抽出する方法及びその製造品 - Google Patents

自然言語ドキュメントのセンテンスからセンテンスの部分集合を自動的に抽出する方法及びその製造品

Info

Publication number
JPH0916630A
JPH0916630A JP8180104A JP18010496A JPH0916630A JP H0916630 A JPH0916630 A JP H0916630A JP 8180104 A JP8180104 A JP 8180104A JP 18010496 A JP18010496 A JP 18010496A JP H0916630 A JPH0916630 A JP H0916630A
Authority
JP
Japan
Prior art keywords
sentence
processor
document
sentences
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8180104A
Other languages
English (en)
Other versions
JP2810650B2 (ja
Inventor
Julian M Kupiec
エム.クピエク ジュリアン
Jan O Pedersen
オー.ペダーセン ジャン
Francine R Chen
アール.チェン フランシヌ
Daniel C Brotsky
シー.ブロツキー ダニエル
Steven B Putz
ビー.プッツ スティーブン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH0916630A publication Critical patent/JPH0916630A/ja
Application granted granted Critical
Publication of JP2810650B2 publication Critical patent/JP2810650B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 自動的にドキュメントの抽出物を作成する方
法を提供し、該方法によりエキスパートが抽出するかも
しれないセンテンスの集合と同じセンテンスの集合を抽
出する。 【解決手段】 本発明の方法は反復的アプローチに基づ
く。先ず、コンピュータシステムはドキュメントのセン
テンスを選択センテンスとして示す。次に、コンピュー
タシステムは特徴集合の各特徴の選択センテンスに対し
て値を決定する。次に、コンピュータシステムは選択セ
ンテンスに対する特徴の値及びその値と関係する確率に
基づいて選択センテンスに対してスコアを増分する。次
に、ドキュメントのセンテンスの全てをスコアリング
後、コンピュータシステムは抽出されるハイスコアセン
テンスの部分集合を選択する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自動テキスト処理
方法に関する。特に、本発明は自然言語テキストから抄
録抽出物(summary extracts) を特徴確率を用いて自動
作成する方法に関する。
【0002】
【従来技術及び発明が解決しようとする課題】抄録(sum
maries) 及び抽出物(extract) は、ドキュメント(文
書) のタイトル(表題)よりも参考になる、簡潔である
が一見して十分に吸収できるほど簡単であるドキュメン
ト描写を提供する。
【0003】著者により提供される従来の直接的抄録(i
ndicative abstract) は、それが得られると、簡潔なド
キュメント描写に対する必要性を満たす。著者により提
供される抄録がない場合は自動的に作成されるドキュメ
ント抄録を用いて克服することができる。多くの研究者
が自動的なドキュメントの要約に取り組んだ。ドキュメ
ントの概要をなす一貫性のある記述を作成する一般的な
タスクは、現在、あまりにも問題が多いと考えられてい
る。その理由は、ドキュメント内容の理解・抽出、及び
言語生成を該タスクが含有するからである。より単純な
アプローチは、ドキュメント概要を抽出による抄録と定
義することにより言語理解についての中心的な困難を回
避することである。即ち、このアプローチの目的は、ド
キュメントのコンテント( 内容) を示すドキュメントセ
ンテンスの部分集合を見つけることである。典型的に
は、このアプローチ下ではドキュメントセンテンスをス
コア( 評価) して、ハイスコアセンテンスを選択して抽
出する。
【0004】数々のヒューリスティック(発見的方法)
は概要(summarization) を抽出するためにセンテンスを
スコアすることを提案した。軌跡は特徴の組み合わせが
最良の成果をもたらすことを提案する。
【0005】概要を抽出するために使用された従来の特
徴は、頻度の高いキーワードヒューリスティック、ロケ
ーションヒューリステック、及びキューワード(cue wor
d)を含む。
【0006】本発明の目的は、上記記載した従来技術の
欠点を克服することである。
【0007】
【課題を解決するための手段】請求項1に記載の発明
は、機械可読形態でプロセッサに呈された、プロセッサ
により実施される方法であって、ドキュメントが複数の
センテンスを含み、プロセッサはセンテンスを抽出する
ための機械可読命令を格納するメモリに結合され、メモ
リが特徴集合の各特徴の各値に対して確率を格納し、ド
キュメントコーパスとこれに関係する手作業により作成
される抄録のコーパスの統計的分析により確率が生成さ
れ、(a)ドキュメントのセンテンスを選択センテンス
として示すステップを有し、(b)特徴集合の各特徴の
選択センテンスに対して値を決定するステップを有し、
(c)特徴毎に、選択センテンスに対する特徴の値及び
特徴の値と関係する確率に基づいて選択センテンスに対
してスコアを増すステップを有し、(d)ドキュメント
の全センテンスが選択センテンスとして示されなかった
場合、ステップ(a)乃至(c)を繰り返すステップを
有し、(e)抽出されるセンテンスの部分集合をセンテ
ンススコアに基づいて選択するステップを有する、自然
言語ドキュメントのセンテンスからセンテンスの部分集
合を自動的に抽出する方法を特徴とする。
【0008】請求項2に記載の自然言語ドキュメントの
センテンスからセンテンスの部分集合を自動的に抽出す
る方法は、請求項1に記載の自然言語ドキュメントのセ
ンテンスからセンテンスの部分集合を自動的に抽出する
方法において、特徴集合がロケーション特徴及び大文字
特徴を含み、ロケーション特徴が第1ロケーション値、
第2ロケーション値及び第3ロケーション値を有し、第
1ロケーション値が選択センテンスが選択ドキュメント
の開始部分内に含まれることを示し、第2ロケーション
値が選択センテンスが選択ドキュメントの中間部分内に
含まれることを示し、そして第3ロケーション値が選択
センテンスが選択ドキュメントの終わり部分内に含まれ
ることを示し、大文字特徴が第1大文字値及び第2大文
字値を有し、第1大文字値が選択センテンスが複数の選
択大文字フレーズのいずれも含まないことを示し、第2
大文字値が選択センテンスが選択大文字フレーズのうち
1つを含むことを示す。
【0009】請求項3に記載の自然言語ドキュメントの
センテンスからセンテンスの部分集合を自動的に抽出す
る方法は、請求項2に記載の自然言語ドキュメントのセ
ンテンスからセンテンスの部分集合を自動的に抽出する
方法において、特徴集合が更に直接的テーマ特徴を含
み、直接的テーマ特徴が選択センテンスが選択ドキュメ
ントのテーマを表すことを示す第1値を有し、直接テー
マ特徴が選択センテンスが選択ドキュメントのテーマを
表さないことを示す第2値を有する。
【0010】請求項4に記載の本発明は、 (a)メモリを有し、 (b)メモリにより格納されるデータを有し、データが
特徴集合の各特徴の値毎に確率を含み、ドキュメントコ
ーパス及びこれに関係する手作業により作成された抄録
のコーパスの統計的分析から確率が生成され、 (c)メモリにより格納される命令を有し、格納された
命令がセンテンスの部分集合を機械可読形態の自然言語
ドキュメントのセンテンスから抽出するためにアクセス
可能であり、ドキュメントが複数のセンテンスを含み、
命令が、(1)ドキュメントのセンテンスを選択センテ
ンスとして示すステップと、(2)特徴集合の各特徴の
選択センテンスに対して値を決定するステップと、
(3)特徴毎に、選択センテンスに対する特徴値及び特
徴値と関係する確率に基づいて選択センテンスに対して
スコアを増すステップと、(4)ドキュメントの全セン
テンスが選択センテンスとして示されなかった場合、ス
テップ(1)乃至(3)を繰り返すステップと、(5)
抽出されるセンテンスの部分集合をセンテンススコアに
基づいて選択するステップと、を表す、製造品を特徴と
する。
【0011】
【発明の実施の形態】ベイズの法則(Bayes' rule) によ
れば、特徴(feature) 、Fj ;j=1,2,...kと
称されるセンテンス特性(characteristic)の集合kが与
えられると、センテンスsが抄録Sに含まれる確率は、
下記式(1)のように数学的に表され得る。
【0012】
【数1】
【0013】特徴の統計的独立を仮定すると、センテン
スsが抄録Sに含まれる確率は下記式(2)のように再
び表され得る。
【0014】
【数2】
【0015】即ち、センテンスsが抄録Sに含まれる全
体の確率は、センテンスsに対して個々に評価された各
特徴により提供された確率の積に比例する。記載するト
レイニング(学習)方法は、この事実を利用して、特徴
の集合に対する確率を手作業により作成した抄録が整合
するトレイニングコーパスから生成する。
【0016】特徴 特徴の記述 コンピュータシステム10は特徴として既知のセンテン
ス特性を使用して、手作業により作成される抄録中に選
択的に含められる可能性の高いセンテンスを自動的に抽
出する。
【0017】センテンス長さ特徴は、センテンス中のワ
ード(語)数が最低長さと整合するか又はそれを越える
かを示す。最低長さは、部分ヘッディング(見出し)の
ような、手作業により作成される抄録にめったに含まれ
ない短いセンテンスを識別するために選択される。
【0018】直接的テーマ特徴は、センテンスがドキュ
メントの主題(メインテーマ)の内の1つをアドレスす
るか否かを決定する。直接的テーマ特徴は、ドキュメン
ト内で頻繁に使用されるコンテント(内容)ワードが、
そのドキュメントのテーマを同様に示すという直観(int
uition) を使用する。直接的テーマ特徴の値は、センテ
ンスがドキュメントの直接的テーマセンテンスの内の1
つであるか否かを示す。
【0019】大文字特徴はセンテンスが重要な固有名詞
又は頭字語(acronyms)を含むか否かを示す。固有名詞及
び頭字語が典型的にはそれらの位置に関係なく、センテ
ンス内で大文字を用いて表されるためにそのように名付
けられる。
【0020】キューワード特徴は、ドキュメントを要約
することを示すワードシーケンスをセンンテンスが含ん
でいるか否かを示す。このようなワードシーケンスは、
「この論説」、「その論説」、「この調査」、「本調
査」、「この論文」、「この研究」、「この作品」、
「本作品」、「この文筆」、「要するに」、「〜と推論
される」、「〜と結論を下す」、「我々は〜と締めくく
る」、「要約すると」、「結果」、「我々の結果」、
「結果が〜を示す」、「結果が〜を表す」、「結果は〜
である」等を、含む。
【0021】キューワードのこのリストは全てを網羅す
ることは意図しない。キューワードを含むセンテンスの
識別方法は当業者に明白になるであろう。
【0022】ロケーション特徴は、ドキュメント内のセ
ンテンスのロケーション(位置)が抄録に含まれそうな
ものであるか否かを示す。パラグラフの始まり及び終わ
りで検出されるセンテンスは、パラグラフの中間にある
センテンスよりも手作業で作成される抄録に含まれる可
能性が高い。更に、ドキュメントの始まり及び終わりの
センテンスは、ドキュメントの中間にあるセンテンスと
比べて、短い抄録に含まれる可能性が高い。使用される
他の特徴と異なって、ロケーション特徴は、2よりも大
きな値を取り得る。
【0023】特徴評価 抄録のトレイニング及び抽出中に使用されるトークン化
手段(tokenizer) は、上記記載した特徴の評価を容易に
する。トークン化手段は自然言語ドキュメントの機械可
読表現を分析して、パラグラフ境界、センテンス境界及
び各センテンス内のワードを識別する。
【0024】ロケーション特徴の評価 ロケーション特徴の評価は、テキストのメインボディ内
のセンテンスロケーションが既知である場合は真っ直ぐ
進む。センテンス位置とセンテンスのパラグラフ番号の
両方が与えられると、ロケーション特徴を容易に評価す
ることができる。
【0025】論じる必要があるのは、パラグラフの特徴
を評価するのに必要なセンテンス数及びパラグラフ番号
を得ることである。そのタスクはテキストのメインボデ
ィの始まり箇所、及び著者が提供したタイトル又は要約
が存在する場合にはそれを識別することを伴う。その理
由は、これらはにはドキュメント抽出に関係のない日
付、住所、名前及び他の注釈(notation)がついているこ
とがよくあるからである。
【0026】プロセッサ11はステップ28を用いて、
命令27を実行し始め、このステップ中にセンテンスカ
ウンタが0に初期設定される。プロセッサ11はセンテ
ンスカウンタを用いて、最低長さよりも長い連続センテ
ンスが幾つ検出されたかをトラックする。
【0027】ステップ29の間に、プロセッサ11は選
択ドキュメントのセンテンスの内の1つを選択センテン
スとして示す。プロセッサ11はステップ30に分岐し
て、テキストのメインボディの最初の部分の探索を始め
る準備をする。
【0028】ステップ30中にプロセッサ11は最初の
試験を行い、選択センテンスがテキストのメインボディ
の第1(最初の)パラグラフの部分を形成しているか否
かを識別する。プロセッサ11は、センテンス境界を探
すために選択センテンスのトークンを探索する。テキス
トのメインボディに付いている注釈は、句読点を入れら
れないことがしばしばあるので、プロセッサ11は、選
択センテンスがセンテンス境界を欠く場合に、それをメ
インテキストボディの部分とみなさない。選択センテン
スがセンテンス境界を欠くことが発見されると、プロセ
ッサ11はステップ33へ進む。一方、選択センテンス
がセンテンス境界を含む場合、選択センテンスはメイン
テキストボディの第1パラグラフの部分を形成し得る。
その確率を調査するために、更にプロセッサ11はステ
ップ31へ分岐する。
【0029】ステップ31の間にプロセッサ11は第2
試験を行い、選択センテンスがメインテキストボディの
第1パラグラフの部分を形成するか否かをを決定する。
プロセッサ11は、選択センテンスが句読点を除いて長
さが少なくとも最低のワード数であるか否かを決定す
る。メインテキストボディについている注釈が短いこと
はよくある。選択センテンスが短すぎる場合は、プロセ
ッサ11はステップ33へ進む。反対に、選択センテン
スの長さが最低長さに整合するか、又はそれを越える場
合、プロセッサ11はステップ32へ分岐する。
【0030】ステップ32へのエントリは、選択センテ
ンスがメインテキストボディの第1パラグラフの部分を
形成し得ることを意味する。プロセッサ11はステップ
32の間に選択センテンスの最後の試験を行う。プロセ
ッサ11は、選択センテンスが次のセンテンスから、パ
ラグラフ境界、あるいはパラグラフ境界が示されない場
合には字下げ(indentation) 若しくは任意のホワイト空
間介在により分割した2つのキャリッジリターン(復
帰)により、分割されるか否かを決定した。選択センテ
ンスと次のセンテンスとの間のこの分割は、それらが同
一パラグラフの部分でないことを示す。2つのセンテン
スが異なるパラグラフに属す場合、プロセッサ11はメ
インテキストボディの第1パラグラフを発見してなかっ
た。その場合、プロセッサ11はステップ33へ分岐す
る。一方、選択センテンスと次のセンテンスが同一パラ
グラフに属す場合、プロセッサ11はメインテキストボ
ディの第1パラグラフのセンテンスの内の1つを識別し
た可能性がある。それに応答して、プロセッサ11はス
テップ34へ進み、センテンスカウンタを増分する。
【0031】センテンスカウンタを増分すると、プロセ
ッサ11は、ステップ35の間に、最低長さの連続セン
テンスの最小数を既に発見したか否かを決定する。現行
パラグラフの更なる評価が可能であるか否を決定するた
めに、プロセッサ11はステップ36へ進む。一方、セ
ンテンスカウンタが最小数である場合、プロセッサはメ
インテキストボディの第1パラグラフを検出した。この
発見に応答して、プロッセッサ11はステップ37へ進
む。
【0032】ステップ37の間に、プロセッサ11はメ
インテキストボディの第1センテンスとして、センテン
スI.D.が選択センテンスのセンテンスI.D.より
も2少ないセンテンスを識別する。メインテキストボデ
ィの第1パラグラフの第1センテンスを識別したので、
テキストのメインボディに対するセンテンス位置とパラ
グラフ番号を容易に決定することができ、これにより次
々にドキュメントの全センテンスに対してロケーション
特徴を容易に評価することができる。プセッサ11はス
テップ39へ分岐する。
【0033】次に、ステップ33及び36へのエントリ
の作用を考察する。いずれかのステップへのエントリ
は、プロセッサ11がメインテキストボディの第1パラ
グラフをまだ発見していなかったことを示す。この両方
のステップの間に、プロセッサ11は、選択された全ド
キュメントが調べられたか否かを尋ねることにより、そ
の第1パラグラフを探索し続けることができるか否かを
決定する。全センテンスがまだ調べられていないという
発見に対するプロセッサ11の応答は、2つのステップ
間で異なる。その理由は、異なるイベントがステップ3
3とステップ36へのエントリを命令するからである。
プロセッサ11は、選択センテンスがメインテキストボ
ディの第1パラグラフの部分を形成すると思われない時
はいつでも、いかなる理由であれステップ33へ分岐す
る。その結果として、ドキュメントがまだ調べられてい
ないセンテンスを含む場合、プロセッサ11が重要視す
る事は、選択センテンスを含まない1パラグラフ中の最
低長さの連続センテンスの集合を識別することである。
従って、プロセッサ11はステップ28へ分岐して、セ
ンテンスカウンタを再び初期設定する。反対に、ステッ
プ36へのエントリは、選択センテンスが単一パラグラ
フにおいて最低長さの連続センテンスの集合の部分を形
成し得ることを意味する。従って、ドキュメントが選択
センテンスの後にセンテンスを含む時、プロセッサ11
はステップ29へ分岐して選択センテンスと同一パラグ
ラフ内で他の最低長さセンテンスを探索する。
【0034】プロセッサ11がステップ33か又は36
の間に、全センテンスを調べたが、単一パラグラフにお
いて終端句読点を有する3つの連続センテンスが見つけ
られなかったと決定する場合、プロセッサ11はステッ
プ38へ進む。ステップ38の間にプロセッサ11はド
キュメントの第1センテンスを、メインテキストボディ
の第1パラグラフの第1センテンスとして識別する。次
にプロセッサ11はステップ39へ進み、その現行タス
クを終了する。
【0035】直接的テーマ特徴の評価 必要に応じて、命令40の実行開始前に、コンピュータ
ユーザは直接的テーマセンテンスとして選択されたセン
テンスの数「Z」をデフォルト数(default number)から
変更することができる。
【0036】プロセッサ11は、トークン化された機械
可読ドキュメントの入力に、ステップ42へ分岐するこ
とにより応答する。このステップに関しては、プロセッ
サ11はドキュメント内に含まれるターム(語)リスト
を、ドキュメントから1ワード(語)を選択することに
より構築するように試み始める。それが成されると、プ
ロセッサ11はステップ43へ分岐する。
【0037】ステップ43の間に、プロセッサ11は選
択ワードをストップワードのリストと比較する。本明細
書で使用されるように、「ストップワード」とは主題的
な意味を伝達せず、自然言語テキスト中に非常に頻繁に
発生するワードである。ストップワードとして、大半の
代名詞、前置詞、省略形、限定詞、及び動詞「to be」
の不定詞の活用形が分類される。選択ワードがストップ
ワードであれば、プロセッサ11はステップ47へ進
む。反対に、選択ワードがストップワードでない場合、
プロセッサ11はステップ44へ分岐する。
【0038】ステップ44中、プロセッサ11は選択ワ
ードをタームインデックス(ドキュメントのワードをそ
のタームの発生毎にロケーションと関係付けるデータ構
造)の中に既に含まれているタームと比較する。選択ワ
ードがまだインデックス中に含まれていなければ、プロ
セッサ11はステップ45に分岐して、選択ワードに対
するタームインデックスにエントリを追加する。各ター
ムインデックスエントリはターム自体と、そのタームが
ドキュメント中で何回発生したかを示すカウンタと、各
タームが発生するセンテンスに対応するセンテンスI.
D.とを含む。一方、選択ワードに関してインデックス
エントリが既に存在する場合、プロセッサ11はステッ
プ46へ分岐する。ステップ46の間に、プロセッサ1
1は選択ワードに対するタームインデックスエントリを
検出し、タームカウント(計数)を増分し、選択ワード
に対するセンテンスI.D.をインデックスエントリに
加える。
【0039】タームインデックスを選択ワードに応答し
て変更すると、プロセッサ11はステップ47へ進む。
次に、プロセッサ11は、ドキュメント中の全ワードが
既に調べられたか否かを決定する。調べられていなかっ
た場合、プロセッサ11はタームインデックスを完了し
ない。それに応答して、プロセッサ11はステップ42
へ戻り、記載した方法でタームリストを構築し続ける。
一方、ドキュメントの全ワードが調べられていた場合、
タームインデックスは完了して、プロセッサ11はステ
ップ50へ分岐する。
【0040】ステップ47の実行の開始後でステップ5
0の実行前のステップ48の間に、プロセッサ11は主
題的センテンスを選択する際に使用される主題的ターム
の数を決定する。「K」で示されるその数は、直接的テ
ーマ(主題)センテンスとして選択されたセンテンスの
数に基づいて、即ち「Z」に基づいて、決定される。一
般的に、KはZよりも小さく、また1よりも大きくなる
べきである。Zよりも小さなKを要求することにより、
選択された主題的なセンテンス同士の間でテーマの幾ら
かの属性の共有(commonality) が保証される。好ましく
は、Kは、下記式(3)により決定される。
【0041】
【数3】
【0042】Kの値及びステップ46中に生成されたタ
ームカウントが与えられると、プロセッサ11はK個の
主題的タームを選択する処理を開始する。ステップ50
の間に、プロセッサ11は、タームインデックスのター
ムをそれらのカウント、即ちドキュメント中の各ターム
の発生総数、に従ってソートする。ソートされたターム
インデックスを作成して、そのインデックスをメモリ中
に格納すると、プロセッサ11はステップ52へ分岐す
る。ステップ52の間に、プロセッサ11はソートされ
たタームインデッスクからハイカウントを有するK個の
タームを選択する。それが成されると、プロセッサ11
はステップ54へ進む。
【0043】ステップ54の間に、プロセッサ11はド
キュメント中のK個の主題的タームの総発生数を計算す
る。「N」で示されたその数は、K個の主題的タームの
カウントを総計することにより計算される。プロセッサ
11はステップ56へ分岐する。
【0044】主題的タームを選択してそれらのカウント
が決定すると、プロセッサ11はドキュメントのセンテ
ンスの主題的コンテントを評価し始める準備をする。ス
テップ56、58、60及び62の間に、プロセッサ1
1はK個の主題的タームのうちの少なくとも1個を含む
センテンスだけを考察する。これは、タームインデック
スに含まれる情報が与えられると容易に行われる。プロ
セッサ11は、ソートされたタームインデックスのK個
のハイスコアタームを調べることによりその処理を行
う。ステップ56の間にts で示されるタームを選択し
た後、プロセッサ11はステップ58の間にts と関係
する各センテンスI.D.を調べる。tsと関係する各
センテンスI.D.に対して、プロセッサ11はそのセ
ンテンスのスコアを増分する。好ましくは、各センテン
スに対するスコアはδだけ増分され、ここでδは、下記
式(4)により表される。
【0045】
【数4】
【0046】ステップ58の間に、センテンススコアは
センテンススコアリストを作成することによりトラック
され得る。プロセッサ11がセンテンスI.D.を選択
する度に、センテンススコアリストは調べられ、リスト
がそのセンテンスI.D.を含んでいるか否かを見る。
含んでいなければ、センテンスI.D.は、センテンス
スコアリストに加えられ、そのスコアは適切に増やされ
る。一方、センテンススコアリストが既に特定のセンテ
ンスI.D.を含んでいる場合、センテンスと既に関係
付したスコアは、先に論じた方法で増分される。
【0047】選択タームt2 と関係する全センテンスの
スコアを増分した後、プロセッサ11はステップ60へ
分岐する。ステップ60の間にプロセッサ11は全部の
主題的タームが評価されたか否かを決定する。評価され
てない場合、プロセッサ11はステップ56へ戻り、選
択タームとして別の主題的タームを選択する。プロセッ
サ11は、主題的タームの全てが調べられるまで、ステ
ップ56、58及び60を通って、既に記載したように
分岐する。イベントが発生すると、プロセッサ11はス
テップ62へ分岐する。
【0048】ステップ62の間にプロセッサ11は主題
的センテンスとしてハイスコアを有するZ個のセンテン
スを選択する。プロセッサ11はこの選択をセンテンス
スコアリストをスコアでソートすることにより行う。主
題的センテンスを選択すると、ステップ62の間にプロ
セッサ11は、これらのセンテンスに対して直接的テー
マ特徴を真に設定する。続くステップの間に、プロセッ
サ11はドキュメント内の他の全センテンスに対して直
接テーマ特徴を偽に設定する。その後、プロセッサ11
はステップ64へ分岐する。
【0049】大文字特徴の評価 プロセッサ11は、機械可読形態のドキュメントが選択
されてトークン化された後、ステップ80でドキュメン
トの大文字特徴の評価を開始する。ステップ80の間
に、プロセッサ11はドキュメントからワードを選択す
る。次に、プロセッサ11はステップ82へ進み、許容
可能な大文字ワードを識別する工程を開始する。ステッ
プ82の間に、プロセッサ11は選択ワードがストップ
ワードであるか否かを決定する。ストップワードは頭字
語又は固有名詞と関係する可能性が低い。選択ワードが
ストップワードでない場合、プロセッサ11はステップ
84へ進む。そのステップの間に、プロセッサ11は、
選択ワードが大文字で始まるか否かを、そのASCII
表現を調べることにより決定する。そのワードが大文字
から始まる場合、選択ワードが固有名詞又は頭字語を表
す可能性がある。プロセッサ11はステップ86へ分岐
することによりこの確率に応答する。ステップ86の間
に、プロッセッサ11は選択ワードがセンテンスの第1
ワードであるか否かを決定する。選択ワードがセンテン
スの第1ワードでなければ、選択ワードは固有名詞又は
頭字語で有り得る。プロセッサ11はステップ88へ進
んで、選択ワードにある最後の試験を施す。ステップ8
8の間にプロセッサ11は、選択ワードが1レターより
も多いレターを含むか否かを決定する。1レターよりも
多いレターを含む場合、ステップ88の次のステップの
間に、プロセッサ11は選択ワードを許容可能な大文字
ワードとして処理する。
【0050】ステップ90の間に、プロセッサ11は選
択ワードが大文字リストにすでに載っているか否かを決
定する。載っていなければ、ステップ92の間に、プロ
セッサ11は選択ワードを大文字リストに加えて、その
ワードに対してカウントを1に設定する。一方、選択ワ
ードが既に大文字リストにある場合、ステップ94の間
に、プロセッサ11は大文字リスト上の選択ワードと関
係するカウントを単に増やす。それが成されると、プロ
セッサ11はステップ96へ分岐して、ドキュメントの
ワードのその評価を続ける。プロセッサ11はステップ
80、82、84、86、88、90、92、94及び
96を、選択ドキュメントの全ワードが評価されるまで
実行する。ドキュメントの全ワードが評価されると、プ
ロセッサ11はステップ98へ進む。
【0051】プロセッサ11は、ステップ98の間に選
択ドキュメントの各センテンスをスコアする準備を始め
る。先ず、プロセッサ11はワードを大文字リスト中
に、より多くのカウントを有するワードをより少ないカ
ウントを有するワードよりも高いランクにランク付けす
る。プロセッサ11は頻度の低い大文字ワードをランク
しない。ステップ100の間に、プロセッサ11は大文
字リストのワードランキングを使用して「Total
Upper(大文字総数)」で示される頻度の高い大文
字ワードの発生総数を決定する。それを行うと、プロセ
ッサ11は、ドキュメントの各センテンスを開始する用
意をして、ステップ102へ分岐する。
【0052】ステップ102の間に、プロセッサ11は
センテンスを選択してスコアする。次のステップの間
に、プロセッサ11は選択センテンスを1度に1ワード
調べる。先ず、ステップ104の間に、プロセッサ11
はセンテンスに対してスコアを0に初期設定する。その
後、ステップ106の間に、プロセッサ11は選択セン
テンスのワードの内の1つを選択する。プロセッサ11
は、ステップ108の間に選択ワードが頻度の高い大文
字ワードか否かを決定する。もしそうであれば、プロセ
ッサ11はステップ110へ進む。ステップ110の間
にプロセッサ11は選択センテンスのスコアを、選択さ
れた大文字ワードの頻度に比例する量だけ増分する。好
ましくは、プロセッサ11はls だけセンテンススコア
を増分し、ここでls は下記式(5)により表される。
【0053】
【数5】
【0054】次に、ステップ112及び114の間に、
プロセッサ11は選択センテンスのスコアを、このスコ
アがドキュメント内の選択ワードの最初の発生である場
合に、更に増やす。その後、プロセッサ11はステップ
116へ進み、選択センテンスの各ワードが調べられる
まで、ステップ106、108、110、112及び1
14を実行することにより選択センテンスのワードを調
べ続ける。それが行われると、プロセッサ11はステッ
プ118へ分岐する。ステップ118では、プロセッサ
11はそのアテンションを出来るかぎりドキュメントの
別のセンテンスのスコアリングに向ける。プロセッサ1
1はステップ102、104、106、108、11
0、112、114及び116を、選択ドキュメントの
全センテンスがスコアされるまで実行する。それが行わ
れると、プロセッサ11はステップ120へ分岐する。
【0055】ステップ120の間に、プロセッサ11は
センテンススコアをランクする。センテンスのスコアは
高くなるに従って、より高いランキングを有する。プロ
セッサ11はステップ122の間に、センテンスのこの
ランキングを使用して、大文字センテンスとして、ハイ
スコアセンテンスの部分集合を選択する。その後、ステ
ップ124の間にプロッセッサ11は大文字センテンス
に対して大文字特徴値を真に設定する。また、プロセッ
サ11は、ドキュメントの他の全てのセンテンスに対し
て大文字特徴を偽に設定する。
【0056】特徴確率を生成するトレイニング方法 統計的アプローチを使用して、プロセッサ11は、特徴
確率をトレイニングドキュメントのコーパス及び短い抄
録の関連コーパスから各ドキュメントに対して1つ生成
する。特徴確率の生成は各抄録センテンスの特徴を評価
することを必要とする。幾つかの特徴値を抄録だけから
決定すること又は正確に決定することはできない。更
に、幾つかの特徴値は適切な抄録センテンスを用いても
正確に決定されないこともある。その理由は、幾つかの
抄録センテンスは元のセンテンスの連結や変更であるた
めである。従って、各抄録センテンスの特徴評価は、抄
録の対応するドキュメント内で整合センテンスを識別す
る必要がある。これはトレイニング開始前になされなく
てはならない。
【0057】抄録センテンスとドキュメントセンテンス
の整合 図7及び図8はプロセッサ11により実行される命令2
00をフロー図形態で示し、関係する手作業により作成
された抄録の各センテンスに対して整合するドキュメン
ト内のセンテンスを識別する。
【0058】簡潔に記載すると、命令200はドキュメ
ントセンテンスを識別し、ドキュメントセンテンスは手
作業により作成された抄録センテンスと、1回に1つ整
合し得る。整合される抄録センテンスを選択後、プロセ
ッサ11は関連するドキュメントの各ドキュメントセン
テンスを選択された抄録センテンスに対してスコアす
る。プロセッサ11はステップ208〜249の間に、
ワードの属性の共有、類似のワードのオーダー、及び類
似の大文字使用に基づいてドキュメントセンテンスをス
コアする。その後、ステップ250の間に、プロセッサ
11は選択抄録センテンスに対する可能な整合としてハ
イスコアリングドキュメントセンテンスの部分集合を識
別する。
【0059】簡潔な記載がなされたので、次に命令20
0の詳細な説明を行う。命令200の実行は、トレイニ
ングドキュメントのコーパス及びそれらと対応する手作
業で作成された抄録のコーパスの識別及び選択により開
始され、それらは全て機械可読形態である。開始する
と、プロセッサ11はステップ202へ進み、1つのド
キュメントとそれに対応する抄録とを選択する。その
後、ステップ204の間に、プロセッサ11は抄録セン
テンスを選択し、その抄録センテンスの整合を識別す
る。次に、プロセッサ11は元のセンテンスを選択し、
選択ドキュメントセンテンスを選択抄録センテンスと比
較する。次に、プロセッサ11はステップ208へ進
み、選択ドキュメントセンテンスの評価を開始する前に
追加のタスクを行う。ステップ208の間に、プロセッ
サ11は選択ドキュメントセンテンスに対してスコアを
0に設定する。プロセッサ11はステップ210へ分岐
する。
【0060】ステップ210の間に、プロセッサ11は
選択抄録センテンスのワードの内の1つを適切に選択
し、それを選択抄録ワードwt とする。プロセッサ11
は次にステップ212へ進み、選択抄録ワードを選択ド
キュメントセンテンス内で探索する。選択ドキュメント
センテンスが選択抄録ワードを含まない場合、プロセッ
サ11はステップ248へ分岐する。一方、選択ドキュ
メントセンテンスが選択抄録ワードを含む場合、その最
初の発生時に、プロセッサ11はステップ214へ進
む。
【0061】選択ドキュメントセンテンス内の選択抄録
ワードの発見は、プロセッサ11が選択ドキュメントセ
ンテンスのスコアを増やすことを意味する。プロセッサ
11が単なる選択抄録の存在に対してスコアをどのくら
い増やすかは、下記2つの式に対する答えに依存する; 1.選択抄録ワードはストップワードか? 2.これは選択抄録ワードの選択ドキュメントセンテン
スにおける最初の発生か?
【0062】ステップ214の間に、プロセッサ11は
選択抄録ワードがストップワードであるか否かを決定す
ることにより第1の問いに答える。もしもストップワー
ドであれば、ステップ220の間にプロセッサ11は選
択ドキュメントセンテンスに対してスコアを、幾分か、
好ましくは1だけ増やす。次に、プロセッサ11はステ
ップ234に進む。ステップ234の間及びその次のア
クションは後まで据え置かれる。一方、選択抄録ワード
がストップワードでない場合、プロセッサ11はステッ
プ216へ分岐する。ステップ216の間に、増分され
るべきスコアの量を提供する第2の問いについて考察す
る。プロセッサ11はステップ216の間に、選択抄録
ワードの現在の発生が選択ドキュメントセンテンス内で
のその最初の発生であるか否かを決定する。もし最初の
発生であれば、プロセッサ11はステップ218の間に
センテンススコアを幾分、好ましくは3だけ増やす。そ
の後、プロセッサ11はステップ230へ進む。一方、
現在の発生が、選択ドキュメントセンテンス内での選択
抄録ワードの最初の発生でない場合、プロセッサ11は
ステップ217の間に、ステップ218の量よりも少な
い幾らかの量、好ましくは1だけセンテンススコアを増
やす。プロセッサ11は次にステップ230へ進む。
【0063】ステップ230の間に、プロセッサ11
は、選択センテンス内において、選択抄録ワードの大文
字使用(capitalization)が選択抄録センンテンス内のそ
の大文字使用と整合するか否かを決定する。整合する場
合には、プロセッサ11はステップ232へ進み、選択
ドキュメントセンテンスに対してスコアを、幾分増や
す。その後、プロセッサ11はステップ234へ分岐す
る。プロセッサ11は、選択抄録ワードの大文字使用が
選択抄録センテンス及び選択ドキュメントセンテンス内
の大文字使用と同一でない時、ステップ234へ直接進
む。
【0064】ステップ234の間に、プロセッサ11
は、ワード順(オーダー)を、選択抄録センテンスと選
択ドキュメントセンテンスとの間の類似性のインジケー
タとして考察する。プロッセッサ11は、選択抄録ワー
ドが、既に選択された抄録ワードwt-1 の発生に次い
で、選択ドキュメントセンテンス内で発生するか否かを
決定する。wt がそのwt-1 での発生後に選択ドキュメ
ントセンテンス内で発生しない場合、プロセッサ11は
選択ドキュメントセンテンスのスコアを、選択ドキュメ
ントセンテンス内の選択抄録ワードの現在の発生に基づ
いてそれ以上増やさない。既に選択された抄録ワードが
現在選択された抄録ワードよりも選択ドキュメントセン
テンス内で先に生じない時、プロセッサ11はステップ
234を出る。選択抄録ワードに基づいて、選択ドキュ
メントセンテンスのスコアリングは終了する。それに応
答して、プロセッサ11はステップ248へ進む。ステ
ップ248に関する説明はしばらく据え置く。一方、選
択抄録ワードが、既に選択された抄録ワードの後で選択
ドキュメントセンテンス内に生じる場合、選択抄録ワー
ドの現在の発生に基づく選択ドキュメントセンテンスの
スコアに対する更なる増加は、正当であると認められ
る。その場合、プロセッサ11はステップ236へ進
む。
【0065】ステップ236の間に、プロセッサ11は
選択ドキュメントセンテンスを幾分か、好ましくは1だ
け増やし、ワードオーダー試験を満足させる。次に、プ
ロセッサ11はステップ238へ進み、更なる増加が容
認されるか否かを調べる。
【0066】選択抄録ワードがストップワードである場
合、プロセッサ11はスコアの更なる増加は容認されな
いと見なす。その理由は、ストップワードは選択ドキュ
メントセンテンス及び選択抄録センテンスとの共通のコ
ンテントを示していないからである。選択抄録ワードが
ストップワードであることを発見すると、プロセッサ1
1はステップ248へ進む。ステップ248の間のアク
ティビティに関する説明はしばらく据え置く。逆に言え
ば、選択抄録ワードがストップワードでない時に、プロ
セッサ11は選択ドキュメントセンテンスのスコアに対
する更なる増加が容認されるとみなす。このシチュエー
ション(状況)では、プロセッサ11はステップ240
へ分岐して、どのくらい多くの増加がなされれるべきか
を決定する。そのステップの間に、プロセッサ11は選
択ドキュメントセンテンス中の選択抄録ワードの現在の
発生が第1の発生であるか否かを決定する。もし第1の
発生であれば、プロセッサ11はステップ242へ進
み、幾分か、好ましくは3だけスコアを増加する。その
後、プロセッサ11はステップ248へ進む。一方、選
択抄録ワードの現在の発生が、第1発生でない場合、プ
ロセッサ11はステップ244へ分岐する。ステップ2
44の間に、プロセッサ11は幾分かスコアを増す。そ
の後、プロセッサ11はステップ248へ進む。
【0067】ステップ248の間に、プロセッサ11は
選択抄録センテンスに関して選択ドキュメントセンテン
スをスコアすることを終えたか否かを決定する。プロセ
ッサ11がまだ選択抄録センテンスの境界に出会わない
場合、選択ドキュメントセンテンスのスコアリングは完
成していない。プロセッサ11はステップ210に分岐
することによりこのシチュエーションに応答する。ステ
ップ248では、プロセッサ11は選択抄録センテンス
の別のワードを選択することより、その選択ドキュメン
トセンテンスのスコアリングを続ける。やがて、プロセ
ッサ11はプロセッサ11が選択ドキュメントセンテン
ス内の選択抄録センテンスの各ワードに対して探索した
ことを発見する。これは、選択抄録センテンスに関して
選択ドキュメントセンテンスのスコアリングの完成を示
す。それが生じると、プロセッサ11はステップ249
へ分岐する。
【0068】プロセッサ11はステップ249の間に、
選択抄録センテンスに関して元のセンテンスのスコアリ
ングを完成したか否かを決定する。完成していなけれ
ば、プロセッサ11はステップ206へ戻り、選択ドキ
ュメントセンテンスとして別の元のセンテンスを示す。
スコアリングは先に論じられた方法でなされる。一度、
全ドキュメントセンテンスがスコアされると、プロセッ
サ11は抄録センテンスと整合するドキュメントセンテ
ンスを選択することができる。そうするために、プロセ
ッサ11はステップ250へ分岐する。
【0069】プロセッサ11は、ステップ250の間
に、ドキュメントの元のセンテンスの部分集合を、選択
抄録センテンスに対する可能な整合として選択する。プ
ロセッサ11は、選択抄録センテンスに関してハイスコ
アを有する元のセンテンスに基づいて部分集合を選択す
る。好ましくは、プロセッサ11は1つよりも多い元の
センテンスを可能な整合として示す。その理由は、ハイ
スコアリングセンテンスが選択抄録センテンスに良好に
整合しないこともあるという確率が存在するからであ
る。
【0070】整合し得るセンテンスの部分集合を選択す
ると、プロセッサ11は250を出て、ステップ260
へ進む。
【0071】ステップ260の間に、プロセッサ11は
抄録の各センテンスに整合する元のセンテンスを選択し
たか否かを決定する。選択していなければ、プロセッサ
11はステップ204へ戻り、選択抄録の別の抄録セン
テンスに整合する元のセンテンスを識別する方法を開始
する。一方、もしも整合が選択抄録の全センテンスに対
して見つけられた場合、プロセッサ11はステップ26
2へ進む。プロセッサ11はステップ262の間に、コ
ーパスの全抄録に整合するセンテンスを見つけたか否か
を決定する。みつけていなければ、プロセッサ11は、
ステップ202へ戻るように分岐し、トレイニングコー
パスに別のドキュメント抄録対に関して再び処理を開始
する。一方、全体のコーパスに対して整合が識別される
と、プロセッサ11はステップ264へ進み、その現行
タスクを完成する。
【0072】各抄録センテンスに整合し得る多数のセン
テンスが命令200を用いて識別されると、整合ドキュ
メントセンテンスを手作業により選択することができ
る、また手作業により選択することが好ましい。整合す
るドキュメントセンテンスの最終的な手作業による選択
は、以下2つの理由のために望ましい。先ず第1に、手
作業による選択により、整合しないドキュメントセンテ
ンスが存在する抄録センテンスを識別することができる
からである。抄録センテンスは、抄録作成のエキスパー
ト(熟練者)により構成されたので、整合するドキュメ
ントセンテンスを有していないこともあり得るからであ
る。第2に、手作業による整合センテンスの選択は、抄
録センテンスが2つの結合されたドキュメントセンテン
スから作られたものである時に有用であり、そのうちの
1つだけが整合センテンスとして示される。
【0073】特徴確率の生成トレイニング トレイニングは、後で使用されエキスパートが抄録のた
めに選択し得るのと同じセンテンスの集合をドキュメン
トから自動的に抽出する特徴確率を決定する。トレイニ
ングは特徴集合及び整合したトレイニングコーパスを必
要とする。これらの事前要求が与えられると、トレイニ
ング中にプロセッサ11は、各特徴をトレイニング集合
内の各センテンスに対して個々に評価して、各特徴が、
抄録センテンスと整合するセンテンス内及び全センテン
ス内で取り得る値の各々を取る回数を計数する。プロセ
ッサ11はこれらのカウントを使用して、下記2種類の
確率を決定する。 1.特徴jの値を抄録Sに含まれるセンテンスs中で観
察する確率、P(Fj |s∈S)。 2.特徴jが観察された値を取る確率、P(Fj )。
【0074】図9及び10は、プロセッサ11により実
行される命令300をフロー図形態で示し、要求される
確率を整合トレイニングコーパスから決定する。
【0075】プロセッサ11はステップ301を用いて
命令300の実行を開始する。そのステップの間に、プ
ロセッサ11は、コーパスのドキュメントを選択ドキュ
メントDS として示す。次のステップの間に、プロセッ
サ11は抄録センテンスと整合するドキュメントセンテ
ンスを含むDS の全センテンスに対して特徴の値を決定
する。それが成されると、プロセッサ11はステップ3
02へ進み、特徴を選択し、その選択特徴FS を評価す
る。下記論議は、各特徴に対して値を別個に評価すると
するが、一方、適切なデータ構造が与えられれば、全特
徴に対して値を同時に評価することができる。特徴値を
決定する両方の方法は、本発明と一致する。プロセッサ
11はステップ304へ分岐する。
【0076】ステップ304の間に、プロセッサ11は
選択ドキュメントからセンテンスを選択し、そのセンテ
ンスに対して選択特徴の値を決定する。プロセッサ11
は、その値を選択センテンスと関係付ける。次に、プロ
セッサ11はステップ306の間に、選択特徴に対する
値が選択ドキュメントの全センテンスに対して決定され
たか否かを決定する。プロセッサ11は、選択特徴の値
が選択ドキュメントの全センテンスに対して決定される
まで、ステップ304へ戻るように分岐する。全センテ
ンスが評価されると、プロセッサ11はステップ308
へ進む。
【0077】ステップ308の間に、プロセッサ11は
選択特徴がドキュメント内の全センテンスに対してその
可能な値の各々を取る回数を決定する。例えば、Fs
真及び偽の値だけを取る特徴である場合、プロセッサ1
1はFs が真tである選択ドキュメント内のセンテンス
の数、及びFs が偽fである回数を決定する。これらの
量を概略的に「DocNFV」で示し、それは、単一ドキ
ュメント内で特徴Fが特定の値Vを取る回数Nを表す。
従って、選択特徴が2つの値、即ち真及び偽を取り得る
場合、ステップ308の間に、プロセッサ11は2つの
量をDocNFT及びDocNFFを計算する。ステップ3
08の間に、プロセッサ11はドキュメントに対する値
をトレイニングコーパスに対する移動総数(running tot
als)に加え、これはTotalDocNFVとして概略的
に示される。次に、プロセッサ11はステップ310へ
進み同様のタスクを実行する。
【0078】ステップ310の間に、プロセッサ11は
S がその可能値の各々を、DS が整合する元のセンテ
ンス内で取る回数を決定する。これらの量を概略的に
「MatchNFV」として表す。次に、この特定のドキ
ュメントに対する値は、「TotalMatchNFV
で示される移動総数に加えられる。選択特徴の評価が完
了すると、プロセッサ11はステップ312に進む。
【0079】プロセッサ11は、ステップ312の間
に、選択ドキュメントに対して全特徴を決定したか否か
を決定する。プロセッサ11がまだ全特徴を評価してい
なかった場合、プロセッサ11はステップ302へ戻
る。次に、プロセッサ11は、各特徴に対して特徴値が
決定されるまで、ステップ302、304、306、3
08、310及び312を上記記載した方法で実行す
る。
【0080】プロセッサ11は、ステップ314の間に
特徴値がトレイニングコーパス内の全ドキュメントに対
して計算されたか否かを決定する。計算されていなけれ
ば、プロセッサ11はステップ301へ戻り、全特徴値
がトレイニングコーパス内の全ドキュメントに対して計
算されるまで、ステップ301、302、304、30
6、308、310、312及び314を記載した方法
で実行する。それが行われると、プロセッサ11は特徴
確率を計算する準備ができ、ステップ316へ進む。
【0081】特徴確率の計算は、使用される特徴の選択
集合から1つの特徴を選択することによりステップ31
6において始まる。次に、ステップ318の間に、プロ
セッサ11は選択特徴の各値に関係する可能性を計算す
る。プロセッサ11は、整合センテンスが特定の特徴値
TotalMatchFVを取った総回数を、トレイニン
グコーパス内のセンテンスがその同じ特徴値Total
DocFVを取った総回数で割ることにより前記可能性を
計算する。ステップ318の間に特徴に対して計算され
た確率の数は、特徴が取ることができる数となる。選択
特徴と関係する全確率を計算後、プロセッサ11はステ
ップ320へ分岐する。
【0082】プロセッサ11は、ステップ320の間
に、特徴全部に対して確率を計算したか否かを決定す
る。計算されていなければ、プロセッサ11はステップ
316へ戻り、全特徴確率が計算されるまでステップ3
16、318及び320を繰り返す。それが行われる
と、プロセッサ11はステップ324へ分岐して、トレ
イニングを完了する。次にプロセッサ11はこれらの特
徴確率を使用して、手作業により作成された抄録に匹敵
する品質のドキュメント抄録を自動的に作成することが
できる。
【0083】抄録センテンスの自動抽出方法 命令350の実行は、コンピュータユーザがドキュメン
トを抽出物が作成されるべき機械可読形態で示すと開始
する。特定のドキュメントの選択に応答して、プロセッ
サ11はステップ352へ分岐してセンテンスを選択ド
キュメントから選択する。その後、プロセッサ11はス
テップ354へ進み、選択センテンスに対するスコア
を、ある非0の数、好ましくは1に初期設定する。次に
プロセッサ11はステップ356へ分岐する。
【0084】ステップ356に関しては、プロセッサ1
1は選択ドキュメントの抽出物に含まれる選択センテン
スの適正を決定する工程を開始する。プロセッサ11は
この工程を、特徴集合から評価用の特徴を選択すること
により開始する。次に、プロセッサ11はステップ35
8の間に、選択センテンスに対して特徴の値を決定す
る。次に、プロセッサ11はステップ360へ進む。特
徴値が与えられると、プロセッサ11はその特徴値と関
係する確率を探索(ルックアップ)する。次に、ステッ
プ362の間に、プロセッサ11は選択センテンスに対
してスコアを丁度探索された確率と比例する量だけ変更
する。
【0085】1つの特徴の評価を完了すると、プロセッ
サ11はステップ364の間に、選択センテンスに対し
て全特徴の全値が決定されたか否かを決定する。決定さ
れていなければ、プロセッサ11は選択センテンスのそ
のスコアリングを完了しない。その場合、プロセッサ1
1はステップ356へ戻り、選択センテンスのスコアを
調整して全特徴の値を反映するまで、ステップ356、
358、360、362及び364を実行する。プロセ
ッサ11が選択センテンスのスコアリングを完了する
と、プロセッサ11はステップ366へ分岐する。
【0086】ステップ366の間に、プロセッサ11は
将来の参考のために選択センテンスに対して最終スコア
を格納する。1センテンスのスコアリングを完了する
と、プロセッサ11は、後続ステップ368の間に選択
ドキュメントの各センテンスをスコアしたか否かを決定
する。スコアしていなければ、プロセッサ11はステッ
プ352へ戻り、評価のために選択ドキュメントから別
のセンテンスを選択する。プロセッサ11は、選択ドキ
ュメントの各センテンスに対して最終スコアを生成する
まで、ステップ352、354、356、358、36
0、362、364、366及び368を実行する。プ
ロセッサ11が全センテンスをスコアしたことを決定す
ると、プロセッサ11はステップ370へ進む。
【0087】プロセッサ11はステップ370の間に、
ハイスコアリングセンテンスの部分集合を選択して、ド
キュメント抽出物を作成する。
【図面の簡単な説明】
【図1】本発明が適用可能なコンピュータシステムを示
す。
【図2】ドキュメント内でテキストの開始箇所を検出す
る方法のフロー図である。
【図3】ドキュメントの主題の抄録の作成する方法のフ
ロー図である。
【図4】ドキュメントの主題の抄録の作成する方法の図
3から続くフロー図である。
【図5】大文字センテンスを識別する方法のフロー図で
ある。
【図6】大文字センテンスを識別する方法の図5から続
くフロー図である。
【図7】ドキュメント内でセンテンスを検出する方法の
フロー図であり、そのセンテンスはそのドキュメントに
関して手作業で作成された抄録内のセンテンスと整合す
る。
【図8】ドキュメント内でセンテンスを検出する方法の
図7から続くフロー図であり、そのセンテンスはそのド
キュメントに関して手作業で作成された抄録内のセンテ
ンスと整合する。
【図9】特徴確率を生成する方法のフロー図である。
【図10】特徴確率を生成する方法の図9から続くフロ
ー図である。
【図11】自然言語ドキュメントの機械可読表現に関し
て抽出物を自動的に生成する方法のフロー図である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ジャン オー.ペダーセン アメリカ合衆国 94303 カリフォルニア 州 パロ アルト ビビッツ ドライブ 3913 (72)発明者 フランシヌ アール.チェン アメリカ合衆国 94025 カリフォルニア 州 サン マテオ シャーマン アベニュ ー 975 (72)発明者 ダニエル シー.ブロツキー アメリカ合衆国 94707 カリフォルニア 州 バークレイ コルサ アベニュー 1162 (72)発明者 スティーブン ビー.プッツ アメリカ合衆国 95051 カリフォルニア 州 サンタ クララ ロウズモント ドラ イブ 351

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 機械可読形態でプロセッサに呈された、
    プロセッサにより実施される方法であって、ドキュメン
    トが複数のセンテンスを含み、プロセッサはセンテンス
    を抽出するための機械可読命令を格納するメモリに結合
    され、メモリが特徴集合の各特徴の各値に対して確率を
    格納し、ドキュメントコーパスとこれに関係する手作業
    により作成される抄録のコーパスの統計的分析により確
    率が生成され、 (a)ドキュメントのセンテンスを選択センテンスとし
    て示すステップを有し、 (b)特徴集合の各特徴の選択センテンスに対して値を
    決定するステップを有し、 (c)特徴毎に、選択センテンスに対する特徴の値及び
    特徴の値と関係する確率に基づいて選択センテンスに対
    してスコアを増すステップを有し、 (d)ドキュメントの全センテンスが選択センテンスと
    して示されなかった場合、ステップ(a)乃至(c)を
    繰り返すステップを有し、 (e)抽出されるセンテンスの部分集合をセンテンスス
    コアに基づいて選択するステップを有する、 自然言語ドキュメントのセンテンスからセンテンスの部
    分集合を自動的に抽出する方法。
  2. 【請求項2】 特徴集合がロケーション特徴及び大文字
    特徴を含み、ロケーション特徴が第1ロケーション値、
    第2ロケーション値及び第3ロケーション値を有し、第
    1ロケーション値が選択センテンスが選択ドキュメント
    の開始部分内に含まれることを示し、第2ロケーション
    値が選択センテンスが選択ドキュメントの中間部分内に
    含まれることを示し、そして第3ロケーション値が選択
    センテンスが選択ドキュメントの終わり部分内に含まれ
    ることを示し、大文字特徴が第1大文字値及び第2大文
    字値を有し、第1大文字値が選択センテンスが複数の選
    択大文字フレーズのいずれも含まないことを示し、第2
    大文字値が選択センテンスが選択大文字フレーズのうち
    1つを含むことを示す、請求項1に記載の自然言語ドキ
    ュメントのセンテンスからセンテンスの部分集合を自動
    的に抽出する方法。
  3. 【請求項3】 特徴集合が更に直接的テーマ特徴を含
    み、直接的テーマ特徴が選択センテンスが選択ドキュメ
    ントのテーマを表すことを示す第1値を有し、直接テー
    マ特徴が選択センテンスが選択ドキュメントのテーマを
    表さないことを示す第2値を有する、請求項2に記載の
    自然言語ドキュメントのセンテンスからセンテンスの部
    分集合を自動的に抽出する方法。
  4. 【請求項4】 (a)メモリを有し、 (b)メモリにより格納されるデータを有し、データが
    特徴集合の各特徴の値毎に確率を含み、ドキュメントコ
    ーパス及びこれに関係する手作業により作成された抄録
    のコーパスの統計的分析から確率が生成され、 (c)メモリにより格納される命令を有し、格納された
    命令がセンテンスの部分集合を機械可読形態の自然言語
    ドキュメントのセンテンスから抽出するためにアクセス
    可能であり、ドキュメントが複数のセンテンスを含み、
    命令が、(1)ドキュメントのセンテンスを選択センテ
    ンスとして示すステップと、(2)特徴集合の各特徴の
    選択センテンスに対して値を決定するステップと、
    (3)特徴毎に、選択センテンスに対する特徴値及び特
    徴値と関係する確率に基づいて選択センテンスに対して
    スコアを増すステップと、(4)ドキュメントの全セン
    テンスが選択センテンスとして示されなかった場合、ス
    テップ(1)乃至(3)を繰り返すステップと、(5)
    抽出されるセンテンスの部分集合をセンテンススコアに
    基づいて選択するステップと、 を表す、 製造品。
JP8180104A 1995-06-28 1996-06-20 自然言語ドキュメントのセンテンスからセンテンスの部分集合を自動的に抽出する方法及び装置 Expired - Lifetime JP2810650B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US495986 1995-06-28
US08/495,986 US5918240A (en) 1995-06-28 1995-06-28 Automatic method of extracting summarization using feature probabilities

Publications (2)

Publication Number Publication Date
JPH0916630A true JPH0916630A (ja) 1997-01-17
JP2810650B2 JP2810650B2 (ja) 1998-10-15

Family

ID=23970787

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8180104A Expired - Lifetime JP2810650B2 (ja) 1995-06-28 1996-06-20 自然言語ドキュメントのセンテンスからセンテンスの部分集合を自動的に抽出する方法及び装置

Country Status (4)

Country Link
US (1) US5918240A (ja)
EP (1) EP0751469B1 (ja)
JP (1) JP2810650B2 (ja)
DE (1) DE69623082T2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7796937B2 (en) 2002-01-23 2010-09-14 Educational Testing Service Automated annotation
US8452225B2 (en) 2001-01-23 2013-05-28 Educational Testing Service Methods for automated essay analysis
JP2016062181A (ja) * 2014-09-16 2016-04-25 日本電信電話株式会社 重みベクトル学習装置、要約生成装置、方法、及びプログラム

Families Citing this family (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7051024B2 (en) * 1999-04-08 2006-05-23 Microsoft Corporation Document summarizer for word processors
US5836771A (en) * 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
US6498921B1 (en) * 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
JP3270351B2 (ja) 1997-01-31 2002-04-02 株式会社東芝 電子化文書処理装置
EP0976069B1 (en) * 1997-04-16 2003-01-29 BRITISH TELECOMMUNICATIONS public limited company Data summariser
JP3001047B2 (ja) * 1997-04-17 2000-01-17 日本電気株式会社 文書要約装置
US6098066A (en) * 1997-06-13 2000-08-01 Sun Microsystems, Inc. Method and apparatus for searching for documents stored within a document directory hierarchy
US6233575B1 (en) * 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US6185592B1 (en) * 1997-11-18 2001-02-06 Apple Computer, Inc. Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds
US6353824B1 (en) 1997-11-18 2002-03-05 Apple Computer, Inc. Method for dynamic presentation of the contents topically rich capsule overviews corresponding to the plurality of documents, resolving co-referentiality in document segments
US6009436A (en) * 1997-12-23 1999-12-28 Ricoh Company, Ltd. Method and apparatus for mapping structured information to different structured information
US6533822B2 (en) * 1998-01-30 2003-03-18 Xerox Corporation Creating summaries along with indicators, and automatically positioned tabs
GB9806085D0 (en) * 1998-03-23 1998-05-20 Xerox Corp Text summarisation using light syntactic parsing
US6789230B2 (en) * 1998-10-09 2004-09-07 Microsoft Corporation Creating a summary having sentences with the highest weight, and lowest length
US8938688B2 (en) 1998-12-04 2015-01-20 Nuance Communications, Inc. Contextual prediction of user words and user actions
US7720682B2 (en) 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
US7881936B2 (en) 1998-12-04 2011-02-01 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US7679534B2 (en) 1998-12-04 2010-03-16 Tegic Communications, Inc. Contextual prediction of user words and user actions
US7712053B2 (en) 1998-12-04 2010-05-04 Tegic Communications, Inc. Explicit character filtering of ambiguous text entry
US6651218B1 (en) * 1998-12-22 2003-11-18 Xerox Corporation Dynamic content database for multiple document genres
CA2363834A1 (en) * 1999-02-19 2001-01-25 The Trustees Of Columbia University In The City Of New York Cut and paste document summarization system and method
US7162413B1 (en) * 1999-07-09 2007-01-09 International Business Machines Corporation Rule induction for summarizing documents in a classified document collection
US6772149B1 (en) * 1999-09-23 2004-08-03 Lexis-Nexis Group System and method for identifying facts and legal discussion in court case law documents
US6766287B1 (en) 1999-12-15 2004-07-20 Xerox Corporation System for genre-specific summarization of documents
US7114124B2 (en) * 2000-02-28 2006-09-26 Xerox Corporation Method and system for information retrieval from query evaluations of very large full-text databases
GB2362972A (en) * 2000-06-02 2001-12-05 Res Summary Com An internet based searchable database for up to date financial executive summaries with links to full documents
US6941513B2 (en) * 2000-06-15 2005-09-06 Cognisphere, Inc. System and method for text structuring and text generation
US7464086B2 (en) 2000-08-01 2008-12-09 Yahoo! Inc. Metatag-based datamining
US7702541B2 (en) * 2000-08-01 2010-04-20 Yahoo! Inc. Targeted e-commerce system
AU2000278962A1 (en) * 2000-10-19 2002-04-29 Copernic.Com Text extraction method for html pages
JP2002283301A (ja) * 2001-03-26 2002-10-03 Makita Corp 際切りマルノコ
US6900361B2 (en) * 2001-05-08 2005-05-31 Battelle Memorial Institute Process for lactose conversion to polyols
US7269546B2 (en) * 2001-05-09 2007-09-11 International Business Machines Corporation System and method of finding documents related to other documents and of finding related words in response to a query to refine a search
US6925433B2 (en) * 2001-05-09 2005-08-02 International Business Machines Corporation System and method for context-dependent probabilistic modeling of words and documents
FR2825814B1 (fr) * 2001-06-07 2003-09-19 Commissariat Energie Atomique Procede de creation automatique d'une base de donnees images interrogeable par son contenu semantique
US7092872B2 (en) * 2001-06-19 2006-08-15 Fuji Xerox Co., Ltd. Systems and methods for generating analytic summaries
US7062498B2 (en) * 2001-11-02 2006-06-13 Thomson Legal Regulatory Global Ag Systems, methods, and software for classifying text from judicial opinions and other documents
US7117200B2 (en) * 2002-01-11 2006-10-03 International Business Machines Corporation Synthesizing information-bearing content from multiple channels
US8370761B2 (en) * 2002-02-21 2013-02-05 Xerox Corporation Methods and systems for interactive classification of objects
US7650562B2 (en) * 2002-02-21 2010-01-19 Xerox Corporation Methods and systems for incrementally changing text representation
US7549114B2 (en) 2002-02-21 2009-06-16 Xerox Corporation Methods and systems for incrementally changing text representation
US7228507B2 (en) 2002-02-21 2007-06-05 Xerox Corporation Methods and systems for navigating a workspace
US7487462B2 (en) 2002-02-21 2009-02-03 Xerox Corporation Methods and systems for indicating invisible contents of workspace
US8583440B2 (en) 2002-06-20 2013-11-12 Tegic Communications, Inc. Apparatus and method for providing visual indication of character ambiguity during text entry
GB2390704A (en) * 2002-07-09 2004-01-14 Canon Kk Automatic summary generation and display
US7451395B2 (en) * 2002-12-16 2008-11-11 Palo Alto Research Center Incorporated Systems and methods for interactive topic-based text summarization
US7117437B2 (en) * 2002-12-16 2006-10-03 Palo Alto Research Center Incorporated Systems and methods for displaying interactive topic-based text summaries
US7376893B2 (en) * 2002-12-16 2008-05-20 Palo Alto Research Center Incorporated Systems and methods for sentence based interactive topic-based text summarization
GB2399427A (en) * 2003-03-12 2004-09-15 Canon Kk Apparatus for and method of summarising text
US7092937B2 (en) * 2003-04-07 2006-08-15 General Motors Corporation Vehicle diagnostic knowledge delivery
US6768935B1 (en) 2003-04-07 2004-07-27 General Motors Corporation Vehicle diagnostic record mapping
US20040230415A1 (en) * 2003-05-12 2004-11-18 Stefan Riezler Systems and methods for grammatical text condensation
CA2550154C (en) * 2003-12-31 2017-04-04 Thomson Global Resources Systems, methods, software and interfaces for integration of case law with legal briefs, litigation documents, and/or other litigation-support documents
US7392474B2 (en) * 2004-04-30 2008-06-24 Microsoft Corporation Method and system for classifying display pages using summaries
US8095364B2 (en) 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US20080027926A1 (en) * 2006-07-31 2008-01-31 Qian Diao Document summarization method and apparatus
US7725442B2 (en) 2007-02-06 2010-05-25 Microsoft Corporation Automatic evaluation of summaries
US8364485B2 (en) * 2007-08-27 2013-01-29 International Business Machines Corporation Method for automatically identifying sentence boundaries in noisy conversational data
US20090204602A1 (en) * 2008-02-13 2009-08-13 Yahoo! Inc. Apparatus and methods for presenting linking abstracts for search results
US8984398B2 (en) * 2008-08-28 2015-03-17 Yahoo! Inc. Generation of search result abstracts
US9646079B2 (en) 2012-05-04 2017-05-09 Pearl.com LLC Method and apparatus for identifiying similar questions in a consultation system
US9904436B2 (en) 2009-08-11 2018-02-27 Pearl.com LLC Method and apparatus for creating a personalized question feed platform
CN102023989B (zh) * 2009-09-23 2012-10-10 阿里巴巴集团控股有限公司 一种信息检索方法及其系统
US9275038B2 (en) 2012-05-04 2016-03-01 Pearl.com LLC Method and apparatus for identifying customer service and duplicate questions in an online consultation system
US8280888B1 (en) 2012-05-04 2012-10-02 Pearl.com LLC Method and apparatus for creation of web document titles optimized for search engines
US9501580B2 (en) 2012-05-04 2016-11-22 Pearl.com LLC Method and apparatus for automated selection of interesting content for presentation to first time visitors of a website
US20150254213A1 (en) * 2014-02-12 2015-09-10 Kevin D. McGushion System and Method for Distilling Articles and Associating Images
US10331782B2 (en) 2014-11-19 2019-06-25 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for automatic identification of potential material facts in documents
CN109101495A (zh) * 2018-08-27 2018-12-28 上海宝尊电子商务有限公司 一种基于图像识别和知识图谱的时尚领域文本生成方法
US11501073B2 (en) * 2019-02-26 2022-11-15 Greyb Research Private Limited Method, system, and device for creating patent document summaries
US11061951B2 (en) * 2019-11-21 2021-07-13 International Business Machines Corporation Unsupervised attention based scientific document summarization
US11392753B2 (en) 2020-02-07 2022-07-19 International Business Machines Corporation Navigating unstructured documents using structured documents including information extracted from unstructured documents
US11423042B2 (en) 2020-02-07 2022-08-23 International Business Machines Corporation Extracting information from unstructured documents using natural language processing and conversion of unstructured documents into structured documents
US10885436B1 (en) * 2020-05-07 2021-01-05 Google Llc Training text summarization neural networks with an extracted segments prediction objective
CN112579583B (zh) * 2020-12-14 2022-07-29 中山大学 一种面向事实检测的证据与声明联合抽取方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4965763A (en) * 1987-03-03 1990-10-23 International Business Machines Corporation Computer method for automatic extraction of commonly specified information from business correspondence
JP2783558B2 (ja) * 1988-09-30 1998-08-06 株式会社東芝 要約生成方法および要約生成装置
JPH0743717B2 (ja) * 1989-02-06 1995-05-15 株式会社テレマティーク国際研究所 抄録文作成装置
US5495349A (en) * 1990-01-13 1996-02-27 Canon Kabushiki Kaisha Color image processing apparatus that stores processing parameters by character data
JPH0418673A (ja) * 1990-05-11 1992-01-22 Hitachi Ltd テキスト情報抽出方法および装置
JP3691844B2 (ja) * 1990-05-21 2005-09-07 株式会社東芝 文書処理方法
US5251131A (en) * 1991-07-31 1993-10-05 Thinking Machines Corporation Classification of data records by comparison of records to a training database using probability weights
CA2077274C (en) * 1991-11-19 1997-07-15 M. Margaret Withgott Method and apparatus for summarizing a document without document image decoding
US5384703A (en) * 1993-07-02 1995-01-24 Xerox Corporation Method and apparatus for summarizing documents according to theme

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8452225B2 (en) 2001-01-23 2013-05-28 Educational Testing Service Methods for automated essay analysis
US7796937B2 (en) 2002-01-23 2010-09-14 Educational Testing Service Automated annotation
US8626054B2 (en) 2002-01-23 2014-01-07 Educational Testing Service Automated annotation
JP2016062181A (ja) * 2014-09-16 2016-04-25 日本電信電話株式会社 重みベクトル学習装置、要約生成装置、方法、及びプログラム

Also Published As

Publication number Publication date
US5918240A (en) 1999-06-29
DE69623082D1 (de) 2002-09-26
EP0751469B1 (en) 2002-08-21
EP0751469A1 (en) 1997-01-02
JP2810650B2 (ja) 1998-10-15
DE69623082T2 (de) 2002-12-12

Similar Documents

Publication Publication Date Title
JP2810650B2 (ja) 自然言語ドキュメントのセンテンスからセンテンスの部分集合を自動的に抽出する方法及び装置
JP3759242B2 (ja) 特徴確率自動生成方法及びシステム
US6173251B1 (en) Keyword extraction apparatus, keyword extraction method, and computer readable recording medium storing keyword extraction program
JP5169816B2 (ja) 質問回答装置、質問回答方法および質問回答用プログラム
US6876998B2 (en) Method for cross-linguistic document retrieval
JP3820242B2 (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
US6662152B2 (en) Information retrieval apparatus and information retrieval method
JPH09153066A (ja) 文書検索装置
JPH0418673A (ja) テキスト情報抽出方法および装置
JP2001084255A (ja) 文書検索装置および方法
JP3198932B2 (ja) 文書検索装置
JP2004334766A (ja) 単語分類装置、単語分類方法及び単語分類プログラム
JP4162223B2 (ja) 自然文検索装置、その方法及びプログラム
Ferret et al. How NLP can improve question answering
JP2002278949A (ja) 表題生成装置及び方法
JPH0944523A (ja) 関連語提示装置
JP2000259653A (ja) 音声認識装置及び音声認識方法
JPH06208588A (ja) 文書検索方式
JP3558854B2 (ja) データ検索装置及びコンピュータ読み取り可能な記録媒体
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JP3562243B2 (ja) 文書検索装置
JP2002140357A (ja) 文書検索装置及び文書検索方法
CN118052225A (zh) 一种研究问题短语抽取的方法、装置、设备及介质
JP2005189955A (ja) 文書処理方法、文書処理装置、制御プログラム及び記録媒体
KR100657016B1 (ko) 문서에서 연관성 있는 구문 검출을 위한 증거소스 결합과,증거소스 결합을 통한 질의 검색방법

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19980721

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070731

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080731

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080731

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090731

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090731

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100731

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110731

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110731

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120731

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130731

Year of fee payment: 15

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term