JP2002197096A - 文書の一般テキストサマリを作成する方法およびシステム - Google Patents

文書の一般テキストサマリを作成する方法およびシステム

Info

Publication number
JP2002197096A
JP2002197096A JP2001356813A JP2001356813A JP2002197096A JP 2002197096 A JP2002197096 A JP 2002197096A JP 2001356813 A JP2001356813 A JP 2001356813A JP 2001356813 A JP2001356813 A JP 2001356813A JP 2002197096 A JP2002197096 A JP 2002197096A
Authority
JP
Japan
Prior art keywords
document
sentence
weighted
vector
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001356813A
Other languages
English (en)
Other versions
JP3726742B2 (ja
Inventor
Kyou Ikou
キョウ イコウ
Xin Liu
リュウ シン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2002197096A publication Critical patent/JP2002197096A/ja
Application granted granted Critical
Publication of JP3726742B2 publication Critical patent/JP3726742B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/02Reservations, e.g. for tickets, services or events
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Technology Law (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 適合性測定技術および潜在意味分析技術を用
いたテキストサマライザにより、精度の高い有用なテキ
スト文書のサマリを作成する。 【解決手段】 一般テキストサマリは、もとの文書から
センテンスをランク付けして抽出することによって生成
される。高くランク付けされた相異なるセンテンスから
サマリを作成することによって、文書内容を広範囲にカ
バーするとともに、冗長性を低くすることが同時に達成
される。一実施例では、サマリ作成を実行するために従
来のIR技術が特有の方法で適用される。適合性測定、
センテンス選択、およびターム消去が順次反復される。
代替実施例では、文書からのすべてのセンテンスが特異
ベクトル空間に射影されるように、特異値分解法がター
ム対センテンス行列に適用される。テキストサマライザ
は、最も重要な特異値ベクトルに最大指標値を有するセ
ンテンスを、テキストサマリの一部として選択する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一般に、文書内容
のサマリ作成(サマライゼーション)に関し、特に、適
合性測定技術および潜在意味分析技術の実装によりテキ
スト文書の内容を要約(サマライズ)するシステムおよ
び方法に関する。
【0002】
【従来の技術】ワールドワイドウェブ(WWW)の爆発
的な成長は、情報伝播の速度および規模を急激に増大さ
せている。大量のアクセス可能なテキスト文書が現在イ
ンターネット上で利用可能であるため、従来の情報検索
(IR:Information Retrieval)技術は、適合性のあ
る情報を効果的に発見するにはますます不十分になって
いる。最近では、インターネット上でのキーワードに基
づく検索は、数百(さらには数千)ヒットの結果を返す
ことも全く普通のことになっており、これにはユーザは
しばしば圧倒される。ユーザが大量の情報のふるい分け
をするのを支援し、最も適合性の高い文書をすばやく識
別することができる新規な技術がますます必要とされて
いる。
【0003】大量のテキスト文書が与えられた場合、こ
れらの文書のサマリ(要約)をユーザに提示すること
は、所望の情報を含む文書を発見する作業を大幅に容易
にする。テキスト検索およびテキストサマリ作成は、相
互に補い合う2つの本質的な技術である。従来のテキス
ト検索エンジンは、キーワードクエリに関する適合性測
定に基づいて、文書のセットを返す。例えば、テキスト
サマリ作成システムはその場合、検索によって返される
各テキスト文書の内容の素早い調査を容易にする文書サ
マリを生成する(例えば、概要、キーワードサマリ、ま
たはアブストラクトを提供することによって)。
【0004】換言すれば、テキスト検索エンジンは一般
に、適合性のある文書の初期セットを識別するための情
報フィルタとして作用し、一方、協働するテキストサマ
リ作成システムは、ユーザが所望のすなわち適合性のあ
る文書の最終セットを識別するのを支援する情報スポッ
タとして作用する。
【0005】テキストサマリには、一般サマリとクエリ
適合サマリという2つのタイプのものがある。一般サマ
リは、特定の文書の内容のすべての意味を提供し、一
方、クエリ適合サマリは、初期検索クエリに密接に関連
する特定の文書からの内容のみを提示する。
【0006】よい一般サマリは、冗長性を最小限にしな
がら、文書中に提示された主要なトピックを含むべきで
ある。一般サマリ作成プロセスは、特定のキーワードク
エリやトピック検索に応答するものではないため、高品
質の一般サマリ作成の方法およびシステムを開発するこ
とは非常に困難であることがわかっている。他方、クエ
リ適合サマリは、初期検索クエリに特に関連する文書内
容を提示する。従来の多くのシステムでは、クエリ適合
サマリを作成することは本質的に、文書からクエリ(検
索質問)に適合するセンテンスを検索するプロセスであ
る。当業者には理解されるように、このプロセスは、テ
キスト検索プロセスに密接に関連している。したがっ
て、クエリ適合サマリ作成は、単に従来のIR技術を拡
張することによって達成されることがほとんどである。
【0007】これまで多くのテキストサマリ作成方法が
提案されている。最近の多くの研究は、クエリ適合テキ
ストサマリ作成方法に関するものである。例えば、B. B
aldwinとT. S. Mortonは、クエリ中のすべてのフレーズ
が表現されるまで、文書からセンテンスを選択するクエ
リセンシティブなサマリ作成方法を提案している。文書
中のセンテンスがクエリ中のフレーズを表現するとみな
されるのは、そのセンテンスおよびフレーズが同じ人、
組織、事件などを「同一指示」(co-refer)する場合であ
る(B. Baldwin et al., "Dynamic Co-reference-Based
Summarization", in Proceedings of the Third Confer
ence on Empirical Methods in NaturalLanguage Proce
ssing (EMNLP3), Granada, Spain, June 1998)。R. Bar
zilayとM. Elhadadは、文書中の語彙連鎖を見つけるこ
とによって、テキストサマリを作成する方法を開発して
いる(R. Barzilay et al., "Using Lexical Chains For
Text Summarization", in Proceedings of the Worksh
op on Intelligent Scalable Text Summarization (Mad
rid, Spain), August 1997)。
【0008】Mark Sandersonによるこの問題へのアプロ
ーチでは、各文書を等サイズの重なり合うパッセージに
分割し、INQUERY IRシステムを用いて各文書からクエリ
に最もよくマッチするパッセージを検索する。この「最
適パッセージ」が、文書のサマリとして使用される。最
適パッセージ検索の前に、局所文脈分析(LCA:Loca
l Context Analysis、これもINQUERYからのものであ
る)と呼ばれるクエリ拡張技術が用いられる。トピック
および文書コレクションが与えられると、LCA手続き
は、コレクションから最高ランクの文書を検索し、検索
された各文書中でトピックターム付近の文脈を検査す
る。その後、LCAは、これらの文脈に頻出するワード
またはフレーズを選択し、これらのワードまたはフレー
ズをもとのクエリに追加する(M. Sanderson, "Accurate
User Directed Summarization FromExisting Tools",
in Proceedings of the 7th International Conference
on Information and Knowledge Management (CIKM98),
1998)。
【0009】南カリフォルニア大学によるSUMMARISTテ
キストサマライザは、次の式に基づいてテキストサマリ
を作成しようとする。 サマリ作成=トピック識別+解釈+生成 識別段階は、入力文書をフィルタリングして、最も重要
な中心トピックを決定する。解釈段階は、ワードをクラ
スタリングして、いくつかの包含概念へと抽象化する。
最後に、生成段階は、入力のいくつかの部分を出力する
ことによって、または、文書概念の解釈に基づく新しい
センテンスを作成することによって、サマリを生成する
(E. Hovy et al., "Automated Text Summarization in
Summarist", in Proceedings of the TIPSTER Worksho
p, Baltimore, MD, 1998)。
【0010】SRA International, Inc.によるKM(Know
ledge Management)システムは、形態素解析、名前タグ
付け、および同一指示解決を用いてサマリ作成特徴を抽
出する。KM法は、機械学習技術を用いて、コーパスか
らの統計的情報を利用して特徴の最適な組合せを決定
し、サマリに含めるべき最適なセンテンスを識別する(h
ttp://www.SRA.com)。Cornell/Sabirシステムは、SMART
テキスト検索エンジンの文書ランキングおよびパッセー
ジ検索機能を用いて、文書中の適合性のあるパッセージ
を識別する(C. Buckley et al., "The SMART/Empire T
IPSTER IR System", in Proceedings of TIPSTER Phase
III Workshop, 1999)。CGI/CMUによるテキストサマラ
イザは、MMR(Maximal Marginal Relevance)と呼ばれ
る技術を利用する。この技術は、クエリに関してととも
に、サマリにすでに追加されているセンテンスに関し
て、文書中の各センテンスの適合性(relevance)を測定
する。その後、MMRシステムは、文書中に見つかった
キー適合性のある非冗長情報を識別することによって、
文書のサマリを生成する(J. Goldstain et al., "Summa
rizing Text Documents: Sentence Selection and Eval
uation Metrics", in Proceedings of ACM SIGIR'99, B
erkeley, CA, August 1999)。
【0011】
【発明が解決しようとする課題】上記のようなクエリ適
合テキストサマリは、与えられた文書がユーザのクエリ
に適合するかどうかを判定するため、および、文書が適
合性のある場合にはその文書のどの部分がクエリに適合
性があるかを識別するためには有用となる可能性があ
る。しかし、クエリ適合サマリは個々のクエリに応答し
て作成されるため、このようなタイプのサマリは、文書
内容の全体の意味を提供しない。したがって、クエリ適
合サマリは、内容概観のためには適当でない。文書中の
キートピックを識別してそれらの文書をカテゴライズす
るための一般テキストサマリ作成技術が開発される必要
がある。
【0012】
【課題を解決するための手段】本発明は、所定の、また
は、ユーザ指定の長さの、高品質の一般テキストサマリ
を出力する2つのアプローチを提供する。略言すれば、
さまざまな本発明の実施例は、適合性測定技術および潜
在意味分析技術を用いて、文書内容の一般サマリ作成を
行う。一般テキストサマリは、もとの文書からセンテン
スをランク付けして抽出することによって生成される。
高くランク付けされた相異なるセンテンスからサマリを
作成することによって、文書内容を広範囲にカバーする
とともに、冗長性を低くすることが同時に達成される。
【0013】本発明の1つの側面によれば、例えば、サ
マリ作成を実行するために従来のIR技術が特有の方法
で適用される。一実施例では、高精度のサマリを保証す
るために、3つのIRプロセスが組み合わされる。本発
明によるテキストサマリ作成のシステムあるいは方法
は、以下のオペレーションを実行する。すなわち、文書
全体とその各センテンスとの間の適合性を測定し、全文
書の文脈において最も適合性のあるセンテンスを選択
し、選択されたセンテンスに含まれるすべてのターム
(索引語)を消去する。これらの適合性測定、センテン
ス選択、およびターム消去の手続きは、所定数のセンテ
ンスが選択されるまで、順次反復される。
【0014】本発明のもう1つの側面によれば、例え
ば、全文書の「ターム対センテンス」行列が作成され
る。文書からのすべてのセンテンスが特異ベクトル空間
に射影されるように、特異値分解法がターム対センテン
ス行列に適用される。その後、一般テキストサマリのシ
ステムおよび方法が、最も重要な特異値ベクトルに最大
指標値を有するセンテンスを、テキストサマリの一部と
して選択する。
【0015】本発明の上記およびその他の付随する利点
は、添付図面を参照して本発明の好ましい実施例につい
ての以下の詳細な説明を検討すれば明らかとなる。
【0016】
【発明の実施の形態】図面を参照すると、図1は、一般
テキストサマリ作成のシステムおよび方法の一実施例の
オペレーションの概略流れ図であり、図2は、一般テキ
ストサマリ作成のシステムおよび方法のもう1つの実施
例のオペレーションの概略流れ図である。
【0017】背景的知識として、文書は、通常、いくつ
かのトピックからなる。いくつかのトピックは、一般
に、他のトピックより多くのセンテンスによって詳細に
記述されるため、その文書の主要な(または最も重要
な)内容を含むと推論される。他のトピックは、主要ト
ピックを補足しあるいは裏付け、あるいは全体の話をよ
り完全にするために、短く言及される。当業者には理解
されるように、よい一般テキストサマリは、文書の主要
トピックを規定の長さ(例えば、ワード数またはセンテ
ンス数)以内でできる限り綿密にカバーしながら、同時
に、冗長性を最小にするべきである。
【0018】一般テキストサマリ作成のシステムおよび
方法は、全文書を複数の個別のセンテンスに分解する。
このような分解の後、重み付きターム頻度ベクトルが、
以下のようにして、文書中の各センテンスごとに生成さ
れる。パッセージiに対するターム頻度ベクトルTi
次のように表される。 Ti=[t1i,t2i,...,tnit ただし、各成分tjiは、与えられたタームjがパッセー
ジiに出現する頻度(度数)を表す。パッセージiは、
例えば、個々のフレーズ、センテンス、パラグラフ、ま
たは全文書を表す。
【0019】同様に、同じパッセージに対する重み付き
ターム頻度ベクトルAiは次のように表される。 Ai=[a1i,a2i,...,anit ただし、重み付きターム頻度ベクトルの各成分ajiは、
さらに次のように定義される。 aji=L(tji)G(tji
【0020】上の式で、L(tji)は、パッセージi中
のタームjに対する局所重み関数を表し、G(tji)は
タームjに対する大域重み関数を表す。その生成中に、
重み付きターム頻度ベクトルAiは、その長さ|Ai|で
正規化される。したがって、後の計算中は、システム
は、もとの重み付きターム頻度ベクトルAiまたは正規
化ベクトルのいずれを使用することも可能である。
【0021】当業者には理解されるように、局所重み関
数L(tji)および大域重み関数G(tji)のいずれに
ついても、多くの可能な重み付け方式が存在する。重み
付け方式が異なると、一般テキストサマリ作成のシステ
ムおよび方法のパフォーマンスに影響を及ぼすことがあ
る。パフォーマンスおよび精度は、適当な局所重み関数
および適当な大域重み関数の両方が同時に適用されると
きに最大化される。
【0022】単なる例示であって限定のためではない
が、局所重み関数L(i)は、次の4つのよく知られた
形のうちの1つをとることが可能である。
【0023】最も単純な、重みなし方式:L(i)=t
f(i)。ただし、tf(i)は、与えられたセンテン
スにタームiが出現する回数を表す。
【0024】2値重み方式:与えられたセンテンスにタ
ームiが少なくとも1回現れるときL(i)=1とし、
それ以外のときL(i)=0とする。
【0025】拡張重み方式:L(i)=0.5+0.5
(tf(i)/tf(max))。ただし、tf(ma
x)は、センテンスに最も頻繁に出現するタームのター
ム頻度を表す。
【0026】対数重み方式:L(i)=log(1+t
f(i))。
【0027】同じく単なる例示であるが、大域重み関数
G(i)は、次の2つのよく知られた形のうちの1つを
とることが可能である。
【0028】重みなし方式:任意の与えられたタームi
に対して、G(i)=1。
【0029】逆文書重み方式:G(i)=log(N/
n(i))。ただし、Nは、文書中の総センテンス数で
あり、n(i)は、タームiを含むセンテンスの数であ
る。
【0030】さらに、上記のように、センテンスkの重
み付きターム頻度ベクトルAkが、例えば上記の局所重
み付け方式のうちの1つおよび大域重み付け方式のうち
の1つを用いて生成されると、Akのもとの形式がサマ
ライザによって使用されることも可能であり、あるい
は、Akをその長さすなわち絶対値|Ak|で正規化する
ことによって別のベクトルを生成することも可能であ
る。4個の可能な局所重み付け関数と、2つの可能な大
域重み付け関数と、もとのまたは正規化されたベクトル
を実装するオプションとを有するこの実施例では、16
個の可能な重み付け方式が存在する。当業者には理解さ
れるように、局所および大域重み付けについての異なる
アプローチやストラテジでは、他の組合せや可能性も存
在する。
【0031】次に、図1を参照すると、一般テキストサ
マライザの実施例は、精度の高い非冗長なサマリを作成
するために、従来のIR技術を適用する。まず、文書
は、複数の個別のセンテンスに分解され、それらのセン
テンスから、候補センテンスセットが生成される(ブロ
ック101)。例えば上記の重み付きターム頻度ベクト
ルが、文書全体に対して、および、候補センテンスセッ
ト中の各センテンスに対して、生成される(ブロック1
02)。次に、適合性スコアが、文書全体への適合性に
従って候補センテンスセット中の各センテンスごとに計
算され、最大の適合性スコアを有するセンテンスが、サ
マリに含めるためのセンテンスとして選択される(ブロ
ック103および104)。
【0032】あるベクトルの、別のベクトルに対する適
合性スコアを計算するためのさまざまな技術が当業者に
は知られている。例えば、ブロック103で、一般テキ
ストサマリ作成の方法およびシステムは、考慮対象のセ
ンテンスに対する重み付きターム頻度ベクトルと、文書
に対する重み付きターム頻度ベクトルとの内積(すなわ
ちドット積)を計算することが可能である。
【0033】次に、選択されたセンテンスは、候補セン
テンスセットから除去され、この選択されたセンテンス
に含まれるすべてのタームが文書から消去される(ブロ
ック105)。ブロック105に示されるように、セン
テンスを削除することおよびそのセンテンスのタームを
文書から消去することは、文書全体に対する重み付きタ
ーム頻度ベクトルの再作成を要求する。これは、以後の
適合性計算の精度を保証する。
【0034】ブロック106に示されるように、残りの
センテンスに関して、所定数のセンテンスが選択される
まで、適合性スコア計算(ブロック103)、センテン
ス選択(ブロック104)、およびターム消去(ブロッ
ク105)のオペレーションが繰り返される。
【0035】当業者には理解されるように、上記のオペ
レーションのブロック104で、最大の適合性スコア
(文書に対して)を有するセンテンスkは、文書の主要
な内容を最もよく表現するセンテンスと見なされる。し
たがって、上記のようにして適合性スコアに基づいてセ
ンテンスを選択することは、サマリができる限り広い範
囲で文書の主要なトピックを表現することを保証する。
他方、ブロック105に示されるように、kに含まれる
すべてのタームを文書から除去することは、(その後の
反復における)最大適合性スコアを有する後続のセンテ
ンスの検索が、センテンスkに含まれる事項との間で生
成する重複を最小限にすることを保証する。このように
して、文書のあらゆる主要トピックをカバーするサマリ
の作成中に、非常に低いレベルの冗長性が達成される。
【0036】図2の実施例に示す潜在意味索引付け(L
SI)法によれば、以下で詳細に説明するように、一般
テキストサマリの作成中に、特異値分解(SVD)法が
用いられる。ブロック201に示されるように、まず、
この代替実施例は、図1の実施例と同様に、すなわち、
文書を複数の個々のセンテンスに分解し、それらのセン
テンスから候補センテンスセットが生成される。
【0037】背景的知識として、理解されるべき点であ
るが、文書サマリ作成中にSVDを実行するためには、
文書に対する「ターム対センテンス」行列が作成される
(ブロック202)。ターム対センテンス行列は次の形
となる。 A=[A1,A2,,An] ただし、各列ベクトルAiは、考慮対象の文書中のセン
テンスiの重み付きターム頻度ベクトルを表す。文書中
の全部でm個のタームおよびn個のセンテンスがある場
合、全文書に対するターム対センテンス行列Aの次元は
m×nとなる。通常、あらゆるワードが各センテンスに
現れるわけではないので、行列Aは通常は疎である。実
際には、当業者に知られているように、特定のセンテン
ス中あるいは複数のセンテンス中のタームの重要度を増
減するために、上記のような局所および大域重み付けが
適用される(例えば、S. Dumais, "Improving The Retr
ieval of Information From External Sources", Behav
ior Research Methods, Instruments, and Computers,
vol.23, 1991、参照)。
【0038】次元m×n(ただし、一般性を失うことな
く、m≧n)の行列Aが与えられた場合、AのSVDは
次のように定義される(W. Press et al., "Numerical
Recipes in C: The Art of Scientific Computing", Ca
mbridge, England: Cambridge University Press, 2 e
d., 1992、参照): A=UΣVT
【0039】上の式で、U=[uij]は、m×n次の列
直交行列であり、その列は左特異ベクトルと呼ばれる。
Σ=diag(σ1,σ2,...,σn)は、n×n次の対
角行列であり、その対角成分は、降順にソートされた非
負特異値である。V=[vij]は、n×n次の直交行列
であり、その列は右特異ベクトルと呼ばれる。VTは、
Vの転置である。rank(A)=rの場合、Σは次の
関係を満たす。 σ1≧σ2≧・・・≧σr≧σr+1=・・・=σn=0
【0040】このようにSVD法を行列Aに適用するこ
とは、2つの異なる観点から解釈することが可能であ
る。変換の観点から見ると、SVDは、重み付きターム
頻度ベクトルによって張られるm次元空間と、そのすべ
ての軸が線形独立なr次元特異ベクトル空間との間の写
像を導出する。この写像は、行列Aの各列ベクトルを、
行列VTの列ベクトルψi=[vi1,vi2,...,virT
に射影し、行列Aの各行ベクトル(これは、各文書にお
けるタームjの出現回数を表す)を行列Uの行ベクトル
φj=[uj1,uj2,...,ujr]に写像する。ここで、
ψiの各成分vix、φjの各成分ujyは、それぞれ、i番
目、j番目の特異ベクトルの指標(index)と呼ばれる。
【0041】意味論の観点から見ると、SVD法は、サ
マライザが、行列Aによって表される文書の潜在意味構
造を導出することを可能にする(例えば、S. Deerweste
r etal., "Indexing By Latent Semantic Analysis", J
ournal of the American Society for Information Sci
ence, vol.41, pp.391-407, 1990、参照)。このオペレ
ーションは、もとの文書を、ある数r個の線形独立な基
底ベクトルあるいは概念に分解することを反映してい
る。文書からのそれぞれのタームおよびセンテンスは、
これらの基底ベクトルおよび概念によって同時索引付け
される。従来のIR技術に欠けている特有のSVDの特
徴は、SVDが一般に、タームおよびセンテンスの意味
的クラスタが生成されるようにターム間の相互関係を捕
捉しモデル化することができることである。
【0042】例として、ワードdoctor、physician、hos
pital、medicine、およびnurseを考える。ワードdoctor
およびphysicianは、多くの状況で同義語的に用いられ
ることがある一方、hospital、medicine、およびnurse
は、密接に関連した概念を表す。2つの同義語doctorお
よびphysicianは、hospital、medicine、nurseなどのよ
うな同じ関連ワードの多くとともにしばしば現れる。こ
のようなワードの類似のあるいは予測可能なパターンが
与えられた場合、ワードdoctorおよびphysicianは、r
次元特異ベクトル空間内で互いに近くに写像される。
【0043】さらに(M. Berry et al., "Using Linear
Algebra For Intelligent Information Retrieval", T
ech. Rep. UT-CS-94-270, University of Tennessee, C
omputer Science Department, Dec. 1994、に記載され
ているように)、ワードまたはセンテンスWが、重要な
特異ベクトルに大きい指標値を有する場合、Wは、文書
全体の主要なあるいは重要なトピックや概念を表現して
いる可能性が非常に高い。Wに密接に関連する他のワー
ドまたはセンテンスは、Wの近くに、空間内でWと同じ
特異ベクトルに沿って、写像される。換言すれば、SV
Dからの各特異ベクトルは、文書中の識別可能な顕著な
概念やトピックを表現していると解釈され、それに対応
する特異値の大きさは、その顕著なトピックの重要度を
表す。
【0044】図2に戻って、SVDに基づく文書サマラ
イザの実施例のオペレーションは、実質的に以下のよう
に進行する。まず、上記のように、文書は複数の個々の
センテンスに分解され、それらのセンテンスから候補セ
ンテンスセットが生成される(ブロック201)。さら
に、センテンスカウンタ変数kがk=1に初期化され
る。文書分解の後、ターム対センテンス行列A(例え
ば、上記のもの)が、全文書に対して生成される(ブロ
ック202)。ターム対センテンス行列の生成は、文書
中の各タームに対する局所重み付け関数および大域重み
付け関数の両方を使用することが可能である。
【0045】次に、ブロック203に示されるように、
特異値行列Σ、および右特異ベクトル行列VTを得るた
めに、SVDがAに対して実行される。各センテンスi
は、VTの列ベクトルψi=[vi1,vi2,...,virT
によって表される。次に、システムは、行列VTから、
k番目の特異ベクトルを選択する。これは、VTの第k
行を選択することと等価である。
【0046】次に、この実施例では、k番目の右特異ベ
クトルに最大指標値を有するセンテンスが、適合性セン
テンスとして選択され、サマリに含められる(ブロック
205)。さいごに、ブロック206に示されるよう
に、センテンスカウンタ変数kが所定数に達した場合、
オペレーションは終了する。そうでない場合、kが1だ
けインクリメントされ、システムは、次の反復のために
ブロック204に戻る。
【0047】図2のブロック205で、k番目の右特異
ベクトルに最大指標値を有するセンテンスを識別するこ
とは、その第k成分vikが最大の列ベクトルψiを見つ
けることと等価である。このオペレーションは一般に、
k番目の特異ベクトルによって表される顕著なトピック
を記述するセンテンスを見つけることと等価である。特
異ベクトルはその特異値の降順にソートされているた
め、k番目の特異ベクトルは、k番目に重要なトピック
を表す。すべての特異ベクトルは互いに独立であるた
め、この技術によって選択されるセンテンスが含む冗長
性は最小限となる。
【0048】
【発明の効果】以上詳細に説明したように、本発明によ
れば、もとの文書からセンテンスをランク付けして抽出
し、高くランク付けされた相異なるセンテンスからサマ
リを作成する。これによって、文書内容を広範囲にカバ
ーするとともに、冗長性を低くすることが同時に達成さ
れ、システム資源を効率的に利用しながら、所望の長さ
の、精度の高い、一般テキストサマリを提供することが
できる。
【0049】なお、ここに開示した好ましい実施例は、
単なる例示のために記載したものであり、限定のための
ものではない。当業者には明らかなように、本発明の技
術思想および技術的範囲を離れることなく、本発明のさ
まざまな変形例を考えることが可能である。
【図面の簡単な説明】
【図1】一般テキストサマリ作成のシステムおよび方法
の一実施例のオペレーションの概略流れ図である。
【図2】一般テキストサマリ作成のシステムおよび方法
のもう1つの実施例のオペレーションの概略流れ図であ
る。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 シン リュウ アメリカ合衆国,ニュージャージー 08540 プリンストン,4 インディペン デンス ウエイ,エヌ・イー・シー・ユ ー・エス・エー インク内 Fターム(参考) 5B075 NK06 NK32 NK39 NS01

Claims (32)

    【特許請求の範囲】
  1. 【請求項1】 文書の一般テキストサマリを作成する方
    法において、 前記文書に対して、重み付き文書ターム頻度ベクトルを
    生成するステップと、 前記文書中の各センテンスに対して、重み付きセンテン
    スターム頻度ベクトルを生成するステップと、 前記重み付き文書ターム頻度ベクトルとの適合性に従っ
    て、それぞれの前記重み付きセンテンスターム頻度ベク
    トルに対するスコアを計算するステップと、 前記計算に従って、前記一般テキストサマリに含めるた
    めのセンテンスを選択するステップとを有することを特
    徴とする、文書の一般テキストサマリを作成する方法。
  2. 【請求項2】 前記センテンスを前記文書から削除し、
    前記センテンス中のタームを前記文書から消去するステ
    ップと、 前記削除および前記消去に従って、前記重み付き文書タ
    ーム頻度ベクトルを再生成するステップと、 前記計算、前記選択、前記削除、前記消去、および前記
    再生成を選択的に反復するステップとをさらに有するこ
    とを特徴とする請求項1記載の方法。
  3. 【請求項3】 前記選択的反復は、所定数のセンテンス
    が選択されたときに終了することを特徴とする請求項2
    記載の方法。
  4. 【請求項4】 前記計算は、前記重み付きセンテンスタ
    ーム頻度ベクトルと、前記重み付き文書ターム頻度ベク
    トルとの内積を計算することを含むことを特徴とする請
    求項1記載の方法。
  5. 【請求項5】 前記重み付きセンテンスターム頻度ベク
    トルを生成するステップは、局所重み付け関数を実行す
    ること、および、大域重み付け関数を実行することを含
    むことを特徴とする請求項1記載の方法。
  6. 【請求項6】 前記重み付きセンテンスターム頻度ベク
    トルを生成するステップは、それぞれの前記重み付きセ
    ンテンスターム頻度ベクトルを正規化することを含むこ
    とを特徴とする請求項5記載の方法。
  7. 【請求項7】 前記重み付き文書ターム頻度ベクトルを
    生成するステップは、局所重み付け関数を実行するこ
    と、および、大域重み付け関数を実行することを含むこ
    とを特徴とする請求項1記載の方法。
  8. 【請求項8】 前記重み付き文書ターム頻度ベクトルを
    生成するステップは、前記重み付き文書ターム頻度ベク
    トルを正規化することを含むことを特徴とする請求項7
    記載の方法。
  9. 【請求項9】 文書の一般テキストサマリを作成するシ
    ステムにおいて、 コンピュータと、 前記一般テキストサマリを表示するディスプレイと、 前記文書の分析およびサマリ作成を行うための、前記コ
    ンピュータ上で動作可能なサマライザプログラムコード
    とを有し、 前記サマライザプログラムコードは、 前記文書に対して重み付き文書ターム頻度ベクトルを生
    成するとともに、前記文書中の各センテンスに対して重
    み付きセンテンスターム頻度ベクトルを生成するベクト
    ルジェネレータと、 前記重み付き文書ターム頻度ベクトルとの適合性に従っ
    て、それぞれの前記重み付きセンテンスターム頻度ベク
    トルに対するスコアを計算するスコアリングエンジン
    と、 前記スコアリングエンジンからの出力結果に従って、前
    記一般テキストサマリに含めるためのセンテンスを選択
    するセレクタとを有することを特徴とする、文書の一般
    テキストサマリを作成するシステム。
  10. 【請求項10】 前記サマライザプログラムコードは、
    前記センテンスを前記文書から削除し前記センテンス中
    のタームを前記文書から消去する文書エディタをさらに
    有し、 前記ベクトルジェネレータは、前記文書エディタからの
    出力結果に従って、前記重み付き文書ターム頻度ベクト
    ルを再生成することを特徴とする請求項9記載のシステ
    ム。
  11. 【請求項11】 前記サマライザは、前記ベクトルジェ
    ネレータ、前記スコアリングエンジン、前記セレクタ、
    および前記文書エディタの反復順次動作を生成するルー
    プルーチンをさらに有することを特徴とする請求項10
    記載のシステム。
  12. 【請求項12】 前記ループルーチンは、前記一般テキ
    ストサマリが所定数のセンテンスからなるように所定の
    限界に応答することを特徴とする請求項11記載のシス
    テム。
  13. 【請求項13】 文書の一般テキストサマリを作成する
    方法において、 前記文書を個々のセンテンスに分解するステップと、 前記個々のセンテンスから候補センテンスセットを形成
    するステップと、 前記候補センテンスセット中の前記個々のセンテンスの
    それぞれに対して、重み付きセンテンスターム頻度ベク
    トルを生成するステップと、 前記文書に対して、重み付き文書ターム頻度ベクトルを
    生成するステップと、 前記候補センテンスセット中の前記個々のセンテンスの
    それぞれに対して、前記重み付き文書ターム頻度ベクト
    ルに関する、前記重み付きセンテンスターム頻度ベクト
    ルの適合性スコアを計算するステップと、 前記計算に従って、前記一般テキストサマリに含めるた
    めのセンテンスを選択するステップと、 前記センテンスを前記候補センテンスセットから削除す
    るステップと、 前記センテンス中のタームを前記文書から消去するステ
    ップと、 前記削除および前記消去に従って、前記重み付き文書タ
    ーム頻度ベクトルを再生成するステップとを有すること
    を特徴とする、文書の一般テキストサマリを作成する方
    法。
  14. 【請求項14】 前記計算、前記選択、前記削除、前記
    消去、および前記再生成を選択的に反復するステップと
    をさらに有することを特徴とする請求項13記載の方
    法。
  15. 【請求項15】 前記選択的反復は、所定数のセンテン
    スが選択されたときに終了することを特徴とする請求項
    14記載の方法。
  16. 【請求項16】 前記計算は、前記重み付きセンテンス
    ターム頻度ベクトルと、前記重み付き文書ターム頻度ベ
    クトルとの内積を計算することを含むことを特徴とする
    請求項13記載の方法。
  17. 【請求項17】 前記重み付きセンテンスターム頻度ベ
    クトルを生成するステップは、局所重み付け関数を実行
    すること、および、大域重み付け関数を実行することを
    含むことを特徴とする請求項13記載の方法。
  18. 【請求項18】 前記重み付きセンテンスターム頻度ベ
    クトルを生成するステップは、それぞれの前記重み付き
    センテンスターム頻度ベクトルを正規化することを含む
    ことを特徴とする請求項17記載の方法。
  19. 【請求項19】 前記重み付き文書ターム頻度ベクトル
    を生成するステップは、局所重み付け関数を実行するこ
    と、および、大域重み付け関数を実行することを含むこ
    とを特徴とする請求項13記載の方法。
  20. 【請求項20】 前記重み付き文書ターム頻度ベクトル
    を生成するステップは、前記重み付き文書ターム頻度ベ
    クトルを正規化することを含むことを特徴とする請求項
    19記載の方法。
  21. 【請求項21】 文書の一般テキストサマリを作成する
    方法において、 前記文書に対して、ターム対センテンス行列を生成する
    ステップと、 前記文書中の各センテンスが右特異ベクトル行列の転置
    行列の列ベクトルによって表現されるような、特異値行
    列および右特異ベクトル行列を得るために、前記ターム
    対センテンス行列に対して特異値分解を実行するステッ
    プと、 前記右特異ベクトル行列におけるそれぞれの右特異ベク
    トルをランク付けするステップと、 前記ランク付けに従って、前記一般テキストサマリに含
    めるためのセンテンスを選択するステップとを有するこ
    とを特徴とする、文書の一般テキストサマリを作成する
    方法。
  22. 【請求項22】 前記選択を反復するステップをさらに
    有することを特徴とする請求項21記載の方法。
  23. 【請求項23】 前記反復は、所定数のセンテンスが選
    択されたときに終了することを特徴とする請求項22記
    載の方法。
  24. 【請求項24】 前記選択するステップは、前記右特異
    ベクトルに所望の指標値を有するセンテンスを識別する
    ことを含むことを特徴とする請求項21記載の方法。
  25. 【請求項25】 前記生成するステップは、局所重み付
    け関数を実行すること、および、大域重み付け関数を実
    行することを含むことを特徴とする請求項21記載の方
    法。
  26. 【請求項26】 文書の一般テキストサマリを作成する
    システムにおいて、コンピュータと、 前記一般テキストサマリを表示するディスプレイと、 前記文書の分析およびサマリ作成を行うための、前記コ
    ンピュータ上で動作可能なサマライザプログラムコード
    とを有し、 前記サマライザプログラムコードは、 前記文書に対して、ターム対センテンス行列を生成する
    行列ジェネレータと、 特異値行列および右特異ベクトル行列を生成するため
    に、前記ターム対センテンス行列に対して特異値分解を
    実行するSVDパフォーマと、 前記右特異ベクトル行列の指標値に従って、前記ターム
    対センテンス行列における各センテンスをランク付けす
    るベクトルアナライザと、 前記ベクトルアナライザからの出力結果に従って、前記
    一般テキストサマリに含めるためのセンテンスを選択す
    るセレクタとを有することを特徴とする、文書の一般テ
    キストサマリを作成するシステム。
  27. 【請求項27】 前記サマライザプログラムは、前記セ
    レクタの反復動作を生成するループルーチンをさらに有
    することを特徴とする請求項26記載のシステム。
  28. 【請求項28】 前記ループルーチンは、前記一般テキ
    ストサマリが所定数のセンテンスからなるように所定の
    限界に応答することを特徴とする請求項27記載のシス
    テム。
  29. 【請求項29】 文書の一般テキストサマリを作成する
    方法において、 前記文書を個々のセンテンスに分解するステップと、 前記個々のセンテンスから候補センテンスセットを形成
    するステップと、 前記文書に対して、ターム対センテンス行列を生成する
    ステップと、 前記候補センテンスセット中の各センテンスが右特異ベ
    クトル行列の転置行列の列ベクトルによって表現される
    ような、特異値行列および右特異ベクトル行列を得るた
    めに、前記ターム対センテンス行列に対して特異値分解
    を実行するステップと、 前記右特異ベクトル行列から右特異ベクトルを識別する
    ステップと、 前記識別に従って、前記一般テキストサマリに含めるた
    めのセンテンスを選択するステップと、 前記識別および前記選択を選択的に反復するステップと
    を有することを特徴とする、文書の一般テキストサマリ
    を作成する方法。
  30. 【請求項30】 前記選択的反復は、所定数のセンテン
    スが選択されたときに終了することを特徴とする請求項
    29記載の方法。
  31. 【請求項31】 前記選択するステップは、前記候補セ
    ンテンスセットにおいて、前記右特異ベクトルに所望の
    指標値を有するセンテンスを識別することを含むことを
    特徴とする請求項29記載の方法。
  32. 【請求項32】 前記生成するステップは、局所重み付
    け関数を実行すること、および、大域重み付け関数を実
    行することを含むことを特徴とする請求項29記載の方
    法。
JP2001356813A 2000-12-12 2001-11-22 文書の一般テキストサマリを作成する方法およびシステム Expired - Lifetime JP3726742B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US25453500P 2000-12-12 2000-12-12
US09/817591 2001-03-26
US09/817,591 US7607083B2 (en) 2000-12-12 2001-03-26 Test summarization using relevance measures and latent semantic analysis
US60/254535 2001-03-26

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2005080882A Division JP2005251211A (ja) 2000-12-12 2005-03-22 文書の一般テキストサマリを作成する方法およびシステム

Publications (2)

Publication Number Publication Date
JP2002197096A true JP2002197096A (ja) 2002-07-12
JP3726742B2 JP3726742B2 (ja) 2005-12-14

Family

ID=26944106

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2001356813A Expired - Lifetime JP3726742B2 (ja) 2000-12-12 2001-11-22 文書の一般テキストサマリを作成する方法およびシステム
JP2005080882A Pending JP2005251211A (ja) 2000-12-12 2005-03-22 文書の一般テキストサマリを作成する方法およびシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2005080882A Pending JP2005251211A (ja) 2000-12-12 2005-03-22 文書の一般テキストサマリを作成する方法およびシステム

Country Status (2)

Country Link
US (1) US7607083B2 (ja)
JP (2) JP3726742B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011138306A (ja) * 2009-12-28 2011-07-14 National Institute Of Information & Communication Technology 文書要約装置、文書処理装置、文書要約方法、文書処理方法、及びプログラム

Families Citing this family (163)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8311946B1 (en) 1999-10-15 2012-11-13 Ebrary Method and apparatus for improved information transactions
US7536561B2 (en) * 1999-10-15 2009-05-19 Ebrary, Inc. Method and apparatus for improved information transactions
US20020078096A1 (en) * 2000-12-15 2002-06-20 Milton John R. System and method for pruning an article
JP3916124B2 (ja) * 2001-02-15 2007-05-16 インターナショナル・ビジネス・マシーンズ・コーポレーション デジタル文書閲覧システム、ブラウザ、デジタル文書表示方法、プログラム及び記憶媒体
US6978275B2 (en) * 2001-08-31 2005-12-20 Hewlett-Packard Development Company, L.P. Method and system for mining a document containing dirty text
KR100849272B1 (ko) * 2001-11-23 2008-07-29 주식회사 엘지이아이 마크업 문서 자동 요약 방법
US6904564B1 (en) * 2002-01-14 2005-06-07 The United States Of America As Represented By The National Security Agency Method of summarizing text using just the text
NZ518744A (en) * 2002-05-03 2004-08-27 Hyperbolex Ltd Electronic document indexing using word use nodes, node objects and link objects
WO2004025490A1 (en) * 2002-09-16 2004-03-25 The Trustees Of Columbia University In The City Of New York System and method for document collection, grouping and summarization
US9280603B2 (en) * 2002-09-17 2016-03-08 Yahoo! Inc. Generating descriptions of matching resources based on the kind, quality, and relevance of available sources of information about the matching resources
US7406458B1 (en) * 2002-09-17 2008-07-29 Yahoo! Inc. Generating descriptions of matching resources based on the kind, quality, and relevance of available sources of information about the matching resources
US7451395B2 (en) * 2002-12-16 2008-11-11 Palo Alto Research Center Incorporated Systems and methods for interactive topic-based text summarization
US7117437B2 (en) * 2002-12-16 2006-10-03 Palo Alto Research Center Incorporated Systems and methods for displaying interactive topic-based text summaries
US7376893B2 (en) * 2002-12-16 2008-05-20 Palo Alto Research Center Incorporated Systems and methods for sentence based interactive topic-based text summarization
US20040133574A1 (en) * 2003-01-07 2004-07-08 Science Applications International Corporaton Vector space method for secure information sharing
JP2004280661A (ja) * 2003-03-18 2004-10-07 Fujitsu Ltd 検索方法及びプログラム
US7610313B2 (en) * 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering
US7346494B2 (en) * 2003-10-31 2008-03-18 International Business Machines Corporation Document summarization based on topicality and specificity
US20050131931A1 (en) * 2003-12-11 2005-06-16 Sanyo Electric Co., Ltd. Abstract generation method and program product
US7191175B2 (en) 2004-02-13 2007-03-13 Attenex Corporation System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space
US7158966B2 (en) * 2004-03-09 2007-01-02 Microsoft Corporation User intent discovery
GB0407389D0 (en) * 2004-03-31 2004-05-05 British Telecomm Information retrieval
US8868670B2 (en) * 2004-04-27 2014-10-21 Avaya Inc. Method and apparatus for summarizing one or more text messages using indicative summaries
US7392474B2 (en) * 2004-04-30 2008-06-24 Microsoft Corporation Method and system for classifying display pages using summaries
US7664751B2 (en) 2004-09-30 2010-02-16 Google Inc. Variable user interface based on document access privileges
US7603355B2 (en) * 2004-10-01 2009-10-13 Google Inc. Variably controlling access to content
US7840564B2 (en) 2005-02-16 2010-11-23 Ebrary System and method for automatic anthology creation using document aspects
US8312034B2 (en) * 2005-06-24 2012-11-13 Purediscovery Corporation Concept bridge and method of operating the same
US7433869B2 (en) * 2005-07-01 2008-10-07 Ebrary, Inc. Method and apparatus for document clustering and document sketching
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7747618B2 (en) * 2005-09-08 2010-06-29 Microsoft Corporation Augmenting user, query, and document triplets using singular value decomposition
US7831474B2 (en) * 2005-10-28 2010-11-09 Yahoo! Inc. System and method for associating an unvalued search term with a valued search term
US7689548B2 (en) * 2006-09-22 2010-03-30 Microsoft Corporation Recommending keywords based on bidding patterns
JP5011947B2 (ja) * 2006-10-19 2012-08-29 オムロン株式会社 Fmeaシートの作成方法およびfmeaシート自動作成装置
US7783640B2 (en) * 2006-11-03 2010-08-24 Oracle International Corp. Document summarization
US8280877B2 (en) * 2007-02-22 2012-10-02 Microsoft Corporation Diverse topic phrase extraction
US20080270119A1 (en) * 2007-04-30 2008-10-30 Microsoft Corporation Generating sentence variations for automatic summarization
JP4342575B2 (ja) * 2007-06-25 2009-10-14 株式会社東芝 キーワード提示のための装置、方法、及びプログラム
KR101391599B1 (ko) * 2007-09-05 2014-05-09 삼성전자주식회사 컨텐트에서의 등장 인물간의 관계에 대한 정보 생성 방법및 그 장치
US20100287162A1 (en) * 2008-03-28 2010-11-11 Sanika Shirwadkar method and system for text summarization and summary based query answering
US8359531B2 (en) * 2008-06-27 2013-01-22 International Business Machines Corporation Method and apparatus for highlighting diverse aspects in a document
US8984398B2 (en) * 2008-08-28 2015-03-17 Yahoo! Inc. Generation of search result abstracts
US20100114890A1 (en) * 2008-10-31 2010-05-06 Purediscovery Corporation System and Method for Discovering Latent Relationships in Data
US7958109B2 (en) 2009-02-06 2011-06-07 Yahoo! Inc. Intent driven search result rich abstracts
US8635223B2 (en) 2009-07-28 2014-01-21 Fti Consulting, Inc. System and method for providing a classification suggestion for electronically stored information
US8245135B2 (en) * 2009-09-08 2012-08-14 International Business Machines Corporation Producing a visual summarization of text documents
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
WO2021161104A1 (en) 2020-02-12 2021-08-19 Monday.Com Enhanced display features in collaborative network systems, methods, and devices
WO2021144656A1 (en) 2020-01-15 2021-07-22 Monday.Com Digital processing systems and methods for graphical dynamic table gauges in collaborative work systems
US11410129B2 (en) 2010-05-01 2022-08-09 Monday.com Ltd. Digital processing systems and methods for two-way syncing with third party applications in collaborative work systems
US8554542B2 (en) * 2010-05-05 2013-10-08 Xerox Corporation Textual entailment method for linking text of an abstract to text in the main body of a document
US9449080B1 (en) * 2010-05-18 2016-09-20 Guangsheng Zhang System, methods, and user interface for information searching, tagging, organization, and display
US20110313756A1 (en) * 2010-06-21 2011-12-22 Connor Robert A Text sizer (TM)
US8594998B2 (en) * 2010-07-30 2013-11-26 Ben-Gurion University Of The Negev Research And Development Authority Multilingual sentence extractor
US8548989B2 (en) * 2010-07-30 2013-10-01 International Business Machines Corporation Querying documents using search terms
US8577718B2 (en) 2010-11-04 2013-11-05 Dw Associates, Llc Methods and systems for identifying, quantifying, analyzing, and optimizing the level of engagement of components within a defined ecosystem or context
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8996359B2 (en) 2011-05-18 2015-03-31 Dw Associates, Llc Taxonomy and application of language analysis and processing
US8952796B1 (en) 2011-06-28 2015-02-10 Dw Associates, Llc Enactive perception device
US9442930B2 (en) 2011-09-07 2016-09-13 Venio Inc. System, method and computer program product for automatic topic identification using a hypertext corpus
US9442928B2 (en) 2011-09-07 2016-09-13 Venio Inc. System, method and computer program product for automatic topic identification using a hypertext corpus
US20140195897A1 (en) * 2011-09-20 2014-07-10 Helen Y. Balinsky Text Summarization
CN103874994B (zh) * 2011-10-14 2017-09-08 雅虎控股公司 用于自动概括电子文档的内容的方法和装置
US9269353B1 (en) 2011-12-07 2016-02-23 Manu Rehani Methods and systems for measuring semantics in communications
US9020807B2 (en) 2012-01-18 2015-04-28 Dw Associates, Llc Format for displaying text analytics results
WO2013142852A1 (en) * 2012-03-23 2013-09-26 Sententia, LLC Method and systems for text enhancement
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10169456B2 (en) * 2012-08-14 2019-01-01 International Business Machines Corporation Automatic determination of question in text and determination of candidate responses using data mining
US9977829B2 (en) * 2012-10-12 2018-05-22 Hewlett-Packard Development Company, L.P. Combinatorial summarizer
US9390149B2 (en) 2013-01-16 2016-07-12 International Business Machines Corporation Converting text content to a set of graphical icons
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9674132B1 (en) * 2013-03-25 2017-06-06 Guangsheng Zhang System, methods, and user interface for effectively managing message communications
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US9238163B2 (en) 2013-07-10 2016-01-19 Wilson Sporting Goods Co. Ball bat including a fiber composite component having high angle discontinuous fibers
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
CN103885935B (zh) * 2014-03-12 2016-06-29 浙江大学 基于图书阅读行为的图书章节摘要生成方法
US10380120B2 (en) 2014-03-18 2019-08-13 International Business Machines Corporation Automatic discovery and presentation of topic summaries related to a selection of text
US10318552B2 (en) * 2014-05-15 2019-06-11 International Business Machines Corporation Probability mapping model for location of natural resources
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10303745B2 (en) * 2014-06-16 2019-05-28 Hewlett-Packard Development Company, L.P. Pagination point identification
US9916375B2 (en) 2014-08-15 2018-03-13 International Business Machines Corporation Extraction of concept-based summaries from documents
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9767193B2 (en) * 2015-03-27 2017-09-19 Fujitsu Limited Generation apparatus and method
WO2016171709A1 (en) 2015-04-24 2016-10-27 Hewlett-Packard Development Company, L.P. Text restructuring
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10049085B2 (en) 2015-08-31 2018-08-14 Qualtrics, Llc Presenting views of an electronic document
US20170116180A1 (en) * 2015-10-23 2017-04-27 J. Edward Varallo Document analysis system
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10984027B2 (en) * 2016-04-19 2021-04-20 Sri International Techniques for user-centric document summarization
US11068546B2 (en) 2016-06-02 2021-07-20 Nuix North America Inc. Computer-implemented system and method for analyzing clusters of coded documents
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US20180032608A1 (en) * 2016-07-27 2018-02-01 Linkedin Corporation Flexible summarization of textual content
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10521503B2 (en) 2016-09-23 2019-12-31 Qualtrics, Llc Authenticating a respondent to an electronic survey
RU2635213C1 (ru) * 2016-09-26 2017-11-09 Самсунг Электроникс Ко., Лтд. Способ суммаризации текста и используемые для его реализации устройство и машиночитаемый носитель информации
US10706735B2 (en) 2016-10-31 2020-07-07 Qualtrics, Llc Guiding creation of an electronic survey
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) * 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
CN108280112B (zh) * 2017-06-22 2021-05-28 腾讯科技(深圳)有限公司 摘要生成方法、装置及计算机设备
US10127323B1 (en) 2017-07-26 2018-11-13 International Business Machines Corporation Extractive query-focused multi-document summarization
US10762284B2 (en) 2017-08-21 2020-09-01 International Business Machines Corporation Automated summarization of digital content for delivery to mobile devices
US10516525B2 (en) 2017-08-24 2019-12-24 International Business Machines Corporation System and method for detecting anomalies in examinations
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US11436359B2 (en) 2018-07-04 2022-09-06 Monday.com Ltd. System and method for managing permissions of users for a single data type column-oriented data structure
US11698890B2 (en) 2018-07-04 2023-07-11 Monday.com Ltd. System and method for generating a column-oriented data structure repository for columns of single data types
CN109299257B (zh) * 2018-09-18 2020-09-15 杭州科以才成科技有限公司 一种基于lstm和知识图谱的英文期刊推荐方法
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
JP6621514B1 (ja) * 2018-10-26 2019-12-18 楽天株式会社 要約作成装置、要約作成方法、及びプログラム
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN109992775B (zh) * 2019-03-25 2021-01-12 浙江大学 一种基于高级语义的文本摘要生成方法
US10936796B2 (en) * 2019-05-01 2021-03-02 International Business Machines Corporation Enhanced text summarizer
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US20210150481A1 (en) 2019-11-18 2021-05-20 Monday.Com Digital processing systems and methods for mechanisms for sharing responsibility in collaborative work systems
EP4062313A1 (en) 2019-11-18 2022-09-28 Monday.com Ltd. Collaborative networking systems, methods, and devices
CN111339287B (zh) * 2020-02-24 2023-04-21 成都网安科技发展有限公司 摘要生成方法及装置
IL297858A (en) 2020-05-01 2023-01-01 Monday Com Ltd Digital processing systems and methods for improved networking and collaborative work management systems, methods and devices
US20240184989A1 (en) 2020-05-01 2024-06-06 Monday.com Ltd. Digital processing systems and methods for virtualfile-based electronic white board in collaborative work systems systems
US11277361B2 (en) 2020-05-03 2022-03-15 Monday.com Ltd. Digital processing systems and methods for variable hang-time for social layer messages in collaborative work systems
US11392556B1 (en) 2021-01-14 2022-07-19 Monday.com Ltd. Digital processing systems and methods for draft and time slider for presentations in collaborative work systems
CN113591468B (zh) * 2021-06-15 2024-02-13 天津师范大学 国际组织科技文本词汇链自动构建与主题发现方法
US11741071B1 (en) 2022-12-28 2023-08-29 Monday.com Ltd. Digital processing systems and methods for navigating and viewing displayed content
US11886683B1 (en) 2022-12-30 2024-01-30 Monday.com Ltd Digital processing systems and methods for presenting board graphics
US11893381B1 (en) 2023-02-21 2024-02-06 Monday.com Ltd Digital processing systems and methods for reducing file bundle sizes

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06215049A (ja) * 1993-01-20 1994-08-05 Sharp Corp 文書要約装置
JPH09319768A (ja) * 1996-05-29 1997-12-12 Oki Electric Ind Co Ltd 要点抽出方法
JPH11102372A (ja) * 1997-09-29 1999-04-13 Sharp Corp 文書要約装置及びコンピュータ読み取り可能な記録媒体
JPH11259521A (ja) * 1998-03-13 1999-09-24 Fujitsu Ltd 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6029195A (en) * 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
US6505150B2 (en) * 1997-07-02 2003-01-07 Xerox Corporation Article and method of automatically filtering information retrieval results using test genre
US6356864B1 (en) * 1997-07-25 2002-03-12 University Technology Corporation Methods for analysis and evaluation of the semantic content of a writing based on vector length
US6353824B1 (en) * 1997-11-18 2002-03-05 Apple Computer, Inc. Method for dynamic presentation of the contents topically rich capsule overviews corresponding to the plurality of documents, resolving co-referentiality in document segments
WO2000046701A1 (en) * 1999-02-08 2000-08-10 Huntsman Ici Chemicals Llc Method for retrieving semantically distant analogies
US6611825B1 (en) * 1999-06-09 2003-08-26 The Boeing Company Method and system for text mining using multidimensional subspaces
JP2001014341A (ja) 1999-07-02 2001-01-19 Ricoh Co Ltd データベース作成装置および関連文書/関連語検索装置、データベース作成方法および関連文書/関連語検索方法ならびに記憶媒体
US20020078090A1 (en) * 2000-06-30 2002-06-20 Hwang Chung Hee Ontological concept-based, user-centric text summarization

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06215049A (ja) * 1993-01-20 1994-08-05 Sharp Corp 文書要約装置
JPH09319768A (ja) * 1996-05-29 1997-12-12 Oki Electric Ind Co Ltd 要点抽出方法
JPH11102372A (ja) * 1997-09-29 1999-04-13 Sharp Corp 文書要約装置及びコンピュータ読み取り可能な記録媒体
JPH11259521A (ja) * 1998-03-13 1999-09-24 Fujitsu Ltd 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011138306A (ja) * 2009-12-28 2011-07-14 National Institute Of Information & Communication Technology 文書要約装置、文書処理装置、文書要約方法、文書処理方法、及びプログラム

Also Published As

Publication number Publication date
JP3726742B2 (ja) 2005-12-14
JP2005251211A (ja) 2005-09-15
US20020138528A1 (en) 2002-09-26
US7607083B2 (en) 2009-10-20

Similar Documents

Publication Publication Date Title
JP3726742B2 (ja) 文書の一般テキストサマリを作成する方法およびシステム
Harman Relevance feedback revisited
EP0996899B1 (en) Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6282538B1 (en) Method and apparatus for generating query responses in a computer-based document retrieval system
US6678694B1 (en) Indexed, extensible, interactive document retrieval system
CN106844658A (zh) 一种中文文本知识图谱自动构建方法及系统
US20040249808A1 (en) Query expansion using query logs
US20030195872A1 (en) Web-based information content analyzer and information dimension dictionary
US20040167875A1 (en) Information processing method and system
US6278990B1 (en) Sort system for text retrieval
JP3173411B2 (ja) 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体
CN109508460A (zh) 基于主题聚类的无监督作文跑题检测方法及系统
Hammo et al. Experimenting with a question answering system for the Arabic language
JP2001188802A (ja) 情報検索装置及び情報検索方法
Iqbal et al. CURE: Collection for urdu information retrieval evaluation and ranking
Möller et al. Automatic classification of the world-wide web using the Universal Decimal Classification
Smeaton Independence of contributing retrieval strategies in data fusion for effective information retrieval
Agrawal et al. Comparative analysis of NLP models for Google Meet Transcript summarization
Madaan et al. Indexing of semantic web for efficient question answering system
Jayashree et al. Text document summarization using POS tagging for Kannada text documents
Almeida et al. Universal Passage Weighting Mecanism (UPWM) in BioASQ 9b.
Buckland et al. Domain-based indexes: Indexing for communities of users
Voorhees Whither music IR evaluation infrastructure: lessons to be learned from TREC
Hawking et al. ANU/ACSys TREC-5 Experiments
Kornai Evaluating geographic information retrieval

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050322

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050722

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050801

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050906

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050919

R150 Certificate of patent or registration of utility model

Ref document number: 3726742

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091007

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091007

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101007

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111007

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121007

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131007

Year of fee payment: 8

EXPY Cancellation because of completion of term