JP3726742B2 - 文書の一般テキストサマリを作成する方法およびシステム - Google Patents
文書の一般テキストサマリを作成する方法およびシステム Download PDFInfo
- Publication number
- JP3726742B2 JP3726742B2 JP2001356813A JP2001356813A JP3726742B2 JP 3726742 B2 JP3726742 B2 JP 3726742B2 JP 2001356813 A JP2001356813 A JP 2001356813A JP 2001356813 A JP2001356813 A JP 2001356813A JP 3726742 B2 JP3726742 B2 JP 3726742B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- weighted
- memory
- frequency vector
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/02—Reservations, e.g. for tickets, services or events
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99942—Manipulating data structure, e.g. compression, compaction, compilation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Theoretical Computer Science (AREA)
- Technology Law (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は、一般に、文書内容のサマリ作成(サマライゼーション)に関し、特に、適合性測定技術および潜在意味分析技術の実装によりテキスト文書の内容を要約(サマライズ)するシステムおよび方法に関する。
【0002】
【従来の技術】
ワールドワイドウェブ(WWW)の爆発的な成長は、情報伝播の速度および規模を急激に増大させている。大量のアクセス可能なテキスト文書が現在インターネット上で利用可能であるため、従来の情報検索(IR:Information Retrieval)技術は、適合性のある情報を効果的に発見するにはますます不十分になっている。最近では、インターネット上でのキーワードに基づく検索は、数百(さらには数千)ヒットの結果を返すことも全く普通のことになっており、これにはユーザはしばしば圧倒される。ユーザが大量の情報のふるい分けをするのを支援し、最も適合性の高い文書をすばやく識別することができる新規な技術がますます必要とされている。
【0003】
大量のテキスト文書が与えられた場合、これらの文書のサマリ(要約)をユーザに提示することは、所望の情報を含む文書を発見する作業を大幅に容易にする。テキスト検索およびテキストサマリ作成は、相互に補い合う2つの本質的な技術である。従来のテキスト検索エンジンは、キーワードクエリに関する適合性測定に基づいて、文書のセットを返す。例えば、テキストサマリ作成システムはその場合、検索によって返される各テキスト文書の内容の素早い調査を容易にする文書サマリを生成する(例えば、概要、キーワードサマリ、またはアブストラクトを提供することによって)。
【0004】
換言すれば、テキスト検索エンジンは一般に、適合性のある文書の初期セットを識別するための情報フィルタとして作用し、一方、協働するテキストサマリ作成システムは、ユーザが所望のすなわち適合性のある文書の最終セットを識別するのを支援する情報スポッタとして作用する。
【0005】
テキストサマリには、一般サマリとクエリ適合サマリという2つのタイプのものがある。一般サマリは、特定の文書の内容のすべての意味を提供し、一方、クエリ適合サマリは、初期検索クエリに密接に関連する特定の文書からの内容のみを提示する。
【0006】
よい一般サマリは、冗長性を最小限にしながら、文書中に提示された主要なトピックを含むべきである。一般サマリ作成プロセスは、特定のキーワードクエリやトピック検索に応答するものではないため、高品質の一般サマリ作成の方法およびシステムを開発することは非常に困難であることがわかっている。他方、クエリ適合サマリは、初期検索クエリに特に関連する文書内容を提示する。従来の多くのシステムでは、クエリ適合サマリを作成することは本質的に、文書からクエリ(検索質問)に適合するセンテンスを検索するプロセスである。当業者には理解されるように、このプロセスは、テキスト検索プロセスに密接に関連している。したがって、クエリ適合サマリ作成は、単に従来のIR技術を拡張することによって達成されることがほとんどである。
【0007】
これまで多くのテキストサマリ作成方法が提案されている。最近の多くの研究は、クエリ適合テキストサマリ作成方法に関するものである。例えば、B. BaldwinとT. S. Mortonは、クエリ中のすべてのフレーズが表現されるまで、文書からセンテンスを選択するクエリセンシティブなサマリ作成方法を提案している。文書中のセンテンスがクエリ中のフレーズを表現するとみなされるのは、そのセンテンスおよびフレーズが同じ人、組織、事件などを「同一指示」(co-refer)する場合である(B. Baldwin et al., "Dynamic Co-reference-Based Summarization", in Proceedings of the Third Conference on Empirical Methods in Natural Language Processing (EMNLP3), Granada, Spain, June 1998)。R. BarzilayとM. Elhadadは、文書中の語彙連鎖を見つけることによって、テキストサマリを作成する方法を開発している(R. Barzilay et al., "Using Lexical Chains For Text Summarization", in Proceedings of the Workshop on Intelligent Scalable Text Summarization (Madrid, Spain), August 1997)。
【0008】
Mark Sandersonによるこの問題へのアプローチでは、各文書を等サイズの重なり合うパッセージに分割し、INQUERY IRシステムを用いて各文書からクエリに最もよくマッチするパッセージを検索する。この「最適パッセージ」が、文書のサマリとして使用される。最適パッセージ検索の前に、局所文脈分析(LCA:Local Context Analysis、これもINQUERYからのものである)と呼ばれるクエリ拡張技術が用いられる。トピックおよび文書コレクションが与えられると、LCA手続きは、コレクションから最高ランクの文書を検索し、検索された各文書中でトピックターム付近の文脈を検査する。その後、LCAは、これらの文脈に頻出するワードまたはフレーズを選択し、これらのワードまたはフレーズをもとのクエリに追加する(M. Sanderson, "Accurate User Directed Summarization From Existing Tools", in Proceedings of the 7th International Conference on Information and Knowledge Management (CIKM98), 1998)。
【0009】
南カリフォルニア大学によるSUMMARISTテキストサマライザは、次の式に基づいてテキストサマリを作成しようとする。
サマリ作成=トピック識別+解釈+生成
識別段階は、入力文書をフィルタリングして、最も重要な中心トピックを決定する。解釈段階は、ワードをクラスタリングして、いくつかの包含概念へと抽象化する。最後に、生成段階は、入力のいくつかの部分を出力することによって、または、文書概念の解釈に基づく新しいセンテンスを作成することによって、サマリを生成する(E. Hovy et al., "Automated Text Summarization in Summarist", in Proceedings of the TIPSTER Workshop, Baltimore, MD, 1998)。
【0010】
SRA International, Inc.によるKM(Knowledge Management)システムは、形態素解析、名前タグ付け、および同一指示解決を用いてサマリ作成特徴を抽出する。KM法は、機械学習技術を用いて、コーパスからの統計的情報を利用して特徴の最適な組合せを決定し、サマリに含めるべき最適なセンテンスを識別する(http://www.SRA.com)。Cornell/Sabirシステムは、SMARTテキスト検索エンジンの文書ランキングおよびパッセージ検索機能を用いて、文書中の適合性のあるパッセージを識別する(C. Buckley et al., "The SMART/Empire TIPSTER IR System", in Proceedings of TIPSTER Phase III Workshop, 1999)。CGI/CMUによるテキストサマライザは、MMR(Maximal Marginal Relevance)と呼ばれる技術を利用する。この技術は、クエリに関してとともに、サマリにすでに追加されているセンテンスに関して、文書中の各センテンスの適合性(relevance)を測定する。その後、MMRシステムは、文書中に見つかったキー適合性のある非冗長情報を識別することによって、文書のサマリを生成する(J. Goldstain et al., "Summarizing Text Documents: Sentence Selection and Evaluation Metrics", in Proceedings of ACM SIGIR'99, Berkeley, CA, August 1999)。
【0011】
【発明が解決しようとする課題】
上記のようなクエリ適合テキストサマリは、与えられた文書がユーザのクエリに適合するかどうかを判定するため、および、文書が適合性のある場合にはその文書のどの部分がクエリに適合性があるかを識別するためには有用となる可能性がある。しかし、クエリ適合サマリは個々のクエリに応答して作成されるため、このようなタイプのサマリは、文書内容の全体の意味を提供しない。したがって、クエリ適合サマリは、内容概観のためには適当でない。文書中のキートピックを識別してそれらの文書をカテゴライズするための一般テキストサマリ作成技術が開発される必要がある。
【0012】
【課題を解決するための手段】
本発明は、所定の、または、ユーザ指定の長さの、高品質の一般テキストサマリを出力する2つのアプローチを提供する。略言すれば、さまざまな本発明の実施例は、適合性測定技術および潜在意味分析技術を用いて、文書内容の一般サマリ作成を行う。一般テキストサマリは、もとの文書からセンテンスをランク付けして抽出することによって生成される。高くランク付けされた相異なるセンテンスからサマリを作成することによって、文書内容を広範囲にカバーするとともに、冗長性を低くすることが同時に達成される。
【0013】
本発明の1つの側面によれば、例えば、サマリ作成を実行するために従来のIR技術が特有の方法で適用される。一実施例では、高精度のサマリを保証するために、3つのIRプロセスが組み合わされる。本発明によるテキストサマリ作成のシステムあるいは方法は、以下のオペレーションを実行する。すなわち、文書全体とその各センテンスとの間の適合性を測定し、全文書の文脈において最も適合性のあるセンテンスを選択し、選択されたセンテンスに含まれるすべてのターム(索引語)を消去する。これらの適合性測定、センテンス選択、およびターム消去の手続きは、所定数のセンテンスが選択されるまで、順次反復される。
【0014】
本発明のもう1つの側面によれば、例えば、全文書の「ターム対センテンス」行列が作成される。文書からのすべてのセンテンスが特異ベクトル空間に射影されるように、特異値分解法がターム対センテンス行列に適用される。その後、一般テキストサマリのシステムおよび方法が、最も重要な特異値ベクトルに最大指標値を有するセンテンスを、テキストサマリの一部として選択する。
【0015】
本発明の上記およびその他の付随する利点は、添付図面を参照して本発明の好ましい実施例についての以下の詳細な説明を検討すれば明らかとなる。
【0016】
【発明の実施の形態】
図面を参照すると、図1は、一般テキストサマリ作成のシステムおよび方法の一実施例のオペレーションの概略流れ図であり、図2は、一般テキストサマリ作成のシステムおよび方法のもう1つの実施例のオペレーションの概略流れ図である。
【0017】
背景的知識として、文書は、通常、いくつかのトピックからなる。いくつかのトピックは、一般に、他のトピックより多くのセンテンスによって詳細に記述されるため、その文書の主要な(または最も重要な)内容を含むと推論される。他のトピックは、主要トピックを補足しあるいは裏付け、あるいは全体の話をより完全にするために、短く言及される。当業者には理解されるように、よい一般テキストサマリは、文書の主要トピックを規定の長さ(例えば、ワード数またはセンテンス数)以内でできる限り綿密にカバーしながら、同時に、冗長性を最小にするべきである。
【0018】
一般テキストサマリ作成のシステムおよび方法は、全文書を複数の個別のセンテンスに分解する。このような分解の後、重み付きターム頻度ベクトルが、以下のようにして、文書中の各センテンスごとに生成される。パッセージiに対するターム頻度ベクトルTiは次のように表される。
Ti=[t1i,t2i,...,tni]t
ただし、各成分tjiは、与えられたタームjがパッセージiに出現する頻度(度数)を表す。パッセージiは、例えば、個々のフレーズ、センテンス、パラグラフ、または全文書を表す。
【0019】
同様に、同じパッセージに対する重み付きターム頻度ベクトルAiは次のように表される。
Ai=[a1i,a2i,...,ani]t
ただし、重み付きターム頻度ベクトルの各成分ajiは、さらに次のように定義される。
aji=L(tji)G(tji)
【0020】
上の式で、L(tji)は、パッセージi中のタームjに対する局所重み関数を表し、G(tji)はタームjに対する大域重み関数を表す。その生成中に、重み付きターム頻度ベクトルAiは、その長さ|Ai|で正規化される。したがって、後の計算中は、システムは、もとの重み付きターム頻度ベクトルAiまたは正規化ベクトルのいずれを使用することも可能である。
【0021】
当業者には理解されるように、局所重み関数L(tji)および大域重み関数G(tji)のいずれについても、多くの可能な重み付け方式が存在する。重み付け方式が異なると、一般テキストサマリ作成のシステムおよび方法のパフォーマンスに影響を及ぼすことがある。パフォーマンスおよび精度は、適当な局所重み関数および適当な大域重み関数の両方が同時に適用されるときに最大化される。
【0022】
単なる例示であって限定のためではないが、局所重み関数L(i)は、次の4つのよく知られた形のうちの1つをとることが可能である。
【0023】
最も単純な、重みなし方式:L(i)=tf(i)。ただし、tf(i)は、与えられたセンテンスにタームiが出現する回数を表す。
【0024】
2値重み方式:与えられたセンテンスにタームiが少なくとも1回現れるときL(i)=1とし、それ以外のときL(i)=0とする。
【0025】
拡張重み方式:L(i)=0.5+0.5(tf(i)/tf(max))。
ただし、tf(max)は、センテンスに最も頻繁に出現するタームのターム頻度を表す。
【0026】
対数重み方式:L(i)=log(1+tf(i))。
【0027】
同じく単なる例示であるが、大域重み関数G(i)は、次の2つのよく知られた形のうちの1つをとることが可能である。
【0028】
重みなし方式:任意の与えられたタームiに対して、G(i)=1。
【0029】
逆文書重み方式:G(i)=log(N/n(i))。ただし、Nは、文書中の総センテンス数であり、n(i)は、タームiを含むセンテンスの数である。
【0030】
さらに、上記のように、センテンスkの重み付きターム頻度ベクトルAkが、例えば上記の局所重み付け方式のうちの1つおよび大域重み付け方式のうちの1つを用いて生成されると、Akのもとの形式がサマライザによって使用されることも可能であり、あるいは、Akをその長さすなわち絶対値|Ak|で正規化することによって別のベクトルを生成することも可能である。4個の可能な局所重み付け関数と、2つの可能な大域重み付け関数と、もとのまたは正規化されたベクトルを実装するオプションとを有するこの実施例では、16個の可能な重み付け方式が存在する。当業者には理解されるように、局所および大域重み付けについての異なるアプローチやストラテジでは、他の組合せや可能性も存在する。
【0031】
次に、図1を参照すると、一般テキストサマライザの実施例は、精度の高い非冗長なサマリを作成するために、従来のIR技術を適用する。まず、文書は、複数の個別のセンテンスに分解され、それらのセンテンスから、候補センテンスセットが生成される(ブロック101)。例えば上記の重み付きターム頻度ベクトルが、文書全体に対して、および、候補センテンスセット中の各センテンスに対して、生成される(ブロック102)。次に、適合性スコアが、文書全体への適合性に従って候補センテンスセット中の各センテンスごとに計算され、最大の適合性スコアを有するセンテンスが、サマリに含めるためのセンテンスとして選択される(ブロック103および104)。
【0032】
あるベクトルの、別のベクトルに対する適合性スコアを計算するためのさまざまな技術が当業者には知られている。例えば、ブロック103で、一般テキストサマリ作成の方法およびシステムは、考慮対象のセンテンスに対する重み付きターム頻度ベクトルと、文書に対する重み付きターム頻度ベクトルとの内積(すなわちドット積)を計算することが可能である。
【0033】
次に、選択されたセンテンスは、候補センテンスセットから除去され、この選択されたセンテンスに含まれるすべてのタームが文書から消去される(ブロック105)。ブロック105に示されるように、センテンスを削除することおよびそのセンテンスのタームを文書から消去することは、文書全体に対する重み付きターム頻度ベクトルの再作成を要求する。これは、以後の適合性計算の精度を保証する。
【0034】
ブロック106に示されるように、残りのセンテンスに関して、所定数のセンテンスが選択されるまで、適合性スコア計算(ブロック103)、センテンス選択(ブロック104)、およびターム消去(ブロック105)のオペレーションが繰り返される。
【0035】
当業者には理解されるように、上記のオペレーションのブロック104で、最大の適合性スコア(文書に対して)を有するセンテンスkは、文書の主要な内容を最もよく表現するセンテンスと見なされる。したがって、上記のようにして適合性スコアに基づいてセンテンスを選択することは、サマリができる限り広い範囲で文書の主要なトピックを表現することを保証する。他方、ブロック105に示されるように、kに含まれるすべてのタームを文書から除去することは、(その後の反復における)最大適合性スコアを有する後続のセンテンスの検索が、センテンスkに含まれる事項との間で生成する重複を最小限にすることを保証する。このようにして、文書のあらゆる主要トピックをカバーするサマリの作成中に、非常に低いレベルの冗長性が達成される。
【0036】
図2の実施例に示す潜在意味索引付け(LSI)法によれば、以下で詳細に説明するように、一般テキストサマリの作成中に、特異値分解(SVD)法が用いられる。ブロック201に示されるように、まず、この代替実施例は、図1の実施例と同様に、すなわち、文書を複数の個々のセンテンスに分解し、それらのセンテンスから候補センテンスセットが生成される。
【0037】
背景的知識として、理解されるべき点であるが、文書サマリ作成中にSVDを実行するためには、文書に対する「ターム対センテンス」行列が作成される(ブロック202)。ターム対センテンス行列は次の形となる。
A=[A1,A2,,An]
ただし、各列ベクトルAiは、考慮対象の文書中のセンテンスiの重み付きターム頻度ベクトルを表す。文書中の全部でm個のタームおよびn個のセンテンスがある場合、全文書に対するターム対センテンス行列Aの次元はm×nとなる。通常、あらゆるワードが各センテンスに現れるわけではないので、行列Aは通常は疎である。実際には、当業者に知られているように、特定のセンテンス中あるいは複数のセンテンス中のタームの重要度を増減するために、上記のような局所および大域重み付けが適用される(例えば、S. Dumais, "Improving The Retrieval of Information From External Sources", Behavior Research Methods, Instruments, and Computers, vol.23, 1991、参照)。
【0038】
次元m×n(ただし、一般性を失うことなく、m≧n)の行列Aが与えられた場合、AのSVDは次のように定義される(W. Press et al., "Numerical Recipes in C: The Art of Scientific Computing", Cambridge, England: Cambridge University Press, 2 ed., 1992、参照):
A=UΣVT
【0039】
上の式で、U=[uij]は、m×n次の列直交行列であり、その列は左特異ベクトルと呼ばれる。Σ=diag(σ1,σ2,...,σn)は、n×n次の対角行列であり、その対角成分は、降順にソートされた非負特異値である。V=[vij]は、n×n次の直交行列であり、その列は右特異ベクトルと呼ばれる。VTは、Vの転置である。rank(A)=rの場合、Σは次の関係を満たす。
σ1≧σ2≧・・・≧σr≧σr+1=・・・=σn=0
【0040】
このようにSVD法を行列Aに適用することは、2つの異なる観点から解釈することが可能である。変換の観点から見ると、SVDは、重み付きターム頻度ベクトルによって張られるm次元空間と、そのすべての軸が線形独立なr次元特異ベクトル空間との間の写像を導出する。この写像は、行列Aの各列ベクトルを、行列VTの列ベクトルψi=[vi1,vi2,...,vir]Tに射影し、行列Aの各行ベクトル(これは、各文書におけるタームjの出現回数を表す)を行列Uの行ベクトルφj=[uj1,uj2,...,ujr]に写像する。ここで、ψiの各成分vix、φjの各成分ujyは、それぞれ、i番目、j番目の特異ベクトルの指標(index)と呼ばれる。
【0041】
意味論の観点から見ると、SVD法は、サマライザが、行列Aによって表される文書の潜在意味構造を導出することを可能にする(例えば、S. Deerwester et al., "Indexing By Latent Semantic Analysis", Journal of the American Society for Information Science, vol.41, pp.391-407, 1990、参照)。このオペレーションは、もとの文書を、ある数r個の線形独立な基底ベクトルあるいは概念に分解することを反映している。文書からのそれぞれのタームおよびセンテンスは、これらの基底ベクトルおよび概念によって同時索引付けされる。従来のIR技術に欠けている特有のSVDの特徴は、SVDが一般に、タームおよびセンテンスの意味的クラスタが生成されるようにターム間の相互関係を捕捉しモデル化することができることである。
【0042】
例として、ワードdoctor、physician、hospital、medicine、およびnurseを考える。ワードdoctorおよびphysicianは、多くの状況で同義語的に用いられることがある一方、hospital、medicine、およびnurseは、密接に関連した概念を表す。2つの同義語doctorおよびphysicianは、hospital、medicine、nurseなどのような同じ関連ワードの多くとともにしばしば現れる。このようなワードの類似のあるいは予測可能なパターンが与えられた場合、ワードdoctorおよびphysicianは、r次元特異ベクトル空間内で互いに近くに写像される。
【0043】
さらに(M. Berry et al., "Using Linear Algebra For Intelligent Information Retrieval", Tech. Rep. UT-CS-94-270, University of Tennessee, Computer Science Department, Dec. 1994、に記載されているように)、ワードまたはセンテンスWが、重要な特異ベクトルに大きい指標値を有する場合、Wは、文書全体の主要なあるいは重要なトピックや概念を表現している可能性が非常に高い。Wに密接に関連する他のワードまたはセンテンスは、Wの近くに、空間内でWと同じ特異ベクトルに沿って、写像される。換言すれば、SVDからの各特異ベクトルは、文書中の識別可能な顕著な概念やトピックを表現していると解釈され、それに対応する特異値の大きさは、その顕著なトピックの重要度を表す。
【0044】
図2に戻って、SVDに基づく文書サマライザの実施例のオペレーションは、実質的に以下のように進行する。まず、上記のように、文書は複数の個々のセンテンスに分解され、それらのセンテンスから候補センテンスセットが生成される(ブロック201)。さらに、センテンスカウンタ変数kがk=1に初期化される。文書分解の後、ターム対センテンス行列A(例えば、上記のもの)が、全文書に対して生成される(ブロック202)。ターム対センテンス行列の生成は、文書中の各タームに対する局所重み付け関数および大域重み付け関数の両方を使用することが可能である。
【0045】
次に、ブロック203に示されるように、特異値行列Σ、および右特異ベクトル行列VTを得るために、SVDがAに対して実行される。各センテンスiは、VTの列ベクトルψi=[vi1,vi2,...,vir]Tによって表される。次に、システムは、行列VTから、k番目の特異ベクトルを選択する。これは、VTの第k行を選択することと等価である。
【0046】
次に、この実施例では、k番目の右特異ベクトルに最大指標値を有するセンテンスが、適合性センテンスとして選択され、サマリに含められる(ブロック205)。さいごに、ブロック206に示されるように、センテンスカウンタ変数kが所定数に達した場合、オペレーションは終了する。そうでない場合、kが1だけインクリメントされ、システムは、次の反復のためにブロック204に戻る。
【0047】
図2のブロック205で、k番目の右特異ベクトルに最大指標値を有するセンテンスを識別することは、その第k成分vikが最大の列ベクトルψiを見つけることと等価である。このオペレーションは一般に、k番目の特異ベクトルによって表される顕著なトピックを記述するセンテンスを見つけることと等価である。特異ベクトルはその特異値の降順にソートされているため、k番目の特異ベクトルは、k番目に重要なトピックを表す。すべての特異ベクトルは互いに独立であるため、この技術によって選択されるセンテンスが含む冗長性は最小限となる。
【0048】
【発明の効果】
以上詳細に説明したように、本発明によれば、もとの文書からセンテンスをランク付けして抽出し、高くランク付けされた相異なるセンテンスからサマリを作成する。これによって、文書内容を広範囲にカバーするとともに、冗長性を低くすることが同時に達成され、システム資源を効率的に利用しながら、所望の長さの、精度の高い、一般テキストサマリを提供することができる。
【0049】
なお、ここに開示した好ましい実施例は、単なる例示のために記載したものであり、限定のためのものではない。当業者には明らかなように、本発明の技術思想および技術的範囲を離れることなく、本発明のさまざまな変形例を考えることが可能である。
【図面の簡単な説明】
【図1】一般テキストサマリ作成のシステムおよび方法の一実施例のオペレーションの概略流れ図である。
【図2】一般テキストサマリ作成のシステムおよび方法のもう1つの実施例のオペレーションの概略流れ図である。
Claims (18)
- 文書の一般テキストサマリを作成する方法において、
a)前記文書を第1メモリに格納するステップと、
b)前記文書に対して、重み付き文書ターム頻度ベクトルを生成して第2メモリに格納するステップと、
c)前記第1メモリに格納された文書中の各センテンスに対して、重み付きセンテンスターム頻度ベクトルを生成して第3メモリに格納するステップと、
d)前記重み付き文書ターム頻度ベクトルとの適合性に従って、それぞれの前記重み付きセンテンスターム頻度ベクトルに対するスコアを計算するステップと、
e)前記スコアに従って、前記一般テキストサマリに含めるためのセンテンスを選択して第4メモリに格納するステップと、
f)前記選択されたセンテンスを前記第1メモリに格納された文書から削除し、前記選択されたセンテンス中のタームを前記第1メモリに格納された文書から消去するステップと、
g)前記削除および消去ステップf)の終了後に、前記第1メモリに格納された文書を用いて前記ステップb)を実行し重み付き文書ターム頻度ベクトルを再生成して前記第2メモリに格納するステップと、
h)前記第1メモリに格納された文書、前記第2メモリに格納された重み付き文書ターム頻度ベクトルおよび前記第3メモリに格納された重み付きセンテンスターム頻度ベクトルを用いながら、前記計算ステップd)、前記選択ステップe)、前記削除および消去ステップf)、および前記再生成ステップg)を選択的に反復するステップと、
を有することを特徴とする、文書の一般テキストサマリを作成する方法。 - 前記選択的反復ステップh)は、所定数のセンテンスが選択されたときに終了することを特徴とする請求項1記載の方法。
- 前記計算ステップd)は、前記重み付きセンテンスターム頻度ベクトルと、前記重み付き文書ターム頻度ベクトルとの内積を計算することを含むことを特徴とする請求項1記載の方法。
- 前記重み付きセンテンスターム頻度ベクトルを生成するステップは、局所重み付け関数を実行すること、および、大域重み付け関数を実行することを含むことを特徴とする請求項1記載の方法。
- 前記重み付きセンテンスターム頻度ベクトルを生成するステップc)は、それぞれの前記重み付きセンテンスターム頻度ベクトルを正規化することを含むことを特徴とする請求項4記載の方法。
- 前記重み付き文書ターム頻度ベクトルを生成するステップb)は、局所重み付け関数を実行すること、および、大域重み付け関数を実行することを含むことを特徴とする請求項1記載の方法。
- 前記重み付き文書ターム頻度ベクトルを生成するステップb)は、前記重み付き文書ターム頻度ベクトルを正規化することを含むことを特徴とする請求項6記載の方法。
- 文書の一般テキストサマリを作成するシステムにおいて、
コンピュータと、
前記一般テキストサマリを提示する手段と、
前記文書の分析およびサマリ作成を行うための、前記コンピュータ上で動作可能なサマライザプログラムコードとを有し、
前記サマライザプログラムコードは、
前記文書に対して重み付き文書ターム頻度ベクトルを生成するとともに、前記文書中の各センテンスに対して重み付きセンテンスターム頻度ベクトルを生成する第1手段と、
前記重み付き文書ターム頻度ベクトルとの適合性に従って、それぞれの前記重み付きセンテンスターム頻度ベクトルに対するスコアを計算する第2手段と、
前記スコアリングエンジンからの出力結果に従って、前記一般テキストサマリに含めるためのセンテンスを選択する第3手段と、
前記選択されたセンテンスを前記文書から削除し前記センテンス中のタームを前記文書から消去する第4手段と、
を有し、前記第1手段は、前記選択されたセンテンスおよび前記タームを前記文書から削除および消去した前記第4手段からの出力結果に従って、前記重み付き文書ターム頻度ベクトルを再生成することを特徴とする、文書の一般テキストサマリを作成するシステム。 - 前記サマライザプログラムコードは、前記第1手段、前記第2手段、前記第3手段、および前記第4手段の反復順次動作を生成するループルーチンをさらに有することを特徴とする請求項8記載のシステム。
- 前記ループルーチンは、前記一般テキストサマリが所定数のセンテンスからなるように所定の限界に応答することを特徴とする請求項9記載のシステム。
- 文書の一般テキストサマリを作成する方法において、
a)前記文書を第1メモリに格納するステップと、
b)前記第1メモリに格納された文書を個々のセンテンスに分解するステップと、
c)前記個々のセンテンスから候補センテンスセットを形成して第2メモリに格納するステップと、
d)前記第2メモリに格納された候補センテンスセット中の前記個々のセンテンスのそれぞれに対して、重み付きセンテンスターム頻度ベクトルを生成して第3メモリに格納するステップと、
e)前記第1メモリに格納された文書に対して、重み付き文書ターム頻度ベクトルを生成して第4メモリに格納するステップと、
f)前記第2メモリに格納された候補センテンスセット中の前記個々のセンテンスのそれぞれに対して、前記重み付き文書ターム頻度ベクトルに関する、前記重み付きセンテンスターム頻度ベクトルの適合性スコアを計算するステップと、
g)前記適合性スコアに従って、前記一般テキストサマリに含めるためのセンテンスを選択して第5メモリに格納するステップと、
h)前記選択されたセンテンスを前記第2メモリに格納された候補センテンスセットから削除するステップと、
i)前記選択されたセンテンス中のタームを前記第1メモリに格納された文書から消去するステップと、
j)前記削除ステップh)および前記消去ステップi)が終了した後、前記第1メモリに格納された文書を用いて前記ステップe)を実行し重み付き文書ターム頻度ベクトルを再生成して前記第4メモリに格納するステップと、
を有することを特徴とする、文書の一般テキストサマリを作成する方法。 - k)前記第1メモリに格納された文書、前記第2メモリに格納された候補センテンスセット、前記第3メモリに格納された重み付きセンテンスターム頻度ベクトル、前記第4メモリに格納された重み付き文書ターム頻度ベクトルを用いながら、前記計算ステップf)、前記選択ステップg)、前記削除ステップh)、前記消去ステップi)、および前記再生成ステップj)を選択的に反復するステップ
をさらに有することを特徴とする請求項11記載の方法。 - 前記選択的反復ステップk)は、所定数のセンテンスが選択されたときに終了することを特徴とする請求項12記載の方法。
- 前記計算ステップf)は、前記重み付きセンテンスターム頻度ベクトルと、前記重み付き文書ターム頻度ベクトルとの内積を計算することを含むことを特徴とする請求項11記載の方法。
- 前記重み付きセンテンスターム頻度ベクトルを生成するステップは、局所重み付け関数を実行すること、および、大域重み付け関数を実行することを含むことを特徴とする請求項11記載の方法。
- 前記重み付きセンテンスターム頻度ベクトルを生成するステップd)は、それぞれの前記重み付きセンテンスターム頻度ベクトルを正規化することを含むことを特徴とする請求項15記載の方法。
- 前記重み付き文書ターム頻度ベクトルを生成するステップe)は、局所重み付け関数を実行すること、および、大域重み付け関数を実行することを含むことを特徴とする請求項11記載の方法。
- 前記重み付き文書ターム頻度ベクトルを生成するステップe)は、前記重み付き文書ターム頻度ベクトルを正規化することを含むことを特徴とする請求項17記載の方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US25453500P | 2000-12-12 | 2000-12-12 | |
US09/817,591 US7607083B2 (en) | 2000-12-12 | 2001-03-26 | Test summarization using relevance measures and latent semantic analysis |
US60/254535 | 2001-03-26 | ||
US09/817591 | 2001-03-26 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005080882A Division JP2005251211A (ja) | 2000-12-12 | 2005-03-22 | 文書の一般テキストサマリを作成する方法およびシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002197096A JP2002197096A (ja) | 2002-07-12 |
JP3726742B2 true JP3726742B2 (ja) | 2005-12-14 |
Family
ID=26944106
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001356813A Expired - Lifetime JP3726742B2 (ja) | 2000-12-12 | 2001-11-22 | 文書の一般テキストサマリを作成する方法およびシステム |
JP2005080882A Pending JP2005251211A (ja) | 2000-12-12 | 2005-03-22 | 文書の一般テキストサマリを作成する方法およびシステム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005080882A Pending JP2005251211A (ja) | 2000-12-12 | 2005-03-22 | 文書の一般テキストサマリを作成する方法およびシステム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7607083B2 (ja) |
JP (2) | JP3726742B2 (ja) |
Families Citing this family (164)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7536561B2 (en) * | 1999-10-15 | 2009-05-19 | Ebrary, Inc. | Method and apparatus for improved information transactions |
US8311946B1 (en) | 1999-10-15 | 2012-11-13 | Ebrary | Method and apparatus for improved information transactions |
US20020078096A1 (en) * | 2000-12-15 | 2002-06-20 | Milton John R. | System and method for pruning an article |
JP3916124B2 (ja) * | 2001-02-15 | 2007-05-16 | インターナショナル・ビジネス・マシーンズ・コーポレーション | デジタル文書閲覧システム、ブラウザ、デジタル文書表示方法、プログラム及び記憶媒体 |
US6978275B2 (en) * | 2001-08-31 | 2005-12-20 | Hewlett-Packard Development Company, L.P. | Method and system for mining a document containing dirty text |
KR100849272B1 (ko) * | 2001-11-23 | 2008-07-29 | 주식회사 엘지이아이 | 마크업 문서 자동 요약 방법 |
US6904564B1 (en) * | 2002-01-14 | 2005-06-07 | The United States Of America As Represented By The National Security Agency | Method of summarizing text using just the text |
NZ518744A (en) * | 2002-05-03 | 2004-08-27 | Hyperbolex Ltd | Electronic document indexing using word use nodes, node objects and link objects |
WO2004025490A1 (en) * | 2002-09-16 | 2004-03-25 | The Trustees Of Columbia University In The City Of New York | System and method for document collection, grouping and summarization |
US9280603B2 (en) * | 2002-09-17 | 2016-03-08 | Yahoo! Inc. | Generating descriptions of matching resources based on the kind, quality, and relevance of available sources of information about the matching resources |
US7406458B1 (en) * | 2002-09-17 | 2008-07-29 | Yahoo! Inc. | Generating descriptions of matching resources based on the kind, quality, and relevance of available sources of information about the matching resources |
US7117437B2 (en) * | 2002-12-16 | 2006-10-03 | Palo Alto Research Center Incorporated | Systems and methods for displaying interactive topic-based text summaries |
US7451395B2 (en) * | 2002-12-16 | 2008-11-11 | Palo Alto Research Center Incorporated | Systems and methods for interactive topic-based text summarization |
US7376893B2 (en) * | 2002-12-16 | 2008-05-20 | Palo Alto Research Center Incorporated | Systems and methods for sentence based interactive topic-based text summarization |
US20040133574A1 (en) * | 2003-01-07 | 2004-07-08 | Science Applications International Corporaton | Vector space method for secure information sharing |
JP2004280661A (ja) * | 2003-03-18 | 2004-10-07 | Fujitsu Ltd | 検索方法及びプログラム |
US7610313B2 (en) * | 2003-07-25 | 2009-10-27 | Attenex Corporation | System and method for performing efficient document scoring and clustering |
US7346494B2 (en) * | 2003-10-31 | 2008-03-18 | International Business Machines Corporation | Document summarization based on topicality and specificity |
US20050131931A1 (en) * | 2003-12-11 | 2005-06-16 | Sanyo Electric Co., Ltd. | Abstract generation method and program product |
US7191175B2 (en) | 2004-02-13 | 2007-03-13 | Attenex Corporation | System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space |
US7158966B2 (en) * | 2004-03-09 | 2007-01-02 | Microsoft Corporation | User intent discovery |
GB0407389D0 (en) * | 2004-03-31 | 2004-05-05 | British Telecomm | Information retrieval |
US8868670B2 (en) * | 2004-04-27 | 2014-10-21 | Avaya Inc. | Method and apparatus for summarizing one or more text messages using indicative summaries |
US7392474B2 (en) * | 2004-04-30 | 2008-06-24 | Microsoft Corporation | Method and system for classifying display pages using summaries |
US7664751B2 (en) | 2004-09-30 | 2010-02-16 | Google Inc. | Variable user interface based on document access privileges |
US7603355B2 (en) * | 2004-10-01 | 2009-10-13 | Google Inc. | Variably controlling access to content |
US7840564B2 (en) | 2005-02-16 | 2010-11-23 | Ebrary | System and method for automatic anthology creation using document aspects |
US8312034B2 (en) | 2005-06-24 | 2012-11-13 | Purediscovery Corporation | Concept bridge and method of operating the same |
US7433869B2 (en) * | 2005-07-01 | 2008-10-07 | Ebrary, Inc. | Method and apparatus for document clustering and document sketching |
US7747618B2 (en) * | 2005-09-08 | 2010-06-29 | Microsoft Corporation | Augmenting user, query, and document triplets using singular value decomposition |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7831474B2 (en) * | 2005-10-28 | 2010-11-09 | Yahoo! Inc. | System and method for associating an unvalued search term with a valued search term |
US7689548B2 (en) * | 2006-09-22 | 2010-03-30 | Microsoft Corporation | Recommending keywords based on bidding patterns |
JP5011947B2 (ja) * | 2006-10-19 | 2012-08-29 | オムロン株式会社 | Fmeaシートの作成方法およびfmeaシート自動作成装置 |
US7783640B2 (en) * | 2006-11-03 | 2010-08-24 | Oracle International Corp. | Document summarization |
US8280877B2 (en) * | 2007-02-22 | 2012-10-02 | Microsoft Corporation | Diverse topic phrase extraction |
US20080270119A1 (en) * | 2007-04-30 | 2008-10-30 | Microsoft Corporation | Generating sentence variations for automatic summarization |
JP4342575B2 (ja) * | 2007-06-25 | 2009-10-14 | 株式会社東芝 | キーワード提示のための装置、方法、及びプログラム |
KR101391599B1 (ko) * | 2007-09-05 | 2014-05-09 | 삼성전자주식회사 | 컨텐트에서의 등장 인물간의 관계에 대한 정보 생성 방법및 그 장치 |
US20100287162A1 (en) * | 2008-03-28 | 2010-11-11 | Sanika Shirwadkar | method and system for text summarization and summary based query answering |
US8359531B2 (en) * | 2008-06-27 | 2013-01-22 | International Business Machines Corporation | Method and apparatus for highlighting diverse aspects in a document |
US8984398B2 (en) * | 2008-08-28 | 2015-03-17 | Yahoo! Inc. | Generation of search result abstracts |
US20100114890A1 (en) * | 2008-10-31 | 2010-05-06 | Purediscovery Corporation | System and Method for Discovering Latent Relationships in Data |
US7958109B2 (en) | 2009-02-06 | 2011-06-07 | Yahoo! Inc. | Intent driven search result rich abstracts |
US8515957B2 (en) | 2009-07-28 | 2013-08-20 | Fti Consulting, Inc. | System and method for displaying relationships between electronically stored information to provide classification suggestions via injection |
US8245135B2 (en) * | 2009-09-08 | 2012-08-14 | International Business Machines Corporation | Producing a visual summarization of text documents |
JP5388038B2 (ja) * | 2009-12-28 | 2014-01-15 | 独立行政法人情報通信研究機構 | 文書要約装置、文書処理装置、及びプログラム |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
WO2021161104A1 (en) | 2020-02-12 | 2021-08-19 | Monday.Com | Enhanced display features in collaborative network systems, methods, and devices |
WO2021144656A1 (en) | 2020-01-15 | 2021-07-22 | Monday.Com | Digital processing systems and methods for graphical dynamic table gauges in collaborative work systems |
WO2021099839A1 (en) | 2019-11-18 | 2021-05-27 | Roy Mann | Collaborative networking systems, methods, and devices |
US11410129B2 (en) | 2010-05-01 | 2022-08-09 | Monday.com Ltd. | Digital processing systems and methods for two-way syncing with third party applications in collaborative work systems |
US8554542B2 (en) * | 2010-05-05 | 2013-10-08 | Xerox Corporation | Textual entailment method for linking text of an abstract to text in the main body of a document |
US9449080B1 (en) * | 2010-05-18 | 2016-09-20 | Guangsheng Zhang | System, methods, and user interface for information searching, tagging, organization, and display |
US20110313756A1 (en) * | 2010-06-21 | 2011-12-22 | Connor Robert A | Text sizer (TM) |
US8594998B2 (en) * | 2010-07-30 | 2013-11-26 | Ben-Gurion University Of The Negev Research And Development Authority | Multilingual sentence extractor |
US8548989B2 (en) * | 2010-07-30 | 2013-10-01 | International Business Machines Corporation | Querying documents using search terms |
US8577718B2 (en) | 2010-11-04 | 2013-11-05 | Dw Associates, Llc | Methods and systems for identifying, quantifying, analyzing, and optimizing the level of engagement of components within a defined ecosystem or context |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US8996359B2 (en) | 2011-05-18 | 2015-03-31 | Dw Associates, Llc | Taxonomy and application of language analysis and processing |
US8952796B1 (en) | 2011-06-28 | 2015-02-10 | Dw Associates, Llc | Enactive perception device |
US9442928B2 (en) | 2011-09-07 | 2016-09-13 | Venio Inc. | System, method and computer program product for automatic topic identification using a hypertext corpus |
US9442930B2 (en) | 2011-09-07 | 2016-09-13 | Venio Inc. | System, method and computer program product for automatic topic identification using a hypertext corpus |
WO2013043160A1 (en) * | 2011-09-20 | 2013-03-28 | Hewlett-Packard Development Company, L.P. | Text summarization |
CN103874994B (zh) * | 2011-10-14 | 2017-09-08 | 雅虎控股公司 | 用于自动概括电子文档的内容的方法和装置 |
US9269353B1 (en) | 2011-12-07 | 2016-02-23 | Manu Rehani | Methods and systems for measuring semantics in communications |
US9020807B2 (en) | 2012-01-18 | 2015-04-28 | Dw Associates, Llc | Format for displaying text analytics results |
WO2013142852A1 (en) * | 2012-03-23 | 2013-09-26 | Sententia, LLC | Method and systems for text enhancement |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US10169456B2 (en) * | 2012-08-14 | 2019-01-01 | International Business Machines Corporation | Automatic determination of question in text and determination of candidate responses using data mining |
EP2870543A4 (en) * | 2012-10-12 | 2016-04-06 | Hewlett Packard Development Co | COMBINATORY SUMMARY |
US9390149B2 (en) | 2013-01-16 | 2016-07-12 | International Business Machines Corporation | Converting text content to a set of graphical icons |
KR20150104615A (ko) | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9674132B1 (en) * | 2013-03-25 | 2017-06-06 | Guangsheng Zhang | System, methods, and user interface for effectively managing message communications |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US9238163B2 (en) | 2013-07-10 | 2016-01-19 | Wilson Sporting Goods Co. | Ball bat including a fiber composite component having high angle discontinuous fibers |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
CN103885935B (zh) * | 2014-03-12 | 2016-06-29 | 浙江大学 | 基于图书阅读行为的图书章节摘要生成方法 |
US10380120B2 (en) | 2014-03-18 | 2019-08-13 | International Business Machines Corporation | Automatic discovery and presentation of topic summaries related to a selection of text |
US10318552B2 (en) | 2014-05-15 | 2019-06-11 | International Business Machines Corporation | Probability mapping model for location of natural resources |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10303745B2 (en) * | 2014-06-16 | 2019-05-28 | Hewlett-Packard Development Company, L.P. | Pagination point identification |
US9916375B2 (en) | 2014-08-15 | 2018-03-13 | International Business Machines Corporation | Extraction of concept-based summaries from documents |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9767193B2 (en) * | 2015-03-27 | 2017-09-19 | Fujitsu Limited | Generation apparatus and method |
US10387550B2 (en) | 2015-04-24 | 2019-08-20 | Hewlett-Packard Development Company, L.P. | Text restructuring |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10049085B2 (en) * | 2015-08-31 | 2018-08-14 | Qualtrics, Llc | Presenting views of an electronic document |
US20170116180A1 (en) * | 2015-10-23 | 2017-04-27 | J. Edward Varallo | Document analysis system |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
WO2017184204A1 (en) * | 2016-04-19 | 2017-10-26 | Sri International | Techniques for user-centric document summarization |
US11068546B2 (en) | 2016-06-02 | 2021-07-20 | Nuix North America Inc. | Computer-implemented system and method for analyzing clusters of coded documents |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US20180032608A1 (en) * | 2016-07-27 | 2018-02-01 | Linkedin Corporation | Flexible summarization of textual content |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10521503B2 (en) | 2016-09-23 | 2019-12-31 | Qualtrics, Llc | Authenticating a respondent to an electronic survey |
RU2635213C1 (ru) * | 2016-09-26 | 2017-11-09 | Самсунг Электроникс Ко., Лтд. | Способ суммаризации текста и используемые для его реализации устройство и машиночитаемый носитель информации |
US10706735B2 (en) | 2016-10-31 | 2020-07-07 | Qualtrics, Llc | Guiding creation of an electronic survey |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
US10311144B2 (en) * | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
CN108280112B (zh) * | 2017-06-22 | 2021-05-28 | 腾讯科技(深圳)有限公司 | 摘要生成方法、装置及计算机设备 |
US10127323B1 (en) * | 2017-07-26 | 2018-11-13 | International Business Machines Corporation | Extractive query-focused multi-document summarization |
US10762284B2 (en) | 2017-08-21 | 2020-09-01 | International Business Machines Corporation | Automated summarization of digital content for delivery to mobile devices |
US10516525B2 (en) | 2017-08-24 | 2019-12-24 | International Business Machines Corporation | System and method for detecting anomalies in examinations |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US11436359B2 (en) | 2018-07-04 | 2022-09-06 | Monday.com Ltd. | System and method for managing permissions of users for a single data type column-oriented data structure |
US11698890B2 (en) | 2018-07-04 | 2023-07-11 | Monday.com Ltd. | System and method for generating a column-oriented data structure repository for columns of single data types |
CN109299257B (zh) * | 2018-09-18 | 2020-09-15 | 杭州科以才成科技有限公司 | 一种基于lstm和知识图谱的英文期刊推荐方法 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
JP6621514B1 (ja) * | 2018-10-26 | 2019-12-18 | 楽天株式会社 | 要約作成装置、要約作成方法、及びプログラム |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN109992775B (zh) * | 2019-03-25 | 2021-01-12 | 浙江大学 | 一种基于高级语义的文本摘要生成方法 |
US10936796B2 (en) * | 2019-05-01 | 2021-03-02 | International Business Machines Corporation | Enhanced text summarizer |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US20210150481A1 (en) | 2019-11-18 | 2021-05-20 | Monday.Com | Digital processing systems and methods for mechanisms for sharing responsibility in collaborative work systems |
CN111339287B (zh) * | 2020-02-24 | 2023-04-21 | 成都网安科技发展有限公司 | 摘要生成方法及装置 |
US20240184989A1 (en) | 2020-05-01 | 2024-06-06 | Monday.com Ltd. | Digital processing systems and methods for virtualfile-based electronic white board in collaborative work systems systems |
EP4143732A1 (en) | 2020-05-01 | 2023-03-08 | Monday.com Ltd. | Digital processing systems and methods for enhanced collaborative workflow and networking systems, methods, and devices |
US11277361B2 (en) | 2020-05-03 | 2022-03-15 | Monday.com Ltd. | Digital processing systems and methods for variable hang-time for social layer messages in collaborative work systems |
US11449668B2 (en) | 2021-01-14 | 2022-09-20 | Monday.com Ltd. | Digital processing systems and methods for embedding a functioning application in a word processing document in collaborative work systems |
CN113591468B (zh) * | 2021-06-15 | 2024-02-13 | 天津师范大学 | 国际组织科技文本词汇链自动构建与主题发现方法 |
US11741071B1 (en) | 2022-12-28 | 2023-08-29 | Monday.com Ltd. | Digital processing systems and methods for navigating and viewing displayed content |
US11886683B1 (en) | 2022-12-30 | 2024-01-30 | Monday.com Ltd | Digital processing systems and methods for presenting board graphics |
US11893381B1 (en) | 2023-02-21 | 2024-02-06 | Monday.com Ltd | Digital processing systems and methods for reducing file bundle sizes |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2944346B2 (ja) * | 1993-01-20 | 1999-09-06 | シャープ株式会社 | 文書要約装置 |
US6029195A (en) * | 1994-11-29 | 2000-02-22 | Herz; Frederick S. M. | System for customized electronic identification of desirable objects |
JPH09319768A (ja) * | 1996-05-29 | 1997-12-12 | Oki Electric Ind Co Ltd | 要点抽出方法 |
US6505150B2 (en) * | 1997-07-02 | 2003-01-07 | Xerox Corporation | Article and method of automatically filtering information retrieval results using test genre |
US6356864B1 (en) * | 1997-07-25 | 2002-03-12 | University Technology Corporation | Methods for analysis and evaluation of the semantic content of a writing based on vector length |
JP3470021B2 (ja) * | 1997-09-29 | 2003-11-25 | シャープ株式会社 | 文書要約装置及びコンピュータ読み取り可能な記録媒体 |
US6353824B1 (en) * | 1997-11-18 | 2002-03-05 | Apple Computer, Inc. | Method for dynamic presentation of the contents topically rich capsule overviews corresponding to the plurality of documents, resolving co-referentiality in document segments |
JP3614648B2 (ja) * | 1998-03-13 | 2005-01-26 | 富士通株式会社 | 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体 |
WO2000046701A1 (en) * | 1999-02-08 | 2000-08-10 | Huntsman Ici Chemicals Llc | Method for retrieving semantically distant analogies |
US6611825B1 (en) * | 1999-06-09 | 2003-08-26 | The Boeing Company | Method and system for text mining using multidimensional subspaces |
JP2001014341A (ja) | 1999-07-02 | 2001-01-19 | Ricoh Co Ltd | データベース作成装置および関連文書/関連語検索装置、データベース作成方法および関連文書/関連語検索方法ならびに記憶媒体 |
US20020078090A1 (en) * | 2000-06-30 | 2002-06-20 | Hwang Chung Hee | Ontological concept-based, user-centric text summarization |
-
2001
- 2001-03-26 US US09/817,591 patent/US7607083B2/en not_active Expired - Lifetime
- 2001-11-22 JP JP2001356813A patent/JP3726742B2/ja not_active Expired - Lifetime
-
2005
- 2005-03-22 JP JP2005080882A patent/JP2005251211A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US7607083B2 (en) | 2009-10-20 |
JP2005251211A (ja) | 2005-09-15 |
JP2002197096A (ja) | 2002-07-12 |
US20020138528A1 (en) | 2002-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3726742B2 (ja) | 文書の一般テキストサマリを作成する方法およびシステム | |
JP3719415B2 (ja) | 情報検索方法、情報検索システム、およびプログラム | |
EP0996899B1 (en) | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision | |
US5907840A (en) | Overlapping subdocuments in a vector space search process | |
US6678694B1 (en) | Indexed, extensible, interactive document retrieval system | |
US6282538B1 (en) | Method and apparatus for generating query responses in a computer-based document retrieval system | |
US6523030B1 (en) | Sort system for merging database entries | |
US20040249808A1 (en) | Query expansion using query logs | |
US20090171951A1 (en) | Process for identifying weighted contextural relationships between unrelated documents | |
Rani et al. | Comparative assessment of extractive summarization: textrank tf-idf and lda | |
JPWO2003012679A1 (ja) | データ処理方法、データ処理システムおよびプログラム | |
US6505198B2 (en) | Sort system for text retrieval | |
CN109508460A (zh) | 基于主题聚类的无监督作文跑题检测方法及系统 | |
Taylor | On the subject of subjects | |
Yang et al. | Ontology-supported FAQ processing and ranking techniques | |
Li et al. | Complex query recognition based on dynamic learning mechanism | |
US6473755B2 (en) | Overlapping subdocuments in a vector space search process | |
Madaan et al. | Indexing of semantic web for efficient question answering system | |
Sheng et al. | A knowledge-based approach to effective document retrieval | |
Alfarra et al. | Graph-based Growing self-organizing map for Single Document Summarization (GGSDS) | |
Zhang et al. | Summarizing web sites automatically | |
Verberne et al. | Author-topic profiles for academic search | |
Wen et al. | Clustering web search results using semantic information | |
Adafre et al. | Fact discovery in Wikipedia | |
Al-kubaisi | Query reformulation using WordNet and genetic algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050322 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050722 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050801 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050906 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050919 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3726742 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091007 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091007 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101007 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111007 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121007 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131007 Year of fee payment: 8 |
|
EXPY | Cancellation because of completion of term |