JP2020035272A - 要約生成装置および要約生成方法 - Google Patents

要約生成装置および要約生成方法 Download PDF

Info

Publication number
JP2020035272A
JP2020035272A JP2018162525A JP2018162525A JP2020035272A JP 2020035272 A JP2020035272 A JP 2020035272A JP 2018162525 A JP2018162525 A JP 2018162525A JP 2018162525 A JP2018162525 A JP 2018162525A JP 2020035272 A JP2020035272 A JP 2020035272A
Authority
JP
Japan
Prior art keywords
sentence
document
word
unnecessary
distributed expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018162525A
Other languages
English (en)
Other versions
JP7288293B2 (ja
Inventor
新司 飯塚
Shinji Iizuka
新司 飯塚
秀彰 宮内
Hideaki Miyauchi
秀彰 宮内
毅 ▲高▼橋
毅 ▲高▼橋
Takeshi Takahashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions East Japan Ltd
Original Assignee
Hitachi Solutions East Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions East Japan Ltd filed Critical Hitachi Solutions East Japan Ltd
Priority to JP2018162525A priority Critical patent/JP7288293B2/ja
Publication of JP2020035272A publication Critical patent/JP2020035272A/ja
Application granted granted Critical
Publication of JP7288293B2 publication Critical patent/JP7288293B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】従来の技術と比較して要約の抽出精度を高める装置及び方法を提供する。【解決手段】要約生成装置は、不要文判定教師データ情報記憶部と、要約対象の文書である要約対象文書を取得する、要約対象文書取得部と、要約対象文書に含まれる文に対して、単語分散表現情報記憶部に記憶されている単語分散表現情報に基づいて前記文の文分散表現を算出し、不要文判定教師データ情報記憶部に登録されている不要文判定教師データ情報の文ラベルと文分散表現とに基づき、前記文の文分散表現から、自動分類手法により前記文が不要文であるかどうかを判定し、要約対象文書から、不要文であると判定された文を除去することで、不要文除去済みの文書を生成する、不要文除去処理部と、不要文除去済みの文書から、抽出的要約手法により文を抽出して要約とすることで、要約対象文書の要約を生成する、要約生成部と、を有する。【選択図】図1

Description

本発明は、要約生成技術に関する。
例えば、コールセンターの顧客対応業務等では、音声認識システムによりテキスト化された通話内容の音声認識テキストを、応対の品質向上のためのデータ分析、オペレータによる通話記録のシステム登録、などに活用している。
しかし、通話の音声認識テキストには、言い淀みや主要な内容とは関係のない発言等が多く含まれているため、通話の音声認識テキストを人が読んで内容を把握するには手間がかかる。
そのため、音声認識テキストを人が読みやすい文章に要約する、要約生成技術に対するニーズが増大している。
コールセンターのヘルプサービスにおける顧客との会話は、あいさつ、困り事の質問、質問への回答、などの順番で行われる。コールセンターの通話の要約では、顧客との会話のうち、質問に関する発言と、回答に関する発言と、の両方の話題が要約に含まれることが望ましい。
下記特許文献1では、単語を数値ベクトル化する分散表現の技術(技術内容については非特許文献1参照)を用いて、文や文書の類似度を算出し、類似度に基づいて要約に含める文を抽出する、抽出的要約技術が述べられている。
特開2016−207141号公報
T. Mikolov、I. Sutskever、K. Chen、G. S. Corrado、J. Dean、"Distributed representations of words and phrases and their compositionality"Advances in neural information processing systems、pp. 3111-3119 (2013).
しかし、特許文献1の技術では、取得部から取得した文書のみから要約を抽出するため、例えば、「お世話になります」などのように、他の通話と共通する定型的な表現もそのまま抽出され、期待される要約の抽出結果と比較すると、要約の抽出精度が低くなる場合がある(第1の課題)。
また、特許文献1の技術では、通話内容の時間的な変化を考慮していないため、質問に関する発言は抽出されず、回答に関する発言のみ抽出されるなど、通話内の複数の話題を考慮した要約を生成できない場合がある(第2の課題)。
本発明は、上記の課題を解決し、要約の抽出精度を高めることを目的とする。
本発明においては、例えば、以下の1)〜4)までの手順により、分散表現を用いた自動分類手法による不要文除去処理と、抽出的要約処理とを実行する。
1)形態素解析
2)フィラーなどの不要語除去
3)分散表現を用いた自動分類手法による不要文除去(第1の課題を解決する手段により解決する。)
4)抽出的要約
この際、要約対象の文書から、出現順に一定数の文をウィンドウで切り出して、ウィンドウ内の文書を従来の分散表現を用いた抽出的要約技術で要約し、ウィンドウを一文ずつスライドさせていくことで文書全体の要約を生成する手法(以下、「スライディングウィンドウ法」と称する。)を適用すると良い(とりわけ、第2の課題を解決するための手段により解決する)。
スライディングウィンドウ法の適用においては、ウィンドウに含める文の数の最大値であるウィンドウサイズを、ウィンドウ内の話題が1つに限定できる程度に小さくし、ウィンドウ内の文書の要約を行う。これにより、ウィンドウ内の文書から抽出される要約結果はその話題に関するものとなる。
これをウィンドウの位置を一文ずつずらしながら行い、各ウィンドウから抽出される要約結果を、重複する文を除いて合併することで、文書全体の要約を生成する。これにより、文書全体の要約に各話題に関する要約結果が含まれるようにすることができる。
本発明の一観点によれば、一つ以上の文を含む文書から、文を抽出して前記文書の要約を生成する要約生成装置であって、単語と、前記単語を多次元の実数値ベクトルで表した単語分散表現と、が登録されている、単語分散表現情報記憶部と、文と、前記文が要か不要かの情報が記載された文ラベルと、単語分散表現情報に基づいて算出された前記文の分散表現である文分散表現と、が登録されている、不要文判定教師データ情報記憶部と、要約対象の文書である要約対象文書を取得する、要約対象文書取得部と、前記要約対象文書に含まれる文に対して、前記単語分散表現情報記憶部に記憶されている単語分散表現情報に基づいて前記文の文分散表現を算出し、前記不要文判定教師データ情報記憶部に登録されている不要文判定教師データ情報の前記文ラベルと前記文分散表現とに基づき、前記文の文分散表現から、自動分類手法により前記文が不要文であるかどうかを判定し、前記要約対象文書から、不要文であると判定された文を除去することで、不要文除去済みの文書を生成する、不要文除去処理部と、前記不要文除去済みの文書から、抽出的要約手法により文を抽出して要約とすることで、前記要約対象文書の要約を生成する、要約生成部と、を有することを特徴とする要約生成装置が提供される。
前記不要文除去処理部において、前記自動分類手法は、前記不要文判定教師データ情報記憶部に登録されている文分散表現のうち、文ラベルが不要である文分散表現と、前記文の文分散表現と、のコサイン類似度を算出し、前記コサイン類似度のうち、少なくとも一つの値が事前に登録されている閾値より大きければ、前記文が不要文であると判定することが好ましい。
あるいは、前記不要文除去処理部において、前記自動分類手法は、前記不要文判定教師データ情報記憶部に登録されている文ラベルと文分散表現を教師データとした、k−近傍法、ニューラルネットワーク、サポートベクターマシンを含む、教師あり機械学習による自動分類手法のうち、いずれか一つの手法であることが好ましい。
前記抽出的要約手法は、前記抽出的要約手法に入力された文書である入力文書に対して、前記単語分散表現情報に基づいて、前記入力文書に含まれる文の文分散表現を算出し、前記文分散表現に基づき算出された、前記入力文書に含まれる文の重要度に基づき、前記入力文書の要約に含める文を抽出することが好ましい。
具体的には、前記抽出的要約手法は、前記入力文書に含まれる単語に対して、前記入力文書における前記単語の出現頻度に基づき算出される実数値である、文書中における前記単語の出現頻度を表す出現頻度の指標を算出し、前記入力文書に含まれる文に対して、形態素解析部を用いて前記文を形態素解析して単語へ分かち書きし、前記単語のうち、不要語除去処理部により不要と判定された単語である不要語を、前記文から除去し、前記不要語を除去した前記文に含まれる単語に対して、前記単語分散表現情報を参照して、前記単語の単語分散表現を取得し、前記単語分散表現に、前記単語の出現頻度の指標を乗算することで、重み付き単語分散表現を算出し、前記重み付き単語分散表現を合成することで、前記文分散表現を算出し、前記文分散表現を合成して、前記入力文書の文書分散表現を算出し、前記文分散表現と前記文書分散表現とのコサイン類似度として算出された重要度に基づき、前記入力文書の要約に含める文を抽出することが好ましい。
前記単語の出現頻度の指標は、入力文書中の単語に対して、入力文書における単語の出現頻度に基づき算出される実数値であって、出現頻度が大きいほど値が小さくなる、正の実数値であることを要件とする指標であるようにすると良い。
このような指標を分散表現に乗算することで、出現頻度の高い単語の重みを低くすることができる。
また、単語と、非負の実数値である単語の重みと、が登録されている、単語重み付け情報をさらに備え、前記抽出的要約手法は、前記不要語を除去した前記文に含まれる単語に対して、前記単語重み付け情報を参照して、前記単語の重みを取得し、前記単語分散表現に、前記単語の重みと、前記単語の出現頻度の指標と、を乗算することで、重み付き単語分散表現を算出することが好ましい。
前記抽出的要約手法において、前記不要語除去処理部は、前記形態素解析部による単語の品詞判定の結果が、フィラーである単語、感動詞である単語、のいずれか一方または両方を不要と判定することが好ましい。
前記抽出的要約手法は、前記抽出的要約手法に入力された文書である入力文書に対して、前記入力文書において連続して出現する一部または全部の文からなる文書である、前記入力文書のウィンドウを一つ以上生成し、前記生成されたウィンドウは、前記入力文書に含まれるいずれの文も、少なくとも一つの前記ウィンドウに含まれる、という条件を満たし、前記生成されたウィンドウごとに、上記に記載の抽出的要約手法により文を抽出して要約とすることで、前記ウィンドウの要約を生成し、前記ウィンドウの要約を合併し、重複する文を除去することで、前記入力文書の要約を生成することが好ましい。
また、入力装置から、前記ウィンドウに含める文の数の最大値である、ウィンドウサイズを設定する、要約パラメータ設定部をさらに備え、前記抽出的要約手法において、前記生成されたウィンドウは、前記生成されたウィンドウに含まれる文の数が、いずれも前記ウィンドウサイズ以下であり、かつ、前記入力文書に含まれる文である第1の文と、前記入力文書において前記第1の文の次に出現する第2の文に対して、前記第1の文が少なくとも一つの前記ウィンドウにおいて出現順に最後の文であるならば、前記第2の文も少なくとも一つの前記ウィンドウにおいて出現順に最後の文である、という条件をさらに満たすことが好ましい。
また、入力装置から、要約に含める文の目標抽出件数と、要約処理の継続条件と、要約処理の終了条件と、を設定する、要約パラメータ設定部をさらに備え、前記抽出的要約手法は、前記抽出的要約手法に入力された文書である入力文書に対して、出力文書を、前記入力文書を代入することにより、初期化し、前記出力文書に対して、上記に記載の抽出的要約手法を適用することで、前記出力文書の要約を生成し、前記出力文書を、前記生成した前記出力文書の要約を代入することにより、更新する、更新処理を実行し、前記要約処理の継続条件が満たされているか、または、前記要約処理の終了条件が満たされておらず、かつ、前記出力文書に含まれる文の数が前記目標抽出件数より大きい場合は、前記更新処理を繰り返し、上記以外の場合は、前記出力文書を前記入力文書の要約として出力することを特徴とする。
本発明の他の観点によれば、一つ以上の文を含む文書から、コンピュータ処理により文を抽出して前記文書の要約を生成する要約生成方法であって、要約対象の文書である要約対象文書を取得する、要約対象文書取得ステップと、コンピュータが、a)前記要約対象文書に含まれる文に対して、単語と、前記単語を多次元の実数値ベクトルで表した単語分散表現単語分散表現情報に基づいて前記文の文分散表現を算出し、b)文と、前記文が要か不要かの情報が記載された文ラベルと、前記単語分散表現情報に基づいて算出された前記文の分散表現である文分散表現と、が登録されている、不要文判定教師データ情報に含まれる文ラベルと文分散表現から、自動分類手法により前記文が不要文であるかどうかを判定し、c)前記要約対象文書から、不要文であると判定された文を除去することで、不要文除去済みの文書を生成する、不要文除去処理ステップと、d)前記不要文除去済みの文書から、抽出的要約手法により文を抽出して要約とすることで、前記要約対象文書の要約を生成する、要約生成ステップと、を実行することを特徴とする要約生成方法が提供される。
本発明によれば、他の通話と共通する定型的な表現を、不要文判定により事前に除去できるため、従来の技術と比較して要約の抽出精度を高めることができる。
また、スライディングウィンドウ法を適用することで、文書中の各話題の重要文がいずれかのウィンドウの要約結果に含まれるため、それらを合併して全体の要約とすることで、複数の話題を考慮した要約を生成できる。
図1は、本発明の一実施の形態による要約生成装置の一構成例を示す機能ブロック図である。 図2は、本実施の形態による要約生成装置による全体処理例を示すフローチャート図である。 単語分散表現学習部の処理例を示すフローチャート図である。 不要文判定教師データ生成部の処理例を示すフローチャート図である。 不要文除去処理部の処理例を示すフローチャート図である。 要約生成部においてスライディングウィンドウ法を適用した処理例を示すフローチャート図である。 図6のステップS6−8の処理例を示すフローチャート図である。 スライディングウィンドウ法におけるウィンドウの一例を示す図である。 単語辞書テーブルの一構成例を示す図である。 単語重み付けテーブルの一構成例を示す図である。 分散表現学習コーパステーブルの一構成例を示す図である。 単語分散表現テーブルの一構成例を示す図である。 不要文判定教師データテーブルの一構成例を示す図である。 要約対象文書テーブルの一構成例を示す図である。 前処理結果テーブルの一構成例を示す図である。 要約結果テーブルの一構成例を示す図である。
以下においては、コールセンター等のヘルプサービスを提供している事業者向けの要約生成技術を例にして説明するが、本発明は、その他の種々の業務を含む要約生成技術に適用可能である。
本明細書において、スライディングウィンドウ法とは、要約対象の文書から、出現順に一定数の文をウィンドウで切り出して、ウィンドウ内の文書を従来の分散表現を用いた抽出的要約技術で要約し、ウィンドウを一文ずつスライドさせていくことで文書全体の要約を生成する方法をいう。
また、本明細書において、図1および図9から図16までにおいて示されている各種情報は、テーブルの形式により例示的に示している。これらの各種情報は、例えば、図1の補助記憶装置の各データ情報を記憶する記憶部(或いは記憶領域)に記憶されるのが一般的である。また、本明細書において、単語の分散表現とは、例えば、非特許文献1の技術であるword2vecなどにより学習された単語のベクトル空間への埋め込みのことである。また、以下では、その埋め込みによって単語と対応付けられたベクトル自体も、単語の分散表現として参照する。自然言語処理に機械学習を適用しやすくするために、おおよそ数百次元のベクトルで単語を表現することを意図するものである。
以下に、本発明の一実施の形態による要約生成技術について図面を参照しながら詳細に説明する。
図1は、本実施の形態による要約生成装置の一構成例を示す機能ブロック図である。図1に示すように、本実施の形態による要約生成装置Aは、補助記憶装置(各記憶部)1と、主記憶装置2と、入力装置3と、出力装置4と、中央演算装置(CPU)5と、を有している。尚、図1では、全ての構成要素が1つの装置内に設けられている構成例を示しているが、例えば、補助記憶装置が別の装置内に遠隔で設けられているなど、種々の形態が含まれることは言うまでもない。
補助記憶装置(各記憶部)1には、単語辞書テーブル1−1、単語重み付けテーブル1−2、分散表現学習コーパステーブル1−3、単語分散表現テーブル(情報)1−4、不要文判定教師データテーブル(情報)1−5、要約対象文書テーブル(情報)1−6、前処理結果テーブル1−7、要約結果テーブル1−8が設けられている。
また、主記憶装置2には、形態素解析部2−1、不要語除去処理部2−2、単語分散表現学習部2−3、不要文判定教師データ生成部2−4、不要文除去処理部2−5、要約対象文書取得部2−6、要約生成部2−7としてCPUを機能させるための例えばプログラム等が格納され、プログラムによりCPUにそれぞれの機能部として機能するように構成されている。
入力装置3は、音声を取得するマイクロフォンやマウス、キーボードなどが含まれ、出力装置4は要約を出力するディスプレイやスピーカなどが含まれる。
上記各処理部2−1〜2−7による処理の流れの一例を示すフローチャート図としては、以下の図面を参照する。図2は、本実施の形態による要約生成装置Aによる全体処理例を示すフローチャート図である。図3は、単語分散表現学習部2−3の処理例を示すフローチャート図である。図4は、不要文判定教師データ生成部2−4の処理例を示すフローチャート図である。図5は、不要文除去処理部2−5の処理例を示すフローチャート図である。図6は、要約生成部2−7においてスライディングウィンドウ法を適用した処理例を示すフローチャート図である。図7は、図6のステップS6−8の処理例を示すフローチャート図である。
また、図8は、ウィンドウの一例を示す図である。
さらに、図9から図16までは、補助記憶装置1に各種情報等が格納されている各テーブルの一構成例を示す図である。図9は、単語辞書テーブル1−1の一構成例を示す図である。単語辞書テーブル1−1は、形態素解析部2−1により、形態素解析における品詞判定を行うために参照される辞書である。図9に示すように、単語毎に、品詞が記載されており、特に、不要語である可能性が高いフィラーであるか否かを明記している。図10は、単語重み付けテーブル1−2の一構成例を示す図である。すなわち、単語毎に単語の重みが付与されている。0、0.5などは重みが小さい例、10.0などは単語の重みが大きい例である。
図11は、分散表現学習コーパステーブル1−3の一構成例を示す図である。図12は、単語分散表現テーブル1−4の一構成例を示す図である。図13は、不要文判定教師データテーブル1−5の一構成例を示す図である。図13に示すように、不要文判定教師データテーブルには、教師データID毎に、教師データ文と、要不要の文ラベルと、ベクトル値1〜200(例示)が示されている。図14は、要約対象文書テーブル1−6の一構成例を示す図である。図15は、前処理結果テーブル1−7の一構成例を示す図である。図15に示すように、前処理結果テーブルには、文書ID毎に、それに含まれる文の文ID、その単語分かち書き、不要文判定結果が格納されている。図16は、要約結果テーブル1−8の一構成例を示す図である。
以下、フローチャート図に沿って、本実施の形態による処理の詳細について説明する。
図2に示すように、要約生成処理の全体処理の概要においては、処理が開始されると(STRAT)、ステップS1において、単語分散表現を学習させる。この処理については、下記の図3において詳細に説明する。次いで、ステップS2において、不要文判定教師データを生成する。この処理については、下記の図4において詳細に説明する。次いで、ステップS3において、すべての要約対象文書に対して処理が完了したか否かを判定する。ステップS3でYesの場合には、処理を終了する(END)。ステップS3でNoの場合には、ステップS4に進み、要約対象文書取得部2−6が要約対象文書テーブル1−6(図14)から、文書IDに基づき、処理が未完了の要約対象文書Dを1件取得する。尚、文書とは、文の列である。本実施の形態では、文書とは、要約対象文書テーブル1−6に登録されている同一の文書IDを持つ文の全部または一部を、文IDの昇順に並べた列とする。次いで、ステップS5において、要約対象文書Dの不要文を除去する。ステップS5の処理については、図5により詳細に説明する。ステップS6において、要約対象文書Dの要約Sを生成する。ステップS6の処理については、図6および図7により詳細に説明する。次いで、ステップS7において、要約Sを要約結果テーブル1−8に格納し、ステップS3に戻り、最終的に全ての処理が完了すると処理が終了する(END)。
以上の処理により、図16に例示されるように、要約結果テーブル1−8に要約結果が格納される。要約結果テーブル1−8は、文書IDと、文IDと、文ID毎の文の内容とを含む。
図3は、図2の単語分散表現の学習処理(ステップS1)の詳細な処理例を示す図である。図3に示すように、ステップS1においては、ステップS1−1に示すように、形態素解析部2−1を用いて、分散表現学習コーパステーブル1−3の各文を形態素解析して単語へ分かち書きする。分散表現学習コーパステーブル1−3は、図11に示すように、自然言語処理に用いるため、自然言語の文章を集積したコーパスのコーパスIDと、文IDと、文の内容とを含む。
次いで、ステップS1−2において、例えば非特許文献1の技術であるword2vecなどの既存の分散表現の学習手法を用いて、単語の分散表現の参照用のデータとするために、形態素解析部2−1が単語へ分かち書きした全ての文を入力として、単語の分散表現を学習する。
次いで、ステップS1−3において、学習した分散表現を参照するために、上記において学習した単語の分散表現を単語分散表現テーブル1−4に格納する。そして、単語分散表現の学習処理(ステップS1)を終了する(RETURN)。単語分散表現テーブル1−4は、図12に示すように、単語と、その単語の分散表現である例えば200次元のベクトルの、ベクトル値とを有する。ベクトル値は、プラスとマイナスとを含む実数値である。ここで近い意味の単語は、ベクトル値も近くなるようになっている。
図4は、図2の不要文判定教師データの生成処理(ステップS2)の詳細な処理例を示す図である。まず、ステップS2−1において、不要文判定教師データテーブル1−5の全ての行の処理が完了したか否かを判定する。Yesの場合には、終了する(RETURN)。
Noの場合には、ステップS2−2において、不要文判定教師データテーブル1−5から、処理が未完了の教師データの文sを1件取得する。不要文判定教師データテーブル1−5は、図13に示すように、教師データID毎に教師データ文(一文)と、要不要の文ラベルと、が格納されている。そして、処理が進むに従って、ベクトル値が格納されていく。
ステップS2−3において、形態素解析部2−1を用いて、文sを形態素解析して単語へ分かち書きする。ステップS2−4において、形態素解析の品詞情報を参照して不要語除去処理部2−2を用いて文sから不要語を除去する。一例として、不要語除去処理部2−2は、形態素解析部2−1による単語の品詞判定の結果が、フィラーである単語、感動詞である単語、のいずれか一方または両方を不要と判定する。形態素解析部2−1による単語の品詞判定では、図9に示す単語辞書テーブル1−1に登録されている品詞の情報が用いられる。
ステップS2−5において、単語分散表現テーブル1−4に登録されている単語wの単語分散表現xを参照して、文sの文分散表現x=Σw∈siを算出する。ここで、単語分散表現xは、単語分散表現テーブル1−4に登録されているベクトル値1〜200(例示)を成分とするベクトルのことである。また記号「w∈s」は、単語wが文sに出現することを表し、上記のΣは、文sに出現する単語wについての単語分散表現xの和を表す。次いで、ステップS2−6において、文分散表現xを不要文判定教師データテーブル1−5に登録し、ステップS2−1に戻る。
図5は、図2のステップS5の詳細な流れの一例を示すフローチャート図であり、不要文除去の処理の流れの一例を示す図である。ステップS4で取得した、処理が未完了の要約対象文書Dを入力として、ステップS5の不要文除去処理を行う。
まず、ステップS5−1において、要約対象文書Dの全ての文の処理を完了したか否かを判定する。Noの場合には、処理を継続し、ステップS5−2において、要約対象文書Dから処理が未完了の文sを1件取得する。次いで、ステップS5−3において、形態素解析部2−1を用いて、文sを形態素解析して単語へ分かち書きする。次いで、ステップS5−4において、不要語除去処理部2−2を用いて文sから不要語を除去する。
次に、ステップS5−5において、不要語除去後の文sを前処理結果テーブル1−7の単語分かち書きに登録する。次いで、ステップS5−6において、単語分散表現テーブル1−4に登録されている単語wの単語分散表現xを参照して、文sの文分散表現x=Σw∈siを算出する。
尚、図5のステップS5−3〜ステップS5−6までの処理は、大きな流れは、上記の図4のステップS2−3〜ステップS2−5の処理と同様である。
次いで、ステップS5−7において、不要文判定教師データテーブル1−5に登録されている、文ベクトルと、ベクトル値1〜200(例示)を成分とするベクトルである文分散表現との組を教師データ、上記の文分散表現xを入力として、自動分類手法により文sが不要文かどうかを判定する。
自動分類手法による不要文の判定には、以下の手法を用いることが好ましい。
(a) コサイン類似度による類似文検索
不要文判定教師データテーブル1−5に登録されている文分散表現のうち、文ラベルが不要である文分散表現と、文の文分散表現xと、のコサイン類似度を算出し、このコサイン類似度のうち、少なくとも一つの値が事前に登録されている閾値より大きければ、文sが不要文であると判定する。
(b) 教師あり機械学習による不要文の判定
不要文判定教師データテーブル1−5に登録されている文ラベルと文分散表現を教師データとした、k−近傍法、ニューラルネットワーク、サポートベクターマシンを含む、教師あり機械学習による自動分類手法のうち、いずれか一つの手法により、文sが不要文かどうかを判定する。
次に、ステップS5−8において、不要文の判定結果を前処理結果テーブル1−7に登録する。ステップS5−8から、ステップS5−1に戻り、ステップS5−1でYesになるまで処理を継続する。ステップS5−1において、Yesの場合には、ステップS5−9において、前処理結果テーブル1−7を参照し、不要と判定された文を要約対象文書Dから除去する。そして、不要文除去の処理(ステップS5)を終了する(RETURN)。
以上の不要文除去処理は、不要文判定教師データテーブル1−5に登録されている不要文判定教師データ情報の文ラベルと上記の文分散表現とに基づき、文の文分散表現から、自動分類手法により前記文が不要文であるかどうかを自動分類手法により判定し、不要と判定された文を要約対象文書から除去する処理である。この処理により、要約対象文書から、不要文であると判定された文を除去し、不要文除去済みの文書を生成することができる。
図6は、図2のステップS6の処理の詳細な流れの一例を示すフローチャート図であり、抽出的要約手法により要約対象文書Dの要約Sを生成する処理の流れの一例を示す図である。ここでは、上記のスライディングウィンドウ法を再帰的に適用することで、要約対象文書の要約を生成する(以下、「再帰的スライディングウィンドウ法」と称する)。
まず、ステップS6−1において、不要文除去済みの入力文書Dに含まれる各単語wに対して、単語wのIDFの値idfを算出する。ここで、単語wのIDFの値idfは、文書Dにおける単語wの出現頻度を表す出現頻度の指標であり、文書Dに含まれる文の数|D|と、文書Dに含まれ、かつ単語wを含む文の数|{s∈D:w∈s}|を用いて、idf=log(|D|/|{s∈D:w∈s}|)により算出される。単語wのIDFは、文書Dにおける単語wの出現頻度が大きいほど値が小さくなる、正の実数値である。次いで、ステップS6−2において、出力文書Sを入力文書Dで、整数r(再帰回数)を0で、それぞれ初期化する。次いで、ステップS6−3において、出力文書Sの文数Nを算出する。次いで、S6−4において、r<Rminまたは(r<RmaxかつN>M)であるか否かを判定する。
ここで、最小適用回数Rminは、少なくともその回数だけはスライディングウィンドウ法を再帰的に適用することを示すパラメータである。最大適用回数Rmaxは、スライディングウィンドウ法の再帰的な適用回数がその数を越えないことを意味する。それぞれ要約処理の継続条件と、要約処理の終了条件を表す。また、Mは要約Sに含める文の目標抽出件数である。例えば、入力装置3(マウス、キーボード等)から、要約Sに含める文の目標抽出件数Mと、要約処理の継続条件である最小適用回数Rminと、要約処理の終了条件である最大適用回数Rmaxと、を設定する、要約パラメータ設定部をさらに備えていても良い。
続くステップS6−5からS6−10の処理は、出力文書Sに対して、1回スライディングウィンドウ法を適用する処理である。
S6−5において、出力文書Sの文を出現順にs、s、…、sとする。次いで、S6−6において、集合Sを空集合で、整数kを(1−T)で、それぞれ初期化する。整数kは、ウィンドウ位置を表す。また、Tはウィンドウ位置のオフセットであり非負の整数である。Tは再帰回数rごとに異なる値であってよい。
次いで、ステップS6−7において、k≦N−L+1であるか否かを判定する。Yesの場合には、ステップS6−8において、ウィンドウW={s:k≦i<k+L}の要約Sを集合Sに追加する。ここでLはウィンドウサイズであり、ウィンドウWに含める文の数の最大値を表す正の整数である。Lは再帰回数rごとに異なる値であってよい。例えば、入力装置3(マウス、キーボード等)からウィンドウサイズLを設定する、要約パラメータ設定部をさらに備えていても良い。ステップS6−8の処理の詳細は後述する。そして、ステップS6−9に進み、k←k+1とし、ステップS6−7に戻る。ステップS6−7でNoの場合には、ステップS6−10に進み、出力文書SをSで、rをr+1で、それぞれ更新する。すなわち、出力文書Sに1回スライディングウィンドウ法を適用し、出力文書Sの要約Sを算出し、出力文書Sを要約Sにより更新する。次いで、ステップS6−3に戻る。ステップS6−3において、Noの場合には、ステップS6−11において、要約Sを出力する。そして、要約対象文書Dの要約Sを生成する処理(ステップS6)を終了する(RETURN)。
上記のスライディングウィンドウ法の処理において、生成されたウィンドウは、生成されたウィンドウに含まれる文の数が、いずれもウィンドウサイズ以下であり、かつ、入力文書に含まれる文である第1の文と、入力文書において前記第1の文の次に出現する第2の文に対して、第1の文が少なくとも一つのウィンドウ(例えばウィンドウW)において出現順に最後の文であるならば、第2の文も少なくとも一つのウィンドウ(例えばウィンドウWk+1)において出現順に最後の文である、という条件をさらに満たす。
また、上記の再帰的スライディングウィンドウ法の処理は、入力文書に対して、出力文書を、入力文書を代入することにより、初期化し、出力文書に対して、スライディングウィンドウ法を適用することで、出力文書の要約を生成し、出力文書を、生成した出力文書の要約を代入することにより、更新する、更新処理を実行する。
そして、要約処理の継続条件が満たされているか、または、要約処理の終了条件が満たされておらず、かつ、出力文書に含まれる文の数が目標抽出件数より大きい場合は、更新処理を繰り返し、上記以外の場合は、出力文書を入力文書の要約として出力する。
図7は、図6のステップS6−8の詳細な処理の流れの一例を示す図である。ステップS6−8においては、まず、ステップS6−8−1で、ウィンドウWに含まれる文s∈Wに対し、前処理結果テーブル1−7を参照し、文sの単語への分かち書きを取得する。ステップS6−8−2において、文sの単語w∈sに対し、単語分散表現テーブル1−4に登録されている単語wの単語分散表現xを取得する。ステップS6−8−3において、文s∈Wに対し、ステップS6−1で算出した単語wのIDFの値idfと、単語重み付けテーブル1−2に登録されている単語wの重みρを重みとして、文sの文分散表現x=Σw∈si ρ idfを算出する。この処理は単語の重み付けを行う処理である。
上記の処理は、抽出的要約手法は、不要語を除去した文に含まれる単語に対して、単語重み付けテーブル1−2を参照して、単語の重みを取得し、単語分散表現に、前記単語の重みと、単語の出現頻度の指標IDFと、を乗算することで、重み付き単語分散表現を算出する処理である。
次いで、ステップS6−8−4において、ウィンドウWに含まれる全ての文s∈Wに対して処理が完了したか否かを判定する。ここで、Noであれば、ステップS6−8−1に戻る。Yesであれば、ステップS6−8−5に進み、ウィンドウWの分散表現xWkを算出する。ウィンドウWの分散表現は、ウィンドウWに含まれる文sの文分散表現xの総和であり、xWk=Σsi∈Wkにより算出する。次いで、ステップS6−8−6において、各文s∈Wに対し、文sの重要度vを、ウィンドウWの分散表現xWkと、文sの文分散表現xとのコサイン類似度、すなわちv=(xWk・x)/(||xWk|| ||x||)により算出する。次いで、ステップS6−8−7において、文sの重要度vで上位m件をWから抽出し、ウィンドウWの要約Sとする。ここで、mはウィンドウの要約に含める文の数を表す整数であり、1以上ウィンドウサイズL以下の整数である。mは再帰回数rごとに異なる値であってよい。さらに、ステップS6−8−8において、SにSを合併し、Sから重複する文を除去する。そして、ステップS6−8を終了する(RETURN)。
このようにスライディングウィンドウ法を用いると、通話内の各話題の重要文が、いずれかのウィンドウの要約に含まれるため、それらを合併して文書全体の要約とすることで、複数の話題を考慮した要約を生成することができる。また、再帰的スライディングウィンドウ法を用いることで、要約に含める文の目標抽出件数を指定することができるので、要約結果を所望の要約率に調整することができる。
尚、図2のステップS6における抽出的要約手法として、図7の再帰的スライディングウィンドウ法を用いるか否かは必要に応じて適宜決めることができる。
図8は、ウィンドウの例を示す図である。ここで、ウィンドウサイズは、L=4、ウィンドウ位置のオフセットT=2、出力文書Sの文数をNとする。ウィンドウWの添え字kは、ウィンドウ位置を表す。
上から順番に説明する。
1)ウィンドウW−1では、複数の文sを有する出力文書Sのうち、ウィンドウW−1内には、2つの文s、sのみが入っている。
2)ウィンドウWでは、複数の文sを有する出力文書Sのうち、ウィンドウW内には、3つの文s、s、sのみが入っている。
3)ウィンドウWでは、複数の文sを有する出力文書Sのうち、ウィンドウW内には、4つの文s、s、s、sが入っている。
4)ウィンドウWでは、複数の文sを有する出力文書Sのうち、ウィンドウW内には、4つの文s、s、s、sが入っている。
N−4)ウィンドウWN−4では、複数の文sを有する出力文書Sのうち、ウィンドウWN−4内には、4つの文sN−4、sN−3、sN−2、sN−1が入っている。
N−3)ウィンドウWN−3では、複数の文sを有する出力文書Sのうち、ウィンドウWN−3内には、4つの文sN−3、sN−2、sN−1、sが入っている。
ここで、処理の出だしの1)、2)においては、出力文書Sの先頭の文であるsも要約に含まれやすくするために、ウィンドウ位置を−1や0のような、0以下の値となるようにしている。ウィンドウ位置のオフセットTに、例えば2のような正の値を指定することで、上記の例のようにウィンドウ位置を0以下の値に変更することが可能である。
以上に説明したように、本実施の形態によれば、定型的な表現を不要文として不要文判定教師データテーブルに登録しておくことで、他の通話と共通する定型的な表現を要約処理の前に除去できるので、従来の技術と比較して要約の抽出精度を高めることができる。
また、本実施の形態による抽出的要約手法(スライディングウィンドウ法)では、通話内の各話題の重要文が、いずれかのウィンドウの要約に含まれるため、それらを合併して文書全体の要約とすることで、複数の話題を考慮した要約を生成できる。
また、再帰的スライディングウィンドウ法を用いると、要約において、所望の要約率に調整することができる。
上記の処理および制御は、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)によるソフトウェア処理、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)によるハードウェア処理によって実現することができる。
また、上記の実施の形態において、図示されている構成等については、これらに限定されるものではなく、本発明の効果を発揮する範囲内で適宜変更することが可能である。その他、本発明の目的の範囲を逸脱しない限りにおいて適宜変更して実施することが可能である。
また、本発明の各構成要素は、任意に取捨選択することができ、取捨選択した構成を具備する発明も本発明に含まれるものである。
また、本実施の形態で説明した機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。尚、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また前記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。機能の少なくとも一部は、集積回路などのハードウェアで実現しても良い。
本発明は、要約生成装置に利用可能である。
A…要約生成装置
1…補助記憶装置(各記憶部)
1−1…単語辞書テーブル
1−2…単語重み付けテーブル
1−3…分散表現学習コーパステーブル
1−4…単語分散表現テーブル(情報)
1−5…不要文判定教師データテーブル(情報)
1−6…要約対象文書テーブル(情報)
1−7…前処理結果テーブル
1−8…要約結果テーブル
2…主記憶装置
2−1…形態素解析部
2−2…不要語除去処理部
2−3…単語分散表現学習部
2−4…不要文判定教師データ生成部
2−5…不要文除去処理部
2−6…要約対象文書取得部
2−7…要約生成部
3…入力装置
4…出力装置
5…中央演算装置(CPU)

Claims (12)

  1. 一つ以上の文を含む文書から、文を抽出して前記文書の要約を生成する要約生成装置であって、
    単語と、前記単語を多次元の実数値ベクトルで表した単語分散表現と、が登録されている、単語分散表現情報記憶部と、
    文と、前記文が要か不要かの情報が記載された文ラベルと、単語分散表現情報に基づいて算出された前記文の分散表現である文分散表現と、が登録されている、不要文判定教師データ情報記憶部と、
    要約対象の文書である要約対象文書を取得する、要約対象文書取得部と、
    前記要約対象文書に含まれる文に対して、
    前記単語分散表現情報記憶部に記憶されている前記単語分散表現情報に基づいて前記文の文分散表現を算出し、
    前記不要文判定教師データ情報記憶部に登録されている不要文判定教師データ情報の前記文ラベルと前記文分散表現とに基づき、前記文の文分散表現から、自動分類手法により前記文が不要文であるかどうかを判定し、
    前記要約対象文書から、不要文であると判定された文を除去することで、不要文除去済みの文書を生成する、不要文除去処理部と、
    前記不要文除去済みの文書から、
    抽出的要約手法により文を抽出して要約とすることで、前記要約対象文書の要約を生成する、要約生成部と
    を有することを特徴とする要約生成装置。
  2. 前記不要文除去処理部において、
    前記自動分類手法は、
    前記不要文判定教師データ情報記憶部に登録されている文分散表現のうち、文ラベルが不要である文分散表現と、前記文の文分散表現と、のコサイン類似度を算出し、
    前記コサイン類似度のうち、少なくとも一つの値が事前に登録されている閾値より大きければ、前記文が不要文であると判定すること
    を特徴とする請求項1に記載の要約生成装置。
  3. 前記不要文除去処理部において、
    前記自動分類手法は、前記不要文判定教師データ情報記憶部に登録されている文ラベルと文分散表現を教師データとした、k−近傍法、ニューラルネットワーク、サポートベクターマシンを含む、教師あり機械学習による自動分類手法のうち、いずれか一つの手法であること
    を特徴とする請求項1に記載の要約生成装置。
  4. 前記抽出的要約手法は、
    前記抽出的要約手法に入力された文書である入力文書に対して、
    前記単語分散表現情報に基づいて、前記入力文書に含まれる文の文分散表現を算出し、
    前記文分散表現に基づき算出された、前記入力文書に含まれる文の重要度に基づき、前記入力文書の要約に含める文を抽出すること
    を特徴とする請求項1に記載の要約生成装置。
  5. 前記抽出的要約手法は、
    前記入力文書に含まれる単語に対して、前記入力文書における前記単語の出現頻度に基づき算出される実数値である、文書中における前記単語の出現頻度を表す出現頻度の指標を算出し、
    前記入力文書に含まれる文に対して、
    形態素解析部を用いて前記文を形態素解析して単語へ分かち書きし、
    前記単語のうち、不要語除去処理部により不要と判定された単語である不要語を、前記文から除去し、
    前記不要語を除去した前記文に含まれる単語に対して、
    前記単語分散表現情報を参照して、前記単語の単語分散表現を取得し、
    前記単語分散表現に、前記単語の出現頻度の指標を乗算することで、重み付き単語分散表現を算出し、
    前記重み付き単語分散表現を合成することで、前記文分散表現を算出し、
    前記文分散表現を合成して、前記入力文書の文書分散表現を算出し、
    前記文分散表現と前記文書分散表現とのコサイン類似度として算出された重要度に基づき、前記入力文書の要約に含める文を抽出すること
    を特徴とする請求項4に記載の要約生成装置。
  6. 前記単語の出現頻度の指標は、
    入力文書中の単語に対して、入力文書における単語の出現頻度に基づき算出される実数値であって、出現頻度が大きいほど値が小さくなる、正の実数値であることを要件とする指標である
    請求項5に記載の要約生成装置。
  7. 単語と、非負の実数値である単語の重みと、が登録されている、単語重み付け情報をさらに備え、
    前記抽出的要約手法は、
    前記不要語を除去した前記文に含まれる単語に対して、
    前記単語重み付け情報を参照して、前記単語の重みを取得し、前記単語分散表現に、前記単語の重みと、前記単語の出現頻度の指標と、を乗算することで、重み付き単語分散表現を算出すること
    を特徴とする請求項5又は6に記載の要約生成装置。
  8. 前記抽出的要約手法において、
    前記不要語除去処理部は、前記形態素解析部による単語の品詞判定の結果が、フィラーである単語、感動詞である単語、のいずれか一方または両方を不要と判定すること
    を特徴とする請求項5から7までのいずれか1項に記載の要約生成装置。
  9. 前記抽出的要約手法は、
    前記抽出的要約手法に入力された文書である入力文書に対して、
    前記入力文書において連続して出現する一部または全部の文からなる文書である、前記入力文書のウィンドウを一つ以上生成し、
    前記生成されたウィンドウは、前記入力文書に含まれるいずれの文も、少なくとも一つの前記ウィンドウに含まれる、という条件を満たし、
    前記生成されたウィンドウごとに、前記抽出的要約手法により文を抽出して要約とすることで、前記ウィンドウの要約を生成し、
    前記ウィンドウの要約を合併し、重複する文を除去することで、前記入力文書の要約を生成すること
    を特徴とする請求項4から8までのいずれか1項に記載の要約生成装置。
  10. 入力装置から、前記ウィンドウに含める文の数の最大値である、ウィンドウサイズを設定する、要約パラメータ設定部をさらに備え、
    前記抽出的要約手法において、前記生成されたウィンドウは、
    前記生成されたウィンドウに含まれる文の数が、いずれも前記ウィンドウサイズ以下であり、かつ
    前記入力文書に含まれる文である第1の文と、前記入力文書において前記第1の文の次に出現する第2の文に対して、前記第1の文が少なくとも一つの前記ウィンドウにおいて出現順に最後の文であるならば、前記第2の文も少なくとも一つの前記ウィンドウにおいて出現順に最後の文である、
    という条件をさらに満たすこと
    を特徴とする請求項9に記載の要約生成装置。
  11. 入力装置から、要約に含める文の目標抽出件数と、要約処理の継続条件と、要約処理の終了条件と、を設定する、要約パラメータ設定部をさらに備え、
    前記抽出的要約手法は、
    前記抽出的要約手法に入力された文書である入力文書に対して、
    出力文書を、前記入力文書を代入することにより、初期化し、
    前記出力文書に対して、
    前記抽出的要約手法を適用することで、前記出力文書の要約を生成し、
    前記出力文書を、前記生成した前記出力文書の要約を代入することにより、更新する、
    更新処理を実行し、
    前記要約処理の継続条件が満たされているか、または
    前記要約処理の終了条件が満たされておらず、かつ
    前記出力文書に含まれる文の数が前記目標抽出件数より大きい
    場合は、前記更新処理を繰り返し、
    上記以外の場合は、前記出力文書を前記入力文書の要約として出力すること
    を特徴とする請求項9または10に記載の要約生成装置。
  12. 一つ以上の文を含む文書から、コンピュータ処理により文を抽出して前記文書の要約を生成する要約生成方法であって、
    要約対象の文書である要約対象文書を取得する、要約対象文書取得ステップと、
    コンピュータが、
    a)前記要約対象文書に含まれる文に対して、単語と、前記単語を多次元の実数値ベクトルで表した単語分散表現と、が登録されている、単語分散表現情報に基づいて前記文の文分散表現を算出し、
    b)文と、前記文が要か不要かの情報が記載された文ラベルと、前記単語分散表現情報に基づいて算出された前記文の分散表現である文分散表現と、が登録されている、不要文判定教師データ情報に含まれる文ラベルと文分散表現から、自動分類手法により前記文が不要文であるかどうかを判定し、
    c)前記要約対象文書から、不要文であると判定された文を除去することで、不要文除去済みの文書を生成する、不要文除去処理ステップと、
    d)前記不要文除去済みの文書から、抽出的要約手法により文を抽出して要約とすることで、前記要約対象文書の要約を生成する、要約生成ステップと、
    を実行することを特徴とする要約生成方法。
JP2018162525A 2018-08-31 2018-08-31 要約生成装置および要約生成方法 Active JP7288293B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018162525A JP7288293B2 (ja) 2018-08-31 2018-08-31 要約生成装置および要約生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018162525A JP7288293B2 (ja) 2018-08-31 2018-08-31 要約生成装置および要約生成方法

Publications (2)

Publication Number Publication Date
JP2020035272A true JP2020035272A (ja) 2020-03-05
JP7288293B2 JP7288293B2 (ja) 2023-06-07

Family

ID=69668215

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018162525A Active JP7288293B2 (ja) 2018-08-31 2018-08-31 要約生成装置および要約生成方法

Country Status (1)

Country Link
JP (1) JP7288293B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7285308B1 (ja) 2021-12-21 2023-06-01 株式会社エクサウィザーズ 情報処理装置、情報処理方法、及びプログラム
WO2023119675A1 (ja) * 2021-12-24 2023-06-29 日本電信電話株式会社 推定方法、推定装置及び推定プログラム
JP2023113541A (ja) * 2022-02-03 2023-08-16 ネイバー コーポレーション 長い文書の要約のためのモデルグローバル化

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272686A (ja) * 1998-03-19 1999-10-08 Nippon Telegr & Teleph Corp <Ntt> 文書重要文抽出方法、文書重要文抽出装置及び文書重要文抽出プログラムを記録した記録媒体
JP2002297635A (ja) * 2001-03-30 2002-10-11 Seiko Epson Corp 要約文作成システム及びその方法
JP2004348523A (ja) * 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 文書フィルタリングシステムとプログラム
JP2006126886A (ja) * 2004-10-26 2006-05-18 Advanced Telecommunication Research Institute International 文短縮用知識の学習装置、文短縮装置、機械翻訳装置および文短縮のためのコンピュータプログラム
JP2008242612A (ja) * 2007-03-26 2008-10-09 Kyushu Institute Of Technology 文書要約装置、その方法及びプログラム
JP2011087005A (ja) * 2009-10-13 2011-04-28 Neikusu:Kk 通話音声要約生成システム、その方法及び通話音声要約生成プログラム
JP2013120547A (ja) * 2011-12-08 2013-06-17 Nomura Research Institute Ltd 談話要約テンプレート作成システムおよび談話要約テンプレート作成プログラム
JP2013167985A (ja) * 2012-02-15 2013-08-29 Nomura Research Institute Ltd 談話要約生成システムおよび談話要約生成プログラム
JP2016207141A (ja) * 2015-04-28 2016-12-08 ヤフー株式会社 要約生成装置、要約生成方法、及び要約生成プログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272686A (ja) * 1998-03-19 1999-10-08 Nippon Telegr & Teleph Corp <Ntt> 文書重要文抽出方法、文書重要文抽出装置及び文書重要文抽出プログラムを記録した記録媒体
JP2002297635A (ja) * 2001-03-30 2002-10-11 Seiko Epson Corp 要約文作成システム及びその方法
JP2004348523A (ja) * 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 文書フィルタリングシステムとプログラム
JP2006126886A (ja) * 2004-10-26 2006-05-18 Advanced Telecommunication Research Institute International 文短縮用知識の学習装置、文短縮装置、機械翻訳装置および文短縮のためのコンピュータプログラム
JP2008242612A (ja) * 2007-03-26 2008-10-09 Kyushu Institute Of Technology 文書要約装置、その方法及びプログラム
JP2011087005A (ja) * 2009-10-13 2011-04-28 Neikusu:Kk 通話音声要約生成システム、その方法及び通話音声要約生成プログラム
JP2013120547A (ja) * 2011-12-08 2013-06-17 Nomura Research Institute Ltd 談話要約テンプレート作成システムおよび談話要約テンプレート作成プログラム
JP2013167985A (ja) * 2012-02-15 2013-08-29 Nomura Research Institute Ltd 談話要約生成システムおよび談話要約生成プログラム
JP2016207141A (ja) * 2015-04-28 2016-12-08 ヤフー株式会社 要約生成装置、要約生成方法、及び要約生成プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7285308B1 (ja) 2021-12-21 2023-06-01 株式会社エクサウィザーズ 情報処理装置、情報処理方法、及びプログラム
JP2023092278A (ja) * 2021-12-21 2023-07-03 株式会社エクサウィザーズ 情報処理装置、情報処理方法、及びプログラム
WO2023119675A1 (ja) * 2021-12-24 2023-06-29 日本電信電話株式会社 推定方法、推定装置及び推定プログラム
JP2023113541A (ja) * 2022-02-03 2023-08-16 ネイバー コーポレーション 長い文書の要約のためのモデルグローバル化
JP7473583B2 (ja) 2022-02-03 2024-04-23 ネイバー コーポレーション 長い文書の要約のためのモデルグローバル化

Also Published As

Publication number Publication date
JP7288293B2 (ja) 2023-06-07

Similar Documents

Publication Publication Date Title
CN107451126B (zh) 一种近义词筛选方法及系统
JP5744228B2 (ja) インターネットにおける有害情報の遮断方法と装置
CN110457672B (zh) 关键词确定方法、装置、电子设备及存储介质
CN109918627B (zh) 文本生成方法、装置、电子设备及存储介质
US11055338B2 (en) Dynamic facet tree generation
CN110297893B (zh) 自然语言问答方法、装置、计算机装置及存储介质
CN109241286B (zh) 用于生成文本的方法和装置
JP7335300B2 (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
JP2020035272A (ja) 要約生成装置および要約生成方法
JPWO2019150583A1 (ja) 質問群抽出方法、質問群抽出装置および質問群抽出プログラム
CN116483979A (zh) 基于人工智能的对话模型训练方法、装置、设备及介质
CN117112754A (zh) 信息处理方法、装置、电子设备及存储介质
CN115600605A (zh) 一种中文实体关系联合抽取方法、系统、设备及存储介质
KR20190123093A (ko) 감정 온톨로지에 기반을 둔 이모티콘 추천 장치 및 방법
CN114138969A (zh) 文本处理方法及装置
EP4336379A1 (en) Tracking concepts within content in content management systems and adaptive learning systems
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN112836019A (zh) 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质
JP6586055B2 (ja) 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム
Agrawal et al. Comparative analysis of NLP models for Google Meet Transcript summarization
JP7135730B2 (ja) 要約生成方法及び要約生成プログラム
CN113268573A (zh) 一种学术人才信息的抽取方法
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム
JP2010170303A (ja) 機械翻訳装置及びプログラム
JP3611913B2 (ja) 類似検索方法および装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210607

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230526

R150 Certificate of patent or registration of utility model

Ref document number: 7288293

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150