JP6180340B2 - 対話文生成装置、対話文生成方法およびプログラム - Google Patents

対話文生成装置、対話文生成方法およびプログラム Download PDF

Info

Publication number
JP6180340B2
JP6180340B2 JP2014027966A JP2014027966A JP6180340B2 JP 6180340 B2 JP6180340 B2 JP 6180340B2 JP 2014027966 A JP2014027966 A JP 2014027966A JP 2014027966 A JP2014027966 A JP 2014027966A JP 6180340 B2 JP6180340 B2 JP 6180340B2
Authority
JP
Japan
Prior art keywords
sentence
word
pattern
laplacian
dialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014027966A
Other languages
English (en)
Other versions
JP2015153261A (ja
Inventor
慶 内海
慶 内海
塚原 裕史
裕史 塚原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso IT Laboratory Inc
Original Assignee
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso IT Laboratory Inc filed Critical Denso IT Laboratory Inc
Priority to JP2014027966A priority Critical patent/JP6180340B2/ja
Publication of JP2015153261A publication Critical patent/JP2015153261A/ja
Application granted granted Critical
Publication of JP6180340B2 publication Critical patent/JP6180340B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、対話処理における対話文生成に関する。
対話文生成とは、人間の行った発話に対して、自然な対話となるよう機械が自動的に応答文を生成することであり、Siri等をはじめとする音声対話システムで用いられている。従来、対話文の生成には人間の手による文のテンプレートが用いられてきた(特許文献1、2)。
特開2010−72578号公報 特開2004−110524号公報
しかし、人間がテンプレートを生成するコストは高く、そのために機械が生成できる文の型には限りがある。そこで、大量の対話のログを用いて自動的に文のテンプレートを獲得し、対話文を生成する技術が望まれる。
そこで、本発明は、人手による文テンプレートの問題を解決し、大規模な対話ログから文テンプレートを獲得するとともに、テンプレートのスロットを埋める単語集合についても自動で獲得する手法を提案する。
本発明の対話文生成装置は、対話ログコーパスより抽出した対話文に基づいて生成した単語と文パターンとの間の関連度から計算したグラフラプラシアンと、対話ログコーパスの文パターン間の遷移行列とを記憶した記憶部と、文の入力を受け付ける文入力部と、入力文から固有表現を抽出する固有表現抽出部と、抽出した固有表現に基づいて入力文の文パターンを判定するパターン判定部と、前記記憶部に記憶された遷移行列を読み出し、前記遷移行列を用いて入力文の文パターンに対応する応答文のパターンシードを抽出するパターンシード抽出部と、前記固有表現抽出部にて抽出された固有表現から特徴語を抽出する特徴語抽出部と、前記記憶部から前記グラフラプラシアンを読み出し、前記グラフラプラシアン上で、前記応答文のパターンシードと前記特徴語を初期値としてラプラシアンラベル伝搬を行い、応答文に含めるべき単語を求めるラプラシアンラベル伝搬部と、前記応答文のパターンに前記ラプラシアンラベル伝搬部にて求めた単語を入れて応答文を生成する応答文生成部と、前記応答文を出力する出力部とを備える。
従来、単語の意味カテゴリ獲得のためにラプラシアンラベル伝搬を用いた研究は知られていたが、ラプラシアンラベル伝搬を用いて対話文を生成する試みはなされていなかった。本発明では、入力文の文パターンを判定した上で、入力文の文パターンに対応する応答文の文パターンを抽出し、応答文のパターンシードと特徴語を初期値としてラプラシアンラベル伝搬を行うことにより、入力文に対する応答文を生成する。このように、入力された文をそのまま使うのではなく、文パターンという形に抽象化して集約することにより、グラフがスパースになり過ぎないように工夫し、単語獲得の再現率を上げている。また、固有表現抽出を用いて単語クラスを文パターンおよび獲得される単語に付与しているので、
文パターン中の適切な箇所を獲得した単語で置き換えることが可能となる。ここで、グラフラプラシアンは、対話ログコーパスより抽出した対話文に基づいて生成しているので、応答文生成に必要なデータを人手によらず、自動で生成することができる。なお、グラフラプラシアンとは、グラフの構造を正規化した行列で表現したものである。本発明では、グラフラプラシアンを用いたラプラシアンラベル伝搬を用いたことにより、初期値である特徴語から関連性の低い単語へとラベル伝搬することが起こりにくく、意味ドリフトを抑制できる。
また、本発明の別の態様の対話文生成装置は、対話ログコーパスより抽出した対話文に基づいて生成した単語と文パターンとの間の関連度から計算したグラフラプラシアンを記憶した記憶部と、単語の入力を受け付ける入力部と、前記記憶部から前記グラフラプラシアンを読み出し、前記グラフラプラシアン上で、前記単語を初期値としてラプラシアンラベル伝搬を行い、文パターンと、文に含めるべき単語を求めるラプラシアンラベル伝搬部と、前記ラプラシアンラベル伝搬部にて求めた文パターン及び単語を用いて応答文を生成する応答文生成部と、前記応答文を出力する出力部とを備える。
このように単語から関連する文を生成する場合にも、本発明を適用することができる。これにより、入力された単語の概念を含む文を生成することができる。
本発明の対話文生成方法は、対話ログコーパスより抽出した対話文に基づいて生成した単語と文パターンとの間の関連度から計算したグラフラプラシアンと、対話ログコーパスの文パターン間の遷移行列とを記憶した記憶部とを備える対話文生成装置によって対話文を生成する方法であって、前記対話文生成装置が、文の入力を受け付けるステップと、前記対話文生成装置が、入力文から固有表現を抽出するステップと、前記対話文生成装置が、抽出した固有表現に基づいて入力文の文パターンを判定するステップと、前記対話文生成装置が、前記記憶部に記憶された遷移行列を読み出し、前記遷移行列を用いて入力文の文パターンに対応する応答文のパターンシードを抽出するステップと、前記対話文生成装置が、入力文から抽出された固有表現から特徴語を抽出するステップと、前記対話文生成装置が、前記記憶部から前記グラフラプラシアンを読み出し、前記グラフラプラシアン上で、前記応答文のパターンシードと前記特徴語を初期値としてラプラシアンラベル伝搬を行い、応答文に含めるべき単語を求めるステップと、前記対話文生成装置が、前記応答文のパターンに、ラプラシアンラベル伝搬部によって求めた単語を入れて応答文を生成するステップと、前記対話文生成装置が、前記応答文を出力するステップとを備える。
また、本発明の別の態様の対話文生成方法は、対話ログコーパスより抽出した対話文に基づいて生成した単語と文パターンとの間の関連度から計算したグラフラプラシアンを記憶した記憶部を備える対話文生成装置によって、対話文を生成する方法であって、前記対話文生成装置が、単語の入力を受け付けるステップと、前記対話文生成装置が、前記記憶部から前記グラフラプラシアンを読み出し、前記グラフラプラシアン上で、前記単語を初期値としてラプラシアンラベル伝搬を行い、文パターンと、文に含めるべき単語を求めるステップと、前記対話文生成装置が、求めた文パターン及び単語を用いて応答文を生成するステップと、前記対話文生成装置が、前記応答文を出力するステップとを備える。
本発明のプログラムは、コンピュータに上記対話文生成方法を実行させるプログラムである。
本発明によれば、これまで人手によって作られてきた文テンプレートを、対話ログを用いることで自動的に獲得することができる。これによって、従来は、コスト面で難しかった多様な文の生成を、ログデータを増やすだけで実現できるようになる。加えて、パターンのスロットを埋める単語候補についても、同義語辞書やシソーラスといった言語資源を必要とせずにログデータから取得することができる。
第1の実施の形態の対話文生成装置の構成を示す図である。 ラプラシアンラベル伝搬の説明図である。 第1の実施の形態の対話文生成装置の動作を示す図である。 第1の実施の形態の対話文生成装置の動作を示す図である。 第2の実施の形態の対話文生成装置の構成を示す図である。 第2の実施の形態の対話文生成装置の動作を示す図である。
以下、本発明の実施の形態の対話文生成装置について、図面を参照しながら説明する。
図1は、実施の形態に係る対話文生成装置1の構成を示す図である。対話文生成装置1のハードウェアは、CPU、RAM、ROM、ハードディスク、ディスプレイ、キーボード、マウス、通信インターフェース等を備えたコンピュータである。コンピュータに、対話文生成のプログラムを実行させることにより、図1に示す対話文生成装置1が実現される。このように対話文生成装置1を実現するプログラムも本発明の範囲に含まれる。
対話文生成装置1は、事前計算部10と、文生成部20とを有している。事前計算部10は、応答文の生成に用いる文パターン遷移行列と、グラフラプラシアンを生成する機能を有する。文パターン遷移行列とグラフラプラシアンは、それぞれ文パターン遷移行列記憶部17およびグラフラプラシアン記憶部18に記憶される。文生成部20は、文パターン遷移行列およびグラフラプラシアンを用いて、入力された文に応答する応答文を生成する機能を有する。
対話文生成装置1には対話ログコーパス30のデータベースがネットワーク等を介して接続されており、対話文生成装置1は、対話ログコーパス30から対話ログのデータを取得する。なお、対話文生成装置1は、対話ログコーパス30からではなく、例えば、インターネット上にあるインタビュー等の対話形式の記事や掲示板のデータから対話ログを取得してもよい。
事前計算部10は、対話ログ入力部11と、固有表現抽出部12と、文パターン抽出部13と、文パターン遷移行列構築部14と、2部グラフ構築部15と、グラフラプラシアン計算部16とを有している。対話ログ入力部11は、対話ログコーパス30から対話ログの入力を受け付ける機能を有する。
固有表現抽出部12は、対話ログから固有表現を抽出する機能を有する。固有表現抽出は、計算機を用いた自然言語処理技術の一つであり、固有名詞(人名、地名など)や日付、時間表現などを抽出する技術である。IREX(Information Retrieval and Extraction Exercise)の定義によれば、固有表現には、組織名(ORGANIZATION)、人名(PERSON)、地名(LOCATION)、日付表現(DATE)、時間表現(TIME)、金額表現(MONEY)、割合表現(PERCENT)、固有物名(ARTIFACT)の8種類があり、本実施の形態の対話文生成装置1は、これを用いる。
文パターン抽出部13は、対話ログから抽出した固有表現をスロットに置き換えて文パターンを生成する機能も有する。例えば、「今日はかぐや姫を見ました。」という文から固有表現を抽出すると、「今日(DATE)は(O)かぐや姫(ARTIFACT)を(O)見ま(O)した(O)。」となり、「今日」と「かぐや姫」が固有表現として抽出される。なお、「O」は、固有表現ではない(OUTSIDE)という意味である。上記例文の固有表現をスロットに置き換えると、「(DATE)は(ARTIFACT)を見ました。」となる。これが、文パターンである。文パターン抽出部13は、対話ログコーパス30から取得した対話ログの文パターンを生成する。この際、異なる対話文から同じ文パターンが生成される場合もあり、文パターンが集約される。
文パターン遷移行列構築部14は、発話文の文パターンからどの応答文の文パターンに遷移したかを定義する遷移行列を構築する機能を有する。文パターン遷移行列構築部14は、文パターン抽出部13にて生成した文パターンを受け取り、発話文の文パターンから応答文の文パターンへの遷移に基づいて、発話文の文パターンと応答文の文パターンの遷移行列を構築する。具体的には、発話文の全ての文パターンを行に、応答文の全ての文パターンを列にとり、発話文の文パターンから応答文の文パターンに遷移した回数を要素とした行列を生成する。このような遷移行列を用いることで、発話文の文パターンから応答文の文パターンに遷移する確率を求めることができる。文パターン遷移行列構築部14は、構築した文パターン遷移行列を文パターン遷移行列記憶部17に記憶する。
2部グラフ構築部15は、単語と文パターンとの間の関連度をエッジの重みとした2部グラフを生成する機能を有する。2部グラフとは、頂点集合を二つの部分集合に分割して各集合内の頂点同士の間には辺がないようにできるグラフのことである。
図2は、本実施の形態の2部グラフ構築部15が構築する2部グラフの例を示す図である。図2に示すように、左側に単語の集合、右側に文パターンの集合があり、関連を有する単語と文パターンとの間にはエッジが張られている。このエッジは、単語と文パターンの関連の強さを表すものである。
2部グラフ構築部15は、固有表現抽出部12にて固有表現として抽出した単語を受け取り、文パターン抽出部13にて抽出した文パターンを受け取る。2部グラフ構築部15は、文パターンとその文パターンで出現する単語に基づいて、単語と文パターンの関連度を求め、2部グラフを構築する。対話文生成装置1において、2部グラフの構造は行列の形で保持される。すなわち、固有表現抽出部12にて抽出された全ての単語を行に、文パターン抽出部13にて抽出された全ての文パターンを列にとり、文パターンにおける単語の出現回数を要素とした行列を生成する。以下の説明において、この行列を「単語−文パターン行列W」という。
グラフラプラシアン計算部16は、2部グラフからグラフラプラシアンLを計算する。グラフラプラシアンLは次の式によって計算される。
L=I−D(A)-1/2・A・D(A)-1/2
ここで、Aは隣接行列で、A=WT・Wである。隣接行列Aは、単語どうしの共起頻度を表す行列である。D(A)は次数対角行列であり、その要素は次の式で表される。
Figure 0006180340
このようにグラフラプラシアンは、次数対角行列を平方根で割った行列を隣接行列Aの前後から掛けて得られた行列を、単位行列から引くことにより、グラフラプラシアンLの列方向と行方向の総和はそれぞれ0となる。このように正規化したグラフラプラシアンを用いたラプラシアンラベル伝搬は、グラフ中の自己類似度の重みを減じる効果があるため、ジェネリックパターンに高い重みを付与することがなく、意味ドリフトが起こりにくい。グラフラプラシアン計算部16は、求めたグラフラプラシアンのデータをグラフラプラシアン記憶部18に記憶する。
[文生成部20の構成]
次に、文生成部20の構成について説明する。文生成部20は、入力された対話文に対して応答する応答文を生成する。文生成部20は、文入力部21と、固有表現抽出部22と、入力文パターン判定部23と、応答文パターンシード抽出部24と、特徴語抽出部25と、ラプラシアンラベル伝搬部26と、応答文生成部27と、応答文出力部28とを有している。
文入力部21は、対話文の入力を受け付ける機能を有する。固有表現抽出部22は、事前計算部10が備える固有表現抽出部12と同じ機能を有する。すなわち、固有表現抽出部22は、入力された対話文から固有表現を抽出する。
入力文パターン判定部23は、入力された対話文に含まれる固有表現をスロットに置き換えて文パターンを生成し、入力された文パターンと既存の文パターンとを照合して、入力文パターンがどの文パターンに該当するかを判定する機能を有する。応答文パターンシード抽出部24は、文パターン遷移行列記憶部17に記憶された文パターン遷移行列を読み出す。そして、応答文パターンシード抽出部24は、入力文パターン判定部23にて判定された入力文パターンから遷移する可能性の高い応答文の文パターンを、文パターン遷移行列のデータを用いて求める機能を有する。
特徴語抽出部25は、固有表現抽出部22にて固有表現として抽出した単語の中から、ラプラシアンラベル伝搬においてシードとして用いるべき特徴語を抽出する。本実施の形態では、抽出された単語のすべてを特徴語として用いるが、入力された文パターンに特徴的な単語を特徴語として用いてもよい。例えば、「今日」、「私」等のように文脈等に関係なく表れる一般的な単語を排除することにより、意味ドリフトの発生を抑制することができる。ここで、ある単語が一般的な単語であるかどうかを判定するためには、例えば、TF−IDF法を用いることができる。
ラプラシアンラベル伝搬部26は、グラフラプラシアン記憶部18からグラフラプラシアンのデータを読み出す。そして、ラプラシアンラベル伝搬部26は、応答文パターンシード抽出部24にて抽出した応答文の文パターンと特徴語抽出部25にて抽出した特徴語とをシードとして、ラプラシアンラベル伝搬を行う。ラプラシアンラベル伝搬は、次の式に従って行う。
Figure 0006180340
ここで、F(0)はシードのラベル、F(t)はグラフ上で伝搬させた各ノードのラベルを表す。αはシードベクトルとグラフのどちらをどの程度重視するかの調整パラメータであり、ラプラシアンラベル伝搬をリスタート付きのランダムウォークと考えた場合では、αはリスタート確率と見なすことができる。
本実施の形態のように、特徴語に加えて応答文の文パターンをシードとして用いる場合には、隣接行列とシードベクトルとの積を取る際にもう一方のシードベクトルを重みづけて加える。すなわち、上記式(1)は、次のように表される。
Figure 0006180340

グラフラプラシアンLを再掲する。
L=I−D(A)-1/2・A・D(A)-1/2
この式は密行列となるためデータが大きくなった場合にはメモリ上に展開できない。そのため、実際には(1)式の第一項は以下のように変形して疎なままで扱う。
Figure 0006180340
上記の式の第二項、TWD(WTW)-1/2F(t)は、文パターンのスコアベクトルとなる。
ここで、文パターンのスコアベクトルを
Figure 0006180340
とおく。文パターンからのラベル伝搬にも、文パターンシードベクトルを導入し、確率的なリスタートを行うように上記を以下のように変更する。
Figure 0006180340
これを(1)式に代入した、文パターンと特徴語の両方をシードとして利用可能なラベル伝搬の式を以下に示す。
Figure 0006180340
ここで、Fv(0)は特徴語のシードのラベル、Fp(0)は文パターンシードのラベル、Fv(t)は単語の各ノードのラベルを表す。αは単語のシードベクトルとグラフのどちらをどの程度重視するかの調整パラメータであり、βは文パターンのシードベクトルとグラフのどちらをどの程度重視するかの調整パラメータである。
Fv(t)は、単語の全要素数を次元数とするベクトルであり、Fv(t)のi番目の次元の値は、i番目の単語が特徴語と関連する度合いを表す。すなわち、Fv(t)は対象の特徴語に対するスコアベクトルである。入力として与えるFv(0)は、シードとして与えられる特徴語の次元値を1とし、それ以外を0とすることで作成する。また、Fp(0)も同様に、シードとして与えられる文パターンの次元値を1とし、それ以外を0とすることで作成する。ラプラシアンラベル伝搬部26は、このようにして作成されたFv(0)、Fp(0)を用いて、グラフラプラシアン上でラプラシアンラベル伝搬を行い、収束するまで上記式を繰り返し計算していく。これにより、最終的に収束したFv(t)が出力される。Fv(t)は、tステップ終了時の単語のスコアベクトルである。ラプラシアンラベル伝搬部26は、スコアの高い単語を応答文に含めるべき単語として求める。
応答文生成部27は、ラプラシアンラベル伝搬部26にて求めた単語を、応答文の文パターンのスロットに入力して応答文を生成する。応答文出力部28は、生成された応答文を出力する。応答文の出力は、例えば、ディスプレイに表示してもよいし、スピーカーから音声出力してもよい。
[対話文生成装置1の動作]
次に、本実施の形態の対話文生成装置1の動作について説明する。
図3は、対話文生成装置1が対話文生成の事前準備の動作を示すフローチャートである。対話文生成装置1は、まず、対話ログコーパス30から対話ログを取得する(S10)。対話文生成装置1は、取得した対話ログに含まれる各文の固有表現を抽出すると共に、各文の固有表現をスロットに置き換えて、文パターンを生成する(S11)。
続いて、対話文生成装置1は、対話文における文パターンの遷移に基づいて、文パターンの遷移行列を構築する(S12)。具体的には、前述したとおり、発話文の文パターンから応答文の文パターンに遷移した回数を要素とした行列を生成する。対話文生成装置1は、構築した文パターン遷移行列を文パターン遷移行列記憶部17に記憶する。
次に、対話文生成装置1は、単語と文パターンとの2部グラフを構築する(S13)。2部グラフの具体例は、図2に示すとおりである。続いて、対話文生成装置1は、2部グラフからグラフラプラシアンを計算し(S14)、グラフラプラシアンのデータをグラフラプラシアン記憶部18に記憶する。以上の動作により、対話ログコーパス30から取得した大量の対話ログを用いて、文パターン遷移行列とグラフラプラシアンを準備することができる。
図4は、対話文生成装置1が入力された文に応じて応答文を生成する動作を示すフローチャートである。対話文生成装置1は、文の入力を受け付けると(S20)、入力された文から、固有表現を抽出すると共に、固有表現をスロットに置き換えて文パターンを生成する(S21)。続いて、対話文生成装置1は、抽出した固有表現の中からラプラシアンラベル伝搬に用いる特徴語を抽出する(S22)。本実施の形態では、対話文生成装置1は、固有表現として抽出されたすべての単語を特徴語として用いる。
次に、対話文生成装置1は、入力文のパターンの判定を行う(S23)。ここでは、入力文パターン判定部23が、固有表現抽出部22にて抽出された固有表現をスロットに置き換えて文パターンを生成し、生成された文パターンが既存のどの文パターンに該当するかを判定する。対話文生成装置1は、文パターン遷移行列記憶部17から文パターン遷移行列を読み出し、読み出した文パターン遷移行列を用いて、入力文の文パターンに対する応答文の文パターンを抽出する(S24)。求めた応答文の文パターンをラプラシアンラベル伝搬のパターンシードとする。
対話文生成装置1は、入力文に含まれる特徴語と、応答文の文パターンをシードとしてラプラシアンラベル伝搬を行う(S25)。対話文生成装置1は、ラプラシアンラベル伝搬の結果、スコアの高かった単語を応答文の文パターンのスロットに入れて応答文を生成し、出力する(S26)。
以上、本発明の実施の形態の対話文生成装置1の構成及び動作について説明した。実施の形態の対話文生成装置1は、対話ログコーパス30から取得した対話ログを用いて、自動的に生成した文パターン遷移行列及びグラフラプラシアンを用いて対話文を生成するので、従来は、コスト面で難しかった多様な文の生成を、ログデータを増やすだけで実現できるようになる。また、パターンのスロットを埋める単語候補についても、同義語辞書やシソーラスといった言語資源を必要とせずにログデータから取得することができる。
本実施の形態の対話文生成装置1は、入力された文に含まれる特徴語と入力文に対応する応答文の文パターンをシードとして、グラフラプラシアンを用いたラプラシアンラベル伝搬を行うので、意味ドリフトの発生を抑制し、適切な応答文を生成がすることができる。
以上、本発明の対話文生成装置1について実施の形態を挙げて詳細に説明したが、本発明は上記した実施の形態に限定されるものではない。
上記した実施の形態の対話文生成装置1においては、入力された文に応答する応答文を生成する例を挙げたが、単語の入力に基づいて文を生成することも可能である。例えば、ある単語と同じような意味の単語を含む対話文を生成したい場合等に用いる対話文生成装置2(上記実施の形態の変形例)も本発明の範囲に含まれる。
図5は、変形例に係る対話文生成装置2の構成を示す図である。図5に示す対話文生成装置2の基本的な構成は、上記した実施の形態の対話文生成装置1と同じであるが、図5に示す対話文生成装置2では、事前計算部10が文パターン遷移行列構築部14を有しておらず、文生成部20が入力文パターン判定部23、応答文パターンシード抽出部24、特徴語抽出部25を有してない点で異なる。また、文生成部20は、文入力部21の代わりに単語入力部29を備えている。対話文生成装置2が、対話ログからグラフラプラシアンを求めて、事前準備を行う動作は、上記した実施の形態の対話文生成装置1の動作と同じである。
図6は、変形例に係る対話文生成装置2によって対話文を生成する動作を示す図である。対話文生成装置2は、単語の入力を受け付ける(S30)。対話文生成装置2は、グラフラプラシアン記憶部18からグラフラプラシアンのデータを読み出し、入力された単語をシードとして、ラプラシアンラベル伝搬を行う(S31)。対話文生成装置2は、ラプラシアンラベル伝搬の結果、ベクトルスコアの高かった文パターン及び単語を求め、求めた文パターンのスロットに単語を入れて対話文を生成し、出力する(S32)。
このように単語−文パターン行列を含むグラフラプラシアンを用いてラプラシアンラベル伝搬を行うことにより、入力された単語のみから対話文を生成することができる。
本発明によれば、対話ログコーパスから取得した対話ログを用いることで、対話文を生成するためのグラフラプラシアンを自動的に生成することができるという効果を有し、音声対話システム等に有用である。
1,2 対話文生成装置
10 事前計算部
11 対話ログ入力部
12 固有表現抽出部
13 文パターン抽出部
14 文パターン遷移行列構築部
15 2部グラフ構築部
16 グラフラプラシアン計算部
17 文パターン遷移行列記憶部
18 グラフラプラシアン記憶部
20 文生成部
21 文入力部
22 固有表現抽出部
23 入力文パターン判定部
24 応答文パターンシード抽出部
25 特徴語抽出部
26 ラプラシアンラベル伝搬部
27 応答文生成部
28 応答文出力部
29 単語入力部

Claims (6)

  1. 対話ログコーパスより抽出した対話文に基づいて生成した単語と文パターンとの間の関連度から計算したグラフラプラシアンと、対話ログコーパスの文パターン間の遷移行列とを記憶した記憶部と、
    文の入力を受け付ける文入力部と、
    入力文から固有表現を抽出する固有表現抽出部と、
    抽出した固有表現に基づいて入力文の文パターンを判定するパターン判定部と、
    前記記憶部に記憶された遷移行列を読み出し、前記遷移行列を用いて入力文の文パターンに対応する応答文のパターンシードを抽出するパターンシード抽出部と、
    前記固有表現抽出部にて抽出された固有表現から特徴語を抽出する特徴語抽出部と、
    前記記憶部から前記グラフラプラシアンを読み出し、前記グラフラプラシアン上で、前記応答文のパターンシードと前記特徴語を初期値としてラプラシアンラベル伝搬を行い、応答文に含めるべき単語を求めるラプラシアンラベル伝搬部と、
    前記応答文のパターンに前記ラプラシアンラベル伝搬部にて求めた単語を入れて応答文を生成する対話文生成部と、
    前記応答文を出力する出力部と、
    を備える対話文生成装置。
  2. 対話ログコーパスより抽出した対話文に基づいて生成した単語と文パターンとの間の関連度から計算したグラフラプラシアンを記憶した記憶部と、
    単語の入力を受け付ける入力部と、
    前記記憶部から前記グラフラプラシアンを読み出し、前記グラフラプラシアン上で、前記単語を初期値としてラプラシアンラベル伝搬を行い、文パターンと、文に含めるべき単語を求めるラプラシアンラベル伝搬部と、
    前記ラプラシアンラベル伝搬部にて求めた文パターン及び単語を用いて対話文を生成する対話文生成部と、
    前記対話文を出力する出力部と、
    を備える対話文生成装置。
  3. 対話ログコーパスより抽出した対話文に基づいて生成した単語と文パターンとの間の関連度から計算したグラフラプラシアンと、対話ログコーパスの文パターン間の遷移行列とを記憶した記憶部とを備える対話文生成装置によって対話文を生成する方法であって、
    前記対話文生成装置が、文の入力を受け付けるステップと、
    前記対話文生成装置が、入力文から固有表現を抽出するステップと、
    前記対話文生成装置が、抽出した固有表現に基づいて入力文の文パターンを判定するステップと、
    前記対話文生成装置が、前記記憶部に記憶された遷移行列を読み出し、前記遷移行列を用いて入力文の文パターンに対応する応答文のパターンシードを抽出するステップと、
    前記対話文生成装置が、入力文から抽出された固有表現から特徴語を抽出するステップと、
    前記対話文生成装置が、前記記憶部から前記グラフラプラシアンを読み出し、前記グラフラプラシアン上で、前記応答文のパターンシードと前記特徴語を初期値としてラプラシアンラベル伝搬を行い、応答文に含めるべき単語を求めるステップと、
    前記対話文生成装置が、前記応答文のパターンに、ラプラシアンラベル伝搬部によって求めた単語を入れて応答文を生成するステップと、
    前記対話文生成装置が、前記応答文を出力するステップと、
    を備える対話文生成方法。
  4. 対話ログコーパスより抽出した対話文に基づいて生成した単語と文パターンとの間の関連度から計算したグラフラプラシアンを記憶した記憶部を備える対話文生成装置によって、対話文を生成する方法であって、
    前記対話文生成装置が、単語の入力を受け付けるステップと、
    前記対話文生成装置が、前記記憶部から前記グラフラプラシアンを読み出し、前記グラフラプラシアン上で、前記単語を初期値としてラプラシアンラベル伝搬を行い、文パターンと、文に含めるべき単語を求めるステップと、
    前記対話文生成装置が、求めた文パターン及び単語を用いて応答文を生成するステップと、
    前記対話文生成装置が、前記応答文を出力するステップと、
    を備える対話文生成方法。
  5. 対話ログコーパスより抽出した対話文に基づいて生成した単語と文パターンとの間の関連度から計算したグラフラプラシアンと、対話ログコーパスの文パターン間の遷移行列とを記憶した記憶部とを備えるコンピュータに、対話文を生成させるプログラムであって、前記コンピュータに、
    文の入力を受け付けるステップと、
    入力文から固有表現を抽出するステップと、
    抽出した固有表現に基づいて入力文の文パターンを判定するステップと、
    前記記憶部に記憶された遷移行列を読み出し、前記遷移行列を用いて入力文の文パターンに対応する応答文のパターンシードを抽出するステップと、
    入力文から抽出された固有表現から特徴語を抽出するステップと、
    前記記憶部から前記グラフラプラシアンを読み出し、前記グラフラプラシアン上で、前記応答文のパターンシードと前記特徴語を初期値としてラプラシアンラベル伝搬を行い、応答文に含めるべき単語を求めるステップと、
    前記応答文のパターンに、ラプラシアンラベル伝搬部によって求めた単語を入れて応答文を生成するステップと、
    前記応答文を出力するステップと、
    を実行させるプログラム。
  6. 対話ログコーパスより抽出した対話文に基づいて生成した単語と文パターンとの間の関連度から計算したグラフラプラシアンを記憶した記憶部を備えるコンピュータに、対話文を生成させるプログラムであって、
    単語の入力を受け付けるステップと、
    前記記憶部から前記グラフラプラシアンを読み出し、前記グラフラプラシアン上で、前記単語を初期値としてラプラシアンラベル伝搬を行い、文パターンと、文に含めるべき単語を求めるステップと、
    求めた文パターン及び単語を用いて応答文を生成するステップと、
    前記応答文を出力するステップと、
    を実行させるプログラム。
JP2014027966A 2014-02-17 2014-02-17 対話文生成装置、対話文生成方法およびプログラム Expired - Fee Related JP6180340B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014027966A JP6180340B2 (ja) 2014-02-17 2014-02-17 対話文生成装置、対話文生成方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014027966A JP6180340B2 (ja) 2014-02-17 2014-02-17 対話文生成装置、対話文生成方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2015153261A JP2015153261A (ja) 2015-08-24
JP6180340B2 true JP6180340B2 (ja) 2017-08-16

Family

ID=53895405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014027966A Expired - Fee Related JP6180340B2 (ja) 2014-02-17 2014-02-17 対話文生成装置、対話文生成方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6180340B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6843689B2 (ja) * 2017-04-21 2021-03-17 Kddi株式会社 コンテキストに応じた対話シナリオを生成する装置、プログラム及び方法
JP6920104B2 (ja) * 2017-05-16 2021-08-18 日本放送協会 原稿自動生成装置及びプログラム
JP6821542B2 (ja) * 2017-11-09 2021-01-27 Kddi株式会社 複数種の対話を続けて実施可能な対話制御装置、プログラム及び方法
CN112597748B (zh) * 2020-12-18 2023-08-11 深圳赛安特技术服务有限公司 语料生成方法、装置、设备及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008293098A (ja) * 2007-05-22 2008-12-04 Toyota Central R&D Labs Inc 応答スコア情報生成装置、対話処理装置
WO2013080406A1 (ja) * 2011-11-28 2013-06-06 Necソフト株式会社 対話システム、冗長メッセージ排除方法および冗長メッセージ排除プログラム

Also Published As

Publication number Publication date
JP2015153261A (ja) 2015-08-24

Similar Documents

Publication Publication Date Title
CN113962315B (zh) 模型预训练方法、装置、设备、存储介质以及程序产品
CN109670191B (zh) 机器翻译的校准优化方法、装置与电子设备
JP5540335B2 (ja) 自然言語文生成装置及びコンピュータプログラム
JP6180340B2 (ja) 対話文生成装置、対話文生成方法およびプログラム
CN111462751B (zh) 解码语音数据的方法、装置、计算机设备和存储介质
JP5441937B2 (ja) 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム
JP2016224483A (ja) モデル学習装置、方法、及びプログラム
US10354646B2 (en) Bilingual corpus update method, bilingual corpus update apparatus, and recording medium storing bilingual corpus update program
JP2019082860A (ja) 生成プログラム、生成方法及び生成装置
CN111488735A (zh) 测试语料生成方法、装置及电子设备
CN110765762A (zh) 一种大数据背景下在线评论文本最佳主题提取系统和方法
JP4499003B2 (ja) 情報処理方法及び装置及びプログラム
CN115408997A (zh) 一种文本生成方法、文本生成装置和可读存储介质
JP6558856B2 (ja) 形態素解析装置、モデル学習装置、及びプログラム
Vu et al. Building a vietnamese sentiwordnet using vietnamese electronic dictionary and string kernel
JP5718406B2 (ja) 発話文生成装置、対話装置、発話文生成方法、対話方法、発話文生成プログラム、及び対話プログラム
JP2007317132A (ja) 概念ベクトル推定方法及び装置及びプログラム
JP5807966B2 (ja) 文書評価学習装置、文書評価装置、方法、及びプログラム
CN112307181A (zh) 基于特定语料库的提取语料的方法及语料提取器
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JPWO2021038827A5 (ja)
JP5860439B2 (ja) 言語モデル作成装置とその方法、そのプログラムと記録媒体
US20240086768A1 (en) Learning device, inference device, non-transitory computer-readable medium, learning method, and inference method
JP7198492B2 (ja) パーソナリティ出力装置、パーソナリティ出力方法、パーソナリティ出力プログラム、単語評価値生成装置、単語評価値生成方法および単語評価値生成プログラム
Ngoc et al. Multi-dimensional data refining strategy for effective fine-tuning LLMs

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20151113

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160720

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170718

R150 Certificate of patent or registration of utility model

Ref document number: 6180340

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees