JP6370749B2 - 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム - Google Patents

発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム Download PDF

Info

Publication number
JP6370749B2
JP6370749B2 JP2015151648A JP2015151648A JP6370749B2 JP 6370749 B2 JP6370749 B2 JP 6370749B2 JP 2015151648 A JP2015151648 A JP 2015151648A JP 2015151648 A JP2015151648 A JP 2015151648A JP 6370749 B2 JP6370749 B2 JP 6370749B2
Authority
JP
Japan
Prior art keywords
utterance
utterance intention
intention
partial section
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015151648A
Other languages
English (en)
Other versions
JP2017032738A (ja
Inventor
厚志 安藤
厚志 安藤
太一 浅見
太一 浅見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015151648A priority Critical patent/JP6370749B2/ja
Publication of JP2017032738A publication Critical patent/JP2017032738A/ja
Application granted granted Critical
Publication of JP6370749B2 publication Critical patent/JP6370749B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、発話から発話意図の抽出を行うためのモデルを学習する発話意図モデル学習装置、発話意図モデル学習方法、発話から発話意図を抽出する発話意図抽出装置、発話意図抽出方法、プログラムに関する。
音声対話システムや議事録作成支援システムにおいて、発話の音声認識結果だけでなく発話意図(例えば、肯定的、否定的など)を抽出する技術が求められている。音声対話システムでは、例えば「明日ねー…」など、文面のみからはただの相槌に見える発話に対しても、場合により「否定的」などの発話意図を読み取って別の提案を行うなど、発話意図に応じた動作が求められる。発話意図を抽出することで、音声対話システムは言葉に表れないユーザの要求にも適切な応答を生成することが可能となる。
一方、議事録作成支援システムにおいては、賛成発話・反対発話などの会議における重要発話の自動抽出が可能となり、会議の全体像の把握や議事録要約生成に役立つ。
このような発話意図抽出の従来技術が、非特許文献1に開示されている。非特許文献1では、少なくとも一単語を含み、単語と単語の間が一定時間以下(例えば0.5秒以下)の時間間隔で連続している区間を発話区間、発話区間の音声を発話と定義する。また、一つの発話につき一つの発話意図を持つと仮定する。非特許文献1では、各発話に対し発話に表れる韻律情報(声の高さ、間の取り方など)や言語情報(発話に含まれる単語や品詞)と発話意図との関係性を利用し発話意図抽出を行う。韻律特徴・言語特徴と発話意図との関係性は発話と正解の発話意図のペアの学習データを用いて事前に学習される。以下、図1〜図3を参照して非特許文献1の発話意図抽出装置の概略を説明する。図1は、非特許文献1の発話意図抽出装置9の構成を示すブロック図である。図2は、非特許文献1の発話意図抽出装置9の動作を示すフローチャートである。図3は、非特許文献1の発話意図抽出装置9の発話意図抽出の例を示す図である。図1に示すように非特許文献1の発話意図抽出装置9は、韻律抽出部901と、認識結果分析部902と、韻律正規化部903と、韻律特徴抽出部904と、言語特徴抽出部905と、発話意図モデル学習部908と、発話意図抽出部909を含む。韻律抽出部901は、発話意図の抽出対象として入力された発話から、韻律(短時間ごとの基本周波数、短時間ごとの音圧レベル)を抽出する(S901)。認識結果分析部902は認識結果を分析し、認識結果に含まれる単語、音素とその開始・終了時刻を得る(S902)。韻律正規化部903は、抽出された韻律(短時間ごとの基本周波数、短時間ごとの音圧レベル)を話者ごとに正規化する(S903)。韻律特徴抽出部904は、韻律特徴(声の高さ、間の長さの平均値、勾配などの統計量)を発話ごとに抽出する(S904)。言語特徴抽出部905は、言語特徴(発話先頭の単語や品詞など)を発話ごとに抽出する(S905)。発話意図モデル学習部908は、発話ごとの韻律特徴および言語特徴と、これに対応する人手で付与した発話意図正解ラベルとを学習データとし、発話意図モデルを予め学習する(S908)。発話意図抽出部909は、学習された発話意図モデルを用い、発話ごとの韻律特徴および言語特徴に基づいて、発話ごとに発話意図を抽出する(S909)。図3では、発話例である「わたしもそうおもいます」の声の高さの平均値が高いこと(韻律特徴)、同発話の先頭2単語が「わたし」「も」であること(言語特徴)から、ステップS909において当該発話の発話意図「肯定的」を抽出している。
D. Hillard, M. Ostendorf, E. Shriberg, Detection of agreement vs. disagreement in meetings: training with unlabeled data, Proc. of the HLT-NAACL Conference, May 2003
発話意図は発話の一部の区間にのみ表出することがある。非特許文献1の発話意図抽出装置9では発話区間全体から韻律特徴を求めるため、発話の一部の区間にのみ表れる韻律の変化を表現することが出来ず、発話意図を正しく抽出することができない場合があった。図4にその一例を示す。図4は、発話意図が発話の一部のみに表出した場合の韻律特徴の変化の例を示す図である。「肯定的」の発話意図が表れる区間では、声の高さの平均値が高くなることが知られているが、図4の例のように発話の一部の区間(ドットハッチングを施した領域)にのみ発話意図「肯定的」が表れる場合、発話意図「肯定的」が表出した区間だけを用いて声の高さの平均値を求めれば、発話意図が肯定的である場合に特有の特徴が表れる(=平均値が高い)ものの、発話区間全体から声の高さの平均値を求めると、発話意図が肯定的である場合に特有の特徴が表れない(=平均値が低い)場合がある。このため非特許文献1の発話意図抽出装置9によっても発話意図を正しく抽出することができない場合があった。
そこで本発明では、発話の一部の区間にのみ発話意図が表出する場合でも正しく発話意図を抽出するためのモデルを学習する発話意図モデル学習装置を提供することを目的とする。
本発明の一態様は、少なくとも一単語を含み、単語と単語の間が一定時間以下の時間間隔で連続している区間を発話区間とし、前記発話区間の音声を発話とし、前記発話に含まれる部分区間ごとに抽出した発話意図である部分区間毎発話意図に対応するインデクスの列である部分区間毎発話意図インデクス系列と、前記発話ごとに人手で付与された発話意図ラベルとを学習データとして、前記発話ごとの発話意図の抽出に用いるN−gramモデルである発話意図N−gramモデルを学習する。
本発明によれば、発話の一部の区間にのみ発話意図が表出する場合でも正しく発話意図を抽出するためのモデルを学習することができる。
非特許文献1の発話意図抽出装置9の構成を示すブロック図。 非特許文献1の発話意図抽出装置9の動作を示すフローチャート。 非特許文献1の発話意図抽出装置9の発話意図抽出の例を示す図。 発話意図が発話の一部のみに表出した場合の韻律特徴の変化の例を示す図。 実施例1で用いられる局所韻律特徴の一覧を示す図。 実施例1の発話意図抽出装置1の構成を示すブロック図。 実施例1の発話意図抽出装置1の動作を示すフローチャート。 実施例1の局所韻律特徴抽出部の詳細な構成を示すブロック図。 実施例1の局所韻律特徴抽出部の詳細な動作を示すフローチャート。 局所韻律系列特徴の抽出の例を示す図。 アクセント句ごとに人手で発話意図ラベルを付与した例を示す図。 発話意図モデルを決定木として学習した例を示す図。 非特許文献1の発話意図抽出装置9による、一つの発話に二つ以上の発話意図の特徴が表れる発話からの発話意図抽出の例を示す図。 実施例1の発話意図抽出装置1による、一つの発話に二つ以上の発話意図の特徴が表れる発話からの発話意図抽出の例を示す図。 発話意図N−gramモデルに基づく発話毎の発話意図抽出の例を示す図(確率ベクトルを用いないもの)。 発話意図N−gramモデルに基づく発話毎の発話意図抽出の例を示す図(確率ベクトルを用いるもの)。 実施例2の発話意図抽出装置2の構成を示すブロック図。 実施例2の発話意図抽出装置2の動作を示すフローチャート。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
また、以下の説明では、発話の一部の区間のことを部分区間という。部分区間の例として、単語、アクセント句、イントネーション句がある。
<実施例1の発明の要点>
発話の一部の区間にのみ発話意図が含まれる音声を分析した結果、韻律の変化は単語よりも長い区間に渡って表出しており、特にアクセント句における声の高さの上昇時・下降時の勾配や上昇・下降が始まるタイミングに差が表れることが見出された。このことから、本発明ではアクセント句単位での韻律変化に着目した。ここで、単に従来技術において韻律特徴を抽出する区間を発話全体からアクセント句ごとに変えただけでは、アクセント句区間全体の平均値や勾配を求めることになり、声の高さの上昇時・下降時の勾配や上昇・下降が始まるタイミングなどの局所的な韻律の変化を特徴量として表現することができない。この問題に対処するため、本発明では発話の単語区間ごとの韻律特徴を求めることで局所的な韻律の変化を表現し、それらをアクセント句区間ごとに連結した特徴を発話意図抽出に用いることでアクセント句における局所的な韻律の変化を表現する。以下では、発話の単語区間ごとの韻律特徴を局所韻律特徴、局所韻律特徴をアクセント句区間ごとに連結した特徴を局所韻律系列特徴と呼ぶ。
<実施例1の具体的説明>
以下、局所韻律系列特徴に基づいて発話意図を抽出する実施例1の発話意図抽出装置について説明する。本実施例の発話意図抽出装置は、発話と、発話ごとの音声認識結果を入力とする。発話の定義は上述の非特許文献1における定義と同一とする。図5、図6、図7を参照して、本実施例の発話意図抽出装置の構成、および動作について説明する。図5は、本実施例で用いられる局所韻律特徴の一覧を示す図である。図6は、本実施例の発話意図抽出装置1の構成を示すブロック図である。図7は、本実施例の発話意図抽出装置1の動作を示すフローチャートである。図6に示すように、本実施例の発話意図抽出装置1は、韻律抽出部901と、認識結果分析部902と、韻律正規化部903と、局所韻律特徴抽出部104と、アクセント句境界推定部105と、局所韻律系列特徴抽出部106と、アクセント句毎発話意図ラベル作成部107と、発話意図モデル学習部108と、発話意図抽出部109を含む。
<韻律抽出部901>
入力:発話(発話意図の抽出対象として入力された発話)
出力:短時間ごとの基本周波数、短時間ごとの音圧レベル
韻律抽出部901は、発話から、声の高さと声の大きさの物理量を求める。声の高さを表す物理量として基本周波数を、声の大きさを表す物理量として音圧レベルを用いることができる。韻律抽出部901は、これらの物理量(基本周波数、音圧レベル)を短い周期ごとに求める。すなわち、韻律抽出部901は、発話を所定の短時間(例えば10ms)ごとに分析し、短時間ごとの基本周波数と音圧レベルを抽出する(S901)。本実施例では、韻律抽出部901は基本周波数を自己相関法により、音圧レベルを振幅の二乗平均平方根の対数値により得ることとするが、基本周波数、音圧レベルの抽出方法はこれに限定されるものではなく、従来の何れの基本周波数抽出法、音圧レベル抽出法を用いてもよい。
<認識結果分析部902>
入力:発話、発話ごとの音声認識結果
出力:単語系列、各単語の開始・終了時刻、音素系列、各音素の開始・終了時刻
認識結果分析部902は、認識結果に含まれる単語、音素とその開始・終了時刻を得る(S902)。例えば、単語系列は発話ごとの音声認識結果を形態素解析することで取得できる。また単語の開始・終了時刻、音素系列、音素の開始・終了時刻は発話ごとの音声認識結果から音声認識結果のみを受理するネットワーク文法を作成し、単語セグメンテーションまたは音素セグメンテーションを行うことで得られる(参考非特許文献1参照)。ただし、入力の発話ごとの音声認識結果の時点で単語系列や単語の開始・終了時刻、音素系列、音素の開始・終了時刻が得られている場合は、音声認識結果の値を用いてもよい。
(参考非特許文献1:鹿野清宏、河原達也、山本幹雄、伊藤克亘、武田一哉、ITText音声認識システム、pp.47-49/169-170、オーム社、2001)
<韻律正規化部903>
入力:短時間ごとの基本周波数、短時間ごとの音圧レベル、話者ごとの基本周波数の平均値、標準偏差、話者ごとの音圧レベルの平均値、標準偏差
出力:短時間ごとの正規化基本周波数、短時間ごとの正規化音圧レベル
韻律正規化部903は、短時間ごとの基本周波数、短時間ごとの音圧レベルを話者ごとに正規化し、平均0、標準偏差1とする(S903)。これは、声の高さや声の大きさの話者ごとの違いを吸収することに相当する。韻律正規化部903により、発話意図抽出部109において、どんな話者に対しても同一の発話意図抽出基準を適用して発話意図抽出を行うことが可能となる。
ある時間tにおける、短時間ごとの正規化基本周波数f(t)、短時間ごとの正規化音圧レベルP(t)は以下の式で与えられる。
fm(t),Pm(t)は話者mの短時間ごとの基本周波数、短時間ごとの音圧レベルであり、μf,mf,mP,mP,mは話者mの基本周波数の全発話の平均値、標準偏差、音圧レベルの全発話の平均値、標準偏差である。μf,mf,mP,mP,mは、事前に収集した話者mの発話の全発話から算出するものとする。
<局所韻律特徴抽出部104>
入力:短時間ごとの正規化基本周波数、短時間ごとの正規化音圧レベル、単語系列、各単語の開始・終了時刻、音素系列、各音素の開始・終了時刻
出力:局所韻律特徴(図5最右列の全要素)
局所韻律特徴抽出部104は、認識結果に含まれる単語ごとに局所韻律特徴を求める(S104)。局所韻律特徴は、発話意図の表出に伴う局所的な韻律変化を表現するための特徴であり、発話の単語区間ごとの声の高さ、単語区間ごとの声の大きさ、(次の単語あるいは前の単語との)間の取り方、単語区間ごとの話速、単語区間ごとの音の伸ばし方に関する特徴を表現する。局所韻律特徴は、これらの特徴のうち、少なくとも何れか一つ以上の特徴を表現するものであればよい。本実施例では局所韻律特徴として、図5最右列の全要素を含むものとする。以下、図8、図9を参照して局所韻律特徴抽出部104の詳細な構成、および動作について説明する。図8は、本実施例の局所韻律特徴抽出部104の詳細な構成を示すブロック図である。図9は、本実施例の局所韻律特徴抽出部104の詳細な動作を示すフローチャートである。図8に示すように、本実施例の局所韻律特徴抽出部104は、F0局所韻律特徴抽出部1041と、パワー局所韻律特徴抽出部1042と、ポーズ局所韻律特徴抽出部1043と、スピーチレート局所韻律特徴抽出部1044と、デュレーション局所韻律特徴抽出部1045を含む。
<F0局所韻律特徴抽出部1041>
入力:短時間ごとの正規化基本周波数、各単語の開始・終了時刻
出力:単語前半・単語後半それぞれの基本周波数の平均値、標準偏差、最大値、最小値、勾配
F0局所韻律特徴抽出部1041は、声の高さに関する局所韻律特徴を抽出する(S1041)。声の高さに関する局所韻律特徴として、単語前半・単語後半それぞれの基本周波数の平均値、標準偏差、最大値、最小値、勾配が含まれる。
F0局所韻律特徴抽出部1041は、各単語の開始・終了時刻に基づき、単語前半・単語後半の基本周波数の系列を短時間ごとの正規化基本周波数から切り出す。勾配以外は単語前半・単語後半の基本周波数の系列の統計量から、勾配は単語前半・単語後半の基本周波数の系列の回帰分析結果から得られる。ただし、短時間ごとの正規化基本周波数は母音区間でのみ正確な値をとるため、母音区間の正規化基本周波数のみを用いるものとする。本実施例では、音素アライメントにより推定した母音区間を用いるが、別の母音区間推定手法により求めた母音区間を用いてもよい。
<パワー局所韻律特徴抽出部1042>
入力:短時間ごとの正規化音圧レベル、各単語の開始・終了時刻
出力:単語前半・単語後半それぞれの音圧レベルの平均値、標準偏差、最大値、最小値、勾配
パワー所韻律特徴抽出部1042は、声の大きさに関する局所韻律特徴を抽出する(S1042)。声の大きさに関する局所韻律特徴として、単語前半・単語後半それぞれの音圧レベルの平均値、標準偏差、最大値、最小値、勾配が含まれる。
F0局所韻律特徴抽出部1041と同様に、パワー局所韻律特徴抽出部1042は、単語の開始・終了時刻に基づいて単語前半・単語後半それぞれの音圧レベルの系列を短時間ごとの音圧レベルから切り出し、統計量または回帰分析の結果から声の大きさに関する局所韻律特徴を抽出する。ただしパワー所韻律特徴抽出部1042は、F0局所韻律特徴抽出部1041とは異なり、母音以外の区間も含めた単語前半・単語後半の全ての音圧レベルの値を用いて声の大きさに関する局所韻律特徴を求める。
<ポーズ局所韻律特徴抽出部1043>
入力:単語系列、各単語の開始・終了時刻
出力:次の単語までの間の長さ
ポーズ局所韻律特徴抽出部1043は、単語間の間の取り方に関する局所韻律特徴を抽出する(S1043)。単語間の間の取り方に関する局所韻律特徴として次の単語までの(あるいは前の単語からの)間の長さが含まれる。本実施例では、以下の2つの区間を間と定義する。<1>ある単語の終了時刻から次の単語の開始時刻までの区間。<2>音声認識結果に含まれる句読点またはポーズの区間。単語ごとの次の単語までの間の長さは、(次の単語の開始時刻−単語の終了時刻)として得られる。このとき、単語が続けて発声される場合、次の単語までの間の長さは0秒となる。ただし、句読点またはポーズは間とみなすため単語に含めない。また、発話末尾の単語においては、次の単語までの間の長さは0秒であるものとする。
<スピーチレート局所韻律特徴抽出部1044>
入力:音素系列、各単語の開始・終了時刻
出力:単語ごとの話速
スピーチレート局所韻律特徴抽出部1044は、話速に関する局所韻律特徴を抽出する(S1044)。話速に関する局所韻律特徴として、単語ごとの話速が含まれる。話速は単位時間あたりに発話した音素数であるものとし、音素数/(単語の終了時刻−単語の開始時刻)を単語ごとに計算することで得られる。音素数は単語ごとの音素系列に含まれる音素の数である。
<デュレーション局所韻律特徴抽出部1045>
入力:各音素の開始・終了時刻、各単語の開始・終了時刻
出力:単語ごとの音素継続長の平均値、標準偏差、最大値、最小値、単語末尾の音素の音素継続長
デュレーション局所韻律特徴抽出部1045は、音の伸ばし方に関する局所韻律特徴を抽出する(S1045)。音の伸ばし方に関する局所韻律特徴として、単語ごとの音素継続長の平均値、標準偏差、最大値、最小値、単語末尾の音素の音素継続長が含まれる。音素継続長は、音素の終了時刻−音素の開始時刻を音素ごとに計算することで得られる。デュレーション局所韻律特徴抽出部1045は、単語に含まれる全音素に対し音素継続長を求め、それらの値から単語ごとの音素継続長の平均値、標準偏差、最大値、最小値、単語末尾の音素の音素継続長を取得できる。
<アクセント句境界推定部105>
入力:単語系列
出力:アクセント句境界
アクセント句境界推定部105は、単語系列からアクセント句境界を推定する(S105)。ここで、アクセント句境界とは、あるアクセント句と別のアクセント句との境界地点を指し、アクセント句境界に挟まれた区間を一つのアクセント句区間とする。本実施例ではアクセント句境界推定手法に、参考非特許文献2の手法を用いるが、本発明はこれに限定されず、他のどのアクセント句境界推定手法を用いてもよい。
(参考非特許文献2:浅野、松岡、市井、大山、“テキスト音声変換における読み・韻律付与処理の評価:ニュース文を対象として、”第51回情報処理学会全国大会講演論文集、pp.109-100、1995)
<局所韻律系列特徴抽出部106>
入力:局所韻律特徴、アクセント句境界
出力:局所韻律系列特徴
局所韻律系列特徴抽出部106は、アクセント句区間に含まれる単語区間ごとの局所韻律特徴を連結し、アクセント句単位での局所韻律系列特徴を抽出する(S106)。局所韻律系列特徴はアクセント句区間にわたる韻律の局所的な変化を表現する。連結とは、単語ごとの局所韻律特徴ベクトル(局所韻律特徴のベクトル表現)を、アクセント句に含まれる単語数nだけ連結し、局所韻律系列特徴ベクトルを作成することを指す。このとき、nを連結数と呼ぶ。局所韻律系列特徴の抽出の例を図10に示す。図10の例では、アクセント句「そうですね」に含まれる3つの局所韻律特徴ベクトルが連結されて単語連結数3の局所韻律系列特徴ベクトルが生成される。これに対し、アクセント句「うーん」には1つの局所韻律特徴ベクトルのみが含まれるため、この局所韻律特徴ベクトルがそのまま単語連結数1の局所韻律系列特徴ベクトルとされる。一方、アクセント句「わたしですか」に含まれる3つの局所韻律特徴ベクトルは連結されて単語連結数3の局所韻律系列特徴ベクトルが生成される。
<アクセント句毎発話意図ラベル作成部107>
入力:アクセント句境界、発話意図ラベル
出力:アクセント句ごと発話意図ラベル
アクセント句毎発話意図ラベル作成部107は、アクセント句ごとの発話意図ラベルを作成する(S107)。このステップでは、アクセント句境界と、発話意図ラベルが用いられる。発話意図ラベルは、人間が音声を聴取し、発話意図を感じた音声区間にラベルを付与することで得られる。本実施例では、人間が音声を聴取し、「肯定的」「否定的」の二つのラベルのうちの何れかのラベルをアクセント句ごとに付与する。あるアクセント句に対し、各ラベルは高々一つしか付与されないものとし、どのラベルも付与されなかったアクセント句は「どちらでもない」ラベルが付与されたものとする。
例えばアクセント句ごとに各ラベルが占める区間の割合を求め、最も割合が大きいラベルをそのアクセント句の発話意図ラベルとすることができる。図11にアクセント句ごとに人手で発話意図ラベルを付与した例を示す。図11の例において、先頭アクセント句「そうですね」の区間については、「肯定的」ラベルを付与された割合が最も高かったものとする。この場合、先頭アクセント句「そうですね」の発話意図ラベルは人手で付与された割合が最も高かった「肯定的」に決定される。一方、二番目のアクセント句「うーん」最後のアクセント句「わたしですか」については、どのラベルも付与されなかった割合が最も高くなったものとする。この場合、二番目および最後のアクセント句の発話意図ラベルは「どちらでもない」に決定される。
<発話意図モデル学習部108>
入力:局所韻律系列特徴、アクセント句ごと発話意図ラベル
出力:発話意図モデル
発話意図モデル学習部108は、アクセント句ごとの局所韻律系列特徴と、これに対応するアクセント句ごとの発話意図ラベルとを学習データとし、発話意図抽出を行うための発話意図モデルを予め学習する(S108)。発話意図モデルは、連結数nごとに学習する。すなわち、アクセント句ごとの局所韻律系列特徴とそれに対応する発話意図ラベルの集合から、同一の連結数を持つ局所韻律系列特徴とそれに対応する発話意図ラベルを選び、発話意図モデルを学習する。発話意図モデルは、例えば決定木であってもよい。図12に発話意図モデルを決定木として学習した例(連結数2の例)を示す。
決定木は、アクセント句ごとの(同一の連結数を持つ)局所韻律系列特徴とそれに対応する発話意図ラベルの集合を入力とし、CARTなどの公知の決定木学習アルゴリズムを用いて学習してもよいし、人手で決定木の構造としきい値を決めて学習してもよい。発話意図モデルは、条件付き確率場やサポートベクターマシンなどの機械学習により学習してもよい。
なお、上述した発話意図モデル学習部108のみを抜き出して単独の装置(発話意図モデル学習装置)としてもよい。この場合、発話意図モデル学習装置は、前述の局所韻律系列特徴と、アクセント句区間ごとに人手で付与された発話意図ラベルとを学習データとして、アクセント句区間ごとの発話意図の抽出に用いる発話意図モデルを学習する装置として構成される。
<発話意図抽出部109>
入力:局所韻律系列特徴、発話意図モデル
出力:発話ごとの発話意図
発話意図抽出部109は、局所韻律系列特徴と、ステップS108で学習した発話意図モデルに基づいて、アクセント句ごとの発話意図を抽出し、抽出されたアクセント句ごとの発話意図に基づいて、発話ごとの発話意図を抽出する(S109)。
本実施例では、「肯定的」「否定的」「どちらでもない」の三種を発話意図とみなす。発話意図抽出部109は、局所韻律系列特徴を発話意図モデルに入力することで、アクセント句ごとの発話意図を得る。このとき発話意図抽出部109は、局所韻律系列特徴の連結数nに合った発話意図モデルを用いるものとする。
発話意図抽出部109は、発話に含まれる全てのアクセント句ごとの発話意図を求めたのち、後述するように発話ごとの発話意図を決定する。一つの発話中に、アクセント句ごとの発話意図「肯定的」「否定的」が一つも含まれない場合、発話意図抽出部109は当該発話の発話意図を「どちらでもない」とする。一つの発話中に、アクセント句ごとの発話意図「肯定的」「否定的」のどちらか一方のみ含まれる場合、発話意図抽出部109は当該含まれる発話意図を発話ごとの発話意図とする。一つの発話中に、アクセント句ごとの発話意図「肯定的」「否定的」の双方が含まれる場合、発話意図抽出部109は「肯定的」「否定的」それぞれの発話意図の区間の総和が大きい方を発話ごとの発話意図とする。
本実施例の発話意図抽出装置1によれば、発話の一部の区間にのみ発話意図が含まれる場合には、当該音声のアクセント句単位での韻律変化に着目すべきであるという新たな知見を利用し、アクセント句単位での韻律変化を局所韻律系列特徴として抽出し、当該局所韻律系列特徴に基づいて学習された発話意図モデルを用いて発話意図を抽出するように構成したため、発話の一部区間にのみ発話意図が表出する場合でも、当該発話意図を正しく抽出することができる。
<実施例2の発明の要点>
機械との音声対話や打合せでは、一人の話者が継続して話すことがある。このような場合、一つの発話に二つ以上の発話意図の特徴が表れる発話が発生することもある。例えば、発話単位では否定の発話意図である「その通りです。しかし私は反対です。」という発話には、発話の前半に肯定的な発話意図の特徴が、発話の後半に否定的な発話意図の特徴が表れる(図13参照)。しかし、非特許文献1の発話意図抽出装置9は、一つの発話には一つの発話意図のみが表れると仮定し、発話全体から求めた韻律特徴や言語特徴に基づいて発話意図抽出を行う。そのため、非特許文献1の発話意図抽出装置9で求めた韻律特徴や言語特徴には異なる種類の発話意図の特徴が含まれることがあると考えられ、非特許文献1の発話意図抽出装置9では正しく発話意図を抽出することが困難な場合があった。
一つの発話に二つ以上の発話意図の特徴が表れる発話が発生する場合、発話全体での発話意図は部分区間ごとに求めた発話意図の順序と高い関係性があると考えられる。以下、図14を参照しながら説明する。例えば、発話前半に肯定、後半に否定が表れる場合は発話全体として否定的な発話意図を感じることが多い。また、発話前半に否定、後半に肯定が表れる場合は発話全体として肯定的な発話意図を感じることが多い。
実施例1では、部分区間ごとに表れる発話意図の順序を考慮することなく、肯定的/否定的な発話意図の部分区間の長さのみに基づいて部分区間ごとの発話意図抽出結果を統合し、発話ごとの発話意図を抽出している。このため、発話ごとの発話意図抽出精度が低下し、図14の例のように、発話単位では否定の発話意図である「その通りです。しかし私は反対です。」という発話を肯定的な意図を有すると認識してしまう場合もある。
実施例2の発明の要点は、部分区間ごとの発話意図の時系列情報と発話ごとの発話意図の関係性をN−gramモデルとして学習する点にある。N−gramモデルとは、ある文(単語の系列)の出現確率をN単語の連鎖の出現確率の積として表現するモデルであり(参考非特許文献3)、単語の順序が文の出現確率に反映される。これを発話意図に適用する。以下、図15を参照しながら説明する(本図ではN=3である)。すなわち、発話ごとの発話意図別に部分区間ごとの発話意図N連鎖のモデル(以下、発話意図N−gramモデルという)を事前に作成し、発話意図の抽出対象として入力された発話に対応する部分区間ごとの発話意図の系列に対して、その出現確率が最大となるような発話ごとの発話意図の発話意図N−gramモデルを選択することで発話ごとの発話意図を抽出する。これにより、部分区間ごとの発話意図の順序情報を利用した発話ごとの発話意図の抽出が可能となる。
また、実施例1や図15の例では部分区間ごとに3つの発話意図(肯定的、否定的、どちらでもない)を抽出している。この抽出結果をそのまま発話意図N−gramモデルに利用してもよいが、部分区間ごとの発話意図抽出結果をより多くの分類に分け(例えば、強く肯定的、やや肯定的、など)、それらを発話意図N−gramモデルに利用する方が発話意図N−gramモデルの表現精度が増し、発話ごとの発話意図抽出の精度が向上すると考えられる。そこで、本実施例では、部分区間ごとの発話意図の抽出結果を3つの発話意図ラベルではなく各発話意図の確率のベクトルとして表現し、当該ベクトルをベクトル量子化しインデクス(以下、発話意図インデクスという)に変換することで、各発話意図の分類の多様化と発話意図抽出精度の向上を図る(図16参照)。(参考非特許文献3:鹿野清宏、河原達也、山本幹雄、伊藤克亘、武田一哉、IT Text音声認識システム、pp.53-69、オーム社、2001)
<実施例2の具体的説明>
以下、N−gramモデルを用いて発話意図を抽出する実施例2の発話意図抽出装置について説明する。本実施例の発話意図抽出装置は、発話と、発話ごとの音声認識結果を入力とする。発話の定義は上述の非特許文献1における定義と同一とする。図17、図18を参照して、本実施例の発話意図抽出装置の構成、および動作について説明する。図17は、本実施例の発話意図抽出装置2の構成を示すブロック図である。図18は、本実施例の発話意図抽出装置2の動作を示すフローチャートである。図17に示すように、本実施例の発話意図抽出装置2は、部分区間毎特徴量抽出部201と、部分区間毎発話意図モデル学習部202と、部分区間毎発話意図抽出部203と、発話意図インデクスコードブック作成部204と、発話意図インデクス変換部205と、N−gramモデル学習部206と、発話毎発話意図抽出部207を含む。
なお、部分区間毎発話意図モデル学習部202、N−gramモデル学習部206部で学習に用いる発話は、同一のものでもよいし、異なるものでもよい。
<部分区間毎特徴量抽出部201>
入力:発話、発話ごとの音声認識結果
出力:部分区間ごとの特徴量
部分区間毎特徴量抽出部201は、部分区間ごとの特徴量を抽出する(S201)。例えば、部分区間をアクセント句とし、実施例1の901〜903、104〜106と同様の方法で特徴量として局所韻律系列特徴を抽出してもよい。また、部分区間ごとの特徴量は、韻律特徴または言語特徴の少なくとも一つを含む。韻律特徴は、実施例1の局所韻律特徴の少なくとも一つを含む。言語特徴は、例えば部分区間内の単語列のBag−of−Wordsを用いることができるが、部分区間に含まれる単語から決定可能な特徴量であればどのような特徴量を用いてもよい。
<部分区間毎発話意図モデル学習部202>
入力:部分区間ごとの特徴量、部分区間ごとの発話意図ラベル
出力:部分区間ごとの発話意図モデル
部分区間毎発話意図モデル学習部202は、部分区間ごとの特徴量と、それに対応する部分区間ごとの発話意図ラベルを用いて、部分区間ごとの特徴量と部分区間ごとの発話意図との関係性を表現するモデルを学習する(S202)。ここでは学習手法としてニューラルネットワークを用いるが、クラス分類が可能な他の学習手法を用いてもよい。また、学習を行わず、人手で部分区間ごとの特徴量と部分区間ごとの発話意図との関係性を表現するルールを作成してもよい。
<部分区間毎発話意図抽出部203>
入力:部分区間ごとの特徴量、部分区間ごとの発話意図モデル
出力:部分区間ごとの発話意図の確率ベクトル
部分区間毎発話意図抽出部203は、部分区間ごとの発話意図モデルを用いて、部分区間ごとの特徴量からその部分区間の発話意図の確率を求める(S203)。部分区間の発話意図の確率は、例えばニューラルネットワークであれば出力層の活性化関数にソフトマックス関数を用いた際の出力値などを用いる。部分区間の発話意図の確率を結合し、部分区間ごとの発話意図の確率ベクトルとして出力する。
なお、確率ベクトルを出力する代わりに、部分区間ごとの発話意図、つまり、肯定的、否定的、どちらでもない、のいずれかの値をそのまま出力してもよい。
<発話意図インデクスコードブック作成部204>
入力:部分区間ごとの発話意図の確率ベクトル
出力:発話意図インデクスコードブック
発話意図インデクスコードブック作成部204は、部分区間ごとの発話意図の確率ベクトルを発話意図インデクスに変換するための、コードブックを作成する(S204)。ここでは、ベクトル量子化のためのコードブック作成方法としてk平均法を用いる。部分区間ごとの発話意図の確率ベクトルの集合を用意し、クラスタ数をk個としてk平均法を適用することで、部分区間ごとの発話意図の確率ベクトルのセントロイドがk個得られる。各セントロイドに発話意図インデクスを割り当て、コードブックとする。kの数は発話意図の分類の数であり、kが多いほど発話意図の分類を細かくすることに相当する。例えば、k=20とする。また、発話意図インデクス変換部204にてベクトル量子化が可能であるならば、既存のどのコードブック作成方法を用いてもよい。
なお、部分区間毎発話意図抽出部203で確率ベクトルの代わりに部分区間ごとの発話意図の値をそのまま出力することとした場合は、肯定的、否定的、どちらでもない、のそれぞれに1、2、3のインデクスを付与するなどとすればよい。また、図15のように、肯定的、否定的、どちらでもない、をそのままインデクスとするのでもよい。
<発話意図インデクス変換部205>
入力:部分区間ごとの発話意図の確率ベクトル、発話意図インデクスコードブック
出力:部分区間ごとの発話意図インデクス
発話意図インデクス変換部205は、部分区間ごとの発話意図の確率ベクトルを部分区間ごとの発話意図インデクスに変換する(S205)。k平均法を用いて発話意図インデクスコードブックを作成した場合、ある部分区間の発話意図の確率ベクトルから最もユークリッド距離の近いセントロイドの発話意図インデクスを、その部分区間における発話意図インデクスとする。
なお、部分区間ごとの発話意図の確率ベクトルの系列が入力される場合は、部分区間ごとの発話意図インデクスの系列が出力される。
<N−gramモデル学習部206>
入力:部分区間ごとの発話意図インデクス(の系列)、発話ごとの発話意図ラベル
出力:発話意図N−gramモデル
N−gramモデル学習部206は、発話ごとの発話意図別に、部分区間ごとの発話意図インデクスのN−gramである発話意図N−gramを学習する(S206)。ここでは、N=3としてモデル学習を行う。発話意図N−gramの学習は、N−gram言語モデルの学習と同様の枠組みで行う。すなわち、N−gram確率は最尤推定により決定し、その後学習データに含まれなかった発話意図N−gramへの対処としてバックオフ平滑化を実施する。出力として、発話ごとの発話意図が肯定的、否定的、どちらでもない、のそれぞれにおける発話意図N−gramモデルを得る(図15、図16参照)。すなわち、3つの発話意図N−gramモデルを得る。
<発話毎発話意図抽出部207>
入力:部分区間ごとの発話意図インデクス(の系列)、発話意図N−gramモデル
出力:発話ごとの発話意図の抽出結果
発話毎発話意図抽出部207は、発話意図N−gramモデルを用いて部分区間ごとの発話意図インデクス(の系列)から発話ごとの発話意図を抽出する(S207)。ある発話全体の部分区間ごとの発話意図インデクスの出現確率を、N−gramモデル学習部206の出力の発話意図N−gramモデルごとに求める。ある発話全体の部分区間ごとの発話意図インデクスの出現確率が最も高くなるような発話意図N−gramモデルが発話ごとの発話意図の抽出結果となる(図15、図16参照)。
具体的には、以下のようにして発話ごとの発話意図を求める。なお、ここでは部分区間ごとの発話意図インデクスの系列の代わりに部分区間ごとの発話意図の系列を用いて説明する。
部分区間ごとの発話意図の系列、発話ごとの発話意図をそれぞれx=(x1,x2,x3,…,xn)、y(ただし、xi、yは、肯定的、否定的、どちらでもない、のいずれかの値をとる)とする。部分区間ごとの発話意図の系列がx=(x1,x2,x3,…,xn)であるときの発話ごとの発話意図がyである確率を条件付き確率P(y|x)を用いて表現すると、発話ごとの発話意図抽出結果Yは以下のようにして求まる。
ここで、発話意図の出現確率は一様と考えられることから、P(x)とP(y)は一定であると仮定した。
N−gramモデル学習部206が作成した発話ごとの発話意図y別の発話意図N−gramモデルを用いて、発話毎発話意図抽出部207が部分区間ごとの発話意図の系列xの出現確率が最も高くなるyの発話意図N−gramモデルを選ぶことで発話ごとの発話意図Yを抽出することができる。
本実施例の発話意図抽出装置2によれば、発話意図の抽出対象となる発話について部分区間ごとに抽出した発話意図(インデクス)の系列と、発話意図N−gramモデルを用いて発話ごとの発話意図を抽出するようにしたため、発話の一部の区間にのみ発話意図が表出する場合でも、発話意図の表出順序を考慮して正しく発話意図を抽出することが可能となる。特に、一つの発話に二つ以上の発話意図の特徴が表れる発話が発生する場合においても正しく発話意図を抽出することが可能となる。
また、本実施例の発話意図抽出装置2によれば、部分区間ごとの発話意図の表現に確率(ベクトル)を用いることにより、発話意図を3つの値(肯定的、否定的、どちらでもない)で表現する場合に比して、発話ごとの発話意図抽出の精度を向上させることが可能になる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 少なくとも一単語を含み、単語と単語の間が一定時間以下の時間間隔で連続している区間を発話区間とし、前記発話区間の音声を発話とし、
    前記発話に含まれる部分区間ごとに抽出した発話意図である部分区間毎発話意図に対応するインデクスの列である部分区間毎発話意図インデクス系列と、前記発話ごとに人手で付与された発話意図ラベルとを学習データとして、前記発話ごとの発話意図の抽出に用いるN−gramモデルである発話意図N−gramモデルを学習する発話意図モデル学習装置。
  2. 請求項1に記載の発話意図モデル学習装置は、発話意図の分類と当該分類を示すインデクスを対応付ける発話意図インデクスコードブックを有し、
    前記部分区間毎発話意図は、各発話意図が出現する確率を用いて表現され、
    前記部分区間毎発話意図インデクス系列は、前記部分区間毎発話意図の確率を用いて決定される発話意図の分類を、前記発話意図インデクスコードブックを用いて変換することにより求まるインデクスの列である発話意図モデル学習装置。
  3. 少なくとも一単語を含み、単語と単語の間が一定時間以下の時間間隔で連続している区間を発話区間とし、前記発話区間の音声を発話とし、
    発話意図の抽出対象として入力された発話から、発話ごとの発話意図を抽出する発話意図抽出装置であって、
    前記発話から、前記発話に含まれる部分区間ごとに抽出した発話意図である部分区間毎発話意図に対応するインデクスの列である部分区間毎発話意図インデクス系列を生成する部分区間毎発話意図インデクス系列生成部と、
    前記部分区間毎発話意図インデクス系列と、発話意図N−gramモデルに基づいて、前記発話意図を抽出する発話毎発話意図抽出部と
    を含み、
    前記発話意図N−gramモデルは、前記部分区間毎発話意図インデクス系列と、前記発話ごとに人手で付与された発話意図ラベルとを学習データとして、前記発話ごとの発話意図の抽出に用いるN−gramモデルとして学習したものであることを特徴とする発話意図抽出装置。
  4. 請求項3に記載の発話意図抽出装置は、発話意図の分類と当該分類を示すインデクスを対応付ける発話意図インデクスコードブックを有し、
    前記部分区間毎発話意図は、各発話意図が出現する確率を用いて表現され、
    前記部分区間毎発話意図インデクス系列は、前記部分区間毎発話意図の確率を用いて決定される発話意図の分類を、前記発話意図インデクスコードブックを用いて変換することにより求まるインデクスの列である発話意図抽出装置。
  5. 少なくとも一単語を含み、単語と単語の間が一定時間以下の時間間隔で連続している区間を発話区間とし、前記発話区間の音声を発話とし、
    前記発話に含まれる部分区間ごとに抽出した発話意図である部分区間毎発話意図に対応するインデクスの列である部分区間毎発話意図インデクス系列と、前記発話ごとに人手で付与された発話意図ラベルとを学習データとして、前記発話ごとの発話意図の抽出に用いるN−gramモデルである発話意図N−gramモデルを学習する発話意図モデル学習方法。
  6. 少なくとも一単語を含み、単語と単語の間が一定時間以下の時間間隔で連続している区間を発話区間とし、前記発話区間の音声を発話とし、
    発話意図の抽出対象として入力された発話から、発話ごとの発話意図を抽出する発話意図抽出方法であって、
    前記発話から、前記発話に含まれる部分区間ごとに抽出した発話意図である部分区間毎発話意図に対応するインデクスの列である部分区間毎発話意図インデクス系列を生成するステップと、
    前記部分区間毎発話意図インデクス系列と、発話意図N−gramモデルに基づいて、前記発話意図を抽出するステップと
    を含み、
    前記発話意図N−gramモデルは、前記部分区間毎発話意図インデクス系列と、前記発話ごとに人手で付与された発話意図ラベルとを学習データとして、前記発話ごとの発話意図の抽出に用いるN−gramモデルとして学習したものであることを特徴とする発話意図抽出方法。
  7. 請求項1または2に記載の発話意図モデル学習装置、または請求項3または4に記載の発話意図抽出装置のいずれか一つとしてコンピュータを機能させるためのプログラム。
JP2015151648A 2015-07-31 2015-07-31 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム Active JP6370749B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015151648A JP6370749B2 (ja) 2015-07-31 2015-07-31 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015151648A JP6370749B2 (ja) 2015-07-31 2015-07-31 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム

Publications (2)

Publication Number Publication Date
JP2017032738A JP2017032738A (ja) 2017-02-09
JP6370749B2 true JP6370749B2 (ja) 2018-08-08

Family

ID=57987774

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015151648A Active JP6370749B2 (ja) 2015-07-31 2015-07-31 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム

Country Status (1)

Country Link
JP (1) JP6370749B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210119208A (ko) 2020-03-24 2021-10-05 주식회사 에스아이에이 전문가 모사 모델 학습 방법 및 그 학습을 위한 장치

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018169494A (ja) * 2017-03-30 2018-11-01 トヨタ自動車株式会社 発話意図推定装置および発話意図推定方法
JP6327777B1 (ja) * 2018-03-22 2018-05-23 株式会社Zaizen 分類情報生成装置、分類情報生成方法、およびプログラム
US10817246B2 (en) * 2018-12-28 2020-10-27 Baidu Usa Llc Deactivating a display of a smart display device based on a sound-based mechanism
KR102271068B1 (ko) * 2019-05-29 2021-06-30 주식회사 카카오 입력 발화의 의도를 추정하는 모델의 학습을 제어하는 방법 및 장치
CN110827802A (zh) * 2019-10-31 2020-02-21 苏州思必驰信息科技有限公司 语音识别训练和解码方法及装置
KR20210099293A (ko) * 2020-02-04 2021-08-12 엘지전자 주식회사 저지연 음성처리 시스템
JP7246337B2 (ja) * 2020-03-12 2023-03-27 株式会社日立製作所 計算機システム及び作業の推定方法
CN112035648B (zh) * 2020-09-02 2024-02-23 中国科学技术大学 一种用户数据的处理方法、装置及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001249810A (ja) * 2000-03-07 2001-09-14 Nippon Telegr & Teleph Corp <Ntt> 対話理解方法及び対話理解プログラムを格納した記憶媒体
JP4478939B2 (ja) * 2004-09-30 2010-06-09 株式会社国際電気通信基礎技術研究所 音声処理装置およびそのためのコンピュータプログラム
JP4733436B2 (ja) * 2005-06-07 2011-07-27 日本電信電話株式会社 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP2012047924A (ja) * 2010-08-26 2012-03-08 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
JP2013109738A (ja) * 2011-11-24 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> 意味ラベル付与モデル学習装置、意味ラベル付与装置、意味ラベル付与モデル学習方法、及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210119208A (ko) 2020-03-24 2021-10-05 주식회사 에스아이에이 전문가 모사 모델 학습 방법 및 그 학습을 위한 장치

Also Published As

Publication number Publication date
JP2017032738A (ja) 2017-02-09

Similar Documents

Publication Publication Date Title
JP6370749B2 (ja) 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
US11929059B2 (en) Method, device, and computer readable storage medium for text-to-speech synthesis using machine learning on basis of sequential prosody feature
US11373633B2 (en) Text-to-speech processing using input voice characteristic data
US11735162B2 (en) Text-to-speech (TTS) processing
JP6777768B2 (ja) 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム
US11410684B1 (en) Text-to-speech (TTS) processing with transfer of vocal characteristics
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US10475438B1 (en) Contextual text-to-speech processing
US10692484B1 (en) Text-to-speech (TTS) processing
US11763797B2 (en) Text-to-speech (TTS) processing
US20230036020A1 (en) Text-to-Speech Synthesis Method and System, a Method of Training a Text-to-Speech Synthesis System, and a Method of Calculating an Expressivity Score
CN111640418B (zh) 一种韵律短语识别方法、装置及电子设备
CN110459202B (zh) 一种韵律标注方法、装置、设备、介质
CN114203147A (zh) 用于文本到语音的跨说话者样式传递以及用于训练数据生成的系统和方法
JP6622681B2 (ja) 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム
CN112397056B (zh) 语音评测方法及计算机存储介质
US20230343319A1 (en) speech processing system and a method of processing a speech signal
Jothilakshmi et al. Large scale data enabled evolution of spoken language research and applications
KR20180033875A (ko) 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
JP6370732B2 (ja) 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
JP2014102345A (ja) 音響モデル学習用テキスト作成装置とその方法とプログラム
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
Dorca Saez Neural Audio Generation for Speech Synthesis
CN113192483B (zh) 一种文本转换为语音的方法、装置、存储介质和设备
Cai et al. The DKU Speech Synthesis System for 2019 Blizzard Challenge

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180710

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180711

R150 Certificate of patent or registration of utility model

Ref document number: 6370749

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150