JP6370732B2 - 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム - Google Patents

発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム Download PDF

Info

Publication number
JP6370732B2
JP6370732B2 JP2015052830A JP2015052830A JP6370732B2 JP 6370732 B2 JP6370732 B2 JP 6370732B2 JP 2015052830 A JP2015052830 A JP 2015052830A JP 2015052830 A JP2015052830 A JP 2015052830A JP 6370732 B2 JP6370732 B2 JP 6370732B2
Authority
JP
Japan
Prior art keywords
utterance
intention
utterance intention
accent phrase
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015052830A
Other languages
English (en)
Other versions
JP2016173430A (ja
Inventor
厚志 安藤
厚志 安藤
太一 浅見
太一 浅見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015052830A priority Critical patent/JP6370732B2/ja
Publication of JP2016173430A publication Critical patent/JP2016173430A/ja
Application granted granted Critical
Publication of JP6370732B2 publication Critical patent/JP6370732B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、発話から発話意図の抽出を行うためのモデルを学習する発話意図モデル学習装置、発話意図モデル学習方法、発話から発話意図を抽出する発話意図抽出装置、発話意図抽出方法、プログラムに関する。
音声対話システムや議事録作成支援システムにおいて、発話の音声認識結果だけでなく発話意図(例えば、肯定的、否定的など)を抽出する技術が求められている。音声対話システムでは、例えば「明日ねー…」など、文面のみからはただの相槌に見える発話に対しても、場合により「否定的」などの発話意図を読み取って別の提案を行うなど、発話意図に応じた動作が求められる。発話意図を抽出することで、音声対話システムは言葉に表れないユーザの要求にも適切な応答を生成することが可能となる。
一方、議事録作成支援システムにおいては、賛成発話・反対発話などの会議における重要発話の自動抽出が可能となり、会議の全体像の把握や議事録要約生成に役立つ。
このような発話意図抽出の従来技術が、非特許文献1に開示されている。非特許文献1では、少なくとも一単語を含み、単語と単語の間が一定時間以下(例えば0.5秒以下)の時間間隔で連続している区間を発話区間、発話区間の音声を発話と定義する。非特許文献1では、各発話に対し発話に表れる韻律情報(声の高さ、間の取り方など)や言語情報(発話に含まれる単語や品詞)と発話意図との関係性を利用し発話意図抽出を行う。以下、図1〜図3を参照して非特許文献1の発話意図抽出装置の概略を説明する。図1は、非特許文献1の発話意図抽出装置9の構成を示すブロック図である。図2は、非特許文献1の発話意図抽出装置9の動作を示すフローチャートである。図3は、非特許文献1の発話意図抽出装置9の発話意図抽出の例を示す図である。図1に示すように非特許文献1の発話意図抽出装置9は、韻律抽出部901と、認識結果分析部902と、韻律正規化部903と、韻律特徴抽出部904と、言語特徴抽出部905と、発話意図モデル学習部908と、発話意図抽出部909を含む。韻律抽出部901は、発話意図の抽出対象として入力された発話から、韻律(短時間ごとの基本周波数、短時間ごとの音圧レベル)を抽出する(S901)。認識結果分析部902は認識結果を分析し、認識結果に含まれる単語、音素とその開始・終了時刻を得る(S902)。韻律正規化部903は、抽出された韻律(短時間ごとの基本周波数、短時間ごとの音圧レベル)を話者ごとに正規化する(S903)。韻律特徴抽出部904は、韻律特徴(声の高さ、間の長さの平均値、勾配などの統計量)を発話ごとに抽出する(S904)。言語特徴抽出部905は、言語特徴(発話先頭の単語や品詞など)を発話ごとに抽出する(S905)。発話意図モデル学習部908は、発話ごとの韻律特徴および言語特徴と、これに対応する人手で付与した発話意図正解ラベルとを学習データとし、発話意図モデルを予め学習する(S908)。発話意図抽出部909は、学習された発話意図モデルを用い、発話ごとの韻律特徴および言語特徴に基づいて、発話ごとに発話意図を抽出する(S909)。図3では、発話例である「わたしもそうおもいます」の声の高さの平均値が高いこと(韻律特徴)、同発話の先頭2単語が「わたし」「も」であること(言語特徴)から、ステップS909において当該発話の発話意図「肯定的」を抽出している。
D. Hillard, M. Ostendorf, E. Shriberg, Detection of agreement vs. disagreement in meetings: training with unlabeled data, Proc. of the HLT-NAACL Conference, May 2003
発話意図は発話の一部の区間にのみ表出することがある。非特許文献1の発話意図抽出装置9では発話区間全体から韻律特徴を求めるため、発話の一部の区間にのみ表れる韻律の変化を表現することが出来ず、発話意図を正しく抽出することができない場合があった。図4にその一例を示す。図4は、発話意図が発話の一部のみに表出した場合の韻律特徴の変化の例を示す図である。「肯定的」の発話意図が表れる区間では、声の高さの平均値が高くなることが知られているが、図4の例のように発話の一部の区間(ドットハッチングを施した領域)にのみ発話意図「肯定的」が表れる場合、発話意図「肯定的」が表出した区間だけを用いて声の高さの平均値を求めれば、発話意図が肯定的である場合に特有の特徴が表れる(=平均値が高い)ものの、発話区間全体から声の高さの平均値を求めると、発話意図が肯定的である場合に特有の特徴が表れない(=平均値が低い)場合がある。このため非特許文献1の発話意図抽出装置9によっても発話意図を正しく抽出することができない場合があった。
そこで本発明では、発話の一部の区間にのみ発話意図が表出する場合でも正しく発話意図を抽出するためのモデルを学習する発話意図モデル学習装置を提供することを目的とする。
少なくとも一単語を含み、単語と単語の間が一定時間以下の時間間隔で連続している区間を発話区間とし、発話区間の音声を発話とする。本発明の発話意図モデル学習装置は、発話の単語区間ごとの韻律特徴である局所韻律特徴を、アクセント句区間ごとに連結した特徴である局所韻律系列特徴と、アクセント句区間ごとに人手で付与された発話意図ラベルとを学習データとして、アクセント句区間ごとの発話意図の抽出に用いる発話意図モデルを学習する。
本発明の発話意図モデル学習装置によれば、発話の一部の区間にのみ発話意図が表出する場合でも正しく発話意図を抽出するためのモデルを学習することができる。
非特許文献1の発話意図抽出装置9の構成を示すブロック図。 非特許文献1の発話意図抽出装置9の動作を示すフローチャート。 非特許文献1の発話意図抽出装置9の発話意図抽出の例を示す図。 発話意図が発話の一部のみに表出した場合の韻律特徴の変化の例を示す図。 実施例1で用いられる局所韻律特徴の一覧を示す図。 実施例1の発話意図抽出装置1の構成を示すブロック図。 実施例1の発話意図抽出装置1の動作を示すフローチャート。 実施例1の局所韻律特徴抽出部の詳細な構成を示すブロック図。 実施例1の局所韻律特徴抽出部の詳細な動作を示すフローチャート。 局所韻律系列特徴の抽出の例を示す図。 アクセント句ごとに人手で発話意図ラベルを付与した例を示す図。 発話意図モデルを決定木として学習した例を示す図。 実施例2の発話意図抽出装置2の構成を示すブロック図。 実施例2の発話意図抽出装置2の動作を示すフローチャート。 実施例3の発話意図抽出装置2の構成を示すブロック図。 実施例3の発話意図抽出装置2の動作を示すフローチャート。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
<発明の要点>
発話の一部の区間にのみ発話意図が含まれる音声を分析した結果、韻律の変化は単語よりも長い区間に渡って表出しており、特にアクセント句における声の高さの上昇時・下降時の勾配や上昇・下降が始まるタイミングに差が表れることが見出された。このことから、本発明ではアクセント句単位での韻律変化に着目した。ここで、単に従来技術において韻律特徴を抽出する区間を発話全体からアクセント句ごとに変えただけでは、アクセント句区間全体の平均値や勾配を求めることになり、声の高さの上昇時・下降時の勾配や上昇・下降が始まるタイミングなどの局所的な韻律の変化を特徴量として表現することができない。この問題に対処するため、本発明では発話の単語区間ごとの韻律特徴を求めることで局所的な韻律の変化を表現し、それらをアクセント句区間ごとに連結した特徴を発話意図抽出に用いることでアクセント句における局所的な韻律の変化を表現する。以下では、発話の単語区間ごとの韻律特徴を局所韻律特徴、局所韻律特徴をアクセント句区間ごとに連結した特徴を局所韻律系列特徴と呼ぶ。
以下、局所韻律系列特徴に基づいて発話意図を抽出する実施例1の発話意図抽出装置について説明する。本実施例の発話意図抽出装置は、発話と、発話ごとの音声認識結果を入力とする。発話の定義は上述の非特許文献1における定義と同一とする。図5、図6、図7を参照して、本実施例の発話意図抽出装置の構成、および動作について説明する。図5は、本実施例で用いられる局所韻律特徴の一覧を示す図である。図6は、本実施例の発話意図抽出装置1の構成を示すブロック図である。図7は、本実施例の発話意図抽出装置1の動作を示すフローチャートである。図6に示すように、本実施例の発話意図抽出装置1は、韻律抽出部901と、認識結果分析部902と、韻律正規化部903と、局所韻律特徴抽出部104と、アクセント句境界推定部105と、局所韻律系列特徴抽出部106と、アクセント句毎発話意図ラベル作成部107と、発話意図モデル学習部108と、発話意図抽出部109を含む。
<韻律抽出部901>
入力:発話(発話意図の抽出対象として入力された発話)
出力:短時間ごとの基本周波数、短時間ごとの音圧レベル
韻律抽出部901は、発話から、声の高さと声の大きさの物理量を求める。声の高さを表す物理量として基本周波数を、声の大きさを表す物理量として音圧レベルを用いることができる。韻律抽出部901は、これらの物理量(基本周波数、音圧レベル)を短い周期ごとに求める。すなわち、韻律抽出部901は、発話を所定の短時間(例えば10ms)ごとに分析し、短時間ごとの基本周波数と音圧レベルを抽出する(S901)。本実施例では、韻律抽出部901は基本周波数を自己相関法により、音圧レベルを振幅の二乗平均平方根の対数値により得ることとするが、基本周波数、音圧レベルの抽出方法はこれに限定されるものではなく、従来の何れの基本周波数抽出法、音圧レベル抽出法を用いてもよい。
<認識結果分析部902>
入力:発話、発話ごとの音声認識結果
出力:単語系列、各単語の開始・終了時刻、音素系列、各音素の開始・終了時刻
認識結果分析部902は、認識結果に含まれる単語、音素とその開始・終了時刻を得る(S902)。例えば、単語系列は発話ごとの音声認識結果を形態素解析することで取得できる。また単語の開始・終了時刻、音素系列、音素の開始・終了時刻は発話ごとの音声認識結果から音声認識結果のみを受理するネットワーク文法を作成し、単語セグメンテーションまたは音素セグメンテーションを行うことで得られる(参考非特許文献1参照)。ただし、入力の発話ごとの音声認識結果の時点で単語系列や単語の開始・終了時刻、音素系列、音素の開始・終了時刻が得られている場合は、音声認識結果の値を用いてもよい。
(参考非特許文献1:鹿野清宏、河原達也、山本幹雄、伊藤克亘、武田一哉、ITText音声認識システム、pp.47-49/169-170、オーム社、2001)
<韻律正規化部903>
入力:短時間ごとの基本周波数、短時間ごとの音圧レベル、話者ごとの基本周波数の平均値、標準偏差、話者ごとの音圧レベルの平均値、標準偏差
出力:短時間ごとの正規化基本周波数、短時間ごとの正規化音圧レベル
韻律正規化部903は、短時間ごとの基本周波数、短時間ごとの音圧レベルを話者ごとに正規化し、平均0、標準偏差1とする(S903)。これは、声の高さや声の大きさの話者ごとの違いを吸収することに相当する。韻律正規化部903により、発話意図抽出部109において、どんな話者に対しても同一の発話意図抽出基準を適用して発話意図抽出を行うことが可能となる。
ある時間tにおける、短時間ごとの正規化基本周波数f(t)、短時間ごとの正規化音圧レベルP(t)は以下の式で与えられる。
fm(t),Pm(t)は話者mの短時間ごとの基本周波数、短時間ごとの音圧レベルであり、μf,mf,mP,mP,mは話者mの基本周波数の全発話の平均値、標準偏差、音圧レベルの全発話の平均値、標準偏差である。μf,mf,mP,mP,mは、事前に収集した話者mの発話の全発話から算出するものとする。
<局所韻律特徴抽出部104>
入力:短時間ごとの正規化基本周波数、短時間ごとの正規化音圧レベル、単語系列、各単語の開始・終了時刻、音素系列、各音素の開始・終了時刻
出力:局所韻律特徴(図5最右列の全要素)
局所韻律特徴抽出部104は、認識結果に含まれる単語ごとに局所韻律特徴を求める(S104)。局所韻律特徴は、発話意図の表出に伴う局所的な韻律変化を表現するための特徴であり、発話の単語区間ごとの声の高さ、単語区間ごとの声の大きさ、(次の単語あるいは前の単語との)間の取り方、単語区間ごとの話速、単語区間ごとの音の伸ばし方に関する特徴を表現する。局所韻律特徴は、これらの特徴のうち、少なくとも何れか一つ以上の特徴を表現するものであればよい。本実施例では局所韻律特徴として、図5最右列の全要素を含むものとする。以下、図8、図9を参照して局所韻律特徴抽出部104の詳細な構成、および動作について説明する。図8は、本実施例の局所韻律特徴抽出部104の詳細な構成を示すブロック図である。図9は、本実施例の局所韻律特徴抽出部104の詳細な動作を示すフローチャートである。図8に示すように、本実施例の局所韻律特徴抽出部104は、F0局所韻律特徴抽出部1041と、パワー局所韻律特徴抽出部1042と、ポーズ局所韻律特徴抽出部1043と、スピーチレート局所韻律特徴抽出部1044と、デュレーション局所韻律特徴抽出部1045を含む。
<F0局所韻律特徴抽出部1041>
入力:短時間ごとの正規化基本周波数、各単語の開始・終了時刻
出力:単語前半・単語後半それぞれの基本周波数の平均値、標準偏差、最大値、最小値、勾配
F0局所韻律特徴抽出部1041は、声の高さに関する局所韻律特徴を抽出する(S1041)。声の高さに関する局所韻律特徴として、単語前半・単語後半それぞれの基本周波数の平均値、標準偏差、最大値、最小値、勾配が含まれる。
F0局所韻律特徴抽出部1041は、各単語の開始・終了時刻に基づき、単語前半・単語後半の基本周波数の系列を短時間ごとの正規化基本周波数から切り出す。勾配以外は単語前半・単語後半の基本周波数の系列の統計量から、勾配は単語前半・単語後半の基本周波数の系列の回帰分析結果から得られる。ただし、短時間ごとの正規化基本周波数は母音区間でのみ正確な値をとるため、母音区間の正規化基本周波数のみを用いるものとする。本実施例では、音素アライメントにより推定した母音区間を用いるが、別の母音区間推定手法により求めた母音区間を用いてもよい。
<パワー局所韻律特徴抽出部1042>
入力:短時間ごとの正規化音圧レベル、各単語の開始・終了時刻
出力:単語前半・単語後半それぞれの音圧レベルの平均値、標準偏差、最大値、最小値、勾配
パワー所韻律特徴抽出部1042は、声の大きさに関する局所韻律特徴を抽出する(S1042)。声の大きさに関する局所韻律特徴として、単語前半・単語後半それぞれの音圧レベルの平均値、標準偏差、最大値、最小値、勾配が含まれる。
F0局所韻律特徴抽出部1041と同様に、パワー局所韻律特徴抽出部1042は、単語の開始・終了時刻に基づいて単語前半・単語後半それぞれの音圧レベルの系列を短時間ごとの音圧レベルから切り出し、統計量または回帰分析の結果から声の大きさに関する局所韻律特徴を抽出する。ただしパワー所韻律特徴抽出部1042は、F0局所韻律特徴抽出部1041とは異なり、母音以外の区間も含めた単語前半・単語後半の全ての音圧レベルの値を用いて声の大きさに関する局所韻律特徴を求める。
<ポーズ局所韻律特徴抽出部1043>
入力:単語系列、各単語の開始・終了時刻
出力:次の単語までの間の長さ
ポーズ局所韻律特徴抽出部1043は、単語間の間の取り方に関する局所韻律特徴を抽出する(S1043)。単語間の間の取り方に関する局所韻律特徴として次の単語までの(あるいは前の単語からの)間の長さが含まれる。本実施例では、以下の2つの区間を間と定義する。<1>ある単語の終了時刻から次の単語の開始時刻までの区間。<2>音声認識結果に含まれる句読点またはポーズの区間。単語ごとの次の単語までの間の長さは、(次の単語の開始時刻−単語の終了時刻)として得られる。このとき、単語が続けて発声される場合、次の単語までの間の長さは0秒となる。ただし、句読点またはポーズは間とみなすため単語に含めない。また、発話末尾の単語においては、次の単語までの間の長さは0秒であるものとする。
<スピーチレート局所韻律特徴抽出部1044>
入力:音素系列、各単語の開始・終了時刻
出力:単語ごとの話速
スピーチレート局所韻律特徴抽出部1044は、話速に関する局所韻律特徴を抽出する(S1044)。話速に関する局所韻律特徴として、単語ごとの話速が含まれる。話速は単位時間あたりに発話した音素数であるものとし、音素数/(単語の終了時刻−単語の開始時刻)を単語ごとに計算することで得られる。音素数は単語ごとの音素系列に含まれる音素の数である。
<デュレーション局所韻律特徴抽出部1045>
入力:各音素の開始・終了時刻、各単語の開始・終了時刻
出力:単語ごとの音素継続長の平均値、標準偏差、最大値、最小値、単語末尾の音素の音素継続長
デュレーション局所韻律特徴抽出部1045は、音の伸ばし方に関する局所韻律特徴を抽出する(S1045)。音の伸ばし方に関する局所韻律特徴として、単語ごとの音素継続長の平均値、標準偏差、最大値、最小値、単語末尾の音素の音素継続長が含まれる。音素継続長は、音素の終了時刻−音素の開始時刻を音素ごとに計算することで得られる。デュレーション局所韻律特徴抽出部1045は、単語に含まれる全音素に対し音素継続長を求め、それらの値から単語ごとの音素継続長の平均値、標準偏差、最大値、最小値、単語末尾の音素の音素継続長を取得できる。
<アクセント句境界推定部105>
入力:単語系列
出力:アクセント句境界
アクセント句境界推定部105は、単語系列からアクセント句境界を推定する(S105)。ここで、アクセント句境界とは、あるアクセント句と別のアクセント句との境界地点を指し、アクセント句境界に挟まれた区間を一つのアクセント句区間とする。本実施例ではアクセント句境界推定手法に、参考非特許文献2の手法を用いるが、本発明はこれに限定されず、他のどのアクセント句境界推定手法を用いてもよい。
(参考非特許文献2:浅野、松岡、市井、大山、“テキスト音声変換における読み・韻律付与処理の評価:ニュース文を対象として、”第51回情報処理学会全国大会講演論文集、pp.109-100、1995)
<局所韻律系列特徴抽出部106>
入力:局所韻律特徴、アクセント句境界
出力:局所韻律系列特徴
局所韻律系列特徴抽出部106は、アクセント句区間に含まれる単語区間ごとの局所韻律特徴を連結し、アクセント句単位での局所韻律系列特徴を抽出する(S106)。局所韻律系列特徴はアクセント句区間にわたる韻律の局所的な変化を表現する。連結とは、単語ごとの局所韻律特徴ベクトル(局所韻律特徴のベクトル表現)を、アクセント句に含まれる単語数nだけ連結し、局所韻律系列特徴ベクトルを作成することを指す。このとき、nを連結数と呼ぶ。局所韻律系列特徴の抽出の例を図10に示す。図10の例では、アクセント句「そうですね」に含まれる3つの局所韻律特徴ベクトルが連結されて単語連結数3の局所韻律系列特徴ベクトルが生成される。これに対し、アクセント句「うーん」には1つの局所韻律特徴ベクトルのみが含まれるため、この局所韻律特徴ベクトルがそのまま単語連結数1の局所韻律系列特徴ベクトルとされる。一方、アクセント句「わたしですか」に含まれる3つの局所韻律特徴ベクトルは連結されて単語連結数3の局所韻律系列特徴ベクトルが生成される。
<アクセント句毎発話意図ラベル作成部107>
入力:アクセント句境界、発話意図ラベル
出力:アクセント句ごと発話意図ラベル
アクセント句毎発話意図ラベル作成部107は、アクセント句ごとの発話意図ラベルを作成する(S107)。このステップでは、アクセント句境界と、発話意図ラベルが用いられる。発話意図ラベルは、人間が音声を聴取し、発話意図を感じた音声区間にラベルを付与することで得られる。本実施例では、人間が音声を聴取し、「肯定的」「否定的」の二つのラベルのうちの何れかのラベルをアクセント句ごとに付与する。あるアクセント句に対し、各ラベルは高々一つしか付与されないものとし、どのラベルも付与されなかったアクセント句は「どちらでもない」ラベルが付与されたものとする。
例えばアクセント句ごとに各ラベルが占める区間の割合を求め、最も割合が大きいラベルをそのアクセント句の発話意図ラベルとすることができる。図11にアクセント句ごとに人手で発話意図ラベルを付与した例を示す。図11の例において、先頭アクセント句「そうですね」の区間については、「肯定的」ラベルを付与された割合が最も高かったものとする。この場合、先頭アクセント句「そうですね」の発話意図ラベルは人手で付与された割合が最も高かった「肯定的」に決定される。一方、二番目のアクセント句「うーん」最後のアクセント句「わたしですか」については、どのラベルも付与されなかった割合が最も高くなったものとする。この場合、二番目および最後のアクセント句の発話意図ラベルは「どちらでもない」に決定される。
<発話意図モデル学習部108>
入力:局所韻律系列特徴、アクセント句ごと発話意図ラベル
出力:発話意図モデル
発話意図モデル学習部108は、アクセント句ごとの局所韻律系列特徴と、これに対応するアクセント句ごとの発話意図ラベルとを学習データとし、発話意図抽出を行うための発話意図モデルを予め学習する(S108)。発話意図モデルは、連結数nごとに学習する。すなわち、アクセント句ごとの局所韻律系列特徴とそれに対応する発話意図ラベルの集合から、同一の連結数を持つ局所韻律系列特徴とそれに対応する発話意図ラベルを選び、発話意図モデルを学習する。発話意図モデルは、例えば決定木であってもよい。図12に発話意図モデルを決定木として学習した例(連結数2の例)を示す。
決定木は、アクセント句ごとの(同一の連結数を持つ)局所韻律系列特徴とそれに対応する発話意図ラベルの集合を入力とし、CARTなどの公知の決定木学習アルゴリズムを用いて学習してもよいし、人手で決定木の構造としきい値を決めて学習してもよい。発話意図モデルは、条件付き確率場やサポートベクターマシンなどの機械学習により学習してもよい。
なお、上述した発話意図モデル学習部108のみを抜き出して単独の装置(発話意図モデル学習装置)としてもよい。この場合、発話意図モデル学習装置は、前述の局所韻律系列特徴と、アクセント句区間ごとに人手で付与された発話意図ラベルとを学習データとして、アクセント句区間ごとの発話意図の抽出に用いる発話意図モデルを学習する装置として構成される。
<発話意図抽出部109>
入力:局所韻律系列特徴、発話意図モデル
出力:発話ごとの発話意図
発話意図抽出部109は、局所韻律系列特徴と、ステップS108で学習した発話意図モデルに基づいて、アクセント句ごとの発話意図を抽出し、抽出されたアクセント句ごとの発話意図に基づいて、発話ごとの発話意図を抽出する(S109)。
本実施例では、「肯定的」「否定的」「どちらでもない」の三種を発話意図とみなす。発話意図抽出部109は、局所韻律系列特徴を発話意図モデルに入力することで、アクセント句ごとの発話意図を得る。このとき発話意図抽出部109は、局所韻律系列特徴の連結数nに合った発話意図モデルを用いるものとする。
発話意図抽出部109は、発話に含まれる全てのアクセント句ごとの発話意図を求めたのち、後述するように発話ごとの発話意図を決定する。一つの発話中に、アクセント句ごとの発話意図「肯定的」「否定的」が一つも含まれない場合、発話意図抽出部109は当該発話の発話意図を「どちらでもない」とする。一つの発話中に、アクセント句ごとの発話意図「肯定的」「否定的」のどちらか一方のみ含まれる場合、発話意図抽出部109は当該含まれる発話意図を発話ごとの発話意図とする。一つの発話中に、アクセント句ごとの発話意図「肯定的」「否定的」の双方が含まれる場合、発話意図抽出部109は「肯定的」「否定的」それぞれの発話意図の区間の総和が大きい方を発話ごとの発話意図とする。
本実施例の発話意図抽出装置1によれば、発話の一部の区間にのみ発話意図が含まれる場合には、当該音声のアクセント句単位での韻律変化に着目すべきであるという新たな知見を利用し、アクセント句単位での韻律変化を局所韻律系列特徴として抽出し、当該局所韻律系列特徴に基づいて学習された発話意図モデルを用いて発話意図を抽出するように構成したため、発話の一部区間にのみ発話意図が表出する場合でも、当該発話意図を正しく抽出することができる。
以下、実施例1の構成に加え、従来技術(非特許文献1)で用いる発話ごとの韻律特徴を追加して発話意図抽出を行う実施例2の発話意図抽出装置について説明する。本実施例の発話意図抽出装置によれば、発話の一部にのみ発話意図が表出する場合だけでなく、発話全体に発話意図が表出する場合でも、当該発話意図を正しく抽出できる。
図13、図14を参照して本実施例の発話意図抽出装置の構成、および動作について説明する。図13は、本実施例の発話意図抽出装置2の構成を示すブロック図である。図14は、本実施例の発話意図抽出装置2の動作を示すフローチャートである。図13に示すように、本実施例の発話意図抽出装置2は実施例1の発話意図抽出装置1に含まれない発話毎韻律特徴抽出部201を含み、実施例1の発話意図モデル学習部108と、発話意図抽出部109の代わりに、発話意図モデル学習部202と、発話意図抽出部203を含む。その他の構成要件については実施例1と同じである。以下、実施例1と異なる構成要件について説明する。
<発話毎韻律特徴抽出部201>
入力:短時間ごとの正規化基本周波数、短時間ごとの正規化音圧レベル
出力:発話ごとの韻律特徴
発話毎韻律特徴抽出部201は、従来手法(上述のステップS904)と同様の方法で、発話ごとの韻律特徴を抽出する(S201)。発話ごとの韻律特徴には、発話の全区間の基本周波数の平均値、最大値などが含まれる。
<発話意図モデル学習部202、発話意図抽出部203>
発話ごとの韻律特徴が追加される部分以外はステップS108、S109と同様である。すなわち、発話意図モデル学習部202は、前述の局所韻律系列特徴と、発話ごとの韻律特徴の双方を用いて発話意図抽出を行うための発話意図モデルを予め学習する(S202)。発話意図抽出部203は、局所韻律系列特徴と発話ごとの韻律特徴とを結合した特徴を用いて、発話に含まれるアクセント句ごとの発話意図を求める。この後、ステップS109と同様に発話ごとの発話意図を求める。
すなわち、発話意図抽出部203はステップS109と同じように、一つの発話中に、アクセント句ごとの発話意図が一つも含まれない場合、当該発話の発話意図を「どちらでもない」とし、一つの発話中に、アクセント句ごとの発話意図「肯定的」「否定的」のどちらか一方のみ含まれる場合、当該含まれる発話意図を発話ごとの発話意図とし、一つの発話中に、アクセント句ごとの発話意図「肯定的」「否定的」の双方が含まれる場合、それぞれの発話意図の区間の総和が大きい方を発話ごとの発話意図とする。
本実施例の発話意図抽出装置2によれば、実施例1の効果に加え、発話全体に発話意図が表出する場合にも発話意図を抽出することができる。
以下、実施例2の構成に加え、従来技術(非特許文献1)で用いる発話ごとの言語特徴を追加して発話意図抽出を行う実施例3の発話意図抽出装置について説明する。本実施例の発話意図抽出装置によれば、発話意図に基づく言語情報の変化も考慮した発話意図抽出が可能となり、発話意図抽出精度が向上する。
図15、図16を参照して本実施例の発話意図抽出装置の構成、および動作について説明する。図15は、本実施例の発話意図抽出装置3の構成を示すブロック図である。図16は、本実施例の発話意図抽出装置3の動作を示すフローチャートである。図15に示すように、本実施例の発話意図抽出装置3は実施例2の発話意図抽出装置2に含まれない発話毎言語特徴抽出部301を含み、実施例2の発話意図モデル学習部202と、発話意図抽出部203の代わりに、発話意図モデル学習部302と、発話意図抽出部303を含む。その他の構成要件については実施例2と同じである。以下、実施例2と異なる構成要件について説明する。
<発話毎言語特徴抽出部301>
入力:単語系列、各単語の開始・終了時刻、音素系列、各音素の開始・終了時刻
出力:発話ごとの言語特徴
発話毎言語特徴抽出部301は、従来手法(上述のステップS905)と同様の方法で、発話ごとの言語特徴を求める(S301)。発話ごとの言語特徴には、発話に含まれる発話意図に対応したキーワードの数や発話に含まれる単語数などが含まれる。
<発話意図モデル学習部302、発話意図抽出部303>
発話ごとの言語特徴が追加される部分以外は実施例1のステップS108、S109と同様である。すなわち、発話意図モデル学習部302は、前述の局所韻律系列特徴と、発話ごとの韻律特徴と、発話ごとの言語特徴の全てを用いて発話意図抽出を行うための発話意図モデルを予め学習する(S302)。発話意図抽出部303は、局所韻律系列特徴と発話ごとの韻律特徴と発話ごとの言語特徴とを結合した特徴を用いて、発話に含まれるアクセント句ごとの発話意図を求める。この後、ステップS109と同様に発話ごとの発話意図を求める。
すなわち、発話意図抽出部303はステップS109と同じように、一つの発話中に、アクセント句ごとの発話意図が一つも含まれない場合、当該発話の発話意図を「どちらでもない」とし、一つの発話中に、アクセント句ごとの発話意図「肯定的」「否定的」のどちらか一方のみ含まれる場合、当該含まれる発話意図を発話ごとの発話意図とし、一つの発話中に、アクセント句ごとの発話意図「肯定的」「否定的」の双方が含まれる場合、それぞれの発話意図の区間の総和が大きい方を発話ごとの発話意図とする。
本実施例の発話意図抽出装置3によれば、実施例2の効果に加え、発話意図に基づく言語情報の変化も考慮した発話意図抽出が可能となり、発話意図抽出精度が向上する。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. 少なくとも一単語を含み、単語と単語の間が一定時間以下の時間間隔で連続している区間を発話区間とし、前記発話区間の音声を発話とし、
    前記発話の単語区間ごとの韻律特徴である局所韻律特徴を、アクセント句区間ごとに連結した特徴である局所韻律系列特徴と、前記アクセント句区間ごとに付与された発話意図ラベルとを学習データとして、前記アクセント句区間ごとの発話意図の抽出に用いるモデルであって、前記アクセント句区間に含まれる単語数に応じたモデルである発話意図モデルを学習する発話意図モデル学習装置。
  2. 請求項1に記載の発話意図モデル学習装置であって、
    前記アクセント句区間ごとに付与された発話意図ラベルは、前記アクセント句区間の発話意図に対応する音声区間に付与されたラベルに基づく
    発話意図モデル学習装置。
  3. 少なくとも一単語を含み、単語と単語の間が一定時間以下の時間間隔で連続している区間を発話区間とし、前記発話区間の音声を発話とし、
    前記発話の単語区間ごとの韻律特徴である局所韻律特徴を、アクセント句区間ごとに連結した特徴である局所韻律系列特徴と、前記アクセント句区間ごとに付与された発話意図ラベルとを学習データとして、前記アクセント句区間ごとの発話意図の抽出に用いるモデルであって、前記アクセント句区間に含まれる単語数に応じたモデルである発話意図モデルを学習する発話意図モデル学習部と、
    発話意図の抽出対象として入力された発話から、前記局所韻律系列特徴を抽出する局所韻律系列特徴抽出部と、
    前記局所韻律系列特徴と、前記アクセント句区間に含まれる単語数に対応する前記発話意図モデルに基づいて、前記発話に含まれる全てのアクセント句ごとの発話意図を抽出し、抽出されたアクセント句ごとの発話意図に基づいて、発話ごとの発話意図を抽出する発話意図抽出部と
    を含む発話意図抽出装置。
  4. 請求項3に記載の発話意図抽出装置であって、
    前記アクセント句区間ごとに付与された発話意図ラベルは、前記アクセント句区間の発話意図に対応する音声区間に付与されたラベルに基づく
    発話意図抽出装置
  5. 少なくとも一単語を含み、単語と単語の間が一定時間以下の時間間隔で連続している区間を発話区間とし、前記発話区間の音声を発話とし、
    前記発話の単語区間ごとの韻律特徴である局所韻律特徴を、アクセント句区間ごとに連結した特徴である局所韻律系列特徴と、前記アクセント句区間ごとに付与された発話意図ラベルとを学習データとして、前記アクセント句区間ごとの発話意図の抽出に用いるモデルであって、前記アクセント句区間に含まれる単語数に応じたモデルである発話意図モデルを学習する発話意図モデル学習方法。
  6. 少なくとも一単語を含み、単語と単語の間が一定時間以下の時間間隔で連続している区間を発話区間とし、前記発話区間の音声を発話とし、
    前記発話の単語区間ごとの韻律特徴である局所韻律特徴を、アクセント句区間ごとに連結した特徴である局所韻律系列特徴と、前記アクセント句区間ごとに付与された発話意図ラベルとを学習データとして、前記アクセント句区間ごとの発話意図の抽出に用いるモデルであって、前記アクセント句区間に含まれる単語数に応じたモデルである発話意図モデルを学習するステップと、
    発話意図の抽出対象として入力された発話から、前記局所韻律系列特徴を抽出するステップと、
    前記局所韻律系列特徴と、前記アクセント句区間に含まれる単語数に対応する前記発話意図モデルに基づいて、前記発話に含まれる全てのアクセント句ごとの発話意図を抽出し、抽出されたアクセント句ごとの発話意図に基づいて、発話ごとの発話意図を抽出するステップと
    を含む発話意図抽出方法。
  7. コンピュータを請求項1または2に記載の発話意図モデル学習装置として機能させるためのプログラム。
  8. コンピュータを請求項3または4に記載の発話意図抽出装置として機能させるためのプログラム。
JP2015052830A 2015-03-17 2015-03-17 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム Active JP6370732B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015052830A JP6370732B2 (ja) 2015-03-17 2015-03-17 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015052830A JP6370732B2 (ja) 2015-03-17 2015-03-17 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム

Publications (2)

Publication Number Publication Date
JP2016173430A JP2016173430A (ja) 2016-09-29
JP6370732B2 true JP6370732B2 (ja) 2018-08-08

Family

ID=57008175

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015052830A Active JP6370732B2 (ja) 2015-03-17 2015-03-17 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム

Country Status (1)

Country Link
JP (1) JP6370732B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102509821B1 (ko) * 2017-09-18 2023-03-14 삼성전자주식회사 Oos 문장을 생성하는 방법 및 이를 수행하는 장치

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4478939B2 (ja) * 2004-09-30 2010-06-09 株式会社国際電気通信基礎技術研究所 音声処理装置およびそのためのコンピュータプログラム
JP5588932B2 (ja) * 2011-07-05 2014-09-10 日本電信電話株式会社 はなし言葉分析装置とその方法とプログラム
JP5875504B2 (ja) * 2012-11-27 2016-03-02 日本電信電話株式会社 はなし言葉分析装置とその方法とプログラム

Also Published As

Publication number Publication date
JP2016173430A (ja) 2016-09-29

Similar Documents

Publication Publication Date Title
JP6370749B2 (ja) 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
US9905220B2 (en) Multilingual prosody generation
JP6622505B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
WO2017067206A1 (zh) 个性化多声学模型的训练方法、语音合成方法及装置
US12046226B2 (en) Text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score
CN110459202B (zh) 一种韵律标注方法、装置、设备、介质
US10535339B2 (en) Recognition result output device, recognition result output method, and computer program product
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
KR102298901B1 (ko) 텍스트 음성 변환과 함께 멀티태스크 학습을 사용한 감정적 음성 변환 방법 및 장치
CN109326281B (zh) 韵律标注方法、装置和设备
JP6585022B2 (ja) 音声認識装置、音声認識方法およびプログラム
JP6622681B2 (ja) 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム
US20230343319A1 (en) speech processing system and a method of processing a speech signal
CN112397056A (zh) 语音评测方法及计算机存储介质
KR102442020B1 (ko) 말하기의 자동 유창성 평가 방법 및 그 장치
JP2015041081A (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
JP6370732B2 (ja) 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
Abdelmalek et al. High quality Arabic text-to-speech synthesis using unit selection
Ni et al. Quantitative and structural modeling of voice fundamental frequency contours of speech in Mandarin
WO2012032748A1 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
CN113112996A (zh) 用于基于语音的音频和文本对齐的系统和方法
Cai et al. The DKU Speech Synthesis System for 2019 Blizzard Challenge

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180116

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180710

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180711

R150 Certificate of patent or registration of utility model

Ref document number: 6370732

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150