JP6370749B2

JP6370749B2 - 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム

Info

Publication number: JP6370749B2
Application number: JP2015151648A
Authority: JP
Inventors: 厚志安藤; 太一浅見
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-07-31
Filing date: 2015-07-31
Publication date: 2018-08-08
Anticipated expiration: 2035-07-31
Also published as: JP2017032738A

Description

本発明は、発話から発話意図の抽出を行うためのモデルを学習する発話意図モデル学習装置、発話意図モデル学習方法、発話から発話意図を抽出する発話意図抽出装置、発話意図抽出方法、プログラムに関する。

音声対話システムや議事録作成支援システムにおいて、発話の音声認識結果だけでなく発話意図（例えば、肯定的、否定的など）を抽出する技術が求められている。音声対話システムでは、例えば「明日ねー…」など、文面のみからはただの相槌に見える発話に対しても、場合により「否定的」などの発話意図を読み取って別の提案を行うなど、発話意図に応じた動作が求められる。発話意図を抽出することで、音声対話システムは言葉に表れないユーザの要求にも適切な応答を生成することが可能となる。

一方、議事録作成支援システムにおいては、賛成発話・反対発話などの会議における重要発話の自動抽出が可能となり、会議の全体像の把握や議事録要約生成に役立つ。

このような発話意図抽出の従来技術が、非特許文献１に開示されている。非特許文献１では、少なくとも一単語を含み、単語と単語の間が一定時間以下（例えば0.5秒以下）の時間間隔で連続している区間を発話区間、発話区間の音声を発話と定義する。また、一つの発話につき一つの発話意図を持つと仮定する。非特許文献１では、各発話に対し発話に表れる韻律情報（声の高さ、間の取り方など）や言語情報（発話に含まれる単語や品詞）と発話意図との関係性を利用し発話意図抽出を行う。韻律特徴・言語特徴と発話意図との関係性は発話と正解の発話意図のペアの学習データを用いて事前に学習される。以下、図１〜図３を参照して非特許文献１の発話意図抽出装置の概略を説明する。図１は、非特許文献１の発話意図抽出装置９の構成を示すブロック図である。図２は、非特許文献１の発話意図抽出装置９の動作を示すフローチャートである。図３は、非特許文献１の発話意図抽出装置９の発話意図抽出の例を示す図である。図１に示すように非特許文献１の発話意図抽出装置９は、韻律抽出部９０１と、認識結果分析部９０２と、韻律正規化部９０３と、韻律特徴抽出部９０４と、言語特徴抽出部９０５と、発話意図モデル学習部９０８と、発話意図抽出部９０９を含む。韻律抽出部９０１は、発話意図の抽出対象として入力された発話から、韻律（短時間ごとの基本周波数、短時間ごとの音圧レベル）を抽出する（Ｓ９０１）。認識結果分析部９０２は認識結果を分析し、認識結果に含まれる単語、音素とその開始・終了時刻を得る（Ｓ９０２）。韻律正規化部９０３は、抽出された韻律（短時間ごとの基本周波数、短時間ごとの音圧レベル）を話者ごとに正規化する（Ｓ９０３）。韻律特徴抽出部９０４は、韻律特徴（声の高さ、間の長さの平均値、勾配などの統計量）を発話ごとに抽出する（Ｓ９０４）。言語特徴抽出部９０５は、言語特徴（発話先頭の単語や品詞など）を発話ごとに抽出する（Ｓ９０５）。発話意図モデル学習部９０８は、発話ごとの韻律特徴および言語特徴と、これに対応する人手で付与した発話意図正解ラベルとを学習データとし、発話意図モデルを予め学習する（Ｓ９０８）。発話意図抽出部９０９は、学習された発話意図モデルを用い、発話ごとの韻律特徴および言語特徴に基づいて、発話ごとに発話意図を抽出する（Ｓ９０９）。図３では、発話例である「わたしもそうおもいます」の声の高さの平均値が高いこと（韻律特徴）、同発話の先頭２単語が「わたし」「も」であること（言語特徴）から、ステップＳ９０９において当該発話の発話意図「肯定的」を抽出している。

D. Hillard, M. Ostendorf, E. Shriberg, Detection of agreement vs. disagreement in meetings: training with unlabeled data, Proc. of the HLT-NAACL Conference, May 2003

発話意図は発話の一部の区間にのみ表出することがある。非特許文献１の発話意図抽出装置９では発話区間全体から韻律特徴を求めるため、発話の一部の区間にのみ表れる韻律の変化を表現することが出来ず、発話意図を正しく抽出することができない場合があった。図４にその一例を示す。図４は、発話意図が発話の一部のみに表出した場合の韻律特徴の変化の例を示す図である。「肯定的」の発話意図が表れる区間では、声の高さの平均値が高くなることが知られているが、図４の例のように発話の一部の区間（ドットハッチングを施した領域）にのみ発話意図「肯定的」が表れる場合、発話意図「肯定的」が表出した区間だけを用いて声の高さの平均値を求めれば、発話意図が肯定的である場合に特有の特徴が表れる（＝平均値が高い）ものの、発話区間全体から声の高さの平均値を求めると、発話意図が肯定的である場合に特有の特徴が表れない（＝平均値が低い）場合がある。このため非特許文献１の発話意図抽出装置９によっても発話意図を正しく抽出することができない場合があった。

そこで本発明では、発話の一部の区間にのみ発話意図が表出する場合でも正しく発話意図を抽出するためのモデルを学習する発話意図モデル学習装置を提供することを目的とする。

本発明の一態様は、少なくとも一単語を含み、単語と単語の間が一定時間以下の時間間隔で連続している区間を発話区間とし、前記発話区間の音声を発話とし、前記発話に含まれる部分区間ごとに抽出した発話意図である部分区間毎発話意図に対応するインデクスの列である部分区間毎発話意図インデクス系列と、前記発話ごとに人手で付与された発話意図ラベルとを学習データとして、前記発話ごとの発話意図の抽出に用いるＮ−ｇｒａｍモデルである発話意図Ｎ−ｇｒａｍモデルを学習する。

本発明によれば、発話の一部の区間にのみ発話意図が表出する場合でも正しく発話意図を抽出するためのモデルを学習することができる。

非特許文献１の発話意図抽出装置９の構成を示すブロック図。非特許文献１の発話意図抽出装置９の動作を示すフローチャート。非特許文献１の発話意図抽出装置９の発話意図抽出の例を示す図。発話意図が発話の一部のみに表出した場合の韻律特徴の変化の例を示す図。実施例１で用いられる局所韻律特徴の一覧を示す図。実施例１の発話意図抽出装置１の構成を示すブロック図。実施例１の発話意図抽出装置１の動作を示すフローチャート。実施例１の局所韻律特徴抽出部の詳細な構成を示すブロック図。実施例１の局所韻律特徴抽出部の詳細な動作を示すフローチャート。局所韻律系列特徴の抽出の例を示す図。アクセント句ごとに人手で発話意図ラベルを付与した例を示す図。発話意図モデルを決定木として学習した例を示す図。非特許文献１の発話意図抽出装置９による、一つの発話に二つ以上の発話意図の特徴が表れる発話からの発話意図抽出の例を示す図。実施例１の発話意図抽出装置１による、一つの発話に二つ以上の発話意図の特徴が表れる発話からの発話意図抽出の例を示す図。発話意図Ｎ−ｇｒａｍモデルに基づく発話毎の発話意図抽出の例を示す図（確率ベクトルを用いないもの）。発話意図Ｎ−ｇｒａｍモデルに基づく発話毎の発話意図抽出の例を示す図（確率ベクトルを用いるもの）。実施例２の発話意図抽出装置２の構成を示すブロック図。実施例２の発話意図抽出装置２の動作を示すフローチャート。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

また、以下の説明では、発話の一部の区間のことを部分区間という。部分区間の例として、単語、アクセント句、イントネーション句がある。

＜実施例１の発明の要点＞
発話の一部の区間にのみ発話意図が含まれる音声を分析した結果、韻律の変化は単語よりも長い区間に渡って表出しており、特にアクセント句における声の高さの上昇時・下降時の勾配や上昇・下降が始まるタイミングに差が表れることが見出された。このことから、本発明ではアクセント句単位での韻律変化に着目した。ここで、単に従来技術において韻律特徴を抽出する区間を発話全体からアクセント句ごとに変えただけでは、アクセント句区間全体の平均値や勾配を求めることになり、声の高さの上昇時・下降時の勾配や上昇・下降が始まるタイミングなどの局所的な韻律の変化を特徴量として表現することができない。この問題に対処するため、本発明では発話の単語区間ごとの韻律特徴を求めることで局所的な韻律の変化を表現し、それらをアクセント句区間ごとに連結した特徴を発話意図抽出に用いることでアクセント句における局所的な韻律の変化を表現する。以下では、発話の単語区間ごとの韻律特徴を局所韻律特徴、局所韻律特徴をアクセント句区間ごとに連結した特徴を局所韻律系列特徴と呼ぶ。

＜実施例１の具体的説明＞
以下、局所韻律系列特徴に基づいて発話意図を抽出する実施例１の発話意図抽出装置について説明する。本実施例の発話意図抽出装置は、発話と、発話ごとの音声認識結果を入力とする。発話の定義は上述の非特許文献１における定義と同一とする。図５、図６、図７を参照して、本実施例の発話意図抽出装置の構成、および動作について説明する。図５は、本実施例で用いられる局所韻律特徴の一覧を示す図である。図６は、本実施例の発話意図抽出装置１の構成を示すブロック図である。図７は、本実施例の発話意図抽出装置１の動作を示すフローチャートである。図６に示すように、本実施例の発話意図抽出装置１は、韻律抽出部９０１と、認識結果分析部９０２と、韻律正規化部９０３と、局所韻律特徴抽出部１０４と、アクセント句境界推定部１０５と、局所韻律系列特徴抽出部１０６と、アクセント句毎発話意図ラベル作成部１０７と、発話意図モデル学習部１０８と、発話意図抽出部１０９を含む。

＜韻律抽出部９０１＞
入力：発話（発話意図の抽出対象として入力された発話）
出力：短時間ごとの基本周波数、短時間ごとの音圧レベル
韻律抽出部９０１は、発話から、声の高さと声の大きさの物理量を求める。声の高さを表す物理量として基本周波数を、声の大きさを表す物理量として音圧レベルを用いることができる。韻律抽出部９０１は、これらの物理量（基本周波数、音圧レベル）を短い周期ごとに求める。すなわち、韻律抽出部９０１は、発話を所定の短時間（例えば10ms）ごとに分析し、短時間ごとの基本周波数と音圧レベルを抽出する（Ｓ９０１）。本実施例では、韻律抽出部９０１は基本周波数を自己相関法により、音圧レベルを振幅の二乗平均平方根の対数値により得ることとするが、基本周波数、音圧レベルの抽出方法はこれに限定されるものではなく、従来の何れの基本周波数抽出法、音圧レベル抽出法を用いてもよい。

＜認識結果分析部９０２＞
入力：発話、発話ごとの音声認識結果
出力：単語系列、各単語の開始・終了時刻、音素系列、各音素の開始・終了時刻
認識結果分析部９０２は、認識結果に含まれる単語、音素とその開始・終了時刻を得る（Ｓ９０２）。例えば、単語系列は発話ごとの音声認識結果を形態素解析することで取得できる。また単語の開始・終了時刻、音素系列、音素の開始・終了時刻は発話ごとの音声認識結果から音声認識結果のみを受理するネットワーク文法を作成し、単語セグメンテーションまたは音素セグメンテーションを行うことで得られる（参考非特許文献１参照）。ただし、入力の発話ごとの音声認識結果の時点で単語系列や単語の開始・終了時刻、音素系列、音素の開始・終了時刻が得られている場合は、音声認識結果の値を用いてもよい。
（参考非特許文献１：鹿野清宏、河原達也、山本幹雄、伊藤克亘、武田一哉、ITText音声認識システム、pp.47-49/169-170、オーム社、2001）

＜韻律正規化部９０３＞
入力：短時間ごとの基本周波数、短時間ごとの音圧レベル、話者ごとの基本周波数の平均値、標準偏差、話者ごとの音圧レベルの平均値、標準偏差
出力：短時間ごとの正規化基本周波数、短時間ごとの正規化音圧レベル
韻律正規化部９０３は、短時間ごとの基本周波数、短時間ごとの音圧レベルを話者ごとに正規化し、平均０、標準偏差１とする（Ｓ９０３）。これは、声の高さや声の大きさの話者ごとの違いを吸収することに相当する。韻律正規化部９０３により、発話意図抽出部１０９において、どんな話者に対しても同一の発話意図抽出基準を適用して発話意図抽出を行うことが可能となる。

ある時間tにおける、短時間ごとの正規化基本周波数f^￣(t)、短時間ごとの正規化音圧レベルP^￣(t)は以下の式で与えられる。

f_m(t),P_m(t)は話者mの短時間ごとの基本周波数、短時間ごとの音圧レベルであり、μ_f,m,σ_f,m,μ_P,m,σ_P,mは話者mの基本周波数の全発話の平均値、標準偏差、音圧レベルの全発話の平均値、標準偏差である。μ_f,m,σ_f,m,μ_P,m,σ_P,mは、事前に収集した話者mの発話の全発話から算出するものとする。

＜局所韻律特徴抽出部１０４＞
入力：短時間ごとの正規化基本周波数、短時間ごとの正規化音圧レベル、単語系列、各単語の開始・終了時刻、音素系列、各音素の開始・終了時刻
出力：局所韻律特徴（図５最右列の全要素）

局所韻律特徴抽出部１０４は、認識結果に含まれる単語ごとに局所韻律特徴を求める（Ｓ１０４）。局所韻律特徴は、発話意図の表出に伴う局所的な韻律変化を表現するための特徴であり、発話の単語区間ごとの声の高さ、単語区間ごとの声の大きさ、（次の単語あるいは前の単語との）間の取り方、単語区間ごとの話速、単語区間ごとの音の伸ばし方に関する特徴を表現する。局所韻律特徴は、これらの特徴のうち、少なくとも何れか一つ以上の特徴を表現するものであればよい。本実施例では局所韻律特徴として、図５最右列の全要素を含むものとする。以下、図８、図９を参照して局所韻律特徴抽出部１０４の詳細な構成、および動作について説明する。図８は、本実施例の局所韻律特徴抽出部１０４の詳細な構成を示すブロック図である。図９は、本実施例の局所韻律特徴抽出部１０４の詳細な動作を示すフローチャートである。図８に示すように、本実施例の局所韻律特徴抽出部１０４は、Ｆ０局所韻律特徴抽出部１０４１と、パワー局所韻律特徴抽出部１０４２と、ポーズ局所韻律特徴抽出部１０４３と、スピーチレート局所韻律特徴抽出部１０４４と、デュレーション局所韻律特徴抽出部１０４５を含む。

＜Ｆ０局所韻律特徴抽出部１０４１＞
入力：短時間ごとの正規化基本周波数、各単語の開始・終了時刻
出力：単語前半・単語後半それぞれの基本周波数の平均値、標準偏差、最大値、最小値、勾配
Ｆ０局所韻律特徴抽出部１０４１は、声の高さに関する局所韻律特徴を抽出する（Ｓ１０４１）。声の高さに関する局所韻律特徴として、単語前半・単語後半それぞれの基本周波数の平均値、標準偏差、最大値、最小値、勾配が含まれる。

Ｆ０局所韻律特徴抽出部１０４１は、各単語の開始・終了時刻に基づき、単語前半・単語後半の基本周波数の系列を短時間ごとの正規化基本周波数から切り出す。勾配以外は単語前半・単語後半の基本周波数の系列の統計量から、勾配は単語前半・単語後半の基本周波数の系列の回帰分析結果から得られる。ただし、短時間ごとの正規化基本周波数は母音区間でのみ正確な値をとるため、母音区間の正規化基本周波数のみを用いるものとする。本実施例では、音素アライメントにより推定した母音区間を用いるが、別の母音区間推定手法により求めた母音区間を用いてもよい。

＜パワー局所韻律特徴抽出部１０４２＞
入力：短時間ごとの正規化音圧レベル、各単語の開始・終了時刻
出力：単語前半・単語後半それぞれの音圧レベルの平均値、標準偏差、最大値、最小値、勾配
パワー所韻律特徴抽出部１０４２は、声の大きさに関する局所韻律特徴を抽出する（Ｓ１０４２）。声の大きさに関する局所韻律特徴として、単語前半・単語後半それぞれの音圧レベルの平均値、標準偏差、最大値、最小値、勾配が含まれる。

Ｆ０局所韻律特徴抽出部１０４１と同様に、パワー局所韻律特徴抽出部１０４２は、単語の開始・終了時刻に基づいて単語前半・単語後半それぞれの音圧レベルの系列を短時間ごとの音圧レベルから切り出し、統計量または回帰分析の結果から声の大きさに関する局所韻律特徴を抽出する。ただしパワー所韻律特徴抽出部１０４２は、Ｆ０局所韻律特徴抽出部１０４１とは異なり、母音以外の区間も含めた単語前半・単語後半の全ての音圧レベルの値を用いて声の大きさに関する局所韻律特徴を求める。

＜ポーズ局所韻律特徴抽出部１０４３＞
入力：単語系列、各単語の開始・終了時刻
出力：次の単語までの間の長さ
ポーズ局所韻律特徴抽出部１０４３は、単語間の間の取り方に関する局所韻律特徴を抽出する（Ｓ１０４３）。単語間の間の取り方に関する局所韻律特徴として次の単語までの（あるいは前の単語からの）間の長さが含まれる。本実施例では、以下の２つの区間を間と定義する。＜１＞ある単語の終了時刻から次の単語の開始時刻までの区間。＜２＞音声認識結果に含まれる句読点またはポーズの区間。単語ごとの次の単語までの間の長さは、（次の単語の開始時刻−単語の終了時刻）として得られる。このとき、単語が続けて発声される場合、次の単語までの間の長さは０秒となる。ただし、句読点またはポーズは間とみなすため単語に含めない。また、発話末尾の単語においては、次の単語までの間の長さは０秒であるものとする。

＜スピーチレート局所韻律特徴抽出部１０４４＞
入力：音素系列、各単語の開始・終了時刻
出力：単語ごとの話速
スピーチレート局所韻律特徴抽出部１０４４は、話速に関する局所韻律特徴を抽出する（Ｓ１０４４）。話速に関する局所韻律特徴として、単語ごとの話速が含まれる。話速は単位時間あたりに発話した音素数であるものとし、音素数／（単語の終了時刻−単語の開始時刻）を単語ごとに計算することで得られる。音素数は単語ごとの音素系列に含まれる音素の数である。

＜デュレーション局所韻律特徴抽出部１０４５＞
入力：各音素の開始・終了時刻、各単語の開始・終了時刻
出力：単語ごとの音素継続長の平均値、標準偏差、最大値、最小値、単語末尾の音素の音素継続長
デュレーション局所韻律特徴抽出部１０４５は、音の伸ばし方に関する局所韻律特徴を抽出する（Ｓ１０４５）。音の伸ばし方に関する局所韻律特徴として、単語ごとの音素継続長の平均値、標準偏差、最大値、最小値、単語末尾の音素の音素継続長が含まれる。音素継続長は、音素の終了時刻−音素の開始時刻を音素ごとに計算することで得られる。デュレーション局所韻律特徴抽出部１０４５は、単語に含まれる全音素に対し音素継続長を求め、それらの値から単語ごとの音素継続長の平均値、標準偏差、最大値、最小値、単語末尾の音素の音素継続長を取得できる。

＜アクセント句境界推定部１０５＞
入力：単語系列
出力：アクセント句境界
アクセント句境界推定部１０５は、単語系列からアクセント句境界を推定する（Ｓ１０５）。ここで、アクセント句境界とは、あるアクセント句と別のアクセント句との境界地点を指し、アクセント句境界に挟まれた区間を一つのアクセント句区間とする。本実施例ではアクセント句境界推定手法に、参考非特許文献２の手法を用いるが、本発明はこれに限定されず、他のどのアクセント句境界推定手法を用いてもよい。
（参考非特許文献２：浅野、松岡、市井、大山、“テキスト音声変換における読み・韻律付与処理の評価:ニュース文を対象として、”第51回情報処理学会全国大会講演論文集、pp.109-100、1995）

＜局所韻律系列特徴抽出部１０６＞
入力：局所韻律特徴、アクセント句境界
出力：局所韻律系列特徴
局所韻律系列特徴抽出部１０６は、アクセント句区間に含まれる単語区間ごとの局所韻律特徴を連結し、アクセント句単位での局所韻律系列特徴を抽出する（Ｓ１０６）。局所韻律系列特徴はアクセント句区間にわたる韻律の局所的な変化を表現する。連結とは、単語ごとの局所韻律特徴ベクトル（局所韻律特徴のベクトル表現）を、アクセント句に含まれる単語数ｎだけ連結し、局所韻律系列特徴ベクトルを作成することを指す。このとき、ｎを連結数と呼ぶ。局所韻律系列特徴の抽出の例を図１０に示す。図１０の例では、アクセント句「そうですね」に含まれる３つの局所韻律特徴ベクトルが連結されて単語連結数３の局所韻律系列特徴ベクトルが生成される。これに対し、アクセント句「うーん」には１つの局所韻律特徴ベクトルのみが含まれるため、この局所韻律特徴ベクトルがそのまま単語連結数１の局所韻律系列特徴ベクトルとされる。一方、アクセント句「わたしですか」に含まれる３つの局所韻律特徴ベクトルは連結されて単語連結数３の局所韻律系列特徴ベクトルが生成される。

＜アクセント句毎発話意図ラベル作成部１０７＞
入力：アクセント句境界、発話意図ラベル
出力：アクセント句ごと発話意図ラベル
アクセント句毎発話意図ラベル作成部１０７は、アクセント句ごとの発話意図ラベルを作成する（Ｓ１０７）。このステップでは、アクセント句境界と、発話意図ラベルが用いられる。発話意図ラベルは、人間が音声を聴取し、発話意図を感じた音声区間にラベルを付与することで得られる。本実施例では、人間が音声を聴取し、「肯定的」「否定的」の二つのラベルのうちの何れかのラベルをアクセント句ごとに付与する。あるアクセント句に対し、各ラベルは高々一つしか付与されないものとし、どのラベルも付与されなかったアクセント句は「どちらでもない」ラベルが付与されたものとする。

例えばアクセント句ごとに各ラベルが占める区間の割合を求め、最も割合が大きいラベルをそのアクセント句の発話意図ラベルとすることができる。図１１にアクセント句ごとに人手で発話意図ラベルを付与した例を示す。図１１の例において、先頭アクセント句「そうですね」の区間については、「肯定的」ラベルを付与された割合が最も高かったものとする。この場合、先頭アクセント句「そうですね」の発話意図ラベルは人手で付与された割合が最も高かった「肯定的」に決定される。一方、二番目のアクセント句「うーん」最後のアクセント句「わたしですか」については、どのラベルも付与されなかった割合が最も高くなったものとする。この場合、二番目および最後のアクセント句の発話意図ラベルは「どちらでもない」に決定される。

＜発話意図モデル学習部１０８＞
入力：局所韻律系列特徴、アクセント句ごと発話意図ラベル
出力：発話意図モデル
発話意図モデル学習部１０８は、アクセント句ごとの局所韻律系列特徴と、これに対応するアクセント句ごとの発話意図ラベルとを学習データとし、発話意図抽出を行うための発話意図モデルを予め学習する（Ｓ１０８）。発話意図モデルは、連結数ｎごとに学習する。すなわち、アクセント句ごとの局所韻律系列特徴とそれに対応する発話意図ラベルの集合から、同一の連結数を持つ局所韻律系列特徴とそれに対応する発話意図ラベルを選び、発話意図モデルを学習する。発話意図モデルは、例えば決定木であってもよい。図１２に発話意図モデルを決定木として学習した例（連結数２の例）を示す。

決定木は、アクセント句ごとの（同一の連結数を持つ）局所韻律系列特徴とそれに対応する発話意図ラベルの集合を入力とし、ＣＡＲＴなどの公知の決定木学習アルゴリズムを用いて学習してもよいし、人手で決定木の構造としきい値を決めて学習してもよい。発話意図モデルは、条件付き確率場やサポートベクターマシンなどの機械学習により学習してもよい。

なお、上述した発話意図モデル学習部１０８のみを抜き出して単独の装置（発話意図モデル学習装置）としてもよい。この場合、発話意図モデル学習装置は、前述の局所韻律系列特徴と、アクセント句区間ごとに人手で付与された発話意図ラベルとを学習データとして、アクセント句区間ごとの発話意図の抽出に用いる発話意図モデルを学習する装置として構成される。

＜発話意図抽出部１０９＞
入力：局所韻律系列特徴、発話意図モデル
出力：発話ごとの発話意図
発話意図抽出部１０９は、局所韻律系列特徴と、ステップＳ１０８で学習した発話意図モデルに基づいて、アクセント句ごとの発話意図を抽出し、抽出されたアクセント句ごとの発話意図に基づいて、発話ごとの発話意図を抽出する（Ｓ１０９）。

本実施例では、「肯定的」「否定的」「どちらでもない」の三種を発話意図とみなす。発話意図抽出部１０９は、局所韻律系列特徴を発話意図モデルに入力することで、アクセント句ごとの発話意図を得る。このとき発話意図抽出部１０９は、局所韻律系列特徴の連結数ｎに合った発話意図モデルを用いるものとする。

発話意図抽出部１０９は、発話に含まれる全てのアクセント句ごとの発話意図を求めたのち、後述するように発話ごとの発話意図を決定する。一つの発話中に、アクセント句ごとの発話意図「肯定的」「否定的」が一つも含まれない場合、発話意図抽出部１０９は当該発話の発話意図を「どちらでもない」とする。一つの発話中に、アクセント句ごとの発話意図「肯定的」「否定的」のどちらか一方のみ含まれる場合、発話意図抽出部１０９は当該含まれる発話意図を発話ごとの発話意図とする。一つの発話中に、アクセント句ごとの発話意図「肯定的」「否定的」の双方が含まれる場合、発話意図抽出部１０９は「肯定的」「否定的」それぞれの発話意図の区間の総和が大きい方を発話ごとの発話意図とする。

本実施例の発話意図抽出装置１によれば、発話の一部の区間にのみ発話意図が含まれる場合には、当該音声のアクセント句単位での韻律変化に着目すべきであるという新たな知見を利用し、アクセント句単位での韻律変化を局所韻律系列特徴として抽出し、当該局所韻律系列特徴に基づいて学習された発話意図モデルを用いて発話意図を抽出するように構成したため、発話の一部区間にのみ発話意図が表出する場合でも、当該発話意図を正しく抽出することができる。

＜実施例２の発明の要点＞
機械との音声対話や打合せでは、一人の話者が継続して話すことがある。このような場合、一つの発話に二つ以上の発話意図の特徴が表れる発話が発生することもある。例えば、発話単位では否定の発話意図である「その通りです。しかし私は反対です。」という発話には、発話の前半に肯定的な発話意図の特徴が、発話の後半に否定的な発話意図の特徴が表れる（図１３参照）。しかし、非特許文献１の発話意図抽出装置９は、一つの発話には一つの発話意図のみが表れると仮定し、発話全体から求めた韻律特徴や言語特徴に基づいて発話意図抽出を行う。そのため、非特許文献１の発話意図抽出装置９で求めた韻律特徴や言語特徴には異なる種類の発話意図の特徴が含まれることがあると考えられ、非特許文献１の発話意図抽出装置９では正しく発話意図を抽出することが困難な場合があった。

一つの発話に二つ以上の発話意図の特徴が表れる発話が発生する場合、発話全体での発話意図は部分区間ごとに求めた発話意図の順序と高い関係性があると考えられる。以下、図１４を参照しながら説明する。例えば、発話前半に肯定、後半に否定が表れる場合は発話全体として否定的な発話意図を感じることが多い。また、発話前半に否定、後半に肯定が表れる場合は発話全体として肯定的な発話意図を感じることが多い。

実施例１では、部分区間ごとに表れる発話意図の順序を考慮することなく、肯定的/否定的な発話意図の部分区間の長さのみに基づいて部分区間ごとの発話意図抽出結果を統合し、発話ごとの発話意図を抽出している。このため、発話ごとの発話意図抽出精度が低下し、図１４の例のように、発話単位では否定の発話意図である「その通りです。しかし私は反対です。」という発話を肯定的な意図を有すると認識してしまう場合もある。

実施例２の発明の要点は、部分区間ごとの発話意図の時系列情報と発話ごとの発話意図の関係性をＮ−ｇｒａｍモデルとして学習する点にある。Ｎ−ｇｒａｍモデルとは、ある文（単語の系列）の出現確率をＮ単語の連鎖の出現確率の積として表現するモデルであり（参考非特許文献３）、単語の順序が文の出現確率に反映される。これを発話意図に適用する。以下、図１５を参照しながら説明する（本図ではＮ＝３である）。すなわち、発話ごとの発話意図別に部分区間ごとの発話意図Ｎ連鎖のモデル（以下、発話意図Ｎ−ｇｒａｍモデルという）を事前に作成し、発話意図の抽出対象として入力された発話に対応する部分区間ごとの発話意図の系列に対して、その出現確率が最大となるような発話ごとの発話意図の発話意図Ｎ−ｇｒａｍモデルを選択することで発話ごとの発話意図を抽出する。これにより、部分区間ごとの発話意図の順序情報を利用した発話ごとの発話意図の抽出が可能となる。

また、実施例１や図１５の例では部分区間ごとに３つの発話意図（肯定的、否定的、どちらでもない）を抽出している。この抽出結果をそのまま発話意図Ｎ−ｇｒａｍモデルに利用してもよいが、部分区間ごとの発話意図抽出結果をより多くの分類に分け（例えば、強く肯定的、やや肯定的、など）、それらを発話意図Ｎ−ｇｒａｍモデルに利用する方が発話意図Ｎ−ｇｒａｍモデルの表現精度が増し、発話ごとの発話意図抽出の精度が向上すると考えられる。そこで、本実施例では、部分区間ごとの発話意図の抽出結果を３つの発話意図ラベルではなく各発話意図の確率のベクトルとして表現し、当該ベクトルをベクトル量子化しインデクス（以下、発話意図インデクスという）に変換することで、各発話意図の分類の多様化と発話意図抽出精度の向上を図る（図１６参照）。（参考非特許文献３：鹿野清宏、河原達也、山本幹雄、伊藤克亘、武田一哉、IT Text音声認識システム、pp.53-69、オーム社、2001）

＜実施例２の具体的説明＞
以下、Ｎ−ｇｒａｍモデルを用いて発話意図を抽出する実施例２の発話意図抽出装置について説明する。本実施例の発話意図抽出装置は、発話と、発話ごとの音声認識結果を入力とする。発話の定義は上述の非特許文献１における定義と同一とする。図１７、図１８を参照して、本実施例の発話意図抽出装置の構成、および動作について説明する。図１７は、本実施例の発話意図抽出装置２の構成を示すブロック図である。図１８は、本実施例の発話意図抽出装置２の動作を示すフローチャートである。図１７に示すように、本実施例の発話意図抽出装置２は、部分区間毎特徴量抽出部２０１と、部分区間毎発話意図モデル学習部２０２と、部分区間毎発話意図抽出部２０３と、発話意図インデクスコードブック作成部２０４と、発話意図インデクス変換部２０５と、Ｎ−ｇｒａｍモデル学習部２０６と、発話毎発話意図抽出部２０７を含む。

なお、部分区間毎発話意図モデル学習部２０２、Ｎ−ｇｒａｍモデル学習部２０６部で学習に用いる発話は、同一のものでもよいし、異なるものでもよい。

＜部分区間毎特徴量抽出部２０１＞
入力：発話、発話ごとの音声認識結果
出力：部分区間ごとの特徴量
部分区間毎特徴量抽出部２０１は、部分区間ごとの特徴量を抽出する（Ｓ２０１）。例えば、部分区間をアクセント句とし、実施例１の９０１〜９０３、１０４〜１０６と同様の方法で特徴量として局所韻律系列特徴を抽出してもよい。また、部分区間ごとの特徴量は、韻律特徴または言語特徴の少なくとも一つを含む。韻律特徴は、実施例１の局所韻律特徴の少なくとも一つを含む。言語特徴は、例えば部分区間内の単語列のＢａｇ−ｏｆ−Ｗｏｒｄｓを用いることができるが、部分区間に含まれる単語から決定可能な特徴量であればどのような特徴量を用いてもよい。

＜部分区間毎発話意図モデル学習部２０２＞
入力：部分区間ごとの特徴量、部分区間ごとの発話意図ラベル
出力：部分区間ごとの発話意図モデル
部分区間毎発話意図モデル学習部２０２は、部分区間ごとの特徴量と、それに対応する部分区間ごとの発話意図ラベルを用いて、部分区間ごとの特徴量と部分区間ごとの発話意図との関係性を表現するモデルを学習する（Ｓ２０２）。ここでは学習手法としてニューラルネットワークを用いるが、クラス分類が可能な他の学習手法を用いてもよい。また、学習を行わず、人手で部分区間ごとの特徴量と部分区間ごとの発話意図との関係性を表現するルールを作成してもよい。

＜部分区間毎発話意図抽出部２０３＞
入力：部分区間ごとの特徴量、部分区間ごとの発話意図モデル
出力：部分区間ごとの発話意図の確率ベクトル
部分区間毎発話意図抽出部２０３は、部分区間ごとの発話意図モデルを用いて、部分区間ごとの特徴量からその部分区間の発話意図の確率を求める（Ｓ２０３）。部分区間の発話意図の確率は、例えばニューラルネットワークであれば出力層の活性化関数にソフトマックス関数を用いた際の出力値などを用いる。部分区間の発話意図の確率を結合し、部分区間ごとの発話意図の確率ベクトルとして出力する。

なお、確率ベクトルを出力する代わりに、部分区間ごとの発話意図、つまり、肯定的、否定的、どちらでもない、のいずれかの値をそのまま出力してもよい。

＜発話意図インデクスコードブック作成部２０４＞
入力：部分区間ごとの発話意図の確率ベクトル
出力：発話意図インデクスコードブック
発話意図インデクスコードブック作成部２０４は、部分区間ごとの発話意図の確率ベクトルを発話意図インデクスに変換するための、コードブックを作成する（Ｓ２０４）。ここでは、ベクトル量子化のためのコードブック作成方法としてｋ平均法を用いる。部分区間ごとの発話意図の確率ベクトルの集合を用意し、クラスタ数をｋ個としてｋ平均法を適用することで、部分区間ごとの発話意図の確率ベクトルのセントロイドがｋ個得られる。各セントロイドに発話意図インデクスを割り当て、コードブックとする。ｋの数は発話意図の分類の数であり、ｋが多いほど発話意図の分類を細かくすることに相当する。例えば、ｋ＝２０とする。また、発話意図インデクス変換部２０４にてベクトル量子化が可能であるならば、既存のどのコードブック作成方法を用いてもよい。

なお、部分区間毎発話意図抽出部２０３で確率ベクトルの代わりに部分区間ごとの発話意図の値をそのまま出力することとした場合は、肯定的、否定的、どちらでもない、のそれぞれに１、２、３のインデクスを付与するなどとすればよい。また、図１５のように、肯定的、否定的、どちらでもない、をそのままインデクスとするのでもよい。

＜発話意図インデクス変換部２０５＞
入力：部分区間ごとの発話意図の確率ベクトル、発話意図インデクスコードブック
出力：部分区間ごとの発話意図インデクス
発話意図インデクス変換部２０５は、部分区間ごとの発話意図の確率ベクトルを部分区間ごとの発話意図インデクスに変換する（Ｓ２０５）。ｋ平均法を用いて発話意図インデクスコードブックを作成した場合、ある部分区間の発話意図の確率ベクトルから最もユークリッド距離の近いセントロイドの発話意図インデクスを、その部分区間における発話意図インデクスとする。

なお、部分区間ごとの発話意図の確率ベクトルの系列が入力される場合は、部分区間ごとの発話意図インデクスの系列が出力される。

＜Ｎ−ｇｒａｍモデル学習部２０６＞
入力：部分区間ごとの発話意図インデクス（の系列）、発話ごとの発話意図ラベル
出力：発話意図Ｎ−ｇｒａｍモデル
Ｎ−ｇｒａｍモデル学習部２０６は、発話ごとの発話意図別に、部分区間ごとの発話意図インデクスのＮ−ｇｒａｍである発話意図Ｎ−ｇｒａｍを学習する（Ｓ２０６）。ここでは、Ｎ＝３としてモデル学習を行う。発話意図Ｎ−ｇｒａｍの学習は、Ｎ−ｇｒａｍ言語モデルの学習と同様の枠組みで行う。すなわち、Ｎ−ｇｒａｍ確率は最尤推定により決定し、その後学習データに含まれなかった発話意図Ｎ−ｇｒａｍへの対処としてバックオフ平滑化を実施する。出力として、発話ごとの発話意図が肯定的、否定的、どちらでもない、のそれぞれにおける発話意図Ｎ−ｇｒａｍモデルを得る（図１５、図１６参照）。すなわち、３つの発話意図Ｎ−ｇｒａｍモデルを得る。

＜発話毎発話意図抽出部２０７＞
入力：部分区間ごとの発話意図インデクス（の系列）、発話意図Ｎ−ｇｒａｍモデル
出力：発話ごとの発話意図の抽出結果
発話毎発話意図抽出部２０７は、発話意図Ｎ−ｇｒａｍモデルを用いて部分区間ごとの発話意図インデクス（の系列）から発話ごとの発話意図を抽出する（Ｓ２０７）。ある発話全体の部分区間ごとの発話意図インデクスの出現確率を、Ｎ−ｇｒａｍモデル学習部２０６の出力の発話意図Ｎ−ｇｒａｍモデルごとに求める。ある発話全体の部分区間ごとの発話意図インデクスの出現確率が最も高くなるような発話意図Ｎ−ｇｒａｍモデルが発話ごとの発話意図の抽出結果となる（図１５、図１６参照）。

具体的には、以下のようにして発話ごとの発話意図を求める。なお、ここでは部分区間ごとの発話意図インデクスの系列の代わりに部分区間ごとの発話意図の系列を用いて説明する。

部分区間ごとの発話意図の系列、発話ごとの発話意図をそれぞれx=(x₁,x₂,x₃,…,x_n)、y（ただし、x_i、yは、肯定的、否定的、どちらでもない、のいずれかの値をとる）とする。部分区間ごとの発話意図の系列がx=(x₁,x₂,x₃,…,x_n)であるときの発話ごとの発話意図がyである確率を条件付き確率P(y|x)を用いて表現すると、発話ごとの発話意図抽出結果Yは以下のようにして求まる。

ここで、発話意図の出現確率は一様と考えられることから、P(x)とP(y)は一定であると仮定した。

Ｎ−ｇｒａｍモデル学習部２０６が作成した発話ごとの発話意図y別の発話意図Ｎ−ｇｒａｍモデルを用いて、発話毎発話意図抽出部２０７が部分区間ごとの発話意図の系列xの出現確率が最も高くなるyの発話意図Ｎ−ｇｒａｍモデルを選ぶことで発話ごとの発話意図Yを抽出することができる。

本実施例の発話意図抽出装置２によれば、発話意図の抽出対象となる発話について部分区間ごとに抽出した発話意図（インデクス）の系列と、発話意図Ｎ−ｇｒａｍモデルを用いて発話ごとの発話意図を抽出するようにしたため、発話の一部の区間にのみ発話意図が表出する場合でも、発話意図の表出順序を考慮して正しく発話意図を抽出することが可能となる。特に、一つの発話に二つ以上の発話意図の特徴が表れる発話が発生する場合においても正しく発話意図を抽出することが可能となる。

また、本実施例の発話意図抽出装置２によれば、部分区間ごとの発話意図の表現に確率（ベクトル）を用いることにより、発話意図を３つの値（肯定的、否定的、どちらでもない）で表現する場合に比して、発話ごとの発話意図抽出の精度を向上させることが可能になる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

少なくとも一単語を含み、単語と単語の間が一定時間以下の時間間隔で連続している区間を発話区間とし、前記発話区間の音声を発話とし、
前記発話に含まれる部分区間ごとに抽出した発話意図である部分区間毎発話意図に対応するインデクスの列である部分区間毎発話意図インデクス系列と、前記発話ごとに人手で付与された発話意図ラベルとを学習データとして、前記発話ごとの発話意図の抽出に用いるＮ−ｇｒａｍモデルである発話意図Ｎ−ｇｒａｍモデルを学習する発話意図モデル学習装置。
請求項１に記載の発話意図モデル学習装置は、発話意図の分類と当該分類を示すインデクスを対応付ける発話意図インデクスコードブックを有し、
前記部分区間毎発話意図は、各発話意図が出現する確率を用いて表現され、
前記部分区間毎発話意図インデクス系列は、前記部分区間毎発話意図の確率を用いて決定される発話意図の分類を、前記発話意図インデクスコードブックを用いて変換することにより求まるインデクスの列である発話意図モデル学習装置。
少なくとも一単語を含み、単語と単語の間が一定時間以下の時間間隔で連続している区間を発話区間とし、前記発話区間の音声を発話とし、
発話意図の抽出対象として入力された発話から、発話ごとの発話意図を抽出する発話意図抽出装置であって、
前記発話から、前記発話に含まれる部分区間ごとに抽出した発話意図である部分区間毎発話意図に対応するインデクスの列である部分区間毎発話意図インデクス系列を生成する部分区間毎発話意図インデクス系列生成部と、
前記部分区間毎発話意図インデクス系列と、発話意図Ｎ−ｇｒａｍモデルに基づいて、前記発話意図を抽出する発話毎発話意図抽出部と
を含み、
前記発話意図Ｎ−ｇｒａｍモデルは、前記部分区間毎発話意図インデクス系列と、前記発話ごとに人手で付与された発話意図ラベルとを学習データとして、前記発話ごとの発話意図の抽出に用いるＮ−ｇｒａｍモデルとして学習したものであることを特徴とする発話意図抽出装置。
請求項３に記載の発話意図抽出装置は、発話意図の分類と当該分類を示すインデクスを対応付ける発話意図インデクスコードブックを有し、
前記部分区間毎発話意図は、各発話意図が出現する確率を用いて表現され、
前記部分区間毎発話意図インデクス系列は、前記部分区間毎発話意図の確率を用いて決定される発話意図の分類を、前記発話意図インデクスコードブックを用いて変換することにより求まるインデクスの列である発話意図抽出装置。
少なくとも一単語を含み、単語と単語の間が一定時間以下の時間間隔で連続している区間を発話区間とし、前記発話区間の音声を発話とし、
前記発話に含まれる部分区間ごとに抽出した発話意図である部分区間毎発話意図に対応するインデクスの列である部分区間毎発話意図インデクス系列と、前記発話ごとに人手で付与された発話意図ラベルとを学習データとして、前記発話ごとの発話意図の抽出に用いるＮ−ｇｒａｍモデルである発話意図Ｎ−ｇｒａｍモデルを学習する発話意図モデル学習方法。
少なくとも一単語を含み、単語と単語の間が一定時間以下の時間間隔で連続している区間を発話区間とし、前記発話区間の音声を発話とし、
発話意図の抽出対象として入力された発話から、発話ごとの発話意図を抽出する発話意図抽出方法であって、
前記発話から、前記発話に含まれる部分区間ごとに抽出した発話意図である部分区間毎発話意図に対応するインデクスの列である部分区間毎発話意図インデクス系列を生成するステップと、
前記部分区間毎発話意図インデクス系列と、発話意図Ｎ−ｇｒａｍモデルに基づいて、前記発話意図を抽出するステップと
を含み、
前記発話意図Ｎ−ｇｒａｍモデルは、前記部分区間毎発話意図インデクス系列と、前記発話ごとに人手で付与された発話意図ラベルとを学習データとして、前記発話ごとの発話意図の抽出に用いるＮ−ｇｒａｍモデルとして学習したものであることを特徴とする発話意図抽出方法。
請求項１または２に記載の発話意図モデル学習装置、または請求項３または４に記載の発話意図抽出装置のいずれか一つとしてコンピュータを機能させるためのプログラム。