JP6370732B2

JP6370732B2 - 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム

Info

Publication number: JP6370732B2
Application number: JP2015052830A
Authority: JP
Inventors: 厚志安藤; 太一浅見
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2015-03-17
Filing date: 2015-03-17
Publication date: 2018-08-08
Anticipated expiration: 2035-03-17
Also published as: JP2016173430A

Description

本発明は、発話から発話意図の抽出を行うためのモデルを学習する発話意図モデル学習装置、発話意図モデル学習方法、発話から発話意図を抽出する発話意図抽出装置、発話意図抽出方法、プログラムに関する。

音声対話システムや議事録作成支援システムにおいて、発話の音声認識結果だけでなく発話意図（例えば、肯定的、否定的など）を抽出する技術が求められている。音声対話システムでは、例えば「明日ねー…」など、文面のみからはただの相槌に見える発話に対しても、場合により「否定的」などの発話意図を読み取って別の提案を行うなど、発話意図に応じた動作が求められる。発話意図を抽出することで、音声対話システムは言葉に表れないユーザの要求にも適切な応答を生成することが可能となる。

一方、議事録作成支援システムにおいては、賛成発話・反対発話などの会議における重要発話の自動抽出が可能となり、会議の全体像の把握や議事録要約生成に役立つ。

このような発話意図抽出の従来技術が、非特許文献１に開示されている。非特許文献１では、少なくとも一単語を含み、単語と単語の間が一定時間以下（例えば0.5秒以下）の時間間隔で連続している区間を発話区間、発話区間の音声を発話と定義する。非特許文献１では、各発話に対し発話に表れる韻律情報（声の高さ、間の取り方など）や言語情報（発話に含まれる単語や品詞）と発話意図との関係性を利用し発話意図抽出を行う。以下、図１〜図３を参照して非特許文献１の発話意図抽出装置の概略を説明する。図１は、非特許文献１の発話意図抽出装置９の構成を示すブロック図である。図２は、非特許文献１の発話意図抽出装置９の動作を示すフローチャートである。図３は、非特許文献１の発話意図抽出装置９の発話意図抽出の例を示す図である。図１に示すように非特許文献１の発話意図抽出装置９は、韻律抽出部９０１と、認識結果分析部９０２と、韻律正規化部９０３と、韻律特徴抽出部９０４と、言語特徴抽出部９０５と、発話意図モデル学習部９０８と、発話意図抽出部９０９を含む。韻律抽出部９０１は、発話意図の抽出対象として入力された発話から、韻律（短時間ごとの基本周波数、短時間ごとの音圧レベル）を抽出する（Ｓ９０１）。認識結果分析部９０２は認識結果を分析し、認識結果に含まれる単語、音素とその開始・終了時刻を得る（Ｓ９０２）。韻律正規化部９０３は、抽出された韻律（短時間ごとの基本周波数、短時間ごとの音圧レベル）を話者ごとに正規化する（Ｓ９０３）。韻律特徴抽出部９０４は、韻律特徴（声の高さ、間の長さの平均値、勾配などの統計量）を発話ごとに抽出する（Ｓ９０４）。言語特徴抽出部９０５は、言語特徴（発話先頭の単語や品詞など）を発話ごとに抽出する（Ｓ９０５）。発話意図モデル学習部９０８は、発話ごとの韻律特徴および言語特徴と、これに対応する人手で付与した発話意図正解ラベルとを学習データとし、発話意図モデルを予め学習する（Ｓ９０８）。発話意図抽出部９０９は、学習された発話意図モデルを用い、発話ごとの韻律特徴および言語特徴に基づいて、発話ごとに発話意図を抽出する（Ｓ９０９）。図３では、発話例である「わたしもそうおもいます」の声の高さの平均値が高いこと（韻律特徴）、同発話の先頭２単語が「わたし」「も」であること（言語特徴）から、ステップＳ９０９において当該発話の発話意図「肯定的」を抽出している。

D. Hillard, M. Ostendorf, E. Shriberg, Detection of agreement vs. disagreement in meetings: training with unlabeled data, Proc. of the HLT-NAACL Conference, May 2003

発話意図は発話の一部の区間にのみ表出することがある。非特許文献１の発話意図抽出装置９では発話区間全体から韻律特徴を求めるため、発話の一部の区間にのみ表れる韻律の変化を表現することが出来ず、発話意図を正しく抽出することができない場合があった。図４にその一例を示す。図４は、発話意図が発話の一部のみに表出した場合の韻律特徴の変化の例を示す図である。「肯定的」の発話意図が表れる区間では、声の高さの平均値が高くなることが知られているが、図４の例のように発話の一部の区間（ドットハッチングを施した領域）にのみ発話意図「肯定的」が表れる場合、発話意図「肯定的」が表出した区間だけを用いて声の高さの平均値を求めれば、発話意図が肯定的である場合に特有の特徴が表れる（＝平均値が高い）ものの、発話区間全体から声の高さの平均値を求めると、発話意図が肯定的である場合に特有の特徴が表れない（＝平均値が低い）場合がある。このため非特許文献１の発話意図抽出装置９によっても発話意図を正しく抽出することができない場合があった。

そこで本発明では、発話の一部の区間にのみ発話意図が表出する場合でも正しく発話意図を抽出するためのモデルを学習する発話意図モデル学習装置を提供することを目的とする。

少なくとも一単語を含み、単語と単語の間が一定時間以下の時間間隔で連続している区間を発話区間とし、発話区間の音声を発話とする。本発明の発話意図モデル学習装置は、発話の単語区間ごとの韻律特徴である局所韻律特徴を、アクセント句区間ごとに連結した特徴である局所韻律系列特徴と、アクセント句区間ごとに人手で付与された発話意図ラベルとを学習データとして、アクセント句区間ごとの発話意図の抽出に用いる発話意図モデルを学習する。

本発明の発話意図モデル学習装置によれば、発話の一部の区間にのみ発話意図が表出する場合でも正しく発話意図を抽出するためのモデルを学習することができる。

非特許文献１の発話意図抽出装置９の構成を示すブロック図。非特許文献１の発話意図抽出装置９の動作を示すフローチャート。非特許文献１の発話意図抽出装置９の発話意図抽出の例を示す図。発話意図が発話の一部のみに表出した場合の韻律特徴の変化の例を示す図。実施例１で用いられる局所韻律特徴の一覧を示す図。実施例１の発話意図抽出装置１の構成を示すブロック図。実施例１の発話意図抽出装置１の動作を示すフローチャート。実施例１の局所韻律特徴抽出部の詳細な構成を示すブロック図。実施例１の局所韻律特徴抽出部の詳細な動作を示すフローチャート。局所韻律系列特徴の抽出の例を示す図。アクセント句ごとに人手で発話意図ラベルを付与した例を示す図。発話意図モデルを決定木として学習した例を示す図。実施例２の発話意図抽出装置２の構成を示すブロック図。実施例２の発話意図抽出装置２の動作を示すフローチャート。実施例３の発話意図抽出装置２の構成を示すブロック図。実施例３の発話意図抽出装置２の動作を示すフローチャート。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

＜発明の要点＞
発話の一部の区間にのみ発話意図が含まれる音声を分析した結果、韻律の変化は単語よりも長い区間に渡って表出しており、特にアクセント句における声の高さの上昇時・下降時の勾配や上昇・下降が始まるタイミングに差が表れることが見出された。このことから、本発明ではアクセント句単位での韻律変化に着目した。ここで、単に従来技術において韻律特徴を抽出する区間を発話全体からアクセント句ごとに変えただけでは、アクセント句区間全体の平均値や勾配を求めることになり、声の高さの上昇時・下降時の勾配や上昇・下降が始まるタイミングなどの局所的な韻律の変化を特徴量として表現することができない。この問題に対処するため、本発明では発話の単語区間ごとの韻律特徴を求めることで局所的な韻律の変化を表現し、それらをアクセント句区間ごとに連結した特徴を発話意図抽出に用いることでアクセント句における局所的な韻律の変化を表現する。以下では、発話の単語区間ごとの韻律特徴を局所韻律特徴、局所韻律特徴をアクセント句区間ごとに連結した特徴を局所韻律系列特徴と呼ぶ。

以下、局所韻律系列特徴に基づいて発話意図を抽出する実施例１の発話意図抽出装置について説明する。本実施例の発話意図抽出装置は、発話と、発話ごとの音声認識結果を入力とする。発話の定義は上述の非特許文献１における定義と同一とする。図５、図６、図７を参照して、本実施例の発話意図抽出装置の構成、および動作について説明する。図５は、本実施例で用いられる局所韻律特徴の一覧を示す図である。図６は、本実施例の発話意図抽出装置１の構成を示すブロック図である。図７は、本実施例の発話意図抽出装置１の動作を示すフローチャートである。図６に示すように、本実施例の発話意図抽出装置１は、韻律抽出部９０１と、認識結果分析部９０２と、韻律正規化部９０３と、局所韻律特徴抽出部１０４と、アクセント句境界推定部１０５と、局所韻律系列特徴抽出部１０６と、アクセント句毎発話意図ラベル作成部１０７と、発話意図モデル学習部１０８と、発話意図抽出部１０９を含む。

＜韻律抽出部９０１＞
入力：発話（発話意図の抽出対象として入力された発話）
出力：短時間ごとの基本周波数、短時間ごとの音圧レベル
韻律抽出部９０１は、発話から、声の高さと声の大きさの物理量を求める。声の高さを表す物理量として基本周波数を、声の大きさを表す物理量として音圧レベルを用いることができる。韻律抽出部９０１は、これらの物理量（基本周波数、音圧レベル）を短い周期ごとに求める。すなわち、韻律抽出部９０１は、発話を所定の短時間（例えば10ms）ごとに分析し、短時間ごとの基本周波数と音圧レベルを抽出する（Ｓ９０１）。本実施例では、韻律抽出部９０１は基本周波数を自己相関法により、音圧レベルを振幅の二乗平均平方根の対数値により得ることとするが、基本周波数、音圧レベルの抽出方法はこれに限定されるものではなく、従来の何れの基本周波数抽出法、音圧レベル抽出法を用いてもよい。

＜認識結果分析部９０２＞
入力：発話、発話ごとの音声認識結果
出力：単語系列、各単語の開始・終了時刻、音素系列、各音素の開始・終了時刻
認識結果分析部９０２は、認識結果に含まれる単語、音素とその開始・終了時刻を得る（Ｓ９０２）。例えば、単語系列は発話ごとの音声認識結果を形態素解析することで取得できる。また単語の開始・終了時刻、音素系列、音素の開始・終了時刻は発話ごとの音声認識結果から音声認識結果のみを受理するネットワーク文法を作成し、単語セグメンテーションまたは音素セグメンテーションを行うことで得られる（参考非特許文献１参照）。ただし、入力の発話ごとの音声認識結果の時点で単語系列や単語の開始・終了時刻、音素系列、音素の開始・終了時刻が得られている場合は、音声認識結果の値を用いてもよい。
（参考非特許文献１：鹿野清宏、河原達也、山本幹雄、伊藤克亘、武田一哉、ITText音声認識システム、pp.47-49/169-170、オーム社、2001）

＜韻律正規化部９０３＞
入力：短時間ごとの基本周波数、短時間ごとの音圧レベル、話者ごとの基本周波数の平均値、標準偏差、話者ごとの音圧レベルの平均値、標準偏差
出力：短時間ごとの正規化基本周波数、短時間ごとの正規化音圧レベル
韻律正規化部９０３は、短時間ごとの基本周波数、短時間ごとの音圧レベルを話者ごとに正規化し、平均０、標準偏差１とする（Ｓ９０３）。これは、声の高さや声の大きさの話者ごとの違いを吸収することに相当する。韻律正規化部９０３により、発話意図抽出部１０９において、どんな話者に対しても同一の発話意図抽出基準を適用して発話意図抽出を行うことが可能となる。

ある時間tにおける、短時間ごとの正規化基本周波数f^￣(t)、短時間ごとの正規化音圧レベルP^￣(t)は以下の式で与えられる。

f_m(t),P_m(t)は話者mの短時間ごとの基本周波数、短時間ごとの音圧レベルであり、μ_f,m,σ_f,m,μ_P,m,σ_P,mは話者mの基本周波数の全発話の平均値、標準偏差、音圧レベルの全発話の平均値、標準偏差である。μ_f,m,σ_f,m,μ_P,m,σ_P,mは、事前に収集した話者mの発話の全発話から算出するものとする。

＜局所韻律特徴抽出部１０４＞
入力：短時間ごとの正規化基本周波数、短時間ごとの正規化音圧レベル、単語系列、各単語の開始・終了時刻、音素系列、各音素の開始・終了時刻
出力：局所韻律特徴（図５最右列の全要素）
局所韻律特徴抽出部１０４は、認識結果に含まれる単語ごとに局所韻律特徴を求める（Ｓ１０４）。局所韻律特徴は、発話意図の表出に伴う局所的な韻律変化を表現するための特徴であり、発話の単語区間ごとの声の高さ、単語区間ごとの声の大きさ、（次の単語あるいは前の単語との）間の取り方、単語区間ごとの話速、単語区間ごとの音の伸ばし方に関する特徴を表現する。局所韻律特徴は、これらの特徴のうち、少なくとも何れか一つ以上の特徴を表現するものであればよい。本実施例では局所韻律特徴として、図５最右列の全要素を含むものとする。以下、図８、図９を参照して局所韻律特徴抽出部１０４の詳細な構成、および動作について説明する。図８は、本実施例の局所韻律特徴抽出部１０４の詳細な構成を示すブロック図である。図９は、本実施例の局所韻律特徴抽出部１０４の詳細な動作を示すフローチャートである。図８に示すように、本実施例の局所韻律特徴抽出部１０４は、Ｆ０局所韻律特徴抽出部１０４１と、パワー局所韻律特徴抽出部１０４２と、ポーズ局所韻律特徴抽出部１０４３と、スピーチレート局所韻律特徴抽出部１０４４と、デュレーション局所韻律特徴抽出部１０４５を含む。

＜Ｆ０局所韻律特徴抽出部１０４１＞
入力：短時間ごとの正規化基本周波数、各単語の開始・終了時刻
出力：単語前半・単語後半それぞれの基本周波数の平均値、標準偏差、最大値、最小値、勾配
Ｆ０局所韻律特徴抽出部１０４１は、声の高さに関する局所韻律特徴を抽出する（Ｓ１０４１）。声の高さに関する局所韻律特徴として、単語前半・単語後半それぞれの基本周波数の平均値、標準偏差、最大値、最小値、勾配が含まれる。

Ｆ０局所韻律特徴抽出部１０４１は、各単語の開始・終了時刻に基づき、単語前半・単語後半の基本周波数の系列を短時間ごとの正規化基本周波数から切り出す。勾配以外は単語前半・単語後半の基本周波数の系列の統計量から、勾配は単語前半・単語後半の基本周波数の系列の回帰分析結果から得られる。ただし、短時間ごとの正規化基本周波数は母音区間でのみ正確な値をとるため、母音区間の正規化基本周波数のみを用いるものとする。本実施例では、音素アライメントにより推定した母音区間を用いるが、別の母音区間推定手法により求めた母音区間を用いてもよい。

＜パワー局所韻律特徴抽出部１０４２＞
入力：短時間ごとの正規化音圧レベル、各単語の開始・終了時刻
出力：単語前半・単語後半それぞれの音圧レベルの平均値、標準偏差、最大値、最小値、勾配
パワー所韻律特徴抽出部１０４２は、声の大きさに関する局所韻律特徴を抽出する（Ｓ１０４２）。声の大きさに関する局所韻律特徴として、単語前半・単語後半それぞれの音圧レベルの平均値、標準偏差、最大値、最小値、勾配が含まれる。

Ｆ０局所韻律特徴抽出部１０４１と同様に、パワー局所韻律特徴抽出部１０４２は、単語の開始・終了時刻に基づいて単語前半・単語後半それぞれの音圧レベルの系列を短時間ごとの音圧レベルから切り出し、統計量または回帰分析の結果から声の大きさに関する局所韻律特徴を抽出する。ただしパワー所韻律特徴抽出部１０４２は、Ｆ０局所韻律特徴抽出部１０４１とは異なり、母音以外の区間も含めた単語前半・単語後半の全ての音圧レベルの値を用いて声の大きさに関する局所韻律特徴を求める。

＜ポーズ局所韻律特徴抽出部１０４３＞
入力：単語系列、各単語の開始・終了時刻
出力：次の単語までの間の長さ
ポーズ局所韻律特徴抽出部１０４３は、単語間の間の取り方に関する局所韻律特徴を抽出する（Ｓ１０４３）。単語間の間の取り方に関する局所韻律特徴として次の単語までの（あるいは前の単語からの）間の長さが含まれる。本実施例では、以下の２つの区間を間と定義する。＜１＞ある単語の終了時刻から次の単語の開始時刻までの区間。＜２＞音声認識結果に含まれる句読点またはポーズの区間。単語ごとの次の単語までの間の長さは、（次の単語の開始時刻−単語の終了時刻）として得られる。このとき、単語が続けて発声される場合、次の単語までの間の長さは０秒となる。ただし、句読点またはポーズは間とみなすため単語に含めない。また、発話末尾の単語においては、次の単語までの間の長さは０秒であるものとする。

＜スピーチレート局所韻律特徴抽出部１０４４＞
入力：音素系列、各単語の開始・終了時刻
出力：単語ごとの話速
スピーチレート局所韻律特徴抽出部１０４４は、話速に関する局所韻律特徴を抽出する（Ｓ１０４４）。話速に関する局所韻律特徴として、単語ごとの話速が含まれる。話速は単位時間あたりに発話した音素数であるものとし、音素数／（単語の終了時刻−単語の開始時刻）を単語ごとに計算することで得られる。音素数は単語ごとの音素系列に含まれる音素の数である。

＜デュレーション局所韻律特徴抽出部１０４５＞
入力：各音素の開始・終了時刻、各単語の開始・終了時刻
出力：単語ごとの音素継続長の平均値、標準偏差、最大値、最小値、単語末尾の音素の音素継続長
デュレーション局所韻律特徴抽出部１０４５は、音の伸ばし方に関する局所韻律特徴を抽出する（Ｓ１０４５）。音の伸ばし方に関する局所韻律特徴として、単語ごとの音素継続長の平均値、標準偏差、最大値、最小値、単語末尾の音素の音素継続長が含まれる。音素継続長は、音素の終了時刻−音素の開始時刻を音素ごとに計算することで得られる。デュレーション局所韻律特徴抽出部１０４５は、単語に含まれる全音素に対し音素継続長を求め、それらの値から単語ごとの音素継続長の平均値、標準偏差、最大値、最小値、単語末尾の音素の音素継続長を取得できる。

＜アクセント句境界推定部１０５＞
入力：単語系列
出力：アクセント句境界
アクセント句境界推定部１０５は、単語系列からアクセント句境界を推定する（Ｓ１０５）。ここで、アクセント句境界とは、あるアクセント句と別のアクセント句との境界地点を指し、アクセント句境界に挟まれた区間を一つのアクセント句区間とする。本実施例ではアクセント句境界推定手法に、参考非特許文献２の手法を用いるが、本発明はこれに限定されず、他のどのアクセント句境界推定手法を用いてもよい。
（参考非特許文献２：浅野、松岡、市井、大山、“テキスト音声変換における読み・韻律付与処理の評価:ニュース文を対象として、”第51回情報処理学会全国大会講演論文集、pp.109-100、1995）

＜局所韻律系列特徴抽出部１０６＞
入力：局所韻律特徴、アクセント句境界
出力：局所韻律系列特徴
局所韻律系列特徴抽出部１０６は、アクセント句区間に含まれる単語区間ごとの局所韻律特徴を連結し、アクセント句単位での局所韻律系列特徴を抽出する（Ｓ１０６）。局所韻律系列特徴はアクセント句区間にわたる韻律の局所的な変化を表現する。連結とは、単語ごとの局所韻律特徴ベクトル（局所韻律特徴のベクトル表現）を、アクセント句に含まれる単語数ｎだけ連結し、局所韻律系列特徴ベクトルを作成することを指す。このとき、ｎを連結数と呼ぶ。局所韻律系列特徴の抽出の例を図１０に示す。図１０の例では、アクセント句「そうですね」に含まれる３つの局所韻律特徴ベクトルが連結されて単語連結数３の局所韻律系列特徴ベクトルが生成される。これに対し、アクセント句「うーん」には１つの局所韻律特徴ベクトルのみが含まれるため、この局所韻律特徴ベクトルがそのまま単語連結数１の局所韻律系列特徴ベクトルとされる。一方、アクセント句「わたしですか」に含まれる３つの局所韻律特徴ベクトルは連結されて単語連結数３の局所韻律系列特徴ベクトルが生成される。

＜アクセント句毎発話意図ラベル作成部１０７＞
入力：アクセント句境界、発話意図ラベル
出力：アクセント句ごと発話意図ラベル
アクセント句毎発話意図ラベル作成部１０７は、アクセント句ごとの発話意図ラベルを作成する（Ｓ１０７）。このステップでは、アクセント句境界と、発話意図ラベルが用いられる。発話意図ラベルは、人間が音声を聴取し、発話意図を感じた音声区間にラベルを付与することで得られる。本実施例では、人間が音声を聴取し、「肯定的」「否定的」の二つのラベルのうちの何れかのラベルをアクセント句ごとに付与する。あるアクセント句に対し、各ラベルは高々一つしか付与されないものとし、どのラベルも付与されなかったアクセント句は「どちらでもない」ラベルが付与されたものとする。

例えばアクセント句ごとに各ラベルが占める区間の割合を求め、最も割合が大きいラベルをそのアクセント句の発話意図ラベルとすることができる。図１１にアクセント句ごとに人手で発話意図ラベルを付与した例を示す。図１１の例において、先頭アクセント句「そうですね」の区間については、「肯定的」ラベルを付与された割合が最も高かったものとする。この場合、先頭アクセント句「そうですね」の発話意図ラベルは人手で付与された割合が最も高かった「肯定的」に決定される。一方、二番目のアクセント句「うーん」最後のアクセント句「わたしですか」については、どのラベルも付与されなかった割合が最も高くなったものとする。この場合、二番目および最後のアクセント句の発話意図ラベルは「どちらでもない」に決定される。

＜発話意図モデル学習部１０８＞
入力：局所韻律系列特徴、アクセント句ごと発話意図ラベル
出力：発話意図モデル
発話意図モデル学習部１０８は、アクセント句ごとの局所韻律系列特徴と、これに対応するアクセント句ごとの発話意図ラベルとを学習データとし、発話意図抽出を行うための発話意図モデルを予め学習する（Ｓ１０８）。発話意図モデルは、連結数ｎごとに学習する。すなわち、アクセント句ごとの局所韻律系列特徴とそれに対応する発話意図ラベルの集合から、同一の連結数を持つ局所韻律系列特徴とそれに対応する発話意図ラベルを選び、発話意図モデルを学習する。発話意図モデルは、例えば決定木であってもよい。図１２に発話意図モデルを決定木として学習した例（連結数２の例）を示す。

決定木は、アクセント句ごとの（同一の連結数を持つ）局所韻律系列特徴とそれに対応する発話意図ラベルの集合を入力とし、ＣＡＲＴなどの公知の決定木学習アルゴリズムを用いて学習してもよいし、人手で決定木の構造としきい値を決めて学習してもよい。発話意図モデルは、条件付き確率場やサポートベクターマシンなどの機械学習により学習してもよい。

なお、上述した発話意図モデル学習部１０８のみを抜き出して単独の装置（発話意図モデル学習装置）としてもよい。この場合、発話意図モデル学習装置は、前述の局所韻律系列特徴と、アクセント句区間ごとに人手で付与された発話意図ラベルとを学習データとして、アクセント句区間ごとの発話意図の抽出に用いる発話意図モデルを学習する装置として構成される。

＜発話意図抽出部１０９＞
入力：局所韻律系列特徴、発話意図モデル
出力：発話ごとの発話意図
発話意図抽出部１０９は、局所韻律系列特徴と、ステップＳ１０８で学習した発話意図モデルに基づいて、アクセント句ごとの発話意図を抽出し、抽出されたアクセント句ごとの発話意図に基づいて、発話ごとの発話意図を抽出する（Ｓ１０９）。

本実施例では、「肯定的」「否定的」「どちらでもない」の三種を発話意図とみなす。発話意図抽出部１０９は、局所韻律系列特徴を発話意図モデルに入力することで、アクセント句ごとの発話意図を得る。このとき発話意図抽出部１０９は、局所韻律系列特徴の連結数ｎに合った発話意図モデルを用いるものとする。

発話意図抽出部１０９は、発話に含まれる全てのアクセント句ごとの発話意図を求めたのち、後述するように発話ごとの発話意図を決定する。一つの発話中に、アクセント句ごとの発話意図「肯定的」「否定的」が一つも含まれない場合、発話意図抽出部１０９は当該発話の発話意図を「どちらでもない」とする。一つの発話中に、アクセント句ごとの発話意図「肯定的」「否定的」のどちらか一方のみ含まれる場合、発話意図抽出部１０９は当該含まれる発話意図を発話ごとの発話意図とする。一つの発話中に、アクセント句ごとの発話意図「肯定的」「否定的」の双方が含まれる場合、発話意図抽出部１０９は「肯定的」「否定的」それぞれの発話意図の区間の総和が大きい方を発話ごとの発話意図とする。

本実施例の発話意図抽出装置１によれば、発話の一部の区間にのみ発話意図が含まれる場合には、当該音声のアクセント句単位での韻律変化に着目すべきであるという新たな知見を利用し、アクセント句単位での韻律変化を局所韻律系列特徴として抽出し、当該局所韻律系列特徴に基づいて学習された発話意図モデルを用いて発話意図を抽出するように構成したため、発話の一部区間にのみ発話意図が表出する場合でも、当該発話意図を正しく抽出することができる。

以下、実施例１の構成に加え、従来技術（非特許文献１）で用いる発話ごとの韻律特徴を追加して発話意図抽出を行う実施例２の発話意図抽出装置について説明する。本実施例の発話意図抽出装置によれば、発話の一部にのみ発話意図が表出する場合だけでなく、発話全体に発話意図が表出する場合でも、当該発話意図を正しく抽出できる。

図１３、図１４を参照して本実施例の発話意図抽出装置の構成、および動作について説明する。図１３は、本実施例の発話意図抽出装置２の構成を示すブロック図である。図１４は、本実施例の発話意図抽出装置２の動作を示すフローチャートである。図１３に示すように、本実施例の発話意図抽出装置２は実施例１の発話意図抽出装置１に含まれない発話毎韻律特徴抽出部２０１を含み、実施例１の発話意図モデル学習部１０８と、発話意図抽出部１０９の代わりに、発話意図モデル学習部２０２と、発話意図抽出部２０３を含む。その他の構成要件については実施例１と同じである。以下、実施例１と異なる構成要件について説明する。

＜発話毎韻律特徴抽出部２０１＞
入力：短時間ごとの正規化基本周波数、短時間ごとの正規化音圧レベル
出力：発話ごとの韻律特徴
発話毎韻律特徴抽出部２０１は、従来手法（上述のステップＳ９０４）と同様の方法で、発話ごとの韻律特徴を抽出する（Ｓ２０１）。発話ごとの韻律特徴には、発話の全区間の基本周波数の平均値、最大値などが含まれる。

＜発話意図モデル学習部２０２、発話意図抽出部２０３＞
発話ごとの韻律特徴が追加される部分以外はステップＳ１０８、Ｓ１０９と同様である。すなわち、発話意図モデル学習部２０２は、前述の局所韻律系列特徴と、発話ごとの韻律特徴の双方を用いて発話意図抽出を行うための発話意図モデルを予め学習する（Ｓ２０２）。発話意図抽出部２０３は、局所韻律系列特徴と発話ごとの韻律特徴とを結合した特徴を用いて、発話に含まれるアクセント句ごとの発話意図を求める。この後、ステップＳ１０９と同様に発話ごとの発話意図を求める。

すなわち、発話意図抽出部２０３はステップＳ１０９と同じように、一つの発話中に、アクセント句ごとの発話意図が一つも含まれない場合、当該発話の発話意図を「どちらでもない」とし、一つの発話中に、アクセント句ごとの発話意図「肯定的」「否定的」のどちらか一方のみ含まれる場合、当該含まれる発話意図を発話ごとの発話意図とし、一つの発話中に、アクセント句ごとの発話意図「肯定的」「否定的」の双方が含まれる場合、それぞれの発話意図の区間の総和が大きい方を発話ごとの発話意図とする。

本実施例の発話意図抽出装置２によれば、実施例１の効果に加え、発話全体に発話意図が表出する場合にも発話意図を抽出することができる。

以下、実施例２の構成に加え、従来技術（非特許文献１）で用いる発話ごとの言語特徴を追加して発話意図抽出を行う実施例３の発話意図抽出装置について説明する。本実施例の発話意図抽出装置によれば、発話意図に基づく言語情報の変化も考慮した発話意図抽出が可能となり、発話意図抽出精度が向上する。

図１５、図１６を参照して本実施例の発話意図抽出装置の構成、および動作について説明する。図１５は、本実施例の発話意図抽出装置３の構成を示すブロック図である。図１６は、本実施例の発話意図抽出装置３の動作を示すフローチャートである。図１５に示すように、本実施例の発話意図抽出装置３は実施例２の発話意図抽出装置２に含まれない発話毎言語特徴抽出部３０１を含み、実施例２の発話意図モデル学習部２０２と、発話意図抽出部２０３の代わりに、発話意図モデル学習部３０２と、発話意図抽出部３０３を含む。その他の構成要件については実施例２と同じである。以下、実施例２と異なる構成要件について説明する。

＜発話毎言語特徴抽出部３０１＞
入力：単語系列、各単語の開始・終了時刻、音素系列、各音素の開始・終了時刻
出力：発話ごとの言語特徴
発話毎言語特徴抽出部３０１は、従来手法（上述のステップＳ９０５）と同様の方法で、発話ごとの言語特徴を求める（Ｓ３０１）。発話ごとの言語特徴には、発話に含まれる発話意図に対応したキーワードの数や発話に含まれる単語数などが含まれる。

＜発話意図モデル学習部３０２、発話意図抽出部３０３＞
発話ごとの言語特徴が追加される部分以外は実施例１のステップＳ１０８、Ｓ１０９と同様である。すなわち、発話意図モデル学習部３０２は、前述の局所韻律系列特徴と、発話ごとの韻律特徴と、発話ごとの言語特徴の全てを用いて発話意図抽出を行うための発話意図モデルを予め学習する（Ｓ３０２）。発話意図抽出部３０３は、局所韻律系列特徴と発話ごとの韻律特徴と発話ごとの言語特徴とを結合した特徴を用いて、発話に含まれるアクセント句ごとの発話意図を求める。この後、ステップＳ１０９と同様に発話ごとの発話意図を求める。

すなわち、発話意図抽出部３０３はステップＳ１０９と同じように、一つの発話中に、アクセント句ごとの発話意図が一つも含まれない場合、当該発話の発話意図を「どちらでもない」とし、一つの発話中に、アクセント句ごとの発話意図「肯定的」「否定的」のどちらか一方のみ含まれる場合、当該含まれる発話意図を発話ごとの発話意図とし、一つの発話中に、アクセント句ごとの発話意図「肯定的」「否定的」の双方が含まれる場合、それぞれの発話意図の区間の総和が大きい方を発話ごとの発話意図とする。

本実施例の発話意図抽出装置３によれば、実施例２の効果に加え、発話意図に基づく言語情報の変化も考慮した発話意図抽出が可能となり、発話意図抽出精度が向上する。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

少なくとも一単語を含み、単語と単語の間が一定時間以下の時間間隔で連続している区間を発話区間とし、前記発話区間の音声を発話とし、
前記発話の単語区間ごとの韻律特徴である局所韻律特徴を、アクセント句区間ごとに連結した特徴である局所韻律系列特徴と、前記アクセント句区間ごとに付与された発話意図ラベルとを学習データとして、前記アクセント句区間ごとの発話意図の抽出に用いるモデルであって、前記アクセント句区間に含まれる単語数に応じたモデルである発話意図モデルを学習する発話意図モデル学習装置。
請求項１に記載の発話意図モデル学習装置であって、
前記アクセント句区間ごとに付与された発話意図ラベルは、前記アクセント句区間の発話意図に対応する音声区間に付与されたラベルに基づく
発話意図モデル学習装置。
少なくとも一単語を含み、単語と単語の間が一定時間以下の時間間隔で連続している区間を発話区間とし、前記発話区間の音声を発話とし、
前記発話の単語区間ごとの韻律特徴である局所韻律特徴を、アクセント句区間ごとに連結した特徴である局所韻律系列特徴と、前記アクセント句区間ごとに付与された発話意図ラベルとを学習データとして、前記アクセント句区間ごとの発話意図の抽出に用いるモデルであって、前記アクセント句区間に含まれる単語数に応じたモデルである発話意図モデルを学習する発話意図モデル学習部と、
発話意図の抽出対象として入力された発話から、前記局所韻律系列特徴を抽出する局所韻律系列特徴抽出部と、
前記局所韻律系列特徴と、前記アクセント句区間に含まれる単語数に対応する前記発話意図モデルに基づいて、前記発話に含まれる全てのアクセント句ごとの発話意図を抽出し、抽出されたアクセント句ごとの発話意図に基づいて、発話ごとの発話意図を抽出する発話意図抽出部と
を含む発話意図抽出装置。
請求項３に記載の発話意図抽出装置であって、
前記アクセント句区間ごとに付与された発話意図ラベルは、前記アクセント句区間の発話意図に対応する音声区間に付与されたラベルに基づく
発話意図抽出装置。
少なくとも一単語を含み、単語と単語の間が一定時間以下の時間間隔で連続している区間を発話区間とし、前記発話区間の音声を発話とし、
前記発話の単語区間ごとの韻律特徴である局所韻律特徴を、アクセント句区間ごとに連結した特徴である局所韻律系列特徴と、前記アクセント句区間ごとに付与された発話意図ラベルとを学習データとして、前記アクセント句区間ごとの発話意図の抽出に用いるモデルであって、前記アクセント句区間に含まれる単語数に応じたモデルである発話意図モデルを学習する発話意図モデル学習方法。
少なくとも一単語を含み、単語と単語の間が一定時間以下の時間間隔で連続している区間を発話区間とし、前記発話区間の音声を発話とし、
前記発話の単語区間ごとの韻律特徴である局所韻律特徴を、アクセント句区間ごとに連結した特徴である局所韻律系列特徴と、前記アクセント句区間ごとに付与された発話意図ラベルとを学習データとして、前記アクセント句区間ごとの発話意図の抽出に用いるモデルであって、前記アクセント句区間に含まれる単語数に応じたモデルである発話意図モデルを学習するステップと、
発話意図の抽出対象として入力された発話から、前記局所韻律系列特徴を抽出するステップと、
前記局所韻律系列特徴と、前記アクセント句区間に含まれる単語数に対応する前記発話意図モデルに基づいて、前記発話に含まれる全てのアクセント句ごとの発話意図を抽出し、抽出されたアクセント句ごとの発話意図に基づいて、発話ごとの発話意図を抽出するステップと
を含む発話意図抽出方法。
コンピュータを請求項１または２に記載の発話意図モデル学習装置として機能させるためのプログラム。
コンピュータを請求項３または４に記載の発話意図抽出装置として機能させるためのプログラム。