JP7093081B2

JP7093081B2 - 学習装置、推定装置、推定方法、およびプログラム

Info

Publication number: JP7093081B2
Application number: JP2019127181A
Authority: JP
Inventors: 勇祐井島; 隆夫小林; 知樹郡山
Original assignee: Nippon Telegraph and Telephone Corp; Tokyo Institute of Technology NUC
Current assignee: Nippon Telegraph and Telephone Corp; Tokyo Institute of Technology NUC
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2022-06-29
Anticipated expiration: 2039-07-08
Also published as: JP2021012315A

Description

本発明は、音声区間の継続時間長を推定する学習装置、推定装置、推定方法、およびプログラムに関する。

近年、音声対話システムにおいて、ユーザとのより自然な対話を実現するために、合成音声の品質を高める技術の開発が進められている。合成音声を生成する要素技術の一つとして、テキストなどの情報に基づいて、音声区間（例えば、音素、モーラ、文節、単語）の継続時間長を推定する技術が挙げられる。

例えば、非特許文献１および非特許文献２では、対話行為情報（ユーザの意図に相当する情報）などのタグ情報を、合成音声の生成対象となる１つの文章に対して付与し、タグ情報に基づいて、音声区間の継続時間長を推定している。例えば、非特許文献３では、所定の音声区間の継続時間長を、人手により変更している。

Tsiakoulis, Pirros, et al. "Dialogue context sensitive HMM-based speech synthesis." Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014. 北条伸克, 井島勇祐, 杉山弘晃, 「対話行為情報を表現可能な音声合成の検討」, 人工知能学会全国大会, 2O4-OS-23a-4, June 2016. Yu Maeno, Takashi Nose, Takao Kobayashi, Tomoki Koriyama, Yusuke Ijima, Hideharu Nakajima, Hideyuki Mizuno, Osamu Yoshioka. "Prosodic Variation Enhancement Using Unsupervised Context Labeling for HMM-based Expressive Speech Synthesis", Speech Communication, Elsevier, Vol. 57, No. 3, pp. 144-154, Feb. 2014. Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, "Efficient estimation of word representations in vector space", 2013, ICLR 増村亮, 田中智大, 安藤厚志, 神山歩相名, 大庭隆伸, 青野裕司, "対話コンテキストを考慮したニューラル通話シーン分割", 信学技報, vol.117, 2018.

しかしながら、非特許文献１および非特許文献２に開示された技術では、タグ情報を合成音声の生成対象となる１つの文章全てに対して付与しているため、特定の単語の継続時間長が変わるといったことには対応できない。また、非特許文献３に開示された技術では、変更する音声区間を人手で指定する必要があるため、音声対話システムなどのリアルタイム性が求められるシステムでは利用することが難しい。

また、従来の技術では、正確な情報伝達が必須ではない項目を考慮して、所定の音声区間の継続時間長を高精度に推定することが困難であった。このため、例えば、コールセンタにおけるオペレータが自動化された音声対話システムにおいて、生成される合成音声の品質が低く、ユーザに対する効率的な応対を実現し難いという問題があった。

上記のような問題点に鑑みてなされた本発明の目的は、正確な情報伝達が必須ではない項目を考慮して、所定の音声区間の継続時間長を高精度に推定する学習装置、推定装置、推定方法、およびプログラムを提供することにある。

上記課題を解決するため、本発明に係る学習装置は、音声区間の継続時間長を推定する推定モデルを学習する学習装置であって、学習用発話情報に含まれる複数の単語を、複数の数値表現データに表現変換する表現変換部と、複数の前記学習用発話情報および前記複数の数値表現データを用いて、前記継続時間長を推定するためのデータである推定用データを生成する推定用データ生成部と、前記学習用発話情報における通話シーンを推定し、前記通話シーンが推定されたデータである通話シーン推定データに表現変換する通話シーン推定部と、複数の前記学習用発話情報および前記通話シーン推定データを用いて、前記継続時間長を推定するためのデータである通話シーンデータを生成する通話シーンデータ生成部と、前記推定用データ、前記通話シーンデータ、および前記複数の単語の継続時間長を用いて、所定の音声区間の継続時間長を推定する推定モデルを学習する推定モデル学習部と、を備えることを特徴とする。

また、上記課題を解決するため、本発明に係る推定装置は、上記学習装置と、前記推定モデル学習部により学習された推定モデルを用いて、ユーザの発話情報に基づいて、前記所定の音声区間の継続時間長を推定する推定部と、を備えることを特徴とする。

また、上記課題を解決するため、本発明に係る推定方法は、音声区間の継続時間長を推定する推定方法であって、学習用発話情報に含まれる複数の単語を、複数の数値表現データに表現変換するステップと、複数の前記学習用発話情報および前記複数の数値表現データを用いて、前記継続時間長を推定するためのデータである推定用データを生成するステップと、前記学習用発話情報における通話シーンを推定し、前記通話シーンが推定されたデータである通話シーン推定データに表現変換するステップと、複数の前記学習用発話情報および前記通話シーン推定データを用いて、前記継続時間長を推定するためのデータである通話シーンデータを生成するステップと、前記推定用データ、前記通話シーンデータ、および前記複数の単語の継続時間長を用いて、所定の音声区間の継続時間長を推定する推定モデルを学習するステップと、前記推定モデルを用いて、ユーザの発話情報に基づいて、前記所定の音声区間の継続時間長を推定するステップと、を含むことを特徴とする。

また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを、上記の学習装置として機能させることを特徴とする。

本発明によれば、正確な情報伝達が必須ではない項目を考慮して、所定の音声区間の継続時間長を高精度に推定可能となる。

本実施形態に係る推定装置の構成の一例を示す図である。本実施形態に係る推定方法の一例を示すフローチャートである。本実施形態に係る音声データの一例を示す図である。本実施形態に係る単語セグメンテーション情報の一例を示す図である。

以下、本発明を実施するための形態について、図面を参照しながら詳細に説明する。

図１乃至図４を参照して、本実施形態に係る推定装置１００の構成および推定方法について説明する。

図１に示すように、推定装置１００は、学習装置１０と、推定部２０と、を備える。学習装置１０は、表現変換部１１と、推定用データ生成部１２と、通話シーン推定部１３と、通話シーンデータ生成部１４と、推定モデル学習部１５と、を備える。

推定装置１００は、例えば、中央演算処理装置（ＣＰＵ: Central Processing Unit）、主記憶装置（ＲＡＭ: Random Access Memory）などを有する公知又は専用のコンピュータに所定のプログラムが読み込まれて構成された装置である。推定装置１００は、例えば、中央演算処理装置の制御のもとで各処理を実行する。推定装置１００に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。推定装置１００の各処理部は、少なくとも一部が集積回路などのハードウェアによって構成されていてもよい。推定装置１００が備える各記憶部は、例えば、ＲＡＭなどの主記憶装置、または、リレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも推定装置１００がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリのような半導体メモリ素子により構成される補助記憶装置により構成し、推定装置１００の外部に備える構成としてもよい。

推定装置１００は、推定モデルを用いて、ユーザ（例えば、オペレータの対話相手となるカスタマ）の発話情報に基づいて、所定の音声区間（例えば、合成音声の生成対象となる１つの文章に含まれる重要な単語、合成音声の生成対象となる１つの文章に含まれる正確な情報伝達が必須ではない項目に分類すべき単語）の継続時間長を推定する。推定モデルは、学習データ（例えば、学習用音声データ、学習用発話情報）から構築されるデータ（例えば、ベクトル）を、推定された音声区間の継続時間長に変換するニューラルネットワークである。ニューラルネットワークとしては、例えば、ＭＬＰ(Multilayer perceptron)、ＲＮＮ(Recurrent Neural Network)、ＲＮＮ－ＬＳＴＭ(Recurrent Neural Network-Long Short Term Memory)、ＣＮＮ(Convolutional Neural Network)などが挙げられる。なお、音声区間としては、例えば、単語、音素、モーラ、文節などが挙げられるが、本明細書では、音声区間に「単語」を適用する場合を一例に挙げて説明する。

音声データは、複数の発話、複数の発話の順序、各発話に付与される通話シーンなどを含むデータである。音声データは、例えば、基本周波数などの音高パラメータ、ケプストラムあるいはメルケプストラムなどのスペクトルパラメータなどの音響特徴量であってよい。

図３は、音声データの一例を示す図である。図３に示すように、音声データは、例えば、話者１の発話１～発話Ｎ、話者２の発話１～発話Ｎ、話者１の発話１～発話Ｎおよび話者２の発話１～発話Ｎの順序、話者１の発話１＿１，発話１＿２，発話１＿３と話者２の発話１＿１，発話１＿２との対話のフェーズを示す通話シーン１、話者１の発話２＿１，発話２＿２と話者２の発話２＿１，発話２＿２との対話のフェーズを示す通話シーン２、・・・、話者１の発話Ｎ＿１，発話Ｎ＿２と話者２の発話Ｎ＿１との対話のフェーズを示す通話シーンＮなどを含む。なお、音声データは、話者１の発話と話者２の発話とが、必ずしも交互である必要はなく、話者１の発話が連続してもよいし、話者２の発話が連続してもよい。また、１つの通話シーンには、２つ以上の発話が含まれていてもよい。

発話情報は、音声データに含まれる発話（例えば、発話１：「今日の天気は？」）に関する情報であり、例えば、発話に含まれる単語（例えば、発話１に含まれる３番目の単語：「天気」）、発話に含まれる単語の発話開始時間および発話終了時間、発話に含まれる音素、発話に含まれるモーラ、発話に含まれる文節、発話に関する音声、発話に関する文章などを含む情報である。

通話シーンは、音声データに含まれる各発話に付与される情報である。通話シーンは、例えば、コールセンタにおける“オープニング”、“要件確認”、“本人確認”、“要件対応”、“クロージング”などの項目ごとの対話のフェーズを示している。例えば、通話シーン１は、話者１の発話１＿１，発話１＿２，発話１＿３と話者２の発話１＿１，発話１＿２との対話のフェーズを示し、話者１の発話１＿１，発話１＿２，発話１＿３および話者２の発話１＿１，発話１＿２に付与される情報である。例えば、通話シーン２は、話者１の発話２＿１，発話２＿２と話者２の発話２＿１，発話２＿２との対話のフェーズを示し、話者１の発話２＿１，発話２＿２および話者２の発話２＿１，発話２＿２に付与される情報である。例えば、通話シーンＮは、話者１の発話Ｎ＿１，発話Ｎ＿２と話者２の発話Ｎ＿１との対話のフェーズを示し、話者１の発話Ｎ＿１，発話Ｎ＿２および話者２の発話Ｎ＿１に付与される情報である。なお、通話シーンは、各発話に対して、人手で付与されてもよいし、自動で付与されてもよい。

図４は、発話に含まれる単語の発話開始時間および発話終了時間の情報（単語セグメンテーション情報）の一例を示す図である。図４に示すように、単語セグメンテーション情報は、例えば、単語が「今日」である場合、発話開始時間が０［ｍｓ］、発話終了時間が３５０［ｍｓ］となる。また、単語セグメンテーション情報は、例えば、単語が「の」である場合、発話開始時間は３５０［ｍｓ］、発話終了時間は６００［ｍｓ］となる。単語セグメンテーション情報は、例えば、単語が「天気」である場合、発話開始時間が６００［ｍｓ］、発話終了時間は６８０［ｍｓ］となる。単語セグメンテーション情報は、例えば、単語が「は」である場合、発話開始時間が６８０［ｍｓ］、発話終了時間が８３０［ｍｓ］となる。なお、単語セグメンテーション情報は、人手により付与されてもよいし、音声認識器などを用いて自動で付与されてもよい。

以下、各部の詳細について説明する。

表現変換部１１は、学習用発話情報に含まれる複数の単語を、複数の数値表現データに表現変換する（図２に示すステップＳ２０１参照）。表現変換部１１は、表現変換した複数の数値表現データを、推定用データ生成部１２へ出力する。

例えば、表現変換部１１は、Word2Vecにおける単語－ベクトル変換モデルを用いて、学習用発話情報に含まれる複数の単語を、複数のベクトルｗ_ｓｎ（ｔ）に表現変換する。ベクトルｗ_ｓｎ（ｔ）は、話者ｓ（１≦ｓ≦２）のｎ番目（１≦ｎ≦Ｎ）の発話に含まれるｔ番目（１≦ｔ≦Ｔ_ｓｎ）の単語が表現変換されたベクトルを示している。Ｎは発話の数、Ｔ_ｓｎは話者ｓのｎ番目の発話に含まれる単語の数、を示している。例えば、ベクトルｗ_１１（ｔ）は、話者１の１番目の発話１に含まれるｔ番目の単語が表現変換されたベクトルを示している。例えば、ベクトルｗ_２２（ｔ）は、話者２の発話２に含まれるｔ番目の単語が表現変換されたベクトルを示している。なお、Word2Vecの詳細については、例えば下記の文献を参照されたい。
Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, “Efficient estimation of word representations in vector space”, 2013, ICLR

推定用データ生成部１２は、複数の学習用発話情報および表現変換部１１から入力される複数の数値表現データを用いて、推定用データを生成する（図２に示すステップＳ２０２参照）。推定用データ生成部１２は、生成した推定用データを、推定モデル学習部１５へ出力する。

具体的には、推定用データ生成部１２は、推定対象となる発話（例えば、話者２の発話５）より過去の発話（例えば、話者１の発話１～発話５、話者２の発話１～発話４）の学習用発話情報に含まれる複数の単語が表現変換された複数のベクトルを用いて、過去の発話に関するベクトルｖｐ_ｓｎ（ｔ）（第１データ）を取得する。ベクトルｖｐ_ｓｎ（ｔ）は、話者ｓ（１≦ｓ≦２）のｎ番目（１≦ｎ≦Ｎ）の発話に関するベクトルを示している。例えば、推定用データ生成部１２は、推定対象となる発話（例えば、話者２の発話５）の直前の発話（例えば、話者１の発話５）の学習用発話情報に含まれる複数の単語の全てが表現変換された複数のベクトルの統計量（平均、分散など）を用いて、過去の発話に関するベクトルを取得する。

なお、推定用データ生成部１２は、過去の発話を任意に選択して、過去の発話に関するベクトルを取得することが可能である。例えば、推定用データ生成部１２は、推定対象となる発話の直前の発話のみを選択して、過去の発話に関するベクトルを取得してもよい。例えば、推定用データ生成部１２は、推定対象となる発話に時間的に近い過去の発話を複数選択して、過去の発話に関するベクトルを取得してもよい。例えば、推定用データ生成部１２は、推定対象となる発話より過去の発話を全て選択して、過去の発話に関するベクトルを取得してもよい。

そして、推定用データ生成部１２は、推定対象となる発話（例えば、話者２の発話５）の学習用発話情報に含まれる推定対象となる単語（例えば、話者２の発話５に含まれる３番目の単語）が表現変換されたベクトルを用いて、推定対象となる発話に関するベクトルｖｃ_ｓｎ（ｔ）（第２データ）を取得する。ベクトルｖｃ_ｓｎ（ｔ）は、話者ｓ（１≦ｓ≦２）のｎ番目（１≦ｎ≦Ｎ）の発話に関するベクトルを示している。

なお、推定用データ生成部１２は、推定対象となる発話（例えば、話者２の発話５）の学習用発話情報に含まれる推定対象となる単語が表現変換されたベクトルの他、推定対象となる単語に含まれる音素、推定対象となる単語に含まれるモーラなどの継続時間長に関する情報を用いて、推定対象となる発話に関するベクトルを取得してもよい。

そして、推定用データ生成部１２は、過去の発話に関するベクトルｖｐ_ｓｎ（ｔ）と、推定対象となる発話に関するベクトルｖｃ_ｓｎ（ｔ）と、を連結して、推定用ベクトルｖ_ｓｎ（ｔ）を生成する。推定用ベクトルｖ_ｓｎ（ｔ）は、話者ｓ（１≦ｓ≦２）のｎ番目（１≦ｎ≦Ｎ）の発話に含まれるｔ番目（１≦ｔ≦Ｔ_ｓｎ）の単語の継続時間長を推定するためのベクトルを示している。

推定用データ生成部１２が、推定対象となる発話に関するベクトルｖｃ_ｓｎ（ｔ）のみならず、過去の発話に関するベクトルｖｐ_ｓｎ（ｔ）を含めて推定用ベクトルｖ_ｓｎ（ｔ）を生成することで、推定対象となる単語の継続時間長の推定精度を高めることができる。

通話シーン推定部１３は、学習用発話情報における通話シーンを推定し、通話シーン推定データに表現変換する（図２に示すステップＳ２０３参照）。通話シーン推定部１３は、表現変換した通話シーン推定データを、通話シーンデータ生成部１４へ出力する。

通話シーン推定部１３は、例えば下記の文献に記載の通話シーン分割手法を用いて、通話シーン確率ｐ_ｓ（ｎ）を取得する。
増村亮, 田中智大, 安藤厚志, 神山歩相名, 大庭隆伸, 青野裕司, "対話コンテキストを考慮したニューラル通話シーン分割", 信学技報, vol.117, 2018.
この文献には、通話全体を人手により設定された複数のシーンに自動分割する通話シーン分割手法に関する技術が記載されている。そして、この技術が、例えば、コールセンタにおけるオペレータの業務支援に応用できることが記載されている。

通話シーン分割手法では、各発話を、所定の通話シーン（例えば、“オープニング”、“要件確認”、“本人確認”、“要件対応”、“クロージング”など）に分類するために、通話シーン確率を用いている。この文献では、ニューラルネットワークを用いて通話シーンの分割を行っている。一般的にこれらの手法では、各発話をあらかじめ定めてある通話シーンのいずれかに割り当てる必要がある。一方、本発明では継続時間長推定のための情報として用いるため、必ずしもいずれかの通話シーンに分類する必要はない。そこで、本発明では通話シーン分割手法の途中で得られる情報を各発話の通話シーン確率ｐｓ（ｎ）として活用する。通話シーン確率ｐ_ｓ（ｎ）は、話者ｓ（１≦ｓ≦２）のｎ番目（１≦ｎ≦Ｎ）の発話における通話シーンが推定された通話シーン確率を示している。Ｎは発話の数を示している。例えば、通話シーン確率ｐ_１（２）は、話者１の２番目の発話２における通話シーンが推定された通話シーン確率を示している。例えば、通話シーン確率ｐ_２（２）は、話者２の２番目の発話２における通話シーンが推定された通話シーン確率を示している。

通話シーン推定部１３は、例えば、通話シーン分割手法により得られた識別モデルの出力である事後確率に基づいて、通話シーン確率ｐ_ｓ（ｎ）を取得してよい。この場合、通話シーン確率ｐ_ｓ（ｎ）の次元数は、予め設定される通話シーンの数を示している。あるいは、通話シーン推定部１３は、例えば、ニューラルネットワークを用いた通話シーン分割手法において、ニューラルネットワークの中間層の出力であるボトルネック特徴量に基づいて、通話シーン確率ｐ_ｓ（ｎ）を取得してよい。この場合、通話シーン確率ｐ_ｓ（ｎ）の次元数は、予め設定されるニューラルネットワークの中間層のユニットの数を示している。

通話シーンデータ生成部１４は、複数の学習用発話情報および通話シーン推定部１３から入力される通話シーン推定データを用いて、通話シーンデータを生成する（図２に示すステップＳ２０４参照）。通話シーンデータ生成部１４は、生成した通話シーンデータを、推定モデル学習部１５へ出力する。

具体的には、通話シーンデータ生成部１４は、推定対象となる発話（例えば、話者２の発話５）より過去の発話（例えば、話者１の発話１～発話５、話者２の発話１～発話４）の学習用発話情報における通話シーンが推定された通話シーン確率を用いて、過去の発話の通話シーンに関する通話シーンベクトルｖｐ_ｓ（ｎ）（第３データ）を取得する。通話シーンベクトルｖｐ_ｓ（ｎ）は、話者ｓ（１≦ｓ≦２）のｎ番目（１≦ｎ≦Ｎ）の発話における通話シーンに関する通話シーンベクトルを示している。

例えば、通話シーンデータ生成部１４は、推定対象となる発話（例えば、話者２の発話５）より過去の発話（例えば、話者１の発話１～発話５、話者２の発話１～発話４）に含まれる複数の発話（例えば、話者２の発話４、話者１の発話５）の学習用発話情報における通話シーンが推定された複数の通話シーン確率の統計量（平均、最大値など）を用いて、過去の発話における通話シーンに関する通話シーンベクトルを取得する。

例えば、通話シーンデータ生成部１４は、推定対象となる発話（例えば、話者２の発話５）の直前の発話（例えば、話者１の発話５）の学習用発話情報における通話シーンが推定された通話シーン確率を用いて、過去の発話における通話シーンに関する通話シーンベクトルを取得する。通話シーンデータ生成部１４は、推定対象となる発話の直前の発話を選択することで、過去の発話における通話シーンに関する通話シーンベクトルを簡易に取得することができる。

なお、通話シーンデータ生成部１４は、推定対象となる発話より過去の発話を任意に選択して、過去の発話における通話シーンに関する通話シーンベクトルを取得することが可能である。例えば、通話シーンデータ生成部１４は、推定対象となる発話の直前の発話のみを選択して、過去の発話における通話シーンに関する通話シーンベクトルを取得してもよい。例えば、通話シーンデータ生成部１４は、推定対象となる発話に時間的に近い過去の発話を複数選択して、過去の発話における通話シーンに関する通話シーンベクトルを取得してもよい。例えば、通話シーンデータ生成部１４は、推定対象となる発話より過去の発話を全て選択して、過去の発話における通話シーンに関する通話シーンベクトルを取得してもよい。

そして、通話シーンデータ生成部１４は、推定対象となる発話（例えば、話者２の発話５）の学習用発話情報における通話シーンが推定された推定対象となる発話における通話シーンに関する通話シーン確率（第４データ）を取得する。

そして、通話シーンデータ生成部１４は、過去の発話における通話シーンに関する通話シーンベクトルｖｐ_ｓ（ｎ）と、推定対象となる発話における通話シーンに関する通話シーン確率ｐ_ｓ（ｎ）と、を連結して、通話シーンベクトルｖｓ_ｓ（ｎ）を生成する。通話シーンベクトルｖｓ_ｓ（ｎ）は、話者ｓ（１≦ｓ≦２）のｎ番目（１≦ｎ≦Ｎ）の発話における通話シーンに関する通話シーンベクトルを示している。

通話シーンデータ生成部１４が、推定対象となる発話における通話シーンに関する通話シーン確率ｐ_ｓ（ｎ）のみならず、過去の発話における通話シーンに関する通話シーンベクトルｖｐ_ｓ（ｎ）を含めて通話シーンベクトルｖｓ_ｓ（ｎ）を生成することで、正確な情報伝達が必須ではない項目を考慮しつつ、推定対象となる単語の継続時間長の推定精度を高めることができる。

推定モデルは、例えば、ＭＬＰ、ＲＮＮ、ＲＮＮ－ＬＳＴＭ、ＣＮＮなどのニューラルネットワーク、あるいは、これらを組み合わせたニューラルネットワークである。例えば、推定モデルが、ＲＮＮ－ＬＳＴＭなどのような時系列を考慮したニューラルネットワークである場合、推定モデル学習部１５は、過去の発話を考慮した学習を行い易くなるため、推定対象となる単語の継続時間長の推定精度を高めることができる。

推定モデル学習部１５は、例えば、図４に示すような単語セグメンテーション情報に基づいて、学習用発話情報に含まれる複数の単語の継続時間長ｄを取得する。例えば、単語が「今日」であれば、「今日」の継続時間長ｄは、３５０［ｍｓ］である。また、例えば、単語が「の」であれば、「の」の継続時間長ｄは、２５０［ｍｓ］である。また、例えば、単語が「天気」であれば、「天気」の継続時間長ｄは、８０［ｍｓ］である。また、例えば、単語が「は」であれば、「は」の継続時間長ｄは、１５０［ｍｓ］である。

推定部２０は、学習装置１０が学習した推定モデルを用いて、ユーザの発話情報に基づいて、所定の単語の継続時間長を推定する（図２に示すステップＳ２０６参照）。そして、推定部２０は、推定した所定の単語の継続時間長を、音声合成部（不図示）へ出力する。所定の単語とは、音声合成部が合成音声を生成する際、合成音声の生成対象となる１つの文章に含まれる単語であればよく、例えば、重要な単語、繰り返される単語、正確な情報伝達が必須ではない項目に分類すべき単語などである。なお、音声合成部の構成は、特に限定されるものではない。

本実施形態に係る推定装置１００によれば、推定モデルを用いて、ユーザの発話情報に基づいて、所定の音声区間の継続時間長を推定する。これにより、正確な情報伝達が必須ではない項目を考慮して、所定の音声区間の継続時間長を高精度に推定することができる。

また、本実施形態に係る推定装置１００によれば、推定用データ生成部１２が、過去の発話などを考慮して、推定用データを生成する。これにより、重要な情報を繰り返す復唱などの事象に対しても、所定の音声区間の継続時間長を高精度に推定することができる。

また、本実施形態に係る推定装置１００を、音声対話システムに適用することで、例えば、重要な単語を強調した合成音声、正確な情報伝達が必須ではない項目に分類すべき単語の発話速度を他の単語より速くした合成音声など、正確な情報伝達が必須ではない項目が考慮された適切な音声区間の継続時間長を有する合成音声（高品質な合成音声）を生成することができる。

つまり、人間のオペレータが、正確な情報伝達が必須でない項目に対応する文章の発話速度を、正確な情報伝達が必須である項目に対応する文章の発話速度より速くすることで、ユーザへの対応時間を削減し、低コスト化を図っているのと同様に、オペレータが自動化された音声対話システムにおいて、正確な情報伝達が必須でない項目に対応する文章の発話速度を、正確な情報伝達が必須である項目に対応する文章の発話速度より速くした合成音声を生成することで、ユーザへの対応時間を削減し、低コスト化を図ることができる。これにより、コールセンタにおけるオペレータが自動化された音声対話システムにおいて、生成される合成音声の品質を高め、ユーザに対する効率的な応対を実現することが可能となる。

＜推定方法＞
次に、図２を参照して、本実施形態に係る推定方法について説明する。図２は、推定方法の一例を示すフローチャートである。

ステップＳ２０１において、表現変換部１１は、学習用発話情報に含まれる複数の単語を、複数の数値表現データ（例えば、複数のベクトルｗ_ｓｎ（ｔ））に表現変換する。

ステップＳ２０２において、推定用データ生成部１２は、複数の学習用発話情報および表現変換部１１から入力される複数の数値表現データを用いて、推定用データ（例えば、推定用ベクトルｖ_ｓｎ（ｔ））を生成する。

ステップＳ２０３において、通話シーン推定部１３は、学習用発話情報における通話シーンを推定し、通話シーン推定データ（例えば、通話シーン確率ｐ_ｓ（ｎ））に表現変換する。

ステップＳ２０４において、通話シーンデータ生成部１４は、複数の学習用発話情報および通話シーン推定部１３から入力される通話シーン推定データを用いて、通話シーンデータ（例えば、通話シーンベクトルｖｓ_ｓ（ｎ））を生成する。

ステップＳ２０５において、推定モデル学習部１５は、推定用データ、通話シーンデータ、および学習用発話情報に含まれる複数の単語の継続時間長を用いて、推定モデルを学習する。

ステップＳ２０６において、推定部２０は、学習装置１０が学習した推定モデルを用いて、ユーザの発話情報に基づいて、所定の単語の継続時間長を推定する。

上述の推定方法を、例えば、コールセンタにおけるオペレータが自動化された音声対話システムに適用することで、生成される合成音声の品質を高め、ユーザに対する効率的な応対を実現することが可能となる。

なお、上述の各フローチャートはあくまで一例であり、各フローチャートにおいて、一部のステップの順序が入れ替わってもよいし、各フローチャートにおいて、一部のステップを省略してもよい。また、複数のステップを並行して（同時に）行ってもよい。

＜変形例＞
本実施形態では、図１に示す推定装置１００においては、学習装置１０と推定部２０とを分けて記載しているが、学習装置１０と推定部２０とは一体的に形成されていてもよい。したがって、推定部２０が、学習装置１０が備える各部を備えていてもよい。

＜その他の変形例＞
本発明は上記の実施形態および変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

また、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。例えば、実施形態のフローチャートに記載の各工程の順序は、上記に限定されず適宜変更可能である。また、複数の工程を１つに組み合わせたり、あるいは１つの工程を分割したりすることが可能である。

＜プログラムおよび記録媒体＞
また、上記の実施形態および変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

上述の実施形態は代表的な例として説明したが、本発明の趣旨および範囲内で、多くの変更および置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形および変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを１つに組み合わせたり、あるいは１つの構成ブロックを分割したりすることが可能である。

１０学習装置
１１表現変換部
１２推定用データ生成部
１３通話シーン推定部
１４通話シーンデータ生成部
１５推定モデル学習部
２０推定部
１００推定装置

Claims

音声区間の継続時間長を推定する推定モデルを学習する学習装置であって、
学習用発話情報に含まれる複数の単語を、複数の数値表現データに表現変換する表現変換部と、
複数の前記学習用発話情報および前記複数の数値表現データを用いて、前記継続時間長を推定するためのデータである推定用データを生成する推定用データ生成部と、
前記学習用発話情報における通話シーンを推定し、前記通話シーンが推定されたデータである通話シーン推定データに表現変換する通話シーン推定部と、
複数の前記学習用発話情報および前記通話シーン推定データを用いて、前記継続時間長を推定するためのデータである通話シーンデータを生成する通話シーンデータ生成部と、
前記推定用データ、前記通話シーンデータ、および前記複数の単語の継続時間長を用いて、所定の音声区間の継続時間長を推定する推定モデルを学習する推定モデル学習部と、
を備える、学習装置。
前記推定用データ生成部は、推定対象となる発話より過去の発話の学習用発話情報に含まれる複数の単語が表現変換された複数の数値表現データを用いて、前記過去の発話に関する第１データを取得し、前記推定対象となる発話の学習用発話情報に含まれる推定対象となる単語が表現変換された数値表現データを用いて、前記推定対象となる発話に関する第２データを取得し、前記第１データおよび前記第２データに基づいて、前記推定用データを生成し、
前記通話シーンデータ生成部は、前記過去の発話の学習用発話情報における通話シーンが推定された通話シーン推定データを用いて、前記過去の発話における通話シーンに関する第３データを取得し、前記推定対象となる発話の学習用発話情報における通話シーンが推定された前記推定対象となる発話における通話シーンに関する第４データを取得し、前記第３データおよび前記第４データに基づいて、前記通話シーンデータを生成する、請求項１に記載の学習装置。
前記推定用データ生成部は、前記推定対象となる発話の直前の発話の学習用発話情報に含まれる複数の単語の全てが表現変換された複数の数値表現データの統計量を用いて、前記第１データを取得する、請求項２に記載の学習装置。
前記通話シーンデータ生成部は、前記過去の発話に含まれる複数の発話の学習用発話情報における通話シーンが推定された複数の通話シーン推定データの統計量を用いて、前記第３データを取得する、請求項２に記載の学習装置。
前記通話シーンデータ生成部は、前記推定対象となる発話の直前の発話の学習用発話情報における通話シーンが推定された通話シーン推定データを用いて、前記第３データを取得する、請求項２に記載の学習装置。
音声区間の継続時間長を推定する推定装置であって、
請求項１から５のいずれか一項に記載の学習装置と、
前記推定モデル学習部により学習された推定モデルを用いて、ユーザの発話情報に基づいて、前記所定の音声区間の継続時間長を推定する推定部と、
を備える、推定装置。
音声区間の継続時間長を推定する推定方法であって、
学習用発話情報に含まれる複数の単語を、複数の数値表現データに表現変換するステップと、
複数の前記学習用発話情報および前記複数の数値表現データを用いて、前記継続時間長を推定するためのデータである推定用データを生成するステップと、
前記学習用発話情報における通話シーンを推定し、前記通話シーンが推定されたデータである通話シーン推定データに表現変換するステップと、
複数の前記学習用発話情報および前記通話シーン推定データを用いて、前記継続時間長を推定するためのデータである通話シーンデータを生成するステップと、
前記推定用データ、前記通話シーンデータ、および前記複数の単語の継続時間長を用いて、所定の音声区間の継続時間長を推定する推定モデルを学習するステップと、
前記推定モデルを用いて、ユーザの発話情報に基づいて、前記所定の音声区間の継続時間長を推定するステップと、
を含む、推定方法。
コンピュータを、請求項１から５のいずれか一項に記載の学習装置として機能させるプログラム。