JP2020129099A

JP2020129099A - 推定装置、推定方法、及びプログラム

Info

Publication number: JP2020129099A
Application number: JP2019022596A
Authority: JP
Inventors: 勇祐井島; Yusuke Ijima
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-02-12
Filing date: 2019-02-12
Publication date: 2020-08-27
Anticipated expiration: 2039-02-12
Also published as: US20220139381A1; JP7197786B2; US11915688B2; WO2020166359A1

Abstract

【課題】所定の音声区間の継続時間長を高精度に推定する推定装置を提供する。【解決手段】推定装置１００は、音声区間の継続時間長を推定する推定装置であって、学習用発話情報に含まれる複数の単語を、複数の数値表現データに表現変換する表現変換部１１と、複数の学習用発話情報及び複数の数値表現データを用いて、推定用データを生成する推定用データ生成部１２と、推定用データ及び複数の単語の継続時間長を用いて、推定モデルを学習する推定モデル学習部１３と、推定モデルを用いて、ユーザの発話情報に基づいて、所定の音声区間の継続時間長を推定する推定部２０と、を備える。【選択図】図１

Description

本発明は、音声区間の継続時間長を推定する推定装置、推定方法、及びプログラムに関する。

例えば、音声対話システムにおいて、ユーザとのより自然な対話を実現するために、合成音声の品質を高める技術の開発が進められている。合成音声を生成する要素技術の一つとして、テキストなどの情報に基づいて、音声区間（例えば、音素、モーラ、文節、単語）の継続時間長を推定する技術が挙げられる。

例えば、非特許文献１、及び非特許文献２では、対話行為情報（ユーザの意図に相当する情報）などのタグ情報を、合成音声の生成対象となる１つの文章に対して付与し、タグ情報に基づいて、音声区間の継続時間長を推定している。例えば、非特許文献３では、所定の音声区間の継続時間長を、人手により変更している。

Tsiakoulis, Pirros, et al. "Dialogue context sensitive HMM-based speech synthesis." Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014. 北条伸克, 井島勇祐, 杉山弘晃, 「対話行為情報を表現可能な音声合成の検討」, 人工知能学会全国大会, 2O4-OS-23a-4, June 2016. Yu Maeno, Takashi Nose, Takao Kobayashi, Tomoki Koriyama, Yusuke Ijima, Hideharu Nakajima, Hideyuki Mizuno, Osamu Yoshioka. "Prosodic Variation Enhancement Using Unsupervised Context Labeling for HMM-based Expressive Speech Synthesis", Speech Communication, Elsevier, Vol. 57, No. 3, pp. 144-154, Feb. 2014. Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, "Efficient estimation of word representations in vector space", 2013, ICLR

しかしながら、従来の技術では、所定の音声区間の継続時間長を高精度に推定することが困難であった。このため、例えば、音声対話システムにおいて、生成される合成音声の品質が低く、ユーザとの自然な対話を実現し難いという問題があった。

上記のような問題点に鑑みてなされた本発明の目的は、所定の音声区間の継続時間長を高精度に推定する推定装置、推定方法、及びプログラムを提供することにある。

上記課題を解決するため、本発明に係る推定装置は、音声区間の継続時間長を推定する推定装置であって、学習用発話情報に含まれる複数の単語を、複数の数値表現データに表現変換する表現変換部と、複数の前記学習用発話情報及び前記複数の数値表現データを用いて、推定用データを生成する推定用データ生成部と、前記推定用データ及び前記複数の単語の継続時間長を用いて、推定モデルを学習する推定モデル学習部と、前記推定モデルを用いて、ユーザの発話情報に基づいて、所定の音声区間の継続時間長を推定する推定部と、を備えることを特徴とする。

また、上記課題を解決するため、本発明に係る推定方法は、音声区間の継続時間長を推定する推定装置による推定方法であって、学習用発話情報に含まれる複数の単語を、複数の数値表現データに表現変換するステップと、複数の前記学習用発話情報及び前記複数の数値表現データを用いて、推定用データを生成するステップと、前記推定用データ及び前記複数の単語の継続時間長を用いて、推定モデルを学習するステップと、前記推定モデルを用いて、ユーザの発話情報に基づいて、所定の音声区間の継続時間長を推定するステップと、を含むことを特徴とする。

また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを、上記の推定装置として機能させることを特徴とする。

本発明によれば、所定の音声区間の継続時間長を高精度に推定可能となる。

本実施形態に係る推定装置の構成の一例を示す図である。本実施形態に係る推定方法の一例を示すフローチャートである。本実施形態に係る音声データの一例を示す図である。本実施形態に係る単語セグメンテーション情報の一例を示す図である。

以下、本発明を実施するための形態について、図面を参照しながら詳細に説明する。

＜第１実施形態＞
図１乃至図４を参照して、本実施形態に係る推定装置１００の構成及び推定方法について説明する。

図１に示すように、推定装置１００は、学習部１０と、推定部２０と、を備える。学習部１０は、表現変換部１１と、推定用データ生成部１２と、推定モデル学習部１３と、を備える。

推定装置１００は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに所定のプログラムが読み込まれて構成された装置である。推定装置１００は、例えば、中央演算処理装置の制御のもとで各処理を実行する。推定装置１００に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。推定装置１００の各処理部は、少なくとも一部が集積回路などのハードウェアによって構成されていてもよい。推定装置１００が備える各記憶部は、例えば、RAMなどの主記憶装置、または、リレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも推定装置１００がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリのような半導体メモリ素子により構成される補助記憶装置により構成し、推定装置１００の外部に備える構成としてもよい。

推定装置１００は、推定モデルを用いて、ユーザ（例えば、音声対話システムの対話相手）の発話情報に基づいて、所定の音声区間（例えば、合成音声の生成対象となる１つの文章に含まれる重要な単語）の継続時間長を推定する。推定モデルは、学習データ（例えば、学習用音声データ、学習用発話情報）から構築されるデータ（例えば、ベクトル）を、推定された音声区間の継続時間長に変換するニューラルネットワークである。ニューラルネットワークとしては、例えば、MLP(Multilayer perceptron)、RNN(Recurrent Neural Network)、RNN-LSTM(Recurrent Neural Network-Long Short Term Memory)、CNN(Convolutional Neural Network)、などが挙げられる。なお、音声区間としては、例えば、単語、音素、モーラ、文節、などが挙げられるが、本明細書では、音声区間に「単語」を適用する場合を一例に挙げて説明する。

音声データは、複数の発話、複数の発話の順序、などを含むデータである。音声データは、例えば、基本周波数などの音高パラメータ、ケプストラム或いはメルケプストラムなどのスペクトルパラメータ、などの音響特徴量であってよい。

図３は、音声データの一例を示す図である。図３に示すように、音声データは、例えば、話者１の発話１〜発話Ｎ、話者２の発話１〜発話Ｎ、話者１の発話１〜発話Ｎ及び話者２の発話１〜発話Ｎの順序、などを含む。

発話情報は、音声データに含まれる発話（例えば、発話１：「今日の天気は？」）に関する情報であり、例えば、発話に含まれる単語（例えば、発話１に含まれる３番目の単語：「天気」）、発話に含まれる単語の発話開始時間及び発話終了時間、発話に含まれる音素、発話に含まれるモーラ、発話に含まれる文節、発話に関する音声、発話に関する文章、などを含む情報である。

図４は、発話に含まれる単語の発話開始時間及び発話終了時間の情報（単語セグメンテーション情報）の一例を示す図である。図４に示すように、単語セグメンテーション情報は、例えば、単語が「今日」である場合、発話開始時間が0[ms]、発話終了時間が350[ms]となる。また、単語セグメンテーション情報は、例えば、単語が「の」である場合、発話開始時間は350[ms]、発話終了時間は600[ms]となる。単語セグメンテーション情報は、例えば、単語が「天気」である場合、発話開始時間が600[ms]、発話終了時間は680[ms]となる。単語セグメンテーション情報は、例えば、単語が「は」である場合、発話開始時間が680[ms]、発話終了時間が830[ms]となる。なお、単語セグメンテーション情報は、人手により付与されてもよいし、音声認識器などを用いて自動で付与されてもよい。

以下、各部の詳細について説明する。

表現変換部１１は、学習用発話情報に含まれる複数の単語を、複数の数値表現データに表現変換する（図２に示すステップＳ２０１参照）。表現変換部１１は、表現変換した複数の数値表現データを、推定用データ生成部１２へと出力する。

例えば、表現変換部１１は、Word2Vec（例えば、非特許文献４参照）における単語−ベクトル変換モデルを用いて、学習用発話情報に含まれる複数の単語を、複数のベクトルｗ_ｓｎ（ｔ）に表現変換する。ベクトルｗ_ｓｎ（ｔ）は、話者ｓ（１≦ｓ≦２）のｎ番目（１≦ｎ≦Ｎ）の発話に含まれるｔ番目（１≦ｔ≦Ｔ_ｓｎ）の単語が表現変換されたベクトルを示している。Ｎは発話の数、Ｔ_ｓｎは話者ｓのｎ番目の発話に含まれる単語の数、を示している。例えば、ベクトルｗ_１１（ｔ）は、話者１の１番目の発話１に含まれるｔ番目の単語が表現変換されたベクトルを示している。例えば、ベクトルｗ_２２（ｔ）は、話者２の発話２に含まれるｔ番目の単語が表現変換されたベクトルを示している。

推定用データ生成部１２は、複数の学習用発話情報及び表現変換部１１から入力される複数の数値表現データを用いて、推定用データを生成する（図２に示すステップＳ２０２参照）。推定用データ生成部１２は、生成した推定用データを、推定モデル学習部１３へと出力する。

具体的には、推定用データ生成部１２は、推定対象となる発話（例えば、話者２の発話５）より過去の発話（例えば、話者１の発話１〜発話５、話者２の発話１〜発話４）の学習用発話情報に含まれる複数の単語が表現変換された複数のベクトルを用いて、過去の発話に関するベクトルｖｐ_ｓｎ（ｔ）（第１データ）を取得する。ベクトルｖｐ_ｓｎ（ｔ）は、話者ｓ（１≦ｓ≦２）のｎ番目（１≦ｎ≦Ｎ）の発話に関するベクトルを示している。例えば、推定用データ生成部１２は、推定対象となる発話（例えば、話者２の発話５）の直前の発話（例えば、話者１の発話５）の学習用発話情報に含まれる複数の単語の全てが表現変換された複数のベクトルの統計量（平均、分散、など）を用いて、過去の発話に関するベクトルを取得する。

なお、推定用データ生成部１２は、過去の発話を任意に選択して、過去の発話に関するベクトルを取得することが可能である。例えば、推定用データ生成部１２は、推定対象となる発話の直前の発話のみを選択して、過去の発話に関するベクトルを取得してもよい。例えば、推定用データ生成部１２は、推定対象となる発話に時間的に近い過去の発話を複数選択して、過去の発話に関するベクトルを取得してもよい。例えば、推定用データ生成部１２は、推定対象となる発話より過去の発話を全て選択して、過去の発話に関するベクトルを取得してもよい。

そして、推定用データ生成部１２は、推定対象となる発話（例えば、話者２の発話５）の学習用発話情報に含まれる推定対象となる単語（例えば、話者２の発話５に含まれる３番目の単語）が表現変換されたベクトルを用いて、推定対象となる発話に関するベクトルｖｃ_ｓｎ（ｔ）（第２データ）を取得する。ベクトルｖｃ_ｓｎ（ｔ）は、話者ｓ（１≦ｓ≦２）のｎ番目（１≦ｎ≦Ｎ）の発話に関するベクトルを示している。

なお、推定用データ生成部１２は、推定対象となる発話（例えば、話者２の発話５）の学習用発話情報に含まれる推定対象となる単語が表現変換されたベクトルの他、推定対象となる単語に含まれる音素、推定対象となる単語に含まれるモーラ、などの継続時間長に関する情報を用いて、推定対象となる発話に関するベクトルを取得してもよい。

そして、推定用データ生成部１２は、過去の発話に関するベクトルｖｐ_ｓｎ（ｔ）と、推定対象となる発話に関するベクトルｖｃ_ｓｎ（ｔ）と、を連結して、推定用ベクトルｖ_ｓｎ（ｔ）を生成する。ベクトルｖ_ｓｎ（ｔ）は、話者ｓ（１≦ｓ≦２）のｎ番目（１≦ｎ≦Ｎ）の発話に含まれるｔ番目（１≦ｔ≦Ｔ_ｓｎ）の単語の継続時間長を推定するためのベクトルを示している。

推定用データ生成部１２が、推定対象となる発話に関するベクトルｖｃ_ｓｎ（ｔ）のみならず、過去の発話に関するベクトルｖｐ_ｓｎ（ｔ）を含めて推定用ベクトルｖ_ｓｎ（ｔ）を生成することで、推定対象となる単語の継続時間長の推定精度を高めることができる。

推定モデル学習部１３は、推定用データ及び学習用発話情報に含まれる複数の単語の継続時間長を用いて、推定モデルを学習する（図２に示すステップＳ２０３参照）。例えば、推定モデル学習部１３は、過去の発話に関するベクトルｖｐ_ｓｎ（ｔ）と推定対象となる発話に関するベクトルｖｃ_ｓｎ（ｔ）とを連結した推定用ベクトルｖ_ｓｎ（ｔ）、及び単語セグメンテーション情報（図４参照）を用いて、推定モデルを学習する。推定モデルは、例えば、次式（１）のように表すことができる。

ここで、ｄは、単語の継続時間長を示している。

は、推定された単語の継続時間長を示している。

推定モデルは、例えば、Multilayer perceptron、Recurrent Neural Network、Recurrent Neural Network-Long Short Term Memory、Convolutional Neural Network、などのニューラルネットワーク、或いは、これらを組み合わせたニューラルネットワークである。例えば、推定モデルが、Recurrent Neural Network、Recurrent Neural Network-Long Short Term Memory、などのような時系列を考慮したニューラルネットワークである場合、推定モデル学習部１３は、過去の発話を考慮した学習を行い易くなるため、推定対象となる単語の継続時間長の推定精度を高めることができる。

推定モデル学習部１３は、例えば、図４に示すような単語セグメンテーション情報に基づいて、学習用発話情報に含まれる複数の単語の継続時間長ｄを取得する。例えば、単語が「今日」であれば、「今日」の継続時間長ｄは、350[ms]である。また、例えば、単語が「の」であれば、「の」の継続時間長ｄは、250[ms]である。また、例えば、単語が「天気」であれば、「天気」の継続時間長ｄは、80[ms]である。また、例えば、単語が「は」であれば、「は」の継続時間長ｄは、150[ms]である。

推定部２０は、学習部１０が学習した推定モデルを用いて、ユーザの発話情報に基づいて、所定の単語の継続時間長を推定する（図２に示すステップＳ２０４参照）。そして、推定部２０は、推定した所定の単語の継続時間長を、音声合成部（不図示）へと出力する。所定の単語とは、音声合成部が合成音声を生成する際、合成音声の生成対象となる１つの文章に含まれる単語であればよく、例えば、重要な単語、繰り返される単語、などである。なお、音声合成部の構成は、特に限定されるものではない。

第１実施形態に係る推定装置１００によれば、推定モデルを用いて、ユーザの発話情報に基づいて、所定の音声区間の継続時間長を推定する。これにより、所定の音声区間の継続時間長を高精度に推定することができる。

また、第１実施形態に係る推定装置１００によれば、推定用データ生成部１２が、過去の発話などを考慮して、推定用データを生成する。これにより、重要な情報を繰り返す復唱などの事象に対しても、所定の音声区間の継続時間長を高精度に推定することができる。

また、第１実施形態に係る推定装置１００を、音声対話システムに適用することで、例えば、重要な単語を強調した合成音声、重要な単語の発話速度を遅くした合成音声、など適切な音声区間の継続時間長を有する合成音声（高品質な合成音声）を生成することができる。これにより、ユーザとの自然な対話をリアルタイムで行い、音声対話の自然性を向上させた音声対話システムを実現できる。

＜第２実施形態＞
次に、第２実施形態に係る推定装置１００Ａについて説明する。

第２実施形態に係る推定装置１００Ａが、第１実施形態に係る推定装置１００と異なる点は、第１実施形態に係る推定装置１００における推定用データ生成部１２が、過去の発話の学習用発話情報に含まれる複数の単語の全てが表現変換された複数の数値表現データを用いて、過去の発話に関するベクトルを取得するのに対して、第２実施形態に係る推定装置１００Ａにおける推定用データ生成部１２Ａは、過去の発話の学習用発話情報に含まれる複数の単語の全てが表現変換された複数の数値表現データの中から最適な数値表現データを選択し、選択した数値表現データを用いて、過去の発話に関するベクトルを取得する点である。なお、その他の構成は、第１実施形態に係る推定装置１００と同じであるため、重複した説明を省略する。

推定用データ生成部１２Ａは、複数の学習用発話情報及び表現変換部１１から入力される複数の数値表現データを用いて、推定用データを生成する。推定用データ生成部１２Ａは、生成した推定用データを、推定モデル学習部１３へと出力する。

具体的には、推定用データ生成部１２Ａは、推定対象となる発話（例えば、話者２の発話５）より過去の発話（例えば、話者１の発話１〜発話５、話者２の発話１〜発話４）の学習用発話情報に含まれる複数の単語が表現変換された複数のベクトルを用いて、過去の発話に関するベクトルｖｐ_ｓｎ（ｔ）（第１データ）を取得する。例えば、推定用データ生成部１２Ａは、推定対象となる発話（例えば、話者２の発話５）の直前の発話（例えば、話者１の発話５）の学習用発話情報に含まれる複数の単語の全てが表現変換された複数のベクトルの中から、推定対象となる単語（例えば、話者２の発話５に含まれる３番目の単語）が表現変換されたベクトルと最も類似するベクトルを選択し、選択したベクトルを用いて、過去の発話に関するベクトルを取得する。過去の発話に関するベクトルｖｐ_ｓｎ（ｔ）は、例えば、次式（２）のように表すことができる。

ここで、Ｕは、推定対象となる発話の直前の発話に含まれる単語の数を示している。関数distは、２つのベクトル間の距離を示しており、例えば、ユークリッド距離、コサイン距離、などを用いることができる。

なお、推定対象となる発話の直前の発話の学習用発話情報に含まれる複数の単語の全てが表現変換された複数のベクトルの中に、推定対象となる単語が表現変換されたベクトルに類似するベクトルが複数存在する場合には、推定用データ生成部１２Ａは、推定対象となる発話の直前の発話の学習用発話情報に含まれる複数の単語の全てが表現変換された複数のベクトルの中から、複数のベクトルを選択することも可能である。

そして、推定用データ生成部１２Ａは、推定対象となる発話（例えば、話者２の発話５）の学習用発話情報に含まれる推定対象となる単語（例えば、話者２の発話５に含まれる３番目の単語）が表現変換されたベクトルを用いて、推定対象となる発話に関するベクトルｖｃ_ｓｎ（ｔ）（第２データ）を取得する。

そして、推定用データ生成部１２Ａは、過去の発話に関するベクトルｖｐ_ｓｎ（ｔ）と、推定対象となる発話に関するベクトルｖｃ_ｓｎ（ｔ）と、を連結して、推定用ベクトルｖ_ｓｎ（ｔ）を生成する。

推定用データ生成部１２Ａが、推定対象となる発話より過去の発話の学習用発話情報に含まれる複数の単語の全てが表現変換されたベクトルの中から、最適なベクトルを選択し、当該最適なベクトルを用いることで、無駄な情報を省いて、過去の発話に関するベクトルを取得することができる。これにより、推定対象となる単語の継続時間長の推定精度を更に高めることができる。

第２実施形態に係る推定装置１００Ａによれば、推定モデルを用いて、ユーザの発話情報に基づいて、所定の音声区間の継続時間長を推定する。これにより、所定の音声区間の継続時間長を高精度に推定することができる。

また、第２実施形態に係る推定装置１００Ａによれば、推定用データ生成部１２Ａが、推定対象となる発話より過去の発話に含まれる単語の中から、最適な単語を選択して、推定用データを生成する。これにより、重要な情報を繰り返す復唱などの事象に対しても、所定の音声区間の継続時間長を更に高精度に推定することができる。

＜変形例＞
第１実施形態では、図１に示す推定装置１００においては、学習部１０と推定部２０とを分けて記載しているが、学習部１０と推定部２０とは一体的に形成されていてもよい。従って、推定部２０が、学習部１０が備える各部を備えていてもよい。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形及び変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを１つに組み合わせたり、あるいは１つの構成ブロックを分割したりすることが可能である。

１０学習部
１１表現変換部
１２，１２Ａ推定用データ生成部
１３推定モデル学習部
２０推定部
１００，１００Ａ推定装置

Claims

音声区間の継続時間長を推定する推定装置であって、
学習用発話情報に含まれる複数の単語を、複数の数値表現データに表現変換する表現変換部と、
複数の前記学習用発話情報及び前記複数の数値表現データを用いて、推定用データを生成する推定用データ生成部と、
前記推定用データ及び前記複数の単語の継続時間長を用いて、推定モデルを学習する推定モデル学習部と、
前記推定モデルを用いて、ユーザの発話情報に基づいて、所定の音声区間の継続時間長を推定する推定部と、
を備える、推定装置。
前記推定用データ生成部は、
推定対象となる発話より過去の発話の学習用発話情報に含まれる複数の単語が表現変換された複数の数値表現データを用いて、前記過去の発話に関する第１データを取得し、
前記推定対象となる発話の学習用発話情報に含まれる推定対象となる単語が表現変換された数値表現データを用いて、前記推定対象となる発話に関する第２データを取得し、
前記第１データ及び前記第２データに基づいて、前記推定用データを生成する、
請求項１に記載の推定装置。
前記推定用データ生成部は、
前記推定対象となる発話の直前の発話の学習用発話情報に含まれる複数の単語の全てが表現変換された複数の数値表現データの統計量を用いて、前記第１データを取得する、
請求項２に記載の推定装置。
前記推定用データ生成部は、
前記推定対象となる発話の直前の発話の学習用発話情報に含まれる複数の単語の全てが表現変換された複数の数値表現データの中から、前記推定対象となる単語が表現変換された数値表現データと最も類似する数値表現データを選択し、選択した数値表現データを用いて、前記第１データを取得する、
請求項２に記載の推定装置。
音声区間の継続時間長を推定する推定装置による推定方法であって、
学習用発話情報に含まれる複数の単語を、複数の数値表現データに表現変換するステップと、
複数の前記学習用発話情報及び前記複数の数値表現データを用いて、推定用データを生成するステップと、
前記推定用データ及び前記複数の単語の継続時間長を用いて、推定モデルを学習するステップと、
前記推定モデルを用いて、ユーザの発話情報に基づいて、所定の音声区間の継続時間長を推定するステップと、
を含む、推定方法。
コンピュータを、請求項１から４のいずれか一項に記載の推定装置として機能させるプログラム。