JP7070544B2

JP7070544B2 - 学習装置、学習方法、音声合成装置、音声合成方法

Info

Publication number: JP7070544B2
Application number: JP2019505839A
Authority: JP
Inventors: 広岩瀬; 真里斎藤; 真一河野
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2017-03-13
Filing date: 2018-02-27
Publication date: 2022-05-18
Anticipated expiration: 2038-02-27
Also published as: US20200051545A1; WO2018168427A1; JPWO2018168427A1; EP3598434A1; US11335322B2; EP3598434A4

Description

本技術は、学習装置、学習方法、音声合成装置、音声合成方法に関し、特に、発話先のユーザにとって内容が伝わりやすい音声で情報を提示することができるようにした学習装置、学習方法、音声合成装置、音声合成方法に関する。

近年、各種の情報の提示を音声により行うホームエージェント機器が普及してきている。例えば、天気予報、スケジュール、受信した電子メールの内容等の各種の情報の提示が、あたかも機器がユーザに対して話しかけるようにして行われる。

特開２０１１－１８６１４３号公報特開２０１６－００６５４１号公報

機器に組み込まれた音声合成（TTS(Text To Speech)）による発話は、声質や口調が毎回同じで単調なため、ユーザにとって親しみが湧かず、発話への意識が向きにくい。

本技術はこのような状況に鑑みてなされたものであり、発話先のユーザにとって内容が伝わりやすい音声で情報を提示することができるようにするものである。

本技術の一側面の学習装置は、複数のユーザの発話音声の音声認識を行う音声認識部と、発話時の状況を推定する推定部と、前記発話音声のデータと、前記音声認識の結果と、前記発話時の状況とに基づいて、音声合成時の状況に応じた合成音声である、発話先ユーザに応じたユーザを話者ユーザとした前記合成音声の生成に用いられる音声合成用データの学習を行う学習部とを備える。

前記推定部には、前記音声認識の結果に基づいて、前記複数のユーザに含まれる発話ユーザと発話先ユーザの関係性を表す関係性データを生成させることができる。

撮像した画像を解析し、前記画像に写る顔を認識する画像認識部と、発話時に検出された音声信号に基づいて音源の方向を検出する音声信号処理部とをさらに設けることができる。この場合、前記推定部には、前記音源の方向と前記画像に写る顔の方向に基づいて、前記発話ユーザを特定させることができる。

前記推定部には、前記発話ユーザによる発話に続けて発話を行ったユーザを、前記発話先ユーザとして特定させることができる。

前記音声信号処理部には、前記音声信号のうち、前記発話ユーザによる前記発話音声の音源方向以外の方向の成分を騒音成分として抽出させることができる。

前記画像認識部には、前記画像に顔が写る前記発話ユーザの感情を認識させることができる。

前記推定部には、前記発話時の状況として、前記発話ユーザの感情と騒音レベルを推定させることができる。

前記学習部には、それぞれの前記発話音声のデータと前記音声認識の結果を、前記発話時の状況で分類した辞書データを前記音声合成用データとして生成させることができる。

前記学習部には、それぞれの前記音声認識の結果と前記発話時の状況に関する情報を入力とし、前記発話音声のデータを出力とするニューラルネットワークを前記音声合成用データとして生成させることができる。

本技術の他の側面の音声合成装置は、状況を推定する推定部と、複数のユーザによる発話音声のデータと、前記発話音声の音声認識の結果と、発話時の状況に基づいて学習を行うことによって生成された音声合成用データを用いて、所定のテキストデータの内容を表し、推定された状況に応じた合成音声として、発話先ユーザに応じたユーザを話者ユーザとした前記合成音声を生成する生成部とを備える。

前記音声認識の結果に基づいて学習時に生成された、前記複数のユーザに含まれる発話ユーザと発話先のユーザの関係性を表す関係性データに基づいて、前記話者ユーザを選択する制御部をさらに設けることができる。

前記制御部には、前記テキストデータの内容に基づいて前記発話先ユーザを選択させることができる。

撮像した画像を解析し、前記画像に写る顔を認識する画像認識部と、検出された音声信号に基づいて音源の方向を検出し、所定のユーザによる発話音声の音源方向以外の方向の成分を騒音成分として抽出する音声信号処理部とをさらに設けることができる。

前記推定部には、前記テキストデータの内容に基づいて前記話者ユーザの感情を特定させ、前記話者ユーザの感情と騒音レベルを前記状況として推定させることができる。

前記音声合成用データは、それぞれの前記発話音声のデータと前記音声認識の結果を、前記発話時の状況で分類した辞書データであるようにすることができる。

前記音声合成用データは、それぞれの前記音声認識の結果と前記発話時の状況に関する情報を入力とし、前記発話音声のデータを出力とするニューラルネットワークであるようにすることができる。

本技術の一側面においては、複数のユーザの発話音声の音声認識が行われ、発話時の状況が推定され、前記発話音声のデータと、前記音声認識の結果と、前記発話時の状況とに基づいて、音声合成時の状況に応じた合成音声である、発話先ユーザに応じたユーザを話者ユーザとした前記合成音声の生成に用いられる音声合成用データの学習が行われる。

本技術の他の側面においては、状況が推定され、複数のユーザによる発話音声のデータと、前記発話音声の音声認識の結果と、発話時の状況に基づいて学習を行うことによって生成された音声合成用データを用いて、所定のテキストデータの内容を表し、推定された状況に応じた合成音声として、発話先ユーザに応じたユーザを話者ユーザとした前記合成音声が生成される。

本技術によれば、発話先のユーザにとって内容が伝わりやすい音声で情報を提示することができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

音声合成用データの学習と音声合成の概要について示す図である。音声合成辞書の学習と音声合成の流れの例を示す図である。学習装置の構成例を示すブロック図である。コンテキスト情報の例を示す図である。学習装置の学習処理について説明するフローチャートである。図５のステップＳ４において行われる発話検出・騒音量算出処理について説明するフローチャートである。学習装置の周りにいるユーザの例を示す図である。図５のステップＳ６において行われるコンテキスト情報生成処理について説明するフローチャートである。図５のステップＳ７において行われるユーザ関係性判定処理について説明するフローチャートである。ユーザ関係性データの例を示す図である。図５のステップＳ８において行われる音声合成辞書生成処理について説明するフローチャートである。音声合成辞書生成処理における辞書生成の例を示す図である。音声合成装置の構成例を示すブロック図である。音声合成装置の音声合成処理について説明するフローチャートである。図１４のステップＳ１０８において行われる辞書選択処理について説明するフローチャートである。家庭内における学習時の例を示す図である。システム発話の例を示す図である。システム発話の例を示す図である。システム発話の例を示す図である。システム発話の例を示す図である。学習装置のハードウェア構成例を示すブロック図である。エージェント機器の構成例を示すブロック図である。エージェント機器の使用状態を示す図である。学習装置の他の構成例を示すブロック図である。学習装置の学習処理について説明するフローチャートである。音声合成装置の他の構成例を示すブロック図である。音声合成用コンテキスト情報の例を示す図である。音声合成装置の音声合成処理について説明するフローチャートである。図２８のステップＳ２２８において行われる音声合成用コンテキスト情報生成処理について説明するフローチャートである。コンピュータの構成例を示すブロック図である。

以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
１．学習と音声合成の概要
２．第１の実施の形態（音声合成辞書を用いた例）
３．第２の実施の形態（音声合成ネットワークを用いた例）

＜＜学習と音声合成の概要＞＞
図１は、音声合成用データの学習と、音声合成用データを用いた音声合成の概要について示す図である。

本技術の一実施形態に係る学習装置と音声合成装置は、主に、家庭などの、複数の限られたユーザが日常的にいる環境で用いられる装置である。以下、学習装置と音声合成装置が、両親と子ども１人の、合わせて３人のユーザが住む家で用いられる場合について説明する。

なお、学習装置と音声合成装置は、それぞれ別々の装置として設けられるのではなく、後述するように１つの装置として設けられるようにすることが可能である。

学習装置は、家族間の日常的な会話による発話音声や家族が学習装置に向かって発した発話音声を検出し、検出した発話音声に基づいて、各ユーザの音声を真似た音声を音声合成によって生成するための音声合成用データを学習する。音声が、声質と口調から規定されるものとすると、あるユーザの音声を真似た音声は、そのユーザの音声と、声質と口調が似ている音声となる。

家族の発話音声に基づいて学習が行われることにより、父の音声を生成するための音声合成用データ、母の音声を生成するための音声合成用データ、および、子どもの音声を生成するための音声合成用データがそれぞれ生成される。

後述するように、音声合成装置においては、学習装置により生成された音声合成用データを用いてTTS(Text To Speech)が行われ、所定のテキストの内容が、家族の誰かの音声として提示される。

音声合成用データの学習は、図１の上段に示すように、発話音声のデータであるユーザ発話音声波形データと、発話音声を音声認識して得られたユーザ発話テキストに加えて、発話時の状況のセンシング結果を表すコンテキスト情報を用いて行われる。

例えば、発話時の状況として、発話を行ったユーザが誰であるのか、発話を行ったユーザの感情、発話時の騒音、発話先のユーザが誰であるのかが検出され、それらの情報が学習に用いられる。

このようにして生成された音声合成用データは、有線又は無線の通信により、あるいは記録媒体を介して音声合成装置に提供される。

一方、音声合成用データを用いた音声合成は、図１の下段に示すように、合成音声として提示する内容を表すテキストであるシステム発話テキストと、音声合成時の状況のセンシング結果を表すコンテキスト情報を入力として用いて行われる。音声合成用データを参照することにより、システム発話テキストとコンテキスト情報に応じた合成音声のデータであるシステム発話音声波形データが出力される（生成される）。

このように、学習装置における音声合成用データの学習と音声合成装置における音声合成は、それぞれのタイミングの状況を考慮して行われる。

通常、人の発話音声は、誰に対する発話であるのかや、そのときの感情、騒音などに応じて声質や口調が異なるものとなる。

上述したような状況を考慮して学習を行うことにより、各状況に応じた音声を音声合成によって得ることができる音声合成用データを生成することが可能になる。また、そのようにして生成された音声合成用データを用いて音声合成を行うことにより、各状況に応じた音声を生成することが可能になる。

以下、音声合成用データとして音声合成辞書を用いた場合の例と、ニューラルネットワークにより構成される音声合成ネットワークを用いた場合の例について説明する。

＜＜第１の実施の形態（音声合成辞書を用いた例）＞＞
図２は、音声合成用データとして音声合成辞書を用いた場合の学習と音声合成の流れの例を示す図である。

図２の上段に示すように、学習装置１は、家族のそれぞれを発話ユーザとする発話音声を検出し、ユーザ発話音声波形データと音声認識結果であるユーザ発話テキストを使用して、逐次、音声合成辞書を自動的に学習する。以下、適宜、音声合成辞書を単に辞書という。

ここで、学習時、学習装置１は、周囲の状況のセンシングを行うことによって得られたセンシング結果を用いて、発話ユーザが家族のうちの誰であるのかを特定し、ユーザ毎の、異なる声質や口調となる音声の辞書を生成する。また、学習装置１は、センシング結果を用いて、発話ユーザの感情、騒音、発話先などの状況を検出し、状況毎に、異なる声質や口調となる音声の辞書を生成する。

これにより、図１の白抜き矢印Ａ１の先に示すように、音声合成辞書として、各ユーザの、各状況における音声の韻律と音素片のデータを格納する複数の辞書が生成される。韻律と音素片のデータにはユーザ発話テキストが対応付けられる。韻律は、イントネーション、リズム、ポーズなどの、口調を構成する要素である。

このような学習がユーザが発話する毎に逐次行われることにより、各ユーザの辞書であって、様々な感情、様々な騒音、様々な発話先に応じた辞書が生成されることになる。

一方、音声合成装置２は、図２の下段に示すように、家族の所定のユーザを発話先としたシステム発話を行う場合、家族の所定のユーザを話者として選択する。例えば、話者の選択は、システム発話テキストの内容や周囲の状況に基づいて、発話先のユーザにとって最も内容が伝わりやすいと期待される声質や口調の音声の主を選択するようにして行われる。家族のうち、例えば、発話先のユーザ以外のユーザが話者として選択される。

周囲の状況は、センシング結果に基づいて特定される。なお、システム発話は、音声合成装置２が合成音声を出力することをいう。システム発話テキストは、システム発話によってユーザに通知する内容を表すテキストデータである。

また、音声合成装置２は、選択した話者の音声合成辞書であって、システム発話テキストの内容や周囲の状況に応じた辞書を白抜き矢印Ａ２の先に示すように選択し、システム発話テキストの音声合成を行う。音声合成装置２は、音声合成によって得られたシステム発話音声を出力することによって、システム発話テキストの内容を、発話先のユーザが誰であるのかや、周囲の状況に応じた声質や口調の合成音声によって通知する。

後に詳述するように、例えば、システム発話テキストの内容が、子どもに対する指示であるとする。この場合、発話先のユーザは“子ども”となり、普段から（学習時から）、子どもが母の言うことを聞かないが、父の言うことを聞いているときには、話者は“父”となる。また、“父”の発話音声を用いた学習によって生成された“父”の音声合成辞書のうち、システム発話テキストの内容や状況に応じた辞書が選択され、音声合成が行われる。

以上のような学習装置１による学習時の流れと音声合成装置２による音声合成時の流れの詳細についてはフローチャートを参照して後述する。

＜音声合成辞書の学習＞
［学習装置の構成例］
図３は、学習装置１の構成例を示すブロック図である。

学習装置１は、センサデバイス１１、画像認識部１２、音声入力デバイス１３、音声信号処理部１４、音声認識部１５、コンテキスト推定部１６、学習用データ記憶部１７、関係性データ記憶部１８、音声合成辞書学習部１９、および音声合成用データ記憶部２０から構成される。

センサデバイス１１は、カメラにより構成される。センサデバイス１１により撮像された画像は画像認識部１２に供給される。

画像認識部１２は、顔認識を行い、撮像された画像に写るユーザの顔を検出する。また、画像認識部１２は、撮像された画像を解析し、ユーザを識別するとともに、ユーザの表情に基づいて感情を推定する。

画像認識部１２は、顔を検出したユーザの情報として以下の情報を生成する。

・ユーザ方向
：画像内の顔の位置から算出された、学習装置１からみたユーザの方向を表す情報。

・個人識別情報（ユーザID）
：ユーザの識別に用いられる情報。家庭内での例においては、父、母、子どものいずれかを表す情報。

・感情
：平静、喜び、悲しみ、怒りなどの、推定された感情を表す情報。

撮像された画像に複数人のユーザが写っている場合（複数の顔が検出された場合）、画像認識部１２は、ユーザ毎に、以上の情報を生成する。

画像認識部１２は、各ユーザの方向の情報と個人識別情報を音声信号処理部１４に出力する。また、画像認識部１２は、各ユーザの方向、個人識別情報、および感情を表す情報をコンテキスト推定部１６に出力する。

音声入力デバイス１３は、複数のマイク（マイクアレイ）により構成される。音声入力デバイス１３により、学習装置１の周りにいるユーザが発する音声と環境音が検出される。音声入力デバイス１３により検出された音声の信号は入力音声信号として音声信号処理部１４に供給される。

音声信号処理部１４は、複数のマイクの入力音声信号に対して音源分離処理を行い、画像認識部１２から供給された情報により表されるユーザの方向と同じ方向を音源方向として特定する。音声信号処理部１４は、特定した音源方向の成分の音声信号を抽出する。

また、音声信号処理部１４は、抽出した音声信号に対して音声区間検出処理を行い、ユーザが発話している区間の音声信号を検出する。音声信号処理部１４により検出された音声区間の信号は、音声認識部１５に供給されるとともに、学習用データ記憶部１７に供給され、ユーザ発話音声波形データ＃１として格納される。

音源方向の分離については、例えば参考文献１に開示されている。また、音声区間の検出については、例えば参考文献２に開示されている。
参考文献１「URL http://www.ieice-hbkb.org/files/02/02gun_06hen_02.pdf」
参考文献２「URL https://julius.osdn.jp/juliusbook/ja/desc_vad.html」

なお、複数のユーザが画像認識部１２により認識された場合、音声信号処理部１４は、それぞれのユーザの方向について、音源分離処理と音声区間検出処理を行い、音声区間毎のスコアを算出する。ここでは、人の発話らしさを表すスコアである発話らしさスコアが算出される。音声信号処理部１４は、発話らしさスコアが最も高い、すなわち、最も人の発話らしい方向の音声信号を、発話音声の音声信号として検出する。

ところで、音声信号処理部１４に対しては、ユーザの発話による音声信号以外に、環境音の音声信号も入力される。音声信号処理部１４は、音声区間検出処理によって発話音声（ユーザの発話音声）が検出された方向を除く方向成分の音を騒音とし、騒音量を求める。

騒音量は、例えば、発話音声が検出された方向を除く方向成分（非発話方向成分）の音声信号を音源分離処理によって抽出し、発話音声の時間区間における、非発話方向成分の音声信号（振幅値）の二乗平均平方根(RMS・実効値)を算出するようにして求められる。

音声信号処理部１４は、騒音量とユーザの発話方向を表す情報をコンテキスト推定部１６に出力する。

音声認識部１５は、音声信号処理部１４から供給された発話音声の音声信号に対して音声認識を行い、ユーザ発話テキストを生成する。音声認識部１５により生成されたユーザ発話テキストは、コンテキスト推定部１６に供給されるとともに、学習用データ記憶部１７に供給され、ユーザ発話テキスト＃２として格納される。

コンテキスト推定部１６に対しては、各ブロックから以下の情報が入力されることになる。ここで、画像認識部１２により検出されたユーザの人数をｎとする。

画像認識部１２からは、
ユーザの方向・個人識別情報・感情のセット（画像認識結果セット） × ｎ人分
が入力される。

音声信号処理部１４からは、
ユーザの発話方向・騒音量のセット
が入力される。

音声認識部１５からは、
ユーザ発話テキスト
が入力される。

コンテキスト推定部１６は、上記入力情報に基づいてコンテキスト情報＃３を生成する。コンテキスト情報＃３は、ユーザ発話音声波形データとユーザ発話テキストに対応付けられる情報である。コンテキスト情報＃３は、図４に示すように、以下の情報から構成される。

・発話ユーザID
：ｎ人分の画像認識結果セットのうち、それに含まれるユーザの方向が、ユーザの発話方向と一致する画像認識結果セットの個人識別情報。

・感情
：ｎ人分の画像認識結果セットのうち、それに含まれるユーザの方向が、ユーザの発話方向と一致する画像認識結果セットの感情（例えば、平静、喜び、悲しみ、怒り）。

・騒音レベル
：音声信号処理部１４から供給された騒音量を、閾値処理によって高・中・低の３段階に分類して得られるレベル。

・発話先ID
ユーザ同士の発話の時間の連続性から、誰に向けた発話であるのかを判定し、発話先となったユーザの個人識別情報。

例えば、発話ユーザIDを“母”とする発話が検出された直後（一定時間内）に、発話ユーザIDを“子ども”とする発話が検出された場合、発話ユーザIDを“母”とするその発話の発話先IDは“子ども”となる。母が学習装置１に向かって発話した場合などのように、母以外の発話が一定時間内に無いときには、発話先IDは“無し”となる。

このように、コンテキスト推定部１６は、発話時の状況を推定する推定部として機能する。

また、コンテキスト推定部１６は、ユーザ発話テキストと対応付けられた発話ユーザIDに基づいて、どのユーザによる依頼や指示を、どのユーザが受け入れているのかを判定する。コンテキスト推定部１６は、そのような、各ユーザによる依頼や指示をどのユーザが受け入れているのかの程度をユーザ毎にスコア化した情報をユーザ関係性データ＃４として生成する。コンテキスト推定部１６は、ユーザ関係性データ＃４を関係性データ記憶部１８に出力し、格納させる。

例えば、発話ユーザを“母”とする、指示を意味する「早く寝なさい」の発話があった場合について説明する。「早く寝なさい」の発話の直後に、発話ユーザを“子ども”として、同意を意味する「うん」の発話があった場合、受け入れユーザである“子ども”の、依頼／指示ユーザである“母”に対する受け入れスコアが加算される。

逆に、「早く寝なさい」の発話の直後に、発話ユーザを“子ども”として、拒否を意味する「いや」の発話があった場合、受け入れユーザである“子ども”の、依頼／指示ユーザである“母”に対する受け入れスコアが減算される。

学習用データ記憶部１７には、ユーザ発話音声波形データ＃１、ユーザ発話テキスト＃２、コンテキスト情報＃３を対応付けた学習データセットが記憶される。学習データセットは、発話が検出される毎に蓄積される。

音声合成辞書学習部１９は、学習データセットが一定量増加する毎に、すなわち、一定回数の発話が行われる毎に、辞書の学習を行う。辞書の学習は例えばバックグランド処理で行われる。音声合成辞書学習部１９による学習によって生成された辞書は音声合成用データ記憶部２０に供給され、格納される。音声合成用データ記憶部２０には、辞書のデータベースである音声合成辞書DB＃５が構成される。

［学習装置の動作］
図５のフローチャートを参照して、以上のような構成を有する学習装置１の学習処理について説明する。

ステップＳ１において、音声入力デバイス１３は音声を検出する。ユーザの発話音声と環境音を含む入力音声信号は音声信号処理部１４に供給される。

ステップＳ２において、センサデバイス１１は撮像を行う。撮像によって得られた画像は画像認識部１２に供給される。

ステップＳ３において、画像認識部１２は、画像を解析することによって、画像に写るユーザの顔を検出し、ユーザを識別する。また、画像認識部１２は、ユーザの表情に基づいて感情を推定する。各ユーザの方向の情報と個人識別情報は音声信号処理部１４に供給され、各ユーザの方向の情報、個人識別情報、および感情の情報は、画像認識結果セットとしてコンテキスト推定部１６に供給される。

ステップＳ４において、音声信号処理部１４は、発話検出・騒音量算出処理を行う。発話検出・騒音量算出処理の詳細については図６のフローチャートを参照して後述する。

ステップＳ５において、音声認識部１５は、音声信号処理部１４から供給された音声信号の音声認識を行い、ユーザ発話テキストを生成する。ユーザ発話テキストは学習用データ記憶部１７に供給され、格納される。

ステップＳ６において、コンテキスト推定部１６は、コンテキスト情報生成処理を行う。コンテキスト情報生成処理の詳細については図８のフローチャートを参照して後述する。

ステップＳ７において、コンテキスト推定部１６は、ユーザ関係性判定処理を行う。ユーザ関係性判定処理の詳細については図９のフローチャートを参照して後述する。

ステップＳ８において、音声合成辞書学習部１９は、音声合成辞書生成処理を行う。音声合成辞書生成処理の詳細については図１１のフローチャートを参照して後述する。

音声合成辞書生成処理により生成された辞書が音声合成用データ記憶部２０に格納された後、一連の学習処理は終了される。以上の処理が、ユーザが発話を行ったときなどの所定のタイミングで繰り返し行われる。

・発話検出・騒音量算出処理
次に、図６のフローチャートを参照して、図５のステップＳ４において行われる発話検出・騒音量算出処理について説明する。

ここでは、図７に示すように、ユーザＡ，Ｂ，Ｃが学習装置１の周りにいてユーザＡが発話を行っているものとする。ユーザＡ，Ｂ，Ｃは、それぞれ、父、母、子どもである。

ステップＳ２１において、音声信号処理部１４は、画像認識部１２により認識されたユーザＡ，Ｂ，Ｃの方向の情報と個人識別情報を取得する。

ステップＳ２２において、音声信号処理部１４は、音声入力デバイス１３から供給された入力音声信号に対して音源分離処理を行い、ユーザＡ，Ｂ，Ｃの各方向成分の音声信号を抽出する。

ステップＳ２３において、音声信号処理部１４は、抽出した音声信号に対して音声区間検出処理を行い、ユーザＡ，Ｂ，Ｃの各方向成分の音声信号の発話らしさスコアを算出する。

例えば、発話音声に現れる特徴が含まれており、入力された音声信号が発話音声の信号である確率が高い場合、発話らしさスコアとして高いスコアが割り当てられる。また、同じ音が続くなどして、入力された音声信号が発話音声の信号である確率が低い場合、発話らしさスコアとして低いスコアが割り当てられる。

ステップＳ２４において、音声信号処理部１４は、ユーザＡ，Ｂ，Ｃの各方向成分の音声信号のうち、発話らしさスコアが最も高い例えばユーザＡの方向成分の音声信号を出力する。音声信号処理部１４から出力された音声信号は、音声認識部１５に供給されるとともに、学習用データ記憶部１７に供給され、ユーザ発話音声波形データとして格納される。

ステップＳ２５において、音声信号処理部１４は、ユーザＡの発話区間（時間）における、ユーザＡの方向成分以外の方向成分を騒音成分とし、騒音量を算出する。図７において、斜線を付して示すユーザＡの方向以外の方向（薄い色を付して示す部分）の音声信号の成分が、騒音成分として処理されることになる。

このようにして算出された騒音量とユーザの発話方向を表す情報は、コンテキスト推定部１６に供給される。その後、図５のステップＳ４に戻り、それ以降の処理が行われる。

・コンテキスト情報生成処理
次に、図８のフローチャートを参照して、図５のステップＳ６において行われるコンテキスト情報生成処理について説明する。

ステップＳ３１において、コンテキスト推定部１６は、音声信号処理部１４から入力された、ユーザの発話方向の情報と騒音量の情報を取得する。

ステップＳ３２において、コンテキスト推定部１６は、画像認識部１２から供給された画像認識結果セットを取得する。画像認識結果セットには、画像を解析することにより認識された、各ユーザの方向の情報、個人識別情報、および感情の情報が含まれる。

ステップＳ３３において、コンテキスト推定部１６は、１つの画像認識結果セットに注目する。

ステップＳ３４において、コンテキスト推定部１６は、注目する画像認識結果セットに含まれる情報により表されるユーザの方向が、音声信号処理部１４により検出されたユーザの発話方向と一致するか否かを判定する。

注目する画像認識結果セットに含まれる情報により表されるユーザの方向がユーザの発話方向と一致しないとステップＳ３４において判定した場合、ステップＳ３５において、コンテキスト推定部１６は、全ての画像認識結果セットに注目したか否かを判定する。

全ての画像認識結果セットに注目していないとステップＳ３５において判定した場合、コンテキスト推定部１６は、ステップＳ３３に戻り、次の画像認識結果セットに注目し、同様の処理を続ける。

蓄積された全ての画像認識結果セットに注目したとステップＳ３５において判定した場合、ステップＳ３６において、コンテキスト推定部１６は、発話ユーザを特定できなかったため、コンテキスト情報の生成を行わずに処理を終了させる。この場合、発話が行われなかったことになる。その後、図５のステップＳ６に戻り、それ以降の処理が行われる。

ステップＳ３４において、注目する画像認識結果セットに含まれる情報により表されるユーザの方向がユーザの発話方向と一致する判定された場合、処理はステップＳ３７に進む。この場合、発話方向と一致する方向に写っているユーザが、発話ユーザとして特定されることになる。

ステップＳ３７において、コンテキスト推定部１６は、注目する画像認識結果セットに含まれる個人識別情報を発話ユーザIDとして設定する。

ステップＳ３８において、コンテキスト推定部１６は、注目する画像認識結果セットに含まれる情報により表される感情を、発話ユーザの感情として設定する。

ステップＳ３９において、コンテキスト推定部１６は、音声信号処理部１４により検出された発話中の騒音量を閾値を用いて分類し、騒音レベルを求める。例えば、騒音レベルとして高レベル、中レベル、低レベルの３段階のレベルが設定されている場合、コンテキスト推定部１６は、閾値と比較することによって、発話中の騒音量をいずれかのレベルに分類する。

ステップＳ４０において、コンテキスト推定部１６は、別のユーザによる発話が一定時間内に検出されたか否かを判定する。

別のユーザによる発話が一定時間内に検出されていないとステップＳ４０において判定した場合、ステップＳ４１において、コンテキスト推定部１６は、発話先ID無しとして設定する。

一方、別のユーザによる発話が一定時間内に検出されたとステップＳ４０において判定した場合、ステップＳ４２において、コンテキスト推定部１６は、その発話の発話ユーザIDを発話先IDとして設定する。

すなわち、いま注目されている画像認識結果セットは所定のユーザによる発話に対応するものである。その所定のユーザの発話より後の一定時間内に検出された発話に対応する画像認識結果セットであって、別のユーザが発話ユーザとして特定された画像認識結果セットがある場合、その別のユーザの個人識別情報が発話先IDとして設定されることになる。

ステップＳ４１において発話先ID無しとして設定された場合、または、ステップＳ４２において発話先IDが設定された場合、図５のステップＳ６に戻り、それ以降の処理が行われる。

以上の処理により、各発話に対して、その発話中の状況を表すコンテキスト情報が生成される。コンテキスト情報生成処理により生成されたコンテキスト情報は学習用データ記憶部１７に供給され、格納される。

・ユーザ関係性判定処理
次に、図９のフローチャートを参照して、図５のステップＳ７において行われるユーザ関係性判定処理について説明する。

ここでは、図７のユーザＡの発話が検出されたものとする。この場合、図８を参照して説明した処理により、発話ユーザIDとしてユーザＡの個人識別情報（“Ａ”）が設定されたコンテキスト情報が生成される。

ステップＳ５１において、コンテキスト推定部１６は、発話ユーザID＝“Ａ”の発話を検出する。

ステップＳ５２において、コンテキスト推定部１６は、発話ユーザID＝“Ａ”のユーザ発話テキストに対して自然言語処理と意味解析処理を行う。発話ユーザID＝“Ａ”の発話が検出された場合、音声認識部１５からは、その発話の音声認識結果であるユーザ発話テキストが供給される。

ステップＳ５３において、コンテキスト推定部１６は、発話ユーザID＝“Ａ”のユーザ発話テキストが、他のユーザに対する依頼や指示を意味しているか否かを判定する。自然言語処理と意味解析処理が行われることにより、ユーザ発話テキストはその意味に応じて分類される。

発話ユーザID＝“Ａ”のユーザ発話テキストが他のユーザに対する依頼や指示を意味しているとステップＳ５３において判定された場合、処理はステップＳ５４に進む。

ステップＳ５４において、コンテキスト推定部１６は、発話ユーザID＝“Ａ”の発話に対応するコンテキスト情報を参照し、発話先IDが無しとして設定されているか否かを判定する。

発話先IDが無しとして設定されているとステップＳ５４において判定した場合、ステップＳ５５において、コンテキスト推定部１６は、受け入れスコアを変化させずに処理を終了させる。発話ユーザID＝“Ａ”のユーザ発話テキストが他のユーザに対する依頼や指示を意味していないとステップＳ５３において判定された場合も同様に、受け入れスコアは変化することなく処理は終了される。その後、図５のステップＳ７に戻り、それ以降の処理が行われる。

一方、発話先IDが無しとして設定されていない、すなわち、所定のユーザの個人識別情報が発話先IDとして設定されているとステップＳ５４において判定された場合、処理はステップＳ５６に進む。

この場合、発話ユーザID＝“Ａ”の発話は、他のユーザである母や子に対して、何かを依頼したり指示したりする内容の発話であったことになる。ここでは、発話ユーザID＝“Ａ”の発話は、ユーザＢである母に対する依頼や指示の発話であり、それに対して、母が何かしらの返事の発話を行っていたものとする。発話ユーザID＝“Ｂ”とする返事の発話も検出され、音声認識処理やコンテキスト情報の生成が行われている。

ステップＳ５６において、コンテキスト推定部１６は、発話ユーザID＝“Ｂ”のユーザ発話テキストに対して自然言語処理と意味解析処理を行う。発話ユーザID＝“Ｂ”の返事の発話が検出された場合、音声認識部１５からは、その発話の音声認識結果であるユーザ発話テキストが供給される。

ステップＳ５７において、コンテキスト推定部１６は、発話ユーザID＝“Ｂ”のユーザ発話テキストが、同意または拒否を意味しているか否かを判定する。

発話ユーザID＝“Ｂ”のユーザ発話テキストが同意を意味しているとステップＳ５７において判定した場合、ステップＳ５８において、コンテキスト推定部１６は、ユーザＢの、ユーザＡに対する受け入れスコアを加算する。

また、発話ユーザID＝“Ｂ”のユーザ発話テキストが拒否を意味しているとステップＳ５７において判定した場合、ステップＳ５９において、コンテキスト推定部１６は、ユーザＢの、ユーザＡに対する受け入れスコアを減算する。

ステップＳ５８またはステップＳ５９において受け入れスコアが更新された後、処理は終了され、図５のステップＳ７以降の処理が行われる。発話ユーザID＝“Ｂ”のユーザ発話テキストが同意も拒否も意味していないとステップＳ５７において判定した場合、ステップＳ５５に進み、受け入れスコアの変化なしに処理が終了される。

図１０は、ユーザ関係性データの例を示す図である。

最上段のＡ，Ｂ，Ｃは、依頼や指示を行ったユーザの個人識別情報を表し、左端列のＡ，Ｂ，Ｃは、依頼や指示を受けたユーザの個人識別情報を表す。それぞれの数字は上述したようにして求められる受け入れスコアを表す。

上述したようにユーザＡがユーザＢに対して何かを依頼したり指示したりする内容の発話を行っていて、ユーザＢが同意または拒否の返事を行っていた場合、円で囲んで示す受け入れスコアが変化することになる。

図１０の例においては、ユーザＡの依頼や指示は、ユーザＢには受け入れられやすいが、ユーザＣには受け入れられにくいことを表す受け入れスコアが求められている。ユーザＢの、ユーザＡに対する受け入れスコアは５であり、ユーザＣの、ユーザＡに対する受け入れスコアは－１である。

このように、ユーザ関係性データは、あるユーザの依頼や指示に対する、それぞれの他のユーザの受け入れやすさの程度を表すスコアから構成される情報となる。ユーザ関係性判定処理により生成されたユーザ関係性データは関係性データ記憶部１８に供給され、格納される。

この例においては、ユーザ関係性データがテーブル状の情報として示されているが、依頼や指示を行ったユーザと、依頼や指示を受けたユーザと、受け入れスコアを対応付けた情報であれば、どのような形態の情報であってもよい。ユーザ関係性データとしてニューラルネットワークを用いることも可能である。

・音声合成辞書生成処理
次に、図１１のフローチャートを参照して、図５のステップＳ８において行われる音声合成辞書生成処理について説明する。

音声合成辞書生成処理は、図１２に示すように、各発話に応じた学習データセットを、コンテキスト情報に含まれる発話ユーザID、騒音レベル、発話先ID、および感情の各情報で分類するようにして行われる。学習用データ記憶部１７には、ユーザ発話音声波形データ、ユーザ発話テキスト、コンテキスト情報が学習データセットとして記憶されている。

ユーザの発話を学習していない初期状態では図１２の最上段に示す標準話者合成辞書Ｄ０のみが存在する。初期状態でのシステム発話は、標準話者合成辞書Ｄ０を用いた音声合成によって行われる。

ステップＳ７１において、音声合成辞書学習部１９は、発話ユーザID毎に、辞書生成に必要な量の学習データセットが蓄積されているかを確認する。ここでの確認は、各学習データセットを構成するコンテキスト情報を参照することによって行われる。

ステップＳ７２において、音声合成辞書学習部１９は、辞書生成に必要な量の学習データセットが蓄積されている発話ユーザIDの辞書を生成する。ある発話ユーザIDの辞書は、その発話ユーザIDをコンテキスト情報に含む学習データセットの集合を用いて生成される。

図１２の例においては、発話ユーザID＝“Ａ”，“Ｂ”，“Ｃ”の学習データセットが必要量蓄積されており、話者ID＝“Ａ”，“Ｂ”，“Ｃ”とする辞書Ｄ１～Ｄ３が生成されている。以下、話者ID＝“Ａ”の辞書Ｄ１に属する辞書の生成についてのみ説明するが、話者ID＝“Ｂ”の辞書Ｄ２、話者ID＝“Ｃ”の辞書Ｄ３に属する辞書の生成についても同様にして行われる。

ステップＳ７３において、音声合成辞書学習部１９は、ステップＳ７２において生成した全ての話者IDの辞書について、騒音レベル毎に、辞書生成に必要な量の学習データセットが蓄積されているかを確認する。

ステップＳ７４において、音声合成辞書学習部１９は、辞書生成に必要な量の学習データセットが蓄積されている騒音レベルの辞書を生成する。

図１２の例においては、話者ID＝“Ａ”の辞書Ｄ１の生成に使用された学習データセットの集合に、騒音レベルが低レベルの学習データセットと高レベルの学習データセットが必要量蓄積されている。話者ID＝“Ａ”かつ騒音レベル＝“低”の辞書Ｄ１１と、話者ID＝“Ａ”かつ騒音レベル＝“高”の辞書Ｄ１２が生成されている。

辞書Ｄ１１は、発話ユーザID＝“Ａ”と騒音レベル＝“低”の両方をコンテキスト情報に含む学習データセットの集合を用いて生成された辞書である。また、辞書Ｄ１２は、発話ユーザID＝“Ａ”と騒音レベル＝“高”の両方をコンテキスト情報に含む学習データセットの集合を用いて生成された辞書である。

ステップＳ７５において、音声合成辞書学習部１９は、ステップＳ７４までに生成した全ての辞書について、発話先ID毎に、辞書生成に必要な量の学習データセットが蓄積されているかを確認する。

ステップＳ７６において、音声合成辞書学習部１９は、辞書生成に必要な量の学習データセットが蓄積されている発話先IDの辞書を生成する。

図１２の例においては、ステップＳ７４までの処理によって、話者ID＝“Ａ”の辞書Ｄ１、話者ID＝“Ａ”かつ騒音レベル＝“低”の辞書Ｄ１１、および、話者ID＝“Ａ”かつ騒音レベル＝“高”の辞書Ｄ１２の３つの辞書が生成されている。

また、図１２の例においては、発話先IDに応じた分類が行われることによって、上記３つの辞書のそれぞれの生成に用いられた学習データセットの集合について、発話先IDによる分類が行われ、新たな５つの辞書Ｄ２１～Ｄ２５が生成されている。

例えば、辞書Ｄ２１は、発話ユーザID＝“Ａ”、騒音レベル＝“低”、および発話先ID＝“Ｂ”をコンテキスト情報に含む学習データセットの集合を用いて生成された辞書である。また、辞書Ｄ２５は、発話ユーザID＝“Ａ”、発話先ID＝“Ｃ”をコンテキスト情報に含む学習データセットの集合を用いて生成された辞書である。

ステップＳ７７において、音声合成辞書学習部１９は、ステップＳ７６までに生成した全ての辞書について、感情毎に、辞書生成に必要な量の学習データセットが蓄積されているかを確認する。

ステップＳ７８において、音声合成辞書学習部１９は、辞書生成に必要な量の学習データセットが蓄積されている感情の辞書を生成する。

図１２の例においては、発話ユーザIDによる分類によって生成された辞書Ｄ１、騒音レベルによる分類によって生成された辞書Ｄ１１，Ｄ１２、発話先IDによる分類によって生成された辞書Ｄ２１～Ｄ２５の８つの辞書がステップＳ７６までに生成されている。

また、図１２の例においては、感情に応じた分類が行われることによって、上記８つの辞書のそれぞれの生成に用いられた学習データセットの集合について、感情による分類が行われ、新たな９つの辞書Ｄ３１～Ｄ３９が生成されている。

例えば、辞書Ｄ３１は、発話ユーザID＝“Ａ”、騒音レベル＝“低”、および発話先ID＝“Ｂ”、感情＝“喜び”をコンテキスト情報に含む学習データセットの集合を用いて生成された辞書である。また、辞書Ｄ３９は、発話ユーザID＝“Ａ”、感情＝“平静”をコンテキスト情報に含む学習データセットの集合を用いて生成された辞書である。

感情による分類によって辞書が生成された後、処理は終了される。その後、図５のステップＳ８に戻り、それ以降の処理が行われる。音声合成辞書生成処理によって生成された辞書は、順次、音声合成用データ記憶部２０に供給され、格納される。

以上の処理が、学習データセットが一定量増加する毎（一定回数のユーザ発話が行われる毎）に行われる。これにより、ユーザが学習装置１を使い込んで発話が増えるほど、徐々に、各辞書の品質（どれだけ実際の発話に似ているか）が上がり、かつ、コンテキスト情報の種別による辞書の数、すなわち発話のバリエーションが増えていくことになる。

以上においては、学習データセットを発話ユーザID、騒音レベル、発話先ID、および感情により分類することによって辞書を生成する場合について説明したが、分類に用いる状況として、さらに多くの種類の状況を用いるようにしてもよい。この場合、さらに多くの種類の状況に関する情報を含むコンテキスト情報が生成される。

なお、学習データセット内のユーザ発話音声波形データと対応するユーザ発話テキストの集合から音声合成辞書を生成する方法については、例えば以下の参考文献に開示されている。
参考文献３「特開２０１６-００６５４１」
参考文献４「URL https://www.nii.ac.jp/userdata/shimin/documents/H27/150729_1stlec.pdf」
参考文献５「URL http://www.toshiba.co.jp/tech/review/2013/09/68_09pdf/a04.pdf」

＜音声合成辞書を用いた音声合成＞
［音声合成装置の構成例］
図１３は、音声合成装置２の構成例を示すブロック図である。

音声合成装置２は、センサデバイス５１、画像認識部５２、音声入力デバイス５３、音声信号処理部５４、音声認識部５５、コンテキスト推定部５６、音声合成制御部５７、関係性データ記憶部５８、システム発話テキスト取得部５９、音声合成用データ記憶部６０、音声合成部６１、および音声再生デバイス６２から構成される。

図１３に示す音声合成装置２の構成のうち、センサデバイス５１、画像認識部５２、音声入力デバイス５３、音声信号処理部５４、音声認識部５５、コンテキスト推定部５６は、それぞれ、学習装置１のセンサデバイス１１、画像認識部１２、音声入力デバイス１３、音声信号処理部１４、音声認識部１５、コンテキスト推定部１６に対応し、基本的に同様の機能を有する。重複する説明については適宜省略する。

学習装置１により生成されたユーザ関係性データ＃４は関係性データ記憶部５８に記憶され、音声合成辞書DB＃５は音声合成用データ記憶部６０に記憶される。

センサデバイス５１は、撮像を繰り返し行い、撮像によって得られた画像を画像認識部５２に出力する。

画像認識部５２は、顔認識を行い、撮像された画像に写るユーザの顔を検出する。また、画像認識部５２は、画像に顔が写っている場合、撮像された画像を解析し、ユーザを識別するとともに、ユーザの表情に基づいて感情を推定する。画像認識部５２により、周囲に誰がいるのかが検出される。

画像認識部５２は、各ユーザの方向の情報と個人識別情報を音声信号処理部５４に出力する。また、画像認識部５２は、各ユーザの方向、個人識別情報、および感情を表す情報をコンテキスト推定部５６に出力する。

音声入力デバイス５３は、音声合成装置２の周りの音を検出し、入力音声信号を音声信号処理部５４に出力する。ユーザが発話を行っている場合には、ユーザの発話音声が環境音とともに検出される。

音声信号処理部５４は、複数のマイクの入力音声信号に対して音源分離処理を行い、画像認識部５２から供給された情報により表されるユーザの方向と同じ方向を音源方向とする音声信号を抽出する。

また、音声信号処理部５４は、抽出した音声信号に対して音声区間検出処理を行い、ユーザが発話している区間の音声信号を検出するとともに、騒音量を求める。音声信号処理部５４は、ユーザが発話を行っている区間の音声信号を音声認識部５５に出力し、騒音量とユーザの発話方向を表す情報をコンテキスト推定部５６に出力する。

音声認識部５５は、音声信号処理部５４から供給された発話音声の信号に対して音声認識を行うことによってユーザ発話テキストを生成し、コンテキスト推定部５６に出力する。

コンテキスト推定部５６は、各部から供給された情報に基づいてコンテキスト情報＃３を生成し、音声合成制御部５７に出力する。コンテキスト情報＃３には、発話ユーザID、感情、騒音レベル、および発話先IDが含まれる。コンテキスト推定部５６により生成されるコンテキスト情報＃３は、システム発話時における周囲の状況を表す情報となる。

音声合成制御部５７に対しては、コンテキスト情報＃３、関係性データ記憶部５８に記憶されたユーザ関係性データ＃４、および、システム発話テキスト取得部５９により取得されたシステム発話テキスト＃１１が入力される。

音声合成制御部５７は、コンテキスト情報＃３、ユーザ関係性データ＃４、および、システム発話テキスト＃１１の解析結果に基づいて、システム発話に使用する辞書を、音声合成辞書DB＃５内の辞書から選択する。音声合成制御部５７は、選択した辞書を指定する情報を音声合成部６１に出力し、音声合成を行わせる。

システム発話テキスト取得部５９は、システム発話テキストを取得し、音声合成制御部５７と音声合成部６１に出力する。システム発話テキストは、メッセージ、予め登録されたスケジュール、インターネット上の情報などの各種の情報に含まれるテキストデータである。

システム発話テキスト取得部５９は、音声合成装置２自身が生成した情報や、音声合成装置２に対してユーザにより入力された情報を取得する。また、システム発話テキスト取得部５９は、ユーザが携帯する携帯端末に格納されている情報、家庭内にある機器に格納されている情報、インターネット上のサーバに格納されている情報などの、システム音声によって通知する各種の情報を取得する。

音声合成部６１は、音声合成制御部５７により選択された音声合成辞書を用いて、システム発話テキストの音声合成を行う。音声合成部６１は、音声合成を行うことによって得られたシステム発話音声波形データを音声再生デバイス６２に出力する。音声合成部６１は、システム発話テキストの内容を表し、システム発話時の状況等に応じた合成音声を生成する生成部として機能する。

音声再生デバイス６２は、スピーカにより構成される。音声再生デバイス６２は、音声合成部６１により生成されたシステム発話音声波形データを再生し、システム発話音声を出力する。

［音声合成装置の動作］
図１４のフローチャートを参照して、以上のような構成を有する音声合成装置２の音声合成処理について説明する。

図１４に示すステップＳ１０２乃至Ｓ１０７の処理は、図５のステップＳ１乃至Ｓ６の処理と基本的に同様の処理である。重複する説明については適宜省略する。

ステップＳ１０１において、システム発話テキスト取得部５９は、システム発話テキストを取得する。システム発話テキストは音声合成制御部５７と音声合成部６１に供給される。

ステップＳ１０２において、音声入力デバイス５３は音声を検出する。

ステップＳ１０３において、センサデバイス５１は撮像を行う。

ステップＳ１０４において、画像認識部５２は、撮像された画像を解析することによって、画像に写るユーザの顔を検出し、ユーザを識別する。また、画像認識部５２は、ユーザの感情を推定する。各ユーザの方向の情報と個人識別情報は音声信号処理部５４に供給され、各ユーザの方向の情報、個人識別情報、および感情の情報はコンテキスト推定部５６に供給される。

ステップＳ１０５において、音声信号処理部５４は、発話検出・騒音量算出処理を行う。発話検出・騒音量算出処理により得られた音声信号は音声認識部５５に供給され、騒音量とユーザの発話方向を表す情報はコンテキスト推定部５６に供給される。

ステップＳ１０６において、音声認識部５５は、音声信号処理部５４から供給された音声信号の音声認識を行い、ユーザ発話テキストを生成する。ユーザ発話テキストはコンテキスト推定部５６に供給される。

ステップＳ１０７において、コンテキスト推定部５６は、コンテキスト情報生成処理を行う。コンテキスト情報生成処理により生成されたコンテキスト情報は音声合成制御部５７に供給される。

ステップＳ１０８において、音声合成制御部５７は、辞書選択処理を行う。辞書選択処理の詳細については図１５のフローチャートを参照して後述する。

ステップＳ１０９において、音声合成部６１は、音声合成制御部５７により選択された辞書を用いてシステム発話テキストの音声合成を行い、システム発話音声波形データを音声再生デバイス６２に出力する。

ステップＳ１１０において、音声再生デバイス６２は、音声合成部６１により生成されたシステム発話音声波形データを再生し、システム発話音声を出力する。その後、処理は終了される。

以上の処理が、例えばシステム発話のタイミング毎に行われる。

・辞書選択処理
次に、図１５のフローチャートを参照して、図１４のステップＳ１０８において行われる辞書選択処理について説明する。

ステップＳ１２１において、音声合成制御部５７は、自然言語処理と意味解析処理を行い、システム発話テキストを解析する。

ステップＳ１２２において、音声合成制御部５７は、システム発話に使用する話者IDの判定（話者とするユーザの判定）を行う。話者IDの判定は、例えば、コンテキスト情報の内容、システム発話テキストの内容、およびユーザ関係性データを用いて行われる。話者IDの判定については後述する。

ステップＳ１２３において、音声合成制御部５７は、音声合成辞書DB＃５内に、発話ユーザIDによる分類が、ステップＳ１２２において判定した話者IDと一致する辞書が存在するか否かを判定する。

上述したように、音声合成辞書の学習時、発話ユーザIDによる学習データセットの分類が行われ、分類に用いられた発話ユーザIDが、話者IDとして各辞書に設定される。ここでは、ステップＳ１２２において判定された話者IDと同じ話者IDが設定された辞書があるか否かが判定されることになる。

発話ユーザIDによる分類が、判定した話者IDと一致する辞書が存在しないとステップＳ１２３において判定した場合、ステップＳ１２４において、音声合成制御部５７は、標準話者合成辞書を選択する。その後、図１４のステップＳ１０８に戻り、それ以降の処理が行われる。

一方、発話ユーザIDによる分類が、判定した話者IDと一致する辞書が存在するとステップＳ１２３において判定した場合、ステップＳ１２５において、音声合成制御部５７は、発話ユーザIDによる分類が、話者IDと一致する辞書の集合をスコア付与対象として選択する。

ステップＳ１２６において、音声合成制御部５７は、システム発話の騒音レベルを判定する。騒音レベルの判定については後述する。

ステップＳ１２７において、音声合成制御部５７は、スコア付与対象の辞書のうち、騒音レベルによる分類が、ステップＳ１２６において判定した騒音レベルと一致する辞書のスコアを上げる。

また、ステップＳ１２８において、音声合成制御部５７は、スコア付与対象の辞書のうち、騒音レベルによる分類が、ステップＳ１２６において判定した騒音レベルと一致しない辞書のスコアを下げる。

音声合成辞書の学習時、騒音レベルによる学習データセットの分類が行われ、分類に用いられた騒音レベルが各辞書に設定される。ここでは、ステップＳ１２６において判定された騒音レベルと同じ騒音レベルが設定された辞書のスコアが加算され、異なる騒音レベルが設定された辞書のスコアが減算される。騒音レベルによる分類がされていない辞書のスコアは変化なしとして扱われる。

ステップＳ１２９において、音声合成制御部５７は、システム発話の発話先IDを判定する。発話先IDの判定については後述する。

ステップＳ１３０において、音声合成制御部５７は、スコア付与対象の辞書のうち、発話先IDによる分類が、ステップＳ１２９において判定した発話先IDと一致する辞書のスコアを上げる。

また、ステップＳ１３１において、音声合成制御部５７は、スコア付与対象の辞書のうち、発話先IDによる分類が、ステップＳ１２９において判定した発話先IDと一致しない辞書のスコアを下げる。

音声合成辞書の学習時、発話先IDによる学習データセットの分類が行われ、分類に用いられた発話先IDが各辞書に設定される。ここでは、ステップＳ１２９において判定された発話先IDと同じ発話先IDが設定された辞書のスコアが加算され、異なる発話先IDが設定された辞書のスコアが減算される。発話先IDによる分類がされていない辞書のスコアは変化なしとして扱われる。

ステップＳ１３２において、音声合成制御部５７は、システム発話の感情を判定する。感情の判定については後述する。

ステップＳ１３３において、音声合成制御部５７は、スコア付与対象の辞書のうち、感情による分類が、ステップＳ１３２において判定した感情と一致する辞書のスコアを上げる。

また、ステップＳ１３４において、音声合成制御部５７は、スコア付与対象の辞書のうち、感情による分類が、ステップＳ１３２において判定した感情と一致しない辞書のスコアを下げる。

音声合成辞書の学習時、感情による学習データセットの分類が行われ、分類に用いられた感情が各辞書に設定される。ここでは、ステップＳ１３２において判定された感情と同じ感情が設定された辞書のスコアが加算され、異なる感情が設定された辞書のスコアが減算される。感情による分類がされていない辞書のスコアは変化なしとして扱われる。

ステップＳ１３５において、音声合成制御部５７は、スコア付与対象の辞書のうち、最も高いスコアが求められた辞書を、システム発話に使用する辞書として選択する。

例えば、話者ID＝“Ａ”、騒音レベル＝“低”、および発話先ID＝“Ｂ”、感情＝“喜び”として判定された場合、図１２の辞書Ｄ３１が選択される。また、話者ID＝“Ａ”、感情＝“平静”として判定された場合、辞書Ｄ３９が選択される。

なお、最も高いスコアが求められた辞書が複数存在する場合、システム発話に新奇性を与えるため、最も高いスコアが求められた辞書のうちの１つがランダムに選択される。

その後、図１４のステップＳ１０８に戻り、最も高いスコアが求められた辞書を用いて音声合成が行われる。

以上の処理により、音声合成辞書DB＃５内に存在する辞書の中から、学習時にそれぞれの分類に用いられた条件（状況）に最も合致する辞書を選択することが可能となる。

なお、騒音レベル、発話先ID、感情の各分類に応じて加算または減算するスコアの値は、全て同じ値であってもよいし、各分類に応じて重みを調整した値としてもよい。

［システム発話の話者IDの判定例（図１５のステップＳ１２２の処理の例）］
・判定例１
システム発話テキストの内容が依頼や指示である場合、音声合成制御部５７は、ユーザ関係性データを参照し、システム発話の対象のユーザを受け入れユーザとしたときに、受け入れスコアが最も高い依頼／指示ユーザの個別識別情報を、話者IDとして判定する。

すなわち、ユーザ関係性データが図１０に示すスコアを表すものである場合であって、システム発話の対象のユーザがユーザＢである場合、受け入れスコアが最も高い依頼／指示ユーザであるユーザＡの個別識別情報が、話者IDとして判定される。

これにより、依頼や指示のシステム発話を行うときに、最も受け入れられると考えられる声の主が話者として選択されることになる。この場合、発話先となるユーザが先に選択され、発話先のユーザに応じて、話者となるユーザが選択されることになる。図１５の各ステップの処理は、適宜、順番を変えて行われる。

図１６は、家庭内における学習時の例を示す図である。

例えば、日常生活において、母が子どもに「早く寝なさい」と言っても子どもが拒否する場合、そのようなやりとりに基づいて学習が行われることにより、図１６のＡの矢印に示すように、子どもの、母に対する受け入れスコアは低くなる。

一方、「早く寝なさい」と指示をするのが父である場合には子どもが同意するとき、そのようなやりとりに基づいて学習が行われることにより、図１６のＢの矢印に示すように、子どもの、父に対する受け入れスコアは高くなる。

ユーザ関係性データの学習がこのような形で行われており、子どもを対象として、「９時なので寝てください」のシステム発話を行う場合、話者ID＝“父”が判定される。また、図１７に示すように、話者ID＝“父”が設定されている辞書を用いて音声合成が行われ、音声合成によって得られたシステム発話が子どもを対象として出力される。これにより、子どもの同意を得やすいシステム発話が可能になる。

このように、所定の行動をとるべきタイミングでの「～の時間です」といった通知については、システム発話の対象となるユーザにとって受入れスコアが最も高いユーザを話者としてシステム発話が行われるようにすることができる。ここでは子どもが寝る時間の通知について説明したが、子どもが歯磨きをする時間、子どもが風呂に入る時間などの各種の通知も同様にして行われる。

・判定例２
システム発話テキストの内容がメールや伝言などの特定のユーザからのメッセージである場合、音声合成制御部５７は、メッセージの発信元のユーザの個別識別情報を、話者IDとして判定する。

図１８は、システム発話の例を示す図である。

例えば、図１８の上段に示すように、「ごはん温めて食べておいてねと子どもに伝言」と母が音声合成装置２に対して発した場合、「ごはん温めて食べておいてね」のテキストデータがシステム発話テキストとして取得される。システム発話テキストは、伝言元が母であることを表す情報（発話ユーザID）とともに記憶される。

その後、子どもがいることが検出されたときなどの、システム発話を行うタイミングになった場合、話者ID＝“母”が判定される。また、図１８に示すように、母を話者として、話者ID＝“母”の辞書を用いて音声合成が行われ、「ごはん温めて食べておいてね」のシステム発話が子どもを対象として出力される。

このように、「一日がんばってね」、「鍵持った？」などの伝言の通知については、伝言元のユーザを話者としてシステム発話が行われるようにすることが可能である。

『お父さんからのメールです。「今日は帰りが遅くなります。」』をシステム発話によって母や子どもに通知する場合、「お父さんからのメールです。」のシステム発話については標準話者合成辞書を用い、「今日は帰りが遅くなります。」のシステム発話については話者ID＝“父”の辞書を用いて音声合成が行われるようにしてもよい。このように、システム発話毎に複数の辞書を組み合わせて用いるようにすることも可能である。

・判定例３
システム発話テキストの内容が緊急性の高い通知である場合、音声合成制御部５７は、発話対象のユーザと同じ部屋にいるユーザや、発話対象のユーザと会話中のユーザの個別識別情報を話者IDとして判定する。発話対象のユーザと同じ部屋にいるユーザや、発話対象のユーザと会話中のユーザは、例えばコンテキスト情報により特定される。

同じ部屋にいるユーザや、発話対象のユーザと会話中のユーザの声には意識が向きやすいため、話者IDをそのように判定してシステム発話を行うことにより、発話対象のユーザの意識をシステム発話に向かせることが可能になる。

図１９は、システム発話の例を示す図である。

発話対象を父として「会社にいく時間です。」をシステム発話によって通知する場合、子どもが同じ部屋にいて父と会話をしているときには、話者ID＝“子ども”の辞書を用いて、「会社にいく時間です。」のシステム発話が出力される。

父からすれば、それまで会話をしていた子どもの声で「会社にいく時間です。」のシステム発話が行われるため、その通知に反応して意識を向けることになる。

・判定例４
システム発話テキストの内容が、参加者が登録されている予定の通知である場合、音声合成制御部５７は、発話対象のユーザと一緒に参加するユーザの個別識別情報を話者IDとして判定する。

図２０は、システム発話の例を示す図である。

図２０の左端に示すように、父と子どもが一緒に出かける予定が登録されており、その内容をシステム発話によって通知する場合、父を発話対象とするときには、話者を子どもとして「今日は１０時からお出かけです。」などのシステム発話が行われる。また、子どもを発話対象とするときには、話者を父として「今日は１０時からお出かけです。」などのシステム発話が行われる。

このように、話者の判定は、システム発話テキストの内容、ユーザ間の関係性、状況などの、各種の条件に基づいて行われる。音声合成制御部５７は、少なくともユーザ関係性データに基づいて話者となるユーザを選択する制御部として機能する。

家によく来る友人や、テレビに出てくるキャラクタなどの家族以外の声を用いて学習が行われている場合、それらの声の主が話者として選択されるようにしてもよい。

［システム発話の騒音レベルの判定例（図１５のステップＳ１２６の処理の例）］
音声合成制御部５７は、コンテキスト情報に基づいて、システム発話時における騒音レベル（高・中・低）を判定する。

環境毎に騒音が異なるため、学習によって得られる辞書は、個々の環境下で実際に生活している人が騒音に応じて発話する時のロンバード効果をも含めて学習して得られたものとなる。ロンバード効果は、騒音下で現れる、発話時の声質や口調の変化である。

ロンバード効果のあるシステム発話を行うことにより、聞き取りやすいシステム発話を行うことが可能になる。

［システム発話の発話先IDの判定例（図１５のステップＳ１２９の処理の例）］
音声合成制御部５７は、システム発話テキストの内容や状況から、発話対象とするユーザを明確に特定することができる場合、そのユーザの個別識別情報を発話先IDとして判定する。

例えば、特定のユーザに対するメッセージをシステム発話によって通知する場合、そのメッセージの送付先となるユーザの個別識別情報が発話先IDとして判定される。また、特定のユーザにより登録された予定をシステム発話によって通知する場合、その予定を登録したユーザの個別識別情報が発話先IDとして判定される。特定のユーザに対する依頼や指示をシステム発話によって通知する場合、その依頼や指示の対象となるユーザの個別識別情報が発話先IDとして判定される。

また、音声合成制御部５７は、システム発話の内容が特定のユーザ向けたものではない場合、音声合成装置２の周囲にいることが画像認識により検出できたユーザの個人識別情報を発話先IDとして判定する。

例えば、ニュースや天気予報をシステム発話によって通知する場合、音声合成装置２の周囲にいるユーザの個人識別情報が発話先IDとして判定される。システムからのアラートの通知についても、音声合成装置２の周囲にいるユーザの個人識別情報が発話先IDとして判定される。

［システム発話の感情の判定例（図１５のステップＳ１３２の処理の例）］
音声合成制御部５７は、自然言語処理と意味解析処理を行うことによってシステム発話テキストの内容を解析し、ポジティブな内容である場合には“喜び”として判定し、ネガティブな内容である場合には“悲しみ”として判定する。音声合成制御部５７は、ポジティブな内容でもネガティブな内容でもない場合、“平静”として判定する。

例えば、システム発話テキストが天気予報に関するものであり、その内容が「今日は一日晴れてすごしやすでしょう。」である場合は“喜び”として判定される。一方、「今日は午後から雪で寒さが強まるでしょう。」である場合は“悲しみ”として判定される。

また、音声合成制御部５７は、システム発話テキストがメールなどのメッセージである場合、メッセージの内容に基づいて、“喜び”、“悲しみ”、“怒り”のいずれかの感情を判定する。

例えば、メッセージの内容が「誕生日、おめでとう」である場合は“喜び”として判定され、「電車が遅れて帰りが遅くなります」である場合は“悲しみ”として判定される。一方、「なんで教えてくれなかったの」である場合は“怒り”として判定される。

家庭内での例においては、台所などの、入ってはいけない場所に子どもが入ったことが検出された場合、子どもにとって受入れスコアが最も高い話者である父の個別識別情報が話者IDとして判定される。また、「そこに入ったらダメだよ」のシステム発話テキストの内容に基づいて“怒り”が感情として判定される。これにより、「そこに入ったらダメだよ」と父の声で注意するシステム発話が行われることになる。

依頼や指示を意味する同じシステム発話を繰り返して出力する場合、繰り返し回数が増える毎に、感情が“喜び”、“平静”、“怒り”の順に変化するようにしてもよい。例えば、朝、目覚めることを促すシステム発話を行う場合において、システム発話を行ったにもかかわらずユーザの反応が無い場合、同じシステム発話を繰り返すときに感情が変化することにより、徐々にきつい口調のシステム発話が行われることになる。

学習装置１と音声合成装置２による以上の一連の処理により、システム発話に対するユーザの意識と理解度を向上させることが可能になる。

すなわち、普段生活を共にしている人（例えば家庭内であれば家族）の声質や口調で発話が行われることにより、いわゆるカクテルパーティ効果が誘発され、発話先となったユーザは、システム発話に対して意識が向きやすくなる。また、ユーザは、システム発話の意図をくみ取って、発話内容をより理解することができるようになる。

また、以上の一連の処理により、ユーザの個別の状況に応じたシステム発話が可能になる。

すなわち、音声合成辞書の学習が、ユーザ毎に異なる生活環境等の場の状況に応じて、そこで生活している人の実際の発話を元にして行われる。これにより、個々の状況に合った最適な声質や口調でのシステム発話が可能になる。通常、家族間の会話においては、家庭毎に異なる騒音環境などの各種の状況に応じて声質や口調を変えて発話を行われるが、それを再現することが可能になる。

さらに、以上の一連の処理により、バリエーションの多いシステム発話が可能になる。

上述したように、音声合成辞書の学習は、ユーザの発話を逐次的に学習することにより行われる。従って、装置を使い込むほどに、システム発話の声質や口調がユーザに徐々に似る方向に変化することになる。また、発話の相手や状況によっても声質や口調が変化するため、システム発話のバリエーションが増え、新奇性が出ることになる。これにより、ユーザは、飽きや慣れを起こさずに使用し続けることができる。

＜機器の構成例＞
図２１は、学習装置１のハードウェア構成例を示すブロック図である。

図３に示す構成のうちの少なくとも一部が、図２１のCPU１０１により所定のプログラムが実行されることによって実現される。

CPU(Central Processing Unit)１０１、ROM(Read Only Memory)１０２、RAM(Random Access Memory)１０３は、バス１０４により相互に接続される。

バス１０４には、マイク１０５、カメラ１０６、およびスピーカ１０７が接続される。マイク１０５は図３の音声入力デバイス１３に対応し、カメラ１０６は図３のセンサデバイス１１に対応する。マイク１０５により検出された発話音声と、カメラ１０６により撮像された画像に基づいて学習時の状況が検出され、音声合成用データの学習が行われる。

また、バス１０４には、記憶部１０８と通信部１０９も接続される。

記憶部１０８は、ハードディスクや不揮発性のメモリなどより構成される。記憶部１０８は、CPU１０１が実行するプログラムの他に、音声合成用データなどの各種のデータを記憶する。

通信部１０９は、ネットワークインタフェースなどより構成される。通信部１０９は、無線や有線による通信を介して、ユーザが持つ携帯端末、インターネット上のサーバなどの外部の機器と通信を行う。

図２１に示す構成を音声合成装置２も有している。この場合、マイク１０５は図１３の音声入力デバイス５３に対応し、カメラ１０６は図１３のセンサデバイス５１に対応する。また、スピーカ１０７は図１３の音声再生デバイス６２に対応する。マイク１０５により検出された発話音声と、カメラ１０６により撮像された画像に基づいてシステム発話時の状況が検出される。また、システム発話音声がスピーカ１０７から出力される。

以上においては、学習装置１と音声合成装置２は、それぞれ別々の装置として設けられるものとしたが、それらの機能を有する１つのエージェント機器として設けられるようにすることが可能である。

図２２は、エージェント機器１５１の構成例を示すブロック図である。

エージェント機器１５１も、図２１に示すハードウェア構成と同じ構成を有する。エージェント機器１５１のCPU１０１により所定のプログラムが実行されることにより、エージェント機器１５１においては、図２２に示すように、学習部１６１と音声合成部１６２が実現される。

学習部１６１は、図３に示す構成と基本的に同様の構成を有する。学習部１６１は、センサデバイス１１（図２１のマイク１０５）により検出された発話音声と音声入力デバイス１３（図２１のカメラ１０６）により撮像された画像に基づいて状況を検出し、音声合成用データの学習を逐次的に行う。学習部１６１は、音声合成用データを音声合成部１６２に出力する。

音声合成部１６２は、図１３に示す構成と基本的に同様の構成を有する。音声合成部１６２は、音声入力デバイス５３（図２１のマイク１０５）により検出された発話音声とセンサデバイス５１（図２１のカメラ１０６）により撮像された画像に基づいて状況を検出する。音声合成部１６２は、学習部１６１により生成された音声合成用データを参照し、状況に応じたシステム発話音声を音声再生デバイス６２（図２１のスピーカ１０７）から出力する。

学習部１６１が有する図３に示す構成と、音声合成部１６２が有する図１３に示す構成のうち、対応する構成については共通化して設けるようにすることも可能である。すなわち、センサデバイス１１とセンサデバイス５１、画像認識部１２と画像認識部５２、音声入力デバイス１３と音声入力デバイス５３、音声信号処理部１４と音声信号処理部５４、音声認識部１５と音声認識部５５、コンテキスト推定部１６とコンテキスト推定部５６は、それぞれ、一方のみが設けられるようにしてもよい。

エージェント機器１５１は、例えば図２３に示すように、家庭内において、ユーザの発話を検出でき、かつユーザにシステム発話を聞かせることが可能な位置に設けられ、ホームエージェント機器として用いられる。

なお、ホームエージェント機器として用いられる機器の形態は、図２３に示すような形態に限られるものではない。カメラ、マイク、スピーカを装備し、音声合成用データの学習と音声合成を行うことによってシステム発話を行うことが可能な各種の形態の機器に適用することが可能である。

スマートフォン、タブレット端末、PC、テレビジョン受像機、エアーコンディショナーや冷蔵庫などの白物家電、自動車などにおいて、上述したホームエージェント機器が実現されるようにすることが可能である。

音声合成用データの学習と、音声合成用データを用いた音声合成が、クライアント装置から送信されてきた情報に基づいてサーバにおいて行われるようにしてもよい。

この場合、クライアント装置からサーバに対しては、センサデバイス１１により撮像された画像と音声入力デバイス１３により検出された発話音声のデータが送信され、学習時には音声合成用データの学習に用いられ、音声合成時には音声合成に用いられる。音声合成によって得られたシステム発話音声波形データはサーバからクライアント装置に送信され、クライアント装置において再生され、システム発話音声が出力される。

このように、学習装置１と音声合成装置２の少なくとも一部の機能が、マイク、カメラ、スピーカを備えるクライアント装置とは別の装置において実現されるようにしてもよい。

＜変形例１＞
ユーザの発話時刻の情報がコンテキスト情報に含まれ、音声合成用データの学習に用いられるようにしてもよい。これにより、音声合成用データは、朝・昼・夜・深夜で変化するユーザの発話の口調を学習して得られたものになる。この場合、システム発話についても同様に、朝・昼・夜・深夜で口調が変化することになる。

このように、学習や音声合成に用いるコンテキスト情報として、発話ユーザID、感情、騒音量、発話先ID以外の、口調に変化を起こさせるような各種の状況が用いられるようにすることが可能である。例えば、天気、温度、湿度、位置などの、マイクやカメラ以外の各種のセンサにより検出可能であり、口調に変化を起こさせるような状況がコンテキスト情報に含められ、学習や音声合成に用いられるようにすることが可能である。

カメラにより撮影された画像を解析することによって、部屋に誰がいるか、ユーザの年齢、性別などが特定され、それらの情報がコンテキスト情報に含められるようにしてもよい。

伝言やメッセージのシステム発話時、システム発話の冒頭に、話者に応じた効果音やBGMが出力されるようにしてもよい。これにより、だれを話者としてシステム発話が行われるのかを分かりやすくすることができる。

ユーザ発話を用いた学習時に、ユーザがよく発話する冒頭の文言や最後の言い回しが学習されるようにしてもよい。これにより、システム発話時、話者に応じて冒頭に文言を追加したり最後の言い回しを変えたりしてシステム発話が行われることになる。

例えば、子どもが冒頭に「あのね」をつけてよく発話する場合、話者を子どもとしたシステム発話時に冒頭に「あのね」が追加される。また、子どもが最後に「だよ」という言い回しでよく発話する場合、話者を子どもとした「今日は９時からお出かけです」というシステム発話時に、「今日は9時からお出かけだよ」と最後の言い回しを変えたシステム発話が行われる。

＜＜第２の実施の形態（音声合成ネットワークを用いた例）＞＞
＜音声合成ネットワークの学習＞
以上においては、音声合成用データとして音声合成辞書を用いる場合について説明したが、ニューラルネットワークにより構成される音声合成ネットワークを用いることも可能である。

この場合、学習装置１においては、ユーザの発話音声のデータであるユーザ発話波形音声データと、発話音声の音声認識結果であるユーザ発話テキスト、および、コンテキスト情報を用いて音声合成ネットワークの生成が行われる。

また、音声合成装置２においては、システム発話テキストと、音声合成用のコンテキスト情報を音声合成ネットワークに入力することによって、システム発話音声波形データが出力される。音声合成ネットワークから出力されるシステム発話音声波形データは、上述したように、発話先のユーザや周囲の状況に応じたものとなる。

［学習装置の構成例］
図２４は、音声合成用データとして音声合成ネットワークを用いる学習装置１の構成例を示すブロック図である。図２４に示す構成のうち、図３の構成と同じ構成については同じ符号を付してある。重複する説明については適宜省略する。

図２４に示す学習装置１の構成は、音声合成辞書学習部１９に代えて音声合成ネットワーク学習部２０１が設けられている点で、図３に示す学習装置１の構成と異なる。学習装置１は、センサデバイス１１、画像認識部１２、音声入力デバイス１３、音声信号処理部１４、音声認識部１５、コンテキスト推定部１６、学習用データ記憶部１７、関係性データ記憶部１８、音声合成用データ記憶部２０、および音声合成ネットワーク学習部２０１から構成される。

センサデバイス１１は、撮像を行い、撮像によって得られた画像を画像認識部１２に出力する。

音声入力デバイス１３は、学習装置１の周りにいるユーザが発する音声と環境音を検出し、入力音声信号を音声信号処理部１４に出力する。

音声信号処理部１４は、入力音声信号に対して音源分離処理を行い、ユーザの方向と同じ方向を音源方向とする音声信号を抽出する。また、音声信号処理部１４は、抽出した音声信号に対して音声区間検出処理を行い、ユーザが発話している区間の音声信号を検出する。

音声信号処理部１４は、ユーザが発話を行っている区間の音声信号を出力し、騒音量とユーザの発話方向を表す情報をコンテキスト推定部１６に出力する。音声信号処理部１４から出力された音声信号はユーザ発話音声波形データ＃１として学習用データ記憶部１７に格納されるとともに、音声認識部１５に供給される。

音声認識部１５は、発話音声の音声信号に対して音声認識を行い、ユーザ発話テキスト＃２を出力する。

コンテキスト推定部１６は、入力された情報に基づいてコンテキスト情報＃３を生成し、出力する。コンテキスト情報＃３には、発話ユーザID、感情、騒音レベル、および発話先IDを表す情報が含まれる。また、コンテキスト推定部１６は、ユーザ関係性データ＃４を生成し、関係性データ記憶部１８に格納させる。

音声合成ネットワーク学習部２０１は、学習用データ記憶部１７に蓄積された学習データセットを用いて音声合成ネットワークの学習を行う。すなわち、音声合成ネットワーク学習部２０１は、音声合成ネットワーク＃２１の入力データとしてユーザ発話テキスト＃２とコンテキスト情報＃３を用い、対応するユーザ発話音声波形データを出力データとして用いて、音声合成ネットワーク＃２１の学習を行う。

［学習装置の動作］
図２５のフローチャートを参照して、以上のような構成を有する学習装置１の学習処理について説明する。

ステップＳ２０１において、音声入力デバイス１３は音声を検出する。ユーザの発話音声と環境音を含む入力音声信号は音声信号処理部１４に供給される。

ステップＳ２０２において、センサデバイス１１は撮像を行う。撮像によって得られた画像は画像認識部１２に供給される。

ステップＳ２０３において、画像認識部１２は、画像を解析することによって、画像に写るユーザの顔を検出し、ユーザを識別する。また、画像認識部１２は、ユーザの表情に基づいて感情を推定する。各ユーザの方向の情報と個人識別情報は音声信号処理部１４に供給され、各ユーザの方向の情報、個人識別情報、および感情の情報は、画像認識結果セットとしてコンテキスト推定部１６に供給される。

ステップＳ２０４において、音声信号処理部１４は、発話検出・騒音量算出処理を行う。発話検出・騒音量算出処理は、図６のフローチャートを参照して説明した処理と同様の処理である。

ステップＳ２０５において、音声認識部１５は、音声信号処理部１４から供給された音声信号の音声認識を行い、ユーザ発話テキストを生成する。

ステップＳ２０６において、コンテキスト推定部１６は、コンテキスト情報生成処理を行う。コンテキスト情報生成処理は、図８のフローチャートを参照して説明した処理と同様の処理である。

ステップＳ２０７において、コンテキスト推定部１６は、ユーザ関係性判定処理を行う。ユーザ関係性判定処理は、図９のフローチャートを参照して説明した処理と同様の処理である。

ステップＳ２０８において、音声合成ネットワーク学習部２０１は、入力データとしてユーザ発話テキストとコンテキスト情報を用い、対応するユーザ発話音声波形データを出力データとして用いて、音声合成ネットワークの学習を行う。

音声合成ネットワークの学習が行われた後、一連の学習処理は終了される。以上の処理が、ユーザが発話を行ったときなどの所定のタイミングで繰り返し行われる。

＜音声合成ネットワークを用いた音声合成＞
［音声合成装置の構成例］
図２６は、音声合成用データとして音声合成ネットワークを用いる音声合成装置２の構成例を示すブロック図である。図２６に示す構成のうち、図１３の構成と同じ構成については同じ符号を付してある。重複する説明については適宜省略する。

音声合成装置２は、センサデバイス５１、画像認識部５２、音声入力デバイス５３、音声信号処理部５４、音声認識部５５、コンテキスト推定部５６、音声合成制御部５７、関係性データ記憶部５８、システム発話テキスト取得部５９、音声合成用データ記憶部６０、および音声再生デバイス６２から構成される。図２６に示す音声合成装置２の構成は、音声合成部６１が設けられていない点で、図１３に示す構成と異なる。

学習装置１により生成されたユーザ関係性データ＃４は関係性データ記憶部５８に記憶され、音声合成ネットワーク＃２１は音声合成用データ記憶部６０に記憶される。

画像認識部５２は、顔認識を行い、撮像された画像に写るユーザの顔を検出する。また、画像認識部５２は、画像に顔が写っている場合、撮像された画像を解析し、ユーザを識別するとともに、ユーザの表情に基づいて感情を推定する。

音声入力デバイス５３は、音声合成装置２の周りの音を検出し、入力音声信号を音声信号処理部５４に出力する。

音声認識部５５は、音声信号処理部５４から供給された発話音声の音声信号に対して音声認識を行うことによってユーザ発話テキストを生成し、コンテキスト推定部５６に出力する。

コンテキスト推定部５６は、各部から供給された情報に基づいてコンテキスト情報を生成し、音声合成制御部５７に出力する。コンテキスト情報には、発話ユーザID、感情、騒音レベル、および発話先IDを表す情報が含まれる。コンテキスト推定部５６により生成されるコンテキスト情報は、システム発話時における周囲の状況を表す情報となる。

音声合成制御部５７は、自然言語処理と意味解析処理を行うことによってシステム発話テキストの内容を解析する。音声合成制御部５７は、コンテキスト情報＃３、ユーザ関係性データ＃４、およびシステム発話テキスト＃１１の解析結果に基づいて、上述したように、システム発話時の話者ID、騒音レベル、発話先ID、および感情を判定する。

音声合成制御部５７は、話者ID、騒音レベル、発話先ID、および感情を表す情報からなる、図２７に示すような音声合成用コンテキスト情報＃２２を生成する。音声合成制御部５７は、システム発話テキスト取得部５９が出力するシステム発話テキスト＃１１とともに、生成した音声合成用コンテキスト情報＃２２を音声合成ネットワーク＃２１に入力する。

システム発話テキスト＃１１と音声合成用コンテキスト情報＃２２が入力されることに応じて、音声合成ネットワーク＃２１からは、システム発話音声波形データ＃２３が出力される。音声合成ネットワーク＃２１は、システム発話テキストの内容を表し、システム発話時の状況等に応じた合成音声を生成する生成部として機能する。

システム発話テキスト取得部５９は、システム発話テキスト＃１１を取得し、出力する。システム発話テキスト取得部５９から出力されたシステム発話テキスト＃１１は、音声合成制御部５７に供給されるとともに、音声合成ネットワーク＃２１に入力される。

音声再生デバイス６２は、音声合成ネットワーク＃２１から出力されたシステム発話音声波形データ＃２３を再生し、システム発話音声を出力する。

［音声合成装置の動作］
図２８のフローチャートを参照して、以上のような構成を有する音声合成装置２の音声合成処理について説明する。

ステップＳ２２１において、システム発話テキスト取得部５９は、システム発話テキストを取得する。

ステップＳ２２２において、音声入力デバイス５３は音声を検出する。

ステップＳ２２３において、センサデバイス５１は撮像を行う。

ステップＳ２２４において、画像認識部５２は、撮像された画像を解析することによって、画像に写るユーザの顔を検出し、ユーザを識別する。また、画像認識部５２は、ユーザの感情を推定する。各ユーザの方向の情報と個人識別情報は音声信号処理部５４に供給され、各ユーザの方向の情報、個人識別情報、および感情の情報はコンテキスト推定部５６に供給される。

ステップＳ２２５において、音声信号処理部５４は、発話検出・騒音量算出処理を行う。発話検出・騒音量算出処理により得られた発話音声の信号は音声認識部５５に供給され、騒音量とユーザの発話方向を表す情報はコンテキスト推定部５６に供給される。

ステップＳ２２６において、音声認識部５５は、音声信号処理部５４から供給された音声信号の音声認識を行い、ユーザ発話テキストを生成する。ユーザ発話テキストはコンテキスト推定部５６に供給される。

ステップＳ２２７において、コンテキスト推定部５６は、コンテキスト情報生成処理を行う。コンテキスト情報生成処理により生成されたコンテキスト情報は音声合成制御部５７に供給される。

ステップＳ２２８において、音声合成制御部５７は、音声合成用コンテキスト情報生成処理を行う。音声合成用コンテキスト情報生成処理の詳細については図２９のフローチャートを参照して後述する。

ステップＳ２２９において、音声合成制御部５７は、システム発話テキスト取得部５９が出力するシステム発話テキストとともに、音声合成用コンテキスト情報を音声合成ネットワークに入力する。音声合成ネットワークからは、システム発話音声波形データが出力される。

ステップＳ２３０において、音声再生デバイス６２は、音声合成ネットワークから出力されたシステム発話音声波形データを再生し、システム発話音声を出力する。その後、処理は終了される。

・音声合成用コンテキスト情報生成処理
次に、図２９のフローチャートを参照して、図２８のステップＳ２２８において行われる音声合成用コンテキスト情報生成処理について説明する。

図２９に示すステップＳ２５１乃至Ｓ２５５の処理は、図１５のステップＳ１２１，Ｓ１２２，Ｓ１２６，Ｓ１２９，Ｓ１３２の処理と同様の処理である。

ステップＳ２５１において、音声合成制御部５７は、自然言語処理と意味解析処理を行い、システム発話テキストを解析する。

ステップＳ２５２において、音声合成制御部５７は、コンテキスト情報の内容、システム発話テキストの内容、およびユーザ関係性データを用いて、システム発話に使用する話者IDの判定を行う。

ステップＳ２５３において、音声合成制御部５７は、コンテキスト情報に基づいて、システム発話の騒音レベルを判定する。

ステップＳ２５４において、音声合成制御部５７は、システム発話テキストの内容や状況等に基づいて、システム発話の発話先IDを判定する。

ステップＳ２５５において、音声合成制御部５７は、システム発話テキストの内容に基づいて、システム発話の感情を判定する。

ステップＳ２５６において、音声合成制御部５７は、以上の処理で判定した話者ID、騒音レベル、発話先ID、および感情を表す情報を含む音声合成用コンテキスト情報を生成し、出力する。その後、図２８のステップＳ２２８に戻り、以上の処理が繰り返される。

以上のように、音声合成用データとして音声合成ネットワークを用いた場合であっても、システム発話に対するユーザの意識と理解度を向上させることが可能になる。また、ユーザの個別の状況に応じた、バリエーションの多いシステム発話が可能になる。

なお、音声合成用データとして音声合成ネットワークを用いる場合についても、学習装置１の機能と音声合成装置２の機能が１つのエージェント機器において実現されるようにすることが可能である。

＜変形例２＞
学習装置１、音声合成装置２、およびエージェント機器１５１が家庭内において用いられる場合について説明したが、学習時と音声合成時に同じユーザがいる様々な環境で用いられるようにすることが可能である。例えば、職場、学校の教室、飲食店などの店舗、公共の施設、自家用車の中、電車の中においてこれらの機器が用いられるようにしてもよい。

また、ユーザ間の関係性として、あるユーザの依頼や指示に対する、他のユーザの受け入れの程度が特定されるものとしたが、人と人の間にある各種の関係性が特定され、話者などの判定に用いられるようにしてもよい。例えば、画像から認識された体格の関係性、性別の関係性、ユーザの情報から認識された仕事の役職の関係性が話者などの判定に用いられるようにすることが可能である。

［コンピュータの構成例］
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図３０は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

CPU(Central Processing Unit)１００１、ROM(Read Only Memory)１００２、RAM(Random Access Memory)１００３は、バス１００４により相互に接続されている。

バス１００４には、さらに、入出力インタフェース１００５が接続されている。入出力インタフェース１００５には、キーボード、マウスなどよりなる入力部１００６、ディスプレイ、スピーカなどよりなる出力部１００７が接続される。また、入出力インタフェース１００５には、ハードディスクや不揮発性のメモリなどよりなる記憶部１００８、ネットワークインタフェースなどよりなる通信部１００９、リムーバブルメディア１０１１を駆動するドライブ１０１０が接続される。

以上のように構成されるコンピュータでは、CPU１００１が、例えば、記憶部１００８に記憶されているプログラムを入出力インタフェース１００５及びバス１００４を介してRAM１００３にロードして実行することにより、上述した一連の処理が行われる。

CPU１００１が実行するプログラムは、例えばリムーバブルメディア１０１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部１００８にインストールされる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

なお、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

［構成の組み合わせ例］
本技術は、以下のような構成をとることもできる。
（１）
複数のユーザの発話音声の音声認識を行う音声認識部と、
発話時の状況を推定する推定部と、
前記発話音声のデータと、前記音声認識の結果と、前記発話時の状況とに基づいて、音声合成時の状況に応じた合成音声の生成に用いられる音声合成用データの学習を行う学習部と
を備える学習装置。
（２）
前記推定部は、前記音声認識の結果に基づいて、前記複数のユーザに含まれる発話ユーザと発話先ユーザの関係性を表す関係性データを生成する
前記（１）に記載の学習装置。
（３）
撮像した画像を解析し、前記画像に写る顔を認識する画像認識部と、
発話時に検出された音声信号に基づいて音源の方向を検出する音声信号処理部と
をさらに備え、
前記推定部は、前記音源の方向と前記画像に写る顔の方向に基づいて、前記発話ユーザを特定する
前記（２）に記載の学習装置。
（４）
前記推定部は、前記発話ユーザによる発話に続けて発話を行ったユーザを、前記発話先ユーザとして特定する
前記（３）に記載の学習装置。
（５）
前記音声信号処理部は、前記音声信号のうち、前記発話ユーザによる前記発話音声の音源方向以外の方向の成分を騒音成分として抽出する
前記（３）または（４）に記載の学習装置。
（６）
前記画像認識部は、前記画像に顔が写る前記発話ユーザの感情を認識する
前記（５）に記載の学習装置。
（７）
前記推定部は、前記発話時の状況として、前記発話ユーザの感情と騒音レベルを推定する
前記（６）に記載の学習装置。
（８）
前記学習部は、それぞれの前記発話音声のデータと前記音声認識の結果を、前記発話時の状況で分類した辞書データを前記音声合成用データとして生成する
前記（１）乃至（７）のいずれかに記載の学習装置。
（９）
前記学習部は、それぞれの前記音声認識の結果と前記発話時の状況に関する情報を入力とし、前記発話音声のデータを出力とするニューラルネットワークを前記音声合成用データとして生成する
前記（１）乃至（７）のいずれかに記載の学習装置。
（１０）
複数のユーザの発話音声の音声認識を行い、
発話時の状況を推定し、
前記発話音声のデータと、前記音声認識の結果と、前記発話時の状況とに基づいて、音声合成時の状況に応じた合成音声の生成に用いられる音声合成用データの学習を行う
ステップを含む学習方法。
（１１）
状況を推定する推定部と、
複数のユーザによる発話音声のデータと、前記発話音声の音声認識の結果と、発話時の状況に基づいて学習を行うことによって生成された音声合成用データを用いて、所定のテキストデータの内容を表し、推定された状況に応じた合成音声を生成する生成部と
を備える音声合成装置。
（１２）
前記生成部は、前記合成音声の発話先ユーザに応じたユーザを話者ユーザとした前記合成音声を生成する
前記（１１）に記載の音声合成装置。
（１３）
前記音声認識の結果に基づいて学習時に生成された、前記複数のユーザに含まれる発話ユーザと発話先のユーザの関係性を表す関係性データに基づいて、前記話者ユーザを選択する制御部をさらに備える
前記（１２）に記載の音声合成装置。
（１４）
前記制御部は、前記テキストデータの内容に基づいて前記発話先ユーザを選択する
前記（１３）に記載の音声合成装置。
（１５）
撮像した画像を解析し、前記画像に写る顔を認識する画像認識部と、
検出された音声信号に基づいて音源の方向を検出し、所定のユーザによる発話音声の音源方向以外の方向の成分を騒音成分として抽出する音声信号処理部と
をさらに備える前記（１２）乃至（１４）のいずれかに記載の音声合成装置。
（１６）
前記推定部は、前記テキストデータの内容に基づいて前記話者ユーザの感情を特定し、前記話者ユーザの感情と騒音レベルを前記状況として推定する
前記（１５）に記載の音声合成装置。
（１７）
前記音声合成用データは、それぞれの前記発話音声のデータと前記音声認識の結果を、前記発話時の状況で分類した辞書データである
前記（１１）乃至（１６）のいずれかに記載の音声合成装置。
（１８）
前記音声合成用データは、それぞれの前記音声認識の結果と前記発話時の状況に関する情報を入力とし、前記発話音声のデータを出力とするニューラルネットワークである
前記（１１）乃至（１６）のいずれかに記載の音声合成装置。
（１９）
状況を推定し、
複数のユーザによる発話音声のデータと、前記発話音声の音声認識の結果と、発話時の状況に基づいて学習を行うことによって生成された音声合成用データを用いて、所定のテキストデータの内容を表し、推定された状況に応じた合成音声を生成する
ステップを含む音声合成方法。

１学習装置，２音声合成装置，１１センサデバイス，１２画像認識部，１３音声入力デバイス，１４音声信号処理部，１５音声認識部，１６コンテキスト推定部，１７学習用データ記憶部，１８関係性データ記憶部，１９音声合成辞書学習部，２０音声合成用データ記憶部，５１センサデバイス，５２画像認識部，５３音声入力デバイス，５４音声信号処理部，５５音声認識部，５６コンテキスト推定部，５７音声合成制御部，５８関係性データ記憶部，５９システム発話テキスト取得部，６０音声合成用データ記憶部，６１音声合成部，６２音声再生デバイス

Claims

複数のユーザの発話音声の音声認識を行う音声認識部と、
発話時の状況を推定する推定部と、
前記発話音声のデータと、前記音声認識の結果と、前記発話時の状況とに基づいて、音声合成時の状況に応じた合成音声である、発話先ユーザに応じたユーザを話者ユーザとした前記合成音声の生成に用いられる音声合成用データの学習を行う学習部と
を備える学習装置。
前記推定部は、前記音声認識の結果に基づいて、前記複数のユーザに含まれる発話ユーザと発話先ユーザの関係性を表す関係性データを生成する
請求項１に記載の学習装置。
撮像した画像を解析し、前記画像に写る顔を認識する画像認識部と、
発話時に検出された音声信号に基づいて音源の方向を検出する音声信号処理部と
をさらに備え、
前記推定部は、前記音源の方向と前記画像に写る顔の方向に基づいて、前記発話ユーザを特定する
請求項２に記載の学習装置。
前記推定部は、前記発話ユーザによる発話に続けて発話を行ったユーザを、前記発話先ユーザとして特定する
請求項３に記載の学習装置。
前記音声信号処理部は、前記音声信号のうち、前記発話ユーザによる前記発話音声の音源方向以外の方向の成分を騒音成分として抽出する
請求項３または４に記載の学習装置。
前記画像認識部は、前記画像に顔が写る前記発話ユーザの感情を認識する
請求項５に記載の学習装置。
前記推定部は、前記発話時の状況として、前記発話ユーザの感情と騒音レベルを推定する
請求項６に記載の学習装置。
前記学習部は、それぞれの前記発話音声のデータと前記音声認識の結果を、前記発話時の状況で分類した辞書データを前記音声合成用データとして生成する
請求項１乃至７のいずれかに記載の学習装置。
前記学習部は、それぞれの前記音声認識の結果と前記発話時の状況に関する情報を入力とし、前記発話音声のデータを出力とするニューラルネットワークを前記音声合成用データとして生成する
請求項１乃至７のいずれかに記載の学習装置。
複数のユーザの発話音声の音声認識を行い、
発話時の状況を推定し、
前記発話音声のデータと、前記音声認識の結果と、前記発話時の状況とに基づいて、音声合成時の状況に応じた合成音声である、発話先ユーザに応じたユーザを話者ユーザとした前記合成音声の生成に用いられる音声合成用データの学習を行う
ステップを含む学習方法。
状況を推定する推定部と、
複数のユーザによる発話音声のデータと、前記発話音声の音声認識の結果と、発話時の状況に基づいて学習を行うことによって生成された音声合成用データを用いて、所定のテキストデータの内容を表し、推定された状況に応じた合成音声として、発話先ユーザに応じたユーザを話者ユーザとした前記合成音声を生成する生成部と
を備える音声合成装置。
前記音声認識の結果に基づいて学習時に生成された、前記複数のユーザに含まれる発話ユーザと発話先のユーザの関係性を表す関係性データに基づいて、前記話者ユーザを選択する制御部をさらに備える
請求項１１に記載の音声合成装置。
前記制御部は、前記テキストデータの内容に基づいて前記発話先ユーザを選択する
請求項１２に記載の音声合成装置。
撮像した画像を解析し、前記画像に写る顔を認識する画像認識部と、
検出された音声信号に基づいて音源の方向を検出し、所定のユーザによる発話音声の音源方向以外の方向の成分を騒音成分として抽出する音声信号処理部と
をさらに備える請求項１１乃至１３のいずれかに記載の音声合成装置。
前記推定部は、前記テキストデータの内容に基づいて前記話者ユーザの感情を特定し、前記話者ユーザの感情と騒音レベルを前記状況として推定する
請求項１４に記載の音声合成装置。
前記音声合成用データは、それぞれの前記発話音声のデータと前記音声認識の結果を、前記発話時の状況で分類した辞書データである
請求項１１乃至１５のいずれかに記載の音声合成装置。
前記音声合成用データは、それぞれの前記音声認識の結果と前記発話時の状況に関する情報を入力とし、前記発話音声のデータを出力とするニューラルネットワークである
請求項１１乃至１５のいずれかに記載の音声合成装置。
状況を推定し、
複数のユーザによる発話音声のデータと、前記発話音声の音声認識の結果と、発話時の状況に基づいて学習を行うことによって生成された音声合成用データを用いて、所定のテキストデータの内容を表し、推定された状況に応じた合成音声として、発話先ユーザに応じたユーザを話者ユーザとした前記合成音声を生成する
ステップを含む音声合成方法。