JP7280605B2

JP7280605B2 - 音声処理装置、および音声処理方法

Info

Publication number: JP7280605B2
Application number: JP2019122680A
Authority: JP
Inventors: 恵一徳田; 圭一郎大浦; 和寛中村
Original assignee: Techno Speech Inc
Current assignee: Techno Speech Inc
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2023-05-24
Anticipated expiration: 2039-01-23
Also published as: JP2020118950A

Description

本発明は、音声処理装置、および音声処理方法に関する。

近年の音声処理装置として、ニューラルネットワークを用いて音声を合成するものが知られている。特許文献１に記載された技術では、ニューラルネットワークによって生成した音響特徴量を用いて音声波形を合成している。

特開２０１８－１４６８０３号公報

Ａ．ｖａｎｄｅｎＯｏｒｄｅｔａｌ．， "Ｗａｖｅｎｅｔ：ＡＧｅｎｅｒａｔｉｖｅＭｏｄｅｌｆｏｒＲａｗＡｕｄｉｏ"，ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１６０９．０３４９９，２０１６

しかし、特許文献１に記載された技術では、音響特徴量は時間軸上で独立に、もしくは逐次的に生成されるため、音声の時間構造を十分に表現できず、機械的で不自然な音声が生成されるおそれがある。そのため、音声の時間構造を適切に処理することができ、滑らかで自然な音声を合成可能な音声合成技術が望まれていた。

本発明は、上述の課題を解決するためになされたものであり、以下の形態として実現することが可能である。
（１）本発明の第１の形態によれば、音声処理装置は、音声に関する多次元の第１特徴量であって、音高情報とＭＩＤＩの音高番号と音素情報と品詞の情報とアクセントの情報とのうちいずれか１つ以上を含む第１特徴量を取得する取得部と、予め定められた第１期間毎に前記第１特徴量を多次元の第２特徴量に変換する第１変換部と、前記第２特徴量を、時系列的に前記第２特徴量を処理することができるニューラルネットワークを用いて、前記第１期間よりも長い第２期間毎に音声波形を生成するための音響特徴量に変換する第２変換部と、を備える。前記第２変換部は、前記第２特徴量に加えて前記第１特徴量に含まれる前記音高情報と前記ＭＩＤＩの音高番号と前記音素情報と前記品詞の情報と前記アクセントの情報とのうちいずれか１つ以上を含む特定情報を前記ニューラルネットワークに入力して、前記音響特徴量への変換を行う。
（２）本発明の第２の形態によれば、音声処理装置は、音声に関する多次元の第１特徴量を取得する取得部と、予め定められた第１期間毎に前記第１特徴量を多次元の第２特徴量に変換する第１変換部と、前記第２特徴量を、時系列的に前記第２特徴量を処理することができるニューラルネットワークを用いて、前記第１期間よりも長い第２期間毎に音声波形を生成するための音響特徴量に変換する第２変換部と、前記第１特徴量と前記音響特徴量との関係を教師有り機械学習によって学習して前記ニューラルネットワークに反映させる学習部と、を備える。前記ニューラルネットワークは、情報が入力される入力層と、前記入力層から伝達される情報に基づいて特徴量の算出を行う複数の中間層と、前記中間層から伝達される情報に基づいて結果を出力する出力層と、を備え、前記第２変換部は、前記第１特徴量の少なくとも一部および／または前記第２特徴量の少なくとも一部を前記複数の中間層のうち少なくとも１つ以上の中間層に入力して、前記ニューラルネットワークに前記音響特徴量への変換を行わせる。また、本発明は、以下の形態としても実現できる。

（１）本発明の一形態によれば、音声処理装置が提供される。この音声処理装置は、音声に関する多次元の第１特徴量を取得する取得部と、予め定められた第１期間毎に前記第１特徴量を多次元の第２特徴量に変換する第１変換部と、前記第２特徴量を、時系列的に前記第２特徴量を処理することができるニューラルネットワークを用いて、前記第１期間よりも長い第２期間毎に音声波形を生成するための音響特徴量に変換する第２変換部と、を備える。この形態の音声処理装置によれば、長い期間毎に第１特徴量が音響特徴量に変換されるため、この音響特徴量を用いて音声を合成すると滑らかで自然な音声を合成できる。
（２）上記形態の音声処理装置において、前記第２変換部は、前記ニューラルネットワークとして、畳み込みニューラルネットワークを用いて前記第２特徴量を前記音響特徴量に変換してもよい。この形態の音声処理装置によれば、既存の技術を利用して高品位に第２特徴量を音響特徴量に変換できる。
（３）上記形態の音声処理装置において、前記第２期間は可変長でもよい。この形態の音声処理装置によれば、任意の長さの音響特徴量に変換できる。
（４）上記形態の音声処理装置において、前記第２変換部は、前記第１特徴量における無音部分に応じて前記第２期間の長さを変化させてもよい。この形態の音声処理装置によれば、例えば、歌声を合成する場合に、フレーズ毎に合成ができる。
（５）上記形態の音声処理装置において、前記第１変換部は、フィードフォワードニューラルネットワークを用いて前記第１特徴量を前記第２特徴量に変換してもよい。この形態の音声処理装置によれば、高速に第１特徴量を第２特徴量に変換できる。
（６）上記形態の音声処理装置において、前記第２変換部は、前記第２特徴量に加えて前記第１特徴量に含まれる特定のパラメータを前記ニューラルネットワークに入力して、前記音響特徴量への変換を行ってもよい。この形態の音声処理装置によれば、補助情報として第１特徴量に含まれる特定のパラメータを第２特徴量に加えるため、合成音声の精度が向上する音響特徴量に変換できる。
（７）上記形態の音声処理装置において、前記パラメータは音高情報を含んでいてもよい。この形態の音声処理装置によれば、合成音声の音質が向上する音響特徴量に変換できる。
（８）上記形態の音声処理装置において、前記第１特徴量における無音部分の前記音高情報は、前後の音高情報により補間された情報でもよい。この形態の音声処理装置によれば、より合成音声の音質が向上する音響特徴量に変換できる。
（９）上記形態の音声処理装置において、前記第１特徴量は、少なくとも言語特徴量と楽譜特徴量と声質特徴量とのいずれか一つを含んでいてもよい。この形態の音声処理装置によれば、例えば、第１特徴量をテキスト音声合成や歌声合成や声質変換を行うための音響特徴量に変換できる。
（１０）上記形態の音声処理装置において、更に、前記音響特徴量を用いて音声波形を生成するボコーダ部を備えてもよい。この形態の音声処理装置によれば、音響特徴量を用いて合成音声を生成できる。
（１１）上記形態の音声処理装置において、更に、前記第１特徴量と前記音響特徴量との関係を教師有り機械学習によって学習して前記ニューラルネットワークに反映させる学習部を備えてもよい。この形態の音声処理装置によれば、第１特徴量と音響特徴量との関係を学習でき、第２変換部に学習結果を反映できる。また、第１変換部がニューラルネットワークを用いて変換を行う場合には、第１変換部にも学習結果を反映できる。
（１２）上記形態の音声処理装置において、前記第２変換部は、前記第２特徴量を、前記第２特徴量の各次元のデータを前記第２期間の長さ分並べて表される２次元データとして用いて前記音響特徴量に変換する、音声処理装置。この形態の音声処理装置によれば、時間方向の変化を効果的に扱うことができる。
（１３）音声処理装置であって、音声に関する多次元の特徴量を取得する取得部と、前記特徴量を予め定められた期間毎に畳み込みニューラルネットワークを用いて音声波形を生成するための音響特徴量に変換する変換部と、を備え、前記変換部は、前記特徴量を、前記特徴量の各次元のデータを前記期間の長さ分並べて表される２次元データとして用いて前記音響特徴量に変換する。この形態の音声処理装置によれば、時間方向の変化を効果的に扱うことができ、長い期間毎に音響特徴量に変換するため、この音響特徴量を用いて音声を合成すると滑らかで自然な音声を合成できる。

なお、本発明は、種々の態様で実現することが可能である。例えば、この形態の音声処理装置を利用した音声処理システム、音声合成装置や音声合成システムの機能を実現するために情報処理装置において実行される方法、コンピュータプログラム、そのコンピュータプログラムを配布するためのサーバ装置、そのコンピュータプログラムを記憶した一時的でない記憶媒体等の形態で実現することができる。

本発明の一実施形態における音声処理装置の概要を示す説明図である。第１特徴量における各種のパラメータの一例を示す図である。音響特徴量における各種のパラメータの一例を示す図である。ディープニューラルネットワークによる機械学習について説明するための説明図である。音声合成処理を表すフローチャートである。音声合成処理を模式的に表した説明図である。主観評価実験の実験結果を示した図である。第２実施形態におけるＣＮＮの説明図である。音高情報を補間した場合の一例を示す説明図である。

Ａ．第１実施形態：
図１は、本発明の一実施形態における音声処理装置１００の概要を示す説明図である。音声処理装置１００は、取得部１０と、第１変換部２０と、第２変換部３０と、ボコーダ部４０と、学習部５０と、音響モデル６０と、を備える。取得部１０と、第１変換部２０と、第２変換部３０と、ボコーダ部４０と、学習部５０とは、１以上のＣＰＵがメモリに記憶されたプログラムを実行することにより、ソフトウェア的に実現される。なおこれらの一部または全部は、回路によってハードウェア的に実現されてもよい。

取得部１０は、音声に関する多次元の第１特徴量を取得する。第１特徴量の詳細については後述する。取得部１０は、例えば、予め録音された音声の音声波形から周知の音声認識技術を用いて第１特徴量を抽出してもよく、発語対象のテキストや楽譜に応じて予め生成された第１特徴量を取得してもよい。

第１変換部２０は、予め定められた第１期間毎に取得部１０によって取得された第１特徴量を多次元の第２特徴量に変換する。第２特徴量とは、第２変換部３０が音響特徴量への変換において扱いやすいデータである。本実施形態において、第１変換部２０は、フィードフォワードニューラルネットワーク（ＦｅｅｄｆｏｒｗａｒｄＮｅｕｒａｌＮｅｔｗｏｒｋ（ＦＦＮＮ））を用いて第１特徴量を多次元の第２特徴量に変換する。第１変換部２０は、ＦＦＮＮに限られず、ロングショートタームメモリーネットワーク（Ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ（ＬＳＴＭ））等の再起構造を持ったリカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ（ＲＮＮ））を用いてもよく、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ（ＨＭＭ））用いてもよい。また、これらを組み合わせて用いてもよい。

第２変換部３０は、第１変換部２０によって変換された第２特徴量を、時系列的に第２特徴量を処理することができるニューラルネットワークを用いて、第１期間よりも長い第２期間毎に音声波形を生成するための音響特徴量に変換する。音響特徴量の詳細については後述する。第２期間は、可変長でもよい。第２期間を可変長とする場合、第１特徴量における無音部分に応じて第２期間を変化させて設定することが好ましい。これにより、音響特徴量をフレーズ毎に生成することができる。本実施形態において、第２変換部３０は、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（ＣＮＮ））を用いて第２特徴量を音響特徴量に変換する。第２変換部３０は、第２期間が可変等である場合は、Ｆｕｌｌｙｒｅｃｕｒｒｅｎｔｎｅｔｗｏｒｋ（ＦＲＮ）や、ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋ（ＦＣＮ）を用いる。また、第２変換部３０は、ＣＮＮに限らず、ＲＮＮを用いてもよい。

ボコーダ部４０は、第２変換部３０によって変換された音響特徴量から音声波形を生成する。ボコーダ部４０として、例えば、従来のボコーダ技術を用いてもよく、ｗａｖｅｎｅｔ（非特許文献１記載）等のニューラルネットワークを用いたボコーダ技術を用いてもよい。音声処理装置１００は、ボコーダ部４０を備えていなくてもよい。その場合、音声波形の生成は外部の音声合成装置が行う。

学習部５０は、第１特徴量と音響特徴量との関係を教師有り機械学習によって学習する。学習部５０は、学習結果を第１変換部２０のニューラルネットワークもしくは隠れマルコフモデル（ＨＭＭ）といった統計モデルや第２変換部３０で用いられるニューラルネットワークに反映させる。こうすることにより、第１変換部２０や第２変換部３０は、学習部５０の学習結果を反映して変換を行うことができる。音声処理装置１００は、学習部５０を備えていなくてもよい。この場合、第１変換部２０や第２変換部３０は、外部の機械学習を行う学習装置等によって得られた学習結果を反映して変換を行うことができる。第１変換部２０がニューラルネットワークを用いる場合、第２変換部３０の用いるニューラルネットワークと連結して同時学習を行うことで、より高精度な学習を行うことができる。また、第１変換部２０が用いるニューラルネットワークと、第２変換部３０が用いるニューラルネットワークとのいずれか一方に、交互に学習結果を反映させてもよい。

図２は、歌声合成において、取得部１０により取得される第１特徴量に含まれる多次元のパラメータの一例を示す図である。本実施形態において、第１特徴量は楽譜特徴量である。楽譜情報には、曲情報とフレーズ情報と音符情報とが含まれている。音符情報には，例えば、音符の長さや音高、フレーズ内における音符の位置等の情報が含まれている。言語情報には、音節情報と音素情報とが含まれている。音節情報は、例えば音素数や音符内における音節の位置等の情報が含まれている。音素情報は、例えば、種類（例えば、母音や有声子音、無声子音等）や音節内における音素の位置等の情報が含まれている。継続長情報は、音素内位置情報と状態内位置情報とが含まれている。音素内位置情報は、例えば、音素の開始位置からの長さや割合等の情報が含まれている。状態内位置情報は、例えば、状態の開始位置からの長さや割合等の情報が含まれている。

図３は、第２変換部３０により出力される音響特徴量における各種のパラメータの一例を示す図である。スペクトルパラメータとしては、メルケプストラムや線スペクトル対（ＬｉｎｅＳｐｅｃｔｒｕｍＰａｉｒ（ＬＳＰ））などがある。これらは、スペクトル情報と呼ばれることがある。音源情報としては、基本周波数は、一般に対数基本周波数として扱われており、その関連パラメータとしては、有声／無声の区別や、非周期性指標が考えられる。これらは音源情報と呼ばれることがある。なお、無声部分は対数基本周波数の値を持たないため、有声／無声の区別を音源情報に含める代わりに、無声部分に所定の定数を入れる等の方法によって有声／無声の区別を行ってもよい。また、更に、こうした音源情報、スペクトル情報の他に、本実施形態では、歌唱表現情報が音響特徴量に含まれる。

歌唱表現情報には、音高のビブラートの周期および振幅とその有無、音の大きさのビブラートの周期および振幅とその有無が、含まれている。なお、音高のビブラートの有無の区別を歌唱表現情報に含める代わりに、音高のビブラートが無い部分に所定の定数を入れる等の方法によって音高のビブラートの有無の区別を行ってもよい。同様に、音の大きさのビブラートの有無の区別を歌唱表現情報に含める代わりに、音の大きさのビブラートが無い部分に所定の定数を入れる等の方法によって音の大きさのビブラートの有無の区別を行ってもよい。

図４は、ディープニューラルネットワークによる第１特徴量の変換について説明するための説明図である。ディープニューラルネットワーク２００は、人間の脳神経系における学習機構をモデルにしたネットワークである。ディープニューラルネットワーク２００は、入力層Ｌ１と、複数の中間層Ｌ２と、出力層Ｌ３とを備える。中間層Ｌ２の数は任意に定める事ができる。

入力層Ｌ１は、情報が入力される層である。中間層Ｌ２は、入力層Ｌ１から伝達される情報に基づいて特徴量の算出を行う層である。出力層Ｌ３は、中間層Ｌ２から伝達される情報に基づいて結果を出力する層である。各層には、複数のノードが含まれる。

ディープニューラルネットワーク２００による変換について説明する。本実施形態において、第１変換部２０はディープニューラルネットワーク２００を用いて第１特徴量を第２特徴量に変換する。入力層Ｌ１は、図２に示した第１特徴量に含まれる複数のパラメータが入力されると、それらのパラメータを中間層Ｌ２に伝達する。中間層Ｌ２では、入力層Ｌ１から伝達されたパラメータに対して種々の演算が各層において段階的に行われる。出力層Ｌ３において、最終的に演算されたパラメータが、図３に示した第２特徴量として出力される。

図５は、本実施形態における音声処理装置１００を用いた音声合成処理を表すフローチャートである。まず、取得部１０が、ステップＳ１００で第１特徴量を取得する。次に、第１変換部２０が、ステップＳ１１０において、ステップＳ１００で取得した第１特徴量を第２特徴量に変換する。続いて、第２変換部３０が、ステップＳ１２０において、ステップＳ１１０で変換した第２特徴量を音響特徴量に変換する。最後に、ボコーダ部４０が、ステップＳ１３０において、ステップＳ１２０で変換した音響特徴量を用いて音声波形を生成する。

図６は、図５に示した音声合成処理を模式的に表した説明図である。図６に示すように、ステップＳ１１０において第１変換部２０により、ＦＦＮＮを用いて第１特徴量が第２特徴量に変換され、ステップＳ１２０において、第２変換部３０により、ＣＮＮを用いて第２特徴量が音響特徴量に変換される。本実施形態において、第１変換部２０によって変換される第１特徴量の第１期間は、例えば、５ミリ秒である。また、第２変換部３０によって変換される第２特徴量の第２期間は、例えば、１０秒である。つまり、第２変換部３０は、第２特徴量を２０００個束ねてＣＮＮを用いて変換を行う。第２変換部３０は、ＣＮＮにおいて、第２特徴量を第２特徴量の各次元のデータを第２期間の長さ分並べて表される２次元データＤ１として用いて、音響特徴量に変換する。２次元データＤ１は、本実施形態においては、第２特徴量を時系列順に２０００個並べたデータである。つまり、［第２特徴量の各次元のデータ］×［時間］で表されたデータである。第２特徴量は２次元データＤ１に限られず、３次元以上の多次元データとして表されてもよい。ＣＮＮにおける入力データのサイズの概念は、画像処理が元となっているため、高さ、幅、チャンネル数（フィルタ数）の３次元である。本実施形態では、高さを１、幅を第２期間の長さ、チャンネル数を第２特徴量の次元数、としている。ＣＮＮの内部には、畳み込み（Ｃｏｎｖｏｌｕｔｉｏｎ）により第２特徴量を畳み込んでいく部分を有する。加えて、畳み込みにより２次元データＤ１の列の大きさを小さくする部分と、逆畳み込み（ｆｒａｃｔｉｏｎａｌｌｙ－ｓｔｒｉｄｅｄｃｏｎｖｏｌｕｔｉｏｎ）や転置畳み込み（ｔｒａｎｓｐｏｓｅｄｃｏｎｖｏｌｕｔｉｏｎ）により元の第２期間数に戻すよう大きくする部分と、を有してもよい。

以上で説明した本実施形態の音声処理装置１００によれば、楽譜特徴量等の第１特徴量が表される時間単位である予め定められた第１期間よりも長い第２期間毎に音響特徴量に変換するため、この音響特徴量を用いて音声を合成すると滑らかで自然な音声を合成できる。また、第２変換部３０は、第２特徴量を第２特徴量の各次元のデータを第２期間に含まれる第１期間の数分並べて表される２次元データＤ１として用いて音響特徴量に変換しているため、時間方向の変化を効果的に扱うことができる。より具体的には、例えば、第２特徴量を第２期間分の各次元のデータを並べて表される１次元データとして用いる場合と比較して、各次元のデータの時間方向での変化をより効果的に学習できる。また、第２変換部３０は、ＣＮＮを用いて変換を行うため、既存の技術を利用して高品位に第２特徴量を音響特徴量に変換できる。

また、本実施形態では、第１変換部２０は、ＦＦＮＮを用いて第１特徴量を第２特徴量に変換しているため、高速に変換できる。

実験結果：
図７は、生成した音声波形に対する主観評価実験の実験結果である平均オピニオン評点（ＭｅａｎＯｐｉｎｉｏｎＳｃｏｒｅ（ＭＯＳ））を示した図である。本実験において、４手法の合成音声の品質を、「１：非常に悪い、２：悪い、３：普通、４：良い、５：非常に良い」の５段階の主観評価実験によって評価した。被験者は１５人であり、各被験者はテストデータである５曲から各手法につき１０フレーズを評価した。評価対象である合成音声の音声波形は、４手法とも同じ第１特徴量を用いて生成した。

実施例１および実施例２は、上述した実施形態１の音声処理装置１００によって第１特徴量を変換した音響特徴量、より具体的には、第２変換部３０がＣＮＮを用いて第２特徴量を変換した音響特徴量を用いて、音声波形を生成した。比較例１および比較例２は、第２変換部３０がＦＦＮＮを用いて第２特徴量を変換した音響特徴量を用いて音声波形を生成した。また、実施例１および比較例１は、従来のボコーダ技術であるＭＬＳＡフィルタを用いて音響特徴量から音声波形を生成し、実施例２および比較例２は、ｗａｖｅｎｅｔを用いて音響特徴量から音声波形を生成した。図７に示すように、第２変換部３０がＣＮＮを用いた実施例１、実施例２のスコアは、第２変換部３０がＦＦＮＮを用いた比較例１、比較例２のスコアよりも高かった。つまり、第２変換部３０が上記実施形態に従ってＣＮＮを用いて変換を行うと、より高品位に第２特徴量を音響特徴量に変換できる。

Ｂ．第２実施形態：
図８は、第２実施形態におけるＣＮＮの説明図である。第２実施形態のＣＮＮは、図８においてハッチングで示すように、第２特徴量に加えて第１特徴量に含まれる特定のパラメータを入力層に入力して用いる点が第１実施形態と異なる。第２実施形態の音声処理装置１００の構成は、第１実施形態の音声処理装置１００の構成と同様であるため、構成の説明は省略する。

本実施形態において、第１特徴量に含まれる特定のパラメータは、音高情報である。「音高情報」とは、楽譜情報における音高の対数基本周波数の情報である。音高情報は、第１特徴量における無音部分が、時間軸における前後の第１特徴量の音高情報によって補間されていることが好ましい。パラメータの他の例として、例えば、ＭＩＤＩの音高番号や、音素情報が挙げられる。

図９は、音高情報を補間した場合の一例を示す説明図である。図９に示す音高情報は、縦軸が対数基本周波数を示し、横軸が時間を示す。図９では、無音部分であるｎ番目（ｎは２以上の整数）の音符ｎにおける第１特徴量の音高情報が、音符ｎ－１における第１特徴量の音高情報Ｐ０と音符ｎ＋１における第１特徴量の音高情報Ｐ２とを用いて音高情報Ｐ１に線形補間されている。なお、音高情報の補間は、線形補間に限らず、スプライン補間やラグランジュ補間等の他の補間手法を適用してもよい。

以上で説明した本実施形態の音声処理装置１００によれば、補助情報として第１特徴量に含まれるパラメータである音高情報を第２特徴量に加えるため、合成音声の音質が向上する音響特徴量に変換できる。なお、音高情報は入力層ではなく、中間層に入力してもよい。

Ｃ．その他の実施形態：
上記実施形態において、取得部１０が取得する第１特徴量は、楽譜特徴量である。この代わりに、取得部１０は、第１特徴量として言語特徴量を取得してもよい。言語特徴量は、図２に示した楽譜特徴量から楽譜情報が省略され、品詞やアクセント等の情報が追加された多次元のパラメータである。この形態によれば、歌声ではない、単なるテキスト合成音声を行うための音響特徴量を生成できる。また、取得部１０は、第１特徴量として声質特徴量を取得してもよい。声質特徴量は、他人の声から抽出した音響特徴量である。この形態によれば、ある話者の音響特徴量から、他の話者の音響特徴量へと変換する声質変換を行うための音響特徴量を生成できる。

また、上記実施形態において、音声処理装置１００は、第１変換部２０による変換と第２変換部３０による変換とによって第１特徴量を音響特徴量に変換している。この代わりに、第２変換部３０が直接第１特徴量から音響特徴量に変換してもよい。この場合、第２変換部３０は、ＣＮＮにより、第１特徴量を、第１特徴量の各次元のデータを予め定めた期間の長さ分並べて表される２次元データとして用いて変換を行う。

また、上記実施形態において、第１変換部２０は、ＦＦＮＮを用いて第１特徴量を第２特徴量に変換している。第１変換部２０は、ＦＦＮＮにおいて、中間層Ｌ２において無作為にまたは任意に選んだノードの情報を伝達しないドロップアウトを行ってもよい。これにより、ＦＦＮＮにおけるロバスト性を向上させることができる。

また、上記実施形態において、第１変換部２０および第２変換部３０は、ニューラルネットワークにおいて、任意の層に入力されたパラメータを変換せずに次の層に伝える経路を追加した、スキップ構造であってもよい。これにより、任意のパラメータの情報を損なわずに、伝搬することができる。例えば、第１変換部２０のＦＦＮＮでは第１特徴量における音高情報Ｐ０をスキップし、第２変換部３０のＣＮＮにおいて、変換されてない音高情報Ｐ０を含む第２特徴量を音響特徴量に変換してもよい。また、第２変換部３０のニューラルネットワークにスキップ構造を加えることで、中間層の数を増加しても、入力した任意のパラメータの情報（例えば、楽譜の音高情報）を損なわずに、伝搬することができる。

また、上記実施形態において、学習部５０は、第２変換部３０の生成した音響特徴量と教師データとに対して、一次微分や二次微分である時間変動を考慮するために用いられる動的特徴量を求め、これらを比較した学習結果をニューラルネットワークに反映してもよい。これにより、第１期間毎の時間変動における音響特徴量の関係がより考慮されるため、滑らかで自然な音声を合成できる。また、上記実施形態において、第２変換部３０は、動的特徴量を生成していないが、動的特徴量を生成してもよい。この場合、ボコーダ部４０は、音響特徴量に含まれる静的特徴量と動的特徴量から、これらの関係を考慮したパラメータ生成を行い、音声波形を生成できる。これにより、ボコーダ部４０は、第２変換部３０によって生成された動的特徴量を考慮して、静的特徴量を補正することができるため、より滑らかで自然な音声を合成できる。また、学習部５０は、第２変換部３０が生成する動的特徴量を含めて、音響特徴量における静的特徴量と動的特徴量との関係を教師有り機械学習によって学習することができる。

本発明は、上述の実施形態に限られるものではなく、その趣旨を逸脱しない範囲において種々の構成で実現することができる。例えば発明の概要の欄に記載した各形態中の技術的特徴に対応する実施形態中の技術的特徴は、上述した課題を解決するために、あるいは上述の効果の一部又は全部を達成するために、適宜、差し替えや組み合わせを行うことが可能である。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜削除することが可能である。

１０…取得部、２０…第１変換部、３０…第２変換部、４０…ボコーダ部、５０…学習部、６０…音響モデル、１００…音声処理装置、２００…ディープニューラルネットワーク、Ｄ１…２次元データ、Ｌ１…入力層、Ｌ２…中間層、Ｌ３…出力層

Claims

音声処理装置であって、
音声に関する多次元の第１特徴量であって、音高情報とＭＩＤＩの音高番号と音素情報と品詞の情報とアクセントの情報とのうちいずれか１つ以上を含む第１特徴量を取得する取得部と、
予め定められた第１期間毎に前記第１特徴量を多次元の第２特徴量に変換する第１変換部と、
前記第２特徴量を、時系列的に前記第２特徴量を処理することができるニューラルネットワークを用いて、前記第１期間よりも長い第２期間毎に音声波形を生成するための音響特徴量に変換する第２変換部と、を備え、
前記第２変換部は、前記第２特徴量に加えて前記第１特徴量に含まれる前記音高情報と前記ＭＩＤＩの音高番号と前記音素情報と前記品詞の情報と前記アクセントの情報とのうちいずれか１つ以上を含む特定情報を前記ニューラルネットワークに入力して、前記音響特徴量への変換を行う、音声処理装置。
請求項１に記載の音声処理装置であって、
前記ニューラルネットワークは、情報が入力される入力層と、前記入力層から伝達される情報に基づいて特徴量の算出を行う複数の中間層と、前記中間層から伝達される情報に基づいて結果を出力する出力層と、を備え、
前記第２変換部は、前記特定情報を前記複数の中間層のうち少なくとも１つ以上の中間層に入力して、前記ニューラルネットワークに前記音響特徴量への変換を行わせる、音声処理装置。
請求項１または請求項２に記載の音声処理装置であって、
前記第１特徴量における無音部分の前記音高情報は、前後の音高情報により補間された情報である、音声処理装置。
請求項１から請求項３までのいずれか一項に記載の音声処理装置であって、更に、
前記第１特徴量と前記音響特徴量との関係を教師有り機械学習によって学習して前記ニューラルネットワークに反映させる学習部を備える、音声処理装置。
音声処理装置であって、
音声に関する多次元の第１特徴量を取得する取得部と、
予め定められた第１期間毎に前記第１特徴量を多次元の第２特徴量に変換する第１変換部と、
前記第２特徴量を、時系列的に前記第２特徴量を処理することができるニューラルネットワークを用いて、前記第１期間よりも長い第２期間毎に音声波形を生成するための音響特徴量に変換する第２変換部と、
前記第１特徴量と前記音響特徴量との関係を教師有り機械学習によって学習して前記ニューラルネットワークに反映させる学習部と、を備え、
前記ニューラルネットワークは、情報が入力される入力層と、前記入力層から伝達される情報に基づいて特徴量の算出を行う複数の中間層と、前記中間層から伝達される情報に基づいて結果を出力する出力層と、を備え、
前記第２変換部は、前記第１特徴量の少なくとも一部および／または前記第２特徴量の少なくとも一部を前記複数の中間層のうち少なくとも１つ以上の中間層に入力して、前記ニューラルネットワークに前記音響特徴量への変換を行わせる、音声処理装置。
請求項１から請求項５までのいずれか一項に記載の音声処理装置であって、
前記第２期間は可変長である、音声処理装置。
請求項６に記載の音声処理装置であって、
前記第２変換部は、前記第１特徴量における無音部分に応じて前記第２期間の長さを変化させる、音声処理装置。
請求項１から請求項７までのいずれか一項に記載の音声処理装置であって、
前記第１変換部は、フィードフォワードニューラルネットワークを用いて前記第１特徴量を前記第２特徴量に変換する、音声処理装置。
請求項１から請求項８までのいずれか一項に記載の音声処理装置であって、
前記第１特徴量は、少なくとも言語特徴量と楽譜特徴量と声質特徴量とのいずれか一つを含む、音声処理装置。
請求項１から請求項９までのいずれか一項に記載の音声処理装置であって、更に、
前記音響特徴量を用いて音声波形を生成するボコーダ部を備える、音声処理装置。
請求項１から請求項１０までのいずれか一項に記載の音声処理装置であって、
前記第２変換部は、前記第２特徴量を、前記第２特徴量の各次元のデータを前記第２期間の長さ分並べて表される２次元データとして用いて前記音響特徴量に変換する、音声処理装置。
音声処理方法であって、
音声に関する多次元の第１特徴量であって、音高情報とＭＩＤＩの音高番号と音素情報と品詞の情報とアクセントの情報とのうちいずれか１つ以上を含む第１特徴量を取得する取得工程と、
予め定められた第１期間毎に前記第１特徴量を多次元の第２特徴量に変換する第１変換工程と、
時系列的に前記第２特徴量を処理することができるニューラルネットワークを用いて、前記第１期間よりも長い第２期間毎に音声波形を生成するための音響特徴量に、前記第２特徴量を変換する第２変換工程と、を備え、
前記第２変換工程は、前記第２特徴量に加えて前記第１特徴量に含まれる前記音高情報と前記ＭＩＤＩの音高番号と前記音素情報と前記品詞の情報と前記アクセントの情報とのうちいずれか１つ以上を含む特定情報を前記ニューラルネットワークに入力して、前記音響特徴量への変換を行う工程を含む、音声処理方法。
音声処理方法であって、
音声に関する多次元の第１特徴量を取得する取得工程と、
予め定められた第１期間毎に前記第１特徴量を多次元の第２特徴量に変換する第１変換工程と、
時系列的に前記第２特徴量を処理することができるニューラルネットワークを用いて、前記第１期間よりも長い第２期間毎に音声波形を生成するための音響特徴量に、前記第２特徴量を変換する第２変換工程と、
前記第１特徴量と前記音響特徴量との関係を教師有り機械学習によって学習して前記ニューラルネットワークに反映させる学習工程と、を備え、
前記ニューラルネットワークは、情報が入力される入力層と、前記入力層から伝達される情報に基づいて特徴量の算出を行う複数の中間層と、前記中間層から伝達される情報に基づいて結果を出力する出力層と、を備え、
前記第２変換工程は、前記第１特徴量の少なくとも一部および／または前記第２特徴量の少なくとも一部を前記複数の中間層のうち少なくとも１つ以上の中間層に入力して、前記音響特徴量への変換を行う工程を含む、音声処理方法。