JP6587308B1

JP6587308B1 - 音声処理装置、および音声処理方法

Info

Publication number: JP6587308B1
Application number: JP2019026251A
Authority: JP
Inventors: 恵一徳田; 圭一郎大浦; 和寛中村; 佳橋本; 吉彦南角
Original assignee: Nagoya Institute of Technology NUC; Techno Speech Inc
Current assignee: Nagoya Institute of Technology NUC; Techno Speech Inc
Priority date: 2019-02-18
Filing date: 2019-02-18
Publication date: 2019-10-09
Anticipated expiration: 2039-02-18
Also published as: JP2020134642A

Abstract

【課題】所望の基本周波数を有する音声波形を生成可能な技術を提供する。【解決手段】音声処理装置は、音声処理装置であって、音声波形を生成するための音響特徴量を取得する取得部と、音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、音響特徴量を補助情報としてニューラルネットワークに入力することにより、音声波形の各サンプリング周期における振幅を予測し、音声波形を生成する生成部と、を備える。【選択図】図１

Description

本発明は、音声処理装置、および音声処理方法に関する。

近年の音声処理装置として、ニューラルネットワークを用いて音声波形を生成するものが知られている。非特許文献１や非特許文献２に記載された技術では、畳み込みを用いたニューラルネットワークによって音声波形を生成している。また、非特許文献３に記載された技術では、非特許文献１や非特許文献２に記載された技術を応用して音響特徴量から音声波形を生成している。

Ａ．ｖａｎｄｅｎＯｏｒｄ他， "Ｗａｖｅｎｅｔ：ＡＧｅｎｅｒａｔｉｖｅＭｏｄｅｌｆｏｒＲａｗＡｕｄｉｏ"，ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１６０９．０３４９９，２０１６Ａ．ｖａｎｄｅｎＯｏｒｄ他， "ＰａｒａｌｌｅｌＷａｖｅＮｅｔ：ＦａｓｔＨｉｇｈ−ＦｉｄｅｌｉｔｙＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓ" ，ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１７１１．１０４３３，２０１７ＡｋｉｒａＴａｍａｍｏｒｉ他， "Ｓｐｅａｋｅｒ−ｄｅｐｅｎｄｅｎｔＷａｖｅｎｅｔｖｏｃｏｄｅｒ"，Ｉｎ：ＩＮＴＥＲＳＰＥＥＣＨ，ｐｐ．１１１８−１１２２，Ａｕｇ．２０１７ＴａｋｕｈｉｒｏＫａｎｅｋｏ他， "ＣｙｃｌｅＧＡＮ−ＶＣ：Ｎｏｎ−ｐａｒａｌｌｅｌＶｏｉｃｅＣｏｎｖｅｒｓｉｏｎＵｓｉｎｇＣｙｃｌｅ−ＣｏｎｓｉｓｔｅｎｔＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ"，５ｔｈＥＵＲＡＳＩＰＣｏｎｆｅｒｅｎｃｅｏｎ，２０１６，ｐｐ．２１１４−２１１８

しかし、非特許文献３に記載された技術では、音響特徴量であるスペクトル情報や基本周波数情報などを補助情報として用いて音声波形を生成しているものの、与えた基本周波数情報と同じ基本周波数の波形が生成されない場合がある。そのため、所望の基本周波数を有する音声波形を生成可能な技術が望まれていた。

本発明は、上述の課題を解決するためになされたものであり、以下の形態として実現することが可能である。本発明の第１の形態によれば、音声処理装置が提供される。この音声処理装置は、音声波形を生成するための音響特徴量を取得する取得部と、前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成部と、を備え、前記生成部は、位相が異なる複数の前記周期波形信号を前記ニューラルネットワークの入力層に入力する。
本発明の第２の形態によれば、音声処理装置が提供される。この音声処理装置は、音声波形を生成するための音響特徴量を取得する取得部と、前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成部と、を備え、前記生成部は、前記ニューラルネットワークの入力層に、更に、生成しようとする音声波形に応じた周期の有無の程度を示す信号を入力する。
本発明の第３の形態によれば、音声処理装置が提供される。この音声処理装置は、音声波形を生成するための音響特徴量を取得する取得部と、前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成部と、前記音響特徴量と前記周期波形信号と前記非周期波形信号と前記音声波形との関係を機械学習によって学習して前記ニューラルネットワークに反映させる学習部と、を備える。

（１）本発明の一形態によれば、音声処理装置が提供される。この音声処理装置は、音声波形を生成するための音響特徴量を取得する取得部と、前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成部と、を備える。この形態の音声処理装置によれば、生成を行おうとする音声波形の基本周波数に応じた周期波形信号を、ニューラルネットワークの入力層に入力して音声波形を生成するため、所望の基本周波数を有する音声波形を生成できる。
（２）上記形態の音声処理装置において、前記生成部は、前記ニューラルネットワークの入力層に、更に、生成しようとする音声波形に応じた周期の有無の程度を示す信号を入力してもよい。この形態の音声処理装置によれば、例えば、生成しようとする音声波形の無音部分や、無声子音の部分といった励振源に関する情報に応じて、高品位な音声波形を生成できる。
（３）前記生成部は、位相が異なる複数の前記周期波形信号を前記ニューラルネットワークの入力層に入力してもよい。この形態の音声処理装置によれば、より効果的に、所望の基本周波数を有する音声波形を生成できる。
（４）上記形態の音声処理装置において、更に、前記音響特徴量と前記周期波形信号と前記非周期波形信号と前記音声波形との関係を機械学習によって学習して前記ニューラルネットワークに反映させる学習部を備えてもよい。この形態の音声処理装置によれば、音響特徴量と音声波形との関係を学習でき、生成部に学習結果を反映できる。

なお、本発明は、種々の態様で実現することが可能である。例えば、この形態の音声処理装置を利用した音声処理システム、音声処理装置や音声処理システムの機能を実現するために情報処理装置において実行される方法、コンピュータプログラム、そのコンピュータプログラムを配布するためのサーバ装置、そのコンピュータプログラムを記憶した一時的でない記憶媒体等の形態で実現することができる。

音声処理装置の概要を示す説明図である。音響特徴量における各種のパラメータの一例を示す図である。音声波形生成処理を表すフローチャートである。第１実施形態におけるニューラルネットワークについて説明するための説明図である。入力層におけるノードの概略構成を示す図である。第２実施形態におけるニューラルネットワークについて説明するための説明図である。生成した音声波形の一例を示す図である。周期補助信号の一例を示す図である。位相が異なる複数の周期波形信号の一例の図である。

Ａ．第１実施形態：
図１は、本発明の一実施形態における音声処理装置１００の概要を示す説明図である。音声処理装置１００は、取得部１０と、生成部２０と、学習部３０と、を備える。取得部１０と、生成部２０と、学習部３０とは、１以上のＣＰＵやＧＰＵがメモリに記憶されたプログラムを実行することにより、ソフトウェア的に実現される。なおこれらの一部または全部は、回路によってハードウェア的に実現されてもよい。

取得部１０は、音声波形を生成するための音響特徴量を取得する。音響特徴量の詳細については後述する。取得部１０は、例えば、予め録音された音声の音声波形から周知の音声分析技術を用いて音響特徴量を抽出してもよく、発語対象のテキストや楽譜に応じて予め生成された音響特徴量を取得してもよい。

生成部２０は、ニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いて、周期波形信号と非周期波形信号と音響特徴量とから音声波形を生成する。周期波形信号とは、生成を行う音声波形の基本周波数に応じた周期波形信号である。周期波形信号と非周期波形信号は、発話スタイルや歌唱スタイル等を含んでいてもよい。例えば、ビブラートが付与された音声波形を生成する場合は、ビブラートが付与された状態の基本周波数に応じた周期波形信号でもよい。周期波形信号は、例えば、生成を行う音声波形の基本周波数と同じ周波数のサイン波形の信号や、生成を行う音声波形の基本周波数より１オクターブ高い周波数のコサイン波形の信号である。また、周期波形信号は、非正弦波である三角波、のこぎり波、短径波やパルス波の信号でもよい。生成を行う音声波形の基本周波数は、例えば、予め録音された音声の音声波形から周知の音声分析技術を用いて基本周波数を求めてもよく、発語対象のテキストや楽譜に予め定められた基本周波数を用いてもよい。非周期波形信号とは、ノイズを表す信号であり、例えば、白色雑音やガウス雑音である。

学習部３０は、音響特徴量と周期波形信号と非周期波形信号と音声波形との関係を教師有り機械学習、もしくは、教師無し機械学習（例えば、非特許文献４参照）によって学習し、ニューラルネットワークで用いられる各種のパラメータが最適化される。学習部３０は、学習結果を生成部２０が用いるニューラルネットワークに反映させる。こうすることにより、生成部２０は、学習部３０の学習結果を反映して音声波形の生成を行うことができる。音声処理装置１００は、学習部３０を備えていなくてもよい。この場合、生成部２０は、外部の機械学習を行う学習装置等によって得られた学習結果を反映して音声波形の生成を行うことができる。

図２は、音響特徴量における各種のパラメータの一例を示す図である。本実施形態において、音響特徴量は、音声の特徴量である。スペクトルパラメータとしては、メルケプストラムや線スペクトル対（ＬｉｎｅＳｐｅｃｔｒｕｍＰａｉｒ（ＬＳＰ））などがある。これらは、スペクトル情報と呼ばれることがある。音源情報としては、基本周波数は、一般に対数基本周波数として扱われており、その関連パラメータとしては、有声／無声の区別や、非周期性指標が考えられる。これらは音源情報と呼ばれることがある。なお、無声部分は対数基本周波数の値を持たないため、有声／無声の区別を音源情報に含める代わりに、無声部分に所定の定数を入れる等の方法によって有声／無声の区別を行ってもよい。なお、音源情報における基本周波数は、上述した周期波形信号に含まれる情報であるため、省略してもよい。また、有声／無声の区別に関する情報も、後述する周期補助信号に含まれる情報であるため、省略してもよい。また、スペクトル情報や音源情報は、発話スタイルや歌唱スタイル等を含んでいてもよい。例えば、スペクトル情報として、音の大きさのビブラートが付与された状態のスペクトル情報を用いることができる。

図３は、本実施形態における音声処理装置１００を用いた音声波形生成処理を表すフローチャートである。まず、取得部１０が、ステップＳ１００で音響特徴量を取得する。次に、生成部２０が、ステップＳ１１０において、ステップＳ１００で取得した音響特徴量と予め定められた期間分の周期波形信号と非周期波形信号とを用いて、ニューラルネットワークによって音声波形を生成する。

図４は、生成部２０によって用いられるニューラルネットワークについて説明するための説明図である。ニューラルネットワーク２００は、複数のｄｉｌａｔｉｏｎ層Ｌ１〜Ｌ４を備える。ｄｉｌａｔｉｏｎ層の数は任意に定める事ができる。なお「ｄｉｌａｔｉｏｎ層」のことを「拡張層」や「中間層」ともいう。

ｄｉｌａｔｉｏｎ層Ｌ１は、情報が入力される層である。以下、「入力層」ともいう。ｄｉｌａｔｉｏｎ層Ｌ１は、入力された信号に基づいて初期演算処理と情報畳み込みを行い、ｄｉｌａｔｉｏｎ層Ｌ２〜Ｌ４は、下層から伝達される情報に基づいて情報の畳み込みを行う。各層には、複数のノードが含まれる。

ニューラルネットワーク２００による音声サンプルの生成について説明する。「音声サンプル」とは、音声波形をサンプリング周期毎にサンプリングした振幅情報である。周期波形信号と非周期波形信号のサンプルＳ１〜Ｓ８は、ｄｉｌａｔｉｏｎ層Ｌ１で初期演算処理が行われた後、各ノードＮ１〜Ｎ８に時系列順に入力される。ｄｉｌａｔｉｏｎ層Ｌ１の各ノードＮ１〜Ｎ８は、それらの情報に畳み込みを行った情報を上層であるｄｉｌａｔｉｏｎ層Ｌ２に伝達する。図示の便宜上、図４に示すｄｉｌａｔｉｏｎ層Ｌ１には、８個の周期波形信号および非周期波形信号のサンプルＳ１〜Ｓ８が入力されているが、入力されるサンプルの数は任意に定める事ができ、例えば３０００個である。本実施形態において、入力層Ｌ１は２つの入力チャネルを有している。第１のチャネルには、周期波形信号のサンプルが入力され、第２のチャネルには、非周期波形信号のサンプルが入力される。

ｄｉｌａｔｉｏｎ層Ｌ２〜Ｌ４では、入力層Ｌ１から伝達された情報に対して種々の演算が各層において段階的に行われる。なお、ｄｉｌａｔｉｏｎ層Ｌ２〜Ｌ４にも、下層から伝達された情報に加えて、周期波形信号のサンプルや非周期波形信号のサンプルが入力されてもよい。ｄｉｌａｔｉｏｎ層Ｌ４において、最終的に演算されたデータと、各層の最右のノードのデータ、つまり時系列において最も先のデータが入力されるノードのデータとを足しあわせて演算処理を行うことで、音声サンプルＭＳが出力される。音声サンプルＭＳは、時系列において、入力されたサンプルＳ８の時点の音声サンプルとして予測された振幅情報である。出力される音声サンプルＭＳは、時系列において近いサンプルであるほど、強い影響を与えやすい構造となっている。具体的には、サンプルＳ８の方が、サンプルＳ１よりも、音声サンプルＭＳの予測に影響を与えやすい。生成部２０は、予測した音声サンプルを並べることで音声波形を生成する。

図５は、ｄｉｌａｔｉｏｎ層Ｌ１におけるノードの概略構成を示す図である。以下では、ｄｉｌａｔｉｏｎ層Ｌ１のノードＮ８を例として説明する。ｄｉｌａｔｉｏｎ層Ｌ１は、初期演算処理器３００を有しており、演算処理を行う。ノードは、複数の演算処理器３０１〜３０６を有しており、各演算処理器において、機械学習によって学習された各種のパラメータを用いた演算処理を行う。ｄｉｌａｔｉｏｎ層Ｌ１では、周期波形信号のサンプルと非周期波形信号のサンプルとが、初期演算処理器３００に入力されて演算処理を行われた後、ノードＮ８の第１演算処理器３０１や第２演算処理器３０２によって演算処理が行われ、その各演算結果に補助情報として音響特徴量を第３演算処理器３０３や第４演算処理器３０４で演算処理を行ったものが加算される。第３演算処理器３０３や第４演算処理器３０４で演算処理を行った音響特徴量が加算された演算結果にそれぞれ双曲線関数やシグモイド関数等の活性化関数を用い、更に第５演算処理器３０５や第６演算処理器３０６で演算処理を行う。第５演算処理器３０５で演算処理を行った演算結果と、初期演算処理器３００の演算結果とを足し合わせることで、上層へ伝達する情報が出力される。また、第６演算処理器３０６で演算処理を行った演算結果は、ｄｉｌａｔｉｏｎ層Ｌ４において第５演算処理器３０５で演算処理を行った演算結果にｄｉｌａｔｉｏｎ層Ｌ４への入力を加算したものと、各層の第６演算処理器３０６で演算処理を行った演算結果とを足しあわせて更に演算処理が行われる。

図５に示した構成は、図４に示したｄｉｌａｔｉｏｎ層Ｌ２〜Ｌ４の各ノードにも適用される。ｄｉｌａｔｉｏｎ層Ｌ２〜Ｌ４では初期演算処理器３００を介さず、各ノードの第１演算処理器３０１および第２演算処理器３０２に、直接、下層の２つのノードから出力が入力される。初期演算処理器３００では、２チャネルから多チャネル（例えば、２５６チャネル）、に入力された情報が変換される。この場合、ｄｉｌａｔｉｏｎ層Ｌ２〜Ｌ４の各ノードにも２５６チャネルが入力される。初期演算処理器３００で演算された結果が多チャネル（例えば、２５６チャネル）化され、各チャネルの出力がｄｉｌａｔｉｏｎ層Ｌ１の第１演算処理器３０１、第２演算処理器３０２、第５演算処理器３０５の演算結果との加算器に入力され、更に、ｄｉｌａｔｉｏｎ層Ｌ１の出力が上層の第１演算処理器３０１、第２演算処理器３０２、第５演算処理器３０５の演算結果との加算器に入力される。

以上で説明した本実施形態の音声処理装置１００によれば、生成部２０は、生成を行おうとする音声波形の基本周波数に応じた周期波形信号を、補助情報としてではなく、直接的にニューラルネットワークの入力層に入力して音声波形を生成するため、所望の基本周波数を有する音声波形を生成できる。また、ニューラルネットワーク自身が出力した音声サンプルをニューラルネットワークに入力して次の音声サンプルを予測する自己回帰構造のニューラルネットワークよりも高速に音声波形を生成できる。また、学習部３０によって音響特徴量と周期波形信号と非周期波形信号と音声波形との関係を学習でき、生成部２０に学習結果を反映できる。また、学習部３０の学習範囲から大きく外れた基本周波数の音声波形であっても、生成部２０は、生成を行おうとする音声波形の基本周波数に応じた周期波形信号を、ニューラルネットワークの入力層に入力して音声波形を生成するため、所望の基本周波数を有する音声波形を生成できる。

Ｂ．第２実施形態：
第２実施形態では、生成部２０によって用いられるニューラルネットワークの構造が第１実施形態と異なる。第２実施形態の音声処理装置１００の構成は、第１実施形態の音声処理装置１００の構成と同様であるため、構成の説明は省略する。

図６は、第２実施形態におけるニューラルネットワークの説明図である。図６に示すニューラルネットワークは、図４に示したニューラルネットワークの構造が左右対称に備えられる事により構成されている。入力層Ｌ１には、第１実施形態と同様に、周期波形信号と非周期波形信号のサンプルがそれぞれ入力される。本実施形態のニューラルネットワークの入力層Ｌ１には、出力される音声サンプルＭＳの時系列における過去の周期波形信号および非周期波形信号のサンプルと未来の周期波形信号および非周期波形信号のサンプルが入力される。より具体的には、ノードＮ１〜Ｎ７までには、過去の周期波形信号および非周期波形信号のサンプルＳ１〜Ｓ７に初期演算処理を行った情報が入力され、ノードＮ８には現在の周期波形信号および非周期波形信号のサンプルＳ８に初期演算処理を行った情報が入力され、ノードＮ９〜Ｎ１５には、未来の周期波形信号および非周期波形信号のサンプルＳ９〜Ｓ１５に初期演算処理を行った情報が入力される。また、各ノードでは、第１実施形態と同様に、補助情報として音響特徴量が入力される。出力される音声サンプルＭＳは、時系列において近いサンプルであるほど、強い影響を与えやすい構造となっている。具体的には、音声サンプルＭＳの予測には、サンプルＳ８の方が、サンプルＳ１やサンプルＳ１５よりも、強い影響を与えやすい。

以上で説明した本実施形態の音声処理装置１００によれば、生成部２０は、周期波形信号を、直接的にニューラルネットワークの入力層に入力して音声波形を生成するため、所望の基本周波数を有する音声波形を生成できる。また、生成部２０は、ニューラルネットワークの入力層に、生成する音声サンプルの時系列における過去の周期波形信号のサンプルだけでなく、未来の周期波形信号のサンプルを入力するため、高品位な音声波形を生成できる。

図７は、実施例において生成した音声波形の一例を示す図である。上段に示す波形は、目標音声波形であり、音声処理によって生成しようとする波形である。中段に示す波形は、実施例において生成した音声波形である。下段に示す波形は、ニューラルネットワークに入力した周期波形信号であり、目標音声波形と同じ基本周波数のサイン波形である。図７に示すように、実施例において生成した音声波形は、同じ周期Ｔで振幅しており、目標音声波形と同じ基本周波数となった。

Ｃ．第３実施形態：
第３実施形態における生成部２０は、ニューラルネットワークの入力層に、更に、生成しようとする音声波形に応じた周期の有無の程度を示す信号（以下、「周期補助信号」という）を入力して音声波形を生成する点が第１実施形態と異なる。第３実施形態の音声処理装置１００の構成は、第１実施形態の音声処理装置１００の構成と同様であるため、構成の説明は省略する。

本実施形態において、生成部２０は、ニューラルネットワークの入力層Ｌ１に、周期波形信号と周期補助信号と非周期波形信号とを入力する。つまり、本実施形態において、生成部２０が用いるニューラルネットワークの入力層の初期演算処理器３００は、３つの入力チャネルを有している。例えば、第１のチャネルには、周期波形信号のサンプルが入力され、第２のチャネルには、周期補助信号のサンプルが入力され、第３のチャネルには、非周期波形信号のサンプルが入力される。なお、チャネルの順序は任意に定める事ができる。

周期補助信号は、周期波形が始まる境界位置と終わる境界位置に応じて定める事ができ、非周期波形の部分を０、周期波形の部分を１とした、０〜１の値で表現できる。例えば、周期波形が始まる境界位置における周期補助信号は、無声から有声に切り替わる境界の２４０サンプル前の位置から２４０サンプル後の位置までを０．０から１．０にサンプル単位で線形補間した信号であり、周期波形が終わる境界位置における周期補助信号は、有声から無声に切り替わる境界の２４０サンプル前の位置から２４０サンプル後の位置までを１．０から０．０にサンプル単位で線形補間した信号である。図８は、周期補助信号の一例を示す図である。また、周期補助信号は、音素やフレーム毎の値を線形補間したデータでもよい。

以上で説明した本実施形態の音声処理装置１００によれば、生成部２０は、周期波形信号を、直接的にニューラルネットワークの入力層に入力して音声波形を生成するため、所望の基本周波数を有する音声波形を生成できる。また、生成部２０は、ニューラルネットワークの入力層に、更に、周期補助信号を入力するため、例えば、生成しようとする音声波形の無音部分や、無声子音の部分といった励振源に関する情報に応じて、高品位な音声波形を生成できる。

Ｄ．第４実施形態：
第４実施形態における生成部２０は、位相が異なる複数の周期波形信号をニューラルネットワークの入力層に入力して音声波形を生成する点が第１実施形態と異なる。第４実施形態の音声処理装置１００の構成は、第１実施形態の音声処理装置１００の構成と同様であるため、構成の説明は省略する。

図９は、位相が異なる複数の周期波形信号の一例の図である。本実施形態において、生成部２０は、ニューラルネットワークの入力層Ｌ１に、周期波形信号Ｗｓと周期波形信号Ｗｃと非周期波形信号とを入力する。つまり、本実施形態において、生成部２０が用いるニューラルネットワークの入力層の初期演算処理器３００は、３つの入力チャネルを有している。第１のチャネルには、周期波形信号Ｗｓのサンプルが入力され、第２のチャネルには、周期波形信号Ｗｃのサンプルが入力され、第３のチャネルには、非周期波形信号のサンプルが入力される。なお、チャネルの順序は任意に定める事ができる。

周期波形信号Ｗｓは、生成を行う音声波形と同じ基本周波数を有するサイン波形であり、周期波形信号Ｗｃは、生成を行う音声波形と同じ基本周波数を有するコサイン波形である。図９に示すように、周期波形信号Ｗｓは、上昇時であるタイミングｔ１の場合の振幅の値と、下降時であるタイミングｔ２の場合の値とは、どちらも振幅Ａ１であるが、タイミングｔ１における周期波形信号Ｗｃは振幅Ａ２であり、タイミングｔ２における周期波形信号Ｗｃは振幅Ａ２と異なる値の振幅Ａ３である。従って、生成部２０の用いるニューラルネットワークは、周期波形信号Ｗｓが振幅Ａ１の場合、周期波形信号Ｗｃが振幅Ａ２であれば上昇時であり、周期波形信号Ｗｃが振幅Ａ３であれば下降時であることを一意に決める事ができる。

以上で説明した本実施形態の音声処理装置１００によれば、生成部２０は、位相が異なる複数の周期波形信号をニューラルネットワークの入力層に入力するため、生成部２０が用いるニューラルネットワークは、周期波形信号の値が、上昇時の値なのか下降時の値なのかを一意に決める事ができる。そのため、生成部２０は、より効果的に、所望の基本周波数を有する音声波形を生成できる。

Ｅ．第５実施形態
第５実施形態では、生成部２０によって用いられるニューラルネットワークの構造が第１実施形態と異なる。第５実施形態の音声処理装置１００の構成は、第１実施形態の音声処理装置１００の構成と同様であるため、構成の説明は省略する。

本実施形態において、生成部２０におけるニューラルネットワークは、第１実施形態と異なり、２チャネルの出力を有する。生成部２０は、音声サンプルを、例えば、ニューラルネットワークの一方のチャネルが出力した情報にニューラルネットワークに入力した非周期波形信号のサンプルを掛け合わせたものと、ニューラルネットワークの他方のチャネルが出力した情報とを足し合わせることで求めることができる。

以上で説明した本実施形態の音声処理装置１００によれば、生成部２０は、周期波形信号を、直接的にニューラルネットワークの入力層に入力して音声波形を生成するため、所望の基本周波数を有する音声波形を生成できる。また、生成部２０は、ニューラルネットワークの出力した情報に非周期波形信号のサンプルを掛け合わせて音声波形を生成するため、非周期波形信号をより再現した高品位な音声波形を生成できる。

Ｆ．第６実施形態
第６実施形態では、生成部２０によって用いられるニューラルネットワークの構造が第１実施形態と異なる。第６実施形態の音声処理装置１００の構成は、第１実施形態の音声処理装置１００の構成と同様であるため、構成の説明は省略する。

本実施形態において、生成部２０は、図４や図６に示したニューラルネットワークを、縦に複数重ねた構造のニューラルネットワークを用いて音声サンプルを出力する。例えば、ニューラルネットワークを２つ重ねた場合、生成部２０は、下段のニューラルネットワークで出力された情報を、上段のニューラルネットワークの入力層Ｌ１に入力して、音声サンプルを出力する。つまり、上段のニューラルネットワークの入力層Ｌ１のノードの数分、下段のニューラルネットワークの出力を用意する。

以上で説明した本実施形態の音声処理装置１００によれば、生成部２０は、周期波形信号を、直接的にニューラルネットワークの入力層に入力して音声波形を生成するため、所望の基本周波数を有する音声波形を生成できる。また、生成部２０は、ニューラルネットワークを複数重ねた構造のニューラルネットワークを用いて音声サンプルを求めて音声波形を生成するため、１段のみの構造であるニューラルネットワークに比べて、同数のサンプルを入力して音声波形を生成する場合に、各段のニューラルネットワークを小さくすることができる。そのため、全体としてパラメータを増加させることなく、多くのサンプルを入力して音声波形を生成できるため、より高品位な音声波形を生成できる。なお、下段のニューラルネットワークの出力に対して、所定の演算処理を行った結果を上段のニューラルネットの入力としてもよい。例えば、下段のニューラルネットワークは２種類の出力を有する。上段のニューラルネットワークには、下段のニューラルネットワークの出力の一方に非周期波形信号のサンプルを掛け合わせたものと、下段のニューラルネットワークの出力の他方とを足し合わせた結果を入力とする。この場合、非周期波形信号が上段まで伝達されやすくなる。

Ｇ．その他の実施形態：
（Ｇ１）上記実施形態において、取得部１０が取得する音響特徴量は、歌唱音声の特徴量である。この代わりに、取得部１０は、音響特徴量として話し言葉の特徴量を取得してもよい。この形態によれば、歌声ではない、テキスト合成音声である音声波形を生成できる。また、声のトーンやアクセント、イントネーション、中国語における四声等をより正確に再現した音声波形を生成できる。また、取得部１０は、音響特徴量として声質特徴量を取得してもよい。声質特徴量は、他人の声から抽出した音響特徴量である。この形態によれば、ある話者の音響特徴量から、他の話者の音響特徴量へと変換する声質変換を行った音声波形を生成できる。

（Ｇ２）上記実施形態において、取得部１０は、生成したい音声波形の元となる楽譜特徴量や言語特徴量を周知の変換技術を用いて音声特徴量に変換することで、音響特徴量を取得してもよい。また、取得部１０は、楽譜特徴量や言語特徴量をニューラルネットワークを用いて変換する場合における、ニューラルネットワークの任意の層における情報を取得し、取得した情報を変換することで、音響特徴量を取得してもよい。

（Ｇ３）上記実施形態において、取得部１０が取得する音響特徴量は、音源情報とスペクトル情報との他に、歌唱表現情報が含まれてもよい。歌唱表現情報には、例えば、音高のビブラートの周期および振幅とその有無、音の大きさのビブラートの周期および振幅とその有無等が、含まれている。なお、音高のビブラートの有無の区別を歌唱表現情報に含める代わりに、音高のビブラート無い部分に所定の定数を入れる等の方法によって音高のビブラートの有無の区別を行ってもよい。同様に、音の大きさのビブラートの有無の区別を歌唱表現情報に含める代わりに、音の大きさのビブラート無い部分に所定の定数を入れる等の方法によって音の大きさのビブラートの有無の区別を行ってもよい。

（Ｇ４）上記実施形態において、生成部２０におけるニューラルネットワークの入力層Ｌ１の初期演算処理器３００は、２つの入力チャネルを有している。この代わりに、初期演算処理器３００は、１つの入力チャネルのみを有していてもよい。この場合、例えば、生成部２０は、（１）周期波形信号のサンプルを入力するニューラルネットワークと、（２）非周期波形信号のサンプルを入力するニューラルネットワークと、を用いて音声サンプルを、求めることができる。より具体的には、生成部２０は、音声サンプルを、（１）が出力した情報と、（２）に入力した非周期波形信号のサンプルを（２）が出力した情報に掛け合わせたものとを足し合わせることで求めることができる。

（Ｇ５）上記実施形態において、生成部２０におけるニューラルネットワークの入力層Ｌ１の初期演算処理器３００は、２つの入力チャネルを有している。この代わりに、初期演算処理器３００は、３つ以上の入力チャネルを有していてもよい。この場合、例えば、４つの入力チャネルを有することができ、第１のチャネルには、周期波形信号のサンプルが入力され、第２のチャネルには、非周期波形信号のサンプルが入力され、第３のチャネルには、時系列において第１のチャネルに入力されたサンプルの一つ前の時点の周期波形信号のサンプルが入力され、第４のチャネルには、時系列において第２のチャネルに入力されたサンプルの一つ前の時点の非周期波形信号のサンプルが入力される。

（Ｇ６）上記第３実施形態において、生成部２０は、更に、位相が異なる周期波形信号をニューラルネットワークの入力層に入力して音声波形を生成してもよい。つまり、第３実施形態と第４実施形態とを組み合わせてもよい。より具体的には、生成部２０は、例えば、生成したい音声波形と同じ基本周波数であるサイン波形からなる周期波形信号Ｗｓと、生成したい音声波形と同じ基本周波数であるコサイン波形からなる周期波形信号Ｗｃと、周期補助信号と、非周期波形信号とをニューラルネットワークの入力層に入力できる。

（Ｇ７）上記第３実施形態において、周期補助信号は、例えば、生成しようとする音声波形の言語情報に応じて定めてもよい。「言語情報」とは、例えば、母音や子音の情報である。言語情報は音響特徴量に含まれていてもよい。より具体的には、周期補助信号は、無音部分や無声子音の部分が０．０であり、母音部分が０．９や１．０であり、／ｂ／、／ｄ／、／ｇ／等の周期と非周期が混在するような子音部分が０．３〜０．７の値であるデータを用いることができる。

（Ｇ８）上記第６実施形態において、生成部２０におけるニューラルネットワークの出力は、２つのチャネルでもよい。つまり、第５実施形態と第６実施形態とを組み合わせてもよい。具体的には、ニューラルネットワークを３つ重ねた場合、１つめのニューラルネットワークには周期波形信号のサンプルと非周期波形信号のサンプルとが入力され、第１データと第２データとが出力される。２つめのニューラルネットワークは、第１データと、非周期波形信号のサンプルを第２データに掛け合わせた情報と、が入力され、第３データと第４データとが出力される。３つめのニューラルネットワークは、第３データと、非周期波形信号のサンプルを第４データに掛け合わせた情報と、が入力され、第５データと第６データとが出力される。生成部２０は、第５データと、非周期波形信号のサンプルを第６データに掛け合わせた情報とを足し合わせることで、音声サンプルを求め、音声波形を生成できる。

本発明は、上述の実施形態に限られるものではなく、その趣旨を逸脱しない範囲において種々の構成で実現することができる。例えば発明の概要の欄に記載した各形態中の技術的特徴に対応する実施形態中の技術的特徴は、上述した課題を解決するために、あるいは上述の効果の一部又は全部を達成するために、適宜、差し替えや組み合わせを行うことが可能である。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜削除することが可能である。

１０…取得部、２０…生成部、３０…学習部、１００…音声処理装置、２００…ニューラルネットワーク、３００…初期演算処理器、３０１…第１演算処理器、３０２…第２演算処理器、３０３…第３演算処理器、３０４…第４演算処理器、３０５…第５演算処理器、３０６…第６演算処理器、Ｌ１〜Ｌ４…ｄｉｌａｔｉｏｎ層、ＭＳ…音声サンプル、Ｓ１〜Ｓ１５…サンプル、Ｎ１〜Ｎ１５…ノード

Claims

音声処理装置であって、
音声波形を生成するための音響特徴量を取得する取得部と、
前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成部と、を備え、
前記生成部は、位相が異なる複数の前記周期波形信号を前記ニューラルネットワークの入力層に入力する、音声処理装置。
音声処理装置であって、
音声波形を生成するための音響特徴量を取得する取得部と、
前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成部と、を備え、
前記生成部は、前記ニューラルネットワークの入力層に、更に、生成しようとする音声波形に応じた周期の有無の程度を示す信号を入力する、音声処理装置。
音声処理装置であって、
音声波形を生成するための音響特徴量を取得する取得部と、
前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成部と、
前記音響特徴量と前記周期波形信号と前記非周期波形信号と前記音声波形との関係を機械学習によって学習して前記ニューラルネットワークに反映させる学習部と、を備える、音声処理装置。
音声処理方法であって、
音声波形を生成するための音響特徴量を取得する取得工程と、
前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成工程と、を備え、
前記生成工程では、位相が異なる複数の前記周期波形信号を前記ニューラルネットワークの入力層に入力する、音声処理方法。
音声処理方法であって、
音声波形を生成するための音響特徴量を取得する取得工程と、
前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成工程と、を備え、
前記生成工程では、前記ニューラルネットワークの入力層に、更に、生成しようとする音声波形に応じた周期の有無の程度を示す信号を入力する、音声処理方法。
音声処理方法であって、
音声波形を生成するための音響特徴量を取得する取得工程と、
前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成工程と、
前記音響特徴量と前記周期波形信号と前記非周期波形信号と前記音声波形との関係を機械学習によって学習して前記ニューラルネットワークに反映させる学習工程と、を備える、音声処理方法。