JP6587308B1 - 音声処理装置、および音声処理方法 - Google Patents

音声処理装置、および音声処理方法 Download PDF

Info

Publication number
JP6587308B1
JP6587308B1 JP2019026251A JP2019026251A JP6587308B1 JP 6587308 B1 JP6587308 B1 JP 6587308B1 JP 2019026251 A JP2019026251 A JP 2019026251A JP 2019026251 A JP2019026251 A JP 2019026251A JP 6587308 B1 JP6587308 B1 JP 6587308B1
Authority
JP
Japan
Prior art keywords
waveform
neural network
speech
input
speech waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019026251A
Other languages
English (en)
Other versions
JP2020134642A (ja
Inventor
恵一 徳田
恵一 徳田
圭一郎 大浦
圭一郎 大浦
和寛 中村
和寛 中村
佳 橋本
佳 橋本
吉彦 南角
吉彦 南角
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nagoya Institute of Technology NUC
Techno Speech Inc
Original Assignee
Nagoya Institute of Technology NUC
Techno Speech Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nagoya Institute of Technology NUC, Techno Speech Inc filed Critical Nagoya Institute of Technology NUC
Priority to JP2019026251A priority Critical patent/JP6587308B1/ja
Application granted granted Critical
Publication of JP6587308B1 publication Critical patent/JP6587308B1/ja
Publication of JP2020134642A publication Critical patent/JP2020134642A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

【課題】所望の基本周波数を有する音声波形を生成可能な技術を提供する。【解決手段】音声処理装置は、音声処理装置であって、音声波形を生成するための音響特徴量を取得する取得部と、音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、音響特徴量を補助情報としてニューラルネットワークに入力することにより、音声波形の各サンプリング周期における振幅を予測し、音声波形を生成する生成部と、を備える。【選択図】図1

Description

本発明は、音声処理装置、および音声処理方法に関する。
近年の音声処理装置として、ニューラルネットワークを用いて音声波形を生成するものが知られている。非特許文献1や非特許文献2に記載された技術では、畳み込みを用いたニューラルネットワークによって音声波形を生成している。また、非特許文献3に記載された技術では、非特許文献1や非特許文献2に記載された技術を応用して音響特徴量から音声波形を生成している。
A. van den Oord 他, "Wavenet: A Generative Model for Raw Audio", arXiv preprint arXiv:1609.03499, 2016 A. van den Oord 他, "Parallel WaveNet: Fast High−Fidelity Speech Synthesis" , arXiv preprint arXiv:1711.10433, 2017 Akira Tamamori 他, "Speaker−dependent Wavenet vocoder", In:INTERSPEECH, pp. 1118−1122, Aug. 2017 Takuhiro Kaneko 他, "CycleGAN−VC: Non−parallel Voice Conversion Using Cycle−Consistent Adversarial Networks", 5th EURASIP Conference on,2016, pp. 2114−2118
しかし、非特許文献3に記載された技術では、音響特徴量であるスペクトル情報や基本周波数情報などを補助情報として用いて音声波形を生成しているものの、与えた基本周波数情報と同じ基本周波数の波形が生成されない場合がある。そのため、所望の基本周波数を有する音声波形を生成可能な技術が望まれていた。
本発明は、上述の課題を解決するためになされたものであり、以下の形態として実現することが可能である。本発明の第1の形態によれば、音声処理装置が提供される。この音声処理装置は、音声波形を生成するための音響特徴量を取得する取得部と、前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成部と、を備え、前記生成部は、位相が異なる複数の前記周期波形信号を前記ニューラルネットワークの入力層に入力する。
本発明の第2の形態によれば、音声処理装置が提供される。この音声処理装置は、音声波形を生成するための音響特徴量を取得する取得部と、前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成部と、を備え、前記生成部は、前記ニューラルネットワークの入力層に、更に、生成しようとする音声波形に応じた周期の有無の程度を示す信号を入力する。
本発明の第3の形態によれば、音声処理装置が提供される。この音声処理装置は、音声波形を生成するための音響特徴量を取得する取得部と、前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成部と、前記音響特徴量と前記周期波形信号と前記非周期波形信号と前記音声波形との関係を機械学習によって学習して前記ニューラルネットワークに反映させる学習部と、を備える。
(1)本発明の一形態によれば、音声処理装置が提供される。この音声処理装置は、音声波形を生成するための音響特徴量を取得する取得部と、前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成部と、を備える。この形態の音声処理装置によれば、生成を行おうとする音声波形の基本周波数に応じた周期波形信号を、ニューラルネットワークの入力層に入力して音声波形を生成するため、所望の基本周波数を有する音声波形を生成できる。
(2)上記形態の音声処理装置において、前記生成部は、前記ニューラルネットワークの入力層に、更に、生成しようとする音声波形に応じた周期の有無の程度を示す信号を入力してもよい。この形態の音声処理装置によれば、例えば、生成しようとする音声波形の無音部分や、無声子音の部分といった励振源に関する情報に応じて、高品位な音声波形を生成できる。
(3)前記生成部は、位相が異なる複数の前記周期波形信号を前記ニューラルネットワークの入力層に入力してもよい。この形態の音声処理装置によれば、より効果的に、所望の基本周波数を有する音声波形を生成できる。
(4)上記形態の音声処理装置において、更に、前記音響特徴量と前記周期波形信号と前記非周期波形信号と前記音声波形との関係を機械学習によって学習して前記ニューラルネットワークに反映させる学習部を備えてもよい。この形態の音声処理装置によれば、音響特徴量と音声波形との関係を学習でき、生成部に学習結果を反映できる。
なお、本発明は、種々の態様で実現することが可能である。例えば、この形態の音声処理装置を利用した音声処理システム、音声処理装置や音声処理システムの機能を実現するために情報処理装置において実行される方法、コンピュータプログラム、そのコンピュータプログラムを配布するためのサーバ装置、そのコンピュータプログラムを記憶した一時的でない記憶媒体等の形態で実現することができる。
音声処理装置の概要を示す説明図である。 音響特徴量における各種のパラメータの一例を示す図である。 音声波形生成処理を表すフローチャートである。 第1実施形態におけるニューラルネットワークについて説明するための説明図である。 入力層におけるノードの概略構成を示す図である。 第2実施形態におけるニューラルネットワークについて説明するための説明図である。 生成した音声波形の一例を示す図である。 周期補助信号の一例を示す図である。 位相が異なる複数の周期波形信号の一例の図である。
A.第1実施形態:
図1は、本発明の一実施形態における音声処理装置100の概要を示す説明図である。音声処理装置100は、取得部10と、生成部20と、学習部30と、を備える。取得部10と、生成部20と、学習部30とは、1以上のCPUやGPUがメモリに記憶されたプログラムを実行することにより、ソフトウェア的に実現される。なおこれらの一部または全部は、回路によってハードウェア的に実現されてもよい。
取得部10は、音声波形を生成するための音響特徴量を取得する。音響特徴量の詳細については後述する。取得部10は、例えば、予め録音された音声の音声波形から周知の音声分析技術を用いて音響特徴量を抽出してもよく、発語対象のテキストや楽譜に応じて予め生成された音響特徴量を取得してもよい。
生成部20は、ニューラルネットワーク(Neural Network)を用いて、周期波形信号と非周期波形信号と音響特徴量とから音声波形を生成する。周期波形信号とは、生成を行う音声波形の基本周波数に応じた周期波形信号である。周期波形信号と非周期波形信号は、発話スタイルや歌唱スタイル等を含んでいてもよい。例えば、ビブラートが付与された音声波形を生成する場合は、ビブラートが付与された状態の基本周波数に応じた周期波形信号でもよい。周期波形信号は、例えば、生成を行う音声波形の基本周波数と同じ周波数のサイン波形の信号や、生成を行う音声波形の基本周波数より1オクターブ高い周波数のコサイン波形の信号である。また、周期波形信号は、非正弦波である三角波、のこぎり波、短径波やパルス波の信号でもよい。生成を行う音声波形の基本周波数は、例えば、予め録音された音声の音声波形から周知の音声分析技術を用いて基本周波数を求めてもよく、発語対象のテキストや楽譜に予め定められた基本周波数を用いてもよい。非周期波形信号とは、ノイズを表す信号であり、例えば、白色雑音やガウス雑音である。
学習部30は、音響特徴量と周期波形信号と非周期波形信号と音声波形との関係を教師有り機械学習、もしくは、教師無し機械学習(例えば、非特許文献4参照)によって学習し、ニューラルネットワークで用いられる各種のパラメータが最適化される。学習部30は、学習結果を生成部20が用いるニューラルネットワークに反映させる。こうすることにより、生成部20は、学習部30の学習結果を反映して音声波形の生成を行うことができる。音声処理装置100は、学習部30を備えていなくてもよい。この場合、生成部20は、外部の機械学習を行う学習装置等によって得られた学習結果を反映して音声波形の生成を行うことができる。
図2は、音響特徴量における各種のパラメータの一例を示す図である。本実施形態において、音響特徴量は、音声の特徴量である。スペクトルパラメータとしては、メルケプストラムや線スペクトル対(Line Spectrum Pair(LSP))などがある。これらは、スペクトル情報と呼ばれることがある。音源情報としては、基本周波数は、一般に対数基本周波数として扱われており、その関連パラメータとしては、有声/無声の区別や、非周期性指標が考えられる。これらは音源情報と呼ばれることがある。なお、無声部分は対数基本周波数の値を持たないため、有声/無声の区別を音源情報に含める代わりに、無声部分に所定の定数を入れる等の方法によって有声/無声の区別を行ってもよい。なお、音源情報における基本周波数は、上述した周期波形信号に含まれる情報であるため、省略してもよい。また、有声/無声の区別に関する情報も、後述する周期補助信号に含まれる情報であるため、省略してもよい。また、スペクトル情報や音源情報は、発話スタイルや歌唱スタイル等を含んでいてもよい。例えば、スペクトル情報として、音の大きさのビブラートが付与された状態のスペクトル情報を用いることができる。
図3は、本実施形態における音声処理装置100を用いた音声波形生成処理を表すフローチャートである。まず、取得部10が、ステップS100で音響特徴量を取得する。次に、生成部20が、ステップS110において、ステップS100で取得した音響特徴量と予め定められた期間分の周期波形信号と非周期波形信号とを用いて、ニューラルネットワークによって音声波形を生成する。
図4は、生成部20によって用いられるニューラルネットワークについて説明するための説明図である。ニューラルネットワーク200は、複数のdilation層L1〜L4を備える。dilation層の数は任意に定める事ができる。なお「dilation層」のことを「拡張層」や「中間層」ともいう。
dilation層L1は、情報が入力される層である。以下、「入力層」ともいう。dilation層L1は、入力された信号に基づいて初期演算処理と情報畳み込みを行い、dilation層L2〜L4は、下層から伝達される情報に基づいて情報の畳み込みを行う。各層には、複数のノードが含まれる。
ニューラルネットワーク200による音声サンプルの生成について説明する。「音声サンプル」とは、音声波形をサンプリング周期毎にサンプリングした振幅情報である。周期波形信号と非周期波形信号のサンプルS1〜S8は、dilation層L1で初期演算処理が行われた後、各ノードN1〜N8に時系列順に入力される。dilation層L1の各ノードN1〜N8は、それらの情報に畳み込みを行った情報を上層であるdilation層L2に伝達する。図示の便宜上、図4に示すdilation層L1には、8個の周期波形信号および非周期波形信号のサンプルS1〜S8が入力されているが、入力されるサンプルの数は任意に定める事ができ、例えば3000個である。本実施形態において、入力層L1は2つの入力チャネルを有している。第1のチャネルには、周期波形信号のサンプルが入力され、第2のチャネルには、非周期波形信号のサンプルが入力される。
dilation層L2〜L4では、入力層L1から伝達された情報に対して種々の演算が各層において段階的に行われる。なお、dilation層L2〜L4にも、下層から伝達された情報に加えて、周期波形信号のサンプルや非周期波形信号のサンプルが入力されてもよい。dilation層L4において、最終的に演算されたデータと、各層の最右のノードのデータ、つまり時系列において最も先のデータが入力されるノードのデータとを足しあわせて演算処理を行うことで、音声サンプルMSが出力される。音声サンプルMSは、時系列において、入力されたサンプルS8の時点の音声サンプルとして予測された振幅情報である。出力される音声サンプルMSは、時系列において近いサンプルであるほど、強い影響を与えやすい構造となっている。具体的には、サンプルS8の方が、サンプルS1よりも、音声サンプルMSの予測に影響を与えやすい。生成部20は、予測した音声サンプルを並べることで音声波形を生成する。
図5は、dilation層L1におけるノードの概略構成を示す図である。以下では、dilation層L1のノードN8を例として説明する。dilation層L1は、初期演算処理器300を有しており、演算処理を行う。ノードは、複数の演算処理器301〜306を有しており、各演算処理器において、機械学習によって学習された各種のパラメータを用いた演算処理を行う。dilation層L1では、周期波形信号のサンプルと非周期波形信号のサンプルとが、初期演算処理器300に入力されて演算処理を行われた後、ノードN8の第1演算処理器301や第2演算処理器302によって演算処理が行われ、その各演算結果に補助情報として音響特徴量を第3演算処理器303や第4演算処理器304で演算処理を行ったものが加算される。第3演算処理器303や第4演算処理器304で演算処理を行った音響特徴量が加算された演算結果にそれぞれ双曲線関数やシグモイド関数等の活性化関数を用い、更に第5演算処理器305や第6演算処理器306で演算処理を行う。第5演算処理器305で演算処理を行った演算結果と、初期演算処理器300の演算結果とを足し合わせることで、上層へ伝達する情報が出力される。また、第6演算処理器306で演算処理を行った演算結果は、dilation層L4において第5演算処理器305で演算処理を行った演算結果にdilation層L4への入力を加算したものと、各層の第6演算処理器306で演算処理を行った演算結果とを足しあわせて更に演算処理が行われる。
図5に示した構成は、図4に示したdilation層L2〜L4の各ノードにも適用される。dilation層L2〜L4では初期演算処理器300を介さず、各ノードの第1演算処理器301および第2演算処理器302に、直接、下層の2つのノードから出力が入力される。初期演算処理器300では、2チャネルから多チャネル(例えば、256チャネル)、に入力された情報が変換される。この場合、dilation層L2〜L4の各ノードにも256チャネルが入力される。初期演算処理器300で演算された結果が多チャネル(例えば、256チャネル)化され、各チャネルの出力がdilation層L1の第1演算処理器301、第2演算処理器302、第5演算処理器305の演算結果との加算器に入力され、更に、dilation層L1の出力が上層の第1演算処理器301、第2演算処理器302、第5演算処理器305の演算結果との加算器に入力される。
以上で説明した本実施形態の音声処理装置100によれば、生成部20は、生成を行おうとする音声波形の基本周波数に応じた周期波形信号を、補助情報としてではなく、直接的にニューラルネットワークの入力層に入力して音声波形を生成するため、所望の基本周波数を有する音声波形を生成できる。また、ニューラルネットワーク自身が出力した音声サンプルをニューラルネットワークに入力して次の音声サンプルを予測する自己回帰構造のニューラルネットワークよりも高速に音声波形を生成できる。また、学習部30によって音響特徴量と周期波形信号と非周期波形信号と音声波形との関係を学習でき、生成部20に学習結果を反映できる。また、学習部30の学習範囲から大きく外れた基本周波数の音声波形であっても、生成部20は、生成を行おうとする音声波形の基本周波数に応じた周期波形信号を、ニューラルネットワークの入力層に入力して音声波形を生成するため、所望の基本周波数を有する音声波形を生成できる。
B.第2実施形態:
第2実施形態では、生成部20によって用いられるニューラルネットワークの構造が第1実施形態と異なる。第2実施形態の音声処理装置100の構成は、第1実施形態の音声処理装置100の構成と同様であるため、構成の説明は省略する。
図6は、第2実施形態におけるニューラルネットワークの説明図である。図6に示すニューラルネットワークは、図4に示したニューラルネットワークの構造が左右対称に備えられる事により構成されている。入力層L1には、第1実施形態と同様に、周期波形信号と非周期波形信号のサンプルがそれぞれ入力される。本実施形態のニューラルネットワークの入力層L1には、出力される音声サンプルMSの時系列における過去の周期波形信号および非周期波形信号のサンプルと未来の周期波形信号および非周期波形信号のサンプルが入力される。より具体的には、ノードN1〜N7までには、過去の周期波形信号および非周期波形信号のサンプルS1〜S7に初期演算処理を行った情報が入力され、ノードN8には現在の周期波形信号および非周期波形信号のサンプルS8に初期演算処理を行った情報が入力され、ノードN9〜N15には、未来の周期波形信号および非周期波形信号のサンプルS9〜S15に初期演算処理を行った情報が入力される。また、各ノードでは、第1実施形態と同様に、補助情報として音響特徴量が入力される。出力される音声サンプルMSは、時系列において近いサンプルであるほど、強い影響を与えやすい構造となっている。具体的には、音声サンプルMSの予測には、サンプルS8の方が、サンプルS1やサンプルS15よりも、強い影響を与えやすい。
以上で説明した本実施形態の音声処理装置100によれば、生成部20は、周期波形信号を、直接的にニューラルネットワークの入力層に入力して音声波形を生成するため、所望の基本周波数を有する音声波形を生成できる。また、生成部20は、ニューラルネットワークの入力層に、生成する音声サンプルの時系列における過去の周期波形信号のサンプルだけでなく、未来の周期波形信号のサンプルを入力するため、高品位な音声波形を生成できる。
図7は、実施例において生成した音声波形の一例を示す図である。上段に示す波形は、目標音声波形であり、音声処理によって生成しようとする波形である。中段に示す波形は、実施例において生成した音声波形である。下段に示す波形は、ニューラルネットワークに入力した周期波形信号であり、目標音声波形と同じ基本周波数のサイン波形である。図7に示すように、実施例において生成した音声波形は、同じ周期Tで振幅しており、目標音声波形と同じ基本周波数となった。
C.第3実施形態:
第3実施形態における生成部20は、ニューラルネットワークの入力層に、更に、生成しようとする音声波形に応じた周期の有無の程度を示す信号(以下、「周期補助信号」という)を入力して音声波形を生成する点が第1実施形態と異なる。第3実施形態の音声処理装置100の構成は、第1実施形態の音声処理装置100の構成と同様であるため、構成の説明は省略する。
本実施形態において、生成部20は、ニューラルネットワークの入力層L1に、周期波形信号と周期補助信号と非周期波形信号とを入力する。つまり、本実施形態において、生成部20が用いるニューラルネットワークの入力層の初期演算処理器300は、3つの入力チャネルを有している。例えば、第1のチャネルには、周期波形信号のサンプルが入力され、第2のチャネルには、周期補助信号のサンプルが入力され、第3のチャネルには、非周期波形信号のサンプルが入力される。なお、チャネルの順序は任意に定める事ができる。
周期補助信号は、周期波形が始まる境界位置と終わる境界位置に応じて定める事ができ、非周期波形の部分を0、周期波形の部分を1とした、0〜1の値で表現できる。例えば、周期波形が始まる境界位置における周期補助信号は、無声から有声に切り替わる境界の240サンプル前の位置から240サンプル後の位置までを0.0から1.0にサンプル単位で線形補間した信号であり、周期波形が終わる境界位置における周期補助信号は、有声から無声に切り替わる境界の240サンプル前の位置から240サンプル後の位置までを1.0から0.0にサンプル単位で線形補間した信号である。図8は、周期補助信号の一例を示す図である。また、周期補助信号は、音素やフレーム毎の値を線形補間したデータでもよい。
以上で説明した本実施形態の音声処理装置100によれば、生成部20は、周期波形信号を、直接的にニューラルネットワークの入力層に入力して音声波形を生成するため、所望の基本周波数を有する音声波形を生成できる。また、生成部20は、ニューラルネットワークの入力層に、更に、周期補助信号を入力するため、例えば、生成しようとする音声波形の無音部分や、無声子音の部分といった励振源に関する情報に応じて、高品位な音声波形を生成できる。
D.第4実施形態:
第4実施形態における生成部20は、位相が異なる複数の周期波形信号をニューラルネットワークの入力層に入力して音声波形を生成する点が第1実施形態と異なる。第4実施形態の音声処理装置100の構成は、第1実施形態の音声処理装置100の構成と同様であるため、構成の説明は省略する。
図9は、位相が異なる複数の周期波形信号の一例の図である。本実施形態において、生成部20は、ニューラルネットワークの入力層L1に、周期波形信号Wsと周期波形信号Wcと非周期波形信号とを入力する。つまり、本実施形態において、生成部20が用いるニューラルネットワークの入力層の初期演算処理器300は、3つの入力チャネルを有している。第1のチャネルには、周期波形信号Wsのサンプルが入力され、第2のチャネルには、周期波形信号Wcのサンプルが入力され、第3のチャネルには、非周期波形信号のサンプルが入力される。なお、チャネルの順序は任意に定める事ができる。
周期波形信号Wsは、生成を行う音声波形と同じ基本周波数を有するサイン波形であり、周期波形信号Wcは、生成を行う音声波形と同じ基本周波数を有するコサイン波形である。図9に示すように、周期波形信号Wsは、上昇時であるタイミングt1の場合の振幅の値と、下降時であるタイミングt2の場合の値とは、どちらも振幅A1であるが、タイミングt1における周期波形信号Wcは振幅A2であり、タイミングt2における周期波形信号Wcは振幅A2と異なる値の振幅A3である。従って、生成部20の用いるニューラルネットワークは、周期波形信号Wsが振幅A1の場合、周期波形信号Wcが振幅A2であれば上昇時であり、周期波形信号Wcが振幅A3であれば下降時であることを一意に決める事ができる。
以上で説明した本実施形態の音声処理装置100によれば、生成部20は、位相が異なる複数の周期波形信号をニューラルネットワークの入力層に入力するため、生成部20が用いるニューラルネットワークは、周期波形信号の値が、上昇時の値なのか下降時の値なのかを一意に決める事ができる。そのため、生成部20は、より効果的に、所望の基本周波数を有する音声波形を生成できる。
E.第5実施形態
第5実施形態では、生成部20によって用いられるニューラルネットワークの構造が第1実施形態と異なる。第5実施形態の音声処理装置100の構成は、第1実施形態の音声処理装置100の構成と同様であるため、構成の説明は省略する。
本実施形態において、生成部20におけるニューラルネットワークは、第1実施形態と異なり、2チャネルの出力を有する。生成部20は、音声サンプルを、例えば、ニューラルネットワークの一方のチャネルが出力した情報にニューラルネットワークに入力した非周期波形信号のサンプルを掛け合わせたものと、ニューラルネットワークの他方のチャネルが出力した情報とを足し合わせることで求めることができる。
以上で説明した本実施形態の音声処理装置100によれば、生成部20は、周期波形信号を、直接的にニューラルネットワークの入力層に入力して音声波形を生成するため、所望の基本周波数を有する音声波形を生成できる。また、生成部20は、ニューラルネットワークの出力した情報に非周期波形信号のサンプルを掛け合わせて音声波形を生成するため、非周期波形信号をより再現した高品位な音声波形を生成できる。
F.第6実施形態
第6実施形態では、生成部20によって用いられるニューラルネットワークの構造が第1実施形態と異なる。第6実施形態の音声処理装置100の構成は、第1実施形態の音声処理装置100の構成と同様であるため、構成の説明は省略する。
本実施形態において、生成部20は、図4や図6に示したニューラルネットワークを、縦に複数重ねた構造のニューラルネットワークを用いて音声サンプルを出力する。例えば、ニューラルネットワークを2つ重ねた場合、生成部20は、下段のニューラルネットワークで出力された情報を、上段のニューラルネットワークの入力層L1に入力して、音声サンプルを出力する。つまり、上段のニューラルネットワークの入力層L1のノードの数分、下段のニューラルネットワークの出力を用意する。
以上で説明した本実施形態の音声処理装置100によれば、生成部20は、周期波形信号を、直接的にニューラルネットワークの入力層に入力して音声波形を生成するため、所望の基本周波数を有する音声波形を生成できる。また、生成部20は、ニューラルネットワークを複数重ねた構造のニューラルネットワークを用いて音声サンプルを求めて音声波形を生成するため、1段のみの構造であるニューラルネットワークに比べて、同数のサンプルを入力して音声波形を生成する場合に、各段のニューラルネットワークを小さくすることができる。そのため、全体としてパラメータを増加させることなく、多くのサンプルを入力して音声波形を生成できるため、より高品位な音声波形を生成できる。なお、下段のニューラルネットワークの出力に対して、所定の演算処理を行った結果を上段のニューラルネットの入力としてもよい。例えば、下段のニューラルネットワークは2種類の出力を有する。上段のニューラルネットワークには、下段のニューラルネットワークの出力の一方に非周期波形信号のサンプルを掛け合わせたものと、下段のニューラルネットワークの出力の他方とを足し合わせた結果を入力とする。この場合、非周期波形信号が上段まで伝達されやすくなる。
G.その他の実施形態:
(G1)上記実施形態において、取得部10が取得する音響特徴量は、歌唱音声の特徴量である。この代わりに、取得部10は、音響特徴量として話し言葉の特徴量を取得してもよい。この形態によれば、歌声ではない、テキスト合成音声である音声波形を生成できる。また、声のトーンやアクセント、イントネーション、中国語における四声等をより正確に再現した音声波形を生成できる。また、取得部10は、音響特徴量として声質特徴量を取得してもよい。声質特徴量は、他人の声から抽出した音響特徴量である。この形態によれば、ある話者の音響特徴量から、他の話者の音響特徴量へと変換する声質変換を行った音声波形を生成できる。
(G2)上記実施形態において、取得部10は、生成したい音声波形の元となる楽譜特徴量や言語特徴量を周知の変換技術を用いて音声特徴量に変換することで、音響特徴量を取得してもよい。また、取得部10は、楽譜特徴量や言語特徴量をニューラルネットワークを用いて変換する場合における、ニューラルネットワークの任意の層における情報を取得し、取得した情報を変換することで、音響特徴量を取得してもよい。
(G3)上記実施形態において、取得部10が取得する音響特徴量は、音源情報とスペクトル情報との他に、歌唱表現情報が含まれてもよい。歌唱表現情報には、例えば、音高のビブラートの周期および振幅とその有無、音の大きさのビブラートの周期および振幅とその有無等が、含まれている。なお、音高のビブラートの有無の区別を歌唱表現情報に含める代わりに、音高のビブラート無い部分に所定の定数を入れる等の方法によって音高のビブラートの有無の区別を行ってもよい。同様に、音の大きさのビブラートの有無の区別を歌唱表現情報に含める代わりに、音の大きさのビブラート無い部分に所定の定数を入れる等の方法によって音の大きさのビブラートの有無の区別を行ってもよい。
(G4)上記実施形態において、生成部20におけるニューラルネットワークの入力層L1の初期演算処理器300は、2つの入力チャネルを有している。この代わりに、初期演算処理器300は、1つの入力チャネルのみを有していてもよい。この場合、例えば、生成部20は、(1)周期波形信号のサンプルを入力するニューラルネットワークと、(2)非周期波形信号のサンプルを入力するニューラルネットワークと、を用いて音声サンプルを、求めることができる。より具体的には、生成部20は、音声サンプルを、(1)が出力した情報と、(2)に入力した非周期波形信号のサンプルを(2)が出力した情報に掛け合わせたものとを足し合わせることで求めることができる。
(G5)上記実施形態において、生成部20におけるニューラルネットワークの入力層L1の初期演算処理器300は、2つの入力チャネルを有している。この代わりに、初期演算処理器300は、3つ以上の入力チャネルを有していてもよい。この場合、例えば、4つの入力チャネルを有することができ、第1のチャネルには、周期波形信号のサンプルが入力され、第2のチャネルには、非周期波形信号のサンプルが入力され、第3のチャネルには、時系列において第1のチャネルに入力されたサンプルの一つ前の時点の周期波形信号のサンプルが入力され、第4のチャネルには、時系列において第2のチャネルに入力されたサンプルの一つ前の時点の非周期波形信号のサンプルが入力される。
(G6)上記第3実施形態において、生成部20は、更に、位相が異なる周期波形信号をニューラルネットワークの入力層に入力して音声波形を生成してもよい。つまり、第3実施形態と第4実施形態とを組み合わせてもよい。より具体的には、生成部20は、例えば、生成したい音声波形と同じ基本周波数であるサイン波形からなる周期波形信号Wsと、生成したい音声波形と同じ基本周波数であるコサイン波形からなる周期波形信号Wcと、周期補助信号と、非周期波形信号とをニューラルネットワークの入力層に入力できる。
(G7)上記第3実施形態において、周期補助信号は、例えば、生成しようとする音声波形の言語情報に応じて定めてもよい。「言語情報」とは、例えば、母音や子音の情報である。言語情報は音響特徴量に含まれていてもよい。より具体的には、周期補助信号は、無音部分や無声子音の部分が0.0であり、母音部分が0.9や1.0であり、/b/、/d/、/g/等の周期と非周期が混在するような子音部分が0.3〜0.7の値であるデータを用いることができる。
(G8)上記第6実施形態において、生成部20におけるニューラルネットワークの出力は、2つのチャネルでもよい。つまり、第5実施形態と第6実施形態とを組み合わせてもよい。具体的には、ニューラルネットワークを3つ重ねた場合、1つめのニューラルネットワークには周期波形信号のサンプルと非周期波形信号のサンプルとが入力され、第1データと第2データとが出力される。2つめのニューラルネットワークは、第1データと、非周期波形信号のサンプルを第2データに掛け合わせた情報と、が入力され、第3データと第4データとが出力される。3つめのニューラルネットワークは、第3データと、非周期波形信号のサンプルを第4データに掛け合わせた情報と、が入力され、第5データと第6データとが出力される。生成部20は、第5データと、非周期波形信号のサンプルを第6データに掛け合わせた情報とを足し合わせることで、音声サンプルを求め、音声波形を生成できる。
本発明は、上述の実施形態に限られるものではなく、その趣旨を逸脱しない範囲において種々の構成で実現することができる。例えば発明の概要の欄に記載した各形態中の技術的特徴に対応する実施形態中の技術的特徴は、上述した課題を解決するために、あるいは上述の効果の一部又は全部を達成するために、適宜、差し替えや組み合わせを行うことが可能である。また、その技術的特徴が本明細書中に必須なものとして説明されていなければ、適宜削除することが可能である。
10…取得部、20…生成部、30…学習部、100…音声処理装置、200…ニューラルネットワーク、300…初期演算処理器、301…第1演算処理器、302…第2演算処理器、303…第3演算処理器、304…第4演算処理器、305…第5演算処理器、306…第6演算処理器、L1〜L4…dilation層、MS…音声サンプル、S1〜S15…サンプル、N1〜N15…ノード

Claims (6)

  1. 音声処理装置であって、
    音声波形を生成するための音響特徴量を取得する取得部と、
    前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成部と、を備え
    前記生成部は、位相が異なる複数の前記周期波形信号を前記ニューラルネットワークの入力層に入力する、音声処理装置。
  2. 声処理装置であって、
    音声波形を生成するための音響特徴量を取得する取得部と、
    前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成部と、を備え、
    前記生成部は、前記ニューラルネットワークの入力層に、更に、生成しようとする音声波形に応じた周期の有無の程度を示す信号を入力する、音声処理装置。
  3. 声処理装置であって、
    音声波形を生成するための音響特徴量を取得する取得部と、
    前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成部と、
    前記音響特徴量と前記周期波形信号と前記非周期波形信号と前記音声波形との関係を機械学習によって学習して前記ニューラルネットワークに反映させる学習部と、を備える、音声処理装置。
  4. 音声処理方法であって、
    音声波形を生成するための音響特徴量を取得する取得工程と、
    前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成工程と、を備え、
    前記生成工程では、位相が異なる複数の前記周期波形信号を前記ニューラルネットワークの入力層に入力する、音声処理方法。
  5. 音声処理方法であって、
    音声波形を生成するための音響特徴量を取得する取得工程と、
    前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成工程と、を備え
    前記生成工程では、前記ニューラルネットワークの入力層に、更に、生成しようとする音声波形に応じた周期の有無の程度を示す信号を入力する、音声処理方法。
  6. 音声処理方法であって、
    音声波形を生成するための音響特徴量を取得する取得工程と、
    前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成工程と、
    前記音響特徴量と前記周期波形信号と前記非周期波形信号と前記音声波形との関係を機械学習によって学習して前記ニューラルネットワークに反映させる学習工程と、を備える、音声処理方法。
JP2019026251A 2019-02-18 2019-02-18 音声処理装置、および音声処理方法 Active JP6587308B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019026251A JP6587308B1 (ja) 2019-02-18 2019-02-18 音声処理装置、および音声処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019026251A JP6587308B1 (ja) 2019-02-18 2019-02-18 音声処理装置、および音声処理方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019161825A Division JP2020134920A (ja) 2019-09-05 2019-09-05 音声処理装置、および音声処理方法

Publications (2)

Publication Number Publication Date
JP6587308B1 true JP6587308B1 (ja) 2019-10-09
JP2020134642A JP2020134642A (ja) 2020-08-31

Family

ID=68159648

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019026251A Active JP6587308B1 (ja) 2019-02-18 2019-02-18 音声処理装置、および音声処理方法

Country Status (1)

Country Link
JP (1) JP6587308B1 (ja)

Also Published As

Publication number Publication date
JP2020134642A (ja) 2020-08-31

Similar Documents

Publication Publication Date Title
Lu et al. Xiaoicesing: A high-quality and integrated singing voice synthesis system
KR102581346B1 (ko) 다국어 음성 합성 및 언어간 음성 복제
US10789290B2 (en) Audio data processing method and apparatus, and computer storage medium
EP3614376B1 (en) Speech synthesis method, server and storage medium
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP6733644B2 (ja) 音声合成方法、音声合成システムおよびプログラム
Choi et al. Korean singing voice synthesis based on auto-regressive boundary equilibrium gan
GB2603776A (en) Methods and systems for modifying speech generated by a text-to-speech synthesiser
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP6578544B1 (ja) 音声処理装置、および音声処理方法
JP6587308B1 (ja) 音声処理装置、および音声処理方法
JP2020134920A (ja) 音声処理装置、および音声処理方法
JP2020204755A (ja) 音声処理装置、および音声処理方法
CN116168678A (zh) 语音合成方法、装置、计算机设备和存储介质
JP7339151B2 (ja) 音声合成装置、音声合成プログラム及び音声合成方法
JP2008015424A (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
Saeed et al. A novel multi-speakers Urdu singing voices synthesizer using Wasserstein Generative Adversarial Network
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
CN115273776B (zh) 端到端歌声合成方法、计算机设备及存储介质
WO2023182291A1 (ja) 音声合成装置、音声合成方法及びプログラム
JP6552146B1 (ja) 音声処理装置、および音声処理方法
JP7280605B2 (ja) 音声処理装置、および音声処理方法
JP7088403B2 (ja) 音信号生成方法、生成モデルの訓練方法、音信号生成システムおよびプログラム
JP2018004997A (ja) 音声合成装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190404

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190404

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190827

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190905

R150 Certificate of patent or registration of utility model

Ref document number: 6587308

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350