JP6587308B1 - 音声処理装置、および音声処理方法 - Google Patents
音声処理装置、および音声処理方法 Download PDFInfo
- Publication number
- JP6587308B1 JP6587308B1 JP2019026251A JP2019026251A JP6587308B1 JP 6587308 B1 JP6587308 B1 JP 6587308B1 JP 2019026251 A JP2019026251 A JP 2019026251A JP 2019026251 A JP2019026251 A JP 2019026251A JP 6587308 B1 JP6587308 B1 JP 6587308B1
- Authority
- JP
- Japan
- Prior art keywords
- waveform
- neural network
- speech
- input
- speech waveform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
Abstract
Description
本発明の第2の形態によれば、音声処理装置が提供される。この音声処理装置は、音声波形を生成するための音響特徴量を取得する取得部と、前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成部と、を備え、前記生成部は、前記ニューラルネットワークの入力層に、更に、生成しようとする音声波形に応じた周期の有無の程度を示す信号を入力する。
本発明の第3の形態によれば、音声処理装置が提供される。この音声処理装置は、音声波形を生成するための音響特徴量を取得する取得部と、前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成部と、前記音響特徴量と前記周期波形信号と前記非周期波形信号と前記音声波形との関係を機械学習によって学習して前記ニューラルネットワークに反映させる学習部と、を備える。
(2)上記形態の音声処理装置において、前記生成部は、前記ニューラルネットワークの入力層に、更に、生成しようとする音声波形に応じた周期の有無の程度を示す信号を入力してもよい。この形態の音声処理装置によれば、例えば、生成しようとする音声波形の無音部分や、無声子音の部分といった励振源に関する情報に応じて、高品位な音声波形を生成できる。
(3)前記生成部は、位相が異なる複数の前記周期波形信号を前記ニューラルネットワークの入力層に入力してもよい。この形態の音声処理装置によれば、より効果的に、所望の基本周波数を有する音声波形を生成できる。
(4)上記形態の音声処理装置において、更に、前記音響特徴量と前記周期波形信号と前記非周期波形信号と前記音声波形との関係を機械学習によって学習して前記ニューラルネットワークに反映させる学習部を備えてもよい。この形態の音声処理装置によれば、音響特徴量と音声波形との関係を学習でき、生成部に学習結果を反映できる。
図1は、本発明の一実施形態における音声処理装置100の概要を示す説明図である。音声処理装置100は、取得部10と、生成部20と、学習部30と、を備える。取得部10と、生成部20と、学習部30とは、1以上のCPUやGPUがメモリに記憶されたプログラムを実行することにより、ソフトウェア的に実現される。なおこれらの一部または全部は、回路によってハードウェア的に実現されてもよい。
第2実施形態では、生成部20によって用いられるニューラルネットワークの構造が第1実施形態と異なる。第2実施形態の音声処理装置100の構成は、第1実施形態の音声処理装置100の構成と同様であるため、構成の説明は省略する。
第3実施形態における生成部20は、ニューラルネットワークの入力層に、更に、生成しようとする音声波形に応じた周期の有無の程度を示す信号(以下、「周期補助信号」という)を入力して音声波形を生成する点が第1実施形態と異なる。第3実施形態の音声処理装置100の構成は、第1実施形態の音声処理装置100の構成と同様であるため、構成の説明は省略する。
第4実施形態における生成部20は、位相が異なる複数の周期波形信号をニューラルネットワークの入力層に入力して音声波形を生成する点が第1実施形態と異なる。第4実施形態の音声処理装置100の構成は、第1実施形態の音声処理装置100の構成と同様であるため、構成の説明は省略する。
第5実施形態では、生成部20によって用いられるニューラルネットワークの構造が第1実施形態と異なる。第5実施形態の音声処理装置100の構成は、第1実施形態の音声処理装置100の構成と同様であるため、構成の説明は省略する。
第6実施形態では、生成部20によって用いられるニューラルネットワークの構造が第1実施形態と異なる。第6実施形態の音声処理装置100の構成は、第1実施形態の音声処理装置100の構成と同様であるため、構成の説明は省略する。
(G1)上記実施形態において、取得部10が取得する音響特徴量は、歌唱音声の特徴量である。この代わりに、取得部10は、音響特徴量として話し言葉の特徴量を取得してもよい。この形態によれば、歌声ではない、テキスト合成音声である音声波形を生成できる。また、声のトーンやアクセント、イントネーション、中国語における四声等をより正確に再現した音声波形を生成できる。また、取得部10は、音響特徴量として声質特徴量を取得してもよい。声質特徴量は、他人の声から抽出した音響特徴量である。この形態によれば、ある話者の音響特徴量から、他の話者の音響特徴量へと変換する声質変換を行った音声波形を生成できる。
Claims (6)
- 音声処理装置であって、
音声波形を生成するための音響特徴量を取得する取得部と、
前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成部と、を備え、
前記生成部は、位相が異なる複数の前記周期波形信号を前記ニューラルネットワークの入力層に入力する、音声処理装置。 - 音声処理装置であって、
音声波形を生成するための音響特徴量を取得する取得部と、
前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成部と、を備え、
前記生成部は、前記ニューラルネットワークの入力層に、更に、生成しようとする音声波形に応じた周期の有無の程度を示す信号を入力する、音声処理装置。 - 音声処理装置であって、
音声波形を生成するための音響特徴量を取得する取得部と、
前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成部と、
前記音響特徴量と前記周期波形信号と前記非周期波形信号と前記音声波形との関係を機械学習によって学習して前記ニューラルネットワークに反映させる学習部と、を備える、音声処理装置。 - 音声処理方法であって、
音声波形を生成するための音響特徴量を取得する取得工程と、
前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成工程と、を備え、
前記生成工程では、位相が異なる複数の前記周期波形信号を前記ニューラルネットワークの入力層に入力する、音声処理方法。 - 音声処理方法であって、
音声波形を生成するための音響特徴量を取得する取得工程と、
前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成工程と、を備え、
前記生成工程では、前記ニューラルネットワークの入力層に、更に、生成しようとする音声波形に応じた周期の有無の程度を示す信号を入力する、音声処理方法。 - 音声処理方法であって、
音声波形を生成するための音響特徴量を取得する取得工程と、
前記音声波形の基本周波数に応じた周期波形信号と、ノイズを表す非周期波形信号とを、予め定められた期間分、ニューラルネットワークの入力層に入力すると共に、前記音響特徴量を補助情報として前記ニューラルネットワークに入力することにより、前記音声波形の各サンプリング周期における振幅を予測し、前記音声波形を生成する生成工程と、
前記音響特徴量と前記周期波形信号と前記非周期波形信号と前記音声波形との関係を機械学習によって学習して前記ニューラルネットワークに反映させる学習工程と、を備える、音声処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019026251A JP6587308B1 (ja) | 2019-02-18 | 2019-02-18 | 音声処理装置、および音声処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019026251A JP6587308B1 (ja) | 2019-02-18 | 2019-02-18 | 音声処理装置、および音声処理方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019161825A Division JP2020134920A (ja) | 2019-09-05 | 2019-09-05 | 音声処理装置、および音声処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6587308B1 true JP6587308B1 (ja) | 2019-10-09 |
JP2020134642A JP2020134642A (ja) | 2020-08-31 |
Family
ID=68159648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019026251A Active JP6587308B1 (ja) | 2019-02-18 | 2019-02-18 | 音声処理装置、および音声処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6587308B1 (ja) |
-
2019
- 2019-02-18 JP JP2019026251A patent/JP6587308B1/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2020134642A (ja) | 2020-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lu et al. | Xiaoicesing: A high-quality and integrated singing voice synthesis system | |
KR102581346B1 (ko) | 다국어 음성 합성 및 언어간 음성 복제 | |
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
EP3614376B1 (en) | Speech synthesis method, server and storage medium | |
JP5665780B2 (ja) | 音声合成装置、方法およびプログラム | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
JP6733644B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
Choi et al. | Korean singing voice synthesis based on auto-regressive boundary equilibrium gan | |
GB2603776A (en) | Methods and systems for modifying speech generated by a text-to-speech synthesiser | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP6578544B1 (ja) | 音声処理装置、および音声処理方法 | |
JP6587308B1 (ja) | 音声処理装置、および音声処理方法 | |
JP2020134920A (ja) | 音声処理装置、および音声処理方法 | |
JP2020204755A (ja) | 音声処理装置、および音声処理方法 | |
CN116168678A (zh) | 语音合成方法、装置、计算机设备和存储介质 | |
JP7339151B2 (ja) | 音声合成装置、音声合成プログラム及び音声合成方法 | |
JP2008015424A (ja) | 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体 | |
Saeed et al. | A novel multi-speakers Urdu singing voices synthesizer using Wasserstein Generative Adversarial Network | |
Takaki et al. | Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012 | |
CN115273776B (zh) | 端到端歌声合成方法、计算机设备及存储介质 | |
WO2023182291A1 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP6552146B1 (ja) | 音声処理装置、および音声処理方法 | |
JP7280605B2 (ja) | 音声処理装置、および音声処理方法 | |
JP7088403B2 (ja) | 音信号生成方法、生成モデルの訓練方法、音信号生成システムおよびプログラム | |
JP2018004997A (ja) | 音声合成装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190404 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190404 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190530 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190709 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190808 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190827 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190905 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6587308 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |