JP2020204651A - 音声処理装置、および音声処理方法 - Google Patents
音声処理装置、および音声処理方法 Download PDFInfo
- Publication number
- JP2020204651A JP2020204651A JP2019110997A JP2019110997A JP2020204651A JP 2020204651 A JP2020204651 A JP 2020204651A JP 2019110997 A JP2019110997 A JP 2019110997A JP 2019110997 A JP2019110997 A JP 2019110997A JP 2020204651 A JP2020204651 A JP 2020204651A
- Authority
- JP
- Japan
- Prior art keywords
- information
- waveform
- voice
- neural network
- periodic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Electrophonic Musical Instruments (AREA)
Abstract
Description
(2)上記形態の音声処理において、前記第1情報は、予め定められた周波数帯域毎の非周期成分の強さを示す情報であり、前記変換処理は、前記周波数帯域毎の非周期波形信号に、それぞれ対応する前記第1情報を掛け合わせた情報と、前記第2情報とを足し合わせる処理でもよい。この形態の音声処理装置によれば、予め定められた周波数帯域毎の非周期波形信号に、対応する周波数帯域毎の非周期成分の強さを示す第1情報を掛け合わせた情報と、周期成分を示す第2情報とを足し合わせて音声波形を生成するため、高品位で、所望の音高の音声波形を生成できる。
(3)上記形態の音声処理装置において、前記生成部は、前記ニューラルネットワークに、更に、生成しようとする音声波形に応じた周期の有無の程度を示す信号を入力してもよい。この形態の音声処理装置によれば、例えば、生成しようとする音声波形の無音部分や、無声子音の部分といった励振源に関する情報に応じて、高品位な音声波形を生成できる。
(4)上記形態の音声処理装置において、前記生成部は、位相が異なる複数の前記周期波形信号を前記ニューラルネットワークに入力してもよい。この形態の音声処理装置によれば、より効果的に、所望の基本周波数を有する音声波形を生成できる。
(5)上記形態の音声処理装置において、更に、前記音響特徴量と前記周期波形信号と前記第1情報と前記第2情報との関係を機械学習によって学習して前記ニューラルネットワークに反映させる学習部を備えてもよい。この形態の音声処理装置によれば、音響特徴量と音声波形との関係を学習でき、生成部に学習結果を反映できる。
図1は、本発明の一実施形態における音声処理装置100の概要を示す説明図である。音声処理装置100は、取得部10と、生成部20と、学習部30と、を備える。取得部10と、生成部20と、学習部30とは、1以上のCPUやGPUがメモリに記憶されたプログラムを実行することにより、ソフトウェア的に実現される。なおこれらの一部または全部は、回路によってハードウェア的に実現されてもよい。
図8は、生成した音声波形に対する主観評価実験の実験結果である平均オピニオン評点(Mean Opinion Score(MOS))を示した図である。本実験において、4手法の合成音声の品質を、「1:非常に悪い、2:悪い、3:普通、4:良い、5:非常に良い」の5段階の主観評価実験によって評価した。図8には4手法のうちの2手法のスコアを示す。被験者は16人であり、各被験者はテストデータである10曲から各手法につき10フレーズを評価した。評価対象である合成音声の音声波形は、2手法とも同じ音響特徴量を用いて生成した。
第2実施形態における生成部20は、ニューラルネットワークの入力層に、更に、生成しようとする音声波形に応じた周期の有無の程度を示す信号(以下、「周期補助信号」という)を入力して音声波形を生成する点が第1実施形態と異なる。第2実施形態の音声処理装置100の構成は、第1実施形態の音声処理装置100の構成と同様であるため、構成の説明は省略する。
第3実施形態における生成部20は、位相が異なる複数の周期波形信号をニューラルネットワークの入力層に入力して音声波形を生成する点が第1実施形態と異なる。第3実施形態の音声処理装置100の構成は、第1実施形態の音声処理装置100の構成と同様であるため、構成の説明は省略する。
第4実施形態では、生成部20によって用いられるニューラルネットワークの構造が第1実施形態と異なる。第4実施形態の音声処理装置100の構成は、第1実施形態の音声処理装置100の構成と同様であるため、構成の説明は省略する。
(E1)上記実施形態において、取得部10が取得する音響特徴量は、歌唱音声の特徴量である。この代わりに、取得部10は、音響特徴量として話し言葉の特徴量を取得してもよい。この形態によれば、歌声ではない、テキスト合成音声である音声波形を生成できる。また、声のトーンやアクセント、イントネーション、中国語における四声等をより正確に再現した音声波形を生成できる。また、取得部10は、音響特徴量として声質を表す特徴量を取得してもよい。声質を表す特徴量は、他人の声から抽出した音響特徴量である。この形態によれば、ある話者の音響特徴量から、他の話者の音響特徴量へと変換する声質変換を行った音声波形を生成できる。声質変換を行う場合、音響特徴量は、変換する音声の音響特徴量でもよく、変換したい音声の音響特徴量でもよい。また、これらの音響特徴量の差分を音響特徴量としてもよく、両方を用いてもよい。ニューラルネットワークには、周期波形信号として、変換する音声や変換する音声の基本周波数を有する周期信号、変換する音声の残差信号である周期信号、変換したい音声の基本周波数を有する周期信号を入力してもよい。また、取得部10は音響特徴量として、楽器音の特徴量を取得して、ニューラルネットワークに補助情報として入力してもよい。この形態によれば、歌声ではない、楽器音である音声波形を生成できる。打楽器音の生成を行う場合、取得部10は打楽器音の特徴量を取得し、周期波形信号として、打楽器を発音させたいタイミングで立ち上がるパルス信号を用いる。より具体的には、エイトビートのハイハットの音声波形を生成したい場合、8分音符毎に1となり、他は0であるパルス信号を用いる。
Claims (6)
- 音声処理装置であって、
音声波形を生成するための音響特徴量を取得する取得部と、
ニューラルネットワークに前記音声波形の基本周波数に応じた周期波形信号を入力すると共に、前記音響特徴量を入力して、前記ニューラルネットワークが出力した情報を用いて変換処理を行うことで前記音声波形を生成する生成部を備え、
前記ニューラルネットワークは、非周期成分を生成するための第1情報と、周期成分を示す第2情報と、を出力し、
前記変換処理は、前記第1情報と非周期波形信号とを用いて演算処理を行った情報と、前記第2情報とを足し合わせる処理である、音声処理装置。 - 請求項1に記載の音声処理装置であって、
前記第1情報は、予め定められた周波数帯域毎の非周期成分の強さを示す情報であり、
前記変換処理は、前記周波数帯域毎の非周期波形信号に、それぞれ対応する前記第1情報を掛け合わせた情報と、前記第2情報とを足し合わせる処理である、音声処理装置。 - 請求項1または請求項2に記載の音声処理装置であって、
前記生成部は、前記ニューラルネットワークに、更に、生成しようとする音声波形に応じた周期の有無の程度を示す信号を入力する、音声処理装置。 - 請求項1から請求項3までのいずれか一項に記載の音声処理装置であって、
前記生成部は、位相が異なる複数の前記周期波形信号を前記ニューラルネットワークに入力する、音声処理装置。 - 請求項1から請求項4までのいずれか一項に記載の音声処理装置であって、更に、
前記音響特徴量と前記周期波形信号と前記第1情報と前記第2情報との関係を機械学習によって学習して前記ニューラルネットワークに反映させる学習部を備える、音声処理装置。 - 音声処理方法であって、
音声波形を生成するための音響特徴量を取得する取得工程と、
ニューラルネットワークに前記音声波形の基本周波数に応じた周期波形信号を入力すると共に、前記音響特徴量を入力して、前記ニューラルネットワークが出力した情報を用いて変換処理を行うことで前記音声波形を生成する生成工程を備え、
前記ニューラルネットワークは、非周期成分を生成するための第1情報と、周期成分を示す第2情報と、を出力し、
前記変換処理は、前記第1情報と非周期波形信号とを用いて演算処理を行った情報と、前記第2情報とを足し合わせる処理である、音声処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019110997A JP6578544B1 (ja) | 2019-06-14 | 2019-06-14 | 音声処理装置、および音声処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019110997A JP6578544B1 (ja) | 2019-06-14 | 2019-06-14 | 音声処理装置、および音声処理方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019141982A Division JP2020204755A (ja) | 2019-08-01 | 2019-08-01 | 音声処理装置、および音声処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6578544B1 JP6578544B1 (ja) | 2019-09-25 |
JP2020204651A true JP2020204651A (ja) | 2020-12-24 |
Family
ID=68053635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019110997A Active JP6578544B1 (ja) | 2019-06-14 | 2019-06-14 | 音声処理装置、および音声処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6578544B1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111312208A (zh) * | 2020-03-09 | 2020-06-19 | 广州深声科技有限公司 | 一种说话人不相干的神经网络声码器系统 |
-
2019
- 2019-06-14 JP JP2019110997A patent/JP6578544B1/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP6578544B1 (ja) | 2019-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lu et al. | Xiaoicesing: A high-quality and integrated singing voice synthesis system | |
CN112331222B (zh) | 一种转换歌曲音色的方法、系统、设备及存储介质 | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
JP6733644B2 (ja) | 音声合成方法、音声合成システムおよびプログラム | |
CN107924686A (zh) | 语音处理装置、语音处理方法以及语音处理程序 | |
US11842720B2 (en) | Audio processing method and audio processing system | |
KR20200088263A (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
KR102168529B1 (ko) | 인공신경망을 이용한 가창음성 합성 방법 및 장치 | |
Kim | Singing voice analysis/synthesis | |
JP6578544B1 (ja) | 音声処理装置、および音声処理方法 | |
Wada et al. | Sequential generation of singing f0 contours from musical note sequences based on wavenet | |
JP2020204755A (ja) | 音声処理装置、および音声処理方法 | |
JP2020134920A (ja) | 音声処理装置、および音声処理方法 | |
Bous et al. | Analysing deep learning-spectral envelope prediction methods for singing synthesis | |
JP6587308B1 (ja) | 音声処理装置、および音声処理方法 | |
JP7357518B2 (ja) | 音声合成装置及びプログラム | |
Khadka et al. | Nepali Text-to-Speech Synthesis using Tacotron2 for Melspectrogram Generation | |
Oh et al. | Effective data augmentation methods for neural text-to-speech systems | |
Wang et al. | Beijing opera synthesis based on straight algorithm and deep learning | |
Saeed et al. | A novel multi-speakers Urdu singing voices synthesizer using Wasserstein Generative Adversarial Network | |
JP6552146B1 (ja) | 音声処理装置、および音声処理方法 | |
JP7280605B2 (ja) | 音声処理装置、および音声処理方法 | |
CN113255313B (zh) | 音乐生成方法、装置、电子设备和存储介质 | |
US20240347037A1 (en) | Method and apparatus for synthesizing unified voice wave based on self-supervised learning | |
WO2023182291A1 (ja) | 音声合成装置、音声合成方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190619 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190619 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190626 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190723 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190801 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6578544 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |