JP7280605B2 - 音声処理装置、および音声処理方法 - Google Patents
音声処理装置、および音声処理方法 Download PDFInfo
- Publication number
- JP7280605B2 JP7280605B2 JP2019122680A JP2019122680A JP7280605B2 JP 7280605 B2 JP7280605 B2 JP 7280605B2 JP 2019122680 A JP2019122680 A JP 2019122680A JP 2019122680 A JP2019122680 A JP 2019122680A JP 7280605 B2 JP7280605 B2 JP 7280605B2
- Authority
- JP
- Japan
- Prior art keywords
- feature amount
- information
- speech
- processing device
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Auxiliary Devices For Music (AREA)
- Telephonic Communication Services (AREA)
Description
(1)本発明の第1の形態によれば、音声処理装置は、音声に関する多次元の第1特徴量であって、音高情報とMIDIの音高番号と音素情報と品詞の情報とアクセントの情報とのうちいずれか1つ以上を含む第1特徴量を取得する取得部と、予め定められた第1期間毎に前記第1特徴量を多次元の第2特徴量に変換する第1変換部と、前記第2特徴量を、時系列的に前記第2特徴量を処理することができるニューラルネットワークを用いて、前記第1期間よりも長い第2期間毎に音声波形を生成するための音響特徴量に変換する第2変換部と、を備える。前記第2変換部は、前記第2特徴量に加えて前記第1特徴量に含まれる前記音高情報と前記MIDIの音高番号と前記音素情報と前記品詞の情報と前記アクセントの情報とのうちいずれか1つ以上を含む特定情報を前記ニューラルネットワークに入力して、前記音響特徴量への変換を行う。
(2)本発明の第2の形態によれば、音声処理装置は、音声に関する多次元の第1特徴量を取得する取得部と、予め定められた第1期間毎に前記第1特徴量を多次元の第2特徴量に変換する第1変換部と、前記第2特徴量を、時系列的に前記第2特徴量を処理することができるニューラルネットワークを用いて、前記第1期間よりも長い第2期間毎に音声波形を生成するための音響特徴量に変換する第2変換部と、前記第1特徴量と前記音響特徴量との関係を教師有り機械学習によって学習して前記ニューラルネットワークに反映させる学習部と、を備える。前記ニューラルネットワークは、情報が入力される入力層と、前記入力層から伝達される情報に基づいて特徴量の算出を行う複数の中間層と、前記中間層から伝達される情報に基づいて結果を出力する出力層と、を備え、前記第2変換部は、前記第1特徴量の少なくとも一部および/または前記第2特徴量の少なくとも一部を前記複数の中間層のうち少なくとも1つ以上の中間層に入力して、前記ニューラルネットワークに前記音響特徴量への変換を行わせる。また、本発明は、以下の形態としても実現できる。
(2)上記形態の音声処理装置において、前記第2変換部は、前記ニューラルネットワークとして、畳み込みニューラルネットワークを用いて前記第2特徴量を前記音響特徴量に変換してもよい。この形態の音声処理装置によれば、既存の技術を利用して高品位に第2特徴量を音響特徴量に変換できる。
(3)上記形態の音声処理装置において、前記第2期間は可変長でもよい。この形態の音声処理装置によれば、任意の長さの音響特徴量に変換できる。
(4)上記形態の音声処理装置において、前記第2変換部は、前記第1特徴量における無音部分に応じて前記第2期間の長さを変化させてもよい。この形態の音声処理装置によれば、例えば、歌声を合成する場合に、フレーズ毎に合成ができる。
(5)上記形態の音声処理装置において、前記第1変換部は、フィードフォワードニューラルネットワークを用いて前記第1特徴量を前記第2特徴量に変換してもよい。この形態の音声処理装置によれば、高速に第1特徴量を第2特徴量に変換できる。
(6)上記形態の音声処理装置において、前記第2変換部は、前記第2特徴量に加えて前記第1特徴量に含まれる特定のパラメータを前記ニューラルネットワークに入力して、前記音響特徴量への変換を行ってもよい。この形態の音声処理装置によれば、補助情報として第1特徴量に含まれる特定のパラメータを第2特徴量に加えるため、合成音声の精度が向上する音響特徴量に変換できる。
(7)上記形態の音声処理装置において、前記パラメータは音高情報を含んでいてもよい。この形態の音声処理装置によれば、合成音声の音質が向上する音響特徴量に変換できる。
(8)上記形態の音声処理装置において、前記第1特徴量における無音部分の前記音高情報は、前後の音高情報により補間された情報でもよい。この形態の音声処理装置によれば、より合成音声の音質が向上する音響特徴量に変換できる。
(9)上記形態の音声処理装置において、前記第1特徴量は、少なくとも言語特徴量と楽譜特徴量と声質特徴量とのいずれか一つを含んでいてもよい。この形態の音声処理装置によれば、例えば、第1特徴量をテキスト音声合成や歌声合成や声質変換を行うための音響特徴量に変換できる。
(10)上記形態の音声処理装置において、更に、前記音響特徴量を用いて音声波形を生成するボコーダ部を備えてもよい。この形態の音声処理装置によれば、音響特徴量を用いて合成音声を生成できる。
(11)上記形態の音声処理装置において、更に、前記第1特徴量と前記音響特徴量との関係を教師有り機械学習によって学習して前記ニューラルネットワークに反映させる学習部を備えてもよい。この形態の音声処理装置によれば、第1特徴量と音響特徴量との関係を学習でき、第2変換部に学習結果を反映できる。また、第1変換部がニューラルネットワークを用いて変換を行う場合には、第1変換部にも学習結果を反映できる。
(12)上記形態の音声処理装置において、前記第2変換部は、前記第2特徴量を、前記第2特徴量の各次元のデータを前記第2期間の長さ分並べて表される2次元データとして用いて前記音響特徴量に変換する、音声処理装置。この形態の音声処理装置によれば、時間方向の変化を効果的に扱うことができる。
(13)音声処理装置であって、音声に関する多次元の特徴量を取得する取得部と、前記特徴量を予め定められた期間毎に畳み込みニューラルネットワークを用いて音声波形を生成するための音響特徴量に変換する変換部と、を備え、前記変換部は、前記特徴量を、前記特徴量の各次元のデータを前記期間の長さ分並べて表される2次元データとして用いて前記音響特徴量に変換する。この形態の音声処理装置によれば、時間方向の変化を効果的に扱うことができ、長い期間毎に音響特徴量に変換するため、この音響特徴量を用いて音声を合成すると滑らかで自然な音声を合成できる。
図1は、本発明の一実施形態における音声処理装置100の概要を示す説明図である。音声処理装置100は、取得部10と、第1変換部20と、第2変換部30と、ボコーダ部40と、学習部50と、音響モデル60と、を備える。取得部10と、第1変換部20と、第2変換部30と、ボコーダ部40と、学習部50とは、1以上のCPUがメモリに記憶されたプログラムを実行することにより、ソフトウェア的に実現される。なおこれらの一部または全部は、回路によってハードウェア的に実現されてもよい。
図7は、生成した音声波形に対する主観評価実験の実験結果である平均オピニオン評点(Mean Opinion Score(MOS))を示した図である。本実験において、4手法の合成音声の品質を、「1:非常に悪い、2:悪い、3:普通、4:良い、5:非常に良い」の5段階の主観評価実験によって評価した。被験者は15人であり、各被験者はテストデータである5曲から各手法につき10フレーズを評価した。評価対象である合成音声の音声波形は、4手法とも同じ第1特徴量を用いて生成した。
図8は、第2実施形態におけるCNNの説明図である。第2実施形態のCNNは、図8においてハッチングで示すように、第2特徴量に加えて第1特徴量に含まれる特定のパラメータを入力層に入力して用いる点が第1実施形態と異なる。第2実施形態の音声処理装置100の構成は、第1実施形態の音声処理装置100の構成と同様であるため、構成の説明は省略する。
上記実施形態において、取得部10が取得する第1特徴量は、楽譜特徴量である。この代わりに、取得部10は、第1特徴量として言語特徴量を取得してもよい。言語特徴量は、図2に示した楽譜特徴量から楽譜情報が省略され、品詞やアクセント等の情報が追加された多次元のパラメータである。この形態によれば、歌声ではない、単なるテキスト合成音声を行うための音響特徴量を生成できる。また、取得部10は、第1特徴量として声質特徴量を取得してもよい。声質特徴量は、他人の声から抽出した音響特徴量である。この形態によれば、ある話者の音響特徴量から、他の話者の音響特徴量へと変換する声質変換を行うための音響特徴量を生成できる。
Claims (13)
- 音声処理装置であって、
音声に関する多次元の第1特徴量であって、音高情報とMIDIの音高番号と音素情報と品詞の情報とアクセントの情報とのうちいずれか1つ以上を含む第1特徴量を取得する取得部と、
予め定められた第1期間毎に前記第1特徴量を多次元の第2特徴量に変換する第1変換部と、
前記第2特徴量を、時系列的に前記第2特徴量を処理することができるニューラルネットワークを用いて、前記第1期間よりも長い第2期間毎に音声波形を生成するための音響特徴量に変換する第2変換部と、を備え、
前記第2変換部は、前記第2特徴量に加えて前記第1特徴量に含まれる前記音高情報と前記MIDIの音高番号と前記音素情報と前記品詞の情報と前記アクセントの情報とのうちいずれか1つ以上を含む特定情報を前記ニューラルネットワークに入力して、前記音響特徴量への変換を行う、音声処理装置。 - 請求項1に記載の音声処理装置であって、
前記ニューラルネットワークは、情報が入力される入力層と、前記入力層から伝達される情報に基づいて特徴量の算出を行う複数の中間層と、前記中間層から伝達される情報に基づいて結果を出力する出力層と、を備え、
前記第2変換部は、前記特定情報を前記複数の中間層のうち少なくとも1つ以上の中間層に入力して、前記ニューラルネットワークに前記音響特徴量への変換を行わせる、音声処理装置。 - 請求項1または請求項2に記載の音声処理装置であって、
前記第1特徴量における無音部分の前記音高情報は、前後の音高情報により補間された情報である、音声処理装置。 - 請求項1から請求項3までのいずれか一項に記載の音声処理装置であって、更に、
前記第1特徴量と前記音響特徴量との関係を教師有り機械学習によって学習して前記ニューラルネットワークに反映させる学習部を備える、音声処理装置。 - 音声処理装置であって、
音声に関する多次元の第1特徴量を取得する取得部と、
予め定められた第1期間毎に前記第1特徴量を多次元の第2特徴量に変換する第1変換部と、
前記第2特徴量を、時系列的に前記第2特徴量を処理することができるニューラルネットワークを用いて、前記第1期間よりも長い第2期間毎に音声波形を生成するための音響特徴量に変換する第2変換部と、
前記第1特徴量と前記音響特徴量との関係を教師有り機械学習によって学習して前記ニューラルネットワークに反映させる学習部と、を備え、
前記ニューラルネットワークは、情報が入力される入力層と、前記入力層から伝達される情報に基づいて特徴量の算出を行う複数の中間層と、前記中間層から伝達される情報に基づいて結果を出力する出力層と、を備え、
前記第2変換部は、前記第1特徴量の少なくとも一部および/または前記第2特徴量の少なくとも一部を前記複数の中間層のうち少なくとも1つ以上の中間層に入力して、前記ニューラルネットワークに前記音響特徴量への変換を行わせる、音声処理装置。 - 請求項1から請求項5までのいずれか一項に記載の音声処理装置であって、
前記第2期間は可変長である、音声処理装置。 - 請求項6に記載の音声処理装置であって、
前記第2変換部は、前記第1特徴量における無音部分に応じて前記第2期間の長さを変化させる、音声処理装置。 - 請求項1から請求項7までのいずれか一項に記載の音声処理装置であって、
前記第1変換部は、フィードフォワードニューラルネットワークを用いて前記第1特徴量を前記第2特徴量に変換する、音声処理装置。 - 請求項1から請求項8までのいずれか一項に記載の音声処理装置であって、
前記第1特徴量は、少なくとも言語特徴量と楽譜特徴量と声質特徴量とのいずれか一つを含む、音声処理装置。 - 請求項1から請求項9までのいずれか一項に記載の音声処理装置であって、更に、
前記音響特徴量を用いて音声波形を生成するボコーダ部を備える、音声処理装置。 - 請求項1から請求項10までのいずれか一項に記載の音声処理装置であって、
前記第2変換部は、前記第2特徴量を、前記第2特徴量の各次元のデータを前記第2期間の長さ分並べて表される2次元データとして用いて前記音響特徴量に変換する、音声処理装置。 - 音声処理方法であって、
音声に関する多次元の第1特徴量であって、音高情報とMIDIの音高番号と音素情報と品詞の情報とアクセントの情報とのうちいずれか1つ以上を含む第1特徴量を取得する取得工程と、
予め定められた第1期間毎に前記第1特徴量を多次元の第2特徴量に変換する第1変換工程と、
時系列的に前記第2特徴量を処理することができるニューラルネットワークを用いて、前記第1期間よりも長い第2期間毎に音声波形を生成するための音響特徴量に、前記第2特徴量を変換する第2変換工程と、を備え、
前記第2変換工程は、前記第2特徴量に加えて前記第1特徴量に含まれる前記音高情報と前記MIDIの音高番号と前記音素情報と前記品詞の情報と前記アクセントの情報とのうちいずれか1つ以上を含む特定情報を前記ニューラルネットワークに入力して、前記音響特徴量への変換を行う工程を含む、音声処理方法。 - 音声処理方法であって、
音声に関する多次元の第1特徴量を取得する取得工程と、
予め定められた第1期間毎に前記第1特徴量を多次元の第2特徴量に変換する第1変換工程と、
時系列的に前記第2特徴量を処理することができるニューラルネットワークを用いて、前記第1期間よりも長い第2期間毎に音声波形を生成するための音響特徴量に、前記第2特徴量を変換する第2変換工程と、
前記第1特徴量と前記音響特徴量との関係を教師有り機械学習によって学習して前記ニューラルネットワークに反映させる学習工程と、を備え、
前記ニューラルネットワークは、情報が入力される入力層と、前記入力層から伝達される情報に基づいて特徴量の算出を行う複数の中間層と、前記中間層から伝達される情報に基づいて結果を出力する出力層と、を備え、
前記第2変換工程は、前記第1特徴量の少なくとも一部および/または前記第2特徴量の少なくとも一部を前記複数の中間層のうち少なくとも1つ以上の中間層に入力して、前記音響特徴量への変換を行う工程を含む、音声処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019122680A JP7280605B2 (ja) | 2019-07-01 | 2019-07-01 | 音声処理装置、および音声処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019122680A JP7280605B2 (ja) | 2019-07-01 | 2019-07-01 | 音声処理装置、および音声処理方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019009182A Division JP6552146B1 (ja) | 2019-01-23 | 2019-01-23 | 音声処理装置、および音声処理方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020118950A JP2020118950A (ja) | 2020-08-06 |
JP2020118950A5 JP2020118950A5 (ja) | 2022-01-31 |
JP7280605B2 true JP7280605B2 (ja) | 2023-05-24 |
Family
ID=71890725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019122680A Active JP7280605B2 (ja) | 2019-07-01 | 2019-07-01 | 音声処理装置、および音声処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7280605B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015034920A (ja) | 2013-08-09 | 2015-02-19 | ヤマハ株式会社 | 音声解析装置 |
JP2017032839A (ja) | 2015-08-04 | 2017-02-09 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム |
JP2017151230A (ja) | 2016-02-23 | 2017-08-31 | 国立大学法人豊橋技術科学大学 | 音声変換装置および音声変換方法ならびに計算機プログラム |
JP2018136430A (ja) | 2017-02-21 | 2018-08-30 | 日本電信電話株式会社 | 音声変換モデル学習装置、音声変換装置、方法、及びプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08314880A (ja) * | 1995-05-15 | 1996-11-29 | Omron Corp | ニューラル・ネットワークの学習方法およびニューラル・ネットワーク・システム |
-
2019
- 2019-07-01 JP JP2019122680A patent/JP7280605B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015034920A (ja) | 2013-08-09 | 2015-02-19 | ヤマハ株式会社 | 音声解析装置 |
JP2017032839A (ja) | 2015-08-04 | 2017-02-09 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム |
JP2017151230A (ja) | 2016-02-23 | 2017-08-31 | 国立大学法人豊橋技術科学大学 | 音声変換装置および音声変換方法ならびに計算機プログラム |
JP2018136430A (ja) | 2017-02-21 | 2018-08-30 | 日本電信電話株式会社 | 音声変換モデル学習装置、音声変換装置、方法、及びプログラム |
Non-Patent Citations (2)
Title |
---|
橋本佳,外3名,ニューラルネットワークに基づく音声合成における生成モデルの利用の検討,日本音響学会講演論文集,日本,2014年09月05日,p.245-246 |
高木信二,とてもDeepなテキスト音声合成,電子情報通信学会技術研究報告,日本,2017年01月14日,第116巻,第414号,p.41-46 |
Also Published As
Publication number | Publication date |
---|---|
JP2020118950A (ja) | 2020-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11763797B2 (en) | Text-to-speech (TTS) processing | |
JP6561499B2 (ja) | 音声合成装置および音声合成方法 | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
KR20200092505A (ko) | 심층 합성곱 신경망 인공지능을 기반으로 한 미세조정을 통해 소량의 샘플로 화자 적합된 음성합성 모델을 생성하는 방법 | |
JP3576840B2 (ja) | 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体 | |
JP5930738B2 (ja) | 音声合成装置及び音声合成方法 | |
JP7280605B2 (ja) | 音声処理装置、および音声処理方法 | |
JP6552146B1 (ja) | 音声処理装置、および音声処理方法 | |
JP6578544B1 (ja) | 音声処理装置、および音声処理方法 | |
JP2020204755A (ja) | 音声処理装置、および音声処理方法 | |
JP3437064B2 (ja) | 音声合成装置 | |
JP2020134920A (ja) | 音声処理装置、および音声処理方法 | |
JP6587308B1 (ja) | 音声処理装置、および音声処理方法 | |
JP2002123280A (ja) | 音声合成方法および音声合成装置ならびに音声合成処理プログラムを記録した記録媒体 | |
JP2679623B2 (ja) | テキスト音声合成装置 | |
JP7162579B2 (ja) | 音声合成装置、方法及びプログラム | |
JP2011191528A (ja) | 韻律作成装置及び韻律作成方法 | |
WO2023182291A1 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2020118950A5 (ja) | ||
Le Beux et al. | Calliphony: a real-time intonation controller for expressive speech synthesis. | |
Zhao et al. | Non-Autoregressive Speech Synthesis by Fusion of CoordConv and Sound Quality | |
JP2004206144A (ja) | 基本周波数パタン生成方法、及びプログラム記録媒体 | |
JPH06250685A (ja) | 音声合成方式および規則合成装置 | |
JP2573585B2 (ja) | 音声スペクトルパタン生成装置 | |
KR20220125005A (ko) | 화자 적합성이 향상된 음성합성 모델 생성방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220121 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220121 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230425 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230502 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7280605 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |