JP7492159B2 - 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム - Google Patents
音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム Download PDFInfo
- Publication number
- JP7492159B2 JP7492159B2 JP2022539804A JP2022539804A JP7492159B2 JP 7492159 B2 JP7492159 B2 JP 7492159B2 JP 2022539804 A JP2022539804 A JP 2022539804A JP 2022539804 A JP2022539804 A JP 2022539804A JP 7492159 B2 JP7492159 B2 JP 7492159B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- unit
- input
- signal
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims description 169
- 238000000034 method Methods 0.000 title claims description 117
- 230000005236 sound signal Effects 0.000 title claims description 62
- 230000006870 function Effects 0.000 claims description 65
- 238000012549 training Methods 0.000 claims description 49
- 238000012545 processing Methods 0.000 claims description 27
- 238000000605 extraction Methods 0.000 description 51
- 238000002474 experimental method Methods 0.000 description 31
- 238000010586 diagram Methods 0.000 description 28
- 238000013528 artificial neural network Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 15
- 238000010801 machine learning Methods 0.000 description 13
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 10
- 238000012986 modification Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 8
- 238000013507 mapping Methods 0.000 description 7
- 125000004122 cyclic group Chemical group 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 238000005401 electroluminescence Methods 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
- G10L2021/0135—Voice conversion or morphing
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
図1及び図2を用いて、実施形態の音声信号生成システム100の概要を説明する。図1は、実施形態の音声信号生成システム100の概要を説明する説明図である。音声信号生成システム100は、第1の話者(以下「第1話者」という。)が発した音声(以下「第1話者音声」という。)を表す音声信号(以下「変換対象音声信号」という。)を変換済み音声信号に変換する。変換済み音声信号は、内容は変換対象音声信号と同一でありながら第1話者が発した音声が有する音響特徴(Acoustic Feature)よりも第2話者が発した音声が有する音響特徴を有する音声を表す音声信号である。第2話者は、変換済み音声信号が表す音声の話者としてユーザ等により音声信号生成システム100に予め指示された話者である。
生成部110が第1学習用データを取得する(ステップS101)。次に生成部110は第1学習用データに基づき第1種生成データを生成する(ステップS102)。
生成部110が第1種生成データを取得する(ステップS201)。ステップS201の処理はステップS102の処理であってもよいし、ステップS102の処理で生成された第1種生成データを生成部110が改めて取得しなおす処理であってもよい。次に生成部110は、第1種生成データに基づき、逆生成用データに対する第1種データ生成処理を実行することで第2種生成データを生成する(ステップS202)。
識別部120は、識別入力データを取得する(ステップS301)。識別部120は、音声推定処理を実行する(ステップS302)。
制御部10は、被管理部101及び管理部102を備える。被管理部101は、生成部110、識別部120、決定部130及び損失取得部140を備える。被管理部101は、第1学習用データ及び第2学習用データを用いて終了条件が満たされるまで音声信号変換モデルを更新する。
目的関数は拡張型敵対的損失関数を含んでいればよく、必ずしも循環型損失関数及び恒等損失関数まで含む必要はない。目的関数は、例えば拡張型敵対的損失関数であってもよいし、拡張型敵対的損失関数及び循環型損失関数を含み恒等損失関数を含まないものであってもよいし、拡張型敵対的損失関数及び恒等損失関数を含み循環型損失関数を含まないものであってもよい。
なお生成部110は、第1種データ生成処理において必ずしも変換元話者情報を用いなくてもよい。このような生成部110は、例えば以下の図12に示す構成である。
データ取得部113が第1学習用データを取得する(ステップS601)。次に第1特性抽出部114が第1特性抽出処理を実行する(ステップS602)。次に第2特性抽出部115が、ステップS602における第1特性抽出処理によって得られた特性情報に対して第2特性抽出処理を実行する(ステップS603)。次に抽出結果変換部116がステップS603の第2特性抽出処理によって得られた特性情報に対して抽出結果変換処理を実行する(ステップS604)。次にエンコード結果出力部117が、ステップS604の処理によって得られた情報をデコーダに出力する(ステップS605)。次にデコーダ112がステップS605で出力された情報をデコードする(ステップS606)。ステップS606のデコードによって得られた情報が、第1種生成データである。
なお、ここまで音声信号の変換に関して話者を変換することについて音声信号生成システム100の説明をしてきたが、音声信号生成システム100の音声の変換は音声信号の属性を変換可能であれば必ずしも話者の変換でなくてもよい。このような場合、音声信号生成システム100では変換元話者情報に代えて変換元属性情報が用いられ、変換先話者情報に代えて変換先属性情報が用いられ、話者識別情報に代えて属性識別情報が用いられる。変換元属性情報は、第1学習用音声の属する属性を示す。変換先話者情報は、予め設定された属性であって第1種生成音声の属する属性を示す。属性識別情報は、予め設定された属性であって第2学習用音声が属する属性を示す。ランダム話者情報は、予め用意された複数の属性のうち決定部130によりランダムに決定された属性を示す情報である。また、このような場合、音声推定処理は、処理対象の属する属性の音声信号であって実際に発せられた音声を表す音声信号か否かを推定する処理である。
図14は、音声信号変換モデルの学習に用いる目的関数の違いによる、メルケプストラム歪み(Mel-cepstral distortion : MCD)の違いと、変調スペクトル距離(modulation spectra distance : MSD)の違いとを示す実験(以下「第1実験」という。)の結果の図である。
なお、識別部120は、更に話者識別処理を実行してもよい。話者識別処理は、識別部120に第2学習用データが入力された際に実行される。話者識別処理は、入力された第2学習用データの第2学習用音声信号S´0について話者を推定する。話者識別処理は具体的には話者識別処理を実行するニューラルネットワークにより実行される。話者識別処理を実行するニューラルネットワークは、損失取得部140が取得した式(6)又は式(7)の値に基づき更新される。より具体的には、話者識別処理を実行するニューラルネットワークは、第2学習用データが識別部120に入力された場合には、損失取得部140が取得する式(6)の値に基づき式(6)の値を小さくするように更新される。そして、話者識別処理を実行するニューラルネットワークは、第1学習用データが生成部110に入力された場合には、損失取得部140が取得する式(7)の値に基づき式(7)の値を小さくするように更新される。また、第1学習用データが生成部110に入力された場合には、生成部110は、損失取得部140が取得する式(7)の値に基づき式(7)の値を小さくするように学習する。なお式(6)におけるCで表される関数は、話者識別処理を表す。また、話者識別処理を実行する場合、識別部120は変換元話者情報又は変換先話者情報のいずれか又は両方を用いてもよいし用いなくてもよい。変換元話者情報又は変換先話者情報のいずれか又は両方を用いない場合、識別部120は、変換元話者情報又は変換先話者情報のいずれか又は両方を用いることなく識別入力データが示す音声信号が実際に発せられた音声を表す音声信号か否かを推定する。
なお、生成部110については必ずしも変換元話者情報も用いなくてもいい旨を第2変形例で説明した。生成部110が変換元話者情報を用いない場合、識別部120は変換元話者情報を用いてもよいし用いなくてもよい。変換元話者情報を用いない場合、識別部120は、変換元話者情報を用いることなく識別入力データが示す音声信号が実際に発せられた音声を表す音声信号か否かを推定する。
なお、第2特性抽出処理で実行される処理は必ずしも畳み込みの処理である必要は無い。第2特性抽出処理で実行される処理は、ニューラルネットワークによる処理であればどのような処理であってもよく、例えば、Recurrent Neural Networkであってもよいし、Fully Connected Neural Networkであってもよい。なお、第2特性抽出処理は特性処理の一例である。
第1種データ生成処理は、生成処理の一例である。第1学習用データは、入力音声信号の一例である。第1種生成データは変換先音声信号の一例である。自然音声推定処理は音声推定処理の一例である。話者推定処理は属性推定処理の一例である。第1種生成音声は変換先音声の一例である。なお、第1学習用音声は入力音声の一例である。
Claims (7)
- 入力された音声の音声信号である入力音声信号と、前記入力音声信号が表す音声である入力音声の属性を示す情報である変換元属性情報と、前記入力音声信号の変換先の音声信号である変換先音声信号が表す音声の属性を示す変換先属性情報と、に基づき前記変換先音声信号を生成する生成処理を実行する生成部と、
処理対象の音声信号について前記変換元属性情報と前記変換先属性情報とに基づき、実際に人が発した音声を表す音声信号か否かを推定する音声推定処理を実行する識別部と、
を備え、
前記変換先音声信号は前記識別部に入力され、
前記処理対象は前記識別部に入力される音声信号であり、
前記生成部及び前記識別部は前記音声推定処理の推定結果に基づき学習する、
音声信号変換モデル学習装置。 - 前記生成部及び前記識別部は、前記音声推定処理の推定結果と、前記処理対象について実際に人が発した音声か否かを示す情報との違いを示す値を含む損失に基づき学習する、
請求項1に記載の音声信号変換モデル学習装置。 - 前記損失は、前記入力音声信号と、前記変換先音声信号を入力音声信号とし前記変換先属性情報を変換元属性情報とし前記変換元属性情報を変換先属性情報とするデータである逆生成用データに対して生成処理を実行した結果と、の違いを示す値をさらに含む、
請求項2に記載の音声信号変換モデル学習装置。 - 前記損失は、前記変換元属性情報が示す属性と前記変換先属性情報が示す属性とが同一である場合に、前記入力音声と前記変換先音声信号が表す音声とが同一になるよう制約をかける関数の値をさらに含む、
請求項2又は3に記載の音声信号変換モデル学習装置。 - 変換対象の音声信号である変換対象音声信号を取得する取得部と、
入力された音声の音声信号である入力音声信号と、前記入力音声信号が表す音声である入力音声の属性を示す情報である変換元属性情報と、前記入力音声信号の変換先の音声信号である変換先音声信号が表す音声の属性を示す変換先属性情報と、に基づき前記変換先音声信号を生成する生成処理を実行する生成部と、処理対象の音声信号について前記変換元属性情報と前記変換先属性情報とに基づき、実際に人が発した音声を表す音声信号か否かを推定する音声推定処理を実行する識別部と、を備え、前記変換先音声信号は前記識別部に入力され、前記処理対象は前記識別部に入力される音声信号であり、前記生成部及び前記識別部は前記音声推定処理の推定結果に基づき学習する、音声信号変換モデル学習装置、が得た前記変換対象音声信号を変換する機械学習のモデルを用いて前記変換対象音声信号を変換する変換部、
を備える音声信号変換装置。 - 入力された音声の音声信号である入力音声信号と、前記入力音声信号が表す音声である入力音声の属性を示す情報である変換元属性情報と、前記入力音声信号の変換先の音声信号である変換先音声信号が表す音声の属性を示す変換先属性情報と、に基づき前記変換先音声信号を生成する生成処理を実行する生成部と、処理対象の音声信号について前記変換元属性情報と前記変換先属性情報とに基づき、実際に人が発した音声を表す音声信号か否かを推定する音声推定処理を実行する識別部と、を備え、前記変換先音声信号は前記識別部に入力され、前記処理対象は前記識別部に入力される音声信号であり、前記生成部及び前記識別部は前記音声推定処理の推定結果に基づき学習する、音声信号変換モデル学習装置が実行する音声信号変換モデル学習方法であって、
入力された音声の音声信号である入力音声信号と、前記入力音声信号が表す音声である入力音声の属性を示す情報である変換元属性情報と、前記入力音声信号の変換先の音声信号である変換先音声信号が表す音声の属性を示す変換先属性情報と、に基づき前記変換先音声信号を生成する生成処理を実行する生成ステップと、
処理対象の音声信号について前記変換元属性情報と前記変換先属性情報とに基づき、実際に人が発した音声を表す音声信号か否かを推定する音声推定処理を実行する識別ステップと、
前記生成部及び前記識別部が前記音声推定処理の推定結果に基づき学習する学習ステップと、
を有する
音声信号変換モデル学習方法。 - 請求項1から4のいずれか一項に記載の音声信号変換モデル学習装置としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/028717 WO2022024183A1 (ja) | 2020-07-27 | 2020-07-27 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2022024183A1 JPWO2022024183A1 (ja) | 2022-02-03 |
JP7492159B2 true JP7492159B2 (ja) | 2024-05-29 |
Family
ID=80037819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022539804A Active JP7492159B2 (ja) | 2020-07-27 | 2020-07-27 | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230274751A1 (ja) |
JP (1) | JP7492159B2 (ja) |
WO (1) | WO2022024183A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116778937B (zh) * | 2023-03-28 | 2024-01-23 | 南京工程学院 | 一种基于说话人对抗子网络的语音转换方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180342256A1 (en) | 2017-05-24 | 2018-11-29 | Modulate, LLC | System and Method for Voice-to-Voice Conversion |
JP2019101391A (ja) | 2017-12-07 | 2019-06-24 | 日本電信電話株式会社 | 系列データ変換装置、学習装置、及びプログラム |
WO2019163848A1 (ja) | 2018-02-20 | 2019-08-29 | 日本電信電話株式会社 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
WO2020036178A1 (ja) | 2018-08-13 | 2020-02-20 | 日本電信電話株式会社 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
-
2020
- 2020-07-27 JP JP2022539804A patent/JP7492159B2/ja active Active
- 2020-07-27 WO PCT/JP2020/028717 patent/WO2022024183A1/ja active Application Filing
- 2020-07-27 US US18/017,800 patent/US20230274751A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180342256A1 (en) | 2017-05-24 | 2018-11-29 | Modulate, LLC | System and Method for Voice-to-Voice Conversion |
JP2019101391A (ja) | 2017-12-07 | 2019-06-24 | 日本電信電話株式会社 | 系列データ変換装置、学習装置、及びプログラム |
WO2019163848A1 (ja) | 2018-02-20 | 2019-08-29 | 日本電信電話株式会社 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
WO2020036178A1 (ja) | 2018-08-13 | 2020-02-20 | 日本電信電話株式会社 | 音声変換学習装置、音声変換装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2022024183A1 (ja) | 2022-02-03 |
WO2022024183A1 (ja) | 2022-02-03 |
US20230274751A1 (en) | 2023-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240038218A1 (en) | Speech model personalization via ambient context harvesting | |
US11315570B2 (en) | Machine learning-based speech-to-text transcription cloud intermediary | |
JP6671020B2 (ja) | 対話行為推定方法、対話行為推定装置及びプログラム | |
JP6989951B2 (ja) | スピーチチェイン装置、コンピュータプログラムおよびdnn音声認識・合成相互学習方法 | |
US11031028B2 (en) | Information processing apparatus, information processing method, and recording medium | |
JP7266683B2 (ja) | 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム | |
JP2020027193A (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
US11929078B2 (en) | Method and system for user voice identification using ensembled deep learning algorithms | |
KR20220148245A (ko) | 스트리밍 시퀀스 모델에 대한 일관성 예측 | |
JP2019215500A (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
JP2020134657A (ja) | 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム | |
CN112201275A (zh) | 声纹分割方法、装置、设备及可读存储介质 | |
JP7329393B2 (ja) | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム | |
Horiguchi et al. | Online neural diarization of unlimited numbers of speakers using global and local attractors | |
JP7492159B2 (ja) | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム | |
KR20210045217A (ko) | 감정 이식 장치 및 감정 이식 방법 | |
Xue | A novel english speech recognition approach based on hidden Markov model | |
JP7360814B2 (ja) | 音声処理装置及び音声処理プログラム | |
JPWO2016152132A1 (ja) | 音声処理装置、音声処理システム、音声処理方法、およびプログラム | |
JP6633556B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
WO2022024187A1 (ja) | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム | |
JP2005196020A (ja) | 音声処理装置と方法並びにプログラム | |
JP2021189402A (ja) | 音声処理プログラム、音声処理装置及び音声処理方法 | |
US20230386489A1 (en) | Audio signal conversion model learning apparatus, audio signal conversion apparatus, audio signal conversion model learning method and program | |
JP7318062B1 (ja) | 学習装置、推定装置、学習方法、推定方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221215 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A801 Effective date: 20221215 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20221215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240401 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240416 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240429 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7492159 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |