JP2019035902A - 距離測定装置、データ変換装置、距離測定方法、及びプログラム - Google Patents
距離測定装置、データ変換装置、距離測定方法、及びプログラム Download PDFInfo
- Publication number
- JP2019035902A JP2019035902A JP2017158171A JP2017158171A JP2019035902A JP 2019035902 A JP2019035902 A JP 2019035902A JP 2017158171 A JP2017158171 A JP 2017158171A JP 2017158171 A JP2017158171 A JP 2017158171A JP 2019035902 A JP2019035902 A JP 2019035902A
- Authority
- JP
- Japan
- Prior art keywords
- data
- neural network
- conversion
- converted
- converter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Image Analysis (AREA)
Abstract
Description
(変換元データ
を変換器Cによって変換したデータ)と目標データ
(教師データ)との対応関係に対して適切な距離基準を設定し学習することが必要になる。
まず、本発明の実施の形態に係るデータ変換装置の原理について説明する。
従来技術では、データ空間またはローレベルな(ハンドクラフトな)特徴量空間で変換データ
と目標データ
の距離を測定していた(図2(a))が、本実施形態ではNNの特徴量空間
(
はNNの層のインデックス)(図2(b))で距離の測定を行う。
と目標データ
の対応関係をみることができる。
と目標データ
の対応関係を表現することができる。
と目標データ
の対応関係を表現することができる。
と目標データ
の対応関係を表現することができる。
本実施形態では、学習をする際にCNNを用いることで、音声信号に含まれる時間的な構造を考慮してモデル化を行う。
と目標データ
の対応関係をみる際にフレーム(Frame)同士の関係に限定されていたため、時間的な整合性を考慮することが難しかった。
と目標データ
のアライメントをとることが一般的であるが、フレームごとにのみ着目し対応関係を学習した場合、このアライメントのミスの影響を受けやすい。
従来手法(図2(a))ではフレームごとに対応関係を見ていたため時間的に整合性がとれた変換を行うことが難しかった。
、出力データ系列を
とすると、この二つの対応関係を表す最適な関数Cを得るためには、下記の式(1)の目的関数を最小化すれば良い。
は、二つのデータ間の類似性を表す関数である。
NNの形式に捉われないものであるが、ここでは、NNの中でも識別的なタスクのためのNN、特に、真のデータか生成されたデータかを識別するGANに対して適用した場合について説明する。
からデータを生成する生成器
と、真のデータ
が与えられた時は確率
を出力し、生成された(偽の)データ
が与えられた時は、確率
を出力する識別器
との二つのネットワークから構成される。
と
に対して真のデータが生成されたデータかの識別を行う。
を真のデータ分布
に近づけることが可能である。
が生成器、
が識別器、
が変換器、
が真のデータ(図5のReal Data)である。
は識別器の
番目の層の特徴量空間で距離を測ることを指す。
本発明の実施の形態では、音声に含まれる時間的な構造を表現するために、CNNを用いてモデル化を行う。
は、シグモイド関数、
は、行列の要素の積を意味する演算子である。また、Wl−1、Vl−1、bl−1、及びcl−1はモデルのパラメータである。
次に、本発明の第1の実施の形態について説明する。本実施形態では、識別的なニューラルネットワークが敵対的生成ネットワーク(Generative Adversarial Network;GAN)の場合(図3(a))の場合について説明する。
本発明の第1の実施の形態に係るデータ変換装置の構成について説明する。なお、本発明の第1の実施の形態においては、データ変換装置内に距離測定装置を含む構成を例として説明する。
と、変換対象のデータを変換したときの変換データの目標データ
とを受け付ける。例えば、変換器により音声合成を行う場合には、変換対象のデータは、テキストデータであり、目標データは、音声を録音した音声データである。変換器により音声合成を行う場合には、変換対象のデータは、変換元の音声データであり、目標データは、変換先の音声データである。
を、ニューラルネットワーク記憶部230に記憶された変換器Cのニューラルネットワークによって変換データ
に変換する。
の特徴量
、目標データ
の特徴量
を抽出する。
に変換し、特徴抽出部220は、当該音声認識結果と、変換データの目標データとしての音声データ
との各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量
及び
を抽出する。
の特徴量
と、目標データ
の特徴量
との距離である
を測定する。ここで、
は、識別器Dとしてのニューラルネットワークの
番目の層を意味する。
、目標データ
、及び距離の測定結果を学習部260に渡す。
から、目標データを生成するための生成器Gによって生成データ
を生成する。
を学習部260に渡す。
の特徴量
と、目標データ
の特徴量
の距離を示す目的関数
(式(4))を最適化するように、特徴量を抽出するためのニューラルネットワークを学習する。
(式(6))を用いて、変換器Cとしてのニューラルネットワーク、又は目標データを生成するための生成器Gとしてのニューラルネットワークと、識別器Dとしてのニューラルネットワークとを、変換器Cとしてのニューラルネットワーク、又は生成器Gとしてのニューラルネットワークと、識別器Dとしてのニューラルネットワークとが互いに競合する最適化条件によって学習する。
を最適化する学習と、目的関数
を最適化する学習とを行う場合を例に説明したが、これに限定されるものではなく、
と
との和で表される目的関数
(式(5))を最適化するように、特徴量を抽出するためのニューラルネットワークと、変換器Cとしてのニューラルネットワークと、識別器Dとしてのニューラルネットワークと、生成器Gとしてのニューラルネットワークとをまとめて学習するようにしても良い。
(式(4))のみを最適化するようにして、変換器Cとしてのニューラルネットワークを学習しても良い。
(式(6))は、第一項と第三項とを足し合わせたものを用いることになる。
を変換データである音声データ
に変換する。
を出力する。
図9は、本発明の第1の実施の形態に係る学習処理フローを示すフローチャートである。
と、変換対象のデータ
を変換したときの変換データ
の目標データ
とが入力されると、データ変換装置10において、図9に示す距離測定処理フローが実行される。
、及び目標データ
を取得する。
を
に変換する。
と、目標データ
との各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量
及び
を抽出する。
の特徴量
と、目標データ
の特徴量
との距離を測定する。
から、変換データを生成するための生成器Gによって生成データ
を生成する。
の特徴量
と、目標データ
の特徴量
の距離を示す目的関数
(式(4))を最適化するように、変換器Cとしてのニューラルネットワークを学習し、ニューラルネットワーク記憶部230に記憶されている、変換器Cとしてのニューラルネットワークのパラメータを更新する。
(式(6))を用いて、変換器Cとしてのニューラルネットワークと、識別器Dとしてのニューラルネットワークと、生成器Gとしてのニューラルネットワークとを、変換器Cとしてのニューラルネットワークと、識別器Dとしてのニューラルネットワークと、生成器Gとしてのニューラルネットワークと、が互いに競合する最適化条件によって学習し、ニューラルネットワーク記憶部230に記憶されている特徴量を抽出するためのニューラルネットワークと、識別器Dとしてのニューラルネットワークと、生成器Gとしてのニューラルネットワークの各々のパラメータを更新する。
が入力されると、データ変換装置10において、図10に示すデータ変換処理フローが実行される。
を取得する。
を
に変換する。
が変換された変換データ
を出力する。
本実施形態に係るデータ変換装置による音声データの変換の実験結果を、図11に示す。図11において、上段がメルケプストラム、下段がSTFTスペクトログラムを表す。
次に、本発明の第2の実施の形態について説明する。本実施形態では、識別器としてのニューラルネットワークの代わりに、音声認識器としてのニューラルネットワークを用いる場合(図3(b))について説明する。
は、音声データである。また、第1の実施の形態では、識別器Dを用いたが、本実施形態では、入力された音声データに対して音声認識を行う認識器Dphonemeを用いる。
と目標データ
との対応関係を表現することができる。
が正解ラベルである。
がクラスkについての認識器としてのニューラルネットワークであり、認識器Dphonemeは、
の集合体である。すなわち、
で表すことができる。認識器Dphonemeを学習する場合には、式(8)の最小化を行うことになる。
又は学習用データも用いて、認識器Dphonemeとしてのニューラルネットワークを学習する際に(式(6)を用いた学習に相当)、下記の式(9)で表される目的関数を用いる。
は、変換対象のデータ
に対する音素クラスの正解ラベルである。
図8を参照して、本発明の第2の実施の形態に係るデータ変換装置の構成について説明する。なお、第1の実施の形態に係るデータ変換装置10と同様の構成については、同一の符号を付して詳細な説明は省略する。
を用いる構成について説明する。なお、学習用データを用いる場合、入力部100から変換対象のデータ
と目標データ
とからなる組を複数含む学習用データが入力される。
の特徴量
と、目標データ
の特徴量
との距離である
を測定する。ここで、
は、認識器Dphonemeとしてのニューラルネットワークの
番目の層を意味する。
、目標データ
、及び距離の測定結果を学習部260に渡す。
の特徴量
と、目標データ
の特徴量
の距離を示す目的関数
(式(4))を最適化するように、特徴量を抽出するためのニューラルネットワークを学習する。
(式(9))を用いて、認識器Dphonemeとしてのニューラルネットワークを学習する。
を最適化する学習と、目的関数
を最適化する学習とを行う場合を例に説明したが、これに限定されるものではなく、
と
との和で表される目的関数を最適化するように、特徴量を抽出するためのニューラルネットワークと、変換器Cとしてのニューラルネットワークと、認識器Dphonemeとしてのニューラルネットワークとをまとめて学習するようにしても良い。
(式(4))のみを最適化するようにして、変換器Cとしてのニューラルネットワークとを学習しても良い。
100 入力部
200 制御部
210 変換部
220 特徴抽出部
230 ニューラルネットワーク記憶部
235 ニューラルネットワーク記憶部
240 距離測定部
245 距離測定部
250 生成部
260 学習部
265 学習部
270 変換部
300 出力部
Claims (8)
- 変換対象のデータを変換する変換器によって変換された変換データと、前記変換対象のデータを変換したときの変換データの目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出する特徴抽出部と、
前記特徴抽出部によって抽出された前記変換データの特徴量と、前記目標データの特徴量との距離を測定する距離測定部と
を含む距離測定装置。 - 前記変換器としてのニューラルネットワーク、又は前記目標データを生成するための生成器としてのニューラルネットワークと、入力されたデータが前記目標データであるか否かを識別する識別器としてのニューラルネットワークとを、前記変換器としてのニューラルネットワーク、又は前記目標データを生成するための生成器としてのニューラルネットワークと、前記識別器としてのニューラルネットワークとが互いに競合する最適化条件によって学習することにより得られた前記識別器としてのニューラルネットワークに応じて、前記特徴量を抽出するためのニューラルネットワークが定められる
請求項1に記載の距離測定装置。 - 前記変換器としてのニューラルネットワークと、入力されたデータを認識する認識器としてのニューラルネットワークとを、前記変換器としてのニューラルネットワークにより変換したデータ、又は学習用データを用いて学習することにより得られた前記認識器としてのニューラルネットワークに応じて、前記特徴量を抽出するためのニューラルネットワークが定められる
請求項1又は2に記載の距離測定装置。 - 前記特徴量を抽出するためのニューラルネットワークは、CNN(Convolutional Neural Network)である請求項1乃至請求項3の何れか1項記載の距離測定装置。
- 前記CNNは、GLU(Geted Linear Unit)を用いる請求項4記載の距離測定装置。
- 請求項1〜請求項5の何れか1項記載の距離測定装置によって測定された距離を最小化するように前記変換器を学習する学習部と、
変換対象のデータを入力する入力部と、
前記学習部によって学習された変換器を用いて、前記入力された前記変換対象のデータを変換する変換部と
を含むデータ変換装置。 - 特徴抽出部が、変換対象のデータを変換する変換器によって変換された変換データと、前記変換対象のデータを変換したときの変換データの目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出し、
距離測定部が、前記特徴抽出部によって抽出された前記変換データの特徴量と、前記目標データの特徴量との距離を測定する
距離測定方法。 - コンピュータを、請求項1乃至請求項5の何れか1項記載の距離測定装置、又は請求項6のデータ変換装置の各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017158171A JP6846310B2 (ja) | 2017-08-18 | 2017-08-18 | 距離測定装置、データ変換装置、距離測定方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017158171A JP6846310B2 (ja) | 2017-08-18 | 2017-08-18 | 距離測定装置、データ変換装置、距離測定方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019035902A true JP2019035902A (ja) | 2019-03-07 |
JP6846310B2 JP6846310B2 (ja) | 2021-03-24 |
Family
ID=65637330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017158171A Active JP6846310B2 (ja) | 2017-08-18 | 2017-08-18 | 距離測定装置、データ変換装置、距離測定方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6846310B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021033129A (ja) * | 2019-08-27 | 2021-03-01 | 国立大学法人 東京大学 | 音声変換装置、音声変換方法及び音声変換プログラム |
US11868430B2 (en) | 2021-03-17 | 2024-01-09 | Kabushiki Kaisha Toshiba | Image processing device, method, and storage medium |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0415694A (ja) * | 1990-05-09 | 1992-01-21 | Sekisui Chem Co Ltd | 単語認識システム |
JPH1185194A (ja) * | 1997-09-04 | 1999-03-30 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 声質変換音声合成装置 |
JP2003029776A (ja) * | 2001-07-12 | 2003-01-31 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP2008216488A (ja) * | 2007-03-01 | 2008-09-18 | Univ Waseda | 音声処理装置及び音声認識装置 |
JP2015197702A (ja) * | 2014-03-31 | 2015-11-09 | キヤノン株式会社 | 情報処理装置、情報処理方法 |
WO2017091883A1 (en) * | 2015-12-01 | 2017-06-08 | Tandemlaunch Inc. | System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system |
-
2017
- 2017-08-18 JP JP2017158171A patent/JP6846310B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0415694A (ja) * | 1990-05-09 | 1992-01-21 | Sekisui Chem Co Ltd | 単語認識システム |
JPH1185194A (ja) * | 1997-09-04 | 1999-03-30 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 声質変換音声合成装置 |
JP2003029776A (ja) * | 2001-07-12 | 2003-01-31 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP2008216488A (ja) * | 2007-03-01 | 2008-09-18 | Univ Waseda | 音声処理装置及び音声認識装置 |
JP2015197702A (ja) * | 2014-03-31 | 2015-11-09 | キヤノン株式会社 | 情報処理装置、情報処理方法 |
WO2017091883A1 (en) * | 2015-12-01 | 2017-06-08 | Tandemlaunch Inc. | System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system |
Non-Patent Citations (1)
Title |
---|
小山田圭佑他: "無矛盾逐次変換ネットワークと敵対的生成ネットワークを用いた非母語話者音声変換", 電子情報通信学会技術研究報告, vol. 116, no. 477, JPN6019043036, March 2017 (2017-03-01), pages 315 - 320, ISSN: 0004394901 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021033129A (ja) * | 2019-08-27 | 2021-03-01 | 国立大学法人 東京大学 | 音声変換装置、音声変換方法及び音声変換プログラム |
US11868430B2 (en) | 2021-03-17 | 2024-01-09 | Kabushiki Kaisha Toshiba | Image processing device, method, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP6846310B2 (ja) | 2021-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mehrish et al. | A review of deep learning techniques for speech processing | |
Kim et al. | Real-time emotion detection system using speech: Multi-modal fusion of different timescale features | |
Mencattini et al. | Speech emotion recognition using amplitude modulation parameters and a combined feature selection procedure | |
JP5059115B2 (ja) | 音声キーワードの特定方法、装置及び音声識別システム | |
Szep et al. | Paralinguistic Classification of Mask Wearing by Image Classifiers and Fusion. | |
Taylor et al. | Audio-to-visual speech conversion using deep neural networks | |
US20240087558A1 (en) | Methods and systems for modifying speech generated by a text-to-speech synthesiser | |
Silva et al. | Exploring convolutional neural networks for voice activity detection | |
Egas López et al. | Assessing Parkinson’s disease from speech using fisher vectors | |
Airaksinen et al. | Data augmentation strategies for neural network F0 estimation | |
CN114898779A (zh) | 融合多模态的语音情感识别方法及系统 | |
JP6846310B2 (ja) | 距離測定装置、データ変換装置、距離測定方法、及びプログラム | |
Al-Radhi et al. | Deep Recurrent Neural Networks in speech synthesis using a continuous vocoder | |
JP2007316330A (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
KR101862982B1 (ko) | LPC-10e 보코더에서 DNN을 이용한 유무성음 판별 방법 | |
Lingampeta et al. | Human emotion recognition using acoustic features with optimized feature selection and fusion techniques | |
CN110782916B (zh) | 一种多模态的投诉识别方法、装置和系统 | |
JP2001265375A (ja) | 規則音声合成装置 | |
Koolagudi et al. | Recognition of emotions from speech using excitation source features | |
Dhar et al. | A system to predict emotion from Bengali speech | |
Agrawal et al. | Fusion based emotion recognition system | |
JP4839970B2 (ja) | 韻律識別装置及び方法、並びに音声認識装置及び方法 | |
Kavitha et al. | Deep Learning based Audio Processing Speech Emotion Detection | |
US11355140B2 (en) | Emotion estimation system and non-transitory computer readable medium | |
Gupta et al. | Speech emotion recognition using MFCC and wide residual network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190826 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200528 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210224 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210301 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6846310 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |