JP6846310B2 - 距離測定装置、データ変換装置、距離測定方法、及びプログラム - Google Patents
距離測定装置、データ変換装置、距離測定方法、及びプログラム Download PDFInfo
- Publication number
- JP6846310B2 JP6846310B2 JP2017158171A JP2017158171A JP6846310B2 JP 6846310 B2 JP6846310 B2 JP 6846310B2 JP 2017158171 A JP2017158171 A JP 2017158171A JP 2017158171 A JP2017158171 A JP 2017158171A JP 6846310 B2 JP6846310 B2 JP 6846310B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- neural network
- converted
- conversion
- converter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
(変換元データ
を変換器Cによって変換したデータ)と目標データ
(教師データ)との対応関係に対して適切な距離基準を設定し学習することが必要になる。
まず、本発明の実施の形態に係るデータ変換装置の原理について説明する。
従来技術では、データ空間またはローレベルな(ハンドクラフトな)特徴量空間で変換データ
と目標データ
の距離を測定していた(図2(a))が、本実施形態ではNNの特徴量空間
(
はNNの層のインデックス)(図2(b))で距離の測定を行う。
本実施形態では、学習をする際にCNNを用いることで、音声信号に含まれる時間的な構造を考慮してモデル化を行う。
と目標データ
の対応関係をみる際にフレーム(Frame)同士の関係に限定されていたため、時間的な整合性を考慮することが難しかった。
と目標データ
のアライメントをとることが一般的であるが、フレームごとにのみ着目し対応関係を学習した場合、このアライメントのミスの影響を受けやすい。
従来手法(図2(a))ではフレームごとに対応関係を見ていたため時間的に整合性がとれた変換を行うことが難しかった。
NNの形式に捉われないものであるが、ここでは、NNの中でも識別的なタスクのためのNN、特に、真のデータか生成されたデータかを識別するGANに対して適用した場合について説明する。
本発明の実施の形態では、音声に含まれる時間的な構造を表現するために、CNNを用いてモデル化を行う。
次に、本発明の第1の実施の形態について説明する。本実施形態では、識別的なニューラルネットワークが敵対的生成ネットワーク(Generative Adversarial Network;GAN)の場合(図3(a))の場合について説明する。
本発明の第1の実施の形態に係るデータ変換装置の構成について説明する。なお、本発明の第1の実施の形態においては、データ変換装置内に距離測定装置を含む構成を例として説明する。
と、変換対象のデータを変換したときの変換データの目標データ
とを受け付ける。例えば、変換器により音声合成を行う場合には、変換対象のデータは、テキストデータであり、目標データは、音声を録音した音声データである。変換器により音声合成を行う場合には、変換対象のデータは、変換元の音声データであり、目標データは、変換先の音声データである。
の特徴量
、目標データ
の特徴量
を抽出する。
に変換し、特徴抽出部220は、当該音声認識結果と、変換データの目標データとしての音声データ
との各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量
及び
を抽出する。
の特徴量
と、目標データ
の特徴量
との距離である
を測定する。ここで、
は、識別器Dとしてのニューラルネットワークの
番目の層を意味する。
の特徴量
と、目標データ
の特徴量
の距離を示す目的関数
(式(4))を最適化するように、特徴量を抽出するためのニューラルネットワークを学習する。
(式(6))を用いて、変換器Cとしてのニューラルネットワーク、又は目標データを生成するための生成器Gとしてのニューラルネットワークと、識別器Dとしてのニューラルネットワークとを、変換器Cとしてのニューラルネットワーク、又は生成器Gとしてのニューラルネットワークと、識別器Dとしてのニューラルネットワークとが互いに競合する最適化条件によって学習する。
を最適化する学習と、目的関数
を最適化する学習とを行う場合を例に説明したが、これに限定されるものではなく、
と
との和で表される目的関数
(式(5))を最適化するように、特徴量を抽出するためのニューラルネットワークと、変換器Cとしてのニューラルネットワークと、識別器Dとしてのニューラルネットワークと、生成器Gとしてのニューラルネットワークとをまとめて学習するようにしても良い。
(式(4))のみを最適化するようにして、変換器Cとしてのニューラルネットワークを学習しても良い。
を変換データである音声データ
に変換する。
図9は、本発明の第1の実施の形態に係る学習処理フローを示すフローチャートである。
の特徴量
と、目標データ
の特徴量
の距離を示す目的関数
(式(4))を最適化するように、変換器Cとしてのニューラルネットワークを学習し、ニューラルネットワーク記憶部230に記憶されている、変換器Cとしてのニューラルネットワークのパラメータを更新する。
(式(6))を用いて、変換器Cとしてのニューラルネットワークと、識別器Dとしてのニューラルネットワークと、生成器Gとしてのニューラルネットワークとを、変換器Cとしてのニューラルネットワークと、識別器Dとしてのニューラルネットワークと、生成器Gとしてのニューラルネットワークと、が互いに競合する最適化条件によって学習し、ニューラルネットワーク記憶部230に記憶されている特徴量を抽出するためのニューラルネットワークと、識別器Dとしてのニューラルネットワークと、生成器Gとしてのニューラルネットワークの各々のパラメータを更新する。
本実施形態に係るデータ変換装置による音声データの変換の実験結果を、図11に示す。図11において、上段がメルケプストラム、下段がSTFTスペクトログラムを表す。
次に、本発明の第2の実施の形態について説明する。本実施形態では、識別器としてのニューラルネットワークの代わりに、音声認識器としてのニューラルネットワークを用いる場合(図3(b))について説明する。
は、音声データである。また、第1の実施の形態では、識別器Dを用いたが、本実施形態では、入力された音声データに対して音声認識を行う認識器Dphonemeを用いる。
と目標データ
との対応関係を表現することができる。
がクラスkについての認識器としてのニューラルネットワークであり、認識器Dphonemeは、
の集合体である。すなわち、
で表すことができる。認識器Dphonemeを学習する場合には、式(8)の最小化を行うことになる。
又は学習用データも用いて、認識器Dphonemeとしてのニューラルネットワークを学習する際に(式(6)を用いた学習に相当)、下記の式(9)で表される目的関数を用いる。
図8を参照して、本発明の第2の実施の形態に係るデータ変換装置の構成について説明する。なお、第1の実施の形態に係るデータ変換装置10と同様の構成については、同一の符号を付して詳細な説明は省略する。
を用いる構成について説明する。なお、学習用データを用いる場合、入力部100から変換対象のデータ
と目標データ
とからなる組を複数含む学習用データが入力される。
の特徴量
と、目標データ
の特徴量
との距離である
を測定する。ここで、
は、認識器Dphonemeとしてのニューラルネットワークの
番目の層を意味する。
の特徴量
と、目標データ
の特徴量
の距離を示す目的関数
(式(4))を最適化するように、特徴量を抽出するためのニューラルネットワークを学習する。
を最適化する学習と、目的関数
を最適化する学習とを行う場合を例に説明したが、これに限定されるものではなく、
と
との和で表される目的関数を最適化するように、特徴量を抽出するためのニューラルネットワークと、変換器Cとしてのニューラルネットワークと、認識器Dphonemeとしてのニューラルネットワークとをまとめて学習するようにしても良い。
(式(4))のみを最適化するようにして、変換器Cとしてのニューラルネットワークとを学習しても良い。
100 入力部
200 制御部
210 変換部
220 特徴抽出部
230 ニューラルネットワーク記憶部
235 ニューラルネットワーク記憶部
240 距離測定部
245 距離測定部
250 生成部
260 学習部
265 学習部
270 変換部
300 出力部
Claims (8)
- 変換対象のデータを変換する変換器によって変換された変換データと、前記変換対象のデータを変換したときの変換データの目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出する特徴抽出部と、
前記特徴抽出部によって抽出された前記変換データの特徴量と、前記目標データの特徴量との距離を測定する距離測定部とを含み、
前記変換器としてのニューラルネットワーク、又は前記目標データを生成するための生成器としてのニューラルネットワークと、入力されたデータが前記目標データであるか否かを識別する識別器としてのニューラルネットワークとが互いに競合する最適化条件によって学習する態様において、前記最適化条件によって学習することにより得られた前記識別器としてのニューラルネットワークに応じて、前記特徴量を抽出するためのニューラルネットワークが定められる、
距離測定装置。 - 変換対象のデータを変換する変換器によって変換された変換データと、前記変換対象のデータを変換したときの変換データの目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出する特徴抽出部と、
前記特徴抽出部によって抽出された前記変換データの特徴量と、前記目標データの特徴量との距離を測定する距離測定部とを含み、
前記変換器としてのニューラルネットワークと、入力されたデータを認識する認識器としてのニューラルネットワークとを、前記変換器としてのニューラルネットワークにより変換したデータ、又は学習用データを用いて学習することにより得られた前記認識器としてのニューラルネットワークに応じて、前記特徴量を抽出するためのニューラルネットワークが定められる、
距離測定装置。 - 前記特徴量を抽出するためのニューラルネットワークは、CNN(Convolutional Neural Network)である請求項1又は請求項2に記載の距離測定装置。
- 前記CNNは、GLU(Geted Linear Unit)を用いる請求項3記載の距離測定装置。
- 請求項1〜請求項4の何れか1項記載の距離測定装置によって測定された距離を最小化するように前記変換器を学習する学習部と、
変換対象のデータを入力する入力部と、
前記学習部によって学習された変換器を用いて、前記入力された前記変換対象のデータを変換する変換部と
を含むデータ変換装置。 - 特徴抽出部が、変換対象のデータを変換する変換器によって変換された変換データと、前記変換対象のデータを変換したときの変換データの目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出し、
距離測定部が、前記特徴抽出部によって抽出された前記変換データの特徴量と、前記目標データの特徴量との距離を測定する、処理をコンピュータに実行させ、
前記変換器としてのニューラルネットワーク、又は前記目標データを生成するための生成器としてのニューラルネットワークと、入力されたデータが前記目標データであるか否かを識別する識別器としてのニューラルネットワークとが互いに競合する最適化条件によって学習する態様において、前記最適化条件によって学習することにより得られた前記識別器としてのニューラルネットワークに応じて、前記特徴量を抽出するためのニューラルネットワークが定められる、
距離測定方法。 - 特徴抽出部が、変換対象のデータを変換する変換器によって変換された変換データと、前記変換対象のデータを変換したときの変換データの目標データとの各々について、特徴量を抽出するためのニューラルネットワークを用いて特徴量を抽出し、
距離測定部が、前記特徴抽出部によって抽出された前記変換データの特徴量と、前記目標データの特徴量との距離を測定する、処理をコンピュータに実行させ、
前記変換器としてのニューラルネットワークと、入力されたデータを認識する認識器としてのニューラルネットワークとを、前記変換器としてのニューラルネットワークにより変換したデータ、又は学習用データを用いて学習することにより得られた前記認識器としてのニューラルネットワークに応じて、前記特徴量を抽出するためのニューラルネットワークが定められる、
距離測定方法。 - コンピュータを、請求項1〜請求項4の何れか1項記載の距離測定装置、又は請求項5のデータ変換装置の各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017158171A JP6846310B2 (ja) | 2017-08-18 | 2017-08-18 | 距離測定装置、データ変換装置、距離測定方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017158171A JP6846310B2 (ja) | 2017-08-18 | 2017-08-18 | 距離測定装置、データ変換装置、距離測定方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019035902A JP2019035902A (ja) | 2019-03-07 |
JP6846310B2 true JP6846310B2 (ja) | 2021-03-24 |
Family
ID=65637330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017158171A Active JP6846310B2 (ja) | 2017-08-18 | 2017-08-18 | 距離測定装置、データ変換装置、距離測定方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6846310B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021033129A (ja) * | 2019-08-27 | 2021-03-01 | 国立大学法人 東京大学 | 音声変換装置、音声変換方法及び音声変換プログラム |
JP7447042B2 (ja) | 2021-03-17 | 2024-03-11 | 株式会社東芝 | 画像処理装置、方法及びプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0415694A (ja) * | 1990-05-09 | 1992-01-21 | Sekisui Chem Co Ltd | 単語認識システム |
JPH1185194A (ja) * | 1997-09-04 | 1999-03-30 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 声質変換音声合成装置 |
JP2003029776A (ja) * | 2001-07-12 | 2003-01-31 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP2008216488A (ja) * | 2007-03-01 | 2008-09-18 | Univ Waseda | 音声処理装置及び音声認識装置 |
JP6393058B2 (ja) * | 2014-03-31 | 2018-09-19 | キヤノン株式会社 | 情報処理装置、情報処理方法 |
EP3384488B1 (en) * | 2015-12-01 | 2022-10-12 | Fluent.ai Inc. | System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system |
-
2017
- 2017-08-18 JP JP2017158171A patent/JP6846310B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019035902A (ja) | 2019-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11010645B2 (en) | Interactive artificial intelligence analytical system | |
EP3469582B1 (en) | Neural network-based voiceprint information extraction method and apparatus | |
KR102313028B1 (ko) | 음성 인식 시스템 및 방법 | |
US11443750B2 (en) | User authentication method and apparatus | |
KR101561651B1 (ko) | 딥 빌리프 네트워크를 이용한 음성기반 호불호 검출방법 및 장치, 그를 기록한 기록매체 | |
JP6246636B2 (ja) | パターン識別装置、パターン識別方法およびプログラム | |
JP2020038343A (ja) | 言語識別モデルの訓練方法及び装置、並びにそのためのコンピュータプログラム | |
Szep et al. | Paralinguistic Classification of Mask Wearing by Image Classifiers and Fusion. | |
CN102810311A (zh) | 说话人估计方法和说话人估计设备 | |
Egas López et al. | Assessing Parkinson’s disease from speech using fisher vectors | |
JP6846310B2 (ja) | 距離測定装置、データ変換装置、距離測定方法、及びプログラム | |
CN114898779A (zh) | 融合多模态的语音情感识别方法及系统 | |
Yasmin et al. | A rough set theory and deep learning-based predictive system for gender recognition using audio speech | |
JP6271748B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP2020134719A (ja) | 翻訳装置、翻訳方法、および翻訳プログラム | |
EP4030352A1 (en) | Task-specific text generation based on multimodal inputs | |
KR20230120790A (ko) | 가변적 언어모델을 이용한 음성인식 헬스케어 서비스 | |
US11355140B2 (en) | Emotion estimation system and non-transitory computer readable medium | |
Kavitha et al. | Deep Learning based Audio Processing Speech Emotion Detection | |
Jaiswal et al. | A generative adversarial network based ensemble technique for automatic evaluation of machine synthesized speech | |
KR102323482B1 (ko) | 발화 감정 히스토리를 이용한 대화 에이젼트 시스템 및 방법 | |
CN113870899A (zh) | 语音质量评价模型的训练方法、装置与存储介质 | |
JP6748607B2 (ja) | 音声合成学習装置、音声合成装置、これらの方法及びプログラム | |
KR102563856B1 (ko) | 딥러닝 기반 구음 장애 시각화 및 재활을 수행하는 장치, 제어 방법 및 프로그램 | |
CN112951270A (zh) | 语音流利度检测的方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190826 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200528 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210224 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210301 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6846310 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |