JP7205546B2 - 音声処理装置、音声処理方法、及びプログラム - Google Patents

音声処理装置、音声処理方法、及びプログラム Download PDF

Info

Publication number
JP7205546B2
JP7205546B2 JP2020552456A JP2020552456A JP7205546B2 JP 7205546 B2 JP7205546 B2 JP 7205546B2 JP 2020552456 A JP2020552456 A JP 2020552456A JP 2020552456 A JP2020552456 A JP 2020552456A JP 7205546 B2 JP7205546 B2 JP 7205546B2
Authority
JP
Japan
Prior art keywords
speech
signal
processing
speaker
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020552456A
Other languages
English (en)
Other versions
JPWO2020084741A1 (ja
Inventor
仁 山本
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2020084741A1 publication Critical patent/JPWO2020084741A1/ja
Application granted granted Critical
Publication of JP7205546B2 publication Critical patent/JP7205546B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、話者認識に必要となる訓練データを生成するための、音声処理装置及び音声処理方法に関し、更には、これらを実現するためのプログラムに関する。
従来から、音声認識の分野では、音声信号をテキストデータに変換する処理だけでなく、音声信号から音声の特徴を抽出し、抽出した特徴に基づいて話者を識別する処理(話者認識)も行われている。
ここで、話者認識について説明する。特許文献1は、話者認識を行うシステムを開示している。特許文献1に開示されたシステムは、まず、音声信号が入力されてくると、入力された音声信号から、人の発話の特徴を抽出する。続いて、特許文献1に開示されたシステムは、抽出した特徴を、予め登録されている特徴に照合し、照合結果に基づいて話者を識別する。
また、特許文献1に開示されたシステムにおいて、音声信号からの特徴の抽出は、特徴抽出器によって行われている。具体的には、特徴抽出器は、機械学習によって構築されたモデルを用いて、音声信号から、発話した人の特徴を抽出する。また、モデルは、例えば、多数の人から得られた訓練データを用いて、ニューラルネットワークのパラメータを最適化することによって構築される。
国際公開第2016/092807号
ところで、特許文献1に開示されたシステムにおいて、話者の識別精度を高めるためには、特徴抽出器における抽出精度を高める必要がある。そして、特徴抽出器における抽出精度を高めるためには、できるだけ多くの人から訓練データを収集する必要がある。
しかしながら、訓練データの収集は、個々の発話を録音することによって行われるので、多くの人から訓練データを収集するためには、多大なコストがかかってしまう、という問題がある。また、コストは、収集元の人が多くなるほど増加してしまう。このため、従来においては、訓練データの収集には、限界がある。
本発明の目的の一例は、上記問題を解消し、話者認識に必要となる訓練データの収集にかかるコストの上昇を抑制しつつ、特徴抽出器の抽出精度の向上を図り得る、音声処理装置、音声処理方法、及びプログラムを提供することにある。
上記目的を達成するため、本発明の一側面における音声処理装置は、話者認識における訓練データを生成するための装置であって、
前記訓練データの元になる音声信号をサンプルデータとして取得する、データ取得部と、
取得された前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな音声信号を、前記訓練データとして生成する、データ生成部と、
を備えている、
ことを特徴とする。
また、上記目的を達成するため、本発明の一側面における音声処理方法は、話者認識における訓練データを生成するための方法であって、
(a)前記訓練データの元になる音声信号をサンプルデータとして取得する、ステップと、
(b)取得された前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな音声信号を、前記訓練データとして生成する、ステップと、
を有する、
ことを特徴とする。
更に、上記目的を達成するため、本発明の一側面におけるプログラムは、コンピュータによって、話者認識における訓練データを生成するためのプログラムであって、
前記コンピュータに、
(a)前記訓練データの元になる音声信号をサンプルデータとして取得する、ステップと、
(b)取得された前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな音声信号を、前記訓練データとして生成する、ステップと、
を実行させる、プログラム。
以上のように本発明によれば、話者認識に必要となる訓練データの収集にかかるコストの上昇を抑制しつつ、特徴抽出器の抽出精度の向上を図ることができる。
図1は、本発明の実施の形態1における音声処理装置の概略構成を示すブロック図である。 図2は、本発明の実施の形態1における音声処理装置の構成をより具体的に示すブロック図である。 図3は、本発明の実施の形態1における音声処理装置の動作を示すフロー図である。 図4は、本発明の実施の形態1の変形例1における音声処理装置の構成を示すブロック図である。 図5は、本発明の実施の形態1の変形例2における音声処理装置の構成を示すブロック図である。 図6は、本発明の実施の形態2における音声処理装置の構成を示すブロック図である。 図7は、本発明の実施の形態2における音声処理装置の動作を示すフロー図である。 図8は、本発明の実施の形態2の変形例1における音声処理装置の構成を示すブロック図である。 図9は、本発明の実施の形態2の変形例2における音声処理装置の構成を示すブロック図である。 図10は、本発明の実施の形態2の変形例3における音声処理装置の構成を示すブロック図である。 図11は、本発明の実施の形態2の変形例3におけるデータ生成部の処理を具体的に示す図である。 図12は、本発明の実施の形態1及び2における音声処理装置を実現するコンピュータの一例を示すブロック図である。
(実施の形態1)
以下、本発明の実施の形態1における、音声処理装置、音声処理方法、及びプログラムについて、図1~図5を参照しながら説明する。
[装置構成]
最初に、図1を用いて、本実施の形態1における音声処理装置の構成について説明する。図1は、本発明の実施の形態1における音声処理装置の概略構成を示すブロック図である。
図1に示す本実施の形態1における音声処理装置100は、話者認識における訓練データを生成するための装置である。図1に示すように、音声処理装置100は、データ取得部10と、データ生成部20とを備えている。
データ取得部10は、訓練データの元になる音声信号をサンプルデータとして取得する。データ生成部20は、取得されたサンプルデータに対して、信号処理を実行し、サンプルデータとの類似度が設定範囲内となる新たな音声信号を、訓練データとして生成する。
このように、本実施の形態1では、既存の音声信号から、話者認識に必要となる訓練データを生成できるので、訓練データの収集にかかるコストの上昇を抑制できる。また、本実施の形態1によれば、簡単に訓練データの量を増加させることができるので、話者認識における特徴抽出器の抽出精度の向上を図ることもできる。
続いて、図2を用いて、本実施の形態1における音声処理装置のより具体的な構成について説明する。図2は、本発明の実施の形態1における音声処理装置の構成をより具体的に示すブロック図である。
図2に示すように、本実施の形態では、音声処理装置100は、外部の話者データベース200に接続されている。話者データベース200は、録音された話者の音声信号を格納している。データ取得部10は、本実施の形態では、話者データベース200から、サンプルとなる音声信号を取得する。
図2に示すように、本実施の形態では、データ生成部20は、信号処理を実行する音声変換部21を備えている。音声変換部21は、信号処理として、サンプルデータを、時間軸又は周波数軸において伸張又は収縮させる処理を実行する。
具体的には、音声変換部21は、例えば、サンプルデータである音声信号に対して、時間軸上の伸縮処理を施し、この音声信号を、声の高さが異なる人物を模した音声信号に変換する。また、音声変換部21は、サンプルデータである音声信号に対して、周波数軸上の伸縮処理を施し、この音声信号を声道長が異なる人物を模した音声信号に変換することもできる。
また、データ生成部20は、変換後の音声信号を、訓練データとして、外部の話者認識装置300へと出力する。この場合、話者認識装置300において、例えば、話者性の特徴を算出する特徴抽出器は、出力されてきた訓練データを用いて、話者間の差異を学習する。また、類似度を評価してスコアを算出する話者照合器、及び話者による類似度の値域を揃える類似度正規化器も、この訓練データを用いて学習することができる。
[装置動作]
次に、本実施の形態1における音声処理装置100の動作について図3を用いて説明する。図3は、本発明の実施の形態1における音声処理装置の動作を示すフロー図である。以下の説明においては、適宜図1を参酌する。また、本実施の形態1では、音声処理装置100を動作させることによって、音声処理方法が実施される。よって、本実施の形態1における音声処理方法の説明は、以下の音声処理装置100の動作説明に代える。
図3に示すように、最初に、データ取得部10は、話者データベース200から、サンプルとなる音声信号を取得する(ステップA1)。
次に、データ生成部20において、音声変換部21が、サンプルデータである音声信号を、時間軸又は周波数軸において伸張又は収縮させる処理を実行して、訓練データとなる新たな音声信号を生成する(ステップA2)。
ステップA2の実行後、データ生成部20は、話者認識装置300に、ステップA2で生成した訓練データを出力する(ステップA3)。ステップA3の実行によって、音声処理装置100における処理は、一旦終了するが、上述のステップA1~A3は、サンプルとなる音声信号を変えて、必要な訓練データが揃うまで、繰り返し実行される。
[実施の形態における効果]
以上のように、本実施の形態1では、元の音声信号から、声の高さが異なる人物を模した音声信号、又は声道長が異なる人物を模した音声信号が得られる。本実施の形態1によれば、訓練データの収集にかかるコストの上昇を抑制しつつ、話者認識における特徴抽出器の抽出精度の向上を図ることができる。
[プログラム]
本実施の形態1におけるプログラムは、コンピュータに、図3に示すステップA1~A3を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における音声処理装置100と音声処理方法とを実現することができる。この場合、コンピュータのプロセッサは、データ取得部10、及びデータ生成部20として機能し、処理を行なう。
また、本実施の形態1におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、データ取得部10、及びデータ生成部20のいずれかとして機能しても良い。
[変形例1]
ここで、図4を用いて、本実施の形態1における音声処理装置100の変形例1について説明する。図4は、本発明の実施の形態1の変形例1における音声処理装置の構成を示すブロック図である。
図4に示すように、本変形例1では、データ生成部20は、音声変換部21に加えて、類似度判定部22を備え、これにより、既存話者の音声信号と、変換後の音声信号との類似度を評価する。
類似度判定部22は、音声変換部21による信号処理の実行後に、類似度として、サンプルデータから抽出される話者特徴と新たな音声信号から抽出される話者特徴との類似度を求める。そして、類似度判定部22は、求めた類似度が設定範囲内にない場合は、音声変換部21に対して、再度、信号処理を実行させる。
具体的には、類似度判定部22は、音声信号から、話者特徴として、例えば、既存の手法を用いてi-vectorを抽出する。また、類似度判定部22は、類似度として、例えば、コサイン類似度を算出する。
音声変換部21は、本変形例1では、求められた類似度を取得し、類似度が設定範囲内となるように、再度変換処理を行う。例えば、類似度が所定の値より大きい場合、即ち、サンプルデータと新たな音声信号とが似ている場合は、音声変換部21は、話者特徴の差異が大きくなるように変換処理を実行する。
本変形例1によれば、声質が既存話者と異なる話者の音声信号を、確実に生成することができるので、話者認識における特徴抽出器の抽出精度をよりいっそう向上させることができる。
[変形例2]
続いて、図5を用いて、本実施の形態1における音声処理装置100の変形例2について説明する。図5は、本発明の実施の形態1の変形例2における音声処理装置の構成を示すブロック図である。
図5に示すように、本変形例2では、データ生成部20は、音声変換部21に加えて、評価確認部23を備え、これにより、信号処理後の新たな音声信号の音声らしさを評価する。
評価確認部23は、信号処理の実行後に、新たな音声信号の評価を実行する。そして、評価確認部23は、得られた評価結果が設定範囲内とならない場合は、音声変換部21に対して、再度、信号処理を実行させる。
具体的には、評価確認部23は、既存の手法を用いて、変換処理後の新たな音声信号について、音声らしさを評価する。既存の手法としては、例えば、VAD(Voice Activity Detection)等が挙げられる。また、音声変換部21は、本変形例2では、評価結果を取得し、評価結果が低く、音声らしさが不足している場合は、評価結果が高くなるように変換処理を実行する。
本変形例2によれば、人の音声らしくない音声信号は除外されるので、この場合も、話者認識における特徴抽出器の抽出精度をよりいっそう向上させることができる。
また、本実施の形態1は、上述した変形例1と変形例2とを合わせた態様であっても良い。この場合は、データ生成部20は、音声変換部21に加えて、類似度判定部22と、評価確認部23との両方を備えることになる。
(実施の形態2)
次に、本発明の実施の形態2における、音声処理装置、音声処理方法、及びプログラムについて、図6~図10を参照しながら説明する。
[装置構成]
最初に、図6を用いて、本実施の形態2における音声処理装置の構成について説明する。図6は、本発明の実施の形態2における音声処理装置の構成を示すブロック図である。
図6に示す本実施の形態2における音声処理装置101も、図1及び図2に示した実施の形態1における音声処理装置100と同様に、話者認識における訓練データを生成するための装置である。但し、本実施の形態2では、音声処理装置101は、データ生成部20の構成及び機能において、実施の形態1と異なっている。以下、相違点を中心に説明する。
本実施の形態2では、データ生成部20は、符号化処理部24と、演算処理部25と、復号処理部26とを備えている。符号化処理部24は、サンプルデータに対する符号化処理を行う。演算処理部25は、符号化処理によって得られた潜在変数に対する演算処理を行う。復号処理部26は、演算処理された潜在変数に対する復号処理を実行する。
具体的には、符号化処理部24は、例えば、自己符号化器(オートエンコーダ)の符号化部(エンコーダ)用いて、音声信号を符号化して、潜在変数、即ち、圧縮された特徴を生成する。演算処理部25は、演算処理として、例えば、潜在変数に乱数を加算する。複合処理部26は、同じ自己符号化器の復号部(デコーダ)を用いて、演算処理後の潜在変数に対して、復号を実行する。この結果、新たな音声信号が生成される。本実施の形態2では、自己符号化器として、変分自己符号化器(Variational Autoencoder)を用いてもよい。
本実施の形態2では、このように、データ生成部20は、信号処理として、符号化処理と、演算処理と、復号処理とを実行する。そして、符号化によって得られた潜在変数に対して、演算処理が行われるので、復号された音声信号は、元のサンプルデータと異なった音声信号となる。なお、演算処理は、上述した乱数の加算処理以外の処理であっても良い。
[装置動作]
次に、本実施の形態2における音声処理装置101の動作について図7を用いて説明する。図7は、本発明の実施の形態2における音声処理装置の動作を示すフロー図である。以下の説明においては、適宜図6を参酌する。また、本実施の形態2では、音声処理装置101を動作させることによって、音声処理方法が実施される。よって、本実施の形態2における音声処理方法の説明は、以下の音声処理装置10の動作説明に代える。
図7に示すように、最初に、データ取得部10は、話者データベース200から、サンプルとなる音声信号を取得する(ステップB1)。
次に、データ生成部20において、符号化処理部24が、サンプルデータに対して、符号化処理を実行する(ステップB2)。続いて、演算処理部25は、ステップB2の符号化処理によって得られた潜在変数に対して、演算処理を実行する(ステップB3)。更に、復号処理部26は、ステップB3の演算処理された潜在変数に対して、復号処理を実行して、新たな音声信号を生成する(ステップB4)。
ステップB4の実行後、データ生成部20は、話者認識装置300に、ステップB4で生成した訓練データを出力する(ステップB5)。ステップB5の実行によって、音声処理装置101における処理は、一旦終了するが、上述のステップB1~B5は、サンプルとなる音声信号を変えて、必要な訓練データが揃うまで、繰り返し実行される。
[実施の形態2における効果]
以上のように、本実施の形態2においても、実施の形態1と同様に、元の音声信号から、それとは異なる新たな音声信号が得られる。本実施の形態2によっても、訓練データの収集にかかるコストの上昇を抑制しつつ、話者認識における特徴抽出器の抽出精度の向上を図ることができる。
[プログラム]
本実施の形態2におけるプログラムは、コンピュータに、図7に示すステップB1~B5を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態2における音声処理装置101と音声処理方法とを実現することができる。この場合、コンピュータのプロセッサは、データ取得部10、及びデータ生成部20として機能し、処理を行なう。
また、本実施の形態2におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、データ取得部10、及びデータ生成部20のいずれかとして機能しても良い。
[変形例1]
ここで、図8を用いて、本実施の形態2における音声処理装置101の変形例1について説明する。図8は、本発明の実施の形態2の変形例1における音声処理装置の構成を示すブロック図である。
図4に示すように、本変形例1では、データ生成部20は、符号化処理部24、演算処理部25、及び復号処理部26に加えて、類似度判定部22を備え、これにより、既存話者の音声信号と、変換後の音声信号との類似度を評価する。
類似度判定部22は、実施の形態1の変形例1と同様に、信号処理の実行後に、類似度として、サンプルデータから抽出される話者特徴と新たな音声信号から抽出される話者特徴との類似度を求める。そして、類似度判定部22は、求めた類似度が設定範囲内にない場合は、符号化処理部24、演算処理部25、及び復号処理部26に対して、再度、信号処理を実行させる。
具体的には、本変形例1でも、類似度判定部22は、音声信号から、話者特徴として、例えば、既存の手法を用いてi-vectorを抽出する。また、類似度判定部22は、類似度として、例えば、コサイン類似度を算出する。
本変形例1では、演算処理部25が、求められた類似度を取得し、類似度が設定範囲内となるように、演算処理を行う。例えば、類似度が所定の値より大きい場合、即ち、サンプルデータと新たな音声信号とが似ている場合は、演算処理部25は、加算する乱数の値を増加させて演算処理を実行する。
本変形例1によれば、実施の形態1の変形例1と同様に、声質が既存話者と異なる話者の音声信号を、確実に生成することができるので、話者認識における特徴抽出器の抽出精度をよりいっそう向上させることができる。
[変形例2]
続いて、図9を用いて、本実施の形態2における音声処理装置101の変形例2について説明する。図9は、本発明の実施の形態2の変形例2における音声処理装置の構成を示すブロック図である。
図9に示すように、本変形例2では、データ生成部20は、符号化処理部24、演算処理部25、及び復号処理部26に加えて、評価確認部23を備え、これにより、信号処理後の新たな音声信号の音声らしさを評価する。
評価確認部23は、実施の形態1の変形例2と同様に、信号処理の実行後に、新たな音声信号の評価を実行する。そして、評価確認部23は、得られた評価結果が設定範囲内とならない場合は、符号化処理部24、演算処理部25、及び復号処理部26に対して、再度、信号処理を実行させる。
具体的には、本変形例2でも、評価確認部23は、既存の手法を用いて、変換処理後の新たな音声信号について、音声らしさを評価する。既存の手法としては、例えば、VAD(Voice Activity Detection)等が挙げられる。また、本変形例2では、演算処理部25が、評価結果を取得し、評価結果が低く、音声らしさが不足している場合は、評価結果が高くなるように演算処理を実行する
本変形例2によれば、人の音声らしくない音声信号は除外されるので、この場合も、実施の形態1の変形例2と同様に、話者認識における特徴抽出器の抽出精度をよりいっそう向上させることができる。
また、本実施の形態2も、実施の形態1と同様に、上述した変形例1と変形例2とを合わせた態様であっても良い。この場合は、データ生成部20は、符号化処理部24、演算処理部25、及び復号処理部26に加えて、類似度判定部22と、評価確認部23との両方を備えることになる。
[変形例3]
ここで、図10及び図11を用いて、本実施の形態2における音声処理装置101の変形例3について説明する。図10は、本発明の実施の形態2の変形例3における音声処理装置の構成を示すブロック図である。
図10に示すように、本変形例3では、データ生成部20は、符号化処理部24、演算処理部25、及び復号処理部26に加えて、第2の符号化処理部27と、差分算出部28とを備えている。
第2の符号化処理部27は、信号処理の前に、まず、データ取得部10を介して、サンプルデータの発話者の別の音声信号、及びサンプルデータの発話者とは異なる発話者の音声信号を取得する。そして、第2の符号化処理部27は、サンプルデータの発話者の別の音声信号、及びサンプルデータの発話者とは異なる発話者の音声信号、それぞれに対して、符号化処理を行って潜在変数を生成する。
差分算出部28は、第2の符号化処理部27で生成された各潜在変数間の差分を算出する。その後、演算処理部25は、差分算出部28で算出された差分を用いて、演算処理を実行する。
続いて、図11を用いて、本変形例3でのデータ生成部20の処理を具体的に説明する。図11は、本発明の実施の形態2の変形例3におけるデータ生成部の処理を具体的に示す図である。
図11に示すように、まず、サンプルデータは音声信号E1の音声信号である。また、サンプルデータの発話者は、識別番号(ID)が123の発話者である。この場合において、第2の符号化処理部27には、データ取得部10を介して、ID123の発話者のサンプルデータとは異なる音声信号E3と、ID456の発話者の音声信号E4とが、入力される。
よって、第2の符号化処理部27は、音声信号E3の潜在変数と、音声信号E4の潜在変数とを生成し、これらを差分算出部28に入力する。差分算出部28は、入力された2つの潜在変数について、両者の差分Dを算出し、算出した差分Dを演算処理部25に入力する。
そして、符号化処理部24は、サンプルデータである音声信号E1の潜在変数を生成するので、演算処理部25は、入力された差分Dを用いて、音声信号E1の潜在変数に対して演算処理を実行する。この場合の演算処理としては、例えば、音声信号E1の潜在変数への差分Dの加算処理が挙げられる。また、この場合においては、差分Dに対して、所定の係数αが乗算されていても良い。その後、符号処理部16は、演算処理後の潜在変数に対して、符号化処理を実行して、新たな音声信号E2を生成する。
本変形例3によれば、既存の話者間の相違に基づいて、新たな音声信号を生成できるので、話者認識における特徴抽出器の抽出精度をよりいっそう向上させることができる。
(物理構成)
ここで、実施の形態1及び2におけるプログラムを実行することによって、音声処理装置を実現するコンピュータについて図12を用いて説明する。図12は、本発明の実施の形態1及び2における音声処理装置を実現するコンピュータの一例を示すブロック図である。
図12に示すように、コンピュータ110は、CPU(Central Processing Unit)111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。なお、コンピュータ110は、CPU111に加えて、又はCPU111に代えて、GPU(Graphics Processing Unit)、又はFPGA(Field-Programmable Gate Array)を備えていても良い。
CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
また、記憶装置113の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記録媒体、又はCD-ROM(Compact Disk Read Only Memory)などの光学記録媒体が挙げられる。
なお、本実施の形態における音声処理装置100は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、音声処理装置100は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。
上述した実施の形態の一部又は全部は、以下に記載する(付記1)~(付記18)によって表現することができるが、以下の記載に限定されるものではない。
(付記1)
話者認識における訓練データを生成するための装置であって、
前記訓練データの元になる音声信号をサンプルデータとして取得する、データ取得部と、
取得された前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな音声信号を、前記訓練データとして生成する、データ生成部と、
を備えている、
ことを特徴とする音声処理装置。
(付記2)
付記1に記載の音声処理装置であって、
前記データ生成部が、前記信号処理として、前記サンプルデータを、時間軸又は周波数軸において伸張又は収縮させる処理を実行する、
ことを特徴とする音声処理装置。
(付記3)
付記1に記載の音声処理装置であって、
前記データ生成部が、前記信号処理として、前記サンプルデータに対する符号化処理と、符号化処理によって得られた潜在変数に対する演算処理と、演算処理された前記潜在変数に対する復号処理とを実行する、
ことを特徴とする音声処理装置。
(付記4)
付記1~3のいずれかに記載の音声処理装置であって、
前記データ生成部が、前記信号処理の実行後に、前記類似度として、前記サンプルデータから抽出される話者特徴と前記新たな音声信号から抽出される話者特徴との類似度を求め、求めた類似度が設定範囲内にない場合は、再度、前記信号処理を実行する、
ことを特徴とする音声処理装置。
(付記5)
付記1~4のいずれかに記載の音声処理装置であって、
前記データ生成部が、前記信号処理の実行後に、前記新たな音声信号の評価を行い、得られた評価結果が設定範囲内とならない場合は、再度、前記信号処理を実行する、
ことを特徴とする音声処理装置。
(付記6)
付記3に記載の音声処理装置であって、
前記データ生成部が、
前記信号処理の前に、前記サンプルデータの発話者の別の音声信号、及び前記サンプルデータの発話者とは異なる発話者の音声信号、それぞれに対して、符号化処理を行って潜在変数を生成し、更に、生成した潜在変数間の差分を算出し、
前記信号処理において、算出した前記差分を用いて、前記演算処理を実行する、
ことを特徴とする音声処理装置。
(付記7)
話者認識における訓練データを生成するための方法であって、
(a)前記訓練データの元になる音声信号をサンプルデータとして取得する、ステップと、
(b)取得された前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな音声信号を、前記訓練データとして生成する、ステップと、
を有する、
ことを特徴とする音声処理方法。
(付記8)
付記7に記載の音声処理方法であって、
前記(b)のステップにおいて、前記信号処理として、前記サンプルデータを、時間軸又は周波数軸において伸張又は収縮させる処理を実行する、
ことを特徴とする音声処理方法。
(付記9)
付記7に記載の音声処理方法であって、
前記(b)のステップにおいて、前記信号処理として、前記サンプルデータに対する符号化処理と、符号化処理によって得られた潜在変数に対する演算処理と、演算処理された前記潜在変数に対する復号処理とを実行する、
ことを特徴とする音声処理方法。
(付記10)
付記7~9のいずれかに記載の音声処理方法であって、
前記(b)のステップにおいて、前記信号処理の実行後に、前記類似度として、前記サンプルデータから抽出される話者特徴と前記新たな音声信号から抽出される話者特徴との類似度を求め、求めた類似度が設定範囲内にない場合は、再度、前記信号処理を実行する、
ことを特徴とする音声処理方法。
(付記11)
付記7~10のいずれかに記載の音声処理方法であって、
前記(b)のステップにおいて、前記信号処理の実行後に、前記新たな音声信号の評価を行い、得られた評価結果が設定範囲内とならない場合は、再度、前記信号処理を実行する、
ことを特徴とする音声処理方法。
(付記12)
付記9に記載の音声処理方法であって、
前記(b)のステップにおいて、
前記信号処理の前に、前記サンプルデータの発話者の別の音声信号、及び前記サンプルデータの発話者とは異なる発話者の音声信号、それぞれに対して、符号化処理を行って潜在変数を生成し、更に、生成した潜在変数間の差分を算出し、
前記信号処理において、算出した前記差分を用いて、前記演算処理を実行する、
ことを特徴とする音声処理方法。
(付記13)
コンピュータによって、話者認識における訓練データを生成するためのプログラムであって、
前記コンピュータに、
(a)前記訓練データの元になる音声信号をサンプルデータとして取得する、ステップと、
(b)取得された前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな音声信号を、前記訓練データとして生成する、ステップと、
を実行させる、プログラム。
(付記14)
付記13に記載のプログラムであって、
前記(b)のステップにおいて、前記信号処理として、前記サンプルデータを、時間軸又は周波数軸において伸張又は収縮させる処理を実行する、
ことを特徴とするプログラム
(付記15)
付記13に記載のプログラムであって、
前記(b)のステップにおいて、前記信号処理として、前記サンプルデータに対する符号化処理と、符号化処理によって得られた潜在変数に対する演算処理と、演算処理された前記潜在変数に対する復号処理とを実行する、
ことを特徴とするプログラム
(付記16)
付記13~15のいずれかに記載のプログラムであって、
前記(b)のステップにおいて、前記信号処理の実行後に、前記類似度として、前記サンプルデータから抽出される話者特徴と前記新たな音声信号から抽出される話者特徴との類似度を求め、求めた類似度が設定範囲内にない場合は、再度、前記信号処理を実行する、
ことを特徴とするプログラム
(付記17)
付記13~16のいずれかに記載のプログラムであって、
前記(b)のステップにおいて、前記信号処理の実行後に、前記新たな音声信号の評価を行い、得られた評価結果が設定範囲内とならない場合は、再度、前記信号処理を実行する、
ことを特徴とするプログラム
(付記18)
付記15に記載のプログラムであって、
前記(b)のステップにおいて、
前記信号処理の前に、前記サンプルデータの発話者の別の音声信号、及び前記サンプルデータの発話者とは異なる発話者の音声信号、それぞれに対して、符号化処理を行って潜在変数を生成し、更に、生成した潜在変数間の差分を算出し、
前記信号処理において、算出した前記差分を用いて、前記演算処理を実行する、
ことを特徴とするプログラム
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
以上のように本発明によれば、話者認識に必要となる訓練データの収集にかかるコストの上昇を抑制しつつ、特徴抽出器の抽出精度の向上を図ることができる。本発明、話者認識が求められる各種分野に有用である。
10 データ取得部
20 データ生成部
21 音声変換部
22 類似度判定部
23 評価確認部
24 符号化処理部
25 演算処理部
26 復号処理部
27 第2の符号化処理部
28 差分算出部
100 音声処理装置(実施の形態1)
101 音声処理装置(実施の形態2)
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス
200 話者データベース
300 話者認識装置

Claims (21)

  1. 第1の音声信号をサンプルデータとして取得
    取得た前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな第2の音声信号を、前記訓練データとして生成する、
    音声処理装置と、
    生成された前記第2の音声信号を前記第1の音声信号の話者とは異なる話者として学習する、話者認識装置と、
    を備えている、
    ことを特徴とするシステム
  2. 請求項1に記載のシステムであって、
    前記音声処理装置が、前記信号処理として、前記サンプルデータを、時間軸又は周波数軸において伸張又は収縮させる処理を実行する、
    ことを特徴とするシステム
  3. 請求項1に記載のシステムであって、
    前記音声処理装置が、前記信号処理として、前記サンプルデータに対する符号化処理と、符号化処理によって得られた潜在変数に対する演算処理と、演算処理された前記潜在変数に対する復号処理とを実行する、
    ことを特徴とするシステム
  4. 請求項1~3のいずれかに記載のシステムであって、
    前記音声処理装置が、前記信号処理の実行後に、前記類似度として、前記サンプルデータから抽出される話者特徴と前記新たな音声信号から抽出される話者特徴との類似度を求め、求めた類似度が設定範囲内にない場合は、再度、前記信号処理を実行する、
    ことを特徴とするシステム
  5. 請求項1~4のいずれかに記載のシステムであって、
    前記音声処理装置が、前記信号処理の実行後に、前記新たな音声信号の評価を行い、得られた評価結果が設定範囲内とならない場合は、再度、前記信号処理を実行する、
    ことを特徴とするシステム
  6. 請求項3に記載のシステムであって、
    前記音声処理装置が、
    前記信号処理の前に、前記サンプルデータの発話者の別の音声信号、及び前記サンプルデータの発話者とは異なる発話者の音声信号、それぞれに対して、符号化処理を行って潜在変数を生成し、更に、生成した潜在変数間の差分を算出し、
    前記信号処理において、算出した前記差分を用いて、前記演算処理を実行する、
    ことを特徴とするシステム
  7. 請求項3に記載のシステムであって、
    前記音声処理装置が、前記類似度が所定の値より大きい場合に、前記潜在変数に対する演算処理として、前記潜在変数に乱数を加算する、
    ことを特徴とするシステム。
  8. a)第1の音声信号をサンプルデータとして取得する、ステップと、
    (b)取得た前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな第2の音声信号を、前記訓練データとして生成する、ステップと、
    (c)生成された前記第2の音声信号を前記第1の音声信号の話者とは異なる話者として学習する、ステップと、
    を有する、
    ことを特徴とする音声処理方法。
  9. 請求項に記載の音声処理方法であって、
    前記(b)のステップにおいて、前記信号処理として、前記サンプルデータを、時間軸又は周波数軸において伸張又は収縮させる処理を実行する、
    ことを特徴とする音声処理方法。
  10. 請求項に記載の音声処理方法であって、
    前記(b)のステップにおいて、前記信号処理として、前記サンプルデータに対する符号化処理と、符号化処理によって得られた潜在変数に対する演算処理と、演算処理された前記潜在変数に対する復号処理とを実行する、
    ことを特徴とする音声処理方法。
  11. 請求項10のいずれかに記載の音声処理方法であって、
    前記(b)のステップにおいて、前記信号処理の実行後に、前記類似度として、前記サンプルデータから抽出される話者特徴と前記新たな音声信号から抽出される話者特徴との類似度を求め、求めた類似度が設定範囲内にない場合は、再度、前記信号処理を実行する、
    ことを特徴とする音声処理方法。
  12. 請求項11のいずれかに記載の音声処理方法であって、
    前記(b)のステップにおいて、前記信号処理の実行後に、前記新たな音声信号の評価を行い、得られた評価結果が設定範囲内とならない場合は、再度、前記信号処理を実行する、
    ことを特徴とする音声処理方法。
  13. 請求項10に記載の音声処理方法であって、
    前記(b)のステップにおいて、
    前記信号処理の前に、前記サンプルデータの発話者の別の音声信号、及び前記サンプルデータの発話者とは異なる発話者の音声信号、それぞれに対して、符号化処理を行って潜在変数を生成し、更に、生成した潜在変数間の差分を算出し、
    前記信号処理において、算出した前記差分を用いて、前記演算処理を実行する、
    ことを特徴とする音声処理方法。
  14. 請求項10に記載の音声処理方法であって、
    前記(b)のステップにおいて、前記類似度が所定の値より大きい場合に、前記潜在変数に対する演算処理として、前記潜在変数に乱数を加算する、
    ことを特徴とする音声処理方法。
  15. ンピュータに、
    (a)第1の音声信号をサンプルデータとして取得する、ステップと、
    (b)取得た前記サンプルデータに対して、信号処理を実行し、前記サンプルデータとの類似度が設定範囲内となる新たな第2の音声信号を、前記訓練データとして生成する、ステップと、
    (c)生成された前記第2の音声信号を前記第1の音声信号の話者とは異なる話者として学習する、ステップと、
    を実行させる、プログラム。
  16. 請求項1に記載のプログラムであって、
    前記(b)のステップにおいて、前記信号処理として、前記サンプルデータを、時間軸又は周波数軸において伸張又は収縮させる処理を実行する、
    ことを特徴とするプログラム。
  17. 請求項1に記載のプログラムであって、
    前記(b)のステップにおいて、前記信号処理として、前記サンプルデータに対する符号化処理と、符号化処理によって得られた潜在変数に対する演算処理と、演算処理された前記潜在変数に対する復号処理とを実行する、
    ことを特徴とするプログラム。
  18. 請求項1~1のいずれかに記載のプログラムであって、
    前記(b)のステップにおいて、前記信号処理の実行後に、前記類似度として、前記サンプルデータから抽出される話者特徴と前記新たな音声信号から抽出される話者特徴との類似度を求め、求めた類似度が設定範囲内にない場合は、再度、前記信号処理を実行する、
    ことを特徴とするプログラム。
  19. 請求項1~1のいずれかに記載のプログラムであって、
    前記(b)のステップにおいて、前記信号処理の実行後に、前記新たな音声信号の評価を行い、得られた評価結果が設定範囲内とならない場合は、再度、前記信号処理を実行する、
    ことを特徴とするプログラム。
  20. 請求項1に記載のプログラムであって、
    前記(b)のステップにおいて、
    前記信号処理の前に、前記サンプルデータの発話者の別の音声信号、及び前記サンプルデータの発話者とは異なる発話者の音声信号、それぞれに対して、符号化処理を行って潜在変数を生成し、更に、生成した潜在変数間の差分を算出し、
    前記信号処理において、算出した前記差分を用いて、前記演算処理を実行する、
    ことを特徴とするプログラム。
  21. 請求項17に記載のプログラムであって、
    前記(b)のステップにおいて、前記類似度が所定の値より大きい場合に、前記潜在変数に対する演算処理として、前記潜在変数に乱数を加算する、
    ことを特徴とするプログラム。
JP2020552456A 2018-10-25 2018-10-25 音声処理装置、音声処理方法、及びプログラム Active JP7205546B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/039735 WO2020084741A1 (ja) 2018-10-25 2018-10-25 音声処理装置、音声処理方法、及びコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JPWO2020084741A1 JPWO2020084741A1 (ja) 2021-09-09
JP7205546B2 true JP7205546B2 (ja) 2023-01-17

Family

ID=70332183

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020552456A Active JP7205546B2 (ja) 2018-10-25 2018-10-25 音声処理装置、音声処理方法、及びプログラム

Country Status (4)

Country Link
US (1) US12051424B2 (ja)
EP (1) EP3872808A4 (ja)
JP (1) JP7205546B2 (ja)
WO (1) WO2020084741A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240144101A1 (en) * 2022-11-01 2024-05-02 Kabushiki Kaisha Yaskawa Denki Generation system, computer-readable storage medium, and method for generating waveform evaluation model

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003022088A (ja) 2001-07-10 2003-01-24 Sharp Corp 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
JP2018139071A (ja) 2017-02-24 2018-09-06 株式会社リコー 生成モデル学習方法、生成モデル学習装置およびプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0792673B2 (ja) 1984-10-02 1995-10-09 株式会社東芝 認識用辞書学習方法
JPS6378200A (ja) * 1986-09-22 1988-04-08 松下電器産業株式会社 音声認識方法
JPH04295900A (ja) * 1991-03-26 1992-10-20 Sekisui Chem Co Ltd 話者認識システム
US5913187A (en) * 1997-08-29 1999-06-15 Nortel Networks Corporation Nonlinear filter for noise suppression in linear prediction speech processing devices
KR20140017338A (ko) * 2012-07-31 2014-02-11 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 장치 및 방법
US9548056B2 (en) * 2012-12-19 2017-01-17 Dolby International Ab Signal adaptive FIR/IIR predictors for minimizing entropy
WO2016092807A1 (ja) 2014-12-11 2016-06-16 日本電気株式会社 話者識別装置および話者識別用の登録音声の特徴量登録方法
US10861475B2 (en) * 2015-11-10 2020-12-08 Dolby International Ab Signal-dependent companding system and method to reduce quantization noise
US10373073B2 (en) * 2016-01-11 2019-08-06 International Business Machines Corporation Creating deep learning models using feature augmentation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003022088A (ja) 2001-07-10 2003-01-24 Sharp Corp 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体
JP2018139071A (ja) 2017-02-24 2018-09-06 株式会社リコー 生成モデル学習方法、生成モデル学習装置およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
西崎博光 他,"音声コーデックと変分オートエンコーダを利用した音響モデル学習データの拡張",日本音響学会2017年秋季研究発表会講演論文集CD-ROM,2017年09月11日,pp.87-90

Also Published As

Publication number Publication date
US20220005482A1 (en) 2022-01-06
US12051424B2 (en) 2024-07-30
EP3872808A1 (en) 2021-09-01
EP3872808A4 (en) 2021-11-03
JPWO2020084741A1 (ja) 2021-09-09
WO2020084741A1 (ja) 2020-04-30

Similar Documents

Publication Publication Date Title
CN110457432B (zh) 面试评分方法、装置、设备及存储介质
CN111292764A (zh) 辨识系统及辨识方法
CN112071330B (zh) 一种音频数据处理方法、设备以及计算机可读存储介质
CN111899758B (zh) 语音处理方法、装置、设备和存储介质
US20170011736A1 (en) Method and device for recognizing voice
Bharti et al. Real time speaker recognition system using MFCC and vector quantization technique
CN102945673A (zh) 一种语音指令范围动态变化的连续语音识别方法
CN110890087A (zh) 一种基于余弦相似度的语音识别方法和装置
CN112786003A (zh) 语音合成模型训练方法、装置、终端设备及存储介质
US10147443B2 (en) Matching device, judgment device, and method, program, and recording medium therefor
JP7205546B2 (ja) 音声処理装置、音声処理方法、及びプログラム
CN115376498A (zh) 语音识别方法、模型训练方法、装置、介质、电子设备
CN109671440B (zh) 一种模拟音频失真方法、装置、服务器及存储介质
WO2018001125A1 (zh) 一种音频识别方法和装置
CN111292754A (zh) 语音信号处理方法、装置及设备
JP7095756B2 (ja) 音声特徴量抽出装置、音声特徴量抽出方法、及びプログラム
CN113436621B (zh) 一种基于gpu语音识别的方法、装置、电子设备及存储介质
Singh et al. Voice based login authentication for Linux
CN115035904A (zh) 一种基于生成式对抗神经网络的高质量声码器模型
CN114724589A (zh) 语音质检的方法、装置、电子设备和存储介质
CN113990325A (zh) 流式语音识别方法及装置、电子设备、存储介质
Aggarwal et al. Characterization between child and adult voice using machine learning algorithm
Al-Sarayreh et al. Using the sound recognition techniques to reduce the electricity consumption in highways
Zhipeng et al. Voiceprint recognition based on BP Neural Network and CNN
CN113066459A (zh) 基于旋律的歌曲信息合成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210420

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221212

R151 Written notification of patent or utility model registration

Ref document number: 7205546

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151