JP7218810B2 - 音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム - Google Patents

音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム Download PDF

Info

Publication number
JP7218810B2
JP7218810B2 JP2021534517A JP2021534517A JP7218810B2 JP 7218810 B2 JP7218810 B2 JP 7218810B2 JP 2021534517 A JP2021534517 A JP 2021534517A JP 2021534517 A JP2021534517 A JP 2021534517A JP 7218810 B2 JP7218810 B2 JP 7218810B2
Authority
JP
Japan
Prior art keywords
speech
model
information
acoustic signal
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021534517A
Other languages
English (en)
Other versions
JPWO2021014649A1 (ja
Inventor
亮 増村
隆伸 大庭
清彰 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021014649A1 publication Critical patent/JPWO2021014649A1/ja
Application granted granted Critical
Publication of JP7218810B2 publication Critical patent/JP7218810B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、音響信号の音声区間と非音声区間を判定する音声非音声判定装置、音声非音声判定用モデルパラメータを学習する音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラムに関する。
音声非音声判定は、発話区間検出における重要な要素技術であり、音響信号を音声区間、非音声区間のいずれかに判定する技術である。発話区間検出では、判定された音声区間と非音声区間の情報に基づき、後段の音声認識、話者認識、言語識別、音声キーワード検出といった処理において有効となる発話区間を検出する。一般的に、音声非音声判定を実施した後に、短い時間長(例えば0.2秒以下)の非音声区間を「発話内の非音声区間」とみなし、それより長い時間長の非音声区間を「発話外の非音声区間」とみなすことで、発話区間を検出する。
音声非音声判定は、短時間フレーム(例えば20msec)ごとの音響信号ごとに、音声であるか非音声であるかを判定する方法が一般的である。音声非音声判定のうち最も簡易な方法は、短時間フレームごとに音声パワーを計算して、音声パワーがあらかじめ人手で決定した閾値よりも大きいか小さいかを判断することにより、音声非音声判定を行う方法である。しかしながら、雑音下では非音声区間のパワーも音声区間のパワーも同様に大きくなってしまうため、このような簡易な方法は実用的ではないことが知られている。
実用に資する音声非音声判定を行うための手段として、機械学習に基づく方法が多く検討されている。その中でも、近年はDeep Neural Networkを用いたモデル化が強力な方法として知られている。以下ではこの方法の概要を述べる。入力は、短時間フレームごとの音響特徴量の系列である。この音響特徴量としては、様々な情報が利用できるが、例えばメル周波数ケプストラム係数や基本周波数といった情報を用いることができる。ここでは、入力の音響信号を(x1,...,xT)と表し、xtはt番目のフレームの音響特徴量を表す。従来技術におけるDeep Neural Networkのモデル化は、各フレームの音声非音声状態の生成確率をモデル化することにより実現される。t番目のフレームの音声非音声状態の生成確率は次式で定義できる。
P(st|x1,...,xt;θ)=VoiceActivityDetection(x1,...,xt;θ)
ここで、(s1,...,sT)は(x1,...,xT)に対応した音声非音声状態を表し、stはt番目のフレームの状態を表し、「音声」か「非音声」の何れかのラベルを持つ。VoiceActivityDetection()は音声非音声判定を行うための関数であり、出力として音声非音声状態の生成確率を求めることができるものであれば、任意のネットワーク構造を適用できる。たとえば、リカレントニューラルネットワークや畳み込みニューラルネットワークなどと、ソフトマックス層を組み合わせることにより状態の生成確率を求めるネットワークを構成できる。例えば、非特許文献1、非特許文献2、非特許文献3の技術を採用できる。θはあらかじめ与えられた学習データを用いて後述する方法で事前に計算されたパラメータであり、パラメータの実体はVoiceActivityDetection()の関数の定義に依存したものとなる。このようなモデル化を行う場合、音声非音声判定は次式に基づく。
Figure 0007218810000001
ここで、s^1,...,s^Tは音声非音声状態(ラベル)の予測結果である。
従来技術では、音響信号と正解の音声非音声状態のペアデータを1組以上準備することにより、モデルパラメータθを学習する。L個(Lは1以上の整数)のペアデータを含む学習データセットをC={(X1,S1),...,(XL,SL)}と置き、音響信号をXl=(x1,l,...,xTl,l)、音声非音声状態のラベル系列をSl=(s1,l,...,sTl,l)と表す場合、従来技術では以下のような基準で学習を行う。
Figure 0007218810000002
ここで、θ^は学習データをもとに学習されたモデルパラメータを表す。なお、このモデルパラメータ推定問題は任意の方法で解くことができるが、例えば勾配法を用いた最適化を利用することができる。詳細は、例えば非特許文献1、非特許文献2、非特許文献3に開示されている。
X.-L. Zhang and J. Wu, "Deep belief networks based voice activity detection," IEEE Transactions on Audio, Speech, and Language Processing, vol. 21, no. 4, pp. 697-710, 2013. N. Ryant, M. Liberman, and J. Yuan, "Speech activity detection on youtube using deep neural networks," In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp. 728-731, 2013. T. Hughes and K. Mierle, "Recurrent neural networks for voice activity detection," In Proc. International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp. 7378-7382, 2013.
従来技術の課題は、高雑音下での音声非音声判定の性能である。様々な雑音環境下で収録された音響信号と音声非音声状態のラベルのペアから学習を行うことにより、雑音が比較的少ない音響信号の音声非音声判定の性能は高いが、雑音が多く含まれる音響信号の音声非音声判定の性能は低くなってしまう。特に信号雑音比が10dB以下の高雑音下の音響信号に対する音声非音声判定の性能が低いことが知られている。これは、入力の音響信号からの情報のみでは、音声と非音声(雑音)を見分けづらいことに起因する。
そこで本発明では、高雑音下の音響信号に対して頑健な音声非音声判定装置を提供することを目的とする。
本発明の音声非音声判定装置は、音響シーン分類部と、音声強調部と、音声非音声判定部を含む。
音響シーン分類部は、音響信号を入力とし音響信号が収録されたシーンに関する情報である音響シーン情報を出力する第1のモデルを含み、音響信号と予め学習された第1のモデルのパラメータとを入力として音響シーン情報を出力する。音声強調部は、音響信号を入力とし強調後の音響信号に関する情報である音声強調情報を出力する第2のモデルを含み、音響信号と予め学習された第2のモデルのパラメータとを入力として音声強調情報を出力する。音声非音声判定部は、音響信号と音響シーン情報と音声強調情報を入力とし音声区間または非音声区間のいずれかのラベルに関する情報である音声非音声ラベルを出力する第3のモデルを含み、音響信号と音響シーン情報と音声強調情報と予め学習された第3のモデルのパラメータとを入力として音声非音声ラベルを出力する。
本発明の音声非音声判定装置は、高雑音下の音響信号に対して頑健である。
実施例1の音声非音声判定装置の構成を示すブロック図。 実施例1の音声非音声判定装置の動作を示すフローチャート。 実施例1の音声非音声判定用モデルパラメータ学習装置の構成を示すブロック図。 実施例1の音声非音声判定用モデルパラメータ学習装置の動作を示すフローチャート。 実施例2の音声非音声判定装置の構成を示すブロック図。 実施例2の音声非音声判定装置の動作を示すフローチャート。 実施例2の音声非音声判定用モデルパラメータ学習装置の構成を示すブロック図。 実施例2の音声非音声判定用モデルパラメータ学習装置の動作を示すフローチャート。 コンピュータの機能構成例を示す図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
<実施例の概要>
以下の実施例では、高雑音下での音声非音声判定の性能を向上した音声非音声判定装置を開示する。
以下の実施例におけるポイントは、入力の音響信号に対して、「どんな場所で収録された音響信号なのかを判定する技術」である音響シーン分類と、「雑音を取り除いた音響信号を推定する技術」である音声強調を同時に適用し、両者の出力情報をもとに、音声非音声判定を行うことである。音響シーン分類の出力情報を扱うことより、例えば駅のホームなのか、人込みなのか、工場なのかといった場所を推定することができ、「どんな雑音が発生しているのか」を情報として得ることが可能となる。これにより音声非音声判定の性能改善が可能となる。また、音声強調の出力情報を扱うことにより、雑音で埋もれてしまった音声情報をより考慮した音声非音声判定を行うことが可能となる。そしてこれらの情報を同時に考慮することにより、多様な雑音環境下で頑健に動作する音声非音声判定装置を提供することができる。具体的な効果としては、従来技術と比較して、高雑音下、特に信号雑音比が10dB以下の音響信号に対する音声非音声判定の性能を大きく改善することができる。
さらに、以下の実施例では、上述した音響シーン分類や音声強調の情報を考慮した音声非音声判定を実現するための音声非音声判定用モデルパラメータ学習装置を開示する。
<音声非音声判定装置11の構成、動作>
図1を参照して実施例1の音声非音声判定装置の構成を説明する。同図に示すように本実施例の音声非音声判定装置11は、音響シーン分類部111と、音声強調部112と、音声非音声判定部113を含む。
以下、図2を参照して各構成要件の動作を説明する。音響シーン分類部111は、音響信号を入力とし音響信号が収録されたシーンに関する情報である音響シーン情報を出力する第1のモデルを含み、音響信号と予め学習された第1のモデルのパラメータとを入力として音響シーン情報を出力する(S111)。音声強調部112は、音響信号を入力とし強調後の音響信号に関する情報である音声強調情報を出力する第2のモデルを含み、音響信号と予め学習された第2のモデルのパラメータとを入力として音声強調情報を出力する(S112)。音声非音声判定部113は、音響信号と音響シーン情報と音声強調情報を入力とし音声区間または非音声区間のいずれかのラベルに関する情報である音声非音声ラベルを出力する第3のモデルを含み、音響信号と音響シーン情報と音声強調情報と予め学習された第3のモデルのパラメータとを入力として音声非音声ラベルを出力する(S113)。なお、第1、第2、第3のモデルは、DNNを用いたモデルであってもよいし、他の機械学習等を用いた任意のモデルであってもよい。
以下、各構成要件の動作をさらに詳細に説明する。
<音響シーン分類部111>
入力:音響信号(x1,...,xT)、音響シーン分類用モデルパラメータθa
出力:音響シーン情報(a1,...,aT)
音響シーン分類部111は、音響信号(x1,...,xT)、音響シーン分類用モデルパラメータθaから、音響シーン情報(a1,...,aT)を推定する(S111)。この音響シーン情報は、ベクトル系列として表され、系列長は音響信号と同一のものである。音響シーン情報は次式に従い推定できる。
(a1,...,aT)=AcousticSceneClassification(x1,...,xTa)
ここで、AcousticSceneClassification()は、入力の音響信号から音響シーン情報のベクトル系列を出力する関数である。この関数には、後述のθaに関する学習基準が適用できるネットワークであれば任意のものを用いることができ、例えばフィードフォワードニューラルネットワークやリカレントニューラルネットワークなどを用いることができる。音響シーン分類用モデルパラメータθaをどのように得るかは項目<音声非音声判定用モデルパラメータ学習装置12の構成、動作>以降で後述する。
<音声強調部112>
入力:音響信号(x1,...,xT)、音声強調用モデルパラメータθb
出力:音声強調情報(b1,...,bT)
音声強調部112は、音響信号(x1,...,xT)、音声強調用モデルパラメータθbから、音声強調情報(b1,...,bT)を推定する(S112)。この音声強調情報は、ベクトル系列として表され、系列長は音響信号と同一のものである。音声強調情報は次式に従い推定できる。
(b1,...,bT)=SpeechEnhancement(x1,...,xTb)
ここで、SpeechEnhancement()は、入力の音響信号から音声強調情報のベクトル系列を出力する関数である。この関数には、後述のθbに関する学習基準が適用できるネットワークであれば任意のものを用いることができ、例えばフィードフォワードニューラルネットワークやリカレントニューラルネットワークなどを用いることができる。音声強調用モデルパラメータθbをどのように得るかは項目<音声非音声判定用モデルパラメータ学習装置12の構成、動作>以降で後述する。
<音声非音声判定部113>
入力:音響信号(x1,...,xT)、音声非音声判定用モデルパラメータθc、音響シーン情報(a1,...,aT)、音声強調情報(b1,...,bT)
出力:音声非音声ラベル(s1,...,sT)
音声非音声判定部113は、入力の音響信号(x1,...,xT)と音響シーン情報(a1,...,aT)と音声強調情報(b1,...,bT)、音声非音声判定用モデルパラメータθcから、音声非音声ラベル(s1,...,sT)を推定する(S113)。そのために、入力の音響信号、音響シーン情報、そして音声強調情報を同時に考慮して、音声非音声状態を推定する。具体的には、音声非音声判定部113は、これらの3つの要素の結合ベクトルを最初に構成する。結合ベクトル系列は次式で表される。
(u1,...,uT)=([x1,a1,b1],...,[xT,aT,bT])
この結合ベクトル系列の系列長は、入力の音響信号の系列長と同一である。音声非音声判定部113は、この結合ベクトル系列を用い、次式に従って音声非音声判定のモデル化を実行する。
P(st|x1,...,xtabc)=SpeechActivityDetection(u1,...,utc)
ここで、SpeechActivityDetection()は、結合ベクトル系列から音声非音声状態系列の確率を生成するための関数である。この関数には、後述のθcに関する学習基準が適用できるネットワークであれば任意のものを用いることができ、例えばフィードフォワードニューラルネットワークやリカレントニューラルネットワークとソフトマックス関数を組み合わせることで実現できる。このようなモデル化を行う場合、音声非音声判定は次式に基づく。
Figure 0007218810000003
ここで、s^1,...,s^Tは予測結果の音声非音声状態である。
<音声非音声判定用モデルパラメータ学習装置12の構成、動作>
以下、図3を参照して本実施例の音声非音声判定用モデルパラメータ学習装置の構成を説明する。同図に示すように、本実施例の音声非音声判定用モデルパラメータ学習装置12は、音響シーン分類用モデルパラメータ学習部121と、音声強調用モデルパラメータ学習部122と、音声非音声判定用モデルパラメータ学習部123を含む。
以下、図4を参照して各構成要件の動作を説明する。音響シーン分類用モデルパラメータ学習部121は、音響信号と音響信号が収録されたシーンのラベルである音響シーンラベルのペアデータ集合を第1の学習データとして音響シーン分類用のモデルである第1のモデルのパラメータを学習する(S121)。音声強調用モデルパラメータ学習部122は、音響信号と音声強調後の音響信号のペアデータ集合を第2の学習データとして音声強調用のモデルである第2のモデルのパラメータを学習する(S122)。音声非音声判定用モデルパラメータ学習部123は、音響信号と音声非音声状態を表すラベルのペアデータ集合を第3の学習データとし、第3の学習データに含まれる音響信号に対する第1のモデルの出力である音響シーン情報と、第3の学習データに含まれる音響信号に対する第2のモデルの出力である音声強調情報と、第3の学習データに含まれるラベルと、第3の学習データに含まれる音響信号の、合計4つの情報を含む第4の学習データについて、音声非音声判定用のモデルである第3のモデルのパラメータを学習する(S123)。
以下、各構成要件の動作をさらに詳細に説明する。
<音響シーン分類用モデルパラメータ学習部121>
入力:音響信号と音響シーンラベルのペアデータ集合A={(X1,O1),...,(XM,OM)}
出力:音響シーン分類用モデルパラメータθa
音響シーン分類用モデルパラメータ学習部121は、音響信号と音響シーンラベル情報のペアデータ集合A={(X1,O1),...,(XM,OM)}から、音響シーン分類用モデルパラメータθaを学習する(S121)。ここで、Mはペアデータの総数であり、1以上の値である。音響信号をXm=(x1,m,...,xTm,m)、音響シーンのラベル系列をOm=(o1,m,...,oTm,m)と表す。ここで、ot,mは、音響シーンのラベルを表し、例えば「駅構内」「人ごみ」「静音」など、あらかじめ人手で規定したものであり、ラベル種類数は2以上である。例えば場所、人が近くにいるか、ノイズがあるか、背景音はどんなものか、残響はどの程度あるかなど、発話以外の音の情報から定義できるものであれば、任意のラベルを設定できる。また、1つの音声区間に対してラベルを複数付与してもよい。このとき、モデルパラメータの推定は次式に従う。
Figure 0007218810000004
ここで、θ^aは学習データをもとに推定された音響シーン分類用モデルパラメータを表す。このモデルパラメータ推定問題は任意の方法で解くことができ、例えば勾配法を用いた最適化を利用できる。本実施例では、P(ot,m|x1,m,...,xt,ma)は2種類のモデル定義を用いることができる。1種類目は、以下のようなモデル定義である。
P(ot,m|x1,m,...,xt,ma)=AcousticSceneClassification(x1,m,...,xt,ma)
このとき、AcousticSceneClassification()の出力ベクトル系列は、各フレームの音響シーンについての離散確率分布の系列として表されることになる。2種類目は、以下のようなモデル定義である。
P(ot,m|x1,m,...,xt,ma)=Posterior(AcousticSceneClassification(x1,m,...,xt,ma);θa)
ここで、Posterior()はAcousticSceneClassification()の出力ベクトル系列から、各フレームの音響シーンについての離散確率分布の系列に変換するための関数である。Posterior()には、ベクトル系列を離散確率分布系列に変換できる関数であれば任意の関数を用いることができるが、例えばソフトマックス関数を用いた線形変換関数を用いることができる。
<音声強調用モデルパラメータ学習部122>
入力:音響信号と音声強調後の音響信号のペアデータ集合B={(X1,X- 1),...,(XN,X- N)}
出力:音声強調用モデルパラメータθb
音声強調用モデルパラメータ学習部122は、音響信号と音声強調後の音響信号のペアデータ集合B={(X1,X- 1),...,(XN,X- N)}から、音声強調用モデルパラメータθbを学習する(S122)。ここで、Nはペアデータの総数であり、1以上の値である。音響信号をXn=(x1,n,...,xTn,n)、音声強調後の音響信号をX- n=(x- 1,n,...,x- Tn,n)と表す。このモデルパラメータの推定は次式に従う。
Figure 0007218810000005
ここで、θ^bは学習データをもとに推定された音声強調用モデルパラメータを表す。このモデルパラメータ推定問題は任意の方法で解くことができるが、例えば勾配法を用いた最適化を利用することができる。本実施例では、f(x1,n,...,xt,nb)は2種類のモデル定義を用いることができる。1種類目は、以下のようなモデル定義である。
f(x1,n,...,xt,nb)=SpeechEnhancement(x1,n,...,xt,nb)
このとき、SpeechEnhancement()の出力ベクトル系列は、各フレームの音声強調後の音響信号の系列として表されることになる。2種類目は、以下のようなモデル定義である。
f(x1,n,...,xt,nb)=Post(SpeechEnhancement(x1,n,...,xt,nb);θb)
このとき、Post()はSpeechEnhancement()の出力ベクトル系列から、各フレーム音声強調後の音響信号の系列に変換するための関数である。Post()には、ベクトル系列をベクトル系列に変換できる関数であれば任意の関数を用いることができるが、例えば単純な線形変換関数を用いることができる。
<音声非音声判定用モデルパラメータ学習部123>
入力:音響信号と音声非音声状態を表すラベルのペアデータ集合C={(X1,S1),...,(XL,SL)}、音響シーン分類用モデルパラメータθa、音声強調用モデルパラメータθb
出力:音声非音声判定用モデルパラメータθc
音声非音声判定モデルパラメータ学習部123は、音響信号と音声非音声状態(ラベル)のペアデータ集合C={(X1,S1),...,(XL,SL)}、音響シーン分類用モデルパラメータθa、音声強調用モデルパラメータθbから、音声非音声判定用モデルパラメータθcを推定する。ここで、Lは音響信号と音声非音声状態を表すラベルのペアデータ数を表し、1以上である。音響信号をXl=(x1,l,...,xTl,l)、音声非音声状態のラベル系列をSl=(s1,l,...,sTl,l)と表す。このとき、音声非音声判定用モデルパラメータは次式のとおり推定できる。
Figure 0007218810000006
ここで、θ^cは学習データをもとに推定された音声非音声判定用モデルパラメータを表す。このモデルパラメータ推定問題は任意の方法で解くことができるが、例えば勾配法を用いた最適化を利用することができる。
前述の実施例では、音響シーン情報と音声強調情報を用いているが、これ以外にも、「音響信号から同一系列長のベクトル系列を出力する動作」であれば、その出力情報を、音響シーン分類情報と音声強調情報に加えて用いる構成とすることができる。
例えば、入力の音響信号から音素認識を動作させ、音素認識情報を追加で用いる構成や、入力の音響信号から話者認識を動作させ、話者認識情報を追加で用いる構成とすることができる。実施例2は、音響シーン情報、音声強調情報、音素認識情報、話者認識情報を音声非音声判定のために用いる構成例である。
<音声非音声判定装置21の構成、動作>
図5を参照して実施例2の音声非音声判定装置の構成を説明する。同図に示すように本実施例の音声非音声判定装置21は、音響シーン分類部111と、音声強調部112と、音素認識部213と、話者認識部214と、音声非音声判定部215を含み、音響シーン分類部111、音声強調部112は実施例1と同じである。なお、同図において、音素認識情報を(d1,...,dT)、話者認識情報を(e1,...,eT)、音素認識用モデルパラメータをθd、話者認識用モデルパラメータをθeと表す。
以下、図6を参照して実施例1と異なる各構成要件の動作を説明する。
音素認識部213は、音響信号を入力とし音響信号の音素認識結果に関する情報である音素認識情報を出力する第4のモデルを含み、音響信号と予め学習された第4のモデルのパラメータとを入力として音素認識情報を出力する(S213)。話者認識部214は、音響信号を入力とし音響信号の話者認識結果に関する情報である話者認識情報を出力する第5のモデルを含み、音響信号と予め学習された第5のモデルのパラメータとを入力として話者認識情報を出力する(S214)。
なお、第4、第5のモデルは、DNNを用いたモデルであってもよいし、他の機械学習等を用いた任意のモデルであってもよい。
ここで、音声非音声判定用のモデルである第3のモデルは、音響シーン情報と音声強調情報と音素認識情報と話者認識情報を入力とし音声非音声ラベルを出力するモデルである。
音声非音声判定部215は、音響信号と音響シーン情報と音声強調情報と音素認識情報と話者認識情報と予め学習された第3のモデルのパラメータとを入力として音声非音声ラベルを出力する(S215)。
なお、音素認識部213、話者認識部214のいずれか一つを省略してもよい。音素認識部213を省略する場合、第3のモデルは、音響信号と音響シーン情報と音声強調情報と話者認識情報を入力とし音声非音声ラベルを出力するモデルであり、音声非音声判定部215は、音響信号と音響シーン情報と音声強調情報と話者認識情報と予め学習された第3のモデルのパラメータとを入力として音声非音声ラベルを出力する。話者認識部214を省略する場合、第3のモデルは、音響信号と音響シーン情報と音声強調情報と音素認識情報を入力とし音声非音声ラベルを出力するモデルであり、音声非音声判定部215は、音響信号と音響シーン情報と音声強調情報と音素認識情報と予め学習された第3のモデルのパラメータとを入力として音声非音声ラベルを出力する。
<音声非音声判定用モデルパラメータ学習装置22の構成、動作>
図7を参照して実施例2の音声非音声判定用モデルパラメータ学習装置の構成を説明する。同図に示すように本実施例の音声非音声判定用モデルパラメータ学習装置22は、音響シーン分類用モデルパラメータ学習部121と、音声強調用モデルパラメータ学習部122と、音素認識用モデルパラメータ学習部223と、話者認識用モデルパラメータ学習部224と、音声非音声判定用モデルパラメータ学習部225を含み、音響シーン分類用モデルパラメータ学習部121、音声強調用モデルパラメータ学習部122は実施例1と同じである。なお、同図において、音響信号と音素ラベルのペアデータ集合をD={(X1,V1),...,(XH,VH)}、音響信号と話者ラベルのペアデータ集合をE={(X1,W1),...,(XJ,WJ)}と表す。
以下、図8を参照して実施例1と異なる各構成要件の動作を説明する。
音素認識用モデルパラメータ学習部223は、音響信号と音響信号の音素ラベルのペアデータ集合を第5の学習データとして音素認識用のモデルである第4のモデルのパラメータを学習する(S223)。
話者認識用モデルパラメータ学習部224は、音響信号と音響信号の話者ラベルのペアデータ集合を第6の学習データとして話者認識用のモデルである第5のモデルのパラメータを学習する(S224)
音声非音声判定用モデルパラメータ学習部225は、第3の学習データに含まれる音響信号に対する第1のモデルの出力である音響シーン情報と、第3の学習データに含まれる音響信号に対する第2のモデルの出力である音声強調情報と、第3の学習データに含まれるラベルと、第3の学習データに含まれる音響信号と、第3の学習データに含まれる音響信号に対する第4のモデルの出力である音素認識情報と、第3の学習データに含まれる音響信号に対する第5のモデルの出力である話者認識情報の、合計6つの情報を含む第7の学習データについて、音声非音声ラベルを出力する第3のモデルのパラメータを学習する(S225)。
なお、音素認識用モデルパラメータ学習部223、話者認識用モデルパラメータ学習部224のいずれか一つを省略してもよい。
本実施例では、音素認識情報、話者認識情報を追加したが、これ以外にも、性別、年齢、感情などの情報を用いてもよく、「音響信号から同一系列長のベクトル系列を出力する動作」を実行できる限り、任意の情報を用いることができる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
上述の各種の処理は、図9に示すコンピュータの記録部10020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部10010、入力部10030、出力部10040などに動作させることで実施できる。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electrically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. 音響信号を入力とし前記音響信号が収録されたシーンに関する情報である音響シーン情報を出力する第1のモデルを含み、前記音響信号と予め学習された前記第1のモデルのパラメータとを入力として前記音響シーン情報を出力する音響シーン分類部と、
    前記音響信号を入力とし強調後の前記音響信号に関する情報である音声強調情報を出力する第2のモデルを含み、前記音響信号と予め学習された前記第2のモデルのパラメータとを入力として前記音声強調情報を出力する音声強調部と、
    前記音響信号と前記音響シーン情報と前記音声強調情報を入力とし音声区間または非音声区間のいずれかのラベルに関する情報である音声非音声ラベルを出力する第3のモデルを含み、前記音響信号と前記音響シーン情報と前記音声強調情報と予め学習された前記第3のモデルのパラメータとを入力として前記音声非音声ラベルを出力する音声非音声判定部を含む
    音声非音声判定装置。
  2. 請求項1に記載の音声非音声判定装置であって、
    前記音響信号を入力とし前記音響信号の音素認識結果に関する情報である音素認識情報を出力する第4のモデルを含み、前記音響信号と予め学習された前記第4のモデルのパラメータとを入力として前記音素認識情報を出力する音素認識部を含み、
    前記第3のモデルは、
    前記音響信号と前記音響シーン情報と前記音声強調情報と前記音素認識情報を入力とし前記音声非音声ラベルを出力するモデルであって、
    前記音声非音声判定部は、
    前記音響信号と前記音響シーン情報と前記音声強調情報と前記音素認識情報と予め学習された前記第3のモデルのパラメータとを入力として前記音声非音声ラベルを出力する
    音声非音声判定装置。
  3. 請求項1に記載の音声非音声判定装置であって、
    前記音響信号を入力とし前記音響信号の話者認識結果に関する情報である話者認識情報を出力する第5のモデルを含み、前記音響信号と予め学習された前記第5のモデルのパラメータとを入力として前記話者認識情報を出力する話者認識部を含み、
    前記第3のモデルは、
    前記音響信号と前記音響シーン情報と前記音声強調情報と前記話者認識情報を入力とし前記音声非音声ラベルを出力するモデルであって、
    前記音声非音声判定部は、
    前記音響信号と前記音響シーン情報と前記音声強調情報と前記話者認識情報と予め学習された前記第3のモデルのパラメータとを入力として前記音声非音声ラベルを出力する
    音声非音声判定装置。
  4. 音響信号と前記音響信号が収録されたシーンのラベルである音響シーンラベルのペアデータ集合を第1の学習データとして音響シーン分類用のモデルである第1のモデルのパラメータを学習する音響シーン分類用モデルパラメータ学習部と、
    前記音響信号と音声強調後の前記音響信号のペアデータ集合を第2の学習データとして音声強調用のモデルである第2のモデルのパラメータを学習する音声強調用モデルパラメータ学習部と、
    前記音響信号と音声非音声状態を表すラベルのペアデータ集合を第3の学習データとし、前記第3の学習データに含まれる前記音響信号に対する前記第1のモデルの出力である音響シーン情報と、前記第3の学習データに含まれる前記音響信号に対する前記第2のモデルの出力である音声強調情報と、前記第3の学習データに含まれる前記ラベルと、前記第3の学習データに含まれる前記音響信号の、合計4つの情報を含む第4の学習データについて、音声非音声判定用のモデルである第3のモデルのパラメータを学習する音声非音声判定用モデルパラメータ学習部を含む
    音声非音声判定用モデルパラメータ学習装置。
  5. 請求項4に記載の音声非音声判定用モデルパラメータ学習装置であって、
    前記音響信号と前記音響信号の音素ラベルのペアデータ集合を第5の学習データとして音素認識用のモデルである第4のモデルのパラメータを学習する音素認識用モデルパラメータ学習部と、
    前記音響信号と前記音響信号の話者ラベルのペアデータ集合を第6の学習データとして話者認識用のモデルである第5のモデルのパラメータを学習する話者認識用モデルパラメータ学習部を含み、
    前記音声非音声判定用モデルパラメータ学習部は、
    前記音響シーン情報と、前記音声強調情報と、前記第3の学習データに含まれる前記ラベルと、前記第3の学習データに含まれる前記音響信号と、前記第3の学習データに含まれる前記音響信号に対する前記第4のモデルの出力である音素認識情報と、前記第3の学習データに含まれる前記音響信号に対する前記第5のモデルの出力である話者認識情報の、合計6つの情報を含む第7の学習データについて、前記第3のモデルのパラメータを学習する
    音声非音声判定用モデルパラメータ学習装置。
  6. 音響信号を入力とし前記音響信号が収録されたシーンに関する情報である音響シーン情報を出力する第1のモデルを含み、前記音響信号と予め学習された前記第1のモデルのパラメータとを入力として前記音響シーン情報を出力する音響シーン分類ステップと、
    前記音響信号を入力とし強調後の前記音響信号に関する情報である音声強調情報を出力する第2のモデルを含み、前記音響信号と予め学習された前記第2のモデルのパラメータとを入力として前記音声強調情報を出力する音声強調ステップと、
    前記音響信号と前記音響シーン情報と前記音声強調情報を入力とし音声区間または非音声区間のいずれかのラベルに関する情報である音声非音声ラベルを出力する第3のモデルを含み、前記音響信号と前記音響シーン情報と前記音声強調情報と予め学習された前記第3のモデルのパラメータとを入力として前記音声非音声ラベルを出力する音声非音声判定ステップを含む
    音声非音声判定方法。
  7. 音響信号と前記音響信号が収録されたシーンのラベルである音響シーンラベルのペアデータ集合を第1の学習データとして音響シーン分類用のモデルである第1のモデルのパラメータを学習する音響シーン分類用モデルパラメータ学習ステップと、
    前記音響信号と音声強調後の前記音響信号のペアデータ集合を第2の学習データとして音声強調用のモデルである第2のモデルのパラメータを学習する音声強調用モデルパラメータ学習ステップと、
    前記音響信号と音声非音声状態を表すラベルのペアデータ集合を第3の学習データとし、前記第3の学習データに含まれる前記音響信号に対する前記第1のモデルの出力である音響シーン情報と、前記第3の学習データに含まれる前記音響信号に対する前記第2のモデルの出力である音声強調情報と、前記第3の学習データに含まれる前記ラベルと、前記第3の学習データに含まれる前記音響信号の、合計4つの情報を含む第4の学習データについて、音声非音声判定用のモデルである第3のモデルのパラメータを学習する音声非音声判定用モデルパラメータ学習ステップを含む
    音声非音声判定用モデルパラメータ学習方法。
  8. コンピュータを請求項1から5の何れかに記載の装置として機能させるプログラム。
JP2021534517A 2019-07-25 2019-07-25 音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム Active JP7218810B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/029241 WO2021014649A1 (ja) 2019-07-25 2019-07-25 音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム

Publications (2)

Publication Number Publication Date
JPWO2021014649A1 JPWO2021014649A1 (ja) 2021-01-28
JP7218810B2 true JP7218810B2 (ja) 2023-02-07

Family

ID=74193591

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021534517A Active JP7218810B2 (ja) 2019-07-25 2019-07-25 音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム

Country Status (3)

Country Link
US (1) US11894017B2 (ja)
JP (1) JP7218810B2 (ja)
WO (1) WO2021014649A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000330587A (ja) 1999-05-21 2000-11-30 Nec Corp 音声認識方法および装置
JP2016191788A (ja) 2015-03-31 2016-11-10 ソニー株式会社 音響処理装置、音響処理方法、及び、プログラム
US20170323653A1 (en) 2016-05-06 2017-11-09 Robert Bosch Gmbh Speech Enhancement and Audio Event Detection for an Environment with Non-Stationary Noise
US20180295240A1 (en) 2015-06-16 2018-10-11 Dolby Laboratories Licensing Corporation Post-Teleconference Playback Using Non-Destructive Audio Transport

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6603919B2 (ja) * 2015-06-18 2019-11-13 本田技研工業株式会社 音声認識装置、および音声認識方法
KR20180082033A (ko) * 2017-01-09 2018-07-18 삼성전자주식회사 음성을 인식하는 전자 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000330587A (ja) 1999-05-21 2000-11-30 Nec Corp 音声認識方法および装置
JP2016191788A (ja) 2015-03-31 2016-11-10 ソニー株式会社 音響処理装置、音響処理方法、及び、プログラム
US20180295240A1 (en) 2015-06-16 2018-10-11 Dolby Laboratories Licensing Corporation Post-Teleconference Playback Using Non-Destructive Audio Transport
US20170323653A1 (en) 2016-05-06 2017-11-09 Robert Bosch Gmbh Speech Enhancement and Audio Event Detection for an Environment with Non-Stationary Noise

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TU, Ming et al.,Computational Auditory Scene Analysis Based Voice Activity Detection,2014 22nd International Conference on Pattern Recognition,IEEE,2014年12月08日,p.797-802

Also Published As

Publication number Publication date
WO2021014649A1 (ja) 2021-01-28
US20220277767A1 (en) 2022-09-01
JPWO2021014649A1 (ja) 2021-01-28
US11894017B2 (en) 2024-02-06

Similar Documents

Publication Publication Date Title
Satt et al. Efficient emotion recognition from speech using deep learning on spectrograms.
JP6622505B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP6876641B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
CN110600017A (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
US7664643B2 (en) System and method for speech separation and multi-talker speech recognition
EP1465160B1 (en) Method of noise estimation using incremental bayesian learning
US20150317990A1 (en) Deep scattering spectrum in acoustic modeling for speech recognition
JP2019211749A (ja) 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム
US20060053008A1 (en) Noise robust speech recognition with a switching linear dynamic model
JP7268711B2 (ja) 信号処理システム、信号処理装置、信号処理方法、およびプログラム
CN112767959B (zh) 语音增强方法、装置、设备及介质
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
JP4856662B2 (ja) 雑音除去装置、その方法、そのプログラム及び記録媒体
JP2020086434A (ja) 音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング方法および装置
Parmar et al. Effectiveness of cross-domain architectures for whisper-to-normal speech conversion
JP2018063313A (ja) 話者数推定装置、話者数推定方法、およびプログラム
JP7409381B2 (ja) 発話区間検出装置、発話区間検出方法、プログラム
JP2019179257A (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
Hadjahmadi et al. Robust feature extraction and uncertainty estimation based on attractor dynamics in cyclic deep denoising autoencoders
JP6721165B2 (ja) 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム
JP7218810B2 (ja) 音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム
KR102066264B1 (ko) 딥 뉴럴 네트워크를 이용한 음성 인식 방법 및 시스템
Shankarappa et al. A faster approach for direct speech to speech translation
González-Salazar et al. Enhancing speech recorded from a wearable sensor using a collection of autoencoders
JP7176629B2 (ja) 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230109

R150 Certificate of patent or registration of utility model

Ref document number: 7218810

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150