JP6189970B2 - 音/母音/音節境界検出のための聴覚的注意合図と音素事後確率スコアの組み合わせ - Google Patents

音/母音/音節境界検出のための聴覚的注意合図と音素事後確率スコアの組み合わせ Download PDF

Info

Publication number
JP6189970B2
JP6189970B2 JP2015544138A JP2015544138A JP6189970B2 JP 6189970 B2 JP6189970 B2 JP 6189970B2 JP 2015544138 A JP2015544138 A JP 2015544138A JP 2015544138 A JP2015544138 A JP 2015544138A JP 6189970 B2 JP6189970 B2 JP 6189970B2
Authority
JP
Japan
Prior art keywords
boundary
posterior
sound
auditory
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015544138A
Other languages
English (en)
Other versions
JP2016502140A (ja
Inventor
カリンリ−アクバカク、オズレム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JP2016502140A publication Critical patent/JP2016502140A/ja
Application granted granted Critical
Publication of JP6189970B2 publication Critical patent/JP6189970B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Description

関連出願の相互参照
本出願は、2011年4月1日出願の、「SPEECH SYLLABLE/VOWEL/PHONE BOUNDARY DETECTION USING AUDITORY ATTENTION CUES」と題する、Ozlem Kalinliらの共同所有の同時係属米国非仮特許出願第13/078,866号に関し、その開示の全体は参照により本明細書に組み込まれる。
連続的発話を複数のセグメントにセグメント化することは、発話分析、自動発話認識(ASR)、および発話合成を含む多くの用途に有益である。しかしながら、例えば、発音表記およびセグメント化を手動で決定することは専門知識を必要とし、大規模なデータベースに対するこの過程は困難かつ高価である。それ故に、この問題に対処するために、多くの自動セグメント化および標識方法が過去に提案されてきた。
提案された方法は、[1]Proc.ofICSLP,2006中のS,Dusan and L.Rabiner,"On the relation between maximum spectral transition positions and phone boundaries"(以下「参考文献[1]」)、[2]Proc.oflCASSP,2008中のv.Qiao,N,Shimomura,and N,Minematsu,"Unsupervised optimal phoneme segmentation:objectives,algorithm and comparisons"(以下「参考文献[2]」)、[3]F.Brugnara,D,Falavigna,and M,Omologo,"Automatic segmentation and labeling of speech based on hidden markov models,"Speech Communication,vol.12,no,4,pp,357−370,1993(以下「参考文献[3]」)、[4]Proc.ofICSLP,2002中のA.Sethy and S,S,Narayanan,"Refined speech segmentation for concatenative speech synthesis"(以下「参考文献[4]」)、および[5]Proc.ofICASSP,2007中のv.Estevan,V,Wan,and O,Scharenborg,"Finding maximum margin segments in speech"(以下「参考文献[5]」)を含む。
これら提案された方法は、Ozlem Kalinliによる"Automatic Phoneme Segmentation Using Auditory Attention Features"(INTERSPEECH 2012,13th Annual Conference of the International Speech Communication Association,Portland,Oregon,USA,September 9−13,2012)と題する音素セグメント化の論文に引用される、参考文献[1、2、3、4、5]に対応し、これは参照により本明細書に組み込まれる。
提案されたセグメント化方法の第1のグループは、常に利用可能ではない音写を必要とする。音写が利用可能でないとき、セグメント化のために音素認識装置を使用することを検討してもよい。しかしながら、HMMのような発話認識技術は、音配列の正しい識別のために最適化されているため、音境界を正確に判別できない。参考文献[4]を参照されたい。方法の第2のグループは、いかなる音写の予備知識または音素の音響モデルも必要としない。しかし、通常はそれらの性能は限られている。
本開示の態様が生じるのはこの脈絡においてである。
本発明の一実施形態に従う、発話内の音節/母音/音境界検出のための方法を図示する流れ図である。 本発明の実施形態において使用することができるスペクトル経時的受容フィルタの例を図示する概略図である。 本発明の実施形態において使用することができるスペクトル経時的受容フィルタの例を図示する概略図である。 本発明の実施形態において使用することができるスペクトル経時的受容フィルタの例を図示する概略図である。 本発明の実施形態において使用することができるスペクトル経時的受容フィルタの例を図示する概略図である。 本発明の実施形態において使用することができるスペクトル経時的受容フィルタの例を図示する概略図である。 本開示の態様に従う、境界検出のために聴覚的注意特徴を音事後確率と組み合わせる一手段を図示する流れ図である。 本開示の態様に従う、境界検出のために聴覚的注意特徴を音事後確率と組み合わせる別の手段を図示する流れ図である。 本発明の一実施形態に従う、発話内の音節/母音/音境界検出のための装置を図示するブロック図である。 本発明の一実施形態に従う、発話内の音節/母音/音境界検出のための装置のセルプロセッサの実現の一例を図示するブロック図である。
以下の詳細な説明は、例示の目的のために多くの具体的詳細を含むが、当業者であれば誰でも、以下の詳細についての多くの変形および変更が本発明の範囲内であることを理解するだろう。したがって、以下に説明される本発明の例示的実施形態は、特許請求される発明に対する一般性の喪失なしに、かつそれに制限を課すことなく記載される。
[序文]
聴覚的注意特徴を使用する境界検出方法が提案されている。境界の精度をさらに改善するために、音素事後確率を聴覚的注意特徴と組み合わせることができる。音素事後確率は、音響特徴(mfcc、メルフィルタバンクなど)を与えられた音素クラス事後確率スコアを推定するモデル(例えば、深いニューラルネットワーク)を訓練することによって取得される。事後確率は互いと混同される傾向があるため、通常は境界周辺でこれらモデルの音素分類精度が低下する、即ち、音素セグメントの境界において明確な勝者クラスが典型的にない一方で、音素セグメントの中央では勝者(例えば、事後確率スコアの最大値)は明確であることが知られている。これは確かに、境界検出の目的のために非常に有用な情報である。音素事後確率を聴覚的注意特徴と組み合わせることによって、境界検出性能がさらに改善され得ることが提案される。現在のフレームの音素事後確率を、この目的のために使用することができる。さらに、近傍のフレームの事後確率は、コンテキスト情報を使用することによっても性能を改善するのにさらに役立ち得る。
本開示において、聴覚的注意特徴を音事後確率と組み合わせる新手のセグメント化方法が提案される。このアルゴリズムは、音写を必要とせず、セグメント化を正確に遂行することができる。
聴覚的注意特徴のみを使用する境界検出方法は、2011年4月1日出願の米国特許出願第13/078,866号において説明されており、その全内容は参照により本明細書に組み込まれる。境界の精度をさらに改善するために、音素事後確率を聴覚的注意特徴と組み合わせることができる。音素事後確率は、音響特徴(mfcc、メルフィルタバンクなど)を与えられた音素クラス事後確率スコアを推定するモデル(例えば、深いニューラルネットワーク)を訓練することによって取得され得る。事後確率は互いとより混同しやすくなるため、通常は境界の周辺でこれらモデルの音素分類精度が低下することが知られている。例えば、音素事後確率が境界周辺にあるとき明確な勝者クラスがない一方で、音素セグメントの中央では勝者(例えば、事後確率スコアの最大)は明確である。これは確かに、境界検出目的のために非常に有用な情報である。したがって、音素事後確率を聴覚的注意特徴と組み合わせることによって、境界検出性能がさらに改善され得ることがここに提案される。現在のフレームの音素事後確率を、この目的のために使用することができる。さらに、近傍のフレームの事後確率は、コンテキスト情報を使用することによっても性能を改善するのにさらに役立ち得る。
[考察]
本開示の態様において、記録された音声に対応する信号を分析して、例えば音素境界などの境界を決定することができる。かかる境界検出は、この信号から聴覚的注意特徴を抽出すること、およびこの信号から音素事後確率を抽出することによって、実現することができる。次に聴覚的注意特徴および音素事後確率を組み合わせて、この信号内の境界を検出することができる。本開示の詳細は、以下の通りに要約され得る:第1の聴覚的注意特徴の抽出を説明する。次に、音事後確率の抽出を説明する。次に、境界検出のために聴覚的注意特徴および音素事後確率を組み合わせるための、2つの提案される手法を説明する。
本開示において、発話の音素セグメント化のために聴覚的注意合図を使用する新手の方法を提案する。いかなる動作理論に限定されることなく、提案される方法の背景にある動機は以下の通りである。発話スペクトルにおいて、それらは高エネルギーおよび明確なフォルマント構造を示すため、音素境界周辺、特に母音周辺にエッジおよび局所的不連続を通常は見ることができる。例えば、上述の論文"Automatic Phoneme Segmentation Using Auditory Attention Features"の図1において、「彼のキャプテンは(his captain was)」として音写される発話セグメントのスペクトルが、おおよその音素境界と共に示されている。このスペクトルにおいて、例えば母音ih、ae、ixなどの境界などの音素境界に対応するこれら境界のうちのいくつかを目視観察できる。したがって、関連する配向エッジおよび聴覚スペクトル内の不連続を検出することによって、即ち、視覚的になされるように、発話内の音素セグメントおよび/または境界を位置付けることができる、ということが考えられている。
聴覚的注意特徴の抽出
聴覚的注意合図は、生物学的に刺激され、ヒト聴覚系における処理段階を模倣することによって抽出される。一組の多重スケール特徴は、中枢聴覚系における処理段階に基づいて、2Dスペクトル経時的フィルタを使用して、音響スペクトルから抽出され、低レベルの聴覚的要点特徴に変換される。文献中の先行技術とは異なり、聴覚的注意モデルは、エッジならびに局所時間的およびスペクトル的不連続を検出するための画像のように、音響の2Dスペクトルを分析する。したがって、それは、発話内の境界を成功裏に検出する。
聴覚的注意モデルでは、聴覚スペクトルは視覚的場面の画像に類似するものと見なされ得、対照特徴は複数のスケール内のスペクトルから2Dスペクトル経時的受容フィルタを使用して抽出される。抽出された特徴は、異なる局所的配向エッジに調整され得る:例えば、周波数対照特徴は、フォルマントおよびそれらの変化を検出およびキャプチャするために優れる局所的水平配向エッジに調整され得る。次に、低レベルの聴覚的要点特徴が取得され得、ニューラルネットワークを使用して関連する配向エッジを発見し、要点特徴と音素境界との間のマッピングを学習することができる。
入力発話信号からの聴覚的注意合図の抽出は、以下の通りに進めることができる。第1のスペクトルは、初期の聴覚系モデルまたは高速フーリエ変換(FFT)に基づいて計算することができる。次に、中枢聴覚系に基づいて多重スケール特徴を抽出することができる。次に、センター−サラウンド差異を計算することができ、微細なスケールとより粗いスケールを比較することができる。各特徴マップをm行n列のグリッドに分割し、グリッドの各少区域の平均を計算することによって、聴覚的要点特徴を計算することができる。次に、例えば、原理成分分析(PCA)および/または離散コサイン変換(DCT)を使用して、聴覚的要点特徴の寸法および重複性を低減することができる。次元縮小および重複性の低減は、本明細書において聴覚的要点と称される最終的な特徴を生成する。
聴覚特徴抽出の詳細は、米国特許出願第13/078,866号において説明されている。注意モデルのブロック図および特徴抽出の流れ図を図1Aに示す。図1Aの流れ図は、本開示の態様に従う、聴覚的注意合図を使用する発話内の音節/母音/音境界検出のための方法を図示する。聴覚的注意モデルは、生物学的に刺激され、ヒト聴覚系における処理段階を模倣する。それは、音響信号がいつどこで人の注意を引きつけるかを決定するように設計されている。
初めに、音響の入力ウィンドウ101が受信される。限定としてではなく、例として、この音響の入力ウィンドウ101は、特定の音響の入力ウィンドウ101を特徴付ける音波をさらなる処理のための電気信号に変換する働きをするマイクロフォンを使用して、いくらかの有限継続時間の時間ウィンドウ上でキャプチャされ得る。音響の入力ウィンドウ101は、人の発話の任意のセグメントであり得る。限定としてではなく、例として、音響の入力ウィンドウ101は、単一の音節、単語、文章、またはこれらの任意の組み合わせを含んでもよい。
音響の入力ウィンドウ101は、次に、この音響のウィンドウ101を音声スペクトル105に変換するように動作する一組の処理段階103を通される。これらの処理段階103は、例えばヒト聴覚系などの聴覚系の初期の処理段階に基づき得る。限定としてではなく、例として、処理段階103は、蝸牛フィルタリング、内有毛細胞、および聴覚系内の鼓膜基底板から蝸牛神経核への過程を模倣する側方抑制段階から成る場合がある。蝸牛フィルタリングは、対数周波数軸に沿って均一に分布される中心周波数を有する、128の重なり定Q非対称バンドパスフィルタのバンクを使用して実現することができる。これらのフィルタは、目的を持って作られ得る、適切に構成された電子ハードウェアによって実現されてもよい。あるいは、フィルタは、フィルタの機能を実現するソフトウェアをプログラムされた汎用コンピュータ上で実現されてもよい。分析のために、10msのシフトを有する20msの音声フレームを使用することができ、これは、それぞれが128次元のベクトルによって表される音声フレームをもたらす。
音響の入力ウィンドウ101が聴覚スペクトル105に変換されると、107において示される通り、中枢聴覚系内の情報処理段階を模倣することにより、多重スケール特徴117を抽出することによってスペクトル105が分析される。聴覚的注意は、例えば、強度(またはエネルギー)、周波数、時間、ピッチ、音色、FM方向、または傾き(ここでは「配向」と呼ばれる)などの、多種多様な聴覚特徴によってキャプチャされるか、またはそれらに自主的に向けられ得る。これらの特徴は、一次聴覚皮質内の受容野を模倣するように選択および実現され得る。
限定としてではなく、例として、モデル内に含まれ前述の特徴を包含し得る4つの特徴は、強度(I)、周波数対照(F)、時間的対照(T)、およびθ={45°,135°}である配向(Oθ)である。強度特徴は、信号の強度またはエネルギーに関連する信号特性をキャプチャする。周波数対照特徴は、信号のスペクトル(周波数)変化に関連する信号特性をキャプチャする。時間的対照特徴は、信号の時間的変化に関連する信号特性をキャプチャする。配向フィルタは、信号内の移動するリップルに対して敏感である。
各特徴は、一次聴覚皮質内の特定の受容野を模倣する2次元スペクトル経時的受容フィルタ109、111、113、115を使用して抽出することができる。図1B〜1Fはそれぞれ、受容フィルタ(RF)109、111、113、115の例を図示する。特長抽出のためにシミュレートされる受容フィルタ(RF)109、111、113、115のそれぞれは、抽出される特長に対応するグレースケール画像と共に図示される。励振位相110および抑制位相112は、それぞれ白および黒色で示される。
これらフィルタ109、111、113、115のそれぞれは、信号特性の特定の変化を検出およびキャプチャすることができる。例えば、図1Bに図示される強度フィルタ109は、音響の入力ウィンドウの継続時間にわたる強度/エネルギーの変化を検出およびキャプチャするように、特定の区域に対して選択性のある励振位相のみを有する聴覚皮質内の受容野を模倣するように構成され得る。同様に、図1Cに表される周波数対照フィルタ111は、励振位相および同時対称抑制サイドバンドを有する一次聴覚皮質内の受容野に対応するように構成され得る。図1Dに図示される時間的対照フィルタ113は、抑制位相およびその後の励振位相を有する受容野に対応するように構成され得る。
聴覚スペクトルは、視覚的場面の画像に類似すると考えることができ、これらの特徴のいくつかは、異なる局所的配向エッジに調整される;即ち、周波数対照特徴は局所的水平配向エッジに調整され、これはフォルマントおよびそれらの変化を検出およびキャプチャするために良好であり得る。言い換えると、図1Cに示される周波数対照フィルタ111は、音響ウィンドウの継続時間にわたるスペクトル変化を検出およびキャプチャする。図1Dに示される時間的対照フィルタ113は、時間的領域内の変化を検出およびキャプチャする。配向フィルタ115’および115’’は、移動するリップルに対する聴覚ニューロン反応の動態を模倣する。配向フィルタ115’は、リップルが上方に移動しているときを検出およびキャプチャするように、図1Eに示す通り45°の配向を有する励振および抑制位相で構成され得る。同様に、配向フィルタ115’’は、リップルが下方に移動しているときを検出およびキャプチャするように、図1Fに示す通り135°の配向を有する励振および抑制位相で構成され得る。1つの重要な点は、このモデルでは、絶対特徴強度ではなく特徴対照が計算されることであり、これは変化点/境界検出およびセグメント化のために決定的である。
周波数対照111、時間的対照113、および配向特徴115を生成するためのRFは、様々な角度で2次元ガボール(Gabor)フィルタを使用して実現され得る。周波数および時間的対照特徴に使用されるフィルタは、それぞれ水平および垂直配向フィルタとして解釈することができ、0°および90°配向の2次元ガボールフィルタで実現することができる。同様に、配向特徴は、{45°,135°}配向の2次元ガボールフィルタを使用して抽出され得る。強度特徴109を生成するためのRFは、2次元ガウスカーネルを使用して実現される。
特徴抽出107は、マルチスケールプラットフォームを使用して完了される。既定のデータセットのスケール空間表現を生成する動機は、オブジェクトは異なるスケールの異なる構造で構成されているという基礎観測に由来する。未知のデータのセットを分析するシステムでは、データに関連する興味深い構造を説明するためにどのようなスケールが適当かを事前に知る手段がない。それ故に、唯一の合理的な手法は、発生し得る未知のスケール変動をキャプチャするために、複数のスケールでの説明を考慮することである。本発明の実施形態では、多重スケール特徴117は、二項ピラミッドを使用して取得され得る(即ち、入力スペクトルはフィルタをかけられ、2分の1に間引かれ、これが繰り返される)。結果として、8つのスケールが作製され(ウィンドウの継続時間が1.28秒を超える場合であり、さもなければより少ないスケールがある)、1:1(スケール1)〜1:128(スケール8)の範囲のサイズ減少係数をもたらす。
多重スケール特徴117の取得後、119に示されるように、これらの多重スケール特徴117を使用して特徴マップ121が生成される。これは、「センター」(微細)スケールを「サラウンド」(より粗い)スケールと比較することを伴う、「センター−サラウンド」差異を計算することによって達成される。センター−サラウンド操作は、局所的皮質抑制の性質を模倣し、局所時間的および空間的不連続を検出する。これは、「センター」の微細スケール(c)と「サラウンド」のより粗いスケール(s)との間の全体のスケールの減算(θ)によってシミュレートされ、特徴マップM(c,s):M(c,s)=|M(c)θM(s)|,M∈{I,F,T,Oθ}をもたらす。2つのスケールの間の全体のスケールの減算は、より微細なスケールへの補間および点別の減算によって計算される。限定としてではなく、例として、c={2,3,4}であり、s=c+δであり、δ∈{3,4}が使用され得、これは、8つのスケールで特徴が抽出される際、合計30の特徴マップをもたらす。
次に、123に示されるように、聴覚的要点ベクトル125の合計が低解像度の入力音響ウィンドウ101にカバーするように、I,F,T,Oθの各特徴マップ121から、「聴覚的要点」ベクトル125が抽出され得る。既定の特徴マップ121に対する聴覚的要点ベクトル125を決定するため、特徴マップ121は、まず少区域のm行n列のグリッドに分割され、各少区域の、例えば最大値、最小値、平均値、標準偏差などの統計が計算され得る。限定としてではなく、例として、各少区域の平均値を計算して、マップの総合的性質をキャプチャすることができる。高さhおよび幅wを有する特徴マップMについては、聴覚的要点ベクトルの計算は、以下のように記述され得る。
m=4、n=5である聴覚的要点ベクトル抽出123の一例が図1に示され、ここで、特徴マップを表すために20次元の聴覚的要点ベクトルが使用され得る。これらのmおよびnの特定の値は、本発明のいかなる実施形態を制限するものとしてではなく、例示の目的で提供される。
各特徴マップ121から聴覚的要点ベクトル125を抽出した後、聴覚的要点ベクトルを増補し組み合わせて、累積的要点ベクトルを作製することができる。累積的要点ベクトルは次に次元縮小127を経て、音節/母音/音境界検出をより実用的にするために次元および重複性を低減することができる。限定としてではなく、例として、次元縮小127のために主成分分析(PCA)を使用してもよい。次元縮小127の結果は、より少ない次元の累積的要点ベクトル内の情報を伝達する、本明細書において聴覚的要点特徴129と称される最終的な特徴である。PCAは、パターン認識における主要技術として一般的に使用される。一般的に理解されるように、PCAは、データの任意の投射による最大分散が、第1の座標(第1の主成分と呼ばれる)に置かれる用になり、第2の最大分散が第2の座標に置かれる用に成る、などとなるように、データを新しい座標系に変換する直交線形変換として数学的に定義される。PCAは、適切に構成されたソフトウェアをプログラムされたコンピュータ上で実現され得る。PCAを通じて次元縮小を実現することができる商業的に入手可能なソフトウェアの例としては、MathWorks,Inc.of Natick,Massachusetts,U.S.A.によるMatlab、またはUniversity of Waikato,New Zealandで開発されたWeka機械学習ソフトウェアが挙げられる。あるいは、例えば因子分析、カーネルPCA、線形判別分析(LDA)、および同類のものなどの他の線状および非線形次元縮小技術を使用して、次元縮小129を実現してもよい。
入力音響ウィンドウ101を特徴付ける聴覚的要点特徴127’が決定された後、聴覚的要点特徴および音事後確率から、音境界、母音境界、音節核、または音節境界が検出され得る。既定の入力音響ウィンドウ上でかかる検出を遂行するため、例えばニューラルネットワーク、最近傍分類器、決定木、および同類のものなどの機械学習アルゴリズム131を使用して、例えば音境界、母音境界、音節核、または音節境界などの境界を分類することができる。限定としてではなく、例として、ニューラルネットワークは、生物学的によく動機付けられるため、機械学習アルゴリズム131として使用することができる。そのような場合、ニューラルネットワーク131は、それに関連する累積的要点ベクトルを与えられる入力音響内の音境界、母音境界、音節核、または音節境界を識別することができる。
本明細書で使用される場合、用語「ニューラルネットワーク」とは、計算のコネクショニスト手法に基づいて情報を処理するための計算的/数学的モデルを使用する、自然または人工ニューロンの相互接続されたグループを意味する。ニューラルネットワークは、ネットワーク全体を流れる外部または内部情報に基づいて構造を変化させる適応システムである。それらは、非線形統計データのモデル化を実現するために使用され、入力と出力との間の複雑な関係をモデル化するために使用され得る。
ニューラルネットワーク出力推定値は、i)硬判定、ii)軟判定という2つの方法で使用され得る。硬判定では、ニューラルネットワークの最終決定は二分決定として使用される;例えば、1つのフレームにおいて境界がある場合、1、さもなければゼロを出力する。軟判定では、[0,1]の間の値であるニューラルネットワーク確率スコアを、注意特徴を与えられた境界である現在のフレームの事後確率として使用することができる。また、軟判定では、推定事後確率を別のシステムに供給し、別の供給源からの情報と組み合わせて、いずれかのシステムの性能をさらに改善することができる。例えば、境界情報を使用して、発話認識性能を改善するか、または発話認識エンジンからの補足情報を使用して境界検出性能などをさらに改善することができる。さらに、本発明の特定の実施形態は、セグメント内の音節の数、例えば、毎秒または毎発声の音節の数(これは発声速度を推定するために使用され得る)に関する情報を随意に提供することもできる。次に、推定発声速度を使用して、他の口語処理アプリケーションを改善すること、例えば、発話速度に基づいて適当な音響モデルを選択すること、または発話の感情的セグメントを見つけることなどによって、発話認識性能を改善することができる。
音節/音/母音境界情報は、単独で、または発話認識などの他の口語処理システムを改善するために使用され得る。また、音/母音/音節境界を階級系として考えることができる。1種類の境界からの情報を使用して別の種類の境界を改善することもできる;即ち、母音境界情報を使用して音または音節境界検出を改善することができる。また、本発明の実施形態は、全ての種類の発話および発声スタイルならびに雑音条件、即ち、分離した発話、連続的発話、自発的発話、演説、クリーン/雑音の多い発話などの分析のために使用され得る。
音事後確率:
音事後確率の抽出は、音認識装置と同様である。基本的に、音響特徴が発話から抽出され、モデルまたは音モデルは、特徴と音との間のマッピングを学習するように訓練される。
限定としてではなく、例として、音事後確率は以下の通りフレーム毎に抽出され得る。音分類のために使用される第1の音響特徴は、各発話フレームに対して抽出され得る。発話は、シフティングウィンドウを使用して処理され得る;例えば、音響特徴は、10ミリ秒(ms)毎に抽出され得る。特徴は、MFCC、メルフィルタバンク特徴、PLP、聴覚的注意特徴、韻律特徴など、またはこれらの組み合わせであってもよい。コンテキストをキャプチャするため、複数のフレームの特徴を増補して、より大きな次元の特徴ベクトルを形成することができる。典型的に、フレームの数は約9〜25フレームで変動し得る。次に、機械学習アルゴリズムを使用して、特徴と音クラスとの間のマッピングを学習することができる;例えば、ニューラルネットワーク、svn、HMM、DBN(深い信念ネットワーク)が、音分類または認識のために使用されるかかるツールの種類に含まれる。
限定としてではなく、例として、J.Lee and S.−Y.Lee, Interpseech 2011による"Deep Learning of Speech Features for Improved Phonetic Recognition"に記載される最新鋭の音分類器を使用して、音事後確率を取得することができる。
数値例として、25msの分析ウィンドウを10msのシフトと共に使用して、26バンドの対数メルスペクトル特徴を抽出することができる。210msの時間コンテキストに対応する21の連続したフレームを増補して、546次元の特徴ベクトルを作製することができる。特徴は、DBNに供給される前に正規化された平均および分散であってもよい。
例として、DBNは、線形単位(546入力を取る)の1つの入力層、1000二進単位の3つの隠れ層、および正規ロジスティック単位の1つの出力層を有し得る。実験では、原初の61 TIMIT音クラスを使用した。しかしながら、副音素表現はモデル化を改善するため、音素の副音素表現を使用してもよい。各音素は3つの時間的状態を有すると仮定され、したがってDBNの出力層は61×3=183出力を有する。
DBNを訓練するために、TIMIT訓練データセットを使用することができる。副音素ラベルを取得するために、均一セグメント化がまず遂行される。ネットワークが収束した後、状態の再整合が、ビタビ(Viterbi)強制整合によって行われる。このアルゴリズムは、教師なしの手段(事前訓練)において層毎に初期化される単純な発生モデルの層と、その後の教師ありの技術を使用する全層の弁別訓練を特徴とする。より低いものからより高いものへ各層を事前訓練することは、制限されたボルツマンマシン(RBM)に基づく教師なし学習アルゴリズムを使用して行われ、最終的な教師あり訓練は、その最終的な分類のためにネットワークを微調整するように周知の誤差逆伝播法アルゴリズムを使用して行われ得る。この訓練は、モデルパラメータが収束するまで、言い換えると、検証セットにおける誤差が増加し始めるまで繰り返される。DBN構成および訓練手順のモデルの更なる詳細は、Leeらによる論文(以前に引用)に見出すことができる。
DBNモデルが訓練されると、音クラス事後確率を抽出するために使用され得る。そのために、繰り返すが、対数メル特徴は音響から抽出される。次に、21のフレームからの特徴は各フレームに対して増補され、DBNに供給され得る。DBNの出力において、各状態(副音素)に対する事後確率スコアが取得される。各フレームに対する音素事後確率スコアを取得するために、各音素に対する3つの状態の確率が単純に平均化される。
境界検出のための聴覚的注意特徴と音事後確率の組み合わせ
境界検出のために聴覚的注意特徴を音事後確率と組み合わせる1つの方法200aを、図2Aに図示する。本明細書において「初期融合」と称されるこの技術において聴覚的注意(AA)特徴232および音事後確率(PP)234は、例えば、上述のように、音響信号から並行して抽出され得る。AA特徴および音事後確率は、増補されて機械学習アルゴリズム238、例えば、境界の推定のための3層ニューラルネットワーク(NN)に送信され得る。
例えば、音境界検出実験のために、TIMITコア試験セット(192文)が試験のために使用され得、残りの公式試験セットは開発データとして使用される。開発データについては、AAモデルを使用して第1の聴覚的注意特徴が抽出され得る。並行して、TIMIT訓練セットを使用して訓練され得る、訓練されたDBNモデルから対数メル特徴を渡す61の音素事後確率が、各フレームに対して抽出される。次に、音素事後確率スコアは正規化され、各フレームに対して1に合計される。
3層ニューラルネットワーク238は、音境界分類のために使用され、ここで、ニューラルネットワークは、D入力(D=DAA+AA特徴のDPP次元プラス音事後確率の次元)、(N+D)/2の隠れ単位、およびN=2の出力単位(境界対非境界)を有する。ここで、1つの単一フレームからの音事後確率が上述のDBNと併せて使用されるとき、DBNから取られた61の音事後確率があるため、DPP=61である。コンテキストも、音事後確率から音境界をトレースするためにも使用され得る。例えば、最高事後確率スコアを有する音を、そのフレームに対する音クラスとして割り当てることができる。同様に、音分類は以前または後続のフレームに対して遂行され得る。次に、音指数が1つのフレームから別のフレームに変化する場合、それは境界の存在を示す。コンテキストが使用されるとき、近傍の左および/または右フレームの音素事後確率も増補され得、これはより大きな特徴ベクトルをもたらす。例として、3つのコンテキストフレーム(現在のフレームならびに近傍の左および右フレームを含む)が使用され、61×3=183の音事後確率がNNに供給され、ここでDPP=183である。現在のフレームおよび近傍のフレームに対する推定音素指数ですら、境界検出のためにNNに供給され得る。例えば、特定の実験では、単一のフレーム、3つのコンテキストフレーム、および5つのコンテキストフレームを使用した。
図2Bに表される代替的な実施例200bでは、2つの境界分類器238a〜bを、それぞれ1)聴覚的注意特徴238a、2)音事後確率238bを使用して訓練することができる。これらの分類器の出力は、境界事後確率、例えば、第1の次元が境界である確率を表し、第2の次元が非境界である確率を表す、2次元特徴である。2つの異なる分類器からのこれらの境界事後確率を使用する較正段階239の間、最良の性能を提示する重みを見つけるための回帰を使用する(即ち、ロジスティック線形回帰を使用する)か、またはデータ駆動型方式において、例えば、機械学習アルゴリズムまたは同様のアルゴリズムを使用するかのいずれかで、性能を最大化することができる。繰り返すが、コンテキストが使用され得、例えば、近傍のフレーム境界確率も較正段階の間に含まれ得る。
実験
TIMIT上の音境界検出のための実験を行った。しかしながら、上記の見解は、例えば母音の終わり、音節核、音節核の中央および終わり、または音節の終わりなどの、発話内の母音境界および他の境界の検出のためにも使用され得る。
ニューラルネットワークは、そのフレームが境界である確率を返す。次に、ニューラルネットワーク確率スコアを使用して時間の関数としての1次元曲線を作製するように、軟判定を使用することができる。次に、その曲線にピーク検索を行い、閾値を超える場合に検出された境界としてカウントされる極大値を位置決定することができる。他の方法において行われるように、必要な場合は音素境界の周りの20msの誤差を容認した。
閾値は、境界情報を使用する次のアプリケーションが必要とする通りに選択することができる。例えば、閾値を低下させることは、精度を低下させつつ(より多くの誤警報がある場合がある)リコール率を上昇させる(またはより多くの境界を検出する)が、閾値を上昇させることは、精度を上昇させ、リコールを減少させる。ここで、表1の結果については単純に0.5の閾値を選択し、パラメータ調整を回避した。
異なる方法で取得した結果の比較を以下に示す。表1において、「Dusanら」および「Quiaoら」という注記は、上述の参考文献[1]および参考文献[2]に記述した以前の方法を意味する。音認識のためのDBNフレームレベル音分類およびDBNプラスビタビ復号は、DBNを直接使用して抽出した2つの音素境界検出の基準値である。DBNフレームレベル音分類では、1つのフレームから後続のフレームに音クラスが変化するたび、検出される境界をマークする。ビタビ復号器を通じて音素事後確率スコアを渡すことによって音認識が採用されるとき、発声に対応する音素列がそれらの音素境界と共に返される。表1では、聴覚的注意(AA)特徴およびxフレーム事後確率(AA+PP_xf)を有する音事後確率(PP)を組み合わせることによって達成された音素境界検出結果も示され、ここで、xはフレームの数を表す。結果を以下の表1に示す。
上記の表1から解るように、聴覚的注意を音素事後確率スコアと組み合わせることは、総合的なF−スコアを改善し、30%を超える相対的改善を提供することにより、基準値および以前に報告された数値をしのぐ。
本開示の態様に従う聴覚的注意と音素事後確率の組み合わせは、様々な音声認識(VR)アプリケーションにおいて有利に使用され得る。例えば、この技術を使用して、音素認識率を改善すること、および自動音声認識(VR)のロバスト性を改善することができる。本開示の態様を使用して、VRの信頼基準を改善することもできる。
本開示の態様の具体的な用途は、ハミングまたは単に単一の母音音声による、歌もしくは音声検索を含む。本開示の態様は、発話合成においても使用され得る。本開示の態様は、発声速度を推定するため、歌のテンポを推定するため、音声の採点(歌の採点よりも一般的)を改善するためにも使用され得る。
本発明の実施形態は、適切に構成されたコンピュータ装置上で実現され得る。図3は、本発明の一実施形態に従う、音素事後確率と組み合わせた聴覚的注意合図を使用する音/音節/母音境界検出の方法を実現するために使用され得るコンピュータ装置のブロック図を図示する。装置300は、プロセッサモジュール301およびメモリ305を一般的に含み得る。プロセッサモジュール301は、1つ以上のプロセッサコアを含み得る。複数のプロセッサモジュールを使用する処理システムの一例はセルプロセッサであり、その例は、例えば、http://www−306.ibm.com/chips/techlib/techlib.nsf/techdocs/1AEEE1270EA2776387257060006E61BA/$file/CBEA_01_pub.pdfにてオンラインで入手可能なCell Broadband Engine Architectureに詳述されており、これは参照により本明細書に組み込まれる。
メモリ305は、集積回路、例えば、RAM、DRAM、ROM、および同類のものの形態であってもよい。メモリ305はまた、プロセッサモジュールの全てからアクセス可能なメインメモリであってもよい。いくつかの実施形態では、プロセッサモジュール301は、各コアに関連するローカルメモリを有し得る。プログラム303は、プロセッサモジュール上で実行可能なプロセッサ可読命令の形態で、メインメモリ305内に記憶され得る。プログラム303は、音素事後確率と組み合わせた聴覚的注意合図を使用して、音響のウィンドウ上で境界検出を遂行するように構成され得る。プログラム303は、任意の適切なプロセッサ可読言語、例えば、C、C++、JAVA(登録商標)、アセンブリ、MATLAB、FORTRAN、および多数の他の言語で書かれ得る。入力データ307も、メモリ内に記憶され得る。かかる入力データ337は、音響の入力ウィンドウ、特徴マップ、または聴覚的要点ベクトルを含み得る。プログラム303の実行中、プログラムコードおよび/またはデータの複数の部分は、複数のプロセッサコアによる並行処理のために、メモリまたはプロセッサコアのローカルストア内にロードされ得る。
装置300はまた、例えば、入力/出力(I/O)要素311、電源(P/S)313、クロック(CLK)315、およびキャッシュ317などの、周知の支援機能309を含んでもよい。装置300は、例えば、ディスクドライブ、CD−ROMドライブ、テープドライブ、または同類のものなどの、プログラムおよび/またはデータを記憶するための大容量記憶デバイス319を、随意に含んでもよい。デバイス300は、装置とユーザとの間の相互作用を容易にするための、ディスプレイユニット321、音声スピーカーユニット322、およびユーザインターフェースユニット325を、随意に含んでもよい。ディスプレイユニット321は、テキスト、数字、図示記号、もしくは画像を表示する陰極線管(CRT)またはフラットパネルスクリーンの形態であり得る。ユーザインターフェース325は、キーボード、マウス、ジョイスティック、ライトペン、またはグラフィカルユーザインターフェース(GUI)と併せて使用され得る他のデバイスを含み得る。装置300はまた、例えばインターネットなどのネットワーク上で、デバイスが他のデバイスと通信することを可能にするための、ネットワークインターフェース323を含み得る。
いくつかの実施形態において、システム300は、単一のマイクロフォンまたはマイクロフォンアレイであり得る随意のマイクロフォン329を含み得る。マイクロフォン329は、I/O要素311を介してプロセッサ301に連結され得る。限定としてではなく、例として、異なる音響の入力ウィンドウは、マイクロフォン329を使用して記録され得る。
プロセッサ301、メモリ305、支援機能309、大容量記憶デバイス319、ユーザインターフェース325、ネットワークインターフェース323、およびディスプレイ321を含む、システム300の構成要素は、1つ以上のデータバス327を介して互いと作動可能に接続され得る。これらの構成要素は、ハードウェア、ソフトウェア、もしくはファームウェア、またはこれらのうちの2つ以上の何らかの組み合わせにおいて実現されてもよい。
装置内の複数のプロセッサを用いて並行処理を合理化する追加の手段が多数ある。例えば、例えば、2つ以上のプロセッサコアにコードを複製し、データの異なる部分を処理するように各プロセッサコアにそのコードを実現させることによって、処理ループを「展開する」ことが可能である。かかる実現は、ループの設定に関連する待ち時間を回避し得る。本発明の実施形態に適用されるように、複数のプロセッサは、入力音響ウィンドウから並行して異なる特徴を抽出することができる。強度抽出フィルタ、周波数対照抽出フィルタ、時間的対照抽出フィルタ、および配向抽出フィルタは全て、聴覚スペクトルを同時に処理することができ、異なるプロセッサ要素上で並行して実現される場合、対応する多重スケール特徴をはるかに効率的に生成することができる。さらに、特徴マップ、ならびにそれらの対応する聴覚的要点ベクトルも、並行して生成され得る。データを並行して処理する能力は貴重な処理時間を節約し、発話内の音/音節/母音境界検出のための、より効率的かつ合理化されたシステムをもたらす。
並行処理を実現することができる処理システムのとりわけ一例は、セルプロセッサとして知られている。セルプロセッサと分類され得る異なるプロセッサアーキテクチャが多数ある。限定としてではなく、例として、図4は、セルプロセッサの1つの種類を図示する。セルプロセッサ400は、メインメモリ401、単一パワープロセッサ要素(PPE)407、および8つのシネジスティックプロセッサ要素(SPE)411を含む。あるいは、セルプロセッサは、任意の数のSPEで構成されてもよい。図4に関して、メモリ401、PPE407、およびSPE411は、互いと、そしてI/Oデバイス415と、リング型要素相互接続バス417上で通信することができる。メモリ401は、上述の入力データと共通する特徴を有する入力データ403、および上述のプログラムと共通する特徴を有するプログラム405を収容する。SPE411のうちの少なくとも1つは、例えば、上述のように、音節/母音境界検出命令413および/または並行して処理されるべき入力データの一部を、そのローカルストア(LS)内に含み得る。PPE407は、そのL1キャッシュ内に、上述のプログラムと共通する特徴を有する音節/母音境界検出命令409を含み得る。命令405およびデータ403も、必要なときにSPE411およびPPE407によるアクセスのために、メモリ401内に記憶され得る。
限定としてではなく、例として、異なるSPE411は、多重スケール特徴の抽出を実現することができる。具体的には、異なるSPE411は、スペクトルからの強度(I)、周波数対照(F)、時間的対照(T)、および配向(Oθ)特徴の並行抽出に、それぞれ専用であってもよい。同様に、異なるSPE411は、強度(I)、周波数対照(F)、時間的対照(T)、および配向(Oθ)特徴の、特徴マップ生成または聴覚的要点ベクトル抽出を、それぞれ実現することができる。
例として、PPE407は、関連するキャッシュを有する64ビットのPowerPCプロセッサユニット(PPU)であってもよい。PPE407は、随意のベクトルマルチメディア拡張ユニットを含んでもよい。各SPE411は、シネジスティックプロセッサユニット(SPU)およびローカルストア(LS)を含む。いくつかの実施例では、ローカルストアは、例えば、プログラムおよびデータのための約256キロバイトのメモリの容量を有し得る。SPUは、典型的にシステム管理機能を遂行しないという点で、PPUよりも複雑でない計算単位である。SPUは、単一命令複数データ(SIMD)能力を有し得、典型的に、割り当てられたタスクを遂行するために、データを処理し、任意の必要なデータ転送を開始する(PPEによって設定されるアクセス性質に依存する)。SPE411は、より高い計算単位密度を必要とするアプリケーションをシステムが実現することを可能にし、提供される命令セットを効果的に使用することができる。PPE407によって著しい数のSPE411を管理することは、広範囲の用途にわたってコスト効果が高い処理を可能にする。例として、セルプロセッサは、セルブロードバンドエンジンアーキテクチャ(CBEA)として知られるアーキテクチャを特徴とする場合がある。CBEA対応アーキテクチャでは、複数のPPEをPPEグループに組み合わせることができ、複数のSPEをSPEグループに組み合わせることができる。例示目的のために、セルプロセッサは、単一のSPEおよび単一のPPEを有する、単一のSPEグループおよび単一のPPEグループのみを有するものとして示される。あるいは、セルプロセッサは、パワープロセッサ要素の複数のグループ(PPEグループ)およびシネジスティックプロセッサ要素の複数のグループ(SPEグループ)を含んでもよい。CBEA対応プロセッサは、例えば、http://www−306.ibm.com/chips/techlib/techlib.nsf/techdocs/1AEEE1270EA277638725706000E61BA/$file/CBEA_01_pub.pdfにてオンラインで入手可能なCell Broadband Engine Architectureに詳述されており、これは参照により本明細書に組み込まれる。
上記は、好ましい本発明の実施形態の完全な説明であるが、様々な代替案、修正、および等価物を使用することが可能である。したがって、本発明の範囲は、上記説明を参照して決定されるべきではなく、代わりに、添付の特許請求の範囲をその等価物の全範囲と共に参照して決定されるべきである。好適であろうとなかろうと、本明細書に記載のいかなる特徴は、好適であろうとなかろうと、本明細書に記載の任意の他の特徴と組み合わされ得る。以下の特許請求の範囲において、不定冠詞「1つの(A)」または「1つの(An)」は、別段の明記がない限り、その冠詞に続く事項の1以上の量を意味する。添付の特許請求の範囲は、「するための手段(means for)」という語句を使用して所与の特許請求の範囲においてかかる限定が明記されていない限り、機能と手段を用いた表現(means−plus−function)の限定を含むものとして解釈されるべきではない。

Claims (15)

  1. 音声信号の入力ウィンドウを処理するための方法であって、前記入力ウィンドウが複数のフレームを有し、前記方法が、
    前記入力ウィンドウに対応する時間のセグメントの間、プロセッサを用いて前記音声信号をデジタルサンプリングすることによって、前記音声信号の前記入力ウィンドウを生成することと、
    前記入力ウィンドウの前記フレームのそれぞれから、2次元のスペクトル経時的フィルタを使用して音響スペクトルから抽出され、低レベルの聴覚的要点特徴に変換される聴覚的注意特徴を抽出することと、
    前記入力ウィンドウの前記フレームのそれぞれから、音(phone)事後確率を抽出することと、
    前記聴覚的注意特徴および前記音事後確率の組み合わせから、組み合わせられた境界事後確率を、機械学習を使用して生成することと、
    前記組み合わせられた境界事後確率から、前記音声信号内に含まれる発話内の境界を推定することと、を含
    前記組み合わせられた境界事後確率を、機械学習を使用して生成することは、音事後コンテキスト情報を生成するために近傍フレームの前記音事後確率を機械学習アルゴリズムに供給して前記抽出された音事後確率を増補することにより、前記組み合わせられた境界事後確率を生成する、方法。
  2. 組み合わせられた境界事後確率の前記生成が、
    前記聴覚的注意特徴および前記音事後確率の両方を、境界分類器の機械学習アルゴリズムに供給して、前記組み合わせられた境界事後確率を出力することを含む、請求項1に記載の方法。
  3. 組み合わせられた境界事後確率の前記生成が、
    前記聴覚的注意特徴を、第1の境界分類器の機械学習アルゴリズムに供給して、第1の境界事後確率の組を出力することと、
    前記音事後確率を、第2の境界分類器の機械学習アルゴリズムに供給して、第2の境界事後確率の組を出力することと、
    前記第1の境界事後確率の組および前記第2の境界事後確率の組を較正して、前記第1の境界事後確率の組および第2の境界事後確率の組の相対的重みを決定することと、
    前記相対的重みを、前記第1の境界事後確率の組および前記第2の境界事後確率の組に割り当てて、前記組み合わせられた境界事後確率を出力することと、を含む、請求項1に記載の方法。
  4. 音事後確率の前記抽出が、
    前記入力ウィンドウの前記フレームのそれぞれから、音響特徴を抽出することと、
    前記音響特徴を、音分類器の機械学習アルゴリズムに供給して、前記音事後確率を出力することと、を含む、請求項1に記載の方法。
  5. 聴覚的注意特徴の前記抽出が、
    前記入力ウィンドウの聴覚スペクトルを決定することと、
    前記聴覚スペクトルから、1つ以上の多重スケール特徴を抽出することであって、各多重スケール特徴が、別個の2次元のスペクトル経時的受容フィルタを使用して抽出される、抽出することと、
    前記1つ以上の多重スケール特徴に対応する1つ以上の特徴マップを生成することと、
    前記1つ以上の特徴マップのそれぞれから、聴覚的要点ベクトルを抽出することと、
    前記1つ以上の特徴マップから抽出された各聴覚的要点ベクトルの増強を通して、累積的要点ベクトルを取得することと、
    前記累積的要点ベクトルから前記聴覚的注意特徴を生成することと、を含む、請求項1に記載の方法。
  6. 前記境界分類器の前記機械学習アルゴリズムが、3層ニューラルネットワークである、請求項2に記載の方法。
  7. 前記第1の境界分類器の前記機械学習アルゴリズムが、3層ニューラルネットワークであり、前記第2の境界分類器の前記機械学習アルゴリズムが、3層ニューラルネットワークである、請求項3に記載の方法。
  8. 前記音分類器の前記機械学習アルゴリズムが、ディープビリーフネットワークである、請求項4に記載の方法。
  9. 前記音響特徴が、対数メルスペクトル特徴である、請求項4に記載の方法。
  10. 前記較正が、ロジスティック線形回帰を使用して前記相対的重みを決定することを含む、請求項3に記載の方法。
  11. 前記較正が、機械学習を使用して前記相対的重みを決定することを含む、請求項3に記載の方法。
  12. 前記推定される境界が、音節境界、母音境界、音素境界、またはこれらの組み合わせである、請求項1に記載の方法。
  13. 発話認識における境界検出のための装置であって、
    プロセッサと、
    メモリと、
    前記メモリ内に具体化され、前記プロセッサによって実行可能なコンピュータ符号化命令と、を備え、前記コンピュータ符号化命令は、音声信号の入力ウィンドウを処理するための方法を実現するように構成され、前記方法は、
    前記入力ウィンドウに対応する時間のセグメントの間、プロセッサを用いて前記音声信号をデジタルサンプリングすることによって、前記音声信号の前記入力ウィンドウを生成することと、
    前記信号のフレームのそれぞれから、2次元のスペクトル経時的フィルタを使用して音響スペクトルから抽出され、低レベルの聴覚的要点特徴に変換される1つ以上の聴覚的注意特徴を抽出することと、
    前記信号の前記フレームのそれぞれから、1つ以上の音(phone)事後確率を抽出することと、
    前記聴覚的注意特徴および前記音事後確率の組み合わせから、1つ以上の組み合わせられた境界事後確率を、機械学習を使用して生成することと、
    前記組み合わせられた境界事後確率から、前記音声信号に含まれる発話内の1つ以上の境界を推定することと、を含
    前記組み合わせられた境界事後確率を、機械学習を使用して生成することは、音事後コンテキスト情報を生成するために近傍フレームの前記音事後確率を機械学習アルゴリズムに供給して前記抽出された音事後確率を増補することにより、前記組み合わせられた境界事後確率を生成する、装置。
  14. 前記プロセッサに連結されるマイクロフォンをさらに備え、前記方法は、前記マイクロフォンを用いて前記音声信号を検出することをさらに含む、請求項13に記載の装置。
  15. 中に具体化されたプログラム命令を有する非一時的なコンピュータ可読媒体であって、コンピュータシステムのプロセッサによる前記プログラム命令の実行が、前記プロセッサに音声信号の入力ウィンドウを処理するための方法を遂行させ、前記方法は、
    前記入力ウィンドウに対応する時間のセグメントの間、プロセッサを用いて前記音声信号をデジタルサンプリングすることによって、前記音声信号の前記入力ウィンドウを生成することと、
    前記信号のフレームのそれぞれから、2次元のスペクトル経時的フィルタを使用して音響スペクトルから抽出され、低レベルの聴覚的要点特徴に変換される1つ以上の聴覚的注意特徴を抽出することと、
    前記信号の前記フレームのそれぞれから、1つ以上の音(phone)事後確率を抽出することと、
    前記聴覚的注意特徴および前記音事後確率の組み合わせから、1つ以上の組み合わせられた境界事後確率を、機械学習を使用して生成することと、
    前記組み合わせられた境界事後確率から、前記音声信号に含まれる発話内の1つ以上の境界を推定することと、を含
    前記組み合わせられた境界事後確率を、機械学習を使用して生成することは、音事後コンテキスト情報を生成するために近傍フレームの前記音事後確率を機械学習アルゴリズムに供給して前記抽出された音事後確率を増補することにより、前記組み合わせられた境界事後確率を生成する、非一時的なコンピュータ可読媒体。
JP2015544138A 2012-11-29 2013-11-21 音/母音/音節境界検出のための聴覚的注意合図と音素事後確率スコアの組み合わせ Active JP6189970B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261731403P 2012-11-29 2012-11-29
US61/731,403 2012-11-29
US13/901,426 2013-05-23
US13/901,426 US9672811B2 (en) 2012-11-29 2013-05-23 Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
PCT/US2013/071337 WO2014085204A1 (en) 2012-11-29 2013-11-21 Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection

Publications (2)

Publication Number Publication Date
JP2016502140A JP2016502140A (ja) 2016-01-21
JP6189970B2 true JP6189970B2 (ja) 2017-08-30

Family

ID=50774012

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015544138A Active JP6189970B2 (ja) 2012-11-29 2013-11-21 音/母音/音節境界検出のための聴覚的注意合図と音素事後確率スコアの組み合わせ

Country Status (5)

Country Link
US (3) US9672811B2 (ja)
EP (1) EP2926335B8 (ja)
JP (1) JP6189970B2 (ja)
CN (1) CN104756182B (ja)
WO (1) WO2014085204A1 (ja)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515052B2 (en) 2007-12-17 2013-08-20 Wai Wu Parallel signal processing system and method
US8756061B2 (en) 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9020822B2 (en) 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9672811B2 (en) 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
US20140351723A1 (en) * 2013-05-23 2014-11-27 Kobo Incorporated System and method for a multimedia container
US9721561B2 (en) * 2013-12-05 2017-08-01 Nuance Communications, Inc. Method and apparatus for speech recognition using neural networks with speaker adaptation
US10127927B2 (en) 2014-07-28 2018-11-13 Sony Interactive Entertainment Inc. Emotional speech processing
CN104182621B (zh) * 2014-08-08 2017-06-13 同济大学 基于深度信念网络的adhd判别分析方法
US9715642B2 (en) 2014-08-29 2017-07-25 Google Inc. Processing images using deep neural networks
KR101844932B1 (ko) * 2014-09-16 2018-04-03 한국전자통신연구원 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법
US9881631B2 (en) * 2014-10-21 2018-01-30 Mitsubishi Electric Research Laboratories, Inc. Method for enhancing audio signal using phase information
CN104575490B (zh) * 2014-12-30 2017-11-07 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
KR102413692B1 (ko) * 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
US10529318B2 (en) * 2015-07-31 2020-01-07 International Business Machines Corporation Implementing a classification model for recognition processing
KR102195223B1 (ko) * 2016-03-18 2020-12-24 구글 엘엘씨 전역적으로 노멀화된 신경 네트워크들
US20170294185A1 (en) * 2016-04-08 2017-10-12 Knuedge Incorporated Segmentation using prior distributions
CN106228976B (zh) * 2016-07-22 2019-05-31 百度在线网络技术(北京)有限公司 语音识别方法和装置
KR101943381B1 (ko) * 2016-08-22 2019-01-29 에스케이텔레콤 주식회사 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치
US11210589B2 (en) 2016-09-28 2021-12-28 D5Ai Llc Learning coach for machine learning system
US10832129B2 (en) * 2016-10-07 2020-11-10 International Business Machines Corporation Transfer of an acoustic knowledge to a neural network
US10475471B2 (en) * 2016-10-11 2019-11-12 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications using a neural network
US10242696B2 (en) 2016-10-11 2019-03-26 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications
AU2017347995A1 (en) * 2016-10-24 2019-03-28 Semantic Machines, Inc. Sequence to sequence transformations for speech synthesis via recurrent neural networks
US10824798B2 (en) 2016-11-04 2020-11-03 Semantic Machines, Inc. Data collection for a new conversational dialogue system
KR20180080446A (ko) * 2017-01-04 2018-07-12 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US10713288B2 (en) 2017-02-08 2020-07-14 Semantic Machines, Inc. Natural language content generator
US11069340B2 (en) 2017-02-23 2021-07-20 Microsoft Technology Licensing, Llc Flexible and expandable dialogue system
WO2018156978A1 (en) 2017-02-23 2018-08-30 Semantic Machines, Inc. Expandable dialogue system
US10762892B2 (en) 2017-02-23 2020-09-01 Semantic Machines, Inc. Rapid deployment of dialogue system
US10825445B2 (en) 2017-03-23 2020-11-03 Samsung Electronics Co., Ltd. Method and apparatus for training acoustic model
WO2018175098A1 (en) 2017-03-24 2018-09-27 D5Ai Llc Learning coach for machine learning system
US11361758B2 (en) * 2017-04-18 2022-06-14 D5Ai Llc Multi-stage machine learning and recognition
US10614826B2 (en) 2017-05-24 2020-04-07 Modulate, Inc. System and method for voice-to-voice conversion
US11132499B2 (en) 2017-08-28 2021-09-28 Microsoft Technology Licensing, Llc Robust expandable dialogue system
CN107680584B (zh) * 2017-09-29 2020-08-25 百度在线网络技术(北京)有限公司 用于切分音频的方法和装置
US10650803B2 (en) * 2017-10-10 2020-05-12 International Business Machines Corporation Mapping between speech signal and transcript
US11321612B2 (en) 2018-01-30 2022-05-03 D5Ai Llc Self-organizing partially ordered networks and soft-tying learned parameters, such as connection weights
CN108542404B (zh) * 2018-03-16 2021-02-12 成都虚实梦境科技有限责任公司 注意力评估装置、vr设备及可读存储介质
CN108447495B (zh) * 2018-03-28 2020-06-09 天津大学 一种基于综合特征集的深度学习语音增强方法
CN108986788A (zh) * 2018-06-06 2018-12-11 国网安徽省电力有限公司信息通信分公司 一种基于后验知识监督的噪声鲁棒声学建模方法
US20200042825A1 (en) * 2018-08-02 2020-02-06 Veritone, Inc. Neural network orchestration
CN109285559B (zh) * 2018-09-14 2021-05-04 京东数字科技控股有限公司 角色转换点检测方法及装置、存储介质、电子设备
US10672382B2 (en) * 2018-10-15 2020-06-02 Tencent America LLC Input-feeding architecture for attention based end-to-end speech recognition
US11138966B2 (en) * 2019-02-07 2021-10-05 Tencent America LLC Unsupervised automatic speech recognition
CN111640424B (zh) * 2019-03-01 2024-02-13 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
CN109817201B (zh) * 2019-03-29 2021-03-26 北京金山安全软件有限公司 一种语言学习方法、装置、电子设备及可读存储介质
US11424021B2 (en) * 2019-05-10 2022-08-23 National Taiwan University Medical image analyzing system and method thereof
CN110211574B (zh) * 2019-06-03 2022-03-11 哈尔滨工业大学 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法
KR102281590B1 (ko) * 2019-07-31 2021-07-29 엘지전자 주식회사 음성인식 성능 향상을 위한 비 지도 가중치 적용 학습 시스템 및 방법, 그리고 기록 매체
US11538485B2 (en) 2019-08-14 2022-12-27 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
US11341988B1 (en) * 2019-09-23 2022-05-24 Apple Inc. Hybrid learning-based and statistical processing techniques for voice activity detection
CN110827857B (zh) * 2019-11-28 2022-04-12 哈尔滨工程大学 基于谱特征和elm的语音情感识别方法
CN111402842B (zh) * 2020-03-20 2021-11-19 北京字节跳动网络技术有限公司 用于生成音频的方法、装置、设备和介质
CN112017694B (zh) * 2020-08-25 2021-08-20 天津洪恩完美未来教育科技有限公司 语音数据的评测方法和装置、存储介质和电子装置
US11769491B1 (en) * 2020-09-29 2023-09-26 Amazon Technologies, Inc. Performing utterance detection using convolution
WO2022076923A1 (en) 2020-10-08 2022-04-14 Modulate, Inc. Multi-stage adaptive system for content moderation
CN112908361B (zh) * 2021-02-02 2022-12-16 早道(大连)教育科技有限公司 一种基于小粒度口语发音评价系统
CN112562731B (zh) * 2021-02-24 2021-07-06 北京读我网络技术有限公司 一种口语发音评测方法、装置、电子设备及存储介质
CN113782051B (zh) * 2021-07-28 2024-03-19 北京中科模识科技有限公司 广播效果分类方法及系统、电子设备和存储介质
CN114360504A (zh) * 2021-11-26 2022-04-15 腾讯科技(深圳)有限公司 音频处理方法、装置、设备、程序产品及存储介质

Family Cites Families (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4032710A (en) * 1975-03-10 1977-06-28 Threshold Technology, Inc. Word boundary detector for speech recognition equipment
US4394538A (en) * 1981-03-04 1983-07-19 Threshold Technology, Inc. Speech recognition system and method
JPS59139099A (ja) * 1983-01-31 1984-08-09 株式会社東芝 音声区間検出装置
US4594575A (en) * 1984-07-30 1986-06-10 Ncr Corporation Digital processor for speech signals
US4975960A (en) 1985-06-03 1990-12-04 Petajan Eric D Electronic facial tracking and detection system and method and apparatus for automated speech recognition
JPS6350896A (ja) 1986-08-21 1988-03-03 沖電気工業株式会社 音声認識装置
DE3840148A1 (de) 1988-11-29 1990-05-31 Bosch Gmbh Robert Verfahren und vorrichtung zum erkennen eines fehlerzustandes einer lambdasonde
JPH02205897A (ja) 1989-02-03 1990-08-15 Toshiba Corp 有音検出装置
JP3004023B2 (ja) * 1989-11-28 2000-01-31 株式会社東芝 音声認識装置
JPH05257496A (ja) 1992-03-12 1993-10-08 Sekisui Chem Co Ltd 単語認識方式
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
JP2924555B2 (ja) * 1992-10-02 1999-07-26 三菱電機株式会社 音声認識の境界推定方法及び音声認識装置
US5852669A (en) 1994-04-06 1998-12-22 Lucent Technologies Inc. Automatic face and facial feature location detection for low bit rate model-assisted H.261 compatible coding of video
US5638487A (en) * 1994-12-30 1997-06-10 Purespeech, Inc. Automatic speech recognition
US5806036A (en) 1995-08-17 1998-09-08 Ricoh Company, Ltd. Speechreading using facial feature parameters from a non-direct frontal view of the speaker
JP2996926B2 (ja) * 1997-03-11 2000-01-11 株式会社エイ・ティ・アール音声翻訳通信研究所 音素シンボルの事後確率演算装置及び音声認識装置
US5897616A (en) 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6185529B1 (en) 1998-09-14 2001-02-06 International Business Machines Corporation Speech recognition aided by lateral profile image
US6243683B1 (en) 1998-12-29 2001-06-05 Intel Corporation Video control of speech recognition
US7117157B1 (en) 1999-03-26 2006-10-03 Canon Kabushiki Kaisha Processing apparatus for determining which person in a group is speaking
US6594629B1 (en) 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6868380B2 (en) 2000-03-24 2005-03-15 Eliza Corporation Speech recognition system and method for generating phonotic estimates
TW521266B (en) 2000-07-13 2003-02-21 Verbaltek Inc Perceptual phonetic feature speech recognition system and method
US6964023B2 (en) 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
KR20040024870A (ko) 2001-07-20 2004-03-22 그레이스노트 아이엔씨 음성 기록의 자동 확인
US7165029B2 (en) 2002-05-09 2007-01-16 Intel Corporation Coupled hidden Markov model for audiovisual speech recognition
US7209883B2 (en) 2002-05-09 2007-04-24 Intel Corporation Factorial hidden markov model for audiovisual speech recognition
US7783061B2 (en) 2003-08-27 2010-08-24 Sony Computer Entertainment Inc. Methods and apparatus for the targeted sound detection
US7809145B2 (en) 2006-05-04 2010-10-05 Sony Computer Entertainment Inc. Ultra small microphone array
US8947347B2 (en) 2003-08-27 2015-02-03 Sony Computer Entertainment Inc. Controlling actions in a video game unit
US7472063B2 (en) 2002-12-19 2008-12-30 Intel Corporation Audio-visual feature fusion and support vector machine useful for continuous speech recognition
US7091409B2 (en) 2003-02-14 2006-08-15 University Of Rochester Music feature extraction using wavelet coefficient histograms
JP4407305B2 (ja) * 2003-02-17 2010-02-03 株式会社ケンウッド ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム
US7454342B2 (en) 2003-03-19 2008-11-18 Intel Corporation Coupled hidden Markov model (CHMM) for continuous audiovisual speech recognition
JP4301102B2 (ja) * 2004-07-22 2009-07-22 ソニー株式会社 音声処理装置および音声処理方法、プログラム、並びに記録媒体
JP2006039120A (ja) * 2004-07-26 2006-02-09 Sony Corp 対話装置および対話方法、並びにプログラムおよび記録媒体
US7505902B2 (en) 2004-07-28 2009-03-17 University Of Maryland Discrimination of components of audio signals based on multiscale spectro-temporal modulations
JP4533897B2 (ja) 2004-09-01 2010-09-01 パイオニア株式会社 処理制御装置、そのプログラム、および、そのプログラムを記録した記録媒体
US7392187B2 (en) * 2004-09-20 2008-06-24 Educational Testing Service Method and system for the automatic generation of speech features for scoring high entropy speech
WO2006076217A2 (en) * 2005-01-10 2006-07-20 Herman Miller, Inc. Method and apparatus of overlapping and summing speech for an output that disrupts speech
US7742914B2 (en) 2005-03-07 2010-06-22 Daniel A. Kosek Audio spectral noise reduction method and apparatus
US8738370B2 (en) 2005-06-09 2014-05-27 Agi Inc. Speech analyzer detecting pitch frequency, speech analyzing method, and speech analyzing program
US7518631B2 (en) 2005-06-28 2009-04-14 Microsoft Corporation Audio-visual control system
JP2006031033A (ja) 2005-08-01 2006-02-02 Toshiba Corp 情報処理装置
US8209182B2 (en) 2005-11-30 2012-06-26 University Of Southern California Emotion recognition system
GB2433150B (en) * 2005-12-08 2009-10-07 Toshiba Res Europ Ltd Method and apparatus for labelling speech
DE102006008260B3 (de) 2006-02-22 2007-07-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Analyse eines Audiodatums
US8825149B2 (en) 2006-05-11 2014-09-02 Northwestern University Systems and methods for measuring complex auditory brainstem response
US8589151B2 (en) * 2006-06-21 2013-11-19 Harris Corporation Vocoder and associated method that transcodes between mixed excitation linear prediction (MELP) vocoders with different speech frame rates
JP4085130B2 (ja) 2006-06-23 2008-05-14 松下電器産業株式会社 感情認識装置
US8355915B2 (en) 2006-11-30 2013-01-15 Rao Ashwin P Multimodal speech recognition system
US20080189109A1 (en) * 2007-02-05 2008-08-07 Microsoft Corporation Segmentation posterior based boundary point determination
JP5245255B2 (ja) 2007-02-15 2013-07-24 富士通株式会社 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置
US8965762B2 (en) 2007-02-16 2015-02-24 Industrial Technology Research Institute Bimodal emotion recognition method and system utilizing a support vector machine
GB0703974D0 (en) 2007-03-01 2007-04-11 Sony Comp Entertainment Europe Entertainment device
KR100925479B1 (ko) * 2007-09-19 2009-11-06 한국전자통신연구원 음성 인식 방법 및 장치
JP2010230695A (ja) * 2007-10-22 2010-10-14 Toshiba Corp 音声の境界推定装置及び方法
KR20090122142A (ko) 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
CN101315733B (zh) 2008-07-17 2010-06-02 安徽科大讯飞信息科技股份有限公司 一种针对计算机语言学习系统发音评测的自适应方法
US8566088B2 (en) 2008-11-12 2013-10-22 Scti Holdings, Inc. System and method for automatic speech to text conversion
US8442832B2 (en) 2008-12-08 2013-05-14 Electronics And Telecommunications Research Institute Apparatus for context awareness and method using the same
US8494857B2 (en) * 2009-01-06 2013-07-23 Regents Of The University Of Minnesota Automatic measurement of speech fluency
EP2406787B1 (en) 2009-03-11 2014-05-14 Google, Inc. Audio classification for information retrieval using sparse features
US8412525B2 (en) 2009-04-30 2013-04-02 Microsoft Corporation Noise robust speech classifier ensemble
US8406925B2 (en) 2009-07-01 2013-03-26 Honda Motor Co., Ltd. Panoramic attention for humanoid robots
US9511289B2 (en) 2009-07-10 2016-12-06 Valve Corporation Player biofeedback for dynamically controlling a video game state
US8380520B2 (en) 2009-07-30 2013-02-19 Industrial Technology Research Institute Food processor with recognition ability of emotion-related information and emotional signals
US8589166B2 (en) 2009-10-22 2013-11-19 Broadcom Corporation Speech content based packet loss concealment
GB0920480D0 (en) * 2009-11-24 2010-01-06 Yu Kai Speech processing and learning
US8600749B2 (en) * 2009-12-08 2013-12-03 At&T Intellectual Property I, L.P. System and method for training adaptation-specific acoustic models for automatic speech recognition
US9070360B2 (en) * 2009-12-10 2015-06-30 Microsoft Technology Licensing, Llc Confidence calibration in automatic speech recognition systems
EP2363852B1 (en) * 2010-03-04 2012-05-16 Deutsche Telekom AG Computer-based method and system of assessing intelligibility of speech represented by a speech signal
US8676574B2 (en) 2010-11-10 2014-03-18 Sony Computer Entertainment Inc. Method for tone/intonation recognition using auditory attention cues
US8756061B2 (en) 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
JP5979146B2 (ja) * 2011-07-11 2016-08-24 日本電気株式会社 音声合成装置、音声合成方法および音声合成プログラム
US10453479B2 (en) * 2011-09-23 2019-10-22 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
US9214157B2 (en) 2011-12-06 2015-12-15 At&T Intellectual Property I, L.P. System and method for machine-mediated human-human conversation
US9548054B2 (en) 2012-05-11 2017-01-17 Mediatek Inc. Speaker authentication methods and related methods of electronic devices using calendar data
US9020822B2 (en) 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9672811B2 (en) 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection

Also Published As

Publication number Publication date
US9672811B2 (en) 2017-06-06
US20190005943A1 (en) 2019-01-03
WO2014085204A1 (en) 2014-06-05
JP2016502140A (ja) 2016-01-21
US20170263240A1 (en) 2017-09-14
CN104756182B (zh) 2018-05-11
EP2926335A4 (en) 2016-04-20
EP2926335A1 (en) 2015-10-07
US20140149112A1 (en) 2014-05-29
EP2926335B8 (en) 2017-08-09
US10424289B2 (en) 2019-09-24
US10049657B2 (en) 2018-08-14
CN104756182A (zh) 2015-07-01
EP2926335B1 (en) 2017-07-05

Similar Documents

Publication Publication Date Title
US10424289B2 (en) Speech recognition system using machine learning to classify phone posterior context information and estimate boundaries in speech from combined boundary posteriors
JP6198872B2 (ja) 聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出
US9020822B2 (en) Emotion recognition using auditory attention cues extracted from users voice
US8676574B2 (en) Method for tone/intonation recognition using auditory attention cues
Nazir et al. Mispronunciation detection using deep convolutional neural network features and transfer learning-based model for Arabic phonemes
CN112074903A (zh) 用于口语中的声调识别的系统和方法
Wu et al. The DKU-LENOVO Systems for the INTERSPEECH 2019 Computational Paralinguistic Challenge.
Carofilis et al. Improvement of accent classification models through Grad-Transfer from Spectrograms and Gradient-weighted Class Activation Mapping
Dennis et al. Generalized Hough transform for speech pattern classification
Nazir et al. An Arabic mispronunciation detection system based on the frequency of mistakes for Asian speakers
Ahmed et al. Efficient feature extraction and classification for the development of Pashto speech recognition system
Kareem et al. Multi-Label Bird Species Classification Using Sequential Aggregation Strategy from Audio Recordings
Mahendran et al. Visually Impaired Voting Aids using Speech Processing and face Recognttion
Matayoshi Pronunciation Assessment at Phone Level for Second Language Learning
Merkx Computational modelling of human spoken-word recognition: the effects of pre-lexical representation quality on Fine-Tracker’s modelling performance
Sukvichai et al. An Alternative Approach for Thai Automatic Speech Recognition Based on the CNN-based Keyword Spotting with Real-World Application
Patil Sound Object Recognition
Vasco-Carofilis et al. Improvement of accent classification models through Grad-Transfer from Spectrograms and Gradient-weighted Class Activation Mapping

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160705

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170214

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170417

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170803

R150 Certificate of patent or registration of utility model

Ref document number: 6189970

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250