JP6189970B2 - 音/母音/音節境界検出のための聴覚的注意合図と音素事後確率スコアの組み合わせ - Google Patents
音/母音/音節境界検出のための聴覚的注意合図と音素事後確率スコアの組み合わせ Download PDFInfo
- Publication number
- JP6189970B2 JP6189970B2 JP2015544138A JP2015544138A JP6189970B2 JP 6189970 B2 JP6189970 B2 JP 6189970B2 JP 2015544138 A JP2015544138 A JP 2015544138A JP 2015544138 A JP2015544138 A JP 2015544138A JP 6189970 B2 JP6189970 B2 JP 6189970B2
- Authority
- JP
- Japan
- Prior art keywords
- boundary
- posterior
- sound
- auditory
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 34
- 238000000034 method Methods 0.000 claims description 45
- 230000002123 temporal effect Effects 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 23
- 238000010801 machine learning Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 22
- 238000001228 spectrum Methods 0.000 claims description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 18
- 230000003595 spectral effect Effects 0.000 claims description 17
- 230000003190 augmentative effect Effects 0.000 claims description 9
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 238000012417 linear regression Methods 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 claims 13
- 238000005070 sampling Methods 0.000 claims 3
- 230000003416 augmentation Effects 0.000 claims 1
- 210000004027 cell Anatomy 0.000 description 13
- 230000011218 segmentation Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000012549 training Methods 0.000 description 9
- 230000009467 reduction Effects 0.000 description 8
- 238000000348 solid-phase epitaxy Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000005284 excitation Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 230000003278 mimic effect Effects 0.000 description 5
- 230000001629 suppression Effects 0.000 description 5
- 210000003926 auditory cortex Anatomy 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000288113 Gallirallus australis Species 0.000 description 1
- 241000335574 Narayana Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000003952 cochlear nucleus Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001054 cortical effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 210000000067 inner hair cell Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000023886 lateral inhibition Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 229920013636 polyphenyl ether polymer Polymers 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005549 size reduction Methods 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Auxiliary Devices For Music (AREA)
- Computer Vision & Pattern Recognition (AREA)
Description
本出願は、2011年4月1日出願の、「SPEECH SYLLABLE/VOWEL/PHONE BOUNDARY DETECTION USING AUDITORY ATTENTION CUES」と題する、Ozlem Kalinliらの共同所有の同時係属米国非仮特許出願第13/078,866号に関し、その開示の全体は参照により本明細書に組み込まれる。
聴覚的注意特徴を使用する境界検出方法が提案されている。境界の精度をさらに改善するために、音素事後確率を聴覚的注意特徴と組み合わせることができる。音素事後確率は、音響特徴(mfcc、メルフィルタバンクなど)を与えられた音素クラス事後確率スコアを推定するモデル(例えば、深いニューラルネットワーク)を訓練することによって取得される。事後確率は互いと混同される傾向があるため、通常は境界周辺でこれらモデルの音素分類精度が低下する、即ち、音素セグメントの境界において明確な勝者クラスが典型的にない一方で、音素セグメントの中央では勝者(例えば、事後確率スコアの最大値)は明確であることが知られている。これは確かに、境界検出の目的のために非常に有用な情報である。音素事後確率を聴覚的注意特徴と組み合わせることによって、境界検出性能がさらに改善され得ることが提案される。現在のフレームの音素事後確率を、この目的のために使用することができる。さらに、近傍のフレームの事後確率は、コンテキスト情報を使用することによっても性能を改善するのにさらに役立ち得る。
本開示の態様において、記録された音声に対応する信号を分析して、例えば音素境界などの境界を決定することができる。かかる境界検出は、この信号から聴覚的注意特徴を抽出すること、およびこの信号から音素事後確率を抽出することによって、実現することができる。次に聴覚的注意特徴および音素事後確率を組み合わせて、この信号内の境界を検出することができる。本開示の詳細は、以下の通りに要約され得る:第1の聴覚的注意特徴の抽出を説明する。次に、音事後確率の抽出を説明する。次に、境界検出のために聴覚的注意特徴および音素事後確率を組み合わせるための、2つの提案される手法を説明する。
聴覚的注意合図は、生物学的に刺激され、ヒト聴覚系における処理段階を模倣することによって抽出される。一組の多重スケール特徴は、中枢聴覚系における処理段階に基づいて、2Dスペクトル経時的フィルタを使用して、音響スペクトルから抽出され、低レベルの聴覚的要点特徴に変換される。文献中の先行技術とは異なり、聴覚的注意モデルは、エッジならびに局所時間的およびスペクトル的不連続を検出するための画像のように、音響の2Dスペクトルを分析する。したがって、それは、発話内の境界を成功裏に検出する。
音事後確率の抽出は、音認識装置と同様である。基本的に、音響特徴が発話から抽出され、モデルまたは音モデルは、特徴と音との間のマッピングを学習するように訓練される。
境界検出のために聴覚的注意特徴を音事後確率と組み合わせる1つの方法200aを、図2Aに図示する。本明細書において「初期融合」と称されるこの技術において聴覚的注意(AA)特徴232および音事後確率(PP)234は、例えば、上述のように、音響信号から並行して抽出され得る。AA特徴および音事後確率は、増補されて機械学習アルゴリズム238、例えば、境界の推定のための3層ニューラルネットワーク(NN)に送信され得る。
TIMIT上の音境界検出のための実験を行った。しかしながら、上記の見解は、例えば母音の終わり、音節核、音節核の中央および終わり、または音節の終わりなどの、発話内の母音境界および他の境界の検出のためにも使用され得る。
Claims (15)
- 音声信号の入力ウィンドウを処理するための方法であって、前記入力ウィンドウが複数のフレームを有し、前記方法が、
前記入力ウィンドウに対応する時間のセグメントの間、プロセッサを用いて前記音声信号をデジタルサンプリングすることによって、前記音声信号の前記入力ウィンドウを生成することと、
前記入力ウィンドウの前記フレームのそれぞれから、2次元のスペクトル経時的フィルタを使用して音響スペクトルから抽出され、低レベルの聴覚的要点特徴に変換される聴覚的注意特徴を抽出することと、
前記入力ウィンドウの前記フレームのそれぞれから、音(phone)事後確率を抽出することと、
前記聴覚的注意特徴および前記音事後確率の組み合わせから、組み合わせられた境界事後確率を、機械学習を使用して生成することと、
前記組み合わせられた境界事後確率から、前記音声信号内に含まれる発話内の境界を推定することと、を含み、
前記組み合わせられた境界事後確率を、機械学習を使用して生成することは、音事後コンテキスト情報を生成するために近傍フレームの前記音事後確率を機械学習アルゴリズムに供給して前記抽出された音事後確率を増補することにより、前記組み合わせられた境界事後確率を生成する、方法。 - 組み合わせられた境界事後確率の前記生成が、
前記聴覚的注意特徴および前記音事後確率の両方を、境界分類器の機械学習アルゴリズムに供給して、前記組み合わせられた境界事後確率を出力することを含む、請求項1に記載の方法。 - 組み合わせられた境界事後確率の前記生成が、
前記聴覚的注意特徴を、第1の境界分類器の機械学習アルゴリズムに供給して、第1の境界事後確率の組を出力することと、
前記音事後確率を、第2の境界分類器の機械学習アルゴリズムに供給して、第2の境界事後確率の組を出力することと、
前記第1の境界事後確率の組および前記第2の境界事後確率の組を較正して、前記第1の境界事後確率の組および第2の境界事後確率の組の相対的重みを決定することと、
前記相対的重みを、前記第1の境界事後確率の組および前記第2の境界事後確率の組に割り当てて、前記組み合わせられた境界事後確率を出力することと、を含む、請求項1に記載の方法。 - 音事後確率の前記抽出が、
前記入力ウィンドウの前記フレームのそれぞれから、音響特徴を抽出することと、
前記音響特徴を、音分類器の機械学習アルゴリズムに供給して、前記音事後確率を出力することと、を含む、請求項1に記載の方法。 - 聴覚的注意特徴の前記抽出が、
前記入力ウィンドウの聴覚スペクトルを決定することと、
前記聴覚スペクトルから、1つ以上の多重スケール特徴を抽出することであって、各多重スケール特徴が、別個の2次元のスペクトル経時的受容フィルタを使用して抽出される、抽出することと、
前記1つ以上の多重スケール特徴に対応する1つ以上の特徴マップを生成することと、
前記1つ以上の特徴マップのそれぞれから、聴覚的要点ベクトルを抽出することと、
前記1つ以上の特徴マップから抽出された各聴覚的要点ベクトルの増強を通して、累積的要点ベクトルを取得することと、
前記累積的要点ベクトルから前記聴覚的注意特徴を生成することと、を含む、請求項1に記載の方法。 - 前記境界分類器の前記機械学習アルゴリズムが、3層ニューラルネットワークである、請求項2に記載の方法。
- 前記第1の境界分類器の前記機械学習アルゴリズムが、3層ニューラルネットワークであり、前記第2の境界分類器の前記機械学習アルゴリズムが、3層ニューラルネットワークである、請求項3に記載の方法。
- 前記音分類器の前記機械学習アルゴリズムが、ディープビリーフネットワークである、請求項4に記載の方法。
- 前記音響特徴が、対数メルスペクトル特徴である、請求項4に記載の方法。
- 前記較正が、ロジスティック線形回帰を使用して前記相対的重みを決定することを含む、請求項3に記載の方法。
- 前記較正が、機械学習を使用して前記相対的重みを決定することを含む、請求項3に記載の方法。
- 前記推定される境界が、音節境界、母音境界、音素境界、またはこれらの組み合わせである、請求項1に記載の方法。
- 発話認識における境界検出のための装置であって、
プロセッサと、
メモリと、
前記メモリ内に具体化され、前記プロセッサによって実行可能なコンピュータ符号化命令と、を備え、前記コンピュータ符号化命令は、音声信号の入力ウィンドウを処理するための方法を実現するように構成され、前記方法は、
前記入力ウィンドウに対応する時間のセグメントの間、プロセッサを用いて前記音声信号をデジタルサンプリングすることによって、前記音声信号の前記入力ウィンドウを生成することと、
前記信号のフレームのそれぞれから、2次元のスペクトル経時的フィルタを使用して音響スペクトルから抽出され、低レベルの聴覚的要点特徴に変換される1つ以上の聴覚的注意特徴を抽出することと、
前記信号の前記フレームのそれぞれから、1つ以上の音(phone)事後確率を抽出することと、
前記聴覚的注意特徴および前記音事後確率の組み合わせから、1つ以上の組み合わせられた境界事後確率を、機械学習を使用して生成することと、
前記組み合わせられた境界事後確率から、前記音声信号に含まれる発話内の1つ以上の境界を推定することと、を含み、
前記組み合わせられた境界事後確率を、機械学習を使用して生成することは、音事後コンテキスト情報を生成するために近傍フレームの前記音事後確率を機械学習アルゴリズムに供給して前記抽出された音事後確率を増補することにより、前記組み合わせられた境界事後確率を生成する、装置。 - 前記プロセッサに連結されるマイクロフォンをさらに備え、前記方法は、前記マイクロフォンを用いて前記音声信号を検出することをさらに含む、請求項13に記載の装置。
- 中に具体化されたプログラム命令を有する非一時的なコンピュータ可読媒体であって、コンピュータシステムのプロセッサによる前記プログラム命令の実行が、前記プロセッサに音声信号の入力ウィンドウを処理するための方法を遂行させ、前記方法は、
前記入力ウィンドウに対応する時間のセグメントの間、プロセッサを用いて前記音声信号をデジタルサンプリングすることによって、前記音声信号の前記入力ウィンドウを生成することと、
前記信号のフレームのそれぞれから、2次元のスペクトル経時的フィルタを使用して音響スペクトルから抽出され、低レベルの聴覚的要点特徴に変換される1つ以上の聴覚的注意特徴を抽出することと、
前記信号の前記フレームのそれぞれから、1つ以上の音(phone)事後確率を抽出することと、
前記聴覚的注意特徴および前記音事後確率の組み合わせから、1つ以上の組み合わせられた境界事後確率を、機械学習を使用して生成することと、
前記組み合わせられた境界事後確率から、前記音声信号に含まれる発話内の1つ以上の境界を推定することと、を含み、
前記組み合わせられた境界事後確率を、機械学習を使用して生成することは、音事後コンテキスト情報を生成するために近傍フレームの前記音事後確率を機械学習アルゴリズムに供給して前記抽出された音事後確率を増補することにより、前記組み合わせられた境界事後確率を生成する、非一時的なコンピュータ可読媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261731403P | 2012-11-29 | 2012-11-29 | |
US61/731,403 | 2012-11-29 | ||
US13/901,426 | 2013-05-23 | ||
US13/901,426 US9672811B2 (en) | 2012-11-29 | 2013-05-23 | Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection |
PCT/US2013/071337 WO2014085204A1 (en) | 2012-11-29 | 2013-11-21 | Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016502140A JP2016502140A (ja) | 2016-01-21 |
JP6189970B2 true JP6189970B2 (ja) | 2017-08-30 |
Family
ID=50774012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015544138A Active JP6189970B2 (ja) | 2012-11-29 | 2013-11-21 | 音/母音/音節境界検出のための聴覚的注意合図と音素事後確率スコアの組み合わせ |
Country Status (5)
Country | Link |
---|---|
US (3) | US9672811B2 (ja) |
EP (1) | EP2926335B8 (ja) |
JP (1) | JP6189970B2 (ja) |
CN (1) | CN104756182B (ja) |
WO (1) | WO2014085204A1 (ja) |
Families Citing this family (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8515052B2 (en) | 2007-12-17 | 2013-08-20 | Wai Wu | Parallel signal processing system and method |
US8756061B2 (en) | 2011-04-01 | 2014-06-17 | Sony Computer Entertainment Inc. | Speech syllable/vowel/phone boundary detection using auditory attention cues |
US9031293B2 (en) | 2012-10-19 | 2015-05-12 | Sony Computer Entertainment Inc. | Multi-modal sensor based emotion recognition and emotional interface |
US9020822B2 (en) | 2012-10-19 | 2015-04-28 | Sony Computer Entertainment Inc. | Emotion recognition using auditory attention cues extracted from users voice |
US9672811B2 (en) | 2012-11-29 | 2017-06-06 | Sony Interactive Entertainment Inc. | Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection |
US20140351723A1 (en) * | 2013-05-23 | 2014-11-27 | Kobo Incorporated | System and method for a multimedia container |
US9721561B2 (en) * | 2013-12-05 | 2017-08-01 | Nuance Communications, Inc. | Method and apparatus for speech recognition using neural networks with speaker adaptation |
US10127927B2 (en) | 2014-07-28 | 2018-11-13 | Sony Interactive Entertainment Inc. | Emotional speech processing |
CN104182621B (zh) * | 2014-08-08 | 2017-06-13 | 同济大学 | 基于深度信念网络的adhd判别分析方法 |
US9715642B2 (en) | 2014-08-29 | 2017-07-25 | Google Inc. | Processing images using deep neural networks |
KR101844932B1 (ko) * | 2014-09-16 | 2018-04-03 | 한국전자통신연구원 | 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법 |
US9881631B2 (en) * | 2014-10-21 | 2018-01-30 | Mitsubishi Electric Research Laboratories, Inc. | Method for enhancing audio signal using phase information |
CN104575490B (zh) * | 2014-12-30 | 2017-11-07 | 苏州驰声信息科技有限公司 | 基于深度神经网络后验概率算法的口语发音评测方法 |
KR102413692B1 (ko) * | 2015-07-24 | 2022-06-27 | 삼성전자주식회사 | 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치 |
US10529318B2 (en) * | 2015-07-31 | 2020-01-07 | International Business Machines Corporation | Implementing a classification model for recognition processing |
KR102195223B1 (ko) * | 2016-03-18 | 2020-12-24 | 구글 엘엘씨 | 전역적으로 노멀화된 신경 네트워크들 |
US20170294185A1 (en) * | 2016-04-08 | 2017-10-12 | Knuedge Incorporated | Segmentation using prior distributions |
CN106228976B (zh) * | 2016-07-22 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
KR101943381B1 (ko) * | 2016-08-22 | 2019-01-29 | 에스케이텔레콤 주식회사 | 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치 |
US11210589B2 (en) | 2016-09-28 | 2021-12-28 | D5Ai Llc | Learning coach for machine learning system |
US10832129B2 (en) * | 2016-10-07 | 2020-11-10 | International Business Machines Corporation | Transfer of an acoustic knowledge to a neural network |
US10475471B2 (en) * | 2016-10-11 | 2019-11-12 | Cirrus Logic, Inc. | Detection of acoustic impulse events in voice applications using a neural network |
US10242696B2 (en) | 2016-10-11 | 2019-03-26 | Cirrus Logic, Inc. | Detection of acoustic impulse events in voice applications |
AU2017347995A1 (en) * | 2016-10-24 | 2019-03-28 | Semantic Machines, Inc. | Sequence to sequence transformations for speech synthesis via recurrent neural networks |
US10824798B2 (en) | 2016-11-04 | 2020-11-03 | Semantic Machines, Inc. | Data collection for a new conversational dialogue system |
KR20180080446A (ko) * | 2017-01-04 | 2018-07-12 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US10713288B2 (en) | 2017-02-08 | 2020-07-14 | Semantic Machines, Inc. | Natural language content generator |
US11069340B2 (en) | 2017-02-23 | 2021-07-20 | Microsoft Technology Licensing, Llc | Flexible and expandable dialogue system |
WO2018156978A1 (en) | 2017-02-23 | 2018-08-30 | Semantic Machines, Inc. | Expandable dialogue system |
US10762892B2 (en) | 2017-02-23 | 2020-09-01 | Semantic Machines, Inc. | Rapid deployment of dialogue system |
US10825445B2 (en) | 2017-03-23 | 2020-11-03 | Samsung Electronics Co., Ltd. | Method and apparatus for training acoustic model |
WO2018175098A1 (en) | 2017-03-24 | 2018-09-27 | D5Ai Llc | Learning coach for machine learning system |
US11361758B2 (en) * | 2017-04-18 | 2022-06-14 | D5Ai Llc | Multi-stage machine learning and recognition |
US10614826B2 (en) | 2017-05-24 | 2020-04-07 | Modulate, Inc. | System and method for voice-to-voice conversion |
US11132499B2 (en) | 2017-08-28 | 2021-09-28 | Microsoft Technology Licensing, Llc | Robust expandable dialogue system |
CN107680584B (zh) * | 2017-09-29 | 2020-08-25 | 百度在线网络技术(北京)有限公司 | 用于切分音频的方法和装置 |
US10650803B2 (en) * | 2017-10-10 | 2020-05-12 | International Business Machines Corporation | Mapping between speech signal and transcript |
US11321612B2 (en) | 2018-01-30 | 2022-05-03 | D5Ai Llc | Self-organizing partially ordered networks and soft-tying learned parameters, such as connection weights |
CN108542404B (zh) * | 2018-03-16 | 2021-02-12 | 成都虚实梦境科技有限责任公司 | 注意力评估装置、vr设备及可读存储介质 |
CN108447495B (zh) * | 2018-03-28 | 2020-06-09 | 天津大学 | 一种基于综合特征集的深度学习语音增强方法 |
CN108986788A (zh) * | 2018-06-06 | 2018-12-11 | 国网安徽省电力有限公司信息通信分公司 | 一种基于后验知识监督的噪声鲁棒声学建模方法 |
US20200042825A1 (en) * | 2018-08-02 | 2020-02-06 | Veritone, Inc. | Neural network orchestration |
CN109285559B (zh) * | 2018-09-14 | 2021-05-04 | 京东数字科技控股有限公司 | 角色转换点检测方法及装置、存储介质、电子设备 |
US10672382B2 (en) * | 2018-10-15 | 2020-06-02 | Tencent America LLC | Input-feeding architecture for attention based end-to-end speech recognition |
US11138966B2 (en) * | 2019-02-07 | 2021-10-05 | Tencent America LLC | Unsupervised automatic speech recognition |
CN111640424B (zh) * | 2019-03-01 | 2024-02-13 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
CN109817201B (zh) * | 2019-03-29 | 2021-03-26 | 北京金山安全软件有限公司 | 一种语言学习方法、装置、电子设备及可读存储介质 |
US11424021B2 (en) * | 2019-05-10 | 2022-08-23 | National Taiwan University | Medical image analyzing system and method thereof |
CN110211574B (zh) * | 2019-06-03 | 2022-03-11 | 哈尔滨工业大学 | 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法 |
KR102281590B1 (ko) * | 2019-07-31 | 2021-07-29 | 엘지전자 주식회사 | 음성인식 성능 향상을 위한 비 지도 가중치 적용 학습 시스템 및 방법, 그리고 기록 매체 |
US11538485B2 (en) | 2019-08-14 | 2022-12-27 | Modulate, Inc. | Generation and detection of watermark for real-time voice conversion |
US11341988B1 (en) * | 2019-09-23 | 2022-05-24 | Apple Inc. | Hybrid learning-based and statistical processing techniques for voice activity detection |
CN110827857B (zh) * | 2019-11-28 | 2022-04-12 | 哈尔滨工程大学 | 基于谱特征和elm的语音情感识别方法 |
CN111402842B (zh) * | 2020-03-20 | 2021-11-19 | 北京字节跳动网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN112017694B (zh) * | 2020-08-25 | 2021-08-20 | 天津洪恩完美未来教育科技有限公司 | 语音数据的评测方法和装置、存储介质和电子装置 |
US11769491B1 (en) * | 2020-09-29 | 2023-09-26 | Amazon Technologies, Inc. | Performing utterance detection using convolution |
WO2022076923A1 (en) | 2020-10-08 | 2022-04-14 | Modulate, Inc. | Multi-stage adaptive system for content moderation |
CN112908361B (zh) * | 2021-02-02 | 2022-12-16 | 早道(大连)教育科技有限公司 | 一种基于小粒度口语发音评价系统 |
CN112562731B (zh) * | 2021-02-24 | 2021-07-06 | 北京读我网络技术有限公司 | 一种口语发音评测方法、装置、电子设备及存储介质 |
CN113782051B (zh) * | 2021-07-28 | 2024-03-19 | 北京中科模识科技有限公司 | 广播效果分类方法及系统、电子设备和存储介质 |
CN114360504A (zh) * | 2021-11-26 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、设备、程序产品及存储介质 |
Family Cites Families (81)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4032710A (en) * | 1975-03-10 | 1977-06-28 | Threshold Technology, Inc. | Word boundary detector for speech recognition equipment |
US4394538A (en) * | 1981-03-04 | 1983-07-19 | Threshold Technology, Inc. | Speech recognition system and method |
JPS59139099A (ja) * | 1983-01-31 | 1984-08-09 | 株式会社東芝 | 音声区間検出装置 |
US4594575A (en) * | 1984-07-30 | 1986-06-10 | Ncr Corporation | Digital processor for speech signals |
US4975960A (en) | 1985-06-03 | 1990-12-04 | Petajan Eric D | Electronic facial tracking and detection system and method and apparatus for automated speech recognition |
JPS6350896A (ja) | 1986-08-21 | 1988-03-03 | 沖電気工業株式会社 | 音声認識装置 |
DE3840148A1 (de) | 1988-11-29 | 1990-05-31 | Bosch Gmbh Robert | Verfahren und vorrichtung zum erkennen eines fehlerzustandes einer lambdasonde |
JPH02205897A (ja) | 1989-02-03 | 1990-08-15 | Toshiba Corp | 有音検出装置 |
JP3004023B2 (ja) * | 1989-11-28 | 2000-01-31 | 株式会社東芝 | 音声認識装置 |
JPH05257496A (ja) | 1992-03-12 | 1993-10-08 | Sekisui Chem Co Ltd | 単語認識方式 |
US5586215A (en) * | 1992-05-26 | 1996-12-17 | Ricoh Corporation | Neural network acoustic and visual speech recognition system |
JP2924555B2 (ja) * | 1992-10-02 | 1999-07-26 | 三菱電機株式会社 | 音声認識の境界推定方法及び音声認識装置 |
US5852669A (en) | 1994-04-06 | 1998-12-22 | Lucent Technologies Inc. | Automatic face and facial feature location detection for low bit rate model-assisted H.261 compatible coding of video |
US5638487A (en) * | 1994-12-30 | 1997-06-10 | Purespeech, Inc. | Automatic speech recognition |
US5806036A (en) | 1995-08-17 | 1998-09-08 | Ricoh Company, Ltd. | Speechreading using facial feature parameters from a non-direct frontal view of the speaker |
JP2996926B2 (ja) * | 1997-03-11 | 2000-01-11 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音素シンボルの事後確率演算装置及び音声認識装置 |
US5897616A (en) | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
US6185529B1 (en) | 1998-09-14 | 2001-02-06 | International Business Machines Corporation | Speech recognition aided by lateral profile image |
US6243683B1 (en) | 1998-12-29 | 2001-06-05 | Intel Corporation | Video control of speech recognition |
US7117157B1 (en) | 1999-03-26 | 2006-10-03 | Canon Kabushiki Kaisha | Processing apparatus for determining which person in a group is speaking |
US6594629B1 (en) | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
US6868380B2 (en) | 2000-03-24 | 2005-03-15 | Eliza Corporation | Speech recognition system and method for generating phonotic estimates |
TW521266B (en) | 2000-07-13 | 2003-02-21 | Verbaltek Inc | Perceptual phonetic feature speech recognition system and method |
US6964023B2 (en) | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
KR20040024870A (ko) | 2001-07-20 | 2004-03-22 | 그레이스노트 아이엔씨 | 음성 기록의 자동 확인 |
US7165029B2 (en) | 2002-05-09 | 2007-01-16 | Intel Corporation | Coupled hidden Markov model for audiovisual speech recognition |
US7209883B2 (en) | 2002-05-09 | 2007-04-24 | Intel Corporation | Factorial hidden markov model for audiovisual speech recognition |
US7783061B2 (en) | 2003-08-27 | 2010-08-24 | Sony Computer Entertainment Inc. | Methods and apparatus for the targeted sound detection |
US7809145B2 (en) | 2006-05-04 | 2010-10-05 | Sony Computer Entertainment Inc. | Ultra small microphone array |
US8947347B2 (en) | 2003-08-27 | 2015-02-03 | Sony Computer Entertainment Inc. | Controlling actions in a video game unit |
US7472063B2 (en) | 2002-12-19 | 2008-12-30 | Intel Corporation | Audio-visual feature fusion and support vector machine useful for continuous speech recognition |
US7091409B2 (en) | 2003-02-14 | 2006-08-15 | University Of Rochester | Music feature extraction using wavelet coefficient histograms |
JP4407305B2 (ja) * | 2003-02-17 | 2010-02-03 | 株式会社ケンウッド | ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム |
US7454342B2 (en) | 2003-03-19 | 2008-11-18 | Intel Corporation | Coupled hidden Markov model (CHMM) for continuous audiovisual speech recognition |
JP4301102B2 (ja) * | 2004-07-22 | 2009-07-22 | ソニー株式会社 | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 |
JP2006039120A (ja) * | 2004-07-26 | 2006-02-09 | Sony Corp | 対話装置および対話方法、並びにプログラムおよび記録媒体 |
US7505902B2 (en) | 2004-07-28 | 2009-03-17 | University Of Maryland | Discrimination of components of audio signals based on multiscale spectro-temporal modulations |
JP4533897B2 (ja) | 2004-09-01 | 2010-09-01 | パイオニア株式会社 | 処理制御装置、そのプログラム、および、そのプログラムを記録した記録媒体 |
US7392187B2 (en) * | 2004-09-20 | 2008-06-24 | Educational Testing Service | Method and system for the automatic generation of speech features for scoring high entropy speech |
WO2006076217A2 (en) * | 2005-01-10 | 2006-07-20 | Herman Miller, Inc. | Method and apparatus of overlapping and summing speech for an output that disrupts speech |
US7742914B2 (en) | 2005-03-07 | 2010-06-22 | Daniel A. Kosek | Audio spectral noise reduction method and apparatus |
US8738370B2 (en) | 2005-06-09 | 2014-05-27 | Agi Inc. | Speech analyzer detecting pitch frequency, speech analyzing method, and speech analyzing program |
US7518631B2 (en) | 2005-06-28 | 2009-04-14 | Microsoft Corporation | Audio-visual control system |
JP2006031033A (ja) | 2005-08-01 | 2006-02-02 | Toshiba Corp | 情報処理装置 |
US8209182B2 (en) | 2005-11-30 | 2012-06-26 | University Of Southern California | Emotion recognition system |
GB2433150B (en) * | 2005-12-08 | 2009-10-07 | Toshiba Res Europ Ltd | Method and apparatus for labelling speech |
DE102006008260B3 (de) | 2006-02-22 | 2007-07-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zur Analyse eines Audiodatums |
US8825149B2 (en) | 2006-05-11 | 2014-09-02 | Northwestern University | Systems and methods for measuring complex auditory brainstem response |
US8589151B2 (en) * | 2006-06-21 | 2013-11-19 | Harris Corporation | Vocoder and associated method that transcodes between mixed excitation linear prediction (MELP) vocoders with different speech frame rates |
JP4085130B2 (ja) | 2006-06-23 | 2008-05-14 | 松下電器産業株式会社 | 感情認識装置 |
US8355915B2 (en) | 2006-11-30 | 2013-01-15 | Rao Ashwin P | Multimodal speech recognition system |
US20080189109A1 (en) * | 2007-02-05 | 2008-08-07 | Microsoft Corporation | Segmentation posterior based boundary point determination |
JP5245255B2 (ja) | 2007-02-15 | 2013-07-24 | 富士通株式会社 | 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置 |
US8965762B2 (en) | 2007-02-16 | 2015-02-24 | Industrial Technology Research Institute | Bimodal emotion recognition method and system utilizing a support vector machine |
GB0703974D0 (en) | 2007-03-01 | 2007-04-11 | Sony Comp Entertainment Europe | Entertainment device |
KR100925479B1 (ko) * | 2007-09-19 | 2009-11-06 | 한국전자통신연구원 | 음성 인식 방법 및 장치 |
JP2010230695A (ja) * | 2007-10-22 | 2010-10-14 | Toshiba Corp | 音声の境界推定装置及び方法 |
KR20090122142A (ko) | 2008-05-23 | 2009-11-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
CN101315733B (zh) | 2008-07-17 | 2010-06-02 | 安徽科大讯飞信息科技股份有限公司 | 一种针对计算机语言学习系统发音评测的自适应方法 |
US8566088B2 (en) | 2008-11-12 | 2013-10-22 | Scti Holdings, Inc. | System and method for automatic speech to text conversion |
US8442832B2 (en) | 2008-12-08 | 2013-05-14 | Electronics And Telecommunications Research Institute | Apparatus for context awareness and method using the same |
US8494857B2 (en) * | 2009-01-06 | 2013-07-23 | Regents Of The University Of Minnesota | Automatic measurement of speech fluency |
EP2406787B1 (en) | 2009-03-11 | 2014-05-14 | Google, Inc. | Audio classification for information retrieval using sparse features |
US8412525B2 (en) | 2009-04-30 | 2013-04-02 | Microsoft Corporation | Noise robust speech classifier ensemble |
US8406925B2 (en) | 2009-07-01 | 2013-03-26 | Honda Motor Co., Ltd. | Panoramic attention for humanoid robots |
US9511289B2 (en) | 2009-07-10 | 2016-12-06 | Valve Corporation | Player biofeedback for dynamically controlling a video game state |
US8380520B2 (en) | 2009-07-30 | 2013-02-19 | Industrial Technology Research Institute | Food processor with recognition ability of emotion-related information and emotional signals |
US8589166B2 (en) | 2009-10-22 | 2013-11-19 | Broadcom Corporation | Speech content based packet loss concealment |
GB0920480D0 (en) * | 2009-11-24 | 2010-01-06 | Yu Kai | Speech processing and learning |
US8600749B2 (en) * | 2009-12-08 | 2013-12-03 | At&T Intellectual Property I, L.P. | System and method for training adaptation-specific acoustic models for automatic speech recognition |
US9070360B2 (en) * | 2009-12-10 | 2015-06-30 | Microsoft Technology Licensing, Llc | Confidence calibration in automatic speech recognition systems |
EP2363852B1 (en) * | 2010-03-04 | 2012-05-16 | Deutsche Telekom AG | Computer-based method and system of assessing intelligibility of speech represented by a speech signal |
US8676574B2 (en) | 2010-11-10 | 2014-03-18 | Sony Computer Entertainment Inc. | Method for tone/intonation recognition using auditory attention cues |
US8756061B2 (en) | 2011-04-01 | 2014-06-17 | Sony Computer Entertainment Inc. | Speech syllable/vowel/phone boundary detection using auditory attention cues |
JP5979146B2 (ja) * | 2011-07-11 | 2016-08-24 | 日本電気株式会社 | 音声合成装置、音声合成方法および音声合成プログラム |
US10453479B2 (en) * | 2011-09-23 | 2019-10-22 | Lessac Technologies, Inc. | Methods for aligning expressive speech utterances with text and systems therefor |
US9214157B2 (en) | 2011-12-06 | 2015-12-15 | At&T Intellectual Property I, L.P. | System and method for machine-mediated human-human conversation |
US9548054B2 (en) | 2012-05-11 | 2017-01-17 | Mediatek Inc. | Speaker authentication methods and related methods of electronic devices using calendar data |
US9020822B2 (en) | 2012-10-19 | 2015-04-28 | Sony Computer Entertainment Inc. | Emotion recognition using auditory attention cues extracted from users voice |
US9031293B2 (en) | 2012-10-19 | 2015-05-12 | Sony Computer Entertainment Inc. | Multi-modal sensor based emotion recognition and emotional interface |
US9672811B2 (en) | 2012-11-29 | 2017-06-06 | Sony Interactive Entertainment Inc. | Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection |
-
2013
- 2013-05-23 US US13/901,426 patent/US9672811B2/en active Active
- 2013-11-21 WO PCT/US2013/071337 patent/WO2014085204A1/en active Application Filing
- 2013-11-21 EP EP13858671.4A patent/EP2926335B8/en active Active
- 2013-11-21 CN CN201380057316.8A patent/CN104756182B/zh active Active
- 2013-11-21 JP JP2015544138A patent/JP6189970B2/ja active Active
-
2017
- 2017-05-26 US US15/606,948 patent/US10049657B2/en active Active
-
2018
- 2018-08-14 US US16/103,251 patent/US10424289B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US9672811B2 (en) | 2017-06-06 |
US20190005943A1 (en) | 2019-01-03 |
WO2014085204A1 (en) | 2014-06-05 |
JP2016502140A (ja) | 2016-01-21 |
US20170263240A1 (en) | 2017-09-14 |
CN104756182B (zh) | 2018-05-11 |
EP2926335A4 (en) | 2016-04-20 |
EP2926335A1 (en) | 2015-10-07 |
US20140149112A1 (en) | 2014-05-29 |
EP2926335B8 (en) | 2017-08-09 |
US10424289B2 (en) | 2019-09-24 |
US10049657B2 (en) | 2018-08-14 |
CN104756182A (zh) | 2015-07-01 |
EP2926335B1 (en) | 2017-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10424289B2 (en) | Speech recognition system using machine learning to classify phone posterior context information and estimate boundaries in speech from combined boundary posteriors | |
JP6198872B2 (ja) | 聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出 | |
US9020822B2 (en) | Emotion recognition using auditory attention cues extracted from users voice | |
US8676574B2 (en) | Method for tone/intonation recognition using auditory attention cues | |
Nazir et al. | Mispronunciation detection using deep convolutional neural network features and transfer learning-based model for Arabic phonemes | |
CN112074903A (zh) | 用于口语中的声调识别的系统和方法 | |
Wu et al. | The DKU-LENOVO Systems for the INTERSPEECH 2019 Computational Paralinguistic Challenge. | |
Carofilis et al. | Improvement of accent classification models through Grad-Transfer from Spectrograms and Gradient-weighted Class Activation Mapping | |
Dennis et al. | Generalized Hough transform for speech pattern classification | |
Nazir et al. | An Arabic mispronunciation detection system based on the frequency of mistakes for Asian speakers | |
Ahmed et al. | Efficient feature extraction and classification for the development of Pashto speech recognition system | |
Kareem et al. | Multi-Label Bird Species Classification Using Sequential Aggregation Strategy from Audio Recordings | |
Mahendran et al. | Visually Impaired Voting Aids using Speech Processing and face Recognttion | |
Matayoshi | Pronunciation Assessment at Phone Level for Second Language Learning | |
Merkx | Computational modelling of human spoken-word recognition: the effects of pre-lexical representation quality on Fine-Tracker’s modelling performance | |
Sukvichai et al. | An Alternative Approach for Thai Automatic Speech Recognition Based on the CNN-based Keyword Spotting with Real-World Application | |
Patil | Sound Object Recognition | |
Vasco-Carofilis et al. | Improvement of accent classification models through Grad-Transfer from Spectrograms and Gradient-weighted Class Activation Mapping |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160705 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20160905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170214 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20170417 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170607 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170801 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170803 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6189970 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |