JP2016517047A - 音声認識システム及びダイナミックベイジアンネットワークモデルの使用方法 - Google Patents
音声認識システム及びダイナミックベイジアンネットワークモデルの使用方法 Download PDFInfo
- Publication number
- JP2016517047A JP2016517047A JP2016510953A JP2016510953A JP2016517047A JP 2016517047 A JP2016517047 A JP 2016517047A JP 2016510953 A JP2016510953 A JP 2016510953A JP 2016510953 A JP2016510953 A JP 2016510953A JP 2016517047 A JP2016517047 A JP 2016517047A
- Authority
- JP
- Japan
- Prior art keywords
- computer
- signal
- observed
- speech
- analysis module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 description 20
- 230000000007 visual effect Effects 0.000 description 10
- 230000002452 interceptive effect Effects 0.000 description 7
- 230000003993 interaction Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000004044 response Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 101100311260 Caenorhabditis elegans sti-1 gene Proteins 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
Description
J. A. Bilmes and C. Bartels, "Graphical model architectures for speech recognition", IEEE Signal Processing Magazine, vol. 22, pp. 89-100, 2005,
J. Frankel, M. Wester, and S. King, "Articulatory feature recognition using dynamic Bayesian networks", Computer Speech and Language, vol. 21, no. 4, pp. 620-640, October 2007.
P. Cardinal, G. Boulianne, and M. Comeau, "Segmentation of recordings based on partial transcriptions", Proceedings of Interspeech, pp. 3345-3348, 2005; or
K. Demuynck and T. Laureys, "A comparison of different approaches to automatic speech segmentation", Proceedings of the 5th International Conference on Text, Speech and Dialogue, pp. 277-284, 2002; or
Subramanya, J. Bilmes, and C. P. Chen, "Focused word segmentation for ASR", Proceedings of Interspeech 2005, pp. 393-396, 2005.
H. Misra, S. Ikbal, H. Bourlard, and H. Hermansky, "Spectral entropy based feature for robust ASR", Proceedings of ICASSP, pp. I-193-196, 2004; and/or
L. Deng, J. Wu, J. Droppo, and A. Acero, "Analysis and comparison of two speech feature extraction/compensation algorithms", IEEE Signal Processing Letters, vol. 12, no. 6, pp. 477-480, 2005; and/or
D. Zhu and K. K. Paliwal, "Product of power spectrum and group delay function for speech recognition", Proceedings of ICASSP, pp. I-125-128, 2004.
本明細書によれば、以下の各項目に記載の構成もまた開示される。
[項目1]
音声認識のコンピュータ実装方法であって、
入力デバイス(102A)により、音声を表す電気信号を登録し、前記電気信号を周波数または時間周波数領域(202)に変換する段階(201)と、
ダイナミックベイジアンネットワーク(205)に基づいて解析モジュール内の前記電気信号を分析する段階であり、それにより、複数の単語(W)の複数の仮説および観測された複数の信号特徴(OA,OV)に基づくそれらの確率を生成する、段階と、
特定の複数の単語(W)仮説およびそれらの確率に基づいて、音声を表す前記電気信号に対応するテキストを認識する段階(209)と、
前記解析モジュール(205)に、各ラインに対して別個の複数の時間セグメントに対する少なくとも2つの並列信号処理ライン(204a、204b、204c、204d、201a)における周波数または時間周波数領域(202)内の前記電気信号に対して決定される観測された複数の信号特徴(308−312)を入力する段階と、
前記解析モジュール(205)において、少なくとも2つの別個の時間セグメントに対して観測された前記複数の信号特徴(308−312)の間の複数の関係を分析する段階と、
を備える、コンピュータ実装方法。
[項目2]
前記複数の時間セグメントは、所定の継続時間を有する、項目1に記載のコンピュータ実装方法。
[項目3]
前記複数の時間セグメントは、複数の音素、複数の音節、複数の単語のような複数の音声セグメントのコンテンツに依存する、項目1または2に記載のコンピュータ実装方法。
[項目4]
前記解析モジュール(205)において、モデルを記述する複数の変数の間の複数の決定論的及び蓋然論的関係を定義する段階をさらに備え、複数の前記蓋然論的関係は、少なくとも観測された前記複数の信号特徴を現在の状態(Sti)にリンクするために定義される、項目1から3のいずれか一項に記載のコンピュータ実装方法。
[項目5]
前記複数の関係を分析する段階は、異なる観測された複数の信号特徴(OA、OV)を同時に分析する段階(205)を含む、項目1から4のいずれか一項に記載のコンピュータ実装方法。
[項目6]
音声認識のコンピュータ実装システムであって、
音声を表す電気信号を登録する入力デバイス(102A)と、
音声を表す登録された前記電気信号を周波数または時間周波数領域に変換するモジュール(202)と、
音声を表す前記電気信号を分析し、複数の単語(W)の複数の仮説および観測された複数の信号特徴(OA,OV)に基づくそれらの確率を生成するダイナミックベイジアンネットワークに基づく解析モジュール(205)と、
複数の単語(W)の定義された前記複数の仮説及びそれらの確率に基づいて、音声を表す前記電気信号に対応するテキストを認識するモジュール(209)と、
各ラインに対して別個の複数の時間セグメントに対する少なくとも2つの並列信号処理ラインにおいて、少なくとも2つの観測された信号特徴(308−312)を、前記解析モジュール(205)に対して決定する少なくとも2つの信号パラメータ化モジュール(204a、204b、204c、204d、201a)と、
を備え、前記解析モジュール(205)は、少なくとも2つの別個の時間セグメントに対して観測された前記複数の信号特徴(308−312)の間の複数の依存性を分析する、コンピュータ実装システム。
[項目7]
コンピュータ上で実行されると、項目1から5のいずれか一項に記載のコンピュータ実装方法のすべての段階を実行するプログラムコード化手段を備えるコンピュータプログラム。
[項目8]
コンピュータ上で実行されると、項目1から5のいずれか一項に記載のコンピュータ実装方法のすべての段階を実行する複数のコンピュータ実行可能命令を格納するコンピュータ可読媒体。音声認識システム及びダイナミックベイジアンネットワークモデルの使用方法。
Claims (8)
- 音声認識のコンピュータ実装方法であって、
入力デバイス(102A)により、音声を表す電気信号を登録し、前記電気信号を周波数または時間周波数領域(202)に変換する段階(201)と、
ダイナミックベイジアンネットワーク(205)に基づいて解析モジュール内の前記電気信号を分析する段階であり、それにより、複数の単語(W)の複数の仮説および観測された複数の信号特徴(OA,OV)に基づくそれらの確率を生成する、段階と、
特定の複数の単語(W)仮説およびそれらの確率に基づいて、音声を表す前記電気信号に対応するテキストを認識する段階(209)と、
前記解析モジュール(205)に、各ラインに対して別個の複数の時間セグメントに対する少なくとも2つの並列信号処理ライン(204a、204b、204c、204d、201a)における周波数または時間周波数領域(202)内の前記電気信号に対して決定される観測された複数の信号特徴(308−312)を入力する段階と、
前記解析モジュール(205)において、少なくとも2つの別個の時間セグメントに対して観測された前記複数の信号特徴(308−312)の間の複数の関係を分析する段階と、
を備える、コンピュータ実装方法。 - 前記複数の時間セグメントは、所定の継続時間を有する、請求項1に記載のコンピュータ実装方法。
- 前記複数の時間セグメントは、複数の音素、複数の音節、複数の単語のような複数の音声セグメントのコンテンツに依存する、請求項1または2に記載のコンピュータ実装方法。
- 前記解析モジュール(205)において、モデルを記述する複数の変数の間の複数の決定論的及び蓋然論的関係を定義する段階をさらに備え、複数の前記蓋然論的関係は、少なくとも観測された前記複数の信号特徴を現在の状態(Sti)にリンクするために定義される、請求項1から3のいずれか一項に記載のコンピュータ実装方法。
- 前記複数の関係を分析する段階は、異なる観測された複数の信号特徴(OA、OV)を同時に分析する段階(205)を含む、請求項1から4のいずれか一項に記載のコンピュータ実装方法。
- 音声認識のコンピュータ実装システムであって、
音声を表す電気信号を登録する入力デバイス(102A)と、
音声を表す登録された前記電気信号を周波数または時間周波数領域に変換するモジュール(202)と、
音声を表す前記電気信号を分析し、複数の単語(W)の複数の仮説および観測された複数の信号特徴(OA,OV)に基づくそれらの確率を生成するダイナミックベイジアンネットワークに基づく解析モジュール(205)と、
複数の単語(W)の定義された前記複数の仮説及びそれらの確率に基づいて、音声を表す前記電気信号に対応するテキストを認識するモジュール(209)と、
各ラインに対して別個の複数の時間セグメントに対する少なくとも2つの並列信号処理ラインにおいて、少なくとも2つの観測された信号特徴(308−312)を、前記解析モジュール(205)に対して決定する少なくとも2つの信号パラメータ化モジュール(204a、204b、204c、204d、201a)と、
を備え、前記解析モジュール(205)は、少なくとも2つの別個の時間セグメントに対して観測された前記複数の信号特徴(308−312)の間の複数の依存性を分析する、コンピュータ実装システム。 - コンピュータ上で実行されると、請求項1から5のいずれか一項に記載のコンピュータ実装方法のすべての段階を実行するプログラムコード化手段を備えるコンピュータプログラム。
- コンピュータ上で実行されると、請求項1から5のいずれか一項に記載のコンピュータ実装方法のすべての段階を実行する複数のコンピュータ実行可能命令を格納するコンピュータ可読媒体。音声認識システム及びダイナミックベイジアンネットワークモデルの使用方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PL403724A PL403724A1 (pl) | 2013-05-01 | 2013-05-01 | System rozpoznawania mowy i sposób wykorzystania dynamicznych modeli i sieci Bayesa |
PLP.403724 | 2013-05-01 | ||
PCT/EP2013/063330 WO2014177232A1 (en) | 2013-05-01 | 2013-06-26 | A speech recognition system and a method of using dynamic bayesian network models |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016517047A true JP2016517047A (ja) | 2016-06-09 |
Family
ID=48699782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016510953A Pending JP2016517047A (ja) | 2013-05-01 | 2013-06-26 | 音声認識システム及びダイナミックベイジアンネットワークモデルの使用方法 |
Country Status (9)
Country | Link |
---|---|
US (1) | US9552811B2 (ja) |
EP (1) | EP2959475B1 (ja) |
JP (1) | JP2016517047A (ja) |
CN (1) | CN104541324B (ja) |
AU (1) | AU2013388411A1 (ja) |
CA (1) | CA2875727A1 (ja) |
IN (1) | IN2014DN10400A (ja) |
PL (2) | PL403724A1 (ja) |
WO (1) | WO2014177232A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016028495A1 (en) | 2014-08-22 | 2016-02-25 | Sri International | Systems for speech-based assessment of a patient's state-of-mind |
US10706873B2 (en) * | 2015-09-18 | 2020-07-07 | Sri International | Real-time speaker state analytics platform |
US9792907B2 (en) | 2015-11-24 | 2017-10-17 | Intel IP Corporation | Low resource key phrase detection for wake on voice |
CN105654944B (zh) * | 2015-12-30 | 2019-11-01 | 中国科学院自动化研究所 | 一种融合了短时与长时特征建模的环境声识别方法及装置 |
US9972313B2 (en) * | 2016-03-01 | 2018-05-15 | Intel Corporation | Intermediate scoring and rejection loopback for improved key phrase detection |
US10043521B2 (en) | 2016-07-01 | 2018-08-07 | Intel IP Corporation | User defined key phrase detection by user dependent sequence modeling |
CN106297828B (zh) * | 2016-08-12 | 2020-03-24 | 苏州驰声信息科技有限公司 | 一种基于深度学习的误发音检测的检测方法和装置 |
US10083689B2 (en) * | 2016-12-23 | 2018-09-25 | Intel Corporation | Linear scoring for low power wake on voice |
CN109313892B (zh) * | 2017-05-17 | 2023-02-21 | 北京嘀嘀无限科技发展有限公司 | 稳健的语言识别方法和系统 |
US10902738B2 (en) * | 2017-08-03 | 2021-01-26 | Microsoft Technology Licensing, Llc | Neural models for key phrase detection and question generation |
CN107729381B (zh) * | 2017-09-15 | 2020-05-08 | 广州嘉影软件有限公司 | 基于多维特征识别的交互多媒体资源聚合方法及系统 |
US10714122B2 (en) | 2018-06-06 | 2020-07-14 | Intel Corporation | Speech classification of audio for wake on voice |
US10650807B2 (en) | 2018-09-18 | 2020-05-12 | Intel Corporation | Method and system of neural network keyphrase detection |
US11127394B2 (en) | 2019-03-29 | 2021-09-21 | Intel Corporation | Method and system of high accuracy keyphrase detection for low resource devices |
CN110838306B (zh) * | 2019-11-12 | 2022-05-13 | 广州视源电子科技股份有限公司 | 语音信号检测方法、计算机存储介质及相关设备 |
US20220036087A1 (en) * | 2020-07-29 | 2022-02-03 | Optima Sports Systems S.L. | Computing system and a computer-implemented method for sensing events from geospatial data |
CN114612810B (zh) * | 2020-11-23 | 2023-04-07 | 山东大卫国际建筑设计有限公司 | 一种动态自适应异常姿态识别方法及装置 |
CN115718536B (zh) * | 2023-01-09 | 2023-04-18 | 苏州浪潮智能科技有限公司 | 一种调频方法、装置、电子设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6542866B1 (en) * | 1999-09-22 | 2003-04-01 | Microsoft Corporation | Speech recognition method and apparatus utilizing multiple feature streams |
US20040186718A1 (en) * | 2003-03-19 | 2004-09-23 | Nefian Ara Victor | Coupled hidden markov model (CHMM) for continuous audiovisual speech recognition |
JP2005070377A (ja) * | 2003-08-25 | 2005-03-17 | Casio Comput Co Ltd | 音声認識装置、音声認識方法及び音声認識処理プログラム |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6256046B1 (en) | 1997-04-18 | 2001-07-03 | Compaq Computer Corporation | Method and apparatus for visual sensing of humans for active public interfaces |
US6292776B1 (en) * | 1999-03-12 | 2001-09-18 | Lucent Technologies Inc. | Hierarchial subband linear predictive cepstral features for HMM-based speech recognition |
US7346510B2 (en) * | 2002-03-19 | 2008-03-18 | Microsoft Corporation | Method of speech recognition using variables representing dynamic aspects of speech |
US20030212552A1 (en) * | 2002-05-09 | 2003-11-13 | Liang Lu Hong | Face recognition procedure useful for audiovisual speech recognition |
WO2004027685A2 (en) * | 2002-09-19 | 2004-04-01 | The Penn State Research Foundation | Prosody based audio/visual co-analysis for co-verbal gesture recognition |
US7203368B2 (en) | 2003-01-06 | 2007-04-10 | Intel Corporation | Embedded bayesian network for pattern recognition |
US7454336B2 (en) * | 2003-06-20 | 2008-11-18 | Microsoft Corporation | Variational inference and learning for segmental switching state space models of hidden speech dynamics |
US20050228673A1 (en) * | 2004-03-30 | 2005-10-13 | Nefian Ara V | Techniques for separating and evaluating audio and video source data |
JP4843987B2 (ja) * | 2005-04-05 | 2011-12-21 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
EP2049983A2 (en) * | 2006-08-07 | 2009-04-22 | Yeda Research And Development Co. Ltd. | Data similarity and importance using local and global evidence scores |
US9589380B2 (en) | 2007-02-27 | 2017-03-07 | International Business Machines Corporation | Avatar-based unsolicited advertisements in a virtual universe |
US8972253B2 (en) * | 2010-09-15 | 2015-03-03 | Microsoft Technology Licensing, Llc | Deep belief network for large vocabulary continuous speech recognition |
US9183843B2 (en) * | 2011-01-07 | 2015-11-10 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
-
2013
- 2013-05-01 PL PL403724A patent/PL403724A1/pl unknown
- 2013-06-26 EP EP13731759.0A patent/EP2959475B1/en not_active Not-in-force
- 2013-06-26 CA CA2875727A patent/CA2875727A1/en not_active Abandoned
- 2013-06-26 US US14/408,964 patent/US9552811B2/en active Active
- 2013-06-26 PL PL13731759T patent/PL2959475T3/pl unknown
- 2013-06-26 CN CN201380031695.3A patent/CN104541324B/zh not_active Expired - Fee Related
- 2013-06-26 AU AU2013388411A patent/AU2013388411A1/en not_active Abandoned
- 2013-06-26 WO PCT/EP2013/063330 patent/WO2014177232A1/en active Application Filing
- 2013-06-26 JP JP2016510953A patent/JP2016517047A/ja active Pending
- 2013-06-26 IN IN10400DEN2014 patent/IN2014DN10400A/en unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6542866B1 (en) * | 1999-09-22 | 2003-04-01 | Microsoft Corporation | Speech recognition method and apparatus utilizing multiple feature streams |
US20040186718A1 (en) * | 2003-03-19 | 2004-09-23 | Nefian Ara Victor | Coupled hidden markov model (CHMM) for continuous audiovisual speech recognition |
JP2005070377A (ja) * | 2003-08-25 | 2005-03-17 | Casio Comput Co Ltd | 音声認識装置、音声認識方法及び音声認識処理プログラム |
Non-Patent Citations (4)
Title |
---|
JHON N. GOWDY ET AL.: "DBN Based Multi-Stream Models for Audio-Visual Speech Recognition", PROC. OF IEEE ICASSP'04, JPN6017016242, 17 May 2004 (2004-05-17), pages pp.I-993‐I-996 * |
TIMOTHY J. HAZSEN: "Visual Model Structures and Synchrony Constraints for Audio-Visual Speech Recognition", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 14, no. 3, JPN6017016240, 18 April 2006 (2006-04-18), pages 1082 - 1089, XP055112509, DOI: doi:10.1109/TSA.2005.857572 * |
TODD A. STEPHENSON ET AL.: "Automatic Speech Recognition Using Dynamic Bayesian Networks with Both Acoustic and Articulatory Va", PROC. OF ICSLP2000, vol. Vol.2, JPN7017001521, 16 October 2000 (2000-10-16), pages 951 - 954 * |
篠田浩一 他: "統計的手法を用いた音声モデリングの高度化とその音声認識への応用", 情報処理, vol. 45, no. 10, JPN6017016238, 15 October 2004 (2004-10-15), pages 1012 - 1019 * |
Also Published As
Publication number | Publication date |
---|---|
PL403724A1 (pl) | 2014-11-10 |
WO2014177232A1 (en) | 2014-11-06 |
US9552811B2 (en) | 2017-01-24 |
CA2875727A1 (en) | 2014-11-06 |
CN104541324A (zh) | 2015-04-22 |
EP2959475B1 (en) | 2017-02-08 |
IN2014DN10400A (ja) | 2015-08-14 |
EP2959475A1 (en) | 2015-12-30 |
PL2959475T3 (pl) | 2018-04-30 |
CN104541324B (zh) | 2019-09-13 |
US20160111086A1 (en) | 2016-04-21 |
AU2013388411A1 (en) | 2015-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2959475B1 (en) | A speech recognition system and a method of using dynamic bayesian network models | |
Li et al. | A better and faster end-to-end model for streaming asr | |
US20230377312A1 (en) | System and method for neural network orchestration | |
US20210312914A1 (en) | Speech recognition using dialog history | |
Mariooryad et al. | Compensating for speaker or lexical variabilities in speech for emotion recognition | |
US11132994B1 (en) | Multi-domain dialog state tracking | |
Nasereddin et al. | Classification techniques for automatic speech recognition (ASR) algorithms used with real time speech translation | |
JP2024502946A (ja) | 音声認識トランスクリプトの句読点付け及び大文字化 | |
CN112397053B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
Vegesna et al. | Dnn-hmm acoustic modeling for large vocabulary telugu speech recognition | |
Zhang et al. | Cacnet: Cube attentional cnn for automatic speech recognition | |
Benetos et al. | Approaches to complex sound scene analysis | |
Ohta et al. | Response type selection for chat-like spoken dialog systems based on LSTM and multi-task learning | |
CN115273862A (zh) | 语音处理的方法、装置、电子设备和介质 | |
Wang et al. | Hierarchical deep belief networks based point process model for keywords spotting in continuous speech | |
Errattahi et al. | Recent advances in LVCSR: a benchmark comparison of performances | |
Anidjar et al. | A thousand words are worth more than one recording: Nlp based speaker change point detection | |
Yoshida et al. | Audio-visual voice activity detection based on an utterance state transition model | |
Westermann et al. | Plug-and-play Text-based Emotion Recognition for Chatbots as Virtual Companions for Older People | |
US20240257804A1 (en) | Language model customization techniques and applications thereof | |
Desai et al. | Attention-based Region of Interest (ROI) Detection for Speech Emotion Recognition | |
Godewithana et al. | Intelligent Hybrid Chatbot Solution for Archaeological Sites Tracking | |
Kulkarni et al. | Project Vāc: Can a Text-to-Speech Engine Generate Human Sentiments? | |
Mamyrbayev et al. | Neurorecognition visualization in multitask end-to-end speech | |
Seman et al. | Bimodality streams integration for audio-visual speech recognition systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160408 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160408 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170509 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180123 |