CN107123417B - 基于鉴别性训练的定制语音唤醒优化方法及系统 - Google Patents

基于鉴别性训练的定制语音唤醒优化方法及系统 Download PDF

Info

Publication number
CN107123417B
CN107123417B CN201710343427.5A CN201710343427A CN107123417B CN 107123417 B CN107123417 B CN 107123417B CN 201710343427 A CN201710343427 A CN 201710343427A CN 107123417 B CN107123417 B CN 107123417B
Authority
CN
China
Prior art keywords
probability
awakening
frame
acoustic
acoustic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710343427.5A
Other languages
English (en)
Other versions
CN107123417A (zh
Inventor
俞凯
陈哲怀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Shanghai Jiaotong University
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University, AI Speech Ltd filed Critical Shanghai Jiaotong University
Priority to CN201710343427.5A priority Critical patent/CN107123417B/zh
Publication of CN107123417A publication Critical patent/CN107123417A/zh
Application granted granted Critical
Publication of CN107123417B publication Critical patent/CN107123417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

一种基于鉴别性训练的定制语音唤醒优化方法及系统,在给定带标注的声学数据后,结合初始的基于神经网络的声学模型,通过神经网络前向传播得到逐帧声学概率;结合标注序列及逐帧声学概率,得到标注唤醒词的建模概率;利用在大量文本上统计得到的音素级语言模型,构建为相应的搜索网络;基于音素级语言模型的搜索空间和逐帧声学模型可以进行唤醒词竞争项建模,得到后验概率;结合唤醒词竞争项建模和标注唤醒词建模,进行声学模型的鉴别性训练;通过鉴别性训练得到的声学模型采用基于唤醒词置信度与自动估计阈值的比较以判别是否唤醒。

Description

基于鉴别性训练的定制语音唤醒优化方法及系统
技术领域
本发明涉及的是一种语音识别领域的技术,具体是一种基于鉴别性训练的定制语音唤醒优化方法及系统。
背景技术
可定制的语音唤醒(Voice Wake-up)系统的任务是指从一段连续的语音中自动发现并定位一些事先指定的命令词(唤醒词)。可定制的特性体现在唤醒词检测模型不依赖于用户指定的唤醒词,从而实现无需修改模型即可方便更改用户唤醒词。主要的语音唤醒技术包括早期的动态时间规整法,如今的基于隐马尔科夫模型的方法,以及基于深度学习的方法。
发明内容
本发明针对现有技术无法明确区分唤醒词和非唤醒词语之间的区分性不高,或通过定制语音模型才能实现从而提高了实现成本的同时降低了鲁棒性等缺陷和不足,提出一种基于鉴别性训练的定制语音唤醒优化方法及系统,利用前后文无关音素的声学解码进行高效搜索,从而完成对唤醒词置信度选择。
本发明是通过以下技术方案实现的:
本发明包括以下步骤:
步骤1)在给定带标注的声学数据后,结合初始的基于神经网络的声学模型,通过神经网络前向传播得到逐帧声学概率;
步骤2)结合标注序列及逐帧声学概率,得到标注唤醒词的建模概率。
步骤3)利用在大量文本上统计得到的音素级语言模型,构建为相应的搜索网络,具体是指:在测试阶段根据关键词构建搜索网络,而后在搜索网络上结合声学模型进行搜索。本发明采用基于上下文无关音素的声学模型,这是由于经过了鉴别性训练,声学模型具有更强的序列级信息,因此采用上下文相关音素和上下文无关音素对声学模型的建模效果没有差别。基于上下文无关音素的声学模型,所构建的搜索网络只有传统方法的三分之一大小,而对唤醒性能没有影响。
所述的搜索是指:在测试阶段结合已训练好的声学模型和已构建好的搜索网络,进行逐帧维特比解码,搜索得到发音特征序列对应的最优唤醒词序列,及其相应的识别概率,作为唤醒词置信度。
步骤4)基于音素级语言模型的搜索空间和逐帧声学模型可以进行唤醒词竞争项建模,得到后验概率。
步骤5)结合唤醒词竞争项建模和标注唤醒词建模,进行声学模型的鉴别性训练。
步骤6)通过鉴别性训练得到的声学模型对唤醒词和非唤醒词的区分性更强,能够得到更好的唤醒结果;通过该声学模型采用基于唤醒词置信度与自动估计阈值的比较以判别是否唤醒。
由于可定制唤醒系统不限定唤醒词,对于不同唤醒词所使用的阈值也很难统一,本发明采用针对不同唤醒词自动估计阈值的方法,一定程度上解决阈值难以统一的问题,从而提升系统唤醒的准确性。自动估计阈值方法基于对filler(填充物)的识别概率,将其作为阈值。当唤醒词置信度大于阈值时,系统将输出唤醒词,否则不输出唤醒词,等待下次唤醒语音。
所述的filler是由所有的音素并行构建而成的搜索空间,其识别概率是指在该搜索空间上基于已训练得到的声学模型和声学特征序列进行解码搜索得到的识别概率。
技术效果
与现有技术相比,本发明基于鉴别性训练、音素级语言模型搜索空间以及前后文无关音素的声学解码,从而具有更好的序列级建模,提高唤醒率、更好的序列级非唤醒词建模,降低误唤醒率以及相对更少的模型搜索计算量。
附图说明
图1为本发明实施例系统示意图;
图2为本发明流程图;
图3为阈值建立示意图。
具体实施方式
如图1所示,本实施例涉及一种基于鉴别性训练的定制语音唤醒优化系统,包括:基于唤醒词的搜索网络、解码搜索模块、基于鉴别性训练的声学模型模块以及置信度判别模块,其中:搜索网络与解码搜索模块相连并传输针对定制唤醒词的语言学信息,声学模型模块与解码搜索模块相连并传输针对信号进行建模的声学信息分值,解码搜索模块经模型推测得到后验概率并输出至置信度判别模块,置信度判别模块采用自动估计阈值得到唤醒判定结果。
所述的声学模型模块具体包括:标注唤醒词建模单元、唤醒词竞争项建模单元和声学模型鉴别性训练单元,其中:唤醒词竞争项建模单元根据搜索空间生成基于神经网络的声学模型并输出至唤醒词竞争项建模单元,标注唤醒词建模单元根据带标注的声学数据和初始的声学模型,通过神经网络前向传播得到逐帧声学概率并输出至声学模型鉴别性训练单元,得到基于鉴别性训练的声学模型用于对信号进行建模的声学信息评分。
所述的唤醒词竞争项建模单元内含有基于音素级语言模型的搜索空间,唤醒词竞争项声学信息,通过传输逐帧各音素声学概率,用以得到唤醒词竞争项建模后验概率。
如图2所示,本实施例包括以下步骤:
步骤1)在给定带标注的声学数据后,结合初始的基于神经网络的声学模型,通过神经网络前向传播得到逐帧声学概率;
步骤2)结合标注序列及逐帧声学概率,得到标注唤醒词的建模概率。
步骤3)利用在大量文本上统计得到的音素级语言模型,构建为相应的搜索网络,具体是指:在测试阶段根据关键词构建搜索网络,而后在搜索网络上结合声学模型进行搜索。本发明采用基于上下文无关音素的声学模型,这是由于经过了鉴别性训练,声学模型具有更强的序列级信息,因此采用上下文相关音素和上下文无关音素对声学模型的建模效果没有差别。基于上下文无关音素的声学模型,本模块所构建的搜索网络只有传统方法的三分之一大小,而对唤醒性能没有影响。
所述的搜索是指:在测试阶段结合已训练好的声学模型和已构建好的搜索网络,进行逐帧维特比解码,搜索得到发音特征序列对应的最优唤醒词序列,及其相应的识别概率,作为唤醒词置信度。
步骤4)基于音素级语言模型的搜索空间和逐帧声学模型可以进行唤醒词竞争项建模,得到其概率。
步骤5)结合唤醒词竞争项建模和标注唤醒词建模,进行声学模型的鉴别性训练。
所述的鉴别性训练具体包括:
5.1)根据标注唤醒词建模,使用前后向算法,得到唤醒词的对数概率;
5.2)根据唤醒词竞争项建模,使用前后向算法,得到搜索网络对应的对数边缘概率;
5.3)逐帧将对数概率减去对数边缘概率,得到唤醒词在该帧的后验概率;
5.4)基于后验概率使用误差反向传播算法更新声学模型的参数,完成训练。
步骤6)通过鉴别性训练得到的声学模型对唤醒词和非唤醒词的区分性更强,能够得到更好的唤醒结果;通过该声学模型采用基于唤醒词置信度与自动估计阈值的比较以判别是否唤醒。
如图3所示,本发明基于唤醒词置信度与阈值的比较以判别是否唤醒。由于可定制唤醒系统不限定唤醒词,对于不同唤醒词所使用的阈值也很难统一,所以这里提出了一种针对不同唤醒词自动估计阈值的方法,一定程度上解决阈值难以统一的问题,从而提升系统唤醒的准确性。自动估计阈值方法基于对filler的识别概率,将其作为阈值。当唤醒词置信度大于阈值时,系统将输出唤醒词,否则不输出唤醒词,等待下次唤醒语音。
所述的filler是由所有的音素并行构建而成的搜索空间,其识别概率是指在该搜索空间上基于已训练得到的声学模型和声学特征序列进行解码搜索得到的识别概率。
以下为本实施例与现有技术比较得到的实验数据,其中第一行是基于逐帧交叉熵训练(CE)的传统方法,第二行是基于CE初始化后训练最小贝叶斯风险(CE+sMBR)的传统方法,第三行是本方法(LF-bMMI)。倒数第二列是性能指标,越小越好,倒数第三列是效率指标,越小越好;由表中可以看出本发明相对两种传统方法,在性能上,等错率(EER)分别有相对40%和相对20%的显著提升,同时在效率上,实时率(RTF)有近一倍改善。
Figure BDA0001295822850000041
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (8)

1.一种基于鉴别性训练的定制语音唤醒优化方法,其特征在于,包括以下步骤:
步骤1)在给定带标注的声学数据后,结合初始的基于神经网络的声学模型,通过神经网络前向传播得到逐帧声学概率;
步骤2)结合标注序列及逐帧声学概率,得到标注唤醒词的建模概率;
步骤3)利用在大量文本上统计得到的音素级语言模型,构建为相应的搜索网络;
步骤4)基于音素级语言模型的搜索空间和逐帧声学模型可以进行唤醒词竞争项建模,得到后验概率;
步骤5)结合唤醒词竞争项建模和标注唤醒词建模,进行声学模型的鉴别性训练;
步骤6)通过鉴别性训练得到的声学模型采用基于唤醒词置信度与自动估计阈值的比较以判别是否唤醒;
所述的鉴别性训练具体包括:
5.1)根据标注唤醒词建模,使用前后向算法,得到唤醒词的对数概率;
5.2)根据唤醒词竞争项建模,使用前后向算法,得到搜索网络对应的对数边缘概率;
5.3)逐帧将对数概率减去对数边缘概率,得到唤醒词在该帧的后验概率;
5.4)基于后验概率使用误差反向传播算法更新声学模型的参数,完成训练。
2.根据权利要求1所述的方法,其特征是,所述的步骤3具体是指:在测试阶段根据关键词构建搜索网络,而后在搜索网络上结合声学模型进行搜索。
3.根据权利要求1所述的方法,其特征是,所述的声学模型为基于上下文无关音素的声学模型。
4.根据权利要求2所述的方法,其特征是,所述的搜索是指:在测试阶段结合已训练好的声学模型和已构建好的搜索网络,进行逐帧维特比解码,搜索得到发音特征序列对应的最优唤醒词序列,及其相应的识别概率,作为唤醒词置信度。
5.根据权利要求1所述的方法,其特征是,所述的自动估计阈值是指:基于对filler的识别概率,将其作为阈值;当唤醒词置信度大于阈值时,系统将输出唤醒词,否则不输出唤醒词,等待下次唤醒语音;所述的filler是由所有的音素并行构建而成的搜索空间,其识别概率是指在该搜索空间上基于已训练得到的声学模型和声学特征序列进行解码搜索得到的识别概率。
6.一种基于鉴别性训练的定制语音唤醒优化系统,其特征在于,包括:基于唤醒词的搜索网络、解码搜索模块、基于鉴别性训练的声学模型模块以及置信度判别模块,其中:搜索网络与解码搜索模块相连并传输针对定制唤醒词的语言学信息,声学模型模块与解码搜索模块相连并传输针对信号进行建模的声学信息分值,解码搜索模块经模型推测得到后验概率并输出至置信度判别模块,置信度判别模块采用自动估计阈值得到唤醒判定结果;
所述的鉴别性训练具体包括:
1)根据标注唤醒词建模,使用前后向算法,得到唤醒词的对数概率;
2)根据唤醒词竞争项建模,使用前后向算法,得到搜索网络对应的对数边缘概率;
3)逐帧将对数概率减去对数边缘概率,得到唤醒词在该帧的后验概率;
4)基于后验概率使用误差反向传播算法更新声学模型的参数,完成训练。
7.根据权利要求6所述的系统,其特征是,所述的声学模型模块具体包括:标注唤醒词建模单元、唤醒词竞争项建模单元和声学模型鉴别性训练单元,其中:唤醒词竞争项建模单元根据搜索空间生成基于神经网络的声学模型并输出至唤醒词竞争项建模单元,标注唤醒词建模单元根据带标注的声学数据和初始的声学模型,通过神经网络前向传播得到逐帧声学概率并输出至声学模型鉴别性训练单元,得到基于鉴别性训练的声学模型用于对信号进行建模的声学信息评分。
8.根据权利要求6所述的系统,其特征是,所述的唤醒词竞争项建模单元内含有基于音素级语言模型的搜索空间,唤醒词竞争项声学信息,通过传输逐帧各音素声学概率,用以得到唤醒词竞争项建模后验概率。
CN201710343427.5A 2017-05-16 2017-05-16 基于鉴别性训练的定制语音唤醒优化方法及系统 Active CN107123417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710343427.5A CN107123417B (zh) 2017-05-16 2017-05-16 基于鉴别性训练的定制语音唤醒优化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710343427.5A CN107123417B (zh) 2017-05-16 2017-05-16 基于鉴别性训练的定制语音唤醒优化方法及系统

Publications (2)

Publication Number Publication Date
CN107123417A CN107123417A (zh) 2017-09-01
CN107123417B true CN107123417B (zh) 2020-06-09

Family

ID=59728310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710343427.5A Active CN107123417B (zh) 2017-05-16 2017-05-16 基于鉴别性训练的定制语音唤醒优化方法及系统

Country Status (1)

Country Link
CN (1) CN107123417B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11838579B2 (en) 2014-06-30 2023-12-05 Apple Inc. Intelligent automated assistant for TV user interactions
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11837237B2 (en) 2017-05-12 2023-12-05 Apple Inc. User-specific acoustic models
US11862151B2 (en) 2017-05-12 2024-01-02 Apple Inc. Low-latency intelligent automated assistant
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
CN108932944B (zh) * 2017-10-23 2021-07-30 北京猎户星空科技有限公司 解码方法及装置
CN109741735B (zh) * 2017-10-30 2023-09-01 阿里巴巴集团控股有限公司 一种建模方法、声学模型的获取方法和装置
CN110097870B (zh) * 2018-01-30 2023-05-30 阿里巴巴集团控股有限公司 语音处理方法、装置、设备和存储介质
CN110444193B (zh) 2018-01-31 2021-12-14 腾讯科技(深圳)有限公司 语音关键词的识别方法和装置
CN108335696A (zh) 2018-02-09 2018-07-27 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
CN109166569B (zh) * 2018-07-25 2020-01-31 北京海天瑞声科技股份有限公司 音素误标注的检测方法和装置
CN109036412A (zh) * 2018-09-17 2018-12-18 苏州奇梦者网络科技有限公司 语音唤醒方法和系统
CN109273007B (zh) * 2018-10-11 2022-05-17 西安讯飞超脑信息科技有限公司 语音唤醒方法及装置
CN111583939A (zh) * 2019-02-19 2020-08-25 富港电子(东莞)有限公司 语音识别用于特定目标唤醒的方法及装置
CN110033758B (zh) * 2019-04-24 2021-09-24 武汉水象电子科技有限公司 一种基于小训练集优化解码网络的语音唤醒实现方法
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
CN110322884B (zh) * 2019-07-09 2021-12-07 科大讯飞股份有限公司 一种解码网络的插词方法、装置、设备及存储介质
CN110473536B (zh) * 2019-08-20 2021-10-15 北京声智科技有限公司 一种唤醒方法、装置和智能设备
CN110600008A (zh) * 2019-09-23 2019-12-20 苏州思必驰信息科技有限公司 语音唤醒的优化方法及系统
CN110851673B (zh) * 2019-11-12 2022-08-09 西南科技大学 一种改进的集束搜索方法及问答系统
CN110838289B (zh) 2019-11-14 2023-08-11 腾讯科技(深圳)有限公司 基于人工智能的唤醒词检测方法、装置、设备及介质
CN111091813B (zh) * 2019-12-31 2022-07-22 北京猎户星空科技有限公司 语音唤醒模型更新及唤醒方法、系统、装置、设备及介质
CN111326148B (zh) * 2020-01-19 2021-02-23 北京世纪好未来教育科技有限公司 置信度校正及其模型训练方法、装置、设备及存储介质
CN111599350B (zh) * 2020-04-07 2023-02-28 云知声智能科技股份有限公司 一种命令词定制识别方法及系统
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112712801B (zh) * 2020-12-14 2024-02-02 北京有竹居网络技术有限公司 一种语音唤醒方法、装置、电子设备及存储介质
CN113488050B (zh) * 2021-07-09 2024-03-26 北京有竹居网络技术有限公司 语音唤醒方法、装置、存储介质及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334998A (zh) * 2008-08-07 2008-12-31 上海交通大学 基于异类模型区分性融合的汉语语音识别系统
WO2009027980A1 (en) * 2007-08-28 2009-03-05 Yissum Research Development Company Of The Hebrew University Of Jerusalem Method, device and system for speech recognition
CN101840699A (zh) * 2010-04-30 2010-09-22 中国科学院声学研究所 一种基于发音模型的语音质量评测方法
CN102999161A (zh) * 2012-11-13 2013-03-27 安徽科大讯飞信息科技股份有限公司 一种语音唤醒模块的实现方法及应用
CN103871403A (zh) * 2012-12-13 2014-06-18 北京百度网讯科技有限公司 建立语音识别模型的方法、语音识别方法及对应装置
CN103971678A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 关键词检测方法和装置
CN104376842A (zh) * 2013-08-12 2015-02-25 清华大学 神经网络语言模型的训练方法、装置以及语音识别方法
CN105139864A (zh) * 2015-08-17 2015-12-09 北京天诚盛业科技有限公司 语音识别方法和装置
CN106098059A (zh) * 2016-06-23 2016-11-09 上海交通大学 可定制语音唤醒方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9361885B2 (en) * 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009027980A1 (en) * 2007-08-28 2009-03-05 Yissum Research Development Company Of The Hebrew University Of Jerusalem Method, device and system for speech recognition
CN101334998A (zh) * 2008-08-07 2008-12-31 上海交通大学 基于异类模型区分性融合的汉语语音识别系统
CN101840699A (zh) * 2010-04-30 2010-09-22 中国科学院声学研究所 一种基于发音模型的语音质量评测方法
CN102999161A (zh) * 2012-11-13 2013-03-27 安徽科大讯飞信息科技股份有限公司 一种语音唤醒模块的实现方法及应用
CN103871403A (zh) * 2012-12-13 2014-06-18 北京百度网讯科技有限公司 建立语音识别模型的方法、语音识别方法及对应装置
CN103971678A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 关键词检测方法和装置
CN104376842A (zh) * 2013-08-12 2015-02-25 清华大学 神经网络语言模型的训练方法、装置以及语音识别方法
CN105139864A (zh) * 2015-08-17 2015-12-09 北京天诚盛业科技有限公司 语音识别方法和装置
CN106098059A (zh) * 2016-06-23 2016-11-09 上海交通大学 可定制语音唤醒方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"On training Bi-directional Neural Network Language Model with Noise Constrastive Estimation";KAI YU;《ISCSLP》;20161231;全文 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US11862186B2 (en) 2013-02-07 2024-01-02 Apple Inc. Voice trigger for a digital assistant
US11838579B2 (en) 2014-06-30 2023-12-05 Apple Inc. Intelligent automated assistant for TV user interactions
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11837237B2 (en) 2017-05-12 2023-12-05 Apple Inc. User-specific acoustic models
US11862151B2 (en) 2017-05-12 2024-01-02 Apple Inc. Low-latency intelligent automated assistant
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination

Also Published As

Publication number Publication date
CN107123417A (zh) 2017-09-01

Similar Documents

Publication Publication Date Title
CN107123417B (zh) 基于鉴别性训练的定制语音唤醒优化方法及系统
CN105529028B (zh) 语音解析方法和装置
Zhang et al. Unsupervised spoken keyword spotting via segmental DTW on Gaussian posteriorgrams
US8990086B2 (en) Recognition confidence measuring by lexical distance between candidates
US9165555B2 (en) Low latency real-time vocal tract length normalization
US9704483B2 (en) Collaborative language model biasing
US6618702B1 (en) Method of and device for phone-based speaker recognition
CN109637537B (zh) 一种自动获取标注数据优化自定义唤醒模型的方法
CN108538293B (zh) 语音唤醒方法、装置及智能设备
Myer et al. Efficient keyword spotting using time delay neural networks
CN111833866A (zh) 用于低资源设备的高准确度关键短语检测的方法和系统
CN101887725A (zh) 一种基于音素混淆网络的音素后验概率计算方法
US11263198B2 (en) System and method for detection and correction of a query
KR101317339B1 (ko) 엔베스트 인식 단어 계산량 감소를 위한 2단계 발화검증 구조를 갖는 음성인식 장치 및 방법
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
CN113450771B (zh) 唤醒方法、模型训练方法和装置
CN105869622B (zh) 中文热词检测方法和装置
CN112074903A (zh) 用于口语中的声调识别的系统和方法
Zhang et al. Wake-up-word spotting using end-to-end deep neural network system
US20110218802A1 (en) Continuous Speech Recognition
EP3790000A1 (en) System and method for detection and correction of a speech query
Tabibian et al. A fast hierarchical search algorithm for discriminative keyword spotting
JP2938865B1 (ja) 音声認識装置
KR20170090815A (ko) 음성 인식 장치 및 이의 동작방법
Oishi et al. Combining State-Level Spotting and Posterior-Based Acoustic Match for Improved Query-by-Example Spoken Term Detection.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200628

Address after: Room 105G, 199 GuoShoujing Road, Pudong New Area, Shanghai, 200120

Co-patentee after: AI SPEECH Co.,Ltd.

Patentee after: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

Address before: 200240 Dongchuan Road, Shanghai, No. 800, No.

Co-patentee before: AI SPEECH Co.,Ltd.

Patentee before: SHANGHAI JIAO TONG University

TR01 Transfer of patent right
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201030

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee after: AI SPEECH Co.,Ltd.

Address before: Room 105G, 199 GuoShoujing Road, Pudong New Area, Shanghai, 200120

Patentee before: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

Patentee before: AI SPEECH Co.,Ltd.

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee before: AI SPEECH Co.,Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Customized voice wake-up optimization method and system based on discriminative training

Effective date of registration: 20230726

Granted publication date: 20200609

Pledgee: CITIC Bank Limited by Share Ltd. Suzhou branch

Pledgor: Sipic Technology Co.,Ltd.

Registration number: Y2023980049433