CN110390948B - 一种快速语音识别的方法及系统 - Google Patents

一种快速语音识别的方法及系统 Download PDF

Info

Publication number
CN110390948B
CN110390948B CN201910669707.4A CN201910669707A CN110390948B CN 110390948 B CN110390948 B CN 110390948B CN 201910669707 A CN201910669707 A CN 201910669707A CN 110390948 B CN110390948 B CN 110390948B
Authority
CN
China
Prior art keywords
voice
verified
state
phoneme
posterior probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910669707.4A
Other languages
English (en)
Other versions
CN110390948A (zh
Inventor
洪国强
肖龙源
李稀敏
蔡振华
刘晓葳
谭玉坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN201910669707.4A priority Critical patent/CN110390948B/zh
Publication of CN110390948A publication Critical patent/CN110390948A/zh
Application granted granted Critical
Publication of CN110390948B publication Critical patent/CN110390948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种快速语音识别的方法及系统,其包括以下步骤:根据预设的文本数据库生成状态网络图;获取待验证语音以及该待验证语音对应的文本内容;根据所述文本内容从所述状态网络图中提取对应的状态路径,所述状态路径的节点为音素;将所述待验证语音划分为一个以上的语音帧,并提取所述语音帧对应的声学特征;将所述声学特征与所述状态路径相对齐,得到每个语音帧对应的节点;根据所述语音帧和对应节点的音素计算其对应的后验概率,并计算所述待验证语音的所有语音帧的平均后验概率;对所述平均后验概率进行阈值计算,判断所述待验证语音与所述文本内容是否相匹配,从而能够减少计算资源消耗和提高计算速度及提高验证的准确率。

Description

一种快速语音识别的方法及系统
技术领域
本发明涉及语音识别技术领域,特别是一种快速语音识别的方法及其应用该方法的系统。
背景技术
随着模式识别和人工智能的发展,语音技术和声纹识别技术得到了长足的进步并开始在实际生活中发挥着越来越重要的作用。
语音识别指的是将语音转化为文本的技术,通过语音识别,计算机能够知道用户口述的文本内容。语音识别的分类,从词汇量多少上,可分为大、中、小规模;从形式上,可分为孤立词和连续语音识别。语音识别技术自20世纪80年代发展到现在,随着语料积累以及算法进步,在识别能力上有了极大的提高。识别对象从最初的小词汇量朗读语音,逐渐扩展为几十万乃至上百万词的大词汇量口语对话。从2012年至今,随着深度学习的推广,基于深度神经网络的语音识别方法再一次大幅度提升了语音识别性能,推动语音识别进入大规模实用阶段。现有技术已经可以在大多数情况下准确识别朗读的数字口令。
声纹识别又称为说话人识别,实现的是从声音到说话人身份的转换。将语音技术应用于身份验证已有一些先例。例如,动态数字声纹识别技术;该技术是让使用者念一段随机数字串(即,动态数字验证),在保证所念的数字串正确的情况下再进行语音的声纹验证。
但是,传统的动态数字验证方式是将语音内容进行识别和转换为文本内容,并将转换的文本内容与预设的文本内容进行比对,两者一致则认为语音正确。该方法的问题有两个,一个是计算资源消耗和计算速度,另一个是其准确率的问题。
发明内容
本发明为解决上述问题,提供了一种快速语音识别的方法及系统,能够减少计算资源消耗和提高计算速度及提高验证的准确率。
为实现上述目的,本发明采用的技术方案为:
一种快速语音识别的方法,其包括以下步骤:
根据预设的文本数据库生成状态网络图;
获取待验证语音以及该待验证语音对应的文本内容;
根据所述文本内容从所述状态网络图中提取对应的状态路径,所述状态路径的节点为音素;
将所述待验证语音划分为一个以上的语音帧,并提取所述语音帧对应的声学特征;
将所述声学特征与所述状态路径相对齐,得到每个语音帧对应的节点;
根据所述语音帧和对应节点的音素计算其对应的后验概率,并计算所述待验证语音的所有语音帧的平均后验概率;
对所述平均后验概率进行阈值计算,若所述平均后验概率大于预设阈值,则所述待验证语音与所述文本内容相匹配,否则验证不通过。
优选的,所述状态网络图是利用所述文本数据库中的文本进行搭建单词串联网络,并将所述单词串联网络展开成音素网络;再将音素网络中的每个因素转换成对应的隐马尔科夫模型,每个隐马尔科夫模型由若干个状态构成,从而扩展为所述状态网络图。
进一步的,所述状态网络图和提取的所述状态路径为Graph图,是由隐马尔科夫模型、音素、文本构成的有限状态机。
优选的,所述文本数据库中的文本包括数字、字母、词汇中的任一种或者两种以上的组合,所述待验证语音对应的文本内容是从所述文本数据库中的文本中随机抽取的,待验证用户根据该随机抽取的文本内容进行朗读得到所述待验证语音。
优选的,将所述待验证语音划分为一个以上的语音帧,是根据预设的帧长和预设的步长对所述待验证语音进行分帧处理得到所述语音帧;其中,预设的帧长采用25ms,预设的步长采用10ms;所述语音帧对应的声学特征采用mfcc特征、fbank特征、plp特征、lpc特征中的任一种或者两种以上的组合。
优选的,将所述声学特征与所述状态路径相对齐,是利用所述状态路径对所述声学特征的向量序列进行强制对齐,使所述状态路径上的节点的音素序列与所述声学特征的向量序列相对齐,并判断对齐后的音素序列和向量序列是否一一对应。
优选的,所述状态路径上的节点的音素序列与所述声学特征的向量序列相对齐,是采用viterbi算法对所述音素序列和所述向量序列进行解码操作,得到所述向量序列到所述音素序列的映射关系。
优选的,根据所述语音帧和对应节点的音素计算其对应的后验概率,是通过对所述状态路径的每个音素分别建立一个HMM,每一个HMM具有一个对应的GMM概率密度函数;根据所述语音帧的对应的音素得到该语音帧对应的GMM,该语音帧在所述对应的GMM上的概率即为所述后验概率;将所述待验证语音的所有语音帧的后验概率之和除以所述语音帧的数量,得到所述平均后验概率。
优选的,对所述平均后验概率进行阈值计算,所述预设阈值是根据待验证语音的说话场景、对应的文本内容的类型、使用的语音模型、验证的精度要求进行综合计算得到。
对应的,本发明还提供一种快速语音识别的系统,其包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,所述处理器用于运行所述计算机程序时,执行上述任一项所述方法的步骤。
本发明的有益效果是:
(1)本发明通过将待验证语音的声学特征与对应的文本内容的状态路径进行对齐和计算后验概率和平均后验概率,并根据平均后验概率的阈值计算结果进行判断待验证语音与文本内容是否相匹配,能够减少计算资源消耗和提高计算速度及提高验证的准确率;
(2)本发明的文本内容是从预设的文本数据库中随机抽取,即,文本内容对于待验证用户来说是未知的随机内容,但对于验证系统来说是已知内容,验证准确率更高;
(3)本发明所述文本内容对应的状态路径是从整体的状态网络图中提取生成的小图,待验证语音与文本内容的匹配只需将待验证语音的对应声学特征和文本内容的对应状态路径进行对齐比较,算法更简单,计算量更小;
(4)本发明通过对待验证语音进行分帧处理,将分帧后的语音帧与文本内容对应的状态路径的节点进行映射匹配,算法更准确。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明一种快速语音识别的方法的流程简图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明的一种快速语音识别的方法,其包括以下步骤:
根据预设的文本数据库生成状态网络图;
获取待验证语音以及该待验证语音对应的文本内容;
根据所述文本内容从所述状态网络图中提取对应的状态路径,所述状态路径的节点为音素;
将所述待验证语音划分为一个以上的语音帧,并提取所述语音帧对应的声学特征(前端特征);
将所述声学特征与所述状态路径相对齐,得到每个语音帧对应的节点;
根据所述语音帧和对应节点的音素计算其对应的后验概率,并计算所述待验证语音的所有语音帧的平均后验概率;
对所述平均后验概率进行阈值计算,若所述平均后验概率大于预设阈值,则所述待验证语音与所述文本内容相匹配,否则验证不通过。
所述状态网络图是利用所述文本数据库中的文本进行搭建单词串联网络,并将所述单词串联网络展开成音素网络;再将音素网络中的每个因素转换成对应的隐马尔科夫模型,每个隐马尔科夫模型由若干个状态构成,从而扩展为所述状态网络图。本实施例中,所述状态网络图和提取的所述状态路径为Graph图,是由隐马尔科夫模型、音素、文本构成的有限状态机。
所述文本数据库中的文本包括数字、字母、词汇中的任一种或者两种以上的组合,所述待验证语音对应的文本内容是从所述文本数据库中的文本中随机抽取的,待验证用户根据该随机抽取的文本内容进行朗读得到所述待验证语音。本实施例中,所述文本优选为数字型文本。
将所述待验证语音划分为一个以上的语音帧,是根据预设的帧长和预设的步长对所述待验证语音进行分帧处理得到所述语音帧;其中,预设的帧长采用25ms,预设的步长采用10ms;所述语音帧对应的声学特征采用mfcc特征、fbank特征、plp特征、lpc特征中的任一种或者两种以上的组合。所述语音帧与所述声学特征在颗粒度上是一致的,一个语音帧生成一个对应的声学特征。
优选的,在对所述语音帧进行对齐处理之前,还预先对所述语音帧进行数据预处理(去除静寂声音)。计算各帧语音数据的累积能量E,
Figure BDA0002141289030000061
当所述语音帧的累积能量E大于预设静音阈值,则采纳为有效语音帧,否则为静音帧,并将所述有效语音帧的所述声学特征与所述状态路径相对齐。具体是,利用所述状态路径对所述声学特征的向量序列进行强制对齐,使所述状态路径上的节点的音素序列与所述声学特征的向量序列相对齐,并判断对齐后的音素序列和向量序列是否一一对应。其中,所述状态路径上的节点的音素序列与所述声学特征的向量序列相对齐,是采用viterbi算法对所述音素序列和所述向量序列进行解码操作,得到所述向量序列到所述音素序列的映射关系。
根据所述语音帧和对应节点的音素计算其对应的后验概率,是通过对所述状态路径的每个音素分别建立一个HMM,每一个HMM具有一个对应的GMM概率密度函数;根据所述语音帧的对应的音素得到该语音帧对应的GMM,该语音帧在所述对应的GMM上的概率即为所述后验概率;将所述待验证语音的所有语音帧的后验概率之和除以所述语音帧的数量,得到所述平均后验概率。
所述平均后验概率的计算公式如下:
Figure BDA0002141289030000071
其中,Pn为每个语音帧对应的后验概率,N为所述语音帧的数量,∑Pn表示所述待验证语音为所述对应的文本内容的可能值,由于每个待验证用户的说话快慢不一致,时长不同,因此根据上述公式计算得到平均后验概率P,使其判断更准确。
最后,对所述平均后验概率进行阈值计算,所述预设阈值是根据待验证语音的说话场景、对应的文本内容的类型、使用的语音模型、验证的精度要求进行综合计算得到。例如,通过收集真实场景或模拟场景的样本数据和计算得到的平均后验概率,并进行统计分析得到每个场景对应的优选阈值,避免误判。
另外,本发明还提供一种快速语音识别的系统,其包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,所述处理器用于运行所述计算机程序时,执行上述任一项所述方法的步骤。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (10)

1.一种快速语音识别的方法,其特征在于,包括以下步骤:
根据预设的文本数据库生成状态网络图;
获取待验证语音以及该待验证语音对应的文本内容;
根据所述文本内容从所述状态网络图中提取对应的状态路径,所述状态路径的节点为音素;
将所述待验证语音划分为一个以上的语音帧,并提取所述语音帧对应的声学特征;
将所述声学特征与所述状态路径相对齐,得到每个语音帧对应的节点;
根据所述语音帧和对应节点的音素计算其对应的后验概率,并计算所述待验证语音的所有语音帧的平均后验概率;
对所述平均后验概率进行阈值计算,若所述平均后验概率大于预设阈值,则所述待验证语音与所述文本内容相匹配,否则验证不通过。
2.根据权利要求1所述的一种快速语音识别的方法,其特征在于:所述状态网络图是利用所述文本数据库中的文本进行搭建单词串联网络,并将所述单词串联网络展开成音素网络;再将音素网络中的每个音素转换成对应的隐马尔科夫模型,每个隐马尔科夫模型由若干个状态构成,从而扩展为所述状态网络图。
3.根据权利要求1或2所述的一种快速语音识别的方法,其特征在于:所述状态网络图和提取的所述状态路径为Graph图,是由隐马尔科夫模型、音素、文本构成的有限状态机。
4.根据权利要求1所述的一种快速语音识别的方法,其特征在于:所述文本数据库中的文本包括数字、字母、词汇中的任一种或者两种以上的组合,所述待验证语音对应的文本内容是从所述文本数据库中的文本中随机抽取的,待验证用户根据该随机抽取的文本内容进行朗读得到所述待验证语音。
5.根据权利要求1所述的一种快速语音识别的方法,其特征在于:将所述待验证语音划分为一个以上的语音帧,是根据预设的帧长和预设的步长对所述待验证语音进行分帧处理得到所述语音帧;其中,预设的帧长采用25ms,预设的步长采用10ms;所述语音帧对应的声学特征采用mfcc特征、fbank特征、plp特征、lpc特征中的任一种或者两种以上的组合。
6.根据权利要求1所述的一种快速语音识别的方法,其特征在于:将所述声学特征与所述状态路径相对齐,是利用所述状态路径对所述声学特征的向量序列进行强制对齐,使所述状态路径上的节点的音素序列与所述声学特征的向量序列相对齐,并判断对齐后的音素序列和向量序列是否一一对应。
7.根据权利要求1或6所述的一种快速语音识别的方法,其特征在于:所述状态路径上的节点的音素序列与所述声学特征的向量序列相对齐,是采用viterbi算法对所述音素序列和所述向量序列进行解码操作,得到所述向量序列到所述音素序列的映射关系。
8.根据权利要求1所述的一种快速语音识别的方法,其特征在于:根据所述语音帧和对应节点的音素计算其对应的后验概率,是通过对所述状态路径的每个音素分别建立一个HMM,每一个HMM具有一个对应的GMM概率密度函数;根据所述语音帧的对应的音素得到该语音帧对应的GMM,该语音帧在所述对应的GMM上的概率即为所述后验概率;将所述待验证语音的所有语音帧的后验概率之和除以所述语音帧的数量,得到所述平均后验概率。
9.根据权利要求8所述的一种快速语音识别的方法,其特征在于:对所述平均后验概率进行阈值计算,所述预设阈值是根据待验证语音的说话场景、对应的文本内容的类型、使用的语音模型、验证的精度要求进行综合计算得到。
10.一种快速语音识别的系统,其特征在于,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,所述处理器用于运行所述计算机程序时,执行权利要求1至9任一项所述方法的步骤。
CN201910669707.4A 2019-07-24 2019-07-24 一种快速语音识别的方法及系统 Active CN110390948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910669707.4A CN110390948B (zh) 2019-07-24 2019-07-24 一种快速语音识别的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910669707.4A CN110390948B (zh) 2019-07-24 2019-07-24 一种快速语音识别的方法及系统

Publications (2)

Publication Number Publication Date
CN110390948A CN110390948A (zh) 2019-10-29
CN110390948B true CN110390948B (zh) 2022-04-19

Family

ID=68287194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910669707.4A Active CN110390948B (zh) 2019-07-24 2019-07-24 一种快速语音识别的方法及系统

Country Status (1)

Country Link
CN (1) CN110390948B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021127975A1 (zh) * 2019-12-24 2021-07-01 广州国音智能科技有限公司 一种声音采集对象声纹检测方法、装置和设备
CN113744717A (zh) * 2020-05-15 2021-12-03 阿里巴巴集团控股有限公司 一种语种识别方法及装置
CN111883113B (zh) * 2020-07-30 2024-01-30 云知声智能科技股份有限公司 一种语音识别的方法及装置
CN112633201A (zh) * 2020-12-29 2021-04-09 交通银行股份有限公司 一种多模态活体检测方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645271A (zh) * 2008-12-23 2010-02-10 中国科学院声学研究所 发音质量评估系统中的置信度快速求取方法
CN103065626A (zh) * 2012-12-20 2013-04-24 中国科学院声学研究所 英语口语考试系统中的朗读题自动评分方法和设备
CN105976812A (zh) * 2016-04-28 2016-09-28 腾讯科技(深圳)有限公司 一种语音识别方法及其设备
CN107291684A (zh) * 2016-04-12 2017-10-24 华为技术有限公司 语言文本的分词方法和系统
CN109885812A (zh) * 2019-01-15 2019-06-14 北京捷通华声科技股份有限公司 一种动态添加热词的方法、装置及可读存储介质
WO2019126880A1 (en) * 2017-12-29 2019-07-04 Fluent.Ai Inc. A low-power keyword spotting system

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100411011C (zh) * 2005-11-18 2008-08-13 清华大学 用于语言学习机的发音质量评价方法
GB2463909B (en) * 2008-09-29 2010-08-11 Toshiba Res Europ Ltd Speech recognition apparatus and method
US8484154B2 (en) * 2009-12-14 2013-07-09 Intel Corporation Methods and systems to traverse graph-based networks
US10600418B2 (en) * 2016-12-07 2020-03-24 Google Llc Voice to text conversion based on third-party agent content
CN108346436B (zh) * 2017-08-22 2020-06-23 腾讯科技(深圳)有限公司 语音情感检测方法、装置、计算机设备及存储介质
CN109003613A (zh) * 2018-09-02 2018-12-14 珠海横琴现联盛科技发展有限公司 结合空间信息的声纹识别支付信息防伪方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645271A (zh) * 2008-12-23 2010-02-10 中国科学院声学研究所 发音质量评估系统中的置信度快速求取方法
CN103065626A (zh) * 2012-12-20 2013-04-24 中国科学院声学研究所 英语口语考试系统中的朗读题自动评分方法和设备
CN107291684A (zh) * 2016-04-12 2017-10-24 华为技术有限公司 语言文本的分词方法和系统
CN105976812A (zh) * 2016-04-28 2016-09-28 腾讯科技(深圳)有限公司 一种语音识别方法及其设备
WO2019126880A1 (en) * 2017-12-29 2019-07-04 Fluent.Ai Inc. A low-power keyword spotting system
CN109885812A (zh) * 2019-01-15 2019-06-14 北京捷通华声科技股份有限公司 一种动态添加热词的方法、装置及可读存储介质

Also Published As

Publication number Publication date
CN110390948A (zh) 2019-10-29

Similar Documents

Publication Publication Date Title
CN110390948B (zh) 一种快速语音识别的方法及系统
Qian et al. Exploring ASR-free end-to-end modeling to improve spoken language understanding in a cloud-based dialog system
KR100655491B1 (ko) 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치
US8532991B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
Lengerich et al. An end-to-end architecture for keyword spotting and voice activity detection
US10490182B1 (en) Initializing and learning rate adjustment for rectifier linear unit based artificial neural networks
US8494853B1 (en) Methods and systems for providing speech recognition systems based on speech recordings logs
US20070129943A1 (en) Speech recognition using adaptation and prior knowledge
US20140337024A1 (en) Method and system for speech command detection, and information processing system
CN109036471B (zh) 语音端点检测方法及设备
CN106548775B (zh) 一种语音识别方法和系统
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
Salam et al. Malay isolated speech recognition using neural network: a work in finding number of hidden nodes and learning parameters.
CN114550703A (zh) 语音识别系统的训练方法和装置、语音识别方法和装置
CN115457938A (zh) 识别唤醒词的方法、装置、存储介质及电子装置
Maghsoodi et al. Speaker recognition with random digit strings using uncertainty normalized HMM-based i-vectors
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
KR100776729B1 (ko) 결정 트리 기반의 상태 군집화 방법을 사용하는 비핵심어모델링부를 포함하는 화자독립 가변어휘 핵심어 검출시스템 및 그 방법
Dey et al. Content normalization for text-dependent speaker verification
CN111933121B (zh) 一种声学模型训练方法及装置
CN115424616A (zh) 一种音频数据筛选方法、装置、设备及计算机可读介质
CN110875044B (zh) 一种基于字相关得分计算的说话人识别方法
Olsson Text dependent speaker verification with a hybrid HMM/ANN system
KR20210052563A (ko) 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method and system of fast speech recognition

Effective date of registration: 20221202

Granted publication date: 20220419

Pledgee: Industrial Bank Limited by Share Ltd. Xiamen branch

Pledgor: XIAMEN KUAISHANGTONG TECH. Corp.,Ltd.

Registration number: Y2022980024751