CN110444199B - 一种语音关键词识别方法、装置、终端及服务器 - Google Patents
一种语音关键词识别方法、装置、终端及服务器 Download PDFInfo
- Publication number
- CN110444199B CN110444199B CN201910759284.5A CN201910759284A CN110444199B CN 110444199 B CN110444199 B CN 110444199B CN 201910759284 A CN201910759284 A CN 201910759284A CN 110444199 B CN110444199 B CN 110444199B
- Authority
- CN
- China
- Prior art keywords
- keyword
- frame
- target
- sequence
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 239000013598 vector Substances 0.000 claims abstract description 116
- 230000015654 memory Effects 0.000 claims description 14
- 238000005516 engineering process Methods 0.000 abstract description 30
- 238000012545 processing Methods 0.000 abstract description 7
- 238000013473 artificial intelligence Methods 0.000 description 14
- 238000010801 machine learning Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241000238558 Eucarida Species 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种语音关键词识别方法、装置、终端及服务器,通过从构成第一语音的第一帧序列中确定第一目标帧;从语音关键词包括的关键字序列中确定目标关键字;在确定目标帧的隐层特征向量与目标关键字对应的关键字模板匹配成功时(关键字模板指示包括目标关键字的第二语音中的第二目标帧的隐层特征向量),若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于第一语音中的帧的隐层特征向量与其匹配成功,确定第一语音中包括语音关键词的方式,有效实现了对第一语音中的语音关键词的识别。进一步的,便于使用语音唤醒技术的电子设备在识别出第一语音中包括语音关键词时,自动激活与所述语音关键词相应的处理模块。
Description
本申请为申请日为2017年05月27日,申请号为:201710391388.6,发明名称为:一种语音关键词识别方法、装置、终端及服务器的分案申请。
技术领域
本发明涉及语音识别技术领域,具体涉及一种语音关键词识别方法、装置、终端及服务器。
背景技术
随着科技的发展,语音唤醒技术在电子设备中的应用越来越广泛,其极大程度的方便了用户对电子设备的操作,允许用户与电子设备之间无需手动交互,即可通过语音关键词激活电子设备中相应的处理模块。
例如,苹果手机采用关键词“siri”作为激活苹果手机中的语音对话智能助理功能的语音关键词,当苹果手机检测到用户输入包括关键词“siri”的语音时,自动激活苹果手机中的语音对话智能助理功能。
有鉴于此,提供一种语音关键词识别方法、装置、终端及服务器,以实现对语音中的语音关键词的识别,对于语音唤醒技术的发展是至关重要的。
发明内容
有鉴于此,本发明实施例提供一种语音关键词识别方法、装置、终端及服务器,以实现对语音中的语音关键词的识别。
为实现上述目的,本发明实施例提供如下技术方案:
一种语音关键词识别方法,包括:
从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧;
从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字;
确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,所述关键字模板指示包括所述目标关键字的第二语音中的第二目标帧的隐层特征向量;
在匹配成功的情况下,若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功,确定所述第一语音中包括所述语音关键词。
一种语音关键词识别装置,包括:
第一目标帧确定单元,用于从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧;
目标关键字确定单元,用于从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字;
匹配单元,用于确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,所述关键字模板指示包括所述目标关键字的第二语音中的第二目标帧的隐层特征向量;
识别单元,用于在匹配成功的情况下,若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功,确定所述第一语音中包括所述语音关键词。
一种终端,包括存储器和处理器,所述存储器用于存储程序,所述处理器调用所述程序,所述程序用于:
从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧;
从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字;
确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,所述关键字模板指示包括所述目标关键字的第二语音中的第二目标帧的隐层特征向量;
在匹配成功的情况下,若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功,确定所述第一语音中包括所述语音关键词。
一种语音关键词识别服务器,包括存储器和处理器,所述存储器用于存储程序,所述处理器调用所述程序,所述程序用于:
从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧;
从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字;
确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,所述关键字模板指示包括所述目标关键字的第二语音中的第二目标帧的隐层特征向量;
在匹配成功的情况下,若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功,确定所述第一语音中包括所述语音关键词。
本发明实施例公开了一种语音关键词识别方法、装置、终端及服务器,通过从构成第一语音的第一帧序列中确定第一目标帧;从语音关键词包括的关键字序列中确定目标关键字;在确定目标帧的隐层特征向量与目标关键字对应的关键字模板匹配成功时(关键字模板指示包括目标关键字的第二语音中的第二目标帧的隐层特征向量),若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于第一语音中的帧的隐层特征向量与其匹配成功,确定第一语音中包括语音关键词的方式,有效实现了对第一语音中的语音关键词的识别。进一步的,便于使用语音唤醒技术的电子设备在识别出第一语音中包括语音关键词时,自动激活与所述语音关键词相应的处理模块。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种语音关键词识别服务器的结构示意图;
图2为本申请实施例提供的一种语音关键词识别方法的流程图;
图3为本申请实施例提供的另一种语音关键词识别方法的流程图;
图4为本申请实施例提供的一种从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧的方法流程图;
图5为本申请实施例提供的一种从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字的方法流程图;
图6为本申请实施例提供的一种与目标关键字对应的关键字模板的生成方法流程图;
图7为本申请实施例提供的一种基于分别与每个帧对应的终层特征向量,从所述第二帧序列中选取与所述目标关键字的相似程度最高的帧作为第二目标帧的方法流程图;
图8为本申请实施例提供的另一种语音关键词识别方法的流程图;
图9为本申请实施例提供的一种语音关键词识别装置的结构示意图;
图10为本申请实施例提供的一种关键字模板生成单元的详细结构示意图;
图11为本申请实施例提供的一种第二目标帧确定单元的详细结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
本申请实施例提供的语音关键词识别方法涉及人工智能中的语音技术以及机器学习技术等,下面先对人工智能技术、语音技术和机器学习技术进行说明。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
下面结合如下具体实施例对语音关键词识别方法涉及的人工智能的语音技术以及机器学习技术进行说明。
本申请实施例提供一种语音关键词识别方法,应用于终端或服务器。
在本申请实施例中,优选的,终端为电子设备,例如,移动终端、台式机等。以上仅仅是本申请实施例提供的终端的优选方式,发明人可根据自己的需求任意设置终端的具体表现形式,在此不做限定。
可选的,应用本申请实施例提供的一种语音关键词识别方法的服务器(此处可称为语音关键词识别服务器)的功能可由单台服务器实现也可由多台服务器构成的服务器集群实现,在此不做限定。
以服务器为例,本申请实施例提供的一种语音关键词识别服务器的结构示意图,具体请参见图1。语音关键词识别服务器包括:处理器11和存储器12。
其中处理器11、存储器12、通信接口13通过通信总线14完成相互间的通信。
可选的,通信接口13可以为通信模块的接口,如GSM模块的接口。处理器11,用于执行程序。
处理器11可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器12,用于存放程序。
程序可以包括程序代码,所述程序代码包括计算机操作指令。在本发明实施例中,程序可以包括上述用户界面编辑器对应的程序。
存储器12可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,程序可具体用于:
从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧;
从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字;
确定所述目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,所述关键字模板指示包括所述目标关键字的第二语音中的第二目标帧的隐层特征向量;
在匹配成功的情况下,若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功,确定所述第一语音中包括所述语音关键词。
相应的,本申请实施例提供的一种终端的结构中至少包括如上述图1所示的语音关键词识别服务器的结构,有关终端的结构请参见上述对语音关键词识别服务器的结构的描述,在此不做赘述。
相应的,本申请实施例提供一种语音关键词识别方法的流程图,请参见图2。
如图2所示,该方法包括:
S201、从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧;
S202、从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字;
S203、确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,所述关键字模板指示包括所述目标关键字的第二语音中的第二目标帧的隐层特征向量;在匹配成功的情况下,执行步骤S204。
可选的,预设有语音模型,将包括所述目标关键字的第二语音(第二语音包括第二帧序列)输入所述语音模型后,可得到第二语音中的第二目标帧的隐层特征向量,与所述目标关键字对应的关键字模板指示所得到的隐层特征向量。
可选的,所述语音模型的生成与人工智能的语音技术以及机器学习技术有关,作为本申请实施例的一种优选实施方式,语音模型基于LSTM(Long Short-Term Memory,时间递归神经网络)以及CTC(Connectionist Temporal Classification,目标准则)生成。
以上仅仅是本申请实施例提供的语音模型生成的优选方式,发明人可根据自己的需求任意设置语音模型的具体生成过程,在此不做限定。
可选的,将包括第一帧序列的第一语音输入所述语音模型,可得到与所述第一语音中的第一目标帧对应的隐层特征向量。
相应的,将所述第一目标帧的隐层特征向量与所述目标关键字对应的关键字模板进行匹配,确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,如果匹配成功执行步骤S204。
在本申请实施例中,优选的,确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,包括:计算所述第一目标帧的隐层特征向量与所述目标关键字对应的关键字模板之间的余弦距离;若计算得到的余弦距离满足预设值,则确定所述第一目标帧的隐层特征向量与所述目标关键字对应的关键字模板匹配成功;若计算得到的余弦距离不满足预设值,则确定所述第一目标帧的隐层特征向量与所述目标关键字对应的关键字模板匹配不成功(失败)。
S204、若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功,确定所述第一语音中包括所述语音关键词。
可选的,在步骤S203确定匹配成功的情况下,判断当前是否已经逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功;如果是,确定所述第一语音中包括所述语音关键词。
图3为本申请实施例提供的另一种语音关键词识别方法的流程图。
如图3所示,该方法包括:
S301、从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧;
S302、从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字;
S303、确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,所述关键字模板指示包括所述目标关键字的第二语音中的第二目标帧的隐层特征向量;在匹配成功的情况下,执行步骤S304;在匹配不成功的情况下,返回执行步骤S301;
S304、判断是否已逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功,如果是,执行步骤S305;如果否,返回执行步骤S301;
可选的,逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功,包括:针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功;并且,匹配关键字模板成功的各个关键字,按照匹配成功的先后顺序进行排序后得到的结果为所述关键字序列。
S305、确定所述第一语音中包括所述语音关键词。
为了便于对本申请实施例提供的一种语音关键词识别方法的理解,现提供一种从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧的方法流程图,请参见图4。
如图4所示,该方法包括:
S401、确定构成第一语音的第一帧序列中的、第一个从未被确定为第一目标帧的帧;
S402、将所确定的帧,作为从构成所述第一语音的第一帧序列中确定的第一目标帧。
可选的,第一语音包括第一帧序列,所述第一帧序列由依次排列的至少一个帧构成。所述从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧,包括:从第一帧序列中选取一个帧作为第一目标帧,所述第一目标帧为所述第一帧序列中的从未被作为第一目标帧的、且在所述第一帧序列中排序最靠前的帧。
为了便于对本申请实施例提供的一种语音关键词识别方法的理解,现提供一种从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字的方法流程图,请参见图5。
如图5所示,该方法包括:
S501、确定语音关键词包括的关键字序列中的,与最近一次匹配成功的关键字模板对应的关键字相邻的下一关键字;
可选的,关键字序列由依次排序的多个关键字构成。
例如,若语音关键词包括的关键字序列为“小红你好”时,若最近一次匹配成功的关键模板对应的关键字为“红”,则语音关键词包括的关键字序列中的,与最近一次匹配成功的关键字模板对应的关键字相邻的下一关键字为关键字“你”。
S502、判断所述下一关键字被连续确定为目标关键字的次数是否达到预设的阈值;若所述下一关键字被连续确定为目标关键字的次数未达到预设的阈值,执行步骤S503;若所述下一关键字被连续确定为目标关键字的次数达到所述阈值,执行步骤S504;
可选的,所述预设的阈值为30次,以上仅仅是本申请实施例提供的阈值的优选方式,发明人可根据自己的需求任意设置阈值的具体内容,在此不做限定。
S503、将所述下一关键字确定为目标关键字;
S504、将所述关键字序列中的第一个关键字确定为目标关键字。
例如,若语音关键词包括的关键字序列为“小红你好”时,所述将所述关键字序列中的第一个关键字确定为目标关键字,包括:将关键字序列中的第一个关键字“小”,确定为目标关键字。
为了便于对本申请实施例提供的一种语音关键词识别方法的理解,现提供一种与目标关键字对应的关键字模板的生成方法流程图,请参见图6。
如图6所示,该方法包括:
S601、确定包括所述目标关键字的第二语音,所述第二语音由第二帧序列构成;
可选的,生成与目标关键字对应的关键字模板的过程包括:确定包括所述目标关键字的第二语音,所述第二语音由第二帧序列构成,所述第二帧序列由依次排列的至少一个帧构成。
S602、将所述第二语音作为预设的语音模型的输入信息,确定分别与所述第二帧序列中的每个帧对应的终层特征向量;
可选的,预设有语音模型,所述语音模型的输入信息为语音(如第二语音)/帧,输出信息可包括分别与输入的每个帧对应的隐层特征向量和终层特征向量。
在本申请实施例中,优选的,将所述第二语音作为所述语音模型的输入信息,得到所述第二语音包括的第二帧序列中的每个帧对应的终层特征向量。
S603、基于分别与每个帧对应的终层特征向量,从所述第二帧序列中确定第二目标帧;
可选的,基于第二语音包括的第二帧序列中的每个帧对应的终层特征向量,从所述第二语音中选取一个帧作为第二目标帧。
S604、根据将所述第二目标帧作为所述语音模型的输入信息所得到的与所述第二目标帧对应的隐层特征向量,生成与所述目标关键字对应的关键字模板。
可选的,所述第二目标帧作为所述语音模型的输入信息,得到的与所述第二目标帧对应的隐层特征向量的过程,可以在步骤S602中实现,将所述第二语音作为预设的语音模型的输入信息,确定分别与所述第二帧序列中的每个帧对应的终层特征向量,以及分别与所述第二帧序列中的每个帧对应的隐层特征向量;进而,在步骤S604执行过程中,直接从步骤S602的“分别与所述第二帧序列中的每个帧对应的隐层特征向量”结果中,直接获取与所述第二目标帧对应的隐层特征向量。
以上仅仅是本申请实施例的优选方式,发明人可根据自己的需求任意设置“将所述第二目标帧作为所述语音模型的输入信息所得到的与所述第二目标帧对应的隐层特征向量”的实现方式,如将“将所述第二目标帧作为所述语音模型的输入信息所得到的与所述第二目标帧对应的隐层特征向量”过程独立于步骤S602实现,在此不做限定。
可选的,第二语音的个数为至少一个,所述根据与所述第二目标帧对应的隐层特征向量,生成与所述目标关键字对应的关键字模板,包括:确定分别与每个第二语音的第二目标帧对应的隐层特征向量,对所确定的各个隐层特征向量求平均,并将所得到的结果作为与所述目标关键字对应的关键字模板。
为了便于对本申请实施例提供的一种语音关键词识别方法的理解,现提供一种基于分别与每个帧对应的终层特征向量,从所述第二帧序列中确定第二目标帧的方法进行详细介绍。
在本申请实施例中,优选的,所述帧对应的终层特征向量,包括:所述帧分别与所述语音模型中预设的文字集中的每个文字之间的相似度,所述目标关键字为所述文件集中的一个文字。
例如,若文字集为5200个汉字,则所述帧对应的终层特征向量包括:所述帧分别与所述5200个汉字中的每个汉字的相似度。
所述基于分别与每个帧对应的终层特征向量,从所述第二帧序列中确定第二目标帧,包括:基于分别与每个帧对应的终层特征向量,从所述第二帧序列中选取与所述目标关键字的相似程度最高的帧作为第二目标帧;其中,帧与所述目标关键字的相似程度根据所述帧分别与所述文字集中的每个文字之间的相似度确定。
为了便于理解,现提供一种基于分别与每个帧对应的终层特征向量,从所述第二帧序列中选取与所述目标关键字的相似程度最高的帧作为第二目标帧的方法流程图,请参见图7。
如图7所述,该方法包括:
S701、从所述第二帧序列中确定至少一个第一候选帧,所述第一候选帧与所述目标关键字的相似度小于所述第一候选帧与所述文字集中的至少一个文字的相似度,所述至少一个文字的个数小于预设数值;
S702、从所述至少一个第一候选帧中确定至少一个第二候选帧,所述至少一个第二候选帧为所述至少一个第一候选帧中与所述目标关键字的相似度最大的各第一候选帧;
S703、从所述至少一个第二候选帧中确定第二目标帧,按照相似度从高到低的顺序,所述第二目标帧与所述目标关键字的相似度位于所述第二目标帧与各文字的相似度中的排名,高于除所述第二目标帧外的每个所述第二候选帧与所述目标关键字的相似度位于所述第二候选帧与各文字的相似度中的排名。
进一步的,为了便于对本申请实施例提供的如图7所示的一种基于分别与每个帧对应的终层特征向量,从所述第二帧序列中选取与所述目标关键字的相似程度最高的帧作为第二目标帧的方法的理解,现举例说明:
若第二语音包括的第二帧序列包括四个帧,分别为帧1、帧2、帧3和帧4,语音模型中预设的文字集包括4个文字,分别为文字1、文字2、文字3和文字4,其中文字3为目标关键字。
将第二语音作为语音模型的输入信息输入至所述语音模型,得到与帧1对应的终层特征向量1、与帧2对应的终层特征向量2、与帧3对应的终层特征向量3,以及与帧4对应的终层特征向量4。
其中,终层特征向量1包括帧1与文字1的相似度11、帧1与文字2的相似度12、帧1与文字3的相似度13和帧1与文字4的相似度14,其中,相似度11为20%、相似度12为30%、相似度13为15%、相似度14为50%;
终层特征向量2包括帧2与文字1的相似度21、帧2与文字2的相似度22、帧2与文字3的相似度23和帧2与文字4的相似度24,其中,相似度21为15%、相似度22为5%、相似度23为65%、相似度24为95%;
终层特征向量3包括帧3与文字1的相似度31、帧3与文字2的相似度32、帧3与文字3的相似度33和帧3与文字4的相似度34,其中,相似度31为10%、相似度32为20%、相似度33为65%、相似度34为30%;
终层特征向量4包括帧4与文字1的相似度41、帧4与文字2的相似度42、帧4与文字3的相似度43和帧4与文字4的相似度44,其中,相似度41为10%、相似度42为20%、相似度43为55%、相似度44为30%。
首先,从所述第二帧序列中确定至少一个第一候选帧,所述第一候选帧与所述目标关键字的相似度小于所述第一候选帧与所述文字集中的至少一个文字的相似度,所述至少一个文字的个数小于预设数值,若所述预设数值为3时,则说明:从所述第二帧序列中确定至少一个第一候选帧,具体的,第一候选帧与文字集中的每个文字的相似度按照从大到小的顺序进行排列得到一个序列,所述第一候选帧与目标关键字的相似度位于此序列的前3位以内(所述第一候选帧与目标关键字的相似度位于此序列的第1位、第2位或第3位)。此时,从所述第二帧序列中确定的至少一个第一候选帧包括3个,分别为帧2、帧3和帧4。
从所述至少一个第一候选帧中确定至少一个第二候选帧:因此时相似度23和相似度33相等,均为65%;相似度43为55%;故从所述至少一个第一候选帧中确定出的至少一个第二候选帧包括2个,分别为帧2和帧3。
从所述至少一个第二候选帧中确定第二目标帧:因与帧3对应的相似度33在帧3对应的各个相似度中的排名为第1位;帧2对应的相似度23在帧2对应的各个相似度中的排名为第2位,故选择与所述第1位对应的帧3作为第二目标帧。
通过上述对本申请实施例提供的一种语音关键词识别方法的详细介绍,使得本申请实施例提供的一种语音关键词识别方法更加清晰、完整,便于本领域技术人员理解。
进一步的,为了便于理解上述实施例提供的一种语音关键词识别方法,下面对此方法进行更具体的详细说明,请参见图8。
如图8所示,该方法包括:
需要注意的是:该方法中对应的第一语音包括的第一帧序列中的每个帧设置有唯一的帧ID,其中,帧在所述第一帧序列中的序位号即为所述帧的帧ID。例如,第一帧序列包括依次排序的三个帧,分别为帧1、帧3和帧2。则,帧1的序位号为1,帧ID为1;帧3的序位号为2,帧ID为2;帧2的序位号为3,帧ID为3。
可选的,语音关键词包括的关键字序列中的每个关键字设置有唯一的关键字ID,其中,关键字在所述关键字序列中的序位号为所述关键字的关键字ID。例如,关键词序列包括依次排序的4个关键字,分别为关键字1、关键字3关键字2和关键字4。则,关键字1的序位号为1,关键字ID为1;关键字3的序位号为2,关键字ID为2;关键字2的序位号为3,关键字ID为3;关键字4的序位号为4,关键字ID为4。
S801、初始化关键字ID:m=1;计算器置零;
S802、帧ID:i=n++,n的初始值为0;判断第一语音包括的第一帧序列中的第i个帧的隐层特征向量与语音关键词中的第m个关键字对应关键字模板是否匹配成功;如果匹配成功,执行步骤S803;如果匹配失败,执行步骤S806;
S803、判断当前所述关键字是否为所述语音关键词包括的关键词序列中的最后一个关键字;如果是,执行步骤S804;如果否,执行步骤S805;
S804、确定所述第一语音中包括所述语音关键词;
S805、设置计数器的计数s为触发初始值;m++;返回执行步骤S802;
可选的,触发初始值即为上述步骤S502中所涉及到的所述阈值。可选的,所述触发初始值为30。
以上仅仅是本申请实施例提供的触发初始值的优选方式,发明人可根据自己的需求任意设置触发初始值的具体数值,在此不做限定。
S806、s--;
可选的,s--表示计数器的计数减一。
S807、判断计数器的计数s是否大于0;若是,返回执行步骤S802;若否,返执行步骤S801。
以上仅仅是本申请实施例提供的一种语音关键词识别方法的优选方式,具体的,发明人可根据自己的需求任意设置本申请实施例提供一种语音关键词识别方法的具体实现方式,在此不做限定。
通过上述对本申请实施例提供的一种语音关键词识别方法的详细介绍,使得本申请实施例提供的一种语音关键词识别方法更加清晰、完整,便于本领域技术人员理解。
上述本发明公开的实施例中详细描述了方法,对于本发明的方法可采用多种形式的装置实现,因此本发明还公开了一种装置,下面给出具体的实施例进行详细说明。
图9为本申请实施例提供的一种语音关键词识别装置的结构示意图。
如图9所示,该装置包括:
第一目标帧确定单元91,用于从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧;
目标关键字确定单元92,用于从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字;
匹配单元93,用于确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,所述关键字模板指示包括所述目标关键字的第二语音中的第二目标帧的隐层特征向量;
识别单元94,用于在匹配成功的情况下,若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功,确定所述第一语音中包括所述语音关键词。
进一步的,本申请实施例提供的一种语音关键词识别装置还包括:返回执行单元,用于:在匹配失败的情况下,返回执行“从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧”步骤。
本发明实施例提供第一目标帧确定单元91的一种可选结构。
可选的,第一目标帧确定单元91包括:
第一确定单元,用于确定构成第一语音的第一帧序列中的、第一个从未被确定为第一目标帧的帧;
第二确定单元,用于将所确定的帧,作为从构成所述第一语音的第一帧序列中确定的第一目标帧。
本发明实施例提供目标关键字确定单元92的一种可选结构。
可选的,目标关键字确定单元92包括:
第三确定单元,用于确定语音关键词包括的关键字序列中的,与最近一次匹配成功的关键字模板对应的关键字相邻的下一关键字;
第四确定单元,用于若所述下一关键字被连续确定为目标关键字的次数未达到预设的阈值,将所述下一关键字确定为目标关键字;
第五确定单元,用于若所述下一关键字被连续确定为目标关键字的次数达到所述阈值,将所述关键字序列中的第一个关键字确定为目标关键字。
进一步的,本申请实施例提供的一种语音关键词识别装置还包括:关键字模板生成单元。
本发明实施例提供的关键字模板生成单元的一种可选结构,请参见图10。
如图10所示,所述关键字模板生成单元,包括:
第二语音确定单元101,用于确定包括所述目标关键字的第二语音,所述第二语音由第二帧序列构成;
终层特征向量确定单元102,用于将所述第二语音作为预设的语音模型的输入信息,确定分别与所述第二帧序列中的每个帧对应的终层特征向量;
第二目标帧确定单元103,用于基于分别与每个帧对应的终层特征向量,从所述第二帧序列中确定第二目标帧;
关键字模板生成子单元104,用于根据将所述第二目标帧作为所述语音模型的输入信息所得到的与所述第二目标帧对应的隐层特征向量,生成与所述目标关键字对应的关键字模板。
在本申请实施例中,优选的,所述帧对应的终层特征向量,包括:所述帧分别与所述语音模型中预设的文字集中的每个文字之间的相似度,所述目标关键字为所述文件集中的一个文字;所述第二目标帧确定单元,具体用于:基于分别与每个帧对应的终层特征向量,从所述第二帧序列中选取与所述目标关键字的相似程度最高的帧作为第二目标帧;其中,帧与所述目标关键字的相似程度根据所述帧分别与所述文字集中的每个文字之间的相似度确定。
本发明实施例提供第二目标帧确定单元的一种可选结构,请参见图11。
如图11所示,所述第二目标帧确定单元,包括:
第一候选帧确定单元111,用于从所述第二帧序列中确定至少一个第一候选帧,所述第一候选帧与所述目标关键字的相似度小于所述第一候选帧与所述文字集中的至少一个文字的相似度,所述至少一个文字的个数小于预设数值;
第二候选帧确定单元112,用于从所述至少一个第一候选帧中确定至少一个第二候选帧,所述至少一个第二候选帧为所述至少一个第一候选帧中与所述目标关键字的相似度最大的各第一候选帧;
第二目标帧确定子单元113,用于从所述至少一个第二候选帧中确定第二目标帧,按照相似度从高到低的顺序,所述第二目标帧与所述目标关键字的相似度位于所述第二目标帧与各文字的相似度中的排名,高于除所述第二目标帧外的每个所述第二候选帧与所述目标关键字的相似度位于所述第二候选帧与各文字的相似度中的排名。
综上:
本发明实施例公开了一种语音关键词识别方法、装置、终端及服务器,通过从构成第一语音的第一帧序列中确定第一目标帧;从语音关键词包括的关键字序列中确定目标关键字;在确定目标帧的隐层特征向量与目标关键字对应的关键字模板匹配成功时(关键字模板指示包括目标关键字的第二语音中的第二目标帧的隐层特征向量),若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于第一语音中的帧的隐层特征向量与其匹配成功,确定第一语音中包括语音关键词的方式,有效实现了对第一语音中的语音关键词的识别。进一步的,便于使用语音唤醒技术的电子设备在识别出第一语音中包括语音关键词时,自动激活与所述语音关键词相应的处理模块。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的语音关键词识别技术可以应用于以上任意领域。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种语音关键词识别方法,其特征在于,包括:
确定第一目标帧的隐层特征向量是否与语音关键词包括的关键字序列中的目标关键字对应的关键字模板匹配成功,所述关键字模板指示包括所述目标关键字的第二语音中的第二目标帧的隐层特征向量;所述第一目标帧为第一帧序列中的从未被作为第一目标帧的、且在第一帧序列中排序最靠前的帧,所述第一帧序列用于构成第一语音;
若匹配成功,判断所述目标关键字是否为所述关键字序列中的最后一个关键字;如果所述目标关键字为所述关键字序列中的最后一个关键字,确定所述第一语音中包括所述语音关键词;如果所述目标关键字不为所述关键字序列中的最后一个关键字,将所述关键字序列中的与所述目标关键字相邻的下一关键字确定为新的目标关键字,将所述第一帧序列中与所述第一目标帧相邻的下一帧确定为新的第一目标帧,返回执行“确定第一目标帧的隐层特征向量是否与目标关键字对应的关键字模板匹配成功”步骤;
若匹配失败,判断所述目标关键字被连续被匹配的次数是否达到预设的阈值;若未达到,返回执行“确定第一目标帧的隐层特征向量是否与目标关键字对应的关键字模板匹配成功”步骤;若达到,将所述关键字序列中的第一个关键字确定为新的目标关键字,返回执行“确定第一目标帧的隐层特征向量是否与目标关键字对应的关键字模板匹配成功”步骤。
2.根据权利要求1所述的方法,其特征在于,所述关键字模板的生成过程包括:
确定包括所述目标关键字的第二语音,所述第二语音由第二帧序列构成;
将所述第二语音作为预设的语音模型的输入信息,确定分别与所述第二帧序列中的每个帧对应的终层特征向量;
基于分别与每个帧对应的终层特征向量,从所述第二帧序列中确定第二目标帧;
根据将所述第二目标帧作为所述语音模型的输入信息所得到的与所述第二目标帧对应的隐层特征向量,生成与所述目标关键字对应的关键字模板。
3.根据权利要求2所述的方法,其特征在于,所述帧对应的终层特征向量,包括:所述帧分别与所述语音模型中预设的文字集中的每个文字之间的相似度,所述目标关键字为所述文字集中的一个文字;
所述基于分别与每个帧对应的终层特征向量,从所述第二帧序列中确定第二目标帧,包括:
基于分别与每个帧对应的终层特征向量,从所述第二帧序列中选取与所述目标关键字的相似程度最高的帧作为第二目标帧;其中,帧与所述目标关键字的相似程度根据所述帧分别与所述文字集中的每个文字之间的相似度确定。
4.根据权利要求3所述的方法,其特征在于,所述基于分别与每个帧对应的终层特征向量,从所述第二帧序列中选取与所述目标关键字的相似程度最高的帧作为第二目标帧,包括:
从所述第二帧序列中确定至少一个第一候选帧,所述第一候选帧与所述目标关键字的相似度小于所述第一候选帧与所述文字集中的至少一个文字的相似度,所述至少一个文字的个数小于预设数值;
从所述至少一个第一候选帧中确定至少一个第二候选帧,所述至少一个第二候选帧为所述至少一个第一候选帧中与所述目标关键字的相似度最大的各第一候选帧;
从所述至少一个第二候选帧中确定第二目标帧,按照相似度从高到低的顺序,所述第二目标帧与所述目标关键字的相似度位于所述第二目标帧与各文字的相似度中的排名,高于除所述第二目标帧外的每个所述第二候选帧与所述目标关键字的相似度位于所述第二候选帧与各文字的相似度中的排名。
5.一种语音关键词识别装置,其特征在于,包括:
第一目标帧确定单元,用于确定第一目标帧,所述第一目标帧为第一帧序列中的从未被作为第一目标帧的、且在第一帧序列中排序最靠前的帧,所述第一帧序列用于构成第一语音;
目标关键字确定单元,用于确定语音关键词包括的关键字序列中的目标关键字;
匹配单元,用于确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,所述关键字模板指示包括所述目标关键字的第二语音中的第二目标帧的隐层特征向量;
识别单元,用于若匹配成功,判断所述目标关键字是否为所述关键字序列中的最后一个关键字;如果所述目标关键字为所述关键字序列中的最后一个关键字,确定所述第一语音中包括所述语音关键词;
返回执行单元,用于如果所述目标关键字不为所述关键字序列中的最后一个关键字,触发所述目标关键字确定单元将所述关键字序列中的与所述目标关键字相邻的下一关键字确定为新的目标关键字,将所述第一帧序列中与所述第一目标帧相邻的下一帧确定为新的第一目标帧,并触发所述匹配单元执行“确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功”步骤;以及,若匹配失败,判断所述目标关键字被连续被匹配的次数是否达到预设的阈值;若未达到,触发所述匹配单元执行“确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功”步骤;若达到,触发所述目标关键字确定单元将所述关键字序列中的第一个关键字确定为新的目标关键字,并触发所述匹配单元执行“确定第一目标帧的隐层特征向量是否与目标关键字对应的关键字模板匹配成功”步骤。
6.根据权利要求5所述的装置,其特征在于,还包括关键字模板生成单元,所述关键字模板生成单元,包括:
第二语音确定单元,用于确定包括所述目标关键字的第二语音,所述第二语音由第二帧序列构成;
终层特征向量确定单元,用于将所述第二语音作为预设的语音模型的输入信息,确定分别与所述第二帧序列中的每个帧对应的终层特征向量;
第二目标帧确定单元,用于基于分别与每个帧对应的终层特征向量,从所述第二帧序列中确定第二目标帧;
关键字模板生成子单元,用于根据将所述第二目标帧作为所述语音模型的输入信息所得到的与所述第二目标帧对应的隐层特征向量,生成与所述目标关键字对应的关键字模板。
7.根据权利要求6所述的装置,其特征在于,所述帧对应的终层特征向量,包括:所述帧分别与所述语音模型中预设的文字集中的每个文字之间的相似度,所述目标关键字为所述文字集中的一个文字;
所述第二目标帧确定单元,具体用于:基于分别与每个帧对应的终层特征向量,从所述第二帧序列中选取与所述目标关键字的相似程度最高的帧作为第二目标帧;其中,帧与所述目标关键字的相似程度根据所述帧分别与所述文字集中的每个文字之间的相似度确定。
8.根据权利要求7所述的装置,其特征在于,所述第二目标帧确定单元,包括:
第一候选帧确定单元,用于从所述第二帧序列中确定至少一个第一候选帧,所述第一候选帧与所述目标关键字的相似度小于所述第一候选帧与所述文字集中的至少一个文字的相似度,所述至少一个文字的个数小于预设数值;
第二候选帧确定单元,用于从所述至少一个第一候选帧中确定至少一个第二候选帧,所述至少一个第二候选帧为所述至少一个第一候选帧中与所述目标关键字的相似度最大的各第一候选帧;
第二目标帧确定子单元,用于从所述至少一个第二候选帧中确定第二目标帧,按照相似度从高到低的顺序,所述第二目标帧与所述目标关键字的相似度位于所述第二目标帧与各文字的相似度中的排名,高于除所述第二目标帧外的每个所述第二候选帧与所述目标关键字的相似度位于所述第二候选帧与各文字的相似度中的排名。
9.一种终端,其特征在于,包括存储器和处理器,所述存储器用于存储程序,所述处理器调用所述程序,所述程序用于执行如权利要求1-4中任意一项所述的语音关键词识别方法。
10.一种语音关键词识别服务器,其特征在于,包括存储器和处理器,所述存储器用于存储程序,所述处理器调用所述程序,所述程序用于执行如权利要求1-4中任意一项所述的语音关键词识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910759284.5A CN110444199B (zh) | 2017-05-27 | 2017-05-27 | 一种语音关键词识别方法、装置、终端及服务器 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910759284.5A CN110444199B (zh) | 2017-05-27 | 2017-05-27 | 一种语音关键词识别方法、装置、终端及服务器 |
CN201710391388.6A CN107230475B (zh) | 2017-05-27 | 2017-05-27 | 一种语音关键词识别方法、装置、终端及服务器 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710391388.6A Division CN107230475B (zh) | 2017-05-27 | 2017-05-27 | 一种语音关键词识别方法、装置、终端及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110444199A CN110444199A (zh) | 2019-11-12 |
CN110444199B true CN110444199B (zh) | 2022-01-07 |
Family
ID=59934556
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710391388.6A Active CN107230475B (zh) | 2017-05-27 | 2017-05-27 | 一种语音关键词识别方法、装置、终端及服务器 |
CN201910774637.9A Active CN110349572B (zh) | 2017-05-27 | 2017-05-27 | 一种语音关键词识别方法、装置、终端及服务器 |
CN201910759284.5A Active CN110444199B (zh) | 2017-05-27 | 2017-05-27 | 一种语音关键词识别方法、装置、终端及服务器 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710391388.6A Active CN107230475B (zh) | 2017-05-27 | 2017-05-27 | 一种语音关键词识别方法、装置、终端及服务器 |
CN201910774637.9A Active CN110349572B (zh) | 2017-05-27 | 2017-05-27 | 一种语音关键词识别方法、装置、终端及服务器 |
Country Status (3)
Country | Link |
---|---|
CN (3) | CN107230475B (zh) |
TW (1) | TWI690919B (zh) |
WO (1) | WO2018219023A1 (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107230475B (zh) * | 2017-05-27 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 一种语音关键词识别方法、装置、终端及服务器 |
CN107564517A (zh) | 2017-07-05 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法、设备及系统、云端服务器与可读介质 |
CN110444193B (zh) * | 2018-01-31 | 2021-12-14 | 腾讯科技(深圳)有限公司 | 语音关键词的识别方法和装置 |
CN108564941B (zh) * | 2018-03-22 | 2020-06-02 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、设备及存储介质 |
CN108492827B (zh) * | 2018-04-02 | 2019-07-30 | 百度在线网络技术(北京)有限公司 | 应用程序的唤醒处理方法、装置及存储介质 |
CN108665900B (zh) | 2018-04-23 | 2020-03-03 | 百度在线网络技术(北京)有限公司 | 云端唤醒方法及系统、终端以及计算机可读存储介质 |
CN108615526B (zh) * | 2018-05-08 | 2020-07-07 | 腾讯科技(深圳)有限公司 | 语音信号中关键词的检测方法、装置、终端及存储介质 |
CN109192224B (zh) * | 2018-09-14 | 2021-08-17 | 科大讯飞股份有限公司 | 一种语音评测方法、装置、设备及可读存储介质 |
CN109215632B (zh) * | 2018-09-30 | 2021-10-08 | 科大讯飞股份有限公司 | 一种语音评测方法、装置、设备及可读存储介质 |
CN109599124B (zh) * | 2018-11-23 | 2023-01-10 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、装置及存储介质 |
CN110322871A (zh) * | 2019-05-30 | 2019-10-11 | 清华大学 | 一种基于声学表征矢量的样例关键词检索方法 |
CN110648668A (zh) * | 2019-09-24 | 2020-01-03 | 上海依图信息技术有限公司 | 关键词检测装置和方法 |
CN110706703A (zh) * | 2019-10-16 | 2020-01-17 | 珠海格力电器股份有限公司 | 一种语音唤醒方法、装置、介质和设备 |
CN110827806B (zh) * | 2019-10-17 | 2022-01-28 | 清华大学深圳国际研究生院 | 一种语音关键词检测方法及系统 |
CN112837680A (zh) * | 2019-11-25 | 2021-05-25 | 马上消费金融股份有限公司 | 音频关键词检索方法、智能外呼方法及相关装置 |
CN111292753A (zh) * | 2020-02-28 | 2020-06-16 | 广州国音智能科技有限公司 | 一种离线语音识别方法、装置和设备 |
CN111128138A (zh) * | 2020-03-30 | 2020-05-08 | 深圳市友杰智新科技有限公司 | 语音唤醒方法、装置、计算机设备和存储介质 |
CN111723204B (zh) * | 2020-06-15 | 2021-04-02 | 龙马智芯(珠海横琴)科技有限公司 | 语音质检区域的校正方法、装置、校正设备及存储介质 |
CN111798840B (zh) * | 2020-07-16 | 2023-08-08 | 中移在线服务有限公司 | 语音关键词识别方法和装置 |
CN112259101B (zh) * | 2020-10-19 | 2022-09-23 | 腾讯科技(深圳)有限公司 | 语音关键词识别方法、装置、计算机设备和存储介质 |
CN112259077B (zh) * | 2020-10-20 | 2024-04-09 | 网易(杭州)网络有限公司 | 语音识别方法、装置、终端和存储介质 |
CN116523970B (zh) * | 2023-07-05 | 2023-10-20 | 之江实验室 | 基于二次隐式匹配的动态三维目标跟踪方法及装置 |
CN117423336A (zh) * | 2023-10-10 | 2024-01-19 | 阿波罗智联(北京)科技有限公司 | 音频数据处理方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101188110A (zh) * | 2006-11-17 | 2008-05-28 | 陈健全 | 提高文本和语音匹配效率的方法 |
CN102053993A (zh) * | 2009-11-10 | 2011-05-11 | 阿里巴巴集团控股有限公司 | 一种文本过滤方法及文本过滤系统 |
CN102081638A (zh) * | 2010-01-29 | 2011-06-01 | 蓝盾信息安全技术股份有限公司 | 一种匹配关键词的方法及装置 |
CN103577548A (zh) * | 2013-10-12 | 2014-02-12 | 优视科技有限公司 | 近音文字匹配方法及装置 |
WO2014148665A3 (ko) * | 2013-03-21 | 2015-05-07 | 디노플러스(주) | 멀티미디어 콘텐츠 편집장치 및 그 방법 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4224250B2 (ja) * | 2002-04-17 | 2009-02-12 | パイオニア株式会社 | 音声認識装置、音声認識方法および音声認識プログラム |
CN101593519B (zh) * | 2008-05-29 | 2012-09-19 | 夏普株式会社 | 检测语音关键词的方法和设备及检索方法和系统 |
CN102915729B (zh) * | 2011-08-01 | 2014-11-26 | 佳能株式会社 | 语音关键词检出系统、创建用于其的词典的系统和方法 |
JP5810946B2 (ja) * | 2012-01-31 | 2015-11-11 | 富士通株式会社 | 特定通話検出装置、特定通話検出方法及び特定通話検出用コンピュータプログラム |
US20140337030A1 (en) * | 2013-05-07 | 2014-11-13 | Qualcomm Incorporated | Adaptive audio frame processing for keyword detection |
US9786296B2 (en) * | 2013-07-08 | 2017-10-10 | Qualcomm Incorporated | Method and apparatus for assigning keyword model to voice operated function |
CN104143328B (zh) * | 2013-08-15 | 2015-11-25 | 腾讯科技(深圳)有限公司 | 一种关键词检测方法和装置 |
CN104143329B (zh) * | 2013-08-19 | 2015-10-21 | 腾讯科技(深圳)有限公司 | 进行语音关键词检索的方法及装置 |
CN104766608A (zh) * | 2014-01-07 | 2015-07-08 | 深圳市中兴微电子技术有限公司 | 一种语音控制方法及装置 |
US10032449B2 (en) * | 2014-09-03 | 2018-07-24 | Mediatek Inc. | Keyword spotting system for achieving low-latency keyword recognition by using multiple dynamic programming tables reset at different frames of acoustic data input and related keyword spotting method |
CN107112012B (zh) * | 2015-01-07 | 2020-11-20 | 美商楼氏电子有限公司 | 用于音频处理的方法和系统及计算机可读存储介质 |
US20160284349A1 (en) * | 2015-03-26 | 2016-09-29 | Binuraj Ravindran | Method and system of environment sensitive automatic speech recognition |
US9990917B2 (en) * | 2015-04-13 | 2018-06-05 | Intel Corporation | Method and system of random access compression of transducer data for automatic speech recognition decoding |
CN106161755A (zh) * | 2015-04-20 | 2016-11-23 | 钰太芯微电子科技(上海)有限公司 | 一种关键词语音唤醒系统及唤醒方法及移动终端 |
CN106297776B (zh) * | 2015-05-22 | 2019-07-09 | 中国科学院声学研究所 | 一种基于音频模板的语音关键词检索方法 |
CN105117384A (zh) * | 2015-08-19 | 2015-12-02 | 小米科技有限责任公司 | 分类器训练方法、类型识别方法及装置 |
US20170061959A1 (en) * | 2015-09-01 | 2017-03-02 | Disney Enterprises, Inc. | Systems and Methods For Detecting Keywords in Multi-Speaker Environments |
TWI639153B (zh) * | 2015-11-03 | 2018-10-21 | 絡達科技股份有限公司 | 電子裝置及其透過語音辨識喚醒的方法 |
CN105575386B (zh) * | 2015-12-18 | 2019-07-30 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN105679316A (zh) * | 2015-12-29 | 2016-06-15 | 深圳微服机器人科技有限公司 | 一种基于深度神经网络的语音关键词识别方法及装置 |
CN105740686B (zh) * | 2016-01-28 | 2019-04-23 | 百度在线网络技术(北京)有限公司 | 应用的控制方法和装置 |
US9805714B2 (en) * | 2016-03-22 | 2017-10-31 | Asustek Computer Inc. | Directional keyword verification method applicable to electronic device and electronic device using the same |
CN105930413A (zh) * | 2016-04-18 | 2016-09-07 | 北京百度网讯科技有限公司 | 相似度模型参数的训练方法、搜索处理方法及对应装置 |
CN107230475B (zh) * | 2017-05-27 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 一种语音关键词识别方法、装置、终端及服务器 |
-
2017
- 2017-05-27 CN CN201710391388.6A patent/CN107230475B/zh active Active
- 2017-05-27 CN CN201910774637.9A patent/CN110349572B/zh active Active
- 2017-05-27 CN CN201910759284.5A patent/CN110444199B/zh active Active
-
2018
- 2018-03-21 WO PCT/CN2018/079769 patent/WO2018219023A1/zh active Application Filing
- 2018-04-20 TW TW107113595A patent/TWI690919B/zh active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101188110A (zh) * | 2006-11-17 | 2008-05-28 | 陈健全 | 提高文本和语音匹配效率的方法 |
CN102053993A (zh) * | 2009-11-10 | 2011-05-11 | 阿里巴巴集团控股有限公司 | 一种文本过滤方法及文本过滤系统 |
CN102081638A (zh) * | 2010-01-29 | 2011-06-01 | 蓝盾信息安全技术股份有限公司 | 一种匹配关键词的方法及装置 |
WO2014148665A3 (ko) * | 2013-03-21 | 2015-05-07 | 디노플러스(주) | 멀티미디어 콘텐츠 편집장치 및 그 방법 |
CN103577548A (zh) * | 2013-10-12 | 2014-02-12 | 优视科技有限公司 | 近音文字匹配方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110444199A (zh) | 2019-11-12 |
TWI690919B (zh) | 2020-04-11 |
CN110349572B (zh) | 2021-10-22 |
CN110349572A (zh) | 2019-10-18 |
TW201832221A (zh) | 2018-09-01 |
CN107230475B (zh) | 2022-04-05 |
CN107230475A (zh) | 2017-10-03 |
WO2018219023A1 (zh) | 2018-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110444199B (zh) | 一种语音关键词识别方法、装置、终端及服务器 | |
CN108334487B (zh) | 缺失语意信息补全方法、装置、计算机设备和存储介质 | |
CN109241524B (zh) | 语义解析方法及装置、计算机可读存储介质、电子设备 | |
CN110377916B (zh) | 词预测方法、装置、计算机设备及存储介质 | |
WO2018133761A1 (zh) | 一种人机对话的方法和装置 | |
CN112185348B (zh) | 多语种语音识别方法、装置及电子设备 | |
JP6677419B2 (ja) | 音声対話方法及び装置 | |
CN110163181B (zh) | 手语识别方法及装置 | |
CN111428010A (zh) | 人机智能问答的方法和装置 | |
US12067347B2 (en) | Sentence generation method and apparatus, device, and storage medium | |
JP2018055548A (ja) | 対話装置、学習装置、対話方法、学習方法、およびプログラム | |
US20230029759A1 (en) | Method of classifying utterance emotion in dialogue using word-level emotion embedding based on semi-supervised learning and long short-term memory model | |
CN112417855A (zh) | 文本意图识别方法、装置以及相关设备 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN112686051A (zh) | 语义识别模型训练方法、识别方法、电子设备、存储介质 | |
CN111444321B (zh) | 问答方法、装置、电子设备和存储介质 | |
CN111062209A (zh) | 自然语言处理模型训练方法和自然语言处理模型 | |
CN111178082A (zh) | 一种句向量生成方法、装置及电子设备 | |
CN112257470A (zh) | 一种模型训练方法、装置、计算机设备和可读存储介质 | |
WO2023040545A1 (zh) | 一种数据处理方法、装置、设备、存储介质和程序产品 | |
CN111401070B (zh) | 词义相似度确定方法及装置、电子设备及存储介质 | |
CN111581347A (zh) | 语句相似度匹配方法及装置 | |
CN111428487A (zh) | 模型训练方法、歌词生成方法、装置、电子设备及介质 | |
CN115712739A (zh) | 舞蹈动作生成方法、计算机设备及存储介质 | |
CN111680514A (zh) | 信息处理和模型训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |