CN107230475A - 一种语音关键词识别方法、装置、终端及服务器 - Google Patents

一种语音关键词识别方法、装置、终端及服务器 Download PDF

Info

Publication number
CN107230475A
CN107230475A CN201710391388.6A CN201710391388A CN107230475A CN 107230475 A CN107230475 A CN 107230475A CN 201710391388 A CN201710391388 A CN 201710391388A CN 107230475 A CN107230475 A CN 107230475A
Authority
CN
China
Prior art keywords
frame
keyword
voice
target
target keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710391388.6A
Other languages
English (en)
Other versions
CN107230475B (zh
Inventor
王珺
黄志恒
于蒙
蒲松柏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710391388.6A priority Critical patent/CN107230475B/zh
Priority to CN201910759284.5A priority patent/CN110444199B/zh
Priority to CN201910774637.9A priority patent/CN110349572B/zh
Publication of CN107230475A publication Critical patent/CN107230475A/zh
Priority to PCT/CN2018/079769 priority patent/WO2018219023A1/zh
Priority to TW107113595A priority patent/TWI690919B/zh
Application granted granted Critical
Publication of CN107230475B publication Critical patent/CN107230475B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种语音关键词识别方法、装置、终端及服务器,通过从构成第一语音的第一帧序列中确定第一目标帧;从语音关键词包括的关键字序列中确定目标关键字;在确定目标帧的隐层特征向量与目标关键字对应的关键字模板匹配成功时(关键字模板指示包括目标关键字的第二语音中的第二目标帧的隐层特征向量),若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于第一语音中的帧的隐层特征向量与其匹配成功,确定第一语音中包括语音关键词的方式,有效实现了对第一语音中的语音关键词的识别。进一步的,便于使用语音唤醒技术的电子设备在识别出第一语音中包括语音关键词时,自动激活与所述语音关键词相应的处理模块。

Description

一种语音关键词识别方法、装置、终端及服务器
技术领域
本发明涉及语音识别技术领域,具体涉及一种语音关键词识别方法、装置、终端及服务器。
背景技术
随着科技的发展,语音唤醒技术在电子设备中的应用越来越广泛,其极大程度的方便了用户对电子设备的操作,允许用户与电子设备之间无需手动交互,即可通过语音关键词激活电子设备中相应的处理模块。
例如,苹果手机采用关键词“siri”作为激活苹果手机中的语音对话智能助理功能的语音关键词,当苹果手机检测到用户输入包括关键词“siri”的语音时,自动激活苹果手机中的语音对话智能助理功能。
有鉴于此,提供一种语音关键词识别方法、装置、终端及服务器,以实现对语音中的语音关键词的识别,对于语音唤醒技术的发展是至关重要的。
发明内容
有鉴于此,本发明实施例提供一种语音关键词识别方法、装置、终端及服务器,以实现对语音中的语音关键词的识别。
为实现上述目的,本发明实施例提供如下技术方案:
一种语音关键词识别方法,包括:
从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧;
从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字;
确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,所述关键字模板指示包括所述目标关键字的第二语音中的第二目标帧的隐层特征向量;
在匹配成功的情况下,若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功,确定所述第一语音中包括所述语音关键词。
一种语音关键词识别装置,包括:
第一目标帧确定单元,用于从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧;
目标关键字确定单元,用于从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字;
匹配单元,用于确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,所述关键字模板指示包括所述目标关键字的第二语音中的第二目标帧的隐层特征向量;
识别单元,用于在匹配成功的情况下,若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功,确定所述第一语音中包括所述语音关键词。
一种终端,包括存储器和处理器,所述存储器用于存储程序,所述处理器调用所述程序,所述程序用于:
从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧;
从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字;
确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,所述关键字模板指示包括所述目标关键字的第二语音中的第二目标帧的隐层特征向量;
在匹配成功的情况下,若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功,确定所述第一语音中包括所述语音关键词。
一种语音关键词识别服务器,包括存储器和处理器,所述存储器用于存储程序,所述处理器调用所述程序,所述程序用于:
从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧;
从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字;
确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,所述关键字模板指示包括所述目标关键字的第二语音中的第二目标帧的隐层特征向量;
在匹配成功的情况下,若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功,确定所述第一语音中包括所述语音关键词。
本发明实施例公开了一种语音关键词识别方法、装置、终端及服务器,通过从构成第一语音的第一帧序列中确定第一目标帧;从语音关键词包括的关键字序列中确定目标关键字;在确定目标帧的隐层特征向量与目标关键字对应的关键字模板匹配成功时(关键字模板指示包括目标关键字的第二语音中的第二目标帧的隐层特征向量),若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于第一语音中的帧的隐层特征向量与其匹配成功,确定第一语音中包括语音关键词的方式,有效实现了对第一语音中的语音关键词的识别。进一步的,便于使用语音唤醒技术的电子设备在识别出第一语音中包括语音关键词时,自动激活与所述语音关键词相应的处理模块。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种语音关键词识别服务器的结构示意图;
图2为本申请实施例提供的一种语音关键词识别方法的流程图;
图3为本申请实施例提供的另一种语音关键词识别方法的流程图;
图4为本申请实施例提供的一种从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧的方法流程图;
图5为本申请实施例提供的一种从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字的方法流程图;
图6为本申请实施例提供的一种与目标关键字对应的关键字模板的生成方法流程图;
图7为本申请实施例提供的一种基于分别与每个帧对应的终层特征向量,从所述第二帧序列中选取与所述目标关键字的相似程度最高的帧作为第二目标帧的方法流程图;
图8为本申请实施例提供的另一种语音关键词识别方法的流程图;
图9为本申请实施例提供的一种语音关键词识别装置的结构示意图;
图10为本申请实施例提供的一种关键字模板生成单元的详细结构示意图;
图11为本申请实施例提供的一种第二目标帧确定单元的详细结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
本申请实施例提供一种语音关键词识别方法,应用于终端或服务器。
在本申请实施例中,优选的,终端为电子设备,例如,移动终端、台式机等。以上仅仅是本申请实施例提供的终端的优选方式,发明人可根据自己的需求任意设置终端的具体表现形式,在此不做限定。
可选的,应用本申请实施例提供的一种语音关键词识别方法的服务器(此处可称为语音关键词识别服务器)的功能可由单台服务器实现也可由多台服务器构成的服务器集群实现,在此不做限定。
以服务器为例,本申请实施例提供的一种语音关键词识别服务器的结构示意图,具体请参见图1。语音关键词识别服务器包括:处理器11和存储器12。
其中处理器11、存储器12、通信接口13通过通信总线14完成相互间的通信。
可选的,通信接口13可以为通信模块的接口,如GSM模块的接口。处理器11,用于执行程序。
处理器11可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器12,用于存放程序。
程序可以包括程序代码,所述程序代码包括计算机操作指令。在本发明实施例中,程序可以包括上述用户界面编辑器对应的程序。
存储器12可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,程序可具体用于:
从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧;
从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字;
确定所述目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,所述关键字模板指示包括所述目标关键字的第二语音中的第二目标帧的隐层特征向量;
在匹配成功的情况下,若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功,确定所述第一语音中包括所述语音关键词。
相应的,本申请实施例提供的一种终端的结构中至少包括如上述图1所示的语音关键词识别服务器的结构,有关终端的结构请参见上述对语音关键词识别服务器的结构的描述,在此不做赘述。
相应的,本申请实施例提供一种语音关键词识别方法的流程图,请参见图2。
如图2所示,该方法包括:
S201、从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧;
S202、从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字;
S203、确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,所述关键字模板指示包括所述目标关键字的第二语音中的第二目标帧的隐层特征向量;在匹配成功的情况下,执行步骤S204。
可选的,预设有语音模型,将包括所述目标关键字的第二语音(第二语音包括第二帧序列)输入所述语音模型后,可得到第二语音中的第二目标帧的隐层特征向量,与所述目标关键字对应的关键字模板指示所得到的隐层特征向量。
可选的,所述语音模型基于LSTM(Long Short-Term Memory,时间递归神经网络)以及CTC(Connectionist Temporal Classification,目标准则)生成。
以上仅仅是本申请实施例提供的语音模型生成的优选方式,发明人可根据自己的需求任意设置语音模型的具体生成过程,在此不做限定。
可选的,将包括第一帧序列的第一语音输入所述语音模型,可得到与所述第一语音中的第一目标帧对应的隐层特征向量。
相应的,将所述第一目标帧的隐层特征向量与所述目标关键字对应的关键字模板进行匹配,确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,如果匹配成功执行步骤S204。
在本申请实施例中,优选的,确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,包括:计算所述第一目标帧的隐层特征向量与所述目标关键字对应的关键字模板之间的余弦距离;若计算得到的余弦距离满足预设值,则确定所述第一目标帧的隐层特征向量与所述目标关键字对应的关键字模板匹配成功;若计算得到的余弦距离不满足预设值,则确定所述第一目标帧的隐层特征向量与所述目标关键字对应的关键字模板匹配不成功(失败)。
S204、若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功,确定所述第一语音中包括所述语音关键词。
可选的,在步骤S203确定匹配成功的情况下,判断当前是否已经逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功;如果是,确定所述第一语音中包括所述语音关键词。
图3为本申请实施例提供的另一种语音关键词识别方法的流程图。
如图3所示,该方法包括:
S301、从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧;
S302、从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字;
S303、确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,所述关键字模板指示包括所述目标关键字的第二语音中的第二目标帧的隐层特征向量;在匹配成功的情况下,执行步骤S304;在匹配不成功的情况下,返回执行步骤S301;
S304、判断是否已逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功,如果是,执行步骤S305;如果否,返回执行步骤S301;
可选的,逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功,包括:针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功;并且,匹配关键字模板成功的各个关键字,按照匹配成功的先后顺序进行排序后得到的结果为所述关键字序列。
S305、确定所述第一语音中包括所述语音关键词。
为了便于对本申请实施例提供的一种语音关键词识别方法的理解,现提供一种从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧的方法流程图,请参见图4。
如图4所示,该方法包括:
S401、确定构成第一语音的第一帧序列中的、第一个从未被确定为第一目标帧的帧;
S402、将所确定的帧,作为从构成所述第一语音的第一帧序列中确定的第一目标帧。
可选的,第一语音包括第一帧序列,所述第一帧序列由依次排列的至少一个帧构成。所述从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧,包括:从第一帧序列中选取一个帧作为第一目标帧,所述第一目标帧为所述第一帧序列中的从未被作为第一目标帧的、且在所述第一帧序列中排序最靠前的帧。
为了便于对本申请实施例提供的一种语音关键词识别方法的理解,现提供一种从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字的方法流程图,请参见图5。
如图5所示,该方法包括:
S501、确定语音关键词包括的关键字序列中的,与最近一次匹配成功的关键字模板对应的关键字相邻的下一关键字;
可选的,关键字序列由依次排序的多个关键字构成。
例如,若语音关键词包括的关键字序列为“小红你好”时,若最近一次匹配成功的关键模板对应的关键字为“红”,则语音关键词包括的关键字序列中的,与最近一次匹配成功的关键字模板对应的关键字相邻的下一关键字为关键字“你”。
S502、判断所述下一关键字被连续确定为目标关键字的次数是否达到预设的阈值;若所述下一关键字被连续确定为目标关键字的次数未达到预设的阈值,执行步骤S503;若所述下一关键字被连续确定为目标关键字的次数达到所述阈值,执行步骤S504;
可选的,所述预设的阈值为30次,以上仅仅是本申请实施例提供的阈值的优选方式,发明人可根据自己的需求任意设置阈值的具体内容,在此不做限定。
S503、将所述下一关键字确定为目标关键字;
S504、将所述关键字序列中的第一个关键字确定为目标关键字。
例如,若语音关键词包括的关键字序列为“小红你好”时,所述将所述关键字序列中的第一个关键字确定为目标关键字,包括:将关键字序列中的第一个关键字“小”,确定为目标关键字。
为了便于对本申请实施例提供的一种语音关键词识别方法的理解,现提供一种与目标关键字对应的关键字模板的生成方法流程图,请参见图6。
如图6所示,该方法包括:
S601、确定包括所述目标关键字的第二语音,所述第二语音由第二帧序列构成;
可选的,生成与目标关键字对应的关键字模板的过程包括:确定包括所述目标关键字的第二语音,所述第二语音由第二帧序列构成,所述第二帧序列由依次排列的至少一个帧构成。
S602、将所述第二语音作为预设的语音模型的输入信息,确定分别与所述第二帧序列中的每个帧对应的终层特征向量;
可选的,预设有语音模型,所述语音模型的输入信息为语音(如第二语音)/帧,输出信息可包括分别与输入的每个帧对应的隐层特征向量和终层特征向量。
在本申请实施例中,优选的,将所述第二语音作为所述语音模型的输入信息,得到所述第二语音包括的第二帧序列中的每个帧对应的终层特征向量。
S603、基于分别与每个帧对应的终层特征向量,从所述第二帧序列中确定第二目标帧;
可选的,基于第二语音包括的第二帧序列中的每个帧对应的终层特征向量,从所述第二语音中选取一个帧作为第二目标帧。
S604、根据将所述第二目标帧作为所述语音模型的输入信息所得到的与所述第二目标帧对应的隐层特征向量,生成与所述目标关键字对应的关键字模板。
可选的,所述第二目标帧作为所述语音模型的输入信息,得到的与所述第二目标帧对应的隐层特征向量的过程,可以在步骤S602中实现,将所述第二语音作为预设的语音模型的输入信息,确定分别与所述第二帧序列中的每个帧对应的终层特征向量,以及分别与所述第二帧序列中的每个帧对应的隐层特征向量;进而,在步骤S604执行过程中,直接从步骤S602的“分别与所述第二帧序列中的每个帧对应的隐层特征向量”结果中,直接获取与所述第二目标帧对应的隐层特征向量。
以上仅仅是本申请实施例的优选方式,发明人可根据自己的需求任意设置“将所述第二目标帧作为所述语音模型的输入信息所得到的与所述第二目标帧对应的隐层特征向量”的实现方式,如将“将所述第二目标帧作为所述语音模型的输入信息所得到的与所述第二目标帧对应的隐层特征向量”过程独立于步骤S602实现,在此不做限定。
可选的,第二语音的个数为至少一个,所述根据与所述第二目标帧对应的隐层特征向量,生成与所述目标关键字对应的关键字模板,包括:确定分别与每个第二语音的第二目标帧对应的隐层特征向量,对所确定的各个隐层特征向量求平均,并将所得到的结果作为与所述目标关键字对应的关键字模板。
为了便于对本申请实施例提供的一种语音关键词识别方法的理解,现提供一种基于分别与每个帧对应的终层特征向量,从所述第二帧序列中确定第二目标帧的方法进行详细介绍。
在本申请实施例中,优选的,所述帧对应的终层特征向量,包括:所述帧分别与所述语音模型中预设的文字集中的每个文字之间的相似度,所述目标关键字为所述文件集中的一个文字。
例如,若文字集为5200个汉字,则所述帧对应的终层特征向量包括:所述帧分别与所述5200个汉字中的每个汉字的相似度。
所述基于分别与每个帧对应的终层特征向量,从所述第二帧序列中确定第二目标帧,包括:基于分别与每个帧对应的终层特征向量,从所述第二帧序列中选取与所述目标关键字的相似程度最高的帧作为第二目标帧;其中,帧与所述目标关键字的相似程度根据所述帧分别与所述文字集中的每个文字之间的相似度确定。
为了便于理解,现提供一种基于分别与每个帧对应的终层特征向量,从所述第二帧序列中选取与所述目标关键字的相似程度最高的帧作为第二目标帧的方法流程图,请参见图7。
如图7所述,该方法包括:
S701、从所述第二帧序列中确定至少一个第一候选帧,所述第一候选帧与所述目标关键字的相似度小于所述第一候选帧与所述文字集中的至少一个文字的相似度,所述至少一个文字的个数小于预设数值;
S702、从所述至少一个第一候选帧中确定至少一个第二候选帧,所述至少一个第二候选帧为所述至少一个第一候选帧中与所述目标关键字的相似度最大的各第一候选帧;
S703、从所述至少一个第二候选帧中确定第二目标帧,按照相似度从高到低的顺序,所述第二目标帧与所述目标关键字的相似度位于所述第二目标帧与各文字的相似度中的排名,高于除所述第二目标帧外的每个所述第二候选帧与所述目标关键字的相似度位于所述第二候选帧与各文字的相似度中的排名。
进一步的,为了便于对本申请实施例提供的如图7所示的一种基于分别与每个帧对应的终层特征向量,从所述第二帧序列中选取与所述目标关键字的相似程度最高的帧作为第二目标帧的方法的理解,现举例说明:
若第二语音包括的第二帧序列包括四个帧,分别为帧1、帧2、帧3和帧4,语音模型中预设的文字集包括4个文字,分别为文字1、文字2、文字3和文字4,其中文字3为目标关键字。
将第二语音作为语音模型的输入信息输入至所述语音模型,得到与帧1对应的终层特征向量1、与帧2对应的终层特征向量2、与帧3对应的终层特征向量3,以及与帧4对应的终层特征向量4。
其中,终层特征向量1包括帧1与文字1的相似度11、帧1与文字2的相似度12、帧1与文字3的相似度13和帧1与文字4的相似度14,其中,相似度11为20%、相似度12为30%、相似度13为15%、相似度14为50%;
终层特征向量2包括帧2与文字1的相似度21、帧2与文字2的相似度22、帧2与文字3的相似度23和帧2与文字4的相似度24,其中,相似度21为15%、相似度22为5%、相似度23为65%、相似度24为95%;
终层特征向量3包括帧3与文字1的相似度31、帧3与文字2的相似度32、帧3与文字3的相似度33和帧3与文字4的相似度34,其中,相似度31为10%、相似度32为20%、相似度33为65%、相似度34为30%;
终层特征向量4包括帧4与文字1的相似度41、帧4与文字2的相似度42、帧4与文字3的相似度43和帧4与文字4的相似度44,其中,相似度41为10%、相似度42为20%、相似度43为55%、相似度44为30%。
首先,从所述第二帧序列中确定至少一个第一候选帧,所述第一候选帧与所述目标关键字的相似度小于所述第一候选帧与所述文字集中的至少一个文字的相似度,所述至少一个文字的个数小于预设数值,若所述预设数值为3时,则说明:从所述第二帧序列中确定至少一个第一候选帧,具体的,第一候选帧与文字集中的每个文字的相似度按照从大到小的顺序进行排列得到一个序列,所述第一候选帧与目标关键字的相似度位于此序列的前3位以内(所述第一候选帧与目标关键字的相似度位于此序列的第1位、第2位或第3位)。此时,从所述第二帧序列中确定的至少一个第一候选帧包括3个,分别为帧2、帧3和帧4。
从所述至少一个第一候选帧中确定至少一个第二候选帧:因此时相似度23和相似度33相等,均为65%;相似度43为55%;故从所述至少一个第一候选帧中确定出的至少一个第二候选帧包括2个,分别为帧2和帧3。
从所述至少一个第二候选帧中确定第二目标帧:因与帧3对应的相似度33在帧3对应的各个相似度中的排名为第1位;帧2对应的相似度23在帧2对应的各个相似度中的排名为第2位,故选择与所述第1位对应的帧3作为第二目标帧。
通过上述对本申请实施例提供的一种语音关键词识别方法的详细介绍,使得本申请实施例提供的一种语音关键词识别方法更加清晰、完整,便于本领域技术人员理解。
进一步的,为了便于理解上述实施例提供的一种语音关键词识别方法,下面对此方法进行更具体的详细说明,请参见图8。
如图8所示,该方法包括:
需要注意的是:该方法中对应的第一语音包括的第一帧序列中的每个帧设置有唯一的帧ID,其中,帧在所述第一帧序列中的序位号即为所述帧的帧ID。例如,第一帧序列包括依次排序的三个帧,分别为帧1、帧3和帧2。则,帧1的序位号为1,帧ID为1;帧3的序位号为2,帧ID为2;帧2的序位号为3,帧ID为3。
可选的,语音关键词包括的关键字序列中的每个关键字设置有唯一的关键字ID,其中,关键字在所述关键字序列中的序位号为所述关键字的关键字ID。例如,关键词序列包括依次排序的4个关键字,分别为关键字1、关键字3关键字2和关键字4。则,关键字1的序位号为1,关键字ID为1;关键字3的序位号为2,关键字ID为2;关键字2的序位号为3,关键字ID为3;关键字4的序位号为4,关键字ID为4。
S801、初始化帧ID:n=0;关键字ID:m=1;计算器置零;
S802、i=n++;判断第一语音包括的第一帧序列中的第i个帧的隐层特征向量与语音关键词中的第m个关键字对应关键字模板是否匹配成功;如果匹配成功,执行步骤S803;如果匹配失败,执行步骤S806;
S803、判断当前所述关键字是否为所述语音关键词包括的关键词序列中的最后一个关键字;如果是,执行步骤S804;如果否,执行步骤S805;
S804、确定所述第一语音中包括所述语音关键词;
S805、设置计数器的计数s为触发初始值;n++;返回执行步骤S802;
可选的,触发初始值即为上述步骤S502中所涉及到的所述阈值。可选的,所述触发初始值为30。
以上仅仅是本申请实施例提供的触发初始值的优选方式,发明人可根据自己的需求任意设置触发初始值的具体数值,在此不做限定。
S806、s--;
可选的,s--表示计数器的计数减一。
S807、判断计数器的计数s是否大于0;若是,返回执行步骤S802;若否,返执行步骤S801。
以上仅仅是本申请实施例提供的一种语音关键词识别方法的优选方式,具体的,发明人可根据自己的需求任意设置本申请实施例提供一种语音关键词识别方法的具体实现方式,在此不做限定。
通过上述对本申请实施例提供的一种语音关键词识别方法的详细介绍,使得本申请实施例提供的一种语音关键词识别方法更加清晰、完整,便于本领域技术人员理解。
上述本发明公开的实施例中详细描述了方法,对于本发明的方法可采用多种形式的装置实现,因此本发明还公开了一种装置,下面给出具体的实施例进行详细说明。
图9为本申请实施例提供的一种语音关键词识别装置的结构示意图。
如图9所示,该装置包括:
第一目标帧确定单元91,用于从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧;
目标关键字确定单元92,用于从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字;
匹配单元93,用于确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,所述关键字模板指示包括所述目标关键字的第二语音中的第二目标帧的隐层特征向量;
识别单元94,用于在匹配成功的情况下,若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功,确定所述第一语音中包括所述语音关键词。
进一步的,本申请实施例提供的一种语音关键词识别装置还包括:返回执行单元,用于:在匹配失败的情况下,返回执行“从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧”步骤。
本发明实施例提供第一目标帧确定单元91的一种可选结构。
可选的,第一目标帧确定单元91包括:
第一确定单元,用于确定构成第一语音的第一帧序列中的、第一个从未被确定为第一目标帧的帧;
第二确定单元,用于将所确定的帧,作为从构成所述第一语音的第一帧序列中确定的第一目标帧。
本发明实施例提供目标关键字确定单元92的一种可选结构。
可选的,目标关键字确定单元92包括:
第三确定单元,用于确定语音关键词包括的关键字序列中的,与最近一次匹配成功的关键字模板对应的关键字相邻的下一关键字;
第四确定单元,用于若所述下一关键字被连续确定为目标关键字的次数未达到预设的阈值,将所述下一关键字确定为目标关键字;
第五确定单元,用于若所述下一关键字被连续确定为目标关键字的次数达到所述阈值,将所述关键字序列中的第一个关键字确定为目标关键字。
进一步的,本申请实施例提供的一种语音关键词识别装置还包括:关键字模板生成单元。
本发明实施例提供的关键字模板生成单元的一种可选结构,请参见图10。
如图10所示,所述关键字模板生成单元,包括:
第二语音确定单元101,用于确定包括所述目标关键字的第二语音,所述第二语音由第二帧序列构成;
终层特征向量确定单元102,用于将所述第二语音作为预设的语音模型的输入信息,确定分别与所述第二帧序列中的每个帧对应的终层特征向量;
第二目标帧确定单元103,用于基于分别与每个帧对应的终层特征向量,从所述第二帧序列中确定第二目标帧;
关键字模板生成子单元104,用于根据将所述第二目标帧作为所述语音模型的输入信息所得到的与所述第二目标帧对应的隐层特征向量,生成与所述目标关键字对应的关键字模板。
在本申请实施例中,优选的,所述帧对应的终层特征向量,包括:所述帧分别与所述语音模型中预设的文字集中的每个文字之间的相似度,所述目标关键字为所述文件集中的一个文字;所述第二目标帧确定单元,具体用于:基于分别与每个帧对应的终层特征向量,从所述第二帧序列中选取与所述目标关键字的相似程度最高的帧作为第二目标帧;其中,帧与所述目标关键字的相似程度根据所述帧分别与所述文字集中的每个文字之间的相似度确定。
本发明实施例提供第二目标帧确定单元的一种可选结构,请参见图11。
如图11所示,所述第二目标帧确定单元,包括:
第一候选帧确定单元111,用于从所述第二帧序列中确定至少一个第一候选帧,所述第一候选帧与所述目标关键字的相似度小于所述第一候选帧与所述文字集中的至少一个文字的相似度,所述至少一个文字的个数小于预设数值;
第二候选帧确定单元112,用于从所述至少一个第一候选帧中确定至少一个第二候选帧,所述至少一个第二候选帧为所述至少一个第一候选帧中与所述目标关键字的相似度最大的各第一候选帧;
第二目标帧确定子单元113,用于从所述至少一个第二候选帧中确定第二目标帧,按照相似度从高到低的顺序,所述第二目标帧与所述目标关键字的相似度位于所述第二目标帧与各文字的相似度中的排名,高于除所述第二目标帧外的每个所述第二候选帧与所述目标关键字的相似度位于所述第二候选帧与各文字的相似度中的排名。
综上:
本发明实施例公开了一种语音关键词识别方法、装置、终端及服务器,通过从构成第一语音的第一帧序列中确定第一目标帧;从语音关键词包括的关键字序列中确定目标关键字;在确定目标帧的隐层特征向量与目标关键字对应的关键字模板匹配成功时(关键字模板指示包括目标关键字的第二语音中的第二目标帧的隐层特征向量),若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于第一语音中的帧的隐层特征向量与其匹配成功,确定第一语音中包括语音关键词的方式,有效实现了对第一语音中的语音关键词的识别。进一步的,便于使用语音唤醒技术的电子设备在识别出第一语音中包括语音关键词时,自动激活与所述语音关键词相应的处理模块。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (16)

1.一种语音关键词识别方法,其特征在于,包括:
从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧;
从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字;
确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,所述关键字模板指示包括所述目标关键字的第二语音中的第二目标帧的隐层特征向量;
在匹配成功的情况下,若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功,确定所述第一语音中包括所述语音关键词。
2.根据权利要求1所述的方法,其特征在于,在匹配失败的情况下,该方法还包括:
返回执行“从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧”步骤。
3.根据权利要求2所述的方法,其特征在于,所述从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧,包括:
确定构成第一语音的第一帧序列中的、第一个从未被确定为第一目标帧的帧;
将所确定的帧,作为从构成所述第一语音的第一帧序列中确定的第一目标帧。
4.根据权利要求3所述的方法,其特征在于,所述从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字,包括:
确定语音关键词包括的关键字序列中的,与最近一次匹配成功的关键字模板对应的关键字相邻的下一关键字;
若所述下一关键字被连续确定为目标关键字的次数未达到预设的阈值,将所述下一关键字确定为目标关键字;
若所述下一关键字被连续确定为目标关键字的次数达到所述阈值,将所述关键字序列中的第一个关键字确定为目标关键字。
5.根据权利要求2所述的方法,其特征在于,所述关键字模板的生成过程包括:
确定包括所述目标关键字的第二语音,所述第二语音由第二帧序列构成;
将所述第二语音作为预设的语音模型的输入信息,确定分别与所述第二帧序列中的每个帧对应的终层特征向量;
基于分别与每个帧对应的终层特征向量,从所述第二帧序列中确定第二目标帧;
根据将所述第二目标帧作为所述语音模型的输入信息所得到的与所述第二目标帧对应的隐层特征向量,生成与所述目标关键字对应的关键字模板。
6.根据权利要求5所述的方法,其特征在于,所述帧对应的终层特征向量,包括:所述帧分别与所述语音模型中预设的文字集中的每个文字之间的相似度,所述目标关键字为所述文件集中的一个文字;
所述基于分别与每个帧对应的终层特征向量,从所述第二帧序列中确定第二目标帧,包括:
基于分别与每个帧对应的终层特征向量,从所述第二帧序列中选取与所述目标关键字的相似程度最高的帧作为第二目标帧;其中,帧与所述目标关键字的相似程度根据所述帧分别与所述文字集中的每个文字之间的相似度确定。
7.根据权利要求6所述的方法,其特征在于,所述基于分别与每个帧对应的终层特征向量,从所述第二帧序列中选取与所述目标关键字的相似程度最高的帧作为第二目标帧,包括:
从所述第二帧序列中确定至少一个第一候选帧,所述第一候选帧与所述目标关键字的相似度小于所述第一候选帧与所述文字集中的至少一个文字的相似度,所述至少一个文字的个数小于预设数值;
从所述至少一个第一候选帧中确定至少一个第二候选帧,所述至少一个第二候选帧为所述至少一个第一候选帧中与所述目标关键字的相似度最大的各第一候选帧;
从所述至少一个第二候选帧中确定第二目标帧,按照相似度从高到低的顺序,所述第二目标帧与所述目标关键字的相似度位于所述第二目标帧与各文字的相似度中的排名,高于除所述第二目标帧外的每个所述第二候选帧与所述目标关键字的相似度位于所述第二候选帧与各文字的相似度中的排名。
8.一种语音关键词识别装置,其特征在于,包括:
第一目标帧确定单元,用于从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧;
目标关键字确定单元,用于从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字;
匹配单元,用于确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,所述关键字模板指示包括所述目标关键字的第二语音中的第二目标帧的隐层特征向量;
识别单元,用于在匹配成功的情况下,若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功,确定所述第一语音中包括所述语音关键词。
9.根据权利要求8所述的装置,其特征在于,还包括:返回执行单元,用于:在匹配失败的情况下,返回执行“从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧”步骤。
10.根据权利要求9所述的装置,其特征在于,所述第一目标帧确定单元,包括:
第一确定单元,用于确定构成第一语音的第一帧序列中的、第一个从未被确定为第一目标帧的帧;
第二确定单元,用于将所确定的帧,作为从构成所述第一语音的第一帧序列中确定的第一目标帧。
11.根据权利要求10所述的装置,其特征在于,所述目标关键字确定单元,包括:
第三确定单元,用于确定语音关键词包括的关键字序列中的,与最近一次匹配成功的关键字模板对应的关键字相邻的下一关键字;
第四确定单元,用于若所述下一关键字被连续确定为目标关键字的次数未达到预设的阈值,将所述下一关键字确定为目标关键字;
第五确定单元,用于若所述下一关键字被连续确定为目标关键字的次数达到所述阈值,将所述关键字序列中的第一个关键字确定为目标关键字。
12.根据权利要求9所述的装置,其特征在于,还包括关键字模板生成单元,所述关键字模板生成单元,包括:
第二语音确定单元,用于确定包括所述目标关键字的第二语音,所述第二语音由第二帧序列构成;
终层特征向量确定单元,用于将所述第二语音作为预设的语音模型的输入信息,确定分别与所述第二帧序列中的每个帧对应的终层特征向量;
第二目标帧确定单元,用于基于分别与每个帧对应的终层特征向量,从所述第二帧序列中确定第二目标帧;
关键字模板生成子单元,用于根据将所述第二目标帧作为所述语音模型的输入信息所得到的与所述第二目标帧对应的隐层特征向量,生成与所述目标关键字对应的关键字模板。
13.根据权利要求12所述的装置,其特征在于,所述帧对应的终层特征向量,包括:所述帧分别与所述语音模型中预设的文字集中的每个文字之间的相似度,所述目标关键字为所述文件集中的一个文字;
所述第二目标帧确定单元,具体用于:基于分别与每个帧对应的终层特征向量,从所述第二帧序列中选取与所述目标关键字的相似程度最高的帧作为第二目标帧;其中,帧与所述目标关键字的相似程度根据所述帧分别与所述文字集中的每个文字之间的相似度确定。
14.根据权利要求13所述的装置,其特征在于,所述第二目标帧确定单元,包括:
第一候选帧确定单元,用于从所述第二帧序列中确定至少一个第一候选帧,所述第一候选帧与所述目标关键字的相似度小于所述第一候选帧与所述文字集中的至少一个文字的相似度,所述至少一个文字的个数小于预设数值;
第二候选帧确定单元,用于从所述至少一个第一候选帧中确定至少一个第二候选帧,所述至少一个第二候选帧为所述至少一个第一候选帧中与所述目标关键字的相似度最大的各第一候选帧;
第二目标帧确定子单元,用于从所述至少一个第二候选帧中确定第二目标帧,按照相似度从高到低的顺序,所述第二目标帧与所述目标关键字的相似度位于所述第二目标帧与各文字的相似度中的排名,高于除所述第二目标帧外的每个所述第二候选帧与所述目标关键字的相似度位于所述第二候选帧与各文字的相似度中的排名。
15.一种终端,其特征在于,包括存储器和处理器,所述存储器用于存储程序,所述处理器调用所述程序,所述程序用于:
从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧;
从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字;
确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,所述关键字模板指示包括所述目标关键字的第二语音中的第二目标帧的隐层特征向量;
在匹配成功的情况下,若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功,确定所述第一语音中包括所述语音关键词。
16.一种语音关键词识别服务器,其特征在于,包括存储器和处理器,所述存储器用于存储程序,所述处理器调用所述程序,所述程序用于:
从构成第一语音的第一帧序列中选取一个帧确定为第一目标帧;
从语音关键词包括的关键字序列中选取一个关键字确定为目标关键字;
确定所述第一目标帧的隐层特征向量是否与所述目标关键字对应的关键字模板匹配成功,所述关键字模板指示包括所述目标关键字的第二语音中的第二目标帧的隐层特征向量;
在匹配成功的情况下,若逐一针对关键字序列中的每个关键字对应的关键字模板,均已确定出位于所述第一语音中的帧的隐层特征向量与其匹配成功,确定所述第一语音中包括所述语音关键词。
CN201710391388.6A 2017-05-27 2017-05-27 一种语音关键词识别方法、装置、终端及服务器 Active CN107230475B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201710391388.6A CN107230475B (zh) 2017-05-27 2017-05-27 一种语音关键词识别方法、装置、终端及服务器
CN201910759284.5A CN110444199B (zh) 2017-05-27 2017-05-27 一种语音关键词识别方法、装置、终端及服务器
CN201910774637.9A CN110349572B (zh) 2017-05-27 2017-05-27 一种语音关键词识别方法、装置、终端及服务器
PCT/CN2018/079769 WO2018219023A1 (zh) 2017-05-27 2018-03-21 一种语音关键词识别方法、装置、终端及服务器
TW107113595A TWI690919B (zh) 2017-05-27 2018-04-20 語音關鍵字識別方法、裝置、終端、伺服器、電腦可讀儲存介質及電腦程式產品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710391388.6A CN107230475B (zh) 2017-05-27 2017-05-27 一种语音关键词识别方法、装置、终端及服务器

Related Child Applications (2)

Application Number Title Priority Date Filing Date
CN201910774637.9A Division CN110349572B (zh) 2017-05-27 2017-05-27 一种语音关键词识别方法、装置、终端及服务器
CN201910759284.5A Division CN110444199B (zh) 2017-05-27 2017-05-27 一种语音关键词识别方法、装置、终端及服务器

Publications (2)

Publication Number Publication Date
CN107230475A true CN107230475A (zh) 2017-10-03
CN107230475B CN107230475B (zh) 2022-04-05

Family

ID=59934556

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201910774637.9A Active CN110349572B (zh) 2017-05-27 2017-05-27 一种语音关键词识别方法、装置、终端及服务器
CN201710391388.6A Active CN107230475B (zh) 2017-05-27 2017-05-27 一种语音关键词识别方法、装置、终端及服务器
CN201910759284.5A Active CN110444199B (zh) 2017-05-27 2017-05-27 一种语音关键词识别方法、装置、终端及服务器

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201910774637.9A Active CN110349572B (zh) 2017-05-27 2017-05-27 一种语音关键词识别方法、装置、终端及服务器

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201910759284.5A Active CN110444199B (zh) 2017-05-27 2017-05-27 一种语音关键词识别方法、装置、终端及服务器

Country Status (3)

Country Link
CN (3) CN110349572B (zh)
TW (1) TWI690919B (zh)
WO (1) WO2018219023A1 (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108305617A (zh) * 2018-01-31 2018-07-20 腾讯科技(深圳)有限公司 语音关键词的识别方法和装置
CN108492827A (zh) * 2018-04-02 2018-09-04 百度在线网络技术(北京)有限公司 应用程序的唤醒处理方法、装置及存储介质
CN108564941A (zh) * 2018-03-22 2018-09-21 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
CN108665900A (zh) * 2018-04-23 2018-10-16 百度在线网络技术(北京)有限公司 云端唤醒方法及系统、终端以及计算机可读存储介质
WO2018219023A1 (zh) * 2017-05-27 2018-12-06 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
CN109192224A (zh) * 2018-09-14 2019-01-11 科大讯飞股份有限公司 一种语音评测方法、装置、设备及可读存储介质
CN109215632A (zh) * 2018-09-30 2019-01-15 科大讯飞股份有限公司 一种语音评测方法、装置、设备及可读存储介质
CN109599124A (zh) * 2018-11-23 2019-04-09 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置及存储介质
CN110322871A (zh) * 2019-05-30 2019-10-11 清华大学 一种基于声学表征矢量的样例关键词检索方法
WO2019214361A1 (zh) * 2018-05-08 2019-11-14 腾讯科技(深圳)有限公司 语音信号中关键词的检测方法、装置、终端及存储介质
CN110648668A (zh) * 2019-09-24 2020-01-03 上海依图信息技术有限公司 关键词检测装置和方法
CN110706703A (zh) * 2019-10-16 2020-01-17 珠海格力电器股份有限公司 一种语音唤醒方法、装置、介质和设备
CN110827806A (zh) * 2019-10-17 2020-02-21 清华大学深圳国际研究生院 一种语音关键词检测方法及系统
CN111292753A (zh) * 2020-02-28 2020-06-16 广州国音智能科技有限公司 一种离线语音识别方法、装置和设备
CN112259101A (zh) * 2020-10-19 2021-01-22 腾讯科技(深圳)有限公司 语音关键词识别方法、装置、计算机设备和存储介质
CN112259077A (zh) * 2020-10-20 2021-01-22 网易(杭州)网络有限公司 语音识别方法、装置、终端和存储介质
US10964317B2 (en) 2017-07-05 2021-03-30 Baidu Online Network Technology (Beijing) Co., Ltd. Voice wakeup method, apparatus and system, cloud server and readable medium
CN112837680A (zh) * 2019-11-25 2021-05-25 马上消费金融股份有限公司 音频关键词检索方法、智能外呼方法及相关装置
CN116523970A (zh) * 2023-07-05 2023-08-01 之江实验室 基于二次隐式匹配的动态三维目标跟踪方法及装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111128138A (zh) * 2020-03-30 2020-05-08 深圳市友杰智新科技有限公司 语音唤醒方法、装置、计算机设备和存储介质
CN111723204B (zh) * 2020-06-15 2021-04-02 龙马智芯(珠海横琴)科技有限公司 语音质检区域的校正方法、装置、校正设备及存储介质
CN111798840B (zh) * 2020-07-16 2023-08-08 中移在线服务有限公司 语音关键词识别方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915729A (zh) * 2011-08-01 2013-02-06 佳能株式会社 语音关键词检出系统、创建用于其的词典的系统和方法
US20130197912A1 (en) * 2012-01-31 2013-08-01 Fujitsu Limited Specific call detecting device and specific call detecting method
CN105340006A (zh) * 2013-07-08 2016-02-17 高通股份有限公司 用于向语音操作功能分配关键字模型的方法和装置
CN105390139A (zh) * 2014-09-03 2016-03-09 联发科技股份有限公司 关键词辨认系统以及方法
CN105679316A (zh) * 2015-12-29 2016-06-15 深圳微服机器人科技有限公司 一种基于深度神经网络的语音关键词识别方法及装置
CN105740686A (zh) * 2016-01-28 2016-07-06 百度在线网络技术(北京)有限公司 应用的控制方法和装置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4224250B2 (ja) * 2002-04-17 2009-02-12 パイオニア株式会社 音声認識装置、音声認識方法および音声認識プログラム
CN101188110B (zh) * 2006-11-17 2011-01-26 陈健全 提高文本和语音匹配效率的方法
CN101593519B (zh) * 2008-05-29 2012-09-19 夏普株式会社 检测语音关键词的方法和设备及检索方法和系统
CN102053993B (zh) * 2009-11-10 2014-04-09 阿里巴巴集团控股有限公司 一种文本过滤方法及文本过滤系统
CN102081638A (zh) * 2010-01-29 2011-06-01 蓝盾信息安全技术股份有限公司 一种匹配关键词的方法及装置
KR101493006B1 (ko) * 2013-03-21 2015-02-13 디노플러스 (주) 멀티미디어 콘텐츠 편집장치 및 그 방법
US20140337030A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Adaptive audio frame processing for keyword detection
CN104143328B (zh) * 2013-08-15 2015-11-25 腾讯科技(深圳)有限公司 一种关键词检测方法和装置
CN104143329B (zh) * 2013-08-19 2015-10-21 腾讯科技(深圳)有限公司 进行语音关键词检索的方法及装置
CN103577548B (zh) * 2013-10-12 2017-02-08 优视科技有限公司 近音文字匹配方法及装置
CN104766608A (zh) * 2014-01-07 2015-07-08 深圳市中兴微电子技术有限公司 一种语音控制方法及装置
WO2016112113A1 (en) * 2015-01-07 2016-07-14 Knowles Electronics, Llc Utilizing digital microphones for low power keyword detection and noise suppression
US20160284349A1 (en) * 2015-03-26 2016-09-29 Binuraj Ravindran Method and system of environment sensitive automatic speech recognition
US9990917B2 (en) * 2015-04-13 2018-06-05 Intel Corporation Method and system of random access compression of transducer data for automatic speech recognition decoding
CN106161755A (zh) * 2015-04-20 2016-11-23 钰太芯微电子科技(上海)有限公司 一种关键词语音唤醒系统及唤醒方法及移动终端
CN106297776B (zh) * 2015-05-22 2019-07-09 中国科学院声学研究所 一种基于音频模板的语音关键词检索方法
CN105117384A (zh) * 2015-08-19 2015-12-02 小米科技有限责任公司 分类器训练方法、类型识别方法及装置
US20170061959A1 (en) * 2015-09-01 2017-03-02 Disney Enterprises, Inc. Systems and Methods For Detecting Keywords in Multi-Speaker Environments
TWI639153B (zh) * 2015-11-03 2018-10-21 絡達科技股份有限公司 電子裝置及其透過語音辨識喚醒的方法
CN105575386B (zh) * 2015-12-18 2019-07-30 百度在线网络技术(北京)有限公司 语音识别方法和装置
US9805714B2 (en) * 2016-03-22 2017-10-31 Asustek Computer Inc. Directional keyword verification method applicable to electronic device and electronic device using the same
CN105930413A (zh) * 2016-04-18 2016-09-07 北京百度网讯科技有限公司 相似度模型参数的训练方法、搜索处理方法及对应装置
CN110349572B (zh) * 2017-05-27 2021-10-22 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915729A (zh) * 2011-08-01 2013-02-06 佳能株式会社 语音关键词检出系统、创建用于其的词典的系统和方法
US20130197912A1 (en) * 2012-01-31 2013-08-01 Fujitsu Limited Specific call detecting device and specific call detecting method
CN105340006A (zh) * 2013-07-08 2016-02-17 高通股份有限公司 用于向语音操作功能分配关键字模型的方法和装置
CN105390139A (zh) * 2014-09-03 2016-03-09 联发科技股份有限公司 关键词辨认系统以及方法
CN105679316A (zh) * 2015-12-29 2016-06-15 深圳微服机器人科技有限公司 一种基于深度神经网络的语音关键词识别方法及装置
CN105740686A (zh) * 2016-01-28 2016-07-06 百度在线网络技术(北京)有限公司 应用的控制方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KATE M. KNILL,等: "Language Independent and Unsupervised Acoustic Models for Speech Recognition and Keyword Spotting", 《INTERSPEECH》 *
秦磊,等: "连续语音关键字识别的方法", 《中国科技信息》 *

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018219023A1 (zh) * 2017-05-27 2018-12-06 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
US10964317B2 (en) 2017-07-05 2021-03-30 Baidu Online Network Technology (Beijing) Co., Ltd. Voice wakeup method, apparatus and system, cloud server and readable medium
CN108305617B (zh) * 2018-01-31 2020-09-08 腾讯科技(深圳)有限公司 语音关键词的识别方法和装置
CN110444195B (zh) * 2018-01-31 2021-12-14 腾讯科技(深圳)有限公司 语音关键词的识别方法和装置
CN110444195A (zh) * 2018-01-31 2019-11-12 腾讯科技(深圳)有限公司 语音关键词的识别方法和装置
CN110444193A (zh) * 2018-01-31 2019-11-12 腾讯科技(深圳)有限公司 语音关键词的识别方法和装置
CN108305617A (zh) * 2018-01-31 2018-07-20 腾讯科技(深圳)有限公司 语音关键词的识别方法和装置
US11222623B2 (en) 2018-01-31 2022-01-11 Tencent Technology (Shenzhen) Company Limited Speech keyword recognition method and apparatus, computer-readable storage medium, and computer device
CN108564941A (zh) * 2018-03-22 2018-09-21 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
US11450312B2 (en) 2018-03-22 2022-09-20 Tencent Technology (Shenzhen) Company Limited Speech recognition method, apparatus, and device, and storage medium
CN108564941B (zh) * 2018-03-22 2020-06-02 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
CN108492827A (zh) * 2018-04-02 2018-09-04 百度在线网络技术(北京)有限公司 应用程序的唤醒处理方法、装置及存储介质
US11037560B2 (en) 2018-04-02 2021-06-15 Baidu Online Network Technology (Beijing) Co., Ltd.X Method, apparatus and storage medium for wake up processing of application
US11574632B2 (en) 2018-04-23 2023-02-07 Baidu Online Network Technology (Beijing) Co., Ltd. In-cloud wake-up method and system, terminal and computer-readable storage medium
CN108665900A (zh) * 2018-04-23 2018-10-16 百度在线网络技术(北京)有限公司 云端唤醒方法及系统、终端以及计算机可读存储介质
CN108665900B (zh) * 2018-04-23 2020-03-03 百度在线网络技术(北京)有限公司 云端唤醒方法及系统、终端以及计算机可读存储介质
WO2019214361A1 (zh) * 2018-05-08 2019-11-14 腾讯科技(深圳)有限公司 语音信号中关键词的检测方法、装置、终端及存储介质
US11341957B2 (en) 2018-05-08 2022-05-24 Tencent Technology (Shenzhen) Company Limited Method for detecting keyword in speech signal, terminal, and storage medium
CN109192224B (zh) * 2018-09-14 2021-08-17 科大讯飞股份有限公司 一种语音评测方法、装置、设备及可读存储介质
CN109192224A (zh) * 2018-09-14 2019-01-11 科大讯飞股份有限公司 一种语音评测方法、装置、设备及可读存储介质
CN109215632A (zh) * 2018-09-30 2019-01-15 科大讯飞股份有限公司 一种语音评测方法、装置、设备及可读存储介质
CN109599124B (zh) * 2018-11-23 2023-01-10 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置及存储介质
CN109599124A (zh) * 2018-11-23 2019-04-09 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置及存储介质
CN110322871A (zh) * 2019-05-30 2019-10-11 清华大学 一种基于声学表征矢量的样例关键词检索方法
CN110648668A (zh) * 2019-09-24 2020-01-03 上海依图信息技术有限公司 关键词检测装置和方法
CN110706703A (zh) * 2019-10-16 2020-01-17 珠海格力电器股份有限公司 一种语音唤醒方法、装置、介质和设备
CN110827806B (zh) * 2019-10-17 2022-01-28 清华大学深圳国际研究生院 一种语音关键词检测方法及系统
CN110827806A (zh) * 2019-10-17 2020-02-21 清华大学深圳国际研究生院 一种语音关键词检测方法及系统
CN112837680A (zh) * 2019-11-25 2021-05-25 马上消费金融股份有限公司 音频关键词检索方法、智能外呼方法及相关装置
CN111292753A (zh) * 2020-02-28 2020-06-16 广州国音智能科技有限公司 一种离线语音识别方法、装置和设备
CN112259101B (zh) * 2020-10-19 2022-09-23 腾讯科技(深圳)有限公司 语音关键词识别方法、装置、计算机设备和存储介质
CN112259101A (zh) * 2020-10-19 2021-01-22 腾讯科技(深圳)有限公司 语音关键词识别方法、装置、计算机设备和存储介质
CN112259077A (zh) * 2020-10-20 2021-01-22 网易(杭州)网络有限公司 语音识别方法、装置、终端和存储介质
CN112259077B (zh) * 2020-10-20 2024-04-09 网易(杭州)网络有限公司 语音识别方法、装置、终端和存储介质
CN116523970A (zh) * 2023-07-05 2023-08-01 之江实验室 基于二次隐式匹配的动态三维目标跟踪方法及装置
CN116523970B (zh) * 2023-07-05 2023-10-20 之江实验室 基于二次隐式匹配的动态三维目标跟踪方法及装置

Also Published As

Publication number Publication date
TWI690919B (zh) 2020-04-11
CN110349572B (zh) 2021-10-22
WO2018219023A1 (zh) 2018-12-06
CN110444199B (zh) 2022-01-07
CN110349572A (zh) 2019-10-18
CN107230475B (zh) 2022-04-05
CN110444199A (zh) 2019-11-12
TW201832221A (zh) 2018-09-01

Similar Documents

Publication Publication Date Title
CN107230475A (zh) 一种语音关键词识别方法、装置、终端及服务器
CN108076154B (zh) 应用信息推荐方法、装置及存储介质和服务器
TWI666558B (zh) 語意分析方法、語意分析系統及非暫態電腦可讀取媒體
CN108595519A (zh) 热点事件分类方法、装置及存储介质
CN107688398B (zh) 确定候选输入的方法和装置及输入提示方法和装置
CN106202153A (zh) 一种es搜索引擎的拼写纠错方法及系统
TW202119288A (zh) 圖像分類模型訓練方法、影像處理方法、資料分類模型訓練方法、資料處理方法、電腦設備、儲存媒介
WO2020151690A1 (zh) 语句生成方法、装置、设备及存储介质
CN110399488B (zh) 文本分类方法及装置
WO2015021937A1 (zh) 用户推荐方法和装置
WO2021135457A1 (zh) 基于循环神经网络的情绪识别方法、装置及存储介质
CN108960574A (zh) 问答的质量确定方法、装置、服务器和存储介质
CN104679769A (zh) 对产品的使用场景进行分类的方法及装置
CN107506296A (zh) 一种输入法测试方法、装置、电子设备及存储介质
CN109215630A (zh) 实时语音识别方法、装置、设备及存储介质
CN109344396A (zh) 文本识别方法、装置、及计算机设备
CN110046944A (zh) 基于区块链的发票创建方法和装置、电子设备
CN108345612A (zh) 一种问题处理方法和装置、一种用于问题处理的装置
CN109710732A (zh) 信息查询方法、装置、存储介质和电子设备
CN109784367A (zh) 用户画像方法、装置、计算机可读存储介质及电子设备
CN107102744A (zh) 一种输入词汇的推荐方法和电子设备
CN105159927B (zh) 目标文本主题词的选取方法、装置及终端
CN108803890A (zh) 一种输入方法、输入装置和用于输入的装置
CN111062209A (zh) 自然语言处理模型训练方法和自然语言处理模型
CN114328798A (zh) 搜索文本的处理方法、装置、设备、存储介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant