CN104143329B - 进行语音关键词检索的方法及装置 - Google Patents

进行语音关键词检索的方法及装置 Download PDF

Info

Publication number
CN104143329B
CN104143329B CN201310361835.5A CN201310361835A CN104143329B CN 104143329 B CN104143329 B CN 104143329B CN 201310361835 A CN201310361835 A CN 201310361835A CN 104143329 B CN104143329 B CN 104143329B
Authority
CN
China
Prior art keywords
model
languages
keyword
decoded
cognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310361835.5A
Other languages
English (en)
Other versions
CN104143329A (zh
Inventor
马建雄
李露
卢鲤
张翔
岳帅
饶丰
王尔玉
孔令挥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310361835.5A priority Critical patent/CN104143329B/zh
Priority to PCT/CN2014/083531 priority patent/WO2015024431A1/en
Publication of CN104143329A publication Critical patent/CN104143329A/zh
Priority to US14/620,000 priority patent/US9355637B2/en
Application granted granted Critical
Publication of CN104143329B publication Critical patent/CN104143329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

本发明公开了进行语音关键词检索的方法及装置,其中,该方法在模型文件中配置至少两类语种模型,每类语种模型包含识别模型及对应的解码模型;该方法包括:接收待处理语音数据,对待处理语音数据进行语音特征抽取;逐个采用模型文件中的识别模型,对抽取的语音特征进行语种匹配,确定出语种匹配率最高的识别模型;并从语种模型中确定与匹配率最高的识别模型对应的解码模型;采用确定的解码模型对抽取的语音特征进行解码,得到解码后的字词识别结果;将关键词词典中的关键词与字词识别结果进行匹配,输出匹配成功的关键词。本发明方案能够支持至少两种语言的关键词检索,节省成本。

Description

进行语音关键词检索的方法及装置
技术领域
本发明涉及信息处理技术,尤其涉及进行语音关键词检索的方法及装置。
背景技术
语音识别技术中,常需要对一段语音进行检索,以确定其是否包含关注的关键词。例如,对会议录音,需要确定其是否为关于计算机的会议,通过检索录音中是否包含“显示器”、“键盘”等关键词进行确定。
语音关键词检测的应用现在越来越广泛,但大部分都是针对普通话或者其他特定的某一方言进行,局限性较大。现有语音关键词检索方案中,只针对某一类语种进行关键词检索,将针对该语种的检索算法与语种模型融合在一起,检测算法负责整个检索过程,其中会调用语种模型进行语种识别和解码,解码后,将判别解码结果中是否有关注的关键词,如果有,则输出相应的关键词;如果语音数据不属于该语种,则无法进行识别,需要采用能识别相应语种的另一检测算法对其重新进行关键词检索。
综上,现有技术中,语音关键词检索方案只支持某一特定语种的处理,每类语种分别有各自完整的语音关键词检索方案,其局限性很大,且成本较高。
发明内容
本发明提供了一种进行语音关键词检索的方法及装置,该方法能够支持至少两种语言的关键词检索,节省成本。
本发明提供了一种进行语音关键词检索的方法及装置,该装置能够支持至少两种语言的关键词检索,节省成本。
一种进行语音关键词检索的方法,该方法在模型文件中配置至少两类语种模型,每类语种模型包含识别模型及对应的解码模型;该方法包括:
接收待处理语音数据,对待处理语音数据进行语音特征抽取;
逐个采用模型文件中的识别模型,对抽取的语音特征进行语种匹配,确定出语种匹配率最高的识别模型;并从语种模型中确定与匹配率最高的识别模型对应的解码模型;
采用确定的解码模型对抽取的语音特征进行解码,得到解码后的字词识别结果;
将关键词词典中的关键词与字词识别结果进行匹配,输出匹配成功的关键词。
较佳地,当需要进行语种扩展时,该方法还包括:
训练创建新的识别模型和解码模型;
在模型文件中增加语种模型,包含创建的识别模型及对应的解码模型。
较佳地,所述对待处理语音数据进行语音特征抽取包括:
对待处理语音数据进行语音波形处理,从语音波形中提取随时间变化的语音特征序列,提取的语音特征具有区分性。
较佳地,所述采用确定的解码模型对抽取的语音特征进行解码,包括:
采用确定的解码模型对抽取的每一帧语音特征在搜索网络中搜索最佳匹配路径,得到词网,作为解码后的字词识别结果;所述词网包含开始节点和结束节点,以及开始节点和结束节点之间的中间节点,每个节点代表一个时间段对应的词。
较佳地,所述将关键词词典中的关键词与字词识别结果进行匹配,包括:
将最佳匹配路径的词网进行最小错误的对齐操作,生成混淆网络,所述混淆网络按照时间进行排序,给出每个时间段的字词识别结果及字词识别结果的概率;
将关键词词典中的关键词对混淆网络中的各字词识别结果进行匹配,确定出匹配成功的字词识别结果,作为匹配成功的关键词。一种进行语音关键词检索的装置,该装置包括模型文件配置单元、特征抽取单元、语种识别单元、解码单元和关键词搜索单元;
所述模型文件配置单元,在模型文件中配置至少两类语种模型,每类语种模型包含识别模型及对应的解码模型;
所述特征抽取单元,接收待处理语音数据,对待处理语音数据进行语音特征抽取,将抽取的语音特征发送给所述语种识别单元;
所述语种识别单元,逐个采用模型文件中的识别模型,对抽取的语音特征进行语种匹配,确定出语种匹配率最高的识别模型;并从语种模型中确定与匹配率最高的识别模型对应的解码模型,将抽取的语音特征发送给解码单元;
所述解码单元,采用确定的解码模型对抽取的语音特征进行解码,得到解码后的字词识别结果,发送给所述关键词搜索单元;
所述关键词搜索单元,将关键词词典中的关键词与字词识别结果进行匹配,输出匹配成功的关键词。
较佳地,该装置还包括语种扩展单元,训练创建新的识别模型和解码模型,在模型文件中增加语种模型,包含创建的识别模型及对应的解码模型。
较佳地,所述特征抽取单元包括特征抽取模块,对待处理语音数据进行语音波形处理,从语音波形中提取随时间变化的语音特征序列,提取的语音特征具有区分性。
较佳地,所述解码单元包括路径搜索模块,对每一帧语音特征在搜索网络中搜索最佳匹配路径,得到词网,作为解码后的字词识别结果;所述词网包含开始节点和结束节点,以及开始节点和结束节点之间的中间节点,每个节点代表一个时间段对应的词。
较佳地,所述关键词搜索单元包括混淆网络生成模块和关键词匹配模块;
所述混淆网络生成模块,将最佳匹配路径的词网进行最小错误的对齐操作,生成混淆网络,所述混淆网络按照时间进行排序,给出每个时间段的字词识别结果及字词识别结果的概率;
所述关键词匹配模块,将关键词词典中的关键词对混淆网络中的各字词识别结果进行匹配,确定出匹配成功的字词识别结果,作为匹配成功的关键词。
从上述方案可以看出,本发明中,在模型文件中配置至少两类语种模型,每类语种模型包含识别模型及对应的解码模型;当需要进行关键词检索时,对待处理语音数据进行语音特征抽取;逐个采用模型文件中的识别模型,对抽取的语音特征进行语种匹配,确定出语种匹配率最高的识别模型;并从语种模型中确定与匹配率最高的识别模型对应的解码模型,进行解码后得到解码后的字词识别结果;将关键词词典中的关键词与字词识别结果进行匹配,输出匹配成功的关键词。采用本发明方案,根据实际需要,可以在模型文件中配置至少两类语种模型,实现在一个检索方案中对两类以上的语种进行关键词检索,从而,解决了现有技术只支持针对某一特定语种进行处理的缺陷,并且,节省了成本。
附图说明
图1为本发明进行语音关键词检索的方法示意性流程图;
图2为本发明进行语音关键词检索的方法流程图实例;
图3为本发明进行语音关键词检索的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明进一步详细说明。
本发明设置模型文件,在模型文件中配置至少两类语种模型,并基于模型文件进行语音关键词检索,以实现在一个检索方案中对两类以上语种进行处理。
参见图1,为本发明进行语音关键词检索的方法示意性流程图,该方法预先设置模型文件,在模型文件中配置至少两类语种模型,每类语种模型包含识别模型及对应的解码模型;每个识别模型对某一特征语种的语音进行识别,确定为本识别模型支持的语种后,发送给与本识别模型对应的解码模型进行解码。
图1的流程包括以下步骤:
步骤101,接收待处理语音数据,对待处理语音数据进行语音特征抽取。
实现时,本步骤具体包括:对待处理语音数据进行语音波形处理,从语音波形中提取随时间变化的语音特征序列,提取的语音特征具有区分性。
步骤102,逐个采用模型文件中的识别模型,对抽取的语音特征进行语种匹配,确定出语种匹配率最高的识别模型;并从语种模型中确定与匹配率最高的识别模型对应的解码模型。
识别模型用于对语音进行语种识别,以确定是否为本识别模型能够识别的语种。
步骤103,采用确定的解码模型对抽取的语音特征进行解码,得到解码后的字词识别结果。
实现时,本步骤可具体包括:采用确定的解码模型对抽取的每一帧语音特征在搜索网络中搜索最佳匹配路径,得到最可能的识别结果,作为解码后的识别结果,识别结果为至少一个。
所述搜索网络具体如加权有限状态转换机(WFST,Weighted Finite StateTransducers)搜索网络,WFST搜索网络是一张合成了声学模型、语言模型以及词表的搜索网络,解码模型将依据该WFST搜索网络进行解码计算,最终输出经过一定裁剪后的词网,该词网拥有一个开始节点和一个结束节点,以及开始节点和结束节点之间的中间节点,每个节点代表某一时间段可能的词,从开始节点到结束节点之间有至少一条路径,每条路径代表一个识别结果。
例如,某实例中,从开始节点到结束节点之间有两条路径,其中一条路径有5个节点,从开始节点到结束节点的节点序列对应的词为‘我’,‘们’,‘吃’,‘饭’,‘吧’,也就是识别结果为“我们吃饭吧“;另一条路径也有5个节点,从开始节点到结束节点的节点序列对应的词为‘我’,‘们’,‘迟’,‘饭’,‘吧’,也就是,另一种识别结果为“我们迟饭吧”。
步骤104,将关键词词典中的关键词与字词识别结果进行匹配,输出匹配成功的关键词。
如果步骤103得到的字词识别结果,是在搜索网络中搜索出的最佳匹配路径;相应地,本步骤体包括:
将最佳匹配路径的词网进行最小错误的对齐操作,生成混淆网络,所述混淆网络按照时间进行排序,给出每个时间段的字词识别结果及字词识别结果的概率;将关键词词典中的关键词对混淆网络中的各字词识别结果进行匹配,确定出匹配成功的字词识别结果,作为匹配成功的关键词。
最小错误的对齐操作为现有技术,该技术能够对最佳匹配路径的词网进行分析,确定出某一时间段可能对应的多种识别结果,并能给出各字词识别结果的概率。仍然以前述“我们吃饭吧”及“我们迟饭吧”的实例进行说明,采用最小错误的对其操作之后,确定出第1、2节点对应的识别结果为‘我’、‘们’;第3节点对应的识别结果为‘吃’和‘迟’,并给出为‘吃’、‘迟’的概率;第4、5节点对应的识别结果为‘饭’、‘吧’。如果开始节点与结束节点之间只有一条路径,则无需采用最小错误对齐操作进行分析处理。
关键词词典中包含了关注的关键词,将关键词词典中的所有关键词分别与各字词识别结果进行匹配,如果相同,则确定为匹配成功的字词识别结果。如果关键词词典中包含“吃饭”、“蔬菜”、“素食”,则针对上述的实例,匹配后输出的关键词为“吃饭”。
本发明中,在模型文件中配置至少两类语种模型,每类语种模型包含识别模型及对应的解码模型;当需要进行关键词检索时,对待处理语音数据进行语音特征抽取;逐个采用模型文件中的识别模型,对抽取的语音特征进行语种匹配,确定出语种匹配率最高的识别模型;并从语种模型中确定与匹配率最高的识别模型对应的解码模型,进行解码后得到解码后的字词识别结果;将关键词词典中的关键词与字词识别结果进行匹配,输出匹配成功的关键词。采用本发明方案,根据实际需要,可以在模型文件中配置至少两类语种模型,实现对两类以上的语种进行关键词检索,从而,解决了现有技术只支持针对某一特定语种进行处理的缺陷,并且,节省了成本。
现有语音关键词检索方案中,只针对某一类语种进行关键词检索,具体实现时,将针对该语种的检测算法和语种模型融合在一起,这样处理缺乏可扩展性,即当有其他方言的需求时无法动态支持。采用本发明方案后,当需要进行语种扩展时,训练创建针对该语种的识别模型和解码模型;在模型文件中增加语种模型,增加的语种模型包含创建的识别模型及对应的解码模型。这样,后续便可结合新增的语种模型进行关键词检索。
下面通过图2的流程对本发明进行语音关键词检索的方法进行实例说明,模型文件中已配置了关于语种A和B的两类语种模型,每类语种模型包含识别模型及对应的解码模型,该方法包括以下步骤:
步骤201,接收关于语种C的扩展指令。
步骤202,训练创建关于语种C的识别模型C和解码模型C,在模型文件中增加语种模型C,其中包含创建的识别模型C及解码模型C。
训练关于某语种的识别模型和解码模型,可采用现有方案实现,这里不赘述。
步骤203,接收待处理语音数据,对待处理语音数据进行语音特征抽取。
该过程目的是从语音波形中提取随时间变化的语音特征序列,提取的特征参数能有效地代表语音特征,具有很好的区分性,作为后续处理的基础数据。
步骤204,分别采用模型文件中的识别模型A、识别模型B和识别模型C,对抽取的语音特征进行语种匹配,确定出语种匹配率最高的识别模型;并从语种模型中确定与匹配率最高的识别模型对应的解码模型。
本实例中,假设匹配率最高的为识别模型C,对应着解码模型C。识别模型对语音特征的识别,可采用现有方案实现。
步骤205,采用解码模型C对抽取的语音特征进行解码,得到解码后的字词识别结果。
解码模型,是针对相应语种的语音进行解码过程中使用的模型;解码模型采用声学模型、语言模型以及词表组合而成,可对抽取的语音特征进行解析,生成经过一定裁剪后的词网,后续算法在此搜索网络中进行计算以得到最后的关键词结果。解码模型对语音特征的解码,可采用现有方案实现。
步骤206,将关键词词典中的关键词与字词识别结果进行匹配,输出匹配成功的关键词。
本实例将关键词检索的算法与模型分离,从而使动态扩展方言支持成为可能。在需要支持新的方言时,只需要针对新的方言训练新的模型,并进行配置即可支持新的方言关键词检测。相比现有将检索算法与语种模型高度融合的方案,其扩展性是其最大的特点,可以根据实际需求灵活增加或者取消对特定语种的支持,也降低了因需求而不断升级的成本。另外可维护性也具有一定的优势,将检测算法与语种模型分离是两个部分功能明确,结构更加清晰,部署相对也简单。
参见图3,为本发明进行语音关键词检索的装置结构示意图,该装置包括模型文件配置单元、特征抽取单元、语种识别单元、解码单元和关键词搜索单元;
所述模型文件配置单元,在模型文件中配置至少两类语种模型,每类语种模型包含识别模型及对应的解码模型;
所述特征抽取单元,接收待处理语音数据,对待处理语音数据进行语音特征抽取,将抽取的语音特征发送给所述语种识别单元;
所述语种识别单元,逐个采用模型文件中的识别模型,对抽取的语音特征进行语种匹配,确定出语种匹配率最高的识别模型;并从语种模型中确定与匹配率最高的识别模型对应的解码模型,将抽取的语音特征发送给解码单元;
所述解码单元,采用确定的解码模型对抽取的语音特征进行解码,得到解码后的字词识别结果,发送给所述关键词搜索单元;
所述关键词搜索单元,将关键词词典中的关键词与字词识别结果进行匹配,输出匹配成功的关键词。
较佳地,该装置还包括语种扩展单元,训练创建新的识别模型和解码模型,在模型文件中增加语种模型,包含创建的识别模型及对应的解码模型。
较佳地,所述特征抽取单元包括特征抽取模块,对待处理语音数据进行语音波形处理,从语音波形中提取随时间变化的语音特征序列,提取的语音特征具有区分性。
较佳地,所述解码单元包括路径搜索模块,采用确定的解码模型对抽取的每一帧语音特征在搜索网络中搜索最佳匹配路径,得到词网,作为解码后的字词识别结果;所述词网包含开始节点和结束节点,以及开始节点和结束节点之间的中间节点,每个节点代表一个时间段对应的词。
较佳地,所述关键词搜索单元包括混淆网络生成模块和关键词匹配模块;
所述混淆网络生成模块,将最佳匹配路径的词网进行最小错误的对齐操作,生成混淆网络,所述混淆网络按照时间进行排序,给出每个时间段的字词识别结果及字词识别结果的概率;
所述关键词匹配模块,将关键词词典中的关键词对混淆网络中的各字词识别结果进行匹配,确定出匹配成功的字词识别结果,作为匹配成功的关键词。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种进行语音关键词检索的方法,其特征在于,在模型文件中配置至少两类语种模型,每类语种模型包含识别模型及对应的解码模型;该方法包括:
接收待处理语音数据,对待处理语音数据进行语音特征抽取;
逐个采用模型文件中的识别模型,对抽取的语音特征进行语种匹配,确定出语种匹配率最高的识别模型;并从语种模型中确定与匹配率最高的识别模型对应的解码模型;
采用确定的解码模型对抽取的语音特征进行解码,得到解码后的字词识别结果;
将关键词词典中的关键词与字词识别结果进行匹配,输出匹配成功的关键词,实现在一个检索方案中对两类以上的语种进行关键词检索。
2.如权利要求1所述的方法,其特征在于,当需要进行语种扩展时,该方法还包括:
训练创建新的识别模型和解码模型;
在模型文件中增加语种模型,包含创建的识别模型及对应的解码模型。
3.如权利要求1所述的方法,其特征在于,所述对待处理语音数据进行语音特征抽取包括:
对待处理语音数据进行语音波形处理,从语音波形中提取随时间变化的语音特征序列,提取的语音特征具有区分性。
4.如权利要求1、2或3所述的方法,其特征在于,所述采用确定的解码模型对抽取的语音特征进行解码,包括:
采用确定的解码模型对抽取的每一帧语音特征在搜索网络中搜索最佳匹配路径,得到词网,作为解码后的字词识别结果;所述词网包含开始节点和结束节点,以及开始节点和结束节点之间的中间节点,每个节点代表一个时间段对应的词。
5.如权利要求4所述的方法,其特征在于,所述将关键词词典中的关键词与字词识别结果进行匹配,包括:
将最佳匹配路径的词网进行最小错误的对齐操作,生成混淆网络,所述混淆网络按照时间进行排序,给出每个时间段的字词识别结果及字词识别结果的概率;
将关键词词典中的关键词对混淆网络中的各字词识别结果进行匹配,确定出匹配成功的字词识别结果,作为匹配成功的关键词。
6.一种进行语音关键词检索的装置,其特征在于,该装置包括模型文件配置单元、特征抽取单元、语种识别单元、解码单元和关键词搜索单元;
所述模型文件配置单元,在模型文件中配置至少两类语种模型,每类语种模型包含识别模型及对应的解码模型;
所述特征抽取单元,接收待处理语音数据,对待处理语音数据进行语音特征抽取,将抽取的语音特征发送给所述语种识别单元;
所述语种识别单元,逐个采用模型文件中的识别模型,对抽取的语音特征进行语种匹配,确定出语种匹配率最高的识别模型;并从语种模型中确定与匹配率最高的识别模型对应的解码模型,将抽取的语音特征发送给解码单元;
所述解码单元,采用确定的解码模型对抽取的语音特征进行解码,得到解码后的字词识别结果,发送给所述关键词搜索单元;
所述关键词搜索单元,将关键词词典中的关键词与字词识别结果进行匹配,输出匹配成功的关键词,实现在一个检索方案中对两类以上的语种进行关键词检索。
7.如权利要求6所述的装置,其特征在于,该装置还包括语种扩展单元,训练创建新的识别模型和解码模型,在模型文件中增加语种模型,包含创建的识别模型及对应的解码模型。
8.如权利要求6所述的装置,其特征在于,所述特征抽取单元包括特征抽取模块,对待处理语音数据进行语音波形处理,从语音波形中提取随时间变化的语音特征序列,提取的语音特征具有区分性。
9.如权利要求6、7或8所述的装置,其特征在于,所述解码单元包括路径搜索模块,对每一帧语音特征在搜索网络中搜索最佳匹配路径,得到词网,作为解码后的字词识别结果;所述词网包含开始节点和结束节点,以及开始节点和结束节点之间的中间节点,每个节点代表一个时间段对应的词。
10.如权利要求9所述的装置,其特征在于,所述关键词搜索单元包括混淆网络生成模块和关键词匹配模块;
所述混淆网络生成模块,将最佳匹配路径的词网进行最小错误的对齐操作,生成混淆网络,所述混淆网络按照时间进行排序,给出每个时间段的字词识别结果及字词识别结果的概率;
所述关键词匹配模块,将关键词词典中的关键词对混淆网络中的各字词识别结果进行匹配,确定出匹配成功的字词识别结果,作为匹配成功的关键词。
CN201310361835.5A 2013-08-19 2013-08-19 进行语音关键词检索的方法及装置 Active CN104143329B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310361835.5A CN104143329B (zh) 2013-08-19 2013-08-19 进行语音关键词检索的方法及装置
PCT/CN2014/083531 WO2015024431A1 (en) 2013-08-19 2014-08-01 Method and apparatus for performing speech keyword retrieval
US14/620,000 US9355637B2 (en) 2013-08-19 2015-02-11 Method and apparatus for performing speech keyword retrieval

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310361835.5A CN104143329B (zh) 2013-08-19 2013-08-19 进行语音关键词检索的方法及装置

Publications (2)

Publication Number Publication Date
CN104143329A CN104143329A (zh) 2014-11-12
CN104143329B true CN104143329B (zh) 2015-10-21

Family

ID=51852487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310361835.5A Active CN104143329B (zh) 2013-08-19 2013-08-19 进行语音关键词检索的方法及装置

Country Status (3)

Country Link
US (1) US9355637B2 (zh)
CN (1) CN104143329B (zh)
WO (1) WO2015024431A1 (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971678B (zh) * 2013-01-29 2015-08-12 腾讯科技(深圳)有限公司 关键词检测方法和装置
US9704482B2 (en) * 2015-03-11 2017-07-11 International Business Machines Corporation Method and system for order-free spoken term detection
CN104715752B (zh) * 2015-04-09 2019-01-08 刘文军 语音识别方法、装置及系统
CN105185375B (zh) * 2015-08-10 2019-03-08 联想(北京)有限公司 一种信息处理方法和电子设备
US9858918B2 (en) * 2016-03-15 2018-01-02 GM Global Technology Operations LLC Root cause analysis and recovery systems and methods
US10217458B2 (en) * 2016-09-23 2019-02-26 Intel Corporation Technologies for improved keyword spotting
CN110444199B (zh) * 2017-05-27 2022-01-07 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
WO2018232591A1 (en) * 2017-06-20 2018-12-27 Microsoft Technology Licensing, Llc. SEQUENCE RECOGNITION PROCESSING
CN109523991B (zh) * 2017-09-15 2023-08-18 阿里巴巴集团控股有限公司 语音识别的方法及装置、设备
CN110444195B (zh) 2018-01-31 2021-12-14 腾讯科技(深圳)有限公司 语音关键词的识别方法和装置
CN108682415B (zh) * 2018-05-23 2020-09-29 广州视源电子科技股份有限公司 语音搜索方法、装置和系统
CN110781270A (zh) * 2018-07-13 2020-02-11 北京搜狗科技发展有限公司 一种解码网络中非关键词模型的构建方法和装置
CN111031329B (zh) * 2018-10-10 2023-08-15 北京默契破冰科技有限公司 一种用于管理音频数据的方法、设备和计算机存储介质
CN111107380B (zh) * 2018-10-10 2023-08-15 北京默契破冰科技有限公司 一种用于管理音频数据的方法、设备和计算机存储介质
CN111161706A (zh) * 2018-10-22 2020-05-15 阿里巴巴集团控股有限公司 交互方法、装置、设备和系统
CN111369978A (zh) * 2018-12-26 2020-07-03 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN109712607B (zh) * 2018-12-30 2021-12-24 联想(北京)有限公司 一种处理方法、装置及电子设备
CN110223672B (zh) * 2019-05-16 2021-04-23 九牧厨卫股份有限公司 一种离线式多语种语音识别方法
CN112133291B (zh) * 2019-06-05 2024-02-13 科大讯飞股份有限公司 一种语种识别模型训练、语种识别的方法和相关装置
US11132990B1 (en) * 2019-06-26 2021-09-28 Amazon Technologies, Inc. Wakeword and acoustic event detection
US11043218B1 (en) * 2019-06-26 2021-06-22 Amazon Technologies, Inc. Wakeword and acoustic event detection
CN110444198B (zh) * 2019-07-03 2023-05-30 平安科技(深圳)有限公司 检索方法、装置、计算机设备和存储介质
CN111176618B (zh) * 2019-12-10 2023-09-01 武汉学子明灯科技有限责任公司 一种语音唤醒开发程序的方法及系统
CN111429912B (zh) * 2020-03-17 2023-02-10 厦门快商通科技股份有限公司 关键词检测方法、系统、移动终端及存储介质
CN113611284A (zh) * 2021-08-06 2021-11-05 工银科技有限公司 语音库构建方法、识别方法、构建系统和识别系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5689616A (en) * 1993-11-19 1997-11-18 Itt Corporation Automatic language identification/verification system
US5805771A (en) * 1994-06-22 1998-09-08 Texas Instruments Incorporated Automatic language identification method and system
CN101231660A (zh) * 2008-02-19 2008-07-30 林超 电话自然对话中关键信息的挖掘系统及其方法
CN101645269A (zh) * 2008-12-30 2010-02-10 中国科学院声学研究所 一种语种识别系统及方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2003220A (en) 1931-10-23 1935-05-28 William J Pearson Type-setting device
US5502790A (en) * 1991-12-24 1996-03-26 Oki Electric Industry Co., Ltd. Speech recognition method and system using triphones, diphones, and phonemes
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US6029124A (en) * 1997-02-21 2000-02-22 Dragon Systems, Inc. Sequential, nonparametric speech recognition and speaker identification
US5953700A (en) * 1997-06-11 1999-09-14 International Business Machines Corporation Portable acoustic interface for remote access to automatic speech/speaker recognition server
US7054810B2 (en) * 2000-10-06 2006-05-30 International Business Machines Corporation Feature vector-based apparatus and method for robust pattern recognition
JP2002132287A (ja) * 2000-10-20 2002-05-09 Canon Inc 音声収録方法および音声収録装置および記憶媒体
US20030220784A1 (en) * 2002-05-24 2003-11-27 International Business Machines Corporation System and method for automated voice message transcription and delivery
US7676366B2 (en) * 2003-01-13 2010-03-09 Art Advanced Recognition Technologies Inc. Adaptation of symbols
JP4033299B2 (ja) * 2003-03-12 2008-01-16 株式会社エヌ・ティ・ティ・ドコモ 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
JP4548646B2 (ja) * 2003-09-12 2010-09-22 株式会社エヌ・ティ・ティ・ドコモ 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
US7774196B2 (en) * 2003-10-01 2010-08-10 Dictaphone Corporation System and method for modifying a language model and post-processor information
US7596498B2 (en) * 2005-09-02 2009-09-29 Microsoft Corporation Monitoring, mining, and classifying electronically recordable conversations
CN101030369B (zh) * 2007-03-30 2011-06-29 清华大学 基于子词隐含马尔可夫模型的嵌入式语音识别方法
JP5200712B2 (ja) * 2008-07-10 2013-06-05 富士通株式会社 音声認識装置、音声認識方法及びコンピュータプログラム
CA2680304C (en) * 2008-09-25 2017-08-22 Multimodal Technologies, Inc. Decoding-time prediction of non-verbalized tokens
JP5150542B2 (ja) * 2009-03-26 2013-02-20 株式会社東芝 パターン認識装置、パターン認識方法、及び、プログラム
US20100268534A1 (en) * 2009-04-17 2010-10-21 Microsoft Corporation Transcription, archiving and threading of voice communications
KR101154011B1 (ko) * 2010-06-07 2012-06-08 주식회사 서비전자 다중 모델 적응화와 음성인식장치 및 방법
US8532994B2 (en) * 2010-08-27 2013-09-10 Cisco Technology, Inc. Speech recognition using a personal vocabulary and language model
CN102521221A (zh) * 2011-11-30 2012-06-27 江苏奇异点网络有限公司 具有文字输出功能的多语言会议信息输出方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5689616A (en) * 1993-11-19 1997-11-18 Itt Corporation Automatic language identification/verification system
US5805771A (en) * 1994-06-22 1998-09-08 Texas Instruments Incorporated Automatic language identification method and system
CN101231660A (zh) * 2008-02-19 2008-07-30 林超 电话自然对话中关键信息的挖掘系统及其方法
CN101645269A (zh) * 2008-12-30 2010-02-10 中国科学院声学研究所 一种语种识别系统及方法

Also Published As

Publication number Publication date
CN104143329A (zh) 2014-11-12
US20150154955A1 (en) 2015-06-04
WO2015024431A1 (en) 2015-02-26
US9355637B2 (en) 2016-05-31

Similar Documents

Publication Publication Date Title
CN104143329B (zh) 进行语音关键词检索的方法及装置
CN109408526B (zh) Sql语句生成方法、装置、计算机设备及存储介质
CN105869634B (zh) 一种基于领域的带反馈语音识别后文本纠错方法及系统
CN110364171B (zh) 一种语音识别方法、语音识别系统及存储介质
US10672391B2 (en) Improving automatic speech recognition of multilingual named entities
KR101309042B1 (ko) 다중 도메인 음성 대화 장치 및 이를 이용한 다중 도메인 음성 대화 방법
US9564122B2 (en) Language model adaptation based on filtered data
US8566076B2 (en) System and method for applying bridging models for robust and efficient speech to speech translation
US20180365209A1 (en) Artificial intelligence based method and apparatus for segmenting sentence
CN105654943A (zh) 一种语音唤醒方法、装置及系统
JP2020030408A (ja) オーディオにおける重要語句を認識するための方法、装置、機器及び媒体
CN107369439A (zh) 一种语音唤醒方法和装置
US11907665B2 (en) Method and system for processing user inputs using natural language processing
JP6875819B2 (ja) 音響モデル入力データの正規化装置及び方法と、音声認識装置
TWI752406B (zh) 語音辨識方法、語音辨識裝置、電子設備、電腦可讀存儲介質及電腦程式產品
KR101149521B1 (ko) 도메인 온톨로지를 이용한 음성 인식 방법 및 그 장치
KR101709693B1 (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
WO2023272616A1 (zh) 一种文本理解方法、系统、终端设备和存储介质
CN104751856A (zh) 一种语音语句识别方法及装置
CN113076749A (zh) 一种文本识别方法和系统
US10403275B1 (en) Speech control for complex commands
CN112084791A (zh) 一种对话过程意图提取及说法提示方法、系统及其电子设备
US9922643B2 (en) User-aided adaptation of a phonetic dictionary
CN114999463B (zh) 语音识别方法、装置、设备及介质
US20220277732A1 (en) Method and apparatus for training speech recognition model, electronic device and storage medium

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200825

Address after: 518057 Nanshan District science and technology zone, Guangdong, Zhejiang Province, science and technology in the Tencent Building on the 1st floor of the 35 layer

Co-patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd.

Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right