CN113724710A - 语音识别方法及装置、电子设备、计算机可读存储介质 - Google Patents

语音识别方法及装置、电子设备、计算机可读存储介质 Download PDF

Info

Publication number
CN113724710A
CN113724710A CN202111216596.5A CN202111216596A CN113724710A CN 113724710 A CN113724710 A CN 113724710A CN 202111216596 A CN202111216596 A CN 202111216596A CN 113724710 A CN113724710 A CN 113724710A
Authority
CN
China
Prior art keywords
word
dictionary
target
decoding
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202111216596.5A
Other languages
English (en)
Inventor
李泽轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Youbisheng Technology Co ltd
Original Assignee
Guangdong Youbisheng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Youbisheng Technology Co ltd filed Critical Guangdong Youbisheng Technology Co ltd
Priority to CN202111216596.5A priority Critical patent/CN113724710A/zh
Publication of CN113724710A publication Critical patent/CN113724710A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语音识别方法及装置、电子设备、计算机可读存储介质。其中,该方法包括:生成目标唤醒词对应的唤醒词声学词典和唤醒词语言字典,其中,目标唤醒词为自定义唤醒词;基于唤醒词声学词典和唤醒词语言字典生成解码图;利用解码图对目标语音进行逐帧解码,得到语音识别结果。本发明解决了相关技术中进行语音识别的方式可靠性较低的技术问题。

Description

语音识别方法及装置、电子设备、计算机可读存储介质
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种语音识别方法及装置、电子设备、计算机可读存储介质。
背景技术
语音识别是提高各种设备的智能化程度的目重要技术,通过语音识别可以与机器进行语音交流。即,可以通过语音识别技术让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。其主要包括特征提取技术、模式匹配准则以及模型训练技术三个方面。
因此,相关技术中的语音识别系统一般是通过采集模块来采集操作人员发出的唤醒词,声学特征提取模块提取换新词的特征信息,自定义唤醒词模块输出自定义唤醒词表,发音字典生成器根据自定义换新词表和预置字典生成发音字典,语言模型生成器根据发音字典生成语言模型,解码图生成器可根据语言模型和发音字典生成一个静态解码图,解码器可根据静态解码图和通用声学模型解码,以判断语音数据是否含有换新词。
然而,上述方案存在以下弊端:1).预置词典的构建直接使用音素,会增加误唤醒;2).当唤醒词中某个字为多音字时,没有将字的不同读音加入词典(例如发音T UH2 NG2 XIY2 EH2、T UH4 NG4 X IY2 EH2、T UH5 NG5 X IY2 EH2,三种发音;为了提高识别率,也要把相似发音加入发音词典,例如,唤醒词为小碧同学,可将小比同学、小鼻同学、小比同学加入发音词典);3).没有将所有的唤醒词子词加入词典(例如,唤醒词为小碧同学,同时要将小碧、碧同、同学等子词加入词典,以降低误唤醒);4). 没有引入热词技术(热词可提高唤醒率,例如识别结果为小币同学,可通过热词强行把币字纠正为碧)。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种语音识别方法及装置、电子设备、计算机可读存储介质,以至少解决相关技术中进行语音识别的方式可靠性较低的技术问题。
根据本发明实施例的一个方面,提供了一种语音识别方法,包括:生成目标唤醒词对应的唤醒词声学词典和唤醒词语言字典,其中,所述目标唤醒词包含自定义唤醒词;基于所述唤醒词声学词典和所述唤醒词语言字典生成解码图;利用所述解码图对目标语音进行逐帧解码,得到语音识别结果。
可选地,在生成目标唤醒词对应的唤醒词声学词典和唤醒词语言字典之前,该语音识别方法还包括:生成汉字第一映射表,所述第一映射表包含汉字与该汉字的至少一个拼音之间的映射关系;其中,生成所述第一映射表,包括:使用第一分词工具对预定文本进行分词处理,得到分词结果;利用拼音生成工具为所述分词结果进行拼音标注,得到词语第二映射表,所述第二映射表包含词语与该词语的至少一个拼音之间的映射关系;对所述第二映射表进行解析,得到第三映射表,所述第三映射表包含所述词语中每一个字与该每一个字的至少一个拼音之间的映射关系;按照预定组合方式对所述第三映射表进行组合,得到所述第一映射表。
可选地,生成目标唤醒词对应的唤醒词声学词典,包括:获取所述目标唤醒词;利用第二分词工具对所述目标唤醒词进行分词处理,得到多个子词;对所述多个子词按照所述第一映射表进行处理,得到第四映射表,所述第四映射表包含所述多个子词中每一个子词与该每一个子词的至少一个拼音之间的映射关系;将所述第四映射表与所述第一映射表进行融合,得到所述唤醒词声学词典。
可选地,生成目标唤醒词对应的唤醒词语言字典,包括:对所述第二映射表中的汉字进行去重处理,得到汉字字典;对目标唤醒词进行分词处理,得到多个子词,并对所述多个子词进行去重处理,得到剩余子词;将所述剩余子词与所述汉字字典进行组合,得到所述唤醒词语言字典。
可选地,基于所述唤醒词声学词典和所述唤醒词语言字典生成解码图,包括:将所述唤醒词声学词典与预置词典进行融合,得到融合后的声学词典;将所述唤醒词语言字典与预置语言字典进行融合,得到融合后的语言字典;将所述融合后的声学词典和所述融合后的语言字典输入至解码图生成工具,利用所述解码图生成工具对所述融合后的声学词典和所述融合后的语言字典进行处理,得到所述解码图。
可选地,利用所述解码图对目标语音进行逐帧解码,得到语音识别结果,包括:获取所述目标语音对应的音频流;对所述音频流进行特征提取,得到目标声学特征;基于声学模型确定与所述目标声学特征对应的音素信息序列,其中,所述声学模型为基于声学特征进行音素识别的模型;利用所述解码图对所述音素信息序列进行处理,得到所述语音识别结果。
可选地,在利用所述解码图对目标语音进行逐帧解码,得到语音识别结果之后,该语音识别方法还包括:在确定所述语音识别结果中存在所述目标唤醒词时,唤醒所述目标唤醒词对应的设备。
根据本发明实施例的另外一个方面,还提供了一种语音识别装置,包括:第一生成模块,用于生成目标唤醒词对应的唤醒词声学词典和唤醒词语言字典,其中,所述目标唤醒词包含自定义唤醒词;第二生成模块,用于基于所述唤醒词声学词典和所述唤醒词语言字典生成解码图;解码模块,用于利用所述解码图对目标语音进行逐帧解码,得到语音识别结果。
可选地,该语音识别装置还包括:第三生成模块,用于在生成目标唤醒词对应的唤醒词声学词典和唤醒词语言字典之前,生成第一映射表,所述第一映射表包含汉字与该汉字的至少一个拼音之间的映射关系;其中,所述第三生成模块,包括:第一分词单元,使用第一分词工具对预定文本进行分词处理,得到分词结果;拼音标注单元,用于利用拼音生成工具为所述分词结果进行拼音标注,得到第二映射表,所述第二映射表包含词语与该词语的至少一个拼音之间的映射关系;解析单元,用于对所述第二映射表进行解析,得到第三映射表,所述第三映射表包含所述词语中每一个字与该每一个字的至少一个拼音之间的映射关系;第一组合单元,用于按照预定组合方式对所述第三映射表进行组合,得到所述第一映射表。
可选地,所述第一生成模块,包括:第一获取单元,用于获取所述目标唤醒词;第二分词单元,用于利用第二分词工具对所述目标唤醒词进行分词处理,得到多个子词;第一处理单元,用于对所述多个子词按照所述第一映射表进行处理,得到第四映射表,所述第四映射表包含所述多个子词中每一个子词与该每一个子词的至少一个拼音之间的映射关系;第一融合单元,用于将所述第四映射表与所述第一映射表进行融合,得到所述唤醒词声学词典。
可选地,所述第一生成模块,包括:去重单元,用于对所述第二映射表中的汉字进行去重处理,得到汉字字典;第三分词单元,用于对目标唤醒词进行分词处理,得到多个子词,并对所述多个子词进行去重处理,得到剩余子词;第一组合单元,用于将所述剩余子词与所述汉字字典进行组合,得到所述唤醒词语言字典。
可选地,所述第二生成模块,包括:第二融合单元,用于将所述唤醒词声学词典与预置词典进行融合,得到融合后的声学词典;第三融合单元,用于将所述唤醒词语言字典与预置语言字典进行融合,得到融合后的语言字典;生成单元,用于将所述融合后的声学词典和所述融合后的语言字典输入至解码图生成工具,利用所述解码图生成工具对所述融合后的声学词典和所述融合后的语言字典进行处理,得到所述解码图。
可选地,所述解码模块,包括:第二获取单元,用于获取所述目标语音对应的音频流;提取单元,用于对所述音频流进行特征提取,得到目标声学特征;确定单元,用于基于声学模型确定与所述目标声学特征对应的音素信息序列,其中,所述声学模型为基于声学特征进行音素识别的模型;第一处理单元,用于利用所述解码图对所述音素信息序列进行处理,得到所述语音识别结果。
可选地,该语音识别装置还包括:唤醒模块,用于在利用所述解码图对目标语音进行逐帧解码,得到语音识别结果之后,在确定所述语音识别结果中存在所述目标唤醒词时,唤醒所述目标唤醒词对应的设备。
根据本发明实施例的另外一个方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述中任意一项所述的语音识别方法。
根据本发明实施例的另外一个方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述中任意一项所述的语音识别方法。
在本发明实施例中,生成目标唤醒词对应的唤醒词声学词典和唤醒词语言字典,其中,目标唤醒词包含自定义唤醒词;基于唤醒词声学词典和唤醒词语言字典生成解码图;利用解码图对目标语音进行逐帧解码,得到语音识别结果。通过本发明实施例提供的语音识别方法,实现了建立自定义唤醒词对应的解码图,以利用新的解码图对目标语音进行逐帧解码,以得到语音识别结果的目的,达到了提高对自定义唤醒词的识别精准度的技术效果,进而解决了相关技术中进行语音识别的方式可靠性较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的语音识别方法的流程图;
图2是根据本发明实施例的可选的语音识别方法的示意图;
图3是根据本发明实施例的语音识别装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种语音识别方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的语音识别方法的流程图,如图1所示,该语音识别方法包括如下步骤:
步骤S102,生成目标唤醒词对应的唤醒词声学词典和唤醒词语言字典,其中,目标唤醒词包含自定义唤醒词。
可选的,这里的目标唤醒词可以包含用户根据实际需求自定义设置的词,例如,小碧同学、小智同学、小智、小碧等。当用户设置成功后,可以基于自定义唤醒词来唤醒目标设备。
可选的,在本发明实施例中,这里的唤醒词可以唤醒目标设备,例如,电子设备,例如,空调、冰箱、电视、洗衣机、音箱等。
由于在该实施例中目标唤醒词为用户自定义设置的,若要目标设备能够识别唤醒词,则需要构建与该目标唤醒词对应的声学词典和唤醒词语言字典。
步骤S104,基于唤醒词声学词典和唤醒词语言字典生成解码图。
步骤S106,利用解码图对目标语音进行逐帧解码,得到语音识别结果。
由上可知,在本发明实施例中,在用户设置自定义唤醒词(目标唤醒词)后,会生成目标唤醒词对应的唤醒词声学词典和唤醒词语言字典,接着基于唤醒词声学词典和唤醒词语言字典生成解码图,并利用解码图对目标语音进行逐帧解码,以得到语音识别结果,实现了建立自定义唤醒词对应的解码图,以利用新的解码图对目标语音进行逐帧解码,以得到语音识别结果的目的,达到了提高对自定义唤醒词的识别精准度的技术效果。
因此,通过本发明实施例提供的语音识别方法,解决了相关技术中进行语音识别的方式可靠性较低的技术问题。
作为一种可选的实施例,在生成目标唤醒词对应的唤醒词声学词典和唤醒词语言字典之前,该语音识别方法还可以包括:生成第一映射表,第一映射表包含汉字与该汉字的至少一个拼音之间的映射关系;其中,生成第一映射表,包括:使用第一分词工具对预定文本进行分词处理,得到分词结果;利用拼音生成工具为分词结果进行拼音标注,得到第二映射表,其中,第二映射表包含词语与该词语的至少一个拼音之间的映射关系;对第二映射表进行解析,得到第三映射表,第三映射表包含词语中每一个字与该每一个字的至少一个拼音之间的映射关系;按照预定组合方式对第三映射表进行组合,得到第一映射表。
即,在本发明实施例中,可先建立预置词典(汉字-拼音映射表或声学词典,即,第一映射表),具体地,可分为两个步骤:1)构建词语-拼音映射表(即,上下文中的第二映射表);2)构建单字-拼音映射表(即,上下文中的第三映射表)。
其中,可使用第一分词工具对整理好的文本材料进行分词,再使用拼音生成工具自动为分好的词进行拼音标注,从而构成词语-拼音映射表。需要说明的是,在本发明实施例中,对第一分词工具的类型不做具体限定,可为具有分词功能的任意平台或软件。
再次,可以对上述词语-拼音映射表进行解析,得到单字-拼音映射对,并可以对单字-拼音映射对进行去重,例如,你-ni3,你-ni3,好-hao3,好-hao3;去重后变成:你-ni3,好-hao3;并对同音不同字的键对进行组合(即,只保留一个字作为同音的代表),例如,尼-ni2、妮-ni2、泥-ni2,组合后变成尼-ni2,就是每个音随便挑一个字作为代表,从而得到汉字-拼音映射表。
一个方面,在该实施例中,将目标唤醒词拆解并进行组合,得到唤醒词的子词集合,并将这些子词加入发音词典;例如,唤醒词“小碧同学”的子词为“小碧”,“碧同”,“小碧同”等,加入这些子词后,当用户无意说到这些子词时,设备将不会唤醒,降低了模型的误唤醒率。
另外一个方面,在本发明实施例中,对唤醒词中的每个字进行查表,得到每个字的所有读音,然后将不同字的读音进行组合,得到唤醒词的所有发音组合,并加入发音词典,同样能有效提高唤醒率。
通过上述方式大大缩减了发音词典的大小,从而大大降低了误唤醒率。
作为一种可选的实施例,在本发明实施例中,可将词语-拼音映射表的汉字进行去重处理(词语-拼音映射表里有很多个字,将所有的字进行去重,例如你好、你是谁,去重后得到你、好、是、谁四个字),即可得到语言字典。
作为一种可选的实施例,在上述步骤S102中,生成目标唤醒词对应的唤醒词声学词典,可以包括:获取目标唤醒词;利用第二分词工具对目标唤醒词进行分词处理,得到多个子词;对多个子词按照第一映射表进行处理,得到第四映射表,第四映射表包含所述多个子词中每一个子词与该每一个子词的至少一个拼音之间的映射关系;将第四映射表与第一映射表进行融合,得到唤醒词声学词典。
在该实施例中,获取到目标唤醒词后,可以利用第二分词工具对目标唤醒词进行分词处理,得到该目标唤醒词的所有子词,例如,小碧同学的子词为:小碧、碧同、同学、小碧同、碧同学、小碧同学;接着对多个子词可以按照上述汉字-拼音映射表进行处理,得到子词-拼音映射表(即,上下文中的第四映射表),并将子词-拼音映射表与汉字-拼音映射表组合得到唤醒词声学词典。
例如,!SIL SIL
[SPK]SPN
[FIL]NSN
<UNK>SPN
你 N IY3
好 HH AW3
今 J IY1 N1
天 T IY1 AE1 N1
气 Q IY4
小碧 X IY3 AW3 B IY4
碧同 B IY4 T UH2 NG2
小碧同学 X IY3 AW3 B IY4 T UH2 NG2 X IY2 EH2
需要说明的是,在本发明实施例中,自定义唤醒词声学词典中加入有自定义唤醒词的发音。
作为一种可选的实施例,在上述步骤S102中,生成目标唤醒词对应的唤醒词语言字典,可以包括:对第二映射表中的汉字进行去重处理,得到汉字字典;对目标唤醒词进行分词处理,得到多个子词,并对多个子词进行去重处理,得到剩余子词;将剩余子词与汉字字典进行组合,得到唤醒词语言字典。
在该实施例中,可以将词语-拼音映射表中的汉字进行去重处理,得到汉字字典后,对目标唤醒词进行分词处理,得到多个子词,并对多个子词进行去重处理,得到剩余子词,并将剩余子词与汉字字典进行组合,即可得到唤醒词语言字典。
以目标唤醒词为“小碧同学”为例,唤醒词语言字典可为:
<UNK>
小碧
碧同
同学
小碧同学
作为一种可选的实施例,在步骤S104中,基于唤醒词声学词典和唤醒词语言字典生成解码图,可以包括:将唤醒词声学词典与预置词典进行融合,得到融合后的声学词典;将唤醒词语言字典与预置语言字典进行融合,得到融合后的语言字典;将融合后的声学词典和融合后的语言字典输入至解码图生成工具,利用解码图生成工具对融合后的声学词典和融合后的语言字典进行处理,得到解码图。
在该实施例中,可以将唤醒词声学词典与预置词典进行融合,得到融合后的声学词典;同时将唤醒词语言字典与预置语言字典进行融合,得到融合后的语言字典;接着解码模型构建模块会根据融合后的声学词典以及融合后的语言字典构建解码图(即,HCLG.fst,语音识别中的模型文件),并覆盖原有解码图。
另外,在本发明实施例中,上述预置词典可以为在生成目标唤醒词对应的唤醒词声学词典和唤醒词语言字典之前,使用分词工具对整理好的文本材料进行分词,再使用拼音生成工具自动为分好的词进行拼音标注,得到词语-拼音映射表后,进行解析得到单字-拼音映射对,并进行去重后得到的映射表。这里的预置词典中记录的是拼音。
上述预置语言字典同样可以是在生成目标唤醒词对应的唤醒词声学词典和唤醒词语言字典之前,使用分字工具对整理好的文本材料进行分词得到的汉字词典。这里的预置词典中记录的是汉字词语。
作为一种可选的实施例,在步骤S106中,利用解码图对目标语音进行逐帧解码,得到语音识别结果,可以包括:获取目标语音对应的音频流;对音频流进行特征提取,得到目标声学特征;基于声学模型确定与目标声学特征对应的音素信息序列,其中,声学模型为基于声学特征进行音素识别的模型;利用解码图对音素信息序列进行处理,得到语音识别结果。
例如,当用户对设备讲话时,音频流会送入解码模块进行解码,而解码模块会加载先前构建好的解码图,对音频流进行解码,解码过程会使用热词技术,最终判断音频流是否包含唤醒词。
上述解码步骤可为:对音频流的每一帧进行梅尔特征提取声学特征(即,目标声学特征),再将声学特征送入声学模型,得到三音素;随着时间的推移,会产生一连串的三音素串,再通过语言模型(即解码图)将三音素串组装成音素、词、句子。最终使用模糊匹配的方法,判断句子(即,目标语音)是否包含唤醒词。
由于在本发明实施例中,引入了热词技术,当解码图的搜索路径上出现唤醒词的某个子词时,会提高该条路径的声学分和语言分,使得解码结果更倾向于唤醒词,提高了唤醒率。
作为一种可选的实施例,在利用解码图对目标语音进行逐帧解码,得到语音识别结果之后,该语音识别方法还包括:在确定语音识别结果中存在目标唤醒词时,唤醒目标唤醒词对应的设备。
即,若语音识别结果中包括目标唤醒词,则可以唤醒该目标唤醒词对应的设备。
图2是根据本发明实施例的可选的语音识别方法的示意图,如图2所示,当用户设置唤醒词后,声学词典构建器会构建自定义的唤醒词发音词典(即,唤醒词声学词典),并与预置词典进行融合;语言字典构建器会构建自定义的唤醒词字典(即,唤醒词语言字典),并与预置语言词典进行融合;解码模型构建模块会根据发音词典和语言词典构建解码图,并覆盖原有模型,并利用解码图对音频流进行实时解码,得到语音识别结果。例如,当用户说出唤醒词时,解码模块会对音频的每一帧进行解码,当解码路径上出现唤醒词的某个字或词时,修改该条路径的声学、语言分,最终得到最优的解码路径,根据解码路径可得到识别结果,若识别结果为唤醒词,则唤醒设备。
通过上述实施例,可以在获取到用户自定义的唤醒词后,生成自定义唤醒词对应的唤醒词声学词典和唤醒词语言字典,基于唤醒词声学词典和唤醒词语言字典生成解码图;利用解码图对目标语音进行逐帧解码,得到语音识别结果。由于将不同字的读音进行组合,得到唤醒词的所有发音组合,并加入发音词典,有效提高了唤醒率。另外,将唤醒词拆解并进行组合,得到唤醒词的子词集合,并将这些子词加入发音词典,当用户无意说到这些子词时,设备将不会唤醒,降低了误唤醒率。再者,由于引入了热词技术,当解码图的搜索路径上出现唤醒词的某个子词时,提高该条路径的声学分和语言分,使得解码结果更倾向于唤醒词,提高了唤醒率。
实施例2
根据本发明实施例的另外一个方面,还提供了一种语音识别装置,该语音识别装置中包含的多个实施单元或模块对应于上述实施例1中的各个实施步骤,图3是根据本发明实施例的语音识别装置的示意图,如图3所示,该语音识别装置可以包括:第一生成模块31、第二生成模块33以及解码模块35。
第一生成模块31,用于生成目标唤醒词对应的唤醒词声学词典和唤醒词语言字典,其中,目标唤醒词包含自定义唤醒词。
第二生成模块33,用于基于唤醒词声学词典和唤醒词语言字典生成解码图。
解码模块35,用于利用解码图对目标语音进行逐帧解码,得到语音识别结果。
此处需要说明的是,上述解析模块31、第一响应模块33、第一获取模块35以及发送模块37对应于实施例1中的步骤S102至S108,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
由上可知,在本发明实施例中,可以利用第一生成模块31生成目标唤醒词对应的唤醒词声学词典和唤醒词语言字典,其中,目标唤醒词包含自定义唤醒词;接着利用第二生成模块33基于唤醒词声学词典和唤醒词语言字典生成解码图;再利用解码模块 35利用解码图对目标语音进行逐帧解码,得到语音识别结果。通过本发明实施例提供的语音识别装置,实现了建立自定义唤醒词对应的解码图,以利用新的解码图对目标语音进行逐帧解码,以得到语音识别结果的目的,达到了提高对自定义唤醒词的识别精准度的技术效果,解决了相关技术中进行语音识别的方式可靠性较低的技术问题。
可选地,该语音识别装置还包括:第三生成模块,用于在生成目标唤醒词对应的唤醒词声学词典和唤醒词语言字典之前,生成第一映射表,第一映射表包含汉字与该汉字的至少一个拼音之间的映射关系;其中,第三生成模块,包括:第一分词单元,使用第一分词工具对预定文本进行分词处理,得到分词结果;拼音标注单元,用于利用拼音生成工具为分词结果进行拼音标注,得到第二映射表,第二映射表包含词语与该词语的至少一个拼音之间的映射关系;解析单元,用于对第二映射表进行解析,得到第三映射表,第三映射表包含所述词语中每一个字与该每一个字的至少一个拼音之间的映射关系;第一组合单元,用于按照预定组合方式对第三映射表进行组合,得到第一映射表。
可选地,第一生成模块,包括:第一获取单元,用于获取目标唤醒词;第二分词单元,用于利用第二分词工具对目标唤醒词进行分词处理,得到多个子词;第一处理单元,用于对多个子词按照第一映射表进行处理,得到第四映射表,第四映射表包含多个子词中每一个子词与该每一个子词的至少一个拼音之间的映射关系;第一融合单元,用于将第四映射表与第一映射表进行融合,得到唤醒词声学词典。
可选地,第一生成模块,包括:去重单元,用于对第二映射表中的汉字进行去重处理,得到汉字字典;第三分词单元,用于对目标唤醒词进行分词处理,得到多个子词,并对多个子词进行去重处理,得到剩余子词;第一组合单元,用于将剩余子词与汉字字典进行组合,得到唤醒词语言字典。
可选地,第二生成模块,包括:第二融合单元,用于将唤醒词声学词典与预置词典进行融合,得到融合后的声学词典;第三融合单元,用于将唤醒词语言字典与预置语言字典进行融合,得到融合后的语言字典;生成单元,用于将融合后的声学词典和融合后的语言字典输入至解码图生成工具,利用解码图生成工具对融合后的声学词典和融合后的语言字典进行处理,得到解码图。
可选地,解码模块,包括:第二获取单元,用于获取目标语音对应的音频流;提取单元,用于对音频流进行特征提取,得到目标声学特征;确定单元,用于基于声学模型确定与目标声学特征对应的音素信息序列,其中,声学模型为基于声学特征进行音素识别的模型;第一处理单元,用于利用解码图对音素信息序列进行处理,得到语音识别结果。
可选地,该语音识别装置还包括:唤醒模块,用于在利用解码图对目标语音进行逐帧解码,得到语音识别结果之后,在确定语音识别结果中存在目标唤醒词时,唤醒目标唤醒词对应的设备。
实施例3
根据本发明实施例的另外一个方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述中任意一项的语音识别方法。
实施例4
根据本发明实施例的另外一个方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述中任意一项的语音识别方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
生成目标唤醒词对应的唤醒词声学词典和唤醒词语言字典,其中,所述目标唤醒词包含自定义唤醒词;
基于所述唤醒词声学词典和所述唤醒词语言字典生成解码图;
利用所述解码图对目标语音进行逐帧解码,得到语音识别结果。
2.根据权利要求1所述的方法,其特征在于,在生成目标唤醒词对应的唤醒词声学词典和唤醒词语言字典之前,所述方法还包括:生成第一映射表,所述第一映射表包含汉字与该汉字的至少一个拼音之间的映射关系;
其中,生成所述第一映射表,包括:
使用第一分词工具对预定文本进行分词处理,得到分词结果;
利用拼音生成工具为所述分词结果进行拼音标注,得到第二映射表,所述第二映射表包含词语与该词语的至少一个拼音之间的映射关系;
对所述第二映射表进行解析,得到第三映射表,所述第三映射表包含所述词语中每一个字与该每一个字的至少一个拼音之间的映射关系;
按照预定组合方式对所述第三映射表进行组合,得到所述第一映射表。
3.根据权利要求2所述的方法,其特征在于,生成目标唤醒词对应的唤醒词声学词典,包括:
获取所述目标唤醒词;
利用第二分词工具对所述目标唤醒词进行分词处理,得到多个子词;
对所述多个子词按照所述第一映射表进行处理,得到第四映射表,所述第四映射表包含所述多个子词中每一个子词与该每一个子词的至少一个拼音之间的映射关系;
将所述第四映射表与所述第一映射表进行融合,得到所述唤醒词声学词典。
4.根据权利要求2所述的方法,其特征在于,生成目标唤醒词对应的唤醒词语言字典,包括:
对所述第二映射表中的汉字进行去重处理,得到汉字字典;
对目标唤醒词进行分词处理,得到多个子词,并对所述多个子词进行去重处理,得到剩余子词;
将所述剩余子词与所述汉字字典进行组合,得到所述唤醒词语言字典。
5.根据权利要求1所述的方法,其特征在于,基于所述唤醒词声学词典和所述唤醒词语言字典生成解码图,包括:
将所述唤醒词声学词典与预置词典进行融合,得到融合后的声学词典;
将所述唤醒词语言字典与预置语言字典进行融合,得到融合后的语言字典;
将所述融合后的声学词典和所述融合后的语言字典输入至解码图生成工具,利用所述解码图生成工具对所述融合后的声学词典和所述融合后的语言字典进行处理,得到所述解码图。
6.根据权利要求1至5中任一项所述的方法,其特征在于,利用所述解码图对目标语音进行逐帧解码,得到语音识别结果,包括:
获取所述目标语音对应的音频流;
对所述音频流进行特征提取,得到目标声学特征;
基于声学模型确定与所述目标声学特征对应的音素信息序列,其中,所述声学模型为基于声学特征进行音素识别的模型;
利用所述解码图对所述音素信息序列进行处理,得到所述语音识别结果。
7.根据权利要求6所述的方法,其特征在于,在利用所述解码图对目标语音进行逐帧解码,得到语音识别结果之后,所述方法还包括:
在确定所述语音识别结果中存在所述目标唤醒词时,唤醒所述目标唤醒词对应的设备。
8.一种语音识别装置,其特征在于,包括:
第一生成模块,用于生成目标唤醒词对应的唤醒词声学词典和唤醒词语言字典,其中,所述目标唤醒词包含自定义唤醒词;
第二生成模块,用于基于所述唤醒词声学词典和所述唤醒词语言字典生成解码图;
解码模块,用于利用所述解码图对目标语音进行逐帧解码,得到语音识别结果。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任意一项所述的语音识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的语音识别方法。
CN202111216596.5A 2021-10-19 2021-10-19 语音识别方法及装置、电子设备、计算机可读存储介质 Withdrawn CN113724710A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111216596.5A CN113724710A (zh) 2021-10-19 2021-10-19 语音识别方法及装置、电子设备、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111216596.5A CN113724710A (zh) 2021-10-19 2021-10-19 语音识别方法及装置、电子设备、计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113724710A true CN113724710A (zh) 2021-11-30

Family

ID=78686172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111216596.5A Withdrawn CN113724710A (zh) 2021-10-19 2021-10-19 语音识别方法及装置、电子设备、计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113724710A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090240499A1 (en) * 2008-03-19 2009-09-24 Zohar Dvir Large vocabulary quick learning speech recognition system
CN105225659A (zh) * 2015-09-10 2016-01-06 中国航空无线电电子研究所 一种指令式语音控制发音词典辅助生成方法
WO2017114172A1 (zh) * 2015-12-29 2017-07-06 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
CN110838289A (zh) * 2019-11-14 2020-02-25 腾讯科技(深圳)有限公司 基于人工智能的唤醒词检测方法、装置、设备及介质
CN110992929A (zh) * 2019-11-26 2020-04-10 苏宁云计算有限公司 一种基于神经网络的语音关键词检测方法、装置及系统
CN111354343A (zh) * 2020-03-09 2020-06-30 北京声智科技有限公司 语音唤醒模型的生成方法、装置和电子设备
CN112331189A (zh) * 2020-09-29 2021-02-05 江苏清微智能科技有限公司 一种低功耗的自定义唤醒词语音识别系统及方法
CN112669851A (zh) * 2021-03-17 2021-04-16 北京远鉴信息技术有限公司 一种语音识别方法、装置、电子设备及可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090240499A1 (en) * 2008-03-19 2009-09-24 Zohar Dvir Large vocabulary quick learning speech recognition system
CN105225659A (zh) * 2015-09-10 2016-01-06 中国航空无线电电子研究所 一种指令式语音控制发音词典辅助生成方法
WO2017114172A1 (zh) * 2015-12-29 2017-07-06 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
CN110838289A (zh) * 2019-11-14 2020-02-25 腾讯科技(深圳)有限公司 基于人工智能的唤醒词检测方法、装置、设备及介质
CN110992929A (zh) * 2019-11-26 2020-04-10 苏宁云计算有限公司 一种基于神经网络的语音关键词检测方法、装置及系统
CN111354343A (zh) * 2020-03-09 2020-06-30 北京声智科技有限公司 语音唤醒模型的生成方法、装置和电子设备
CN112331189A (zh) * 2020-09-29 2021-02-05 江苏清微智能科技有限公司 一种低功耗的自定义唤醒词语音识别系统及方法
CN112669851A (zh) * 2021-03-17 2021-04-16 北京远鉴信息技术有限公司 一种语音识别方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN106328147B (zh) 语音识别方法和装置
CN109887497B (zh) 语音识别的建模方法、装置及设备
CN105244022B (zh) 音视频字幕生成方法及装置
US20190278846A1 (en) Semantic extraction method and apparatus for natural language, and computer storage medium
CN108847241A (zh) 将会议语音识别为文本的方法、电子设备及存储介质
CN107305541A (zh) 语音识别文本分段方法及装置
CN112151005B (zh) 一种中英文混合的语音合成方法及装置
CN111369974B (zh) 一种方言发音标注方法、语言识别方法及相关装置
CN101154220A (zh) 机器翻译装置和方法
CN107239440A (zh) 一种垃圾文本识别方法和装置
WO2021103712A1 (zh) 一种基于神经网络的语音关键词检测方法、装置及系统
CN111445898B (zh) 语种识别方法、装置、电子设备和存储介质
CN112992125B (zh) 一种语音识别方法、装置、电子设备、可读存储介质
KR20170035529A (ko) 전자 기기 및 그의 음성 인식 방법
CN100592385C (zh) 用于对多语言的姓名进行语音识别的方法和系统
CN112735371B (zh) 一种基于文本信息生成说话人视频的方法及装置
CN110119443A (zh) 一种面向推荐服务的情感分析方法
CN111883137A (zh) 基于语音识别的文本处理方法及装置
CN111524503A (zh) 音频数据的处理方法、装置、音频识别设备和存储介质
CN114125506B (zh) 语音审核方法及装置
CN113535925A (zh) 语音播报方法、装置、设备及存储介质
US20230298564A1 (en) Speech synthesis method and apparatus, device, and storage medium
CN109002454B (zh) 一种确定目标单词的拼读分区的方法和电子设备
CN113724710A (zh) 语音识别方法及装置、电子设备、计算机可读存储介质
Yeh et al. Recognition of highly imbalanced code-mixed bilingual speech with frame-level language detection based on blurred posteriorgram

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20211130