CN109708256A - 一种语音确定方法、装置、存储介质及空调 - Google Patents

一种语音确定方法、装置、存储介质及空调 Download PDF

Info

Publication number
CN109708256A
CN109708256A CN201811489318.5A CN201811489318A CN109708256A CN 109708256 A CN109708256 A CN 109708256A CN 201811489318 A CN201811489318 A CN 201811489318A CN 109708256 A CN109708256 A CN 109708256A
Authority
CN
China
Prior art keywords
voice
nonsense
words
instruction
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811489318.5A
Other languages
English (en)
Other versions
CN109708256B (zh
Inventor
韩雪
张新
王慧君
毛跃辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gree Electric Appliances Inc of Zhuhai
Original Assignee
Gree Electric Appliances Inc of Zhuhai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gree Electric Appliances Inc of Zhuhai filed Critical Gree Electric Appliances Inc of Zhuhai
Priority to CN201811489318.5A priority Critical patent/CN109708256B/zh
Publication of CN109708256A publication Critical patent/CN109708256A/zh
Application granted granted Critical
Publication of CN109708256B publication Critical patent/CN109708256B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种语音确定方法、装置、存储介质及空调,该方法包括:获取用于对待控设备进行语音控制的语音指令;识别所述语音指令中是否包含设定的无意义词;若所述语音指令中包含所述无意义词,则删除所述语音指令中的所述无意义词后再进行断句拆分处理;或者,若所述语音指令中未包含所述无意义词,则直接对所述语音指令进行断句拆分处理。本发明的方案,可以解决根据语音指令的语音音频中的陡升或陡降进行语音断句存在准确性差的问题,达到提升准确性的效果。

Description

一种语音确定方法、装置、存储介质及空调
技术领域
本发明属于语音控制技术领域,具体涉及一种语音确定方法、装置、存储介质及空调,尤其涉及一种优化语音断句的方法、装置、存储介质及AI空调。
背景技术
如今,在语音指令的识别中,大部分的语音断句的方法如下:
语音设备采集到用户语音后,根据语音音频中的陡升或陡降进行语音断句,找出语音的起始点和结束点,得到语音分句。
但用户在下达语音指令的过程中,有时候会发生某些生理反应,例如打喷嚏、打哈欠、咳嗽等。如果此时继续利用原来的断句方法,得到的语音分句将会出现错误。
发明内容
本发明的目的在于,针对上述缺陷,提供一种语音确定方法、装置、存储介质及空调,以解决现有技术中根据语音指令的语音音频中的陡升或陡降进行语音断句得到语音分句的方式,在语音指令中包含语气词的情况下,存在准确性差的问题,达到提升准确性的效果。
本发明提供一种语音确定方法,包括:获取用于对待控设备进行语音控制的语音指令;识别所述语音指令中是否包含设定的无意义词;若所述语音指令中包含所述无意义词,则删除所述语音指令中的所述无意义词后再进行断句拆分处理;或者,若所述语音指令中未包含所述无意义词,则直接对所述语音指令进行断句拆分处理。
可选地,其中,获取用于对待控设备进行语音控制的语音指令,包括:获取由麦克风接收到的用于对待控设备进行语音控制的语音指令;和/或,识别所述语音指令中是否包含设定的无意义词,包括:提取所述语音指令中包含的所有词语;逐一确定所述所有词语中的每个词语是否包含在设定的无意义词范围中;若所述所有词语中有一个以上词语包含在所述无意义词范围中,则确定所述语音指令中包含所述无意义词,并将所述所有词语中包含在所述无意义词范围中的一个以上词语确定为所述无意义词。
可选地,删除所述语音指令中的所述无意义词后再进行断句拆分处理,包括:确定所述语音指令中所述无意义词的开始点和结束点,并进行标记;自所述语音指令中截取所述开始点与所述结束点之间的所述无意义词后,将所述开始点和所述结束点拼接,以将所述语音指令中除所述无意义词之外的剩余部分拼接得到新的语音指令音频;对新的语音指令音频进行断句拆分处理,以得到所需的语音分句。
可选地,对新的语音指令音频进行断句拆分处理,包括:检测新的语音指令音频中的陡升处,作为所需语音分句的语音开始处;并检测新的语音指令音频中的陡降处,作为所需语音分句的语音结束处;根据所述语音开始处与所述语音结束处对新的语音指令音频进行断句拆分,以将新的语音指令音频中处于所述语音开始处于所述语音结束处之间的部分确定为所需的语音分句。
可选地,直接对所述语音指令进行断句拆分处理,包括:检测所述语音指令的音频中的陡升处,作为所需语音分句的语音开始处;并检测所述语音指令的音频中的陡降处,作为所需语音分句的语音结束处;根据所述语音开始处与所述语音结束处对所述语音指令的音频进行断句拆分,以将所述语音指令的音频中处于所述语音开始处于所述语音结束处之间的部分确定为所需的语音分句。
可选地,还包括:建立语音检测模型,以利用所述语音检测模型识别所述语音指令中是否包含设定的无意义词;其中,建立语音检测模型,包括:搭建神经网络,并收集通用无意义词;通过所述神经网络,对所述通用无意义词进行训练,形成所需的语音检测模型。
可选地,所述无意义词,包括:用户基于生理反应发出的语气词、以及用户基于说话习惯发出的含尾音词中的至少之一;其中,所述语气词,包括:打喷嚏、打哈欠、咳嗽中的至少之一;和/或,所述含尾音词,包括:啊、嗯、哦、呃中的至少之一。
与上述方法相匹配,本发明另一方面提供一种语音确定装置,包括:获取单元,用于获取用于对待控设备进行语音控制的语音指令;确定单元,用于识别所述语音指令中是否包含设定的无意义词;所述确定单元,还用于若所述语音指令中包含所述无意义词,则删除所述语音指令中的所述无意义词后再进行断句拆分处理;或者,所述确定单元,还用于若所述语音指令中未包含所述无意义词,则直接对所述语音指令进行断句拆分处理。
可选地,其中,所述获取单元获取用于对待控设备进行语音控制的语音指令,包括:获取由麦克风接收到的用于对待控设备进行语音控制的语音指令;和/或,所述确定单元识别所述语音指令中是否包含设定的无意义词,包括:提取所述语音指令中包含的所有词语;逐一确定所述所有词语中的每个词语是否包含在设定的无意义词范围中;若所述所有词语中有一个以上词语包含在所述无意义词范围中,则确定所述语音指令中包含所述无意义词,并将所述所有词语中包含在所述无意义词范围中的一个以上词语确定为所述无意义词。
可选地,所述确定单元删除所述语音指令中的所述无意义词后再进行断句拆分处理,包括:确定所述语音指令中所述无意义词的开始点和结束点,并进行标记;自所述语音指令中截取所述开始点与所述结束点之间的所述无意义词后,将所述开始点和所述结束点拼接,以将所述语音指令中除所述无意义词之外的剩余部分拼接得到新的语音指令音频;对新的语音指令音频进行断句拆分处理,以得到所需的语音分句。
可选地,所述确定单元对新的语音指令音频进行断句拆分处理,包括:检测新的语音指令音频中的陡升处,作为所需语音分句的语音开始处;并检测新的语音指令音频中的陡降处,作为所需语音分句的语音结束处;根据所述语音开始处与所述语音结束处对新的语音指令音频进行断句拆分,以将新的语音指令音频中处于所述语音开始处于所述语音结束处之间的部分确定为所需的语音分句。
可选地,所述确定单元直接对所述语音指令进行断句拆分处理,包括:检测所述语音指令的音频中的陡升处,作为所需语音分句的语音开始处;并检测所述语音指令的音频中的陡降处,作为所需语音分句的语音结束处;根据所述语音开始处与所述语音结束处对所述语音指令的音频进行断句拆分,以将所述语音指令的音频中处于所述语音开始处于所述语音结束处之间的部分确定为所需的语音分句。
可选地,还包括:所述确定单元,还用于建立语音检测模型,以利用所述语音检测模型识别所述语音指令中是否包含设定的无意义词;其中,所述确定单元建立语音检测模型,包括:搭建神经网络,并收集通用无意义词;通过所述神经网络,对所述通用无意义词进行训练,形成所需的语音检测模型。
可选地,所述无意义词,包括:用户基于生理反应发出的语气词、以及用户基于说话习惯发出的含尾音词中的至少之一;其中,所述语气词,包括:打喷嚏、打哈欠、咳嗽中的至少之一;和/或,所述含尾音词,包括:啊、嗯、哦、呃中的至少之一。
与上述装置相匹配,本发明再一方面提供一种空调,包括:以上所述的语音确定装置。
与上述方法相匹配,本发明再一方面提供一种存储介质,包括:所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行以上所述的语音确定方法。
与上述方法相匹配,本发明再一方面提供一种空调,包括:处理器,用于执行多条指令;存储器,用于存储多条指令;其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行以上所述的语音确定方法。
本发明的方案,通过有效识别出语音指令中的语气词,并将这些无意义的词删掉,重新组合语音指令,得到新的语音音频,可以提高语音断句的准确性。
进一步,本发明的方案,通过有效识别出语音指令中的语气词,并将这些无意义的词删掉,重新组合语音指令,得到新的语音音频,可以提高语音解析成功率。
进一步,本发明的方案,通过识别并删除语音指令中的无意义词,重新组合得到新的语音音频后再进行语音断句操作,可以提高语音断句的准确性。
进一步,本发明的方案,通过识别并删除语音指令中的无意义词,重新组合得到新的语音音频后再进行语音断句操作,可以提高控制的便捷性。
进一步,本发明的方案,通过识别并删除语音指令中的无意义词,重新组合得到新的语音音频后再进行语音断句操作,可以提高用户使用的便捷性,人性化好。
由此,本发明的方案,通过识别并删除语音指令中的无意义词,重新组合得到新的语音音频后再进行语音断句操作,解决现有技术中根据语音指令的语音音频中的陡升或陡降进行语音断句得到语音分句的方式,在语音指令中包含语气词的情况下,存在准确性差的问题,从而,克服现有技术中指令判断的准确性差、影响控制的便捷性和用户体验的缺陷,实现指令判断的准确性好、有利于提升控制的便捷性和用户体验的有益效果。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的语音确定方法的一实施例的流程示意图;
图2为本发明的方法中识别所述语音指令中是否包含设定的无意义词的一实施例的流程示意图;
图3为本发明的方法中删除所述语音指令中的所述无意义词后再进行断句拆分处理的一实施例的流程示意图;
图4为本发明的方法中对新的语音指令音频进行断句拆分处理的一实施例的流程示意图;
图5为本发明的方法中直接对所述语音指令进行断句拆分处理的一实施例的流程示意图;
图6为本发明的方法中建立语音检测模型的一实施例的流程示意图;
图7为本发明的语音确定装置的一实施例的结构示意图;
图8为声音的波形示意图;
图9为本发明的空调的一实施例的优化语音断句的流程示意图。
结合附图,本发明实施例中附图标记如下:
102-获取单元;104-确定单元。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种语音确定方法,如图1所示本发明的方法的一实施例的流程示意图。该语音确定方法可以包括:步骤S110至步骤S140。
在步骤S110处,获取可以用于对待控设备进行语音控制的语音指令。
可选地,步骤S110中获取可以用于对待控设备进行语音控制的语音指令,可以包括:获取由麦克风接收到的可以用于对待控设备进行语音控制的语音指令。
例如:语音设备的麦克风录入用户语音指令。
由此,通过获取由麦克风接收到的语音指令,获取方式简便、且获取结果的可靠性高。
在步骤S120处,识别所述语音指令中是否包含设定的无意义词。
例如:利用语音检测模型检测语音指令中是否包含无意义的语气词。
具体地,所述无意义词,可以包括:用户基于生理反应发出的语气词、以及用户基于说话习惯发出的含尾音词中的至少之一。
其中,所述语气词,可以包括:打喷嚏、打哈欠、咳嗽中的至少之一;和/或,所述含尾音词,可以包括:啊、嗯、哦、呃中的至少之一。
由此,通过多种形式的无意义词,有利于提升对语音分句处理的精准性和可靠性,而且还可以扩大适用范围,用户的使用便捷性和可靠性更好。
可选地,可以结合图2所示本发明的方法中识别所述语音指令中是否包含设定的无意义词的一实施例流程示意图,进一步说明步骤S120中识别所述语音指令中是否包含设定的无意义词的具体过程,可以包括:步骤S210至步骤S230。
步骤S210,提取所述语音指令中包含的所有词语。
步骤S220,逐一确定所述所有词语中的每个词语是否包含在设定的无意义词范围中。
步骤S230,若所述所有词语中有一个以上词语包含在所述无意义词范围中,则确定所述语音指令中包含所述无意义词,并将所述所有词语中包含在所述无意义词范围中的一个以上词语确定为所述无意义词。
由此,通过逐一识别语音指令中包含的所有词语是否在设定的无意义词范围中,并将该所有词语中包含在该无意义词范围中的一个以上词语确定为该语音指令中的无意义词,可以方便而精准地识别出该语音指令中的无意义词,识别的精准性好、可靠性高。
在步骤S130处,若所述语音指令中包含所述无意义词,则删除所述语音指令中的所述无意义词后再进行断句拆分处理,得到所需的语音分句。
例如:能够有效识别出语音指令中的语气词,并将这些无意义的词(例如:语气词)删掉,重新组合语音指令,得到新的语音音频,能够提高语音断句的准确性,提高语音解析成功率。如:通过识别并删除语音指令中的无意义词,重新组合得到新的语音音频后再进行语音断句操作,以此提高语音解析的准确率。
可选地,可以结合图3所示本发明的方法中删除所述语音指令中的所述无意义词后再进行断句拆分处理的一实施例流程示意图,进一步说明步骤S130中删除所述语音指令中的所述无意义词后再进行断句拆分处理的具体过程,可以包括:步骤S310至步骤S330。
步骤S310,确定所述语音指令中所述无意义词的开始点和结束点,并进行标记。
例如:如果包含语气词,利用语音检测模型检测用户语音指令中语气词的开始点与结束点,并进行标记。
步骤S320,自所述语音指令中截取所述开始点与所述结束点之间的所述无意义词后,将所述开始点和所述结束点拼接,以将所述语音指令中除所述无意义词之外的剩余部分拼接得到新的语音指令音频。
例如:根据语气词的开始点与结束点,将语气词从用户语音指令中截取出来,并把之前标记的开始点与结束点拼接在一起,得到新的语音指令音频。
步骤S330,对新的语音指令音频进行断句拆分处理,以得到所需的语音分句,实现对所述语音指令中所包含语音分句的确定。
由此,通过对语音指令中的无意义词的开始点和结束点进行标记,并在截取该语音指令中的无意义词之后将剩余部分通过标记的开始点和结束点拼接而形成新的语音指令音频,进而对该新的语音指令音频进行断句拆分处理,可以实现对包含无意义词的语音指令的精准而可靠地断句拆分处理,有利于提升语音控制的可靠性和便捷性。
更可选地,结合图4所示本发明的方法中对新的语音指令音频进行断句拆分处理的一实施例流程示意图,进一步说明步骤S330中对新的语音指令音频进行断句拆分处理的具体过程,可以包括:步骤S410和步骤S420。
步骤S410,检测新的语音指令音频中的陡升处,作为所需语音分句的语音开始处。并检测新的语音指令音频中的陡降处,作为所需语音分句的语音结束处。
步骤S420,根据所述语音开始处与所述语音结束处对新的语音指令音频进行断句拆分,以将新的语音指令音频中处于所述语音开始处于所述语音结束处之间的部分确定为所需的语音分句。
例如:检测新得到的语音指令音频中的陡升处,作为语音分句开始的地方,语音音频中的陡降处,作为语音分句结束的地方,以此方法对语音音频进行断句拆分,得到语音音频的语音分句。
由此,通过检测新的语音指令音频中的陡升处和陡降处,作为语音分句的语音开始处和语音结束处,进而根据该语音开始处和语音结束处进行断句拆分,得到所需的语音分句,拆分方式简便,且拆分结果的精准性好、可靠性高。
或者,在步骤S140处,若所述语音指令中未包含所述无意义词,则直接对所述语音指令进行断句拆分处理,得到所需语音分句。
由此,通过在识别到对待控设备的语音指令中包含设定的无意义词的情况下,删除该语音指令中的无意义词后再进行断句拆分处理,可以提升对所需语音分句处理的精准性和可靠性,进而有利于提升基于语音指令控制待控设备的控制可靠性和便捷性。
可选地,结合图5所示本发明的方法中直接对所述语音指令进行断句拆分处理的一实施例流程示意图,进一步说明步骤S140中直接对所述语音指令进行断句拆分处理的具体过程,可以包括:步骤S510和步骤S520。
步骤S510,检测所述语音指令的音频中的陡升处,作为所需语音分句的语音开始处。并检测所述语音指令的音频中的陡降处,作为所需语音分句的语音结束处。
步骤S520,根据所述语音开始处与所述语音结束处对所述语音指令的音频进行断句拆分,以将所述语音指令的音频中处于所述语音开始处于所述语音结束处之间的部分确定为所需的语音分句。
例如:若语音音频中不包含语气词,则直接根据用户音频中的陡升与陡降处对语音音频进行断句拆分,得到语音分句。
由此,通过检测语音指令的音频中的陡升处和陡降处,作为语音分句的语音开始处和语音结束处,进而根据该语音开始处和语音结束处进行断句拆分,得到所需的语音分句,拆分方式简便,且拆分结果的精准性好、可靠性高。
在一个可选实施方式中,还可以包括:在识别所述语音指令中是否包含设定的无意义词之前,建立语音检测模型,以利用所述语音检测模型识别所述语音指令中是否包含设定的无意义词。
例如:建立语音检测模型。
其中,可以结合图6所示本发明的方法中建立语音检测模型的一实施例流程示意图,进一步说明建立语音检测模型的具体过程,可以包括:步骤S610和步骤S620。
步骤S610,搭建神经网络,并收集通用无意义词。其中,该通用无意义词,可以包括:大多数人的日常用语,可以来自网络或日常生活。
步骤S620,通过所述神经网络,对所述通用无意义词进行训练,形成所需的语音检测模型。
例如:搭建神经网络,建立语音检测模型,将人打喷嚏、打哈欠、咳嗽、以及嗯~、呃~等这种尾音很长的人声输入到语音检测模型中,进行大量的训练,得到能识别人语气词的模型。
由此,通过搭建神经网络对收集的通用无意义词进行训练,形成所需的语音检测模型,从而可以利用该语音检测模型对语音指令中的无意义词进行识别,以提升对语音指令中无意义词识别的便捷性和精准性。
经大量的试验验证,采用本实施例的技术方案,通过有效识别出语音指令中的语气词,并将这些无意义的词删掉,重新组合语音指令,得到新的语音音频,可以提高语音断句的准确性。
根据本发明的实施例,还提供了对应于语音确定方法的一种语音确定装置。参见图7所示本发明的装置的一实施例的结构示意图。该语音确定装置可以包括:获取单元102和确定单元104。
在一个可选例子中,获取单元102,可以用于获取可以用于对待控设备进行语音控制的语音指令。该获取单元102的具体功能及处理参见步骤S110。
例如:语音设备的麦克风录入用户语音指令。
由此,通过获取由麦克风接收到的语音指令,获取方式简便、且获取结果的可靠性高。
可选地,所述获取单元102获取可以用于对待控设备进行语音控制的语音指令,可以包括:所述获取单元102,具体还可以用于获取由麦克风接收到的可以用于对待控设备进行语音控制的语音指令。
在一个可选例子中,确定单元104,可以用于识别所述语音指令中是否包含设定的无意义词。该确定单元104的具体功能及处理参见步骤S120。
例如:利用语音检测模型检测语音指令中是否包含无意义的语气词。
具体地,所述无意义词,可以包括:用户基于生理反应发出的语气词、以及用户基于说话习惯发出的含尾音词中的至少之一。
其中,所述语气词,可以包括:打喷嚏、打哈欠、咳嗽中的至少之一;和/或,所述含尾音词,可以包括:啊、嗯、哦、呃中的至少之一。
由此,通过多种形式的无意义词,有利于提升对语音分句处理的精准性和可靠性,而且还可以扩大适用范围,用户的使用便捷性和可靠性更好。
可选地,所述确定单元104识别所述语音指令中是否包含设定的无意义词,可以包括:
所述确定单元104,具体还可以用于提取所述语音指令中包含的所有词语。该确定单元104的具体功能及处理还参见步骤S210。
所述确定单元104,具体还可以用于逐一确定所述所有词语中的每个词语是否包含在设定的无意义词范围中。该确定单元104的具体功能及处理还参见步骤S220。
所述确定单元104,具体还可以用于若所述所有词语中有一个以上词语包含在所述无意义词范围中,则确定所述语音指令中包含所述无意义词,并将所述所有词语中包含在所述无意义词范围中的一个以上词语确定为所述无意义词。该确定单元104的具体功能及处理还参见步骤S230。
由此,通过逐一识别语音指令中包含的所有词语是否在设定的无意义词范围中,并将该所有词语中包含在该无意义词范围中的一个以上词语确定为该语音指令中的无意义词,可以方便而精准地识别出该语音指令中的无意义词,识别的精准性好、可靠性高。
在一个可选例子中,所述确定单元104,还可以用于若所述语音指令中包含所述无意义词,则删除所述语音指令中的所述无意义词后再进行断句拆分处理,得到所需的语音分句。该确定单元104的具体功能及处理还参见步骤S130。
例如:能够有效识别出语音指令中的语气词,并将这些无意义的词(例如:语气词)删掉,重新组合语音指令,得到新的语音音频,能够提高语音断句的准确性,提高语音解析成功率。如:通过识别并删除语音指令中的无意义词,重新组合得到新的语音音频后再进行语音断句操作,以此提高语音解析的准确率。
可选地,10.根据权利要求8或9所述的装置,其特征在于,所述确定单元104删除所述语音指令中的所述无意义词后再进行断句拆分处理,可以包括:
所述确定单元104,具体还可以用于确定所述语音指令中所述无意义词的开始点和结束点,并进行标记。该确定单元104的具体功能及处理还参见步骤S310。
例如:如果包含语气词,利用语音检测模型检测用户语音指令中语气词的开始点与结束点,并进行标记。
所述确定单元104,具体还可以用于自所述语音指令中截取所述开始点与所述结束点之间的所述无意义词后,将所述开始点和所述结束点拼接,以将所述语音指令中除所述无意义词之外的剩余部分拼接得到新的语音指令音频。该确定单元104的具体功能及处理还参见步骤S320。
例如:根据语气词的开始点与结束点,将语气词从用户语音指令中截取出来,并把之前标记的开始点与结束点拼接在一起,得到新的语音指令音频。
所述确定单元104,具体还可以用于对新的语音指令音频进行断句拆分处理,以得到所需的语音分句,实现对所述语音指令中所包含语音分句的确定。该确定单元104的具体功能及处理还参见步骤S330。
由此,通过对语音指令中的无意义词的开始点和结束点进行标记,并在截取该语音指令中的无意义词之后将剩余部分通过标记的开始点和结束点拼接而形成新的语音指令音频,进而对该新的语音指令音频进行断句拆分处理,可以实现对包含无意义词的语音指令的精准而可靠地断句拆分处理,有利于提升语音控制的可靠性和便捷性。
更可选地,所述确定单元104对新的语音指令音频进行断句拆分处理,可以包括:
所述确定单元104,具体还可以用于检测新的语音指令音频中的陡升处,作为所需语音分句的语音开始处。并检测新的语音指令音频中的陡降处,作为所需语音分句的语音结束处。该确定单元104的具体功能及处理还参见步骤S410。
所述确定单元104,具体还可以用于根据所述语音开始处与所述语音结束处对新的语音指令音频进行断句拆分,以将新的语音指令音频中处于所述语音开始处于所述语音结束处之间的部分确定为所需的语音分句。该确定单元104的具体功能及处理还参见步骤S420。
例如:检测新得到的语音指令音频中的陡升处,作为语音分句开始的地方,语音音频中的陡降处,作为语音分句结束的地方,以此方法对语音音频进行断句拆分,得到语音音频的语音分句。
由此,通过检测新的语音指令音频中的陡升处和陡降处,作为语音分句的语音开始处和语音结束处,进而根据该语音开始处和语音结束处进行断句拆分,得到所需的语音分句,拆分方式简便,且拆分结果的精准性好、可靠性高。
或者,在一个可选例子中,所述确定单元104,还可以用于若所述语音指令中未包含所述无意义词,则直接对所述语音指令进行断句拆分处理,得到所需语音分句。该确定单元104的具体功能及处理还参见步骤S140。
由此,通过在识别到对待控设备的语音指令中包含设定的无意义词的情况下,删除该语音指令中的无意义词后再进行断句拆分处理,可以提升对所需语音分句处理的精准性和可靠性,进而有利于提升基于语音指令控制待控设备的控制可靠性和便捷性。
可选地,所述确定单元104直接对所述语音指令进行断句拆分处理,可以包括:
所述确定单元104,具体还可以用于检测所述语音指令的音频中的陡升处,作为所需语音分句的语音开始处。并检测所述语音指令的音频中的陡降处,作为所需语音分句的语音结束处。该确定单元104的具体功能及处理还参见步骤S510。
所述确定单元104,具体还可以用于根据所述语音开始处与所述语音结束处对所述语音指令的音频进行断句拆分,以将所述语音指令的音频中处于所述语音开始处于所述语音结束处之间的部分确定为所需的语音分句。该确定单元104的具体功能及处理还参见步骤S520。
例如:若语音音频中不包含语气词,则直接根据用户音频中的陡升与陡降处对语音音频进行断句拆分,得到语音分句。
由此,通过检测语音指令的音频中的陡升处和陡降处,作为语音分句的语音开始处和语音结束处,进而根据该语音开始处和语音结束处进行断句拆分,得到所需的语音分句,拆分方式简便,且拆分结果的精准性好、可靠性高。
在一个可选实施方式中,还可以包括:所述确定单元104,还可以用于在识别所述语音指令中是否包含设定的无意义词之前,建立语音检测模型,以利用所述语音检测模型识别所述语音指令中是否包含设定的无意义词。
例如:建立语音检测模型。
其中,所述确定单元104建立语音检测模型,可以包括:
所述确定单元104,具体还可以用于搭建神经网络,并收集通用无意义词。该确定单元104的具体功能及处理还参见步骤S610。其中,该通用无意义词,可以包括:大多数人的日常用语,可以来自网络或日常生活。
所述确定单元104,具体还可以用于通过所述神经网络,对所述通用无意义词进行训练,形成所需的语音检测模型。该确定单元104的具体功能及处理还参见步骤S620。
例如:搭建神经网络,建立语音检测模型,将人打喷嚏、打哈欠、咳嗽、以及嗯~、呃~等这种尾音很长的人声输入到语音检测模型中,进行大量的训练,得到能识别人语气词的模型。
由此,通过搭建神经网络对收集的通用无意义词进行训练,形成所需的语音检测模型,从而可以利用该语音检测模型对语音指令中的无意义词进行识别,以提升对语音指令中无意义词识别的便捷性和精准性。
由于本实施例的装置所实现的处理及功能基本相应于前述图1至图6所示的方法的实施例、原理和实例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
经大量的试验验证,采用本发明的技术方案,通过有效识别出语音指令中的语气词,并将这些无意义的词删掉,重新组合语音指令,得到新的语音音频,可以提高语音解析成功率。
根据本发明的实施例,还提供了对应于语音确定装置的一种空调。该空调可以包括:以上所述的语音确定装置。
在一个可选实施方式中,本发明的方案,提出一种优化语音断句的方法,该方法能够有效识别出语音指令中的语气词,并将这些无意义的词(例如:语气词)删掉,重新组合语音指令,得到新的语音音频;从而,能够提高语音断句的准确性,提高语音解析成功率。
在一个可选例子中,本发明的方案,通过识别并删除语音指令中的无意义词,重新组合得到新的语音音频后再进行语音断句操作,以此提高语音解析的准确率。
在一个可选具体实施方式中,可以参见图7和图8所示的例子,对本发明的方案的具体实现过程进行示例性说明。
一般进行语音断句的时候,是根据语音音频中的陡升或陡降对语音进行断句拆分,可是如果用户在下达语音指令的过程中,突然遇到打喷嚏、打哈欠、咳嗽等生理反应,而且用户在这些生理反应后,需要缓一会方能继续说话,这个停顿时间会在语音音频中产生一个陡升或陡降的现象。如果继续按照陡升或陡降的方法对语音音频进行断句,肯定得到错误的语音分句。
在一个可选具体例子中,参见图8所示的例子,本发明的方案提供的优化语音断句的方法,可以包括:
步骤1、建立语音检测模型
搭建神经网络,建立语音检测模型,将人打喷嚏、打哈欠、咳嗽、以及嗯~、呃~等这种尾音很长的人声输入到语音检测模型中,进行大量的训练,得到能识别人语气词的模型。
步骤2、断句优化过程
语音设备的麦克风录入用户语音指令,利用语音检测模型检测语音指令中是否包含无意义的语气词(例如:该检测方法与检测用户语音指令的开始点与结束点的方法是一致的,对截取出来的待选语气词进行匹配,确定其的确是无意义的语气词)。如果包含语气词,利用语音检测模型检测用户语音指令中语气词的开始点与结束点,并进行标记。根据语气词的开始点与结束点,将语气词从用户语音指令中截取出来,并把之前标记的开始点与结束点(例如:语气词的开始点与结束点)拼接在一起,得到新的语音指令音频。检测新得到的语音指令音频中的陡升处,作为语音分句开始的地方,语音音频中的陡降处,作为语音分句结束的地方,以此方法对语音音频进行断句拆分,得到语音音频的语音分句。若语音音频中不包含语气词,则直接根据用户音频中的陡升与陡降处对语音音频进行断句拆分,得到语音分句。
例如:图7为一个声音的波形图,陡增的地方判断为有效语音的起始点,陡降的地方判断为有效语音的结束点,起始点与结束点之间为有效语音。但当用户在下达语音的过程中,打了一个喷嚏,会导致有效语音区域中出现一个陡降与陡升的曲线,这样将会导致语音断句出错。
由于本实施例的空调所实现的处理及功能基本相应于前述图7所示的装置的实施例、原理和实例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
经大量的试验验证,采用本发明的技术方案,通过识别并删除语音指令中的无意义词,重新组合得到新的语音音频后再进行语音断句操作,可以提高语音断句的准确性。
根据本发明的实施例,还提供了对应于语音确定方法的一种存储介质。该存储介质,可以包括:所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行以上所述的语音确定方法。
由于本实施例的存储介质所实现的处理及功能基本相应于前述图1至图6所示的方法的实施例、原理和实例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
经大量的试验验证,采用本发明的技术方案,通过识别并删除语音指令中的无意义词,重新组合得到新的语音音频后再进行语音断句操作,可以提高控制的便捷性。
根据本发明的实施例,还提供了对应于语音确定方法的一种空调。该空调,可以包括:处理器,用于执行多条指令;存储器,用于存储多条指令;其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行以上所述的语音确定方法。
由于本实施例的空调所实现的处理及功能基本相应于前述图1至图6所示的方法的实施例、原理和实例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
经大量的试验验证,采用本发明的技术方案,通过识别并删除语音指令中的无意义词,重新组合得到新的语音音频后再进行语音断句操作,可以提高用户使用的便捷性,人性化好。
综上,本领域技术人员容易理解的是,在不冲突的前提下,上述各有利方式可以自由地组合、叠加。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (17)

1.一种语音确定方法,其特征在于,包括:
获取用于对待控设备进行语音控制的语音指令;
识别所述语音指令中是否包含设定的无意义词;
若所述语音指令中包含所述无意义词,则删除所述语音指令中的所述无意义词后再进行断句拆分处理;
或者,若所述语音指令中未包含所述无意义词,则直接对所述语音指令进行断句拆分处理。
2.根据权利要求1所述的方法,其特征在于,其中,
获取用于对待控设备进行语音控制的语音指令,包括:
获取由麦克风接收到的用于对待控设备进行语音控制的语音指令;
和/或,
识别所述语音指令中是否包含设定的无意义词,包括:
提取所述语音指令中包含的所有词语;
逐一确定所述所有词语中的每个词语是否包含在设定的无意义词范围中;
若所述所有词语中有一个以上词语包含在所述无意义词范围中,则确定所述语音指令中包含所述无意义词,并将所述所有词语中包含在所述无意义词范围中的一个以上词语确定为所述无意义词。
3.根据权利要求1或2所述的方法,其特征在于,删除所述语音指令中的所述无意义词后再进行断句拆分处理,包括:
确定所述语音指令中所述无意义词的开始点和结束点,并进行标记;
自所述语音指令中截取所述开始点与所述结束点之间的所述无意义词后,将所述开始点和所述结束点拼接,以将所述语音指令中除所述无意义词之外的剩余部分拼接得到新的语音指令音频;
对新的语音指令音频进行断句拆分处理,以得到所需的语音分句。
4.根据权利要求3所述的方法,其特征在于,对新的语音指令音频进行断句拆分处理,包括:
检测新的语音指令音频中的陡升处,作为所需语音分句的语音开始处;并检测新的语音指令音频中的陡降处,作为所需语音分句的语音结束处;
根据所述语音开始处与所述语音结束处对新的语音指令音频进行断句拆分,以将新的语音指令音频中处于所述语音开始处于所述语音结束处之间的部分确定为所需的语音分句。
5.根据权利要求1-4之一所述的方法,其特征在于,直接对所述语音指令进行断句拆分处理,包括:
检测所述语音指令的音频中的陡升处,作为所需语音分句的语音开始处;并检测所述语音指令的音频中的陡降处,作为所需语音分句的语音结束处;
根据所述语音开始处与所述语音结束处对所述语音指令的音频进行断句拆分,以将所述语音指令的音频中处于所述语音开始处于所述语音结束处之间的部分确定为所需的语音分句。
6.根据权利要求1-5之一所述的方法,其特征在于,还包括:
建立语音检测模型,以利用所述语音检测模型识别所述语音指令中是否包含设定的无意义词;
其中,
建立语音检测模型,包括:
搭建神经网络,并收集通用无意义词;
通过所述神经网络,对所述通用无意义词进行训练,形成所需的语音检测模型。
7.根据权利要求1-6之一所述的方法,其特征在于,所述无意义词,包括:用户基于生理反应发出的语气词、以及用户基于说话习惯发出的含尾音词中的至少之一;其中,
所述语气词,包括:打喷嚏、打哈欠、咳嗽中的至少之一;和/或,
所述含尾音词,包括:啊、嗯、哦、呃中的至少之一。
8.一种语音确定装置,其特征在于,包括:
获取单元,用于获取用于对待控设备进行语音控制的语音指令;
确定单元,用于识别所述语音指令中是否包含设定的无意义词;
所述确定单元,还用于若所述语音指令中包含所述无意义词,则删除所述语音指令中的所述无意义词后再进行断句拆分处理;
或者,所述确定单元,还用于若所述语音指令中未包含所述无意义词,则直接对所述语音指令进行断句拆分处理。
9.根据权利要求8所述的装置,其特征在于,其中,
所述获取单元获取用于对待控设备进行语音控制的语音指令,包括:
获取由麦克风接收到的用于对待控设备进行语音控制的语音指令;
和/或,
所述确定单元识别所述语音指令中是否包含设定的无意义词,包括:
提取所述语音指令中包含的所有词语;
逐一确定所述所有词语中的每个词语是否包含在设定的无意义词范围中;
若所述所有词语中有一个以上词语包含在所述无意义词范围中,则确定所述语音指令中包含所述无意义词,并将所述所有词语中包含在所述无意义词范围中的一个以上词语确定为所述无意义词。
10.根据权利要求8或9所述的装置,其特征在于,所述确定单元删除所述语音指令中的所述无意义词后再进行断句拆分处理,包括:
确定所述语音指令中所述无意义词的开始点和结束点,并进行标记;
自所述语音指令中截取所述开始点与所述结束点之间的所述无意义词后,将所述开始点和所述结束点拼接,以将所述语音指令中除所述无意义词之外的剩余部分拼接得到新的语音指令音频;
对新的语音指令音频进行断句拆分处理,以得到所需的语音分句。
11.根据权利要求10所述的装置,其特征在于,所述确定单元对新的语音指令音频进行断句拆分处理,包括:
检测新的语音指令音频中的陡升处,作为所需语音分句的语音开始处;并检测新的语音指令音频中的陡降处,作为所需语音分句的语音结束处;
根据所述语音开始处与所述语音结束处对新的语音指令音频进行断句拆分,以将新的语音指令音频中处于所述语音开始处于所述语音结束处之间的部分确定为所需的语音分句。
12.根据权利要求8-11之一所述的装置,其特征在于,所述确定单元直接对所述语音指令进行断句拆分处理,包括:
检测所述语音指令的音频中的陡升处,作为所需语音分句的语音开始处;并检测所述语音指令的音频中的陡降处,作为所需语音分句的语音结束处;
根据所述语音开始处与所述语音结束处对所述语音指令的音频进行断句拆分,以将所述语音指令的音频中处于所述语音开始处于所述语音结束处之间的部分确定为所需的语音分句。
13.根据权利要求8-12之一所述的装置,其特征在于,还包括:
所述确定单元,还用于建立语音检测模型,以利用所述语音检测模型识别所述语音指令中是否包含设定的无意义词;
其中,
所述确定单元建立语音检测模型,包括:
搭建神经网络,并收集通用无意义词;
通过所述神经网络,对所述通用无意义词进行训练,形成所需的语音检测模型。
14.根据权利要求8-13之一所述的装置,其特征在于,所述无意义词,包括:用户基于生理反应发出的语气词、以及用户基于说话习惯发出的含尾音词中的至少之一;其中,
所述语气词,包括:打喷嚏、打哈欠、咳嗽中的至少之一;和/或,
所述含尾音词,包括:啊、嗯、哦、呃中的至少之一。
15.一种空调,其特征在于,包括:如权利要求8-14任一所述的语音确定装置。
16.一种存储介质,其特征在于,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如权利要求1-7任一所述的语音确定方法。
17.一种空调,其特征在于,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如权利要求1-7任一所述的语音确定方法。
CN201811489318.5A 2018-12-06 2018-12-06 一种语音确定方法、装置、存储介质及空调 Active CN109708256B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811489318.5A CN109708256B (zh) 2018-12-06 2018-12-06 一种语音确定方法、装置、存储介质及空调

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811489318.5A CN109708256B (zh) 2018-12-06 2018-12-06 一种语音确定方法、装置、存储介质及空调

Publications (2)

Publication Number Publication Date
CN109708256A true CN109708256A (zh) 2019-05-03
CN109708256B CN109708256B (zh) 2020-07-03

Family

ID=66254691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811489318.5A Active CN109708256B (zh) 2018-12-06 2018-12-06 一种语音确定方法、装置、存储介质及空调

Country Status (1)

Country Link
CN (1) CN109708256B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110459224A (zh) * 2019-07-31 2019-11-15 北京百度网讯科技有限公司 语音识别结果处理方法、装置、计算机设备及存储介质
CN111259163A (zh) * 2020-01-14 2020-06-09 北京明略软件系统有限公司 一种知识图谱的生成方法和装置及计算机可读存储介质
CN113314108A (zh) * 2021-06-16 2021-08-27 深圳前海微众银行股份有限公司 语音数据的处理方法、装置、设备、存储介质和程序产品
CN113596579A (zh) * 2021-07-29 2021-11-02 北京字节跳动网络技术有限公司 视频生成方法、装置、介质及电子设备
CN113613068A (zh) * 2021-08-03 2021-11-05 北京字跳网络技术有限公司 视频的处理方法、装置、电子设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0392900A (ja) * 1989-09-06 1991-04-18 Hitachi Ltd 音声認識制御装置
CN103544952A (zh) * 2012-07-12 2014-01-29 百度在线网络技术(北京)有限公司 语音自适应方法、装置及系统
CN103824560A (zh) * 2014-03-18 2014-05-28 上海言海网络信息技术有限公司 中文语音识别系统
CN105551485A (zh) * 2015-11-30 2016-05-04 讯飞智元信息科技有限公司 语音文件检索方法及系统
CN105609107A (zh) * 2015-12-23 2016-05-25 北京奇虎科技有限公司 一种基于语音识别的文本处理方法和装置
CN104464723B (zh) * 2014-12-16 2018-03-20 科大讯飞股份有限公司 一种语音交互方法及系统
CN108847241A (zh) * 2018-06-07 2018-11-20 平安科技(深圳)有限公司 将会议语音识别为文本的方法、电子设备及存储介质
CN108845979A (zh) * 2018-05-25 2018-11-20 科大讯飞股份有限公司 一种语音转写方法、装置、设备及可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0392900A (ja) * 1989-09-06 1991-04-18 Hitachi Ltd 音声認識制御装置
CN103544952A (zh) * 2012-07-12 2014-01-29 百度在线网络技术(北京)有限公司 语音自适应方法、装置及系统
CN103824560A (zh) * 2014-03-18 2014-05-28 上海言海网络信息技术有限公司 中文语音识别系统
CN104464723B (zh) * 2014-12-16 2018-03-20 科大讯飞股份有限公司 一种语音交互方法及系统
CN105551485A (zh) * 2015-11-30 2016-05-04 讯飞智元信息科技有限公司 语音文件检索方法及系统
CN105609107A (zh) * 2015-12-23 2016-05-25 北京奇虎科技有限公司 一种基于语音识别的文本处理方法和装置
CN108845979A (zh) * 2018-05-25 2018-11-20 科大讯飞股份有限公司 一种语音转写方法、装置、设备及可读存储介质
CN108847241A (zh) * 2018-06-07 2018-11-20 平安科技(深圳)有限公司 将会议语音识别为文本的方法、电子设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110459224A (zh) * 2019-07-31 2019-11-15 北京百度网讯科技有限公司 语音识别结果处理方法、装置、计算机设备及存储介质
CN110459224B (zh) * 2019-07-31 2022-02-25 北京百度网讯科技有限公司 语音识别结果处理方法、装置、计算机设备及存储介质
CN111259163A (zh) * 2020-01-14 2020-06-09 北京明略软件系统有限公司 一种知识图谱的生成方法和装置及计算机可读存储介质
CN113314108A (zh) * 2021-06-16 2021-08-27 深圳前海微众银行股份有限公司 语音数据的处理方法、装置、设备、存储介质和程序产品
CN113314108B (zh) * 2021-06-16 2024-02-13 深圳前海微众银行股份有限公司 语音数据的处理方法、装置、设备、存储介质和程序产品
CN113596579A (zh) * 2021-07-29 2021-11-02 北京字节跳动网络技术有限公司 视频生成方法、装置、介质及电子设备
CN113613068A (zh) * 2021-08-03 2021-11-05 北京字跳网络技术有限公司 视频的处理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN109708256B (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN109708256B (zh) 一种语音确定方法、装置、存储介质及空调
CN109410664B (zh) 一种发音纠正方法及电子设备
CN108182937B (zh) 关键词识别方法、装置、设备及存储介质
CN111341305B (zh) 一种音频数据标注方法、装置及系统
KR101183344B1 (ko) 사용자 정정들을 이용한 자동 음성 인식 학습
CN109902957B (zh) 一种数据处理方法和装置
EP3933831B1 (en) Control method and control apparatus for speech interaction, electronic device, storage medium, and system
CN105654943A (zh) 一种语音唤醒方法、装置及系统
CN109545197B (zh) 语音指令的识别方法、装置和智能终端
CN108536668B (zh) 唤醒词评估方法及装置、存储介质、电子设备
CN109979474B (zh) 语音设备及其用户语速修正方法、装置和存储介质
US9251808B2 (en) Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof
CN111833902B (zh) 唤醒模型训练方法、唤醒词识别方法、装置及电子设备
CN101510423B (zh) 一种分层次、交互式发音质量评估与诊断系统
CN111951825A (zh) 一种发音测评方法、介质、装置和计算设备
JP6915637B2 (ja) 情報処理装置、情報処理方法、およびプログラム
KR102296878B1 (ko) 외국어 학습평가장치
CN112002349B (zh) 一种语音端点检测方法及装置
CN110808050B (zh) 语音识别方法及智能设备
CN115150660B (zh) 一种基于字幕的视频编辑方法和相关设备
CN109859752A (zh) 一种语音控制方法、装置、存储介质及语音联控系统
CN117636872A (zh) 音频处理方法、装置、电子设备和可读存储介质
CN114171000A (zh) 一种基于声学模型和语言模型的音频识别方法
CN117292688A (zh) 一种基于智能语音鼠标的控制方法及智能语音鼠标
CN109902306B (zh) 一种语音识别方法、装置、存储介质及语音设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant