CN113744736B - 命令词识别方法、装置、电子设备及存储介质 - Google Patents

命令词识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113744736B
CN113744736B CN202111049251.5A CN202111049251A CN113744736B CN 113744736 B CN113744736 B CN 113744736B CN 202111049251 A CN202111049251 A CN 202111049251A CN 113744736 B CN113744736 B CN 113744736B
Authority
CN
China
Prior art keywords
voice
candidate
target
frame
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111049251.5A
Other languages
English (en)
Other versions
CN113744736A (zh
Inventor
郭震
陈孝良
李智勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202111049251.5A priority Critical patent/CN113744736B/zh
Publication of CN113744736A publication Critical patent/CN113744736A/zh
Application granted granted Critical
Publication of CN113744736B publication Critical patent/CN113744736B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种命令词识别方法、装置、电子设备及存储介质,属于语音识别技术领域。该方法包括:对目标语音的多帧语音特征进行识别,得到目标文本、第一匹配度和第二匹配度,第一匹配度为多个候选音素与语音特征之间的匹配度中的最大值,第二匹配度为语音特征的目标音素与语音特征之间的匹配度;基于第一匹配度确定第一声学参数;基于第二匹配度确定第二声学参数;基于第一声学参数和第二声学参数确定声学置信度,声学置信度与第一声学参数负相关且与第二声学参数正相关;在目标文本包括命令词且声学置信度大于置信度阈值的情况下,执行命令词对应的指令。本申请在准确确定语音包括命令词的情况下,执行对应的指令,提高了语音控制的准确性。

Description

命令词识别方法、装置、电子设备及存储介质
技术领域
本申请涉及语音识别技术领域,特别涉及一种命令词识别方法、装置、电子设备及存储介质。
背景技术
随着语音识别技术的不断发展,通过语音控制电子设备的应用也越来越广泛。用户可以向电子设备发出语音,指示电子设备执行相应的操作。例如,用户向智能电梯发出“去十楼”的语音,控制智能电梯运行至十楼。
当前,在语音控制场景中,电子设备通常基于语音识别技术,将语音识别为文本,在文本包括命令词的情况下,执行该命令词对应的指令。但是,仅考虑语音识别到的文本是否包括命令词,难以保证语音控制的准确性。
发明内容
本申请实施例提供了一种命令词识别方法、装置、电子设备及存储介质,能够提高语音控制的准确性。所述技术方案如下:
根据本申请实施例的一方面,提供了一种命令词识别方法,所述方法包括:
对目标语音的多帧语音特征进行识别,得到目标文本、每帧语音特征对应的第一匹配度和第二匹配度,所述第一匹配度为多个候选音素与所述语音特征之间的匹配度中的最大值,所述第二匹配度为所述语音特征的目标音素与所述语音特征之间的匹配度,所述目标音素是从所述多个候选音素中选取的,所述目标文本基于所述多帧语音特征的目标音素确定;
基于所述多帧语音特征分别对应的多个第一匹配度,确定第一声学参数,以及,基于所述多帧语音特征分别对应的多个第二匹配度,确定第二声学参数;
基于所述第一声学参数和所述第二声学参数,确定所述目标文本与所述目标语音之间的声学置信度,所述声学置信度与所述第一声学参数负相关,且与所述第二声学参数正相关;
在所述目标文本包括命令词,且所述声学置信度大于置信度阈值的情况下,执行所述命令词对应的指令。
在一种可能的实现方式中,所述基于所述多帧语音特征分别对应的多个第一匹配度,确定第一声学参数,包括:
将所述多个第一匹配度的和值,确定为所述第一声学参数。
在一种可能的实现方式中,所述基于所述多帧语音特征分别对应的多个第二匹配度,确定第二声学参数,包括:
将所述多个第二匹配度的和值,确定为所述第二声学参数。
在一种可能的实现方式中,所述对目标语音的多帧语音特征进行识别,得到目标文本、每帧语音特征对应的第一匹配度和第二匹配度,包括:
对于每帧语音特征,获取所述多个候选音素与所述语音特征之间的匹配度,将所述多个候选音素与所述语音特征之间的匹配度中的最大值,确定为所述语音特征对应的第一匹配度;
至少两次执行从所述多个候选音素中选取每帧语音特征的候选目标音素,基于每帧语音特征的候选目标音素,确定候选文本以及所述候选文本的选取参数的步骤;
在得到至少两个候选文本的选取参数的情况下,将选取参数最大的候选文本,确定为所述目标文本;
对于所述目标文本对应的每个候选目标音素,将所述候选目标音素与所述候选目标音素对应的语音特征之间的匹配度,确定为所述语音特征对应的第二匹配度。
在一种可能的实现方式中,所述对于每帧语音特征,获取所述多个候选音素与所述语音特征之间的匹配度,包括:
调用声学模型,对所述多帧语音特征进行声学识别,得到所述多个候选音素与每帧语音特征之间的匹配度;
其中,所述声学模型基于样本语音的多帧样本语音特征以及每帧样本语音特征的标注音素训练得到。
在一种可能的实现方式中,所述从所述多个候选音素中选取每帧语音特征的候选目标音素之后,所述方法还包括:
记录每帧语音特征与所述每帧语音特征的候选目标音素之间的匹配度。
在一种可能的实现方式中,所述基于每帧语音特征的候选目标音素,确定候选文本以及所述候选文本的选取参数,包括:
基于每帧语音特征与所述每帧语音特征的候选目标音素之间的匹配度,确定所述候选文本的第三声学参数;
对所述多帧语音特征的候选目标音素进行文本转换,得到所述候选文本和所述候选文本的语言参数,所述语言参数用于表示所述候选文本的语句通顺程度;
基于所述第三声学参数和所述候选文本的语言参数,确定所述候选文本的选取参数。
在一种可能的实现方式中,所述对所述多帧语音特征的候选目标音素进行文本转换,得到所述候选文本和所述候选文本的语言参数,包括:
调用语言模型,对所述多帧语音特征的候选目标音素进行文本转换,得到所述候选文本和所述候选文本的语言参数;
其中,所述语言模型是分别以样本文本中的单个文字的多个音素为输入,以所述样本文本为输出目标进行训练得到的。
在一种可能的实现方式中,所述在所述目标文本包括命令词,且所述声学置信度大于置信度阈值的情况下,执行所述命令词对应的指令之前,所述方法还包括:
获取所述置信度阈值对应的识别准确度,所述识别准确度表示基于所述置信度阈值进行命令词识别的准确性;
在所述识别准确度不符合条件的情况下,基于所述识别准确度,调整所述置信度阈值,直至调整后的所述置信度阈值对应的识别准确度符合条件。
在一种可能的实现方式中,所述获取所述置信度阈值对应的识别准确度,包括:
对于多个测试语音中的每个测试语音,获取所述测试语音对应的声学置信度;基于所述测试语音对应的声学置信度与所述置信度阈值的比较结果,以及所述测试语音的标注信息,确定所述测试语音的测试结果;
基于所述多个测试语音的测试结果,确定所述置信度阈值对应的识别准确度;
其中,所述标注信息表示所述测试语音是否为包括所述命令词的语音,所述测试结果表示基于所述置信度阈值对所述测试语音进行命令词识别的准确性。
根据本申请实施例的另一方面,提供了一种命令词识别装置,所述装置包括:
识别模块,用于对目标语音的多帧语音特征进行识别,得到目标文本、每帧语音特征对应的第一匹配度和第二匹配度,所述第一匹配度为多个候选音素与所述语音特征之间的匹配度中的最大值,所述第二匹配度为所述语音特征的目标音素与所述语音特征之间的匹配度,所述目标音素是从所述多个候选音素中选取的,所述目标文本基于所述多帧语音特征的目标音素确定;
参数确定模块,用于基于所述多帧语音特征分别对应的多个第一匹配度,确定第一声学参数,以及,基于所述多帧语音特征分别对应的多个第二匹配度,确定第二声学参数;
置信度确定模块,用于基于所述第一声学参数和所述第二声学参数,确定所述目标文本与所述目标语音之间的声学置信度,所述声学置信度与所述第一声学参数负相关,且与所述第二声学参数正相关;
指令执行模块,用于在所述目标文本包括命令词,且所述声学置信度大于置信度阈值的情况下,执行所述命令词对应的指令。
在一种可能的实现方式中,所述参数确定模块,用于将所述多个第一匹配度的和值,确定为所述第一声学参数。
在一种可能的实现方式中,所述参数确定模块,用于将所述多个第二匹配度的和值,确定为所述第二声学参数。
在一种可能的实现方式中,所述识别模块,包括:
第一匹配度确定单元,用于对于每帧语音特征,获取所述多个候选音素与所述语音特征之间的匹配度,将所述多个候选音素与所述语音特征之间的匹配度中的最大值,确定为所述语音特征对应的第一匹配度;
选取参数确定单元,用于从所述多个候选音素中选取每帧语音特征的候选目标音素,基于每帧语音特征的候选目标音素,确定候选文本以及所述候选文本的选取参数;
目标文本确定单元,用于在得到至少两个候选文本的选取参数的情况下,将选取参数最大的候选文本,确定为所述目标文本;
第二匹配度确定单元,用于对于所述目标文本对应的每个候选目标音素,将所述候选目标音素与所述候选目标音素对应的语音特征之间的匹配度,确定为所述语音特征对应的第二匹配度。
在一种可能的实现方式中,所述第一匹配度确定单元,用于调用声学模型,对所述多帧语音特征进行声学识别,得到所述多个候选音素与每帧语音特征之间的匹配度;其中,所述声学模型基于样本语音的多帧样本语音特征以及每帧样本语音特征的标注音素训练得到。
在一种可能的实现方式中,所述装置还包括:匹配度记录模块,用于记录每帧语音特征与所述每帧语音特征的候选目标音素之间的匹配度。
在一种可能的实现方式中,所述选取参数确定单元,包括:
参数确定子单元,用于基于每帧语音特征与所述每帧语音特征的候选目标音素之间的匹配度,确定所述候选文本的第三声学参数;
文本转换子单元,用于对所述多帧语音特征的候选目标音素进行文本转换,得到所述候选文本和所述候选文本的语言参数,所述语言参数用于表示所述候选文本的语句通顺程度;
选取参数确定子单元,用于基于所述第三声学参数和所述候选文本的语言参数,确定所述候选文本的选取参数。
在一种可能的实现方式中,所述文本转换子单元,用于调用语言模型,对所述多帧语音特征的候选目标音素进行文本转换,得到所述候选文本和所述候选文本的语言参数;其中,所述语言模型是分别以样本文本中的单个文字的多个音素为输入,以所述样本文本为输出目标进行训练得到的。
在一种可能的实现方式中,所述装置还包括:
准确度获取模块,用于获取所述置信度阈值对应的识别准确度,所述识别准确度表示基于所述置信度阈值进行命令词识别的准确性;
阈值调整模块,用于在所述识别准确度不符合条件的情况下,基于所述识别准确度,调整所述置信度阈值,直至调整后的所述置信度阈值对应的识别准确度符合条件。
在一种可能的实现方式中,所述准确度获取模块,用于:
对于多个测试语音中的每个测试语音,获取所述测试语音对应的声学置信度;基于所述测试语音对应的声学置信度与所述置信度阈值的比较结果,以及所述测试语音的标注信息,确定所述测试语音的测试结果;
基于所述多个测试语音的测试结果,确定所述置信度阈值对应的识别准确度;
其中,所述标注信息表示所述测试语音是否为包括所述命令词的语音,所述测试结果表示基于所述置信度阈值对所述测试语音进行命令词识别的准确性。
根据本申请实施例的另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现上述任一种可能的实现方式中所述的命令词识别方法。
根据本申请实施例的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现上述任一种可能的实现方式中所述的命令词识别方法。
根据本申请实施例的另一方面,提供了一种计算机程序产品,所述计算机程序产品包括至少一条程序代码,所述至少一条程序代码由处理器执行以实现上述任一种可能的实现方式中所述的命令词识别方法。
本申请实施例提供的技术方案,基于目标语音的每帧语音特征与多个候选音素之间的最大匹配度,确定第一声学参数,来表示匹配度最大的多个音素的组合与目标语音之间的匹配程度;并且,基于每帧语音特征与对应的目标音素之间的匹配度,确定第二声学参数,来表示目标文本与目标语音之间的声学匹配程度;进而以第一声学参数作为参考标准,对目标文本与目标语音之间的声学匹配程度进行定量表示,得到声学置信度,基于声学置信度与置信度阈值的比较情况以及目标文本是否包括命令词的情况,能够准确确定目标语音是否为包括命令词的语音,提高了从语音中识别命令词的准确性,进而在目标语音确实为包括命令词的语音的情况下,执行该命令词对应的指令,提高了语音控制的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的一种命令词识别方法的流程图;
图3是本申请实施例提供的一种命令词识别方法的流程图;
图4是本申请实施例提供的一种确定选取参数的流程图;
图5是本申请实施例提供的一种设置置信度阈值的流程图;
图6是本申请实施例提供的一种命令词识别装置的框图;
图7是本申请实施例提供的一种电子设备的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们的任意变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
图1是本申请实施例提供的一种实施环境的示意图。参见图1,该实施环境包括电子设备101。
可选地,电子设备101为智能手机、平板电脑、智能音箱、智能手表、智能电视或者智能电梯等。电子设备101支持语音控制。用户可以向电子设备101发出包括命令词的语音,来控制电子设备101执行该命令词对应的指令。相应的,电子设备101采集语音,从语音中识别命令词,在识别到命令词时,执行该命令词对应的指令。
在另一些实施例中,该实施环境还包括服务器102,服务器102与电子设备101通过有线或无线通信方式进行直接或间接的连接。电子设备101采集到语音后,向服务器102发送包括该语音的识别请求;服务器102接收该识别请求,从识别请求包括的语音中识别命令词,在识别到命令词时,向电子设备101发送该命令词对应的指令;电子设备101执行接收到的指令。可选地,服务器102是一台服务器;或者,是由若干台服务器组成的服务器集群;或者是一个云计算服务中心,本申请实施例对此不做限制。
下面对本申请实施例提供的命令词识别方法的应用场景进行示例性说明。
在一些实施例中,该命令词识别方法应用在语音控制电梯的场景中,命令词为指示运行至任一楼层的词语,例如,命令词为“去一楼”、“去三楼”或者“我要去十五楼”等。在一个示例中,用户向智能电梯发出“去十楼”的语音,智能电梯采集到该语音,基于该命令词识别方法,对该语音进行识别,在确定该语音为包括命令词“去十楼”的语音的情况下,执行第一指令,第一指令指示设置目标运行楼层为十楼。
在一些实施例中,该命令词识别方法应用在唤醒智能音箱的场景中,命令词为指示智能音箱回答的词语。例如,命令词为“小明”,用户向智能音箱发出“小明”的语音,智能音箱采集到该语音,基于该命令词识别方法,对该语音进行识别,在确定该语音为包括命令词“小明”的语音的情况下,执行第二指令,第二指令指示播放回答语句。
图2是本申请实施例提供的一种命令词识别方法的流程图。下面结合图2,对该命令词识别方法进行简要说明,参见图2,该命令词识别方法由电子设备执行,包括以下步骤:
201、对目标语音的多帧语音特征进行识别,得到目标文本、每帧语音特征对应的第一匹配度和第二匹配度。
其中,目标语音为当前待识别的语音,是一个语音片段。多帧语音特征是对目标语音进行特征提取得到的,多帧语音特征按照时间顺序排列。
音素是根据语音的自然属性划分出来的最小语音单位,语音都是由多个音素按照不同的组合方式拼读而成的,这多个音素也即是声学识别过程中的多个候选音素。在声学识别过程中,对于一个语音特征来说,确定该语音特征与每个候选音素之间的匹配度,进而能够基于该语音特征与每个候选音素之间的匹配度,确定该语音特征最有可能对应的音素,也即是目标音素。其中,语音特征与音素之间的匹配度表示该语音特征代表的发音与该音素代表的发音之间的相似度。
其中,一帧语音特征与一个候选音素之间具有一个匹配度,相应的,该语音特征与多个候选音素之间具有多个匹配度,该语音特征对应的第一匹配度为多个候选音素与该语音特征之间的匹配度中的最大值,也即是上述多个匹配度中的最大值。
在对多帧语音特征进行识别的过程中,对于一帧语音特征,会从多个候选音素中选取一个目标音素,相应的,对于多帧语音特征,会选取到多个目标音素,该多个目标音素也即是多帧语音特征的目标音素,目标文本即是基于上述多帧语音特征的目标音素确定的。一帧语音特征与该语音特征的目标音素之间的匹配度也即是该语音特征对应的第二匹配度。
202、基于多帧语音特征分别对应的多个第一匹配度,确定第一声学参数,以及,基于多帧语音特征分别对应的多个第二匹配度,确定第二声学参数。
其中,多个第一匹配度的数量与多帧语音特征的数量相等,一帧语音特征对应一个第一匹配度;多个第二匹配度的数量与多帧语音特征的数量相等,一帧语音特征对应一个第二匹配度。
第一声学参数是基于多个第一匹配度确定的,用于表示与多帧语音特征匹配度最大的多个音素的组合与目标语音之间的匹配程度。第二声学参数是基于多个第二匹配度确定的,用于表示目标文本与目标语音之间的声学匹配程度。
203、基于第一声学参数和第二声学参数,确定目标文本与目标语音之间的声学置信度,该声学置信度与第一声学参数负相关,且与第二声学参数正相关。
步骤203以第一声学参数作为参考标准,衡量第二声学参数与第一声学参数之间的差异,得到声学置信度。声学置信度能够定量表示目标文本与目标语音之间的声学匹配程度。
204、在目标文本包括命令词,且声学置信度大于置信度阈值的情况下,执行命令词对应的指令。
目标文本与目标语音之间的声学置信度大于置信度阈值,代表目标文本是对目标语音的准确文本表示,与此同时,目标文本包括命令词,也就代表目标语音的准确文本表示包括命令词,那么,也就说明目标语音是包括命令词的语音,目标语音用于指示执行该命令词对应的指令。因此,在目标文本包括命令词,且声学置信度大于置信度阈值的情况下,执行该命令词对应的指令。
本申请实施例提供的技术方案,基于目标语音的每帧语音特征与多个候选音素之间的最大匹配度,确定第一声学参数,来表示匹配度最大的多个音素的组合与目标语音之间的匹配程度;并且,基于每帧语音特征与对应的目标音素之间的匹配度,确定第二声学参数,来表示目标文本与目标语音之间的声学匹配程度;进而以第一声学参数作为参考标准,对目标文本与目标语音之间的声学匹配程度进行定量表示,得到声学置信度,基于声学置信度与置信度阈值的比较情况以及目标文本是否包括命令词的情况,能够准确确定目标语音是否为包括命令词的语音,提高了从语音中识别命令词的准确性,进而在目标语音确实为包括命令词的语音的情况下,执行该命令词对应的指令,提高了语音控制的准确性。
上述实施例是对命令词识别方法的简要说明,下面结合图3,对该命令词识别方法进行详细说明,图3是本申请实施例提供的一种命令词识别方法的流程图,参见图3,该命令词识别方法由电子设备执行,包括以下步骤:
301、对于目标语音的每帧语音特征,电子设备获取多个候选音素与该语音特征之间的匹配度。
在一些实施例中,电子设备调用声学模型,对目标语音的多帧语音特征进行声学识别,得到多个候选音素与每帧语音特征之间的匹配度。其中,每个候选音素与不同的语音特征之间具有不同的匹配度,每帧语音特征与多个候选音素之间分别具有不同的匹配度。
需要说明的是,声学模型基于样本语音的多帧样本语音特征以及每帧样本语音特征的标注音素训练得到,具有将语音特征识别为音素的功能。声学模型是基于多个样本语音训练得到的。在一些实施例中,多个样本语音包括多个第一样本语音,第一样本语音为包括命令词的语音。
在一些实施例中,多个样本语音包括多个第一样本语音和多个第二样本语音,第二样本语音为不包括命令词的语音,基于第一样本语音和第二样本语音共同训练得到的声学模型对包括命令词的语音和不包括命令词的语音均具有很好的识别性能,既能够保证命令词识别的准确率,又能够保证对其他语音识别的准确率,减少其他语音对命令词识别的错误干扰,降低命令词的误识率和漏识率。
可选地,声学模型为GMM-HMM(Gaussian Mixture Model-Hidden Markov Model,高斯混合-隐马尔可夫模型)、DNN-HMM(Deep Neural Network-Hidden Markov Model,深度神经网络-隐马尔可夫模型)或者DNN-CTC(Deep Neural Network-ConnectionistTemporal Classification,深度神经网络-基于连接的时序分类)等,本申请实施例对此不做限制。可选地,电子设备调用的声学模型,是该电子设备训练得到的;或者,是其他电子设备训练得到后,传输至该电子设备的,本申请实施例对此不做限制。
302、对于每帧语音特征,电子设备将多个候选音素与该语音特征之间的匹配度中的最大值,确定为该语音特征对应的第一匹配度。
对于任一帧语音特征来说,该语音特征与多个候选音素之间具有多个匹配度,电子设备将该多个匹配度中的最大值,确定为该语音特征对应的第一匹配度。
303、电子设备从多个候选音素中选取每帧语音特征的候选目标音素。
在一种可能的实现方式中,电子设备分别为每帧语音特征,从多个候选音素中选取一个候选目标音素。
在另一种可能的实现方式中,对于每帧语音特征,电子设备按照每个候选音素与该语音特征之间的匹配度从大到小的顺序,对多个候选音素进行排序,得到排序结果;获取排序结果中的前a个候选音素,从该a个候选音素中,选取一个候选目标音素。
上述技术方案,先按照匹配度大小,对多个候选音素进行筛选,再从筛选后的多个候选音素中选取候选目标音素,能够提高候选目标音素的选取效率。
需要说明的是,电子设备从多个候选音素中选取每帧语音特征的候选目标音素之后,还记录每帧语音特征与每帧语音特征的候选目标音素之间的匹配度。在一些实施例中,电子设备构建一个包括令牌(Token)的存储结构,将一帧语音特征的候选目标音素以及该语音特征与该候选目标音素之间的匹配度记录在一个令牌中,并对相邻两帧语音特征的令牌进行关联。在一些实施例中,对于每帧语音特征,电子设备将该语音特征与候选目标音素之间的匹配度和时序在该语音特征之前的多帧语音特征与对应的候选音素之间的匹配度进行累加,将累加得到的和值记录在该语音特征对应的令牌中。
其中,电子设备为每帧语音特征选取候选目标音素的过程,也即是搜索语音识别的最佳路径的过程,多帧语音特征的候选目标音素对应一个语音识别的路径,多帧语音特征的候选目标音素以及候选目标音素与语音特征之间的匹配度构成该路径的路径信息。
304、电子设备基于每帧语音特征的候选目标音素,确定候选文本以及该候选文本的选取参数。
电子设备将多帧语音特征的候选目标音素转换为候选文本,并确定该候选文本的选取参数,该选取参数表示候选文本对目标语音表示的准确性,用于作为确定目标文本的参考。
在一种可能的实现方式中,候选文本的选取参数从候选文本对目标语音的声学表示的准确性和候选文本的语句通顺程度两个方面,来表示候选文本对目标语音表示的准确性。参见图4,电子设备基于每帧语音特征的候选目标音素,确定候选文本以及候选文本的选取参数的步骤包括以下步骤3041至步骤3043:
3041、电子设备基于每帧语音特征与每帧语音特征的候选目标音素之间的匹配度,确定候选文本的第三声学参数。
在一种可能的实现方式中,电子设备将每帧语音特征与对应的候选目标音素之间的匹配度的和值,确定为候选文本的第三声学参数。
在一些实施例中,每帧语音特征与对应的候选目标音素之间的匹配度记录在该语音特征对应的令牌中,电子设备从每帧语音特征对应的令牌中获取与候选目标音素之间的匹配度,对多帧语音特征与对应的候选目标音素之间的匹配度进行累加,得到第三声学参数。
在一些实施例中,每帧语音特征对应的令牌中记录了该语音特征与候选目标音素之间的匹配度和时序在该语音特征之前的多帧语音特征与对应的候选音素之间的匹配度的和值,电子设备从最后一个语音特征对应的令牌中获取累加得到的和值,作为第三声学参数。
另外,电子设备也可以对每帧语音特征与对应的候选目标音素之间的匹配度进行加权求和,得到候选文本的第三声学参数;或者,对每帧语音特征与对应的候选目标音素之间的匹配度的和值进行其他处理,得到候选文本的第三声学参数,本申请实施例对此不做限制。
3042、电子设备对多帧语音特征的候选目标音素进行文本转换,得到候选文本和候选文本的语言参数,语言参数用于表示候选文本的语句通顺程度。
在一些实施例中,电子设备调用语言模型,对多帧语音特征的候选目标音素进行文本转换,得到候选文本和候选文本的语言参数。其中,语言模型具有将多个候选目标音素转换为文本,并得到该文本的语言参数的功能。
在一些实施例中,语言模型是分别以样本文本中的单个文字的多个音素为输入,以样本文本为输出目标进行训练得到的。语言模型以单个文字的多个音素作为输入进行训练,也即是字级别的语言模型,字级别的语言模型进行语言识别的粒度更精细,能够提高语言识别的准确性。
其中,语言模型的训练语料包括多个样本文本。在一些实施例中,多个样本文本包括多个第一样本文本,第一样本文本为命令词设计文本,例如,在语音控制电梯的场景中,命令词设计文本包括“去一楼”、“我要去十楼”等。在一些实施例中,多个样本文本包括多个第一样本文本和多个第二样本文本,第二样本文本为通用文本,通用文本不包括命令词,例如,通用文本为从新闻中提取的文本、从故事中提取的文本或者从聊天消息中提取的文本等。
上述基于第一样本文本和第二样本文本共同训练得到的语言模型对包括命令词的文本和不包括命令词的文本均具有很好的识别性能,既能够保证命令词识别的准确率,又能够保证对其他语音识别的准确率,降低命令词的误识率和漏识率。
需要说明的是,电子设备调用的语言模型,是该电子设备训练得到的;或者,是其他电子设备训练得到后,传输至该电子设备的,本申请实施例对此不做限制。
3043、电子设备基于第三声学参数和候选文本的语言参数,确定候选文本的选取参数。
在一些实施例中,电子设备将第三声学参数和候选文本的语言参数的和值,确定为该候选文本的选取参数。另外,电子设备也可以对第三声学参数和候选文本的语言参数进行加权求和,得到候选文本的选取参数;或者,对第三声学参数和候选文本的语言参数的和值进行其他处理,得到候选文本的选取参数,本申请实施例对此不做限制。
需要说明的是,电子设备至少两次执行上述步骤303至步骤304,得到至少两个候选文本以及每个候选文本的选取参数。
305、电子设备在得到至少两个候选文本的选取参数的情况下,将选取参数最大的候选文本,确定为目标文本。
电子设备将选取参数最大的候选文本确定为目标文本,得到了与目标语音最匹配的文本。可选地,电子设备应用viterbi(维特比)算法选取候选目标音素并确定目标文本;或者,应用穷举法选取候选目标音素并确定目标文本,本申请实施例对此不做限制。
306、对于目标文本对应的每个候选目标音素,电子设备将候选目标音素与候选目标音素对应的语音特征之间的匹配度,确定为该语音特征对应的第二匹配度。
在上述步骤303至步骤304中,目标文本是基于多个语音特征的候选目标音素生成的,目标文本对应多个候选目标音素,且每个候选目标音素与其对应的语音特征之间具有匹配度。对于目标文本对应的每个候选目标音素来说,电子设备将候选目标音素与该候选目标音素对应的语音特征之间的匹配度,确定为该语音特征对应的第二匹配度。其中,目标文本对应的多个候选目标音素也即是目标文本对应的多个目标音素。
需要说明的是,在确定目标文本后,电子设备通过回溯该目标文本的确定过程,得到每个语音特征对应的第二匹配度。在一些实施例中,电子设备在为每帧语音特征选取候选目标音素后,记录了语音特征与该语音特征的候选目标音素之间的匹配度,电子设备从目标文本对应的历史记录中,获取目标文本对应的多个候选目标音素以及每个候选目标音素与对应的语音特征之间的匹配度,基于此,得到每个语音特征对应的第二匹配度。
在一些实施例中,语音特征与候选目标音素之间的匹配度记录在令牌中,电子设备从每个语音特征对应的令牌中,获取语音特征与候选目标音素之间的匹配度,从而得到每个语音特征对应的第二匹配度。
在一些实施例中,语音特征与候选目标音素之间的匹配度和时序在该语音特征之前的多帧语音特征与对应的候选音素之间的匹配度的和值记录在该语音特征对应的令牌中,电子设备确定该语音特征对应的令牌中记录的数值与时序在该语音特征之前的语音特征对应的令牌中记录的数值之间的差值,该差值即为该语音特征对应的第二匹配度。
需要说明的是,在上述实施例中,电子设备是在获取到多个候选音素与语音特征之间的匹配度之后,将获取到的多个匹配度中的最大值,确定为该语音特征对应的第一匹配度。在另一些实施例中,电子设备在获取到多个候选音素与语音特征之间的匹配度之后,先不执行确定语音特征的第一匹配度的步骤,而是在从多个候选音素中选取每帧语音特征的候选目标音素的同时,还从语音特征与多个候选音素的匹配度中确定最大值,并将该最大值也记录在该语音特征对应的令牌中。在确定目标文本后,从语音特征对应的令牌中获取该语音特征与候选目标音素之间的匹配度,作为第二匹配度,并从该语音特征对应的令牌中获取已记录的最大值,作为第一匹配度。
307、电子设备基于多帧语音特征分别对应的多个第一匹配度,确定第一声学参数。
其中,第一声学参数用于表示与多帧语音特征匹配度最大的多个音素的组合与目标语音之间的匹配程度。在一些实施例中,电子设备将上述多个第一匹配度的和值,确定为第一声学参数。另外,电子设备也可以对上述多个第一匹配度进行加权求和,得到第一声学参数;或者,对上述多个第一匹配度的和值进行其他处理,得到第一声学参数,本申请实施例对此不做限制。
308、电子设备基于多帧语音特征分别对应的多个第二匹配度,确定第二声学参数。
其中,第二声学参数表示目标文本与目标语音之间的声学匹配程度。在一些实施例中,电子设备将上述多个第二匹配度的和值,确定为第二声学参数。另外,电子设备也可以对上述多个第二匹配度进行加权求和,得到第二声学参数;或者,对上述多个第二匹配度的和值进行其他处理,得到第二声学参数,本申请实施例对此不做限制。
309、电子设备基于第一声学参数和第二声学参数,确定目标文本与目标语音之间的声学置信度,声学置信度与第一声学参数负相关,且与第二声学参数正相关。
其中,声学置信度以第一声学参数作为参考标准,衡量第二声学参数与第一声学参数之间的差异,定量表示目标文本与目标语音之间的声学匹配程度。声学置信度为归一化的数值,声学置信度大于0,并且,小于或等于1。
在一些实施例中,电子设备将第二声学参数与第一声学参数的比值,确定为声学置信度。另外,电子设备也可以对第二声学参数与第一声学参数的比值进行其他处理,得到声学置信度,本申请实施例对此不做限制。
310、电子设备在目标文本包括命令词,且声学置信度大于置信度阈值的情况下,执行该命令词对应的指令。
声学置信度是以各个语音特征对应的最大匹配度的和值作为参考标准确定的,候选目标音素的匹配度的和值与该参考标准越接近,表示目标语音是包括命令词的语音的可能性越大,也就是说,声学置信度越接近于1,表示目标语音是包括命令词的语音的可能性越大。在声学置信度越接近于1的情况下,越应该执行命令词对应的指令,语音控制的准确性也就越强,因此,将置信度阈值设置为略小于1的数值,即可保证语音控制的准确性。例如,置信度阈值可灵活配置为0.85、0.9或者0.95等,本申请实施例对此不做限制。
其中,目标文本包括命令词,且声学置信度大于置信度阈值,表示目标语音是包括命令词的语音,用于指示执行该命令词对应的指令,电子设备在目标文本包括命令词,且声学置信度大于置信度阈值的情况下,执行该命令词对应的指令。
另外,电子设备在目标文本包括命令词,且声学置信度不大于置信度阈值的情况下,不执行该命令词对应的指令。电子设备在目标文本不包括命令词的情况下,不执行命令词对应的指令。
在一些实施例中,电子设备在确定目标文本之后,就判断该目标文本是否包括命令词;在目标文本不包括命令词的情况下,结束本次命令词识别的过程,不执行步骤306至步骤310;在目标文本包括命令词的情况下,继续执行步骤306至步骤309;在声学置信度大于置信度阈值的情况下,执行该命令词对应的指令;在声学置信度不大于置信度阈值的情况下,不执行该命令词对应的指令。
需要说明的是,上述实施例是以电子设备确定目标语音是否为包括一个命令词的语音为例进行说明的,在一些实施例中,电子设备支持多个命令词的识别,对于每个命令词来说,电子设备确定目标语音是否为包括该命令词的语音的过程均同理,在此不再赘述。
本申请实施例提供的技术方案,基于目标语音的每帧语音特征与多个候选音素之间的最大匹配度,确定第一声学参数,来表示匹配度最大的多个音素的组合与目标语音之间的匹配程度;并且,基于每帧语音特征与对应的目标音素之间的匹配度,确定第二声学参数,来表示目标文本与目标语音之间的声学匹配程度;进而以第一声学参数作为参考标准,对目标文本与目标语音之间的声学匹配程度进行定量表示,得到声学置信度,基于声学置信度与置信度阈值的比较情况以及目标文本是否包括命令词的情况,能够准确确定目标语音是否为包括命令词的语音,提高了从语音中识别命令词的准确性,进而在目标语音确实为包括命令词的语音的情况下,执行该命令词对应的指令,提高了语音控制的准确性。
并且,由于声学置信度是以各个语音特征对应的最大匹配度的和值作为参考标准确定的,将置信度阈值设置为略小于1的数值,即可保证语音控制的准确性,相较于通过大量测试确定阈值,减少了测试工作量,降低了阈值设置成本,提高了阈值设置效率。
在一些实施例中,上述置信度阈值是通过测试确定的。可选地,置信度阈值由执行上述命令词识别方法的电子设备确定,或者,置信度由其他电子设备确定,并传输至该执行命令词识别方法的电子设备。
在一些实施例中,预先设置一个初始的置信度阈值,利用该置信度阈值对测试语音进行命令词识别,得到识别准确度的反馈;在识别准确度不符合条件的情况下,对该置信度阈值进行调整,再基于调整后的置信度阈值对测试语音进行命令词识别,得到新的识别准确度的反馈;在识别准确度符合条件的情况下,停止调整,将最终调整得到的置信度阈值确定为最终的置信度阈值;在识别准确度不符合条件的情况下,继续对置信度阈值进行进一步地调整,直至调整后的置信度阈值符合条件。参见图5,上述过程也即是通过以下步骤501至步骤502确定置信度阈值的过程:
501、获取置信度阈值对应的识别准确度,该识别准确度表示基于置信度阈值进行命令词识别的准确性。
在一些实施例中,按照当前的置信度阈值,对多个测试语音进行命令词识别,得到每个测试语音的测试结果,再基于多个测试语音的测试结果,确定该置信度阈值对应的识别准确度。也即是,上述步骤501包括以下步骤5011至步骤5012:
5011、对于多个测试语音中的每个测试语音,获取该测试语音对应的声学置信度;基于该测试语音对应的声学置信度与置信度阈值的比较结果,以及测试语音的标注信息,确定测试语音的测试结果。
其中,标注信息表示测试语音是否为包括命令词的语音,测试结果表示基于置信度阈值对测试语音进行命令词识别的准确性。获取测试语音对应的声学置信度的过程与上述步骤301至步骤309同理,在此不再赘述。
测试语音的测试结果包括以下四种:(1)在声学置信度大于置信度阈值,且标注信息为包括命令词的情况下,测试结果为命令词识别准确;(2)在声学置信度不大于置信度阈值,且标注信息为包括命令词的情况下,测试结果为漏识;(3)在声学置信度阈值大于置信度阈值,且标注信息为不包括命令词的情况下,测试结果为误识;(4)在声学置信度不大于置信度阈值,且标注信息为不包括命令词的情况下,测试结果为非命令词识别准确。
5012、基于多个测试语音的测试结果,确定置信度阈值对应的识别准确度。
在一些实施例中,识别准确度包括准确率、漏识率和误识率中的至少一项。其中,准确率为测试结果为命令词识别准确的测试语音的数量与多个第一测试语音的总数量的比值,第一测试语音为包括命令词的语音。漏识率为测试结果为漏识的测试语音的数量与多个第一测试语音的总数量的比值。误识率为测试结果为误识的测试语音的数量与多个测试语音的总数量的比值。
502、在识别准确度不符合条件的情况下,基于识别准确度,调整置信度阈值,直至调整后的置信度阈值对应的识别准确度符合条件。
其中,上述约束识别准确度的条件可灵活配置,例如,该条件包括准确率大于准确率阈值、漏识率小于漏识率阈值和误识率小于误识率阈值中的至少一项。准确率阈值、漏识率阈值和误识率阈值均可灵活配置,例如,准确率阈值配置为0.97、漏识率阈值配置为0.03、误识率阈值配置为0.02,本申请实施例对此不做限制。
可选地,在识别准确度中的准确率不大于准确率阈值的情况下,调高置信度阈值。在识别准确度中的漏识率大于漏识率阈值的情况下,降低置信度阈值。在识别准确度中的误识率大于误识率阈值的情况下,调高置信度阈值。可选地,置信度阈值的调整幅度可灵活配置,本申请实施例对此不做限制。例如,置信度阈值的调整幅度可配置为0.01或者0.02等。
上述技术方案,利用测试语音对置信度阈值进行测试,得到置信度阈值对应的识别准确度,通过调整置信度阈值,使识别准确度符合约束条件,能够在应用最终确定的置信度阈值进行命令词识别时,保证命令词识别的准确性。
相关技术中,电子设备将第二声学参数与多帧语音特征的数量的比值,也即是,将多帧语音特征对应的第二匹配度的均值,确定为声学置信度。所确定的声学置信度没有参考标准,各个语音对应的声学置信度分布散乱,即使通过大量测试,也很难确定一个合适的置信度阈值,应用此方法,不仅测试工作量大,影响产品上线速度,而且所确定的阈值不科学,无法保证命令词识别的准确性。与该相关技术相比,本申请实施例提供的命令词识别方法减少了50%的测试工作量,通过少量测试即可确定合适的阈值,实现产品上线,提升了产品上线速度,并且,将误识率和漏识率均降低了30%。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
图6是本申请实施例提供的一种命令词识别装置的框图。参见图6,该装置包括:
识别模块601,用于对目标语音的多帧语音特征进行识别,得到目标文本、每帧语音特征对应的第一匹配度和第二匹配度,第一匹配度为多个候选音素与语音特征之间的匹配度中的最大值,第二匹配度为语音特征的目标音素与语音特征之间的匹配度,目标音素是从多个候选音素中选取的,目标文本基于多帧语音特征的目标音素确定;
参数确定模块602,用于基于多帧语音特征分别对应的多个第一匹配度,确定第一声学参数,以及,基于多帧语音特征分别对应的多个第二匹配度,确定第二声学参数;
置信度确定模块603,用于基于第一声学参数和第二声学参数,确定目标文本与目标语音之间的声学置信度,声学置信度与第一声学参数负相关,且与第二声学参数正相关;
指令执行模块604,用于在目标文本包括命令词,且声学置信度大于置信度阈值的情况下,执行命令词对应的指令。
本申请实施例提供的命令词识别装置,基于目标语音的每帧语音特征与多个候选音素之间的最大匹配度,确定第一声学参数,来表示匹配度最大的多个音素的组合与目标语音之间的匹配程度;并且,基于每帧语音特征与对应的目标音素之间的匹配度,确定第二声学参数,来表示目标文本与目标语音之间的声学匹配程度;进而以第一声学参数作为参考标准,对目标文本与目标语音之间的声学匹配程度进行定量表示,得到声学置信度,基于声学置信度与置信度阈值的比较情况以及目标文本是否包括命令词的情况,能够准确确定目标语音是否为包括命令词的语音,提高了从语音中识别命令词的准确性,进而在目标语音确实为包括命令词的语音的情况下,执行该命令词对应的指令,提高了语音控制的准确性。
在一种可能的实现方式中,参数确定模块602,用于将多个第一匹配度的和值,确定为第一声学参数。
在一种可能的实现方式中,参数确定模块602,用于将多个第二匹配度的和值,确定为第二声学参数。
在一种可能的实现方式中,识别模块601,包括:
第一匹配度确定单元,用于对于每帧语音特征,获取多个候选音素与语音特征之间的匹配度,将多个候选音素与语音特征之间的匹配度中的最大值,确定为语音特征对应的第一匹配度;
选取参数确定单元,用于从多个候选音素中选取每帧语音特征的候选目标音素,基于每帧语音特征的候选目标音素,确定候选文本以及候选文本的选取参数;
目标文本确定单元,用于在得到至少两个候选文本的选取参数的情况下,将选取参数最大的候选文本,确定为目标文本;
第二匹配度确定单元,用于对于目标文本对应的每个候选目标音素,将候选目标音素与候选目标音素对应的语音特征之间的匹配度,确定为语音特征对应的第二匹配度。
在一种可能的实现方式中,第一匹配度确定单元,用于调用声学模型,对多帧语音特征进行声学识别,得到多个候选音素与每帧语音特征之间的匹配度;其中,声学模型基于样本语音的多帧样本语音特征以及每帧样本语音特征的标注音素训练得到。
在一种可能的实现方式中,该装置还包括:匹配度记录模块,用于记录每帧语音特征与每帧语音特征的候选目标音素之间的匹配度。
在一种可能的实现方式中,选取参数确定单元,包括:
参数确定子单元,用于基于每帧语音特征与每帧语音特征的候选目标音素之间的匹配度,确定候选文本的第三声学参数;
文本转换子单元,用于对多帧语音特征的候选目标音素进行文本转换,得到候选文本和候选文本的语言参数,语言参数用于表示候选文本的语句通顺程度;
选取参数确定子单元,用于基于第三声学参数和候选文本的语言参数,确定候选文本的选取参数。
在一种可能的实现方式中,文本转换子单元,用于调用语言模型,对多帧语音特征的候选目标音素进行文本转换,得到候选文本和候选文本的语言参数;其中,语言模型是分别以样本文本中的单个文字的多个音素为输入,以样本文本为输出目标进行训练得到的。
在一种可能的实现方式中,该装置还包括:
准确度获取模块,用于获取置信度阈值对应的识别准确度,识别准确度表示基于置信度阈值进行命令词识别的准确性;
阈值调整模块,用于在识别准确度不符合条件的情况下,基于识别准确度,调整置信度阈值,直至调整后的置信度阈值对应的识别准确度符合条件。
在一种可能的实现方式中,准确度获取模块,用于:
对于多个测试语音中的每个测试语音,获取测试语音对应的声学置信度;基于测试语音对应的声学置信度与置信度阈值的比较结果,以及测试语音的标注信息,确定测试语音的测试结果;
基于多个测试语音的测试结果,确定置信度阈值对应的识别准确度;
其中,标注信息表示测试语音是否为包括命令词的语音,测试结果表示基于置信度阈值对测试语音进行命令词识别的准确性。
需要说明的是:上述实施例提供的命令词识别装置在识别命令词时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将命令词识别装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的命令词识别装置与命令词识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图7示出了本申请一个示例性实施例提供的电子设备700的结构框图。该电子设备700可以是智能手机、平板电脑、智能音箱、智能手表、智能电视、智能电梯、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。
通常,电子设备700包括有:处理器701和存储器702。
处理器701可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器701可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器701还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器702可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器702中的非暂态的计算机可读存储介质用于存储至少一条程序代码,该至少一条程序代码用于被处理器701所执行以实现本申请中方法实施例提供的命令词识别方法。
在一些实施例中,电子设备700还可选包括有:外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地,外围设备包括:射频电路704、显示屏705、摄像头组件706、音频电路707、定位组件708和电源709中的至少一种。
外围设备接口703可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中,处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上;在一些其他实施例中,处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路704用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路704包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路704还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏705用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时,显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时,显示屏705还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏705可以为一个,设置在电子设备700的前面板;在另一些实施例中,显示屏705可以为至少两个,分别设置在电子设备700的不同表面或呈折叠设计;在另一些实施例中,显示屏705可以是柔性显示屏,设置在电子设备700的弯曲表面上或折叠面上。甚至,显示屏705还可以设置成非矩形的不规则图形,也即异形屏。显示屏705可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件706用于采集图像或视频。可选地,摄像头组件706包括前置摄像头和后置摄像头。通常,前置摄像头设置在电子设备700的前面板,后置摄像头设置在电子设备700的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器701进行处理,或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在电子设备700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路707还可以包括耳机插孔。
定位组件708用于定位电子设备700的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源709用于为电子设备700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,电子设备700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于:加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。
加速度传感器711可以检测以电子设备700建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号,控制显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器712可以检测电子设备700的机体方向及转动角度,陀螺仪传感器712可以与加速度传感器711协同采集用户对电子设备700的3D动作。处理器701根据陀螺仪传感器712采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器713可以设置在电子设备700的侧边框和/或显示屏705的下层。当压力传感器713设置在电子设备700的侧边框时,可以检测用户对电子设备700的握持信号,由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在显示屏705的下层时,由处理器701根据用户对显示屏705的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器714用于采集用户的指纹,由处理器701根据指纹传感器714采集到的指纹识别用户的身份,或者,由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器701授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置在电子设备700的正面、背面或侧面。当电子设备700上设置有物理按键或厂商Logo时,指纹传感器714可以与物理按键或厂商Logo集成在一起。
光学传感器715用于采集环境光强度。在一个实施例中,处理器701可以根据光学传感器715采集的环境光强度,控制显示屏705的显示亮度。具体地,当环境光强度较高时,调高显示屏705的显示亮度;当环境光强度较低时,调低显示屏705的显示亮度。在另一个实施例中,处理器701还可以根据光学传感器715采集的环境光强度,动态调整摄像头组件706的拍摄参数。
接近传感器716,也称距离传感器,通常设置在电子设备700的前面板。接近传感器716用于采集用户与电子设备700的正面之间的距离。在一个实施例中,当接近传感器716检测到用户与电子设备700的正面之间的距离逐渐变小时,由处理器701控制显示屏705从亮屏状态切换为息屏状态;当接近传感器716检测到用户与电子设备700的正面之间的距离逐渐变大时,由处理器701控制显示屏705从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图7中示出的结构并不构成对电子设备700的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,上述至少一条程序代码可由电子设备的处理器执行以完成上述实施例中的命令词识别方法。例如,计算机可读存储介质可以是ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、CD-ROM(Compact DiscRead-Only Memory,只读光盘)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品包括至少一条程序代码,上述至少一条程序代码可由电子设备的处理器执行以完成上述实施例中的命令词识别方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (13)

1.一种命令词识别方法,其特征在于,所述方法包括:
对目标语音的多帧语音特征进行识别,得到目标文本、每帧语音特征对应的第一匹配度和第二匹配度,所述第一匹配度为多个候选音素与所述语音特征之间的匹配度中的最大值,所述第二匹配度为所述语音特征的目标音素与所述语音特征之间的匹配度,所述目标音素是从所述多个候选音素中选取的,所述目标文本基于所述多帧语音特征的目标音素确定;
基于所述多帧语音特征分别对应的多个第一匹配度,确定第一声学参数,以及,基于所述多帧语音特征分别对应的多个第二匹配度,确定第二声学参数;
基于所述第一声学参数和所述第二声学参数,确定所述目标文本与所述目标语音之间的声学置信度,所述声学置信度与所述第一声学参数负相关,且与所述第二声学参数正相关;
在所述目标文本包括命令词,且所述声学置信度大于置信度阈值的情况下,执行所述命令词对应的指令。
2.根据权利要求1所述的方法,其特征在于,所述基于所述多帧语音特征分别对应的多个第一匹配度,确定第一声学参数,包括:
将所述多个第一匹配度的和值,确定为所述第一声学参数。
3.根据权利要求1所述的方法,其特征在于,所述基于所述多帧语音特征分别对应的多个第二匹配度,确定第二声学参数,包括:
将所述多个第二匹配度的和值,确定为所述第二声学参数。
4.根据权利要求1所述的方法,其特征在于,所述对目标语音的多帧语音特征进行识别,得到目标文本、每帧语音特征对应的第一匹配度和第二匹配度,包括:
对于每帧语音特征,获取所述多个候选音素与所述语音特征之间的匹配度,将所述多个候选音素与所述语音特征之间的匹配度中的最大值,确定为所述语音特征对应的第一匹配度;
至少两次执行从所述多个候选音素中选取每帧语音特征的候选目标音素,基于每帧语音特征的候选目标音素,确定候选文本以及所述候选文本的选取参数的步骤;
在得到至少两个候选文本的选取参数的情况下,将选取参数最大的候选文本,确定为所述目标文本;
对于所述目标文本对应的每个候选目标音素,将所述候选目标音素与所述候选目标音素对应的语音特征之间的匹配度,确定为所述语音特征对应的第二匹配度。
5.根据权利要求4所述的方法,其特征在于,所述对于每帧语音特征,获取所述多个候选音素与所述语音特征之间的匹配度,包括:
调用声学模型,对所述多帧语音特征进行声学识别,得到所述多个候选音素与每帧语音特征之间的匹配度;
其中,所述声学模型基于样本语音的多帧样本语音特征以及每帧样本语音特征的标注音素训练得到。
6.根据权利要求4所述的方法,其特征在于,所述从所述多个候选音素中选取每帧语音特征的候选目标音素之后,所述方法还包括:
记录每帧语音特征与所述每帧语音特征的候选目标音素之间的匹配度。
7.根据权利要求4所述的方法,其特征在于,所述基于每帧语音特征的候选目标音素,确定候选文本以及所述候选文本的选取参数,包括:
基于每帧语音特征与所述每帧语音特征的候选目标音素之间的匹配度,确定所述候选文本的第三声学参数;
对所述多帧语音特征的候选目标音素进行文本转换,得到所述候选文本和所述候选文本的语言参数,所述语言参数用于表示所述候选文本的语句通顺程度;
基于所述第三声学参数和所述候选文本的语言参数,确定所述候选文本的选取参数。
8.根据权利要求7所述的方法,其特征在于,所述对所述多帧语音特征的候选目标音素进行文本转换,得到所述候选文本和所述候选文本的语言参数,包括:
调用语言模型,对所述多帧语音特征的候选目标音素进行文本转换,得到所述候选文本和所述候选文本的语言参数;
其中,所述语言模型是分别以样本文本中的单个文字的多个音素为输入,以所述样本文本为输出目标进行训练得到的。
9.根据权利要求1所述的方法,其特征在于,所述在所述目标文本包括命令词,且所述声学置信度大于置信度阈值的情况下,执行所述命令词对应的指令之前,所述方法还包括:
获取所述置信度阈值对应的识别准确度,所述识别准确度表示基于所述置信度阈值进行命令词识别的准确性;
在所述识别准确度不符合条件的情况下,基于所述识别准确度,调整所述置信度阈值,直至调整后的所述置信度阈值对应的识别准确度符合条件。
10.根据权利要求9所述的方法,其特征在于,所述获取所述置信度阈值对应的识别准确度,包括:
对于多个测试语音中的每个测试语音,获取所述测试语音对应的声学置信度;基于所述测试语音对应的声学置信度与所述置信度阈值的比较结果,以及所述测试语音的标注信息,确定所述测试语音的测试结果;
基于所述多个测试语音的测试结果,确定所述置信度阈值对应的识别准确度;
其中,所述标注信息表示所述测试语音是否为包括所述命令词的语音,所述测试结果表示基于所述置信度阈值对所述测试语音进行命令词识别的准确性。
11.一种命令词识别装置,其特征在于,所述装置包括:
识别模块,用于对目标语音的多帧语音特征进行识别,得到目标文本、每帧语音特征对应的第一匹配度和第二匹配度,所述第一匹配度为多个候选音素与所述语音特征之间的匹配度中的最大值,所述第二匹配度为所述语音特征的目标音素与所述语音特征之间的匹配度,所述目标音素是从所述多个候选音素中选取的,所述目标文本基于所述多帧语音特征的目标音素确定;
参数确定模块,用于基于所述多帧语音特征分别对应的多个第一匹配度,确定第一声学参数,以及,基于所述多帧语音特征分别对应的多个第二匹配度,确定第二声学参数;
置信度确定模块,用于基于所述第一声学参数和所述第二声学参数,确定所述目标文本与所述目标语音之间的声学置信度,所述声学置信度与所述第一声学参数负相关,且与所述第二声学参数正相关;
指令执行模块,用于在所述目标文本包括命令词,且所述声学置信度大于置信度阈值的情况下,执行所述命令词对应的指令。
12.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如权利要求1-10任一项所述的命令词识别方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1-10任一项所述的命令词识别方法。
CN202111049251.5A 2021-09-08 2021-09-08 命令词识别方法、装置、电子设备及存储介质 Active CN113744736B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111049251.5A CN113744736B (zh) 2021-09-08 2021-09-08 命令词识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111049251.5A CN113744736B (zh) 2021-09-08 2021-09-08 命令词识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113744736A CN113744736A (zh) 2021-12-03
CN113744736B true CN113744736B (zh) 2023-12-08

Family

ID=78736966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111049251.5A Active CN113744736B (zh) 2021-09-08 2021-09-08 命令词识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113744736B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114333777B (zh) * 2021-12-29 2024-08-30 青岛信芯微电子科技股份有限公司 一种命令词识别方法、装置、设备及介质
CN116825108B (zh) * 2023-08-25 2023-12-08 深圳市友杰智新科技有限公司 语音命令词识别方法、装置、设备和介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1304628A2 (en) * 2001-10-19 2003-04-23 Pioneer Corporation Method and apparatus for selecting and reproducing information
CN110162681A (zh) * 2018-10-08 2019-08-23 腾讯科技(深圳)有限公司 文本识别、文本处理方法、装置、计算机设备和存储介质
CN110808034A (zh) * 2019-10-31 2020-02-18 北京大米科技有限公司 语音转换方法、装置、存储介质及电子设备
CN111816165A (zh) * 2020-07-07 2020-10-23 北京声智科技有限公司 语音识别方法、装置及电子设备
CN111833853A (zh) * 2020-07-01 2020-10-27 腾讯科技(深圳)有限公司 语音处理方法及装置、电子设备、计算机可读存储介质
CN111882309A (zh) * 2020-08-07 2020-11-03 腾讯科技(深圳)有限公司 消息处理方法、装置、电子设备及存储介质
CN112530410A (zh) * 2020-12-24 2021-03-19 北京地平线机器人技术研发有限公司 一种命令词识别方法及设备
CN212799133U (zh) * 2020-04-30 2021-03-26 山东声智物联科技有限公司 电梯控制电路及电梯控制系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288468B (zh) * 2017-06-29 2019-07-19 腾讯科技(深圳)有限公司 语音识别方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1304628A2 (en) * 2001-10-19 2003-04-23 Pioneer Corporation Method and apparatus for selecting and reproducing information
CN110162681A (zh) * 2018-10-08 2019-08-23 腾讯科技(深圳)有限公司 文本识别、文本处理方法、装置、计算机设备和存储介质
CN110808034A (zh) * 2019-10-31 2020-02-18 北京大米科技有限公司 语音转换方法、装置、存储介质及电子设备
CN212799133U (zh) * 2020-04-30 2021-03-26 山东声智物联科技有限公司 电梯控制电路及电梯控制系统
CN111833853A (zh) * 2020-07-01 2020-10-27 腾讯科技(深圳)有限公司 语音处理方法及装置、电子设备、计算机可读存储介质
CN111816165A (zh) * 2020-07-07 2020-10-23 北京声智科技有限公司 语音识别方法、装置及电子设备
CN111882309A (zh) * 2020-08-07 2020-11-03 腾讯科技(深圳)有限公司 消息处理方法、装置、电子设备及存储介质
CN112530410A (zh) * 2020-12-24 2021-03-19 北京地平线机器人技术研发有限公司 一种命令词识别方法及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度卷积网络的图像分类算法研究;邹铁;;安徽电子信息职业技术学院学报(06);全文 *

Also Published As

Publication number Publication date
CN113744736A (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
CN110556127B (zh) 语音识别结果的检测方法、装置、设备及介质
CN111524501B (zh) 语音播放方法、装置、计算机设备及计算机可读存储介质
CN111739517B (zh) 语音识别方法、装置、计算机设备及介质
WO2021052306A1 (zh) 声纹特征注册
CN111105788B (zh) 敏感词分数检测方法、装置、电子设备及存储介质
CN110798327B (zh) 消息处理方法、设备及存储介质
CN114299933B (zh) 语音识别模型训练方法、装置、设备、存储介质及产品
CN113744736B (zh) 命令词识别方法、装置、电子设备及存储介质
CN111681655A (zh) 语音控制方法、装置、电子设备及存储介质
CN111428079B (zh) 文本内容处理方法、装置、计算机设备及存储介质
CN113220590A (zh) 语音交互应用的自动化测试方法、装置、设备及介质
CN111613213B (zh) 音频分类的方法、装置、设备以及存储介质
CN111862972B (zh) 语音交互服务方法、装置、设备及存储介质
CN112667844A (zh) 检索音频的方法、装置、设备和存储介质
CN111681654A (zh) 语音控制方法、装置、电子设备及存储介质
CN113362836B (zh) 训练声码器方法、终端及存储介质
CN112133319B (zh) 音频生成的方法、装置、设备及存储介质
CN111341317B (zh) 唤醒音频数据的评价方法、装置、电子设备及介质
CN116860913A (zh) 语音交互方法、装置、设备及存储介质
CN111554314A (zh) 噪声检测方法、装置、终端及存储介质
CN108831423B (zh) 提取音频数据中主旋律音轨的方法、装置、终端及存储介质
CN111028846B (zh) 免唤醒词注册的方法和装置
CN112214115B (zh) 输入方式的识别方法、装置、电子设备及存储介质
CN114333821A (zh) 电梯控制方法、装置、电子设备、存储介质及产品
CN113162837B (zh) 语音消息的处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant