CN110675870A

CN110675870A - 一种语音识别方法、装置、电子设备及存储介质

Info

Publication number: CN110675870A
Application number: CN201910815011.8A
Authority: CN
Inventors: 钟志浩; 张龙
Original assignee: Shenzhen Lumi United Technology Co Ltd
Current assignee: Shenzhen Lumi United Technology Co Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2020-01-10

Abstract

本申请实施例公开了一种语音识别方法、装置、电子设备及存储介质，涉及智能家居技术领域。该方法包括：接收语音数据；对所述语音数据进行语音分析，获得第一文本内容；将所述第一文本内容中的至少部分目标词替换成满足设定条件的模板词，得到第二文本内容；获取所述第二文本内容对应的控制指令，并在获取到对所述控制指令的确认指令时，根据所述控制指令执行预设操作。本申请实施例将第一文本内容中的至少部分目标词替换成满足设定条件的模板词，得到第二文本内容，从而根据第二文本内容匹配到对应的控制指令，并在获取到确认指令时实现智能家居的语音控制，提高了控制指令匹配的全面性，提升了家居系统中的语音交互装置的泛化能力和用户体验。

Description

一种语音识别方法、装置、电子设备及存储介质

技术领域

本申请涉及智能家居技术领域，更具体地，涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术

随着时代的发展，语音交互装置的智能控制已经普及到每一个家庭，随着语音识别技术的不断发展完善，极大的推动了智能家居语音控制系统的发展和普及，目前市场上出现了大量以语音助手、语音音箱或其他语音采集装置为控制接口的智能家居控制系统。然而，现有的通过语音来控制智能家居的方案，用户通常只能输入固定的语音指令来控制智能家居，操作比较死板，限制了语音交互装置的泛化能力，极大地影响了用户的体验。

发明内容

本申请实施例提供一种语音识别方法、装置、电子设备及存储介质，可以持续提升语音交互装置的泛化能力。

第一方面，本申请实施例提供了一种语音识别方法，该方法包括：接收语音数据；对所述语音数据进行语音分析，获得第一文本内容；将所述第一文本内容中的至少部分目标词替换成满足设定条件的模板词，得到第二文本内容；获取所述第二文本内容对应的控制指令，并在获取到对所述控制指令的确认指令时，根据所述控制指令执行预设操作。

第二方面，本申请实施例提供了一种语音识别装置，该装置包括：数据接收模块、数据分析模块、数据替换模块以及指令执行模块，其中，数据接收模块用于接收语音数据；数据分析模块用于对所述语音数据进行语音分析，获得第一文本内容；数据替换模块用于将所述第一文本内容中的至少部分目标词替换成满足设定条件的模板词，得到第二文本内容；指令执行模块用于获取所述第二文本内容对应的控制指令，并在获取到对所述控制指令的确认指令时，根据所述控制指令执行预设操作。

第三方面，本申请实施例提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述第一方面所述的语音识别方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的语音识别方法的步骤。

在本申请实施例中，通过接收语音数据，对语音数据进行语音分析，获得第一文本内容，然后将第一文本内容中的至少部分目标词替换成满足设定条件的模板词，得到第二文本内容，以获取第二文本内容对应的控制指令，并在获取到对控制指令的确认指令时，根据控制指令执行预设操作。本申请通过将第一文本内容中的至少部分目标词替换成满足设定条件的模板词，得到第二文本内容，从而可以根据第二文本内容匹配到对应的控制指令，并在获取到确认指令时实现智能家居的语音控制，提高了控制指令匹配的全面性，提升了家居系统中的语音交互装置的泛化能力和用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了一种适用于本申请实施例的模板匹配方法的流程示意框图。

图2示出了本申请一个实施例提供的语音识别方法流程图。

图3示出了本申请另一个实施例提供的语音识别方法流程图。

图4示出了本申请实施例的图3中步骤S250的流程图。

图5示出了本申请实施例的图4中步骤S251的流程图。

图6示出了本申请实施例的图4中步骤S252的流程图。

图7示出了适用于本申请实施例的向量识别模型的结构示意图。

图8示出了适用于本申请实施例的语音识别方法的流程示意框图。

图9示出了本申请一个实施例提供的语音识别装置的框图。

图10是本申请实施例的一种电子设备的硬件结构框图。

图11是本申请实施例的一种计算机可读存储介质。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

目前，在智能家居领域，使用语音助手类的语音交互装置来进行人与设备的交互越来越普遍，主要用来实现设备的控制、查询等功能。且在智能家居领域，利用语音助手类的语音交互装置实现智能家居的控制是非常垂直的应用领域，一般可收集的语料较少，因此一般不采用复杂模型或算法实现语音控制智能家居，而是一般通过模板匹配的方式，而这种方式属于一种规则匹配方式，不够灵活。

请参阅图1，图1示出了一种模板匹配方法的流程示意图。

具体地，当接收到用户对语音助手发出的语音指令时，可以通过语音识别模块将该语音指令转换为文本；然后对文本进行相关必要的预处理，例如，文本分词、去停用词等，得到预处理后的文本；然后可以对预处理后的文本进行意图分类，以识别出用户的意图。例如，在一个具体的应用场景下，支持的意图包括控制意图(即控制设备的意图，如用户说“打开空调”)和查询意图(即查询设备的意图，如用户提问“空调当前是什么模式”)时，则意图分类主要目的是判断用户当前是控制意图还是查询意图，亦或者都不属于，即其他类型的意图。如果是不支持的意图，则可以提示用户更换说法，否则进入下一步。

当判断出用户当前的意图在已有意图范围内容时，可以判断文本的句式是否在已有的模板句式中。其中，一个句式指的是特定词性的词的某种组合，例如“打开空调”，属于“{动词}{名词}”句式。如果文本不能匹配到模板句式，则可以提示用户更换说法，否则进入下一步。

当文本的句式在已有的模板句式中时，可以根据文本匹配的模板句式，从文本中获取相应的目标词。例如“打开空调”对应的模板句式为“{动词}{名词}”，从而提取出目标词为{“动词”：“打开”，“名词”：“空调”}

在获取到文本中的目标词后，可以判断各个目标词是否在已有的模板词中。以上例作为说明，若设定模板词库中的动词和名词的模板词内容为{“动词”：[“打开”,“关闭”],“名词”：[“空调”，“电视”]}，因为“打开”在模板的动词列表中，“空调”在模板的动词列表中，则文本“打开空调”的目标词均在模板词中，因此，可以进入下一步。如果目标词不能匹配到模板词，则可以提示用户更换说法。

当文本中的目标词均在已有的模板词中时，即文本可以匹配到一个特定的模板中，可以执行特定模板对应的特定指令，并可以提示用户已执行指令。从而实现语音控制智能家居。

但是，发明人在研究中发现，现有的通过模板匹配方法实现语音控制智能家居时，由于模板中的词都是人为事先填充，往往比较有限，难以覆盖用户的多种说法，限制了语音交互装置的泛化能力。比如上面的例子中，用户说“打开空调”时语音助手可以识别，但是用户说“开空调”时却是不行的，很大程度上会影响用户体验。

因此，为了克服上述缺陷，本申请实施例提供了一种语音识别方法、装置、电子设备及存储介质，可以持续提升语音交互装置的泛化能力和用户体验。

下面将结合附图具体描述本申请中的各实施例。

请参阅图2，图2示出了本申请一个实施例提供的语音识别方法的流程示意图，在具体的实施例中，该语音识别方法可应用于电子设备。电子设备可以是手机、笔记本电脑、智能穿戴设备、智能电视、车载终端、网关等终端设备，也可以是本地服务器、云服务器等服务器。下面将针对图2所示的流程进行详细的阐述，所示语音识别方法具体可以包括以下步骤：

步骤S110：接收语音数据。

其中，语音数据可以理解为用户输入的语音信号，即用户发出的声音。在一些实施例中，语音数据可以是用户在控制家居系统中的智能家居设备时，输入的期望该智能家居设备执行某些控制、查询等操作的语音信号。例如，用户说“开灯”、“打开电视”“空调当前是什么模式”等。

在一些实施方式中，电子设备可以通过自带的拾音设备(如麦克风)从周围环境中实时拾取用户发出的声音，可选的，可以将拾取到的用户声音作为接收的语音数据。作为一种方式，电子设备可以安装有语音助手类应用程序，或安装具有语音助手功能的应用程序。在电子设备运行该应用程序的情况下，可以实时监听用户输入的语音信号，并在监听到用户输入语音信号时，通过电子设备的麦克风采集语音信号，从而接收到语音数据。其中，应用程序可以获取到允许使用麦克风的权限。

在另一些实施方式中，也可以从其他设备处获取到的语音数据。例如，作为一种方式，可以是外设的拾音设备拾取到用户声音后，将该用户声音发送至电子设备，从而电子设备接收到该用户声音。

当然，可以理解的是，上述语音数据以及语音数据的接收方式仅为举例，并不代表对本申请实施例中的语音数据以及语音数据的接收方式的限定。例如，在一些实施例中，为节省功耗，避免拾音设备的长时间工作，电子设备可以在检测到用户时，才进行语音数据的接收。具体地，可以是在红外线检测装置、摄像检测装置、体温检测装置等装置检测到用户时，才进行用户的语音信号监听和接收。

步骤S120：对所述语音数据进行语音分析，获得第一文本内容。

在本申请实施例中，电子设备在接收到语音数据后，可以对该语音数据进行语音分析，以获得该语音数据对应的第一文本内容。

在一些实施例中，对语音数据进行语音分析，可以是对语音数据进行语音转文本处理，得到语音数据对应的文本内容，可选的，可以将语音转文本处理得到的文本内容作为上述第一文本内容，例如，语音数据“开电视”“空调多少度”，获得的第一文本内容可以是“开电视”“空调多少度”。在一些实施例中，对语音数据进行语音分析，也可以是在对语音转文本处理得到的文本内容进行分词、去停用词等预处理后，将得到的预处理后的文本内容作为上述第一文本内容，例如，语音数据“想开空调”和“空调多少度”，获得的第一文本内容可以是“开”“空调”和“空调”“度”。

在一些实施例中，若获取到的语音数据过长，为提高语音分析效率，也可以对该语音数据进行分段处理，即将语音数据分成多个语音片段，再对每个语音片段进行语音分析，得到每个语音片段对应的文本内容，从而得到整个语音数据对应的第一文本内容。

步骤S130：将所述第一文本内容中的至少部分目标词替换成满足设定条件的模板词，得到第二文本内容。

在传统的模板匹配方法实现语音控制智能家居中，由于模板词库有限，如果直接根据第一文本内容进行模板匹配，匹配的成功率并不高，且还需要用户频繁的更换说法，极大地影响了用户体验。因此，在本申请实施例中，电子设备在得到语音分析后的第一文本内容之后，可以将第一文本内容中的至少部分目标词替换成满足设定条件的模板词，得到第二文本内容，以根据第二文本内容进行模板匹配，提高了模板匹配成功的概率，提升了用户体验。例如，第一文本内容为“开启空调”时，其中的目标词“开启”被替换成模板词“打开”后，得到的第二文本内容可以为“打开空调”。又例如，第一文本内容为“空调温度”时，其中的目标词“温度”被替换成模板词“度数”后，得到的第二文本内容可以为“空调度数”。这样，当用户采用日常生活中的自然语言发出语音指令时，可以通过将语音指令中的至少部分目标词替换成满足设定条件的模板词，以得到语音助手可识别的语音指令，提高了语音助手识别的灵活性。

在一些实施例中，上述目标词可以是电子设备对第一文本内容进行分词、去停用词等预处理后，得到第一文本内容的有效词；也可以是进一步对第一文本内容的有效词进行关键词提取后，提取到的关键词。可选的，可以将所有有效词或者所有关键词作为第一文本内容中的至少部分目标词，也可以是将所有有效词或者所有关键词中与模板词不匹配的有效词或者关键词作为第一文本内容中的至少部分目标词，在此并不对本申请实施例中的至少部分目标词进行限定。

在一些实施例中，上述设定条件可以理解为目标词替换为模板词时，模板词需达到的条件。作为一种方式，满足设定条件的模板词可以是与目标词语义相似的模板词。其中，语音相似的标准可以是语义相似度最高，也可以是语义相似度达到一定程度。进一步地，当语音相似的标准为语义相似度达到一定程度时，满足设定条件的模板词可能有多个，此时可以随机选取一个模板词作为满足设定条件的模板词，也可以是选取其中语义相似度最高的模板词作为满足设定条件的模板词。其中，上述设定条件以及模板词的选取方式仅为举例，并不代表对本申请实施例中的设定条件以及模板词的选取方式的限定。

步骤S140：获取所述第二文本内容对应的控制指令，并在获取到对所述控制指令的确认指令时，根据所述控制指令执行预设操作。

在本申请实施例中，电子设备在得到第二文本内容后，可以根据第二文本内容，获取第二文本内容对应的控制指令。该控制指令即为电子设备对接收到的语音数据进行识别后，确定的待执行的控制指令。其中，控制指令可以包括执行设备和执行动作。例如，控制指令“打开空调”包括执行设备“空调”和执行动作“打开”；控制指令“获取空调度数”包括执行设备“空调”和执行动作“获取度数”。

在一些实施例中，电子设备可以从预设的控制指令库中查找与第二本内容匹配的控制指令。具体地，得到的第二文本内容可以匹配到一个特定的模板中，从而可以根据该模板得到对应的控制指令。其中，模板与控制指令具有对应关系，模板可以预先存储于电子设备，也可以从服务器下载。作为一种方式，可以根据第二文本内容的用户意图，进行模板匹配。例如，用户意图为查询意图时，匹配到的模板可以为查询类的模板，从而电子设备可以获取到查询类的模板对应的控制指令(如温度、音量、状态等值的获取)。用户意图为控制意图时，匹配到的模板可以为控制类的模板，从而电子设备可以获取到控制类的模板对应的控制指令(如温度、音量、状态等值的控制)。

在本申请实施例中，电子设备在获取到控制指令后，为了确保准确性，可以进一步与用户确认，当获取到用户对该控制指令的确认指令时，可以根据该控制指令执行预设操作，从而实现语音控制智能家居设备。

在一些实施例中，对控制指令的确认指令可以是用户的确认音频，例如，当接收到用户说出“是的”“嗯”等音频时，即可认为获取到对控制指令的确认指令。在另一些实施例中，对控制指令的确认指令也可以是用户的确认动作，当检测到用户做出确认动作时，即可认为获取到对控制指令的确认指令。进一步地，作为一种方式，确认动作可以是用户做出的指定身体语言，该指定身体语言可以由用户设定，用于表征肯定。例如，点头，“OK”手势等。作为另一种方式，确认动作也可以是用户在电子设备的触控屏进行的确认点击、确认按压等确认输入操作。具体地，当电子设备运行有语音助手类的应用程序时，电子设备可以通过应用程序的后台获取到用户在应用程序的交互界面输入的确认指令。具体的确认指令以及确认指令的获取方式在本申请实施例中并不受限制，在此不再一一列举。

当电子设备获取到用户对控制指令的确认指令时，可以根据该控制指令执行预设操作，以实现用户的需求。在一些实施例中，当电子设备自身即为控制指令中的执行设备时，该预设操作可以是电子设备自身执行控制指令中的执行动作。例如，电子设备为智能电视时，若控制指令为“增大电视音量”，则电子设备可以直接调大自身的播放音量。在另一些实施例中，当电子设备不为控制指令中的执行设备时，该预设操作可以是电子设备将控制指令发送至执行设备，以使执行设备根据控制指令执行执行动作。例如，电子设备为服务器时，若控制指令为“获取电视音量”，则电子设备可以将控制指令下发至智能电视，以使智能电视将自身的播放音量进行上传。进一步地，也可以是将控制指令发送至中继设备，例如，智能网关，由中继设备通知智能电视上传播放音量。可以理解的是，上述预设操作仅为举例，在本申请实施例中并不作限定，根据实际应用场景合理变换即可。

进一步地，在一些实施例中，当电子设备获取到用户对控制指令的确认指令时，可以认为第二文本内容与第一文本内容语义相似，即第一文本内容中被替换的目标词与模板词是语义相似的。因此，可以将该目标词当做模板词进行存储，以便下次遇到用户说出类似的目标词时，可以不用进行模板词替换。

可以理解的是，本实施例中上述的各个步骤，可以均由上述终端设备在本地进行，也可以均在上述服务器中进行，还可以由终端设备与服务器分工进行，根据实际应用场景的不同，可以按照需求进行任务的分配，以实现最优化的语音控制家居设备，在此并不作限定。

本申请实施例提供的一种语音识别方法，通过接收语音数据，对语音数据进行语音分析，获得第一文本内容，然后将第一文本内容中的至少部分目标词替换成满足设定条件的模板词，得到第二文本内容，以获取第二文本内容对应的控制指令，并在获取到对控制指令的确认指令时，根据控制指令执行预设操作。本申请通过将第一文本内容中的至少部分目标词替换成满足设定条件的模板词，得到第二文本内容，从而可以根据第二文本内容匹配到对应的控制指令，并在获取到确认指令时实现智能家居的语音控制，提高了控制指令匹配的全面性，提高了语音交互装置识别的灵活性，提升了家居系统中的语音交互装置的泛化能力和用户体验。

请参阅图3，图3示出了本申请另一个实施例提供的语音识别方法的流程示意图，该方法可应用于上述电子设备。下面将针对图3所示的流程进行详细的阐述，所示语音识别方法具体可以包括以下步骤：

步骤S210：接收语音数据。

在本申请实施例中，步骤S210可参阅前述实施例的内容，在此不再赘述。

步骤S220：对所述语音数据进行语音分析，获得第一文本内容。

在一些实施例中，出于安全、隐私等原因，可以设置用户操作语音助手的权限。作为一种方式，可以通过识别用户的声纹可以确定用户操作语音助手的权限。具体地，在上述对语音数据进行语音分析，获得第一文本内容之前，该语音识别方法还可以包括：

提取所述语音数据中的至少一个声纹信息；将所述至少一个声纹信息和预设声纹信息进行对比；获取所述至少一个声纹信息中与所述预设声纹信息匹配的目标声纹信息，并从所述语音数据中提取与所述目标声纹信息匹配的目标语音数据；

电子设备在接收到语音数据后，可以提取语音数据中的至少一个声纹信息，然后将至少一个声纹信息和预设声纹信息进行对比，以确定发出该语音数据的用户是否具有操作语音助手的权限。其中，预设声纹信息为权限用户的声纹信息，可根据权限用户的语音提取到，该预设声纹信息可以预先存储于电子设备。

作为一种方式，将至少一个声纹信息和预设声纹信息进行对比，可以是通过算法进行声纹匹配。具体地，可以是将每个声纹信息与预存的声纹模型进行匹配。如果匹配成功，则确定匹配到与预设声纹信息匹配的目标声纹信息即权限用户的声纹信息，如果匹配成功，则确定匹配到非权限用户的声纹。其中，声纹模型可根据权限用户的语音生成得到。进一步地，若匹配到多个具有权限的声纹信息，可以将最高权限对应的声纹信息作为目标声纹信息。

当获取到目标声纹信息后，可以从语音数据中提取与该目标声纹信息匹配的目标语音数据，从而得到权限用户的语音数据。

电子设备在获取权限用户的目标语音数据之后，进一步的，可以对该目标语音数据进行语音分析。具体地，上述对所述语音数据进行语音分析，获得第一文本内容，可以包括：对所述目标语音数据进行语音分析，获得第一文本内容。其中，具体地语音分析以及第一文本内容的获取可以参阅前述实施例中的内容，在此不再赘述。

步骤S230：从预设的控制指令库中查找与所述第一文本内容匹配的控制指令。

在一些实施例中，电子设备在得到第一文本内容之后，可以从预设的控制指令库中查找与第一文本内容匹配的控制指令。其中，预设的控制指令库中存储有人为事先设定的常用、标准的控制指令，该控制指令可根据意图进行分类存储。当电子设备识别了第一文本内容的意图后，可根据对应意图从预设的控制指令库中查找与第一文本内容匹配的控制指令。

作为一种方式，电子设备查找与第一文本内容匹配的控制指令，可以是先判断第一文本内容的句式是否在已有的模板句式中。当第一文本内容的句式在已有的模板句式时，可以将第一文本内容的各个词与模板句式中的各个模板词进行匹配。当第一文本内容的各个词都在已有的模板词中时，第一文本内容可以匹配到一个特定的模板中，从而电子设备可以获取到该模板对应的控制指令，即电子设备可以从预设的控制指令库中查找到与第一文本内容匹配的控制指令。可以理解的是，当第一文本内容的各个词并不是都在已有的模板词中时，即可认为从预设的控制指令库中未查找到与第一文本内容匹配的控制指令。

步骤S240：当在所述控制指令库中未查找到与所述第一文本内容匹配的控制指令时，获取所述第一文本内容中的至少部分目标词。

在一些实施例中，当在控制指令库中未查找到与第一文本内容匹配的控制指令时，电子设备可以获取第一文本内容中的至少部分目标词。其中，至少部分目标词可以是第一文本内容中与模板词不匹配的词，也可以是第一文本内容中的各个分词，在此并不作限定。

步骤S250：将所述第一文本内容中的至少部分目标词替换成满足设定条件的模板词，得到第二文本内容。

在本申请实施例中，步骤S250可以参阅前述实施例的内容，在此不再赘述。

在一些实施例中，如果不存在所述满足设定条件的模板词，则可以生成提示信息，该提示信息用于提示用户重新输入语音数据。其中，该提示信息可以以文字(如“请重说”)、图像(如文字、动画图案)、音频(如提示音、文字播报)等单一或组合形式向用户展示。可以理解的是，该提示信息可以由电子设备进行展示，也可以是发送至其他设备进行展示。

当至少部分目标词为第一文本内容中与模板词不匹配的词时，在一些实施例中，请参阅图4，上述将第一文本内容中的至少部分目标词替换成满足设定条件的模板词，得到第二文本内容，可以包括：

步骤S251：获取所述第一文本内容中的至少部分目标词。

电子设备在进行模板词替换之前，可以先获取第一文本内容中的至少部分目标词，以确定出第一文本内容中需要进行替换的词。

在一些实施例中，请参阅图5，上述获取第一文本内容中的至少部分目标词，可以包括：

步骤S2511：对所述第一文本内容进行分词处理，得到多个词语。

其中，分词是将第一文本内容依据词典划分出第一文本内容中的最小单元的词语。电子设备通过对第一文本内容进行分词处理，可以得到多个词语。进一步地，在一些实施例中，电子设备还可以进行词性标注。词性标注是对分词后的第一文本内容中的词语进行词性的标注，例如，可以预设多种词性，如动词、名词、代词等，其中，名词也可以根据具体应用场景细分为位置、时间、设备、数字等，每种词性与属于该词性的词语对应。从而可以将第一文本内容中的各个词语的词性标注为其对应的词性。

进一步地，还可以对第一文本内容进行预处理。预处理可以包括对第一文本内容进行去停用词、去无效字符、数字语言归一化或者同音词纠错等处理。其中，去停用词可以是去掉第一文本内容中不表征实际意义的词，例如语气助词等。去无效字符是指去掉第一文本内容中一些程序不认可的字符。数字语言归一化是指将第一文本内容中的数字和语言统一起来，用一种形式进行表达，例如把壹统一为阿拉伯数字1。同音词纠错是指对第一文本内容中读音相同但字形不同的词语进行纠错。

进一步地，在一些实施例中，对第一文本内容进行带词性的分词处理后，可以根据与第一文本内容匹配的模板句式，提取出与模板句式匹配的多个词语。例如，假设第一文本内容为“开启空调”，进行带词性的分词处理后的结果为“开启(v)/空调(n)”,其中v表示动词，n表示名词。因此可以匹配到已有的“{动词}{名词}”模板句式，从而对应提取出多个词语为{“动词”：“开启”，“名词”：“空调”}。

步骤S2512：基于每个词语的词性特征，将所述多个词语中的每个词语分别与对应词性的模板词库中的多个模板词进行匹配。

其中，模板词库可根据不同词性进行分类存储，例如，模板词库可以为{“动词”：[“打开”,“关闭”]，“名词”：[“空调”，“电视”，“灯”]}。电子设备可以选取一个词语，根据该词语的词性特征，确定对应词性的模板词库，并将该词语与该模板词库中的多个模板词进行匹配，从而可以确定该词语是否已存在于模板词库中。重复上述操作，即可对上述得到的多个词语中的每个词语进行确定。例如，采用上例，对比模板词库可知，“空调”在模板词库中，但“开启”并不在模板词库中。

步骤S2513：获取所述多个词语中与所述对应词性的模板词库中的多个模板词不匹配的至少部分目标词。

在一些实施例中，电子设备将多个词语中与对应词性的模板词库中的多个模板词进行匹配之后，可以将多个词语中不匹配的词语挑选出，作为上述至少部分目标词，进行后续处理。如果有多个不能匹配的词语，则可以依次记录下来。例如，采用上例，至少部分目标词即无法匹配的词语为{“动词”：“开启”}。

步骤S252：确定分别与每个目标词具有最大相似度且所述最大相似度大于预设阈值的模板词，获得所述每个目标词对应的模板词。

在一些实施例中，电子设备获取到第一文本内容中的至少部分目标词之后，可以确定分别与每个目标词具有最大相似度且最大相似度大于预设阈值的模板词，从而获得每个目标词对应的模板词，以作为后续用于替换的模板词。

其中，预设阈值为判定模板词与目标词之间相似时，相似度需要达到的最低值。其中，相似度可以用百分制表示，例如，80％，90％等，也可以用其他等级制表示，在此并不作限定。该预设阈值可由用户根据实际情况进行合理设定，在此并不作限定。例如，设定预设阈值为90％。

在一些实施例中，获取与目标词具有最大相似度的模板词，可以是通过词向量计算目标词与模板词之间语义相似度后，进行确定的。具体地，请参阅图6，上述确定分别与每个目标词具有最大相似度且最大相似度大于预设阈值的模板词，获得每个目标词对应的模板词，可以包括：

步骤S2521：基于已训练的向量获取模型，获取每个目标词的第一词向量以及模板词库的多个模板词中每个模板词的第二词向量。

其中，词向量是表征词的一维向量，类似于[a1，a2，…，an]的形式，即一个词的词向量用一维数组表示，一维数组的维数n即为词向量的维度。可以理解的是，在本申请实施例中，每个目标词的第一词向量以及每个模板词的第二词向量的词向量维度是相同的。向量中的每个元素都是浮点数。可以通过词向量可以计算两个词之间的距离，而这个距离的大小则反映了两个词的语义相似程度。

在本申请实施例中，上述已训练的向量获取模型可以基于一批文本语料训练得到，语料规模越大，训练的向量获取模型效果越好，从而输出的词向量的语义表征效果越好。向量获取模型的训练方式可以有多种方式，例如Glove(Global vectors for wordrepresentation，词表达的全局向量)词向量的训练方式和word2vec(Word to Vector，文本向量化)词向量的训练方式。

以word2vec词向量的训练方式为例，word2vec基于分布假说，即上下文相似的词，其语义也相似。其中，一个词前后的若干词组成这个词的上下文(比如前后各N个词)。例如，“把空调打开”和“把电视打开”，假设上下文为前后一个词，那么“空调”和“电视”的上下文均为[“把”，“打开”]。word2vec词向量训练的直观效果是，两个词的上下文越相似，它们的词向量会越相似，词向量之间的距离越小，表示它们的含义越接近。

具体地，word2vec采用浅层神经网络模型实现，包括CBOW(Continuous Bag-Of-Words，连续词袋模型)和skip-gram(Continuous Skip-gram，跳字模型)两种训练方式，具体结构如图7所示，w是每个词对应的词向量，假设上下文为前后各2个词，则由w(t-2)w(t-1)w(t)w(t+1)w(t+2)组成窗口，w(t)为中心词。CBOW是用上下文的词预测中心词；而Skip-gram则使用中心词预测上下文的词。

在一些实施例中，在训练前用户也可以指定词向量的维度，并对每个词的词向量都进行随机初始化。作为一种方式，可以初始化为接近于0的数值，比如用[-1,1]之间的随机数进行初始化。在学习训练过程中，每个词的词向量都根据语料自动调整。由于语料的特点在一定程度上反映了词的语义信息，因此如果两个词的上下文(如前后2个词)的越相似，则这两个词的语义越相近，且学习完毕之后，这个两个词的词向量距离会越小。比如“打开”和“开启”的距离是比较近的。

由于训练词向量需要足够语料，因此当语料不多时，可以采用预训练好的词向量，这些预训练的词向量一般在现有的大规模公开语料上训练得到。

从而，通过上述训练方式，可以得到上述已训练的向量获取模型。电子设备可以将每个目标词输入该向量获取模型，可以得到向量获取模型输出的每个目标词对应的第一词向量，将对应模板词库中的每个模板词输入该向量获取模型，可以得到向量获取模型输出的每个模板词对应的第二词向量。例如，目标词是“开启”，词性为动词，则对应模板词库的多个模板词为[“打开”，“关闭”]，可以分别获取“开启”、“打开”、“关闭”的词向量。

步骤S2522：分别计算所述每个目标词的第一词向量与所述多个模板词中每个模板词的第二词向量的欧式距离，获得针对每个目标词计算得到的多个欧式距离。

可以理解的是，语义相似的词，词向量之间的距离会比较小。在一些实施例中，可以采用欧式距离计算两个词之间的距离，该距离从侧面反映出语义的相似程度，从而可根据每个目标词与每个模板词的欧式距离，确定出与目标词相似的模板词。在这里，举例说明欧式距离的求取方式：两个向量分别为X＝[x1，x2]，Y＝[y1，y2]时，则两个向量的欧式距离可以为d＝(x1-y1)²+(x2-y2)²，也可以为

在此不作限定。

具体地，可以分别计算每个目标词的第一词向量与多个模板词中每个模板词的第二词向量的欧式距离，获得针对每个目标词计算得到的多个欧式距离，即得到每个目标词与每个对应的模板词之间的语义相似程度。例如，采用上例，分别计算“开启”与“打开”、“关闭”对应的词向量之间的欧式距离。

步骤S2523：分别获取所述每个目标词对应的多个欧式距离中的最小值，得到与所述每个目标词对应的最小值。

可以理解的是，两个词对应的词向量之间的欧式距离越小，两个词的语义越相似。因此，在一些实施例中，电子设备可以分别获取每个目标词对应的多个欧式距离中的最小值，得到与每个目标词对应的最小值，即可得到与目标词语义最相似的模板词。

步骤S2524：如果所述每个目标词对应的最小值小于指定阈值，则将每个最小值对应的模板词作为与所述每个目标词具有最大相似度且所述最大相似度大于预设阈值的模板词，获得所述每个目标词对应的模板词，所述指定阈值与所述预设阈值对应。

其中，指定阈值为目标词存在足够相似的模板词时，目标词对应的最小值可以达到的最大值，即所允许的最低相似度。当某个目标词对应的最小值超出了指定阈值，则可以认为该目标词不存在足够相似的模板词。从而可以排除语义相差较大的情况。可以理解的是，设定的指定阈值越小，所需要的相似度标准就越高。例如，指定阈值为1时，对应的相似度为90％。

在本申请实施例中，如果每个目标词对应的最小值都小于指定阈值，可以认为每个目标词都存在足够相似的模板词，因此可以将每个最小值对应的模板词作为与每个目标词具有最大相似度且最大相似度大于预设阈值的模板词，从而获得每个目标词对应的模板词，即得到了与每个目标词最相似的模板词，从而可进行模板词替换。其中，指定阈值与上述预设阈值对应。

可以理解的是，如果某个目标词与所有对应模板词之间的最小欧式距离依然不够小，说明该目标词与对应模板词语义不够相似，这种情况下，认为用户说法很可能有误，因此，在一些实施例中，当至少部分目标词中存在一个目标词对应的最小值大于指定阈值，可以不再进行后续计算，直接提示用户更换说法。

在一些实施例中，上述指定阈值可由用户根据实际情况进行合理设定，可以预存于电子设备中。作为一种方式，可以是在得到词向量之后，通过简单测试确定阈值。比如，输入一个目标词，然后计算该目标词与所有模板词的欧式距离，最后根据欧式距离从小到大进行排序，用户可以查看实际排序结果，查看排序靠前的模板词中多少个词是合适的，然后记录对应的欧式距离阈值。这样测试若干个词后，对得到的多个欧式距离阈值进行进一步处理(如求平均)，然后得到最终的欧式距离阈值，并将该欧式距离阈值作为指定阈值。当然，也根据实际应用效果，进一步人为调整。

步骤S253：将所述第一文本内容中的所述至少部分目标词中每个目标词对应替换成所述每个目标词对应的模板词，得到第二文本内容。

在一些实施例中，在获取到与目标词距离最小(语义最接近)的模板词之后，可以用该模板词替换目标词。具体地，可以将第一文本内容中的至少部分目标词中每个目标词对应替换成上述每个目标词对应的模板词，得到第二文本内容。可以理解的是，第一文本内容中的至少部分目标词有多个时，可以将每个目标词用上述每个目标词对应的模板词进行一一替换。

例如，采用上例，若目标词“开启”与模板词“打开”的距离最小(语义最接近)，则可以用“打开”替代第一文本内容中的“开启”，即将第一文本内容由“开启空调”替换称为“打开空调”。

步骤S260：获取所述第二文本内容对应的控制指令，并在获取到对所述控制指令的确认指令时，根据所述控制指令执行预设操作。

在本申请实施例中，步骤S260可参阅前述实施例的内容，在此不再赘述。

如果第一文本内容中的所有需要替换的目标词都可以替换完成，则替换之后的第二文本内容可以对应到某个模板上面，从而可以获取到第二文本内容对应的控制指令。例如，采用上例，第一文本内容已由“开启空调”替换为“打开空调”，所有目标词均在模板词中，因此可以获取到对应的控制指令。

在一些实施例中，由于第二文本内容是基于词向量距离预测替换了最可能的模板词，因此，为了确保准确性，可以考虑进一步与用户确认的方式。具体地，作为一种方式，在上述并在获取到对控制指令的确认指令时，根据控制指令执行预设操作之前，该语音识别方法还可以包括：

根据所述控制指令生成询问信息；将所述询问信息进行文本显示或语音输出，所述询问信息用于向用户确认所述控制指令是否正确。

其中，询问信息可以包括控制指令，用于向用户确认上述控制指令是否正确。例如，电子设备获取的控制指令“打开空调”时，询问信息可以是“是否需要打开空调”。在一些实施方式中，电子设备可以预存有询问信息对应的模板，电子设备可以根据控制指令选择对应的模板，进行询问信息的对应生成。例如，询问信息对应的模板可以是“是否需要”+控制指令，也可以是“请问是”+控制指令，具体的模板并不作限定，可根据实际应用场景合理设定。

电子设备在生成了询问信息后，可以将该询问信息进行文本显示或语音输出，以等待用户的回复，用户的回复可以包括对控制指令的确认行为和否定行为。从而保证了语音助手识别的控制指令的准确性。可以理解的是，当用户确认指令无误后，可以执行该控制指令。否则，说明模板词替换不合适，不予执行，并可以提示用户更换说法。

在一些实施例中，在为用户执行相应指令后，可以向用户提示执行结果。例如，采用上例，可以回复用户“已打开空调”。

在一些实施例中，若第一文本内容中的至少部分目标词为上述多个词语中与对应词性的模板词库中的多个模板词不匹配的词语时，则在将至少部分目标词替换成满足设定条件的模板词，得到第二文本内容，获取第二文本内容对应的控制指令，并在获取到对所述控制指令的确认指令时，根据控制指令执行预设操作之后，该语音识别方法还可以包括：

将所述至少部分目标词添加至所述对应词性的模板词库中，得到更新后的对应词性的模块词库。

可以理解的时，当用户确认控制指令无误后，可以认为被替换的目标词与模板词中是语义相似的，可以填写到对应词性的模板词库中，这样模板词库就会也来越丰富，从而再次遇到用户提问类似的目标词时，通过传统模式匹配的方法即可匹配完成，无需再通过词向量相似方式进行计算确认。

例如，采用上例，原先的模板词库为{“动词”：[“打开”,“关闭”],“名词”：[“空调”，“电视”]}，第一文本内容为“开启空调”，通过模板词替换之后，用户确认无误，则将动词“开启”添加到动词的模板词库列表中，即更新后的模板词库变为{“动词”：[“打开”,“关闭”，“开启”],“名词”：[“空调”，“电视”]}，这样下次用户说“开启空调”时，无需再进行词向量相似匹配，直接匹配即可。

例如，请参阅图8，图8示出了本申请实施例提供的一种语音识别方法。当用户采用日常生活中的自然语言发出语音指令时，可以通过图8所示的语音识别方法，将自然语言的语音指令替换为语音助手可识别的语音指令，提高了语音助手识别的灵活性。也即当用户语音文本中的目标词不在模板词中时，可以通过词向量计算目标词与模板词之间语义相似度，识别文本中的目标词与模板词是否意思相近，并完成必要的替换，同时以反馈的方式与用户进行确认，能持续提升语音助手的泛化能力和用户体验。并且也可以不断丰富模板词，从而较好地支持模板词中没有的语言。

本申请实施例提供的一种语音识别方法，通过接收语音数据，对语音数据进行语音分析，获得第一文本内容；然后获取第一文本内容中的至少部分目标词，其中，至少部分目标词可以是与模板词不匹配的词；然后通过词向量计算目标词与模板词之间语义相似度，确定分别与每个目标词具有最大相似度且所述最大相似度大于预设阈值的模板词，获得每个目标词对应的模板词，从而可以将第一文本内容中的至少部分目标词中每个目标词对应替换成每个目标词对应的模板词，得到第二文本内容，以获取第二文本内容对应的控制指令，并在获取到对控制指令的确认指令时，根据控制指令执行预设操作。本申请实施例通过将第一文本内容中的至少部分目标词替换成满足设定条件的模板词，得到第二文本内容，从而可以根据第二文本内容匹配到对应的控制指令，并在获取到确认指令时实现智能家居的语音控制，提高了控制指令匹配的全面性，提升了家居系统中的语音交互装置的泛化能力和用户体验。

请参阅图9，图9示出了本申请提供的一种语音识别装置500的结构框图，该装置可以包括：数据接收模块510、数据分析模块520、数据替换模块530以及指令执行模块540。其中，数据接收模块510用于接收语音数据；数据分析模块520用于对所述语音数据进行语音分析，获得第一文本内容；数据替换模块530用于将所述第一文本内容中的至少部分目标词替换成满足设定条件的模板词，得到第二文本内容；指令执行模块540用于获取所述第二文本内容对应的控制指令，并在获取到对所述控制指令的确认指令时，根据所述控制指令执行预设操作。

在一些实施例中，数据替换模块530可以包括：目标词获取单元、模板词获取单元以及第二文本获取单元。其中，目标词获取单元用于获取所述第一文本内容中的至少部分目标词；模板词获取单用于确定分别与每个目标词具有最大相似度且所述最大相似度大于预设阈值的模板词，获得所述每个目标词对应的模板词；第二文本获取单元用于将所述第一文本内容中的所述至少部分目标词中每个目标词对应替换成所述每个目标词对应的模板词，得到第二文本内容。

在一些实施例中，模板词获取单元可以具体用于：基于已训练的向量获取模型，获取每个目标词的第一词向量以及模板词库的多个模板词中每个模板词的第二词向量；分别计算所述每个目标词的第一词向量与所述多个模板词中每个模板词的第二词向量的欧式距离，获得针对每个目标词计算得到的多个欧式距离；分别获取所述每个目标词对应的多个欧式距离中的最小值，得到与所述每个目标词对应的最小值；如果所述每个目标词对应的最小值小于指定阈值，则将每个最小值对应的模板词作为与所述每个目标词具有最大相似度且所述最大相似度大于预设阈值的模板词，获得所述每个目标词对应的模板词，所述指定阈值与所述预设阈值对应。

在一些实施例中，目标词获取单元可以具体用于：对所述第一文本内容进行分词处理，得到多个词语；基于每个词语的词性特征，将所述多个词语中的每个词语分别与对应词性的模板词库中的多个模板词进行匹配；获取所述多个词语中与所述对应词性的模板词库中的多个模板词不匹配的至少部分目标词。

进一步地，在一些实施例中，语音识别装置500还可以包括：模板更新模块。该模板更新模块用于将所述至少部分目标词添加至所述对应词性的模板词库中，得到更新后的对应词性的模块词库。

在一些实施例中，语音识别装置500还可以包括：指令匹配模块以及判断模块。其中，指令匹配模块用于从预设的控制指令库中查找与所述第一文本内容匹配的控制指令；判断模块用于当在所述控制指令库中未查找到与所述第一文本内容匹配的控制指令时，获取所述第一文本内容中的至少部分目标词。

在一些实施例中，语音识别装置500还可以包括：提示模块。该提示模块用于如果不存在所述满足设定条件的模板词，则生成提示信息，所述提示信息用于提示用户重新输入语音数据。

在一些实施例中，语音识别装置500还可以包括：询问生成模块以及询问输出模块。询问生成模块用于根据所述控制指令生成询问信息；询问输出模块用于将所述询问信息进行文本显示或语音输出，所述询问信息用于向用户确认所述控制指令是否正确。

在一些实施例中，语音识别装置500还可以包括：声纹提取模块、声纹比对模块以及目标语音获取模块。其中，声纹提取模块用于提取所述语音数据中的至少一个声纹信息；声纹比对模块用于将所述至少一个声纹信息和预设声纹信息进行对比；目标语音获取模块用于获取所述至少一个声纹信息中与所述预设声纹信息匹配的目标声纹信息，并从所述语音数据中提取与所述目标声纹信息匹配的目标语音数据。数据分析模块520可以用于：对所述目标语音数据进行语音分析，获得第一文本内容。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的语音识别装置能够实现图2、图3、图4、图5和图6任一的方法实施例中的各个过程，为描述的方便和简洁，上述描述装置、模块、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

综上，本申请实施例提供的一种语音识别装置，该装置包括：数据接收模块、数据分析模块、数据替换模块以及指令执行模块，其中，数据接收模块用于接收语音数据；数据分析模块用于对所述语音数据进行语音分析，获得第一文本内容；数据替换模块用于将所述第一文本内容中的至少部分目标词替换成满足设定条件的模板词，得到第二文本内容；指令执行模块用于获取所述第二文本内容对应的控制指令，并在获取到对所述控制指令的确认指令时，根据所述控制指令执行预设操作。提高了控制指令匹配的全面性，提高了语音交互装置识别的灵活性，提升了家居系统中的语音交互装置的泛化能力和用户体验。

本申请实施例提供了一种电子设备，电子设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的如图2、图3、图4、图5和图6任一的语音识别方法。本实施例中，电子设备可以是手机、笔记本电脑、智能穿戴设备、智能电视、智能音箱、车载终端、网关等等能够运行应用程序的终端设备。也可以是本地服务器、云服务器等服务器。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

图10是本申请一个实施例提供的一种电子设备1200的硬件结构框图。具体的，电子设备在无线网络系统中作为电子设备时可以执行并实现如上述方法实施例所提供的如图2、图3、图4、图5和图6任一的语音识别方法，其中，电子设备可以是图像采集设备、网关、服务器等能够运行应用程序的电子设备。

如图10所示，该电子设备1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器1210(处理器1210可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1230，一个或一个以上存储应用程序1223或数据1222的存储介质1220(例如一个或一个以上海量存储设备)。其中，存储器1230和存储介质1220可以是短暂存储或持久存储。存储在存储介质1220的程序可以包括一个或一个以上模块，每个模块可以包括对电子设备1200中的一系列指令操作。更进一步地，处理器1210可以设置为与存储介质1220通信，在电子设备1200上执行存储介质1220中的一系列指令操作。电子设备1200还可以包括一个或一个以上电源1260，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1240，和/或，一个或一个以上操作系统1221，例如WindowsServerTM，MacOSXTM，UnixTM,LinuxTM，FreeBSDTM等等。

需要说明的是，电源1260可以是包含独立电源模块以向电子设备1200供电，也可以是用于连接外部电源以向电子设备1200供电。

输入输出接口1240可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备1200的通信供应商提供的无线网络。在一个实例中，输入输出接口1240包括一个网络适配器(NetworkInterfaceController，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口1240可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图10所示的结构仅为示意，其并不对上述电子设备的结构造成限定。例如，电子设备1200还可包括比图10中所示更多或者更少的组件，或者具有与图10所示不同的配置。

综上，本申请实施例提供的一种电子设备，该电子设备执行以下步骤：接收语音数据，对语音数据进行语音分析，获得第一文本内容，然后将第一文本内容中的至少部分目标词替换成满足设定条件的模板词，得到第二文本内容，以获取第二文本内容对应的控制指令，并在获取到对控制指令的确认指令时，根据控制指令执行预设操作。提高了控制指令匹配的全面性，提升了家居系统中的语音交互装置的泛化能力和用户体验。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音识别方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，的计算机可读存储介质，如只读存储器(Read-OnlyMemory，简称ROM)、随机存取存储器(RandomAccessMemory，简称RAM)、磁碟或者光盘等。

图11是本申请实施例提供的一种计算机可读存储介质800的结构框图。该计算机可读存储介质800中存储有程序代码，程序代码可被处理器调用执行上述方法实施例所提供的如图2、图3、图4、图5和图6任一的语音识别方法。计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或ROM之类的电子存储器。可选地，计算机可读存储介质800包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

接收语音数据；

对所述语音数据进行语音分析，获得第一文本内容；

将所述第一文本内容中的至少部分目标词替换成满足设定条件的模板词，得到第二文本内容；

获取所述第二文本内容对应的控制指令，并在获取到对所述控制指令的确认指令时，根据所述控制指令执行预设操作。

2.根据权利要求1所述的方法，其特征在于，所述将所述第一文本内容中的至少部分目标词替换成满足设定条件的模板词，得到第二文本内容，包括：

获取所述第一文本内容中的至少部分目标词；

确定分别与每个目标词具有最大相似度且所述最大相似度大于预设阈值的模板词，获得所述每个目标词对应的模板词；

将所述第一文本内容中的所述至少部分目标词中每个目标词对应替换成所述每个目标词对应的模板词，得到第二文本内容。

3.根据权利要求2所述的方法，其特征在于，所述确定分别与每个目标词具有最大相似度且所述最大相似度大于预设阈值的模板词，获得所述每个目标词对应的模板词，包括：

基于已训练的向量获取模型，获取每个目标词的第一词向量以及模板词库的多个模板词中每个模板词的第二词向量；

分别计算所述每个目标词的第一词向量与所述多个模板词中每个模板词的第二词向量的欧式距离，获得针对每个目标词计算得到的多个欧式距离；

分别获取所述每个目标词对应的多个欧式距离中的最小值，得到与所述每个目标词对应的最小值；

如果所述每个目标词对应的最小值小于指定阈值，则将每个最小值对应的模板词作为与所述每个目标词具有最大相似度且所述最大相似度大于预设阈值的模板词，获得所述每个目标词对应的模板词，所述指定阈值与所述预设阈值对应。

4.根据权利要求2所述的方法，其特征在于，所述获取所述第一文本内容中的至少部分目标词，包括：

对所述第一文本内容进行分词处理，得到多个词语；

基于每个词语的词性特征，将所述多个词语中的每个词语分别与对应词性的模板词库中的多个模板词进行匹配；

获取所述多个词语中与所述对应词性的模板词库中的多个模板词不匹配的至少部分目标词。

5.根据权利要求4所述的方法，其特征在于，在所述并在获取到对所述控制指令的确认指令时，根据所述控制指令执行预设操作之后，所述方法还包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，在所述将所述第一文本内容中的至少部分目标词替换成满足设定条件的模板词，得到第二文本内容之前，所述方法还包括：

从预设的控制指令库中查找与所述第一文本内容匹配的控制指令；

当在所述控制指令库中未查找到与所述第一文本内容匹配的控制指令时，获取所述第一文本内容中的至少部分目标词。

7.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

如果不存在所述满足设定条件的模板词，则生成提示信息，所述提示信息用于提示用户重新输入语音数据。

8.根据权利要求1-5任一项所述的方法，其特征在于，在所述并在获取到对所述控制指令的确认指令时，根据所述控制指令执行预设操作之前，所述方法还包括：

根据所述控制指令生成询问信息；

将所述询问信息进行文本显示或语音输出，所述询问信息用于向用户确认所述控制指令是否正确。

9.根据权利要求1-5任一项所述的方法，其特征在于，在所述对所述语音数据进行语音分析，获得第一文本内容之前，所述方法还包括：

提取所述语音数据中的至少一个声纹信息；

将所述至少一个声纹信息和预设声纹信息进行对比；

获取所述至少一个声纹信息中与所述预设声纹信息匹配的目标声纹信息，并从所述语音数据中提取与所述目标声纹信息匹配的目标语音数据；

所述对所述语音数据进行语音分析，获得第一文本内容，包括：

对所述目标语音数据进行语音分析，获得第一文本内容。

10.一种语音识别装置，其特征在于，所述装置包括：

数据接收模块，用于接收语音数据；

数据分析模块，用于对所述语音数据进行语音分析，获得第一文本内容；

数据替换模块，用于将所述第一文本内容中的至少部分目标词替换成满足设定条件的模板词，得到第二文本内容；

指令执行模块，用于获取所述第二文本内容对应的控制指令，并在获取到对所述控制指令的确认指令时，根据所述控制指令执行预设操作。

11.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至9中任一项所述的语音识别方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的语音识别方法的步骤。