CN107644642B

CN107644642B - 语义识别方法、装置、存储介质及电子设备

Info

Publication number: CN107644642B
Application number: CN201710854382.8A
Authority: CN
Inventors: 梁昆
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2017-09-20
Filing date: 2017-09-20
Publication date: 2021-01-15
Anticipated expiration: 2037-09-20
Also published as: CN107644642A

Abstract

本申请实施例公开了一种语义识别方法、装置、存储介质及电子设备。该方法包括获取语音数据及场景模式；将所述语音数据及场景模式输入预先构建的识别模型进行语义识别；获取所述识别模型输出的与所述场景模式对应的语义识别结果，执行所述语义识别结果对应的操作。采用上述技术方案，使识别模型具有在不同场景模式下准确“听懂”用户的语音的真实含义的能力，避免发生因不能准确理解自然语言对应的含义而导致语义识别的准确率较低的问题发生，可以实现准确、快速地确定在不同场景下用户输入的语音数据对应的语义。

Description

语义识别方法、装置、存储介质及电子设备

技术领域

本申请实施例涉及自然语言处理技术，尤其涉及一种语义识别方法、装置、存储介质及电子设备。

背景技术

随着应用于电子设备的科学技术的迅猛发展，电子设备已经拥有了强大的处理能力，可以实现在一定程度上像人类一样理解自然语言。

然而，由于用户在输入语音数据时表述可能缺乏规范性，且同一意思可能采用不同的表达方式等原因，均对电子设备理解自然语言造成障碍，从而，导致语义识别的准确率往往不高。

发明内容

本申请实施例提供一种语义识别方法、装置、存储介质及电子设备，可以提高语义识别的准确率。

第一方面，本申请实施例提供了一种语义识别方法，包括：

获取语音数据及场景模式；

将所述语音数据及场景模式输入预先构建的识别模型进行语义识别，其中，所述识别模型由不同场景模式下的标准语音数据样本训练得到；

获取所述识别模型输出的与所述场景模式对应的语义识别结果，执行所述语义识别结果对应的操作，其中，所述语义识别结果包括所述语音数据对应的文本中的关键词。

第二方面，本申请实施例还提供了一种语义识别装置，该装置包括：

语音获取模块，用于获取语音数据及场景模式；

语义识别模块，用于将所述语音数据及场景模式输入预先构建的识别模型进行语义识别，其中，所述识别模型由不同场景模式下的标准语音数据样本训练得到；

识别结果执行模块，用于获取所述识别模型输出的与所述场景模式对应的语义识别结果，执行所述语义识别结果对应的操作，其中，所述语义识别结果包括所述语音数据对应的文本中的关键词。

第三方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例所述的语义识别方法。

第四方面，本申请实施例还提供了一种电子设备，包括用于采集语音数据的语音采集器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例所述的语义识别方法。

本申请实施例提供一种语义识别方案，通过获取语音数据及场景模式；将所述语音数据及场景模式输入预先构建的识别模型进行语义识别；获取所述识别模型输出的与所述场景模式对应的语义识别结果，执行所述语义识别结果对应的操作，提高机器在不同场景下理解用户输入的语音的真实含义的能力。采用上述技术方案，通过在识别模型的训练过程中考虑场景模式因素，使识别模型具有在不同场景模式下准确“听懂”用户的语音的真实含义的能力，避免发生因不能准确理解自然语言对应的含义而导致语义识别的准确率较低的问题发生，可以实现准确、快速的确定在不同场景下用户输入的语音数据对应的语义。

附图说明

图1是本申请实施例提供的一种语义识别方法的流程图；

图2是本申请实施例提供的一种长短期记忆网络中神经元的结构示意图；

图3是本申请实施例提供的另一种语义识别方法的流程图；

图4是本申请实施例提供的一种语义识别装置的结构示意图；

图5是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

相关技术中，语义识别的主要方法是基于循环神经网络的文本语义理解方法和基于卷积神经网络的文本语义理解方法。然而，由于自然语言代表的含义十分丰富，同一句话在不同的场景中可能代表不同的含义。例如，在闹钟响铃时，用户通过语音方式输入“关闭闹铃”，其可能的含义就包括仅关闭本次闹铃(例如，用户设置闹钟为工作日的7点响铃，则关闭本次闹铃的含义是其在下一个工作日的相同时间还会响铃)，或者是直接关闭预先设置的闹钟。若当前电子设备处于闹钟响铃模式，即预先设置该闹钟有可能是为了在工作日叫用户起床，则用户语音输入“关闭闹钟”的真正含义可能是“关闭本次或当日闹钟”。若当前电子设备处于事项提醒模式，即预先设置闹钟有可能是为了提醒用户当天需要处理的重要事项，则用户语音输入“关闭闹钟”的真是含义可能是“关闭该预先设置的闹钟”。由于相关技术提供的语义识别方法在语义识别的过程中未考虑场景模式对语义识别结果的影响，因此，往往出现不能正确理解不同场景下用户的真实意愿的情况，导致语义识别的准确率不高。

图1为本申请实施例提供的一种语义识别方法的流程图，该方法可以由语义识别装置来执行，该装置可由软件和/或硬件实现，一般可集成在电子设备中。如图1所示，该方法包括：

步骤110、获取语音数据及场景模式。

其中，语音数据包括用户输入的语音。

电子设备上集成有语音采集器，通过语音采集器可以获取语音数据。其中，语音采集器包括送话器，以及蓝牙耳机、红外耳机等无线耳机。例如，可以是在检测到用户按住语音输入按钮时，通过送话器采集语音数据。又如，还可以是在检测到用户触摸蓝牙耳机上的语音输入按钮时，通过蓝牙耳机采集语音数据，并将采集到的语音数据通过蓝牙模块发送至移动终端。可以理解的是，上述获取语音数据的方式是示例而非限定。

所述场景模式与电子设备的工作状态及外部环境等因素相关联。例如，当前环境光的光强值较小，且电子设备的前台运行有扫描二维码的应用程序时，若用户语音输入“打开手电筒”，其真实意图是通过打开电子设备的手电筒功能为扫描二维码的应用提供短时间照明，在扫描成功后，即可自动关闭手电筒功能。对于相同的外部环境因素，即当前环境光的光强值较小，在电子设备的前台运行的应用程序不属于预设的白名单时，若用户同样通过语音方式输入“打开手电筒”，其真实意图是打开电子设备的手电筒功能进行照明，而不是短时间照明后就自动关闭。

可以在检测到语音数据时，查询任务管理器，以确定前台运行的应用程序的进程名或包名等唯一标识应用程序的信息。可选的，还可以在语音数据获取完成后，查询任务管理器，以确定前台运行的应用程序。根据所述应用程序的进程名或包名查询预设的白名单，判断该应用程序是否属于该白名单。其中，预设的白名单的确定方式有很多种，本申请实施例中不作具体限定。例如，可以是对一定数量的用户的历史使用习惯进行统计，得出对同一表述作不同理解的场景模式。然后，确定该场景模式下启用次数超过设定阈值的应用程序，对该应用程序的标识信息进行存储，得到该白名单，并在出厂前配置于电子设备中。又如，向用户提供应用程序配置功能，以供用户在启动该应用程序配置功能时，提示用户选择出现语义误解析时前台运行的应用程序，对用户选择的应用程序进行存储得到该白名单。可以理解的是，还可以通过用户选择的出现语义无解析时前台运行的应用程序，更新出厂前配置于电子设备中的预设的白名单。

在前台运行的应用程序属于预设的白名单时，获取环境光传感器采集的环境光强度值，根据该环境光强度值及应用程序确定场景模式。示例性的，若前台运行的应用程序是相机应用，则将该环境光强度值与预设光强阈值进行比较。在该环境光强度值小于预设光强阈值时，确定当前的场景模式为低光拍摄模式。在该环境光强度值大于或等于预设光强阈值时，确定当前的场景模式为正常拍摄模式。

可选的，在前台运行的应用程序属于预设的白名单时，获取系统时间，根据该系统时间及应用程序确定场景模式。示例性的，若前台运行的应用程序是闹钟应用，则获取该闹钟应用对应的响铃时间，并将该系统时间与响铃时间进行匹配。在系统时间等于该响铃时间时，确定当前的场景模式为闹钟响铃模式。可选的，若设置的响铃时间为一段时间，则在系统时间属于该响铃时间时，确定当前的场景模式为闹钟响铃模式。在系统时间不等于响铃时间时，确定当前的场景模式为事项提醒模式。其中，事项提醒模式包括备忘录中设置响铃提醒的场景或其它可以调用闹钟功能的第三方应用。

可选的，在前台运行的应用程序不属于预设的白名单时，将预设的默认场景模式作为当前的场景。其中，在默认场景模式下，识别模型认为用户输入的语音数据代表的真实含义即为其字面意思，不存在多重含义。

可选的，上述获取场景模式还可以替换为获取当前的终端状态(包括前台运行的应用程序)和/或环境状态，将上述数据输入预设的场景模型，通过机器学习的方式确定当前终端的场景模式。

步骤120、将所述语音数据及场景模式输入预先构建的识别模型进行语义识别。

其中，识别模型由不同场景模式下的标准语音数据样本训练得到。标准语音样本包括：预先收集或录制的不同场景模式下的用户输入的语音数据样本；或者，对所述语音数据样本对应的文本进行分词处理，对所述文本中关键词进行同义词扩展，采用同义词替换所述关键词得到替换文本对应的语音数据样本。可以理解的是，上述对标准语音样本的说明仅是示例，并非限定。

识别模型可以是长短期记忆网络(Long Short Term网络，简称LSTM网络)模型，其是一种循环神经网络的特殊类型，可以学习长期依赖信息，而不需要付出很大的代价才能记住长期的信息。

示例性地，基于LSTM网络的识别模型的训练过程包括：

模型初始化，包括设置隐藏层的数目以及输入层、隐藏层和输出层各层的节点数，各层之间的连接权重，以及初始化隐藏层和输出层的阈值等，初步得到LSTM模型的拓扑结构。例如，图2示出了本申请实施例提供的一种长短期记忆网络中神经元的结构示意图。图2中每条线表示一个完整向量，即从一个节点的输出到其它节点的输入。圆圈代表逐点操作，例如向量加法。矩形框代表已学习的神经网络层。线条合并表示串联，线条分叉表示内容复制并输入到不同地方。LSTM网络的关键点是细胞状态，即穿过图2的水平线。LSTM有能力向细胞状态中移除或添加信息，通过门结构来管理，包括“遗忘门”、“输出门”及“输入门”。通过门实现信息选择性通过，从而去除或增加信息到细胞状态。其中，σ层输出0到1之间的数字，描述了每个成分应该通过门限的程度，0表示不让任何成分通过，而1表示让所有成分通过。

语音识别，根据LSTM包含的公式计算隐含层的输出参数和输出层的输出参数，根据上一层的计算结果、两层之间的连接权重和自身节点的外部偏置值计算得到用户输入的语音数据对应的文本。

语义理解，基于不同场景模式的标准语音数据样本中标注的关键词，或者对该关键词进行同义词扩展的学习，根据LSTM包含的公式计算隐含层的输出参数和输出层的输出参数，根据上一层的计算结果、两层之间的连接权重和自身节点的外部偏置值计算得到语义识别结果。

误差计算，采用监督式学习方式对LSTM网络模型中的参数进行调整。根据网络预测误差，神经网络中误差反向传递修改各个神经元的参数。判断算法迭代是否结束，若是，则完成LSTM网络模型的构建。

可以理解的是，上述模型训练过程可以在服务器中进行，还可以在电子设备中进行。为了减少电子设备的计算量，可以在电子设备中构建缺少模型参数的识别模型的拓扑结构，不进行模型训练，将模型训练过程在服务器中进行，并将训练好的模型参数以配置文件的形式下发至电子设备。从而，根据配置文件配置电子设备内预先构建的识别模型的拓扑结构，得到完整的识别模型。

可选的，识别模型构建完成后并不是一成不变的，服务器会根据新获取的训练样本自动优化识别模型，包括调整模型参数。服务器根据调整后的模型参数生成新的配置文件。

电子设备中的识别模型的更新操作可以是由预设的模型更新条件触发，在满足模型更新条件时，从服务器获取所述识别模型的配置文件，其中，所述更新条件包括接收到服务器发送的模型更新消息，或者，系统时间达到预设更新时间。根据所述配置文件对所述识别模型的模型参数进行更新。

将语音数据及场景模式输入识别模型，通过识别模型正确分析出该场景模式下，该语音数据代表的用户想表达的真实含义，识别模型的输出结果为与场景模式对应的语义识别结果。示例性地，将所述语音数据对应的语音特征矢量序列输入预先构建的识别模型，通过所述识别模型识别所述语音特征矢量序列对应的发音。其中，语音特征矢量序列包括梅尔频谱倒谱系数(Mel Frequency Cepstral Coefficents，简称为MFCC)特征。可以采用动态时间规整算法(dynamic time warping，简称DTW)对该语音特征矢量序列进行处理，得到语音数据对应的发音。根据所述发音确定所述语音数据对应的文本，对所述文本进行分词，根据词语的词性提取出所述文本的第一关键词。根据所述场景模式对所述第一关键词的组合进行语义识别，得到所述语音数据在所述场景模式下的真实含义，所述识别模型将所述真实含义作为第一语义识别结果进行输出。识别模型根据对不同场景模式下标准语音数据样本的学习经验，可以预测出当前场景模式下，第一关键词的组合代表的用户的真实含义，得到语义识别结果。例如，若当前电子设备处于低光拍照模式，则通过识别模型对用户语音输入“打开手电筒”的语音数据进行语义识别，可以是结合场景模式对该语音数据进行同义词扩展，得到该语音数据的真正含义可能是“打开闪光灯进行拍摄补光”。

步骤130、获取所述识别模型输出的与所述场景模式对应的语义识别结果，执行所述语义识别结果对应的操作。

其中，所述语义识别结果包括所述语音数据对应的文本中的关键词。例如，若当前电子设备处于闹钟响铃模式，则用户语音输入“关闭闹钟”对应的语义识别结果可能是“关闭本次或当日闹钟”，包括关键词“关闭”和“闹钟”。可选的，所述语义识别结果还包括所述语音数据对应文本中的关键词的同义词。例如，在移动终端中“手电筒”与“闪光灯”是同一部件，可以认为是同义词。若当前电子设备处于低光拍照模式，则用户输入“打开手电筒”对应的语义识别结果可能是“打开闪光灯进行拍摄补光”，包括关键词“打开”以及，“手电筒”的同义词“闪光灯”。

在获取到在当前的场景模式下，所述语音数据对应的语义识别结果后，确定语义识别结果对应的指令，基于所述指令执行相应的操作。例如，若基于语义识别结果确定对应的指令是“打开闪光灯进行拍摄补光”，则控制闪光灯在拍摄时点亮，在拍摄完成时关闭。

本申请实施例的技术方案，通过获取语音数据及场景模式；将所述语音数据及场景模式输入预先构建的识别模型进行语义识别；获取所述识别模型输出的与所述场景模式对应的语义识别结果，执行所述语义识别结果对应的操作，提高机器在不同场景下理解用户输入的语音的真实含义的能力。采用上述技术方案，通过在识别模型的训练过程中考虑场景模式因素，使识别模型具有在不同场景模式下准确“听懂”用户的语音的真实含义的能力，避免发生因不能准确理解自然语言对应的含义而导致语义识别的准确率较低的问题发生，可以实现准确、快速的确定在不同场景下用户输入的语音数据对应的语义。

图3是本申请实施例提供的另一种语义识别方法的流程图。如图3所示，该方法包括：

步骤301、获取语音数据及场景模式。

步骤302、将所述语音数据及场景模式输入预先构建的识别模型进行语义识别。

步骤303、获取所述识别模型输出的与所述场景模式对应的语义识别结果。

步骤304、在触摸屏上显示语义识别结果，并提示用户选择所述语义识别结果是否正确。

其中，触摸屏可以是具有触控功能的显示屏。示例性地，若确定当前电子设备处于低光拍照模式，则在用户语音输入“打开手电筒”的语音数据时，通过预先构建的识别模型结合场景模式对该语音数据进行语义识别，输出的语义识别结果是“打开闪光灯进行拍摄补光”，并在触摸屏上显示“是否需要打开闪光灯进行拍摄补光”的对话框，以供用户选择“是”或“否”。

可选的，还可以采用语音提示的方式替代上述触摸屏显示方式。例如，通过输出语音提示“是否需要打开闪光灯进行拍摄补光”，并检测用户在设定时间长度内是否输入了设定操作。若检测到用户输入的设定操作，则认为用户输入了肯定答复，否则，认为用户输入了否定答复。其中，设定操作可以是对触摸屏设定区域的触摸操作，还可以是对物理按键的单击、双击或长按操作，还可以是摇动电子设备设定次数的手势操作等。

步骤305、获取用户输入的选择信息。

若采用触摸屏显示对话框的形式，则检测用户针对对话框中选项的触摸操作，得到用户输入的选择信息。

若采用语音输入形式，则检测是否有对物理按键的操作或触摸屏设定区域的操作等等。

步骤306、判断所述选择信息是否为否定信息，若是，则执行步骤311，否则，执行步骤307。

若采用触摸屏显示对话框的形式，则用户点击对话框中“否”，认为该选择信息为否定信息，执行步骤307。若用户点击对话框中“是”，则认为该选择信息为肯定信息，执行步骤311。

若采用语音输入形式，则检测到用户输入的设定操作，即认为该选择信息为肯定信息，否则，认为该选择信息为否定信息。可替代的，预先设置代表肯定答复的操作方式和代表否定答复的操作方式，例如，在触摸屏设定区域点击代表肯定答复，在该设定区域输入滑动手势代表否定答复等。若检测到代表肯定答复的操作，则判定该选择信息为肯定信息。若检测到代表否定答复的操作，则判定该选择信息为否定信息。可以理解的是，上述选择信息的判定方式仅为示例，并不作为限定。

步骤307、计数器加1，并判断计数值是否超过设定次数阈值，若是，则执行步骤310，否则执行步骤308。

其中，设定次数阈值为系统默认值，还可以是用户根据实际需要自行设置的值。

在选择信息为否定信息时，控制计数器加1。然后，获取计数器的计数值，判断该技术值是否超过设定次数阈值，若是，则执行步骤310，否则执行步骤308。

步骤308、生成语义重识别指示。

其中，所述语义重识别指示用于指示所述识别模型重新确定语义识别结果。

步骤309、通过所述识别模型重新确定语义识别结果，返回执行步骤304。

示例性的，重新确定语义识别结果的方式可以是：通过所述识别模型采用与上述语义识别结果对应的分词规则重新不同的分词规则，对所述语音数据对应的文本进行分词。根据新的分词规则划分的词语的词性提取出所述文本的第二关键词，根据所述场景模式对所述第二关键词的组合进行语义识别，得到所述语音数据在所述场景模式下的第二语义识别结果。然后，返回执行步骤304，将重新确定的第二语义识别结果显示在触摸屏上，并提示用户选择所述第二语义识别结果是否正确。

可替换的，重新确定语义识别结果的方式还可以是：通过所述识别模型确定所述第一关键词的同义词，采用所述第一关键词的同义词替换所述第一关键词，得到所述语音数据在所述场景模式下的第三语义识别结果。然后，返回执行步骤304，将重新确定的第三语义识别结果显示在触摸屏上，并提示用户选择所述第三语义识别结果是否正确。

步骤310、提示用户重新输入语音数据。

在语义识别结果的识别错误次数超过设定次数阈值，则提示用户重新输入语音数据。其中，提示方式可以是在触摸屏上显示提示信息。还可以是输出提示语音。

步骤311、执行所述语义识别结果对应的操作。

在选择信息是否为肯定信息时，则判定语义识别结果正确，执行该语义识别结果对应的操作。

本申请实施例的技术方案，通过在执行语义识别结果对应的操作之前，增加人为判断语音识别结果是否正确的步骤，可以避免因语义识别有误而执行误操作的情况发生，提高了语义识别效率、以及提高执行语义识别结果的准确率。

图4是本申请实施例提供的一种语义识别装置的结构示意图。该装置可有软件和/或硬件实现，一般集成在电子设备中。如图4所示，该装置可以包括：

语音获取模块410，用于获取语音数据及场景模式。

语义识别模块420，用于将所述语音数据及场景模式输入预先构建的识别模型进行语义识别，其中，所述识别模型由不同场景模式下的标准语音数据样本训练得到。可选的，所述标准语音数据样本包括：预先收集或录制的不同场景模式下的用户输入的语音数据样本；或者，对所述语音数据样本对应的文本进行分词处理，对所述文本中关键词进行同义词扩展，采用同义词替换所述关键词得到替换文本对应的语音数据样本。

识别结果执行模块430，用于获取所述识别模型输出的与所述场景模式对应的语义识别结果，执行所述语义识别结果对应的操作，其中，所述语义识别结果包括所述语音数据对应的文本中的关键词。

本申请实施例的技术方案提供一种语义识别装置，通过在识别模型的训练过程中考虑场景模式因素，使识别模型具有在不同场景模式下准确“听懂”用户的语音的真实含义的能力，避免发生因不能准确理解自然语言对应的含义而导致语义识别的准确率较低的问题发生，可以实现准确、快速的确定在不同场景下用户输入的语音数据对应的语义。

可选的，语音获取模块410包括：

语音获取子模块，用于获取语音数据；

程序判定子模块，用于获取前台运行的应用程序，并判断所述应用程序是否属于预设的白名单；

场景确定子模块，用于若是，则获取环境光强度值或系统时间；根据所述应用程序及环境光强度值确定场景模式，或者，根据所述应用程序及系统时间确定场景模式；否则，获取默认场景模式作为当前的场景模式。

可选的，场景确定子模块具体用于：

在所述应用程序为相机应用时，若所述相机应用在前台运行，则将所述环境光强度值与预设光强阈值进行比较；

在所述环境光强度值小于预设光强阈值时，确定当前的场景模式为低光拍摄模式。

可选的，场景确定子模块具体用于：

在所述应用程序为闹钟应用时，若闹钟应用在前台运行，则获取所述闹钟应用对应的响铃时间；

判断所述系统时间是否与所述响铃时间匹配；

若是，则确定当前的场景模式为闹钟响铃模式；

否则，确定当前的场景模式为事项提醒模式。

可选的，语义识别模块420具体用于：

将所述语音数据对应的语音特征矢量序列输入预先构建的识别模型，通过所述识别模型识别所述语音特征矢量序列对应的发音；

根据所述发音确定所述语音数据对应的文本，对所述文本进行分词，根据词语的词性提取出所述文本的第一关键词；

根据所述场景模式对所述第一关键词的组合进行语义识别，得到所述语音数据在所述场景模式下的真实含义，所述识别模型将所述真实含义作为第一语义识别结果进行输出。

可选的，还包括：

识别结果显示模块，用于在获取所述识别模型输出的与所述场景模式对应的语义识别结果之后，在触摸屏上显示所述语义识别结果，并提示用户选择所述语义识别结果是否正确；

选择信息输入模块，用于获取用户输入的选择信息；

指示生成模块，用于在所述选择信息为否定信息时，生成语义重识别指示，其中，所述语义重识别指示用于指示所述识别模型重新确定语义识别结果；

语音输入模块，用于若重新确定语义识别结果的次数超过设定次数阈值，则提示用户重新输入语音数据。

可选的，所述语义识别模块420还用于：

在生成语义重识别指示之后，通过所述识别模型重新对所述语音数据对应的文本进行分词，提取第二关键词，根据所述场景模式对所述第二关键词的组合进行语义识别，得到所述语音数据在所述场景模式下的第二语义识别结果。

可选的，所述语义识别模块420还用于：

在生成语义重识别指示之后，通过所述识别模型确定所述第一关键词的同义词，采用所述同义词替换所述第一关键词，得到所述语音数据在所述场景模式下的第三语义识别结果。

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种语义识别方法，该方法包括：

获取语音数据及场景模式；

将所述语音数据及场景模式输入预先构建的识别模型进行语义识别；其中，所述识别模型由不同场景模式下的标准语音数据样本训练得到；

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDR RAM、SRAM、EDO RAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的语义识别操作，还可以执行本申请任意实施例所提供的语义识别方法中的相关操作。

本申请实施例提供了一种电子设备，该电子设备中可集成本申请实施例提供的语义识别装置。其中，电子设备包括智能手机、平板电脑、掌上游戏机、笔记本电脑及智能手表等。图5是本申请实施例提供的一种电子设备的结构示意图。如图5所示，该电子设备可以包括：存储器501、中央处理器(Central Processing Unit，CPU)502(又称处理器，以下简称CPU)和语音采集器506。所述语音采集器506，用于采集语音数据；所述存储器501，用于存储计算机程序；所述CPU502读取并执行所述存储器501中存储的计算机程序。所述CPU502在执行所述计算机程序时实现以下步骤：获取语音数据及场景模式；将所述语音数据及场景模式输入预先构建的识别模型进行语义识别；其中，所述识别模型由不同场景模式下的标准语音数据样本训练得到；获取所述识别模型输出的与所述场景模式对应的语义识别结果，执行所述语义识别结果对应的操作，其中，所述语义识别结果包括所述语音数据对应的文本中的关键词。

所述电子设备还包括：外设接口503、RF(Radio Frequency，射频)电路505、电源管理芯片508、输入/输出(I/O)子系统509、其他输入/控制设备510以及外部端口504，这些部件通过一个或多个通信总线或信号线507来通信。

应该理解的是，图示电子设备500仅仅是电子设备的一个范例，并且电子设备500可以具有比图中所示出的更多的或者更少的部件，可以组合两个或更多的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

下面就本实施例提供的集成有语音识别装置的电子设备进行详细的描述，该电子设备以手机为例。

存储器501，所述存储器501可以被CPU502、外设接口503等访问，所述存储器501可以包括高速随机存取存储器，还可以包括非易失性存储器，例如一个或多个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

外设接口503，所述外设接口503可以将设备的输入和输出外设连接到CPU502和存储器501。

I/O子系统509，所述I/O子系统509可以将设备上的输入输出外设，例如触摸屏511和其他输入/控制设备510，连接到外设接口503。I/O子系统509可以包括显示控制器5091和用于控制其他输入/控制设备510的一个或多个输入控制器5092。其中，一个或多个输入控制器5092从其他输入/控制设备510接收电信号或者向其他输入/控制设备510发送电信号，其他输入/控制设备510可以包括物理按钮(按压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击滚轮。值得说明的是，输入控制器5092可以与以下任一个连接：键盘、红外端口、USB接口以及诸如鼠标的指示设备。

触摸屏511，所述触摸屏511是用户终端与用户之间的输入接口和输出接口，将可视输出显示给用户，可视输出可以包括图形、文本、图标、视频等。

I/O子系统509中的显示控制器5091从触摸屏511接收电信号或者向触摸屏511发送电信号。触摸屏511检测触摸屏上的接触，显示控制器5091将检测到的接触转换为与显示在触摸屏511上的用户界面对象的交互，即实现人机交互，显示在触摸屏511上的用户界面对象可以是运行游戏的图标、联网到相应网络的图标等。值得说明的是，设备还可以包括光鼠，光鼠是不显示可视输出的触摸敏感表面，或者是由触摸屏模组形成的触摸敏感表面的延伸。

RF电路505，主要用于建立手机与无线网络(即网络侧)的通信，实现手机与无线网络的数据接收和发送。例如收发短信息、电子邮件等。具体地，RF电路505接收并发送RF信号，RF信号也称为电磁信号，RF电路505将电信号转换为电磁信号或将电磁信号转换为电信号，并且通过该电磁信号与通信网络以及其他设备进行通信。RF电路505可以包括用于执行这些功能的已知电路，其包括但不限于天线系统、RF收发机、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、CODEC(COder-DECoder，编译码器)芯片组、用户标识模块(Subscriber Identity Module，SIM)等等。

语音采集器506，包括送话器，以及蓝牙耳机、红外耳机等无线耳机，主要用于接收音频数据，将该音频数据转换为电信号。

电源管理芯片508，用于为CPU502、I/O子系统及外设接口所连接的硬件进行供电及电源管理。

本申请实施例提供的电子设备，通过在识别模型的训练过程中考虑场景模式因素，使识别模型具有在不同场景模式下准确“听懂”用户的语音的真实含义的能力，避免发生因不能准确理解自然语言对应的含义而导致语义识别的准确率较低的问题发生，可以实现准确、快速的确定在不同场景下用户输入的语音数据对应的语义。

上述实施例中提供的语义识别装置、存储介质及电子设备可执行本申请任意实施例所提供的语义识别方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的语义识别方法。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种语义识别方法，其特征在于，包括：

获取语音数据及场景模式；

根据所述场景模式对所述第一关键词的组合进行语义识别，得到所述语音数据在所述场景模式下的真实含义，所述识别模型将所述真实含义作为第一语义识别结果进行输出，其中，所述识别模型由不同场景模式下的标准语音数据样本训练得到；

获取所述识别模型输出的与所述场景模式对应的所述第一语义识别结果，执行所述第一语义识别结果对应的操作，其中，所述语义识别结果包括所述语音数据对应的文本中的关键词。

2.根据权利要求1所述的方法，其特征在于，获取语音数据及场景模式，包括：

获取语音数据；

获取前台运行的应用程序，并判断所述应用程序是否属于预设的白名单；

若是，则获取环境光强度值或系统时间，根据所述应用程序及环境光强度值确定场景模式，或者，根据所述应用程序及系统时间确定场景模式；

否则，获取默认场景模式作为当前的场景模式。

3.根据权利要求2所述的方法，其特征在于，在所述应用程序为相机应用时，根据所述应用程序及环境光强度值确定场景模式，包括：

若所述相机应用在前台运行，则将所述环境光强度值与预设光强阈值进行比较；

4.根据权利要求2所述的方法，其特征在于，在所述应用程序为闹钟应用时，根据所述应用程序及系统时间确定场景模式，包括：

若闹钟应用在前台运行，则获取所述闹钟应用对应的响铃时间；

判断所述系统时间是否与所述响铃时间匹配；

若是，则确定当前的场景模式为闹钟响铃模式；

否则，确定当前的场景模式为事项提醒模式。

5.根据权利要求1所述的方法，其特征在于，所述标准语音数据样本包括：

预先收集或录制的不同场景模式下的用户输入的语音数据样本；

或者，对所述语音数据样本对应的文本进行分词处理，对所述文本中关键词进行同义词扩展，采用同义词替换所述关键词得到替换文本对应的语音数据样本。

6.根据权利要求1至5中任一项所述的方法，其特征在于，在获取所述识别模型输出的与所述场景模式对应的所述第一语义识别结果之后，还包括：

在触摸屏上显示所述第一语义识别结果，并提示用户选择所述第一语义识别结果是否正确；

获取用户输入的选择信息；

在所述选择信息为否定信息时，生成语义重识别指示，其中，所述语义重识别指示用于指示所述识别模型重新确定语义识别结果；

若重新确定语义识别结果的次数超过设定次数阈值，则提示用户重新输入语音数据。

7.根据权利要求6所述的方法，其特征在于，在生成语义重识别指示之后，还包括：

通过所述识别模型重新对所述语音数据对应的文本进行分词，提取第二关键词，根据所述场景模式对所述第二关键词的组合进行语义识别，得到所述语音数据在所述场景模式下的第二语义识别结果。

8.根据权利要求6所述的方法，其特征在于，在生成语义重识别指示之后，还包括：

通过所述识别模型确定所述第一关键词的同义词，采用所述同义词替换所述第一关键词，得到所述语音数据在所述场景模式下的第三语义识别结果。

9.一种语义识别装置，其特征在于，包括：

语音获取模块，用于获取语音数据及场景模式；

语义识别模块，用于将所述语音数据对应的语音特征矢量序列输入预先构建的识别模型，通过所述识别模型识别所述语音特征矢量序列对应的发音；

识别结果执行模块，用于获取所述识别模型输出的与所述场景模式对应的所述第一语义识别结果，执行所述第一语义识别结果对应的操作，其中，所述语义识别结果包括所述语音数据对应的文本中的关键词。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至8中任一项所述的语义识别方法。

11.一种用于语义识别的电子设备，包括用于采集语音数据的语音采集器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述的语义识别方法。