CN112883742A

CN112883742A - 语义分析方法、装置、智能设备及存储介质

Info

Publication number: CN112883742A
Application number: CN202110256363.1A
Authority: CN
Inventors: 李忠泽; 邹佳悦; 周凌翔; 苏卓艺; 崔为之; 张鹏
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-06-01
Anticipated expiration: 2041-03-09
Also published as: CN112883742B

Abstract

本申请涉及一种语义分析方法、装置、智能设备及存储介质，所述方法包括：获取当前语句；对所述当前语句预处理，获取所述当前语句的特征向量；基于神经网络模型，根据所述当前语句的特征向量，识别所述当前语句；若无法识别所述当前语句，则获取上一句语句的特征向量；若所述当前语句的特征向量与所述上一句语句的特征向量符合第一预设规则，则将所述当前语句根据所述上一句语句进行语义融合，获取更新后的当前语句；基于所述神经网络模型，根据所述更新后的当前语句的特征向量，识别所述更新后的当前语句。本申请实施例实现用户与智能设备类人对话，减少用户重新唤醒智能设备的次数。

Description

语义分析方法、装置、智能设备及存储介质

技术领域

本申请涉及自然语言处理领域，尤其涉及一种语义分析方法、装置、智能设备及存储介质。

背景技术

目前很多的智能语音设备在对语音进行分析处理时,无法达到类人对话,比如，用户对着空调说“今天天气怎么样？”，空调会回答“今天的天气晴，…”，如果用户接着说“明天呢？”，空调就无法识别，用户需要重新唤醒空调，“xx空调，明天天气怎么样？”。

目前的智能语音设备在语义理解处理时，所有功能需要用户重新唤醒，给用户的体验造成了极大的不便，因此需要一种语义识别方法，更加接近类人对话，达到人与机器和人与人的对话基本一致，提升用户体验。

发明内容

为了解决上述技术问题中智能语音设备无法实现类人对话，用户体验差的问题，本申请提供了一种语义分析方法、装置、计算机设备及存储介质，实现用户与智能设备类人对话，减少用户唤醒智能设备的。

第一方面，本申请提供了一种语义分析方法，所述方法包括：

获取当前语句；

对所述当前语句预处理，获取所述当前语句的特征向量；基于神经网络模型，根据所述当前语句的特征向量，识别所述当前语句；若无法识别所述当前语句，则获取上一句语句的特征向量；

若所述当前语句的特征向量与所述上一句语句的特征向量符合第一预设规则，则将所述当前语句根据所述上一句语句进行语义融合，获取更新后的当前语句；

基于所述神经网络模型，根据所述更新后的当前语句的特征向量，识别所述更新后的当前语句。

可选的，所述上一语句为基于所述神经网络模型可识别的语句。

可选的，所述当前语句的特征向量包括所述当前语句中各个分词的词性、词义以及所述当前语句的句式。

可选的，所述对所述当前语句预处理，获取所述当前语句的特征向量包括：

对所述当前语句进行分词；

对分词后的所述当前语句进行词性标注，获取所述当前语句中各个分词的词性；

对所述当前语句中各个分词进行词义对应，获取所述当前语句中各个分词的词义；

对所述当前语句进行句法分析，获取所述当前语句的句式。

可选的，所述预设规则包括：所述当前语句与所述上一句语句中相同词性的分词的词义同类别，且所述当前语句与所述上一句语句的句式相同。

可选的，所述将所述当前语句根据所述上一句语句进行语义融合包括：

根据所述当前语句与所述上一句语句中分词，获取待填充分词，所述待填充分词为所述当前语句相较于所述上一句语句缺少的分词；

根据所述待填充分词的词性和词义，获取所述当前语句中的待填充位置；

将所述带填充分词填充到所述当前语句中所述待填充位置。

可选的，所述神经网络模型包括循环神经网络模型即RNN(Recurrent Neural

Networks)模型。

第二方面，本申请提供了一种语义识别装置，所述装置包括：

语句获取单元，用于获取当前语句；

预处理单元，用于对所述当前语句进行预处理，获取所述当前语句的特征向量；

语义识别单元，用于基于神经网络模型，根据所述当前语句的特征向量，识别所述当前语句；

所述语句获取单元还用于若无法识别所述当前语句，则获取上一句语句的特征向量；

语义融合单元，用于若所述当前语句与所述上一句语句的特征向量符合第一预设规则，则将所述当前语句根据所述上一句语句进行语义融合，获取更新后的当前语句；

所述语义识别单元还用于基于所述神经网络模型，根据所述更新后的当前语句的特征向量，识别所述更新后的当前语句。

第三方面，本申请提供了一种智能设备，所述智能设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面所述的语义识别方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的语义识别方法的步骤。

本申请实施例提供一种语义分析方法，所述方法包括：获取当前语句；对所述当前语句预处理，获取所述当前语句的特征向量；基于神经网络模型，根据所述当前语句的特征向量，识别所述当前语句；若无法识别所述当前语句，则获取上一句语句的特征向量；若所述当前语句的特征向量与所述上一句语句的特征向量符合第一预设规则，则将所述当前语句根据所述上一句语句进行语义融合，获取更新后的当前语句；基于所述神经网络模型，根据所述更新后的当前语句的特征向量，识别所述更新后的当前语句。本申请实施例实现用户与智能设备类人对话，减少用户重新唤醒智能设备的次数。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语义分析方法的流程示意图；

图2为本申请实施例提供的一种语句预处理的流程示意图；

图3为本申请实施例提供的一种语义分析的示例图；

图4为本申请实施例提供的一种语句融合的流程示意图；

图5为本申请实施例提供的一种语义识别装置的结构示意图；

图6为本申请实施例提供的一种智能设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种语义分析方法的流程示意图，如图1所示，所述方法包括：

步骤110：获取当前语句；

步骤120：对所述当前语句预处理，获取所述当前语句的特征向量；

本申请实施例中，所述当前语句的特征向量包括所述当前语句中各个分词的词性、词义以及所述当前语句的句式。图2为本申请实施例提供的一种语句预处理的流程示意图，如图2所示，本申请实施例中，所述对所述当前语句预处理，获取所述当前语句的特征向量包括：

步骤221：对所述当前语句进行分词；

本申请可以采用基于词典的分词算法的分词算法对所述当前语句进行分词，即对所述当前语句与数据集基于预设匹配策略进行字符串匹配，如果当前语句与数据集中词语匹配命中，则可以分词。预设匹配包括正向最大匹配、逆向最大匹配、双向匹配或全切分路径选择。

本申请实施例也可以采用基于统计的分词算法对所述当前语句进行分词，即对是当前语句进行序列标注。将当前语句中的文字，按照文字在词中的位置进行标注，标注主要有：B(词开始的一个字)，E(词最后的一个字)，M(词中间的字，可能多个)，S(一个字表示的词)。例如“今天天气怎么样”，标注后结果“BEBEBME”，对应的分词结果为“今天/天气/怎么样”。

步骤222：对分词后的所述当前语句进行词性标注，获取所述当前语句中各个分词的词性；

词性作为词语基本的语法属性，是词语和语句的关键性特征，ICTCLAS汉语词性标注集归纳了词性种类。本申请实施例可以采用基于字符串匹配的字典查找算法对所述当前语句进行词性标注，即从数据集中查找所述当前语句中每个分词的词性。例如“今天/天气/怎么样？”对应的词性为“时间词/名称/疑问词”，对应的语义为“今天/天气/怎么样”，对应的句式为疑问句式；“今天/我/打/篮球。”对应的词性为“时间词/代词/动词/名称”，对应的语义为“今天/我/打/篮球。”，对应的句式为陈述句。

步骤223：对所述当前语句中各个分词进行词义对应，获取所述当前语句中各个分词的词义；

在自然语言中，一次多义(歧义)现象是普遍存在的。当分词存在多义，需要确定分词在当前上下文语境中的语义，即进行词义消歧，例如，“打”字做实词用有25个语义标记，虚词有2个语义标记，“他很会打鼓。”与“他很会与人打交道”中都有“打”字，但是在语句中的词义是不同的。每个词表达不同的含义时其上下文往往也不同，即不同的词义对应不同的上下文，因此，本申请可以通过区分多义词的上下文即基于上下文分类，确定多义词的词义。本申请实施例可采用贝叶斯分类器或者基于最大熵的消歧方法获取所述当前语句中各个分词的词义。

步骤224：对所述当前语句进行句法分析，获取所述当前语句的句式。

分词，词性标注技术一般只需对句子的局部范围进行分析处理，而句法分析技术需要对句子进行全局分析，本申请实施例可采用依存句法分析方法，识别句子中词汇与词汇之间的相互依存关系；也可以采用句法结构分析(syntactic structure parsing)，句法结构分析又称短语结构分析(phrase structure parsing)、成分句法分析(constituentsyntactic parsing)识别出句子中的短语结构以及短语之间的层次句法关系。依存句法分析方法存在一个共同的基本假设：句法结构本质上包含词和词之间的依存(修饰)关系。一个依存关系连接两个词，分别是核心词(head)和依存词(dependent)。依存关系可以细分为不同的类型，表示两个词之间的具体句法关系。具体实施时可采用数据驱动的依存句法分析方法，即在训练实例集合上学习得到依存句法分析器，包括基于图(graph-based)的分析方法和基于转移(transition-based)的分析方法。

步骤130：基于神经网络模型，根据所述当前语句的特征向量，识别所述当前语句；

由于文本序列中，词与词之间是存在关联的，因此本申请实施例中，所述神经网络模型采用RNN模型，通过引入记忆的概念，在每个元素上都执行相同的任务但是当前时刻的输出依赖于当前时刻的输入以及前一时刻的记忆，例如“飞机上天”，在词性标注中，分词“上天”对应的词性有“动词或名词”，通过已知“飞机”是名词，那么后面出现的“上天”就大概率是动词。将所述当前语句中各个分词的每个词义在词库中对应的权重、各个分词的词性，所述当前语句的句式，作为所述当前语句的特征向量，输入RNN模型，进行文本分类学习，获取所述当前语句的语义。

步骤140：若无法识别所述当前语句，则获取上一句语句的特征向量；

本申请实施例中，例如：上一句语句为“XX空调，今天天气怎么样？”，当前语句为“明天呢”，“明天呢？”分词为“明天/呢”，词性为“时间词/疑问词”，句式为“疑问句”，由于当前语句“明天呢？”时间词和疑问词之间缺少动词或名词等使得当前语句句法结构化的必要元素，当前语句句法结构不完整，神经网络模型无法识别其语义。

本申请实施例中，所述上一语句为基于所述神经网络模型可识别的语句，例如上一句语句“XX空调，今天天气怎么样？”时间词和疑问词之间包含名词，为结构化的语句，因此RNN模型可以识别其语义。

步骤150：若所述当前语句的特征向量与所述上一句语句的特征向量符合第一预设规则，则将所述当前语句根据所述上一句语句进行语义融合，获取更新后的当前语句；

本申请实施例中，所述预设规则包括：所述当前语句与所述上一句语句中相同词性的分词的词义同类别，且所述当前语句与所述上一句语句的句式相同。

本申请实施例可以利用word2vec将所述当前语句与所述上一语句中分词分布式表示，将词由one-hot的稀疏性编码方式转换为了稠密的编码方式，简单说就是将形如(0,0,0,1,0,0,...)的编码方式转变成了形如(0.23,0.56,0.36,0.86,...)的编码方式，则计算所述当前语句与所述上一语句中相同词性的分词之间两个分词的词语距离(欧式距离)表示两个分词的相似度，当所述当前语句与所述上一语句中相同词性的分词的词语距离(欧氏距离)低于预设阈值，则认为所述当前语句与所述上一语句中相同词性的分词词义分类相同。

图3为本申请实施例提供的一种语义融合的实例图，如图3所示，上一句语句为“XX空调，今天天气怎么样？”，当前语句为“明天呢”，“明天呢？”分词为“明天/呢”，词性为“时间词/疑问词”，句式为“疑问句”，上一句语句“XX空调，今天天气怎么样？”的分词为“XX空调/今天/天气/怎么样”，词性为“名词/时间词/名词/疑问词”，句式为疑问句，语义可识别，当前语句中分词“明天”与上一句语句中分词“今天”具有相同的词性且词义属于同一类别，当前语句中分词“呢”与上一句语句中分词“怎么样”具有相同的词性且词义属于同一类别，当前语句与上一语句符合预设规则。

图4为本申请实施例提供的一种语句融合的流程示意图，如图4所示，本申请实施例中，所述将所述当前语句根据所述上一句语句进行语义融合包括：

步骤451：根据所述当前语句与所述上一句语句中分词，获取待填充分词，所述待填充分词为所述当前语句相较于所述上一句语句缺少的分词；

步骤452：根据所述待填充分词的词性和词义，获取所述当前语句中的待填充位置；

本申请实施例中，更为简单的做法，也可以根据所述待填充分词在所述上一语句中的相对位置。

步骤453：将所述带填充分词填充到所述当前语句中所述待填充位置。

如图3所示，相较于上一句语句，当前语句缺少分词“XX空调”和“天气”，根据分词“XX空调”和“天气”的词性和词义，基于句法结构，将分词“XX空调”填充到分词“明天”之前，将分词“天气”填充到分词“明天”之后；或者根据分词“XX空调”和“天气”在上一语句中的相对位置，即分词“XX空调”位于时间分词“今天”之前，分词“天气”位于时间分词“今天”之后，则将分词“XX空调”填充到分词“明天”之前，将分词“天气”填充到分词“明天”之后。

步骤160：基于所述神经网络模型，根据所述更新后的当前语句的特征向量，识别所述更新后的当前语句。

如图3所示，更新后的当前语句为“XX空调，明天天气呢？”，更新后的当前语句句法结构完整，RNN模型可以识别其语义。

本申请实施例提供一种语义分析方法，所述方法包括：获取当前语句；对所述当前语句预处理，获取所述当前语句的特征向量；基于神经网络模型，根据所述当前语句的特征向量，识别所述当前语句；若无法识别所述当前语句，则获取上一句语句的特征向量；若所述当前语句的特征向量与所述上一句语句的特征向量符合第一预设规则，则将所述当前语句根据所述上一句语句进行语义融合，获取更新后的当前语句；基于所述神经网络模型，根据所述更新后的当前语句的特征向量，识别所述更新后的当前语句。本申请实施例通过当前语句与上一句语句进行关联，实现用户与智能设备类人对话，减少用户重新唤醒智能设备的次数。

图5为本申请实施例提供的一种语义识别装置的结构示意图，如图5所示，所述装置包括：

语句获取单元510，用于获取当前语句；

预处理单元520，用于对所述当前语句进行预处理，获取所述当前语句的特征向量；

预处理单元520包括：

分词子单元521：用于对所述当前语句进行分词；

词性标注子单元522：对分词后的所述当前语句进行词性标注，获取所述当前语句中各个分词的词性。

本申请实施例中，所述当前语句的特征向量包括所述当前语句中各个分词的词性、词义以及所述当前语句的句式。词性作为词语基本的语法属性，是词语和语句的关键性特征，ICTCLAS汉语词性标注集归纳了词性种类。

本申请实施例可以采用基于字符串匹配的字典查找算法对所述当前语句进行词性标注，即从数据集中查找所述当前语句中每个分词的词性。例如“今天/天气/怎么样？”对应的词性为“时间词/名称/疑问词”，对应的语义为“今天/天气/怎么样”，对应的句式为疑问句式；“今天/我/打/篮球。”对应的词性为“时间词/代词/动词/名称”，对应的语义为“今天/我/打/篮球。”，对应的句式为陈述句。

词义分析子单元523：对所述当前语句中各个分词进行词义对应，获取所述当前语句中各个分词的词义；

句法分析子单元524：对所述当前语句进行句法分析，获取所述当前语句的句式。

语义识别单元530，用于基于神经网络模型，根据所述当前语句的特征向量，识别所述当前语句；

由于文本序列中，词与词之间是存在关联的，因此本申请实施例中，所述神经网络模型包括RNN模型，通过引入记忆的概念，在每个元素上都执行相同的任务但是当前时刻的输出依赖于当前时刻的输入以及前一时刻的记忆，例如“飞机上天”，在词性标注中，分词“上天”对应的词性有“动词或名词”，通过已知“飞机”是名词，那么后面出现的“上天”就大概率是动词。

所述语句获取单元510还用于若无法识别所述当前语句，则获取上一句语句的特征向量；

语义融合单元540，用于若所述当前语句与所述上一句语句的特征向量符合第一预设规则，则将所述当前语句根据所述上一句语句进行语义融合，获取更新后的当前语句；

本申请实施例中，所述将所述当前语句根据所述上一句语句进行语义融合包括：

所述语义识别单元530还用于基于所述神经网络模型，根据所述更新后的当前语句的特征向量，识别所述更新后的当前语句。

本申请实施例提供了一种语义识别装置，通过利用上一句语句对当前语句进行语义融合，实现人与智能设备类人对话，减少了唤醒智能设备的次数。

如图6所示，本申请实施例提供了一种智能设备，包括处理器611、通信接口612、存储器613和通信总线614，其中，处理器611，通信接口612，存储器613通过通信总线614完成相互间的通信，

存储器613，用于存放计算机程序；

在本申请一个实施例中，处理器611，用于执行存储器613上所存放的程序时，实现前述任意一个方法实施例提供的语义分析方法，包括：获取当前语句；对所述当

前语句预处理，获取所述当前语句的特征向量；基于神经网络模型，根据所述当前语句的特征向量，识别所述当前语句；若无法识别所述当前语句，则获取上一句语句的特征向量；若所述当前语句的特征向量与所述上一句语句的特征向量符合第一预设规则，则将所述当前语句根据所述上一句语句进行语义融合，获取更新后的当前语句；基于所述神经网络模型，根据所述更新后的当前语句的特征向量，识别所述更新后的当前语句。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的语义分析方法的步骤。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语义分析方法，其特征在于，所述方法包括：

获取当前语句；

对所述当前语句预处理，获取所述当前语句的特征向量；

基于神经网络模型，根据所述当前语句的特征向量，识别所述当前语句；

若无法识别所述当前语句，则获取上一句语句的特征向量；

2.根据权利要求1所述的方法，其特征在于，所述上一语句为基于所述神经网络模型可识别的语句。

3.根据权利要求2所述的方法，其特征在于，所述当前语句的特征向量包括所述当前语句中各个分词的词性、词义以及所述当前语句的句式。

4.根据权利要求3所述的方法，其特征在于，对所述当前语句预处理，获取所述当前语句的特征向量包括：

对所述当前语句进行分词；

对所述当前语句进行句法分析，获取所述当前语句的句式。

5.根据权利要求4所述的方法，其特征在于，所述预设规则包括：

所述当前语句与所述上一句语句中相同词性的分词的词义同类别，且所述当前语句与所述上一句语句的句式相同。

6.根据权利要求5所述的方法，其特征在于，所述将所述当前语句根据所述上一句语句进行语义融合包括：

将所述带填充分词填充到所述当前语句中所述待填充位置。

7.根据权利要求1所述的方法，其特征在于，所述神经网络模型包括循环神经网络模型。

8.一种语义识别装置，其特征在于，所述装置包括：

语句获取单元，用于获取当前语句；

9.一种智能设备，其特征在于，所述智能设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一项所述的语义识别方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的语义识别方法的步骤。