CN114330359A

CN114330359A - 语义识别方法、装置及电子设备

Info

Publication number: CN114330359A
Application number: CN202111447228.1A
Authority: CN
Inventors: 刘建国; 王迪; 朱毅
Original assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Haier Smart Home Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-04-12
Also published as: WO2023098013A1

Abstract

本申请属于自然语言处理技术领域，具体涉及一种语义识别方法、装置及电子设备。方法包括：获取目标语句；当确定目标语句中存在待语义消歧的目标词语时，判断目标语句中是否存在各目标词语对应的语义指示词；语义指示词用于确定目标词语的语义；若确定目标语句中存在无语义指示的目标词语，则将目标语句输入语义消歧模型，得到各无语义指示的目标词语的语义；无语义指示的目标词语指的是在目标语句中不存在对应的语义指示词的目标词语；根据目标语句中的各目标词语的语义，得到目标语句的语义。本申请减少了语义识别计算量且提高了语义识别的效率。

Description

语义识别方法、装置及电子设备

技术领域

本发明实施例属于自然语言处理技术领域，具体涉及一种语义识别方法、装置及电子设备。

背景技术

智能电视或者智能冰箱等电子设备可以接收用户的语音信号，并根据语音信号做出相应的操作(例如输出相关推荐，或者控制电子设备进行相应操作等)。以智能电视为例，智能电视在接收到用户的语音信号之后，可以将语音信号转换为相应的语句。然后，智能电视可以对该语句进行语义理解，得到该语句对应的语义。根据该语句对应的语义，智能电视可以做出相应的操作。

在对语句进行语义理解时，若该语句中存在多语义词语，则首先需要确定该多语义词语在该语句中的语义。在使用现有的语义识别方法对多语义词语进行语义识别时，针对不同的多语义词语需要构建不同的语义识别模型。然而，事实上，多语义词语的数量众多，也就是说，在使用现有的语义识别方法时，需要构建多个语义识别模型才能进行语义识别。

因此，现有的语义识别方法的计算量较大且效率较低。

发明内容

为了解决现有技术中的上述问题，本申请提供了一种语义识别方法、装置及电子设备。

第一方面，本申请提供一种语义识别方法，所述方法包括：获取目标语句；当确定所述目标语句中存在待语义消歧的目标词语时，判断所述目标语句中是否存在各目标词语对应的语义指示词；所述语义指示词用于确定所述目标词语的语义；若确定所述目标语句中存在无语义指示的目标词语，则将所述目标语句输入语义消歧模型，得到各所述无语义指示的目标词语的语义；所述无语义指示的目标词语指的是在所述目标语句中不存在对应的语义指示词的目标词语；根据所述目标语句中的各目标词语的语义，得到所述目标语句的语义。

第二方面，本申请提供一种语义识别装置，所述装置包括：第一获取模块，用于获取目标语句；处理模块，用于当确定所述目标语句中存在待语义消歧的目标词语时，判断所述目标语句中是否存在各目标词语对应的语义指示词；若确定所述目标语句中存在无语义指示的目标词语，则将所述目标语句输入语义消歧模型，得到各所述无语义指示的目标词语的语义；所述无语义指示的目标词语指的是在所述目标语句中不存在对应的语义指示词的目标词语；所述语义指示词用于确定所述目标词语的语义；第二获取模块，用于根据所述目标词语的语义，得到所述目标语句的语义。

第三方面，本申请提供一种电子设备，包括：至少一个处理器、存储器；所述存储器存储计算机执行指令；所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述电子设备执行第一方面任一项所述的方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现第一方面任一项所述的方法。

第五方面，本申请提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现第一方面任一项所述的方法。

本申请提供的语义识别方法、装置及电子设备，通过一个语义消歧模型，即可确定目标语句中的目标词语的语义。当存在多个目标语句或者多个目标词语时，通过该语义消歧模型，可以确定多个目标词语的语义。通过上述方法，不需要针对不同的目标词语都使用不同模型，减少了语义识别的计算量且提高了语义识别的效率。此外，通过在目标语句中存在待语义消歧的目标词语，且目标语句中存在无语义指示的目标词语时，将目标语句输入语义消歧模型，以获取目标词语的语义，对该目标语句中的目标词语的语义进行预处理，进一步减少了语义消歧模型需要处理的目标词语的数量，进而进一步提高了语义识别的效率。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的一种用户与智能洗衣机进行语音交互的场景示意图；

图2为本申请提供的一种语义消歧模型的训练方法的流程示意图；

图3为本申请提供的一种基于样本语料库和多语义样本词语与各语义对应的词语的映射关系构建样本数据集的方法的流程示意图；

图4为本申请提供的另一种语义消歧模型的训练方法的流程示意图；

图5为本申请提供的一种语义识别方法的流程示意图；

图6为本申请提供的另一种语义识别方法的流程示意图；

图7为本申请提供的一种语义识别装置的结构示意图；

图8为本申请提供的一种电子设备结构示意图。

具体实施方式

首先，本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。本领域技术人员可以根据需要对其作出调整，以便适应具体的应用场合。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着科学技术的发展，越来越多的电子设备可以与用户进行语音交互。以上述电子设备为智能洗衣机为例，示例性的，图1为本申请提供的一种用户与智能洗衣机进行语音交互的场景示意图。如图1所示，智能洗衣机200可以接收用户的语音信号，并根据该语音信号，对智能洗衣机200进行相应的操作。

示例性的，智能洗衣机200例如可以根据用户语音信号对应的语义，开始不同的洗衣程序或者洗衣模式等。

在一些实施例中，如图1所示，智能洗衣机200在接收到用户的语音信号之后，可以将该语音信号通过互联网传输给服务器400。服务器400首先可以确定该语音信号的语义。然后根据该语音信号的语义，确定该语音信号对应的操作指令，并将该操作指令发送给智能洗衣机200。然后，智能洗衣机200可以根据该操作指令对智能洗衣机200进行控制。

在一些实施例中，上述智能洗衣机200中还可以存储有语音信号处理算法。通过该语音信号处理算法，智能洗衣机200可以获取用户语音信号的语义。然后智能洗衣机200可以根据该语音信号的语义，确定该语音信号对应的操作指令，进而根据该操作指令对智能洗衣机200进行控制。

应理解，图1仅是以电子设备为智能洗衣机为例对语音交互场景进行的示例性说明。具体实现时，上述电子设备例如还可以为其他具有处理功能的终端，或者服务器等。如智能电视、智能冰箱、智能音响等智能家居，或者，手机、平板电脑、笔记本电脑、台式电脑、智能手表等电子设备。

如前述所说，电子设备在接收到用户的语音信号之后，需要确定该语音信号对应的语义之后，才能做出相应的操作。对于确定该语音信号对应的语义的过程，在一些实施例中，电子设备首先可以将接收到的语音信号转换为相应的语句。然后，电子设备可以对该语句进行语义理解，得到该语句对应的语义(即该语音信号对应的语义)。

在对语句进行语义理解时，若该语句中存在多语义词语，则首先需要确定该多语义词语在该语句中的语义。现有的语义识别方法主要为将语义识别作为一个多分类识别任务。例如，假设一个多语义词语具有语义1、语义2、语义3，以及，语义4四种语义，现有的语义识别方法需要针对该多语义词语进行模型训练，得到该多语义词语对应的语义识别模型。该多语义词语对应的语义识别模型可以基于该多语义词语所在的语句，从上述四种语义中识别出该多语义词语在该语句中的语义。

因此，在使用现有的语义识别方法进行语义识别时，针对不同的多语义词语，需要训练获取不同的语义识别模型。事实上，多语义词语的数量众多，众多的多语义词语需要对应多个语义识别模型。因此，即便单个的语义识别模型的计算量较小，在使用现有的语义识别方法时，多语义词语数量较多时，也可能导致语义识别的计算量较大且效率较低。

考虑到现有的语义识别方法存在计算量较大且效率较低的问题的原因是针对不同的多语义词语，需要训练获取不同的语义识别模型，因此，本申请提供了一种基于一个训练好的语义消歧模型，即可实现对各不同的多语义词语进行语义识别的方法。通过上述方法，减少了进行语义识别时的模型的数量，进而降低了计算量且提高了语义识别的效率。

下面首先结合具体地实施例对本申请训练语义消歧模型的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

该语义消歧模型训练方法的执行主体例如可以为终端，或者，服务器等具有处理功能的电子设备。应理解，用于执行该语义消歧模型训练方法的电子设备，与用于执行本申请提供的语义识别方法的执行主体可以为同一电子设备，也可以为不同电子设备。

作为一种可能的实现方式，图2为本申请提供的一种语义消歧模型的训练方法的流程示意图。如图2所示，该方法包括以下步骤：

S101、获取样本数据集。

其中，上述样本数据集包括：至少一个样本数据子集。

针对任一样本数据子集，该样本数据子集可以包括：样本语句对应的正样本数据、样本语句对应的负样本数据。其中，该样本语句包括多语义样本词语。上述正样本数据包括样本语句、样本语句对应的正样本语句和正样本数据标签。其中，该正样本语句为使用正样本词语替换样本语句中的多语义样本词语得到的语句。上述正样本词语与该多语义样本词语的语义相同。上述负样本数据包括样本语句、样本语句对应的负样本语句和负样本数据标签。其中，该负样本语句为使用负样本词语替换样本语句中的多语义样本词语得到的语句。上述负样本词语与该多语义样本词语的语义不同。

示例性的，以样本语句“你去买一点菜”为例，该样本语句中包括多语义样本词语“一点”。该多语义词语的语义可以为“程度”或者“时间”等。该样本语句中的“一点”的语义为“程度”，因此，上述正样本词语的语义也为“程度”，例如，该正样本词语可以为“一些”。在该示例下，该样本语句对应的正样本语句可以为“你去买一些菜”。上述负样本词语的语义不是“程度”，例如可以为“时间”。示例性的，该负样本词语例如可以为“五点”。在该示例下，该样本语句对应的负样本语句可以为“你去买五点菜”。

示例性的，上述正样本标签和负样本标签，例如可以为单个字母，或者，数字，或者，字符串等。以正样本标签为1，负样本标签为0为例，上述样本语句对应的正样本数据可以为“你去买一点菜你去买一些菜1”。上述样本语句对应的负样本数据可以为“你去买一点菜你去买五点菜0”。

S102、使用样本数据集训练预设的二分类模型，得到语义消歧模型。其中，上述语义消歧模型用于确定目标语句所包括的多语义词语的语义。

在一些实施例中，针对任一样本语句，上述二分类模型可以基于输入的该样本语句对应的正样本数据，预测该样本语句中的多语义样本词语“是”“否”为该多语义样本词语中各语义。对上述“是”和“否”的判断，即将针对各多语义样本词语的多分类任务，转换成仅判断“是”还是“否”的二分类任务。通过使用上述样本数据集训练预设的二分类模型，得到的语义消歧模型可以针对不同的多语义词语，判断该多语义词语是否为各语义，因此，该语义消歧模型不再是针对一个特定多语义词语的。

示例性的，上述二分类模型例如可以为基于转换器的双向编码表征(Bidirectional Encoder Representations from Transformers，BERT)模型、RoBERTa模型(一种对BERT进行稳定优化预训练得到的模型的名称，英文全称为A RobustlyOptimized BERT Pretraining Approach)ALBert模型(一种对BERT进行自监督学习预训练得到的模型的名称，英文全称为A Lite BERT For Self-Supervised Learning OfLanguage Representations)。或者，在一些实施例中，上述二分类模型例如还可以是使用已公开语料数据集，对上述任一模型进行预训练之后得到的模型。对上述任一模型进行预训练的执行主体可以为该电子设备，也可以为不同于该电子设备的具有处理功能的其他设备。

应理解，本申请对训练上述预设的二分类模型时使用的学习率等预设参数，或者，损失函数等并不进行限定。

在本实施例中，通过使用包括样本语句、样本语句对应的正样本语句，以及，样本语句对应的负样本语句的样本数据集，训练预设的二分类模型，使得得到的语义消歧模型可以判断目标语句中的多语义词语是否为个语义。通过上述方法得到的语义消歧模型可以确定不同的多语义词语的语义。相较于现有的语义识别方法需要针对不同的多语义词语使用不同的模型，基于上述训练方法，仅需训练一个模型，即可实现对多个不同的多语义词语进行语义识别，降低了模型训练的计算量且提高了模型训练的效率，进而提高了基于该语义消歧模型进行语义识别的效率。

下面对电子设备如何获取上述样本数据集进行详细说明：

作为第一种可能的实现方式，电子设备例如可以直接接收用户输入的样本数据集。可选的，电子设备例如可以通过应用程序接口(Application Programming Interface，API)，或者，图形用户界面(Graphical User Interface，GUI)接收上述样本数据集。

作为第二种可能的实现方式，电子设备例如还可以先获取样本语料库，以及，多语义样本词语与各语义对应的词语的映射关系。然后电子设备可以根据该样本语料库，以及，多语义样本词语与各语义对应的词语的映射关系构建上述样本数据集。

其中，上述样本语料库可以包括：至少一个语料子集。针对任一语料子集，该语料子集可以包括：样本语句、多语义样本词语、多语义样本词语的正样本词语。可选的，电子设备例如可以通过API或者GUI等获取上述样本语料库。

可选的，上述多语义样本词语与各语义对应的词语的映射关系例如可以为预先存储在该电子设备中的。可选的，该映射关系可以是用户预先存储在电子设备中的。或者，该映射关系例如还可以是电子设备通过预设的各语义词语确定算法预先获取并存储在该电子设备中的。其中，该预设的各语义词语确定算法，可以基于输入的多语义词语，输出该多语义词语的各语义对应的词语。

示例性的，上述多语义样本词语与各语义对应的词语的映射关系例如可以如下表1所示：

表1

通过该实现方式，电子设备可以基于获取到的样本语料库，自动构建样本数据集，避免了用户制作样本数据集，进而避免了人力资源的浪费且提高了获取样本数据集的效率，进而提高了使用该样本数据集进行模型训练的效率。

下面对电子设备如何根据上述样本语料库，以及，多语义样本词语与各语义对应的词语的映射关系构建上述样本数据集进行详细说明。图3为本申请提供的一种基于样本语料库和多语义样本词语与各语义对应的词语的映射关系构建样本数据集的方法的流程示意图。如图3所示，作为一种可能的实现方式，该方法可以包括以下步骤：

S201、针对样本语料库中的任一语料子集，使用多语义样本词语的正样本词语替换样本语句中的多语义样本词语，得到样本语句对应的正样本语句。

如前述所说，上述语料子集可以包括样本语句、多语义样本词语，以及，多语义样本词语的正样本词语。

可选的，电子设备例如可以从该语料子集中识别出样本语句、多语义样本词语，以及，多语义样本词语的正样本词语，然后使用多语义样本词语的正样本词语替换样本语句中的多语义样本词语，得到样本语句对应的正样本语句。可选的，电子设备例如可以通过识别预设字符，从该语料子集中识别出样本语句、多语义样本词语，以及，多语义样本词语的正样本词语。

示例性的，以语料子集“你去买一点菜一点一些”为例，其中，“你去买一点菜”为样本语句，“一点”为多语义样本词语，“一些”为多语义样本词语的正样本词语。在该示例中，“你去买一点菜”、“一点”、“一些”之间均存在空格。该空格可以作为上述预设字符。电子设备在识别到该语料子集中的第一个空格时，可以将该第一个空格之前的字符串作为样本语句，将该第一个空格之后，且在第二个空格之前的字符串作为多语义词语，将上述第二个空格之后的字符串作为多语义样本词语的正样本词语。

S202、根据多语义样本词语，以及，多语义样本词语与各语义对应的词语的映射关系，确定多语义样本词语的各语义对应的词语。

示例性的，以前述表1所示的映射关系为例，假设该多语义样本词语为多语义词语1，则电子设备可以确定该多语义样本词语的各语义对应的词语包括：词语11，以及，词语12。

S203、使用多语义样本词语的负样本词语替换样本语句中的多语义样本词语，得到样本语句对应的负样本语句。

其中，该负样本词语为上述多语义样本词语的各语义对应的词语中，除正样本词语之外的任一词语。

若该多语义样本词语的各语义对应的词语中，除了正样本词语之外，还存在1个词语，则电子设备可以将该词语作为该多语义样本词语的负样本词语。示例性的，仍然以多语义样本词语为多语义词语1为例，若该多语义样本词语的正样本词语为词语11，则电子设备可以确定该多语义样本词语的负样本词语为词语12。若该多语义样本词语的各语义对应的词语中，除了正样本词语之外，还存在多个词语，可选的，电子设备可以从该多个词语中随机确定一个词语作为该多语义样本词语的负样本词语。

可选的，电子设备使用多语义样本词语的负样本词语替换样本语句中的多语义样本词语，得到样本语句对应的负样本语句的实现方式可以参照上述步骤S201所述的得到样本语句对应的正样本语句的方法，在此不再赘述。

应理解，本申请对电子设备执行上述步骤S201以及步骤S202的先后顺序并不进行限定。

S204、根据样本语句、样本语句对应的正样本语句、样本语句对应的负样本语句，得到样本数据集的一个样本数据子集。

作为一种可能的实现方式，可选的，电子设备可以按照预设拼接格式，拼接样本语句、样本语句对应的正样本语句，得到初始拼接正样本数据。

然后，针对任一初始拼接正样本数据，电子设备可以为该初始拼接正样本数据中的样本语句的每个词语添加样本语句标签；为初始拼接正样本数据中的正样本语句的每个词语添加正样本语句标签；以及，为初始拼接正样本数据添加正样本数据标签，得到样本语句对应的正样本数据。

其中，上述样本语句标签用于表示该添加了该标签的词语为样本语句的词语。上述正样本语句标签用于表示添加了该标签的词语为正样本语句的词语。上述正样本数据标签用于表示该样本数据为样本语句对应的正样本数据。

应理解，本申请对上述样本语句标签，以及，正样本语句标签的形式并不进行限定。上述样本语句标签与正样本语句标签的形式不同。示例性的，上述样本语句标签例如可以是1，上述正样本语句标签例如可以为0。

电子设备可以按照预设拼接格式，拼接样本语句、样本语句对应的负样本语句，得到初始拼接负样本数据。

然后，针对任一初始拼接负样本数据，电子设备可以为该初始拼接负样本数据中的样本语句的每个词语添加样本语句标签；为初始拼接负样本数据中的负样本语句的每个词语添加负样本语句标签；以及，为初始拼接负样本数据添加负样本数据标签，得到样本语句对应的负样本数据。

其中，上述样本语句标签用于表示该添加了该标签的词语为样本语句的词语。上述负样本语句标签用于表示添加了该标签的词语为负样本语句的词语。上述负样本数据标签用于表示该样本数据为样本语句对应的负样本数据。

应理解，本申请对上述样本语句标签，以及，负样本语句标签的形式并不进行限定。上述样本语句标签与负样本语句标签的形式不同。示例性的，上述样本语句标签例如也可以是1，上述负样本语句标签例如可以为0。

示例性的，上述预设拼接格式例如可以为样本语句在前，样本语句对应的正样本语句在后；样本语句在前，样本语句对应的负样本语句在后。或者，该预设拼接格式也可以为样本语句在后，样本语句对应的负样本语句在前；样本语句在后，样本语句对应的负样本语句在后。

在该实现方式下，通过为初始拼接正样本数据中的样本语句的每个词语添加样本语句标签，以及，为正样本语句的每个词语添加正样本语句标签，为负样本语句的每个词语添加负样本语句标签，使得训练上述二分类模型时，该二分类模型可以将该样本语句对应的正样本数据中的样本语句和正样本语句区分开，以及，将该样本语句对应的负样本数据中的样本语句和负样本语句区分开。通过上述方法，可以使得训练二分类模型时，准确区分样本语句、正样本语句，以及，负样本语句，提高了对该模型进行训练的准确性，进而提高训练得到的语义消歧模型的准确性。

图4为本申请提供的另一种语义消歧模型的训练方法的流程示意图。如图4所示，该方法包括以下步骤：

步骤1、获取样本语料库，以及，多语义样本词语与各语义对应的词语的映射关系。

示例性的，以该样本语料库中包括“一点”、“上”、“再”等多语义词语对应的语料子集为例，该样本语料库例如可以如下所示：

“一点”对应的语料子集：

根本一点都行不通一点一些

床的两边均靠着墙没有一点多余的空间一点一些

一点后叫我写作业一点五点

一点提醒我上班一点五点

……

“上”对应的语料子集：

究竟何时y方向上的速度减为2上上面

冰箱的耗电量比上一年要少许多上前

……

“再”对应的语料子集：

等我再一抬头看时再再次

再大一些的宝宝应该会喜欢这本书再更

……

步骤2、使用多语义样本词语的正样本词语替换样本语句中的多语义样本词语，得到样本语句对应的正样本语句。

步骤3、为样本语句的每个词语添加样本语句标签1，为样本语句对应的正样本语句添加正样本语句标签0，按照“[CLS]样本语句[SEP]正样本语句1”的拼接格式，拼接样本语句、样本语句对应的正样本语句，以及，正样本数据标签，得到样本语句对应的正样本数据。

步骤4、多语义样本词语，以及，多语义样本词语与各语义对应的词语的映射关系，确定多语义样本词语的各语义对应的词语，从该各语义对应的词语中确定除正样本词语之外的任一词语为负样本词语。

步骤5、使用多语义样本词语的负样本词语替换样本语句中的多语义样本词语，得到样本语句对应的负样本语句。

步骤6、为样本语句的每个词语添加样本语句标签1，为样本语句对应的负样本语句添加负样本语句标签0，按照“[CLS]样本语句[SEP]负样本语句0”的拼接格式，拼接样本语句、样本语句对应的负样本语句，以及，负样本数据标签，得到样本语句对应的负样本数据。

步骤7、针对任一负样本数据，以及，任一正样本数据，获取该样本数据中各词语所在该数据中的排列位置(也可以称为绝对位置)。

示例性的，以正样本数据“[CLS]下午一点去吃饭[SEP]下午五点去吃饭1”为例，上述“下”在样本语句中的绝对位置为1和9，“一”在样本语句中的绝对位置为3。

步骤8、通过公式(1)和公式(2)将所有词语的绝对位置转换为相对位置，得到各个词语的相对位置信息。

PE_t，2i＝sin(t/10000^2i/d) (1)

PE_t，2i+1＝cos(t/10000^2i/d) (2)

其中，上述PE表示词语的相对位置。t表示词语的绝对位置，d表示每个词语的词向量的维度，i表示该词语的词向量的维度的索引。可选的，电子设备可以通过现有的实现方式获取上述t、d，以及，i的值，在此不再赘述。

步骤9、根据样本语句对应的正样本数据、该正样本数据中各词语的相对位置信息，样本语句对应的负样本数据、该负样本数据中各词语的相对位置信息，训练预设的二分类模型，得到语义消歧模型。

其中，该预设的二分类模型可以为ALBertTiny模型，训练该ALBertTiny模型的效率高于训练其他二分类模型的效率，且基于该模型训练得到的语义消歧模型占用的计算资源较少且基于该语义消歧模型进行语义识别的准确性较高。

通过包括各词语的相对位置信息的样本数据集训练二分类模型，增加了用于训练二分类模型的特征，提高了训练该二分类模型得到语义消歧模型的准确性。

下面结合具体地实施例对本申请如何使用该训练好的语义消歧模型进行语义识别进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图5为本申请提供的一种语义识别方法的流程示意图。如图5所示，该方法包括以下步骤：

S301、获取目标语句。

可选的，上述目标语句例如可以用于控制目标设备，或者，目标语句还可以用于指示目标设备对除目标设备以外的设备进行相关的控制操作。其中，该目标设备例如可以为智能家居、手机、平板等终端，或者，服务器等电子设备。在一些实施例中，该目标设备也可以为执行该语义识别方法的执行主体。

在一些实施例中，电子设备可以接收用户输入的语音信号，通过对该语音信号进行语音识别，得到目标语句。在一些实施例中，电子设备还可以接收用户输入的目标语句。示例性的，电子设备例如可以通过GUI或者API等接收用户输入的目标语句。

S302、确定目标语句中是否存在待语义消歧的目标词语。

作为一种可能的实现方式，电子设备可以将目标语句中的词语与预设的多语义词语语料库中的多语义词语进行匹配，确定目标语句中是否存在待语义消歧的目标词语。

在一些实施例中，在电子设备获取到上述目标语句之后，可以通过预设的分词算法对该目标语句进行分词处理，得到目标语句的各词语。然后，电子设备可以通过预设的匹配算法，将该目标语句的词语与上述预设的多语义词语语料库中中的多语义词语进行匹配，以确定该目标语句中是否存在待语义消歧的目标词语。

其中，上述预设的匹配算法例如可以为克努特-莫里斯-普拉特(the Knuth-Morris-Pratt，KMP)算法，或者，AC自动机(Aho-Corasick automaton)算法等。

可选的，若电子设备确定目标语句中的目标词语与多语义词语语料库中的任一多语义词语相同，则可以直接确定目标语句中存在待语义消歧的目标词语。

若电子设备确定目标语句中的目标词语与多语义词语语料库中的任一多语义词语均不相同，则可以确定目标语句中无待语义消歧的目标词语。

若电子设备确定目标语句中存在待语义消歧的目标词语，则电子设备可以执行步骤S303。若电子设备确定目标语句中不存在待语义消歧的目标词语，可选的，电子设备例如可以执行步骤S306。

应理解，本申请对上述目标语句中目标词语的数量并不进行限定。也就是说，目标语句中可以包括一个目标词语，也可以是包括多个目标词语。

S303、判断目标语句中是否存在各目标词语对应的语义指示词。

其中，上述语义指示词用于确定目标词语的语义。

可选的，电子设备例如可以根据目标语句中的词语，以及，目标词语与语义指示词的映射关系，确定目标语句中是否存在目标词语对应的语义指示词。

应理解，本申请对一个目标词语可以对应的语义指示词的数量并不进行限定。也就是说，一个目标词语可以对应一个语义指示词，也可以对应多个语义指示词。

其中，上述目标词语与语义指示词的映射关系例如可以是用户预先存储在该电子设备中的。示例性的，该目标词语与语义指示词的映射关系例如可以如下表2所示：

表2

以表2所示的映射关系为例，以目标语句中的存在词语1以及指示词11为例，则电子设备可以确定目标语句中存在目标词语对应的语义指示词，且该词语1对应的语义指示词为指示词11。

示例性的，以上述词语1为“一点”，指示词1为“凌晨”、指示词2为“中午”，对于目标语句“凌晨一点叫我起床”，该目标语句中存在目标词语“一点”对应的语义指示词“凌晨”。

若电子设备确定目标语句中存在无语义指示的目标词语，则可以执行步骤S304。其中，该无语义指示的目标词语指的是在目标语句中不存在对应的语义指示词的目标词语。

若针对任一目标词语，电子设备确定该目标语句中存在该目标词语对应的语义指示词，可选的，电子设备例如可以执行步骤S305。

S304、将目标语句输入语义消歧模型，得到各无语义指示的目标词语的语义。

上述语义消歧模型为采用如前述任一项语义消歧模型训练方法训练得到的。或者，该语义消歧模型还可以为通过其他方式训练得到的，能够用于确定目标语句所包括的多语义词语的语义，且预先存储在该电子设备中的语义消歧模型。

示例性的，以目标语句为“一点提醒我去买菜”为例，该目标语句中的目标词语为“一点”。电子设备将该目标语句输入语义消歧模型，该语义消歧模型可以确定“一点”的语义是否为“程度”，以及，“一点”的语义是否为“时间”。因为该语义消歧模型是通过前述各实施例所述的方法训练得到的，根据该“一点”所在的目标语句，语义消歧模型可以输出该目标词语“一点”的语义为“时间”。

S305、根据该目标词语对应的语义指示词，确定该目标词语的语义。

在该实现方式下，在该目标语句中存在该目标词语对应的语义指示词，电子设备直接根据该目标词语对应的语义指示词，确定该目标词语的语义，进一步提高了语义识别的效率。

可选的，电子设备中例如可以预先存储有语义指示词与语义的映射关系。电子设备可以根据目标词语对应的语义指示词，以及，该语义指示词与语义的映射关系，确定该目标词语的语义指示词对应的语义。

S306、根据该目标语句中的各目标词语的语义，得到目标语句的语义。

在一些实施例中，电子设备例如可以将目标语句中除了目标词语之外的各词语的语义，以及，各目标词语的语义，作为目标语句的语义。

在本实施例中，通过一个语义消歧模型，即可确定目标语句中的目标词语的语义。当存在多个目标语句或者多个目标词语时，通过该语义消歧模型，可以确定多个目标词语的语义。通过上述方法，不需要针对不同的目标词语都使用不同模型，减少了语义识别的计算量且提高了语义识别的效率。此外，通过在目标语句中存在待语义消歧的目标词语，且目标语句中存在无语义指示的目标词语时，将目标语句输入语义消歧模型，以获取目标词语的语义，对该目标语句中的目标词语的语义进行预处理，进一步减少了语义消歧模型需要处理的目标词语的数量，进而进一步提高了语义识别的效率。

进一步的，作为一种可能的实现方式，以上述目标语句用于控制目标设备为例，在该实现方式下，电子设备在根据目标词语的语义，得到目标语句的语义之后，还可以根据该目标语句的语义，对目标设备进行控制操作。

在一些实施例中，电子设备中例如可以预先存储有语义与控制指令的映射关系。在获取目标语句的语义之后，电子设备可以根据该目标语句的语义，以及，语义与控制指令的映射关系，确定该目标语句的语义对应的控制指令。在确定控制指令之后，电子设备可以执行该控制指令，以使电子设备可以对目标设备进行控制操作。可选的，该电子设备与目标设备指的可以是同一设备，也可以为不同设备。

示例性的，以上述目标语句的语义为“调高音量”为例，电子设备可以确定该目标语义语句对应的控制指令为调高扬声器的音量。因此，电子设备可以控制目标设备的扬声器的音量增高。

图6为本申请提供的另一种语义识别方法的流程示意图。如图6所示，该方法包括以下步骤：

步骤1、获取目标语句。

步骤2、通过AC自动机匹配算法，将目标语句中的词语与预设的多语义词语语料库中的多语义词语进行匹配，确定目标语句中是否存在待语义消歧的目标词语。

若存在，则执行步骤3。若不存在，则可以直接根据该目标语句获取目标语句的语义，然后执行步骤7，以根据该目标语句的语义，对目标设备进行控制操作。

步骤3、根据目标语句中的词语，以及，目标词语与语义指示词的映射关系，确定目标语句中是否存在目标词语对应的语义指示词。

若存在目标词语对应的语义指示词，则执行步骤4。

若不存在目标词语对应的语义指示词，则执行步骤5。

步骤4、根据该目标词语对应的语义指示词，确定目标词语的语义。

在电子设备执行步骤4之后，可以执行步骤6，以获取目标语句的语义。

步骤5、将目标语句输入语义消歧模型，得到目标语句中的目标词语的语义。

以目标语句中的目标词语为“一点”为例，在一些实施例中，语义消歧模型可以分别确定“一点”为“时间一点”、“一点”不为“时间一点”、“一点”为“程度一些”，以及，“一点”不为“程度一些”概率值。然后，语义消歧模型可以输出“一点”为“时间一点”和“一点”为“程度一些”中概率值的语义作为目标语句中的目标词语的语义。

在电子设备执行步骤5之后，可以执行步骤6，以获取目标语句的语义。

步骤6、根据目标词语的语义，得到目标语句的语义。

步骤7、根据该目标语句的语义，对目标设备进行控制操作。

图7为本申请提供的一种语义识别装置的结构示意图。如图7所示，该装置包括：第一获取模块51，处理模块52，以及，第二获取模块53。其中，

第一获取模块51，用于获取目标语句。

处理模块52，用于在确定所述目标语句中存在待语义消歧的目标词语时，判断所述目标语句中是否存在各目标词语对应的语义指示词；在确定所述目标语句中存在无语义指示的目标词语时，将所述目标语句输入语义消歧模型，得到各所述无语义指示的目标词语的语义。其中，所述语义指示词用于确定所述目标词语的语义；所述无语义指示的目标词语指的是在所述目标语句中不存在对应的语义指示词的目标词语。

第二获取模块53，用于根据所述目标语句中的各目标词语的语义，得到所述目标语句的语义。

可选的，处理模块52，具体用于针对任一目标词语，在确定所述目标语句中存在该目标词语对应的语义指示词时，根据该目标词语对应的语义指示词，确定该目标词语的语义。

可选的，处理模块52，具体用于根据所述目标语句中的各词语，以及，所述目标词语与语义指示词的映射关系，判断所述目标语句中是否存在各目标词语对应的语义指示词。

可选的，处理模块52，具体用于将所述目标语句中的词语与预设的多语义词语语料库中的多语义词语进行匹配，确定所述目标语句中是否存在待语义消歧的所述目标词语；在所述目标语句中的目标词语与所述多语义词语语料库中的任一多语义词语相同时，确定所述目标语句中存在待语义消歧的所述目标词语。

可选的，该装置还可以包括：第三获取模块54，以及，训练模块55。其中，

第三获取模块54，用于获取样本数据集。其中，所述样本数据集包括：至少一个样本数据子集；所述样本数据子集包括：样本语句对应的正样本数据、所述样本语句对应的负样本数据；所述样本语句包括多语义样本词语，所述正样本数据包括所述样本语句、所述样本语句对应的正样本语句和正样本数据标签、所述负样本数据包括所述样本语句、所述样本语句对应的负样本语句和负样本数据标签，所述正样本语句为使用正样本词语替换所述样本语句中的所述多语义样本词语得到的语句，所述负样本语句为使用负样本词语替换所述样本语句中的所述多语义样本词语得到的语句，所述正样本词语与所述多语义样本词语的语义相同，所述负样本词语与所述多语义样本词语的语义不同。

训练模块55，用于使用所述样本数据集训练预设的二分类模型，得到语义消歧模型。其中，所述语义消歧模型用于确定目标语句所包括的多语义词语的语义。

可选的，第三获取模块54，具体用于获取样本语料库，以及，多语义样本词语与各语义对应的词语的映射关系；根据所述样本语料库，以及，所述多语义样本词语与各语义对应的词语的映射关系，构建所述样本数据集。其中，所述样本语料库包括：至少一个语料子集。所述语料子集包括：所述样本语句、所述多语义样本词语、所述多语义样本词语的正样本词语。

可选的，第三获取模块54，具体用于针对所述样本语料库中的任一语料子集，使用所述多语义样本词语的正样本词语替换所述样本语句中的多语义样本词语，得到所述样本语句对应的正样本语句；根据所述多语义样本词语，以及，所述多语义样本词语与各语义对应的词语的映射关系，确定所述多语义样本词语的各语义对应的词语；使用所述多语义样本词语的负样本词语替换所述样本语句中的多语义样本词语，得到所述样本语句对应的负样本语句；根据所述样本语句、所述样本语句对应的正样本语句、所述样本语句对应的负样本语句，得到所述样本数据集的一个样本数据子集。其中，所述负样本词语为所述多语义样本词语的各语义对应的词语中，除所述正样本词语之外的任一词语。

可选的，第三获取模块54，具体用于按照预设拼接格式，拼接所述样本语句、所述样本语句对应的正样本语句，得到初始拼接正样本数据；为所述初始拼接正样本数据中的样本语句的每个词语添加样本语句标签，为所述初始拼接正样本数据中的正样本语句的每个词语添加正样本语句标签，以及，为所述初始拼接正样本数据添加正样本数据标签，得到所述样本语句对应的正样本数据；按照预设拼接格式，拼接所述样本语句、所述样本语句对应的负样本语句，得到初始拼接负样本数据；为所述初始拼接负样本数据中的样本语句的每个词语添加样本语句标签，为所述初始拼接负样本数据中的负样本语句的每个词语添加负样本语句标签，以及，为所述初始拼接负样本数据添加负样本数据标签，得到所述样本语句对应的负样本数据。

本实施例提供的语义识别装置，可以执行上述语义识别法实施例，其实现原理和技术效果类似，在此不再赘述。

图8为本申请提供的一种电子设备结构示意图。如图8所示，该电子设备600可以包括：至少一个处理器601和存储器602。

存储器602，用于存放程序。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。

存储器602可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

处理器601用于执行存储器602存储的计算机执行指令，以实现前述方法实施例所描述的语义消歧模型训练或者语义识别方法。其中，处理器601可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application SpecificIntegrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

可选的，该电子设备600还可以包括通信接口603。在具体实现上，如果通信接口603、存储器602和处理器601独立实现，则通信接口603、存储器602和处理器601可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry StandardArchitecture，简称为ISA)总线、外部设备互连(Peripheral Component，简称为PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果通信接口603、存储器602和处理器601集成在一块芯片上实现，则通信接口603、存储器602和处理器601可以通过内部接口完成通信。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或者光盘等各种可以存储程序代码的介质，具体的，该计算机可读存储介质中存储有程序指令，程序指令用于上述实施例中的方法。

本申请还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得电子设备实施上述的各种实施方式提供的语义消歧模型训练或者语义识别方法。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种语义识别方法，其特征在于，所述方法包括：

获取目标语句；

当确定所述目标语句中存在待语义消歧的目标词语时，判断所述目标语句中是否存在各目标词语对应的语义指示词；所述语义指示词用于确定所述目标词语的语义；

若确定所述目标语句中存在无语义指示的目标词语，则将所述目标语句输入语义消歧模型，得到各所述无语义指示的目标词语的语义；所述无语义指示的目标词语指的是在所述目标语句中不存在对应的语义指示词的目标词语；

根据所述目标语句中的各目标词语的语义，得到所述目标语句的语义。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

针对任一目标词语，若确定所述目标语句中存在该目标词语对应的语义指示词，则根据该目标词语对应的语义指示词，确定该目标词语的语义。

3.根据权利要求1或2所述的方法，其特征在于，所述判断所述目标语句中是否存在各目标词语对应的语义指示词，包括：

根据所述目标语句中的各词语，以及，所述目标词语与语义指示词的映射关系，判断所述目标语句中是否存在各目标词语对应的语义指示词。

4.根据权利要求1或2所述的方法，其特征在于，所述方法包括：

将所述目标语句中的词语与预设的多语义词语语料库中的多语义词语进行匹配，确定所述目标语句中是否存在待语义消歧的所述目标词语；

若所述目标语句中的目标词语与所述多语义词语语料库中的任一多语义词语相同，则确定所述目标语句中存在待语义消歧的所述目标词语。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取样本数据集；其中，所述样本数据集包括：至少一个样本数据子集；所述样本数据子集包括：样本语句对应的正样本数据、所述样本语句对应的负样本数据；所述样本语句包括多语义样本词语，所述正样本数据包括所述样本语句、所述样本语句对应的正样本语句和正样本数据标签；所述负样本数据包括所述样本语句、所述样本语句对应的负样本语句和负样本数据标签，所述正样本语句为使用正样本词语替换所述样本语句中的所述多语义样本词语得到的语句，所述负样本语句为使用负样本词语替换所述样本语句中的所述多语义样本词语得到的语句，所述正样本词语与所述多语义样本词语的语义相同，所述负样本词语与所述多语义样本词语的语义不同；

使用所述样本数据集训练预设的二分类模型，得到所述语义消歧模型。

6.根据权利要求5所述的方法，其特征在于，所述获取样本数据集，包括：

获取样本语料库，以及，多语义样本词语与各语义对应的词语的映射关系；其中，所述样本语料库包括：至少一个语料子集，所述语料子集包括：所述样本语句、所述多语义样本词语、所述多语义样本词语的正样本词语；

根据所述样本语料库，以及，所述多语义样本词语与各语义对应的词语的映射关系，构建所述样本数据集。

7.根据权利要求6所述的方法，其特征在于，所述根据所述样本语料库，以及，所述多语义样本词语与各语义对应的词语的映射关系，构建所述样本数据集，包括：

针对所述样本语料库中的任一语料子集，使用所述多语义样本词语的正样本词语替换所述样本语句中的多语义样本词语，得到所述样本语句对应的正样本语句；

根据所述多语义样本词语，以及，所述多语义样本词语与各语义对应的词语的映射关系，确定所述多语义样本词语的各语义对应的词语；

使用所述多语义样本词语的负样本词语替换所述样本语句中的多语义样本词语，得到所述样本语句对应的负样本语句；所述负样本词语为所述多语义样本词语的各语义对应的词语中，除所述正样本词语之外的任一词语；

根据所述样本语句、所述样本语句对应的正样本语句、所述样本语句对应的负样本语句，得到所述样本数据集的一个样本数据子集。

8.根据权利要求7所述的方法，其特征在于，所述根据所述样本语句、所述样本语句对应的正样本语句、所述样本语句对应的负样本语句，得到所述样本数据集的一个样本数据子集，包括：

按照预设拼接格式，拼接所述样本语句、所述样本语句对应的正样本语句，得到初始拼接正样本数据；

为所述初始拼接正样本数据中的样本语句的每个词语添加样本语句标签，为所述初始拼接正样本数据中的正样本语句的每个词语添加正样本语句标签，以及，为所述初始拼接正样本数据添加正样本数据标签，得到所述样本语句对应的正样本数据；

按照预设拼接格式，拼接所述样本语句、所述样本语句对应的负样本语句，得到初始拼接负样本数据；

为所述初始拼接负样本数据中的样本语句的每个词语添加样本语句标签，为所述初始拼接负样本数据中的负样本语句的每个词语添加负样本语句标签，以及，为所述初始拼接负样本数据添加负样本数据标签，得到所述样本语句对应的负样本数据。

9.一种语义识别装置，其特征在于，所述装置包括：

第一获取模块，用于获取目标语句；

处理模块，用于当确定所述目标语句中存在待语义消歧的目标词语时，判断所述目标语句中是否存在各目标词语对应的语义指示词；若确定所述目标语句中存在无语义指示的目标词语，则将所述目标语句输入语义消歧模型，得到各所述无语义指示的目标词语的语义；所述无语义指示的目标词语指的是在所述目标语句中不存在对应的语义指示词的目标词语；所述语义指示词用于确定所述目标词语的语义；

第二获取模块，用于根据所述目标词语的语义，得到所述目标语句的语义。

10.一种电子设备，其特征在于，包括：至少一个处理器、存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述电子设备执行权利要求1至8任一项所述的语义识别方法。