CN111985249A

CN111985249A - 语义分析方法、装置、计算机可读存储介质及电子设备

Info

Publication number: CN111985249A
Application number: CN202010915355.9A
Authority: CN
Inventors: 董志雄; 李东超; 崔鸣; 江霜艳
Original assignee: Beike Technology Co Ltd
Current assignee: Beike Technology Co Ltd
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2020-11-24

Abstract

本公开实施例公开了一种语义分析方法和装置，其中，该方法包括：将获取的询问语句与预设语句库中的语句进行匹配；确定预设语句库中是否存在与询问语句相匹配的语句；如果不存在，执行如下步骤：将询问语句输入意图槽位识别模型，得到预设数量个意图槽位信息；获取询问语句的关联信息；将询问语句、关联信息和预设数量个意图槽位信息输入预先训练的消除歧义模型，得到预设数量个意图槽位信息中的意图槽位信息对应的置信度信息；基于置信度信息，从预设数量个意图槽位信息中提取表征用户询问的意图的目标意图槽位信息。本公开实施例可以有效地消除询问语句产生的歧义，有助于提高问答系统回复的准确性，以及使服务提供方准确地获得用户询问的意图。

Description

语义分析方法、装置、计算机可读存储介质及电子设备

技术领域

本公开涉及计算机技术领域，尤其是一种语义分析方法、装置、计算机可读存储介质及电子设备。

背景技术

目前，很多领域用到问答系统，即用户通过文字、语音等方式发送问题，系统自动对问题进行解析并回答。对问题解析的结果可以为服务提供方和用户提供服务，服务提供方可以根据解析结果对问答系统进行优化，向用户提供高精度的回复。

发明内容

本公开的实施例提供了一种语义分析方法、装置、计算机可读存储介质及电子设备。

本公开的实施例提供了一种语义分析方法，该方法包括：获取用户输入的询问语句；将询问语句与预设语句库中的语句进行匹配；确定预设语句库中是否存在与询问语句相匹配的语句；如果不存在，执行如下步骤：将询问语句输入意图槽位识别模型，得到预设数量个意图槽位信息；获取询问语句的关联信息；将询问语句、关联信息和预设数量个意图槽位信息输入预先训练的消除歧义模型，得到预设数量个意图槽位信息中的意图槽位信息对应的置信度信息；基于置信度信息，从预设数量个意图槽位信息中提取表征用户询问的意图的目标意图槽位信息。

在一些实施例中，关联信息包括以下至少一种：用户的用户画像信息、用户相关的区域的区域基础信息、询问语句的分类信息，其中，分类信息基于预先训练的分类模型得到。

在一些实施例中，分类信息包括以下至少一项：情感分类信息、句式分类信息、语句标签信息，其中，情感分类信息基于预先训练的情感分析模型得到，句式分类信息基于预先训练的句式分析模型得到，语句标签信息基于预先训练的标签提取模型得到。

在一些实施例中，在从预设数量个意图槽位信息中提取表征用户询问的意图的目标意图槽位信息之后，方法还包括：基于目标意图槽位信息和关联信息，生成询问语句的语义信息并输出语义信息。

在一些实施例中，将询问语句输入意图槽位识别模型，得到预设数量个意图槽位信息，包括：将询问语句输入意图槽位识别模型，得到意图槽位信息集合，其中，意图槽位信息集合中的意图槽位信息对应于表征意图槽位信息的准确程度的分值；基于分值的大小，从意图槽位信息集合中，提取预设数量个意图槽位信息。

在一些实施例中，将询问语句与预设语句库中的语句进行匹配，包括：确定询问语句的句子向量；确定询问语句的句子向量与预设语句库中的语句对应的句子向量之间的相似度；对于所确定的各个相似度中的每个相似度，响应于确定相似度大于或等于预设相似度阈值，确定相似度对应的语句与询问语句匹配。

在一些实施例中，在确定预设语句库中是否存在与询问语句相匹配的语句之后，方法还包括：响应于确定预设语句库中存在与询问语句相匹配的语句，输出与相匹配的语句对应的语义信息。

根据本公开实施例的另一个方面，提供了一种语义分析装置，该装置包括：第一获取模块，用于获取用户输入的询问语句；匹配模块，用于将询问语句与预设语句库中的语句进行匹配；确定模块，用于确定预设语句库中是否存在与询问语句相匹配的语句；识别模块，用于如果不存在与询问语句相匹配的语句，将询问语句输入意图槽位识别模型，得到预设数量个意图槽位信息；第二获取模块，用于获取询问语句的关联信息；消除歧义模块，用于将询问语句、关联信息和预设数量个意图槽位信息输入预先训练的消除歧义模型，得到预设数量个意图槽位信息中的意图槽位信息对应的置信度信息；提取模块，用于基于置信度信息，从预设数量个意图槽位信息中提取表征用户询问的意图的目标意图槽位信息。

在一些实施例中，装置还包括：生成模块，用于基于目标意图槽位信息和关联信息，生成询问语句的语义信息并输出语义信息。

在一些实施例中，识别模块包括：识别单元，用于将询问语句输入意图槽位识别模型，得到意图槽位信息集合，其中，意图槽位信息集合中的意图槽位信息对应于表征意图槽位信息的准确程度的分值；提取单元，用于基于分值的大小，从意图槽位信息集合中，提取预设数量个意图槽位信息。

在一些实施例中，匹配模块包括：第一确定单元，用于确定询问语句的句子向量；第二确定单元，用于确定询问语句的句子向量与预设语句库中的语句对应的句子向量之间的相似度；第三确定单元，用于对于所确定的各个相似度中的每个相似度，响应于确定相似度大于或等于预设相似度阈值，确定相似度对应的语句与询问语句匹配。

在一些实施例中，装置还包括：输出模块，用于响应于确定预设语句库中存在与询问语句相匹配的语句，输出与相匹配的语句对应的语义信息。

根据本公开实施例的另一个方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序用于执行上述语义分析方法。

根据本公开实施例的另一个方面，提供了一种电子设备，电子设备包括：处理器；用于存储处理器可执行指令的存储器；处理器，用于从存储器中读取可执行指令，并执行指令以实现上述语义分析方法。

基于本公开上述实施例提供的语义分析方法、装置、计算机可读存储介质及电子设备，通过在预设语句库中不存在与询问语句相匹配的语句时，利用意图槽位识别模型，得到预设数量个意图槽位信息，再利用询问语句的关联信息，使用消除歧义模型，对各个意图槽位信息进行确定置信度信息的处理，根据置信度信息，提取表征用户询问的意图的目标意图槽位信息，从而可以使提取的目标意图槽位信息反映用户询问的真实意图，有效地消除口语化的询问语句产生的歧义，有助于提高问答系统自动回复用户询问的问题的准确性，以及使服务提供方准确地获得用户询问的真实意图。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开所适用的系统图。

图2是本公开一示例性实施例提供的语义分析方法的流程示意图。

图3是本公开另一示例性实施例提供的语义分析方法的流程示意图。

图4是本公开一示例性实施例提供的利用消除歧义模型进行确定置信度信息的处理并取最优结果的示意图。

图5是本公开又一示例性实施例提供的语义分析方法的流程示意图。

图6是本公开又一示例性实施例提供的语义分析方法的流程示意图。

图7是本公开一示例性实施例提供的语义分析装置的结构示意图。

图8是本公开另一示例性实施例提供的语义分析装置的结构示意图。

图9是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

由于用户的询问语句比较口语化，在对询问语句进行解析时，会造成诸如以下问题：

1.询问语句存在歧义性：

例如，在口语化交互中，用户的对话一般比较简短，比如用户在询问30万的房子，单纯这句话存在很大歧义，30万有可能指的是房屋的总价，也可能是指的是自己的预算，还有可能是说明房子的首付，歧义性比较严重。

2.受地域影响：

例如，用户搜索税费和首付时，不同地区首付和税费，因为各地政策的差异性，计算也存在差异性。如果用户询问10万的房子，在北京地区更可能为单价，但是在小县城更可能是首付或者预算。

3.地理位置的歧义性：

比如用户搜索“我想要xxx的大房子”，这个xxx可能是指地铁站，也可能是商圈，解析的意图的不同，对后续提供的智能服务采取的决策差异很大。

由于以上存在的问题，目前公开的语义解析方案需要做出改进和优化。

示例性系统

图1示出了可以应用本公开的实施例的语义分析方法或语义分析装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101，网络102和服务器103。网络102用于在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101通过网络102与服务器103交互，以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用，例如购物类应用、房屋交易类应用、搜索类应用、网页浏览器应用、即时通信工具等。

终端设备101可以是各种电子设备，包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

服务器103可以是提供各种服务的服务器，例如对终端设备101上传的询问语句进行分析的后台语句分析服务器。后台语句分析服务器可以对接收到的询问语句进行处理，得到处理结果(例如意图槽位信息)。

需要说明的是，本公开的实施例所提供的语义分析方法可以由服务器103执行，也可以由终端设备101执行，相应地，语义分析装置可以设置于服务器103中，也可以设置于终端设备101中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。在询问语句不需要从远程获取的情况下，上述系统架构可以不包括网络，只包括服务器或终端设备。

示例性方法

图2是本公开一示例性实施例提供的语义分析方法的流程示意图。本实施例可应用在电子设备(如图1所示的终端设备101或服务器103)上，如图2所示，该方法包括如下步骤：

步骤201，获取用户输入的询问语句。

在本实施例中，电子设备可以从本地或从远程获取用户输入的询问语句。例如，当电子设备是终端设备时，可以从本地获取用户输入的询问语句(query)；当电子设备是服务器时，可以从终端设备获取用户输入的询问语句。询问语句可以是用户直接输入的文字语句，也可以是将用户输入的语音转换为文字后的语句。

步骤202，将询问语句与预设语句库中的语句进行匹配。

在本实施例中，电子设备可以将询问语句与预设语句库中的语句进行匹配。其中，预设语句库为预先设置的，其包括大量的语句。通常预设语句库中的语句是经过标准化的语句，具有特定的含义。例如，询问语句为“我想买xxx附近地铁房，理想价格600以内”，如果语句库中存在标准化的语句“询问xxx550万到650万房子”，则两者匹配。

通常，在进行语句匹配时，可以首先对询问语句进行分词，得到词语序列，例如，对上述示例的分词结果可以为：“我/想买/xxx/附近/地铁/房，理想/价格/600/以内。电子设备可以利用分词结果，按照各种方法将询问语句与预设语句库中的语句进行匹配。例如，可以利用现有的神经网络模型、主题模型等方法，将询问语句与预设语句库中的语句进行逐一对比，如果询问语句与某个语句的相似度大于预设相似度阈值，则确定两者匹配。

步骤203，确定预设语句库中是否存在与询问语句相匹配的语句。

在本实施例中，电子设备可以确定预设语句库中是否存在与询问语句相匹配的语句。如果不存在，执行步骤204-步骤207。

步骤204，将询问语句输入意图槽位识别模型，得到预设数量个意图槽位信息。

在本实施例中，电子设备可以将询问语句输入意图槽位识别模型，得到预设数量个意图槽位信息。其中，意图槽位信息可以包括用户意图信息和槽位(slot)信息，用户意图信息用于表征用户询问的主要意图，例如：买房需求、租房需求等。槽位信息用于表征用户询问语句中包括的相关实体信息。例如：地理位置，户型，面积，居室，价格，首付，预算等等。

意图槽位识别模型可以输出多个意图槽位信息，电子设备可以从多个意图槽位信息中选择预设数量个(例如5个)意图槽位信息。作为示例，询问语句为“业主这套房子在几层啊，最好10楼以下，我们最多能拿出263万”，可以输出如下5个意图槽位信息：

1)意图：房屋信息；槽位：【楼层：10-】，【总价：263万】；

2)意图：房屋信息；槽位：【楼层：10-】，【首付：263万】；

3)意图：房屋信息；槽位：【楼层：10-】，【预算：263万】；

4)意图：业主信息；槽位：【楼层：10】，【总价：263万】；

5)意图：业主信息；槽位：【楼层：10-】，【首付：263万】。

其中，10-表示10以下。

意图槽位识别模型用于表征语句与意图槽位信息的对应关系。意图槽位识别模型可以基于各种算法实现，例如基于规则的算法，基于传统机器学习算法，基于深度学习算法等。可选的，可以利用双向的GRU+CRF作为意图与槽位的联合模型，该模型相比其他类型的模型，不仅可以通过双向门限循环单元有效利用双向上下文信息，而且可以通过条件随机场联合考虑相邻标签间的相关性，得到全局最优的预测结果，因此，其预测准确率和召回率更高。通常，意图槽位识别模型接收的是询问语句中的每个词语的词向量，因此，需要首先对询问语句进行词嵌入(embedding)，得到询问语句中的每个词的词向量，再对词向量进行处理，得到意图槽位信息。

意图槽位识别模型可以通过机器学习方法训练得到。通常，电子设备可以将大量的样本语句作为初始模型的输入，将输入的样本语句对应的标注意图信息和标注槽位信息作为期望输出，反复训练初始模型，当达到预设的结束训练条件(例如训练时长超过预设时长，训练次数超过预设次数，损失函数的损失值收敛等)时，结束训练，得到意图槽位识别模型。

步骤205，获取询问语句的关联信息。

在本实施例中，电子设备可以获取询问语句的关联信息。其中，关联信息用于表征与用户询问的问题相关的信息。电子设备可以从设置在本地或远程的关联信息集合中获取与上述询问语句对应的关联信息。其中，关联信息集合中的关联信息用于表征与询问语句相关的不同维度的信息。电子设备可以根据用户的相关信息(例如用户所在的地点、用户年龄等)，从关联信息集合中确定询问语句的关联信息。

作为示例，当用户询问房产相关的问题时，关联信息集合可以用于表征不同类型的用户、不同的行政区、不同的商圈、各行政区的房价区间、税费区间等。再例如，当用户询问医疗相关问题时，关联信息集合可以用于表征不同类别的病人、不同的行政区、不同的医院、各行政区的医疗水平、各医院的住院费用区间、病人就诊数量区间等。

步骤206，将询问语句、关联信息和预设数量个意图槽位信息输入预先训练的消除歧义模型，得到预设数量个意图槽位信息中的意图槽位信息对应的置信度信息。

在本实施例中，电子设备可以将询问语句、关联信息和预设数量个意图槽位信息输入预先训练的消除歧义模型，得到预设数量个意图槽位信息中的意图槽位信息对应的置信度信息。其中，消除歧义模型用于根据关联信息，确定预设数量个意图槽位信息中的每个意图槽位信息对应的置信度信息。置信度信息用于表征意图槽位信息反映用户真实意图的准确程度，从而可以达到消除口语化的询问语句的歧义问题。作为示例，置信度信息可以是得分值，得分值越高，表示意图槽位信息反映用户真实意图的准确程度越高。

电子设备可以采用机器学习方法，对预设结构的初始模型进行训练，得到消除歧义模型。作为示例，初始模型可以包括但不限于以下至少一种模型：XGBoost模型、gbm模型、GBDT模型等。消除歧义模型根据关联信息，对预设数量个意图槽位信息中的每个意图槽位信息进行确定置信度信息的处理。训练初始模型时，可以获取训练样本集合，将训练样本包括的样本语句、样本关联信息和多个样本意图槽位信息作为初始模型的输入，将对每个样本意图槽位信息进行标注的置信度信息作为期望输出，训练得到消除歧义模型。通常，消除歧义模型对意图槽位信息进行确定置信度信息的处理时，其处理的信息是向量，因此，消除歧义模型可以首先对询问语句进行词嵌入(embedding)，得到询问语句中的每个词的词向量，再对词向量和表征关联信息的向量进行处理，得到意图槽位信息对应的置信度信息。

步骤207，基于置信度信息，从预设数量个意图槽位信息中提取表征用户询问的意图的目标意图槽位信息。

在本实施例中，电子设备可以基于置信度信息，从预设数量个意图槽位信息中提取表征用户询问的意图的目标意图槽位信息。通常，可以将数值最大的置信度信息对应的意图槽位信息作为目标意图槽位信息。目标意图槽位信息可以准确地表征用户询问的主要内容，即可以准确地反映用户询问的真实意图。作为示例，目标意图槽位信息可以为：“意图：房屋信息；槽位：【楼层：10-】，【首付：263万】”。

在一些可选的实现方式中，在步骤207之后，电子设备还可以基于目标意图槽位信息和关联信息，生成询问语句的语义信息并输出语义信息。语义信息可以以各种方式输出，例如在显示器上显示，或发送到其他设备等。其中，语义信息用于表征询问语句的真实语义。作为示例，关联信息可以包括询问语句的分类信息，分类信息可以包括情感分类信息、句式分类信息等。语义信息可以为：“意图：房屋信息；槽位：【楼层：10-】，【首付：263万】；情感：中性；句式：陈述句”。本实现方式通过生成语义信息，可以更精确地表示询问语句，有助于为服务提供者提供参考，提高问答系统的精确性。

在一些可选的实现方式中，如图3所示，在步骤203之后，还可以包括步骤208：

响应于确定预设语句库中存在与询问语句相匹配的语句，输出与相匹配的语句对应的语义信息。其中，与相匹配的语句对应的语义信息可以是预先生成的，例如，询问语句为“我想买xxx附近地铁房，理想价格600以内”，与其相匹配的语句为“询问xxx550万到650万房子”，则对应的语义信息可以为“意图：买房需求；槽位：【地铁站：xxx】，【总价：600万】；情感：中性；句式：陈述句”。本实现方式在预设语句库中存在与询问语句相匹配的语句时，直接输出语义信息，可以提高语句分析的效率。

在一些可选的实现方式中，关联信息包括以下至少一种：用户的用户画像信息、用户相关的区域(例如用户所在区域、用户询问的区域等)的区域基础信息、询问语句的分类信息。其中，用户画像信息用于表征用户的特征，例如用户的年龄、性别、习惯等。用户画像信息通常预先根据用户的个人信息、历史记录等信息生成。

区域基础信息用于表征用户相关的区域的基本特征。例如，当用户询问关于房价的问题时，区域基础信息可以表征用户询问的区域的房价的分布、政策性费用(例如税费、中介费等)的分布等。区域基础信息通常由向量表征，向量中的数据可以表示各种费用区间，例如，向量中包括(4500000,6000000)，表示用户询问的区域的房价的分布区间。

分类信息基于预先训练的分类模型得到。分类模型用于表征用户询问语句与类别信息的对应关系。分类模型可以基于预设的大量的样本语句和对应的标注类别信息，对初始模型进行训练得到。初始模型可以包括但不限于卷积神经网络(CNN，ConvolutionalNeural Networks)、长短期记忆网络(LSTM，Long Short-Term Memory)、支持向量机(SVM，Support Vector Machine)、fasttext等。分类模型的数量可以为一个或多个，即对询问语句进行不同维度地分类。

在一些可选的实现方式中，分类信息可以包括以下至少一项：情感分类信息、句式分类信息、语句标签信息。其中，情感分类信息基于预先训练的情感分析模型得到，句式分类信息基于预先训练的句式分析模型得到，语句标签信息基于预先训练的标签提取模型得到。

情感分类模型用于表征询问语句与情感分类信息的对应关系。电子设备可以将预设的样本语句作为输入，将与输入的样本语句对应的标注情感分类信息(例如褒义、贬义、中性等)作为期望输出，利用机器学习方法训练得到。

句式分析模型用于表征询问语句与句式分类信息的对应关系。电子设备可以将预设的样本语句作为输入，将与输入的样本语句对应的标注句式分类信息(例如陈述句、疑问句等)作为期望输出，利用机器学习方法训练得到。

语句标签信息用于表征询问语句与语句标签信息的对应关系。电子设备可以将预设的样本语句作为输入，将与输入的样本语句对应的标注语句标签信息(例如大三居，小两居，适合老人住等)作为期望输出，利用机器学习方法训练得到。标签信息与上述槽位信息相结合，可以更准确地对询问语句进行分析，更准确地获得用户的真实意图。

上述各个模型可以基于各种结构的初始模型训练得到，作为示例，情感分类信息可以基于fasttext模型进行训练、句式分类信息可以基于LSTM模型进行训练、语句标签信息可以基于多分类模型transformer进行训练。

本实现方式通过采用多个分类模型对询问语句进行分类，可以得到多个维度的分类信息，与其他关联信息和意图槽位信息相结合进行歧义消除，可以更准确地对询问语句进行分析，提高确定用户的真实意图的准确性。

继续参考图4，其示出了基于询问语句、关联信息和预设数量个意图槽位信息，利用消除歧义模型(图中采用XGBoost)对预设数量个意图槽位信息进行确定置信度信息的处理并取最优结果的示意图。其中，关联信息包括图中所示的用户画像信息、区域基础信息和分类信息，分类信息包括情感分类信息、句式分类信息、语句标签信息，将这些信息输入XGBoost，XGBoost对预设数量个意图槽位信息进行确定置信度信息的处理，将数值最大的置信度信息对应的意图槽位信息作为最优结果输出。

本公开的上述实施例提供的方法，通过在预设语句库中不存在与询问语句相匹配的语句时，利用意图槽位识别模型，得到预设数量个意图槽位信息，再利用询问语句的关联信息，使用消除歧义模型，对各个意图槽位信息进行确定置信度信息的处理，根据置信度信息，提取表征用户询问的意图的目标意图槽位信息，从而可以使提取的目标意图槽位信息反映用户询问的真实意图，有效地消除口语化的询问语句产生的歧义，有助于提高问答系统自动回复用户询问的问题的准确性，以及使服务提供方准确地获得用户询问的真实意图。

进一步参考图5，示出了语义分析方法的又一个实施例的流程示意图。如图5所示，在上述图2所示实施例的基础上，步骤204可以包括如下步骤：

步骤2041，将询问语句输入意图槽位识别模型，得到意图槽位信息集合。

在本实施例中，电子设备可以将询问语句输入意图槽位识别模型，得到意图槽位信息集合。其中，意图槽位信息集合中的意图槽位信息对应于表征意图槽位信息的准确程度的分值。作为示例，输出的意图槽位信息集合可以包括N个意图槽位信息，每个意图槽位信息对应于一个分值，分值越高，表示对应的意图槽位信息的准确程度越高。

步骤2042，基于分值的大小，从意图槽位信息集合中，提取预设数量个意图槽位信息。

在本实施例中，电子设备可以基于分值的大小，从意图槽位信息集合中，提取预设数量个意图槽位信息。通常，可以提取分值最高的预设数量个意图槽位信息(例如top5)。

上述图5对应实施例提供的方法，通过基于分值的大小，从意图槽位信息集合中，提取预设数量个意图槽位信息，可以使提取的预设数量个意图槽位信息能够较准确地表征用户的意图，有助于在后续的分析中更准确地提取出目标意图槽位信息，提高语句分析的精确性。

进一步参考图6，示出了语义分析方法的又一个实施例的流程示意图。如图6所示，在上述图2所示实施例的基础上，步骤202可以包括如下步骤：

步骤2021，确定询问语句的句子向量。

在本实施例中，电子设备可以确定询问语句的句子向量。具体地，可以首先对询问语句进行分词，得到词语序列，再对词语编码，得到每个词语的词向量，然后利用预先训练的句子向量模型(例如bert、word2vec，ELMo等)生成询问语句的句子向量。

步骤2022，确定询问语句的句子向量与预设语句库中的语句对应的句子向量之间的相似度。

在本实施例中，电子设备可以确定询问语句的句子向量与预设语句库中的语句对应的句子向量之间的相似度。其中，预设语句库中的语句是标准化后的语句，每个语句对应于预先生成的句子向量。电子设备可以基于现有的确定向量之间的相似度的方法(例如基于预先距离、欧氏距离等确定相似度的方法)，确定询问语句的句子向量与预设语句库中的每个语句的相似度，相似度用于表征语句之间的相似程度，相似度越高，语句的内容越相似。

步骤2023，对于所确定的各个相似度中的每个相似度，响应于确定相似度大于或等于预设相似度阈值，确定相似度对应的语句与询问语句匹配。

在本实施例中，对于所确定的各个相似度中的每个相似度，电子设备可以循环执行如下步骤：响应于确定相似度大于或等于预设相似度阈值，确定相似度对应的语句与询问语句匹配。特殊的，如果存在多个大于等于预设相似度阈值的相似度，则可以取最大值对应的语句作为与询问语句匹配的语句。

相应地，如果所确定的各个相似度均小于预设相似度阈值，则确定预设语句库中不存在与询问语句相匹配的语句。

上述图6对应实施例提供的方法，通过确定询问语句的句子向量，再将该句子向量与预设语句库中的每个语句的预先确定的句子向量进行相似度计算，从而可以直接确定向量之间的相似度，提高语句匹配的效率。

示例性装置

图7是本公开一示例性实施例提供的语义分析装置的结构示意图。本实施例可应用在电子设备上，如图7所示，语义分析装置包括：第一获取模块701，用于获取用户输入的询问语句；匹配模块702，用于将询问语句与预设语句库中的语句进行匹配；确定模块703，用于确定预设语句库中是否存在与询问语句相匹配的语句；识别模块704，用于如果不存在与询问语句相匹配的语句，将询问语句输入意图槽位识别模型，得到预设数量个意图槽位信息；第二获取模块705，用于获取询问语句的关联信息；消除歧义模块706，用于将询问语句、关联信息和预设数量个意图槽位信息输入预先训练的消除歧义模型，得到预设数量个意图槽位信息中的意图槽位信息对应的置信度信息；提取模块707，用于基于置信度信息，从预设数量个意图槽位信息中提取表征用户询问的意图的目标意图槽位信息。

在本实施例中，第一获取模块701可以从本地或从远程获取用户输入的询问语句。例如，当语义分析装置设置在终端设备上时，可以从本地获取用户输入的询问语句(query)；当语义分析装置设置在服务器上时，可以从终端设备获取用户输入的询问语句。询问语句可以是用户直接输入的文字语句，也可以是将用户输入的语音转换为文字后的语句。

在本实施例中，匹配模块702可以将询问语句与预设语句库中的语句进行匹配。其中，预设语句库为预先设置的，其包括大量的语句。通常预设语句库中的语句是经过标准化的语句，具有特定的含义。例如，询问语句为“我想买xxx附近地铁房，理想价格600以内”，如果语句库中存在标准化的语句“询问xxx550万到650万房子”，则两者匹配。

通常，在进行语句匹配时，可以首先对询问语句进行分词，得到词语序列，例如，对上述示例的分词结果可以为：“我/想买/xxx/附近/地铁/房，理想/价格/600/以内。匹配模块702可以利用分词结果，按照各种方法将询问语句与预设语句库中的语句进行匹配。例如，可以利用现有的神经网络模型、主题模型等方法，将询问语句与预设语句库中的语句进行逐一对比，如果询问语句与某个语句的相似度大于预设相似度阈值，则确定两者匹配。

在本实施例中，确定模块703可以确定预设语句库中是否存在与询问语句相匹配的语句。

在本实施例中，识别模块704可以在如果不存在与询问语句相匹配的语句时，将询问语句输入意图槽位识别模型，得到预设数量个意图槽位信息。其中，意图槽位信息可以包括用户意图信息和槽位(slot)信息，用户意图信息用于表征用户询问的主要意图，例如：买房需求、租房需求等。槽位信息用于表征用户询问语句中包括的相关实体信息。例如：地理位置，户型，面积，居室，价格，首付，预算等等。

意图槽位识别模型可以输出多个意图槽位信息，识别模块704可以从多个意图槽位信息中选择预设数量个(例如5个)意图槽位信息。作为示例，询问语句为“业主这套房子在几层啊，最好10楼以下，我们最多能拿出263万”，可以输出如下5个意图槽位信息：

4)意图：业主信息；槽位：【楼层：10】，【总价：263万】；

其中，10-表示10以下。

意图槽位识别模型用于表征语句与意图槽位信息的对应关系。意图槽位识别模型可以基于各种算法实现，例如基于规则的算法，基于传统机器学习算法，基于深度学习算法等。可选的，可以利用双向的GRU+CRF作为意图与槽位的联合模型。通常，意图槽位识别模型接收的是询问语句中的每个词语的词向量，因此，需要首先对询问语句进行词嵌入(embedding)，得到询问语句中的每个词的词向量，再对词向量进行处理，得到意图槽位信息。

在本实施例中，第二获取模块705可以获取询问语句的关联信息。其中，关联信息用于表征与用户询问的问题相关的信息。第二获取模块705可以从设置在本地或远程的关联信息集合中获取与上述询问语句对应的关联信息。其中，关联信息集合中的关联信息用于表征与询问语句相关的不同维度的信息。第二获取模块705可以根据用户的相关信息(例如用户所在的地点、用户年龄等)，从关联信息集合中确定询问语句的关联信息。

在本实施例中，消除歧义模块706可以将询问语句、关联信息和预设数量个意图槽位信息输入预先训练的消除歧义模型，得到预设数量个意图槽位信息中的意图槽位信息对应的置信度信息。其中，消除歧义模型用于根据关联信息，确定预设数量个意图槽位信息中的每个意图槽位信息对应的置信度信息。置信度信息用于表征意图槽位信息反映用户真实意图的准确程度，从而可以达到消除口语化的询问语句的歧义问题。

电子设备可以采用机器学习方法，对预设结构的初始模型进行训练，得到消除歧义模型。作为示例，初始模型可以包括但不限于以下至少一种模型：XGBoost模型、gbm模型、GBDT模型等。消除歧义模型根据关联信息，对预设数量个意图槽位信息中的每个意图槽位信息进行确定置信度信息的处理。训练初始模型时，可以获取训练样本集合，将训练样本包括的样本语句、样本关联信息和多个样本意图槽位信息作为初始模型的输入，将对每个样本意图槽位信息进行标注的置信度信息作为期望输出，训练得到消除歧义模型。通常，消除歧义模型接收的是向量，因此，需要首先对询问语句进行词嵌入(embedding)，得到询问语句中的每个词的词向量，再对词向量和表征管理信息的向量进行处理，得到意图槽位信息对应的置信度信息。

在本实施例中，提取模块707可以基于置信度信息，从预设数量个意图槽位信息中提取表征用户询问的意图的目标意图槽位信息。通常，可以将最高置信度信息的意图槽位信息作为目标意图槽位信息。目标意图槽位信息可以准确地表征用户询问的主要内容，即可以准确地反映用户询问的真实意图。作为示例，目标意图槽位信息可以为：“意图：房屋信息；槽位：【楼层：10-】，【首付：263万】”。

参照图8，图8是本公开另一示例性实施例提供的语义分析装置的结构示意图。

在一些可选的实现方式中，关联信息包括以下至少一种：用户的用户画像信息、用户相关的区域的区域基础信息、询问语句的分类信息，其中，分类信息基于预先训练的分类模型得到。

在一些可选的实现方式中，分类信息包括以下至少一项：情感分类信息、句式分类信息、语句标签信息，其中，情感分类信息基于预先训练的情感分析模型得到，句式分类信息基于预先训练的句式分析模型得到，语句标签信息基于预先训练的标签提取模型得到。

在一些可选的实现方式中，装置还包括：生成模块708，用于基于目标意图槽位信息和关联信息，生成询问语句的语义信息并输出语义信息。

在一些可选的实现方式中，识别模块704包括：识别单元7041，用于将询问语句输入意图槽位识别模型，得到意图槽位信息集合，其中，意图槽位信息集合中的意图槽位信息对应于表征意图槽位信息的准确程度的分值；提取单元7042，用于基于分值的大小，从意图槽位信息集合中，提取预设数量个意图槽位信息。

在一些可选的实现方式中，匹配模块702包括：第一确定单元7021，用于确定询问语句的句子向量；第二确定单元7022，用于确定询问语句的句子向量与预设语句库中的语句对应的句子向量之间的相似度；第三确定单元7023，用于对于所确定的各个相似度中的每个相似度，响应于确定相似度大于或等于预设相似度阈值，确定相似度对应的语句与询问语句匹配。

在一些可选的实现方式中，装置还包括：输出模块709，用于响应于确定预设语句库中存在与询问语句相匹配的语句，输出与相匹配的语句对应的语义信息。

本公开上述实施例提供的语义分析装置，通过在预设语句库中不存在与询问语句相匹配的语句时，利用意图槽位识别模型，得到预设数量个意图槽位信息，再利用询问语句的关联信息，使用消除歧义模型，对各个意图槽位信息进行确定置信度信息的处理，根据置信度信息，提取表征用户询问的意图的目标意图槽位信息，从而可以使提取的目标意图槽位信息反映用户询问的真实意图，有效地消除口语化的询问语句产生的歧义，有助于提高问答系统自动回复用户询问的问题的准确性，以及使服务提供方准确地获得用户询问的真实意图。

示例性电子设备

下面，参考图9来描述根据本公开实施例的电子设备。该电子设备可以是如图1所示的终端设备101和服务器103中的任一个或两者、或与它们独立的单机设备，该单机设备可以与终端设备101和服务器103进行通信，以从它们接收所采集到的输入信号。

图9图示了根据本公开实施例的电子设备的框图。

如图9所示，电子设备900包括一个或多个处理器901和存储器902。

处理器901可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备900中的其他组件以执行期望的功能。

存储器902可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器901可以运行程序指令，以实现上文的本公开的各个实施例的语义分析方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如询问语句、预设语句库等各种内容。

在一个示例中，电子设备900还可以包括：输入装置903和输出装置904，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是终端设备101或服务器103时，该输入装置903可以是鼠标、键盘、麦克风等设备，用于输入询问语句。在该电子设备是单机设备时，该输入装置903可以是通信网络连接器，用于从终端设备101和服务器103接收所输入的询问语句。

该输出装置904可以向外部输出各种信息，包括目标意图槽位信息。该输出设备904可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图9中仅示出了该电子设备900中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备900还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语义分析方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语义分析方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种语义分析方法，包括：

获取用户输入的询问语句；

将所述询问语句与预设语句库中的语句进行匹配；

确定所述预设语句库中是否存在与所述询问语句相匹配的语句；

如果不存在，执行如下步骤：

将所述询问语句输入意图槽位识别模型，得到预设数量个意图槽位信息；

获取所述询问语句的关联信息；

将所述询问语句、所述关联信息和所述预设数量个意图槽位信息输入预先训练的消除歧义模型，得到所述预设数量个意图槽位信息中的意图槽位信息对应的置信度信息；

基于所述置信度信息，从所述预设数量个意图槽位信息中提取表征所述用户询问的意图的目标意图槽位信息。

2.根据权利要求1所述的方法，其中，所述关联信息包括以下至少一种：所述用户的用户画像信息、所述用户相关的区域的区域基础信息、所述询问语句的分类信息，其中，所述分类信息基于预先训练的分类模型得到。

3.根据权利要求2所述的方法，其中，所述分类信息包括以下至少一项：情感分类信息、句式分类信息、语句标签信息，其中，所述情感分类信息基于预先训练的情感分析模型得到，所述句式分类信息基于预先训练的句式分析模型得到，所述语句标签信息基于预先训练的标签提取模型得到。

4.根据权利要求1所述的方法，其中，在所述从所述预设数量个意图槽位信息中提取表征所述用户询问的意图的目标意图槽位信息之后，所述方法还包括：

基于所述目标意图槽位信息和所述关联信息，生成所述询问语句的语义信息并输出所述语义信息。

5.根据权利要求1所述的方法，其中，所述将所述询问语句输入意图槽位识别模型，得到预设数量个意图槽位信息，包括：

将所述询问语句输入所述意图槽位识别模型，得到意图槽位信息集合，其中，所述意图槽位信息集合中的意图槽位信息对应于表征意图槽位信息的准确程度的分值；

基于所述分值的大小，从所述意图槽位信息集合中，提取预设数量个意图槽位信息。

6.根据权利要求1所述的方法，其中，所述将所述询问语句与预设语句库中的语句进行匹配，包括：

确定所述询问语句的句子向量；

确定所述询问语句的句子向量与所述预设语句库中的语句对应的句子向量之间的相似度；

对于所确定的各个相似度中的每个相似度，响应于确定所述相似度大于或等于预设相似度阈值，确定所述相似度对应的语句与所述询问语句匹配。

7.根据权利要求1-6之一所述的方法，其中，在所述确定所述预设语句库中是否存在与所述询问语句相匹配的语句之后，所述方法还包括：

响应于确定所述预设语句库中存在与所述询问语句相匹配的语句，输出与所述相匹配的语句对应的语义信息。

8.一种语义分析装置，包括：

第一获取模块，用于获取用户输入的询问语句；

匹配模块，用于将所述询问语句与预设语句库中的语句进行匹配；

确定模块，用于确定所述预设语句库中是否存在与所述询问语句相匹配的语句；

识别模块，用于如果不存在与所述询问语句相匹配的语句，将所述询问语句输入意图槽位识别模型，得到预设数量个意图槽位信息；

第二获取模块，用于获取所述询问语句的关联信息；

消除歧义模块，用于将所述询问语句、所述关联信息和所述预设数量个意图槽位信息输入预先训练的消除歧义模型，得到所述预设数量个意图槽位信息中的意图槽位信息对应的置信度信息；

提取模块，用于基于所述置信度信息，从所述预设数量个意图槽位信息中提取表征所述用户询问的意图的目标意图槽位信息。

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的方法。

10.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7任一所述的方法。