CN112100364A

CN112100364A - 文本语义理解方法和模型训练方法、装置、设备和介质

Info

Publication number: CN112100364A
Application number: CN201910458750.6A
Authority: CN
Inventors: 张致恺
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2020-12-18

Abstract

公开了一种文本语义理解方法和装置、计算机可读存储介质和电子设备，其中，文本语义理解方法包括：获取待处理文本的文本特征和主题特征；根据所述待处理文本的文本特征和主题特征，确定所述待处理文本的领域信息和意图信息；基于所述待处理文本的领域信息和意图信息，对所述待处理文本进行语义信息抽取，得到所述待处理文本的语义理解结果。本公开实施例利用文本的主题特征与文本特征结合，通过两种特征相互补充，可以获得更好的领域信息和意图信息，通过文本的主题特征可以在特征层级建立领域和意图的相关性，使所获得的领域和意图保持一致，从而可以获得更好的语义理解的效果。

Description

文本语义理解方法和模型训练方法、装置、设备和介质

技术领域

本公开涉及语音技术，尤其是一种文本语义理解方法和装置、模型训练方法和装置、计算机可读存储介质和电子设备。

背景技术

随着人工智能的普及，语音已成为人机交互的重要方式，而对自然语言的理解(Natural Language Understanding)则是实现人机交互的一个重要组成部分。语音识别将人类的语音识别为文字，语义理解则将语音识别得到的文字转换为一个机器能够看懂的结构化表达，以便后续进行人机交互。

发明内容

在实现本发明的过程中，本发明人通过研究发现，现有的文本语义理解方法通常仅利用文本的文本特征进行语义理解，往往忽略了文本的主题特征对于语义理解的作用，从而影响了语义理解的效果。

为了解决上述技术问题，本公开实施例提供了一种文本语义理解的技术方案和模型的训练的技术方案。

根据本公开实施例的一个方面，提供了一种文本语义理解方法，包括：

获取待处理文本的文本特征和主题特征；

根据所述待处理文本的文本特征和主题特征，确定所述待处理文本的领域信息和意图信息；

基于所述待处理文本的领域信息和意图信息，对所述待处理文本进行语义信息抽取，得到所述待处理文本的语义理解结果。

根据本公开实施例的另一个方面，提供了一种模型的训练方法，包括：

获取第一文本数据集，所述第一文本数据集中的文本标注有领域信息和意图信息；

确定所述第一文本数据集中至少一个第一文本的文本特征和主题特征；

基于所述至少一个第一文本的文本特征和主题特征，利用所述至少一个第一文本训练领域和意图分类模型。

根据本公开实施例的又一个方面，提供了文本语义理解装置，包括：

文本接收模块，用于获取待处理文本的文本特征和主题特征；

文本分类模块，用于根据所述文本接收模块获取的所述获取待处理文本的文本特征和主题特征，确定所述待处理文本的领域信息和意图信息；

信息抽取模块，用于基于所述文本分类模块得到的所述待处理文本的领域信息和意图信息，对所述待处理文本进行语义信息抽取，得到所述待处理文本的语义理解结果。

根据本公开实施例的再一个方面，提供了模型的训练装置，包括：

获取模块，用于获取第一文本数据集，所述第一文本数据集中的文本标注有领域信息和意图信息；

处理模块，用于确定所述获取模块获取的所述第一文本数据集中至少一个第一文本的文本特征和主题特征；

训练模块，用于基于所述处理模块得到的所述至少一个第一文本的文本特征和主题特征，利用所述至少一个第一文本训练领域和意图分类模型。

根据本公开实施例的再一个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一实施例所述的方法。

根据本公开实施例的再一个方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述任一实施例所述的方法。

基于本公开上述实施例提供的文本语义理解方法和装置、计算机可读存储介质和电子设备，通过获取待处理文本的文本特征和主题特征，根据待处理文本的文本特征和主题特征，确定待处理文本的领域信息和意图信息，基于待处理文本的领域信息和意图信息，对待处理文本进行语义信息抽取，得到待处理文本的语义理解结果，利用文本的主题特征与文本特征结合，通过两种特征相互补充，可以获得更好的领域信息和意图信息，同时由于相同领域的句子间具有相近的主题分布，相似意图的句子也具有相近的主题分布，文本的主题特征恰好与文本的领域和意图相契合，因此通过文本的主题特征可以在特征层级建立领域和意图的相关性，使所获得的领域和意图保持一致，从而可以获得更好的语义理解的效果。

基于本公开上述实施例提供的模型的训练方法和装置、计算机可读存储介质和电子设备，通过获取第一文本数据集，其中第一文本数据集中的文本标注有领域信息和意图信息，确定第一文本数据集中至少一个第一文本的文本特征和主题特征，基于至少一个第一文本的文本特征和主题特征，利用至少一个第一文本训练领域和意图分类模型，在训练领域和意图分类模型时考虑了文本的主题特征，通过将文本的主题特征与文本特征结合，利用两种特征相互补充，可以获得更好的领域信息和意图信息，同时由于相同领域的句子间具有相近的主题分布，相似意图的句子也具有相近的主题分布，文本的主题特征恰好与文本的领域和意图相契合，因此通过文本的主题特征可以在特征层级建立领域和意图的相关性，使所获得的领域和意图保持一致，从而可以获得更好的语义理解的效果。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开所适用的系统框图。

图2是本公开涉及的领域和意图分类模型的一个结构示意图。

图3是本公开一示例性实施例提供的文本语义理解方法的流程示意图。

图4是本公开图3所示实施例中步骤301的一个流程示意图。

图5是本公开图3所示实施例中步骤302的一个流程示意图。

图6是本公开图3所示实施例中步骤301的另一个流程示意图。

图7是本公开图3所示实施例中步骤301的又一个流程示意图。

图8是本公开图3所示实施例中步骤303的一个流程示意图。

图9是本公开一示例性实施例提供的文本语义理解装置的结构示意图。

图10是本公开另一示例性实施例提供的文本语义理解装置的结构示意图。

图11是本公开一示例性实施例提供的模型的训练方法的流程示意图。

图12是本公开图11所示实施例中步骤1103的一个流程示意图。

图13是本公开图11所示实施例中步骤1102的一个流程示意图。

图14是本公开图11所示实施例中步骤1102的另一个流程示意图。

图15是本公开一示例性实施例提供的模型的训练方法的流程示意图。

图16是本公开一示例性实施例提供的模型的训练装置的结构示意图。

图17是本公开另一示例性实施例提供的模型的训练装置的结构示意图。

图18是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

在实现本公开的过程中，发明人发现，现有技术中仅使用文本特征输入到一个深度学习模型，进行文本的语义理解。该语义理解方法至少存在一个问题：没有考虑到输入文本的主题信息，从而使得语义理解的效果大打折扣。

示例性系统

图1是本公开所适用的系统框图。如图1所示，该系统中包括两个阶段：训练阶段和预测阶段。在训练阶段，收集无监督文本语料，预处理后用于训练主题模型；收集标注数据，标注包括语义理解的领域意图以及语义项，利用该数据的领域意图标记用于训练领域意图层级分类模型(需要使用已训练好的主题模型)，利用该数据的语义项标记用于训练标注模型。在预测阶段，首先对文本输入预处理(例如，分词等处理)，使用训练好的主题模型对其进行主题推断，将文本和主题两大类特征放到领域意图层级分类模型中进行预测，得到领域和意图，将文本输入标注模型进行语义项抽取，最终输出全部语义理解结果。

图1所示的系统进行文本语义理解的过程包括以下步骤：训练阶段：步骤101：收集无监督文本语料，其中，无监督文本语料就是指没有经过数据标注的文本数据(即不知道该句子或者文档属于什么类别)，比如“我要听歌”“这句话、任意一篇新闻的文本内容、任意一条微博的内容等等，获取该无监督文本语料的来源可以来源于网络或其他包括文本的数据库等，例如，维基百科(wikipedia)、知乎、微博、扫描纸质文本(例如书籍、报刊)将其识别为文字、人工书写或使用爬虫从网络爬取等；步骤102：对用于训练主题模型的训练数据作预处理，例如分词等；步骤103：训练主题模型，主题模型的种类可以包括但不限于：隐含狄利克雷分布(LDA)，sentence-LDA，比特主题模型(Biterm Topic Model)以及任何其他自主研究出的主题模型；步骤104：收集标注数据，标注信息包括领域意图、语义项；步骤105：对数据作用于训练分类模型的预处理，例如分词等；步骤106：训练领域意图层级分类模型；步骤107：对数据作用于训练标注模型的预处理；步骤108：训练标注模型，可以选择条件随机场(CRF)模型、BiLSTM-CRF或者任何其他标注模型。预测阶段：步骤109：对测试文本作预处理(例如，分词等处理)；步骤1010：使用已经训练好的主题模型对输入文本作主题推断；步骤1011：使用文本和主题信息构建特征，进行领域意图层级分类预测；步骤1012：进行语义项抽取。例1，对以下句子进行预测：今天北京的天气，此时，步骤109：分词处理获得“今天”、“北京”、“的”、“天气”；步骤1010：[0.05,0.6,0.05,0,0.2](该向量中第二维表示天气这个主题，第五维表示政治这个主题，这只是列举的一个例子，实际中每一个维度自有其隐含的主题含义，可由主题模型自行学习得到，这里所说的天气和政治主题只是为了举例人为将其命名，这里只有5个维度也是方便举例，实际情况中一般主题数量可设为50，100，200等)；步骤1011：领域信息为天气，意图信息为查询天气；步骤1012：时间为今天，城市为北京。例2：对以下句子进行预测：周杰伦的青花瓷；此时，步骤109：分词处理获得“周杰伦”、“的”和“青花瓷”；步骤1010：[0.7，0.05，0.25，0，0](该向量中第一维表示音乐主题，第三维表示瓷器主题)；步骤1011：领域信息为音乐，意图信息为播放音乐；步骤1012：歌手为周杰伦，歌名为青花瓷。

图2是本公开涉及的领域和意图分类模型的一个结构示意图。如图2所示，文本特征分为词级文本特征和字符级文本特征，并且使用卷积来提取文本特征，而关于提取主题特征的主题模型，使用了LDA模型。这里需要明确，本发明中提取文本特征的操作不局限于卷积操作，主题模型的选择不局限于LDA模型，本实施例仅作示例。具体地，在词级文本特征部分，词向量维度为5(词向量的获取可以包括例如，假设词表有50000个词，每个词的词向量维度为128，一开始随机初始化一个50000*128的矩阵即可(按照某种分布随机生成，例如高斯分布等))，使用了卷积核大小为2，3，4(表示卷积核的高度分别为2，3，4，宽度为词向量维度)的卷积核各两个，然后作最大池化；在字符级文本特征部分，字符向量维度为5，使用了卷积核大小为3，4，5的卷积核各两个，然后作最大池化；在主题特征部分，LDA模型中的w表示输入文本中的每一个单词，θ表示最后推断出的文本的主题分布，z指主题；β是主题的单词分布这个多项式分布的超参数，有

服从以β为参数的狄利克雷分布，

α是文档的主题分布这个多项式分布的超参数，有θ服从以α为参数的狄利克雷分布，θ～Dir(α)；

是主题的单词分布，是一个多项式分布；K是主题的个数；N是当前文档中词语的个数；D是文档总数。然后对词级文本特征、字符级文本特征进行拼接，最后将拼接后的特征输入到全连接层(该全连接层包括dropout和softmax)，全连接层将拼接后的特征映射到样本标记空间，即可获得分类结果(对应领域和意图分类结果)。

示例性方法

图3是本公开一示例性实施例提供的文本语义理解方法的流程示意图。本实施例可应用在电子设备上，如图3所示，包括如下步骤：

步骤301，获取待处理文本的文本特征和主题特征。

其中，文本特征体现待处理文本中词语级和/或字符级的信息，而主题特征体现待处理文本整体对应的主题信息。

步骤302，根据待处理文本的文本特征和主题特征，确定待处理文本的领域信息和意图信息。

在一实施例中，领域信息体现该待处理文本属于的领域，例如，通过待处理文本对应的领域信息，确定该待处理文本属于音乐领域；意图信息体现该待处理文本的意图，例如，通过待处理文本对应的意图信息，确定该待处理文本的意图为听歌等。

步骤303，基于待处理文本的领域信息和意图信息，对待处理文本进行语义信息抽取，得到待处理文本的语义理解结果。

在一实施例中，基于领域信息和意图信息确定的语义理解结果，不仅包括文本中所有词语的内容理解，还结合了待处理文本整体对应的领域和意图，因此本实施例获得的语义理解结果更全面。

基于本公开上述实施例提供的文本语义理解方法，通过获取待处理文本的文本特征和主题特征，根据待处理文本的文本特征和主题特征，确定待处理文本的领域信息和意图信息，基于待处理文本的领域信息和意图信息，对待处理文本进行语义信息抽取，得到待处理文本的语义理解结果，利用文本的主题特征与文本特征结合，通过两种特征相互补充，可以获得更好的领域信息和意图信息，同时由于相同领域的句子间具有相近的主题分布，相似意图的句子也具有相近的主题分布，文本的主题特征恰好与文本的领域和意图相契合，因此通过文本的主题特征可以在特征层级建立领域和意图的相关性，使所获得的领域和意图保持一致，从而可以获得更好的语义理解的效果。

如图4所示，在上述图3所示实施例的基础上，步骤301可包括如下步骤：

步骤3011，通过领域和意图分类模型对待处理文本进行文本特征提取处理，得到待处理文本的文本特征。

可选地，可通过如图1所提供的系统中的领域意图层级分类模型实现对待处理文本进行文本特征提取处理，得到待处理文本的文本特征。

步骤3012，通过主题模型对待处理文本进行主题特征提取处理，得到待处理文本的主题特征。

可选地，可通过如图1所提供的系统中的主题模型实现对待处理文本进行主题特征提取处理，得到待处理文本的主题特征。

本实施例中通过领域和意图分类模型对待处理文本进行分解的特征提取，获得的文本特征可表示待处理文本分解为多个词语和/或字符的含义，实现获得待处理文本在细节上的特征；而通过主题模型获得的主题特征体现了待处理文本整体的含义，即实现获得待处理文本整体的特征，本实施例通过不同模型分别获得待处理文本的不同级别的特征，提高了对待处理文本语义理解的准确性。

如图5所示，在上述图3所示实施例的基础上，步骤302可包括如下步骤：

步骤3021，将待处理文本的主题特征输入领域和意图分类模型。

步骤3022，基于领域和意图分类模型对待处理文本进行领域分类和意图分类，得到待处理文本的领域信息和意图信息。

本实施例利用了宏观的主题信息对于领域意图分类的作用；本实施例通过主题模型推断出待处理文本的主题分布，主题分布属于宏观抽象的特征，例如，所有属于音乐领域的句子的主题分布中对应于音乐相关的主题所占比重较大，然后通过结合主题这一抽象的特征和文本这一具体、具象的语法特征这两种相互互补的信息，达到更好的领域意图分类效果。

如图6所示，在上述图3所示实施例的基础上，步骤301可包括如下步骤：

步骤3013，对待处理文本进行分词处理。

可选地，分词处理可以包括：对于英文需要按空格和标点分割，对于中文需要使用分词模型按照词语的边界进行分割，例如：“我爱北京天安门”经过分词处理，得到“我”、“爱”、“北京”和“天安门”。

步骤3014，根据分词处理后的待处理文本，获待处理文本的文本特征和主题特征。

由于中文常用汉字只有几千个，对于英文26字母加数字加符号加表情，可能出现的字符也就在百这个数量级，如果不使用词语将丢失很多信息，因此，本实施例通过对待处理文本进行分词处理，实现保留待处理文本中词语的含义，提高了对待处理文本进行语义理解的准确性。

可选地，文本特征包括：字符级文本特征和/或词语级文本特征；

此时，如图7所示，在上述图3所示实施例的基础上，步骤301获得文本特征的过程可包括如下步骤：

步骤3015，对分词处理后的待处理文本进行卷积处理，得到待处理文本的词语级文本特征。

步骤3016，对待处理文本进行卷积处理，得到待处理文本的字符级文本特征。

可选地，可通过如图2所示的网络结构的上两个分支结构实现获得待处理文本的词级文本特征和字符级文本特征，在获得待处理文本的词语级文本特征之前，需要对待处理文本进行分词处理，以获得该待处理文件中的每个词语，并针对每个词语进行特征提取，以获得词语级文本特征，例如，如图2所示的将“我要听周杰伦的稻香”分词处理后得到词语：“我”、“要”、“听”、“周杰伦”、“的”和“稻香”。而在获得待处理文本的字符级文本特征之前，不需要对待处理文本进行分词处理，直接对待处理文件中的每个文字进行特征提取，例如，如图2所示分别对“我要听周杰伦的稻香”中的每个字进行特征提取，获得字符级文本特征。本实施例通过分别对待处理文本进行两种处理获得不同级别的特征，实现更全面的获取待处理文本中的具体、具象的语法特征信息。

如图8所示，在上述图3所示实施例的基础上，步骤303可包括如下步骤：

步骤3031，将待处理文本的领域信息和意图信息输入标注模型。

步骤3032，基于标注模型对待处理文本进行语义信息抽取，得到待处理文本的语义理解结果。

可选地，本实施例可采用图1所示的标注模型，通过该标注模型对领域信息和意图信息进行语义抽取。本实施例在特征层级考虑到领域意图相关性；通过使用主题模型，获得主题这一隐变量的特征，与领域、意图这两个预测目标恰好契合，因为相同领域的句子间应具有相近的主题分布，相似意图的句子也应具有相近的主题分布，否则反之，通过结合领域信息和意图信息提高了语义理解的准确性。

本公开实施例提供的任一种文本语义理解方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种文本语义理解方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种文本语义理解方法。下文不再赘述。

示例性装置

图9是本公开一示例性实施例提供的文本语义理解装置的结构示意图。该实施例装置包括：

文本接收模块91，用于获取待处理文本的文本特征和主题特征。

文本分类模块92，用于根据文本接收模块获取91的待处理文本的文本特征和主题特征，确定待处理文本的领域信息和意图信息。

信息抽取模块93，用于基于文本分类模块92得到的待处理文本的领域信息和意图信息，对待处理文本进行语义信息抽取，得到待处理文本的语义理解结果。

基于本公开上述实施例提供的文本语义理解装置，利用文本的主题特征与文本特征结合，通过两种特征相互补充，可以获得更好的领域信息和意图信息，同时由于相同领域的句子间具有相近的主题分布，相似意图的句子也具有相近的主题分布，文本的主题特征恰好与文本的领域和意图相契合，因此通过文本的主题特征可以在特征层级建立领域和意图的相关性，使所获得的领域和意图保持一致，从而可以获得更好的语义理解的效果。

图10是本公开另一示例性实施例提供的文本语义理解装置的结构示意图。该实施例装置包括：文本接收模块91，包括：

文本特征提取单元911，用于通过领域和意图分类模型对待处理文本进行文本特征提取处理，得到待处理文本的文本特征；

主题特征提取单元912，用于通过主题模型对待处理文本进行主题特征提取处理，得到待处理文本的主题特征。

文本分类模块92，具体用于将待处理文本的主题特征输入领域和意图分类模型；基于领域和意图分类模型对待处理文本进行领域分类和意图分类，得到待处理文本的领域信息和意图信息。

可选地，文本接收模块91，可用于对待处理文本进行分词处理；根据分词处理后的待处理文本，获取待处理文本的文本特征和主题特征。

可选地，文本特征包括：字符级文本特征和/或词语级文本特征；文本接收模块91，具体用于对分词处理后的待处理文本进行卷积处理，得到待处理文本的词语级文本特征；对待处理文本进行卷积处理，得到待处理文本的字符级文本特征。

信息抽取模块93，包括：

信息输入单元931，用于将待处理文本的领域信息和意图信息输入标注模型；

语义理解单元932，基于标注模型对待处理文本进行语义信息抽取，得到待处理文本的语义理解结果。

图11是本公开一示例性实施例提供的模型的训练方法的流程示意图。本实施例可应用在电子设备上，如图11所示，包括如下步骤：

步骤1101，获取第一文本数据集。

其中，第一文本数据集中的第一文本标注有领域信息和意图信息。其中领域信息用于体现文本属于的领域，意图信息用于体现文本的意图，例如：文本1为：北京天气，其对应的领域信息为天气(weather)，意图信息为查询天气；文本2为：打电话给10086，其对应的领域信息为电话(phone)，意图信息为打电话。

步骤1102，确定第一文本数据集中至少一个第一文本的文本特征和主题特征。

步骤1103，基于至少一个第一文本的文本特征和主题特征，利用至少一个第一文本训练领域和意图分类模型。

现有的文本语义理解方法通常仅利用文本的文本特征进行语义理解，往往忽略了文本的主题特征对于语义理解的作用，从而影响了语义理解的效果，本实施例通过获取第一文本数据集，其中第一文本数据集中的文本标注有领域信息和意图信息，确定第一文本数据集中至少一个第一文本的文本特征和主题特征，基于至少一个第一文本的文本特征和主题特征，利用至少一个第一文本训练领域和意图分类模型，在训练领域和意图分类模型时考虑了文本的主题特征，通过将文本的主题特征与文本特征结合，利用两种特征相互补充，可以获得更好的领域信息和意图信息，同时由于相同领域的句子间具有相近的主题分布，相似意图的句子也具有相近的主题分布，文本的主题特征恰好与文本的领域和意图相契合，因此通过文本的主题特征可以在特征层级建立领域和意图的相关性，使所获得的领域和意图保持一致，从而可以获得更好的语义理解的效果。

如图12所示，在上述图11所示实施例的基础上，步骤1103可包括如下步骤：

步骤11031，通过领域和意图分类模型，基于至少一个第一文本的文本特征和主题特征，对至少一个第一文本进行领域预测和意图预测，得到领域预测信息和意图预测信息。

步骤11032，根据至少一个第一文本的领域预测信息和意图预测信息与至少一个第一文本标注的领域信息和意图信息之间的差异，对领域和意图分类模型进行训练。

本实施例中以第一文本标注的领域信息和意图信息作为监督信息，确定第一文本经过待训练的领域和意图分类模型获得的领域预测信息和意图预测信息与标注的领域信息和意图信息之间的差异，以该差异对待训练的领域和意图分类模型进行训练，提高了领域和意图分类模型对领域信息和意图信息提取的准确性。

如图13所示，在上述图11所示实施例的基础上，步骤1102可包括如下步骤：

步骤11021，对第一文本数据集中的至少一个第一文本进行分词处理。

步骤11022，根据分词处理后的至少一个第一文本，确定第一文本数据集中至少一个第一文本的文本特征和主题特征。

本实施例中的对第一文本的处理与图6所示的实施例中的对待处理文本的处理类似，实现了通过对第一文本进行分词处理，实现保留第一文本中词语的含义，提高了对第一文本进行语义理解的准确性。

在一个可选的实施例中，文本特征包括：字符级文本特征和/或词语级文本特征；

对分词处理后的至少一个第一文本进行卷积处理，得到至少一个第一文本的词语级文本特征；

对至少一个第一文本进行卷积处理，得到至少一个第一文本的字符级文本特征。

可选地，可通过如图2所示的网络结构的上两个分支结构实现获得第一文本的词级文本特征和字符级文本特征，在获得第一文本的词语级文本特征之前，需要对第一文本进行分词处理，以获得第一文件中的每个词语，并针对每个词语进行特征提取，以获得词语级文本特征，而在获得第一文本的字符级文本特征之前，不需要对第一文本进行分词处理，直接对第一文件中的每个文字进行特征提取，本实施例通过分别对第一文本进行两种处理获得不同级别的特征，实现更全面的获取第一文本中的具体、具象的语法特征信息。

如图14所示，在上述图11所示实施例的基础上，步骤1102可包括如下步骤：

步骤11023，通过领域和意图分类模型对至少一个第一文本进行文本特征提取处理，得到至少一个第一文本的文本特征。

步骤11024，通过主题模型对至少一个第一文本进行主题特征提取处理，得到至少一个第一文本的主题特征。

可选地，可参考图1所示的结构示意图中的训练阶段的步骤103、步骤106以及步骤103与步骤106之间的关联关系，本实施例通过结合主题模型获得的主题特征参与到对领域和意图分类模型的训练中，由于主题特征与领域、意图这两个预测目标恰好契合，通过结合主题模型，结合主题这一隐变量的特征提高了训练获得的领域和意图分类模型的性能。

可选地，步骤11024之前，还包括：

获取第二文本数据集，第二文本数据集中的文本不具有标注信息；利用第二文本数据集中的至少一个第二文本训练主题模型。

本实施例中，在利用主题模型对第一文本提取主题特征之前，利用无监督文本语料(对应第二文本数据集中的文本)对主题模型进行训练，其中，无监督文本语料就是指没有经过数据标注的文本数据(即不知道该句子或者文档属于什么类别)，比如“我要听歌”“这句话、任意一篇新闻的文本内容、任意一条微博的内容等等。

图15是本公开一示例性实施例提供的模型的训练方法的流程示意图。在上述图11所示实施例的基础上，该实施例方法还包括：

步骤1104，获取第三文本数据集，第三文本数据集中的文本标注有领域信息、意图信息和语义信息。

可选地，该第三文本数据集可采用图1所示的104中所提供的标注数据。

步骤1105，基于第三文本数据集中至少一个第三文本标注的领域信息和意图信息，利用至少一个第三文本训练标注模型。

在一个可选实施例中，步骤1105包括：

通过标注模型，基于至少一个第三文本标注的领域信息和意图信息，对至少一个第三文本进行语义抽取预测，得到抽取的语义预测信息；

根据至少一个第三文本的语义预测信息与至少一个第三文本标注的语义信息之间的差异，对标注模型进行训练。

可选地，本实施例中对标准模型的训练，可参照图1所示的步骤108中所提供的对标注模型的训练，通过第三文本对应的标注模型进行训练，该标注模型实现的是语义抽取功能，因此，以第三文本标注的语义信息作为监督信息，以第三文本标注的领域信息和意图信息作为待训练的标注模型的输入信息，以语义预测信息和标注的语义信息之间的差异获得标注模型的损失，以实现对标注模型的训练，由于标注模型的输入为标注信息，相对于以预测的领域信息和意图信息进行训练的方法，加快了训练速度。

本公开实施例提供的任一种模型的训练方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种模型的训练方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种模型的训练方法。下文不再赘述。

示例性装置

图16是本公开一示例性实施例提供的模型的训练装置的结构示意图。该实施例装置包括：

获取模块161，用于获取第一文本数据集，第一文本数据集中的文本标注有领域信息和意图信息。

处理模块162，用于确定获取模块获取的第一文本数据集中至少一个第一文本的文本特征和主题特征；

训练模块163，用于基于处理模块得到的至少一个第一文本的文本特征和主题特征，利用至少一个第一文本训练领域和意图分类模型。

本实施例提供的装置利用至少一个第一文本训练领域和意图分类模型，在训练领域和意图分类模型时考虑了文本的主题特征，通过将文本的主题特征与文本特征结合，利用两种特征相互补充，可以获得更好的领域信息和意图信息，同时由于相同领域的句子间具有相近的主题分布，相似意图的句子也具有相近的主题分布，文本的主题特征恰好与文本的领域和意图相契合，因此通过文本的主题特征可以在特征层级建立领域和意图的相关性，使所获得的领域和意图保持一致，从而可以获得更好的语义理解的效果。

该实施例提供的装置中，训练模块163，包括：

领域意图预测单元1631，用于通过领域和意图分类模型，基于至少一个第一文本的文本特征和主题特征，对至少一个第一文本进行领域预测和意图预测，得到领域预测信息和意图预测信息；

模型训练单元1632，用于根据至少一个第一文本的领域预测信息和意图预测信息与至少一个第一文本标注的领域信息和意图信息之间的差异，对领域和意图分类模型进行训练。

处理模块162，包括：

分词处理单元1621，用于对第一文本数据集中的至少一个第一文本进行分词处理；

特征确定单元1622，用于根据分词处理后的至少一个第一文本，确定第一文本数据集中至少一个第一文本的文本特征和主题特征。

在一个可选示例中，文本特征包括：字符级文本特征和/或词语级文本特征；

处理模块162，具体用于对分词处理后的至少一个第一文本进行卷积处理，得到至少一个第一文本的词语级文本特征；对至少一个第一文本进行卷积处理，得到至少一个第一文本的字符级文本特征。

处理模块162，还用于通过领域和意图分类模型对至少一个第一文本进行文本特征提取处理，得到至少一个第一文本的文本特征；获取第二文本数据集，利用第二文本数据集中的至少一个第二文本训练主题模型；通过主题模型对至少一个第一文本进行主题特征提取处理，得到至少一个第一文本的主题特征。

其中，第二文本数据集中的文本不具有标注信息。

本实施例提供的装置还包括：

第三数据获取模块164，用于获取第三文本数据集，第三文本数据集中的文本标注有领域信息、意图信息和语义信息；

标注模型训练模块165，基于第三文本数据集中至少一个第三文本标注的领域信息和意图信息，利用至少一个第三文本训练标注模型。

可选地，标注模型训练模块165，具体用于通过标注模型，基于至少一个第三文本标注的领域信息和意图信息，对至少一个第三文本进行语义抽取预测，得到抽取的语义预测信息；根据至少一个第三文本的语义预测信息与至少一个第三文本标注的语义信息之间的差异，对标注模型进行训练。

示例性电子设备

下面，参考图18来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图18图示了根据本公开实施例的电子设备的框图。

如图18所示，电子设备180包括一个或多个处理器181和存储器182。

处理器181可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备180中的其他组件以执行期望的功能。

存储器182可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器181可以运行所述程序指令，以实现上文所述的本公开的各个实施例的文本语义理解或模型的训练方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备180还可以包括：输入装置183和输出装置184，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备100或第二设备200时，该输入装置183可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置183可以是通信网络连接器，用于从第一设备100和第二设备200接收所采集的输入信号。

此外，该输入设备183还可以包括例如键盘、鼠标等等。

该输出装置184可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备184可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图18中仅示出了该电子设备180中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备180还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的文本语义理解或模型的训练方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的文本语义理解或模型的训练方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种文本语义理解方法，包括：

获取待处理文本的文本特征和主题特征；

2.根据权利要求1所述的方法，其中，所述获取待处理文本的文本特征和主题特征，包括：

通过领域和意图分类模型对所述待处理文本进行文本特征提取处理，得到所述待处理文本的文本特征；

通过主题模型对所述待处理文本进行主题特征提取处理，得到所述待处理文本的主题特征。

3.根据权利要求2所述的方法，其中，所述根据所述待处理文本的文本特征和主题特征，确定所述待处理文本的领域信息和意图信息，包括：

将所述待处理文本的主题特征输入所述领域和意图分类模型；

基于所述领域和意图分类模型对所述待处理文本进行领域分类和意图分类，得到所述待处理文本的领域信息和意图信息。

4.根据权利要求2或3所述的方法，其中，所述获取所述待处理文本的文本特征和主题特征，包括：

对所述待处理文本进行分词处理；

根据所述分词处理后的待处理文本，获取所述待处理文本的文本特征和主题特征。

5.根据权利要求4所述的方法，其中，所述文本特征包括：字符级文本特征和/或词语级文本特征；

所述获取所述待处理文本的文本特征，包括：

对所述分词处理后的待处理文本进行卷积处理，得到所述待处理文本的词语级文本特征；

对所述待处理文本进行卷积处理，得到所述待处理文本的字符级文本特征。

6.根据权利要求1至5中任意一项所述的方法，其中，所述基于所述待处理文本的领域信息和意图信息，对所述待处理文本进行语义信息抽取，包括：

将所述待处理文本的领域信息和意图信息输入标注模型；

基于所述标注模型对所述待处理文本进行语义信息抽取，得到所述待处理文本的语义理解结果。

7.一种模型的训练方法，包括：

8.根据权利要求7所述的方法，其中，所述基于所述至少一个第一文本的文本特征和主题特征，利用所述至少一个第一文本训练领域和意图分类模型，包括：

通过所述领域和意图分类模型，基于所述至少一个第一文本的文本特征和主题特征，对所述至少一个第一文本进行领域预测和意图预测，得到领域预测信息和意图预测信息；

根据所述至少一个第一文本的领域预测信息和意图预测信息与所述至少一个第一文本标注的领域信息和意图信息之间的差异，对所述领域和意图分类模型进行训练。

9.根据权利要求7所述的方法，其中，所述确定所述第一文本数据集中至少一个第一文本的文本特征和主题特征，包括：

对所述第一文本数据集中的至少一个第一文本进行分词处理；

根据所述分词处理后的至少一个第一文本，确定所述第一文本数据集中至少一个第一文本的文本特征和主题特征。

10.根据权利要求9所述的方法，其中，所述文本特征包括：字符级文本特征和/或词语级文本特征；

对所述分词处理后的至少一个第一文本进行卷积处理，得到所述至少一个第一文本的词语级文本特征；

对所述至少一个第一文本进行卷积处理，得到所述至少一个第一文本的字符级文本特征。

11.根据权利要求7至10中任意一项所述的方法，其中，所述确定所述第一文本数据集中至少一个第一文本的文本特征和主题特征，包括：

通过所述领域和意图分类模型对所述至少一个第一文本进行文本特征提取处理，得到所述至少一个第一文本的文本特征；

通过主题模型对所述至少一个第一文本进行主题特征提取处理，得到所述至少一个第一文本的主题特征。

12.根据权利要求11所述的方法，其中，所述通过主题模型对所述至少一个第一文本进行主题特征提取处理之前，还包括：

获取第二文本数据集，所述第二文本数据集中的文本不具有标注信息；

利用所述第二文本数据集中的至少一个第二文本训练所述主题模型。

13.根据权利要求7至12中任意一项所述的方法，其中，所述基于所述至少一个第一文本的文本特征和主题特征，利用所述至少一个第一文本训练领域和意图分类模型之后，还包括：

获取第三文本数据集，所述第三文本数据集中的文本标注有领域信息、意图信息和语义信息；

基于所述第三文本数据集中至少一个第三文本标注的领域信息和意图信息，利用所述至少一个第三文本训练标注模型。

14.根据权利要求13所述的方法，其中，所述基于所述第三文本数据集中至少一个第三文本标注的领域信息和意图信息，利用所述至少一个第三文本训练标注模型，包括：

通过所述标注模型，基于所述至少一个第三文本标注的领域信息和意图信息，对所述至少一个第三文本进行语义抽取预测，得到抽取的语义预测信息；

根据所述至少一个第三文本的语义预测信息与所述至少一个第三文本标注的语义信息之间的差异，对所述标注模型进行训练。

15.一种文本语义理解装置，包括：

文本分类模块，用于根据所述文本接收模块获取的所述待处理文本的文本特征和主题特征，确定所述待处理文本的领域信息和意图信息；

16.一种模型的训练装置，包括：

17.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1至14中任意一项所述的方法。

18.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1至14中任意一项所述的方法。