CN110457689A

CN110457689A - 语义处理方法及相关装置

Info

Publication number: CN110457689A
Application number: CN201910681184.5A
Authority: CN
Inventors: 郑新; 李直旭; 陈志刚
Original assignee: Hkust Technology (suzhou) Technology Co Ltd
Current assignee: Hkust Technology (suzhou) Technology Co Ltd
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2019-11-15
Anticipated expiration: 2039-07-26
Also published as: CN110457689B

Abstract

本申请实施例公开了一种语义处理方法及相关装置，方法包括：获取待处理语句以及所述待处理语句中实体的表征向量；基于所述表征向量对所述待处理语句进行槽值抽取，得到所述待处理语句的槽值信息；基于所述表征向量对所述待处理语句进行领域分类，得到所述待处理语句的领域分类信息；基于所述槽值信息和所述领域分类信息生成所述待处理语句的语义信息。通过本申请实施例，可以有效提升语义处理的准确率。

Description

语义处理方法及相关装置

技术领域

本申请涉及电子设备技术领域，具体涉及一种语义处理方法及相关装置。

背景技术

随着人工智能技术的不断突破和各种智能终端的设备的日益普及，人机交互在人们日常工作和生活中出现的频率越来越高。语音交互作为最便捷的交互方式之一，已经成为人机交互的重要手段。人机交互对话系统被应用在各种智能终端设备汇总，如：电视、手机、车载终端、智能家居等。然而在人机交互对话系统中如何理解用户的意图(对语句进行领域分类)，以及关键信息的提取，即语义理解是最关键的技术。

现有的语义理解方法，多采用模板+文法的方案，利用固定的句式和正则匹配对用户输入的句子进行解析，如果能和某一业务匹配，并成功的提取出槽值，那么则会响应，否则拒识；部分业务如“音乐”、“导航”、“订票”中的槽值抽取，则采用深度学习中的序列标注方案，通过构建合适的训练集训练出NLU 模型对输入句子的每个词进行打标签，常用的有“BOIE”方式。

但是，现有的语义理解方法，在针对一些带有错误信息的问题的语句的理解不具有主动拒识和过滤的功能，从而导致语义理解时会和实际语义有偏差。

发明内容

本申请实施例提供了一种语义处理方法及相关装置，可以有效提升语义处理的准确率。

第一方面，本申请实施例提供一种语义处理方法，包括：

获取待处理语句以及所述待处理语句中实体的表征向量；

基于所述表征向量对所述待处理语句进行槽值抽取，得到所述待处理语句的槽值信息；

基于所述表征向量对所述待处理语句进行领域分类，得到所述待处理语句的领域分类信息；

基于所述槽值信息和所述领域分类信息生成所述待处理语句的语义信息。

第二方面，本申请实施例提供一种语义处理装置，包括处理单元和通信单元，其中，

所述处理单元，用于通过所述通信单元获取待处理语句以及所述待处理语句中实体的表征向量，以及用于基于所述表征向量对所述待处理语句进行槽值抽取，得到所述待处理语句的槽值信息；以及用于基于所述表征向量对所述待处理语句进行领域分类，得到所述待处理语句的领域分类信息；以及用于基于所述槽值信息和所述领域分类信息生成所述待处理语句的语义信息。

第三方面，本申请实施例提供一种电子设备，包括处理器、存储器、通信接口以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。

第五方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出，本申请实施例中，电子设备可以通过获取待处理语句以及所述待处理语句中实体的表征向量；然后基于所述表征向量对所述待处理语句进行槽值抽取和领域分类，分别得到所述待处理语句的槽值信息和领域分类信息；最后，基于所述槽值信息和所述领域分类信息生成所述待处理语句的语义信息。由于表征向量中包含了待处理语句中实体的信息，以及实体与实体之间的关系信息；所以基于表征向量得到槽值分类信息和领域分类信息后，通过槽值分类信息和领域分类信息得到的待处理语句可以对有效的过滤待处理语句中的一些错误信息，从而使得到的语义理解更准确。因此通过本申请实施例可以有效提升语义处理的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1是本申请实施例提供的一种语义处理系统的示意图；

图2a是本申请实施例提供的一种语义处理方法的流程示意图；

图2b是本申请实施例提供的一种TransE模型构建知识图谱的原理示意图；

图2c是本申请实施例提供的一种槽值抽取模型示意图；

图2d是本申请实施例提供的一种领域分类模型示意图；

图3本申请实施例提供的一种电子设备的结构示意图；

图4本申请实施例提供的一种语义处理装置的功能单元组成框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，图1为一个语义处理系统100的示意图，该语义处理系统100 包括语句获取装置110、语句处理装置120，所述语句获取装置110连接所述语句处理装置120，语句获取装置110用于获取待处理语句并发给语句处理装置 120进行处理，语句处理装置120用于对语句进行处理并输出处理结果，该语义处理系统100可以包括集成式单体设备或者多设备，为方便描述，本申请将语义处理系统100统称为电子设备。显然该电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(User Equipment，UE)，移动台(Mobile Station，MS)，终端设备(terminal device)等等。

语义理解(natural language understanding，NLU)作为自然语言处理领域中最重要的一环，被广泛应用于对话系统，智能问答系统等。对于用户输入的一段自然语言文本，一个优秀的NLU模块能准确的判断出该句所处的领域(domain) 以及其中关键的词槽(slot)，例如“我想去北京三里屯”该句属于导航领域、目的地槽为“北京三里屯”。

目前语义理解方法，多采用模板+文法的方案，利用固定的句式和正则匹配对用户输入的句子进行解析。然而上述无论是用文法还是模型的方法都存在一个问题：进行语义理解的时候，模型关注的更多的是句式层面的信息，却忽略了句子中的一些实体关键信息，导致语义理解过分依赖句式。例如“我想去看万里长城，好不好？”，现有的NLU模型把该句会当成一个电影评分查询，电影名为“万里长城”。

为此，针对现有语义理解方案没利用到实体本身信息而导致语义理解出现错误的问题，本申请实施例提出了一种基于实体表征的语义理解方法，下面对本申请实施例进行详细介绍。

请参阅图2a，图2a是本申请实施例提供了一种语义处理方法的流程示意图，应用于如图1所示的电子设备，如图所示，本语义处理方法包括：

201：电子设备获取待处理语句以及所述待处理语句中实体的表征向量。

其中，所述实体是指所述待处理语句中定的事实信息，例如：时间、组织机构、人物以及武器等。所述表征向量为对所述实体进行知识表示学习后包含该实体的语义信息的稠密低维实值的向量。知识表示学习主要是面向知识图谱中的实体和关系进行表示学习。使用建模方法将实体和向量表示在低维稠密向量空间中，然后进行计算和推理。因此所述表征向量不仅包含实体的语义信息，还包含实体与实体之间的关系信息。

具体实现中，所述待处理语句可以是所述电子设备接收的用户的语音对应的语句；例如在问答系统或对话系统中，接收到用户的语音信息后，将语音信息转换为与该语音信息对应的文本语句。所述待处理语句也可以是用户通过输入设备输入的语句；例如在用户通过电子设备上网搜索信息时，搜索装置接收的用户通过输入设备(例如键盘)输入的搜索语句。然后通过实体字典匹配的方式从所述待处理语句中抽取所述实体。最后，从存储所述表征向量的数据库中提取与所述实体对应的表征向量。

202：电子设备基于所述表征向量对所述待处理语句进行槽值抽取，得到所述待处理语句的槽值信息。

其中，所述槽值信息中包括所述待处理语句中每个字的槽值分类标签。

所述槽值分类标签包括位置信息和槽值类别，所述位置信息为在满足预设条件的所有字中的位置，所述预设条件为所述待处理语句中与该字属于相同槽值类别的字。例如，假设待处理语句为：“听刘X1X2的歌曲一”，该语句经过所述槽值抽取的操作后，得到每个字的槽值分类标签分别为：听(O)、刘(B,a)、 X1(I,a)、X2(E,a)、的(O)、歌(B,s)、曲(I,s)、一(E,s)。其中， O表示不属于任何槽值分类；B、I、E为位置信息，分别表示开始、中间、结尾， s和a属于槽值分类，分别表示歌曲类和歌手类。

在具体实现中，所述电子设备可以将所述待处理语句和所述表征向量作为输入，通过训练好的神经网络模型来对所述待处理语句进行槽值抽取，输出所述待处理语句中每个字的槽值分类标签。

203：电子设备基于所述表征向量对所述待处理语句进行领域分类，得到所述待处理语句的领域分类信息。

其中，所述待处理语句的领域分类信息包括所述待处理语句的领域分类标签。

所述领域分类标签可以使用预设的符号或文字来表示预设的领域分类。例如直接使用导航、音乐、天气、视频、订票等，来表示所述预设的领域分类。又例如可以使用字母A、B、C、D…等来表示预设的领域分类。

在具体实现中，所述电子设备可以将所述待处理语句和所述表征向量作为输入，通过训练好的神经网络模型来对所述待处理语句进行领域分类，输出所述待处理语句的领域分类标签。

204：电子设备基于所述槽值信息和所述领域分类信息生成所述待处理语句的语义信息。

其中，所述语义信息包括所述待处理语句的槽值以及领域分类。所述槽值可以理解为关键词。

在具体实现中，所述电子设备根据每个字的槽值分类标签从所述待处理语句中提取关键字以及该关键字所属的类别，从而得到所述待处理语句的槽值。然后根据得到的槽值和领域分类标签生成所述语义信息。

例如，待处理语“听刘X1X2的歌曲一”中，每个字的槽值分类标签分别为：听(O)、刘(B,a)、X1(I,a)、X2(E,a)、的(O)、歌(B,s)、曲(I,s)、一(E,s)，且该待处理语句的领域分类标签为“音乐”。则可以根据该待处理语句中每个字的槽值分类标签得到该待处理语句的槽值为“歌手：刘 X1X2”“歌曲：歌曲一”。最后得到该待处理语句的语义信息为：领域分类： “音乐”；槽值：“歌手：刘X1X2”“歌曲：歌曲一”。

由于所述表征向量包含了所述待处理语句中的实体信息以及实体与实体之间的信息，所以在通过所述表征向量对所述待处理语句进行槽值抽取以及领域分类的过程中，会根据所述表征向量中包含的实体信息以及实体与实体之间的信息过滤掉待处理语句中包含的一些错误信息，从而使得到的所述待处理语句的槽值信息更加准确。

例如，对于待处理语句“我想去看万里长城，好不好”。在传统的语义处理中，可能会把该待处理语句当成一个电影评分查询，电影名为“万里长城”。这是由于传统的语义处理方法更多的是注重句式层面的信息，而忽略了句子中实体的关键信息导致的。在本申请实施例中，由于引入了待处理语句中实体表征向量，相当于提前知道了实体万里长城的属于名胜古迹，因此在对上述待处理语句进行语义处理的时候则不会出现传统语义处理方法出现的错误。

在本申请可能的示例中，所述槽值信息包括所述待处理语句中每个字的槽值分类标签；所述电子设备基于所述表征向量对所述待处理语句进行槽值抽取，得到所述待处理语句的槽值信息，包括：所述电子设备对所述待处理语句进行预处理，得到所述语句中每个字的第一特征向量；基于每个字的第一特征向量和所述表征向量，确定所述待处理语句中每个字的槽值分类标签。

在具体实现中，所述预处理是指对所述待处理语句中的字进行特征提取，以得到待处理语句中每个字的包含字特征信息的第一特征向量。然后通过包含字特征信息的第一特征向量以及包含实体外部知识(即实体信息，以及实体与实体之间的关系信息)的表征向量来进一步确定所述待处理语句中每个字的槽值分类标签。

在本申请可能的示例中，所述电子设备对所述待处理语句进行预处理，得到所述语句中每个字的第一特征向量，包括：所述电子设备将所述待处理语句的每个字向量化，得到每个字的第一字向量；以及所述电子设备基于所述待处理语句中每个字的第一字向量，确定每个字的第一特征向量。

在具体实现过程中，将所述待处理语句中每个字向量化可以采用目前已有的字向量化工具，例如word2vec、gensim、fasttext等工具，还可使用已有的使字向量化的方法，本申请实施例不作限定。另外，在得到所述待处理语句中每个字的第一字向量后，可以使用双向长短期记忆神经网络对所述每个字的第一字向量进行特征提取得到所述每个字的第一特征向量。

在本申请可能的示例中，所述电子设备基于每个字的第一特征向量和所述表征向量，确定所述待处理语句中每个字的槽值分类标签，包括：所述电子设备基于每个字的第一特征向量和所述表征向量计算每个字针对所述表征向量的第一表达向量；以及基于每个字的第一表达向量和第一特征向量，确定每个字的槽值分类的概率分布；根据每个字的槽值概率分布确定每个字的槽值分类标签。

其中，所述第一表达向量表征了以所述待处理语句中的字为参考后所述表征向量的注意力数值。由于所述表征向量为所述待处理语句中实体的表征向量，且所述表征向量中包含的是实体信息，因此每个字的第一表达向量也可以理解为该字对于所述待处理语句中实体的注意力数值(attention数值)。

在具体实现中，所述电子设备基于每个字的第一特征向量和所述表征向量计算每个字针对所述表征向量的第一表达向量具体可以包括：所述电子设备以所述每个字的第一特向量和所述表征向量为输入，通过注意力机制模型后，输出以所述每个字的第一特征向量为参考后的所述表征向量的注意力数值，即输出所述第一表达向量。

在具体实现中，在得到每个字的第一表达向量后，所述电子设备将每个字的第一表达向量和第一特征向量进行拼接后作为输入，经过条件随机场模型，输出每个字的槽值分类的概率分布和该字对应的位置信息。最后所述电子设备将每个字的概率分布中最大概率对应的槽值分类确定为该字的槽值分类，并根据每个字的位置信息和槽值分类得到每个字的槽值分了标签。其中该字对应的位置信息为在满足预设条件的所有字中的位置，所述预设条件为所述待处理语句中与该字属于相同槽值分类的字。

在本申请可能的示例中，所述电子设备基于每个字的第一特征向量和所述表征向量计算每个字针对所述表征向量的第一表达向量，包括：所述电子设备根据每个字的第一特征向量和所述表征向量计算每个字对于所述表征向量中每个向量的第一权重向量；以及针对每个字，根据该字的第一权重向量和所述表征向量进行加权求和，得到所述每个字的第一表达向量。

在具体实现中，所述计算所述第一权重向量的公式如下：

其中，所述h_t表示第t个字的第一特征向量，所述kb_j表示第j个表征向量，所述a()表示评分函数，所述L表示所述表征向量的个数，所述a_ti表示第t个字的第一特征向量相对于第i个表征向量的的权重系数。

在具体实现中，所述加权求和的计算公式如下：

其中，所述a_tj表示第t个字的第一特征向量相对于第j个表征向量的的权重系数，所述kb_j表示第j个表征向量，所述L表示所述表征向量的个数，所述KB_t表示第t个字的第一表达向量。

进一步的，所述第一表达向量和第一特征向量进行拼接可以表示为：

A_t＝[h_t,KB_t]

在本申请可能的示例中，所述领域分类信息包括所述待处理语句领域分类标签；所述电子设备基于所述表征向量对所述待处理语句进行领域分类，得到所述待处理语句的领域分类信息，包括：所述电子设备对所述待处理语句进行预处理，得到所述待处理语句的语句表达；以及基于所述待处理语句的语句表达和所述表征向量，确定所述待处理语句的领域分类标签。

其中，所述待处理语句的表达是指对所述待处理语句进行特征提取后得到的包含所述待处理语句的特征信息的向量。

在具体实现中，所述对所述待处理语句进行预处理，得到所述待处理语句的语句表达可以通过预设的神经网络模型来实现，即将所述待处理语句作为输入，通过所述预设的神经网络模型，输出所述语句表达。在得到所述待处理语句的语句表达后，所述电子设备通过引入包含所述待处理语句中实体信息的表征向量来进一步确定所述待处理语句的领域分类标签。

在本申请可能的示例中，所述电子设备对所述待处理语句进行预处理，得到所述待处理语句的语句表达，包括：所述电子设备将所述待处理语句的每个字向量化，得到每个字的第二字向量；以及基于所述待处理语句中每个字的第二字向量，确定所述待处理语句的语句表达。

在具体实现过程中，将所述待处理语句中每个字向量化可以采用目前已有的字向量化工具，例如word2vec、gensim、fasttext等工具，还可使用已有的使字向量化的方法，本申请实施例不作限定。另外，在得到所述待处理语句中每个字的第二字向量后，可以使用双向长短期记忆神经网络对所述每个字的第一字向量进行特征提取得到所述每个字的第二特征向量，然后将每个字的第二特征向量进行拼接后得到所述待处理语句的表达。

在本申请可能的示例中，所述电子设备基于所述待处理语句的语句表达和所述表征向量，确定所述待处理语句的领域分类标签，包括：所述电子设备基于所述待处理语句的语句表达和所述表征向量计算所述待处理语句的第二表达向量；以及基于所述第二表达向量和所述待处理语句的语句表达确定所述待处理语句的领域分类标签。

其中，所述第二表达向量表征了以所述待处理语句为参考后所述表征向量的注意力数值。

在具体实现中，所述电子设备基于所述待处理语句的语句表达和所述表征向量计算所述待处理语句的第二表达向量具体可以包括：所述电子设备以所述待处理语句的语句表达和所述表征向量为输入，通过注意力机制模型后，输出以所述语句表达为参考后的所述表征向量的注意力数值(attention数值)，即输出所述第二表达向量。

在具体实现中，在得到所述待处理语句的第二表达向量后，所述电子设备将所述第二表达向量和语句表达进行拼接后作为输入，经过分类器，输出所述待处理语句的领域分类标签。

在本申请可能的示例中，所述电子设备基于所述待处理语句的语句表达和所述表征向量计算所述待处理语句的第二表达向量，包括：所述电子设备根据所述待处理语句的语句表达和所述表征向量计算所述待处理语句对于所述表征向量中每个向量的第二权重向量；以及根据所述待处理语句的第二权重向量和所述表征向量进行加权求和，得到所述第二表达向量。

在具体实现中，所述计算所述第二权重向量的公式如下：

其中，所述H表示第所述待处理语句的语句表达，所述kb_j表示第j个表征向量，所述a()表示评分函数，所述L表示所述表征向量的个数，所述a_i表示所述语句表达相对于第i个表征向量的的权重系数。

在具体实现中，所述加权求和的计算公式如下：

其中，所述a_i表示所述语句表达相对于第i个表征向量的的权重系数，所述 kb_j表示第j个表征向量，所述L表示所述表征向量的个数，所述KB表示所述待处理语句的第二表达向量。

进一步的，所述第二表达向量和语句表达进行拼接可以表示为：

H′＝[H,KB]

在本申请可能的示例中，所述电子设备获取待处理语句以及所述待处理语句中实体的表征向量，包括：所述电子设备获取所述待处理语句；以及抽取所述待处理语句中的实体；以及从额外知识库获取所述实体的表征向量。

在具体实现中，所述电子设备获取到上述待处理语句后，可以采用词典匹配的方式对所述待处理语句中的实体进行抽取，然后根据抽取出的实体从所述额外知识库中获取到与被抽取出的实体对应的表征向量。

其中，所述额外知识库为基于三元组知识库使用知识表示学习模型构建知识图谱得到的表征向量集合，所述三元组知识库中包括至少一个三元组，所述三元组包括实体对以及所述实体对的两个实体之间的关系。

在具体实现中，所述知识表示学习旨在将研究对象的语义信息表示为稠密低维实值向量，知识表示学习主要是面向知识图谱中的实体和关系进行表示学习。使用建模方法将实体和向量表示在低维稠密向量空间中，然后进行计算和推理。”知识表示学习模型的几个代表模型包括：距离模型、单层神经网络模型、能量模型、双线性模型、张量神经网络模型、矩阵分解模型和翻译模型等。” 其中翻译模型包括TransE、TransH、transG等。

下面以TtransE模型为例对所述基于三元组知识库使用知识表示学习模型构建知识图谱得到的表征向量集合进行说明：

知识图谱，顾名思义就是将自然界中的实体进行连接，构建成一个图(graph)，图中的每个节点就是一个实体，每条边就是对应的两个实体之间的关系，或者说是一个事实；而transE将每个三元组实例<head、relation、tail>中的关系relation 看做从头实体head到尾实体tail的一种向量相加，如图2b所示，通过不断调整 h、r和t(head、relation和tail向量)，使(h+r)尽可能与t相等，即h+r趋向于t，其详细的原理申请实施例不做过多赘述，实现过程与现有的方案无异。

所述三元组知识库的构建需要依托于现有的结构化文本数据，如WordNet、Freebase、Dbpedia等，而中文与实体相关的知识库构建则需要利用到维基百科、百度百科、互动百科等进行处理后得到，以音乐领域为例：

1)收集大量音乐人物的百科页面信息，如“刘X1X2”、“张YY”；

2)将页面下的基本信息框解析整理成如下三元组形式：

如<刘X1X2、妻子、朱CC>，<刘X1X2、女儿、刘CC>，<刘X1X2、作品、电影一>，<刘X1X2、作品、电影二>等样式，从基本信息框中抽取的客体本身应该也是一个主体，而且是百科词条中的一个词语，也就是说三元组其实是一个双向关系。

在本申请可能的示例中，所述槽值抽取的操作基于训练好的槽值抽取模型来实现；所述槽值抽取模型的训练包括：对训练样本集的每条训练样本语句中的每个字进行槽值分类标注；从所述训练样本集的训练样本语句中抽取训练样本实体；从额外知识库中获取所述训练样本实体的表征向量；使用标注后的训练样本语句和所述训练样本实体的表征向量训练槽值抽取模型的目标函数，得到所述训练好的槽值抽取模型。

参考图2c，该图为槽值抽取模型示意图。所述槽值抽取模型包括第一表示层、第一双向长短期记忆Bilstm层、第一注意力机制ATT层、条件随机场CRF 层、输出层。

在具体实现中，所述第一表示层用于实现所述将所述待处理语句的每个字向量化，得到每个字的第一字向量的操作步骤；所述第一双向长短期记忆Bilstm 层用于实现所述基于所述待处理语句中每个字的第一字向量，确定每个字的第一特征向量的操作步骤；所述第一注意力机制ATT层用于实现基于每个字的第一特征向量和所述表征向量计算每个字针对所述表征向量的第一表达向量的操作步骤；所述条件随机场CRF层用于实现所述基于每个字的第一表达向量和第一特征向量，确定每个字的槽值分类的概率分布的步骤；所述输出层用于实现所述根据每个字的槽值概率分布确定每个字的槽值分类标签的操作步骤。

其中，所述训练样本集中的每条训练样本为包含至少一个实体训练样本语句。

在本申请可能的示例中，所述知识表示学习模型为翻译模型；在所述从所述额外知识库中获取所述训练样本实体的表征向量之前，所述方法还包括：根据所述训练样本实体构建训练样本实体对集合，所述训练样本实体对集合的每个实体对中的两个实体不存在重合的部分；基于所述训练样本实体对和所述三元组知识库构建正三元组集合和反三元组集合，所述正三元组集合和所述反三元组集合中每个三元组的实体对为所述训练样本实体对集合中存在的实体对，所述正三元组集合中的三元组为所述三元组知识库中存在的三元组，所述反三元组集合中的三元组为所述知识库中不存在的三元组；基于所述正三元组集合和所述反三元组集合，对所述翻译模型进行再训练，以更新所述额外知识库中所述训练样本实体的表征向量。

在本申请实施例中，在采用翻译模型构建知识图谱，得到所述额外知识库的过程中，所述翻译模型可以直接使用所述三元组知识库中的三元组进行训练。而对于所述翻译模型的训练，在训练时是随机将三元组中的头实体或尾实体进行替换从而得到反三元组(在返三元组中的两个实体不存在关系)作为反例对翻译模型进行训练。这种随机替换三元组中头实体或尾实体得到返三元组作为反例的方案，可能会使所述翻译模型对一些返三元组的训练遗漏，或出现错误的返三元组，从而导致得到的表征向量不够准确。

为了解决上述额外知识库中的表征向量不够精准的问题，在本申请实施例中，采用结合槽值抽取模型和翻译模型联合训练的方式，对所述槽值抽取模型进行训练。具体的，在使用训练样本集对所述槽值抽取模型进行训练时，使用从所述训练样本集的训练样本语句中抽取出来的实体组成的三元组(包括正三元组合返三元组)对所述额外知识库进行更新，即使得额外知识库中的表征向量能够更加精准的表征实体。

下面以所述翻译模型为TransE为例，对所述联合训练的过程进行进一步说明：

1)首先对所述训练样本集中的每一条训练样本语句进行实体抽取，实体抽取可以采用字典匹配的范式；

2)然后根据抽取到的实体构建实体对(pair)；其中，构建的实体对中两个实体不能存在重合的部分。例如对于训练样本语句“听刘X1X2的歌曲一” 中抽取到实体“刘德”、“刘X1X2”、“歌曲一”，可以组成实体对：<刘X1、歌曲一>、<刘X1X2、歌曲一>，而实体“刘X1”和“刘X1X2”中存在重合的部分，所以不能构建成实体对。

3)接着根据所述三元组知识库将所述实体对构建成三元组的形式得到正三元组集合和返三元组集合，其中，若根据所述三元组知识库查询到上述实体对中的连个实体存在关系，则直接使用所述知识库中该实体对对应的三元组，若根据所述三元组知识库查不到所述实体对的两个实体之间存在关系，则将该实体对的关系使用NA表示，构成无关系的反三元组。如<刘X1、NA、歌曲一>， NA表示实体间没有任何关系。

4)再接着基于所述正三元组集合和所述反三元组集合，对所述TransE进行再训练，以更新所述额外知识库中所述训练样本实体的表征向量。

5)最后，使用更新后的额外知识库和标注后的训练样本语句训练槽值抽取模型的目标函数，得到所述训练好的槽值抽取模型。

由于构建的知识图谱采用transE的训练方式，其训练集都是当前已有的事实类三元组，训练目标是将h+r尽可能的趋向于t，这就导致两个实体如果本身不在训练集中，他们之间的关系可近可远，为了充分发挥transE模型的效果，我们通过将槽值抽取模型和transE模型进行联合训练，在训练语义理解的同时充分利用NA“无关类”三元组，使得训练目标变为在正例(正三元组)中使得h+ r尽可能的趋向于t，而无关类(返三元组)中h+r尽可能的远离t；相当于正反例训练。

在具体实现中，联合训练时transE模型的损失函数为：

其中，其中S是知识库中的三元组集合，S′是无关类的反三元组集合，d代表向量之间的距离。

在本申请可能的示例中，所述领域分类的操作基于训练好的领域分类模型来实现。

参考图2d，该图为领域分类模型示意图。所述领域分类模型包括第二表示层、第二双向长短期记忆Bilstm层、第二注意力机制ATT层以及softmax分类器。

在具体实现中，所述第二表示层用于实现所述将所述待处理语句的每个字向量化，得到每个字的第二字向量的操作步骤；所述第二双向长短期记忆Bilstm 层用于实现所述基于所述待处理语句中每个字的第二字向量，确定所述待处理语句的语句表达的操作步骤；所述第二注意力机制ATT层用于实现所述基于所述待处理语句的语句表达和所述表征向量计算所述待处理语句的第二表达向量的操作步骤；所述softmax分类器用于实现所述基于所述第二表达向量和所述待处理语句的语句表达确定所述待处理语句的领域分类标签的操作步骤。

与上述图2a所示的实施例一致的，请参阅图3，图3是本申请实施例提供的一种电子设备300的结构示意图，如图所示，所述电子设备300包括应用处理器310、存储器320、通信接口330以及一个或多个程序321，其中，所述一个或多个程序321被存储在上述存储器320中，并且被配置由上述应用处理器 310执行，所述一个或多个程序321包括用于执行以下步骤的指令；

获取待处理语句以及所述待处理语句中实体的表征向量；基于所述表征向量对所述待处理语句进行槽值抽取，得到所述待处理语句的槽值信息；基于所述表征向量对所述待处理语句进行领域分类，得到所述待处理语句的领域分类信息；基于所述槽值信息和所述领域分类信息生成所述待处理语句的语义信息。

在一个可能的示例中，所述槽值信息包括所述待处理语句中每个字的槽值分类标签；在所述基于所述表征向量对所述待处理语句进行槽值抽取，得到所述待处理语句的槽值信息方面，所述程序中的指令具体用于执行以下操作：对所述待处理语句进行预处理，得到所述语句中每个字的第一特征向量；基于每个字的第一特征向量和所述表征向量，确定所述待处理语句中每个字的槽值分类标签。

在一个可能的示例中，在所述对所述待处理语句进行预处理，得到所述语句中每个字的第一特征向量方面，所述程序中的指令具体用于执行以下操作：将所述待处理语句的每个字向量化，得到每个字的第一字向量；基于所述待处理语句中每个字的第一字向量，确定每个字的第一特征向量。

在一个可能的示例中，在所述基于每个字的第一特征向量和所述表征向量，确定所述待处理语句中每个字的槽值分类标签方面，所述程序中的指令具体用于执行以下操作：基于每个字的第一特征向量和所述表征向量计算每个字针对所述表征向量的第一表达向量；基于每个字的第一表达向量和第一特征向量，确定每个字的槽值分类的概率分布；根据每个字的槽值概率分布确定每个字的槽值分类标签。

在一个可能的示例中，在所述基于每个字的第一特征向量和所述表征向量计算每个字针对所述表征向量的第一表达向量方面，所述程序中的指令具体用于执行以下操作：根据每个字的第一特征向量和所述表征向量计算每个字对于所述表征向量中每个向量的第一权重向量；针对每个字，根据该字的第一权重向量和所述表征向量进行加权求和，得到所述每个字的第一表达向量。

在一个可能的示例中，所述领域分类信息包括所述待处理语句领域分类标签；在所述基于所述表征向量对所述待处理语句进行领域分类，得到所述待处理语句的领域分类信息方面，所述程序中的指令具体用于执行以下操作：对所述待处理语句进行预处理，得到所述待处理语句的语句表达；基于所述待处理语句的语句表达和所述表征向量，确定所述待处理语句的领域分类标签。

在一个可能的示例中，在所述对所述待处理语句进行预处理，得到所述待处理语句的语句表达方面，所述程序中的指令具体用于执行以下操作：将所述待处理语句的每个字向量化，得到每个字的第二字向量；基于所述待处理语句中每个字的第二字向量，确定所述待处理语句的语句表达。

在一个可能的示例中，在所述基于所述待处理语句的语句表达和所述表征向量，确定所述待处理语句的领域分类标签方面，所述程序中的指令具体用于执行以下操作：基于所述待处理语句的语句表达和所述表征向量计算所述待处理语句的第二表达向量；基于所述第二表达向量和所述待处理语句的语句表达确定所述待处理语句的领域分类标签。

在一个可能的示例中，在所述基于所述待处理语句的语句表达和所述表征向量计算所述待处理语句的第二表达向量方面，所述程序中的指令具体用于执行以下操作：根据所述待处理语句的语句表达和所述表征向量计算所述待处理语句对于所述表征向量中每个向量的第二权重向量；根据所述待处理语句的第二权重向量和所述表征向量进行加权求和，得到所述第二表达向量。

在一个可能的示例中，在所述获取待处理语句以及所述待处理语句中实体的表征向量方面，所述程序中的指令具体用于执行以下操作：获取所述待处理语句；抽取所述待处理语句中的实体；从额外知识库获取所述实体的表征向量，所述额外知识库为基于三元组知识库使用知识表示学习模型构建知识图谱得到的表征向量集合，所述三元组知识库中包括至少一个三元组，所述三元组包括实体对以及所述实体对的两个实体之间的关系。

在一个可能的示例中，在所述槽值抽取的操作基于训练好的槽值抽取模型来实现；所述槽值抽取模型的训练包括：对训练样本集的每条训练样本语句中的每个字进行槽值分类标注；从所述训练样本集的训练样本语句中抽取训练样本实体；从额外知识库中获取所述训练样本实体的表征向量；使用标注后的训练样本语句和所述训练样本实体的表征向量训练槽值抽取模型的目标函数，得到所述训练好的槽值抽取模型。

在一个可能的示例中，所述知识表示学习模型为翻译模型；在所述从所述额外知识库中获取所述训练样本实体的表征向量之前，所述程序中的指令还用于执行以下操作：根据所述训练样本实体构建训练样本实体对集合，所述训练样本实体对集合的每个实体对中的两个实体不存在重合的部分；基于所述训练样本实体对和所述三元组知识库构建正三元组集合和反三元组集合，所述正三元组集合和所述反三元组集合中每个三元组的实体对为所述训练样本实体对集合中存在的实体对，所述正三元组集合中的三元组为所述三元组知识库中存在的三元组，所述反三元组集合中的三元组为所述知识库中不存在的三元组；基于所述正三元组集合和所述反三元组集合，对所述翻译模型进行再训练，以更新所述额外知识库中所述训练样本实体的表征向量。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图4是本申请实施例中所涉及的语义处理装置400的功能单元组成框图。该语义处理装置400应用于电子设备，所述电子设备包括处理单元401和通信单元402，其中，

所述处理单元401，用于通过所述通信单元402获取待处理语句以及所述待处理语句中实体的表征向量，以及用于基于所述表征向量对所述待处理语句进行槽值抽取，得到所述待处理语句的槽值信息；以及用于基于所述表征向量对所述待处理语句进行领域分类，得到所述待处理语句的领域分类信息；以及用于基于所述槽值信息和所述领域分类信息生成所述待处理语句的语义信息。

其中，所述语义处理装置400还可以包括存储单元403，用于存储电子设备的程序代码和数据。所述处理单元401可以是处理器，所述通信单元402可以是内部通信接口，存储单元403可以是存储器。

在一个可能的示例中，所述槽值信息包括所述待处理语句中每个字的槽值分类标签；在所述基于所述表征向量对所述待处理语句进行槽值抽取，得到所述待处理语句的槽值信息方面，所述处理单元401具体用于：对所述待处理语句进行预处理，得到所述语句中每个字的第一特征向量；基于每个字的第一特征向量和所述表征向量，确定所述待处理语句中每个字的槽值分类标签。

在一个可能的示例中，在所述对所述待处理语句进行预处理，得到所述语句中每个字的第一特征向量方面，所述处理单元401具体用于：将所述待处理语句的每个字向量化，得到每个字的第一字向量；基于所述待处理语句中每个字的第一字向量，确定每个字的第一特征向量。

在一个可能的示例中，在所述基于每个字的第一特征向量和所述表征向量，确定所述待处理语句中每个字的槽值分类标签方面，所述处理单元401具体用于：基于每个字的第一特征向量和所述表征向量计算每个字针对所述表征向量的第一表达向量；基于每个字的第一表达向量和第一特征向量，确定每个字的槽值分类的概率分布；根据每个字的槽值概率分布确定每个字的槽值分类标签。

在一个可能的示例中，在所述基于每个字的第一特征向量和所述表征向量计算每个字针对所述表征向量的第一表达向量方面，所述处理单元401具体用于：根据每个字的第一特征向量和所述表征向量计算每个字对于所述表征向量中每个向量的第一权重向量；针对每个字，根据该字的第一权重向量和所述表征向量进行加权求和，得到所述每个字的第一表达向量。

在一个可能的示例中，所述领域分类信息包括所述待处理语句领域分类标签；在所述基于所述表征向量对所述待处理语句进行领域分类，得到所述待处理语句的领域分类信息方面，所述处理单元401具体用于：对所述待处理语句进行预处理，得到所述待处理语句的语句表达；基于所述待处理语句的语句表达和所述表征向量，确定所述待处理语句的领域分类标签。

在一个可能的示例中，在所述对所述待处理语句进行预处理，得到所述待处理语句的语句表达方面，所述处理单元401具体用于：将所述待处理语句的每个字向量化，得到每个字的第二字向量；基于所述待处理语句中每个字的第二字向量，确定所述待处理语句的语句表达。

在一个可能的示例中，在所述基于所述待处理语句的语句表达和所述表征向量，确定所述待处理语句的领域分类标签方面，所述处理单元401具体用于：基于所述待处理语句的语句表达和所述表征向量计算所述待处理语句的第二表达向量；基于所述第二表达向量和所述待处理语句的语句表达确定所述待处理语句的领域分类标签。

在一个可能的示例中，在所述基于所述待处理语句的语句表达和所述表征向量计算所述待处理语句的第二表达向量方面，所述处理单元401具体用于：根据所述待处理语句的语句表达和所述表征向量计算所述待处理语句对于所述表征向量中每个向量的第二权重向量；根据所述待处理语句的第二权重向量和所述表征向量进行加权求和，得到所述第二表达向量。

在一个可能的示例中，在所述获取待处理语句以及所述待处理语句中实体的表征向量方面，所述处理单元401具体用于：获取所述待处理语句；抽取所述待处理语句中的实体；从额外知识库获取所述实体的表征向量，所述额外知识库为基于三元组知识库使用知识表示学习模型构建知识图谱得到的表征向量集合，所述三元组知识库中包括至少一个三元组，所述三元组包括实体对以及所述实体对的两个实体之间的关系。

在一个可能的示例中，所述知识表示学习模型为翻译模型；在所述从所述额外知识库中获取所述训练样本实体的表征向量之前，所述处理单元401还用于执行以下操作：根据所述训练样本实体构建训练样本实体对集合，所述训练样本实体对集合的每个实体对中的两个实体不存在重合的部分；基于所述训练样本实体对和所述三元组知识库构建正三元组集合和反三元组集合，所述正三元组集合和所述反三元组集合中每个三元组的实体对为所述训练样本实体对集合中存在的实体对，所述正三元组集合中的三元组为所述三元组知识库中存在的三元组，所述反三元组集合中的三元组为所述知识库中不存在的三元组；基于所述正三元组集合和所述反三元组集合，对所述翻译模型进行再训练，以更新所述额外知识库中所述训练样本实体的表征向量。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM， Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语义处理方法，其特征在于，包括：

获取待处理语句以及所述待处理语句中实体的表征向量；

2.根据权利要求1所述的方法，其特征在于，所述槽值信息包括所述待处理语句中每个字的槽值分类标签；

所述基于所述表征向量对所述待处理语句进行槽值抽取，得到所述待处理语句的槽值信息，包括：

对所述待处理语句进行预处理，得到所述语句中每个字的第一特征向量；

基于每个字的第一特征向量和所述表征向量，确定所述待处理语句中每个字的槽值分类标签。

3.根据权利要求2所述的方法，其特征在于，所述对所述待处理语句进行预处理，得到所述语句中每个字的第一特征向量，包括：

将所述待处理语句的每个字向量化，得到每个字的第一字向量；

基于所述待处理语句中每个字的第一字向量，确定每个字的第一特征向量。

4.根据权利要求2所述的方法，其特征在于，所述基于每个字的第一特征向量和所述表征向量，确定所述待处理语句中每个字的槽值分类标签，包括：

基于每个字的第一特征向量和所述表征向量计算每个字针对所述表征向量的第一表达向量；

基于每个字的第一表达向量和第一特征向量，确定每个字的槽值分类的概率分布；

根据每个字的槽值概率分布确定每个字的槽值分类标签。

5.根据权利要求4所述的方法，其特征在于，所述基于每个字的第一特征向量和所述表征向量计算每个字针对所述表征向量的第一表达向量，包括：

根据每个字的第一特征向量和所述表征向量计算每个字对于所述表征向量中每个向量的第一权重向量；

针对每个字，根据该字的第一权重向量和所述表征向量进行加权求和，得到所述每个字的第一表达向量。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述领域分类信息包括所述待处理语句领域分类标签；

所述基于所述表征向量对所述待处理语句进行领域分类，得到所述待处理语句的领域分类信息，包括：

对所述待处理语句进行预处理，得到所述待处理语句的语句表达；

基于所述待处理语句的语句表达和所述表征向量，确定所述待处理语句的领域分类标签。

7.根据权利要求6所述的方法，其特征在于，所述对所述待处理语句进行预处理，得到所述待处理语句的语句表达，包括：

将所述待处理语句的每个字向量化，得到每个字的第二字向量；

基于所述待处理语句中每个字的第二字向量，确定所述待处理语句的语句表达。

8.根据权利要求6所述的方法，其特征在于，所述基于所述待处理语句的语句表达和所述表征向量，确定所述待处理语句的领域分类标签，包括：

基于所述待处理语句的语句表达和所述表征向量计算所述待处理语句的第二表达向量；

基于所述第二表达向量和所述待处理语句的语句表达确定所述待处理语句的领域分类标签。

9.根据权利要求8所述的方法，其特征在于，所述基于所述待处理语句的语句表达和所述表征向量计算所述待处理语句的第二表达向量，包括：

根据所述待处理语句的语句表达和所述表征向量计算所述待处理语句对于所述表征向量中每个向量的第二权重向量；

根据所述待处理语句的第二权重向量和所述表征向量进行加权求和，得到所述第二表达向量。

10.根据权利要求1-9任一项所述的方法，其特征在于，所述获取待处理语句以及所述待处理语句中实体的表征向量，包括：

获取所述待处理语句；

抽取所述待处理语句中的实体；

从额外知识库获取所述实体的表征向量，所述额外知识库为基于三元组知识库使用知识表示学习模型构建知识图谱得到的表征向量集合，所述三元组知识库中包括至少一个三元组，所述三元组包括实体对以及所述实体对的两个实体之间的关系。

11.根据权利要求10任一项所述的方法，其特征在于，所述槽值抽取的操作基于训练好的槽值抽取模型来实现；

所述槽值抽取模型的训练包括：

对训练样本集的每条训练样本语句中的每个字进行槽值分类标注；

从所述训练样本集的训练样本语句中抽取训练样本实体；

从额外知识库中获取所述训练样本实体的表征向量；

使用标注后的训练样本语句和所述训练样本实体的表征向量训练槽值抽取模型的目标函数，得到所述训练好的槽值抽取模型。

12.根据权利要求11所述的方法，其特征在于，所述知识表示学习模型为翻译模型；

在所述从所述额外知识库中获取所述训练样本实体的表征向量之前，所述方法还包括：

根据所述训练样本实体构建训练样本实体对集合，所述训练样本实体对集合的每个实体对中的两个实体不存在重合的部分；

基于所述训练样本实体对和所述三元组知识库构建正三元组集合和反三元组集合，所述正三元组集合和所述反三元组集合中每个三元组的实体对为所述训练样本实体对集合中存在的实体对，所述正三元组集合中的三元组为所述三元组知识库中存在的三元组，所述反三元组集合中的三元组为所述知识库中不存在的三元组；

基于所述正三元组集合和所述反三元组集合，对所述翻译模型进行再训练，以更新所述额外知识库中所述训练样本实体的表征向量。

13.一种语义处理装置，其特征在于，包括处理单元和通信单元，其中，

14.一种电子设备，其特征在于，包括处理器、存储器，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如权利要求1-12任一项所述的方法中的步骤的指令。

15.一种计算机可读存储介质，其特征在于，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-12任一项所述的方法。