CN109783806A

CN109783806A - 一种利用语义解析结构的文本匹配方法

Info

Publication number: CN109783806A
Application number: CN201811570080.9A
Authority: CN
Inventors: 倪博溢; 邹辉; 张永煦
Original assignee: Zhongan Information Technology Service Co Ltd
Current assignee: Zhongan Information Technology Service Co Ltd
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2019-05-21
Anticipated expiration: 2038-12-21
Also published as: CN109783806B

Abstract

本发明公开了一种利用语义解析结构的文本匹配方法，该方法包括：定义初始语料集C_qa和补充语料集C_q；利用语义依存解析方法，定义文本对应的语义结构DP‑tree；基于此语义结构，定义文本的核函数，以及文本相似度的度量函数；对文本进行核聚类，得到聚合的文本类函数： i＝1,2,...,M；其中，q′_ij为每个聚类中选取的n_i个最靠近类中的样本点；通过人工审核，给C_i类核准并标记上特定的标签T_i。本发明采用了以句法结构等语法分析结构为比较基础，结合了卷积核函数理论，以及树核(tree kernel,TK)定义了表示两个树形句法结构间距离的核函数，引入了句法相似性、词向量、词义网等的内、外部知识，能够精确判断文本之间的相似度。

Description

一种利用语义解析结构的文本匹配方法

技术领域

本发明属于人工智能自然语言处理(NLP)领域，特别涉及一种利用语义解析结构的文本匹配方法。

背景技术

以问答系统、信息检索和抽取等应用为例，目前的业内技术的主流仍包括文本匹配的方式，也即业务方会准备大量的咨询(服务)业务相关的语料。一旦用户提出检索的请求(问题或以自然语言形式给出的搜索式)，机器人就通过特定的文本匹配算法从问答语料库中查询(搜索)得到最接近于用户问题的候选问题列表，并视最佳匹配得分，以不同的策略来展示答案(直接回答、提供回答列表、或告知用户无匹配并提示相应的修改问句的方法)。

一、文本匹配

文本匹配在NLP领域是一个比较经典的问题。无论在搜索、信息抽取还是问答系统等应用中，问题的关键一定程度上都可以看作是一个文本匹配的问题。顾名思义，文本相似度和文本之间的共性和差异性有关，在共性越大而差异性越小的文本之间，相似度越高。

业界通常将文本相似度计算方法分为四大类：基于字符串的、基于语料库的、基于世界知识的和其他方法。通常基于字符串的各种计算，比如最大公共子串、编辑距离、Jaccard距离等等，均是基于字符串字面上的相似性来计算的。这类方法比较忽视文本的语义信息。基于语料库的方法从语料库中统计出词的共现概率等上下文信息，发现不同词之间的语义相关性，以改善相似度的评价。而基于知识的相似度计算则带来更多的人工整理的常识类知识及专家知识。还有基于句法依存的相似度匹配，例如通过比较依存树的的骨架的“骨架依存树分析法”，或仅考虑动词、名词、形容词及其直接支配成分的“有效搭配结构”。基于句法分析的相似度计算，既考虑到句法结构，同时又考虑到词之间的相似性，因此从语义匹配层面来讲是比较理想的方法，但多变的语言表达导致句法分析结构准确度不高，且计算比较复杂。

语义结构的抽取，句法(和语义)依存分析通常是将一个语句解析为一系列的词及词性，并确定每个词和其他词之间的语法(语义)关系。举例说明，句子“s0，美国总统A热情邀请B主席访问白宫”的解析结果为如图1所示。

从句中，可以获得的主要信息有：

1.分词和词性标注(如“总统”是一个词，且是名词(标注“n”)，通用的实体标注(如“美国”是地名)

2.核心动作”邀请“(root)主谓宾等基础语法标注，如“A”是主语(“SBV”的起点)

3.语义角色，如“总统”是“邀请”的施事方(以“A0”来表示)

这些信息对理解整个句子的语义有着极大帮助。通过从依存树上截取以ROOT为根的主干，也可以获得句子的主干部分，可以以树中节点的深度来做简化，自ROOT开始向上保留的层数不同，简化的效果也不同：

·3层：总统A热情邀请B主席访问白宫。

·2层：A热情邀请主席访问。

·1层：邀请。

或者以感兴趣的语义角色(的核心成分)来选取句子主干，则可得：“A 邀请主席访问(白宫)。”，可以比较完整地反映原句的主要含义。这里的不同的抽取主干的方式，就对应着语法树不同的子结构。

二、词义网

词义网是一种组织词条和词义的字典数据结构，一般通过人工整理获得，能够较好地反映词条之间的同义、近义、反义、上下位等信息。比较常用的有WordNet、HowNet等。在词义网中，一个词的义项(sense)往往是比词(lemma)本身更为基本的单位，整个词义网的构建也是以义项来组织起来的。由于词义网的信息都是人工整理的，有很高的可用性，可以以此更规范地匹配词和短语间的相似度。

以上文中的“邀请”一词为例，其在词义网部分内容中的位置大致如下表所示：

词义词条

invite.ask.verb邀|约请

invite.invitational.verb邀请

invite.invite.verb邀|邀约|约请|让|邀请|请

invite.invite_respectfully.verb敬请|恭请

invite.make_effort_to_invite.verb力邀

invite.specially_invite.verb特邀

表1词义网结构

三、词向量

词向量是自然语言的词汇的一种数学化的表示。一种简单的模型是独热表示(One-hot Representation)，采用一个维度为词汇表大小的向量，只有对应词汇的维度上值为1，其余为0。有别于此，分布式表示 (Distributed representation)给出了词汇在一个更为紧凑的(通常几百维的)语义空间的连续表示形式，词与词之间的距离远近也表示了语义相似性或句法地位上的相关性。需要注意的是词向量空间中相近的词不一定是近义词，比如“北京”和“巴黎”可能因为都是首都而在句中出现的位置和句法搭配很类似，从而在词向量中距离很近。类似的例子还有下文中会出现的“总统”和“老布什”，只能证明他们在某些情况下或某类语料的语境下是相似(相关)的。如果语料选取得当，这样的相关词在文本匹配中的作用也很大。

词向量是通过统计共现信息，将大量语料中的词表示为连续语义空间中的一个向量的方法。常用的训练词向量的模型有word2vec和GloVe。从词向量空间中，可以获取一个词的近邻，作为它的相似词、同位词，这一算法不需要人工干预，即可比较方便地获得一个语料语境下的相关词。举例说明，如“邀请”，它在某词向量模型下的近邻及相似度如下：

·聘请0.668348

·邀0.665620

·邀约0.655678

·之邀0.648954

·应邀0.624076

·盛邀0.606307

·委派0.605903

·受邀0.600465

·约请0.599307

·指派0.598013

而“总统”一词的近邻则如下：

·总理0.810668

·国防部长0.796404

·首相0.795606

·国务卿0.752882

·外交部长0.745084

·司法部长0.717971

·内政部长0.711824

·老布什0.706864

·财政部长0.705340

外交大臣0.702193

四、核方法

核方法并不需要将结构化数据转换成向量，就可以较好地处理数据的匹配问题。核方法要寻找的实际上是在特征空间中的线性关系。只要找到合适的核函数形式，就可以通过核函数的计算来代替点积结果，对输入数据的相似性比较。核函数通常是一个对称正定的函数，且可作用于维数巨大的数据，且计算复杂度在于核函数而不在于特征维数。核方法函数的空间在如加法和线性组合的运算中是闭合的，因此，可以简单地将特征组合起来(如多媒体中的文字、图像、视频等数据的特征)。

核函数计算的是数据在特征空间的相似度，同时，相似度这也是在核方法中唯一需要用到的的信息。其中，在这里的树结构中用到的是卷积核 (convolution kernel)框架。卷积核的思想认为，一个复杂的结构可以由组成它的一些子结构来表示，如字符串和子串、树和子树的关系。因此卷积核通过计算子结构之间的相似性来得到原数据的相似性。

树核有三种常见的子结构类型，分别是子树(sub tree)核，子集树 (subsettree)核和部分树(partial tree)核。子树中的节点必须包含所有子节点以下直到叶子节点；子集树则不然，但每个节点要么子节点全留，要么都不留。部分树进一步放松了子集树的要求，但在语法树中，可能产生很多不合语法规则的子树，导致过拟合。

五、核聚类

核聚类(kernel-based clustering)是利用核方法，将数据非线性映射到高维特征空间，并以核函数来代替特征向量的内积，以此在特征空间进行聚类。由于非线性映射增加了数据点线性可分的可能，因而核聚类通常能得到较好的聚类结果。核聚类算法使样本点集在特征空间(核空间)上是线性可分的，再寻找一个合适的样本集的类分配函数，尽最大可能使得类内距离(核函数值)高而类间距离低。除了特征空间上的区别，核聚类可以采用和常规聚类类似的聚类算法，比如k-均值(k-means)聚类算法。

在文本匹配中，由于语法结果的随意性，导致两个句子的语义相似性衡量结果不够准确。因此，在文本匹配中，如何提高匹配进度，便成为了目前亟待解决的问题。

发明内容

本发明的目的是针对现有技术中的不足，提供一种利用语义解析结构的文本匹配方法，使得文本匹配更精确。

实现本发明的技术方案是，一种利用语义解析结构的文本匹配方法，

一种利用语义解析结构的文本匹配方法，所述方法包括：

步骤1、定义初始语料集C_qa和补充语料集C_q；其中，q为问题，a为对应的答案；

步骤2、利用语义依存解析方法，定义文本对应的语义结构DP-tree；

步骤3、基于此语义结构，定义文本的核函数，以及文本相似度的度量函数；

步骤4、基于上述定义的核函数，对文本进行核聚类，得到聚合的文本类如下：

其中,q′_ij为每个聚类中选取j个最靠近类中的样本点；

步骤5、通过人工审核，给C_i类核准并标记上特定的标签T_i；

步骤6、对产生的新的问题q，计算到的距离的平均值，作为新问题到类C_i的距离，返回距离最近的一个或多个类，或对应类中的典型样本点q’_ij，并将该问题和所属类别记录到数据库；

步骤7、校验，确定文本匹配的效果是否达到业务需求，如否，则返回步骤3对核函数进行调整直至新数据积累到某一程度，重新触发新的聚类训练。

进一步地，所述步骤1具体包括：

将文本s扩展为(q≡s，a)，所述文本S为在问答语料中的问题q_i，和问题对应的答案a_i，将语料库扩展为一个问答对的集合：

C_qa＝{(q_i，a_i)}，i＝1，2，3，…，N；其中，N是语料库中问答对的个数，a_i为空或者不为空；

作为问题的补充，定义如下的数据结构：

其中，是标准问答中某问题q_i的k_i个相似问题,k_i≥0，s_i1等为其对应的相似度打分，分值在0到1之间，0表示两问题完全不相似，1表示完全等价。

进一步地，定义的语法树的形式为：

T_DP(s)＝DP_Tree(s)

该语法树为树状结构，包括：词性标注节点，节点间的连线，语义角色。

进一步地，定义的文本核函数为：

其中，<φ(T₁)，φ(T₂)>是形式化的一种表示，即核函数是T₁和T₂两棵树的的特征向量的内积；是T₁和T₂的所有子树的集合，N₁和N₂分别是T₁和T₂两棵树的节点数，M(T_1，i，τ)和M(T_2，i，τ))代表子树τ在T₁的第i个节点以及T₂的第j个节点上匹配到的分值；

定义代表T₁第i个节点和T₂第j个节点的匹配度:

得到：

进一步地，对语法树还进行如下处理：

处理一、语法树的部分匹配；

处理二、对类似词性进行归并。

进一步地，还包括对语法树的匹配条件进行如下处理：

处理三、利用词义网，对语法树节点上的的同义或近义词的匹配，利用同义词或近义词打分来对原句进行相似度打分；

处理四、利用词向量，对语法树节点上的的同位词的匹配，利用词向量的距离打分来对原句进行相似度打分。

进一步地，卷积(相似度)函数的计算由关键变量S_i，j的计算得来， S_i，j由如下流程计算得到：

若T_1，i和T_2，j的生成式不同，且两者间不符合处理一中的任一条规则，则

S_i，j＝0；

否则，若T_1，i和T_2，j的根节点均为词性标签，则有：S_i，j＝1×λ；

否则，

其中，0＜λ＜1是为避免子节点过多导致核函数数值异常的衰减系数；

对核函数还进行归一化操作：

与现有技术相比，本发明具有如下技术效果：

1、本发明是基于语法结构的文本相似度评价指标和计算方法，通过词义网和词向量对相似度评价指标加以扩展和优化，使更多的表达方试能够匹配到语料库中的语法结构。

2、本发明以目标语料库中的文本作为样本集，给出了一种解析并聚类出能代表语料库文本的语法结构集合。

3、本发明整合语料库构建，抽取语义结构、文本聚类、相似匹配算法以及迭代优化语料库，给出了一种文本相似匹配的自主持续更新优化系统的设计，采用本发明的方法，可以有效地提高匹配精度，优化用户体验。。

附图说明

图1为现有技术中语义结构抽取的解析结果示意图。

图2为本发明实施例中的利用语义解析结构的文本匹配方法的流程示意图。

图3为本发明实施例中的语法树的结构示意图。

具体实施方式

下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，但不作为对本发明的限定。

文本相似度和文本之间的共性和差异性有关，在共性越大而差异性越小的文本之间，相似度越高。

参照图1所示，本发明实施例所公开的一种利用语义解析结构的文本匹配方法，包括如下步骤：

步骤1、语料模块的构建。

语料的来源通常来源于两个：1.由专门人员进行整理，对业务梳理并分门别类，将知识点做成语料库(在问答系统中，则可能是问答对的语料库)，同时兼顾整理文本间相似(等价)的形式，以及同义、近义词等知识。2.通过算法，将相应特定语料库、知识库和日志等数据源中的数据加工成(问答对)语料。除此之外，可以结合算法和人工的校验，以提高语料的质量。

本发明实施例中，如无特别说明，q表示问题，s表示相似度。

问答系统可能是文本匹配的一个最重要的场景了，因而为了适应问答系统的描述，本发明将文本稍作扩展，某文本s可以扩展为(q≡s，a)，在问答系统中，上述文本即是问答语料中的问题q_i，和问题相关的还有一个对应的答案a_i。而在非问答的场景下，a＝∈，即a可以是空字符串，这并不影响文本匹配这一任务的本质。因此，将整理得到的语料库描述为一个问答对的集合：

C_qa＝{(q_i，a_i)}，i＝1，2，3，…，N (1)

其中，N是语料中问答对的个数，a_i可能为空。

作为问题的补充，定义如下的数据结构：

是标准问答中某问题q_i的k_i个相似问题，k_i≥0，s_i1等为其对应的相似度打分，分值在0到1之间，0表示两问题完全不相似，1表示完全等价。

步骤2、问题抽取和解析过程。

一、关键词和实体的抽取

一个文本(问句)中的关键信息包括如下一些方面：

1、疑问句的判定、疑问句式和焦点所在，与焦点直接相连接的词；

2、句中的实体词，通过词典、规则库和模型预测，给出句子中特定实体的位置；

3、句子的语法和语义结构，通过句法和语义依存分析方法得到。

二、语义结构的抽取

通过抽取句子语义信息结构，一个句子s生成的的语法树以下式给出：

T_DP(s)＝DP_Tree(s) (3)

参照图2所示，其中，“PRP$”、“NN”等是词性标注节点，“root”，“nsubj”是依赖关系的描述，即节点之间的箭头连线，ARG0、ARG1是语义角色标注给出的“施事”、“受事”等语义角色。这些信息就形成一个树状结构，节点的值由词和相关的一系列标注来决定，而则是树的分叉。

三、引入词义网和词向量信息

如果通过词条的义项，对问句进行扩展匹配，则可以将不同说法的问句联系在一起。如：

s1美国总统A热情力邀B主席访问白宫。

如果将“力邀”和“邀请”等价起来，则[s1]和[s0]的语义也是等价的。

同时，如果运用词向量中的相关词，则还会将“邀请”扩展到“盛邀”，“邀约”等，但也增加了一些实际上不同义的词，如“应邀”，“委派”等(实际也很少出现)。从中，可以明显地发现语料本身的特异性对结构的影响。因此，从词义网和词向量两方面将问句中词的相关词都收集起来，对问句匹配可起到知识和语料语境两方面相互补充的作用。

词向量的相似(相关)程度的分值直接由词向量模型估计给出了，但词义网并没有给出这样的数值，需要人为地加以定义，比如一个词和同义词的相似度是0.99，和近义词是0.8，和上位词是0.75等等，这可已根据经验和业务的需要进行设定。

步骤3、基于树核的定义和文本相似度定义

对两个不同的句子s₁和s₂，其句法结构T₁＝T_DP(s₁)和T₂＝T_DP(s₂)之间需要有一个比较的方法，来衡量它们的相似度。这里的相似度比较要考虑两个因素：(1)节点的结构差异；(2)节点值的语义差异。因为树形的结构是非线性的，或者说树是结构化的数据，是难以对比的，因此采用如下的树核方法加以转换。

一.树核方法描述

定义卷积核函数(也即相似度函数)定义成如下形式：

其中，<φ(T₁)，φ(T₂)>是形式化的一种表示，即核函数是T₁和T₂两棵树的的特征向量的内积；是T₁和T₂的所有子树的集合，N₁和N₂分别是T₁和T₂两棵树的节点数，M(T_1，i，τ)(或M(T_2，j，τ))代表子树τ在T₁的第i个节点(或T₂的第j个节点)上匹配到的分值。

为便以计算，定义了它代表T₁第i个节点和T₂j个节点的匹配度:

因此有：

通常情况下，M(T，τ)的定义为一个指示函数：如果τ和T形成匹配(简单来说即τ出现在T中)，则M(T，τ)＝1，否则M(T，τ)＝0。但这一条件太过苛刻，会导致数据稀疏。因此，对函数做必要的改进是必须的在语义角色标注任务中，本发明对此作出了如下改进：

改进一，对语法树的部分匹配，例如：基于上下文无关文法(CFG) 表示的生成式“NP->DT JJ NN”(NP->一个有趣的故事)和生成式“NP-> DT NN”(NP->一个故事)，可以匹配，但要加上未匹配到形容词(JJ)的一个惩罚项。

改进二、类似标签(词性)的归并，如“VB”(动词)，“VBN”(动名词)等，认为是同一类词。

在本考察本发明的语义匹配的环境下，对匹配的条件再加以如下的改进：

改进三、利用词义网，对语法树节点上的的同义(近义)词的匹配，生成式“NP->DTJJ NN”(NP->一个有趣的故事)和生成式“NP->DT JJ NN”(NP->一个好玩的故事)，利用(有趣、好玩)的同义词打分来对原句对进行相似度打分。其他的信息，如上下位词、和反义词等信息，均可以利用。

改进四、利用词向量，对语法树节点上的的“同位词”的匹配，生成式“NP->NN DECNN”(NP->上海的美食)和生成式“NP->NN DEC NN” (NP->北京的美食)或者(NP->上海的小吃)，利用词向量的距离打分来对原句对进行相似度打分。

卷积(相似度)函数的计算由关键变量S_i，j的计算得来，由上述的几个条件改进，这里的S_i，j由如下流程计算得到：

·若T_1，i和T_2，j的生成式不同，且两者间不符合[改进1]中的任一条规则，则S_i，j＝0

·否则，若T_1，i和T_2，j的根节点均为词性标签，则有：S_i，j＝1×λ

·否则，

其中，0＜λ＜1是为避免子节点过多导致核函数数值异常的衰减系数。

对于核函数还可以进行归一化操作：

并以上式(6)作为文本相似度的度量函数。

本发明一个完整的基于语料库的文本匹配方法包括如下步骤：

步骤S1、定义初始语料集C_qa(如式1)和补充语料集C_q(如式2)；

步骤S2、利用语法(语义)依存解析方法，定义文本对应的语义结构 (如式3)；

步骤S3、基于此语义结构，定义文本的核函数(如式4)，以式5作为文本相似度的度量函数；

步骤S4、基于上述定义的核函数，以及诸如K-mean聚类算法，对文本进行核聚类，得到的聚合的文本类如下：上述的q′_ij是每个聚类中选取的n_i个最靠近类中的的样本点。

步骤S5、通过人工审核，给C_i类核准并标记上特定的标签T_i。

步骤S6、对新的问题(检索式)q，计算到的距离的评均值，作为新问题到类C_i的距离，返回距离最近的一个类或若干类，或对应类中的典型样本点q′_ij。并将该问题和所属类别记录到数据库。

步骤S7、进行算法或人工校验，确定文本匹配效果达到业务需求，否则返回步骤3，对核函数进行调整。

步骤S8、直到新数据量积累到某一程度，重新触发新的聚类训练，返回步骤S4。

本发明采用了以句法结构等语法分析结构为比较基础，结合了核方法中的卷积核函数理论，以及树核(tree kernel,TK)定义了表示两个树形句法结构间距离的核函数。引入了句法相似性、词向量、词义网等的内、外部知识，给出了一种计算文本(特别是问答类的短文本)之间相似度的方法。本发明的文本相似度计算方法可应用于问答系统、文本搜索、信息抽取等系统中。该方法从训练语料中抽取出相关的语义结构，并给出相似度的定义及计算逻辑流程，并据此搜索匹配出和所给文本最相似的结果。采用本发明的方法，可以有效地提高匹配精度，优化用户体验。

虽然以上结合优选实施例对本发明进行了描述，但本领域的技术人员应该理解，本发明所述的方法和系统并不限于具体实施方式中所述的实施例，在不背离由所附权利要求书限定的本发明精神和范围的情况下，可对本发明作出各种修改、增加、以及替换。

Claims

1.一种利用语义解析结构的文本匹配方法，其特征在于，所述方法包括：

步骤2、利用语义依存解析方法，定义文本对应的语法树结构DP-tree；

其中，q’_ij为每个聚类中选取的n_i个最靠近类中的样本点；

步骤5、通过人工审核，给C_i类核准并标记上特定的标签T_i；

2.如权利要求1所述的文本匹配方法，其特征在于，所述步骤1具体包括：

将文本s扩展为(q≡s,a)，所述文本S为在问答语料中的问题q_i，和问题对应的答案a_i，将语料库扩展为一个问答对的集合：C_qa＝{(q_i，a_i)}，i＝1，2，3，…，N；其中，N是语料库中问答对的个数，a_i为空或者不为空；

作为问题的补充，定义如下的数据结构：

其中，是标准问答中某问题q_i的n_i个相似问题,n_i≥0，s_ij为其对应的相似度打分，分值在0到1之间，0表示两问题完全不相似，1表示完全等价。

3.如权利要求1或2所述的文本匹配方法，其特征在于，定义的语法树的形式为：

T_DP(s)＝DP_Tree(s)

该语法树为树状结构，包括：词性标注节点，节点间的连线及语义角色。

4.如权利要求1或2所述的文本匹配方法，其特征在于，定义的文本核函数为：

其中，<φ(T₁),φ(T₂)>是形式化的一种表示，即核函数是T₁和T₂两棵树的的特征向量的内积；是T₁和T₂的所有子树的集合，N₁和N₂分别是T₁和T₂两棵树的节点数，M(T_1,i,τ)和M(T_2,j,τ))代表子树τ在T₁的第i个节点以及T₂的第j个节点上匹配到的分值；

定义代表T₁第i个节点和T₂第j个节点的匹配度:

得到：

5.如权利要求4所述的文本匹配方法，其特征在于，对语法树还进行如下处理：

处理一、语法树的部分匹配；

处理二、对类似词性进行归并。

6.如权利要求5所述的文本匹配方法，其特征在于，还包括对语法树的匹配条件进行如下处理：

7.如权利要求6所述的文本匹配方法，其特征在于，卷积(相似度)函数的计算由关键变量S_i,j的计算得来，S_i，j由如下流程计算得到：

若T_1,i和T_2,j的生成式不同，且两者间不符合处理一中的任一条规则，则

S_i，j＝0；

否则，若T_1,i和T_2,j的根节点均为词性标签，则有：S_i，j＝1×λ；

否则，

其中，0<λ<1是为避免子节点过多导致核函数数值异常的衰减系数；

对核函数还进行归一化操作：