CN111104478A

CN111104478A - 一种领域概念语义漂移探究方法

Info

Publication number: CN111104478A
Application number: CN201910837746.0A
Authority: CN
Inventors: 李轶; 赵璇
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2020-05-05

Abstract

本发明公开了一种领域概念语义漂移探究方法，按时间对第一语料和第二语料进行划分；对每个时间片段上的第一语料进行过滤得到领域术语；以领域术语作为分词词典对每个时间片段上的第二语料进行预处理，再进行预训练词嵌入，保留各个时间片段上的领域术语的词嵌入；以领域术语作为图的节点，以领域术语的词嵌入计算两个领域术语之间的语义相似度，以设定阈值作为两领域术语之间是否存在边的条件，构建各个时间片段的领域术语图，得到动态领域术语图；对动态领域术语图进行动态节点嵌入，再对动态节点嵌入进行聚类，每个聚类为一个领域概念，各个时间片段上的聚类结果为概念语义漂移，以自动化的方式实现了概念语义漂移轨迹的探究。

Description

一种领域概念语义漂移探究方法

技术领域

本发明属于大数据处理技术领域，具体地说，是涉及一种领域概念语义漂移探究方法。

背景技术

随着互联网技术的迅猛发展，互联网上的数据量以指数形式增长；普通用户获取广义的信息不再存在任何困难，但是随之而来则是甄别的难度。同时，海量的无结构数据并不提供任何应用价值，只有在这些数据中挖掘出结构化的知识才能发挥出大数据的威力。文本作为无结构数据的代表，承载了人类几乎所有的知识，无结构的文本对于人来来说是良好的输入形式，我们可以相对容易的从中提取结构化的知识，但是对于计算机而言，则无法很好的理解和处理它们。从另一方面来说，从无结构的文本中挖掘出怎样的结构化知识，才能最大限度地提升计算机对于人类语言的理解。

概念，是人类对一个复杂的过程或事物的理解，是意义的载体。从哲学上来说，概念是思维的基本单元，但是这个说法并不提供任何可计算的视角。中华人民共和国国家标准GB/T15237.1-2000中论述到：概念是对特征的独特组合而形成的知识单元。同时在该标准中定义术语为：在特定专业领域中概念的词语指称。不同的领域术语描述了不同的特征组合，即描述了同一概念；因此，概念可以归纳为一组术语的集合且与领域紧密相关。同时，概念的语义并非一成不变，而是随着时间发展变化的，这就发生了概念语义漂移现象。造成此类现象的原因既有语言学上的也有非语言学上的，其中，非语言学上的原因包括社会文化、经济等方面。

概念在计算机利用无结构文本中扮演着重要角色且其语义随着时间推移而变化，考察探究这些概念语义漂移是有价值的，但在数据爆炸的今天，依靠人工来完成概念语义漂移轨迹探究显然不现实。

发明内容

本发明的目的在于提供一种领域概念语义漂移探究方法，基于法律、法规和政策语料，并以新闻语料为辅助，将概念语义漂移转换为一系列时间片段上的图，同时使用动态图嵌入算法来完成概念语义漂移，以自动化的方式实现了概念语义漂移轨迹的探究。

为解决上述技术问题，本发明采用以下技术方案予以实现：

提出一种领域概念语义漂移探究方法，包括：按时间对第一语料和第二语料进行划分；对每个时间片段上的第一语料进行过滤得到领域术语；以所述领域术语作为分词词典对每个时间片段上的第二语料进行预处理，再进行预训练词嵌入，保留各个时间片段上的领域术语的词嵌入；以所述领域术语作为图的节点，以所述领域术语的词嵌入计算两个领域术语之间的语义相似度，以设定阈值作为两领域术语之间是否存在边的条件，构建各个时间片段的领域术语图，得到动态领域术语图；对所述动态领域术语图进行动态节点嵌入，再对动态节点嵌入进行聚类，每个聚类为一个领域概念，各个时间片段上的聚类结果为概念语义漂移。

进一步的，在按时间对第一语料和第二语料进行划分时，所述方法包括：将各个时间片段所包含的语料数量整理在设定范围内。

进一步的，对第一语料进行划分，具体包括：预处理，包括分词、去停用词和词性标注；初次过滤，基于所述预处理结果确定领域术语的构词模式，并基于所述构词模式进行过滤得到候选领域术语；再次过滤，对所述候选领域术语，运行TF-IDF算法抽取出最具有领域代表性的术语，接着运行TextRank算法将单词型术语合并为多词型术语，得到所述领域术语。

进一步的，以所述领域术语的词嵌入计算两个领域术语之间的相似度，具体采用COS距离法。

进一步的，以所述领域术语的词嵌入计算两个领域术语之间的语义相似度，以设定阈值作为两领域术语之间是否存在边的条件，构建各个时间片段的领域术语图，具体为：两个领域术语之间的语义相似度作为边，在语义相似度大于设定阈值时，边存在，反之不存在，由此得到各个时间片段上的领域术语图。

进一步的，所述第一语料为法律、法规和政策语料；所述第二语料为新闻语料。

与现有技术相比，本发明的优点和积极效果是：本发明提出的领域概念语义漂移探究方法中，将法律、法规和政策语料以及新闻语料按照时间划分，之后分别在各个时间片段上进行预处理，包括分词以及去停用词等，之后通过观察法律、法规和政策语料中领域术语的构词特征，设定术语构词规则，按照此规则进行初步的领域术语抽取，得到各个时间片段上的候选领域术语，然后基于候选领域术语，再使用基于统计的方法：TF-IDF和TextRank算法进行领域术语的进一步过滤，最终得到较为完整的领域术语集合；接着使用得到的领域术语作为分词词典，对新闻语料进行预处理，之后在各个时间片段的新闻语料上分别训练BERT模型，得到领域术语的向量表示，继而在领域术语集合中，计算每两个领域术语相似度，以领域术语为节点，根据设定阈值，在两个领域术语节点的相似度大于设定阈值时，认为两个领域术语节点之间存在边，以此构建领域术语图，最后对动态领域术语图进行动态节点嵌入，在对动态节点嵌入进行聚类，每个聚类为一个领域概念，而各个时间片段上的聚类结果则体现了概念语义的漂移。

相比于现有技术中将术语直接或者进一步过滤之后作为概念，完全没有考虑概念是术语的集合这一性质的做法，以及，一些研究者对术语进行聚类，聚类结果中的每一类为一个概念，却没有考虑术语的领域性的做法，本发明将包含类似语义的所有领域术语作为概念，即概念是领域术语在更高抽象层面上的归纳，同时，使用数据结构表示领域术语及其之间的语义关系，更贴近中华人民共和国国家标准提出的概念是术语的集合且与领域密切相关的内容。

本发明还将概念语义漂移转换为一系列事件片段上的图，同时使用动态图嵌入算法来完成概念语义漂移；现阶段的动态图嵌入算法，如果在各个时间片段上分别运行静态图嵌入，由于图嵌入的优化函数的非凸性会导致各个时间片段上的图嵌入无法放在同一嵌入空间进行比较；如果在各个时间片段之间进行平滑正则，则会引入不必要的假设，比如各个时间片段之间的图嵌入为线性关系，而且这种平滑正则无法捕获长时依赖，而本发明提出的动态图嵌入则可以避免上述问题。

结合附图阅读本发明实施方式的详细描述后，本发明的其他特点和优点将变得更加清楚。

附图说明

图1为本发明提出的领域概念语义漂移探究方法的方法流程图；

图2为本发明提出的领域概念语义漂移探究方法中步骤S12的执行流程图；

图3为本发明提出的领域概念语义漂移探究方法中步骤S13的执行流程图；

图4为本发明提出的领域概念语义漂移探究方法中一个时间片段上图嵌入计算模型的示意图；

图5为本发明提出的领域概念语义漂移探究方法中又一个时间片段上图嵌入计算模型的示意图；

图6为本发明提出的领域概念语义漂移探究方法中动态图嵌入计算的算法示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步详细的说明。

本发明提出的领域概念语义漂移探究方法，可用于探究各领域中的概念语义随时间的变化。本发明主要分为两个阶段：第一为构建各个时间片段上的领域术语图，第二阶段在上述得到的各个时间片段上的领域术语图进行动态图节点嵌入。某一时间片段上的领域术语图的构建首先使用基于规则和统计的混合方法抽取领域术语，之后利用预训练语言模型计算领域术语之间的语义相似度，最后以领域术语为图节点、以术语之间的相似度为边权值构建领域术语图。各个时间片段上的领域术语图的集合构成了动态图，在其上进行动态节点嵌入，之后对各个时间片段上的嵌入进行聚类，聚类结果即为概念，而各个时间片段上的聚类结果则体现了概念语义的漂移。

具体的，如图1所示，包括如下步骤：

步骤S11：按时间对第一语料和第二语料进行划分。

本发明以社会保险和公积金领域的法律、法规和政策语料作为第一语料，以新闻语料为第二语料进行说明，但并不限定于上述领域。

以年为单位对语料进行划分是指：社会保险和公积金领域法律、法规和政策语料中均包含了发布日期，新闻语料液包含了发表该新闻的发布日期，利用这些信息对两种语料分别进行划分。

因为法律、法规和政策语料从时间角度看并不均匀，如表一所示，在实际处理中，本发明进行均匀化处理，也即，令各个时间片段所包含的语料数量在一个设定范围内，保持大致相等，如表二所示：

表一

表二

步骤S12：对每个时间片段上的第一语料进行过滤得到领域术语。

该步骤包括三部分：1、预处理：包括分词、去停用词和词性标注；本发明实施例中，采用结巴分词工具，该工具提供了导入停用词表、定制分词词典和词性标注等接口；本发明实施例中采用哈工大总结的中文停用词表。2、初次过滤：基于预处理结果确定领域术语的构词模式，并基于构词模式进行过滤得到候选领域术语；具体的，通过考察预处理结果可以发现领域术语的构词模式集中在哪些，例如集中在名词、动名词、形容词+名词以及名词性短语等，则可利用上述构词模式对预处理结果进行过滤，筛选出候选领域术语。3、再次过滤：对候选领域术语，运行TF-IDF算法抽取出最具有领域代表性的术语，接着运行TextRank算法将单词型术语合并为多词型术语，得到领域术语；具体的，对于通过上述1和2得到的候选领域术语，构建全部规则进行领域术语抽取费时费力、难以维护且方法可移植性较差，而基于简单规则抽取到的领域概念范围必然过大，本发明实施例中，首先运行TF-IDF算法，该算法可以抽取出在目标领域数据集中出现次数较多，同时在背景领域数据集出现次数较少的领域术语，即抽取出最具有领域代表性的术语；然后利用TextRank算法可以将单词型术语合并成多词型术语的特点，在TF-IDF算法的结果上运行TextRank算法，最终得到较为全面的领域术语抽取结果。

具体的执行流程参考图2所示。

步骤S13：以领域术语作为分词词典对每个时间片段上的第二语料进行预处理，再进行预训练词嵌入，保留各个时间片段上的领域术语的词嵌入。

利用上述步骤得到的领域术语作为分词词典对对应时间片段上的新闻语料进行分词，这样保证了每个领域术语可以获得独立的词嵌入而不必进行例如通过单词型术语词嵌入加和得到对应多词型术语词嵌入的构造。

本发明实施例中，采用BERT预训练语言模型，通过在上述新闻语料上运行BERT模型，可以获取领域术语的向量表示，为后续计算语义相似度做准备。

具体的执行流程参考图3所示。

步骤S14：以领域术语作为图的节点，以领域术语的词嵌入计算两个领域术语之间的语义相似度，以设定阈值作为两领域术语之间是否存在边的条件，构建各个时间片段的领域术语图，得到动态领域术语图。

本发明实施例中，图的构建是指：一个无向无环图，图中的节点表示领域术语，边表示节点(领域术语)之间的联系。边的存在是有条件的，本发明实施例中根据每两个领域术语之间的语义相似度作为条件，根据设定阈值，以此判断节点之间是否存在边，也即，如果两个领域术语的相似度大于设定阈值，则认为二者之间存在边，否则不存在边，以此来构建领域术语图。

具体的，令图的形式化表示为G^t＝(V^t,E^t,Sim^t)，其中，t＝1,2,3,…,T，表示T个时间片段上的不同的领域术语图；其中

表示的是n个节点的集合；其中，

表示领域术语之间的边，如果

且 u^t,v^t∈V^t，则称领域术语u和v之间在时间片段t上存在语义联系；Sim^t用来描述两个节点之间在时间片段t时的语义相似度，利用上述的BERT预训练语言模型得到的时间片段t时的领域术语向量表示，记

则

令hold表示认为设定的设定阈值，如果

则认为领域术语u和v在时间片段t上个具有较强的语义关系，即

存在。

步骤S15：对动态领域术语图进行动态节点嵌入，再对动态节点嵌入进行聚类，每个聚类为一个领域概念，各个时间片段上的聚类结果为概念语义漂移。

本发明实施例中，对于概念的划分是指：根据中华人民共和国的国家标准 GB/T15237.1-2000所定义的，概念可以归纳为一组术语的集合且与领域密切相关，每一个概念应当包含若干个具有相似语义信息的术语。联系上述的领域术语图，每个概念(领域术语簇)之间的连接应当较为稀疏，而概念内部之间的连接则应较为紧密。

从图嵌入角度来说，如果某些节点之间的连接较为紧密，则它们之间的相似程度较高，在嵌入空间中则靠的较近。因此，本发明在各个时间片段的领域术语上进行词嵌入算法，之后对得到的节点嵌入进行聚类，聚类的结果即为概念抽取的结果，每个聚类即可表示为一个概念，则各个时间片段上的概念则体现了概念语义的漂移。

具体来说，通过上述步骤得到动态领域术语图G^t＝(V^t,E^t,Sim^t)， t＝1,2,3,…,T，在其上运行动态图嵌入算法，得到稳定的动态嵌入。

本发明实施例中的动态图嵌入算法如下：

如前所述，令G＝{G¹,G²,…,G^T}表示一时间序列的动态图，动态图嵌入的目标在于学习一组映射F＝{f₁,f₂,…,f_T}，其中

即f_t将t时间片段的图节点映射至d维欧式空间，同时d<<|V^t|。而且良好的嵌入应当尽可能保留图的原始信息，即如果u^t,v^t∈V^t，且u^t与v^t在 G^t中“相似”，那么在嵌入空间中它们也彼此靠近。

如图4和图5所示，给出了连续两个时间片段之间和单个时间片段内的图嵌入计算模型。在单个时间片段内，本发明采用深度自编码器来获取节点嵌入。具体地，在时间片段t内，令

为领域术语图G^t的加权邻接矩阵，针对于节点

的嵌入，自编码器的输入为

其中n为G^t的节点数量，即特定节点以其所有邻居作为特征进行计算，简记

如图6所示，令

其中W⁽¹⁾为深度自编码器的参数，b⁽¹⁾为相应的偏置，ReLU为层间激活函数，这里本发明选择整流线性单元ReLU作为激活函数。同理

以此类推，最终可以得到

即作为节点嵌入。带三角标号的字母代表解码过程，与编码过程类似，记其参数为

图6中所示的θt，即为t时间片段上深度自编码器-解码器的需要训练优化得到参数集合，记

为了学习到这些参数，本发明提出LOSS_whole＝LOSS_glob+αLOSS_loc+β₁L₁+β₂L₂损失函数，其中α、β₁和β₂为超参数，描述了各个部分损失对于总体损失的贡献程度； LOSS_loc是将图中节点嵌入后，任意两节点嵌入之间造成的误差，利用节点之间的一阶相似度(加权邻接阵)进行定义：

LOSS_glob是描述解码器输出的

与原始输入x_i之间的差异：

其中B为一矩阵，元素取决于矩阵X＝(S_ij)_n×n各个元素的值，如果S_ij＝0，那么令b_ij＝1，否则令b_ij＝ρ>1；L₁与L₂都是正则化项，其中

此正则化项鼓励稀疏的参数，且

此正则化项是为了防止模型过拟合而加入。综上，在 t时间片段上优化上述损失函数，即可得该时间片段的参数集合

在连续两个时间片段之间，本发明采用增量式更新方式，即对于领域术语动态图G＝{G¹,G²,…,G^T}，首先随机初始化参数集合θ₁，之后在领域术语图G¹上优化对应的LOSS_whole，得到优化完毕的θ₁；使用优化完毕的θ₁去初始化θ₂，之后在领域术语图G²上优化对应的LOSS_whole，得到优化完毕的θ₂，以此类推，直到得到所有时间片段上训练完毕的参数集合{θ₁,θ₂,…,θ_T}。需要注意的是，在两个连续时间片段之间的节点V^t-1与V^t，本发明考虑

当V^t-1中的节点不在V^t中时，只需在G^t的加权邻接矩阵中设定该节点对其他所有节点的权值为零。

实验分析：本发明的实验采用的数据集如表1所示，均衡化的数据集如表 2所示。在构建各个时间片段上的领域术语图时，训练BERT模型选取的词向量维度默认为768，同时本发明令相似度阈值为0.65；LOSS_loc的贡献α在 [10^-6，10^-5]之间随机生成；当S_ij≠0时b_ij＝ρ＝[2,5]中随机选取；L₁正则的系数β₁设定为[10^-6，10^-4]，同时L₂正则的系数β₂设定为[10^-6，10^-3]；训练节点嵌入时，令嵌入维度d＝100；在优化阶段，本发明令随机梯度的步长为10^-5。在整体训练完毕时，针对于某个时间片段上的领域术语节点嵌入，使用 t-SNE等数据降维算法(降维至二维)。如图4和图5所示，给出了一个鲜明的概念漂移的例子，在时间片段2上，可以看到生育保险相关概念与医疗保险相关概念之间有着明显的距离，这表明其概念之间存在较大语义差异；在时间片段1上可以看到，生育保险相关概念与医疗保险相关概念之间距离大大缩短，而且存在融合趋势，反映在本发明的方法上，则造成“生育保险”与“职工医疗保险”等领域术语语义相似度增强，进而改变了相应的领域术语图的结构(即术语簇)，进而改变了图嵌入。综上，本发明的整套方法是切实有效的。

应该指出的是，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种领域概念语义漂移探究方法，其特征在于，包括：

按时间对第一语料和第二语料进行划分；

对每个时间片段上的第一语料进行过滤得到领域术语；

以所述领域术语作为分词词典对每个时间片段上的第二语料进行预处理，再进行预训练词嵌入，保留各个时间片段上的领域术语的词嵌入；

以所述领域术语作为图的节点，以所述领域术语的词嵌入计算两个领域术语之间的语义相似度，以设定阈值作为两领域术语之间是否存在边的条件，构建各个时间片段的领域术语图，得到动态领域术语图；

对所述动态领域术语图进行动态节点嵌入，再对动态节点嵌入进行聚类，每个聚类为一个领域概念，各个时间片段上的聚类结果为概念语义漂移。

2.根据权利要求1所述的领域概念语义漂移探究方法，其特征在于，在按时间对第一语料和第二语料进行划分时，所述方法包括：

将各个时间片段所包含的语料数量整理在设定范围内。

3.根据权利要求1所述的领域概念语义漂移探究方法，其特征在于，对第一语料进行划分，具体包括：

预处理，包括分词、去停用词和词性标注；

初次过滤，基于所述预处理结果确定领域术语的构词模式，并基于所述构词模式进行过滤得到候选领域术语；

再次过滤，对所述候选领域术语，运行TF-IDF算法抽取出最具有领域代表性的术语，接着运行TextRank算法将单词型术语合并为多词型术语，得到所述领域术语。

4.根据权利要求1所述的领域概念语义漂移探究方法，其特征在于，以所述领域术语的词嵌入计算两个领域术语之间的相似度，具体采用COS距离法。

5.根据权利要求1所述的领域概念语义漂移探究方法，其特征在于，以所述领域术语的词嵌入计算两个领域术语之间的语义相似度，以设定阈值作为两领域术语之间是否存在边的条件，构建各个时间片段的领域术语图，具体为：

两个领域术语之间的语义相似度作为边，在语义相似度大于设定阈值时，边存在，反之不存在，由此得到各个时间片段上的领域术语图。

6.根据权利要求1所述的的领域概念语义漂移探究方法，其特征在于，所述第一语料为法律、法规和政策语料；所述第二语料为新闻语料。

7.根据权利要求1所述的领域概念语义漂移探究方法，其特征在于，所述对动态领域术语图采用深度自编码器来获取动态节点嵌入，具体为：

在时间片段t内，令

为领域术语图G^t的加权邻接矩阵；

针对于节点

的嵌入，自编码器的输入为

其中n为G^t的节点数量；

基于

实现节点嵌入；

其中，t＝1,2,3,…,T；W^(K)为深度自编码器的参数，b^(K)为相应的偏置，ReLU为层间激活函数。