CN111104478A - 一种领域概念语义漂移探究方法 - Google Patents

一种领域概念语义漂移探究方法 Download PDF

Info

Publication number
CN111104478A
CN111104478A CN201910837746.0A CN201910837746A CN111104478A CN 111104478 A CN111104478 A CN 111104478A CN 201910837746 A CN201910837746 A CN 201910837746A CN 111104478 A CN111104478 A CN 111104478A
Authority
CN
China
Prior art keywords
domain
terms
corpus
embedding
concept
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910837746.0A
Other languages
English (en)
Inventor
李轶
赵璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201910837746.0A priority Critical patent/CN111104478A/zh
Publication of CN111104478A publication Critical patent/CN111104478A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Abstract

本发明公开了一种领域概念语义漂移探究方法,按时间对第一语料和第二语料进行划分;对每个时间片段上的第一语料进行过滤得到领域术语;以领域术语作为分词词典对每个时间片段上的第二语料进行预处理,再进行预训练词嵌入,保留各个时间片段上的领域术语的词嵌入;以领域术语作为图的节点,以领域术语的词嵌入计算两个领域术语之间的语义相似度,以设定阈值作为两领域术语之间是否存在边的条件,构建各个时间片段的领域术语图,得到动态领域术语图;对动态领域术语图进行动态节点嵌入,再对动态节点嵌入进行聚类,每个聚类为一个领域概念,各个时间片段上的聚类结果为概念语义漂移,以自动化的方式实现了概念语义漂移轨迹的探究。

Description

一种领域概念语义漂移探究方法
技术领域
本发明属于大数据处理技术领域,具体地说,是涉及一种领域概念语义漂移探究方法。
背景技术
随着互联网技术的迅猛发展,互联网上的数据量以指数形式增长;普通用户获取广义的信息不再存在任何困难,但是随之而来则是甄别的难度。同时,海量的无结构数据并不提供任何应用价值,只有在这些数据中挖掘出结构化的知识才能发挥出大数据的威力。文本作为无结构数据的代表,承载了人类几乎所有的知识,无结构的文本对于人来来说是良好的输入形式,我们可以相对容易的从中提取结构化的知识,但是对于计算机而言,则无法很好的理解和处理它们。从另一方面来说,从无结构的文本中挖掘出怎样的结构化知识,才能最大限度地提升计算机对于人类语言的理解。
概念,是人类对一个复杂的过程或事物的理解,是意义的载体。从哲学上来说,概念是思维的基本单元,但是这个说法并不提供任何可计算的视角。中华人民共和国国家标准GB/T15237.1-2000中论述到:概念是对特征的独特组合而形成的知识单元。同时在该标准中定义术语为:在特定专业领域中概念的词语指称。不同的领域术语描述了不同的特征组合,即描述了同一概念;因此,概念可以归纳为一组术语的集合且与领域紧密相关。同时,概念的语义并非一成不变,而是随着时间发展变化的,这就发生了概念语义漂移现象。造成此类现象的原因既有语言学上的也有非语言学上的,其中,非语言学上的原因包括社会文化、经济等方面。
概念在计算机利用无结构文本中扮演着重要角色且其语义随着时间推移而变化,考察探究这些概念语义漂移是有价值的,但在数据爆炸的今天,依靠人工来完成概念语义漂移轨迹探究显然不现实。
发明内容
本发明的目的在于提供一种领域概念语义漂移探究方法,基于法律、法规和政策语料,并以新闻语料为辅助,将概念语义漂移转换为一系列时间片段上的图,同时使用动态图嵌入算法来完成概念语义漂移,以自动化的方式实现了概念语义漂移轨迹的探究。
为解决上述技术问题,本发明采用以下技术方案予以实现:
提出一种领域概念语义漂移探究方法,包括:按时间对第一语料和第二语料进行划分;对每个时间片段上的第一语料进行过滤得到领域术语;以所述领域术语作为分词词典对每个时间片段上的第二语料进行预处理,再进行预训练词嵌入,保留各个时间片段上的领域术语的词嵌入;以所述领域术语作为图的节点,以所述领域术语的词嵌入计算两个领域术语之间的语义相似度,以设定阈值作为两领域术语之间是否存在边的条件,构建各个时间片段的领域术语图,得到动态领域术语图;对所述动态领域术语图进行动态节点嵌入,再对动态节点嵌入进行聚类,每个聚类为一个领域概念,各个时间片段上的聚类结果为概念语义漂移。
进一步的,在按时间对第一语料和第二语料进行划分时,所述方法包括:将各个时间片段所包含的语料数量整理在设定范围内。
进一步的,对第一语料进行划分,具体包括:预处理,包括分词、去停用词和词性标注;初次过滤,基于所述预处理结果确定领域术语的构词模式,并基于所述构词模式进行过滤得到候选领域术语;再次过滤,对所述候选领域术语,运行TF-IDF算法抽取出最具有领域代表性的术语,接着运行TextRank算法将单词型术语合并为多词型术语,得到所述领域术语。
进一步的,以所述领域术语的词嵌入计算两个领域术语之间的相似度,具体采用COS距离法。
进一步的,以所述领域术语的词嵌入计算两个领域术语之间的语义相似度,以设定阈值作为两领域术语之间是否存在边的条件,构建各个时间片段的领域术语图,具体为:两个领域术语之间的语义相似度作为边,在语义相似度大于设定阈值时,边存在,反之不存在,由此得到各个时间片段上的领域术语图。
进一步的,所述第一语料为法律、法规和政策语料;所述第二语料为新闻语料。
与现有技术相比,本发明的优点和积极效果是:本发明提出的领域概念语义漂移探究方法中,将法律、法规和政策语料以及新闻语料按照时间划分,之后分别在各个时间片段上进行预处理,包括分词以及去停用词等,之后通过观察法律、法规和政策语料中领域术语的构词特征,设定术语构词规则,按照此规则进行初步的领域术语抽取,得到各个时间片段上的候选领域术语,然后基于候选领域术语,再使用基于统计的方法:TF-IDF和TextRank算法进行领域术语的进一步过滤,最终得到较为完整的领域术语集合;接着使用得到的领域术语作为分词词典,对新闻语料进行预处理,之后在各个时间片段的新闻语料上分别训练BERT模型,得到领域术语的向量表示,继而在领域术语集合中,计算每两个领域术语相似度,以领域术语为节点,根据设定阈值,在两个领域术语节点的相似度大于设定阈值时,认为两个领域术语节点之间存在边,以此构建领域术语图,最后对动态领域术语图进行动态节点嵌入,在对动态节点嵌入进行聚类,每个聚类为一个领域概念,而各个时间片段上的聚类结果则体现了概念语义的漂移。
相比于现有技术中将术语直接或者进一步过滤之后作为概念,完全没有考虑概念是术语的集合这一性质的做法,以及,一些研究者对术语进行聚类,聚类结果中的每一类为一个概念,却没有考虑术语的领域性的做法,本发明将包含类似语义的所有领域术语作为概念,即概念是领域术语在更高抽象层面上的归纳,同时,使用数据结构表示领域术语及其之间的语义关系,更贴近中华人民共和国国家标准提出的概念是术语的集合且与领域密切相关的内容。
本发明还将概念语义漂移转换为一系列事件片段上的图,同时使用动态图嵌入算法来完成概念语义漂移;现阶段的动态图嵌入算法,如果在各个时间片段上分别运行静态图嵌入,由于图嵌入的优化函数的非凸性会导致各个时间片段上的图嵌入无法放在同一嵌入空间进行比较;如果在各个时间片段之间进行平滑正则,则会引入不必要的假设,比如各个时间片段之间的图嵌入为线性关系,而且这种平滑正则无法捕获长时依赖,而本发明提出的动态图嵌入则可以避免上述问题。
结合附图阅读本发明实施方式的详细描述后,本发明的其他特点和优点将变得更加清楚。
附图说明
图1为本发明提出的领域概念语义漂移探究方法的方法流程图;
图2为本发明提出的领域概念语义漂移探究方法中步骤S12的执行流程图;
图3为本发明提出的领域概念语义漂移探究方法中步骤S13的执行流程图;
图4为本发明提出的领域概念语义漂移探究方法中一个时间片段上图嵌入计算模型的示意图;
图5为本发明提出的领域概念语义漂移探究方法中又一个时间片段上图嵌入计算模型的示意图;
图6为本发明提出的领域概念语义漂移探究方法中动态图嵌入计算的算法示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步详细的说明。
本发明提出的领域概念语义漂移探究方法,可用于探究各领域中的概念语义随时间的变化。本发明主要分为两个阶段:第一为构建各个时间片段上的领域术语图,第二阶段在上述得到的各个时间片段上的领域术语图进行动态图节点嵌入。某一时间片段上的领域术语图的构建首先使用基于规则和统计的混合方法抽取领域术语,之后利用预训练语言模型计算领域术语之间的语义相似度,最后以领域术语为图节点、以术语之间的相似度为边权值构建领域术语图。各个时间片段上的领域术语图的集合构成了动态图,在其上进行动态节点嵌入,之后对各个时间片段上的嵌入进行聚类,聚类结果即为概念,而各个时间片段上的聚类结果则体现了概念语义的漂移。
具体的,如图1所示,包括如下步骤:
步骤S11:按时间对第一语料和第二语料进行划分。
本发明以社会保险和公积金领域的法律、法规和政策语料作为第一语料,以新闻语料为第二语料进行说明,但并不限定于上述领域。
以年为单位对语料进行划分是指:社会保险和公积金领域法律、法规和政策语料中均包含了发布日期,新闻语料液包含了发表该新闻的发布日期,利用这些信息对两种语料分别进行划分。
因为法律、法规和政策语料从时间角度看并不均匀,如表一所示,在实际处理中,本发明进行均匀化处理,也即,令各个时间片段所包含的语料数量在一个设定范围内,保持大致相等,如表二所示:
表一
Figure RE-GDA0002299178720000051
Figure RE-GDA0002299178720000061
表二
Figure RE-GDA0002299178720000062
Figure RE-GDA0002299178720000071
步骤S12:对每个时间片段上的第一语料进行过滤得到领域术语。
该步骤包括三部分:1、预处理:包括分词、去停用词和词性标注;本发明实施例中,采用结巴分词工具,该工具提供了导入停用词表、定制分词词典和词性标注等接口;本发明实施例中采用哈工大总结的中文停用词表。2、初次过滤:基于预处理结果确定领域术语的构词模式,并基于构词模式进行过滤得到候选领域术语;具体的,通过考察预处理结果可以发现领域术语的构词模式集中在哪些,例如集中在名词、动名词、形容词+名词以及名词性短语等,则可利用上述构词模式对预处理结果进行过滤,筛选出候选领域术语。3、再次过滤:对候选领域术语,运行TF-IDF算法抽取出最具有领域代表性的术语,接着运行TextRank算法将单词型术语合并为多词型术语,得到领域术语;具体的,对于通过上述1和2得到的候选领域术语,构建全部规则进行领域术语抽取费时费力、难以维护且方法可移植性较差,而基于简单规则抽取到的领域概念范围必然过大,本发明实施例中,首先运行TF-IDF算法,该算法可以抽取出在目标领域数据集中出现次数较多,同时在背景领域数据集出现次数较少的领域术语,即抽取出最具有领域代表性的术语;然后利用TextRank算法可以将单词型术语合并成多词型术语的特点,在TF-IDF算法的结果上运行TextRank算法,最终得到较为全面的领域术语抽取结果。
具体的执行流程参考图2所示。
步骤S13:以领域术语作为分词词典对每个时间片段上的第二语料进行预处理,再进行预训练词嵌入,保留各个时间片段上的领域术语的词嵌入。
利用上述步骤得到的领域术语作为分词词典对对应时间片段上的新闻语料进行分词,这样保证了每个领域术语可以获得独立的词嵌入而不必进行例如通过单词型术语词嵌入加和得到对应多词型术语词嵌入的构造。
本发明实施例中,采用BERT预训练语言模型,通过在上述新闻语料上运行BERT模型,可以获取领域术语的向量表示,为后续计算语义相似度做准备。
具体的执行流程参考图3所示。
步骤S14:以领域术语作为图的节点,以领域术语的词嵌入计算两个领域术语之间的语义相似度,以设定阈值作为两领域术语之间是否存在边的条件,构建各个时间片段的领域术语图,得到动态领域术语图。
本发明实施例中,图的构建是指:一个无向无环图,图中的节点表示领域术语,边表示节点(领域术语)之间的联系。边的存在是有条件的,本发明实施例中根据每两个领域术语之间的语义相似度作为条件,根据设定阈值,以此判断节点之间是否存在边,也即,如果两个领域术语的相似度大于设定阈值,则认为二者之间存在边,否则不存在边,以此来构建领域术语图。
具体的,令图的形式化表示为Gt=(Vt,Et,Simt),其中,t=1,2,3,…,T,表示T个时间片段上的不同的领域术语图;其中
Figure RE-GDA0002299178720000091
表示的是n个节点的集合;其中,
Figure RE-GDA0002299178720000092
表示领域术语之间的边,如果
Figure RE-GDA0002299178720000093
且 ut,vt∈Vt,则称领域术语u和v之间在时间片段t上存在语义联系;Simt用来描述两个节点之间在时间片段t时的语义相似度,利用上述的BERT预训练语言模型得到的时间片段t时的领域术语向量表示,记
Figure RE-GDA0002299178720000094
Figure RE-GDA0002299178720000095
令hold表示认为设定的设定阈值,如果
Figure RE-GDA0002299178720000096
则认为领域术语u和v在时间片段t上个具有较强的语义关系,即
Figure RE-GDA0002299178720000097
存在。
步骤S15:对动态领域术语图进行动态节点嵌入,再对动态节点嵌入进行聚类,每个聚类为一个领域概念,各个时间片段上的聚类结果为概念语义漂移。
本发明实施例中,对于概念的划分是指:根据中华人民共和国的国家标准 GB/T15237.1-2000所定义的,概念可以归纳为一组术语的集合且与领域密切相关,每一个概念应当包含若干个具有相似语义信息的术语。联系上述的领域术语图,每个概念(领域术语簇)之间的连接应当较为稀疏,而概念内部之间的连接则应较为紧密。
从图嵌入角度来说,如果某些节点之间的连接较为紧密,则它们之间的相似程度较高,在嵌入空间中则靠的较近。因此,本发明在各个时间片段的领域术语上进行词嵌入算法,之后对得到的节点嵌入进行聚类,聚类的结果即为概念抽取的结果,每个聚类即可表示为一个概念,则各个时间片段上的概念则体现了概念语义的漂移。
具体来说,通过上述步骤得到动态领域术语图Gt=(Vt,Et,Simt), t=1,2,3,…,T,在其上运行动态图嵌入算法,得到稳定的动态嵌入。
本发明实施例中的动态图嵌入算法如下:
如前所述,令G={G1,G2,…,GT}表示一时间序列的动态图,动态图嵌入的目标在于学习一组映射F={f1,f2,…,fT},其中
Figure RE-GDA0002299178720000101
Figure RE-GDA0002299178720000102
即ft将t时间片段的图节点映射至d维欧式空间,同时d<<|Vt|。而且良好的嵌入应当尽可能保留图的原始信息,即如果ut,vt∈Vt,且ut与vt在 Gt中“相似”,那么在嵌入空间中它们也彼此靠近。
如图4和图5所示,给出了连续两个时间片段之间和单个时间片段内的图嵌入计算模型。在单个时间片段内,本发明采用深度自编码器来获取节点嵌入。具体地,在时间片段t内,令
Figure RE-GDA0002299178720000103
为领域术语图Gt的加权邻接矩阵,针对于节点
Figure RE-GDA0002299178720000104
的嵌入,自编码器的输入为
Figure RE-GDA0002299178720000105
其中n为Gt的节点数量,即特定节点以其所有邻居作为特征进行计算,简记
Figure RE-GDA0002299178720000106
如图6所示,令
Figure RE-GDA0002299178720000107
其中W(1)为深度自编码器的参数,b(1)为相应的偏置,ReLU为层间激活函数,这里本发明选择整流线性单元ReLU作为激活函数。同理
Figure RE-GDA0002299178720000108
以此类推,最终可以得到
Figure RE-GDA0002299178720000109
即作为节点嵌入。带三角标号的字母代表解码过程,与编码过程类似,记其参数为
Figure RE-GDA00022991787200001010
图6中所示的θt,即为t时间片段上深度自编码器-解码器的需要训练优化得到参数集合,记
Figure RE-GDA00022991787200001011
为了学习到这些参数,本发明提出LOSSwhole=LOSSglob+αLOSSloc1L12L2损失函数,其中α、β1和β2为超参数,描述了各个部分损失对于总体损失的贡献程度; LOSSloc是将图中节点嵌入后,任意两节点嵌入之间造成的误差,利用节点之间的一阶相似度(加权邻接阵)进行定义:
Figure RE-GDA00022991787200001012
LOSSglob是描述解码器输出的
Figure RE-GDA00022991787200001013
与原始输入xi之间的差异:
Figure RE-GDA00022991787200001014
Figure RE-GDA0002299178720000111
其中B为一矩阵,元素取决于矩阵X=(Sij)n×n各个元素的值,如果Sij=0,那么令bij=1,否则令bij=ρ>1;L1与L2都是正则化项,其中
Figure RE-GDA0002299178720000112
此正则化项鼓励稀疏的参数,且
Figure RE-GDA0002299178720000113
Figure RE-GDA0002299178720000114
此正则化项是为了防止模型过拟合而加入。综上,在 t时间片段上优化上述损失函数,即可得该时间片段的参数集合
Figure RE-GDA0002299178720000115
Figure 10000236318
在连续两个时间片段之间,本发明采用增量式更新方式,即对于领域术语动态图G={G1,G2,…,GT},首先随机初始化参数集合θ1,之后在领域术语图G1上优化对应的LOSSwhole,得到优化完毕的θ1;使用优化完毕的θ1去初始化θ2,之后在领域术语图G2上优化对应的LOSSwhole,得到优化完毕的θ2,以此类推,直到得到所有时间片段上训练完毕的参数集合{θ12,…,θT}。需要注意的是,在两个连续时间片段之间的节点Vt-1与Vt,本发明考虑
Figure RE-GDA0002299178720000117
当Vt-1中的节点不在Vt中时,只需在Gt的加权邻接矩阵中设定该节点对其他所有节点的权值为零。
实验分析:本发明的实验采用的数据集如表1所示,均衡化的数据集如表 2所示。在构建各个时间片段上的领域术语图时,训练BERT模型选取的词向量维度默认为768,同时本发明令相似度阈值为0.65;LOSSloc的贡献α在 [10-6,10-5]之间随机生成;当Sij≠0时bij=ρ=[2,5]中随机选取;L1正则的系数β1设定为[10-6,10-4],同时L2正则的系数β2设定为[10-6,10-3];训练节点嵌入时,令嵌入维度d=100;在优化阶段,本发明令随机梯度的步长为10-5。在整体训练完毕时,针对于某个时间片段上的领域术语节点嵌入,使用 t-SNE等数据降维算法(降维至二维)。如图4和图5所示,给出了一个鲜明的概念漂移的例子,在时间片段2上,可以看到生育保险相关概念与医疗保险相关概念之间有着明显的距离,这表明其概念之间存在较大语义差异;在时间片段1上可以看到,生育保险相关概念与医疗保险相关概念之间距离大大缩短,而且存在融合趋势,反映在本发明的方法上,则造成“生育保险”与“职工医疗保险”等领域术语语义相似度增强,进而改变了相应的领域术语图的结构(即术语簇),进而改变了图嵌入。综上,本发明的整套方法是切实有效的。
应该指出的是,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (7)

1.一种领域概念语义漂移探究方法,其特征在于,包括:
按时间对第一语料和第二语料进行划分;
对每个时间片段上的第一语料进行过滤得到领域术语;
以所述领域术语作为分词词典对每个时间片段上的第二语料进行预处理,再进行预训练词嵌入,保留各个时间片段上的领域术语的词嵌入;
以所述领域术语作为图的节点,以所述领域术语的词嵌入计算两个领域术语之间的语义相似度,以设定阈值作为两领域术语之间是否存在边的条件,构建各个时间片段的领域术语图,得到动态领域术语图;
对所述动态领域术语图进行动态节点嵌入,再对动态节点嵌入进行聚类,每个聚类为一个领域概念,各个时间片段上的聚类结果为概念语义漂移。
2.根据权利要求1所述的领域概念语义漂移探究方法,其特征在于,在按时间对第一语料和第二语料进行划分时,所述方法包括:
将各个时间片段所包含的语料数量整理在设定范围内。
3.根据权利要求1所述的领域概念语义漂移探究方法,其特征在于,对第一语料进行划分,具体包括:
预处理,包括分词、去停用词和词性标注;
初次过滤,基于所述预处理结果确定领域术语的构词模式,并基于所述构词模式进行过滤得到候选领域术语;
再次过滤,对所述候选领域术语,运行TF-IDF算法抽取出最具有领域代表性的术语,接着运行TextRank算法将单词型术语合并为多词型术语,得到所述领域术语。
4.根据权利要求1所述的领域概念语义漂移探究方法,其特征在于,以所述领域术语的词嵌入计算两个领域术语之间的相似度,具体采用COS距离法。
5.根据权利要求1所述的领域概念语义漂移探究方法,其特征在于,以所述领域术语的词嵌入计算两个领域术语之间的语义相似度,以设定阈值作为两领域术语之间是否存在边的条件,构建各个时间片段的领域术语图,具体为:
两个领域术语之间的语义相似度作为边,在语义相似度大于设定阈值时,边存在,反之不存在,由此得到各个时间片段上的领域术语图。
6.根据权利要求1所述的的领域概念语义漂移探究方法,其特征在于,所述第一语料为法律、法规和政策语料;所述第二语料为新闻语料。
7.根据权利要求1所述的领域概念语义漂移探究方法,其特征在于,所述对动态领域术语图采用深度自编码器来获取动态节点嵌入,具体为:
在时间片段t内,令
Figure RE-FDA0002422147000000021
为领域术语图Gt的加权邻接矩阵;
针对于节点
Figure RE-FDA0002422147000000022
的嵌入,自编码器的输入为
Figure RE-FDA0002422147000000023
其中n为Gt的节点数量;
基于
Figure RE-FDA0002422147000000024
实现节点嵌入;
其中,t=1,2,3,…,T;W(K)为深度自编码器的参数,b(K)为相应的偏置,ReLU为层间激活函数。
CN201910837746.0A 2019-09-05 2019-09-05 一种领域概念语义漂移探究方法 Withdrawn CN111104478A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910837746.0A CN111104478A (zh) 2019-09-05 2019-09-05 一种领域概念语义漂移探究方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910837746.0A CN111104478A (zh) 2019-09-05 2019-09-05 一种领域概念语义漂移探究方法

Publications (1)

Publication Number Publication Date
CN111104478A true CN111104478A (zh) 2020-05-05

Family

ID=70421398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910837746.0A Withdrawn CN111104478A (zh) 2019-09-05 2019-09-05 一种领域概念语义漂移探究方法

Country Status (1)

Country Link
CN (1) CN111104478A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487801A (zh) * 2020-10-23 2021-03-12 南京航空航天大学 一种面向安全关键软件的术语推荐方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090300486A1 (en) * 2008-05-28 2009-12-03 Nec Laboratories America, Inc. Multiple-document summarization using document clustering
CN104778204A (zh) * 2015-03-02 2015-07-15 华南理工大学 基于两层聚类的多文档主题发现方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN108170840A (zh) * 2018-01-15 2018-06-15 浙江大学 一种面向文本的领域分类关系自动学习方法
CN109087223A (zh) * 2018-08-03 2018-12-25 广州大学 一种基于本体的教育资源模型构建方法
CN109117477A (zh) * 2018-07-17 2019-01-01 广州大学 面向中文领域的非分类关系抽取方法、装置、设备及介质
CN109213995A (zh) * 2018-08-02 2019-01-15 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术
CN109753664A (zh) * 2019-01-21 2019-05-14 广州大学 一种面向领域的概念抽取方法、终端设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090300486A1 (en) * 2008-05-28 2009-12-03 Nec Laboratories America, Inc. Multiple-document summarization using document clustering
CN101676897A (zh) * 2008-05-28 2010-03-24 美国日本电气实验室公司 利用文档聚类的多文档概括
CN104778204A (zh) * 2015-03-02 2015-07-15 华南理工大学 基于两层聚类的多文档主题发现方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN108170840A (zh) * 2018-01-15 2018-06-15 浙江大学 一种面向文本的领域分类关系自动学习方法
CN109117477A (zh) * 2018-07-17 2019-01-01 广州大学 面向中文领域的非分类关系抽取方法、装置、设备及介质
CN109213995A (zh) * 2018-08-02 2019-01-15 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术
CN109087223A (zh) * 2018-08-03 2018-12-25 广州大学 一种基于本体的教育资源模型构建方法
CN109753664A (zh) * 2019-01-21 2019-05-14 广州大学 一种面向领域的概念抽取方法、终端设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487801A (zh) * 2020-10-23 2021-03-12 南京航空航天大学 一种面向安全关键软件的术语推荐方法及系统

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
Yu et al. Topic-oriented image captioning based on order-embedding
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
KR102008845B1 (ko) 비정형 데이터의 카테고리 자동분류 방법
Gao et al. Convolutional neural network based sentiment analysis using Adaboost combination
CN114064918B (zh) 一种多模态事件知识图谱构建方法
CN108228541A (zh) 生成文档摘要的方法和装置
CN110750635A (zh) 一种基于联合深度学习模型的法条推荐方法
CN111581368A (zh) 一种基于卷积神经网络的面向智能专家推荐的用户画像方法
Li et al. UD_BBC: Named entity recognition in social network combined BERT-BiLSTM-CRF with active learning
CN114580428A (zh) 融合多任务和多标签学习的司法领域深度事件抽取方法
CN112784017B (zh) 基于主亲和性表示的档案跨模态数据特征融合方法
Thorvaldsen et al. A tale of two transcriptions. Machine-assisted transcription of historical sources
CN111104478A (zh) 一种领域概念语义漂移探究方法
CN116720498A (zh) 一种文本相似度检测模型的训练方法、装置及其相关介质
CN116227594A (zh) 面向多源数据的医疗行业高可信度知识图谱的构建方法
CN114942977A (zh) 基于支持句预测的多任务文档级关系抽取方法及装置
CN111046934B (zh) 一种swift报文软条款识别方法及装置
CN111199154B (zh) 基于容错粗糙集的多义词词表示方法、系统及介质
CN114169332A (zh) 一种基于深度学习模型的地址命名实体识别的调优方法
CN112434145A (zh) 一种基于图像识别和自然语言处理的看图作诗方法
Hou et al. Automatic Classification of Basic Nursing Teaching Resources Based on the Fusion of Multiple Neural Networks.
Nakajima et al. Text Classification Using a Graph Based on Relationships Between Documents
Worke INFORMATION EXTRACTION MODEL FROM GE’EZ TEXTS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200505

WW01 Invention patent application withdrawn after publication