CN111046665A - 一种领域术语语义漂移抽取方法 - Google Patents

一种领域术语语义漂移抽取方法 Download PDF

Info

Publication number
CN111046665A
CN111046665A CN201911222879.3A CN201911222879A CN111046665A CN 111046665 A CN111046665 A CN 111046665A CN 201911222879 A CN201911222879 A CN 201911222879A CN 111046665 A CN111046665 A CN 111046665A
Authority
CN
China
Prior art keywords
term
sen
domain
word
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911222879.3A
Other languages
English (en)
Other versions
CN111046665B (zh
Inventor
黄少滨
李轶
李熔盛
申林山
何杰
李泽松
张柏嘉
颜伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201911222879.3A priority Critical patent/CN111046665B/zh
Publication of CN111046665A publication Critical patent/CN111046665A/zh
Application granted granted Critical
Publication of CN111046665B publication Critical patent/CN111046665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明属于文本语义提取技术领域,具体涉及一种领域术语语义漂移抽取方法。只要该专业领域的术语语义具有鲜明的时间地域特性(比如社会保险领域中的法律法规和政策等),都可以利用本方法来抽取四元组(领域术语,时间,地域,语义),并以此来刻画领域术语的语义漂移。

Description

一种领域术语语义漂移抽取方法
技术领域
本发明属于文本语义提取技术领域,具体涉及一种领域术语语义漂移抽取方法。
背景技术
某些专业领域中的术语,其解释或者定义(即它们的语义)会随着时间和地域的不同而产生变化。一个鲜明的例子是法律领域中的术语,比如在社会保险(医疗保险)领域相关的法律、法规和政策中“起付线”这个术语,它在2018年北京市医疗保险的语境下被解释为:退休人员1300元,在职职工1800元;同年,上海市医疗保险的语境下被解释为:退休人员700元,在职职工1500元。
要处理和抽取的对象都来自于海量的、某一专业领域的文本。文本作为无结构数据的代表,对于人类来说是良好的输入形式,但是对于计算机来说其本身不提供任何应用价值,只有从其中挖掘出结构化的知识才能真正发挥出计算机处理大数据的优势。而术语,从哲学上说则是思维的基本单元,它描述了客观世界中存在的事物,是概念的词语指称。在专业领域中,一个个术语构成的一个个思维单元便组成了一个个待抽取的结构化知识。另一方面,根据Furnas的论述,如果不加限制的情况下使用词汇,不同的人会对同一个概念赋予不同的名称,或是对同一个名称的理解各不相同。为了某一领域的知识在实施过程中人们能够正确理解与自身相关的问题、解决路线方针、采取的措施和最终的结果,那么研究领域术语在不同时间和不同地域上的语义漂移就至关重要。
通常来说,如果靠人工在海量的专业领域文本中挖掘领域术语及其时间地域相关的语义并不现实;基于关键词和布尔检索的传统信息检索系统,查全率只有20%左右且无法提供术语语义上的检索结果,而人工智能技术加持下的现代搜索技术则通过引入自然语言理解来提供术语语义上的检索结果,但是还没有相关研究考虑这种术语语义时空上的漂移。
发明内容
本发明的目的在于提供在某一专业领域的术语语义具有鲜明的时间地域特性的前提下,从领域文本语料中抽取这些领域术语语义漂移,并将抽取结果组织成四元组(领域术语,时间,地域,语义)形式的一种领域术语语义漂移抽取方法。
本发明的目的通过如下技术方案来实现:包括以下步骤:
步骤1:输入待识别的文本C={c1,c2,…,cN},ci为其中一篇文本,i=1,2,..,N;判断待识别的文本C所属的领域;
步骤2:根据待识别文本所属领域术语的词性构词法,制定单词或词串匹配组合规则;
步骤3:对待识别的文本C={c1,c2,…,cN}进行分词处理,并根据单词或词串匹配组合规则对单词或词串进行标注,得到候选领域术语集合CandidateSet;
步骤4:对候选领域术语集合CandidateSet中的词串进行筛选;将通过筛选的词串及候选领域术语集合CandidateSet中的单词存入集合SelectedSet中;
步骤5:对集合SelectedSet中的单词和词串进行过滤,得到待识别的文本的领域术语集合Term={term1,term2,...,terms};
令集合Terminology={T1,T2,...,TM}表示人工挑选的、在待识别的文本C={c1,c2,...,cN}中出现的、确定是领域术语的集合;令集合NotTerminology={NT1,NT2,...,NTM}表示人工挑选的、在待识别的文本C={c1,c2,...,cN}中出现的、确定不是领域术语的集合;将SelectedSet按照组件数量划分为:
SelectedSet(1),SelectedSet(2),…,SelectedSet(MAX)
步骤5.1:使用SelectedSet(1),SelectedSet(2),...,SelectedSet(MAX)中的单词或词串作为用户分词词典,分别对待识别的文本C进行分词,得到领域语料C(1),C(2),...,C(MAX)
步骤5.2:在领域语料C(1),C(2),...,C(MAX)上分别训练各自的词嵌入模型;
Word2Vec(1),Word2Vec(2),…,Word2Vec(MAX)
对于某一领域语料中的任意一个单词或词串,即
Figure BDA0002301331830000024
i=1,2,...,MAX,记其词嵌入为
Word2vec(i)(w)∈Rd
其中d为嵌入空间维度;
步骤5.3:对于SelectedSet(1),SelectedSet(2),...,SelectedSet(MAX)中的单词或词串进行过滤;
令Terminology中的元素在各个不同的语义空间下的原型为c1,...,cMAX,令NotTerminology中的元素在各个不同语义空间下的原型为nc1,...,ncMAX
某一语义空间下的正类原型表示为:
Figure BDA0002301331830000021
其中t=1,2,...,MAX;
某一语义空间下的负类原型表示为:
Figure BDA0002301331830000022
对于
Figure BDA0002301331830000023
w属于正类的概率为:
Figure BDA0002301331830000031
w属于负类的概率为:
Figure BDA0002301331830000032
如果p(w为正类|w)>p(w为负类|w),则判定w为领域术语;否则,判定w不是领域术语;
步骤6:对待识别的文本C={c1,c2,...,cN}进行分句,对于任意ci∈C,划分为M个句子,表示为
Figure BDA0002301331830000033
针对任意termk∈Term,在待识别的文本C={c1,c2,...,cN}中定位其所在句子,记termk在其中出现的位置为index(termk)=t,t=1,2,...,M;
步骤7:如果1≤t≤M-2,那么抽取
Figure BDA0002301331830000034
如果t=M-1,那么抽取
Figure BDA0002301331830000035
如果t=M,那么抽取
Figure BDA0002301331830000036
对于抽取到的每一个句子,计算其长度len(sen),如果其长度小于等于20,则认为其不是候选领域术语时间地域相关语义,得到四元组:
(termi,time,district,{senj,...,senk})
其中,time和district分别为时间和地域,可以使用简单的字符串匹配和正则表达式等从时间地域性鲜明的待识别的文本中直接获取;{senj,...,senk}为termi得到的候选领域术语时间地域相关语义;
步骤8:对于四元组(termi,time,district,{senj,...,senk})进行过滤,得到最终待识别的文本C={c1,c2,...,cN}的领域术语语义漂移抽取结果四元组;
定义人工挑选的、在待识别的文本中出现的、确定是领域术语时间地域相关语义的集合为Semantics={sem1,sem2,...,semL};定义人工挑选的、在领域语料中出现的、确定不是领域术语时间地域相关语义的集合为NotSemantics={Nsem1,...,NsemL};令某一句子的嵌入表示为:
Sen2Vec(sen)∈Rd
其中d为嵌入维度,正类原型表示为:
Figure BDA0002301331830000037
负类原型表示为:
Figure BDA0002301331830000041
在进行领域术语时间地域相关语义过滤时,对于(termi,time,district,{senj,...,senk})其中的{senj,...,senk}每一个候选句子,分别计算其属于正类和负类的概率:
Figure BDA0002301331830000042
如果p(sen为正类|sen∈{senj,...,senk})>p(sen为负类|sen∈{senj,...,senk}),则认为其属于正类,即在{senj,...,senk}中保留该句子;否则,则认为其属于负类,即在{senj,...,senk}中过滤该句子;以此完成所有(termi,time,district,{senj,...,senk})中领域术语时间地域相关语义的过滤。
本发明还可以包括:
所述的步骤4中对候选领域术语集合CandidateSet中的词串进行筛选的方法具体为:
对于任意(w1,w2,...,wt)∈CandidateSet,t=1,2,...,MAX,计算词串的PMI值,设定阈值,若词串的PMI值大于设定的阈值,则通过筛选并存入SelectedSet中;
对于由两个单词组成的词串(wi,wj),其PMI值的计算方法为:
扫描整个待识别的文本C={c1,c2,...,cN},在滑动窗口长度一致的情况下分别统计:
1)wi在窗口滑动时出现的次数,记为#(wi);
2)wj在窗口滑动时出现的次数,记为#(wj);
3)wi和wj在窗口滑动时以顺序(wi,wj)共同出现的次数,记为#(wi,wj);
4)滑动窗口滑动时产生的不同的片段个数,记为N;则由两个单词组成的词串(wi,wj)的PMI值为:
Figure BDA0002301331830000043
对于由三个或者三各以上单词组成的词串(wi,wj,wk,...),其PMI值的计算方法为:
Figure BDA0002301331830000051
本发明的有益效果在于:
本发明提供了一种领域术语语义漂移抽取方法,可在某一专业领域的术语语义具有鲜明的时间地域特性的前提下,使用本发明的方法自动地从领域文本语料中抽取这些领域术语语义漂移,并将抽取结果组织成四元组(领域术语,时间,地域,语义)形式,并以此来刻画领域术语的语义漂移。
附图说明
图1为本发明的总体流程图。
图2为本发明的基于规则的候选领域术语抽取流程图。
图3为本发明实施例1中i=2,j=3时的具体示例图。
图4为本发明的基于小样本学习的领域术语过滤示意图。
图5为本发明的基于规则的候选领域术语时间地域相关语义抽取示意图。
图6为本发明的基于规则的候选领域术语抽取的伪代码描述图。
图7为本发明的基于统计的候选领域术语筛选伪代码描述图。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明拟解决的问题是:在某一专业领域的术语语义具有鲜明的时间地域特性的前提下,使用算法自动地从领域文本语料中抽取这些领域术语语义漂移,并将抽取结果组织成四元组(领域术语,时间,地域,语义)形式。本发明提出一种领域术语语义漂移抽取方法,只要该专业领域的术语语义具有鲜明的时间地域特性(比如社会保险领域中的法律法规和政策等),都可以利用本方法来抽取四元组(领域术语,时间,地域,语义),并以此来刻画领域术语的语义漂移。
一种领域术语语义漂移抽取方法,包括以下步骤:
步骤1:输入待识别的文本C={c1,c2,…,cN},ci为其中一篇文本,i=1,2,..,N;判断待识别的文本C所属的领域;
步骤2:根据待识别文本所属领域术语的词性构词法,制定单词或词串匹配组合规则;
步骤3:对待识别的文本C={c1,c2,…,cN}进行分词处理,并根据单词或词串匹配组合规则对单词或词串进行标注,得到候选领域术语集合CandidateSet;
步骤4:对候选领域术语集合CandidateSet中的词串进行筛选;将通过筛选的词串及候选领域术语集合CandidateSet中的单词存入集合SelectedSet中;
步骤5:对集合SelectedSet中的单词和词串进行过滤,得到待识别的文本的领域术语集合Term={term1,term2,...,terms};
令集合Terminology={T1,T2,...,TM}表示人工挑选的、在待识别的文本C={c1,c2,...,cN}中出现的、确定是领域术语的集合;令集合NotTerminology={NT1,NT2,...,NTM}表示人工挑选的、在待识别的文本C={c1,c2,...,cN}中出现的、确定不是领域术语的集合;将SelectedSet按照组件数量划分为:
SelectedSet(1),SelectedSet(2),…,SelectedSet(MAX)
步骤5.1:使用SelectedSet(1),SelectedSet(2),...,SelectedSet(MAX)中的单词或词串作为用户分词词典,分别对待识别的文本C进行分词,得到领域语料C(1),C(2),...,C(MAX)
步骤5.2:在领域语料C(1),C(2),...,C(MAX)上分别训练各自的词嵌入模型;
Word2Vec(1),Word2Vec(2),…,Word2Vec(MAX)
对于某一领域语料中的任意一个单词或词串,即
Figure BDA0002301331830000065
记其词嵌入为
Word2vec(i)(w)∈Rd
其中d为嵌入空间维度;
步骤5.3:对于SelectedSet(1),SelectedSet(2),...,SelectedSet(MAX)中的单词或词串进行过滤;
令Terminology中的元素在各个不同的语义空间下的原型为c1,...,cMAX,令NotTerminology中的元素在各个不同语义空间下的原型为nc1,...,ncMAX
某一语义空间下的正类原型表示为:
Figure BDA0002301331830000061
其中t=1,2,...,MAX;
某一语义空间下的负类原型表示为:
Figure BDA0002301331830000062
对于
Figure BDA0002301331830000064
w属于正类的概率为:
Figure BDA0002301331830000063
w属于负类的概率为:
Figure BDA0002301331830000071
如果p(w为正类|w)>p(w为负类|w),则判定w为领域术语;否则,判定w不是领域术语;
步骤6:对待识别的文本C={c1,c2,...,cN}进行分句,对于任意ci∈C,划分为M个句子,表示为
Figure BDA0002301331830000074
针对任意termk∈Term,在待识别的文本C={c1,c2,...,cN}中定位其所在句子,记termk在其中出现的位置为index(termk)=t,t=1,2,...,M;
步骤7:如果1≤t≤M-2,那么抽取
Figure BDA0002301331830000075
如果t=M-1,那么抽取
Figure BDA0002301331830000076
如果t=M,那么抽取
Figure BDA0002301331830000077
对于抽取到的每一个句子,计算其长度len(sen),如果其长度小于等于20,则认为其不是候选领域术语时间地域相关语义,得到四元组:
(termi,time,district,{senj,...,senk})
其中,time和district分别为时间和地域,可以使用简单的字符串匹配和正则表达式等从时间地域性鲜明的待识别的文本中直接获取;{senj,...,senk}为termi得到的候选领域术语时间地域相关语义;
步骤8:对于四元组(termi,time,district,{senj,...,senk})进行过滤,得到最终待识别的文本C={c1,c2,...,cN}的领域术语语义漂移抽取结果四元组;
定义人工挑选的、在待识别的文本中出现的、确定是领域术语时间地域相关语义的集合为Semantics={sem1,sem2,...,semL};定义人工挑选的、在领域语料中出现的、确定不是领域术语时间地域相关语义的集合为NotSemantics={Nsem1,...,NsemL};令某一句子的嵌入表示为:
Sen2Vec(sen)∈Rd
其中d为嵌入维度,正类原型表示为:
Figure BDA0002301331830000072
负类原型表示为:
Figure BDA0002301331830000073
在进行领域术语时间地域相关语义过滤时,对于(termi,time,district,{senj,...,senk})其中的{senj,...,senk}每一个候选句子,分别计算其属于正类和负类的概率:
Figure BDA0002301331830000081
如果p(sen为正类|sen∈{senj,...,senk})>p(sen为负类|sen∈{senj,...,senk}),则认为其属于正类,即在{senj,...,senk}中保留该句子;否则,则认为其属于负类,即在{senj,...,senk}中过滤该句子;以此完成所有(termi,time,district,{senj,...,senk})中领域术语时间地域相关语义的过滤。
所述的步骤4中对候选领域术语集合CandidateSet中的词串进行筛选的方法具体为:
对于任意(w1,w2,...,wt)∈CandidateSet,t=1,2,...,MAX,计算词串的PMI值,设定阈值,若词串的PMI值大于设定的阈值,则通过筛选并存入SelectedSet中;
对于由两个单词组成的词串(wi,wj),其PMI值的计算方法为:
扫描整个待识别的文本C={c1,c2,...,cN},在滑动窗口长度一致的情况下分别统计:
1)wi在窗口滑动时出现的次数,记为#(wi);
2)wj在窗口滑动时出现的次数,记为#(wj);
3)wi和wj在窗口滑动时以顺序(wi,wj)共同出现的次数,记为#(wi,wj);
4)滑动窗口滑动时产生的不同的片段个数,记为N;则由两个单词组成的词串(wi,wj)的PMI值为:
Figure BDA0002301331830000082
对于由三个或者三各以上单词组成的词串(wi,wj,wk,...),其PMI值的计算方法为:
Figure BDA0002301331830000083
实施例1:
为了得到能够描述领域术语语义漂移的四元组(领域术语,时间,地域,语义),我们需要从领域语料中抽取两方面的内容,分别是领域术语和其时间地域相关的语义。如图1所示,为本方法的整体流程图。其中,标注为数字1的虚线框内的流程表示领域术语抽取:从领域语料出发,经过步骤A1(基于规则的候选领域术语抽取)、步骤A2(基于统计的候选领域术语筛选)和步骤A3(基于小样本学习的领域术语过滤),得到最终的领域术语集合;标注为数字2的虚线框内的流程表示领域术语时间地域相关语义抽取:利用抽取得到领域术语和领域语料,经过步骤B1(基于规则的候选领域术语时间地域相关语义抽取)、步骤B2(基于小样本学习的领域术语时间地域相关语义过滤),得到最终的领域术语时间地域相关语义。
需要注意的是,这里我们没有提供对四元组中时间和地域两个元素的抽取过程。理由在于:由于我们约定的领域语料中的领域术语满足鲜明的时间和地域特性,即我们可以根据领域术语,在领域语料中依靠简单的字符串匹配和正则表达式即可抽取相应的时间和地域,故不再详细阐述。
如前所示,领域术语抽取过程分为A1、A2和A3三个步骤,下面分别进行详细阐述。
A1步骤:基于规则的候选领域术语抽取
所谓基于规则的候选领域术语抽取,是指利用词性/词性组合规则在领域语料中匹配可能的领域术语,作为候选领域术语存在。比如我们有词性组合规则(名词,名词,名词),在领域语料中,满足上述规则的连续三个词汇构成的词串为候选领域术语。一般来说,这些规则是人工通过观察专业领域中的领域术语的词性构词法总结而来。这里我们记规则集合为:
R={r1,r2,...,rM},其中rj=(...,POSk,...)∈R
表示R中的某一规则rj由若干词性组合而成。同时,令len(rj)表示rj中包含的词性的个数,按照每个规则中包含词性的个数划分,可以将规则集合划分为:
R=R1∪R2∪…∪RMAX,其中len(rj)=i的所有规则都在Ri中。
不失一般性,我们令领域语料表示为:
C={c1,c2,...,cN},其中ci,i=1,2,..,N为其中一篇领域文本。
我们使用现有分词工具(比如LTP或者Jieba),在不引入任何外部用户分词词典的情况下,对领域语料进行分词和词性标注。此时,对于任意ci∈C,可以表示为:
Figure BDA0002301331830000091
其中
Figure BDA0002301331830000093
表示ci中被分出来的词,对应地,
Figure BDA0002301331830000092
表示该词的词性。
如图2所示,为基于规则的候选领域术语抽取流程。联系图2,我们给出基于规则的候选领域术语抽取的伪代码描述,如图6所示的伪代码描述了基于规则的候选领域术语抽取的主要部分。其中循环变量i指示了当前正在被抽取的文本(C={c1,c2,...,cN});循环变量j指示了当前用以抽取候选领域的的规则集合(R=R1∪R2∪…∪RMAX);循环变量count指示了当前被抽取文本中与相应规则进行匹配的起点。具体地,我们给出了当i=2,j=3时的一个例子,见图3所示。
A2步骤:基于统计的候选领域术语筛选
所谓基于统计的候选领域术语筛选,是指利用统计的方法对上述CandidateSet中的结果进行筛选。从本质上说,基于规则的候选领域术语抽取,由于规则的构建依赖于领域,所以只是利用了领域性的组合规律,没有考虑组合抽取出来的词/词串在自然语言上是否能够构成术语。
从统计的角度看词/词串是否能构成术语,其实是在考察:对于任意(w1,w2,...,wt)∈CandidateSet,是否符合自然语言规范,其中t=1,2,...,MAX(取决于规则的长度)。所谓符合自然语言规范,即是考察词/词串(w1,w2,...,wt)中各个部分的“粘合”程度,反映在统计上,即是各个部分之间的相关性。形式上,我们利用PMI(Pointwise MutualInformation)来衡量。具体地,对于两个组件的候选领域术语(wi,wj),其PMI定义为:
Figure BDA0002301331830000101
根据上式,最差的情况是wi与wj互相独立,即:
p(wi,wj)=p(wi)p(wj)
此时:
Figure BDA0002301331830000102
同时,如果wi与wj之间的相关性越大,那么PMI的值就越大。
在具体计算时,对于二组件的候选领域术语(wi,wj),扫描整个领域语料,在滑动窗口长度一致的情况下(比如使用7-gram或者10-gram)分别统计:
1)wi在窗口滑动时出现的次数,记为#(wi);
2)wj在窗口滑动时出现的次数,记为#(wj);
3)wi和wj在窗口滑动时以顺序(wi,wj)共同出现的次数,记为#(wi,wj);
4)滑动窗口滑动时产生的不同的片段个数,记为N
至此,可以计算:
Figure BDA0002301331830000111
对于三或者三以上组件的候选领域术语(wi,wj,wk,...),与二组件类似,在领域语料中进行统计,并通过下式进行计算PMI值:
Figure BDA0002301331830000112
综上,基于统计的候选领域术语筛选,可用如图7所述的伪代码进行描述,其中伪代码中出现的threshold(k)为人为设置的、相应k组件的候选领域术语是否被保留的阈值。如果计算得到的相应PMI值大于设定的阈值,则认为该候选领域术语通过筛选并存入SelectedSet中。
A3步骤:基于小样本学习的领域术语过滤
作为领域术语抽取的最后一个步骤,基于小样本学习的领域术语过滤是在候选领域术筛选的基础上,利用Prototypical Network的思想对筛选术语进行过滤。具体地,令集合Terminology={T1,T2,...,TM}表示人工挑选的、在领域语料中出现的、确定是领域术语的集合,其中M为一较小的数(比如5或10等)。同时,令集合NotTerminology={NT1,NT2,...,NTM}表示人工挑选的、在领域语料中出现的、确定不是领域术语的集合。我们将SelectedSet进行划分,与前同理,按照组件数量将其划分为:
SelectedSet(1),SelectedSet(2),...,SelectedSet(MAX)
我们基于小样本学习的领域术语过滤的示意图如图4所示。其详细过程如下:
(1)首先,我们使用SelectedSet(1),SelectedSet(2),...,SelectedSet(MAX)中的词/词串作为用户分词词典,分别对领域语料C进行分词,得到领域语料C(1),C(2),...,C(MAX)
(2)之后,在各个分词完毕的领域语料C(1),C(2),...,C(MAX)上分别训练各自的词嵌入模型(即为不同的语义空间),记为:
Word2Vec(1),Word2Vec(2),...,Word2Vec(MAX)
对于某一领域语料中的任意一个词/词串,即
Figure BDA0002301331830000113
记其词嵌入为
Word2vec(i)(w)∈Rd
其中d为嵌入空间维度。
(3)最后,对于SelectedSet(1),SelectedSet(2),...,SelectedSet(MAX)中的词/词串,联系上述人工挑选的Terminology和NotTerminology,进行过滤。
具体地,令Terminology中的元素在各个不同的语义空间下的原型(所谓原型,即是每个类别的表示,比如,Terminology集合表示“是”领域术语的类别,不妨称之为正类,而NotTerminology集合则表示“不是”领域术语的类别,不妨称之为负类)为c1,...,cMAX,同理,令NotTerminology在不同语义空间下的原型为nc1,...,ncMAX
可以得到,某一语义空间下的正类的原型表示为:
Figure BDA0002301331830000121
其中t=1,2,...,MAX。同理,某一语义空间下的负类原型表示为:
Figure BDA0002301331830000122
对于
Figure BDA0002301331830000125
我们通过计算并比较其属于哪一类的概率来进行过滤。具体地,令
Figure BDA0002301331830000123
即,给定w时,计算w属于正类的概率。同理,可得w属于负类的概率为:
Figure BDA0002301331830000124
如果p(w为正类|w)>p(w为负类|w),则认为w为领域术语,否则,则认为w不是领域术语,从而完成过滤。
领域术语时间地域相关语义抽取
如前所示,领域术语时间地域相关语义抽取过程分为B1和B2两个步骤,下面分别进行阐述。
B1步骤:基于规则的候选领域术语时间地域相关语义抽取
基于规则的候选领域术语时间地域相关语义抽取,其中规则分为匹配规则和排除规则。所谓匹配规则是指:符合此规则的领域术语的时间地域相关语义有可能是真实的时间地域相关语义;所谓排除规则是指:符合此规则的领域术语时间地域相关语义一定不是真实的时间地域相关语义。
我们给出基于规则的候选领域术语时间地域相关语义抽取的流程图如图5所示。令过滤完毕的领域术语集合为:
Term={term1,term2,...,terms}
针对任意termk∈Term,我们在领域语料中定位其所在句子。如前所述,领域语料可以表示为:
C={c1,c2,...,cN}
按照语言学知识,句子之间通常以句号、问号、省略号或感叹号划分。据此,我们将领域语料中每一篇文本进行分句,于是对于任意ci∈C,划分为M个句子,可以表示为:
Figure BDA0002301331830000132
记termk在其中出现的位置为index(termk)=t,t=1,2,...,M。
联系上文,我们给出匹配规则:如果1≤t≤M-2,那么抽取
Figure BDA0002301331830000133
如果t=M-1,那么抽取
Figure BDA0002301331830000134
如果t=M,那么抽取
Figure BDA0002301331830000135
同时,我们给出排除规则:对于抽取到的每一个句子,计算其长度len(sen)(每一个字符算一个长度单位),如果其长度小于等于20,则认为其不是候选领域术语时间地域相关语义。
经过此步骤后,我们可以将结果组织成如下形式:
(termi,time,district,{senj,...,senk})
其中,termi∈Term表示一个领域术语;time和district分别为时间和地域,如前所述,可以使用简单的字符串匹配和正则表达式等从时间地域性鲜明的领域语料中直接获取;{senj,...,senk}为termi经过步骤B1所得到的候选领域术语时间地域相关语义。
B2步骤:基于小样本学习的领域术语时间地域相关语义过滤
与A3步骤类似,区别在于不使用词嵌入作为句子表示,而是使用句嵌入,即Sen2Vec。我们记人工挑选的、在领域语料中出现的、确定是领域术语时间地域相关语义的集合(称其为正类)为:Semantics={sem1,sem2,...,semL},L同样为较小的正整数;同时,记人工挑选的、在领域语料中出现的、确定不是领域术语时间地域相关语义的集合(称其为负类)为:NotSemantics={Nsem1,...,NsemL}。令某一句子的嵌入表示为:
Sen2Vec(sen)∈Rd
其中d为嵌入维度。由此我们表示正类原型为:
Figure BDA0002301331830000131
同理,负类原型表示为:
Figure BDA0002301331830000141
在进行领域术语时间地域相关语义过滤时,(termi,time,district,{senj,...,senk})其中的{senj,...,senk}每一个候选句子,分别计算其属于正类和负类的概率:
Figure BDA0002301331830000142
如果p(sen为正类|sen∈{senj,...,senk})>p(sen为负类|sen∈{senj,...,senk}),则认为其属于正类,即在{senj,...,senk}中保留该句子;否则,则认为其属于负类,即在{senj,...,senk}中过滤该句子。以此完成所有(termi,time,district,{senj,...,senk})中领域术语时间地域相关语义的过滤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种领域术语语义漂移抽取方法,其特征在于,包括以下步骤:
步骤1:输入待识别的文本C={c1,c2,…,cN},ci为其中一篇文本,i=1,2,..,N;判断待识别的文本C所属的领域;
步骤2:根据待识别文本所属领域术语的词性构词法,制定单词或词串匹配组合规则;
步骤3:对待识别的文本C={c1,c2,…,cN}进行分词处理,并根据单词或词串匹配组合规则对单词或词串进行标注,得到候选领域术语集合CandidateSet;
步骤4:对候选领域术语集合CandidateSet中的词串进行筛选;将通过筛选的词串及候选领域术语集合CandidateSet中的单词存入集合SelectedSet中;
步骤5:对集合SelectedSet中的单词和词串进行过滤,得到待识别的文本的领域术语集合Term={term1,term2,…,terms};
令集合Terminology={T1,T2,…,TM}表示人工挑选的、在待识别的文本C={c1,c2,…,cN}中出现的、确定是领域术语的集合;令集合NotTerminology={NT1,NT2,…,NTM}表示人工挑选的、在待识别的文本C={c1,c2,…,cN}中出现的、确定不是领域术语的集合;将SelectedSet按照组件数量划分为:
SelectedSet(1),SelectedSet(2),…,SelectedSet(MAX)
步骤5.1:使用SelectedSet(1),SelectedSet(2),…,SelectedSet(MAX)中的单词或词串作为用户分词词典,分别对待识别的文本C进行分词,得到领域语料C(1),C(2),...,C(MAX)
步骤5.2:在领域语料C(1),C(2),...,C(MAX)上分别训练各自的词嵌入模型;
Word2Vec(1),Word2Vec(2),…,Word2Vec(MAX)
对于某一领域语料中的任意一个单词或词串,即
Figure FDA0002301331820000012
i=1,2,…,MAX,记其词嵌入为
Word2vec(i)(w)∈Rd
其中d为嵌入空间维度;
步骤5.3:对于SelectedSet(1),SelectedSet(2),…,SelectedSet(MAX)中的单词或词串进行过滤;
令Terminology中的元素在各个不同的语义空间下的原型为c1,…,cMAX,令NotTerminology中的元素在各个不同语义空间下的原型为nc1,…,ncMAX
某一语义空间下的正类原型表示为:
Figure FDA0002301331820000011
其中t=1,2,…,MAX;
某一语义空间下的负类原型表示为:
Figure FDA0002301331820000021
对于
Figure FDA0002301331820000022
t=1,2,…,MAX,w属于正类的概率为:
Figure FDA0002301331820000023
w属于负类的概率为:
Figure FDA0002301331820000024
如果p(w为正类|w)>p(w为负类|w),则判定w为领域术语;否则,判定w不是领域术语;
步骤6:对待识别的文本C={c1,c2,…,cN}进行分句,对于任意ci∈C,划分为M个句子,表示为
Figure FDA0002301331820000025
针对任意termk∈Term,在待识别的文本C={c1,c2,…,cN}中定位其所在句子,记termk在其中出现的位置为index(termk)=t,t=1,2,…,M;
步骤7:如果1≤t≤M-2,那么抽取
Figure FDA0002301331820000026
如果t=M-1,那么抽取
Figure FDA0002301331820000027
如果t=M,那么抽取
Figure FDA0002301331820000028
对于抽取到的每一个句子,计算其长度len(sen),如果其长度小于等于20,则认为其不是候选领域术语时间地域相关语义,得到四元组:
(termi,time,district,{senj,…,senk})
其中,time和district分别为时间和地域,可以使用简单的字符串匹配和正则表达式等从时间地域性鲜明的待识别的文本中直接获取;{senj,…,senk}为termi得到的候选领域术语时间地域相关语义;
步骤8:对于四元组(termi,time,district,{senj,…,senk})进行过滤,得到最终待识别的文本C={c1,c2,…,cN}的领域术语语义漂移抽取结果四元组;
定义人工挑选的、在待识别的文本中出现的、确定是领域术语时间地域相关语义的集合为Semantics={sem1,sem2,…,semL};定义人工挑选的、在领域语料中出现的、确定不是领域术语时间地域相关语义的集合为NotSemantics={Nsem1,…,NsemL};令某一句子的嵌入表示为:
Sen2Vec(sen)∈Rd
其中d为嵌入维度,正类原型表示为:
Figure FDA0002301331820000031
负类原型表示为:
Figure FDA0002301331820000032
在进行领域术语时间地域相关语义过滤时,对于(termi,time,district,{senj,…,senk})其中的{senj,…,senk}每一个候选句子,分别计算其属于正类和负类的概率:
Figure FDA0002301331820000033
Figure FDA0002301331820000034
如果p(sen为正类|sen∈{senj,…,senk})>p(sen为负类|sen∈{senj,…,senk}),则认为其属于正类,即在{senj,…,senk}中保留该句子;否则,则认为其属于负类,即在{senj,…,senk}中过滤该句子;以此完成所有(termi,time,district,{senj,…,senk})中领域术语时间地域相关语义的过滤。
2.根据权利要求1所述的一种领域术语语义漂移抽取方法,其特征在于:所述的步骤4中对候选领域术语集合CandidateSet中的词串进行筛选的方法具体为:
对于任意(w1,w2,…,wt)∈CandidateSet,t=1,2,…,MAX,计算词串的PMI值,设定阈值,若词串的PMI值大于设定的阈值,则通过筛选并存入SelectedSet中;
对于由两个单词组成的词串(wi,wj),其PMI值的计算方法为:
扫描整个待识别的文本C={c1,c2,…,cN},在滑动窗口长度一致的情况下分别统计:
1)wi在窗口滑动时出现的次数,记为#(wi);
2)wj在窗口滑动时出现的次数,记为#(wj);
3)wi和wj在窗口滑动时以顺序(wi,wj)共同出现的次数,记为#(wi,wj);
4)滑动窗口滑动时产生的不同的片段个数,记为N;则由两个单词组成的词串(wi,wj)的PMI值为:
Figure FDA0002301331820000041
对于由三个或者三各以上单词组成的词串(wi,wj,wk,…),其PMI值的计算方法为:
Figure FDA0002301331820000042
CN201911222879.3A 2019-12-03 2019-12-03 一种领域术语语义漂移抽取方法 Active CN111046665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911222879.3A CN111046665B (zh) 2019-12-03 2019-12-03 一种领域术语语义漂移抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911222879.3A CN111046665B (zh) 2019-12-03 2019-12-03 一种领域术语语义漂移抽取方法

Publications (2)

Publication Number Publication Date
CN111046665A true CN111046665A (zh) 2020-04-21
CN111046665B CN111046665B (zh) 2023-10-13

Family

ID=70234539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911222879.3A Active CN111046665B (zh) 2019-12-03 2019-12-03 一种领域术语语义漂移抽取方法

Country Status (1)

Country Link
CN (1) CN111046665B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021258966A1 (zh) * 2020-06-22 2021-12-30 中国标准化研究院 一种基于元组模型的术语管理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110225159A1 (en) * 2010-01-27 2011-09-15 Jonathan Murray System and method of structuring data for search using latent semantic analysis techniques
CN102360383A (zh) * 2011-10-15 2012-02-22 西安交通大学 一种面向文本的领域术语与术语关系抽取方法
CN107544958A (zh) * 2017-07-12 2018-01-05 清华大学 术语抽取方法和装置
CN108920454A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种主题短语抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110225159A1 (en) * 2010-01-27 2011-09-15 Jonathan Murray System and method of structuring data for search using latent semantic analysis techniques
CN102360383A (zh) * 2011-10-15 2012-02-22 西安交通大学 一种面向文本的领域术语与术语关系抽取方法
CN107544958A (zh) * 2017-07-12 2018-01-05 清华大学 术语抽取方法和装置
CN108920454A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种主题短语抽取方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021258966A1 (zh) * 2020-06-22 2021-12-30 中国标准化研究院 一种基于元组模型的术语管理方法

Also Published As

Publication number Publication date
CN111046665B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN109726745B (zh) 一种融入描述知识的基于目标的情感分类方法
Boudlal et al. A Markovian approach for arabic root extraction.
CN110929520B (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
CN107797987A (zh) 一种基于Bi‑LSTM‑CNN的混合语料命名实体识别方法
CN107977353A (zh) 一种基于lstm-cnn的混合语料命名实体识别方法
Ren et al. Detecting the scope of negation and speculation in biomedical texts by using recursive neural network
Lahbari et al. Arabic question classification using machine learning approaches
CN117251524A (zh) 一种基于多策略融合的短文本分类方法
Soriano et al. Snomed2Vec: Representation of SNOMED CT terms with Word2Vec
CN112037909A (zh) 诊断信息复核系统
WO2022242074A1 (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN115545030A (zh) 实体抽取模型的训练方法、实体关系抽取方法及装置
CN114707497A (zh) 一种基于多源词典的交叉Transformer中文医疗命名实体识别方法
Anandika et al. Named entity recognition in Odia language: a rule-based approach
US20220156489A1 (en) Machine learning techniques for identifying logical sections in unstructured data
CN113821590A (zh) 一种文本类别的确定方法、相关装置以及设备
CN111046665A (zh) 一种领域术语语义漂移抽取方法
CN111767733A (zh) 一种基于统计分词的文献密级甄别方法
Thenmozhi et al. SSN_NLP@ IECSIL-FIRE-2018: Deep Learning Approach to Named Entity Recognition and Relation Extraction for Conversational Systems in Indian Languages.
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
CN115831117A (zh) 实体识别方法、装置、计算机设备和存储介质
CN113590768B (zh) 一种文本关联度模型的训练方法及装置、问答方法及装置
Jafar Tafreshi et al. A novel approach to conditional random field-based named entity recognition using Persian specific features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant