CN111046665A - 一种领域术语语义漂移抽取方法 - Google Patents
一种领域术语语义漂移抽取方法 Download PDFInfo
- Publication number
- CN111046665A CN111046665A CN201911222879.3A CN201911222879A CN111046665A CN 111046665 A CN111046665 A CN 111046665A CN 201911222879 A CN201911222879 A CN 201911222879A CN 111046665 A CN111046665 A CN 111046665A
- Authority
- CN
- China
- Prior art keywords
- term
- sen
- domain
- word
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明属于文本语义提取技术领域,具体涉及一种领域术语语义漂移抽取方法。只要该专业领域的术语语义具有鲜明的时间地域特性(比如社会保险领域中的法律法规和政策等),都可以利用本方法来抽取四元组(领域术语,时间,地域,语义),并以此来刻画领域术语的语义漂移。
Description
技术领域
本发明属于文本语义提取技术领域,具体涉及一种领域术语语义漂移抽取方法。
背景技术
某些专业领域中的术语,其解释或者定义(即它们的语义)会随着时间和地域的不同而产生变化。一个鲜明的例子是法律领域中的术语,比如在社会保险(医疗保险)领域相关的法律、法规和政策中“起付线”这个术语,它在2018年北京市医疗保险的语境下被解释为:退休人员1300元,在职职工1800元;同年,上海市医疗保险的语境下被解释为:退休人员700元,在职职工1500元。
要处理和抽取的对象都来自于海量的、某一专业领域的文本。文本作为无结构数据的代表,对于人类来说是良好的输入形式,但是对于计算机来说其本身不提供任何应用价值,只有从其中挖掘出结构化的知识才能真正发挥出计算机处理大数据的优势。而术语,从哲学上说则是思维的基本单元,它描述了客观世界中存在的事物,是概念的词语指称。在专业领域中,一个个术语构成的一个个思维单元便组成了一个个待抽取的结构化知识。另一方面,根据Furnas的论述,如果不加限制的情况下使用词汇,不同的人会对同一个概念赋予不同的名称,或是对同一个名称的理解各不相同。为了某一领域的知识在实施过程中人们能够正确理解与自身相关的问题、解决路线方针、采取的措施和最终的结果,那么研究领域术语在不同时间和不同地域上的语义漂移就至关重要。
通常来说,如果靠人工在海量的专业领域文本中挖掘领域术语及其时间地域相关的语义并不现实;基于关键词和布尔检索的传统信息检索系统,查全率只有20%左右且无法提供术语语义上的检索结果,而人工智能技术加持下的现代搜索技术则通过引入自然语言理解来提供术语语义上的检索结果,但是还没有相关研究考虑这种术语语义时空上的漂移。
发明内容
本发明的目的在于提供在某一专业领域的术语语义具有鲜明的时间地域特性的前提下,从领域文本语料中抽取这些领域术语语义漂移,并将抽取结果组织成四元组(领域术语,时间,地域,语义)形式的一种领域术语语义漂移抽取方法。
本发明的目的通过如下技术方案来实现:包括以下步骤:
步骤1:输入待识别的文本C={c1,c2,…,cN},ci为其中一篇文本,i=1,2,..,N;判断待识别的文本C所属的领域;
步骤2:根据待识别文本所属领域术语的词性构词法,制定单词或词串匹配组合规则;
步骤3:对待识别的文本C={c1,c2,…,cN}进行分词处理,并根据单词或词串匹配组合规则对单词或词串进行标注,得到候选领域术语集合CandidateSet;
步骤4:对候选领域术语集合CandidateSet中的词串进行筛选;将通过筛选的词串及候选领域术语集合CandidateSet中的单词存入集合SelectedSet中;
步骤5:对集合SelectedSet中的单词和词串进行过滤,得到待识别的文本的领域术语集合Term={term1,term2,...,terms};
令集合Terminology={T1,T2,...,TM}表示人工挑选的、在待识别的文本C={c1,c2,...,cN}中出现的、确定是领域术语的集合;令集合NotTerminology={NT1,NT2,...,NTM}表示人工挑选的、在待识别的文本C={c1,c2,...,cN}中出现的、确定不是领域术语的集合;将SelectedSet按照组件数量划分为:
SelectedSet(1),SelectedSet(2),…,SelectedSet(MAX)
步骤5.1:使用SelectedSet(1),SelectedSet(2),...,SelectedSet(MAX)中的单词或词串作为用户分词词典,分别对待识别的文本C进行分词,得到领域语料C(1),C(2),...,C(MAX);
步骤5.2:在领域语料C(1),C(2),...,C(MAX)上分别训练各自的词嵌入模型;
Word2Vec(1),Word2Vec(2),…,Word2Vec(MAX)
Word2vec(i)(w)∈Rd
其中d为嵌入空间维度;
步骤5.3:对于SelectedSet(1),SelectedSet(2),...,SelectedSet(MAX)中的单词或词串进行过滤;
令Terminology中的元素在各个不同的语义空间下的原型为c1,...,cMAX,令NotTerminology中的元素在各个不同语义空间下的原型为nc1,...,ncMAX;
某一语义空间下的正类原型表示为:
其中t=1,2,...,MAX;
某一语义空间下的负类原型表示为:
w属于负类的概率为:
如果p(w为正类|w)>p(w为负类|w),则判定w为领域术语;否则,判定w不是领域术语;
步骤6:对待识别的文本C={c1,c2,...,cN}进行分句,对于任意ci∈C,划分为M个句子,表示为针对任意termk∈Term,在待识别的文本C={c1,c2,...,cN}中定位其所在句子,记termk在其中出现的位置为index(termk)=t,t=1,2,...,M;
步骤7:如果1≤t≤M-2,那么抽取如果t=M-1,那么抽取如果t=M,那么抽取对于抽取到的每一个句子,计算其长度len(sen),如果其长度小于等于20,则认为其不是候选领域术语时间地域相关语义,得到四元组:
(termi,time,district,{senj,...,senk})
其中,time和district分别为时间和地域,可以使用简单的字符串匹配和正则表达式等从时间地域性鲜明的待识别的文本中直接获取;{senj,...,senk}为termi得到的候选领域术语时间地域相关语义;
步骤8:对于四元组(termi,time,district,{senj,...,senk})进行过滤,得到最终待识别的文本C={c1,c2,...,cN}的领域术语语义漂移抽取结果四元组;
定义人工挑选的、在待识别的文本中出现的、确定是领域术语时间地域相关语义的集合为Semantics={sem1,sem2,...,semL};定义人工挑选的、在领域语料中出现的、确定不是领域术语时间地域相关语义的集合为NotSemantics={Nsem1,...,NsemL};令某一句子的嵌入表示为:
Sen2Vec(sen)∈Rd
其中d为嵌入维度,正类原型表示为:
负类原型表示为:
在进行领域术语时间地域相关语义过滤时,对于(termi,time,district,{senj,...,senk})其中的{senj,...,senk}每一个候选句子,分别计算其属于正类和负类的概率:
如果p(sen为正类|sen∈{senj,...,senk})>p(sen为负类|sen∈{senj,...,senk}),则认为其属于正类,即在{senj,...,senk}中保留该句子;否则,则认为其属于负类,即在{senj,...,senk}中过滤该句子;以此完成所有(termi,time,district,{senj,...,senk})中领域术语时间地域相关语义的过滤。
本发明还可以包括:
所述的步骤4中对候选领域术语集合CandidateSet中的词串进行筛选的方法具体为:
对于任意(w1,w2,...,wt)∈CandidateSet,t=1,2,...,MAX,计算词串的PMI值,设定阈值,若词串的PMI值大于设定的阈值,则通过筛选并存入SelectedSet中;
对于由两个单词组成的词串(wi,wj),其PMI值的计算方法为:
扫描整个待识别的文本C={c1,c2,...,cN},在滑动窗口长度一致的情况下分别统计:
1)wi在窗口滑动时出现的次数,记为#(wi);
2)wj在窗口滑动时出现的次数,记为#(wj);
3)wi和wj在窗口滑动时以顺序(wi,wj)共同出现的次数,记为#(wi,wj);
4)滑动窗口滑动时产生的不同的片段个数,记为N;则由两个单词组成的词串(wi,wj)的PMI值为:
对于由三个或者三各以上单词组成的词串(wi,wj,wk,...),其PMI值的计算方法为:
本发明的有益效果在于:
本发明提供了一种领域术语语义漂移抽取方法,可在某一专业领域的术语语义具有鲜明的时间地域特性的前提下,使用本发明的方法自动地从领域文本语料中抽取这些领域术语语义漂移,并将抽取结果组织成四元组(领域术语,时间,地域,语义)形式,并以此来刻画领域术语的语义漂移。
附图说明
图1为本发明的总体流程图。
图2为本发明的基于规则的候选领域术语抽取流程图。
图3为本发明实施例1中i=2,j=3时的具体示例图。
图4为本发明的基于小样本学习的领域术语过滤示意图。
图5为本发明的基于规则的候选领域术语时间地域相关语义抽取示意图。
图6为本发明的基于规则的候选领域术语抽取的伪代码描述图。
图7为本发明的基于统计的候选领域术语筛选伪代码描述图。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明拟解决的问题是:在某一专业领域的术语语义具有鲜明的时间地域特性的前提下,使用算法自动地从领域文本语料中抽取这些领域术语语义漂移,并将抽取结果组织成四元组(领域术语,时间,地域,语义)形式。本发明提出一种领域术语语义漂移抽取方法,只要该专业领域的术语语义具有鲜明的时间地域特性(比如社会保险领域中的法律法规和政策等),都可以利用本方法来抽取四元组(领域术语,时间,地域,语义),并以此来刻画领域术语的语义漂移。
一种领域术语语义漂移抽取方法,包括以下步骤:
步骤1:输入待识别的文本C={c1,c2,…,cN},ci为其中一篇文本,i=1,2,..,N;判断待识别的文本C所属的领域;
步骤2:根据待识别文本所属领域术语的词性构词法,制定单词或词串匹配组合规则;
步骤3:对待识别的文本C={c1,c2,…,cN}进行分词处理,并根据单词或词串匹配组合规则对单词或词串进行标注,得到候选领域术语集合CandidateSet;
步骤4:对候选领域术语集合CandidateSet中的词串进行筛选;将通过筛选的词串及候选领域术语集合CandidateSet中的单词存入集合SelectedSet中;
步骤5:对集合SelectedSet中的单词和词串进行过滤,得到待识别的文本的领域术语集合Term={term1,term2,...,terms};
令集合Terminology={T1,T2,...,TM}表示人工挑选的、在待识别的文本C={c1,c2,...,cN}中出现的、确定是领域术语的集合;令集合NotTerminology={NT1,NT2,...,NTM}表示人工挑选的、在待识别的文本C={c1,c2,...,cN}中出现的、确定不是领域术语的集合;将SelectedSet按照组件数量划分为:
SelectedSet(1),SelectedSet(2),…,SelectedSet(MAX)
步骤5.1:使用SelectedSet(1),SelectedSet(2),...,SelectedSet(MAX)中的单词或词串作为用户分词词典,分别对待识别的文本C进行分词,得到领域语料C(1),C(2),...,C(MAX);
步骤5.2:在领域语料C(1),C(2),...,C(MAX)上分别训练各自的词嵌入模型;
Word2Vec(1),Word2Vec(2),…,Word2Vec(MAX)
Word2vec(i)(w)∈Rd
其中d为嵌入空间维度;
步骤5.3:对于SelectedSet(1),SelectedSet(2),...,SelectedSet(MAX)中的单词或词串进行过滤;
令Terminology中的元素在各个不同的语义空间下的原型为c1,...,cMAX,令NotTerminology中的元素在各个不同语义空间下的原型为nc1,...,ncMAX;
某一语义空间下的正类原型表示为:
其中t=1,2,...,MAX;
某一语义空间下的负类原型表示为:
w属于负类的概率为:
如果p(w为正类|w)>p(w为负类|w),则判定w为领域术语;否则,判定w不是领域术语;
步骤6:对待识别的文本C={c1,c2,...,cN}进行分句,对于任意ci∈C,划分为M个句子,表示为针对任意termk∈Term,在待识别的文本C={c1,c2,...,cN}中定位其所在句子,记termk在其中出现的位置为index(termk)=t,t=1,2,...,M;
步骤7:如果1≤t≤M-2,那么抽取如果t=M-1,那么抽取如果t=M,那么抽取对于抽取到的每一个句子,计算其长度len(sen),如果其长度小于等于20,则认为其不是候选领域术语时间地域相关语义,得到四元组:
(termi,time,district,{senj,...,senk})
其中,time和district分别为时间和地域,可以使用简单的字符串匹配和正则表达式等从时间地域性鲜明的待识别的文本中直接获取;{senj,...,senk}为termi得到的候选领域术语时间地域相关语义;
步骤8:对于四元组(termi,time,district,{senj,...,senk})进行过滤,得到最终待识别的文本C={c1,c2,...,cN}的领域术语语义漂移抽取结果四元组;
定义人工挑选的、在待识别的文本中出现的、确定是领域术语时间地域相关语义的集合为Semantics={sem1,sem2,...,semL};定义人工挑选的、在领域语料中出现的、确定不是领域术语时间地域相关语义的集合为NotSemantics={Nsem1,...,NsemL};令某一句子的嵌入表示为:
Sen2Vec(sen)∈Rd
其中d为嵌入维度,正类原型表示为:
负类原型表示为:
在进行领域术语时间地域相关语义过滤时,对于(termi,time,district,{senj,...,senk})其中的{senj,...,senk}每一个候选句子,分别计算其属于正类和负类的概率:
如果p(sen为正类|sen∈{senj,...,senk})>p(sen为负类|sen∈{senj,...,senk}),则认为其属于正类,即在{senj,...,senk}中保留该句子;否则,则认为其属于负类,即在{senj,...,senk}中过滤该句子;以此完成所有(termi,time,district,{senj,...,senk})中领域术语时间地域相关语义的过滤。
所述的步骤4中对候选领域术语集合CandidateSet中的词串进行筛选的方法具体为:
对于任意(w1,w2,...,wt)∈CandidateSet,t=1,2,...,MAX,计算词串的PMI值,设定阈值,若词串的PMI值大于设定的阈值,则通过筛选并存入SelectedSet中;
对于由两个单词组成的词串(wi,wj),其PMI值的计算方法为:
扫描整个待识别的文本C={c1,c2,...,cN},在滑动窗口长度一致的情况下分别统计:
1)wi在窗口滑动时出现的次数,记为#(wi);
2)wj在窗口滑动时出现的次数,记为#(wj);
3)wi和wj在窗口滑动时以顺序(wi,wj)共同出现的次数,记为#(wi,wj);
4)滑动窗口滑动时产生的不同的片段个数,记为N;则由两个单词组成的词串(wi,wj)的PMI值为:
对于由三个或者三各以上单词组成的词串(wi,wj,wk,...),其PMI值的计算方法为:
实施例1:
为了得到能够描述领域术语语义漂移的四元组(领域术语,时间,地域,语义),我们需要从领域语料中抽取两方面的内容,分别是领域术语和其时间地域相关的语义。如图1所示,为本方法的整体流程图。其中,标注为数字1的虚线框内的流程表示领域术语抽取:从领域语料出发,经过步骤A1(基于规则的候选领域术语抽取)、步骤A2(基于统计的候选领域术语筛选)和步骤A3(基于小样本学习的领域术语过滤),得到最终的领域术语集合;标注为数字2的虚线框内的流程表示领域术语时间地域相关语义抽取:利用抽取得到领域术语和领域语料,经过步骤B1(基于规则的候选领域术语时间地域相关语义抽取)、步骤B2(基于小样本学习的领域术语时间地域相关语义过滤),得到最终的领域术语时间地域相关语义。
需要注意的是,这里我们没有提供对四元组中时间和地域两个元素的抽取过程。理由在于:由于我们约定的领域语料中的领域术语满足鲜明的时间和地域特性,即我们可以根据领域术语,在领域语料中依靠简单的字符串匹配和正则表达式即可抽取相应的时间和地域,故不再详细阐述。
如前所示,领域术语抽取过程分为A1、A2和A3三个步骤,下面分别进行详细阐述。
A1步骤:基于规则的候选领域术语抽取
所谓基于规则的候选领域术语抽取,是指利用词性/词性组合规则在领域语料中匹配可能的领域术语,作为候选领域术语存在。比如我们有词性组合规则(名词,名词,名词),在领域语料中,满足上述规则的连续三个词汇构成的词串为候选领域术语。一般来说,这些规则是人工通过观察专业领域中的领域术语的词性构词法总结而来。这里我们记规则集合为:
R={r1,r2,...,rM},其中rj=(...,POSk,...)∈R
表示R中的某一规则rj由若干词性组合而成。同时,令len(rj)表示rj中包含的词性的个数,按照每个规则中包含词性的个数划分,可以将规则集合划分为:
R=R1∪R2∪…∪RMAX,其中len(rj)=i的所有规则都在Ri中。
不失一般性,我们令领域语料表示为:
C={c1,c2,...,cN},其中ci,i=1,2,..,N为其中一篇领域文本。
我们使用现有分词工具(比如LTP或者Jieba),在不引入任何外部用户分词词典的情况下,对领域语料进行分词和词性标注。此时,对于任意ci∈C,可以表示为:
如图2所示,为基于规则的候选领域术语抽取流程。联系图2,我们给出基于规则的候选领域术语抽取的伪代码描述,如图6所示的伪代码描述了基于规则的候选领域术语抽取的主要部分。其中循环变量i指示了当前正在被抽取的文本(C={c1,c2,...,cN});循环变量j指示了当前用以抽取候选领域的的规则集合(R=R1∪R2∪…∪RMAX);循环变量count指示了当前被抽取文本中与相应规则进行匹配的起点。具体地,我们给出了当i=2,j=3时的一个例子,见图3所示。
A2步骤:基于统计的候选领域术语筛选
所谓基于统计的候选领域术语筛选,是指利用统计的方法对上述CandidateSet中的结果进行筛选。从本质上说,基于规则的候选领域术语抽取,由于规则的构建依赖于领域,所以只是利用了领域性的组合规律,没有考虑组合抽取出来的词/词串在自然语言上是否能够构成术语。
从统计的角度看词/词串是否能构成术语,其实是在考察:对于任意(w1,w2,...,wt)∈CandidateSet,是否符合自然语言规范,其中t=1,2,...,MAX(取决于规则的长度)。所谓符合自然语言规范,即是考察词/词串(w1,w2,...,wt)中各个部分的“粘合”程度,反映在统计上,即是各个部分之间的相关性。形式上,我们利用PMI(Pointwise MutualInformation)来衡量。具体地,对于两个组件的候选领域术语(wi,wj),其PMI定义为:
根据上式,最差的情况是wi与wj互相独立,即:
p(wi,wj)=p(wi)p(wj)
此时:
同时,如果wi与wj之间的相关性越大,那么PMI的值就越大。
在具体计算时,对于二组件的候选领域术语(wi,wj),扫描整个领域语料,在滑动窗口长度一致的情况下(比如使用7-gram或者10-gram)分别统计:
1)wi在窗口滑动时出现的次数,记为#(wi);
2)wj在窗口滑动时出现的次数,记为#(wj);
3)wi和wj在窗口滑动时以顺序(wi,wj)共同出现的次数,记为#(wi,wj);
4)滑动窗口滑动时产生的不同的片段个数,记为N
至此,可以计算:
对于三或者三以上组件的候选领域术语(wi,wj,wk,...),与二组件类似,在领域语料中进行统计,并通过下式进行计算PMI值:
综上,基于统计的候选领域术语筛选,可用如图7所述的伪代码进行描述,其中伪代码中出现的threshold(k)为人为设置的、相应k组件的候选领域术语是否被保留的阈值。如果计算得到的相应PMI值大于设定的阈值,则认为该候选领域术语通过筛选并存入SelectedSet中。
A3步骤:基于小样本学习的领域术语过滤
作为领域术语抽取的最后一个步骤,基于小样本学习的领域术语过滤是在候选领域术筛选的基础上,利用Prototypical Network的思想对筛选术语进行过滤。具体地,令集合Terminology={T1,T2,...,TM}表示人工挑选的、在领域语料中出现的、确定是领域术语的集合,其中M为一较小的数(比如5或10等)。同时,令集合NotTerminology={NT1,NT2,...,NTM}表示人工挑选的、在领域语料中出现的、确定不是领域术语的集合。我们将SelectedSet进行划分,与前同理,按照组件数量将其划分为:
SelectedSet(1),SelectedSet(2),...,SelectedSet(MAX)。
我们基于小样本学习的领域术语过滤的示意图如图4所示。其详细过程如下:
(1)首先,我们使用SelectedSet(1),SelectedSet(2),...,SelectedSet(MAX)中的词/词串作为用户分词词典,分别对领域语料C进行分词,得到领域语料C(1),C(2),...,C(MAX);
(2)之后,在各个分词完毕的领域语料C(1),C(2),...,C(MAX)上分别训练各自的词嵌入模型(即为不同的语义空间),记为:
Word2Vec(1),Word2Vec(2),...,Word2Vec(MAX)。
Word2vec(i)(w)∈Rd
其中d为嵌入空间维度。
(3)最后,对于SelectedSet(1),SelectedSet(2),...,SelectedSet(MAX)中的词/词串,联系上述人工挑选的Terminology和NotTerminology,进行过滤。
具体地,令Terminology中的元素在各个不同的语义空间下的原型(所谓原型,即是每个类别的表示,比如,Terminology集合表示“是”领域术语的类别,不妨称之为正类,而NotTerminology集合则表示“不是”领域术语的类别,不妨称之为负类)为c1,...,cMAX,同理,令NotTerminology在不同语义空间下的原型为nc1,...,ncMAX。
可以得到,某一语义空间下的正类的原型表示为:
其中t=1,2,...,MAX。同理,某一语义空间下的负类原型表示为:
即,给定w时,计算w属于正类的概率。同理,可得w属于负类的概率为:
如果p(w为正类|w)>p(w为负类|w),则认为w为领域术语,否则,则认为w不是领域术语,从而完成过滤。
领域术语时间地域相关语义抽取
如前所示,领域术语时间地域相关语义抽取过程分为B1和B2两个步骤,下面分别进行阐述。
B1步骤:基于规则的候选领域术语时间地域相关语义抽取
基于规则的候选领域术语时间地域相关语义抽取,其中规则分为匹配规则和排除规则。所谓匹配规则是指:符合此规则的领域术语的时间地域相关语义有可能是真实的时间地域相关语义;所谓排除规则是指:符合此规则的领域术语时间地域相关语义一定不是真实的时间地域相关语义。
我们给出基于规则的候选领域术语时间地域相关语义抽取的流程图如图5所示。令过滤完毕的领域术语集合为:
Term={term1,term2,...,terms}
针对任意termk∈Term,我们在领域语料中定位其所在句子。如前所述,领域语料可以表示为:
C={c1,c2,...,cN}
按照语言学知识,句子之间通常以句号、问号、省略号或感叹号划分。据此,我们将领域语料中每一篇文本进行分句,于是对于任意ci∈C,划分为M个句子,可以表示为:
记termk在其中出现的位置为index(termk)=t,t=1,2,...,M。
联系上文,我们给出匹配规则:如果1≤t≤M-2,那么抽取如果t=M-1,那么抽取如果t=M,那么抽取同时,我们给出排除规则:对于抽取到的每一个句子,计算其长度len(sen)(每一个字符算一个长度单位),如果其长度小于等于20,则认为其不是候选领域术语时间地域相关语义。
经过此步骤后,我们可以将结果组织成如下形式:
(termi,time,district,{senj,...,senk})
其中,termi∈Term表示一个领域术语;time和district分别为时间和地域,如前所述,可以使用简单的字符串匹配和正则表达式等从时间地域性鲜明的领域语料中直接获取;{senj,...,senk}为termi经过步骤B1所得到的候选领域术语时间地域相关语义。
B2步骤:基于小样本学习的领域术语时间地域相关语义过滤
与A3步骤类似,区别在于不使用词嵌入作为句子表示,而是使用句嵌入,即Sen2Vec。我们记人工挑选的、在领域语料中出现的、确定是领域术语时间地域相关语义的集合(称其为正类)为:Semantics={sem1,sem2,...,semL},L同样为较小的正整数;同时,记人工挑选的、在领域语料中出现的、确定不是领域术语时间地域相关语义的集合(称其为负类)为:NotSemantics={Nsem1,...,NsemL}。令某一句子的嵌入表示为:
Sen2Vec(sen)∈Rd
其中d为嵌入维度。由此我们表示正类原型为:
同理,负类原型表示为:
在进行领域术语时间地域相关语义过滤时,(termi,time,district,{senj,...,senk})其中的{senj,...,senk}每一个候选句子,分别计算其属于正类和负类的概率:
如果p(sen为正类|sen∈{senj,...,senk})>p(sen为负类|sen∈{senj,...,senk}),则认为其属于正类,即在{senj,...,senk}中保留该句子;否则,则认为其属于负类,即在{senj,...,senk}中过滤该句子。以此完成所有(termi,time,district,{senj,...,senk})中领域术语时间地域相关语义的过滤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种领域术语语义漂移抽取方法,其特征在于,包括以下步骤:
步骤1:输入待识别的文本C={c1,c2,…,cN},ci为其中一篇文本,i=1,2,..,N;判断待识别的文本C所属的领域;
步骤2:根据待识别文本所属领域术语的词性构词法,制定单词或词串匹配组合规则;
步骤3:对待识别的文本C={c1,c2,…,cN}进行分词处理,并根据单词或词串匹配组合规则对单词或词串进行标注,得到候选领域术语集合CandidateSet;
步骤4:对候选领域术语集合CandidateSet中的词串进行筛选;将通过筛选的词串及候选领域术语集合CandidateSet中的单词存入集合SelectedSet中;
步骤5:对集合SelectedSet中的单词和词串进行过滤,得到待识别的文本的领域术语集合Term={term1,term2,…,terms};
令集合Terminology={T1,T2,…,TM}表示人工挑选的、在待识别的文本C={c1,c2,…,cN}中出现的、确定是领域术语的集合;令集合NotTerminology={NT1,NT2,…,NTM}表示人工挑选的、在待识别的文本C={c1,c2,…,cN}中出现的、确定不是领域术语的集合;将SelectedSet按照组件数量划分为:
SelectedSet(1),SelectedSet(2),…,SelectedSet(MAX)
步骤5.1:使用SelectedSet(1),SelectedSet(2),…,SelectedSet(MAX)中的单词或词串作为用户分词词典,分别对待识别的文本C进行分词,得到领域语料C(1),C(2),...,C(MAX);
步骤5.2:在领域语料C(1),C(2),...,C(MAX)上分别训练各自的词嵌入模型;
Word2Vec(1),Word2Vec(2),…,Word2Vec(MAX)
Word2vec(i)(w)∈Rd
其中d为嵌入空间维度;
步骤5.3:对于SelectedSet(1),SelectedSet(2),…,SelectedSet(MAX)中的单词或词串进行过滤;
令Terminology中的元素在各个不同的语义空间下的原型为c1,…,cMAX,令NotTerminology中的元素在各个不同语义空间下的原型为nc1,…,ncMAX;
某一语义空间下的正类原型表示为:
其中t=1,2,…,MAX;
某一语义空间下的负类原型表示为:
w属于负类的概率为:
如果p(w为正类|w)>p(w为负类|w),则判定w为领域术语;否则,判定w不是领域术语;
步骤6:对待识别的文本C={c1,c2,…,cN}进行分句,对于任意ci∈C,划分为M个句子,表示为针对任意termk∈Term,在待识别的文本C={c1,c2,…,cN}中定位其所在句子,记termk在其中出现的位置为index(termk)=t,t=1,2,…,M;
步骤7:如果1≤t≤M-2,那么抽取如果t=M-1,那么抽取如果t=M,那么抽取对于抽取到的每一个句子,计算其长度len(sen),如果其长度小于等于20,则认为其不是候选领域术语时间地域相关语义,得到四元组:
(termi,time,district,{senj,…,senk})
其中,time和district分别为时间和地域,可以使用简单的字符串匹配和正则表达式等从时间地域性鲜明的待识别的文本中直接获取;{senj,…,senk}为termi得到的候选领域术语时间地域相关语义;
步骤8:对于四元组(termi,time,district,{senj,…,senk})进行过滤,得到最终待识别的文本C={c1,c2,…,cN}的领域术语语义漂移抽取结果四元组;
定义人工挑选的、在待识别的文本中出现的、确定是领域术语时间地域相关语义的集合为Semantics={sem1,sem2,…,semL};定义人工挑选的、在领域语料中出现的、确定不是领域术语时间地域相关语义的集合为NotSemantics={Nsem1,…,NsemL};令某一句子的嵌入表示为:
Sen2Vec(sen)∈Rd
其中d为嵌入维度,正类原型表示为:
负类原型表示为:
在进行领域术语时间地域相关语义过滤时,对于(termi,time,district,{senj,…,senk})其中的{senj,…,senk}每一个候选句子,分别计算其属于正类和负类的概率:
如果p(sen为正类|sen∈{senj,…,senk})>p(sen为负类|sen∈{senj,…,senk}),则认为其属于正类,即在{senj,…,senk}中保留该句子;否则,则认为其属于负类,即在{senj,…,senk}中过滤该句子;以此完成所有(termi,time,district,{senj,…,senk})中领域术语时间地域相关语义的过滤。
2.根据权利要求1所述的一种领域术语语义漂移抽取方法,其特征在于:所述的步骤4中对候选领域术语集合CandidateSet中的词串进行筛选的方法具体为:
对于任意(w1,w2,…,wt)∈CandidateSet,t=1,2,…,MAX,计算词串的PMI值,设定阈值,若词串的PMI值大于设定的阈值,则通过筛选并存入SelectedSet中;
对于由两个单词组成的词串(wi,wj),其PMI值的计算方法为:
扫描整个待识别的文本C={c1,c2,…,cN},在滑动窗口长度一致的情况下分别统计:
1)wi在窗口滑动时出现的次数,记为#(wi);
2)wj在窗口滑动时出现的次数,记为#(wj);
3)wi和wj在窗口滑动时以顺序(wi,wj)共同出现的次数,记为#(wi,wj);
4)滑动窗口滑动时产生的不同的片段个数,记为N;则由两个单词组成的词串(wi,wj)的PMI值为:
对于由三个或者三各以上单词组成的词串(wi,wj,wk,…),其PMI值的计算方法为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911222879.3A CN111046665B (zh) | 2019-12-03 | 2019-12-03 | 一种领域术语语义漂移抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911222879.3A CN111046665B (zh) | 2019-12-03 | 2019-12-03 | 一种领域术语语义漂移抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111046665A true CN111046665A (zh) | 2020-04-21 |
CN111046665B CN111046665B (zh) | 2023-10-13 |
Family
ID=70234539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911222879.3A Active CN111046665B (zh) | 2019-12-03 | 2019-12-03 | 一种领域术语语义漂移抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111046665B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021258966A1 (zh) * | 2020-06-22 | 2021-12-30 | 中国标准化研究院 | 一种基于元组模型的术语管理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110225159A1 (en) * | 2010-01-27 | 2011-09-15 | Jonathan Murray | System and method of structuring data for search using latent semantic analysis techniques |
CN102360383A (zh) * | 2011-10-15 | 2012-02-22 | 西安交通大学 | 一种面向文本的领域术语与术语关系抽取方法 |
CN107544958A (zh) * | 2017-07-12 | 2018-01-05 | 清华大学 | 术语抽取方法和装置 |
CN108920454A (zh) * | 2018-06-13 | 2018-11-30 | 北京信息科技大学 | 一种主题短语抽取方法 |
-
2019
- 2019-12-03 CN CN201911222879.3A patent/CN111046665B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110225159A1 (en) * | 2010-01-27 | 2011-09-15 | Jonathan Murray | System and method of structuring data for search using latent semantic analysis techniques |
CN102360383A (zh) * | 2011-10-15 | 2012-02-22 | 西安交通大学 | 一种面向文本的领域术语与术语关系抽取方法 |
CN107544958A (zh) * | 2017-07-12 | 2018-01-05 | 清华大学 | 术语抽取方法和装置 |
CN108920454A (zh) * | 2018-06-13 | 2018-11-30 | 北京信息科技大学 | 一种主题短语抽取方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021258966A1 (zh) * | 2020-06-22 | 2021-12-30 | 中国标准化研究院 | 一种基于元组模型的术语管理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111046665B (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109800310B (zh) | 一种基于结构化表达的电力运维文本分析方法 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN109726745B (zh) | 一种融入描述知识的基于目标的情感分类方法 | |
Boudlal et al. | A Markovian approach for arabic root extraction. | |
CN110929520B (zh) | 非命名实体对象抽取方法、装置、电子设备及存储介质 | |
CN107797987A (zh) | 一种基于Bi‑LSTM‑CNN的混合语料命名实体识别方法 | |
CN107977353A (zh) | 一种基于lstm-cnn的混合语料命名实体识别方法 | |
Ren et al. | Detecting the scope of negation and speculation in biomedical texts by using recursive neural network | |
Lahbari et al. | Arabic question classification using machine learning approaches | |
CN117251524A (zh) | 一种基于多策略融合的短文本分类方法 | |
Soriano et al. | Snomed2Vec: Representation of SNOMED CT terms with Word2Vec | |
CN112037909A (zh) | 诊断信息复核系统 | |
WO2022242074A1 (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
CN115545030A (zh) | 实体抽取模型的训练方法、实体关系抽取方法及装置 | |
CN114707497A (zh) | 一种基于多源词典的交叉Transformer中文医疗命名实体识别方法 | |
Anandika et al. | Named entity recognition in Odia language: a rule-based approach | |
US20220156489A1 (en) | Machine learning techniques for identifying logical sections in unstructured data | |
CN113821590A (zh) | 一种文本类别的确定方法、相关装置以及设备 | |
CN111046665A (zh) | 一种领域术语语义漂移抽取方法 | |
CN111767733A (zh) | 一种基于统计分词的文献密级甄别方法 | |
Thenmozhi et al. | SSN_NLP@ IECSIL-FIRE-2018: Deep Learning Approach to Named Entity Recognition and Relation Extraction for Conversational Systems in Indian Languages. | |
CN111813927A (zh) | 一种基于主题模型和lstm的句子相似度计算方法 | |
CN115831117A (zh) | 实体识别方法、装置、计算机设备和存储介质 | |
CN113590768B (zh) | 一种文本关联度模型的训练方法及装置、问答方法及装置 | |
Jafar Tafreshi et al. | A novel approach to conditional random field-based named entity recognition using Persian specific features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |