CN102360383B - 一种面向文本的领域术语与术语关系抽取方法 - Google Patents

一种面向文本的领域术语与术语关系抽取方法 Download PDF

Info

Publication number
CN102360383B
CN102360383B CN 201110312280 CN201110312280A CN102360383B CN 102360383 B CN102360383 B CN 102360383B CN 201110312280 CN201110312280 CN 201110312280 CN 201110312280 A CN201110312280 A CN 201110312280A CN 102360383 B CN102360383 B CN 102360383B
Authority
CN
China
Prior art keywords
term
word
node
mark
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201110312280
Other languages
English (en)
Other versions
CN102360383A (zh
Inventor
郑庆华
刘均
罗俊英
程晓程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN 201110312280 priority Critical patent/CN102360383B/zh
Publication of CN102360383A publication Critical patent/CN102360383A/zh
Application granted granted Critical
Publication of CN102360383B publication Critical patent/CN102360383B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种面向文本的领域术语与术语关系抽取方法,其特征在于,包括下述步骤:首先对原始语料进行预处理,获得候选词集,包括分句、分词及词性标注,干扰词过滤;其次,从原始语料和互联网中提取出术语特征,并结合双模型结构算法,从候选词中分离出术语;然后,采用倒排索引的方法构建术语词典,并利用最长匹配算法,标注待识别文本中的术语;最后,根据多维度节点标记规则,通过条件随机场模型进行多层次标记序列标注,得到待识别文本中术语间的关系。

Description

一种面向文本的领域术语与术语关系抽取方法
技术领域
本发明涉及文本挖掘、知识获取方法,特别涉及一种面向文本的领域术语与术语关系的抽取方法。
背景技术
随着互联网技术应用的日趋广泛,网络学习已成为人们获得和学习知识的主要手段之一,而术语作为知识的基本组成单元,是构建知识地图、知识导航的基石。如何对特定领域的文本进行分类,或是为有经验人士提供特定领域中知识结构以及演化规律,又或是为学习者提供某个领域的正确学习路径,因此如何高效准确地获得不同领域的术语集合以及术语之间的关系非常重要。
申请人经过查新,检索到下列与本发明有关的专利文献:
①基于锚文本分析的领域术语自动生成方法(申请人:清华大学;北京搜狗科技发展有限公司,专利号:201110091312.4)
②科技术语的自动化抽取方法(申请人:北京中献电子技术开发中心,专利号:200910162380.8)
③中文术语自动提取系统及方法(申请人:北京大学,专利号:200810119708.3)
④一种专业术语抽取方法和系统(申请人:中国科学院计算技术研究所,专利号:200710121839.0)
⑤用于从具有文本段的文档中提取术语的系统(申请人:国际商业机器公司,专利号:200980134535.5)
⑥一种术语快速标注方法(申请人:传神联合(北京)信息技术有限公司,专利号:201010545766.X)
其中专利①-⑤主要基于单一的术语识别模型,不能有效地去除候选词中噪声词,对派生术语识别效果不是太好。
专利⑥只是构建前缀表来节省字符串匹配次数,采用穷举的方法,效率低下。
发明内容
本发明的目的是提供一种可有效去除候选词中噪声词、提高术语识别率的领域术语的离线构建、在线获取以及术语关系抽取的方法。
为达到以上目的本发明是采取如下技术方案予以实现的:
一种面向文本的领域术语与术语关系抽取方法,其特征在于,包括下述步骤:
(1)对待识别文本进行预处理;
(2)通过倒排索引结构构建术语词典,并采用最长序列匹配算法,对待识别文本中的术语进行识别;所述的术语是指在特定领域中约定俗成,或者经过规定,被广泛使用来描述该领域中某个概念的词;所述术语词典是指,通过模式识别的方法,从原始语料集中提取出来的术语集,该术语集采用倒排索引结构进行组织;
(3)利用多维度节点标记规则,通过训练的条件随机场模型进行多层次标记序列标注,抽取术语间的关系;所述术语关系抽取是指给定某一领域内一定语境中的术语集合,给定定义好的术语关系类型,判断术语间是否存在某种类型的关系;
其中,步骤(2)所述的倒排索引结构是指:a)将相同前缀的术语分成一组,按照词长,由长到短排序;b)以它们的公共前缀作为索引关键词;
步骤(2)所述的术语词典构建方法包括下述具体步骤:
Step1:对原始语料集进行预处理,获取候选词集;
Step2:通过互联网词频过滤和混合词频过滤方法,对候选词进行噪声词过滤;所述互联网词频过滤是指,对于一个候选词K,若K在互联网词频表中的词频值大于阈值M,那么K可能是一个常词,则将其过滤,互联网词频表是指,对词串在大量的互联网文本中出现次数的抽样统计;所述混合词频过滤方法是指,对于一个候选词K,如果存在n个候选词包含K,且
Figure GDA00002657496300021
那么K可能是一个常词,则将其过滤;
Step3:在传统术语特征基础上,加入互联网特征,并采用双模型结构的方法,构建术语识别模型,从原始语料集中抽取领域术语;
步骤(2)所述的最长序列匹配算法包括下述具体步骤:
Step1:对待识别的文本进行分词;
Step2:将分词后得到基本词作为关键词,在术语词典中查找包含该前缀的术语集;
Step3:对这个术语集中出现的术语,按词长,由长到短,与待识别的文本中进行匹配,若匹配成功,则在原文中标识该术语。
上述方案中,所述多维度节点标记规则是指,在序列标注的过程中,根据每个节点的特征形成观测序列的规则;所述节点是指句子当中的每个术语或普通词语;所述观测序列是指每个节点的可以观测到的特征组合成的序列;多维度节点标记规则分为以下4个维度:
(1)词语或者术语本身作为标记;
(2)当前节点词语或者术语的词性标记信息;
(3)节点类型标记,表示当前节点是一个普通词语还是一个术语,其中词语用标记“Word”来表示,术语用标记“Term”来表示;
(4)特征词语类别标记:
其中,特征词语是指,对于术语关系抽取任务,句子上下文中有一些词语对判断术语间的关系有着重要的提示作用;特征词语类别标记是指,为了区别提供了不同上下文语义信息的特征词语,将特征词语分为了几个类别,加以区别对待,并在观测序列的表示中,用不同的标记给予明示。
所述特征词语类别标记分为一层特征词语类别标记和二层特征词语类别标记;一层特征词语类别标记包括{W_Sele,W_Ref,W_Para,W_heir,P_Para,P_Expl,O},其中W_Sele用于标记表选择的词语,W_Ref用于标记有自反性的词语,W_Para用于标记并列关系,W_heir用于标记表示层次概念的词,P_Para用于标记表示并列的符号,P_Expl用于标记表解释说明的符号,O标记其他;二层特征词语类别标记包括{W_Enti,W_Syn,W_Para,W_Imp1,W_Imp2,W_Ass,W_Seg,W_Whole,W_Omis,W_Neg},其中W_Enti用于标记表同样称谓的词,W_Syn用于标记表解释同义的词,W_Para用于标记并列关系,W_Imp1用于标记向后概念蕴含,W_Imp2用于标记向前概念蕴含,W_Ass用于标记物理组合,W_Seg用于标记物理片段,W_Whole用于标记全体概念,W_Omis用于标记省略,W_Neg用于标记否定。
步骤(3)所述多层次标记序列标注包括下述具体步骤:
Step1:初始化术语关系列表RelationSet=φ;
Step2:将待识别文本划分成句子,即TXT={Sen1,...,SenK},其中TXT表示待识别文本,它由K个句子构成,Seni(i=1,2,...,K )表示文本中的每一个句子;
Step3:从TXT中获取下一个句子Senk,Senk表示当前需要处理的句子;获取句子Senk包含的领域术语信息;TermSet={Term1,Term2,...,TermN},其中N表示术语个数,Termi(i=1,2,...,N)表示句子中每个术语;
Step4:若N<2,跳到Step2处理下一个句子;否则,继续执行;
Step5:对句子中每个领域术语,选取Termi为待考察术语,根据多维度节点标记规则,特征词语类别标记选择一层特征词语类别标记,构建观测序列,使用训练的条件随机场模型进行一层序列标注;采用的标记集合为{Hier,Nonh,N},其中,标记为Hier的节点与Termi具有层级关系;标记为Nonh的节点与Termi具有非层级关系;标记为N的节点表示该节点是普通词语或该节点是术语,且此术语与Termi没有关系;
Step6:对待考察术语Termi,根据多维度节点标记规则,特征词语类别标记选择二层特征词语类别标记,并结合Step5中一层序列标注的结果,得到新的观测序列,利用条件随机场模型进行第二层序列标注,采用的标记集合为{Syno,Hypo,Part,N},其中标记为Syno的节点表示Termi与该节点具有同义关系;标记为Hypo的节点表示Termi与该节点具有上下位关系;标记为Part的节点表示Termi与该节点具有整体部分关系;标记为N的节点表示该节点是普通词语或该节点是术语,且此术语与Termi没有关系;
Step7:对句子中标记为Syno,Hypo或Part的每个节点Node,分别构建三元组Re lationPair={T1,T2,Relation},其中T1表示术语Termi;T2表示节点Node表示的术语;Re lation表示节点Node的标记;将所有Re lationPair加入Re lationSet中;
Step8:检查句子术语列表,若存在其他术语,选取下一个可用术语,跳到Step4;否则,若句子中所有术语都处理完,继续执行;
Step9:检查句子列表,若存在还未处理的句子,跳到Step3;否则,继续执行;
Step10:输出文本的术语关系列表Re lationSet。
所述的互联网特征是指,在互联网对候选词的反馈信息中隐含术语特征信息,这里包括互联网反馈次数、权威网站反馈、WEB-TFIDF:
i.互联网反馈次数,指的是将一个候选词在一个搜索引擎中进行搜索后,返回与该候选词相关的网页个数;
ii.权威网站反馈,指的是将一个候选词在一个权威网站中进行检索后,是否能够检索到;
iii.WEB-TFIDF,指的是候选词在搜索引擎的反馈特征,其计算公式:
WEB-TFTDF=log(TermLen)*TitleCount/log(PageCount)
其中TermLen是指候选词词长;TitleCount是指,在搜索引擎返回第一个页面中的相关网页的标题中该候选词出现次数;PageCount是指,搜索引擎返回与该候选词相关的网页个数。
所述的采用双模型结构的方法包括下述具体步骤:
Step1:将从原始语料和互联网中抽取到的n维特征,生成第一个识别模型;
Step2:由第一个识别模型对候选词中的术语进行识别,得到术语集I;所述的术语集I指的是,被“第一个识别模型”判为术语的候选词的临时集合;
Step3:若候选词∈术语集I或候选词子串∈术语集I,则标记为1,反之标记为0,得到“第n+1维特征”;
Step4:由原先的n维特征和这第n+1维特征组成n+1特征向量,生成第二个识别模型;
Step5:由第二个识别模型再一次对候选词中的术语进行识别,得到最终的术语集。
与现有专利相比,本发明的优点是,采用了互联网词频和混合词频过滤技术,有效地去除了候选词中噪声词。在基于语料集的术语特征基础上,加入了基于互联网的术语特征,能有效地提高术语识别率。提出了双模型结构,该结构能增强对派生术语识别效果。采用基于前缀的倒排索引方法来构建词典库,将包含相同前缀的术语组成一个集合,并按照术语词长,由长至短进行排序,这样,当匹配成功时,则无需再对后面的术语进行匹配。
附图说明
下面结合附图对本发明的内容作进一步详细说明。
图1是本发明针对领域术语的离线获取示意图。
图2是本发明针对领域术语的在线获取示意图。
图3是多层次标记序列标注的示意图。
图4是基于序列标注术语关系抽取流程示意图。
具体实施方式
1.领域术语离线构建:主要包括两个流程,即原始语料集的预处理,这里包括分词、词性标注、干扰词过滤,对应于Step1~Step 3;互联网词频过滤技术对应于Step 4;混合词频过滤技术对应于Step 5;领域术语的传统特征提取,对应于Step 6;领域术语的互联网特征提取,对应于Step7~Step 9;建立双模型结构,对应于Step 10~Step 11。整个流程如图1所示:
Step 1:对原始语料集进行中文分词和词性标注
Step 2:对于中文分词后得到词串,保留其中的“名词”、“动词”、“副词”、“形容词”、“量词”,并去除其中的停用词。经过上述处理后,得到的连续的n个词(与原文中出现顺序一致,且没有被去除的词),重新组合,得到(n+1)*n/2个候选词
Step 3:在上一步得到的候选词,进行干扰词过滤工作,包括:去除词长大于8的词串;去除出现次数小于3的词串。
Step 4:去除满足“互联网词频过滤规则”的词串。所述的“互联网词频过滤”指的是,对于一个候选词K,如果K在互联网词频表中的词频值大于阈值M,那么K可能是一个常词,则将其过滤;这里,互联网词频表采用“搜狗互联网词频表”,并将阈值M设置为50000000。
Step 5:去除满足“混合词频过滤规则”的词串。所述的“混合词频过滤技术”指的是,对于一个候选词K,如果存在n个候选词包含K,且那么K可能是一个常词,则将其过滤。
Step 6:提取基于原始语料集的传统特征,这包括词频,词性,词长,邻接词、标题
Step 7:提取“互联网反馈次数”特征。所述的“互联网反馈次数”指的是将一个候选词在一个搜索引擎中进行搜索后,返回与该候选词相关的网页个数。这里的搜索引擎采用“百度”和“百度知道”。
Step 8:提取“权威网站反馈”特征。所述的“权威网站反馈”指的是将一个候选词在一个权威网站中进行检索后,是否能够检索到,若能检索到,则特征值为1,反之为0。这里采用“百度百科”、“互动百科”、“中文术语网”。
Step 9:提取“WEB-TFIDF”特征。所述的“WEB-TFIDF”指的是,候选词在搜索引擎的反馈特征,其计算公式:
WEB-TFTDF=log(TermLen)*TitleCount/log(PageCount)
这里TermLen是指候选词词长;TitleCount是指,在搜索引擎返回第一个页面中的相关网页的标题中该候选词出现次数;PageCount是指,搜索引擎返回与该候选词相关的网页个数。
Step 10:由传统特征和互联网特征组成的n个特征向量,通过机器学习算法算法,生成第一个识别模型。
Step 11:将第一个识别模型预测到术语集中出现的短术语(词长小于等于3),再反向标记词长大于3的候选词(如果该候选词包含预测术语,则标记为1,反正标记为0),词长小于等于3的候选词标记为0,得到第n+1维特征,然后由这n+1维特征生成第二个识别模型
2.领域术语的在线获取:主要包括两个流程,即“术语词典构建”,主要包括倒排索引构建,对应于Step 1~Step 2;“在线术语识别”,这里包括最长匹配算法,对应于Step 3~Step 4;整个流程如图2所示:
Step 1:将数据库中的收集起来的领域术语集,进行分词。若术语分词后,只有一个词,则将前缀定义为该术语;若术语分词后,包含多个词,则将前缀定义为分词后第一个词
Step 2:将包含相同前缀的多个术语作为一个集合,按其词长由长到短进行排序,并利用前缀来标识和索引这个集合。此时前缀即为索引关键词
Step 3:将待识别的文本串,进行分词处理,并将每个词作为关键词,来索引以该关键词为前缀的术语集合。
Step 4:若以该关键词为前缀的术语集合,则对该集合中出现的每一个术语,按照术语长度由长到短与原文比对,若匹配成功,则返回该术语
3.基于多层次标记序列标注的术语关系抽取:
领域术语之间的关系分为三种:同义关系、上下位关系和整体部分关系。同义关系是指在某个特定领域内,用来表述同一概念的不同术语之间所具有的关系。若两个术语具有严格相同的内涵和外延,那么称这两个词语具有同义关系。上下位关系表示特定领域中术语所表示概念间的包含关系,可将术语分为上位词和下位词。上位词表示的是一个外延广阔的大概念,下位词表示的是一个内涵丰富的小概念。小概念的外延是大概念外延的一部分,小概念除了具有大概念的一切特征外,还具有本身独有的区别特征。这样两个术语间的关系称为上下位关系。整体部分关系指术语表示的概念和它的组成部分之间的关系。同上下位关系一样,整体部分关系也具有传递和偏序性质,但是整体部分关系并不是把术语表示的概念划分为某个类,而是表示了该概念的组成部分。
上述三种关系由于所具有性质的不同,可划分为两个大类:术语间的同义关系具有自反性、对称性和传递性,称之为非层级关系;上下位关系和整体部分关系具有传递性和偏序性,不具有自反性和对称性,称为层级关系。
根据上述术语关系类型的两种不同层次的分类方法,提出了多层次标记的序列标注,标注过程分为两个阶段(参见图3),分别使用不同的标记:一层标记序列标注和二层标记序列标注。在第一层标记中,通过序列标注的方法获取术语关系的大类类别,即两个术语之间没有关系、具有非层级关系或具有层级关系。在第二层标记中,利用第一层标记的结果,同时结合新的特征,用序列标注方法获取两个术语之间细粒度关系的情况,即没有关系、具有同义关系、具有上下位关系或具有整体部分关系。
基于多层次标记序列标注的术语关系抽取详细过程如下(参见图4):
Step1:初始化术语关系列表RelationSet=φ;
Step2:将待识别文本划分成句子,即TXT={Sen1,...,SenK},其中TXT表示待识别文本,它由K个句子构成,Seni(i=1,2,...,K )表示文本中的每一个句子;
Step3:从TXT中获取下一个句子Senk,Senk表示当前需要处理的句子;获取句子Senk包含的领域术语信息;TermSet={Term1,Term2,...,TermN},其中N表示术语个数,Termi (i=1,2,...,N)表示句子中每个术语;
Step4:若N<2,跳到Step2处理下一个句子;否则,继续执行;
Step5:对句子中每个领域术语,选取Termi为待考察术语,根据多维度节点标记规则,特征词语类别标记选择一层特征词语类别标记,构建观测序列,使用训练的条件随机场模型进行一层序列标注;采用的标记集合为{Hier,Nonh,N},其中,标记为Hier的节点与Termi具有层级关系;标记为Nonh的节点与Termi具有非层级关系;标记为N的节点表示该节点是普通词语或该节点是术语,且此术语与Termi没有关系;
Step6:对待考察术语Termi,根据多维度节点标记规则,特征词语类别标记选择二层特征词语类别标记,并结合Step5中一层序列标注的结果,得到新的观测序列,利用条件随机场模型进行第二层序列标注,采用的标记集合为{Syno,Hypo,Part,N},其中标记为Syno的节点表示Termi与该节点具有同义关系;标记为Hypo的节点表示Termi与该节点具有上下位关系;标记为Part的节点表示Termi与该节点具有整体部分关系;标记为N的节点表示该节点是普通词语或该节点是术语,且此术语与Termi没有关系;
Step7:对句子中标记为Syno,Hypo或Part的每个节点Node,分别构建三元组RelationPair={T1,T2,Re lation},其中T1表示术语Termi;T2表示节点Node表示的术语;Re lation表示节点Node的标记;将所有Re lationPair加入Re lationSet中;
Step8:检查句子术语列表,若存在其他术语,选取下一个可用术语,跳到Step4;否则,若句子中所有术语都处理完,继续执行;
Step9:检查句子列表,若存在还未处理的句子,跳到Step3;否则,继续执行;
Step10:输出文本的术语关系列表Re lationSet。
上述步骤中,Step5和Step6使用的多维度节点标记规则是指,在多层次标记序列标注的过程中,根据每个节点的特征形成观测序列的规则;节点是指句子当中的术语或普通词语;观测序列是指每个节点的可以观测到的特征组合成的序列;
节点标记规则分为4个维度:
(1)词语或者术语本身作为标记;
(2)当前节点词语或者术语的词性标记信息;
(3)节点类型标记,表示当前节点是一个普通词语还是一个术语,其中词语用标记“Word”来表示,术语用标记“Term”来表示;
(4)特征词语类别标记:
对于术语关系抽取的任务,句子上下文中有一些词语对判断术语间的关系有着重要的提示作用,称为特征词语。例如句子“常用的传输介质包括双绞线、同轴电缆等。”中,动词“包括”指明了前面所述概念对后面所述概念在外延范围上的包含关系,对术语上下位关系的抽取有着重要的提示作用,“包括”一词就是典型的特征词语。特征词语类别标记是指,为了区别提供了不同上下文语义信息的特征词语,将特征词语分为了几个类别,加以区别对待,并在观测序列的表示中,用不同的标记给予明示;特征词语类别标记分为以下两种情况:
一层特征词语类别标记如下表所示:
二层特征词语类别标记如下表所示:
Figure GDA00002657496300102
上述步骤中,Step5和Step6使用了条件随机场CRF模型进行序列标注。CRF模型使用特征函数模板规定模型训练时的特征函数和各状态之间的依赖关系。采用的实验工具为CRF++,其特征函数模板形式如下:
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-1,0]/%x[0,0]
U06:%x[0,0]/%[1,0]
上述特征模板中的Uxx表示这条特征模板是一个Unigram的模板,而模板%x[Row,Col]表示该特征模板扩展的具体特征,Row表示与当前行的相对行位置,Col表示列数。
对于每一个特征函数模板,CRF++将会生成多个特征函数,比如特征模板U01:%x[0,1]将会被解释成如下形式的一个特征函数的集合:
func1=if(output=N and feature="U01:n")return 1 else return0
func2=if(output=Hypo and feature="U01:n")return 1 else return0
func3=if(output=Part and feature="U01:n")return 1 elsereturn 0
funcN=if(output=N and feature="U01:a")return 1 else return0
funcN+1=if(output=Hypo and feature="U01:a")return 1 elsereturn 0
该集合共有L×N条特征函数,其中L是标记集合的大小,在术语关系抽取中为4,N是从模板扩展出的不相同的字符串数量,比如U01:%x[0,1]的N为词性标记集合的大小。
多层次标记序列标注采用的特征函数模板如下表所示:
Figure GDA00002657496300121
Figure GDA00002657496300131
上表中特征函数模板共分为9个部分:第一部分表示单个词语本身对当前标记的影响,窗口大小为5,考虑了当前词语前后各两个词语对标记的影响;第二部分表示单个词语词性对当前输出标记的影响,窗口大小为5,考虑了当前词语前后各两个词语的词性对标记的影响;第三部分表示节点本身是否为术语对当前输出标记的影响,窗口大小为3;第四部分表示单个特征词语类别标记对当前输出标记的影响,窗口为5;第五部分表示两个词语联合对当前输出标记的影响,窗口大小为2;第六部分表示两个词语词性联合对输出标记的影响,窗口大小为4;第七部分表示两个特征词语类别标记对当前输出标记的影响,窗口大小为4;第八部分表示三个词语词性联合对输出标记的影响,窗口大小为3;第九部分表示三个特征词语类别标记对当前输出标记的影响,窗口大小为3。
CRF++工具将这些函数模板生成一组特征函数列表,用于条件随机场模型的训练和术语关系抽取序列预测。

Claims (6)

1.一种面向文本的领域术语与术语关系抽取方法,其特征在于,包括下述步骤:
(1)对待识别文本进行预处理;
(2)通过倒排索引结构构建术语词典,并采用最长序列匹配算法,对待识别文本中的术语进行识别;所述的术语是指在特定领域中约定俗成,或者经过规定,被广泛使用来描述该领域中某个概念的词;所述术语词典是指,通过模式识别的方法,从原始语料集中提取出来的术语集,该术语集采用倒排索引结构进行组织;
(3)利用多维度节点标记规则,通过训练的条件随机场模型进行多层次标记序列标注,抽取术语间的关系;所述术语关系抽取是指给定某一领域内一定语境中的术语集合,给定定义好的术语关系类型,判断术语间是否存在某种类型的关系;
其中,步骤(2)所述的倒排索引结构是指:a)将相同前缀的术语分成一组,按照词长,由长到短排序;b)以它们的公共前缀作为索引关键词;
步骤(2)所述的术语词典构建方法包括下述具体步骤:
Step1:对原始语料集进行预处理,获取候选词集;
Step2:通过互联网词频过滤和混合词频过滤方法,对候选词进行噪声词过滤;所述互联网词频过滤是指,对于一个候选词K,若K在互联网词频表中的词频值大于阈值M,那么K可能是一个常词,则将其过滤,互联网词频表是指,对词串在大量的互联网文本中出现次数的抽样统计;所述混合词频过滤方法是指,对于一个候选词K,如果存在n个候选词包含K,且
Figure FDA00002657496200011
那么K可能是一个常词,则将其过滤;
Step3:在传统术语特征基础上,加入互联网特征,并采用双模型结构的方法,构建术语识别模型,从原始语料集中抽取领域术语;
步骤(2)所述的最长序列匹配算法包括下述具体步骤:
Step1:对待识别的文本进行分词;
Step2:将分词后得到基本词作为关键词,在术语词典中查找包含该前缀的术语集;
Step3:对这个术语集中出现的术语,按词长,由长到短,与待识别的文本中进行匹配,若匹配成功,则在原文中标识该术语。
2.根据权利要求1所述的面向文本的领域术语与术语关系抽取方法,其特征在于,所述多维度节点标记规则是指,在序列标注的过程中,根据每个节点的特征形成观测序列的规则;所述节点是指句子当中的每个术语或普通词语;所述观测序列是指每个节点的可以观测到的特征组合成的序列;多维度节点标记规则分为以下4个维度:
(1)词语或者术语本身作为标记;
(2)当前节点词语或者术语的词性标记信息;
(3)节点类型标记,表示当前节点是一个普通词语还是一个术语,其中词语用标记“Word”来表示,术语用标记“Term”来表示;
(4)特征词语类别标记:
其中,特征词语是指,对于术语关系抽取任务,句子上下文中有一些词语对判断术语间的关系有着重要的提示作用;特征词语类别标记是指,为了区别提供了不同上下文语义信息的特征词语,将特征词语分为了几个类别,加以区别对待,并在观测序列的表示中,用不同的标记给予明示。
3.根据权利要求2所述的面向文本的领域术语与术语关系抽取方法,其特征在于,所述特征词语类别标记分为一层特征词语类别标记和二层特征词语类别标记;
一层特征词语类别标记包括{W_Sele,W_Ref,W_Para,W_heir,P_Para,P_Expl,O},其中W_Sele用于标记表选择的词语,W_Ref用于标记有自反性的词语,W_Para用于标记并列关系,W_heir用于标记表示层次概念的词,P_Para用于标记表示并列的符号,P_Expl用于标记表解释说明的符号,O标记其他;
二层特征词语类别标记包括{W_Enti,W_Syn,W_Para,W_Imp1,W_Imp2,W_Ass,W_Seg,W_Whole,W_Omis,W_Neg},其中W_Enti用于标记表同样称谓的词,W_Syn用于标记表解释同义的词,W_Para用于标记并列关系,W_Imp1用于标记向后概念蕴含,W_Imp2用于标记向前概念蕴含,W_Ass用于标记物理组合,W_Seg用于标记物理片段,W_Whole用于标记全体概念,W_Omis用于标记省略,W_Neg用于标记否定。
4.根据权利要求1所述的面向文本的领域术语与术语关系抽取方法,其特征在于,步骤(3)所述多层次标记序列标注包括下述具体步骤:
Step1:初始化术语关系列表Re lationSet=φ;
Step2:将待识别文本划分成句子,即TXT={Sen1,...,SenK},其中TXT表示待识别文本,它由K个句子构成,Seni(i=1,2,...,K)表示文本中的每一个句子;
Step3:从TXT中获取下一个句子Senk,Senk表示当前需要处理的句子;获取句子Senk包含的领域术语信息;TermSet={Term1,Term2,...,TermN},其中N表示术语个数,Termi(i=1,2,...,N)表示句子中每个术语;
Step4:若N<2,跳到Step2处理下一个句子;否则,继续执行;
Step5:对句子中每个领域术语,选取Termi为待考察术语,根据多维度节点标记规则,特征词语类别标记选择一层特征词语类别标记,构建观测序列,使用训练的条件随机场模型进行一层序列标注;采用的标记集合为{Hier,Nonh,N},其中,标记为Hier的节点与Termi具有层级关系;标记为Nonh的节点与Termi具有非层级关系;标记为N的节点表示该节点是普通词语或该节点是术语,且此术语与Termi没有关系;
Step6:对待考察术语Termi,根据多维度节点标记规则,特征词语类别标记选择二层特征词语类别标记,并结合Step5中一层序列标注的结果,得到新的观测序列,利用条件随机场模型进行第二层序列标注,采用的标记集合为{Syno,Hypo,Part,N},其中标记为Syno的节点表示Termi与该节点具有同义关系;标记为Hypo的节点表示Termi与该节点具有上下位关系;标记为Part的节点表示Termi与该节点具有整体部分关系;标记为N的节点表示该节点是普通词语或该节点是术语,且此术语与Termi没有关系;
Step7:对句子中标记为Syno,Hypo或Part的每个节点Node,分别构建三元组RelationPair={T1,T2,Re lation},其中T1表示术语Termi;T2表示节点Node表示的术语;Re lation表示节点Node的标记;将所有Re lationPair加入Re lationSet中;
Step8:检查句子术语列表,若存在其他术语,选取下一个可用术语,跳到Step4;否则,若句子中所有术语都处理完,继续执行;
Step9:检查句子列表,若存在还未处理的句子,跳到Step3;否则,继续执行;
Step10:输出文本的术语关系列表Re lationSet。
5.根据权利要求1所述的面向文本的领域术语与术语关系抽取方法,其特征在于,所述的互联网特征是指,在互联网对候选词的反馈信息中隐含术语特征信息,这里包括互联网反馈次数、权威网站反馈、WEB-TFIDF:
i.互联网反馈次数,指的是将一个候选词在一个搜索引擎中进行搜索后,返回与该候选词相关的网页个数;
ii.权威网站反馈,指的是将一个候选词在一个权威网站中进行检索后,是否能够检索到;
iii.WEB-TFIDF,指的是候选词在搜索引擎的反馈特征,其计算公式:
WEB-TFTDF=log(TermLen)*TitleCount/log(PageCount)
其中TermLen是指候选词词长;TitleCount是指,在搜索引擎返回第一个页面中的相关网页的标题中该候选词出现次数;PageCount是指,搜索引擎返回与该候选词相关的网页个数。
6.根据权利要求2所述的面向文本的领域术语与术语关系抽取方法,其特征在于,所述的采用双模型结构的方法包括下述具体步骤:
Step1:将从原始语料和互联网中抽取到的n维特征,生成第一个识别模型;
Step2:由第一个识别模型对候选词中的术语进行识别,得到术语集I;所述的术语集I指的是,被“第一个识别模型”判为术语的候选词的临时集合;
Step3:若候选词∈术语集I或候选词子串∈术语集I,则标记为1,反之标记为0,得到“第n+1维特征”;
Step4:由原先的n维特征和这第n+1维特征组成n+1特征向量,生成第二个识别模型;
Step5:由第二个识别模型再一次对候选词中的术语进行识别,得到最终的术语集。
CN 201110312280 2011-10-15 2011-10-15 一种面向文本的领域术语与术语关系抽取方法 Expired - Fee Related CN102360383B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110312280 CN102360383B (zh) 2011-10-15 2011-10-15 一种面向文本的领域术语与术语关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110312280 CN102360383B (zh) 2011-10-15 2011-10-15 一种面向文本的领域术语与术语关系抽取方法

Publications (2)

Publication Number Publication Date
CN102360383A CN102360383A (zh) 2012-02-22
CN102360383B true CN102360383B (zh) 2013-07-31

Family

ID=45585712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110312280 Expired - Fee Related CN102360383B (zh) 2011-10-15 2011-10-15 一种面向文本的领域术语与术语关系抽取方法

Country Status (1)

Country Link
CN (1) CN102360383B (zh)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750316B (zh) * 2012-04-25 2015-10-28 北京航空航天大学 基于语义共现模型的概念关系标签抽取方法
CN102831236B (zh) * 2012-09-03 2015-02-04 苏州大学 中文事件触发词的扩展方法及系统
CN103116573B (zh) * 2013-02-06 2015-10-28 北京理工大学 一种基于词汇注释的领域词典自动扩充方法
CN104063382B (zh) * 2013-03-19 2018-01-02 中国石油天然气股份有限公司 面向油气管道领域的多策略融合的标准术语处理方法
CN103294664A (zh) * 2013-07-04 2013-09-11 清华大学 开放领域新词发现的方法及系统
CN103455620B (zh) * 2013-09-12 2017-05-03 百度在线网络技术(北京)有限公司 在内容中添加链接的方法和设备
CN103699568B (zh) * 2013-11-16 2016-08-24 西安交通大学城市学院 一种从维基中抽取领域术语间上下位关系的方法
CN103634146B (zh) * 2013-11-27 2017-02-22 华为技术有限公司 一种网络数据处理方法及装置
CN103886053A (zh) * 2014-03-13 2014-06-25 电子科技大学 一种基于短文本评论的知识库构建方法
CN104156351B (zh) * 2014-08-08 2017-04-26 西安交通大学 一种基于纳税人年报的纳税人税务交易行为识别方法
CN104166643A (zh) * 2014-08-19 2014-11-26 南京金娃娃软件科技有限公司 一种智能问答系统中的对话行为分析方法
US20160188609A1 (en) * 2014-12-29 2016-06-30 Futurewei Technologies, Inc. System and Method for Model-based Search and Retrieval of Networked Data
CN104598573B (zh) * 2015-01-13 2017-06-16 北京京东尚科信息技术有限公司 一种用户的生活圈提取方法及系统
US9792560B2 (en) * 2015-02-17 2017-10-17 Microsoft Technology Licensing, Llc Training systems and methods for sequence taggers
US9971838B2 (en) * 2015-02-20 2018-05-15 International Business Machines Corporation Mitigating subjectively disturbing content through the use of context-based data gravity wells
CN104794169B (zh) * 2015-03-30 2018-11-20 明博教育科技有限公司 一种基于序列标注模型的学科术语抽取方法及系统
CN105224648A (zh) * 2015-09-29 2016-01-06 浪潮(北京)电子信息产业有限公司 一种实体链接方法与系统
CN106569993A (zh) * 2015-10-10 2017-04-19 中国移动通信集团公司 一种挖掘领域术语间上下位关系的方法及装置
CN108875040B (zh) * 2015-10-27 2020-08-18 上海智臻智能网络科技股份有限公司 词典更新方法及计算机可读存储介质
CN105224682B (zh) * 2015-10-27 2018-06-05 上海智臻智能网络科技股份有限公司 新词发现方法及装置
CN108897842B (zh) * 2015-10-27 2021-04-09 上海智臻智能网络科技股份有限公司 计算机可读存储介质及计算机系统
CN106844326A (zh) * 2015-12-04 2017-06-13 北京国双科技有限公司 一种获取词语的方法及装置
CN106933795A (zh) * 2015-12-30 2017-07-07 贺惠新 一种论述型文章的论述主体的自动提取方法
CN105653519A (zh) * 2015-12-30 2016-06-08 贺惠新 一种领域专有词的挖掘方法
CN106126498B (zh) * 2016-06-22 2019-06-14 上海一者信息科技有限公司 一种基于动态规划的批量双语术语识别方法
CN107783957B (zh) * 2016-08-30 2021-05-18 中国电信股份有限公司 本体创建方法和装置
CN106372232B (zh) * 2016-09-09 2020-01-10 北京百度网讯科技有限公司 基于人工智能的信息挖掘方法和装置
CN108062302B (zh) 2016-11-08 2019-03-26 北京国双科技有限公司 一种文本信息的识别方法及装置
CN108090104B (zh) * 2016-11-23 2023-05-02 百度在线网络技术(北京)有限公司 用于获取网页信息的方法和装置
CN108073569B (zh) * 2017-06-21 2021-08-27 北京华宇元典信息服务有限公司 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN109492228B (zh) * 2017-06-28 2020-01-14 三角兽(北京)科技有限公司 信息处理装置及其分词处理方法
CN107544958B (zh) * 2017-07-12 2020-02-18 清华大学 术语抽取方法和装置
CN110019641B (zh) * 2017-07-27 2023-09-08 北大医疗信息技术有限公司 一种医疗否定术语的检出方法及系统
CN107436955B (zh) * 2017-08-17 2022-02-25 齐鲁工业大学 一种基于Wikipedia概念向量的英文词语相关度计算方法和装置
CN107491524B (zh) * 2017-08-17 2022-02-25 齐鲁工业大学 一种基于Wikipedia概念向量的中文词语相关度计算方法和装置
CN107577670B (zh) * 2017-09-15 2020-09-22 清华大学 一种基于定义与关系的术语抽取方法
EP3480714A1 (en) * 2017-11-03 2019-05-08 Tata Consultancy Services Limited Signal analysis systems and methods for features extraction and interpretation thereof
CN109947891B (zh) * 2017-11-07 2021-09-07 北京国双科技有限公司 文书解析方法及装置
CN108363691B (zh) * 2018-02-09 2021-07-20 国网江苏省电力有限公司电力科学研究院 一种用于电力95598工单的领域术语识别系统及方法
CN108460021B (zh) * 2018-03-16 2021-10-12 安徽大学 一种提取论文标题中的问题方法对的方法
CN109582719B (zh) * 2018-10-19 2021-08-24 国电南瑞科技股份有限公司 一种智能变电站scd文件自动链接虚端子的方法和系统
CN109902290B (zh) * 2019-01-23 2023-06-30 广州杰赛科技股份有限公司 一种基于文本信息的术语提取方法、系统和设备
CN110362803B (zh) * 2019-07-19 2020-12-18 北京邮电大学 一种基于领域特征词法组合的文本模板生成方法
CN110659364A (zh) * 2019-08-26 2020-01-07 国网福建省电力有限公司 一种调度规程规定本体术语关系抽取方法及系统
CN111046660B (zh) * 2019-11-21 2023-05-09 深圳无域科技技术有限公司 一种识别文本专业术语的方法及装置
CN111046665B (zh) * 2019-12-03 2023-10-13 哈尔滨工程大学 一种领域术语语义漂移抽取方法
CN111325018B (zh) * 2020-01-21 2023-08-11 上海恒企教育培训有限公司 一种基于web检索和新词发现的领域词典构建方法
WO2021189291A1 (en) * 2020-03-25 2021-09-30 Metis Ip (Suzhou) Llc Methods and systems for extracting self-created terms in professional area
CN111950274A (zh) * 2020-07-31 2020-11-17 中国工商银行股份有限公司 一种专业领域语料的中文分词方法及装置
CN112036171A (zh) * 2020-09-04 2020-12-04 平安科技(深圳)有限公司 医学特定指称及其关系的抽取方法、系统及装置
CN111832275B (zh) 2020-09-21 2022-02-25 北京百度网讯科技有限公司 文本的创作方法、装置、设备以及存储介质
CN112528640A (zh) * 2020-12-09 2021-03-19 天津大学 一种基于异常子图检测的领域术语自动抽取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101034395A (zh) * 2007-03-30 2007-09-12 传神联合(北京)信息技术有限公司 一种待译文件处理系统及使用这种系统的文件处理方法
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7543232B2 (en) * 2004-10-19 2009-06-02 International Business Machines Corporation Intelligent web based help system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101034395A (zh) * 2007-03-30 2007-09-12 传神联合(北京)信息技术有限公司 一种待译文件处理系统及使用这种系统的文件处理方法
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法

Also Published As

Publication number Publication date
CN102360383A (zh) 2012-02-22

Similar Documents

Publication Publication Date Title
CN102360383B (zh) 一种面向文本的领域术语与术语关系抽取方法
El-Masri et al. Successes and challenges of Arabic sentiment analysis research: a literature review
Wang et al. Using Wikipedia knowledge to improve text classification
CN101685455B (zh) 数据检索的方法和系统
Ceska et al. The influence of text pre-processing on plagiarism detection
CN106126620A (zh) 基于机器学习的中文自动文摘方法
CN103399901A (zh) 一种关键词抽取方法
CN104063387A (zh) 在文本中抽取关键词的装置和方法
CN110134799B (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
Al-Taani et al. An extractive graph-based Arabic text summarization approach
CN101404036A (zh) PowerPoint电子演示文稿的关键词抽取方法
CN107526841A (zh) 一种基于Web的藏文文本自动摘要生成方法
Gupta et al. Automatic keywords extraction for Punjabi language
CN112395395A (zh) 文本关键词提取方法、装置、设备及存储介质
Hassel Resource lean and portable automatic text summarization
CN108038099A (zh) 基于词聚类的低频关键词识别方法
CN106570120A (zh) 一种改进的关键词优化实现搜索引擎优化技术
CN106528726A (zh) 基于关键词优化实现搜索引擎优化技术
Wang et al. TF-IDF keyword extraction method combining context and semantic classification
Sasaki Question answering as question-biased term extraction: A new approach toward multilingual QA
Tahrat et al. Text2geo: from textual data to geospatial information
Darģis et al. Lessons learned from creating a balanced corpus from online data
Shrawankar et al. Construction of news headline from detailed news article
Liao et al. Combining Language Model with Sentiment Analysis for Opinion Retrieval of Blog-Post.
Souza et al. Extraction of keywords from texts: an exploratory study using Noun Phrases

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130731

Termination date: 20171015