CN107544958B - 术语抽取方法和装置 - Google Patents

术语抽取方法和装置 Download PDF

Info

Publication number
CN107544958B
CN107544958B CN201710566573.4A CN201710566573A CN107544958B CN 107544958 B CN107544958 B CN 107544958B CN 201710566573 A CN201710566573 A CN 201710566573A CN 107544958 B CN107544958 B CN 107544958B
Authority
CN
China
Prior art keywords
term
candidate
terms
corpus
candidate term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710566573.4A
Other languages
English (en)
Other versions
CN107544958A (zh
Inventor
李涓子
潘亮铭
王笑尘
唐杰
张鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201710566573.4A priority Critical patent/CN107544958B/zh
Publication of CN107544958A publication Critical patent/CN107544958A/zh
Application granted granted Critical
Publication of CN107544958B publication Critical patent/CN107544958B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供术语抽取方法和装置,用于解决基于统计信息抽取获得术语的方法对于目标语料规模有着较大的需求;而较小的语料规模往往会造成低频词的统计不可靠性的问题。方法包括:抽取第一语料中的名词和名词短语,作为候选术语集合T;根据百科语料和候选术语集合T,获得候选术语的嵌入表示;根据候选术语的嵌入表示,计算候选术语间的语义相关度;以候选术语为顶点,以术语间的语义相关度SR(a,b)构建候选术语a和候选术语b之间的边,获得术语传播网络G=(E,V)。其中V是术语传播网络G的顶点集,E是术语传播网络G的无向边集;根据术语传播网络使用置信度传播算法对候选术语进行排序;根据排序筛选术语。本发明极大地提高了术语抽取的性能。

Description

术语抽取方法和装置
技术领域
本发明涉及自然语言处理技术,具体涉及术语抽取方法和装置。
背景技术
术语抽取(Terminology Extraction)的目标是对于属于某个特定学科或领域的文本,自动地抽取出其中的术语。术语,是指在特定学科或领域里用来表示领域内特有概念的词。术语抽取在科研和教育领域都有着重要的应用价值。在科研领域,术语抽取是进一步构建科技知识图谱的重要支撑;在教育领域,从课程教学材料中自动地抽取出学科术语,可以帮助老师更好地组织知识结构,帮助学生更好地理解知识点和知识点间的关系。
目前已经有很多关于术语抽取的工作,大多属于基于频率特征的统计方法。其中最著名的两种特征是单元性(unithood)和术语性(termhood)。其中单元性是指词组组分之间的结合紧密程度,而术语性则是指词组和专业领域概念之间的关系,表示词组的领域相关性。常用的TF-IDF方法即一种计算单元性的方法,而文献[Frantzi,2000]中提出的基于C-value方法和NC-value方法的术语抽取方法,则是基于termhood的统计方法。这两种特征通常在知识点提取中混合使用。
上述基于统计信息抽取获得术语的方法,由于其对于目标语料规模有着较大的需求;而较小的语料规模往往会造成低频词的统计不可靠性,因此其缺陷包括在短上下文语料上术语抽取效果不足以及难以抽取出低词频术语。
发明内容
鉴于上述问题,本发明提出了克服上述问题或者至少部分地解决上述问题的术语抽取方法和装置。
为此目的,第一方面,本发明提出一种术语抽取方法,包括步骤:
S101、抽取第一语料中的名词和名词短语,作为候选术语集合T;
S102、根据百科语料和步骤S101中的候选术语集合T,获得候选术语的嵌入表示;
S103、根据候选术语的嵌入表示,计算候选术语间的语义相关度SR(a,b);以候选术语为顶点,以术语间的语义相关度SR(a,b)构建候选术语a和候选术语b之间的边,获得术语传播网络其中V是术语传播网络G的顶点集,E是术语传播网络G的无向边集;
S104、根据术语传播网络G使用置信度传播算法对候选术语进行排序;根据排序筛选术语。
可选的,所述步骤抽取第一预料中的名词和名词短语,包括:
根据输入的第一语料,对其进行分词处理,得到第一语料的文本词序列表示,对该文本词序列进行词性标注;基于已标注词性的词序列,在其中抽取出长度小于k个词,且满足第一词性模板的名词或名词短语,作为候选术语;由所有的候选术语构成候选术语集合T;
第一词性模板为((A|N)+|(A|N)*(NP)?(A|N)*)N,其中A,N,P分别表示形容词名词和介词;k为预设值。
可选的,所述获得候选术语的嵌入表示包括:
将百科语料表示为一个由词组成的有序序列W,其中wi表示单个词,m为该词序列的长度;在有序序列W中标注出候选术语集合T中存在的词组,获得候选词标注的文本语料
Figure BDA0001348536970000022
xi表示
Figure BDA0001348536970000023
中的一个词或者候选术语集合T中的一个候选术语;
根据百科语料计算xi的向量表示;
对于候选术语集合T中的候选术语a,若a=xi,则候选术语a的向量表示等于xi;若候选术语a未出现在W’中,则候选术语a的向量表示等于构成候选术语a的各个词的向量之和。
可选的,任意两个候选术语之间的所述语义相关度等于其对应向量表示的标准化余弦距离。
可选的,所述以术语间的语义相关度SR(a,b)构建候选术语a和候选术语b之间的边,包括:
若候选术语a与候选术语b之间的语义相关度SR(a,b)大于给定阈值θ,则顶点a与b间存在一条无向边,且边上的权重等于语义相关度SR(a,b)。
可选的,所述根据术语传播网络G使用置信度传播算法对候选术语进行排序,包括:
对顶点集V中的每个候选术语赋予一个初始的置信度值;反复迭代更新术语传播网络G中各个顶点的置信度值,直到术语传播网络G中各顶点的置信度值达到收敛状态;根据收敛状态下的置信度值,对术语传播网络G中各顶点进行排。
可选的,所述对其顶点集V中的每个候选术语赋予一个初始的置信度值,包括:
基于术语传播网络
Figure BDA0001348536970000032
在其顶点集V中筛选出代表术语构建“种子集合”,对种子集合中的候选术语所对应的顶点,赋予初始置信度1.0,对于其他非种子的顶点,赋予初始置信度0.0;种子集合可以人工构建或自动构建;其中人工构建是将专家给出的输入文档中的部分关键术语作为种子集合,自动构建可以通过候选术语在输入语料中的TF-IDF值进行判断,将TF-IDF值最高的若干候选术语加入种子集合中。
可选的,所述反复迭代更新术语传播网络G中各个顶点的置信度值,直到术语传播网络G中各顶点的置信度值达到收敛状态,包括:
计算顶点c的置信度值confk(c),直至传播网络G中各顶点的置信度值confk(c)达到收敛状态;其中,
Figure BDA0001348536970000031
其中,k表示第k轮迭代,vsk(cj,ci)为第k轮迭代时,顶点cj对顶点ci的置信度传播值;vsk(cj,ci)=ph(cj)·e(ci,cj)·confk(cj),e(ci,cj)为顶点cj和顶点ci对应的候选术语间的语义相关度,Z为归因化因子,在ci和cj中,i代表候选术语在术语传播网络G中的编号,j为顶点在A(ci)中的编号;A(ci)表示与顶点ci有边相邻的顶点的集合,|A(ci)|表示集合A(ci)中顶点的个数;;
其中,任一词组c的在某一选用语料上的词组概率ph(c)的计算方法如下:
ph(c)=max{pmi(fi,bi)|i=1,…,k-1}
其中,fi和bi分别表示将词组c从中间第i个词分隔时所得到的前半部分和后半部分,pmi(fi,bi)表示fi和bi在选用语料中的点互信息;
分别计算候选术语c在第一语料的词组概率phD(c)和百科语料上的词组概率phE(c),根据phD(c)和phE(c)计算候选术语c在第一语料和百科语料的词组概率ph(c);
ph(c)=α·phD(c)+(1-α)·phE(c);
其中α为两个语料的分配权重,取值范围为0到1之间。
第二方面,本发明提供一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述方法的步骤。
第二方面,本发明提供一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上执行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述方法的步骤。
由上述技术方案可知,本发明所述的术语抽取方法,在对术语抽取过程中引入外部语义信息,即使用外部的百科语料提供丰富的背景知识,并借此学习获得词组的嵌入表示。通过置信度网络,将语义信息引入到迭代的过程中,极大地提高了术语抽取的性能。因此,本发明极大地解决了现有术语抽取系统在抽取低频术语上的不足,并且在术语抽取过程中,对于目标语料规模基本没有特别要求。
前面是提供对本发明一些方面的理解的简要发明内容。这个部分既不是本发明及其各种实施例的详尽表述也不是穷举的表述。它既不用于识别本发明的重要或关键特征也不限定本发明的范围,而是以一种简化形式给出本发明的所选原理,作为对下面给出的更具体的描述的简介。应当理解,单独地或者组合地利用上面阐述或下面具体描述的一个或多个特征,本发明的其它实施例也是可能的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一个实施例中的4组输入数据的详细信息表;
图2为本发明的一个实施例中将本发明的技术方案与现有技术进行的效果对比表;
图3为本发明的一个实施例的方法流程图。
具体实施方式
下面将结合示例性的通信系统描述本发明。
一种术语抽取方法,如图3所示,包括步骤:
S101、抽取第一语料中的名词和名词短语,加入候选术语集合T;
S102、根据百科语料和步骤S101中的候选术语集合T,获得候选术语的嵌入表示;
S103、根据候选术语的嵌入表示,计算候选术语间的语义相关度SR(a,b);以候选术语为顶点,以术语间的语义相关度SR(a,b)构建候选术语a和候选术语b之间的边,获得术语传播网络
Figure BDA0001348536970000051
其中V是术语传播网络G的顶点集,E是术语传播网络G的无向边集;
S104、根据术语传播网络使用置信度传播算法对候选术语进行排序;根据排序筛选术语。
在步骤S101中抽取第一语料中的名词短语包括使用词性标注工具(例如Part-Of-Speech Tagger)获得词性标注后的语料,根据标注的词性标记选择第一语料中的名词或名词短语。可以根据词性短语模板筛选第一语料获取名词短语。例如,在本发明的一个实施例中,根据输入的第一语料,对其进行分词处理,得到第一语料的文本词序列表示,对该文本词序列进行词性标注;基于已标注词性的词序列,在其中抽取出长度小于k个词,且满足第一词性模板的名词或名词短语,作为候选术语;由所有的候选术语构成候选语料;第一词性模板为((A|N)+|(A|N)*(NP)?(A|N)*)N,其中A,N,P分别表示形容词、名词和介词;k为预设值。上述第一词性模板中的运算符的含义可以参考正则表达式中的运算符的含义。例如名词短语“Artificial Neural Networks”为ANN结构,满足第一词性模板,将会被抽取为候选术语存入候选术语集合T中。
本文中的第一语料不限于是百科语料、课程字幕语料、讲义语料中的一种或多种。本发明也可处理上述语料,用于抽取上述语料中的术语。
其中S102中,通过词嵌入(Word Embedding)算法得到百科语料中的每个元素(包括词或者候选术语)的向量表示。
本发明所述的术语抽取方法,在对术语抽取过程中引入外部语义信息,即使用外部的百科语料提供丰富的背景知识,并借此学习获得词组的嵌入表示。通过置信度网络,将语义信息引入到迭代的过程中,极大地提高了术语抽取的性能。因此,本发明极大地解决了现有术语抽取系统在抽取低频术语上的不足,并且对于目标语料规模基本没有特别要求。
在本发明的一个实施例中,所述获得候选术语的嵌入表示包括:
将百科语料表示为一个由词组成的有序序列W,其中wi表示单个词,m为该词序列的长度;W的一个片段例如:“/w逻辑/n实证主义/n者/k,/w以/p赖辛巴赫/nh(/w H/ws./w Reichenbach/ws,/w 189/m 1/m—/w 1953/m)/w为/p代表/n,/w试图/v用/v概率论/n来/vd补救/v归纳法/n的/u漏洞/n。”,wi可以是:/n实证主义。在有序序列W中标注出候选术语集合T中存在的候选术语和构成候选术语的词,获得候选词标注的文本语料
Figure BDA0001348536970000071
xi表示候选术语集合T中的一个候选术语,或构成候选术语的词;例如“Machine Learning”可能是候选术语集合T中的一个候选术语,则在百科语料中将“Machine Learning”放入W’中。以“Artificial Neural Networks”为例,Networks是一个词,Artificial Neural Networks是一个候选术语,则分别将Networks和ArtificialNeural Networks放入W’中。
根据百科语料计算xi的向量表示;可以通过word2vec处理百科语料获得xi的向量表示。
对于候选术语集合T中的候选术语a,若a=xi,则候选术语a的向量表示等于xi的向量表示;若候选术语a未出现在W’中,且候选术语a=e1+…en,e1~en则候选术语a的向量表示等于构成候选术语a的各个词e1~en的向量之和。
上述获得候选术语的嵌入表示的方法,仅为本发明的实施例并不是用于限制本发明的实施方式。
任意两个候选术语之间的所述语义相关度等于其对应向量表示的标准化余弦距离。标准余弦距离是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。
在发明的一个实施例中,所述以术语间的语义相关度SR(a,b)构建候选术语a和候选术语b之间的边,包括:
若候选术语a与候选术语b之间的语义相关度SR(a,b)大于给定阈值θ,则顶点a与b间存在一条无向边,且边上的权重等于语义相关度SR(a,b)。
在发明的一个实施例中,所述根据术语传播网络使用置信度传播算法对候选术语进行排序,包括:
对顶点集V中的每个候选术语赋予一个初始的置信度值(顶点集由候选术语构成,每一候选术语为一个顶点);反复迭代更新术语传播网络G中各个顶点的置信度值,直到术语传播网络G中各顶点的置信度值达到收敛状态;根据收敛状态下的置信度值,对术语传播网络G中各顶点进行排。
在发明的一个实施例中,所述对其顶点集V中的每个候选术语赋予一个初始的置信度值,包括:
基于术语传播网络g=(V,E),在其顶点集V中筛选出代表术语构建“种子集合”,对种子集合中的候选术语所对应的顶点,赋予初始置信度1.0,对于其他非种子的顶点,赋予初始置信度0.0。种子集合可以人工构建或自动构建;其中人工构建是将专家给出的输入文档中的部分关键术语作为种子集合,自动构建可以通过候选术语在输入语料中的TF-IDF值进行判断,将TF-IDF值最高的若干候选术语加入种子集合中;
在发明的一个实施例中,所述反复迭代更新术语传播网络G中各个顶点的置信度值,直到术语传播网络G中各顶点的置信度值达到收敛状态,包括:
计算顶点c的置信度值confk(c),直至术语传播网络G中各顶点的置信度值confk(c)达到收敛状态;其中,
Figure BDA0001348536970000081
其中,k表示第k轮迭代,vsk(cj,ci)为第k轮迭代时,顶点cj对顶点ci的置信度传播值;vsk(cj,ci)=ph(cj)e(ci,cj)·confk(cj),e(ci,cj)为顶点cj和顶点ci对应的候选术语间的语义相关度;
其中,任一候选术语c的在选用语料上的词组概率ph(c)的计算方法如下:
ph(c)=max{pmi(fi,bi)|i=1,…,k-1}
其中,fi和bi分别表示将候选术语c从中间第i个词分隔时所得到的前半部分和后半部分,pmi(fi,bi)表示fi和bi在选用语料中的点互信息;若k=1,则直接定义ph(c)=0。k=1时即指候选术语c是不可分隔的。
分别计算候选术语c在第一语料的词组概率phD(c)和百科语料上的词组概率phE(c),根据phD(c)和phE(c)计算候选术语c的词组概率ph(c)
ph(c)=α·phD(c)+(1-α)·phE(c);;
其中α为两个语料的分配权重,取值范围为0到1之间;
可以理解的是,候选术语c即术语传播网络G中的一个顶点,顶点也可以称为结点,候选术语c也可以是一个词或词组。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一一个或几个实施例中所述方法的步骤。
本发明还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上执行的计算机程序,所述处理器执行所述程序时实现上述任一一个或几个实施例中所述方法的步骤。
采用本发明的方法进行了实验,具体实验过程如下:
1、数据集介绍。实验采用不同语言、不同学科领域的大规模在线教育平台上的真实课程数据进行实验。具体地如图1所示,本次实验采用4组实验,分别计算不同语言不同学科不同平台上的术语抽取效果。其中CSEN数据集由Coursera平台上的8门计算机领域课程的教学字幕构建,EcoEN由Coursera平台上的5门经济学领域课程的教学字幕构建。其中,Coursera是目前世界领先的大规模在线教育平台之一。CSEN和EcoEN数据集的语料均为英文。另外两个中文语料数据集由中国目前最大的在线教育平台——学堂在线——的课程数据构建。CSZH包含18门学堂在线上的计算机领域课程的教学字幕,EcoZH包含8门学堂在线上的经济学领域课程的教学字幕。上述课程字幕即对应本方法中的第一语料,数据集的相关信息如图1所示。
英文的辅助文本语料采用2017年1月的维基百科词条描述文本,共包括9,834,664篇文档。中文的辅助语料采用最新抓取的百度百科词条描述文本,共包括6,223,649篇文档。即将这6,223,649篇文档作为百科语料。
2、实验设置。实验评测指标采用信息抽取领域常用的两个指标——R-precision(计算序列中前R个位置文献的准确率)和MAP(MeanAP:Mean Average Precision,主集合的平均准确率)。假设数据集中存在N个人工标注的正确术语,R-precision是指在抽取装置所抽取的前N个术语中,正确的术语所占的比例。R-precision可以有效地反映出术语抽取装置的整体效果,但是不能反映出术语抽取器对术语排序的能力。而MAP指标是指正确术语被抽取器所排的平均排序位置,恰好可以弥补R-precision指标的不足。另外,在对比方法上,我们选取了几个比较典型的基于统计和基于图的术语抽取方法。其中,基于统计的现有技术中的方法为TF-IDF和PMI。TF-IDF方法直接按照候选术语在语料中的tf-idf值对候选术语进行排序,PMI方法直接按照候选术语的PMI指标对候选术语进行排序。基于图的方法包括TextRank和Topical PageRank(TPR)。TextRank方法按照候选术语在语料中的共现关系构建共现关系图,并在共现关系图上采用PageRank算法对候选术语进行排序。TPR的基本思想与TextRank相同,不同之处在于,TPR将共现关系图按照候选术语的话题分割为多个独立的子图,并在每个子图上分别执行PageRank算法,而话题的区分采用文档主题生成模型(LDA)进行。
3、实验结果与分析
采用以上数据集和实验设置,我们将本发明公布的方法在各个数据集上进行了实验,并与以上主流方法进行了对比(本发明公布的方法在图中用CCP表示)。如图2所示,为术语抽取的评测结果。在每个数据集上,CCP在两项评测指标下均明显优于对比方法,证明了本发明所公布方法的准确性和稳定性。
实验结果分析。首先,TF-IDF与TextRank取得了近似的效果,但效果都较差。因为TF-IDF与TextRank都依赖于语料的统计信息,因此对于一些低频术语,在其统计信息不够的情况下,容易造成抽取错误(即忽略这些低频术语)。在CSEN语料中,TF-IDF和TextRank均可以正确地抽取出“IP”这个术语,因为其在语料中出现了139次,提供了充分的统计信息。而对于与“IP”具有相同语义的“Internet Protocol”,由于该术语只在语料中出现了8次,它的低频特性导致它不能正确地被TF-IDF和TextRank方法发现。另外,TF-IDF和TextRank也会将一些非术语但频度较高的词错误地抽取出来。由于引入了外部语义信息,这些错误在本发明所提出的方法中大大减少。
另外,TPR在所有四个评测数据集上的表现都优于TextRank,但其表现比CCP差。这是由于在语料中存在多个主题,TextRank往往在抽取结果中偏向了某一特定主题。TextRank将所有带有“tree”的术语整体排序较高,而对带有“sort”的术语整体排序较低。TPR通过对不同的主题分别进行PageRank算法解决了这一问题,因此取得了更好的抽取效果。但是,TPR依然偏向于抽取出相对高频的术语,因为在PageRank构建的共现网络中,高频词倾向于与更多的词存在上下文共现,从而在网络中有更多的边与之相连,从而使得PageRank算法的排序结果偏高。在本发明所提出的基于置信度传播的迭代算法中,下一轮迭代时特定节点的分数是由其相邻节点传播的平均置信度分数决定,从而避免了这一问题。
本发明实施例所述的术语抽取方法,在文本语料的科学术语抽取过程中引入外部语义信息,使用外部在线百科语料提供丰富的背景知识,并借此学习获得词组的嵌入表示。另一方面,通过提出置信度网络,本发明提出了一种迭代的术语抽取方法,将语义信息引入到迭代的过程中,极大地提高了术语抽取的性能,并解决了现有术语抽取系统在抽取低频术语上的不足。
本文中使用的“至少一个”、“一个或多个”以及“和/或”是开放式的表述,在使用时可以是联合的和分离的。例如,“A、B和C中的至少一个”,“A、B或C中的至少一个”,“A、B和C中的一个或多个”以及“A、B或C中的一个或多个”指仅有A、仅有B、仅有C、A和B一起、A和C一起、B和C一起或A、B和C一起。
术语“一个”实体是指一个或多个所述实体。由此术语“一个”、“一个或多个”和“至少一个”在本文中是可以互换使用的。还应注意到术语“包括”、“包含”和“具有”也是可以互换使用的。
本文中使用的术语“自动的”及其变型是指在执行处理或操作时没有实质的人为输入的情况下完成的任何处理或操作。然而,即使在执行处理或操作时使用了执行所述处理或操作前接收到的实质的或非实质的人为输入,所述处理或操作也可以是自动的。如果输入影响所述处理或操作将怎样进行,则视该人为输入是实质的。不影响所述处理或操作进行的人为输入不视为是实质的。
本文中使用的术语“计算机可读介质”是指参与将指令提供给处理器执行的任何有形存储设备和/或传输介质。计算机可读介质可以是在IP网络上的网络传输(如SOAP)中编码的串行指令集。这样的介质可以采取很多形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如NVRAM或者磁或光盘。易失性介质包括诸如主存储器的动态存储器(如RAM)。计算机可读介质的常见形式包括例如软盘、柔性盘、硬盘、磁带或任何其它磁介质、磁光介质、CD-ROM、任何其它光介质、穿孔卡、纸带、任何其它具有孔形图案的物理介质、RAM、PROM、EPROM、FLASH-EPROM、诸如存储卡的固态介质、任何其它存储芯片或磁带盒、后面描述的载波、或计算机可以读取的任何其它介质。电子邮件的数字文件附件或其它自含信息档案或档案集被认为是相当于有形存储介质的分发介质。当计算机可读介质被配置为数据库时,应该理解该数据库可以是任何类型的数据库,例如关系数据库、层级数据库、面向对象的数据库等等。相应地,认为本发明包括有形存储介质或分发介质和现有技术公知的等同物以及未来开发的介质,在这些介质中存储本发明的软件实施。
本文中使用的术语“确定”、“运算”和“计算”及其变型可以互换使用,并且包括任何类型的方法、处理、数学运算或技术。更具体地,这样的术语可以包括诸如BPEL的解释规则或规则语言,其中逻辑不是硬编码的而是在可以被读、解释、编译和执行的规则文件中表示。
本文中使用的术语“模块”或“工具”是指任何已知的或以后发展的硬件、软件、固件、人工智能、模糊逻辑或能够执行与该元件相关的功能的硬件和软件的组合。另外,虽然用示例性实施方式来描述本发明,但应当理解本发明的各方面可以单独要求保护。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。

Claims (9)

1.一种术语抽取方法,其特征在于,包括步骤:
S101、抽取第一语料中的名词和名词短语,作为候选术语集合T;
S102、根据百科语料和步骤S101中的候选术语集合T,获得候选术语的嵌入表示;
S103、根据候选术语的嵌入表示,计算候选术语间的语义相关度SR(a,b);以候选术语为顶点,以术语间的语义相关度SR(a,b)构建候选术语a和候选术语b之间的边,获得术语传播网络G=(E,V),其中V是术语传播网络G的顶点集,E是术语传播网络G的无向边集;
S104、根据术语传播网络G使用置信度传播算法对候选术语进行排序;根据排序筛选术语;
其中,所述获得候选术语的嵌入表示,包括:
将百科语料表示为一个由词组成的有序序列W,
Figure FDA0002251390570000011
其中wi表示单个词,m为所述有序序列的长度;在有序序列W中标注出候选术语集合T中的候选术语和构成候选术语的词,获得候选词标注的文本语料xi表示候选术语集合T中的一个候选术语或构成候选术语的词;
根据百科语料计算xi的向量表示;
对于候选术语集合T中的候选术语a,若a=xi,则候选术语a的向量表示等于xi的向量表示;若候选术语a未出现在W’中,且候选术语a=e1+…+en,则候选术语a的向量表示等于构成候选术语a的各个词e1~en的向量之和。
2.根据权利要求1所述的方法,其特征在于,所述步骤抽取第一语料中的名词和名词短语,包括:
根据输入的第一语料,对其进行分词处理,得到第一语料的文本词序列表示,对该文本词序列进行词性标注;基于已标注词性的词序列,在其中抽取出长度小于k个词,且满足第一词性模板的名词或名词短语,作为候选术语;由所有的候选术语构成候选术语集合T;
第一词性模板为((A|N)+|(A|N)*(NP)?(A|N)*)N,其中A、N和P分别表示形容词、名词和介词;k为预设值。
3.根据权利要求1所述的方法,其特征在于,任意两个候选术语之间的所述语义相关度等于其对应向量表示的标准化余弦距离。
4.根据权利要求1所述的方法,其特征在于,所述以术语间的语义相关度SR(a,b)构建候选术语a和候选术语b之间的边,包括:
若候选术语a与候选术语b之间的语义相关度SR(a,b)大于给定阈值θ,则顶点a与b间存在一条无向边,且边上的权重等于语义相关度SR(a,b)。
5.根据权利要求1所述的方法,其特征在于,所述根据术语传播网络G使用置信度传播算法对候选术语进行排序,包括:
对顶点集V中的每个候选术语赋予一个初始的置信度值;反复迭代更新术语传播网络G中各个顶点的置信度值,直到术语传播网络G中各顶点的置信度值达到收敛状态;根据收敛状态下的置信度值,对术语传播网络G中各顶点进行排序。
6.根据权利要求5所述的方法,其特征在于,所述对顶点集V中的每个候选术语赋予一个初始的置信度值,包括:
基于术语传播网络G=(E,V),在所述术语传播网络的顶点集V中筛选出代表术语构建“种子集合”,对种子集合中的候选术语所对应的顶点,赋予初始置信度1.0,对于其他非种子的顶点,赋予初始置信度0.0;种子集合可以人工构建或自动构建;其中人工构建是将专家给出的输入文档中的部分关键术语作为种子集合,自动构建是通过候选术语在输入语料中的TF-IDF值进行判断,将m个TF-IDF值最高的候选术语加入种子集合中,m为预设值。
7.根据权利要求5所述的方法,其特征在于,所述反复迭代更新术语传播网络G中各个顶点的置信度值,直到术语传播网络G中各顶点的置信度值达到收敛状态,包括:
计算候选术语c的置信度值confk(c),直至术语传播网络G中各顶点的置信度值confk(c)达到收敛状态;其中,
Figure FDA0002251390570000031
其中,k表示第k轮迭代,vsk(cj,ci)为第k轮迭代时,顶点cj对顶点ci的置信度传播值;vsk(cj,ci)=ph(cj)·e(ci,cj)·confk(cj),e(ci,cj)为顶点cj和顶点ci对应的候选术语间的语义相关度;Z为归因化因子,在ci和cj中,i代表候选术语在术语传播网络G中的编号,j为顶点在A(ci)中的编号;A(ci)表示与顶点ci有边相邻的顶点的集合,|A(ci)|表示集合A(ci)中顶点的个数;
其中,任一候选术语c的在选用语料上的词组概率ph(c)的计算方法如下:
ph(c)=max{pmi(fi,bi)|i=l,…,k-1}
其中,fi和bi分别表示将候选术语c从中间第i个词分隔时所得到的前半部分和后半部分,pmi(fi,bi)表示fi和bi在选用语料中的点互信息;若k=1,则ph(c)=0.5;
分别计算候选术语c在第一语料的词组概率phD(c)和百科语料上的词组概率phE(c),根据phD(c)和phE(c)计算候选术语c在第一语料和百科语料的词组概率ph(c):
ph(c)=α·phD(c)+(1-α)·phE(c);
其中α为两个语料的分配权重,取值范围为0到1之间。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7任一所述方法的步骤。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上执行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一所述方法的步骤。
CN201710566573.4A 2017-07-12 2017-07-12 术语抽取方法和装置 Active CN107544958B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710566573.4A CN107544958B (zh) 2017-07-12 2017-07-12 术语抽取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710566573.4A CN107544958B (zh) 2017-07-12 2017-07-12 术语抽取方法和装置

Publications (2)

Publication Number Publication Date
CN107544958A CN107544958A (zh) 2018-01-05
CN107544958B true CN107544958B (zh) 2020-02-18

Family

ID=60970683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710566573.4A Active CN107544958B (zh) 2017-07-12 2017-07-12 术语抽取方法和装置

Country Status (1)

Country Link
CN (1) CN107544958B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108417210B (zh) * 2018-01-10 2020-06-26 苏州思必驰信息科技有限公司 一种词嵌入语言模型训练方法、词语识别方法及系统
CN111046665B (zh) * 2019-12-03 2023-10-13 哈尔滨工程大学 一种领域术语语义漂移抽取方法
CN113642329A (zh) * 2020-04-27 2021-11-12 阿里巴巴集团控股有限公司 术语识别模型的建立方法及装置、术语识别方法及装置
CN112464665B (zh) * 2020-12-14 2021-07-13 北京奥鹏远程教育中心有限公司 一种学科术语抽取与应用方法
CN112905765A (zh) * 2021-02-09 2021-06-04 联想(北京)有限公司 一种信息处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196904A (zh) * 2007-11-09 2008-06-11 清华大学 一种基于词频和多元文法的新闻关键词抽取方法
CN102360383A (zh) * 2011-10-15 2012-02-22 西安交通大学 一种面向文本的领域术语与术语关系抽取方法
CN102495892A (zh) * 2011-12-09 2012-06-13 北京大学 一种网页信息抽取方法
CN104298746A (zh) * 2014-10-10 2015-01-21 北京大学 一种基于短语网络图排序的领域文献关键词提取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8856104B2 (en) * 2009-06-16 2014-10-07 Oracle International Corporation Querying by concept classifications in an electronic data record system
US20130218872A1 (en) * 2012-02-16 2013-08-22 Benzion Jair Jehuda Dynamic filters for data extraction plan

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196904A (zh) * 2007-11-09 2008-06-11 清华大学 一种基于词频和多元文法的新闻关键词抽取方法
CN102360383A (zh) * 2011-10-15 2012-02-22 西安交通大学 一种面向文本的领域术语与术语关系抽取方法
CN102495892A (zh) * 2011-12-09 2012-06-13 北京大学 一种网页信息抽取方法
CN104298746A (zh) * 2014-10-10 2015-01-21 北京大学 一种基于短语网络图排序的领域文献关键词提取方法

Also Published As

Publication number Publication date
CN107544958A (zh) 2018-01-05

Similar Documents

Publication Publication Date Title
CN107544958B (zh) 术语抽取方法和装置
CN110502621B (zh) 问答方法、问答装置、计算机设备及存储介质
CN107766324B (zh) 一种基于深度神经网络的文本一致性分析方法
CN110929038B (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
CN111475629A (zh) 一种面向数学辅导问答系统的知识图谱构建方法及其系统
US20150044659A1 (en) Clustering short answers to questions
US20090265160A1 (en) Comparing text based documents
US20150006528A1 (en) Hierarchical data structure of documents
CN110851599A (zh) 一种中文作文自动评分方法及教辅系统
CN110688489B (zh) 基于交互注意力的知识图谱推演方法、装置和存储介质
CN111737968A (zh) 一种作文自动批改及评分的方法及终端
CN110968708A (zh) 一种教育信息资源属性标注方法及系统
CN109947923A (zh) 一种基于词向量的初等数学题型自动提取方法及系统
Rahman et al. NLP-based automatic answer script evaluation
CN112015907A (zh) 一种学科知识图谱快速构建方法、装置及存储介质
CN115309910A (zh) 语篇要素和要素关系联合抽取方法、知识图谱构建方法
Meena et al. Evaluation of the descriptive type answers using hyperspace analog to language and self-organizing map
CN110969005A (zh) 一种确定实体语料之间的相似性的方法及装置
CN113380360A (zh) 一种基于多模态病历图的相似病历检索方法及系统
Chang et al. Deep learning for sentence clustering in essay grading support
CN109087223A (zh) 一种基于本体的教育资源模型构建方法
CN110909175A (zh) 一种基于搜索引擎的在线课程概念知识图谱构建方法
CN107274077B (zh) 课程先后序计算方法和设备
CN115344668A (zh) 一种多领域与多学科科技政策资源检索方法及装置
Huang et al. An effective method for constructing knowledge graph of online course

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant