CN103699568A - 一种从维基中抽取领域术语间上下位关系的方法 - Google Patents

一种从维基中抽取领域术语间上下位关系的方法 Download PDF

Info

Publication number
CN103699568A
CN103699568A CN201310578954.6A CN201310578954A CN103699568A CN 103699568 A CN103699568 A CN 103699568A CN 201310578954 A CN201310578954 A CN 201310578954A CN 103699568 A CN103699568 A CN 103699568A
Authority
CN
China
Prior art keywords
term
feature
text
hyperlink
hyponymy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310578954.6A
Other languages
English (en)
Other versions
CN103699568B (zh
Inventor
何绯娟
缪相林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University City College
Original Assignee
Xian Jiaotong University City College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University City College filed Critical Xian Jiaotong University City College
Priority to CN201310578954.6A priority Critical patent/CN103699568B/zh
Publication of CN103699568A publication Critical patent/CN103699568A/zh
Application granted granted Critical
Publication of CN103699568B publication Critical patent/CN103699568B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种从维基中抽取领域术语间上下位关系的方法,按照如下步骤:(1)以领域名称对应的维基页面为起始页面,进行深度为3的广度优先遍历,并利用URL正则表达式过滤到未指向领域术语的超链接,遍历得到的页面与超链接分别存为页面文本集与二元组集合;(2)从二元组集合中获得双向链接特征、边介数特征、聚集系数特征;从文本集中获得的锚文本位置特征、锚文本上下文特征,并构建五维特征向量;(3)采用Random Forest分类器将二元组集合中的超链接按照上下位关系与非上下位关系进行二值分类。本发明能综合运用文本特征与超链接拓扑特征,实现从维基中自动抽取上下位关系。

Description

一种从维基中抽取领域术语间上下位关系的方法
技术领域
本发明涉及一种信息抽取方法,特别涉及一种从维基中抽取领域术语间上下位关系的方法。 
背景技术
上下位关系(Hyponymy relation)是领域术语之间最基本的语义关系,主要描述领域术语间的从属关系,例如“数据挖掘”领域的两个术语K-means algorithm、Cluster analysis之间就存在上下位关系。上下位关系是构建分类体系的基础,在海量数字资源,特别是与领域相关的数字资源(如专业文献、教科书等)的组织管理、分类、检索中具有基础性作用。然而,上下位关系通常隐含在领域相关的文本中,人工标注上下位关系不仅费时费力,而且要求标注者具备针对领域较深厚的专业知识。为此,需要一种自动化的方法来实现领域术语之间上下位关系的抽取。 
专利号为ZL201110312280.6,名称为:一种面向文本的领域术语与术语关系抽取方法,在该专利中,发明人提出一种面向文本的领域术语与术语关系抽取方法。该专利主要依据文本特征,通过条件随机场(Conditional Random Fields,CRF)模型进行多层次标记序列标注,得到待识别文本中术语间的关系,其中包括上下位关系,该发明中将其简写为Hypo。仅依据句子结构特征、术语词频、词性、词性一系列文本特征,使得抽取的准确率不高;其次在术语抽取中涉及分词、词性标注操作,这些文本预处理的结果无法保证完全正确,这也限制了后续的上下位关系抽取的性能。 
发明内容
为了克服上述现有技术的缺陷,本发明的目的在于提供一种从维基中抽取领域术语间上下位关系的方法,该方法从维基中特定领域的页面与超链接中提取文本特征与拓扑特征,利用Random Forest分类器从超链接中自动抽取出上下位关系;以实证分析发现的维基页面文本特征与超链接拓扑特征为指导,采用有监督的分类学习算法,实现领域术语上下位关系自动抽取;与目前单纯基于文本特征的方法相比,有效地提高了抽取的准确率与召回率。 
为达到以上目的,本发明采取如下技术方案予以实现。 
一种从维基中抽取领域术语间上下位关系的方法,包括如下步骤: 
步骤一:领域术语的页面文本与超链接关系获取 
(1)以领域名称对应的维基页面为起始页面,进行深度为3的广度优先遍历; 
(2)将遍历到的页面存为一个文本集:对于每个页面文本,用该文本对应的URL去掉http://en.wikipedia.org/wiki/后剩余的字符串作为文件名,该文件名也作为领域术语; 
(3)将遍历到的超链接关系存为一个二元组集合E:二元组形式为(termi,termj),termi与termj为超链接所连接的页面文本对应的文件名; 
(4)利用一组URL正则表达式过滤到未指向领域术语的超链接,即不遍历能匹配下列正则表达式的URL: 
a)^\List_of_\w+$ 
b)^\w+(ist|ists)$ 
c)^[1-9]+_\w+$ 
d)^\w+(organisation|government|company)\w+$ 
e)^\w+(man|men)$ 
步骤二:特征选择与构建 
选择能够从超链接关系中识别出上下位关系的特征,并构建E中每个超链接(termi,termj)的特征向量;这里上下位关系是指子类与类(kind-of),实例与类(is-a)关系; 
所述的识别出上下位关系的特征包括五个特征:从二元组集合中获得的双向链接特征、边介数(edge-betweenness)特征、聚集系数(Clustering coefficient)特征;从文本集中获得的锚文本(anchor text)位置特征、锚文本上下文(Context)特征;对五个特征进行量化,并构建五维特征向量; 
步骤三:上下位关系抽取 
利用所构建的五维特征向量,结合每个特征向量对应超链接的类标签(上下位关系与非上下位关系),形成一个训练数据集,采用Random Forest分类器将二元组集合中的超链接按照上下位关系与非上下位关系进行二值分类,从而实现上下位关系的抽取。 
步骤二所述的五个特征及特征向量的构建具体如下: 
利用从二元组形式的超链接集合E,建立以领域术语为节点,超链接为边的有向图GW(N,E),其中N为领域术语集,其中的每个领域术语对应一个维基页面文件名; 
特征一:双向链接特征(two_way) 
对于(termi,termj)∈E,若(termj,termi)∈E,则two_wayij=1;否则two_wayij=0; 
特征二:边介数特征(edge_betw) 
对于(termi,termj)∈E,edge_betwij=b(i,j);这里,b(i,j)表示(termi,termj)这条边在GW中的边介数;b(i,j)的计算公式如下: 
b ( i , j ) = Σ u , w ∈ N u ≠ w σ u , w ( i , j ) σ u , w - - - ( 1 )
式(1)中,σu,w是节点u,w在GW中最短路径的条数;σu,w(i,j)是节点u,w在GW中通过边(termi,termj)的最短路径的条数; 
特征三:聚集系数特征(clustering) 
对于(termi,termj)∈E,设定 clustering ij = c ( j ) c ( i ) + 1 - - - ( 2 )
式(2)中,c(i)、c(j)分别是节点termi、termj在GW中的聚集系数。节点u聚集系数计算公式为: c ( u ) = numberoftrianglesconnectedtonodeu numberoftriplescenteredonnodeu , 表示包含节点u的三角形的个数除以以u为中心节点的连通三元组的个数; 
通过分析页面文本,获得两个特征: 
特征四:锚文本位置特征(anchor_loc) 
若two_wayij=0,则anchor_locij=0; 
若two_wayij=1,则 
anchor _ loc ij = loc ( term i , term j ) loc ( term j , term i ) + 1 - - - ( 3 )
式(3)中,loc(x,y)表示超链接(x,y)在页面x中的位置,即从网页起始处的字符到超链接(x,y)锚文本起始处之间的字符数量; 
特征五:锚文本上下文特征(anchor_cont) 
从超链接(termi,termj)所在的页面文本中提取(termi,termj)的锚文本及其前后各32个单词,组成一个文本片段; 
1)若该文本片段能够匹配下表中的某个正则表达式,假设为第k个,则anchor_contij=wk; 
2)若该文本片段能够匹配下表中的多个正则表达式,设为第k1,k2,...,km(m>1)个正则表达式,则 anchor _ cont ij = max ( w k 1 , w k 2 , . . . , w k m ) ; ; 
3)若该文本片段不能匹配下表中的正则表达式,则anchor_contij=0; 
基于上述五个特征,对于每个(term,termj)∈E,构建五维特征向量: 
(two_wayij,edge_betwij,clusteringij,anchor_locij,anchor_conij)。 
本发明的优点是: 
1、本发明以维基百科为数据源,利用实证研究发现的一组特性,将锚文本的文本特征与超链接的拓扑特征相结合,采用有监督的分类学习算法,实现领域术语上下位关系自动抽取;与目前单纯基于文本特征的方法相比,有效地提高了抽取的准确率。 
2、本发明以维基百科为数据源,以爬取到的特定领域页面的标题为术语,由于这些术语由维基百科上不同领域的专家设定,质量与完整性较高,能够保障上下位关系抽取的召回率。 
附图说明
附图是从维基中抽取领域术语间上下位关系的过程。 
具体实施方式
以下结合附图对本发明的具体技术方案作进一步的详细描述。 
本发明中,领域术语是指在表达一个学科领域内特定概念或关系的词或短语。例如, 在Data mining领域中,典型的领域术语包括Cluster analysis、k-means algorithm、Classification以及Support vector machines等。上下位关系是领域术语的语义关系,表示术语间kind-of(子类与类)与is-a(实例与类)两类从属关系,例如,k-means algorithm与Cluster analysis之间以及Support vector machines与Classification之间就存在上下位关系。 
所发明的从维基中抽取领域术语间上下位关系的方法包括如附图所示的3个步骤,其具体流程为: 
步骤一:领域术语的页面文本与超链接关系获取 
1)以领域名称对应的维基页面为起始页面,进行深度为3的广度优先遍历,例如,要获取Data mining领域中的候选领域术语与超链接关系,则从位置http://en.wikipedia.org/wiki/Data_mining开始遍历。进行深度为3的遍历的依据是:我们人工标注的Data mining、Data structure、Euclidean geometry三个领域的领域术语,95%以上都包含在遍历到的页面文本对应的领域术语中;部分遍历到的页面文本并不能对应领域术语,但对后续的上下位关系抽取性能影响不大。 
2)将遍历到的页面存为一个文本集:对于每个页面文本,用该文本对应的URL去掉http://en.wikipedia.org/wiki/后剩余的字符串作为文件名,如http://en.wikipedia.org/wiki/Data_mining对应文本的文件名为Data_mining;该文件名也作为领域术语。 
3)将遍历到的超链接关系存为一个二元组集合E:二元组形式为(termi,termj),termi与termj为超链接所连接的页面文本对应的文件名,例如,(Data_mining,Cluster_analysis)表示http://en.wikipedia.org/wiki/Data_mining上指向http://en.wikipedia.org/wiki/Cluster_analysis的超链接。 
4)遍历中存在部分未指向领域术语的超链接,如关于外部联接、组织机构、人物等,为此,利用一组URL正则表达式过滤到这些超链接,即不遍历能匹配下列正则表达式的URL: 
a)^\List_of_\w+$ 
b)^\w+(ist|ists)$ 
c)^[1-9]+_\w+$ 
d)^\w+(organisation|government|company)\w+$ 
e)^\w+(man|men)$ 
步骤二:特征选择与构建: 
对三个领域(Data mining、Data structure、Euclidean geometry)的数据集中的超链接进行人工标注,并对标注数据集进行分析,发现了与上下位关系抽取相关的五个特征,包括:从二元组集合中获得的双向链接特征、边介数(edge-betweenness)特征、聚集系数(Clustering coefficient)特征;从文本集中获得的锚文本(anchor text)位置特征、锚文本上下文(Context)特征。 
利用从二元组形式的超链接集合E,建立以领域术语为节点,超链接为边的有向图GW(N,E),其中N为领域术语集,其中的每个领域术语对应一个维基页面文件名。 
特征一:双向链接特征(two_way) 
对于三个数据集的实证分析表明,对于单向超链接,仅有14%~16%的超链接是上下位关系;而对于双向超链接,即两个页面互相有链接指向对方,则约有31%~42%的超链接是上下位关系;这表明如果是双向超链接,则更可能是上下位关系。 
为此,对于(termi,termj)∈E,若(termj,termi)∈E,则two_wayij=1;否则two_wayij=0。 
特征二:边介数特征(edge_betw) 
对于三个数据集的实证分析表明,边(超链接)的介数与该边是上下位关系的可能性具有正相关性,即介数越大,越可能是上下位关系。 
为此,对于(termi,termj)∈E,edge_betwij=b(i,j);这里,b(i,j)表示(termi,termj)这条边在GW中的边介数;b(i,j)的计算公式如下: 
b ( i , j ) = Σ u , w ∈ N u ≠ w σ u , w ( i , j ) σ u , w - - - ( 1 )
式(1)中,σu,w是节点u,w在GW中最短路径的条数;σu,w(i,j)是节点u,w在GW中通过边(termi,termj)的最短路径的条数。 
对于b(i,j)的计算,利用Ulrik Brandes在文献《On Variants of Shortest-Path Betweenness Centrality and their Generic Computation》中提出的算法。 
特征三:聚集系数特征(clustering) 
对于三个数据集的实证分析表明,存在上下位的领域术语在E中聚集系数较大,且上位词的聚集系数通常比下位词的聚集系数大。如Cluster analysis对应节点在E中的聚集系数比k-means algorithm的大。 
为此,对于(termi,termj)∈E,设定 clustering ij = c ( j ) c ( i ) + 1 - - - ( 2 )
式(2)中,c(i)、c(j)分别是节点termi、termj在GW中的聚集系数。节点u聚集系数的计算公式为: c ( u ) = numberoftrianglesconnectedtonodeu numberoftriplescenteredonnodeu , 表示包含节点u的三角形的个数除以以u为中心节点的连通三元组的个数。 
通过分析页面文本,获得两个特征: 
特征四:锚文本位置特征(anchor_loc) 
对于三个数据集的实证分析表明,对于双向超链接,两个锚文本在页面中出现的位置具有较大的差异,具体来说,上位词的锚文本往往出现距离页面起始处字符间隔较远的位置,下位词的锚文本往往出现距离页面起始处字符间隔较近的位置。以Cluster_analysis与k-means_algorithm两个页面之间的双向超链接为例,超链接(k-means_algorithm,Cluster_analysis)出现在所在页面的首句,而超链接(Cluster_analysis,k-means_algorithm)出现在较后的位置。 
为此,锚文本位置特征计算如下: 
若two_wayij=0,则anchor_locij=0; 
若two_wayij=1,则 
anchor _ loc ij = loc ( term i , term j ) loc ( term j , term i ) + 1 - - - ( 3 )
式(3)中,loc(x,y)表示超链接(x,y)对应锚文本在页面x中的位置,即从网页起始处的字符到超链接(x,y)锚文本起始处之间的字符数量。 
特征五:锚文本上下文特征(anchor_cont) 
从超链接(termi,termj)所在的页面文本中提取(termi,eermj)的锚文本及其前后各32个单词,组成一个文本片段; 
1)若该文本片段能够匹配下表中的某个正则表达式,假设为第k个,则anchor_contij=wk; 
2)若该文本片段能够匹配下表中的多个正则表达式,设为第k1,k2,...,km(m>1)个正则表达式,则 anchor _ cont ij = max ( w k 1 , w k 2 , . . . , w k m ) ; ; 
3)若该文本片段不能匹配下表中的正则表达式,则anchor_contij=0。 
Figure BDA0000415685110000081
上表中的权重wk是通过对三个领域的数据集统计分析得到的,是指当文本片段匹配到正则表达式后,对应超链接是上下位关系的比例。 
基于上述五个特征,对于每个(termi,termj)∈E,构建五维特征向量: 
(two_wayij,edge_betwij,clusteringij,anchor_locij,anchor_conij)。 
步骤三:上下位关系抽取: 
利用所构建的五维特征向量,结合每个特征向量对应超链接的类标签(上下位关系与非上下位关系),形成一个训练数据集。采用Random Forest分类器训练出一个分类模型,能够从二元组集合中的超链接按照上下位关系与非上下位关系进行二值分类,从而实现上下位关系的抽取。 

Claims (2)

1.一种从维基中抽取领域术语间上下位关系的方法,其特征在于,包括如下步骤:
步骤一:领域术语的页面文本与超链接关系获取
(1)以领域名称对应的维基页面为起始页面,进行深度为3的广度优先遍历;
(2)将遍历到的页面存为一个文本集:对于每个页面文本,用该文本对应的URL去掉http://en.wikipedia.org/wiki/后剩余的字符串作为文件名,该文件名也作为领域术语;
(3)将遍历到的超链接关系存为一个二元组集合E:二元组形式为(termi,termj),termi与termj为超链接所连接的页面文本对应的文件名;
(4)利用一组URL正则表达式过滤到未指向领域术语的超链接,即不遍历能匹配下列正则表达式的URL:
a)^\List_of_\w+$
b)^\w+(ist|ists)$
c)^[1-9]+_\w+$
d)^\w+(organisation|government|company)\w+$
e)^\w+(man|men)$
步骤二:特征选择与构建
选择能够从超链接关系中识别出上下位关系的特征,并构建E中每个超链接(termi,termj)的特征向量;这里上下位关系是指子类与类(kind-of),实例与类(is-a)关系;
所述的识别出上下位关系的特征包括五个特征:从二元组集合中获得的双向链接特征、边介数(edge-betweenness)特征、聚集系数(Clustering coefficient)特征;从文本集中获得的锚文本(anchor text)位置特征、锚文本上下文(Context)特征;对五个特征进行量化,并构建五维特征向量;
步骤三:上下位关系抽取
利用所构建的五维特征向量,结合每个特征向量对应超链接的类标签,即上下位关系或非上下位关系,形成一个训练数据集,采用Random Forest分类器将二元组集合中的超链接按照上下位关系与非上下位关系进行二值分类,从而实现上下位关系的抽取。
2.根据权利要求1所述的一种从维基中抽取领域术语间上下位关系的方法,其特征在于,步骤二所述的五个特征及特征向量的构建具体如下:
利用从二元组形式的超链接集合E,建立以领域术语为节点,超链接为边的有向图GW(N,E),其中N为领域术语集,其中的每个领域术语对应一个维基页面文件名;
特征一:双向链接特征(two_way)
对于(termi,termj)∈E,若(termj,termi)∈E,则two_wayij=1;否则two_wayij=0;
特征二:边介数特征(edge_betw)
对于(termi,termj)∈E,edge_betwij-b(i,j);这里,b(i,j)表示(tetmi,termj)这条边在GW中的边介数;b(i,j)的计算公式如下:
b ( i , j ) = Σ u , w ∈ N u ≠ w σ u , w ( i , j ) σ u , w - - - ( 1 )
式(1)中,σu,w是节点u,w在GW中最短路径的条数;σu,w(i,j)是节点u,w在GW中通过边(termi,termj)的最短路径的条数;
特征三:聚集系数特征(clustering)
对于(termi,termj)∈E,设定 clustering ij = c ( j ) c ( i ) + 1 - - - ( 2 )
式(2)中,c(i)、c(j)分别是节点termi、termj在GW中的聚集系数。节点u聚集系数计算公式为: c ( u ) = number of triangles connected to node u number of triples centered on node u , 表示包含节点u的三角形的个数除以以u为中心节点的连通三元组的个数;
通过分析页面文本,获得两个特征:
特征四:锚文本位置特征(anchor_loc)
若two_wayij=0,则anchor_locij=0;
若two_wayij=1,则
anchor _ loc ij = loc ( term i , term j ) loc ( term j , term i ) + 1 - - - ( 3 )
式(3)中,loc(x,y)表示超链接(x,y)在页面x中的位置,即从网页起始处的字符到超链接(x,y)锚文本起始处之间的字符数量;
特征五:锚文本上下文特征(anchor_cont)
从超链接(termi,termj)所在的页面文本中提取(termi,termj)的锚文本及其前后各32个单词,组成一个文本片段;
1)若该文本片段能够匹配下表中的某个正则表达式,假设为第k个,则anchor_contij=wk
2)若该文本片段能够匹配下表中的多个正则表达式,设为第k1,k2,...,km(m>1)个正则表达式,则 anchor _ cont ij = max ( w k 1 , w k 2 , . . . , w k m ) ;
3)若该文本片段不能匹配下表中的正则表达式,则anchor_contij=0;
Figure FDA0000415685100000031
基于上述五个特征,对于每个(termi,termj)∈E,构建五维特征向量:
(two_wayij,edge_betwij,cluteringij,anchor_locij,anchor_conij)。
CN201310578954.6A 2013-11-16 2013-11-16 一种从维基中抽取领域术语间上下位关系的方法 Expired - Fee Related CN103699568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310578954.6A CN103699568B (zh) 2013-11-16 2013-11-16 一种从维基中抽取领域术语间上下位关系的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310578954.6A CN103699568B (zh) 2013-11-16 2013-11-16 一种从维基中抽取领域术语间上下位关系的方法

Publications (2)

Publication Number Publication Date
CN103699568A true CN103699568A (zh) 2014-04-02
CN103699568B CN103699568B (zh) 2016-08-24

Family

ID=50361096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310578954.6A Expired - Fee Related CN103699568B (zh) 2013-11-16 2013-11-16 一种从维基中抽取领域术语间上下位关系的方法

Country Status (1)

Country Link
CN (1) CN103699568B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731768A (zh) * 2015-03-05 2015-06-24 西安交通大学城市学院 一种面向中文新闻文本的事件地点抽取方法
CN106569993A (zh) * 2015-10-10 2017-04-19 中国移动通信集团公司 一种挖掘领域术语间上下位关系的方法及装置
CN108733702A (zh) * 2017-04-20 2018-11-02 北京京东尚科信息技术有限公司 用户查询上下位关系提取的方法、装置、电子设备和介质
CN110569061A (zh) * 2019-09-24 2019-12-13 河北环境工程学院 一种基于大数据的软件工程知识库的自动化构建系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360383A (zh) * 2011-10-15 2012-02-22 西安交通大学 一种面向文本的领域术语与术语关系抽取方法
US20120158724A1 (en) * 2010-12-21 2012-06-21 Tata Consultancy Services Limited Automated web page classification
CN102117281B (zh) * 2009-12-30 2013-05-08 北京亿维讯科技有限公司 一种构建领域本体的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117281B (zh) * 2009-12-30 2013-05-08 北京亿维讯科技有限公司 一种构建领域本体的方法
US20120158724A1 (en) * 2010-12-21 2012-06-21 Tata Consultancy Services Limited Automated web page classification
CN102360383A (zh) * 2011-10-15 2012-02-22 西安交通大学 一种面向文本的领域术语与术语关系抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘磊 等: "基于混合特征的上下位关系验证方法", 《计算机工程》 *
黄毅 等: "一种基于条件随机场的领域术语上下位关系获取方法", 《中南大学学报(自然科学版)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731768A (zh) * 2015-03-05 2015-06-24 西安交通大学城市学院 一种面向中文新闻文本的事件地点抽取方法
CN104731768B (zh) * 2015-03-05 2017-10-20 西安交通大学城市学院 一种面向中文新闻文本的事件地点抽取方法
CN106569993A (zh) * 2015-10-10 2017-04-19 中国移动通信集团公司 一种挖掘领域术语间上下位关系的方法及装置
CN108733702A (zh) * 2017-04-20 2018-11-02 北京京东尚科信息技术有限公司 用户查询上下位关系提取的方法、装置、电子设备和介质
CN108733702B (zh) * 2017-04-20 2020-09-29 北京京东尚科信息技术有限公司 用户查询上下位关系提取的方法、装置、电子设备和介质
CN110569061A (zh) * 2019-09-24 2019-12-13 河北环境工程学院 一种基于大数据的软件工程知识库的自动化构建系统

Also Published As

Publication number Publication date
CN103699568B (zh) 2016-08-24

Similar Documents

Publication Publication Date Title
CN106250412B (zh) 基于多源实体融合的知识图谱构建方法
CN111783394B (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN103942340A (zh) 一种基于文本挖掘的微博用户兴趣识别方法
CN102289522B (zh) 一种对于文本智能分类的方法
CN111753024B (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN104035975B (zh) 一种利用中文在线资源实现远程监督人物关系抽取的方法
CN104809176A (zh) 藏语实体关系抽取方法
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
WO2021051518A1 (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN104834747A (zh) 基于卷积神经网络的短文本分类方法
CN107239512B (zh) 一种结合评论关系网络图的微博垃圾评论识别方法
CN103324628A (zh) 一种针对发布文本的行业分类方法和系统
CN105868773A (zh) 一种基于层次随机森林的多标签分类方法
WO2023108991A1 (zh) 模型的训练方法、知识分类方法、装置、设备、介质
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN104142995A (zh) 基于视觉属性的社会事件识别方法
CN110188359B (zh) 一种文本实体抽取方法
CN113254652B (zh) 一种基于超图注意力网络的社交媒体贴文真实性检测方法
CN103136358A (zh) 一种自动抽取论坛数据的方法
CN109871449A (zh) 一种基于语义描述的端到端的零样本学习方法
CN113449084A (zh) 基于图卷积的关系抽取方法
CN103699568A (zh) 一种从维基中抽取领域术语间上下位关系的方法
CN103473275A (zh) 一种采用多特征融合的图像自动标注方法和系统
CN104346382A (zh) 使用语言查询的文本分析系统和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160824

Termination date: 20171116

CF01 Termination of patent right due to non-payment of annual fee