CN105653522A - 一种针对植物领域的非分类关系识别方法 - Google Patents

一种针对植物领域的非分类关系识别方法 Download PDF

Info

Publication number
CN105653522A
CN105653522A CN201610041747.0A CN201610041747A CN105653522A CN 105653522 A CN105653522 A CN 105653522A CN 201610041747 A CN201610041747 A CN 201610041747A CN 105653522 A CN105653522 A CN 105653522A
Authority
CN
China
Prior art keywords
relation
categorical
vocabulary
categorical relation
concept
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610041747.0A
Other languages
English (en)
Other versions
CN105653522B (zh
Inventor
赵明
杜会芳
杜亚茹
陈瑛
张家军
彭珺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Agricultural University
Original Assignee
China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Agricultural University filed Critical China Agricultural University
Priority to CN201610041747.0A priority Critical patent/CN105653522B/zh
Publication of CN105653522A publication Critical patent/CN105653522A/zh
Application granted granted Critical
Publication of CN105653522B publication Critical patent/CN105653522B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了属于计算机中文信息处理领域的一种针对植物领域的非分类关系识别方法。根据对植物领域关系的分类,对分类关系和非分类关系进行定义;获取相关词条的非结构化网页内容,作为语料并进行预处理,获得预处理模块;然后再进行基于词汇-语法的非分类关系的初步抽取,对获得的结果,进行改进,获得改进抽取模块;最后基于百度百科半结构化文本的非分类关系抽取,获得非分类关系抽取模块,对其进行形式化表达,获得可视性结果。该方法在对文本进行自然语言处理的基础上,直接用非分类关系词汇-语法模式进行抽取,准确率在70%左右,取得了较好的结果,为植物领域知识图谱构建奠定了基础,且为农民提供了更专业的植物领域技术和知识。

Description

一种针对植物领域的非分类关系识别方法
技术领域
本发明属于计算机中文信息处理领域,特别涉及一种针对植物领域的非分类关系识别方法。
背景技术
公开号为CN104933027A的中国专利申请,公开了一种利用依存分析的开放式中文实体关系抽取方法,该方法首先对句子进行依存分析,再结合中文语法启发式规则和依存分析的结果抽取关系词语,然后根据距离确定命名实体位置,最后进行三元组输出。但是该发明适用于大规模语料库,不仅没有涉及到网页的语义信息,而且丝毫不涉及到特定领域,实用性差。
公开号为CN103823868A的中国专利申请,公开了一种面向在线百科的事件识别方法和事件关系抽取方法,所述事件识别方法包括:从在线百科的分类体系中得到事件类分类标签;所述事件类分类标签表示该分类标签下的词条与一个或多个事件有关。以及对于所述在线百科中的词条,根据其所有分类标签中属于所述事件类分类标签的分类标签所占比率,判断所述词条是否是事件类词条,其过程比较繁琐,没有有效利用大规模的非结构化和半结构化的文本信息,且涉及面较广,对特定领域的针对性差。
发明内容
针对现有技术中存在的不足,本发明的目的在于提供一种针对植物领域的非分类关系识别方法。
为实现上述目的,本发明采用如下技术方案:
一种针对植物领域的非分类关系识别方法,所述方法为:
(1)根据对植物领域关系的分类,对分类关系和非分类关系进行定义;
所述分类关系的定义为:分类关系表示概念与概念之间的上下位的关系;非分类关系的定义为:非分类关系表示除了上下位关系以外的其它关系;
所述的分类关系包括层级关系和is-a关系;非分类关系包括整体部分关系及概念之间的依赖关系、关联关系、因果关系和相似关系;比如植物领域就涉及植物生长发育的方方面面,具有农业价值的关系包括:生长规律及其与外界环境条件的关系、别名信息、地理分布、病虫害防治、土壤与营养、栽培技术、轮作套种、遗传育种和经济价值等,表现出知识量大、关系复杂多变等特点;
(2)获取相关词条的非结构化网页内容,作为语料,对语料进行预处理,获得预处理模块;
(3)对获得的预处理模块,进行基于词汇-语法的非分类关系的初步抽取,获得初步抽取模块;
(4)对获得的初步抽取模块,采用基于词表过滤和给模式添加限制的方法进行改进,获得改进抽取模块;所述的限制为单个限制或用约束组合对象表示多个限制的组合;
(5)对获得的改进抽取模块,基于百度百科半结构化文本的非分类关系抽取,获得非分类关系抽取模块;
(6)对获得的非分类关系抽取模块,进行形式化表达,获得形式化表达模块,最终获得可视性结果。
所述步骤(2)的具体步骤为:
S1、利用语料采集脚本程序,从百度百科的植物分类下,获取词条作为语料;
所述语料采集脚本程序是根据每一个植物百科的url地址,寻找规律,一次性爬取下来;
S2、将获取的语料,以GBK编码的文本文件的形式,进行存储;
S3、借助自然语言处理的开源工具LTP,对存储好的语料进行第一阶段的预处理,即分词,该预处理基于条件随机场模型,进行训练和解码;
S4、借助自然语言处理的开源工具LTP,对存储好的语料进行第二阶段的预处理,即词性标注,该预处理基于支持向量机模型,进行训练和解码;
S5、借助自然语言处理的开源工具LTP,对存储好的语料进行第三阶段预处理,即依存句法分析,该预处理基于图模型的方法,将依存分析问题归结为在一个有向图中寻找最大生成树的问题,获得预处理模块;获得预处理模块;其中,边权重使用OnlineLearning算法获得,解码算法使用的是Eisner算法。
所述步骤(3)的具体步骤为:
S1、从获得的预处理模块中,选取一小批植物百科中的植物品种词条,找出表达非分类关系的语句;
S2、对找出的非分类关系语句进行依存句法分析;
S3、对依存句法分析的结果,进行标注,即找出并标明句子中存在的非分类关系的概念,以及非分类关系的名称,记为Ri(Xi,Yi);
其中,Ri为非分类关系名称,Xi,Yi分别为该非分类关系名称所对应的实体与属性;
S4、统计Xi、Ri、Yi之间的依存关系序列,在其他标注Xj、Rj、Yj(i≠j)中出现的次数;
S5、人工剔除不符合语法的依存关系序列后,得到出现多次的依存关系序列,即为表达非分类关系的词汇-语法模式;
S6、手工总结一些表达非分类关系的词汇-语法模式,作为补充;
S7、其中,非分类关系的词汇-语法模式采用:依存关系,即关节点,依存节点,对应非分类关系名称集,即施事概念,受事概念的形式表示;形式化为公式(1):
公式中,Di为依存关系,si为关节点,ti为依存节点,L为非分类关系名称集,A为施事概念,B为受事概念;
其中,L、A、B为si和ti中指定的元素,公式表示:当所有依存关系Di都满足时,L(A,B)关系成立;
S8、对待提取的文档利用LTP进行预处理,然后将非分类关系的词汇-语法模式匹配归结为,在依存树中寻找子树的问题,即对句子的依存树进行检测,如果依存树中存在这些关节点和依存节点,其满足非分类关系的词汇-语法模式前件中的每项约束,则非分类关系的词汇-语法模式匹配成功,并将这些关节点和依存节点,按照词汇-语法模式的后件,转化为非分类关系名称集L,获得初步抽取模块。
所述步骤(4)的具体步骤为:
S1、对初步抽取模块进行过滤,当非分类关系名称集L的施事概念A与受事概念B都在词表中出现时,则保留该非分类关系名称集L;
S2、为手工设定的词汇-语法模式增加限制;
S3、首先采用手工设定的词汇-语法模式,在标注集上进行初步抽取;
S4、对于抽取成功的实例,将其施事概念A、非分类关系名称集L、受事概念B的词性和词中的字,用图的方式表示为限制;
S5、计算这些限制的所有子集在标注集上的Laplacian值;Laplacian值用公式(2)计算:
L a p l a c i a n = e + 1 n + 1 - - - ( 2 )
公式中,e为抽取的错误数,n为抽取的总数;其中Laplacian值越低,表示该限制组合在标注集上抽取的表现越好;
所述步骤(5)的具体步骤为:
S1、分别对网页的DOM树进行解析处理,查找出其中表示百度百科名片中,词条基本信息栏表格和正文中表示表格的HTML标签,获取表格中表示非分类关系的表项;
S2、对表示非分类关系的表项进行LTP分词、命名实体识别处理;
S3、将处理结果转化为对应的非分类关系三元组,其中,非分类关系名称集L转化为表格中表项的名称,施事概念A转化为为词条名称,受事概念B转化为表项的内容。
所述的形式化表达模块借助Protégé可视化插件OWLPropViz,进行抽取结果的显示。
本发明的有益效果为:本发明在对文本进行自然语言处理的基础上,直接用非分类关系词汇-语法模式进行抽取,准确率在70%左右,在非分类关系抽取上取得了较好的结果,为植物领域知识图谱构建奠定了基础,且为农民提供了更专业的植物领域技术和知识。
附图说明
图1为本发明实施例的一种针对植物领域的非分类关系识别方法的步骤流程图。
图2为本发明实施例的一种针对植物领域的非分类关系识别方法得到的部分结果可视化展示示例图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明根据对植物领域关系的分类,对分类关系和非分类关系进行定义:
分类关系:分类关系表示概念与概念之间的上下位的关系;包括层级关系和is-a关系;
非分类关系:非分类关系表示除了上下位层次关系以外的其它关系;包括整体部分关系以及概念之间的依赖关系、关联关系、因果关系、相似关系;植物领域涉及植物生长发育的方方面面,具有农业价值的关系包括:生长规律及其与外界环境条件的关系、别名信息、地理分布、病虫害防治、土壤与营养、栽培技术、轮作套种、遗传育种和经济价值等,表现出知识两大、关系复杂多变等特点。
本实施例中,提供了一种针对植物领域的非分类关系识别方法,步骤流程图如图1所示,具体包括如下步骤:
(1)根据对植物领域关系的分类,对分类关系和非分类关系进行定义,确定出要筛选的非分类关系的种类。
(2)利用计算机编程进行数据获取,并借助自然语言处理的开源工具LTP,对获取的数据进行预处理,获得预处理模块;
具体步骤包括:
步骤S1:利用语料采集脚本程序,从百度百科的植物分类下,获取了9623个词条作为语料;
所述语料采集脚本程序是根据每一个植物百科的url地址,寻找规律,一次性爬取下来;
步骤S2:将获取的语料,以GBK编码的文本文件的形式,进行存储;
步骤S3:借助LTP对存储好的语料,进行第一阶段的预处理—分词,该预处理基于条件随机场模型,进行训练和解码;采用1998年1-6月人民日报的文本作为训练集;
步骤S4:借助自然语言处理的开源工具LTP,对存储好的语料进行第二阶段的预处理—词性标注,该预处理基于支持向量机模型,进行训练和解码;采用1998年1-6月人民日报的文本作为训练集;
步骤S5:借助自然语言处理的开源工具LTP,对存储好的语料进行第三阶段的预处理—依存句法分析,该预处理基于图模型的方法,将依存分析问题归结为在一个有向图中,寻找最大生成树的问题;边权重使用OnlineLearning算法学习获得,解码算法使用的是Eisner算法;其数据来源为HIT-CDT,前8000句训练,8001-9000开发,后1000句测试。
(3)对获得的预处理模块,进行基于词汇-语法的本体非分类关系的初步抽取,获得初步抽取模块;
具体步骤包括:
步骤S1:从获得的预处理模块中,选取一小批具有代表性的词条(在19个分类下共选取了97个词条),找出表达非分类关系的语句;
步骤S2:对找出的非分类关系的语句进行依存句法分析,采用手工总结与统计分析相结合的方式,总结表达非分类关系的词汇-语法模式;主要集中在具有农业价值的非分类关系上,如植物的地理分布、适生环境、病虫害、经济价值等;
步骤S3:对依存句法分析的结果进行标注,即找出并标明句子中存在非分类关系的概念,以及非分类关系的名称,记为Ri(Xi,Yi);
其中,Ri为非分类关系名称,Xi,Yi分别为该非分类关系名称所对应的实体与属性;
步骤S4:统计Xi、Ri、Yi之间的依存关系序列,在其他标注Xj、Rj、Yj(i≠j)中的出现次数;
步骤S5:在人工剔除不符合语法的依存序列后,得到出现多次的依存关系序列,即为表达非分类关系的词汇-语法模式;
步骤S6:人为总结出一些表达非分类关系的词汇-语法模式,作为补充;
步骤S7:其中,非分类关系的词汇-语法模式采用:依存关系,即头节点,依存节点,对应非分类关系名称集,即施事概念,受事概念的形式表示;形式化为公式(1):
公式中,Di为依存关系,si为关节点,ti为依存节点,L为非分类关系名称集,A为施事概念,B为受事概念;
其中,L、A、B为si和ti中指定的元素,公式表示:当所有依存关系Di都满足时,L(A,B)关系成立;
步骤S8:对待提取的文档利用LTP进行预处理,然后将非分类关系的词汇-语法模式匹配归结为,在依存树中寻找子树的问题,即对句子的依存树进行检测,如果依存树中存在这些关节点和依存节点,其满足词汇-语法模式前件中的每项约束,则非分类关系的词汇-语法模式匹配成功,并将这些节点和依存节点,按照非分类关系的词汇-语法模式的后件,转化为非分类关系名称集L,获得初步抽取模块。
(4)对获得的初步抽取模块,进行改进,获得改进抽取模块;
具体步骤包括:
步骤S1:对初步抽取模块进行过滤,非分类关系名称集L的施事概念A与受事概念B都在词表中出现时,则保留该非分类关系名称集L;
步骤S2:为手工设定的词汇-语法模式增加限制;所述的限制为单个限制或用约束组合对象表示多个限制的组合,所述单个限制的数据结构图,如表1所示;
表1:单个限制的数据结构
步骤S3:首先采用手工设定的词汇-语法模式,如SBV-HED-VOB在标注集上进行初步抽取;
步骤S4:对于抽取成功的实例,将施事概念A、非分类关系名称L、受事概念B的词性和词中的字,用图的方式表示为限制;
步骤S5:计算这些限制的所有子集在标注集上的Laplacian值,Laplacian值采用公式(2)计算:
L a p l a c i a n = e + 1 n + 1 - - - ( 2 )
公式中,e为抽取的错误数,n为抽取的总数;Laplacian用来估计所添加的限制性能的好坏,Laplacian值越低,表示该限制组合在标注集上抽取的表现越好。
(5)对改进抽取模块,基于百度百科半结构化文本的非分类关系抽取,获得非分类关系抽取模块;
具体步骤包括:
步骤S1:分别对网页的DOM树进行解析处理,查找出其中表示百科名片中,词条基本信息栏表格和正文中表示表格的HTML标签,获取表格中“分布区域”等表示非分类关系的表项;
步骤S2:对非分类关系的表项进行LTP分词、命名实体识别处理;
步骤S3:将处理结果转化为对应的非分类关系三元组,其中,非分类关系名称集L转化为表格中表项的名称,施事概念A转化为为词条名称,受事概念B转化为表项的内容。
步骤S4:经过总结,发现此步骤抽取的非分类关系均处于表示营养成分的主题列表中,故非分类名称取为“营养成分”。
(6)对获得的非分来关系抽取模块,形式化表达,获得形式化表达模块;形式化表达模块借组Protégé可视化插件OWLPropViz进行抽取结果的显示,表达结果如图2所示。

Claims (6)

1.一种针对植物领域的非分类关系识别方法,其特征在于,所述方法为:
(1)根据对植物领域关系的分类,对分类关系和非分类关系进行定义;
所述分类关系的定义为:分类关系表示概念与概念之间的上下位的关系;非分类关系的定义为:非分类关系表示除了上下位关系以外的其它关系;
所述的分类关系包括层级关系和is-a关系;非分类关系包括整体部分关系及概念之间的依赖关系、关联关系、因果关系和相似关系;
(2)获取相关词条的非结构化网页内容,作为语料,对语料进行预处理,获得预处理模块;
(3)对获得的预处理模块,进行基于词汇-语法的非分类关系的初步抽取,获得初步抽取模块;
(4)对获得的初步抽取模块,采用基于词表过滤和给模式添加限制的方法进行改进,获得改进抽取模块;所述的限制为单个限制或用约束组合对象表示多个限制的组合;
(5)对获得的改进抽取模块,基于百度百科半结构化文本的非分类关系抽取,获得非分类关系抽取模块;
(6)对获得的非分类关系抽取模块,进行形式化表达,获得形式化表达模块,最终获得可视性结果。
2.根据权利要求1所述的一种针对植物领域的非分类关系识别方法,其特征在于,所述步骤(2)的具体步骤为:
S1、利用语料采集脚本程序,从百度百科的植物分类下,获取词条作为语料;
所述语料采集脚本程序是根据每一个植物百科的url地址,寻找规律,一次性爬取下来;
S2、将获取的语料,以GBK编码的文本文件的形式,进行存储;
S3、借助自然语言处理的开源工具LTP,对存储好的语料进行第一阶段的预处理,即分词,该预处理基于条件随机场模型,进行训练和解码;
S4、借助自然语言处理的开源工具LTP,对存储好的语料进行第二阶段的预处理,即词性标注,该预处理基于支持向量机模型,进行训练和解码;
S5、借助自然语言处理的开源工具LTP,对存储好的语料进行第三阶段预处理,即依存句法分析,该预处理基于图模型的方法,获得预处理模块;其中,边权重使用OnlineLearning算法获得,解码算法使用的是Eisner算法。
3.根据权利要求1所述的一种针对植物领域的非分类关系识别方法,其特征在于,所述步骤(3)的具体步骤为:
S1、从获得的预处理模块中,选取一小批植物百科中的植物品种词条,找出表达非分类关系的语句;
S2、对找出的非分类关系语句进行依存句法分析;
S3、对依存句法分析的结果,进行标注,即找出并标明句子中存在的非分类关系的概念,以及非分类关系的名称,记为Ri(Xi,Yi);
其中,Ri为非分类关系名称,Xi,Yi分别为该非分类关系名称所对应的实体与属性;
S4、统计Xi、Ri、Yi之间的依存关系序列,在其他标注Xj、Rj、Yj(i≠j)中出现的次数;
S5、人工剔除不符合语法的依存关系序列后,得到出现多次的依存关系序列,即为表达非分类关系的词汇-语法模式;
S6、手工总结一些表达非分类关系的词汇-语法模式,作为补充;
S7、其中,非分类关系的词汇-语法模式采用:依存关系,即关节点,依存节点,对应非分类关系名称集,即施事概念,受事概念的形式表示;形式化为公式(1):
公式中,Di为依存关系,si为关节点,ti为依存节点,L为非分类关系名称集,A为施事概念,B为受事概念;
其中,L、A、B为si和ti中指定的元素,公式表示:当所有依存关系Di都满足时,L(A,B)关系成立;
S8、对待提取的文档利用LTP进行预处理,然后将非分类关系的词汇-语法模式匹配归结为,在依存树中寻找子树的问题,即对句子的依存树进行检测,如果依存树中存在这些关节点和依存节点,其满足非分类关系的词汇-语法模式前件中的每项约束,则非分类关系的词汇-语法模式匹配成功,并将这些关节点和依存节点,按照词汇-语法模式的后件,转化为非分类关系名称集L,获得初步抽取模块。
4.根据权利要求1所述的一种针对植物领域的非分类关系识别方法,其特征在于,所述步骤(4)的具体步骤为:
S1、对初步抽取模块进行过滤,当非分类关系名称集L的施事概念A与受事概念B都在词表中出现时,则保留该非分类关系名称集L;
S2、为手工设定的词汇-语法模式增加限制;
S3、首先采用手工设定的词汇-语法模式,在标注集上进行初步抽取;
S4、对于抽取成功的实例,将其施事概念A、非分类关系名称集L、受事概念B的词性和词中的字,用图的方式表示为限制;
S5、计算这些限制的所有子集在标注集上的Laplacian值;Laplacian值用公式(2)计算:
L a p l a c i a n = e + 1 n + 1 - - - ( 2 )
公式中,e为抽取的错误数,n为抽取的总数;其中Laplacian值越低,表示该限制组合在标注集上抽取的表现越好。
5.根据权利要求1所述的一种针对植物领域的非分类关系识别方法,其特征在于,所述步骤(5)的具体步骤为:
S1、分别对网页的DOM树进行解析处理,查找出其中表示百度百科名片中,词条基本信息栏表格和正文中表示表格的HTML标签,获取表格中表示非分类关系的表项;
S2、对表示非分类关系的表项进行LTP分词、命名实体识别处理;
S3、将处理结果转化为对应的非分类关系三元组,其中,非分类关系名称集L转化为表格中表项的名称,施事概念A转化为为词条名称,受事概念B转化为表项的内容。
6.根据权利要求1所述的一种针对植物领域的非分类关系识别方法,其特征在于,所述的形式化表达模块借助Protégé可视化插件OWLPropViz,进行抽取结果的显示。
CN201610041747.0A 2016-01-21 2016-01-21 一种针对植物领域的非分类关系识别方法 Expired - Fee Related CN105653522B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610041747.0A CN105653522B (zh) 2016-01-21 2016-01-21 一种针对植物领域的非分类关系识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610041747.0A CN105653522B (zh) 2016-01-21 2016-01-21 一种针对植物领域的非分类关系识别方法

Publications (2)

Publication Number Publication Date
CN105653522A true CN105653522A (zh) 2016-06-08
CN105653522B CN105653522B (zh) 2019-04-05

Family

ID=56484359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610041747.0A Expired - Fee Related CN105653522B (zh) 2016-01-21 2016-01-21 一种针对植物领域的非分类关系识别方法

Country Status (1)

Country Link
CN (1) CN105653522B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528863A (zh) * 2016-11-29 2017-03-22 中国国防科技信息中心 一种crf识别器的训练及技术及其属性名关系对抽取方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN107133208A (zh) * 2017-03-24 2017-09-05 南京缘长信息科技有限公司 一种实体抽取的方法及装置
CN107657063A (zh) * 2017-10-30 2018-02-02 合肥工业大学 医学知识图谱的构建方法及装置
CN108345647A (zh) * 2018-01-18 2018-07-31 北京邮电大学 基于Web的领域知识图谱构建系统及方法
CN108563710A (zh) * 2018-03-27 2018-09-21 腾讯科技(深圳)有限公司 一种知识图谱构建方法、装置及存储介质
CN109117477A (zh) * 2018-07-17 2019-01-01 广州大学 面向中文领域的非分类关系抽取方法、装置、设备及介质
CN110457431A (zh) * 2019-07-03 2019-11-15 深圳追一科技有限公司 基于知识图谱的问答方法、装置、计算机设备和存储介质
CN112015792A (zh) * 2019-12-11 2020-12-01 天津泰凡科技有限公司 一种物料重码分析方法、装置及计算机存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231151A (zh) * 2011-05-19 2011-11-02 安徽农业大学 一种农业领域本体自适应学习建模方法
CN102243649A (zh) * 2011-06-07 2011-11-16 上海交通大学 本体半自动信息抽取处理装置
CN103823868A (zh) * 2014-02-26 2014-05-28 中国科学院计算技术研究所 一种面向在线百科的事件识别方法和事件关系抽取方法
CN104933027A (zh) * 2015-06-12 2015-09-23 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231151A (zh) * 2011-05-19 2011-11-02 安徽农业大学 一种农业领域本体自适应学习建模方法
CN102243649A (zh) * 2011-06-07 2011-11-16 上海交通大学 本体半自动信息抽取处理装置
CN103823868A (zh) * 2014-02-26 2014-05-28 中国科学院计算技术研究所 一种面向在线百科的事件识别方法和事件关系抽取方法
CN104933027A (zh) * 2015-06-12 2015-09-23 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JUN PENG ET AL.: "Medical ontology learning based on Web resources", 《2015 12TH WEB INFORMATION SYSTEM AND APPLICATION CONFERENCE》 *
SERRA I ET AL.: "Evaluating techniques for learning non-taxonomic relationships of ontologies from text", 《EXPERT SYSTEMS WITH APPLICATIONS》 *
古凌岚 等: "基于语义依存的中文体非分类关系抽取方法", 《计算机工程与设计》 *
张立国 等: "维基百科中基于语义依存的领域本体非分类关系获取方法研究", 《情报科学》 *
董丽丽 等: "一种领域概念非分类关系的获取方法", 《计算机工程与应用》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528863A (zh) * 2016-11-29 2017-03-22 中国国防科技信息中心 一种crf识别器的训练及技术及其属性名关系对抽取方法
CN106528863B (zh) * 2016-11-29 2019-07-02 中国国防科技信息中心 一种crf识别器的训练及技术及其属性名关系对抽取方法
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN107133208A (zh) * 2017-03-24 2017-09-05 南京缘长信息科技有限公司 一种实体抽取的方法及装置
CN107657063A (zh) * 2017-10-30 2018-02-02 合肥工业大学 医学知识图谱的构建方法及装置
CN108345647A (zh) * 2018-01-18 2018-07-31 北京邮电大学 基于Web的领域知识图谱构建系统及方法
CN108345647B (zh) * 2018-01-18 2021-12-03 北京邮电大学 基于Web的领域知识图谱构建系统及方法
CN108563710B (zh) * 2018-03-27 2021-02-02 腾讯科技(深圳)有限公司 一种知识图谱构建方法、装置及存储介质
CN108563710A (zh) * 2018-03-27 2018-09-21 腾讯科技(深圳)有限公司 一种知识图谱构建方法、装置及存储介质
CN109117477A (zh) * 2018-07-17 2019-01-01 广州大学 面向中文领域的非分类关系抽取方法、装置、设备及介质
CN109117477B (zh) * 2018-07-17 2022-01-28 广州大学 面向中文领域的非分类关系抽取方法、装置、设备及介质
CN110457431A (zh) * 2019-07-03 2019-11-15 深圳追一科技有限公司 基于知识图谱的问答方法、装置、计算机设备和存储介质
CN112015792A (zh) * 2019-12-11 2020-12-01 天津泰凡科技有限公司 一种物料重码分析方法、装置及计算机存储介质
CN112015792B (zh) * 2019-12-11 2023-12-01 天津泰凡科技有限公司 一种物料重码分析方法、装置及计算机存储介质

Also Published As

Publication number Publication date
CN105653522B (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
CN105653522A (zh) 一种针对植物领域的非分类关系识别方法
CN106874378B (zh) 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN105243129B (zh) 商品属性特征词聚类方法
CN100595762C (zh) 文本集合可视化系统
CN104778186B (zh) 将商品对象挂载到标准产品单元的方法及系统
CN109493265A (zh) 一种基于深度学习的政策解读方法及政策解读系统
CN106951438A (zh) 一种面向开放域的事件抽取系统及方法
CN104035927A (zh) 一种基于用户行为的搜索方法及系统
CN101727498A (zh) 一种基于web结构的网页信息自动提取方法
CN103823824A (zh) 一种借助互联网自动构建文本分类语料库的方法及系统
CN103810251B (zh) 一种文本提取方法及装置
CN102750316A (zh) 基于语义共现模型的概念关系标签抽取方法
CN104731923A (zh) 互联网商品评论挖掘本体词库的构建方法
CN104199938B (zh) 基于rss的农用土地信息发送方法和系统
CN108228676A (zh) 信息抽取方法和系统
CN110209839A (zh) 农业知识图谱构建装置、方法及计算机可读存储介质
CN103559199A (zh) 网页信息抽取方法和装置
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN107247739A (zh) 一种基于因子图的金融公报文本知识提取方法
CN105488136A (zh) 选购热点标签的挖掘方法
CN111428503A (zh) 同名人物的识别处理方法及处理装置
CN110134844A (zh) 细分领域舆情监控方法、装置、计算机设备及存储介质
CN113987112A (zh) 表格信息抽取方法、装置、存储介质及电子设备
CN111710428A (zh) 一种建模全局和局部上下文交互的生物医学文本表示方法
CN112989811B (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190405

Termination date: 20200121