CN111027324A - 一种基于句法模式和机器学习的开放式关系的抽取方法 - Google Patents

一种基于句法模式和机器学习的开放式关系的抽取方法 Download PDF

Info

Publication number
CN111027324A
CN111027324A CN201911235614.7A CN201911235614A CN111027324A CN 111027324 A CN111027324 A CN 111027324A CN 201911235614 A CN201911235614 A CN 201911235614A CN 111027324 A CN111027324 A CN 111027324A
Authority
CN
China
Prior art keywords
relation
relationship
entity
indicator
positive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911235614.7A
Other languages
English (en)
Other versions
CN111027324B (zh
Inventor
韩伟红
徐菁
陈雷霆
孙燕
吕文娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Electronic Information Engineering Research Institute of UESTC
Original Assignee
Guangdong Electronic Information Engineering Research Institute of UESTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Electronic Information Engineering Research Institute of UESTC filed Critical Guangdong Electronic Information Engineering Research Institute of UESTC
Priority to CN201911235614.7A priority Critical patent/CN111027324B/zh
Publication of CN111027324A publication Critical patent/CN111027324A/zh
Application granted granted Critical
Publication of CN111027324B publication Critical patent/CN111027324B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于关系抽取的技术领域,具体涉及一种基于句法模式和机器学习的开放式关系的抽取方法,包括如下步骤,步骤一、对输入文本进行预处理,然后从所述输入文本中抽取实体和关系指示词,并组合为关系三元组格式,获取实体关系三元组候选集;步骤二、基于正负例判别算法,采用词向量模型和同义词林,通过计算句法模式之间的语义相似度,对关系候选集中每个三元组进行正负例判断,给出相应标签,自动生成所需的训练语料;步骤三、融入浅层和深层的文本特征,训练一个SVM分类器,对实体关系三元组进行区分和辨别。本发明能够对关系元组进行正负例判别,降低错误的句法分析对抽取关系元组带来的影响,有助于提高关系抽取的准确性。

Description

一种基于句法模式和机器学习的开放式关系的抽取方法
技术领域
本发明属于关系抽取的技术领域,具体涉及一种基于句法模式和机器学习的开放式关系的抽取方法。
背景技术
大数据时代,互联网上存在海量的用户生成文本,文本中出现的实体往往不是独立的,通常与其他实体具有关联关系,比如人名和机构在一个语句中同时出现,它们往往具有雇佣关系。挖掘实体之间的各种语义关系,对实体建立关联,形成知识网络,有助于揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。
传统的关系抽取技术主要包括基于统计机器学习的方法和基于模式匹配的方法。基于统计机器学习的方法将关系实例转换为高维特征向量或离散结构,在标注的训练语料上学习分类模型,来识别限定领域语料中实体对之间的关系。机器学习模型的性能依赖于训练语料的规模和覆盖率,网络文本中关系类别的多样性,导致难以构建覆盖所有关系的训练样本。基于模式匹配的方法,通过抽取相同类别的关系实例学习关系模式,并利用模式匹配技术来抽取更多的关系实例。然而,随着用户生成文本的发布,会出现一些未知的、随着时间演化的关系类别,基于模式匹配的方法无法处理这类关系信息。此外,网络文本的不规范性也会限制模式匹配的准确性。由于传统的关系抽取技术受限于训练语料规模和语料领域限定,以及预先定义关系类别的约束,无法应对网络文本的海量、异构、领域开放和不规范性等特点。在大规模的网络文本中,同一对实体之间可能存在多种语义关系。比如,两个公司之间既可以是合作关系,又可以是竞争关系。传统的关系抽取技术无法识别这类实体对之间的所有关系类型。
发明人发现现有方法存在以下缺陷:第一、无法对关系元组进行正负例判别,且错误的句法分析对抽取关系元组带来较大影响。
发明内容
本发明的目的在于:针对现有技术的不足,提供一种基于句法模式和机器学习的开放式关系的抽取方法,能够对关系元组进行正负例判别,降低错误的句法分析对抽取关系元组带来的影响,有助于提高关系抽取的准确性。
为了实现上述目的,本发明采用如下技术方案:
一种基于句法模式和机器学习的开放式关系的抽取方法,包括如下步骤:
步骤一、对输入文本进行预处理,然后从所述输入文本中抽取实体和关系指示词,并组合为关系三元组格式,获取实体关系三元组候选集;
步骤二、基于正负例判别算法,采用词向量模型和同义词林,通过计算句法模式之间的语义相似度,对关系候选集中每个三元组进行正负例判断,给出相应标签,自动生成所需的训练语料;
步骤三、融入浅层和深层的文本特征,训练一个SVM分类器,对实体关系三元组进行区分和辨别。
需要说明的是,本发明的抽取方法中,利用浅层和深层的句法知识获取实体关系三元组候选集,并抽象为句法模式,然后利用词向量模型和同义词林,通过一种正负例判别算法,为机器学习模型自动生成训练语料,突破了以往方法中语料领域限定的约束,利用机器学习模型对文本中的序列信息具有很好的建模能力,对关系元组进行正负例判别,弥补错误的句法分析对抽取关系元组带来的影响,有助于提高关系抽取的准确性,利用文本字符串作为实体之间的关系指示词,将无结构化文本数据表示成结构化的关系三元组数据格式输出,从而能够突破传统的关系抽取方法中关系类别限定的约束,为知识图谱的构建提供丰富的关系类别,首先,对输入文本进行分词、词性标注和依存关系解析等预处理。其次,基于句法分析,从文本中自动抽取关系三元组候选集并抽象为句法模式,利用了词性信息,一方面提高模式的泛化能力,另一方面降低句法分析错误带来的影响。然后,基于正负例判别算法,利用词向量模型和同义词林,通过计算句法模式之间的语义相似度,对关系候选集中每个三元组进行正负例判断,给出相应标签,自动生成所需的训练语料,最后,融入浅层(如词性标签)和深层(如主宾句法结构)等丰富的文本特征,训练一个SVM分类器,进一步对实体关系三元组进行区分和辨别。
作为本发明所述的一种基于句法模式和机器学习的开放式关系的抽取方法的一种改进,所述步骤一中,所述预处理包括:
输入语料,根据句子结束的标记符号进行分句;
使用HanLP中文自然语言处理工具对句子进行分词、词性标注和依存关系解析。
作为本发明所述的一种基于句法模式和机器学习的开放式关系的抽取方法的一种改进,所述步骤一中,获取所述实体关系三元组候选集,包括:
将依存关系标签关联的两个句子成分依据词性标签和依存路径,放入关系元组中的相应位置;
若并列关系关联两个动词,则这两个动词共有主语,将其作为这两个所述动词所在关系元组的左实体;若实体指称项处于介词短语中,则作为右实体,且与所述关系指示词具有依存关系;若所述左实体的位置大于所述关系指示词,则两者之间不存在两个或以上的论元。
作为本发明所述的一种基于句法模式和机器学习的开放式关系的抽取方法的一种改进,所述步骤二中,所述正负例判别算法包括:
利用基于所述依存关系产生的所述关系元组作为正例种子,对其他所述关系元组进行正负例判别。
作为本发明所述的一种基于句法模式和机器学习的开放式关系的抽取方法的一种改进,所述步骤二还包括:
从训练的所述词向量模型中获取所述关系指示词的向量;
在实体类别相同的条件下,通过所述关系指示词的向量,计算余弦相似度,来获取所述句法模式之间的所述语义相似度。
作为本发明所述的一种基于句法模式和机器学习的开放式关系的抽取方法的一种改进,所述步骤二还包括:
通过所述同义词林,获取所述关系指示词的所有同义词,计算所述关系指示词与所有所述同义词的所述语义相似度,然后计算平均值,作为相似度阈值。
作为本发明所述的一种基于句法模式和机器学习的开放式关系的抽取方法的一种改进,所述步骤二,正负例判断包括:
若所述关系指示词的向量的所述语义相似度大于所述相似度阈值,则获取所述关系指示词所在关系元组,否则,作为负例种子。
本发明的有益效果在于,本发明包括如下步骤,步骤一、对输入文本进行预处理,然后从所述输入文本中抽取实体和关系指示词,并组合为关系三元组格式,获取实体关系三元组候选集;步骤二、基于正负例判别算法,采用词向量模型和同义词林,通过计算句法模式之间的语义相似度,对关系候选集中每个三元组进行正负例判断,给出相应标签,自动生成所需的训练语料;步骤三、融入浅层和深层的文本特征,训练一个SVM分类器,对实体关系三元组进行区分和辨别。本发明的抽取方法利用浅层和深层的句法知识获取实体关系三元组候选集,并抽象为句法模式,然后利用词向量模型和同义词林,通过一种正负例判别算法,为机器学习模型自动生成训练语料,突破了以往方法中语料领域限定的约束,利用机器学习模型对文本中的序列信息具有很好的建模能力,对关系元组进行正负例判别,弥补错误的句法分析对抽取关系元组带来的影响,有助于提高关系抽取的准确性,利用文本字符串作为实体之间的关系指示词,将无结构化文本数据表示成结构化的关系三元组数据格式输出,从而能够突破传统的关系抽取方法中关系类别限定的约束,为知识图谱的构建提供丰富的关系类别,首先,对输入文本进行分词、词性标注和依存关系解析等预处理。其次,基于句法分析,从文本中自动抽取关系三元组候选集并抽象为句法模式,利用了词性信息,一方面提高模式的泛化能力,另一方面降低句法分析错误带来的影响。然后,基于正负例判别算法,利用词向量模型和同义词林,通过计算句法模式之间的语义相似度,对关系候选集中每个三元组进行正负例判断,给出相应标签,自动生成所需的训练语料,最后,融入浅层(如词性标签)和深层(如主宾句法结构)等丰富的文本特征,训练一个SVM分类器,进一步对实体关系三元组进行区分和辨别。本发明能够对关系元组进行正负例判别,降低错误的句法分析对抽取关系元组带来的影响,有助于提高关系抽取的准确性。
附图说明
图1为本发明的流程示意图。
图2为本发明中依存关系解析的示意图。
具体实施方式
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决技术问题,基本达到技术效果。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、水平”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
以下结合附图1~2对本发明作进一步详细说明,但不作为对本发明的限定。
一种基于句法模式和机器学习的开放式关系的抽取方法,包括如下步骤:
步骤一、对输入文本进行预处理,然后从输入文本中抽取实体和关系指示词,并组合为关系三元组格式,获取实体关系三元组候选集;
步骤二、基于正负例判别算法,采用词向量模型和同义词林,通过计算句法模式之间的语义相似度,对关系候选集中每个三元组进行正负例判断,给出相应标签,自动生成所需的训练语料;
步骤三、融入浅层和深层的文本特征,训练一个SVM分类器,对实体关系三元组进行区分和辨别。
需要说明的是,本发明的抽取方法中,利用浅层和深层的句法知识获取实体关系三元组候选集,并抽象为句法模式,然后利用词向量模型和同义词林,通过一种正负例判别算法,为机器学习模型自动生成训练语料,突破了以往方法中语料领域限定的约束,利用机器学习模型对文本中的序列信息具有很好的建模能力,对关系元组进行正负例判别,弥补错误的句法分析对抽取关系元组带来的影响,有助于提高关系抽取的准确性,利用文本字符串作为实体之间的关系指示词,将无结构化文本数据表示成结构化的关系三元组数据格式输出,从而能够突破传统的关系抽取方法中关系类别限定的约束,为知识图谱的构建提供丰富的关系类别,首先,对输入文本进行分词、词性标注和依存关系解析等预处理。其次,基于句法分析,从文本中自动抽取关系三元组候选集并抽象为句法模式,利用了词性信息,一方面提高模式的泛化能力,另一方面降低句法分析错误带来的影响。然后,基于正负例判别算法,利用词向量模型和同义词林,通过计算句法模式之间的语义相似度,对关系候选集中每个三元组进行正负例判断,给出相应标签,自动生成所需的训练语料,最后,融入浅层(如词性标签)和深层(如主宾句法结构)等丰富的文本特征,训练一个SVM分类器,进一步对实体关系三元组进行区分和辨别。
本发明对网络文本数据,例如新闻、百科中的开放式实体关系抽取任务进行描述,并使用数字符号进行形式化表示,给定一组文档集合D,对每篇文档d∈D进行分句预处理,获得一个句子列表S。开放式关系抽取的任务是从每条语句中s∈S,识别一对实体指称项(e1,e2)∈s,以及关联这两个实体指称项的关系指示词r∈s,将它们组成实体关系三元组的数据格式(e1,r,e2),根据以上描述,准确识别实体指称项和关系指示词,明确实体指称项和关系指示词之间的关联关系。
优选的,步骤一中,预处理包括:
输入语料,根据句子结束的标记符号进行分句;
使用HanLP中文自然语言处理工具对句子进行分词、词性标注和依存关系解析。
需要说明的是:预处理是将文本语料转化为具有自然语言标记的句子集合,针对输入语料,根据句子结束的标记符号进行分句,包括“句号、问号、感叹号、分号、省略号”等标点符号。
优选的,步骤一中,获取实体关系三元组候选集,包括:
将依存关系标签关联的两个句子成分依据词性标签和依存路径,放入关系元组中的相应位置;
若并列关系关联两个动词,则这两个动词共有主语,将其作为这两个动词所在关系元组的左实体;若实体指称项处于介词短语中,则作为右实体,且与关系指示词具有依存关系;若左实体的位置大于关系指示词,则两者之间不存在两个或以上的论元。
需要说明的是:获取实体关系三元组候选集,从输入文本中抽取实体和关系指示词,并组合为关系三元组格式,由于实体识别不是本发明研究的重心,这里采用正则表达式结合句子成分之间的依存关系(“定中关系”),获取日期、货币、百分比、时间等命名规律的实体指称项,利用词性和依存关系等句法信息制定识别规则,将包含专有名词的名词性词组作为实体指称项。比如,从图2的句子中识别的实体指称项为“美国”、“500万美元”、“马哈苏德”。虽然部分名词也可以作为关系指示词,比如“总统”、“丈夫”、“朋友”等,但名词的扮演角色比较复杂,难以辨别。为了降低噪音输入,这里仅采用动词性词语作为关系指示词,比如图2中的“悬赏”、“缉拿”。
在获取关系元组时,首先利用句子成分之间的依存关系制定抽取方法,如下所示。将“主谓关系”、“动宾关系”、“间宾关系”等依存关系标签关联的两个句子成分依据词性标签和依存路径,放入关系元组中的相应位置。若“并列关系”关联两个动词,则这两个动词同享一个主语,将其作为这两个动词所在关系元组的左实体。由于依存关系解析对句子结构的复杂性比较敏感,即包含多个子句的复杂句会降低依存关系解析的准确性。为了提高关系元组的覆盖率,除了利用依存关系抽取关系元组以外,还对句中的实体和关系指示词进行任意组合,并使用以下方法去除具有明显错误的关系元组,来降低噪音信息。右实体的文本位置大于关系指示词的文本位置,或者两者紧密相邻;若实体指称项处于介词短语中,则只能作为右实体,且与关系指示词具有依存关系;若左实体的位置大于关系指示词,则两者之间不能存在两个或以上的论元。
优选的,步骤二中,正负例判别算法包括:
利用基于依存关系产生的关系元组作为正例种子,对其他关系元组进行正负例判别。
需要说明的是:利用基于依存关系产生的关系元组M作为正例种子,通过度量句法模式之间的语义相似度,对其他关系元组C进行正负例判别,为了泛化关系元组的表示能力,首先将关系元组抽取为句法模式,即将实体对使用类别标签进行表示,由于HanLP工具的词性标签对词语具有细致的描述功能,这里采用词性标签代替,比如关系元组“(美国,缉拿,马哈苏德)”的句法模式为“(ns,缉拿,nh)”。
优选的,步骤二还包括:
从训练的词向量模型中获取关系指示词的向量;
在实体类别相同的条件下,通过关系指示词的向量,计算余弦相似度,来获取句法模式之间的语义相似度。
需要说明的是:从训练的词向量模型中获取关系指示词的向量表示,如ri,rj所示,其中词向量模型采用word2vec,并使用本发明的数据集以及从人民网、新浪网、凤凰网等多种新闻网站爬取的新闻文章和部分中文维基百科作为训练语料。在实体类别相同的条件下,通过对关系指示词的向量形式计算余弦相似度,来获取句法模式之间的语义相似度,公式为
Figure BDA0002304798050000091
优选的,步骤二还包括:
通过同义词林,获取关系指示词的所有同义词,计算关系指示词与所有同义词的语义相似度,然后计算平均值,作为相似度阈值。
需要说明的是:为了自动生成相似度阈值,这里借助同义词林D,从中获取关系指示词的所有同义词,利用公式
Figure BDA0002304798050000093
计算关系指示词与所有同义词的语义相似度,并计算均值作为阈值。
优选的,步骤二,正负例判断包括:
若关系指示词的向量的语义相似度大于相似度阈值,则获取关系指示词所在关系元组,否则,作为负例种子。
需要说明的是:若关系指示词的向量的语义相似度大于相似度阈值,则认为获取关系指示词所在关系元组是正确的,否则,作为负例种子放入集合中用于后续处理。
为了保证种子关系元组的正确性,本发明采用对输出的负例进行进一步的判别,并采用了聚类,通过度量集合中任意两个句法模式的语义相似度,将超过阈值的句法模式聚为一类放入集合中,若某一类中元素个数超过阈值,则认为该类中句法模式对应的关系元组为正例,否则为负例。
由于词性标注错误、同义词林的有限规模、词向量模型的性能可能会导致关系元组存在错误的正负例标签,为了进一步提高关系元组的准确判别,本发明利用前面输出的关系元组语料,并结合浅层和深层的文本特征,训练SVM分类器,表1显示了采用的文本特征,其中,角标为L的符号代表左实体,角标为R的符号代表右实体,比如WL表示左实体的字符串表示,WR表示右实体的字符串表示,利用以上特征,关系元组可以转化为向量形式:(WL,PL,DL,BL,CL,DL,AL,RL,Dret,WR,PR,DR,BR,CR,DR,AR,RR)。
表1
Figure BDA0002304798050000101
根据上述说明书的揭示和教导,本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此,本发明并不局限于上述的具体实施方式,凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。

Claims (7)

1.一种基于句法模式和机器学习的开放式关系的抽取方法,其特征在于,包括如下步骤:
步骤一、对输入文本进行预处理,然后从所述输入文本中抽取实体和关系指示词,并组合为关系三元组格式,获取实体关系三元组候选集;
步骤二、基于正负例判别算法,采用词向量模型和同义词林,通过计算句法模式之间的语义相似度,对关系候选集中每个三元组进行正负例判断,给出相应标签,自动生成所需的训练语料;
步骤三、融入浅层和深层的文本特征,训练一个SVM分类器,对实体关系三元组进行区分和辨别。
2.如权利要求1所述的一种基于句法模式和机器学习的开放式关系的抽取方法,其特征在于,所述步骤一中,所述预处理包括:
输入语料,根据句子结束的标记符号进行分句;
使用HanLP中文自然语言处理工具对句子进行分词、词性标注和依存关系解析。
3.如权利要求1所述的一种基于句法模式和机器学习的开放式关系的抽取方法,其特征在于,所述步骤一中,获取所述实体关系三元组候选集,包括:
将依存关系标签关联的两个句子成分依据词性标签和依存路径,放入关系元组中的相应位置;
若并列关系关联两个动词,则这两个动词共有主语,将其作为这两个所述动词所在关系元组的左实体;若实体指称项处于介词短语中,则作为右实体,且与所述关系指示词具有依存关系;若所述左实体的位置大于所述关系指示词,则两者之间不存在两个或以上的论元。
4.如权利要求3所述的一种基于句法模式和机器学习的开放式关系的抽取方法,其特征在于,所述步骤二中,所述正负例判别算法包括:
利用基于所述依存关系产生的所述关系元组作为正例种子,对其他所述关系元组进行正负例判别。
5.如权利要求1所述的一种基于句法模式和机器学习的开放式关系的抽取方法,其特征在于,所述步骤二还包括:
从训练的所述词向量模型中获取所述关系指示词的向量;
在实体类别相同的条件下,通过所述关系指示词的向量,计算余弦相似度,来获取所述句法模式之间的所述语义相似度。
6.如权利要求5所述的一种基于句法模式和机器学习的开放式关系的抽取方法,其特征在于,所述步骤二还包括:
通过所述同义词林,获取所述关系指示词的所有同义词,计算所述关系指示词与所有所述同义词的所述语义相似度,然后计算平均值,作为相似度阈值。
7.如权利要求6所述的一种基于句法模式和机器学习的开放式关系的抽取方法,其特征在于,所述步骤二,正负例判断包括:
若所述关系指示词的向量的所述语义相似度大于所述相似度阈值,则获取所述关系指示词所在关系元组,否则,作为负例种子。
CN201911235614.7A 2019-12-05 2019-12-05 一种基于句法模式和机器学习的开放式关系的抽取方法 Active CN111027324B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911235614.7A CN111027324B (zh) 2019-12-05 2019-12-05 一种基于句法模式和机器学习的开放式关系的抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911235614.7A CN111027324B (zh) 2019-12-05 2019-12-05 一种基于句法模式和机器学习的开放式关系的抽取方法

Publications (2)

Publication Number Publication Date
CN111027324A true CN111027324A (zh) 2020-04-17
CN111027324B CN111027324B (zh) 2023-11-21

Family

ID=70207610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911235614.7A Active CN111027324B (zh) 2019-12-05 2019-12-05 一种基于句法模式和机器学习的开放式关系的抽取方法

Country Status (1)

Country Link
CN (1) CN111027324B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680127A (zh) * 2020-06-11 2020-09-18 暨南大学 一种面向年报的公司名称和关系抽取方法
CN111831829A (zh) * 2020-06-12 2020-10-27 广州多益网络股份有限公司 一种面向开放域的实体关系抽取方法、装置及终端设备
CN111859966A (zh) * 2020-06-12 2020-10-30 中国科学院信息工程研究所 一种面向网络威胁情报的标注语料生成方法及电子装置
CN112084789A (zh) * 2020-09-14 2020-12-15 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及存储介质
CN112231494A (zh) * 2020-12-16 2021-01-15 完美世界(北京)软件科技发展有限公司 信息抽取方法、装置、电子设备及存储介质
CN112417891A (zh) * 2020-11-29 2021-02-26 中国科学院电子学研究所苏州研究院 一种基于开放式信息抽取的文本关系自动标注方法
CN112463960A (zh) * 2020-10-30 2021-03-09 完美世界控股集团有限公司 一种实体关系的确定方法、装置、计算设备及存储介质
CN112528001A (zh) * 2020-12-23 2021-03-19 北京百度网讯科技有限公司 一种信息查询方法、装置及电子设备
CN112686024A (zh) * 2020-12-31 2021-04-20 竹间智能科技(上海)有限公司 句法解析方法及装置、电子设备、存储介质
CN112765330A (zh) * 2020-12-31 2021-05-07 科沃斯商用机器人有限公司 文本数据处理方法、装置、电子设备和存储介质
CN112784574A (zh) * 2021-02-02 2021-05-11 网易(杭州)网络有限公司 一种文本分割方法、装置、电子设备及介质
CN112836062A (zh) * 2021-01-13 2021-05-25 哈尔滨工程大学 一种文本语料库的关系抽取方法
CN113282717A (zh) * 2021-07-23 2021-08-20 北京惠每云科技有限公司 文本中实体关系的抽取方法、装置、电子设备及存储介质
CN114528418A (zh) * 2022-04-24 2022-05-24 杭州同花顺数据开发有限公司 一种文本处理方法、系统和存储介质
WO2022191379A1 (ko) * 2021-03-10 2022-09-15 서울대학교산학협력단 텍스트 기반 관계 추출 방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138507A (zh) * 2015-08-06 2015-12-09 电子科技大学 一种基于模式自学习的中文开放式关系抽取方法
US20160092793A1 (en) * 2014-09-26 2016-03-31 Thomson Reuters Global Resources Pharmacovigilance systems and methods utilizing cascading filters and machine learning models to classify and discern pharmaceutical trends from social media posts
CN105678327A (zh) * 2016-01-05 2016-06-15 北京信息科技大学 一种面向中文专利的实体间非分类关系抽取方法
CN106484675A (zh) * 2016-09-29 2017-03-08 北京理工大学 融合分布式语义和句义特征的人物关系抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160092793A1 (en) * 2014-09-26 2016-03-31 Thomson Reuters Global Resources Pharmacovigilance systems and methods utilizing cascading filters and machine learning models to classify and discern pharmaceutical trends from social media posts
CN105138507A (zh) * 2015-08-06 2015-12-09 电子科技大学 一种基于模式自学习的中文开放式关系抽取方法
CN105678327A (zh) * 2016-01-05 2016-06-15 北京信息科技大学 一种面向中文专利的实体间非分类关系抽取方法
CN106484675A (zh) * 2016-09-29 2017-03-08 北京理工大学 融合分布式语义和句义特征的人物关系抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
姚春华;刘潇;高弘毅;鄢秋霞;: "基于句法语义特征的实体关系抽取技术", 通信技术, no. 08 *
姚春华等: "基于句法语义特征的实体关系抽取技术" *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680127A (zh) * 2020-06-11 2020-09-18 暨南大学 一种面向年报的公司名称和关系抽取方法
CN111831829A (zh) * 2020-06-12 2020-10-27 广州多益网络股份有限公司 一种面向开放域的实体关系抽取方法、装置及终端设备
CN111859966A (zh) * 2020-06-12 2020-10-30 中国科学院信息工程研究所 一种面向网络威胁情报的标注语料生成方法及电子装置
CN111831829B (zh) * 2020-06-12 2024-04-09 广州多益网络股份有限公司 一种面向开放域的实体关系抽取方法、装置及终端设备
CN112084789A (zh) * 2020-09-14 2020-12-15 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及存储介质
CN112084789B (zh) * 2020-09-14 2022-07-12 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及存储介质
CN112463960B (zh) * 2020-10-30 2021-07-27 完美世界控股集团有限公司 一种实体关系的确定方法、装置、计算设备及存储介质
CN112463960A (zh) * 2020-10-30 2021-03-09 完美世界控股集团有限公司 一种实体关系的确定方法、装置、计算设备及存储介质
CN112417891A (zh) * 2020-11-29 2021-02-26 中国科学院电子学研究所苏州研究院 一种基于开放式信息抽取的文本关系自动标注方法
CN112417891B (zh) * 2020-11-29 2023-08-22 中国科学院电子学研究所苏州研究院 一种基于开放式信息抽取的文本关系自动标注方法
CN112231494A (zh) * 2020-12-16 2021-01-15 完美世界(北京)软件科技发展有限公司 信息抽取方法、装置、电子设备及存储介质
CN112528001A (zh) * 2020-12-23 2021-03-19 北京百度网讯科技有限公司 一种信息查询方法、装置及电子设备
CN112528001B (zh) * 2020-12-23 2023-07-25 北京百度网讯科技有限公司 一种信息查询方法、装置及电子设备
CN112686024A (zh) * 2020-12-31 2021-04-20 竹间智能科技(上海)有限公司 句法解析方法及装置、电子设备、存储介质
CN112765330A (zh) * 2020-12-31 2021-05-07 科沃斯商用机器人有限公司 文本数据处理方法、装置、电子设备和存储介质
CN112686024B (zh) * 2020-12-31 2023-12-22 竹间智能科技(上海)有限公司 句法解析方法及装置、电子设备、存储介质
CN112836062A (zh) * 2021-01-13 2021-05-25 哈尔滨工程大学 一种文本语料库的关系抽取方法
CN112836062B (zh) * 2021-01-13 2022-05-13 哈尔滨工程大学 一种文本语料库的关系抽取方法
CN112784574B (zh) * 2021-02-02 2023-09-15 网易(杭州)网络有限公司 一种文本分割方法、装置、电子设备及介质
CN112784574A (zh) * 2021-02-02 2021-05-11 网易(杭州)网络有限公司 一种文本分割方法、装置、电子设备及介质
WO2022191379A1 (ko) * 2021-03-10 2022-09-15 서울대학교산학협력단 텍스트 기반 관계 추출 방법 및 장치
CN113282717A (zh) * 2021-07-23 2021-08-20 北京惠每云科技有限公司 文本中实体关系的抽取方法、装置、电子设备及存储介质
CN114528418B (zh) * 2022-04-24 2022-10-14 杭州同花顺数据开发有限公司 一种文本处理方法、系统和存储介质
CN114528418A (zh) * 2022-04-24 2022-05-24 杭州同花顺数据开发有限公司 一种文本处理方法、系统和存储介质

Also Published As

Publication number Publication date
CN111027324B (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN111027324B (zh) 一种基于句法模式和机器学习的开放式关系的抽取方法
CN114610515B (zh) 基于日志全语义的多特征日志异常检测方法及系统
Wilson et al. Just how mad are you? Finding strong and weak opinion clauses
Nguyen et al. J-NERD: joint named entity recognition and disambiguation with rich linguistic features
JP5356197B2 (ja) 単語意味関係抽出装置
WO2014033799A1 (ja) 単語意味関係抽出装置
CN110209818B (zh) 一种面向语义敏感词句的分析方法
CN105843897A (zh) 一种面向垂直领域的智能问答系统
Necşulescu et al. Reading between the lines: Overcoming data sparsity for accurate classification of lexical relationships
Pariyani et al. Hate speech detection in twitter using natural language processing
CN105760462B (zh) 基于关联数据查询的人机交互方法及装置
CN111027323A (zh) 一种基于主题模型和语义分析的实体指称项识别方法
JP4911599B2 (ja) 風評情報抽出装置及び風評情報抽出方法
Zheng et al. Dynamic knowledge-base alignment for coreference resolution
Hussein Arabic document similarity analysis using n-grams and singular value decomposition
CN108959630A (zh) 一种面向英文无结构文本的人物属性抽取方法
Barkan et al. Within-between lexical relation classification
Suhasini et al. A Hybrid TF-IDF and N-Grams Based Feature Extraction Approach for Accurate Detection of Fake News on Twitter Data
JP4005343B2 (ja) 情報検索システム
Mekala et al. A survey on authorship attribution approaches
CN118057354A (zh) 一种基于元属性学习的事件检测方法
CN110807096A (zh) 一种小样本集上的信息对匹配方法及系统
Kalender et al. THINKER-entity linking system for Turkish language
Srikumar et al. Extraction of entailed semantic relations through syntax-based comma resolution
Specia et al. A hybrid approach for relation extraction aimed at the semantic web

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant