CN114625880B - 人物关系抽取方法、装置、终端及存储介质 - Google Patents

人物关系抽取方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN114625880B
CN114625880B CN202210516459.1A CN202210516459A CN114625880B CN 114625880 B CN114625880 B CN 114625880B CN 202210516459 A CN202210516459 A CN 202210516459A CN 114625880 B CN114625880 B CN 114625880B
Authority
CN
China
Prior art keywords
relation
character
sentence
text
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210516459.1A
Other languages
English (en)
Other versions
CN114625880A (zh
Inventor
沈浩
吴优
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhixun Information Technology Co ltd
Original Assignee
Shanghai Zhixun Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhixun Information Technology Co ltd filed Critical Shanghai Zhixun Information Technology Co ltd
Priority to CN202210516459.1A priority Critical patent/CN114625880B/zh
Publication of CN114625880A publication Critical patent/CN114625880A/zh
Application granted granted Critical
Publication of CN114625880B publication Critical patent/CN114625880B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于强化学习去噪的人物关系抽取方法、装置、终端及存储介质,其中方法包括:对原始语料库进行人物实体识别及过滤,得到带多名人物实体的原始语料库,进行实体关系标注后得到人物关系种子实体对;依据含目标关系的人物关系种子实体寻找语句文本,从语句文本中抽取得到关系抽取模板,利用关系抽取模板进行人物关系实例提取并循环迭代,得到人物关系噪音实例;利用去噪级联模型对人物关系噪音实例进行处理噪音,最终得到人物关系实例结果。本发明以强化学习为基本思想、以神经网络关系分类模型输出的概率均值作为激励,通过多轮迭代式的噪音实例输入更新策略网络和奖罚环境,实现了对错误人物关系标注样本的降噪。

Description

人物关系抽取方法、装置、终端及存储介质
技术领域
本发明涉及一种关系抽取方案,具体为一种基于强化学习去噪的人物关系抽取方法、装置、终端及存储介质,属于信息抽取技术领域。
背景技术
关系抽取(Relation Extraction)是信息抽取(Information Extraction)领域内的重要研究方向、是构建知识图谱的关键技术,它可以明确实体间的相互关系进而便于将实体组织起来,形成实体网络。其中,人物关系抽取在构建人物知识图谱、梳理人物实体关系、挖掘人物间关联信息等场景中有着非常重要且广泛地应用,是学界和业界的一项重要研究工作。
在关系抽取任务执行方式的选择上,有监督的关系抽取曾一度成为业界主流,这一方式虽减少了特征工程的工作量、在对一些小规模标注样本的处理上能够取得较高的查准率和查全率,但其中利用人工进行样本标注的过程耗时费力,因此有监督的关系抽取受标注成本制约,无法快速应用于对大规模语料库的处理或其它不同领域中。
在这样的背景下,利用半监督或远程监督的方法缓解标注样本缺乏的问题也就成为了目前关系抽取工作的主流发展方向。例如,使用半监督Bootstrapping方法、通过聚类从外部语料中生成抽取模式(pattern),并自动产生大量含噪声的关系实例、将其视为已标注的样本。但是,由于Bootstrapping方法通常采用词向量的方式表示实例,而少数种子实例的向量表示往往无法真实表达样本空间中所有可能的向量形式,即通过Bootstrapping方法不可避免地会引入噪声,影响最终关系抽取结果的准确性。
综上所述,如果能够在目前已被广泛应用的Bootstrapping方法的基础上,结合强化学习和神经网络关系分类模型等技术手段,提出一种全新的、基于强化学习去噪的人物关系抽取方案,那么必将极大地提升行业内人物关系抽取作业的效率和质量。
发明内容
鉴于现有技术存在上述缺陷,本发明的目的是提出一种基于强化学习去噪的人物关系抽取方法、装置、终端及存储介质,具体如下。
一种人物关系抽取方法,包括:
对所获取的原始语料库进行人物实体识别及过滤,得到带多名人物实体的原始语料库,对所述带多名人物实体的原始语料库内的人物关系进行实体关系标注,得到人物关系种子实体对;
依据输入的含目标关系的所述人物关系种子实体对在所述带多名人物实体的原始语料库内找出相对应的语句文本,依据所述语句文本的上下文向量从所述语句文本中抽取得到关系抽取模板,利用所述关系抽取模板在待抽取关系的语料库中进行人物关系实例提取并基于Bootstrapping方法进行循环迭代,得到人物关系噪音实例;
以强化学习策略网络作为生成样本质量的判别器、结合基于神经网络的关系分类器,生成去噪级联模型,利用所述去噪级联模型对所述人物关系噪音实例进行处理,得到人物关系实例结果。
优选地,所述对所获取的原始语料库进行人物实体识别及过滤,得到带多名人物实体的原始语料库,对所述带多名人物实体的原始语料库内的人物关系进行实体关系标注,得到人物关系种子实体对,包括:
获取语料信息,将所获取的语料信息汇总形成原始语料库;
利用BiLSTM-CRF模型对所述原始语料库内的语料信息进行人物实体识别,并对去重后人物实体数量小于2名的语料信息进行过滤去除,得到带多名人物实体的原始语料库;
对所述带多名人物实体的原始语料库内的每类人物关系及相对应的人物实体进行小批量的实体关系标注,每类人物关系的标注数量不少于500条,得到每类人物关系对应的人物关系种子实体对。
优选地,在所述依据输入的含目标关系的所述人物关系种子实体对在所述带多名人物实体的原始语料库内找出相对应的语句文本,依据所述语句文本的上下文向量从所述语句文本中抽取得到关系抽取模板,利用所述关系抽取模板在待抽取关系的语料库中进行人物关系实例提取并进行基于Bootstrapping方法的循环迭代,得到人物关系噪音实例前,还包括:
对所述带多名人物实体的原始语料库及待抽取关系的语料库中的语句文本进行文本向量化处理,得到每条所述语句文本的上下文向量。
优选地,所述对所述带多名人物实体的原始语料库及待抽取关系的语料库中的语句文本进行文本向量化处理,得到每条所述语句文本的上下文向量,包括:
对所述带多名人物实体的原始语料库及待抽取关系的语料库中的语句文本进行人物实体识别,将所述语句文本中已识别的人物实体进行剔除,再按所述语句文本中各部分相对于人物实体的位置将所述语句文本切割划分为前语句文本、中语句文本及后语句文本;
分别对所述前语句文本、所述中语句文本及所述后语句文本进行分词,得到各文本的分词结果并进行词性标注;
对所述分词结果进行文本过滤,分别对过滤后的所述前语句文本、所述中语句文本及所述后语句文本进行文本向量化并将文本向量化结果进行汇总,得到每条所述语句文本的上下文向量。
优选地,所述依据输入的含目标关系的所述人物关系种子实体对在所述带多名人物实体的原始语料库内找出相对应的语句文本,依据所述语句文本的上下文向量从所述语句文本中抽取得到关系抽取模板,利用所述关系抽取模板在待抽取关系的语料库中进行人物关系实例提取并进行基于Bootstrapping方法的循环迭代,得到人物关系噪音实例,包括:
依据输入的含目标关系的所述人物关系种子实体对在所述带多名人物实体的原始语料库内找出相对应的所述语句文本;
利用聚类算法、依据所述语句文本的上下文向量从所述语句文本中聚类得到关系抽取模板,每个所述关系抽取模板内包含有多条所述语句文本的上下文向量;
利用所述关系抽取模板在待抽取关系的语料库中进行人物关系实例提取,基于Bootstrapping方法、结合所述语句文本的上下文向量进行人物关系抽取迭代,得到人物关系噪音实例。
优选地,所述利用聚类算法、依据所述语句文本的上下文向量从所述语句文本中聚类得到关系抽取模板,每个所述关系抽取模板内包含有多条所述语句文本的上下文向量,包括:
利用文本聚类算法对所述语句文本进行聚类,将初始输入的所述语句文本归入一个关系抽取模板中,
对于随后输入的每个未归入任一所述关系抽取模板中的所述语句文本,依据上下文向量逐一判断该语句文本与任一所述关系抽取模板间的相似度是否不低于相似度阈值,若是则将该语句文本归入对应的所述关系抽取模板中,
若该语句文本与已有的任一所述关系抽取模板间的相似度均低于相似度阈值,则将该语句文本归入一个新的所述关系抽取模板中,
重复以上操作直至完成对每条所述语句文本的处理,得到多个所述关系抽取模板且每个所述关系抽取模板内包含有多条所述语句文本的上下文向量。
优选地,所述利用所述关系抽取模板在待抽取关系的语料库中进行人物关系实例提取,基于Bootstrapping方法、结合所述语句文本的上下文向量进行人物关系抽取迭代,得到人物关系噪音实例,包括:
依据上下文向量,分别计算待抽取关系的语料库中每条所述语句文本与每个所述关系抽取模板间的相似度,若相似度不低于抽取阈值,则将该语句文本视为可由对应的所述关系抽取模板抽取出来的候选关系实例;
依据上下文向量间的相似度,将所述候选关系实例添加至与其相似度最高的所述关系抽取模板中;
依据所述候选关系实例的质量对所述关系抽取模板进行置信度评分,更新每个所述关系抽取模板的置信得分;
依据所述关系抽取模板的置信得分对所述候选关系实例进行置信度评分,得到各所述候选关系实例的置信得分,将置信得分高于预设阈值的所述候选关系实例作为人物关系种子实体对、用于下一次的关系抽取中;
基于Bootstrapping方法、结合所述语句文本的上下文向量进行人物关系抽取迭代,得到人物关系噪音实例。
优选地,以强化学习策略网络作为生成样本质量的判别器、结合基于神经网络的关系分类器,生成去噪级联模型,利用所述去噪级联模型对所述人物关系噪音实例进行处理,得到人物关系实例结果,去噪级联模型,包括:
以实体关系标注结果作为样本,对策略网络进行预训练,得到初始策略网络;
对所述人物关系噪音实例对应的所述语句文本进行文本向量化处理,串联生成状态向量,使用激活函数对全连接层内的所述人物关系噪音实例进行激活,得到激活后的噪音实例向量,依据所述状态向量及所述激活后的噪音实例向量计算所述人物关系噪音实例的奖赏并依据计算结果判断是否添加该人物关系噪音实例,循环执行以上操作直至遍历全部所述人物关系噪音实例,得到人物关系噪音实例处理结果;
依据所述人物关系噪音实例处理结果对神经网络模型进行训练,得到所述神经网络模型的权重矩阵,将所述人物关系噪音实例及所述权重矩阵作为输入项、对所述初始策略网络进行再训练,生成得到针对人物关系样本中噪音的去噪级联模型。
利用所述去噪级联模型对所述人物关系噪音实例进行处理,得到人物关系实例结果。
一种人物关系抽取装置,包括:
种子实体对生成模块,被配置为对所获取的原始语料库进行人物实体识别及过滤,得到带多名人物实体的原始语料库,对所述带多名人物实体的原始语料库内的人物关系进行实体关系标注,得到人物关系种子实体对;
人物关系实例抽取模块,被配置为依据输入的含目标关系的所述人物关系种子实体对在所述带多名人物实体的原始语料库内找出相对应的语句文本,依据所述语句文本的上下文向量从所述语句文本中抽取得到关系抽取模板,利用所述关系抽取模板在待抽取关系的语料库中进行人物关系实例提取并基于Bootstrapping方法进行循环迭代,得到人物关系噪音实例;
人物关系实例去噪模块,被配置为以强化学习策略网络作为生成样本质量的判别器、结合基于神经网络的关系分类器,生成去噪级联模型,利用所述去噪级联模型对所述人物关系噪音实例进行处理,得到人物关系实例结果。
一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如前所述的人物关系抽取方法中的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行所述计算机程序时实现如前所述的人物关系抽取方法中的步骤。
本发明的优点主要体现在以下几个方面:
本发明所提出的一种基于强化学习去噪的人物关系抽取方法,以强化学习为基本思想、以神经网络关系分类模型输出的概率均值作为激励,通过多轮迭代式的噪音实例输入更新策略网络和奖罚环境,实现了对错误人物关系标注样本的低成本降噪。
使用公开数据集对方法的有效性进行测试,结果表明,在无噪音实例环境下,传统深度学习方法的F1值为61%,本发明的人物关系抽取方法的F1值为81%;而在噪音实例占比为40%的环境下,传统深度学习方法的F1值为42%,本发明的人物关系抽取方法的F1值可达71%。由以上数据可知,本发明的人物关系抽取方法具有很高的准确性和抗噪音性,能够显著地提升人物关系抽取作业的效率和质量。
与上述方法相对应的,本发明所提出的一种人物关系抽取装置、终端及存储介质,能够以系统化、标准化的处理流程,高效、准确地完成人物关系抽取作业,极大地降低了样本标注过程中的标注成本,且硬件的适配性和兼容性较高,能够切实地应用于信息抽取领域内的技术实现中。
本发明还为其他与关系抽取技术相关的方案提供了参考,可以以此为依据进行拓展延伸和深入研究,具有十分广阔的应用前景。
以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使本发明技术方案更易于理解、掌握。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例提供的一种人物关系抽取方法的流程示意图;
图2为本发明实施例提供的一种人物关系抽取装置的结构示意图。
具体实施方式
本发明揭示了一种基于强化学习去噪的人物关系抽取方法、装置、终端及存储介质,具体方案如下。
一方面,本发明涉及一种基于强化学习去噪的人物关系抽取方法,具体流程如图1所示,包括如下步骤:
S1、对所获取的原始语料库进行人物实体识别及过滤,得到带多名人物实体的原始语料库,对所述带多名人物实体的原始语料库内的人物关系进行实体关系标注,得到人物关系种子实体对。这一步骤可以具体化为以下流程。
S11、获取语料信息,将所获取的语料信息汇总形成原始语料库。在本实施例中,所述语料信息为新闻信息,操作时通过互联网新闻门户网站获取50万条科技、财经、娱乐等新闻信息。
S12、由于大量新闻信息中并不包含多名人物及人物关系,因此利用BiLSTM-CRF模型对所述原始语料库内的语料信息进行人物实体识别,并对去重后人物实体数量小于2名的语料信息进行过滤去除,得到带多名人物实体的原始语料库。
S13、对所述带多名人物实体的原始语料库内的每类人物关系及相对应的人物实体进行小批量的实体关系标注,每类人物关系的标注数量不少于500条,得到每类人物关系对应的人物关系种子实体对。为了保证方法执行的准确性,在本实施例中,对于实体关系标注的过程以人工方式进行。
随后,在执行下一步骤前,本方法还包括一预操作步骤。即,
S14、对所述带多名人物实体的原始语料库及待抽取关系的语料库中的语句文本进行文本向量化处理,得到每条所述语句文本的上下文向量。这一步骤可以具体化为以下流程。
S141、对所述带多名人物实体的原始语料库及待抽取关系的语料库中的语句文本进行人物实体识别,将所述语句文本中已识别的人物实体进行剔除,再按所述语句文本中各部分相对于人物实体的位置将所述语句文本切割划分为前(before)语句文本、中(between)语句文本及后(after)语句文本。
S142、基于哈工大语言平台LTP,分别对所述前语句文本、所述中语句文本及所述后语句文本进行分词,得到各文本的分词结果并进行词性标注。此处采用先分割上下文再进行分词的方式,主要是为了避免机构名或地点的命名实体在分词阶段被错误分割后,引起误差累积,影响到其他词的分割与词性标注。
S143、对所述分词结果进行文本过滤,分别对过滤后的所述前语句文本、所述中语句文本及所述后语句文本进行文本向量化,每部分的向量化结果均用其各自的词向量之和来表示,并将文本向量化结果进行汇总,得到每条所述语句文本的上下文向量。
在进行文本过滤时,主要根据停用词表,过滤掉上下文中信息含量低的停用词,如“据悉”、“在”等词。另外,基于中文里的动词和一般名词基本能较完整地反映出语义关系的假设,将其他对语义关系识别无帮助的词性的词过滤掉。
S2、依据输入的含目标关系的所述人物关系种子实体对在所述带多名人物实体的原始语料库内找出相对应的语句文本,依据所述语句文本的上下文向量从所述语句文本中抽取得到关系抽取模板(pattern),利用所述关系抽取模板在待抽取关系的语料库中进行人物关系实例提取并基于Bootstrapping方法进行循环迭代,得到人物关系噪音实例。这一步骤可以具体化为以下流程。
S21、依据输入的含目标关系的所述人物关系种子实体对在所述带多名人物实体的原始语料库内找出相对应的所述语句文本。匹配时,除了需要匹配实体名,其对应的类型也需完全匹配,从而避免一词多义的现象发生。如对于存在<人名,关系,人名>关系的种子实体对(张三,徒弟,李四),根据实体名能匹配到两个句子,分别是“张三与徒弟李四共同出席...”和“李四,作为张三的徒弟...”。然而,后者的“徒弟”在句中并非描述距离较近的“张三”,而是描述“作为”之前的“李四”。因此,人名及上下文词性排列在句子匹配时是非常重要的匹配条件。
S22、利用聚类算法、依据所述语句文本的上下文向量从所述语句文本中聚类得到关系抽取模板,每个所述关系抽取模板内包含有多条所述语句文本的上下文向量。这一步骤可以具体化为以下流程。
利用文本聚类算法Single-pass对所述语句文本进行聚类,将初始输入的所述语句文本归入一个关系抽取模板中;
对于随后输入的每个未归入任一所述关系抽取模板中的所述语句文本,依据上下文向量逐一判断该语句文本与任一所述关系抽取模板间的相似度是否不低于相似度阈值,若是则将该语句文本归入对应的所述关系抽取模板中;
若该语句文本与已有的任一所述关系抽取模板间的相似度均低于相似度阈值,则将该语句文本归入一个新的所述关系抽取模板中;
重复以上操作直至完成对每条所述语句文本的处理,得到多个所述关系抽取模板且每个所述关系抽取模板内包含有多条所述语句文本的上下文向量。
此处对于某个语句文本的上下文向量与某个关系抽取模板(即一个簇)的相似度计算(即一个向量与一个簇的相似度计算)思路为:如果一个上下文向量是属于这个关系抽取模板的,那么它跟这个关系抽取模板里的大部分向量也应该是相似的,其与该关系抽取模板的相似度用距离它最近的向量的距离来衡量;如果它跟关系抽取模板里大部分的向量都不相似,那么则认为它是不属于这个关系抽取模板的、则相似度记为0。
此处选用余弦相似度来衡量两向量的距离,分别计算两者before、between、after三部分向量的余弦相似度,最后再加权平均,具体计算公式如下所示。
Figure 496014DEST_PATH_IMAGE001
其中,
Figure 492789DEST_PATH_IMAGE002
代表向量
Figure 17311DEST_PATH_IMAGE003
和向量
Figure 37220DEST_PATH_IMAGE004
的相似性评分;
Figure 305390DEST_PATH_IMAGE005
分别为before、 between、after三部分向量的信息量权重,权重计算可按照每部分包含字数占句子总字数 的百分比来确定;
Figure 156671DEST_PATH_IMAGE006
代表向量
Figure 852095DEST_PATH_IMAGE003
和向量
Figure 624879DEST_PATH_IMAGE004
之前文本的向量余弦数值;
Figure 227899DEST_PATH_IMAGE007
代表向量
Figure 402528DEST_PATH_IMAGE003
和向量
Figure 3274DEST_PATH_IMAGE004
之间文本的向量余弦数值;
Figure 57162DEST_PATH_IMAGE008
代表向量
Figure 667135DEST_PATH_IMAGE003
和向量
Figure 696270DEST_PATH_IMAGE004
之后文本的向量余弦数值。
S23、利用所述关系抽取模板在待抽取关系的语料库中进行人物关系实例提取,基于Bootstrapping方法、结合所述语句文本的上下文向量进行人物关系抽取迭代,得到人物关系噪音实例。这一步骤可以具体化为以下流程。
S231、依据上下文向量,分别计算待抽取关系的语料库中每条所述语句文本与每个所述关系抽取模板间的相似度,若相似度不低于抽取阈值,则将该语句文本视为可由对应的所述关系抽取模板抽取出来的候选关系实例。
S232、依据上下文向量间的相似度,将所述候选关系实例添加至与其相似度最高的所述关系抽取模板中。
S233、依据所述候选关系实例的质量对所述关系抽取模板进行置信度评分,更新每个所述关系抽取模板的置信得分。
一个关系抽取模板是否可信,可以通过由其抽取出来的关系的质量来衡量。如果其抽取出的大部分候选关系实例与已知信息吻合,则视为一个可信的关系抽取模板,反之,给予该所述关系抽取模板一个较低的置信度。在本实施例中,判断实例正确与否的知识都基于种子实体对。如果候选关系实例与种子实体对一致,则为正例;若与种子实体对冲突,则为负例;否则,为未知实例。基于此逻辑,关系抽取模板的置信得分计算如下公式所示:
Figure 733497DEST_PATH_IMAGE009
S234、依据所述关系抽取模板的置信得分对所述候选关系实例进行置信度评分,得到各所述候选关系实例的置信得分,将置信得分高于预设阈值的所述候选关系实例作为人物关系种子实体对、用于下一次的关系抽取中。
所述关系抽取模板的置信得分由两部分内容共同决定。一是能够将其抽取出来的所述关系抽取模板的置信得分,二是将其抽取出来的所述关系抽取模板与其本身的相似度。如果两者都比较高,那么该实例则比较可信,得到置信度也更高,具体计算如下公式所示。
Figure 215293DEST_PATH_IMAGE010
其中,
Figure 425695DEST_PATH_IMAGE011
Figure 309337DEST_PATH_IMAGE012
轮的第
Figure 783044DEST_PATH_IMAGE013
个实例的置信得分,
Figure 486558DEST_PATH_IMAGE014
Figure 438333DEST_PATH_IMAGE012
轮的第
Figure 238799DEST_PATH_IMAGE013
个 实例与第
Figure 883407DEST_PATH_IMAGE015
轮的第
Figure 339796DEST_PATH_IMAGE016
个实例的相似性得分,
Figure 95263DEST_PATH_IMAGE017
为第
Figure 425268DEST_PATH_IMAGE015
轮的第
Figure 240778DEST_PATH_IMAGE016
个实例的置信得分,
Figure 184463DEST_PATH_IMAGE018
Figure 743620DEST_PATH_IMAGE019
轮至
Figure 456361DEST_PATH_IMAGE020
轮的分值累积。
S235、基于Bootstrapping方法、结合所述语句文本的上下文向量进行人物关系抽取迭代,得到人物关系噪音实例。但是,由于Bootstrapping和词向量计算过程中采用的是半监督的学习机制,所识别的人物关系中包含大量的噪音信息,尽管在S23中采用了置信得分这一指标可缓解语意漂流这一问题。但是同一置信度阈值在不同类型、不同质量、不同分布的文本上表现各有差异,当待抽取的文本的表达形式较单一时,较高的阈值能同时带来较高的查准率和查全率;然而,当待抽取的文本表达较多样化时,同样的阈值会造成过低的查全率。在实际应用过程中,对待抽取的文本的表达分布的先验知识往往是不全面的,因此阈值的确定无法避免地掺杂较多的主观性和随机性。
因此,在利用Bootstrapping和词向量的关系抽取模型作为人物关系实例样本生成器的同时,还需要在后续步骤中进行基于强化学习的人物关系实例去噪操作。
S3、以强化学习策略网络作为生成样本质量的判别器、结合基于神经网络的关系分类器,生成去噪级联模型,利用所述去噪级联模型对所述人物关系噪音实例进行处理,得到人物关系实例结果。这一步骤可以具体化为以下流程。
S31、以实体关系标注结果作为样本,对策略网络进行预训练,得到初始策略网络。这一流程进一步包括,
对于每个输入的语句文本,策略网络将确定该实例是否表达目标关系类型,如果 与目标关系类型无关,则采取删除动作。因此,该策略网络类似于一个二分类的关系分类 器。 卷积神经网络(CNN)通常用于构建关系分类系统,本实施例采用窗口大小为
Figure 973930DEST_PATH_IMAGE021
、核大 小为
Figure 139332DEST_PATH_IMAGE022
的简单CNN进行建模。策略网络表示为
Figure 236601DEST_PATH_IMAGE023
针对某一种关系类型,将人工标注的实体关系标注结果作为正样本,并随机产生一些负样本对策略网络进行预训练,其中负标签对应于去除动作,正标签对应于保留样本动作。鉴于所述策略网络类似于一个二分类器,判断该正样本是否为噪声,若为噪声则去除,因此使用如下交叉熵损失函数,公式如下所示。
Figure 69428DEST_PATH_IMAGE024
其中,
Figure 757898DEST_PATH_IMAGE025
代表第
Figure 676176DEST_PATH_IMAGE026
个句子,
Figure 577136DEST_PATH_IMAGE027
代表第
Figure 733311DEST_PATH_IMAGE026
个句子 的向量化后的数值,
Figure 61524DEST_PATH_IMAGE028
代表第
Figure 222026DEST_PATH_IMAGE026
个句子在第
Figure 723414DEST_PATH_IMAGE029
轮的向量化后的数值,
Figure 265254DEST_PATH_IMAGE030
为满 足条件概率
Figure 498789DEST_PATH_IMAGE031
下的策略网络。
由于远程监督数据集包含较多的噪声,如果预训练过程过度拟合该数据集,则大 多数样本的预测概率往往接近0或1,会使得在后续训练时策略网络很难再校正回来。故设 置当预训练的recall达到85%-95%时,将停止此预训练过程并得到初始策略网络
Figure 657238DEST_PATH_IMAGE032
S32、对所述人物关系噪音实例对应的所述语句文本进行文本向量化处理,串联生成状态向量,使用激活函数对全连接层内的所述人物关系噪音实例进行激活,得到激活后的噪音实例向量,依据所述状态向量及所述激活后的噪音实例向量计算所述人物关系噪音实例的奖赏(Reward)并依据计算结果判断是否添加该人物关系噪音实例,循环执行以上操作直至遍历全部所述人物关系噪音实例,得到人物关系噪音实例处理结果。这一流程进一步包括,
对所述人物关系噪音实例对应的所述语句文本进行文本向量化处理,过程与前文中S14一致,也是在去除停用词和词性过滤后,将动词和名词等核心词汇向量化相加。
利用Sigmoid函数对全连接层内的所述人物关系噪音实例进行激活,得到激活后的噪音实例向量。本实施例中选取的激活函数如下所示。
Figure DEST_PATH_IMAGE034A
动作
Figure 962318DEST_PATH_IMAGE035
表示是否挑选第i个句子,
Figure 155402DEST_PATH_IMAGE036
为待学习的策略函数的参 数,策略函数计算如下所示。
Figure DEST_PATH_IMAGE038AA
其中,
Figure 622155DEST_PATH_IMAGE039
代表在经过动作
Figure 736742DEST_PATH_IMAGE040
后,第
Figure 317283DEST_PATH_IMAGE026
个句子在第
Figure 833715DEST_PATH_IMAGE029
轮的向量化后的数值
Figure 674632DEST_PATH_IMAGE028
生成的策略网络。
Figure 276515DEST_PATH_IMAGE041
表明
Figure 595501DEST_PATH_IMAGE042
的概率矩阵等于动作
Figure 966439DEST_PATH_IMAGE040
以及向量
Figure 978258DEST_PATH_IMAGE028
的条件 概率矩阵。
对于每一个轮策略网络的优化,目标是最大化从
Figure 801857DEST_PATH_IMAGE043
开始到结束
Figure 190113DEST_PATH_IMAGE044
的累计总奖 赏,故添加第i个句子后的值函数的计算公式如下所示。
Figure 415558DEST_PATH_IMAGE045
其中,
Figure 598278DEST_PATH_IMAGE046
如果发现添加第i个实例使得值函数下降,则不挑选该值函数。反之,如果添加第i 个实例使得值函数上升,则添加第i个实例。最终可以得到t轮实例集合
Figure 174753DEST_PATH_IMAGE047
算法逐一循环进行以上操作,直到将所有的噪音实例全部完成计算。
S33、依据所述人物关系噪音实例处理结果对神经网络模型进行训练,得到所述神经网络模型的权重矩阵,所述神经网络模型为满足权重输出要求的神经网络模型,将所述人物关系噪音实例及所述权重矩阵作为输入项、对所述初始策略网络进行再训练,生成得到针对人物关系样本中噪音的去噪级联模型。这一流程进一步包括,
当完成一轮噪音实例筛选后,将通过一个CNN模型进行人物关系类型的分类。CNN模型的参数包括卷积层和全连接层的权重和偏移项,故模型参数集合Φ={W_c,b_c,W_f,b_f},W_c,b_c代表卷积层的权重矩阵和偏移项参数,W_f,b_f代表全连接层的权重矩阵和偏移项参数。则输出的某句子属于某关系类型的概率公式如下所示。
Figure 101120DEST_PATH_IMAGE048
其中,
Figure 977809DEST_PATH_IMAGE049
代表在模型参数集合Φ下,句子x对应分类r的条件概率值。
在给定挑选后的实例训练集
Figure 328501DEST_PATH_IMAGE050
,模型参数
Figure 126692DEST_PATH_IMAGE051
,模型的损失函数公式如下所示。
Figure 856751DEST_PATH_IMAGE052
其中,
Figure 587947DEST_PATH_IMAGE053
代表将句子x对应分类r的条件概率值p取对数,然后将训练 集
Figure 378048DEST_PATH_IMAGE050
中所有的对数条件概率值进行累加,再除以
Figure 397957DEST_PATH_IMAGE054
,取负数,即可得到了在模型参数
Figure 666127DEST_PATH_IMAGE051
下 的损失函数
Figure 720671DEST_PATH_IMAGE055
由此,可以得到第t轮的CNN分类模型的权重矩阵
Figure 681673DEST_PATH_IMAGE056
将第t轮的实例集合
Figure 985616DEST_PATH_IMAGE047
和权重矩阵
Figure 57477DEST_PATH_IMAGE056
作为输入项,更新策略网络
Figure 232106DEST_PATH_IMAGE057
。策略网络
Figure 832852DEST_PATH_IMAGE058
的权重矩阵
Figure 92932DEST_PATH_IMAGE059
具体更新公式如下。
Figure 705835DEST_PATH_IMAGE060
其中,
Figure 531708DEST_PATH_IMAGE061
代表
Figure 568934DEST_PATH_IMAGE062
轮时策略网络
Figure 50731DEST_PATH_IMAGE058
的权重矩阵;
Figure 261133DEST_PATH_IMAGE061
代表
Figure 144775DEST_PATH_IMAGE063
轮时策略网络
Figure 352903DEST_PATH_IMAGE058
的权重矩阵;a为迭代速率权重,一般可以选择
Figure 321996DEST_PATH_IMAGE064
Figure 273771DEST_PATH_IMAGE065
代表第i层网络层权重占总 权重的占比;
Figure 74237DEST_PATH_IMAGE066
代表第t轮时网络的梯度;
Figure 453266DEST_PATH_IMAGE067
代表第t轮时实例集合
Figure 644075DEST_PATH_IMAGE047
的平均向量。
更新后的策略网络
Figure 193350DEST_PATH_IMAGE068
会被用于下一轮强化学习中收益计算,直至整体样本的 从而实现不断优化整个人物关系样本实例的目的。
S34、利用所述去噪级联模型对所述人物关系噪音实例进行处理,得到高质量的人物关系实例结果。
从实验结果上看,本方案爬取了百度百科上1万个人物词条网页,并从网页中过滤出至少含有两个人物实体的句子。数据集里定义了6种人物之间的关系,并手工标注了10414个句子里两人物实体的关系。数据格式为“样本索引-实体1-实体2-关系id-句子”,数据样例及6类关系及对应id如下表所示。
表1 关系类型及对应id
Figure 51584DEST_PATH_IMAGE069
表2 人物关系数据样例
Figure 601514DEST_PATH_IMAGE070
实验通过手动修改训练集里的一定比例样本的关系标签来引入噪声形成对照实验,实验结果如下表所示,其中origin为直接用CNN+BERT模型进行训练得到的人物关系识别及关系分类器,union为CNN+强化学习策略网络联合训练得到的人物关系识别及关系分类器。
无噪声组多分类实验结果
Figure 545200DEST_PATH_IMAGE071
20%噪声组多分类实验结果
Figure 635515DEST_PATH_IMAGE072
40%噪声组多分类实验结果
Figure 879415DEST_PATH_IMAGE073
实验结果发现,输入的训练样本噪声越大,与未经过噪声样本过滤的CNN分类模型相比,基于强化学习的CNN关系分类模型越能体现其对噪声样本的鲁棒性。当噪声样本比例达40%时,联合模型的分类加权平均F1值比单纯依靠深度神经网络模型高出17%。
综上所述,本发明所提出的一种基于强化学习去噪的人物关系抽取方法,与现有技术相比,其核心优点体现在以下几个方面:
1、技术实现成本更低。本发明的方法利用Bootstrapping方法根据少量种子实体对即可迭代出大量关系实例的优势,将其作为自动抽取过程的主要架构。考虑到中文表达多样化的特点,为了最大限度地减少人工参与、提高模型在不同领域内的可移植性,本发明在融入词向量及其位置信息对句子的上下文进行向量化后,通过聚类的方法启发式地自适应生成关系的抽取模式,从而大大降低了人工标注工作中扩展同类标注样本的人力成本。
2、作业完成质量更高。针对半监督自动标注算法会引入大量噪音的问题,本发明通过设计强化学习算法对噪音人物关系实例进行降噪,并在中文条件下的人物关系抽取任务上进行了实证分析。结果表明,在无噪音实例环境下,传统CNN+BERT算法在人物关系抽取中的F1值(F1值 = 正确率 * 召回率 * 2 /(正确率 + 召回率))为61%,本发明中经过强化学习策略网络过滤后的样本训练出的模型的F1值为81%;而在噪音实例占比为40%的环境下,传统CNN+BERT算法在人物关系抽取中F1值仅为42%,本发明方法训练出的模型的F1值则可达71%。
3、泛化能力更强。在传统的人物关系抽取问题中,需要人工针对不同的关系类型分别进行打标,不同类型关系样本无法重复利用。而本发明方法的整体框架中利用CNN模型进行关系分类,不仅能够提高单个关系类别中的模型准确性,还能够根据不同类型的人物关系问题进行单独的分类模型训练,极大地提升了整体模型的泛化能力。
另一方面,本发明还涉及一种基于强化学习去噪的人物关系抽取装置,其架构如图2所示,包括:
种子实体对生成模块,被配置为对所获取的原始语料库进行人物实体识别及过滤,得到带多名人物实体的原始语料库,对所述带多名人物实体的原始语料库内的人物关系进行实体关系标注,得到人物关系种子实体对。
人物关系实例抽取模块,被配置为依据输入的含目标关系的所述人物关系种子实体对在所述带多名人物实体的原始语料库内找出相对应的语句文本,依据所述语句文本的上下文向量从所述语句文本中抽取得到关系抽取模板,利用所述关系抽取模板在待抽取关系的语料库中进行人物关系实例提取并基于Bootstrapping方法进行循环迭代,得到人物关系噪音实例。
人物关系实例去噪模块,被配置为以强化学习策略网络作为生成样本质量的判别器、结合基于神经网络的关系分类器,生成去噪级联模型,利用所述去噪级联模型对所述人物关系噪音实例进行处理,得到人物关系实例结果。
在一种可能的实现方式中,所述种子实体对生成模块,包括:
原始语料库形成单元,被配置为获取语料信息,将所获取的语料信息汇总形成原始语料库;
原始语料库处理单元,被配置为利用BiLSTM-CRF模型对所述原始语料库内的语料信息进行人物实体识别,并对去重后人物实体数量小于2名的语料信息进行过滤去除,得到带多名人物实体的原始语料库;
实体关系标注单元,被配置为对所述带多名人物实体的原始语料库内的每类人物关系及相对应的人物实体进行小批量的实体关系标注,每类人物关系的标注数量不少于500条,得到每类人物关系对应的人物关系种子实体对。
还包括,上下文向量生成单元,被配置为对所述带多名人物实体的原始语料库及待抽取关系的语料库中的语句文本进行文本向量化处理,得到每条所述语句文本的上下文向量。
文本切割划分子单元,被配置为对所述带多名人物实体的原始语料库及待抽取关系的语料库中的语句文本进行人物实体识别,将所述语句文本中已识别的人物实体进行剔除,再按所述语句文本中各部分相对于人物实体的位置将所述语句文本切割划分为前语句文本、中语句文本及后语句文本。
分词标注子单元,被配置为分别对所述前语句文本、所述中语句文本及所述后语句文本进行分词,得到各文本的分词结果并进行词性标注。
上下文向量获取子单元,被配置为对所述分词结果进行文本过滤,分别对过滤后的所述前语句文本、所述中语句文本及所述后语句文本进行文本向量化,并将文本向量化结果进行汇总,得到每条所述语句文本的上下文向量。
在一种可能的实现方式中,所述人物关系实例抽取模块,包括:
语句文本确定单元,被配置为依据输入的含目标关系的所述人物关系种子实体对在所述带多名人物实体的原始语料库内找出相对应的所述语句文本。
关系抽取模板生成单元,被配置为利用聚类算法、依据所述语句文本的上下文向量从所述语句文本中聚类得到关系抽取模板,每个所述关系抽取模板内包含有多条所述语句文本的上下文向量。
噪音实例生成单元,被配置为基于Bootstrapping方法、结合所述语句文本的上下文向量进行人物关系抽取迭代,得到人物关系噪音实例。
在一种可能的实现方式中,所述噪音实例生成单元,包括:
候选关系实例抽取子单元,被配置为依据上下文向量,分别计算语句文本与每个所述关系抽取模板间的相似度,若相似度不低于抽取阈值,则将该语句文本视为可由对应的所述关系抽取模板抽取出来的候选关系实例。
候选关系实例归类子单元,被配置为依据上下文向量间的相似度,将所述候选关系实例添加至与其相似度最高的所述关系抽取模板中。
模板置信得分计算子单元,被配置为依据所述候选关系实例的质量对所述关系抽取模板进行置信度评分,更新每个所述关系抽取模板的置信得分。
实例置信得分计算子单元,被配置为依据所述关系抽取模板的置信得分对所述候选关系实例进行置信度评分,得到各所述候选关系实例的置信得分,将置信得分高于预设阈值的所述候选关系实例作为人物关系种子实体对、用于下一次的关系抽取中。
人物关系噪音实例获取子单元,被配置为基于Bootstrapping方法、结合所述语句文本的上下文向量进行人物关系抽取迭代,得到人物关系噪音实例。
在一种可能的实现方式中,所述人物关系实例去噪模块,包括:
策略网络预训练单元,被配置为以实体关系标注结果作为样本,对策略网络进行预训练,得到初始策略网络。
分类模型训练单元,被配置为对所述人物关系噪音实例对应的所述语句文本进行文本向量化处理,串联生成状态向量,使用激活函数对全连接层内的所述人物关系噪音实例进行激活,得到激活后的噪音实例向量,依据所述状态向量及所述激活后的噪音实例向量计算所述人物关系噪音实例的奖赏并依据计算结果判断是否添加该人物关系噪音实例,循环执行以上操作直至遍历全部所述人物关系噪音实例,得到人物关系噪音实例处理结果。
策略网络再训练单元,被配置为依据所述人物关系噪音实例处理结果对神经网络模型进行训练,得到所述神经网络模型的权重矩阵,将所述人物关系噪音实例及所述权重矩阵作为输入项、对所述初始策略网络进行再训练,生成得到针对人物关系样本中噪音的去噪级联模型。人物关系实例生成单元,被配置为利用所述去噪级联模型对所述人物关系噪音实例进行处理,得到人物关系实例结果。
又一方面,本发明还涉及一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前文中所述的人物关系抽取方法中的步骤,例如图1所示的步骤。或者,处理器执行计算机程序时实现上述各装置实施例中各模块/单元的功能,例如图2所示的各模块/单元的功能。
再一方面,本发明还涉及一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行所述计算机程序时实现如前文中所述的人物关系抽取方法中的步骤。
其中,可读存储介质可以是计算机存储介质,也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如,可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)中。另外,该ASIC可以位于用户设备中。当然,处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
与前文中方法内容相对应的,本发明所提出的一种人物关系抽取装置、终端及存储介质,能够以系统化、标准化的处理流程,高效、准确地完成人物关系抽取作业,极大地降低了样本标注过程中的标注成本,且硬件的适配性和兼容性较高,能够切实地应用于信息抽取领域内的技术实现中。
本发明还为其他与关系抽取技术相关的方案提供了参考,可以以此为依据进行拓展延伸和深入研究,具有十分广阔的应用前景。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神和基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
最后,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (9)

1.一种人物关系抽取方法,其特征在于,包括:
对所获取的原始语料库进行人物实体识别及过滤,得到带多名人物实体的原始语料库,对所述带多名人物实体的原始语料库内的人物关系进行实体关系标注,得到人物关系种子实体对;
对所述带多名人物实体的原始语料库及待抽取关系的语料库中的语句文本进行文本向量化处理,得到每条所述语句文本的上下文向量;
所述对所述带多名人物实体的原始语料库及待抽取关系的语料库中的语句文本进行文本向量化处理,得到每条所述语句文本的上下文向量,包括:
对所述带多名人物实体的原始语料库及待抽取关系的语料库中的语句文本进行人物实体识别,将所述语句文本中已识别的人物实体进行剔除,再按所述语句文本中各部分相对于人物实体的位置将所述语句文本切割划分为前语句文本、中语句文本及后语句文本;
分别对所述前语句文本、所述中语句文本及所述后语句文本进行分词,得到各文本的分词结果并进行词性标注;
对所述分词结果进行文本过滤,分别对过滤后的所述前语句文本、所述中语句文本及所述后语句文本进行文本向量化并将文本向量化结果进行汇总,得到每条所述语句文本的上下文向量;
依据输入的含目标关系的所述人物关系种子实体对在所述带多名人物实体的原始语料库内找出相对应的语句文本,依据所述语句文本的上下文向量从所述语句文本中抽取得到关系抽取模板,利用所述关系抽取模板在待抽取关系的语料库中进行人物关系实例提取并基于Bootstrapping方法进行循环迭代,得到人物关系噪音实例;
以强化学习策略网络作为生成样本质量的判别器、结合基于神经网络的关系分类器,生成去噪级联模型,利用所述去噪级联模型对所述人物关系噪音实例进行处理,得到人物关系实例结果。
2.根据权利要求1所述的人物关系抽取方法,其特征在于,所述对所获取的原始语料库进行人物实体识别及过滤,得到带多名人物实体的原始语料库,对所述带多名人物实体的原始语料库内的人物关系进行实体关系标注,得到人物关系种子实体对,包括:
获取语料信息,将所获取的语料信息汇总形成原始语料库;
利用BiLSTM-CRF模型对所述原始语料库内的语料信息进行人物实体识别,并对去重后人物实体数量小于2名的语料信息进行过滤去除,得到带多名人物实体的原始语料库;
对所述带多名人物实体的原始语料库内的每类人物关系及相对应的人物实体进行小批量的实体关系标注,每类人物关系的标注数量不少于500条,得到每类人物关系对应的人物关系种子实体对。
3.根据权利要求1所述的人物关系抽取方法,其特征在于,所述依据输入的含目标关系的所述人物关系种子实体对在所述带多名人物实体的原始语料库内找出相对应的语句文本,依据所述语句文本的上下文向量从所述语句文本中抽取得到关系抽取模板,利用所述关系抽取模板在待抽取关系的语料库中进行人物关系实例提取并进行基于Bootstrapping方法的循环迭代,得到人物关系噪音实例,包括:
依据输入的含目标关系的所述人物关系种子实体对在所述带多名人物实体的原始语料库内找出相对应的所述语句文本;
利用聚类算法、依据所述语句文本的上下文向量从所述语句文本中聚类得到关系抽取模板,每个所述关系抽取模板内包含有多条所述语句文本的上下文向量;
利用所述关系抽取模板在待抽取关系的语料库中进行人物关系实例提取,基于Bootstrapping方法、结合所述语句文本的上下文向量进行人物关系抽取迭代,得到人物关系噪音实例。
4.根据权利要求3所述的人物关系抽取方法,其特征在于,所述利用聚类算法、依据所述语句文本的上下文向量从所述语句文本中聚类得到关系抽取模板,每个所述关系抽取模板内包含有多条所述语句文本的上下文向量,包括:
利用文本聚类算法对所述语句文本进行聚类,将初始输入的所述语句文本归入一个关系抽取模板中,
对于随后输入的每个未归入任一所述关系抽取模板中的所述语句文本,依据上下文向量逐一判断该语句文本与任一所述关系抽取模板间的相似度是否不低于相似度阈值,若是则将该语句文本归入对应的所述关系抽取模板中,
若该语句文本与已有的任一所述关系抽取模板间的相似度均低于相似度阈值,则将该语句文本归入一个新的所述关系抽取模板中,
重复执行对每条所述语句文本的处理的操作,得到多个所述关系抽取模板且每个所述关系抽取模板内包含有多条所述语句文本的上下文向量。
5.根据权利要求3所述的人物关系抽取方法,其特征在于,所述利用所述关系抽取模板在待抽取关系的语料库中进行人物关系实例提取,基于Bootstrapping方法、结合所述语句文本的上下文向量进行人物关系抽取迭代,得到人物关系噪音实例,包括:
依据上下文向量,分别计算待抽取关系的语料库中每条所述语句文本与每个所述关系抽取模板间的相似度,若相似度不低于抽取阈值,则将该语句文本视为可由对应的所述关系抽取模板抽取出来的候选关系实例;
依据上下文向量间的相似度,将所述候选关系实例添加至与其相似度最高的所述关系抽取模板中;
依据所述候选关系实例的质量对所述关系抽取模板进行置信度评分,更新每个所述关系抽取模板的置信得分;
依据所述关系抽取模板的置信得分对所述候选关系实例进行置信度评分,得到各所述候选关系实例的置信得分,将置信得分高于预设阈值的所述候选关系实例作为人物关系种子实体对、用于下一次的关系抽取中;
基于Bootstrapping方法、结合所述语句文本的上下文向量进行人物关系抽取迭代,得到人物关系噪音实例。
6.根据权利要求1所述的人物关系抽取方法,其特征在于,以强化学习策略网络作为生成样本质量的判别器、结合基于神经网络的关系分类器,生成去噪级联模型,利用所述去噪级联模型对所述人物关系噪音实例进行处理,得到人物关系实例结果,去噪级联模型,包括:
以实体关系标注结果作为样本,对策略网络进行预训练,得到初始策略网络;
对所述人物关系噪音实例对应的所述语句文本进行文本向量化处理,串联生成状态向量,使用激活函数对全连接层内的所述人物关系噪音实例进行激活,得到激活后的噪音实例向量,依据所述状态向量及所述激活后的噪音实例向量计算所述人物关系噪音实例的奖赏并依据计算结果判断是否添加该人物关系噪音实例,循环执行遍历全部所述人物关系噪音实例的操作,得到人物关系噪音实例处理结果;
依据所述人物关系噪音实例处理结果对神经网络模型进行训练,得到所述神经网络模型的权重矩阵,将所述人物关系噪音实例及所述权重矩阵作为输入项、对所述初始策略网络进行再训练,生成得到针对人物关系样本中噪音的去噪级联模型;
利用所述去噪级联模型对所述人物关系噪音实例进行处理,得到人物关系实例结果。
7.一种人物关系抽取装置,其特征在于,包括:
种子实体对生成模块,被配置为对所获取的原始语料库进行人物实体识别及过滤,得到带多名人物实体的原始语料库,对所述带多名人物实体的原始语料库内的人物关系进行实体关系标注,得到人物关系种子实体对;
上下文向量生成模块,被配置为对所述带多名人物实体的原始语料库及待抽取关系的语料库中的语句文本进行文本向量化处理,得到每条所述语句文本的上下文向量;
所述上下文向量生成模块还被配置为对所述带多名人物实体的原始语料库及待抽取关系的语料库中的语句文本进行人物实体识别,将所述语句文本中已识别的人物实体进行剔除,再按所述语句文本中各部分相对于人物实体的位置将所述语句文本切割划分为前语句文本、中语句文本及后语句文本;
分别对所述前语句文本、所述中语句文本及所述后语句文本进行分词,得到各文本的分词结果并进行词性标注;
对所述分词结果进行文本过滤,分别对过滤后的所述前语句文本、所述中语句文本及所述后语句文本进行文本向量化并将文本向量化结果进行汇总,得到每条所述语句文本的上下文向量;
人物关系实例抽取模块,被配置为依据输入的含目标关系的所述人物关系种子实体对在所述带多名人物实体的原始语料库内找出相对应的语句文本,依据所述语句文本的上下文向量从所述语句文本中抽取得到关系抽取模板,利用所述关系抽取模板在待抽取关系的语料库中进行人物关系实例提取并基于Bootstrapping方法进行循环迭代,得到人物关系噪音实例;
人物关系实例去噪模块,被配置为以强化学习策略网络作为生成样本质量的判别器、结合基于神经网络的关系分类器,生成去噪级联模型,利用所述去噪级联模型对所述人物关系噪音实例进行处理,得到人物关系实例结果。
8.一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一所述人物关系抽取方法中的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行所述计算机程序时实现如权利要求1至6中任一所述人物关系抽取方法中的步骤。
CN202210516459.1A 2022-05-13 2022-05-13 人物关系抽取方法、装置、终端及存储介质 Active CN114625880B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210516459.1A CN114625880B (zh) 2022-05-13 2022-05-13 人物关系抽取方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210516459.1A CN114625880B (zh) 2022-05-13 2022-05-13 人物关系抽取方法、装置、终端及存储介质

Publications (2)

Publication Number Publication Date
CN114625880A CN114625880A (zh) 2022-06-14
CN114625880B true CN114625880B (zh) 2022-08-19

Family

ID=81907004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210516459.1A Active CN114625880B (zh) 2022-05-13 2022-05-13 人物关系抽取方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN114625880B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2172849A1 (en) * 2008-09-30 2010-04-07 Xerox Corporation Semantically-driven extraction of relations between named entities
CN107220237A (zh) * 2017-05-24 2017-09-29 南京大学 一种基于卷积神经网络的企业实体关系抽取的方法
CN110263019A (zh) * 2019-06-18 2019-09-20 中南民族大学 实体关系抽取模型的构建方法、装置和存储介质
CN111914571A (zh) * 2019-05-07 2020-11-10 阿里巴巴集团控股有限公司 语句切分方法及装置、存储介质、处理器及终端设备
WO2022037256A1 (zh) * 2020-08-21 2022-02-24 腾讯科技(深圳)有限公司 文本语句处理方法、装置、计算机设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10503833B2 (en) * 2016-12-06 2019-12-10 Siemens Aktiengesellschaft Device and method for natural language processing
CN111914091B (zh) * 2019-05-07 2022-10-14 四川大学 一种基于强化学习的实体和关系联合抽取方法
CN110991165A (zh) * 2019-12-12 2020-04-10 智器云南京信息科技有限公司 文本中人物关系提取方法及装置、计算机设备和存储介质
CN113130025B (zh) * 2020-01-16 2023-11-24 中南大学 一种实体关系抽取方法、终端设备及计算机可读存储介质
US11568138B2 (en) * 2020-08-25 2023-01-31 Beijing Wodong Tianjun Information Technology Co., Ltd. System for entity and evidence-guided relation prediction and method of using the same
CN114238524B (zh) * 2021-12-21 2022-05-31 军事科学院系统工程研究院网络信息研究所 基于增强样本模型的卫星频轨数据信息抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2172849A1 (en) * 2008-09-30 2010-04-07 Xerox Corporation Semantically-driven extraction of relations between named entities
CN107220237A (zh) * 2017-05-24 2017-09-29 南京大学 一种基于卷积神经网络的企业实体关系抽取的方法
CN111914571A (zh) * 2019-05-07 2020-11-10 阿里巴巴集团控股有限公司 语句切分方法及装置、存储介质、处理器及终端设备
CN110263019A (zh) * 2019-06-18 2019-09-20 中南民族大学 实体关系抽取模型的构建方法、装置和存储介质
WO2022037256A1 (zh) * 2020-08-21 2022-02-24 腾讯科技(深圳)有限公司 文本语句处理方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multi-granularity semantic representation model for relation extraction;Lei,Ming等;《NEURAL COMPUTING & APPLICATIONS》;20210630;第6879-6889页 *
基于双向LSTM和自注意力机制的中文关系抽取研究;刘鉴等;《山西大学学报(自然科学版)》;20200215(第01期);第8-13页 *

Also Published As

Publication number Publication date
CN114625880A (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN109189925B (zh) 基于点互信息的词向量模型和基于cnn的文本分类方法
WO2018218708A1 (zh) 一种基于深度学习的舆情热点类别划分方法
CN109635108B (zh) 一种基于人机交互的远程监督实体关系抽取方法
CN107526785A (zh) 文本分类方法及装置
CN111666350B (zh) 一种基于bert模型的医疗文本关系抽取的方法
CN111143553B (zh) 一种实时文本数据流的特定信息识别方法及系统
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN115048464A (zh) 用户操作行为数据的检测方法、装置及电子设备
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统
Ababneh Investigating the relevance of Arabic text classification datasets based on supervised learning
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN114692605A (zh) 一种融合句法结构信息的关键词生成方法及装置
CN116362243A (zh) 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置
CN116304020A (zh) 一种基于义原分析和跨度特征的工业文本实体抽取方法
CN117149974A (zh) 一种子图检索优化的知识图谱问答方法
Zhang et al. Research on borrower's credit classification of P2P network loan based on LightGBM algorithm
CN117271701A (zh) 一种基于tggat和cnn的系统运行异常事件关系抽取方法及系统
CN114625880B (zh) 人物关系抽取方法、装置、终端及存储介质
CN114741473B (zh) 一种基于多任务学习的事件抽取方法
CN116049376A (zh) 一种信创知识检索回复的方法、装置和系统
CN112651590B (zh) 一种指令处理流程推荐的方法
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统
CN114169332A (zh) 一种基于深度学习模型的地址命名实体识别的调优方法
CN113076468A (zh) 一种基于领域预训练的嵌套事件抽取方法
Wang et al. Edcleaner: Data cleaning for entity information in social network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method, device, terminal, and storage medium for extracting character relationships

Granted publication date: 20220819

Pledgee: China Construction Bank Corporation Shanghai Zhangjiang Branch

Pledgor: SHANGHAI ZHIXUN INFORMATION TECHNOLOGY CO.,LTD.

Registration number: Y2024980003014

PE01 Entry into force of the registration of the contract for pledge of patent right