CN111813954B - 文本语句中两实体的关系确定方法、装置和电子设备 - Google Patents

文本语句中两实体的关系确定方法、装置和电子设备 Download PDF

Info

Publication number
CN111813954B
CN111813954B CN202010599867.9A CN202010599867A CN111813954B CN 111813954 B CN111813954 B CN 111813954B CN 202010599867 A CN202010599867 A CN 202010599867A CN 111813954 B CN111813954 B CN 111813954B
Authority
CN
China
Prior art keywords
text
training
position information
text feature
feature vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010599867.9A
Other languages
English (en)
Other versions
CN111813954A (zh
Inventor
杨杨
高志鹏
严雨
葛忠迪
张振威
严泽凡
孙寅栋
陶卓
石晓丹
刘会永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202010599867.9A priority Critical patent/CN111813954B/zh
Publication of CN111813954A publication Critical patent/CN111813954A/zh
Application granted granted Critical
Publication of CN111813954B publication Critical patent/CN111813954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种文本语句中两实体的关系确定方法、装置和电子设备,该方法包括:确定待测文本语句和位置信息;将待测文本语句和位置信息输入实体关系提取模型,输出与所述待测文本语句和位置信息对应的所述两实体的关系类型;其中,实体关系提取模型是基于样本文本语句和位置信息以及预先确定的对应于样本文本语句和位置信息的两实体关系类型标签进行训练后得到的,实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理,样本文本语句和位置信息由标准人工标注库通过远程监督机制自动扩充。本发明实施例提供的方法、装置和电子设备,实现了评价人体动作识别结果时考虑深度信息,更适用于评价人体动作捕捉。

Description

文本语句中两实体的关系确定方法、装置和电子设备
技术领域
本发明涉及知识图谱实体对关系技术领域,尤其涉及一种文本语句中两实体的关系确定方法、装置和电子设备。
背景技术
随着技术的高速发展,人类可获取的信息量呈指数级增长,在当今的网络中包含了大量非结构或半结构化的信息,从巨量数据中挖掘出实际应用场景需求的信息,是目前大数据领域的研究方向热点。利用技术手段对海量无结构化数据进行自动的归纳、分类、提取等操作,形成结构化的知识并存储,是一个具有挑战性的问题,信息抽取(InformationExtraction)的研究也随之兴起。信息抽取将文本数据中的无结构化信息进行提取,形成结构化的知识,并以统一形式存储,是后续将信息中的知识进行关联融合,构建大规模知识库和关系图谱的基础。
近些年,研究者们提出了远程监督机制(Distant Supervision),对于知识图谱中存在的实体对,将语料中提及这两个实体的句子均用他们在知识库中的关系作为标注。远程监督机制为实体关系抽取模型提供了比较充足的数据,已经成为目前常规的实体关系抽取任务中数据获取的基本手段。但是,远程监督机制虽然扩充了数据量,但是标签与样本的对应关系的准确度得不到保障,包含大量误标注与噪声。直接在这些数据上训练实体关系提取模型,模型的参数更新会受到错误数据的影响,无法达到全局最优,影响抽取精度。
因此,如何避免现有技术中以远程监督机制扩充的包含大量误标注和噪声样本库作为实体关系提取模型的训练样本造成的训练出的实体关系提取模型的低精度,训练出的实体关系提取模型被用于提取实体关系时的准确率低,仍然是本领域技术人员亟待解决的问题。
发明内容
本发明实施例提供一种文本语句中两实体的关系确定方法、装置和电子设备,用以解决现有技术中以远程监督机制扩充的包含大量误标注和噪声样本库作为实体关系提取模型的训练样本造成的训练出的实体关系提取模型的低精度,训练出的实体关系提取模型被用于提取实体关系时的准确率低的问题。
第一方面,本发明实施例提供一种文本语句中两实体的关系确定方法,包括:
确定待测文本语句和位置信息,所述位置信息是待测文本语句中需要确定实体关系的两实体在所述待测文本语句中的位置信息;
将所述待测文本语句和位置信息输入实体关系提取模型,输出与所述待测文本语句和位置信息对应的所述两实体的关系类型;
其中,所述实体关系提取模型是基于样本文本语句和位置信息以及预先确定的对应于样本文本语句和位置信息的两实体关系类型标签进行训练后得到的,所述实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理,所述样本文本语句和位置信息由标准人工标注库通过远程监督机制自动扩充。
优选地,该方法中,所述实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理,具体包括:
实体关系提取模型训练时,
对任一样本文本语句和位置信息进行预处理,得到对应于所述任一样本文本语句和位置信息的文本特征向量;
采用时间衰减注意力机制将任一训练轮次的多个文本特征向量合成为去噪文本特征向量;
基于所述去噪文本特征向量确定对应的预测两实体的关系类型;
基于所述预测两实体的关系类型和所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签确定所述任一训练轮次的损失函数。
优选地,该方法中,所述对样本文本语句和位置信息进行预处理,得到对应于各样本文本语句和位置信息的文本特征向量,具体包括:
将任一样本文本语句输入BERT预训练模型,得到所述任一样本文本语句的特征向量;
将所述任一样本文本语句的特征向量和对应于所述任一样本文本语句的位置信息输入CNN模块,得到对应于所述任一样本文本语句和位置信息的文本特征向量。
优选地,该方法中,所述采用时间衰减注意力机制将任一训练轮次的多个文本特征向量合成为去噪文本特征向量,具体包括:
基于任一训练轮次的可训练权重矩阵、所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量和任一训练轮次的多个文本特征向量确定所述任一训练轮次的多个文本特征向量之间的权重;
基于所述任一训练轮次的当前迭代轮次和训练轮次的迭代轮次总次数确定所述任一训练轮次的剩余文本特征向量;
基于所述任一训练轮次的可训练权重矩阵、所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量和所述任一训练轮次的剩余文本特征向量确定所述任一训练轮次的剩余文本特征向量之间的权重,进而确定所述任一训练轮次的去噪文本特征向量。
优选地,该方法中,所述基于任一训练轮次的可训练权重矩阵、所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量和任一训练轮次的多个文本特征向量确定所述任一训练轮次的多个文本特征向量之间的权重,具体包括:
通过如下公式确定任一训练轮次中的第i个文本特征向量Si的权重ai
Figure BDA0002558288600000031
其中,i=1,2,…,m,m为所述任一训练轮次中文本特征向量的总个数,WA为所述任一训练轮次的可训练权重矩阵,r为所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量;
对应地,所述基于所述任一训练轮次的当前迭代轮次和训练轮次的迭代轮次总次数确定所述任一训练轮次的剩余文本特征向量,具体包括:
通过如下公式计算所述任一训练轮次的当前迭代轮次t的衰减比例ρt
Figure BDA0002558288600000041
其中,T为训练轮次的迭代轮次总次数,ρmin为预设衰减下限;
通过如下公式确定所述任一训练轮次的剩余文本特征向量的总个数m′:
Figure BDA0002558288600000043
其中,ρt为所述任一训练轮次的当前迭代轮次t的衰减比例,m为所述任一训练轮次中文本特征向量的总个数;
将任一训练轮次中的m个文本特征向量按照各自权重的大小由大到小依次排序得到序列,并提取所述序列中的前m′个文本特征向量作为所述任一训练轮次的剩余文本特征向量;
对应地,所述基于所述任一训练轮次的可训练权重矩阵、所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量和所述任一训练轮次的剩余文本特征向量确定所述任一训练轮次的剩余文本特征向量之间的权重,进而确定所述任一训练轮次的去噪文本特征向量,具体包括:
通过如下公式确定任一训练轮次中的第p个剩余文本特征向量
Figure BDA0002558288600000044
的权重βp
Figure BDA0002558288600000042
其中,p=1,2,…,m’,m’为所述任一训练轮次的剩余文本特征向量的总个数,WA为所述任一训练轮次的可训练权重矩阵,r为所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量;
通过如下公式计算所述任一训练轮次的去噪文本特征向量SB
Figure BDA0002558288600000051
其中,
Figure BDA0002558288600000052
为所述任一训练轮次中的第p个剩余文本特征向量,βp为所述任一训练轮次中的第p个剩余文本特征向量
Figure BDA0002558288600000053
的权重,m’为所述任一训练轮次的剩余文本特征向量的总个数。
第二方面,本发明实施例提供一种文本语句中两实体的关系确定装置,包括:
确定单元,用于确定待测文本语句和位置信息,所述位置信息是待测文本语句中需要确定实体关系的两实体在所述待测文本语句中的位置信息;
关系提取单元,用于将所述待测文本语句和位置信息输入实体关系提取模型,输出与所述待测文本语句和位置信息对应的所述两实体的关系类型;
其中,所述实体关系提取模型是基于样本文本语句和位置信息以及预先确定的对应于样本文本语句和位置信息的两实体关系类型标签进行训练后得到的,所述实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理,所述样本文本语句和位置信息由标准人工标注库通过远程监督机制自动扩充。
优选地,该装置中,所述实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理,具体包括:
实体关系提取模型训练时,
对任一样本文本语句和位置信息进行预处理,得到对应于所述任一样本文本语句和位置信息的文本特征向量;
采用时间衰减注意力机制将任一训练轮次的多个文本特征向量合成为去噪文本特征向量;
基于所述去噪文本特征向量确定对应的预测两实体的关系类型;
基于所述预测两实体的关系类型和所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签确定所述任一训练轮次的损失函数。
优选地,该装置中,所述对样本文本语句和位置信息进行预处理,得到对应于各样本文本语句和位置信息的文本特征向量,具体包括:
将任一样本文本语句输入BERT预训练模型,得到所述任一样本文本语句的特征向量;
将所述任一样本文本语句的特征向量和对应于所述任一样本文本语句的位置信息输入CNN模块,得到对应于所述任一样本文本语句和位置信息的文本特征向量。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的文本语句中两实体的关系确定方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的文本语句中两实体的关系确定方法的步骤。
本发明实施例提供的方法、装置和电子设备,通过将所述待测文本语句和位置信息输入实体关系提取模型,输出与所述待测文本语句和位置信息对应的所述两实体的关系类型,其中,所述实体关系提取模型是基于大量样本文本语句和位置信息以及预先确定的对应于样本文本语句和位置信息的两实体关系类型标签进行训练后得到的,而实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理,所述样本文本语句和位置信息由标准人工标注库通过远程监督机制自动扩充。如此,通过实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理排除因为远程监督机制自动扩充的样本中的误标注,在实体关系提取模型的训练迭代过程中按时间衰减而遮蔽低置信的样本实例,保留高置信的样本实例获取样本的表示向量,以缓解错误标注样本对实体关系提取模型参数更新的负面影响,提升实体关系提取模型的精度。因此,本发明实施例提供的方法、装置和电子设备,实现了提高文本语句中两实体关系的提取准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的文本语句中两实体的关系确定方法的流程示意图;
图2为本发明实施例提供的文本语句中两实体的关系确定装置的结构示意图;
图3为本发明实施例提供的NYT-10数据集中的P-R曲线对比的示意图;
图4为本发明实施例提供的GIDS数据集中的P-R曲线对比的示意图;
图5为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的实体关系提取方法中普遍存在以远程监督机制扩充的包含大量误标注和噪声样本库作为实体关系提取模型的训练样本造成的训练出的实体关系提取模型的低精度,训练出的实体关系提取模型被用于提取实体关系时的准确率低的问题。对此,本发明实施例提供了一种文本语句中两实体的关系确定方法。图1为本发明实施例提供的文本语句中两实体的关系确定方法的流程示意图,如图1所示,该方法包括:
步骤110,确定待测文本语句和位置信息,所述位置信息是待测文本语句中需要确定实体关系的两实体在所述待测文本语句中的位置信息。
具体地,本发明实施例要解决的问题是从给定文本语句中确定给定文本语句中的给定两个实体的关系,而给定两个实体是通过该两个实体在待测文本语句中的位置信息进行表示。例如,要确定文本语句“北京是中国的政治中心”中“北京”和“中国”这两个实体的关系,首先要确定的是文本语句“北京是中国的政治中心”、“北京”和“中国”在“北京是中国的政治中心”文本语句中的相对位置,具体的操作是对文本语句“北京是中国的政治中心”进行编码,然后分别确定编码“北京”在编码“北京是中国的政治中心”中的相对位置信息,以及编码“中国”在编码“北京是中国的政治中心”的相对位置信息。因此,当要提取待测文本语句中特定两个实体的关系时,首先要确定待测文本语句和所述特定两个实体在所述待测文本语句中的相对位置关系作为后续提取相对关系的输入信息。
步骤120,将待测文本语句和位置信息输入实体关系提取模型,输出与所述待测文本语句和位置信息对应的所述两实体的关系类型;
其中,所述实体关系提取模型是基于样本文本语句和位置信息以及预先确定的对应于样本文本语句和位置信息的两实体关系类型标签进行训练后得到的,所述实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理,所述样本文本语句和位置信息由标准人工标注库通过远程监督机制自动扩充。
具体地,将待测文本语句和位置信息输入预先训练好的实体关系提取模型,然后所述实体关系提取模型输出对应于待测文本语句和位置信息的两实体关系,其中,实体关系提取模型是基于大量样本文本语句和位置信息以及预先确定的对应于样本文本语句和位置信息的两实体关系类型标签进行训练后得到的。在选用样本文本语句和位置信息时,由于人工标注形成样本对应标准标签的标准库的效率太低,本发明实施例采用的样本文本语句和位置信息是由标准人工标注库通过远程监督机制自动扩充是得到的。例如,标准库中的人工标注形成样本对应标准标签是“北京是中国的政治中心”,然后,标注其中的“北京”和“中国”两实体的关系是首都,进行远程监督机制自动扩充后,自动将“中国的最高层领导人都在北京办公”中的“北京”和“中国”两实体的关系标注为首都,也自动将“外国游客都喜欢去中国的北京旅游”中的“北京”和“中国”两实体的关系标注为首都,如此,可以更高效的扩充样本,避免所有样本都需要人工标注的耗时过多。然而,由上述举例可以看出,事实上将文本语句“外国游客都喜欢去中国的北京旅游”中“北京”和“中国”的两实体的关系标注为首都是不对的,因为从文本语句“外国游客都喜欢去中国的北京旅游”中仅能直接推理出“北京”和“中国”的两实体的关系是“北京”是“中国”的旅游胜地,并不能得到“北京”是“中国”的首都,因此,通过远程监督机制自动扩充样本会造成样本库中的误标注,使得用于训练的样本和对应标签存在噪声。而本发明实施例在实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理,可以在实体关系提取模型训练的迭代过程中按时间的衰减而遮蔽低置信的样本实例,保留高置信的样本实例进行加权获得样本的表示向量,该机制可以缓解错误标注的样本对实体关系提取模型参数的更新的负面影响,提高训练出来的实体关系提取模型的精度。
本发明实施例提供的方法,通过将所述待测文本语句和位置信息输入实体关系提取模型,输出与所述待测文本语句和位置信息对应的所述两实体的关系类型,其中,所述实体关系提取模型是基于大量样本文本语句和位置信息以及预先确定的对应于样本文本语句和位置信息的两实体关系类型标签进行训练后得到的,而实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理,所述样本文本语句和位置信息由标准人工标注库通过远程监督机制自动扩充。如此,通过实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理排除因为远程监督机制自动扩充的样本中的误标注,在实体关系提取模型的训练迭代过程中按时间衰减而遮蔽低置信的样本实例,保留高置信的样本实例获取样本的表示向量,以缓解错误标注样本对实体关系提取模型参数更新的负面影响,提升实体关系提取模型的精度。因此,本发明实施例提供的方法,实现了提高文本语句中两实体关系的提取准确率。
基于上述实施例,该方法中,所述实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理,具体包括:
实体关系提取模型训练时,
对任一样本文本语句和位置信息进行预处理,得到对应于所述任一样本文本语句和位置信息的文本特征向量;
采用时间衰减注意力机制将任一训练轮次的多个文本特征向量合成为去噪文本特征向量;
基于所述去噪文本特征向量确定对应的预测两实体的关系类型;
基于所述预测两实体的关系类型和所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签确定所述任一训练轮次的损失函数。
具体地,在进行模型训练时,对于输入的样本文本语句和位置信息先进行数据预处理,得到包含文本语句信息和位置信息的文本特征向量,然后,再将所有文本特征向量分轮次进行训练,每一轮次的训练的文本特征向量的个数相同,且每一轮次的训练的文本特征向量中标识的两实体也相同。例如,目前有5000个样本文本语句和位置信息参与模型的训练,先将这5000个样本文本语句和位置信息转换为对应的5000个文本特征向量,每个文本特征向量都用于表示其对应的样本文本语句和位置关系,再分轮次训练时,比如每一轮次的训练的文本特征向量的个数规定为10个,那么模型训练时总共需要迭代500次,每次迭代轮次选择的10个文本特征向量中标识的两实体必须一样,例如第一次迭代选定的10个文本特征向量,这10个文本特征向量向量都用于标识“科比”和“洛杉矶”的关系,而这10个文本特征向量对应的文本语句各不相同,即同一轮次迭代训练的文本特征向量对应的文本语句各不相同,但是都需要提取相同的两实体的关系。然后,对于任一训练轮次,都采用时间衰减注意力机制将同一轮次进行训练的文本特征向量基于它们各自作为样本标注的准确性得到的权值进行加权,得到最后去噪后的文本特征向量,时间衰减注意力机制不仅考虑各样本的标注准确率,还根据迭代轮次的大小确定选择参与加权的样本的个数,例如随着迭代轮次的增加,在对各样本的文本特征向量根据权重进行排序后,保留的参与加权合成去噪文本特征向量的各样本的文本特征向量随着训练的轮次升高而减少,因为,随着迭代次数的增加,模型的参数也被调整得更精确,不再需要太多的样本参与后面轮次的迭代训练,因此,后面轮次迭代用于合成去噪文本特征向量的样本对应的文本特征向量越来越少。然后基于合成出来的去噪文本特征向量确定对应的预测关系,此过程通常通过简单的逻辑回归即可得到,最后基于预测关系和标注关系确定所述任一训练轮次的损失函数,通常,通过欧式距离、巴氏距离等等常用的求两特征向量之间的差距的算法确定损失函数,然后,基于该轮的损失函数进入模型训练的反向面来调整训练网络的所有参数,更新后的参数用于下一轮的迭代训练。此处,需要说明的是默认任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签都是一样的,因为采用远程监督机制自动扩充的样本标签,标签都不会出错,错误是出在正确关系类型标签对应有错误的文本语句。
基于上述任一实施例,该方法中,所述对样本文本语句和位置信息进行预处理,得到对应于各样本文本语句和位置信息的文本特征向量,具体包括:
将任一样本文本语句输入BERT预训练模型,得到所述任一样本文本语句的特征向量;
将所述任一样本文本语句的特征向量和对应于所述任一样本文本语句的位置信息输入CNN模块,得到对应于所述任一样本文本语句和位置信息的文本特征向量。
具体地,此处限定对样本文本语句和位置信息进行预处理的过程,要使得预处理后的文本特征向量即包括文本语句信息又包括标识需要提取关系的两实体在所述文本语句中的相对位置,首先,通过BERT预训练模型处理样本文本语句,得到样本文本语句的特征向量,然后,再将特征向量和位置信息输入CNN模块,得到包括样本文本语句信息和位置信息的文本特征向量,所述CNN模块优选采用PE-CNN模块。
基于上述任一实施例,该方法中,所述采用时间衰减注意力机制将任一训练轮次的多个文本特征向量合成为去噪文本特征向量,具体包括:
基于任一训练轮次的可训练权重矩阵、所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量和任一训练轮次的多个文本特征向量确定所述任一训练轮次的多个文本特征向量之间的权重;
基于所述任一训练轮次的当前迭代轮次和训练轮次的迭代轮次总次数确定所述任一训练轮次的剩余文本特征向量;
基于所述任一训练轮次的可训练权重矩阵、所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量和所述任一训练轮次的剩余文本特征向量确定所述任一训练轮次的剩余文本特征向量之间的权重,进而确定所述任一训练轮次的去噪文本特征向量。
具体地,对于任一训练轮次的多个文本特征向量合成为去噪文本特征向量的过程,进行如下介绍:
对于参与统一训练轮次进行训练的文本特征向量要基于它们各自作为样本标注的准确性确定它们各自的权值,该权值用于当它们能参与去噪文本特征向量合成时加权使用,而所述准确率是通过比较各文本特征向量的表示与关系标签表示的相关性得到,进一步地,该相关性是基于关系类型标签对应的类型向量、文本特征向量和可训练权重矩阵共同确定。其中,所述可训练权重矩阵属于训练网络中需要持续调整的参数,因此,每一训练轮次的可训练权重矩阵通常都不同,因为本轮迭代完成后得到的损失函数会对训练网络中的参数进行反馈调整,因此,下一轮次迭代训练时的可训练权重矩阵是基于上一轮次迭代训练时的可训练权重矩阵进行调整后得到的,对于第一轮次的训练,可训练权重矩阵是通过随机初始化得到的。然后,基于当前迭代轮次占迭代轮次的总次数的比例,确认迭代进程,迭代越到后期,确定的剩余文本特征向量占每一训练轮次总的文本特征向量的比例越低。最后,基于剩余的文本特征向量,再重新计算它们各自作为样本标注的准确性确定它们各自的权值,用这次计算的权值加权到对应的剩余的文本特征向量上合成本轮次迭代训练的去噪文本特征向量。
基于上述任一实施例,该方法中,所述基于任一训练轮次的可训练权重矩阵、所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量和任一训练轮次的多个文本特征向量确定所述任一训练轮次的多个文本特征向量之间的权重,具体包括:
通过如下公式确定任一训练轮次中的第i个文本特征向量Si的权重ai
Figure BDA0002558288600000131
其中,i=1,2,…,m,m为所述任一训练轮次中文本特征向量的总个数,WA为所述任一训练轮次的可训练权重矩阵,r为所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量;
对应地,所述基于所述任一训练轮次的当前迭代轮次和训练轮次的迭代轮次总次数确定所述任一训练轮次的剩余文本特征向量,具体包括:
通过如下公式计算所述任一训练轮次的当前迭代轮次t的衰减比例ρt
Figure BDA0002558288600000132
其中,T为训练轮次的迭代轮次总次数,ρmin为预设衰减下限;
通过如下公式确定所述任一训练轮次的剩余文本特征向量的总个数m′:
Figure BDA0002558288600000133
其中,ρt为所述任一训练轮次的当前迭代轮次t的衰减比例,m为所述任一训练轮次中文本特征向量的总个数;
将任一训练轮次中的m个文本特征向量按照各自权重的大小由大到小依次排序得到序列,并提取所述序列中的前m′个文本特征向量作为所述任一训练轮次的剩余文本特征向量;
对应地,所述基于所述任一训练轮次的可训练权重矩阵、所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量和所述任一训练轮次的剩余文本特征向量确定所述任一训练轮次的剩余文本特征向量之间的权重,进而确定所述任一训练轮次的去噪文本特征向量,具体包括:
通过如下公式确定任一训练轮次中的第p个剩余文本特征向量
Figure BDA0002558288600000134
的权重βp
Figure BDA0002558288600000141
其中,p=1,2,…,m’,m’为所述任一训练轮次的剩余文本特征向量的总个数,WA为所述任一训练轮次的可训练权重矩阵,r为所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量;
通过如下公式计算所述任一训练轮次的去噪文本特征向量SB
Figure BDA0002558288600000142
其中,
Figure BDA0002558288600000143
为所述任一训练轮次中的第p个剩余文本特征向量,βp为所述任一训练轮次中的第p个剩余文本特征向量
Figure BDA0002558288600000144
的权重,m’为所述任一训练轮次的剩余文本特征向量的总个数。
具体地,对于确定任一训练轮次中的第i个文本特征向量Si的权重ai的公式:
Figure BDA0002558288600000145
其中,
Figure BDA0002558288600000146
g为任一样本文本语句和位置信息对应的文本特征向量Si的维度,WA是对角矩阵,每一训练轮次中的WA通常都不一样,因为下一训练轮次中的WA是在上一训练轮次中的WA的基础上通过上一训练轮次得到的损失函数进行调整得到的,
Figure BDA0002558288600000147
r为所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量,r是与文本特征向量Si的维度相同的行向量,也称为文本特征向量Si对应关系类型的查询向量。
对于确定所述任一训练轮次的剩余文本特征向量的总个数m′的公式:
Figure BDA00025582886000001410
其中,
Figure BDA0002558288600000148
表示向上取整。
对于确定任一训练轮次中的第p个剩余文本特征向量
Figure BDA0002558288600000149
的权重βp的公式:
Figure BDA0002558288600000151
其中,
Figure BDA0002558288600000152
g为任一剩余文本特征向量
Figure BDA0002558288600000153
的维度,而任一剩余文本特征向量
Figure BDA0002558288600000154
的维度与任一样本文本语句和位置信息对应的文本特征向量Si的维度,WA是对角矩阵,每一训练轮次中的WA通常都不一样,因为下一训练轮次中的WA是在上一训练轮次中的WA的基础上通过上一训练轮次得到的损失函数进行调整得到的,
Figure BDA0002558288600000155
r为所述任一训练轮次的多个剩余文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量,r是与剩余文本特征向量
Figure BDA0002558288600000156
的维度相同的行向量,也称为剩余文本特征向量
Figure BDA0002558288600000157
对应关系类型的查询向量。
基于上述任一实施例,本发明实施例提供一种文本语句中两实体的关系确定装置,图2为本发明实施例提供的文本语句中两实体的关系确定装置的结构示意图。如图2所示,该装置包括确定单元210和关系提取单元220,其中,
所述确定单元210,用于确定待测文本语句和位置信息,所述位置信息是待测文本语句中需要确定实体关系的两实体在所述待测文本语句中的位置信息;
所述关系提取单元220,用于将所述待测文本语句和位置信息输入实体关系提取模型,所述位置信息是待测文本语句中需要确定实体关系的两实体在所述待测文本语句中的位置信息,输出与所述待测文本语句和位置信息对应的所述两实体的关系类型;
其中,所述实体关系提取模型是基于样本文本语句和位置信息以及预先确定的对应于样本文本语句和位置信息的两实体关系类型标签进行训练后得到的,所述实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理,所述样本文本语句和位置信息由标准人工标注库通过远程监督机制自动扩充。
本发明实施例提供的装置,通过将所述待测文本语句和位置信息输入实体关系提取模型,输出与所述待测文本语句和位置信息对应的所述两实体的关系类型,其中,所述实体关系提取模型是基于大量样本文本语句和位置信息以及预先确定的对应于样本文本语句和位置信息的两实体关系类型标签进行训练后得到的,而实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理,所述样本文本语句和位置信息由标准人工标注库通过远程监督机制自动扩充。如此,通过实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理排除因为远程监督机制自动扩充的样本中的误标注,在实体关系提取模型的训练迭代过程中按时间衰减而遮蔽低置信的样本实例,保留高置信的样本实例获取样本的表示向量,以缓解错误标注样本对实体关系提取模型参数更新的负面影响,提升实体关系提取模型的精度。因此,本发明实施例提供的装置,实现了提高文本语句中两实体关系的提取准确率。
基于上述任一实施例,该装置中,所述实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理,具体包括:
实体关系提取模型训练时,
对任一样本文本语句和位置信息进行预处理,得到对应于所述任一样本文本语句和位置信息的文本特征向量;
采用时间衰减注意力机制将任一训练轮次的多个文本特征向量合成为去噪文本特征向量;
基于所述去噪文本特征向量确定对应的预测两实体的关系类型;
基于所述预测两实体的关系类型和所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签确定所述任一训练轮次的损失函数。
基于上述任一实施例,该装置中,所述对样本文本语句和位置信息进行预处理,得到对应于各样本文本语句和位置信息的文本特征向量,具体包括:
将任一样本文本语句输入BERT预训练模型,得到所述任一样本文本语句的特征向量;
将所述任一样本文本语句的特征向量和对应于所述任一样本文本语句的位置信息输入CNN模块,得到对应于所述任一样本文本语句和位置信息的文本特征向量。
基于上述任一实施例,该装置中,所述采用时间衰减注意力机制将任一训练轮次的多个文本特征向量合成为去噪文本特征向量,具体包括:
基于任一训练轮次的可训练权重矩阵、所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量和任一训练轮次的多个文本特征向量确定所述任一训练轮次的多个文本特征向量之间的权重;
基于所述任一训练轮次的当前迭代轮次和训练轮次的迭代轮次总次数确定所述任一训练轮次的剩余文本特征向量;
基于所述任一训练轮次的可训练权重矩阵、所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量和所述任一训练轮次的剩余文本特征向量确定所述任一训练轮次的剩余文本特征向量之间的权重,进而确定所述任一训练轮次的去噪文本特征向量。
基于上述任一实施例,该装置中,所述基于任一训练轮次的可训练权重矩阵、所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量和任一训练轮次的多个文本特征向量确定所述任一训练轮次的多个文本特征向量之间的权重,具体包括:
通过如下公式确定任一训练轮次中的第i个文本特征向量Si的权重ai
Figure BDA0002558288600000171
其中,i=1,2,…,m,m为所述任一训练轮次中文本特征向量的总个数,WA为所述任一训练轮次的可训练权重矩阵,r为所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量;
对应地,所述基于所述任一训练轮次的当前迭代轮次和训练轮次的迭代轮次总次数确定所述任一训练轮次的剩余文本特征向量,具体包括:
通过如下公式计算所述任一训练轮次的当前迭代轮次t的衰减比例ρt
Figure BDA0002558288600000181
其中,T为训练轮次的迭代轮次总次数,ρmin为预设衰减下限;
通过如下公式确定所述任一训练轮次的剩余文本特征向量的总个数m′:
Figure BDA0002558288600000186
其中,ρt为所述任一训练轮次的当前迭代轮次t的衰减比例,m为所述任一训练轮次中文本特征向量的总个数;
将任一训练轮次中的m个文本特征向量按照各自权重的大小由大到小依次排序得到序列,并提取所述序列中的前m′个文本特征向量作为所述任一训练轮次的剩余文本特征向量;
对应地,所述基于所述任一训练轮次的可训练权重矩阵、所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量和所述任一训练轮次的剩余文本特征向量确定所述任一训练轮次的剩余文本特征向量之间的权重,进而确定所述任一训练轮次的去噪文本特征向量,具体包括:
通过如下公式确定任一训练轮次中的第p个剩余文本特征向量
Figure BDA0002558288600000187
的权重βp
Figure BDA0002558288600000182
其中,p=1,2,…,m’,m’为所述任一训练轮次的剩余文本特征向量的总个数,WA为所述任一训练轮次的可训练权重矩阵,r为所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量;
通过如下公式计算所述任一训练轮次的去噪文本特征向量SB
Figure BDA0002558288600000183
其中,
Figure BDA0002558288600000184
为所述任一训练轮次中的第p个剩余文本特征向量,βp为所述任一训练轮次中的第p个剩余文本特征向量
Figure BDA0002558288600000185
的权重,m’为所述任一训练轮次的剩余文本特征向量的总个数。
基于上述任一实施例,本发明实施例提供一种此处展示本发明实施例提供一种基于时间衰减注意力机制和文本实例降噪的文本信息表示方法的文本信息中两实体的关系确定流程,针对通过远程监督机制获取的样本文本语句和位置信息对应的关系类型标签组成的样本集,应用基于时间衰减注意力机制和文本实例降噪的文本信息表示方法,先利用BERT预处理,PE-CNN模块进行位置信息处理,最后利用本文提出的方法进行降噪,得到实体关系文本的信息表示,并可利用该文本信息表示进行分类等操作。利用分类的Precision-Recall曲线指标对本发明实施例提供的时间衰减注意力机制(time-decay selectiveattention mechanism,TD-SAM)进行评估,即对比使用TD-SAM方法与使用业界常用的Selective Attention方法在分类任务中的P-R曲线指标,判断TD-SAM方法的效果。图3为本发明实施例提供的NYT-10数据集中的P-R曲线对比的示意图,图4为本发明实施例提供的GIDS数据集中的P-R曲线对比的示意图。图3和图4所示分别展示了本发明实施例提供的TD-SAM方法与业界常用的Selective Attention方法在NYT-10数据集与GIDS数据集上的查准率-召回率曲线(Precision-recall curve,P-R曲线)。其中,NYT-10数据集与GIDS数据集为两个最常用的通过远程监督机制获取的样本文本语句和位置信息对应的关系类型标签组成的数据集。P-R曲线反映了模型的查准率和召回率的关系,P-R曲线表明在设置不同的分类阈值,即不同的召回水平下,模型的查准率的表现,一般认为,P-R曲线与x轴围成区域的面积越大,模型整体性能越好。在总体上,本发明实施例提供的TD-SAM方法在两个数据集的整个召回范围内均实现了更高的查准率。
图5为本发明实施例提供的电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储在存储器503上并可在处理器501上运行的计算机程序,以执行上述各实施例提供的文本语句中两实体的关系确定方法,例如包括:确定待测文本语句和位置信息,所述位置信息是待测文本语句中需要确定实体关系的两实体在所述待测文本语句中的位置信息;将待测文本语句和位置信息输入实体关系提取模型,输出与所述待测文本语句和位置信息对应的所述两实体的关系类型;其中,所述实体关系提取模型是基于样本文本语句和位置信息以及预先确定的对应于样本文本语句和位置信息的两实体关系类型标签进行训练后得到的,所述实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理,所述样本文本语句和位置信息由标准人工标注库通过远程监督机制自动扩充。
此外,上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的文本语句中两实体的关系确定方法,例如包括:确定待测文本语句和位置信息,所述位置信息是待测文本语句中需要确定实体关系的两实体在所述待测文本语句中的位置信息;将待测文本语句和位置信息输入实体关系提取模型,输出与所述待测文本语句和位置信息对应的所述两实体的关系类型;其中,所述实体关系提取模型是基于样本文本语句和位置信息以及预先确定的对应于样本文本语句和位置信息的两实体关系类型标签进行训练后得到的,所述实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理,所述样本文本语句和位置信息由标准人工标注库通过远程监督机制自动扩充。
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种文本语句中两实体的关系确定方法,其特征在于,包括:
确定待测文本语句和位置信息,所述位置信息是待测文本语句中需要确定实体关系的两实体在所述待测文本语句中的位置信息;
将所述待测文本语句和位置信息输入实体关系提取模型,输出与所述待测文本语句和位置信息对应的所述两实体的关系类型;
其中,所述实体关系提取模型是基于样本文本语句和位置信息以及预先确定的对应于样本文本语句和位置信息的两实体关系类型标签进行训练后得到的,所述实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理,所述样本文本语句和位置信息由标准人工标注库通过远程监督机制自动扩充;
其中,所述实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理,具体包括:
实体关系提取模型训练时,
对任一样本文本语句和位置信息进行预处理,得到对应于所述任一样本文本语句和位置信息的文本特征向量;
采用时间衰减注意力机制将任一训练轮次的多个文本特征向量合成为去噪文本特征向量;
基于所述去噪文本特征向量确定对应的预测两实体的关系类型;
基于所述预测两实体的关系类型和所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签确定所述任一训练轮次的损失函数;
所述采用时间衰减注意力机制将任一训练轮次的多个文本特征向量合成为去噪文本特征向量,具体包括:
基于任一训练轮次的可训练权重矩阵、所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量和任一训练轮次的多个文本特征向量确定所述任一训练轮次的多个文本特征向量之间的权重;
基于所述任一训练轮次的当前迭代轮次和训练轮次的迭代轮次总次数确定所述任一训练轮次的剩余文本特征向量;
基于所述任一训练轮次的可训练权重矩阵、所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量和所述任一训练轮次的剩余文本特征向量确定所述任一训练轮次的剩余文本特征向量之间的权重,进而确定所述任一训练轮次的去噪文本特征向量;
所述基于任一训练轮次的可训练权重矩阵、所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量和任一训练轮次的多个文本特征向量确定所述任一训练轮次的多个文本特征向量之间的权重,具体包括:
通过如下公式确定任一训练轮次中的第i个文本特征向量Si的权重ai
Figure FDA0003759790400000021
其中,i=1,2,…,m,m为所述任一训练轮次中文本特征向量的总个数,WA为所述任一训练轮次的可训练权重矩阵,r为所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量;
对应地,所述基于所述任一训练轮次的当前迭代轮次和训练轮次的迭代轮次总次数确定所述任一训练轮次的剩余文本特征向量,具体包括:
通过如下公式计算所述任一训练轮次的当前迭代轮次t的衰减比例ρt
Figure FDA0003759790400000022
其中,T为训练轮次的迭代轮次总次数,ρmin为预设衰减下限;
通过如下公式确定所述任一训练轮次的剩余文本特征向量的总个数m′:
Figure FDA0003759790400000023
其中,ρt为所述任一训练轮次的当前迭代轮次t的衰减比例,m为所述任一训练轮次中文本特征向量的总个数;
将任一训练轮次中的m个文本特征向量按照各自权重的大小由大到小依次排序得到序列,并提取所述序列中的前m′个文本特征向量作为所述任一训练轮次的剩余文本特征向量。
2.根据权利要求1所述的文本语句中两实体的关系确定方法,其特征在于,所述对任一样本文本语句和位置信息进行预处理,得到对应于所述任一样本文本语句和位置信息的文本特征向量,具体包括:
将任一样本文本语句输入BERT预训练模型,得到所述任一样本文本语句的特征向量;
将所述任一样本文本语句的特征向量和对应于所述任一样本文本语句的位置信息输入CNN模块,得到对应于所述任一样本文本语句和位置信息的文本特征向量。
3.根据权利要求1所述的文本语句中两实体的关系确定方法,其特征在于,所述基于所述任一训练轮次的可训练权重矩阵、所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量和所述任一训练轮次的剩余文本特征向量确定所述任一训练轮次的剩余文本特征向量之间的权重,进而确定所述任一训练轮次的去噪文本特征向量,具体包括:
通过如下公式确定任一训练轮次中的第p个剩余文本特征向量
Figure FDA0003759790400000031
的权重βp
Figure FDA0003759790400000032
其中,p=1,2,…,m’,m’为所述任一训练轮次的剩余文本特征向量的总个数,WA为所述任一训练轮次的可训练权重矩阵,r为所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量;
通过如下公式计算所述任一训练轮次的去噪文本特征向量SB
Figure FDA0003759790400000041
其中,
Figure FDA0003759790400000042
为所述任一训练轮次中的第p个剩余文本特征向量,βp为所述任一训练轮次中的第p个剩余文本特征向量
Figure FDA0003759790400000043
的权重,m’为所述任一训练轮次的剩余文本特征向量的总个数。
4.一种文本语句中两实体的关系确定装置,其特征在于,包括:
确定单元,用于确定待测文本语句和位置信息,所述位置信息是待测文本语句中需要确定实体关系的两实体在所述待测文本语句中的位置信息;
关系提取单元,用于将所述待测文本语句和位置信息输入实体关系提取模型,输出与所述待测文本语句和位置信息对应的所述两实体的关系类型;
其中,所述实体关系提取模型是基于样本文本语句和位置信息以及预先确定的对应于样本文本语句和位置信息的两实体关系类型标签进行训练后得到的,所述实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理,所述样本文本语句和位置信息由标准人工标注库通过远程监督机制自动扩充;
其中,所述实体关系提取模型训练时对样本文本语句和位置信息采用时间衰减注意力机制进行处理,具体包括:
实体关系提取模型训练时,
对任一样本文本语句和位置信息进行预处理,得到对应于所述任一样本文本语句和位置信息的文本特征向量;
采用时间衰减注意力机制将任一训练轮次的多个文本特征向量合成为去噪文本特征向量;
基于所述去噪文本特征向量确定对应的预测两实体的关系类型;
基于所述预测两实体的关系类型和所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签确定所述任一训练轮次的损失函数;
所述采用时间衰减注意力机制将任一训练轮次的多个文本特征向量合成为去噪文本特征向量,具体包括:
基于任一训练轮次的可训练权重矩阵、所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量和任一训练轮次的多个文本特征向量确定所述任一训练轮次的多个文本特征向量之间的权重;
基于所述任一训练轮次的当前迭代轮次和训练轮次的迭代轮次总次数确定所述任一训练轮次的剩余文本特征向量;
基于所述任一训练轮次的可训练权重矩阵、所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量和所述任一训练轮次的剩余文本特征向量确定所述任一训练轮次的剩余文本特征向量之间的权重,进而确定所述任一训练轮次的去噪文本特征向量;
所述基于任一训练轮次的可训练权重矩阵、所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量和任一训练轮次的多个文本特征向量确定所述任一训练轮次的多个文本特征向量之间的权重,具体包括:
通过如下公式确定任一训练轮次中的第i个文本特征向量Si的权重ai
Figure FDA0003759790400000051
其中,i=1,2,…,m,m为所述任一训练轮次中文本特征向量的总个数,WA为所述任一训练轮次的可训练权重矩阵,r为所述任一训练轮次的多个文本特征向量对应的任一样本文本语句和位置信息对应的两实体关系类型标签对应的类型向量;
对应地,所述基于所述任一训练轮次的当前迭代轮次和训练轮次的迭代轮次总次数确定所述任一训练轮次的剩余文本特征向量,具体包括:
通过如下公式计算所述任一训练轮次的当前迭代轮次t的衰减比例ρt
Figure FDA0003759790400000052
其中,T为训练轮次的迭代轮次总次数,ρmin为预设衰减下限;
通过如下公式确定所述任一训练轮次的剩余文本特征向量的总个数m′:
Figure FDA0003759790400000061
其中,ρt为所述任一训练轮次的当前迭代轮次t的衰减比例,m为所述任一训练轮次中文本特征向量的总个数;
将任一训练轮次中的m个文本特征向量按照各自权重的大小由大到小依次排序得到序列,并提取所述序列中的前m′个文本特征向量作为所述任一训练轮次的剩余文本特征向量。
5.根据权利要求4所述的文本语句中两实体的关系确定装置,其特征在于,所述对任一样本文本语句和位置信息进行预处理,得到对应于所述任一样本文本语句和位置信息的文本特征向量,具体包括:
将任一样本文本语句输入BERT预训练模型,得到所述任一样本文本语句的特征向量;
将所述任一样本文本语句的特征向量和对应于所述任一样本文本语句的位置信息输入CNN模块,得到对应于所述任一样本文本语句和位置信息的文本特征向量。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3中任一项所述的文本语句中两实体的关系确定方法的步骤。
7.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至3中任一项所述的文本语句中两实体的关系确定方法的步骤。
CN202010599867.9A 2020-06-28 2020-06-28 文本语句中两实体的关系确定方法、装置和电子设备 Active CN111813954B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010599867.9A CN111813954B (zh) 2020-06-28 2020-06-28 文本语句中两实体的关系确定方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010599867.9A CN111813954B (zh) 2020-06-28 2020-06-28 文本语句中两实体的关系确定方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN111813954A CN111813954A (zh) 2020-10-23
CN111813954B true CN111813954B (zh) 2022-11-04

Family

ID=72855101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010599867.9A Active CN111813954B (zh) 2020-06-28 2020-06-28 文本语句中两实体的关系确定方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN111813954B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010638B (zh) * 2021-02-25 2024-02-09 北京金堤征信服务有限公司 实体识别模型生成方法及装置、实体提取方法及装置
CN113505231A (zh) * 2021-05-06 2021-10-15 清华大学 开放层次结构关系的发现方法、装置和电子设备
CN113254429B (zh) * 2021-05-13 2023-07-21 东北大学 一种用于远程监督关系抽取的基于bert和mlm的降噪方法
CN113297373A (zh) * 2021-06-09 2021-08-24 北京邮电大学 智慧城市主题信息抽取方法、装置、电子设备和存储介质
CN114021572B (zh) * 2022-01-05 2022-03-22 苏州浪潮智能科技有限公司 一种自然语言处理方法、装置、设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799577A (zh) * 2012-08-17 2012-11-28 苏州大学 一种中文实体间语义关系抽取方法
CN108932342A (zh) * 2018-07-18 2018-12-04 腾讯科技(深圳)有限公司 一种语义匹配的方法、模型的学习方法及服务器
CN109800294A (zh) * 2019-01-08 2019-05-24 中国科学院自动化研究所 基于物理环境博弈的自主进化智能对话方法、系统、装置
CN110069779A (zh) * 2019-04-18 2019-07-30 腾讯科技(深圳)有限公司 医疗文本的症状实体识别方法及相关装置
CN110751286A (zh) * 2018-07-23 2020-02-04 第四范式(北京)技术有限公司 神经网络模型的训练方法和训练系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220231A (zh) * 2016-03-22 2017-09-29 索尼公司 用于自然语言处理的电子设备和方法以及训练方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799577A (zh) * 2012-08-17 2012-11-28 苏州大学 一种中文实体间语义关系抽取方法
CN108932342A (zh) * 2018-07-18 2018-12-04 腾讯科技(深圳)有限公司 一种语义匹配的方法、模型的学习方法及服务器
CN110751286A (zh) * 2018-07-23 2020-02-04 第四范式(北京)技术有限公司 神经网络模型的训练方法和训练系统
CN109800294A (zh) * 2019-01-08 2019-05-24 中国科学院自动化研究所 基于物理环境博弈的自主进化智能对话方法、系统、装置
CN110069779A (zh) * 2019-04-18 2019-07-30 腾讯科技(深圳)有限公司 医疗文本的症状实体识别方法及相关装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于BERT的任务导向对话系统自然语言理解的改进模型与调优方法;周奇安等;《中文信息学报》;20200515(第05期);全文 *
基于核的关系抽取研究综述;刘婧等;《计算机应用研究》;20160215(第02期);全文 *
基于深度学习的中文实体关系抽取方法;孙紫阳等;《计算机工程》;20171027(第09期);全文 *

Also Published As

Publication number Publication date
CN111813954A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN111813954B (zh) 文本语句中两实体的关系确定方法、装置和电子设备
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN112732871B (zh) 一种机器人催收获取客户意向标签的多标签分类方法
CN111931490B (zh) 文本纠错方法、装置及存储介质
CN114495129B (zh) 文字检测模型预训练方法以及装置
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN114490950B (zh) 编码器模型的训练方法及存储介质、相似度预测方法及系统
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN113806582B (zh) 图像检索方法、装置、电子设备和存储介质
CN116416480B (zh) 一种基于多模板提示学习的视觉分类方法和装置
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN116127060A (zh) 一种基于提示词的文本分类方法及系统
US20220138425A1 (en) Acronym definition network
CN113870863A (zh) 声纹识别方法及装置、存储介质及电子设备
CN112434736A (zh) 一种基于预训练模型的深度主动学习文本分类方法
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质
CN116186259A (zh) 一种会话线索评分方法、装置、设备及存储介质
CN113111855B (zh) 一种多模态情感识别方法、装置、电子设备及存储介质
CN115205573A (zh) 图像处理方法、装置及设备
CN116186529A (zh) 语义理解模型的训练方法及装置
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统
CN112949313A (zh) 信息处理模型训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant