CN113011189A - 开放式实体关系的抽取方法、装置、设备及存储介质 - Google Patents
开放式实体关系的抽取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113011189A CN113011189A CN202110322883.8A CN202110322883A CN113011189A CN 113011189 A CN113011189 A CN 113011189A CN 202110322883 A CN202110322883 A CN 202110322883A CN 113011189 A CN113011189 A CN 113011189A
- Authority
- CN
- China
- Prior art keywords
- data set
- relation
- processed
- target
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000000605 extraction Methods 0.000 claims abstract description 53
- 239000013598 vector Substances 0.000 claims abstract description 44
- 238000006243 chemical reaction Methods 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000007781 pre-processing Methods 0.000 claims abstract description 25
- 230000011218 segmentation Effects 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims description 48
- 238000012360 testing method Methods 0.000 claims description 43
- 238000012795 verification Methods 0.000 claims description 37
- 238000001914 filtration Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 10
- 238000007499 fusion processing Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 5
- 239000000945 filler Substances 0.000 claims description 5
- 230000000873 masking effect Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 18
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 239000000284 extract Substances 0.000 description 7
- 238000002372 labelling Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000009182 swimming Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能技术领域,提供一种开放式实体关系的抽取方法、装置、设备及存储介质,用于解决现有的开放关系抽取难以处理不定类型关系的问题。开放式实体关系的抽取方法包括:预处理待处理的关系分类数据集的实体关系、字段长度和关系三元组得到待处理数据集;通过预先训练好的主干模型构建初始无监督生成模型,并通过待处理数据集对初始无监督生成模型进行训练和优化,得到目标无监督生成模型;对待处理文本进行分词和词配对处理,得到预处理文本;通过目标无监督生成模型,对预处理文本进行隐层向量转换、实体关系预测和文本序列生成,得到目标实体关系信息。此外,本发明还涉及区块链技术,待处理的关系分类数据集可存储于区块链中。
Description
技术领域
本发明涉及人工智能的神经网络领域,尤其涉及一种开放式实体关系的抽取方法、装置、设备及存储介质。
背景技术
实体关系抽取技术为通过输入一段上下文文本及两个实体,输出这两个实体在这段上下文中的关系类型,被广泛运用在信息提取、图谱构建和关联发现等领域。但传统关系抽取技术因为关系类型固定、数据难以标注而难以投入实际应用,开放关系抽取技术由于能从输入的一段文本中自动输出所有可能的关系三元组而受到重视。
目前,传统开放关系抽取方案一般采用规则模板的方式,但是规则模板的方式存在开放复杂、对专家知识依赖高、难以迁移和匹配死板的问题;为了解决规则模板的方式所存在的问题,提出了按照语义角色标注的方式,但是该方式存在现成数据集少、标注成本高和难以处理重叠关系的问题;为了解决无法处理重叠关系的问题,提出了首先从句子里提取头实体,然后根据头实体与神经网络隐藏层的输出,联合提取尾实体并判断关系类型的方式,但是,该方式存在须要计算一个行列数均为输入句长度的大矩阵以解决开发关系抽取的问题,因而导致了现有的开放关系抽取难以处理不定类型关系。
发明内容
本发明提供一种开放式实体关系的抽取方法、装置、设备及存储介质,用于解决现有的开放关系抽取难以处理不定类型关系的问题。
本发明第一方面提供了一种开放式实体关系的抽取方法,包括:
获取待处理的关系分类数据集,对所述待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,得到待处理数据集;
通过预先训练好的主干模型构建初始无监督生成模型,并通过所述待处理数据集,对所述初始无监督生成模型进行训练和优化,得到目标无监督生成模型;
获取待处理文本,并对所述待处理文本进行分词和词配对处理,得到预处理文本;
通过所述目标无监督生成模型,对所述预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,得到目标实体关系信息。
可选的,在本发明第一方面的第一种实现方式中,所述获取待处理的关系分类数据集,对所述待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,得到待处理数据集,包括:
创建同义词词典,并获取待处理的关系分类数据集,以及所述同义词词典中所述待处理的关系分类数据集对应的目标同义词;
通过所述目标同义词,对所述待处理的关系分类数据集进行同义词替换,得到增强数据集;
按照预设实体字段长度和预设句长度,对所述增强数据集进行过滤,得到过滤数据集;
获取所述过滤数据集的关系三元组集,通过预置的正则表达式,对所述关系三元组集进行对齐处理和去重处理,得到待处理数据集。
可选的,在本发明第一方面的第二种实现方式中,所述创建同义词词典,并获取待处理的关系分类数据集,以及所述同义词词典中所述待处理的关系分类数据集对应的目标同义词,包括:
获取经过去重融合处理的目标字词数据,根据配置的同义词定义信息,对所述目标字词数据进行字符串生成,得到同义词词典;
获取待处理的关系分类数据集,以及所述待处理的关系分类数据集的实体和实体关系;
对所述待处理的关系分类数据集进行词性标注,并从所述实体和所述实体关系中随机选取目标实体和目标实体关系;
根据所述目标实体和所述目标实体关系遍历所述同义词词典,得到对应的目标同义词。
可选的,在本发明第一方面的第三种实现方式中,所述按照预设实体字段长度和预设句长度,对所述增强数据集进行过滤,得到过滤数据集,包括:
基于预设实体字段长度,对所述增强数据集进行分类,得到第一数据集和第二数据集,所述第一数据集用于指示符合所述预设实体字段长度,所述第二数据集用于指示不符合所述预设实体字段长度;
根据预设句长度,对所述第一数据集和所述第二数据集进行分类,得到目标数据集和非目标数据集,所述目标数据集用于指示符合所述预设句长度,所述非目标数据集用于指示不符合所述预设句长度;
对所述非目标数据集中的语句进行空缺符填充和遮罩处理,得到填充数据;
将所述填充数据和所述目标数据集确定为过滤数据集。
可选的,在本发明第一方面的第四种实现方式中,所述获取所述过滤数据集的关系三元组集,通过预置的正则表达式,对所述关系三元组集进行对齐处理和去重处理,得到待处理数据集,包括:
提取所述过滤数据集中的初始关系三元组集,以及所述初始关系三元组集对应的初始关系短语集;
根据所述初始关系短语集,对所述初始关系三元组集进行对齐分析,得到多个待处理关系三元组以及多个目标关系三元组,所述多个待处理关系三元组用于指示多个待处理关系三元组为同一个三元组,所述多个目标关系三元组用于指示多个目标关系三元组不为同一个三元组;
将所述多个待处理关系三元组进行融合,得到多个融合关系三元组,并将所述多个融合关系三元组和所述多个目标关系三元组确定为待处理数据集。
可选的,在本发明第一方面的第五种实现方式中,所述通过所述目标无监督生成模型,对所述预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,得到目标实体关系信息,包括:
将所述预处理文本的数据格式转换为所述目标无监督生成模型的编码输入格式,得到转换文本,所述目标无监督生成模型包括编码器和解码器;
通过所述编码器对所述转换文本进行数据拟合,得到隐层向量;
通过所述解码器,基于预置的贪心算法和所述隐层向量,从预置的词典中获取对应的目标字词;
根据所述目标字词生成文本序列得到目标实体关系信息。
可选的,在本发明第一方面的第六种实现方式中,所述通过预先训练好的主干模型构建初始无监督生成模型,并通过所述待处理数据集,对所述初始无监督生成模型进行训练和优化,得到目标无监督生成模型,包括:
通过预先训练好的主干模型构建初始无监督生成模型,并将所述待处理数据集划分为训练数据集、验证数据集和测试数据集;
通过所述训练数据集,对所述初始无监督生成模型进行训练,得到候选无监督生成模型;
通过所述候选无监督生成模型,对所述验证数据集进行隐层向量转换、实体关系预测和文本序列生成,得到验证结果;
通过预置的损失函数计算所述验证结果的验证损失值,根据所述验证损失值,对所述候选无监督生成模型进行优化,得到优化无监督生成模型;
通过所述测试数据集,对所述优化无监督生成模型进行测试,得到测试结果,并计算所述测试结果的测试损失值,根据所述测试损失值确定目标无监督生成模型。
本发明第二方面提供了一种开放式实体关系的抽取装置,包括:
第一预处理模块,用于获取待处理的关系分类数据集,对所述待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,得到待处理数据集;
训练优化模块,用于通过预先训练好的主干模型构建初始无监督生成模型,并通过所述待处理数据集,对所述初始无监督生成模型进行训练和优化,得到目标无监督生成模型;
第二预处理模块,用于获取待处理文本,并对所述待处理文本进行分词和词配对处理,得到预处理文本;
抽取模块,用于通过所述目标无监督生成模型,对所述预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,得到目标实体关系信息。
可选的,在本发明第二方面的第一种实现方式中,所述第一预处理模块包括:
创建获取单元,用于创建同义词词典,并获取待处理的关系分类数据集,以及所述同义词词典中所述待处理的关系分类数据集对应的目标同义词;
替换单元,用于通过所述目标同义词,对所述待处理的关系分类数据集进行同义词替换,得到增强数据集;
过滤单元,用于按照预设实体字段长度和预设句长度,对所述增强数据集进行过滤,得到过滤数据集;
处理单元,用于获取所述过滤数据集的关系三元组集,通过预置的正则表达式,对所述关系三元组集进行对齐处理和去重处理,得到待处理数据集。
可选的,在本发明第二方面的第二种实现方式中,所述创建获取单元具体用于:
获取经过去重融合处理的目标字词数据,根据配置的同义词定义信息,对所述目标字词数据进行字符串生成,得到同义词词典;
获取待处理的关系分类数据集,以及所述待处理的关系分类数据集的实体和实体关系;
对所述待处理的关系分类数据集进行词性标注,并从所述实体和所述实体关系中随机选取目标实体和目标实体关系;
根据所述目标实体和所述目标实体关系遍历所述同义词词典,得到对应的目标同义词。
可选的,在本发明第二方面的第三种实现方式中,所述过滤单元具体用于:
基于预设实体字段长度,对所述增强数据集进行分类,得到第一数据集和第二数据集,所述第一数据集用于指示符合所述预设实体字段长度,所述第二数据集用于指示不符合所述预设实体字段长度;
根据预设句长度,对所述第一数据集和所述第二数据集进行分类,得到目标数据集和非目标数据集,所述目标数据集用于指示符合所述预设句长度,所述非目标数据集用于指示不符合所述预设句长度;
对所述非目标数据集中的语句进行空缺符填充和遮罩处理,得到填充数据;
将所述填充数据和所述目标数据集确定为过滤数据集。
可选的,在本发明第二方面的第四种实现方式中,所述处理单元具体用于:
提取所述过滤数据集中的初始关系三元组集,以及所述初始关系三元组集对应的初始关系短语集;
根据所述初始关系短语集,对所述初始关系三元组集进行对齐分析,得到多个待处理关系三元组以及多个目标关系三元组,所述多个待处理关系三元组用于指示多个待处理关系三元组为同一个三元组,所述多个目标关系三元组用于指示多个目标关系三元组不为同一个三元组;
将所述多个待处理关系三元组进行融合,得到多个融合关系三元组,并将所述多个融合关系三元组和所述多个目标关系三元组确定为待处理数据集。
可选的,在本发明第二方面的第五种实现方式中,所述抽取模块具体用于:
将所述预处理文本的数据格式转换为所述目标无监督生成模型的编码输入格式,得到转换文本,所述目标无监督生成模型包括编码器和解码器;
通过所述编码器对所述转换文本进行数据拟合,得到隐层向量;
通过所述解码器,基于预置的贪心算法和所述隐层向量,从预置的词典中获取对应的目标字词;
根据所述目标字词生成文本序列得到目标实体关系信息。
可选的,在本发明第二方面的第六种实现方式中,所述训练优化模块具体用于:
通过预先训练好的主干模型构建初始无监督生成模型,并将所述待处理数据集划分为训练数据集、验证数据集和测试数据集;
通过所述训练数据集,对所述初始无监督生成模型进行训练,得到候选无监督生成模型;
通过所述候选无监督生成模型,对所述验证数据集进行隐层向量转换、实体关系预测和文本序列生成,得到验证结果;
通过预置的损失函数计算所述验证结果的验证损失值,根据所述验证损失值,对所述候选无监督生成模型进行优化,得到优化无监督生成模型;
通过所述测试数据集,对所述优化无监督生成模型进行测试,得到测试结果,并计算所述测试结果的测试损失值,根据所述测试损失值确定目标无监督生成模型。
本发明第三方面提供了一种开放式实体关系的抽取设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述开放式实体关系的抽取设备执行上述的开放式实体关系的抽取方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的开放式实体关系的抽取方法。
本发明提供的技术方案中,获取待处理的关系分类数据集,对待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,得到待处理数据集;通过预先训练好的主干模型构建初始无监督生成模型,并通过待处理数据集,对初始无监督生成模型进行训练和优化,得到目标无监督生成模型;获取待处理文本,并对待处理文本进行分词和词配对处理,得到预处理文本;通过目标无监督生成模型,对预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,得到目标实体关系信息。本发明实施例中,通过对待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,通过预先训练好的主干模型构建初始无监督生成模型,以及通过目标无监督生成模型,对预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,解决了标注成本高、计算效率低、无法处理重叠样本以及存在拓展到开放问题时涉及计算一个行列数均为输入句长度的大矩阵的问题,从而解决了现有的开放关系抽取难以处理不定类型关系的问题。
附图说明
图1为本发明实施例中开放式实体关系的抽取方法的一个实施例示意图;
图2为本发明实施例中开放式实体关系的抽取方法的另一个实施例示意图;
图3为本发明实施例中开放式实体关系的抽取装置的一个实施例示意图;
图4为本发明实施例中开放式实体关系的抽取装置的另一个实施例示意图;
图5为本发明实施例中开放式实体关系的抽取设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种开放式实体关系的抽取方法、装置、设备及存储介质,解决了现有的开放关系抽取难以处理不定类型关系的问题。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中开放式实体关系的抽取方法的一个实施例包括:
101、获取待处理的关系分类数据集,对待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,得到待处理数据集。
可以理解的是,本发明的执行主体可以为开放式实体关系的抽取装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
其中,待处理的关系分类数据集为开源的,待处理的关系分类数据集的数量包括一个或多个,例如:待处理的关系分类数据集包括数据集SemEval-2010 Task8、数据集ACE2003-2004、数据集TACRED、数据集FewRel和百度信息抽取集DuIE等,待处理的关系分类数据集包括文本句子和关系三元组,待处理的关系分类数据集包括实体和实体之间的实体关系。
服务器从多个开源库中提取已经过实体标注以及实体关系抽取和标注的关系分类数据,从而得到初始关系分类数据集,对初始关系分类数据集进行数据清洗和数据属性规约,得到待处理的关系分类数据集,提取待处理的关系分类数据集的实体和实体关系,对待处理的关系分类数据集中的实体和实体关系进行同义词/近义词增强处理,得到增强数据集,增强数据集包括多个三元组(头实体,关系和尾实体)和多个扩增三元组,扩增三元组包括由通过预置的同义词典随机替换关系三元组中的成分,而得到的上下文相同、关系类型相同和具体实体组合不同的新三元组,按照预设的字段长度对增强数据集中文本句子的句子长度进行处理,得到处理数据集,将处理数据集中的多个三元组和多个扩增三元组划分为N个样本,从而得到样本数据,从样本数据中选取预置数量的数据,得到待处理数据集。
102、通过预先训练好的主干模型构建初始无监督生成模型,并通过待处理数据集,对初始无监督生成模型进行训练和优化,得到目标无监督生成模型。
其中,预先训练好的主干模型包括统一的语言模型(unified language model,UniLM)、生成式的预训练(generative pre-training,GPT)模型、基于转换器transformer的大型语言模型GPT-2或预训练生成式摘要模型PEGASUS等,本实施例中预先训练好的主干模型优选为统一的语言模型UniLM,UniLM为基于预训练模型BERT使用三种不同的遮罩(mask)机制—双向语言模型(bidirected language model,BiLM)、单向语言模型(left-to-right language model,LRLM)和序列到序列语言模型(sequence to sequencelanguage model,S2S LM)训练而得的预训练生成式语言模型。通过预先训练好的主干模型构建而成的初始无监督生成模型包括编码器和解码器。服务器按照预设的划分比例,基于预置的随机采样算法或分层采样算法,对待处理数据集进行分割,得到训练数据集、验证数据集和测试数据集,其中,预设的划分比例可为8:1:1。
103、获取待处理文本,并对待处理文本进行分词和词配对处理,得到预处理文本。
服务器通过接收预置的显示界面或终端发送的待处理文本,通过预置的开源库Jieba,对待处理文本进行分词处理,得到分词列表,按分词列表的顺序从分词列表中将词两两取出,以实现词配对处理,得到预处理文本,其中,词配对处理不会明显影响目标无监督生成模型效率,例如:如果有N个词,那么需要配对N(N-1)/2次,平均一个句子里N=5,要配对10次,模型做一次推断时间约为1s,10次推断是10s,这个量级不会明显影响模型效率。
104、通过目标无监督生成模型,对预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,得到目标实体关系信息。
服务器基于目标无监督生成模型的输入格式,对预处理文本进行数据格式转换,得到转换文本,通过目标无监督生成模型中的编码器,对转换文本进行转换为隐层向量,通过目标无监督生成模型中的解码器,基于预置的贪心算法或集束搜索算法,根据隐层向量中的实体关系,匹配预置的词典中对应的目标字词,按照预设的序列顺序和目标字词,生成新的文本序列,从而得到目标实体关系信息,其中,预置的词典为一个由单个汉字、数字或字符组成的词典列表,该列表由通过基于大量语料,计算语料的词频-逆文本频率指数(term frequency–inverse document frequency,TF-IDF),将词频-逆文本频率指数TF-IDF与预测的频率值进行对比分析而得到。通过直接根据待处理文本和待处理文本中的两个实体,生成一个文本序列,该文本序列包括实体关系字段,由于该实体关系字段极大概率不存在待处理文本中,从而解决了现有的开放关系抽取难以处理不定类型关系的问题。
本发明实施例中,通过对待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,通过预先训练好的主干模型构建初始无监督生成模型,以及通过目标无监督生成模型,对预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,解决了标注成本高、计算效率低、无法处理重叠样本以及存在拓展到开放问题时涉及计算一个行列数均为输入句长度的大矩阵的问题,从而解决了现有的开放关系抽取难以处理不定类型关系的问题。
请参阅图2,本发明实施例中开放式实体关系的抽取方法的另一个实施例包括:
201、创建同义词词典,并获取待处理的关系分类数据集,以及同义词词典中待处理的关系分类数据集对应的目标同义词。
具体地,服务器获取经过去重融合处理的目标字词数据,根据配置的同义词定义信息,对目标字词数据进行字符串生成,得到同义词词典;获取待处理的关系分类数据集,以及待处理的关系分类数据集的实体和实体关系;对待处理的关系分类数据集进行词性标注,并从实体和实体关系中随机选取目标实体和目标实体关系;根据目标实体和目标实体关系遍历同义词词典,得到对应的目标同义词。
其中,配置的同义词定义信息可为同义词的映射类型和对应关系。服务器通过调用预置的下载接口或下载插件从github.com/fighting41lov/funNLP,github.com/liuhuanyong/ChineseSemanticKB和哈尔滨工业大学大词林的网页或词库中下载字词数据,对该字词数据进行数据预处理和去重融合处理,得到经过去重融合处理的目标字词数据,并按照由二元组(词,词)构成的列表的数据结构和目标字词数据,构建图谱,并按照json格式对图谱进行存储得到同义词词典,其中,在图谱中,相近意思的字词都会连接起来。
服务器获取同义词词典中同义词的词性,即同义词词性,并提取关系分类数据集中的实体关系词性,该实体关系字段词性包括实体的词性,以及与实体关系相关的字段的词性,根据该同义词词性和该实体关系词性,对关系分类数据集进行词性标注,以实现词性的歧义消除,例如:“游泳”一词,在语境中可以作动词表示一个动作(此时同义词是“游动”、“泅水”),也可以作名词表示一项活动/项目(此时同义词是“蛙泳”、“自由泳”等)。
服务器通过预置的随机选择算法,从实体和实体关系中随机选取预设的选取数量的实体和实体关系,得到目标实体和目标实体关系,根据目标实体和目标实体关系,对同义词词典进行匹配,得到对应的目标同义词,该目标同义词的数量包括一个或一个以上。
202、通过目标同义词,对待处理的关系分类数据集进行同义词替换,得到增强数据集。
服务器将待处理的关系分类数据集中与目标同义词对应的词字符串修改为目标同义词对应的字符串,从而得到增强数据集。
203、按照预设实体字段长度和预设句长度,对增强数据集进行过滤,得到过滤数据集。
具体地,服务器基于预设实体字段长度,对增强数据集进行分类,得到第一数据集和第二数据集,第一数据集用于指示符合预设实体字段长度,第二数据集用于指示不符合预设实体字段长度;根据预设句长度,对第一数据集和第二数据集进行分类,得到目标数据集和非目标数据集,目标数据集用于指示符合预设句长度,非目标数据集用于指示不符合预设句长度;对非目标数据集中的语句进行空缺符填充和遮罩处理,得到填充数据;将填充数据和目标数据集确定为过滤数据集。
服务器获取增强数据集的初始实体字段长度,以及语句的初始句长度,服务器通过if-else判断脚本,判断初始实体字段长度是否大于预设实体字段长度,若否,则将初始实体字段长度对应的字段确定为实体,得到符合预设实体字段长度的第一数据集,若是,则不将初始实体字段长度对应的字段确定为实体,得到不符合预设实体字段长度的第二数据集,预设实体字段长度根据统计结果取值,中文情形一般取k=7;服务器也可通过预置的函数(如:python语言中的filter函数),基于预设实体字段长度和初始实体字段长度,对增强数据集中各语句的字段进行过滤,例如:增强数据集中各语句的字段为一个列表lst,通过lst_new=list(filter(x:len(x)>7,lst)),实现基于预设实体字段长度和初始实体字段长度,对增强数据集中各语句的字段进行的过滤。
服务器判断初始句长度是否为预设句长度,该预设句长度可为文本句子的字符数量,例如:预设句长度为128个字符,一个文本句子包括128个字符,若是,则得到符合预设句长度的目标数据集,若否,则得到不符合预设句长度的非目标数据集,将非目标数据集中初始句长度大于预设句长度的数据的字符进行截断,得到截断数据,并对非目标数据集中初始句长度小于预设句长度的数据进行空缺符填充,并对填充的空缺符进行遮罩mask处理,得到填充数据,从而得到过滤数据集。
204、获取过滤数据集的关系三元组集,通过预置的正则表达式,对关系三元组集进行对齐处理和去重处理,得到待处理数据集。
具体地,服务器提取过滤数据集中的初始关系三元组集,以及初始关系三元组集对应的初始关系短语集;根据初始关系短语集,对初始关系三元组集进行对齐分析,得到多个待处理关系三元组以及多个目标关系三元组,多个待处理关系三元组用于指示多个待处理关系三元组为同一个三元组,多个目标关系三元组用于指示多个目标关系三元组不为同一个三元组;将多个待处理关系三元组进行融合,得到多个融合关系三元组,并将多个融合关系三元组和多个目标关系三元组确定为待处理数据集。
服务器提取过滤数据集中的初始关系三元组集,以及初始关系三元组集对应的初始关系短语集,通过预置的正则表达式,判断初始关系短语集中关系短语之间是否一致,若是,则判定对应的关系短语为目标关系短语,若否,则继续进行判断;
或者,服务器提取过滤数据集中各文本句子的初始关系三元组(头实体,关系,尾实体),从而得到初始关系三元组集,并提取各初始关系三元组对应的三个初始关系短语,从而得到初始关系短语集。服务器判断各初始关系三元组之间的三个初始关系短语是否均相同,若各初始关系三元组之间的三个初始关系短语均相同,则判断各初始关系三元组之间的头实体和尾实体是否相同,若是,则判定对应的两个初始关系三元组为同一个三元组,从而得到多个待处理关系三元组,若否,则判定对应的两个初始关系三元组不为同一个三元组,从而得到多个目标关系三元组;若各初始关系三元组之间的三个初始关系短语不相同,则将对应的初始关系三元组确定为目标关系三元组,从而得到多个目标关系三元组,并将多个待处理关系三元组进行融合,从而得到包括多个融合关系三元组和多个目标关系三元组的待处理数据集,其中,目标关系三元组集包括未经过同义词词典中的同义词替换的关系三元组和经过同义词词典中的同义词替换的关系三元组。
205、通过预先训练好的主干模型构建初始无监督生成模型,并通过待处理数据集,对初始无监督生成模型进行训练和优化,得到目标无监督生成模型。
具体地,服务器通过预先训练好的主干模型构建初始无监督生成模型,并将待处理数据集划分为训练数据集、验证数据集和测试数据集;通过训练数据集,对初始无监督生成模型进行训练,得到候选无监督生成模型;通过候选无监督生成模型,对验证数据集进行隐层向量转换、实体关系预测和文本序列生成,得到验证结果;通过预置的损失函数计算验证结果的验证损失值,根据验证损失值,对候选无监督生成模型进行优化,得到优化无监督生成模型;通过测试数据集,对优化无监督生成模型进行测试,得到测试结果,并计算测试结果的测试损失值,根据测试损失值确定目标无监督生成模型。
服务器将训练数据集的数据格式转换为初始无监督生成模型的输入格式,得到格式转换后的训练数据集,将格式转换后的训练数据集输入初始无监督生成模型中,通过初始无监督生成模型中的编码器和解码器,对格式转换后的训练数据集依次进行编码处理和解码处理,以使得初始无监督生成模型的参数适用训练数据集,实现了对初始无监督生成模型的模型微调,从而得到候选无监督生成模型。
服务器通过候选无监督生成模型中的编码器,将验证数据集转换为隐层向量集,并通过预置的字典,对隐层向量集进行实体关系预测和文本序列生成,得到验证结果。
服务器通过预置的损失函数,该损失函数包括但不限于交叉熵损失函数,通过该交叉熵损失函数,计算验证数据集与验证结果之间的交叉熵,即验证损失值,根据该验证损失值,对候选无监督生成模型的超参数和/或模型网络结构进行迭代调整,直至损失函数收敛,从而得到优化无监督生成模型,以提高优化无监督生成模型的准确性。
服务器通过优化无监督生成模型,对测试数据集进行隐层向量转换、实体关系预测和文本序列生成,得到测试结果,并计算测试结果的测试损失值,判断该测试损失值是否大于预设阈值,若是,则对优化无监督生成模型进行迭代优化,得到目标无监督生成模型,若否,则将优化无监督生成模型确定为目标无监督生成模型。
通过直接根据待处理的关系分类数据集中的文本句子和两个实体,生成一个文本序列,该文本序列包括实体关系字段,其中,该实体关系字段极大概率不存在输入的文本(即待处理的关系分类数据集中的文本句子)中,解决了现有的开放关系抽取难以处理不定类型关系的问题。
206、获取待处理文本,并对待处理文本进行分词和词配对处理,得到预处理文本。
服务器通过接收预置的显示界面或终端发送的待处理文本,通过预置的开源库Jieba,对待处理文本进行分词处理,得到分词列表,按分词列表的顺序从分词列表中将词两两取出,以实现词配对处理,得到预处理文本,其中,词配对处理不会明显影响目标无监督生成模型效率,例如:如果有N个词,那么需要配对N(N-1)/2次,平均一个句子里N=5,要配对10次,模型做一次推断时间约为1s,10次推断是10s,这个量级不会明显影响模型效率。
207、通过目标无监督生成模型,对预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,得到目标实体关系信息。
具体地,服务器将预处理文本的数据格式转换为目标无监督生成模型的编码输入格式,得到转换文本,目标无监督生成模型包括编码器和解码器;通过编码器对转换文本进行数据拟合,得到隐层向量;通过解码器,基于预置的贪心算法和隐层向量,从预置的词典中获取对应的目标字词;根据目标字词生成文本序列得到目标实体关系信息。
例如,服务器将预处理文本的数据格式转换为目标无监督生成模型的编码输入格式:[CLS]XXX<entity_head>XXX</entity_head>XXX<entity_tail>
XXX</entity_tail>XXX[SEP]YYY[END],其中[CLS]为分类位,无实际意义;[SEP]为划分位,[SEP]前的内容为推理时的输入内容,[SEP]后的为生成内容;[END]为终止位,表示关系生成结束;<tag>与</tag>围住的部分即实体在句中的提及mention;[SEP]和[END]围住的内容为生成的实体关系;通过目标无监督生成模型中的编码器的嵌入层和多层神经网络,对转换文本进行数据拟合,即将转换文本转换为隐层向量,得到隐层向量,隐层向量包括多个词向量,服务器通过目标无监督生成模型中的解码器,计算隐层向量中每两个词向量之间的联合概率,并通过预置的贪心算法根据该联合概率,从预置的词典里中选择对应的目标字词,将目标字词按照词向量的序列顺序生成文本序列,从而得到目标实体关系信息,即从主干模型附带的预置的词典表中选择最符合(即目标无监督生成模型预测的最大概率值(联合概率的最大值)对应的位置)的字符接在待处理文本后,以实现对待处理文本的实体关系的抽取、预测和重新生成序列。
本发明实施例中,通过对待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,通过预先训练好的主干模型构建初始无监督生成模型,以及通过目标无监督生成模型,对预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,解决了标注成本高、计算效率低、无法处理重叠样本以及存在拓展到开放问题时涉及计算一个行列数均为输入句长度的大矩阵的问题,从而解决了现有的开放关系抽取难以处理不定类型关系的问题。
上面对本发明实施例中开放式实体关系的抽取方法进行了描述,下面对本发明实施例中开放式实体关系的抽取装置进行描述,请参阅图3,本发明实施例中开放式实体关系的抽取装置一个实施例包括:
第一预处理模块301,用于获取待处理的关系分类数据集,对待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,得到待处理数据集;
训练优化模块302,用于通过预先训练好的主干模型构建初始无监督生成模型,并通过待处理数据集,对初始无监督生成模型进行训练和优化,得到目标无监督生成模型;
第二预处理模块303,用于获取待处理文本,并对待处理文本进行分词和词配对处理,得到预处理文本;
抽取模块304,用于通过目标无监督生成模型,对预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,得到目标实体关系信息。
上述开放式实体关系的抽取装置中各个模块的功能实现与上述开放式实体关系的抽取方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明实施例中,通过对待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,通过预先训练好的主干模型构建初始无监督生成模型,以及通过目标无监督生成模型,对预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,解决了标注成本高、计算效率低、无法处理重叠样本以及存在拓展到开放问题时涉及计算一个行列数均为输入句长度的大矩阵的问题,从而解决了现有的开放关系抽取难以处理不定类型关系的问题。
请参阅图4,本发明实施例中开放式实体关系的抽取装置的另一个实施例包括:
第一预处理模块301,用于获取待处理的关系分类数据集,对待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,得到待处理数据集;
其中,第一预处理模块301具体包括:
创建获取单元3011,用于创建同义词词典,并获取待处理的关系分类数据集,以及同义词词典中待处理的关系分类数据集对应的目标同义词;
替换单元3012,用于通过目标同义词,对待处理的关系分类数据集进行同义词替换,得到增强数据集;
过滤单元3013,用于按照预设实体字段长度和预设句长度,对增强数据集进行过滤,得到过滤数据集;
处理单元3014,用于获取过滤数据集的关系三元组集,通过预置的正则表达式,对关系三元组集进行对齐处理和去重处理,得到待处理数据集;
训练优化模块302,用于通过预先训练好的主干模型构建初始无监督生成模型,并通过待处理数据集,对初始无监督生成模型进行训练和优化,得到目标无监督生成模型;
第二预处理模块303,用于获取待处理文本,并对待处理文本进行分词和词配对处理,得到预处理文本;
抽取模块304,用于通过目标无监督生成模型,对预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,得到目标实体关系信息。
可选的,创建获取单元3011还可以具体用于:
获取经过去重融合处理的目标字词数据,根据配置的同义词定义信息,对目标字词数据进行字符串生成,得到同义词词典;
获取待处理的关系分类数据集,以及待处理的关系分类数据集的实体和实体关系;
对待处理的关系分类数据集进行词性标注,并从实体和实体关系中随机选取目标实体和目标实体关系;
根据目标实体和目标实体关系遍历同义词词典,得到对应的目标同义词。
可选的,过滤单元3013还可以具体用于:
基于预设实体字段长度,对增强数据集进行分类,得到第一数据集和第二数据集,第一数据集用于指示符合预设实体字段长度,第二数据集用于指示不符合预设实体字段长度;
根据预设句长度,对第一数据集和第二数据集进行分类,得到目标数据集和非目标数据集,目标数据集用于指示符合预设句长度,非目标数据集用于指示不符合预设句长度;
对非目标数据集中的语句进行空缺符填充和遮罩处理,得到填充数据;
将填充数据和目标数据集确定为过滤数据集。
可选的,处理单元3014还可以具体用于:
提取过滤数据集中的初始关系三元组集,以及初始关系三元组集对应的初始关系短语集;
根据初始关系短语集,对初始关系三元组集进行对齐分析,得到多个待处理关系三元组以及多个目标关系三元组,多个待处理关系三元组用于指示多个待处理关系三元组为同一个三元组,多个目标关系三元组用于指示多个目标关系三元组不为同一个三元组;
将多个待处理关系三元组进行融合,得到多个融合关系三元组,并将多个融合关系三元组和多个目标关系三元组确定为待处理数据集。
可选的,抽取模块304还可以具体用于:
将预处理文本的数据格式转换为目标无监督生成模型的编码输入格式,得到转换文本,目标无监督生成模型包括编码器和解码器;
通过编码器对转换文本进行数据拟合,得到隐层向量;
通过解码器,基于预置的贪心算法和隐层向量,从预置的词典中获取对应的目标字词;
根据目标字词生成文本序列得到目标实体关系信息。
可选的,训练优化模块302还可以具体用于:
通过预先训练好的主干模型构建初始无监督生成模型,并将待处理数据集划分为训练数据集、验证数据集和测试数据集;
通过训练数据集,对初始无监督生成模型进行训练,得到候选无监督生成模型;
通过候选无监督生成模型,对验证数据集进行隐层向量转换、实体关系预测和文本序列生成,得到验证结果;
通过预置的损失函数计算验证结果的验证损失值,根据验证损失值,对候选无监督生成模型进行优化,得到优化无监督生成模型;
通过测试数据集,对优化无监督生成模型进行测试,得到测试结果,并计算测试结果的测试损失值,根据测试损失值确定目标无监督生成模型。
上述开放式实体关系的抽取装置中各模块和各单元的功能实现与上述开放式实体关系的抽取方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明实施例中,通过对待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,通过预先训练好的主干模型构建初始无监督生成模型,以及通过目标无监督生成模型,对预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,解决了标注成本高、计算效率低、无法处理重叠样本以及存在拓展到开放问题时涉及计算一个行列数均为输入句长度的大矩阵的问题,从而解决了现有的开放关系抽取难以处理不定类型关系的问题。
上面图3和图4从模块化功能实体的角度对本发明实施例中的开放式实体关系的抽取装置进行详细描述,下面从硬件处理的角度对本发明实施例中开放式实体关系的抽取设备进行详细描述。
图5是本发明实施例提供的一种开放式实体关系的抽取设备的结构示意图,该开放式实体关系的抽取设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对开放式实体关系的抽取设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在开放式实体关系的抽取设备500上执行存储介质530中的一系列指令操作。
开放式实体关系的抽取设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的开放式实体关系的抽取设备结构并不构成对开放式实体关系的抽取设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行开放式实体关系的抽取方法的步骤。
进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory, ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种开放式实体关系的抽取方法,其特征在于,所述开放式实体关系的抽取方法包括:
获取待处理的关系分类数据集,对所述待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,得到待处理数据集;
通过预先训练好的主干模型构建初始无监督生成模型,并通过所述待处理数据集,对所述初始无监督生成模型进行训练和优化,得到目标无监督生成模型;
获取待处理文本,并对所述待处理文本进行分词和词配对处理,得到预处理文本;
通过所述目标无监督生成模型,对所述预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,得到目标实体关系信息。
2.根据权利要求1所述的开放式实体关系的抽取方法,其特征在于,所述获取待处理的关系分类数据集,对所述待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,得到待处理数据集,包括:
创建同义词词典,并获取待处理的关系分类数据集,以及所述同义词词典中所述待处理的关系分类数据集对应的目标同义词;
通过所述目标同义词,对所述待处理的关系分类数据集进行同义词替换,得到增强数据集;
按照预设实体字段长度和预设句长度,对所述增强数据集进行过滤,得到过滤数据集;
获取所述过滤数据集的关系三元组集,通过预置的正则表达式,对所述关系三元组集进行对齐处理和去重处理,得到待处理数据集。
3.根据权利要求2所述的开放式实体关系的抽取方法,其特征在于,所述创建同义词词典,并获取待处理的关系分类数据集,以及所述同义词词典中所述待处理的关系分类数据集对应的目标同义词,包括:
获取经过去重融合处理的目标字词数据,根据配置的同义词定义信息,对所述目标字词数据进行字符串生成,得到同义词词典;
获取待处理的关系分类数据集,以及所述待处理的关系分类数据集的实体和实体关系;
对所述待处理的关系分类数据集进行词性标注,并从所述实体和所述实体关系中随机选取目标实体和目标实体关系;
根据所述目标实体和所述目标实体关系遍历所述同义词词典,得到对应的目标同义词。
4.根据权利要求2所述的开放式实体关系的抽取方法,其特征在于,所述按照预设实体字段长度和预设句长度,对所述增强数据集进行过滤,得到过滤数据集,包括:
基于预设实体字段长度,对所述增强数据集进行分类,得到第一数据集和第二数据集,所述第一数据集用于指示符合所述预设实体字段长度,所述第二数据集用于指示不符合所述预设实体字段长度;
根据预设句长度,对所述第一数据集和所述第二数据集进行分类,得到目标数据集和非目标数据集,所述目标数据集用于指示符合所述预设句长度,所述非目标数据集用于指示不符合所述预设句长度;
对所述非目标数据集中的语句进行空缺符填充和遮罩处理,得到填充数据;
将所述填充数据和所述目标数据集确定为过滤数据集。
5.根据权利要求2所述的开放式实体关系的抽取方法,其特征在于,所述获取所述过滤数据集的关系三元组集,通过预置的正则表达式,对所述关系三元组集进行对齐处理和去重处理,得到待处理数据集,包括:
提取所述过滤数据集中的初始关系三元组集,以及所述初始关系三元组集对应的初始关系短语集;
根据所述初始关系短语集,对所述初始关系三元组集进行对齐分析,得到多个待处理关系三元组以及多个目标关系三元组,所述多个待处理关系三元组用于指示多个待处理关系三元组为同一个三元组,所述多个目标关系三元组用于指示多个目标关系三元组不为同一个三元组;
将所述多个待处理关系三元组进行融合,得到多个融合关系三元组,并将所述多个融合关系三元组和所述多个目标关系三元组确定为待处理数据集。
6.根据权利要求1所述的开放式实体关系的抽取方法,其特征在于,所述通过所述目标无监督生成模型,对所述预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,得到目标实体关系信息,包括:
将所述预处理文本的数据格式转换为所述目标无监督生成模型的编码输入格式,得到转换文本,所述目标无监督生成模型包括编码器和解码器;
通过所述编码器对所述转换文本进行数据拟合,得到隐层向量;
通过所述解码器,基于预置的贪心算法和所述隐层向量,从预置的词典中获取对应的目标字词;
根据所述目标字词生成文本序列得到目标实体关系信息。
7.根据权利要求1-6中任一项所述的开放式实体关系的抽取方法,其特征在于,所述通过预先训练好的主干模型构建初始无监督生成模型,并通过所述待处理数据集,对所述初始无监督生成模型进行训练和优化,得到目标无监督生成模型,包括:
通过预先训练好的主干模型构建初始无监督生成模型,并将所述待处理数据集划分为训练数据集、验证数据集和测试数据集;
通过所述训练数据集,对所述初始无监督生成模型进行训练,得到候选无监督生成模型;
通过所述候选无监督生成模型,对所述验证数据集进行隐层向量转换、实体关系预测和文本序列生成,得到验证结果;
通过预置的损失函数计算所述验证结果的验证损失值,根据所述验证损失值,对所述候选无监督生成模型进行优化,得到优化无监督生成模型;
通过所述测试数据集,对所述优化无监督生成模型进行测试,得到测试结果,并计算所述测试结果的测试损失值,根据所述测试损失值确定目标无监督生成模型。
8.一种开放式实体关系的抽取装置,其特征在于,所述开放式实体关系的抽取装置包括:
第一预处理模块,用于获取待处理的关系分类数据集,对所述待处理的关系分类数据集的实体关系、字段长度和关系三元组进行预处理,得到待处理数据集;
训练优化模块,用于通过预先训练好的主干模型构建初始无监督生成模型,并通过所述待处理数据集,对所述初始无监督生成模型进行训练和优化,得到目标无监督生成模型;
第二预处理模块,用于获取待处理文本,并对所述待处理文本进行分词和词配对处理,得到预处理文本;
抽取模块,用于通过所述目标无监督生成模型,对所述预处理文本进行数据格式转换、隐层向量转换、实体关系预测和文本序列生成,得到目标实体关系信息。
9.一种开放式实体关系的抽取设备,其特征在于,所述开放式实体关系的抽取设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述开放式实体关系的抽取设备执行如权利要求1-7中任意一项所述的开放式实体关系的抽取方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述开放式实体关系的抽取方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110322883.8A CN113011189A (zh) | 2021-03-26 | 2021-03-26 | 开放式实体关系的抽取方法、装置、设备及存储介质 |
PCT/CN2021/109168 WO2022198868A1 (zh) | 2021-03-26 | 2021-07-29 | 开放式实体关系的抽取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110322883.8A CN113011189A (zh) | 2021-03-26 | 2021-03-26 | 开放式实体关系的抽取方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113011189A true CN113011189A (zh) | 2021-06-22 |
Family
ID=76407421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110322883.8A Pending CN113011189A (zh) | 2021-03-26 | 2021-03-26 | 开放式实体关系的抽取方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113011189A (zh) |
WO (1) | WO2022198868A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627172A (zh) * | 2021-07-26 | 2021-11-09 | 重庆邮电大学 | 基于多粒度特征融合和不确定去噪的实体识别方法及系统 |
CN113743095A (zh) * | 2021-07-19 | 2021-12-03 | 西安理工大学 | 基于词格和相对位置嵌入的中文问题生成统一预训练方法 |
CN113836316A (zh) * | 2021-09-23 | 2021-12-24 | 北京百度网讯科技有限公司 | 三元组数据的处理方法、训练方法、装置、设备及介质 |
CN114528418A (zh) * | 2022-04-24 | 2022-05-24 | 杭州同花顺数据开发有限公司 | 一种文本处理方法、系统和存储介质 |
CN114970536A (zh) * | 2022-06-22 | 2022-08-30 | 昆明理工大学 | 一种分词、词性标注和命名实体识别的联合词法分析方法 |
CN115048925A (zh) * | 2022-08-15 | 2022-09-13 | 中科雨辰科技有限公司 | 一种确定异常文本的数据处理系统 |
WO2022198868A1 (zh) * | 2021-03-26 | 2022-09-29 | 深圳壹账通智能科技有限公司 | 开放式实体关系的抽取方法、装置、设备及存储介质 |
CN115150354A (zh) * | 2022-06-29 | 2022-10-04 | 北京天融信网络安全技术有限公司 | 一种生成域名的方法、装置、存储介质及电子设备 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115629928B (zh) * | 2022-12-22 | 2023-04-07 | 中国人民解放军国防科技大学 | 一种面向类脑处理器的软硬协同验证方法及系统 |
CN115840742B (zh) * | 2023-02-13 | 2023-05-12 | 每日互动股份有限公司 | 一种数据清洗方法、装置、设备及介质 |
CN116029294B (zh) * | 2023-03-30 | 2023-06-09 | 华南师范大学 | 词项配对方法、装置及设备 |
CN116775801A (zh) * | 2023-06-26 | 2023-09-19 | 中山大学 | 一种面向中文医学文本的实体关系抽取方法及系统 |
CN116737870B (zh) * | 2023-08-09 | 2023-10-27 | 北京国电通网络技术有限公司 | 上报信息存储方法、装置、电子设备和计算机可读介质 |
CN117290510B (zh) * | 2023-11-27 | 2024-01-30 | 浙江太美医疗科技股份有限公司 | 文档信息抽取方法、模型、电子设备及可读介质 |
CN117435928B (zh) * | 2023-12-20 | 2024-06-18 | 粤港澳大湾区数字经济研究院(福田) | 实体关系抽取模型的训练方法、实体关系抽取方法及设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140032209A1 (en) * | 2012-07-27 | 2014-01-30 | University Of Washington Through Its Center For Commercialization | Open information extraction |
CN107291687A (zh) * | 2017-04-27 | 2017-10-24 | 同济大学 | 一种基于依存语义的中文无监督开放式实体关系抽取方法 |
CN108959418A (zh) * | 2018-06-06 | 2018-12-07 | 中国人民解放军国防科技大学 | 一种人物关系抽取方法、装置、计算机装置及计算机可读存储介质 |
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和系统 |
CN110597998A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种结合句法分析的军事想定实体关系抽取方法及装置 |
CN111831829A (zh) * | 2020-06-12 | 2020-10-27 | 广州多益网络股份有限公司 | 一种面向开放域的实体关系抽取方法、装置及终端设备 |
CN112069818A (zh) * | 2020-08-06 | 2020-12-11 | 北京捷通华声科技股份有限公司 | 三元组预测模型生成方法、关系三元组提取方法和装置 |
WO2021051871A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 文本抽取方法、装置、设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10360507B2 (en) * | 2016-09-22 | 2019-07-23 | nference, inc. | Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities |
CN111324743A (zh) * | 2020-02-14 | 2020-06-23 | 平安科技(深圳)有限公司 | 文本关系抽取的方法、装置、计算机设备及存储介质 |
CN112069319B (zh) * | 2020-09-10 | 2024-03-22 | 杭州中奥科技有限公司 | 文本抽取方法、装置、计算机设备和可读存储介质 |
CN112527981B (zh) * | 2020-11-20 | 2022-11-11 | 清华大学 | 开放式信息抽取方法、装置、电子设备及存储介质 |
CN112487206B (zh) * | 2020-12-09 | 2022-09-20 | 中国电子科技集团公司第三十研究所 | 一种自动构建数据集的实体关系抽取方法 |
CN113011189A (zh) * | 2021-03-26 | 2021-06-22 | 深圳壹账通智能科技有限公司 | 开放式实体关系的抽取方法、装置、设备及存储介质 |
-
2021
- 2021-03-26 CN CN202110322883.8A patent/CN113011189A/zh active Pending
- 2021-07-29 WO PCT/CN2021/109168 patent/WO2022198868A1/zh unknown
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140032209A1 (en) * | 2012-07-27 | 2014-01-30 | University Of Washington Through Its Center For Commercialization | Open information extraction |
CN107291687A (zh) * | 2017-04-27 | 2017-10-24 | 同济大学 | 一种基于依存语义的中文无监督开放式实体关系抽取方法 |
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和系统 |
CN108959418A (zh) * | 2018-06-06 | 2018-12-07 | 中国人民解放军国防科技大学 | 一种人物关系抽取方法、装置、计算机装置及计算机可读存储介质 |
CN110597998A (zh) * | 2019-07-19 | 2019-12-20 | 中国人民解放军国防科技大学 | 一种结合句法分析的军事想定实体关系抽取方法及装置 |
WO2021051871A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 文本抽取方法、装置、设备及存储介质 |
CN111831829A (zh) * | 2020-06-12 | 2020-10-27 | 广州多益网络股份有限公司 | 一种面向开放域的实体关系抽取方法、装置及终端设备 |
CN112069818A (zh) * | 2020-08-06 | 2020-12-11 | 北京捷通华声科技股份有限公司 | 三元组预测模型生成方法、关系三元组提取方法和装置 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022198868A1 (zh) * | 2021-03-26 | 2022-09-29 | 深圳壹账通智能科技有限公司 | 开放式实体关系的抽取方法、装置、设备及存储介质 |
CN113743095A (zh) * | 2021-07-19 | 2021-12-03 | 西安理工大学 | 基于词格和相对位置嵌入的中文问题生成统一预训练方法 |
CN113627172A (zh) * | 2021-07-26 | 2021-11-09 | 重庆邮电大学 | 基于多粒度特征融合和不确定去噪的实体识别方法及系统 |
CN113836316A (zh) * | 2021-09-23 | 2021-12-24 | 北京百度网讯科技有限公司 | 三元组数据的处理方法、训练方法、装置、设备及介质 |
CN113836316B (zh) * | 2021-09-23 | 2023-01-03 | 北京百度网讯科技有限公司 | 三元组数据的处理方法、训练方法、装置、设备及介质 |
CN114528418A (zh) * | 2022-04-24 | 2022-05-24 | 杭州同花顺数据开发有限公司 | 一种文本处理方法、系统和存储介质 |
CN114528418B (zh) * | 2022-04-24 | 2022-10-14 | 杭州同花顺数据开发有限公司 | 一种文本处理方法、系统和存储介质 |
CN114970536A (zh) * | 2022-06-22 | 2022-08-30 | 昆明理工大学 | 一种分词、词性标注和命名实体识别的联合词法分析方法 |
CN115150354A (zh) * | 2022-06-29 | 2022-10-04 | 北京天融信网络安全技术有限公司 | 一种生成域名的方法、装置、存储介质及电子设备 |
CN115150354B (zh) * | 2022-06-29 | 2023-11-10 | 北京天融信网络安全技术有限公司 | 一种生成域名的方法、装置、存储介质及电子设备 |
CN115048925A (zh) * | 2022-08-15 | 2022-09-13 | 中科雨辰科技有限公司 | 一种确定异常文本的数据处理系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2022198868A1 (zh) | 2022-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113011189A (zh) | 开放式实体关系的抽取方法、装置、设备及存储介质 | |
US11501182B2 (en) | Method and apparatus for generating model | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN110895559B (zh) | 模型训练、文本处理方法、装置以及设备 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN111985228B (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN111813923A (zh) | 文本摘要方法、电子设备及存储介质 | |
CN116258137A (zh) | 文本纠错方法、装置、设备和存储介质 | |
CN113343692B (zh) | 搜索意图的识别方法、模型训练方法、装置、介质及设备 | |
CN116186562B (zh) | 基于编码器的长文本匹配方法 | |
CN111460114A (zh) | 检索方法、装置、设备及计算机可读存储介质 | |
CN114611529B (zh) | 意图识别方法和装置、电子设备及存储介质 | |
Nambiar et al. | Attention based abstractive summarization of malayalam document | |
CN113312903B (zh) | 一种5g移动业务产品词库的构建方法及系统 | |
Jing et al. | Chinese text sentiment analysis based on transformer model | |
CN114328894A (zh) | 文档处理方法、装置、电子设备及介质 | |
CN114398905A (zh) | 一种面向群智的问题及解决方案自动提取方法及相应存储介质与电子装置 | |
CN114444467A (zh) | 一种中医文献内容分析方法和装置 | |
CN113836892A (zh) | 样本量数据提取方法、装置、电子设备及存储介质 | |
CN112256838B (zh) | 相似域名查找方法、装置及电子设备 | |
CN113449510B (zh) | 文本识别方法、装置、设备及存储介质 | |
CN115146630B (zh) | 基于专业领域知识的分词方法、装置、设备及存储介质 | |
CN117216287A (zh) | 实体链接方法、系统、电子设备和存储介质 | |
CN112256838A (zh) | 相似域名查找方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40046366 Country of ref document: HK |