CN114881034A - 关系数据增强方法、装置、设备及存储介质 - Google Patents
关系数据增强方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114881034A CN114881034A CN202210516062.2A CN202210516062A CN114881034A CN 114881034 A CN114881034 A CN 114881034A CN 202210516062 A CN202210516062 A CN 202210516062A CN 114881034 A CN114881034 A CN 114881034A
- Authority
- CN
- China
- Prior art keywords
- data
- initial
- entity
- model
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及人工智能技术领域,公开了一种关系数据增强方法、装置、设备及存储介质,方法包括:获取起始数据集;利用起始数据集对语言表征模型进行有监督训练,得到实体关系识别模型;利用实体关系识别模型从起始数据中筛选关键词,并获取与关键词对应的同义词;拷贝起始数据以得到起始副本数据,并利用同义词替换起始副本数据中的关键词,得到起始数据对应的第一增强数据集;合并起始数据集以及第一增强数据集,得到第二增强数据集;从第二增强数据集中筛选具有相同实体关系的关系数据对,并利用关系数据对对生成式预训练语言模型进行训练,得到数据增强模型;利用数据增强模型对第二增强数据集进行数据增强,得到目标数据集。
Description
技术领域
本申请涉及人工智能的技术领域,尤其涉及一种关系数据增强方法、装置、设备及存储介质。
背景技术
目前,关系抽取模型的有监督训练需要使用大量的标注关系数据,而现有技术中,通常通过人工标注的方式来获取标注关系数据。但是,通过人工标注的方式来获取标注关系数据,标注人员需要对被标注的数据掌握所在的领域知识有一定的了解,另外,这种方式的阅读成本高,数据生成效率十分低下。
发明内容
本申请的主要目的在于提供一种关系数据增强方法、装置、设备及存储介质,旨在解决现有技术中通过人工标注的方式获取标注关系数据效率低下的问题。
第一方面,本申请提供一种关系数据增强方法,包括:
获取起始数据集,其中,所述起始数据集中的每一个起始数据都标注有第一实体信息以及与所述第一实体信息关联的第二实体信息,且所述起始数据还标注有所述第一实体信息与所述第二实体信息之间的实体关系;
利用所述起始数据集对语言表征模型进行有监督训练,得到实体关系识别模型;
利用所述实体关系识别模型从所述起始数据中筛选得到关键词,并获取与所述关键词对应的同义词;
拷贝所述起始数据以得到起始副本数据,并利用所述同义词替换所述起始副本数据中的关键词,得到第一增强数据集;
将所述起始数据集和所述第一增强数据集进行合并处理,得到第二增强数据集;
从所述第二增强数据集中筛选具有相同实体关系的关系数据对,并利用所述关系数据对对预设的生成式预训练语言模型进行训练,得到数据增强模型;
利用所述数据增强模型对所述第二增强数据集进行数据增强,得到目标数据集。
第二方面,本申请还提供一种关系数据增强装置,所述关系数据增强装置包括:
数据获取模块,用于获取起始数据集,其中,所述起始数据集中的每一个起始数据都标注有第一实体信息以及与所述第一实体信息关联的第二实体信息,且所述起始数据还标注有所述第一实体信息与所述第二实体信息之间的实体关系;
第一模型训练模块,用于利用所述起始数据集对语言表征模型进行有监督训练,得到实体关系识别模型;
关键词识别模块,用于利用所述实体关系识别模型从所述起始数据中筛选得到关键词,并获取与所述关键词对应的同义词;
同义词替换模块,用于拷贝所述起始数据以得到起始副本数据,并利用所述同义词替换所述起始副本数据中的关键词,得到第一增强数据集;
第一增强模块,用于将所述起始数据集和所述第一增强数据集进行合并处理,得到第二增强数据集;
第二模型训练模块,用于从所述第二增强数据集中筛选具有相同实体关系的关系数据对,并利用所述关系数据对对预设的生成式预训练语言模型进行训练,得到数据增强模型;
第二增强模块,用于利用所述数据增强模型对所述第二增强数据集进行数据增强,得到目标数据集。
第三方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上所述的关系数据增强方法的步骤。
第四方面,本申请还提供一种存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上所述的关系数据增强方法的步骤。
本申请提供一种关系数据增强方法、装置、设备及存储介质,本申请中,利用有限的带有标注信息的关系型数据组成的起始数据集来训练模型,再利用训练出来的模型来对起始数据集进行数据增强,所得到目标数据集的数据量远远大于起始数据集,并且目标数据集中的数据同为有标注信息的关系型数据。利用本申请所提供的技术方案,与传统的通过人工标注的方式来获取带有标注信息的关系型数据相比,大大提高了数据的生成效率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种关系数据增强方法的步骤流程示意图;
图2为本申请实施例提供的一种关系数据增强装置的示意性框图;
图3为本申请实施例提供的一种计算机设备的结构示意性框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。另外,虽然在装置示意图中进行了功能模块的划分,但是在某些情况下,可以以不同于装置示意图中的模块划分。
本申请实施例提供一种关系数据增强方法、装置、设备及存储介质。其中,该方法可应用于终端设备或服务器中,该终端设备可以为手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备;该服务器可以为单台的服务器,也可以为由多台服务器组成的服务器集群。以下以该方法应用于服务器为例进行解释说明。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本申请实施例提供的一种关系数据增强方法的步骤流程示意图。
如图1所示,该关系数据增强方法包括步骤S10至步骤S16。
步骤S10、获取起始数据集,其中,所述起始数据集中的每一个起始数据都标注有第一实体信息以及与所述第一实体信息关联的第二实体信息,且所述起始数据还标注有所述第一实体信息与所述第二实体信息之间的实体关系。
在一些实施方式中,当该方法的执行主体为服务器时,可以通过向服务器发送网络请求,以使服务器根据该网络请求获取起始数据集,当然,服务器也可以通过其他方式获取起始数据集,在此不做限制;当该方法的执行主体为终端设备时,可以通过向终端设备发送操作指令,以使终端设备根据该操作指令获取起始数据集,当然,终端设备也可以通过其他方式获取起始数据集,在此不做限制。
可以理解,起始数据集中包括多个起始数据,并且,每一个起始数据都是带有标注信息的关系型数据。具体的,每一个起始数据中都标注用于表征第一实体身份的第一实体信息,以及用于表征第二实体身份的第二实体信息,另外,起始数据还标注有实体关系,实体关系用于表征第一实体身份与第二实体身份之间的关联类型。
可以理解,不同的第一实体信息与第二实体信息对应的实体关系有可能相同,也有可能不同。
示例性的,假设起始数据集如下表一所示。
表一、
步骤S11、利用所述起始数据集对语言表征模型进行有监督训练,得到实体关系识别模型。
可以理解,起始数据集中的每一个起始数据都标注有对应的第一实体信息、第二实体信息以及第一实体信息与第二实体信息之间的实体关系。语言表征模型利用起始数据集进行有监督训练后得到实体关系识别模型。利用实体关系识别模型可以获取输入数据与各种实体关系的匹配度,从而推断输入数据中的两个实体信息归属于哪一种实体关系。
示例性的,假设起始数据集中仅包括实体关系为“第一关系”以及“第二关系”的起始数据,利用该数据集对语言表征模型进行有监督训练得到实体关系识别模型后,假设对实体关系识别模型输入一数据后,得到该数据对应“第一关系”的匹配度为80%,而对应“第二关系”的匹配度为10%,则可以确定该数据中的两个实体信息之间的实体关系为“第一关系”。
在一些实施方式中,语言表征模型可以为神经网络模型,也可以为BERT(Bidirectional Encoder Representation from Transformers)模型,还可以为其他模型,在此不做限制。
在一些实施方式中,所述利用所述起始数据集对语言表征模型进行有监督训练,得到实体关系识别模型,包括:
将所述起始数据作为第一训练数据;
通过所述语言表征模型的池化层对所述第一训练数据的第一实体信息进行池化处理,得到第一信息,并利用所述池化层对所述第一训练数据的第二实体信息进行池化处理,得到第二信息;
将所述第一训练数据的第一实体信息替换为所述第一信息,并将所述起始数据的第二实体信息替换为所述第二信息,得到第二训练数据;
将所述第二训练数据传输给所述语言表征模型的全连接层进行关系分类训练,直到所述语言表征模型符合预设条件时,确定所述语言表征模型为实体关系识别模型。
可以理解,第一训练数据中的第一实体信息以及第二实体信息可能为包括单个字符信息,也可能为包括多个字符信息。对第一实体信息以及第二实体信息进行池化处理,可以对第一实体信息以及第二实体信息进行压缩以简化网络复杂度、减小计算量。
将第二训练数据输入语言表征模型的全连接层,以对语言表征模型进行训练的过程中,可以不断的优化交叉熵损失。在一些实施方式中,当优化交叉熵损失收敛到一定条件时,语言表征模型符合预设条件,此时,语言表征模型训练完成,确定语言表征模型为实体关系识别模型。另外,预设条件还可以根据情况需要限定为其他条件,在此不做限制。
步骤S12、利用所述实体关系识别模型从所述起始数据中筛选得到关键词,并获取与所述关键词对应的同义词。
可以理解,利用实体关系识别模型可以识别起始数据中的第一实体信息以及第二实体信息对应实体关系的匹配度,从而推断输入数据中的两个实体信息之间的实体关系。
因此,可以利用预设的字符串逐个替换起始数据中除第一实体信息以及第二实体信息之外的词语,再将替换后的起始数据输入实体关系识别模型以查看匹配度。可以理解,被替换的词语所造成的匹配度降低的越多,该词语为关键词的概率越高。另外,筛选出来的关键词的数量可以根据需要设置为一个或者多个,在此不做限制。识别出各个起始数据的关键词后,即可根据关键词对应的语义匹配对应的同义词。
在一些实施方式中,所述利用所述实体关系识别模型从所述起始数据中筛选得到关键词,包括:
获取与所述起始数据对应的目标实体关系;
对所述起始数据进行分词处理,得到除第一实体信息以及第二实体信息以外的若干个目标分词信息;
拷贝所述起始数据以得到替换副本数据,利用预设的第一字符对所述替换副本数据中的所述目标分词信息进行替换处理,得到若干个替换结果;
利用所述实体关系识别模型获取各个所述替换结果与所述目标实体关系的匹配度;
选取所述匹配度满足预设匹配条件的所述目标分词信息作为关键词。
可以理解,每个起始数据还标注有第一实体信息与第二实体信息之间的实体关系,也即目标实体关系。
在一些实施方式中,可以采用NER(Named Entity Recognition,命名实体识别)技术来对起始数据进行分词处理,也可以通过其他方式对起始数据进行分词处理,在此不做限制。滤除掉分词处理结果中的第一实体信息以及第二实体信息后,即得到目标分词信息。
可以理解,所得到的目标分词信息可以为一个或者多个,对起始数据进行拷贝,得到等同于目标分词的数量的替换副本数据。再利用预设的第一字符逐个对替换副本数据中的目标分词信息进行替换后,所得到的替换结果的数量与目标分词信息的数量相同。
利用实体关系识别模型可以获取各个替换结果与目标实体关系的匹配度。可以理解,匹配度越低,说明这个被替换的目标分词信息对起始数据的影响越大,也即这个目标分词信息在起始数据中越关键。
在一些实施方式中,预设匹配条件可以从各个替换结果中筛选匹配度小于预设匹配值的替换结果作为目标替换结果,并确定目标替换结果对应的目标分词信息作为关键词,其中,预设匹配值可以设置为10%或者20%,当然,预设匹配值也可以设置为其他值,在此不做限制;另外,预设匹配条件还可以从各个替换结果中筛选匹配度最低的一个、两个或更多的替换结果作为目标替换结果,并确定目标替换结果对应的目标分词信息作为关键词,具体数量可以根据情况需要自行调整,在此不做限制。
示例性的,假设起始数据为“服用C药物可以缓解患者的咳嗽症状”,并且,在这个起始数据中,第一实体信息为“C药物”,第二实体信息为“患者”,目标实体关系为“第二关系”。
假设对起始数据进行分词处理后,所得到的的目标分词信息为:“服用”,“可以”,“缓解”,“的”,“咳嗽”,“症状”。
假设预设的第一字符为“Mask”,对目标分词信息进行替换后,所得到的替换结果与目标实体关系的匹配度如下表二所示。
表二、
被替换目标分词信息 | 替换结果 | 匹配度 |
服用 | MaskC药物可以缓解患者的咳嗽症状 | 40% |
可以 | 服用C药物Mask缓解患者的咳嗽症状 | 60% |
缓解 | 服用C药物可以Mask患者的咳嗽症状 | 30% |
的 | 服用C药物可以缓解患者Mask咳嗽症状 | 80% |
咳嗽 | 服用C药物可以缓解患者的Mask症状 | 20% |
症状 | 服用C药物可以缓解患者的咳嗽Mask | 10% |
假设预设匹配条件为选取两个匹配度最低的替换结果对应的目标分词信息作为关键词,可以理解,当目标分词信息“咳嗽”或者“症状”被替换时,对应的替换结果的匹配度最低,也即目标分词信息“咳嗽”以及“症状”对该起始信息影响最大,此时,选取“咳嗽”以及“症状”作为关键词。
在一些实施方式中,所述对所述起始数据进行分词处理,得到除第一实体信息以及第二实体信息以外的若干个目标分词信息,包括:
利用预训练好的命名实体识别模型获取所述起始数据对应的序列标注信息;
根据所述序列标注信息对所述起始数据进行分词处理,得到分词结果;
移除所述分词结果中的第一实体信息以及第二实体信息,得到目标分词信息。
可以理解,将起始数据输入预训练好的命名实体识别模型后,命名实体识别模型会输出对应起始数据中各个字符的序列标注信息,根据标注信息即可对起始数据进行分词。
示例性的,假设起始数据为“服用C药物可以缓解患者的咳嗽症状”,假设对应起始数据中各个字符的序列标注信息如下表三所示。
表三、
假设B代表词语开头,I代表词语中间,E代表词语结尾,S代表单字。则所得到的分词结果包括:“服用”、“C药物”、“可以”、“缓解”、“患者”、“的”、“咳嗽”以及“症状”。
假设第一实体信息为“C药物”,第二实体信息为“患者”,则移除掉分词结果中的第一实体信息以及所述第二实体信息之外,所得到的目标分词信息为:“服用”,“可以”,“缓解”,“的”,“咳嗽”,“症状”。
在一些实施方式中,所述获取与所述关键词对应的同义词,包括:
通过预训练好的向量获取模型对所述关键词进行编码处理,得到关键词向量,并从预设的词库中获取备选词的备选词向量;
计算所述关键词向量与各个所述备选词向量的余弦相似度,将所述余弦相似度满足预设相似度的备选词向量对应的备选词,作为同义词。
在一些实施方式中,向量获取模型可以为Bert(Bidirectional EncoderRepresentation from Transformers)模型,也可以为word2vec(word vecor(,也叫wordembedding)模型,还可以为其他可以获取关键词对应的词向量的模型,在此不做限制。
关键词向量为可以表征关键词的语义的向量,同理,备选词向量为可以表征备选词的语义的向量。计算关键词向量与词库中各个备选词对应的备选词向量的余弦相似度,即可根据余弦相似度筛选与关键词对应的同义词。
步骤S13、拷贝所述起始数据以得到起始副本数据,并利用所述同义词替换所述起始副本数据中的关键词,得到第一增强数据集。
可以理解,每个起始数据可能存在一个或多个关键词,而每个关键词可能又会存在若干个同义词,利用同义词替换起始副本数据中的关键词后,所得到的第一增强数据集中的每一个数据与起始数据的语义相同,并且,第一增强数据集中的每一个数据与起始数据的标注信息也相同,即,第一增强数据集中的每一个数据所标注的第一实体信息、第二实体信息以及实体关系与起始数据相同。
示例性的,假设起始数据为“服用C药物可以缓解患者的咳嗽症状”,假设“咳嗽”以及“症状”为该起始数据的关键词,并且确定“咳嗽”的同义词为“咳喘”以及“呛咳”,确定“症状”的同义词为“症结”以及“症侯”,则与起始数据对应的第一增强数据集如下表四所示。
表四、
关键词 | 同义词 | 第一增强数据集 |
咳嗽 | 咳喘 | 服用C药物可以缓解患者的咳喘症状 |
咳嗽 | 呛咳 | 服用C药物可以缓解患者的呛咳症状 |
症状 | 症结 | 服用C药物可以缓解患者的咳嗽症结 |
症状 | 症侯 | 服用C药物可以缓解患者的咳嗽症侯 |
步骤S14、将所述起始数据集和所述第一增强数据集进行合并处理,得到第二增强数据集。
可以理解,经过步骤S13,起始数据集中的每一个起始数据都获取到了若干个与之语义相近的数据,并且这些数据都存储在了第一增强数据集,将第一增强数据集中的数据合并到起始数据集中,即得到第二增强数据集。通过步骤S10-S14,所得到的第二增强数据集的数据量远远大于起始数据集,实现了对起始数据集的初步增强。
步骤S15、从所述第二增强数据集中筛选具有相同实体关系的关系数据对,并利用所述关系数据对对预设的生成式预训练语言模型进行训练,得到数据增强模型。
可以理解,生成式预训练语言模型为具有机器学习能力的语言模型,在一些实施方式中,生成式预训练语言模型为经过初步训练的GPT2(Generative Pre-Training 2.0)模型,也可以为其他类型的语言模型,在此不做限制。
每一个关系数据对都包含两个数据,并且,这两个数据中的第一实体信息与第二实体信息的实体关系相同。筛选出关系数据对后,可以从关系数据对中确定其中一个数据作为生成式预训练语言模型的输入数据,并确定另一个数据作为生成式预训练语言模型的输出数据,以对生成式预训练语言模型进行训练。训练得到的数据增强模型,可以根据输入的当前数据预测与当前数据接续的后续数据。
在一些实施方式中,所述用所述关系数据对对预设的生成式预训练语言模型进行训练,包括:
从所述关系数据对中选取其中一个关系数据作为初始输入配置数据,并确定另一个关系数据作为初始输出配置数据;
利用预设的第二字符分别替换所述初始输入配置数据以及所述初始输出配置数据中的第一实体信息,且利用预设的第三字符分别替换所述初始输入配置数据以及所述初始输出配置数据中的第二实体信息,得到目标输入配置数据以及目标输出配置数据;
根据所述目标输入配置数据以及所述目标输出配置数据训练所述生成式预训练语言模型。
可以理解,利用预设的第二字符统一替换初始输入配置数据以及初始输出配置数据中的第一实体信息,且利用第三字符统一替换初始输入配置数据以及初始输出配置数据中的第二实体信息,以将得到的目标输入配置数据设置为生成式预训练语言模型的输入数据,并将得到的目标输出配置数据设置为生成式预训练语言模型的输出数据,对生成式预训练语言模型进行seq2seq(Sequence to Sequence)训练,可以避免输入数据与输出数据的实体信息表述差异对生成式预训练语言模型的训练造成影响。
在一些实施方式中,第二字符可以设置为“ner_head”,第三字符可以设置为“ner_tail”,另外,第二字符以及第三字符还可以根据情况需要设置为其他字符,在此不做限制。
步骤S16、利用所述数据增强模型对所述第二增强数据集进行数据增强,得到目标数据集。
可以理解,数据增强模型可以根据输入的当前数据预测与当前数据接续的后续数据。因此,利用数据增强模型可以根据一条数据生成多条数据。经过步骤S16,实现了对起始数据集的二次增强。
在一些实施方式中,所述利用所述数据增强模型对所述第二增强数据集进行数据增强,得到目标数据集,包括:
从所述第二增强数据集中逐个获取待增强数据,拷贝所述待增强数据以得到待处理数据;
利用所述第二字符替换所述待处理数据中的第一实体信息,且利用所述第三字符替换所述待处理数据中的第二实体信息,得到第一替换结果数据;
将所述第一替换结果数据输入所述数据增强模型,以获取与所述第一替换结果数据语义相近的若干个输出结果数据;
将将所述输出结果数据中的所述第二字符替换为第一实体信息,并将所述输出结果数据中的所述第三字符替换为第二实体信息,得到目标数据;
将各个所述目标数据进行去重处理,得到增强结果数据集;
合并所述第二增强数据集以及所述增强结果数据集,得到目标数据集。
可以理解,如果数据增强模型是利用使用第二字符替换第一实体信息,并使用第三字符替换第二实体信息的训练数据训练得到,则利用数据增强模型进行数据增强时,同样需要利用第二字符以及第三字符对输入数据的第一实体信息以及第二实体信息进行替换处理。
数据增强模型接收到第一替换结果数据时,数据增强模型可以通过beamsearch算法生成若干个与第一替换结果数据语义相近的输出结果数据。将输出结果数据中的第二字符替换为第一实体信息,并将输出结果数据中的第三字符替换为第二实体信息后,根据待增强数据对应的实体关系设置输出结果数据的实体关系,所得到目标数据的标注信息与待增强数据相同。
通过本实施方式所提供的技术方案,每一个待增强数据都可以获得若干个语义相近的目标数据,删除掉重复的目标数据后,剩余的目标数据所构成的集合即为待增强数据对应的增强结果数据集。最终得到的目标数据集为由第二增强数据集中的数据以及各个增强结果数据集中的数据构成的集合。
本申请中,利用有限的带有标注信息的关系型数据组成的起始数据集来训练模型,再利用训练出来的模型来对起始数据集进行数据增强,所得到目标数据集的数据量远远大于起始数据集,并且目标数据集中的数据同为有标注信息的关系型数据。利用本申请所提供的技术方案,与传统的通过人工标注的方式来获取带有标注信息的关系型数据相比,大大提高了数据的生成效率。
请参照图2,图2为本申请实施例提供的一种关系数据增强装置的示意性框图。
如图2所示,该关系数据增强装置201,包括:
数据获取模块2011,用于获取起始数据集,其中,所述起始数据集中的每一个起始数据都标注有第一实体信息以及与所述第一实体信息关联的第二实体信息,且所述起始数据还标注有所述第一实体信息与所述第二实体信息之间的实体关系;
第一模型训练模块2012,用于利用所述起始数据集对语言表征模型进行有监督训练,得到实体关系识别模型;
关键词识别模块2013,用于利用所述实体关系识别模型从所述起始数据中筛选得到关键词,并获取与所述关键词对应的同义词;
同义词替换模块2014,用于拷贝所述起始数据以得到起始副本数据,并利用所述同义词替换所述起始副本数据中的关键词,得到第一增强数据集;
第一增强模块2015,用于将所述起始数据集和所述第一增强数据集进行合并处理,得到第二增强数据集;
第二模型训练模块2016,用于从所述第二增强数据集中筛选具有相同实体关系的关系数据对,并利用所述关系数据对对预设的生成式预训练语言模型进行训练,得到数据增强模型;
第二增强模块2017,用于利用所述数据增强模型对所述第二增强数据集进行数据增强,得到目标数据集。
在一些实施方式中,所述第一模型训练模块2012在利用所述起始数据集对语言表征模型进行有监督训练,得到实体关系识别模型时,包括:
将所述起始数据作为第一训练数据;
通过所述语言表征模型的池化层对所述第一训练数据的第一实体信息进行池化处理,得到第一信息,并利用所述池化层对所述第一训练数据的第二实体信息进行池化处理,得到第二信息;
将所述第一训练数据的第一实体信息替换为所述第一信息,并将所述起始数据的第二实体信息替换为所述第二信息,得到第二训练数据;
将所述第二训练数据传输给所述语言表征模型的全连接层进行关系分类训练,直到所述语言表征模型符合预设条件时,确定所述语言表征模型为实体关系识别模型。
在一些实施方式中,所述关键词识别模块2013在利用所述实体关系识别模型从所述起始数据中筛选得到关键词时,包括:
获取与所述起始数据对应的目标实体关系;
对所述起始数据进行分词处理,得到除第一实体信息以及第二实体信息以外的若干个目标分词信息;
拷贝所述起始数据以得到替换副本数据,利用预设的第一字符对所述替换副本数据中的所述目标分词信息进行替换处理,得到若干个替换结果;
利用所述实体关系识别模型获取各个所述替换结果与所述目标实体关系的匹配度;
选取所述匹配度满足预设匹配条件的所述目标分词信息作为关键词。
在一些实施方式中,所述关键词识别模块2013在对所述起始数据进行分词处理,得到除第一实体信息以及第二实体信息以外的若干个目标分词信息时,包括:
利用预训练好的命名实体识别模型获取所述起始数据对应的序列标注信息;
根据所述序列标注信息对所述起始数据进行分词处理,得到分词结果;
移除所述分词结果中的第一实体信息以及第二实体信息,得到目标分词信息。
在一些实施方式中,所述关键词识别模块2013在获取与所述关键词对应的同义词时,包括:
通过预训练好的向量获取模型对所述关键词进行编码处理,得到关键词向量,并从预设的词库中获取备选词的备选词向量;
计算所述关键词向量与各个所述备选词向量的余弦相似度,将所述余弦相似度满足预设相似度的备选词向量对应的备选词,作为同义词。
在一些实施方式中,所述第二模型训练模块2016在用所述关系数据对对预设的生成式预训练语言模型进行训练时,包括:
从所述关系数据对中选取其中一个关系数据作为初始输入配置数据,并确定另一个关系数据作为初始输出配置数据;
利用预设的第二字符分别替换所述初始输入配置数据以及所述初始输出配置数据中的第一实体信息,且利用预设的第三字符分别替换所述初始输入配置数据以及所述初始输出配置数据中的第二实体信息,得到目标输入配置数据以及目标输出配置数据;
根据所述目标输入配置数据以及所述目标输出配置数据训练所述生成式预训练语言模型。
在一些实施方式中,所述第二增强模块2017在利用所述数据增强模型对所述第二增强数据集进行数据增强,得到目标数据集时,包括:
从所述第二增强数据集中逐个获取待增强数据,拷贝所述待增强数据以得到待处理数据;
利用所述第二字符替换所述待处理数据中的第一实体信息,且利用所述第三字符替换所述待处理数据中的第二实体信息,得到第一替换结果数据;
将所述第一替换结果数据输入所述数据增强模型,以获取与所述第一替换结果数据语义相近的若干个输出结果数据;
将将所述输出结果数据中的所述第二字符替换为第一实体信息,并将所述输出结果数据中的所述第三字符替换为第二实体信息,得到目标数据;
将各个所述目标数据进行去重处理,得到增强结果数据集;
合并所述第二增强数据集以及所述增强结果数据集,得到目标数据集。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块及单元的具体工作过程,可以参考前述关系数据增强方法实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图3所示的计算机设备上运行。
请参阅图3,图3为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备包括但不限定于服务器。
如图3所示,该计算机设备301包括通过系统总线连接的处理器3011、存储器和网络接口,其中,存储器可以包括存储介质3012和内存储器3015,存储介质3012可以是非易失性的,也可以是易失性的。
存储介质3012可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器3011执行任意一种关系数据增强方法。
处理器3011用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器3015为存储介质3012中的计算机程序的运行提供环境,该计算机程序被处理器3011执行时,可使得处理器3011执行任意一种关系数据增强方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器3011可以是中央处理单元(Central Processing Unit,CPU),该处理器3011还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一些实施方式中,所述处理器3011用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取起始数据集,其中,所述起始数据集中的每一个起始数据都标注有第一实体信息以及与所述第一实体信息关联的第二实体信息,且所述起始数据还标注有所述第一实体信息与所述第二实体信息之间的实体关系;
利用所述起始数据集对语言表征模型进行有监督训练,得到实体关系识别模型;
利用所述实体关系识别模型从所述起始数据中筛选得到关键词,并获取与所述关键词对应的同义词;
拷贝所述起始数据以得到起始副本数据,并利用所述同义词替换所述起始副本数据中的关键词,得到第一增强数据集;
将所述起始数据集和所述第一增强数据集进行合并处理,得到第二增强数据集;
从所述第二增强数据集中筛选具有相同实体关系的关系数据对,并利用所述关系数据对对预设的生成式预训练语言模型进行训练,得到数据增强模型;
利用所述数据增强模型对所述第二增强数据集进行数据增强,得到目标数据集。
在一些实施方式中,所述处理器3011在利用所述起始数据集对语言表征模型进行有监督训练,得到实体关系识别模型时,用于实现:
将所述起始数据作为第一训练数据;
通过所述语言表征模型的池化层对所述第一训练数据的第一实体信息进行池化处理,得到第一信息,并利用所述池化层对所述第一训练数据的第二实体信息进行池化处理,得到第二信息;
将所述第一训练数据的第一实体信息替换为所述第一信息,并将所述起始数据的第二实体信息替换为所述第二信息,得到第二训练数据;
将所述第二训练数据传输给所述语言表征模型的全连接层进行关系分类训练,直到所述语言表征模型符合预设条件时,确定所述语言表征模型为实体关系识别模型。
在一些实施方式中,所述处理器3011在利用所述实体关系识别模型从所述起始数据中筛选得到关键词时,用于实现:
获取与所述起始数据对应的目标实体关系;
对所述起始数据进行分词处理,得到除第一实体信息以及第二实体信息以外的若干个目标分词信息;
拷贝所述起始数据以得到替换副本数据,利用预设的第一字符对所述替换副本数据中的所述目标分词信息进行替换处理,得到若干个替换结果;
利用所述实体关系识别模型获取各个所述替换结果与所述目标实体关系的匹配度;
选取所述匹配度满足预设匹配条件的所述目标分词信息作为关键词。
在一些实施方式中,所述处理器3011在对所述起始数据进行分词处理,得到除第一实体信息以及第二实体信息以外的若干个目标分词信息时,用于实现:
利用预训练好的命名实体识别模型获取所述起始数据对应的序列标注信息;
根据所述序列标注信息对所述起始数据进行分词处理,得到分词结果;
移除所述分词结果中的第一实体信息以及第二实体信息,得到目标分词信息。
在一些实施方式中,所述处理器3011在获取与所述关键词对应的同义词时,包括:
通过预训练好的向量获取模型对所述关键词进行编码处理,得到关键词向量,并从预设的词库中获取备选词的备选词向量;
计算所述关键词向量与各个所述备选词向量的余弦相似度,将所述余弦相似度满足预设相似度的备选词向量对应的备选词,作为同义词。
在一些实施方式中,所述处理器3011在用所述关系数据对对预设的生成式预训练语言模型进行训练时,用于实现:
从所述关系数据对中选取其中一个关系数据作为初始输入配置数据,并确定另一个关系数据作为初始输出配置数据;
利用预设的第二字符分别替换所述初始输入配置数据以及所述初始输出配置数据中的第一实体信息,且利用预设的第三字符分别替换所述初始输入配置数据以及所述初始输出配置数据中的第二实体信息,得到目标输入配置数据以及目标输出配置数据;
根据所述目标输入配置数据以及所述目标输出配置数据训练所述生成式预训练语言模型。
在一些实施方式中,所述处理器3011在利用所述数据增强模型对所述第二增强数据集进行数据增强,得到目标数据集时,用于实现:
从所述第二增强数据集中逐个获取待增强数据,拷贝所述待增强数据以得到待处理数据;
利用所述第二字符替换所述待处理数据中的第一实体信息,且利用所述第三字符替换所述待处理数据中的第二实体信息,得到第一替换结果数据;
将所述第一替换结果数据输入所述数据增强模型,以获取与所述第一替换结果数据语义相近的若干个输出结果数据;
将将所述输出结果数据中的所述第二字符替换为第一实体信息,并将所述输出结果数据中的所述第三字符替换为第二实体信息,得到目标数据;
将各个所述目标数据进行去重处理,得到增强结果数据集;
合并所述第二增强数据集以及所述增强结果数据集,得到目标数据集。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述计算机设备的具体工作过程,可以参考前述关系数据增强方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供一种存储介质,该存储介质为计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参照本申请关系数据增强方法的各个实施例。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种关系数据增强方法,其特征在于,所述方法包括:
获取起始数据集,其中,所述起始数据集中的每一个起始数据都标注有第一实体信息以及与所述第一实体信息关联的第二实体信息,且所述起始数据还标注有所述第一实体信息与所述第二实体信息之间的实体关系;
利用所述起始数据集对语言表征模型进行有监督训练,得到实体关系识别模型;
利用所述实体关系识别模型从所述起始数据中筛选得到关键词,并获取与所述关键词对应的同义词;
拷贝所述起始数据以得到起始副本数据,并利用所述同义词替换所述起始副本数据中的关键词,得到第一增强数据集;
将所述起始数据集和所述第一增强数据集进行合并处理,得到第二增强数据集;
从所述第二增强数据集中筛选具有相同实体关系的关系数据对,并利用所述关系数据对对预设的生成式预训练语言模型进行训练,得到数据增强模型;
利用所述数据增强模型对所述第二增强数据集进行数据增强,得到目标数据集。
2.根据权利要求1所述的方法,其特征在于,所述利用所述起始数据集对语言表征模型进行有监督训练,得到实体关系识别模型,包括:
将所述起始数据作为第一训练数据;
通过所述语言表征模型的池化层对所述第一训练数据的第一实体信息进行池化处理,得到第一信息,并利用所述池化层对所述第一训练数据的第二实体信息进行池化处理,得到第二信息;
将所述第一训练数据的第一实体信息替换为所述第一信息,并将所述起始数据的第二实体信息替换为所述第二信息,得到第二训练数据;
将所述第二训练数据传输给所述语言表征模型的全连接层进行关系分类训练,直到所述语言表征模型符合预设条件时,确定所述语言表征模型为实体关系识别模型。
3.根据权利要求2所述的方法,其特征在于,所述利用所述实体关系识别模型从所述起始数据中筛选得到关键词,包括:
获取与所述起始数据对应的目标实体关系;
对所述起始数据进行分词处理,得到除第一实体信息以及第二实体信息以外的若干个目标分词信息;
拷贝所述起始数据以得到替换副本数据,利用预设的第一字符对所述替换副本数据中的所述目标分词信息进行替换处理,得到若干个替换结果;
利用所述实体关系识别模型获取各个所述替换结果与所述目标实体关系的匹配度;
选取所述匹配度满足预设匹配条件的所述目标分词信息作为关键词。
4.根据权利要求3所述的方法,其特征在于,所述对所述起始数据进行分词处理,得到除第一实体信息以及第二实体信息以外的若干个目标分词信息,包括:
利用预训练好的命名实体识别模型获取所述起始数据对应的序列标注信息;
根据所述序列标注信息对所述起始数据进行分词处理,得到分词结果;
移除所述分词结果中的第一实体信息以及第二实体信息,得到目标分词信息。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述获取与所述关键词对应的同义词,包括:
通过预训练好的向量获取模型对所述关键词进行编码处理,得到关键词向量,并从预设的词库中获取备选词的备选词向量;
计算所述关键词向量与各个所述备选词向量的余弦相似度,将所述余弦相似度满足预设相似度的备选词向量对应的备选词,作为同义词。
6.根据权利要求1-4所述的方法,其特征在于,所述用所述关系数据对对预设的生成式预训练语言模型进行训练,包括:
从所述关系数据对中选取其中一个关系数据作为初始输入配置数据,并确定另一个关系数据作为初始输出配置数据;
利用预设的第二字符分别替换所述初始输入配置数据以及所述初始输出配置数据中的第一实体信息,且利用预设的第三字符分别替换所述初始输入配置数据以及所述初始输出配置数据中的第二实体信息,得到目标输入配置数据以及目标输出配置数据;
根据所述目标输入配置数据以及所述目标输出配置数据训练所述生成式预训练语言模型。
7.根据权利要求1-4中任一项所述的方法,其特征在于,所述利用所述数据增强模型对所述第二增强数据集进行数据增强,得到目标数据集,包括:
从所述第二增强数据集中逐个获取待增强数据,拷贝所述待增强数据以得到待处理数据;
利用所述第二字符替换所述待处理数据中的第一实体信息,且利用所述第三字符替换所述待处理数据中的第二实体信息,得到第一替换结果数据;
将所述第一替换结果数据输入所述数据增强模型,以获取与所述第一替换结果数据语义相近的若干个输出结果数据;
将所述输出结果数据中的所述第二字符替换为第一实体信息,并将所述输出结果数据中的所述第三字符替换为第二实体信息,得到目标数据;
将各个所述目标数据进行去重处理,得到增强结果数据集;
合并所述第二增强数据集以及所述增强结果数据集,得到目标数据集。
8.一种关系数据增强装置,其特征在于,包括:
数据获取模块,用于获取起始数据集,其中,所述起始数据集中的每一个起始数据都标注有第一实体信息以及与所述第一实体信息关联的第二实体信息,且所述起始数据还标注有所述第一实体信息与所述第二实体信息之间的实体关系;
第一模型训练模块,用于利用所述起始数据集对语言表征模型进行有监督训练,得到实体关系识别模型;
关键词识别模块,用于利用所述实体关系识别模型从所述起始数据中筛选得到关键词,并获取与所述关键词对应的同义词;
同义词替换模块,用于拷贝所述起始数据以得到起始副本数据,并利用所述同义词替换所述起始副本数据中的关键词,得到第一增强数据集;
第一增强模块,用于将所述起始数据集和所述第一增强数据集进行合并处理,得到第二增强数据集;
第二模型训练模块,用于从所述第二增强数据集中筛选具有相同实体关系的关系数据对,并利用所述关系数据对对预设的生成式预训练语言模型进行训练,得到数据增强模型;
第二增强模块,用于利用所述数据增强模型对所述第二增强数据集进行数据增强,得到目标数据集。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的关系数据增强方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的关系数据增强方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210516062.2A CN114881034B (zh) | 2022-05-12 | 2022-05-12 | 关系数据增强方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210516062.2A CN114881034B (zh) | 2022-05-12 | 2022-05-12 | 关系数据增强方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114881034A true CN114881034A (zh) | 2022-08-09 |
CN114881034B CN114881034B (zh) | 2023-07-25 |
Family
ID=82674982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210516062.2A Active CN114881034B (zh) | 2022-05-12 | 2022-05-12 | 关系数据增强方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114881034B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200073882A1 (en) * | 2018-08-31 | 2020-03-05 | Accenture Global Solutions Limited | Artificial intelligence based corpus enrichment for knowledge population and query response |
CN111144115A (zh) * | 2019-12-23 | 2020-05-12 | 北京百度网讯科技有限公司 | 预训练语言模型获取方法、装置、电子设备和存储介质 |
CN113807098A (zh) * | 2021-08-26 | 2021-12-17 | 北京百度网讯科技有限公司 | 模型训练方法和装置、电子设备以及存储介质 |
CN114398943A (zh) * | 2021-12-09 | 2022-04-26 | 北京百度网讯科技有限公司 | 样本增强方法及其装置 |
-
2022
- 2022-05-12 CN CN202210516062.2A patent/CN114881034B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200073882A1 (en) * | 2018-08-31 | 2020-03-05 | Accenture Global Solutions Limited | Artificial intelligence based corpus enrichment for knowledge population and query response |
CN111144115A (zh) * | 2019-12-23 | 2020-05-12 | 北京百度网讯科技有限公司 | 预训练语言模型获取方法、装置、电子设备和存储介质 |
CN113807098A (zh) * | 2021-08-26 | 2021-12-17 | 北京百度网讯科技有限公司 | 模型训练方法和装置、电子设备以及存储介质 |
CN114398943A (zh) * | 2021-12-09 | 2022-04-26 | 北京百度网讯科技有限公司 | 样本增强方法及其装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114881034B (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200081899A1 (en) | Automated database schema matching | |
WO2020114100A1 (zh) | 一种信息处理方法、装置和计算机存储介质 | |
WO2022227165A1 (zh) | 机器阅读理解的问答方法、装置、计算机设备及存储介质 | |
CN111626048A (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN111709243A (zh) | 一种基于深度学习的知识抽取方法与装置 | |
CN112541338A (zh) | 相似文本匹配方法、装置、电子设备及计算机存储介质 | |
CN112015900B (zh) | 医学属性知识图谱构建方法、装置、设备及介质 | |
CN111460797B (zh) | 关键字抽取方法、装置、电子设备及可读存储介质 | |
CN112885478B (zh) | 医疗文献的检索方法、装置、电子设备及存储介质 | |
Zhang et al. | Continuous word embeddings for detecting local text reuses at the semantic level | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN112395875A (zh) | 一种关键词提取方法、装置、终端以及存储介质 | |
CN113722483A (zh) | 话题分类方法、装置、设备及存储介质 | |
TW202123026A (zh) | 資料歸檔方法、裝置、電腦裝置及存儲介質 | |
CN111177375A (zh) | 一种电子文档分类方法及装置 | |
CN113722512A (zh) | 基于语言模型的文本检索方法、装置、设备及存储介质 | |
CN112328655A (zh) | 文本标签挖掘方法、装置、设备及存储介质 | |
Flores et al. | FREGEX: A feature extraction method for biomedical text classification using regular expressions | |
CN110287270B (zh) | 实体关系挖掘方法及设备 | |
CN114881034B (zh) | 关系数据增强方法、装置、设备及存储介质 | |
Chou et al. | On the Construction of Web NER Model Training Tool based on Distant Supervision | |
CN112749251B (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
US11270155B2 (en) | Duplicate image detection based on image content | |
CN114091456B (zh) | 一种引文内容智能定位方法及系统 | |
CN110471901B (zh) | 数据导入方法及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |