CN113869057A - 文本数据增强方法、系统和计算机设备和存储介质 - Google Patents
文本数据增强方法、系统和计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113869057A CN113869057A CN202111201161.3A CN202111201161A CN113869057A CN 113869057 A CN113869057 A CN 113869057A CN 202111201161 A CN202111201161 A CN 202111201161A CN 113869057 A CN113869057 A CN 113869057A
- Authority
- CN
- China
- Prior art keywords
- entity
- training
- text
- word
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种文本数据增强方法、系统和计算机可读存储介质,其中,该方法包括:从一文本训练数据集中提取实体,并利用一预训练模型从每一实体中获取其对应的词向量;通过聚类将词向量对应的实体划分至对应的类簇,构建一实体类簇字典;选定目标文本并确定目标文本对应的待替换实体,根据实体类簇字典选取替换实体完成替换,生成增强样本数据集。本申请使用预训练模型获取实体的词向量时,把实体当做整体,进行预训练模型的二次训练,进而可以直接获取实体词向量的方法,并利用词向量对实体进行更细致的聚类划分,以实现文本数据增强,且避免在此过程中引入不必要的噪音。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及文本数据增强方法、系统和计算机可读存储介质。
背景技术
近年来,随着深度学习技术的发展,各种神经网络模型被广泛应用于命名实体识别任务,并且取得了不错的效果。深度学习技术使用神经网络模型自动从数据中挖掘特征,往往需要大量高质量的数据作为训练样本支撑,才具有较高的数据泛化能力。显然,在目前的实际工程应用中,普遍存在数据量较少而且数据不平衡等情况,使得模型在训练数据上非常容易过拟合,影响模型的泛化能力。并且人工标注新的数据会带来较高的人力时间成本。为了解决该问题,文本数据增强是一种非常有效的数据扩充方法。
数据增强技术作为扩充训练集的重要手段,常用来生成更多的新数据补充文本训练数据集,进而提高模型的泛化能力。数据增强技术的核心在于,不改变数据本身所表达的含义,使用数据的另一种表现形式作为新样本来补充训练数据。文本领域最常用的数据增强方式是词汇替换和反向翻译。词汇替换是指从文本中随机选取一个或多个词,利用同义词词典随机选择同义词进行词汇替换,获取新样本数据。反向翻译是指利用机器翻译技术将目标文本翻译为另一语种表示,再将另一语种表示翻译回来,获取目标文本的相同语义表示。在实体识别任务中通常使用词汇替换作为数据增强的主要方式。具体的待替换词为文本中的实体,替换词可以选择同义词,也可以选择相同实体类别的其他实体。比如:识别文本中的机构,“小明毕业于清华大学”,待替换词为“清华大学”,替换词为同义词“清华”,也可以为相同实体类别其他实体“北京大学”。然而一个高质量的同义词词典的建立和完善是件十分困难的事情,需要时间的积累以及专家的协助。而且选择相同实体类别的其他实体作为替换词可能会生成不符常理的新样本,进而会引入不必要的噪音。比如,“***公司”同样是机构名,替换后变成“他毕业于***公司”,显然,这并不是一个可用的新样本。
目前针对相关技术中数据增强过程中引入噪音的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种文本数据增强方法、系统和计算机可读存储介质,以至少解决相关技术中数据增强过程中引入噪音的问题。
第一方面,本申请实施例提供了一种文本数据增强方法,包括以下步骤:
词向量获取步骤,从一文本训练数据集中提取实体,并利用一预训练模型从每一实体中获取其对应的词向量;
实体聚类步骤,通过聚类将词向量对应的实体划分至对应的类簇,构建一实体类簇字典;
实体替换步骤,选定目标文本并确定目标文本对应的待替换实体,根据实体类簇字典选取替换实体完成替换,生成增强样本数据集。
在其中一些实施例中,词向量获取步骤进一步包括:
模型一次训练步骤,利用通用语料训练预设网络结构并获取预训练模型;
词表重构步骤,获取文本训练数据集中的所有实体,对所有实体进行编码获得实体编码,并将实体编码加入预训练模型的词表中,对词表进行重构;
模型二次训练步骤,根据文本训练数据集获取无标注文本语料,基于重构后的词表利用实体编码替换无标注文本中的对应实体,并根据替换后的无标注文本训练预训练模型,并保存二次训练后的预训练模型;
实体词向量获取步骤,基于词表获取实体编码的ID并输入至预训练模型,获取实体编码对应的向量,即获得对应实体的词向量。
通过上述方式直接获取整个实体的词向量表示,防止信息丢失。而且采用预训练模型继续训练的方式,可以获取实体的上下文信息,增强预训练模型对领域内数据的敏锐度,使得其输出的词向量更加准确。
在其中一些实施例中,实体聚类步骤具体包括:
词向量类簇获取步骤,利用聚类算法将词向量进行聚类,将其划分为不同的类簇;
实体类簇字典构建步骤,根据实体和词向量的对应关系,得到每个类簇包含的实体,构建实体类簇字典。
聚类模块的目的是将实体划分为不同的类簇,是在原始实体类别基础上更细致的类别划分,相比于随机的实体类别替换,聚类有助于减少不合常理的文本产生,缓解噪音引入问题。
在其中一些实施例中,聚类算法设置为K-Means聚类算法、DBSCAN聚类算法和层次聚类算法其一或其组合。
在其中一些实施例中,实体替换步骤进一步包括:
类簇确定步骤,根据目标文本确定待替换实体,根据实体类簇字典确定待替换实体所属的类簇;
新样本数据生成步骤,根据实体类簇字典,选择该类簇中其他实体作为替换词,使用替换词替换待替换实体,生成新样本数据;
增强样本数据集获取步骤,将新样本数据加入文本训练数据集,获得增强样本数据集。
第二方面,本申请实施例提供了一种实体识别方法,包括第一方面的文本数据增强方法和实体识别步骤,实体识别步骤具体包括:
利用增强样本数据集训练实体识别神经网络模型,并利用训练后的实体识别神经网络模型进行实体识别抽取。
第三方面,本申请实施例提供了一种文本数据增强系统,包括:
词向量获取模块,从一文本训练数据集中提出实体,并利用一预训练模型从每一实体中获取其对应的词向量;
实体聚类模块,通过聚类将词向量对应的实体划分至对应的类簇,构建一实体类簇字典;
实体替换模块,选定目标文本并确定目标文本对应的待替换实体,根据实体类簇字典选取替换实体完成替换,生成增强样本数据集。
在其中一些实施例中,词向量获取模块进一步包括:
模型一次训练单元,利用通用语料训练预设网络结构并获取预训练模型;
词表重构单元,获取文本训练数据集中的所有实体,对所有实体进行编码获得实体编码,并将实体编码加入预训练模型的词表中,对词表进行重构;
模型二次训练单元,根据文本训练数据集获取无标注文本语料,基于重构后的词表利用实体编码替换无标注文本中的对应实体,并根据替换后的无标注文本训练预训练模型,并保存二次训练后的预训练模型;
实体词向量获取单元,基于词表获取实体编码的ID并输入至预训练模型,获取实体编码对应的向量,即获得对应实体的词向量。
第四方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的文本数据增强方法。
第五方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的文本数据增强方法。
相比于相关技术,本申请实施例提供的文本数据增强方法、系统和计算机可读存储介质,本申请实施例可以应用于深度学习技术领域,还可以应用于自然语言处理技术领域,使用预训练模型获取实体的词向量时,把实体当做整体,进行预训练模型的继续训练,进而可以直接获取实体词向量的方法,并利用词向量对实体进行更细致的聚类划分,以实现文本数据增强,且避免在此过程中引入不必要的噪音。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的文本数据增强方法的流程图;
图2是根据本申请实施例的一种实体识别方法的流程图;
图3是根据本申请优选实施例的基于实体识别的文本数据增强方法的流程图;
图4是根据本申请实施例的文本数据增强系统的结构框图;
图5是根据本申请实施例的文本数据增强系统的优选结构框图;
图6为根据本申请实施例的计算机设备的硬件结构示意图。
附图说明:
词向量获取模块1;实体聚类模块2;实体替换模块3;
模型一次训练单元11;模型二次训练单元12;模型读取单元13;
词向量类簇获取单元21;实体类簇字典构建单元22;类簇确定单元31;
新样本数据生成单元32;增强样本数据集获取单元33;
处理器81;存储器82;通信接口83;总线80。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本实施例提供了一种文本数据增强方法。图1是根据本申请实施例的文本数据增强方法的流程图,如图1所示,该流程包括如下步骤:
词向量获取步骤S1,从一文本训练数据集中提取实体,并利用一预训练模型从每一实体中获取其对应的词向量;
现有技术中,通常使用预训练模型获取实体词向量,首先获取实体中每个字符的向量,再对所有字符的向量求平均间接获取实体的词向量表示。这种方式忽略了实体是一个整体的事实,有可能造成信息的丢失。本申请实施例中采用了一种全新的预训练模型获取实体词向量的方式,把实体看成一个整体,使用预训练模型直接得到该实体的词向量。
实体聚类步骤S2,通过聚类将词向量对应的实体划分至对应的类簇,构建一实体类簇字典;
示例性的,不同的类簇可以包括政府机构、学校名称、社会团体等。
实体替换步骤S3,选定目标文本并确定目标文本对应的待替换实体,根据实体类簇字典选取替换实体完成替换,生成增强样本数据集。
上述步骤中,通过将实体当做一个整体获得对应的词向量,同时利用预训练模型可以更好的表现实体的特征,以便后续根据实体特征进行类簇的准确划分,进而实现数据增强,获得增强样本数据集。
需要说明的是,实体是从文本训练数据集中得到的,上述根据训练数据提取实体可以根据预先的标注直接得到。众多训练数据构成文本训练数据集,是某一领域内的训练样本数据。
在其中一些实施例中,词向量获取步骤S1进一步包括:
模型一次训练步骤S11,利用通用语料训练预设网络结构并获取预训练模型;
词表重构步骤S12,获取文本训练数据集中的所有实体,对所有实体进行编码获得实体编码,并将实体编码加入预训练模型的词表中,对词表进行重构;
示例的,清华这个词,利用词表中不存在的符号编码代替该词并将其加入词表中,此时,词表中存在“清华”对应的符号编码和“清”和“华”。
模型二次训练步骤S13,根据文本训练数据集获取无标注文本语料,基于重构后的词表利用实体编码替换无标注文本中的对应实体,并根据替换后的无标注文本训练预训练模型,并保存二次训练后的预训练模型;
示例性的,原始训练数据是“他毕业于清华”,清华用编码A进行替换加到了词表里面,那么无标注语料就变成了“他毕业于编码A”。
实体词向量获取步骤,基于词表获取实体编码的ID并输入至预训练模型,获取实体编码对应的向量,即获得对应实体的词向量。
预训练模型的词表中包括全部的汉字、部分单独的字符和部分英文单词,并通过重构调整其中的内容。
通过上述步骤,通过重构预训练模型词表,使用文本训练数据集,即需要数据增强文本所属领域的数据,继续训练预训练模型的方式,来获取高质量的实体词向量;使用这样的方式可以直接获取整个实体的词向量表示,防止信息丢失。而且采用预训练模型继续训练的方式,可以获取实体的上下文信息,增强预训练模型对领域内数据的敏锐度,使得其输出的词向量更加准确。
需要说明的是,预训练模型可以设置为BERT模型、ERNIE以及RoBERTa等。
在其中一些实施例中,实体聚类步骤S2具体包括:
词向量类簇获取步骤S21,利用聚类算法将词向量进行聚类,将其划分为不同的类簇。
实体类簇字典构建步骤S22,根据实体和词向量的对应关系,得到每个类簇包含的实体,构建实体类簇字典。
需要说明的是,此处的实体和词向量的对应关系可以为映射关系。
通过上述步骤,在实体替换之前增加聚类过程,聚类过程的目的是将实体划分为不同的类簇,是在原始实体类别基础上更细致的类别划分,相比于随机的实体类别替换,聚类有助于减少不合常理的文本产生,缓解噪音引入问题。可以摆脱传统实体替换过程对同义词词典的依赖,缓解实体替换过程生成不合常理文本的问题。
需要说明的是,上述聚类算法可以设置为K-Means聚类算法、DBSCAN以及层次聚类等。
在其中一些实施例中,词向量类簇获取步骤S21中还可以依据聚类结果调整聚类算法的参数。
在其中一些实施例中,聚类算法设置为K-Means聚类算法、DBSCAN聚类算法和层次聚类算法其一或其组合。
在其中一些实施例中,实体替换步骤S3进一步包括:
类簇确定步骤S31,根据目标文本确定待替换实体,根据实体类簇字典确定待替换实体所属的类簇;
示例性的,“小明毕业于清华大学”,待替换词为“清华大学”,采用的类簇为学校名称而非广义上的机构名称,可以将“清华大学”替换为相同类簇中其他实体“北京大学”、“中国科技大学”等。
新样本数据生成步骤S32,根据实体类簇字典,选择该类簇中其他实体作为替换词,使用替换词替换待替换实体,生成新样本数据;
增强样本数据集获取步骤S33,将新样本数据加入文本训练数据集,获得增强样本数据集。
需要说明的是,在增强样本数据集获取步骤中,可以控制各原始实体类别的训练数据量相当,以缓解实体识别中出现原始实体类别不平衡的问题。
本实施例还提供了一种实体识别方法。图2是根据本申请实施例的一种实体识别方法的流程图,如图2所示,该流程包括上述文本数据增强方法和实体识别步骤,实体识别步骤S201具体包括:
利用增强样本数据集训练实体识别神经网络模型,并利用训练后的实体识别神经网络模型进行实体识别抽取。
通过上述步骤,利用实体替换获取增强数据集,训练实体识别模型,有效提高模型的泛化能力。
下面通过优选实施例对本申请实施例进行描述和说明。
图3是根据本申请优选实施例的基于实体识别的文本数据增强方法的流程图。
S301,使用预训练模型获取文本中实体对应的词向量,
在现有技术中会首先获取实体中每个字符的向量,再对所有字符的向量求平均间接获取实体的词向量表示。但是这种方式忽略了实体是一个整体的事实,有可能造成信息的丢失。
而本申请实施例中采用了一种全新的预训练模型获取实体词向量的方式,把实体看成一个整体,使用预训练模型直接得到该实体的词向量。具体步骤包括:
1.获取文本训练数据集中所有的实体,构建实体词典并对实体进行编码,将实体编码加入预训练模型BERT的词表,对词表进行重构。
2.根据文本训练数据集获取无标注文本语料,使用实体编码将无标注文本语料中的实体替换,在替换后的在无标注语料上进行预训练模型BERT的继续训练,训练完成后保存模型。
3.根据词表获取实体的id,读取保存的BERT模型,获取实体的词向量。
这样做的目的是,使用这样的方式可以直接获取整个实体的词向量表示,防止信息丢失。而且采用预训练模型继续训练的方式,可以获取实体的上下文信息,增强预训练模型对领域内数据的敏锐度,使得其输出的词向量更加准确。
S302,将实体划分为不同的类簇,获得实体类簇字典。S302的具体步骤为:
1.使用K-Means聚类算法对所有实体的词向量进行聚类,将其划分为不同的类簇。其中,聚类算法的参数k可以根据具体的聚类结果进行适应性调整。
2.根据实体-词向量的映射关系,得到每个类簇包含的实体,构建类簇-实体字典,实体类簇字典。
本步骤是在原始实体类别基础上更细致的类别划分,相比于随机的实体类别替换,聚类有助于减少不合常理的文本产生,缓解噪音引入问题。
S303,使用聚类获得的实体类簇字典,对文本中实体进行替换,进而获得增强样本数据集。具体的:
1.选定目标文本,确定目标文本中的待替换实体,根据实体类簇字典确定待替换实体的所属类簇。
2.根据实体类簇字典,选择该类簇中的其他实体作为替换词,使用替换词替换文本中的待替换实体,生成新的训练数据。
3.将新的训练数据加入原始的文本训练数据集,获得增强样本数据集。
在获取增强样本数据集过程中,可以控制各原始实体类别的训练数据量相当,以缓解实体识别中出现原始实体类别不平衡的问题。
S304,使用增强样本数据集,训练实体识别神经网络模型,并利用训练后的模型对文本数据进行实体识别抽取。
上述实体识别神经网络模型可以设置为BILSTM+CRF模型。
通过上述步骤,本申请实施例不同于传统使用预训练模型获取文本词向量的方式,在使用预训练模型获取实体的词向量时,把实体当做整体,进行预训练模型的继续训练,进而可以直接获取实体词向量的方法,利用高质量实体词向量对实体进行更细致的聚类划分,从而为实体替换提供有效的依据。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种文本数据增强系统,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本申请实施例的文本数据增强系统的结构框图,如图4所示,该系统包括:
词向量获取模块1,从一文本训练数据集中提出实体,并利用一预训练模型从每一实体中获取其对应的词向量;
实体聚类模块2,通过聚类将词向量对应的实体划分至对应的类簇,构建一实体类簇字典;
实体替换模块3,选定目标文本并确定目标文本对应的待替换实体,根据实体类簇字典选取替换实体完成替换,生成增强样本数据集。
在其中一些实施例中,词向量获取模块1进一步包括:
模型一次训练单元11,利用通用语料训练预设网络结构并获取预训练模型;
词表重构单元12,获取文本训练数据集中的所有实体,对所有实体进行编码获得实体编码,并将实体编码加入预训练模型的词表中,对词表进行重构;
模型二次训练单元13,根据文本训练数据集获取无标注文本语料,基于重构后的词表利用实体编码替换无标注文本中的对应实体,并根据替换后的无标注文本训练预训练模型,并保存二次训练后的预训练模型;
实体词向量获取单元14,基于词表获取实体编码的ID并输入至预训练模型,获取实体编码对应的向量,即获得对应实体的词向量。
通过上述设置,通过重构预训练模型词表,使用训练模型继续训练预训练模型的方式,来获取高质量的实体词向量;使用这样的方式可以直接获取整个实体的词向量表示,防止信息丢失。而且采用预训练模型继续训练的方式,可以获取实体的上下文信息,增强预训练模型对领域内数据的敏锐度,使得其输出的词向量更加准确。
图5是根据本申请实施例的文本数据增强系统的优选结构框图,如图5所示,该系统包括图4所示的所有模块,实体聚类模块2还包括:
词向量类簇获取单元21,利用聚类算法将词向量进行聚类,将其划分为不同的类簇;
实体类簇字典构建单元22,根据实体和词向量的映射关系,得到每个类簇包含的实体,构建实体类簇字典。
词向量类簇获取单元21中还可以依据聚类结果调整聚类算法的参数。
实体替换模块3进一步包括:
类簇确定单元31,根据目标文本确定待替换实体,根据实体类簇字典确定待替换实体所属的类簇;
新样本数据生成单元32,根据实体类簇字典,选择该类簇中其他实体作为替换词,使用替换词替换待替换实体,生成新样本数据;
增强样本数据集获取单元33,将新样本数据加入文本训练数据集,获得增强样本数据集。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
另外,结合图1描述的本申请实施例文本数据增强方法可以由计算机设备来实现。图6为根据本申请实施例的计算机设备的硬件结构示意图。
计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种文本数据增强方法。
在其中一些实施例中,计算机设备还可包括通信接口83和总线80。其中,如图6所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该计算机设备可以基于获取到的实体,执行本申请实施例中的文本数据增强方法,从而实现结合图1描述的文本数据增强方法。
另外,结合上述实施例中的文本数据增强方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种文本数据增强方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种文本数据增强方法,其特征在于,包括以下步骤:
词向量获取步骤,从一文本训练数据集中提取实体,并利用一预训练模型从每一所述实体中获取其对应的词向量;
实体聚类步骤,通过聚类将所述词向量对应的所述实体划分至对应的类簇,构建一实体类簇字典;
实体替换步骤,选定目标文本并确定所述目标文本对应的待替换实体,根据所述实体类簇字典选取替换实体完成替换,生成增强样本数据集。
2.根据权利要求1所述的文本数据增强方法,其特征在于,所述词向量获取步骤进一步包括:
模型一次训练步骤,利用通用语料训练预设网络结构并获取预训练模型;
词表重构步骤,获取文本训练数据集中的所有实体,对所有所述实体进行编码获得实体编码,并将所述实体编码加入所述预训练模型的词表中,对所述词表进行重构;
模型二次训练步骤,根据所述文本训练数据集获取无标注文本语料,基于重构后的所述词表利用所述实体编码替换所述无标注文本中的对应实体,并根据替换后的所述无标注文本训练所述预训练模型,并保存二次训练后的所述预训练模型;
实体词向量获取步骤,基于所述词表获取所述实体编码的ID并输入至所述预训练模型,获取所述实体编码对应的向量,即获得对应所述实体的词向量。
3.根据权利要求1所述的文本数据增强方法,其特征在于,所述实体聚类步骤具体包括:
词向量类簇获取步骤,利用聚类算法将所述词向量进行聚类,将其划分为不同的类簇;
实体类簇字典构建步骤,根据所述实体和所述词向量的对应关系,得到每个所述类簇包含的所述实体,构建所述实体类簇字典。
4.根据权利要求3所述的文本数据增强方法,其特征在于,所述聚类算法设置为K-Means聚类算法、DBSCAN聚类算法和层次聚类算法其一或其组合。
5.根据权利要求1-4任意一项所述的文本数据增强方法,其特征在于,所述实体替换步骤进一步包括:
类簇确定步骤,根据所述目标文本确定所述待替换实体,根据所述实体类簇字典确定所述待替换实体所属的所述类簇;
新样本数据生成步骤,根据所述实体类簇字典,选择该类簇中其他所述实体作为替换词,使用所述替换词替换所述待替换实体,生成新样本数据;
增强样本数据集获取步骤,将所述新样本数据加入所述文本训练数据集,获得所述增强样本数据集。
6.一种实体识别方法,其特征在于,包括权利要求5所述的文本数据增强方法和实体识别步骤,所述实体识别步骤具体包括:
利用所述增强样本数据集训练实体识别神经网络模型,并利用训练后的所述实体识别神经网络模型进行实体识别抽取。
7.一种文本数据增强系统,其特征在于,包括:
词向量获取模块,从一文本训练数据集中提出实体,并利用一预训练模型从每一所述实体中获取其对应的词向量;
实体聚类模块,通过聚类将所述词向量对应的所述实体划分至对应的类簇,构建一实体类簇字典;
实体替换模块,选定目标文本并确定所述目标文本对应的待替换实体,根据所述实体类簇字典选取替换实体完成替换,生成增强样本数据集。
8.根据权利要求7所述的文本数据增强系统,其特征在于,所述词向量获取模块进一步包括:
模型一次训练单元,利用通用语料训练预设网络结构并获取预训练模型;
词表重构单元,获取文本训练数据集中的所有实体,对所有所述实体进行编码获得实体编码,并将所述实体编码加入所述预训练模型的词表中,对所述词表进行重构;
模型二次训练单元,根据所述文本训练数据集获取无标注文本语料,基于重构后的所述词表利用所述实体编码替换所述无标注文本中的对应实体,并根据替换后的无标注文本训练所述预训练模型,并保存二次训练后的所述预训练模型;
实体词向量获取单元,基于所述词表获取所述实体编码的ID并输入至所述预训练模型,获取所述实体编码对应的向量,即获得对应所述实体的词向量。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的文本数据增强方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一项所述的文本数据增强方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111201161.3A CN113869057A (zh) | 2021-10-15 | 2021-10-15 | 文本数据增强方法、系统和计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111201161.3A CN113869057A (zh) | 2021-10-15 | 2021-10-15 | 文本数据增强方法、系统和计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113869057A true CN113869057A (zh) | 2021-12-31 |
Family
ID=78999570
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111201161.3A Pending CN113869057A (zh) | 2021-10-15 | 2021-10-15 | 文本数据增强方法、系统和计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113869057A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116776884A (zh) * | 2023-06-26 | 2023-09-19 | 中山大学 | 一种用于医学命名实体识别的数据增强方法及系统 |
-
2021
- 2021-10-15 CN CN202111201161.3A patent/CN113869057A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116776884A (zh) * | 2023-06-26 | 2023-09-19 | 中山大学 | 一种用于医学命名实体识别的数据增强方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109408526B (zh) | Sql语句生成方法、装置、计算机设备及存储介质 | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
CN109325229B (zh) | 一种利用语义信息计算文本相似度的方法 | |
CN108804427B (zh) | 语音机器翻译方法及装置 | |
CN112380837B (zh) | 基于翻译模型的相似句子匹配方法、装置、设备及介质 | |
CN112560510B (zh) | 翻译模型训练方法、装置、设备及存储介质 | |
US10380250B2 (en) | Entailment pair extension apparatus, computer program therefor and question-answering system | |
CN110569354A (zh) | 弹幕情感分析方法及装置 | |
CN113536795B (zh) | 实体关系抽取的方法、系统、电子装置和存储介质 | |
CN112232070A (zh) | 自然语言处理模型构建方法、系统、电子设备及存储介质 | |
CN112016296A (zh) | 句子向量生成方法、装置、设备及存储介质 | |
CN112581327A (zh) | 基于知识图谱的法律推荐方法、装置和电子设备 | |
CN113869057A (zh) | 文本数据增强方法、系统和计算机设备和存储介质 | |
CN104021117A (zh) | 语言处理方法与电子设备 | |
CN114048288A (zh) | 细粒度情感分析方法、系统、计算机设备和存储介质 | |
CN111831832B (zh) | 词表构建方法、电子设备及计算机可读介质 | |
CN113674734A (zh) | 一种基于语音识别的信息查询方法及系统、设备和存储介质 | |
CN112949293A (zh) | 一种相似文本生成方法、相似文本生成装置及智能设备 | |
CN112287667A (zh) | 一种文本生成方法及设备 | |
CN108874786B (zh) | 机器翻译方法及装置 | |
CN113255326A (zh) | 未登录词词向量计算方法、系统、电子设备及存储介质 | |
CN115169368A (zh) | 基于多文档的机器阅读理解方法及装置 | |
CN110069780B (zh) | 一种基于特定领域文本的情感词识别方法 | |
CN113255334A (zh) | 一种计算字向量方法、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |