CN114637824B - 数据增强处理方法及装置 - Google Patents
数据增强处理方法及装置 Download PDFInfo
- Publication number
- CN114637824B CN114637824B CN202210268766.2A CN202210268766A CN114637824B CN 114637824 B CN114637824 B CN 114637824B CN 202210268766 A CN202210268766 A CN 202210268766A CN 114637824 B CN114637824 B CN 114637824B
- Authority
- CN
- China
- Prior art keywords
- text
- texts
- category
- marked
- single sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 29
- 230000011218 segmentation Effects 0.000 claims abstract description 96
- 238000012216 screening Methods 0.000 claims abstract description 43
- 238000002372 labelling Methods 0.000 claims description 215
- 238000012549 training Methods 0.000 claims description 168
- 238000000034 method Methods 0.000 claims description 137
- 238000012360 testing method Methods 0.000 claims description 88
- 238000012545 processing Methods 0.000 claims description 68
- 230000008569 process Effects 0.000 claims description 63
- 230000015654 memory Effects 0.000 claims description 43
- 238000003860 storage Methods 0.000 claims description 32
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 24
- 230000001965 increasing effect Effects 0.000 description 19
- 230000002708 enhancing effect Effects 0.000 description 14
- 238000005457 optimization Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000007477 logistic regression Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 241000590419 Polygonia interrogationis Species 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002085 persistent effect Effects 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供了数据增强处理方法及装置,其中,一种数据增强处理方法包括:按照文本集合中标注文本的类别标签,将所述文本集合划分为与所述类别标签对应的文本子集合;对各文本子集合中的标注文本进行单句切分,获得所述各文本子集合的单句集合;基于所述各文本子集合的单句集合,对所述各文本子集合中的标注文本进行数据增强,获得多个新增文本;识别所述多个新增文本的类别标签,并在所述多个新增文本中筛选类别标签与对应的标注文本的类别标签相同的目标文本;根据所述目标文本和所述文本集合中的标注文本构建目标文本集合。采用本申请实施例可提升数据增强的有效性。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据增强处理方法及装置。
背景技术
随着互联网的迅速普及和社交媒体的盛行,大量的文本在互联网上堆积,如何对堆积的大量文本进行分类成为用户日渐关注的问题。文本分类,就是把文本按照一定的规则分门别类,是自然语言处理中重要的研究方向之一,文本分类在许多场景下均有着广泛的应用,例如舆情分析、垃圾信息和邮件过滤、搜索引擎对网页相关性排序、信息检索、数据挖掘等。
发明内容
第一方面,本申请实施例提供了一种数据增强处理方法,包括:
按照文本集合中标注文本的类别标签,将所述文本集合划分为与所述类别标签对应的文本子集合;
对各文本子集合中的标注文本进行单句切分,获得所述各文本子集合的单句集合;
基于所述各文本子集合的单句集合,对所述各文本子集合中的标注文本进行数据增强,获得多个新增文本;
识别所述多个新增文本的类别标签,并在所述多个新增文本中筛选类别标签与对应的标注文本的类别标签相同的目标文本;
根据所述目标文本和所述文本集合中的标注文本构建目标文本集合。
第二方面,本申请实施例提供了一种模型训练方法,包括:
获取目标文本和文本集合中的标注文本;
基于所述目标文本和所述标注文本训练文本类别识别模型;
其中,所述目标文本包括在多个新增文本中筛选出的类别标签与对应的标注文本的类别标签相同的新增文本;所述多个新增文本基于各文本子集合的单句集合对所述各文本子集合中的标注文本进行数据增强获得,所述各文本子集合基于所述文本集合中的标注文本的类别标签划分获得,所述单句集合通过对所属的文本子集合中的标注文本进行单句切分获得。
第三方面,本申请实施例提供了一种文本类别识别方法,包括:
获取待识别文本;
将所述待识别文本输入基于目标文本和文本集合中的标注文本训练获得的文本类别识别模型进行文本类别识别,输出所述待识别文本的类别标签;
其中,所述目标文本包括在多个新增文本中筛选出的类别标签与对应的标注文本的类别标签相同的新增文本;所述多个新增文本基于各文本子集合的单句集合对所述各文本子集合中的标注文本进行数据增强获得,所述各文本子集合基于所述文本集合中的标注文本的类别标签划分获得,所述单句集合通过对所属的文本子集合中的标注文本进行单句切分获得。
第四方面,本申请实施例提供了一种数据增强处理装置,包括:
集合划分模块,用于按照文本集合中标注文本的类别标签,将所述文本集合划分为与所述类别标签对应的文本子集合;
单句切分模块,用于对各文本子集合中的标注文本进行单句切分,获得所述各文本子集合的单句集合;
数据增强模块,用于基于所述各文本子集合的单句集合,对所述各文本子集合中的标注文本进行数据增强,获得多个新增文本;
文本筛选模块,用于识别所述多个新增文本的类别标签,并在所述多个新增文本中筛选类别标签与对应的标注文本的类别标签相同的目标文本;
文本集合构建模块,用于根据所述目标文本和所述文本集合中的标注文本构建目标文本集合。
第五方面,本申请实施例提供了一种模型训练装置,包括:
文本获取模块,用于获取目标文本和文本集合中的标注文本;
模型训练模块,用于基于所述目标文本和所述标注文本训练文本类别识别模型;
其中,所述目标文本包括在多个新增文本中筛选出的类别标签与对应的标注文本的类别标签相同的新增文本;所述多个新增文本基于各文本子集合的单句集合对所述各文本子集合中的标注文本进行数据增强获得,所述各文本子集合基于所述文本集合中的标注文本的类别标签划分获得,所述单句集合通过对所属的文本子集合中的标注文本进行单句切分获得。
第六方面,本申请实施例提供了一种文本类别识别装置,包括:
待识别文本获取模块,用于获取待识别文本;
待识别文本识别模块,用于将所述待识别文本输入基于目标文本和文本集合中的标注文本训练获得的文本类别识别模型进行文本类别识别,输出所述待识别文本的类别标签;
其中,所述目标文本包括在多个新增文本中筛选出的类别标签与对应的标注文本的类别标签相同的新增文本;所述多个新增文本基于各文本子集合的单句集合对所述各文本子集合中的标注文本进行数据增强获得,所述各文本子集合基于所述文本集合中的标注文本的类别标签划分获得,所述单句集合通过对所属的文本子集合中的标注文本进行单句切分获得。
第七方面,本申请实施例提供了一种数据增强处理设备,包括:处理器;以及,被配置为存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行第一方面所述的数据增强处理方法。
第八方面,本申请实施例提供了一种模型训练设备,包括:处理器;以及,被配置为存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行第二方面所述的模型训练方法。
第九方面,本申请实施例提供了一种文本类别识别设备,包括:处理器;以及,被配置为存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行第三方面所述的文本类别识别方法。
第十方面,本申请实施例提供了一种计算机可读存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现如第一方面所述的数据增强处理方法。
第十一方面,本申请实施例提供了一种计算机可读存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现如第二方面所述的模型训练方法。
第十二方面,本申请实施例提供了一种计算机可读存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现如第三方面所述的文本类别识别方法。
可以看出,在本申请实施例中,从文本集合中的标注文本出发,通过同一类别标签对应的单句集合,对该类别标签对应的文本子集合中的标注文本进行数据增强,获得新增文本;以此通过类别标签下的标注文本的单句组成的单句集合对标注文本进行数据增强,即利用同一类别标签下的标注文本的单句组成的单句集合对标注文本进行相互之间的数据增强,无需引入外部数据,避免数据增强过程中标注文本的污染;进一步从数据增强获得的新增文本中筛选类别标签与对应的标注文本的类别标签相同的新增文本作为目标文本,避免目标文本中包括无法确定类别标签的脏数据。
可以看出,在本申请实施例中,从目标文本和文本集合中的标注文本出发进行文本类别识别模型的训练,其中,目标文本是在基于标注文本进行数据增强后获得的多个新增文本中筛选出的类别标签和标注文本的类别标签相同的新增文本,通过筛选剔除掉新增文本中无法确定类别标签的脏数据,对标注文本进行数据增强的过程中,从文本集合中的标注文本出发,按照文本集合中标注文本的类别标签将文本集合划分为文本子集合,并对各文本子集合中的标注文本进行单句切分,获得各文本子集合的单句集合,利用各文本子集合的单句集合对各文本子集合中的标注文本进行数据增强,无需引入外部数据,避免数据增强过程中标注文本的污染,最后,通过将筛选获得的目标文本与标注文本结合进行模型训练,增加了模型训练的样本,在此基础上提升训练获得的文本类别识别模型泛化能力和识别准确率。
可以看出,在本申请实施例中,利用基于目标文本和文本集合中的标注文本两部分数据进行模型训练获得的文本类别识别模型对待识别文本进行文本类别识别,提升对待识别文本进行文本类别的准确性,其中,按照文本集合中标注文本的类别标签将文本集合划分为文本子集合,并对各文本子集合中的标注文本进行单句切分获得各文本子集合的单句集合,基于各文本子集合的单句集合对各文本子集合中的标注文本进行数据增强,无需引入外部数据,避免对标注文本造成污染,在对标注文本进行数据增强获得多个新增文本后,筛选类别标签与对应的标注文本的类别标签相同的目标文本,以此,剔除掉新增文本中无法确定类别标签的脏数据。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图;
图1为本申请实施例提供的一种数据增强处理方法处理流程图;
图2为本申请实施例提供的一种数据增强处理处理过程的示意图;
图3为本申请实施例提供的一种应用于文本集合构建场景的数据增强处理方法处理流程图;
图4为本申请实施例提供的一种应用于文本类别识别场景的数据增强处理方法处理流程图;
图5为本申请实施例提供的一种应用于关键词识别场景的数据增强处理方法处理流程图;
图6为本申请实施例提供的一种模型训练方法处理流程图;
图7为本申请实施例提供的一种文本类别识别方法处理流程图;
图8为本申请实施例提供的一种数据增强处理装置示意图;
图9为本申请实施例提供的一种模型训练装置示意图;
图10为本申请实施例提供的一种文本类别识别装置示意图;
图11为本申请实施例提供的一种数据增强处理设备的结构示意图;
图12为本申请实施例提供的一种模型训练设备的结构示意图;
图13为本申请实施例提供的一种文本类别识别设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请的保护范围。
实际应用中,在对文本集合中的标注文本进行数据增强的过程中,往往需要引入大量的外部数据来进行数据增强,引入外部数据通常会引入噪声,造成对数据的污染,且在引入外部数据的情况下,会造成新增文本中的语序发生变化,导致新增文本的语义无法控制。
针对于此,为了避免在数据增强过程中引入外部数据导致的数据污染,提升基于数据增强后获得的新增文本的有效性,本实施例提供的数据增强处理方法,首先将文本集合中的标注文本按照对应的类别标签进行划分,获得各类别标签对应的文本子集合,然后对各类别标签对应的文本子集合中的标注文本进行单句切分,获得各类别标签对应的单句集合,也即是各文本子集合的单句集合;为了在不引入外部数据的情况下进行数据增强,针对任一类别标签对应的文本子集合,在进行数据增强的过程中,利用该类别标签对应的单句集合对该类别标签对应的文本子集合中的标注文本的单句进行增加或者替换,以得到该标注文本对应的新增文本;
通过上述数据增强的方式,对各类别标签对应的文本子集合中各标注文本进行数据增强,获得各标注文本对应的新增文本;为了进一步避免数据污染,在获得各标注文本对应的新增文本后,将新增文本输进行识别,获得新增文本的类别标签,在新增文本中筛选出类别标签与对应的标注文本的类别标签相同的新增文本,以此,通过对新增文本进行筛选剔除新增文本中无法判断类别标签的脏数据。
参照图1,本实施例提供的数据增强处理方法,具体包括步骤S102至步骤S110。
步骤S102,按照文本集合中标注文本的类别标签,将所述文本集合划分为与所述类别标签对应的文本子集合。
本实施例中所述文本集合,包括用于训练第一文本类别识别模型的标注文本组成的集合;其中,标注文本包括携带类别标签的文本;根据语义或者其他因素可将文本划分为不同的类别(比如:体育类、音乐类),因此,对文本进行类别标签的标注获得标注文本。
具体实施时,在按照文本集合中标注文本的类别标签,将文本集合划分为与类别标签对应的文本子集合之前,基于文本集合中的标注文本训练第一文本类别识别模型,为了提升识别准确率,进行数据增强,获得更多用于进行模型训练的标注文本;其中,在训练第一文本类别识别模型的过程中,可采用LR(Logistic Regression,逻辑回归)、TextCNN(ConvolutionalNeuralNetworks,卷积神经网络)、BERT(BidirectionalEncoderRepresentationsfromTransformers,双向编码器表征)和LSTM(Long Short-Term Memory,长短期记忆网络)等方法进行模型训练,本实施例在此不做限定。
在按照文本集合中标注文本的类别标签,将文本集合划分为与类别标签对应的文本子集合后,每个文本子集合中的标注文本的类别标签相同。
例如,文本集合中的标注文本的类别标签包括“体育类别”、“新闻类别”、“音乐类别”三个类别,则将文本集合中类别标签为“体育类别”的标注文本划分至“体育类别”对应的文本子集合中,将文本集合中类别标签为“新闻类别”的标注文本划分至“新闻类别”对应的文本子集合中,以及将文本集合中类别标签为“音乐类别”的标注文本划分至“音乐类别”对应的文本子集合中。
步骤S104,对各文本子集合中的标注文本进行单句切分,获得所述各文本子集合的单句集合。
本实施例中的单句,包括由短语或单个的词构成的句子,有特定的语调,能独自表达一定意思的语言单位,单句为不可再分出分句的句子。
具体实施时,在获得类别标签对应的文本子集合后,为了避免在数据增强过程中引入外部数据造成数据污染,针对任一类别标签对应的文本子集合,利用该类别标签对应的单句集合中的单句对文本子集合中的标注文本进行数据增强,因此,在获得各类别标签对应的文本子集合后,对各类别标签对应的文本子集合进行单句切分,获得各类别标签对应的单句集合。
为了保证进行单句切分后获得的单句能独立表达一定的意思,能够表达一定的语义,设定单句切分标识进行单句切分,本实施例提供的一种可选实施方式中,采用如下方式进行单句切分,获得各文本子集合的单句集合,也即是各类别标签对应的单句集合:
按照单句切分标识对所述各文本子集合中的标注文本进行单句切分,获得所述各文本子集合的第一单句集合;
对所述各文本子集合的第一单句集合中的单句进行去重处理,获得所述各文本子集合的单句集合。
所述单句切分标识,包括进行切分的标点符号;例如逗号、句号、问号、感叹号和分号。
以一个类别标签对应的文本子集合为例对单句切分的过程进行说明。对文本子集合中的标注文本,按照单句切分标识,即标点符号进行单句划分,获得各标注文本的单句,进而获得该文本子集合的第一单句集合,在获得第一单句集合之后,为了避免存在重复单句导致后续基于单句集合进行数据增强的过程中得到质量较差的新增文本,对第一单句集合进行去重处理,获得单句集合,单句集合中的每个单句都是唯一的。
除此之外,还可按照切分规则对文本子集合中的标注文本进行单句切分,获得各文本子集合的第一单句集合。例如,切分规则为:如果标注文本中仅有一个标点符号,则表明该标注文本不需要进行切分,直接将该标注文本作为一个单句写入第一单句集合中;若标注文本中包含多个标点,则按照标点位置进行单句切分,将获得的改标注文本的多个单句写入第一单句集合中;其中,标点只包括逗号、问号、感叹号、句号和分号。
以上述切分规则为例,“体育类别”对应的文本子集合中包含文本“u1喜欢打篮球”和文本“u1喜欢打篮球,u2喜欢跆拳道”,按照上述切分规则,文本“u1喜欢打篮球”不需要切分,则将其写入“体育类别”对应的第一单句集合中;文本“u1喜欢打篮球,u2喜欢跆拳道”需要进行切分,按照逗号进行切分后获得单句“u1喜欢打篮球”和单句“u2喜欢跆拳道”,将单句“u1喜欢打篮球”和单句“u2喜欢跆拳道”写入“体育类别”对应的第一单句集合中;获得第一单句集合{“u1喜欢打篮球”,“u1喜欢打篮球”,“u2喜欢跆拳道”},对第一单句集合进行去重处理,获得“体育类别”对应的单句集合{“u1喜欢打篮球”,“u2喜欢跆拳道”}。
步骤S106,基于所述各文本子集合的单句集合,对所述各文本子集合中的标注文本进行数据增强,获得多个新增文本。
本实施例中,所述数据增强,包括利用各文本子集合的单句集合对各文本子集合中的标注文本进行编辑得到对应的新增文本的过程;其中,数据增强包括替换处理和添加处理两种,具体的编辑方式根据标注文本包含的单句的第一数目(单句数目)确定。
具体实施时,在获得各文本子集合的单句集合后,基于各文本子集合的单句集合,对各文本子集合中的标注文本进行数据增强,获得多个新增文本,其中,新增文本与标注文本对应。
为了避免在数据增强过程中引入外界数据导致数据污染,保证文本序列不变,最大限度避免获得的新增文本的类别发生变化,本实施例提供的一种可选实施方式中,针对各文本子集合中任一文本子集合中的任一标注文本,采用如下方式实现数据增强:
获取所述任一标注文本中包含的单句的第一数目;
若所述第一数目小于或者等于预设阈值,则在所述任一文本子集合的单句集合中确定所述预设阈值对应数目的目标单句;将所述目标单句添加至所述任一标注文本,并将添加处理后获得的文本作为所述任一标注文本对应的新增文本。
若所述第一数目大于所述预设阈值,则通过预设算法确定第二数目,所以第二数目用于在所述任一文本子集合的单句集合中筛选所述第二数目对应数目的单句作为替换单句;基于所述替换单句对所述任一标注文本中的单句进行替换处理,并将替换处理后获得的文本作为所述任一标注文本对应的新增文本。
具体的,在数据增强的过程中,不对单句中的词或者字的顺序进行变动,虽然进行了单句的增加或者替换,但增加或者替换的单句中的词或者字的顺序没有发生变化,以此来保证文本序列不变。
在对任一标注文本进行数据增强的过程中,首先通过统计获取任一标注文本中包含的第一数目;然后确定第一数目对应的增强方式;再基于增强方式对任一标注文本进行数据增强。
其中,若第一数目等于或者小于预设阈值,则确定对应的增强方式为添加方式,基于添加方式进行数据增强的过程中,在任一文本子集合的单句集合中随机筛选出与预设阈值对应数目的单句,将筛选获得的单句添加至任一标注文本中,获得任一标注文本对应的新增文本;
若第一数目大于预设阈值,则确定对应的增强方式为替换方式,在基于替换方式进行数据增强的过程中,首先基于第一数目计算第二数目,然后在任一文本子集合的单句集合中随机选择第二数目对应的单句作为替换单句,基于替换单句对任一标注文本中的单句进行替换处理,获得任一标注文本对应的新增文本;所述第二数目,包括标注文本中需要进行替换处理单句的数目。
进一步,为了提升替换效率,本实施例提供的一种可选实施方式中,采用如下方式实现基于替换单句对任一标注文本中的单句进行替换处理:
通过随机算法生成小于所述单句数目的随机数;
确定所述任一标注文本中单句顺序编号与所述随机数相等的待替换单句,并将所述待替换单句替换为所述替换单句。
即在进行替换处理的过程中,通过随机算法生成第二数目小于第一数目的随机数,将任一标注文本中单句顺序编号为随机数的待替换单句替换为替换单句。
例如,预设阈值为1,针对一个标注文本,统计该标注文本中包含的单句数目为N,若N=1,则在该标注文本所属的文本子集合的单句集合中随机选择1(K=1)个单句,并将该单句添加至标注文本,获得该标注文本对应的新增文本;若N>1,则计算第二数目即N/2向下取整,计算获得K后,在该标注文本所属的文本子集合的单句集合中随机选择K个单句作为替换单句,通过随机算法在[0,N]中随机生成K个整数,确定的整数即为标注文本中待替换的单句的位置,将标注文本中待替换的单句替换成替换单句,获得标注文本对应的新增文本。
在获得各标注文本对应的新增文本后,为了避免新增文本与文本集合中的文本重复,查询文本集合中是否存在新增文本,若是,则按照上述方式重新对标注文本进行数据增强,获得标注文本对应的新增文本;若否,则无需重新进行数据增强,将该新增文本确定为标注文本对应的新增文本即可。
需要说明的是,上述对于数据增强的说明仅仅是以任一文本子集合中的任一标注文本为例进行说明,具体实施时,对于各文本子集合中各标注文本,采用上述方式进行数据增强,获得所述多个新增文本。
步骤S108,识别所述多个新增文本的类别标签,并在所述多个新增文本中筛选类别标签与对应的标注文本的类别标签相同的目标文本。
本实施例中,通过对用于训练第一文本类别识别模型的标注文本进行数据增强,得到各标注文本对应的新增文本,利用获得的新增文本和标注文本构建目标文本集合,进而根据获得的新增文本和标注文本训练文本类别识别模型,通过对样本(标注文本)进行数据增强,获得更多样本,进而训练优于第一文本类别识别模型的文本类别识别模型。
基于此,在获得多个新增文本后,为了剔除掉新增文本中无法确定类别标签的新增文本,即为了保证训练的文本类别识别模型的识别性能优于只基于文本集合中的标注样本训练获得的第一文本类别识别模型,对多个新增文本进行类别标签的识别,并在多个新增文本中筛选出类别标签与对应的标注文本的类别标签的相同的目标文本。所述目标文本,包括新增文本中第一文本类别识别模型输出的类别标签与该新增文本对应的标注文本的类别标签一致的新增文本。
本实施例提供的一种可选实施方式中,通过如下方式识别多个新增文本的类别标签:
将所述多个新增文本输入第一文本类别识别模型进行文本类别识别,输出所述多个新增文本各自的类别标签;
其中,所述第一文本类别识别模型基于所述文本集合中的标注文本训练获得。
具体的,为了提升目标文本集合中的目标文本的有效性,提升训练文本类别识别模型的新增文本的有效性,将多个新增文本输入第一文本类别识别模型进行文本类别识别,输出多个新增文本中各个新增文本的类别标签;比对第一文本类别识别模型输出的各新增文本的类别标签与各新增文本对应的标注文本的类别标签是否一致,若不一致,则删除该新增文本;若一致,则将该新增文本确定为筛选获得的目标文本。以此,对新增文本进行筛选,剔除易混淆的新增文本(即:类别不明确的新增文本),也即是舍弃掉类别发生变化的新增文本,避免造成数据污染。
步骤S110,根据所述目标文本和所述文本集合中的标注文本构建目标文本集合。
本实施例中筛选获得的目标文本,包括经过第一文本类别识别模型进行文本类别识别之后输出的类别标签与对应的标注文本的类别标签相同的新增文本。
具体实施时,将筛选获得的目标文本进行类别标记后放入目标文本集合中,目标文本集合中是携带有类别标签的目标文本和文本集合中的标注文本;基于目标文本集合中的目标文本和标注文本训练文本类别识别模型。训练文本类别识别模型的方式与上述训练第一文本类别识别模型的方式相同,对文本类别识别模型进行训练的方式请参照上述对第一文本类别识别模型的训练方式,本实施例在此不再赘述。
本实施例中,首先基于文本集合中的标注文本进行模型训练,获得第一文本类别识别模型,然后通过数据增强模块对标注文本进行数据增强,将对标注文本进行数据增强获得的多个新增文本输入第一文本类别识别模型进行文本类别识别,输出多个新增文本的类别标签,在多个新增文本中筛选类别标签与对应的标注文本的类别标签相同的目标文本,基于目标文本和标注文本进行模型训练获得文本类别识别模型。
在获得文本类别识别模型之后,为了核验训练获得的文本类别识别模型的识别指标,即识别准确率,进一步核验文本类别识别模型相对于第一文本类别识别模型的性能优化结果,本实施例提供的一种可选实施方式中,在训练文本类别识别模型后,还执行如下操作:
将测试文本集合中的测试文本输入文本类别识别模型进行文本类别识别,输出所述测试文本的类别标签;所述文本类别识别模型基于所述文本集合中的标注文本训练获得;
基于所述测试文本的类别标签和所述测试文本的标注类别标签,计算所述文本类别识别模型的第一识别指标;
若所述第一识别指标大于第二识别指标且小于目标阈值,则对所述目标文本进行数据增强,获得第一目标文本;基于所述第一目标文本对所述文本类别识别模型进行训练,得到目标文本类别识别模型;
若所述第一识别指标小于或者等于所述第二识别指标,则对所述文本集合中的标注文本进行数据增强,获得第二目标文本;根据所述第二目标文本和所述文本集合中的标注文本构建第一目标文本集合,即基于所述第二目标文本和所述文本集合中的标注文本训练第二文本类别识别模型。
其中,所述第二识别指标基于所述标注类别标签和所述测试文本的第二类别标签计算获得;所述测试文本的第二类别标签由第一文本类别识别模型对所述测试文本进行文本类别识别后输出。
所述第二识别指标基于所述标注类别标签和将所述测试文本输入第一文本类别识别模型进行文本类别识别输出的所述测试文本的类别标签计算获得。具体的,利用测试文本集合中的测试文本对文本类别识别模型和第一文本类别识别模型进行测试,根据测试文本的标注类别标签和文本类别识别模型输出的测试文本的类别标签计算文本类别识别模型的第一识别准确率;根据标注类别标签和第一文本类别识别模型输出的测试文本的类别标签计算第一文本类别识别模型的第二识别准确率;
若第一识别准确率大于准确率阈值,则确定训练获得的文本类别识别模型符合条件,利用文本类别识别模型进行文本类别识别即可;
若第一识别准确率大于第二识别准确率小于准确率阈值,则确定训练获得的文本类别识别模型比第一文本类别识别模型的效果好但还未符合条件,对目标文本进行数据增强,获得多个第一新增文本,对多个第一新增文本进行识别和筛选,利用筛选获得的第一目标文本训练文本类别识别模型,即利用第一目标文本对文本类别识别模型进行迭代优化,获得目标文本类别识别模型;或者,对目标文本和标注数据进行数据增强,并利用增强和筛选后的文本重新训练文本类别识别模型;
需要说明的是,对于新增文本的数据增强方式,与上述对标注文本的数据增强方式一致,请参照上述对标注文本的数据增强方式对新增文本进行数据增强,获得各新增文本对应的第一新增文本,具体的数据增强方式本实施例在此不再赘述。
若第一识别准确率小于第二识别准确率,则说明文本类别识别模型的识别效果差于第一文本类别识别模型的识别效果,则说明基于目标文本的训练并未提升模型效果,因此,将目标文本删除,重新对文本集合中的标注数据进行数据增强,获得第二新增文本,对第二新增文本进行识别筛选获得第二目标文本后,利用第二目标文本和文本集合中的标注文本按照上述对第一文本类别识别模型的训练方式重新训练第二文本类别识别模型。
在获得第二文本类别识别模型后,对第二文本类别识别模型对测试文本集合中的测试文本的识别准确率和第一文本别识别模型对测试文本集合中的测试文本的识别准确率进行比较,并根据比较结果确定第二文本类别识别模型为满足条件的文本类别识别模型,或者对第二文本类别识别模型进行迭代优化,或者重新对文本集合中的标注文本进行数据增强,训练第三文本类别识别模型,直至获得满足条件的文本类别识别模型。
以文本集合中包含2397个标注文本进行试验,基于文本集合中的标注文本进行模型训练,获得文本类别识别模型m,对文本集合中的标注文本进行数据增强,获得标注文本和对应的新增文本共2397+2397=4794个标注文本,利用4794个标注文本进行模型训练获得文本类别识别模型M1,继续对新增文本进行数据增强获得和标注文本一起的4794+2397=7191个标注文本,利用7191个标注文本进行模型训练获得文本类别识别模型M2,继续进行数据增强获得7191+2397=9588个用于对文本类别识别模型M2进行训练的标注文本,基于9588个标注样本进行模型训练获得文本类别识别模型M3,利用文本类别识别模型m,文本类别识别模型M1,文本类别识别模型M2和文本类别识别模型M3对同一测试文本集合中的测试文本进行文本类别识别,并根据识别结果计算各文本类别识别模型的识别准确率如下表所示:
文本类别识别模型 | 数据增强 | 标注文本数 | 识别准确率 |
m | 标注文本 | 2397 | 86.14% |
M1 | 标注文本增加1倍 | 4794 | 87.58% |
M2 | 标注文本增加2倍 | 7191 | 88.46% |
M3 | 标注文本增加3倍 | 9588 | 88.82% |
由上表可知,文本类别识别模型M1,文本类别识别模型M2,文本类别识别模型M3对测试文本的识别准确率均高于文本类别识别模型m;且可以看出,随着标注文本数的不断增加,文本类别识别模型的识别准确率的增长加速度逐渐平缓,说明在标注文本增加2倍的情况下获得的文本类别识别模型的识别准确率到达瓶颈,如果继续增加标注文本,可能会导致获得的文本类别识别模型过拟合,进而导致识别准确率下降,因此,对标注文本的增加倍数小于或者等于3。若需要进一步提升文本类别识别模型的识别准确率,可使用其他方式对识别准确率进行提升,例如引入其他相似数据,丰富文本集合,或者使用其他网络结构进行模型训练。
除此之外,本实施例提供的数据增强处理方法,除了应用于文本类别识别模型的训练场景,还可通过调整适应于其他应用场景,例如,应用于序列标注任务场景(即关键词识别场景),若应用于关键词识别场景,则在获得多个新增文本后,识别多个新增文本之前,判断多个新增文本中是否包含关键词;若包含,则保留该新增文本,若不包含,则舍弃该新增文本,以对关键词的正样本进行增强,进而丰富正样本,避免引入过多不含关键词的负样本,造成数据污染。
下述以本实施例提供的一种数据增强处理方法在文本集合构建场景的应用为例,对本实施例提供的数据增强处理方法进行进一步说明,参见图3,应用于文本集合构建场景的数据增强处理方法,具体包括步骤S302至步骤S316。
步骤S302,按照文本集合中标注文本的类别标签,将文本集合划分为各类别标签对应的文本子集合。
其中,数据供应商基于文本集合中的标注文本对文本集合中的标注文本进行数据增强,获得各标注文本对应的新增文本。
步骤S304,按照划分规则对各文本子集合中的标注文本进行单句切分,获得各类别标签对应的第一单句集合。
步骤S306,对第一单句集合进行去重处理,获得各类别标签对应的单句集合。
步骤S308,根据各类别标签对应文本子集合中各标注文本的单句数目,确定各标注文本的增强方式。
步骤S310,基于各类别标签对应的单句集合和各类别标签对应的文本子集合中各标注文本的增强方式,对各标注文本进行数据增强,获得多个候选新增文本。
其中,一个标注文本对应一个候选新增文本。
步骤S312,基于文本集合中的标注文本,对多个候选新增文本进行去重处理,获得多个新增文本。
步骤S314,识别多个新增文本的类别标签,并筛选出多个新增文本中类别标签和对应的标注文本的类别标签相同的目标文本。
步骤S316,根据目标文本和文本集合中的标注文本构建目标文本集合。
其中,目标文本集合中的目标文本已标注类别标签。
下述以本实施例提供的一种数据增强处理方法在文本类别识别场景的应用为例,结合图2对本实施例提供的数据增强处理方法进行进一步说明,参见图4,应用于文本类别识别场景的数据增强处理方法,具体包括步骤S402至步骤S418。
步骤S402,按照文本集合中标注文本的类别标签,将文本集合划分为各类别标签对应的文本子集合。
如图2所示,基于标注文本进行模型训练,获得第一文本类别识别模型,再将标注文本输入数据增强模块进行数据增强。
步骤S404,按照划分规则对各文本子集合中的标注文本进行单句切分,获得各类别标签对应的第一单句集合。
步骤S406,对第一单句集合进行去重处理,获得各类别标签对应的单句集合。
步骤S408,根据各类别标签对应文本子集合中各标注文本的单句数目,确定各标注文本的增强方式。
步骤S410,基于各类别标签对应的单句集合和各类别标签对应的文本子集合中各标注文本的增强方式,对各标注文本进行数据增强。
步骤S412,判断文本集合中是否存在与任一标注文本对应的新增文本一致的标注文本;
若是,则舍弃任一标注文本对应的新增文本,对任一标注文本重新进行数据增强;
若否,则执行步骤S414至步骤S418。
步骤S414,将各标注文本对应的新增文本输入第一文本类别识别模型进行文本类别识别,输出各新增文本的类别标签。
其中,第一文本类别识别模型基于文本集合中的标注文本训练获得。
如图2所示,数据增强模块通过步骤S402至步骤S412进行数据增强,在数据增强后将新增文本输入第一文本类别识别模型进行文本类别识别,输出新增文本的类别标签。
步骤S416,在各标注文本对应的新增文本中筛选类别标签与对应的标注文本的类别标签相同的目标文本。
步骤S418,根据目标文本和文本集合中的标注文本训练文本类别识别模型。
如图2所示,根据第一文本类别识别模型输出的新增文本的类别标签,筛选类别标签与对应的标注文本的类别标签一致的新增文本,剔除新增文本中的脏数据,避免标注文本被污染,然后基于筛选获得的新增文本和文本集合中的标注文本训练文本类别识别模型,通过增加模型训练的样本提升训练获得的文本类别识别模型的繁华能力和识别准确率。
下述以本实施例提供的一种数据增强处理方法在关键词识别场景的应用为例,对本实施例提供的数据增强处理方法进行进一步说明,参见图5,应用于关键词识别场景的数据增强处理方法,具体包括步骤S502至步骤S516。
步骤S502,按照文本集合中标注文本的关键词标签,将文本集合划分为各关键词标签对应的文本子集合。
步骤S504,按照切分规则对文本子集合中的标注文本进行单句切分,获得各文本子集合的第一单句集合。
步骤S506,对第一单句集合进行去重处理,获得各文本子集合的单句集合。
步骤S508,基于各文本子集合的单句集合,对各文本子集合中的标注文本进行数据增强,获得多个新增文本。
步骤S510,判断多个新增文本中是否存在不包含关键词的新增文本;
若是,则舍弃不包含关键词的新增文本;
若否,则执行步骤S512至步骤S516。
步骤S512,将多个新增文本输入基于文本集合中的标注文本训练获得的第一关键词识别模型进行关键词识别,输出各新增文本的关键词。
步骤S514,在多个新增文本中筛选第一关键词识别模型输出的关键词与对应的标注文本的关键词相同的目标文本。
步骤S516,根据目标文本和文本集合中的标注文本训练关键词识别模型。
通过上述方式进行关键词识别模型的训练,对标注文本进行分类,并按照各个关键词标签下的文本子集合的单句集合对文本子集合中的标注文本进行数据增强,避免引入外部数据导致的标注文本污染,进而影响训练获得的关键词识别模型的识别效果,此外,在数据增强获得新增文本后将不包含关键词的新增文本删除,避免引入过度不包含关键词的负样本,导致标注文本污染,最后将标注文本和筛选获得的新增文本结合进行模型训练,提升训练获得的关键词识别模型的泛化能力和关键词识别准确率。
参照图6,本实施例提供的模型训练方法,具体包括步骤S602至步骤S604。
步骤S602,获取目标文本和文本集合中的标注文本。
本实施例中,所述目标文本包括在多个新增文本中筛选出的类别标签与对应的标注文本的类别标签相同的新增文本;所述多个新增文本基于各文本子集合的单句集合对所述各文本子集合中的标注文本进行数据增强获得,所述各文本子集合基于所述文本集合中的标注文本的类别标签划分获得,所述单句集合通过对所属的文本子集合中的标注文本进行单句切分获得所述文本集合,包括用于训练第一文本类别识别模型的标注文本组成的集合;其中,标注文本包括携带类别标签的文本;根据语义或者其他因素可将文本划分为不同的类别(比如:体育类、音乐类),因此,对文本进行类别标签的标注获得标注文本。
具体实施时,模型训练商在进行模型训练的过程中,首先获取数据供应商的文本集合中的标注文本和对标注文本进行数据增强后获得的目标文本。下述对数据供应商对文本集合中的标注文本进行数据增强的过程进行具体说明。
需要说明的是,文本集合中的标注文本为训练第一文本类别识别模型的样本,为了提升模型的识别准确率,对标注数据进行数据增强,以获得更多用于进行文本类别识别模型的标注文本,其中,在训练第一文本类别识别模型的过程中,可采用LR(LogisticRegression,逻辑回归)、TextCNN(ConvolutionalNeuralNetworks,卷积神经网络)、BERT(BidirectionalEncoder RepresentationsfromTransformers,双向编码器表征)和LSTM(Long Short-Term Memory,长短期记忆网络)等方法进行模型训练,本实施例在此不做限定。
在对标注文本进行数据增强的过程中,首先按照文本集合中标注文本的类别标签,将文本集合划分为与类别标签对应的文本子集合,在按照文本集合中标注文本的类别标签,将文本集合划分为与类别标签对应的文本子集合后,每个文本子集合中的标注文本的类别标签相同。
例如,文本集合中的标注文本的类别标签包括“体育类别”、“新闻类别”、“音乐类别”三个类别,则将文本集合中类别标签为“体育类别”的标注文本划分至“体育类别”对应的文本子集合中,将文本集合中类别标签为“新闻类别”的标注文本划分至“新闻类别”对应的文本子集合中,以及将文本集合中类别标签为“音乐类别”的标注文本划分至“音乐类别”对应的文本子集合中。
在将文本集合划分为与类别标签对应的文本子集合后,对各文本子集合中的标注文本进行单句切分,获得各文本子集合的单句集合。本实施例中的单句,包括由短语或单个的词构成的句子,有特定的语调,能独自表达一定意思的语言单位,单句为不可再分出分句的句子。
具体实施时,在获得类别标签对应的文本子集合后,为了避免在数据增强过程中引入外部数据造成数据污染,针对任一类别标签对应的文本子集合,利用该类别标签对应的单句集合中的单句对文本子集合中的标注文本进行数据增强,因此,在获得各类别标签对应的文本子集合后,对各类别标签对应的文本子集合进行单句切分,获得各类别标签对应的单句集合。
为了保证进行单句切分后获得的单句能独立表达一定的意思,能够表达一定的语义,设定单句切分标识进行单句切分,本实施例中,采用如下方式进行单句切分,获得各文本子集合的单句集合,也即是各类别标签对应的单句集合:
按照单句切分标识对所述各文本子集合中的标注文本进行单句切分,获得所述各文本子集合的第一单句集合;
对所述各文本子集合的第一单句集合中的单句进行去重处理,获得所述各文本子集合的单句集合。
所述单句切分标识,包括进行切分的标点符号;例如逗号、句号、问号、感叹号和分号。
以一个类别标签对应的文本子集合为例对单句切分的过程进行说明。对文本子集合中的标注文本,按照单句切分标识,即标点符号进行单句划分,获得各标注文本的单句,进而获得该文本子集合的第一单句集合,在获得第一单句集合之后,为了避免存在重复单句导致后续基于单句集合进行数据增强的过程中得到质量较差的新增文本,对第一单句集合进行去重处理,获得单句集合,单句集合中的每个单句都是唯一的。
除此之外,还可按照切分规则对文本子集合中的标注文本进行单句切分,获得各文本子集合的第一单句集合。例如,切分规则为:如果标注文本中仅有一个标点符号,则表明该标注文本不需要进行切分,直接将该标注文本作为一个单句写入第一单句集合中;若标注文本中包含多个标点,则按照标点位置进行单句切分,将获得的改标注文本的多个单句写入第一单句集合中;其中,标点只包括逗号、问号、感叹号、句号和分号。
以上述切分规则为例,“体育类别”对应的文本子集合中包含文本“u1喜欢打篮球”和文本“u1喜欢打篮球,u2喜欢跆拳道”,按照上述切分规则,文本“u1喜欢打篮球”不需要切分,则将其写入“体育类别”对应的第一单句集合中;文本“u1喜欢打篮球,u2喜欢跆拳道”需要进行切分,按照逗号进行切分后获得单句“u1喜欢打篮球”和单句“u2喜欢跆拳道”,将单句“u1喜欢打篮球”和单句“u2喜欢跆拳道”写入“体育类别”对应的第一单句集合中;获得第一单句集合{“u1喜欢打篮球”,“u1喜欢打篮球”,“u2喜欢跆拳道”},对第一单句集合进行去重处理,获得“体育类别”对应的单句集合{“u1喜欢打篮球”,“u2喜欢跆拳道”}。
在获得各文本子集合的单句集合后,基于所述各文本子集合的单句集合,对所述各文本子集合中的标注文本进行数据增强,获得多个新增文本。
本实施例中,所述数据增强,包括利用各文本子集合的单句集合对各文本子集合中的标注文本进行编辑得到对应的新增文本的过程;其中,数据增强包括替换处理和添加处理两种,具体的编辑方式根据标注文本包含的单句的第一数目(单句数目)确定。
具体实施时,在获得各文本子集合的单句集合后,基于各文本子集合的单句集合,对各文本子集合中的标注文本进行数据增强,获得多个新增文本,其中,新增文本与标注文本对应。
为了避免在数据增强过程中引入外界数据导致数据污染,保证文本序列不变,最大限度避免获得的新增文本的类别发生变化,本实施例中,针对各文本子集合中任一文本子集合中的任一标注文本,采用如下方式实现数据增强:
获取所述任一标注文本中包含的单句的第一数目;
若所述第一数目小于或者等于预设阈值,则在所述任一文本子集合的单句集合中确定所述预设阈值对应数目的目标单句;将所述目标单句添加至所述任一标注文本,并将添加处理后获得的文本作为所述任一标注文本对应的新增文本。
若所述第一数目大于所述预设阈值,则通过预设算法确定第二数目,所以第二数目用于在所述任一文本子集合的单句集合中筛选所述第二数目对应数目的单句作为替换单句;基于所述替换单句对所述任一标注文本中的单句进行替换处理,并将替换处理后获得的文本作为所述任一标注文本对应的新增文本。
具体的,在数据增强的过程中,不对单句中的词或者字的顺序进行变动,虽然进行了单句的增加或者替换,但增加或者替换的单句中的词或者字的顺序没有发生变化,以此来保证文本序列不变。
在对任一标注文本进行数据增强的过程中,首先通过统计获取任一标注文本中包含的第一数目;然后确定第一数目对应的增强方式;再基于增强方式对任一标注文本进行数据增强。
其中,若第一数目等于或者小于预设阈值,则确定对应的增强方式为添加方式,基于添加方式进行数据增强的过程中,在任一文本子集合的单句集合中随机筛选出与预设阈值对应数目的单句,将筛选获得的单句添加至任一标注文本中,获得任一标注文本对应的新增文本;
若第一数目大于预设阈值,则确定对应的增强方式为替换方式,在基于替换方式进行数据增强的过程中,首先基于第一数目计算第二数目,然后在任一文本子集合的单句集合中随机选择第二数目对应的单句作为替换单句,基于替换单句对任一标注文本中的单句进行替换处理,获得任一标注文本对应的新增文本;所述第二数目,包括标注文本中需要进行替换处理单句的数目。
进一步,为了提升替换效率,本实施例提供的一种可选实施方式中,采用如下方式实现基于替换单句对任一标注文本中的单句进行替换处理:
通过随机算法生成小于所述单句数目的随机数;
确定所述任一标注文本中单句顺序编号与所述随机数相等的待替换单句,并将所述待替换单句替换为所述替换单句。
即在进行替换处理的过程中,通过随机算法生成第二数目小于第一数目的随机数,将任一标注文本中单句顺序编号为随机数的待替换单句替换为替换单句。
例如,预设阈值为1,针对一个标注文本,统计该标注文本中包含的单句数目为N,若N=1,则在该标注文本所属的文本子集合的单句集合中随机选择1(K=1)个单句,并将该单句添加至标注文本,获得该标注文本对应的新增文本;若N>1,则计算第二数目即N/2向下取整,计算获得K后,在该标注文本所属的文本子集合的单句集合中随机选择K个单句作为替换单句,通过随机算法在[0,N]中随机生成K个整数,确定的整数即为标注文本中待替换的单句的位置,将标注文本中待替换的单句替换成替换单句,获得标注文本对应的新增文本。
在获得各标注文本对应的新增文本后,为了避免新增文本与文本集合中的文本重复,查询文本集合中是否存在新增文本,若是,则按照上述方式重新对标注文本进行数据增强,获得标注文本对应的新增文本;若否,则无需重新进行数据增强,将该新增文本确定为标注文本对应的新增文本即可。
需要说明的是,上述对于数据增强的说明仅仅是以任一文本子集合中的任一标注文本为例进行说明,具体实施时,对于各文本子集合中各标注文本,采用上述方式进行数据增强,获得所述多个新增文本。
获得多个新增文本之后,为了剔除掉多个新增文本中的脏数据,识别多个新增文本的类别标签,并在多个新增文本中筛选类别标签与对应的标注文本的类别标签相同的目标文本。
本实施例中,通过对用于训练第一文本类别识别模型的标注文本进行数据增强,得到各标注文本对应的新增文本,利用获得的新增文本和标注文本构建目标文本集合,进而根据获得的新增文本和标注文本训练文本类别识别模型,通过对样本(标注文本)进行数据增强,获得更多样本,进而训练优于第一文本类别识别模型的文本类别识别模型。
基于此,在获得多个新增文本后,为了剔除掉新增文本中无法确定类别标签的新增文本,即为了保证训练的文本类别识别模型的识别性能优于只基于文本集合中的标注样本训练获得的第一文本类别识别模型,对多个新增文本进行类别标签的识别,并在多个新增文本中筛选出类别标签与对应的标注文本的类别标签的相同的目标文本。所述目标文本,包括新增文本中第一文本类别识别模型输出的类别标签与该新增文本对应的标注文本的类别标签一致的新增文本。
本实施例中,通过如下方式识别多个新增文本的类别标签:
将所述多个新增文本输入第一文本类别识别模型进行文本类别识别,输出所述多个新增文本各自的类别标签;
其中,所述第一文本类别识别模型基于所述文本集合中的标注文本训练获得。
具体的,为了提升目标文本集合中的目标文本的有效性,提升训练文本类别识别模型的新增文本的有效性,将多个新增文本输入第一文本类别识别模型进行文本类别识别,输出多个新增文本中各个新增文本的类别标签;比对第一文本类别识别模型输出的各新增文本的类别标签与各新增文本对应的标注文本的类别标签是否一致,若不一致,则删除该新增文本;若一致,则将该新增文本确定为筛选获得的目标文本。以此,对新增文本进行筛选,剔除易混淆的新增文本(即:类别不明确的新增文本),也即是舍弃掉类别发生变化的新增文本,避免造成数据污染。
最后,在筛选出目标文本后,根据所述目标文本和所述文本集合中的标注文本构建目标文本集合。本实施例中筛选获得的目标文本,包括经过第一文本类别识别模型进行文本类别识别之后输出的类别标签与对应的标注文本的类别标签相同的新增文本。
步骤S604,基于所述目标文本和所述标注文本训练文本类别识别模型。
具体实施时,数据供应商将筛选获得的目标文本进行类别标记后放入目标文本集合中,目标文本集合中是携带有类别标签的目标文本和文本集合中的标注文本。模型训练商获取目标文本和文本集合中的标注文本,并基于目标文本和标注文本训练文本类别识别模型。其中,训练文本类别识别模型的方式与上述训练第一文本类别识别模型的方式相同,对文本类别识别模型进行训练的方式请参照上述对第一文本类别识别模型的训练方式,本实施例在此不再赘述。
本实施例中,首先基于文本集合中的标注文本进行模型训练,获得第一文本类别识别模型,然后通过数据增强模块对标注文本进行数据增强,将对标注文本进行数据增强获得的多个新增文本输入第一文本类别识别模型进行文本类别识别,输出多个新增文本的类别标签,在多个新增文本中筛选类别标签与对应的标注文本的类别标签相同的目标文本,基于目标文本和标注文本进行模型训练获得文本类别识别模型。
在获得文本类别识别模型之后,为了核验训练获得的文本类别识别模型的识别指标,即识别准确率,进一步核验文本类别识别模型相对于第一文本类别识别模型的性能优化结果,本实施例提供的一种可选实施方式中,在训练文本类别识别模型后,还执行如下操作:
将测试文本集合中的测试文本输入文本类别识别模型进行文本类别识别,输出所述测试文本的类别标签;
基于所述测试文本的类别标签和所述测试文本的标注类别标签,得到所述文本类别识别模型的第一识别指标;
若所述第一识别指标大于第二识别指标且小于目标阈值,则对所述目标文本进行数据增强,得到第一目标文本;基于所述第一目标文本对所述文本类别识别模型进行训练,得到目标文本类别识别模型;
若所述第一识别指标小于或者等于所述第二识别指标,则对所述文本集合中的标注文本进行数据增强,获得第二目标文本;基于所述第二目标文本和所述文本集合中的标注文本训练第二文本类别识别模型;
其中,所述第二识别指标基于所述标注类别标签和所述测试文本的第二类别标签得到;所述第二类别标签由第一文本类别识别模型对所述测试文本进行文本类别识别后输出;所述第一文本类别识别模型基于所述文本集合中的标注文本训练获得。
所述第二识别指标基于所述标注类别标签和将所述测试文本输入第一文本类别识别模型进行文本类别识别输出的所述测试文本的类别标签计算获得。具体的,利用测试文本集合中的测试文本对文本类别识别模型和第一文本类别识别模型进行测试,根据测试文本的标注类别标签和文本类别识别模型输出的测试文本的类别标签计算文本类别识别模型的第一识别准确率;根据标注类别标签和第一文本类别识别模型输出的测试文本的类别标签计算第一文本类别识别模型的第二识别准确率;
若第一识别准确率大于准确率阈值,则确定训练获得的文本类别识别模型符合条件,利用文本类别识别模型进行文本类别识别即可;
若第一识别准确率大于第二识别准确率小于准确率阈值,则确定训练获得的文本类别识别模型比第一文本类别识别模型的效果好但还未符合条件,对目标文本进行数据增强,获得多个第一新增文本,对多个第一新增文本进行识别和筛选,利用筛选获得的第一目标文本训练文本类别识别模型,即利用第一目标文本对文本类别识别模型进行迭代优化,获得目标文本类别识别模型;或者,对目标文本和标注数据进行数据增强,并利用增强和筛选后的文本重新训练文本类别识别模型;
需要说明的是,对于新增文本的数据增强方式,与上述对标注文本的数据增强方式一致,请参照上述对标注文本的数据增强方式对新增文本进行数据增强,获得各新增文本对应的第一新增文本,具体的数据增强方式本实施例在此不再赘述。
若第一识别准确率小于第二识别准确率,则说明文本类别识别模型的识别效果差于第一文本类别识别模型的识别效果,则说明基于目标文本的训练并未提升模型效果,因此,将目标文本删除,重新对文本集合中的标注数据进行数据增强,获得第二新增文本,对第二新增文本进行识别筛选获得第二目标文本后,利用第二目标文本和文本集合中的标注文本按照上述对第一文本类别识别模型的训练方式重新训练第二文本类别识别模型。
在获得第二文本类别识别模型后,对第二文本类别识别模型对测试文本集合中的测试文本的识别准确率和第一文本别识别模型对测试文本集合中的测试文本的识别准确率进行比较,并根据比较结果确定第二文本类别识别模型为满足条件的文本类别识别模型,或者对第二文本类别识别模型进行迭代优化,或者重新对文本集合中的标注文本进行数据增强,训练第三文本类别识别模型,直至获得满足条件的文本类别识别模型。
以文本集合中包含2397个标注文本进行试验,基于文本集合中的标注文本进行模型训练,获得文本类别识别模型m,对文本集合中的标注文本进行数据增强,获得标注文本和对应的新增文本共2397+2397=4794个标注文本,利用4794个标注文本进行模型训练获得文本类别识别模型M1,继续对新增文本进行数据增强获得和标注文本一起的4794+2397=7191个标注文本,利用7191个标注文本进行模型训练获得文本类别识别模型M2,继续进行数据增强获得7191+2397=9588个用于对文本类别识别模型M2进行训练的标注文本,基于9588个标注样本进行模型训练获得文本类别识别模型M3,利用文本类别识别模型m,文本类别识别模型M1,文本类别识别模型M2和文本类别识别模型M3对同一测试文本集合中的测试文本进行文本类别识别,并根据识别结果计算各文本类别识别模型的识别准确率如下表所示:
文本类别识别模型 | 数据增强 | 标注文本数 | 识别准确率 |
m | 标注文本 | 2397 | 86.14% |
M1 | 标注文本增加1倍 | 4794 | 87.58% |
M2 | 标注文本增加2倍 | 7191 | 88.46% |
M3 | 标注文本增加3倍 | 9588 | 88.82% |
由上表可知,文本类别识别模型M1,文本类别识别模型M2,文本类别识别模型M3对测试文本的识别准确率均高于文本类别识别模型m;且可以看出,随着标注文本数的不断增加,文本类别识别模型的识别准确率的增长加速度逐渐平缓,说明在标注文本增加2倍的情况下获得的文本类别识别模型的识别准确率到达瓶颈,如果继续增加标注文本,可能会导致获得的文本类别识别模型过拟合,进而导致识别准确率下降,因此,对标注文本的增加倍数小于或者等于3。若需要进一步提升文本类别识别模型的识别准确率,可使用其他方式对识别准确率进行提升,例如引入其他相似数据,丰富文本集合,或者使用其他网络结构进行模型训练。
下述对数据供应商和模型训练商配合进行模型优化的过程进行说明。
(1)模型训练商从数据供应商获取文本集合中的标注文本并基于标注文本训练第一文本类别识别模型;
(2)模型训练商将测试集合中的测试文本输入第一文本类别识别模型进行文本类别识别,获得第一识别准确率;
(3)在第一识别准确率小于准确率阈值的情况下,数据供应商从文本集合中的标注文本出发,对文本集合中的标注文本进行数据增强,获得第一目标文本;
其中,在从文本集合中的标注文本出发,对文本集合中的标注文本进行数据增强的过程中,首先按照文本集合中标注文本的类别标签,将文本集合划分为各类别标签对应的文本子集合,然后对各文本子集合中的标注文本进行单句切分,获得各文本子集合的单句集合,基于各文本子集合的单句集合,对各文本子集合中的标注文本进行数据增强,获得多个新增文本,最后利用第一文本类别识别模型识别多个新增文本的类别标签,在多个新增文本中筛选出类别标签与对应的标注文本的类别标签相同的第一目标文本。
(4)模型训练商获取第一目标文本和文本集合中的标注文本训练第二文本类别识别模型;
(5)模型训练商将测试集合中的测试文本输入第二文本类别识别模型进行文本类别识别,获得第二识别准确率;
若第二识别准确率小于或者等于第一识别准确率,数据供应商则删除第一目标文本,重新从标注文本出发对标注文本进行数据增强,获得第二目标文本,模型训练商基于第二目标文本和标注文本训练第三文本类别识别模型;
若第二识别准确率大于第一识别准确率但小于准确率阈值,数据供应商则对从第一目标文本出发,对第一目标文本进行数据增强,获得第三目标文本,模型训练商基于第三目标文本对第二文本类别识别模型进行迭代优化;
若第二识别准确率高于准确率阈值,则将第二文本类别识别模型确定为用于进行文本类别识别的文本类别识别模型。
需要说明的是,数据供应商与模型训练商之间可通过接口的调用实现数据的传输,还可以为同一服务商同时实现数据供应和模型训练,本实施例在此不做限定。
参照图7,本实施例提供的文本类别识别方法,具体包括步骤S702至步骤S704。
步骤S702,获取待识别文本。
步骤S704,将所述待识别文本输入基于目标文本和文本集合中的标注文本训练获得的文本类别识别模型进行文本类别识别,输出所述待识别文本的类别标签。
本实施例中,所述目标文本包括在多个新增文本中筛选出的类别标签与对应的标注文本的类别标签相同的新增文本;所述多个新增文本基于各文本子集合的单句集合对所述各文本子集合中的标注文本进行数据增强获得,所述各文本子集合基于所述文本集合中的标注文本的类别标签划分获得,所述单句集合通过对所属的文本子集合中的标注文本进行单句切分获得。
具体实施时,在进行文本类别识别的过程中,在获取到待识别文本之后,将待识别文本输入基于目标文本和文本集合中的标注文本训练获得的文本类别识别模型进行文本类别识别,输出待识别文本的类别标签,需要说明的是,基于目标文本和文本集合中的标注文本训练获得的文本类别识别模型,泛化能力强,且识别准确率高。
下述对文本类别识别模型泛化能力强且识别准确率高的原因进行说明。
模型训练商在进行文本类别识别模型的训练过程中,首先获取数据供应商的文本集合中的标注文本和对标注文本进行数据增强后获得的目标文本。为了避免引入外部数据导致对标注数据的污染,数据供应商在对标注文本进行数据增强的过程中,从文本集合本身出发,利用文本集合中的标注文本对文本集合中的标注文本进行相互之间的数据增强,以此,避免数据污染,下述对数据供应商对文本集合中的标注文本进行数据增强的过程进行具体说明。
需要说明的是,文本集合中的标注文本为训练第一文本类别识别模型的样本,为了提升模型的识别准确率,对标注数据进行数据增强,以获得更多用于进行文本类别识别模型的标注文本,其中,在训练第一文本类别识别模型的过程中,可采用LR(LogisticRegression,逻辑回归)、TextCNN(ConvolutionalNeuralNetworks,卷积神经网络)、BERT(BidirectionalEncoder RepresentationsfromTransformers,双向编码器表征)和LSTM(Long Short-Term Memory,长短期记忆网络)等方法进行模型训练,本实施例在此不做限定。
在对标注文本进行数据增强的过程中,首先按照文本集合中标注文本的类别标签,将文本集合划分为与类别标签对应的文本子集合,在按照文本集合中标注文本的类别标签,将文本集合划分为与类别标签对应的文本子集合后,每个文本子集合中的标注文本的类别标签相同。
例如,文本集合中的标注文本的类别标签包括“体育类别”、“新闻类别”、“音乐类别”三个类别,则将文本集合中类别标签为“体育类别”的标注文本划分至“体育类别”对应的文本子集合中,将文本集合中类别标签为“新闻类别”的标注文本划分至“新闻类别”对应的文本子集合中,以及将文本集合中类别标签为“音乐类别”的标注文本划分至“音乐类别”对应的文本子集合中。
在将文本集合划分为与类别标签对应的文本子集合后,对各文本子集合中的标注文本进行单句切分,获得各文本子集合的单句集合。本实施例中的单句,包括由短语或单个的词构成的句子,有特定的语调,能独自表达一定意思的语言单位,单句为不可再分出分句的句子。
具体实施时,在获得类别标签对应的文本子集合后,为了避免在数据增强过程中引入外部数据造成数据污染,针对任一类别标签对应的文本子集合,利用该类别标签对应的单句集合中的单句对文本子集合中的标注文本进行数据增强,因此,在获得各类别标签对应的文本子集合后,对各类别标签对应的文本子集合进行单句切分,获得各类别标签对应的单句集合。
为了保证进行单句切分后获得的单句能独立表达一定的意思,能够表达一定的语义,设定单句切分标识进行单句切分,本实施例中,采用如下方式进行单句切分,获得各文本子集合的单句集合,也即是各类别标签对应的单句集合:
按照单句切分标识对所述各文本子集合中的标注文本进行单句切分,获得所述各文本子集合的第一单句集合;
对所述各文本子集合的第一单句集合中的单句进行去重处理,获得所述各文本子集合的单句集合。
所述单句切分标识,包括进行切分的标点符号;例如逗号、句号、问号、感叹号和分号。
以一个类别标签对应的文本子集合为例对单句切分的过程进行说明。对文本子集合中的标注文本,按照单句切分标识,即标点符号进行单句划分,获得各标注文本的单句,进而获得该文本子集合的第一单句集合,在获得第一单句集合之后,为了避免存在重复单句导致后续基于单句集合进行数据增强的过程中得到质量较差的新增文本,对第一单句集合进行去重处理,获得单句集合,单句集合中的每个单句都是唯一的。
除此之外,还可按照切分规则对文本子集合中的标注文本进行单句切分,获得各文本子集合的第一单句集合。例如,切分规则为:如果标注文本中仅有一个标点符号,则表明该标注文本不需要进行切分,直接将该标注文本作为一个单句写入第一单句集合中;若标注文本中包含多个标点,则按照标点位置进行单句切分,将获得的改标注文本的多个单句写入第一单句集合中;其中,标点只包括逗号、问号、感叹号、句号和分号。
以上述切分规则为例,“体育类别”对应的文本子集合中包含文本“u1喜欢打篮球”和文本“u1喜欢打篮球,u2喜欢跆拳道”,按照上述切分规则,文本“u1喜欢打篮球”不需要切分,则将其写入“体育类别”对应的第一单句集合中;文本“u1喜欢打篮球,u2喜欢跆拳道”需要进行切分,按照逗号进行切分后获得单句“u1喜欢打篮球”和单句“u2喜欢跆拳道”,将单句“u1喜欢打篮球”和单句“u2喜欢跆拳道”写入“体育类别”对应的第一单句集合中;获得第一单句集合{“u1喜欢打篮球”,“u1喜欢打篮球”,“u2喜欢跆拳道”},对第一单句集合进行去重处理,获得“体育类别”对应的单句集合{“u1喜欢打篮球”,“u2喜欢跆拳道”}。
在获得各文本子集合的单句集合后,基于所述各文本子集合的单句集合,对所述各文本子集合中的标注文本进行数据增强,获得多个新增文本。
本实施例中,所述数据增强,包括利用各文本子集合的单句集合对各文本子集合中的标注文本进行编辑得到对应的新增文本的过程;其中,数据增强包括替换处理和添加处理两种,具体的编辑方式根据标注文本包含的单句的第一数目(单句数目)确定。
具体实施时,在获得各文本子集合的单句集合后,基于各文本子集合的单句集合,对各文本子集合中的标注文本进行数据增强,获得多个新增文本,其中,新增文本与标注文本对应。
为了避免在数据增强过程中引入外界数据导致数据污染,保证文本序列不变,最大限度避免获得的新增文本的类别发生变化,本实施例中,针对各文本子集合中任一文本子集合中的任一标注文本,采用如下方式实现数据增强:
获取所述任一标注文本中包含的单句的第一数目;
若所述第一数目小于或者等于预设阈值,则在所述任一文本子集合的单句集合中确定所述预设阈值对应数目的目标单句;将所述目标单句添加至所述任一标注文本,并将添加处理后获得的文本作为所述任一标注文本对应的新增文本。
若所述第一数目大于所述预设阈值,则通过预设算法确定第二数目,所以第二数目用于在所述任一文本子集合的单句集合中筛选所述第二数目对应数目的单句作为替换单句;基于所述替换单句对所述任一标注文本中的单句进行替换处理,并将替换处理后获得的文本作为所述任一标注文本对应的新增文本。
具体的,在数据增强的过程中,不对单句中的词或者字的顺序进行变动,虽然进行了单句的增加或者替换,但增加或者替换的单句中的词或者字的顺序没有发生变化,以此来保证文本序列不变。
在对任一标注文本进行数据增强的过程中,首先通过统计获取任一标注文本中包含的第一数目;然后确定第一数目对应的增强方式;再基于增强方式对任一标注文本进行数据增强。
其中,若第一数目等于或者小于预设阈值,则确定对应的增强方式为添加方式,基于添加方式进行数据增强的过程中,在任一文本子集合的单句集合中随机筛选出与预设阈值对应数目的单句,将筛选获得的单句添加至任一标注文本中,获得任一标注文本对应的新增文本;
若第一数目大于预设阈值,则确定对应的增强方式为替换方式,在基于替换方式进行数据增强的过程中,首先基于第一数目计算第二数目,然后在任一文本子集合的单句集合中随机选择第二数目对应的单句作为替换单句,基于替换单句对任一标注文本中的单句进行替换处理,获得任一标注文本对应的新增文本;所述第二数目,包括标注文本中需要进行替换处理单句的数目。
进一步,为了提升替换效率,本实施例提供的一种可选实施方式中,采用如下方式实现基于替换单句对任一标注文本中的单句进行替换处理:
通过随机算法生成小于所述单句数目的随机数;
确定所述任一标注文本中单句顺序编号与所述随机数相等的待替换单句,并将所述待替换单句替换为所述替换单句。
即在进行替换处理的过程中,通过随机算法生成第二数目小于第一数目的随机数,将任一标注文本中单句顺序编号为随机数的待替换单句替换为替换单句。
例如,预设阈值为1,针对一个标注文本,统计该标注文本中包含的单句数目为N,若N=1,则在该标注文本所属的文本子集合的单句集合中随机选择1(K=1)个单句,并将该单句添加至标注文本,获得该标注文本对应的新增文本;若N>1,则计算第二数目即N/2向下取整,计算获得K后,在该标注文本所属的文本子集合的单句集合中随机选择K个单句作为替换单句,通过随机算法在[0,N]中随机生成K个整数,确定的整数即为标注文本中待替换的单句的位置,将标注文本中待替换的单句替换成替换单句,获得标注文本对应的新增文本。
在获得各标注文本对应的新增文本后,为了避免新增文本与文本集合中的文本重复,查询文本集合中是否存在新增文本,若是,则按照上述方式重新对标注文本进行数据增强,获得标注文本对应的新增文本;若否,则无需重新进行数据增强,将该新增文本确定为标注文本对应的新增文本即可。
需要说明的是,上述对于数据增强的说明仅仅是以任一文本子集合中的任一标注文本为例进行说明,具体实施时,对于各文本子集合中各标注文本,采用上述方式进行数据增强,获得所述多个新增文本。
获得多个新增文本之后,为了剔除掉多个新增文本中的脏数据,识别多个新增文本的类别标签,并在多个新增文本中筛选类别标签与对应的标注文本的类别标签相同的目标文本。
本实施例中,通过对用于训练第一文本类别识别模型的标注文本进行数据增强,得到各标注文本对应的新增文本,利用获得的新增文本和标注文本构建目标文本集合,进而根据获得的新增文本和标注文本训练文本类别识别模型,通过对样本(标注文本)进行数据增强,获得更多样本,进而训练优于第一文本类别识别模型的文本类别识别模型。
基于此,在获得多个新增文本后,为了剔除掉新增文本中无法确定类别标签的新增文本,即为了保证训练的文本类别识别模型的识别性能优于只基于文本集合中的标注样本训练获得的第一文本类别识别模型,对多个新增文本进行类别标签的识别,并在多个新增文本中筛选出类别标签与对应的标注文本的类别标签的相同的目标文本。所述目标文本,包括新增文本中第一文本类别识别模型输出的类别标签与该新增文本对应的标注文本的类别标签一致的新增文本。
本实施例中,通过如下方式识别多个新增文本的类别标签:
将所述多个新增文本输入第一文本类别识别模型进行文本类别识别,输出所述多个新增文本各自的类别标签;
其中,所述第一文本类别识别模型基于所述文本集合中的标注文本训练获得。
具体的,为了提升目标文本集合中的目标文本的有效性,提升训练文本类别识别模型的新增文本的有效性,将多个新增文本输入第一文本类别识别模型进行文本类别识别,输出多个新增文本中各个新增文本的类别标签;比对第一文本类别识别模型输出的各新增文本的类别标签与各新增文本对应的标注文本的类别标签是否一致,若不一致,则删除该新增文本;若一致,则将该新增文本确定为筛选获得的目标文本。以此,对新增文本进行筛选,剔除易混淆的新增文本(即:类别不明确的新增文本),也即是舍弃掉类别发生变化的新增文本,避免造成数据污染。
最后,在筛选出目标文本后,根据所述目标文本和所述文本集合中的标注文本构建目标文本集合。本实施例中筛选获得的目标文本,包括经过第一文本类别识别模型进行文本类别识别之后输出的类别标签与对应的标注文本的类别标签相同的新增文本。
具体实施时,数据供应商将筛选获得的目标文本进行类别标记后放入目标文本集合中,目标文本集合中是携带有类别标签的目标文本和文本集合中的标注文本。模型训练商获取目标文本和文本集合中的标注文本,并基于目标文本和标注文本训练文本类别识别模型。其中,训练文本类别识别模型的方式与上述训练第一文本类别识别模型的方式相同,对文本类别识别模型进行训练的方式请参照上述对第一文本类别识别模型的训练方式,本实施例在此不再赘述。
本实施例中,首先基于文本集合中的标注文本进行模型训练,获得第一文本类别识别模型,然后通过数据增强模块对标注文本进行数据增强,将对标注文本进行数据增强获得的多个新增文本输入第一文本类别识别模型进行文本类别识别,输出多个新增文本的类别标签,在多个新增文本中筛选类别标签与对应的标注文本的类别标签相同的目标文本,基于目标文本和标注文本进行模型训练获得文本类别识别模型。
在获得文本类别识别模型之后,为了核验训练获得的文本类别识别模型的识别指标,即识别准确率,进一步核验文本类别识别模型相对于第一文本类别识别模型的性能优化结果,本实施例提供的一种可选实施方式中,在训练文本类别识别模型后,还执行如下操作:
将测试文本集合中的测试文本输入文本类别识别模型进行文本类别识别,输出所述测试文本的类别标签;
基于所述测试文本的类别标签和所述测试文本的标注类别标签,得到所述文本类别识别模型的第一识别指标;
若所述第一识别指标大于第二识别指标且小于目标阈值,则对所述目标文本进行数据增强,得到第一目标文本;基于所述第一目标文本对所述文本类别识别模型进行训练,得到目标文本类别识别模型;
若所述第一识别指标小于或者等于所述第二识别指标,则对所述文本集合中的标注文本进行数据增强,获得第二目标文本;基于所述第二目标文本和所述文本集合中的标注文本训练第二文本类别识别模型;
其中,所述第二识别指标基于所述标注类别标签和所述测试文本的第二类别标签得到;所述第二类别标签由第一文本类别识别模型对所述测试文本进行文本类别识别后输出;所述第一文本类别识别模型基于所述文本集合中的标注文本训练获得。
所述第二识别指标基于所述标注类别标签和将所述测试文本输入第一文本类别识别模型进行文本类别识别输出的所述测试文本的类别标签计算获得。具体的,利用测试文本集合中的测试文本对文本类别识别模型和第一文本类别识别模型进行测试,根据测试文本的标注类别标签和文本类别识别模型输出的测试文本的类别标签计算文本类别识别模型的第一识别准确率;根据标注类别标签和第一文本类别识别模型输出的测试文本的类别标签计算第一文本类别识别模型的第二识别准确率;
若第一识别准确率大于准确率阈值,则确定训练获得的文本类别识别模型符合条件,利用文本类别识别模型进行文本类别识别即可;
若第一识别准确率大于第二识别准确率小于准确率阈值,则确定训练获得的文本类别识别模型比第一文本类别识别模型的效果好但还未符合条件,对目标文本进行数据增强,获得多个第一新增文本,对多个第一新增文本进行识别和筛选,利用筛选获得的第一目标文本训练文本类别识别模型,即利用第一目标文本对文本类别识别模型进行迭代优化,获得目标文本类别识别模型;或者,对目标文本和标注数据进行数据增强,并利用增强和筛选后的文本重新训练文本类别识别模型;
需要说明的是,对于新增文本的数据增强方式,与上述对标注文本的数据增强方式一致,请参照上述对标注文本的数据增强方式对新增文本进行数据增强,获得各新增文本对应的第一新增文本,具体的数据增强方式本实施例在此不再赘述。
若第一识别准确率小于第二识别准确率,则说明文本类别识别模型的识别效果差于第一文本类别识别模型的识别效果,则说明基于目标文本的训练并未提升模型效果,因此,将目标文本删除,重新对文本集合中的标注数据进行数据增强,获得第二新增文本,对第二新增文本进行识别筛选获得第二目标文本后,利用第二目标文本和文本集合中的标注文本按照上述对第一文本类别识别模型的训练方式重新训练第二文本类别识别模型。
在获得第二文本类别识别模型后,对第二文本类别识别模型对测试文本集合中的测试文本的识别准确率和第一文本别识别模型对测试文本集合中的测试文本的识别准确率进行比较,并根据比较结果确定第二文本类别识别模型为满足条件的文本类别识别模型,或者对第二文本类别识别模型进行迭代优化,或者重新对文本集合中的标注文本进行数据增强,训练第三文本类别识别模型,直至获得满足条件的文本类别识别模型。
以文本集合中包含2397个标注文本进行试验,基于文本集合中的标注文本进行模型训练,获得文本类别识别模型m,对文本集合中的标注文本进行数据增强,获得标注文本和对应的新增文本共2397+2397=4794个标注文本,利用4794个标注文本进行模型训练获得文本类别识别模型M1,继续对新增文本进行数据增强获得和标注文本一起的4794+2397=7191个标注文本,利用7191个标注文本进行模型训练获得文本类别识别模型M2,继续进行数据增强获得7191+2397=9588个用于对文本类别识别模型M2进行训练的标注文本,基于9588个标注样本进行模型训练获得文本类别识别模型M3,利用文本类别识别模型m,文本类别识别模型M1,文本类别识别模型M2和文本类别识别模型M3对同一测试文本集合中的测试文本进行文本类别识别,并根据识别结果计算各文本类别识别模型的识别准确率如下表所示:
文本类别识别模型 | 数据增强 | 标注文本数 | 识别准确率 |
m | 标注文本 | 2397 | 86.14% |
M1 | 标注文本增加1倍 | 4794 | 87.58% |
M2 | 标注文本增加2倍 | 7191 | 88.46% |
M3 | 标注文本增加3倍 | 9588 | 88.82% |
由上表可知,文本类别识别模型M1,文本类别识别模型M2,文本类别识别模型M3对测试文本的识别准确率均高于文本类别识别模型m;且可以看出,随着标注文本数的不断增加,文本类别识别模型的识别准确率的增长加速度逐渐平缓,说明在标注文本增加2倍的情况下获得的文本类别识别模型的识别准确率到达瓶颈,如果继续增加标注文本,可能会导致获得的文本类别识别模型过拟合,进而导致识别准确率下降,因此,对标注文本的增加倍数小于或者等于3。若需要进一步提升文本类别识别模型的识别准确率,可使用其他方式对识别准确率进行提升,例如引入其他相似数据,丰富文本集合,或者使用其他网络结构进行模型训练。
可见,在文本类别识别过程中,使用模型训练上基于上述方式训练获得的文本类别识别模型进行文本类别识别,提升了对待识别文本进行文本类别识别后输出的类别属性的准确度。
本说明书提供的一种数据增强处理装置实施例如下:
在上述的实施例中,提供了一种数据增强处理方法,与之相对应的,还提供了一种数据增强处理装置,下面结合附图进行说明。
参照图8,其示出了本实施例提供的一种数据增强处理装置示意图。
由于装置实施例对应于方法实施例,所以描述得比较简单,相关的部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例提供一种数据增强处理装置,包括:
集合划分模块802,用于按照文本集合中标注文本的类别标签,将所述文本集合划分为与所述类别标签对应的文本子集合;
单句切分模块804,用于对各文本子集合中的标注文本进行单句切分,获得所述各文本子集合的单句集合;
数据增强模块806,用于基于所述各文本子集合的单句集合,对所述各文本子集合中的标注文本进行数据增强,获得多个新增文本;
文本筛选模块808,用于识别所述多个新增文本的类别标签,并在所述多个新增文本中筛选类别标签与对应的标注文本的类别标签相同的目标文本;
模型训练模块810,用于根据所述目标文本和所述文本集合中的标注文本构建目标文本集合。
本说明书提供的一种模型训练装置实施例如下:
在上述的实施例中,提供了一种模型训练方法,与之相对应的,还提供了一种模型训练装置,下面结合附图进行说明。
参照图9,其示出了本实施例提供的一种模型训练装置示意图。
由于装置实施例对应于方法实施例,所以描述得比较简单,相关的部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例提供一种模型训练装置,包括:
文本获取模块902,用于获取目标文本和文本集合中的标注文本;
模型训练模块904,用于基于所述目标文本和所述标注文本训练文本类别识别模型;
其中,所述目标文本包括在多个新增文本中筛选出的类别标签与对应的标注文本的类别标签相同的新增文本;所述多个新增文本基于各文本子集合的单句集合对所述各文本子集合中的标注文本进行数据增强获得,所述各文本子集合基于所述文本集合中的标注文本的类别标签划分获得,所述单句集合通过对所属的文本子集合中的标注文本进行单句切分获得。
本说明书提供的一种文本类别识别装置实施例如下:
在上述的实施例中,提供了一种文本类别识别方法,与之相对应的,还提供了一种文本类别识别装置,下面结合附图进行说明。
参照图10,其示出了本实施例提供的一种文本类别识别装置示意图。
由于装置实施例对应于方法实施例,所以描述得比较简单,相关的部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例提供一种文本类别识别装置,包括:
待识别文本获取模块1002,用于获取待识别文本;
待识别文本识别模块1004,用于将所述待识别文本输入基于目标文本和文本集合中的标注文本训练获得的文本类别识别模型进行文本类别识别,输出所述待识别文本的类别标签;
其中,所述目标文本包括在多个新增文本中筛选出的类别标签与对应的标注文本的类别标签相同的新增文本;所述多个新增文本基于各文本子集合的单句集合对所述各文本子集合中的标注文本进行数据增强获得,所述各文本子集合基于所述文本集合中的标注文本的类别标签划分获得,所述单句集合通过对所属的文本子集合中的标注文本进行单句切分获得。
本说明书提供的一种数据增强处理设备实施例如下:
对应上述描述的一种数据增强处理方法,基于相同的技术构思,本申请实施例还提供一种数据增强处理设备,该数据增强处理设备用于执行上述提供的数据增强处理方法,图11为本申请实施例提供的一种数据增强处理设备的结构示意图。
本实施例提供的一种数据增强处理设备,包括:
如图11所示,数据增强处理设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器1101和存储器1102,存储器1102中可以存储有一个或一个以上存储应用程序或数据。其中,存储器1102可以是短暂存储或持久存储。存储在存储器1102的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括数据增强处理设备中的一系列计算机可执行指令。更进一步地,处理器1101可以设置为与存储器1102通信,在数据增强处理设备上执行存储器1102中的一系列计算机可执行指令。数据增强处理设备还可以包括一个或一个以上电源1103,一个或一个以上有线或无线网络接口1104,一个或一个以上输入/输出接口1105,一个或一个以上键盘1106等。
在一个具体的实施例中,数据增强处理设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对数据增强处理设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
按照文本集合中标注文本的类别标签,将所述文本集合划分为与所述类别标签对应的文本子集合;
对各文本子集合中的标注文本进行单句切分,获得所述各文本子集合的单句集合;
基于所述各文本子集合的单句集合,对所述各文本子集合中的标注文本进行数据增强,获得多个新增文本;
识别所述多个新增文本的类别标签,并在所述多个新增文本中筛选类别标签与对应的标注文本的类别标签相同的目标文本;
根据所述目标文本和所述文本集合中的标注文本构建目标文本集合。
本说明书提供的一种模型训练设备实施例如下:
对应上述描述的一种模型训练方法,基于相同的技术构思,本申请实施例还提供一种模型训练设备,该模型训练设备用于执行上述提供的模型训练方法,图12为本申请实施例提供的一种模型训练设备的结构示意图。
本实施例提供的一种模型训练设备,包括:
如图12所示,模型训练设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器1201和存储器1202,存储器1202中可以存储有一个或一个以上存储应用程序或数据。其中,存储器1202可以是短暂存储或持久存储。存储在存储器1202的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括模型训练设备中的一系列计算机可执行指令。更进一步地,处理器1201可以设置为与存储器1202通信,在模型训练设备上执行存储器1202中的一系列计算机可执行指令。模型训练设备还可以包括一个或一个以上电源1203,一个或一个以上有线或无线网络接口1204,一个或一个以上输入/输出接口1205,一个或一个以上键盘1206等。
在一个具体的实施例中,模型训练设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对模型训练设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取目标文本和文本集合中的标注文本;
基于所述目标文本和所述标注文本训练文本类别识别模型;
其中,所述目标文本包括在多个新增文本中筛选出的类别标签与对应的标注文本的类别标签相同的新增文本;所述多个新增文本基于各文本子集合的单句集合对所述各文本子集合中的标注文本进行数据增强获得,所述各文本子集合基于所述文本集合中的标注文本的类别标签划分获得,所述单句集合通过对所属的文本子集合中的标注文本进行单句切分获得。
本说明书提供的一种文本类别识别设备实施例如下:
对应上述描述的一种文本类别识别方法,基于相同的技术构思,本申请实施例还提供一种文本类别识别设备,该文本类别识别设备用于执行上述提供的文本类别识别方法,图13为本申请实施例提供的一种文本类别识别设备的结构示意图。
本实施例提供的一种文本类别识别设备,包括:
如图13所示,文本类别识别设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器1301和存储器1302,存储器1302中可以存储有一个或一个以上存储应用程序或数据。其中,存储器1302可以是短暂存储或持久存储。存储在存储器1302的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括文本类别识别设备中的一系列计算机可执行指令。更进一步地,处理器1301可以设置为与存储器1302通信,在文本类别识别设备上执行存储器1302中的一系列计算机可执行指令。文本类别识别设备还可以包括一个或一个以上电源1303,一个或一个以上有线或无线网络接口1304,一个或一个以上输入/输出接口1305,一个或一个以上键盘1306等。
在一个具体的实施例中,文本类别识别设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对文本类别识别设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取待识别文本;
将所述待识别文本输入基于目标文本和文本集合中的标注文本训练获得的文本类别识别模型进行文本类别识别,输出所述待识别文本的类别标签;
其中,所述目标文本包括在多个新增文本中筛选出的类别标签与对应的标注文本的类别标签相同的新增文本;所述多个新增文本基于各文本子集合的单句集合对所述各文本子集合中的标注文本进行数据增强获得,所述各文本子集合基于所述文本集合中的标注文本的类别标签划分获得,所述单句集合通过对所属的文本子集合中的标注文本进行单句切分获得。
本说明书提供的一种计算机可读存储介质实施例如下:
对应上述描述的一种数据增强处理方法,基于相同的技术构思,本申请实施例还提供一种计算机可读存储介质。
本实施例提供的计算机可读存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现以下流程:
按照文本集合中标注文本的类别标签,将所述文本集合划分为与所述类别标签对应的文本子集合;
对各文本子集合中的标注文本进行单句切分,获得所述各文本子集合的单句集合;
基于所述各文本子集合的单句集合,对所述各文本子集合中的标注文本进行数据增强,获得多个新增文本;
识别所述多个新增文本的类别标签,并在所述多个新增文本中筛选类别标签与对应的标注文本的类别标签相同的目标文本;
根据所述目标文本和所述文本集合中的标注文本构建目标文本集合。
需要说明的是,本说明书中关于计算机可读存储介质的实施例与本说明书中关于数据增强处理方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应方法的实施,重复之处不再赘述。
本说明书提供的一种计算机可读存储介质实施例如下:
对应上述描述的一种模型训练方法,基于相同的技术构思,本申请实施例还提供一种计算机可读存储介质。
本实施例提供的计算机可读存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现以下流程:
获取目标文本和文本集合中的标注文本;
基于所述目标文本和所述标注文本训练文本类别识别模型;
其中,所述目标文本包括在多个新增文本中筛选出的类别标签与对应的标注文本的类别标签相同的新增文本;所述多个新增文本基于各文本子集合的单句集合对所述各文本子集合中的标注文本进行数据增强获得,所述各文本子集合基于所述文本集合中的标注文本的类别标签划分获得,所述单句集合通过对所属的文本子集合中的标注文本进行单句切分获得。
需要说明的是,本说明书中关于计算机可读存储介质的实施例与本说明书中关于模型训练方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应方法的实施,重复之处不再赘述。
本说明书提供的一种计算机可读存储介质实施例如下:
对应上述描述的一种文本类别识别方法,基于相同的技术构思,本申请实施例还提供一种计算机可读存储介质。
本实施例提供的计算机可读存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现以下流程:
获取待识别文本;
将所述待识别文本输入基于目标文本和文本集合中的标注文本训练获得的文本类别识别模型进行文本类别识别,输出所述待识别文本的类别标签;
其中,所述目标文本包括在多个新增文本中筛选出的类别标签与对应的标注文本的类别标签相同的新增文本;所述多个新增文本基于各文本子集合的单句集合对所述各文本子集合中的标注文本进行数据增强获得,所述各文本子集合基于所述文本集合中的标注文本的类别标签划分获得,所述单句集合通过对所属的文本子集合中的标注文本进行单句切分获得。
需要说明的是,本说明书中关于计算机可读存储介质的实施例与本说明书中关于文本类别识别方法的实施例基于同一发明构思,因此该实施例的具体实施可以参见前述对应方法的实施,重复之处不再赘述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域内的技术人员应明白,本申请实施例可提供为方法、系统或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据增强处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据增强处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据增强处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据增强处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书的一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本文件的实施例而已,并不用于限制本文件。对于本领域技术人员来说,本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本文件的权利要求范围之内。
Claims (15)
1.一种数据增强处理方法,其特征在于,所述方法包括:
按照文本集合中标注文本的类别标签,将所述文本集合划分为与所述类别标签对应的文本子集合;
对各文本子集合中的标注文本进行单句切分,获得所述各文本子集合的单句集合;
基于所述各文本子集合的单句集合和所述各文本子集合中的标注文本的数据增强方式,对所述标注文本的单句进行数据增强,获得多个新增文本;所述数据增强方式为根据所述标注文本包含的单句数目得到的;
识别所述多个新增文本的类别标签,并在所述多个新增文本中筛选类别标签与对应的标注文本的类别标签相同的目标文本;
根据所述目标文本和所述文本集合中的标注文本构建目标文本集合。
2.根据权利要求1所述的方法,其特征在于,所述各文本子集合中任一文本子集合中的标注文本中的任一标注文本,采用如下方式进行数据增强得到新增文本:
获取所述任一标注文本中包含的单句的第一数目;
若所述第一数目小于或者等于预设阈值,则在所述任一文本子集合的单句集合中确定与所述预设阈值对应数目的目标单句;
将所述目标单句添加至所述任一标注文本,并将添加处理后获得的文本作为所述任一标注文本对应的新增文本。
3.根据权利要求2所述的方法,其特征在于,所述获取所述任一标注文本中包含的单句的第一数目操作执行之后,还包括:
若所述第一数目大于所述预设阈值,则通过预设算法确定第二数目,所述第二数目用于在所述任一文本子集合的单句集合中筛选与所述第二数目对应数目的单句作为替换单句;
基于所述替换单句对所述任一标注文本中的单句进行替换处理,并将替换处理后获得的文本作为所述任一标注文本对应的新增文本。
4.根据权利要求3所述的方法,其特征在于,所述基于所述替换单句对所述任一标注文本中的单句进行替换处理,包括:
通过随机算法生成小于所述第一数目的随机数;
确定所述任一标注文本中单句顺序编号与所述随机数相等的待替换单句,并将所述待替换单句替换为所述替换单句。
5.根据权利要求1所述的方法,其特征在于,所述识别所述多个新增文本的类别标签,包括:
将所述多个新增文本输入第一文本类别识别模型进行文本类别识别,输出所述多个新增文本各自的类别标签;
其中,所述第一文本类别识别模型基于所述文本集合中的标注文本训练获得。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本和所述文本集合中的标注文本构建目标文本集合步骤执行之后,还包括:
将测试文本集合中的测试文本输入文本类别识别模型进行文本类别识别,输出所述测试文本的类别标签;所述文本类别识别模型基于所述文本集合中的标注文本训练获得;
基于所述测试文本的类别标签和所述测试文本的标注类别标签,得到所述文本类别识别模型的第一识别指标;
若所述第一识别指标大于第二识别指标且小于目标阈值,则对所述目标文本进行数据增强,得到第一目标文本;
基于所述第一目标文本对所述文本类别识别模型进行训练,得到目标文本类别识别模型;
其中,所述第二识别指标基于所述标注类别标签和所述测试文本的第二类别标签得到;所述第二类别标签由第一文本类别识别模型对所述测试文本进行文本类别识别后输出。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
若所述第一识别指标小于或者等于所述第二识别指标,则对所述文本集合中的标注文本进行数据增强,获得第二目标文本;
根据所述第二目标文本和所述文本集合中的标注文本构建第一目标文本集合。
8.根据权利要求1所述的方法,其特征在于,所述对各文本子集合中的标注文本进行单句切分,获得所述各文本子集合的单句集合,包括:
按照单句切分标识对所述各文本子集合中的标注文本进行单句切分,得到所述各文本子集合的第一单句集合;
对所述各文本子集合的第一单句集合中的单句进行去重处理,得到所述各文本子集合的单句集合。
9.一种模型训练方法,其特征在于,所述方法包括:
获取目标文本和文本集合中的标注文本;
基于所述目标文本和所述标注文本训练文本类别识别模型;
其中,所述目标文本包括在多个新增文本中筛选出的类别标签与对应的标注文本的类别标签相同的新增文本;所述多个新增文本基于各文本子集合的单句集合和所述各文本子集合中的标注文本的数据增强方式对所述标注文本的单句进行数据增强获得,所述数据增强方式为根据所述标注文本包含的单句数目得到的,所述各文本子集合基于所述文本集合中的标注文本的类别标签划分获得,所述单句集合通过对所属的文本子集合中的标注文本进行单句切分获得。
10.根据权利要求9所述的方法,其特征在于,所述基于所述目标文本和所述标注文本训练文本类别识别模型步骤执行之后,还包括:
将测试文本集合中的测试文本输入所述文本类别识别模型进行文本类别识别,输出所述测试文本的类别标签;
基于所述测试文本的类别标签和所述测试文本的标注类别标签,得到所述文本类别识别模型的第一识别指标;
若所述第一识别指标大于第二识别指标且小于目标阈值,则对所述目标文本进行数据增强,得到第一目标文本;
基于所述第一目标文本对所述文本类别识别模型进行训练,得到目标文本类别识别模型;
其中,所述第二识别指标基于所述标注类别标签和所述测试文本的第二类别标签得到;所述第二类别标签由第一文本类别识别模型对所述测试文本进行文本类别识别后输出;所述第一文本类别识别模型基于所述文本集合中的标注文本训练获得。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
若所述第一识别指标小于或者等于所述第二识别指标,则对所述文本集合中的标注文本进行数据增强,获得第二目标文本;
基于所述第二目标文本和所述文本集合中的标注文本训练第二文本类别识别模型。
12.一种文本类别识别方法,其特征在于,所述方法包括:
获取待识别文本;
将所述待识别文本输入基于目标文本和文本集合中的标注文本训练获得的文本类别识别模型进行文本类别识别,输出所述待识别文本的类别标签;
其中,所述目标文本包括在多个新增文本中筛选出的类别标签与对应的标注文本的类别标签相同的新增文本;所述多个新增文本基于各文本子集合的单句集合和所述各文本子集合中的标注文本的数据增强方式对所述标注文本的单句进行数据增强获得,所述数据增强方式为根据所述标注文本包含的单句数目得到的,所述各文本子集合基于所述文本集合中的标注文本的类别标签划分获得,所述单句集合通过对所属的文本子集合中的标注文本进行单句切分获得。
13.一种数据增强处理装置,其特征在于,所述装置包括:
集合划分模块,用于按照文本集合中标注文本的类别标签,将所述文本集合划分为与所述类别标签对应的文本子集合;
单句切分模块,用于对各文本子集合中的标注文本进行单句切分,获得所述各文本子集合的单句集合;
数据增强模块,用于基于所述各文本子集合的单句集合和所述各文本子集合中的标注文本的数据增强方式,对所述标注文本的单句进行数据增强,获得多个新增文本;所述数据增强方式为根据所述标注文本包含的单句数目得到的;
文本筛选模块,用于识别所述多个新增文本的类别标签,并在所述多个新增文本中筛选类别标签与对应的标注文本的类别标签相同的目标文本;
文本集合构建模块,用于根据所述目标文本和所述文本集合中的标注文本构建目标文本集合。
14.一种数据增强处理设备,其特征在于,所述设备包括:
处理器;以及,被配置为存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行如权利要求1-8任一项所述的数据增强处理方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现如权利要求1-8任一项所述的数据增强处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210268766.2A CN114637824B (zh) | 2022-03-18 | 2022-03-18 | 数据增强处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210268766.2A CN114637824B (zh) | 2022-03-18 | 2022-03-18 | 数据增强处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114637824A CN114637824A (zh) | 2022-06-17 |
CN114637824B true CN114637824B (zh) | 2023-12-01 |
Family
ID=81950371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210268766.2A Active CN114637824B (zh) | 2022-03-18 | 2022-03-18 | 数据增强处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114637824B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033087A (zh) * | 2018-08-07 | 2018-12-18 | 中证征信(深圳)有限公司 | 计算文本语义距离的方法、去重方法、聚类方法以及装置 |
CN109472033A (zh) * | 2018-11-19 | 2019-03-15 | 华南师范大学 | 文本中的实体关系抽取方法及系统、存储介质、电子设备 |
CN110162627A (zh) * | 2019-04-28 | 2019-08-23 | 平安科技(深圳)有限公司 | 数据增量方法、装置、计算机设备及存储介质 |
CN111198934A (zh) * | 2018-10-31 | 2020-05-26 | 北京国双科技有限公司 | 一种信息处理方法及相关设备 |
CN112711660A (zh) * | 2020-12-29 | 2021-04-27 | 易方达基金管理有限公司 | 文本分类样本的构建方法和文本分类模型的训练方法 |
CN112883193A (zh) * | 2021-02-25 | 2021-06-01 | 中国平安人寿保险股份有限公司 | 一种文本分类模型的训练方法、装置、设备以及可读介质 |
US11049502B1 (en) * | 2020-03-18 | 2021-06-29 | Sas Institute Inc. | Speech audio pre-processing segmentation |
CN113177109A (zh) * | 2021-05-27 | 2021-07-27 | 中国平安人寿保险股份有限公司 | 文本的弱标注方法、装置、设备以及存储介质 |
CN113255365A (zh) * | 2021-05-28 | 2021-08-13 | 湖北师范大学 | 文本数据增强方法、装置、设备及计算机可读存储介质 |
CN113254599A (zh) * | 2021-06-28 | 2021-08-13 | 浙江大学 | 一种基于半监督学习的多标签微博文本分类方法 |
CN113360654A (zh) * | 2021-06-23 | 2021-09-07 | 深圳平安综合金融服务有限公司 | 文本分类方法、装置、电子设备及可读存储介质 |
CN113553806A (zh) * | 2021-09-22 | 2021-10-26 | 中国人民解放军国防科技大学 | 文本数据增强方法、装置、设备和介质 |
CN113722493A (zh) * | 2021-09-09 | 2021-11-30 | 北京百度网讯科技有限公司 | 文本分类的数据处理方法、设备、存储介质及程序产品 |
CN113761190A (zh) * | 2021-05-06 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、计算机可读介质及电子设备 |
CN113886559A (zh) * | 2021-07-30 | 2022-01-04 | 中国平安人寿保险股份有限公司 | 针对黑盒文本分类模型的对抗文本生成方法、系统及介质 |
CN114036907A (zh) * | 2021-11-18 | 2022-02-11 | 国网江苏省电力有限公司电力科学研究院 | 一种基于领域特征的文本数据扩增方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9529898B2 (en) * | 2014-08-26 | 2016-12-27 | Google Inc. | Clustering classes in language modeling |
US11023683B2 (en) * | 2019-03-06 | 2021-06-01 | International Business Machines Corporation | Out-of-domain sentence detection |
US11232263B2 (en) * | 2019-08-07 | 2022-01-25 | Adobe Inc. | Generating summary content using supervised sentential extractive summarization |
US11145309B1 (en) * | 2020-03-18 | 2021-10-12 | Sas Institute Inc. | Dynamic model selection in speech-to-text processing |
-
2022
- 2022-03-18 CN CN202210268766.2A patent/CN114637824B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033087A (zh) * | 2018-08-07 | 2018-12-18 | 中证征信(深圳)有限公司 | 计算文本语义距离的方法、去重方法、聚类方法以及装置 |
CN111198934A (zh) * | 2018-10-31 | 2020-05-26 | 北京国双科技有限公司 | 一种信息处理方法及相关设备 |
CN109472033A (zh) * | 2018-11-19 | 2019-03-15 | 华南师范大学 | 文本中的实体关系抽取方法及系统、存储介质、电子设备 |
CN110162627A (zh) * | 2019-04-28 | 2019-08-23 | 平安科技(深圳)有限公司 | 数据增量方法、装置、计算机设备及存储介质 |
US11049502B1 (en) * | 2020-03-18 | 2021-06-29 | Sas Institute Inc. | Speech audio pre-processing segmentation |
CN112711660A (zh) * | 2020-12-29 | 2021-04-27 | 易方达基金管理有限公司 | 文本分类样本的构建方法和文本分类模型的训练方法 |
CN112883193A (zh) * | 2021-02-25 | 2021-06-01 | 中国平安人寿保险股份有限公司 | 一种文本分类模型的训练方法、装置、设备以及可读介质 |
CN113761190A (zh) * | 2021-05-06 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、计算机可读介质及电子设备 |
CN113177109A (zh) * | 2021-05-27 | 2021-07-27 | 中国平安人寿保险股份有限公司 | 文本的弱标注方法、装置、设备以及存储介质 |
CN113255365A (zh) * | 2021-05-28 | 2021-08-13 | 湖北师范大学 | 文本数据增强方法、装置、设备及计算机可读存储介质 |
CN113360654A (zh) * | 2021-06-23 | 2021-09-07 | 深圳平安综合金融服务有限公司 | 文本分类方法、装置、电子设备及可读存储介质 |
CN113254599A (zh) * | 2021-06-28 | 2021-08-13 | 浙江大学 | 一种基于半监督学习的多标签微博文本分类方法 |
CN113886559A (zh) * | 2021-07-30 | 2022-01-04 | 中国平安人寿保险股份有限公司 | 针对黑盒文本分类模型的对抗文本生成方法、系统及介质 |
CN113722493A (zh) * | 2021-09-09 | 2021-11-30 | 北京百度网讯科技有限公司 | 文本分类的数据处理方法、设备、存储介质及程序产品 |
CN113553806A (zh) * | 2021-09-22 | 2021-10-26 | 中国人民解放军国防科技大学 | 文本数据增强方法、装置、设备和介质 |
CN114036907A (zh) * | 2021-11-18 | 2022-02-11 | 国网江苏省电力有限公司电力科学研究院 | 一种基于领域特征的文本数据扩增方法 |
Non-Patent Citations (3)
Title |
---|
基于句结构的主题分类模型改进算法;韩奕农;乐红兵;;电子技术与软件工程(第04期);204-209 * |
基于标签增强的机器阅读理解模型;苏立新;郭嘉丰;范意兴;兰艳艳;程学旗;;模式识别与人工智能(第02期);15-21 * |
结合注意力机制的长文本分类方法;卢玲;杨武;王远伦;雷子鉴;李莹;;计算机应用(第05期);56-61 * |
Also Published As
Publication number | Publication date |
---|---|
CN114637824A (zh) | 2022-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102431549B1 (ko) | 인과 관계 인식 장치 및 그것을 위한 컴퓨터 프로그램 | |
CN108319668A (zh) | 生成文本摘要的方法及设备 | |
CN107862070B (zh) | 基于文本聚类的线上课堂讨论短文本即时分组方法及系统 | |
CN108255862B (zh) | 一种裁判文书的检索方法及装置 | |
CN112749326B (zh) | 信息处理方法、装置、计算机设备及存储介质 | |
CN106598999B (zh) | 一种计算文本主题归属度的方法及装置 | |
CN111368038B (zh) | 一种关键词的提取方法、装置、计算机设备和存储介质 | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
CN105005610B (zh) | 一种专辑分类方法和装置 | |
CN112256842B (zh) | 用于文本聚类的方法、电子设备和存储介质 | |
CN110990676A (zh) | 一种社交媒体热点主题提取方法与系统 | |
KR101379128B1 (ko) | 사전 생성 장치, 사전 생성 방법 및 사전 생성 프로그램을 기억하는 컴퓨터 판독 가능 기록 매체 | |
CN116151220A (zh) | 分词模型训练方法、分词处理方法和装置 | |
Gu et al. | Learning joint multimodal representation based on multi-fusion deep neural networks | |
CN114637824B (zh) | 数据增强处理方法及装置 | |
CN110895703B (zh) | 法律文书案由识别方法及装置 | |
CN111401047A (zh) | 法律文书的争议焦点生成方法、装置及计算机设备 | |
CN110955845A (zh) | 用户兴趣识别方法及装置、搜索结果处理方法及装置 | |
CN111859079A (zh) | 信息搜索方法、装置、计算机设备及存储介质 | |
CN113626574B (zh) | 一种信息查询方法及系统及装置及介质 | |
CN110968691B (zh) | 司法热点确定方法及装置 | |
CN115510269A (zh) | 视频推荐的方法、装置、设备和存储介质 | |
CN115048531A (zh) | 一种城市体检知识的知识管理方法、装置以及系统 | |
CN115329754A (zh) | 一种文本主题提取方法、装置、设备及存储介质 | |
CN115495636A (zh) | 网页搜索方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |