CN112906392A - 一种文本增强方法、文本分类方法及相关装置 - Google Patents

一种文本增强方法、文本分类方法及相关装置 Download PDF

Info

Publication number
CN112906392A
CN112906392A CN202110311001.8A CN202110311001A CN112906392A CN 112906392 A CN112906392 A CN 112906392A CN 202110311001 A CN202110311001 A CN 202110311001A CN 112906392 A CN112906392 A CN 112906392A
Authority
CN
China
Prior art keywords
text
words
sentence
network model
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110311001.8A
Other languages
English (en)
Other versions
CN112906392B (zh
Inventor
陈龙
王炜
江军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN202110311001.8A priority Critical patent/CN112906392B/zh
Publication of CN112906392A publication Critical patent/CN112906392A/zh
Application granted granted Critical
Publication of CN112906392B publication Critical patent/CN112906392B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请提供一种文本增强方法、文本分类方法及相关装置,该方法包括:获得文本语料中的语句内容,并对语句内容进行分词,获得分词后的词语;从概念树中筛选出与分词后的词语中相似度超过阈值的相似词语,并使用相似词语对语句内容进行随机替换,获得多个语句;使用多个语句训练生成对抗网络,获得生成对抗网络模型;使用生成对抗网络模型生成扩充语句样本;将扩充语句样本与文本语料中的语句内容结合,获得增强的文本数据集。在上述的实现过程中,通过使用训练获得的生成对抗网络模型生成扩充语句样本,由于生成对抗网络模型学习到概念树中相似度超过阈值的相似词语之间的新增变化规则,从而能够更好地生成特定类别样本。

Description

一种文本增强方法、文本分类方法及相关装置
技术领域
本申请涉及机器学习、人工智能和深度学习的技术领域,具体而言,涉及一种文本增强方法、文本分类方法及相关装置。
背景技术
目前,大都采用文本语料的语句进行对神经网络模型进行训练,常常需要很多样本来训练神经网络模型,才能够达到比较好的效果。然而,在训练神经网络模型所用的某一特定类别(例如:违禁词和违禁词的变化词语)的文本样本数量较少时,训练出来的神经网络模型正确率低。为了增加特定类别样本的识别正确率,通常的做法是依赖人工去尽可能收集更多的文本语句样本,或者,人工撰写更多的文本语句样本。但是,这种做法不仅效率低下而且也不容易收集到特定类别样本。
发明内容
本申请实施例的目的在于提供一种文本增强方法、文本分类方法及相关装置,用于改善收集特定类别样本效率低下的问题。
本申请实施例提供了一种文本增强方法,包括:获得文本语料中的语句内容,并对语句内容进行分词,获得分词后的词语;从概念树中筛选出与分词后的词语中相似度超过阈值的相似词语,并使用相似词语对语句内容进行随机替换,获得多个语句;使用多个语句训练生成对抗网络,获得生成对抗网络模型;使用生成对抗网络模型生成扩充语句样本;将扩充语句样本与文本语料中的语句内容结合,获得增强的文本数据集。在上述的实现过程中,通过使用训练获得的生成对抗网络模型生成扩充语句样本,由于生成对抗网络模型学习到概念树中相似度超过阈值的相似词语之间的新增变化规则,从而能够更好地生成特定类别样本。
可选地,在本申请实施例中,在从概念树中筛选出与分词后的词语中相似度超过阈值的相似词语之前,还包括:获取多个词语;对多个词语的每个词语进行向量化计算,获得多个特征向量;计算多个特征向量中的每两个特征向量之间的关联度,并根据该关联度构建概念树。在上述的实现过程中,通过词语向量化计算出来的特征向量之间的关联度构建概念树,从而避免了生成相似度过高的数据量过多导致数据类别不均衡的问题,有效地提高了使用神经网络模型对文本进行分类的准确率。
可选地,在本申请实施例中,对多个词语的每个词语进行向量化计算,包括:获取训练后的双TriNet模型;使用训练后的双TriNet模型对多个词语的每个词语进行向量化计算。在上述的实现过程中,通过使用训练后的双TriNet模型对多个词语的每个词语进行向量化计算,能够更好地利用双TriNET模型挖掘出词语向量之间不同层次的互补信息,从而更好地利用词语向量化计算出来的特征向量之间的关联度构建概念树,以提高使用神经网络模型对文本进行分类的准确率。
可选地,在本申请实施例中,对多个词语的每个词语进行向量化计算,包括:获取预训练语言模型,并利用预训练语言模型对多个词语的每个词语进行向量化计算。在上述的实现过程中,通过利用预训练语言模型对多个词语的每个词语进行向量化计算,从而更好地挖掘出词语向量之间的语义概念信息,从而更好地利用词语向量化计算出来的特征向量之间的关联度构建概念树,以提高使用神经网络模型对文本进行分类的准确率。
可选地,在本申请实施例中,从概念树中筛选出与分词后的词语中相似度超过阈值的相似词语,包括:对分词后的词语进行向量化计算,获得分词向量;在概念树中筛选出与分词向量的关联度超过阈值的词语向量,并获取词语向量对应的相似词语。在上述的实现过程中,通过在概念树中筛选出与分词向量的关联度超过阈值的词语向量,并获取词语向量对应的相似词语,从而避免了仅仅根据相似度挖掘出词语的问题,有效地挖掘出与目标词语有关联关系的词语,从而更好地根据关联度构建概念树,以提高使用神经网络模型对文本进行分类的准确率。
本申请实施例还提供了一种文本分类方法,包括:使用如上面描述的方法获得增强的文本数据集;使用增强的文本数据集训练神经网络,获得神经网络模型;使用神经网络模型对待分类文本语料进行分类,获得分类结果。在上述的实现过程中,通过使用增强的文本数据集训练神经网络,并使用神经网络模型对待分类文本语料进行分类,从而避免了生成相似度过高的数据量过多导致数据类别不均衡的问题,有效地提高了使用神经网络模型对文本进行分类的准确率。
本申请实施例还提供了一种文本增强装置,包括:语句内容分词模块,用于获得文本语料中的语句内容,并对语句内容进行分词,获得分词后的词语;语句内容替换模块,用于从概念树中筛选出与分词后的词语中相似度超过阈值的相似词语,并使用相似词语对语句内容进行随机替换,获得多个语句;网络模型获得模块,用于使用多个语句训练生成对抗网络,获得生成对抗网络模型;语句样本扩充模块,用于使用生成对抗网络模型生成扩充语句样本;文本数据增强模块,用于将扩充语句样本与文本语料中的语句内容结合,获得增强的文本数据集。
可选地,在本申请实施例中,文本增强装置,还包括:词语分词获取模块,用于获取多个词语;特征向量获得模块,用于对多个词语的每个词语进行向量化计算,获得多个特征向量;概念树构建模块,用于计算多个特征向量中的每两个特征向量之间的关联度,并根据该关联度构建概念树。
可选地,在本申请实施例中,特征向量获得模块,包括:训练模型获取模块,用于获取训练后的双TriNet模型;第一向量计算模块,用于使用训练后的双TriNet模型对多个词语的每个词语进行向量化计算。
可选地,在本申请实施例中,特征向量获得模块,包括:第二向量计算模块,用于获取预训练语言模型,并利用预训练语言模型对多个词语的每个词语进行向量化计算。
可选地,在本申请实施例中,语句内容替换模块,包括:分词向量获得模块,用于对分词后的词语进行向量化计算,获得分词向量;相似词语获取模块,用于在概念树中筛选出与分词向量的关联度超过阈值的词语向量,并获取词语向量对应的相似词语。
本申请实施例还提供了一种文本分类装置,包括:文本数据获得模块,用于使用如上面描述的方法获得增强的文本数据集;网络模型获得模块,用于使用增强的文本数据集训练神经网络,获得神经网络模型;分类结果获得模块,用于使用神经网络模型对待分类文本语料进行分类,获得分类结果。
本申请实施例还提供了一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上面描述的方法。
本申请实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上面描述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出的本申请实施例提供的文本增强方法的流程示意图;
图2示出的本申请实施例提供的文本分类方法的流程示意图;
图3示出的本申请实施例提供的文本增强装置的结构示意图;
图4示出的本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。
在介绍本申请实施例提供的文本增强方法、文本分类方法之前,先介绍本申请实施例中所涉及的一些概念:
向量化(Vectorization)计算,可以是指对上述的多个有规律的字符序列使用向量表示,即把字符序列转化为向量形式;当然在具体的实施过程中,可以对字符序列进行向量化表示,也可以先对多个有规律的字符序列分词(Tokenization),获得多个词语,针对多个词语使用向量表示,获得多个词向量(Word Vector),按照句子使用词向量表示时,则获得多个句子向量(Sentence Vector)。
生成对抗网络(Generative Adversarial Network,GAN),又被称为生成对抗式网络,是机器学习中的一种学习范式,通过让两个神经网络相互博弈的方式进行学习;生成对抗网络由一个生成器(generator)与一个鉴别器(discriminator)组成,生成器从潜在空间(latent space)中随机取样作为输入数据,生成器的输出结果需要尽量模仿训练集中的真实样本;鉴别器的输入数据则为真实样本或生成器的输出数据(即生成器的输出结果),其目的是将生成器的输出数据从真实样本中尽可能分别出来;而生成器要尽可能地欺骗鉴别器(即尽可能让鉴别器分辨不出生成器的输出数据和真实样本),生成器和鉴别器相互对抗从而不断调整参数,最终目的是使鉴别器无法判断生成器的输出结果是否真实。
双TriNet(dualTriNet)模型,是一种自编码网络(auto-encoder network)模型;在具体的实践过程中,可以将双TriNet模型结合ResNet-18一起使用,从使得双TriNet模型能够有效地增强ResNet-18多层结构产生的视觉特征。
数据增强,又称扩增训练数据集或数据扩增,是指对现有的训练数据进行扩增操作,以获得更多的训练数据,具体例如:假设训练数据是图像,那么可以改变图像的背景颜色或亮度、旋转图像角度或者裁剪图像大小等等操作,通过这些操作可以增加更多用于训练模型的图像数据。
服务器是指通过网络提供计算服务的设备,服务器例如:x86服务器以及非x86服务器,非x86服务器包括:大型机、小型机和UNIX服务器。
需要说明的是,本申请实施例提供的文本增强方法、文本分类方法可以被电子设备执行,这里的电子设备是指具有执行计算机程序功能的设备终端或者上述的服务器,设备终端例如:智能手机、个人电脑(personal computer,PC)、平板电脑、个人数字助理(personal digital assistant,PDA)或者移动上网设备(mobile Internet device,MID)等。
在介绍本申请实施例提供的文本增强方法、文本分类方法之前,先介绍该文本增强方法、文本分类方法适用的应用场景,这里的应用场景包括但不限于:对文本语料库中的文本数据进行增强,从而改善在训练文本分类模型时文本训练数据不均衡等问题,提高文本分类模型对文本进行分类的正确率。
请参见图1示出的本申请实施例提供的文本增强方法的流程示意图;该文本增强方法的主要思路是,通过使用训练获得的生成对抗网络模型生成扩充语句样本,由于生成对抗网络模型学习到概念树中相似度超过阈值的相似词语之间的新增变化规则,从而能够更好地生成特定类别样本;上述的文本增强方法可以包括:
步骤S110:获得文本语料中的语句内容,并对语句内容进行分词,获得分词后的词语。
上述步骤S110中的语句内容的获得方式包括:第一种获得方式,接收其它终端设备发送的文本语料,并根据预设分割符将文本语料划分为语句内容,然后将划分后的语句内容存储至文件系统、数据库或移动存储设备中;其中,此处的分割符可以根据具体情况进行设置,分割符例如:中文句号、中文逗号和英文句号等等。第二种获得方式,获取预先存储的由文本语料划分后的语句内容,具体例如:从文件系统、数据库或者移动存储设备中获取划分后的语句内容;第三种获得方式,使用浏览器等软件获取互联网上的文本语料,并根据预设分割符将文本语料划分为语句内容;其中,此处的分割符可以设置为中文句号、中文逗号和英文句号等等。
上述步骤S110中对语句内容进行分词的实施方式有很多种,包括:
第一种实施方式,使用机械式分词法(即基于词典)进行分词,获得词语集合:机械分词的原理是将文档中的字符串与词典中的词条进行逐一匹配,如果词典中找到某个字符串,则匹配成功,可以切分,否则不予切分,机械式分词法例如:以词典为依据的正向最大匹配法、逆向最大匹配法和最少切分法。
第二种实施方式,基于统计的分词方法进行分词,获得词语集合;这种分词方法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的组合,相邻的字同时出现的次数越多,就越有可能构成一个词,基于统计的方法例如:词频逆向文件频率(Term Frequency–Inverse Document Frequency,TF-IDF)分词器、隐马尔可夫模型(Hidden Markov Model,HMM)方法、N元模型(N-gram)方法和条件随机场方法等等。
第三种实施方式,使用基于语法和规则的分词方法进行分词,获得词语集合;这种分词方法的基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来进行词性标注,以解决分词歧义现象。
在步骤S110之后,执行步骤S120:从概念树中筛选出与分词后的词语中相似度超过阈值的相似词语,并使用相似词语对语句内容进行随机替换,获得多个语句。
概念树(Concept Tree),是指由概念词语和/或概念向量构成的树形数据结构;用户可以很快捷地从概念树中查找到两个词语之间的相似度或者关联度等信息,也可以从概念树中查找到与目标词语相似的其它相似词语。
可以理解的是,在使用上述步骤S120的概念树之前,还需要先构建概念树,构建概念树的过程可以包括:
步骤S121:获取多个词语。
上述步骤S121的实施方式包括:第一种实施方式,获取文本语料,并基于语法和规则的分词法对文本语料进行分词,获得多个词语,其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来进行词性标注,以解决分词歧义现象。第二种实施方式,获取文本语料,并基于机械式分词法(即词典)对文本语料进行分词,获得多个词语,此处的机械分词的原理是将文档中的字符串与词典中的词条进行逐一匹配,如果词典中找到某个字符串,则匹配成功,可以切分,否则不予切分,机械式分词法例如:以词典为依据的正向最大匹配法、逆向最大匹配法和最少切分法。第三种实施方式,获取文本语料,并基于统计的方法对文本语料进行分词,基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。由于词是字的组合,若相邻的字同时出现的次数越多,则越有可能构成一个词,基于统计的方法例如:词频逆向文件频率(Term Frequency–Inverse Document Frequency,TF-IDF)方法、隐马尔可夫模型(Hidden Markov Model,HMM)方法和N元模型(N-Gram)方法等等。
步骤S122:对多个词语的每个词语进行向量化计算,获得多个特征向量。
上述步骤S122的实施方式包括:第一种实施方式,使用双TriNet模型来进行向量化计算,该实施方式例如:获取训练后的双TriNet模型,并使用训练后的双TriNet模型对多个词语的每个词语进行向量化计算。第二种实施方式,使用预训练语言模型来进行向量化计算,该实施方式例如:获取预训练语言模型,并利用预训练语言模型对多个词语的每个词语进行向量化计算;其中,此处的预训练语言模型包括:自回归语言模型或者自编码语言模型,可以使用的预训练语义模型例如:GloVe、word2vec和fastText等模型。在具体的实践过程中,可以将双TriNet模型结合ResNet-18一起使用,从使得双TriNet模型能够有效地增强ResNet-18多层结构产生的视觉特征。
步骤S123:计算多个特征向量中的每两个特征向量之间的关联度或相似度,并根据该关联度或相似度构建概念树。
上述步骤S120的实施方式例如:对分词后的词语进行向量化计算,获得分词向量,然后,在概念树中筛选出与分词向量的关联度或相似度超过阈值的词语向量,并获取词语向量对应的相似词语。最后,使用相似词语对语句内容进行随机替换,获得多个语句;具体例如:假设需要替换的语句内容为“我在清晨唱歌”,是概念树中搜索到清晨的相似词语包括:早上和早晨,那么就可以替换,获得“我在早上唱歌”和“我在早晨唱歌”这两个语句。
在步骤S120之后,执行步骤S130:使用多个语句训练生成对抗网络,获得生成对抗网络模型。
上述步骤S130的实施方式包括:获取噪音数据,并使用噪音数据和多个语句中的预设比例对生成器进行预训练,获得预训练后的生成器;根据预训练后的生成器对判别器进行预训练,获得预训练后的判别器;其中,上述的预设比例可以根据具体情况进行设置,可以设置为百分之二十或者百分之三十等等。在预训练完成后,迭代执行对抗训练流程,直到生成对抗网络收敛后,即可获得训练后的生成对抗网络模型。上述的生成对抗网络可以采用:GAN、styleGAN、styleGAN2、WGAN(Wasserstein GAN)、WGAN-GP(Wasserstein GAN-gradient penalty)和辅助分类生成对抗网络(Auxiliary Classifier GenerativeAdversarial Network,AC-GAN)等。
上述的预训练过程例如:随机初始化生成器和判别器的参数;以预处理后的流量数据为训练数据,使用最大似然估计算法对生成器进行预训练,获得预训练后的生成器。使用预训练后的生成器生成初始数据;使用初始数据对判别器进行预训练,获得预训练后的判别器。
在步骤S130之后,执行步骤S140:使用生成对抗网络模型生成扩充语句样本。
上述步骤S140的实施方式包括:第一种实施方式,可以直接利用生成器生成大量的扩充语句样本,然后,从大量的扩充语句样本中筛选出具有语义意义,且能够用作训练神经网络的语句样本。第二种实施方式,可以先生成少量的扩充语句样本,然后判断扩充语句样本是否具有语义意义,若否,则可以重新使用具有语义意义的语句对生成对抗网络模型重新训练,获得重新训练后的生成对抗网络模型,最后,再使用重新训练后的生成对抗网络模型来生成大量的扩充语句样本。获取噪音数据,并将噪音数据输入生成对抗网络模型,从而可以获得生成对抗网络模型输出的扩充语句样本。
在步骤S140之后,执行步骤S150:将扩充语句样本与文本语料中的语句内容结合,获得增强的文本数据集。
上述步骤S150的实施方式包括:第一种实施方式,直接将扩充语句样本的集合与文本语料中的语句集合进行合并,获得合并后的文本数据集,此处合并后的文本数据集就可以理解为上述的增强的文本数据集。第二种实施方式,随机对文本中的语句进行替换,即可获得更多的文本数据集,该实施方式例如:扩充语句样本的数量是2条,文本语料中的语句样本是3条,那么假设文本数据中的语句数量一共仅两条语句,则理论上将扩充语句样本与文本语料中的语句进行排列组合,获得的文本数据的数量为2×3=6条。
在上述的实现过程中,通过从概念树中筛选出与分词后的词语中相似度超过阈值的相似词语,并使用相似词语对语句内容进行随机替换,获得多个语句,使用训练获得的生成对抗网络模型生成扩充语句样本;将扩充语句样本与文本语料中的语句内容结合,获得增强的文本数据集;也就是说,通过使用训练获得的生成对抗网络模型生成扩充语句样本,由于生成对抗网络模型学习到概念树中相似度超过阈值的相似词语之间的新增变化规则,从而能够更好地生成特定类别样本。
请参见图2示出的本申请实施例提供的文本分类方法的流程示意图;在使用上述文本增强方法获得增强的文本数据集之后,还可以使用增强的文本数据集训练神经网络,并使用神经网络分类文本语料,此处的文本分类方法可以包括:
步骤S210:使用上面的文本增强方法对文本语料进行数据增强,获得增强的文本数据集。
上述步骤S210的实施方式例如:获得文本语料,并使用上面步骤S110至步骤S150的文本增强方法对已获取的文本语料进行数据增强,获得增强的文本数据集。
在步骤S210之后,执行步骤S220:使用增强的文本数据集训练神经网络,获得神经网络模型。
上述步骤S220的实施方式例如:使用增强的文本数据集训练神经网络,获得神经网络模型;其中,可以使用的神经网络包括:VGG网络、ResNet网络、Wide ResNet网络和Inception网络等;其中,VGG网络具体例如:VGG16或者VGG19;ResNet网络具体例如:ResNet12、ResNet18、ResNet50或者ResNet101;Wide ResNet网络具体例如Wide ResNet-28-10网络,这里的Wide ResNet-28-10网络有时又被缩写为WRN-28-10;Inception网络具体例如:Inception v1、Inception v2或者Inception v3。
在步骤S220之后,执行步骤S230:使用神经网络模型对待分类文本语料进行分类,获得分类结果。
上述步骤S230的实施方式例如:使用文本卷积网络层(Text-CNN)、VGG网络、ResNet网络、Wide ResNet网络和Inception网络等等神经网络模型对待分类文本语料进行分类,获得分类结果。
在上述的实现过程中,通过使用增强的文本数据集训练神经网络,并使用神经网络模型对待分类文本语料进行分类,从而避免了生成相似度过高的数据量过多导致数据类别不均衡的问题,有效地提高了使用神经网络模型对文本进行分类的准确率。
请参见图3示出的本申请实施例提供的文本增强装置的结构示意图;本申请实施例提供了一种文本增强装置300,包括:
语句内容分词模块310,用于获得文本语料中的语句内容,并对语句内容进行分词,获得分词后的词语。
语句内容替换模块320,用于从概念树中筛选出与分词后的词语中相似度超过阈值的相似词语,并使用相似词语对语句内容进行随机替换,获得多个语句。
网络模型获得模块330,用于使用多个语句训练生成对抗网络,获得生成对抗网络模型。
语句样本扩充模块340,用于使用生成对抗网络模型生成扩充语句样本。
文本数据增强模块350,用于将扩充语句样本与文本语料中的语句内容结合,获得增强的文本数据集。
可选地,在本申请实施例中,文本增强装置,还包括:
词语分词获取模块,用于获取多个词语。
特征向量获得模块,用于对多个词语的每个词语进行向量化计算,获得多个特征向量。
概念树构建模块,用于计算多个特征向量中的每两个特征向量之间的关联度,并根据该关联度构建概念树。
可选地,在本申请实施例中,特征向量获得模块,包括:
训练模型获取模块,用于获取训练后的双TriNet模型。
第一向量计算模块,用于使用训练后的双TriNet模型对多个词语的每个词语进行向量化计算。
可选地,在本申请实施例中,特征向量获得模块,包括:
第二向量计算模块,用于获取预训练语言模型,并利用预训练语言模型对多个词语的每个词语进行向量化计算。
可选地,在本申请实施例中,语句内容替换模块,包括:
分词向量获得模块,用于对分词后的词语进行向量化计算,获得分词向量。
相似词语获取模块,用于在概念树中筛选出与分词向量的关联度超过阈值的词语向量,并获取词语向量对应的相似词语。
本申请实施例还提供了一种文本分类装置,包括:
文本数据获得模块,用于使用如上面描述的方法获得增强的文本数据集。
网络模型获得模块,用于使用增强的文本数据集训练神经网络,获得神经网络模型。
分类结果获得模块,用于使用神经网络模型对待分类文本语料进行分类,获得分类结果。
应理解的是,该装置与上述的文本增强方法、文本分类方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。
请参见图4示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400,包括:处理器410和存储器420,存储器420存储有处理器410可执行的机器可读指令,机器可读指令被处理器410执行时执行如上的方法。
本申请实施例还提供了一种存储介质430,该存储介质430上存储有计算机程序,该计算机程序被处理器410运行时执行如上的方法。
其中,存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请实施例提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这主要根据所涉及的功能而定。
另外,在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上的描述,仅为本申请实施例的可选实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。

Claims (10)

1.一种文本增强方法,其特征在于,包括:
获得文本语料中的语句内容,并对所述语句内容进行分词,获得分词后的词语;
从概念树中筛选出与所述分词后的词语中相似度超过阈值的相似词语,并使用所述相似词语对所述语句内容进行随机替换,获得多个语句;
使用所述多个语句训练生成对抗网络,获得生成对抗网络模型;
使用所述生成对抗网络模型生成扩充语句样本;
将所述扩充语句样本与所述文本语料中的语句内容结合,获得增强的文本数据集。
2.根据权利要求1所述的方法,其特征在于,在所述从概念树中筛选出与所述分词后的词语中相似度超过阈值的相似词语之前,还包括:
获取多个词语;
对所述多个词语的每个词语进行向量化计算,获得多个特征向量;
计算所述多个特征向量中的每两个特征向量之间的关联度,并根据该关联度构建所述概念树。
3.根据权利要求2所述的方法,其特征在于,所述对所述多个词语的每个词语进行向量化计算,包括:
获取训练后的双TriNet模型;
使用所述训练后的双TriNet模型对所述多个词语的每个词语进行向量化计算。
4.根据权利要求2所述的方法,其特征在于,所述对所述多个词语的每个词语进行向量化计算,包括:
获取预训练语言模型,并利用所述预训练语言模型对所述多个词语的每个词语进行向量化计算。
5.根据权利要求1所述的方法,其特征在于,所述从概念树中筛选出与所述分词后的词语中相似度超过阈值的相似词语,包括:
对所述分词后的词语进行向量化计算,获得分词向量;
在所述概念树中筛选出与所述分词向量的关联度超过阈值的词语向量,并获取所述词语向量对应的相似词语。
6.一种文本分类方法,其特征在于,包括:
使用如权利要求1-5中任一项所述的方法获得增强的文本数据集;
使用增强的文本数据集训练神经网络,获得神经网络模型;
使用所述神经网络模型对待分类文本语料进行分类,获得分类结果。
7.一种文本增强装置,其特征在于,包括:
语句内容分词模块,用于获得文本语料中的语句内容,并对所述语句内容进行分词,获得分词后的词语;
语句内容替换模块,用于从概念树中筛选出与所述分词后的词语中相似度超过阈值的相似词语,并使用所述相似词语对所述语句内容进行随机替换,获得多个语句;
网络模型获得模块,用于使用所述多个语句训练生成对抗网络,获得生成对抗网络模型;
语句样本扩充模块,用于使用所述生成对抗网络模型生成扩充语句样本;
文本数据增强模块,用于将所述扩充语句样本与所述文本语料中的语句内容结合,获得增强的文本数据集。
8.一种文本分类装置,其特征在于,包括:
文本数据获得模块,用于使用如权利要求1-5中任一项所述的方法获得增强的文本数据集;
网络模型获得模块,用于使用增强的文本数据集训练神经网络,获得神经网络模型;
分类结果获得模块,用于使用所述神经网络模型对待分类文本语料进行分类,获得分类结果。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如权利要求1至6任一所述的方法。
10.一种存储介质,其特征在于,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至6任一所述的方法。
CN202110311001.8A 2021-03-23 2021-03-23 一种文本增强方法、文本分类方法及相关装置 Active CN112906392B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110311001.8A CN112906392B (zh) 2021-03-23 2021-03-23 一种文本增强方法、文本分类方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110311001.8A CN112906392B (zh) 2021-03-23 2021-03-23 一种文本增强方法、文本分类方法及相关装置

Publications (2)

Publication Number Publication Date
CN112906392A true CN112906392A (zh) 2021-06-04
CN112906392B CN112906392B (zh) 2022-04-01

Family

ID=76106160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110311001.8A Active CN112906392B (zh) 2021-03-23 2021-03-23 一种文本增强方法、文本分类方法及相关装置

Country Status (1)

Country Link
CN (1) CN112906392B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806533A (zh) * 2021-08-27 2021-12-17 网易(杭州)网络有限公司 比喻句式特征词语提取方法、装置、介质及设备
CN113961674A (zh) * 2021-12-21 2022-01-21 深圳市迪博企业风险管理技术有限公司 一种关键信息与上市公司公告文本语义匹配方法及装置
CN114118068A (zh) * 2022-01-26 2022-03-01 北京淇瑀信息科技有限公司 训练文本数据的扩增方法、装置及电子设备
CN115361176A (zh) * 2022-08-03 2022-11-18 昆明理工大学 一种基于FlexUDA模型的SQL注入攻击检测方法
CN116522908A (zh) * 2023-07-04 2023-08-01 西安羚控电子科技有限公司 指挥控制系统消息管理方法及装置
CN116992830A (zh) * 2022-06-17 2023-11-03 北京聆心智能科技有限公司 文本数据处理方法、相关装置及计算设备
WO2023241226A1 (zh) * 2022-06-17 2023-12-21 华为云计算技术有限公司 语句生成方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5802533A (en) * 1996-08-07 1998-09-01 Walker; Randall C. Text processor
CN110209806A (zh) * 2018-06-05 2019-09-06 腾讯科技(深圳)有限公司 文本分类方法、文本分类装置及计算机可读存储介质
CN110222707A (zh) * 2019-04-28 2019-09-10 平安科技(深圳)有限公司 一种文本数据增强方法及装置、电子设备
CN110490946A (zh) * 2019-07-15 2019-11-22 同济大学 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN110909164A (zh) * 2019-11-22 2020-03-24 科大国创软件股份有限公司 一种基于卷积神经网络的文本增强语义分类方法及系统
CN112069799A (zh) * 2020-09-14 2020-12-11 深圳前海微众银行股份有限公司 基于依存句法的数据增强方法、设备和可读存储介质
CN112115267A (zh) * 2020-09-28 2020-12-22 平安科技(深圳)有限公司 文本分类模型的训练方法、装置、设备及存储介质
CN112446213A (zh) * 2020-11-26 2021-03-05 电子科技大学 一种文本语料扩充方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5802533A (en) * 1996-08-07 1998-09-01 Walker; Randall C. Text processor
CN110209806A (zh) * 2018-06-05 2019-09-06 腾讯科技(深圳)有限公司 文本分类方法、文本分类装置及计算机可读存储介质
CN110222707A (zh) * 2019-04-28 2019-09-10 平安科技(深圳)有限公司 一种文本数据增强方法及装置、电子设备
CN110490946A (zh) * 2019-07-15 2019-11-22 同济大学 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN110909164A (zh) * 2019-11-22 2020-03-24 科大国创软件股份有限公司 一种基于卷积神经网络的文本增强语义分类方法及系统
CN112069799A (zh) * 2020-09-14 2020-12-11 深圳前海微众银行股份有限公司 基于依存句法的数据增强方法、设备和可读存储介质
CN112115267A (zh) * 2020-09-28 2020-12-22 平安科技(深圳)有限公司 文本分类模型的训练方法、装置、设备及存储介质
CN112446213A (zh) * 2020-11-26 2021-03-05 电子科技大学 一种文本语料扩充方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806533A (zh) * 2021-08-27 2021-12-17 网易(杭州)网络有限公司 比喻句式特征词语提取方法、装置、介质及设备
CN113806533B (zh) * 2021-08-27 2023-08-08 网易(杭州)网络有限公司 比喻句式特征词语提取方法、装置、介质及设备
CN113961674A (zh) * 2021-12-21 2022-01-21 深圳市迪博企业风险管理技术有限公司 一种关键信息与上市公司公告文本语义匹配方法及装置
CN113961674B (zh) * 2021-12-21 2022-03-22 深圳市迪博企业风险管理技术有限公司 一种关键信息与上市公司公告文本语义匹配方法及装置
CN114118068A (zh) * 2022-01-26 2022-03-01 北京淇瑀信息科技有限公司 训练文本数据的扩增方法、装置及电子设备
CN114118068B (zh) * 2022-01-26 2022-04-29 北京淇瑀信息科技有限公司 训练文本数据的扩增方法、装置及电子设备
CN116992830A (zh) * 2022-06-17 2023-11-03 北京聆心智能科技有限公司 文本数据处理方法、相关装置及计算设备
CN116992830B (zh) * 2022-06-17 2024-03-26 北京聆心智能科技有限公司 文本数据处理方法、相关装置及计算设备
WO2023241226A1 (zh) * 2022-06-17 2023-12-21 华为云计算技术有限公司 语句生成方法、装置及存储介质
CN115361176B (zh) * 2022-08-03 2024-03-01 昆明理工大学 一种基于FlexUDA模型的SQL注入攻击检测方法
CN115361176A (zh) * 2022-08-03 2022-11-18 昆明理工大学 一种基于FlexUDA模型的SQL注入攻击检测方法
CN116522908A (zh) * 2023-07-04 2023-08-01 西安羚控电子科技有限公司 指挥控制系统消息管理方法及装置
CN116522908B (zh) * 2023-07-04 2023-12-05 西安羚控电子科技有限公司 指挥控制系统消息管理方法及装置

Also Published As

Publication number Publication date
CN112906392B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
CN112906392B (zh) 一种文本增强方法、文本分类方法及相关装置
JP6643555B2 (ja) 曖昧なエンティティワードに基づくテキスト処理方法及び装置
US10606946B2 (en) Learning word embedding using morphological knowledge
CN107085581B (zh) 短文本分类方法和装置
CN110851604B (zh) 一种文本分类方法、装置、电子设备及存储介质
JP7108675B2 (ja) 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN111460820B (zh) 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
CN111753531A (zh) 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
CN111832282B (zh) 融合外部知识的bert模型的微调方法、装置及计算机设备
US9852125B2 (en) Dynamic portmanteau word semantic identification
JP5809381B1 (ja) 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム
CN111695349A (zh) 文本匹配方法和文本匹配系统
JP6312467B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN112052331A (zh) 一种处理文本信息的方法及终端
RU2712101C2 (ru) Предсказание вероятности появления строки с использованием последовательности векторов
CN112417878A (zh) 实体关系抽取方法、系统、电子设备及存储介质
US20220300708A1 (en) Method and device for presenting prompt information and storage medium
JP6553180B2 (ja) 言語検出を行うためのシステムおよび方法
CN111241820A (zh) 不良用语识别方法、装置、电子装置及存储介质
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN111666405A (zh) 用于识别文本蕴含关系的方法和装置
CN112528653B (zh) 短文本实体识别方法和系统
JP3080066B2 (ja) 文字認識装置、方法及び記憶媒体
CN116244432B (zh) 语言模型的预训练方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant