CN116610804B - 一种提升小样本类别识别的文本召回方法和系统 - Google Patents
一种提升小样本类别识别的文本召回方法和系统 Download PDFInfo
- Publication number
- CN116610804B CN116610804B CN202310884928.XA CN202310884928A CN116610804B CN 116610804 B CN116610804 B CN 116610804B CN 202310884928 A CN202310884928 A CN 202310884928A CN 116610804 B CN116610804 B CN 116610804B
- Authority
- CN
- China
- Prior art keywords
- text
- small sample
- recall
- model
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000007781 pre-processing Methods 0.000 claims abstract description 30
- 230000008451 emotion Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 19
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000001737 promoting effect Effects 0.000 claims 2
- 230000007246 mechanism Effects 0.000 description 23
- 238000013528 artificial neural network Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000013145 classification model Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000000050 ionisation spectroscopy Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 230000007935 neutral effect Effects 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及序列推荐技术领域,提供了一种提升小样本类别识别的文本召回方法和系统。上述方法包括:获取用于模型训练的第一文本序列;依据预定义的小样本类别,获取对应于小样本类别的关键词,以便构建小样本类别的关键词库;依据确定的文本模板,对第一文本序列的文本数据进行文本预处理,以便获得第二文本序列,其中文本预处理包括依据关键词库的关键词和文本模板对第一文本序列的文本数据进行标记;将第二文本序列输入至预设的文本召回模型,以便获得训练后的文本召回模型。本申请训练得到的文本召回模型可以提升小样本类别识别结果的文本召回率。
Description
技术领域
本申请涉及序列推荐技术领域,尤其涉及一种提升小样本类别识别的文本召回方法和系统。
背景技术
文本是传递信息的重要载体。随着自然语言文本分类技术的提升,使用文本分类技术处理文本分类任务的场景日益增多。文本所描述的内容能够表达情感,通过识别文本来进行文本内容的情感分析,可以衡量人们的观点倾向。由于分别表达正面或负面或中立的文本样本可能存在不均衡,例如商场在好评如潮占大多数的情况下,更希望获得一些负面评价,以便帮助其提升服务质量。
因此,对于文本推荐而言,如何提升小样本类别识别结果的文本召回率是需要解决的技术问题。
发明内容
有鉴于此,本申请实施例提供了一种提升小样本类别识别的文本召回方法、系统、电子设备及计算机可读存储介质,以解决现有技术对小样本类别识别结果的召回率有待提高的技术问题。
本申请实施例的第一方面,提供了一种提升小样本类别识别的文本召回方法,包括:
获取用于模型训练的第一文本序列;
依据预定义的小样本类别,获取对应于所述小样本类别的关键词,以便构建所述小样本类别的关键词库;
依据确定的文本模板,对所述第一文本序列的文本数据进行文本预处理,以便获得第二文本序列,其中所述文本预处理包括依据所述关键词库的关键词和所述文本模板对所述第一文本序列的所述文本数据进行标记;
将所述第二文本序列输入至预设的文本召回模型,以便获得训练后的所述文本召回模型。
本申请实施例的第二方面,提供了一种提升小样本类别识别的文本召回系统,包括:
训练文本获取模块,能够获取用于模型训练的第一文本序列;
关键词库构建模块,能够依据预定义的小样本类别,获取对应于所述小样本类别的关键词,以便构建所述小样本类别的关键词库;
文本预处理模块,能够依据确定的文本模板,对所述第一文本序列的文本数据进行文本预处理,以便获得第二文本序列,其中所述文本预处理包括依据所述关键词库的关键词和所述文本模板对所述第一文本序列的所述文本数据进行标记;
模型训练模块,能够将所述第二文本序列输入至预设的文本召回模型,以便获得训练后的所述文本召回模型。
本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现第一方面所述方法的步骤。
本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现第一方面所述方法的步骤。
本申请实施例与现有技术相比存在的有益效果至少包括:本申请实施例首先获取用于模型训练的第一文本序列;依据预定义的小样本类别,获取对应于小样本类别的关键词,以便构建小样本类别的关键词库;依据确定的文本模板,对第一文本序列的文本数据进行文本预处理,以便获得第二文本序列,文本预处理包括依据关键词库的关键词和文本模板对第一文本序列的文本数据进行标记;将第二文本序列输入至预设的文本召回模型,以便获得训练后的文本召回模型。本申请实施例训练得到的文本召回模型可以提升小样本类别识别结果的文本召回率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例提供的基于神经网络的预训练文本召回模型工作流程示意图;
图2是本申请实施例提供的一种提升小样本类别识别的文本召回方法的流程示意图之一;
图3是本申请实施例提供的一种提升小样本类别识别的文本召回方法的流程示意图之二;
图4是本申请实施例提供的一种提升小样本类别识别的文本召回方法的流程示意图之三;
图5是本申请实施例提供的一种提升小样本类别识别的文本召回系统的结构示意图;
图6是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
下面将结合附图详细说明根据本申请实施例的一种提升小样本类别识别的文本召回方法、系统、电子设备和存储介质。
如背景技术所述,文本所描述的内容传递了哪种类别的信息,是基于文本序列推荐的关键。随着自然语言文本分类技术的提升,使用文本分类技术处理文本分类任务的场景日益增多。常见的文本分类任务可以应用于新闻分类、邮件分类、搜索引擎分类等。此外,情感分析是一种有趣的自然语言分类任务,通过分析文本来检测文本中的情感色彩,用于衡量人们的观点倾向。例如,我们可以对电影评论或由该电影引起的情绪状态进行分析。
情感分析有助于检查顾客对商品或服务是否满意。传统的民意调查早已淡出人们的视线,人们更愿意在社交网络上分享他们的观点。搜索负面文本和识别主要的投诉可以显著地帮助改变概念、改进产品和广告,并减少不满的程度。反过来,明确的正面评论会提高收视率和需求。
但是,以情感分析为例,正面的、负面的或者中立的样本总会有不均衡的情况存在,比如好评如潮的商场可能更希望听到一些负面的评价,以提升其服务质量,如何在负面评价少的时候找到更多目标评论,是文本分类模型遇到的问题。因此,本申请关注的是如何提升拟分类识别的文本的注意力,以提升样本较少的文本识别结果的召回率。
目前,比较成熟的序列推荐系统分为冷启动-召回-粗排-精排-重排五个阶段。召回的主要作用就是从千百万物品中,选出一批大概率感兴趣的物品,主要是尽可能的保证召回率要高。
基于文本召回是召回系统最常用的一种策略,最常见的方式是通过将语句直接进行分词,然后与倒排索引里进行匹配召回。这种召回方式的优点是足够简单,但是可能会限制的太过严格,对于一些长尾语句的搜索会导致输入意图一致的相似词却没办法召回合适的商品。
通常采用的文本分类模型是基于神经网络特别是预训练模型进行构建,如图1所示。作为一种深度学习模型,基于神经网络的预训练模型构建的文本分类模型,可以获得文本输入,将输入的文本执行分词等基本操作后,将文本语句的单词转化为低维的词表示,进而使用基于神经网络的编码器,例如卷积神经网络、循环神经网络,自注意力网络等得到语句表示,最终得到文本的目标类别结果。
基于神经网络的文本分类模型一般由多层神经网络组成,常用的是CNN、RNN等神经网络模型。首先,第一层神经网络将文本转换为特征向量,然后将特征向量输入到后面的神经网络中,经过迭代处理,最终得到文本的分类结果,其优势在于可以自动提取文本的特征,从而更好地理解文本的内容,用于情感分析等文本分类任务。文本分类任务的一般处理流程包括:数据准备阶段能够收集文本数据和标签,将文本数据进行预处理,建立训练集、验证集和测试集;模型构建阶段能够使用卷积神经网络构建模型,包括输入层、卷积层、池化层、全连接层等,并定义损失函数和优化器;训练模型阶段能够使用训练集进行模型训练,调整超参数,确定最佳模型;评估模型阶段能够使用验证集和测试集对模型进行评估,并计算准确率,确定模型的泛化能力;应用模型阶段能够使用模型对新文本进行分类,实现文本分类任务。
但是,基于神经网络的文本分类模型在不同类别的样本数量差距较大时,分类效果受限,特别是样本数量少的类别召回率低,不能满足实际使用需求。
有鉴于此,本申请实施例为解决上述问题,对现有的文本召回模型,特别是应用于文本召回模型的小样本类别的文本序列进行预处理,并基于预处理的文本样本训练文本召回模型,以使训练后的文本召回模型进一步强化了对小样本类别的识别注意力,以提高文本结果的召回率。
需要说明的是,本申请实施例的一种提升小样本类别识别的文本召回模型训练方案,采用的是技术思路是提升文本召回模型对小样本类别中关键词的注意力,以此来提升模型对该类关键词的识别和召回。基于注意力机制的文本分类已经在多个领域得到成功应用。例如,垃圾邮件分类、情感分析、新闻分类、其他NLP引擎、电影评论等。垃圾邮件分类:基于注意力机制的文本分类可以捕获邮件正文中的垃圾信息,识别出垃圾邮件,从而实现垃圾邮件的准确分类和过滤。情感分析:基于注意力机制的文本分类算法可以识别和分类文本中的情感,包括正面评价、负面评价和中立评价等。新闻分类:基于注意力机制的文本分类算法可以通过识别新闻标题或正文中的关键词进行新闻分类,实现了自动化分类处理,并提高了新闻的效率和准确度。电影评论:基于注意力机制的文本分类算法可以对观众对电影内容的评价进行分类,从而帮助制片方更好地改进电影内容,提高电影的口碑和收益。
具体地,本申请实施例用情感二分类任务说明发明的具体思路:假设文本召回任务是一个二分类问题,即正向情感和负向情感两类。在实施例说明中,假定当前正向情感的文本相对较少,实施例拟提升正向情感类别识别结果的召回率。
如图2所示,为本申请实施例的一种提升小样本类别识别的文本召回方法流程示意图。参照图1,上述方法包括:
S201:获取用于模型训练的第一文本序列。
S202:依据预定义的小样本类别,获取对应于上述小样本类别的关键词,以便构建上述小样本类别的关键词库。
S203:依据确定的文本模板,对上述第一文本序列的文本数据进行文本预处理,以便获得第二文本序列,其中上述文本预处理包括依据上述关键词库的关键词和上述文本模板对上述第一文本序列的上述文本数据进行标记。
S204:将上述第二文本序列输入至预设的文本召回模型,以便获得训练后的上述文本召回模型。
在一些实施例中,获取上述小样本类别对应的预设关键词包括:依据表征上述小样本类别的关键词的出现频率,选定上述关键词。
具体地,对于样本较少的正向情感类别,首先要挖掘此类别中的高频词或关键词。例如,正向情感文本经常出现的关键词包括但不限于高兴、兴奋、舒畅等。因此,将这些选定的关键词构建成关键词库,以便后续基于关键词库的关键词。
在一些实施例中,上述文本模板包括文本前缀,其中上述文本前缀包括上述关键词库的中的一个或多个上述关键词;以及,如图3所示,确定上述文本模板的过程包括:
S311:依据与拟识别文本数据相对应的具体任务,选定上述文本模板。
S312:依据选定的上述文本模板,确定描述上述文本模板的上述文本前缀的自然语言。
具体地,假定训练集中的原文为“今天我的心情很舒畅。”本申请实施例通过筛选构造的文本模板及其前缀,得到的前缀为“下文中是否包含高兴,兴奋,舒畅等正向情感词汇?并请预测下句是否为正向情感:”。
具体地,使用何种自然语言作为文本模板的前缀,需要依据不同的文本模板在验证集上评估注意力提升效果而确定。
在一些实施例中,如图4所示,对上述第一文本序列的文本数据进行文本预处理,以便获得第二文本序列,包括:
S411:将确定的上述文本模板与上述对上述第一文本序列的文本数据进行拼接。
S412:依据上述关键词库中的上述关键词,对拼接后的文本数据的相应词语添加预设的关键词标记。
S413:对添加标记后的文本数据的头部添加模型特殊标记后,获得上述第二文本序列的文本数据。
具体地,对原文添加模版前缀,并对样本中出现的关键词添加”[]”处理,用于提升模型对这些词汇的注意力。最后将原文和模板前缀拼接,并对筛选关键词语加上”[]”进行注意力提升。则本句变为:“[CLS]下文中是否包含[高兴],[兴奋],[舒畅]等正向情感词汇?并请预测下句是否为正向情感:今天我的心情很[舒畅]。”
这里需要说明的是,[CLS]和BERT中的两个特殊标记符号,在BERT的车输入文本中起到特殊的作用。[CLS]就是classification的意思,可以理解为用于下游的分类任务。主要用于以下两种任务:一种是单文本分类任务,对于文本分类任务,BERT模型在文本前插入人一个[CLS]符号,并将上述符号对应的输出向量作为整篇文本的语义表示,用于文本分类;即可以理解为与文本中已有的其它字/词相比,这个无明显语义信息的符号会更公平地融合文本中各个字/词的语义信息。另一种是语句对分类任务,BERT模型除了添加ICLS]符号并将对应的输出作为文本的语义表示,还对输入的两句话用一个[SEP]符号作分割,并分
在一些实施例中,上述文本召回模型由包括CNN或RNN任一神经网络模型进行构建。
具体地,CNN即卷积神经网络,通过卷积神经网络CNN处理用户和项目的评论集,对用户和项目的评论文本进行评论特征表示,并提取相关的用户特征信息和项目特征信息,进而结合用户对项目的评分偏好,学习用户和项目的评论情感特征表示;其次,基于注意力机制为用户和项目聚合了相关的评论情感特征信息,学习用户和项目的嵌入表示;最后,结合偏置信息,基于用户和项目的嵌入预测了用户对项目的评分。RNN为循环神经网络,在此不再赘述。但应当理解,凡是能够构建文本召回模型的深度学习模型均在本申请实施例的保护范围内。
具体地,考虑到CNN或者RNN在文本分类任务中尽管效果显著,但都有一个不足的地方就是不够直观,可解释性不好,而注意力机制attention是自然语言处理领域一个常用的建模长时间记忆机制,能够很直观的给出每个字对结果的贡献。注意力机制模拟人类注意力模型的一种机制,即模型可以通过动态地分配不同的权重到不同的输入信息上,从而实现对不同信息的关注程度不同。注意力机制是一种神经网络中的机制,它可以使得神经网络的表示更加精简、信息更加丰富,从而提高模型的性能。
注意力机制可以被用于多种任务,例如机器翻译、语音识别、文本分类等。基于注意力机制的文本分类模型主要分为两类:基于单向注意力机制的模型和基于双向注意力机制的模型。基于单向注意力机制的模型,是由一篇文章和一个查询串构成,上述模型通过网络中对所有词进行编码,来对待分类文本进行刻画,然后从一篇与待分类文章功能相关的文章集合中找到与这篇文章最匹配的文章。它可以用于一些仅有单个句子的分类任务。基于双向注意力机制的模型,是通过建立两个注意力机制,可以从文章中结合上下文信息进行文本分类。上述模型的基本结构包括输入,词向量表示,双向注意力机制,全连接层等部分。首先,输入阶段将待分类文本经过一个分词器分词,然后将每个单词转换为一个词向量。接着,通过双向注意力机制,得到每个单词的前向和后向状态信息。然后,经过第一次注意力机制,将整个评述的全局表示递归地编码成一个向量,同时计算出每个词在全局表示中的注意力权重。最后,经过第二次注意力机制,计算每个单词注意力之后,在全局表示中加权得到单词的局部表示,并传递给分类器。
在一些实施例中,上述文本召回模型能够依据预设的关键词标记,解析获得上述关键词,以便基于上述关键词,获得上述文本数据的注意力增强语义特征。
在一些实施例中,上述方法还包括:依据上述文本模板和上述关键词库,对测试文本序列进行预处理后,输入至经训练的上述文本召回模型,以便获得文本召回结果;或者,使用上述第二文本序列对上述文本召回模型进行精调。
具体地,基于修改后的数据进行模型训练后,在模型预测阶段,也需要对待预测样本进行同样的加模板前缀和加“[]”强调操作。
具体地,基于一定的业务知识,创建模版,确定符合业务目标的关键词后,基于模版修改原文,并对原文中含有的关键词新增注意力加强的特征工程,帮助模型更容易地捕获文本的语义特征,从而可以更好地理解文本,更好地分类文本,提升少样本类别的文本分类的召回率。由于传统特征工程都假设各个特征的重要性是固定不变的的,即每个特征就被赋予了一个固定的权重值。那么,用静态的观点无法较好地刻画某些类型数据的动态特点。特别是基于小样本的情感二分类任务中,将特征工程的构建引入了上述注意力增强机制,可以有效帮助文本召回模型选择有效、适当规模的文本特征,进而让文本召回模型可以有效、高效地完成任务。
具体地,模型预训练和精调训练过程中使用的损失函数,可以根据文本召回模型待训练更新的具体参数来设定,在本申请实施例说明中不再赘述。
本申请实施例与现有技术相比存在的有益效果至少包括:本申请实施例首先获取用于模型训练的第一文本序列;依据预定义的小样本类别,获取对应于小样本类别的关键词,以便构建小样本类别的关键词库;依据确定的文本模板,对第一文本序列的文本数据进行文本预处理,以便获得第二文本序列,文本预处理包括依据关键词库的关键词和文本模板对第一文本序列的文本数据进行标记;将第二文本序列输入至预设的文本召回模型,以便获得训练后的文本召回模型。本申请实施例训练得到的文本召回模型可以提升小样本类别识别结果的文本召回率。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
下述为本申请系统实施例,可以用于执行本申请方法实施例。对于本申请系统实施例中未披露的细节,请参照本申请方法实施例。
图5是本申请实施例提供的一种提升小样本类别识别的文本召回系统的示意图。如图5所示,上述提升小样本类别识别的文本召回系统包括:
训练文本获取模块501,能够获取用于模型训练的第一文本序列。
关键词库构建模块502,能够依据预定义的小样本类别,获取对应于上述小样本类别的关键词,以便构建上述小样本类别的关键词库。
文本预处理模块503,能够依据确定的文本模板,对上述第一文本序列的文本数据进行文本预处理,以便获得第二文本序列,其中上述文本预处理包括依据上述关键词库的关键词和上述文本模板对上述第一文本序列的上述文本数据进行标记。
模型训练模块504,能够将上述第二文本序列输入至预设的文本召回模型,以便获得训练后的上述文本召回模型。
应理解,本说明书实施例的一种提升小样本类别识别的文本召回系统还可执行图1至图4中提升小样本类别识别的文本召回系统执行的方法,并实现提升小样本类别识别的文本召回系统在图1至图4所示实例的功能,在此不再赘述。同时,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
图6是本申请实施例提供的电子设备6的示意图。如图6所示,上述实施例的电子设备6包括:处理器601、存储器602以及存储在上述存储器602中并且可在处理器601上运行的计算机程序603。处理器601执行计算机程序603时实现上述各个方法实施例中的步骤。或者,处理器601执行计算机程序603时实现上述各装置实施例中各模块/单元的功能。
电子设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备6可以包括但不仅限于处理器601和存储器602。本领域技术人员可以理解,图6仅仅是电子设备6的示例,并不构成对电子设备6的限定,可以包括比图示更多或更少的部件,或者不同的部件。
存储器602可以是电子设备8的内部存储单元,例如,电子设备6的硬盘或内存。存储器602也可以是电子设备8的外部存储设备,例如,电子设备6上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器602还可以既包括电子设备6的内部存储单元也包括外部存储设备。存储器602用于存储计算机程序以及电子设备所需的其它程序和数据。
处理器601可以是中央处理单元(CentralProcessing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-ProgrammableGate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器601从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成共享资源访问控制装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取用于模型训练的第一文本序列;
依据预定义的小样本类别,获取对应于上述小样本类别的关键词,以便构建上述小样本类别的关键词库;
依据确定的文本模板,对上述第一文本序列的文本数据进行文本预处理,以便获得第二文本序列,其中上述文本预处理包括依据上述关键词库的关键词和上述文本模板对上述第一文本序列的上述文本数据进行标记;
将上述第二文本序列输入至预设的文本召回模型,以便获得训练后的上述文本召回模型。
上述如本说明书图1至图4所示实施例揭示的提升小样本类别识别的文本召回方法可以应用于处理器601中,或者由处理器601实现。处理器601可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以实现或者执行本说明书实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者上述处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。上述存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
当然,除了软件实现方式之外,本说明书实施例的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,上述计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本说明书实施例还提出了一种计算机可读存储介质,上述计算机可读存储介质存储一个或多个程序,上述一个或多个程序包括指令,上述指令当被包括多个应用程序的便携式电子设备执行时,能够使上述便携式电子设备执行图1至图4所示实施例的提升小样本类别识别的文本召回方法,并具体用于执行以下方法:
获取用于模型训练的第一文本序列;
依据预定义的小样本类别,获取对应于上述小样本类别的关键词,以便构建上述小样本类别的关键词库;
依据确定的文本模板,对上述第一文本序列的文本数据进行文本预处理,以便获得第二文本序列,其中上述文本预处理包括依据上述关键词库的关键词和上述文本模板对上述第一文本序列的上述文本数据进行标记;
将上述第二文本序列输入至预设的文本召回模型,以便获得训练后的上述文本召回模型。
总之,以上上述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括上述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (7)
1.一种提升小样本类别识别的文本召回方法,其特征在于,包括:
获取用于模型训练的第一文本序列;
依据预定义的小样本类别,获取对应于所述小样本类别的关键词,以便构建所述小样本类别的关键词库;
依据确定的文本模板,对所述第一文本序列的文本数据进行文本预处理,以便获得第二文本序列,其中所述文本预处理包括依据所述关键词库的关键词和所述文本模板对所述第一文本序列的所述文本数据进行标记;
将所述第二文本序列输入至预设的文本召回模型,以便获得训练后的所述文本召回模型;
所述获取所述小样本类别对应的预设关键词包括:依据表征所述小样本类别的关键词的出现频率,选定所述关键词;
所述文本模板包括文本前缀,其中所述文本前缀包括所述关键词库的中的一个或多个所述关键词;以及,确定所述文本模板的过程包括:
依据与拟识别文本数据相对应的具体任务,选定所述文本模板;
依据选定的所述文本模板,确定描述所述文本模板的所述文本前缀的自然语言;
所述对所述第一文本序列的文本数据进行文本预处理,以便获得第二文本序列,包括:
将确定的所述文本模板与所述对所述第一文本序列的文本数据进行拼接;
依据所述关键词库中的所述关键词,对拼接后的文本数据的相应词语添加预设的关键词标记;
对添加标记后的文本数据的头部添加模型特殊标记后,获得所述第二文本序列的文本数据。
2.根据权利要求1所述的方法,其特征在于,所述文本召回模型包括基于BERT模型的情感二分类任务进行构建;或者,所述文本召回模型由包括CNN或RNN任一神经网络模型进行构建。
3.根据权利要求2所述的方法,其特征在于,所述文本召回模型能够依据预设的关键词标记,解析获得所述关键词,以便基于所述关键词,获得所述文本数据的注意力增强语义特征。
4.根据权利要求1所述的方法,其特征在于,还包括:依据所述文本模板和所述关键词库,对测试文本序列进行预处理后,输入至经训练的所述文本召回模型,以便获得文本召回结果;或者,使用所述第二文本序列对所述文本召回模型进行精调。
5.一种提升小样本类别识别的文本召回系统,其特征在于,用于实现权利要求1至4任一项所述的提升小样本类别识别的文本召回方法,所述系统包括:
训练文本获取模块,能够获取用于模型训练的第一文本序列;
关键词库构建模块,能够依据预定义的小样本类别,获取对应于所述小样本类别的关键词,以便构建所述小样本类别的关键词库;
文本预处理模块,能够依据确定的文本模板,对所述第一文本序列的文本数据进行文本预处理,以便获得第二文本序列,其中所述文本预处理包括依据所述关键词库的关键词和所述文本模板对所述第一文本序列的所述文本数据进行标记;
模型训练模块,能够将所述第二文本序列输入至预设的文本召回模型,以便获得训练后的所述文本召回模型。
6.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器在执行所述计算机程序时,实现如权利要求1至4中任一项所述方法的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310884928.XA CN116610804B (zh) | 2023-07-19 | 2023-07-19 | 一种提升小样本类别识别的文本召回方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310884928.XA CN116610804B (zh) | 2023-07-19 | 2023-07-19 | 一种提升小样本类别识别的文本召回方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116610804A CN116610804A (zh) | 2023-08-18 |
CN116610804B true CN116610804B (zh) | 2024-01-05 |
Family
ID=87678653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310884928.XA Active CN116610804B (zh) | 2023-07-19 | 2023-07-19 | 一种提升小样本类别识别的文本召回方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116610804B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815194A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 模型训练方法及装置和关键词识别方法及装置 |
CN110489557A (zh) * | 2019-08-22 | 2019-11-22 | 电子科技大学成都学院 | 一种SVM与Bootstrapping相融合的股评类文本情感分析方法 |
CN113673248A (zh) * | 2021-08-23 | 2021-11-19 | 中国人民解放军32801部队 | 试验鉴定小样本文本的命名实体识别方法 |
CN115019906A (zh) * | 2022-06-06 | 2022-09-06 | 电子科技大学 | 多任务序列标注的药物实体和相互作用联合抽取方法 |
CN115408495A (zh) * | 2022-08-25 | 2022-11-29 | 厦门市美亚柏科信息股份有限公司 | 基于多模态检索和关键词提取的社交文本增强方法与系统 |
CN116415170A (zh) * | 2023-03-20 | 2023-07-11 | 华南理工大学 | 基于预训练语言模型的提示学习小样本分类方法、系统、设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2369505A1 (en) * | 2010-03-26 | 2011-09-28 | British Telecommunications public limited company | Text classifier system |
-
2023
- 2023-07-19 CN CN202310884928.XA patent/CN116610804B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815194A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 模型训练方法及装置和关键词识别方法及装置 |
CN110489557A (zh) * | 2019-08-22 | 2019-11-22 | 电子科技大学成都学院 | 一种SVM与Bootstrapping相融合的股评类文本情感分析方法 |
CN113673248A (zh) * | 2021-08-23 | 2021-11-19 | 中国人民解放军32801部队 | 试验鉴定小样本文本的命名实体识别方法 |
CN115019906A (zh) * | 2022-06-06 | 2022-09-06 | 电子科技大学 | 多任务序列标注的药物实体和相互作用联合抽取方法 |
CN115408495A (zh) * | 2022-08-25 | 2022-11-29 | 厦门市美亚柏科信息股份有限公司 | 基于多模态检索和关键词提取的社交文本增强方法与系统 |
CN116415170A (zh) * | 2023-03-20 | 2023-07-11 | 华南理工大学 | 基于预训练语言模型的提示学习小样本分类方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116610804A (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109933664B (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
CN106897428B (zh) | 文本分类特征提取方法、文本分类方法及装置 | |
US9449271B2 (en) | Classifying resources using a deep network | |
KR100775585B1 (ko) | 문자 메시지에 대한 음악 추천 방법 및 그 시스템 | |
CN112749326B (zh) | 信息处理方法、装置、计算机设备及存储介质 | |
CN113934941B (zh) | 一种基于多维度信息的用户推荐系统及方法 | |
CN112052333B (zh) | 文本分类方法及装置、存储介质和电子设备 | |
CN113254711B (zh) | 一种互动图像的显示方法、装置、计算机设备和存储介质 | |
US20210004602A1 (en) | Method and apparatus for determining (raw) video materials for news | |
CN111737464B (zh) | 文本分类方法、装置和电子设备 | |
CN113254777B (zh) | 信息推荐方法、装置、电子设备及存储介质 | |
CN111090771A (zh) | 歌曲搜索方法、装置及计算机存储介质 | |
CN109284367B (zh) | 用于处理文本的方法和装置 | |
CN109582869A (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN116977701A (zh) | 视频分类模型训练的方法、视频分类的方法和装置 | |
CN113590945A (zh) | 一种基于用户借阅行为-兴趣预测的图书推荐方法和装置 | |
CN109284389A (zh) | 一种文本数据的信息处理方法、装置 | |
CN115186085A (zh) | 回复内容处理方法以及媒体内容互动内容的交互方法 | |
CN114722832A (zh) | 一种摘要提取方法、装置、设备以及存储介质 | |
CN112527963B (zh) | 基于词典的多标签情感分类方法及装置、设备、存储介质 | |
Mahalakshmi et al. | Twitter sentiment analysis using conditional generative adversarial network | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN110516086B (zh) | 一种基于深度神经网络影视标签自动获取方法 | |
CN114792092B (zh) | 一种基于语义增强的文本主题抽取方法及装置 | |
Zhu et al. | Intelligent product redesign strategy with ontology-based fine-grained sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |