CN114818891B - 小样本多标签文本分类模型训练方法及文本分类方法 - Google Patents

小样本多标签文本分类模型训练方法及文本分类方法 Download PDF

Info

Publication number
CN114818891B
CN114818891B CN202210390623.9A CN202210390623A CN114818891B CN 114818891 B CN114818891 B CN 114818891B CN 202210390623 A CN202210390623 A CN 202210390623A CN 114818891 B CN114818891 B CN 114818891B
Authority
CN
China
Prior art keywords
text
label
prompt template
prompt
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210390623.9A
Other languages
English (en)
Other versions
CN114818891A (zh
Inventor
刘殿卿
徐向春
郭俊波
靳国庆
刘乃榕
王海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konami Sports Club Co Ltd
Original Assignee
People Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by People Co Ltd filed Critical People Co Ltd
Priority to CN202210390623.9A priority Critical patent/CN114818891B/zh
Publication of CN114818891A publication Critical patent/CN114818891A/zh
Application granted granted Critical
Publication of CN114818891B publication Critical patent/CN114818891B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种小样本多标签文本分类模型训练方法、小样本多标签文本分类方法、装置、计算设备及计算机存储介质。该方法通过从文本标签对应的标注样本文本中提取关键短语,根据关键短语实现提示模板的扩充,并基于提示模板来实现数据增广,从而实现了基于小样本的标注样本文本进行模型训练,克服了大规模有标注的文本不可得的缺陷,而且提升了文本分类模型的训练效率,无需人工花费较长时间进行标注,降低了人工成本以及时间成本。

Description

小样本多标签文本分类模型训练方法及文本分类方法
技术领域
本发明涉及计算机技术领域,具体涉及一种小样本多标签文本分类模型 训练方法、小样本多标签文本分类方法、装置、计算设备及计算机存储介质。
背景技术
文本分类是自然语言处理领域的一个经典任务,目的是使用机器给文本 自动标记预先定义好的一个或多个类别标签。深度学习技术兴起后,文本分 类研究获得了极大的进展。但深度学习的高准确率依赖于大量有标注的数据, 而数据标注需要大量的人工、时间成本,很多时候大规模有标注的数据是不 可得的,当文本的类别数量比较多时,标注数据中属于各类别的文本数量会 呈长尾分布,大部分类别的文本数量都非常少,因此,亟需一种基于小规模 有标注的文本来进行文本分类的方案。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分 地解决上述问题的小样本多标签文本分类模型训练方法、小样本多标签文本 分类方法、装置、计算设备及计算机存储介质。
根据本发明的一个方面,提供了一种小样本多标签文本分类模型训练方 法,包括:
针对标签集合中的每个文本标签,从文本标签对应的标注样本文本中提 取多个关键短语,根据多个关键短语生成提示模板释义集合;
针对每个文本标签,从文本标签对应的提示模板释义集合内选取第一预 设数量的关键短语,根据第一预设数量的关键短语进行短语排列组合,得到 关键短语组合结果集合,根据关键短语组合结果集合内的各关键短语组合生 成文本标签对应的第一提示模板集合;
针对每个标注样本文本,将标注样本文本与存在标注关系的至少一个文 本标签对应的第一提示模板集合内的每个提示模板进行组合,得到训练文本 对正样本集合;将标注样本文本与从标签集合中选取的至少一个不存在标注 关系的文本标签对应的第一提示模板集合内的每个提示模板进行组合,得到 训练文本对负样本集合;
根据训练文本对正样本集合内的各个训练文本对正样本及训练文本对负 样本集合内的各个训练文本对负样本对分类网络进行训练,得到文本分类模 型。
根据本发明的另一方面,提供了一种小样本多标签文本分类方法,该方 法基于上述小样本多标签文本分类模型训练方法生成的文本分类模型进行文 本分类,方法包括:
根据标签集合中每个文本标签的提示模板释义集合内的关键短语生成提 示模板,其中,标签集合中包含多个文本标签;
针对任一待分类文本,将待分类文本与各提示模板组合,得到多个文本 对;
将多个文本对输入至文本分类模型进行文本分类预测,得到各文本对中 待分类文本与提示模板的匹配度;
将匹配度最高的提示模板对应的文本标签确定为待分类文本的文本标签。
根据本发明的另一方面,提供了一种小样本多标签文本分类模型训练装 置,包括:
提取模块,适于针对标签集合中的每个文本标签,从文本标签对应的标 注样本文本中提取多个关键短语;
第一生成模块,适于根据多个关键短语生成提示模板释义集合;
短语排列组合模块,适于针对每个文本标签,从文本标签对应的提示模 板释义集合内选取第一预设数量的关键短语,根据第一预设数量的关键短语 进行短语排列组合,得到关键短语组合结果集合;
第二生成模块,适于根据关键短语组合结果集合内的各关键短语组合生 成文本标签对应的第一提示模板集合;
样本生成模块,适于针对每个标注样本文本,将标注样本文本与存在标 注关系的至少一个文本标签对应的第一提示模板集合内的每个提示模板进行 组合,得到训练文本对正样本集合;将标注样本文本与从标签集合中选取的 至少一个不存在标注关系的文本标签对应的第一提示模板集合内的每个提示 模板进行组合,得到训练文本对负样本集合;
训练模块,适于根据训练文本对正样本集合内的各个训练文本对正样本 及训练文本对负样本集合内的各个训练文本对负样本对分类网络进行训练, 得到文本分类模型。
根据本发明的另一方面,提供了一种小样本多标签文本分类装置,装置 基于小样本多标签文本分类模型训练装置生成的文本分类模型进行文本分类, 装置包括:
生成模块,适于根据标签集合中每个文本标签的提示模板释义集合内的 关键短语生成提示模板,其中,标签集合中包含多个文本标签;
组合模块,适于针对任一待分类文本,将待分类文本与各提示模板组合, 得到多个文本对;
文本分类预测模块,适于将多个文本对输入至文本分类模型进行文本分 类预测,得到各文本对中待分类文本与提示模板的匹配度;
确定模块,适于将匹配度最高的提示模板对应的文本标签确定为待分类 文本的文本标签。
根据本发明的又一方面,提供了一种计算设备,包括:处理器、存储器、 通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间 的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行上述小样 本多标签文本分类模型训练方法或小样本多标签文本分类方法对应的操作。
根据本发明的再一方面,提供了一种计算机存储介质,存储介质中存储 有至少一可执行指令,可执行指令使处理器执行如上述小样本多标签文本分 类模型训练方法或小样本多标签文本分类方法对应的操作。
本发明提供的方案,实现了基于小样本的标注样本文本进行模型训练, 克服了大规模有标注的文本不可得的缺陷,而且提升了文本分类模型的训练 效率,无需人工花费较长时间进行标注,降低了人工成本以及时间成本。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技 术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它 目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本 领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的, 而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示 相同的部件。在附图中:
图1A示出了根据本发明一个实施例的小样本多标签文本分类模型训练 方法的流程示意图;
图1B为分类网络结构示意图;
图2示出了根据本发明另一个实施例的小样本多标签文本分类方法的流 程示意图;
图3示出了根据本发明一个实施例的小样本多标签文本分类模型训练装 置的结构示意图;
图4示出了根据本发明一个实施例的小样本多标签文本分类装置的结构 示意图;
图5示出了根据本发明一个实施例的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示 了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不 应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地 理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明的发明人发现,现有技术可以通过数据增广来扩充数据,而现有 的数据增广方法一般为使用同义词替换、颠倒词序、回译等技术对原始数据 进行修改得到语义不变的新数据,修改对象均为标注的原数据。由于回译、 同义词替换得到的句子向量表示在向量空间中距离非常近,所以修改后的新 数据与原始数据比较不能涵盖较多新的语言现象,价值不大,颠倒原文本的 词序还可能会改变文本的语义。而这三种方法对于小样本数据集来说还有一 个很大的缺陷,即生成的新数据数量非常有限。
预训练语言模型(Pretrained Language Model,PLM)是在海量文本数据上 进行预训练得到的,可以根据上下文动态生成句子的表示向量。PLM在预训 练阶段的任务之一是预测句子中填充位原本的文字,一些PLM在预训练阶段 还会预测两个句子前后是否连续。随着对PLM研究的深入,提示学习(Prompt Learning)的概念被提了出来。基于PLM在预训练阶段会预测句子中填充位的 文字这个特点,做简单的文本分类任务时,通过在文本之后添加一些带有人 工构造的提示信息和填充位的模板,利用很少数量的标注数据,激发PLM展 现本身具有的丰富知识,在不显著改变参数的情况下将文本分类任务转换为 填空任务,最后利用规则将PLM预测的填充位的文字与预定义的文本类别标 签一一对应,即可获得文本的类别。这种方法充分利用了PLM包含的知识, 但PLM对填充位文字的预测范围不可控,所以只能做简单的文本分类任务, 且对于每条文本只能预测一个标签。当预定义的类别数量很多,这种方法的 工作量将十分庞大;在类别定义抽象的场景下,模板将难以构建。而且研究 证明,在有充足标注数据的场景下,完全依靠提示学习的效果要比全监督的方法差。
为了解决现有文本分类技术存在的问题和不足,发明人提供了一种小样 本多标签文本分类模型训练方案及小样本多标签文本分类方案,基于少量有 标注的文本可以训练处使用的文本分类模型,并基于训练的文本分类模型进 行文本分类,具体参见如下实施例:
图1A示出了根据本发明一个实施例的小样本多标签文本分类模型训练 方法的流程示意图。如图1A所示,该方法包括以下步骤:
步骤S101,针对标签集合中的每个文本标签,从文本标签对应的标注样 本文本中提取多个关键短语,根据多个关键短语生成提示模板释义集合。
已经获知文本所属分类的文本被称为标注样本文本,文本所对应的分类 称为文本标签。
本实施例在进行小样本多标签文本分类模型训练时,已知模型训练时所 需的所有文本标签,所有文本标签构成标签集合,也就是说,该标签集合中 包含多个文本标签,每个文本标签对应有至少一个标注样本文本,需要说明 的是,每个文本标签对应的标注样本文本数量是少量的,即,小样本。
设标签集合为T,标签集合T中的每一个文本标签为ti,针对每个文本标 签ti,从文本标签对应的标注样本文本中提取多个关键短语,例如,可以利用 TF-IDF算法和TextRank算法来进行提取关键短语。在提取得到多个关键短语 后,根据多个关键短语生成提示模板释义集合。提示模板释义集合内包含了 多个关键短语,用于生成提示模板。
这里将文本标签ti对应的所有标注样本文本称为ti类标注样本文本,提取 出的关键短语可能在其所在的标注样本文本中是关键短语,但与整个ti类标注 样本文本没有太大关联,提示模板中加入这类关键短语对分类会有负面影响, 因此需要剔除与类别无关的关键短语,来生成提示模板释义集合:
针对每个关键短语,计算关键短语与文本标签对应的所有标注样本文本 之间的关联度,根据关联度从多个关键短语中选取第二预设数量的关键短语, 根据第二预设数量的关键短语生成提示模板释义集合。
关联度反映了关键短语与ti类标注样本文本整体之间的相关性,在计算得 到关联度之后,可以根据关联度对多个关键短语进行排序,例如,按照关联 度由高至低顺序或者按照关联度由低至高的顺序对多个关键短语进行排序, 选取关联度最高的第二预设数量的关键短语生成提示模板释义集合,其中, 第二预设数量可以根据实际需要而设定。
具体地,可以利用如下方法来计算每个关键短语与文本标签对应的所有 标注样本文本之间的关联度:针对每个关键短语,根据关键短语生成提示模 板;将提示模板与文本标签对应的至少一个标注样本文本进行组合,得到至 少一个文本对;将至少一个文本对输入至预训练语言模型,得到文本对表示 向量;为所有文本对统一设置任意文本标签,其中,任意文本标签不属于标 签集合;根据任意文本标签及文本对表示向量,利用预设算法计算关键短语 与文本标签对应的所有标注样本文本之间的关联度。
具体地,设从ti类标注样本文本中提取出的所有关键短语组成短语集合K, 针对每个关键短语,根据关键短语生成提示模板,例如,根据提示模板的形 式,结合关键短语生成提示模板,设pt为K中任一关键短语对应的提示模板, 将pt与ti类标注样本文本中的每条原始标注样本文本一一组成文本对:(文本 a,文本b),其中文本a为ti类标注样本文本中的原始标注样本文本,文本b为 提示模板pt。设ti类标注样本文本共有ni条标注样本文本,将所有标注样本文 本对输入基于Transformer架构的预训练语言模型后得到ni×H大小的输出R, R为文本对表示向量,H为预训练语言模型隐藏层的维度,例如,使用RoBERTa 模型。需要说明的是这里仅通过RoBERTa前向传播得到文本对的表示向量, 不对RoBERTa进行微调。
将得到的所有文本对的文本标签统一设为任意文本标签T″,将R与新 设的文本标签作为LogME算法的输入,得到R的质量得分。LogME是一种 不对预训练语言模型进行微调的情况下,从多个预训练语言模型中选择对于 当前任务最优的一个预训练语言模型的算法,在此不进行赘述。这里提出使 用LogME来剔除与类别无关短语。LogME打分越高,pt的文本对表示向量 质量越高,关键短语与ti类标注样本文本越紧密相关。将K中所有关键短语对 应的LogME得分进行排序,根据设定的阈值选取前k个组成ti类标注样本文 本的提示模板释义集合Di。如文本标签“科技创新”的提示模板释义集合为: {基础研究,科研院所,前沿科技,关键核心技术,产学研结合}。
步骤S102,针对每个文本标签,从文本标签对应的提示模板释义集合内 选取第一预设数量的关键短语,根据第一预设数量的关键短语进行短语排列 组合,得到关键短语组合结果集合,根据关键短语组合结果集合内的各关键 短语组合生成文本标签对应的第一提示模板集合。
为了能够训练得到更为精准地文本分类模型,需要对数据进行增广,本 实施例数据增广方式不改变原始的标注样本文本,而是通过改变提示模板从 而进行大规模数据增广。
这里是通过进行关键短语的排列组合来扩充提示模板,进而实现数据增 广,具体地,针对每个文本标签,从文本标签对应的提示模板释义集合内选 取第一预设数量的关键短语,其中,本领域技术人员可以根据实际需要而设 定第一预设数量的数值,根据第一预设数量的关键短语进行短语排列组合, 得到关键短语组合结果集合,比如,设文本标签对应的提示模板释义集合内 的关键短语的数量为n1;针对每个文本标签,从文本标签对应的提示模板释 义集合内分别选取n1-2个、n1-1个、n1个关键短语,根据选取n1-2、n1-1、n1个关键短语分别进行短语排列组合,得到关键短语组合结果集合,当然这里 也可以仅选取一次关键短语。
针对每个文本标签ti,将文本标签ti对应的提示模板释义集合Di内的关键 短语进行排列组合。由于单个关键短语可能对文本标签的含义解释的不全面, 所以排列组合时选择的关键短语的数量不能过少,这里每个文本标签ti选取分 别选取n1-2、n1-1、n1个关键短语进行排列组合,共得到
Figure BDA0003596793850000081
种关键短 语的排列组合集合Ai,其中n1为Di中关键短语的数量,n1>2,!表示阶乘。 由于Di内的每个关键短语之间彼此独立,因此变换关键短语的顺序并不会改 变提示模板的语义;提示模板释义集合比较大时,Ai的基数会非常多,如n1=8时,8!等于40320,所以这种方法可以对数据进行大规模增广,为了防止计算 量过大,通常情况下,n1<10。
在得到关键短语组合结果集合之后,可以根据关键短语组合结果集合内 的各关键短语组合生成文本标签对应的第一提示模板集合。
其中,关键短语组合结果集合内的各关键短语组合的数量是非常多,为 了有效控制提示模板的数量,也为了提升文本标签对应的提示模板之间的差 异性,需要对提示模板进行筛选,具体地,根据关键短语组合结果集合内的 各关键短语组合生成文本标签对应的第一提示模板集合进一步可以通过如下 方法实现:构建空的第一提示模板集合;根据关键短语组合结果集合内的各 关键短语组合生成提示模板,得到第二提示模板集合;从第二提示模板集合 选取任一未被选取过的提示模板,计算提示模板与第二提示模板集合中其他提示模板之间的相似度,从第二提示模板集合中剔除相似度大于或等于预设 阈值的其他提示模板,并将提示模板由第二提示模板集合转移至第一提示模 板集合,直至第二提示模板集合为空,得到文本标签对应的第一提示模板集 合。
具体地,根据Ai中的关键短语组合生成提示模板,生成所有提示模板的 表示向量,构建文本标签ti对应的第一提示模板集合Pi,初始时Pi为空集,Ai中 所有关键短语组合生成的第二提示模板集合C。依次将C中每个提示模板p作为 比较基准,计算p与C中其他提示模板的表示向量之间的相似度,若存在相似 度大于或等于预设阈值的提示模板,则从C中剔除掉该提示模板,由此,按预 设阈值将相似度最高的τ个提示模板从C中剔除,并将p加入到Pi,τ的数量不 是固定值,而是通过与预设阈值比较而确定的,通过剔除相似度最高的τ个提 示模板,实现了对第二提示模板集合C的更新,剔除掉的提示模板将不再做相 似度计算,循环执行上述步骤,C内的提示模板逐渐减少,而Pi中的提示模板 逐渐增多,直至C内的提示模板为空。其中,提示模板的表示向量可使用通用 语料上训练好的Doc2vec、Sentence-BERT等网络生成,而相似度的度量方式 可选择余弦相似度、欧式距离、曼哈顿距离等。
其中,提示模板包括:前缀及提示模板释义集合内的关键短语,其中, 前缀为带有指示代词和表示肯定的判断词的文字内容。
文本标签ti对应的提示模板的形式为:前缀+标签释义di。其中“+”表示 拼接;di是以逗号、句号,分号、顿号、“和”、“与”等字符将文本标签ti对应 的关键短语组合内各个关键短语按排列顺序拼接后得到的文本;前缀为带有 指示代词和表示肯定的判断词的文字片段。
步骤S103,针对每个标注样本文本,将标注样本文本与存在标注关系的 至少一个文本标签对应的第一提示模板集合内的每个提示模板进行组合,得 到训练文本对正样本集合;将标注样本文本与从标签集合中选取的至少一个 不存在标注关系的文本标签对应的第一提示模板集合内的每个提示模板进行 组合,得到训练文本对负样本集合。
对于有标注的文本集X中的每条标注样本文本x,x可能对应有1个或多 个标签,x对应的所有文本标签组成集合Y。x所有文本标签的第一提示模板 集合的并集构成数据标注样本文本x的提示模板集合P。
将标注样本文本x与提示模板集合P的每一个提示模板p两两组合,组成 文本对:(文本a,文本b),其中文本a为标注样本文本x,文本b为提示模板p。 X中抽样选取的少量标注样本文本与对应提示模板集合构成的所有文本对作 为接下来训练用的训练文本对正样本集合。对于正样本集中的每个文本对, 从标签集合T中随机选取1个以上不在文本a的标签集合内的文本标签,组 成错误标签集合T′。对于T′中的每个文本标签t′,将文本标签t′对应的提示模 板,与文本a组成文本对,作为训练用的训练文本对负样本集合。
如对于文本“建议能以政策为依托,加速将科研机构和科研院校的研究 成果转化……”,其类别为“科技创新”,对应的正样本的提示模板之一为: “这段话讲的是基础研究,科研院所,前沿科技,关键核心技术,产学研结 合”,对应的负样本的提示模板为“这段话讲的是互联网发展和网络安全”。
步骤S104,根据训练文本对正样本集合内的各个训练文本对正样本及训 练文本对负样本集合内的各个训练文本对负样本对分类网络进行训练,得到 文本分类模型。
具体地,根据训练文本对正样本集合内的各个训练文本对正样本及训练 文本对负样本集合内的各个训练文本对负样本对分类网络进行训练,得到文 本对中标注样本文本与提示模板的匹配结果;根据匹配结果与文本标签的标 注结果之间的损失,得到文本分类模型损失函数,根据文本分类模型损失函 数更新分类网络的参数;迭代执行上述步骤,直至满足预定收敛条件,得到 文本分类模型。其中,预定收敛条件包括:迭代次数达到预设迭代次数;和/ 或,文本分类模型损失函数的输出值小于预设阈值。
本实施例提出的训练所用分类网络的网络结构如图1B所示,主要由两部 分组成:用以生成文本对表示向量的文本对表征模块和用于做二分类的分类 器。文本对表征模块包括预训练语言模型以及标签注意力机制层,其中预训 练模型可配置为BERT或其改进模型,如RoBERTa、ALBERT等,这里使用 的是RoBERTa;分类器为一个多层感知机。标签注意力机制中,每条训练样 本经RoBERTa计算得到文本对表示向量Hrob后,经注意力机制计算文本对 pairi与各个标签的注意力并加权求和得到每个文本对最终的表示向量Hpair
at=softmax(Att(HA,Hrob))
Figure BDA0003596793850000111
其中Att表示任意注意力机制计算方式,如点积注意力、加性注意力等, HA为标签向量矩阵,大小为|T|×h,|·|表示集合的基数,h为标签向量的维 度,标签向量由随机初始化得到。
Hpair经分类器计算得到文本对是否是正类的概率,即文本对的文本a和 文本b匹配的概率。训练时损失函数为交叉熵损失:
Figure BDA0003596793850000112
其中yi为训练集中文本对pairi的标签,正样本标签为1,负样本标签为0。 y′i为分类器预测pairi为正类的概率,N为每次计算的样本数量。
本发明可以应用于新闻、留言等领域,可在标注数据匮乏的情况下快速 完成文本分类模型的训练、部署。例如,原始标注样本文本来源于新闻媒体 的时政报道,共17000条,按照文本的主题共分为58类,最多的类有超过500 条数据,最少仅有4条。对于数量超过50条的类,从每一类中选取50条数 据作为训练用数据,对于少于50条的类,随机选取四分之三的数据作为训练 用数据,剩余的数据作为测试用数据。这些训练用数据与对应的提示模板组 成的文本对构成训练集。
本方案成功地将提示学习应用到标签类别众多的新闻文本的多标签分类 任务中。本方案基于一些PLM在预训练阶段会预测两个句子是否前后连续的 特点,训练模型来判断原始的标注样本文本与提示模板是否匹配,从而对原 始的标注样本文本打标签,激发PLM充分利用自身蕴含的丰富知识同时可以 对一条文本打多个标签,打破了此前做填空的提示学习方法的局限性。自动 构造提示模板,大大减轻了标签数量非常多的情况下的人工和时间成本。通 过对提示模板释义集合中关键短语的不断重新排序并采样生成提示模板,一 方面在不改变数据语义的情况下进行了大规模数据增广,一方面消除了原标 注样本文本中各类数量上的差距。训练时每类最多使用50条标注数据,最少 仅使用3条标注数据,显著降低了深度学习模型对大规模标注数据的依赖。 在构建的包含58个标签的新闻文本数据集上,宏平均的F值可达61%,考虑 到多标签文本标注数据中的漏标现象严重,因此实际的精度要更高。本方案 在对精度要求并不十分严格的领域达到了实用程度,可在标注数据匮乏的情 况下快速完成文本分类模型的训练、部署。
本发明提供的方案,实现了基于小样本的标注样本文本进行模型训练, 克服了大规模有标注的文本不可得的缺陷,而且提升了文本分类模型的训练 效率,无需人工花费较长时间进行标注,降低了人工成本以及时间成本。
图2示出了根据本发明另一个实施例的小样本多标签文本分类方法的流 程示意图。该方法基于图1A所示实施例中的小样本多标签文本分类模型训练 方法生成的文本分类模型进行文本分类,如图2所示,该方法包括以下步骤:
步骤S201,根据标签集合中每个文本标签的提示模板释义集合内的关键 短语生成提示模板,其中,标签集合中包含多个文本标签。
步骤S202,针对任一待分类文本,将待分类文本与各提示模板组合,得 到多个文本对。
步骤S203,将多个文本对输入至文本分类模型进行文本分类预测,得到 各文本对中待分类文本与提示模板的匹配度。
步骤S204,将匹配度最高的提示模板对应的文本标签确定为待分类文本 的文本标签。
针对任一待分类文本,首先按类别标签的顺序,将标签集合T中每一文 本标签的提示模板释义集合中的关键短语按原始顺序拼接组成提示模板,最 终每个待分类文本对应有|T|个提示模板。
将待分类文本与|T|个提示模板中的每一个提示模板两两组合,组成文本 对:(文本a,文本b),其中文本a为待分类文本,文本b为提示模板。然后每 次按顺序将|T|个文本对送入图1A所示实施例训练的文本分类模型进行预测, 得到大小为|T|的输出,这里输出的是文本a与文本b正类匹配度。确定匹配 度最高的文本对,根据文本对中的文本b,即提示模板,得到对应的文本标签, 该文本标签即为待分类文本所属分类。
具体实施时,可以获取匹配度大于等于0.5的文本对,再根据文本对中的 文本b,即提示模板,得到对应的文本标签。若没有任何文本对的匹配度大于 等于0.5,则将匹配度最大的文本对中的提示模板对应的文本标签作为待分类 文本最终的类别。如此将原本的多标签分类问题转换为了多个二分类问题。
另外,在实施时,将多个文本对输入至文本分类模型进行文本分类预测 后,可以同时输出正类匹配度和负类匹配度,此时得到大小|T|×2的输出结 果,当然,在确定待分类文本的文本标签时,还是依据正类匹配度进行处理。
需要说明的是,在进行文本分类时,可能会同时多个文本进行分类,例 如,待分类文本的数量为n,n为正整数,那么在将文本对输入文本分类模型 时,每次按顺序将|T|的n倍个文本对送入模型进行预测,其中n为正整数, 得到大小为|T|×n×2或者|T|×n的输出。按顺序以每|T|个分类器的输出作为 一组,将输出等分为n组,同一组中所有文本对的文本a均相同。获取一组 中所有正类概率大于等于0.5的文本对,再根据文本对中的文本b,即提示模 板,得到对应的标签。若一组中没有任何文本对的正类概率大于等于0.5,则 将此组中正类概率最大的文本对中的提示模板对应的标签作为文本最终的类 别。如此将原本的多标签分类问题转换为了多个二分类问题。
本发明提供的方案,是基于小样本的标注样本文本训练的文本分类模型 来进行文本分类,克服了大规模有标注的文本不可得的缺陷,而且提升了文 本分类模型的训练效率,无需人工花费较长时间进行标注,降低了人工成本 以及时间成本。
图3示出了根据本发明一个实施例的小样本多标签文本分类模型训练装 置的结构示意图。如图3所示,该装置包括:提取模块301、第一生成模块 302、短语排列组合模块303、第二生成模块304、样本生成模块305、训练模 块306。
提取模块301,适于针对标签集合中的每个文本标签,从文本标签对应的 标注样本文本中提取多个关键短语;
第一生成模块302,适于根据多个关键短语生成提示模板释义集合;
短语排列组合模块303,适于针对每个文本标签,从文本标签对应的提示 模板释义集合内选取第一预设数量的关键短语,根据第一预设数量的关键短 语进行短语排列组合,得到关键短语组合结果集合;
第二生成模块304,适于根据关键短语组合结果集合内的各关键短语组合 生成文本标签对应的第一提示模板集合;
样本生成模块305,适于针对每个标注样本文本,将标注样本文本与存在 标注关系的至少一个文本标签对应的第一提示模板集合内的每个提示模板进 行组合,得到训练文本对正样本集合;将标注样本文本与从标签集合中选取 的至少一个不存在标注关系的文本标签对应的第一提示模板集合内的每个提 示模板进行组合,得到训练文本对负样本集合;
训练模块306,适于根据训练文本对正样本集合内的各个训练文本对正样 本及训练文本对负样本集合内的各个训练文本对负样本对分类网络进行训练, 得到文本分类模型。
可选地,第一生成模块进一步适于:针对每个关键短语,计算关键短语 与文本标签对应的所有标注样本文本之间的关联度;
根据关联度从多个关键短语中选取第二预设数量的关键短语,根据第二 预设数量的关键短语生成提示模板释义集合。
可选地,第一生成模块进一步适于:针对每个关键短语,根据关键短语 生成提示模板;
将提示模板与文本标签对应的至少一个标注样本文本进行组合,得到至 少一个文本对;
将至少一个文本对输入至预训练语言模型,得到文本对表示向量;
为所有文本对统一设置任意文本标签,其中,任意文本标签不属于标签 集合;
根据任意文本标签及文本对表示向量,利用预设算法计算关键短语与文 本标签对应的所有标注样本文本之间的关联度。
可选地,第二生成模块进一步适于:构建空的第一提示模板集合;
根据关键短语组合结果集合内的各关键短语组合生成提示模板,得到第 二提示模板集合;
从第二提示模板集合选取任一未被选取过的提示模板,计算提示模板与 第二提示模板集合中其他提示模板之间的相似度,从第二提示模板集合中剔 除相似度大于或等于预设阈值的其他提示模板,并将提示模板由第二提示模 板集合转移至第一提示模板集合,直至第二提示模板集合为空,得到文本标 签对应的第一提示模板集合。
可选地,训练模块进一步适于:根据训练文本对正样本集合内的各个训 练文本对正样本及训练文本对负样本集合内的各个训练文本对负样本对分类 网络进行训练,得到文本对中标注样本文本与提示模板的匹配结果;
根据匹配结果与文本标签的标注结果之间的损失,得到文本分类模型损 失函数,根据文本分类模型损失函数更新分类网络的参数;
迭代执行上述步骤,直至满足预定收敛条件,得到文本分类模型。
可选地,预定收敛条件包括:迭代次数达到预设迭代次数;和/或,文本 分类模型损失函数的输出值小于预设阈值。
可选地,提示模板包括:前缀及提示模板释义集合内的关键短语,其中, 前缀为带有指示代词和表示肯定的判断词的文字内容。
本发明提供的方案,实现了基于小样本的标注样本文本进行模型训练, 克服了大规模有标注的文本不可得的缺陷,而且提升了文本分类模型的训练 效率,无需人工花费较长时间进行标注,降低了人工成本以及时间成本。
图4示出了根据本发明一个实施例的小样本多标签文本分类装置的结构 示意图。该装置基于图3所示实施例中的小样本多标签文本分类模型训练装 置生成的文本分类模型进行文本分类,如图4所示,该装置包括:生成模块 401、组合模块402、文本分类预测模块403、确定模块404。
生成模块401,适于根据标签集合中每个文本标签的提示模板释义集合内 的关键短语生成提示模板,其中,标签集合中包含多个文本标签;
组合模块402,适于针对任一待分类文本,将待分类文本与各提示模板组 合,得到多个文本对;
文本分类预测模块403,适于将多个文本对输入至文本分类模型进行文本 分类预测,得到各文本对中待分类文本与提示模板的匹配度;
确定模块404,适于将匹配度最高的提示模板对应的文本标签确定为待分 类文本的文本标签。
本发明提供的方案,是基于小样本的标注样本文本训练的文本分类模型 来进行文本分类,克服了大规模有标注的文本不可得的缺陷,而且提升了文 本分类模型的训练效率,无需人工花费较长时间进行标注,降低了人工成本 以及时间成本。
本申请实施例还提供了一种非易失性计算机存储介质,计算机存储介质 存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例 中的小样本多标签文本分类模型训练方法或小样本多标签文本分类方法。
图5示出了根据本发明一个实施例的计算设备的结构示意图,本发明具 体实施例并不对计算设备的具体实现做限定。
如图5所示,该计算设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:处理器502、通信接口504、以及存储器506通过通信总线508完 成相互间的通信。
通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器502,用于执行程序510,具体可以执行上述小样本多标签文本分 类模型训练方法或小样本多标签文本分类方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC (ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例 的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类 型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多 个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器, 也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存 储器。
程序510具体可以用于使得处理器502执行上述任意方法实施例中的小 样本多标签文本分类模型训练方法或小样本多标签文本分类方法。程序510 中各步骤的具体实现可以参见上述小样本多标签文本分类模型训练实施例或 小样本多标签文本分类实施例中的相应步骤和单元中对应的描述,在此不赘 述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描 述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描 述,在此不再赘述。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固 有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述, 构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任 何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明 的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本 发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未 详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个 或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特 征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将 该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权 利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书 所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此, 遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个 权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自 适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以 把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可 以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者 单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴 随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或 者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴 随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相 似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实 施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意 味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要 求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理 器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当 理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本 发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为 用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如, 计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算 机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从 因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制, 并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实 施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要 求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件 之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括 有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干 装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具 体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单 词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行 顺序的限定。

Claims (11)

1.一种小样本多标签文本分类模型训练方法,包括:
针对标签集合中的每个文本标签,从所述文本标签对应的标注样本文本中提取多个关键短语,根据多个关键短语生成提示模板释义集合;
针对每个文本标签,从所述文本标签对应的提示模板释义集合内选取第一预设数量的关键短语,根据所述第一预设数量的关键短语进行短语排列组合,得到关键短语组合结果集合,根据所述关键短语组合结果集合内的各关键短语组合生成文本标签对应的第一提示模板集合;
针对每个标注样本文本,将所述标注样本文本与存在标注关系的至少一个文本标签对应的第一提示模板集合内的每个提示模板进行组合,得到训练文本对正样本集合;将所述标注样本文本与从标签集合中选取的至少一个不存在标注关系的文本标签对应的第一提示模板集合内的每个提示模板进行组合,得到训练文本对负样本集合;
根据所述训练文本对正样本集合内的各个训练文本对正样本及所述训练文本对负样本集合内的各个训练文本对负样本对分类网络进行训练,得到文本分类模型;
其中,所述根据多个关键短语生成提示模板释义集合进一步包括:
针对每个关键短语,计算所述关键短语与文本标签对应的所有标注样本文本之间的关联度;
根据关联度从多个关键短语中选取第二预设数量的关键短语,根据第二预设数量的关键短语生成提示模板释义集合。
2.根据权利要求1所述的方法,其中,所述针对每个关键短语,计算所述关键短语与文本标签对应的所有标注样本文本之间的关联度进一步包括:
针对每个关键短语,根据所述关键短语生成提示模板;
将所述提示模板与文本标签对应的至少一个标注样本文本进行组合,得到至少一个文本对;
将所述至少一个文本对输入至预训练语言模型,得到文本对表示向量;
为所有文本对统一设置任意文本标签,其中,所述任意文本标签不属于标签集合;
根据所述任意文本标签及文本对表示向量,利用预设算法计算关键短语与文本标签对应的所有标注样本文本之间的关联度。
3.根据权利要求1或2所述的方法,其中,所述根据所述关键短语组合结果集合内的各关键短语组合生成文本标签对应的第一提示模板集合进一步包括:
构建空的第一提示模板集合;
根据所述关键短语组合结果集合内的各关键短语组合生成提示模板,得到第二提示模板集合;
从所述第二提示模板集合选取任一未被选取过的提示模板,计算所述提示模板与所述第二提示模板集合中其他提示模板之间的相似度,从所述第二提示模板集合中剔除相似度大于或等于预设阈值的其他提示模板,并将所述提示模板由所述第二提示模板集合转移至第一提示模板集合,直至所述第二提示模板集合为空,得到文本标签对应的第一提示模板集合。
4.根据权利要求1或2所述的方法,其中,所述根据所述训练文本对正样本集合内的各个训练文本对正样本及所述训练文本对负样本集合内的各个训练文本对负样本对分类网络进行训练,得到文本分类模型进一步包括:
根据所述训练文本对正样本集合内的各个训练文本对正样本及所述训练文本对负样本集合内的各个训练文本对负样本对分类网络进行训练,得到文本对中标注样本文本与提示模板的匹配结果;
根据所述匹配结果与文本标签的标注结果之间的损失,得到文本分类模型损失函数,根据所述文本分类模型损失函数更新所述分类网络的参数;
迭代执行上述步骤,直至满足预定收敛条件,得到文本分类模型。
5.根据权利要求4所述的方法,其中,所述预定收敛条件包括:迭代次数达到预设迭代次数;和/或,所述文本分类模型损失函数的输出值小于预设阈值。
6.根据权利要求1或2所述的方法,其中,所述提示模板包括:前缀及提示模板释义集合内的关键短语,其中,前缀为带有指示代词和表示肯定的判断词的文字内容。
7.一种小样本多标签文本分类方法,所述方法基于权利要求1-6中任一项生成的文本分类模型进行文本分类,所述方法包括:
根据标签集合中每个文本标签的提示模板释义集合内的关键短语生成提示模板,其中,标签集合中包含多个文本标签;
针对任一待分类文本,将所述待分类文本与各提示模板组合,得到多个文本对;
将多个文本对输入至文本分类模型进行文本分类预测,得到各文本对中待分类文本与提示模板的匹配度;
将匹配度最高的提示模板对应的文本标签确定为所述待分类文本的文本标签。
8.一种小样本多标签文本分类模型训练装置,包括:
提取模块,适于针对标签集合中的每个文本标签,从所述文本标签对应的标注样本文本中提取多个关键短语;
第一生成模块,适于根据多个关键短语生成提示模板释义集合;
短语排列组合模块,适于针对每个文本标签,从所述文本标签对应的提示模板释义集合内选取第一预设数量的关键短语,根据所述第一预设数量的关键短语进行短语排列组合,得到关键短语组合结果集合;
第二生成模块,适于根据所述关键短语组合结果集合内的各关键短语组合生成文本标签对应的第一提示模板集合;
样本生成模块,适于针对每个标注样本文本,将所述标注样本文本与存在标注关系的至少一个文本标签对应的第一提示模板集合内的每个提示模板进行组合,得到训练文本对正样本集合;将所述标注样本文本与从标签集合中选取的至少一个不存在标注关系的文本标签对应的第一提示模板集合内的每个提示模板进行组合,得到训练文本对负样本集合;
训练模块,适于根据所述训练文本对正样本集合内的各个训练文本对正样本及所述训练文本对负样本集合内的各个训练文本对负样本对分类网络进行训练,得到文本分类模型;
其中,第一生成模块进一步适于:针对每个关键短语,计算关键短语与文本标签对应的所有标注样本文本之间的关联度;
根据关联度从多个关键短语中选取第二预设数量的关键短语,根据第二预设数量的关键短语生成提示模板释义集合。
9.一种小样本多标签文本分类装置,所述装置基于权利要求8生成的文本分类模型进行文本分类,所述装置包括:
生成模块,适于根据标签集合中每个文本标签的提示模板释义集合内的关键短语生成提示模板,其中,标签集合中包含多个文本标签;
组合模块,适于针对任一待分类文本,将所述待分类文本与各提示模板组合,得到多个文本对;
文本分类预测模块,适于将多个文本对输入至文本分类模型进行文本分类预测,得到各文本对中待分类文本与提示模板的匹配度;
确定模块,适于将匹配度最高的提示模板对应的文本标签确定为所述待分类文本的文本标签。
10.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-6中任一项所述的小样本多标签文本分类模型训练方法或执行如权利要求7所述的小样本多标签文本分类方法对应的操作。
11.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-6中任一项所述的小样本多标签文本分类模型训练方法或执行如权利要求7所述的小样本多标签文本分类方法对应的操作。
CN202210390623.9A 2022-04-14 2022-04-14 小样本多标签文本分类模型训练方法及文本分类方法 Active CN114818891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210390623.9A CN114818891B (zh) 2022-04-14 2022-04-14 小样本多标签文本分类模型训练方法及文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210390623.9A CN114818891B (zh) 2022-04-14 2022-04-14 小样本多标签文本分类模型训练方法及文本分类方法

Publications (2)

Publication Number Publication Date
CN114818891A CN114818891A (zh) 2022-07-29
CN114818891B true CN114818891B (zh) 2022-11-18

Family

ID=82537133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210390623.9A Active CN114818891B (zh) 2022-04-14 2022-04-14 小样本多标签文本分类模型训练方法及文本分类方法

Country Status (1)

Country Link
CN (1) CN114818891B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116186200B (zh) * 2023-01-19 2024-02-09 北京百度网讯科技有限公司 模型训练方法、装置、电子设备和存储介质
CN116304717B (zh) * 2023-05-09 2023-12-15 北京搜狐新媒体信息技术有限公司 文本分类方法及装置、存储介质及电子设备
CN116629387B (zh) * 2023-07-24 2023-10-27 湖南视觉伟业智能科技有限公司 一种用于训练缺失条件下的文本处理方法及处理系统
CN117057414B (zh) * 2023-08-11 2024-06-07 佛山科学技术学院 一种面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法及系统
CN117556049B (zh) * 2024-01-10 2024-05-17 杭州光云科技股份有限公司 一种基于大语言模型生成的正则表达式的文本分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069141A (zh) * 2015-08-19 2015-11-18 北京工商大学 一种股票标准新闻库的构建方法及构建系统
CN113064964A (zh) * 2021-03-22 2021-07-02 广东博智林机器人有限公司 文本分类方法、模型训练方法、装置、设备以及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11163947B2 (en) * 2019-07-30 2021-11-02 Imrsv Data Labs Inc. Methods and systems for multi-label classification of text data
CN113254599B (zh) * 2021-06-28 2021-10-08 浙江大学 一种基于半监督学习的多标签微博文本分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069141A (zh) * 2015-08-19 2015-11-18 北京工商大学 一种股票标准新闻库的构建方法及构建系统
CN113064964A (zh) * 2021-03-22 2021-07-02 广东博智林机器人有限公司 文本分类方法、模型训练方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN114818891A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN114818891B (zh) 小样本多标签文本分类模型训练方法及文本分类方法
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN112711948B (zh) 一种中文句子的命名实体识别方法及装置
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN107168955A (zh) 利用基于词上下文的字嵌入与神经网络的中文分词方法
CN111967264B (zh) 一种命名实体识别方法
CN110188195B (zh) 一种基于深度学习的文本意图识别方法、装置及设备
CN110555203A (zh) 文本复述方法、装置、服务器及存储介质
CN108959474B (zh) 实体关系提取方法
WO2018023356A1 (en) Machine translation method and apparatus
CN113672736B (zh) 一种文本多标签分类方法及系统
CN115017987A (zh) 语言模型微调方法、文本分类方法、装置及设备
CN113240485B (zh) 文本生成模型的训练方法、文本生成方法和装置
CN114722832A (zh) 一种摘要提取方法、装置、设备以及存储介质
CN116579327B (zh) 文本纠错模型训练方法、文本纠错方法、设备及存储介质
CN117494815A (zh) 面向档案的可信大语言模型训练、推理方法和装置
Rajani Shree et al. POS tagger model for Kannada text with CRF++ and deep learning approaches
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN117150044A (zh) 基于知识图谱的专利处理方法、装置及存储介质
CN116680381A (zh) 文档检索方法、装置、电子设备和存储介质
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN115718889A (zh) 针对公司简介的行业分类方法及装置
CN115759090A (zh) 一种结合软词典和汉字字形特征的中文命名实体识别方法
CN112364666B (zh) 文本表征方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant