CN115408525A - 基于多层级标签的信访文本分类方法、装置、设备及介质 - Google Patents

基于多层级标签的信访文本分类方法、装置、设备及介质 Download PDF

Info

Publication number
CN115408525A
CN115408525A CN202211199296.5A CN202211199296A CN115408525A CN 115408525 A CN115408525 A CN 115408525A CN 202211199296 A CN202211199296 A CN 202211199296A CN 115408525 A CN115408525 A CN 115408525A
Authority
CN
China
Prior art keywords
label
training
text
petition
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211199296.5A
Other languages
English (en)
Other versions
CN115408525B (zh
Inventor
宁洪波
屈玉涛
王文敏
刘博�
杜俊博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smart City Research Institute Of China Electronics Technology Group Corp
Original Assignee
Smart City Research Institute Of China Electronics Technology Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smart City Research Institute Of China Electronics Technology Group Corp filed Critical Smart City Research Institute Of China Electronics Technology Group Corp
Priority to CN202211199296.5A priority Critical patent/CN115408525B/zh
Publication of CN115408525A publication Critical patent/CN115408525A/zh
Application granted granted Critical
Publication of CN115408525B publication Critical patent/CN115408525B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适用于文本分类技术领域,提供了基于多层级标签的信访文本分类方法、装置、设备及介质,方法包括:提取信访文本中的重要句;以重要句组为输入运行分类模型,得到第一标签结果;以预设的与所述第一标签结果一一对应的第二标签集合和所述重要句组为输入运行标签排序模型,得到第二标签结果;本申请通过多层级标签分步预测,能够降低信访文本分类的难度;同时利用共享参数将第一标签结果和第二标签结果的预测过程联系起来,保证了针对第二标签预测的结果准确性,相比现有技术具有更好的准确性和效率。

Description

基于多层级标签的信访文本分类方法、装置、设备及介质
技术领域
本申请属于文本分类技术领域,尤其涉及基于多层级标签的信访文本分类方法、装置、设备及介质。
背景技术
信访事件分类是将信访人的信访内容划分到对应的事件类别,以便于相应的部门进行处理。
现有技术存在着一些利用神经网络执行信访文本分类的方法,这些方法在面临着信访文本可选分类标签数量多的问题时,往往无法高效准确地给出分类结果,尤其是对于少样本的类别标签,其分类识别效果往往不能令人满意。
因此,如何提供一种能够更为高效准确的对信访文本进行分类的方法成为了业内亟需解决的技术问题。
发明内容
本申请实施例提供了基于多层级标签的信访文本分类方法、装置、设备及介质,可以解决信访文本分类准确性不足的问题。
第一方面,本申请实施例提供了一种基于多层级标签的信访文本分类方法,包括:
提取信访文本中的重要句;所述重要句是指所述信访文本中符合预设条件的句子;
以重要句组为输入运行分类模型,得到第一标签结果;所述重要句组包括一个或多个所述重要句;
以预设的与所述第一标签结果一一对应的第二标签集合和所述重要句组为输入运行标签排序模型,得到第二标签结果;
所述分类模型和所述标签排序模型均是基于样本训练得到的深度学习模型的至少一部分,且所述分类模型中用于提取特征的至少一部分参数和所述标签排序模型中用于提取特征的至少一部分参数共享。
上述方法通过多层级标签分步预测,能够降低信访文本分类的难度;同时利用共享参数将第一标签结果和第二标签结果的预测过程联系起来,保证了针对第二标签预测的结果准确性,相比现有技术具有更好的准确性和效率。
在第一方面的一种可能的实现方式中,所述分类模型包括编码器和分类输出层;所述标签排序模型包括所述编码器和预测输出层;所述编码器、所述分类输出层以及所述预测输出层构成预设的信访文本分类模型的至少一部分;所述信访文本分类模型是基于样本训练得到的深度学习模型;
所述编码器用于:
以所述重要句组为输入,提取得到第一信访文本特征;或者,
以预设的与所述第一标签结果一一对应的第二标签集合和所述重要句组为输入,提取得到第二信访文本特征;
所述分类输出层用于根据所述第一信访文本特征,在预设的第一标签集合中确定所述重要句组所属的信访文本对应的至少一个第一标签结果;
所述预测输出层用于根据所述第二信访文本特征,在一一对应于所述第一标签结果的第二标签集合中确定所述重要句所属的信访文本对应的至少一个第二标签结果。
上述方法通过将标签排序模型和分类模型作为信访文本分类模型一部分,两者共用编码器,一方面提升了训练过程的效率,即针对分类模型或标签排序模型中的一者的训练也能够提高另一者的性能,另一方面也能够通过分类模型和标签排序模型的准确性,提供更为灵活的预测方式。
在第一方面的一种可能的实现方式中,所述信访文本分类模型的训练过程包括领域预训练;所述预训练包括第一训练、第二训练或者联合预训练;
所述第一训练是基于掩码语言模型MLM进行的自监督训练;
所述第二训练是基于对比学习进行的自监督训练;
所述联合训练包括同时进行的所述第一训练和所述第二训练。
上述方法通过引入预训练的过程,其中,第一训练的MLM过程能够使得信访文本分类模型具有针对词的更好的特征提取能力,第二训练的对比学习过程能够使得信访文本分类模型具有针对句子的更好的特征提取能力,在此基础上,通过覆盖更为全面的特征得到的推理结果自然具有更好的准确性。
在第一方面的一种可能的实现方式中,所述信访文本分类模型还包括半监督训练层;所述信访文本分类模型的训练过程包括多任务训练;所述多任务训练包括:
将多任务训练样本中的一个迷你批输入所述编码器,得到所述分类输出层输出的第一任务结果、所述预测输出层输出的第二任务结果以及所述半监督训练层输出的第三任务结果;所述第三任务结果是针对不存在真值的样本进行KL散度一致性预测得到的结果;
分别基于所述第一任务结果和预设的第一损失函数、所述第二任务结果和预设的第二损失函数、所述第三任务结果和第三损失函数计算梯度并更新所述信访文本分类模型的参数;
返回所述将多任务训练样本中的一个迷你批输入所述编码器的步骤,直至满足预设的迭代停止条件。
上述方法通过引入多任务训练,编码器针对信访文本提取的特征既能用于第一标签结果的确定,又能用于第二标签结果的确定,同时,在训练过程中引入的半监督训练层能够在针对分类输出层和预测输出层进行训练时优化半监督KL损失,从而提高模型的泛化性。
在第一方面的一种可能的实现方式中,所述信访文本分类模型的训练样本包括补充样本集合;
所述补充样本集合包括伪真值样本、少数类别扩增样本、攻击负样本以及对抗样本中的任一者或任多者组合;
所述伪真值样本是指通过真值模型对无真值的样本数据进行预测后得到的、置信度满足预设条件的预测真值和样本数据对;所述真值模型是通过集成学习的方式训练得到的多个模型;
所述少数类别扩增样本是指针对少数类别进行过采样得到的样本;所述少数类别是指样本数量小于设定的第一阈值的第一标签和/或第二标签;
所述攻击负样本是指自开放域文本集合中选取的与存在真值的任一信访文本样本字面重合度大于设定的第二阈值的样本;
所述对抗样本是指在训练特征的负梯度方向增加预设的扰动,构造得到的样本;所述训练特征是指所述编码器提取预设样本得到的第一信访文本特征或者第二信访文本特征;
所述第一标签属于所述第一标签集合;所述第二标签属于任一第二标签集合。
上述方法通过伪真值样本的引入,提升了训练集中样本的数量,能够对模型的训练效果起到增益;通过少数类别扩增样本的引入,提升了少数类别的信访文本的分类准确性,克服了现有技术中样本不均衡问题导致的少数类别文本分类准确性不足的问题;通过攻击负样本的引入起到了正则化的作用,能够有效提升模型的抗干扰能力;通过对抗样本的引入,能够起到正则化的作用,提高模型的抗干扰能力。
在第一方面的一种可能的实现方式中,所述提取信访文本中的重要句的步骤包括:
基于归一化后的第一分数和/或第二分数确定所述信访文本中句子的重要性分数;
所述第一分数是指所述信访文本中句子的句子特征相对于所述信访文本的文本整体特征的相似度分数;
所述第二分数基于如下任一者或任多者组合确定:
所述句子包括的实体词和/或预设的关键词的数量;
所述句子的权重;
所述句子在所述信访文本中的位置;
将所述重要性分数满足预设条件的所述句子提取为重要句;所述重要句的字符序列长度和不大于预设的模型输入序列上限。
上述方法通过第一分数和第二分数量化了信访文本中的句子重要性,能够提升作为分类模型和/或标签排序模型输入的重要句中的信息密度,从而使得模型的推理更具效率。
第二方面,本申请实施例提供了一种基于多层级标签的信访文本分类装置,包括:
提取模块,用于提取信访文本中的重要句;所述重要句是指所述信访文本中符合预设条件的句子;
第一标签模块,用于以重要句组为输入运行分类模型,得到第一标签结果;所述重要句组包括一个或多个所述重要句;
第二标签模块,用于以预设的与所述第一标签结果一一对应的第二标签集合和所述重要句组为输入运行标签排序模型,得到第二标签结果;
所述分类模型和所述标签排序模型均是基于样本训练得到的深度学习模型的至少一部分,且所述分类模型中用于提取特征的至少一部分参数和所述标签排序模型中用于提取特征的至少一部分参数共享。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的基于多层级标签的信访文本分类方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的基于多层级标签的信访文本分类方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的基于多层级标签的信访文本分类方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的基于多层级标签的信访文本分类方法的流程示意图;
图2是本申请实施例提供的基于多层级标签的信访文本分类装置的结构示意图;
图3是本申请实施例提供的终端设备的结构示意图;
图4是本申请实施例提供的基于多层级标签的信访文本分类方法的实施方案示意图;
图5是本申请实施例提供的多任务模型的训练过程示意图;
图6是本申请实施例提供的多任务模型的推理过程示意图。
附图标记:
提取模块201;
第一标签模块202;
第二标签模块203;
终端设备30;
处理器301;
存储器302;
计算机程序303。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请实施例提供一种基于多层级标签的信访文本分类方法,如图1所示,包括:
步骤102,提取信访文本中的重要句;所述重要句是指所述信访文本中符合预设条件的句子;
步骤104,以重要句组为输入运行分类模型,得到第一标签结果;所述重要句组包括一个或多个所述重要句;
步骤106,以预设的与所述第一标签结果一一对应的第二标签集合和所述重要句组为输入运行标签排序模型,得到第二标签结果;
所述分类模型和所述标签排序模型均是基于样本训练得到的深度学习模型的至少一部分,且所述分类模型中用于提取特征的至少一部分参数和所述标签排序模型中用于提取特征的至少一部分参数共享。
本实施例中,所述分类模型和所述标签排序模型均是基于样本训练得到的深度学习模型的至少一部分是指:
所述分类模型和所述标签排序模型是一个总体深度学习模型(例如信访文本分类模型)中的两个子模型,且该总体深度学习模型中可能包括除所述分类模型和所述标签排序模型以外的子模型(例如用于训练的半监督分支子模型);或者,
所述分类模型和所述标签排序模型为独立的两个深度学习模型;
在一个可选的实施方式中,步骤102和步骤104之间还存在着用于判断重要句的步骤103,具体地:
步骤103,以重要程度量化值排序多个所述重要句构成重要句序列,并选取所述重要句序列中前N个重要句作为待输入所述分类模型的一个或多个所述重要句;
其中,N为使得所述前N个重要句的字符数量之和不大于预设的分类模型输入字符上限的最大正整数;
其中,重要程度量化值的具体选取可以基于如下优选的实施方式:
所述提取信访文本中的重要句的步骤包括:
基于归一化后的第一分数和/或第二分数确定所述信访文本中句子的重要性分数;
所述第一分数是指所述信访文本中句子的句子特征相对于所述信访文本的文本整体特征的相似度分数;
所述第二分数基于如下任一者或任多者组合确定:
所述句子包括的实体词和/或预设的关键词的数量;
所述句子的权重;
所述句子在所述信访文本中的位置;
将所述重要性分数满足预设条件的所述句子提取为重要句;所述重要句的字符序列长度和不大于预设的模型输入序列上限。
在一个可选的实施方式中,文本规范化是对过长的信访件内容提取其中的重要句,以此来缩短模型输入的序列长度。对句子重要性的打分,通过规则和模型多个角度进行综合评估。
规则打分:1)句子包含实体词的数量;2)句子TF-IDF权重;3)句子包含的关键词数量(采用LDA主题模型计算得到的信访领域的关键词);4)句子在信访内容中的位置;
模型打分:将信访件内容的整体语义向量与每个句子计算相似度,得到每个句子的重要性分数。
将归一化后的分数相加,作为最终的分数。然后根据重要性分数迭代选择重要句子,直到最大序列长度。将选取后的文本作为模型的输入。
本实施方式的有益效果在于:
通过第一分数和第二分数量化了信访文本中的句子重要性,能够提升作为分类模型和/或标签排序模型输入的重要句中的信息密度,从而使得模型的推理更具效率。
本实施例中,第一标签和第二标签可以理解为针对信访文本设置的多级标签中的相邻级别的标签,例如针对信访文本设置三级标签,由于第一级别的标签数量相对较少,分类较为容易,可以将第二级别的标签作为第一标签,第三级别的标签作为第二标签;本示例的另一个可选实施方式是将第一级别的标签作为第一标签,将第二级别的标签作为第二标签,并在步骤106执行完毕后,引入第三分类模型针对第三级别的标签再次进行分类。
本实施例中由于标签排序模型和分类模型的两步推理,分类过程中面对的可选类别降低明显。
因第二标签集合中存在m种(m>=300)可选的第二标签,利用现有技术进行分类时,模型的分类难度较大;而利用本实施例方案时,先对第一标签集合共n种(n<50)可选的第一标签进行分类,再利用第一标签和第二标签的结构关系,对满足条件的第二标签z(z<10)进行打分预测,这种情况下,虽然增加了一定的计算复杂度,但分类的难度大大降低(n+z<<m),同时分类准确性也有很大提升。
本实施例的有益效果在于:
通过多层级标签分步预测,能够降低信访文本分类的难度;同时利用共享参数将第一标签结果和第二标签结果的预测过程联系起来,保证了针对第二标签预测的结果准确性,相比现有技术具有更好的准确性和效率。
根据上述实施例,在本实施例中:
所述分类模型包括编码器和分类输出层;所述标签排序模型包括所述编码器和预测输出层;所述编码器、所述分类输出层以及所述预测输出层构成预设的信访文本分类模型的至少一部分;所述信访文本分类模型是基于样本训练得到的深度学习模型;
所述编码器用于:
以所述重要句组为输入,提取得到第一信访文本特征;或者,
以预设的与所述第一标签结果一一对应的第二标签集合和所述重要句组为输入,提取得到第二信访文本特征;
所述分类输出层用于根据所述第一信访文本特征,在预设的第一标签集合中确定所述重要句组所属的信访文本对应的至少一个第一标签结果;
所述预测输出层用于根据所述第二信访文本特征,在一一对应于所述第一标签结果的第二标签集合中确定所述重要句所属的信访文本对应的至少一个第二标签结果。
在一个可选的实施方式中,标签排序模型能够给出一一对应于所述第一标签结果的第二标签集合中任一第二标签的相关性分数,相关性分数大于预设阈值的一个或多个第二标签即为至少一个第二标签结果;
值得说明的是,一些情况下,可能出现一一对应于所述第一标签结果的第二标签集合中不存在相关性分数大于预设阈值的第二标签,此时应当给出相关性分数最高的第二标签作为第二标签结果。
作为示例而非限定,编码器用于:
针对所述重要句组进行编码,以得到重要句的语义编码向量作为第一信访文本特征;或者,
针对所述重要句组和一一对应于所述第一标签结果的第二标签集合中第二标签的语义文本拼接后得到的拼接文本进行编码,以得到第二信访文本特征;
在一些实施方式中,编码的过程可以理解为embedding的过程,也可以将embedding理解为向量化后得到的结果,即特征向量。
在一些实施方式中,特征可以理解为特征向量。
所述分类输出层和所述预测输出层可以为全连接层。
在本示例的一个优选方案中,所述编码器是基于BERT-style的编码器。
在一个可选的实施方式中,标签排序模型可以是一个非典型深度学习模型的模型,具体地:
所述以预设的与所述第一标签结果一一对应的第二标签集合和所述重要句组为输入运行标签排序模型,得到第二标签结果的步骤包括:
计算第二标签特征向量和文本特征向量间的距离,并根据所述距离得到第二标签结果;
所述第二标签特征向量是以预设的与所述第一标签结果一一对应的第二标签集合中的任一第二标签为输入,预先运行所述分类模型或者所述标签排序模型提取得到的特征向量;
所述文本特征向量是以所述重要句组为输入,运行所述分类模型或者所述标签排序模型提取得到的特征向量;
所述第二标签结果包括预设的与所述第一标签结果一一对应的第二标签集合中的任一第二标签与所述重要句组所属的信访文本间的相关性分数;所述相关性分数与所述距离负相关。
本实施方式中,标签排序模型可以理解为包括两个部分的模型:
第一部分是用于提取特征的编码器;
第二部分是用于计算向量距离的子模型。
其中第一部分的编码器也可以由分类模型的编码器替代,用于在推理任务执行前,对任一第二标签进行特征提取,以得到第二标签特征向量,在此基础上,模型推理过程中,仅需根据第一标签结果召回对应的第二标签集合,并计算该第二标签集合中第二标签特征向量与文本特征向量(这一特征向量也可以直接采用分类模型运行过程中的中间结果)间的距离即可。
这一可选的实施方式能够在保证准确率下限的前提下更为快速地完成推理。
本实施例的有益效果在于:
通过将标签排序模型和分类模型作为信访文本分类模型一部分,两者共用编码器,一方面提升了训练过程的效率,即针对分类模型或标签排序模型中的一者的训练也能够提高另一者的性能,另一方面也能够通过分类模型和标签排序模型的准确性,提供更为灵活的预测方式。
根据上述任一实施例,在本实施例中:
所述信访文本分类模型的训练过程包括领域预训练;所述预训练包括第一训练、第二训练或者联合预训练;
本实施例中,不同于通用预训练,领域预训练是指特定于在信访领域数据上的预训练,具体地:从大量信访相关的无标签数据上进行自监督学习,模型可以充分学习到信访领域的行业知识和数据特点,数据源有信访制度文件、信访人的信访内容、互联网上的信访相关网页等。
所述第一训练是基于掩码语言模型MLM进行的自监督训练;
在一个优选的实施方式中,第一训练的步骤包括:
利用预设的信访分词器对第一训练样本的预设位置进行掩码后输入所述分类模型,得到掩码标记预测结果;
在基于BERT-style的编码器的示例方案中,掩码标记可以理解为领域内的术语whole word mask,所述掩码标记预测结果即为针对mask位置的token预测结果。
根据所述掩码标记预测结果和预设的MLM损失函数计算梯度并更新所述信访文本分类模型的参数;
在一个可选的实施方式中,所述MLM损失函数为交叉熵损失函数。
所述第二训练是基于对比学习进行的自监督训练;
在一个优选的实施方式中,第二训练的步骤包括:
构造以第二训练样本中的句子为基础的第二训练正例和第二训练负例;
将所述第二训练样本、所述第二训练正例、所述第二训练负例输入信访文本分类模型,采用pairwise对比损失函数进行优化。(在一些可选的实施方式中,也可以采用三者的triplet loss损失函数进行优化);
根据所述对比训练结果以及预设的对比损失函数计算梯度并更新所述分类模型的参数;
所述对比损失函数用于:
缩小所述第二训练正例间的距离;和,
增大所述第二训练正例和所述第二训练负例间的距离。
值得说明的是,正例和负例都是对于原始样本来说的(对应于本实施方式,第二训练正例、第二训练负例均是相对于第二训练样本而言的),第二训练的目标是使第二训练样本的提取特征和第二训练正例提取特征间的距离拉近,而第二训练样本的提取特征和第二训练负例提取特征间的距离推远。
从而在预测时,不同的标签与当前文本所计算的距离是不同的,根据距离进行排序,可以得到当前文本最相关的标签。
在一个可选的实施方式中,所述第二训练是基于ESimCSE(enhanced contrastivelearning,增强对比学习)任务的训练过程,具体地,第二训练对句子整体进行语义建模,通过word repetition和dropout方式获取正例,in-batch negative sampling方式获取负例,并进一步通过队列存储历史batch的特征向量,进一步扩增负例数量,然后计算对比学习损失进行优化。最终使得正例之间距离不断缩小,负例之间距离不断拉大。
本实施方式中,一些术语的解释如下:
word repetition:词重复方式,是对文本中的词进行重复,也就是增加句子的噪音,构造原句子的正例,再让模型去预测。
In-batch negative samping:同一个batch中的其他样本作为负例,可提高模型的训练效率。
作为示例而非限定,在本实施方式中,采用带有temperature的softmax计算损失函数,损失函数如下所示,
Figure BDA0003871830250000141
Figure BDA0003871830250000151
其中,li为一个样本的损失函数计算过程;
hi
Figure BDA0003871830250000152
为模型对该样本和其正例编码后的特征向量;
sim函数是计算两个样本的相似度,采用余弦距离作为计算指标;
τ为温度超参数,其值越小,正负例之间的距离越显著,反之,对正负例的距离容忍度更高。
e为自然对数的底数。
所述联合训练包括同时进行的所述第一训练和所述第二训练;
即同时执行第一训练和第二训练的步骤,并将MLM损失函数和对比损失函数分别作为联合损失函数的一个项(一些情况下,MLM损失函数和对比损失函数还设置有权重),t通过联合损失函数计算梯度并更新模型参数。
本实施例的有益效果在于:
通过引入预训练的过程,其中,第一训练的MLM过程能够使得信访文本分类模型具有针对词的更好的特征提取能力,第二训练的对比学习过程能够使得信访文本分类模型具有针对句子的更好的特征提取能力,在此基础上,通过覆盖更为全面的特征得到的推理结果自然具有更好的准确性。
根据上述任一实施例,在本实施例中:
所述信访文本分类模型还包括半监督训练层;所述信访文本分类模型的训练过程包括多任务训练;所述多任务训练包括:
可选地,所述半监督训练层是用于训练的分支,训练完成后,可以删除所述半监督训练层以精简模型,提升推理速度。
值得说明的是,半监督训练层的引入,能够更好的适应存在大量无监督数据和少量有监督数据的情况,训练过程中,通过半监督训练层的训练,同时构造多个损失函数,提升了无监督数据利用率,随之提升了模型的推理精度。
有多重好处,一是防止模型过拟合,二是防止模型遗忘预训练学到的知识;三是可以起到正则化效果,使模型更鲁棒。
将多任务训练样本中的一个迷你批输入所述编码器,得到所述分类输出层输出的第一任务结果、所述预测输出层输出的第二任务结果以及所述半监督训练层输出的第三任务结果;所述第三任务结果是针对不存在真值的样本进行KL散度一致性预测得到的结果;
值得说明的是,所述多任务训练样本可以理解为训练过程中的一个epoch,迷你批可以理解为训练过程中的mini batch。
分别基于所述第一任务结果和预设的第一损失函数、所述第二任务结果和预设的第二损失函数、所述第三任务结果和第三损失函数计算梯度并更新所述信访文本分类模型的参数;
在一个可选的实施方式中,所述第一损失函数包括基于所述多任务训练样本均衡性设置的权重;
更具体地,在一个优选的实施方式中,所述第一损失函数为focal loss。
focal loss能够通过降低容易样本的权重和提高困难样本的loss权重,达到更均衡训练的作用,具体函数形式如下:
focal loss(pt)=-(1-pt)γlog(pt)
其中,pt为模型预测当前样本为正的概率;
γ>0为可调节因子,通过调节,可以降低容易样本对损失的贡献,并提高困难样本的权重;
一个可选的实施方式中,所述第二损失函数是pairwise ranking loss;
pairwise ranking loss通过构造正例和一系列负例,计算log loss得到最终损失函数,具体函数形式如下:
Rel(label,x)=g(wT·X)
Figure BDA0003871830250000161
Figure BDA0003871830250000162
其中,Rel为模型计算当前样本和其正例或负例的相关性分数;
w为代表模型参数;X为模型的输入,即对(样本x,正例/负例label)编码后的特征向量;g为归一化函数,将相关性分数归一化到区间[0,1]。
P(label+|x)为softmax计算过程,是对当前样本和其正例以及负例的相关性分数进行归一化,以便于计算log损失。
label_set为信访内容的第二预测标签集合,label+为当前样本对应的标签,即该样本的正例。
loss为所有样本的负对数损失相加。
针对半监督训练层而言,一些可选的半监督训练算法是UDA、R-drop以及temporalensembling(不同epoch的预测值集成);
在本示例中,UDA、R-drop等半监督学习,都是在分类模型的训练过程中,增加模型对无标签数据KL散度一致性的预测,从而提高模型的泛化性。其中temporal ensembling采用历史预测移动平均的结果来获得正例,UDA是采用非核心词替换和回译的方式,R-drop是采用dropout方式获得正例。训练过程同时优化半监督KL损失,可提高模型的泛化性。
在一个可选的实施方式中,半监KL的损失,即第三损失函数为:
Figure BDA0003871830250000171
Figure BDA0003871830250000172
其中,pw(yi|xi)为模型预测当前样本的概率分布;
Figure BDA0003871830250000173
为模型对转换后的样本所输出的概率分布;
Figure BDA0003871830250000174
是对原始样本xi转换后的样本,转换操作为UDA和R-drop等方式;
DKL为计算两个概率分布的KL散度;
Figure BDA0003871830250000175
为当前样本的KL损失。
返回所述将多任务训练样本中的一个迷你批输入所述编码器的步骤,直至满足预设的迭代停止条件。
一个可选的迭代停止条件为所述多任务训练样本中的全部迷你批均已输入所述共享层;另一个可选的迭代停止条件为迭代次数达到预设的最大迭代次数。
下面将基于三级标签的信访文本给出多任务训练过程的具体示例。
在本示例中,针对信访文本设置三级标签,将第二级别的标签作为第一标签,第三级别的标签作为第二标签。
因为二级标签分类模型和三级标签文本匹配模型共享底层参数,因此采用交替训练的方式,同时优化二级分类模型的损失和三级模型对比学习损失。这样,训练得到的模型编码器可以提供更通用的语义表征。其中,二级分类模型采用focal loss损失函数。三级标签文本相关性模型采用pairwise ranking方式进行训练。以及半监督训练损失函数:KL散度的一致性。
以伪代码形式给出的训练过程执行逻辑如下:
Figure BDA0003871830250000181
本实施例的有益效果在于:
通过引入多任务训练,编码器针对信访文本提取的特征既能用于第一标签结果的确定,又能用于第二标签结果的确定,同时,在训练过程中引入的半监督训练层能够在针对分类输出层和预测输出层进行训练时优化半监督KL损失,从而提高模型的泛化性。
根据上述任一实施例,在本实施例中:
所述信访文本分类模型的训练样本包括补充样本集合;
所述补充样本集合包括伪真值样本、少数类别扩增样本、攻击负样本以及对抗样本中的任一者或任多者组合;
所述伪真值样本是指通过真值模型对无真值的样本数据进行预测后得到的、置信度满足预设条件的预测真值和样本数据对;所述真值模型是通过集成学习的方式训练得到的多个模型;
在一个可选的实施方式中,通过集成学习的方式,训练得到多个模型,对无标签数据进行预测,从中筛选出高置信度的少资源类别样本,增加到分类模型的训练数据中构成伪真值样本。
值得说明的是,本申请中第一标签、第二标签是指针对信访文本分类给出的标签,而设计训练过程中样本的标签是深度学习领域的术语,可以理解为样本的真值。
所述少数类别扩增样本是指针对少数类别进行过采样得到的样本;所述少数类别是指样本数量小于设定的第一阈值的第一标签和/或第二标签;
此外,样本的扩增可以基于伪真值样本进行,还可以采用样本增强的方式进行,例如对少数类别样本中的词句进行替换、顺序调整等。
所述攻击负样本是指自开放域文本集合中选取的与存在真值的任一信访文本样本字面重合度大于设定的第二阈值的样本;
本实施例中,开放域文本集合是指在互联网等平台上的公开数据。
在一个可选的实施方式中,通过获取与标签数据语义不相关但是字面重合度较高的外部数据,作为攻击负样本增加到模型的训练过程中,可防止模型对少数样本的过拟合,以及提高模型的通用能力。
所述对抗样本是指在训练特征的负梯度方向增加预设的扰动,构造得到的样本;所述训练特征是指所述编码器提取预设样本得到的第一信访文本特征或者第二信访文本特征;
所述第一标签属于所述第一标签集合;所述第二标签属于任一第二标签集合。
在一个可选的实施方式中,对抗训练是在样本的embedding的负梯度方向增加微小的扰动,来构造一些额外的正样本,从而起到正则化作用,提高模型的抗干扰能力。对抗样本的构成如下所示:
Figure BDA0003871830250000201
其中,
Figure BDA0003871830250000202
为当前样本的梯度;
sign为符号函数,当梯度大于0,其为1;当梯度小于0,其为-1;
∈是一个常数,一个比较小的扰动值。
x为样本的embedding;
xabv为扰动后的对抗样本。
本实施例的有益效果在于:
通过伪真值样本的引入,提升了训练集中样本的数量,能够对模型的训练效果起到增益;通过少数类别扩增样本的引入,提升了少数类别的信访文本的分类准确性,克服了现有技术中样本不均衡问题导致的少数类别文本分类准确性不足的问题;通过攻击负样本的引入起到了正则化的作用,能够有效提升模型的抗干扰能力;通过对抗样本的引入,能够起到正则化的作用,提高模型的抗干扰能力。
下面将结合上述各实施例,从实际应用方案的执行顺序的角度出发,给出一完整应用实施例。
在本实施例中,信访事件类别是一套树状结构的三级标签体系,对应着各个管理部门的管理职责。比如三级标签城乡建设_住房保障与房地产_房地产开发管理表示该信访件是属于城乡建设领域住房保障与房地产相关机构所负责的房地产开发管理事务。
本实施例中,三级标签对应于第二标签,二级标签对应于第一标签。
首先给出非本申请方法的一些可选的信访事件分类方案:
(1)通过对信访件内容中大量冗余信息和噪音进行过滤,只抽取其中的事件三元组和关键句作为模型的输入,从而提高信访目的多分类模型的准确率。
(2)通过将多样本类别作为一个整体类别,联合少样本类别训练分类器,从而缓解样本不均衡问题;
(3)通过对参与训练的不均衡数据集进行动态循环抽样处理,来达到多数类别和少数类比样本数量均衡的目标,进而提高少数类别的识别准确率。
(4)通过对每个层级的标签独立预测,然后采用规则或模型集成的方式融合不同层级的预测结果,最终得到统一的多层级标签分类结果
这些可选方案存在着不同的问题,具体地:
(1)信访事件分类是一个多层级标签分类任务,其三级标签有近300个,而且不同标签对应的数据量分布极不均衡。因此,直接采用上述分类方法很难解决信访事件分类面对的问题,尤其是少样本类别的识别效果往往比较差。
(2)以上的不均衡分类方法中,为了平衡样本数量,对多资源类别进行降采样会损失掉该部分样本所能带来的信息,使模型训练不够充分;而将少样本类别视为一个整体类别会破坏标签体系原有的语义信息,使模型通用性变差。
(3)以上的多层级标签分类方法缺乏对不同层级标签之间结构关系的建模,而且都没有考虑到实际应用中标签体系动态更新的需求。
为了解决上述问题,本实施例采用了如下解决思路:
(1)本实施例提出一套基于深度学习模型的信访事件分类框架,包括训练阶段和推理阶段两部分。其中,训练阶段通过深度学习的预训练技术和多种不均衡训练策略,解决样本不均衡问题和模型泛化性问题。推理阶段分为三个模块,首先是文本的归一化,通过提取信访件内容中的重要句来缩短文本的长度;然后是利用训练好的分类模型预测其对应的二级标签,并召回该二级标签对应的三级标签;接着采用文本匹配的方式,将三级标签对应的语义文本与信访件内容拼接输入给模型,最后输出每个三级标签的文本相关性分数,取分数最高的三级标签为最终的预测结果。
(2)本实施例将三级标签的预测任务分解为二级标签分类预测和三级标签文本相关性计算两个阶段。这种划分可从根本上缓解分类模型面临的类别不均衡问题(由于二级标签数量少,不均衡问题没有那么严重),而且两个模型共享底层参数,可以从特征层面建模二级标签和三级标签之间的结构关系。同时,三级标签采用文本匹配的方式,不仅可以更准确表示不同标签之间的细微差别(标签会转化为对应的语义文本),而且可以更好的利用预训练模型的能力(与预训练任务更接近)。此外,该架构还可以灵活适应标签体系动态更新的需求。
(3)在模型的训练部分,首先采用自监督的方式在大量无标签数据上进行领域预训练,可大大提高模型的泛化性。在微调阶段,首先利用伪标注的数据增强方式,从无标签数据中获取少资源类别的伪标注样本;然后采用半监督学习和多任务学习同时对二级标签分类模型和三级标签文本匹配模型进行训练(二者共享底层参数),分类损失函数采用focal loss等不均衡损失函数。另外,为了提高模型的鲁棒性,训练过程中会增加对抗训练和负样本攻击等训练策略。
本实施例的目的在于通过设计一套通用的信访事件分类框架,来提高信访事件分类的准确率,尤其是对少数类别的识别成功率,从而进一步提高整个信访系统自动化和智能化处理的效率。
图4示出了本实施例的整体架构,下面将基于图4对本实施例方案进行具体说明。
1、预训练阶段。
信访领域每天都会新增大量的数据,但通常没有标签。而采用自监督学习方式对模型进行预训练,不仅可以充分利用大量无标签数据,还可以提高模型的通用性和泛化性。本专利采用以下两种预训练任务完成领域预训练;
MLM(mask language model)任务:
采用信访领域的专用分词器,对输入文本进行whole word mask。训练过程中对mask位置的token进行预测,然后计算交叉熵损失来进行参数更新。损失函数如下:
Figure BDA0003871830250000231
ESimCSE(enhanced contrastive learning)任务:
对句子整体进行语义建模,通过word repetition和dropout方式获取正例,in-batch negative sampling方式获取负例,并进一步采用momentum扩增batch中的负例,然后计算对比学习损失进行优化。最终使得正例之间距离不断缩小,负例之间距离不断拉大。
采用带有temperature的softmax计算损失函数。
损失函数如下所示,hi
Figure BDA0003871830250000232
为模型对句子及其正例编码后的特征向量。
Figure BDA0003871830250000233
Figure BDA0003871830250000234
2、微调阶段。
图5示出了本实施例微调阶段的架构示意图。可以理解,微调阶段的输入x为句子或句子对(句子组),分词器(如tokenizer分词器)和编码器(如BERT-style编码器)作为共享层(shared layer),特定任务层(task specific layer)中包括针对二级标签的预测分支(执行文本分类,即text classification任务)、针对三级标签的预测分支(利用pairwise ranking损失进行训练)以及针对KL散度的半监督学习分支;其中半监督学习分支仅用于微调阶段,模型推理过程中可以删去。
微调阶段采用有标签(即真值)的数据进行训练。首先利用伪标注方式对少数类别样本进行扩增,然后采用多任务学习方式对两个任务(二级标签分类预测任务和三级标签文本匹配任务)进行交替训练。训练策略上,增加R-drop和UDA等半监督学习损失,可显著提高模型的泛化性;分类loss采用不均衡损失focal loss,通过提高hard example的参数更新权重降低类别不均衡的影响;另外增加负样本攻击和对抗训练,可进一步提高模型的鲁棒性和防过拟合能力。
多任务学习:
因为二级标签分类模型和三级标签文本匹配模型共享底层参数,因此采用交替训练的方式,同时优化二级分类模型的损失和三级模型对比学习损失。这样,训练得到的模型编码器可以提供更通用的语义表征。其中,二级分类模型采用focal loss损失函数。三级标签文本相关性模型采用pairwise ranking方式进行训练。
focal loss:focal loss是通过降低容易样本的权重和提高困难样本的loss权重,从而达到更均衡训练的作用。
Focal loss(pt)=-(1-pt)γlog(pt)
pairwise ranking loss:通过构造正例和一系列负例,计算log loss得到最终损失函数。
Rel(label,x)=g(wT·x)
Figure BDA0003871830250000241
Figure BDA0003871830250000242
伪标签数据生成:
通过集成学习的方式,训练得到多个模型,对无标签数据进行预测,从中筛选出高置信度的少资源类别样本,增加到分类模型的训练数据中。
半监督学习:
UDA、R-drop等半监督学习,都是在分类模型的训练过程中,增加模型对无标签数据KL散度一致性的预测,从而提高模型的泛化性。其中temporal ensembling采用历史预测移动平均的结果来获得正例,UDA是采用非核心词替换和回译的方式,R-drop是采用dropout方式获得正例。训练过程同时优化半监督KL损失,可提高模型的泛化性。
Figure BDA0003871830250000251
负样本攻击和对抗训练:
负样本攻击,是通过获取与标签数据语义不相关但是字面重合度较高的外部数据,作为负样本增加到模型的训练过程中,可防止模型对少数样本的过拟合,以及提高模型的通用能力。
对抗训练是在样本的embedding的负梯度方向增加微小的扰动,来构造一些额外的正样本,从而起到正则化作用,提高模型的抗干扰能力。对抗样本的构成如下所示:
Figure BDA0003871830250000252
2、预测阶段。
文本规范化:
文本规范化是对过长的信访件内容提取其中的重要句,以此来缩短模型输入的序列长度。对句子重要性的打分,通过规则和模型多个角度进行综合评估。
规则打分:1)句子包含实体词的数量;2)句子TF-IDF权重;3)句子包含的关键词数量(采用LDA主题模型计算得到的信访领域的关键词);4)句子在信访内容中的位置;
模型打分:将信访件内容的整体语义向量与每个句子计算相似度,得到每个句子的重要性分数。
将归一化后的分数相加,作为最终的分数。然后根据重要性分数迭代选择重要句子,直到最大序列长度。将选取后的文本作为模型的输入。
二级标签分类预测和三级标签文本匹配相关性计算:
如图6所示,归一化后的文本首先经过二级标签分类模型,预测得到对应的二级标签,然后根据二级标签和三级标签的结构关系召回对应的三级标签,将三级标签对应的语义文本与信访件内容拼接后输入给文本匹配模型,最终输出所有三级标签的相关性分数,选择分数最高的类别为该信访件的三级标签事件类别。
为了加速推理过程,也可以采用检索式的文本相关性计算方式。即将三级标签对应的语义文本预先编码好,在线预测时,只需要对信访件内容进行编码得到其特征向量,然后计算该特征向量与三级标签向量之间的距离,即为最终的相关性分数。这样,只需要经过一次模型的推理过程,便可得到最终结果,可大大缩短模型的推理时间。
本实施例可直接应用于信访事件分类任务中。信访事件分类是信访领域自动化处理和分析中最基础和最重要的一个任务,对提高整个信访系统的处理效率起着关键的作用。
本申请各实施例中,两阶段预测方式能够解决的问题包括但不限于:
1、多层级标签的分类问题;
2、三级标签语义重叠,难以区分的问题;
3、可以充分利用层级标签之间的结构关系,以及训练过程通过多任务引入这种信息,从语义上进行对齐。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的基于多层级标签的信访文本分类方法,图2示出了本申请实施例提供的基于多层级标签的信访文本分类装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图2,该装置包括:
提取模块201,用于提取信访文本中的重要句;所述重要句是指所述信访文本中符合预设条件的句子;
第一标签模块202,用于以重要句组为输入运行分类模型,得到第一标签结果;所述重要句组包括一个或多个所述重要句;
第二标签模块203,用于以预设的与所述第一标签结果一一对应的第二标签集合和所述重要句组为输入运行标签排序模型,得到第二标签结果;
所述分类模型和所述标签排序模型均是基于样本训练得到的深度学习模型的至少一部分,且所述分类模型中用于提取特征的至少一部分参数和所述标签排序模型中用于提取特征的至少一部分参数共享。
具体地,所述分类模型包括编码器和分类输出层;所述标签排序模型包括所述编码器和预测输出层;所述编码器、所述分类输出层以及所述预测输出层构成预设的信访文本分类模型的至少一部分;所述信访文本分类模型是基于样本训练得到的深度学习模型;
所述编码器用于:
以所述重要句组为输入,提取得到第一信访文本特征;或者,
以预设的与所述第一标签结果一一对应的第二标签集合和所述重要句组为输入,提取得到第二信访文本特征;
所述分类输出层用于根据所述第一信访文本特征,在预设的第一标签集合中确定所述重要句组所属的信访文本对应的至少一个第一标签结果;
所述预测输出层用于根据所述第二信访文本特征,在一一对应于所述第一标签结果的第二标签集合中确定所述重要句所属的信访文本对应的至少一个第二标签结果。
所述信访文本分类模型的训练过程包括领域预训练;所述预训练包括第一训练、第二训练或者联合预训练;
所述第一训练是基于掩码语言模型MLM进行的自监督训练;
所述第二训练是基于对比学习进行的自监督训练;
所述联合训练包括同时进行的所述第一训练和所述第二训练。
所述信访文本分类模型还包括半监督训练层;所述信访文本分类模型的训练过程包括多任务训练;所述多任务训练包括:
将多任务训练样本中的一个迷你批输入所述编码器,得到所述分类输出层输出的第一任务结果、所述预测输出层输出的第二任务结果以及所述半监督训练层输出的第三任务结果;所述第三任务结果是针对不存在真值的样本进行KL散度一致性预测得到的结果;
分别基于所述第一任务结果和预设的第一损失函数、所述第二任务结果和预设的第二损失函数、所述第三任务结果和第三损失函数计算梯度并更新所述信访文本分类模型的参数;
返回所述将多任务训练样本中的一个迷你批输入所述编码器的步骤,直至满足预设的迭代停止条件。
所述信访文本分类模型的训练样本包括补充样本集合;
所述补充样本集合包括伪真值样本、少数类别扩增样本、攻击负样本以及对抗样本中的任一者或任多者组合;
所述伪真值样本是指通过真值模型对无真值的样本数据进行预测后得到的、置信度满足预设条件的预测真值和样本数据对;所述真值模型是通过集成学习的方式训练得到的多个模型;
所述少数类别扩增样本是指针对少数类别进行过采样得到的样本;所述少数类别是指样本数量小于设定的第一阈值的第一标签和/或第二标签;
所述攻击负样本是指自开放域文本集合中选取的与存在真值的任一信访文本样本字面重合度大于设定的第二阈值的样本;
所述对抗样本是指在训练特征的负梯度方向增加预设的扰动,构造得到的样本;所述训练特征是指所述编码器提取预设样本得到的第一信访文本特征或者第二信访文本特征;
所述第一标签属于所述第一标签集合;所述第二标签属于任一第二标签集合。
进一步地,所述第二标签模块203包括:
距离单元,用于计算第二标签特征向量和文本特征向量间的距离,并根据所述距离得到第二标签结果;
所述第二标签特征向量是以预设的与所述第一标签结果一一对应的第二标签集合中的任一第二标签为输入,预先运行所述分类模型或者所述标签排序模型提取得到的特征向量;
所述文本特征向量是以所述重要句组为输入,运行所述分类模型或者所述标签排序模型提取得到的特征向量;
所述第二标签结果包括预设的与所述第一标签结果一一对应的第二标签集合中的任一第二标签与所述重要句组所属的信访文本间的相关性分数;所述相关性分数与所述距离负相关。
所述提取模块201包括:
重要性分数单元,用于基于归一化后的第一分数和/或第二分数确定所述信访文本中句子的重要性分数;
所述第一分数是指所述信访文本中句子的句子特征相对于所述信访文本的文本整体特征的相似度分数;
所述第二分数基于如下任一者或任多者组合确定:
所述句子包括的实体词和/或预设的关键词的数量;
所述句子的权重;
所述句子在所述信访文本中的位置;
将所述重要性分数满足预设条件的所述句子提取为重要句;所述重要句的字符序列长度和不大于预设的模型输入序列上限。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种终端设备,如图3所示,该终端设备30包括:至少一个处理器301、存储器302以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序303,所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (9)

1.一种基于多层级标签的信访文本分类方法,其特征在于,包括:
提取信访文本中的重要句;所述重要句是指所述信访文本中符合预设条件的句子;
以重要句组为输入运行分类模型,得到第一标签结果;所述重要句组包括一个或多个所述重要句;
以预设的与所述第一标签结果一一对应的第二标签集合和所述重要句组为输入运行标签排序模型,得到第二标签结果;
所述分类模型和所述标签排序模型均是基于样本训练得到的深度学习模型的至少一部分,且所述分类模型中用于提取特征的至少一部分参数和所述标签排序模型中用于提取特征的至少一部分参数共享。
2.如权利要求1所述的基于多层级标签的信访文本分类方法,其特征在于,所述分类模型包括编码器和分类输出层;所述标签排序模型包括所述编码器和预测输出层;所述编码器、所述分类输出层以及所述预测输出层构成预设的信访文本分类模型的至少一部分;所述信访文本分类模型是基于样本训练得到的深度学习模型;
所述编码器用于:
以所述重要句组为输入,提取得到第一信访文本特征;或者,
以预设的与所述第一标签结果一一对应的第二标签集合和所述重要句组为输入,提取得到第二信访文本特征;
所述分类输出层用于根据所述第一信访文本特征,在预设的第一标签集合中确定所述重要句组所属的信访文本对应的至少一个第一标签结果;
所述预测输出层用于根据所述第二信访文本特征,在一一对应于所述第一标签结果的第二标签集合中确定所述重要句所属的信访文本对应的至少一个第二标签结果。
3.如权利要求2所述的基于多层级标签的信访文本分类方法,其特征在于,所述信访文本分类模型的训练过程包括领域预训练;所述预训练包括第一训练、第二训练或者联合预训练;
所述第一训练是基于掩码语言模型MLM进行的自监督训练;
所述第二训练是基于对比学习进行的自监督训练;
所述联合训练包括同时进行的所述第一训练和所述第二训练。
4.如权利要求2所述的基于多层级标签的信访文本分类方法,其特征在于,所述信访文本分类模型还包括半监督训练层;所述信访文本分类模型的训练过程包括多任务训练;所述多任务训练包括:
将多任务训练样本中的一个迷你批输入所述编码器,得到所述分类输出层输出的第一任务结果、所述预测输出层输出的第二任务结果以及所述半监督训练层输出的第三任务结果;所述第三任务结果是针对不存在真值的样本进行KL散度一致性预测得到的结果;
分别基于所述第一任务结果和预设的第一损失函数、所述第二任务结果和预设的第二损失函数、所述第三任务结果和第三损失函数计算梯度并更新所述信访文本分类模型的参数;
返回所述将多任务训练样本中的一个迷你批输入所述编码器的步骤,直至满足预设的迭代停止条件。
5.如权利要求1至4中任一项所述的基于多层级标签的信访文本分类方法,其特征在于,所述信访文本分类模型的训练样本包括补充样本集合;
所述补充样本集合包括伪真值样本、少数类别扩增样本、攻击负样本以及对抗样本中的任一者或任多者组合;
所述伪真值样本是指通过真值模型对无真值的样本数据进行预测后得到的、置信度满足预设条件的预测真值和样本数据对;所述真值模型是通过集成学习的方式训练得到的多个模型;
所述少数类别扩增样本是指针对少数类别进行过采样得到的样本;所述少数类别是指样本数量小于设定的第一阈值的第一标签和/或第二标签;
所述攻击负样本是指自开放域文本集合中选取的与存在真值的任一信访文本样本字面重合度大于设定的第二阈值的样本;
所述对抗样本是指在训练特征的负梯度方向增加预设的扰动,构造得到的样本;所述训练特征是指所述编码器提取预设样本得到的第一信访文本特征或者第二信访文本特征;
所述第一标签属于所述第一标签集合;所述第二标签属于任一第二标签集合。
6.如权利要求1至4中任一项所述的基于多层级标签的信访文本分类方法,其特征在于,所述提取信访文本中的重要句的步骤包括:
基于归一化后的第一分数和/或第二分数确定所述信访文本中句子的重要性分数;
所述第一分数是指所述信访文本中句子的句子特征相对于所述信访文本的文本整体特征的相似度分数;
所述第二分数基于如下任一者或任多者组合确定:
所述句子包括的实体词和/或预设的关键词的数量;
所述句子的权重;
所述句子在所述信访文本中的位置;
将所述重要性分数满足预设条件的所述句子提取为重要句;所述重要句的字符序列长度和不大于预设的模型输入序列上限。
7.一种基于多层级标签的信访文本分类装置,其特征在于,包括:
提取模块,用于提取信访文本中的重要句;所述重要句是指所述信访文本中符合预设条件的句子;
第一标签模块,用于以重要句组为输入运行分类模型,得到第一标签结果;所述重要句组包括一个或多个所述重要句;
第二标签模块,用于以预设的与所述第一标签结果一一对应的第二标签集合和所述重要句组为输入运行标签排序模型,得到第二标签结果;
所述分类模型和所述标签排序模型均是基于样本训练得到的深度学习模型的至少一部分,且所述分类模型中用于提取特征的至少一部分参数和所述标签排序模型中用于提取特征的至少一部分参数共享。
8.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的方法。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。
CN202211199296.5A 2022-09-29 2022-09-29 基于多层级标签的信访文本分类方法、装置、设备及介质 Active CN115408525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211199296.5A CN115408525B (zh) 2022-09-29 2022-09-29 基于多层级标签的信访文本分类方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211199296.5A CN115408525B (zh) 2022-09-29 2022-09-29 基于多层级标签的信访文本分类方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN115408525A true CN115408525A (zh) 2022-11-29
CN115408525B CN115408525B (zh) 2023-07-04

Family

ID=84167661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211199296.5A Active CN115408525B (zh) 2022-09-29 2022-09-29 基于多层级标签的信访文本分类方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115408525B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115801483A (zh) * 2023-02-10 2023-03-14 北京京能高安屯燃气热电有限责任公司 一种信息共享处理方法及系统
CN116910377A (zh) * 2023-09-14 2023-10-20 长威信息科技发展股份有限公司 一种网格事件分类搜索推荐方法及系统
CN117150026A (zh) * 2023-11-01 2023-12-01 智者四海(北京)技术有限公司 文本内容多标签分类方法与装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255128B (zh) * 2018-10-11 2023-11-28 北京小米移动软件有限公司 多层级标签的生成方法、装置和存储介质
CN110704624B (zh) * 2019-09-30 2021-08-10 武汉大学 一种地理信息服务元数据文本多层级多标签分类方法
CN114912433A (zh) * 2022-05-25 2022-08-16 亚信科技(中国)有限公司 文本层级多标签分类方法、装置、电子设备以及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115801483A (zh) * 2023-02-10 2023-03-14 北京京能高安屯燃气热电有限责任公司 一种信息共享处理方法及系统
CN116910377A (zh) * 2023-09-14 2023-10-20 长威信息科技发展股份有限公司 一种网格事件分类搜索推荐方法及系统
CN116910377B (zh) * 2023-09-14 2023-12-08 长威信息科技发展股份有限公司 一种网格事件分类搜索推荐方法及系统
CN117150026A (zh) * 2023-11-01 2023-12-01 智者四海(北京)技术有限公司 文本内容多标签分类方法与装置
CN117150026B (zh) * 2023-11-01 2024-01-26 智者四海(北京)技术有限公司 文本内容多标签分类方法与装置

Also Published As

Publication number Publication date
CN115408525B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
Swathi et al. An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis
CN113822494B (zh) 风险预测方法、装置、设备及存储介质
CN110162749B (zh) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN108717408B (zh) 一种敏感词实时监控方法、电子设备、存储介质及系统
CN115408525B (zh) 基于多层级标签的信访文本分类方法、装置、设备及介质
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN115952291B (zh) 基于多头自注意力及lstm的金融舆情分类方法及系统
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN111581368A (zh) 一种基于卷积神经网络的面向智能专家推荐的用户画像方法
CN116089873A (zh) 模型训练方法、数据分类分级方法、装置、设备及介质
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
Aziguli et al. A robust text classifier based on denoising deep neural network in the analysis of big data
CN115730597A (zh) 多级语义意图识别方法及其相关设备
Kiyak et al. Comparison of image-based and text-based source code classification using deep learning
CN115017879A (zh) 文本对比方法、计算机设备及计算机存储介质
Li et al. Multi-task deep learning model based on hierarchical relations of address elements for semantic address matching
CN113837307A (zh) 数据相似度计算方法、装置、可读介质及电子设备
CN117725211A (zh) 一种基于自构建提示模板的文本分类方法和系统
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
CN112528015B (zh) 在消息交互传播中进行谣言判别的方法及装置
CN115129863A (zh) 意图识别方法、装置、设备、存储介质和计算机程序产品
CN112925983A (zh) 一种电网资讯信息的推荐方法及系统
CN110019772B (zh) 一种文本情绪分类方法及系统
Rabby et al. Establishing a formal benchmarking process for sentiment analysis for the bangla language
CN115114910B (zh) 文本处理方法、装置、设备、存储介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant