CN115080750B - 基于融合提示序列的弱监督文本分类方法、系统和装置 - Google Patents

基于融合提示序列的弱监督文本分类方法、系统和装置 Download PDF

Info

Publication number
CN115080750B
CN115080750B CN202210980846.0A CN202210980846A CN115080750B CN 115080750 B CN115080750 B CN 115080750B CN 202210980846 A CN202210980846 A CN 202210980846A CN 115080750 B CN115080750 B CN 115080750B
Authority
CN
China
Prior art keywords
text
labeled
prompt
category label
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210980846.0A
Other languages
English (en)
Other versions
CN115080750A (zh
Inventor
杨非
陈岱渊
杨羿
钟昊文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210980846.0A priority Critical patent/CN115080750B/zh
Publication of CN115080750A publication Critical patent/CN115080750A/zh
Application granted granted Critical
Publication of CN115080750B publication Critical patent/CN115080750B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于融合提示序列的弱监督文本分类方法、系统和装置,包括如下步骤:步骤1:获取待标注文本和类别标签集合;步骤2:对待标注文本增加提示序列,提示序列中引入占位符,所述占位符表示需后序处理以预测该位置单词;本发明基于更符合现实应用的弱监督文本分类场景,极大地减少了文本分类任务中人工的介入,降低了不可避免的人工误差,极大地节约了标注成本,提高了标注效率;在不获得任何标注信息的情况下,通过对文本数据进行有效的预处理,以及充分利用预训练模型输出特征,在不微调超大预训练模型的情况下,实现自动标注精度的大幅度提升。

Description

基于融合提示序列的弱监督文本分类方法、系统和装置
技术领域
本发明涉及数据标注和文本分类技术领域,特别涉及一种基于融合提示序列的弱监督文本分类方法、系统和装置。
背景技术
随着大数据时代的迅猛到来,碎片化的文字信息每时每刻都在产生,并广泛存在于各个现实生活领域,如:新闻、评论、支付等。这些碎片化的信息需要被整理归类才能挖掘并提取其中隐藏的有用信息,以适用于下一步针对性应用。因此,文本分类是实现上述需求的技术基础。传统文本分类的实现,常采用全监督方法。该方法需获取大量已标注数据进行深度模型训练。但标注过程通常会花费大量的人力、财力和时间成本。
弱监督文本分类则更加贴近现实场景,这类方法仅要求获取待标注数据集和对应的类别标签集合,从而实现对整个数据集的分类。因为弱监督文本分类方法获取到的信息有限,因此这类方法常利用已学习到海量信息的预训练自然语言模型进行分类。但是,哪怕在有限待标注文本数据微调预训练模型所需算力也是极大的,如何基于有限算力实现高准确文本分类,是本发明的重点。
发明内容
本发明的目的在于提供一种基于融合提示序列的弱监督文本分类方法、系统和装置,以克服现有技术中的不足。
为实现上述目的,本发明提供如下技术方案:
本发明公开了一种基于融合提示序列的弱监督文本分类方法,包括如下步骤:
步骤1:获取待标注文本和类别标签集合;
步骤2:对待标注文本增加提示序列,在所述提示序列中引入占位符,所述占位符表示需后序处理以预测位置的单词;
步骤3:对处理后的待标注文本进行预处理,所述预处理包括分词和加入特殊符号,所述特殊符号包括分类符号和结束符号;
步骤4:确定并加载预训练自然语言模型;
步骤5:根据所述类别标签集合和预训练自然语言模型建立类别标签字典;
步骤6:根据所述处理后待标注文本和预训练自然语言模型,对待标注文本进行特征提取;
步骤7:将提示序列中占位符的特征概率按从大到小排序,选择前A个与所述类别标签字典重合的可能类别;
步骤8:将占位符和待标注文本中分类符号的特征进行融合,得到融合特征;
步骤9:将所述可能类别和所述融合特征进行加权k-means聚类,得到k个加权中心;
步骤10:根据所述类别标签字典,对同一类别对应加权中心求平均,得到平均加权中心;
步骤11:计算所述融合特征和平均加权中心余弦相似度距离,距离最小对应平均加权中心为所述待标注文本的标注结果。
作为优选的,所述步骤1包括对上传数据进行合法性判定,具体为:根据确定的预训练自然语言模型逐一对待标注文本进行长度判定,若超过长度上限,则提示相应错误;对待标注文本内容进行判断,对文本数据中是否含有乱码,是否存在多余空格,是否有拼写错误;对用户提供的类别标签集合的拼写合法性进行判断,若发现错误,则提示相应错误,等待继续输入,直到验证正确走下一步,否则就持续提示相应错误。
作为优选的,所述对待标注文本增加提示序列的方式为以下一种或多种方案相结合:
方案一:确定同一批待标注文本的话题领域,根据话题领域设计提示序列;
方案二:设计大众、泛化的提示序列。
作为优选的,所述步骤3中分词操作是将非结构化数据的待标注文本处理为结构数据,分词工具包括英文分词工具:Keras,Spacy,Gensim,NLTK;中文分词工具:Hanlp,IK,LTP,THULAC,ICTCLAS。
作为优选的,所述分类符号代表待标注文本的分类占位符,所述结束符号代表待标注文本的无意义占位符。
作为优选的,所述步骤4中预训练自然语言模型包括:BERT、AlBERT、RoBERTa、DistilBERT、XLNet、XLM。
作为优选的,所述步骤5中,所述预训练自然语言模型基于海量文本数据训练学习到文本的通用知识,所述通用知识包括文本中单词的近义词,所述预训练自然语言模型根据所述步骤1中获取的类别标签集合,每个类别标签生成的前M个近义词构成类别标签字典。
作为优选的,所述步骤7的具体过程为:将提示序列中占位符的特征通过softmax操作输出概率,得到单个待标注文本中每个单词对应的概率大小,结合所述类别标签字典,取前A个两个集合相同或相交单词为可能类别单词。
本发明公开了一种基于融合提示序列的弱监督文本分类系统,包括如下模块:
获取模块:用于获取用户上传的待标注文本数据和提供的类别标签集合,对上传数据进行合法性判定;
文本预处理模块:对所述待标注文本增加提示序列,并进行分词和加入特征符号操作和建立类别标签字典;
文本分类模块:确定并加载预训练自然语言模型,使用确定预训练自然语言模型对处理后的待标注文本数据进行分类输出标注结果;
文本标注模块:根据所述标注结果对待标注文本进行标注。
作为优选的,所述获取模块对上传数据进行合法性判定,主要包括:根据确定的预训练自然语言模型逐一对待标注文本进行长度判定,若超过长度上限,则提示相应错误;对待标注文本内容进行判断,对文本数据中是否含有乱码,是否存在多余空格,是否有拼写错误;对用户提供的类别标签集合的拼写合法性进行判断,若发现错误,则提示相应错误,等待继续输入,直到验证正确走下一步,否则就持续提示相应错误。
作为优选的,所述文本预处理模块增加提示序列的方式为以下一种或多种方案相结合:
方案一:确定同一批待标注文本的话题领域,根据话题领域设计提示序列;
方案二:设计大众、泛化的提示序列。
作为优选的,所述文本分类模块对所述处理后待标注文本数据进行分类输出标注结果的具体步骤如下:
步骤一:对待标注文本进行特征提取;
步骤二:将提示序列中占位符的特征概率按从大到小排序,选择前A个与所述类别标签字典重合的可能类别;
步骤三:将占位符和待标注文本中分类符号的特征进行融合;
步骤四:将所述可能类别和融合特征进行加权k-means聚类,得到k个加权中心;
步骤五:根据所述类别标签字典,对同一类别对应加权中心求平均,得到平均加权中心;
步骤六:计算所述融合特征和平均加权中心余弦相似度距离,距离最小对应平均加权中心为所述待标注文本的标注结果。
作为优选的,所述文本标注模块内置标注模块或外接标注模块对待标注文本进行标注,常用自然语言处理标注工具包括支持文本分类标注任务的第三方标注工具。
本发明还公开了一种基于融合提示序列的弱监督文本分类装置,所述装置包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现前述基于融合提示序列的弱监督文本分类方法。
本发明的有益效果:
1、本发明基于更符合现实应用的弱监督文本分类场景,极大地减少了文本分类任务中人工的介入,降低了不可避免的人工误差,极大地节约了标注成本,提高了标注效率;
2、在不获得任何标注信息的情况下,通过对文本数据进行有效的预处理,以及充分利用预训练模型输出特征,在不微调超大预训练模型的情况下,实现自动标注精度的大幅度提升;
3、以上特点在降低超大规模数据存储和传输成本的同时,减少了人工智能对于超大算力的依赖,保证了模型对于特定任务的泛化性能。
附图说明
图1是本发明一种基于融合提示序列的弱监督文本分类方法的流程图;
图2是本发明所述提示序列部分实例说明图;
图3是本发明一种基于融合提示序列的弱监督文本分类系统的结构图;
图4是本发明待标注文本,类别标签集合,类别标签字典部分实例说明图;
图5是本发明一种基于融合提示序列的弱监督文本分类装置的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
为减少基于全监督方法的文本分类方法的有限性和数据标注依赖性,降低弱监督文本分类方法对于算力的高要求,本发明提供了一种基于融合提示序列的弱监督文本分类方法、系统和装置,在不微调预训练自然语言模型,极大减少对数据标注依赖和算力需求的前提下,实现高准确分类结果。
如图1所示,本发明公开了一种基于融合提示序列的弱监督文本分类方法,包括如下步骤:
S1,获取待标注文本和类别标签集合;
具体地,为了后文能具体详细阐述方法步骤,在此分别用
Figure 780250DEST_PATH_IMAGE001
Figure 883336DEST_PATH_IMAGE002
,表示待标注文本和类别标签集合,其中N和K分别代表待标注文本大小和类别标签个数。
所述步骤S1还包括对上传数据进行合法性判定,具体为:根据确定的预训练自然语言模型逐一对待标注文本进行长度判定,若超过长度上限,则提示相应错误;对待标注文本内容进行判断,对文本数据中是否含有乱码,是否存在多余空格,是否有拼写错误;对用户提供的类别标签集合的拼写合法性进行判断,若发现错误,则提示相应错误,等待继续输入,直到验证正确走下一步,否则就持续提示相应错误。
S2,对待标注文本增加提示序列;
具体地,为了更清楚地说明所述提示序列,图2以表格形式举例了部分示例。通常而言,S1所获取的同一批待标注文通常是同一话题领域。因此可选地,可将提示序列大致分为大众,新闻,评论等类别,每个类别可以设计相关的提示序列,其中特殊符号[MASK]代表占位符,需要后序处理以预测该位置单词。通常认为,所述预测单词可以概括输入待标注文本的整体含义。在此用
Figure 183867DEST_PATH_IMAGE003
代表每个提示序列,J代表类别标签所设计的提示序列个数。因此,处理后的待标注文本表示为
Figure 452912DEST_PATH_IMAGE004
,代表由单个待标注文本
Figure 547907DEST_PATH_IMAGE005
增加提示序列
Figure 403868DEST_PATH_IMAGE006
得到。
所述对待标注文本增加提示序列的方式为以下一种或多种方案相结合:
方案一:确定同一批待标注文本的话题领域,根据话题领域设计提示序列;
方案二:设计大众、泛化的提示序列。
值得说明的是,图2所示部分实例仅是为了说明所述提示序列,没有限制其类别,内容和个数的含义。
S3,对处理后的待标注文本进行预处理;
具体地,文本预处理操作通常包含分词和加入特殊符号过程。分词操作是为了将非结构化数据的待标注文本处理为结构数据的过程,即将句子,段落等文本分解为字词单位,方便后续的处理和分析。可选地,分词工具可参考常用的英文分词工具:Keras,SpaCy,Gensim,NLTK等,中文分词工具:Hanlp,IK,LTP,THULAC,ICTCLAS等。
上述分词工具中:Keras是一个由Python编写的开源人工神经网络库;SpaCy是一个Python自然语言处理工具包;Gensim是一个用于从文档中自动提取语义主题的Python库;NLTK(Natural Language Toolkit)为自然语言处理工具包;Hanlp(Han LanguageProcessing )汉语言处理包;IK是一个开源的,基于 java 语言开发的轻量级的中文分词工具包;LTP(Language Technology Platform)语言技术平台,提供一系列中文自然语言处理工具;THULAC(THU Lexical Analyzer for Chinese)清华大学开发的一套中文词法分析工具包;ICTCLAS(Institute of Computing Technology, Chinese Lexical AnalysisSystem)汉语词法分析系统。
文本特殊符号通常为分类符号[CLS]和结束符号[SEP],前者代表这段文本的分类占位符,后者代表这段文本结束的无意义占位符。
S4,确定并加载预训练自然语言模型;
得益于开源社区的推动,目前已有较多头部公司开源了满足以上要求的性能优异的预训练自然语言模型。常用的预训练模型有:BERT、AlBERT、RoBERTa、DistilBERT、XLNet、XLM。
对于提出上述预训练模型的文献标题做出以下说明:BERT(BERT: Pre-trainingof Deep Bidirectional Transformers for Language Understanding);AlBERT(ALBERT:A Lite BERT for Self-supervised Learning of Language Representations);RoBERTa(RoBERTa: A Robustly Optimized BERT Pretraining Approach);DistilBERT(DistilBERT, a distilled version of BERT: smaller, faster, cheaper andlighter);XLNet(XLNet:Generalized Autoregressive Pretraining for LanguageUnderstanding);XLM(Cross-lingual Language Model Pretraining);
值得注意的是,同一开源预训练模型根据不同粒度的分词大小,可对应不同权重。为了保证文本分类精度,可根据实际应用场景,选择多个预训练模型或多种分词方法的结合,通过对分类结果求平均或求最大值或加权求和等方式,提高分类可信度。
在此,用E代表确定的预训练模型。
S5,根据所述类别标签集合和预训练模型建立类别标签字典;
具体地,所述预训练模型通常基于海量文本数据训练,学习到了这些文本的通用知识,比如:某个单词的近反义词等。因此,可根据S1所获取的类别标签集合,对于每个类别标签生成top-M(M可灵活设定)个近义词构成类别标签字典
Figure 242511DEST_PATH_IMAGE007
S6,根据所述处理后待标注文本和预训练模型,对待标注文本进行特征提取;
具体地,提取得到的特征表示为
Figure 867527DEST_PATH_IMAGE008
,其中
Figure 133423DEST_PATH_IMAGE009
代表某个位置
Figure 211101DEST_PATH_IMAGE010
对应的特征。
S7,将提示序列中[MASK]的特征概率按从大到小排序,选择top-A(A可灵活设定)个与所述类别标签字典重合的可能类别;
具体地,将特征通过softmax操作输出概率,得到xi中每个单词
Figure 119014DEST_PATH_IMAGE011
对应概率大小
Figure 598537DEST_PATH_IMAGE012
。所述单词数量根据所述确定的预训练模型而定,通常较大,超过M。结合所述类别标签字典
Figure 533869DEST_PATH_IMAGE013
,在此取前A个两个集合相同(相交)单词为可能类别单词。
S8,将[MASK]和待标注文本中[CLS]的特征进行融合;
具体地,将提示序列中[MASK]和特殊符号[CLS]特征进行相加得到
Figure 98843DEST_PATH_IMAGE014
,以使得两个能够概括文本整体含义的特征进行充分融合。
S9,将所述可能类别和所述融合特征进行加权k-means聚类,得到k个加权中心;
所述加权中心表示为,
Figure 544868DEST_PATH_IMAGE015
这里的
Figure 878897DEST_PATH_IMAGE016
表示S7中所选的所有可能类别单词概率的标准化。
S10,根据所述类别标签字典,对同一类别对应加权中心求平均,得到平均加权中心;
具体地,所述平均加权中心表示为
Figure 486596DEST_PATH_IMAGE017
S11,计算所述融合特征和平均加权中心余弦相似度距离,距离最小对应平均加权中心为所述待标注文本的标注结果。
具体计算过程为:
Figure 804445DEST_PATH_IMAGE018
,
Figure 523002DEST_PATH_IMAGE019
表示余弦相似度,
Figure 242696DEST_PATH_IMAGE020
表示待标注文本
Figure 21297DEST_PATH_IMAGE021
所对应的标注结果。
如图3所示,本发明公开了一种基于融合提示序列的弱监督文本分类系统,包括如下模块:
获取模块S101:用于获取用户上传待标注文本和类别标签集合,并确定和加载预训练自然语言模型。
具体地,获取模块S101可提前收集已离线收集性能优异的Top B(B可灵活设定)预训练自然语言模型,构成文本分类模型库。同时,所述模块还需对上传数据进行合法性判定,主要有:1)待标注文本长度。因预训练自然语言模型有处理文本长度上限,可根据确定的预训练模型逐一对待标注文本进行长度判定,若超过长度上限,则提示相应错误;2)待标注文本合法性。自然地,需要上传待标注文本内容进行判断,以文本数据中是否含有乱码,是否存在多余空格,是否拼写错误为主;3)类别标签合法性。自然地,文本分类结果需要是合理的单词,因此需要对用户提供的类别标签集合的拼写合法性进行判断,若发现错误,则提示相应错误。
文本预处理模块S102:对所述待标注文本增加提示序列;进行分词和加入特征符号操作;对建立类别标签字典。
可参考地,提示序列的设计方式可选择下述一种或多种方案相结合:
方案1. 先确定同一批待标注文本的话题领域,根据话题领域设计提示序列;
方案2. 设计大众、泛化的提示序列。
可选地,分词操作基于不同的分词细粒度,可分为字母,单词,短语级别。而特殊符号则常见为分类符号[CLS]和结束符号[SEP]。
为了更详细地说明待标注文本,类别标签集合,类别标签字典,图4以表格形式举例部分示例。其中所述类别标签字典是基于所述类别标签集合和所述确定预训练模型得到。
文本分类模块S103:根据所述处理后的待标注文本和确定的预训练模型,进行本文分类并输出标注结果。
具体地,首先,对待标注文本进行特征提取;然后,将提示序列中[MASK]的特征概率按从大到小排序,选择top-A个与所述类别标签字典重合的可能类别;接着,将[MASK]和待标注文本中[CLS]的特征进行融合;然后,将所述可能类别和所述融合特征进行加权k-means聚类,得到k个加权中心;接着,根据所述类别标签字典,对同一类别对应加权中心求平均,得到平均加权中心;最后,计算所述融合特征和平均加权中心余弦相似度距离,距离最小对应平均加权中心为所述待标注文本的标注结果。
可选地,为了保证文本分类准确度,可根据示例实际情况(如:处理器算力,标注速度等)确定多个预训练自然语言模型,通过对多个预训练模型标注结果求平均或求最大值或加权和等决策方式确定最终标注结果。
文本标注模块S104:根据标注结果对待标注文本进行标注。
可选地,具体文本标注方式可选择下述的一种或多种方案相结合:
方案1. 所述文本标注模块S104可内置标注模块。
方案2. 所述文本标注模块S103可外接标注模块。可选地,所述常用自然语言处理标注工具可选择Doccano,Prodigy,Chinese-Annotator等支持文本分类标注任务的第三方标注工具。
参见图5,本发明实施例还提供了一种基于融合提示序列的弱监督文本分类装置,还包括存储器和一个或多个处理器,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的基于融合提示序列的弱监督文本分类方法。
本发明一种基于融合提示序列的弱监督文本分类装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明一种基于融合提示序列的弱监督文本分类装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于融合提示序列的弱监督文本分类方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (13)

1.一种基于融合提示序列的弱监督文本分类方法,其特征在于:包括如下步骤:
步骤1:获取待标注文本和类别标签集合;
步骤2:对待标注文本增加提示序列,在所述提示序列中引入占位符,所述占位符表示需后序处理以预测位置的单词;
步骤3:对处理后的待标注文本进行预处理,所述预处理包括分词和加入特殊符号,所述特殊符号包括分类符号和结束符号;
步骤4:确定并加载预训练自然语言模型;
步骤5:根据所述类别标签集合和预训练自然语言模型建立类别标签字典;
步骤6:根据所述预处理后待标注文本和预训练自然语言模型,对待标注文本进行特征提取;
步骤7:将提示序列中占位符的特征概率按从大到小排序,选择前A个与所述类别标签字典重合的可能类别;
步骤8:将占位符和待标注文本中分类符号的特征进行融合,得到融合特征;
步骤9:将所述可能类别和所述融合特征进行加权k-means聚类,得到k个加权中心;
步骤10:根据所述类别标签字典,对同一类别对应加权中心求平均,得到平均加权中心;
步骤11:计算所述融合特征和平均加权中心余弦相似度距离,距离最小对应平均加权中心为所述待标注文本的标注结果。
2.如权利要求1所述的基于融合提示序列的弱监督文本分类方法,其特征在于:所述步骤1包括对上传数据进行合法性判定,具体为:根据确定的预训练自然语言模型逐一对待标注文本进行长度判定,若超过长度上限,则提示相应错误;对待标注文本内容进行判断,对文本数据中是否含有乱码,是否存在多余空格,是否有拼写错误;对用户提供的类别标签集合的拼写合法性进行判断,若发现错误,则提示相应错误,等待继续输入,直到验证正确走下一步,否则就持续提示相应错误。
3.如权利要求1所述的基于融合提示序列的弱监督文本分类方法,其特征在于:所述对待标注文本增加提示序列的方式为以下一种或多种方案相结合:
方案一:确定同一批待标注文本的话题领域,根据话题领域设计提示序列;
方案二:设计大众、泛化的提示序列。
4.如权利要求1所述的基于融合提示序列的弱监督文本分类方法,其特征在于:所述步骤3中分词操作是将非结构化数据的待标注文本处理为结构数据,分词工具包括英文分词工具:Keras,Spacy,Gensim,NLTK;中文分词工具:Hanlp,IK,LTP,THULAC,ICTCLAS。
5.如权利要求1所述的基于融合提示序列的弱监督文本分类方法,其特征在于:所述分类符号代表待标注文本的分类占位符,所述结束符号代表待标注文本的无意义占位符。
6.如权利要求1所述的基于融合提示序列的弱监督文本分类方法,其特征在于:所述步骤4中预训练自然语言模型包括:BERT、AlBERT、RoBERTa、DistilBERT、XLNet、XLM。
7.如权利要求1所述的一种基于融合提示序列的弱监督文本分类方法,其特征在于:所述步骤5中,所述预训练自然语言模型基于海量文本数据训练学习到文本的通用知识,所述通用知识包括文本中单词的近义词,所述预训练自然语言模型根据所述步骤1中获取的类别标签集合,每个类别标签生成的前M个近义词构成类别标签字典。
8.如权利要求1所述的基于融合提示序列的弱监督文本分类方法,其特征在于:所述步骤7的具体过程为:将提示序列中占位符的特征通过softmax操作输出概率,得到单个待标注文本中每个单词对应的概率大小,结合所述类别标签字典,取前A个两个集合相同或相交单词为可能类别单词。
9.一种基于融合提示序列的弱监督文本分类系统,其特征在于:包括如下模块:
获取模块:用于获取用户上传的待标注文本数据和提供的类别标签集合,对上传数据进行合法性判定;
文本预处理模块:对所述待标注文本增加提示序列,在所述提示序列中引入占位符,所述占位符表示需后序处理以预测位置的单词,并对处理后的待标注文本进行分词和加入特殊符号操作,所述特殊符号包括分类符号和结束符号;
文本分类模块:确定并加载预训练自然语言模型,根据类别标签集合和预训练自然语言模型建立类别标签字典;根据预处理后待标注文本和预训练自然语言模型,对待标注文本进行特征提取;将提示序列中占位符的特征概率按从大到小排序,选择前A个与所述类别标签字典重合的可能类别;将占位符和待标注文本中分类符号的特征进行融合,得到融合特征;将所述可能类别和所述融合特征进行加权k-means聚类,得到k个加权中心;根据所述类别标签字典,对同一类别对应加权中心求平均,得到平均加权中心;计算所述融合特征和平均加权中心余弦相似度距离,距离最小对应平均加权中心为所述待标注文本的标注结果;
文本标注模块:根据所述标注结果对待标注文本进行标注。
10.如权利要求9所述的基于融合提示序列的弱监督文本分类系统,其特征在于:所述获取模块对上传数据进行合法性判定,包括:根据确定的预训练自然语言模型逐一对待标注文本进行长度判定,若超过长度上限,则提示相应错误;对待标注文本内容进行判断,对文本数据中是否含有乱码,是否存在多余空格,是否有拼写错误;对用户提供的类别标签集合的拼写合法性进行判断,若发现错误,则提示相应错误,等待继续输入,直到验证正确走下一步,否则就持续提示相应错误。
11.如权利要求9所述的基于融合提示序列的弱监督文本分类系统,其特征在于:所述文本预处理模块增加提示序列的方式为以下一种或多种方案相结合:
方案一:确定同一批待标注文本的话题领域,根据话题领域设计提示序列;
方案二:设计大众、泛化的提示序列。
12.如权利要求9所述的基于融合提示序列的弱监督文本分类系统,其特征在于:所述文本标注模块内置标注模块或外接标注模块对待标注文本进行标注,标注模块包括支持文本分类标注任务的第三方标注工具。
13.一种基于融合提示序列的弱监督文本分类装置,其特征在于:所述装置包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-8任一项所述基于融合提示序列的弱监督文本分类方法。
CN202210980846.0A 2022-08-16 2022-08-16 基于融合提示序列的弱监督文本分类方法、系统和装置 Active CN115080750B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210980846.0A CN115080750B (zh) 2022-08-16 2022-08-16 基于融合提示序列的弱监督文本分类方法、系统和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210980846.0A CN115080750B (zh) 2022-08-16 2022-08-16 基于融合提示序列的弱监督文本分类方法、系统和装置

Publications (2)

Publication Number Publication Date
CN115080750A CN115080750A (zh) 2022-09-20
CN115080750B true CN115080750B (zh) 2022-11-08

Family

ID=83243976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210980846.0A Active CN115080750B (zh) 2022-08-16 2022-08-16 基于融合提示序列的弱监督文本分类方法、系统和装置

Country Status (1)

Country Link
CN (1) CN115080750B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116720501A (zh) * 2023-06-08 2023-09-08 广州大学 面向开源网络威胁情报的攻击实体及关系抽取方法及系统
CN116738298B (zh) * 2023-08-16 2023-11-24 杭州同花顺数据开发有限公司 一种文本分类方法、系统和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348345A (zh) * 2019-06-28 2019-10-18 西安交通大学 一种基于动作连贯性的弱监督时序动作定位方法
CN111737497A (zh) * 2020-06-30 2020-10-02 大连理工大学 基于多源语义表示融合的弱监督关系抽取方法
CN112861917A (zh) * 2021-01-14 2021-05-28 西北工业大学 基于图像属性学习的弱监督目标检测方法
CN113065341A (zh) * 2021-03-14 2021-07-02 北京工业大学 一种环境类投诉举报文本自动标注和分类方法
CN113283282A (zh) * 2021-03-10 2021-08-20 北京工业大学 一种基于时域语义特征的弱监督时序动作检测方法
CN113420707A (zh) * 2021-07-05 2021-09-21 神思电子技术股份有限公司 一种基于弱监督学习的视频目标检测方法
CN113505307A (zh) * 2021-09-06 2021-10-15 南京航空航天大学 一种基于弱监督增强的社交网络用户地域识别方法
CN114647732A (zh) * 2022-05-23 2022-06-21 之江实验室 一种面向弱监督文本分类系统、方法和装置
CN114880478A (zh) * 2022-06-07 2022-08-09 昆明理工大学 基于主题信息增强的弱监督方面类别检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9811761B2 (en) * 2015-08-28 2017-11-07 International Business Machines Corporation System, method, and recording medium for detecting video face clustering with inherent and weak supervision

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110348345A (zh) * 2019-06-28 2019-10-18 西安交通大学 一种基于动作连贯性的弱监督时序动作定位方法
CN111737497A (zh) * 2020-06-30 2020-10-02 大连理工大学 基于多源语义表示融合的弱监督关系抽取方法
CN112861917A (zh) * 2021-01-14 2021-05-28 西北工业大学 基于图像属性学习的弱监督目标检测方法
CN113283282A (zh) * 2021-03-10 2021-08-20 北京工业大学 一种基于时域语义特征的弱监督时序动作检测方法
CN113065341A (zh) * 2021-03-14 2021-07-02 北京工业大学 一种环境类投诉举报文本自动标注和分类方法
CN113420707A (zh) * 2021-07-05 2021-09-21 神思电子技术股份有限公司 一种基于弱监督学习的视频目标检测方法
CN113505307A (zh) * 2021-09-06 2021-10-15 南京航空航天大学 一种基于弱监督增强的社交网络用户地域识别方法
CN114647732A (zh) * 2022-05-23 2022-06-21 之江实验室 一种面向弱监督文本分类系统、方法和装置
CN114880478A (zh) * 2022-06-07 2022-08-09 昆明理工大学 基于主题信息增强的弱监督方面类别检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"A Weak Supervision Technique with a Generative Model for Improved Gene Clustering";Pratik Dutta et al.;《Congress on Evolutionary Computation》;20190808;全文 *
"基于弱监督深度学习的文本聚类算法及应用";谭敏 等;《计算机应用与软件》;20190430;全文 *

Also Published As

Publication number Publication date
CN115080750A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN115080750B (zh) 基于融合提示序列的弱监督文本分类方法、系统和装置
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN112732916A (zh) 一种基于bert的多特征融合模糊文本分类模型
CN111475650B (zh) 一种俄语语义角色标注方法、系统、装置以及存储介质
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN111832290A (zh) 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质
CN113191148A (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN115168541A (zh) 基于框架语义映射和类型感知的篇章事件抽取方法及系统
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN113987187A (zh) 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN115374786A (zh) 实体和关系联合抽取方法及装置、存储介质和终端
CN113486178B (zh) 文本识别模型训练方法、文本识别方法、装置以及介质
CN110888983B (zh) 一种正负面情感分析方法、终端设备及存储介质
CN116910251A (zh) 基于bert模型的文本分类方法、装置、设备及介质
CN116595023A (zh) 地址信息的更新方法和装置、电子设备及存储介质
CN116562291A (zh) 一种基于边界检测的中文嵌套命名实体识别方法
CN115713082A (zh) 一种命名实体识别方法、装置、设备及存储介质
CN114298041A (zh) 网络安全命名实体的识别方法及识别装置
CN114416991A (zh) 一种基于prompt的文本情感原因分析方法和系统
CN113962196A (zh) 一种简历处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant