CN115329723A - 基于小样本学习的用户圈层挖掘方法、装置、介质及设备 - Google Patents

基于小样本学习的用户圈层挖掘方法、装置、介质及设备 Download PDF

Info

Publication number
CN115329723A
CN115329723A CN202211264246.0A CN202211264246A CN115329723A CN 115329723 A CN115329723 A CN 115329723A CN 202211264246 A CN202211264246 A CN 202211264246A CN 115329723 A CN115329723 A CN 115329723A
Authority
CN
China
Prior art keywords
corpus
circle
labeled
small sample
sample learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211264246.0A
Other languages
English (en)
Inventor
牟昊
袁浩斌
何宇轩
徐亚波
李旭日
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Datastory Information Technology Co ltd
Original Assignee
Guangzhou Datastory Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Datastory Information Technology Co ltd filed Critical Guangzhou Datastory Information Technology Co ltd
Priority to CN202211264246.0A priority Critical patent/CN115329723A/zh
Publication of CN115329723A publication Critical patent/CN115329723A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于小样本学习的用户圈层挖掘方法、装置、介质及设备,所述方法包括:从网络平台中获取待处理语料集;对待处理语料集中的所有待处理语料进行圈层标注,获得标注语料集,标注语料集中的每一条标注语料对应标注了至少一个圈层名称,每一个圈层名称对应的标注语料的条数不小于预设条数阈值;对标注语料集进行数据增强处理,根据增强后的标注语料集对预设的小样本学习模型进行训练,获得训练后的小样本学习模型;根据训练后的小样本学习模型对用户账号下的待挖掘语料集进行分类,获得用户所属的圈层名称。采用本发明的技术方案无需耗费大量人力成本和时间成本,能够在短时间、低标注量的情况下实现快速挖掘用户圈层。

Description

基于小样本学习的用户圈层挖掘方法、装置、介质及设备
技术领域
本发明涉及互联网大数据处理技术领域,尤其涉及一种基于小样本学习的用户圈层挖掘方法、装置、计算机可读存储介质及终端设备。
背景技术
随着互联网和大数据技术的快速发展,如今的社交网络呈现出显著的移动化、本地化特征,社交网络的圈层作为一种用户的频繁活动范围,有利于分析用户在其所属圈层中的相关信息,因此,对用户所属圈层进行挖掘具有十分重要的意义,成为了企业营销数字化环节不可或缺的部分。
传统的用户圈层挖掘方案,大多使用的是规则类(例如正则表达式)的方式对人群进行打标,或者,人工大批量标注数据后使用机器学习训练判别模型,最终确定用户圈层。
但是,随着企业营销数字化转型以及大数据生态与应用的进展,用户圈层也在不断革新,基于传统方案进行圈层构建时,需要耗费大量人力成本调整规则以适应用户圈层的快速变化,或者,需要耗费大量人力标注成本和模型训练时间,均会导致企业无法快速挖掘用户的新圈层而错失商机,因此,开发一种能够支持快速挖掘用户圈层的方案变得十分关键。
发明内容
本发明实施例的目的在于,提供一种基于小样本学习的用户圈层挖掘方法、装置、计算机可读存储介质及终端设备,无需耗费大量人力成本和时间成本,能够在短时间、低标注量的情况下实现快速挖掘用户圈层。
为了实现上述目的,本发明实施例提供了一种基于小样本学习的用户圈层挖掘方法,包括:
从网络平台中获取待处理语料集;
对所述待处理语料集中的所有待处理语料进行圈层标注,获得标注语料集;其中,所述标注语料集中的每一条标注语料对应标注了至少一个圈层名称,每一个圈层名称对应的标注语料的条数不小于预设条数阈值;
对所述标注语料集进行数据增强处理,获得增强后的标注语料集;
根据所述增强后的标注语料集对预设的小样本学习模型进行训练,获得训练后的小样本学习模型;
根据所述训练后的小样本学习模型对用户账号下的待挖掘语料集进行分类,获得用户所属的圈层名称。
进一步地,所述从网络平台中获取待处理语料集,具体包括:
通过关键词搜索从网络平台中获取第一语料集;
通过账号搜索从网络平台中获取第二语料集;
根据所述第一语料集和所述第二语料集获得所述待处理语料集。
进一步地,所述对所述待处理语料集中的所有待处理语料进行圈层标注,获得标注语料集,具体包括:
对所述第一语料集中的所有待处理语料进行逐条标注,确定每一条待处理语料对应的圈层名称;
对所述第二语料集中的所有待处理语料进行逐条标注或一键标注,确定每一条待处理语料对应的圈层名称;
根据标注后的第一语料集和标注后的第二语料集获得所述标注语料集。
进一步地,所述根据标注后的第一语料集和标注后的第二语料集获得所述标注语料集,具体包括:
S21、对所述标注后的第一语料集和所述标注后的第二语料集中的标注语料进行合并去重处理;
S22、判断去重后的标注语料的条数是否满足以下条件:每一个圈层名称对应的标注语料的条数不小于预设条数阈值;
S23、若不满足,则继续从网络平台中获取新待处理语料集,对所述新待处理语料集中的所有新待处理语料进行圈层标注,获得新标注语料,对所述去重后的标注语料和所述新标注语料进行合并去重处理,并返回S22;
S24、若满足,则根据所述去重后的标注语料获得所述标注语料集。
进一步地,所述对所述标注语料集进行数据增强处理,获得增强后的标注语料集,具体包括:
将所述标注语料集中的每一个圈层名称对应的标注语料的X%,由当前语种翻译成第二语种,并由第二语种再翻译成当前语种,获得翻译语料,0<X≤100;
或/和,
将所述标注语料集中的标注语料两两拼接,并在拼接的两条标注语料对应的圈层名称不相同时,为拼接生成的一条标注语料标注新圈层名称,获得拼接语料;
根据所述标注语料集,并结合所述翻译语料或/和所述拼接语料,获得所述增强后的标注语料集。
进一步地,所述方法还包括:
当存在历史标注语料集时,对所述历史标注语料集和所述标注语料集进行合并去重处理,获得去重后的标注语料集;
则,所述对所述标注语料集进行数据增强处理,获得增强后的标注语料集,具体包括:
对所述去重后的标注语料集进行数据增强处理,获得所述增强后的标注语料集。
进一步地,所述小样本学习模型为基于Soft-Prompt实现的自适应模板模型,且模型底层为预训练语言模型和分类器;
则,所述根据所述增强后的标注语料集对预设的小样本学习模型进行训练,获得训练后的小样本学习模型,具体包括:
将所述增强后的标注语料集划分为训练集和验证集;
设置M个候选分类阈值,基于每一个候选分类阈值,分别根据所述训练集对所述预设的小样本学习模型进行训练,获得M个训练模型,M≥2;
根据所述验证集分别对每一个训练模型进行验证,获得M个验证结果;
根据每一个验证结果对应获取每一个训练模型的F1值,获得M个F1值,F1值为精确率和召回率的调和平均值;
确定所述M个F1值中的最大F1值,并将所述最大F1值对应的候选分类阈值作为最终分类阈值,将所述最大F1值对应的训练模型作为所述训练后的小样本学习模型。
进一步地,所述根据所述训练后的小样本学习模型对用户账号下的待挖掘语料集进行分类,获得用户所属的圈层名称,具体包括:
根据所述训练后的小样本学习模型对所述待挖掘语料集进行分类,确定所述待挖掘语料集中的每一条待挖掘语料对应的圈层名称;
计算所述用户账号下的每一个圈层名称对应的待挖掘语料的条数与所述待挖掘语料集中的所有待挖掘语料的条数的比值;
根据比值大于预设比值阈值的圈层名称确定用户所属的圈层名称。
进一步地,所述方法还包括:
当所述待挖掘语料集进行分类后的分类结果中,存在置信度大于预设置信度阈值的待挖掘语料时,将置信度大于预设置信度阈值的待挖掘语料作为增量训练数据;
当所述增量训练数据的数量大于预设数量阈值时,对所述增量训练数据进行数据增强处理,获得增强后的增量训练数据;
根据所述增强后的增量训练数据和所述增强后的标注语料集,对所述预设的小样本学习模型进行增量训练,获得增量训练后的小样本学习模型;
当所述增量训练后的小样本学习模型对应的F1值大于所述训练后的小样本学习模型对应的F1值时,用所述增量训练后的小样本学习模型替换所述训练后的小样本学习模型。
为了实现上述目的,本发明实施例还提供了一种基于小样本学习的用户圈层挖掘装置,用于实现上述任一项所述的基于小样本学习的用户圈层挖掘方法,所述装置包括:
语料集获取模块,用于从网络平台中获取待处理语料集;
语料圈层标注模块,用于对所述待处理语料集中的所有待处理语料进行圈层标注,获得标注语料集;其中,所述标注语料集中的每一条标注语料对应标注了至少一个圈层名称,每一个圈层名称对应的标注语料的条数不小于预设条数阈值;
标注语料增强模块,用于对所述标注语料集进行数据增强处理,获得增强后的标注语料集;
模型训练模块,用于根据所述增强后的标注语料集对预设的小样本学习模型进行训练,获得训练后的小样本学习模型;
用户圈层挖掘模块,用于根据所述训练后的小样本学习模型对用户账号下的待挖掘语料集进行分类,获得用户所属的圈层名称。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的基于小样本学习的用户圈层挖掘方法。
本发明实施例还提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现上述任一项所述的基于小样本学习的用户圈层挖掘方法。
与现有技术相比,本发明实施例提供了一种基于小样本学习的用户圈层挖掘方法、装置、计算机可读存储介质及终端设备,首先,从网络平台中获取待处理语料集,并对所述待处理语料集中的所有待处理语料进行圈层标注,获得标注语料集,所述标注语料集中的每一条标注语料对应标注了至少一个圈层名称,每一个圈层名称对应的标注语料的条数不小于预设条数阈值;接着,对所述标注语料集进行数据增强处理,获得增强后的标注语料集,并根据所述增强后的标注语料集对预设的小样本学习模型进行训练,获得训练后的小样本学习模型;最后,根据所述训练后的小样本学习模型对用户账号下的待挖掘语料集进行分类,获得用户所属的圈层名称;从而无需耗费大量人力成本和时间成本,就能够在短时间、低标注量的情况下实现快速挖掘用户圈层。
附图说明
图1是本发明提供的一种基于小样本学习的用户圈层挖掘方法的一个优选实施例的流程图;
图2是本发明提供的一种获取标注语料集的一个优选实施例的流程图;
图3是本发明提供的一种基于小样本学习的用户圈层挖掘装置的一个优选实施例的结构框图;
图4是本发明提供的一种终端设备的一个优选实施例的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本技术领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种基于小样本学习的用户圈层挖掘方法,参见图1所示,是本发明提供的一种基于小样本学习的用户圈层挖掘方法的一个优选实施例的流程图,所述方法包括步骤S11至步骤S15:
步骤S11、从网络平台中获取待处理语料集。
具体的,可以通过自动化爬取数据,从社媒平台等网络平台中获取待处理语料集,该待处理语料集中的待处理语料至少为文本数据。
步骤S12、对所述待处理语料集中的所有待处理语料进行圈层标注,获得标注语料集;其中,所述标注语料集中的每一条标注语料对应标注了至少一个圈层名称,每一个圈层名称对应的标注语料的条数不小于预设条数阈值。
具体的,分别对上述待处理语料集中的每一条待处理语料进行圈层标注,以标注每一条待处理语料所对应的圈层名称,一条待处理语料经过圈层标注之后对应形成一条标注语料,上述待处理语料集中的所有待处理语料均经过圈层标注之后,相应形成标注语料集。
可以理解的,由于每一条待处理语料所对应的圈层可能不止一个,因此,经过圈层标注之后,该标注语料集中的每一条标注语料对应标注了至少一个圈层名称;例如,根据某一条待处理语料的具体内容可知,这条待处理语料既属于美容圈,又属于美妆圈,则经过圈层标注之后,对应形成的标注语料就标注了两个圈层名称,即包括“美容圈”和“美妆圈”。
此外,由于在下述步骤中,需要基于该标注语料集对预设的小样本学习模型进行训练,因此,为了满足小样本学习模型的训练需求,该标注语料集中的每一个圈层名称所对应的标注语料的条数不小于预设条数阈值;例如,每一个圈层名称所对应的标注语料的条数不小于30条。
需要说明的是,圈层名称可以由用户自定义,并且用户在标注键入一个圈层名称时,可以在数据库(已存储有历史键入的圈层名称)中根据编辑距离检索当前键入的圈层名称是否与已存在的圈层名称相似,以判断当前键入的圈层名称是否为新增圈层名称;例如,当编辑距离小于3个字符时,提示“已存在相似圈层”,此时,用户需要再次确认是否将当前键入的圈层名称设置新增圈层名称,若是,则直接将当前键入的圈层名称存储到数据库中,以便在圈层标注过程中直接使用该新增圈层名称,若否,则舍弃当前键入的圈层名称;当编辑距离大于或等于3个字符时,说明数据库中不存在相似圈层,可以直接将当前键入的圈层名称设置新增圈层名称。
步骤S13、对所述标注语料集进行数据增强处理,获得增强后的标注语料集。
步骤S14、根据所述增强后的标注语料集对预设的小样本学习模型进行训练,获得训练后的小样本学习模型。
具体的,在获得上述标注语料集之后,由于需要基于上述标注语料集对预设的小样本学习模型进行训练,因此,为了防止获得的训练后的小样本学习模型过拟合训练数据集(即上述标注语料集),不能直接将上述标注语料集作为训练数据集,可以先对上述标注语料集进行数据增强处理,相应获得增强后的标注语料集,再将增强后的标注语料集作为训练数据集,根据增强后的标注语料集对预设的小样本学习模型进行训练,相应获得训练后的小样本学习模型,从而提高模型的鲁棒性和泛化性。
步骤S15、根据所述训练后的小样本学习模型对用户账号下的待挖掘语料集进行分类,获得用户所属的圈层名称。
具体的,在获得训练后的小样本学习模型之后,可以将训练后的小样本学习模型应用于网络平台中的所有用户账号下的历史发文;对于任意一个用户账号下的待挖掘语料集(即该用户账号下的历史发文),利用训练后的小样本学习模型就可以对待挖掘语料集中的每一条待挖掘语料进行分类,相应获得每一条待挖掘语料所对应的圈层名称,对待挖掘语料集中的所有待挖掘语料所对应的圈层名称进行类别统计,即可确定用户所属的圈层名称。
需要说明的是,用户所属的圈层名称包括至少一个圈层名称,具体数量不设上限,也可以根据实际需求进行筛选。
本发明实施例所提供的一种基于小样本学习的用户圈层挖掘方法,通过自动化爬取数据和小批量的数据标注,并结合使用小样本学习模型,能够实现从数据预处理到数据预测的全自动端到端的基于小样本学习的圈层识别流程,在该圈层识别流程中,根据自定义圈层,在海量数据语料中只需标注少量数据语料,输入到小样本学习模型中,即可在低资源、低标注量的情况下快速构建算法模型并应用到全量数据,快速挖掘用户所属圈层,特别是挖掘用户的新圈层(可以自定义新圈层);相较于传统的规则类方案,该圈层识别流程不需要耗费大量人力成本调整规则以适应在社媒上变化极快的用户圈层;相较于大批量标注方式(对于单一圈层,往往至少需要上百条标注语料甚至更多,才能达到可用效果),该圈层识别流程使用了小样本学习,只需要数十条标注语料即可,极大减少了人力标注成本和模型训练时间;因此,无需耗费大量人力成本和时间成本,本发明实施例提供的技术方案就能够在短时间、低标注量的情况下实现快速挖掘用户圈层。
在另一个优选实施例中,所述从网络平台中获取待处理语料集,具体包括:
通过关键词搜索从网络平台中获取第一语料集;
通过账号搜索从网络平台中获取第二语料集;
根据所述第一语料集和所述第二语料集获得所述待处理语料集。
具体的,结合上述实施例,在从网络平台中获取上述待处理语料集时,用户可以通过可视化界面,通过关键词搜索和账号搜索,相应获得上述待处理语料集;其中,关键词搜索,是一种用户自定义待挖掘圈层(特别是新圈层)的具体做法,用户可以根据实际需要相对准确的提出与待挖掘圈层的相关性较高的关键词,通过关键词在网络平台中进行搜索,相应获得一批与待挖掘圈层相关的语料,即获得第一语料集;账号搜索,用户可以通过向网络平台键入账号ID,系统将自动化爬取数据,尽可能多的获取账号ID的公开信息,包括但不限于账号ID所对应的历史发文、账号关注列表等,即获得第二语料集;相应的,将获得的第一语料集和第二语料集进行汇总,即可获得上述待处理语料集。
需要说明的是,针对关键词搜索和账号搜索,可以根据实际需要只选择使用其中的一种语料获取方式,也可以同时选择这两种语料获取方式,本发明实施例不作具体限定。
在又一个优选实施例中,所述对所述待处理语料集中的所有待处理语料进行圈层标注,获得标注语料集,具体包括:
对所述第一语料集中的所有待处理语料进行逐条标注,确定每一条待处理语料对应的圈层名称;
对所述第二语料集中的所有待处理语料进行逐条标注或一键标注,确定每一条待处理语料对应的圈层名称;
根据标注后的第一语料集和标注后的第二语料集获得所述标注语料集。
具体的,结合上述实施例,在同时选择关键词搜索和账号搜索这两种语料获取方式的基础上,对于通过关键词搜索获得的第一语料集,可以对第一语料集中的每一条待处理语料进行逐条标注,以确定每一条待处理语料所对应的圈层名称,相应获得标注后的第一语料集;例如,用户可以通过可视化界面,点击每条文本,逐条查看文本内容,并输入对于的圈层名称,实现逐条标注;对于通过账号搜索获得的第二语料集,可以对第二语料集中的每一条待处理语料进行逐条标注,以确定每一条待处理语料所对应的圈层名称,也可以对第二语料集中的所有待处理语料进行一键标注,此时每一条待处理语料所对应的圈层名称相同,相应获得标注后的第二语料集;例如,用户通过查看社媒账号简介等信息,综合业务经验判断账号是否属于待挖掘圈层,若属于,则将该账号标注为待挖掘圈层,同时,该账号小的所有历史发文都会被标注为待挖掘圈层,实现一键标注;相应的,将获得的标注后的第一语料集和标注后的第二语料集进行汇总,即可获得上述标注语料集。
示例性的,假设在已有圈层名称“美容圈”和“美妆圈”的基础上,新增用户自定义的圈层名称“游戏圈”:
在通过关键词搜索获取文本数据时,用户需要在可视化界面中输入用户认为和“游戏圈”高度相关的关键词,例如,可以使用“PS5、任天堂、PlayStation”关键词进行搜索,相应获得若干条文本数据,对这若干条文本数据进行逐条标注,即可对应获得若干条标注数据;可以理解的,对于这若干条文本数据,即使是根据游戏相关的关键词搜索获得的,在实际圈层标注时,仍然需要结合实际文本内容判断每一条文本数据是否属于“游戏圈”,若属于,则将对应的文本数据标注为“游戏圈”,若不属于,则不能标注为“游戏圈”,也就是说,可能存在标注的圈层名称与关键词无关的情况;
在通过账号搜索获取文本数据时,用户可以通过指定社媒账号ID,触发自动化数据爬取,获取社媒账号的公开信息,包括用户名称、用户简介、用户粉丝数、用户关注数以及近3个月发文,根据账号信息,用户综合业务经验判定该社媒账号是否属于“游戏圈”,若属于,则标注该社媒账号为“游戏圈”,此时该社媒账号下的近3个月历史发文都会被标注为“游戏圈”,若不能根据账号信息判断该社媒账号是否属于“游戏圈”,可以对发文文本数据进行逐条标注;可以理解的,一键标注的方法一般适用于垂直类社媒账号,如游戏厂商的官方账号和游戏类网络红人账号等。
参见图2所示,是本发明提供的一种获取标注语料集的一个优选实施例的流程图,作为上述方案的改进,所述根据标注后的第一语料集和标注后的第二语料集获得所述标注语料集,具体包括步骤S21至步骤S24:
步骤S21、对所述标注后的第一语料集和所述标注后的第二语料集中的标注语料进行合并去重处理;
步骤S22、判断去重后的标注语料的条数是否满足以下条件:每一个圈层名称对应的标注语料的条数不小于预设条数阈值;
步骤S23、若不满足,则继续从网络平台中获取新待处理语料集,对所述新待处理语料集中的所有新待处理语料进行圈层标注,获得新标注语料,对所述去重后的标注语料和所述新标注语料进行合并去重处理,并返回步骤S22;
步骤S24、若满足,则根据所述去重后的标注语料获得所述标注语料集。
具体的,结合上述实施例,由于为了满足小样本学习模型的训练需求,上述标注语料集需要满足以下条件:上述标注语料集中的每一个圈层名称所对应的标注语料的条数不小于预设条数阈值,因此,在根据标注后的第一语料集和标注后的第二语料集获得上述标注语料集时,需要先对标注后的第一语料集中的标注语料和标注后的第二语料集中的标注语料进行合并去重处理,再判断去重后的所有标注语料的条数是否满足条件“每一个圈层名称对应的标注语料的条数不小于预设条数阈值”;若不满足,则继续从网络平台中获取新待处理语料集,对新待处理语料集中的所有新待处理语料进行圈层标注,获得新标注语料,对去重后的标注语料和新标注语料进行合并去重处理,并继续判断此时去重后的所有标注语料的条数是否满足条件“每一个圈层名称对应的标注语料的条数不小于预设条数阈值”,以此类推,直至满足条件“每一个圈层名称对应的标注语料的条数不小于预设条数阈值”时为止,若满足条件“每一个圈层名称对应的标注语料的条数不小于预设条数阈值”,则根据此时去重后的标注语料获得上述标注语料集。
示例性的,假设基于关键词搜索对应获得N1条标注语料,基于账号搜索对应获得N2条标注语料,对N1条标注语料和N2条标注语料进行汇总,并进行去重处理,共获得N条标注语料,统计标注语料所对应的圈层名称,判断每一个圈层名称对应的标注语料的条数是否达到了小样本学习模型要求的最小值,例如,要求每一个圈层名称对应的标注语料的条数不小于30条,若某一个圈层名称对应的标注语料的条数小于30条,不满足要求,则用户可以使用其他相关的关键词和其他账号ID重新获取语料并标注语料,即重复执行上述类似的处理过程,直至满足要求为止。
在又一个优选实施例中,所述对所述标注语料集进行数据增强处理,获得增强后的标注语料集,具体包括:
将所述标注语料集中的每一个圈层名称对应的标注语料的X%,由当前语种翻译成第二语种,并由第二语种再翻译成当前语种,获得翻译语料,0<X≤100;
或/和,
将所述标注语料集中的标注语料两两拼接,并在拼接的两条标注语料对应的圈层名称不相同时,为拼接生成的一条标注语料标注新圈层名称,获得拼接语料;
根据所述标注语料集,并结合所述翻译语料或/和所述拼接语料,获得所述增强后的标注语料集。
具体的,结合上述实施例,在对上述标注语料集进行数据增强处理时,可以采用以下两种方式中的至少一种进行数据增强:
(1)回译法,将上述标注语料集中的每一个圈层名称所对应的标注语料的X%,由当前语种翻译成第二语种,再由第二语种翻译回当前语种,从而获得翻译语料,其中,0<X≤100;例如,假设当前语种为汉语,第二语种为英语,可以在上述标注语料集中的每一个圈层名称所对应的标注语料中,抽取20%的标注语料,将这20%的标注语料翻译成英语标注语料之后,再将英语标注语料翻译成汉语标注语料;
(2)组合法,将上述标注语料集中的标注语料进行两两拼接,任意两条标注语料进行文本拼接后会对应生成一条新的标注语料,若进行拼接的两条标注语料所对应的圈层名称相同,则对应拼接生成的一条标注语料所对应的圈层名称与之相同,若进行拼接的两条标注语料所对应的圈层名称不相同,则为对应拼接生成的一条标注语料标注新圈层名称,新圈层名称可以为两者组合,从而获得拼接语料;例如,假设标注语料A所对应的圈层名称为“美容圈”,标注语料B所对应的圈层名称为“游戏圈”,则拼接生成的标注语料A+B所对应的圈层名称为“美容圈+游戏圈”;
相应的,若只选择方式(1)进行数据增强,则可以根据上述标注语料集中的所有的标注语料和获得的翻译语料,相应获得增强后的标注语料集;若只选择方式(2)进行数据增强,则可以根据上述标注语料集中的所有的标注语料和获得的拼接语料,相应获得增强后的标注语料集;若同时选择方式(1)和方式(2)进行数据增强,则可以根据上述标注语料集中的所有的标注语料。获得的翻译语料和拼接语料,相应获得增强后的标注语料集。
在又一个优选实施例中,所述方法还包括:
当存在历史标注语料集时,对所述历史标注语料集和所述标注语料集进行合并去重处理,获得去重后的标注语料集;
则,所述对所述标注语料集进行数据增强处理,获得增强后的标注语料集,具体包括:
对所述去重后的标注语料集进行数据增强处理,获得所述增强后的标注语料集。
具体的,结合上述实施例,在对上述标注语料集进行数据增强处理之前,可以先判断是否存在历史标注语料集,例如,假设已有“美容圈”和“美妆圈”所对应的历史标注语料,且上述标注语料集为待挖掘的“游戏圈”所对应的标注语料集,则可以判定存在历史标注语料集,在此基础上,可以对历史标注语料集中的所有的标注语料和上述标注语料集中的所有的标注语料进行合并去重处理,从而获得去重后的标注语料集,相应的,在进行数据增强处理时,实际上是对去重后的标注语料集进行数据增强处理(具体采用的数据增强处理方式如上述实施例所述,这里不再赘述),相应获得增强后的标注语料集。
在又一个优选实施例中,所述小样本学习模型为基于Soft-Prompt实现的自适应模板模型,且模型底层为预训练语言模型和分类器;
则,所述根据所述增强后的标注语料集对预设的小样本学习模型进行训练,获得训练后的小样本学习模型,具体包括:
将所述增强后的标注语料集划分为训练集和验证集;
设置M个候选分类阈值,基于每一个候选分类阈值,分别根据所述训练集对所述预设的小样本学习模型进行训练,获得M个训练模型,M≥2;
根据所述验证集分别对每一个训练模型进行验证,获得M个验证结果;
根据每一个验证结果对应获取每一个训练模型的F1值,获得M个F1值,F1值为精确率和召回率的调和平均值;
确定所述M个F1值中的最大F1值,并将所述最大F1值对应的候选分类阈值作为最终分类阈值,将所述最大F1值对应的训练模型作为所述训练后的小样本学习模型。
需要说明的是,本发明实施例所使用的小样本学习模型为基于Soft-Prompt实现的自适应模板模型,是一种基于自动构建模板的Soft-Prompt Tuning模型,并且模型底层依赖于大规模中文预训练语言模型(例如BERT模型)和分类器,将文本输入预训练语言模型进行处理之后,得到文本的语义表征向量,在此表征向量的前面拼接随机初始化得到的固定长度的模板向量,大规模中文预训练语言模型对拼接后的表征向量进行Self-Attention操作得到用于分类的[CLS]token,分类器对此token进行分类,即可将输入文本划分到“美容圈”、“美妆圈”、“游戏圈”中概率最大的一类。
其中,自适应模板是指在模型训练时,不断对模板向量进行更新,而输入文本的语义表征向量不更新;随机初始化是指向量矩阵的值根据正态分布生成,固定长度值的向量矩阵的形状固定,例如,表征向量矩阵形状为256*768,随机初始化得到的模板向量矩阵形状为7*768,则拼接后的表征向量矩阵形状为263*768。
具体的,结合上述实施例,在根据上述增强后的标注语料集对预设的小样本学习模型进行训练时,可以将上述增强后的标注语料集划分为训练集和验证集,并设置M个(M≥2)候选分类阈值,针对每一个候选分类阈值,先根据训练集对预设的小样本学习模型进行训练,对应获得M个训练模型(一个候选分类阈值对应一个训练模型),再根据验证集分别对每一个训练模型进行验证,对应获得M个验证结果(一个训练模型对应一个验证结果),接着,根据每一个验证结果对应计算获得每一个训练模型的F1值,对应获得M个F1值(一个验证结果对应一个训练模型的F1值),F1值为精确率和召回率的调和平均值,最后,确定获得的M个F1值中的最大F1值,并将最大F1值所对应的候选分类阈值作为最终分类阈值,将最大F1值所对应的训练模型作为上述训练后的小样本学习模型。
示例性的,候选分类阈值可以在0.4~0.9的范围内进行选取,假设M=6,即有6个候选分类阈值,分别为0.4、0.5、0.6、0.7、0.8和0.9:
当候选分类阈值为0.4时,根据训练集对预设的小样本学习模型进行训练,获得训练模型1(在模型训练过程中,若文本属于某个圈层的概率大于候选分类阈值0.4,则被划分到该圈层中,并且一条文本可以被划分到多个圈层),根据验证集对训练模型1进行验证,获得验证结果1,根据验证结果1计算获得训练模型1的F1值;
当候选分类阈值为0.5时,根据训练集对预设的小样本学习模型进行训练,获得训练模型2(在模型训练过程中,若文本属于某个圈层的概率大于候选分类阈值0.5,则被划分到该圈层中,并且一条文本可以被划分到多个圈层),根据验证集对训练模型2进行验证,获得验证结果2,根据验证结果2计算获得训练模型2的F1值;
同理,当候选分类阈值为0.6时,相应获得训练模型3以及训练模型3的F1值;当候选分类阈值为0.7时,相应获得训练模型4以及训练模型4的F1值;当候选分类阈值为0.8时,相应获得训练模型5以及训练模型5的F1值;当候选分类阈值为0.9时,相应获得训练模型6以及训练模型6的F1值;
比较训练模型1的F1值、训练模型2的F1值、训练模型3的F1值、训练模型4的F1值、训练模型5的F1值和训练模型6的F1值的大小,假设训练模型2的F1值最大,则将候选分类阈值0.5作为最终分类阈值,并将训练模型2作为训练后的小样本学习模型。
需要说明的是,相较于传统的微调式模型训练,本发明实施例中的模型更新参数大大减少,所需数据量、计算资源(如GPU数量、单卡显存)也大幅降低,从而能够实现低资源下的文本语料分类。
在又一个优选实施例中,所述根据所述训练后的小样本学习模型对用户账号下的待挖掘语料集进行分类,获得用户所属的圈层名称,具体包括:
根据所述训练后的小样本学习模型对所述待挖掘语料集进行分类,确定所述待挖掘语料集中的每一条待挖掘语料对应的圈层名称;
计算所述用户账号下的每一个圈层名称对应的待挖掘语料的条数与所述待挖掘语料集中的所有待挖掘语料的条数的比值;
根据比值大于预设比值阈值的圈层名称确定用户所属的圈层名称。
具体的,结合上述实施例,在根据上述训练后的小样本学习模型对用户账号下的待挖掘语料集进行分类时,可以先根据上述训练后的小样本学习模型对该用户账号下的待挖掘语料集进行分类,以确定待挖掘语料集中的每一条待挖掘语料所对应的圈层名称,再计算该用户账号下的每一个圈层名称所对应的待挖掘语料的条数与待挖掘语料集中的所有待挖掘语料的条数的比值,以根据每一个圈层名称所对应的待挖掘语料的占比情况确定用户所属的圈层名称,例如,将比值大于预设比值阈值的圈层名称确定为用户所属的圈层名称。
示例性的,假设预设比值阈值=20%,通过训练后的小样本学习模型对某个社媒账号下的所有发文文本进行分类,对分类获得的各个圈层名称进行统计,当该社媒账号下的属于“游戏圈”的文本数与该社媒账号下的发文总数的比值超过20%时,确定该社媒账号所属的圈层名称为“游戏圈”,则该社媒账号被打上“游戏圈”的标注。
在又一个优选实施例中,所述方法还包括:
当所述待挖掘语料集进行分类后的分类结果中,存在置信度大于预设置信度阈值的待挖掘语料时,将置信度大于预设置信度阈值的待挖掘语料作为增量训练数据;
当所述增量训练数据的数量大于预设数量阈值时,对所述增量训练数据进行数据增强处理,获得增强后的增量训练数据;
根据所述增强后的增量训练数据和所述增强后的标注语料集,对所述预设的小样本学习模型进行增量训练,获得增量训练后的小样本学习模型;
当所述增量训练后的小样本学习模型对应的F1值大于所述训练后的小样本学习模型对应的F1值时,用所述增量训练后的小样本学习模型替换所述训练后的小样本学习模型。
具体的,结合上述实施例,在根据上述训练后的小样本学习模型对用户账号下的待挖掘语料集进行分类,相应获得的分类结果中,可以判断是否存在置信度(预测概率)大于预设置信度阈值(例如预设置信度阈值=0.9)的分类结果,若存在,则将置信度大于预设置信度阈值的分类结果所对应的待挖掘语料作为增量训练数据,以用作下一轮的模型增量训练,并且只有在每一个圈层名称对应的增量训练数据的数量均大于预设数量阈值(例如预设数量阈值=10)时,才触发模型的增量训练,因为经过测试,增量训练数据的数量小于预设数量阈值时,对模型训练效果并没有增益。
相应的,在触发模型的增量训练时,先对增量训练数据进行数据增强处理(具体采用的数据增强处理方式如上述实施例所述,这里不再赘述),相应获得增强后的增量训练数据,并根据获得的增强后的增量训练数据和上述增强后的标注语料集,对预设的小样本学习模型进行增量训练,获得增量训练后的小样本学习模型(具体采用的模型训练方式与上述实施例所述类似,这里不再赘述),结合上实施例可知,增量训练后的小样本学习模型也会对应一个F1值,则将增量训练后的小样本学习模型所对应的F1值与上述训练后的小样本学习模型所对应的F1值进行比较,当判定增量训练后的小样本学习模型所对应的F1值大于上述训练后的小样本学习模型所对应的F1值时,说明增强训练前后,在验证集上的精确率和召回率有提升,因此,用增量训练后的小样本学习模型替换上述训练后的小样本学习模型,以在下一次挖掘用户所属圈层时,使用增量训练后的小样本学习模型进行相应处理。
本发明实施例还提供了一种基于小样本学习的用户圈层挖掘装置,用于实现上述任一实施例所述的基于小样本学习的用户圈层挖掘方法,参见图3所示,是本发明提供的一种基于小样本学习的用户圈层挖掘装置的一个优选实施例的结构框图,所述装置包括:
语料集获取模块,用于从网络平台中获取待处理语料集;
语料圈层标注模块,用于对所述待处理语料集中的所有待处理语料进行圈层标注,获得标注语料集;其中,所述标注语料集中的每一条标注语料对应标注了至少一个圈层名称,每一个圈层名称对应的标注语料的条数不小于预设条数阈值;
标注语料增强模块,用于对所述标注语料集进行数据增强处理,获得增强后的标注语料集;
模型训练模块,用于根据所述增强后的标注语料集对预设的小样本学习模型进行训练,获得训练后的小样本学习模型;
用户圈层挖掘模块,用于根据所述训练后的小样本学习模型对用户账号下的待挖掘语料集进行分类,获得用户所属的圈层名称。
优选地,所述语料集获取模块具体包括:
第一语料集获取单元,用于通过关键词搜索从网络平台中获取第一语料集;
第二语料集获取单元,用于通过账号搜索从网络平台中获取第二语料集;
待处理语料集获取单元,用于根据所述第一语料集和所述第二语料集获得所述待处理语料集。
优选地,所述语料圈层标注模块具体包括:
第一语料标注单元,用于对所述第一语料集中的所有待处理语料进行逐条标注,确定每一条待处理语料对应的圈层名称;
第二语料标注单元,用于对所述第二语料集中的所有待处理语料进行逐条标注或一键标注,确定每一条待处理语料对应的圈层名称;
标注语料集获取单元,用于根据标注后的第一语料集和标注后的第二语料集获得所述标注语料集。
优选地,所述标注语料集获取单元根据标注后的第一语料集和标注后的第二语料集获得所述标注语料集,具体包括:
S21、对所述标注后的第一语料集和所述标注后的第二语料集中的标注语料进行合并去重处理;
S22、判断去重后的标注语料的条数是否满足以下条件:每一个圈层名称对应的标注语料的条数不小于预设条数阈值;
S23、若不满足,则继续从网络平台中获取新待处理语料集,对所述新待处理语料集中的所有新待处理语料进行圈层标注,获得新标注语料,对所述去重后的标注语料和所述新标注语料进行合并去重处理,并返回S22;
S24、若满足,则根据所述去重后的标注语料获得所述标注语料集。
优选地,所述标注语料增强模块,具体包括:
第一语料增强单元,用于将所述标注语料集中的每一个圈层名称对应的标注语料的X%,由当前语种翻译成第二语种,并由第二语种再翻译成当前语种,获得翻译语料,0<X≤100;
或/和,
第二语料增强单元,用于将所述标注语料集中的标注语料两两拼接,并在拼接的两条标注语料对应的圈层名称不相同时,为拼接生成的一条标注语料标注新圈层名称,获得拼接语料;
增强语料集获取单元,用于根据所述标注语料集,并结合所述翻译语料或/和所述拼接语料,获得所述增强后的标注语料集。
优选地,所述装置还包括:
标注语料集合并模块,用于当存在历史标注语料集时,对所述历史标注语料集和所述标注语料集进行合并去重处理,获得去重后的标注语料集;
则,所述标注语料增强模块具体用于:
对所述去重后的标注语料集进行数据增强处理,获得所述增强后的标注语料集。
优选地,所述小样本学习模型为基于Soft-Prompt实现的自适应模板模型,且模型底层为预训练语言模型和分类器;
则,所述模型训练模块具体包括:
标注语料集划分单元,用于将所述增强后的标注语料集划分为训练集和验证集;
模型训练单元,用于设置M个候选分类阈值,基于每一个候选分类阈值,分别根据所述训练集对所述预设的小样本学习模型进行训练,获得M个训练模型,M≥2;
模型验证单元,用于根据所述验证集分别对每一个训练模型进行验证,获得M个验证结果;
模型评估单元,用于根据每一个验证结果对应获取每一个训练模型的F1值,获得M个F1值,F1值为精确率和召回率的调和平均值;
模型选择单元,用于确定所述M个F1值中的最大F1值,并将所述最大F1值对应的候选分类阈值作为最终分类阈值,将所述最大F1值对应的训练模型作为所述训练后的小样本学习模型。
优选地,所述用户圈层挖掘模块具体包括:
待挖掘语料集分类单元,用于根据所述训练后的小样本学习模型对所述待挖掘语料集进行分类,确定所述待挖掘语料集中的每一条待挖掘语料对应的圈层名称;
圈层名称评估单元,用于计算所述用户账号下的每一个圈层名称对应的待挖掘语料的条数与所述待挖掘语料集中的所有待挖掘语料的条数的比值;
圈层名称选择单元,用于根据比值大于预设比值阈值的圈层名称确定用户所属的圈层名称。
优选地,所述方法还包括模型增量训练模块,用于:
当所述待挖掘语料集进行分类后的分类结果中,存在置信度大于预设置信度阈值的待挖掘语料时,将置信度大于预设置信度阈值的待挖掘语料作为增量训练数据;
当所述增量训练数据的数量大于预设数量阈值时,对所述增量训练数据进行数据增强处理,获得增强后的增量训练数据;
根据所述增强后的增量训练数据和所述增强后的标注语料集,对所述预设的小样本学习模型进行增量训练,获得增量训练后的小样本学习模型;
当所述增量训练后的小样本学习模型对应的F1值大于所述训练后的小样本学习模型对应的F1值时,用所述增量训练后的小样本学习模型替换所述训练后的小样本学习模型。
需要说明的是,本发明实施例所提供的一种基于小样本学习的用户圈层挖掘装置,能够实现上述任一实施例所述的基于小样本学习的用户圈层挖掘方法的所有流程,装置中的各个模块、单元的作用以及实现的技术效果分别与上述实施例所述的基于小样本学习的用户圈层挖掘方法的作用以及实现的技术效果对应相同,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一实施例所述的基于小样本学习的用户圈层挖掘方法。
本发明实施例还提供了一种终端设备,参见图4所示,是本发明提供的一种终端设备的一个优选实施例的结构框图,所述终端设备包括处理器10、存储器20以及存储在所述存储器20中且被配置为由所述处理器10执行的计算机程序,所述处理器10在执行所述计算机程序时实现上述任一实施例所述的基于小样本学习的用户圈层挖掘方法。
优选地,所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序1、计算机程序2、······),所述一个或者多个模块/单元被存储在所述存储器20中,并由所述处理器10执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
所述处理器10可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以是微处理器,或者所述处理器10也可以是任何常规的处理器,所述处理器10是所述终端设备的控制中心,利用各种接口和线路连接所述终端设备的各个部分。
所述存储器20主要包括程序存储区和数据存储区,其中,程序存储区可存储操作系统、至少一个功能所需的应用程序等,数据存储区可存储相关数据等。此外,所述存储器20可以是高速随机存取存储器,还可以是非易失性存储器,例如插接式硬盘,智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡和闪存卡(Flash Card)等,或所述存储器20也可以是其他易失性固态存储器件。
需要说明的是,上述终端设备可包括,但不仅限于,处理器、存储器,本领域技术人员可以理解,图4结构框图仅仅是上述终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
综上,本发明实施例所提供的一种基于小样本学习的用户圈层挖掘方法、装置、计算机可读存储介质及终端设备,通过自动化爬取数据和小批量的数据标注,并结合使用小样本学习模型,能够实现从数据预处理到数据预测的全自动端到端的基于小样本学习的圈层识别流程,在该圈层识别流程中,根据自定义圈层,在海量数据语料中只需标注少量数据语料,输入到小样本学习模型中,即可在低资源、低标注量的情况下快速构建算法模型并应用到全量数据,快速挖掘用户所属圈层,特别是挖掘用户的新圈层(可以自定义新圈层);相较于传统的规则类方案,该圈层识别流程不需要耗费大量人力成本调整规则以适应在社媒上变化极快的用户圈层;相较于大批量标注方式(对于单一圈层,往往至少需要上百条标注语料甚至更多,才能达到可用效果),该圈层识别流程使用了小样本学习,只需要数十条标注语料即可,极大减少了人力标注成本和模型训练时间;因此,无需耗费大量人力成本和时间成本,本发明实施例提供的技术方案就能够在短时间、低标注量的情况下实现快速挖掘用户圈层。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (12)

1.一种基于小样本学习的用户圈层挖掘方法,其特征在于,包括:
从网络平台中获取待处理语料集;
对所述待处理语料集中的所有待处理语料进行圈层标注,获得标注语料集;其中,所述标注语料集中的每一条标注语料对应标注了至少一个圈层名称,每一个圈层名称对应的标注语料的条数不小于预设条数阈值;
对所述标注语料集进行数据增强处理,获得增强后的标注语料集;
根据所述增强后的标注语料集对预设的小样本学习模型进行训练,获得训练后的小样本学习模型;
根据所述训练后的小样本学习模型对用户账号下的待挖掘语料集进行分类,获得用户所属的圈层名称。
2.如权利要求1所述的基于小样本学习的用户圈层挖掘方法,其特征在于,所述从网络平台中获取待处理语料集,具体包括:
通过关键词搜索从网络平台中获取第一语料集;
通过账号搜索从网络平台中获取第二语料集;
根据所述第一语料集和所述第二语料集获得所述待处理语料集。
3.如权利要求2所述的基于小样本学习的用户圈层挖掘方法,其特征在于,所述对所述待处理语料集中的所有待处理语料进行圈层标注,获得标注语料集,具体包括:
对所述第一语料集中的所有待处理语料进行逐条标注,确定每一条待处理语料对应的圈层名称;
对所述第二语料集中的所有待处理语料进行逐条标注或一键标注,确定每一条待处理语料对应的圈层名称;
根据标注后的第一语料集和标注后的第二语料集获得所述标注语料集。
4.如权利要求3所述的基于小样本学习的用户圈层挖掘方法,其特征在于,所述根据标注后的第一语料集和标注后的第二语料集获得所述标注语料集,具体包括:
S21、对所述标注后的第一语料集和所述标注后的第二语料集中的标注语料进行合并去重处理;
S22、判断去重后的标注语料的条数是否满足以下条件:每一个圈层名称对应的标注语料的条数不小于预设条数阈值;
S23、若不满足,则继续从网络平台中获取新待处理语料集,对所述新待处理语料集中的所有新待处理语料进行圈层标注,获得新标注语料,对所述去重后的标注语料和所述新标注语料进行合并去重处理,并返回S22;
S24、若满足,则根据所述去重后的标注语料获得所述标注语料集。
5.如权利要求1所述的基于小样本学习的用户圈层挖掘方法,其特征在于,所述对所述标注语料集进行数据增强处理,获得增强后的标注语料集,具体包括:
将所述标注语料集中的每一个圈层名称对应的标注语料的X%,由当前语种翻译成第二语种,并由第二语种再翻译成当前语种,获得翻译语料,0<X≤100;
或/和,
将所述标注语料集中的标注语料两两拼接,并在拼接的两条标注语料对应的圈层名称不相同时,为拼接生成的一条标注语料标注新圈层名称,获得拼接语料;
根据所述标注语料集,并结合所述翻译语料或/和所述拼接语料,获得所述增强后的标注语料集。
6.如权利要求1所述的基于小样本学习的用户圈层挖掘方法,其特征在于,所述方法还包括:
当存在历史标注语料集时,对所述历史标注语料集和所述标注语料集进行合并去重处理,获得去重后的标注语料集;
则,所述对所述标注语料集进行数据增强处理,获得增强后的标注语料集,具体包括:
对所述去重后的标注语料集进行数据增强处理,获得所述增强后的标注语料集。
7.如权利要求1所述的基于小样本学习的用户圈层挖掘方法,其特征在于,所述小样本学习模型为基于Soft-Prompt实现的自适应模板模型,且模型底层为预训练语言模型和分类器;
则,所述根据所述增强后的标注语料集对预设的小样本学习模型进行训练,获得训练后的小样本学习模型,具体包括:
将所述增强后的标注语料集划分为训练集和验证集;
设置M个候选分类阈值,基于每一个候选分类阈值,分别根据所述训练集对所述预设的小样本学习模型进行训练,获得M个训练模型,M≥2;
根据所述验证集分别对每一个训练模型进行验证,获得M个验证结果;
根据每一个验证结果对应获取每一个训练模型的F1值,获得M个F1值,F1值为精确率和召回率的调和平均值;
确定所述M个F1值中的最大F1值,并将所述最大F1值对应的候选分类阈值作为最终分类阈值,将所述最大F1值对应的训练模型作为所述训练后的小样本学习模型。
8.如权利要求1所述的基于小样本学习的用户圈层挖掘方法,其特征在于,所述根据所述训练后的小样本学习模型对用户账号下的待挖掘语料集进行分类,获得用户所属的圈层名称,具体包括:
根据所述训练后的小样本学习模型对所述待挖掘语料集进行分类,确定所述待挖掘语料集中的每一条待挖掘语料对应的圈层名称;
计算所述用户账号下的每一个圈层名称对应的待挖掘语料的条数与所述待挖掘语料集中的所有待挖掘语料的条数的比值;
根据比值大于预设比值阈值的圈层名称确定用户所属的圈层名称。
9.如权利要求1~8中任一项所述的基于小样本学习的用户圈层挖掘方法,其特征在于,所述方法还包括:
当所述待挖掘语料集进行分类后的分类结果中,存在置信度大于预设置信度阈值的待挖掘语料时,将置信度大于预设置信度阈值的待挖掘语料作为增量训练数据;
当所述增量训练数据的数量大于预设数量阈值时,对所述增量训练数据进行数据增强处理,获得增强后的增量训练数据;
根据所述增强后的增量训练数据和所述增强后的标注语料集,对所述预设的小样本学习模型进行增量训练,获得增量训练后的小样本学习模型;
当所述增量训练后的小样本学习模型对应的F1值大于所述训练后的小样本学习模型对应的F1值时,用所述增量训练后的小样本学习模型替换所述训练后的小样本学习模型。
10.一种基于小样本学习的用户圈层挖掘装置,其特征在于,用于实现如权利要求1~9中任一项所述的基于小样本学习的用户圈层挖掘方法,所述装置包括:
语料集获取模块,用于从网络平台中获取待处理语料集;
语料圈层标注模块,用于对所述待处理语料集中的所有待处理语料进行圈层标注,获得标注语料集;其中,所述标注语料集中的每一条标注语料对应标注了至少一个圈层名称,每一个圈层名称对应的标注语料的条数不小于预设条数阈值;
标注语料增强模块,用于对所述标注语料集进行数据增强处理,获得增强后的标注语料集;
模型训练模块,用于根据所述增强后的标注语料集对预设的小样本学习模型进行训练,获得训练后的小样本学习模型;
用户圈层挖掘模块,用于根据所述训练后的小样本学习模型对用户账号下的待挖掘语料集进行分类,获得用户所属的圈层名称。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1~9中任一项所述的基于小样本学习的用户圈层挖掘方法。
12.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如权利要求1~9中任一项所述的基于小样本学习的用户圈层挖掘方法。
CN202211264246.0A 2022-10-17 2022-10-17 基于小样本学习的用户圈层挖掘方法、装置、介质及设备 Pending CN115329723A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211264246.0A CN115329723A (zh) 2022-10-17 2022-10-17 基于小样本学习的用户圈层挖掘方法、装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211264246.0A CN115329723A (zh) 2022-10-17 2022-10-17 基于小样本学习的用户圈层挖掘方法、装置、介质及设备

Publications (1)

Publication Number Publication Date
CN115329723A true CN115329723A (zh) 2022-11-11

Family

ID=83915395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211264246.0A Pending CN115329723A (zh) 2022-10-17 2022-10-17 基于小样本学习的用户圈层挖掘方法、装置、介质及设备

Country Status (1)

Country Link
CN (1) CN115329723A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298391A (zh) * 2019-06-12 2019-10-01 同济大学 一种基于小样本的迭代式增量对话意图类别识别方法
CN112132179A (zh) * 2020-08-20 2020-12-25 中国人民解放军战略支援部队信息工程大学 基于少量标注样本的增量学习方法及系统
CN112214604A (zh) * 2020-11-04 2021-01-12 腾讯科技(深圳)有限公司 文本分类模型的训练方法、文本分类方法、装置及设备
CN113254599A (zh) * 2021-06-28 2021-08-13 浙江大学 一种基于半监督学习的多标签微博文本分类方法
CN114298176A (zh) * 2021-12-16 2022-04-08 重庆大学 一种欺诈用户检测方法、装置、介质及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298391A (zh) * 2019-06-12 2019-10-01 同济大学 一种基于小样本的迭代式增量对话意图类别识别方法
CN112132179A (zh) * 2020-08-20 2020-12-25 中国人民解放军战略支援部队信息工程大学 基于少量标注样本的增量学习方法及系统
CN112214604A (zh) * 2020-11-04 2021-01-12 腾讯科技(深圳)有限公司 文本分类模型的训练方法、文本分类方法、装置及设备
WO2022095682A1 (zh) * 2020-11-04 2022-05-12 腾讯科技(深圳)有限公司 文本分类模型的训练方法、文本分类方法、装置、设备、存储介质及计算机程序产品
CN113254599A (zh) * 2021-06-28 2021-08-13 浙江大学 一种基于半监督学习的多标签微博文本分类方法
CN114298176A (zh) * 2021-12-16 2022-04-08 重庆大学 一种欺诈用户检测方法、装置、介质及电子设备

Similar Documents

Publication Publication Date Title
WO2021203581A1 (zh) 基于精标注文本的关键信息抽取方法、装置及存储介质
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
US20190213488A1 (en) Systems and methods for semantic analysis based on knowledge graph
CN112070138B (zh) 多标签混合分类模型的构建方法、新闻分类方法及系统
WO2022048363A1 (zh) 网站分类方法、装置、计算机设备及存储介质
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN111309910A (zh) 文本信息挖掘方法及装置
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN112328747B (zh) 事件脉络生成方法、装置、终端设备及存储介质
CN116150201A (zh) 敏感数据识别方法、装置、设备及计算机存储介质
CN115953123A (zh) 机器人自动化流程的生成方法、装置、设备及存储介质
US20230138491A1 (en) Continuous learning for document processing and analysis
CN114495113A (zh) 文本分类方法和文本分类模型的训练方法、装置
CN112579781B (zh) 文本归类方法、装置、电子设备及介质
CN116029280A (zh) 一种文档关键信息抽取方法、装置、计算设备和存储介质
CN110941713B (zh) 基于主题模型的自优化金融资讯版块分类方法
US20230134218A1 (en) Continuous learning for document processing and analysis
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质
CN115329723A (zh) 基于小样本学习的用户圈层挖掘方法、装置、介质及设备
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
CN111027296A (zh) 基于知识库的报表生成方法及系统
CN110750976A (zh) 语言模型构建方法、系统、计算机设备及可读存储介质
CN114462411B (zh) 命名实体识别方法、装置、设备及存储介质
CN117648635B (zh) 敏感信息分类分级方法及系统、电子设备
CN115525730B (zh) 基于页面赋权的网页内容提取方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20221111