CN113392331A - 文本处理方法及设备 - Google Patents

文本处理方法及设备 Download PDF

Info

Publication number
CN113392331A
CN113392331A CN202110110536.9A CN202110110536A CN113392331A CN 113392331 A CN113392331 A CN 113392331A CN 202110110536 A CN202110110536 A CN 202110110536A CN 113392331 A CN113392331 A CN 113392331A
Authority
CN
China
Prior art keywords
text
labeled
model
target
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110110536.9A
Other languages
English (en)
Inventor
刘刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110110536.9A priority Critical patent/CN113392331A/zh
Publication of CN113392331A publication Critical patent/CN113392331A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种文本处理方法及设备,涉及数据处理技术领域,方法包括:在标注文本集中的标注文本的数量未满足预设条件时,通过基于标注文本集训练得到的半监督分类模型预测待标注文本集中的各待标注文本对应于各个类别的预测结果,基于预测结果自动生成新的标注文本并添加到标注文本集中,实现了标注文本的自动生成,提升标注文本的标注效率和标注文本的质量及覆盖率,达到了快速、有效地获得机器学习所需的大量样本的目的,进而可以基于获得的标注文本集训练得到高准确度的文本分类模型,而且由于标注文本的数量够多,分类模型可以使用简单的模型,从而能够加快分类模型的训练速度和预测效率。

Description

文本处理方法及设备
技术领域
本申请涉及数据处理技术领域,具体涉及一种文本处理方法及设备。
背景技术
随着自媒体网络的发展,作为自媒体的各个发布平台每天都有大量信息发布,而且,由于用户发表内容的门槛降低,任何用户在任何时间都可以发表自己的想法,导致了用户发表内容的质量参差不齐。因此,有必要对用户发表内容进行质量分类,以避免低质量内容的公开对公众造成不良影响。
目前,对用户发表内容进行质量分类除了人工处理方式外,还有一些采用机器学习的方法进行质量分类,机器学习的准确度通常依赖于大量的有标记样本,但是网络上用户发表的内容的情况和种类非常繁杂,大规模(通常需要几十万到百万级别)人工标注样本的成本非常高,因此,如何获得机器学习所需的大量样本成为亟待解决的技术问题。
发明内容
有鉴于此,本申请实施例提供一种文本处理方法及设备,以快速获得机器学习所需的大量样本。
为实现上述目的,本申请实施例提供如下技术方案:
一方面,提供一种文本处理方法,包括:
获取待分类文本;
将所述待分类文本输入文本分类模型,得到所述待分类文本对应的分类结果;所述文本分类模型通过标注文本集训练得到,所述标注文本集通过如下方式获取:
在所述标注文本集中的标注文本的数量未满足预设条件时,通过基于所述标注文本集训练得到的半监督分类模型对待标注文本集中的各个待标注文本分别进行处理,得到各个待标注文本对应的预测结果,所述待标注文本对应的预测结果表征所述待标注文本对应的目标类别;
根据各个待标注文本对应的预测结果,确定目标待标注文本,其中,所述目标待标注文本对应的预测结果的置信度高于非目标待标注文本对应的预测结果的置信度;
将所述目标待标注文本对应的目标类别作为类别标签与所述目标待标注文本相关联,得到新的标注文本;
将所述新的标注文本添加到所述标注文本集中。
第二方面,提供一种文本处理装置,包括:
获取模块,用于获取待分类文本;
分类模块,用于将所述待分类文本输入文本分类模型,得到所述待分类文本对应的分类结果;所述文本分类模型通过标注文本集训练得到,所述标注文本集通过标记模块得到:
所述标记模块用于:在所述标注文本集中的标注文本的数量未满足预设条件时,通过基于所述标注文本集训练得到的半监督分类模型对待标注文本集中的各个待标注文本分别进行处理,得到各个待标注文本对应的预测结果,所述待标注文本对应的预测结果表征所述待标注文本对应的目标类别;根据各个待标注文本对应的预测结果,确定目标待标注文本,其中,所述目标待标注文本对应的预测结果的置信度高于非目标待标注文本对应的预测结果的置信度;将所述目标待标注文本对应的目标类别作为类别标签与所述目标待标注文本相关联,得到新的标注文本;将所述新的标注文本添加到所述标注文本集中。
第三方面,提供一种电子设备,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,实现如前所述的文本处理方法的各个步骤,和/或,实现如前所述的模型训练方法的各个步骤。
第四方面,提供一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如前所述的文本处理方法的各个步骤,和/或,实现前所述的模型训练方法的各个步骤。
本申请实施例提供的文本处理方法及设备,在标注文本集中的标注文本的数量未满足预设条件时,通过基于标注文本集训练得到的半监督分类模型对待标注文本集中的各个待标注文本分别进行处理,得到各个待标注文本对应的预测结果,每一个待标注文本对应的预测结果表征该待标注文本对应的目标类别;根据各个待标注文本对应的预测结果,确定目标待标注文本,其中,目标待标注文本对应的预测结果的置信度高于非目标待标注文本对应的预测结果的置信度;将目标待标注文本对应的目标类别作为类别标签与目标待标注文本相关联,得到新的标注文本并添加到标注文本集中。显然,本申请的方案在标注文本集中的标注文本的数量未满足预设条件时,通过基于标注文本集训练得到的半监督分类模型预测待标注文本集中的各待标注文本对应于各个类别的预测结果,基于该预测结果自动生成新的标注文本并添加到标注文本集中,实现了标注文本的自动生成,提升标注文本的标注效率和标注文本的质量及覆盖率,达到了快速、有效地获得机器学习所需的大量样本的目的,进而可以基于获得的大量标注文本集训练得到高准确度的文本分类模型,而且由于标注文本的数量够多,分类模型可以使用简单的模型,从而能够加快分类模型的训练速度,以及分类模型的预测效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的基于信息流评论语料的文本处理方法的系统原理图;
图2为本申请实施例提供的文本处理方法的一种实现流程图;
图3为本申请实施例提供的利用标注文本集,以及无标注的基础语料库训练得到初始半监督分类模型的一种实现流程图;
图4为本申请实施例提供的获取人工标注文本的一种实现流程图;
图5为本申请实施例提供的模型训练方法的一种实现流程图;
图6为本申请实施例提供的文本处理装置的一种结构示意图;
图7为本申请实施例提供的模型训练装置的一种结构示意图;
图8为本申请实施例提供的设备的硬件结构框图的示例图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
本申请实施例提供的方案涉及人工智能的自然语音处理及机器学习等技术,具体通过如下实施例进行说明:
为了更好的理解本申请实施例,这里对本申请实施例的一种可选的具体应用场景进行说明。
首先对应用场景中涉及的一些缩略语进行说明:
文章:社交平台(比如,qq看点)推荐给用户阅读的文章,可能会包含视频或图片,文章通常是自媒体开一个公众号后主动编辑发布的。
视频:社交平台推荐给用户阅读的视频,包括竖版的小视频和横版的短视频,以Feeds流的形式提供。
Feeds:消息来源,又译为源料、馈送、资讯提供、供稿、摘要、源、新闻订阅、网源(英文:web feed、news feed、syndicated feed)是一种资料格式,网站透过它将最新资讯传播给用户,通常以时间轴方式排列,Timeline是Feed最原始最直接也最基本的展示形式。用户能够订阅网站的先决条件是,网站提供了消息来源。将feed汇流于一处称为聚合(aggregation),而用于聚合的软体称为聚合器(aggregator)。对最终用户而言,聚合器是专门用来订阅网站的软件,一般亦称为RSS阅读器、feed阅读器、新闻阅读器等。以Facebook为例,用户A的Facebook首页的news feed可以看作一个新型聚合器,订阅源是用户A的好友或用户A Follow的公众人物,内容是他们公开发布的动态。当好友和Follow的公众人物数量较多且活跃时,就可以收到不断更新的内容,这是最常见的Feed形式。微博、知乎也类似。时间是Feed所遵循的终极维度,因为内容的更新是不断向服务器发出请求的结果。
PGC(全称:Professional Generated Content)互联网术语,指专业生产内容(视频网站)、专家生产内容(微博)。用来泛指内容个性化、视角多元化、传播民主化、社会关系虚拟化。也称为PPC,(Professionally-produced Content)。
MCN(Multi-Channel Network):是一种多频道网络的产品形态,将PGC内容联合起来,在资本的有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现。
UGC(全称:User Generated Content):用户生成内容,即用户原创内容。
随着互联网的快速发展,整个媒体时代也在快速变革:之前的纸媒、广播、电视是传统媒体时代;门户网站、搜索网站是PC互联网媒体;在移动端起来的时候,应用商店带来移动互联网时代;到了微信、直播、头条、微博时期,在移动端应用越来越普及的时代就诞生了移动社交的新媒体时代。在新媒体平台里,能够让用户自己发声、分享、吐槽、传播的平台就叫“自媒体”,而以信息流方式来展示这些媒体信息并且用户可以充分和这些信息进行互动的分发形式得到了极大的发展。用户在消费内容后,还可以对内容进行评论,点赞,转发,收藏等等各种互动行为。由于用户发表内容的门槛的降低,任何用户在任何时间都可以发表自己的想法,导致了用户产生内容的质量参差不齐,比如低俗涉黄,攻击谩骂,引导点击资料,诱导跳转,引战,骗赞灌水,无关内容,表情内容,营销广告,重复刷屏,找对象等低质量内容。因此,对评论、转发内容的识别和处理是维护评论氛围和监控生态的重要部分。目前,除了大量人工巡检和接受用户举报负反馈处理外,还有一些采用机器学习的方法,比如人工搜集相关有高危风险的关键词,以人工标注的样本为种子,采用机器学习分类框架:特征工程+SVM、LR技术,将文本内容转化为特征表示:字/词向量,然后构建相应的模型来进行识别;或者,还有采用Naive Bayes特征+bigram对特征进行词频加权+LR/SVM,然后再进行分类识别的方式;还有使用FastText、LR/SVM利用标注样本进行机器学习分类结果。这些方法都需要大量高质量的样本,从不同角度学习文本内容语义。但是线上的评论质量内容的情况和种类非常复杂,而且不同类目的内容和运营的策略不一样,采用的控制策略也不一样,有的内容是需要直接删除,有的是下沉降级,减少评论内容的曝光机会,每个模型都需要大量的高质量数据样本。本申请的发明人研究发现,总的来说,当前方案主要问题有以下几个方面:
(1)高准确度的评论各种质量问题的分类高质量样本数据非常缺乏,大规模标注的成本非常高,同时样本覆盖率也非常有限,收敛效率低。
(2)UGC(即用户原创内容)评论的短文本信息量少(一般会控制在1000字左右,让看官可以在10分钟内流畅阅读完,非常适合在移动时代的快速阅读和消费),且没有上下文用来辨别语境(与长文本相比,长文本通常具有上下文来辨别语境),同时评论不具有规范性,口语化、简称、网络用语较多,需要单独处理评论语料,才能确保最终的效果。
(3)复杂深度BERT(Bidirectional Encoder Representations fromTransformer)模型需要GPU(Graphics Processing Unit,图形处理器)进行加速,成本也很高,而且,大规模应用时候需要考虑到部署模型的计算复杂度和效率及投入的成本。简单模型,比如TextCNN模型,如果有高质量有效数据补充,也可以更加高效,减少机器资源的投入满足同样的需求,性价比更高。但如第(1)点所述,现在高准确度的评论各种质量问题的分类高质量样本数据非常缺乏,无法实现高质量的简单模型的训练。
针对上述问题,本发明提供一种基于信息流内容分发评论语料的文本处理方法,针对评论语料的多种质量问题,通过提供每种类型少量的标注种子样本,利用大规模评论语料(无标注)对基于深度学习的自监督模型进行预训练,得到预训练自监督模型,然后利用少量的标注种子在分类任务上进行微调构成半监督分类模型,在通过半监督分类模型在大规模未标注评论语料上进行预测,然后以及预测结果的置信度,筛选高置信样本和不置信边界样本,对不高置信样本进行自动标注(标注标签为基于预测结果确定的类别),对不置信边界样本可以由人工标注一部分,也可以不由人工标注,而是继续等待自动标注,重复上述过程,直至未标注评论语料处理完成,或有标记的样本的数量满足预设条件,从而加速高质量语料样本的收集。最后,可以利用收集到的有标记样本训练分类模型(该分类模型可以是简单模型,也可以是深度模型),如果是深度模型,可以利用收集到的高质量语料样本对半监督分类模型进行微调,得到最终的分类模型,缩短深度模型的训练时间。
针对评论内容的口语化问题,对评论内容的进行口语化的清洗和增强处理。对评论当中包含的各种特殊语义信息能够很好的表征,有效提升最新模型的效果。
如图1所示,图1示出了本申请一个实施例提供的基于信息流评论语料的文本处理方法的系统原理图。其中,
一、内容生产端和消费端
(1)内容生产端:PGC或者UGC,MCN或者PUGC的内容生产者,通过移动端或者后端接口API系统,提供本地或者拍摄的图文内容,视频或者图集内容,这些都是分发内容的主要内容来源。
(2)内容生产端:通过和上下行内容接口服务器的通讯(图1中的步骤11),先获取上传服务器接口地址,然后再上传本地文件,拍摄过程当中本地图文内容可以选择搭配的音乐,滤镜模板和图文的美化功能等等。
(3)作为内容消费端,和上下行内容接口服务器通讯(图1中的步骤21),获取访问图文或者视频文件的索引信息,然后下载对应的流媒体文件并且通过本地播放器来播放观看。
(4)同时将上传和下载过程当中用户播放的行为数据,卡顿,加载时间,播放点击等上报给服务器。
(5)消费端消费内容的互动信息,重点是对内容的评论UGC短文本内容,点赞,转发,收藏等互动信息通过UGC互动及统计上报接口上报(图1中的步骤22)。
(6)对评论内容,依据UGC互动服务调用评论分类服务(图1中的步骤31)返回的结果,对评论本身进行删除或者下沉,确保消费用户看到评论区内容的氛围正常。
二、上下行内容接口服务器
(1)和内容生产端直接通讯,从前端提交的内容,通常是内容的标题,发布者,摘要,封面图,发布时间,或者是拍摄的图文直接通过该服务器进入服务端,把文件存入内容数据库(图1中的步骤12)。
(2)将图文内容的元信息,比如图文文件大小,封面图链接,码率,文件格式,标题,发布时间,作者等信息写入内容数据库(图1中的步骤12)。
(3)将上传的文件提交给调度中心服务器(图1中的步骤13),进行后续的内容处理和流转.
(4)消费端从这里获取消费内容的索引信息(图1中的步骤21),通常是访问内容的入口地址及图片,文件链接。
三、内容数据库
(1)内容的核心数据库,所有生产者发布内容的元信息都保存在这个业务数据库当中,重点是内容本身的元信息比如文件大小,封面图链接,码率,文件格式,标题,发布时间,作者,视频文件大小,视频格式,是否原创的标记或者首发还包括人工审核过程中对内容的分类(包括一,二,三级别分类和标签信息,比如一篇讲解华为手机的文章,一级分科是科技,二级分类是智能手机,三级分类是国内手机,标签信息是华为,mate30)。
(2)人工审核过程当中会读取内容数据库当中的信息(图1中的步骤16),同时人工审核的结果和状态也会回传进入内容数据库。
(3)调度中心服务器对内容处理主要包括机器处理和人工审核处理(图1中的步骤14、15),这里机器处理核心各种质量判断比如低质过滤,内容标签比如分类,标签信息,还有就是内容排重,他们的结果会写入内容数据库(图1中的步骤17),完全重复一样的内容不会给人工进行重复的二次处理。
四、调度中心服务器
(1)负责内容流转的整个调度过程,通过上下行内容接口服务器接收入库的内容,然后从内容数据库中获取内容的元信息;
(2)调度人工审核系统和机器处理系统(图1中的步骤14、15),控制调度的顺序和优先级;
(3)通过人工审核系统内容被启用,然后通过内容出口分发服务(通常是推荐引擎或者搜索引擎或者运营)直接的展示页面提供给终端的内容消费者(图1中的步骤18),也就是消费端获得的内容索引信息。
五、人工审核系统
(1)需要读取内容数据库中图文内容本身的原始信息(图1中的步骤16),通常是一个业务复杂的基于web数据库开发的系统,通过人工来对图文内容是否涉及色情,赌博,政治敏感的特性进行一轮初步过滤;
(2)在初步审核的基础之上,对内容进行二次审核,主要是对内容进行分类和标签的标注或者确认(图1中的步骤15),由于视频内容本身完全通过机器学习比如深度学习还不完全成熟,所以需要通过在机器处理的机器上进行二次的人工审核处理,通过人机协作,提升视频本身标注的准确性和效率;
(3)接收标注样本收集服务不置信样本的推送(图1中的步骤44),对推送的数据进行人工复核和标记,标记和复核的结果最终分多批次通过标注样本收集服务写入语料和评论样本数据库,供后续模型建模使用。
六、内容排重服务
(1)提供图文,视频和图集的排重服务,主要是对图文和图集及视频进行向量化,然后建立向量的索引,然后通过比较向量之间的距离来确定相似程度。
(2)对于图文内容通常将图文通过BERT或者SIMHASH向量化,所有正文排重任务之前,先对标题短文本进行排重。
七、UGC互动及统计上报接口服务
(1)和内容消费端通讯,接收上报上来的内容评论UGC短文本(图1中的步骤22),点赞,转发,收藏等互动信息,并且写入互动内容数据库(图1中的步骤33)作为后续样本处理和清洗,增强的基础数据来源;
(2)接受终端用户产生的评论内容(图1中的步骤22),将评论内容传给评论分类服务服务(图1中的步骤31),通过评论分类服务来对评论内容进行质量细分类型的识别,最终在消费终端删除或者下沉。
八、语料与评论样本数据库
(1)语料库用来保存终端用户产生的评论原始数据处理后的结果,包括评论所对应内容的唯一标记,发表评论的时间,评论的用户ID,评论的实际内容;
(2)按照样本清洗和增强的方法对评论的数据进行原始的处理(图1中的步骤34),处理完毕后用来进行训练的样本保存在评论样本数据库当中,给预训练模型提供训练的原始样本数据服务。
九、互动内容数据库
(1)保存终端用户产生的评论原始数据,包括评论所对应内容的唯一标记,发表评论的时间,评论的用户ID。
(2)标注样本收集服务从互动内容数据库获取大量未标记的原始数据(图1中的步骤43)。
十、预训练评论语料大模型
(1)按照上面描述的方法,读取语料进行评论预训练大模型及利用少部分语料进行微调,构建半监督分类模型(图1中的步骤41)。
(2)和标注样本收集服务通讯(图1中的步骤42),辅助完成标注样本收集过程。
十一、标注样本收集服务
(1)将上面半监督分类模型服务化,UGC互动数据当中的未标记数据,按照上面描述的步骤和过程完成具体的标注样本收集任务。
(2)蒸馏的结果写入语料和评论数据库当中(图1中的步骤45)。
十二、评论分类服务
(1)按照上面描述的模型和部署方法和UGC互动业务服务通讯,完成消费端实时评论内容的质量识别(图1中的步骤31)。
(2)最终失败的结果包括直接删除和下沉两种操作,用于确保最终的评论互动氛围。
通过本申请,可以有效减少需要标注的数据样本数量,提升标注效率和样本的质量及覆盖率。针对评论内容的口语化问题,对评论内容的进行口语化的清洗和增强处理,对评论当中包含的各种特殊语义信息能够很好的表征,有效提升最新模型的效果。最终能够使用简单模型,在高质量的数据基础上达到同样的效果或者更好的效果,这样能够加快模型的预测推理效率,节省机器资源提供更多实施部署的选择,能够加快改善信息流评论的互动氛围,降低用户负反馈量,增加用户时长和粘性。
需要说明的是,上述只是举例说明本申请的一种可选的应用场景,其并不构成对本申请具体限定,本申请实施例也适用于其它需要进行相同或相似文本处理的场景,这里不再一一举例说明。
下面对本申请的方案进行详细说明。
本申请实施例提供的文本处理方法可以应用于设备中,在一些实施例中,该设备可以是服务器。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。在一些实施例中,该服务器可以通过与图1中所示的“UGC互动业务及统计上报接口服务”、“互动内容数据库”、“语料及评论样本数据库”和“人工审核系统”交互,以实现图1中所示的“预训练大型模型”、“标注样本收集服务”和“评论分类服务”等功能。
本申请实施例提供的文本处理方法的一种实现流程图如图2所示,该实施例主要说明标注样本收集服务收集标注样本的实现过程,可以包括:
步骤S101:在标注文本集中的标注文本的数量未满足预设条件时,通过基于标注文本集训练得到的半监督分类模型对待标注文本集中的各个待标注文本分别进行处理,得到各个待标注文本对应的预测结果,每一个待标注文本对应的预测结果表征该待标注文本对应的目标类别。也就是说,第i个待标注文本对应的预测结果表针该第i个待标注文本对应的目标类别。第i个待标注文本为待标注文本集中的任意一个待表征文本。
可选的,第i个待标注文本对应的预测结果可以为:第i个待标注文本对应于各个类别的概率,其中,第i个待标注文本对应于目标类别的概率大于第i个待标注文本对应于任一非目标类别的概率。
本申请实施例中,半监督分类模型可以是规模较大的模型,比如,半监督分类模型的层数可以超过层数阈值,且半监督分类模型的参数量可以超过参数量阈值。例如,半监督分类模型的层数超过5层,且半监督分类模型的参数量超过百万。
半监督分类模型可以为利用标注文本集,以及无标注的基础语料库训练得到的初始半监督分类模型;或者,半监督分类模型为利用标注文本集对历史半监督分类模型进行微调训练得到的新的半监督分类模型,历史半监督分类模型为最近一次对待标注文本集中的各个未标注文本分别进行处理的半监督分类模型。其中,微调训练是相对于预训练而言的,预训练是指预先训练模型的过程,训练模型时,模型的参数初始参数是随机的或者是预置的值(比如0)。而微调通常是指用新的训练数据集对训练过的模型继续进行训练使得模型的参数适应新的训练数据集,在用新的训练数据集对训练过的模型继续进行训练时模型的初始参数就是训练过的模型的参数。
本申请中所涉及的类别可以是质量类别,或者是,情绪类别,或者可以是其它类别,比如特定领域的业务类别。
比如,质量类别可以包括但不限于以下列举的几种:涉黄擦边球,攻击谩骂,引导点击资源,诱导跳转,引战,骗赞灌水,无关内容,纯表情/特殊符号,营销广告,重复刷屏,找对象等。
比如,情绪类别可以包括但不限于以下列举的几种:高兴,生气,伤心,激动,抑郁,担心,恐惧,惊讶,思念,厌烦等。
在类别为质量类别或情绪类别的情况下,待标注文本集的待标注文本可以为自媒体平台上的用户发明的内容,比如,用户发表的状态、评论等。
比如,特定领域的业务类别可以为司法领域的不同的刑期,例如,每个刑期作作为一个类别。
在类别为司法领域的不同的刑期的情况下,待标注文本集中的待标注文本可以是网络上或报警平台上用户提供的案情详情等。
对于每一个待标注文本,均可以通过半监督分类模型对该待标注文本进行处理,以得到该待标注文本对应各个类别的概率,比如,可以通过半监督分类模型对该待标注文本进行处理,得到该待标注文本对应各个质量类别的概率。
以上述列举的几种质量类别为例,假设该第i个待标注文本对应各个质量类别的概率中,该第i个待标注文本对应“营销广告”这一质量类别的概率最大,即该第i个待标注文本对应“营销广告”这一质量类别的概率大于该第i个待标注文本对应任意一其它质量类别的概率,则该第i个待标注文本对应的目标类别为:营销广告。
步骤S102:根据各个待标注文本对应的预测结果,确定目标待标注文本,其中,目标待标注文本对应的预测结果的置信度高于非目标待标注文本对应的预测结果的置信度。
预测结果的置信度可以采用已有的计算方法计算得到,这里不再详述。
本申请的发明人研究发现,待标注文本对应的预测结果的置信度与待标注文本对应于目标类别的概率正相关,即待标注文本对应于目标类别的概率越大,待标注文本对应的预测结果的置信度越大,反之,待标注文本对应于目标类别的概率越小,待标注文本对应的预测结果的置信度越小。基于此,在一可选的实施例中,为了减少文本处理方法的计算量,可以直接将待标注文本对应于目标类别的概率作为目标待标注文本对应的预测结果的置信度。
可选的,若目标待标注文本对应的预测结果的置信度大于置信度阈值,将待标注文本确定为目标待标注文本,否则,将所述待标注文本确定为非目标待标注文本。置信度阈值比如可以为90%,当然也可以是其它值,比如,93%,具体是多少本申请不做具体限定。
步骤S103:对于任意一目标待标注文本,将该目标待标注文本对应的目标类别作为类别标签与该目标待标注文本相关联,得到新的标注样本。
步骤S104:将步骤S103得到的新的标注样本添加到标注文本集中。
在将得到的新的标注样本添加到标注文本集中后,判断标注文本集中的标注文本的数量是否满足条件,如果标注文本集中的文本的数量还未满足预设条件,则需要再次执行上述文本处理方法,直至标注文本集中的文本的数量满足预设条件。
本申请实施例提供的文本处理方法,在标注文本集中的标注文本的数量未满足预设条件时,通过基于标注文本集训练得到的半监督分类模型预测待标注文本集中的各待标注文本对应于各个类别的预测结果,基于该预测结果自动生成新的标注文本并添加到标注文本集中,实现了标注文本的自动生成,提升标注文本的标注效率和标注文本的质量及覆盖率,达到了快速、有效地获得机器学习所需的大量样本的目的,进而可以基于获得的大量标注文本集训练得到高准确度的文本分类模型,而且由于标注文本的数量够多,分类模型可以使用简单的模型,从而能够加快分类模型的训练速度,以及分类模型的预测效率。
前述内容提到,本申请实施例中,半监督分类模型可以为利用标注文本集,以及无标注的基础语料库训练得到的初始半监督分类模型;或者,半监督分类模型可以为利用标注文本集对历史半监督分类模型进行微调训练得到的新的半监督分类模型,历史半监督分类模型为最近一次对待标注文本集中的各个未标注文本分别进行处理的半监督分类模型。也就说,本申请实施例中,预先训练好了一个半监督分类模型,该半监督分类模型记为初始半监督分类模型,在进行文本处理的过程中,每次在基于半监督分类模型在标注文本集中添加新的标注文本(即步骤S103所确定的新的标注文本)后,如果标注文本集中的标注文本的数量还未满足预设条件,则利用添加新的标注文本后的标注文本集对上一次使用的半监督分类模型进行微调训练,实现对半监督分类模型的更新,并利用更新后的半监督分类模型对待标注文本集中剩余的待标注文本进行标注,依此类推,直至标注文本集中的标注文本的数量满足预设条件。
通过利用添加新的标注文本后的标注文本集对上一次使用的半监督分类模型进行微调训练,一方面保证能够提高半监督分类模型的精度,另一方面能够持续对待标注文本集中的文本进行标注,保证获得足够多的标注样本。
下面说明初始半监督分类模型的训练过程。
本申请实施例提供的利用标注文本集,以及无标注的基础语料库训练得到初始半监督分类模型的一种实现流程图如图3所示,可以包括:
步骤S201:利用无标注的基础语料库对基于深度学习网络的自监督模型进行训练,得到预训练自监督模型。
无标注的基础语料库中可以包括无标注的通用语料,也可以包括无标注的业务数据。通用语料例如可以为网络百科(比如,维基百科、百度百科等)提供的语料等。而业务数据可以是待标注文本所属领域中历史累计的数据。
可选的,基于深度学习网络的自监督模型可以为如下任意一种:GPT模型,ELMo模型,BERT模型等。其中,ELMo是在训练过程中使用双向LSTM合并两个方向的隐状态获得上下文相关表示的预训练模型。GPT模型在训练过程中采用LM进行训练,它是基于Transformer的单向预训练模型。BERT是基于Transformer的基于掩码的预训练模型。
优选的,本申请实施例中,利用无标注的基础语料库对BERT模型以掩码语言模型(Masked Language Model)的方式进行训练,得到预训练BERT模型,该预训练BERT模型即为预训练自监督模型。
传统的BERT的训练过程包含两个不同的训练任务:掩码语言模型和NSP(NextSentence Prediction)。本申请实施例在对BERT模型进行训练时,去掉了NSP这个任务,而只考虑掩码语言模型这个任务。
步骤S202:将分类器与预训练自监督模型进行连接,得到综合模型,综合模型的输出为分类器的输出。
这里的分类器可以是一些简单的分类器,比如,回归分类器(LogisticRegression Classifier,LR分类器)或者是支持向量机分类器(support vector machine,SVM分类器)等。
预训练自监督模型的输入即为综合模型的输入,分类器的输出即为综合模型的输出。
步骤S203:利用标注文本集对综合模型进行微调训练,得到初始半监督分类模型。
具体微调训练的过程即是:将标注文本集中的标注文本作为综合模型的输入,以综合模型的输出结果(即综合模型预测得到的标注文本对应的类别)趋近于标注文本对应的类别标签为目标综合模型的参数进行更新,具体更新算法可以参看已有的程序的算法,这里不再详述。
这里的标注文本集为初始的标注文本集,此时,标注文本集中仅有少量的人工标注的文本集。
在一可选的实施例中,在将分类器与预训练自监督模型进行连接时,可以仅将预训练自监督模型的最后一层的输出作为分类器的输入,或者,可以将预训练自监督模型的最后预设数量层的输出作为分类器的输入。
在一优选的实施例中,在预训练自监督模型为预训练BERT模型时,可以将预训练BERT模型的最后四层的输出作为分类器的输入。可选的,预训练BERT模型的最后四层的每一层输出的均为一个向量,可以将预训练BERT模型的最后四层输出的向量拼接为一个向量,将拼接得到的向量作为分类器的输入。经过验证,将预训练BERT模型的最后四层的输出作为分类器的输入,可以保证模型的准确率和召回率均较高。
在一可选的实施例中,上述无标注的业务数据可以是通过对原始的业务数据进行清洗处理,和/或,增强处理得到的。其中,
对原始的业务数据进行清洗处理的过程可以包括但不限于以下至少一种处理方式:
去重:即去重重复的词语、短语、符号等,比如原始的业务数据种包括“张三张三张三张三张三太棒了”这样的句子,则通过对其去重,得到的结果为:张三太棒了。比如,将“--------------------”变为“-”。
删除字数少于第一字数阈值的业务数据:对于汉字过少的业务数据,直接删除掉。
截断字数大于第二字数阈值的业务数据:对于过长的业务数据,比如字数大于第二字数阈值的业务数据,则对其进行截断,只保留第二字数阈值以内的数据即可。比如,根据第二字数阈值只保留原始的业务数据种的前N句话,该前N句话的字数的总和为小于或等于第二字数阈值的最大值。
表情符号和繁体字替换为简体字:比如,将
Figure BDA0002919030080000171
替换为妈,将
Figure BDA0002919030080000172
替换为狗,将
Figure BDA0002919030080000173
替换为屎等。
空白字符删除等:即删除空格。
对原始的业务数据进行增强处理的过程可以包括但不限于以下至少一种处理方式:
句间打乱顺序:即将原始的业务数据中的句子的顺序打乱,这里可以将任意两个标点之间的内容作为一个句子。
加入停用词:即在一些句子种加入停用词。
随机删除部分字词:即在原始的业务数据中随机确定一些字词,并将确定的字词删除。
将第一语言的原始的业务数据转译为第二语言的业务数据后再将第二语言的业务数据转译为第一语言的业务数据:也就是说原始的业务数据是第一语言的数据,本申请是先将第一语言的原始的业务数据翻译为第二语言的业务数据,然后再将第二语言的业务数据翻译为第一语言的业务数据,此时由第二语言的业务数据翻译得到的第一语言的业务数据可能与第一语言的原始的业务数据已经不同了。
将原始业务数据中的部分词用近义词代替。可以在原始的业务数据中随机确定一些词,并将这些词用对应的近义词代替。或者,按照一定的规则(比如,选择预置的词),在原始的业务数据中选择一些词,并将这些词用对应的近义词代替。
在一可选的实施例中,除了将基于目标待标注文本得到的标注文本添加到标注文本集中外,对于未被确定为目标待标注文本的待标注文本(记为非目标待标注文本),可以对部分非目标待标注文本进行人工标注。可选的,本申请实施例提供的获取人工标注文本的一种实现流程图如图4所示,可以包括:
步骤S301:获取一个或多个非目标待标注文本。
该一个或多个非目标待标注文本可以是文本处理装置自动确定的,可以是随机确定的,也可以是按照一定的规则确定的,比如,可以按照置信度由低到高的顺序选择一定数量的非目标待标注文本。
该部分非目标待标注文本也可以是用户随机挑选的,或者,是用户按照置信度由低到高的顺选取的。
步骤S302:接收针对上述一个或多个非目标待标注文本中的每一个非目标待标注文本输入的类别标签。
针对每一个非目标待标注文本,由用户输入与该非目标待标注文本对应的类别标签。
步骤S303:对于上述一个或多个非目标待标注文本中的任意一非目标待标注文本,将针对该非目标待标注文本输入的标签与该非目标待标注文本相关联,得到一个或多个标注好的非目标待标注文本;
步骤S304:将得到的一个或多个标注好的非目标待标注文本添加到标注文本集中。
基于本申请的方案,向标注文本集中添加的方案除了包括基于半监督分类模型自动标注的标注文本外,还向标注文本集中添加了部分人工标注的标注文本,由于人工标注的标注文本的类别标签的准确度较高,因此,在训练过程中基于标注文本集训练得到的半监督分类模型的精度进一步提高,从而进一步提高标注文本的标注精度。
在一可选的实施例中,上述标注文本集中的标注文本的数量未满足预设条件,包括:
标注文本集中至少一个类别的标注文本的数量未达到预置的数量级。也就是说,标注文本集中的各个类别的标注文本的数量均达到预置的数量级时,认为标注文本集中的标注文本的数量满足预设条件。可选的,这里预置的数量级可以为万级,即标注文本集中的各个类别的标注文本的数量均在10000到99999之间标注文本集中的标注文本的数量满足预设条件,则认为,否则,认为标注文本集中的标注文本的数量未满足预设条件。
在未标注文本集中的数量足够多的情况下,可以保证标注文本集中的各个类别的标注文本的数量均达到预置的数量级。但是在一些情况下,如果未标注文本集中的数量不够多时,即使将未标注文本集中的所有文本均进行标注后可能也无法使得标注文本集中的标注文本的数量满足预设条件,此时,如果标准文本集中的标注文本的数量不再增加,比如,未标注文本集中文本均标注完成使得未标注文本集为空了,也认为标注文本集中的标注文本的数量满足预设条件。
在标注文本集中的标注文本的数量满足预设条件后,就可以利用标注文本集训练分类模型了,该分类模型可以是深层网络模型,也可以是浅层网络模型。基于此,本申请实施例提供的模型训练方法的一种实现流程图如图5所示,可以包括:
步骤S401:获取训练数据集,该训练数据集为利用如前任意一实施例所述的文本处理方法得到的标注文本集;
步骤S402:利用训练数据集对文本分类模型进行训练,得到文本分类模型,该文本分类模型可以为浅层网络模型。该浅层网络模型是指规模较小的模型,比如,浅层网络模型的层数小于或等于5层,和/或,浅层网络模型的参数量小于百万。当然,这里的具体数值仅作为示例,并不构成对本申请方案的具体限定。
例如,浅层网络模型可以为但不限于以下任意一种:TextCNN模型,FastText模型等。
本申请的发明人研究发现,如果选择复杂的深度模型作为文本分类器,需要的资源较多,比如,复杂深度BERT模型需要图形处理器(Graphics Processing Unit,GPU)加速,使得分类成本高。
而通过大量标注数据集训练浅层网络模型可以得到分类精度较高的目标分类模型,而且,由于目标分类模型属于浅层网络模型,不需要GPU加速即可以保证目标分类模型的运行速度,尤其是在GPU资源不够,每秒查询率(Query Per Second,QPS)很高的情况下,利用浅层网络模型可以确保模型的最终效果(准确率和召回率均较高)。
在得到目标分类模型后,就可以利用目标分类模型对待分类文本进行分类了,具体可以包括:
获取待分类文本;
将待分类文本输入上述文本分类模型,得到待分类文本对应的分类结果。
下面结合具体的应用场景对本申请的方案进行举例说明。该示例中,待标注文本集中的待标注文本为自媒体中用户发表的状态或评论,涉及的类别为质量类别,具体包括:涉黄擦边球,攻击谩骂,引导点击资源,诱导跳转,引战,骗赞灌水,无关内容,纯表情/特殊符号,营销广告,重复刷屏,找对象等11种质量类别。基于该场景,本申请实施例提供的文本处理方法可以包括:
对无标注的基础语料库进行预处理。
基础语料库中包括无标注的通用语料和无标注的业务数据。通用语料为从网络百科中提取的语料等。而业务数据是自媒体平台中历史累计的状态数据和评论数据。
对基础语料的预处理主要是对业务数据的预处理,该预处理可以包括如前所述的清洗和/或增强处理,具体处理方式可以参看前述实施例,这里不再赘述。
利用无标注的基础语料库采用掩码语言模型的方式对BERT模型进行训练,得到预训练BERT模型。具体可以利用无标注的基础语料库采用全词mask方式对BERT模型进行训练。
将预训练BERT模型后连接LR分类器或SVM分类器,得到综合模型;其中,LR分类器或SVM分类器的输入为预训练BERT模型的最后四层输出,具体为由预训练BERT模型的最后四层输出向量拼接而成的向量。
利用标注文本集的标注文本集对综合模型进行微调训练,得到初始半监督分类模型。该标注文本集中包含少量已标注的文本内容,该文本内容为从自媒体平台获取的自媒体用户发表的状态或评论,文本内容的标注可以是人工标注的。
利用初始半监督分类模型对待标注文本集中的各个待标注文本分别进行处理,得到各个待标注文本对应的预测结果,每一个待标注文本对应的预测结果为该待标注文本对应于各个类别的概率;待标注文本集中的待标注文本为从自媒体平台获取的自媒体用户发表的状态或评论。
根据各个待标注文本对应的预测结果,确定目标待标注文本,其中,目标待标注文本对应于各个类别的概率中的最大概率大于概率阈值。
对于任意一目标待标注文本,将该目标待标注文本对应的目标类别作为类别标签与该目标待标注文本相关联,得到标注文本添加到标注文本集中;该目标待标注文本对应目标类别的概率大于该目标待标注文本对应非目标类别的概率。
确定部分非目标待标注文本,获取针对该部分非目标待标注文本输入的类别标签,将获取的类别标签与对应的分非目标待标注文本相关联,得到标注文本添加到标注文本集中;
判断标注文本集(此时的标注文本集中包括添加的标注文本)中标注文本的数量是否满足预设条件,若判断结果为是,则流程结束,否则利用标注文本集对初始半监督分类模型进行微调训练,得到更新的半监督分类模型。
利用更新的半监督分类模型对待标注文本集(此时的待标注文本集中删除了了添加到标注文本集中的文本)中剩余的各个待标注文本分别进行处理。得到各个待标注文本对应的预测结果。
根据各个待标注文本对应的预测结果,确定目标待标注文本,其中,目标待标注文本对应于各个类别的概率中的最大概率大于概率阈值;
对于任意一目标待标注文本,将该目标待标注文本对应的目标类别作为类别标签与该目标待标注文本相关联,得到标注文本并添加到标注文本集中。
确定部分非目标待标注文本,获取针对该部分非目标待标注文本输入的类别标签,将获取的类别标签与对应的分非目标待标注文本相关联,得到标注文本添加到标注文本集中;
判断标注文本集(此时的标注文本集中包括了两次添加的标注文本)中标注文本的数量是否满足预设条件,若判断结果为是,则流程结束,否则利用标注文本集对更新的半监督分类模型再次进行微调训练,得到再次更新的半监督分类模型。
然后利用再次更新的半监督分类模型对待标注文本集(此时的待标注文本集中删除了了添加到标注文本集中的文本)中剩余的各个待标注文本分别进行处理,得到各个待标注文本对应的预测结果,并执行后续步骤,依此类推,直至标注文本集中标注文本的数量满足预设条件时结束流程。
在结束流程后,也就得到了标注文本集。此时可以利用标注文本集训练浅层网络模型,比如,TextCNN模型,得到目标分类模型。该目标分类模型可以通过将标注文本集中的标注文本输入TextCNN模型,得到TextCNN模型输出的分类结果,以分类结果趋近于标注文本对应的类别标签为目标对TextCNN模型的参数进行更新得到。
在得到目标分类模型后,可以利用该分类模型对待分类文本,比如,自媒体用户在自媒体平台发表的状态信息或评论信息,进行质量分类了。
在得到待分类文本的质量类别后,还可以对待分类文本进行与质量类别,相关的处理,比如,删除,改变排序等。
自媒体平台发表的状态信息或评论信息通常是要显示在自媒体平台的,因此,如果待分类文本的质量类别为涉黄擦边球,攻击谩骂,引导点击资源,诱导跳转,引战,营销广告等,则将待分类文本删除,即不显示,如果待分类文本的质量类别为骗赞灌水、无关内容、纯表情/特殊符号、重复刷屏、找对象,则可以将待分类文本下沉,即将待分类文本的排序往后调。
与方法实施例相对应,本申请实施例还提供一种文本处理装置,本申请实施例提供的文本处理装置的一种结构示意图如图6所示,可以包括:
获取模块501,分类模块502和标记模块503;其中,
获取模块501用于获取待分类文本;
分类模块502用于将所述待分类文本输入文本分类模型,得到所述待分类文本对应的分类结果;所述文本分类模型通过标注文本集训练得到,所述标注文本集通过标记模块503得到:
标记模块503用于在所述标注文本集中的标注文本的数量未满足预设条件时,通过基于所述标注文本集训练得到的半监督分类模型对待标注文本集中的各个待标注文本分别进行处理,得到各个待标注文本对应的预测结果,所述待标注文本对应的预测结果表征所述待标注文本对应的目标类别;根据各个待标注文本对应的预测结果,确定目标待标注文本,其中,所述目标待标注文本对应的预测结果的置信度高于非目标待标注文本对应的预测结果的置信度;将所述目标待标注文本对应的目标类别作为类别标签与所述目标待标注文本相关联,得到新的标注文本;将所述新的标注文本添加到所述标注文本集中。
本申请实施例提供的文本处理装置,本申请的方案在标注文本集中的标注文本的数量未满足预设条件时,通过基于标注文本集训练得到的半监督分类模型预测待标注文本集中的各待标注文本对应于各个类别的预测结果,基于该预测结果自动生成新的标注文本并添加到标注文本集中,实现了标注文本的自动生成,提升标注文本的标注效率和标注文本的质量及覆盖率,达到了快速、有效地获得机器学习所需的大量样本的目的,进而可以基于获得的大量标注文本集训练得到高准确度的文本分类模型,而且由于标注文本的数量够多,分类模型可以使用简单的模型,从而能够加快分类模型的训练速度,以及分类模型的预测效率。。
在一可选的实施例中,所述半监督分类模型为利用所述标注文本集,以及无标注的基础语料库训练得到的初始半监督分类模型;或者,
所述半监督分类模型为利用所述标注文本集对历史半监督分类模型进行微调训练得到的新的半监督分类模型;所述历史半监督分类模型为最近一次对待标注文本集中的各个待标注文本分别进行处理的半监督分类模型。
在一可选的实施例中,所述标记模块503利用所述标注文本集,以及无标注的基础语料库训练得到初始半监督分类模型时,具体用于:
利用所述无标注的基础语料库对基于深度学习网络的自监督模型进行训练,得到预训练自监督模型;
将分类器与所述预训练自监督模型进行连接,得到综合模型,以使所述分类器的输出为所述综合模型的输出;
利用所述标注文本集对所述综合模型进行微调训练,得到所述初始半监督分类模型。
在一可选的实施例中,所述标记模块503利用所述无标注的基础语料库对基于深度学习网络的自监督模型进行训练,得到预训练自监督模型时,具体用于:
利用所述无标注的基础语料库对BERT模型以掩码语言模型的方式进行训练,得到预训练自监督模型。
在一可选的实施例中,所述分类器的输入为所述预训练BERT模型的最后四层的输出。
在一可选的实施例中,所述无标注的基础语料库中包括:无标注的通用语料和无标注的业务数据。
在一可选的实施例中,所述无标注的业务数据是通过对原始的业务数据进行清洗处理和/或增强处理得到的;其中,
所述清洗处理包括对所述原始的业务数据进行以下至少一种处理方式:去重、删除字数少于第一字数阈值的业务数据、截断字数大于第二字数阈值的业务数据、表情符号和繁体字替换为简体字、空白字符删除;
所述增强处理包括对所述原始的业务数据进行以下至少一项处理:句间打乱顺序、加入停用词、随机删除部分字词、将第一语言的原始的业务数据转译为第二语言的业务数据后再将第二语言的业务数据转译为第一语言的业务数据、将原始业务数据中的部分词用近义词代替。
在一可选的实施例中,所述待标注文本对应的预测结果为:所述待标注文本对应于各个类别的概率,所述待标注文本对应于所述目标类别的概率大于所述待标注文本对应于任一非目标类别的概率;
在一可选的实施例中,所述标记模块503根据各个待标注文本对应的预测结果,确定目标待标注文本时,具体用于:
将所述待标注文本对应于所述目标类别的概率作为所述目标待标注文本对应的预测结果的置信度;
若所述目标待标注文本对应的预测结果的置信度大于置信度阈值,将所述待标注文本确定为目标待标注文本,否则,将所述待标注文本确定为非目标待标注文本。
在一可选的实施例中,所述标记模块503还用于:
获取一个或多个非目标待标注文本;
接收针对所述一个或多个非目标待标注文本中的每一个非目标待标注文本输入的类别标签;
将针对每一个非目标待标注文本输入的类别标签与对应的非目标待标注文本相关联,得到一个或多个标注好的非目标待标注文本;
将所述一个或多个标注好的非目标待标注文本作为人工标注文本,并将所述人工标注文本添加到所述标注文本集中。
与方法实施例相对应,本申请实施例还提供一种模型训练装置,本申请实施例提供的模型训练装置的一种结构示意图如图7所示,可以包括:
第一获取模块601,用于获取训练数据集,所述训练数据集为利用前述任意一实施例所述的文本处理方法得到的标注文本集。
训练模块602,用于利用所述训练数据集对文本分类模型进行训练,得到文本分类模型。
本申请实施例还提供一种设备,如终端、服务器等。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。在一些实施例中,上述终端或服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
该设备可以配置上述文本处理装置或模型训练装置。本申请实施例提供的设备的硬件结构框图的示例图如图8所示,可以包括:
处理器1,通信接口2,存储器3和通信总线4;
其中处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
可选的,通信接口2可以为通信模块的接口,如GSM模块的接口;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,处理器1具体用于执行存储器3中存储的计算机程序,以执行如下步骤:
获取待分类文本;
将所述待分类文本输入文本分类模型,得到所述待分类文本对应的分类结果;所述文本分类模型通过标注文本集训练得到,所述标注文本集通过如下方式获取:
在所述标注文本集中的标注文本的数量未满足预设条件时,通过基于所述标注文本集训练得到的半监督分类模型对待标注文本集中的各个待标注文本分别进行处理,得到各个待标注文本对应的预测结果,所述待标注文本对应的预测结果表征所述待标注文本对应的目标类别;
根据各个待标注文本对应的预测结果,确定目标待标注文本,其中,所述目标待标注文本对应的预测结果的置信度高于非目标待标注文本对应的预测结果的置信度;
将所述目标待标注文本对应的目标类别作为类别标签与所述目标待标注文本相关联,得到新的标注文本;
将所述新的标注文本添加到所述标注文本集中。。
或者,执行如下步骤:
获取训练数据集,所述训练数据集为利用如前任意一项所述的文本处理方法得到的标注文本集;
利用所述训练数据集对文本分类模型进行训练,得到文本分类模型。
可选的,所述计算机程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该存储介质可存储有适于处理器执行的计算机程序,所述计算机程序用于:
获取待分类文本;
将所述待分类文本输入文本分类模型,得到所述待分类文本对应的分类结果;所述文本分类模型通过标注文本集训练得到,所述标注文本集通过如下方式获取:
在所述标注文本集中的标注文本的数量未满足预设条件时,通过基于所述标注文本集训练得到的半监督分类模型对待标注文本集中的各个待标注文本分别进行处理,得到各个待标注文本对应的预测结果,所述待标注文本对应的预测结果表征所述待标注文本对应的目标类别;
根据各个待标注文本对应的预测结果,确定目标待标注文本,其中,所述目标待标注文本对应的预测结果的置信度高于非目标待标注文本对应的预测结果的置信度;
将所述目标待标注文本对应的目标类别作为类别标签与所述目标待标注文本相关联,得到新的标注文本;
将所述新的标注文本添加到所述标注文本集中。
或者,执行如下步骤:
获取训练数据集,所述训练数据集为利用如前任意一项所述的文本处理方法得到的标注文本集;
利用所述训练数据集对文本分类模型进行训练,得到文本分类模型。
可选的,所述计算机程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文本处理方法或模型训练方法的各种可选实现方式中提供的文本处理方法或模型训练方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的核心思想或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种文本处理方法,其特征在于,包括:
获取待分类文本;
将所述待分类文本输入文本分类模型,得到所述待分类文本对应的分类结果;所述文本分类模型通过标注文本集训练得到,所述标注文本集通过如下方式获取:
在所述标注文本集中的标注文本的数量未满足预设条件时,通过基于所述标注文本集训练得到的半监督分类模型对待标注文本集中的各个待标注文本分别进行处理,得到各个待标注文本对应的预测结果,所述待标注文本对应的预测结果表征所述待标注文本对应的目标类别;
根据各个待标注文本对应的预测结果,确定目标待标注文本,其中,所述目标待标注文本对应的预测结果的置信度高于非目标待标注文本对应的预测结果的置信度;
将所述目标待标注文本对应的目标类别作为类别标签与所述目标待标注文本相关联,得到新的标注文本;
将所述新的标注文本添加到所述标注文本集中。
2.根据权利要求1所述的方法,其特征在于,所述半监督分类模型为利用所述标注文本集,以及无标注的基础语料库训练得到的初始半监督分类模型;或者,
所述半监督分类模型为利用所述标注文本集对历史半监督分类模型进行微调训练得到的新的半监督分类模型;所述历史半监督分类模型为最近一次对待标注文本集中的各个待标注文本分别进行处理的半监督分类模型。
3.根据权利要求2所述的方法,其特征在于,利用所述标注文本集,以及无标注的基础语料库训练得到初始半监督分类模型的过程包括:
利用所述无标注的基础语料库对基于深度学习网络的自监督模型进行训练,得到预训练自监督模型;
将分类器与所述预训练自监督模型进行连接,得到综合模型,以使所述分类器的输出为所述综合模型的输出;
利用所述标注文本集对所述综合模型进行微调训练,得到所述初始半监督分类模型。
4.根据权利要求3所述的方法,其特征在于,所述利用所述无标注的基础语料库对基于深度学习网络的自监督模型进行训练,得到预训练自监督模型,包括:
利用所述无标注的基础语料库对BERT模型以掩码语言模型的方式进行训练,得到预训练自监督模型。
5.根据权利要求4所述的方法,其特征在于,所述分类器的输入为所述预训练BERT模型的最后四层的输出。
6.根据权利要求2-5任意一项所述的方法,其特征在于,所述无标注的基础语料库中包括:无标注的通用语料和无标注的业务数据。
7.根据权利要求6所述的方法,其特征在于,所述无标注的业务数据是通过对原始的业务数据进行清洗处理和/或增强处理得到的;其中,
所述清洗处理包括对所述原始的业务数据进行以下至少一种处理方式:去重、删除字数少于第一字数阈值的业务数据、截断字数大于第二字数阈值的业务数据、表情符号和繁体字替换为简体字、空白字符删除;
所述增强处理包括对所述原始的业务数据进行以下至少一项处理:句间打乱顺序、加入停用词、随机删除部分字词、将第一语言的原始的业务数据转译为第二语言的业务数据后再将第二语言的业务数据转译为第一语言的业务数据、将原始业务数据中的部分词用近义词代替。
8.根据权利要求1所述的方法,其特征在于,所述待标注文本对应的预测结果为:所述待标注文本对应于各个类别的概率,所述待标注文本对应于所述目标类别的概率大于所述待标注文本对应于任一非目标类别的概率;
所述根据各个待标注文本对应的预测结果,确定目标待标注文本包括:
将所述待标注文本对应于所述目标类别的概率作为所述目标待标注文本对应的预测结果的置信度;
若所述目标待标注文本对应的预测结果的置信度大于置信度阈值,将所述待标注文本确定为目标待标注文本,否则,将所述待标注文本确定为非目标待标注文本。
9.根据权利要求1所述的方法,其特征在于,还包括:
获取一个或多个非目标待标注文本;
接收针对所述一个或多个非目标待标注文本中的每一个非目标待标注文本输入的类别标签;
将针对每一个非目标待标注文本输入的类别标签与对应的非目标待标注文本相关联,得到一个或多个标注好的非目标待标注文本;
将所述一个或多个标注好的非目标待标注文本作为人工标注文本,并将所述人工标注文本添加到所述标注文本集中。
10.一种电子设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,实现如权利要求1-9任一项所述的文本处理方法的各个步骤。
CN202110110536.9A 2021-01-27 2021-01-27 文本处理方法及设备 Pending CN113392331A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110110536.9A CN113392331A (zh) 2021-01-27 2021-01-27 文本处理方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110110536.9A CN113392331A (zh) 2021-01-27 2021-01-27 文本处理方法及设备

Publications (1)

Publication Number Publication Date
CN113392331A true CN113392331A (zh) 2021-09-14

Family

ID=77616740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110110536.9A Pending CN113392331A (zh) 2021-01-27 2021-01-27 文本处理方法及设备

Country Status (1)

Country Link
CN (1) CN113392331A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626564A (zh) * 2021-10-09 2021-11-09 腾讯科技(深圳)有限公司 一种概念标签生成方法、装置、电子设备和存储介质
CN114330512A (zh) * 2021-12-13 2022-04-12 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN115881103A (zh) * 2022-11-23 2023-03-31 镁佳(北京)科技有限公司 语音情绪识别模型训练方法、语音情绪识别方法及装置
CN116894986A (zh) * 2023-09-11 2023-10-17 深圳亘存科技有限责任公司 自动化标注方法、系统以及计算机设备
CN117421595A (zh) * 2023-10-25 2024-01-19 广东技术师范大学 一种基于深度学习技术的系统日志异常检测方法及系统
CN117473321A (zh) * 2023-11-07 2024-01-30 摩尔线程智能科技(北京)有限责任公司 文本标注方法、装置和存储介质
CN117493514A (zh) * 2023-11-09 2024-02-02 广州方舟信息科技有限公司 文本标注方法、装置、电子设备和存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626564A (zh) * 2021-10-09 2021-11-09 腾讯科技(深圳)有限公司 一种概念标签生成方法、装置、电子设备和存储介质
CN114330512A (zh) * 2021-12-13 2022-04-12 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN114330512B (zh) * 2021-12-13 2024-04-26 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN115881103A (zh) * 2022-11-23 2023-03-31 镁佳(北京)科技有限公司 语音情绪识别模型训练方法、语音情绪识别方法及装置
CN115881103B (zh) * 2022-11-23 2024-03-19 镁佳(北京)科技有限公司 语音情绪识别模型训练方法、语音情绪识别方法及装置
CN116894986A (zh) * 2023-09-11 2023-10-17 深圳亘存科技有限责任公司 自动化标注方法、系统以及计算机设备
CN116894986B (zh) * 2023-09-11 2023-11-24 深圳亘存科技有限责任公司 自动化标注方法、系统以及计算机设备
CN117421595A (zh) * 2023-10-25 2024-01-19 广东技术师范大学 一种基于深度学习技术的系统日志异常检测方法及系统
CN117473321A (zh) * 2023-11-07 2024-01-30 摩尔线程智能科技(北京)有限责任公司 文本标注方法、装置和存储介质
CN117493514A (zh) * 2023-11-09 2024-02-02 广州方舟信息科技有限公司 文本标注方法、装置、电子设备和存储介质
CN117493514B (zh) * 2023-11-09 2024-05-14 广州方舟信息科技有限公司 文本标注方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN113392331A (zh) 文本处理方法及设备
US20150243279A1 (en) Systems and methods for recommending responses
CN112131411A (zh) 一种多媒体资源推荐方法、装置、电子设备及存储介质
KR20160057475A (ko) 소셜 데이터를 능동적으로 획득하기 위한 시스템 및 방법
CN106940726B (zh) 一种基于知识网络的创意自动生成方法与终端
CN111885399A (zh) 内容分发方法、装置、电子设备以及存储介质
CN111507097A (zh) 一种标题文本处理方法、装置、电子设备及存储介质
CN111723295B (zh) 一种内容分发方法、装置和存储介质
CN112131472A (zh) 信息推荐方法、装置、电子设备和存储介质
CN110019776B (zh) 文章分类方法及装置、存储介质
US9129216B1 (en) System, method and apparatus for computer aided association of relevant images with text
CN111506794A (zh) 一种基于机器学习的谣言管理方法和装置
WO2022154897A1 (en) Classifier assistance using domain-trained embedding
CN112131430A (zh) 视频聚类方法、装置、存储介质和电子设备
CN110852047A (zh) 一种文本配乐方法、装置、以及计算机存储介质
CN113011126A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN113392315A (zh) 一种主题类型挖掘方法、装置、设备及存储介质
CN117218482A (zh) 模型训练方法、视频处理方法、装置及电子设备
CN117251620A (zh) 一种融合主题和情绪的博文推荐方法
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
CN113656560B (zh) 情感类别的预测方法和装置、存储介质及电子设备
CN113741759B (zh) 评论信息的展示方法、装置、计算机设备和存储介质
CN114996435A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质
CN114547435A (zh) 内容质量的识别方法、装置、设备及可读存储介质
CN114118087A (zh) 实体确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40053135

Country of ref document: HK