CN112818114B - 信息的分类方法、检测方法、计算设备及存储介质 - Google Patents

信息的分类方法、检测方法、计算设备及存储介质 Download PDF

Info

Publication number
CN112818114B
CN112818114B CN201911120274.3A CN201911120274A CN112818114B CN 112818114 B CN112818114 B CN 112818114B CN 201911120274 A CN201911120274 A CN 201911120274A CN 112818114 B CN112818114 B CN 112818114B
Authority
CN
China
Prior art keywords
text
fragments
sample
model
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911120274.3A
Other languages
English (en)
Other versions
CN112818114A (zh
Inventor
高喆
蒋卓人
康杨杨
孙常龙
张琼
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201911120274.3A priority Critical patent/CN112818114B/zh
Publication of CN112818114A publication Critical patent/CN112818114A/zh
Application granted granted Critical
Publication of CN112818114B publication Critical patent/CN112818114B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种信息的分类方法、检测方法、计算设备及存储介质,在本申请实施例中,通过待训练模型对不同类型训练文本中的样本文本进行分类,得到样本文本中文本片段的分类结果,根据分类结果,确定不同样本文本之间的差异度;根据差异度,建立信息的分类模型;由于不同样本文本之间存在差异度,使得建立的分类模型能够更加准确地确定不同类型的样本文本,可进一步对文本中对应信息进行较好的定位并确定对应信息,如,对不良信息进行检测并定位该不良信息,从而确定不良信息,实现检测成本的节省。

Description

信息的分类方法、检测方法、计算设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种信息的分类方法、检测方法、计算设备及存储介质。
背景技术
随着信息技术的发展,人们可以利用互联网进行线上活动,例如线上观看视频、线上购物、线上缴费以及线上娱乐等。由于可以通过互联网进行多种线上活动,无法避免互联网上也会存在许多不良信息。这些不良信息给用户带来了不好的体验。特别是长文本中存在的不良信息,需要对不良信息进行处理,在处理的过程中,由于长文本中存在少量的不良信息,使得长文本中存在大量的噪声,从而无法准确地识别出不良信息。
发明内容
本申请的多个方面提供一种信息的分类方法、检测方法、计算设备及存储介质,用以更加准确地对信息进行分类,从而检测出不良信息。
本申请实施例提供一种信息的分类方法,包括:从不同类型训练文本中获取多组样本集合,每组样本集合包括对应的正样本文本以及负样本文本,每个样本文本包括多个文本片段;将所述样本集合中的文本片段输入至待训练模型中,对所述文本片段进行文本片段向量的获取,以及根据所述文本片段向量对所述文本片段进行分类;根据分类结果,确定样本集合中不同样本文本之间的最大差异度;根据所述最大差异度,对所述待训练模型进行训练。
本申请实施例还提供一种信息的分类方法,包括:获取待分类文本中的文本片段;根据训练后的分类模型,对所述文本片段的进行分类,确定所述文本片段的类型。
本申请实施例还提供一种信息的分类方法,包括:从不同类型训练文本中获取多组样本集合,每组样本集合包括对应的正样本文本以及负样本文本,每个样本文本包括多个文本片段;将所述样本集合中的文本片段输入至待训练模型中,对所述文本片段进行文本片段向量的获取,以及根据所述文本片段向量对所述文本片段进行分类;根据分类结果,确定样本集合中不同样本文本之间的差异度;根据所述差异度,对所述待训练模型进行训练,得到分类模型;获取待分类文本中的文本片段;根据训练后的分类模型,对所述文本片段的进行分类,确定所述文本片段的类型。
本申请实施例还提供一种信息的检测方法,包括:接收到文本获取请求,获取待分类文本中的文本片段;根据建立后的信息的分类模型,对所述文本片段的进行分类,确定所述文本片段的类型;对所属于不良文本类型的文本片段进行处理;响应于所述获取请求,返回处理后的待分类文本。
本申请实施例还提供一种信息的检测方法,包括:获取待检测文本,并发送所述待检测文本至检测设备,以使所述检测设备根据分类模型对所述待检测文本中的文本片段进行分类;接收所述待检测文本中的文本片段的分类结果,根据所述分类结果,对所述待检测文本中的不良文本片段进行调整,以满足检测规则。
本申请实施例还提供一种信息的检测方法,包括:提供文本检测界面,所述文本检测界面展示了文本选择区域以及检测结果的获取控件;响应于文本选择操作,获取待检测文本;响应于获取操作,将所述待检测文本发送至所述检测设备,以使所述检测设备根据分类模型对调整后待检测文本的文本片段进行分类;接收并展示分类结果。
本申请实施例还提供一种计算设备,包括存储器以及处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序,以用于:从不同类型训练文本中获取多组样本集合,每组样本集合包括对应的正样本文本以及负样本文本,每个样本文本包括多个文本片段;将所述样本集合中的文本片段输入至待训练模型中,对所述文本片段进行文本片段向量的获取,以及根据所述文本片段向量对所述文本片段进行分类;根据分类结果,确定样本集合中不同样本文本之间的差异度;根据所述差异度,对所述待训练模型进行训练,以进行信息分类。
本申请实施例还提供一种计算设备,包括存储器以及处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序,以用于:获取待分类文本中的文本片段;根据训练后的分类模型,对所述文本片段的进行分类,确定所述文本片段的类型。
本申请实施例还提供一种计算设备,包括存储器以及处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序,以用于:从不同类型训练文本中获取多组样本集合,每组样本集合包括对应的正样本文本以及负样本文本,每个样本文本包括多个文本片段;将所述样本集合中的文本片段输入至待训练模型中,对所述文本片段进行文本片段向量的获取,以及根据所述文本片段向量对所述文本片段进行分类;根据分类结果,确定样本集合中不同样本文本之间的差异度;根据所述差异度,对所述待训练模型进行训练,得到分类模型;获取待分类文本中的文本片段;根据建立后的信息的分类模型,对所述文本片段的进行分类,确定所述文本片段的类型。
本申请实施例还提供一种计算设备,包括存储器以及处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序,以用于:接收到文本获取请求,获取待分类文本中的文本片段;根据训练后的分类模型,对所述文本片段的进行分类,确定所述文本片段的类型;对所属于不良类型的文本片段进行处理;响应于所述获取请求,返回处理后的待分类文本。
本申请实施例还提供一种计算设备,包括存储器、处理器以及通信组件;所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序,以用于:获取待检测文本,并发送所述待检测文本至检测设备,以使所述检测设备根据分类模型对所述待检测文本中的文本片段进行分类;根据所述分类结果,对所述待检测文本中的不良文本片段进行调整,以满足检测规则;所述通信组件,用于接收所述待检测文本中的文本片段的分类结果。
本申请实施例还提供一种计算设备,包括存储器、处理器以及通信组件;所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序,以用于:提供文本检测界面,所述文本检测界面展示了文本选择区域以及检测结果的获取控件;响应于文本选择操作,获取待检测文本;响应于获取操作,将所述待检测文本发送至所述检测设备,以使所述检测设备根据分类模型对调整后待检测文本的文本片段进行分类;展示分类结果;所述通信组件,用于接收分类结果。
本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被一个或多个处理器执行时,致使所述一个或多个处理器实现上述方法中的步骤。
在本申请实施例中,通过待训练模型对不同类型训练文本中的样本文本进行分类,得到样本文本中文本片段的分类结果,根据分类结果,确定不同样本文本之间的差异度;根据差异度,建立信息的分类模型;由于不同样本文本之间存在差异度,使得建立的分类模型能够更加准确地确定不同类型的样本文本,可进一步对文本中对应信息进行较好的定位并确定对应信息,如,对不良信息进行检测并定位该不良信息,从而确定不良信息,实现检测成本的节省。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1A为本申请一示例性实施例的信息的分类系统的结构示意图;
图1B为本申请一示例性实施例的信息的分类的场景示意图;
图2A为本申请一示例性实施例的信息的分类方法的流程示意图;
图2B为本申请一示例性实施例的模型训练的示意图;
图3为本申请又一示例性实施的信息的分类方法的流程示意图;
图4为本申请又一示例性实施的信息的分类方法的流程示意图;
图5为本申请又一示例性实施的信息的检测方法的流程示意图;
图6为本申请又一示例性实施的信息的检测方法的流程示意图;
图7为本申请又一示例性实施的信息的检测方法的流程示意图;
图8为本申请一示例性实施例提供的信息的分类装置的结构示意图;
图9为本申请又一示例性实施例提供的信息的分类装置的结构示意图;
图10为本申请又一示例性实施例提供的信息的分类装置的结构示意图;
图11为本申请又一示例性实施例提供的信息的检测装置的结构示意图;
图12为本申请又一示例性实施例提供的信息的检测装置的结构示意图;
图13为本申请又一示例性实施例提供的信息的检测装置的结构示意图;
图14为本申请一示例性实施例提供的计算设备的结构示意图;
图15为本申请一示例性实施例提供的计算设备的结构示意图;
图16为本申请一示例性实施例提供的计算设备的结构示意图;
图17为本申请一示例性实施例提供的计算设备的结构示意图;
图18为本申请一示例性实施例提供的计算设备的结构示意图;
图19为本申请一示例性实施例提供的计算设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
文本分类方法一般通过权重指标来表示文本,然后输入到分类模型来进行分类。该类模型忽略了词之间的顺序,以及词之间彼此独立,无法捕捉语义上的信息,且该模型表达能力有限,无法建模复杂的特征组合。
在本申请实施例中,通过待训练模型对不同类型训练文本中的样本文本进行分类,得到样本文本中文本片段的分类结果,根据分类结果,确定不同样本文本之间的差异度;根据差异度,建立信息的分类模型;由于不同样本文本之间存在差异度,使得建立的分类模型能够更加准确地确定不同类型的样本文本,可进一步对文本中对应信息进行较好的定位并确定对应信息,如,对不良信息进行检测并定位该不良信息,从而确定不良信息,实现检测成本的节省。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1A为本申请一示例性实施例提供的一种信息的分类系统的结构示意图。如图1A所示,该分类系统100A可以包括:第一设备101以及第二设备102。
其中,第一设备101是指可以在网络虚拟环境中提供计算处理服务的设备,可以是指利用网络进行信息跟踪的设备。在物理实现上,第一设备101可以是任何能够提供计算服务,响应服务请求,并进行处理的设备,例如可以是常规服务器、云服务器、云主机、虚拟中心等等。第一设备101的构成主要包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似。
第二设备102可以是有一定计算能力的设备。第二设备102的基本结构可以包括:至少一个处理器。处理器的数量可以取决于具有一定计算能力装置的配置和类型。具有一定计算能力装置也可以包括存储器,该存储器可以为易失性的,例如RAM,也可以为非易失性的,例如只读存储器(Read-Only Memory,ROM)、闪存等,或者也可以同时包括两种类型。存储器内通常存储有操作系统(Operating System,OS)、一个或多个应用程序,也可以存储有程序数据等。除了处理单元和存储器之外,具有一定计算能力装置还包括一些基本配置,例如网卡芯片、IO总线、显示组件以及一些外围设备等。可选地,一些外围设备可以包括,例如键盘、输入笔等。其它外围设备在本领域中是众所周知的,在此不做赘述。可选地,第二设备102可以为智能终端,例如,手机、台式电脑、笔记本、平板电脑等。
在本申请实例中,第一设备101,从不同类型训练文本中获取多组样本集合,每组样本集合包括对应的正样本文本以及负样本文本,每个样本文本包括多个文本片段;将样本集合中的文本片段输入至待训练模型中,对文本片段进行文本片段向量的获取,以及根据文本片段向量对文本片段进行分类;根据分类结果,确定样本集合中不同样本文本之间的差异度;根据差异度,对待训练模型进行训练,以进行信息分类。
第二设备102,向第一设备101发送获取请求,用于获取文本;接收第一设备101返回的文本,并进行展示,该文本是处理后的文本,例如,将其中不良信息进行遮挡后的文本。
第一设备101,接收获取请求,获取对应文本,将文本输入至训练好的分类模型中,分类模型对文本中的不良信息进程处理,得到分类模式输出的处理后的文本,并将处理后的文本发送至第二设备102。
在一些实例中,第一设备101,针对一组样本集合,获取分类结果中文本片段所属类型的分值;确定该样本集合中正样本文本的第一最高分值以及负样本文本中的第二最高分值;根据正样本文本的最高分值与负样本文本的最高分值,确定最大差异度。
在一些实例中,第一设备101,针对一组样本集合,获取文本片段所属类型的分值;获取该样本集合中负样本文本中属于目标类型文本片段的分值;确定该负样本文本中属于目标类型文本片段的分值总和;根据分值总和以及差异度,对待训练模型进行训练,生成分类模型。
在一些实例中,第一设备101,根据分值总和以及差异度,确定初始化分类模型的参数;根据参数,将初始化分类模型进行优化,生成分类模型。
在一些实例中,根据分值总和以及差异度,确定损失函数的数值;根据损失函数以及预置参数学习算法,确定参数。
在本申请实施例的应用场景中,例如,如图1B所示,用户打开第二设备102,智能终端,如手机安装的阅读APP,点击该阅读APP中的xx小说文本,手机通过阅读APP向第一设备101,如服务器,发送获取请求,并携带xx小说的标识,服务器接收到该获取请求后,根据该标识从本地服务器获取到该小说文本,或,从其它服务器节点获取到该小说文本,并将小说文本输入至服务器中建立好的分类模型中,分类模型对该小说文本进行分句,并对每个句子进行分类,确定是否存在不良类型的句子,当确定存在不良类型的句子,则将该句子进行遮挡处理,或将该句子中的不良信息“yyyy”103进行遮挡,得到遮挡后“****”104。并将处理后的文本发送至手机。手机通过阅读APP接收到该处理后的文本,进行展示,当用户在阅读时,不会给用户造成不良体验。
服务器在建立分类模型时,获取多个训练文本,训练文本包括存在多个不良类型句子的不良文本以及多个正常文本。服务器将每个不良文本与每个正常文本进行匹配,例如,两个不良文本与两个正常文本进行匹配,得到四组样本集合,每个样本集合中包括一个不良文本和一个正常文本。服务器针对每组样本集合,对其中每个文本进行分句,得到该文本的每个句子,并获取所有句子的向量值,并将每个向量值输入至初始化的卷积神经网络模型中,得到每个句子的分值,根据分值可以确定每个句子的类型。针对每个样本集合而言,确定损失函数的数值。其中,损失函数根据每个样本集合中的最大差异度以及分值总和确定,分值总和是指该不良文本中至少一个不良类型句子的分值总和。每个样本集合对应一个损失函数的数值。将得到的多个数值输入预置AdaGrad(Adaptive Gradient,自适应学习率)算法模型中,确定初始化的卷积神经网络模型的参数,从而训练出该卷积神经网络模型,并存储至服务器中,进行信息分类。
在上述本实施例中,第一设备101可以与第二设备102进行网络连接,该网络连接可以是无线连接。若第一设备101与第二设备102是通信连接,该移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax、5G等中的任意一种。
下面结合方法实施例,针对信息分类的过程进行详细说明。
图2A为本申请一示例性实施例的信息的分类方法的流程示意图。本申请实施例提供的该方法200A由第一设备执行,如,服务器,该方法200A包括以下步骤:
201:从不同类型训练文本中获取多组样本集合,每组样本集合包括对应的正样本文本以及负样本文本,每个样本文本包括多个文本片段。
202:将样本集合中的文本片段输入至待训练模型中,对文本片段进行文本片段向量的获取,以及根据文本片段向量对文本片段进行分类。
203:根据分类结果,确定样本集合中不同样本文本之间的差异度。
204:根据差异度,对待训练模型进行训练,以进行信息分类
以下针对上述步骤进行详细阐述:
201:从不同类型训练文本中获取多组样本集合,每组样本集合包括对应的正样本文本以及负样本文本,每个样本文本包括多个文本片段。
其中,不同类型训练文本是指不同类型的训练样本,类型可以存在至少两种,例如,不同类型训练文本可以是具有不良信息(如,不良句子)的垃圾文本以及具有正常信息(如,正常句子)的正常文本等。其中,文本可以是指记录文字信息的载体,例如,新闻、文章、小说等。多组样本集合是指从不同类型的训练样本中获取到的,一组样本集合包括正样本文本以及负样本文本,其中,正样本文本是指具有正面作用的文本,如正常文本。负样本文本是指具有负面作用的文本,如垃圾文本。
文本片段属于文本的一部分,例如,可以是训练文本中的句子。例如,服务器获取到多个文章,如,5个具有不良信息的垃圾文章以及5个正常文章,服务器将每个垃圾文章分别与一个正常文章进行组合,得到多组样本。服务器再将每个文章进行切割,获取每个句子。将一个句子作为一个文本片段。其中,分句可以根据标点符号来进行切割,如,句号“。”,问号“?”、感叹号“!”、省略号“……”以及分号“;”等。
需要说明的是,不良句子可以是插入在文本当中的广告语,如“xx娱乐城”以及与文本内容不相关的其他语句。
在一些实例中,获取不同类型训练文本中的文本片段,包括:遍历正样本集合中选择每个正样本文本,将每个正样本文本分别与负样本集合中的每个负样本文本进行配对;将配对后的正样本文本和负样本文本作为一组样本集合。
例如,根据前文所述,如图2B所示,服务器从5个垃圾文本中随机选择一个垃圾文本,与5个正常文本中的每个正常文本进行配对,生成5组样本集合,再从5个垃圾文本中随机选择其它文本,分别与每个正常文本进行配对,生成样本集合,直至将5个垃圾文本全部遍历完,生成25组样本集合。
此外,该方法200还包括:对样本集合中各个样本文本进行分句,将得到的句子作为文本片段。
其中,句子是指以独立句子结构作为一个整体的句子。
由于前文已经详细阐述过了得到文本片段的具体实施过程,此处就不再赘述。
202:将样本集合中的文本片段输入至待训练模型中,对文本片段进行文本片段向量的获取,以及根据文本片段向量对文本片段进行分类。
其中,文本片段向量是指将文本片段空间中的某个词语,通过预置的规则,映射或者说嵌入到另一个数值向量空间中,得到该词语对应的向量值,从而得到该文本片段向量。例如,可以通过Word Embedding(词语嵌入)方式实现。
其中,对文本片段进行文本片段向量的获取,包括:通过待训练模型中的词嵌入方式,获取每个文本片段中各个单词的词向量,将获取到的词向量作为文本片段向量。
例如,根据前文所述,如图2B所示,服务器通过Word Embedding方式,得到每个分句的向量值。
其中,根据文本片段向量对文本片段进行分类,包括:通过待训练模型,获取文本片段向量的特征数据;根据特征数据,对文本片段进行分类。
其中,待训练模型,也可以称为初始化分类模型,初始化分类模型是指具有初始参数的分类模型,即该初始参数是指其模型参数是预置的;该分类模型可以为CNN(Convolutional Neural Networks)卷积神经网络模型以及循环神经网络模型等。
卷积神经网络模型是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,因此也被称为“平移不变人工神经网络。
卷积神经网络仿造生物的视知觉机制构建,可以进行监督学习和非监督学习,其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化特征,例如像素和音频进行学习、有稳定的效果且对数据没有额外的特征工程要求。
卷积神经网络包括输入层、卷积层、池化层以及输出层,其中,输出层中可以使用逻辑函数或归一化指数函数(softmax function,也可以称为softmax分类器)输出分类标签。在卷积层中存在卷积层参数,卷积层参数可以包括卷积核大小、步长和填充等。池化层中也存在池化层参数,可以包括池化大小、步长和填充控制。softmax分类器也具有其参数。其中,卷积层是用于根据卷积层参数,对输入的数据进行卷积计算,得到卷积后的数据,如文本片段卷积后的数据,如向量矩阵,即特征向量。池化层是一种下采样,是对卷积层得到数据进行降维处理,可以降低特征向量的大小,从而减低计算量。softmax分类器是对池化后的特征向量进行分类的处理,如将文本片段进行分类,得到最终的分类结果。
循环神经网络模型是一类以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。
循环神经网络模型具有记忆性、参数共享并且图灵完备,因此能以很高的效率对序列的非线性特征进行学习。循环神经网络在自然语言处理,例如语音识别、语言建模、机器翻译等领域有应用,也被用于各类时间序列预报或与卷积神经网络相结合处理计算机视觉问题。
循环神经网络模型也具有自身的模型参数。
例如,根据前文所述,如图2B所示,服务器通过初始化的卷积神经网络模型中的卷积层以及池化层对每个分句进行卷积和池化处理,提取每个句子的句子特征数据。服务器在通过初始化的卷积神经网络模型中的softmax分类器,对各个句子特征数据进行分类,如,通过对各个句子特征数据进行打分来分类,当分值高于分值阈值时,则可将该句子作为不良类型的句子,当该分值低于分值阈值时,则可将该句子作为正常类型的句子。如,垃圾文本中句子N分值为0.7,大于分值阈值0.5,则句子N属于不良类型的句子。
在一些实例中,根据特征数据对文本片段进行分类,包括:通过待训练模型中的分类器,对特征数据所属类型进行打分;根据分值,对文本片段进行分类。
其中,可以通过分类模型中的分类器进行打分,如通过softmax分类器进行打分,由于前文已经详细阐述过该实例的具体实施方式,此处就不再赘述。
203:根据分类结果,确定样本集合中不同样本文本之间的差异度。
其中,确定不同类型训练文本之间的差异度,包括:针对一组样本集合,获取文本片段所属类型的分值;确定该样本集合中最高分值以及负样本文本中的最高分值;根据正样本文本的最高分值与负样本文本的最高分值,确定差异度。
其中,正样本文本的最高分值可以是指正常文本中的句子的最高分值,负样本文本中的最高分值可以是指垃圾文本(也可以称为不良文本)中的句子的最高分值,应理解,在本申请实施例中,对于垃圾文本而言,其中最高分值应当是指句子所属于不良类型(也可以称为垃圾类型)的句子。
其中,差异度是指所属不同类型之间的差异,例如,所属不良类型与所属正常类型之间的差异度。其中,可以通过分值进行体现。最大差异度是指所属不同类型之间的最大差异,例如,所属不良类型与所属正常类型之间的最大差异度。其中,可以通过分值进行体现。
需要说明的是,该差异度在最大时,训练出的分类模型的模型能力最好。但该差异度也可以选择其它差异度,例如,最大差异度、第二大差异度等。但是,为了保证训练后的模型能力,可以根据差异度阈值或差异度个数,进行筛选差异度。以下以最大差异度为例进行说明:
例如,根据前文所述,服务器针对每组样本集合,确定最大差异度,在此仅以一组样本集合举例。服务器通过初始化的卷积神经网络模型对一组样本集合中正样本文本中的每个句子进行打分以及对该组样本集合中负样本文本中的每个句子进行打分。确定该组样本集合中正样本文本中句子的最高分值,作为正样本文本的最高分值,确定该组样本集合中负样本文本中句子的最高分值,作为负样本文本的最高分值。
通过下式1),确定最大差异度:
其中,L(Bs,Bh)为损失函数,Bs为垃圾文本(或不良文本),Bh为正常文本,i为分句,为垃圾文本中不良分句的分值,/>为负样本文本的最高分值,/>为正常文本中分句的分值,/>为正样本文本的最高分值。
应理解,一组样本集合对应一个差异度,例如一个最大差异度,每个样本集合都要确定其对应的差异度。不同样本集合可以对应不同的差异度,如第一组样本集合对应该组的最大差异度,第二组样本集合对应该组的第二大差异度等,以此类推。当然也可以每组样本集合对应都是自己组的最大差异度。
需要说明的是,根据上式1),也可以理解为根据最大差异度确定损失函数,通过损失函数来确定初始化的分类模型的参数。
204:根据差异度,对待训练模型进行训练,以进行信息分类。
在一些实例中,该方法200还包括:针对一组样本集合,获取文本片段所属类型的分值;获取该样本集合中负样本文本中属于目标类型文本片段的分值;确定该负样本文本中属于目标类型文本片段的分值总和;其中,根据差异度,对待训练模型进行训练,包括:根据分值总和以及差异度,对待训练模型进行训练,生成分类模型。
其中,目标类型文本片段是指在分类过程中的需要关注的类型,如不良类型。应理解,在一个垃圾文本中,包括正常句子以及不良句子(也可以称为垃圾句子),不良句子可以为至少一个,但数量应该不会过多,以保证不良文本中不良句子(即不良信息)的稀疏性。也就是说,对于垃圾文本而言,在对其中的文本片段进行分类时,得到的分类结果中不良句子或不良文本片段的个数不会太多,否则就会违背稀疏性。如果分类结果中,不良句子过多,那么就违背了不良句子的稀疏性,从而说明当前训练的分类模型的模型能力或者分类能力是不够优良的,有待提高的。所以为了提高最终训练后分类模型的分类能力,还可以进一步将不良句子在一个文本中的稀疏性作为训练模型的因素之一,从而根据该稀疏性来训练分类模型。
其中,根据差异度,对待训练模型进行训练,包括:根据差异度,确定待训练模型的参数;根据参数,对待训练模型进行优化,生成分类模型。
在一些实例中,确定待训练模型的参数,包括:根据分值总和以及差异度,确定损失函数;根据损失函数以及预置参数学习算法,确定参数。
其中,预置参数学习算法是指独立地适应模型的每个参数的算法,如,AdaGrad(Adaptive Gradient,自适应学习率)算法。该算法对每个变量用不同的学习率,这个学习率在一开始比较大,用于快速梯度下降。随着优化过程的进行,对于已经下降很多的变量,则减缓学习率,对于还没怎么下降的变量,则保持一个较大的学习率。
例如,根据前文所述,如图2B所示,服务器通过初始化的CNN卷积神经网络模型对负样本文本中的每个分句进行打分,获取到超过分值阈值的分值,并通过下式2)确定损失函数:
其中,λ为预置系数,n为不良分句的个数。
需要说明的是,在损失函数中添加了分值总和,应理解,该分值总和就可以作为稀疏性因素,来提高分类模型的精度。在优化模型参数时,为了保证文本中不良句子或不良文本片段在一个文本中的稀疏性,应当尽量降低分值总和,使得其尽量小,保证不良文本中不良句子(即不良信息)的稀疏性。如果分值总和过大,说明不良句子或不良文本片段在一个文本中的密度较大,数量较多,那么说明,当前训练的分类模型检测的分类结果不够准确,精度较低。
服务器在获取到每组样本集合对应的损失函数,如根据式1)得到,将每组样本集合对应的损失函数的数值输入至AdaGrad算法中,优化初始化的卷积神经网络模型中的卷积层、池化层以及softmax分类器的参数,根据优化后的参数,替换初始化的分类模型中的对应参数,生成分类模型。
在一些实例中,对待训练模型进行训练,包括:针对一组样本集合,获取文本片段所属类型的分值,该分值通过待训练模型中的分类器得到;根据负样本文本中属于目标类型文本片段的分值总和以及差异度,确定待训练模型的参数;根据参数,将初始化分类模型进行优化,生成分类模型。
例如,根据前文所述,服务器在获取到每组样本集合对应的损失函数,如根据式2)得到,将每组样本集合对应的损失函数的数值输入至AdaGrad算法中,优化初始化的卷积神经网络模型中的卷积层、池化层以及softmax分类器的参数,根据优化后的参数,替换初始化的分类模型中的对应参数,生成分类模型。
在本申请实施例中,建立的分类模型,能够捕捉语义信息,模型能力较强。建立的分类模型,可以针对长文本中隐蔽信息识别的问题进行解决,由于长文本包含大量的无关信息,隐蔽信息则较为稀疏、分散,所以根据现有技术建立的模型不能很好地解决该问题。
本申请实施例采用多示例学习,而不是传统深度学习,将长文本通过分句划为若干个instance,即句子,只判断得分最高的instance,一定程度上解决了无关信息问题。因为,文本中包含大量的正常文本片段或大量的正常句子以及少量的不良文本片段或少量的不良句子,所以这些大量正常的文本片段就是无关信息,对于训练分类模型而言,不良文本片段才是关键信息,根据不良文本片段才可以训练出高质量的分类模型。所以得分最高的instance说明该instance是最有可能的不良文本片段,或不良句子,从而可以规避掉那些正常文本片段或正常句子,乃至正常文本。
同时在损失函数中,由于选择最高得分的instance,则可以保证垃圾长文本与正常长文本的距离足够大,如公式1)以及公式2),从而使得损失函数就会越小,那么说明当前训练的分类模型的分类能力以及准确度越高。那么就可以精确地区分不良类型以及正常类型。此外,在公式2)中,即在损失函数中,还引入稀疏惩罚项,即对不良类型的分值进行总和计算,保证隐蔽信息的稀疏性。
在新闻正文隐蔽信息识别的实验中,对比了本申请实施例与通过传统方法建立的传统分类模型的结果:
Svm(支持向量机,Support Vector Machine)分类模型的分类结果是:f1score达到0.735;
cnn(卷积神经网络,Convolutional Neural Networks)+dropout(随机失活)分类模型的结果是f1score为0.751;
本申请实施例的分类结果是f1score为0.823。
图3示出了本申请另一示例性实施例提供的又一种信息的分类方法的流程示意图。本申请实施例提供的该方法300由第一设备执行,如,服务器,该方法300包括以下步骤:
301:获取待分类文本中的文本片段。
302:根据训练后的分类模型,对文本片段的进行分类,确定文本片段的类型。
需要说明的是,由于步骤301-302的具体实施方式与前文中生成模型的具体实施方式相似,由于前文已经详细阐述过具体实施方式了,这里就不再赘述。
在一些实例中,对文本片段的进行分类,包括:根据分类模型,确定文本片段所属类型的分值;当分值大于分值阈值,则确定文本片段为目标文本片段;当分值小于或等于分值阈值,则确定文本片段为非目标文本片段。
其中,目标文本片段可以为不良文本片段,如不良句子;非目标文本片段可以为正常文本片段,如正常句子。
由于本实例的具体实施方式与前文中建立分类模型中确定句子类型的实施方式相似,此处就不再赘述。
图4示出了本申请另一示例性实施例提供的又一种信息的分类方法的流程示意图。本申请实施例提供的该方法400由第一设备执行,如,服务器,该方法400包括以下步骤:
401:从不同类型训练文本中获取多组样本集合,每组样本集合包括对应的正样本文本以及负样本文本,每个样本文本包括多个文本片段。
402:将样本集合中的文本片段输入至待训练模型中,对文本片段进行文本片段向量的获取,以及根据文本片段向量对文本片段进行分类。
403:根据分类结果,确定样本集合中不同样本文本之间的差异度。
404:根据差异度,对待训练模型进行训练,得到分类模型。
405:获取待分类文本中的文本片段。
406:根据训练后的分类模型,对文本片段的进行分类,确定文本片段的类型。
需要说明的是,由于步骤401-406在前文中已经详细阐述过了,这里就不再赘述。
图5示出了本申请另一示例性实施例提供的一种信息的检测方法的流程示意图。本申请实施例提供的该方法500由第一设备执行,如,服务器,该方法500包括以下步骤:
501:接收到文本获取请求,获取待分类文本中的文本片段。
502:根据建立后的信息的分类模型,对文本片段的进行分类,确定文本片段的类型。
503:对所属于不良类型的文本片段进行处理。
504:响应于获取请求,返回处理后的待分类文本。
需要说明的是,由于步骤501-504在前文中已经详细阐述过了,这里就不再赘述。
这里仅说明文本片段的处理方式可以包括:删除、替换以及修复等等。
图6示出了本申请另一示例性实施例提供的一种信息的检测方法的流程示意图。本申请实施例提供的该方法600由终端电子设备执行,如,电脑等,该方法600包括以下步骤:
601:获取待检测文本,并发送待检测文本至检测设备,以使检测设备根据分类模型对待检测文本中的文本片段进行分类。
602:接收待检测文本中的文本片段的分类结果,根据分类结果,对待检测文本中的不良文本片段进行调整,以满足检测规则。
需要说明的是,步骤601-602中由待检测设备进行文本检测的具体实施方式在前文已经详细阐述过,此处就不再赘述。仅说明,待检测设备可以是服务器,用于通过前文中已经训练好的分类模型对文本进行检测。
另,在步骤601中,电脑可以响应用户的选择操作,获取到待检测文本,如,一段文字,一篇文章。并响应用户的确定该操作,将该文章发送至服务器进行分类。
在步骤602中,当电脑接收到服务器返回的分类结果,该分类结果可以包括是否具有垃圾文本以垃圾文本所在文章中的位置。电脑展示分类结果给用户查看,当分类结果是具有垃圾文本时,则需要根据垃圾文本的位置进行处理。此时,可以用户人工处理,也可以由电脑自动根据位置处理该垃圾文本。当处理完垃圾文本后,在将处理后的文章发送至服务器,让服务器再次对处理后的文章进行分类,直至该文章无垃圾文本时,则符合检测规则。
该方法600可以用于文本的检测,确定该文本是否具有垃圾文本,从而影响文本的输出,例如,将该文本公布于网上,供网上的用户观看等。
此外,该方法600还包括:将调整后待检测文本发送至检测设备,以使检测设备根据分类模型对调整后待检测文本的文本片段进行分类;接收分类结果,当分类结果中无不良文本片段,则将最终调整后待检测文本作为最终文本。
由于,前文已经详述过调整待检测文本的具体实施过程,此处就不再赘述。
图7示出了本申请另一示例性实施例提供的一种信息的检测方法的流程示意图。本申请实施例提供的该方法700由终端电子设备执行,如,电脑等,该方法700包括以下步骤:
701:提供文本检测界面,文本检测界面展示了文本选择区域以及检测结果的获取控件。
702:响应于文本选择操作,获取待检测文本。
703:响应于获取操作,将待检测文本发送至检测设备,以使检测设备根据分类模型对调整后待检测文本的文本片段进行分类。
704:接收并展示分类结果。
需要说明的是,步骤701-704中由待检测设备进行文本检测的具体实施方式在前文已经详细阐述过,此处就不再赘述。仅说明,在步骤701中,电脑可以提供一个界面,该界面可以是应用程序界面,如PC客户端界面、web网页界面等。应理解,随着终端的不同,该界面也可以随着终端形式不同而不同,如终端为手机时,则该界面可以是APP界面等。在该应用程序界面可以由用户的点击应用程序图标获得,该界面上展示了获取文本选择区域以及检测结果的获取控件。在控件可以包括按钮、菜单以及图标等。
在步骤702中,用户可以上传待检测文本,或者,复制待检测文本至文本选择区域。
在步骤703中,用户点击该获取按钮,电脑响应于该获取操作,则将该待检测文本发送至服务器进行分类。
图8为本申请一示例性实施例提供的信息的分类装置的结构框架示意图。该装置800可以应用于第一设备中,例如,服务器,该装置800包括获取模块801、分类模块802、确定模块803以及训练模块804;以下针对各个模块的功能进行详细的阐述:
获取模块801,用于从不同类型训练文本中获取多组样本集合,每组样本集合包括对应的正样本文本以及负样本文本,每个样本文本包括多个文本片段。
分类模块802,用于将样本集合中的文本片段输入至待训练模型中,对文本片段进行文本片段向量的获取,以及根据文本片段向量对文本片段进行分类。
确定模块803,用于根据分类结果,确定样本集合中不同样本文本之间的差异度。
训练模块804,用于根据差异度,对待训练模型进行训练,以进行信息分类。
在一些实例中,获取模块801,包括:遍历单元,用于遍历正样本集合中选择每个正样本文本,将每个正样本文本分别与负样本集合中的每个负样本文本进行配对;将配对后的正样本文本和负样本文本作为一组样本集合。
在一些实例中,该装置800还包括:分句模块,用于对样本集合中各个样本文本进行分句,将得到的句子作为文本片段。
在一些实例中,获取模块801,用于通过待训练模型中的词嵌入方式,获取每个文本片段中各个单词的词向量,将获取到的词向量作为文本片段向量。
在一些实例中,分类模块802,包括:获取单元,用于用于通过待训练模型,获取文本片段向量的特征数据;分类单元,用于根据特征数据,对文本片段进行分类。
在一些实例中,分类单元,用于通过待训练模型中的分类器,对特征数据所属类型进行打分;根据分值,对文本片段进行分类。
在一些实例中,确定模块803,包括:第一获取单元,用于针对一组样本集合,获取文本片段所属类型的分值;第一确定单元,用于确定该样本集合中正样本文本的最高分值以及负样本文本中的最高分值;根据正样本文本的最高分值与负样本文本的最高分值,确定最大差异度。
在一些实例中,获取模块801,还用于针对一组样本集合,获取文本片段所属类型的分值;获取该样本集合中负样本文本中属于目标类型文本片段的分值;确定模块803,还用于确定该负样本文本中属于目标类型文本片段的分值总和。其中,训练模块804,用于根据分值总和以及差异度,对待训练模型进行训练,生成分类模型。
在一些实例中,训练模块804,包括:第二确定单元,用于根据差异度,确定待训练模型的参数;生成单元,用于;根据参数,对待训练模型进行优化,生成分类模型。
在一些实例中,训练模块804,还包括:第二获取单元,用于针对一组样本集合,获取文本片段所属类型的分值,该分值通过待训练模型中的分类器得到;第二确定单元,用于根据负样本文本中属于目标类型文本片段的分值总和以及差异度,确定待训练模型的参数。生成单元,用于根据参数,将待训练模型进行优化,生成分类模型。
在一些实例中,第二确定单元,用于根据分值总和以及差异度,确定损失函数;根据损失函数以及预置参数学习算法,确定参数。
其中,待训练模型包括CNN神经网络模型。
图9示出了本申请又一示例性实施例提供的又一种信息的分类装置的结构框架示意图。该装置900可以应用于第一设备执行,如,服务器;该装置900包括:获取模块901以及分类模型902,以下针对各个模块的功能进行详细的阐述:
获取模块901,用于获取待分类文本中的文本片段。
分类模型902,用于根据训练后的分类模型,对文本片段的进行分类,确定文本片段的类型。
在一些实例中,分类模型902,用于根据分类模型,确定文本片段所属类型的分值;当分值大于分值阈值,则确定文本片段为目标文本片段;当分值小于或等于分值阈值,则确定文本片段为非目标文本片段。
图10示出了本申请又一示例性实施例提供的又一种信息的分类装置的结构框架示意图。该装置1000可以应用于第一设备执行,如,服务器;该装置1000包括:获取模块1001、分类模块1002、确定模块1003以及训练模块1004,以下针对各个模块的功能进行详细的阐述:
获取模块1001,用于从不同类型训练文本中获取多组样本集合,每组样本集合包括对应的正样本文本以及负样本文本,每个样本文本包括多个文本片段。
分类模块1002,用于将样本集合中的文本片段输入至待训练模型中,对文本片段进行文本片段向量的获取,以及根据文本片段向量对文本片段进行分类。
确定模块1003,用于根据分类结果,确定样本集合中不同样本文本之间的差异度。
训练模块1004,用于根据差异度,对待训练模型进行训练,得到分类模型。
获取模块1001,用于获取待分类文本中的文本片段。
确定模块1003,用于根据训练后的分类模型,对文本片段的进行分类,确定文本片段的类型。
图11示出了本申请又一示例性实施例提供的又一种信息的检测装置的结构框架示意图。该装置1100可以应用于第一设备执行,如,服务器;该装置1100包括:获取模块1101、确定模块1102、处理模块1103以及返回模块1104,以下针对各个模块的功能进行详细的阐述:
获取模块1101,用于接收到文本获取请求,获取待分类文本中的文本片段。
确定模块1102,用于根据建立后的信息的分类模型,对文本片段的进行分类,确定文本片段的类型。
处理模块1103,用于对所属于不良类型的文本片段进行处理。
返回模块1104,用于响应于获取请求,返回处理后的待分类文本。
图12示出了本申请又一示例性实施例提供的又一种信息的检测装置的结构框架示意图。该装置1200可以应用于终端电子设备执行,如,电脑;该装置1200包括:获取模块1201、调整模块1202,以下针对各个模块的功能进行详细的阐述:
获取模块1201,用于获取待检测文本,并发送待检测文本至检测设备,以使检测设备根据分类模型对待检测文本中的文本片段进行分类。
调整模块1202,用于接收待检测文本中的文本片段的分类结果,根据分类结果,对待检测文本中的不良文本片段进行调整,以满足检测规则。
此外,该装置1200还包括:发送模块,用于将调整后待检测文本发送至检测设备,以使检测设备根据分类模型对调整后待检测文本的文本片段进行分类;接收模块,用于接收分类结果,当分类结果中无不良文本片段,则将最终调整后待检测文本作为最终文本。
图13示出了本申请又一示例性实施例提供的又一种信息的检测装置的结构框架示意图。该装置1300可以应用于终端电子设备执行,如,电脑;该装置1300包括:提供模块1301、获取模块1302、发送模块1303以及展示模块1304,以下针对各个模块的功能进行详细的阐述:
提供模块1301,用于提供文本检测界面,文本检测界面展示了文本选择区域以及检测结果的获取控件。
获取模块1302,用于响应于文本选择操作,获取待检测文本。
发送模块1303,用于响应于获取操作,将待检测文本发送至检测设备,以使检测设备根据分类模型对调整后待检测文本的文本片段进行分类。
展示模块1304,用于接收并展示分类结果。
以上描述了图8所示的分类装置800的内部功能和结构,在一个可能的设计中,图8所示的分类装置800的结构可实现为服务器,如图14所示,该设备1400可以包括:存储器1401以及处理器1402;
存储器1401,用于存储计算机程序;
处理器1402,用于执行计算机程序,以用于:从不同类型训练文本中获取多组样本集合,每组样本集合包括对应的正样本文本以及负样本文本,每个样本文本包括多个文本片段;将样本集合中的文本片段输入至待训练模型中,对文本片段进行文本片段向量的获取,以及根据文本片段向量对文本片段进行分类;根据分类结果,确定样本集合中不同样本文本之间的差异度;根据差异度,对待训练模型进行训练,以进行信息分类。
在一些实例中,处理器1402,具体用于:遍历正样本集合中选择每个正样本文本,将每个正样本文本分别与负样本集合中的每个负样本文本进行配对;将配对后的正样本文本和负样本文本作为一组样本集合。
在一些实例中,处理器1402,还用于:对样本集合中各个样本文本进行分句,将得到的句子作为文本片段。
在一些实例中,处理器1402,具体用于:通过待训练模型中的词嵌入方式,获取每个文本片段中各个单词的词向量,将获取到的词向量作为文本片段向量。
在一些实例中,处理器1402,具体用于:通过待训练模型,获取文本片段向量的特征数据;根据特征数据,对文本片段进行分类。
在一些实例中,处理器1402,具体用于:通过待训练模型中的分类器,对特征数据所属类型进行打分;根据分值,对文本片段进行分类。
在一些实例中,处理器1402,具体用于:针对一组样本集合,获取文本片段所属类型的分值;确定该样本集合中正样本文本的最高分值以及负样本文本中的最高分值;根据正样本文本的最高分值与负样本文本的最高分值,确定最大差异度。
在一些实例中,处理器1402,还用于:针对一组样本集合,获取文本片段所属类型的分值;获取该样本集合中负样本文本中属于目标类型文本片段的分值;确定该负样本文本中属于目标类型文本片段的分值总和;其中,处理器1402,具体用于:根据分值总和以及差异度,对待训练模型进行训练,生成分类模型。
在一些实例中,处理器1402,具体用于:根据差异度,确定初始化分类模型的参数;根据参数,将待训练模型进行优化,生成分类模型。
在一些实例中,处理器1402,具体用于:针对一组样本集合,获取文本片段所属类型的分值,该分值通过待训练模型中的分类器得到;根据负样本文本中属于目标类型文本片段的分值总和以及差异度,确定待训练模型的参数;根据参数,将待训练模块进行优化,生成分类模型。
在一些实例中,处理器1402,具体用于:根据分值总和以及差异度,确定损失函数;根据损失函数以及预置参数学习算法,确定参数。
其中,待训练模型包括CNN神经网络模型。
另外,本发明实施例提供了一种计算机存储介质,计算机程序被一个或多个处理器执行时,致使一个或多个处理器实现图2方法实施例中信息的分类方法的步骤。
以上描述了分类装置900的内部功能和结构,在一个可能的设计中,分类装置900的结构可实现为服务器,如图15所示,该设备1500可以包括:存储器1501以及处理器1502;
存储器1501,用于存储计算机程序;
处理器1502,用于执行计算机程序,以用于:用于获取待分类文本中的文本片段;根据训练后的分类模型,对文本片段的进行分类,确定文本片段的类型。
在一些实例中,处理器1502,具体用于:根据分类模型,确定文本片段所属类型的分值;当分值大于分值阈值,则确定文本片段为目标文本片段;当分值小于或等于分值阈值,则确定文本片段为非目标文本片段。
另外,本发明实施例提供了一种计算机存储介质,计算机程序被一个或多个处理器执行时,致使一个或多个处理器实现图3方法实施例中信息的分类方法的步骤。
以上描述了分类装置1000的内部功能和结构,在一个可能的设计中,分类装置1000的结构可实现为服务器,如图16所示,该设备1600可以包括:存储器1601以及处理器1602;
存储器1601,用于存储计算机程序;
处理器1602,用于执行计算机程序,以用于:从不同类型训练文本中获取多组样本集合,每组样本集合包括对应的正样本文本以及负样本文本,每个样本文本包括多个文本片段;将样本集合中的文本片段输入至待训练模型中,对文本片段进行文本片段向量的获取,以及根据文本片段向量对文本片段进行分类;根据分类结果,确定样本集合中不同样本文本之间的差异度;根据差异度,对待训练模型进行训练,得到分类模型;获取待分类文本中的文本片段;根据训练后的分类模型,对文本片段的进行分类,确定文本片段的类型。
另外,本发明实施例提供了一种计算机存储介质,计算机程序被一个或多个处理器执行时,致使一个或多个处理器实现图4方法实施例中信息的分类方法的步骤。
以上描述了检测装置1100的内部功能和结构,在一个可能的设计中,检测装置1100的结构可实现为服务器,如图17所示,该设备1700可以包括:存储器1701以及处理器1702;
存储器1701,用于存储计算机程序;
处理器1702,用于执行计算机程序,以用于:接收到文本获取请求,获取待分类文本中的文本片段;根据建立后的信息的分类模型,对文本片段的进行分类,确定文本片段的类型;对所属于不良类型的文本片段进行处理;响应于获取请求,返回处理后的待分类文本。
另外,本发明实施例提供了一种计算机存储介质,计算机程序被一个或多个处理器执行时,致使一个或多个处理器实现图5方法实施例中信息的检测方法的步骤。
以上描述了检测装置1200的内部功能和结构,在一个可能的设计中,检测装置1200的结构可实现为终端设备,如电脑,如图18所示,该设备1800可以包括:存储器1801、处理器1802以及通信组件1803;
存储器1801,用于存储计算机程序;
处理器1802,用于执行计算机程序,以用于:获取待检测文本,并发送待检测文本至检测设备,以使检测设备根据分类模型对待检测文本中的文本片段进行分类;根据分类结果,对待检测文本中的不良文本片段进行调整,以满足检测规则。
通信组件1803,用于接收待检测文本中的文本片段的分类结果。
此外,处理1802,还用于将调整后待检测文本发送至检测设备,以使检测设备根据分类模型对调整后待检测文本的文本片段进行分类;接收分类结果,当分类结果中无不良文本片段,则将最终调整后待检测文本作为最终文本。
另外,本发明实施例提供了一种计算机存储介质,计算机程序被一个或多个处理器执行时,致使一个或多个处理器实现图6方法实施例中信息的检测方法的步骤。
以上描述了检测装置1300的内部功能和结构,在一个可能的设计中,检测装置1300的结构可实现为服务器,如图19所示,该设备1900可以包括:存储器1901、处理器1902以及通信组件1903;
存储器1901,用于存储计算机程序;
处理器1902,用于执行计算机程序,以用于:提供文本检测界面,文本检测界面展示了文本选择区域以及检测结果的获取控件;响应于文本选择操作,获取待检测文本;响应于获取操作,将待检测文本发送至检测设备,以使检测设备根据分类模型对调整后待检测文本的文本片段进行分类;展示分类结果。
通信组件1903,用于接收分类结果。
另外,本发明实施例提供了一种计算机存储介质,计算机程序被一个或多个处理器执行时,致使一个或多个处理器实现图7方法实施例中信息的检测方法的步骤。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如201、202、203等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程多媒体数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程多媒体数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程多媒体数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程多媒体数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (24)

1.一种信息的分类方法,其特征在于,包括:
从不同类型训练文本中获取多组样本集合,每组样本集合包括对应的正样本文本以及负样本文本,每个样本文本包括多个文本片段;
将所述样本集合中的文本片段输入至待训练模型中,对所述文本片段进行文本片段向量的获取,以及根据所述文本片段向量获得所述文本片段所属类型的分值,根据所述分值得到对所述文本片段进行分类的分类结果;
根据文本片段属于类型的分值,确定样本集合中不同样本文本之间的差异度以及负样本文本中属于目标类型文本片段的分值总和;
根据所述差异度以及所述分值总和,对所述待训练模型进行训练,得到分类模型以进行信息分类。
2.根据权利要求1所述的方法,其特征在于,所述获取多组样本集合,包括:
遍历正样本集合中选择每个正样本文本,将所述每个正样本文本分别与负样本集合中的每个负样本文本进行配对;
将配对后的正样本文本和负样本文本作为一组样本集合。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述样本集合中各个样本文本进行分句,将得到的句子作为文本片段。
4.根据权利要求1所述的方法,其特征在于,所述对所述文本片段进行文本片段向量的获取,包括:
通过待训练模型中的词嵌入方式,获取每个文本片段中各个单词的词向量,将获取到的词向量作为文本片段向量。
5.根据权利要求1所述的方法,其特征在于,所述根据所述文本片段向量获得所述文本片段所属类型的分值,包括:
通过待训练模型,获取所述文本片段向量的特征数据;
根据所述特征数据,获得所述文本片段所属类型的分值。
6.根据权利要求5所述的方法,其特征在于,所述根据所述特征数据,获得所述文本片段所属类型的分值,包括:
通过所述待训练模型中的分类器,对所述特征数据所属类型进行打分,获得所述文本片段所属类型的分值。
7.根据权利要求6所述的方法,其特征在于,所述根据文本片段属于类型的分值,确定样本集合中不同样本文本之间的差异度,包括:
针对一组样本集合,获取文本片段所属类型的分值;
确定该样本集合中正样本文本的最高分值以及负样本文本中的最高分值;
根据正样本文本的最高分值与负样本文本的最高分值,确定最大差异度。
8.根据权利要求1所述的方法,其特征在于,根据所述差异度以及所述分值总和,对所述待训练模型进行训练,得到分类模型,包括:
根据所述差异度以及所述分值总和,确定所述待训练模型的参数;
根据所述参数,对所述待训练模型进行优化,得到分类模型。
9.根据权利要求8所述的方法,其特征在于,所述确定所述待训练模型的参数,包括:
根据所述分值总和以及差异度,确定损失函数;
根据所述损失函数以及预置参数学习算法,确定所述参数。
10.根据权利要求1所述的方法,其特征在于,所述待训练模型包括CNN神经网络模型。
11.一种信息的分类方法,其特征在于,包括:
获取待分类文本中的文本片段;
根据权利要求1-10中任一项所述的方法得到的分类模型,对所述文本片段的进行分类,确定所述文本片段的类型。
12.根据权利要求11所述的方法,其特征在于,所述对所述文本片段的进行分类,包括:
根据所述分类模型,确定所述文本片段所属类型的分值;
当所述分值大于分值阈值,则确定所述文本片段为目标文本片段;
当所述分值小于或等于分值阈值,则确定所述文本片段为非目标文本片段。
13.一种信息的分类方法,其特征在于,包括:
从不同类型训练文本中获取多组样本集合,每组样本集合包括对应的正样本文本以及负样本文本,每个样本文本包括多个文本片段;
将所述样本集合中的文本片段输入至待训练模型中,对所述文本片段进行文本片段向量的获取,以及根据所述文本片段向量获得所述文本片段所属类型的分值,根据所述分值得到对所述文本片段进行分类的分类结果;
根据文本片段属于类型的分值,确定样本集合中不同样本文本之间的差异度以及负样本文本中属于目标类型文本片段的分值总和;
根据所述差异度以及所述分值总和,对所述待训练模型进行训练,得到分类模型;
获取待分类文本中的文本片段;
根据训练得到的分类模型,对所述文本片段的进行分类,确定所述文本片段的类型。
14.一种信息的检测方法,其特征在于,包括:
接收到文本获取请求,获取待分类文本中的文本片段;
根据权利要求1-10中任一项所述的方法得到的分类模型,对所述文本片段的进行分类,确定所述文本片段的类型;
对所属于不良类型的文本片段进行处理;
响应于所述获取请求,返回处理后的待分类文本。
15.一种信息的检测方法,其特征在于,包括:
获取待检测文本,并发送所述待检测文本至检测设备,以使所述检测设备根据权利要求1-10中任一项所述的方法得到的分类模型对所述待检测文本中的文本片段进行分类;
接收所述待检测文本中的文本片段的分类结果,根据所述分类结果,对所述待检测文本中的不良文本片段进行调整,以满足检测规则。
16.根据权利要求15所述的方法,其特征在于,所述方法还包括:
将调整后待检测文本发送至所述检测设备,以使所述检测设备根据所述分类模型对调整后待检测文本的文本片段进行分类;
接收分类结果,当分类结果中无不良文本片段,则将最终调整后待检测文本作为最终文本。
17.一种信息的检测方法,其特征在于,包括:
提供文本检测界面,所述文本检测界面展示了文本选择区域以及检测结果的获取控件;
响应于文本选择操作,获取待检测文本;
响应于获取操作,将所述待检测文本发送至检测设备,以使所述检测设备根据权利要求1-10中任一项所述的方法得到的分类模型对调整后待检测文本的文本片段进行分类;
接收并展示分类结果。
18.一种计算设备,包括存储器以及处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以用于:
从不同类型训练文本中获取多组样本集合,每组样本集合包括对应的正样本文本以及负样本文本,每个样本文本包括多个文本片段;
将所述样本集合中的文本片段输入至待训练模型中,对所述文本片段进行文本片段向量的获取,以及根据所述文本片段向量获得所述文本片段所属类型的分值,根据所述分值得到对所述文本片段进行分类的分类结果;
根据文本片段属于类型的分值,确定样本集合中不同样本文本之间的差异度以及负样本文本中属于目标类型文本片段的分值总和;
根据所述差异度以及所述分值总和,对所述待训练模型进行训练,得到分类模型以进行信息分类。
19.一种计算设备,包括存储器以及处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以用于:
获取待分类文本中的文本片段;
根据权利要求1-10中任一项所述的方法得到的分类模型,对所述文本片段的进行分类,确定所述文本片段的类型。
20.一种计算设备,包括存储器以及处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以用于:
从不同类型训练文本中获取多组样本集合,每组样本集合包括对应的正样本文本以及负样本文本,每个样本文本包括多个文本片段;
将所述样本集合中的文本片段输入至待训练模型中,对所述文本片段进行文本片段向量的获取,以及根据所述文本片段向量获得所述文本片段所属类型的分值,根据所述分值得到对所述文本片段进行分类;
根据分类结果,确定样本集合中不同样本文本之间的差异度;
根据所述差异度,对所述待训练模型进行训练,得到分类模型;
获取待分类文本中的文本片段;
根据训练得到的分类模型,对所述文本片段的进行分类,确定所述文本片段的类型。
21.一种计算设备,包括存储器以及处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以用于:
接收到文本获取请求,获取待分类文本中的文本片段;
根据权利要求1-10中任一项所述的方法得到的分类模型,对所述文本片段的进行分类,确定所述文本片段的类型;
对所属于不良类型的文本片段进行处理;
响应于所述获取请求,返回处理后的待分类文本。
22.一种计算设备,包括存储器、处理器以及通信组件;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以用于:
获取待检测文本,并发送所述待检测文本至检测设备,以使所述检测设备根据权利要求1-10中任一项所述的方法得到的分类模型对所述待检测文本中的文本片段进行分类;
根据所述分类结果,对所述待检测文本中的不良文本片段进行调整,以满足检测规则;
所述通信组件,用于接收所述待检测文本中的文本片段的分类结果。
23.一种计算设备,包括存储器、处理器以及通信组件;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以用于:
提供文本检测界面,所述文本检测界面展示了文本选择区域以及检测结果的获取控件;
响应于文本选择操作,获取待检测文本;
响应于获取操作,将所述待检测文本发送至检测设备,以使所述检测设备根据权利要求1-10中任一项所述的方法得到的分类模型对调整后待检测文本的文本片段进行分类;
展示分类结果;
所述通信组件,用于接收分类结果。
24.一种存储有计算机程序的计算机可读存储介质,其特征在于,计算机程序被一个或多个处理器执行时,致使所述一个或多个处理器实现权利要求1-17任一项所述方法中的步骤。
CN201911120274.3A 2019-11-15 2019-11-15 信息的分类方法、检测方法、计算设备及存储介质 Active CN112818114B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911120274.3A CN112818114B (zh) 2019-11-15 2019-11-15 信息的分类方法、检测方法、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911120274.3A CN112818114B (zh) 2019-11-15 2019-11-15 信息的分类方法、检测方法、计算设备及存储介质

Publications (2)

Publication Number Publication Date
CN112818114A CN112818114A (zh) 2021-05-18
CN112818114B true CN112818114B (zh) 2024-05-24

Family

ID=75851707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911120274.3A Active CN112818114B (zh) 2019-11-15 2019-11-15 信息的分类方法、检测方法、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN112818114B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022252051A1 (zh) * 2021-05-31 2022-12-08 京东方科技集团股份有限公司 数据处理方法、装置、设备及存储介质
CN113672736B (zh) * 2021-09-09 2023-08-22 上海德拓信息技术股份有限公司 一种文本多标签分类方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871444A (zh) * 2019-01-16 2019-06-11 北京邮电大学 一种文本分类方法及系统
WO2019214145A1 (zh) * 2018-05-10 2019-11-14 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019214145A1 (zh) * 2018-05-10 2019-11-14 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN109871444A (zh) * 2019-01-16 2019-06-11 北京邮电大学 一种文本分类方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SOTorrent: Studying the Origin, Evolution, and Usage of Stack Overflow Code Snippets;Sebastian Baltes;IEEE;20190829;全文 *
基于区域卷积神经网络的车辆检测方法;封晶;;科技广场;20170330(第03期);全文 *

Also Published As

Publication number Publication date
CN112818114A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
US11238211B2 (en) Automatic hyperlinking of documents
CN107301225B (zh) 短文本分类方法及装置
US11238310B2 (en) Training data acquisition method and device, server and storage medium
US12067360B2 (en) Recipient based text prediction for electronic messaging
US20230385553A1 (en) Techniques to add smart device information to machine learning for increased context
US20200004882A1 (en) Misinformation detection in online content
CN111615706A (zh) 基于子流形稀疏卷积神经网络分析空间稀疏数据
CN107683469A (zh) 一种基于深度学习的产品分类方法及装置
CN111444357A (zh) 内容信息确定方法、装置、计算机设备及存储介质
CN110019790B (zh) 文本识别、文本监控、数据对象识别、数据处理方法
CN109471944A (zh) 文本分类模型的训练方法、装置及可读存储介质
CN114627282B (zh) 目标检测模型的建立方法、应用方法、设备、装置及介质
CN112818114B (zh) 信息的分类方法、检测方法、计算设备及存储介质
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN115456043A (zh) 分类模型处理、意图识别方法、装置和计算机设备
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN114564586A (zh) 一种非结构化敏感数据识别方法及系统
Du et al. Structure tuning method on deep convolutional generative adversarial network with nondominated sorting genetic algorithm II
Miranda-García et al. Deep learning applications on cybersecurity: A practical approach
Chiu et al. Smoclust: synthetic minority oversampling based on stream clustering for evolving data streams
CN111143560B (zh) 一种短文本分类方法、终端设备及存储介质
Sun [Retracted] Construction of Digital Platform of Religious and Cultural Resources Using Deep Learning and Its Big Data Analysis
CN117746266B (zh) 一种基于半监督交互学习的树冠检测方法、装置及介质
CN114328916B (zh) 事件抽取、及其模型的训练方法,及其装置、设备和介质
CN115796272B (zh) 基于深度学习平台的模型训练方法、数据处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant