CN114328816A - 数据处理方法、装置、电子设备及计算机可读存储介质 - Google Patents

数据处理方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN114328816A
CN114328816A CN202111398929.0A CN202111398929A CN114328816A CN 114328816 A CN114328816 A CN 114328816A CN 202111398929 A CN202111398929 A CN 202111398929A CN 114328816 A CN114328816 A CN 114328816A
Authority
CN
China
Prior art keywords
text
detected
deep learning
learning model
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111398929.0A
Other languages
English (en)
Inventor
黎志宙
刘卓
何方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111398929.0A priority Critical patent/CN114328816A/zh
Publication of CN114328816A publication Critical patent/CN114328816A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种数据处理方法、装置、电子设备及计算机可读存储介质,涉及人工智能、自然语言处理、云技术领域。该方法包括获取待检测文本,基于预设文本库对该待检测文本进行检测,若确定该待检测文本为属于误判类型的文本,将该预定误判类型确定为该待检测文本的分类结果;若确定该待检测文本不属于误判类型的文本,基于深度学习模型,确定该待检测文本的分类结果。由于预设文本库包括标记为属于预定误判类型的文本对应的文本数据,属于预定误判类型的文本,是通过深度学习模型确定的文本分类结果存在误判可能的文本,因此,本申请实施例所提供的方案能够避免对属于预定误判类型的待检测文本造成误判。

Description

数据处理方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及人工智能、自然语言处理、云技术领域,具体而言,本申请涉及一种数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
随着科学技术的发展,在线学习(online learning)已经逐渐成为一个热门的深度学习研究领域。
相关技术中,通常直接基于训练好的模型,对线上数据进行识别,以得到线上数据的分类结果,虽然该方式能够在一定程度上实现对线上数据的分类处理,但是目前的识别效果仍不够理想,不能够满足实用需求。
发明内容
本申请实施例提供了一种数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够更好地对待检测文本进行识别,避免对待检测文本造成误判,更好地满足了实用需求。
根据本申请实施例的一个方面,提供了一种数据处理方法,该方法包括:
获取待检测文本;
基于预设文本库对待检测文本进行检测,其中,预设文本库包括标记为属于预定误判类型的文本对应的文本数据;
确定待检测文本属于预定误判类型的文本,将该预定误判类型确定为待检测文本的分类结果;
确定待检测文本为不属于预定误判类型的文本,基于深度学习模型,确定待检测文本的分类结果;
其中,属于预定误判类型的文本,是通过深度学习模型确定的文本分类结果存在误判可能的文本。
根据本申请实施例的另一个方面,提供了一种数据处理装置,该装置包括:
文本获取模块,用于获取待检测文本;
文本检测模块,用于基于预设文本库对待检测文本进行检测,其中,预设文本库包括标记为属于预定误判类型的文本对应的文本数据;
分类确定模块用于确定待检测文本属于预定误判类型的文本,将该预定误判类型确定为待检测文本的分类结果;以及,
确定待检测文本不属于预定误判类型的文本,基于深度学习模型,确定待检测文本的分类结果;
其中,属于预定误判类型的文本,是通过深度学习模型确定的文本分类结果存在误判可能的文本。
可选地,文本数据为包括目标关键词库或目标文本库中的至少一项,文本检测模块在基于预设文本库对待检测文本进行检测时,具体用于:
基于文本数据,对待检测文本进行检测;
确定待检测文本满足以下至少一项:
待检测文本中包括目标关键词库中的任一目标关键词;
待检测文本与目标文本库中的任一目标文本相匹配;
将待检测文本确定为属于预定误判类型的文本。
可选地,目标文本库包括至少一个目标文本的文本向量,文本检测模块在确定待检测文本与目标文本库中的任一目标文本相匹配时,具体用于:
根据待检测文本,生成待检测文本对应的文本向量;
基于目标文本库,对待检测文本对应的文本向量进行文本向量的相似度匹配;
确定待检测文本对应的文本向量与目标文本库中的任一目标文本对应的文本向量的相似度大于或等于预定相似度阈值,则确定待检测文本与目标文本库中的任一目标文本相匹配。
可选地,该装置还包括语料库更新模块和模型更新模块,若确定待检测文本为属于预定误判类型的文本,
语料库更新模块,用于将待检测文本以及待检测文本的分类结果存储至语料库,得到更新后的语料库;
模型更新模块,用于基于更新后的语料库,更新训练深度学习模型,得到更新后的深度学习模型。
可选地,该装置还包括文本库更新模块,该文本库更新模块用于:
若接收到针对待检测文本的分类结果属于误判的反馈信息,则对待检测文本进行解析,确定待检测文本中的关键词;
将待检测文本中的关键词存储至目标关键词库中,更新目标关键词库;
将待检测文本存储至目标文本库,更新目标文本库。
可选地,该装置还可以包括场景信息获取模块和融合模块,
场景信息获取模块,用于获取待检测文本的文本场景信息;
融合模块,用于基于待检测文本的分类结果以及待检测文本的文本场景信息,得到融合结果,以根据融合结果对待检测文本执行相对应的处理。
可选地,深度学习模型是通过以下方式训练得到的;
获取训练样本,训练样本包括至少一个样本数据以及各样本数据的真实分类结果;
基于训练样本,对第一深度学习模型进行迭代训练,直至满足预设的训练结束条件,得到上述深度学习模型。
可选地,基于训练样本,对第一深度学习模型进行迭代训练,直至满足预设的训练结束条件,包括:
按照第一预设比例将训练样本分割为训练集和评估集;
根据训练集对第一深度学习模型进行训练,直至满足第一训练条件,得到第二深度学习模型;
按照预设评估指标,基于评估集对第二深度学习模型进行评估,在指标评估结果满足第二训练条件时,将第二深度学习模型确定为深度学习模型;
在指标评估结果不满足第二训练条件时,对第二深度学习模型的模型参数进行调整,并基于训练集继续对调整后的模型进行训练;
训练结束条件包括第一训练条件和第二训练条件。
可选地,评估集包括验证集或测试集中的至少一项,预设评估指标包括验证评估指标或测试评估指标中的至少一项;
按照预设评估指标,基于评估集对第二深度学习模型进行评估,包括以下至少一项:
按照验证评估指标,基于验证集对第二深度学习模型进行评估,得到第一评估结果;
按照测试评估指标,基于测试集对第二深度学习模型进行评估,得到第二评估结果;
其中,第二训练条件包括第一评估条件或第二评估条件中的至少一项,指标评估结果满足第二训练条件包括:第一评估结果满足第一评估条件或第二评估结果满足第二评估条件中的至少一项。
可选地,模型更新模块在基于更新后的语料库,更新训练深度学习模型,得到更新后的深度学习模型时,具体用于:
基于更新后的语料库,获取更新后的训练样本,其中,更新后的训练样本包括至少一个待检测文本以及各待检测文本的分类结果;
根据更新后的训练样本,更新训练深度学习模型,得到更新后的深度学习模型。
根据本申请实施例的另一个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行计算机程序以实现上述方法的步骤。
根据本申请实施例的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
根据本申请实施例的另一个方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本申请实施例提供的技术方案带来的有益效果是:
在本申请实施例提供的技术方案中,由于预设文本库中包括被标记为预定误判类型的文本对应的文本数据,属于预定误判类型的文本,是通过深度学习模型确定的文本分类结果存在分类误判可能的文本,因此,基于预设文本库对该待检测文本进行检测的结果,确定该待检测文本属于预定误判类型的文本的情况下,直接将该预定误判类型确定为待检测文本的分类结果,在确定待检测文本不属于预定误判类型的文本的情况下,基于深度学习模型,确定该待检测文本的分类结果。而不必在确定该待检测文本属于预定误判类型的文本的情况下,再次基于该深度学习模型对该待检测文本进行分类识别,实现即时的线上热修复,提高了对待检测文本进行分类的识别精确度,为在多种实现场景下更好地满足产品对文本的识别需求提供了前提保证。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1示出了该场景下的一种可选的数据处理系统的结构示意图;
图2示出了该应用场景下的数据处理方法的流程图;
图3示出了本申请实施例提供的数据处理方法的流程图;
图4示出本申请实施例中得到深度学习模型的训练过程的示意图;
图5a至图5e示出了本申请一具体应用场景的示意图;
图6示出了本申请实施例提供的数据处理装置的示意图;
图7示出了该可选实施例提供的电子设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”指示实现为“A”,或者实现为“A”,或者实现为“A和B”。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
bad case:算法领域的一个术语,用于表示在推理阶段产生的与预期结果不同的结果。例如,一个文本分类任务,应该让文本A分为正类,结果算法分成了负类,这就是一条bad case。在本申请实施例中,bad case表示若某一条文本的标签不符合预期的标签,则该文本为bad case。
相关技术中,通常直接根据训练好的模型,对线上数据进行识别,以得到线上数据的分类结果。但直接通过该方式进行线上数据的识别效果仍不够理想,不能够满足实用需求。
针对上述问题,本申请提供了一种数据处理方法,由于预设文本库中包括被标记为预定误判类型的文本对应的文本数据,属于预定误判类型的文本,是通过深度学习模型确定的文本分类结果存在分类误判可能的文本,因此,先基于预设文本库对获取的待检测文本进行检测,确定该待检测文本是否属于预定误判类型的文本(即,bad case),再基于该检测结果,确定该待检测文本属于预定误判类型的文本的情况下,将该预定误判类型确定为待测文本的分类结果,在待检测文本不属于预定误判类型的文本的情况下,基于深度学习模型,确定该待检测文本的分类结果。而不必在确定该待检测文本属于预定误判类型的文本的情况下,再次通过该深度学习模型对该待检测文本进行分类识别,实现即时的线上热修复,提高了对待检测文本进行分类识别的识别精确度,为在多种实现场景下更好地满足产品对文本的识别需求提供了前提保证。
可选的,本申请实施例提供的数据处理方法,可以基于人工智能(ArtificialIntelligence,AI)技术实现。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。随着人工智能技术研究和进步,人工智能技术已经在多个领域广泛展开研究和应用,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
可选的,本申请实施例提供的数据处理方法,可以基于自然语言处理(NatureLanguage processing,NLP)的技术实现。NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
可选的,本申请实施例提供的数据处理方法可以基于云技术(Cloud technology)实现,比如,在对深度学习模型进行更新训练的过程中所涉及的数据计算可以采用云计算(Cloud computing)方式。云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。云计算则是指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
为便于理解本申请实施例提供的数据处理方法的应用价值,下面先结合一个具体应用场景实施例对该数据处理方法进行说明。
图1示出了该场景下的一种可选的数据处理系统的结构示意图,如图1所示,该系统包括用户的终端设备11、网络12、应用服务器13以及模型训练服务器14,终端设备11通过网络12与应用服务器13进行通信,应用服务器13和模型训练服务器14之间可以实现交互,例如,应用服务器13可以接收到模型训练服务器14发送的深度学习模型/更新后的深度学习模型。其中,终端设备11中可以安装有用于进行数据处理的应用程序,或者在该终端设备11中的某一应用程序中设置有用于进行数据处理的插件。通过打开该用于进行数据处理的应用程序或者设置有上述用于进行数据处理的插件的应用程序,以启动终端进行上述数据处理方法。其中,终端设备11可以是用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备或者可穿戴设备等。该数据处理方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
其中,模型训练服务器14可以用于基于训练文本对深度学习模型进行训练,得到深度学习模型,以及基于更新后的训练文本对深度学习模型进行更新训练,得到更新后的深度学习模型,并将深度学习模型以及更新后的深度学习模型发送至应用服务器13。应用服务器13在接收到深度学习模型以及更新后的深度学习模型之后,可以将深度学习模型以及更新后的深度学习模型进行部署,以执行本申请实施例所提供的数据处理方法,基于预设文本库对待检测文本进行检测,并基于该检测结果直接确定待检测文本的分类结果,或者,根据深度学习模型(或更新后的深度学习模型)对待检测文本进行检测,确定待检测文本的分类结果,并根据该待检测文本的分类结果执行后续处理,其中,预设文本库中包括标记为属于预定误判类型的文本。例如,该系统可以应用于手机即时通讯中,用于对即时通讯中共享区域已发布或即将发布的文本进行检测,在获取到待检测文本的分类结果之后,根据该待检测文本的分类结果执行限制发送、停止发送、发出警告、封锁账号、注销账号等操作。
下面结合图1所示的数据处理系统,对该应用场景下的数据处理方法进行说明。图2示出了该应用场景下的数据处理方法的流程图。如图2所示,该方法,可以包括如下步骤S21至步骤S26。
步骤S21:获取待检测文本。
步骤S22:根据预设文本库对待检测文本进行检测,其中,该预设文本库包括标记为属于预定误判类型的文本对应的文本数据,该文本数据包括目标关键词库(在根据关键词库对待检测文本进行检测时,也可以称为关键词检测)和目标文本库(在根据文本库对待检测文本对应的文本向量进行文本向量的相似度匹配时,也可以称为文本相似度检测)。
步骤S23:若根据预设文本库确定该待检测文本为属于预定误判类型的文本,则将该预定误判类型确定为待检测文本的分类结果;
若根据预设文本库确定该待检测文本为不属于预定误判类型的文本,则基于深度学习模型,确定该待检测文本的分类结果。
步骤S24:在确定该待检测文本属于预定误判类型的文本时,将待检测文本以及待检测文本的分类结果存储至语料库(也即,图2中的语料管理系统),并分别将待检测文本以及待检测文本的分类结果(也即,图2中的新语料、累计语料),以及至少一个预设文本以及各预设文本的分类结果(也即,图2中的历史语料)进行第一混合操作;以及,将待检测文本中的关键词以及各关键词对应的分类结果,以及至少一个预设关键词以及各预设关键词的分类结果进行第二混合操作,将第一混合操作的结果和第二混合操作的结果作为更新后的语料库,基于更新后的语料库形成更新后的训练样本,更新训练深度学习模型,得到更新后的深度学习模型(也即,图2中的训练脚本)。并在后续的检测过程(若根据预设文本库确定该待检测文本为不属于预定误判类型的文本)中,根据更新后的深度学习模型(也即,图2中测试通过后上线)对待检测文本进行检测。
其中,在更新训练深度学习模型的过程中,可以将更新后的训练样本分割为更新后的训练集、更新后的验证集与更新后的测试集,并根据更新后的训练集对深度学习模型进行训练,得到更新后的第二深度学习模型;基于该更新后的第二深度学习模型以及更新后的验证集,调整和选择更新后的第二深度学习模型的超参数,得到满足验证指标的第二深度学习模型;基于该满足验证指标的深度学习模型以及更新后的测试集,对满足验证指标的深度学习模型进行泛化能力的评估,将满足评估指标的深度学习模型确定为更新后的深度学习模型。
步骤S25:获取包括待检测文本的文本场景信息的其余特征。
具体地,获取以下至少一项待检测文本的文本场景信息:
分享类信息;讨论类信息;交互类信息;陈述类信息;说明类信息;互动信息。
步骤S26:基于待检测文本的分类结果以及待检测文本的文本场景信息,得到融合结果,以根据融合结果对待检测文本执行相对应的处理。
具体地,基于待检测文本的分类结果以及待检测文本的文本场景信息,通过预定融合方式进行信息融合,得到融合结果,以根据融合结果对待检测文本执行相对应与融合结果相匹配的业务处理。
其中,预定融合方式的可选实现方式包括:提取待检测文本的分类结果的分类特征以及待检测文本的文本场景信息的场景特征;基于分类特征和场景特征,生成融合特征,基于该融合特征,确定融合结果。
可选地,可以基于融合特征确定一个新的分类结果,将该新的分类结果作为上述融合结果,也就是待检测文本最终的分类结果。
作为另一可选方式,可以是通过深度学习模型得到待检测文本的分类结果,并基于待检测文本的文本场景信息的场景特征确定另一分类结果,根据待检测文本的分类结果和该另一分类结果,确定待检测文本最终的分类结果。
其中,文本场景信息包括但不限于任一分享类信息(可以是在共享平台发布的信息、即时通讯工具的共享空间中发布的信息、PGC(专业生成内容)平台发布的信息、UGC(用户原创内容)平台发表的信息等)、讨论类信息(可以是针对PGC中发布的信息所产生的评论、针对即时通讯工具的共享平台中发布的信息的评论、针对UGC平台中发布的某一话题的研讨等)、交互类信息(可以为即时通讯工具的交互过程中的信息,例如文本、表情、动图、语音等)、陈述类或说明类信息(可以是发布的小说或文章)等,以及针对任一分享类信息、讨论类信息、交互类信息、陈述类或说明类信息等的互动信息,其中,互动信息可以包括发布频率、收到的点赞数量、收到的评论数量等所有针对上述文本场景信息的互动信息。可选地,文本场景信息可以包括该待检测文本对应的历史文本场景信息。
可选地,根据融合结果执行下游业务的处理可以包括:对待检测文本执行相对应的处理(可以包括但不限于以下至少一种操作:限制发送、停止发送、撤销发送等的提示信息),以及,对发送该待检测文本的账户执行相对应的处理(可以包括但不限于以下至少一种操作:发出警告、封锁账号、注销账号等)。例如,若确定将待检测文本的分类结果与其余特征进行融合得到的融合结果,进一步确定当前待检测文本为不可发送文本,则可以通过相应的后台服务器向发布待检测文本的终端设备发出“停止发送”的提示信息。
其中,步骤S21、步骤S22、步骤S23、步骤S25和步骤S26可以形成该数据处理系统的部署端,步骤S24可以形成该数据处理系统的训练端。步骤S22、步骤S23和步骤S26可以由应用服务器14实现,步骤S21和步骤S25可以通过终端设备11实现,步骤S24可以通过模型训练服务器13实现。
在本申请实施例提供的数据处理方法中,由于预设文本库中包括被标记为预定误判类型的文本对应的文本数据,属于预定误判类型的文本,是通过深度学习模型确定的文本分类存在分类误判可能的文本,因此,基于预设文本库对该待检测文本进行检测,确定该待检测文本是否属于预定误判类型的文本。基于预设文本库对该待检测文本进行检测的结果,确定该待检测文本属于预定误判类型的文本的情况下,直接将该预定误判类型确定为待测文本的分类结果,在待检测文本不属于预定误判类型的文本的情况下,基于深度学习模型,确定该待检测文本的分类结果。而不必在确定该待检测文本属于预定误判类型的文本的情况下,再次基于该深度学习模型对该待检测文本进行识别,实现即时的线上热修复,提高了对待检测文本进行分类的识别精确度,为在多种实现场景下更好地满足产品对文本的识别需求提供了前提保证。
通过基于待检测文本的分类结果以及该待检测文本的文本场景信息,得到融合结果,并根据该融合结果对待检测文本执行相对应的处理,可以对部分不良信息进行打击,维护语言环境。
且,通过对更新后的训练样本进行分割,可以更精确地对深度学习模型进行更新迭代训练,提升了对深度学习模型更新迭代的效率,持续优化了深度学习模型以及评判深度学习模型的覆盖率和精准率。并且,通过持续更新迭代深度学习模型,可以完成该系统的闭环处理,在确定待检测文本为不属于预定误判类型的文本时,可以更精确地根据更新后的深度学习模型确定该待检测文本的分类结果。
下面通过对几个示例性实施方式的描述,对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
图3示出了本申请实施例提供的数据处理方法的流程图。该数据处理方法的执行主体可以是数据处理装置。可选地,该数据处理装置可以包括但不限于终端设备或服务器,可选的,该服务器可以是云服务器。其中,终端设备可以是用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal DigitalAssistant,PDA)、手持设备、计算设备或者可穿戴设备等。该数据处理方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
可选的,该方法可以由用户终端执行,比如用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、可穿戴电子设备、AR/VR设备等。
如图3所示,本申请提供了一种数据处理方法,该方法包括以下步骤S31至步骤S33。
步骤S31:获取待检测文本。
可选地,待检测文本可以为任意文本,本申请对此不做限制。例如,该待检测文本可以为线上文本(比如,直播过程中的实时评论、准备发送的朋友圈/微博/日志等),该待检测文本也可以为线下文本(比如,任意一个文档、图片中的文字等)。基于此,本申请所提出的数据处理方法可以应用视频直播等实时性较强的场景中(例如,直播过程中,实时过滤直播评论),也可以应用于其他场景中。
其中,本申请对待检测文本的语言形式不做限制,其中,语言形式可以包括不同语种、不同字符组合等。例如,该待检测文本可以为中文、英文、西班牙语等至少一种语种组合的文本,该待检测文本也可以为汉字、字母、数字等至少一种字符组合的文本。
步骤S32:基于预设文本库对待检测文本进行检测,其中,预设文本库包括标记为属于预定误判类型的文本对应的文本数据。
可选地,本申请对预设文本库中标记为属于预定误判类型的文本的语言形式也不做限制,例如,该预设文本库中标记为属于预定误判类型的文本可以为中文、英文、西班牙语等至少一种语种组合的文本,该预设文本库中的文本也可以为汉字、字母、数字等至少一种字符组合的文本。
其中,在基于预设文本库对待检测文本进行检测时,可以根据待检测文本中是否包括标记为属于预定误判类型的文本对应的文本数据,待检测文本与标记为预定误判类型的文本对应的文本数据之间的相似度是否超过一定阈值等确定待检测文本是否处于预定误判类型的文本。
步骤S33:确定待检测文本为属于预定误判类型的文本,将该预定误判类型确定为待检测文本的分类结果;
确定待检测文本为不属于预定误判类型的文本,基于深度学习模型,确定待检测文本的分类结果;
其中,属于预定误判类型的文本,是通过深度学习模型确定的文本分类结果存在误判可能的文本。
可选地,预定误判类型包括至少一种,可以根据实际情况确定,本申请对此不做限制。例如,预定误判类型可以包括正常文本被深度学习模型误判为异常文本的文本所属的类型,也可以包括异常文本被深度学习模型误判为正常文本的文本所属的类型。
可选地,待检测文本的分类结果,即待检测文本的文本类型、待检测文本所属的类型,可以用标签表示,其中,本申请对标签的形式不做限制,例如,可以为用字母、数字、字母与数字的组合等表示标签。例如,可以用0表示刷单文本、1表示天气文本,2表示心情文本等,本申请对此不做限制。
可选地,深度学习模型可以是基于包含大量训练样本的训练数据集对第一深度学习模型进行训练得到的。其中,对于第一深度学习模型的具体网络结构本申请实施例不做限定,可以根据实际需求配置。可选地,第一深度学习模型可以是基于卷积神经网络的模型,可以包括但不限于基于CNN(Convolutional Neural Network,卷积神经网络),RNN(Recurrent Neural Network,循环神经网络),S-ANN(Self-Attention Netural Network,自注意力神经网络)等模型结构的神经网络模型。其中,该第一深度学习模型的输入可以为一段文本或者是将一段文本进行向量化处理后的文本数据,输出可以为文本类型和/或对应各文本类型的置信度,完成文本数据——文本的分类的映射。也即,通过将待检测文本输入至该第一深度学习模型中,可以得到该待检测文本的文本类型或者对应于各文本类型的置信度。可选地,可以将各文本类型的置信度中置信度最高的文本类型或者置信度超过置信度阈值的文本确定为该待检测文本对应的文本类型。其中,置信度越高,所得到的文本类型越准确。可选地,置信度阈值可以根据实际需求配置(比如可以是经验值或实验值),本申请对此不做限制。例如,可以设置置信度阈值为0.75。
在调用深度学习模型对文本进行分类处理时,存在分类误判可能的情况包括但不限于以下几种情况:
情况一:对于一些在特殊领域(比如,军事、政治领域)为敏感文本的待检测文本,在通过调用上述深度学习模型进行分类处理时,可能会将该待检测文本识别为正常文本,对该待检测文本造成误判。
情况二:随着科学技术的发展,在文本的传播过程中,部分文本的形式可能会被多次加工,导致待检测文本和训练第一深度学习模型以得到深度学习模型时所用到的训练文本之间存在较大的差异,从而在通过调用上述深度学习模型进行分类处理时,可能无法正确识别该待检测文本,对该待检测文本的分类结果产生误判。例如,在训练样本为“淘宝刷单请找我”,而在文本的传播过程中被多次加工后,所获取的待检测文本可能为“
Figure BDA0003365234420000141
宝刷dan请找我”,则通过调用根据训练文本“淘宝刷单请找我”训练得到的深度学习模型可能无法确定该待检测文本“
Figure BDA0003365234420000142
宝刷dan请找我”的分类结果,对该待检测文本造成误判。
情况三:由于待检测文本中的存在部分特殊字符(例如,作为计量单位的“口”),在通过上述深度学习模型进行分类处理时,可能会将该待检测文本识别为异常文本,对该待检测文本造成误判。例如,通过调用上述深度学习模型对待检测文本“我要24口交换机”进行分类处理时,可能会将该待检测文本识别为色情文本,对该待检测文本造成误判。
基于上述情况,且由于在深度学习模型比较复杂的情况下,重新更新深度学习模型需要一定的时间,因此,可以通过对在对文本进行分类处理时存在分类误判可能的文本进行解析,确定该存在分类误判可能的文本以及该存在分类误判可能的文本的类型,将该存在分类误判可能的文本以及该存在分类误判可能的文本的类型存储在预设文本库中,以根据该预设文本库对待检测文本进行检测,以确定待检测文本是否为属于预定误判类型的文本,在确定该待检测文本属于预定误判类型的文本,将该预定误判类型确定为待检测文本的分类结果,而不再通过上述深度学习模型确定该待检测文本的分类结果,从而避免上述深度学习模型对该待检测文本造成误判。
其中,可以根据被深度学习模型误判的文本的类型对预设文本库进行分类,例如,可以将该预设文本库分为白文本库和黑文本库,其中,白文本库可以表示原本是正常文本、但被该深度学习模型误判为异常文本的文本(例如,上述情况三中的文本)形成的文本库,黑文本库可以表示原本是异常文本、但被该深度学习模型误判为正常文本的文本(例如,上述情况一中的文本)形成的文本库。
可选地,可以基于人工智能技术确定对存在分类误判可能的文本进行识别,将该存在分类误判可能的文本进行解析,获取该存在分类误判可能的文本的类型,并将该存在分类误判可能的文本的类型确定为预定误判类型。也可以通过相关技术人员确定预定误判类型。本申请对预定误判类型的确定方式不做限制。
另外,随着科学技术的发展以及传播途径的多样化,文本的形式开始逐步多样化,基于此,也可以根据实际需求添加/删减预设文本库中的文本。
本申请实施例提供的技术方案通过获取待检测文本,基于预设文本库对该待检测文本进行检测,确定该待检测文本是否属于预定误判类型的文本。由于预设文本库中包括被标记为预定误判类型的文本对应的文本数据,属于预定误判类型的文本,是通过深度学习模型确定的文本分类结果存在分类误判可能的文本,因此,基于预设文本库对该待检测文本进行检测的结果,确定该待检测文本属于预定误判类型的文本的情况下,直接将该预定误判类型确定为待测文本的分类结果,在待检测文本不属于预定误判类型的文本的情况下,基于深度学习模型,确定该待检测文本的分类结果。而不必在确定该待检测文本属于预定误判类型的文本的情况下,再次基于该深度学习模型对该待检测文本进行分类识别,避免了利用深度学习模型对属于预定误判类型的待检测文本被该深度学习模型进行分类识别时产生误判,实现即时的线上热修复,提高了对待检测文本进行分类的识别精确度,为多种实现场景下更好地满足产品对文本的识别需求提供了前提保证。
在一种可能的实现方式中,上述深度学习模型是通过以下方式训练得到的;
获取训练样本,该训练样本包括至少一个样本数据以及各样本数据的真实分类结果;
基于该训练样本,对第一深度学习模型进行迭代训练,直至满足预设的训练结束条件,得到上述深度学习模型。
可选地,样本数据可以包括文本或关键词中的至少一种,也即,不对样本数据的形式进行限制,从而可以实现训练样本的多样化,进而,能够使得所得到的深度学习模型也能够广泛应用。
其中,每个样本数据的真实分类结果可以包括多个预设分类结果中的一个。通过将样本数据输入至第一深度学习模型中,输出结果可以为该样本数据对应的预测分类结果,或者该样本数据对应于各预设分类结果的置信度。其中,在输出结果为该样本数据对应于各预设分类结果的置信度的情况下,可以将各预设分类结果的置信度中置信度最高的预设分类结果或者置信度超过置信度阈值的预设分类结果确定为该待检测文本对应的预测分类结果。其中,置信度越高,所得到的预测分类结果越准确。可选地,置信度阈值可以根据实际需求配置(比如可以是经验值或实验值),本申请对此不做限制。例如,可以设置置信度阈值为0.75。
可以理解的是,可以预先将多个样本数据以及各样本数据的真实分类结果存储至语料库中,基于该语料库确定上述训练样本。该训练样本可以包括语料库中的至少一个样本数据以及各样本数据的真实分类结果,具体的可以根据实际需求确定训练样本中的样本数据的个数。
可选地,可以根据训练任务的不同确定不同的训练样本,以得到更精确的深度学习模型。例如,可以根据不同的文本场景信息选择与该文本场景信息相同的训练文本,对上述第一深度学习模型进行训练,得到上述深度学习模型。
可选地,预设的训练结束条件可以根据需求配置,可以包括但不限于损失函数收敛、损失函数的值小于设定值或者训练次数达到设定次数。其中,该设定值越小,所得到的深度学习模型的精确度越高。
通过上述训练方式,可以使得所得到的深度学习模型可以准确识别出待检测文本的分类结果。
可选地,基于训练样本,对第一深度学习模型进行迭代训练,直至满足预设的训练结束条件,包括:
按照第一预设比例将训练样本分割为训练集和评估集;
根据训练集对第一深度学习模型进行训练,直至满足第一训练条件,得到第二深度学习模型;
按照预设评估指标,基于评估数据集对第二深度学习模型进行评估,在指标评估结果满足第二训练条件时,将第二深度学习模型确定为深度学习模型;
在指标评估结果不满足第二训练条件时,对第二深度学习模型的模型参数进行调整,并基于训练集继续对调整后的模型进行训练;
训练结束条件包括第一训练条件和第二训练条件。
在该实现方式中,第一预设比例可以根据实际需求配置(比如可以是经验值或实验值),本申请对此不做限制。例如,可以设置第一预设比例为6:4,也即,通过分割后,训练集中的训练样本的数量与评估集中训练样本的数量之比为6:4。
可选地,第一训练结束条件可以根据需求配置,可以包括但不限于损失函数收敛、损失函数的值小于设定值或者训练次数达到设定次数。其中,该设定值越小,所得到的深度学习模型的精确度越高。
其中,预设评估指标可以包括但不限于第二深度学习模型的泛化能力、超参数等,对应的第二训练条件可以包括该第二深度学习模型的泛化能力达到一定数值,该数值可以根据实际需求配置的评估指标。例如,可以设置第二训练条件为第二深度学习模型的泛化能力可以达到87%,也即,该第二深度学习模型可以适用于同领域的87%的分类识别任务中。
可选地,第二深度学习模型的模型参数可以包括该第二深度学习模型的超参数,例如,超参数包括但不限于学习率、迭代次数、模型中各网络的层数等。
通过对训练样本进行分割,在根据训练集对第一深度学习模型进行训练,得到满足第一训练条件的第二深度学习模型之后,再按照预设评估指标,基于评估数据集对该第二深度学习模型进行评估,并将指标评估结果满足第二训练条件的第二深度学习模型确定为深度学习模型,可以得到精确的、泛化能力较好的深度学习模型,提升了深度学习模型的覆盖率和精准率。
可选地,评估集包括验证集和测试集中的至少一项,预设评估指标包括验证评估指标和测试评估指标中的至少一项;
上述按照预设评估指标,基于评估数据集对第二深度学习模型进行评估,包括以下至少一项:
按照验证评估指标,基于验证集对第二深度学习模型进行评估,得到第一评估结果;
按照测试评估指标,基于测试集对第二深度学习模型进行评估,得到第二评估结果;
其中,第二训练条件包括第一评估条件或第二评估条件中的至少一项,指标评估结果满足第二训练条件包括:第一评估结果满足第一评估条件或第二评估结果满足第二评估条件中的至少一项。
在该实现方式中,在评估集包括验证集和测试集的情况下,可以按照第二预设比例将评估集分为验证集和测试集,其中,第二预设比例可以根据实际需求配置(比如可以是经验值或实验值),本申请对此不做限制。例如,可以设置第二预设比例为3:1,也即,通过分割后,验证集中的训练样本的数量与测试集中训练样本的数量之比为3:1。
在该实现方式中,验证评估指标可以包括但不限于该第二深度学习模型的超参数。其中,第一评估条件可以根据实际需求配置(比如可以是经验值或实验值),本申请对此不做限制。例如,第一评估条件可以为该第二深度学习模型的学习率达到90%。其中,在该第二深度学习模型不满足该第一评估条件时,可以调整该第二深度学习模型的超参数,对该第二深度学习模型进行优化,继续根据训练集和验证集对该第二深度学习模型继续训练,直至该第二深度学习模型满足该第一评估条件。
可选地,测试评估指标可以包括但不限于该第二深度学习模型的泛化能力。其中,第二评估条件可以根据实际需求配置(比如可以是经验值或实验值),本申请对此不做限制。例如,第二评估条件可以为该第二深度学习模型的泛化能力达到90%,也即,该满足第二评估条件的第二深度学习模型的泛化能力大于或等于90%。在第二评估结果不满足第二评估条件时,继续根据训练集和验证集对该满足第二深度学习模型继续训练,直至获取到满足第二评估条件的第二深度学习模型,以使得所得到的深度学习模型的最终性能良好。
可以理解的是,在第二训练条件包括第一评估条件和第二评估条件时所得到的深度学习模型的最终性能,比在第二训练条件仅包括第一评估条件或仅包括第二评估条件所得到的深度学习模型的最终性能要更好。
通过上述方式,可以使得深度学习模型的精确度更好,泛化能力更强,具有较高的覆盖率和精准率。
图4示出本申请实施例中得到深度学习模型的训练过程的示意图。如图4所示,在该实现方式中,第一预设比例为6:4,第二预设比例为3:1,也即,通过对训练样本进行分割后,训练集中的训练样本的数量、验证集中训练样本的数量以及测试集中训练样本的数量之比为6:3:1。具体的训练过程如下:
根据训练集对第一深度学习模型进行训练,直至满足第一训练条件,得到第二深度学习模型;
按照验证评估指标,基于验证集对第二深度学习模型进行评估,得到第一评估结果;
在第一评估结果不满足第一评估条件时,对第二深度学习模型的模型参数进行调整,并基于训练集继续对调整后的模型进行训练,直至第一评估结果满足第一评估条件;
在第一评估结果满足第一评估条件时,按照测试评估指标,基于测试集对第二深度学习模型进行评估,得到第二评估结果;
在第二评估结果满足第二评估条件时,确定指标评估结果满足第二训练条件,将第二深度学习模型确定为深度学习模型;
在第二评估结果不满足第一评估条件时,对第二深度学习模型的模型参数进行调整,并基于训练集继续对调整后的模型进行训练,直至第二评估结果满足第二训练条件。
可选地,该方法还包括:
获取待检测文本的文本场景信息;
基于待检测文本的分类结果以及待检测文本的文本场景信息,得到融合结果,以根据该融合结果对待检测文本执行相对应的处理。
作为一个示例,在业务需求为识别朋友圈发布的刷单恶意文本并进行治理时,与该业务需求对应的标签可以设置为正常和刷单两个标签,可以用数字、字母或数字与字母的组合等表示不同的分类结果。例如,可以用0表示正常,1表示刷单,设置目标文本为“□女装单,只要女号不降权,拥3”。则可以通过上述方法确定待检测文本是否为刷单恶意文本。在确定该待检测文本为刷单恶意文本,且该待检测文本对应的朋友圈发布频繁(在朋友圈发布数量超过阈值时,可以确定朋友圈发布频繁),但每条朋友圈的点赞数量和评论数量都很少,则可以限制该待检测文本的发送。
通过基于待检测文本的分类结果以及该待检测文本的文本场景信息,得到融合结果,并根据该融合结果对待检测文本执行相对应的处理,可以对部分不良信息进行打击,维护语言环境。
可选地,文本数据还可以为包括目标关键词库或目标文本库中的一项,基于预设文本库对待检测文本进行检测,包括:
基于文本数据,对待检测文本进行检测;
确定待检测文本满足以下至少一项:
待检测文本中包括目标关键词库中的任一目标关键词;
待检测文本与目标文本库中的任一目标文本相匹配;
将待检测文本确定为属于预定误判类型的文本。
可选地,在基于目标关键词库和目标文本库,对待检测文本进行关键词检测和文本相匹配时,且确定该待检测文本属于预定误判类型的文本的情况下,可以将与该待检测文本包括的目标关键词对应的预定误判类型,和/或,与该待检测文本对应的目标文本的相似度大于或等于预定相似度阈值的目标文本对应的预定误判类型确定为该待检测文本的分类结果。其中,在该目标关键词对应的预定误判类型与该目标文本对应的预定误判类型一致的情况下,直接将该目标关键词对应的预定误判类型或该目标文本对应的预定误判类型确定为该待检测文本的分类结果。
在该目标关键词对应的预定误判类型与该目标文本对应的预定误判类型不一致的情况下,可以根据预设的二者之间的优先级,将目标关键词对应的预定误判类型或该目标文本对应的预定误判类型确定为待检测文本的分类结果。作为几个实例,可以包括:①可以将该目标关键词对应的预定误判类型以及该目标文本对应的预定误判类型均确定为该待检测文本的分类结果;②在该待检测文本包括的目标关键词的个数大于或等于第一值的情况下,将该目标关键词对应的预定误判类型确定为该待检测文本的分类结果;③在该目标文本与该待检测文本对应的相似度大于或等于第二值的情况下,直接将该目标文本对应的预定误判类型确定为该待检测文本的分类结果。可选地,第一值和第二值均可以根据实际需求配置(比如可以是经验值或实验值),本申请对此不做限制。例如,可以设置第一值为5,第二值为0.8。
可选地,预设文本库还可以包括除上述目标关键词库、目标文本库以外的其他数据库,只要通过该数据库,能够对待检测文本进行相应的检测,确定待检测文本是否属于预定误判类型的文本即可。
通过在确定该待检测文本中包括任一目标关键词以及该待检测文本与目标文本库中的任一目标文本相匹配中的任意一项的情况下,确定待检测文本为属于预定误判类型的文本,能够更精确地对待检测文本进行检测,从而将该目标关键词和/或目标文本对应的预定误判类型确定为该待检测文本的分类结果,而不必通过深度学习模型确定该待检测文本的分类结果,可以避免属于预定误判类型的待检测文本再次被该深度学习模型进行分类识别时产生误判,实现即时的线上热修复。
可选地,在文本数据包括目标关键词库的情况下,基于预设文本库对待检测文本进行检测,包括:
基于目标关键词库,对待检测文本进行关键词检测;
确定待检测文本中包括任一目标关键词,将待检测文本确定为属于预定误判类型的文本,其中,目标关键词为属于预定误判类型的关键词。
可选地,本申请对目标关键词的语言形式也不做限制,可以根据实际情况确定,其中,可以根据不同的语种、不同的字符确定目标关键词。例如,该目标关键词可以为中文、英文、西班牙语等至少一种语种组合的词语,该目标关键词也可以为汉字、字母、数字等至少一种字符组合的词语。作为一个示例,当预定误判类型包括“刷单”时,可以设置一个目标关键词为“刷dan”,则通过基于关键词库,对该待检测文本进行关键词检测时,可以准确检测出上述情况二中深度学习模型可能会无法识别的文本“
Figure BDA0003365234420000211
宝刷dan请找我”属于预定误判类型的文本。
可选地,本申请对目标关键词的个数也不做限制,可以根据实际情况确定目标关键词的个数。在确定待检测文本中包括任意一个目标关键词时,就可以确定该待检测文本为属于预定误判类型的文本。
基于上述对预设文本库的介绍,也可以将目标关键词库分为白目标关键词库、黑目标关键词库,也可以根据实际情况更新该目标关键词库等,在此不做赘述。
其中,在基于目标关键词库,对待检测文本进行关键词检测,且确定该待检测文本属于预定误判类型的文本的情况下,可以将该待检测文本中包括的目标关键词对应的预定误判类型确定为该待检测文本的分类结果。其中,在该待检测文本中包括的目标关键词至少为两个的情况下,可以将该待检测文本中包括的每个目标关键词对应的预定误判类型进行组合,将组合后的预定误判类型确定为该待检测文本的分类结果。
通过设置目标关键词库,基于该目标关键词库对待检测文本进行检测,确定该待检测文本是否属于预定误判类型的文本,在确定该待检测文本中包括任一目标关键词的情况下,确定该待检测文本属于预定误判类型的文本,能够更精确地对待检测文本进行检测,从而将目标关键词对应的预定误判类型确定为该待检测文本的分类结果,而不必再次通过深度学习模型确定该待检测文本的分类结果,避免了属于预定误判类型的待检测文本被该深度学习模型进行分类识别时产生误判,实现即时的线上热修复。
可选地,目标文本库包括至少一个目标文本的文本向量,确定待检测文本与目标文本库中的任一目标文本相匹配,包括:
根据待检测文本,生成待检测文本对应的文本向量;
基于目标文本库,对待检测文本对应的文本向量进行文本向量的相似度匹配;
确定待检测文本对应的文本向量与目标文本库中的任一目标文本对应的文本向量的相似度大于或等于预定相似度阈值,则确定待检测文本与目标文本库中的任一目标文本相匹配。
其中,该目标文本库中可以仅存储各目标文本,也可以仅存储各目标文本对应的文本向量,也可以存储各目标文本以及各目标文本对应的文本向量,本申请对此不做限制。其中,在该目标文本库中包括目标文本对应的文本向量的情况下,可以更快速地对待检测文本对应的文本向量进行文本向量的相似度匹配。
可选地,可以基于文本检测模块执行基于目标文本库确定待检测文本是否与目标文本库中的任一目标文本相匹配的操作。其中,文本检测模块可以是根据无监督深度学习模型构建得到的,用于进行文本向量的生成以及相似度比较,也即,通过该文本检测模块,可以对待检测文本进行解析,得到该待检测文本对应的文本向量,并且该文本检测模块具备识别浅层语义信息的能力,能够将该待检测文本对应的文本向量与文本库中任一目标文本向量的相似度进行比较,确定该待检测文本对应的文本向量与文本库中任一目标文本对应的文本向量之间的相似度,并该相似度与相似度阈值之间的大小关系。在该相似度大于或等于相似度阈值时,确定待检测文本与目标文本库中的任一目标文本相匹配,也即,确定该待检测文本为属于预定误判类型的文本;在该相似度小于相似度阈值时,确定待检测文本与目标文本库中的全部目标文本都不匹配,也即,确定该待检测文本不属于预定误判类型的文本。可选地,相似度阈值可以根据实际需求配置(比如可以是经验值或实验值),本申请对此不做限制。例如,可以设置相似度阈值为0.7。
作为一个示例,当预定误判类型包括“购物”时,可以设置一个目标文本为“我要24台交换机”,则通过基于文本库,对该待检测文本进行文本向量的相似度匹配时,可以准确检测出上述情况三中深度学习模型可能会产生误判的文本“我要24口交换机”属于预定误判类型的文本。
可选地,本申请对目标文本的个数也不做限制,可以根据实际情况确定目标文本的个数。在确定待检测文本对应的文本向量与文本库中的任意一个目标文本对应的文本向量的相似度大于或等于预定相似度阈值的情况下,就可以确定待检测文本为属于预定误判类型的文本。
基于上述对预设文本库的介绍,也可以将目标文本库分为白目标文本库、黑目标文本库,也可以根据实际情况更新该目标文本库等,在此不做赘述。
其中,在基于目标文本库,确定待检测文本是否与目标文本库中的任一目标文本相匹配,且确定该待检测文本属于预定误判类型的文本的情况下,可以将与该待检测文本对应的文本向量的相似度大于或等于预定相似度阈值的目标文本向量所对应的目标文本的类型确定为该待检测文本的分类结果。其中,在与该待检测文本对应的文本向量的相似度大于或等于预定相似度阈值的目标文本向量包括多个时,可以将与该待检测文本对应的文本向量的相似度最高的目标文本向量所对应的目标文本的类型确定为该检测文本的分类结果。
通过设置目标文本库,基于该目标文本库对待检测文本进行检测,确定待检测文本是否与目标文本库中的任一目标文本相匹配,也即确定该待检测文本是否属于预定误判类型的文本,在确定待检测文本对应的文本向量与文本库中的任意一个目标文本的文本向量的相似度大于或等于预定相似度阈值的情况下,就可以确定待检测文本为属于预定误判类型的文本,能够更精确地对待检测文本进行检测,从而将与该待检测文本对应的文本向量的相似度大于或等于相似度阈值的目标文本向量所对应的目标文本的类型确定为该待检测文本的分类结果,而不必再次通过深度学习模型确定该待检测文本的分类结果,避免了属于预定误判类型的待检测文本再次被该深度学习模型进行分类识别时产生误判,实现即时的线上热修复。
可选地,该方法还包括:
若接收到针对待检测文本的分类结果属于误判的反馈信息,则对待检测文本进行解析,确定待检测文本中的关键词;
将待检测文本中的关键词存储至目标关键词库中,更新目标关键词库;
将待检测文本存储至目标文本库,更新目标文本库。
其中,针对待检测文本的分类结果属于误判的反馈信息可以通过人为操作实现,本申请对此不做限制。
可选地,若接收到针对待检测文本的分类结果属于误判的反馈信息,还可以对待检测文本进行解析,确定待检测文本对应的文本向量,将该待检测文本对应的文本向量存储至目标文本库,更新该目标文本库。
通过在接收到对待检测文本的分类结果属于误判的反馈信息时,对该检测文本进行解析,并根据解析结果,更新关键词库以及文本库,可以自动完成对关键词库以及文本库的更新,更好地对待检测文本进行检测。
可选地,若确定待检测文本为属于预定误判类型的文本,该方法还包括:
将待检测文本以及待检测文本的分类结果存储至语料库,得到更新后的语料库;
基于更新后的语料库,更新训练深度学习模型,得到更新后的深度学习模型。从而,可以在确定待检测文本为不属于预定误判类型的文本的情况下,根据更新后的深度学习模型确定待检测文本的分类结果。
其中,将待检测文本以及待检测文本的分类结果存储至语料库,包括:对待检测文本进行解析,得到包括但不限于待检测文本中的关键词、待检测文本对应的文本向量,从而将待检测文本、待检测文本中的关键词、待检测文本对应的文本向量等都存储至语料库。
具体的,可以根据包括但不限于以下至少一种方式将待检测文本以及待检测文本的分类结果存储至语料库:待检测文本的文本场景信息、待检测文本的入库时间、待检测文本的分类结果。
通过基于预设文本库对待检测文本进行检测,在待检测文本为属于预定误判类型的情况下,将待检测文本以及待检测文本的分类结果存储至语料库,得到更新后的语料库,可以利用预设文本库的泛化能力,快速更新语料库,提高了语料库的数据收集能力。并且,通过基于更新后的语料库,更新训练深度学习模型,得到更新后的训练学习模型,可以提高语料库中的文本的可靠性,不需要人为添加标签,进而通过自动化的更新语料库,提升了深度学习模型更新迭代的效率,持续优化了深度学习模型以及评判模型的覆盖率和精准率。
可选地,上述基于更新后的语料库,更新训练深度学习模型,得到更新后的深度学习模型,包括:
基于更新后的语料库,获取更新后的训练样本,其中,更新后的训练样本包括至少一个待检测文本以及各待检测文本的分类结果;
根据该更新后的训练样本,更新训练该深度学习模型,得到更新后的深度学习模型。
在语料库更新之后,再根据将待检测文本以及待检测文本的分类结果、至少一个预设文本以及各预设文本的分类结果进行混合得到的训练样本,更新训练该深度学习模型,得到更新后的深度学习模型。
可选地,在实际应用中,上述更新后的训练样本也可以包括更新后的第一训练样本以及更新后的第二训练样本。其中,更新后的第一训练样本可以为在确定待检测文本为属于预定误判类型的文本的情况下,将待检测文本中的关键词以及待检测文本的分类结果、至少一个预设关键词以及各关键词的分类结果进行第一混合操作得到的训练样本。更新后的第二训练样本可以为在确定待检测文本为属于预定误判类型的文本的情况下,将待检测文本以及待检测文本的分类结果、至少一个预设文本以及各预设文本的分类结果进行第二混合操作得到的训练样本。
可以理解的是,为了减少数据量,提高数据处理效率,也可以按照一定比例分别进行上述第一混合操作和第二混合操作,分别得到上述更新后的第一训练样本以及更新后的第二训练样本。例如,以第二混合操作为例,待检测文本的数量(也即,待检测文本的分类结果的数量)与至少一个预设文本(也即,各预设文本的分类结果的数量)之间的比值可以为1:6,本申请对此不做限制。
可以理解的是,该更新后的深度学习模型也可以是根据上述切割方式对更新后的训练样本进行切割后,对深度学习模型进行更新训练得到的。进一步的,该更新后的深度学习模型也可以包括更新后的第一深度学习模型和更新后的第二深度学习模型,其中,该更新后的第一深度学习模型可以是根据上述切割方式对更新后的第一训练样本进行切割后,对深度学习模型进行更新训练得到的。该更新后的第二深度学习模型可以是根据上述切割方式对更新后的第二训练样本进行切割后,对深度学习模型进行更新训练得到的。
可选地,依然可以根据训练任务的不同确定不同的更新后的训练样本,以更精确地更新深度学习模型。例如,可以根据不同的文本场景信息选择与该文本场景信息相同的更新后的训练文本,对深度学习模型进行更新。
通过在确定待检测文本属于预定误判类型的文本的情况下,对语料库进行更新,从而根据更新后的语料库,获取包括至少一个已经被确定为属于预定误判类型的待检测文本的更新后的训练样本,并根据该更新后的训练样本,更新训练上述深度学习模型,可以提升了深度学习模型更新迭代的效率,持续优化了深度学习模型以及评判模型的覆盖率和精准率。并且,根据该持续更新深度学习模型的方法,能够更系统的实现该方法的闭环。
以下结合一具体应用场景中的示例来详细说明本申请实施例中的数据处理方法,参见图5a至图5e,图5a至图5e示出了本申请一具体应用场景的示意图。在该应用场景中,可以通过终端设备的一应用程序或者以应用程序中的插件实现上述方法。以待检测文本为即时通讯共享区域中的即将发表的文本,上述方法通过终端的一个应用程序如即时通讯中的一个插件实现为例,对上述方法作进一步说明。具体的,该方法通过以下步骤A1至步骤A5实现:
步骤A1:如图5a所示,在用户1的朋友圈界面显示有即将发表的文本及对应的图片,该文本为“急!shua单,yong+1”,在该用户1点击“发表”按钮时,可以触发即时通讯服务器(图1中的应用服务器)获取该文本,形成上述待检测文本。
步骤A2:通过上述数据处理方法对该待检测文本进行检测,可以确定该文本“急!shua单,yong+1”属于预定误判类型的文本,该文本的分类结果为刷单文本。
步骤A3:获取该文本的文本场景信息,即图5b所示的该用户1的朋友圈,在该用户的历史发表的朋友圈中:针对发表时间1“今日8:59”的具体内容(如图5c所示)中,发表时间1对应的发表文本1“刷单,yong3”也属于刷单的文本,且发表文本1对应的朋友圈的点赞数量为0,评论数量为0。针对发表时间2“今日8:23”的具体内容(如图5d所示)中,发表时间2对应的发表文本2“shua单,yong5”也属于刷单的文本,且发表文本2对应的朋友圈的点赞数量为0,评论数量为0。可以获知,在该用户的朋友圈中,发布时间1“今日8:59”和发布时间2“今日8:23”的时间间隔为36分钟,即在1个小时内,用户发布了两条关于“刷单”的朋友圈。
步骤A4:将用户即将发表的文本“急!shua单,yong+1”与该文本对应的文本场景信息“在该用户的朋友圈中,在1个小时内,用户发布了两条关于‘刷单’的朋友圈”进行融合,可以确定融合结果为“该用户发布朋友圈比较频繁,且刷单文本居多”。
步骤A5:在即时通讯服务器(图1中的应用服务器)获取到该融合结果后,可以向该用户发出“发送失败、30天内限制发送”的提示(如图5e所示),以打击类似于用户1利用朋友圈进行非正常的“刷单”的行为。
可以理解的是,在本申请的具体实施方式中,涉及到用户信息(例如用户的朋友圈)等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
图6示出了本申请实施例提供的数据处理装置的示意图。如图6所示,该数据处理装置600,包括文本获取模块610、文本检测模块620和分类确定模块630。
文本获取模块610,用于获取待检测文本;
文本检测模块620,用于基于预设文本库对待检测文本进行检测,其中,预设文本库包括标记为属于预定误判类型的文本对应的文本数据;
分类确定模块630用于确定待检测文本属于预定误判类型的文本,将该预定误判类型确定为待检测文本的分类结果;以及,
确定待检测文本不属于预定误判类型的文本,基于深度学习模型,确定待检测文本的分类结果;
其中,属于预定误判类型的文本,是通过深度学习模型确定的文本分类结果存在误判可能的文本。
可选地,文本数据包括目标关键词库或目标文本库中的至少一项,文本检测模块620在基于预设文本库对待检测文本进行检测,具体用于:
基于文本数据,对待检测文本进行关键词检测;
确定待检测文本满足以下至少一项:
待检测文本中包括目标关键词库中的任一目标关键词;
待检测文本与目标文本库中的任一目标文本相匹配;
将待检测文本确定为属于预定误判类型的文本。
可选地,目标文本库包括至少一个目标文本的文本向量,文本检测模块620在确定待检测文本与目标文本库中的任一目标文本相匹配时,具体用于:
根据待检测文本,生成待检测文本对应的文本向量;
基于目标文本库,对待检测文本对应的文本向量进行文本向量的相似度匹配;
确定待检测文本对应的文本向量与目标文本库中的任一目标文本对应的文本向量的相似度大于或等于预定相似度阈值,则确定待检测文本与目标文本库中的任一目标文本相匹配。
可选地,该装置还包括语料库更新模块和模型更新模块,若确定待检测文本为属于预定误判类型的文本,
语料库更新模块,用于将待检测文本以及待检测文本的分类结果存储至语料库,得到更新后的语料库;
模型更新模块,用于基于更新后的语料库,更新训练深度学习模型,得到更新后的深度学习模型。
可选地,该装置还包括文本库更新模块,该文本库更新模块用于:
若接收到针对待检测文本的分类结果属于误判的反馈信息,则对待检测文本进行解析,确定待检测文本中的关键词;
将待检测文本中的关键词存储至目标关键词库中,以更新目标关键词库;
将待检测文本存储至目标文本库,更新目标文本库。
可选地,该装置还可以包括场景信息获取模块和融合模块,
场景信息获取模块,用于获取待检测文本的文本场景信息;
融合模块,用于基于待检测文本的分类结果以及待检测文本的文本场景信息,得到融合结果,以根据融合结果对待检测文本执行相对应的处理。
可选地,深度学习模型是通过以下方式训练得到的;
获取训练样本,训练样本包括至少一个样本数据以及各样本数据的真实分类结果;
基于训练样本,对第一深度学习模型进行迭代训练,直至满足预设的训练结束条件,得到上述深度学习模型。
可选地,基于训练样本,对第一深度学习模型进行迭代训练,直至满足预设的训练结束条件,包括:
按照第一预设比例将训练样本分割为训练集和评估集;
根据训练集对第一深度学习模型进行训练,直至满足第一训练条件,得到第二深度学习模型;
按照预设评估指标,基于评估集对第二深度学习模型进行评估,在指标评估结果满足第二训练条件时,将第二深度学习模型确定为深度学习模型;
在指标评估结果不满足第二训练条件时,对第二深度学习模型的模型参数进行调整,并基于训练集继续对调整后的模型进行训练;
训练结束条件包括第一训练条件和第二训练条件。
可选地,评估集包括验证集或测试集中的至少一项,预设评估指标包括验证评估指标或测试评估指标中的至少一项;
按照预设评估指标,基于评估集对第二深度学习模型进行评估,包括以下至少一项:
按照验证评估指标,基于验证集对第二深度学习模型进行评估,得到第一评估结果;
按照测试评估指标,基于测试集对第二深度学习模型进行评估,得到第二评估结果;
其中,第二训练条件包括第一评估条件或第二评估条件中的至少一项,指标评估结果满足第二训练条件包括:第一评估结果满足第一评估条件或第二评估结果满足第二评估条件中的至少一项。
可选地,模型更新模块在基于更新后的语料库,更新训练深度学习模型,得到更新后的深度学习模型时,具体用于:
基于更新后的语料库,获取更新后的训练样本,其中,更新后的训练样本包括至少一个待检测文本以及各待检测文本的分类结果;
根据更新后的训练样本,更新训练深度学习模型,得到更新后的深度学习模型。
本申请实施例的装置可执行本申请实施例所提供的方法,其实现原理相类似,本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
根据本申请实施例的另一个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行计算机程序以实现上述方法的步骤。
在一个可选实施例中提供了一种电子设备,图7示出了该可选实施例提供的电子设备的结构示意图。如图7所示,图7所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器4003用于存储执行本申请实施例的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述方法实施例所示的步骤。
基于与本申请实施例提供的方法相同的原理,本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述本申请任一可选实施例中提供的方法。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。

Claims (14)

1.一种数据处理方法,其特征在于,包括:
获取待检测文本;
基于预设文本库对所述待检测文本进行检测,所述预设文本库包括标记为属于预定误判类型的文本对应的文本数据;
确定所述待检测文本属于预定误判类型的文本,将所述预定误判类型确定为所述待检测文本的分类结果;
确定所述待检测文本不属于预定误判类型的文本,基于深度学习模型,确定所述待检测文本的分类结果;
其中,所述属于预定误判类型的文本,是通过所述深度学习模型确定的文本分类结果存在误判可能的文本。
2.根据权利要求1所述的方法,其特征在于,所述文本数据包括目标关键词库或目标文本库中的至少一项,所述基于预设文本库对所述待检测文本进行检测,包括:
基于所述文本数据,对所述待检测文本进行检测;
确定所述待检测文本满足以下至少一项:
所述待检测文本中包括所述目标关键词库中的任一目标关键词;
所述待检测文本与所述目标文本库中的任一目标文本相匹配;
将所述待检测文本确定为属于预定误判类型的文本。
3.根据权利要求2所述的方法,其特征在于,所述目标文本库包括至少一个目标文本的文本向量,确定所述待检测文本与所述目标文本库中的任一目标文本相匹配,包括:
根据所述待检测文本,生成所述待检测文本对应的文本向量;
基于所述目标文本库,对所述待检测文本对应的文本向量进行文本向量的相似度匹配;
确定所述待检测文本对应的文本向量与所述目标文本库中的任一目标文本对应的文本向量的相似度大于或等于预定相似度阈值,则确定所述待检测文本与所述目标文本库中的任一目标文本相匹配。
4.根据权利要求1所述的方法,其特征在于,若确定所述待检测文本属于预定误判类型的文本,所述方法还包括:
将所述待检测文本以及所述待检测文本的分类结果存储至语料库,得到更新后的语料库;
基于所述更新后的语料库,更新训练所述深度学习模型,得到更新后的深度学习模型。
5.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:
若接收到针对所述待检测文本的分类结果属于误判的反馈信息,则对所述待检测文本进行解析,确定所述待检测文本中的关键词;
将所述待检测文本中的关键词存储至所述目标关键词库中,更新所述目标关键词库;
将所述待检测文本存储至所述目标文本库,更新所述目标文本库。
6.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:
获取所述待检测文本的文本场景信息;
基于所述待检测文本的分类结果以及所述待检测文本的文本场景信息,得到融合结果,以根据所述融合结果对所述待检测文本执行相对应的处理。
7.根据权利要求1所述的方法,其特征在于,所述深度学习模型是通过以下方式训练得到的;
获取训练样本,所述训练样本包括至少一个样本数据以及各样本数据的真实分类结果;
基于所述训练样本,对第一深度学习模型进行迭代训练,直至满足预设的训练结束条件,得到所述深度学习模型。
8.根据权利要求7所述的方法,其特征在于,所述基于所述训练样本,对第一深度学习模型进行迭代训练,直至满足预设的训练结束条件,包括:
按照第一预设比例将所述训练样本分割为训练集和评估集;
根据所述训练集对第一深度学习模型进行训练,直至满足第一训练条件,得到第二深度学习模型;
按照预设评估指标,基于所述评估集对所述第二深度学习模型进行评估,在指标评估结果满足第二训练条件时,将所述第二深度学习模型确定为所述深度学习模型;
在所述指标评估结果不满足所述第二训练条件时,对所述第二深度学习模型的模型参数进行调整,并基于所述训练集继续对调整后的模型进行训练;
所述训练结束条件包括所述第一训练条件和所述第二训练条件。
9.根据权利要求8所述的方法,其特征在于,所述评估集包括验证集或测试集中的至少一项,所述预设评估指标包括验证评估指标或测试评估指标中的至少一项;
所述按照预设评估指标,基于所述评估集对所述第二深度学习模型进行评估,包括以下至少一项:
按照所述验证评估指标,基于所述验证集对所述第二深度学习模型进行评估,得到第一评估结果;
按照所述测试评估指标,基于所述测试集对所述第二深度学习模型进行评估,得到第二评估结果;
其中,所述第二训练条件包括所述第一评估条件或第二评估条件中的至少一项,所述指标评估结果满足第二训练条件包括:所述第一评估结果满足第一评估条件或所述第二评估结果满足第二评估条件中的至少一项。
10.根据权利要求4所述的方法,所述基于所述更新后的语料库,更新训练所述深度学习模型,得到更新后的深度学习模型,包括:
基于所述更新后的语料库,获取更新后的训练样本,所述更新后的训练样本包括至少一个所述待检测文本以及各所述待检测文本的分类结果;
根据所述更新后的训练样本,更新训练得到更新后的深度学习模型。
11.一种数据处理装置,其特征在于,包括:
文本获取模块,用于获取待检测文本;
文本检测模块,用于基于预设文本库对所述待检测文本进行检测,所述预设文本库包括标记为属于预定误判类型的文本对应的文本数据;
分类确定模块用于确定所述待检测文本属于预定误判类型的文本,将所述预定误判类型确定为所述待检测文本的分类结果;以及,
确定所述待检测文本不属于预定误判类型的文本,基于深度学习模型,确定所述待检测文本的分类结果;
其中,所述属于预定误判类型的文本,是通过所述深度学习模型确定的文本分类结果存在误判可能的文本。
12.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-10任一项所述方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-10任一项所述的方法的步骤。
14.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-10任一项所述方法的步骤。
CN202111398929.0A 2021-11-19 2021-11-19 数据处理方法、装置、电子设备及计算机可读存储介质 Pending CN114328816A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111398929.0A CN114328816A (zh) 2021-11-19 2021-11-19 数据处理方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111398929.0A CN114328816A (zh) 2021-11-19 2021-11-19 数据处理方法、装置、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114328816A true CN114328816A (zh) 2022-04-12

Family

ID=81046478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111398929.0A Pending CN114328816A (zh) 2021-11-19 2021-11-19 数据处理方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114328816A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114937185A (zh) * 2022-06-07 2022-08-23 阿波罗智联(北京)科技有限公司 图像样本采集方法、装置、电子设备和存储介质
CN116226213A (zh) * 2023-02-22 2023-06-06 广州集联信息技术有限公司 一种基于大数据的信息推荐系统及方法
CN116577685A (zh) * 2023-07-13 2023-08-11 宁德时代新能源科技股份有限公司 健康检测方法、数据处理方法、相关装置、设备及介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114937185A (zh) * 2022-06-07 2022-08-23 阿波罗智联(北京)科技有限公司 图像样本采集方法、装置、电子设备和存储介质
CN116226213A (zh) * 2023-02-22 2023-06-06 广州集联信息技术有限公司 一种基于大数据的信息推荐系统及方法
CN116226213B (zh) * 2023-02-22 2023-11-10 广州集联信息技术有限公司 一种基于大数据的信息推荐系统及方法
CN116577685A (zh) * 2023-07-13 2023-08-11 宁德时代新能源科技股份有限公司 健康检测方法、数据处理方法、相关装置、设备及介质
CN116577685B (zh) * 2023-07-13 2023-12-01 宁德时代新能源科技股份有限公司 健康检测方法、数据处理方法、相关装置、设备及介质

Similar Documents

Publication Publication Date Title
Gupta et al. A comparative study of spam SMS detection using machine learning classifiers
CN114328816A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN111061874B (zh) 敏感信息检测方法和装置
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN112164391A (zh) 语句处理方法、装置、电子设备及存储介质
US11580222B2 (en) Automated malware analysis that automatically clusters sandbox reports of similar malware samples
Junnarkar et al. E-mail spam classification via machine learning and natural language processing
CN111931844B (zh) 图像处理方法及装置、电子设备和存储介质
Velioğlu et al. Sentiment analysis using learning approaches over emojis for Turkish tweets
CN111274372A (zh) 用于人机交互的方法、电子设备和计算机可读存储介质
CN111460783B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN113139052B (zh) 基于图神经网络特征聚合的谣言检测方法及装置
US11645566B2 (en) Methods and systems for graph computing with hybrid reasoning
Ra et al. DeepAnti-PhishNet: Applying deep neural networks for phishing email detection
CN117081831A (zh) 基于数据生成和注意力机制的网络入侵检测方法及系统
CN111783903A (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN113723070A (zh) 文本相似度模型训练方法、文本相似度检测方法及装置
CN114898266B (zh) 训练方法、图像处理方法、装置、电子设备以及存储介质
CN112528653A (zh) 短文本实体识别方法和系统
Aliza et al. A comparative analysis of SMS spam detection employing machine learning methods
CN113965377A (zh) 一种攻击行为检测方法及装置
CN115730237B (zh) 垃圾邮件检测方法、装置、计算机设备及存储介质
CN116186255A (zh) 训练未知意图检测模型的方法、未知意图检测方法及装置
CN115169345A (zh) 文本情感分析模型的训练方法、装置、设备及存储介质
CN110704619B (zh) 文本分类方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination