CN116992018A - 数据处理方法、装置、设备、可读存储介质及程序产品 - Google Patents

数据处理方法、装置、设备、可读存储介质及程序产品 Download PDF

Info

Publication number
CN116992018A
CN116992018A CN202211342063.6A CN202211342063A CN116992018A CN 116992018 A CN116992018 A CN 116992018A CN 202211342063 A CN202211342063 A CN 202211342063A CN 116992018 A CN116992018 A CN 116992018A
Authority
CN
China
Prior art keywords
text
texts
vector
combined
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211342063.6A
Other languages
English (en)
Inventor
智绪达
吴熙
赵九州
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211342063.6A priority Critical patent/CN116992018A/zh
Publication of CN116992018A publication Critical patent/CN116992018A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提出了一种数据处理方法、装置、设备、可读存储介质及程序产品,可应用于云技术、人工智能等领域,该方法包括:获取异常文本和业务文本集;异常文本是调用文本分类模型进行文本分类处理时分类结果错误的文本,业务文本集包括多个业务文本;确定异常文本与各个业务文本之间的相似参数,根据相似参数从多个业务文本中确定一个或多个目标业务文本;获取异常文本的标注信息和各个目标业务文本的标注信息;根据异常文本、异常文本的标注信息、一个或多个目标业务文本和各个目标业务文本的标注信息,对文本分类模型进行训练,得到训练后的文本分类模型。通过本申请实施例,可以提高文本分类模型的识别准确率。

Description

数据处理方法、装置、设备、可读存储介质及程序产品
技术领域
本申请涉及计算机技术领域,具体涉及数据处理方法、数据处理装置、计算机设备、计算机可读存储介质以及计算机程序产品。
背景技术
文本分类模型可能会因为诸如训练数据量较少等问题,导致文本分类模型的识别准确率较低,从而在识别文本时出现识别错误。而基于错误的文本识别结果进行后续文本处理操作,会产生极大的纠错成本。因此,如何提高文本分类模型的识别准确率,是目前亟需解决的问题。
发明内容
本申请提供了一种数据处理方法、装置、设备、可读存储介质及程序产品,可以提高文本分类模型的识别准确率。
第一方面,本申请提供了一种数据处理方法,该方法包括:
获取异常文本和业务文本集;上述异常文本是分类结果错误的文本,上述分类结果是通过调用文本分类模型对上述异常文本进行文本分类处理得到的,上述业务文本集包括多个业务文本;
确定上述异常文本与各个上述业务文本之间的相似参数,根据上述相似参数从上述多个业务文本中确定一个或多个目标业务文本;
获取上述异常文本的标注信息和各个上述目标业务文本的标注信息;
根据上述异常文本、上述异常文本的标注信息、上述一个或多个目标业务文本和各个上述目标业务文本的标注信息,对上述文本分类模型进行训练,得到训练后的文本分类模型。
第二方面,本申请提供了一种数据处理装置,该装置包括:
获取模块,用于获取异常文本和业务文本集;上述异常文本是分类结果错误的文本,上述分类结果是通过调用文本分类模型对上述异常文本进行文本分类处理得到的;上述业务文本集包括多个业务文本;
处理模块,用于确定上述异常文本与各个上述业务文本之间的相似参数,根据上述相似参数从上述多个业务文本中确定一个或多个目标业务文本;
上述处理模块,还用于获取上述异常文本的标注信息和各个上述目标业务文本的标注信息;
训练模块,用于根据上述异常文本、上述异常文本的标注信息、上述一个或多个目标业务文本和各个上述目标业务文本的标注信息,对上述文本分类模型进行训练,得到训练后的文本分类模型。
第三方面,本申请提供了一种计算机设备,包括:处理器、存储装置和通信接口,上述处理器、上述通信接口和上述存储装置相互连接,其中,上述存储装置存储有可执行程序代码,上述处理器用于调用上述可执行程序代码,用以实现上述的数据处理方法。
第四方面,本申请提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序包括程序指令,上述程序指令被处理器执行,用以实现如上述的数据处理方法。
第五方面,本申请提供了一种计算机程序产品,上述计算机程序产品包括计算机程序或计算机指令,上述计算机程序或计算机指令被处理器执行,用以实现上述的数据处理方法。
本申请通过获取与异常文本相似的目标业务文本,再针对异常文本和目标业务文本进行标注处理后对文本分类模型进行训练,从而提高文本分类模型的识别准确率。由于目标业务文本中包括了与异常文本相似的特征信息,使得文本分类模型也能够更为准确地处理与异常文本相似的业务文本的文本分类任务,提高文本分类模型能够处理的数据类型的丰富度。并且,本申请是从包括海量业务文本的业务文本集中获取的目标业务文本作为相似文本进行模型训练,使得相似文本生成任务与实际业务场景结合,使得文本分类模型可以较好地处真实业务场景下的文本分类任务,提高文本分类模型进行分类处理的准确性。同时也可以避免产生一些生涩难懂的相似文本,从而降低了数据的标注难度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1A是本申请一个示例性实施例提供的一种数据增强处理的示意图;
图1B是本申请一个示例性实施例提供的一种数据处理系统的架构示意图;
图2是本申请一个示例性实施例提供的一种数据处理方法的流程示意图;
图3A是本申请一个示例性实施例提供的一种提交异常文本的界面示意图;
图3B是本申请一个示例性实施例提供的一种异常文本的流程处理框图;
图4是本申请一个示例性实施例提供的另一种数据处理方法的流程示意图;
图5A是本申请一个示例性实施例提供的一种获取目标业务文本的流程处理框图;
图5B是本申请一个示例性实施例提供的一种生成组合文本的示意图;
图5C是本申请一个示例性实施例提供的一种组合文本添加标识的示意图;
图5D是本申请一个示例性实施例提供的一种确定目标业务文本的示意图;
图5E是本申请一个示例性实施例提供的一种确定目标业务文本的示意图;
图6是本申请一个示例性实施例提供的一种数据处理装置的示意框图;
图7是本申请一个示例性实施例提供的一种计算机设备的示意框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的,而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此,限定有“第一”、“第二”的技术特征可以明示或者隐含的包括至少一个该特征。
为了更好地理解本申请实施例的方案,下面先对本申请实施例可能涉及的相关术语和概念进行介绍。
问题样本(或异常样本),是指模型在识别文本时出现识别错误的样本。
数据增强,是指用少量的数据生成更多的等价数据(或者相似数据)。
困难样本,是指分类模型很难学习到的样本。在分类模型的分类任务中,容易与其它类别混淆导致容易识别错误的样本。
本发明实施例可应用于云计算、云物联、云游戏、人工智能、车载场景、智慧交通、辅助驾驶等各种领域或场景,下面将对几个典型领域或场景进行介绍。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等几大方向。本申请实施例提供的方案涉及人工智能技术下属的机器学习等技术,下面将对此进行叙述。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本申请主要涉及机器学习技术中的归纳学习技术,归纳学习技术旨在从大量的经验数据中归纳抽取出一般的判定规则和模式,是从特殊情况推导出一般规则的学习方法。具体来说,本申请提出的方法通过从海量的业务数据中获取与异常文本相似的目标业务文本,并基于目标业务文本对文本分类模型进行训练,使得训练后的文本分类模型可以处理与异常文本相似的文本,提高文本分类模型的识别准确性。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。具体来说,本申请提出的方法基于自然语言处理获取各个业务文本以及异常文本的文本向量,并通过各自的文本向量从多个业务文本中确定与异常文本相似的目标业务文本,用于文本分类模型的训练。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、3D游戏等。随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
分类模型在识别数据时可能会出现错误,例如识别未在训练样本集中出现过的类型的数据。为了优化分类模型,本申请首先提出通过数据增强的方式获取相似数据进行模型优化。具体的,算法人员接收到问题样本后,可以使用数据增强(Easy DataAugmentation,EDA)方法对问题样本进行数据增强,例如通过EDA方式对一句话进行同义词交换、随机插入/删除一些词等操作,得到增强数据;再将增强数据通过人工筛选后加入到训练集中进行分类模型训练,然后检查分类模型是否可以解决这一类型的问题样本,从而达到优化分类模型的目的。
请参见图1A,该图是本申请一个示例性实施例提供的一种数据增强处理的示意图,输入数据为“你优先处理一下备机的延迟问题吧”,通过数据增强处理,得到多个增强数据,例如“你优先处理一下的延迟问题吧”、“你处理一下优先备机的延迟问题吧”、“你优先处理一下SSI的延迟问题吧”等。
通过数据增强的方法可以生成问题样本的增强样本(即类似样本),增加训练集的覆盖率,再将增强样本加入到训练集中进行模型训练,使得分类模型在一定程度上得到优化。但是,上述方法存在以下缺点:
第一点是,通过数据增强的方法对问题样本进行数据增强得到的增强样本一般与问题样本的差别较小,不能更好地增大训练集的覆盖范围。并且,生成的增强样本与真实样本之间难免有些差异,容易产生过拟合。例如,问题样本为“你优先处理一下备机的延迟问题吧”,但是生成的增强样本可能是“你处理一下优先备机的延迟问题吧”,此时,增强样本已经与问题样本的语义产生差异,利用产生语义差异的增强样本进行分类模型的训练,会在一定程度上影响分类模型的训练效果。
第二点是,针对性的解决问题样本一般都是临时任务,生成的增强样本由于未与实际业务场景结合,可能会产生一些生涩难懂的增强样本,不方便交由标注人员标注,也提高了标注人员的标注难度。由于没有一个统一的流程将日常的问题样本收集起来,自动生成类似样本交由标注人员标注,导致算法人员需要消耗大量时间解决分类模型在识别过程中产生的问题样本。
基于此,本申请提供了一种基于真实业务场景数据的分类模型训练方法,并让算法人员更高效的解决问题样本,优化、修复模型。具体的,本申请在大量业务数据中找到与问题样本类似的数据作为新的样本来修复模型,并构建了问题样本发现、业务数据筛选、数据标注、模型优化的一套流程,提高模型的优化效果。
可以理解的是,在本申请的具体实施方式中,涉及到异常文本、业务文本等相关的数据,当本申请以上实施例运用到具体产品或技术中时,相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本申请将具体通过如下实施例进行说明:
请参阅图1B,该图是本申请一个示例性实施例提供的一种数据处理系统的架构示意图。数据处理系统具体可以包括终端设备101和服务器102。其中,终端设备101和服务器102之间通过网络连接,比如,通过局域网、广域网、移动互联网等连接。操作对象在终端设备101的浏览器或者客户端应用上进行操作,对各种数据进行处理。服务器102可以响应于该操作,为操作对象提供各种数据处理的服务。终端设备101的数量可以为多个,各个终端设备101分别对应一个对象,例如终端设备101的数量为3个,分别对应第一操作对象、第二操作对象和第三操作对象。
在一实施例中,当某一文本在进行分类处理时出错错误,此时该文本将作为异常文本。服务器102获取异常文本和业务文本集,其中,异常文本和业务文本集可以是服务器102自己存储的,也可以是从终端设备101获取的。服务器102确定异常文本与业务文本集中各个业务文本之间的相似参数,再根据相似参数从多个业务文本中确定一个或多个目标业务文本。服务器102再获取异常文本的标注信息和各个目标业务文本的标注信息,其中,标注信息可以是在终端设备101上通过人工标注的方式进行标注后发送到服务器102。服务器102根据、异常文本的标注信息、一个或多个目标业务文本和各个目标业务文本的标注信息,对文本分类模型进行训练,得到训练后的文本分类模型。此时,训练后的文本分类模型即可高准确性地处理异常文本,以及与异常文本相似的文本。
终端设备101也称为终端(Terminal)、用户设备(user equipment,UE)、接入终端、用户单元、移动设备、用户终端、无线通信设备、用户代理或用户装置。终端设备可以是智能家电、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personal computer,PC)、车载终端、智能语音交互设备、可穿戴设备或者其他智能装置等,但并不局限于此。
服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一实施例中,本申请提出的数据处理系统的架构还可以包括数据库,数据库可以用于存储异常文本、业务文本集等数据,还可以用于存储文本分类模型、文本向量提取模型的相关数据,这些数据在数据库中可以通过不同的数据库表格记录。例如,数据库可以是设于服务器中的数据库,即可以是服务器内置或自带的数据库;数据库也可以是与服务器相连接的外设数据库,例如云数据库(即部署在云端的数据库),具体可以基于私有云、公有云、混合云、边缘云等中的任一种部署,从而使得云数据库侧重的功能不同。例如部署在私有云中的数据库,基础云硬件是用户个人的设备,更侧重服务于小部分用户,而部署在公有云中的数据库,是基于第三方提供的云平台部署的,可以让数据库中存储的数据实现共享,任何用户的数据都可以存储至该数据库中,任何用户也可以使用数据库中的数据。
可以理解的是,本申请实施例描述的系统的架构示意图是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定。例如,本申请实施例所提供的数据处理方法除了可以由服务器102执行,还可以由不同于服务器102且能够与终端设备101和/或服务器102通信的其他服务器或服务器集群执行。本领域普通技术人员可知,图1B中的终端设备和服务器的数目仅仅是示意性的。根据业务实现需要,可以配置具有任意数目的终端设备和服务器。并且,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。在后续实施例中,将以终端设备指代上述终端设备101,以处理服务器指代上述服务器102,后续实施例中将不再赘述。
请参阅图2,该图是本申请一个示例性实施例提供的一种数据处理方法的流程示意图,以该方法应用于处理服务器(指代图1B中的服务器102)为例进行说明,该方法可包括以下步骤:
S201、获取异常文本和业务文本集,业务文本集包括多个业务文本。
本申请实施例中,异常文本是分类结果错误的文本,分类结果是通过调用文本分类模型对异常文本进行文本分类处理得到的。也即是说,当文本分类模型在识别某一文本的文本类型时识别错误,该文本被称为异常文本。业务文本集包括多个业务文本,业务文本集用于存储预设时段内的海量业务文本的集合。在业务文本集中存在与异常文本相似的业务文本,并且与异常文本相似的业务文本是与业务数据紧密结合的,也即是说,业务文本集中的业务文本是在实际业务场景下的真实文本数据。
在一实施例中,文本类型可以基于不同场景被区分为多种类型。例如,在工作状态场景下,可以分为投诉、求助、威胁、催单等类型,而在各个类型下还可以进行细分,例如催单还可以细分为一般催单、紧急催单等。文本类型也可以在多个大类别下包括多种类型,例如在情绪大类别下,可以分为正面情绪和负面情绪,在正面情绪下可以细分为自信、幸福、激动、欣赏、关心、热爱、感激等多种;在负面情绪下可以细分为挫败、担心、批判、抱怨、敌意等多种。其中,文本类型的分类方法可以根据实际业务情况合理设定,本申请不对其进行限定。
在本申请中,异常文本可以是基于人工筛查文本的文本类型的方式,通过筛查人员提交的错误报告获取的。请参见图3A,该图是本申请一个示例性实施例提供的一种提交异常文本的界面示意图,该图展示的是终端设备上的一个会话界面,会话界面中包括多个对象的会话消息,其中包括多个对话(每个对话即是一个文本)。例如,对象A的对话为“帮我看看为什么卡住了”,对象B的对话为“你优先处理一下备机的延迟问题吧”。在每个对话的相应位置(例如对话的右侧)存在一个文本类型查看控件(例如图中的301控件,301控件可以是以一个问号图标的形态进行展示)。
当文本类型查看控件被触发时,在每个对话的相应位置(例如对话的下方)存在一个文本类型展示控件(例如图中的302控件),文本类型展示控件用于展示该对话的文本类型(例如,图中对象B的对话的文本类型被展示为“一般催单”)。其中,当文本类型查看控件未被触发时,既可以在每个对话的相应位置显示一个文本类型展示控件,也可以不进行文本类型展示控件的展示,本实施例不对其进行限制。
在上述实施例中,当操作对象认为文本的文本类型分类错误时,可以通过异常文本提交方法(例如点击图中的302控件),触发异常文本提交流程,通过终端设备将异常文本发送处理服务器,使得处理服务器针对异常文本执行步骤S201-S204,用以优化文本分类模型。例如,例如,图中对象B的对话的文本类型被识别为“一般催单”,而真实的文本类型为“解答”,此时,可以触发异常文本提交流程。具体的,在操作对象触发异常文本提交流程后,可以在相应的界面展示异常文本提交界面,异常文本提交界面中包括提示信息“该语句识别不准确”、提交原因输入控件、提交控件、取消控件等。操作对象可以通过提交原因输入控件输入具体原因,或者不输入。当操作对象触发提交控件后,该文本即作为异常文本进行存储,此时,处理服务器可以获取该异常文本,执行后续操作。
S202、确定异常文本与各个业务文本之间的相似参数,根据相似参数从多个业务文本中确定一个或多个目标业务文本。
本申请实施例中,处理服务器可以确定异常文本与业务文本集包括的各个业务文本之间的相似参数,按照相似参数从大到小的顺序,从多个业务文本中确定一定数量的业务文本作为文本分类模型的训练数据。
由于文本分类模型当前无法正确识别异常文本,而进行文本分类模型的优化训练的重点在于找到与异常文本相似的文本作为训练数据。本申请通过对文本分类模型进行训练,使得文本分类模型可以正确识别异常文本以及与异常文本相似的文本。在本申请中,通过在包括海量业务文本的业务文本中获取与异常文本相似的目标业务文本,再基于目标业务文本对文本分类模型进行训练,使得训练后的文本分类模型可以较好地处理该业务场景下的文本分类任务,提高文本分类模型进行分类处理的准确性。
本申请从业务文本集中确定异常文本对应的目标业务文本,使得相似文本生成任务与实际业务场景结合,避免产生一些生涩难懂的相似文本,便于交由标注人员标注,也降低了标注人员的标注难度。
其中,确定异常文本与各个业务文本之间的相似参数,以及根据相似参数从多个业务文本中确定一个或多个目标业务文本的具体实现过程将在后续实施例中详细介绍,本实施例不再赘述。
S203、获取异常文本的标注信息和各个目标业务文本的标注信息。
本申请实施例中,在步骤S201-S202中已经获取到与异常文本相似的目标业务文本,由于目标业务文本是从线上业务数据中直接获取的,目标业务文本不存在对应的标注信息(例如目标业务文本对应的文本类型)。同样的,异常文本也不存在对应的标注信息。因此,处理服务器在利用异常文本和目标业务数据对文本分类模型进行训练前,需要对异常文本和目标业务数据进行标注,得到异常文本的标注信息和各个目标业务文本的标注信息,用于对文本分类模型进行训练。
在一实施例中,异常文本的标注信息和各个目标业务文本的标注信息可以是处理服务器在经过人工标注处理后得到的。具体的,处理服务器将异常文本和各个目标业务文本发送给终端设备,并由终端设备对应的标注人员对异常文本和各个目标业务文本进行人工标注处理(例如标注文本的文本类型);在人工标注处理后,终端设备将异常文本的标注信息和各个目标业务文本的标注信息返回给处理服务器。
S204、根据异常文本、异常文本的标注信息、一个或多个目标业务文本和各个目标业务文本的标注信息,对文本分类模型进行训练,得到训练后的文本分类模型。
本申请实施例中,管理服务器可以通过异常文本、异常文本的标注信息、一个或多个目标业务文本和各个目标业务文本的标注信息,对文本分类模型的模型参数进行调整,得到训练后的文本分类模型。上述过程可以看作是基于异常文本以及与异常文本相似的目标业务文本,对文本分类模型进行模型优化的过程。由于目标业务文本包括了与异常文本相似的特征信息,同时,该特征信息与异常文本对应的相似的业务数据紧密结合。因此,基于异常文本以及目标业务文本训练得到的文本分类模型可以较为准确对异常文本进行文本分类,并且也能更为准确地处理与异常文本相似的业务文本的文本分类任务,提高文本分类模型能够处理的数据类型的丰富度。
在一实施例中,在文本分类模型进行训练的过程中,可以利用文本分类模型对异常文本进行处理,得到异常文本的分类结果;再对异常文本的分类结果和异常文本的标注信息进行损失计算,得到该组训练数据的损失函数;通过该组训练数据的损失函数对文本分类模型中的模型参数进行调整,可以得到通过该组训练数据训练后的文本分类模型。同样的,上述一个或多个目标业务文本以及各个目标业务文本的标注信息可以组成多个训练数据,通过多个训练数据,基于上述方法对文本分类模型依次进行训练,可以逐步提高文本分类模型的识别准确率。
在一个实施例中,损失函数可以使用基于二分类的交叉熵损失函数。基于此,本申请可以使用二分类函数(Binary cross-entropy loss function),根据输出的1*2尺度的二分类概率向量和文本的标注信息计算交叉熵,就可以获得交叉熵损失函数。随后,在训练中可以使用梯度下降法(Gradient Descent)对该损失函数进行最小化,计算损失函数的梯度并迭代更新文本分类模型的参数。梯度下降法公式如下:
w=w0-ηf′(w0)
其中w0为调整前的模型参数,w为调整后的模型参数,η为学习率,f′(w0)为对损失函数求导。
需要说明的是,本申请所提到的文本分类模型还可以使用0-1损失函数、绝对值损失函数、均方差损失函数、对数损失函数和指数损失函数中的一种或多种,本实施例不再赘述。
在一实施例中,管理服务器可以在基于异常文本以及对应的目标业务文本对文本分类模型进行训练后,检测文本分类模型的修复情况(也即是检查此时的文本分类模型对该异常文本以及与该异常文本相似的文本进行文本分类处理的准确性)。具体的,处理服务器在执行S204之后,还可以执行以下步骤:处理服务器调用训练后的文本分类模型对异常文本重新进行文本分类处理,得到文本分类结果;若终端设备判断文本分类结果为错误,则针对异常文本进行困难样本处理。其中,困难样本处理可以是基于人工修复的方式,对个别困难样本进行针对性修复。通过上述方法,可以彻底解决异常文本的相关问题,更加有效的修复异常文本。
在一实施例中,管理服务器可以定时获取线上的业务数据中识别错误的异常文本,例如每天积累到一定数量的异常文本,并从业务文本集中获取异常文本相似的文本,生成对应的标注任务让标注人员进行异常文本和相似文本的标注;基于上述数据对文本分类模型进行训练,以逐步提高文本分类模型的文本分类的准确性,以及提高文本分类模型能够处理的数据类型的丰富度。
在一实施例中,由于线上业务的业务数据非常庞大,本申请在获取异常文本对应的相似文本时会计算异常文本和海量业务文本的文本向量,此过程耗时较长。因此,管理服务器可以提前将海量业务数据的文本向量进行缓存(例如缓存到数据库),当需要获取某一异常文本对应的相似文本(即目标业务文本)时,直接获取海量业务文本的文本向量与异常文本的文本向量进行相似度计算,提高获取异常文本对应的相似文本的文本向量的速度,进而提高了文本分类模型的训练效率。
下面将对本申请提出的数据处理方法的流程进行介绍,请参见图3B,该图是本申请一个示例性实施例提供的一种异常文本的流程处理框图。首先由业务侧(例如检测人员)发现异常文本,并由业务侧提交异常文本到处理服务器;处理服务器在接收到异常文本后,从海量业务文本中进行相似文本筛选,得到目标业务文本;处理服务器先将筛选出的目标业务文本与测试集和训练集进行联合比对,进行数据去重处理;然后对数据去重处理后的目标业务文本以及异常文本进行数据标注,得到对应的标注信息;处理服务器最后将标注后的目标业务文本和异常文本与训练集进行合并,基于合并后的训练集对文本分类模型进行训练,得到训练后的文本分类模型。
基于上述实施例,本申请的有益效果在于:本申请通过获取与异常文本相似的目标业务文本,再针对异常文本和目标业务文本进行标注处理后对文本分类模型进行训练,使得训练后的文本分类模型可以更加准确的识别异常文本。由于目标业务文本中包括了与异常文本相似的特征信息,使得文本分类模型也能够更为准确地处理与异常文本相似的业务文本的文本分类任务,提高文本分类模型能够处理的数据类型的丰富度。
由于文本分类模型当前无法正确识别异常文本,而进行文本分类模型的优化训练的重点在于找到与异常文本相似的文本作为训练数据。本申请通过从包括海量业务文本的业务文本集中获取的目标业务文本作为相似文本进行模型训练,使得相似文本生成任务与实际业务场景结合,使得文本分类模型可以较好地处真实业务场景下的文本分类任务,提高文本分类模型进行分类处理的准确性。同时也可以避免产生一些生涩难懂的相似文本,从而降低了数据的标注难度。
本申请还提出在获取异常文本对应的相似文本时会计算异常文本和海量业务文本的文本向量,此过程耗时较长。因此,可以提前将海量业务数据的文本向量进行缓存,当需要获取某一异常文本对应的目标业务文本时,直接获取海量业务文本的文本向量与异常文本的文本向量进行相似度计算,提高获取异常文本对应的相似文本的速度,进而提高了文本分类模型的训练效率。
本申请还提出在基于异常文本以及对应的目标业务文本对文本分类模型进行训练后,调用训练后的文本分类模型对异常文本重新进行文本分类处理,得到文本分类结果,通过文本分类结果检测文本分类模型的修复情况。通过上述方法,检查此时的文本分类模型对该异常文本以及与该异常文本相似的文本进行文本分类处理的准确性,彻底解决异常文本的相关问题,更加有效的修复异常文本。
请参阅图4,该图是本申请一个示例性实施例提供的一种数据处理方法的流程示意图,以该方法应用于处理服务器(指代图1B中的服务器102)为例进行说明,该方法可包括以下步骤:
S401、获取异常文本和业务文本集,业务文本集包括多个业务文本。
其中,异常文本是分类结果错误的文本,分类结果是通过调用文本分类模型对异常文本进行文本分类处理得到的。步骤S401的具体实施方式参见前述实施例中步骤S201的相关描述,此处不再赘述。
下面将通过步骤S402-S403对上述步骤S202中确定异常文本与各个业务文本之间的相似参数的具体实现方式进行说明。
S402、确定异常文本的第一文本向量,以及确定参考业务文本的第二文本向量,参考业务文本为多个业务文本中的任意一个业务文本。
本申请实施例中,参考业务文本为业务文本集中的任意一个业务文本,处理服务器首先异常文本的第一文本向量以及业务文本集中的各个业务文本的第二文本向量,用以进行文本之间的相似度比较。
在一实施例中,上述确定异常文本的第一文本向量的步骤的具体实现方式如下:调用文本向量提取模型对异常文本进行文本向量提取处理,得到异常文本的第一文本向量。
其中,文本向量提取模型是根据损失参数对初始文本向量提取模型的模型参数进行调整得到,损失参数是根据预测向量矩阵和标准向量矩阵确定的;预测向量矩阵是根据M个组合文本中各个组合文本的预测文本向量生成的,M为大于1的正整数,预测文本向量是通过调用初始文本向量提取模型对组合文本进行文本向量提取处理得到,组合文本是根据语义相似的多个相似文本生成;预测向量矩阵中的各个矩阵元素用于指示M个组合文本中两个组合文本之间的预测相似度,预测相似度是根据两个组合文本的预测文本向量确定的,标准向量矩阵中的各个矩阵元素用于指示多个组合文本中两个组合文本之间的参考相似度。
其中,文本向量提取模型的相关信息将在后续实施例中详细介绍,本实施例不再赘述。
需要说明的是,在步骤S204中确定参考业务文本的第二文本向量的步骤,也可以是调用上述的文本向量提取模型对参考业务文本进行文本向量提取处理,得到参考业务文本的第二文本向量,具体实现过程请参见确定异常文本的第一文本向量的相关描述,本申请不再赘述。同时,本申请中的文本向量提取模型的训练过程将在后续实施例中进行详细介绍,本实施例不再赘述。
S403、计算第一文本向量和第二文本向量之间的距离参数,根据距离参数确定异常文本与参考业务文本之间的相似参数。
本申请实施例中,在处理服务器通过文本向量提取模型获取到异常文本的第一文本向量以及业务文本集中的各个业务文本的第二文本向量后,可以基于第一文本向量和第二文本向量之间的距离参数确定异常文本与参考业务文本之间的相似参数,从而根据相似参数获取异常文本对应的相似数据,用于进行文本分类模型的训练。
由于文本分类模型当前无法正确识别异常文本,而进行文本分类模型的优化训练的重点是在于找到与异常文本相似的文本作为训练数据。本申请通过对文本分类模型进行训练,使得文本分类模型可以正确识别异常文本以及与异常文本相似的文本。在本申请中,通过在包括海量业务文本的业务文本中获取与异常文本相似的目标业务文本,再基于目标业务文本对文本分类模型进行训练,使得训练后的文本分类模型可以较好地处理此业务场景下的文本分类任务,从而提高文本分类模型进行分类处理的准确性。
本申请从业务文本集中确定异常文本对应的目标业务文本,使得相似文本生成任务与实际的业务场景结合,避免产生一些生涩难懂的相似文本,便于交由标注人员标注,也降低了标注人员的标注难度。
在一实施例中,距离参数可以是用于指示任意两个向量之间的差异性的数据,例如任意两个向量之间的余弦距离。相似参数可以是基于距离参数得到的用于指示任意两个向量之间的相似性的数据,例如根据任意两个向量之间的余弦距离计算出的相似度得分。示例性的,存在向量A和向量B,那么向量A与向量B之间的余弦距离可以根据以下公式计算得到:
其中,A为向量A,diet(A,B)为向量A与向量B之间的余弦距离,cos(A,B)为向量A与向量B之间的余弦相似度,||A||2为向量A的L2范数,A*B为向量A与向量B之间的点积。
下面将通过步骤S404-S405对上述步骤S202中根据相似参数从多个业务文本中确定一个或多个目标业务文本的具体实现方式进行说明。
S404、根据异常文本与各个业务文本之间的相似参数,按照相似参数从大到小的顺序,对多个业务文本进行排序,得到第一排序结果。
S405、确定第一排序结果中排在前K位的K个业务文本,将K个业务文本中的每一个业务文本确定为目标业务文本。其中,K为正整数。
在上述步骤S404-S405中,处理服务器对异常文本与各个业务文本之间的相似参数进行相似度排序,然后按照相似度从大到小的顺序选取出前K个(TOPK)业务文本作为与异常文本最相似的K个业务文本,K个业务文本作为目标业务文本用于进行文本分类模型的训练。一般而言,当K设置为较大值(例如10000)时,所得到的目标业务文本数量越多,基于目标业务文本进行训练的时长会增加,但训练后的文本分类模型的分类能力提高较大;当K设置为较小值(例如100)时,所得到的目标业务文本数量越少,基于目标业务文本进行训练的时长会减少,但训练后的文本分类模型的分类能力提高较小。因此,本申请中的K值可以根据业务情况灵活设置,在保证适当的训练时长时,提高训练后的文本分类模型的分类能力。
在一实施例中,如果处理服务器获取到的目标业务文本的数量较少,基于较少的目标业务文本进行文本分类模型的训练效果有限。因此,处理服务器可以通过结合相似文本生成处理的方法,以生成更多的目标业务文本(即相似文本),更有效的对文本分类模型进行训练,保证了数据的丰富度。其中,相似文本生成处理可以是数据增强处理(即EDA),通过数据增强处理对原始文本进行数据增强,例如对原始文本中的部分文本内容进行同义词交换、随机插入/删除一些词等操作,得到增强数据,作为原始文本对应的一个或多个相似文本。
下面将对本申请提出的获取目标业务文本的方法的进行介绍,请参见图5A,该图是本申请一个示例性实施例提供的一种获取目标业务文本的流程处理框图。处理服务器首先获取异常文本和多个业务文本(例如海量的无标签的业务数据);通过调用文本向量提取模型获取异常文本对应的文本向量,以及多个业务文本分别对应的文本向量;处理服务器再计算异常文本对应的文本向量分别与各个业务文本对应的文本向量之间的相似参数(例如两个文本向量之间的余弦距离);处理服务器最后从多个业务文本中确定相似参数最大的多个业务文本(例如余弦距离最小的前K个业务文本)作为目标业务文本。
S406、获取异常文本的标注信息和各个目标业务文本的标注信息。
S407、根据异常文本、异常文本的标注信息、一个或多个目标业务文本和各个目标业务文本的标注信息,对文本分类模型进行训练,得到训练后的文本分类模型。
其中,步骤S406-S407的具体实施方式参见前述实施例中步骤S203-S204的相关描述,此处不再赘述。
下面将对本申请中的文本向量提取模型的训练过程进行详细介绍。
在一实施例中,文本向量提取模型的训练过程,可以根据以下步骤实现:
(a1)、获取一个或多个样本文本组。其中,一个或多个样本文本组中的各个样本文本组包括语义相似的多个相似文本。
本申请实施例中,样本文本组中包括语义相似的多个相似文本,例如样本文本组1中包括文本w1、文本w2,文本w1和文本w2互为相似文本;样本文本组2中包括文本w3、文本w4,文本w3和文本w4互为相似文本;样本文本组3中包括文本w5、文本w6、文本w7,文本w5、文本w6、文本w7互为相似文本。每个样本文本组中包括的相似文本的数量可以由处理服务器预先设定,本申请不对其进行限定。
在一实施例中,生成样本文本组的方法可以通过人工采集的方式获取得到,即通过人工方式生成多个相似的文本,组成样本文本组。生成样本文本组的方法也可以通过相似文本生成处理的方法得到,该方法具体可以根据以下步骤实现:第一步,获取原始文本;第二步,对原始文本进行相似文本生成处理,得到原始文本对应的一个或多个相似文本;第三步,根据原始文本和原始文本对应的一个或多个相似文本生成样本文本组。
其中,相似文本生成处理可以是数据增强处理(即EDA),通过数据增强处理对原始文本进行数据增强,例如对原始文本中的部分文本内容进行同义词交换、随机插入/删除一些词等操作,得到增强数据,作为原始文本对应的一个或多个相似文本。
(a2)、根据目标样本文本组中的多个相似文本生成多个组合文本,并调用初始文本向量提取模型对多个组合文本中各个组合文本进行文本向量提取处理,得到多个组合文本中各个组合文本的预测文本向量。
其中,目标样本文本组为一个或多个样本文本组中的任意一个样本文本组,处理服务器可以基于目标样本文本组中的多个相似文本生成多个组合文本。多个组合文本中的各个组合文本是根据目标样本文本组中的N个相似文本生成,N为大于1的正整数。
在一实施例中,上述根据目标样本文本组中的多个相似文本生成多个组合文本,可以根据以下方式实现:
第一步,针对目标样本文本组进行Q次文本选取操作,每一次文本选取操作选取出N个相似文本。
第二步,针对每一次文本选取操作选取出的N个相似文本进行排列组合,得到多个组合文本。
下面将通过具体实例对上述生成多个组合文本的方法进行说明:以目标样本文本组为例,假设目标样本文本组中包括2个相似文本,分别为w1、w2。可以进行1次(此时Q为1)文本选取操作,选取出w1、w2(此时N为2);然后针对选取出的2个相似文本进行排列组合,得到2个组合文本,分别为[w1-w2]和[w2-w1]。其中,[w1-w2]是指在文本w1的末尾拼接文本w2。
请参见图5B,该图是本申请一个示例性实施例提供的一种生成组合文本的示意图。相似文本包括两个,分别为“山峰海拔800米”和“山高度为800”。根据上述两个相似文本生成两个组合文本,分别为“山峰海拔800米山高度为800”和“山高度为800山峰海拔800米”。
在一实施例中,假设目标样本文本组中也可以包括多个相似文本,以相似文本数量为3进行说明,3个相似文本分别为w1、w2、w3。可以进行3次(此时Q为3)文本选取操作,分别选取出w1、w2;w1、w3;w2、w3(此时N为2)。然后针对选取出的三个分别包括2个相似文本的数据组进行排列组合,得到6个组合文本,分别为[w1-w2]、[w2-w1]、[w1-w3]、[w3-w1]、[w2-w3]、[w3-w2]。需要说明的是,目标样本文本组中也可以包括其他数量相似文本,同时N也可以为大于2的正整数,本实施例不再赘述。
在一实施例中,由于线上业务的业务数据非常庞大,本申请在获取异常文本对应的相似文本时会计算异常文本和海量业务文本的文本向量,此过程耗时较长。因此,管理服务器可以提前将海量业务数据的文本向量进行缓存(例如缓存到数据库),当需要获取某一异常文本对应的相似文本(即目标业务文本)时,直接获取海量业务文本的文本向量与异常文本的文本向量进行相似度计算,提高获取异常文本对应的相似文本的文本向量的速度,进而提高了文本分类模型的训练效率。
需要说明的是,本申请通过大量测试发现,当目标样本文本组中的相似文本的数量为2,并且当目标样本文本组中的2个相似文本生成2个组合文本时,利用该情况下生成的组合文本进行后续文本向量提取模型的训练,可以达到较佳的效果,其训练效率和模型处理能力的提升较高。并且,在针对文本向量提取模型的一次训练过程中,确保生成的任意组合文本是根据目标样本文本组中的2个相似文本生成,可以进一步提高文本向量提取模型的训练效果。
在一实施例中,文本向量提取模型的输入可以是组合文本的初始向量集(初始向量集中只包含组合文本中具有语义特征的词向量集合)。那么,获取组合文本的初始向量集,可以根据以下步骤实现:
(b1)、为目标组合文本添加标识;添加的标识包括句首标识和间隔标识,句首标识位于目标组合文本的头部位置,间隔标识位于目标组合文本中的两个相似文本之间,目标组合文本为M个组合文本中的任意一个组合文本。
本申请实施例中,处理服务器可以对目标组合文本进行标识添加处理,包括添加句首标识和间隔标识,间隔标识可以为目标组合文本中的每一个相似文本的尾部位置添加句尾标识。通过上述方法,使得文本向量提取模型可以基于句首标识和间隔标识更好的区分各个组合文本的语义信息,提高文本向量提取模型获取到的组合文本的文本向量与真实语义之间的匹配度。
下面将通过实例对上述步骤进行进一步说明,请参见图5C,该图是本申请一个示例性实施例提供的一种组合文本添加标识的示意图。图中展示了三组样本文本组,第一组样本文本组包括“山峰海拔800米”和“山高度为800”两个相似文本;第二组样本文本组包括“你今天吃饭了没有”和“你今天饭吃了吗”两个相似文本;第三组样本文本组包括“白切鸡怎么做”和“怎么做一只好吃的白切鸡”两个相似文本。通过第一组样本文本组可以得到两个组合文本w1和w2,分别为“山峰海拔800米山高度为800”和“山高度为800山峰海拔800米”。通过第二组样本文本组可以得到两个组合文本w3和w4,分别为“你今天吃饭了没有你今天饭吃了吗”和“你今天饭吃了吗你今天吃饭了没有”。通过第三组样本文本组可以得到两个组合文本w5和w6,分别为“白切鸡怎么做怎么做一只好吃的白切鸡”和“怎么做一只好吃的白切鸡白切鸡怎么做”。处理服务器然后分别对各个组合文本进行标识添加处理,得到标识添加处理后的目标组合文本s1、s2、s3、s4、s5、s6。以组合文本s1为例,在组合文本“山峰海拔800米山高度为800”的头部位置添加句首标识,在组合文本s1中的相似文本“山峰海拔800米”的尾部位置添加句尾标识,在组合文本s1中的相似文本“山高度为800”的尾部位置添加句尾标识,最终得到标识添加处理后的目标组合文本s1。
需要说明的是,处理服务器也可以在对目标组合文本中的多个相似文本进行排列组合时直接添加句首标识和间隔标识,得到标识添加处理后的目标组合文本。例如,处理服务器获取第一组样本文本组中包括的“山峰海拔800米”和“山高度为800”两个相似文本,然后进行全排列计算,根据全排列结果添加对应的句首标识和间隔标识(例如,针对全排列结果中的首个相似文本,在首个相似文本的头部位置添加句首标识CLS;针对全排列结果中的所有相似文本,在各个相似文本的尾部位置添加句尾标识SEP)。通过上述方法,可以提高标识添加处理的效率。
(b2)、对标识添加处理后的目标组合文本进行文本转换处理,得到目标组合文本的初始向量集。其中,初始向量集包括的各个初始向量用于表征标识添加处理后的目标组合文本中的文本对象。
本申请实施例中,处理服务器对标识添加处理后的目标组合文本进行由文本到向量的转换处理,得到目标组合文本的初始向量集,初始向量集中的各个初始向量用于表征目标组合文本中的文本对象。通过将文本转换为对应的文本向量,以便于初始文本向量提取模型提取目标组合文本的文本特征,提高预测文本向量的生成效率。
在一实施例中,可以将任意一个组合文本进行文本转换处理,得到固定维度大小的初始向量集,处理服务器对多个(例如6个)组合文本进行处理,得到多个初始向量集。例如初始向量集的固定维度大小为768维度,那么多个组合文本对应的多个初始向量集的大小(shape)为[batch_size,hidden_size]。此时,batch_size为6,指初始向量集(或组合文本)的数量,hidden_size为768,为每一个初始向量集(或组合文本)的维度大小。针对多个组合文本,处理服务器基于相同维度大小对多个组合文本对应的多个初始向量集进行处理,可以提高处理效率。
通过上述方法可以得到各个组合文本的初始向量集,基于此,上述调用初始文本向量提取模型对多个组合文本中各个组合文本进行文本向量提取处理,得到多个组合文本中各个组合文本的预测文本向量,可以根据以下步骤实现:
(a21)、针对多个组合文本中的目标组合文本,调用初始文本向量提取模型对初始向量集中的各个初始向量进行处理,得到编码向量集。
本申请实施例中,处理服务器可以调用初始文本向量提取模型对初始向量集中的各个初始向量进行编码处理,得到对应的编码向量集。初始文本向量提取模型中可以包括一个或多个编码器,通过一个编码器对初始向量集中的各个初始向量进行多次处理,或者通过多个编码器对初始向量集中的各个初始向量进行多次处理,得到编码向量集。在编码的过程中,通过注意力机制的作用,每一个编码向量得到了各个初始向量的语义的加权平均,编码向量集中的任意一个编码向量聚合了其他初始向量的语义特征,使得编码向量集中的任意一个编码向量都可以在一定程度上表征目标组合文本的语义信息。
(a22)、从编码向量集中确定句首标识对应的编码向量,根据句首标识对应的编码向量确定目标组合文本的预测文本向量。
本申请实施例中,由于句首标识对应的编码向量可以表征目标组合文本整体的语义信息,处理服务器从编码向量集中确定句首标识对应的编码向量,并将句首标识对应的编码向量作为目标组合文本的预测文本向量,可以提高获取目标组合文本的语义特征的速度,从而提高文本向量提取模型的训练效率。
在一实施例中,处理服务器也可以从编码向量集中确定某一句尾标识对应的编码向量,根据句尾标识对应的编码向量确定目标组合文本的预测文本向量;或者,处理服务器也可以从编码向量集中确定某一个特定初始向量对应的编码向量,根据特定初始向量对应的编码向量确定目标组合文本的预测文本向量。通过上述方法,也可以提高获取目标组合文本的语义特征的速度,从而提高文本向量提取模型的训练效率。
(a3)、根据M个组合文本中各个组合文本的预测文本向量生成预测向量矩阵,M个组合文本由各个样本文本组对应的多个组合文本构成。
本申请实施例中,针对每一个样本文本组,处理服务器获取每一个样本文本组中的各个组合文本中各个组合文本对应的预测文本向量,进而得到所有样本文本组整体对应的预测向量矩阵。
在一实施例中,上述根据M个组合文本中各个组合文本的预测向量生成预测向量矩阵,可以根据以下步骤实现:
(a31)、按照M个组合文本中各个组合文本输入初始文本向量提取模型中进行文本向量提取处理的顺序,对M个组合文本中各个组合文本的预测文本向量进行排序,得到第二排序结果。
以图5C为例进行说明,标识添加处理后的目标组合文本包括s1、s2、s3、s4、s5、s6,此时,M为6。在上述6个目标组合文本进行文本向量提取处理时,是以s1、s2、s3、s4、s5、s6的顺序输入到初始文本向量提取模型进行的。标识添加处理后的目标组合文本s1、s2、s3、s4、s5、s6对应的预测文本向量分别记为u1、u2、u3、u4、u5、u6。处理服务器对u1、u2、u3、u4、u5、u6进行排序,得到第二排序结果。
(a32)、针对第二排序结果中排在第X位的预测文本向量,计算排在第X位的预测文本向量与第二排序结果中各个预测文本向量之间的预测相似度,并根据计算得到的各个预测相似度,生成排在第X位的预测文本向量所对应的预测相似度序列;X为小于或等于M的任意一个正整数。
本申请实施例中,以排在第X位的预测文本向量为例进行说明,处理服务器计算排在第X位的预测文本向量分别与第二排序结果的每一个预测文本向量之间的预测相似度,组成该预测文本向量对应的预测相似度序列。
示例性的,目标组合文本s1、s2、s3、s4、s5、s6对应的预测文本向量分别为u1、u2、u3、u4、u5、u6,同时第二排序结果为u1、u2、u3、u4、u5、u6。那么,处理服务器计算排在第X位(例如第一位)的预测文本向量与第二排序结果中各个预测文本向量之间的预测相似度,也即是计算u1分别与u1、u2、u3、u4、u5、u6之间的预测相似度,组成u1对应的预测相似度序列[(u1.u1)、(u1.u2)、(u1.u3)、(u1.u4)、(u1.u5)、(u1.u6)]。其中,u1对应的预测相似度序列中的第H个数据用于指示u1与第二排序结果中第H个文本向量之间的预测相似度,例如(u1.u5)指u1与u5之间的预测相似度。
在一实施例中,处理服务器可以对第二排序结果中的各个预测文本向量进行归一化处理(例如L2范式归一化),然后通过对两个预测文本向量进行内积处理,得到两个预测文本向量所对应的预测相似度序列。通过上述方法,可以消除奇异样本数据导致的不良影响,从而加快训练网络的收敛性。
(a33)、根据第二排序结果中各个预测文本向量所对应的预测相似度序列,生成预测向量矩阵。
通过上述方法,处理服务器可以得到第二排序结果中每一个预测文本向量的预测相似度序列,进而得到预测向量矩阵。示例性的,处理服务器可以将第二排序结果中排在第1位的预测文本向量所对应的预测相似度序列作为预测向量矩阵的第一行;将第二排序结果中排在第2位的预测文本向量所对应的预测相似度序列作为预测向量矩阵的第二行,通过该方法组成预测向量矩阵。
在一实施例中,预测向量矩阵的大小为Y×Y,预测向量矩阵的第H行L列的矩阵元素用于指示第二排序结果中排在第H位的预测文本向量与第二排序结果中排在第L位的预测文本向量之间的预测相似度。
(a4)、根据预测向量矩阵和标准向量矩阵确定损失参数,并根据损失参数对初始文本向量提取模型的模型参数进行调整,得到训练后的文本向量提取模型。
在一实施例中,预测向量矩阵的大小为Y×Y,那么标准向量矩阵的大小也为Y×Y,标准向量矩阵的第H行L列的矩阵元素用于指示第二排序结果中排在第H位的预测文本向量与第二排序结果中排在第L位的预测文本向量之间的标准相似度。
在一实施例中,由于某一预测文本向量与自身的内积肯定为1,没有训练意义,因此,处理服务器可以将某一预测文本向量与自身之间的标准相似度进行掩盖处理(mask处理),也即是将标准向量矩阵的对角线数据进行掩盖,降低了数据量,从而提高文本向量提取模型的训练效率。
请参见图5D,该图是本申请一个示例性实施例提供的一种标准向量矩阵的示意图,该图是以目标组合文本s1、s2、s3、s4、s5、s6对应的预测文本向量u1、u2、u3、u4、u5、u6为例进行说明的。图中虚线框内为标准向量矩阵,大小为6*6,标准向量矩阵中的每一个矩阵元素为该矩阵元素所对应的两个组合文本的预测文本向量(例如两个组合文本中的CLS向量)确定的。例如,由于标准向量矩阵中第一行第一列为u1与u1之间的标准相似度(u1与u1相比,一定相似),因此对该矩阵元素进行掩盖处理;又如标准向量矩阵中第一行第二列为u1与u2之间的标准相似度,由于u1与u2互为相似文本,因此将对该矩阵元素对应的标准相似度设置为1;再如标准向量矩阵中第一行第三列为u1与u3之间的标准相似度,由于u1与u3不为相似文本,因此将对该矩阵元素对应的标准相似度设置为0。通过上述方法,可以确定出任意数量的目标组合文本所对应的标准向量矩阵。
在一实施例中,预测向量矩阵和标准向量矩阵中同一位置处的矩阵元素所对应的两个组合文本相同。示例性的,如果预测向量矩阵中第一行第三列为u1与u3之间的预测相似度,那么标准向量矩阵中第一行第三列也应该为u1与u3之间的标准相似度,通过上述同一位置处的组合文本一一对应的方法,可以提高处理服务器获取数据的速度,从而提高文本向量提取模型的训练效率。
基于此,上述根据预测向量矩阵和标准向量矩阵确定损失参数,可以根据以下步骤实现:
(a41)、将预测向量矩阵中的第一矩阵元素与标准向量矩阵中的第二矩阵元素进行比较,得到差异参数;第一矩阵元素为预测向量矩阵中任意一个矩阵元素,第二矩阵元素在标准向量矩阵中所处的位置与所述第一矩阵元素在预测向量矩阵中所处的位置相同。
(a42)、根据预测向量矩阵中各个矩阵元素对应的差异数据,确定损失参数。
在上述步骤(a41-a42)中,处理服务器首先获取预测向量矩阵中的各个矩阵元素与在标准向量矩阵中位置相对应的矩阵元素之间的差异数据,再通过预测向量矩阵中的各个矩阵元素对应的差异数据,确定模型的损失参数,从而对初始文本向量提取模型的模型参数进行调整。
在一实施例中,确定差异参数的方法可以根据以下步骤实现:处理服务器首先获取预测向量矩阵中某一组合文本对应的预测向量矩阵行,并根据该预测向量矩阵行与标准向量矩阵中位置对应的标准向量矩阵行确定组合文本对应的局部差异数据(例如局部损失);处理服务器再根据多个组合文本对应的多个局部差异数据确定全局差异数据(例如全局损失),并利用全局差异数据对初始文本向量提取模型的模型参数进行调整。
在一实施例中,处理服务器可以对预测向量矩阵的每一行进行归一化处理(例如softmax处理)。处理服务器可以在softmax前,对预测向量矩阵的每一行乘以一个大于1的数值(scale),例如scale取值为30。用以避免梯度下降带来的梯度消失问题,提高训练效率;处理服务器最后将softmax的输出与标准向量矩阵进行损失函数计算(例如,交叉熵损失函数(Cross Entropy,CE)),作为训练初始文本向量提取模型的损失(loss)。总体来说,上述方法是一种将相邻的相似样本作为正样本,将所有的非相似样本作为负样本的分类任务。
在一实施例中,管理服务器可以在基于异常文本以及对应的目标业务文本对文本分类模型进行训练后,检测文本分类模型的修复情况,也即是检查此时的文本分类模型对该异常文本以及与该异常文本相似的文本进行文本分类处理的准确性。具体的,处理服务器在对文本分类模型进行训练后,还可以执行以下步骤:处理服务器调用训练后的文本分类模型对异常文本重新进行文本分类处理,得到文本分类结果;若终端设备判断文本分类结果为错误,则针对异常文本进行困难样本处理。其中,困难样本处理可以是基于人工修复的方式,对个别困难样本进行针对性修复。通过上述方法,可以彻底解决异常文本的相关问题,更加有效的修复异常文本。
本申请基于上述数据处理方法,构建了异常样本发现、业务数据筛选、数据标注、模型优化的一套流程,实现了一种能够进行异常样本修复的风控系统。具体的,风控模型主要用于对线上的文本进行风险类型(例如催单类型、投诉类型等风险类型)分类。风控系统会将识别为有风险的文本推送给业务侧,在有风险的文本下面显示对应的风险类型,由业务侧来跟进处理。当业务侧发现风控模型识别错误时(例如被应该为催单类型的文本被识别为投诉类型)进行反馈,识别错误的文本会注入到“异常样本修复系统流程”中,此时,该识别错误的文本就会作为本申请中的异常样本,由处理服务器进行相关处理。
风控系统接收到反馈的异常文本,通过相似文本检索的方法(例如使用相似文本检索模型),计算异常文本的文本向量和海量业务文本(例如最近两月的业务文本呢)的文本向量,然后计算异常文本的文本向量分别与和海量业务文本的文本向量之间的相似参数(例如余弦距离)。风控系统选取余弦距离最小的多个(例如15个)业务文本,作为目标业务文本。请参见图5E,该图是本申请一个示例性实施例提供的一种确定目标业务文本的示意图,输入数据为“帮忙尽快解决一下呢”,通过上述相似文本检索的方法,从海量业务文本中得到如图所示的十五条目标业务文本,例如“尽快帮忙解决”、“请帮忙尽快解决一下,谢谢了”、“您快一点帮忙解决一下”等。风控系统可以每天积累到一定的目标业务文本,生成标注任务让标注人员进行标注;因为最近两个月的业务文本非常庞大,计算句向量耗时较长,可以提前将业务文本的文本向量缓存到文件中。当达到一定时间区间范围时(例如每两周),将标注好的目标业务文本和异常文本添加到训练集中,对风控模型进行训练。算法人员可以检查异常样本的修复情况,对个别的困难样本进行针对性修复。
通过大量业务数据进行测试发现,较之前修复100条左右的错误样本需要耗时2天时间,使用本申请所提出的方法进行处理,耗时约0.5天。本申请只需对当前流程无法解决的难例进行人工重点单独处理即可。同时,本申请由于是直接从业务文本中获取的目标业务文本,更符合实际应用场景,使得线上的异常样本较处理前降低约20%。
同时,本申请发现,当目标样本文本组中的相似文本的数量为2,并且当目标样本文本组中的2个相似文本生成2个组合文本时,利用该情况下生成的组合文本进行后续文本向量提取模型的训练,可以达到较佳的效果,其训练效率和模型处理能力的提升较高。并且,在针对文本向量提取模型的一次训练过程中,确保生成的任意组合文本是根据目标样本文本组中的2个相似文本生成,可以进一步提高文本向量提取模型的训练效果。
基于上述实施例,本申请的有益效果在于:本申请提出在从业务文本集中确定目标业务文本的过程中,调用文本向量提取模型对异常文本进行文本向量提取处理,得到异常文本的第一文本向量,以及业务文本集中各个业务文本的第二文本向量;再根据第一文本向量与各个第二文本向量之间的距离参数确定异常文本与参考业务文本之间的相似参数,进而得到与异常文本最相似的多个业务文本。
本申请还提出根据业务情况灵活设置目标业务文本数量K,在保证适当的训练时长时,提高训练后的文本分类模型的分类能力。同时,如果处理服务器获取到的目标业务文本的数量较少,可以通过结合相似文本生成的方法,以生成更多的目标业务文本,从而更有效的对文本分类模型进行训练,保证了数据的丰富度。
本申请还提出可以对目标组合文本进行句首标识和间隔标识的添加处理,使得文本向量提取模型可以基于句首标识和间隔标识更好的区分各个组合文本的语义信息,提高文本向量提取模型获取到的组合文本的文本向量与真实语义之间的匹配度。由于句首标识对应的编码向量可以表征目标组合文本整体的语义信息,本申请将句首标识对应的编码向量作为目标组合文本的预测文本向量,可以提高获取目标组合文本的整体语义特征的速度,从而提高文本向量提取模型的训练效率。
本申请还提出对第二排序结果中的各个预测文本向量进行归一化处理,然后通过对两个预测文本向量进行内积处理,得到两个预测文本向量所对应的预测相似度序列。通过上述方法,可以消除奇异样本数据导致的不良影响,从而加快训练网络的收敛性。同时,本申请可以在对预测向量矩阵的每一行进行softmax处理之前,可以对预测向量矩阵的每一行乘以一个大于1的scale,用以避免梯度下降带来的梯度消失问题,提高训练效率。本申请还提出由于某一预测文本向量与自身的内积肯定为1,没有训练意义,因此,处理服务器可以将某一预测文本向量与自身之间的标准相似度进行掩盖处理,降低了计算量,从而提高文本向量提取模型的训练效率。
请参阅图6,该图是本申请实施例提供的一种数据处理装置的示意框图。其中,数据处理装置具体可以包括:
获取模块601,用于获取异常文本和业务文本集;上述异常文本是分类结果错误的文本,上述分类结果是通过调用文本分类模型对上述异常文本进行文本分类处理得到的;上述业务文本集包括多个业务文本;
处理模块602,用于确定上述异常文本与各个上述业务文本之间的相似参数,根据上述相似参数从上述多个业务文本中确定一个或多个目标业务文本;
上述处理模块602,还用于获取上述异常文本的标注信息和各个上述目标业务文本的标注信息;
训练模块603,用于根据上述异常文本、上述异常文本的标注信息、上述一个或多个目标业务文本和各个上述目标业务文本的标注信息,对上述文本分类模型进行训练,得到训练后的文本分类模型。
可选的,上述处理模块602在用于确定上述异常文本与各个上述业务文本之间的相似参数时,具体用于:
确定上述异常文本的第一文本向量,以及确定参考业务文本的第二文本向量,上述参考业务文本为上述多个业务文本中的任意一个业务文本;
计算上述第一文本向量和上述第二文本向量之间的距离参数,根据上述距离参数确定上述异常文本与上述参考业务文本之间的相似参数。
可选的,上述处理模块602在用于根据上述相似参数从上述多个业务文本中确定一个或多个目标业务文本时,具体用于:
根据上述异常文本与各个上述业务文本之间的相似参数,按照上述相似参数从大到小的顺序,对上述多个业务文本进行排序,得到第一排序结果;
确定上述第一排序结果中排在前K位的K个业务文本,将上述K个业务文本中的每一个业务文本确定为目标业务文本,K为正整数。
可选的,上述处理模块602在用于确定上述异常文本的第一文本向量时,具体用于:
调用文本向量提取模型对上述异常文本进行文本向量提取处理,得到上述异常文本的第一文本向量;
其中,上述文本向量提取模型是根据损失参数对初始文本向量提取模型的模型参数进行调整得到,上述损失参数是根据预测向量矩阵和标准向量矩阵确定的;上述预测向量矩阵是根据M个组合文本中各个组合文本的预测文本向量生成的,M为大于1的正整数,上述预测文本向量是通过调用上述初始文本向量提取模型对上述组合文本进行文本向量提取处理得到,上述组合文本是根据语义相似的多个相似文本生成;上述预测向量矩阵中的各个矩阵元素用于指示上述M个组合文本中两个组合文本之间的预测相似度,上述预测相似度是根据上述两个组合文本的预测文本向量确定的,上述标准向量矩阵中的各个矩阵元素用于指示上述多个组合文本中两个组合文本之间的参考相似度。
可选的,上述处理模块602还用于:
获取一个或多个样本文本组;各个上述样本文本组包括语义相似的多个相似文本;
根据目标样本文本组中的多个相似文本生成多个组合文本,并调用初始文本向量提取模型对上述多个组合文本中各个组合文本进行文本向量提取处理,得到上述多个组合文本中各个组合文本的预测文本向量;上述目标样本文本组为上述一个或多个样本文本组中的任意一个样本文本组,上述多个组合文本中的各个上述组合文本是根据上述目标样本文本组中的N个相似文本生成,N为大于1的正整数;
根据M个组合文本中各个组合文本的预测文本向量生成预测向量矩阵,上述M个组合文本由各个上述样本文本组对应的多个组合文本构成;
上述训练模块603还用于:
根据上述预测向量矩阵和上述标准向量矩阵确定上述损失参数,并根据上述损失参数对上述初始文本向量提取模型的模型参数进行调整,得到训练后的文本向量提取模型。
可选的,上述处理模块602还用于:
为目标组合文本添加标识;添加的标识包括句首标识和间隔标识,上述句首标识位于上述目标组合文本的头部位置,上述间隔标识位于上述目标组合文本中的两个相似文本之间,上述目标组合文本为上述M个组合文本中的任意一个组合文本;
对标识添加处理后的目标组合文本进行文本转换处理,得到上述目标组合文本的初始向量集;上述初始向量集包括的各个初始向量用于表征上述标识添加处理后的目标组合文本中的文本对象;
上述处理模块602在用于调用初始文本向量提取模型对上述多个组合文本中各个组合文本进行文本向量提取处理,得到上述多个组合文本中各个组合文本的预测文本向量时,具体用于:
针对上述多个组合文本中的上述目标组合文本,调用初始文本向量提取模型对上述初始向量集中的各个初始向量进行处理,得到编码向量集;
从上述编码向量集中确定上述句首标识对应的编码向量,根据上述句首标识对应的编码向量确定上述目标组合文本的预测文本向量。
可选的,上述处理模块602在用于根据M个组合文本中各个组合文本的预测文本向量生成预测向量矩阵时,具体用于:
按照M个组合文本中各个组合文本输入上述初始文本向量提取模型中进行文本向量提取处理的顺序,对上述M个组合文本中各个组合文本的预测向量进行排序,得到第二排序结果;
针对上述第二排序结果中排在第X位的预测向量,计算上述排在第X位的预测向量与上述第二排序结果中各个预测向量之间的预测相似度,并根据计算得到的各个上述预测相似度,生成上述排在第X位的预测向量所对应的预测相似度序列;X为小于或等于M的任意一个正整数;
根据上述第二排序结果中各个预测向量所对应的预测相似度序列,生成预测向量矩阵。
可选的,上述预测向量矩阵和上述标准向量矩阵中同一位置处的矩阵元素所对应的两个组合文本相同,上述处理模块602在用于根据上述预测向量矩阵和上述标准向量矩阵确定上述损失参数时,具体用于:
将上述预测向量矩阵中的第一矩阵元素与上述标准向量矩阵中的第二矩阵元素进行比较,得到差异参数;上述第一矩阵元素为上述预测向量矩阵中任意一个矩阵元素,上述第二矩阵元素在上述标准向量矩阵中所处的位置与上述第一矩阵元素在上述预测向量矩阵中所处的位置相同;
根据上述预测向量矩阵中各个矩阵元素对应的上述差异数据,确定上述损失参数。
基于上述数据处理装置,本申请通过获取与异常文本相似的目标业务文本,再针对异常文本和目标业务文本进行标注处理后对文本分类模型进行训练,使得训练后的文本分类模型可以更加准确的识别异常文本。
由于目标业务文本中包括了与异常文本相似的特征信息,使得文本分类模型也能够更为准确地处理与异常文本相似的业务文本的文本分类任务,提高文本分类模型能够处理的数据类型的丰富度。
由于文本分类模型当前无法正确识别异常文本,而进行文本分类模型的优化训练的重点在于找到与异常文本相似的文本作为训练数据。本申请通过从包括海量业务文本的业务文本集中获取的目标业务文本作为相似文本进行模型训练,使得相似文本生成任务与实际业务场景结合,使得文本分类模型可以较好地处真实业务场景下的文本分类任务,提高文本分类模型进行分类处理的准确性。同时也可以避免产生一些生涩难懂的相似文本,从而降低了数据的标注难度。
本申请在获取异常文本对应的相似文本时会计算异常文本和海量业务文本的文本向量,此过程耗时较长。因此,可以提前将海量业务数据的文本向量进行缓存。
当需要获取某一异常文本对应的目标业务文本时,直接获取海量业务文本的文本向量与异常文本的文本向量进行相似度计算,提高获取异常文本对应的相似文本的速度,进而提高了文本分类模型的训练效率。
本申请还提出在基于异常文本以及对应的目标业务文本对文本分类模型进行训练后,调用训练后的文本分类模型对异常文本重新进行文本分类处理,得到文本分类结果,通过文本分类结果检测文本分类模型的修复情况。
通过上述方法,检查此时的文本分类模型对该异常文本以及与该异常文本相似的文本进行文本分类处理的准确性,彻底解决异常文本的相关问题,更加有效的修复异常文本。
需要说明的是,本申请实施例的数据处理装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
请参阅图7,该图是本申请实施例提供的一种计算机设备的示意框图。如图所示的本实施例中的智能终端可以包括:处理器701、存储装置702以及通信接口703。上述处理器701、存储装置702以及通信接口703之间可以进行数据交互。
上述存储装置702可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储装置702也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;上述存储装置702还可以包括上述种类的存储器的组合。
上述处理器701可以是中央处理器(central processing unit,CPU)。在一个实施例中,上述处理器701还可以是图形处理器(Graphics Processing Unit,GPU)。上述处理器701也可以是由CPU和GPU的组合。在一个实施例中,上述存储装置702用于存储程序指令,上述处理器701可以调用上述程序指令,执行如下操作:
获取异常文本和业务文本集;上述异常文本是分类结果错误的文本,上述分类结果是通过调用文本分类模型对上述异常文本进行文本分类处理得到的;上述业务文本集包括多个业务文本;
确定上述异常文本与各个上述业务文本之间的相似参数,根据上述相似参数从上述多个业务文本中确定一个或多个目标业务文本;
获取上述异常文本的标注信息和各个上述目标业务文本的标注信息;
根据上述异常文本、上述异常文本的标注信息、上述一个或多个目标业务文本和各个上述目标业务文本的标注信息,对上述文本分类模型进行训练,得到训练后的文本分类模型。
可选的,上述处理器701在用于确定上述异常文本与各个上述业务文本之间的相似参数时,具体用于:
确定上述异常文本的第一文本向量,以及确定参考业务文本的第二文本向量,上述参考业务文本为上述多个业务文本中的任意一个业务文本;
计算上述第一文本向量和上述第二文本向量之间的距离参数,根据上述距离参数确定上述异常文本与上述参考业务文本之间的相似参数。
可选的,上述处理器701在用于根据上述相似参数从上述多个业务文本中确定一个或多个目标业务文本时,具体用于:
根据上述异常文本与各个上述业务文本之间的相似参数,按照上述相似参数从大到小的顺序,对上述多个业务文本进行排序,得到第一排序结果;
确定上述第一排序结果中排在前K位的K个业务文本,将上述K个业务文本中的每一个业务文本确定为目标业务文本,K为正整数。
可选的,上述处理器701在用于确定上述异常文本的第一文本向量时,具体用于:
调用文本向量提取模型对上述异常文本进行文本向量提取处理,得到上述异常文本的第一文本向量;
其中,上述文本向量提取模型是根据损失参数对初始文本向量提取模型的模型参数进行调整得到,上述损失参数是根据预测向量矩阵和标准向量矩阵确定的;上述预测向量矩阵是根据M个组合文本中各个组合文本的预测文本向量生成的,M为大于1的正整数,上述预测文本向量是通过调用上述初始文本向量提取模型对上述组合文本进行文本向量提取处理得到,上述组合文本是根据语义相似的多个相似文本生成;上述预测向量矩阵中的各个矩阵元素用于指示上述M个组合文本中两个组合文本之间的预测相似度,上述预测相似度是根据上述两个组合文本的预测文本向量确定的,上述标准向量矩阵中的各个矩阵元素用于指示上述多个组合文本中两个组合文本之间的参考相似度。
可选的,上述处理器701还用于:
获取一个或多个样本文本组;各个上述样本文本组包括语义相似的多个相似文本;
根据目标样本文本组中的多个相似文本生成多个组合文本,并调用初始文本向量提取模型对上述多个组合文本中各个组合文本进行文本向量提取处理,得到上述多个组合文本中各个组合文本的预测文本向量;上述目标样本文本组为上述一个或多个样本文本组中的任意一个样本文本组,上述多个组合文本中的各个上述组合文本是根据上述目标样本文本组中的N个相似文本生成,N为大于1的正整数;
根据M个组合文本中各个组合文本的预测文本向量生成预测向量矩阵,上述M个组合文本由各个上述样本文本组对应的多个组合文本构成;
上述处理器701还用于:
根据上述预测向量矩阵和上述标准向量矩阵确定上述损失参数,并根据上述损失参数对上述初始文本向量提取模型的模型参数进行调整,得到训练后的文本向量提取模型。
可选的,上述处理器701还用于:
为目标组合文本添加标识;添加的标识包括句首标识和间隔标识,上述句首标识位于上述目标组合文本的头部位置,上述间隔标识位于上述目标组合文本中的两个相似文本之间,上述目标组合文本为上述M个组合文本中的任意一个组合文本;
对标识添加处理后的目标组合文本进行文本转换处理,得到上述目标组合文本的初始向量集;上述初始向量集包括的各个初始向量用于表征上述标识添加处理后的目标组合文本中的文本对象;
上述处理器701在用于调用初始文本向量提取模型对上述多个组合文本中各个组合文本进行文本向量提取处理,得到上述多个组合文本中各个组合文本的预测文本向量时,具体用于:
针对上述多个组合文本中的上述目标组合文本,调用初始文本向量提取模型对上述初始向量集中的各个初始向量进行处理,得到编码向量集;
从上述编码向量集中确定上述句首标识对应的编码向量,根据上述句首标识对应的编码向量确定上述目标组合文本的预测文本向量。
可选的,上述处理器701在用于根据M个组合文本中各个组合文本的预测文本向量生成预测向量矩阵时,具体用于:
按照M个组合文本中各个组合文本输入上述初始文本向量提取模型中进行文本向量提取处理的顺序,对上述M个组合文本中各个组合文本的预测向量进行排序,得到第二排序结果;
针对上述第二排序结果中排在第X位的预测向量,计算上述排在第X位的预测向量与上述第二排序结果中各个预测向量之间的预测相似度,并根据计算得到的各个上述预测相似度,生成上述排在第X位的预测向量所对应的预测相似度序列;X为小于或等于M的任意一个正整数;
根据上述第二排序结果中各个预测向量所对应的预测相似度序列,生成预测向量矩阵。
可选的,上述预测向量矩阵和上述标准向量矩阵中同一位置处的矩阵元素所对应的两个组合文本相同,上述处理器701在用于根据上述预测向量矩阵和上述标准向量矩阵确定上述损失参数时,具体用于:
将上述预测向量矩阵中的第一矩阵元素与上述标准向量矩阵中的第二矩阵元素进行比较,得到差异参数;上述第一矩阵元素为上述预测向量矩阵中任意一个矩阵元素,上述第二矩阵元素在上述标准向量矩阵中所处的位置与上述第一矩阵元素在上述预测向量矩阵中所处的位置相同;
根据上述预测向量矩阵中各个矩阵元素对应的上述差异数据,确定上述损失参数。
基于上述计算机设备,本申请通过获取与异常文本相似的目标业务文本,再针对异常文本和目标业务文本进行标注处理后对文本分类模型进行训练,使得训练后的文本分类模型可以更加准确的识别异常文本。
由于目标业务文本中包括了与异常文本相似的特征信息,使得文本分类模型也能够更为准确地处理与异常文本相似的业务文本的文本分类任务,提高文本分类模型能够处理的数据类型的丰富度。
由于文本分类模型当前无法正确识别异常文本,而进行文本分类模型的优化训练的重点在于找到与异常文本相似的文本作为训练数据。本申请通过从包括海量业务文本的业务文本集中获取的目标业务文本作为相似文本进行模型训练,使得相似文本生成任务与实际业务场景结合,使得文本分类模型可以较好地处真实业务场景下的文本分类任务,提高文本分类模型进行分类处理的准确性。同时也可以避免产生一些生涩难懂的相似文本,从而降低了数据的标注难度。
本申请在获取异常文本对应的相似文本时会计算异常文本和海量业务文本的文本向量,此过程耗时较长。因此,可以提前将海量业务数据的文本向量进行缓存。
当需要获取某一异常文本对应的目标业务文本时,直接获取海量业务文本的文本向量与异常文本的文本向量进行相似度计算,提高获取异常文本对应的相似文本的速度,进而提高了文本分类模型的训练效率。
本申请还提出在基于异常文本以及对应的目标业务文本对文本分类模型进行训练后,调用训练后的文本分类模型对异常文本重新进行文本分类处理,得到文本分类结果,通过文本分类结果检测文本分类模型的修复情况。
通过上述方法,检查此时的文本分类模型对该异常文本以及与该异常文本相似的文本进行文本分类处理的准确性,彻底解决异常文本的相关问题,更加有效的修复异常文本。
具体实现中,本申请实施例中所描述的处理器701、存储装置702以及通信接口703可执行本申请实施例图2或图4提供的数据处理方法的相关实施例中所描述的实现方式,也可执行本申请实施例图6提供的数据处理装置的相关实施例中所描述的实现方式,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和系统,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的;例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的数据处理装置所执行的计算机程序,且该计算机程序包括程序指令,当处理器执行上述程序指令时,能够执行前文图2、图4所对应实施例中的方法,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可以被部署在一个计算机设备上,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可以执行前文图2、图4所对应实施例中的方法,因此,这里将不再进行赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本申请的部分实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (12)

1.一种数据处理方法,其特征在于,所述方法包括:
获取异常文本和业务文本集;所述异常文本是分类结果错误的文本,所述分类结果是通过调用文本分类模型对所述异常文本进行文本分类处理得到的,所述业务文本集包括多个业务文本;
确定所述异常文本与各个所述业务文本之间的相似参数,根据所述相似参数从所述多个业务文本中确定一个或多个目标业务文本;
获取所述异常文本的标注信息和各个所述目标业务文本的标注信息;
根据所述异常文本、所述异常文本的标注信息、所述一个或多个目标业务文本和各个所述目标业务文本的标注信息,对所述文本分类模型进行训练,得到训练后的文本分类模型。
2.根据权利要求1所述的方法,其特征在于,所述确定所述异常文本与各个所述业务文本之间的相似参数,包括:
确定所述异常文本的第一文本向量,以及确定参考业务文本的第二文本向量,所述参考业务文本为所述多个业务文本中的任意一个业务文本;
计算所述第一文本向量和所述第二文本向量之间的距离参数,根据所述距离参数确定所述异常文本与所述参考业务文本之间的相似参数。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述相似参数从所述多个业务文本中确定一个或多个目标业务文本,包括:
根据所述异常文本与各个所述业务文本之间的相似参数,按照所述相似参数从大到小的顺序,对所述多个业务文本进行排序,得到第一排序结果;
确定所述第一排序结果中排在前K位的K个业务文本,将所述K个业务文本中的每一个业务文本确定为目标业务文本,K为正整数。
4.根据权利要求2所述的方法,其特征在于,所述确定所述异常文本的第一文本向量,包括:
调用文本向量提取模型对所述异常文本进行文本向量提取处理,得到所述异常文本的第一文本向量;
其中,所述文本向量提取模型是根据损失参数对初始文本向量提取模型的模型参数进行调整得到,所述损失参数是根据预测向量矩阵和标准向量矩阵确定的;所述预测向量矩阵是根据M个组合文本中各个组合文本的预测文本向量生成的,M为大于1的正整数,所述预测文本向量是通过调用所述初始文本向量提取模型对所述组合文本进行文本向量提取处理得到,所述组合文本是根据语义相似的多个相似文本生成;所述预测向量矩阵中的各个矩阵元素用于指示所述M个组合文本中两个组合文本之间的预测相似度,所述预测相似度是根据所述两个组合文本的预测文本向量确定的,所述标准向量矩阵中的各个矩阵元素用于指示所述多个组合文本中两个组合文本之间的参考相似度。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取一个或多个样本文本组;各个所述样本文本组包括语义相似的多个相似文本;
根据目标样本文本组中的多个相似文本生成多个组合文本,并调用初始文本向量提取模型对所述多个组合文本中各个组合文本进行文本向量提取处理,得到所述多个组合文本中各个组合文本的预测文本向量;所述目标样本文本组为所述一个或多个样本文本组中的任意一个样本文本组,所述多个组合文本中的各个所述组合文本是根据所述目标样本文本组中的N个相似文本生成,N为大于1的正整数;
根据M个组合文本中各个组合文本的预测文本向量生成预测向量矩阵,所述M个组合文本由各个所述样本文本组对应的多个组合文本构成;
根据所述预测向量矩阵和所述标准向量矩阵确定所述损失参数,并根据所述损失参数对所述初始文本向量提取模型的模型参数进行调整,得到训练后的文本向量提取模型。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
为目标组合文本添加标识;添加的标识包括句首标识和间隔标识,所述句首标识位于所述目标组合文本的头部位置,所述间隔标识位于所述目标组合文本中的两个相似文本之间,所述目标组合文本为所述M个组合文本中的任意一个组合文本;
对标识添加处理后的目标组合文本进行文本转换处理,得到所述目标组合文本的初始向量集;所述初始向量集包括的各个初始向量用于表征所述标识添加处理后的目标组合文本中的文本对象;
其中,所述调用初始文本向量提取模型对所述多个组合文本中各个组合文本进行文本向量提取处理,得到所述多个组合文本中各个组合文本的预测文本向量,包括:
针对所述多个组合文本中的所述目标组合文本,调用初始文本向量提取模型对所述初始向量集中的各个初始向量进行处理,得到编码向量集;
从所述编码向量集中确定所述句首标识对应的编码向量,根据所述句首标识对应的编码向量确定所述目标组合文本的预测文本向量。
7.根据权利要求5所述的方法,其特征在于,所述根据M个组合文本中各个组合文本的预测文本向量生成预测向量矩阵,包括:
按照M个组合文本中各个组合文本输入所述初始文本向量提取模型中进行文本向量提取处理的顺序,对所述M个组合文本中各个组合文本的预测文本向量进行排序,得到第二排序结果;
针对所述第二排序结果中排在第X位的预测文本向量,计算所述排在第X位的预测文本向量与所述第二排序结果中各个预测文本向量之间的预测相似度,并根据计算得到的各个所述预测相似度,生成所述排在第X位的预测文本向量所对应的预测相似度序列;X为小于或等于M的任意一个正整数;
根据所述第二排序结果中各个预测文本向量所对应的预测相似度序列,生成预测向量矩阵。
8.根据权利要求5-7中任一项所述的方法,其特征在于,所述预测向量矩阵和所述标准向量矩阵中同一位置处的矩阵元素所对应的两个组合文本相同;所述根据所述预测向量矩阵和所述标准向量矩阵确定所述损失参数,包括:
将所述预测向量矩阵中的第一矩阵元素与所述标准向量矩阵中的第二矩阵元素进行比较,得到差异参数;所述第一矩阵元素为所述预测向量矩阵中任意一个矩阵元素,所述第二矩阵元素在所述标准向量矩阵中所处的位置与所述第一矩阵元素在所述预测向量矩阵中所处的位置相同;
根据所述预测向量矩阵中各个矩阵元素对应的所述差异数据,确定所述损失参数。
9.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取异常文本和业务文本集;所述异常文本是分类结果错误的文本,所述分类结果是通过调用文本分类模型对所述异常文本进行文本分类处理得到的;所述业务文本集包括多个业务文本;
处理模块,用于确定所述异常文本与各个所述业务文本之间的相似参数,根据所述相似参数从所述多个业务文本中确定一个或多个目标业务文本;
所述处理模块,还用于获取所述异常文本的标注信息和各个所述目标业务文本的标注信息;
训练模块,用于根据所述异常文本、所述异常文本的标注信息、所述一个或多个目标业务文本和各个所述目标业务文本的标注信息,对所述文本分类模型进行训练,得到训练后的文本分类模型。
10.一种计算机设备,其特征在于,包括:处理器、存储装置和通信接口,所述处理器、所述通信接口和所述存储装置相互连接,其中,所述存储装置存储有可执行程序代码,所述处理器用于调用所述可执行程序代码,用以实现如权利要求1-8中任一项所述的数据处理方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行,用以实现如权利要求1-8中任一项所述的数据处理方法。
12.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序或计算机指令,所述计算机程序或计算机指令被处理器执行时,用以实现如权利要求1-8中任一项所述的数据处理方法。
CN202211342063.6A 2022-10-28 2022-10-28 数据处理方法、装置、设备、可读存储介质及程序产品 Pending CN116992018A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211342063.6A CN116992018A (zh) 2022-10-28 2022-10-28 数据处理方法、装置、设备、可读存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211342063.6A CN116992018A (zh) 2022-10-28 2022-10-28 数据处理方法、装置、设备、可读存储介质及程序产品

Publications (1)

Publication Number Publication Date
CN116992018A true CN116992018A (zh) 2023-11-03

Family

ID=88530828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211342063.6A Pending CN116992018A (zh) 2022-10-28 2022-10-28 数据处理方法、装置、设备、可读存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN116992018A (zh)

Similar Documents

Publication Publication Date Title
CN108536679B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN111737476B (zh) 文本处理方法、装置、计算机可读存储介质及电子设备
CN110705301B (zh) 实体关系抽取方法及装置、存储介质、电子设备
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN112131883B (zh) 语言模型训练方法、装置、计算机设备和存储介质
CN111680147A (zh) 一种数据处理方法、装置、设备以及可读存储介质
CN113704460B (zh) 一种文本分类方法、装置、电子设备和存储介质
CN112988963B (zh) 基于多流程节点的用户意图预测方法、装置、设备及介质
CN113268609A (zh) 基于知识图谱的对话内容推荐方法、装置、设备及介质
CN111259851A (zh) 一种多模态事件检测方法及装置
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN112819024B (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
CN112800196A (zh) 一种基于孪生网络的faq问答库匹配方法与系统
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN112132269B (zh) 模型处理方法、装置、设备及存储介质
CN112035629B (zh) 基于符号化知识与神经网络的问答模型的实现方法
CN111931503A (zh) 信息抽取方法及装置、设备、计算机可读存储介质
CN110232328A (zh) 一种征信报告解析方法、装置及计算机可读存储介质
CN114911940A (zh) 文本情感识别方法及装置、电子设备、存储介质
CN114925681A (zh) 知识图谱问答问句实体链接方法、装置、设备及介质
CN114842301A (zh) 一种图像注释模型的半监督训练方法
CN112749554B (zh) 确定文本匹配度的方法、装置、设备及存储介质
CN116992018A (zh) 数据处理方法、装置、设备、可读存储介质及程序产品
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN117009532B (zh) 语义类型识别方法、装置、计算机可读介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination