CN115423485B - 数据处理方法、装置及设备 - Google Patents

数据处理方法、装置及设备 Download PDF

Info

Publication number
CN115423485B
CN115423485B CN202211369675.4A CN202211369675A CN115423485B CN 115423485 B CN115423485 B CN 115423485B CN 202211369675 A CN202211369675 A CN 202211369675A CN 115423485 B CN115423485 B CN 115423485B
Authority
CN
China
Prior art keywords
target data
target
user intention
intention
candidate user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211369675.4A
Other languages
English (en)
Other versions
CN115423485A (zh
Inventor
赵闻飙
林金镇
应缜哲
薛兰青
王维强
徐恪
李琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202211369675.4A priority Critical patent/CN115423485B/zh
Publication of CN115423485A publication Critical patent/CN115423485A/zh
Application granted granted Critical
Publication of CN115423485B publication Critical patent/CN115423485B/zh
Priority to US18/500,969 priority patent/US20240153500A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • G06Q30/012Providing warranty services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Business, Economics & Management (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例提供了一种数据处理方法、装置及设备,所述方法包括:获取待检测的目标数据,并获取所述目标数据与每个候选用户意图对应的目标概率,所述目标数据包括人机交互过程中用户的输入数据;对所述目标数据进行划分,得到多个子数据,并基于预设梯度积分算法,获取每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度;基于所述目标数据与每个候选用户意图对应的目标概率,以及所述每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度,确定所述目标数据对应的目标用户意图。

Description

数据处理方法、装置及设备
技术领域
本说明书实施例涉及数据处理技术领域,尤其涉及一种数据处理方法、装置及设备。
背景技术
随着互联网行业的迅速发展,网络风险也随之增多,在风控场景下,应用服务商可以在为用户提供服务前,通过客服人员与用户进行交互,以根据用户的反馈信息确定当前业务(如转账、充值、提现等业务)是否存在风险,为降低人工参与的成本,可以通过人机交互的方式进行风险控制。
例如,可以通过预先训练的意图识别模型,确定与用户反馈信息对应的用户真实意图,以对当前的业务进行风险控制。但是,由于黑产的欺诈手法多样,用户的反馈信息也较为复杂,预先训练的意图识别模型可能无法准确识别出用户的真实意图,风控效果差,因此,需要一种在风控场景下,能及时准确的确定用户真实意图以进行风险控制的解决方案。
发明内容
本说明书实施例的目的是提供一种数据处理方法、装置及设备,以提供一种在风控场景下,能及时准确的确定用户真实意图以进行风险控制的解决方案。
为了实现上述技术方案,本说明书实施例是这样实现的:
第一方面,本说明书实施例提供了一种数据处理方法,包括:获取待检测的目标数据,并获取所述目标数据与每个候选用户意图对应的目标概率,所述目标数据包括人机交互过程中用户的输入数据;对所述目标数据进行划分,得到多个子数据,并基于预设梯度积分算法,获取每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度;基于所述目标数据与每个候选用户意图对应的目标概率,以及所述每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度,确定所述目标数据对应的目标用户意图。
第二方面,本说明书实施例提供了一种数据处理装置,所述装置包括:数据获取模块,用于获取待检测的目标数据,并获取所述目标数据与每个候选用户意图对应的目标概率,所述目标数据包括人机交互过程中用户的输入数据;贡献确定模块,用于对所述目标数据进行划分,得到多个子数据,并基于预设梯度积分算法,获取每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度;意图确定模块,用于基于所述目标数据与每个候选用户意图对应的目标概率,以及所述每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度,确定所述目标数据对应的目标用户意图。
第三方面,本说明书实施例提供了一种数据处理设备,所述数据处理设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取待检测的目标数据,并获取所述目标数据与每个候选用户意图对应的目标概率,所述目标数据包括人机交互过程中用户的输入数据;对所述目标数据进行划分,得到多个子数据,并基于预设梯度积分算法,获取每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度;基于所述目标数据与每个候选用户意图对应的目标概率,以及所述每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度,确定所述目标数据对应的目标用户意图。
第四方面,本说明书实施例提供一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取待检测的目标数据,并获取所述目标数据与每个候选用户意图对应的目标概率,所述目标数据包括人机交互过程中用户的输入数据;对所述目标数据进行划分,得到多个子数据,并基于预设梯度积分算法,获取每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度;基于所述目标数据与每个候选用户意图对应的目标概率,以及所述每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度,确定所述目标数据对应的目标用户意图。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1A为本说明书一种数据处理方法实施例的流程图;
图1B为本说明书一种数据处理方法实施例的处理过程示意图;
图2为本说明书一种目标数据的示意图;
图3为本说明书另一种数据处理方法实施例的处理过程示意图;
图4为本说明书一种词向量的确定方法的示意图;
图5为本说明书一种词向量的示意图;
图6为本说明书一种数据处理装置实施例的结构示意图;
图7为本说明书一种数据处理设备的结构示意图。
具体实施方式
本说明书实施例提供一种数据处理方法、装置及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
实施例一
如图1A和图1B所示,本说明书实施例提供一种数据处理方法,该方法的执行主体可以为服务器,该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群。该方法具体可以包括以下步骤:
在S102中,获取待检测的目标数据,并获取目标数据与每个候选用户意图对应的目标概率。
其中,目标数据包括人机交互过程中用户的输入数据,目标数据可以包括用户输入的语音数据、图片数据和文字数据等任意类型的数据,例如,如图2所示,在资源转移业务场景下,可以输出话术Q1和话术Q2,并接收用户针对话术Q1的输入数据A1,以及针对话术Q2的输入数据A2,那么,目标数据可以包括该人机交互过程中的话术Q1、话术Q2和用户的输入数据(即输入数据A1和输入数据A2),候选用户意图可以是与当前场景对应的用户意图,例如,在资源转移业务场景下,候选用户意图可以包括转账意图、信息更新意图等。
在实施中,随着互联网行业的迅速发展,网络风险也随之增多,在风控场景下,应用服务商可以在为用户提供服务前,通过客服人员与用户进行交互,以根据用户的反馈信息确定当前业务(如转账、充值、提现等业务)是否存在风险,为降低人工参与的成本,可以通过人机交互的方式进行风险控制。例如,可以通过预先训练的意图识别模型,确定与用户反馈信息对应的用户真实意图,以对当前的业务进行风险控制。但是,由于黑产的欺诈手法多样,用户的反馈信息也较为复杂,预先训练的意图识别模型可能无法准确识别出用户的真实意图,风控效果差,因此,需要一种在风控场景下,能及时准确的确定用户真实意图以进行风险控制的解决方案。为此,本说明书实施例提供一种可以解决上述问题的技术方案,具体可以参见下述内容。
以目标数据为文本数据为例,在获取到待检测的目标数据后,可以对目标数据进行关键词提取处理,以通过目标数据包含的关键词,确定目标数据与每个候选用户意图对应的目标概率,例如,若目标数据包含关键词1和关键词2,基于关键词和候选用户意图的预设对应关系,可以确定关键词1与候选用户意图1和候选用户意图2具有对应关系,关键词2与候选用户意图2具有对应关系,可以根据每个关键词的预设权重,确定目标数据与每个候选用户意图对应的目标概率,具体如,假设关键词1的权重为0.2,关键词2的权重为0.15,那么,可以确定目标数据与候选意图1对应的目标概率可以为0.2,目标数据与候选意图1对应的目标概率可以为0.2+0.15=0.35。
其中,在对目标数据进行关键词提取处理时,可以通过预设关键词提取算法等方法进行关键词提取,本说明书实施例对关键词的提取方法不作具体限定。
若目标数据为语音数据或视频数据,则服务器可以对获取到的目标数据进行文本转换处理,得到对应的文本数据,在基于上述目标概率的确定方法,确定目标数据与每个候选用户意图对应的目标概率。
或者,若目标数据为图片数据,则服务器可以通过预先训练的意图识别模型,确定目标数据与每个候选用户意图对应的目标概率,其中,意图识别模型可以为基于预设深度学习算法构建的用于对用户意图进行识别的模型。
上述目标数据与每个候选用户意图对应的目标概率的确定方法是一种可选地、可实现的确定方法,在实际应用场景中,还可以有多种不同的确定方法,可以根据实际应用场景的而不同选取不同的确定方法,本说明书实施例对此不作具体限定。
在S104中,对目标数据进行划分,得到多个子数据,并基于预设梯度积分算法,获取每个子数据对目标数据属于每个候选用户意图的贡献度。
其中,预设梯度积分算法是一种可解释性的算法,可以通过梯度积分的方式计算出每一个输入数据的变化对输出结果的变化的影响程度,因此,可以通过预设梯度积分算法,确定每个子数据的变化对目标数据属于每个候选用户意图的变化的影响程度,即可以确定每个子数据对目标数据属于每个候选用户意图的贡献度。
在实施中,若目标数据为文本数据(或由语音数据、视频数据等转换得到的文本数据),则可以基于预设数据划分方法,对目标数据进行划分,得到多个子数据。例如,可以将目标数据基于字符的划分方法进行划分,得到多个子数据,或者,还可以基于分词算法对目标数据进行划分,得到多个子数据,又或者,还可以基于分段划分的方法进行划分,得到多个子数据等。
具体如,以目标数据包括图2中的话术Q1和输入数据A1为例,可以将话术Q1和输入数据A1基于字符的划分方法进行划分,得到多个子数据,或者,还可以基于分词算法对话术Q1和输入数据A1进行划分,得到多个子数据,又或者,还可以将话术Q1作为子数据1,将输入数据A1作为子数据2,即基于分段划分的方法进行划分。
若目标数据为图片数据,则服务器可以基于预设分片比例对图片数据进行划分,以得到多个子数据,或者,还可以基于预设分割算法对图片数据进行划分,得到多个子数据等。
上述对目标数据进行划分,得到多个子数据的方法是一种可选地、可实现的划分方法,在实际应用场景中,还可以有多种不同的划分方法,可以根据实际应用场景的而不同选取不同的划分方法,本说明书实施例对此不作具体限定。
在得到多个子数据后,可以基于预设梯度积分算法,确定每个子数据的变化对目标数据属于每个候选用户意图的变化的影响程度,由此确定每个子数据对目标数据属于每个候选用户意图的贡献度。
在S106中,基于目标数据与每个候选用户意图对应的目标概率,以及每个子数据对目标数据属于每个候选用户意图的贡献度,确定目标数据对应的目标用户意图。
在实施中,在实际应用场景中,意图识别可以是一种多标签文本分类处理,即目标数据可以同时属于多个类别,如果在意图识别中,未识别出某个用户意图,可能是目标数据中并不存在这个意图,或者,还可能是由于表达方式等因素的干扰,导致该用户意图并未被识别出来。因此,可以根据每个子数据对目标数据属于每个候选用户意图的贡献度,来判断目标数据中是否存在可能干扰意图识别准确性的数据,即负向贡献较高的子数据。
例如,若贡献度存在负值,则表明该贡献度对应的子数据,对于目标数据属于对应候选用户意图的贡献度为负向贡献,即对应的候选用户意图,可能是目标数据的潜在用户意图。
因此,可以结合目标数据与每个候选用户意图对应的目标概率,以及每个子数据对目标数据属于每个候选用户意图的贡献度,判断每个候选用户意图是否是目标数据对应的目标用户意图。
例如,若目标数据与某候选用户意图对应的目标概率较高,则可以确定该候选用户意图为目标数据对应的目标用户意图的可能性较高;若目标数据与某候选用户意图对应的目标概率较低,且贡献度中不存在负值(即不存在负向贡献度),则可以确定该候选用户意图为目标数据对应的目标用户意图的可能性较低;若目标数据与某候选用户意图对应的目标概率处于目标概率中的中间值范围,且贡献度中存在负值(即存在负向贡献度),则可以将该候选用户意图确定为目标数据对应的潜在用户意图。可以基于可能性较高的候选用户意图和潜在用户意图,确定目标数据对应的目标用户意图。
具体如,假设候选用户意图包括候选用户意图1、候选用户意图2和候选用户意图3,子数据有子数据1和子数据2,目标数据与每个候选用户意图对应的目标概率,以及每个子数据对目标数据属于每个候选用户意图的贡献度可以如下表1所示。
表1
子数据1的贡献度 子数据2的贡献度 目标概率
候选用户意图1 0.5 0.2 0.8
候选用户意图2 0 -0.5 0.5
候选用户意图3 0 0 0.1
如表1所示,候选用户意图1对应的目标概率高于候选用户意图2以及候选用户意图3对应的目标概率,即候选用户意图1为该目标数据对应的目标用户意图的可能性较高,由于候选意图3对应的目标概率小于候选用户意图1以及候选用户意图2对应的目标概率,且贡献度中不存在负值(即不存在负向贡献度),因此,候选用户意图3为该目标数据对应的目标用户意图的可能性较低。由于候选用户意图2对应的目标概率小于候选用户意图1对应的目标概率,且大于候选用户意图3对应的目标概率,同时,候选用户意图2中的子数据2的贡献度为负值,则可以候选用户意图2可能是潜在用户意图,最终,可以基于候选用户意图1和候选用户意图2,确定目标数据对应的目标用户意图。
上述目标数据对应的目标用户意图的确定方法是一种可选地、可实现的确定方法,在实际应用场景中,还可以有多种不同的确定方法,可以根据实际应用场景的不同,选取不同的确定方法,本说明书实施例对此不做具体限定。
在确定了目标数据对应的目标用户意图后,可以针对该目标用户意图,对目标数据进行风险控制,或者,还可以基于目标用户意图,确定对应的目标话术,并返回给终端设备,在获取用户针对该目标话术的反馈信息进行风险控制等处理。
本说明书实施例提供一种数据处理方法,获取待检测的目标数据,并获取目标数据与每个候选用户意图对应的目标概率,目标数据包括人机交互过程中用户的输入数据,对目标数据进行划分,得到多个子数据,并基于预设梯度积分算法,获取每个子数据对目标数据属于每个候选用户意图的贡献度,基于目标数据与每个候选用户意图对应的目标概率,以及每个所述子数据对目标数据属于每个候选用户意图的贡献度,确定目标数据对应的目标用户意图。这样,可以根据每个子数据对目标数据属于每个候选用户意图的贡献度,来判断目标数据中是否存在可能干扰意图识别准确性的数据,即负向贡献较高的子数据,再结合目标数据与每个候选用户意图对应的目标概率,可以准确的确定目标数据对应的目标用户意图,以通过提高用户真实意图的确定准确性,提高风险控制的准确性。
实施例二
如图3所示,本说明书实施例提供一种数据处理方法,该方法的执行主体可以为服务器,该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群。该方法具体可以包括以下步骤:
在S102中,获取待检测的目标数据。
在S302中,确定与对目标数据对应的第一向量,并基于预先训练的意图识别模型和第一向量,确定目标数据与每个第一用户意图对应的第一概率。
其中,意图识别模型为基于预设深度学习算法构建的用于对用户意图进行识别的模型,第一用户意图可以是与当前场景对应的用户意图,例如,在资源转移业务场景下,第一用户意图可以包括转账意图、信息更新意图等。
在实施中,以意图识别模型为Bert模型为例,如图4所示,假设目标数据为“对方有没有要求您下载指定的APP呢
Figure DEST_PATH_IMAGE002
下载了”,可以获取与该目标数据对应的语义字符序列、字符位置序列,以及语句分块序列,并基于语义字符序列确定目标数据对应的词向量,基于字符位置序列确定目标数据对应的位置向量,基于语句分块序列确定目标数据对应的分段向量,最后,在基于词向量、位置向量和分段向量,确定与目标数据对应的第一向量。
将第一向量输入预先训练的Bert模型,以得到目标数据与每个第一用户意图对应的第一概率。
在S304中,将第一概率中大于第一概率阈值且不大于第二概率阈值的第一概率对应的第一用户意图确定为候选用户意图。
在实施中,若第一概率较大,则第一用户意图为目标数据对应的目标用户意图的可能性较大,若第一概率较小,则第一用户意图为目标数据对应的目标用户意图的可能性较小,因此,可以将第一概率中大于第一概率阈值且不大于第二概率阈值的第一概率对应的第一用户意图确定为候选用户意图,例如,可以假设第一概率阈值为0.1,第二概率阈值为0.5,那么,可以将大于0.1且不大于0.5的第一概率对应的第一用户意图确定为候选用户意图。
在S306中,将目标数据对应的词向量替换为零向量,并基于替换后的词向量,确定与对目标数据对应的第二向量。
在实施中,在实际应用中,上述S306的处理方式可以多种多样,以下提供一种可选的实现方式,具体可以参见下述步骤一~步骤二处理:
步骤一,获取目标数据中每个词在目标数据中的位置向量,以及每个词在目标数据中分段向量。
步骤二,基于替换后的词向量、位置向量和分段向量,确定与对目标数据对应的第二向量。
在实施中,以目标数据为如图4所示的数据为例,可以将语义字符序列对应的词向量替换为零向量,在替换后的词向量(即零向量)、基于字符位置序列确定目标数据对应的位置向量,以及基于语句分块序列确定目标数据对应的分段向量,确定与目标数据对应的第二向量。
在S308中,基于预先训练的意图识别模型和第二向量,确定目标数据与每个候选用户意图对应的第二概率。
在实施中,可以将第二向量输入预先训练的意图识别模型,得到目标数据与每个候选用户意图对应的第二概率,这样,由于确定第二向量的词向量为零向量,因此,基于第二向量确定的目标数据与每个候选用户意图对应的第二概率,即第二概率为在不包含语义影响的情况下,确定的目标数据与每个候选用户意图对应的概率。
在S310中,基于第一概率和第二概率,确定目标数据与每个候选用户意图对应的目标概率。
在实施中,由于第一概率是基于由词向量、位置向量和分段向量确定的第一向量得到的概率,第二概率是基于零向量(即替换后的词向量)、位置向量和分段向量确定的第一向量得到的概率,因而,可以将第一概率与第二概率的差值,确定为目标数据与每个候选用户意图对应的目标概率,即目标概率可以用于表征目标数据包含的词语,对目标数据与每个候选用户意图的关系的贡献度。
在S104中,对目标数据进行划分,得到多个子数据,并基于预设梯度积分算法,获取每个子数据对目标数据属于每个候选用户意图的贡献度。
在实施中,假设基于字符的划分方法对目标数据进行划分,并根据划分后的子数据,可以构建如如图5所示的词向量,其中,可以基于预设维度构建词向量,如若语义字符序列包含13个字符,预设维度为50,则构建的词向量的大小即为13*50。
在通过预设梯度积分算法,可以得到每个子数据对目标数据属于每个候选用户意图的贡献度,其中,通过预设梯度积分算法可以得到词向量的大小相同的贡献度矩阵(即也可以为13*50),可以贡献度矩阵中与每个子数据对应的贡献度之和,作为该子数据对目标数据属于每个候选用户意图的贡献度,例如,如图5所示,可以将d1~d50对应的贡献度之和作为字符“定”对目标数据属于每个候选用户意图的贡献度。
在S312中,将第一概率中大于第三概率阈值的第一概率对应的第一用户意图确定为第二用户意图。
在S314中,基于第二用户意图、目标数据与每个候选用户意图对应的目标概率,以及每个子数据对目标数据属于每个候选用户意图的贡献度,确定目标数据对应的目标用户意图。
在实施中,在实际应用中,上述S314的处理方式可以多种多样,以下提供一种可选的实现方式,具体可以参见下述步骤一~步骤二处理:
步骤一,若贡献度中存在小于预设贡献度阈值的贡献度,则将小于预设贡献度阈值的贡献度对应的候选用户意图确定为潜在用户意图。
其中,贡献度阈值可以为负值,即可以通过贡献度是否小于预设贡献度阈值,确定贡献度对应的子数据是否存在负向影响,例如,预设贡献度阈值可以-0.1、-0.2等,可以根据预设实际应用场景的不同,选取不同的预设贡献度阈值,本说明书实施例对此不作具体限定。
步骤二,基于第二用户意图和潜在用户意图,确定目标数据对应的目标用户意图。
在实施中,可以将目标数据、第二用户意图和潜在用户意图发送给人工进行判断,并获取人工确定的目标数据对应的目标用户意图。
或者,还可以将第二用户意图和潜在用户意图,确定为目标数据对应的目标用户意图。
目标数据可以是执行目标业务所需的数据,例如,若目标业务为资源转移业务,则目标数据可以包括资源转移时间、资源转移数量,以及用户针对资源转移话术的输入数据等。
在S316中,获取与第二用户意图对应的第一风控策略,以及与潜在用户意图对应的第二风控策略,并基于第一风控策略和第二风控策略,对目标业务进行风险检测,以确定执行目标业务是否存在风险。
其中,第一风控策略和第二风控策略可以是任意能够进行风险控制的策略,例如,在资源转移场景下,风控策略可以包括资源数量限制策略、风险报警策略等,第一风控策略和第二风控策略可以是上述策略中的任意一个或多个。
在实施中,可以基于用户意图与风控策略的预设对应关系,获取与第二用户意图对应的第一风控策略,以及与潜在用户意图对应的第二风控策略,并基于第一风控策略和第二风控策略,对目标业务进行风险检测,以确定执行目标业务是否存在风险。
风控策略的确定方法可以有多种,例如,还可以根据用户意图包含的关键字,对风控策略进行关键词匹配,以确定与第二用户意图对应的第一风控策略,以及与潜在用户意图对应的第二风控策略等,可以根据实际应用场景的不同,选取不同的风控策略的确定方法,本说明书实施例对此不作具体限定。
在S318中,基于目标数据及对应的目标用户意图,对意图识别模型进行训练,得到训练后的意图识别模型。
在实施中,可以根据目标数据及对应的目标用户意图,对意图识别模型进行再训练,得到训练后的意图识别模型,以提高训练后的意图识别模型的意图识别的准确性。
本说明书实施例提供一种数据处理方法,获取待检测的目标数据,并获取目标数据与每个候选用户意图对应的目标概率,目标数据包括人机交互过程中用户的输入数据,对目标数据进行划分,得到多个子数据,并基于预设梯度积分算法,获取每个子数据对目标数据属于每个候选用户意图的贡献度,基于目标数据与每个候选用户意图对应的目标概率,以及每个所述子数据对目标数据属于每个候选用户意图的贡献度,确定目标数据对应的目标用户意图。这样,可以根据每个子数据对目标数据属于每个候选用户意图的贡献度,来判断目标数据中是否存在可能干扰意图识别准确性的数据,即负向贡献较高的子数据,再结合目标数据与每个候选用户意图对应的目标概率,可以准确的确定目标数据对应的目标用户意图,以通过提高用户真实意图的确定准确性,提高风险控制的准确性。
实施例三
以上为本说明书实施例提供的数据处理方法,基于同样的思路,本说明书实施例还提供一种数据处理装置,如图6所示。
该数据处理装置包括:数据获取模块601、贡献确定模块602和意图确定模块603,其中:
数据获取模块601,用于获取待检测的目标数据,并获取所述目标数据与每个候选用户意图对应的目标概率,所述目标数据包括人机交互过程中用户的输入数据;
贡献确定模块602,用于对所述目标数据进行划分,得到多个子数据,并基于预设梯度积分算法,获取每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度;
意图确定模块603,用于基于所述目标数据与每个候选用户意图对应的目标概率,以及所述每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度,确定所述目标数据对应的目标用户意图。
本说明书实施例中,所述装置还包括:
第一确定模块,用于确定与对所述目标数据对应的第一向量,并基于预先训练的意图识别模型和所述第一向量,确定所述目标数据与每个第一用户意图对应的第一概率,所述意图识别模型为基于预设深度学习算法构建的用于对用户意图进行识别的模型;
第二确定模块,用于将所述第一概率中大于第一概率阈值且不大于第二概率阈值的第一概率对应的第一用户意图确定为所述候选用户意图;
所述意图确定模块603,用于:
将所述第一概率中大于第三概率阈值的第一概率对应的第一用户意图确定为第二用户意图;
基于所述第二用户意图、所述目标数据与每个候选用户意图对应的目标概率,以及所述每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度,确定所述目标数据对应的目标用户意图。
本说明书实施例中,所述数据获取模块601,用于:
将所述目标数据对应的词向量替换为零向量,并基于替换后的词向量,确定与对所述目标数据对应的第二向量;
基于所述预先训练的意图识别模型和所述第二向量,确定所述目标数据与每个候选用户意图对应的第二概率;
基于所述第一概率和所述第二概率,确定所述目标数据与每个候选用户意图对应的目标概率。
本说明书实施例中所述数据获取模块601,用于:
获取所述目标数据中每个词在所述目标数据中的位置向量,以及所述每个词在所述目标数据中分段向量;
基于所述替换后的词向量、所述位置向量和所述分段向量,确定与对所述目标数据对应的第二向量。
本说明书实施例中,所述意图确定模块603,用于:
若所述贡献度中存在小于预设贡献度阈值的贡献度,则将所述小于预设贡献度阈值的贡献度对应的候选用户意图确定为潜在用户意图;
基于所述第二用户意图和所述潜在用户意图,确定所述目标数据对应的目标用户意图。
本说明书实施例中,所述目标数据为执行目标业务所需的数据,所述装置还包括:
风险检测模块,用于获取与所述第二用户意图对应的第一风控策略,以及与所述潜在用户意图对应的第二风控策略,并基于所述第一风控策略和所述第二风控策略,对所述目标业务进行风险检测,以确定执行所述目标业务是否存在风险。
本说明书实施例中,所述装置还包括:
模型训练模块,用于基于所述目标数据及对应的目标用户意图,对所述意图识别模型进行训练,得到训练后的意图识别模型。
本说明书实施例提供一种数据处理装置,获取待检测的目标数据,并获取目标数据与每个候选用户意图对应的目标概率,目标数据包括人机交互过程中用户的输入数据,对目标数据进行划分,得到多个子数据,并基于预设梯度积分算法,获取每个子数据对目标数据属于每个候选用户意图的贡献度,基于目标数据与每个候选用户意图对应的目标概率,以及每个所述子数据对目标数据属于每个候选用户意图的贡献度,确定目标数据对应的目标用户意图。这样,可以根据每个子数据对目标数据属于每个候选用户意图的贡献度,来判断目标数据中是否存在可能干扰意图识别准确性的数据,即负向贡献较高的子数据,再结合目标数据与每个候选用户意图对应的目标概率,可以准确的确定目标数据对应的目标用户意图,以通过提高用户真实意图的确定准确性,提高风险控制的准确性。
实施例四
基于同样的思路,本说明书实施例还提供一种数据处理设备,如图7所示。
数据处理设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器701和存储器702,存储器702中可以存储有一个或一个以上存储应用程序或数据。其中,存储器702可以是短暂存储或持久存储。存储在存储器702的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对数据处理设备中的一系列计算机可执行指令。更进一步地,处理器701可以设置为与存储器702通信,在数据处理设备上执行存储器702中的一系列计算机可执行指令。数据处理设备还可以包括一个或一个以上电源703,一个或一个以上有线或无线网络接口704,一个或一个以上输入输出接口705,一个或一个以上键盘706。
具体在本实施例中,数据处理设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对数据处理设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取待检测的目标数据,并获取所述目标数据与每个候选用户意图对应的目标概率,所述目标数据包括人机交互过程中用户的输入数据;
对所述目标数据进行划分,得到多个子数据,并基于预设梯度积分算法,获取每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度;
基于所述目标数据与每个候选用户意图对应的目标概率,以及所述每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度,确定所述目标数据对应的目标用户意图。
可选地,在所述获取所述目标数据与每个候选用户意图对应的目标概率之前,还包括:
确定与对所述目标数据对应的第一向量,并基于预先训练的意图识别模型和所述第一向量,确定所述目标数据与每个第一用户意图对应的第一概率,所述意图识别模型为基于预设深度学习算法构建的用于对用户意图进行识别的模型;
将所述第一概率中大于第一概率阈值且不大于第二概率阈值的第一概率对应的第一用户意图确定为所述候选用户意图;
所述基于所述目标数据与每个候选用户意图对应的目标概率,以及所述每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度,确定所述目标数据对应的目标用户意图,包括:
将所述第一概率中大于第三概率阈值的第一概率对应的第一用户意图确定为第二用户意图;
基于所述第二用户意图、所述目标数据与每个候选用户意图对应的目标概率,以及所述每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度,确定所述目标数据对应的目标用户意图。
可选地,所述获取所述目标数据与每个候选用户意图对应的目标概率,包括:
将所述目标数据对应的词向量替换为零向量,并基于替换后的词向量,确定与对所述目标数据对应的第二向量;
基于所述预先训练的意图识别模型和所述第二向量,确定所述目标数据与每个候选用户意图对应的第二概率;
基于所述第一概率和所述第二概率,确定所述目标数据与每个候选用户意图对应的目标概率。
可选地,所述基于替换后的词向量,确定与对所述目标数据对应的第二向量,包括:
获取所述目标数据中每个词在所述目标数据中的位置向量,以及所述每个词在所述目标数据中分段向量;
基于所述替换后的词向量、所述位置向量和所述分段向量,确定与对所述目标数据对应的第二向量。
可选地,所述基于所述第二用户意图、所述目标数据与每个候选用户意图对应的目标概率,以及所述每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度,确定所述目标数据对应的目标用户意图,包括:
若所述贡献度中存在小于预设贡献度阈值的贡献度,则将所述小于预设贡献度阈值的贡献度对应的候选用户意图确定为潜在用户意图;
基于所述第二用户意图和所述潜在用户意图,确定所述目标数据对应的目标用户意图。
可选地,所述目标数据为执行目标业务所需的数据,所述方法还包括:
获取与所述第二用户意图对应的第一风控策略,以及与所述潜在用户意图对应的第二风控策略,并基于所述第一风控策略和所述第二风控策略,对所述目标业务进行风险检测,以确定执行所述目标业务是否存在风险。
可选地,所述方法还包括:
基于所述目标数据及对应的目标用户意图,对所述意图识别模型进行训练,得到训练后的意图识别模型。
本说明书实施例提供一种数据处理设备,获取待检测的目标数据,并获取目标数据与每个候选用户意图对应的目标概率,目标数据包括人机交互过程中用户的输入数据,对目标数据进行划分,得到多个子数据,并基于预设梯度积分算法,获取每个子数据对目标数据属于每个候选用户意图的贡献度,基于目标数据与每个候选用户意图对应的目标概率,以及每个所述子数据对目标数据属于每个候选用户意图的贡献度,确定目标数据对应的目标用户意图。这样,可以根据每个子数据对目标数据属于每个候选用户意图的贡献度,来判断目标数据中是否存在可能干扰意图识别准确性的数据,即负向贡献较高的子数据,再结合目标数据与每个候选用户意图对应的目标概率,可以准确的确定目标数据对应的目标用户意图,以通过提高用户真实意图的确定准确性,提高风险控制的准确性。
实施例五
本说明书实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本说明书实施例提供一种计算机可读存储介质,获取待检测的目标数据,并获取目标数据与每个候选用户意图对应的目标概率,目标数据包括人机交互过程中用户的输入数据,对目标数据进行划分,得到多个子数据,并基于预设梯度积分算法,获取每个子数据对目标数据属于每个候选用户意图的贡献度,基于目标数据与每个候选用户意图对应的目标概率,以及每个所述子数据对目标数据属于每个候选用户意图的贡献度,确定目标数据对应的目标用户意图。这样,可以根据每个子数据对目标数据属于每个候选用户意图的贡献度,来判断目标数据中是否存在可能干扰意图识别准确性的数据,即负向贡献较高的子数据,再结合目标数据与每个候选用户意图对应的目标概率,可以准确的确定目标数据对应的目标用户意图,以通过提高用户真实意图的确定准确性,提高风险控制的准确性。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取待检测的目标数据,并获取所述目标数据与每个候选用户意图对应的目标概率,所述目标数据包括人机交互过程中用户的输入数据,所述候选用户意图为与当前场景对应的用户意图;
对所述目标数据进行划分,得到多个子数据,并基于预设梯度积分算法,获取每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度,所述预设梯度积分算法用于确定每个所述子数据的变化对所述目标数据属于每个所述候选用户意图的变化的影响程度;
基于所述目标数据与每个候选用户意图对应的目标概率,以及所述每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度,确定所述目标数据对应的目标用户意图,所述贡献度用于判断所述目标数据中是否存在可能干扰意图识别准确性的数据。
2.根据权利要求1所述的方法,其特征在于,在所述获取所述目标数据与每个候选用户意图对应的目标概率之前,还包括:
确定与对所述目标数据对应的第一向量,并基于预先训练的意图识别模型和所述第一向量,确定所述目标数据与每个第一用户意图对应的第一概率,所述意图识别模型为基于预设深度学习算法构建的用于对用户意图进行识别的模型;
将所述第一概率中大于第一概率阈值且不大于第二概率阈值的第一概率对应的第一用户意图确定为所述候选用户意图;
所述基于所述目标数据与每个候选用户意图对应的目标概率,以及所述每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度,确定所述目标数据对应的目标用户意图,包括:
将所述第一概率中大于第三概率阈值的第一概率对应的第一用户意图确定为第二用户意图;
基于所述第二用户意图、所述目标数据与每个候选用户意图对应的目标概率,以及所述每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度,确定所述目标数据对应的目标用户意图。
3.根据权利要求2所述的方法,其特征在于,所述获取所述目标数据与每个候选用户意图对应的目标概率,包括:
将所述目标数据对应的词向量替换为零向量,并基于替换后的词向量,确定与对所述目标数据对应的第二向量;
基于所述预先训练的意图识别模型和所述第二向量,确定所述目标数据与每个候选用户意图对应的第二概率;
基于所述第一概率和所述第二概率,确定所述目标数据与每个候选用户意图对应的目标概率。
4.根据权利要求3所述的方法,其特征在于,所述基于替换后的词向量,确定与对所述目标数据对应的第二向量,包括:
获取所述目标数据中每个词在所述目标数据中的位置向量,以及所述每个词在所述目标数据中分段向量;
基于所述替换后的词向量、所述位置向量和所述分段向量,确定与对所述目标数据对应的第二向量。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第二用户意图、所述目标数据与每个候选用户意图对应的目标概率,以及所述每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度,确定所述目标数据对应的目标用户意图,包括:
若所述贡献度中存在小于预设贡献度阈值的贡献度,则将所述小于预设贡献度阈值的贡献度对应的候选用户意图确定为潜在用户意图;
基于所述第二用户意图和所述潜在用户意图,确定所述目标数据对应的目标用户意图。
6.根据权利要求5所述的方法,其特征在于,所述目标数据为执行目标业务所需的数据,所述方法还包括:
获取与所述第二用户意图对应的第一风控策略,以及与所述潜在用户意图对应的第二风控策略,并基于所述第一风控策略和所述第二风控策略,对所述目标业务进行风险检测,以确定执行所述目标业务是否存在风险。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
基于所述目标数据及对应的目标用户意图,对所述意图识别模型进行训练,得到训练后的意图识别模型。
8.一种数据处理装置,其特征在于,包括:
数据获取模块,用于获取待检测的目标数据,并获取所述目标数据与每个候选用户意图对应的目标概率,所述目标数据包括人机交互过程中用户的输入数据,所述候选用户意图为与当前场景对应的用户意图;
贡献确定模块,用于对所述目标数据进行划分,得到多个子数据,并基于预设梯度积分算法,获取每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度,所述预设梯度积分算法用于确定每个所述子数据的变化对所述目标数据属于每个所述候选用户意图的变化的影响程度;
意图确定模块,用于基于所述目标数据与每个候选用户意图对应的目标概率,以及所述每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度,确定所述目标数据对应的目标用户意图,所述贡献度用于判断所述目标数据中是否存在可能干扰意图识别准确性的数据。
9.一种数据处理设备,其特征在于,所述数据处理设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待检测的目标数据,并获取所述目标数据与每个候选用户意图对应的目标概率,所述目标数据包括人机交互过程中用户的输入数据,所述候选用户意图为与当前场景对应的用户意图;
对所述目标数据进行划分,得到多个子数据,并基于预设梯度积分算法,获取每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度,所述预设梯度积分算法用于确定每个所述子数据的变化对所述目标数据属于每个所述候选用户意图的变化的影响程度;
基于所述目标数据与每个候选用户意图对应的目标概率,以及所述每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度,确定所述目标数据对应的目标用户意图,所述贡献度用于判断所述目标数据中是否存在可能干扰意图识别准确性的数据。
10.一种存储介质,其特征在于,所述存储介质用于存储计算机可执行指令,所述可执行指令在被处理器执行时实现以下流程:
获取待检测的目标数据,并获取所述目标数据与每个候选用户意图对应的目标概率,所述目标数据包括人机交互过程中用户的输入数据,所述候选用户意图为与当前场景对应的用户意图;
对所述目标数据进行划分,得到多个子数据,并基于预设梯度积分算法,获取每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度,所述预设梯度积分算法用于确定每个所述子数据的变化对所述目标数据属于每个所述候选用户意图的变化的影响程度;
基于所述目标数据与每个候选用户意图对应的目标概率,以及所述每个所述子数据对所述目标数据属于每个所述候选用户意图的贡献度,确定所述目标数据对应的目标用户意图,所述贡献度用于判断所述目标数据中是否存在可能干扰意图识别准确性的数据。
CN202211369675.4A 2022-11-03 2022-11-03 数据处理方法、装置及设备 Active CN115423485B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211369675.4A CN115423485B (zh) 2022-11-03 2022-11-03 数据处理方法、装置及设备
US18/500,969 US20240153500A1 (en) 2022-11-03 2023-11-02 Data processing method, apparatus, and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211369675.4A CN115423485B (zh) 2022-11-03 2022-11-03 数据处理方法、装置及设备

Publications (2)

Publication Number Publication Date
CN115423485A CN115423485A (zh) 2022-12-02
CN115423485B true CN115423485B (zh) 2023-03-21

Family

ID=84208350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211369675.4A Active CN115423485B (zh) 2022-11-03 2022-11-03 数据处理方法、装置及设备

Country Status (2)

Country Link
US (1) US20240153500A1 (zh)
CN (1) CN115423485B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929532A (zh) * 2019-11-21 2020-03-27 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及存储介质
CN114897158A (zh) * 2022-05-07 2022-08-12 北京三快在线科技有限公司 数据处理模型的训练方法、数据处理方法、装置及设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106960248B (zh) * 2016-01-08 2021-02-23 阿里巴巴集团控股有限公司 一种基于数据驱动预测用户问题的方法及装置
CN109858022A (zh) * 2019-01-04 2019-06-07 平安科技(深圳)有限公司 一种用户意图识别方法、装置、计算机设备及存储介质
CN110069709B (zh) * 2019-04-10 2023-10-20 腾讯科技(深圳)有限公司 意图识别方法、装置、计算机可读介质及电子设备
CN110059966A (zh) * 2019-04-23 2019-07-26 成都四方伟业软件股份有限公司 影响因素的贡献力分析方法和装置
CN111898014B (zh) * 2020-08-12 2021-07-13 哈尔滨工业大学 一种面向认知服务的用户意图识别方法及系统
CN113704082A (zh) * 2021-02-26 2021-11-26 腾讯科技(深圳)有限公司 模型评测方法、装置、电子设备及存储介质
CN115130711A (zh) * 2021-03-26 2022-09-30 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机及可读存储介质
CN113326351A (zh) * 2021-06-17 2021-08-31 湖北亿咖通科技有限公司 一种用户意图确定方法及装置
CN113837638B (zh) * 2021-09-29 2024-04-26 支付宝(杭州)信息技术有限公司 话术确定方法、装置及设备
CN114860905A (zh) * 2022-04-24 2022-08-05 支付宝(杭州)信息技术有限公司 意图识别方法、装置及设备
CN114880472A (zh) * 2022-04-28 2022-08-09 支付宝(杭州)信息技术有限公司 数据处理方法、装置及设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929532A (zh) * 2019-11-21 2020-03-27 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及存储介质
CN114897158A (zh) * 2022-05-07 2022-08-12 北京三快在线科技有限公司 数据处理模型的训练方法、数据处理方法、装置及设备

Also Published As

Publication number Publication date
CN115423485A (zh) 2022-12-02
US20240153500A1 (en) 2024-05-09

Similar Documents

Publication Publication Date Title
CN109086961B (zh) 一种信息风险监测方法及装置
CN112200132B (zh) 一种基于隐私保护的数据处理方法、装置及设备
CN115545002B (zh) 一种模型训练和业务处理的方法、装置、存储介质及设备
CN112308113A (zh) 一种基于半监督的目标识别方法、设备及介质
CN114880472A (zh) 数据处理方法、装置及设备
CN115712866A (zh) 数据处理方法、装置及设备
CN116049761A (zh) 数据处理方法、装置及设备
CN115618964A (zh) 一种模型训练的方法、装置、存储介质及电子设备
CN117392694B (zh) 数据处理方法、装置及设备
CN111538925B (zh) 统一资源定位符url指纹特征的提取方法及装置
CN115221523B (zh) 数据处理方法、装置及设备
CN115423485B (zh) 数据处理方法、装置及设备
CN115204395A (zh) 数据的处理方法、装置及设备
CN110321433B (zh) 确定文本类别的方法及装置
CN111242195B (zh) 模型、保险风控模型训练方法、装置及电子设备
CN113344197A (zh) 一种识别模型的训练方法、业务执行的方法以及装置
CN111539520A (zh) 增强深度学习模型鲁棒性的方法及装置
CN114861665B (zh) 一种强化学习模型训练以及确定数据关系的方法及装置
CN112115952B (zh) 一种基于全卷积神经网络的图像分类方法、设备及介质
CN117079646B (zh) 一种语音识别模型的训练方法、装置、设备及存储介质
CN114817469B (zh) 文本增强方法、文本增强模型的训练方法及装置
CN108563696B (zh) 一种发掘潜在风险词的方法、装置及设备
CN112884478B (zh) 一种数据处理方法、装置及设备
CN114723269A (zh) 一种事件的风险防控方法、装置及设备
CN115222262A (zh) 数据处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant