CN117635087A - 人工智能业务测试方法、装置、计算机设备和存储介质 - Google Patents
人工智能业务测试方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN117635087A CN117635087A CN202311731346.4A CN202311731346A CN117635087A CN 117635087 A CN117635087 A CN 117635087A CN 202311731346 A CN202311731346 A CN 202311731346A CN 117635087 A CN117635087 A CN 117635087A
- Authority
- CN
- China
- Prior art keywords
- service
- test
- tested object
- interactive
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 373
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 28
- 230000002452 interceptive effect Effects 0.000 claims abstract description 155
- 238000012549 training Methods 0.000 claims abstract description 142
- 230000003993 interaction Effects 0.000 claims abstract description 106
- 238000000034 method Methods 0.000 claims abstract description 75
- 238000004590 computer program Methods 0.000 claims abstract description 21
- 230000008569 process Effects 0.000 claims description 39
- 238000012545 processing Methods 0.000 claims description 16
- 238000012544 monitoring process Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000004088 simulation Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种人工智能业务测试方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:响应于业务测试配置操作,确定当前业务交互的目标业务场景以及目标服务对象;基于所述目标业务场景的场景特征和所述目标服务对象的对象特征,配置交互测试模型;所述交互测试模型基于训练样本集预先训练得到;所述训练样本集中包含各类型服务对象在多个业务场景下的训练样本子集;在目标业务场景下,基于所述交互测试模型对被测试对象进行交互测试,并基于所述被测试对象在所述交互测试中输入的语义数据,确定所述被测试对象的测试结果。采用本方法能够提高业务测试的效率。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种人工智能业务测试方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
在目前的业务管理日常中,对业务人员进行上岗前的培训以及对业务人员的业务专业度进行测试是必不可少的一环。
传统方法中,通常是通过经验丰富的业务人员进行业务演示,人工教授业务技巧,例如,在保险行业中,一般由经验丰富的保险从业人员对新员工进行业务培训,业务话术展示等,进而,通过人工进行业务水平测试。
然而,传统方法中业务培训以及业务水平测试等业务管理活动,不仅消耗大量的人力资源,而且人工测试具有很强的局限性,造成业务测试效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种人工智能业务测试方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种人工智能业务测试方法,包括:
响应于业务测试配置操作,确定当前业务交互的目标业务场景以及目标服务对象;
基于所述目标业务场景的场景特征和所述目标服务对象的对象特征,配置交互测试模型;所述交互测试模型基于训练样本集预先训练得到;所述训练样本集中包含各类型服务对象在多个业务场景下的训练样本子集;
在目标业务场景下,基于所述交互测试模型对被测试对象进行交互测试,并基于所述被测试对象在所述交互测试中输入的语义数据,确定所述被测试对象的测试结果。
在其中一个实施例中,所述目标业务场景为业务问询场景,所述在目标业务场景下,基于所述交互测试模型对被测试对象进行交互测试,并基于所述被测试对象在所述交互测试中输入的语义数据,确定所述被测试对象的测试结果,包括:
在业务问询场景下,响应于所述被测试对象发送的业务测试请求,通过所述交互测试模型输出与所述业务问询场景匹配的问询数据;
接收所述被测试对象输入的语义数据,对所述语义数据进行判别处理,确定所述被测试对象的测试结果。
在其中一个实施例中,所述目标业务场景为业务推荐场景,所述在目标业务场景下,基于所述交互测试模型对被测试对象进行交互测试,并基于所述被测试对象在所述交互测试中输入的语义数据,确定所述被测试对象的测试结果,包括:
在所述业务推荐场景下,响应于所述被测试对象发送的业务测试请求,接收所述被测试对象输入的语义数据;
通过所述交互测试模型对所述语义数据进行数据处理,输出与所述语义数据关联的答复数据;
基于所述语义数据与所述答复数据,确定所述被测试对象的测试结果。
在其中一个实施例中,所述在目标业务场景下,基于所述交互测试模型对被测试对象进行交互测试,并基于所述被测试对象在所述交互测试中输入的语义数据,确定所述被测试对象的测试结果之前,所述方法还包括:
获取训练样本集以及初始交互测试模型;
基于所述训练样本集,对所述初始交互测试模型进行模型训练,得到对每一轮次模型训练的输出结果;
确定所述输出结果对应的损失结果,直至所述损失结果满足预设的模型训练损失条件,将所述初始交互测试模型确定为交互测试模型。
在其中一个实施例中,所述获取训练样本集,包括:
针对各类型服务对象中的每一类型服务对象,获取所述服务对象的对象特征以及所述服务对象的多模态语料数据;
基于各类型业务场景对应的场景特征,对所述多模态语料数据进行划分,得到每一类型服务对象在所述各类型业务场景下的训练样本子集;
基于各类型服务对象在所述各类型业务场景下的训练样本子集,构建训练样本集。
在其中一个实施例中,所述在目标业务场景下,基于所述交互测试模型对被测试对象进行交互测试,并基于所述被测试对象在所述交互测试中输入的语义数据,确定所述被测试对象的测试结果之后,所述方法还包括:
实时监控所述被测试对象的交互测试过程,获取所述交互测试过程的交互测试日志;
基于预设关键词信息,对所述交互测试日志进行关键词信息检索,得到检索结果;
基于所述检索结果,确定交互测试过程的监管结果。
在其中一个实施例中,所述基于所述被测试对象在所述交互测试中输入的语义数据,确定所述被测试对象的测试结果,包括:
通过所述交互测试模型,对所述被测试对象输入的语义数据进行特征提取,得到所述语义数据对应的语义特征;
基于预设的评分规则以及评分指标,对所述语义特征进行评估处理,确定所述被测试对象的测试结果。
第二方面,本申请还提供了一种人工智能业务测试装置,所述装置包括:
第一确定模块,用于响应于业务测试配置操作,确定当前业务交互的目标业务场景以及目标服务对象;
配置模块,用于基于所述目标业务场景的场景特征和所述目标服务对象的对象特征,配置交互测试模型;所述交互测试模型基于训练样本集预先训练得到;所述训练样本集中包含各类型服务对象在多个业务场景下的训练样本子集;
第二确定模块,用于在目标业务场景下,基于所述交互测试模型对被测试对象进行交互测试,并基于所述被测试对象在所述交互测试中输入的语义数据,确定所述被测试对象的测试结果。
第三方面,本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
响应于业务测试配置操作,确定当前业务交互的目标业务场景以及目标服务对象;
基于所述目标业务场景的场景特征和所述目标服务对象的对象特征,配置交互测试模型;所述交互测试模型基于训练样本集预先训练得到;所述训练样本集中包含各类型服务对象在多个业务场景下的训练样本子集;
在目标业务场景下,基于所述交互测试模型对被测试对象进行交互测试,并基于所述被测试对象在所述交互测试中输入的语义数据,确定所述被测试对象的测试结果。
第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
响应于业务测试配置操作,确定当前业务交互的目标业务场景以及目标服务对象;
基于所述目标业务场景的场景特征和所述目标服务对象的对象特征,配置交互测试模型;所述交互测试模型基于训练样本集预先训练得到;所述训练样本集中包含各类型服务对象在多个业务场景下的训练样本子集;
在目标业务场景下,基于所述交互测试模型对被测试对象进行交互测试,并基于所述被测试对象在所述交互测试中输入的语义数据,确定所述被测试对象的测试结果。
第五方面,本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
响应于业务测试配置操作,确定当前业务交互的目标业务场景以及目标服务对象;
基于所述目标业务场景的场景特征和所述目标服务对象的对象特征,配置交互测试模型;所述交互测试模型基于训练样本集预先训练得到;所述训练样本集中包含各类型服务对象在多个业务场景下的训练样本子集;
在目标业务场景下,基于所述交互测试模型对被测试对象进行交互测试,并基于所述被测试对象在所述交互测试中输入的语义数据,确定所述被测试对象的测试结果。
上述人工智能业务测试方法、装置、计算机设备、存储介质和计算机程序产品,响应于业务测试配置操作,确定当前业务交互的目标业务场景以及目标服务对象;基于所述目标业务场景的场景特征和所述目标服务对象的对象特征,配置交互测试模型;所述交互测试模型基于训练样本集预先训练得到;所述训练样本集中包含各类型服务对象在多个业务场景下的训练样本子集;在目标业务场景下,基于所述交互测试模型对所述被测试对象进行交互测试,并基于所述被测试对象在所述交互测试中输入的语义数据,确定所述被测试对象的测试结果。采用本方法,可以基于目标业务场景的场景特征和目标服务对象的对象特征,对交互测试模型进行配置,实现对于被测试对象的有针对性的业务测试,并且通过预先训练的交互测试模型对被测试对象进行交互测试,可以直接确定被测试对象的测试结果,提高了业务测试的效率。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中人工智能业务测试方法的流程示意图;
图2为一个实施例中业务问询场景下交互测试方法的流程示意图;
图3为一个实施例中业务推荐场景下交互测试方法的流程示意图;
图4为一个实施例中交互测试模型的训练方法的流程示意图;
图5为一个实施例中构建训练样本集步骤的流程示意图;
图6为一个实施例中监管交互测试过程步骤的流程示意图;
图7为一个实施例中确定交互测试的测试结果步骤的流程示意图;
图8为一个实施例中人工智能业务测试方法具体示例的流程示意图;
图9为一个实施例中人工智能业务测试装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种人工智能业务测试方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤102,响应于业务测试配置操作,确定当前业务交互的目标业务场景以及目标服务对象。
在实施中,终端上集成有业务测试系统,进而通过该业务测试系统实现人工智能业务测试方法。该业务测试系统可以用于检验业务人员的业务水平以及对新的业务人员进行业务培训。具体地,终端中预先设置有多种业务场景,以及不同类型的服务对象,多种业务场景和不同类型的服务对象间可以进行搭配组合。因此,业务人员作为被测试对象,通过在业务测试系统中执行业务测试配置操作,预先对业务测试过程中的测试环境进行配置,终端响应于业务人员执行的业务测试配置操作,确定当前业务交互的目标业务场景以及目标服务对象。
步骤104,基于目标业务场景的场景特征和目标服务对象的对象特征,配置交互测试模型。
其中,交互测试模型基于训练样本集预先训练得到。训练样本集中包含各类型服务对象在多个业务场景下的训练样本子集。
在实施中,在确定出目标业务场景和目标服务对象之后,终端基于目标业务场景的场景特征和目标服务对象的对象特征,配置交互测试模型。具体地,交互测试模型基于训练样本集预先训练。该训练样本集中包含各类型服务对象在多个业务场景下的训练样本子集。针对每一类型服务对象在某一业务场景下的训练样本子集训练交互测试模型是,可以确定出交互测试模型模拟在该业务场景的下该类型服务对象的业务测试环境时的模型运行参数。终端存储各种业务场景与服务对象搭配组合对应的模型运行参数,这样,交互测试模型可以模拟各类型服务对象在不同业务场景下的业务测试环境。进而,在业务人员确定出目标业务场景和目标服务对象之后,终端基于目标业务场景的场景特征和目标服务对象的对象特征,确定交互测试模型对应的模型运行参数,对当前的交互测试模型进行配置。
步骤106,在目标业务场景下,基于交互测试模型对被测试对象进行交互测试,并基于被测试对象在交互测试中输入的语义数据,确定被测试对象的测试结果。
在实施中,在交互测试模型配置完成之后,基于配置后的交互测试模型模拟目标业务场景,业务人员作为被测试对象在该目标业务场景下进行业务测试(也即是一种交互测试),通过交互测试模型模拟目标服务对象与被测试对象进行交互,该交互过程可以通过交互测试模型输出语义数据,业务人员输入语义数据的方式实现。进而,交互测试模型还可以基于被测试对象在交互测试过程中输入的语义数据,对该被测试对象进行业务能力评估,确定该被测试对象的测试结果。
上述人工智能业务测试方法中,可以基于目标业务场景的场景特征和目标服务对象的对象特征,对交互测试模型进行配置,实现对于被测试对象的有针对性的业务测试,并且通过预先训练的交互测试模型对被测试对象进行交互测试,可以直接确定被测试对象的测试结果,提高了业务测试的效率。
在一个可选的实施例中,人工智能业务测试方法还设置有循环反馈机制,当被测试对象结束测试之后,可以对本次业务测试中交互测试模型给出的语义数据进行反向评价,进而,可以基于被测试对象给出的反向评价进一步迭代优化交互测试模型。
可选的,当出现新的语料数据时,终端会基于新的语料数据更新训练数据集,进而,基于更新后的训练数据集对交互测试模型进行重训练,提高交互测试模型的准确度。
在一个示例性的实施例中,不同类型的服务对象具有不同的行为偏好和性格偏好。因此,针对不同类型的服务对象需要业务人员采用不同的业务话术与之进行沟通,所以不同类型的服务对象作为交互测试环境中的一个模拟测试的维度。其中,服务对象的类型可以按照年龄、性别、职业、历史行为习惯等维度进行划分。测试环境中的另一维度,即业务场景,不同行业的业务场景对应不同的业务内容,例如,保险业务、客服业务,且在每一行业内针对不同的业务类型对应的业务场景也是多种多样的。这些业务场景以业务人员与服务对象的交互方式维度进行划分,大体可以分为两大类,其中,第一类是业务问询场景,即服务对象主动向业务人员进行业务咨询。第二类是业务推荐场景,即业务人员向服务对象进行业务推荐。针对这两种不同的业务场景,本申请实施例分别给出具体的交互测试方法,详见下述实施例。
在其中一个实施例中,如图2所示,针对第一类业务场景,即目标业务场景为业务问询场景,则步骤106的具体处理过程,包括以下步骤202至步骤206。其中:
步骤202,在业务问询场景下,响应于被测试对象发送的业务测试请求,通过交互测试模型输出与业务问询场景匹配的问询数据。
在实施中,在业务问询场景下,被测试对象发送业务测试请求之后,终端响应于该业务测试请求,开启业务问询场景下的交互测试模式,即通过交互测试模型在预先训练学习到的目标服务对象在业务问询场景下的语料库中,确定出问询语料数据(也称为问询数据)并对该问询数据进行输出展示,从而,业务人员(也即被测试对象)需要基于该问询数据,给出相应的答复内容,完成交互测试。
可选的,该交互测试过程不限定交互次数,针对该业务问询场景,若交互测试模型基于该业务问询场景对应的语料库,不断给出相关的问询数据,则被测试对象可以基于该问询数据持续进行交互测试。可选的,预留有交互测试结束接口,被测试对象也可以通过该交互测试结束接口主动结束本次交互测试。又可以基于每一业务场景的语料数据预先设置交互次数阈值,进而,在被测试对象与交互测试模型模拟的目标服务对象间的交互次数达到交互次数阈值时,结束本次交互测试。因而,针对交互测试的停止条件可以但不限于为执行停止交互测试的触发操作,到达交互次数阈值或者到达交互测试时长等,本申请实施例对此不做限定。
步骤204,接收被测试对象输入的语义数据,对语义数据进行判别处理,确定被测试对象的测试结果。
在实施中,交互测试模型在模型训练过程中预先学习了该目标业务场景(即业务问询场景)下该问询数据对应的标准答复数据,这样,在交互测试过程中,终端通过交互测试模型接收被测试对象输入的语义数据,并基于预设的评分规则等对被测试对象输入的语义数据进行判别处理,确定被测试对象的测试结果。
可选的,被测试对象可以采用语音输入的方式,通过语音接收装置收录语音信息,并将其转换为终端可处理的语义数据,也可以通过文本输入的方式,输入语义数据。本申请实施例可以支持多模态数据,本申请实施例对于语义数据的输入方式不做限定。
本实施例中,通过交互测试模型模拟在业务问询场景下与目标服务对象进行业务交互的测试环境,实现通过交互测试模型对被测试对象的自动化业务测试,且测试环境的多样性,提高了业务测试的灵活度,进而,提高了业务测试效率。
在其中一个实施例中,如图3所示,针对第二类业务场景,即目标业务场景为业务推荐场景,则步骤106的具体处理过程,包括以下步骤302至步骤306。其中:
步骤302,在业务推荐场景下,响应于被测试对象发送的业务测试请求,接收被测试对象输入的语义数据。
在实施中,在业务推荐场景下,被测试对象发送业务测试请求之后,终端响应于该业务测试请求,开启业务推荐场景下的交互测试模式,在该业务推荐场景的交互测试模式下,由被测试对象对模拟出的目标服务对象主动进行业务推荐,因此,被测试对象执行业务推荐相关语义数据的输入操作,这样,终端可以接收到该被测试对象输入的语义数据。
步骤304,通过交互测试模型对语义数据进行数据处理,输出与语义数据关联的答复数据。
在实施中,交互测试模型预先学习了在目标业务场景(即业务推荐场景)下的业务推荐相关的语义数据以及目标服务对象给出的答复数据间的关联关系,进而,在接收到被测试对象输入的语义数据之后,终端通过预先训练的交互测试模型对被测试对象输入的语义数据进行数据处理,给出符合目标服务对象的对象特征的答复数据。
步骤306,基于语义数据与答复数据,确定被测试对象的测试结果。
在实施中,终端基于被测试对象输入的语义数据,以及交互测试模型模拟出的目标服务对象的答复数据,对该被测试对象进行业务能力评估,确定被测试对象的测试结果。
本实施例中,通过交互测试模型模拟在业务推荐场景下与目标服务对象进行业务交互的测试环境,实现通过交互测试模型对被测试对象的自动化业务测试,且测试环境的多样性,提高了业务测试的灵活度,进而,提高了业务测试的效率。
在一个示例性的实施例中,在交互测试模型的应用之前,需要进行模型训练,如图4所示,在步骤106之前,该方法还包括步骤402至步骤406。其中:
步骤402,获取训练样本集以及初始交互测试模型。
在实施中,终端获取训练样本集以及初始交互测试模型。其中,训练样本集中包含各类型服务对象在多个业务场景下的训练样本子集,每一训练样本子集中包含多模态训练数据,例如,文本数据、语音数据、图像数据等等,本申请实施例对于训练样本子集中包含的训练数据的来源不做限定。每一训练样本子集中包含的多模态训练数据为目标服务对象在目标服务场景下产生的语料数据。
其中,该初始交互测试模型可以但不限于为机器学习模型。
步骤404,基于训练样本集,对初始交互测试模型进行模型训练,得到对每一轮次模型训练的输出结果。
在实施中,终端基于训练样本集,对初始交互测试模型进行模型训练,得到对每一轮次模型训练的输出结果。具体地,终端基于预设的训练顺序,将训练样本集中包含的每一训练样本子集输入至交互测试模型中,通过交互测试模型对训练样本子集进行数据处理,确定每一轮次初始交互测试模型的输出结果。其中,该输出结果可以为与训练样本集中语义数据相匹配的语料数据。该输出结果中的语料数据可以基于具体业务场景确定为问询数据或者答复数据。
步骤406,确定输出结果对应的损失结果,直至损失结果满足预设的模型训练损失条件,将初始交互测试模型确定为交互测试模型。
在实施中,针对当前训练样本子集的训练过程,在模型训练的迭代过程中,每一轮次的输出结果,基于预先标记的参考语料数据,对输出结果进行损失计算,确定当前轮次模型训练的损失结果,判断当前轮次模型训练的的损失结果是否满足预设的模型训练损失条件,在满足预设的模型训练损失条件的情况下,表征当前训练样本子集训练完成,进而基于预设的训练顺序,再基于当前训练样本子集对应的下一训练样本子集对初始交互测试模型进行训练,直至最后一个训练样本子集的模型训练过程中,初始交互测试模型的输出结果满足预设的模型训练损失条件,则模型训练完成,终端将初始交互测试模型确定为交互测试模型。
本实施例中,通过包含多个训练样本子集的训练样本集,对初始交互测试模型进行训练,训练后的交互测试模型可以实现对多种业务场景下的多种服务对象的模拟,实现对被测试对象的交互测试,提高了业务测试的效率。
在一个示例性的实施例中,如图5所示,步骤402中获取训练样本集的具体处理过程包括步骤502至步骤506。其中:
步骤502,针对各类型服务对象中的每一类型服务对象,获取服务对象的对象特征以及服务对象的多模态语料数据。
在实施中,终端针对各类型服务对象中的每一类型服务对象,获取服务对象的对象特征以及服务对象的多模态语料数据。多模态语料数据可以但不限于为通话记录、文本数据等,本申请实施例对此不做限定。例如,以年龄段和性别作为服务对象类型的划分标准,收集同一年龄段同一性别的服务对象的多模态语料数据。
可选的,在应用多模态语料数据之前,对获取到的多模态语料数据进行数据预处理,例如,可以对多模态语料数据进行数据清洗、数据标准化等等,以提高训练样本集的数据质量。
步骤504,基于各类型业务场景对应的场景特征,对多模态语料数据进行划分,得到每一类型服务对象在各类型业务场景下的训练样本子集。
在实施中,终端基于各类型业务场景对应的场景特征,对多模态语料数据进行划分,得到每一类型服务对象在各类型业务场景下的训练样本子集。具体地,各类型业务场景对应的场景特征可以但不限于分为业务问询场景和业务推荐场景,其中,业务问询场景又包括保险业务问询场景、商品客服问询场景等等。业务推荐场景又包括保险业务推荐场景、商品推荐业务场景等,针对同一年龄段同一性别的服务对象的多模态语料数据,基于各类型业务场景对应的场景特征对语料数据进行划分,从而,得到该类型服务对象在不同类型业务场景下的训练样本子集。
步骤506,基于各类型服务对象在各类型业务场景下的训练样本子集,构建训练样本集。
在实施中,终端将划分后的各类型服务对象在各类型业务场景下的训练样本子集进行汇总,构建得到训练样本集。
本实施例中,获取多模态训练数据,该多模态训练数据中包含各类型服务对象与各类型业务场景的搭配组合的语义数据,进而,构建训练样本集。通过该训练样本集对交互测试模型进行训练,实现了对各类型业务场景下各类型服务对象的模拟。
在一个示例性的实施例中,终端还可以对该交互测试过程进行监管,其中,主要监管两部分内容,内容一,终端对包含有该交互测试模型的业务测试系统的运行情况进行监测,保证业务测试系统的运行稳定性。内容二,终端对交互测试过程中交互测试的语义数据进行监测,保证业务测试系统中信息安全性。如图6所示,在步骤106之后,该方法还包括:
步骤602,实时监控被测试对象的交互测试过程,获取交互测试过程的交互测试日志。
在实施中,终端实时监控被测试对象的交互测试过程,一旦交互测试过程出现问题,及时进行报错和修复,保证交互测试的稳定性和流程性,同时,终端还获取交互测试过程的交互测试日志。该交互测试日志中记录有被测试对象与模拟出的目标服务对象之间交互的全部语义数据。
步骤604,基于预设关键词信息,对交互测试日志进行关键词信息检索,得到检索结果。
在实施中,终端中预先设置有敏感词、特殊字符等信息,将敏感词、特殊字符等的信息作为关键词信息,终端利用该关键词信息,对交互测试日志中包含的全部语义数据进行关键词信息检索,得到检索结果。
步骤606,基于检索结果,确定交互测试过程的监管结果。
在实施中,终端基于检索结果,确定交互测试过程的监管结果。具体地,若检索结果为语义数据中包含关键词信息,则表征本次交互测试过程中存在违规内容,将本次交互测试违规作为本次交互测试过程的监管结果。若检索结果为语义数据中不包含关键词信息,则表征本次交互测试过程中不存在违规内容,将本次交互测试合规作为本次交互测试过程的监管结果。进而,可以基于交互测试过程的监管结果,制定相应的违规处罚机制。
本实施例中,通过对交互测试日志进行关键词信息检索,确定交互测试过程中被测试对象输入的语义数据是否包含违规的关键词信息,从而,实现了对交互测试过程的安全监管,提高了交互测试过程的稳定性和安全性。
在一示例性实施例中,如图7所示,步骤106中基于被测试对象在交互测试中输入的语义数据,确定被测试对象的测试结果,具体处理过程包括以下步骤702至步骤704。其中:
步骤702,通过交互测试模型,对被测试对象输入的语义数据进行特征提取,得到语义数据对应的语义特征。
在实施中,终端通过交互测试模型,对被测试对象输入的语义数据进行特征提取,得到语义数据对应的语义特征。其中,该语义特征包含语义内容特征以及附加特征。语义内容特征用于保证该语义数据的具体含义,附加特征包括语义流畅度、停顿次数、语义重复度、用词准确度等等,本申请实施例不做限定。
步骤704,基于预设的评分规则以及评分指标,对语义特征进行评估处理,确定被测试对象的测试结果。
在实施中,终端基于预设的评分规则以及评分指标,对语义特征进行评估处理,确定被测试对象的测试结果。具体地,该评分指标中可以但不限于包括被测试对象输入的语义数据的适配度标准(与标准语义数据进行比对),语义流畅度情况,语法准确性等。终端基于该评分指标以及对应的评分标准对被测试对象进行评分,该评分作为被测试对象的测试结果。
本实施例中,基于预设的评分规则以及评分指标对语义数据的语义特征进行评估处理,确定被测试对象的测试结果,实现对被测试对象业务测试的及时反馈,提高了业务测试效率。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的人工智能业务测试方法的人工智能业务测试装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个人工智能业务测试装置实施例中的具体限定可以参见上文中对于人工智能业务测试方法的限定,在此不再赘述。
在一具体的实施例中,如图8所示,提供了一种人工智能业务测试方法的具体示例,该方法包括:
步骤801,获取各类型服务对象的多模态语料数据。基于各类型服务对象在所述各类型业务场景下的训练样本子集,构建训练样本集。
步骤802,基于所述训练样本集,对所述初始交互测试模型进行模型训练,得到交互测试模型。
步骤803,响应于业务测试配置操作,确定当前业务交互的目标业务场景以及目标服务对象,配置交互测试模型。在目标业务场景下,基于所述交互测试模型对被测试对象进行交互测试。
步骤804,基于所述被测试对象在所述交互测试中输入的语义数据,确定所述被测试对象的测试结果。
步骤805,监控业务测试系统的运行情况以及被测试对象的交互测试过程,确定交互测试过程的监管结果
步骤806,对交互测试模型进行结果反馈和循环迭代,更新交互测试模型的运行参数。
在一个示例性的实施例中,如图9所示,提供了一种人工智能业务测试装置900,包括:第一确定模块901、配置模块902和第二确定模块903,其中:
第一确定模块901,用于响应于业务测试配置操作,确定当前业务交互的目标业务场景以及目标服务对象;
配置模块902,用于基于目标业务场景的场景特征和目标服务对象的对象特征,配置交互测试模型;交互测试模型基于训练样本集预先训练得到;训练样本集中包含各类型服务对象在多个业务场景下的训练样本子集;
第二确定模块903,用于在目标业务场景下,基于交互测试模型对被测试对象进行交互测试,并基于被测试对象在交互测试中输入的语义数据,确定被测试对象的测试结果。
在一示例性实施例中,目标业务场景为业务问询场景,第二确定模块803具体用于在业务问询场景下,响应于被测试对象发送的业务测试请求,通过交互测试模型输出与业务问询场景匹配的问询数据;
接收被测试对象输入的语义数据,对语义数据进行判别处理,确定被测试对象的测试结果。
在一示例性实施例中,目标业务场景为业务推荐场景,第二确定模块803具体用于在业务推荐场景下,响应于被测试对象发送的业务测试请求,接收被测试对象输入的语义数据;
通过交互测试模型对语义数据进行数据处理,输出与语义数据关联的答复数据;
基于语义数据与答复数据,确定被测试对象的测试结果。
在一示例性实施例中,该装置900还包括:
获取模块,用于获取训练样本集以及初始交互测试模型;
模型训练模块,用于基于训练样本集,对初始交互测试模型进行模型训练,得到对每一轮次模型训练的输出结果;
判别模块,用于确定输出结果对应的损失结果,直至损失结果满足预设的模型训练损失条件,将初始交互测试模型确定为交互测试模型。
在一示例性实施例中,获取模块具体用于针对各类型服务对象中的每一类型服务对象,获取服务对象的对象特征以及服务对象的多模态语料数据;
基于各类型业务场景对应的场景特征,对多模态语料数据进行划分,得到每一类型服务对象在各类型业务场景下的训练样本子集;
基于各类型服务对象在各类型业务场景下的训练样本子集,构建训练样本集。
在一示例性实施例中,该装置900还包括:
监控模块,用于实时监控被测试对象的交互测试过程,获取交互测试过程的交互测试日志;
检索模块,用于基于预设关键词信息,对交互测试日志进行关键词信息检索,得到检索结果;
第三确定模块,用于基于检索结果,确定交互测试过程的监管结果。
在一示例性实施例中,第二确定模块具体用于通过交互测试模型,对被测试对象输入的语义数据进行特征提取,得到语义数据对应的语义特征;
基于预设的评分规则以及评分指标,对语义特征进行评估处理,确定被测试对象的测试结果。
可选的,人工智能业务测试装置中不限于包括上述模块,例如,第二确定模块还可以包括语义数据生成模块、评估模块等,本申请实施例对于装置中包含的模块不做限定。
上述人工智能业务测试装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个示例性的实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种人工智能业务测试方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要符合相关规定。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种人工智能业务测试方法,其特征在于,所述方法包括:
响应于业务测试配置操作,确定当前业务交互的目标业务场景以及目标服务对象;
基于所述目标业务场景的场景特征和所述目标服务对象的对象特征,配置交互测试模型;所述交互测试模型基于训练样本集预先训练得到;所述训练样本集中包含各类型服务对象在多个业务场景下的训练样本子集;
在目标业务场景下,基于所述交互测试模型对被测试对象进行交互测试,并基于所述被测试对象在所述交互测试中输入的语义数据,确定所述被测试对象的测试结果。
2.根据权利要求1所述的方法,其特征在于,所述目标业务场景为业务问询场景,所述在目标业务场景下,基于所述交互测试模型对被测试对象进行交互测试,并基于所述被测试对象在所述交互测试中输入的语义数据,确定所述被测试对象的测试结果,包括:
在业务问询场景下,响应于所述被测试对象发送的业务测试请求,通过所述交互测试模型输出与所述业务问询场景匹配的问询数据;
接收所述被测试对象输入的语义数据,对所述语义数据进行判别处理,确定所述被测试对象的测试结果。
3.根据权利要求1所述的方法,其特征在于,所述目标业务场景为业务推荐场景,所述在目标业务场景下,基于所述交互测试模型对被测试对象进行交互测试,并基于所述被测试对象在所述交互测试中输入的语义数据,确定所述被测试对象的测试结果,包括:
在所述业务推荐场景下,响应于所述被测试对象发送的业务测试请求,接收所述被测试对象输入的语义数据;
通过所述交互测试模型对所述语义数据进行数据处理,输出与所述语义数据关联的答复数据;
基于所述语义数据与所述答复数据,确定所述被测试对象的测试结果。
4.根据权利要求1所述的方法,其特征在于,所述在目标业务场景下,基于所述交互测试模型对被测试对象进行交互测试,并基于所述被测试对象在所述交互测试中输入的语义数据,确定所述被测试对象的测试结果之前,所述方法还包括:
获取训练样本集以及初始交互测试模型;
基于所述训练样本集,对所述初始交互测试模型进行模型训练,得到对每一轮次模型训练的输出结果;
确定所述输出结果对应的损失结果,直至所述损失结果满足预设的模型训练损失条件,将所述初始交互测试模型确定为交互测试模型。
5.根据权利要求4所述的方法,其特征在于,所述获取训练样本集,包括:
针对各类型服务对象中的每一类型服务对象,获取所述服务对象的对象特征以及所述服务对象的多模态语料数据;
基于各类型业务场景对应的场景特征,对所述多模态语料数据进行划分,得到每一类型服务对象在所述各类型业务场景下的训练样本子集;
基于各类型服务对象在所述各类型业务场景下的训练样本子集,构建训练样本集。
6.根据权利要求1所述的方法,其特征在于,所述在目标业务场景下,基于所述交互测试模型对被测试对象进行交互测试,并基于所述被测试对象在所述交互测试中输入的语义数据,确定所述被测试对象的测试结果之后,所述方法还包括:
实时监控所述被测试对象的交互测试过程,获取所述交互测试过程的交互测试日志;
基于预设关键词信息,对所述交互测试日志进行关键词信息检索,得到检索结果;
基于所述检索结果,确定交互测试过程的监管结果。
7.根据权利要求1所述的方法,其特征在于,所述基于所述被测试对象在所述交互测试中输入的语义数据,确定所述被测试对象的测试结果,包括:
通过所述交互测试模型,对所述被测试对象输入的语义数据进行特征提取,得到所述语义数据对应的语义特征;
基于预设的评分规则以及评分指标,对所述语义特征进行评估处理,确定所述被测试对象的测试结果。
8.一种人工智能业务测试装置,其特征在于,所述装置包括:
第一确定模块,用于响应于业务测试配置操作,确定当前业务交互的目标业务场景以及目标服务对象;
配置模块,用于基于所述目标业务场景的场景特征和所述目标服务对象的对象特征,配置交互测试模型;所述交互测试模型基于训练样本集预先训练得到;所述训练样本集中包含各类型服务对象在多个业务场景下的训练样本子集;
第二确定模块,用于在目标业务场景下,基于所述交互测试模型对被测试对象进行交互测试,并基于所述被测试对象在所述交互测试中输入的语义数据,确定所述被测试对象的测试结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311731346.4A CN117635087A (zh) | 2023-12-15 | 2023-12-15 | 人工智能业务测试方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311731346.4A CN117635087A (zh) | 2023-12-15 | 2023-12-15 | 人工智能业务测试方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117635087A true CN117635087A (zh) | 2024-03-01 |
Family
ID=90021447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311731346.4A Pending CN117635087A (zh) | 2023-12-15 | 2023-12-15 | 人工智能业务测试方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117635087A (zh) |
-
2023
- 2023-12-15 CN CN202311731346.4A patent/CN117635087A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10990901B2 (en) | Training, validating, and monitoring artificial intelligence and machine learning models | |
US11615341B2 (en) | Customizable machine learning models | |
CN112632385B (zh) | 课程推荐方法、装置、计算机设备及介质 | |
Noei et al. | Too many user-reviews! what should app developers look at first? | |
EP3483797A1 (en) | Training, validating, and monitoring artificial intelligence and machine learning models | |
US11604980B2 (en) | Targeted crowd sourcing for metadata management across data sets | |
US9722957B2 (en) | Method and system for assisting contact center agents in composing electronic mail replies | |
US20160162794A1 (en) | Decision tree data structures generated to determine metrics for child nodes | |
CN110286938B (zh) | 用于输出针对用户的评价信息的方法和装置 | |
CN110019736A (zh) | 基于语言模型的问答匹配方法、系统、设备及存储介质 | |
US20220156460A1 (en) | Tool for categorizing and extracting data from audio conversations | |
US20210065018A1 (en) | Smart Question and Answer Optimizer | |
US10762089B2 (en) | Open ended question identification for investigations | |
JP2023536773A (ja) | テキスト品質評価モデルのトレーニング方法及びテキスト品質の決定方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
CN111966915A (zh) | 信息巡检方法、计算机设备及存储介质 | |
US11416892B2 (en) | Non-transitory computer-readable recording medium, determination method, and information processing apparatus | |
CN113033912A (zh) | 问题解决人推荐方法及装置 | |
Moon et al. | Rich representations for analyzing learning trajectories: Systematic review on sequential data analytics in game-based learning research | |
CN117635087A (zh) | 人工智能业务测试方法、装置、计算机设备和存储介质 | |
Enoch Sit et al. | A deep learning framework with visualisation for uncovering students’ learning progression and learning bottlenecks | |
Choi et al. | A Systematic Literature Review on Performance Prediction in Learning Programming Using Educational Data Mining | |
CN113590772A (zh) | 异常评分的检测方法、装置、设备及计算机可读存储介质 | |
US20220253690A1 (en) | Machine-learning systems for simulating collaborative behavior by interacting users within a group | |
CN112418260A (zh) | 模型训练方法、信息提示方法、装置、设备及介质 | |
KR102604242B1 (ko) | 외부 모델과 연동하는 생성형 인공지능을 포함하는k-gpt 솔루션 기반의 전자 장치 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |