CN112541739B - 问答意图分类模型的测试方法、装置、设备及介质 - Google Patents

问答意图分类模型的测试方法、装置、设备及介质 Download PDF

Info

Publication number
CN112541739B
CN112541739B CN202011479835.1A CN202011479835A CN112541739B CN 112541739 B CN112541739 B CN 112541739B CN 202011479835 A CN202011479835 A CN 202011479835A CN 112541739 B CN112541739 B CN 112541739B
Authority
CN
China
Prior art keywords
intention
question
test
test sample
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011479835.1A
Other languages
English (en)
Other versions
CN112541739A (zh
Inventor
宫雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011479835.1A priority Critical patent/CN112541739B/zh
Publication of CN112541739A publication Critical patent/CN112541739A/zh
Priority to PCT/CN2021/091718 priority patent/WO2022126987A1/zh
Application granted granted Critical
Publication of CN112541739B publication Critical patent/CN112541739B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及人工智能技术领域,揭示了一种问答意图分类模型的测试方法、装置、设备及介质,其中方法包括:分别将每个产品标识对应的测试样本子集合输入对应的待测试的问答意图分类模型进行意图预测得到各个产品标识对应的意图预测结果集合;分别根据各个产品标识对应的意图预测结果集合、各个产品标识对应的测试样本子集合的测试问题问句意图标定数据和测试问题是否意图标定数据进行每个测试样本的意图预测准确判断得到各个产品标识对应的意图预测准确结果集合;根据各个产品标识对应的测试样本子集合和意图预测准确结果集合进行报告生成得到目标问答意图分类模型测试报告。从而避免人工计算耗时长且不准确的问题。

Description

问答意图分类模型的测试方法、装置、设备及介质
技术领域
本申请涉及到人工智能技术领域,特别是涉及到一种问答意图分类模型的测试方法、装置、设备及介质。
背景技术
分类模型的模型测试需要基于样本数据,样本数据的数量少时,部分测试人员会采取借用Excel等工具进行人工计算统计的方式,但当样本数据的数量多时,人工计算耗时长且不准确。而且模型在不断的迭代优化,导致需要计算的次数非常多,从而导致进一步增加计算的工作量。
发明内容
本申请的主要目的为提供一种问答意图分类模型的测试方法、装置、设备及介质,旨在解决现有技术的分类模型训练后通过Excel进行人工计算统计的方式进行模型测试,导致人工计算耗时长且不准确的技术问题。
为了实现上述发明目的,本申请提出一种问答意图分类模型的测试方法,所述方法包括:
获取测试样本集合,所述测试样本集合包括多个测试样本,所述测试样本包括:产品标识、测试问题样本数据、测试问题问句意图标定数据和测试问题是否意图标定数据;
采用所述产品标识对所述多个测试样本进行划分,得到各个所述产品标识各自对应的测试样本子集合;
分别将每个所述产品标识对应的测试样本子集合输入各自对应的待测试的问答意图分类模型进行意图预测,得到各个所述产品标识各自对应的意图预测结果集合;
分别根据各个所述产品标识各自对应的意图预测结果集合、各个所述产品标识各自对应的测试样本子集合的所述测试问题问句意图标定数据和所述测试问题是否意图标定数据进行每个所述测试样本的意图预测准确判断,得到各个所述产品标识各自对应的意图预测准确结果集合;
根据各个所述产品标识各自对应的测试样本子集合和意图预测准确结果集合进行报告生成,得到目标问答意图分类模型测试报告,所述目标问答意图分类模型测试报告包括:各个所述产品标识各自对应的各个意图值的准确率数据、召回率数据和正样本总数。
进一步的,所述分别将每个所述产品标识对应的测试样本子集合输入各自对应的待测试的问答意图分类模型进行意图预测,得到各个所述产品标识各自对应的意图预测结果集合的步骤,包括:
采用待预测的产品标识从各个所述产品标识各自对应的测试样本子集合中提取出测试样本子集合,得到目标测试样本子集合,所述待预测的产品标识是各个所述产品标识中的任一个;
根据所述待预测的产品标识从待测试模型库中查找,得到目标待测试的问答意图分类模型;
分别将所述目标测试样本子集合中每个所述测试样本输入所述目标待测试的问答意图分类模型进行意图预测,得到所述待预测的产品标识对应的所述意图预测结果集合;
重复所述采用待预测的产品标识从各个所述产品标识各自对应的测试样本子集合中提取出测试样本子集合,得到目标测试样本子集合的步骤,直至确定所有所述产品标识对应的所述意图预测结果集合。
进一步的,所述分别根据各个所述产品标识各自对应的意图预测结果集合、各个所述产品标识各自对应的测试样本子集合的所述测试问题问句意图标定数据和所述测试问题是否意图标定数据进行每个所述测试样本的意图预测准确判断,得到各个所述产品标识各自对应的意图预测准确结果集合的步骤,包括:
分别对所述测试样本集合中每个所述测试样本的测试问题问句意图标定数据和测试问题是否意图标定数据按意图优先级进行处理,得到意图优先级处理后的测试样本集合;
分别从每个所述产品标识对应的所述意图预测结果集合中依次提取出意图预测结果,得到目标意图预测结果;
当所述目标意图预测结果为是否意图时,根据所述目标意图预测结果从所述意图优先级处理后的测试样本集合中提取所述测试问题是否意图标定数据,得到待判断的测试问题是否意图标定数据,当所述目标意图预测结果和所述待判断的测试问题是否意图标定数据相同时,确定所述目标意图预测结果对应的所述意图预测准确结果为正确,否则确定所述目标意图预测结果对应的所述意图预测准确结果为错误;
当所述目标意图预测结果为问句意图时,根据所述目标意图预测结果从所述意图优先级处理后的测试样本集合提取所述测试问题问句意图标定数据,得到待判断的测试问题问句意图标定数据,当所述目标意图预测结果和所述待判断的测试问题问句意图标定数据相同时,确定所述目标意图预测结果对应的所述意图预测准确结果为正确,否则确定所述目标意图预测结果对应的所述意图预测准确结果为错误;
重复执行所述分别从每个所述产品标识对应的所述意图预测结果集合中依次提取出意图预测结果,得到目标意图预测结果的步骤,直至确定所有所述意图预测结果的所述意图预测准确结果;
根据所有所述意图预测准确结果,确定各个所述产品标识各自对应的意图预测准确结果集合。
进一步的,所述分别对所述测试样本集合中每个所述测试样本的测试问题问句意图标定数据和测试问题是否意图标定数据按意图优先级进行处理,得到意图优先级处理后的测试样本集合的步骤,包括:
分别对所述测试样本集合中每个所述测试样本的所述测试问题问句意图标定数据和所述测试问题是否意图标定数据进行对比;
当存在所述测试样本的所述测试问题问句意图标定数据和所述测试问题是否意图标定数据都存在标定数据时,对所述测试样本的所述测试问题问句意图标定数据进行删除处理,得到意图优先级处理后的测试样本;
根据所有所述意图优先级处理后的测试样本,确定所述意图优先级处理后的测试样本集合。
进一步的,所述根据各个所述产品标识各自对应的测试样本子集合和意图预测准确结果集合进行报告生成,得到目标问答意图分类模型测试报告的步骤,包括:
采用目标产品标识从各个所述产品标识各自对应的测试样本子集合和意图预测准确结果集合中提取数据,得到待计算的测试样本子集合和待计算的意图预测准确结果集合,所述目标产品标识是各个所述产品标识中的任一个;
根据所述待计算的测试样本子集合和所述待计算的意图预测准确结果集合进行各个意图值的准确率计算和召回率计算,得到所述目标产品标识对应的各个所述意图值的所述准确率数据、所述召回率数据和所述正样本总数;
重复执行所述采用目标产品标识从各个所述产品标识各自对应的测试样本子集合和意图预测准确结果集合中提取数据,得到待计算的测试样本子集合和待计算的意图预测准确结果集合,所述目标产品标识是各个所述产品标识中的任一个的步骤,直至确定所有所述产品标识对应的各个所述意图值的所述准确率数据、所述召回率数据和所述正样本总数;
根据各个所述产品标识各自对应的各个所述意图值的所述准确率数据、所述召回率数据和所述正样本总数进行报告生成,得到所述目标问答意图分类模型测试报告。
进一步的,所述根据所述待计算的测试样本子集合和所述待计算的意图预测准确结果集合进行各个意图值的准确率计算和召回率计算,得到所述目标产品标识对应的各个所述意图值的所述准确率数据、所述召回率数据和所述正样本总数的步骤,包括:
根据所述待计算的测试样本子集合进行所述测试样本的总数计算,得到所述目标产品标识对应的测试样本总数;
根据所述待计算的测试样本子集合和所述待计算的意图预测准确结果集合进行各个所述意图值的正样本正确预测数的计算,得到所述目标产品标识对应的各个所述意图值的正样本正确预测数;
根据所述待计算的测试样本子集合和所述待计算的意图预测准确结果集合进行各个所述意图值的负样本正确预测数的计算,得到所述目标产品标识对应的各个所述意图值的负样本正确预测数;
根据所述目标产品标识对应的测试样本总数、各个所述意图值的正样本正确预测数和各个所述意图值的负样本正确预测数进行准确率计算,得到所述目标产品标识对应的各个所述意图值的所述准确率数据;
根据所述待计算的测试样本子集合进行各个所述意图值各自的所述测试样本的总数计算,得到所述目标产品标识对应的各个所述意图值的所述正样本总数;
根据所述目标产品标识对应的各个所述意图值的所述正样本总数、各个所述意图值的正样本正确预测数进行召回率计算,得到所述目标产品标识对应的各个所述意图值的所述召回率数据。
进一步的,所述根据各个所述产品标识各自对应的各个所述意图值的所述准确率数据、所述召回率数据和所述正样本总数进行报告生成,得到所述目标问答意图分类模型测试报告的步骤,包括:
根据各个所述产品标识各自对应的各个所述意图值的所述准确率数据、所述召回率数据和所述正样本总数进行Excel文档生成,得到所述目标问答意图分类模型测试报告;
获取报告下载请求,所述报告下载请求携带有下载方式数据;
根据所述下载方式数据发送所述目标问答意图分类模型测试报告。
本申请还提出了一种问答意图分类模型的测试装置,所述装置包括:
测试样本获取模块,用于获取测试样本集合,所述测试样本集合包括多个测试样本,所述测试样本包括:产品标识、测试问题样本数据、测试问题问句意图标定数据和测试问题是否意图标定数据;
测试样本划分模块,用于采用所述产品标识对所述多个测试样本进行划分,得到各个所述产品标识各自对应的测试样本子集合;
意图预测模块,用于分别将每个所述产品标识对应的测试样本子集合输入各自对应的待测试的问答意图分类模型进行意图预测,得到各个所述产品标识各自对应的意图预测结果集合;
意图预测准确判断模块,用于分别根据各个所述产品标识各自对应的意图预测结果集合、各个所述产品标识各自对应的测试样本子集合的所述测试问题问句意图标定数据和所述测试问题是否意图标定数据进行每个所述测试样本的意图预测准确判断,得到各个所述产品标识各自对应的意图预测准确结果集合;
报告生成模块,用于根据各个所述产品标识各自对应的测试样本子集合和意图预测准确结果集合进行报告生成,得到目标问答意图分类模型测试报告,所述目标问答意图分类模型测试报告包括:各个所述产品标识各自对应的各个意图值的准确率数据、召回率数据和正样本总数。
本申请还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的一种问答意图分类模型的测试方法、装置、设备及介质,通过获取测试样本集合,测试样本集合包括多个测试样本,测试样本包括:产品标识、测试问题样本数据、测试问题问句意图标定数据和测试问题是否意图标定数据;采用产品标识对多个测试样本进行划分,得到各个产品标识各自对应的测试样本子集合;分别将每个产品标识对应的测试样本子集合输入各自对应的待测试的问答意图分类模型进行意图预测,得到各个产品标识各自对应的意图预测结果集合;分别根据各个产品标识各自对应的意图预测结果集合、各个产品标识各自对应的测试样本子集合的测试问题问句意图标定数据和测试问题是否意图标定数据进行每个测试样本的意图预测准确判断,得到各个产品标识各自对应的意图预测准确结果集合;根据各个产品标识各自对应的测试样本子集合和意图预测准确结果集合进行报告生成,得到目标问答意图分类模型测试报告,目标问答意图分类模型测试报告包括:各个产品标识各自对应的各个意图值的准确率数据、召回率数据和正样本总数,从而实现了采用测试样本集合对待测试的问答意图分类模型进行测试并自动生成目标问答意图分类模型测试报告,避免了人工进行模型测试,避免人工计算耗时长且不准确的问题,提高了问答意图分类模型的准确性。
附图说明
图1为本申请一实施例的问答意图分类模型的测试方法的流程示意图;
图2为本申请一实施例的问答意图分类模型的测试装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
为了解决现有技术的分类模型训练后通过Excel进行人工计算统计的方式进行模型测试,导致人工计算耗时长且不准确的技术问题,本申请提出了一种问答意图分类模型的测试方法,所述方法应用于人工智能技术领域。所述问答意图分类模型的测试方法采用测试样本集合对待测试的问答意图分类模型进行测试并自动生成目标问答意图分类模型测试报告,避免了人工进行模型测试,避免人工计算耗时长且不准确的问题,提高了问答意图分类模型的准确性。
参照图1,本申请实施例中提供一种问答意图分类模型的测试方法,所述方法包括:
S1:获取测试样本集合,所述测试样本集合包括多个测试样本,所述测试样本包括:产品标识、测试问题样本数据、测试问题问句意图标定数据和测试问题是否意图标定数据;
S2:采用所述产品标识对所述多个测试样本进行划分,得到各个所述产品标识各自对应的测试样本子集合;
S3:分别将每个所述产品标识对应的测试样本子集合输入各自对应的待测试的问答意图分类模型进行意图预测,得到各个所述产品标识各自对应的意图预测结果集合;
S4:分别根据各个所述产品标识各自对应的意图预测结果集合、各个所述产品标识各自对应的测试样本子集合的所述测试问题问句意图标定数据和所述测试问题是否意图标定数据进行每个所述测试样本的意图预测准确判断,得到各个所述产品标识各自对应的意图预测准确结果集合;
S5:根据各个所述产品标识各自对应的测试样本子集合和意图预测准确结果集合进行报告生成,得到目标问答意图分类模型测试报告,所述目标问答意图分类模型测试报告包括:各个所述产品标识各自对应的各个意图值的准确率数据、召回率数据和正样本总数。
本实施例通过获取测试样本集合,测试样本集合包括多个测试样本,测试样本包括:产品标识、测试问题样本数据、测试问题问句意图标定数据和测试问题是否意图标定数据;采用产品标识对多个测试样本进行划分,得到各个产品标识各自对应的测试样本子集合;分别将每个产品标识对应的测试样本子集合输入各自对应的待测试的问答意图分类模型进行意图预测,得到各个产品标识各自对应的意图预测结果集合;分别根据各个产品标识各自对应的意图预测结果集合、各个产品标识各自对应的测试样本子集合的测试问题问句意图标定数据和测试问题是否意图标定数据进行每个测试样本的意图预测准确判断,得到各个产品标识各自对应的意图预测准确结果集合;根据各个产品标识各自对应的测试样本子集合和意图预测准确结果集合进行报告生成,得到目标问答意图分类模型测试报告,目标问答意图分类模型测试报告包括:各个产品标识各自对应的各个意图值的准确率数据、召回率数据和正样本总数,从而实现了采用测试样本集合对待测试的问答意图分类模型进行测试并自动生成目标问答意图分类模型测试报告,避免了人工进行模型测试,避免人工计算耗时长且不准确的问题,提高了问答意图分类模型的准确性。
对于S1,其中,可以获取用户输入的测试样本集合,也可以是第三方应用系统发送的测试样本集合。
可以理解的是,所述测试样本中,产品标识、测试问题样本数据、测试问题问句意图标定数据、测试问题是否意图标定数据一一对应。
可选的,测试样本还包括样本标识。样本标识可以是样本名称、样本ID等唯一标识一个测试样本的标识。
产品标识可以是产品名称、产品ID等唯一标识一个产品的标识。
测试问题样本数据,是指用户提出的问题的文本数据。每个测试问题样本数据对应一个用户在一轮对话中提出的问题的文本数据。
测试问题问句意图标定数据,是指测试问题样本数据对应的问句意图的标定数据。问句意图包括多个意图值。比如,问句意图在产品标识aries下的意图值包括:之前申请失败、征信有问题、怎么知道我的电话,在此举例不做具体限定。又比如,当测试问题样本数据为“上个月没办下来,现在不知道能不能通过呀”时,测试问题问句意图标定数据为“之前申请失败”,当测试问题样本数据为“产品A1呀,产品A2都试过都没有成功”时,测试问题问句意图标定数据为“之前申请失败”,当测试问题样本数据为“在公司G1昨天前天才办理一个的信用说没有资格”时,测试问题问句意图标定数据为“之前申请失败”,当测试问题样本数据为“那个征信不是太好”时,测试问题问句意图标定数据为“征信有问题”,当测试问题样本数据为“征信没有过”时,测试问题问句意图标定数据为“征信有问题”,当测试问题样本数据为“哪来的电话”时,测试问题问句意图标定数据为“怎么知道我的电话”,在此举例不做具体。
测试问题是否意图标定数据,是指测试问题样本数据对应的是否意图的标定数据。是否意图包括两个意图值,两个意图值为是和否。比如,当测试问题样本数据为“对的”时,测试问题是否意图标定数据为“是”,在此举例不做具体限定。
可选的,所述获取测试样本集合的步骤,包括:
S11:获取模型测试请求,所述模型测试请求携带有Excel文件的存储地址及Excel文件名称;
其中,模型测试请求可以是用户发送的,也可以是本申请的程序文件主动触发的。
模型测试请求,是指对待测试的问答意图分类模型进行测试的请求。
S12:根据所述模型测试请求携带的所述Excel文件的存储地址及所述Excel文件名称获取Excel文件,得到目标Excel文件;
其中,在所述Excel文件的存储地址的目录下,获取文件名称与Excel文件名称相同的文件,将获取的文件作为目标Excel文件。
S13:从所述目标Excel文件中读取数据,得到所述测试样本集合。
从所述目标Excel文件中从第一行开始按行依次读取数据,将每一行数据作为一个测试样本;将所有测试样本作为所述测试样本集合。
可以理解的是,所述目标Excel文件中的表头包括但不限于:样本标识、产品标识、测试问题样本数据、测试问题问句意图标定数据、测试问题是否意图标定数据。
对于S2,将所述产品标识相同的测试样本放入一个子集合,将该子集合作为该产品标识对应的测试样本子集合。也就是说,每个产品标识对应一个测试样本子集合,每个测试样本子集合中的所有测试样本的产品标识都相同。
对于S3,分别将每个所述产品标识对应的测试样本子集合中的每个测试样本依次输入该所述产品标识对应的待测试的问答意图分类模型进行意图预测,得到该所述产品标识对应的测试样本子集合的意图预测结果,将得到的所有意图预测结果作为该测试样本子集合对应的所述产品标识对应的意图预测结果集合。也就是说,每个所述产品标识对应一个意图预测结果集合。通过使测试待测试的问答意图分类模型的测试样本的产品标识与待测试的问答意图分类模型对应的产品标识相同,从而有利于提高测试的准确性。
可以理解的是,每个测试样本对应一个意图预测结果。意图预测结果只有一个值,意图预测结果为:问句意图或者是否意图。
待测试的问答意图分类模型,也就是已经完成训练需要进一步测试的问答意图分类模型。
问答意图分类模型是对文本数据进行问句意图和是否意图进行预测的模型。
对于S4,对同一所述产品标识对应的意图预测结果集合、测试样本子集合的所述测试问题问句意图标定数据和所述测试问题是否意图标定数据进行每个测试样本的意图预测准确判断,得到该所述产品标识对应的意图预测准确结果集合。也就是说,每个产品标识对应一个意图预测准确结果集合。
比如,所述产品标识C1的测试样本子集合中有3个测试样本S1(测试问题问句意图标定数据为空,测试问题是否意图标定数据为是)、S2(测试问题问句意图标定数据为SF2,测试问题是否意图标定数据为空)、S3(测试问题问句意图标定数据为SF2,测试问题是否意图标定数据为空),产品标识C1的意图预测结果集合中测试样本S1对应的意图预测结果为问句意图SF1、测试样本S2对应的意图预测结果为问句意图SF2、测试样本S3对应的意图预测结果为问句意图SF1,则测试样本S1对应的意图预测准确结果为错误(测试问题问句意图标定数据为空,测试问题是否意图标定数据为是,意图预测结果为问句意图SF1,测试问题问句意图标定数据与意图预测结果不相同),测试样本S2对应的意图预测准确结果为正确(测试问题问句意图标定数据为SF2,测试问题是否意图标定数据为空,意图预测结果为问句意图SF2,测试问题问句意图标定数据与意图预测结果相同),测试样本S3对应的意图预测准确结果为错误(测试问题问句意图标定数据为SF2,测试问题是否意图标定数据为空,意图预测结果为问句意图SF1,测试问题问句意图标定数据与意图预测结果不相同),在此举例不做具体限定。
对于S5,根据同一所述产品标识对应的测试样本子集合和意图预测准确结果集合进行各个意图值的统计计算,得到该所述产品标识对应的各个意图值的准确率数据、召回率数据和正样本总数;根据所有所述产品标识各自对应的各个意图值的准确率数据、召回率数据和正样本总数按预设报告生成规则进行报告生成,得到目标问答意图分类模型测试报告。
预设报告生成规则包括但不限于:报告模板。
正样本,是标定数据(也就是测试问题问句意图标定数据和测试问题是否意图标定数据)与待计算的意图值相同的测试样本数量。
比如,计算意图值Y1的准确率数据、召回率数据和正样本总数时,正样本是指标定数据为Y1的测试样本,标定数据不为Y1的测试样本为负样本,在此举例不做具体限定。
准确率,是指有在所有的判断中有多少判断正确的,即把正样本的判断为正的,还有把负样本的判断为负的;总共有TP(正样本被预测为正的数量)+FN(正样本被预测为负的数量)+FP(负样本被预测为正的数量)+TN(负样本被预测为负的数量)个,所以准确率:Acc=(TP+TN)/(TP+TN+FN+FP)。
召回率,是相对于样本而言的,即样本中有多少正样本被预测正确了,这样的有TP个,所有的正样本有两个去向,一个是被判为正的,另一个是错判为负的,因此总共有TP+FN个,所以,召回率R=TP/(TP+FN)。
在一个实施例中,上述分别将每个所述产品标识对应的测试样本子集合输入各自对应的待测试的问答意图分类模型进行意图预测,得到各个所述产品标识各自对应的意图预测结果集合的步骤,包括:
S31:采用待预测的产品标识从各个所述产品标识各自对应的测试样本子集合中提取出测试样本子集合,得到目标测试样本子集合,所述待预测的产品标识是各个所述产品标识中的任一个;
S32:根据所述待预测的产品标识从待测试模型库中查找,得到目标待测试的问答意图分类模型;
S33:分别将所述目标测试样本子集合中每个所述测试样本输入所述目标待测试的问答意图分类模型进行意图预测,得到所述待预测的产品标识对应的所述意图预测结果集合;
S34:重复所述采用待预测的产品标识从各个所述产品标识各自对应的测试样本子集合中提取出测试样本子集合,得到目标测试样本子集合的步骤,直至确定所有所述产品标识对应的所述意图预测结果集合。
本实施例实现了确定各个所述产品标识各自对应的意图预测结果集合,为后续判断待测试的问答意图分类模型的准确率和召回率提供了基础。
对于31,将各个所述产品标识中的任一个产品标识作为待预测的产品标识;将待预测的产品标识在各个所述产品标识各自对应的测试样本子集合中进行查找,将在各个所述产品标识各自对应的测试样本子集合中查找到的产品标识对应的测试样本子集合作为目标测试样本子集合。
对于32,将所述待预测的产品标识从待测试模型库中查找,将在待测试模型库中查找到的产品标识对应的待测试的问答意图分类模型作为目标待测试的问答意图分类模型。
待测试模型库包括:产品标识与模型标识对应表、待测试的问答意图分类模型数据。产品标识与模型标识对应表包括:产品标识、模型标识,每个产品标识对应一个模型标识。
模型标识可以是模型名称、模型ID等唯一标识一个待测试的问答意图分类模型的标识。
对于33,将所述目标测试样本子集合中每个所述测试样本输入所述目标待测试的问答意图分类模型进行意图预测,得到所述待预测的产品标识对应的多个所述意图预测结果;将所述待预测的产品标识对应的所有所述意图预测结果作为所述待预测的产品标识对应的所述意图预测结果集合。也就是说,所述目标待测试的问答意图分类模型每次只对一个测试样本进行意图预测。
对于34,重复执行步骤S31至步骤S34,直至确定所有所述产品标识对应的所述意图预测结果集合。
在一个实施例中,上述分别根据各个所述产品标识各自对应的意图预测结果集合、各个所述产品标识各自对应的测试样本子集合的所述测试问题问句意图标定数据和所述测试问题是否意图标定数据进行每个所述测试样本的意图预测准确判断,得到各个所述产品标识各自对应的意图预测准确结果集合的步骤,包括:
S41:分别对所述测试样本集合中每个所述测试样本的测试问题问句意图标定数据和测试问题是否意图标定数据按意图优先级进行处理,得到意图优先级处理后的测试样本集合;
S42:分别从每个所述产品标识对应的所述意图预测结果集合中依次提取出意图预测结果,得到目标意图预测结果;
S43:当所述目标意图预测结果为是否意图时,根据所述目标意图预测结果从所述意图优先级处理后的测试样本集合中提取所述测试问题是否意图标定数据,得到待判断的测试问题是否意图标定数据,当所述目标意图预测结果和所述待判断的测试问题是否意图标定数据相同时,确定所述目标意图预测结果对应的所述意图预测准确结果为正确,否则确定所述目标意图预测结果对应的所述意图预测准确结果为错误;
S44:当所述目标意图预测结果为问句意图时,根据所述目标意图预测结果从所述意图优先级处理后的测试样本集合提取所述测试问题问句意图标定数据,得到待判断的测试问题问句意图标定数据,当所述目标意图预测结果和所述待判断的测试问题问句意图标定数据相同时,确定所述目标意图预测结果对应的所述意图预测准确结果为正确,否则确定所述目标意图预测结果对应的所述意图预测准确结果为错误;
S45:重复执行所述分别从每个所述产品标识对应的所述意图预测结果集合中依次提取出意图预测结果,得到目标意图预测结果的步骤,直至确定所有所述意图预测结果的所述意图预测准确结果;
S46:根据所有所述意图预测准确结果,确定各个所述产品标识各自对应的意图预测准确结果集合。
本实施例实现了进行每个所述测试样本的意图预测准确判断,为后续判断待测试的问答意图分类模型的准确率和召回率提供了基础;而且对测试样本按意图优先级进行处理,在满足意图优先级的情况下,确保每个测试样本的标定数据具有唯一意图值,从而有利于提高模型测试的准确性,有利于使模型的优化符合意图优先级。
对于41,对同一所述测试样本的测试问题问句意图标定数据和测试问题是否意图标定数据按意图优先级进行处理,处理后得到该所述测试样本对应的意图优先级处理后的测试样本。从而实现在同一所述测试样本的测试问题问句意图标定数据和测试问题是否意图标定数据都存在数据时,按意图优先级确定意图优先级最高的标定数据作为意图优先级处理后的测试样本的标定数据。也就是说,意图优先级处理后的测试样本的标定数据只有一个意图值。
对于42,按预设提取规则从每个所述产品标识对应的所述意图预测结果集合中提取出意图预测结果,将提取得到的意图预测结果作为目标意图预测结果。预设提取规则包括但不限于:按样本标识排列顺序依次提取。
对于43,当所述目标意图预测结果为是否意图时,意味着此时需要与测试问题是否意图标定数据进行对比;根据所述目标意图预测结果对应的测试样本的样本标识在所述意图优先级处理后的测试样本集合中提取意图优先级处理后的测试样本,从提取得到的意图优先级处理后的测试样本中提取出所述测试问题是否意图标定数据,将提取得到的所述测试问题是否意图标定数据作为待判断的测试问题是否意图标定数据;当所述目标意图预测结果和所述待判断的测试问题是否意图标定数据相同时,意味着所述目标意图预测结果为正确,此时确定所述目标意图预测结果对应的所述意图预测准确结果为正确;当所述目标意图预测结果和所述待判断的测试问题是否意图标定数据不相同时,意味着所述目标意图预测结果为错误,此时确定所述目标意图预测结果对应的所述意图预测准确结果为错误。
对于44,当所述目标意图预测结果为问句意图时,意味着此时需要跟测试问题问句意图标定数据进行对比;根据所述目标意图预测结果对应的测试样本的样本标识在所述意图优先级处理后的测试样本集合中提取意图优先级处理后的测试样本,从提取得到的意图优先级处理后的测试样本中提取出所述测试问题问句意图标定数据,将提取得到的所述测试问题问句意图标定数据作为待判断的测试问题问句意图标定数据;当所述目标意图预测结果和所述待判断的测试问题问句意图标定数据相同时,意味着所述目标意图预测结果为正确,此时确定所述目标意图预测结果对应的所述意图预测准确结果为正确;当所述目标意图预测结果和所述待判断的测试问题问句意图标定数据不相同时,意味着所述目标意图预测结果为错误,此时确定所述目标意图预测结果对应的所述意图预测准确结果为错误。
对于45,重复执行步骤S42至步骤S45,直至确定所有所述意图预测结果的所述意图预测准确结果.
对于46,根据所有所述意图预测准确结果,作为各个所述产品标识各自对应的意图预测准确结果集合。
在一个实施例中,上述分别对所述测试样本集合中每个所述测试样本的测试问题问句意图标定数据和测试问题是否意图标定数据按意图优先级进行处理,得到意图优先级处理后的测试样本集合的步骤,包括:
S411:分别对所述测试样本集合中每个所述测试样本的所述测试问题问句意图标定数据和所述测试问题是否意图标定数据进行对比;
S412:当存在所述测试样本的所述测试问题问句意图标定数据和所述测试问题是否意图标定数据都存在标定数据时,对所述测试样本的所述测试问题问句意图标定数据进行删除处理,得到意图优先级处理后的测试样本;
S413:根据所有所述意图优先级处理后的测试样本,确定所述意图优先级处理后的测试样本集合。
本实施例实现了对测试样本按意图优先级进行处理,在满足意图优先级的情况下,确保每个测试样本的标定数据具有唯一意图值,从而有利于提高模型测试的准确性,有利于使模型的优化符合意图优先级。
对于411,每次将同一个所述测试样本的所述测试问题问句意图标定数据和所述测试问题是否意图标定数据进行对比。
对于412,当存在所述测试样本的所述测试问题问句意图标定数据和所述测试问题是否意图标定数据都存在标定数据时,意味着该所述测试样本存在两个标定数据,因意图优先级为是否意图比OA意图高,此时对所述测试样本的所述测试问题问句意图标定数据进行删除处理以用于保留意图优先级高的是否意图对应的所述测试问题是否意图标定数据,将删除处理后只有一个标定数据的测试样本作为意图优先级处理后的测试样本。
对于413,将所有所述意图优先级处理后的测试样本,作为所述意图优先级处理后的测试样本集合。
在一个实施例中,上述根据各个所述产品标识各自对应的测试样本子集合和意图预测准确结果集合进行报告生成,得到目标问答意图分类模型测试报告的步骤,包括:
S51:采用目标产品标识从各个所述产品标识各自对应的测试样本子集合和意图预测准确结果集合中提取数据,得到待计算的测试样本子集合和待计算的意图预测准确结果集合,所述目标产品标识是各个所述产品标识中的任一个;
S52:根据所述待计算的测试样本子集合和所述待计算的意图预测准确结果集合进行各个意图值的准确率计算和召回率计算,得到所述目标产品标识对应的各个所述意图值的所述准确率数据、所述召回率数据和所述正样本总数;
S53:重复执行所述采用目标产品标识从各个所述产品标识各自对应的测试样本子集合和意图预测准确结果集合中提取数据,得到待计算的测试样本子集合和待计算的意图预测准确结果集合,所述目标产品标识是各个所述产品标识中的任一个的步骤,直至确定所有所述产品标识对应的各个所述意图值的所述准确率数据、所述召回率数据和所述正样本总数;
S54:根据各个所述产品标识各自对应的各个所述意图值的所述准确率数据、所述召回率数据和所述正样本总数进行报告生成,得到所述目标问答意图分类模型测试报告。
本实施例自动根据各个所述产品标识各自对应的测试样本子集合和意图预测准确结果集合进行报告生成,避免了人工进行模型测试,避免人工计算耗时长且不准确的问题,提高了问答意图分类模型的准确性。
对于51,从各个所述产品标识中提取出任一个产品标识作为目标产品标识;将目标产品标识在各个所述产品标识各自对应的测试样本子集合中进行查找,将在各个所述产品标识各自对应的测试样本子集合查找到的产品标识对应的测试样本子集合作为待计算的测试样本子集合;将目标产品标识在各个所述产品标识各自对应的意图预测准确结果集合中进行查找,将在各个所述产品标识各自对应的意图预测准确结果集合查找到的产品标识对应的意图预测准确结果集合作为待计算的意图预测准确结果集合。
对于52,根据所述待计算的测试样本子集合和所述待计算的意图预测准确结果集合进行意图值提取,得到目标意图值集合,其中,在目标意图值集合中每个意图值具有唯一性。
依次从目标意图值集合中提取出意图值,得到待计算的意图值;根据所述待计算的测试样本子集合和所述待计算的意图预测准确结果集合进行所述待计算的意图值的准确率计算和召回率计算,得到所述目标产品标识对应的所述待计算的意图值的所述准确率数据、所述待计算的意图值的召回率数据和所述待计算的意图值的所述正样本总数;重复所述依次从目标意图值集合中提取出意图值,得到待计算的意图值的步骤,直至确定所述目标产品标识对应的所有所述意图值的所述准确率数据、所述召回率数据和所述正样本总数。
对于53,重复执行S51至步骤S53,直至确定所有所述产品标识对应的各个所述意图值的所述准确率数据、所述召回率数据和所述正样本总数。
对于54,根据各个所述产品标识各自对应的各个所述意图值的所述准确率数据、所述召回率数据和所述正样本总数按预设报告生成规则进行报告生成,将生成的报告作为所述目标问答意图分类模型测试报告。
在一个实施例中,上述根据所述待计算的测试样本子集合和所述待计算的意图预测准确结果集合进行各个意图值的准确率计算和召回率计算,得到所述目标产品标识对应的各个所述意图值的所述准确率数据、所述召回率数据和所述正样本总数的步骤,包括:
S521:根据所述待计算的测试样本子集合进行所述测试样本的总数计算,得到所述目标产品标识对应的测试样本总数;
S522:根据所述待计算的测试样本子集合和所述待计算的意图预测准确结果集合进行各个所述意图值的正样本正确预测数的计算,得到所述目标产品标识对应的各个所述意图值的正样本正确预测数;
S523:根据所述待计算的测试样本子集合和所述待计算的意图预测准确结果集合进行各个所述意图值的负样本正确预测数的计算,得到所述目标产品标识对应的各个所述意图值的负样本正确预测数;
S524:根据所述目标产品标识对应的测试样本总数、各个所述意图值的正样本正确预测数和各个所述意图值的负样本正确预测数进行准确率计算,得到所述目标产品标识对应的各个所述意图值的所述准确率数据;
S525:根据所述待计算的测试样本子集合进行各个所述意图值各自的所述测试样本的总数计算,得到所述目标产品标识对应的各个所述意图值的所述正样本总数;
S526:根据所述目标产品标识对应的各个所述意图值的所述正样本总数、各个所述意图值的正样本正确预测数进行召回率计算,得到所述目标产品标识对应的各个所述意图值的所述召回率数据。
本实施例实现了自动化根据所述待计算的测试样本子集合和所述待计算的意图预测准确结果集合进行各个意图值的准确率计算和召回率计算,为后续生成报告提供了基础。
对于521,对所述待计算的测试样本子集合中的所述测试样本的进行总数计算,得到所述目标产品标识对应的测试样本总数。
对于522,根据所述待计算的测试样本子集合和所述待计算的意图预测准确结果集合中提取出意图值,得到待去重的意图值集合;对待去重的意图值集合进行去重处理,得到目标意图值集合;从目标意图值集合中提取出意图值,得到待计算的意图值;根据所述待计算的测试样本子集合和所述待计算的意图预测准确结果集合进行待计算的意图值的正样本正确预测数的计算,得到所述目标产品标识对应的待计算的意图值的正样本正确预测数;重复执行从目标意图值集合中提取出意图值,得到待计算的意图值的步骤,直至确定所述目标产品标识对应的各个所述意图值的正样本正确预测数。
正样本正确预测数,是指标定数据是待计算的意图值,意图预测结果也是待计算的意图值。
对于523,从目标意图值集合中提取出意图值,得到待计算的意图值;从目标意图值集合中提取出意图值,得到待计算的意图值;根据所述待计算的测试样本子集合和所述待计算的意图预测准确结果集合进行待计算的意图值的负样本正确预测数的计算,得到所述目标产品标识对应的待计算的意图值的负样本正确预测数;重复执行从目标意图值集合中提取出意图值,得到待计算的意图值的步骤,直至确定所述目标产品标识对应的各个所述意图值的负样本正确预测数。
负样本正确预测数,是指标定数据不是待计算的意图值,意图预测结果也不是待计算的意图值。
对于524,从目标意图值集合中提取出意图值,得到待计算的意图值;将所述目标产品标识对应的待计算的意图值的正样本正确预测数和负样本正确预测数进行相加,得到所述目标产品标识对应的待计算的意图值的正确预测总数;将所述目标产品标识对应的待计算的意图值的正确预测总数除以所述目标产品标识对应的测试样本总数,得到所述目标产品标识对应的待计算的意图值的所述准确率数据;重复执行从目标意图值集合中提取出意图值,得到待计算的意图值的步骤,直至确定所述目标产品标识对应的各个所述意图值的所述准确率数据。
对于525,从目标意图值集合中提取出意图值,得到待计算的意图值;对所述待计算的测试样本子集合进行待计算的意图值对应的所述测试样本的总数计算,得到所述目标产品标识对应的待计算的意图值的所述正样本总数,重复执行所述从目标意图值集合中提取出意图值,得到待计算的意图值的步骤,直至确定所述目标产品标识对应的各个所述意图值的所述正样本总数。
对于526,从目标意图值集合中提取出意图值,得到待计算的意图值;根据所述目标产品标识对应的待计算的意图值的正样本正确预测数除以所述目标产品标识对应的待计算的意图值的所述正样本总数,得到所述目标产品标识对应的待计算的意图值的所述召回率数据;重复执行所述从目标意图值集合中提取出意图值,得到待计算的意图值的步骤,直至确定所述目标产品标识对应的各个所述意图值的所述召回率数据。
在一个实施例中,上述根据各个所述产品标识各自对应的各个所述意图值的所述准确率数据、所述召回率数据和所述正样本总数进行报告生成,得到所述目标问答意图分类模型测试报告的步骤,包括:
S61:根据各个所述产品标识各自对应的各个所述意图值的所述准确率数据、所述召回率数据和所述正样本总数进行Excel文档生成,得到所述目标问答意图分类模型测试报告;
S62:获取报告下载请求,所述报告下载请求携带有下载方式数据;
S63:根据所述下载方式数据发送所述目标问答意图分类模型测试报告。
本实施例实现了生成Excel文档格式的所述目标问答意图分类模型测试报告,从而有利于数据的二次处理,满足了用户个性化的需求。
对于61,根据各个所述产品标识各自对应的各个所述意图值的所述准确率数据、所述召回率数据和所述正样本总数按预设图表规则进行Excel文档生成,得到所述目标问答意图分类模型测试报告;
对于62,获取用户发送的报告下载请求。
报告下载请求,是将所述目标问答意图分类模型测试报告进行下载的请求。
下载方式数据包括但不限于:发送到预设邮箱、按预设传输方式发送给第三方软件系统、按预设路径存在在本地文件夹。
对于63,当下载方式数据为发送到预设邮箱时,将所述目标问答意图分类模型测试报告发送到预设邮箱;当下载方式数据为按预设传输方式发送给第三方软件系统时,将所述目标问答意图分类模型测试报告按预设传输方式发送给第三方软件系统;当下载方式数据为按预设路径存储在本地文件夹时,将所述目标问答意图分类模型测试报告存储在预设路径对应的本地文件夹。
参照图2,本申请还提出了一种问答意图分类模型的测试装置,所述装置包括:
测试样本获取模块100,用于获取测试样本集合,所述测试样本集合包括多个测试样本,所述测试样本包括:产品标识、测试问题样本数据、测试问题问句意图标定数据和测试问题是否意图标定数据;
测试样本划分模块200,用于采用所述产品标识对所述多个测试样本进行划分,得到各个所述产品标识各自对应的测试样本子集合;
意图预测模块300,用于分别将每个所述产品标识对应的测试样本子集合输入各自对应的待测试的问答意图分类模型进行意图预测,得到各个所述产品标识各自对应的意图预测结果集合;
意图预测准确判断模块400,用于分别根据各个所述产品标识各自对应的意图预测结果集合、各个所述产品标识各自对应的测试样本子集合的所述测试问题问句意图标定数据和所述测试问题是否意图标定数据进行每个所述测试样本的意图预测准确判断,得到各个所述产品标识各自对应的意图预测准确结果集合;
报告生成模块500,用于根据各个所述产品标识各自对应的测试样本子集合和意图预测准确结果集合进行报告生成,得到目标问答意图分类模型测试报告,所述目标问答意图分类模型测试报告包括:各个所述产品标识各自对应的各个意图值的准确率数据、召回率数据和正样本总数。
本实施例通过获取测试样本集合,测试样本集合包括多个测试样本,测试样本包括:产品标识、测试问题样本数据、测试问题问句意图标定数据和测试问题是否意图标定数据;采用产品标识对多个测试样本进行划分,得到各个产品标识各自对应的测试样本子集合;分别将每个产品标识对应的测试样本子集合输入各自对应的待测试的问答意图分类模型进行意图预测,得到各个产品标识各自对应的意图预测结果集合;分别根据各个产品标识各自对应的意图预测结果集合、各个产品标识各自对应的测试样本子集合的测试问题问句意图标定数据和测试问题是否意图标定数据进行每个测试样本的意图预测准确判断,得到各个产品标识各自对应的意图预测准确结果集合;根据各个产品标识各自对应的测试样本子集合和意图预测准确结果集合进行报告生成,得到目标问答意图分类模型测试报告,目标问答意图分类模型测试报告包括:各个产品标识各自对应的各个意图值的准确率数据、召回率数据和正样本总数,从而实现了采用测试样本集合对待测试的问答意图分类模型进行测试并自动生成目标问答意图分类模型测试报告,避免了人工进行模型测试,避免人工计算耗时长且不准确的问题,提高了问答意图分类模型的准确性。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存问答意图分类模型的测试方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种问答意图分类模型的测试方法。所述问答意图分类模型的测试方法,包括:获取测试样本集合,所述测试样本集合包括多个测试样本,所述测试样本包括:产品标识、测试问题样本数据、测试问题问句意图标定数据和测试问题是否意图标定数据;采用所述产品标识对所述多个测试样本进行划分,得到各个所述产品标识各自对应的测试样本子集合;分别将每个所述产品标识对应的测试样本子集合输入各自对应的待测试的问答意图分类模型进行意图预测,得到各个所述产品标识各自对应的意图预测结果集合;分别根据各个所述产品标识各自对应的意图预测结果集合、各个所述产品标识各自对应的测试样本子集合的所述测试问题问句意图标定数据和所述测试问题是否意图标定数据进行每个所述测试样本的意图预测准确判断,得到各个所述产品标识各自对应的意图预测准确结果集合;根据各个所述产品标识各自对应的测试样本子集合和意图预测准确结果集合进行报告生成,得到目标问答意图分类模型测试报告,所述目标问答意图分类模型测试报告包括:各个所述产品标识各自对应的各个意图值的准确率数据、召回率数据和正样本总数。
本实施例通过获取测试样本集合,测试样本集合包括多个测试样本,测试样本包括:产品标识、测试问题样本数据、测试问题问句意图标定数据和测试问题是否意图标定数据;采用产品标识对多个测试样本进行划分,得到各个产品标识各自对应的测试样本子集合;分别将每个产品标识对应的测试样本子集合输入各自对应的待测试的问答意图分类模型进行意图预测,得到各个产品标识各自对应的意图预测结果集合;分别根据各个产品标识各自对应的意图预测结果集合、各个产品标识各自对应的测试样本子集合的测试问题问句意图标定数据和测试问题是否意图标定数据进行每个测试样本的意图预测准确判断,得到各个产品标识各自对应的意图预测准确结果集合;根据各个产品标识各自对应的测试样本子集合和意图预测准确结果集合进行报告生成,得到目标问答意图分类模型测试报告,目标问答意图分类模型测试报告包括:各个产品标识各自对应的各个意图值的准确率数据、召回率数据和正样本总数,从而实现了采用测试样本集合对待测试的问答意图分类模型进行测试并自动生成目标问答意图分类模型测试报告,避免了人工进行模型测试,避免人工计算耗时长且不准确的问题,提高了问答意图分类模型的准确性。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种问答意图分类模型的测试方法,包括步骤:获取测试样本集合,所述测试样本集合包括多个测试样本,所述测试样本包括:产品标识、测试问题样本数据、测试问题问句意图标定数据和测试问题是否意图标定数据;采用所述产品标识对所述多个测试样本进行划分,得到各个所述产品标识各自对应的测试样本子集合;分别将每个所述产品标识对应的测试样本子集合输入各自对应的待测试的问答意图分类模型进行意图预测,得到各个所述产品标识各自对应的意图预测结果集合;分别根据各个所述产品标识各自对应的意图预测结果集合、各个所述产品标识各自对应的测试样本子集合的所述测试问题问句意图标定数据和所述测试问题是否意图标定数据进行每个所述测试样本的意图预测准确判断,得到各个所述产品标识各自对应的意图预测准确结果集合;根据各个所述产品标识各自对应的测试样本子集合和意图预测准确结果集合进行报告生成,得到目标问答意图分类模型测试报告,所述目标问答意图分类模型测试报告包括:各个所述产品标识各自对应的各个意图值的准确率数据、召回率数据和正样本总数。
上述执行的问答意图分类模型的测试方法,通过获取测试样本集合,测试样本集合包括多个测试样本,测试样本包括:产品标识、测试问题样本数据、测试问题问句意图标定数据和测试问题是否意图标定数据;采用产品标识对多个测试样本进行划分,得到各个产品标识各自对应的测试样本子集合;分别将每个产品标识对应的测试样本子集合输入各自对应的待测试的问答意图分类模型进行意图预测,得到各个产品标识各自对应的意图预测结果集合;分别根据各个产品标识各自对应的意图预测结果集合、各个产品标识各自对应的测试样本子集合的测试问题问句意图标定数据和测试问题是否意图标定数据进行每个测试样本的意图预测准确判断,得到各个产品标识各自对应的意图预测准确结果集合;根据各个产品标识各自对应的测试样本子集合和意图预测准确结果集合进行报告生成,得到目标问答意图分类模型测试报告,目标问答意图分类模型测试报告包括:各个产品标识各自对应的各个意图值的准确率数据、召回率数据和正样本总数,从而实现了采用测试样本集合对待测试的问答意图分类模型进行测试并自动生成目标问答意图分类模型测试报告,避免了人工进行模型测试,避免人工计算耗时长且不准确的问题,提高了问答意图分类模型的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种问答意图分类模型的测试方法,其特征在于,所述方法包括:
获取测试样本集合,所述测试样本集合包括多个测试样本,所述测试样本包括:产品标识、测试问题样本数据、测试问题问句意图标定数据和测试问题是否意图标定数据,所述测试问题样本数据是指用户提出的问题的文本数据,所述测试问题问句意图标定数据是指测试问题样本数据对应的问句意图的标定数据,所述测试问题是否意图标定数据是指测试问题样本数据对应的是否意图的标定数据,所述是否意图包括两个意图值,两个所述意图值为是和否;
采用所述产品标识对所述多个测试样本进行划分,得到各个所述产品标识各自对应的测试样本子集合;
分别将每个所述产品标识对应的测试样本子集合输入各自对应的待测试的问答意图分类模型进行意图预测,得到各个所述产品标识各自对应的意图预测结果集合;
分别根据各个所述产品标识各自对应的意图预测结果集合、各个所述产品标识各自对应的测试样本子集合的所述测试问题问句意图标定数据和所述测试问题是否意图标定数据进行每个所述测试样本的意图预测准确判断,得到各个所述产品标识各自对应的意图预测准确结果集合;
根据各个所述产品标识各自对应的测试样本子集合和意图预测准确结果集合进行报告生成,得到目标问答意图分类模型测试报告,所述目标问答意图分类模型测试报告包括:各个所述产品标识各自对应的各个意图值的准确率数据、召回率数据和正样本总数。
2.根据权利要求1所述的问答意图分类模型的测试方法,其特征在于,所述分别将每个所述产品标识对应的测试样本子集合输入各自对应的待测试的问答意图分类模型进行意图预测,得到各个所述产品标识各自对应的意图预测结果集合的步骤,包括:
采用待预测的产品标识从各个所述产品标识各自对应的测试样本子集合中提取出测试样本子集合,得到目标测试样本子集合,所述待预测的产品标识是各个所述产品标识中的任一个;
根据所述待预测的产品标识从待测试模型库中查找,得到目标待测试的问答意图分类模型;
分别将所述目标测试样本子集合中每个所述测试样本输入所述目标待测试的问答意图分类模型进行意图预测,得到所述待预测的产品标识对应的所述意图预测结果集合;
重复所述采用待预测的产品标识从各个所述产品标识各自对应的测试样本子集合中提取出测试样本子集合,得到目标测试样本子集合的步骤,直至确定所有所述产品标识对应的所述意图预测结果集合。
3.根据权利要求1所述的问答意图分类模型的测试方法,其特征在于,所述分别根据各个所述产品标识各自对应的意图预测结果集合、各个所述产品标识各自对应的测试样本子集合的所述测试问题问句意图标定数据和所述测试问题是否意图标定数据进行每个所述测试样本的意图预测准确判断,得到各个所述产品标识各自对应的意图预测准确结果集合的步骤,包括:
分别对所述测试样本集合中每个所述测试样本的测试问题问句意图标定数据和测试问题是否意图标定数据按意图优先级进行处理,得到意图优先级处理后的测试样本集合;
分别从每个所述产品标识对应的所述意图预测结果集合中依次提取出意图预测结果,得到目标意图预测结果;
当所述目标意图预测结果为是否意图时,根据所述目标意图预测结果从所述意图优先级处理后的测试样本集合中提取所述测试问题是否意图标定数据,得到待判断的测试问题是否意图标定数据,当所述目标意图预测结果和所述待判断的测试问题是否意图标定数据相同时,确定所述目标意图预测结果对应的所述意图预测准确结果为正确,否则确定所述目标意图预测结果对应的所述意图预测准确结果为错误;
当所述目标意图预测结果为问句意图时,根据所述目标意图预测结果从所述意图优先级处理后的测试样本集合提取所述测试问题问句意图标定数据,得到待判断的测试问题问句意图标定数据,当所述目标意图预测结果和所述待判断的测试问题问句意图标定数据相同时,确定所述目标意图预测结果对应的所述意图预测准确结果为正确,否则确定所述目标意图预测结果对应的所述意图预测准确结果为错误;
重复执行所述分别从每个所述产品标识对应的所述意图预测结果集合中依次提取出意图预测结果,得到目标意图预测结果的步骤,直至确定所有所述意图预测结果的所述意图预测准确结果;
根据所有所述意图预测准确结果,确定各个所述产品标识各自对应的意图预测准确结果集合。
4.根据权利要求3所述的问答意图分类模型的测试方法,其特征在于,所述分别对所述测试样本集合中每个所述测试样本的测试问题问句意图标定数据和测试问题是否意图标定数据按意图优先级进行处理,得到意图优先级处理后的测试样本集合的步骤,包括:
分别对所述测试样本集合中每个所述测试样本的所述测试问题问句意图标定数据和所述测试问题是否意图标定数据进行对比;
当存在所述测试样本的所述测试问题问句意图标定数据和所述测试问题是否意图标定数据都存在标定数据时,对所述测试样本的所述测试问题问句意图标定数据进行删除处理,得到意图优先级处理后的测试样本;
根据所有所述意图优先级处理后的测试样本,确定所述意图优先级处理后的测试样本集合。
5.根据权利要求1所述的问答意图分类模型的测试方法,其特征在于,所述根据各个所述产品标识各自对应的测试样本子集合和意图预测准确结果集合进行报告生成,得到目标问答意图分类模型测试报告的步骤,包括:
采用目标产品标识从各个所述产品标识各自对应的测试样本子集合和意图预测准确结果集合中提取数据,得到待计算的测试样本子集合和待计算的意图预测准确结果集合,所述目标产品标识是各个所述产品标识中的任一个;
根据所述待计算的测试样本子集合和所述待计算的意图预测准确结果集合进行各个意图值的准确率计算和召回率计算,得到所述目标产品标识对应的各个所述意图值的所述准确率数据、所述召回率数据和所述正样本总数;
重复执行所述采用目标产品标识从各个所述产品标识各自对应的测试样本子集合和意图预测准确结果集合中提取数据,得到待计算的测试样本子集合和待计算的意图预测准确结果集合,所述目标产品标识是各个所述产品标识中的任一个的步骤,直至确定所有所述产品标识对应的各个所述意图值的所述准确率数据、所述召回率数据和所述正样本总数;
根据各个所述产品标识各自对应的各个所述意图值的所述准确率数据、所述召回率数据和所述正样本总数进行报告生成,得到所述目标问答意图分类模型测试报告。
6.根据权利要求5所述的问答意图分类模型的测试方法,其特征在于,所述根据所述待计算的测试样本子集合和所述待计算的意图预测准确结果集合进行各个意图值的准确率计算和召回率计算,得到所述目标产品标识对应的各个所述意图值的所述准确率数据、所述召回率数据和所述正样本总数的步骤,包括:
根据所述待计算的测试样本子集合进行所述测试样本的总数计算,得到所述目标产品标识对应的测试样本总数;
根据所述待计算的测试样本子集合和所述待计算的意图预测准确结果集合进行各个所述意图值的正样本正确预测数的计算,得到所述目标产品标识对应的各个所述意图值的正样本正确预测数;
根据所述待计算的测试样本子集合和所述待计算的意图预测准确结果集合进行各个所述意图值的负样本正确预测数的计算,得到所述目标产品标识对应的各个所述意图值的负样本正确预测数;
根据所述目标产品标识对应的测试样本总数、各个所述意图值的正样本正确预测数和各个所述意图值的负样本正确预测数进行准确率计算,得到所述目标产品标识对应的各个所述意图值的所述准确率数据;
根据所述待计算的测试样本子集合进行各个所述意图值各自的所述测试样本的总数计算,得到所述目标产品标识对应的各个所述意图值的所述正样本总数;
根据所述目标产品标识对应的各个所述意图值的所述正样本总数、各个所述意图值的正样本正确预测数进行召回率计算,得到所述目标产品标识对应的各个所述意图值的所述召回率数据。
7.根据权利要求5所述的问答意图分类模型的测试方法,其特征在于,所述根据各个所述产品标识各自对应的各个所述意图值的所述准确率数据、所述召回率数据和所述正样本总数进行报告生成,得到所述目标问答意图分类模型测试报告的步骤,包括:
根据各个所述产品标识各自对应的各个所述意图值的所述准确率数据、所述召回率数据和所述正样本总数进行Excel文档生成,得到所述目标问答意图分类模型测试报告;
获取报告下载请求,所述报告下载请求携带有下载方式数据;
根据所述下载方式数据发送所述目标问答意图分类模型测试报告。
8.一种问答意图分类模型的测试装置,其特征在于,所述装置包括:
测试样本获取模块,用于获取测试样本集合,所述测试样本集合包括多个测试样本,所述测试样本包括:产品标识、测试问题样本数据、测试问题问句意图标定数据和测试问题是否意图标定数据,所述测试问题样本数据是指用户提出的问题的文本数据,所述测试问题问句意图标定数据是指测试问题样本数据对应的问句意图的标定数据,所述测试问题是否意图标定数据是指测试问题样本数据对应的是否意图的标定数据,所述是否意图包括两个意图值,两个所述意图值为是和否;
测试样本划分模块,用于采用所述产品标识对所述多个测试样本进行划分,得到各个所述产品标识各自对应的测试样本子集合;
意图预测模块,用于分别将每个所述产品标识对应的测试样本子集合输入各自对应的待测试的问答意图分类模型进行意图预测,得到各个所述产品标识各自对应的意图预测结果集合;
意图预测准确判断模块,用于分别根据各个所述产品标识各自对应的意图预测结果集合、各个所述产品标识各自对应的测试样本子集合的所述测试问题问句意图标定数据和所述测试问题是否意图标定数据进行每个所述测试样本的意图预测准确判断,得到各个所述产品标识各自对应的意图预测准确结果集合;
报告生成模块,用于根据各个所述产品标识各自对应的测试样本子集合和意图预测准确结果集合进行报告生成,得到目标问答意图分类模型测试报告,所述目标问答意图分类模型测试报告包括:各个所述产品标识各自对应的各个意图值的准确率数据、召回率数据和正样本总数。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202011479835.1A 2020-12-15 2020-12-15 问答意图分类模型的测试方法、装置、设备及介质 Active CN112541739B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011479835.1A CN112541739B (zh) 2020-12-15 2020-12-15 问答意图分类模型的测试方法、装置、设备及介质
PCT/CN2021/091718 WO2022126987A1 (zh) 2020-12-15 2021-04-30 问答意图分类模型的测试方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011479835.1A CN112541739B (zh) 2020-12-15 2020-12-15 问答意图分类模型的测试方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN112541739A CN112541739A (zh) 2021-03-23
CN112541739B true CN112541739B (zh) 2022-04-15

Family

ID=75018809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011479835.1A Active CN112541739B (zh) 2020-12-15 2020-12-15 问答意图分类模型的测试方法、装置、设备及介质

Country Status (2)

Country Link
CN (1) CN112541739B (zh)
WO (1) WO2022126987A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541739B (zh) * 2020-12-15 2022-04-15 平安科技(深圳)有限公司 问答意图分类模型的测试方法、装置、设备及介质
CN115329063B (zh) * 2022-10-18 2023-01-24 江西电信信息产业有限公司 一种用户的意图识别方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7272575B2 (en) * 2001-07-13 2007-09-18 Lilly Mae Vega Method and system for facilitating service transactions
US20150004588A1 (en) * 2013-06-28 2015-01-01 William Marsh Rice University Test Size Reduction via Sparse Factor Analysis
CN108446286B (zh) * 2017-02-16 2023-04-25 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN110728313B (zh) * 2019-09-29 2023-01-17 北京声智科技有限公司 一种用于意图分类识别的分类模型训练方法及装置
CN111680517B (zh) * 2020-06-10 2023-05-16 北京百度网讯科技有限公司 用于训练模型的方法、装置、设备以及存储介质
CN112541739B (zh) * 2020-12-15 2022-04-15 平安科技(深圳)有限公司 问答意图分类模型的测试方法、装置、设备及介质

Also Published As

Publication number Publication date
CN112541739A (zh) 2021-03-23
WO2022126987A1 (zh) 2022-06-23

Similar Documents

Publication Publication Date Title
CN111079429B (zh) 基于意图识别模型的实体消歧方法、装置和计算机设备
CN111563051B (zh) 基于爬虫的数据核验方法、装置、计算机设备及存储介质
CN109783785B (zh) 生成实验检测报告的方法、装置和计算机设备
CN112541739B (zh) 问答意图分类模型的测试方法、装置、设备及介质
CN109473093B (zh) 语音识别方法、装置、计算机设备及存储介质
CN111090788B (zh) json文件的比对方法、装置、存储介质及计算机设备
CN108874661B (zh) 测试映射关系库生成方法、装置、计算机设备和存储介质
CN111666399A (zh) 基于知识图谱的智能问答方法、装置和计算机设备
CN114595158A (zh) 基于人工智能的测试用例生成方法、装置、设备及介质
CN110321284B (zh) 测试数据录入方法、装置、计算机设备和存储介质
CN112286934A (zh) 数据库表导入方法、装置、设备及介质
CN109325042B (zh) 处理模版获取方法、表格处理方法、装置、设备及介质
CN114610635A (zh) 接口测试用例生成方法、装置、计算机设备及存储介质
CN108399125B (zh) 自动化测试方法、装置、计算机设备和存储介质
CN110362478B (zh) 应用升级测试方法、装置、计算机设备和存储介质
CN114626524A (zh) 目标业务网络确定方法、业务处理方法及装置
CN113609023A (zh) 精准测试方法、装置、设备及存储介质
CN111552810B (zh) 实体抽取与分类方法、装置、计算机设备和存储介质
CN111382250A (zh) 问句文本的匹配方法、装置、计算机设备和存储介质
CN113312258A (zh) 一种接口测试方法、装置、设备及存储介质
CN113010671A (zh) 一种app分类系统
CN108986786B (zh) 语音交互设备评级方法、系统、计算机设备和存储介质
CN115345166A (zh) 医疗文本的疾病诊断名识别方法、装置、设备及存储介质
CN116186658A (zh) 一种用户身份验证的数据处理系统
CN113505078A (zh) 配置文件更新方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant