CN111177307A - 一种基于语义理解相似度阀值配置的测试方案及系统 - Google Patents

一种基于语义理解相似度阀值配置的测试方案及系统 Download PDF

Info

Publication number
CN111177307A
CN111177307A CN201911159764.4A CN201911159764A CN111177307A CN 111177307 A CN111177307 A CN 111177307A CN 201911159764 A CN201911159764 A CN 201911159764A CN 111177307 A CN111177307 A CN 111177307A
Authority
CN
China
Prior art keywords
answer
data
threshold
similarity
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911159764.4A
Other languages
English (en)
Inventor
刘芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN201911159764.4A priority Critical patent/CN111177307A/zh
Publication of CN111177307A publication Critical patent/CN111177307A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于语义理解相似度阀值配置的测试方案及系统,涉及一种语义模型阈值配置方案,为了解决在固定的阀值设置下可能会导致机器人有些回答不够准确的技术问题,其中测试方案的步骤如下:读取预配置的话术场景数据和词库数据,得到用户输入数据;轮循并将所述用户输入数据输入虚拟对话模块,得到对应的输出回答;将所述输出回答与预配置的期望回答依次对比计算得到语义相似度,并设定当所述输出回答与期望回答一致时的语义相似度为1,当所述输出回答与期望回答不一致时的语义相似度小于1;将语义相似度小于1的语义相似度范围收敛得到替换阈值;在阈值配置模块中,将语义模型算法的设定阈值替换为所述替换阈值。

Description

一种基于语义理解相似度阀值配置的测试方案及系统
技术领域
本发明涉及一种语义模型阈值配置方案,特别是涉及一种基于语义理解相似度阀值配置的测试方案及系统。
背景技术
虚拟对话机器人平台主要为业务提供入口针对不同应用配置不同的场景话术和词库,配置完成后调用方可以通过调用对话机器人进行智能问答。智能问答的过程是业务将应用的话术和词库配置好后,机器人在接收到用户输入后,会将用户输入进行语义理解,理解之后的会将用户输入和现有话术场景进行匹配,匹配到话术后返回该匹配的话术回答和匹配的阀值。该阀值是根据语义模型算法计算后的结果。一般来说,阀值是由研发来定义一个标准,比如大于0.5相似度机器人会即刻返回回答,而小于0.5机器人会进一步进行匹配直到匹配到大于0.5阀值的回答。但是由于每个业务实际配置的场景话术和词库都不尽相同,需要符合该类业务场景下的话术和词库,而在固定的阀值设置下可能会导致机器人有些回答不够准确。
发明内容
本发明主要解决在固定的阀值设置下可能会导致机器人有些回答不够准确的技术问题。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于语义理解相似度阀值配置的测试方案,步骤如下:
读取预配置的话术场景数据和词库数据,得到用户输入数据;
轮循并将所述用户输入数据输入虚拟对话模块,得到对应的输出回答;
将所述输出回答与预配置的期望回答依次对比计算得到语义相似度,并设定当所述输出回答与期望回答一致时的语义相似度为1,当所述输出回答与期望回答不一致时的语义相似度小于1;
将语义相似度小于1的语义相似度范围收敛得到替换阈值;
在阈值配置模块中,将语义模型算法的设定阈值替换为所述替换阈值。
其中,所述用户输入数据包括:
对词库数据进行拆分得到的数据;
基于话术场景下输入的数据;以及,
将用户实时输入的非完整语句进行拼接完整后得到的数据。
其中,还包括,将语义相似度小于1的输出回答记为失败答复数据,所述失败答复数据与所述输出回答之比为失败答复率;
统计所述失败答复数据中的错误答复数据,将所述错误答复数据与所述输出回答之比记为错误答复率,同时将错误答复数据所对应的语义相似度范围记为错误答复相似度范围。
其中,还包括,统计所述失败答复数据中的兜底答复数据,将所述兜底答复数据与所述输出回答之比记为兜底答复率。
其中,得到替换阈值的步骤为:
采用二分法在所述错误答复相似度范围内提取中间阈值,所述中间阈值与错误答复相似度范围上限或下限之差的绝对值为调整值;
在中间阈值与所述错误答复相似度范围的上限范围内提取新的中间阈值;并循环取得新的中间阈值,直至调整值等于或逼近预设调整值门限;
将多个中间阈值分别配置为阈值配置模块中语义模型算法的设定阈值,并轮循用户输入数据作为虚拟对话模块的输入,分别得到基于多个中间阈值的输出回答;
在多个中间阈值中选择其中一个中间阈值作为替换阈值。
其中,所述语义相似度是通过文本聚类分析算法、LDA分析算法或DSSM算法中的一种或多种得到的。
其中,还包括,根据所述输出回答和上下文算法自动插入补充词,所述补充词包括代词和礼貌短语。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于语义理解相似度阀值配置的测试系统,包括,
数据库模块,用于储存话术场景数据、词库数据和期望回答;
虚拟对话模块,用于基于设定阈值将输入的用户输入数据对应得到输出回答;
相似度计算模块,用于计算输出回答与期望回答的语义相似度;
阈值收敛模块,用于根据预设算法将错误答复相似度范围收敛得到替换阈值;
阈值配置模块,用于存储并将替换阈值配置为设定阈值。
数据拆分模块,用于对词库数据进行拆分;
统计模块,用于计算失败答复率、错误答复率和兜底答复率。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种计算机设备,包括,一个或多个处理器;
存储器,用于存储一个或多个程序,使得一个或多个处理器实现上述任意一项所述的测试方案。
为解决上述技术问题,本发明采用的一个技术方案是:一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的测试方案。
以上方案中的一种基于语义理解相似度阀值配置的测试方案,在运营或业务配置好应用的话术和词库后,可以针对该话术和词库进行虚拟对话模块的智能问答,模拟用户针对这类特定的话术和词库进行问答测试,给出相应的测试结果。可以给业务和运营提供指导建议,设置一个更合适的阀值。可以解决业务和运营在配置时对虚拟对话模块能给出多大回答正确率提供有效的参考。同时,可以基于每个应用实现自定义阀值,每个应用根据测试的回答情况设置自己的阀值,可以提高虚拟对话模块回答的正确率和精准度,使得虚拟对话模块的回答更智能化。
附图说明
为了更清楚地说明本发明的方案,下面将对实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一种基于语义理解相似度阀值配置的测试方案一实施例的流程图;
图2为图1中得到替换阈值的流程图;
图3为本发明一实施例中一种基于语义理解相似度阀值配置的测试系统的基本框图;
图4为本发明一实施例中的计算机设备基本结构框图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面结合附图和实施方式对本发明进行详细说明。
请参阅图1,图1为一种基于语义理解相似度阀值配置的测试方案一实施例的流程图。
需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限,该方法包括如下步骤:
本实施例的一种基于语义理解相似度阀值配置的测试方案,步骤如下:
S101:读取预配置的话术场景数据和词库数据,得到用户输入数据;
具体为,可以提供一个测试脚本,该测试脚本能够将配置好的某一项应用的所有话术场景数据和词库数据从数据库读取出来,并且针对数据进行逻辑处理,将数据分类。
将数据分类的目的是为了得到更多的符合用户习惯的问话,操作人员可以设定一种应用场景,并将该应用场景相关的话术场景(包括该场景中的用户输入语句)和该场景下的回答所用到的词库进行提取,根据现有的中文分词算法对场景中的用户输入语句进行划分得到场景下用户词语,并根据该场景下用户词语与词库中的词语随机组合。
S102:轮循并将所述用户输入数据输入虚拟对话模块,得到对应的输出回答;
虚拟对话模块为使用机器学习算法的人工智能对话程序,将S101产生的各种用户输入数据,作为虚拟对话模块入参,调用虚拟对话模块的对话接口,轮循所有的用户输入数据,记录输出回答。
S103:将所述输出回答与预配置的期望回答依次对比计算得到语义相似度,并设定当所述输出回答与期望回答一致时的语义相似度为1,当所述输出回答与期望回答不一致时的语义相似度小于1;
根据输出回答和期望的期望回答进行比较,如果一致则表示回答正确,如果不一致则表示回答不正确即回答失败,都需要将语义相似度保存。待所有数据的输入调用完成后,统计回答错误时的相似度范围。
每种用户输入都对应一种或多种期望回答,但是经过语句拆分后再组合得到的用户输入数据再虚拟对话模块得到的输出回答未必是符合正常情境的期望回答,因此可采用文本聚类分析、LDA分析或序列分析中的任一者或任意组合的语义相似度算法,来计算输出回答与期望回答的语义相似度。
轮循所有的用户输入数据,记录输出回答和语义相似度,根据输出回答和期望回答进行比较,如果一致则表示回答正确,相似度为1.0,如果不一致则表示回答不正确,即相似度小于1.0。
在所有的用户输入数据都轮循完毕后,建立数据表,用以存储各种结果以及对应的期望回答,并记录相似度,然后对回答错误的相似度进行计算,并得到一个相似度范围。
S104:将语义相似度小于1的语义相似度范围收敛得到替换阈值;
调整相似度范围,直至得到一个收敛值作为替换阈值,再基于该替换阈值产生相应的输出回答,然后操作人员能够看到基于一个用户输入数据和与之相关的多个在相似度范围内的正确的输出回答。认定此时相似度范围能够满足需求,即错误回答的出现的概率在一定范围内。
S105:在阈值配置模块中,将语义模型算法的设定阈值替换为所述替换阈值。
操作人员对于自己设置的场景以及人工智能对话程序给出的答复有个评判的基准,根据该基准可以在相似度范围内设定阈值,以便更好的辅助业务配置更精准的话术。
然而,当阀值的调整并不能带来更好的人工智能对话程序答复情况下,业务应该考虑更新自己的话术配置和词库配置,再次使用该测试方案来查看调整后的效果。
因此,还可以提供一种人机交互模块,该人机交互模块可以为带有显示界面和操作系统的计算机,智能手机等设备,可以通过有线或无线的方式与系统本身进行通信。
在人机交互模块上的显示界面用于显示前端平台,该前端平台接受操作人员对于设定阈值的修改和设置等指令,当操作人员对设定阈值进行修改或设置后,通过调用系统的配置与接口,将修改或设置后的新的设定阈值(替换阈值)传入人工智能对话程序的模型算法相应部分,从而更改人工智能对话程序的模型算法。
进一步地,所述用户输入数据包括:
对词库数据进行拆分得到的数据;
基于话术场景下输入的数据;以及,
将用户实时输入的非完整语句进行拼接完整后得到的数据。
具体地,比如场景话术用户输入为投诉,那么我们组装为:我要投诉、怎么投诉、我要举报等等,主要是将一些常用的词语(我要、我想、怎么、了、呀、啊、什么等等)和话术拼接成常用的问话。
在最初数据库进行数据填充时,对各种数据添加标签,在使用测试脚本进行读取时,将相同的标签对应的数据归为一类,同时采用自然语言处理算法,对各种语句进行拆分处理。
进一步地,还包括,将语义相似度小于1的输出回答记为失败答复数据,所述失败答复数据与所述输出回答之比为失败答复率;
统计所述失败答复数据中的错误答复数据,将所述错误答复数据与所述输出回答之比记为错误答复率,同时将错误答复数据所对应的语义相似度范围记为错误答复相似度范围。
具体地,失败答复数据就是回答不正确的数据,即相似度小于1的所有回答,包括完全与期望回答不一致的回答错误数据,回答错误率=回答错误的数据数量/输出结果的数量×100%。
进一步地,还包括,统计所述失败答复数据中的兜底答复数据,将所述兜底答复数据与所述输出回答之比记为兜底答复率。
具体地,兜底率答复为仅给出预设的保底答复的兜底答复数据。为兜底答复率=兜底答复的数据数量/输出结果的数量×100%。
请参阅图2,图2为图1中得到替换阈值的流程图。
进一步地,得到替换阈值的步骤为:
S201:采用二分法在所述错误答复相似度范围内提取中间阈值,所述中间阈值与错误答复相似度范围上限或下限之差的绝对值为调整值;
比如相似度范围是0.5~0.65,采用二分法,(0.5+0.65)/2=0.575,0.575作为新的阈值(中间阈值),那么调整值为0.575-0.5=0.65-0.575=0.075。
S202:在中间阈值与所述错误答复相似度范围的上限范围内提取新的中间阈值;并循环取得新的中间阈值,直至调整值等于或逼近预设调整值门限;
S203:将多个中间阈值分别配置为阈值配置模块中语义模型算法的设定阈值,并轮循用户输入数据作为虚拟对话模块的输入,分别得到基于多个中间阈值的输出回答;
以上述中间0.575输入人机交互模块,从而对人工智能对话程序的模型算法进行更新,基于新的模型算法,调用虚拟对话模块的对话接口,输入参数三种用户输入数据,轮循所有的用户输入数据,记录基于此中间阈值下的输出回答。
然后再次对0.5~0.575范围采用二分法进行调整,(0.5+0.575)/2=0.5375,以0.5375作为新的阈值(又一个中间阈值),那么此时调整值为0.5375-0.5=0.0375;
以上述新的阈值0.5375输入人机交互模块,从而对模型算法进行更新,基于新的模型算法,调用虚拟对话模块的对话接口,输入参数三种用户输入数据,轮循所有的用户输入数据,记录此阈值下的输出回答。
重复上述二分法调整中间阈值,以及根据新的中间阈值得到输出回答的过程,直至调整值收敛至小于等于0.01(调整值门限)可以停止调整。
S204:在多个中间阈值中选择其中一个中间阈值作为替换阈值。
将上述不同中间阈值的输出回答输出,选择合适的输出结果。
上述调整值0.01为预设的调整值门限,可以更改,同时不仅可以采用二分法进行调整,调整规则可以根据实际情况采用其他算法来判定。
在上一步中对于回答正确的设定为,要求阈值为1.0才为回答正确,在这一步中,将回答错误的相似度范围逐渐收敛,这样能够得到得到与期望回答不一致,但是足够正确的的回答。
进一步地,所述语义相似度是通过文本聚类分析算法、LDA分析算法或DSSM算法中的一种或多种得到的。
具体地,文本聚类分析是一种无监督机器学习算法,它的目标是将相似的对象归到同一个簇中,将不相似的对象归到不同的簇中,一般采用余弦相似度来计算相似度,余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体差异的大小。相比欧氏距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上的差异。余弦值的计算公式如下:
Figure BDA0002285746120000091
相对于欧氏距离,余弦相似度更适合计算文本的相似度。首先将文本转换为权值向量,通过计算两个向量的夹角余弦值,就可以评估他们的相似度。余弦值的范围在[-1,1]之间,值越趋近于1,代表两个向量方向越接近;越趋近于-1,代表他们的方向越相反。为了方便聚类分析,我们将余弦值做归一化处理,将其转换到[0,1]之间,并且值越小距离越近。
LDA(Latent Dirichlet Allocation)分析算法称为半隐性分析方法,可以在一定程度进行解释的算法,是用向量对词语和文本进行表示,但是在二者之间可以使用“主题”对向量维度进行理解。算法结果为得到两个概率矩阵,维度分别为文本-主题的概率分布矩阵和主题-词的概率分布矩阵。
DSSM(Deep Structured Semantic Models)通过搜索引擎里Query和Title的海量的点击曝光日志,用DNN把Query和Title表达为低纬语义向量,并通过cosine距离来计算两个语义向量的距离,最终训练出语义相似度模型。该模型既可以用来预测两个句子的语义相似度,又可以获得某句子的低纬语义向量表达。
进一步地,还包括,根据所述输出回答和上下文算法自动插入补充词,所述补充词包括代词和礼貌短语。
具体地,在进行回答的过程中,还可以通过基于上下文的算法自动生成与插入代词、礼貌短语等(例如,“请告诉我”)和认知问题(例如,“你明白了吗?”),以使对话更加顺畅。
其工作原理为:(1)对于同一概念的不同属性约束、关系约束与定义公理的连续提问,除在第一个提问中使用主题概念名外,在其余提问中使用代词“它”代替主题概念;
(2)对于同一概念的不同属性约束、关系约束与定义公理的连续提问,在第一个提问之前插入礼貌短语:“请告诉我”,在其余提问之前插入礼貌短语:“请进一步告诉我”;
(3)在每次回答完操作人员提问之后,进行一次“是否解决了您的问题?”的认知提问。
每个虚拟对话模块的应用在上线前业务都会将该应用的话术场景和词库在平台上配置好,这时虚拟对话模块中阈值配置模块对语义理解的阀值默认是0.5。
话术场景例子:1.投诉入口类场景:用户输入为举报、投诉、报案、被骗;人工智能对话程序回复为:您好,请进入举报页面进行问题录入,本平台负责收集互联网金融举报信息,并转发有关管理部门按规定进行办理。2.投诉查询类场景:用户输入为举报进度、查询记录、投诉进展等;人工智能对话程序回复为:您好,请点击个人中心查看举报记录,谢谢!3.平台详情类场景:用户输入为配置的词库:如你我贷,翼龙贷,玖富,微贷网,宜人贷,PPmoney网贷,爱钱进,和信贷,51人品,网利宝,投哪网等公司名称,人工智能对话程序回复:请点击XXXX(任一公司名称)查看。
以上在智能问答的虚拟对话模块上,如果用户提问:我要投诉,那么人工智能对话程序将回答:您好,请进入举报页面进行问题录入,本平台负责收集互联网金融举报信息,并转发有关管理部门按规定进行办理。
如果用户提问:我要查询你我贷,人工智能对话程序将回答:请点击你我贷查看,这里隐藏了超链接,用户点击后会跳转相关页面。
像以上场景和词库的配置量都是比较大的,特别是词库可能几万家公司名称,业务配置好后如何确保AI都能给出正确回答呢?AI的回答是基于语义理解后给出满足阀值配置的回答,所以配置一个合适的阀值很重要。如果要改动AI的模型算法则比较困难还会影响已经接入使用的应用。
以上方案中的一种基于语义理解相似度阀值配置的测试方案,在运营或业务配置好应用的话术和词库后,可以针对该话术和词库进行虚拟对话模块的智能问答,模拟用户针对这类特定的话术和词库进行问答测试,给出相应的测试结果。可以给业务和运营提供指导建议,设置一个更合适的阀值。可以解决业务和运营在配置时对虚拟对话模块能给出多大回答正确率提供有效的参考。同时,可以基于每个应用实现自定义阀值,每个应用根据测试的回答情况设置自己的阀值,可以提高虚拟对话模块回答的正确率和精准度,使得虚拟对话模块的回答更智能化。
请参阅图3,图3为本发明一实施例中一种基于语义理解相似度阀值配置的测试系统的基本框图。
本实施例的一种基于语义理解相似度阀值配置的测试系统,其特征在于,包括,
数据库模块31,用于储存话术场景数据、词库数据和期望回答;
在数据库模块31中预配置的话术场景数据和词库数据,可以提供一个测试脚本,该测试脚本能够将配置好的某一项应用的所有话术场景数据和词库数据从数据库读取出来,并且针对数据进行逻辑处理,将数据分类,得到用户输入数据。
虚拟对话模块32,用于基于设定阈值将输入的用户输入数据对应得到输出回答;
虚拟对话模块为使用机器学习算法的人工智能对话程序,产生的各种用户输入数据,作为虚拟对话模块入参,调用虚拟对话模块的对话接口,轮循所有的用户输入数据,并记录输出回答。
相似度计算模块33,用于计算输出回答与期望回答的语义相似度;
根据输出回答和期望回答进行比较,如果一致则表示回答正确,如果不一致则表示回答不正确即回答失败,都需要将语义相似度保存。待所有数据的输入调用完成后,统计回答错误时的相似度范围。
每种用户输入都对应一种或多种期望回答,但是经过语句拆分后再组合得到的用户输入数据再虚拟对话模块得到的输出回答未必是符合正常情境的期望回答,因此可采用文本聚类分析、LDA分析或序列分析中的任一者或任意组合的语义相似度算法,来计算输出回答与期望回答的语义相似度。
将所述输出回答与预配置的期望回答依次对比计算得到语义相似度,并设定当所述输出回答与期望回答一致时的语义相似度为1,当所述输出回答与期望回答不一致时的语义相似度小于1;
阈值收敛模块34,用于根据预设算法将错误答复相似度范围收敛得到替换阈值;
阈值收敛模块34调整相似度范围,直至得到一个收敛值作为替换阈值,再基于该替换阈值产生相应的输出回答,然后操作人员能够看到基于一个用户输入数据和与之相关的多个在相似度范围内的正确的输出回答。认定此时相似度范围能够满足需求,即错误回答的出现的概率在一定范围内;
阈值配置模块35,用于存储并将替换阈值配置为设定阈值。
在阈值配置模块35中,将语义模型算法的设定阈值替换为所述替换阈值。
操作人员对于自己设置的场景以及人工智能对话程序给出的答复有个评判的基准,根据该基准可以在相似度范围内设定阈值,以便更好的辅助业务配置更精准的话术。
然而,当阀值的调整并不能带来更好的人工智能对话程序答复情况下,业务应该考虑更新自己的话术配置和词库配置,再次使用该测试方案来查看调整后的效果。
进一步地,还包括,数据拆分模块36,用于对词库数据进行拆分;
统计模块37,用于计算失败答复率、错误答复率和兜底答复率。
以上方案中的一种基于语义理解相似度阀值配置的测试系统,在运营或业务配置好应用的话术和词库后,可以针对该话术和词库进行虚拟对话模块的智能问答,模拟用户针对这类特定的话术和词库进行问答测试,给出相应的测试结果。可以给业务和运营提供指导建议,设置一个更合适的阀值。可以解决业务和运营在配置时对虚拟对话模块能给出多大回答正确率提供有效的参考。同时,可以基于每个应用实现自定义阀值,每个应用根据测试的回答情况设置自己的阀值,可以提高虚拟对话模块回答的正确率和精准度,使得虚拟对话模块的回答更智能化。
为解决上述技术问题,本发明实施例还提供计算机设备。具体请参阅图4,图4为本发明一实施例中的计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如X方法的程序代码等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据,例如运行所述X方法的程序代码。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本发明还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有X程序,所述X程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的X方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,附图中给出了本发明的较佳实施例,但并不限制本发明的专利范围。本发明可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本发明专利保护范围之内。

Claims (10)

1.一种基于语义理解相似度阀值配置的测试方案,其特征在于,步骤如下:
读取预配置的话术场景数据和词库数据,得到用户输入数据;
轮循并将所述用户输入数据输入虚拟对话模块,得到对应的输出回答;
将所述输出回答与预配置的期望回答依次对比计算得到语义相似度,并设定当所述输出回答与期望回答一致时的语义相似度为1,当所述输出回答与期望回答不一致时的语义相似度小于1;
将语义相似度小于1的语义相似度范围收敛得到替换阈值;
在阈值配置模块中,将语义模型算法的设定阈值替换为所述替换阈值。
2.根据权利要求1所述的一种基于语义理解相似度阀值配置的测试方案,其特征在于,所述用户输入数据包括:
对词库数据进行拆分得到的数据;
基于话术场景下输入的数据;以及,
将用户实时输入的非完整语句进行拼接完整后得到的数据。
3.根据权利要求1或2所述的一种基于语义理解相似度阀值配置的测试方案,其特征在于,还包括,
将语义相似度小于1的输出回答记为失败答复数据,所述失败答复数据与所述输出回答之比为失败答复率;
统计所述失败答复数据中的错误答复数据,将所述错误答复数据与所述输出回答之比记为错误答复率,同时将错误答复数据所对应的语义相似度范围记为错误答复相似度范围。
4.根据权利要求3所述的一种基于语义理解相似度阀值配置的测试方案,其特征在于,还包括,
统计所述失败答复数据中的兜底答复数据,将所述兜底答复数据与所述输出回答之比记为兜底答复率。
5.根据权利要求3所述的一种基于语义理解相似度阀值配置的测试方案,其特征在于,
得到替换阈值的步骤为:
采用二分法在所述错误答复相似度范围内提取中间阈值,所述中间阈值与错误答复相似度范围上限或下限之差的绝对值为调整值;
在中间阈值与所述错误答复相似度范围的上限范围内提取新的中间阈值;并循环取得新的中间阈值,直至调整值等于或逼近预设调整值门限;
将多个中间阈值分别配置为阈值配置模块中语义模型算法的设定阈值,并轮循用户输入数据作为虚拟对话模块的输入,分别得到基于多个中间阈值的输出回答;
在多个中间阈值中选择其中一个中间阈值作为替换阈值。
6.根据权利要求1所述的一种基于语义理解相似度阀值配置的测试方案,其特征在于,
所述语义相似度是通过文本聚类分析算法、LDA分析算法或DSSM算法中的一种或多种得到的。
7.根据权利要求1所述的一种基于语义理解相似度阀值配置的测试方案,其特征在于,还包括,
根据所述输出回答和上下文算法自动插入补充词,所述补充词包括代词和礼貌短语。
8.一种基于语义理解相似度阀值配置的测试系统,其特征在于,包括,
数据库模块,用于储存话术场景数据、词库数据和期望回答;
虚拟对话模块,用于基于设定阈值将输入的用户输入数据对应得到输出回答;
相似度计算模块,用于计算输出回答与期望回答的语义相似度;
阈值收敛模块,用于根据预设算法将错误答复相似度范围收敛得到替换阈值;
阈值配置模块,用于存储并将替换阈值配置为设定阈值;
数据拆分模块,用于对词库数据进行拆分;
统计模块,用于计算失败答复率、错误答复率和兜底答复率。
9.一种计算机设备,其特征在于,包括,
一个或多个处理器;
存储器,用于存储一个或多个程序,使得一个或多个处理器实现权利要求1-7任意一项所述的测试方案。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任意一项所述的测试方案。
CN201911159764.4A 2019-11-22 2019-11-22 一种基于语义理解相似度阀值配置的测试方案及系统 Pending CN111177307A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911159764.4A CN111177307A (zh) 2019-11-22 2019-11-22 一种基于语义理解相似度阀值配置的测试方案及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911159764.4A CN111177307A (zh) 2019-11-22 2019-11-22 一种基于语义理解相似度阀值配置的测试方案及系统

Publications (1)

Publication Number Publication Date
CN111177307A true CN111177307A (zh) 2020-05-19

Family

ID=70653721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911159764.4A Pending CN111177307A (zh) 2019-11-22 2019-11-22 一种基于语义理解相似度阀值配置的测试方案及系统

Country Status (1)

Country Link
CN (1) CN111177307A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859985A (zh) * 2020-07-23 2020-10-30 平安普惠企业管理有限公司 Ai客服模型测试方法、装置、电子设备及存储介质
CN111881251A (zh) * 2020-07-23 2020-11-03 平安科技(深圳)有限公司 Ai电话销售测试方法、装置、电子设备及存储介质
CN113139040A (zh) * 2021-04-06 2021-07-20 杭州远传新业科技有限公司 基于文本相似度算法的相似问题生成方法、系统、电子装置和存储介质
CN113538262A (zh) * 2021-06-21 2021-10-22 天津大学 应用于多比特量子图像传感器的高动态范围图像还原方法
CN116233311A (zh) * 2023-05-08 2023-06-06 天津金城银行股份有限公司 自动化外呼测试方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005181386A (ja) * 2003-12-16 2005-07-07 Mitsubishi Electric Corp 音声対話処理装置及び音声対話処理方法並びにプログラム
US20120143794A1 (en) * 2010-12-03 2012-06-07 Microsoft Corporation Answer model comparison
CN109885810A (zh) * 2019-01-17 2019-06-14 平安城市建设科技(深圳)有限公司 基于语义解析的人机问答方法、装置、设备和存储介质
KR102047385B1 (ko) * 2018-09-21 2019-11-21 삼성생명보험주식회사 챗봇 구동 방법, 장치 및 컴퓨터 판독가능 매체

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005181386A (ja) * 2003-12-16 2005-07-07 Mitsubishi Electric Corp 音声対話処理装置及び音声対話処理方法並びにプログラム
US20120143794A1 (en) * 2010-12-03 2012-06-07 Microsoft Corporation Answer model comparison
KR102047385B1 (ko) * 2018-09-21 2019-11-21 삼성생명보험주식회사 챗봇 구동 방법, 장치 및 컴퓨터 판독가능 매체
CN109885810A (zh) * 2019-01-17 2019-06-14 平安城市建设科技(深圳)有限公司 基于语义解析的人机问答方法、装置、设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIYONG等: "The Design of an Intelligent Question Answering System on Restricted Domain", 2011 AASRI CONFERENCE ON APPLIED INFORMATION TECHNOLOGY(AASRI-AIT 2011)》, vol. 2, pages 110 - 112 *
李春等: "基于邻居决策的协同过滤推荐算法", 《计算机工程》, vol. 36, no. 13, pages 34 - 36 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859985A (zh) * 2020-07-23 2020-10-30 平安普惠企业管理有限公司 Ai客服模型测试方法、装置、电子设备及存储介质
CN111881251A (zh) * 2020-07-23 2020-11-03 平安科技(深圳)有限公司 Ai电话销售测试方法、装置、电子设备及存储介质
WO2021135531A1 (zh) * 2020-07-23 2021-07-08 平安科技(深圳)有限公司 Ai电话销售测试方法、装置、电子设备及存储介质
CN111859985B (zh) * 2020-07-23 2023-09-12 上海华期信息技术有限责任公司 Ai客服模型测试方法、装置、电子设备及存储介质
CN111881251B (zh) * 2020-07-23 2023-10-13 平安科技(深圳)有限公司 Ai电话销售测试方法、装置、电子设备及存储介质
CN113139040A (zh) * 2021-04-06 2021-07-20 杭州远传新业科技有限公司 基于文本相似度算法的相似问题生成方法、系统、电子装置和存储介质
CN113538262A (zh) * 2021-06-21 2021-10-22 天津大学 应用于多比特量子图像传感器的高动态范围图像还原方法
CN116233311A (zh) * 2023-05-08 2023-06-06 天津金城银行股份有限公司 自动化外呼测试方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN110765763B (zh) 语音识别文本的纠错方法、装置、计算机设备和存储介质
CN112346567B (zh) 基于ai的虚拟交互模型生成方法、装置及计算机设备
CN111177307A (zh) 一种基于语义理解相似度阀值配置的测试方案及系统
CN108763535B (zh) 信息获取方法及装置
CN109360550A (zh) 语音交互系统的测试方法、装置、设备和存储介质
CN114676704B (zh) 句子情感分析方法、装置、设备以及存储介质
CN111694940A (zh) 一种用户报告的生成方法及终端设备
US11907863B2 (en) Natural language enrichment using action explanations
CN110717021A (zh) 人工智能面试中获取输入文本和相关装置
CN112395887A (zh) 对话应答方法、装置、计算机设备和存储介质
CN111402864A (zh) 语音处理方法及电子设备
CN117370190A (zh) 测试用例生成方法、装置、电子设备和存储介质
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
CN112069833A (zh) 日志分析方法、日志分析装置及电子设备
CN116186219A (zh) 一种人机对话交互方法方法、系统及存储介质
US11922129B2 (en) Causal knowledge identification and extraction
CN114239602A (zh) 会话方法、装置和计算机程序产品
CN110895924B (zh) 一种文档内容朗读方法、装置、电子设备及可读存储介质
KR20200072005A (ko) 음성 인식된 문장의 보정 방법
CN113378543B (zh) 数据分析方法、训练数据分析模型的方法及电子设备
CN117520523B (zh) 数据处理方法、装置、设备及存储介质
CN113298636B (zh) 一种基于模拟资源申请的风险控制方法、装置和系统
CN113434630B (zh) 客服服务评估方法、装置、终端设备及介质
CN117852510A (zh) 业务数据处理方法、装置、计算机设备和存储介质
CN113744737A (zh) 语音识别模型的训练、人机交互方法、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination