CN110503143A - 基于意图识别的阈值选取方法、设备、存储介质及装置 - Google Patents

基于意图识别的阈值选取方法、设备、存储介质及装置 Download PDF

Info

Publication number
CN110503143A
CN110503143A CN201910751715.3A CN201910751715A CN110503143A CN 110503143 A CN110503143 A CN 110503143A CN 201910751715 A CN201910751715 A CN 201910751715A CN 110503143 A CN110503143 A CN 110503143A
Authority
CN
China
Prior art keywords
intention
threshold value
threshold
test
intention assessment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910751715.3A
Other languages
English (en)
Other versions
CN110503143B (zh
Inventor
方宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910751715.3A priority Critical patent/CN110503143B/zh
Publication of CN110503143A publication Critical patent/CN110503143A/zh
Application granted granted Critical
Publication of CN110503143B publication Critical patent/CN110503143B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于意图识别的阈值选取方法、设备、存储介质及装置,该方法通过预设意图识别模型对测试语料集进行意图识别,获得测试语料集中各测试语料的测试意图,获取各测试语料的真实意图,计算测试意图与真实意图之间的相似度,获得各测试语料的测试意图相似度,获取多个待选阈值,统计测试意图中各待选阈值对应的正确结果数量及错误结果数量,根据正确结果数量及错误结果数量,计算各待选阈值对应的相对熵,根据相对熵按照预设规则选取目标阈值,基于人工智能,使用相对熵的形式计算出正确结果分布以及错误结果分布之间的差异,根据分布差异选取目标阈值,以保留更多的正确结果,过滤掉更多的错误结果,从而提高意图识别的准确性。

Description

基于意图识别的阈值选取方法、设备、存储介质及装置
技术领域
本发明涉及人工智能的技术领域,尤其涉及一种基于意图识别的阈值选取方法、设备、存储介质及装置。
背景技术
现行的智能交互系统中判断一句话是否为某一个意图,一般使用关键词和规则引擎,但这样做存一个弊端,不具被泛化的能力,一旦某一句话中同时含有若干个关键词,将会出现意图的误判。另一种方法是采用机器学习训练语料来生成一个分类器,使用该分类器判别意图具有一定的泛化能力,但其中需要预先设定的一个阈值进行判定,并且不低于该阈值,则采用分类器的输出;若低于阈值,则需要设定一个默认的业务逻辑。目前,阈值的设定通常根据经验值进行设置,然而阈值的设定能够影响意图识别的准确性,因此,如何设置合理的阈值,以提高意图识别的准确性是亟待解决的技术问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种基于意图识别的阈值选取方法、设备、存储介质及装置,旨在解决现有技术中基于意图识别的阈值选取不准确,导致意图识别的准确性低的技术问题。
为实现上述目的,本发明提供一种基于意图识别的阈值选取方法,所述基于意图识别的阈值选取方法包括以下步骤:
通过预设意图识别模型对测试语料集进行意图识别,获得所述测试语料集中各测试语料的测试意图;
获取各所述测试语料的真实意图,计算所述测试意图与所述真实意图之间的相似度,获得各所述测试语料的测试意图相似度;
获取多个待选阈值,根据各待选阈值及所述测试意图相似度统计所述测试意图中各所述待选阈值对应的正确结果数量及错误结果数量;
根据所述正确结果数量及所述错误结果数量,计算各所述待选阈值对应的相对熵;
根据所述相对熵按照预设规则从各所述待选阈值中选取目标阈值。
优选地,所述根据所述相对熵按照预设规则从各所述待选阈值中选取目标阈值,包括:
对各所述待选阈值按照从大到小进行排序,计算相邻的所述待选阈值对应的所述相对熵之间的差值;
获取所述差值中的最大值,将所述最大值对应的两个相对熵作为目标相对熵,选取所述目标相对熵中较大者对应的待选阈值作为目标阈值。
优选地,所述通过预设意图识别模型对测试语料集进行意图识别,获得所述测试语料集中各测试语料的测试意图之前,所述基于意图识别的阈值选取方法还包括:
获取训练语料及对应的训练意图;
根据所述训练语料及对应的所述训练意图对神经网络模型进行训练,获得预设意图识别模型。
优选地,所述根据所述相对熵按照预设规则从各所述待选阈值中选取目标阈值之后,所述基于意图识别的阈值选取方法还包括:
根据所述目标阈值及所述测试意图相似度筛选所述测试意图中的错误结果,获取所述错误结果对应的测试语料作为目标语料;
获取所述目标语料对应的目标真实意图,根据所述目标语料及对应的所述目标真实意图对所述预设意图识别模型进行训练,获得修正识别模型。
优选地,所述获取所述目标语料对应的目标真实意图,根据所述目标语料及对应的所述目标真实意图对所述预设意图识别模型进行训练,获得修正识别模型之后,所述基于意图识别的阈值选取方法还包括:
进行语音检测,将检测到的语音作为待识别语音;
通过所述修正识别模型对所述待识别语音进行意图识别,获得用户意图;
根据所述用户意图进行搜索,获得目标页面。
优选地,所述根据所述用户意图进行搜索,获得目标页面,包括:
将所述用户意图进行展示;
接收用户基于展示的所述用户意图的反馈语音信息,判断所述反馈语音信息是否属于确认信息;
若所述反馈语音信息属于所述确认信息,则搜索与所述用户意图对应的目标页面。
优选地,所述接收用户基于展示的所述用户意图的反馈语音信息,判断所述反馈语音信息是否属于确认信息之后,所述基于意图识别的阈值选取方法还包括:
若所述反馈语音信息不属于所述确认信息,则通过所述修正识别模型对所述反馈语音信息进行意图识别,获得目标意图。
此外,为实现上述目的,本发明还提出一种基于意图识别的阈值选取设备,所述基于意图识别的阈值选取设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于意图识别的阈值选取程序,所述基于意图识别的阈值选取程序配置为实现如上文所述的基于意图识别的阈值选取方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有基于意图识别的阈值选取程序,所述基于意图识别的阈值选取程序被处理器执行时实现如上文所述的基于意图识别的阈值选取方法的步骤。
此外,为实现上述目的,本发明还提出一种基于意图识别的阈值选取装置,所述基于意图识别的阈值选取装置包括:
意图识别模块,用于通过预设意图识别模型对测试语料集进行意图识别,获得所述测试语料集中各测试语料的测试意图;
计算模块,用于获取各所述测试语料的真实意图,计算所述测试意图与所述真实意图之间的相似度,获得各所述测试语料的测试意图相似度;
统计模块,用于获取多个待选阈值,根据各待选阈值及所述测试意图相似度统计所述测试意图中各所述待选阈值对应的正确结果数量及错误结果数量;
所述计算模块,还用于根据所述正确结果数量及所述错误结果数量,计算各所述待选阈值对应的相对熵;
选取模块,用于根据所述相对熵按照预设规则从各所述待选阈值中选取目标阈值。
本发明中,通过预设意图识别模型对测试语料集进行意图识别,获得所述测试语料集中各测试语料的测试意图,获取各所述测试语料的真实意图,计算所述测试意图与所述真实意图之间的相似度,获得各所述测试语料的测试意图相似度,获取多个待选阈值,根据各待选阈值及所述测试意图相似度统计所述测试意图中各所述待选阈值对应的正确结果数量及错误结果数量,根据所述正确结果数量及所述错误结果数量,计算各所述待选阈值对应的相对熵,根据所述相对熵按照预设规则从各所述待选阈值中选取目标阈值,基于人工智能,使用相对熵的形式计算出正确结果分布以及错误结果分布之间的差异,根据分布差异选取目标阈值,以保留更多的正确结果,过滤掉更多的错误结果,从而提高意图识别的准确性。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的基于意图识别的阈值选取设备的结构示意图;
图2为本发明基于意图识别的阈值选取方法第一实施例的流程示意图;
图3为本发明基于意图识别的阈值选取方法第二实施例的流程示意图;
图4为本发明基于意图识别的阈值选取方法第三实施例的流程示意图;
图5为本发明基于意图识别的阈值选取装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的基于意图识别的阈值选取设备结构示意图。
如图1所示,该基于意图识别的阈值选取设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display),可选用户接口1003还可以包括标准的有线接口、无线接口,对于用户接口1003的有线接口在本发明中可为USB接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM)存储器,也可以是稳定的存储器(Non-volatileMemory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对基于意图识别的阈值选取设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于意图识别的阈值选取程序。
在图1所示的基于意图识别的阈值选取设备中,网络接口1004主要用于连接后台服务器,与所述后台服务器进行数据通信;用户接口1003主要用于连接用户设备;所述基于意图识别的阈值选取设备通过处理器1001调用存储器1005中存储的基于意图识别的阈值选取程序,并执行本发明实施例提供的基于意图识别的阈值选取方法。
基于上述硬件结构,提出本发明基于意图识别的阈值选取方法的实施例。
参照图2,图2为本发明基于意图识别的阈值选取方法第一实施例的流程示意图,提出本发明基于意图识别的阈值选取方法第一实施例。
在第一实施例中,所述基于意图识别的阈值选取方法包括以下步骤:
步骤S10:通过预设意图识别模型对测试语料集进行意图识别,获得所述测试语料集中各测试语料的测试意图。
应理解的是,本实施例的执行主体是所述基于意图识别的阈值选取设备,其中,所述基于意图识别的阈值选取设备可为智能手机、个人电脑或服务器等电子设备,本实施例对此不加以限制。将所述语料测试集中各测试语料进行去停用词,并进行向量化,获得向量化测试语料,将所述向量化测试语料输入所述预设意图识别模型进行意图识别,输出所述测试语料集中各测试语料的测试意图。
在具体实现中,为了建立所述预设意图识别模型,通过获取大量的已经进行人工打标的语料,人工打标是指通过人工对每一句话(即语料)标上一个真实意图,按照一定比例,将已打标的语料进行划分,划分为训练语料集和测试语料集,比如,80%的已打标的语料作为训练语料集,20%的已打标语的语料作为测试语料集。根据所述训练语料集中各训练语料进行去停用词,并进行向量化,获得向量化训练语料。从打标的语料中提取各训练语料对应的训练意图,根据向量化训练语料及对应的训练意图对神经网络模型进行训练,获得所述预设意图识别模型。本实施例中,所述步骤S10之前,还包括:获取训练语料及对应的训练意图;根据所述训练语料及对应的所述训练意图对神经网络模型进行训练,获得预设意图识别模型。
步骤S20:获取各所述测试语料的真实意图,计算所述测试意图与所述真实意图之间的相似度,获得各所述测试语料的测试意图相似度。
可理解的是,所述测试语料集中各测试语料都是经过人工打标了真实意图的语料,可从已打标的测试语料集中提取出各测试语料的真实意图,对所述测试意图和对应的所述真实意图分别进行分词处理,获得所述测试意图的所有第一词语及所述真实意图的所有的第二词语,根据所述第一词语将所述测试意图表示成第一词向量,根据所述第二词语将所述真实意图表示成第二词向量,计算所述第一词向量和所述第二词向量之间的余弦距离,将所述余弦距离作为所述测试意图与所述真实意图之间的相似度,从而计算出所述测试语料集中各测试语料的测试意图与对应的真实意图之间的所述测试意图相似度。
步骤S30:获取多个待选阈值,根据各待选阈值及所述测试意图相似度统计所述测试意图中各所述待选阈值对应的正确结果数量及错误结果数量。
需要说明的是,获取多个待选阈值,所述待选阈值可以包括0.95、0.9、0.85、0.8、0.75、0.7和0.65等,根据所述测试意图相似度,分别统计在不同的所述待选阈值下所述测试意图中正确结果数量和错误结果数量,具体为,将所述测试意图相似度与各所述待选阈值分别进行比较,若所述测试意图相似度大于或者等于所述待选阈值,则认定所述测试相似度对应的测试语料的测试意图为正确结果,若所述测试意图相似度小于所述待选阈值,则认定所述测试相似度对应的测试语料的测试意图为错误结果。统计比较出的正确结果数量和错误结果数量,即所述测试意图中所述正确结果数量及所述错误结果数量。例如,所述测试语料集中测试语料数量为829个,所述测试语料集中各测试语料的测试意图的识别结果统计如下表1:
待选阈值 0.95 0.9 0.85 0.8 0.75 0.7 0.65
正确结果数量 250 200 150 100 30 20 10
错误结果数量 25 20 10 5 4 3 2
表1
步骤S40:根据所述正确结果数量及所述错误结果数量,计算各所述待选阈值对应的相对熵。
在具体实现中,使用相对熵的形式计算出正确结果分布以及错误结果分布之间的差异,通过如下公式计算各所述待选阈值对应的相对熵:
其中,Xi为所述待选阈值,P(Xi)为所述待选阈值Xi对应的正确结果占总测试语料数量的比例,Q(Xi)为所述待选阈值Xi对应的错误结果占总测试语料数量的比例。以所述待选阈值0.95为例:P(0.95)=250/829,Q(0.95)=25/829。
根据上述公式计算出各所述待选阈值对应的相对熵,如下表2:
待选阈值 0.95 0.9 0.85 0.8 0.75 0.7 0.65
相对熵 0.6943 0.6249 0.5799 0.5253 0.4348 0.3699 0.3199
表2
步骤S50:根据所述相对熵按照预设规则从各所述待选阈值中选取目标阈值。
应理解的是,所述待选阈值变化较快表示正确结果和错误结果的分布差距较大,选用此待选阈值作为所述目标阈值可以保留更多的正确结果,过滤掉更多的错误结果。从表2可以观察到,在接近0.8~0.75之间相对熵下降的速度最快,从0.85~0.8之间的时候,相对熵下降了0.05,从0.8~0.75的时候相对熵下降了0.09,因此将所述目标阈值设置为0.8。
本实施例中,通过预设意图识别模型对测试语料集进行意图识别,获得所述测试语料集中各测试语料的测试意图,获取各所述测试语料的真实意图,计算所述测试意图与所述真实意图之间的相似度,获得各所述测试语料的测试意图相似度,获取多个待选阈值,根据各待选阈值及所述测试意图相似度统计所述测试意图中各所述待选阈值对应的正确结果数量及错误结果数量,根据所述正确结果数量及所述错误结果数量,计算各所述待选阈值对应的相对熵,根据所述相对熵按照预设规则从各所述待选阈值中选取目标阈值,基于人工智能,使用相对熵的形式计算出正确结果分布以及错误结果分布之间的差异,根据分布差异选取目标阈值,以保留更多的正确结果,过滤掉更多的错误结果,从而提高意图识别的准确性。
参照图3,图3为本发明基于意图识别的阈值选取方法第二实施例的流程示意图,基于上述图2所示的第一实施例,提出本发明基于意图识别的阈值选取方法的第二实施例。
在第二实施例中,所述步骤S50,包括:
步骤S501:对各所述待选阈值按照从大到小进行排序,计算相邻的所述待选阈值对应的所述相对熵之间的差值。
应理解的是,为了识别出正确结果和错误结果的分布差距,可对各所述待选阈值按照数值大小,从大到小进行排序,获取排序的各待选阈值对应的所述相对熵,计算相邻的所述待选阈值对应的所述相对熵之间的差值。如上表2所示,以相邻的所述待选阈值0.95和0.9为例,对应的所述相对熵分别为0.6943和0.6249,计算两者之间的差值为:0.6943-0.6249=0.0694,即相邻的所述待选阈值0.95和0.9对应的所述相对熵之间的差值为0.0694。
步骤S502:获取所述差值中的最大值,将所述最大值对应的两个相对熵作为目标相对熵,选取所述目标相对熵中较大者对应的待选阈值作为目标阈值。
可理解的是,阈值变化较快表示正确结果和错误结果的分布差距较大,选用此阈值作为所述目标阈值可以保留更多的正确结果,过滤掉更多的错误结果。相邻的所述待选阈值对应的所述相对熵之间的差值越大,说明阈值变化较快,将所述最大值对应的两个相对熵作为目标相对熵,以上述表2为例,在所述待选阈值接近0.8~0.75之间相对熵下降的速度最快,所述待选阈值为0.85~0.8之间的时候,相对熵下降了0.05,所述待选阈值为0.8~0.75的时候相对熵下降了0.09,则获取所述差值中的最大值为0.09,将所述最大值对应的两个相对熵作为目标相对熵,即所述目标相对熵为0.8和0.75,选取所述目标相对熵中较大者对应的待选阈值作为目标阈值,即将所述目标阈值设置为0.8。
例如,从设计的预设系统出发,所述预设系统一共使用打好标记的语料为23008条,从如下表3中可看出语料的分布:
表3
表3为从23008条打好标记的语料中提取出的真实意图,以及各真实意图对应的语料数量。按照一定比例(比如20%和80%)将打好标记的语料分为测试集(20%)与训练集(80%),将所述训练集中的各语料经过去停用词,向量化后经过一个神经网络进行训练,获得所述预设意图识别模型。
待训练结束后,使用经过训练的神经网络,即所述预设意图识别模型,测试语料测试集中1300条测试语料,获得测试结果,根据测试结果分析,可知,将所述目标阈值设定为0.8的时候,能最大化地筛选数据,让更多的数据能够落入到设定的所述目标阈值范围内,从而得到相应的处理,小于所述目标阈值的数据,将按照更加合理的方式进行处理。
在本实施例中,通过对各所述待选阈值按照从大到小进行排序,计算相邻的所述待选阈值对应的所述相对熵之间的差值,获取所述差值中的最大值,将所述最大值对应的两个相对熵作为目标相对熵,选取所述目标相对熵中较大者对应的待选阈值作为目标阈值,阈值变化较快表示正确结果和错误结果的分布差距较大,从而选出的目标阈值,能够最大化地筛选数据,可以保留更多的正确结果,过滤掉更多的错误结果,从而提高意图识别的准确度。
参照图4,图4为本发明基于意图识别的阈值选取方法第三实施例的流程示意图,基于上述图3所示的第二实施例,提出本发明基于意图识别的阈值选取方法的第三实施例。
在第三实施例中,所述步骤S502之后,还包括:
步骤S60:根据所述目标阈值及所述测试意图相似度筛选所述测试意图中的错误结果,获取所述错误结果对应的测试语料作为目标语料。
应理解的是,所述测试意图相似度大于或等于所述目标阈值,则认定所述测试意图相似度对应的测试意图为正确结果,所述测试意图相似度小于所述目标阈值,则认定所述测试意图相似度对应的测试意图为错误结果,获取所述错误结果对应的测试语料作为所述目标语料。
步骤S70:获取所述目标语料对应的目标真实意图,根据所述目标语料及对应的所述目标真实意图对所述预设意图识别模型进行训练,获得修正识别模型。
可理解的是,从已打标的测试语料中获取所述目标语料的目标真实意图,通过将所述目标语料及对应的目标真实意图输入所述预设意图识别模型,对所述预设意图识别模型进行训练,从而提高所述预设意图识别模型的识别准确率,获得所述修正识别模型,所述修正识别模型的意图识别准确度更高。
在本实施例中,所述步骤S70之后,还包括:
进行语音检测,将检测到的语音作为待识别语音;
通过所述修正识别模型对所述待识别语音进行意图识别,获得用户意图;
根据所述用户意图进行搜索,获得目标页面。
需要说明的是,所述修正识别模型可用于用户与对话机器人进行语音对话时的语音识别,实时进行语音检测,若检测到语音,则将检测到的所述语音进行去噪处理,获得所述待识别语音,通过所述修正识别模型对所述待识别语音进行意图识别,获得用户意图。
在具体实现中,为了进一步提高意图识别的准确度,在与用户进行对话时,可预先获取用户的基本信息:年龄、籍贯和职业,若所述用户的年龄较大,则可能进行对话时会存在口音,可通过获取与用户籍贯对应的语音语料库对检测到的语音进行调整,获得所述待识别语音。
在本实施例中,所述根据所述用户意图进行搜索,获得目标页面,包括:
将所述用户意图进行展示;
接收用户基于展示的所述用户意图的反馈语音信息,判断所述反馈语音信息是否属于确认信息;
若所述反馈语音信息属于所述确认信息,则搜索与所述用户意图对应的目标页面。
应理解的是,为了进一步确认所述用户意图是否准确,还可通过对话形式将所述用户意图进行展示,为了进一步确认所述用户意图是否正确,可以问句形式,引导用户对所述用户意图进行确认或者修正,比如:请问您是想...吗?如果是,请回答是,如果不是,请重新说出您的需求。
可理解的是,用户基于展示的所述用户意图,对所述用户意图进行确认或者修正,即对所述对话机器人说出所述反馈语音信息,对所述反馈语音信息进行判断,若所述反馈语音信息属于确认信息,则说明所述用户意图为正确的意图,是用户真实意思表示,则可从网页或者数据库中搜索与所述用户意图对应的目标页面。为了进一步提高所述修正识别模型的准确度,可将每一次用户与对话机器人之间的对话均作为新的训练语料,对所述修正识别模型进行训练。即可将所述待识别语音和所述用户意图作为新的训练语料,对所述修正识别模型进行训练,从而提高所述修正识别模型对意图识别的准确度。
在本实施例中,所述接收用户基于展示的所述用户意图的反馈语音信息,判断所述反馈语音信息是否属于确认信息之后,所述基于意图识别的阈值选取方法还包括:
若所述反馈语音信息不属于所述确认信息,则通过所述修正识别模型对所述反馈语音信息进行意图识别,获得目标意图。
需要说明的是,若所述反馈语音信息不属于确认信息,说明输出的所述用户意图未能表达出用户的真实意思,则所述反馈语音信息为用户为了纠正所述用户意图而再次说出的语音信息。通过所述修正识别模型对所述反馈语音信息再次进行意图识别,获得目标意图,并将所述目标意图进行展示,已再次确实识别的意图是否满足用户的真实意思,若所述目标意图为正确的意图,则将所述待识别语音和所述目标意图作为新的训练语料,以对所述修正识别模型进行训练,从而获得识别准确率更高的模型。
本实施例中,根据所述目标阈值及所述测试意图相似度筛选所述测试意图中的错误结果,获取所述错误结果对应的测试语料作为目标语料,获取所述目标语料对应的目标真实意图,根据所述目标语料及对应的所述目标真实意图对所述预设意图识别模型进行训练,获得修正识别模型,从而获得识别准确率更高的模型,通过所述修正识别模型能够更准确地识别出对话意图。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有基于意图识别的阈值选取程序,所述基于意图识别的阈值选取程序被处理器执行时实现如上文所述的基于意图识别的阈值选取方法的步骤。
此外,参照图5,本发明实施例还提出一种基于意图识别的阈值选取装置,所述基于意图识别的阈值选取装置包括:
意图识别模块10,用于通过预设意图识别模型对测试语料集进行意图识别,获得所述测试语料集中各测试语料的测试意图。
应理解的是,将所述语料测试集中各测试语料进行去停用词,并进行向量化,获得向量化测试语料,将所述向量化测试语料输入所述预设意图识别模型进行意图识别,输出所述测试语料集中各测试语料的测试意图。
在具体实现中,为了建立所述预设意图识别模型,通过获取大量的已经进行人工打标的语料,人工打标是指通过人工对每一句话(即语料)标上一个真实意图,按照一定比例,将已打标的语料进行划分,划分为训练语料集和测试语料集,比如,80%的已打标的语料作为训练语料集,20%的已打标语的语料作为测试语料集。根据所述训练语料集中各训练语料进行去停用词,并进行向量化,获得向量化训练语料。从打标的语料中提取各训练语料对应的训练意图,根据向量化训练语料及对应的训练意图对神经网络模型进行训练,获得所述预设意图识别模型。本实施例中,所述基于意图识别的阈值选取装置还包括:获取模块,用于获取训练语料及对应的训练意图;训练模块,用于根据所述训练语料及对应的所述训练意图对神经网络模型进行训练,获得预设意图识别模型。
计算模块20,用于获取各所述测试语料的真实意图,计算所述测试意图与所述真实意图之间的相似度,获得各所述测试语料的测试意图相似度。
可理解的是,所述测试语料集中各测试语料都是经过人工打标了真实意图的语料,可从已打标的测试语料集中提取出各测试语料的真实意图,对所述测试意图和对应的所述真实意图分别进行分词处理,获得所述测试意图的所有第一词语及所述真实意图的所有的第二词语,根据所述第一词语将所述测试意图表示成第一词向量,根据所述第二词语将所述真实意图表示成第二词向量,计算所述第一词向量和所述第二词向量之间的余弦距离,将所述余弦距离作为所述测试意图与所述真实意图之间的相似度,从而计算出所述测试语料集中各测试语料的测试意图与对应的真实意图之间的所述测试意图相似度。
统计模块30,用于获取多个待选阈值,根据各待选阈值及所述测试意图相似度统计所述测试意图中各所述待选阈值对应的正确结果数量及错误结果数量。
需要说明的是,获取多个待选阈值,所述待选阈值可以包括0.95、0.9、0.85、0.8、0.75、0.7和0.65等,根据所述测试意图相似度,分别统计在不同的所述待选阈值下所述测试意图中正确结果数量和错误结果数量,具体为,将所述测试意图相似度与各所述待选阈值分别进行比较,若所述测试意图相似度大于或者等于所述待选阈值,则认定所述测试相似度对应的测试语料的测试意图为正确结果,若所述测试意图相似度小于所述待选阈值,则认定所述测试相似度对应的测试语料的测试意图为错误结果。统计比较出的正确结果数量和错误结果数量,即所述测试意图中所述正确结果数量及所述错误结果数量。例如,所述测试语料集中测试语料数量为829个,所述测试语料集中各测试语料的测试意图的识别结果统计如下表1:
待选阈值 0.95 0.9 0.85 0.8 0.75 0.7 0.65
正确结果数量 250 200 150 100 30 20 10
错误结果数量 25 20 10 5 4 3 2
表1
所述计算模块20,还用于根据所述正确结果数量及所述错误结果数量,计算各所述待选阈值对应的相对熵。
在具体实现中,使用相对熵的形式计算出正确结果分布以及错误结果分布之间的差异,通过如下公式计算各所述待选阈值对应的相对熵:
其中,Xi为所述待选阈值,P(Xi)为所述待选阈值Xi对应的正确结果占总测试语料数量的比例,Q(Xi)为所述待选阈值Xi对应的错误结果占总测试语料数量的比例。以所述待选阈值0.95为例:P(0.95)=250/829,Q(0.95)=25/829。
根据上述公式计算出各所述待选阈值对应的相对熵,如下表2:
待选阈值 0.95 0.9 0.85 0.8 0.75 0.7 0.65
相对熵 0.6943 0.6249 0.5799 0.5253 0.4348 0.3699 0.3199
表2
选取模块40,用于根据所述相对熵按照预设规则从各所述待选阈值中选取目标阈值。
应理解的是,所述待选阈值变化较快表示正确结果和错误结果的分布差距较大,选用此待选阈值作为所述目标阈值可以保留更多的正确结果,过滤掉更多的错误结果。从表2可以观察到,在接近0.8~0.75之间相对熵下降的速度最快,从0.85~0.8之间的时候,相对熵下降了0.05,从0.8~0.75的时候相对熵下降了0.09,因此将所述目标阈值设置为0.8。
本实施例中,通过预设意图识别模型对测试语料集进行意图识别,获得所述测试语料集中各测试语料的测试意图,获取各所述测试语料的真实意图,计算所述测试意图与所述真实意图之间的相似度,获得各所述测试语料的测试意图相似度,获取多个待选阈值,根据各待选阈值及所述测试意图相似度统计所述测试意图中各所述待选阈值对应的正确结果数量及错误结果数量,根据所述正确结果数量及所述错误结果数量,计算各所述待选阈值对应的相对熵,根据所述相对熵按照预设规则从各所述待选阈值中选取目标阈值,基于人工智能,使用相对熵的形式计算出正确结果分布以及错误结果分布之间的差异,根据分布差异选取目标阈值,以保留更多的正确结果,过滤掉更多的错误结果,从而提高意图识别的准确性。
在一实施例中,所述计算模块20,还用于对各所述待选阈值按照从大到小进行排序,计算相邻的所述待选阈值对应的所述相对熵之间的差值;获取所述差值中的最大值,将所述最大值对应的两个相对熵作为目标相对熵,选取所述目标相对熵中较大者对应的待选阈值作为目标阈值。
在一实施例中,所述获取模块,还用于获取训练语料及对应的训练意图;
所述训练模块,还用于根据所述训练语料及对应的所述训练意图对神经网络模型进行训练,获得预设意图识别模型。
在一实施例中,所述基于意图识别的阈值选取装置还包括:
筛选模块,用于根据所述目标阈值及所述测试意图相似度筛选所述测试意图中的错误结果,获取所述错误结果对应的测试语料作为目标语料;
所述训练模块,还用于获取所述目标语料对应的目标真实意图,根据所述目标语料及对应的所述目标真实意图对所述预设意图识别模型进行训练,获得修正识别模型。
在一实施例中,所述基于意图识别的阈值选取装置还包括:
语音检测模块,用于进行语音检测,将检测到的语音作为待识别语音;
所述意图识别模块,还用于通过所述修正识别模型对所述待识别语音进行意图识别,获得用户意图;
搜索模块,用于根据所述用户意图进行搜索,获得目标页面。
在一实施例中,所述搜索模块,还用于将所述用户意图进行展示;接收用户基于展示的所述用户意图的反馈语音信息,判断所述反馈语音信息是否属于确认信息;若所述反馈语音信息属于所述确认信息,则搜索与所述用户意图对应的目标页面。
在一实施例中,所述意图识别模块,还用于若所述反馈语音信息不属于所述确认信息,则通过所述修正识别模型对所述反馈语音信息进行意图识别,获得目标意图。
本发明所述基于意图识别的阈值选取装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为标识。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器镜像(Read Only Memory image,ROM)/随机存取存储器(Random AccessMemory,RAM)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于意图识别的阈值选取方法,其特征在于,所述基于意图识别的阈值选取方法包括以下步骤:
通过预设意图识别模型对测试语料集进行意图识别,获得所述测试语料集中各测试语料的测试意图;
获取各所述测试语料的真实意图,计算所述测试意图与所述真实意图之间的相似度,获得各所述测试语料的测试意图相似度;
获取多个待选阈值,根据各待选阈值及所述测试意图相似度统计所述测试意图中各所述待选阈值对应的正确结果数量及错误结果数量;
根据所述正确结果数量及所述错误结果数量,计算各所述待选阈值对应的相对熵;
根据所述相对熵按照预设规则从各所述待选阈值中选取目标阈值。
2.如权利要求1所述的基于意图识别的阈值选取方法,其特征在于,所述根据所述相对熵按照预设规则从各所述待选阈值中选取目标阈值,包括:
对各所述待选阈值按照从大到小进行排序,计算相邻的所述待选阈值对应的所述相对熵之间的差值;
获取所述差值中的最大值,将所述最大值对应的两个相对熵作为目标相对熵,选取所述目标相对熵中较大者对应的待选阈值作为目标阈值。
3.如权利要求1所述的基于意图识别的阈值选取方法,其特征在于,所述通过预设意图识别模型对测试语料集进行意图识别,获得所述测试语料集中各测试语料的测试意图之前,所述基于意图识别的阈值选取方法还包括:
获取训练语料及对应的训练意图;
根据所述训练语料及对应的所述训练意图对神经网络模型进行训练,获得预设意图识别模型。
4.如权利要求1-3中任一项所述的基于意图识别的阈值选取方法,其特征在于,所述根据所述相对熵按照预设规则从各所述待选阈值中选取目标阈值之后,所述基于意图识别的阈值选取方法还包括:
根据所述目标阈值及所述测试意图相似度筛选所述测试意图中的错误结果,获取所述错误结果对应的测试语料作为目标语料;
获取所述目标语料对应的目标真实意图,根据所述目标语料及对应的所述目标真实意图对所述预设意图识别模型进行训练,获得修正识别模型。
5.如权利要求4所述的基于意图识别的阈值选取方法,其特征在于,所述获取所述目标语料对应的目标真实意图,根据所述目标语料及对应的所述目标真实意图对所述预设意图识别模型进行训练,获得修正识别模型之后,所述基于意图识别的阈值选取方法还包括:
进行语音检测,将检测到的语音作为待识别语音;
通过所述修正识别模型对所述待识别语音进行意图识别,获得用户意图;
根据所述用户意图进行搜索,获得目标页面。
6.如权利要求5所述的基于意图识别的阈值选取方法,其特征在于,所述根据所述用户意图进行搜索,获得目标页面,包括:
将所述用户意图进行展示;
接收用户基于展示的所述用户意图的反馈语音信息,判断所述反馈语音信息是否属于确认信息;
若所述反馈语音信息属于所述确认信息,则搜索与所述用户意图对应的目标页面。
7.如权利要求6所述的基于意图识别的阈值选取方法,其特征在于,所述接收用户基于展示的所述用户意图的反馈语音信息,判断所述反馈语音信息是否属于确认信息之后,所述基于意图识别的阈值选取方法还包括:
若所述反馈语音信息不属于所述确认信息,则通过所述修正识别模型对所述反馈语音信息进行意图识别,获得目标意图。
8.一种基于意图识别的阈值选取设备,其特征在于,所述基于意图识别的阈值选取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于意图识别的阈值选取程序,所述基于意图识别的阈值选取程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于意图识别的阈值选取方法的步骤。
9.一种存储介质,其特征在于,所述存储介质上存储有基于意图识别的阈值选取程序,所述基于意图识别的阈值选取程序被处理器执行时实现如权利要求1至7中任一项所述的基于意图识别的阈值选取方法的步骤。
10.一种基于意图识别的阈值选取装置,其特征在于,所述基于意图识别的阈值选取装置包括:
意图识别模块,用于通过预设意图识别模型对测试语料集进行意图识别,获得所述测试语料集中各测试语料的测试意图;
计算模块,用于获取各所述测试语料的真实意图,计算所述测试意图与所述真实意图之间的相似度,获得各所述测试语料的测试意图相似度;
统计模块,用于获取多个待选阈值,根据各待选阈值及所述测试意图相似度统计所述测试意图中各所述待选阈值对应的正确结果数量及错误结果数量;
所述计算模块,还用于根据所述正确结果数量及所述错误结果数量,计算各所述待选阈值对应的相对熵;
选取模块,用于根据所述相对熵按照预设规则从各所述待选阈值中选取目标阈值。
CN201910751715.3A 2019-08-14 2019-08-14 基于意图识别的阈值选取方法、设备、存储介质及装置 Active CN110503143B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910751715.3A CN110503143B (zh) 2019-08-14 2019-08-14 基于意图识别的阈值选取方法、设备、存储介质及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910751715.3A CN110503143B (zh) 2019-08-14 2019-08-14 基于意图识别的阈值选取方法、设备、存储介质及装置

Publications (2)

Publication Number Publication Date
CN110503143A true CN110503143A (zh) 2019-11-26
CN110503143B CN110503143B (zh) 2024-03-19

Family

ID=68587485

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910751715.3A Active CN110503143B (zh) 2019-08-14 2019-08-14 基于意图识别的阈值选取方法、设备、存储介质及装置

Country Status (1)

Country Link
CN (1) CN110503143B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078893A (zh) * 2019-12-11 2020-04-28 竹间智能科技(上海)有限公司 一种大规模高效获取识别对话意图用语料的方法
CN111128161A (zh) * 2019-12-23 2020-05-08 上海优扬新媒信息技术有限公司 一种数据处理方法、装置及电子设备
CN111191018A (zh) * 2019-12-30 2020-05-22 华为技术有限公司 对话系统的应答方法和装置、电子设备、智能设备
CN111611366A (zh) * 2020-05-20 2020-09-01 北京百度网讯科技有限公司 意图识别优化处理方法、装置、设备及存储介质
CN111739519A (zh) * 2020-06-16 2020-10-02 平安科技(深圳)有限公司 基于语音识别的对话管理处理方法、装置、设备及介质
CN113361511A (zh) * 2020-03-05 2021-09-07 顺丰科技有限公司 修正模型的建立方法、装置、设备及计算机可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516986A (zh) * 2015-01-16 2015-04-15 青岛理工大学 一种语句识别方法及装置
WO2017024884A1 (zh) * 2015-08-07 2017-02-16 广州神马移动信息科技有限公司 一种搜索意图识别方法及装置
US20180107933A1 (en) * 2016-01-07 2018-04-19 Tencent Technology (Shenzhen) Company Limited Web page training method and device, and search intention identifying method and device
CN109543190A (zh) * 2018-11-29 2019-03-29 北京羽扇智信息科技有限公司 一种意图识别方法、装置、设备及存储介质
CN109727041A (zh) * 2018-07-03 2019-05-07 平安科技(深圳)有限公司 智能客服多轮问答方法、设备、存储介质及装置
CN109815314A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 一种意图识别方法、识别设备及计算机可读存储介质
CN109815492A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 一种基于识别模型的意图识别方法、识别设备及介质
CN109858022A (zh) * 2019-01-04 2019-06-07 平安科技(深圳)有限公司 一种用户意图识别方法、装置、计算机设备及存储介质
CN109871446A (zh) * 2019-01-31 2019-06-11 平安科技(深圳)有限公司 意图识别中的拒识方法、电子装置及存储介质
CN110069709A (zh) * 2019-04-10 2019-07-30 腾讯科技(深圳)有限公司 意图识别方法、装置、计算机可读介质及电子设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516986A (zh) * 2015-01-16 2015-04-15 青岛理工大学 一种语句识别方法及装置
WO2017024884A1 (zh) * 2015-08-07 2017-02-16 广州神马移动信息科技有限公司 一种搜索意图识别方法及装置
US20180107933A1 (en) * 2016-01-07 2018-04-19 Tencent Technology (Shenzhen) Company Limited Web page training method and device, and search intention identifying method and device
CN109727041A (zh) * 2018-07-03 2019-05-07 平安科技(深圳)有限公司 智能客服多轮问答方法、设备、存储介质及装置
CN109543190A (zh) * 2018-11-29 2019-03-29 北京羽扇智信息科技有限公司 一种意图识别方法、装置、设备及存储介质
CN109815314A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 一种意图识别方法、识别设备及计算机可读存储介质
CN109815492A (zh) * 2019-01-04 2019-05-28 平安科技(深圳)有限公司 一种基于识别模型的意图识别方法、识别设备及介质
CN109858022A (zh) * 2019-01-04 2019-06-07 平安科技(深圳)有限公司 一种用户意图识别方法、装置、计算机设备及存储介质
CN109871446A (zh) * 2019-01-31 2019-06-11 平安科技(深圳)有限公司 意图识别中的拒识方法、电子装置及存储介质
CN110069709A (zh) * 2019-04-10 2019-07-30 腾讯科技(深圳)有限公司 意图识别方法、装置、计算机可读介质及电子设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078893A (zh) * 2019-12-11 2020-04-28 竹间智能科技(上海)有限公司 一种大规模高效获取识别对话意图用语料的方法
CN111128161A (zh) * 2019-12-23 2020-05-08 上海优扬新媒信息技术有限公司 一种数据处理方法、装置及电子设备
CN111191018A (zh) * 2019-12-30 2020-05-22 华为技术有限公司 对话系统的应答方法和装置、电子设备、智能设备
CN111191018B (zh) * 2019-12-30 2023-10-20 华为技术有限公司 对话系统的应答方法和装置、电子设备、智能设备
CN113361511A (zh) * 2020-03-05 2021-09-07 顺丰科技有限公司 修正模型的建立方法、装置、设备及计算机可读存储介质
CN111611366A (zh) * 2020-05-20 2020-09-01 北京百度网讯科技有限公司 意图识别优化处理方法、装置、设备及存储介质
CN111611366B (zh) * 2020-05-20 2023-08-11 北京百度网讯科技有限公司 意图识别优化处理方法、装置、设备及存储介质
US11972219B2 (en) 2020-05-20 2024-04-30 Beijing Baidu Netcom Science Technology Co., Ltd. Intent recognition optimization processing method, apparatus, and storage medium
CN111739519A (zh) * 2020-06-16 2020-10-02 平安科技(深圳)有限公司 基于语音识别的对话管理处理方法、装置、设备及介质

Also Published As

Publication number Publication date
CN110503143B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN110503143A (zh) 基于意图识别的阈值选取方法、设备、存储介质及装置
CN110222170B (zh) 一种识别敏感数据的方法、装置、存储介质及计算机设备
CN109815314B (zh) 一种意图识别方法、识别设备及计算机可读存储介质
CN108491388B (zh) 数据集获取方法、分类方法、装置、设备及存储介质
CN109299344A (zh) 排序模型的生成方法、搜索结果的排序方法、装置及设备
CN109582969A (zh) 实体匹配方法、装置及电子设备
CN106651057A (zh) 一种基于安装包序列表的移动端用户年龄预测方法
CN109684627A (zh) 一种文本分类方法及装置
CN111159404B (zh) 文本的分类方法及装置
CN106843941B (zh) 信息处理方法、装置和计算机设备
CN109993057A (zh) 语义识别方法、装置、设备及计算机可读存储介质
CN108038208A (zh) 上下文信息识别模型的训练方法、装置和存储介质
CN109063000A (zh) 问句推荐方法、客服系统以及计算机可读存储介质
CN111797239A (zh) 应用程序的分类方法、装置及终端设备
CN112463859B (zh) 基于大数据和业务分析的用户数据处理方法及服务器
CN113641794A (zh) 简历文本的评估方法、装置及服务器
CN110263853A (zh) 利用错误样本检查人工客户端状态的方法及装置
CN109145116A (zh) 一种文本分类方法、装置、电子设备及存储介质
CN101986309A (zh) 查询题库的方法及装置
CN104933178B (zh) 官方网站确定方法和系统及官方网站的排序方法
CN107908649B (zh) 一种文本分类的控制方法
CN105787004A (zh) 一种文本分类方法及装置
CN104850540A (zh) 进行语句识别的方法及装置
CN104408036A (zh) 关联话题的识别方法和装置
CN108229564A (zh) 一种数据的处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant