CN110162633B

CN110162633B - 语音数据意图确定方法、装置、计算机设备和存储介质

Info

Publication number: CN110162633B
Application number: CN201910422451.7A
Authority: CN
Inventors: 刘凯; 黄佳恒; 范成涛; 刘利明; 严为绒; 贺国栋; 张敏超
Original assignee: Shenzhen Zhenaiyun Information Technology Co ltd
Current assignee: Shenzhen aiteyun Information Technology Co.,Ltd.
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2022-02-11
Anticipated expiration: 2039-05-21
Also published as: CN110162633A

Abstract

本申请涉及一种语音数据意图确定方法、系统、计算机设备和存储介质。方法包括：获取实时的语音数据，将语音数据转换成语音文本；当语音文本的长度大于预设第一长度阈值时，获取语音文本中与预设关键词库中匹配成功的文本关键词；获取文本关键词的置信度，将文本关键词对应的意图类型作为第一预测意图；将语音文本输入至训练好的文本分类模型中，获取文本分类模型输出的意图标签及对应的概率；将概率最高的意图标签对应的意图类型作为第二预测意图；将第一预测意图的置信度值与第二预测意图的概率值进行对比，选取数值最大对应的预测意图作为语音数据的意图类型。

Description

语音数据意图确定方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音数据意图确定方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，人工智能的应用领域也越来越广泛。比如兴起的电话机器人，也是人工智能的一部分，被越来越多涉及到电话销售相关的企业所青睐。随着人工智能技术的发展，企业愈发倾向于用电话机器人代替人工从事电话销售和电话客服，以减轻企业和员工的压力，且电话机器人可以做到24小时在线服务，并且无需顾虑恶劣对话对员工带来的影响。

然而在使用电话机器人时，需要电话机器人实时快速的识别用户的意图。传统技术中，一般采用的机器学习对用户的意图直接进行识别。但是采用这种意图的识别方式时，采用的机器学习模型，模型对词向量、文本长度、文本质量以及数据集的大小均有一定的要求，当文本无法达到模型的要求时，意图的识别准确率则会降低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高识别准确率的语音数据意图确定方法、装置、计算机设备和存储介质。

一种语音数据意图确定方法，所述方法包括：

获取实时的语音数据，将所述语音数据转换成语音文本；

当所述语音文本的长度大于预设第一长度阈值时，获取所述语音文本中与预设关键词库中匹配成功的文本关键词；

获取所述文本关键词的置信度，将所述文本关键词对应的意图类型作为第一预测意图；

将所述语音文本输入至训练好的文本分类模型中，获取所述文本分类模型输出的意图标签及对应的概率；

将概率最高的意图标签对应的意图类型作为第二预测意图；

将所述第一预测意图的置信度值与所述第二预测意图的概率值进行对比，选取数值最大对应的预测意图作为所述语音数据的意图类型。

一种语音数据意图确定装置，所述装置包括：

语音数据获取模块，用于获取实时的语音数据，将所述语音数据转换成语音文本；

第一意图匹配模块，用于当所述语音文本的长度大于预设第一长度阈值时，获取所述语音文本中与预设关键词库中匹配成功的文本关键词；获取所述文本关键词的置信度，将所述文本关键词对应的意图类型作为第一预测意图；

第二意图匹配模块，用于将所述语音文本输入至训练好的文本分类模型中，获取所述文本分类模型输出的意图标签及对应的概率；将概率最高的意图标签对应的意图类型作为第二预测意图；

意图最终确定模块，用于将所述第一预测意图的置信度值与所述第二预测意图的概率值进行对比，选取数值最大对应的预测意图作为所述语音数据的意图类型。

一种计算机设备，包括存储器、处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取实时的语音数据，将所述语音数据转换成语音文本；

将概率最高的意图标签对应的意图类型作为第二预测意图；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取实时的语音数据，将所述语音数据转换成语音文本；

将概率最高的意图标签对应的意图类型作为第二预测意图；

上述语音数据意图确定方法、装置、计算机设备和存储介质，通过获取到实时的语音数据并将语音数据转换成语音文本，根据语音文本的长度确定预设关键词库，并确定匹配成功的文本关键词，同时可以将语音文本输入至训练好的文本分类模型中，获取文本分类模型对语音文本的意图预测类型，结合关键词匹配的结果和文本分类模型的预测结果，将数值最大的预测意图作为对该语音数据的最终意图类型。通过结合关键词匹配和机器学习模型的方式，使得具备自动抽取特征能力的机器学习模型弥补了关键词设计繁琐的问题，因此预设关键词库可以不要求非常完美，而是允许存在一定的误差，因此在结合这两个识别方式以最终确定对用户的实时语音数据的意图类型时，使得确定意图类型的效率非常高，同时还可以保证对实时的语音数据意图确定的准确度。

附图说明

图1为一个实施例中语音数据意图确定方法的应用环境图；

图2为一个实施例中语音数据意图确定方法的流程示意图；

图3为一个实施例中关键词等级的置信度计算步骤的流程示意图；

图4为一个实施例中语音数据意图确定装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的语音数据意图确定方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。终端102上可以安装电话机器人，可以主动发起电话呼叫，并对通话进行录音，作为历史语音数据存储至服务器104。终端102还可以将实时产生的语音数据转换为语音文本发送至服务器104进行意图识别，或者终端102将实时产生的语音数据发送至服务器104，服务器104将语音数据转换成语音文本，再进行意图识别。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种语音数据意图确定方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤201，获取实时的语音数据，将语音数据转换成语音文本。

实时的语音数据来源于电话机器人与用户的语音通话，电话机器人可自动发起语音呼叫，当用户接通后，即可自动与用户进行对话。实时的语音数据即指的是用户接通电话后与电话机器人的对话数据。服务器可以获取到终端上安装的电话机器人与用户通话时，实时产生的语音数据，并可以通过语音转换接口将语音数据转换成文本，即语音文本。

步骤202，当语音文本的长度大于预设第一长度阈值时，获取语音文本中与预设关键词库中匹配成功的文本关键词。

将语音格式的语音数据转换成语音文本后，可以确定该语音文本的长度。在计算语音文本的长度时，可以按照一个中文的长度为1的方式进行计算。当语音文本的长度大于预设第一长度阈值时，可以认为该语音文本为较长的文本，则可以通过关键词与模型结合的方式确定语音文本中的关键词。进一步的，若是确定语音文本为较短的文本，则直接通过关键词匹配的方式确定语音文本中的关键词。可以获取数据库中存储的预设关键词库，使用预设关键词库中包含的关键词与语音文本进行匹配。当预设关键词库中存在有关键词与语音文本匹配成功时，即语音文本中至少包含有一个预设关键词库中的关键词时，可以将语音文本中包含的关键词称为文本关键词。预设第一长度阈值是由技术人员自定义的，用于判定语音文本是否属于长文本，可根据实际需要进行调整。预设关键词库也是由技术人员预先创建的，预设关键词库中包含有多个关键词，关键词可以是长词语或短词语，也可以是一句话，也可以是一个字。

在一个实施例中，获取语音文本中与预设关键词库中匹配成功的文本关键词，包括：获取预设关键词库，预设关键词库中包含多个预设关键词；按照预设关键词的长度，从大到小依次将预设关键词与语音文本进行匹配；当存在有匹配成功的预设关键词时，将预设关键词作为语音文本的文本关键词。

数据库中存储的预设关键词库中包含有多个预设关键词，每个预设关键词的长度可能存在区别。比如预设关键词“我不是单身”和“单身”这两个预设关键词的长度是不同的，分别是5和2。在确定语音文本的文本关键词时，可以优先将预设关键词库中的长度较长的预设关键词与语音文本进行匹配。即，可以按照预设关键词的长度，按照从大到小的顺序，先将长度最长的预设关键词与语音文本进行匹配，若是未匹配成功，再依次将预设关键词与语音文本进行匹配。

为了提高文本关键词的确定速率，可以根据语音文本的长度选定优先要匹配的预设关键词。比如当语音文本的长度为8，则可以排除预设关键词库中长度大于8的关键词，而是可以将长度为8的预设关键词优先与语音文本进行匹配。进一步的，由于预设关键词有多个，且长度不一，那么在按照预设关键词的长度依次将预设关键词与语音文本进行匹配时，若是有预设关键词与语音文本匹配成功，则直接可以确定语音文本所对应的文本关键词，而无需再将预设关键词与语音文本进行匹配，如此，可以迅速的确定语音文本的文本关键词。

在一个实施例中，预设关键词库包括：短文本关键词库和长文本关键词库。当语音文本的长度大于预设第一长度阈值时，获取语音文本中与预设关键词库中匹配成功的文本关键词，包括：当语音文本的长度大于预设第一长度阈值，且小于预设第二长度阈值时，获取语音文本中与短文本关键词库中匹配成功的文本关键词；当语音文本的长度大于预设第二长度阈值时，获取语音文本中与长文本关键词库中匹配成功的文本关键词。

数据库中存储的预设关键词库包含有两个分类词库，即短文本关键词库和长文本关键词库。短文本关键词库中包含的是长度较短的预设关键词，长文本关键词库中包含的是长度较长的预设关键词，进一步的，可以设定一个长度阈值，将长度超过长度阈值的预设关键词存储在长文本关键词库中，而将长度等于或小于长度阈值的预设关键词存储在短文本关键词库中。

在选择预设关键词库时，可以根据语音文本的长度选择短文本关键词库还是长文本关键词库中的预设关键词与语音文本进行匹配确认。当语音文本的长度大于预设第一长度阈值并且小于预设第二长度阈值时，可以认为语音文本的长度达到了需要结合关键词与模型共同确认文本关键词的长度，同时，由于语音文本的长度小于预设第二长度阈值，则说明语音文本还属于规定的短文本，因此，可以使用短文本关键词库中的预设关键词与语音文本进行匹配，以确定语音文本中的文本关键词。同理，当语音文本的长度大于预设第二长度阈值时，说明语音文本属于规定的长文本，可以使用长文本关键词库中的预设关键词与语音文本进行匹配，以确定语音文本中的文本关键词。

步骤203，获取文本关键词的置信度，将文本关键词对应的意图类型作为第一预测意图。

文本关键词的置信度指的是这一关键词对应的准确度，每一个关键词的置信度是预先计算出来的。因此，在确定了语音文本中包含的文本关键词后，可以从数据库中获取到该文本关键词对应的置信度，以用于跟模型预测的意图标签的概率进行比较。关键词匹配的结果即为文本关键词所对应的意图类型，可将关键词匹配确定的语音数据的意图类型称为第一预测意图。

在一个实施例中，获取文本关键词的置信度，包括：获取文本关键词对应的关键词等级的置信度。

数据库中存储的各个预设关键词对应的置信度，实际上是与文本关键词对应的关键词等级相关。每一个关键词等级包含有多个预设关键词，即，多个预设关键词对应的关键词等级可以是一样的。每一个关键词等级均有对应的置信度，因此，属于同一个关键词等级下的预设关键词的置信度是一致的。

在一个实施例中，如图3所示，关键词等级的置信度通过如下方式计算得到：

步骤301，获取数据库中的历史语音数据，将历史语音数据转换为历史语音文本。

步骤302，对每个历史语音文本添加目标意图类型。

步骤303，获取历史语音文本与预设关键词库中匹配成功的历史文本关键词及历史文本关键词对应的关键词等级。

步骤304，获取历史关键词对应的意图类型作为比对意图类型。

步骤305，根据关键词等级，分别将比对意图类型与目标意图类型进行对比。

步骤306，获取与目标意图类型一致的比对意图类型的数量为第一数值。

步骤307，获取每一个关键词等级中与历史语音文本匹配成功的历史文本关键词数量为第二数值。

步骤308，将第一数值与第二数值的比值作为每个关键词等级的置信度。

在确定每一个关键词等级的置信度时，可以通过以下方式计算得到。首先，可以获取到数据库中的历史语音数据，即电话机器人的历史通话记录的语音数据，还可以通过语音转换接口，将历史语音数据转换成历史语音文本。可以对每个历史语音文本添加目标意图类型，在添加时，可以由技术人员确定每一个历史语音文本应该对应的目标意图类型，同时，可以将添加的目标意图类型作为标准，若是关键词匹配的结果与目标意图类型是一致的，则认为关键词匹配正确；若是关键词匹配的结果与目标意图类型不一致，则认为关键词匹配错误。

同样的，可以通过将预设关键词库中的预设关键词与语音文本进行匹配的方式，可以确定历史语音文本中的历史文本关键词，同时获取到每一个历史文本关键词对应的关键词等级。可以将匹配成功的历史关键词所对应的意图类型作为比对意图类型，用于与目标意图类型进行比对，以确定是否匹配正确。

在将比对意图类型与目标意图类型进行比对匹配时，可以根据关键词等级分别进行比对。即，将属于同一个关键词等级的多个历史关键词划为一个类，若关键词等级有5个，则可以将全部的历史关键词划分为5个类，分别对应rank1，rank2，rank3，rank4和rank5。按照关键词等级进行区分，分别将每一个关键词等级内包含的历史关键词对应的比对意图类型与目标意图类型进行对比。针对每一条历史语音文本，都有预先添加的目标意图类型和关键词匹配后的对比意图类型。也就是说，在根据关键词等级对关键词匹配确定的历史关键词进行划分后，可以将每一个关键词等级内包含的历史关键词对应的比对意图类型与该语音文本对应的目标意图类型进行对比匹配。

匹配后，可以获取到针对每个关键词等级中，与目标意图类型一致的比对意图类型的数量为第一数值，并获取每一个关键词等级中与历史语音文本匹配成功的历史文本关键词数量为第二数值，即可将第一数值与第二数值的比值作为每个关键词等级的置信度。

步骤204，将语音文本输入至训练好的文本分类模型中，获取文本分类模型输出的意图标签及对应的概率。

步骤205，将概率最高的意图标签对应的意图类型作为第二预测意图。

当语音文本的长度大于预设第一长度阈值时，则需要通过关键词匹配与模型预测结合的方式确定语音文本所对应的文本关键词。可以将语音文本输入至训练好的文本分类模型中，训练好的文本分类模型即可输出对语音文本的预测结果，即输出对语音文本预测的多个意图标签及与每个意图标签对应的概率。比如，文本分类模型对输入的语音文本X1的预测为(rank1：0.9，rank2：0.85，rank3：0.7)。由于文本分类模型输出的意图标签有多个，则可以将概率值最高的意图标签作为文本分类模型的最终预测结论，可将文本分类模型的最终预测结论称为第二预测意图。

步骤206，将第一预测意图的置信度值与第二预测意图的概率值进行对比，选取数值最大对应的预测意图作为语音数据的意图类型。

关键词匹配的结果为第一预测意图，文本分类模型的预测结果为第二预测意图，将两者进行结合，即可得到对语音文本对应的意图类型的最终确认结果。具体的，可以将第一预测意图的置信度值与第二预测意图的概率值进行对比，取值最高的作为最终结果，即选取数值最大对应的预测意图作为语音数据的意图类型。若是第一预测意图的置信度值大于第二预测意图的概率值，则将第一预测意图对颖的意图类型作为语音数据的意图类型；若是第一预测意图的置信度值小于第二预测意图的概率值，则将第二预测意图对颖的意图类型作为语音数据的意图类型。针对这样的方式确定了电话机器人实时接收的语音数据的意图类型后，则可以设定电话机器人针对这一意图类型下的回复语，避免电话机器人与用户出现“鸡同鸭讲”的情形，而是保证了电话机器人对于用户回应的的准确回复，也可以准确到想要从用户那得到的讯息。

上述语音数据意图确定方法中，通过获取到实时的语音数据并将语音数据转换成语音文本，根据语音文本的长度确定预设关键词库，并确定匹配成功的文本关键词，同时可以将语音文本输入至训练好的文本分类模型中，获取文本分类模型对语音文本的意图预测类型，结合关键词匹配的结果和文本分类模型的预测结果，将数值最大的预测意图作为对该语音数据的最终意图类型。通过结合关键词匹配和机器学习模型的方式，使得具备自动抽取特征能力的机器学习模型弥补了关键词设计繁琐的问题，因此预设关键词库可以不要求非常完美，而是允许存在一定的误差，因此在结合这两个识别方式以最终确定对用户的实时语音数据的意图类型时，使得确定意图类型的效率非常高，同时还可以保证对实时的语音数据意图确定的准确度。

在一个实施例中，上述方法包括对文本分类模型的训练步骤：从样本数据库中获取多个语音数据样本；将语音数据样本转换成语音文本样本；对语音文本样本进行预处理后，为每个语音文本样本添加样本意图标签；将预处理后的语音文本样本输入至文本分类模型中对文本分类模型进行训练，得到训练好的文本分类模型。

在将文本分类模型正式投入实际使用之前，可以先对文本分类模型进行训练。可以从样本数据库中获取到多个语音数据样本，将语音数据的样本转换成语音文本的样本数据。还可以对语音文本进行预处理，预处理操作包括去除语音文本样本中的停用词，比如语气助词，“哦”，“啊”，“了”，“呀”，“呢”，等等，这种词与整个句子表达的意思并无关联，因此可以去除掉这些没有实际表达含义的词，以加快关键词的匹配速度。对语音文本样本进行预处理后，可以为每个语音文本样本添加样本意图标签，添加的意图标签用于判定文本分类模型是否对语音文本的意图类型预测准确。将添加了样本意图标签后的语音文本样本输入至文本分类模型中对文本分类模型进行训练。当文本分类模型的预测准确率达到预设准确率时，即可认为文本分类模型训练完毕，可得到训练好的文本分类模型。

在一个实施例中，上述方法还包括：当语音文本的长度小于或等于预设第一长度阈值时，获取语音文本中与预设关键词库中匹配成功的文本关键词；将文本关键词对应的意图类型作为语音数据的意图类型。

当语音文本的长度大于预设第一长度阈值时，则需要通过关键词匹配与文本分类模型结合的方式确定语音文本中的文本关键词。当语音文本的长度小于或等于预设第一长度阈值时，则可以认为语音文本的长度较短，可直接通过预设关键词库中包含的预设关键词与语音文本进行匹配即可。比如，预设第一长度阈值为3，那么当语音文本的长度小于或等于3时，语音文本较短，可以直接将预设关键词库中包含的长度为3的预设关键词与语音文本进行匹配，若是匹配成功，则可以准确的获取到语音文本中包含的文本关键词。也就是说，当语音文本的长度较短时，使用关键词匹配的方式可以非常准确的确定语音文本的文本关键词，无需再结合文本分类模型的预测结果，这样可以迅速的确定语音数据对应的意图类型。

在一个实施例中，将概率最高的意图标签对应的意图类型作为第二预测意图，包括：当每个意图标签对应的概率均低于预设概率阈值时，确定文本分类模型的预测结果为空。上述方法还包括：将第一预测意图作为语音数据的意图类型。

将语音文本输入至训练好的文本分类模型中后，文本分类模型会输出对语音文本的意图类型的预测结果，包含多个意图类型和每个意图类型对应的概率。若是文本分类模型输出的每个意图类型对应的概率全部都低于预设概率阈值，则可以认为文本分类模型的预测结果是为空的。比如预设概率阈值为0.5，若是文本分类模型输出的每个意图类型对应的概率全部都低于0.5，则说明文本分类模型预测到语音文本属于任何一个意图类型的概率都较低，此时可以判定文本分类模型的预测结果为空。这种情况下，则可以将第一预测意图作为语音数据的意图类型。

若是出现第一预测意图与第二预测意图都无法确定真正的意图类型的情况下，也可以设定一种意图类型叫“兜底”，即代表意图类型无法明确确定，只能画一个问号，针对这种情况，可以设置电话机器人的一种通用回复，比如，“对不起，我没有听清楚，请再说一次”，以此方式再次获取用户的意图表达，则可以再一次对用户真正想要表达的意图进行确认。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种语音数据意图确定装置，包括：

语音数据获取模块401，用于获取实时的语音数据，将语音数据转换成语音文本。

第一意图匹配模块402，用于当语音文本的长度大于预设第一长度阈值时，获取语音文本中与预设关键词库中匹配成功的文本关键词；获取文本关键词的置信度，将文本关键词对应的意图类型作为第一预测意图。

第二意图匹配模块403，用于将语音文本输入至训练好的文本分类模型中，获取文本分类模型输出的意图标签及对应的概率；将概率最高的意图标签对应的意图类型作为第二预测意图。

意图最终确定模块404，用于将第一预测意图的置信度值与第二预测意图的概率值进行对比，选取数值最大对应的预测意图作为语音数据的意图类型。

在一个实施例中，第一意图匹配模块402还用于获取预设关键词库，预设关键词库中包含多个预设关键词；按照预设关键词的长度，从大到小依次将预设关键词与语音文本进行匹配；当存在有匹配成功的预设关键词时，将预设关键词作为语音文本的文本关键词。

在一个实施例中，预设关键词库包括：短文本关键词库和长文本关键词库。第一意图匹配模块402还用于当语音文本的长度大于预设第一长度阈值，且小于预设第二长度阈值时，获取语音文本中与短文本关键词库中匹配成功的文本关键词；当语音文本的长度大于预设第二长度阈值时，获取语音文本中与长文本关键词库中匹配成功的文本关键词。

在一个实施例中，第一意图匹配模块402还用于获取文本关键词对应的关键词等级的置信度。上述语音数据意图确定装置还包括置信度计算模块，用于获取数据库中的历史语音数据，将历史语音数据转换为历史语音文本；对每个历史语音文本添加目标意图类型；获取历史语音文本与预设关键词库中匹配成功的历史文本关键词及历史文本关键词对应的关键词等级；获取历史关键词对应的意图类型作为比对意图类型；根据关键词等级，分别将比对意图类型与目标意图类型进行对比；获取与目标意图类型一致的比对意图类型的数量为第一数值；获取每一个关键词等级中与历史语音文本匹配成功的历史文本关键词数量为第二数值；将第一数值与第二数值的比值作为每个关键词等级的置信度。

在一个实施例中，上述语音数据意图确定装置还包括文本分类模型训练模块，用于从样本数据库中获取多个语音数据样本；将语音数据样本转换成语音文本样本；对语音文本样本进行预处理后，为每个语音文本样本添加样本意图标签；将预处理后的语音文本样本输入至文本分类模型中对文本分类模型进行训练，得到训练好的文本分类模型。

在一个实施例中，意图最终确定模块404还用于当语音文本的长度小于或等于预设第一长度阈值时，获取语音文本中与预设关键词库中匹配成功的文本关键词；将文本关键词对应的意图类型作为语音数据的意图类型。

在一个实施例中，第二意图匹配模块403还用于当每个意图标签对应的概率均低于预设概率阈值时，确定文本分类模型的预测结果为空。意图最终确定模块404还用于将第一预测意图作为语音数据的意图类型。

关于语音数据意图确定装置的具体限定可以参见上文中对于语音数据意图确定方法的限定，在此不再赘述。上述语音数据意图确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音数据意图确定的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音数据意图确定方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取实时的语音数据，将语音数据转换成语音文本；当语音文本的长度大于预设第一长度阈值时，获取语音文本中与预设关键词库中匹配成功的文本关键词；获取文本关键词的置信度，将文本关键词对应的意图类型作为第一预测意图；将语音文本输入至训练好的文本分类模型中，获取文本分类模型输出的意图标签及对应的概率；将概率最高的意图标签对应的意图类型作为第二预测意图；将第一预测意图的置信度值与第二预测意图的概率值进行对比，选取数值最大对应的预测意图作为语音数据的意图类型。

在一个实施例中，获取文本关键词的置信度，包括：获取文本关键词对应的关键词等级的置信度。关键词等级的置信度通过如下方式计算得到：获取数据库中的历史语音数据，将历史语音数据转换为历史语音文本；对每个历史语音文本添加目标意图类型；获取历史语音文本与预设关键词库中匹配成功的历史文本关键词及历史文本关键词对应的关键词等级；获取历史关键词对应的意图类型作为比对意图类型；根据关键词等级，分别将比对意图类型与目标意图类型进行对比；获取与目标意图类型一致的比对意图类型的数量为第一数值；获取每一个关键词等级中与历史语音文本匹配成功的历史文本关键词数量为第二数值；将第一数值与第二数值的比值作为每个关键词等级的置信度。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：从样本数据库中获取多个语音数据样本；将语音数据样本转换成语音文本样本；对语音文本样本进行预处理后，为每个语音文本样本添加样本意图标签；将预处理后的语音文本样本输入至文本分类模型中对文本分类模型进行训练，得到训练好的文本分类模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：当语音文本的长度小于或等于预设第一长度阈值时，获取语音文本中与预设关键词库中匹配成功的文本关键词；将文本关键词对应的意图类型作为语音数据的意图类型。

在一个实施例中，将概率最高的意图标签对应的意图类型作为第二预测意图，包括：当每个意图标签对应的概率均低于预设概率阈值时，确定文本分类模型的预测结果为空。处理器执行计算机程序时还实现以下步骤：将第一预测意图作为语音数据的意图类型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取实时的语音数据，将语音数据转换成语音文本；当语音文本的长度大于预设第一长度阈值时，获取语音文本中与预设关键词库中匹配成功的文本关键词；获取文本关键词的置信度，将文本关键词对应的意图类型作为第一预测意图；将语音文本输入至训练好的文本分类模型中，获取文本分类模型输出的意图标签及对应的概率；将概率最高的意图标签对应的意图类型作为第二预测意图；将第一预测意图的置信度值与第二预测意图的概率值进行对比，选取数值最大对应的预测意图作为语音数据的意图类型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：从样本数据库中获取多个语音数据样本；将语音数据样本转换成语音文本样本；对语音文本样本进行预处理后，为每个语音文本样本添加样本意图标签；将预处理后的语音文本样本输入至文本分类模型中对文本分类模型进行训练，得到训练好的文本分类模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：当语音文本的长度小于或等于预设第一长度阈值时，获取语音文本中与预设关键词库中匹配成功的文本关键词；将文本关键词对应的意图类型作为语音数据的意图类型。

在一个实施例中，将概率最高的意图标签对应的意图类型作为第二预测意图，包括：当每个意图标签对应的概率均低于预设概率阈值时，确定文本分类模型的预测结果为空。计算机程序被处理器执行时还实现以下步骤：将第一预测意图作为语音数据的意图类型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音数据意图确定方法，所述方法包括：

获取实时的语音数据，将所述语音数据转换成语音文本；

将概率最高的意图标签对应的意图类型作为第二预测意图；

将所述第一预测意图的置信度值与所述第二预测意图的概率值进行对比，选取数值最大对应的预测意图作为所述语音数据的意图类型；

所述获取所述文本关键词的置信度，包括：获取所述文本关键词对应的关键词等级的置信度；

所述关键词等级的置信度通过如下方式计算得到：

获取数据库中的历史语音数据，将所述历史语音数据转换为历史语音文本；

对每个历史语音文本添加目标意图类型；

获取所述历史语音文本与预设关键词库中匹配成功的历史文本关键词及所述历史文本关键词对应的关键词等级；

获取所述历史文本关键词对应的意图类型作为比对意图类型；

根据所述关键词等级，分别将所述比对意图类型与所述目标意图类型进行对比；

获取与所述目标意图类型一致的比对意图类型的数量为第一数值；

获取每一个关键词等级中与所述历史语音文本匹配成功的历史文本关键词数量为第二数值；

将所述第一数值与所述第二数值的比值作为每个关键词等级的置信度。

2.根据权利要求1所述的方法，其特征在于，所述获取所述语音文本中与预设关键词库中匹配成功的文本关键词，包括：

获取预设关键词库，所述预设关键词库中包含多个预设关键词；

按照所述预设关键词的长度，从大到小依次将所述预设关键词与所述语音文本进行匹配；

当存在有匹配成功的预设关键词时，将所述预设关键词作为所述语音文本的文本关键词。

3.根据权利要求1所述的方法，其特征在于，所述预设关键词库包括：短文本关键词库和长文本关键词库；

当所述语音文本的长度大于预设第一长度阈值时，获取所述语音文本中与预设关键词库中匹配成功的文本关键词，包括：

当所述语音文本的长度大于预设第一长度阈值，且小于预设第二长度阈值时，获取所述语音文本中与所述短文本关键词库中匹配成功的文本关键词；

当所述语音文本的长度大于所述预设第二长度阈值时，获取所述语音文本中与所述长文本关键词库中匹配成功的文本关键词。

4.根据权利要求1所述的方法，其特征在于，所述方法包括对所述文本分类模型的训练步骤：

从样本数据库中获取多个语音数据样本；

将所述语音数据样本转换成语音文本样本；

对所述语音文本样本进行预处理后，为每个所述语音文本样本添加样本意图标签；

将预处理后的所述语音文本样本输入至文本分类模型中对所述文本分类模型进行训练，得到训练好的文本分类模型。

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述方法还包括：

当所述语音文本的长度小于或等于所述预设第一长度阈值时，获取所述语音文本中与预设关键词库中匹配成功的文本关键词；

将所述文本关键词对应的意图类型作为所述语音数据的意图类型。

6.根据权利要求1所述的方法，其特征在于，所述将概率最高的意图标签对应的意图类型作为第二预测意图，包括：

当每个所述意图标签对应的概率均低于预设概率阈值时，确定所述文本分类模型的预测结果为空；

所述方法还包括：将所述第一预测意图作为所述语音数据的意图类型。

7.一种语音数据意图确定装置，其特征在于，所述装置包括：

意图最终确定模块，用于将所述第一预测意图的置信度值与所述第二预测意图的概率值进行对比，选取数值最大对应的预测意图作为所述语音数据的意图类型；

在获取所述文本关键词的置信度方面，所述第一意图匹配模块具体用于：获取所述文本关键词对应的关键词等级的置信度；

所述关键词等级的置信度通过如下方式计算得到：

对每个历史语音文本添加目标意图类型；

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。