CN112015878B

CN112015878B - 处理智慧客服未回答问题的方法、装置及计算机设备

Info

Publication number: CN112015878B
Application number: CN202010912136.5A
Authority: CN
Inventors: 肖舒涛
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2023-07-18
Anticipated expiration: 2040-09-02
Also published as: CN112015878A

Abstract

本发明提供了一种处理智慧客服未回答问题的方法、装置及计算机设备，其中，方法包括：采集智慧客服模型中未回答的问题；基于专业词库以及特殊字符标识库对所述问题进行数据预处理，从而得到标准化问题；将所述标准化问题进行分类处理；计算所述标准化问题与预设问题的第一相似度值，并根据所述第一相似度值筛选出目标问题；根据所述反馈模型获取推荐答案。本发明的有益效果：通过收集智慧客服未回答的问题，经过处理后输入至反馈模型中，然后通过反馈模型获取对应的推荐答案，再将收集到的答案负反馈至智慧客服模型中，从而完成对智慧客服未回答问题的处理，并进一步充实智慧客服模型，使智慧客服模型得到进一步充实。

Description

处理智慧客服未回答问题的方法、装置及计算机设备

技术领域

本发明涉及人工智能领域，特别涉及一种处理智慧客服未回答问题的方法、装置及计算机设备。

背景技术

在智慧客服机器人解答用户问题时，不同的客户有不同的问题，并且表达问题的形式也各有不同，当智慧客服机器人推广之后，会有很多未能回答的问题，对于这些智慧客服机器人未能回答的问题，现有技术中一般都是通过智慧客服机器人转人工客服处理，并且没有对未回答问题进行收集处理，仅仅是将智慧客服机器人的通话信息全部转入日志中进行存储，而未能对这些智慧客服机器人未回答的问题及时处理，因此，现有技术缺少处理智慧客服机器人未能回答问题的技术方案。

发明内容

本发明的主要目的为提供一种处理智慧客服未回答问题的方法、装置及计算机设备，旨在解决未能对智慧客服机器人未回答的问题及时处理的问题。

本发明提供了一种处理智慧客服未回答问题的方法，包括：

采集智慧客服模型中未回答的问题；

基于专业词库以及特殊字符标识库对所述问题进行数据预处理，从而得到标准化问题；

将所述标准化问题输入至自然语言处理中的机器学习模型进行计算，从而将所述标准化问题进行分类处理；其中，自然语言处理中的机器学习模型基于预设数据库中的业务关键词，以及与所述业务关键词相关联的问题类别训练而成；

采用文本算法计算所述标准化问题与所述智慧客服模型中预设问题的第一相似度值，并根据所述第一相似度值筛选出所述标准化问题中，第一相似度值小于第一预设相似度阈值的目标问题；

将所述目标问题以及目标问题对应的问题类别输入至反馈模型中；

根据所述反馈模型获取推荐答案，并将获取到的所述推荐答案负反馈于智慧客服模型。

进一步地，所述基于专业词库以及特殊字符标识库对所述问题进行数据预处理，从而得到标准化问题的步骤，包括：

将所述问题进行标准化处理，并建立TOKEN列表将所述问题导入数据集，其中所述标准化处理包括根据所述特殊字符标识库剔除所述问题中的标点符号、统一语种、删除不相关词句，所述不相关词句包括问候语、形容词以及脏词；

通过BERT中文训练模型读取数据集的文本数据，通过BERT训练模型fine-tuning的方式构建词向量，其中所述BERT训练模型基于所述专业词库训练而成；

在循环神经网络内依次输入所述问题对应的所述词向量，所述词向量具有n个，分别为a₁，a₂，…，a_n；

通过公式o_t＝softmax(Vs_t)计算得到输出向量o_t，再将所述输出向量o_t进行排列得到所述标准化问题；其中，s_t＝f(Ua_t+Ws_t-1+b)，s_t为第t步的计算函数，所述a_t为第t个词向量，当t＝1时，s_t-1为s₀，s₀预设为0，V、U、W、b均为预设的参数。

进一步地，所述将所述标准化问题输入至自然语言处理中的机器学习模型进行计算，从而将所述标准化问题进行分类处理的步骤包括：

通过文本分类器对所述标准化问题进行分词；

将分词后的所述标准化问题向量化，得到目标向量的多维坐标X＝(x₁，x₂，x₃…x_n)，其中所述目标向量为所述标准化问题对应的向量；

根据公式计算目标向量与预存向量之间的第二相似值，其中，所述Y是预存数据库中各预存向量的多维坐标，Y＝(y₁，y₂，y₃…y_n)；

判断所述第二相似值是否大于第二预设相似度阈值；

若大于第二预设相似度阈值，则将所述标准化问题划分至所述预存向量所属的类别。

进一步地，所述采用文本算法计算所述标准化问题与所述智慧客服模型中预设问题的第一相似度值，并根据所述第一相似度值筛选出所述标准化问题中，第一相似度值小于第一预设相似度阈值的目标问题的步骤，包括：

通过文本分类器对所述标准化问题进行分词；

根据公式：

算得到与所述预存数据库中和预存向量的余弦值，其中，预存数据库中各预存向量的多维坐标Y＝(y₁，y₂，y₃…y_n)，通过将预存数据库中的文档信息向量化得到。

进一步地，所述采集智慧客服模型中未回答的问题的步骤，包括：

通过业务数据库获取用户与所述智慧客服模型的通话信息；

判断所述智慧客服模型是否回答所述用户的提问；

若所述智慧客服模型没有回答所述用户的提问，则将所述通话信息转化为文字信息，得到所述问题；

将所述问题存放至本地文件，通过日志监控采集，并上传至集群服务器文件系统上。

进一步地，所述根据所述反馈模型获取推荐答案，并将获取到的所述推荐答案负反馈于智慧客服模型的步骤，包括：

通过所述反馈模型在保险业务数据库中搜寻所述推荐答案；

若所述保险业务数据库中搜寻不到所述推荐答案，则通过所述反馈模型将所述目标发送给客服人员，并接收所述客服人员发送的推荐答案。

进一步地，所述采用文本算法计算所述标准化问题与所述智慧客服模型中预设问题的第一相似度值，并根据所述第一相似度值筛选出所述标准化问题中，第一相似度值小于第一预设相似度阈值的目标问题的步骤之后，还包括：

检测所述标准化问题与保险业务的相关值；

判断所述相关值是否大于相关阈值；

若所述相关值大于相关阈值，则将所述标准化问题输入至反馈模型中。

本发明还提供一种处理智慧客服未回答问题的装置，包括：

问题采集模块，用于采集智慧客服模型中未回答的问题；

预处理模块，用于基于专业词库以及特殊字符标识库对所述问题进行数据预处理，从而得到标准化问题；

分类模块，用于将所述标准化问题输入至自然语言处理中的机器学习模型进行计算，从而将所述标准化问题进行分类处理；其中，自然语言处理中的机器学习模型基于预设数据库中的业务关键词，以及与所述业务关键词相关联的问题类别训练而成；

相似度计算模块，用于采用文本算法计算所述标准化问题与所述智慧客服模型中预设问题的第一相似度值，并根据所述第一相似度值筛选出所述标准化问题中，第一相似度值小于第一预设相似度阈值的目标问题；

输入模块，用于将所述目标问题以及对应的问题类别输入至反馈模型中；

获取模块，用于根据所述反馈模型获取推荐答案，并将获取到的所述推荐答案负反馈于智慧客服模型。

本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本发明的有益效果：通过收集智慧客服未回答的问题，经过处理后输入至反馈模型中，然后通过反馈模型获取对应的推荐答案，再将收集到的答案负反馈至智慧客服模型中，从而完成对智慧客服未回答问题的处理，并进一步充实智慧客服模型，使智慧客服模型得到进一步充实。

附图说明

图1是本发明一实施例的一种处理智慧客服未回答问题的方法的流程示意图；

图2为本申请一实施例的处理智慧客服未回答问题的装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变，所述的连接可以是直接连接，也可以是间接连接。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明提供了一种基于自然语言处理的智慧客服未回答问自学习的方法，包括：

S1：采集智慧客服模型中未回答的问题；

S2：基于专业词库以及特殊字符标识库对所述问题进行数据预处理，从而得到标准化问题；

S3：将所述标准化问题输入至自然语言处理中的机器学习模型进行计算，从而将所述标准化问题进行分类处理；其中，自然语言处理中的机器学习模型基于预设数据库中的业务关键词，以及与所述业务关键词相关联的问题类别训练而成；

S4：采用文本算法计算所述标准化问题与所述智慧客服模型中预设问题的第一相似度值，并根据所述第一相似度值筛选出所述标准化问题中，第一相似度值小于第一预设相似度阈值的目标问题；

S5：将所述目标问题以及目标问题对应的问题类别输入至反馈模型中；

S6：根据所述反馈模型获取推荐答案，并将获取到的所述推荐答案负反馈于智慧客服模型。

如上述步骤S1所述，采集智慧客服模型中未能回答的问题，其中采集的问题可以语音格式，也可以是文字格式，若为语音格式，可以通过语音识别技术将其转化为文字格式，采集的方式可以是在采集智慧客服模型中设置一个采集模块，用于采集智慧客服未回答的问题。

如上述步骤S2所述，基于专业词库和特殊字符标识库，例如“重疾险”、“儿童险”、“意外险”等专业词汇对问题进行预处理，基于该专业词汇对问题中的词句进行预处理，预处理包括对词句中的词语进行转换、对脏词进行清洗和过滤，对重复的问题和词语进行去重，对同义词进行替换，对未完整的语句按照句意进行补充等。

如上述步骤S3所述，将标准化问题输入至预设的自然语言中的机器学习模型进行计算，将标准化问题进行分类处理，其中自然语言中的机器学习模型为基于预设数据库中的业务关键词，具体可以为，在机器学习模型中对不同的业务划分为不同的类别，然后输入标准化问题时，提取标准化问题中的业务关键词，然后根据业务关键词对应的类别对标准化问题进行分类。

如上述步骤S4所述，采用文本算法计算标准化问题与智慧客服模型中预设问题的第一相似度值，并判断所述第一相似度值是否大于第一预设相似度阈值，并根据第一相似度值筛选出预设问题中第一相似度值小于第一预设相似度阈值的标准化问题。其中，文本算法可以为任意算法，例如为WMD算法(word mover’s distance)、simhash算法、基于余弦相似度的算法、基于SVM向量模型进行计算，优选地，可以采用开源免费的PythonLibShortText文本分类器，并自定义替换为中文分词器，对标准化问题中的文字进行分词，分词可以通过决策树、多层感知器、朴素贝叶斯(包括伯努利贝叶斯、高斯贝叶斯和多项式贝叶斯)、随机森林、AdaBoost、前馈神经网络和LSTM等任一种算法计算得到。再将分词后的所述标准化问题向量化，得到目标向量的多维坐标以便于后续进行计算。第一相似度阈值为事先设定的值，当大于第一相似度阈值时，可以认为预存数据库中的文档信息与该标准化问题类似，因此可以采用该文档信息对应的答案回答该标准化问题。

如上述步骤S5所述，将所述预设问题中第一相似度值小于所述第一预设相似度阈值的目标问题，以及对应的问题类别输入至反馈模型中，其中标准化问题对应的问题类别为上述通过然语言中的机器学习模型计算后，进行分类处理后的所属类别，以便于后续找到相应的答案，并且在获取到了相关的答案后，也能根据所属的类别导入至智慧客服模型中对应的位置。其中反馈模型中具有不同类别的问题获取模块，可以将在获取到标准问题及其类别之后，将该标准问题输入至对应的获取模块中。

如上述步骤S6所述，通过反馈模型中的不同的获取模块获取对应的技术问题，获取的渠道可以是通过大数据库中获取推荐答案，为了保证智慧客服模型中问题的回答的准确性，对于问题对应的答案数据库不会很大，以免出现回答错误的现象，而智慧客服模型不能回答的技术问题大部分可以在大数据库中获取，然后再检查有无歧义或者不能回答的问题中有第二种表达的意思，可以再通过检验和加入判断的步骤，如再次询问客户是要表达A意思还是B意思，以提高回答问题的准确性，另外，获取的渠道还可以是，提取标准问题中的关键词，例如“为儿童办理医疗保险哪种业务比较好”转换的标准问题为“儿童的医疗保险业务推荐”，那么可以提取关键词“儿童”、“医疗保险业务”、“推荐”，就可以为用户推荐不同的儿童医疗保险业务或者指引用户去相关的网站进行查找。通过不同的获取模块获取对应标准问题的推荐答案后，再通过反馈模型将推荐答案负反馈于智慧客服模型，由于反馈模型中对不同的标准问题类别有进行划分，故而可以将标准问题对应的推荐答案负反馈于智慧客服模型，使该推荐答案与之前未回答的问题进行对应，从而提高了智慧客服模型回答问题的全面性。另外，之所以不用智慧客服模型直接获取推荐答案，是因为智慧客服模型对相关问题只有固定的答案，故而不会对智慧客服模型进行训练，因此其答案都是固定的，不是通过训练而得，因此，可以构建一个反馈模型，通过反馈模型获取推荐答案，然后可以通过相关人员对问题的准确性进行检查，然后再输入至智慧客服模型中。

在一个实施例中，所述基于专业词库以及特殊字符标识库对所述问题进行数据预处理，从而得到标准化问题的步骤S2，包括：

S201：将所述问题进行标准化处理，并建立TOKEN列表将所述问题导入数据集，其中所述标准化处理包括根据所述特殊字符标识库剔除所述问题中的标点符号、统一语种、删除不相关词句，所述不相关词句包括问候语、形容词以及脏词；

S202：通过BERT中文训练模型读取数据集的文本数据，通过BERT训练模型fine-tuning的方式构建词向量，其中所述BERT训练模型基于所述专业词库训练而成；

S203：在循环神经网络内依次输入所述问题对应的所述词向量，所述词向量具有n个，分别为a₁，a₂，…，a_n；

S204：通过公式o_t＝softmax(Vs_t)计算得到输出向量o_t，再将所述输出向量o_t进行排列得到所述标准化问题；其中，s_t＝f(Ua_t+Ws_t-1+b)，s_t为第t步的计算函数，所述a_t为第t个词向量，当t＝1时，s_t-1为s₀，s₀预设为0，V、U、W、b均为预设的参数。

如上述步骤S201所述，将基于专业词库和特殊字符标识库，例如“重疾险”、“儿童险”、“意外险”等专业词汇对问题进行预处理，基于该专业词汇对问题中的词句进行预处理，预处理包括对词句中的词语进行转换、对脏词进行清洗和过滤，对重复的问题和词语进行去重，对同义词进行替换，然后建立TOKEN列表将问题导入数据集，其目的是为了通过TOKEN对问题进行标记。

如上述步骤S202所述，通过BERT中文训练模型对标准问题构建词向量，具体为读取基于标准问题对应的数据集，获取数据集中文本数据。其中BERT中文训练模型基于所述专业词库训练而成，该所述专业词库也可以是生成的数据集，即可以通过BERT预训练模型先读取数据集的文本数据，训练模型，然后根据训练结果调整模型参数，得到BERT中文训练模型。

如上述步骤S203-S204所述，BERT中文训练模型对标准问题构建的词向量一般为多个，再通过公式s_t＝f(Ua_t+Ws_t-1+b)和公式o_t＝softmax(Vs_t)进行计算，得到输出向量，将未能回答的问题转换为系统容易识别的标准化问题，以便于后续对问题的各种处理运算，例如可以便于后续计算问题的类别，与预设问题的相似度等。其中所述a_t为第t个词向量，当t＝1时，s_t-1为s₀，s₀预设为0，U、W、b均为预设的参数，s_t为第t步的计算函数，o_t为输出向量，然后再基于TOKEN列表将得到的o_t进行排列。

在一个实施例中，所述将所述标准化问题利用自然语言处理中的机器学习模型进行计算，从而将所述标准化问题进行分类和聚类处理的步骤S3包括：

S301：通过文本分类器对所述标准化问题进行分词；

S302：将分词后的所述标准化问题向量化，得到目标向量的多维坐标X＝(x₁，x₂，x₃…x_n)，其中所述目标向量为所述标准化问题对应的向量；

S303：根据公式计算目标向量与预存向量之间的第二相似值，其中，所述Y是预存数据库中各预存向量的多维坐标，Y＝(y₁，y₂，y₃…y_n)；

S304：判断所述第二相似值是否大于第二预设相似度阈值；

S305：若大于第二预设相似度阈值，则将所述标准化问题划分至所述预存向量所属的类别。

如上述步骤S301所述，可以采用开源免费的Python LibShortText文本分类器，并自定义替换为中文分词器，对标准化问题中的文字进行分词，分词可以通过决策树、多层感知器、朴素贝叶斯(包括伯努利贝叶斯、高斯贝叶斯和多项式贝叶斯)、随机森林、AdaBoost、前馈神经网络和LSTM等任一种算法计算得到。

如上述步骤S302所述，将分词后的所述标准化问题向量化，得到目标向量的多维坐标以便于后续进行计算。将标准化问题向量化的方式可以是通过Google word2vec工具将分词后的标准化问题向量化。

如上述步骤S303-S305所述，根据公式：

计算目标向量与预存向量之间的第二相似值；，当第二相似值大于第二预设相似度阈值时，可以认为这该标准化问题与预存向量属于同一类别的问题，可以将该标准化问题划分至所述预存向量所属的类别，以完成标准化的问题的分类处理，并可以将所述类别的信息输入至反馈模型中，以便于后续根据所属类别获取对应的推荐答案。

在一个实施例中，所述采用文本算法计算所述标准化问题与所述智慧客服模型中预设问题的第一相似度值，并根据所述第一相似度值筛选出所述标准化问题中，第一相似度值小于第一预设相似度阈值的目标问题的步骤S4，包括：

S401：通过文本分类器对所述标准化问题进行分词；

S402：将分词后的所述标准化问题向量化，得到目标向量的多维坐标X＝(x₁，x₂，x₃…x_n)，其中所述目标向量为所述标准化问题对应的向量；

S403：根据公式：

计算得到与所述预存数据库中和预存向量的余弦值，其中，预存数据库中各预存向量的多维坐标Y＝(y₁，y₂，y₃…y_n)，通过将预存数据库中的文档信息向量化得到。

如上述步骤S401所述，可以采用开源免费的Python LibShortText文本分类器，并自定义替换为中文分词器，对标准化问题中的文字进行分词，分词可以通过决策树、多层感知器、朴素贝叶斯(包括伯努利贝叶斯、高斯贝叶斯和多项式贝叶斯)、随机森林、AdaBoost、前馈神经网络和LSTM等任一种算法计算得到。

如上述步骤S402所述，将分词后的所述标准化问题向量化，得到目标向量的多维坐标以便于后续进行计算。将标准化问题向量化的方式可以是通过Google word2vec工具将分词后的标准化问题向量化。

如上述步骤S403所述，根据公式：

计算目标向量与预存向量之间的余弦值，其中余弦值cosθ值越大，相似度越高，可以设置一个第一相似度阈值，当大于第一相似度阈值时，可以认为预存数据库中的文档信息与该标准化问题类似，因此可以采用该文档信息对应的答案回答该标准化问题；当小于或等于第一相似度阈值时，可以认为预存数据中的文档信息中，没有与标准化问题类似的文档信息，因此可以将这个问题归为目标问题，后续再输入至反馈模型中以获取相应的推荐答案。

在一个实施例中，所述采集智慧客服模型中未回答的问题的步骤S1，包括：

S101：通过业务数据库获取用户与所述智慧客服模型的通话信息；

S102：判断所述智慧客服模型是否回答所述用户的提问；

S103：若所述智慧客服模型没有回答所述用户的提问，则将所述通话信息转化为文字信息，得到所述问题；

S104：并将所述问题存放至本地文件，再通过日志监控采集，并上传至集群服务器文件系统上。

如上述步骤S101-S104所述，首先对智慧客服业务数据进行采集，前期可以采用离线方式和定时方式进行收集，后期可以根据业务需求和增加服务器资源进行实时采集处理，采集的数据内容主要是智慧客服模型未能回答的问题，即可以通过检测通话信息判断智慧客服模型是否回答所述用户的提问，若没有，则可以对该问题进行采集，采集的方式为通过将通话信息转化为文字信息，然后存放至本地进行保存，再通过FLUME采集本地文件中的数据，并上传至集群服务器文件系统上，对未能回答的问题进行收集。

本实施例中，所述根据所述反馈模型获取推荐答案，并将获取到的所述推荐答案负反馈于智慧客服模型的步骤S6，包括：

S601：通过所述反馈模型在保险业务数据库中搜寻所述推荐答案；

S602：若所述保险业务数据库中搜寻不到所述推荐答案；

S603：则通过所述反馈模型将所述目标问题发送给客服人员，并接收所述客服人员发送的推荐答案。

如上述步骤S601-S603所述，通过反馈模型在保险业务数据库中搜寻对应的推荐答案，搜寻的方式，可以是根据语义分析对目标问题进行识别，然后基于识别的内容在保险业务数据库中进行搜寻；若保险业务数据库中没有对应的推荐答案，或者识别不出来目标问题所表达的意思，则通过反馈模型将目标问题发送给客服人员，由客服人员输入对应的推荐答案，另外，为了保证答案的准确性，搜寻到的答案以及相关的目标问题还可以发送给客服人员确认，待确认无误后再负反馈给智慧客服模型。通过反馈模型获取推荐答案，可以对未回答的问题获取相应的推荐答案，然后将其负反馈于智慧客服模型中，使智慧客服模型得到优化和充实，进一步地减轻了运维人员压力，提升了服务质量。

在一个实施例中，所述采用文本算法计算所述标准化问题与所述智慧客服模型中预设问题的第一相似度值，并根据所述第一相似度值筛选出所述标准化问题中，第一相似度值小于第一预设相似度阈值的目标问题的步骤S4之后，还包括：

S501：检测所述标准化问题与保险业务的相关值；

S502：判断所述相关值是否大于相关阈值；

S503：若所述相关值大于相关阈值，则将所述标准化问题输入至反馈模型中。

如上述步骤S501-S503所述，检测标准化问题与保险业务的相关值，检测的方式可以是通过文本分类器将标准化问题进行分词，然后对分词后的各个词语进行熵化，赋予各个词语不同的权值(权值的赋予可以根据保险业务进行赋予，例如保险业务相关的词语可以赋予权值大一些)，然后根据公式：

计算得到该标准化问题的熵之和g(t)，其中t为标准化问题中的各个词语，ci为各个词语对应的权值，f(t，ci)表示各个词语对应的熵，然后再根据公式：

计算得到相关值Weight(t)，其中threshold为预设的参数值，一般可以取1，然后将相关值与预设的相关阈值进行比较，若大于，则可以将标准化问题输入至反馈模型中，以获取对应的推荐答案，若小于，则说明该问题与保险业务不相关，即视为与保险业务不相关，可以不用获取对应的推荐答案。

参照图2，本发明还提供了一种处理智慧客服未回答问题的装置，包括：

问题采集模块10，用于采集智慧客服模型中未回答的问题；

预处理模块20，用于基于专业词库以及特殊字符标识库对所述问题进行数据预处理，从而得到标准化问题；

分类模块30，用于将所述标准化问题输入至自然语言处理中的机器学习模型进行计算，从而将所述标准化问题进行分类处理；其中，自然语言处理中的机器学习模型基于预设数据库中的业务关键词，以及与所述业务关键词相关联的问题类别训练而成；

相似度计算模块40，用于采用文本算法计算所述标准化问题与所述智慧客服模型中预设问题的第一相似度值，并根据所述第一相似度值筛选出所述标准化问题中，第一相似度值小于第一预设相似度阈值的目标问题；

输入模块50，用于将所述目标问题以及对应的问题类别输入至反馈模型中；

获取模块60，用于根据所述反馈模型获取推荐答案，并将获取到的所述推荐答案负反馈于智慧客服模型。

采集智慧客服模型中未能回答的问题，其中采集的问题可以语音格式，也可以是文字格式，若为语音格式，可以通过语音识别技术将其转化为文字格式，采集的方式可以是在采集智慧客服模型中设置一个采集模块，用于采集智慧客服未回答的问题。

基于专业词库和特殊字符标识库，例如“重疾险”、“儿童险”、“意外险”等专业词汇对问题进行预处理，基于该专业词汇对问题中的词句进行预处理，预处理包括对词句中的词语进行转换、对脏词进行清洗和过滤，对重复的问题和词语进行去重，对同义词进行替换，对未完整的语句按照句意进行补充等。

将标准化问题输入至预设的自然语言中的机器学习模型进行计算，将标准化问题进行分类处理，其中自然语言中的机器学习模型为基于预设数据库中的业务关键词，具体可以为，在机器学习模型中对不同的业务划分为不同的类别，然后输入标准化问题时，提取标准化问题中的业务关键词，然后根据业务关键词对应的类别对标准化问题进行分类。

采用文本算法计算标准化问题与智慧客服模型中预设问题的第一相似度值，并判断所述第一相似度值是否大于第一预设相似度阈值，并根据第一相似度值筛选出预设问题中第一相似度值小于第一预设相似度阈值的标准化问题。其中，文本算法可以为任意算法，例如为WMD算法(word mover’s distance)、simhash算法、基于余弦相似度的算法、基于SVM向量模型进行计算，优选地，可以采用开源免费的Python LibShortText文本分类器，并自定义替换为中文分词器，对标准化问题中的文字进行分词，分词可以通过决策树、多层感知器、朴素贝叶斯(包括伯努利贝叶斯、高斯贝叶斯和多项式贝叶斯)、随机森林、AdaBoost、前馈神经网络和LSTM等任一种算法计算得到。再将分词后的所述标准化问题向量化，得到目标向量的多维坐标以便于后续进行计算。第一相似度阈值为事先设定的值，当大于第一相似度阈值时，可以认为预存数据库中的文档信息与该标准化问题类似，因此可以采用该文档信息对应的答案回答该标准化问题。

将所述预设问题中第一相似度值小于所述第一预设相似度阈值的目标问题，以及对应的问题类别输入至反馈模型中，其中标准化问题对应的问题类别为上述通过然语言中的机器学习模型计算后，进行分类处理后的所属类别，以便于后续找到相应的答案，并且在获取到了相关的答案后，也能根据所属的类别导入至智慧客服模型中对应的位置。其中反馈模型中具有不同类别的问题获取模块，可以将在获取到标准问题及其类别之后，将该标准问题输入至对应的获取模块中。

通过反馈模型中的不同的获取模块获取对应的技术问题，获取的渠道可以是通过大数据库中获取推荐答案，为了保证智慧客服模型中问题的回答的准确性，对于问题对应的答案数据库不会很大，以免出现回答错误的现象，而智慧客服模型不能回答的技术问题大部分可以在大数据库中获取，然后再检查有无歧义或者不能回答的问题中有第二种表达的意思，可以再通过检验和加入判断的步骤，如再次询问客户是要表达A意思还是B意思，以提高回答问题的准确性，另外，获取的渠道还可以是，提取标准问题中的关键词，例如“为儿童办理医疗保险哪种业务比较好”转换的标准问题为“儿童的医疗保险业务推荐”，那么可以提取关键词“儿童”、“医疗保险业务”、“推荐”，就可以为用户推荐不同的儿童医疗保险业务或者指引用户去相关的网站进行查找。通过不同的获取模块获取对应标准问题的推荐答案后，再通过反馈模型将推荐答案负反馈于智慧客服模型，由于反馈模型中对不同的标准问题类别有进行划分，故而可以将标准问题对应的推荐答案负反馈于智慧客服模型，使该推荐答案与之前未回答的问题进行对应，从而提高了智慧客服模型回答问题的全面性。另外，之所以不用智慧客服模型直接获取推荐答案，是因为智慧客服模型对相关问题只有固定的答案，故而不会对智慧客服模型进行训练，因此其答案都是固定的，不是通过训练而得，因此，可以构建一个反馈模型，通过反馈模型获取推荐答案，然后可以通过相关人员对问题的准确性进行检查，然后再输入至智慧客服模型中。

在一个实施例中，预处理模块20，包括：

标准化处理子模块，用于将所述问题进行标准化处理，并建立TOKEN列表将所述问题导入数据集，其中所述标准化处理包括根据所述特殊字符标识库剔除所述问题中的标点符号、统一语种、删除不相关词句，所述不相关词句包括问候语、形容词以及脏词；

文本数据训练子模块，用于通过BERT中文训练模型读取数据集的文本数据，通过BERT训练模型fine-tuning的方式构建词向量，其中所述BERT训练模型基于所述专业词库训练而成；

词向量输入子模块，用于在循环神经网络内依次输入所述问题对应的所述词向量，所述词向量具有n个，分别为a₁，a₂，…，a_n；

输出向量计算子模块，通过通过公式o_t＝softmax(Vs_t)计算得到输出向量o_t，再将所述输出向量o_t进行排列得到所述标准化问题；其中，s_t＝f(Ua_t+Ws_t-1+b)，s_t为第t步的计算函数，所述a_t为第t个词向量，当t＝1时，s_t-1为s₀，s₀预设为0，V、U、W、b均为预设的参数。

将基于专业词库和特殊字符标识库，例如“重疾险”、“儿童险”、“意外险”等专业词汇对问题进行预处理，基于该专业词汇对问题中的词句进行预处理，预处理包括对词句中的词语进行转换、对脏词进行清洗和过滤，对重复的问题和词语进行去重，对同义词进行替换，然后建立TOKEN列表将问题导入数据集，其目的是为了通过TOKEN对问题进行标记。

通过BERT中文训练模型对标准问题构建词向量，具体为读取基于标准问题对应的数据集，获取数据集中文本数据。其中BERT中文训练模型基于所述专业词库训练而成，该所述专业词库也可以是生成的数据集，即可以通过BERT预训练模型先读取数据集的文本数据，训练模型，然后根据训练结果调整模型参数，得到BERT中文训练模型。

BERT中文训练模型对标准问题构建的词向量一般为多个，再通过公式s_t＝f(Ua_t+Ws_t-1+b)和公式o_t＝softmax(Vs_t)进行计算，得到输出向量，将未能回答的问题转换为系统容易识别的标准化问题，以便于后续对问题的各种处理运算，例如可以便于后续计算问题的类别，与预设问题的相似度等。其中所述a_t为第t个词向量，当t＝1时，s_t-1为s₀，s₀预设为0，U、W、b均为预设的参数，s_t为第t步的计算函数，o_t为输出向量，然后再基于TOKEN列表将得到的o_t进行排列。

在一个实施例中，分类模块30，包括：

分词第一子模块，用于通过文本分类器对所述标准化问题进行分词；

向量化子模块，用于将分词后的所述标准化问题向量化，得到目标向量的多维坐标X＝(x₁，x₂，x₃…x_n)，其中所述目标向量为所述标准化问题对应的向量；

第二相似值计算子模块，用于根据公式计算目标向量与预存向量之间的第二相似值，其中，所述Y是预存数据库中各预存向量的多维坐标，Y＝(y₁，y₂，y₃…y_n)；

第二相似值判断子模块，用于判断所述第二相似值是否大于第二预设相似度阈值；

类别划分子模块，用于若大于第二预设相似度阈值，则将所述标准化问题划分至所述预存向量所属的类别。

可以采用开源免费的Python LibShortText文本分类器，并自定义替换为中文分词器，对标准化问题中的文字进行分词，分词可以通过决策树、多层感知器、朴素贝叶斯(包括伯努利贝叶斯、高斯贝叶斯和多项式贝叶斯)、随机森林、AdaBoost、前馈神经网络和LSTM等任一种算法计算得到。

将分词后的所述标准化问题向量化，得到目标向量的多维坐标以便于后续进行计算。将标准化问题向量化的方式可以是通过Google word2vec工具将分词后的标准化问题向量化。

根据公式计算目标向量与预存向量之间的第二相似值；，当第二相似值大于第二预设相似度阈值时，可以认为这该标准化问题与预存向量属于同一类别的问题，可以将该标准化问题划分至所述预存向量所属的类别，以完成标准化的问题的分类处理，并可以将所述类别的信息输入至反馈模型中，以便于后续根据所属类别获取对应的推荐答案。

在一个实施例中，相似度计算模块40，包括：

分词第二子模块，用于通过文本分类器对所述标准化问题进行分词；

多维坐标计算子模块，用于将分词后的所述标准化问题向量化，得到目标向量的多维坐标X＝(x₁，x₂，x₃…x_n)，其中所述目标向量为所述标准化问题对应的向量；

余弦值计算子模块，用于根据公式：

根据公式：

在一个实施例中，问题采集模块10，包括：

通话信息获取子模块，用于通过业务数据库获取用户与所述智慧客服模型的通话信息；

回答判断子模块，用于判断所述智慧客服模型是否回答所述用户的提问；

文字信息转化模块，用于若所述智慧客服模型没有回答所述用户的提问，则将所述通话信息转化为文字信息，得到所述问题；

上传子模块，用于将所述问题存放至本地文件，再通过日志监控采集，并上传至集群服务器文件系统上。

首先对智慧客服业务数据进行采集，前期可以采用离线方式和定时方式进行收集，后期可以根据业务需求和增加服务器资源进行实时采集处理，采集的数据内容主要是智慧客服模型未能回答的问题，即可以通过检测通话信息判断智慧客服模型是否回答所述用户的提问，若没有，则可以对该问题进行采集，采集的方式为通过将通话信息转化为文字信息，然后存放至本地进行保存，再通过FLUME采集本地文件中的数据，并上传至集群服务器文件系统上，对未能回答的问题进行收集。

本实施例中，获取模块60，包括：

搜寻子模块，用于通过所述反馈模型在保险业务数据库中搜寻所述推荐答案；

目标问题发送子模块，用于若所述保险业务数据库中搜寻不到所述推荐答案，则通过所述反馈模型将所述目标问题发送给客服人员，并接收所述客服人员发送的推荐答案。

通过反馈模型在保险业务数据库中搜寻对应的推荐答案，搜寻的方式，可以是根据语义分析对目标问题进行识别，然后基于识别的内容在保险业务数据库中进行搜寻；若保险业务数据库中没有对应的推荐答案，或者识别不出来目标问题所表达的意思，则通过反馈模型将目标问题发送给客服人员，由客服人员输入对应的推荐答案，另外，为了保证答案的准确性，搜寻到的答案以及相关的目标问题还可以发送给客服人员确认，待确认无误后再负反馈给智慧客服模型。通过反馈模型获取推荐答案，可以对未回答的问题获取相应的推荐答案，然后将其负反馈于智慧客服模型中，使智慧客服模型得到优化和充实，进一步地减轻了运维人员压力，提升了服务质量。

在一个实施例中，处理智慧客服未回答问题的装置，还包括：

相关值检测模块，用于检测所述标准化问题与保险业务的相关值；

相关值判断模块，用于判断所述相关值是否大于相关阈值；

输入模块，用于若所述相关值大于相关阈值，则将所述标准化问题输入至反馈模型中。

检测标准化问题与保险业务的相关值，检测的方式可以是通过文本分类器将标准化问题进行分词，然后对分词后的各个词语进行熵化，赋予各个词语不同的权值(权值的赋予可以根据保险业务进行赋予，例如保险业务相关的词语可以赋予权值大一些)，然后根据公式：

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种待审核的数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时可以实现上述任一实施例所述的处理智慧客服未回答问题的方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时可以实现上述任一实施例所述的处理智慧客服未回答问题的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM一多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种处理智慧客服未回答问题的方法，其特征在于，包括：

采集智慧客服模型中未回答的问题；

基于专业词库以及特殊字符标识库对所述未回答的问题进行数据预处理，从而得到标准化问题；

根据所述反馈模型获取推荐答案，并将获取到的所述推荐答案负反馈于智慧客服模型；

所述将所述标准化问题输入至自然语言处理中的机器学习模型进行计算，从而将所述标准化问题进行分类处理的步骤包括：

通过文本分类器对所述标准化问题进行分词；

判断所述第二相似值是否大于第二预设相似度阈值；

若大于第二预设相似度阈值，则将所述标准化问题划分至所述预存向量所属的类别；

所述采用文本算法计算所述标准化问题与所述智慧客服模型中预设问题的第一相似度值，并根据所述第一相似度值筛选出所述标准化问题中，第一相似度值小于第一预设相似度阈值的目标问题的步骤，包括：

通过文本分类器对所述标准化问题进行分词；

根据公式：

算得到与预存数据库中和预存向量的余弦值，其中，预存数据库中各预存向量的多维坐标Y＝(y₁，y₂，y₃…y_n)，通过将预存数据库中的文档信息向量化得到。

2.如权利要求1所述的处理智慧客服未回答问题的方法，其特征在于，所述基于专业词库以及特殊字符标识库对所述未回答的问题进行数据预处理，从而得到标准化问题的步骤，包括：

将所述未回答的问题进行标准化处理，并建立TOKEN列表将所述未回答的问题导入数据集，其中所述标准化处理包括根据所述特殊字符标识库剔除所述未回答的问题中的标点符号、统一语种、删除不相关词句，所述不相关词句包括问候语、形容词以及脏词；

在循环神经网络内依次输入所述未回答的问题对应的所述词向量，所述词向量具有n个，分别为a₁，a₂，…，a_n；

3.如权利要求1所述的处理智慧客服未回答问题的方法，其特征在于，所述采集智慧客服模型中未回答的问题的步骤，包括：

通过业务数据库获取用户与所述智慧客服模型的通话信息；

判断所述智慧客服模型是否回答所述用户的提问；

若所述智慧客服模型没有回答所述用户的提问，则将所述通话信息转化为文字信息，得到所述未回答的问题；

将所述未回答的问题存放至本地文件，通过日志监控采集，并上传至集群服务器文件系统上。

4.如权利要求1所述的处理智慧客服未回答问题的方法，其特征在于，所述根据所述反馈模型获取推荐答案，并将获取到的所述推荐答案负反馈于智慧客服模型的步骤，包括：

通过所述反馈模型在保险业务数据库中搜寻所述推荐答案；

5.如权利要求1所述的处理智慧客服未回答问题的方法，其特征在于，所述采用文本算法计算所述标准化问题与所述智慧客服模型中预设问题的第一相似度值，并根据所述第一相似度值筛选出所述标准化问题中，第一相似度值小于第一预设相似度阈值的目标问题的步骤之后，还包括：

检测所述标准化问题与保险业务的相关值；

判断所述相关值是否大于相关阈值；

6.一种处理智慧客服未回答问题的装置，用于实现权利要求1至5中任一项所述的方法，其特征在于，所述装置包括：

问题采集模块，用于采集智慧客服模型中未回答的问题；

预处理模块，用于基于专业词库以及特殊字符标识库对所述未回答的问题进行数据预处理，从而得到标准化问题；

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。