CN113064887A

CN113064887A - 数据管理方法、装置、设备及存储介质

Info

Publication number: CN113064887A
Application number: CN202110304040.5A
Authority: CN
Inventors: 史文鑫
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2021-07-02
Anticipated expiration: 2041-03-22
Also published as: CN113064887B

Abstract

本发明涉及人工智能技术领域，公开了一种数据管理方法、装置、设备及存储介质。本方法包括：本发明提供的技术方案中，通过从预置知识库中获取语料数据，并对语料数据进行数据清洗，得到目标语料数据；将目标语料数据输入预置意图分类模型，以对知识库中的目标语料数据进行分类预测，得到预测结果；并根据预测结果，筛选并删除意图相似的标准问，同时删除无关扩展问对知识库进行优化。提高了知识库的质量，解决了智能客服系统回答问题的准确率低导致的用户体验差的技术问题。

Description

数据管理方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种数据管理方法、装置、设备及存储介质。

背景技术

智能客服已经在各行各业得到了广泛的应用，知识库的质量直接决定了智能客服的服务质量，在银行业知识库一般由标准问、扩展问和答案组成，一般情况下一个标准问会对应多条扩展问，当用户询问了一个问题，智能客服的算法会逐一对扩展问进行相似匹配，并反推出标准问进而得到答案并反馈给用户.

然而在运营过程中，标准问和扩展问会不断地被加入到知识库中，不可避免的会出现知识库的相同意图的标准问重复录入，问题被误加入到意图不同的扩展问中，这些问题的存在会严重影响知识库的质量，进而影响智能客服的回答好坏。

发明内容

本发明的主要目的是解决不遗漏掉人脸攻击记录，同时提高数据标注效率的技术问题。

本发明第一方面提供了一种数据管理方法，包括：

从预置知识库中获取语料数据，其中，所述语料数据包括多个标准问，每一个标准问对应多个扩展问，所述知识库用于为用户提供答案；

对所述语料数据进行数据清洗，得到目标语料数据；

将所述目标语料数据输入预置意图分类模型，以对所述目标语料数据的分类进行预测，得到预测结果，其中，所述目标语料数据包括标准问、与所述标准问对应的扩展问以及与所述标准问对应的标准答案；

基于所述预测结果，筛选意图相似的标准问，并将所述意图相似的标准问删除；

确定与所述标准问对应的全部扩展问和与所述标准问对应的标准答案，优化所述知识库。

可选地，在本发明第一方面的第一种实现方式中，在所述从预置知识库中获取语料数据之前，还包括：

获取用户与智能客服的多轮对话；

将所述多轮对话转换为目标文本；

基于所述用户的所述目标文本，生成标准问以及与所述标准问对应的标准答案；

基于所述标准问以及与所述标准问对应的标准答案，生成知识库。

可选地，在本发明第一方面的第二种实现方式中，所述对所述语料数据进行数据清洗，得到目标语料数据包括：

确定所述语料数据的清洗需求；

根据所述语料数据和所述清洗需求以及预置清洗规则分类模型，确定与所述语料数据对应的目标清洗规则；

根据所述目标清洗规则对所述语料数据进行数据清洗，得到目标语料数据。

可选地，在本发明第一方面的第三种实现方式中，所述数据管理方法还包括：

从预置数据库中获取用户与智能客服之间的历史对话文本数据；

获取所述历史对话文本数据中包含的所有标准问；

基于所述历史对话文本数据和所述标准问，通过预置BERT模型确定所述标准问对应的标准答案在所述历史对话文本数据的位置数据；

基于所述历史对话文本数据和所述标准答案在所述历史对话文本数据的位置数据，确定所述标准问对应的标准答案；

基于所述标准答案和所述标准问，确定所述历史对话文本数据中包含的所有标问标答对，其中，每个标准问对应一个标准答案。

可选地，在本发明第一方面的第四种实现方式中，在所述基于所述标准答案和所述标准问，确定所述历史对话文本数据中包含的所有标问标答对之后，还包括：

获取预先定义的意图标签；

确定各所述历史对话文本数据种携带的意图标签；

将所述历史对话文本数据和所述历史对话文本数据对应的意图标签输入预置Albert模型得到初始意图分类模型。

可选地，在本发明第一方面的第五种实现方式中，在所述将所述历史对话文本数据和所述历史对话文本数据对应的意图标签输入预置Albert模型得到初始意图分类模型之后，还包括：

获取用户与智能客服之间的实时对话文本数据；

将所述实时对话文本数据作为训练数据集，输入所述初始意图分类模型，以对所述实时对话文本数据的分类进行预测，并对所述预测结果进行处理；

将处理后的实时对话文本数据输入所述初始意图分类模型进行迭代训练，直至所述初始意图分类模型预测结果大于预设准确率，得到目标意图分类模型。

本发明第二方面提供了一种数据管理装置，包括：

第一获取模块，用于从预置知识库中获取语料数据，其中，所述语料数据包括多个标准问，每一个标准问对应多个扩展问，所述知识库用于为用户提供答案；

数据清洗模块，用于对所述语料数据进行数据清洗，得到目标语料数据；

第一预测模块，用于将所述目标语料数据输入预置意图分类模型，以对所述目标语料数据的分类进行预测，得到预测结果，其中，所述目标语料数据包括标准问、与所述标准问对应的扩展问以及与所述标准问对应的标准答案；

筛选模块，用于基于所述预测结果，筛选意图相似的标准问，并将所述意图相似的标准问删除；

优化模块，用于确定与所述标准问对应的全部扩展问和与所述标准问对应的标准答案，优化所述知识库。

可选地，在本发明第二方面的第一种实现方式中，所述数据管理装置还包括：

第二获取模块，用于获取用户与智能客服的多轮对话；

转换模块，用于将所述多轮对话转换为目标文本；

生成模块，用于基于所述用户的所述目标文本，生成标准问以及与所述标准问对应的标准答案；基于所述标准问以及与所述标准问对应的标准答案，生成知识库。

可选地，在本发明第二方面的第二种实现方式中，所述数据清洗模块包括：

第一确定单元，用于确定所述语料数据的清洗需求；

第二确定单元，用于根据所述语料数据和所述清洗需求以及预置清洗规则分类模型，确定与所述语料数据对应的目标清洗规则；

数据清洗单元，用于根据所述目标清洗规则对所述语料数据进行数据清洗，得到目标语料数据。

可选地，在本发明第二方面的第三种实现方式中，所述数据管理装置还包括：

第二获取模块，用于从预置数据库中获取用户与智能客服之间的历史对话文本数据；获取所述历史对话文本数据中包含的所有标准问；

第一确定模块，用于基于所述历史对话文本数据和所述标准问，通过预置BERT模型确定所述标准问对应的标准答案在所述历史对话文本数据的位置数据；基于所述历史对话文本数据和所述标准答案在所述历史对话文本数据的位置数据，确定所述标准问对应的标准答案；基于所述标准答案和所述标准问，确定所述历史对话文本数据中包含的所有标问标答对，其中，每个标准问对应一个标准答案。

可选地，在本发明第二方面的第四种实现方式中，所述数据管理装置还包括：

第三获取模块，用于获取预先定义的意图标签；

第二确定模块，用于确定各所述目标语料数据种携带的意图标签；

输入模块，用于将所述目标语料数据和所述目标语料数据对应的意图标签预置Albert模型得到所述初始意图分类模型。

可选地，在本发明第二方面的第五种实现方式中，所述数据管理装置还包括：

第四获取模块，用于获取线上用户与智能客服之间的实时对话文本数据；

第二预测模块，用于将所述实时对话文本数据输入所述初始意图分类模型，以对所述实时对话文本数据的分类进行预测，并对所述预测结果进行处理；

训练模块，用于将处理后的实时对话文本数据输入所述初始意图分类模型进行迭代训练，直至所述初始意图分类模型预测结果大于预设准确率，得到目标意图分类模型。

本发明第三方面提供了一种数据管理设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述数据管理设备执行上述的数据管理方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的数据管理方法。

本发明提供的技术方案中，通过从预置知识库中获取语料数据，并对语料数据进行数据清洗，得到目标语料数据；将目标语料数据输入预置意图分类模型，以对知识库中的目标语料数据进行分类预测，得到预测结果；并根据预测结果，筛选并删除意图相似的标准问，同时删除无关扩展问对知识库进行优化。提高了知识库的质量，解决了智能客服系统回答问题的准确率低导致的用户体验差的技术问题。

附图说明

图1为本发明数据管理方法的第一个实施例示意图；

图2为本发明数据管理方法的第二个实施例示意图；

图3为本发明数据管理方法的第三个实施例示意图；

图4为本发明数据管理方法的第四个实施例示意图；

图5为本发明数据管理方法的第五个实施例示意图；

图6为本发明数据管理装置的第一个实施例示意图；

图7为本发明数据管理装置的第二个实施例示意图；

图8为本发明数据管理设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种数据管理方法、装置、设备及存储介质，本发明的技术方案中，先本发明提供的技术方案中，通过从预置知识库中获取语料数据，并对语料数据进行数据清洗，得到目标语料数据；将目标语料数据输入预置意图分类模型，以对知识库中的目标语料数据进行分类预测，得到预测结果；并根据预测结果，筛选并删除意图相似的标准问，同时删除无关扩展问对知识库进行优化。提高了知识库的质量，解决了智能客服系统回答问题的准确率低导致的用户体验差的技术问题。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中数据管理方法的第一个实施例包括：

101、从预置知识库中获取语料数据；

本实施例中，本实施例中，从预置知识库中获取所有的语料数据，也就是获取知识库中的全部用户意图，以及每个用户意图对应的语料数据，语料数据包括多条语料；分别将同一用户意图和/或不同用户意图对应的语料数据进行重复检测，并输出检测结果；对检测结果中重复的语料执行去重操作。

众所周知知识库是由大量的用户意图构成，而每个用户意图相当于一个语料数据，由于同一意图对应着多个问句，因此每个问句又相当于用户意图下的一个语料，考虑到同一用户意图和/或不同用户意图对应的语料数据中可能存在重复的语料，因此需对重复的语料进行检测，以在知识库维护的过程中对重复的语料进行删除，能够有效提高了知识库检索的准确率。

本实施例中，知识库包含很多种，比如，多轮对话场景知识库：可基于业务场景设置话术及动作节点，形成完整的对话流程和业务闭环，辅助机器人更加智能化及情感化；业务技能知识库：通过语义识别执行对应操作并返回操作执行结果，支持语义识别、关键字匹配、意图识别；QA问答知识库：包括系统共通问答库和客户的自定义问答库，支持批量导入、手动单条增加、多层级审批；NLP自定义知识库：增强语义理解以及消歧能力，支持实体词、专有词、同义词、变量词、敏感词等管理(注：NLP是指自然语言处理，Natural LanguageProcessing的缩写)；通用行业知识库：对常见行业的基础知识进行总结和归纳，提供基础的行业知识库，帮助用户快速创建知识库；个性化闲聊知识库：为了让智能客服机器人能够更加个性化、人性化地回答访客的问题而创建的闲聊知识库，增加问答的乐趣；用于支持基于场景的多轮对话和专用词、敏感词等的自定义等。

本实施例中，知识库包括多个知识点，每个知识点包括答案、一个标准问和/或对应于标准问的多个扩展问。标准问以及扩展问既可以采用普通问题形式，也可以采用语义表达式形式，两者根据是否包括词类进行区分。语义表达式中包括词类，词类是按照词的语义进行划分的，把一组相关的词组织在一起形成一个树状结构的词类库，在这个树状结构中的任意一个非叶子结点都称作一个词类(即，广义词类)，其中直接包含词的第一k级词类称为狭义词类。狭义词类是对一组相关词的汇总，词类由词类名和一组相关词所组成。词类名是在这组相关词中具有标签作用的词，即词类的代表。每个知识点会有一个标准问，例如：你会干什么，针对这个标准问，会有与其对应的多个扩展问，例如：你[会]唱歌吗，你[会]跳舞吗，你[会]干活么，你[会]打球么等等。

102、对语料数据进行数据清洗，得到目标语料数据；

本实施例中，数据清洗包括数据脱敏、数据校验和数据转换。其中，数据脱敏用于对源业务数据中的敏感数据进行加密处理。比如，该数据中包括个人的身份证号等，可对该身份证号进行加密。数据校验用于查询源业务数据中是否存在脏数据，并删除该脏数据，以消除脏数据对精算结果的影响。服务器针对各个类型的数据设置了脏数据判定方法，根据预设的判定方法检测是否为脏数据。比如，可设置每个类型的数据的字符长度范围或数值的大小范围等，当某一类型的数据的字符长度不处于预设范围之内，或数值的大小不处于预设的大小范围之内，则判定该数据为脏数据。数据校验是将存在多种不同表述方式的数据统一转换成同一种预设表述方式的过程。

103、将目标语料数据输入预置意图分类模型，以对目标语料数据的分类进行预测，得到预测结果；

本实施例中，在得到目标意图分类模型之后，分别对经过数据冗余去除和清洗的目标语料数据中包含的所有标准问和扩展问、标准问和标准问进行预测。分别计算所有标准问与标准问之间和扩展问与扩展问之间的余弦相似度，根据余弦相似度的值对标准问和扩展问进行分类，剔除意图相同，重复录入的标准问，并确定没一个标准问对应的扩展问，同时删除无关的扩展问。

本实施例中，余弦相似度又叫余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值，绘制到向量空间中，如最常见的二维空间。

余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1，而其他任何角度的余弦值都不大于1；并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相反的方向时，余弦相似度的值为-1。这结果是与向量的长度无关的，仅仅与向量的指向方向相关。余弦相似度通常用于正空间，因此给出的值为-1到1之间。给定两个属性向量，A和B，其余弦相似性θ由点积和向量长度给出，如下所示：

其中，A_i和B_i分别代表向量A和B的各分量。

104、基于预测结果，筛选意图相似的标准问，并将意图相似的标准问删除；

本实施例中，通过目标意图分类模型对知识库中的标准问进行预测，意图相似的标准问则被定义为重复的标准问，并剔除；同时，确定与每一个标准问对应的扩展问，进一步地，删除无关的扩展问。比如，标准问和“借记卡如何办理”，由于两个标准问意图类似，且“银行卡”包含“借记卡”，所以就可以剔除“借记卡如何办理”这个标准问；同时，确定与标准问“银行卡如何办理”对应的全部扩展问；比如“我想办张银行卡，我该怎么做”、“银行卡申办流程”、“我要申请你们银行的借记卡”、“借记卡申请需要什么条件”。同时删除与所述标准问无关的扩展问，比如，标准问“如何重置取款密码”原本对应的扩展问有“重置取款密码”、“你好，交易密码忘记了怎么办”、“你们店的无线网密码是多少”，其中，扩展问“你们店的无线网密码是多少”属于无关扩展问，则删除。

105、确定与标准问对应的全部扩展问和与标准问对应的标准答案，优化知识库。

本实施例中，通过目标意图分类模型对知识库中的标准问进行预测，意图相似的标准问则被定义为重复的标准问并剔除；同时，确定与每一个标准问对应的扩展问，进一步地，删除无关的扩展问。比如，标准问和“借记卡如何办理”，由于两个标准问意图类似，且“银行卡”包含“借记卡”，所以就可以剔除“借记卡如何办理”这个标准问；同时，确定与标准问“银行卡如何办理”对应的全部扩展问；比如“我想办张银行卡，我该怎么做”、“银行卡申办流程”、“我要申请你们银行的借记卡”、“借记卡申请需要什么条件”。同时删除与所述标准问无关的扩展问，比如，标准问“如何重置取款密码”原本对应的扩展问有“重置取款密码”、“你好，交易密码忘记了怎么办”、“你们店的无线网密码是多少”，其中，扩展问“你们店的无线网密码是多少”属于无关扩展问，则删除。避免知识库中出现相同意图的标准问重复录入，问题被误加入到意图不同的扩展问中，提高了知识库的质量，提升智能客服回答问题的准确率，提升同用户体验和用户办理业务的效率。

本发明实施例中，通过本发明提供的技术方案中，通过从预置知识库中获取语料数据，并对语料数据进行数据清洗，得到目标语料数据；将目标语料数据输入预置意图分类模型，以对知识库中的目标语料数据进行分类预测，得到预测结果；并根据预测结果，筛选并删除意图相似的标准问，同时删除无关扩展问对知识库进行优化。提高了知识库的质量，解决了智能客服系统回答问题的准确率低导致的用户体验差的技术问题。

请参阅图2，本发明实施例中数据管理方法的第二个实施例包括：

201、获取用户与智能客服的多轮对话；

本实施例中，获取目标用户客服之间的多轮对话数据，其中，所述用户可以为需要提取个人知识体系以及个人认知的用户。其他用户可以为与用户进行对话的用户。在一份对话数据中，所述用户可以为一个或一个以上，本发明对此不做限制。

202、将多轮对话转换为目标文本；

本实施例中，可以将所述多轮对话中收集到的对话数据转化为目标文本，作为提取标准问题以及标准答案的素材。

203、基于用户的目标文本，生成标准问以及与标准问对应的标准答案；

本实施例中，所述目标文本中可以包括所述目标用户的个人知识体系以及个人认知。由此，可以基于所述目标用户的所述目标文本，生成训练模型使用的标准问题以及所述标准问题对应的标准答案，从而所述标准问题以及所述标准答案中，也可以包括所述目标用户的个人知识体系以及个人认知。其中，所述标准问题可以为针对至少一个实体所提出的问题。所述标准答案可以为针对所述标准问题中的实体所提出的答案。

在具体实现中，所述目标文本中可以包括至少一个实体，以及用户基于自身知识体系以及个人认知形成的，针对所述实体的描述。例如，所述目标文本可以为“我听说奇异果也可以被称为猕猴桃”，其中，“奇异果”可以为实体，而“奇异果也称为猕猴桃”可以为目标用户针对实体“奇异果”的描述。而用户对所述实体的描述，可以认为是用户对所述实体的一种回答，从而可以基于所述目标文本中用户对实体的描述，生成标准问题，以及所述标准问题对应的答案。例如，可以基于“奇异果也称为猕猴桃”，生成标准问题“奇异果也被称为什么？”，以及标准答案“奇异果也被称为猕猴桃”。具体地，可以根据实际需要，采用手工编制规则的方式生成标准问题以及标准答案，也可以根据句法模板以及关键词生成标准问题以及标准答案，也可以根据句法依赖分析生成标准问题以及标准答案，也可以基于语义分析生成标准问题以及标准答案，本发明对此不做限制。

204、基于标准问以及与标准问对应的标准答案，生成知识库；

本实施例中，可以采用所述标准问题以及所述标准问题对应的标准答案，生成知识库。所述知识库可以包括至少一对所述标准问题以及所述标准问题对应的标准答案。所述标准问题以及所述标准答案基于所述目标用户的目标对话数据得到，从而所述知识库可以一定程度上体现出目标用户的知识体系以及个人认知。其他用户可以通过所述知识库，获取基于目标用户的知识体系以及个人认知得到的答案。例如，患者可以通过医生的知识库，获取对其病况咨询的回复。目标用户也可以通过所述知识库，对自身的知识体系进行回溯。

205、从预置知识库中获取语料数据；

206、对语料数据进行数据清洗，得到目标语料数据；

207、将目标语料数据输入预置意图分类模型，以对目标语料数据的分类进行预测，得到预测结果；

208、基于预测结果，筛选意图相似的标准问，并将意图相似的标准问删除；

209、确定与标准问对应的全部扩展问和与标准问对应的标准答案，优化知识库。

本实施例中步骤205-209与第一实施例中的步骤101-105类似，此处不再赘述。

请参阅图3，本发明实施例中数据管理方法的第三个实施例包括：

301、从预置知识库中获取语料数据；

302、确定语料数据的清洗需求；

本实施例中，众所周知知识库是由大量的用户意图构成，而每个用户意图相当于一个语料数据，由于同一意图对应着多个问句，因此每个问句又相当于用户意图下的一个语料，考虑到同一用户意图和/或不同用户意图对应的语料数据中可能存在重复的语料，因此需对重复的语料进行检测，以在知识库维护的过程中对重复的语料进行删除，对有错别字的语料进行修改，能够有效提高了知识库检索的准确率。数据清洗的目的就在于填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致等。

303、根据语料数据和清洗需求以及预置清洗规则分类模型，确定与语料数据对应的目标清洗规则；

本实施例中，在用于选取何种清洗规则对语料数据进行数据清洗的清洗规则分类模型，该清洗规则分类模型利用表征清洗规则的清洗规则特征作为目标输出、表征清洗规则对应的待清洗样本数据及其清洗效果的联合特征作为训练输入，进行模型训练得到。比如，可以预先整合所有可能的清洗规则，同时收集每个清洗规则对应的待清洗样本数据及其清洗效果；然后，获取能够表征清洗规则的清洗规则特征，以及获取能够表征待清洗样本数据及其清洗效果的联合特征；然后，将各联合特征作为训练输入、将各联合特征对应的清洗规则特征作为目标输出，按照预先设定的训练算法来进行模型训练，以训练得到用于选取何种清洗规则对语料数据进行数据清洗的清洗规则分类模型。

由此，电子设备在获取到需要进行数据清洗的语料数据，以及获取到数据的清洗需求之后，即可将语料数据和清洗需求输入到清洗规则分类模型，使得清洗规则分类模型输出能够对语料数据进行数据清洗且清洗效果满足清洗需求的清洗规则，将该清洗规则作为对语料数据进行数据清洗的目标清洗规则。

304、根据目标清洗规则对语料数据进行数据清洗，得到目标语料数据；

本实施例中，确定出用于对语料数据进行数据清洗的目标清洗规则，最后根据确定出的目标清洗规则对语料数据进行数据清洗，使得对语料数据的清洗效果满足清洗需求。由此，只要预先训练得到清洗规则分类模型，后续即可利用该清洗规则分类模型实现对数据的自动清洗，而无需过多的人工参与，不仅降低了数据清洗的人力成本，更提高了数据清洗的效率。

305、将目标语料数据输入预置意图分类模型，以对目标语料数据的分类进行预测，得到预测结果；

306、基于预测结果，筛选意图相似的标准问，并将意图相似的标准问删除；

307、确定与标准问对应的全部扩展问和与标准问对应的标准答案，优化知识库。

本实施例中步骤305-307与第一实施例中的步骤103-105类似，此处不再赘述。

请参阅图4，本发明实施例中数据管理方法的第四个实施例包括：

401、从预置知识库中获取语料数据；

402、对语料数据进行数据清洗，得到目标语料数据；

403、从预置数据库中获取用户与智能客服之间的历史对话文本数据；

本实施例中，获取数据库中储存的历史某一时间段内的用户与客服对话过程中输入的目标语料数据与标准问，其中，该目标语料数据可以是银行客服对话、教学问答、心理咨询辅导、电商平台文本对话、教练培训对话等应用场景中涉及到的文章，该目标语料数据中包含有标准问对应的标准答案信息。

404、获取历史对话文本数据中包含的所有标准问；

本实施例中，历史对话文本数据包括至少一个标准问以及与每个标准问相对应的扩展问和标准答案，其中每个标准问对应一个标准答案；比如，可以有多个扩展问对应一个标准问。

标准问跟标准答案存在一一对应的关系，通常，历史对话文本数据中都会存在多个标准问，知识库中包括多个知识点，每个知识点包括：一个知识库标准问、多个知识库扩展问和一个答案，即不同的知识库扩展问都是对应同一个答案，一个知识库标准问也对应这一个答案。一般是从每个知识点对应的多个知识库扩展问中选择一个表达清晰易于维护的知识库扩展问作为该知识点的知识库标准问，因此知识库标准问与一个知识库扩展问相同。需要说明的是，每个知识库标准问所对应的知识库扩展问个数可以相同，也可以不同。

405、基于历史对话文本数据和标准问，通过预置BERT模型确定标准问对应的标准答案在历史对话文本数据的位置数据；

本实施例中，BERT模型是由双向Transformer组成的一个特征抽取模型。Transformer所使用的注意力机制的核心思想是去计算一句话中每个词对这句话中所有词的相互关系，然后认为词与词的相互关系在一定程度上反应了这句话中不同词之间的关联性以及重要程度。

BERT模型在训练过程中使用masked languagemodel，随机遮挡输入中的tokens，进行预训练，同时增加句子级任务next sentenceprediction，随机替换一些句子，利用上一句进行isNext/notNext的预测。通过这两项任务，使用大规模无标注语料进行优化，最后得到预训练好的BERT模型。其中，通过预训练的基于BERT的神经网络模型确定所述标准问对应的标准答案在所述目标文本的位置信息。

406、基于历史对话文本数据和标准答案在历史对话文本数据的位置数据，确定标准问对应的标准答案；

本实施例中，基于所述目标文本与所述目标答案在所述目标文本的位置信息确定所述标准问对应的标准答案，其中，该标准答案可以是直接在目标文本中确定的，也可以是在目标文本中确定相应的候选文本后，再进行处理得到的。

407、基于标准答案和标准问，确定历史对话文本数据中包含的所有标问标答对；

本实施例中，将标准问与标准问对应的标准答案确定标准问答对，可以将确定的标准问答对进行存储，从而得到标准问答对库，以供智能问答进行使用。

本实施例中，知识库标准问跟标准答案存在一一对应的关系，通常，知识库中都会存在多个知识库标准问，知识库标准问，知识库中包括多个知识点，每个知识点包括：一个知识库标准问、多个知识库扩展问和一个答案，即不同的知识库扩展问都是对应同一个答案，一个知识库标准问也对应这一个答案。

408、将目标语料数据输入预置意图分类模型，以对目标语料数据的分类进行预测，得到预测结果；

409、基于预测结果，筛选意图相似的标准问，并将意图相似的标准问删除；

410、确定与标准问对应的全部扩展问和与标准问对应的标准答案，优化知识库。

本实施例中步骤401-402、406-408与第一实施例中的步骤101-105类似，此处不再赘述。

请参阅图5，本发明实施例中数据管理方法的第五个实施例包括：

501、从预置知识库中获取语料数据；

502、对语料数据进行数据清洗，得到目标语料数据；

503、从预置数据库中获取用户与智能客服之间的历史对话文本数据；

504、获取历史对话文本数据中包含的所有标准问；

505、基于历史对话文本数据和标准问，通过预置BERT模型确定标准问对应的标准答案在历史对话文本数据的位置数据；

506、基于历史对话文本数据和标准答案在历史对话文本数据的位置数据，确定标准问对应的标准答案；

507、基于标准答案和标准问，确定历史对话文本数据中包含的所有标问标答对；

508、获取预先定义的意图标签；

本实施例中，意图标签可以根据实际情况进行选择；线上真实用户语料数据可以进行线上收集得到。

509、确定各历史对话文本数据种携带的意图标签；

本实施例中，得到意图标签和用户语料数据后，可以通过人工标注的方式，将各用户语料数据标注上对应的意图标签。

510、将历史对话文本数据和历史对话文本数据对应的意图标签输入预置Albert模型得到初始意图分类模型；

本实施例中，Albert是Google提出的预训练模型，它可以实现跨层参数共享实现模型稳定性，以及SOP(sentence of prediction)训练任务模型更加容易学习句子的连贯性。本实施例中，基于Albert模型构建初始意图分类模型，可以先定义意图标签，收集线上真实用户语料的数据，通过人工标注的方式，为语料标上对应意图标签，然后输入Albert模型训练，得到初始意图分类模型。

511、获取用户与智能客服之间的实时对话文本数据；

本实施例中，获取线上用户与智能客服之间的实时对话文本数据，其中，该实时对话文本数据可以是银行客服对话、教学问答、心理咨询辅导、电商平台文本对话、教练培训对话等应用场景中涉及到的文章，该实时对话文本数据中包含有对应的意图。

512、将实时对话文本数据作为训练数据集，输入初始意图分类模型，以对实时对话文本数据的分类进行预测，并对预测结果进行处理；

本实施例中，自然语言处理领域中，判断两个单词是不是一对上下文词(context)与目标词(target)，如果是一对，则是正样本，如果不是一对，则是负样本。采样得到一个上下文词和一个目标词，生成一个正样本(positive example)，生成一个负样本(negativeexample)，则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样(negative sampling)。比如，给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。训练需要正样本和负样本同时存在。

本实施例中，对所述用户语料数据进行预测，可以根据所述初始意图分类模型中的SOP预训练任务训练模型，预测所述用户语料数据的意图类别。Albert提出一种的句间连贯性预测任务，称之为sentence-orderprediction(SOP)，正负样本表示如下：

正样本：与bert一样，两个连贯的语句

负样本：在原文中也是两个连贯的语句，但是顺序交换一下。

SOP因为正负样本都是在同一个文档中选的，只关注句子的顺序而不考虑主题方面的影响，所以这将迫使模型在话语层面学习更细粒度的区分。

513、将处理后的实时对话文本数据输入初始意图分类模型进行迭代训练，直至初始意图分类模型预测结果大于预设准确率，得到目标意图分类模型；

本实施例中，针对初始意图分类模型初期预测的不准确的情况，对模型进行迭代训练，使得模型预测的更加准确，得到目标意图分类模型。

本实施例中，本模型采用的沿用了孪生网络的结构，文本的encoder部分用同一个albert_faq来做特征提取。选取了CLS-token位置的编码作为向量表示，使用Avg-Pooling池化策略对模型输出的字向量进行进一步特征提取、压缩，得到u、v。最后的u、v整合，本专利测试了3种策略：

(1)针对分类任务，对u、v拼接组合，最后接入一个mlp网络，使用softmax进行分类输出，损失函数使用交叉熵：P＝Softmax([u；v])

(2)直接计算、输出余弦相似度，训练损失函数采取了均方根误差；

(3)将u、v进行平均，最后接入一个mlp网络，与(1)不同的是使用softmax作为最后的激活函数：P＝softmax(avg(u+v))

本实施例中，为了兼顾到准确度和方便维护，本实施例采用(3)中的方法，参数设置如下：batch_szie＝64，epoch＝100，adam作为优化器，学习率2e-5，使用accuracy作为评估指标，损失函数采用sparse categorical crossentropy。

得到了目标意图分类模型之后，分别对标准问和扩展问、标准问和标准问进行预测，这部分需要特别注意的是，标准问和扩展问需要找出不相似的即模型输出为0的数据，标准问和标准问需要找到相似的即输出为1的数据，扩展问和扩展问需要找到相似的即输出为1的数据；为了加速推理速度，采用了批量的方式进行预测。

514、将目标语料数据输入预置意图分类模型，以对目标语料数据的分类进行预测，得到预测结果；

515、基于预测结果，筛选意图相似的标准问，并将意图相似的标准问删除；

516、确定与标准问对应的全部扩展问和与标准问对应的标准答案，优化知识库。

本实施例中步骤501-502、509-510与第一实施例中的101-102、104-105类似，此处不再赘述。

在本发明实施例中，通过本发明提供的技术方案中，通过从预置知识库中获取语料数据，并对语料数据进行数据清洗，得到目标语料数据；将目标语料数据输入预置意图分类模型，以对知识库中的目标语料数据进行分类预测，得到预测结果；并根据预测结果，筛选并删除意图相似的标准问，同时删除无关扩展问对知识库进行优化。提高了知识库的质量，解决了智能客服系统回答问题的准确率低导致的用户体验差的技术问题。

上面对本发明实施例中数据管理方法进行了描述，下面对本发明实施例中数据管理装置进行描述，请参阅图6，本发明实施例中数据管理装置的第一个实施例包括：

第一获取模块601，用于从预置知识库中获取语料数据，其中，所述语料数据包括多个标准问，每一个标准问对应多个扩展问，所述知识库用于为用户提供答案；

数据清洗模块602，用于对所述语料数据进行数据清洗，得到目标语料数据；

第一预测模块603，用于将所述目标语料数据输入预置意图分类模型，以对所述目标语料数据的分类进行预测，得到预测结果，其中，所述目标语料数据包括标准问、与所述标准问对应的扩展问以及与所述标准问对应的标准答案；

筛选模块604，用于基于所述预测结果，筛选意图相似的标准问，并将所述意图相似的标准问删除；

优化模块605，用于确定与所述标准问对应的全部扩展问和与所述标准问对应的标准答案，优化所述知识库。

请参阅图7，本发明实施例中数据管理装置的第二个实施例，该数据管理装置具体包括：

本实施例中，所述数据管理装置还包括：

第二获取模块606，用于获取用户与智能客服的多轮对话；

转换模块607，用于将所述多轮对话转换为目标文本；

生成模块608，用于基于所述用户的所述目标文本，生成标准问以及与所述标准问对应的标准答案；基于所述标准问以及与所述标准问对应的标准答案，生成知识库。

本实施例中，所述数据清洗模块602包括：

第一确定单元6021，用于确定所述语料数据的清洗需求；

第二确定单元6022，用于根据所述语料数据和所述清洗需求以及预置清洗规则分类模型，确定与所述语料数据对应的目标清洗规则；

数据清洗单元6023，用于根据所述目标清洗规则对所述语料数据进行数据清洗，得到目标语料数据。

本实施例中，所述数据管理装置还包括：

第二获取模块609，用于从预置数据库中获取用户与智能客服之间的历史对话文本数据；获取所述历史对话文本数据中包含的所有标准问；

第一确定模块610，用于基于所述历史对话文本数据和所述标准问，通过预置BERT模型确定所述标准问对应的标准答案在所述历史对话文本数据的位置数据；基于所述历史对话文本数据和所述标准答案在所述历史对话文本数据的位置数据，确定所述标准问对应的标准答案；基于所述标准答案和所述标准问，确定所述历史对话文本数据中包含的所有标问标答对，其中，每个标准问对应一个标准答案。

本实施例中，所述数据管理装置还包括：

第三获取模块611，用于获取预先定义的意图标签；

第二确定模块612，用于确定各所述目标语料数据种携带的意图标签；

输入模块613，用于将所述目标语料数据和所述目标语料数据对应的意图标签预置Albert模型得到所述初始意图分类模型。

本实施例中，所述数据管理装置还包括：

第四获取模块614，用于获取线上用户与智能客服之间的实时对话文本数据；

第二预测模块615，用于将所述实时对话文本数据输入所述初始意图分类模型，以对所述实时对话文本数据的分类进行预测，并对所述预测结果进行处理；

训练模块616，用于将处理后的实时对话文本数据输入所述初始意图分类模型进行迭代训练，直至所述初始意图分类模型预测结果大于预设准确率，得到目标意图分类模型。

上面图6和图7从模块化功能实体的角度对本发明实施例中的数据管理装置进行详细描述，下面从硬件处理的角度对本发明实施例中数据管理设备进行详细描述。

图8是本发明实施例提供的一种数据管理设备的结构示意图，该数据管理设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)810(例如，一个或一个以上处理器)和存储器820，一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据管理设备800中的一系列指令操作。更进一步地，处理器810可以设置为与存储介质830通信，在数据管理设备800上执行存储介质830中的一系列指令操作，以实现上述各方法实施例提供的数据管理方法的步骤。

数据管理设备800还可以包括一个或一个以上电源840，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口860，和/或，一个或一个以上操作系统831，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图8示出的数据管理设备结构并不构成对本申请提供的数据管理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行上述数据管理方法的步骤。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所述领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种数据管理方法，其特征在于，所述数据管理方法包括：

对所述语料数据进行数据清洗，得到目标语料数据；

2.根据权利要求1所述的数据管理方法，其特征在于，在所述从预置知识库中获取语料数据之前，还包括：

获取用户与智能客服的多轮对话；

将所述多轮对话转换为目标文本；

3.根据权利要求1所述的数据管理方法，其特征在于，所述对所述语料数据进行数据清洗，得到目标语料数据包括：

确定所述语料数据的清洗需求；

4.根据权利要求1所述的数据管理方法，其特征在于，所述数据管理方法还包括：

获取所述历史对话文本数据中包含的所有标准问；

5.根据权利要求1所述的数据管理方法，其特征在于，在所述基于所述标准答案和所述标准问，确定所述历史对话文本数据中包含的所有标问标答对之后，还包括：

获取预先定义的意图标签；

确定各所述历史对话文本数据种携带的意图标签；

6.根据权利要求5所述的数据管理方法，其特征在于，在所述将所述历史对话文本数据和所述历史对话文本数据对应的意图标签输入预置Albert模型得到初始意图分类模型之后，还包括：

获取用户与智能客服之间的实时对话文本数据；

7.一种数据管理装置，其特征在于，所述数据管理装置包括：

8.根据权利要求7所述的数据管理装置，其特征在于，所述数据管理装置还包括：

第一获取模块，用于获取用户与智能客服的多轮对话；

转换模块，用于将所述多轮对话转换为目标文本；

9.一种数据管理设备，其特征在于，所述数据管理设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述数据管理设备执行如权利要求1-6中任一项所述的数据管理方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的数据管理方法的步骤。