CN113468206B

CN113468206B - 数据维护方法、装置、服务器、介质及产品

Info

Publication number: CN113468206B
Application number: CN202110799805.7A
Authority: CN
Inventors: 申亚坤; 丁锐; 谭莹坤; 陶威; 周慧婷; 刘烨敏
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2024-02-23
Anticipated expiration: 2041-07-15
Also published as: CN113468206A

Abstract

本申请公开了一种数据维护方法、装置、服务器、介质及产品，该方法获取针对同一知识信息的多个用户分别对应的评论内容集合；对于每一评论内容，将评论内容输入至情感评分模型，以得到评论内容的情感分数；对于每一用户，基于用户对应的评论内容集合包含的评论内容的情感分数，以及，用户对应的评论内容集合包含的评论内容的权重，计算得到用户对应的评论内容集合的目标情感分数；基于多个用户分别对应的目标情感分数以及多个用户分别对应的权重，计算得到知识信息的最终情感分数；若最终情感分数小于或等于第一预设阈值，确定知识信息为待维护知识信息。实现了自动检测哪些知识信息为待维护的知识信息，无需人为检测，节省了人力。

Description

数据维护方法、装置、服务器、介质及产品

技术领域

本申请涉及数据库维护技术领域，更具体的说，是涉及数据维护方法、装置、服务器、介质及产品。

背景技术

数据库中存储有多个知识信息，客户端可以获取数据库中的知识信息并展示，从而使得用户能够查看该知识信息。目前数据库中存储的多个知识信息需要人为进行维护，例如，检测知识信息是否过时，检测知识信息是否有误，检测知识信息是否全面。若知识信息存在问题，则对知识信息进行删除或修改。从而使得为用户提供的知识信息是正确的。

目前，维护数据库存储的多个知识信息，例如，及时发现数据库中哪些知识信息存在问题，是人为维护的，浪费大量人力。

发明内容

有鉴于此，本申请提供了一种数据维护方法、装置、服务器、介质及产品。

为实现上述目的，本申请提供如下技术方案：

根据本公开实施例的第一方面，提供一种数据维护方法，包括：

获取针对同一知识信息的多个用户分别对应的评论内容集合，所述用户对应的评论内容集合包括至少一个评论时刻对应的评论内容；

对于每一评论内容，将所述评论内容输入至情感评分模型，以得到所述评论内容的情感分数；

对于每一用户，基于所述用户对应的评论内容集合包含的评论内容的情感分数，以及，所述用户对应的评论内容集合包含的评论内容的权重，计算得到所述用户对应的评论内容集合的目标情感分数；所述评论内容集合包含的评论内容的权重与差值呈负相关，所述差值为当前时刻与所述评论内容对应的评论时刻的差值；

基于多个用户分别对应的目标情感分数以及多个用户分别对应的权重，计算得到所述知识信息的最终情感分数；

若所述知识信息的最终情感分数小于或等于第一预设阈值，确定所述知识信息为待维护知识信息。

根据本公开实施例的第二方面，提供一种数据维护装置，包括：

第一获取模块，用于获取针对同一知识信息的多个用户分别对应的评论内容集合，所述用户对应的评论内容集合包括至少一个评论时刻对应的评论内容；

第二获取模块，用于对于每一评论内容，将所述评论内容输入至情感评分模型，以得到所述评论内容的情感分数；

第一计算模块，用于对于每一用户，基于所述用户对应的评论内容集合包含的评论内容的情感分数，以及，所述用户对应的评论内容集合包含的评论内容的权重，计算得到所述用户对应的评论内容集合的目标情感分数所述评论内容集合包含的评论内容的权重与差值呈负相关，所述差值为当前时刻与所述评论内容对应的评论时刻的差值；

第二计算模块，用于基于多个用户分别对应的目标情感分数以及多个用户分别对应的权重，计算得到所述知识信息的最终情感分数；

确定模块，用于若所述知识信息的最终情感分数小于或等于第一预设阈值，确定所述知识信息为待维护知识信息。

根据本公开实施例的第三方面，提供一种服务器，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的数据维护方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行如第一方面所述的数据维护方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，可直接加载到计算机的内部存储器，例如第三方面所述服务器包含的存储器中，并含有软件代码，该计算机程序经由计算机载入并执行后能够实现如第一方面所述的数据维护方法。

经由上述的技术方案可知，本申请提供的数据维护方法中，获取针对同一知识信息的多个用户分别对应的评论内容集合，所述用户对应的评论内容集合包括至少一个评论时刻对应的评论内容；对于每一评论内容，将所述评论内容输入至情感评分模型，以得到所述评论内容的情感分数；对于每一用户，基于所述用户对应的评论内容集合包含的评论内容的情感分数，以及，所述用户对应的评论内容集合包含的评论内容的权重，计算得到所述用户对应的评论内容集合的目标情感分数；所述评论内容集合包含的评论内容的权重与当前时刻与评论内容的评论时刻的差值呈负相关；基于多个用户分别对应的目标情感分数以及多个用户分别对应的权重，计算得到所述知识信息的最终情感分数；若所述知识信息的最终情感分数小于或等于第一预设阈值，确定所述知识信息为待维护知识信息。实现了基于知识信息的评论内容自动检测哪些知识信息为待维护的知识信息，无需人为检测，节省了人力。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例涉及的硬件架构的一种实现方式的示意图；

图2为本申请实施例提供的数据维护方法的一种实现方式的流程图；

图3为本申请实施例提供的客户端展示知识信息以及其评论内容的示意图；

图4为本申请实施例提供的数据维护装置的结构图；

图5是根据一示例性实施例示出的一种用于服务器的装置的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种数据维护方法、装置、服务器、介质及产品，在介绍本申请实施例提供的技术方案之前，先对本申请实施例涉及的硬件架构进行说明。

如图1所示，为本申请实施例涉及的硬件架构的一种实现方式的示意图，该硬件架构包括：电子设备11、服务器12、数据库13。

示例性的，电子设备11可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如，手机、笔记本电脑、平板电脑、掌上电脑、个人计算机、可穿戴设备、智能电视、PAD等。

示例性的，电子设备11中安装有客户端。示例性的，客户端可以为应用程序客户端或网页版客户端。

示例性的，客户端可以为新闻客户端或视频客户端。

示例性的，服务器12可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务器中心。服务器12可以包括处理器、存储器以及网络接口等。

示例性的，数据库13可以集成于服务器12中；示例性的，数据库13独立于服务器12之外。

应注意的是，图1仅仅是一种示例，电子设备的类型可以有多种，不限于图1中的手机。

应当注意的是，电子设备11的数目可以有多个，图1中以1个电子设备为例，但并不造成限定。

在一可选实现方式中，电子设备11可以向服务器12发送请求，服务器12响应电子设备11发送的请求，将数据库13存储的知识信息发送至电子设备11，用户可以通过电子设备11查看知识信息，并对知识信息进行评论。

示例性的，用户还可以通过电子设备11查看其他用户对该知识信息的评论内容。

示例性的，数据库13用于存储多个知识信息、多个知识信息分别对应的评论内容、每一评论内容的评论时刻以及每一评论内容对应的用户标识。

示例性的，知识信息可以包括文本信息、图片信息、音频信息和视频信息中的至少一个。

示例性的，评论内容的评论时刻是指用户将评论内容上传至数据库13的时刻。

评论内容对应的用户标识，是指发布该评论内容的用户的用户名，或者，发布该评论内容的电子设备的IP(Internet Protocol Address，互联网协议地址)地址。

示例性的，数据库13还存储有每一知识信息的每一评论内容对应的阅读时长。

可以理解的是，用户在查看知识信息后，可能会对该知识信息进行评价，但是，有的是恶意评价，例如，用户根本不查看该知识信息，直接进行评论，此时，用户在对该知识信息进行评价时，针对该知识信息的阅读时长几乎为零，因此，数据库可以记录每一评论内容对应的阅读时长，即发布该评论内容时，用户阅读该知识信息的阅读时长。

通过每一评论内容对应的阅读时长，可以确定该评论内容是否为有效评论内容。例如，对于任一评论内容而言，若该评论内容对应的阅读时长为零，或者，小于预设阈值，则该评论内容为无效评论内容。

示例性的，预设阈值可以为知识信息的平均阅读时长与阈值A的乘积，阈值A为小于或等于1的任意正数。

在一可选实现方式中，对于任一知识信息，服务器可以基于该知识信息对应的多个评论内容，确定该知识信息是否为待维护知识信息。无需人为检测数据库存储的知识信息是否为待修改信息，从而节省了人力。

本领域技术人员应能理解上述服务器仅为举例，其他现有的或今后可能出现的服务器如可适用于本公开，也应包含在本公开保护范围以内，并在此以引用方式包含于此。

下面结合上述硬件架构对本申请实施例提供的数据维护方法进行说明。

如图2所示，为本申请实施例提供的数据维护方法的一种实现方式的流程图，该方法可以应用于图1所示的服务器12中，该方法包括以下步骤S21至步骤S25。

步骤S21：获取针对同一知识信息的多个用户分别对应的评论内容集合，所述用户对应的评论内容集合包括至少一个评论时刻对应的评论内容。

如图3所示，为本申请实施例提供的客户端展示知识信息以及其评论内容的示意图。

如图3左侧所示，知识信息包括图片信息以及文本信息。用户可以通过评论框31输入评论内容。

用户可以通过向上滑动的方式查看其他用户的评论内容，如图3右侧所示。

在一可选实现方式中，一个用户对同一知识信息可能进行一次或多次评价，从而得到一个或多个评论内容，即用户对应的评论内容集合包含的评论内容的数目为一个或多个。

可以理解的是，有的评论内容为有效评论内容，有的评论内容为无效评论内容，具体可参见图1中对有效评论内容和无效评论内容的说明，这里不再赘述。

若后续步骤S22至步骤S25分析过程中，包含无效评论内容，则确定的待维护知识信息不准确。假设，某个知识信息为正确的知识信息，但是该知识信息对应的多个评论内容均为无效评论内容，多个无效评论内容均包括“知识信息错误”等关键字，则若基于无效评论内容确定该知识信息为待维护知识信息，实际上该知识信息不需要维护。基于此，在一可选实现方式中，步骤S21包括以下步骤A1至步骤A3。

步骤A1：获取所述知识信息对应的各评论内容。

步骤A2：从所述知识信息对应的各评论内容中，筛选出有效评论内容。

示例性的，可以基于各评论内容分别对应的阅读时长，筛选出有效评论内容。

示例性的，可以基于各评论内容中的具体信息，筛选出有效评论内容。

例如，有的用户在评论中发布自己的产品的广告，即评论内容为自己产品的广告，与知识信息无关；有的用户针对其他用户发布广告这种行为表示愤慨，然后发布的评论内容为吐槽发布广告行为的内容，与知识信息也无关，这种评论内容均为无效评论内容。

示例性的，可以预先设置无效评论内容包含的关键词，例如，小说名称、影视剧名称、产品名称等等。若评论内容包含这些关键词中的至少一个，该评论内容即为无效评论内容。

步骤A3：将对应有相同用户标识的有效评论内容划分至同一评论内容集合，以得到多个用户分别对应的评论内容集合。

综上，步骤S21中的评论内容集合仅包括有效评论内容。

如图3所示，知识信息对应6个评论内容，假设6个评论内容中评论内容2为无效评论内容，其他5个评论内容为有效评论内容。那么，得到的4个评论内容集合，分别为：用户标识1对应的{(评论时刻1，评论内容1)、(评论时刻5，评论内容5)}、用户标识3对应的{(评论时刻3，评论内容3)}、用户标识4对应的{(评论时刻4，评论内容4)}、用户标识6对应的{(评论时刻6，评论内容6)}。

在一可选实现方式中，步骤S21中的评论内容集合可以包括无效评论内容。

步骤S22：对于每一评论内容，将所述评论内容输入至情感评分模型，以得到所述评论内容的情感分数。

在一可选实现方式中，可以将每一评论内容输入至情感评分模型，以得到所述评论内容的情感分数。

在一可选实现方式中，可以计算各评论内容的相似度，将相似度大于或等于阈值B的评论内容划分至同一语义高相关集合。语义高相关集合包括一个或多个评论内容。若语义高相关集合包括多个评论内容，多个评论内容的相似度高于或等于阈值B。

对于每一语义高相关集合，将其中任一个评论内容输入至情感评分模型，以得到所述评论内容的情感分数。该情感分数为语义高相关集合包含的任意评论内容的情感分数。即将语义高相关集合中任一个评论内容输入至情感评分模型，就可以得到语义高相关集合包含的各个评论内容的情感分数，无需将语义高相关集合每个评论内容输入至情感评分模型，节省了得到评论内容的情感分数的时间。

在训练情感评分模型的过程中涉及机器学习中的人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术中至少一种。

示例性的，情感评分模型可以为神经网络模型、逻辑回归模型、线性回归模型、支持向量机(SVM)、Adaboost、XGboost、Transformer-Encoder模型中任一种模型。

示例性的，神经网络模型可以为基于循环神经网络的模型、基于卷积神经网络的模型、基于Transformer-encoder的分类模型中的任一种。

示例性的，情感评分模型可以为基于循环神经网络的模型、基于卷积神经网络的模型以及基于Transformer-encoder的分类模型的深度混合模型。

示例性的，情感评分模型可以为基于注意力的深度模型、基于记忆网络的深度模型、基于深度学习的短文本分类模型中任一种。

基于深度学习的短文本分类模型为循环神经网络(RNN)或卷积神经网络(CNN)或者基于循环神经网络或卷积神经网络的变种。

示例性的，可以在已经预训练好的模型上做一些简单的领域适应性改造，以得到情感评分模型。

示例性的，“简单的领域适应性改造”包括但不限于在已经预训练好的模型上，再次利用大规模无监督领域语料进行二次预训练，和/或，通过模型蒸馏的方式对已经预训练好的模型进行模型压缩。

步骤S23：对于每一用户，基于所述用户对应的评论内容集合包含的评论内容的情感分数，以及，所述用户对应的评论内容集合包含的评论内容的权重，计算得到所述用户对应的评论内容集合的目标情感分数。

所述评论内容集合包含的评论内容的权重与差值呈负相关，所述差值为当前时刻与所述评论内容对应的评论时刻的差值。

在一可选实现方式中，对于每一评论内容集合，步骤S23的具体实现方式包括以下步骤B1至步骤B3。

步骤B1：计算当前时间与所述评论内容集合包含的评论内容的评论时刻的差值。

假设，评论内容集合包含3个评论内容，3个评论内容分别为：评论内容111、评论内容112、评论内容113，3个评论内容的评论时刻分别为：评论内容111的评论时刻为2021年6月16日16：14分，评论内容112的评论时刻为2021年6月16日17：14分，评论内容113的评论时刻为2021年6月17日10：14分。若当前时间为2021年6月17日16：14分，那么，当前时间与评论内容111的评论时刻的差值为24小时，当前时间与评论内容112的评论时刻的差值为23小时，当前时间与评论内容113的评论时刻的差值为6小时。

步骤B2：从预设的差值与权重的对应关系中，查找所述评论内容集合包含的评论内容对应的差值的权重。

可以理解的是，对于同一用户而言，距离当前时间越近的评论内容，越能够表征用户当前对知识信息的理解情况，因此，差值越大，则权重越小，差值越小，则权重越大。

在一可选实现方式中，预设的差值与权重的对应关系的获取过程包括步骤B21至步骤B24。

步骤B21：将所述评论内容集合包含的评论内容对应的评论时刻的数目，确定为重要等级数目。

假设评论内容集合包含的评论内容的数目为7个，但是7个评论内容对应的评论时刻中有两个评论时刻相同，则7个评论内容对应的评论时刻为6个，即重要等级数目为6。

步骤B22：从预设权重范围中，获得所述重要等级数目个权重。

假设，预设权重范围为[0，1]，若重要等级数目为6，则可以得到6个权重，例如，0、1/6、2/6、3/6、4/6、5/6、1。

步骤B23：将步骤B1得到的差值降序排序，得到差值排序结果，将步骤B22得到的权重升序排序，得到权重排序结果。

步骤B24：关联差值排序结果中第i个差值与权重排序结果中第i个权重，以得到差值与权重的对应关系。

其中，i为大于或等于1的任意值。

可以理解的是，对于不同用户而言，若用户A对知识信息A的评论时刻为2021年6月17日，用户B对知识信息A的评论时刻为2021年6月18日，不能因为用户B的评论内容的评论时刻晚于用户A的评论内容的评论时刻，就认为用户B的评论内容比用户A的评论内容更加准确。显然，两者没有可比性。所以在设置差值与权重的对应关系时，可以按照上述步骤B21至步骤B24的方式进行设置。即对于不同用户而言，差值和权重的对应关系可能不同。

在一可选实现方式中，对于不同用户而言，差值和权重的对应关系可以相同。

步骤B3：将所述评论内容集合包含的评论内容的情感分数与相应目标差值对应的权重的乘积之和，确定为所述评论内容集合的目标情感分数。

示例性的，若评论内容111对应情感分数1、评论内容112对应情感分数2、评论内容113对应情感分数3，评论内容111对应的目标差值的权重为权重1111、评论内容112对应的目标差值的权重为权重1112、评论内容113对应的目标差值的权重为权重1113，其中，权重1111＜权重1112＜权重1113。

评论内容集合的目标情感分数＝情感分数1*权重1111+情感分数2*权重1112+情感分数3*权重1113。

步骤S24：基于多个用户分别对应的目标情感分数以及多个用户分别对应的权重，计算得到所述知识信息的最终情感分数。

示例性的，可以基于用户的优先级别确定用户的权重。例如，VIP用户的优先级别＞普通用户的优先级别。

示例性的，假设对知识信息进行评论的用户有3个，且分别为：用户1、用户2以及用户3。假设用户1对应的评论内容集合的目标情感分数为目标情感分数1，用户2对应的评论内容集合的目标情感分数为目标情感分数2，用户3对应的评论内容集合的目标情感分数为目标情感分数3。假设，用户1对应的权重为权重21，用户2对应的权重为权重22，用户3对应的权重为权重23，则知识信息的最终情感分数＝目标情感分数1*权重21+目标情感分数2*权重22+目标情感分数3*权重23。

步骤S25：若所述知识信息的最终情感分数小于或等于第一预设阈值，确定所述知识信息为待维护知识信息。

示例性的，第一预设阈值可以基于实际情况而定，本申请实施例并不进行限定。

本申请实施例提供的数据维护方法中，获取针对同一知识信息的多个用户分别对应的评论内容集合，所述用户对应的评论内容集合包括至少一个评论时刻对应的评论内容；对于每一评论内容，将所述评论内容输入至情感评分模型，以得到所述评论内容的情感分数；对于每一用户，基于所述用户对应的评论内容集合包含的评论内容的情感分数，以及，所述用户对应的评论内容集合包含的评论内容的权重，计算得到所述用户对应的评论内容集合的目标情感分数；所述评论内容集合包含的评论内容的权重与当前时刻与评论内容的评论时刻的差值呈负相关；基于多个用户分别对应的目标情感分数以及多个用户分别对应的权重，计算得到所述知识信息的最终情感分数；若所述知识信息的最终情感分数小于或等于第一预设阈值，确定所述知识信息为待维护知识信息。实现了基于知识信息的评论内容自动检测哪些知识信息为待维护的知识信息，无需人为检测，节省了人力。

本申请实施例提供的数据维护方法还包括以下步骤C1至步骤C3。

步骤C1：从所述待维护知识信息对应的负向评论内容中提取目标关键词，所述负向评论内容是指情感分数低于或等于第二预设阈值的评论内容。

示例性的，第二预设阈值可以基于实际情况而定，这里不再赘述。

示例性的，若情感分数的范围为[0，1]，则第二预设阈值可以为0.5。

在一可选实现方式中，从负向评论内容中提取目标关键词的方法包括但不限于以下四种。

第一种从负向评论内容中提取目标关键词的方法包括：

步骤C11：将负向评论内容进行划分，以得到多个词汇。

步骤C12：根据预设停词规则，从多个词汇中获得目标关键词。

可选的，预设停词规则可以包括：去除步骤C11得到的多个词汇中属于停用词的词汇。

第二种从负向评论内容中提取目标关键词的方法包括：基于统计特征的关键词提取方法。

基于统计特征的关键词提取算法是利用负向评论内容中词语的统计信息抽取负向评论内容的关键词。

第三种从负向评论内容中提取目标关键词的方法包括：基于词图模型的关键词提取算法，如，TextRank算法。

基于词图模型的关键词提取算法，首先要构建负向评论内容的语言网络图，然后对语言网络图进行分析，在语言网络图上寻找具有重要作用的词或者短语，这些短语就是负向评论内容的关键词。

第四种从负向评论内容中提取目标关键词的方法包括：基于主题模型的关键词提取算法，如，LDA算法。

基于主题模型的关键词提取算法主要利用的是主题模型中关于主题分布的性质进行关键词提取。

步骤C2：从预设的关键词与修改方案的对应关系中，查找所述目标关键词对应的目标修改方案。

步骤C3：运行所述目标修改方案。

通过上述数据维护方法，可以实现知识信息的自动维护，无需人为进行维护。

在一可选实现方式中，自动维护待维护知识信息的方式包括但不限于以下三种。

第一种自动维护待维护知识信息的方式包括以下步骤D11至步骤D12。

第一种实现方式是在目标关键词包括表征知识信息过时或超前的关键词的应用场景下。

示例性的，表征知识信息过时的关键词，可以为：“知识过时”或“知识早就变更”或“知识要与时俱进”。

示例性的，表征知识信息超前的关键词，可以为：“业务不存在”或“没有此功能”。

步骤D11：获取所述知识信息对应的生效时间和失效时间。

知识信息的生效时间是指开始使用该知识信息的时间，即若当前时间晚于生效时间，用户应该能够通过客户端查看到该知识信息，若当前时间早于生效时间，用户应该不能够通过客户端查看到该知识信息。

知识信息的失效时间是终止使用该知识信息的时间。即若当前时间早于失效时间，则用户应该能够通过客户端查看到该知识信息，若当前时间晚于失效时间，则用户应该不能够通过客户端查看到该知识信息。

步骤D12：若当前时间晚于所述失效时间，或，早于所述生效时间，设置所述知识信息为不可见状态，处于不可见状态的知识信息不能发送至客户端。

若当前时间晚于所述失效时间，说明知识信息已经失效了，说明该知识信息应该不能被用户查看到了。若当前时间早于生效时间，说明该知识信息应该还不能让用户通过客户端查看到。此时，需要设置知识信息为不可见状态，或者，删除该知识信息。

第二种自动维护待维护知识信息的方式包括以下步骤D21至步骤D23。

第二种实现方式是在所述目标关键词包括表征所述知识信息不准确的关键词的应用场景下。

示例性的，表征所述知识信息不准确的关键词可以为：“不完整”或“缺少部分内容”或“没上文”或“没下文”。

步骤D21：获取所述知识信息所属源文档的标识以及所述知识信息在所述源文档的目标位置。

示例性的，多个知识信息是通过拆分源文档得到的。不同知识信息对应的源文档可能相同可能不同。

例如，源文档包括10个段落，示例性的，源文本被拆分为10个知识信息，即每一个段落对应一个知识信息；示例性的，源文档本拆分为5个知识信息，一个知识信息包括源文档中的一个或多个段落；示例性的，源文档被拆分为20个知识信息，一个知识信息包括一个段落中的一个或多个语句。

示例性的，知识信息是基于其他知识信息得到的。

示例性的，知识信息的表示方式有多种，本申请实施例提供但不限于：链表、数组、结构体、表格中任一种。下面以表格为例对知识信息的结构进行举例说明。

示例性的，知识信息包含但不限于：业务目录、知识正文、图谱标签、个性标签、管理属性中的至少一个。

表1知识信息的结构

示例性的，知识正文包括知识标题以及子文档中任一个；示例性的，子文档与知识标题相对应，例如，与知识标题“中银富登个人通知存款的存款期限”对应的子文档可以为：个人通知存款不论实际存期多长，按存款人提前通知的期限长短划分为1天通知存款和7天通知存款两个品种。1天通知存款必须提前1天通知约定支取存款，7天通知存款则必须提前7天通知约定支取存款。1天通知存款和7天通知存款，客户必须提前1天或提前7天来到柜台预约支取登记。所谓转存是系统可以自动在到期日将本息转到客户的活期账户，但需要客户在每个周期(7天)都来柜台办理约定转存的业务。

示例性的，知识信息包含的业务目录可以包括一级或多级目录，表1中是以业务目录包括两级目录为例进行说明的。

示例性的，知识信息包含的业务目录用于指示知识信息包含的知识正文的存储路径。示例性的，知识信息包含的业务目录即为存储知识信息的存储设备的名称和/或文件夹的名称。

示例性的，知识标题，可以是基于自然语言处理技术从子文档文中得到的；示例性的，知识标题可以是从源文档中获得的。

示例性的，知识信息包含的图谱标签是指知识正文的属性信息。示例性的，图谱标签包括：产品(知识正文的内容描述的产品)、所属银行(知识正文的内容针对哪个分行或哪个总行)、客户类型。示例性的，客户类型包括但不限于：个人客户、财富管理客户、普通客户、私人银行客户、中银理财客户等等。

示例性的，知识信息包含的个性标签是由人工坐席添加的，人工坐席可以基于自己的对知识信息的理解，对知识信息进行标注，例如，表1中具有人工坐席的标识A的人工坐席标注了“富登特色定期存款”，下次具有人工坐席的标识A的人工坐席可以基于查询语句“富登特色定期存款”准确的搜索到表1所示的知识信息。

需要说明的是，有时候人工坐席在查询的时候查询到所需的知识信息，但是人工坐席对该知识信息有一些自己的理解，或者对知识信息有自己的称谓习惯，那么人工坐席可以人为将自己的理解添加到该知识信息的个性标签中。这样就可以照顾到不同人工坐席的思维习惯，丰富知识的标注，从而加快知识查询的效率以及提升知识查询的准确率。

示例性的，对于同一知识信息，不同人工坐席标注的个性标签可能不同，可能相同；由于人工坐席在搜索知识信息之前，需要进行登陆，所以人工坐席的查询语句包括人工坐席的标识，因此，在通过个性标签检索知识信息的过程中，不会受到其他人工坐席标注的个性标签的影响。

示例性的，知识信息包含的管理属性是指管理该知识信息的管理员的信息，例如，管理属性包括管理员所属部门以及管理员所属用户组。

表1中的知识信息的结构仅为示例，并不对知识信息的结构造成限定，例如，知识信息可以包括：业务目录、知识正文、图谱标签、个性标签、管理属性中一个或多个字段。示例性的，知识信息还包括：子文档的关键词。

示例性的，知识信息还包括接收组，接收组包括能够查询得到该知识信息的用户的标识。

可以理解的是，由于知识信息包含的子文档是从源文档中拆分得到的，所以知识信息还可以包括第一标识和第二标识。所述第一标识为所述源文档中位于所述知识信息包含的子文档的前一子文档对应的知识信息的标识；所述第二标识为所述源文档中位于所述知识信息包含的子文档的下一子文档对应的知识信息的标识。

示例性的，知识信息的标识，例如，第一标识和第二标识的表示方式有多种，例如，用字母、数字、特殊符号中的一个或多个进行表示，表1中是以第一标识和第二标识用数字表示为例进行说明。

示例性的，知识信息的标识可以是随机分配的，不同知识信息的标识不同；示例性的，知识信息的标识与知识信息包含的子文档在源文档的位置有关。

例如，源文档包含的第3段落、第4段落和第5段落分别为一个子文档，即分别对应一个知识信息，表1所示的知识信息对应源文档包含的第4段落，所以“在源文档位置”为4；示例性的，源文档上下文索引包括第一标识以及第二标识，如表1中，第一标识为3，第二标识为5。

示例性的，知识信息可以包括一个或多个第一标识。若知识信息包括一个第一标识，示例性的，第一标识为源文档中位于知识信息包含的子文档的任一前一子文档对应的知识信息的标识。以源文档包含的每一段落分别为一个子文档为例进行说明，假设每一子文档对应一知识信息，若知识信息A对应源文档的第1段、知识信息B对应源文档的第2段、知识信息C对应源文档的第3段、知识信息D对应源文档的第4段、知识信息E对应源文档的第5段，那么，知识信息C包含的第一标识可以为知识信息B的标识或知识信息A的标识。示例性的，第一标识为源文档中位于知识信息包含的子文档的相邻的前一子文档对应的知识信息的标识。例如，知识信息C包含的第一标识为知识信息B的标识。

若知识信息E包括多个第一标识，则具有多个第一标识的知识信息包含的子文档在源文档的位置是相邻的，且，与知识信息E包含的子文档相邻；例如，知识信息E包含的多个第一标识分别为：知识信息D的标识、知识信息C的标识。

若知识信息E包括多个第一标识，则具有多个第一标识的知识信息包含的子文档在源文档的位置可以不相邻，例如，知识信息E包含的多个第一标识分别为：知识信息C的标识以及知识信息A的标识。

示例性的，知识信息包含的第二标识的数目可以为一个或多个。对于第二标识的说明可以参见第一标识，这里不再赘述。

示例性的，知识信息还包括：源文档的标识ID、源文档名称中至少一个。

综上，本申请实施例提供的知识信息包含源文档上下文索引(即第一知识信息和第二知识信息)，使得来源于同一源文档的多个知识信息具有关联关系。

步骤D22：将所述源文档中所述目标位置的前一位置处的第一知识信息、所述目标位置的后一位置处的第二知识信息以及所述知识信息组合成第三知识信息。

假设，如表1所示，若知识信息为源文档中的第4段，则第三知识信息可以包括源文档的第3段、第4段以及第5段。

步骤D23：将所述第三知识信息替代所述知识信息。

由于第三知识信息包含了源文档中所述目标位置的前一位置处的第一知识信息、所述目标位置的后一位置处的第二知识信息以及所述知识信息，所以第三知识信息为比较全面的知识。

第三种自动维护待维护知识信息的方式包括以下步骤D31至步骤D33。

第三种实现方式是在所述目标关键词包括表征所述知识信息不准确的关键词的应用场景下。

示例性的，表征所述知识信息不准确的关键词可以为：“错误”或“不准确”。

步骤D31：获取所述知识信息所属源文档的标识以及所述知识信息在所述源文档的目标位置。

步骤D32：获取所述知识信息包含的第一差异信息以及所述源文档的所述目标位置处的内容中的第二差异信息，所述第一差异信息与所述第二差异信息的相似度小于或等于第三预设阈值。

示例性的，第三预设阈值可以基于实际情况而定，这里不进行限定。

可以理解的是，知识信息是基于源文档的目标位置处的内容得到的，若知识信息有误，则可以将其与源文档的目标位置处的内容进行比较，以得到差异信息，并进行修改。

步骤D33：将所述知识信息、所述第一差异信息以及所述第二差异信息发送至电子设备，所述第一差异信息以及所述第二差异信息是更新所述知识信息的指导信息。

示例性的，电子设备处的运维人员可以基于第一差异信息以及所述第二差异信息对知识信息进行更新。示例性的，电子设备可以将更新后的知识信息发送至服务器，用于替换数据库中有误的知识信息。

在一可选实现方式中，本申请实施例还提供了一种查询方法，该查询方法包括以下步骤E1至步骤E7。

步骤E1：接收来自客户端的查询语句。

在一可选实施例中，查询语句可以为语音或文本。若查询语句为语音，需要将语音转换成文本。

步骤E2：从数据库中搜索与所述查询语句的相关度大于或等于第四预设阈值的多个知识信息。

示例性的，第四预设阈值可以基于实际情况而定，这里不进行限定。

示例性的，获得与所述查询语句的相关度大于或等于第四预设阈值的多个知识信息，即为获得与查询语句包含的关键词的相关度大于或等于第四预设阈值的多个知识信息。下面对获得查询语句包含的关键词的过程进行说明。

可选的，本发明实施例提供但不限于以下获得查询语句包含的关键词的方法。

第一种获得查询语句包含的关键词的方法包括：

步骤F1：将查询语句进行划分，以得到多个词汇。

可选的，若查询语句为“客户购房的贷款合同”，那么，查询语句包含的词汇为：客户、购房、的、贷款合同。

步骤F2：根据预设停词规则，从多个词汇中获得关键词。

可选的，预设停词规则可以包括：去除步骤F1得到的多个词汇中属于停用词的词汇。假设停用词包括：的、得、了、吗、吧、在、中等等。那么，通过步骤F2得到的关键词包括：客户、购房、贷款合同。

第二种获得查询语句包含的关键词的方法包括：基于统计特征的关键词提取方法。

基于统计特征的关键词提取算法是利用查询语句中词语的统计信息抽取查询语句的关键词。

第三种获得查询语句包含的关键词的方法包括：基于词图模型的关键词提取算法，如，TextRank算法。

基于词图模型的关键词提取算法，首先要构建查询语句的语言网络图，然后对语言网络图进行分析，在语言网络图上寻找具有重要作用的词或者短语，这些短语就是查询语句的关键词。

第四种获得查询语句包含的关键词的方法包括：基于主题模型的关键词提取算法，如，LDA算法。

步骤E3：获取所述多个知识信息分别对应的正向评论数量，所述知识信息的正向评论数量是指针对所述知识信息的评价内容中情感分数大于第二预设阈值的评论内容的数目。

示例性的，相关度可以为余弦相似度、皮尔森相关系数、Jaccard相似系数、Tanimoto系数、词频-逆文档频率(TF-IDF)中任一个。

步骤E4：从预设的正向评论数量与累加分数的对应关系中，确定所述多个知识信息分别对应的累加分数。

下面举例说明正向评论数量与累加分数的对应关系，该对应关系的表现形式可以为表格、数组、链表中任一种，下面以表格为例进行说明。

表2正向评论数量与累加分数的对应关系

正向评论数量	累加分数
		[1，100]	0.01
[101，200]	0.02
		…	…

步骤E5：对于每一所述知识信息，将所述知识信息与所述查询语句的相关度与所述知识信息的累加分数之和，确定为所述知识信息的调整相关度。

例如，知识信息1与查询语句的相关度为相关度1，知识信息1对应的累计分数为累加分数1，则该知识信息的调整相关度＝相关度1+累加分数1。

步骤E6：按照调整相关度将所述多个知识信息进行降序排序，以得到排序结果。

步骤E7：将所述排序结果发送至所述客户端。

若将步骤E2得到的多个知识信息按照相关度降序排序得到的排序结果，称为候选排序结果。步骤E6得到的排序结果中，将候选排序结果中具有正向评论数量较多的知识信息向前调整，将候选排序结果中具有正向评论数量较少的知识信息向后调整。由于具有正向评论数量较多的知识信息可能有错误或不全面或过时或超前，一定程度上可能不是用户所需要的知识信息。而具有正向评论数量较多的知识信息，一定程度上可能是用户所需要的知识信息，所以用户通过步骤E6得到的排序结果能够快速的找到自己所需要的知识信息。

上述本申请公开的实施例中详细描述了方法，对于本申请的方法可采用多种形式的装置实现，因此本申请还公开了一种装置，下面给出具体的实施例进行详细说明。

如图4所示，为本申请实施例提供的数据维护装置的结构图，该装置包括：第一获取模块41、第二获取模块42、第一计算模块43、第二计算模块44以及确定模块45，其中：

第一获取模块41，用于获取针对同一知识信息的多个用户分别对应的评论内容集合，所述用户对应的评论内容集合包括至少一个评论时刻对应的评论内容；

第二获取模块42，用于对于每一评论内容，将所述评论内容输入至情感评分模型，以得到所述评论内容的情感分数；

第一计算模块43，用于对于每一用户，基于所述用户对应的评论内容集合包含的评论内容的情感分数，以及，所述用户对应的评论内容集合包含的评论内容的权重，计算得到所述用户对应的评论内容集合的目标情感分数；所述评论内容集合包含的评论内容的权重与差值呈负相关，所述差值为当前时刻与所述评论内容对应的评论时刻的差值；

第二计算模块44，用于基于多个用户分别对应的目标情感分数以及多个用户分别对应的权重，计算得到所述知识信息的最终情感分数；

确定模块45，用于若所述知识信息的最终情感分数小于或等于第一预设阈值，确定所述知识信息为待维护知识信息。

在一可选实现方式中，还包括：

提取模块，用于从所述待维护知识信息对应的负向评论内容中提取目标关键词，所述负向评论内容是指情感分数低于或等于第二预设阈值的评论内容；

查找模块，用于从预设的关键词与修改方案的对应关系中，查找所述目标关键词对应的目标修改方案；

运行模块，用于运行所述目标修改方案。

在一可选实现方式中，所述目标关键词包括表征知识信息过时或超前的关键词，运行模块包括：

第一获取单元，用于获取所述知识信息对应的生效时间和失效时间；

设置单元，用于若当前时间晚于所述失效时间，或，早于所述生效时间，设置所述知识信息为不可见状态，处于不可见状态的知识信息不能发送至客户端。

在一可选实现方式中，所述目标关键词包括表征所述知识信息不全面的关键词，运行模块包括：

第二获取单元，用于获取所述知识信息所属源文档的标识以及所述知识信息在所述源文档的目标位置；

组成单元，用于将所述源文档中所述目标位置的前一位置处的第一知识信息、所述目标位置的后一位置处的第二知识信息以及所述知识信息组合成第三知识信息；

替代单元，用于将所述第三知识信息替代所述知识信息。

在一可选实现方式中，所述目标关键词包括表征所述知识信息不准确的关键词，运行模块包括：

第四获取单元，用于获取所述知识信息包含的第一差异信息以及所述源文档的所述目标位置处的内容中的第二差异信息，所述第一差异信息与所述第二差异信息的相似度小于或等于第三预设阈值；

发送单元，用于将所述知识信息、所述第一差异信息以及所述第二差异信息发送至电子设备，所述第一差异信息以及所述第二差异信息是更新所述知识信息的指导信息。

在一可选实现方式中，还包括：

接收模块，用于接收来自客户端的查询语句；

搜索模块，用于从数据库中搜索与所述查询语句的相关度大于或等于第四预设阈值的多个知识信息；

第三获取模块4用于获取所述多个知识信息分别对应的正向评论数量，所述知识信息的正向评论数量是指针对所述知识信息的评价内容中情感分数大于第二预设阈值的评论内容的数目；

确定分数模块，用于从预设的正向评论数量与累加分数的对应关系中，确定所述多个知识信息分别对应的累加分数；

确定相关度模块，用于对于每一所述知识信息，将所述知识信息与所述查询语句的相关度与所述知识信息的累加分数之和，确定为所述知识信息的调整相关度；

排序模块，用于按照调整相关度将所述多个知识信息进行降序排序，以得到排序结果；

发送模块，用于将所述排序结果发送至所述客户端。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

服务器包括但不限于：处理器51、存储器52、网络接口53、I/O控制器54以及通信总线55。

需要说明的是，本领域技术人员可以理解，图5中示出的服务器的结构并不构成对服务器的限定，服务器可以包括比图5所示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图5对服务器的各个构成部件进行具体的介绍：

处理器51是服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器52内的软件程序和/或模块，以及调用存储在存储器52内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。处理器51可包括一个或多个处理单元；示例性的，处理器51可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器51中。

处理器51可能是一个中央处理器(Central Processing Unit，CPU)，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器52可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)521和只读存储器(Read-Only Memory，ROM)522，也可能还包括大容量存储设备523，例如至少1个磁盘存储器等。当然，该服务器还可能包括其他业务所需要的硬件。

其中，上述的存储器52，用于存储上述处理器51可执行指令。上述处理器51具有以下功能：获取针对同一知识信息的多个用户分别对应的评论内容集合，所述用户对应的评论内容集合包括至少一个评论时刻对应的评论内容；

处理器51、存储器52、网络接口53和I/O控制器54可以通过通信总线55相互连接，该通信总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。

在示例性实施例中，服务器可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述数据维护方法。

在示例性实施例中，本公开实施例提供了一种包括指令的存储介质，例如包括指令的存储器52，上述指令可由服务器的处理器51执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机可读存储介质，可直接加载到计算机的内部存储器，例如上述存储器52中，并含有软件代码，该计算机程序经由计算机载入并执行后能够实现上述数据维护方法任一实施例所示步骤。

在示例性实施例中，还提供一种计算机程序产品，可直接加载到计算机的内部存储器，例如所述服务器包含的存储器中，并含有软件代码，该计算机程序经由计算机载入并执行后能够实现上述所述的数据维护方法任一实施例所示步骤。

需要说明的是，本说明书中的各个实施例中记载的特征可以相互替换或者组合。对于装置或系统类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据维护方法，其特征在于，包括：

获取针对同一知识信息的多个用户分别对应的评论内容集合，所述评论内容集合包括至少一个评论时刻对应的评论内容；

2.根据权利要求1所述数据维护方法，其特征在于，还包括：

从所述待维护知识信息对应的负向评论内容中提取目标关键词，所述负向评论内容是指情感分数低于或等于第二预设阈值的评论内容；

从预设的关键词与修改方案的对应关系中，查找所述目标关键词对应的目标修改方案；

运行所述目标修改方案。

3.根据权利要求2所述数据维护方法，其特征在于，所述目标关键词包括表征知识信息过时或超前的关键词，所述运行所述目标修改方案包括：

获取所述知识信息对应的生效时间和失效时间；

若当前时间晚于所述失效时间，或，早于所述生效时间，设置所述知识信息为不可见状态，处于不可见状态的知识信息不能发送至客户端。

4.根据权利要求2所述数据维护方法，其特征在于，所述目标关键词包括表征所述知识信息不全面的关键词，所述运行所述目标修改方案包括：

获取所述知识信息所属源文档的标识以及所述知识信息在所述源文档的目标位置；

将所述源文档中所述目标位置的前一位置处的第一知识信息、所述目标位置的后一位置处的第二知识信息以及所述知识信息组合成第三知识信息；

将所述第三知识信息替代所述知识信息。

5.根据权利要求2所述数据维护方法，其特征在于，所述目标关键词包括表征所述知识信息不准确的关键词，所述运行所述目标修改方案包括：

获取所述知识信息包含的第一差异信息以及所述源文档的所述目标位置处的内容中的第二差异信息，所述第一差异信息与所述第二差异信息的相似度小于或等于第三预设阈值；

将所述知识信息、所述第一差异信息以及所述第二差异信息发送至电子设备，所述第一差异信息以及所述第二差异信息是更新所述知识信息的指导信息。

6.根据权利要求1至5任一所述数据维护方法，其特征在于，还包括：

接收来自客户端的查询语句；

从数据库中搜索与所述查询语句的相关度大于或等于第四预设阈值的多个知识信息；

获取所述多个知识信息分别对应的正向评论数量，所述知识信息的正向评论数量是指针对所述知识信息的评价内容中情感分数大于第二预设阈值的评论内容的数目；

从预设的正向评论数量与累加分数的对应关系中，确定所述多个知识信息分别对应的累加分数；

对于每一所述知识信息，将所述知识信息与所述查询语句的相关度与所述知识信息的累加分数之和，确定为所述知识信息的调整相关度；

按照调整相关度将所述多个知识信息进行降序排序，以得到排序结果；

将所述排序结果发送至所述客户端。

7.一种数据维护装置，其特征在于，包括：

第一计算模块，用于对于每一用户，基于所述用户对应的评论内容集合包含的评论内容的情感分数，以及，所述用户对应的评论内容集合包含的评论内容的权重，计算得到所述用户对应的评论内容集合的目标情感分数；所述评论内容集合包含的评论内容的权重与差值呈负相关，所述差值为当前时刻与所述评论内容对应的评论时刻的差值；

8.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的数据维护方法。

9.一种计算机可读存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行如权利要求1至6中任一项所述的数据维护方法。

10.一种计算机程序产品，可直接加载到计算机的内部存储器，并含有软件代码，该计算机程序经由计算机载入并执行后能够实现如权利要求1至6中任一项所述的数据维护方法。