CN111737446A

CN111737446A - 用于构建质量评估模型的方法、装置、设备及存储介质

Info

Publication number: CN111737446A
Application number: CN202010573822.4A
Authority: CN
Inventors: 刘欢; 程鸣权; 陈坤斌; 刘准; 何伯磊; 和为
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2020-10-02
Anticipated expiration: 2040-06-22
Also published as: JP2022003512A; EP3866028A3; JP7296419B2; US20210209421A1; US11797607B2; EP3866028A2; KR20210042271A; CN111737446B

Abstract

本申请实施例公开了用于构建质量评估模型的方法、装置、电子设备及计算机可读存储介质，涉及人工智能、深度学习、自然语言处理、图像处理技术领域。该方法的一具体实施方式包括：获取样本知识内容；从该样本知识内容中分别提取出统计学特征、语义特征、图像特征；根据该统计学特征、该语义特征和该图像特征构建针对知识的质量评估模型。该实施方式在现有技术的基础上，还额外使用了知识内容的语义特征和图像特征，得以基于表征一个知识实际质量的多维度特征构建出一个更加准确的质量评估模型，可以很好的发现企业内部存在的一些简短但十分有用的总结性知识，能够为企业员工更准确的推荐优质知识。

Description

用于构建质量评估模型的方法、装置、设备及存储介质

技术领域

本申请实施例涉及数据处理技术领域，具体涉及人工智能、深度学习、自然语言处理、图像处理技术领域，尤其涉及用于构建质量评估模型的方法、装置、电子设备及计算机可读存储介质。

背景技术

随着企业的发展，企业内部沉淀的文档知识越来越多，其中不乏很多优质的对其他员工成长有帮助的知识，为了让知识在企业内部高效流动，因此需要构建企业内部的知识推荐系统，实现知识主动找人。但是企业内部文档存在大量记录性质的文档、且内容质量参差不齐，如果不控制质量进行知识推荐，大量低质无效的知识被推荐给企业员工是非常不应该的，即对所推荐知识的准入质量控制非常重要。

现有技术提供了一种基于知识的统计学特征来评估知识质量，并基于以此评估出的知识质量为员工推荐优质知识的方案。

发明内容

本申请实施例提出了一种用于构建质量评估模型的方法、装置、电子设备及计算机可读存储介质。

第一方面，本申请实施例提出了一种用于构建质量评估模型的方法，包括：获取样本知识内容；其中，所述样本知识内容包括以文本、图像、表格中至少一种形式表示的知识文档；从所述样本知识内容中分别提取出统计学特征、语义特征、图像特征；根据所述统计学特征、所述语义特征和所述图像特征构建针对知识的质量评估模型。

第二方面，本申请实施例提出了一种用于构建质量评估模型的装置，包括：样本知识内容获取单元，被配置成获取样本知识内容；其中，所述样本知识内容包括以文本、图像、表格中至少一种形式表示的知识文档；多特征提取单元，被配置成从所述样本知识内容中分别提取出统计学特征、语义特征、图像特征；质量评估模型构建单元，被配置成根据所述统计学特征、所述语义特征和所述图像特征构建针对知识的质量评估模型。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现如第一方面中任一实现方式描述的用于构建质量评估模型的方法。

第四方面，本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行时能够实现如第一方面中任一实现方式描述的用于构建质量评估模型的方法。

本申请实施例提供的用于构建质量评估模型的方法、装置、电子设备及计算机可读存储介质，首先，获取样本知识内容；其中，样本知识内容包括以文本、图像、表格中至少一种形式表示的知识文档；然后，从该样本知识内容中分别提取出统计学特征、语义特征、图像特征；最后，根据该统计学特征、该语义特征和该图像特征构建针对知识的质量评估模型。

本申请实施例在现有技术的基础上，还额外使用了知识内容的语义特征和图像特征，得以基于表征一个知识实际质量的多维度特征构建出一个更加准确的质量评估模型，可以很好的发现企业内部存在的一些简短但十分有用的总结性知识，能够为企业员工更准确的推荐优质知识。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构；

图2为本申请实施例提供的一种用于构建质量评估模型的方法的流程图；

图3为本申请实施例提供的另一种用于构建质量评估模型的方法的流程图；

图4为本申请实施例提供的一种获取样本知识内容的方法的流程图；

图5是根据本申请的用于构建质量评估模型的装置的一个实施例的结构示意图；

图6是适用于实现本申请实施例的用于构建质量评估模型的方法的电子设备的框图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于构建质量评估模型的方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括存储设备101，网络102和服务器103。网络102用以在存储设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

服务器103可以通过网络102与存储有各类数据的存储设备101进行数据交互，以获取某些所需数据或下发某些指令等。存储设备101和服务器103上可以安装有各种用于实现两者之间进行信息通讯的应用，例如样本知识传输类应用、质量评估模型构建类应用、知识推荐类应用等。

存储设备101和服务器103可以是硬件，也可以是软件。当存储设备101为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等；当存储设备101为软件时，可以安装在上述所列举的电子设备中，其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。当服务器103为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器；服务器为软件时，可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。

服务器103通过内置的各种应用可以提供各种服务，以可以提供知识质量评估服务的知识推荐类应用为例，服务器103在运行该知识推荐类应用时可实现如下效果：首先，通过网络102从存储设备101中获取到样本知识内容，该样本知识内容包括以文本、图像、表格中至少一种形式表示的知识文档；然后，从这些样本知识内容中分别提取出统计学特征、语义特征、图像特征；接着，根据该统计学特征、该语义特征和该图像特征构建针对知识的质量评估模型；最后，根据构建好的质量评估模型来评估新产生知识内容的实际质量，并根据实际质量向用户推荐其中的优质知识。

需要指出的是，用于提取各类特征的样本知识内容除可以直接通过网络102从存储设备101中获取到之外，也可以通过各种方式将其直接存储或预先拉取至服务器103本地，当服务器103检测到本地已经存储有这些样本知识内容时，可选择直接从本地获取这些数据，在此种情况下，示例性系统架构100也可以不包括存储设备101和网络102。

由于模型的构建通常需要占用较多的运算资源和较强的运算能力，因此本申请后续各实施例所提供的用于构建质量评估模型的方法一般由拥有较强运算能力、较多运算资源的服务器103来执行，相应地，用于构建质量评估模型的装置一般也设置于服务器103中。但同时也需要指出的是，在存储设备101也具有满足一定要求的运算能力和运算资源时，存储设备101也可以通过其上安装的质量评估模型构建类应用和/或知识推荐类应用完成上述本交由服务器103做的全部或部分运算，进而尽可能的帮服务器103承担一部分压力，尤其是服务器103当前处于负载较多的情况下。当存储设备101可承担全部用于构建质量评估模型的方法中的全部操作时，用于构建质量评估模型的装置也可以设置于存储设备101中。在此种情况下，示例性系统架构100也可以不包括服务器103和网络102。

应该理解，图1中的存储设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的存储设备、网络和服务器。且存储设备在拥有存储能力的同时，根据实际情况通常也具有不同程度的运算能力，而非单纯仅具备存储功能。

继续参考图2，图2为本申请实施例提供的一种用于构建质量评估模型的方法的流程图，其中的流程200包括以下步骤：

步骤201：获取样本知识内容。

本步骤旨在由用于构建质量评估模型的方法的执行主体(例如图1所示的服务器103)获取样本知识内容。其中，该样本知识内容用于作为训练质量评估模型的训练样本使用，具体的，该样本知识内容包括以文本、图像、表格中至少一种形式表示的知识文档。为了尽可能的拓展训练出的质量评估模型所适用的场景，该样本知识内容不仅可以包括企业内部知识，还可以包括企业外部知识，从而得到一个即能够实现对企业内部知识进行质量评估、也可能够为企业外部知识进行质量评估的质量评估模型，以同时向企业内员工推荐外部优质知识和内部优质知识。

针对企业内部知识，可基于人工对知识的标注或附加的标签筛选出合适作为训练样本的样本知识内容，也可以通过其它预先设计好的自动化筛选方案实现自动筛选，自动筛选得以实现的基础为对企业内部各类型知识特性的深入了解，例如企业内部知识根据其性质可简单分为记录性质和非记录性质两类，记录性质的知识指以日志形式将所有执行的操作进行记录的知识，其核心目的为“记录”，属于仅为了满足业务需求所得到的内容，而非记录性质的知识则更多的偏向于“总结”、“提炼”和“升华”，有着明显的目的性、明显在阐述或讲解某个细节或解决方案等。因此，在采用自动筛选机制得到样本知识内容时，可根据非记录性质的知识的特征来制定自动化筛选的实现方式，从而尽可能的提升效率。

具体的，为了能够使训练出的质量评估模型能够基于知识的质量对其实际质量高低做出准确的评估，可控制样本知识内容由一定比例的正样本和负样本组成，以从正反两方面提供更全面的指导。

需要指出的是，样本知识内容可以由上述执行主体直接从本地的存储设备获取，也可以从非本地的存储设备(例如图1所示的存储设备101)中获取。本地的存储设备可以是设置在上述执行主体内的一个数据存储模块，例如服务器硬盘，在此种情况下，样本知识内容可以在本地快速读取到；非本地的存储设备还可以为其它任何被设置用于存储数据的电子设备，例如一些用户终端等，在此情况下，上述执行主体可以通过向该电子设备发送获取命令来获取所需的样本知识内容。

步骤202：从样本知识内容中分别提取出统计学特征、语义特征、图像特征。

在步骤201的基础上，本步骤旨在由上述执行主体从样本知识内容中分别提取出统计学特征、语义特征、图像特征。其中，知识内容的统计学特征指诸如长度、字符个数(中文字符、英文字符、特殊字符)、标点符号个数、段落数、页数、表格数量、图像数量等与知识内容所表达含义无关的特征；知识内容的语义特征则指包括情感倾向、所属领域、语句通顺程度、是否涉及敏感话题(时政话题)等与知识内容所表达含义相关的特征；知识内容的图像特征则主要指以图片、表格等形式的知识表现形式。

由于本申请的目的是构建一个用于向用户推荐优质知识的质量评估模型，因此本申请通过本步骤分别提取了统计学特征、语义特征和图像特征，来从多维度准确评估知识的实际质量。其中，统计学特征从该知识的篇幅、结构、格式等方面提供质量评判参考，例如篇幅通常与质量成正相关；语义特征则从该知识的含义、问题及思想的表述能力、错别字多少等方面提供质量评判参考，语句越通顺、表述能力越强通常质量越高；图像特征则从该知识的表现形式方面提供质量评判参考，例如采用除文字外的表现形式越多(例如表格、统计图、图像)其质量通常越高。总的来说，知识的质量与知识编撰者所耗费的精力和用心程度通常是正相关的，上述三个特征均能够从不同层面评判编撰者所耗费的精力和用心程度，覆盖到了尽可能多的方面。

步骤203：根据统计学特征、语义特征和图像特征构建针对知识的质量评估模型。

在步骤202的基础上，本步骤旨在由上述执行主体根据统计学特征、语义特征和图像特征构建针对知识的质量评估模型，即将从样本知识内容中提取出的多类特征作为训练样本，让初始的质量评估模型在迭代训练中更好的发现区别高质量知识和低质量知识的特征，最终训练得到可用的质量评估模型。

进一步的，在构建得到可用的质量评估模型之后，还可以利用该质量评估模型来评估新产生知识内容的实际质量，并将实际质量超过预设质量的新产生知识内容作为优质知识进行推荐。其中，该预设质量为衡量一个知识是否属于优质知识的临界值，可选取最低值与最高值的均值，也可以根据实际情况自行将某个特定值作为该预设质量，实现灵活评估。

本申请实施例提供的用于构建质量评估模型的方法，在现有技术的基础上，还额外使用了知识内容的语义特征和图像特征，得以基于表征一个知识实际质量的多维度特征构建出一个更加准确的质量评估模型，可以很好的发现企业内部存在的一些简短但十分有用的总结性知识，能够为企业员工更准确的推荐优质知识。

请参见图3，图3为本申请实施例提供的另一种用于构建质量评估模型的方法的流程图，其中的流程300包括以下步骤：

步骤301：获取样本知识内容。

步骤302：从样本知识内容中提取得到标题统计学特征、正文文本统计学特征和正文结构统计学特征，并汇总得到统计学特征。

本步骤具体针对样本知识内容中的标题、正文文本和正文结构进行了统计学特征的提取，分别提取到了标题统计学特征、正文文本统计学特征和正文结构统计学。

具体的，标题统计学特征可包括标题字符长度、标题切词长度、标题是否含有标点符号、标题是否含有特殊符号、标题中包含的当前企业领域词汇个数、标题中包含数字个数、标签中英文单词个数等；正文文本统计学特征可包括正文字符长度、正文切词长度、正文句子数量、正文短句数量、正文最长句子长度、正文中包含的当前企业领域词汇个数、标题中中英文占比等；正文结构统计学特征可包括正文中图片个数、正文中段落个数、正文子标题个数、正文中加粗文本个数、正文是否有目录、正文中表格个数、正文中公式个数、正文中代码库个数等。

步骤303：从样本知识内容中提取得到标题语义特征和正文语义特征，并汇总得到语义特征。

本步骤具体针对样本知识内容中的标题、正文进行了语义特征的提取，分别提取到了标题语义特征和正文语义特征。

在语义层面，一个完整的标题与标题经切词后的每个词、正文中每个完整句子和完整句子经切词后的每个词，所表达的语义略有不同，因此为了尽可能的提取到准确的语义特征，此处还提供了一种具体的语义特征提取方法，包括如下步骤：

获取样本知识内容的完整标题和正文中的每一个完整句子；

对完整标题和每个完整句子进行切词，得到切分后标题和切分后句子；

分别对完整标题、切分后标题中的每个词进行标题语义分析，得到标题语义特征；

分别对每个完整句子和切分后句子中的每个词进行正文语义分析，得到正文语义特征。

即标题语义特征和正文语义特征均由完整的和切分后各词的语义特征构成，从而得到更加全面的语义特征。

具体的，标题语义特征包括：标题情感倾向、标题涉黄涉政敏感度、标题通顺度打分、标题是否存在错别字等；正文语义特征包括：正文情感倾向、正文涉黄涉政敏感度、正文最长子句通顺度打分、正文所有句子平均通顺度打分、正文是否存在错别字、正文主题分布、正文内容与标题之间的匹配度等。

步骤304：从将样本知识内容包含的图像中提取得到形态特征、清晰度特征和含义特征，并汇总得到图像特征。

本步骤具体针对样本知识内容中的图像进行了形态、清晰度、含义等特征的提取，其中，图像的形态特征用于表示该图像的完整度、是否经过切割，清晰度特征则用于表示该图像所包含内容的辨识难易程度，含义特征则用于表示该图像所表示内容与正文内容所表达含义之间的匹配程度。除此之外，还可以检测图像是否含有水印，来表征图像是否为原创图像。

本实施例通过步骤302-步骤303提供了一种具体的从样本知识内容中提取得到多维度特征的方法，以尽可能的得到全面的用于评判知识质量的特征。

步骤305：将标题统计学特征、正文文本统计学特征和正文结构统计学特征通过第一全连接层进行处理，得到统计学特征向量。

在步骤302-步骤304的基础上，本步骤旨在由上述执行主体将统计学特征下的三个字特征通过第一全连接层进行整合，从而得到表征该知识在篇幅、结构、格式方面的统计学特征向量。

步骤306：对标题语义特征和正文语义特征分别进行降维操作，并对得到的降维后标题语义特征和降维后正文语义特征分别利用双向长短期记忆网络进行处理，分别得到标题特征向量和正文特征向量。

在步骤305的基础上，本步骤旨在由上述执行主体对语义特征进行降维操作，从而通过降维操作使得语义特征在区别上表现的更加突出，而对降维后特征利用双向长短期记忆网络(Bi-directional Long-Short Term Memory，Bi-LSTM)可以较好的避免忽视分散在很长时间周期中的不同特征之间的关联性。

具体的，实践层面可具体通过embedding层来实现降维，相较于其它常规的降维器，embedding层采用了一种将离散变量转为连续向量表示的降维方式，在神经网络中，不光可以减少离散变量的空间维数，还可以有意义的表示该变量，便于后续处理。

步骤307：将统计学特征向量、标题特征向量、正文特征向量以及图像特征经转换后得到的图像特征向量通过第二全连接层进行处理，得到融合向量。

在步骤306的基础上，本步骤旨在由上述执行主体通过第二全连接层将多个维度的特征向量(即统计学特征向量、标题特征向量、正文特征向量以及图像特征经转换后得到的图像特征向量)进行融合处理，得到一个融合三维度特征的融合向量。

步骤308：根据融合向量构建针对知识的质量评估模型。

在具有上一实施例全部有益效果的基础上，本实施例通过步骤302-步骤304提供了一种具体的三维度特征提取方式，包含了尽可能全面的能够用于评估知识质量的特征，有助于提升后续基于此构建出的质量评估模型的准确性(或称精度)，同时也通过步骤305-步骤308提供了一种具体的基于三维度特征如何具体构建得到质量评估模型的方案，结合特征的类别和所适用的实际场景，采用了相对优选的特征融合和拼接方式，以此构建出评估更准确的质量评估模型。

应当理解的是，步骤302-步骤304提供的三维度特征提取方式也可以采用不同于步骤305-步骤308的模型构建方式构建得到一个类似相同的质量评估模型。

请参见图4，图4为本申请实施例提供的一种获取样本知识内容的方法的流程图，其中的流程400包括以下步骤：

步骤401：利用预设的内部知识筛选规则从内部知识库中筛选出第一正样本和第一负样本。

其中，该内部知识筛选规则基于内部非记录性质的知识与内部记录性质的知识之间的区别抽象得到，区别也可以通过区别特征表现，规则抽象也可以采用包括正则表达式、对应关系、判别模型的方式来实现，此处不做具体限定。

本步骤旨在由上述执行主体利用预设的内部知识筛选规则从内部知识库中筛选出第一正样本和第一负样本，即针对企业内部知识确定出正负样本。

步骤402：从外部权威知识库中选取出第二正样本、从外部非权威知识库中选取出第二负样本。

区别于步骤401，本步骤旨在由上述执行主体分别从外部权威知识库和外部非权威知识库中分别选取出企业外部知识的正负样本。之所以无法利用类似于步骤401提及的筛选规则来自动化实现，是因为相较于企业内部知识，通常对企业外部知识了解甚少，很难达到足以形成规则的了解程度，因此本步骤通过对企业外部知识库的总体评价入手，来分别作为选取得到正负样本的来源。

进一步的，考虑到外部非权威知识库中也会存在少数高质量知识，为了尽可能的提升样本的准确性，还可以为第二负样本中收藏量和阅读量均超过预设数量的知识内容附加预设标记，并将附加有预设标记的知识内容从第二负样本中去除、补充进第二正样本。同理，也可以将第二正样本中收藏量和阅读量较少的知识内容作为负样本补充进该第二负样本中。

之所以还需要从企业外部知识获取样本知识内容，是因为时代发展迅速，为了扩展企业员工专业视野，引入外部知识是十分有必要的。而相较于了解更深入的企业内部知识，企业外部知识由于内容不受企业监管，因此在引入外部知识的推荐时更加需要质量控制，否则比推荐企业内部知识更加容易出现推荐错误的问题。

步骤403：将第一正样本和第二正样本作为正样本、将第一负样本和第二负样本作为负样本，并将正样本和负样本按预设比例形成样本知识内容。

在步骤401和步骤402的基础上，本步骤旨在通过汇总来自企业内部知识和企业外部知识的正负样本，分别形成整合后的正样本和负样本，并按照一定比例形成样本知识内容，例如正样本与负样本比例为2：1以尽可能的突出质量评估模型对高质量知识的识别能力。

在上述任意实施例的基础上，本实施例针对步骤201或步骤301给出了一种具体的获取样本知识内容的方法，包括了企业内部知识和企业外部知识，并针对了解深入的企业内部知识采用了可自动化执行的内部知识筛选规则来高效率的选取得到正负样本，在尽可能的拓宽样本知识内容来源渠道的情况下，尽可能的解决了由人工标注所带来的低效率、高成本问题。

为加深理解，本申请还结合为企业内部员工提供知识推荐的实际需求，给出了一种具体的实现方案，具体分为模型构建、模型使用、模型持续优化：

一、模型构建

1、服务器收集样本知识内容：

对于企业内部知识：根据企业内部沉淀的知识文档的类型特点，发现不适合推荐的文章类型，例如”工作进度”、”会议纪要””bug排查记录”之类的文章，以及内容过短、内容全为附件、无明显段落等不适合推荐的内容形式，人工总结若干准入规则，通过规则自动构建质量准入的正负样本，例如一条企业内部知识的正样本筛选规则可以表现为：标题中包含“总结”字样、附件格式为文档格式。

对于企业外部知识：选取企业领域相关的优质文章站中的文章作为正样本，低质文章站中的文章作为负样本。同时，由于质量相对较差的垂站点也存在相对优质的文章，避免此部分对模型效果影响，将该站点中搜藏阅读数量较多的文章从负样本中删除。

2、服务器从样本知识内容分别提取统计学特征、语义特征和图像特征：

统计学特征包括：a)标题特征：标题字符长度、标题切词长度、标题是否含有标点符号、标题是否含有特殊符号、标题中包含的当前企业领域词汇个数、标题中包含数字个数、标签中英文单词个数；b)正文文本特征：正文字符长度、正文切词长度、正文句子数量、正文短句数量、正文最长句子长度、正文中包含的当前企业领域词汇个数、标题中中英文占比；c)正文结构特征：正文中图片个数、正文中段落个数、正文子标题个数、正文中加粗文本个数、正文是否有目录、正文中表格个数、正文中公式个数、正文中代码库个数。

语义特征包括：a)完整标题语义特征和切词后标题语义特征：标题情感倾向、标题涉黄涉政敏感度、标题通顺度打分、标题是否存在错别字；b)完整句子语义特征和切词后句子语义特征：正文情感倾向、正文涉黄涉政敏感度、正文最长子句通顺度打分、正文所有句子平均通顺度打分、正文是否存在错别字、正文主题分布、正文与标题匹配度。

图像特征包括：图片平均质量打分(包含清晰度、完整度)、图像内容与正文匹配程度。

3、服务器根据特征构建质量评估模型：

针对统计学特征：将企业内部知识样本的标题统计学特征和企业外部知识样本的标题统计学特征经过全连接层融合，得到标题统计学特征；将企业内部知识样本的正文文本统计学特征和企业外部知识样本的正文文本统计学特征经过全连接层融合，得到正文文本统计学特征；将企业内部知识样本的正文结构统计学特征和企业外部知识样本的正文结构统计学特征经过全连接层融合，得到正文结构统计学特征；将标题统计学特征、正文文本统计学特征与正文结构统计学特征相连接，得到统计学特征融合向量；

针对语义特征：对于标题，将标题切词后经过embedding层得到词向量表示，然后经过Bi-LSTM得到标题语义特征向量；对于正文，采用层次化结构，将正文切成句子，对每个句子按同标题类似过程得到每个句子的向量表示，然后按句子经过Bi-LSTM获得最终的正文语义特征向量；

针对图像特征：将图片平均质量打分和图像内容与正文匹配程度各自转换为向量形式，并通过全连接层进行融合，得到图像特征向量；

最后，通过全连接层将统计学特征向量、标题语义特征向量、正文语义特征向量、图像特征向量进行融合，经训练得到质量打分模型。其中，在训练过程中，将最初得到样本知识内容分为训练集和验证集，特征抽取后训练初始模型，并在验证集上验证，并将在验证集上效果最优的训练后模型作为质量打分模型。

二、模型使用

将企业内部/外部的施加知识文档经特征抽取后输入训练好的质量打分模型，得到实际质量打分。

具体的，针对系统不同部分使用方式稍有不同：

对于人工精选平台，可使用文章的质量打分排序，从高到低挑选，加快人工精选速度；对于自动式的推荐系统，可设定质量阈值(例如百分制下的)，高于该阈值的文档知识准入推荐系统，控制推荐内容整体质量。

三、模型持续优化

1、反馈数据回流：

对于系统不同部分，对反馈数据回流的处理方式不同：

对于人工精选平台，收集人工精选的知识作为高质量的正样本；对于自动式的推荐系统，反馈数据主要来自用户交互行为，此部分数据可分为显式和隐式两种，其中显式部分包括：将被用户在推荐页面上点击反馈低质的知识作为显式负样本，将被用户收藏的知识作为显式正样本。隐式部分包括：将用户平均浏览时常比较长的知识作为隐式正样本，将文章点击量高但平均浏览时长明显偏低的知识作为隐式负样本。训练模型时，对显式、隐式回流样本赋予不同权重。同时，还可以根据用户的反馈来确定不同用户对不同类别知识的感兴趣程度，进而帮助推送部分实现精准推送。

2、模型自动训练更新：

当反馈回流数据积累到一定量级，且正负样本比例达到预定范围，自动构建训练集和验证集，触发质量模型重训，并将新旧模型进行比较，如果新模型准确率高于旧模型，则自动触发线上模型更新。

即本部分可以被概括为：根据返回的针对推荐知识的质量回馈信息，确定第三正样本和第三负样本，并根据第三正样本和第三负样本更新质量打分模型。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种用于构建质量评估模型的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的用于构建质量评估模型的500可以包括：样本知识内容获取单元501、多特征提取单元502、质量评估模型构建单元503。其中，样本知识内容获取单元501，被配置成获取样本知识内容；其中，样本知识内容包括以文本、图像、表格中至少一种形式表示的知识文档；多特征提取单元502，被配置成从样本知识内容中分别提取出统计学特征、语义特征、图像特征；质量评估模型构建单元503，被配置成根据统计学特征、语义特征和图像特征构建针对知识的质量评估模型。

在本实施例中，用于构建质量评估模型的500中：样本知识内容获取单元501、多特征提取单元502、质量评估模型构建单元503的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-203的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，多特征提取单元502可以包括：统计学特征提取子单元，被配置成从样本知识内容中提取得到标题统计学特征、正文文本统计学特征和正文结构统计学特征，并汇总得到统计学特征；语义特征提取子单元，被配置成从样本知识内容中提取得到标题语义特征和正文语义特征，并汇总得到语义特征；图像特征提取子单元，被配置成从将样本知识内容包含的图像中提取得到形态特征、清晰度特征和含义特征，并汇总得到图像特征。

在本实施例的一些可选的实现方式中，该语义特征提取子单元可以进一步被配置成：获取样本知识内容的完整标题和正文中的每一个完整句子；对完整标题和每个完整句子进行切词，得到切分后标题和切分后句子；分别对完整标题、切分后标题中的每个词进行标题语义分析，得到标题语义特征；分别对每个完整句子和切分后句子中的每个词进行正文语义分析，得到正文语义特征。

在本实施例的一些可选的实现方式中，质量评估模型构建单元503可以进一步被配置成：将标题统计学特征、正文文本统计学特征和正文结构统计学特征通过第一全连接层进行处理，得到统计学特征向量；对标题语义特征和正文语义特征分别进行降维操作，并对得到的降维后标题语义特征和降维后正文语义特征分别利用双向长短期记忆网络进行处理，分别得到标题特征向量和正文特征向量；将统计学特征向量、标题特征向量、正文特征向量以及图像特征经转换后得到的图像特征向量通过第二全连接层进行处理，得到融合向量；根据融合向量构建针对知识的质量评估模型。

在本实施例的一些可选的实现方式中，样本知识内容获取单元501可以进一步被配置成：利用预设的内部知识筛选规则从内部知识库中筛选出第一正样本和第一负样本；其中，内部知识筛选规则基于内部非记录性质的知识与内部记录性质的知识之间的区别抽象得到；从外部权威知识库中选取出第二正样本、从外部非权威知识库中选取出第二负样本；将第一正样本和第二正样本作为正样本、将第一负样本和第二负样本作为负样本，并将正样本和负样本按预设比例形成样本知识内容。

在本实施例的一些可选的实现方式中，用于构建质量评估模型的500还可以包括：标记附加单元，被配置成为第二负样本中收藏量和阅读量均超过预设数量的知识内容附加预设标记；调整单元，被配置成将附加有预设标记的知识内容从第二负样本中去除、补充进第二正样本。

在本实施例的一些可选的实现方式中，用于构建质量评估模型的500还可以包括：实际质量模型评估单元，被配置成利用质量评估模型评估新产生知识内容的实际质量；优质知识推荐单元，被配置成将实际质量超过预设质量的新产生知识内容作为优质知识进行推荐。

在本实施例的一些可选的实现方式中，用于构建质量评估模型的500还可以包括：第三正/负样本确定单元，被配置成根据返回的针对推荐知识的质量回馈信息，确定第三正样本和第三负样本；质量评估模型更新单元，被配置成根据第三正样本和第三负样本更新质量评估模型。

本实施例作为对应于上述方法实施例的装置实施例存在，本实施例提供的用于构建质量评估模型的装置在现有技术的基础上，还额外使用了知识内容的语义特征和图像特征，得以基于表征一个知识实际质量的多维度特征构建出一个更加准确的质量评估模型，可以很好的发现企业内部存在的一些简短但十分有用的总结性知识，能够为企业员工更准确的推荐优质知识。

根据本申请的实施例，本申请还提供了一种电子设备和一种计算机可读存储介质。

图6示出了一种适于用来实现本申请实施例的用于构建质量评估模型的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的用于构建质量评估模型的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的用于构建质量评估模型的方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的用于构建质量评估模型的方法对应的程序指令/模块(例如，附图5所示的样本知识内容获取单元501、多特征提取单元502、质量评估模型构建单元503)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的用于构建质量评估模型的方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储该电子设备在执行用于构建质量评估模型的方法所创建的各类数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至适用于执行用于构建质量评估模型的方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

适用于执行用于构建质量评估模型的方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生适用于执行用于构建质量评估模型的方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

在现有技术的基础上，本申请实施例所提供的方案还额外使用了知识内容的语义特征和图像特征，得以基于表征一个知识实际质量的多维度特征构建出一个更加准确的质量评估模型，可以很好的发现企业内部存在的一些简短但十分有用的总结性知识，能够为企业员工更准确的推荐优质知识。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种用于构建质量评估模型的方法，包括：

获取样本知识内容；其中，所述样本知识内容包括以文本、图像、表格中至少一种形式表示的知识文档；

从所述样本知识内容中分别提取出统计学特征、语义特征、图像特征；

根据所述统计学特征、所述语义特征和所述图像特征构建针对知识的质量评估模型。

2.根据权利要求1所述的方法，其中，从所述样本知识内容中分别提取出统计学特征、语义特征、图像特征，包括：

从所述样本知识内容中提取得到标题统计学特征、正文文本统计学特征和正文结构统计学特征，并汇总得到所述统计学特征；

从所述样本知识内容中提取得到标题语义特征和正文语义特征，并汇总得到所述语义特征；

从将所述样本知识内容包含的图像中提取得到形态特征、清晰度特征和含义特征，并汇总得到所述图像特征。

3.根据权利要求2所述的方法，其中，从所述样本知识内容中提取得到标题语义特征和正文语义特征，包括：

获取所述样本知识内容的完整标题和正文中的每一个完整句子；

对所述完整标题和每个所述完整句子进行切词，得到切分后标题和切分后句子；

分别对所述完整标题、所述切分后标题中的每个词进行标题语义分析，得到所述标题语义特征；

分别对每个所述完整句子和所述切分后句子中的每个词进行正文语义分析，得到所述正文语义特征。

4.根据权利要求2所述的方法，其中，根据所述统计学特征、所述语义特征和所述图像特征构建针对知识的质量评估模型，包括：

将所述标题统计学特征、所述正文文本统计学特征和所述正文结构统计学特征通过第一全连接层进行处理，得到统计学特征向量；

对所述标题语义特征和所述正文语义特征分别进行降维操作，并对得到的降维后标题语义特征和降维后正文语义特征分别利用双向长短期记忆网络进行处理，分别得到标题特征向量和正文特征向量；

将所述统计学特征向量、所述标题特征向量、所述正文特征向量以及所述图像特征经转换后得到的图像特征向量通过第二全连接层进行处理，得到融合向量；

根据所述融合向量构建针对知识的质量评估模型。

5.根据权利要求1所述的方法，其中，获取样本知识内容，包括：

利用预设的内部知识筛选规则从内部知识库中筛选出第一正样本和第一负样本；其中，所述内部知识筛选规则基于内部非记录性质的知识与内部记录性质的知识之间的区别抽象得到；

从外部权威知识库中选取出第二正样本、从外部非权威知识库中选取出第二负样本；

将所述第一正样本和所述第二正样本作为正样本、将所述第一负样本和所述第二负样本作为负样本，并将所述正样本和所述负样本按预设比例形成所述样本知识内容。

6.根据权利要求5所述的方法，还包括：

为所述第二负样本中收藏量和阅读量均超过预设数量的知识内容附加预设标记；

将附加有所述预设标记的知识内容从所述第二负样本中去除、补充进所述第二正样本。

7.根据权利要求1至6任一项所述的方法，还包括：

利用所述质量评估模型评估新产生知识内容的实际质量；

将所述实际质量超过预设质量的新产生知识内容作为优质知识进行推荐。

8.根据权利要求7所述的方法，还包括：

根据返回的针对推荐知识的质量回馈信息，确定第三正样本和第三负样本；

根据所述第三正样本和所述第三负样本更新所述质量评估模型。

9.一种用于构建质量评估模型的装置，包括：

样本知识内容获取单元，被配置成获取样本知识内容；其中，所述样本知识内容包括以文本、图像、表格中至少一种形式表示的知识文档

多特征提取单元，被配置成从所述样本知识内容中分别提取出统计学特征、语义特征、图像特征；

质量评估模型构建单元，被配置成根据所述统计学特征、所述语义特征和所述图像特征构建针对知识的质量评估模型。

10.根据权利要求9所述的装置，其中，所述多特征提取单元包括：

统计学特征提取子单元，被配置成从所述样本知识内容中提取得到标题统计学特征、正文文本统计学特征和正文结构统计学特征，并汇总得到所述统计学特征；

语义特征提取子单元，被配置成从所述样本知识内容中提取得到标题语义特征和正文语义特征，并汇总得到所述语义特征；

图像特征提取子单元，被配置成从将所述样本知识内容包含的图像中提取得到形态特征、清晰度特征和含义特征，并汇总得到所述图像特征。

11.根据权利要求10所述的装置，其中，所述语义特征提取子单元进一步被配置成：

12.根据权利要求10所述的装置，其中，所述质量评估模型构建单元进一步被配置成：

根据所述融合向量构建针对知识的质量评估模型。

13.根据权利要求9所述的装置，其中，所述样本知识内容获取单元进一步被配置成：

14.根据权利要求13所述的装置，还包括：

标记附加单元，被配置成为所述第二负样本中收藏量和阅读量均超过预设数量的知识内容附加预设标记；

调整单元，被配置成将附加有所述预设标记的知识内容从所述第二负样本中去除、补充进所述第二正样本。

15.根据权利要求9至14任一项所述的装置，还包括：

实际质量模型评估单元，被配置成利用所述质量评估模型评估新产生知识内容的实际质量；

优质知识推荐单元，被配置成将所述实际质量超过预设质量的新产生知识内容作为优质知识进行推荐。

16.根据权利要求15所述的装置，还包括：

第三正/负样本确定单元，被配置成根据返回的针对推荐知识的质量回馈信息，确定第三正样本和第三负样本；

质量评估模型更新单元，被配置成根据所述第三正样本和所述第三负样本更新所述质量评估模型。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的用于构建质量评估模型的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的用于构建质量评估模型的方法。