CN112883187B

CN112883187B - 一种用户知识概念网络的构建方法及装置、用户知识的评价方法

Info

Publication number: CN112883187B
Application number: CN201911198546.1A
Authority: CN
Inventors: 刘垚; 邹更; 任钰欣; 黄梓杰
Original assignee: Wuhan Yujianwan Technology Co ltd
Current assignee: Wuhan Yujianwan Technology Co ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2022-08-05
Anticipated expiration: 2039-11-29
Also published as: CN112883187A

Abstract

本发明公开了一种用户知识概念网络的构建方法及装置、用户知识的评价方法，其中的用户知识概念网络的构建方法，首先对包含m篇独立文本的文本集合中包含的每篇文本进行预处理，然后分别以语料的每一个词汇为概念主题词，遍历所有句子和词汇，将与概念主题词在同一个句子中共同出现的词汇，纳入概念主题词对应的词汇集合，接着对每个词汇集合进行词汇元素筛选，构建概念库；接下来采用层次聚类方法对概念库中包含的概念进行领域划分；然后根据用户文本数据中包含的词汇与概念库的匹配情况，得到用户文本数据中包含的概念；最后根据用户文本数据中包含的概念和划分的概念领域，构建用户知识概念网络。本发明的方法可以提高评价的准确性和客观性。

Description

一种用户知识概念网络的构建方法及装置、用户知识的评价方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种用户知识概念网络的构建方法及装置、用户知识的评价方法。

背景技术

对人的知识创新能力评价具有巨大的应用潜力和价值。但是目前对于用户知识的评价依然脱离不开以问卷、考卷为代表的问答系统的衡量，由于问答系统在内容和选题上在灵活性和客观性两和方面难以进行平衡，如果问答系统的问题内容统一，则保证了客观性但缺乏灵活性；而如果问答系统的内容具多样，那么保证了灵活性但是对于结果的评判则难以客观一致。同时，问答系统往往是从外部考察人的知识储备和一定的解决问题的能力，但是却没办法从人自身的角度客观衡量其知识创能力。

由此可知，现有技术中的方法存在评价结果不够准确的技术问题。

发明内容

有鉴于此，本发明提供了一种用户知识概念网络的构建方法及装置、用户知识的评价方法，用以解决或者至少部分解决现有技术中的方法存在的评价结果不够准确的技术问题。

本发明第一方面提供了一种用户知识概念网络的构建方法，包括：

对包含m篇独立文本的文本集合中包含的每篇文本进行预处理，获得m篇独立文本构成的语料的所有句子和词汇，其中，m为正整数；

分别以语料的每一个词汇为概念主题词，遍历所有句子和词汇，将与概念主题词在同一个句子中共同出现的词汇，纳入概念主题词对应的词汇集合，其中，词汇集合包括概念主题词和词汇元素；

对每个词汇集合进行词汇元素筛选，构建概念库；

采用层次聚类方法对概念库中包含的概念进行领域划分；

获取用户文本数据，根据用户文本数据中包含的词汇与概念库的匹配情况，得到用户文本数据中包含的概念；

根据用户文本数据中包含的概念和划分的概念领域，构建用户知识概念网络。

在一种实施方式中，对每个词汇集合进行词汇元素筛选，构建概念库，包括：

统计词汇集合中的每个词汇元素x_j与概念主题词x_i共同出现的文本数量z，其中，z≤m；

判断文本数量z是否大于或等于第一阈值，如果是，则将词汇元素作为词汇集合的有效词汇，保留在词汇集合中，否则，将词汇元素从词汇集合中去除；

将保留有效词汇的所有词汇集合作为概念库。

在一种实施方式中，根据用户文本数据中包含的词汇与概念库的匹配情况，得到用户文本数据中包含的概念，包括：

对获取的用户文本数据以篇章为单位进行预处理，得到每篇文本的所有词汇；

将每篇文本包含的词汇与概念库进行匹配，如果文本中出现了概念库中一个概念的预设比例以上的有效词汇，则判定该篇文本包含这个概念，得到每篇文本包含的概念；

将每篇文本包含的概念的总和作为用户文本数据中包含的概念。

在一种实施方式中，根据用户文本数据中包含的概念和划分的概念领域，构建用户知识概念网络，包括：

将用户文本数据中包含的所有概念两两链接构建用户知识概念网络。

在一种实施方式中，在将用户文本数据中包含的所有概念两两链接构建用户知识概念网络之后，所述方法还包括：

判断两两链接的两个概念所属的领域是否相同；

如果两个概念属于不同的领域，则将该链接定义为跨领域链接，如果两个概念属于相同的领域，则将该链接定义为同领域链接。

基于同样的发明构思，本发明第二方面提供了一种用户知识概念网络的构建装置，包括：

预处理模块，用于对包含m篇独立文本的文本集合中包含的每篇文本进行预处理，获得m篇独立文本构成的语料的所有句子和词汇，其中，m为正整数；

词汇集合构建模块，用于分别以语料的每一个词汇为概念主题词，遍历所有句子和词汇，将与概念主题词在同一个句子中共同出现的词汇，纳入概念主题词对应的词汇集合，其中，词汇集合包括概念主题词和词汇元素；

概念库构建模块，用于对每个词汇集合进行词汇元素筛选，构建概念库；

领域划分模块，用于采用层次聚类方法对概念库中包含的概念进行领域划分；

匹配模块，用于获取用户文本数据，根据用户文本数据中包含的词汇与概念库的匹配情况，得到用户文本数据中包含的概念；

概念网络构建模块，用于根据用户文本数据中包含的概念和划分的概念领域，构建用户知识概念网络。

基于同样的发明构思，本发明第三方面提供了一种基于第一方面所述的用户知识概念网络构建方法的用户知识的评价方法，评价方法包括：

对构建的用户知识概念网络，从网络的聚类系数、平均路径长度和结构熵三个维度进行评价。

在一种实施方式中，对构建的用户知识概念网络，从网络的聚类系数、平均路径长度和结构熵三个维度进行评价，包括：

根据网络的聚类系数，评价用户的思维活跃度，其中聚类系数的计算方法为：

其中，C表示用户知识网络的聚类系数，C_i表示用户知识网络中每个节点的聚类系数，

E_i表示据节点v_i的邻居节点之间实际存在的边数，

表示v_i的k_i个邻居节点最多可以产生的边数，N表示用户知识网络包含的总节点数，一个节点表示一个概念；

根据网络的平均路径长度，评价用户的思维的转换难度，平均路径长度的计算方式为：

其中，L表示用户知识网络的平均路径长度，L_k表示每个连通图的平均路径长度，其中，连通图由N_c个联通节点构成，共有k个连通图，且不同连通图之间没有边连接，用户知识网络包含的总节点数N中，包括N_s个孤立节点，有N_c个联通节点，孤立节点表示与概念库中其他概念没有链接的概念，联通节点表示与概念库中其他概念具有链接的概念，L_k的计算公式为：

其中，d_ij表示网络中的两个节点vi和vj之间的距离，即为连接这两个点的最短路径上的边数；

根据网络的结构熵，评价用户的思维联想能力，结构熵的计算方式为：

其中，E表示结构熵，N_k表示跨领域网络的节点数量，其中，跨领域网络为跨领域的概念以及链接组成的子网络，I_i表示节点v_i对于跨领域网络的重要性，

k_i表示节点v_i的度。

在一种实施方式中，所述方法还包括：

对网络的聚类系数、平均路径长度和结构熵进行归一化处理，分别得到处理后的聚类系数、平均路径系数以及结构熵系数；

将评价用户的聚类系数、平均路径系数以及结构熵系数相乘，得到的用户的知识创新能力综合评价结果。

基于同样的发明构思，本发明第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现第一方面所述的方法。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的一种用户知识概念网络的构建方法，首先，对包含m篇独立文本的文本集合中包含的每篇文本进行预处理，然后分别以语料的每一个词汇为概念主题词，遍历所有句子和词汇，将与概念主题词在同一个句子中共同出现的词汇，纳入概念主题词对应的词汇集合，构建包含不同的概念主题词的多个词汇集合；接着对每个词汇集合进行词汇元素筛选，构建概念库；接下来采用层次聚类方法对概念库中包含的概念进行领域划分；然后获取用户文本数据，根据用户文本数据中包含的词汇与概念库的匹配情况，得到用户文本数据中包含的概念；最后根据用户文本数据中包含的概念和划分的概念领域，构建用户知识概念网络。并进一步基于构建的用户知识概念网络对用户知识进行评价。

由于本发明提供的方法，通过文本共现规则构建以单个词汇(概念主题词)为中心的词汇集合，并对每个词汇集合进行词汇元素筛选，构建概念库，然后基于对用户的文本数据的分析，与构建的概念库相匹配，得到用户文本数据中包含的概念；再根据用户文本数据中包含的概念和划分的概念领域，构建用户知识概念网络，这种构建方法可以更为全面地展示用户的知识结构。

进一步地，从网络的聚类系数、平均路径长度和结构熵三个维度进行评价对用户的知识创新能力进行评价，可以得到客观准确的评价结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种用户知识概念网络的构建方法的流程示意图；

图2为为本发明实施例提供的一种用户知识概念网络的构建装置的结构框图；

图3为本发明实施例中一种计算机可读存储介质的结构框图。

具体实施方式

本发明的目的在于针对现有技术中的方法存在的评价结果不够准确的技术问题，提供一种用户知识概念网络的构建方法及装置、用户知识的评价方法，从而达到提高评价的准确性和客观性的目的。

为了达到上述目的，本发明的主要构思如下：

提供了一种通过表征用户在学科领域之间跨领域联想的频率和数量来评价其知识创新能力的评价方案。基于用户文本数据的分析，与概念库相匹配，提取出每个领域的关键概念所属的词汇，以句子为单位，将出现的概念相连接，组成用户的知识概念网络。通过对网络进行分析，计算网络的平均连接度，核心节点数量和分布以及跨领域链接数量。通过平均连接度，核心节点分布，以及跨领域链接数量等几个维度对用户的知识创新能力进行评价。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供了一种用户知识概念网络的构建方法，请参见图1，该方法包括：

步骤S1：对包含m篇独立文本的文本集合中包含的每篇文本进行预处理，获得m篇独立文本构成的语料的所有句子和词汇，其中，m为正整数。

具体来说，m的数量可以根据实际情况确定。预处理包括分句、分词、去除停用词等步骤。

步骤S2：分别以语料的每一个词汇为概念主题词，遍历所有句子和词汇，将与概念主题词在同一个句子中共同出现的词汇，纳入概念主题词对应的词汇集合，其中，词汇集合包括概念主题词和词汇元素。

具体来说，步骤S1可以得到语料的所有词汇，本步骤则以每一个词汇为基准，查找与该词汇出现在同一个句子中的词汇，将与其共同出现的词汇构建一个词汇集合，与概念主题词共同出现，则表示两个词汇具有关联，其中，该词汇集合中包括两种词汇，一种是概念主题词，另一种是词汇元素。

步骤S3：对每个词汇集合进行词汇元素筛选，构建概念库。

具体来说，为了提高概念的准确性，本步骤进一步对词汇元素进行筛选，例如，通过判断词汇元素是否经常与概念主题词共同出现在一个文本中，来确定是否保留该词汇元素，其中，是否经常出现可以根据设置的阈值来确定。

步骤S4：采用层次聚类方法对概念库中包含的概念进行领域划分。

具体来说，可以采用K-means聚类方法对概念库中的概念进行领域划分，例如根据学科等进行划分。

步骤S5：获取用户文本数据，根据用户文本数据中包含的词汇与概念库的匹配情况，得到用户文本数据中包含的概念。

具体来说，该步骤是判断用户文本数据中是否包含某一概念，例如可以根据概念(概念主题词或者词汇元素)是否在文本中出现以及在文本中出现的数量来决定。

步骤S6：根据用户文本数据中包含的概念和划分的概念领域，构建用户知识概念网络。

在一种实施方式中，步骤S3具体包括：

将保留有效词汇的所有词汇集合作为概念库。

具体来说，第一阈值可以根据实际情况设置，例如可以为3、5、6等等。通过词汇元素筛选，可以将与概念主题词经常出现在同一文本中的词汇选出来，将其作为有效词汇，从而提高概念的准确性。

在一种实施方式中，步骤S5具体包括：

具体来说，预设比例可以根据实际情况设置，例如60％、70％等等。搜集用户的文本数据后，以篇章为单位进行整理。对每一篇文本进行分词、去除停用词，可以得到每篇文本的所有词汇。例如，如果一篇文本中出现了某一概念中有60％以上的有效词汇，则判定该文本中含有该概念，对于用户数据中包含的所有文本均与概念库的每一个概念进行匹配，从而可以得到用户文本数据中包含的所有概念。

在一种实施方式中，步骤S6具体包括：

判断两两链接的两个概念所属的领域是否相同；

实施例二

基于同样的发明构思，本实施例提供了一种用户知识概念网络的构建装置，请参见图2，包括：

预处理模块201，用于对包含m篇独立文本的文本集合中包含的每篇文本进行预处理，获得m篇独立文本构成的语料的所有句子和词汇，其中，m为正整数；

词汇集合构建模块202，用于分别以语料的每一个词汇为概念主题词，遍历所有句子和词汇，将与概念主题词在同一个句子中共同出现的词汇，纳入概念主题词对应的词汇集合，其中，词汇集合包括概念主题词和词汇元素；

概念库构建模块203，用于对每个词汇集合进行词汇元素筛选，构建概念库；

领域划分模块204，用于采用层次聚类方法对概念库中包含的概念进行领域划分；

匹配模块205，用于获取用户文本数据，根据用户文本数据中包含的词汇与概念库的匹配情况，得到用户文本数据中包含的概念；

概念网络构建模块206，用于根据用户文本数据中包含的概念和划分的概念领域，构建用户知识概念网络。

在一种实施方式中，概念库构建模块具体用于：

将保留有效词汇的所有词汇集合作为概念库。

在一种实施方式中，匹配模块具体用于：

在一种实施方式中，概念网络构建模块具体用于：

在一种实施方式中，所述装置还包括判断模块，用于在将用户文本数据中包含的所有概念两两链接构建用户知识概念网络之后：

判断两两链接的两个概念所属的领域是否相同；

由于本发明实施例二所介绍的装置，为实施本发明实施例一中用户知识概念网络的构建方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

实施例三

基于同一发明构思，本申请还提供了一种用户知识的评价方法，基于实施例一所述的用户知识概念网络的构建方法实现，评价方法包括：

E_i表示据节点v_i的邻居节点之间实际存在的边数，

k_i表示节点v_i的度。

具体来说，对于构建的用户知识概念网络，网络的节点表示概念，链接表示概念之间的关系，包括同领域链接和跨领域链接。本发明网络的聚类系数、平均路径长度和结构熵三个维度进行评价。

首先是聚类系数，用户知识概念网络中共包含N个节点，其中有N_s个孤立节点，有N_c个联通节点。其中，由跨领域链接组成的子网络称为跨领域网络，节点数量为N_k。聚类系数是相对于总网络(即整个用户知识概念网络)来说的，计算总网络的聚类系数C，聚类系数介于0～1之间，聚类系数越大，说明网络连通程度，当所有的点都是孤立的点时，C＝0，当所有的点都互相联通时，C＝1。节点v_i表示用户知识概念网络的某个节点，节点v_i的邻居节点表示与其具有链接的节点。

接下来是平均路径长度，其中，网络中的两个节点v_i和v_j之间的距离d_ij定义为链接这两个点的最短路径上的边数。在平均路径长度的计算中，本实施方式仅考虑N_c个联通节点，抛去孤立的节点，并且N_c个节点共形成了k个连通图，连通图与连通图之间没有边连接。那么，首先分别计算每个连通图的平均路径长度L_k，然后求和再除以k则得到整个网络的平均路径长度L。平均路径长度反映了节点到节点之间的难易程度。

然后是结构熵，对于幂律分布的无标度网络来说，少数节点在网络的联通中起到了重要作用，但这样的网络是不均匀的。反映到知识创新层面，即代表了引起思维衔接的总是少数几个知识概念，那么这样的思维网络显然是不足够稳定的。因此本发明利用结构熵这个网络特征来描述知识网络的稳定性。结构熵越大，代表无序程度越高，也就是节点的连通度越平均。而网络的不均匀性越大，少数的节点取得越重要的位置，则代表网络是有序的，结构熵越小。在本指标中，本实施方式中节点间链接指的是存在于一个逻辑语块内的知识点，而跨领域链接则较为直接的体现了人的联想能力，且联想能力与创新能力呈正相关。因此结构熵部分仅计算设计跨领域链接的节点所构成的子网络。

在一种实施方式中，所述方法还包括：

具体来说，本发明的评价方法，是基于以下分析得出的：在人的知识结构中，各知识点之间的连接度越高则代表其在该学科领域的思维活跃度越高，而这种知识点之间的链接体现在文本中就是可以将不同的知识点整合到一个逻辑语块中(如以句子、篇章等为单位)。同时，跨领域的知识链接，也就是将不同学科领域的知识点整合到一个逻辑语块中，则可以体现人的联想能力，且联想能力与创新能力呈正相关。基于上述分析方法，本发明提供了一种可以对不同学科背景和知识储量的人的知识创新能力进行统一评价的客观指标。

综合评价的具体实现过程如下：

1、将网络的聚类系数、平均路径长度和结构熵三个参数的值域转换为0～1之间，且越趋近于1越好。

2、聚类系数FC：其值域在0～1之间，越趋近于0代表用户的思维活跃度越低；越趋近于1代表思维活跃度越高。

3、平均路径系数FL：利用归一化方法，将平均路径长度转化为值域在0～1之间的平均路径系数。越趋近于0，代表思维网络中的两个知识概念之间发生思维转换越难；越趋近于1，代表思维网络中的两个知识概念之间发生思维转换越容易。

4、结构熵系数FE：利用线性函数归一化方法，将值域为(lnN，ln[4(N-1)]/2)的结构熵转化为值域在0～1之间的结构熵系数。越趋近于0，代表思维网络越不均匀，创新联想思维越是依赖于少数几个知识概念；越趋近于1，代表思维网络越均匀，创新联想思维可由多个知识概念产生，N_k为跨领域网络的节点数量。

5、由于网络的形成需要一定的节点数量，在具体实施时，用户的知识概念网络的节点和边数需要设立最小值。其中节点数、同领域连接数、跨领域连接数小于最小值时，不予计算。

6、网络的性质与网络的节点数量有重要联系。网络包含的节点越多，则形成紧密连接的网络难度越大。因此对于不同量级的用户思维网络进行比较时，需要对三个维度的数值结果进行网络规模修正。网络规模修正使用统一的参数：

其中，A是用户文本中解析出的全部概念数，N是总网络的节点数。

7、最终评价时，用户的三个维度三参数作为单位立方体的长宽高，计算体积，也就是三者相乘，将计算体积的结果乘以修正参数T得到的结果就是用户的知识创新能力评分S。

S＝T×FC×FL×FE

8、对用户的知识创新能力评分进行归一化，使其得分位于0～100之间。

NS＝actan(S×100)×200/π

下面通过具体示例对本发明提供的评价方法进行说明。

下表是对三个用户的文本进行概念网络构建，然后对网络进行分析得到的数据：

然后根据上表中得到的相关数据，分别从网络的聚类系数、平均路径长度和结构熵三个维度进行评价，最后进行综合评价，计算结果如下：

User1的计算数据如下：

FC_user1＝0.89

FL_user1＝0.4292

FE_user1＝0.08

S_user1＝T*FC*FL*FE＝0.0211

User2的计算数据如下：

FC_user2＝0.91

FL_user2＝0.4310

FE_user1＝0.13

S_user2＝T*FC*FL*FE＝0.0173

User3的计算数据如下：

FC_user3＝0.85

FL_user3＝0.4629

FE_user3＝0.23

S_user3＝T*FC*FL*FE＝0.0281

根据上述计算公式，最终可以得到User1、User2和User3的综合评分，分别为：71.82、66.36和78.23，说明User3的知识创新能力最强。

实施例四

请参见图3，基于同一发明构思，本申请还提供了一种计算机可读存储介质300，其上存储有计算机程序311，该程序被执行时实现如实施例一中所述的方法。

由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中用户知识概念网络的构建方法所采用的计算机设备，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机可读存储介质的具体结构及变形，故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。