CN112883187B - 一种用户知识概念网络的构建方法及装置、用户知识的评价方法 - Google Patents

一种用户知识概念网络的构建方法及装置、用户知识的评价方法 Download PDF

Info

Publication number
CN112883187B
CN112883187B CN201911198546.1A CN201911198546A CN112883187B CN 112883187 B CN112883187 B CN 112883187B CN 201911198546 A CN201911198546 A CN 201911198546A CN 112883187 B CN112883187 B CN 112883187B
Authority
CN
China
Prior art keywords
concept
user
network
vocabulary
concepts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911198546.1A
Other languages
English (en)
Other versions
CN112883187A (zh
Inventor
刘垚
邹更
任钰欣
黄梓杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Yujianwan Technology Co ltd
Original Assignee
Wuhan Yujianwan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Yujianwan Technology Co ltd filed Critical Wuhan Yujianwan Technology Co ltd
Priority to CN201911198546.1A priority Critical patent/CN112883187B/zh
Publication of CN112883187A publication Critical patent/CN112883187A/zh
Application granted granted Critical
Publication of CN112883187B publication Critical patent/CN112883187B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用户知识概念网络的构建方法及装置、用户知识的评价方法,其中的用户知识概念网络的构建方法,首先对包含m篇独立文本的文本集合中包含的每篇文本进行预处理,然后分别以语料的每一个词汇为概念主题词,遍历所有句子和词汇,将与概念主题词在同一个句子中共同出现的词汇,纳入概念主题词对应的词汇集合,接着对每个词汇集合进行词汇元素筛选,构建概念库;接下来采用层次聚类方法对概念库中包含的概念进行领域划分;然后根据用户文本数据中包含的词汇与概念库的匹配情况,得到用户文本数据中包含的概念;最后根据用户文本数据中包含的概念和划分的概念领域,构建用户知识概念网络。本发明的方法可以提高评价的准确性和客观性。

Description

一种用户知识概念网络的构建方法及装置、用户知识的评价 方法
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种用户知识概念网络的构建方法及装置、用户知识的评价方法。
背景技术
对人的知识创新能力评价具有巨大的应用潜力和价值。但是目前对于用户知识的评价依然脱离不开以问卷、考卷为代表的问答系统的衡量,由于问答系统在内容和选题上在灵活性和客观性两和方面难以进行平衡,如果问答系统的问题内容统一,则保证了客观性但缺乏灵活性;而如果问答系统的内容具多样,那么保证了灵活性但是对于结果的评判则难以客观一致。同时,问答系统往往是从外部考察人的知识储备和一定的解决问题的能力,但是却没办法从人自身的角度客观衡量其知识创能力。
由此可知,现有技术中的方法存在评价结果不够准确的技术问题。
发明内容
有鉴于此,本发明提供了一种用户知识概念网络的构建方法及装置、用户知识的评价方法,用以解决或者至少部分解决现有技术中的方法存在的评价结果不够准确的技术问题。
本发明第一方面提供了一种用户知识概念网络的构建方法,包括:
对包含m篇独立文本的文本集合中包含的每篇文本进行预处理,获得m篇独立文本构成的语料的所有句子和词汇,其中,m为正整数;
分别以语料的每一个词汇为概念主题词,遍历所有句子和词汇,将与概念主题词在同一个句子中共同出现的词汇,纳入概念主题词对应的词汇集合,其中,词汇集合包括概念主题词和词汇元素;
对每个词汇集合进行词汇元素筛选,构建概念库;
采用层次聚类方法对概念库中包含的概念进行领域划分;
获取用户文本数据,根据用户文本数据中包含的词汇与概念库的匹配情况,得到用户文本数据中包含的概念;
根据用户文本数据中包含的概念和划分的概念领域,构建用户知识概念网络。
在一种实施方式中,对每个词汇集合进行词汇元素筛选,构建概念库,包括:
统计词汇集合中的每个词汇元素xj与概念主题词xi共同出现的文本数量z,其中,z≤m;
判断文本数量z是否大于或等于第一阈值,如果是,则将词汇元素作为词汇集合的有效词汇,保留在词汇集合中,否则,将词汇元素从词汇集合中去除;
将保留有效词汇的所有词汇集合作为概念库。
在一种实施方式中,根据用户文本数据中包含的词汇与概念库的匹配情况,得到用户文本数据中包含的概念,包括:
对获取的用户文本数据以篇章为单位进行预处理,得到每篇文本的所有词汇;
将每篇文本包含的词汇与概念库进行匹配,如果文本中出现了概念库中一个概念的预设比例以上的有效词汇,则判定该篇文本包含这个概念,得到每篇文本包含的概念;
将每篇文本包含的概念的总和作为用户文本数据中包含的概念。
在一种实施方式中,根据用户文本数据中包含的概念和划分的概念领域,构建用户知识概念网络,包括:
将用户文本数据中包含的所有概念两两链接构建用户知识概念网络。
在一种实施方式中,在将用户文本数据中包含的所有概念两两链接构建用户知识概念网络之后,所述方法还包括:
判断两两链接的两个概念所属的领域是否相同;
如果两个概念属于不同的领域,则将该链接定义为跨领域链接,如果两个概念属于相同的领域,则将该链接定义为同领域链接。
基于同样的发明构思,本发明第二方面提供了一种用户知识概念网络的构建装置,包括:
预处理模块,用于对包含m篇独立文本的文本集合中包含的每篇文本进行预处理,获得m篇独立文本构成的语料的所有句子和词汇,其中,m为正整数;
词汇集合构建模块,用于分别以语料的每一个词汇为概念主题词,遍历所有句子和词汇,将与概念主题词在同一个句子中共同出现的词汇,纳入概念主题词对应的词汇集合,其中,词汇集合包括概念主题词和词汇元素;
概念库构建模块,用于对每个词汇集合进行词汇元素筛选,构建概念库;
领域划分模块,用于采用层次聚类方法对概念库中包含的概念进行领域划分;
匹配模块,用于获取用户文本数据,根据用户文本数据中包含的词汇与概念库的匹配情况,得到用户文本数据中包含的概念;
概念网络构建模块,用于根据用户文本数据中包含的概念和划分的概念领域,构建用户知识概念网络。
基于同样的发明构思,本发明第三方面提供了一种基于第一方面所述的用户知识概念网络构建方法的用户知识的评价方法,评价方法包括:
对构建的用户知识概念网络,从网络的聚类系数、平均路径长度和结构熵三个维度进行评价。
在一种实施方式中,对构建的用户知识概念网络,从网络的聚类系数、平均路径长度和结构熵三个维度进行评价,包括:
根据网络的聚类系数,评价用户的思维活跃度,其中聚类系数的计算方法为:
Figure BDA0002295284270000031
其中,C表示用户知识网络的聚类系数,Ci表示用户知识网络中每个节点的聚类系数,
Figure BDA0002295284270000032
Ei表示据节点vi的邻居节点之间实际存在的边数,
Figure BDA0002295284270000033
表示vi的ki个邻居节点最多可以产生的边数,N表示用户知识网络包含的总节点数,一个节点表示一个概念;
根据网络的平均路径长度,评价用户的思维的转换难度,平均路径长度的计算方式为:
Figure BDA0002295284270000034
其中,L表示用户知识网络的平均路径长度,Lk表示每个连通图的平均路径长度,其中,连通图由Nc个联通节点构成,共有k个连通图,且不同连通图之间没有边连接,用户知识网络包含的总节点数N中,包括Ns个孤立节点,有Nc个联通节点,孤立节点表示与概念库中其他概念没有链接的概念,联通节点表示与概念库中其他概念具有链接的概念,Lk的计算公式为:
Figure BDA0002295284270000041
其中,dij表示网络中的两个节点vi和vj之间的距离,即为连接这两个点的最短路径上的边数;
根据网络的结构熵,评价用户的思维联想能力,结构熵的计算方式为:
Figure BDA0002295284270000042
其中,E表示结构熵,Nk表示跨领域网络的节点数量,其中,跨领域网络为跨领域的概念以及链接组成的子网络,Ii表示节点vi对于跨领域网络的重要性,
Figure BDA0002295284270000043
ki表示节点vi的度。
在一种实施方式中,所述方法还包括:
对网络的聚类系数、平均路径长度和结构熵进行归一化处理,分别得到处理后的聚类系数、平均路径系数以及结构熵系数;
将评价用户的聚类系数、平均路径系数以及结构熵系数相乘,得到的用户的知识创新能力综合评价结果。
基于同样的发明构思,本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现第一方面所述的方法。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的一种用户知识概念网络的构建方法,首先,对包含m篇独立文本的文本集合中包含的每篇文本进行预处理,然后分别以语料的每一个词汇为概念主题词,遍历所有句子和词汇,将与概念主题词在同一个句子中共同出现的词汇,纳入概念主题词对应的词汇集合,构建包含不同的概念主题词的多个词汇集合;接着对每个词汇集合进行词汇元素筛选,构建概念库;接下来采用层次聚类方法对概念库中包含的概念进行领域划分;然后获取用户文本数据,根据用户文本数据中包含的词汇与概念库的匹配情况,得到用户文本数据中包含的概念;最后根据用户文本数据中包含的概念和划分的概念领域,构建用户知识概念网络。并进一步基于构建的用户知识概念网络对用户知识进行评价。
由于本发明提供的方法,通过文本共现规则构建以单个词汇(概念主题词)为中心的词汇集合,并对每个词汇集合进行词汇元素筛选,构建概念库,然后基于对用户的文本数据的分析,与构建的概念库相匹配,得到用户文本数据中包含的概念;再根据用户文本数据中包含的概念和划分的概念领域,构建用户知识概念网络,这种构建方法可以更为全面地展示用户的知识结构。
进一步地,从网络的聚类系数、平均路径长度和结构熵三个维度进行评价对用户的知识创新能力进行评价,可以得到客观准确的评价结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种用户知识概念网络的构建方法的流程示意图;
图2为为本发明实施例提供的一种用户知识概念网络的构建装置的结构框图;
图3为本发明实施例中一种计算机可读存储介质的结构框图。
具体实施方式
本发明的目的在于针对现有技术中的方法存在的评价结果不够准确的技术问题,提供一种用户知识概念网络的构建方法及装置、用户知识的评价方法,从而达到提高评价的准确性和客观性的目的。
为了达到上述目的,本发明的主要构思如下:
提供了一种通过表征用户在学科领域之间跨领域联想的频率和数量来评价其知识创新能力的评价方案。基于用户文本数据的分析,与概念库相匹配,提取出每个领域的关键概念所属的词汇,以句子为单位,将出现的概念相连接,组成用户的知识概念网络。通过对网络进行分析,计算网络的平均连接度,核心节点数量和分布以及跨领域链接数量。通过平均连接度,核心节点分布,以及跨领域链接数量等几个维度对用户的知识创新能力进行评价。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例提供了一种用户知识概念网络的构建方法,请参见图1,该方法包括:
步骤S1:对包含m篇独立文本的文本集合中包含的每篇文本进行预处理,获得m篇独立文本构成的语料的所有句子和词汇,其中,m为正整数。
具体来说,m的数量可以根据实际情况确定。预处理包括分句、分词、去除停用词等步骤。
步骤S2:分别以语料的每一个词汇为概念主题词,遍历所有句子和词汇,将与概念主题词在同一个句子中共同出现的词汇,纳入概念主题词对应的词汇集合,其中,词汇集合包括概念主题词和词汇元素。
具体来说,步骤S1可以得到语料的所有词汇,本步骤则以每一个词汇为基准,查找与该词汇出现在同一个句子中的词汇,将与其共同出现的词汇构建一个词汇集合,与概念主题词共同出现,则表示两个词汇具有关联,其中,该词汇集合中包括两种词汇,一种是概念主题词,另一种是词汇元素。
步骤S3:对每个词汇集合进行词汇元素筛选,构建概念库。
具体来说,为了提高概念的准确性,本步骤进一步对词汇元素进行筛选,例如,通过判断词汇元素是否经常与概念主题词共同出现在一个文本中,来确定是否保留该词汇元素,其中,是否经常出现可以根据设置的阈值来确定。
步骤S4:采用层次聚类方法对概念库中包含的概念进行领域划分。
具体来说,可以采用K-means聚类方法对概念库中的概念进行领域划分,例如根据学科等进行划分。
步骤S5:获取用户文本数据,根据用户文本数据中包含的词汇与概念库的匹配情况,得到用户文本数据中包含的概念。
具体来说,该步骤是判断用户文本数据中是否包含某一概念,例如可以根据概念(概念主题词或者词汇元素)是否在文本中出现以及在文本中出现的数量来决定。
步骤S6:根据用户文本数据中包含的概念和划分的概念领域,构建用户知识概念网络。
在一种实施方式中,步骤S3具体包括:
统计词汇集合中的每个词汇元素xj与概念主题词xi共同出现的文本数量z,其中,z≤m;
判断文本数量z是否大于或等于第一阈值,如果是,则将词汇元素作为词汇集合的有效词汇,保留在词汇集合中,否则,将词汇元素从词汇集合中去除;
将保留有效词汇的所有词汇集合作为概念库。
具体来说,第一阈值可以根据实际情况设置,例如可以为3、5、6等等。通过词汇元素筛选,可以将与概念主题词经常出现在同一文本中的词汇选出来,将其作为有效词汇,从而提高概念的准确性。
在一种实施方式中,步骤S5具体包括:
对获取的用户文本数据以篇章为单位进行预处理,得到每篇文本的所有词汇;
将每篇文本包含的词汇与概念库进行匹配,如果文本中出现了概念库中一个概念的预设比例以上的有效词汇,则判定该篇文本包含这个概念,得到每篇文本包含的概念;
将每篇文本包含的概念的总和作为用户文本数据中包含的概念。
具体来说,预设比例可以根据实际情况设置,例如60%、70%等等。搜集用户的文本数据后,以篇章为单位进行整理。对每一篇文本进行分词、去除停用词,可以得到每篇文本的所有词汇。例如,如果一篇文本中出现了某一概念中有60%以上的有效词汇,则判定该文本中含有该概念,对于用户数据中包含的所有文本均与概念库的每一个概念进行匹配,从而可以得到用户文本数据中包含的所有概念。
在一种实施方式中,步骤S6具体包括:
将用户文本数据中包含的所有概念两两链接构建用户知识概念网络。
在一种实施方式中,在将用户文本数据中包含的所有概念两两链接构建用户知识概念网络之后,所述方法还包括:
判断两两链接的两个概念所属的领域是否相同;
如果两个概念属于不同的领域,则将该链接定义为跨领域链接,如果两个概念属于相同的领域,则将该链接定义为同领域链接。
实施例二
基于同样的发明构思,本实施例提供了一种用户知识概念网络的构建装置,请参见图2,包括:
预处理模块201,用于对包含m篇独立文本的文本集合中包含的每篇文本进行预处理,获得m篇独立文本构成的语料的所有句子和词汇,其中,m为正整数;
词汇集合构建模块202,用于分别以语料的每一个词汇为概念主题词,遍历所有句子和词汇,将与概念主题词在同一个句子中共同出现的词汇,纳入概念主题词对应的词汇集合,其中,词汇集合包括概念主题词和词汇元素;
概念库构建模块203,用于对每个词汇集合进行词汇元素筛选,构建概念库;
领域划分模块204,用于采用层次聚类方法对概念库中包含的概念进行领域划分;
匹配模块205,用于获取用户文本数据,根据用户文本数据中包含的词汇与概念库的匹配情况,得到用户文本数据中包含的概念;
概念网络构建模块206,用于根据用户文本数据中包含的概念和划分的概念领域,构建用户知识概念网络。
在一种实施方式中,概念库构建模块具体用于:
统计词汇集合中的每个词汇元素xj与概念主题词xi共同出现的文本数量z,其中,z≤m;
判断文本数量z是否大于或等于第一阈值,如果是,则将词汇元素作为词汇集合的有效词汇,保留在词汇集合中,否则,将词汇元素从词汇集合中去除;
将保留有效词汇的所有词汇集合作为概念库。
在一种实施方式中,匹配模块具体用于:
对获取的用户文本数据以篇章为单位进行预处理,得到每篇文本的所有词汇;
将每篇文本包含的词汇与概念库进行匹配,如果文本中出现了概念库中一个概念的预设比例以上的有效词汇,则判定该篇文本包含这个概念,得到每篇文本包含的概念;
将每篇文本包含的概念的总和作为用户文本数据中包含的概念。
在一种实施方式中,概念网络构建模块具体用于:
将用户文本数据中包含的所有概念两两链接构建用户知识概念网络。
在一种实施方式中,所述装置还包括判断模块,用于在将用户文本数据中包含的所有概念两两链接构建用户知识概念网络之后:
判断两两链接的两个概念所属的领域是否相同;
如果两个概念属于不同的领域,则将该链接定义为跨领域链接,如果两个概念属于相同的领域,则将该链接定义为同领域链接。
由于本发明实施例二所介绍的装置,为实施本发明实施例一中用户知识概念网络的构建方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。
实施例三
基于同一发明构思,本申请还提供了一种用户知识的评价方法,基于实施例一所述的用户知识概念网络的构建方法实现,评价方法包括:
对构建的用户知识概念网络,从网络的聚类系数、平均路径长度和结构熵三个维度进行评价。
在一种实施方式中,对构建的用户知识概念网络,从网络的聚类系数、平均路径长度和结构熵三个维度进行评价,包括:
根据网络的聚类系数,评价用户的思维活跃度,其中聚类系数的计算方法为:
Figure BDA0002295284270000091
其中,C表示用户知识网络的聚类系数,Ci表示用户知识网络中每个节点的聚类系数,
Figure BDA0002295284270000092
Ei表示据节点vi的邻居节点之间实际存在的边数,
Figure BDA0002295284270000093
表示vi的ki个邻居节点最多可以产生的边数,N表示用户知识网络包含的总节点数,一个节点表示一个概念;
根据网络的平均路径长度,评价用户的思维的转换难度,平均路径长度的计算方式为:
Figure BDA0002295284270000101
其中,L表示用户知识网络的平均路径长度,Lk表示每个连通图的平均路径长度,其中,连通图由Nc个联通节点构成,共有k个连通图,且不同连通图之间没有边连接,用户知识网络包含的总节点数N中,包括Ns个孤立节点,有Nc个联通节点,孤立节点表示与概念库中其他概念没有链接的概念,联通节点表示与概念库中其他概念具有链接的概念,Lk的计算公式为:
Figure BDA0002295284270000102
其中,dij表示网络中的两个节点vi和vj之间的距离,即为连接这两个点的最短路径上的边数;
根据网络的结构熵,评价用户的思维联想能力,结构熵的计算方式为:
Figure BDA0002295284270000103
其中,E表示结构熵,Nk表示跨领域网络的节点数量,其中,跨领域网络为跨领域的概念以及链接组成的子网络,Ii表示节点vi对于跨领域网络的重要性,
Figure BDA0002295284270000104
ki表示节点vi的度。
具体来说,对于构建的用户知识概念网络,网络的节点表示概念,链接表示概念之间的关系,包括同领域链接和跨领域链接。本发明网络的聚类系数、平均路径长度和结构熵三个维度进行评价。
首先是聚类系数,用户知识概念网络中共包含N个节点,其中有Ns个孤立节点,有Nc个联通节点。其中,由跨领域链接组成的子网络称为跨领域网络,节点数量为Nk。聚类系数是相对于总网络(即整个用户知识概念网络)来说的,计算总网络的聚类系数C,聚类系数介于0~1之间,聚类系数越大,说明网络连通程度,当所有的点都是孤立的点时,C=0,当所有的点都互相联通时,C=1。节点vi表示用户知识概念网络的某个节点,节点vi的邻居节点表示与其具有链接的节点。
接下来是平均路径长度,其中,网络中的两个节点vi和vj之间的距离dij定义为链接这两个点的最短路径上的边数。在平均路径长度的计算中,本实施方式仅考虑Nc个联通节点,抛去孤立的节点,并且Nc个节点共形成了k个连通图,连通图与连通图之间没有边连接。那么,首先分别计算每个连通图的平均路径长度Lk,然后求和再除以k则得到整个网络的平均路径长度L。平均路径长度反映了节点到节点之间的难易程度。
然后是结构熵,对于幂律分布的无标度网络来说,少数节点在网络的联通中起到了重要作用,但这样的网络是不均匀的。反映到知识创新层面,即代表了引起思维衔接的总是少数几个知识概念,那么这样的思维网络显然是不足够稳定的。因此本发明利用结构熵这个网络特征来描述知识网络的稳定性。结构熵越大,代表无序程度越高,也就是节点的连通度越平均。而网络的不均匀性越大,少数的节点取得越重要的位置,则代表网络是有序的,结构熵越小。在本指标中,本实施方式中节点间链接指的是存在于一个逻辑语块内的知识点,而跨领域链接则较为直接的体现了人的联想能力,且联想能力与创新能力呈正相关。因此结构熵部分仅计算设计跨领域链接的节点所构成的子网络。
在一种实施方式中,所述方法还包括:
对网络的聚类系数、平均路径长度和结构熵进行归一化处理,分别得到处理后的聚类系数、平均路径系数以及结构熵系数;
将评价用户的聚类系数、平均路径系数以及结构熵系数相乘,得到的用户的知识创新能力综合评价结果。
具体来说,本发明的评价方法,是基于以下分析得出的:在人的知识结构中,各知识点之间的连接度越高则代表其在该学科领域的思维活跃度越高,而这种知识点之间的链接体现在文本中就是可以将不同的知识点整合到一个逻辑语块中(如以句子、篇章等为单位)。同时,跨领域的知识链接,也就是将不同学科领域的知识点整合到一个逻辑语块中,则可以体现人的联想能力,且联想能力与创新能力呈正相关。基于上述分析方法,本发明提供了一种可以对不同学科背景和知识储量的人的知识创新能力进行统一评价的客观指标。
综合评价的具体实现过程如下:
1、将网络的聚类系数、平均路径长度和结构熵三个参数的值域转换为0~1之间,且越趋近于1越好。
2、聚类系数FC:其值域在0~1之间,越趋近于0代表用户的思维活跃度越低;越趋近于1代表思维活跃度越高。
3、平均路径系数FL:利用归一化方法,将平均路径长度转化为值域在0~1之间的平均路径系数。越趋近于0,代表思维网络中的两个知识概念之间发生思维转换越难;越趋近于1,代表思维网络中的两个知识概念之间发生思维转换越容易。
4、结构熵系数FE:利用线性函数归一化方法,将值域为(lnN,ln[4(N-1)]/2)的结构熵转化为值域在0~1之间的结构熵系数。越趋近于0,代表思维网络越不均匀,创新联想思维越是依赖于少数几个知识概念;越趋近于1,代表思维网络越均匀,创新联想思维可由多个知识概念产生,Nk为跨领域网络的节点数量。
Figure BDA0002295284270000121
5、由于网络的形成需要一定的节点数量,在具体实施时,用户的知识概念网络的节点和边数需要设立最小值。其中节点数、同领域连接数、跨领域连接数小于最小值时,不予计算。
6、网络的性质与网络的节点数量有重要联系。网络包含的节点越多,则形成紧密连接的网络难度越大。因此对于不同量级的用户思维网络进行比较时,需要对三个维度的数值结果进行网络规模修正。网络规模修正使用统一的参数:
Figure BDA0002295284270000122
其中,A是用户文本中解析出的全部概念数,N是总网络的节点数。
7、最终评价时,用户的三个维度三参数作为单位立方体的长宽高,计算体积,也就是三者相乘,将计算体积的结果乘以修正参数T得到的结果就是用户的知识创新能力评分S。
S=T×FC×FL×FE
8、对用户的知识创新能力评分进行归一化,使其得分位于0~100之间。
NS=actan(S×100)×200/π
下面通过具体示例对本发明提供的评价方法进行说明。
下表是对三个用户的文本进行概念网络构建,然后对网络进行分析得到的数据:
Figure BDA0002295284270000131
然后根据上表中得到的相关数据,分别从网络的聚类系数、平均路径长度和结构熵三个维度进行评价,最后进行综合评价,计算结果如下:
User1的计算数据如下:
FCuser1=0.89
FLuser1=0.4292
FEuser1=0.08
Figure BDA0002295284270000132
Suser1=T*FC*FL*FE=0.0211
Figure BDA0002295284270000141
User2的计算数据如下:
FCuser2=0.91
FLuser2=0.4310
FEuser1=0.13
Figure BDA0002295284270000142
Suser2=T*FC*FL*FE=0.0173
Figure BDA0002295284270000143
User3的计算数据如下:
FCuser3=0.85
FLuser3=0.4629
FEuser3=0.23
Figure BDA0002295284270000144
Suser3=T*FC*FL*FE=0.0281
Figure BDA0002295284270000145
根据上述计算公式,最终可以得到User1、User2和User3的综合评分,分别为:71.82、66.36和78.23,说明User3的知识创新能力最强。
实施例四
请参见图3,基于同一发明构思,本申请还提供了一种计算机可读存储介质300,其上存储有计算机程序311,该程序被执行时实现如实施例一中所述的方法。
由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中用户知识概念网络的构建方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种用户知识概念网络的构建方法,其特征在于,包括:
对包含m篇独立文本的文本集合中包含的每篇文本进行预处理,获得m篇独立文本构成的语料的所有句子和词汇,其中,m为正整数;
分别以语料的每一个词汇为概念主题词,遍历所有句子和词汇,将与概念主题词在同一个句子中共同出现的词汇,纳入概念主题词对应的词汇集合,其中,词汇集合包括概念主题词和词汇元素;
对每个词汇集合进行词汇元素筛选,构建概念库;
采用层次聚类方法对概念库中包含的概念进行领域划分;
获取用户文本数据,根据用户文本数据中包含的词汇与概念库的匹配情况,得到用户文本数据中包含的概念;
根据用户文本数据中包含的概念和划分的概念领域,构建用户知识概念网络;包括:将用户文本数据中包含的所有概念两两链接构建用户知识概念网络;
判断两两链接的两个概念所属的领域是否相同;
如果两个概念属于不同的领域,则将该链接定义为跨领域链接,如果两个概念属于相同的领域,则将该链接定义为同领域链接。
2.如权利要求1所述的方法,其特征在于,对每个词汇集合进行词汇元素筛选,构建概念库,包括:
统计词汇集合中的每个词汇元素xj与概念主题词xi共同出现的文本数量z,其中,z≤m;
判断文本数量z是否大于或等于第一阈值,如果是,则将词汇元素作为词汇集合的有效词汇,保留在词汇集合中,否则,将词汇元素从词汇集合中去除;
将保留有效词汇的所有词汇集合作为概念库。
3.如权利要求1所述的方法,其特征在于,根据用户文本数据中包含的词汇与概念库的匹配情况,得到用户文本数据中包含的概念,包括:
对获取的用户文本数据以篇章为单位进行预处理,得到每篇文本的所有词汇;
将每篇文本包含的词汇与概念库进行匹配,如果文本中出现了概念库中一个概念的预设比例以上的有效词汇,则判定该篇文本包含这个概念,得到每篇文本包含的概念;
将每篇文本包含的概念的总和作为用户文本数据中包含的概念。
4.一种用户知识概念网络的构建装置,其特征在于,包括:
预处理模块,用于对包含m篇独立文本的文本集合中包含的每篇文本进行预处理,获得m篇独立文本构成的语料的所有句子和词汇,其中,m为正整数;
词汇集合构建模块,用于分别以语料的每一个词汇为概念主题词,遍历所有句子和词汇,将与概念主题词在同一个句子中共同出现的词汇,纳入概念主题词对应的词汇集合,其中,词汇集合包括概念主题词和词汇元素;
概念库构建模块,用于对每个词汇集合进行词汇元素筛选,构建概念库;
领域划分模块,用于采用层次聚类方法对概念库中包含的概念进行领域划分;
匹配模块,用于获取用户文本数据,根据用户文本数据中包含的词汇与概念库的匹配情况,得到用户文本数据中包含的概念;
概念网络构建模块,用于根据用户文本数据中包含的概念和划分的概念领域,构建用户知识概念网络,包括:将用户文本数据中包含的所有概念两两链接构建用户知识概念网络;
判断模块,用于判断两两链接的两个概念所属的领域是否相同;如果两个概念属于不同的领域,则将该链接定义为跨领域链接,如果两个概念属于相同的领域,则将该链接定义为同领域链接。
5.一种基于权利要求1至3任一项权利要求所述的用户知识概念网络构建方法的用户知识的评价方法,其特征在于,评价方法包括:
对构建的用户知识概念网络,从网络的聚类系数、平均路径长度和结构熵三个维度进行评价。
6.如权利要求5所述的方法,其特征在于,对构建的用户知识概念网络,从网络的聚类系数、平均路径长度和结构熵三个维度进行评价,包括:
根据网络的聚类系数,评价用户的思维活跃度,其中聚类系数的计算方法为:
Figure FDA0003707299680000021
其中,C表示用户知识网络的聚类系数,Ci表示用户知识网络中每个节点的聚类系数,
Figure FDA0003707299680000022
Ei表示据节点vi的邻居节点之间实际存在的边数,
Figure FDA0003707299680000023
表示vi的ki个邻居节点最多可以产生的边数,N表示用户知识网络包含的总节点数,一个节点表示一个概念;
根据网络的平均路径长度,评价用户的思维的转换难度,平均路径长度的计算方式为:
Figure FDA0003707299680000024
其中,L表示用户知识网络的平均路径长度,Lk表示每个连通图的平均路径长度,其中,连通图由Nc个联通节点构成,共有k个连通图,且不同连通图之间没有边连接,用户知识网络包含的总节点数N中,包括Ns个孤立节点,有Nc个联通节点,孤立节点表示与概念库中其他概念没有链接的概念,联通节点表示与概念库中其他概念具有链接的概念,Lk的计算公式为:
Figure FDA0003707299680000031
其中,dij表示网络中的两个节点vi和vj之间的距离,即为连接这两个点的最短路径上的边数
根据网络的结构熵,评价用户的思维联想能力,结构熵的计算方式为:
Figure FDA0003707299680000032
其中,E表示结构熵,Nk表示跨领域网络的节点数量,其中,跨领域网络为跨领域的概念以及链接组成的子网络,Ii表示节点vi对于跨领域网络的重要性,
Figure FDA0003707299680000033
ki表示节点vi的度。
7.如权利要求6所述的方法,其特征在于,所述方法还包括:
对网络的聚类系数、平均路径长度和结构熵进行归一化处理,分别得到处理后的聚类系数、平均路径系数以及结构熵系数;
将评价用户的聚类系数、平均路径系数以及结构熵系数相乘,得到的用户的知识创新能力综合评价结果。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被执行时实现如权利要求1至3中任一项权利要求所述的方法。
CN201911198546.1A 2019-11-29 2019-11-29 一种用户知识概念网络的构建方法及装置、用户知识的评价方法 Active CN112883187B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911198546.1A CN112883187B (zh) 2019-11-29 2019-11-29 一种用户知识概念网络的构建方法及装置、用户知识的评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911198546.1A CN112883187B (zh) 2019-11-29 2019-11-29 一种用户知识概念网络的构建方法及装置、用户知识的评价方法

Publications (2)

Publication Number Publication Date
CN112883187A CN112883187A (zh) 2021-06-01
CN112883187B true CN112883187B (zh) 2022-08-05

Family

ID=76038416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911198546.1A Active CN112883187B (zh) 2019-11-29 2019-11-29 一种用户知识概念网络的构建方法及装置、用户知识的评价方法

Country Status (1)

Country Link
CN (1) CN112883187B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357121B (zh) * 2022-03-10 2022-07-15 四川大学 一种基于数据驱动的创新方案设计方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463658A (zh) * 2017-07-31 2017-12-12 广州市香港科大霍英东研究院 文本分类方法及装置
CN110502640A (zh) * 2019-07-30 2019-11-26 江南大学 一种基于建构的概念词义发展脉络的提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016119874A1 (en) * 2015-01-30 2016-08-04 Longsand Limited Selecting an entity from a knowledge graph when a level of connectivity between its neighbors is above a certain level

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463658A (zh) * 2017-07-31 2017-12-12 广州市香港科大霍英东研究院 文本分类方法及装置
CN110502640A (zh) * 2019-07-30 2019-11-26 江南大学 一种基于建构的概念词义发展脉络的提取方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Evolutionary features of academic articles co-keyword network and keywords co-occurrence network: Based on two-mode affiliation network;Li H;《Physica A: Statistical Mechanics and its Applications》;20160515;第450卷;全文 *
一种新的中文微博社区博主影响力的评估方法;杨长春等;《计算机工程与应用》;20120901(第25期);全文 *
基于多Agent系统的科研合作网络知识扩散建模与仿真;关鹏等;《情报学报》;20190524(第05期);全文 *
自然科学家的创作多峰现象及创新能力;方锦清等;《复杂系统与复杂性科学》;20140315(第01期);全文 *
集群创新网络中结构对自主创新能力的作用机理分析;张永安等;《现代情报》;20100625(第06期);全文 *

Also Published As

Publication number Publication date
CN112883187A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
Pelevina et al. Making sense of word embeddings
KR101536520B1 (ko) 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
CN105893350B (zh) 一种电子商务中文本评论质量的评价方法与系统
CN112417127B (zh) 对话模型的训练、对话生成方法、装置、设备及介质
CN103425635A (zh) 一种答案推荐方法和装置
CN108319587B (zh) 一种多权重的舆情价值计算方法及系统、计算机
CN108228853A (zh) 一种微博谣言识别方法及系统
KR101988396B1 (ko) 자연어 질의로부터 지식 베이스에 대한 쿼리 생성 및 리소스 랭킹을 위한 시스템 및 이를 포함하는 질의 응답 시스템
Grandjean et al. Translating networks: Assessing correspondence between network visualisation and analytics
CN112883187B (zh) 一种用户知识概念网络的构建方法及装置、用户知识的评价方法
US10826781B2 (en) Systems and methods for extracting structure from large, dense, and noisy networks
US20130124397A1 (en) Collaborative first order logic system with dynamic ontology
CN104572633A (zh) 一种确定多义词词义的方法
CN117852550A (zh) 一种电子化考试组卷方法、介质及系统
CN111177526B (zh) 网络意见领袖识别方法及装置
Li et al. The impact of network structure on knowledge adoption: A network text analysis on knowledge-sharing platforms
CN113064991B (zh) 一种基于人机协作的微博事件真假检测方法
CN115600966A (zh) 团队讨论语料分析方法及装置
CN109961801A (zh) 智能服务评价方法、计算机可读存储介质和终端设备
Chiarello et al. Design and implementation of a text mining-based tool to support scoping reviews
CN107870898B (zh) 一种面向工程应用的领域语义网建模方法
Rishnyak et al. Statistical Analysis of the Popularity of Programming Language Libraries Based on StackOverflow Queries.
CN111046191A (zh) 一种电力领域语义增强方法和装置
İş et al. Twitter users’ emotion, emoticons and scaling metrics based categoric interaction analysis
CN109299468A (zh) 基于条件熵和卷积神经网络的短文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant