CN105893362A - 获取知识点语义向量的方法、确定相关知识点的方法及系统 - Google Patents

获取知识点语义向量的方法、确定相关知识点的方法及系统 Download PDF

Info

Publication number
CN105893362A
CN105893362A CN201410497468.6A CN201410497468A CN105893362A CN 105893362 A CN105893362 A CN 105893362A CN 201410497468 A CN201410497468 A CN 201410497468A CN 105893362 A CN105893362 A CN 105893362A
Authority
CN
China
Prior art keywords
knowledge point
similarity
knowledge
semantic vector
correlated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410497468.6A
Other languages
English (en)
Inventor
叶茂
汤帜
徐剑波
杨亮
许茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University
Priority to CN201410497468.6A priority Critical patent/CN105893362A/zh
Publication of CN105893362A publication Critical patent/CN105893362A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种获取知识点语义向量并根据该语义向量确定相关知识点的方法即系统,该方法中,首先,获取各个知识点的语义向量,将知识点的语义信息进行量化,通过数字化的方式来体现其语义特征,然后根据各个知识点的语义向量,确定知识点之间的相似度,根据该相似度的大小便能轻易的区分哪些是相关的知识点,根据需要来选择相关知识点的数量。该方式中将知识点的语义信息通过量化的方式来表示,然后通过数学运算的方式,来确定哪些知识点更相关,该方式计算简单方便,且能根据语义间的相关程度,得出相关知识点,具有更好的准确性,适用于相关知识点搜索、学习推荐、信息过滤等应用场合。

Description

获取知识点语义向量的方法、确定相关知识点的方法及系统
技术领域
本发明涉及一种电数据加工处理领域,具体地说一种知识点的语义推荐方法及系统。
背景技术
数字出版资源已成为信息提供的主要方式之一。人们已从纸质阅读大量地转向电子阅读。数字出版资源包含电子图书、数字百科全书、数字期刊、数字报刊等。数字出版资源提供的信息通常比互联网更加权威和正确。因此,如何根据数字出版资源的特点提高人们学习或阅读体验变得尤为重要。
在技术增强学习(Technology Enhanced Learning)中,开发推荐系统越来越得到更多的重视。但是,大部分的推荐系统使用用户的偏好或用户的历史访问数据进行计算,如中国专利文献CN101661483A中公开了一种推荐系统及方法,包括:保存从源历史数据集中选择的部分源历史数据组成的样本历史数据集;建立样本历史数据集中的样本历史数据与源历史数据集中的源历史数据之间的链接,每一个样本历史数据与每一个源历史数据之间的链接具有各自的第一权值;基于用户当前输入的查询信息,从样本历史数据集中选择至少一个样本历史数据组成第一推荐结果,第一推荐结果中的每个样本历史数据对于用户当前输入的查询信息具有各自的第二权值;根据第一权值和第二权值从源历史数据中选择至少一个源历史数据组成第二推荐结果。该方案基于用户的历史访问数据进行推荐,当数字资源刚刚上线,没有阅读历史,不存在历史访问数据时,则无法完成上述推荐。
现有的数字资源中,存在一些汇集了多种知识信息的数据知识资源,如百科全书,百科全书是一种数字出版资源,通常领域百科全书包含了该领域 内的重要知识点。此外,像百度百科、维基百科等,作为知识点收集库,也汇集了一些领域中的知识点。如何运用这些现有的数字资源来解决更多问题也成为研究的热点。
Distributed words representations(分布式词语表示)在Rumelhar,D.E.,Hinton,G.E.,Williams,R.J.:Learning Represenations by Back-propagating Errors.Nature 323(6088):pp533-536(1986)中首次提出,该思想将词语表示成连续向量(continuous vectors),且在向量空间中,相似词语的距离更近。Feedforward neural network(前馈神经网络)是用于学习词向量和语言模型的方法(见Bengio,Y.,Ducharme,R.,Vincent,P.:A Neural Probabilistic Language Model.Journal of Machine Learning Research 3,pp1137-1155(2003))。近来,Mikolov提出了使用skip-gram或CBOW模型,通过在大量文本上训练简单的神经网络在短时间内得到词语向量。
本发明将利用该方法为知识点生成知识点向量,然后利用知识点向量计算知识点的相似度,从而实现不通过历史访问数据为用户推荐知识点的目的。
发明内容
为此,本发明所要解决的技术问题在于现有技术中信息推荐具有局限性,且现有的数字资源及语义向量的处理方法没有充分利用,从而提出一种获取语义向量的方法及其在信息推荐中应用的确定相关知识点的方法及系统。
为解决上述技术问题,本发明的提供一种获取知识点语义向量的方法以及利用该语义向量确定相关知识点的方法。
本发明提供一种获取知识点语义向量的方法,包括:
获取所有或部分知识点,作为知识点集合;
确定知识点集合中每个知识点在参考文本中出现的次数;
根据每个知识点和该知识点在参考文本中出现的次数,计算带权路径长度最小的二叉树;
根据每个知识点在参考文本中的位置和所述带权路径长度最小的二叉树,确定每个知识点的语义向量。
此外,本发明还提供一种确定相关知识点的方法,包括:
获取所有或部分知识点,作为知识点集合;
采用权利要求1-5所述的获取知识点语义向量的方法确定知识点集合中每个知识点的语义向量:
对于每个知识点,根据其语义向量确定该知识点与其他知识点的相似度;
根据所述相似度确定每个知识点的相关知识点。
此外,本发明还提供一种获取知识点语义向量的系统,包括:
获取单元:获取所有或部分知识点,作为知识点集合;
统计单元:确定知识点集合中每个知识点在参考文本中出现的次数;
建模单元:根据每个知识点和该知识点在参考文本中出现的次数,计算带权路径长度最小的二叉树;
训练单元:根据每个知识点在参考文本中的位置和所述带权路径长度最小的二叉树,确定每个知识点的语义向量。
此外,本发明还提供一种确定相关知识点的系统,包括:
提取单元:获取所有或部分知识点,作为知识点集合;
语义向量获取单元:采用权利要求1-5所述的获取知识点语义向量的系统确定知识点集合中每个知识点的语义向量:
相似度计算单元:对于每个知识点,根据其语义向量确定该知识点与其 他知识点的相似度;
相关知识点确定单元:根据所述相似度确定每个知识点的相关知识点。
本发明的上述技术方案相比现有技术具有以下优点,
(1)本发明提供一种获取知识点语义向量的方法,首先选择全部或部分知识点作为知识点集合,然后确定知识点集合中每个知识点在参考文本中出现的次数,根据每个知识点和该知识点在参考文本中出现的次数,计算带权路径长度最小的二叉树,最后根据每个知识点在参考文本中的位置和所述带权路径长度最小的二叉树,确定每个知识点的语义向量。该方案中使用参考文本来获取知识点的次数,并通过带权路径长度最小的二叉树使用建模的方式来计算语义向量,将知识点的语义信息进行量化,通过数字化的方式来体现其语义特征,这样,在后续对知识点进行分析时,可以更加方便,为相关知识点搜索、推荐、信息过滤等应用提供基础。
(2)本发明还提供一种确定相关知识点的方法,根据各个知识点的语义向量,确定知识点之间的相似度,然后根据该相似度的大小便能轻易的区分哪些是相关的知识点,根据需要选择相关知识点的个数。该方式中将知识点的语义信息通过量化的方式来表示,然后通过数学运算的方式,来确定哪些知识点更相关,该方式计算简单方便,且能根据语义间的相关程度,得出的相关知识点具有更好的准确性,适用于推荐、检索等方面。
(3)本发明提供一种获取知识点语义向量的系统,包括获取单元、统计单元、建模单元以及训练单元,该方案中使用参考文本来获取知识点的次数,并通过带权路径长度最小的二叉树使用建模的方式来计算语义向量,将知识点的语义信息进行量化,通过数字化的方式来体现其语义特征,这样,在后续对知识点进行分析时,可以更加方便,为相关知识点搜索、推荐、信息过滤等应用提供基础。
(4)本发明还提供一种确定相关知识点的系统,包括提取单元、语义向量获取单元、相似度计算单元以及相关知识点确定单元,知识点的语义信息通过量化的方式来表示,然后通过数学运算的方式,来确定哪些知识点更 相关,该方式计算简单方便,且能根据语义间的相关程度,得出的相关知识点具有更好的准确性,适用于推荐、检索等方面。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是本发明实施例1中获取知识点语义向量的方法的流程图;
图2是本发明实施例2中确定相关知识点的方法的流程图;
图3是本发明实施例中CBOW模型的示意图;
图4是本发明实施例3中skip-gram模型的示意图;
图5是本发明实施例中获取知识点语义向量的系统结构框图;
图6是本发明实施例中确定相关知识点的系统的结构框图。
具体实施方式
实施例 1
知识点的语义向量是在向量空间中描述知识点的一种方式,通过获取知识点的语义向量,可以使得知识点具有较强的可计算性,在文本检索、自动文摘、关键词自动提取、文本分类等领域具有潜在的应用价值。
本实施例中提供一种获取知识点语义向量的方法,包括如下步骤:
S1、获取所有或部分知识点,作为知识点集合。此处可以通过百科全书或领域百科辞典来获取知识点。如选择领域百科辞典,从其中提取收录的全部词条的名称作为知识点集合。
S2、确定知识点集合中每个知识点在参考文本中出现的次数。
本步骤中,选择与上述知识点的领域相同的电子书,如从相同领域的数字出版资源中选择一定数量的电子书,作为参考文本。然后计算上述知识点集合中每个知识点在该参考文本中的出现次数,可以通过文字匹配的方式来实现。
S3、根据每个知识点和该知识点在参考文本中出现的次数,计算带权路径长度最小的二叉树。
通过步骤S2可以得到所有的知识点和其出现次数,将该统计的数据以(知识点,次数)的方式存储为统计文件。然后根据该统计文件,来构建带权路径长度最小的二叉树。
以知识点为叶子节点,为每个叶子节点给定一个权值,该权值为知识点在文本中的出现次数,构造一棵二叉树,父节点的权值为两个子节点的权值之和,带权路径长度规定为所有叶子节点的带权路径长度之和,若带权路径长度达到最小,称这样的二叉树为最优二叉树,也称为哈弗曼树。此处的构造方法采用现有技术中已有的方式构建,通过已有的算法获得带权路径长度最小的二叉树。
S4、根据每个知识点在参考文本中的位置和所述带权路径长度最小的二叉树,确定每个知识点的语义向量。
首先创建数学模型,此处选择CBOW模型,以参考文本作为训练样本,步骤S3中构建的带权路径长度最小的二叉树为输出,通过该模型进行训练,训练完成后,根据最优二叉树的叶子节点向量,得到每个知识点的语义向量。此时,具体方式为提取最优二叉树中叶子节点所在位置对应的训练后的叶子节点向量,该向量即为此知识点的语义向量。
CBOW模型是通过一个词语所在的上下文预测该词语的模型,过程如图3所示,该模型是现有技术中一种神经网络模型,用于训练词语向量,主要原理是通过一个词语所在的上下文预测该词语从而得到合适的词语向量表示,使用的训练方法为随机梯度下降方法,输入为文本数据,根据训练得到的结果为可以获取词语向量。
作为其他可以替换的实现方式,在步骤S2中统计参考文本中知识点出现的个数时,为了减少词语的误差,还可以先对对参考文本进行分词,得到分 词后的文件;然后再统计每个知识点在该分词后的文件中出现的次数。先分词的方式可以减少统计误差,如在“秦始皇上殿接收文武百官的朝贺”这一例句中,“秦始皇”是一个知识点,“皇上”也是一个知识点,如果不进行分词,该句中的“皇上”也被认为是“皇上”的这个知识点出现一次,而分词后“秦始皇”为一个分词结果,“皇上”这个错误的词语组合被排除了,这样就提高了参考文本中对知识点次数统计的正确性。
在其他的实施方式中,通过模型训练的方式,根据每个知识点在参考文本中的位置和所述带权路径长度最小的二叉树,确定每个知识点的语义向量,该过程中,还可以采用skip-gram模型,首先创建skip-gram模型,然后以分词后的文件为训练样本,所述带权路径长度最小的二叉树为输出层,进行训练;训练完成后,根据带权路径长度最小的二叉树中叶子节点向量获得每个知识点的语义向量。
该方案中使用参考文本来获取知识点的次数,并通过带权路径长度最小的二叉树使用建模的方式来计算语义向量,将知识点的语义信息进行量化,通过数字化的方式来体现其语义特征,这样,在后续对知识点进行分析时,可以更加方便,为知识点搜索、推荐、信息过滤等应用提供基础
实施例 2
本实施例中提供一种确定相关知识点的方法,采用实施例1中计算出的知识点的语义向量,来获取相关的知识点,获取知识点后可以用于推荐、关键词扩展、词语过滤、翻译等需求。
本实施例中的确定相关知识点的方法,包括:
首先,获取所有或部分知识点,作为知识点集合。获取哪些知识点可以作为知识点集合根据需要来选择。
然后,采用实施例1所述的获取知识点语义向量的方法确定知识点集合中每个知识点的语义向量。此处的获取知识点语义向量的方法使用实施例1中的 方法,在此不再赘述,通过该方法可以得到每个知识点的语义向量,该语义向量为一个列向量。
接着,对于每个知识点,根据其语义向量确定该知识点与其他知识点的相似度。
对于每个知识点,根据其语义向量确定该知识点与其他知识点的相似度的过程,包括:
所述相似度的计算方法为:
f ( X , Y ) = X · Y | | X | | Y | | = Σ l = 1 m X i × Y i Σ i = 1 m ( X i ) 2 × Σ i = 1 m ( Y i ) 2
其中,X、Y为需要比较相似度的两个m列的向量,也就是两个知识点的语义向量。
这样,通过上述方式,就可以计算出每个知识点与其他知识点的所有相似度。
最后,根据所述相似度确定每个知识点的相关知识点。将该知识点与其他知识点的相似度降序排列,选择排序在前的预设数量的其他知识点如10个或20个知识点作为该知识点的相关知识点。确定相关知识点的数量根据需要来选择。
作为其他可以替换的实施方式,上述相似度的计算方法还可以通过下面的公式来计算,即:
f ( X , Y ) = 2 Σ l = 1 m X i × Y i Σ i = 1 m ( X i ) 2 + Σ i = 1 m ( Y i ) 2
其中,X、Y为需要比较相似度的两个m列的向量,也就是两个知识点对应 的语义向量。
作为其他可以替换的实施方式,根据相似度确定每个知识点的相关知识点时,还可以采用如下方式:预先设置一个相似度阈值如60%70%或80%或90%,选取相似度大于该阈值的其他知识点作为该知识点的相关知识点。这样就可以得到相似度大于一定程度的相关知识点。
该方式中将知识点的语义信息通过量化的方式来表示,然后通过数学运算的方式,来确定哪些知识点更相关,该方式计算简单方便,且能根据语义间的相关程度,得出的相关知识点具有更好的准确性,适用于推荐、检索等方面。
实施例 3
本实施例中提供一种获取知识点语义向量,并使用该语义向量计算出相关知识点进行知识点推荐的例子。在本实施例中,使用领域百科全书等数字出版资源,通过skip-gram模型计算知识点向量,利用知识点向量实现基于语义的领域知识电子学习推荐。具体的步骤如下。
第一步,从领域百科全书如历史百科权书中抽取领域知识点的名称集合O={o1,o2,…,on},知识点名称数目为n。将领域知识点的名称加入分词器词典,此处的分词器可以选用IK分词器,在其他实施方式中可以选择其他的分词器如Ansj分词器等。将领域知识点的名称加入分词器词典,有利于后续更好的进行分词,更高的获得该领域知识点内的词语。
第二步,从历史类的领域数字出版资源中选择一定数量的电子书,如选择上下五千年电子书以及介绍各个朝代的电子书,并从选择的电子书中抽取文本。
第三步,使用上述IK分词器对抽取的文本进行分词,得到分词后的文件F。
第四步,统计文件F中各知识点名称出现的次数,形成统计文件,统计 文件中的条目按知识点名称的出现次数倒序排列。统计文件的格式如下,其中oi,oj,ok为知识点的名称,ti,tj,tk为知识点名称在文件F中出现的次数。
oi,ti
oj,tj
ok,tk
根据该统计文件,以知识点为叶子节点,形成一棵哈夫曼树。构建该哈夫曼树的过程如下:
1.根据给定的n个知识点生成n棵二叉树的集合R={r1,r2,..,rn},其中每棵二叉树ri中只有一个带权wi的根节点,权重wi等于知识点的出现次数ti,左右子树均为空。
2.在R中选择两棵根节点权值最小的树作为左右子树构造一棵新的二叉树,且置新的二叉树的根节点的权值为其左右子树上根节点的权值之和。
3.在R中删除这两棵树,并将新的二叉树加入R中。
4.重复第2步和第3步,直到R中只含有一棵树为止。
得到的这棵树即为哈夫曼树。
第五步,使用skip-gram模型来进行训练,得到哈夫曼树中各个知识点对应的叶子节点向量,从而获得各个知识点的语义向量。
skip-gram模型是现有技术中一种神经网络模型,用于训练词语向量,主要原理是通过当前词语预测其前后一定范围内的词语从而得到合适的词语向量表示,使用的训练方法为随机梯度下降方法,输入为文本数据,根据训练得到的结果可以获取词语向量。
此外,在一些文献中,也给出了skip-gram模型的具体介绍及应用,如下:
Mikolov,T.,Chen,K.,Corrado,G.,et al.:Efficient Estimation of Word Representations in Vector Space.In Proc.ICLR Workshop(2013)
Mikolov,T.,Sutskever,I.,Chen,K.,et al.Distributed Representations of Words and Phrases and Their Compositionality.In Proc.NIPS(2013)
在本实施例中,首先创建skip-gram模型,skip-gram模型如图3所示,该模型包括输入层input,中间层projection和输出层output。其中输出层采用第四步中的哈夫曼树。从根节点到叶子节点的每个知识点w的路径长度表示为L(w),n(w,j)表示该路径下的第jth节点,ch(n)表示非叶子节点n的孩子节点,s(x)是符号函数,当x为真时取1,否则取-1。对于训练集w1,w2,…,wT(w1,w2,…,wT就是训练集中的词语),skip-gram模型将最大化概率值其中j≠0,k是以wt为中心的窗口大小,T是训练集中的词语数目。通常,k值越大,训练得到的结果越准确。但是,k值越大,需要的训练时间也越长。p(w|wI)定义为 p ( w | w I ) = Σ j = 1 L ( w ) - 1 σ ( s ( n ( w , j + 1 ) = ch ( n ( w , j ) ) ) · v n ( w , j ) ′ v w i T ) , n(w,j)表示该路径下的第jth节点,s(x)是符号函数,其中σ(x)=1/(1+exp(-x)),vw是叶子节点w的向量表示,v′n是非叶子节点n的向量表示。训练时,训练集中词wi被丢弃的概率为其中t是指定的阈值,g(wi)是词wi出现的频率,使用该概率丢弃词的目的是加快训练速度并提高准确性。
第六步,以分词后的文件F做为训练样本,通过随机梯度下降反向传播算法训练上述skip-gram模型。模型训练完成后,得到每个知识点在哈夫曼树中对应的叶子节点向量,作为该知识点的语义向量。
第七步,当用户学习一个知识点oi时,计算知识点与其它所有知识点的语义相似度,根据语义相似度降序排序知识点,取得相似度最高的m个知识点Ri,作为相关知识点推荐给用户。相似度计算方法可以根据实施例2中提供的任一方法。
此外,在其他的实施例中,也可以设置为,当用户学习一个知识点oi时,检查缓存中是否存在知识点oi及其对应的相关知识点Ri,如果在缓存中存在,则从缓存中取得相关知识点Ri,推荐给用户;如果缓存中不存在,则计算知识点与其它所有知识点的语义相似度,根据语义相似度降序排序,取得相似度最高的m个知识点Ri,并将知识点oi及Ri存入缓存。将Ri推荐给用户。该方式对于已经计算过的知识点,无需重复计算,直接从缓存中提取相关知识点,可以减少运算量。
作为另外一种可以替换的实施方式,还可以对于每一个知识点oi,计算该知识点与其它所有知识点的语义相似度,根据语义相似度降序排序,取得相似度最高的m个知识点Ri作为相关知识点。把所有oi及对应的Ri存入缓存。当用户学习一个知识点oi时,从缓存中取得相关知识点Ri,推荐给用户。该方案预先计算出所有知识点的相关知识点,应用时直接提取即可,使用时更加便捷、及时。
实施例 4
本实施例中提供一种获取知识点语义向量的系统,如图5所示,包括
获取单元:获取所有或部分知识点,作为知识点集合;
统计单元:确定知识点集合中每个知识点在参考文本中出现的次数;
建模单元:根据每个知识点和该知识点在参考文本中出现的次数,计算带权路径长度最小的二叉树;
训练单元:根据每个知识点在参考文本中的位置和所述带权路径长度最小的二叉树,确定每个知识点的语义向量。
其中,所述统计单元包括:
分词单元:对参考文本进行分词,得到分词后的文件;
次数统计单元:统计每个知识点在该分词后的文件中出现的次数。
本实施例中,所述建模单元包括:
最优二叉树建立单元:以知识点为叶子节点,构建带权路径长度最小的二叉树。
本实施例中,所述训练单元包括
skip-gram模型单元:创建skip-gram模型;
训练处理单元:以分词后的文件为训练样本,所述带权路径长度最小的二叉树为输出层,进行训练;
语义向量计算单元:训练完成后,根据带权路径长度最小的二叉树中的节点向量获得每个知识点的语义向量。
在其他可以替换的实施方式中,所述训练单元还可以包括
CBOW模型单元:创建CBOW模型;
训练处理单元:以分词后的文件和所述带权路径长度最小的二叉树为输入和输出,进行训练;
语义向量计算单元:训练完成后,根据带权路径长度最小的二叉树中的节点向量获得每个知识点的语义向量。
本实施例中的获取知识点语义向量的系统,包括获取单元、统计单元、建模单元以及训练单元,该方案中使用参考文本来获取知识点的次数,并通过带权路径长度最小的二叉树使用建模的方式来计算语义向量,将知识点的语义信息进行量化,通过数字化的方式来体现其语义特征,这样,在后续对知识点进行分析时,可以更加方便,为相关知识点搜索、推荐、信息过滤等应用提供基础。
实施例 5
本实施例中提供一种确定相关知识点的系统,如图6所示,包括:
提取单元:获取所有或部分知识点,作为知识点集合;
语义向量获取单元:采用权利要求1-5所述的获取知识点语义向量的系统确定知识点集合中每个知识点的语义向量:
相似度计算单元:对于每个知识点,根据其语义向量确定该知识点与其他知识点的相似度;
相关知识点确定单元:根据所述相似度确定每个知识点的相关知识点。
本实施例中,相似度计算单元中所述相似度的计算公式为:
f ( X , Y ) = X · Y | | X | | Y | | = Σ i = 1 m X i × Y i Σ i = 1 m ( X i ) 2 × Σ i = 1 m ( Y i ) 2
其中,X、Y为需要比较相似度的两个m列的向量。
在其他可以替换的实施例中,相似度计算单元中的相似度的计算公式为:
f ( X , Y ) = 2 Σ i = 1 m X i × Y i Σ i = 1 m ( X i ) 2 + Σ i = 1 m ( Y i ) 2
其中,X、Y为需要比较相似度的两个m列的向量。
本实施例中,相关知识点确定单元包括:
排序单元:将该知识点与其他知识点的相似度降序排列,选择排序在前的预设数量的其他知识点作为该知识点的相关知识点。
在其他可以替换的实施例中,所述相关知识点确定单元包括:
阈值单元:预先设置一个相似度阈值,选取相似度大于该阈值的其他知识点作为该知识点的相关知识点。
本实施例中提供一种确定相关知识点的系统,包括提取单元、语义向量获取单元、相似度计算单元以及相关知识点确定单元,知识点的语义信息通过量化的方式来表示,然后通过数学运算的方式,来确定哪些知识点更相关,该方式计算简单方便,且能根据语义间的相关程度,得出的相关知识点具有更好的准确性,适用于推荐、检索等方面。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理 设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (20)

1.一种获取知识点语义向量的方法,其特征在于,包括
获取所有或部分知识点,作为知识点集合;
确定知识点集合中每个知识点在参考文本中出现的次数;
根据每个知识点和该知识点在参考文本中出现的次数,计算带权路径长度最小的二叉树;
根据每个知识点在参考文本中的位置和所述带权路径长度最小的二叉树,确定每个知识点的语义向量。
2.根据权利要求1所述的获取知识点语义向量的方法,其特征在于,所述确定知识点集合中每个知识点在参考文本中出现的次数的处理,包括:
对参考文本进行分词,得到分词后的文件;
统计每个知识点在该分词后的文件中出现的次数。
3.根据权利要求1或2所述的获取知识点语义向量的方法,其特征在于,所述根据每个知识点和该知识点在参考文本中出现的次数,计算带权路径长度最小的二叉树的处理,包括:
以知识点为叶子节点,构建带权路径长度最小的二叉树。
4.根据权利要求1或2所述的获取知识点语义向量的方法,其特征在于,根据每个知识点在参考文本中的位置和所述带权路径长度最小的二叉树,确定每个知识点的语义向量,包括
创建skip-gram模型;
以分词后的文件为训练样本,所述带权路径长度最小的二叉树为输出层,进行训练;
训练完成后,根据带权路径长度最小的二叉树中的节点向量获得每个知识点的语义向量。
5.根据权利要求1或2所述的获取知识点语义向量的方法,其特征在于,所述根据每个知识点在参考文本中的位置和所述带权路径长度最小的二叉树,确定每个知识点的语义向量的处理,包括
创建CBOW模型;
以分词后的文件和所述带权路径长度最小的二叉树为输入和输出,进行训练;
训练完成后,根据带权路径长度最小的二叉树中的节点向量获得每个知识点的语义向量。
6.一种确定相关知识点的方法,其特征在于,包括:
获取所有或部分知识点,作为知识点集合;
采用权利要求1-5所述的获取知识点语义向量的方法确定知识点集合中每个知识点的语义向量:
对于每个知识点,根据其语义向量确定该知识点与其他知识点的相似度;
根据所述相似度确定每个知识点的相关知识点。
7.根据权利要求6所述的确定相关知识点的方法,其特征在于,包括
对于每个知识点,根据其语义向量确定该知识点与其他知识点的相似度的过程,包括:
所述相似度的计算方法为:
f ( X , Y ) = X · Y | | X | | | | Y | | = Σ i = 1 m X i × Y i Σ i = 1 m ( X i ) 2 × Σ i = 1 m ( Y i ) 2
其中,X、Y为需要比较相似度的两个m列的向量。
8.根据权利要求6所述的确定相关知识点的方法,其特征在于,对于每个知识点,根据其语义向量确定该知识点与其他知识点的相似度的过程,包括:
所述相似度的计算方法为:
f ( X , Y ) = 2 Σ i = 1 m X i × Y i Σ i = 1 m ( X i ) 2 + Σ i = 1 m Y i 2
其中,X、Y为需要比较相似度的两个m列的向量。
9.根据权利要求6或7或8所述的确定相关知识点的方法,其特征在于,根据所述相似度确定每个知识点的相关知识点的处理,包括:
将该知识点与其他知识点的相似度降序排列,选择排序在前的预设数量的其他知识点作为该知识点的相关知识点。
10.根据权利要求6或7或8所述的确定相关知识点的方法,其特征在于,根据所述相似度确定每个知识点的相关知识点的处理,包括:
预先设置一个相似度阈值,选取相似度大于该阈值的其他知识点作为该知识点的相关知识点。
11.一种获取知识点语义向量的系统,其特征在于,包括
获取单元:获取所有或部分知识点,作为知识点集合;
统计单元:确定知识点集合中每个知识点在参考文本中出现的次数;
建模单元:根据每个知识点和该知识点在参考文本中出现的次数,计算带权路径长度最小的二叉树;
训练单元:根据每个知识点在参考文本中的位置和所述带权路径长度最小的二叉树,确定每个知识点的语义向量。
12.根据权利要求11所述的获取知识点语义向量的系统,其特征在于,所述统计单元包括:
分词单元:对参考文本进行分词,得到分词后的文件;
次数统计单元:统计每个知识点在该分词后的文件中出现的次数。
13.根据权利要求11或12所述的获取知识点语义向量的系统,其特征在于,所述建模单元包括:
最优二叉树建立单元:以知识点为叶子节点,构建带权路径长度最小的二叉树。
14.根据权利要求11或12所述的获取知识点语义向量的系统,其特征在于,所述训练单元包括
skip-gram模型单元:创建skip-gram模型;
训练处理单元:以分词后的文件为训练样本,所述带权路径长度最小的二叉树为输出层,进行训练;
语义向量计算单元:训练完成后,根据带权路径长度最小的二叉树中的节点向量获得每个知识点的语义向量。
15.根据权利要求11或12所述的获取知识点语义向量的系统,其特征在于,所述训练单元包括
CBOW模型单元:创建CBOW模型;
训练处理单元:以分词后的文件和所述带权路径长度最小的二叉树为输入和输出,进行训练;
语义向量计算单元:训练完成后,根据带权路径长度最小的二叉树中的节点向量获得每个知识点的语义向量。
16.一种确定相关知识点的系统,其特征在于,包括:
提取单元:获取所有或部分知识点,作为知识点集合;
语义向量获取单元:采用权利要求1-5所述的获取知识点语义向量的系统确定知识点集合中每个知识点的语义向量:
相似度计算单元:对于每个知识点,根据其语义向量确定该知识点与其他知识点的相似度;
相关知识点确定单元:根据所述相似度确定每个知识点的相关知识点。
17.根据权利要求16所述的确定相关知识点的系统,其特征在于,包括:
相似度计算单元包括:
所述相似度的计算公式为:
f ( X , Y ) = X · Y | | X | | | | Y | | = Σ i = 1 m X i × Y i Σ i = 1 m ( X i ) 2 × Σ i = 1 m ( Y i ) 2
其中,X、Y为需要比较相似度的两个m列的向量。
18.根据权利要求16所述的确定相关知识点的系统,其特征在于,相似度计算单元包括:
所述相似度的计算公式为:
f ( X , Y ) = 2 Σ i = 1 m X i × Y i Σ i = 1 m ( X i ) 2 + Σ i = 1 m Y i 2
其中,X、Y为需要比较相似度的两个m列的向量。
19.根据权利要求16或17或18所述的确定相关知识点的系统,其特征在于,相关知识点确定单元包括:
排序单元:将该知识点与其他知识点的相似度降序排列,选择排序在前的预设数量的其他知识点作为该知识点的相关知识点。
20.根据权利要求16或17或18所述的确定相关知识点的系统,其特征在于,所述相关知识点确定单元包括:
阈值单元:预先设置一个相似度阈值,选取相似度大于该阈值的其他知识点作为该知识点的相关知识点。
CN201410497468.6A 2014-09-26 2014-09-26 获取知识点语义向量的方法、确定相关知识点的方法及系统 Pending CN105893362A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410497468.6A CN105893362A (zh) 2014-09-26 2014-09-26 获取知识点语义向量的方法、确定相关知识点的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410497468.6A CN105893362A (zh) 2014-09-26 2014-09-26 获取知识点语义向量的方法、确定相关知识点的方法及系统

Publications (1)

Publication Number Publication Date
CN105893362A true CN105893362A (zh) 2016-08-24

Family

ID=57000096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410497468.6A Pending CN105893362A (zh) 2014-09-26 2014-09-26 获取知识点语义向量的方法、确定相关知识点的方法及系统

Country Status (1)

Country Link
CN (1) CN105893362A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599054A (zh) * 2016-11-16 2017-04-26 福建天泉教育科技有限公司 一种题目分类及推送的方法及系统
CN106776724A (zh) * 2016-11-16 2017-05-31 福建天泉教育科技有限公司 一种题目分类方法及系统
CN109344293A (zh) * 2018-08-13 2019-02-15 华中师范大学 一种基于知识关联的主题图冲突检测方法及系统
CN109558586A (zh) * 2018-11-02 2019-04-02 中国科学院自动化研究所 一种资讯的言据自证评分方法、设备和存储介质
CN109582953A (zh) * 2018-11-02 2019-04-05 中国科学院自动化研究所 一种资讯的言据支撑评分方法、设备和存储介质
CN110705302A (zh) * 2019-10-11 2020-01-17 掌阅科技股份有限公司 命名实体的识别方法、电子设备及计算机存储介质
CN111444327A (zh) * 2020-04-09 2020-07-24 中国银行股份有限公司 热点知识确定方法、装置及系统
CN112445900A (zh) * 2019-08-29 2021-03-05 上海卓繁信息技术股份有限公司 快速检索方法及系统
CN113609277A (zh) * 2021-08-26 2021-11-05 中国银行股份有限公司 数据处理方法、装置、设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332503A1 (en) * 2009-06-30 2010-12-30 Brad Buckley System and Method for Using an Exemplar Document to Retrieve Relevant Documents from an Inverted Index of a Large Corpus
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332503A1 (en) * 2009-06-30 2010-12-30 Brad Buckley System and Method for Using an Exemplar Document to Retrieve Relevant Documents from an Inverted Index of a Large Corpus
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘云芳等: "信息检索中一种句子相似度的计算方法", 《应用科技》 *
朱明方 吴及: "《数据结构与算法》", 31 March 2010 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776724A (zh) * 2016-11-16 2017-05-31 福建天泉教育科技有限公司 一种题目分类方法及系统
CN106599054A (zh) * 2016-11-16 2017-04-26 福建天泉教育科技有限公司 一种题目分类及推送的方法及系统
CN109344293A (zh) * 2018-08-13 2019-02-15 华中师范大学 一种基于知识关联的主题图冲突检测方法及系统
CN109344293B (zh) * 2018-08-13 2021-05-18 华中师范大学 一种基于知识关联的主题图冲突检测方法及系统
CN109558586B (zh) * 2018-11-02 2023-04-18 中国科学院自动化研究所 一种资讯的言据自证评分方法、设备和存储介质
CN109558586A (zh) * 2018-11-02 2019-04-02 中国科学院自动化研究所 一种资讯的言据自证评分方法、设备和存储介质
CN109582953A (zh) * 2018-11-02 2019-04-05 中国科学院自动化研究所 一种资讯的言据支撑评分方法、设备和存储介质
CN109582953B (zh) * 2018-11-02 2023-04-07 中国科学院自动化研究所 一种资讯的言据支撑评分方法、设备和存储介质
CN112445900A (zh) * 2019-08-29 2021-03-05 上海卓繁信息技术股份有限公司 快速检索方法及系统
CN110705302A (zh) * 2019-10-11 2020-01-17 掌阅科技股份有限公司 命名实体的识别方法、电子设备及计算机存储介质
CN110705302B (zh) * 2019-10-11 2023-12-12 掌阅科技股份有限公司 命名实体的识别方法、电子设备及计算机存储介质
CN111444327A (zh) * 2020-04-09 2020-07-24 中国银行股份有限公司 热点知识确定方法、装置及系统
CN111444327B (zh) * 2020-04-09 2023-08-11 中国银行股份有限公司 热点知识确定方法、装置及系统
CN113609277A (zh) * 2021-08-26 2021-11-05 中国银行股份有限公司 数据处理方法、装置、设备及可读存储介质
CN113609277B (zh) * 2021-08-26 2024-02-20 中国银行股份有限公司 数据处理方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN105893362A (zh) 获取知识点语义向量的方法、确定相关知识点的方法及系统
CN107944559B (zh) 一种实体关系自动识别方法及系统
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN108197109A (zh) 一种基于自然语言处理的多语言分析方法和装置
CN106951438A (zh) 一种面向开放域的事件抽取系统及方法
CN111159223A (zh) 一种基于结构化嵌入的交互式代码搜索方法及装置
CN106777274A (zh) 一种中文旅游领域知识图谱构建方法及系统
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN105955962A (zh) 题目相似度的计算方法及装置
CN109325231A (zh) 一种多任务模型生成词向量的方法
CN103324700A (zh) 一种基于Web信息的本体概念属性学习方法
CN104361102A (zh) 一种基于群组匹配的专家推荐方法及系统
CN113128233B (zh) 一种心理疾病知识图谱的构建方法及系统
CN113722478B (zh) 多维度特征融合相似事件计算方法、系统及电子设备
CN104484380A (zh) 个性化搜索方法及装置
CN109063147A (zh) 基于文本相似度的在线课程论坛内容推荐方法及系统
CN107369098A (zh) 社交网络中数据的处理方法和装置
CN105608075A (zh) 一种相关知识点的获取方法及系统
Wu et al. Extracting topics based on Word2Vec and improved Jaccard similarity coefficient
CN113380360B (zh) 一种基于多模态病历图的相似病历检索方法及系统
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN104699797A (zh) 一种网页数据结构化解析方法和装置
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN108920446A (zh) 一种工程文本的处理方法
CN110377690A (zh) 一种基于远程关系抽取的信息获取方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160824