CN105893363A - 一种获取知识点的相关知识点的方法及系统 - Google Patents

一种获取知识点的相关知识点的方法及系统 Download PDF

Info

Publication number
CN105893363A
CN105893363A CN201410497469.0A CN201410497469A CN105893363A CN 105893363 A CN105893363 A CN 105893363A CN 201410497469 A CN201410497469 A CN 201410497469A CN 105893363 A CN105893363 A CN 105893363A
Authority
CN
China
Prior art keywords
knowledge point
candidate
similarity
correlated
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410497469.0A
Other languages
English (en)
Inventor
叶茂
汤帜
徐剑波
杨亮
任彩红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University
Priority to CN201410497469.0A priority Critical patent/CN105893363A/zh
Publication of CN105893363A publication Critical patent/CN105893363A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明中提供一种获取知识点的相关知识点的方法及系统,先通过领域内的数字资源来获得候选知识点,然后再获得候选知识点的语义向量,通过计算领域知识点与候选知识点的相似度,来获得与每个领域知识点相关的候选知识点,作为目标知识点。这样,就可以得到每个领域知识点相关的若干个目标知识点。在建设百科目录的词条时,可以查找每个领域知识点的相关知识点是否已经存在,如不存在,则需要增加。通过这种方式来完成领域百科全书的词条的检查和建设。大大降低了人工的工作量,节约了时间成本和人工成本,且避免了人工检查的主观性和标准不统一带来的不准确性,大大提高了效率和准确度。

Description

一种获取知识点的相关知识点的方法及系统
技术领域
本发明涉及一种电数字数据处理领域,具体地说是一种获取知识点的相关知识点的方法。
背景技术
数字出版资源已成为信息提供的主要方式之一。人们已从纸质阅读大量地转向电子阅读。数字出版资源包含电子图书、数字百科全书、数字期刊、数字报刊等。数字出版资源提供的信息通常比互联网更加权威和正确。因此,如何根据数字出版资源的特点提高人们学习或阅读体验变得尤为重要。
百科全书(Encyclopedia)是介绍人类的全部知识或某一类知识的工具书。往往按照辞典形式编排(以条目为基本单元),收集各知识领域的名词、熟语、地名、事件、人物、著作等。百科全书可以是综合性的,包含所有领域的相关内容(例如,《大不列颠百科全书》就是一部著名的综合性百科全书)。也可以是专业性的百科全书,如某一个领域的百科全书,像历史百科全书、军事百科全书等,这种某一个领域的百科全书称为领域百科全书。百科全书被视为是一个国家和一个时代科学文化发展的标志。
领域百科全书将海量的信息分类,为用户提供更有针对性的资源。领域百科全书也是一种重要的数字出版资源。领域百科全书通常以词条的方式组织领域信息。领域百科全书需要包含领域内的重要词条。然而,建设领域百科全书需要大量人力投入。由于领域词条数目较多,因此通过人工的方式寻找合适的领域词条不仅耗时,而且容易遗漏一些很相关的领域词条。如何确定相关的这些词条是否都已经收录是一项很重要的工作,但是实现起来需要花费大量的人力和时间。
Distributed words representations(分布式词语表示)在Rumelhar,D.E.,Hinton,G.E.,Williams,R.J.:Learning Represenations byBack-propagating Errors.Nature 323(6088):pp533-536(1986)中首次提出,该思想将词语表示成连续向量(continuous vectors),且在向量空间中,相似词语的距离更近。Feedforward neural network(前馈神经网络)是用于学习词向量和语言模型的方法(见Bengio,Y.,Ducharme,R.,Vincent,P.:A Neural Probabilistic Language Model.Journal of Machine LearningResearch 3,pp1137-1155(2003))。近来,Mikolov提出了使用skip-gram或CBOW模型,通过在大量文本上训练简单的神经网络在短时间内得到词语向量。虽然关于语义向量在理论上已经有一些研究,但是仍然缺少该技术的应用推广。
发明内容
为此,本发明所要解决的技术问题在于现有技术中获取相关词条需要人为筛选、工作量大、客观性差的问题,从而提出一种根据语义向量来确定相关知识点的方法。
为解决上述技术问题,本发明的提供一种获取知识点的相关知识点的方法和系统。
一种获取知识点的相关知识点的方法,包括
对文本进行分词,得到分词结果;
根据分词结果和常用词,确定候选知识点;
确定每个候选知识点的语义向量;
获取领域知识点;
对于每个领域知识点,计算该领域知识点与候选知识点的语义相似度;
根据计算出的语义相似度,确定与该领域知识点相关的目标知识点。
一种获取知识点的相关知识点的系统,包括:
分词单元:对文本进行分词,得到分词结果;
候选单元:根据分词结果和常用词,确定候选知识点;
语义向量计算单元:确定每个候选知识点的语义向量;
提取单元:获取领域知识点;
相似度计算单元:对于每个领域知识点,计算该领域知识点与候选知识点的语义相似度;
相关知识点计算单元:根据计算出的语义相似度,确定与该领域知识点相关的目标知识点。
本发明的上述技术方案相比现有技术具有以下优点,
(1)本发明提供一种获取知识点的相关知识点的方法,先通过领域内的数字资源来获得候选知识点,然后再获得候选知识点的语义向量,通过计算领域知识点与候选知识点的相似度,来获得与每个领域知识点相关的候选知识点,作为目标知识点。这样,就可以得到每个领域知识点相关的若干个目标知识点。在建设百科目录的词条时,可以查找每个领域知识点的相关知识点是否已经存在,如不存在,则需要增加。通过这种方式来完成领域百科全书的词条的检查和建设。大大降低了人工的工作量,节约了时间成本和人工成本,且避免了人工检查的主观性和标准不统一带来的不准确性,大大提高了效率和准确度。
(2)本发明所述的获取知识点的相关知识点的方法,获取知识点的相关知识点过程中,采用计算候选知识点语义向量的方法,将知识点的语义信息进行量化,通过数字化的方式来体现其语义特征,这样,在后续对知识点进行分析时,可以更加方便,为知识点搜索、推荐、信息过滤等应用提供基础。
(3)本发明还提供一种获取知识点的相关知识点的系统,包括分词单元、候选单元、语义向量计算单元、提取单元、相似度计算单元以及相关知识点计算单元,采用计算语义向量的方式,通过计算得到领域知识点与候选知识点的相似度,来获得与每个领域知识点相关的候选知识点,从而得到每个领域知识点相关的若干个目标知识点。在建设百科目录的词条时,可以查找每个领域知识点的相关知识点是否已经存在,如不存在,则需要增加。通过这种方式来完成领域百科全书的词条的检查和建设,大大降低了人工的工作量。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是实施例1中获取知识点的相关知识点的方法的流程图;
图2是实施例2中计算候选知识点的语义向量的流程图;
图3是实施例2中skip-gram模型的示意图;
图4是实施例2中CBOW模型的示意图;
图5是实施例4中获取知识点的相关知识点的系统的结构框图。
具体实施方式
实施例1:
本实施例中,提供一种获取知识点的相关知识点的方法,通过该方法获取领域内所有的知识点的相关的知识点,然后根据得到的这些相关知识点,针对建立的领域百科全书中的词条进行查漏补缺,来进一步完善,具有非常好的指导价值。
该获取知识点的相关知识点的方法,流程图如图1所示,具体过程如下:
首先,对文本进行分词,得到分词结果。此处的文本选择领域内的一些数字资源,为了使得其涵盖的知识点足够广泛,一般会多选择一些本领域内的电子数字资源。选定领域数字资源后,从中抽取文本,然后分词,通过分词后,得到大量的词语,这些词语既包括本领域中的一些知识点,也包括一些常用的词语,如你们、他们、吃饭等等。将分词后的文件,作为候选文件。
然后,根据分词结果和常用词,确定候选知识点。由于常用词是经常使用的一系列的词语,通过在上述分词结果中,把这部分词语去除,就获得了和领域相关的词语,将这些词语作为候选知识点。此处的常用词是现有技术中已经确定好的常用词。在其他的实施方式中,还可以通过如下方法来确定常用词:选择常用文本的数字资源,如生活报纸、生活杂志等数字资源,对其进行分词(采用停用词表去除停用词,例如采用哈工大停用词表),将在较多文本中出现的词语确定为常用词。在候选文件中去除常用词后,得到的就是本领域中的词语,作为候选知识点。
接着,计算每个候选知识点的语义向量。计算语义向量的方法可以采用现有技术中的方法,通过计算语义向量的方式,将每个知识点通过语义量化的方式来数字化表示。
然后,再获取领域知识点。此处的领域知识点可以是领域百科全书中已经构建好的知识点词条。
接着,对于每个领域知识点,计算该领域知识点与候选知识点的语义相似度。由于候选知识点通过领域内的大量的数字资源来获得,因此我们认为该候选知识点中涵盖了领域知识点中的所有知识点,在该候选知识点中即可以查找得到各个领域知识点的语义向量,再计算其与每个候选知识点的语义相似度。
此处的语义相似度的计算方法为:
f ( X , Y ) = X · Y | | X | | | | Y | | = Σ i = 1 m X i × Y i Σ i = 1 m ( X i ) 2 × Σ i = 1 m ( Y i ) 2
其中,X、Y为需要比较相似度的两个m列的向量,其中一个为领域知识点的语义向量,另一个为候选知识点的语义向量,f(X,Y)为X、Y的语义相似度。
这样,就得到了所有领域知识点与所有候选知识点的语义相似度。
最后,根据计算出的语义相似度,确定与该领域知识点相关的目标知识点。可以将该领域知识点与其他候选知识点的相似度降序排列,选择排序在前的一定数量的候选知识点作为该领域知识点的相关知识点。作为可以替换的实施方式,也可以预先设置一个相似度阈值,选取相似度大于该阈值的候选知识点作为该领域知识点的相关知识点。
本实施例中提供的获取知识点的相关知识点的方法,先通过领域内的数字资源来获得候选知识点,然后再获得候选知识点的语义向量,通过计算领域知识点与候选知识点的相似度,来获得与每个领域知识点相关的候选知识点,作为目标知识点。这样,就可以得到每个领域知识点相关的若干个目标知识点。在建设百科目录的词条时,可以查找每个领域知识点的相关知识点是否已经存在,如不存在,则需要增加。通过这种方式来完成领域百科全书的词条的检查和建设。大大降低了人工的工作量,节约了时间成本和人工成本,且避免了人工检查的主观性和标准不统一带来的不准确性,大大提高了效率和准确度。
实施例2:
本实施例中提供一种获取知识点的相关知识点的方法,其步骤与实施例1中的步骤相同,本实施例中提供上述过程中的计算每个候选知识点的语义向量的具体方法,具体过程如下:
第一步,确定每个候选知识点在候选文件中出现的次数,这样就得到了每个候选知识点及其出现次数的文本。候选文本是从选定的数字资源中分词后得到的文本,候选知识点是候选文本中分词后得到的词语去除常用词得到的词语,此部分与实施例1相同,在此不再赘述。
第二步,根据每个候选知识点和该候选知识点在候选文本中出现的次数,计算带权路径长度最小的二叉树。
以候选知识点为叶子节点,为每个叶子节点给定一个权值,该权值为知识点在文本中的出现次数,构造一棵二叉树,父节点的权值为两个子节点的权值之和,带权路径长度规定为所有叶子节点的带权路径长度之和,若带权路径长度达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树。此处的构造方法采用现有技术中已有的方式构建,通过已有的算法获得带权路径长度最小的二叉树。
第三步,根据每个知识点在所述候选文本中的位置和带权路径长度最小的二叉树,确定每个知识点的语义向量。
首先,创建skip-gram模型,skip-gram模型是现有技术中一种神经网络模型,示意图如图3所示,用于训练词语向量,主要原理是通过当前词语预测其前后一定范围内的词语从而得到合适的词语向量表示,使用的训练方法为随机梯度下降方法,输入为文本数据,根据训练得到的结果可以获取词语向量。
作为其他可以替换的实施方式,此处也可以选择CBOW模型,示意图如图4所示,它也是一种神经网络模型。CBOW模型是通过一个词语所在的上下文预测该词语,过程如图3所示,该模型是现有技术中一种神经网络模型,用于训练词语向量,主要原理是通过一个词语所在的上下文预测该词语从而得到合适的词语向量表示,使用的训练方法为随机梯度下降方法,输入为文本数据,根据训练得到的结果为可以获取词语向量。
此外,在一些文献中,也给出了skip-gram模型或CBOW模型的具体介绍及应用,如下:
Mikolov,T.,Chen,K.,Corrado,G.,et al.:Efficient Estimationof Word Representations in Vector Space.In Proc.ICLR Workshop(2013)
Mikolov,T.,Sutskever,I.,Chen,K.,et al.DistributedRepresentations of Words and Phrases and Their Compositionality.InProc.NIPS(2013)
在构建上述模型后,以候选文件为训练样本,所述带权路径长度最小的二叉树为输出层,进行训练;训练完成后,根据带权路径长度最小的二叉树中的节点向量获得每个候选知识点的语义向量。具体方式为提取最优二叉树中叶子节点所在位置对应的训练后的叶子节点向量,该向量即为此知识点的语义向量。
本实施例中,在得到候选知识点的语义向量后,计算领域知识点与候选知识点的相似度时,采用如下公式:
所述语义相似度的计算方法为:
f ( X , Y ) = 2 Σ i = 1 m X i × Y i Σ i = 1 m ( X i ) 2 + Σ i = 1 m ( Y i ) 2
其中,X、Y为需要比较相似度的两个m列的向量,其中一个为领域知识点的语义向量,另一个为候选知识点的语义向量,f(X,Y)为X、Y的语义相似度。
最后,通过该语义相似度来得出每个领域知识点相关的候选知识点,作为目标知识点。在领域百科全书中查找该目标知识点,完成对领域百科全书词条的检查和构建。
本实施例中,提供了获取知识点的相关知识点过程中,计算候选知识点语义向量的方法,将知识点的语义信息进行量化,通过数字化的方式来体现其语义特征,这样,在后续对知识点进行分析时,可以更加方便,为知识点搜索、推荐、信息过滤等应用提供基础。
实施例3:
领域百科全书是一种重要的数字出版资源。领域百科全书通常以词条的方式组织领域信息。领域百科全书需要包含领域内的重要词条。然而,建设领域百科全书需要大量人力投入。本实施例中提供一种获取领域知识点的相关知识点的方法,领域知识点也就是领域百科全书中的词条。本实施例中利用领域电子书文本以及报刊文本,通过skip-gram模型计算得到的候选词条的语义向量。通过语义向量计算构建好的领域词条与得到的候选词条之间的语义相似度。利用词条的语义相似度,发现与领域百科全书词条在语义相关的且被遗漏的其他领域词条,以减少某些领域词条被遗漏的可能性。具体步骤如下。
第一步,选择领域电子书,从中抽取文本,使用分词器对文本进行分词,得到分词后的文本F。
第二步,选择报刊文本,使用分词器对报刊文本进行分词,根据分词结果确定常用词。
第三步,根据第一步中的分词结果及第二步中的常用词,去除分词后的文本F中的常用词,剩余的词语作为领域候选词条。
第四步,根据领域候选词条,统计文件F中各候选词条出现的次数,形成统计文件,统计文件中的词条按词条名称的出现次数倒序排列。统计文件的格式如下,其中oi,oj,ok为词条的名称,ti,tj,tk为词条名称在文件F中出现的次数。
oi,ti
oj,tj
...
ok,tk
根据该统计文件,以词条为叶子节点,形成一棵哈夫曼树。此处构建哈夫曼树的过程,如下:
1.根据给定的n个词条生成n棵二叉树的集合R={r1,r2,..,rn},其中每棵二叉树ri中只有一个带权wi的根节点,权重wi等于词条的出现次数ti,左右子树均为空。
2.在R中选择两棵根节点权值最小的树作为左右子树构造一棵新的二叉树,且置新的二叉树的根节点的权值为其左右子树上根节点的权值之和。
3.在R中删除这两棵树,并将新的二叉树加入R中。
4.重复第2步和第3步,直到R中只含有一棵树为止。
得到的这棵树即为哈夫曼树。
第五步,使用skip-gram模型来进行训练,得到哈夫曼树中各个词条对应的叶子节点向量,从而获得各个词条的语义向量。
skip-gram模型是现有技术中一种神经网络模型,用于训练词语向量,主要原理是通过当前词语预测其前后一定范围内的词语从而得到合适的词语向量表示,使用的训练方法为随机梯度下降方法,输入为文本数据,根据训练得到的结果可以获取词语向量。
在本实施例中,首先创建skip-gram模型,skip-gram模型如图3所示,该模型包括输入层input,中间层projection和输出层output。其中输出层采用第四步中的哈夫曼树。从根节点到叶子节点的每个词条w的路径长度表示为L(w),n(w,j)表示该路径下的第jth节点,ch(n)表示非叶子节点n的孩子节点,s(x)是符号函数,当x为真时取1,否则取-1。对于训练集w1,w2,…,wT(w1,w2,…,wT就是训练集中的词语),skip-gram模型将最大化概率值其中j≠0,k是以wt为中心的窗口大小,T是训练集中的词语数目。通常,k值越大,训练得到的结果越准确。但是,k值越大,需要的训练时间也越长。p(w|wI)定义为 p ( w | w I ) = Π j = 1 L ( w ) - 1 σ ( s ( n ( w , j + 1 ) = ch ( n ( w , j ) ) ) · v n ( w , j ) ′ T v w I ) , n(w,j)表示该路径下的第jth节点,s(x)是符号函数,其中σ(x)=1/(1+exp(-x)),vw是叶子节点w的向量表示,v′n是非叶子节点n的向量表示。训练时,训练集中词wi被丢弃的概率为其中t是指定的阈值,g(wi)是词wi出现的频率,使用该概率丢弃词的目的是加快训练速度并提高准确性。
第六步,以分词后的文件F做为训练样本,通过随机梯度下降反向传播算法训练模型。模型训练完成后,得到每个候选词条oi的语义向量vi
第七步,选择领域百科全书,从领域百科全书中获取已经建设的领域词条。
第八步,对于领域百科全书中的每一个词条oi,计算该词条与其它所有候选词条的语义相似度,根据语义相似度降序排序词条,取得相似度最高的m个词条。查看这些词条是否已经在领域百科全书中,如果不在领域百科全书中,则将这些词条记录在文件中,供领域百科全书建设者检查。
由于领域百科全书中词条数目较多,因此通过人工的方式寻找合适的领域词条不仅耗时,而且容易遗漏一些很相关的领域词条。本实施例中的获取知识点的相关知识点的方法,可以用于领域百科全书词条建设检查,用于发现与领域百科全书词条在语义上相关的其他领域词条,以减少某些领域词条被遗漏的可能性。
实施例4:
本实施例中提供一种获取知识点的相关知识点的系统,如图5所示,包括:
分词单元:对文本进行分词,得到分词结果;
候选单元:根据分词结果和常用词,确定候选知识点;
语义向量计算单元:确定每个候选知识点的语义向量;
提取单元:获取领域知识点;
相似度计算单元:对于每个领域知识点,计算该领域知识点与候选知识点的语义相似度;
相关知识点计算单元:根据计算出的语义相似度,确定与该领域知识点相关的目标知识点。
其中,分词单元包括:
抽取单元:选择领域数字资源,从中抽取文本;
候选文件获取单元:使用分词器对所述文本进行分词,得到分词后的文件,作为候选文件。
其中,候选单元包括:
常用词确定单元:选择常用文本的数字资源,对其进行分词确定常用词;
候选知识点确定单元:将候选文件中的词语去除所述常用词,得到候选知识点。
其中,语义向量计算单元包括:
统计单元:确定每个候选知识点在候选文件中出现的次数;
最优二叉树计算单元:根据每个候选知识点和该候选知识点在候选文本中出现的次数,计算带权路径长度最小的二叉树;
语义向量确定单元:根据每个候选知识点在所述候选文本中的位置和带权路径长度最小的二叉树,确定每个候选知识点的语义向量。
上述语义向量确定单元,进一步包括:
建模单元:创建skip-gram模型;
训练单元:以所述候选文件为训练样本,所述带权路径长度最小的二叉树为输出层,进行训练;
计算单元:训练完成后,根据带权路径长度最小的二叉树中的节点向量获得每个候选知识点的语义向量。
本实施例中,相似度计算单元包括计算公式,如下:
f ( X , Y ) = X · Y | | X | | | | Y | | = Σ i = 1 m X i × Y i Σ i = 1 m ( X i ) 2 × Σ i = 1 m ( Y i ) 2
其中,X、Y为需要比较相似度的两个m列的向量,f(X,Y)为X、Y的语义相似度。
在其他可以替换的实施方案中,所述相似度计算单元包括语义相似度的计算公式为:
f ( X , Y ) = 2 Σ i = 1 m X i × Y i Σ i = 1 m ( X i ) 2 + Σ i = 1 m ( Y i ) 2
其中,X、Y为需要比较相似度的两个m列的向量,f(X,Y)为X、Y的语义相似度。
本实施例中,相关知识点计算单元包括:
第一计算单元:将该领域知识点与候选知识点的相似度降序排列,选择排序在前的预设数量的候选知识点作为该领域知识点的相关知识点;
在其他可以替换的实施方案中,相关知识点计算单元包括第二计算单元:预先设置一个相似度阈值,选取相似度大于该阈值的候选知识点作为该领域知识点的相关知识点。
本实施例中提供一种获取知识点的相关知识点的系统,包括分词单元、候选单元、语义向量计算单元、提取单元、相似度计算单元以及相关知识点计算单元,采用计算语义向量的方式,通过计算得到领域知识点与候选知识点的相似度,来获得与每个领域知识点相关的候选知识点,从而得到每个领域知识点相关的若干个目标知识点。在建设百科目录的词条时,可以查找每个领域知识点的相关知识点是否已经存在,如不存在,则需要增加。通过这种方式来完成领域百科全书的词条的检查和建设,大大降低了人工的工作量。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (16)

1.一种获取知识点的相关知识点的方法,其特征在于,包括:
对文本进行分词,得到分词结果;
根据分词结果和常用词,确定候选知识点;
确定每个候选知识点的语义向量;
获取领域知识点;
对于每个领域知识点,计算该领域知识点与候选知识点的语义相似度;
根据计算出的语义相似度,确定与该领域知识点相关的目标知识点。
2.根据权利要求1所述的获取知识点相关知识点的方法,其特征在于,对文本进行分词,得到分词结果的处理,包括:
选择领域数字资源,从中抽取文本;
使用分词器对所述文本进行分词,得到分词后的文件,作为候选文件。
3.根据权利要求1或2所述的获取知识点相关知识点的方法,其特征在于,所述根据分词结果和常用词,确定候选知识点的过程,包括:
选择常用文本的数字资源,对其进行分词确定常用词;
将候选文件中的词语去除所述常用词,得到候选知识点。
4.根据权利要求1-3任一所述的获取知识点相关知识点的方法,其特征在于,所述确定每个候选知识点的语义向量的过程,包括:
确定每个候选知识点在候选文件中出现的次数;
根据每个候选知识点和该候选知识点在候选文本中出现的次数,计算带权路径长度最小的二叉树;
根据每个候选知识点在所述候选文本中的位置和带权路径长度最小的二叉树,确定每个候选知识点的语义向量。
5.根据权利要求4所述的获取知识点相关知识点的方法,其特征在于,所述根据每个知识点在所述候选文本中的位置和带权路径长度最小的二叉树,确定每个知识点的语义向量的过程,包括:
创建skip-gram模型;
以所述候选文件为训练样本,所述带权路径长度最小的二叉树为输出层,进行训练;
训练完成后,根据带权路径长度最小的二叉树中的节点向量获得每个候选知识点的语义向量。
6.根据权利要求1-5任一所述的获取知识点相关知识点的方法,其特征在于,所述对于每个领域知识点,计算该领域知识点与候选知识点的语义相似度的处理,包括:
所述语义相似度的计算方法为:
f ( X , Y ) = X · Y | | X | | | | Y | | = Σ i = 1 m X i × Y i Σ i = 1 m ( X i ) 2 × Σ i = 1 m ( Y i ) 2
其中,X、Y为需要比较相似度的两个m列的向量,f(X,Y)为X、Y的语义相似度。
7.根据权利要求1-5任一所述的获取知识点相关知识点的方法,其特征在于,所述对于每个领域知识点,计算该领域知识点与候选知识点的语义相似度的处理,包括:
所述语义相似度的计算方法为:
f ( X , Y ) = 2 Σ i = 1 m X i × Y i Σ i = 1 m ( x i ) 2 + Σ i = 1 m ( Y i ) 2
其中,X、Y为需要比较相似度的两个m列的向量,f(X,Y)为X、Y的语义相似度。
8.根据权利要求1-7任一所述的获取知识点相关知识点的方法,其特征在于,所述根据计算出的语义相似度,确定与该领域知识点相关的目标知识点的处理,包括:
将该领域知识点与候选知识点的相似度降序排列,选择排序在前的预设数量的候选知识点作为该领域知识点的相关知识点。
或预先设置一个相似度阈值,选取相似度大于该阈值的候选知识点作为该领域知识点的相关知识点。
9.一种获取知识点的相关知识点的系统,其特征在于,包括:
分词单元:对文本进行分词,得到分词结果;
候选单元:根据分词结果和常用词,确定候选知识点;
语义向量计算单元:确定每个候选知识点的语义向量;
提取单元:获取领域知识点;
相似度计算单元:对于每个领域知识点,计算该领域知识点与候选知识点的语义相似度;
相关知识点计算单元:根据计算出的语义相似度,确定与该领域知识点相关的目标知识点。
10.根据权利要求1所述的获取知识点相关知识点的系统,其特征在于,分词单元包括:
抽取单元:选择领域数字资源,从中抽取文本;
候选文件获取单元:使用分词器对所述文本进行分词,得到分词后的文件,作为候选文件。
11.根据权利要求1或2所述的获取知识点相关知识点的系统,其特征在于,候选单元包括:
常用词确定单元:选择常用文本的数字资源,对其进行分词确定常用词;
候选知识点确定单元:将候选文件中的词语去除所述常用词,得到候选知识点。
12.根据权利要求1-3任一所述的获取知识点相关知识点的系统,其特征在于,语义向量计算单元包括:
统计单元:确定每个候选知识点在候选文件中出现的次数;
最优二叉树计算单元:根据每个候选知识点和该候选知识点在候选文本中出现的次数,计算带权路径长度最小的二叉树;
语义向量确定单元:根据每个候选知识点在所述候选文本中的位置和带权路径长度最小的二叉树,确定每个候选知识点的语义向量。
13.根据权利要求4所述的获取知识点相关知识点的系统,其特征在于,语义向量确定单元,包括:
建模单元:创建skip-gram模型;
训练单元:以所述候选文件为训练样本,所述带权路径长度最小的二叉树为输出层,进行训练;
计算单元:训练完成后,根据带权路径长度最小的二叉树中的节点向量获得每个候选知识点的语义向量。
14.根据权利要求1-5任一所述的获取知识点相关知识点的系统,其特征在于,相似度计算单元包括计算公式,如下:
f ( X , Y ) = X · Y | | X | | | | Y | | = Σ i = 1 m X i × Y i Σ i = 1 m ( X i ) 2 × Σ i = 1 m ( Y i ) 2
其中,X、Y为需要比较相似度的两个m列的向量,f(X,Y)为X、Y的语义相似度。
15.根据权利要求1-5任一所述的获取知识点相关知识点的系统,其特征在于,所述相似度计算单元包括语义相似度的计算公式为:
f ( X , Y ) = 2 Σ i = 1 m X i × Y i Σ i = 1 m ( x i ) 2 + Σ i = 1 m ( Y i ) 2
其中,X、Y为需要比较相似度的两个m列的向量,f(X,Y)为X、Y的语义相似度。
16.根据权利要求1-7任一所述的获取知识点相关知识点的系统,其特征在于,相关知识点计算单元包括:
第一计算单元:将该领域知识点与候选知识点的相似度降序排列,选择排序在前的预设数量的候选知识点作为该领域知识点的相关知识点;
或第二计算单元:预先设置一个相似度阈值,选取相似度大于该阈值的候选知识点作为该领域知识点的相关知识点。
CN201410497469.0A 2014-09-26 2014-09-26 一种获取知识点的相关知识点的方法及系统 Pending CN105893363A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410497469.0A CN105893363A (zh) 2014-09-26 2014-09-26 一种获取知识点的相关知识点的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410497469.0A CN105893363A (zh) 2014-09-26 2014-09-26 一种获取知识点的相关知识点的方法及系统

Publications (1)

Publication Number Publication Date
CN105893363A true CN105893363A (zh) 2016-08-24

Family

ID=57000282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410497469.0A Pending CN105893363A (zh) 2014-09-26 2014-09-26 一种获取知识点的相关知识点的方法及系统

Country Status (1)

Country Link
CN (1) CN105893363A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241621A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 法律知识的检索方法及装置
CN109002499A (zh) * 2018-06-29 2018-12-14 浙江蓝鸽科技有限公司 学科相关性知识点库构建方法及其系统
CN109359290A (zh) * 2018-08-20 2019-02-19 国政通科技有限公司 试题文本的知识点确定方法、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
US20130304740A1 (en) * 2012-01-31 2013-11-14 Business Objects Software Limited Classifying data using machine learning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708100A (zh) * 2011-03-28 2012-10-03 北京百度网讯科技有限公司 挖掘相关实体词的关系关键词的方法和装置及其应用
US20130304740A1 (en) * 2012-01-31 2013-11-14 Business Objects Software Limited Classifying data using machine learning

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘云芳等: "信息检索中一种句子相似度的计算方法", 《应用科技》 *
朱明方 吴及: "《数据结构与算法》", 31 March 2010 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108241621A (zh) * 2016-12-23 2018-07-03 北京国双科技有限公司 法律知识的检索方法及装置
CN108241621B (zh) * 2016-12-23 2019-12-10 北京国双科技有限公司 法律知识的检索方法及装置
CN109002499A (zh) * 2018-06-29 2018-12-14 浙江蓝鸽科技有限公司 学科相关性知识点库构建方法及其系统
CN109002499B (zh) * 2018-06-29 2022-04-12 浙江蓝鸽科技有限公司 学科相关性知识点库构建方法及其系统
CN109359290A (zh) * 2018-08-20 2019-02-19 国政通科技有限公司 试题文本的知识点确定方法、电子设备及存储介质
CN109359290B (zh) * 2018-08-20 2023-05-05 国政通科技有限公司 试题文本的知识点确定方法、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN108573411B (zh) 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN104102626B (zh) 一种用于短文本语义相似度计算的方法
CN112214610B (zh) 一种基于跨度和知识增强的实体关系联合抽取方法
CN103631859B (zh) 一种面向科技项目的评审专家智能推荐方法
CN102411563B (zh) 一种识别目标词的方法、装置及系统
CN104408148B (zh) 一种基于通用百科网站的领域百科构建系统
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN105955962B (zh) 题目相似度的计算方法及装置
CN104199833B (zh) 一种网络搜索词的聚类方法和聚类装置
CN106295796A (zh) 基于深度学习的实体链接方法
CN110516245A (zh) 细粒度情感分析方法、装置、计算机设备及存储介质
CN107967255A (zh) 一种判定文本相似性的方法和系统
CN110489755A (zh) 文本生成方法和装置
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN110245229A (zh) 一种基于数据增强的深度学习主题情感分类方法
CN107168945A (zh) 一种融合多特征的双向循环神经网络细粒度意见挖掘方法
CN105608075A (zh) 一种相关知识点的获取方法及系统
CN106997341B (zh) 一种创新方案匹配方法、装置、服务器及系统
CN104899298A (zh) 一种基于大规模语料特征学习的微博情感分析方法
CN104573046A (zh) 一种基于词向量的评论分析方法及系统
Wahid et al. Cricket sentiment analysis from Bangla text using recurrent neural network with long short term memory model
CN107506389B (zh) 一种提取职位技能需求的方法和装置
CN106815252A (zh) 一种搜索方法和设备
CN108763332A (zh) 一种搜索提示词的生成方法和装置
CN104484380A (zh) 个性化搜索方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160824

RJ01 Rejection of invention patent application after publication