CN105468657A - 一种获取领域重要知识点的方法和系统 - Google Patents

一种获取领域重要知识点的方法和系统 Download PDF

Info

Publication number
CN105468657A
CN105468657A CN201410497611.1A CN201410497611A CN105468657A CN 105468657 A CN105468657 A CN 105468657A CN 201410497611 A CN201410497611 A CN 201410497611A CN 105468657 A CN105468657 A CN 105468657A
Authority
CN
China
Prior art keywords
knowledge point
matrix
candidate
degree
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410497611.1A
Other languages
English (en)
Other versions
CN105468657B (zh
Inventor
叶茂
徐剑波
汤帜
张�杰
成洪甲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Founder Apabi Technology Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Peking University
Priority to CN201410497611.1A priority Critical patent/CN105468657B/zh
Publication of CN105468657A publication Critical patent/CN105468657A/zh
Application granted granted Critical
Publication of CN105468657B publication Critical patent/CN105468657B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种获取领域重要知识点的方法,首先确定领域内的候选知识点,然后计算这些候选知识点的语义向量,根据每个知识点的语义向量计算得到语义相似度矩阵,根据该语义相似度矩阵来计算候选知识点中的重要知识点,这些知识点便是该领域内的重要知识点。当建设或检查领域百科全书时,可以根据这些重要知识点来建立词条,或者检查词条是否完善,将还没有收录的重要知识点增加在需要建设的词条中,通过这种方式来完成领域百科全书的词条的检查和建设。大大降低了人工的工作量,节约了时间成本和人工成本,且避免了人工检查的主观性和标准不统一带来的不准确性,大大提高了效率和准确度。

Description

一种获取领域重要知识点的方法和系统
技术领域
本发明涉及一种数字资源处理领域,具体地说是一种获取领域重要知识点的方法和系统。
背景技术
数字出版资源已成为信息提供的主要方式之一。人们已从纸质阅读大量地转向电子阅读。数字出版资源包含电子图书、数字百科全书、数字期刊、数字报刊等。数字出版资源提供的信息通常比互联网更加权威和正确。因此,如何根据数字出版资源的特点提高人们学习或阅读体验变得尤为重要。
百科全书(Encyclopedia)是介绍人类的全部知识或某一类知识的工具书。往往按照辞典形式编排(以条目为基本单元),收集各知识领域的名词、熟语、地名、事件、人物、著作等。百科全书可以是综合性的,包含所有领域的相关内容(例如,《大不列颠百科全书》就是一部著名的综合性百科全书)。也可以是专业性的百科全书,如某一个领域的百科全书,像历史百科全书、军事百科全书等,这种某一个领域的百科全书称为领域百科全书。百科全书被视为是一个国家和一个时代科学文化发展的标志。
领域百科全书将海量的信息分类,为用户提供更有针对性的资源。领域百科全书也是一种重要的数字出版资源。领域百科全书通常以词条的方式组织领域信息。领域百科全书需要包含领域内的重要词条。然而,建设领域百科全书需要大量人力投入。由于领域词条数目较多,因此通过人工的方式寻找重要的领域词条不仅耗时,而且容易遗漏一些很相关的领域词条。获取领域内重要的词条是很重要的工作,但是实现起来需要花费大量的人力和时间。
Distributedwordsrepresentations(分布式词语表示)在Rumelhar,D.E.,Hinton,G.E.,Williams,R.J.:LearningRepresenationsbyBack-propagatingErrors.Nature323(6088):pp533-536(1986)中首次提出,该思想将词语表示成连续向量(continuousvectors),且在向量空间中,相似词语的距离更近。Feedforwardneuralnetwork(前馈神经网络)是用于学习词向量和语言模型的方法(见Bengio,Y.,Ducharme,R.,Vincent,P.:ANeuralProbabilisticLanguageModel.JournalofMachineLearningResearch3,pp1137-1155(2003))。近来,Mikolov提出了使用skip-gram或CBOW模型,通过在大量文本上训练简单的神经网络在短时间内得到词语向量。虽然关于语义向量在理论上已经有一些研究,但是仍然缺少该技术的应用推广。
发明内容
为此,本发明所要解决的技术问题在于现有技术中需要人工确定领域内的重要词条、花费较多的人力物力、标准不容易、客观性差的问题,从而提出一种标准统一、无需人工处理的自动的获取领域重要知识点的方法。
为解决上述技术问题,本发明的提供一种获取领域重要知识点的方法。
一种获取领域重要知识点的方法,包括:
对领域文本进行分词,得到分词结果;
根据分词结果和常用词,确定候选知识点;
确定每个候选知识点的语义向量;
计算候选知识点之间的语义相似度,得到相似度矩阵;
利用所述相似度矩阵进行迭代,确定每个候选知识点的重要度信息;
根据所述重要度信息确定重要知识点。
一种获取领域重要知识点的系统,包括:
分词单元:对领域文本进行分词,得到分词结果;
候选知识点确定单元:根据分词结果和常用词,确定候选知识点;
语义向量确定单元:确定每个候选知识点的语义向量;
相似度矩阵建立单元:计算候选知识点之间的语义相似度,得到相似度矩阵;
重要度确定单元:利用所述相似度矩阵进行迭代,确定每个候选知识点的重要度信息;
重要知识点确定单元:根据所述重要度信息确定重要知识点。
本发明的上述技术方案相比现有技术具有以下优点,
(1)本发明提供一种获取领域重要知识点的方法,首先确定领域内的候选知识点,然后计算这些候选知识点的语义向量,根据每个知识点的语义向量计算得到语义相似度矩阵,根据该语义相似度矩阵来计算候选知识点中的重要知识点,这些知识点便是该领域内的重要知识点。当建设或检查领域百科全书时,可以根据这些重要知识点来建立词条,或者检查词条是否完善,将还没有收录的重要知识点增加在需要建设的词条中,通过这种方式来完成领域百科全书的词条的检查和建设。大大降低了人工的工作量,节约了时间成本和人工成本,且避免了人工检查的主观性和标准不统一带来的不准确性,大大提高了效率和准确度。
(2)本发明所述的获取领域重要知识点的方法,获取相似度矩阵时,采用计算候选知识点语义向量的方法,将知识点的语义信息进行量化,通过数字化的方式来体现其语义特征,这样,在后续对知识点进行分析时,可以更加方便,为知识点搜索、推荐、信息过滤等应用提供基础。
(3)本发明所述的获取领域重要知识点的方法,确定每个候选知识点的重要度信息时,设置导航度的初始值;将所述关联度信息与所述导航度的值进行迭代,确定权威度信息和所述导航度的最终值;根据所述权威度信息和所述导航度的最终值,确定所述候选中每个知识点的重要度信息。该方案中,通过权威度信息和导航度值进行迭代,来逐次逼近,不仅计算简单方便,而且充分考虑了该候选知识点与其他候选知识点的关系,客观的表征了该知识点在该领域内的重要程度。
(4)本发明还提供一种获取领域重要知识点的系统,包括分词单元、候选知识点确定单元、语义向量确定单元、相似度矩阵建立单元、重要度确定单元以及重要知识点确定单元,根据该语义相似度矩阵来计算候选知识点中的重要知识点,这些知识点便是该领域内的重要知识点。当建设或检查领域百科全书时,可以根据这些重要知识点来建立词条,或者检查词条是否完善,将还没有收录的重要知识点增加在需要建设的词条中,通过这种方式来完成领域百科全书的词条的检查和建设,大大降低了人工的工作量。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中
图1是本发明的实施例中获取领域重要知识点的方法的流程图;
图2是本发明实施例中skip-gram模型的示意图;
图3是本发明的实施例中CBOW模型的示意图;
图4是本发明的实施例中获取领域重要知识点的系统的流程图。
具体实施方式
实施例1:
本实施例中提供一种获取领域重要知识点的方法,流程图如图1所示。领域内的知识点是指领域内的词语或者词条,反应该领域内的知识。获取领域重要知识点的方法包括如下过程:
S1:对文本进行分词,得到分词结果。
此处的文本选择领域内的一些数字资源,为了使得其涵盖的知识点足够广泛,一般会多选择一些本领域内的电子数字资源。如对于历史领域,可以选择上下五千年、历代朝代史等相关的本领域内的电子书。选定领域数字资源后,从中抽取文本,然后分词,通过分词后,得到大量的词语,这些词语既包括本领域中的一些知识点,也包括一些常用的词语,如你们、他们、吃饭等等。将分词后的文件,作为候选文件。
S2:根据分词结果和常用词,确定候选知识点。
由于常用词是经常使用的一系列的词语,通过在上述分词结果中,把这部分词语去除,就获得了和领域相关的词语,将这些词语作为候选知识点。此处的常用词是现有技术中已经确定好的常用词。在其他的实施方式中,还可以通过如下方法来确定常用词:选择常用文本的数字资源,如生活报纸、生活杂志等数字资源,对其进行分词(采用停用词表去除停用词,例如采用哈工大停用词表),将在较多文本中出现的词语确定为常用词。在候选文件中去除常用词后,得到的就是本领域中的词语,作为候选知识点。
S3:确定每个候选知识点的语义向量。计算语义向量的方法可以采用现有技术中的方法,通过计算语义向量的方式,将每个知识点通过语义量化的方式来数字化表示。
S4:计算候选知识点之间的语义相似度,得到相似度矩阵。
此处的语义相似度的计算方法为:
f ( X , Y ) = X · Y | | X | | | | Y | | = Σ i = 1 m X i × Y i Σ i = 1 m ( X i ) 2 × Σ i = 1 m ( Y i ) 2
其中,X、Y为需要比较相似度的两个m列的向量,分别是需要计算相似度的两个候选知识点的语义向量,f(X,Y)为X、Y的语义相似度。
计算所述候选知识点中的任意两个候选知识点之间的语义相似度,将该相似度以矩阵的形式存储,形成语义相似度矩阵M,该矩阵为n行n列的矩阵,其中n为候选知识点的个数。
这样,就得到了所有候选知识点的语义相似度矩阵。
S5:利用所述相似度矩阵进行迭代,确定每个候选知识点的重要度信息。
该过程主要包括以下步骤:
第一,设置导航度的初始值。首先,设置导航度矩阵为H,该矩阵H为n行1列的矩阵,n为候选知识点的个数。导航度矩阵的初始值为单位矩阵1.
第二,将所述关联度信息与所述导航度的值进行迭代,确定权威度信息和所述导航度的最终值。该过程包括:
首先,计算A=MH,M为上一步骤中计算出的语义相似度矩阵,H为导航度矩阵,A为权威度矩阵;
然后,根据上式计算出的权威度矩阵A重新计算导航度矩阵H,H=MA;
重复上述迭代过程,即重新根据A=MH计算新的矩阵A,然后根据H=MA计算新的矩阵H,并在迭代的过程中,完成每次迭代后计算一下是否满足收敛条件,此处的收敛条件为将A和H合并为2n行1列的矩阵C,计算迭代前后C矩阵的相似度,若小于指定的阈值,则计算完成,否则循环上述过程,直到迭代前后C矩阵的相似度小于指定阈值,得到导航度矩阵H和权威度矩阵A。本实施例中通过判断迭代前后的矩阵C的相似度是否小于指定阈值作为收敛条件,从而通过迭代的方式得到最终的导航度矩阵H和权威度矩阵A。
在上述过程中,为了保证矩阵A和矩阵H最终收敛,在每次计算出矩阵A和H后都会进行归一化处理,使用归一化后的值进行后续迭代计算。
在其他可以替换的实施方案中,收敛条件还可以设置为计算迭代前后矩阵A的相似度,直到小于指定阈值;或者计算迭代前后矩阵H的相似度,直到小于指定阈值。
本实施例中相似度的计算公式如下,其中的矩阵X、Y分别为需要进行相似度比较的两个具有相同行列数的矩阵,本实施例中X、Y分别表示迭代前的矩阵C和迭代后的矩阵C,采用如下公式将这两个矩阵进行比较,得到相似度的值。
f ( X , Y ) = X · Y | | X | | | | Y | | = Σ i = 1 2 n X i × Y i Σ i = 1 2 n ( X i ) 2 × Σ i = 1 2 n ( Y i ) 2
此处指定的阈值可以设置为如0.0001一个比较小的值。
通过该过程则获得了权威度矩阵和导航度矩阵的最终结果。
第三,根据所述权威度信息和所述导航度的最终值,确定每个候选知识点的重要度信息。
在上述步骤中获得了权威度矩阵A和导航度矩阵H,然后通过这两个值来计算每个候选知识点的重要度信息,计算过程如下:
Ti=Ai×Hi,i=1,...,n。
其中,候选知识点的重要度组成的重要度矩阵为T,H为导航度矩阵;A为权威度矩,这三个矩阵都是n行1列矩阵,n为候选中知识点的数目;Ti为重要度矩阵T中的第i行元素的值,Ai为权威度矩阵A中的第i行元素的值,Hi为导航度矩阵H中的第i行元素的值,i=1,...,n;通过公式Ti=Ai×Hi的计算表示矩阵A中的第i行的值乘以矩阵H中第i行的值,得到矩阵T中第i行的值。这样就得到了重要度矩阵为T,其中每个元素Ti表示第i个候选知识点的重要度的值。
上述方式不仅计算简单方便,而且客观的表征了该知识点在该领域内的重要程度。
S6:根据所述重要度信息确定重要知识点。
将所有候选知识点的重要度降序排列,选择排序在前的一定数量的知识点作为重要知识点。此外,在其他替换的实施方案中还可以预先设置一个重要度阈值,选取重要度大于该阈值的候选知识点作为重要知识点。
这样就获得了该领域内的重要知识点,当建设或检查领域百科全书时,可以根据这些重要知识点来建立词条,或者检查词条是否完善,将还没有收录的重要知识点增加在需要建设的词条中,通过这种方式来完成领域百科全书的词条的检查和建设。大大降低了人工的工作量,节约了时间成本和人工成本,且避免了人工检查的主观性和标准不统一带来的不准确性,大大提高了效率和准确度。
实施例2:
本实施例中提供一种获取领域重要知识点的方法,其步骤与实施例1中的步骤相同,本实施例中提供上述过程中的计算每个候选知识点的语义向量的具体方法,具体过程如下:
第一步,确定每个候选知识点在候选文件中出现的次数,这样就得到了每个候选知识点及其出现次数的文本。候选文本是从选定的数字资源中分词后得到的文本,候选知识点是候选文本中分词后得到的词语去除常用词得到的词语,此部分与实施例1相同,在此不再赘述。
第二步,根据每个候选知识点和该候选知识点在候选文本中出现的次数,计算带权路径长度最小的二叉树。
以候选知识点为叶子节点,为每个叶子节点给定一个权值,该权值为知识点在文本中的出现次数,构造一棵二叉树,父节点的权值为两个子节点的权值之和,带权路径长度规定为所有叶子结点的带权路径长度之和,若带权路径长度达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树。此处的构造方法采用现有技术中已有的方式构建,通过已有的算法获得带权路径长度最小的二叉树。
第三步,根据每个知识点在所述候选文本中的位置和带权路径长度最小的二叉树,确定每个知识点的语义向量。
首先,选择一个神经网络模型,所述神经网络模型可以为skip-gram模型或CBOW模型。本实施例中为创建skip-gram模型,skip-gram模型是现有技术中一种神经网络模型,示意图如图2所示,用于训练词语向量,主要原理是通过当前词语预测其前后一定范围内的词语从而得到合适的词语向量表示,使用的训练方法为随机梯度下降方法,输入为文本数据,根据训练得到的结果可以获取词语向量。
作为其他可以替换的实施方式,此处也可以选择CBOW模型,示意图如图3所示,它也是一种神经网络模型。CBOW模型是通过一个词语所在的上下文预测该词语,过程如图3所示,该模型是现有技术中一种神经网络模型,用于训练词语向量,主要原理是通过一个词语所在的上下文预测该词语从而得到合适的词语向量表示,使用的训练方法为随机梯度下降方法,输入为文本数据,根据训练得到的结果为可以获取词语向量。
此外,在一些文献中,也给出了skip-gram模型或CBOW模型的具体介绍及应用,如下:
Mikolov,T.,Chen,K.,Corrado,G.,etal.:EfficientEstimationofWordRepresentationsinVectorSpace.InProc.ICLRWorkshop(2013)
Mikolov,T.,Sutskever,I.,Chen,K.,etal.DistributedRepresentationsofWordsandPhrasesandTheirCompositionality.InProc.NIPS(2013)
在构建上述模型后,以候选文件为训练样本,所述带权路径长度最小的二叉树为输出层,进行训练;训练完成后,根据带权路径长度最小的二叉树中的节点向量获得每个候选知识点的语义向量。具体方式为提取最优二叉树中叶子节点所在位置对应的训练后的叶子节点向量,该向量即为此知识点的语义向量。
本实施例中,在得到候选知识点的语义向量后,计算领域知识点与候选知识点的相似度时,采用如下公式:
所述语义相似度的计算方法为:
F ( X , Y ) = 2 Σ i = 1 m X i × Y i Σ i = 1 m ( X i ) 2 + Σ i = 1 m ( Y i ) 2
其中,X、Y为需要比较相似度的两个m列的向量,分别为两个候选知识点的语义向量,f(X,Y)为X、Y的语义相似度。
采用上述方式计算任意两个候选知识点之间的语义相似度,然后以矩阵的形式存储,得到所有候选知识点的语义相似度矩阵M。
得到相似度矩阵M后,利用所述相似度矩阵进行迭代,确定每个候选知识点的重要度信息。该过程主要包括以下步骤:
第一,设置导航度的初始值。首先,设置导航度矩阵为H,该矩阵H为n行1列的矩阵,n为候选知识点的个数。导航度矩阵的初始值为单位矩阵1.
第二,将所述关联度信息与所述导航度的值进行迭代,确定权威度信息和所述导航度的最终值。过程如下:
首先,计算A=MMH,M为候选知识点的语义相似度矩阵,H为导航度矩阵,A为权威度矩阵;
然后,根据上式计算出的新的权威度矩阵A重新计算导航度矩阵H,H=MMA;
重复上述迭代过程,直到达到收敛条件,得到导航度矩阵H和权威度矩阵A的最终值。此处的收敛条件与上述实施例1中的方式相同,不再赘述。
第三,根据所述权威度信息和所述导航度的最终值,确定每个候选知识点的重要度信息。
在上述步骤中获得了权威度矩阵A和导航度矩阵H,然后通过这两个值来计算每个候选知识点的重要度信息,计算过程如下:
Ti=Ai×Hi×r+e,i=1,...,n;
其中,候选知识点的重要度组成的重要度矩阵为T,H为导航度矩阵;A为权威度矩,这三个矩阵都是n行1列矩阵,n为候选知识点的数目;Ti为重要度矩阵T中的第i行元素的值,Ai为权威度矩阵A中的第i行元素的值,Hi为导航度矩阵H中的第i行元素的值,r为比例系数,e为偏差校正系数。
重要度矩阵T中的各个值则表示各个候选知识点的重要度,第i个值表示第i个候选知识点的重要度。
该方案中引入了比例系数r和偏差e,便于根据不同的情况来调整候选知识点的重要度,使得该候选知识点的重要度可以更加合理、客观的表达出。
得到上述重要度矩阵后,就可以根据这些重要度信息来确定重要知识点。根据重要度的大小来选择,获得所需的重要知识点。
本实施例中,通过候选知识点语义向量的方法,将知识点的语义信息进行量化,通过数字化的方式来体现其语义特征,这样,在后续对知识点进行分析时,可以更加方便,为知识点搜索、推荐、信息过滤等应用提供基础。通过重要度的方式,对领域内众多的知识点采用客观的、统一的标准来衡量,为领域内重要词条的收集提供可依据。
实施例3:
领域百科全书是一种重要的数字出版资源。领域百科全书通常以词条的方式组织领域信息。领域百科全书需要包含领域内的重要词条。然而,建设领域百科全书需要大量人力投入。本实施例中提供一种获取领域重要知识点的方法,领域知识点也就是领域百科全书中的词条。本实施例中利用领域电子书文本以及报刊文本,通过skip-gram模型计算得到的候选词条的语义向量。通过语义向量计算候选的语义相似度,得到所有候选词条的语义相似度矩阵。利用该语义相似度矩阵来计算候选词条中的重要词条,然后可以根据这些重要词条来建设领域百科全书或者查漏补缺,提供了客观、统一的参考标准。具体步骤如下。
第一步,选择领域电子书,从中抽取文本,使用分词器对文本进行分词,得到分词后的文本F。
第二步,选择报刊文本,使用分词器对报刊文本进行分词(采用停用词表去除停用词,例如采用哈工大停用词表),将在较多文本中出现的词语确定为常用词
第三步,根据第一步中的分词结果及第二步中的常用词,去除分词后的文本F中的常用词,剩余的词语作为领域候选词条。
第四步,根据领域候选词条,统计文件F中各候选词条出现的次数,形成统计文件,统计文件中的词条按词条名称的出现次数倒序排列。统计文件的格式如下,其中oi,oj,ok为词条的名称,ti,tj,tk为词条名称在文件F中出现的次数。
oi,ti
oj,tj
ok,tk
根据该统计文件,以词条为叶子节点,形成一棵哈夫曼树。此处构建哈夫曼树的过程,如下:
1.根据给定的n个词条生成n棵二叉树的集合R={r1,r2,..,rn},其中每棵二叉树ri中只有一个带权wi的根节点,权重wi等于词条的出现次数ti,左右子树均为空。
2.在R中选择两棵根节点权值最小的树作为左右子树构造一棵新的二叉树,且置新的二叉树的根节点的权值为其左右子树上根节点的权值之和。
3.在R中删除这两棵树,并将新的二叉树加入R中。
4.重复第2步和第3步,直到R中只含有一棵树为止。
得到的这棵树即为哈夫曼树。
第五步,使用skip-gram模型来进行训练,得到哈夫曼树中各个词条对应的叶子节点向量,从而获得各个词条的语义向量。
skip-gram模型是现有技术中一种神经网络模型,用于训练词语向量,主要原理是通过当前词语预测其前后一定范围内的词语从而得到合适的词语向量表示,使用的训练方法为随机梯度下降方法,输入为文本数据,根据训练得到的结果可以获取词语向量。
在本实施例中,首先创建skip-gram模型,skip-gram模型如图3所示,该模型包括输入层input,中间层projection和输出层output。其中输出层采用第四步中的哈夫曼树。从根节点到叶子节点的每个词条w的路径长度表示为L(w),n(w,j)表示该路径下的第jth节点,ch(n)表示非叶子节点n的孩子节点,s(x)是符号函数,当x为真时取1,否则取-1。对于训练集w1,w2,…,WT(W1,W2,…,WT就是训练集中的词语),skip-gram模型将最大化概率值其中j≠0,k是以wt为中心的窗口大小,T是训练集中的词语数目。通常,k值越大,训练得到的结果越准确。但是,k值越大,需要的训练时间也越长。p(w|wI)定义为 p ( w | w I ) = Π j = 1 L ( w ) - 1 σ ( s ( n ( w , j + 1 ) = ch ( n ( w , j ) ) ) · v n ( w , j ) ′ T v wI ) , n(w,j)表示该路径下的第jth节点,s(x)是符号函数,其中σ(x)=1/(1+exp(-x)),vw是叶子节点w的向量表示,v′n是非叶子节点n的向量表示。训练时,训练集中词wi被丢弃的概率为其中t是指定的阈值,g(wi)是词wi出现的频率,使用该概率丢弃词的目的是加快训练速度并提高准确性。
第六步,以分词后的文件F做为训练样本,通过随机梯度下降反向传播算法训练模型。模型训练完成后,得到每个候选词条oi的语义向量vi
第七步,计算每个候选词条与其它所有候选词条的语义相似度,得到所有候选词条的语义相似度矩阵M,词条的数目为n,则语义相似度矩阵M为n行n列的矩阵。
第八步,辅助矩阵初始化。创建两个n行1列的矩阵H和矩阵A,矩阵H为导航度矩阵,矩阵A为权威度矩阵,初始设置Hi1=1,其中i=1,...,n。A的初始值不做要求。
第九步,计算得到A=MH。
第十步,归一化矩阵A。归一化方法为:取得矩阵中的最大值,将矩阵中的每个单元的值都除以该最大值。
第十一步,计算得到H=MA。
第十二步,归一化矩阵H。归一化方法同第十步。
第十三步,将A和H合并为2n行1列的矩阵C;
第十四步,重复第九步至第十三步,
直到前后两次获得A和H的矩阵C即C和C的相似度f(C,C)小于等于指定的阈值δ。相似度通过余弦相似度计算,公式如下:。
当满足该收敛条件后,此时得到的矩阵A和矩阵H作为权威度矩阵A和导航度矩阵H的最终值。如果不满足条件,则一直重复第六步至第十步,直到满足条件为止。
第十五步,计算候选词条的重要度。对于每一个候选词条oi,i=1,…,n,其重要度Ti=Ai×Hi,其中,候选词条的重要度组成的重要度矩阵为T,H为导航度矩阵;A为权威度矩,这三个矩阵都是n行1列矩阵,n为候选知识点的数目;Ti为重要度矩阵T中的第i行元素的值,Ai为权威度矩阵A中的第i行元素的值,Hi为导航度矩阵H中的第i行元素的值,i=1,…n;Ti=Ai×Hi表示矩阵A中的第i行的值乘以矩阵H中第i行的值,得到矩阵T中第i行的值。
这样就得到了所有候选知识点的重要度矩阵为T,其中每个元素Ti表示第i个候选知识点的重要度的值。
第十六步,将候选词条的重要度降序排列,根据需要选取一定数量的候选词条作为重要词条,然后应用这些重要词条去建设百科全书。
由于领域百科全书中词条数目较多,因此通过人工的方式寻找合适的领域词条不仅耗时,而且容易遗漏一些很相关的领域词条。本实施例中的获取重要词条的方法,可以用于领域百科全书词条建设检查,减少某些领域内的重要词条被遗漏的可能性。
实施例4:
本实施例中提供一种获取领域重要知识点的系统,结构框图如图4所示,包括:
分词单元:对领域文本进行分词,得到分词结果;
候选知识点确定单元:根据分词结果和常用词,确定候选知识点;
语义向量确定单元:确定每个候选知识点的语义向量;
相似度矩阵建立单元:计算候选知识点之间的语义相似度,得到相似度矩阵;
重要度确定单元:利用所述相似度矩阵进行迭代,确定每个候选知识点的重要度信息;
重要知识点确定单元:根据所述重要度信息确定重要知识点。
其中,所述分词单元包括:
抽取单元:选择领域数字资源,从中抽取文本;
候选文件确定单元:使用分词器对所述文本进行分词,得到分词后的文件,作为候选文件。
其中,所述候选知识点确定单元包括:
常用词确定单元:选择常用文本的数字资源,对其进行分词确定常用词;
常用词去除单元:将候选文件中的词语去除所述常用词,得到候选知识点。
其中,语义向量确定单元包括:
统计单元:确定每个候选知识点在候选文件中出现的次数;
最优二叉树建立单元:根据每个候选知识点和该候选知识点在候选文本中出现的次数,计算带权路径长度最小的二叉树;
语义向量计算单元:根据每个候选知识点在所述候选文本中的位置和带权路径长度最小的二叉树,确定每个候选知识点的语义向量。
其中,所述语义向量计算单元包括:
建模单元:选择一个神经网络模型;
训练单元:以所述候选文件为训练样本,所述带权路径长度最小的二叉树为输出层,进行训练;
计算单元:训练完成后,根据带权路径长度最小的二叉树中的节点向量获得每个候选知识点的语义向量。
其中,所述相似度矩阵建立单元包括计算公式,如下:
f ( X , Y ) = X · Y | | X | | | | Y | | = Σ i = 1 m X i × Y i Σ i = 1 m ( X i ) 2 × Σ i = 1 m ( Y i ) 2
其中,X、Y为需要比较相似度的两个m列的向量,f(X,Y)为X、Y的语义相似度。
其中,相似度矩阵建立单元包括计算公式如下:
f ( X , Y ) = 2 Σ i = 1 m X i × Y i Σ i = 1 m ( X i ) 2 + Σ i = 1 m ( Y i ) 2
其中,X、Y为需要比较相似度的两个m列的向量,f(X,Y)为X、Y的语义相似度。
其中,所述重要度确定单元包括:
初始单元:设置导航度的初始值;
迭代单元:将所述相似度矩阵与所述导航度的值进行迭代,确定权威度信息和所述导航度的最终值;
重要度计算单元:根据所述权威度信息和所述导航度的最终值,确定每个候选知识点的重要度信息。
其中,所述重要度计算单元包括计算公式,如下:
Ti=Ai×Hi
其中,候选知识点的重要度组成的重要度矩阵为T,H为导航度矩阵;A为权威度矩,这三个矩阵都是n行1列矩阵,n为候选中知识点的数目;Ti为重要度矩阵T中的第i行元素的值,Ai为权威度矩阵A中的第i行元素的值,Hi为导航度矩阵H中的第i行元素的值,i=1,...n;Ti=Ai×Hi表示矩阵A中的第i行的值乘以矩阵H中第i行的值,得到矩阵T中第i行的值。
其中,所述迭代单元包括:
权威度计算单元:计算A=MH,M为语义相似度矩阵,H为导航度矩阵,A为权威度矩阵;
导航度计算单元:根据上式计算出的权威度矩阵A重新计算导航度矩阵H,H=MA;
收敛单元:重复上述迭代过程,直到达到收敛条件,得到导航度矩阵H和权威度矩阵A的最终值。
其中,所述重要知识点确定单元包括:
第一确定单元:将所有候选知识点的重要度降序排列,选择排序在前的预设数量的知识点作为重要知识点;
或第二确定单元:预先设置一个重要度阈值,选取重要度大于该阈值的候选知识点作为重要知识点。
本实施例提供一种获取领域重要知识点的系统,包括分词单元、候选知识点确定单元、语义向量确定单元、相似度矩阵建立单元、重要度确定单元以及重要知识点确定单元,根据该语义相似度矩阵来计算候选知识点中的重要知识点,这些知识点便是该领域内的重要知识点。当建设或检查领域百科全书时,可以根据这些重要知识点来建立词条,或者检查词条是否完善,将还没有收录的重要知识点增加在需要建设的词条中,通过这种方式来完成领域百科全书的词条的检查和建设,大大降低了人工的工作量。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (22)

1.一种获取领域重要知识点的方法,其特征在于,包括:
对领域文本进行分词,得到分词结果;
根据分词结果和常用词,确定候选知识点;
确定每个候选知识点的语义向量;
计算候选知识点之间的语义相似度,得到相似度矩阵;
利用所述相似度矩阵进行迭代,确定每个候选知识点的重要度信息;
根据所述重要度信息确定重要知识点。
2.根据权利要求1所述的方法,其特征在于,对领域文本进行分词,得到分词结果的处理,包括:
选择领域数字资源,从中抽取文本;
使用分词器对所述文本进行分词,得到分词后的文件,作为候选文件。
3.根据权利要求1或2所述的方法,其特征在于,所述根据分词结果和常用词,确定候选知识点的过程,包括:
选择常用文本的数字资源,对其进行分词确定常用词;
将候选文件中的词语去除所述常用词,得到候选知识点。
4.根据权利要求1-3任一所述的方法,其特征在于,所述确定每个候选知识点的语义向量的过程,包括:
确定每个候选知识点在候选文件中出现的次数;
根据每个候选知识点和该候选知识点在候选文本中出现的次数,计算带权路径长度最小的二叉树;
根据每个候选知识点在所述候选文本中的位置和带权路径长度最小的二叉树,确定每个候选知识点的语义向量。
5.根据权利要求4所述的方法,其特征在于,所述根据每个知识点在所述候选文本中的位置和带权路径长度最小的二叉树,确定每个知识点的语义向量的过程,包括:
选择一个神经网络模型;
以所述候选文件为训练样本,所述带权路径长度最小的二叉树为输出层,进行训练;
训练完成后,根据带权路径长度最小的二叉树中的节点向量获得每个候选知识点的语义向量。
6.根据权利要求1-5任一所述的方法,其特征在于,计算候选知识点之间的语义相似度,得到相似度矩阵,包括:
所述语义相似度的计算方法为:
f ( X , Y ) = X · Y | | X | | | | Y | | = Σ i = 1 m X i × Y i Σ i = 1 m ( X i ) 2 × Σ i = 1 m ( Y i ) 2
其中,X、Y为需要比较相似度的两个m列的向量,f(X,Y)为X、Y的语义相似度。
7.根据权利要求1-5任一所述的方法,其特征在于,计算候选知识点之间的语义相似度,得到相似度矩阵,包括:
所述语义相似度的计算方法为:
f ( X , Y ) = 2 Σ i = 1 m X i × Y i Σ i = 1 m ( x i ) 2 + Σ i = 1 m ( Y i ) 2
其中,X、Y为需要比较相似度的两个m列的向量,f(X,Y)为X、Y的语义相似度。
8.根据权利要求1-7所述的方法,其特征在于,所述利用所述相似度矩阵进行迭代,确定每个候选知识点的重要度信息的处理,包括:
设置导航度的初始值;
将所述相似度矩阵与所述导航度的值进行迭代,确定权威度信息和所述导航度的最终值;
根据所述权威度信息和所述导航度的最终值,确定每个候选知识点的重要度信息。
9.根据权利要求2所述的方法,其特征在于,所述根据所述权威度信息和所述导航度的最终值,确定每个候选知识点的重要度信息的处理,包括:
Ti=Ai×Hi
其中,候选知识点的重要度组成的重要度矩阵为T,H为导航度矩阵;A为权威度矩,这三个矩阵都是n行1列矩阵,n为候选中知识点的数目;Ti为重要度矩阵T中的第i行元素的值,Ai为权威度矩阵A中的第i行元素的值,Hi为导航度矩阵H中的第i行元素的值,i=1,...n;Ti=Ai×Hi表示矩阵A中的第i行的值乘以矩阵H中第i行的值,得到矩阵T中第i行的值。
10.根据权利要求2所述的方法,其特征在于,将所述关联度信息与所述导航度的值进行迭代,确定权威度信息和所述导航度的最终值的处理,包括二
计算A=MH,M语义相似度矩阵,H为导航度矩阵,A为权威度矩阵;
根据上式计算出的权威度矩阵A重新计算导航度矩阵H,H=MA;
重复上述迭代过程,直到达到收敛条件,得到导航度矩阵H和权威度矩阵A的最终值。
11.根据权利要求1所述的方法,其特征在于,所述根据所述重要度信息确定重要知识点处理,包括:
将所有候选知识点的重要度降序排列,选择排序在前的预设数量的知识点作为重要知识点;
或预先设置一个重要度阈值,选取重要度大于该阈值的候选知识点作为重要知识点。
12.一种获取领域重要知识点的系统,其特征在于,包括:
分词单元:对领域文本进行分词,得到分词结果;
候选知识点确定单元:根据分词结果和常用词,确定候选知识点;
语义向量确定单元:确定每个候选知识点的语义向量;
相似度矩阵建立单元:计算候选知识点之间的语义相似度,得到相似度矩阵;
重要度确定单元:利用所述相似度矩阵进行迭代,确定每个候选知识点的重要度信息;
重要知识点确定单元:根据所述重要度信息确定重要知识点。
13.根据权利要求12所述的系统,其特征在于,所述分词单元包括:
抽取单元:选择领域数字资源,从中抽取文本;
候选文件确定单元:使用分词器对所述文本进行分词,得到分词后的文件,作为候选文件。
14.根据权利要求12或13所述的系统,其特征在于,所述候选知识点确定单元包括:
常用词确定单元:选择常用文本的数字资源,对其进行分词确定常用词;
常用词去除单元:将候选文件中的词语去除所述常用词,得到候选知识点。
15.根据权利要求12-14任一所述的系统,其特征在于,语义向量确定单元包括:
统计单元:确定每个候选知识点在候选文件中出现的次数;
最优二叉树建立单元:根据每个候选知识点和该候选知识点在候选文本中出现的次数,计算带权路径长度最小的二叉树;
语义向量计算单元:根据每个候选知识点在所述候选文本中的位置和带权路径长度最小的二叉树,确定每个候选知识点的语义向量。
16.根据权利要求15所述的系统,其特征在于,所述语义向量计算单元包括:
建模单元:选择一个神经网络模型;
训练单元:以所述候选文件为训练样本,所述带权路径长度最小的二叉树为输出层,进行训练;
计算单元:训练完成后,根据带权路径长度最小的二叉树中的节点向量获得每个候选知识点的语义向量。
17.根据权利要求12-16任一所述的系统,其特征在于,所述相似度矩阵建立单元包括计算公式,如下:
f ( X , Y ) = X · Y | | X | | | | Y | | = Σ i = 1 m X i × Y i Σ i = 1 m ( X i ) 2 × Σ i = 1 m ( Y i ) 2
其中,X、Y为需要比较相似度的两个m列的向量,f(X,Y)为X、Y的语义相似度。
18.根据权利要求12-16任一所述的系统,其特征在于,相似度矩阵建立单元包括计算公式如下:
f ( X , Y ) = 2 Σ i = 1 m X i × Y i Σ i = 1 m ( x i ) 2 + Σ i = 1 m ( Y i ) 2
其中,X、Y为需要比较相似度的两个m列的向量,f(X,Y)为X、Y的语义相似度。
19.根据权利要求12-18所述的系统,其特征在于,重要度确定单元包括:
初始单元:设置导航度的初始值;
迭代单元:将所述相似度矩阵与所述导航度的值进行迭代,确定权威度信息和所述导航度的最终值;
重要度计算单元:根据所述权威度信息和所述导航度的最终值,确定每个候选知识点的重要度信息。
20.根据权利要求13所述的系统,其特征在于,所述重要度计算单元包括计算公式,如下:
Ti=Ai×Hi
其中,候选知识点的重要度组成的重要度矩阵为T,H为导航度矩阵;A为权威度矩,这三个矩阵都是n行1列矩阵,n为候选中知识点的数目;Ti为重要度矩阵T中的第i行元素的值,Ai为权威度矩阵A中的第i行元素的值,Hi为导航度矩阵H中的第i行元素的值,i=1,...n;Ti=Ai×Hi表示矩阵A中的第i行的值乘以矩阵H中第i行的值,得到矩阵T中第i行的值。
21.根据权利要求13所述的系统,其特征在于,所述迭代单元包括:
权威度计算单元:计算A=MH,M为语义相似度矩阵,H为导航度矩阵,A为权威度矩阵;
导航度计算单元:根据上式计算出的权威度矩阵A重新计算导航度矩阵H,H=MA;
收敛单元:重复上述迭代过程,直到达到收敛条件,得到导航度矩阵H和权威度矩阵A的最终值。
22.根据权利要求12所述的系统,其特征在于,所述重要知识点确定单元包括:
第一确定单元:将所有候选知识点的重要度降序排列,选择排序在前的预设数量的知识点作为重要知识点;
或第二确定单元:预先设置一个重要度阈值,选取重要度大于该阈值的候选知识点作为重要知识点。
CN201410497611.1A 2014-09-26 2014-09-26 一种获取领域重要知识点的方法和系统 Expired - Fee Related CN105468657B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410497611.1A CN105468657B (zh) 2014-09-26 2014-09-26 一种获取领域重要知识点的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410497611.1A CN105468657B (zh) 2014-09-26 2014-09-26 一种获取领域重要知识点的方法和系统

Publications (2)

Publication Number Publication Date
CN105468657A true CN105468657A (zh) 2016-04-06
CN105468657B CN105468657B (zh) 2019-06-04

Family

ID=55606361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410497611.1A Expired - Fee Related CN105468657B (zh) 2014-09-26 2014-09-26 一种获取领域重要知识点的方法和系统

Country Status (1)

Country Link
CN (1) CN105468657B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330023A (zh) * 2017-06-21 2017-11-07 北京百度网讯科技有限公司 基于关注点的文本内容推荐方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1168202A2 (en) * 2000-06-28 2002-01-02 Matsushita Electric Industrial Co., Ltd. Apparatus for retrieving similar documents and apparatus for extracting relevant keywords
JP2005250693A (ja) * 2004-03-02 2005-09-15 Tsubasa System Co Ltd 文字情報分類プログラム
CN101398814A (zh) * 2007-09-26 2009-04-01 北京大学 一种同时抽取文档摘要和关键词的方法及系统
CN103744951A (zh) * 2014-01-02 2014-04-23 上海大学 一种对文本中关键词重要性的排序方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1168202A2 (en) * 2000-06-28 2002-01-02 Matsushita Electric Industrial Co., Ltd. Apparatus for retrieving similar documents and apparatus for extracting relevant keywords
JP2005250693A (ja) * 2004-03-02 2005-09-15 Tsubasa System Co Ltd 文字情報分類プログラム
CN101398814A (zh) * 2007-09-26 2009-04-01 北京大学 一种同时抽取文档摘要和关键词的方法及系统
CN103744951A (zh) * 2014-01-02 2014-04-23 上海大学 一种对文本中关键词重要性的排序方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330023A (zh) * 2017-06-21 2017-11-07 北京百度网讯科技有限公司 基于关注点的文本内容推荐方法和装置
CN107330023B (zh) * 2017-06-21 2021-02-12 北京百度网讯科技有限公司 基于关注点的文本内容推荐方法和装置

Also Published As

Publication number Publication date
CN105468657B (zh) 2019-06-04

Similar Documents

Publication Publication Date Title
CN112214610B (zh) 一种基于跨度和知识增强的实体关系联合抽取方法
CN106886543B (zh) 结合实体描述的知识图谱表示学习方法和系统
CN109829162B (zh) 一种文本分词方法及装置
CN107967255A (zh) 一种判定文本相似性的方法和系统
CN110717034A (zh) 一种本体构建方法及装置
CN105608075A (zh) 一种相关知识点的获取方法及系统
CN105893362A (zh) 获取知识点语义向量的方法、确定相关知识点的方法及系统
CN103440287B (zh) 一种基于产品信息结构化的Web问答检索系统
CN106295796A (zh) 基于深度学习的实体链接方法
CN104573046A (zh) 一种基于词向量的评论分析方法及系统
CN109816438B (zh) 信息推送方法及装置
CN107818085A (zh) 阅读机器人进行阅读理解的答案选择方法及系统
CN103324700A (zh) 一种基于Web信息的本体概念属性学习方法
CN107608953A (zh) 一种基于不定长上下文的词向量生成方法
CN104699797B (zh) 一种网页数据结构化解析方法和装置
CN113380360B (zh) 一种基于多模态病历图的相似病历检索方法及系统
CN108920446A (zh) 一种工程文本的处理方法
CN111339249A (zh) 一种联合多角度特征的深度智能文本匹配方法和装置
CN111710428A (zh) 一种建模全局和局部上下文交互的生物医学文本表示方法
CN110516240A (zh) 一种基于Transformer的语义相似度计算模型DSSM技术
CN108021544B (zh) 对实体词的语义关系进行分类的方法、装置和电子设备
CN113779190B (zh) 事件因果关系识别方法、装置、电子设备与存储介质
CN106776782A (zh) 基于人工智能的语义相似度获取方法及装置
CN110032619A (zh) 一种基于深度学习的分词器训练方法及其装置
CN105447053A (zh) 计算领域知识点的相关知识点的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220621

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Patentee after: Peking University

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

Patentee before: Peking University

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190604

CF01 Termination of patent right due to non-payment of annual fee