CN109739977A - 基于非监督学习的图书概念前后序关系抽取方法 - Google Patents

基于非监督学习的图书概念前后序关系抽取方法 Download PDF

Info

Publication number
CN109739977A
CN109739977A CN201811500220.5A CN201811500220A CN109739977A CN 109739977 A CN109739977 A CN 109739977A CN 201811500220 A CN201811500220 A CN 201811500220A CN 109739977 A CN109739977 A CN 109739977A
Authority
CN
China
Prior art keywords
concept
books
indicates
order relation
chapters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811500220.5A
Other languages
English (en)
Other versions
CN109739977B (zh
Inventor
鲁伟明
周洋帆
吴飞
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201811500220.5A priority Critical patent/CN109739977B/zh
Publication of CN109739977A publication Critical patent/CN109739977A/zh
Application granted granted Critical
Publication of CN109739977B publication Critical patent/CN109739977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于非监督学习的图书概念前后序关系抽取方法:以同领域的海量图书和百度百科网页为语料,构建概念前后序关系分类模型和概念前后序关系发现模型,并进行迭代抽取;在概念前后序关系分类模型中,利用概念在图书中的分布规律、概念在百科中的分布规律抽取特征、概念词向量相似性,训练分类模型;在概念前后序关系发现模型中,利用概念前后序的性质,基于非自反性约束、位置前后约束、内容相关约束等约束,来发现概念之间的前后序关系;最后迭代执行概念前后序关系分类模型和概念前后序关系发现模型,直到达到最大迭代次数或者收敛为止;本发明可以自动从图书中抽取概念的前后序关系,在知识推荐、学习路径规划等方面均有重要应用。

Description

基于非监督学习的图书概念前后序关系抽取方法
技术领域
本发明涉及概念前后序关系抽取方法,尤其涉及一种基于非监督学习的图书概念前后序关系的抽取方法。
背景技术
图书作为重要的信息来源,具有很大潜在价值,从中可以挖掘很多有意义的信息,如问题的答案、实体、事件、概念的定义、概念的上下位关系、概念的前后序关系等;通过对此类信息的挖掘,可以更好的理解图书的内容,并且可以把图书中有价值的信息迁移到运用于其他领域;
概念前后序关系是指概念之间的依存关系,即理解一个概念需要提前理解其依赖的概念;如在微积分领域,学习概念“柯西中值定理”必须要先掌握概念“导数”,否则便无法理解;概念前后序关系正是概念之间的相互依赖,通过挖掘概念前后序关系,可以构建一个完整的知识网络,对于学习路线规划,课程推荐具均可应用,在教育领域有着丰富的前景;
目前的主要解决方案有四种,相对距离方法(refd),概念图学习方法(CGL),基于前后章节关联的恢复方法(CPR-Recover),基于特征提取的分类方法(MOOC);相对距离方法,全称为reference distance,简称refd;利用前后序概念之间相互提及对方的不一致性来判断概念前后序关系;Refd虽然为非监督方法,不需要预标注数据,但阈值的选择需要决策,不同阈值效果差别很大;而且作为判别方法,判别方式过于单一,容易引入噪音;概念图学习方法,全称concept graph learning,简称CGL;将一个领域的所有概念前后序关系构建成一个关系网络,通过一个关系矩阵求解;CGL在全局基础上对概念前后序关系进行学习,取得了不错的效果,但是需要大量标注,而且矩阵学习的过程有些粗糙,很多特征没有被挖掘;基于特征的分类器算法可针对多种结构化文本,例如MOOC;该算法充分利用概念前后序关系的特点,针对结构化文本提出多条具有价值的特征,然后使用训练数据训练随机森林分类模型,最后输出分类器预测的概念前后序分类结果。
发明内容
本发明解决了目前概念前后序关系判别的标注数据不足的问题,在不需要进行任何先验标注的情况下,取得了不错的结果,提出了一种基于迭代的非监督图书概念前后序关系抽取方法。
本发明解决其技术问题采用的技术方案如下:一种基于非监督学习的图书概念前后序关系抽取方法,包括以下步骤:
1)预处理数据:对同领域中海量的图书进行OCR识别,获取同领域中的百度百科网页,根据全体百度百科正文进行词向量训练;
2)利用概念在图书中的分布规律、概念在百科中的分布规律抽取特征、概念词向量相似性,将抽取的特征和概念前后序关系的标记作为输入,使用随机森林算法作为分类器,训练得到概念前后序关系分类模型;所述概念前后序关系的标记第一次迭代时随机初始化;
3)利用概念前后序关系之间的特性,包括非自反性约束、位置前后约束、内容相关约束、章节前后关联约束、范围大小约束,建立如下目标函数:
其中,A是概念前后序关系矩阵,ξ是章节前后关联约束的松弛项,λ1和λ2均表示系数,N表示概念的总数量,F表示概念前后序关系分类模型的输出,W(i,j)是概念i和概念j的相似度距离,根据词向量的cosine距离排序获得,||A(i,:)-A(j,:)||2表示概念i和概念j在全局前后序关系的差异;
将概念前后序关系分类模型的输出F作为输入,结合约束条件对目标函数进行凸优化运算,训练得到概念前后序关系发现模型,对模型的输出矩阵A的元素进行排序,从而得到概念前后序关系的标记,并作为概念前后序关系分类模型的输入;
4)迭代执行概念前后序关系分类模型和概念前后序关系发现模型,直到达到最大迭代次数或者收敛为止。
进一步地,所述步骤1)中,预处理数据具体步骤为:
1.1)图书OCR识别
将指定领域的图书的pdf进行OCR处理,获取结构化的xml文件;通过解析xml文件可以精准获取每一章的标题、子章节的标题内容以及每一个子章节的文本内容;
1.2)百度百科网页获取
借助百度百科,可以获取概念之间更多的特征,为后续的判断提供有利的依据;百科的摘要、内容、内链均可以为前后序关系判断提供依据;根据指定领域内的概念词表,利用爬虫爬取对应概念的百度百科,存入爬取后的原始html文件;然后,将内容、摘要、内链进行单独解析,存放在mongodb中,并利用Lucene建立索引文件,作为额外知识库进行补充;
1.3)词向量训练
以百度百科作为训练词向量的语料,利用Word2Vec工具来训练词向量,得到概念对应的词向量。
进一步地,所述步骤2)中,所述概念在百科中的分布规律包括:
a.百科摘要特征
摘要信息可以协助判断两个概念之间是否具有前后序关系;在概念对(a,b)中,如果概念a和概念b具有前后序关系,则在b的摘要定义中,可能会提及a;基于此观察,百科摘要特征定义如下:
其中Abst(b)表示概念b对应的百科词条的摘要;contains a表示摘要内容提及概念a,即概念a出现在摘要内容中;AbstContain(a,b)表示概念a和b基于百科摘要的特征值;
b.百科内容特征
在概念对(a,b)中,如果概念a和概念b具有前后序关系,则在概念b对应的百科词条的内容中会多次提及概念a;若没有关系,则彼此内容之间会互不提及;基于此观察,百科内容特征定义如下:
ContContain(a,b)=f(a,Cont(b))
其中Cont(b)表示概念b对应百科词条的内容,f(x,y)表示概念x在内容y出现的频次;ContContain(a,b)表示概念a和概念b基于百科内容特征的特征值;
c.百科链接Refd特征
Refd全称reference distance,是衡量概念前后序关系的重要特征之一;在概念对(a,b)中,如果概念a和概念b具有前后序关系,则它们各自对应的上下文提及对方的频次是不一样的;后序概念b的上下文中反复提及概念a;前序概念a的上下文中,却相对少的提及概念b;Refd即是利用这种非对称性特性而提取的特征;
基于此观察,百科链接Refd特征定义如下:
Lrd(a,b)=Link(b,a)-Link(a,b)
其中,L(a)表示概念a对应百科词条的内链词条的集合;r(b,L)表示词条L的内链中是否包含概念b,包含则记为1,否则记为0;|L(a)|表示概念a对应百科词条的内链总数;Link(a,b)表示在概念a的对应词条的内链中指向概念b的概率;Lrd(a,b)表示概念a和概念b基于百科链接Refd特征的特征值;
所述概念在图书中的分布规律包括:
A.图书一级章节refd特征
在概念对(a,b)中,如果概念a和概念b具有前后序关系,则在图书一级章节中,概念a的上下文提及概念b的概率和概念b的上下文提及概念a的概率是不同的;基于此观察,图书一级章节refd特征定义如下:
Crd1(a,b)=Crw1(b,a)-Crw1(a,b)
其中,D表示全体语料,B表示语料中的任意一本图书,C1表示图书中的任意一节一级章节;r(a,C1)表示一级章节C1是否提及概念a,若提及则记为1,否则记为0;Crw1(a,b)表示概念a在一级章节的上下文中,提及概念b的概率;Crd1(a,b)表示概念a和概念b基于图书一级章节refd特征的特征值;
B.图书二级章节refd特征
在概念对(a,b)中,同图书一级章节refd特征定义,图书二级章节的redf特定定义如下:
Crd2(a,b)=Crw2(b,a)-Crw2(a,b)
其中,D表示全体语料,B表示语料中的任意一本图书,C2表示图书中的任意一节二级章节;r(a,C2)表示二级章节C2是否提及概念a,若提及则记为1,否则记为0;Crw2(a,b)表示概念a在二级章节的上下文中,提及概念b的概率;Crd2(a,b)表示概念a和概念b基于图书二级章节refd特征的特征值;
C.图书复杂度特征
在概念对(a,b)中,如果概念a和概念b具有前后序关系,则概念a和概念b可能会具有不同的复杂度;复杂度可以在语料中出现的频次以及分布的情况来判定;基于此观察,图书复杂度特征定义如下:
Cld(a,b)=avc(a)*ast(a)-avc(b)*ast(b)
其中,B(a)表示提及概念a的图书的集合;|B(a)|表示提及概念a的图书的数量;B表示B(a)中的任意一本图书;C表示图书B中的任意一节一级章节;f(a,C)表示一级章节C内概念a的出现频次;|B|表示图书B的一级章节总数;I(a,B)表示概念a在图书B的出现章节的索引,max表示在该书的最后一次出现的索引,min表示在该书的第一次出现的索引;avc(a)表示概念a在图书章节中的平均出现频次;ast(a)表示概念a在图书章节的平均跨越度;Cld(a,b)表示概念a和概念b基于图书复杂度特征的特征值;
D.图书目录内容特征
在概念对(a,b)中,如果概念a出现在一级章节的目录标题中,概念b出现在目录对应的内容中,则概念a和概念b更可能具有前后序关系;基于此观察,图书目录特征定义如下:
其中,Catalog表示某一张目录,Content表示对于目录下正文内容;Cata(a,b)表示概念a和概念b基于图书目录内容特征的特征值;
E.图书位置特征
在概念对(a,b)中,如果概念a和概念b具有前后序关系,则概念a在图书第一次出现的位置可能在概念b之前;基于此观察,图书位置特征定义如下:
Posd(a,b)=Pos(b)-Pos(a)
其中,D表示全体语料;B表示语料中的任意一本图书;|D|表示语料包含图书的数量;Pos(a)表示概念a在语料库的平均出现位置;I(a,B)表示概念a在图书B的出现章节的索引,min表示在该书的第一次出现的索引;Posd(a,b)表示概念a和概念b基于图书位置特征的特征值;
所述概念词向量相似性特征具体为:
在概念对(a,b)中,如果概念a的词向量和概念b的词向量相似,则它们之间更有可能具有前后序关系;基于此观察,相似性特征定义如下:
其中,va表示概念a的词向量,vb表示概念b的词向量:公式相当于把[-1,1]分布变换成[0,1]分布;W(a,b)表示概念a和概念b基于概念相似性特征的特征值。
进一步地,所述步骤3)中,建立概念前后序关系发现模型的约束条件,约束是指根据概念前后序关系的特有性质,对优化目标建立合理的约束,使概念前后序关系计算的结果更加精确快速;约束主要分为五个方面,定义如下:
-1≤Ai,j≤1,0<i≠j<N
Ai,j+Ai,j=0,0<i≠j<N
第一条约束是关于矩阵A的范围大小约束,限定在[-1,1]之间,N表示概念的数量;
第二条约束是关于概念前后序关系的非自反性约束,用于避免环的出现,其中A′是A的转置矩阵;
第三条约束表示概念之间对应百科的内容相关约束,表示点乘,D表示概念之间的内容关系矩阵;Dij表示概念i和概念j之间的百科内容提及关系,若概念i对应的百科词条的内容提及概念j或概念j对应的百科词条内容提及概念i,则记录为1,否则记为0;概念之间的百科内容约束,可以减少计算量,同时提升准确率;
第四条约束表示概念之间的位置前后约束,p(i)表示概念i在图书中的平均位置;概念之间的位置前后约束意在表明在图书中后出现的概念不可能是先出现的概念的前序关系;
第五条约束表示图书的章节前后关联约束,表示语料库中第m本书的第i个一级章节的向量表示,用于描述该章节的概念组成;若存在某概念,则概念对应向量索引下的数值记录为1,否则记为0;M表示语料库图书数量,Mm表示第m本书的一级章节数目;表示第m本书的第i章节和第i+1章节的概念关联; Cm s,t=0;否则Cm s,t=1;矩阵C过滤出相邻章节的每一章独有的概念,作为章节前后依赖的关键;θ表示一个阈值;表示前后章节关联的松弛项;
进一步地,所述步骤3)中,所述目标函数中,λ1取1,λ2取0.5;W(i,j)取相似度距离top10%的值,记录在矩阵中,其余部分均记录为0,防止引入噪音;利用Mosek工具包对目标函数进行优化求解,得到概念前后序关系矩阵A,即概念前后序发现模型的输出是矩阵A,Ai,j表示概念i和概念j的前后序关系分数,若大于θ,概念i是概念j的前序词,若小于-θ,概念j是概念i的前序词;若在-θ和θ之间,则概念i和概念j没有前后序关系。
进一步地,所述步骤4)中,迭代运行过程具体步骤为:
4.1)随机初始化概念前后序分类模型的输出,记录输出为F;
4.2)运行概念前后序发现模型,在既定约束条件下,使用Mosek工具包对目标函数进行运算优化,输出概念前后序关系矩阵A;
4.3)在迭代运行过程中,第k轮对矩阵A进行如下处理:
4.3.1)将矩阵A的结果与阈值θ比较,判别并分离正负例;然后对矩阵A的结果进行排序;
4.3.2)选择排序后的正例中前部分的数据,作为训练数据的正例;
4.3.3)负例选择分为三部分,第一部分是正例的反置,第二部分是在A(i,j)=0的概念对中随机选择,第三部分是在|A(i,j)|<θ的概念对中随机选择;此三部分比例为0.2∶0.4∶0.4,负例数量和正例相同;
4.4)在概念前后序分类模型中,根据步骤4.3)生成的训练数据对分类器进行训练,输出分类器预测结果F;
4.5)重复步骤4.2)-4.4)过程,直到A收敛为止或者达到最大迭代次数。
本发明方法与现有技术相比具有以下效果:
1.该方法结合概念前后序分类模型和概念前后序发现模型,迭代运行,不需要依靠标注数据,实现了自动抽取概念前后序关系;
2.该方法针对概念前后序关系的特点,提出很多有价值的约束条件和特征计算方法,提升方法的准确性;
3.该方法引入额外的知识库,如百度百科,词向量,进一步提升了方法的可靠性。
附图说明
图1是本发明的总体框架图;
图2是本发明的概念前后序分类模型框架图;
图3是本发明的概念前后序发现模型框架图;
图4是本发明应用于大学物理领域的抽取结果;
图5是本发明在微积分、数据结构、大学物理的迭代收敛过程。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
实施例1
如图1-图3,本实施例基于非监督学习的图书概念前后序关系抽取方法的具体步骤如下:
1)预处理数据:对同领域中海量的图书进行OCR识别,获取同领域中的百度百科网页,根据全体百度百科正文进行词向量训练;具体包括:
1.1)图书OCR识别
将指定领域的图书的pdf进行OCR处理,获取结构化的xml文件;通过解析xml文件可以精准获取每一章的标题、子章节的标题内容以及每一个子章节的文本内容;
1.2)百度百科网页获取
借助百度百科,可以获取概念之间更多的特征,为后续的判断提供有利的依据;百科的摘要、内容、内链均可以为前后序关系判断提供依据;根据指定领域内的概念词表,利用爬虫爬取对应概念的百度百科,存入爬取后的原始html文件;然后,将内容、摘要、内链进行单独解析,存放在mongodb中,并利用Lucene建立索引文件,作为额外知识库进行补充;
1.3)词向量训练
以百度百科作为训练词向量的语料,利用Word2Vec工具来训练词向量,得到概念对应的词向量。
2)利用概念在图书中的分布规律、概念在百科中的分布规律抽取特征、概念词向量相似性,将抽取的特征和概念前后序关系的标记作为输入,使用随机森林算法作为分类器,训练得到概念前后序关系分类模型;所述概念前后序关系的标记第一次迭代时随机初始化;所述概念在百科中的分布规律包括:
a.百科摘要特征
摘要信息可以协助判断两个概念之间是否具有前后序关系;在概念对(a,b)中,如果概念a和概念b具有前后序关系,则在b的摘要定义中,可能会提及a;基于此观察,百科摘要特征定义如下:
其中Abst(b)表示概念b对应的百科词条的摘要;contains a表示摘要内容提及概念a,即概念a出现在摘要内容中;AbstContain(a,b)表示概念a和b基于百科摘要的特征值;
b.百科内容特征
在概念对(a,b)中,如果概念a和概念b具有前后序关系,则在概念b对应的百科词条的内容中会多次提及概念a;若没有关系,则彼此内容之间会互不提及;基于此观察,百科内容特征定义如下:
ContContain(a,b)=f(a,Cont(b))
其中Cont(b)表示概念b对应百科词条的内容,f(x,y)表示概念x在内容y出现的频次;ContContain(a,b)表示概念a和概念b基于百科内容特征的特征值;
c.百科链接Refd特征
Refd全称reference distance,是衡量概念前后序关系的重要特征之一;在概念对(a,b)中,如果概念a和概念b具有前后序关系,则它们各自对应的上下文提及对方的频次是不一样的;后序概念b的上下文中反复提及概念a;前序概念a的上下文中,却相对少的提及概念b;Refd即是利用这种非对称性特性而提取的特征;
基于此观察,百科链接Refd特征定义如下:
Lrd(a,b)=Link(b,a)-Link(a,b)
其中,L(a)表示概念a对应百科词条的内链词条的集合;r(b,L)表示词条L的内链中是否包含概念b,包含则记为1,否则记为0;|L(a)|表示概念a对应百科词条的内链总数;Link(a,b)表示在概念a的对应词条的内链中指向概念b的概率;Lrd(a,b)表示概念a和概念b基于百科链接Refd特征的特征值;
所述概念在图书中的分布规律包括:
A.图书一级章节refd特征
在概念对(a,b)中,如果概念a和概念b具有前后序关系,则在图书一级章节中,概念a的上下文提及概念b的概率和概念b的上下文提及概念a的概率是不同的;基于此观察,图书一级章节refd特征定义如下:
Crd1(a,b)=Crw1(b,a)-Crw1(a,b)
其中,D表示全体语料,B表示语料中的任意一本图书,C1表示图书中的任意一节一级章节;r(a,C1)表示一级章节C1是否提及概念a,若提及则记为1,否则记为0;Crw1(a,b)表示概念a在一级章节的上下文中,提及概念b的概率;Crd1(a,b)表示概念a和概念b基于图书一级章节refd特征的特征值;
B.图书二级章节refd特征
在概念对(a,b)中,同图书一级章节refd特征定义,图书二级章节的redf特定定义如下:
Crd2(a,b)=Crw2(b,a)-Crw2(a,b)
其中,D表示全体语料,B表示语料中的任意一本图书,C2表示图书中的任意一节二级章节;r(a,C2)表示二级章节C2是否提及概念a,若提及则记为1,否则记为0;Crw2(a,b)表示概念a在二级章节的上下文中,提及概念b的概率;Crd2(a,b)表示概念a和概念b基于图书二级章节refd特征的特征值;
C.图书复杂度特征
在概念对(a,b)中,如果概念a和概念b具有前后序关系,则概念a和概念b可能会具有不同的复杂度;复杂度可以在语料中出现的频次以及分布的情况来判定;基于此观察,图书复杂度特征定义如下:
Cld(a,b)=avc(a)*ast(a)-avc(b)*ast(b)
其中,B(a)表示提及概念a的图书的集合;|B(a)|表示提及概念a的图书的数量;B表示B(a)中的任意一本图书;C表示图书B中的任意一节一级章节;f(a,C)表示一级章节C内概念a的出现频次;|B|表示图书B的一级章节总数;I(a,B)表示概念a在图书B的出现章节的索引,max表示在该书的最后一次出现的索引,min表示在该书的第一次出现的索引;avc(a)表示概念a在图书章节中的平均出现频次;ast(a)表示概念a在图书章节的平均跨越度;Cld(a,b)表示概念a和概念b基于图书复杂度特征的特征值;
D.图书目录内容特征
在概念对(a,b)中,如果概念a出现在一级章节的目录标题中,概念b出现在目录对应的内容中,则概念a和概念b更可能具有前后序关系;基于此观察,图书目录特征定义如下:
其中,Catalog表示某一张目录,Content表示对于目录下正文内容;Cata(a,b)表示概念a和概念b基于图书目录内容特征的特征值;
E.图书位置特征
在概念对(a,b)中,如果概念a和概念b具有前后序关系,则概念a在图书第一次出现的位置可能在概念b之前;基于此观察,图书位置特征定义如下:
Posd(a,b)=Pos(b)-Pos(a)
其中,D表示全体语料;B表示语料中的任意一本图书;|D|表示语料包含图书的数量;Pos(a)表示概念a在语料库的平均出现位置;I(a,B)表示概念a在图书B的出现章节的索引,min表示在该书的第一次出现的索引;Posd(a,b)表示概念a和概念b基于图书位置特征的特征值;
所述概念词向量相似性特征具体为:
在概念对(a,b)中,如果概念a的词向量和概念b的词向量相似,则它们之间更有可能具有前后序关系;基于此观察,相似性特征定义如下:
其中,va表示概念a的词向量,vb表示概念b的词向量:公式相当于把[-1,1]分布变换成[0,1]分布;W(a,b)表示概念a和概念b基于概念相似性特征的特征值。
3)利用概念前后序关系之间的特性,包括非自反性约束、位置前后约束、内容相关约束、章节前后关联约束、范围大小约束,建立如下目标函数:
其中,A是概念前后序关系矩阵,ξ是章节前后关联约束的松弛项,λ1和λ2均表示系数,N表示概念的总数量,F表示概念前后序关系分类模型的输出,W(i,j)是概念i和概念j的相似度距离,根据词向量的cosine距离排序获得,||A(i,:)-A(j,:)||2表示概念i和概念j在全局前后序关系的差异;本实施例中,λ1取1,λ2取0.5;W(i,j)取相似度距离top10%的值,记录在矩阵中,其余部分均记录为0,防止引入噪音;
所述目标函数由三部分组成;第一部分是正则化项,用于防止过拟合;第二部分是输出矩阵和输入矩阵的差值平方和,目的是让输出矩阵和输入矩阵在满足约束的情况下,保持一致性,在输入矩阵的基础上提升效果;第三部分是关于概念之间的相似性的计算,基于相似的概念具有相似的前后序关系;
将概念前后序关系分类模型的输出F作为输入,结合约束条件对目标函数进行凸优化运算,训练得到概念前后序关系发现模型,对模型的输出矩阵A的元素进行排序,从而得到概念前后序关系的标记,并作为概念前后序关系分类模型的输入;
建立概念前后序关系发现模型的约束条件,约束是指根据概念前后序关系的特有性质,对优化目标建立合理的约束,使概念前后序关系计算的结果更加精确快速;约束主要分为五个方面,定义如下:
-1≤Ai,j≤1,0<i≠j<N
Ai,j+A′i,j=0,0<i≠j<N
第一条约束是关于矩阵A的范围大小约束,限定在[-1,1]之间,N表示概念的数量;
第二条约束是关于概念前后序关系的非自反性约束,用于避免环的出现,其中A′是A的转置矩阵;例如若概念a是概念b的前序词,则概念b是概念a的后序词,不会出现互为前序词或者后序词;
第三条约束表示概念之间对应百科的内容相关约束,表示点乘,D表示概念之间的内容关系矩阵;Dij表示概念i和概念j之间的百科内容提及关系,若概念i对应的百科词条的内容提及概念j或概念j对应的百科词条内容提及概念i,则记录为1,否则记为0;概念之间的百科内容约束,可以减少计算量,同时提升准确率;
第四条约束表示概念之间的位置前后约束,p(i)表示概念i在图书中的平均位置;概念之间的位置前后约束意在表明在图书中后出现的概念不可能是先出现的概念的前序关系;
第五条约束表示图书的章节前后关联约束,表示语料库中第m本书的第i个一级章节的向量表示,用于描述该章节的概念组成;若存在某概念,则概念对应向量索引下的数值记录为1,否则记为0;M表示语料库图书数量,Mm表示第m本书的一级章节数目;表示第m本书的第i章节和第i+1章节的概念关联; Cm s,t=0;否则Cm s,t=1;矩阵C过滤出相邻章节的每一章独有的概念,作为章节前后依赖的关键;θ表示一个阈值,本实施例中取值0.6;表示前后章节关联的松弛项;
利用Mosek工具包对目标函数进行优化求解,得到概念前后序关系矩阵A,即概念前后序发现模型的输出是矩阵A,Ai,j表示概念i和概念j的前后序关系分数,若大于θ,概念i是概念j的前序词,若小于-θ,概念j是概念i的前序词;若在-θ和θ之间,则概念i和概念j没有前后序关系;
4)迭代执行概念前后序关系分类模型和概念前后序关系发现模型,直到达到最大迭代次数或者收敛为止;迭代运行过程具体步骤为:
4.1)随机初始化概念前后序分类模型的输出,记录输出为F;
4.2)运行概念前后序发现模型,在既定约束条件下,使用Mosek工具包对目标函数进行运算优化,输出概念前后序关系矩阵A;
4.3)在迭代运行过程中,第k轮对矩阵A进行如下处理:
4.3.1)将矩阵A的结果与阈值θ比较,判别并分离正负例;然后对矩阵A的结果进行排序;
4.3.2)选择排序后的正例中前部分的数据,作为训练数据的正例;
4.3.3)负例选择分为三部分,第一部分是正例的反置,第二部分是在A(i,j)=0的概念对中随机选择,第三部分是在|A(i,j)|<θ的概念对中随机选择;此三部分比例为0.2∶0.4∶0.4,负例数量和正例相同;
4.4)在概念前后序分类模型中,根据步骤4.3)生成的训练数据对分类器进行训练,输出分类器预测结果F;
4.5)重复步骤4.2)-4.4)过程,直到A收敛为止或者达到最大迭代次数。
实施例2
1.实验采集的数据均来自于图书馆OCR处理的图书,分为三个领域,微积分,数据结构,大学物理;每个领域各自选取6本书,每本书用结构化的xml文本表示,通过解析xml文本,能够获取每一章节的标题、正文;在关键词选取中;微积分领域选取了90个概念词,数据结构选取了99个概念词,大学物理选择149个概念词;同时爬取了概念词的百度百科,若不存在则视为空;词向量利用gensim工具包,将百度百科作为训练语料,训练得到100维的中文词向量,用于实验。
2.在概念前后序分类模型中,利用图书的结构化文本,图书概念的百度百科,概念的词向量抽取上述的10条特征,使用随机森林作为分类器;采用概念前后序发现模型的输出排序作为训练数据,训练完的分类器对全体数据进行预测,输出预测结果。
3.在概念前后序发现模型中,利用概念前后序关系的非自反性,位置顺序性,百科相关性,前后章节关联性等建立概念前后序关系约束,同时建立目标函数;利用矩阵数据保存,利用mosek工具包进行凸优化计算,输出最终结果。
4.在迭代执行中,对概念前后序发现模型的输出进行排序,选择部分数据作为训练数据作为概念前后序关系分类模型的输入;概念前后序关系分类模型的输出作为概念前后序关系发现模型的输入,迭代运行,直到达到一定次数或者收敛为止。
表1显示本发明在微积分领域的抽取结果,图5显示了本发明的收敛情况;可以看出概念前后序关系抽取方法在三个领域均取得了不错的效果,而且都是逐步收敛,证明非监督方法的可靠性;
表1前后序抽取在微积分领域的抽取结果
method\measure precision recall fscore
refd 0.354929577 0.574031891 0.438642298
cpr--recover 0.446982055 0.624145786 0.520912548
本方法 0.92481203 0.560364465 0.69787234
上述具体实施方式用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (6)

1.一种基于非监督学习的图书概念前后序关系抽取方法,其特征在于,包括以下步骤:
1)预处理数据:对同领域中海量的图书进行OCR识别,获取同领域中的百度百科网页,根据全体百度百科正文进行词向量训练;
2)利用概念在图书中的分布规律、概念在百科中的分布规律抽取特征、概念词向量相似性,将抽取的特征和概念前后序关系的标记作为输入,使用随机森林算法作为分类器,训练得到概念前后序关系分类模型;所述概念前后序关系的标记第一次迭代时随机初始化;
3)利用概念前后序关系之间的特性,包括非自反性约束、位置前后约束、内容相关约束、章节前后关联约束、范围大小约束,建立如下目标函数:
其中,A是概念前后序关系矩阵,ξ是章节前后关联约束的松弛项,λ1和λ2均表示系数,N表示概念的总数量,F表示概念前后序关系分类模型的输出,W(i,j)是概念i和概念j的相似度距离,根据词向量的cosine距离排序获得,||A(i,:)-A(j,:)||2表示概念i和概念j在全局前后序关系的差异;
将概念前后序关系分类模型的输出F作为输入,结合约束条件对目标函数进行凸优化运算,训练得到概念前后序关系发现模型,对模型的输出矩阵A的元素进行排序,从而得到概念前后序关系的标记,并作为概念前后序关系分类模型的输入;
4)迭代执行概念前后序关系分类模型和概念前后序关系发现模型,直到达到最大迭代次数或者收敛为止。
2.根据权利要求1所述的基于非监督学习的图书概念前后序关系抽取方法,其特征在于,所述步骤1)中,预处理数据具体步骤为:
1.1)图书OCR识别
将指定领域的图书的pdf进行OCR处理,获取结构化的xml文件;通过解析xml文件可以精准获取每一章的标题、子章节的标题内容以及每一个子章节的文本内容;
1.2)百度百科网页获取
根据指定领域内的概念词表,利用爬虫爬取对应概念的百度百科,存入爬取后的原始html文件;然后,将内容、摘要、内链进行单独解析,存放在mongodb中,并利用Lucene建立索引文件,作为额外知识库进行补充;
1.3)词向量训练
以百度百科作为训练词向量的语料,利用Word2Vec工具来训练词向量,得到概念对应的词向量。
3.根据权利要求1所述的基于非监督学习的图书概念前后序关系抽取方法,其特征在于,所述步骤2)中,所述概念在百科中的分布规律包括:
a.百科摘要特征,其定义如下:
其中Abst(b)表示概念b对应的百科词条的摘要;contains a表示摘要内容提及概念a,即概念a出现在摘要内容中;AbstContain(a,b)表示概念a和b基于百科摘要的特征值;
b.百科内容特征,其定义如下:
ContContain(a,b)=f(a,Cont(b))
其中Cont(b)表示概念b对应百科词条的内容,f(x,y)表示概念x在内容y出现的频次;ContContain(a,b)表示概念a和概念b基于百科内容特征的特征值;
c.百科链接Refd特征,其定义如下:
Lrd(a,b)=Link(b,a)-Link(a,b)
其中,L(a)表示概念a对应百科词条的内链词条的集合;r(b,L)表示词条L的内链中是否包含概念b,包含则记为1,否则记为0;|L(a)|表示概念a对应百科词条的内链总数;Link(a,b)表示在概念a的对应词条的内链中指向概念b的概率;Lrd(a,b)表示概念a和概念b基于百科链接Refd特征的特征值;
所述概念在图书中的分布规律包括:
A.图书一级章节refd特征,其定义如下:
Crd1(a,b)=Crw1(b,a)-Crw1(a,b)
其中,D表示全体语料,B表示语料中的任意一本图书,C1表示图书中的任意一节一级章节;r(a,C1)表示一级章节C1是否提及概念a,若提及则记为1,否则记为0;Crw1(a,b)表示概念a在一级章节的上下文中,提及概念b的概率;Crd1(a,b)表示概念a和概念b基于图书一级章节refd特征的特征值;
B.图书二级章节refd特征,其定义如下:
Crd2(a,b)=Crw2(b,a)-Crw2(a,b)
其中,D表示全体语料,B表示语料中的任意一本图书,C2表示图书中的任意一节二级章节;r(a,C2)表示二级章节C2是否提及概念a,若提及则记为1,否则记为0;Crw2(a,b)表示概念a在二级章节的上下文中,提及概念b的概率;Crd2(a,b)表示概念a和概念b基于图书二级章节refd特征的特征值;
C.图书复杂度特征,其定义如下:
Cld(a,b)=avc(a)*ast(a)-avc(b)*ast(b)
其中,B(a)表示提及概念a的图书的集合;|B(a)|表示提及概念a的图书的数量;B表示B(a)中的任意一本图书;C表示图书B中的任意一节一级章节;f(a,C)表示一级章节C内概念a的出现频次;|B|表示图书B的一级章节总数;I(a,B)表示概念a在图书B的出现章节的索引,max表示在该书的最后一次出现的索引,min表示在该书的第一次出现的索引;avc(a)表示概念a在图书章节中的平均出现频次;ast(a)表示概念a在图书章节的平均跨越度;Cld(a,b)表示概念a和概念b基于图书复杂度特征的特征值;
D.图书目录内容特征,其定义如下:
其中,Catalog表示某一张目录,Content表示对于目录下正文内容;Cata(a,b)表示概念a和概念b基于图书目录内容特征的特征值;
E.图书位置特征,其定义如下:
Posd(a,b)=Pos(b)-Pos(a)
其中,D表示全体语料;B表示语料中的任意一本图书;|D|表示语料包含图书的数量;Pos(a)表示概念a在语料库的平均出现位置;I(a,B)表示概念a在图书B的出现章节的索引,min表示在该书的第一次出现的索引;Posd(a,b)表示概念a和概念b基于图书位置特征的特征值;
所述概念词向量相似性特征的定义如下:
其中,va表示概念a的词向量,vb表示概念b的词向量:公式相当于把[-1,1]分布变换成[0,1]分布;W(a,b)表示概念a和概念b基于概念相似性特征的特征值。
4.根据权利要求1所述的基于非监督学习的图书概念前后序关系抽取方法,其特征在于,所述步骤3)中,约束主要分为五个方面,定义如下:
-1≤Ai,j≤1,0<i≠j<N
Ai,j+A′i,j=0,0<i≠j<N
第一条约束是关于矩阵A的范围大小约束,限定在[-1,1]之间,N表示概念的数量;
第二条约束是关于概念前后序关系的非自反性约束,用于避免环的出现,其中A′是A的转置矩阵;
第三条约束表示概念之间对应百科的内容相关约束,表示点乘,D表示概念之间的内容关系矩阵;Dij表示概念i和概念j之间的百科内容提及关系,若概念i对应的百科词条的内容提及概念j或概念j对应的百科词条内容提及概念i,则记录为1,否则记为0;
第四条约束表示概念之间的位置前后约束,p(i)表示概念i在图书中的平均位置;
第五条约束表示图书的章节前后关联约束,表示语料库中第m本书的第i个一级章节的向量表示,用于描述该章节的概念组成;若存在某概念,则概念对应向量索引下的数值记录为1,否则记为0;M表示语料库图书数量,Mm表示第m本书的一级章节数目;表示第m本书的第i章节和第i+1章节的概念关联; Cm s,t=0;否则Cm s,t=1;矩阵C过滤出相邻章节的每一章独有的概念,作为章节前后依赖的关键;θ表示一个阈值;表示前后章节关联的松弛项。
5.根据权利要求1所述的基于非监督学习的图书概念前后序关系抽取方法,其特征在于,所述步骤3)中,所述目标函数中,λ1取1,λ2取0.5;W(i,j)取相似度距离top10%的值,记录在矩阵中,其余部分均记录为0,防止引入噪音;利用Mosek工具包对目标函数进行优化求解,得到概念前后序关系矩阵A,即概念前后序发现模型的输出是矩阵A,Ai,j表示概念i和概念j的前后序关系分数,若大于θ,概念i是概念j的前序词,若小于-θ,概念j是概念i的前序词;若在-θ和θ之间,则概念i和概念j没有前后序关系;θ取值0.6。
6.根据权利要求1所述的基于非监督学习的图书概念前后序关系抽取方法,其特征在于,所述步骤4)中,迭代运行过程具体步骤为:
4.1)随机初始化概念前后序分类模型的输出,记录输出为F;
4.2)运行概念前后序发现模型,在既定约束条件下,使用Mosek工具包对目标函数进行运算优化,输出概念前后序关系矩阵A;
4.3)在迭代运行过程中,第k轮对矩阵A进行如下处理:
4.3.1)将矩阵A的结果与阈值θ比较,判别并分离正负例;然后对矩阵A的结果进行排序;
4.3.2)选择排序后的正例中前部分的数据,作为训练数据的正例;
4.3.3)负例选择分为三部分,第一部分是正例的反置,第二部分是在A(i,j)=0的概念对中随机选择,第三部分是在|A(i,j)|<θ的概念对中随机选择;此三部分比例为0.2∶0.4∶0.4,负例数量和正例相同;
4.4)在概念前后序分类模型中,根据步骤4.3)生成的训练数据对分类器进行训练,输出分类器预测结果F;
4.5)重复步骤4.2)-4.4)过程,直到A收敛为止或者达到最大迭代次数。
CN201811500220.5A 2018-12-07 2018-12-07 基于非监督学习的图书概念前后序关系抽取方法 Active CN109739977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811500220.5A CN109739977B (zh) 2018-12-07 2018-12-07 基于非监督学习的图书概念前后序关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811500220.5A CN109739977B (zh) 2018-12-07 2018-12-07 基于非监督学习的图书概念前后序关系抽取方法

Publications (2)

Publication Number Publication Date
CN109739977A true CN109739977A (zh) 2019-05-10
CN109739977B CN109739977B (zh) 2020-10-23

Family

ID=66358659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811500220.5A Active CN109739977B (zh) 2018-12-07 2018-12-07 基于非监督学习的图书概念前后序关系抽取方法

Country Status (1)

Country Link
CN (1) CN109739977B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455576A (zh) * 2013-08-22 2013-12-18 西安交通大学 一种基于思维地图的网络学习资源推荐方法
CN103646099A (zh) * 2013-12-19 2014-03-19 南京大学 一种基于多层图的论文推荐方法
CN105808768A (zh) * 2016-03-19 2016-07-27 浙江大学 一种基于图书的概念-描述词知识网络的构建方法
CN105893485A (zh) * 2016-03-29 2016-08-24 浙江大学 一种基于图书目录的专题自动生成方法
CN106649597A (zh) * 2016-11-22 2017-05-10 浙江大学 一种基于图书内容的图书书后索引自动构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455576A (zh) * 2013-08-22 2013-12-18 西安交通大学 一种基于思维地图的网络学习资源推荐方法
CN103646099A (zh) * 2013-12-19 2014-03-19 南京大学 一种基于多层图的论文推荐方法
CN105808768A (zh) * 2016-03-19 2016-07-27 浙江大学 一种基于图书的概念-描述词知识网络的构建方法
CN105893485A (zh) * 2016-03-29 2016-08-24 浙江大学 一种基于图书目录的专题自动生成方法
CN106649597A (zh) * 2016-11-22 2017-05-10 浙江大学 一种基于图书内容的图书书后索引自动构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YIMING YANG等: ""concept gragh learning from educational data"", 《WSDM 15:PROCEEDINGS OF THE EIGHTH ACM INTERNATIONAL CONFERENCE ON WEB SEARCH AND DATA MINING》 *

Also Published As

Publication number Publication date
CN109739977B (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
Aydadenta et al. A clustering approach for feature selection in microarray data classification using random forest
CN104408153B (zh) 一种基于多粒度主题模型的短文本哈希学习方法
CN105808732A (zh) 一种基于深度度量学习的一体化目标属性识别与精确检索方法
CN110188346A (zh) 一种基于信息抽取的网络安全法案件智能研判方法
CN106294344A (zh) 视频检索方法和装置
CN105389326B (zh) 基于弱匹配概率典型相关性模型的图像标注方法
CN106126751A (zh) 一种具有时间适应性的分类方法及装置
CN114186017B (zh) 基于多维度匹配的代码搜索方法
CN109408743A (zh) 文本链接嵌入方法
CN111428511B (zh) 一种事件检测方法和装置
CN107291895B (zh) 一种快速的层次化文档查询方法
CN107315731A (zh) 文本相似度计算方法
CN103778262A (zh) 基于叙词表的信息检索方法及装置
CN113779264A (zh) 基于专利供需知识图谱的交易推荐方法
CN115688024A (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN115050014A (zh) 一种基于图像文本学习的小样本番茄病害识别系统及方法
CN113434418A (zh) 知识驱动的软件缺陷检测与分析方法及系统
Bakirli et al. DTreeSim: A new approach to compute decision tree similarity using re-mining
Zhou et al. Hyperspectral image change detection by self-supervised tensor network
CN110992194A (zh) 一种基于含属性的多进程采样图表示学习模型的用户参考指数算法
CN103559510B (zh) 一种利用相关主题模型识别社会群体行为的方法
CN115063604B (zh) 特征提取模型训练、目标重识别方法及装置
CN109739977A (zh) 基于非监督学习的图书概念前后序关系抽取方法
CN105574038B (zh) 基于反识别渲染的文本内容识别率测试方法及装置
CN110457543A (zh) 一种基于端到端多视角匹配的实体消解方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant