CN110209814B - 一种利用领域建模从百科知识网站抽取知识主题的方法 - Google Patents

一种利用领域建模从百科知识网站抽取知识主题的方法 Download PDF

Info

Publication number
CN110209814B
CN110209814B CN201910435042.0A CN201910435042A CN110209814B CN 110209814 B CN110209814 B CN 110209814B CN 201910435042 A CN201910435042 A CN 201910435042A CN 110209814 B CN110209814 B CN 110209814B
Authority
CN
China
Prior art keywords
knowledge
terms
term
topic
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910435042.0A
Other languages
English (en)
Other versions
CN110209814A (zh
Inventor
魏笔凡
张铎
刘均
肖天安
吴蓓
马杰
郭朝彤
吴科炜
李鸿轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910435042.0A priority Critical patent/CN110209814B/zh
Publication of CN110209814A publication Critical patent/CN110209814A/zh
Application granted granted Critical
Publication of CN110209814B publication Critical patent/CN110209814B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种利用领域建模从百科知识网站抽取知识主题的方法,首先从给定领域中提取出知识术语集并进行少量主题标注,然后通过向量化表示已标注知识术语的语义属性与拓扑特征构建训练样本集,并对二元分类器进行训练,从而得到主题特征分类模型,通过主题特征分类模型实现知识主题抽取。本发明可以实现从百科知识类网站高效且全面的抽取特定领域的知识主题。

Description

一种利用领域建模从百科知识网站抽取知识主题的方法
技术领域
本发明涉及对百科类网站数据信息的获取方法,主要涉及对特定知识领域进行知识术语获取,并利用领域知识主题特征分类模型的构建,从而获得知识主题集的方法。
背景技术
知识碎片化问题伴随着知识的快速增长而产生,是指知识领域不同主题的内容分布在多个数据源中无法被有效认知的现象,它会导致学习者被海量的知识淹没而难以找出自己真正需要的内容。关于碎片化知识聚合的研究已经得到了学术界的广泛关注。知识森林这种知识聚合模式能够将碎片化分布的知识聚合为符合学习者认知的具有关联性、整体性的森林结构。而知识主题是形成知识森林的基础内容,知识主题具有饱满的内容分面信息,其通常还具有一定的抽象性,基于知识主题可以构建知识主题分面树。由特定领域下所有知识主题形成的知识主题分面树构成了该领域的知识森林。
申请人通过查新,检索到2篇与本专利密切相关的专利,专利1为一种知识主题和资源文件的关联方法,专利申请号:2018102655684;专利2为一种基于图数据库的知识森林构建方法,专利申请号:2018100684907。专利1方法包括四个步骤:首先,检索指定格式资源文件;其次,针对资源文件提取关键词集合;再次,通过各关键词与各资源文件的文件名称之间字符匹配算法建立关键词文件索引;最后,计算知识主题与关键词集合中各关键词的相似度等,并建立树形结构。专利2方法包括三个步骤:首先,构建实例化知识主题分面树;其次,生成知识主题间认知关系,最后,存储知识森林数据。
上述专利分别考虑了知识主题的资源关联问题及知识主题分面树的构建与实例化问题,但并未考虑知识主题集的获得问题,因此无法实现高质量、全面的知识主题抽取,也没有解决主题集从完全依赖人工标注到自动采集的转变问题。
发明内容
本发明的目的在于提供一种利用领域建模从百科知识网站抽取知识主题的方法,可通过网页爬取与领域建模来实现知识主题的抽取。
为实现上述目的,本发明采用了以下技术方案:
1)对百科类网站中某特定领域下的知识术语进行爬取,得到知识术语集DTS;
2)对知识术语集DTS中的少部分知识术语按照是否属于知识主题进行标注;
3)获取已标注知识术语的语义属性与拓扑特征;
4)通过向量化表示已标注知识术语的语义属性与拓扑特征构建训练样本集,并对二元分类器进行训练,将知识术语集DTS输入训练后的二元分类器,根据该二元分类器输出的结果对所述领域的知识主题进行抽取,得到知识主题集KTS。
优选的,所述步骤1)具体包括以下步骤:通过分析百科类网站的目录结构与页面结构,确定网页爬虫程序的爬取路径,所述爬取路径从百科类网站某领域的根目录页起始,通过深度遍历根目录页的子页面的超链接延伸多层,并对各级目录相关的术语页面进行爬取;在爬取过程中或者在爬取结束后剔除非知识术语及重复术语。
优选的,所述网页爬虫的程序设计采用WebWagic框架。
优选的,所述知识术语的爬取路径具体为:爬取领域根目录的子目录对应的超链接,并将这部分子目录作为一层候选术语;对一层候选术语超链接下的子目录进行解析,得到二层候选术语,对二层候选术语超链接下的子目录进行解析,得到三层候选术语。
优选的,所述剔除非知识术语具体包括以下步骤:将字符串较长、术语页面内分面数较少及外向超链接数量较少的术语从对应层级的候选术语中去除。
优选的,所述步骤2)具体包括以下步骤:从知识术语集DTS中随机选取20%以下的术语进行主题人工标注,通过标注将选取的术语是否作为知识主题以二元结果表示。
优选的,所述步骤3)中,分别采用TF·IDF算法以及基于带标签的隐形语义分布L-LDA模型计算得到语义属性。
优选的,所述步骤3)中,采用术语间3-MOTIF的程度度量拓扑特征。
优选的,所述步骤4)中,训练样本集分别表示为:
Figure BDA0002070267760000021
其中
Figure BDA0002070267760000022
Figure BDA0002070267760000023
其中
Figure BDA0002070267760000024
其中,c(x)表示术语样本x的实际标注结果,Ta是训练数据集Xa语义属性的标签,Tb是训练数据集Xb拓扑特征的标签,n和m表示数据集中术语的数目,n=m。
优选的,所述步骤4)中,二元分类器输出的结果是对知识术语是否成为知识主题的二元判定,二元分类器的构建采用决策树分类算法。
与现有技术相比,本发明具有以下有益的技术效果:
本发明利用分步的方式,首先从给定领域中提取出知识术语集并进行少量主题标注,然后通过向量化表示已标注知识术语的语义属性与拓扑特征构建训练样本集,并训练二元分类器,得到主题特征分类模型,通过主题特征分类模型实现知识主题抽取。本发明可以实现从百科知识类网站高效且全面的抽取领域的知识主题。
进一步的,使用基于WebMagic框架可以简化爬虫程序构建的过程,使得爬取到的知识术语的不同层次结构清晰明了。
进一步的,通过预处理有效地剔除粗术语集中的噪声数据,得到符合要求的知识术语,提高模型构建效率及主题抽取的有效性。
进一步的,使用知识主题语义属性与拓扑特征,结合决策树分类算法构建主题二元分类器,利用少量标注数据训练二元分类器,即而实现知识主题的二元分类与抽取。
附图说明
图1是本发明实施例中实现知识主题抽取的流程框图。
图2是本发明实施例中知识术语预处理程序结构。
图3是本发明实施例中二元分类器框架图。
具体实施方式
下面结合附图和实施例对本发明做进一步的详细说明,所述实施例是对本发明的解释,而不是对本发明保护范围的限制。
本发明是一种从百科知识网站(以维基百科为例进行说明)进行领域建模实现知识主题抽取的方法,该方法通过自动爬取百科知识网站(以维基百科为例)的网页中特定领域的知识术语,以及对少量知识术语进行标注,进而进行属性特征归纳与该领域主题抽取模型构建,利用建模结果实现对对应领域的知识主题集的抽取。该方法具体包括以下四个步骤,参见图1所示:
步骤1、分析维基百科(Wikipedia)Web目录结构(例如,Category,即分类)以及页面结构;根据这些结构的特点针对性地构建网页爬虫程序,以特定领域的根目录页为起始,深度遍历其子页面的超链接,按目录结构延伸多层,获得粗术语集,同时对各层目录对应的具体知识介绍页面进行爬取,存入数据库中。
步骤1中,粗术语集的获取,具体包括以下步骤:
(1.1)通过对维基百科目录结构的特点进行分析,确定待研究知识领域的根目录页面,称为领域根目录,同时根据根目录页面中目录层次结构给出的超链接,确定领域根目录及其各级子目录(Sub Category)的所属关系,得到领域目录结构;
(1.2)解析维基百科术语页面:确定以下需要爬取并分析的领域目录结构中各层目录下的相关术语页面(术语即目录名)的分面:Item Name、Abstract、Contents(目录)、Article及External link(外向超链接);
(1.3)将领域目录结构及其相关术语页面用形式化的目录结构图CSWG=(C,P,E)表示,其中C(Category)代表领域目录结构,P(Page)代表该领域目录下所有术语页面的集合,E(Edge)代表页面节点Pi与Pj各自所对应目录之间的超链接Ei,j,Ei,j={<Pi,Pj>|Pi,Pj∈C};
(1.4)利用Java语言及WebWagic框架设计爬虫程序,根据1.3中对维基百科术语页面结构与目录结构的分析结果,爬取领域目录结构中各层级目录的目录名,作为粗知识术语集,简称为粗术语集,存入MySQL数据库中。
步骤2、预处理粗术语集,得到知识术语集DTS与少量知识主题:依据术语分面及其碎片信息的充分程度,结合维基百科领域特点,对粗术语集进行预处理,得到知识术语集DTS,并通过对知识术语集DTS中的少量术语进行标注,得到一定量的知识主题。
步骤2中,粗术语集的预处理可以在步骤1的网页爬取中一并完成(即步骤1中的爬取在此种情况下实际实现了筛选爬取,并得到DTS),具体包括以下步骤:
(2.1)如图2所示,对步骤1.4中的爬取程序算法进行迭代,形成CSWGA(CSWGAlgorithm)预处理算法框架;该预处理算法框架由领域名称开始对根目录RC(DTC0)进行遍历,爬取其子目录对应的超链接,这部分子目录的目录名作为一层领域术语候选,称为一层术语DTC1,将一层术语DTC1中不符合知识主题长度要求的超长字符串术语(如长度大于15字节的字符串)进行剔除;
(2.2)对一层术语DTC1超链接下的子目录执行基于Jsoup的HyperLink解析,查找二层术语DTC2(即这部分子目录的目录名),并剔除超长字符串术语,对于二层术语DTC2,还需要剔除对应术语页面相关内容过少的术语(例如,术语页面仅含有一个分面),并检查外向超链接分面中的链接数量是否过少,据此剔除不符合知识主题引用数量要求的术语(如外向超链接数小于5);
(2.3)对DTC2超链接下的子目录执行与2.2相同的解析过程,得到三层术语DTC3,由于该层术语内容有所重复,除进行以上剔除操作外,还要剔除重名术语,并将剩余术语保留;
(2.4)将以上筛选爬取的术语按目录层级保存,同时为了保证知识术语不重复出现,对获得的各层术语进行综合去重(去掉重名术语),得到该知识领域最终知识术语数据集,即DTS。
步骤2中,对知识术语集DTS进行的标注,具体包括以下步骤:在该领域知识术语集DTS中随机选取20%的术语进行主题人工标注,将选取的术语根据知识主题的碎片信息充实度(以搜索引擎返回索引数为准)和目录信息丰富度(以术语页面内目录分面的目录个数为准)进行多元投票标注,将选取的术语是否作为知识主题以二元结果表示。
步骤3、获得知识术语的属性特征:归纳特定领域知识主题的语义语法特性与拓扑特性,通过分析已标注术语的特点,从而构建已标注术语在该领域知识网中的语义属性与拓扑特征。
步骤3中,构建已标注术语的语义属性与拓扑特征,具体包括以下步骤:
(3.1)TF·IDF算法是通过对术语在单篇文档(Document)中出现的频次与同类文档中出现的频次,进行语义文本属性的评估;TF·IDF算法具体为:Wkj=TFkj×log(N/nk),式中TFkj表示标注术语TFk在当前术语页面Pj(指上述领域目录下所有术语页面的集合中的任意一个)中出现的次数,而nk则代表领域目录下所有术语页面中标注术语TFk出现的次数,N表示领域所有目录总数,经过计算,得到的就是该标注术语在当前语境下的第一语义属性;
(3.2)针对知识主题与其相近术语应当满足的语法关联性质,引入多元术语分布的概念,采用基于带标签的隐形语义分布L-LDA模型,计算每个标注术语与其在DTS中的相近术语(具体指位于同一目录页面中的子目录)的联合概率分布并归一化,得到第二语义属性(具体归一化运算参考文献:Nguyen C T,Zhan D C,Zhou Z H.Multi-modal imageannotation with Multi-instance Multi-label LDA[C]//International JointConference on Artificial Intelligence.2013.);
(3.3)引入MOTIF特征模式,对当前标注为知识主题的术语与其余标注为知识主题的术语间的拓扑特征进行表征,具体使用3-MOTIF对于术语间拓扑结构进行分析,利用其得到的Z-SCORE这一标准来度量3-MOTIF的程度,定义如下:
Figure BDA0002070267760000051
式中,N(j)代表在当前领域中MOTIF j(1≤j≤13)显现的概率,
Figure BDA0002070267760000052
代表该MOTIFj在和当前领域节点结构相同的领域中的概率,σγ(j)是
Figure BDA0002070267760000053
的标准差。若Z-SCORE偏大则表明当前标注为知识主题的术语在拓扑结构中有着更高的权值。
步骤4、通过向量化表示知识术语的语义属性与拓扑特征,训练二元分类器,从而构建基于属性特征分类的主题抽取模型;将对应领域的知识术语集输入训练后的二元分类器,即可输出得到知识主题集KTS。
步骤4中,构建基于属性特征分类的主题抽取模型,具体包括以下步骤;
(4.1)为方便进行程序处理,对步骤2得到的知识术语集DTS进行格式转换,转换为csv格式的文本列表,同时将步骤3中对应领域的标注术语的语义属性与拓扑特征,作为参数项插入对应表项之后;
(4.2)如图3所示,构建基于属性特征向量的二元分类器模型的框架,将训练集的参数分为两类,即属性类与特征类,形式化的训练数据集可以分别表示为以下两个集合:
Figure BDA0002070267760000061
其中
Figure BDA0002070267760000062
Figure BDA0002070267760000063
其中
Figure BDA0002070267760000064
在训练数据集的定义公式中,c(x)表示术语样本x的实际对应类标签(是或者不是知识主题),Ta是训练数据集语义属性的标签,Tb是训练数据集拓扑特征的标签,n和m表示两类数据集中术语的数目,n=m;利用判断准则c(x),对于属于已标注的训练主题集X的任意x,通过其属性特征分布结果对应到其二元类标签c(x)∈R,R为结果空间,采用C4.5决策树分类算法,形成二元分类器并进行训练;
(4.3)将4.1所述的知识术语集文本列表输入训练后的二元分类器,实现知识术语是否成为知识主题的二元判定,即结果空间R={0,1},结果空间中为1的项为知识主题,为0则表示不是知识主题;将得到的知识主题集输出到MySQL数据库中。
经过验证比对,通过上述步骤中维基百科知识术语爬取与标注,及主题分类器构建与应用进行的知识主题抽取过程,相比现有的完全依赖人工标注的主题抽取方法,在时间效率上有着4~5倍的提高,且根据机器学习通用的P,R,F1评价指标,均能达到相当于或不显著弱于现有完全依赖人工标注的主题抽取方法的效果,并避免出现的遗漏知识主题的问题。结果表明,本发明能全面地抽取开放知识源中的知识主题,仅需要少量人工标注,大幅降低了知识主题抽取的总时间开销,取得了时间与经济效益上的大幅提升。

Claims (9)

1.一种利用领域建模抽取知识主题的方法,其特征在于:包括以下步骤:
1)对百科类网站中某特定领域下的知识术语进行爬取,得到知识术语集DTS;
2)对知识术语集DTS中的少部分知识术语按照是否属于知识主题进行标注;
3)获取已标注知识术语的语义属性与拓扑特征;
4)通过向量化表示已标注知识术语的语义属性与拓扑特征构建训练样本集,并对二元分类器进行训练,将知识术语集DTS输入训练后的二元分类器,根据该二元分类器输出的结果对所述领域的知识主题进行抽取,得到知识主题集KTS。
2.根据权利要求1所述一种利用领域建模抽取知识主题的方法,其特征在于:所述步骤1)具体包括以下步骤:通过分析百科类网站的目录结构与页面结构,确定网页爬虫程序的爬取路径,所述爬取路径从百科类网站某领域的根目录页起始,通过深度遍历根目录页的子页面的超链接延伸多层,并对各级目录相关的术语页面进行爬取;在爬取过程中或者在爬取结束后剔除非知识术语及重复术语。
3.根据权利要求2所述一种利用领域建模抽取知识主题的方法,其特征在于:所述网页爬虫的程序设计采用WebWagic框架。
4.根据权利要求2所述一种利用领域建模抽取知识主题的方法,其特征在于:所述知识术语的爬取路径具体为:爬取领域根目录的子目录对应的超链接,并将这部分子目录作为一层候选术语;对一层候选术语超链接下的子目录进行解析,得到二层候选术语,对二层候选术语超链接下的子目录进行解析,得到三层候选术语。
5.根据权利要求2所述一种利用领域建模抽取知识主题的方法,其特征在于:所述剔除非知识术语具体包括以下步骤:将字符串较长、术语页面含有的分面数较少及外向超链接数量较少的术语从对应层级的候选术语中去除。
6.根据权利要求1所述一种利用领域建模抽取知识主题的方法,其特征在于:所述步骤2)具体包括以下步骤:从知识术语集DTS中随机选取20%以下的术语进行主题人工标注,通过标注将选取的术语是否作为知识主题以二元结果表示。
7.根据权利要求1所述一种利用领域建模抽取知识主题的方法,其特征在于:所述步骤3)中,分别采用TF·IDF算法以及基于带标签的隐形语义分布L-LDA模型计算得到语义属性。
8.根据权利要求1所述一种利用领域建模抽取知识主题的方法,其特征在于:所述步骤4)中,训练样本集分别表示为:
Figure FDA0002823747690000021
其中
Figure FDA0002823747690000022
Figure FDA0002823747690000023
其中
Figure FDA0002823747690000024
其中,c(x)表示术语样本x的实际标注结果,Ta是训练数据集Xa语义属性的标签,Tb是训练数据集Xb拓扑特征的标签,n和m表示数据集中术语的数目,n=m。
9.根据权利要求1所述一种利用领域建模抽取知识主题的方法,其特征在于:所述步骤4)中,二元分类器输出的结果是对知识术语是否成为知识主题的二元判定,二元分类器的构建采用决策树分类算法。
CN201910435042.0A 2019-05-23 2019-05-23 一种利用领域建模从百科知识网站抽取知识主题的方法 Active CN110209814B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910435042.0A CN110209814B (zh) 2019-05-23 2019-05-23 一种利用领域建模从百科知识网站抽取知识主题的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910435042.0A CN110209814B (zh) 2019-05-23 2019-05-23 一种利用领域建模从百科知识网站抽取知识主题的方法

Publications (2)

Publication Number Publication Date
CN110209814A CN110209814A (zh) 2019-09-06
CN110209814B true CN110209814B (zh) 2021-02-02

Family

ID=67788327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910435042.0A Active CN110209814B (zh) 2019-05-23 2019-05-23 一种利用领域建模从百科知识网站抽取知识主题的方法

Country Status (1)

Country Link
CN (1) CN110209814B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630314A (zh) * 2008-07-16 2010-01-20 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法
CN103455524A (zh) * 2012-06-05 2013-12-18 北京搜狗信息服务有限公司 展现和获取词条信息的方法和装置
CN104794151A (zh) * 2015-01-30 2015-07-22 北京东方泰坦科技股份有限公司 一种基于协同标绘技术的空间知识服务系统建设方法
DE202015000534U1 (de) * 2015-01-26 2016-04-28 a.r.t associated researchers + trendsetters gmbh Computerimplementiertes Informations- und Wissensbereitstellungssystem
CN105760514A (zh) * 2016-02-24 2016-07-13 西安交通大学 一种从社区问答网站自动获取知识领域短文本的方法
CN106156286A (zh) * 2016-06-24 2016-11-23 广东工业大学 面向专业文献知识实体的类型抽取系统及方法
CN106484754A (zh) * 2016-07-28 2017-03-08 西安交通大学 基于层次数据与图数据可视化技术的知识森林布局方法
US9594756B2 (en) * 2013-03-15 2017-03-14 HCL America Inc. Automated ranking of contributors to a knowledge base
CN106599064A (zh) * 2016-11-16 2017-04-26 西安交通大学 一种适用于高端装备的复杂知识自动分类、获取及存储方法
CN106991127A (zh) * 2017-03-06 2017-07-28 西安交通大学 一种基于拓扑特征扩展的知识主题短文本层次分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462227A (zh) * 2014-11-13 2015-03-25 中国测绘科学研究院 一种图形化知识谱系自动构建方法
CN105205135B (zh) * 2015-09-15 2018-10-19 天津大学 一种基于主题模型的3d模型检索方法及其检索装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630314A (zh) * 2008-07-16 2010-01-20 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法
CN103455524A (zh) * 2012-06-05 2013-12-18 北京搜狗信息服务有限公司 展现和获取词条信息的方法和装置
US9594756B2 (en) * 2013-03-15 2017-03-14 HCL America Inc. Automated ranking of contributors to a knowledge base
DE202015000534U1 (de) * 2015-01-26 2016-04-28 a.r.t associated researchers + trendsetters gmbh Computerimplementiertes Informations- und Wissensbereitstellungssystem
CN104794151A (zh) * 2015-01-30 2015-07-22 北京东方泰坦科技股份有限公司 一种基于协同标绘技术的空间知识服务系统建设方法
CN105760514A (zh) * 2016-02-24 2016-07-13 西安交通大学 一种从社区问答网站自动获取知识领域短文本的方法
CN106156286A (zh) * 2016-06-24 2016-11-23 广东工业大学 面向专业文献知识实体的类型抽取系统及方法
CN106484754A (zh) * 2016-07-28 2017-03-08 西安交通大学 基于层次数据与图数据可视化技术的知识森林布局方法
CN106599064A (zh) * 2016-11-16 2017-04-26 西安交通大学 一种适用于高端装备的复杂知识自动分类、获取及存储方法
CN106991127A (zh) * 2017-03-06 2017-07-28 西安交通大学 一种基于拓扑特征扩展的知识主题短文本层次分类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Emotion evolutions of sub-topics about popular events on microblogs;Qingqing Zhou 等;《The Electronic Library》;20170807;第35卷(第4期);770-782 *
Time-aware link prediction to explore network effects on temporal knowledge evolution;Nazim Choudhury 等;《Scientometrics》;20160815;第108卷(第2期);745-776 *
基于局部语义概念表示的图像场景分类技术研究;张瑞杰;《中国博士学位论文全文数据库信息科技辑》;20140215(第02期);I138-48 *
基于本体的知识库分类研究;朱朝勇;《中国博士学位论文全文数据库》;20131015(第10期);I138-135 *
智慧教育研究现状与发展趋势;魏笔凡 等;《计算机研究与发展》;20181221;第56卷(第1期);209-224 *

Also Published As

Publication number Publication date
CN110209814A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN110597735B (zh) 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法
CN109492077B (zh) 基于知识图谱的石化领域问答方法及系统
CN103823824B (zh) 一种借助互联网自动构建文本分类语料库的方法及系统
CN108256104B (zh) 基于多维特征的互联网网站综合分类方法
US8868621B2 (en) Data extraction from HTML documents into tables for user comparison
CN109189942A (zh) 一种专利数据知识图谱的构建方法及装置
CN112199511A (zh) 跨语言多来源垂直领域知识图谱构建方法
CN112749284B (zh) 知识图谱构建方法、装置、设备及存储介质
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN107506486A (zh) 一种基于实体链接的关系扩充方法
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
CN108415902A (zh) 一种基于搜索引擎的命名实体链接方法
CN110888991B (zh) 一种弱标注环境下的分段式语义标注方法
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN116127090A (zh) 基于融合和半监督信息抽取的航空系统知识图谱构建方法
CN116108191A (zh) 一种基于知识图谱的深度学习模型推荐方法
Wang et al. Automatic tagging of cyber threat intelligence unstructured data using semantics extraction
CN105677684A (zh) 一种基于外部数据源对用户生成内容进行语义标注的方法
Nethra et al. WEB CONTENT EXTRACTION USING HYBRID APPROACH.
CN110083760B (zh) 一种基于可视块的多记录型动态网页信息提取方法
CN107908749A (zh) 一种基于搜索引擎的人物检索系统及方法
CN110209814B (zh) 一种利用领域建模从百科知识网站抽取知识主题的方法
CN114238735B (zh) 一种互联网数据智能采集方法
CN115905705A (zh) 基于工业大数据的工业算法模型推荐方法
CN115936932A (zh) 司法文书的处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant