CN106528595A - 基于网站首页内容的领域信息收集和关联方法 - Google Patents

基于网站首页内容的领域信息收集和关联方法 Download PDF

Info

Publication number
CN106528595A
CN106528595A CN201610844199.5A CN201610844199A CN106528595A CN 106528595 A CN106528595 A CN 106528595A CN 201610844199 A CN201610844199 A CN 201610844199A CN 106528595 A CN106528595 A CN 106528595A
Authority
CN
China
Prior art keywords
field
concept
content
word
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610844199.5A
Other languages
English (en)
Other versions
CN106528595B (zh
Inventor
谢能付
郝心宁
孙巍
张学福
姜丽华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Information Institute of CAAS
Original Assignee
Agricultural Information Institute of CAAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Information Institute of CAAS filed Critical Agricultural Information Institute of CAAS
Priority to CN201610844199.5A priority Critical patent/CN106528595B/zh
Publication of CN106528595A publication Critical patent/CN106528595A/zh
Application granted granted Critical
Publication of CN106528595B publication Critical patent/CN106528595B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于互联网技术领域,具体说,涉及一种基于网站首页内容的领域信息收集和关联方法,包括:基于领域概念空间,进行网站首页内容的网站信息领域判别,进而完成领域信息收集;基于领域概念空间,对收集的页面内容进行领域信息分类,进而完成领域信息关联。本发明采用概念空间形成领域概念描述,基于网页首页信息判别进行领域信息收集,不同网站节点以概念空间为基础组成关联网络,能够使用户快速、准确定位到所需要的领域信息簇。

Description

基于网站首页内容的领域信息收集和关联方法
技术领域
本发明属于互联网技术领域,具体说,涉及一种基于网站首页内容的领域信息收集和关联方法。
背景技术
当今的互联网包含了数量越来越大的信息,特别是专业领域网站越来越多,存在着大量内容相关信息。但是,由于这些专业网站的信息是通过大量超文本链接组成的,而且有可能彼此没有关联,导致用户快速定位到所需要的领域信息簇非常困难。目前,解决这一问题的一个重要途径是让搜索引擎进行基于关键字搜索。但是,这种方法通常会导致搜索的结果出现无效网页,特别用户在查找专业信息时,信息簇定位非常困难,而且信息时效性差。
发明内容
本发明的目的在于提供一种基于网站首页内容的领域信息收集和关联方法,以解决上述问题。
本发明的实施例提供了一种基于网站首页内容的领域信息收集和关联方法,包括:
基于领域概念空间,进行网站首页内容的网站信息领域判别,进而完成领域信息收集;
基于领域概念空间,对收集的页面内容进行领域信息分类,进而完成领域信息关联。
进一步,基于领域概念空间进行网站首页内容的网站信息领域判别进而完成领域信息收集具体包括:
1)根据领域特点,构建领域概念空间,并将网站中的页面信息作为概念的实例;
2)定义领域网站的URI种子集合;
3)根据URI种子集合下载网站首页,当网页内容小于10k时,提取首页中的二级页面,作为首页内容;
4)对网站首页的内容进行领域性判断。
5)以属于该领域的所述首页为主线,下载层次深度小于5的所有网页信息,并根据页面特点将该网页信息区分为栏目链接页面和内容页面,保存在数据库中。
进一步,步骤4)具体包括:
提取首页内容中的所有url链接,形成url链接集合S={<title,uri>}形式;
对所有的title进行切词,提取来自概念空间的全部概念集合{wi},其中;S表示为{{wi},url}>;
计算概念w所属领域度,计算公式如下:
式中,P为该首页属于所述领域的概率,N为url链接集合S元素个数,wm为概念所属领域度,Kj为S中第j个元素的title的切词后的词语个数;
将P与给定的阈值t进行比较,如果P大于阈值t,判定所述首页属于该领域,其中,t的取值在0.3-05之间;
进一步,基于领域概念空间对收集的页面内容进行领域信息分类进而完成领域信息关联具体包括:
(1)提取数据库的内容页面,并把该页面作为概念空间中的实例,采用分词算法提取所有的词语,将领域词语组成该实例的内涵描述集,计算领域词的语词频大小,并提取前8-15个词频较大的领域词语;其中,提取的该词语包括题目词语和内容描述词语,该题目词语的权重为5-8,该内容描述词语的权重为2;
(2)采用SVM算法构建多标签实例归类模型,根据实例提取的词语和权重构成该实例的向量空间,基于多标签实例归类模型计算其所属每个类别的概率P,当P>1/(n-1)时,将该实例归结到相应类别中,并将该实例保存到知识库;同时,将类标识保存至该实例中,所述类标识具有唯一标识ID号;其中,归属多个类的实例单独用一张映射表来关联;
(3)获取实例的关系集合,包括:对实例i进行扫描,找到实例i所属概念C,根据概念C获取关系集合R;
(4)获取关系实例,包括:基于关系集合R,对其中一个关系r,在对应约束概念中所有实例进行扫描,对于已具有关系的实例,当其实例对应实例i所属概念的实例时,对该实例进行排除,根据每个实例标题所构成的专业词语与实例i标题进行相似性比较;其中,相似性比较采用汉明距离,当距离大于预设阈值时,将该实例归于实例i的关系r中;
(5)获取关联实例,包括:基于实例i的关系对象集合o,对关系对象集合o的所有实例,采用K-mean聚类算法进行聚类,其中,聚类的类别个数为对象集合o的数目除以3得到的整数N,如果整数N等于1,将关系对象集合o中的所有实例关联到关系r中,如果N大于1,则将实例数量最大的类别中所有实例关联到关系r中;
(6)对关系集合R的所有关系重复步骤4)、5),直到实例i关系计算完成。
与现有技术相比本发明的有益效果是:采用概念空间形成领域概念描述,基于网页首页信息判别进行领域信息收集,不同网站节点以概念空间为基础组成关联网络,能够使用户快速、准确定位到所需要的领域信息簇。
附图说明
图1是本发明基于网站首页内容的领域信息收集和关联方法的流程图;
图2是本发明基于网站首页内容的领域信息收集和关联装置的结构框图。
具体实施方式
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
参图1所示,图1是本发明基于网站首页内容的领域信息收集和关联方法的流程图。
本实施例提供了一种基于网站首页内容的领域信息收集和关联方法,包括:
步骤S1,基于领域概念空间,进行网站首页内容的网站信息领域判别,进而完成领域信息收集;
概念空间构建的目标是捕捉相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇之间相互关系的明确定义。
在概念空间中,最基本的关系是is-a(上下位关系),也包含大量的关系。这些关系用来描述不同的类或实例之间的相互关系,如整体部分关系、同义关系、因果关系等等,根据关系的扩展,其概念结构空间的定义为:
概念空间是一个3元组CS=(C,H,R),其中:
(1)C是一个非空的概念集合;
(2)是C上的一个二元关系,满足传递性、非自反性、反对称性。我们称H为C上的继承(或层次)关系。
(3)R={R1,R2,…,Rn},其中称Ri为C中概念间的非层次关系,满足Ri∩H=φ。
概念空间主干通常表现为本体的概念层次分类图,通常概念的层次越高,其语义就越抽象,共享程度也就越高。而底层概念较为具体,更贴近具体的领域应用。如果将H也看作R的一种特殊的关系,则概念结构空间简单表示为CS=(C,R)。
步骤S2,基于领域概念空间,对收集的页面内容进行领域信息分类,进而完成领域信息关联。
在本实施例中,步骤S1具体包括:
1)根据领域特点,构建领域概念空间,并将网站中的页面信息作为概念的实例;
2)定义领域网站的URI种子集合;
3)根据URI种子集合下载网站首页,当网页内容小于10k时,提取首页中的二级页面,作为首页内容;
4)对网站首页的内容进行领域性判断,具体包括:
提取首页内容中的所有url链接,形成url链接集合S={<title,uri>}形式,对所有的title进行切词,提取来自概念空间的全部概念集合{wi};因此,S又可以表示为{{wi},url}>。为了判别一个领域网站的首页,需要计算概念w属于一个领域的程度,即概念所属领域度,本实施例采用本体中概念层次关系简单的计算,如果概念处于概念空间的k层,则词汇所属领域度为(k+1)/k。网站领域判别算法如下:
即根据下式计算该首页属于该领域的概率P:
式中,N为url链接集合S元素个数,wm为概念所属领域度,Kj为S中第j个元素的title的切词后的词语个数,t为给定的阈值,t的取值在0.3-05之间;如果P大于阈值t,判定该首页属于所述领域。
5)以属于所述领域的该首页为主线,下载层次深度小于5的所有网页信息,并根据页面特点将该网页信息区分为栏目链接页面和内容页面,保存在数据库中。
在本实施例中,步骤S2具体包括:
1)提取数据库的内容页面,并把该页面作为概念空间中的实例,采用分词算法提取所有的词语,将领域词语组成该实例的内涵描述集,计算领域词的语词频大小,并提取前8-15个词频较大的领域词语;其中,提取的该词语包括题目词语和内容描述词语,该题目词语的权重为5-8,该内容描述词语的权重为2;
2)采用SVM算法构建多标签实例归类模型,利用自己的训练数据集,通过训练得到一个初始化的一对多SVM分类器,也就是,训练时依次把某个类别的样本归为一类,其他剩余的样本归为另一类,这样k个类别的样本就构造出了k个SVM,分类时将未知样本分类为具有最大分类函数值的那类,根据实例提取的词语和权重构成该实例的向量空间,基于多标签实例归类模型计算期所属每个类别的概率P,当P>1/(n-1)时,将该实例归结到相应类别中,并将该实例保存到知识库;同时,将类标识保存至所述实例中,该类标识具有唯一标识ID号;其中,归属多个类的实例单独用一张映射表来关联;
3)获取实例的关系集合,包括:对实例i进行扫描,找到实例i所属概念C,根据概念C获取关系集合R;
4)获取关系实例,包括:基于关系集合R,对其中一个关系r,在对应约束概念中所有实例进行扫描,对于已具有关系的实例,当其实例对应实例i所属概念的实例时,对该实例进行排除,根据每个实例标题所构成的专业词语与实例i标题进行相似性比较;其中,相似性比较采用汉明距离,当距离大于预设阈值时,将所述实例归于实例i的关系r中;
5)获取关联实例,包括:基于实例i的关系对象集合o,对关系对象集合o的所有实例,采用K-mean聚类算法进行聚类,其中,聚类的类别个数为对象集合o的数目除以3得到的整数N,如果整数N等于1,将关系对象集合o中的所有实例关联到关系r中,如果N大于1,则将实例数量最大的类别中所有实例关联到关系r中;
6)对关系集合R的所有关系重复步骤4)、5),直到实例i关系计算完成。
参图2所示,图2是本发明基于网站首页内容的领域信息收集和关联装置的结构框图。
本实施例还提供了一种基于网站首页内容的领域信息收集和关联装置,包括:领域信息收集模块10、领域信息分类模块20、领域信息关联模块30、领域概念空间40、数据库50及知识库60。
领域信息收集模块10用于基于领域概念空间40,进行网站首页内容的网站信息领域判别,进而完成领域信息收集.
基于领域概念空间40,领域信息分类模块20用于对收集的页面内容进行领域信息分类,进而通过领域信息关联模块30完成领域信息关联。
本实施例提供的基于网站首页内容的领域信息收集和关联装置作为上述领域信息收集和关联方法实现的载体,其功能还包括上述方法的其他具体内容,在此不再重复。
本实施例提供的领域信息收集和关联装置,采用概念空间形成领域概念描述,基于网页首页信息判别进行领域信息收集,不同网站节点以概念空间为基础组成关联网络,具有如下有益效果:
1)能够较快收集领域信息,同时保证用户搜索到信息具有领域性、全面性和正确性;
2)利用领域概念空间进行领域信息组织,便于用户搜索领域关联信息簇,信息片段之前能够语义关联,网页内容由一组词的内涵决定,词语位置和频率决定权重,并可保证网站首页内容描述的准确性,满足领域信息的需要;
3)基于领域概念空间为基础组的信息关联网络,并对收集领域信息进行相应的处理,保证了领域信息的一致性;
4)适用的范围广,可在知识管理、领域信息搜索、知识服务领域广泛适用。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

Claims (4)

1.一种基于网站首页内容的领域信息收集和关联方法,其特征在于,包括:
基于领域概念空间,进行网站首页内容的网站信息领域判别,进而完成领域信息收集;
基于领域概念空间,对收集的页面内容进行领域信息分类,进而完成领域信息关联。
2.根据权利要求1所述的基于网站首页内容的领域信息收集和关联方法,其特征在于,基于领域概念空间进行网站首页内容的网站信息领域判别进而完成领域信息收集具体包括:
1)根据领域特点,构建领域概念空间,并将网站中的页面信息作为概念的实例;
2)定义领域网站的URI种子集合;
3)根据URI种子集合下载网站首页,当网页内容小于10k时,提取首页中的二级页面,作为首页内容;
4)对网站首页的内容进行领域性判断。
5)以属于所述领域的所述首页为主线,下载层次深度小于5的所有网页信息,并根据页面特点将所述网页信息区分为栏目链接页面和内容页面,保存在数据库中。
3.根据权利要求2所述的基于网站首页内容的领域信息收集和关联方法,其特征在于,所述步骤4)具体包括:
提取首页内容中的所有url链接,形成url链接集合S={<title,uri>}形式;
对所有的title进行切词,提取来自概念空间的全部概念集合{wi},其中;S表示为{{wi},url}>;
计算概念w所属领域度,计算公式如下:
式中,P为所述首页属于所述领域的概率,N为url链接集合S元素个数,wm为概念所属领域度,Kj为S中第j个元素的title的切词后的词语个数;
将P与给定的阈值t进行比较,如果P大于阈值t,判定所述首页属于所述领域,其中,t的取值在0.3-05之间。
4.根据权利要求2所述的基于网站首页内容的领域信息收集和关联方法,其特征在于,基于领域概念空间对收集的页面内容进行领域信息分类进而完成领域信息关联具体包括:
(1)提取数据库的内容页面,并把所述页面作为概念空间中的实例,采用分词算法提取所有的词语,将领域词语组成所述实例的内涵描述集,计算领域词的语词频大小,并提取前8-15个词频较大的领域词语;其中,提取的所述词语包括题目词语和内容描述词语,所述题目词语的权重为5-8,所述内容描述词语的权重为2;
(2)采用SVM算法构建多标签实例归类模型,根据实例提取的词语和权重构成所述实例的向量空间,基于多标签实例归类模型计算其所属每个类别的概率P,当P>1/(n-1)时,将所述实例归结到相应类别中,并将所述实例保存到知识库;同时,将类标识保存至所述实例中,所述类标识具有唯一标识ID号;其中,归属多个类的实例单独用一张映射表来关联;
(3)获取实例的关系集合,包括:对实例i进行扫描,找到实例i所属概念C,根据概念C获取关系集合R;
(4)获取关系实例,包括:基于关系集合R,对其中一个关系r,在对应约束概念中所有实例进行扫描,对于已具有关系的实例,当其实例对应实例i所属概念的实例时,对所述实例进行排除,根据每个实例标题所构成的专业词语与实例i标题进行相似性比较;其中,相似性比较采用汉明距离,当距离大于预设阈值时,将所述实例归于实例i的关系r中;
(5)获取关联实例,包括:基于实例i的关系对象集合o,对关系对象集合o的所有实例,采用K-mean聚类算法进行聚类,其中,聚类的类别个数为对象集合o的数目除以3得到的整数N,如果整数N等于1,将关系对象集合o中的所有实例关联到关系r中,如果N大于1,则将实例数量最大的类别中所有实例关联到关系r中;
(6)对关系集合R的所有关系重复步骤4)、5),直到实例i关系计算完成。
CN201610844199.5A 2016-09-23 2016-09-23 基于网站首页内容的领域信息收集和关联方法 Expired - Fee Related CN106528595B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610844199.5A CN106528595B (zh) 2016-09-23 2016-09-23 基于网站首页内容的领域信息收集和关联方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610844199.5A CN106528595B (zh) 2016-09-23 2016-09-23 基于网站首页内容的领域信息收集和关联方法

Publications (2)

Publication Number Publication Date
CN106528595A true CN106528595A (zh) 2017-03-22
CN106528595B CN106528595B (zh) 2019-08-06

Family

ID=58344134

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610844199.5A Expired - Fee Related CN106528595B (zh) 2016-09-23 2016-09-23 基于网站首页内容的领域信息收集和关联方法

Country Status (1)

Country Link
CN (1) CN106528595B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109922065A (zh) * 2019-03-10 2019-06-21 北京亚鸿世纪科技发展有限公司 恶意网站快速识别方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694325B (zh) * 2017-04-10 2020-12-29 北大方正集团有限公司 指定类型网站的辨别方法和指定类型网站的辨别装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936887A (zh) * 2005-09-22 2007-03-28 国家计算机网络与信息安全管理中心 基于类别概念空间的自动文本分类方法
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN103020164A (zh) * 2012-11-26 2013-04-03 华北电力大学 一种基于多语义分析和个性化排序的语义检索方法
CN103049542A (zh) * 2012-12-27 2013-04-17 北京信息科技大学 一种面向领域的网络信息搜索方法
US20150199432A1 (en) * 2013-01-02 2015-07-16 Palo Alto Networks, Inc. Optimized web domains classification based on progressive crawling with clustering
CN105404674A (zh) * 2015-11-20 2016-03-16 焦点科技股份有限公司 一种知识依赖的网页信息抽取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936887A (zh) * 2005-09-22 2007-03-28 国家计算机网络与信息安全管理中心 基于类别概念空间的自动文本分类方法
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN103020164A (zh) * 2012-11-26 2013-04-03 华北电力大学 一种基于多语义分析和个性化排序的语义检索方法
CN103049542A (zh) * 2012-12-27 2013-04-17 北京信息科技大学 一种面向领域的网络信息搜索方法
US20150199432A1 (en) * 2013-01-02 2015-07-16 Palo Alto Networks, Inc. Optimized web domains classification based on progressive crawling with clustering
CN105404674A (zh) * 2015-11-20 2016-03-16 焦点科技股份有限公司 一种知识依赖的网页信息抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谢能付 等: ""基于概念空间的领域信息爬虫设计研究"", 《江西师范大学学报(自然科学版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109922065A (zh) * 2019-03-10 2019-06-21 北京亚鸿世纪科技发展有限公司 恶意网站快速识别方法
CN109922065B (zh) * 2019-03-10 2021-03-23 北京亚鸿世纪科技发展有限公司 恶意网站快速识别方法

Also Published As

Publication number Publication date
CN106528595B (zh) 2019-08-06

Similar Documents

Publication Publication Date Title
CN102411563B (zh) 一种识别目标词的方法、装置及系统
CN108763321B (zh) 一种基于大规模相关实体网络的相关实体推荐方法
CN105045875B (zh) 个性化信息检索方法及装置
CN106960001B (zh) 一种检索词的实体链接方法及系统
CN106777274A (zh) 一种中文旅游领域知识图谱构建方法及系统
CN101751455B (zh) 采用人工智能技术自动产生标题的方法
CN105843799B (zh) 一种基于多源异构信息图模型的学术论文标签推荐方法
CN104484380A (zh) 个性化搜索方法及装置
CN106204156A (zh) 一种用于网络论坛的广告投放方法及装置
CN104239513A (zh) 一种面向领域数据的语义检索方法
CN104615687A (zh) 一种面向知识库更新的实体细粒度分类方法与系统
CN101706812B (zh) 一种文档的检索方法和装置
CN106934071A (zh) 基于异构信息网络和贝叶斯个性化排序的推荐方法及装置
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN101515287A (zh) 一种用于复杂页面的包装器自动生成方法
CN105512333A (zh) 基于情感倾向的产品评论主题搜索方法
CN101719129A (zh) 一种采用人工智能技术自动提取关键字的方法
CN106055560A (zh) 一种基于统计机器学习方法的分词字典数据采集方法
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN104268230A (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN114090861A (zh) 一种基于知识图谱的教育领域搜索引擎构建方法
CN115438274A (zh) 基于异质图卷积网络的虚假新闻识别方法
CN106339459A (zh) 基于关键词匹配进行中文网页预分类的方法
CN106528595A (zh) 基于网站首页内容的领域信息收集和关联方法
CN111339258B (zh) 基于知识图谱的大学计算机基础习题推荐方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190806

Termination date: 20200923