CN106126711A - 百科词条分类方法及装置 - Google Patents

百科词条分类方法及装置 Download PDF

Info

Publication number
CN106126711A
CN106126711A CN201610509368.XA CN201610509368A CN106126711A CN 106126711 A CN106126711 A CN 106126711A CN 201610509368 A CN201610509368 A CN 201610509368A CN 106126711 A CN106126711 A CN 106126711A
Authority
CN
China
Prior art keywords
data
resource
guest
honour
classification information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610509368.XA
Other languages
English (en)
Other versions
CN106126711B (zh
Inventor
王智广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hongxiang Technical Service Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201610509368.XA priority Critical patent/CN106126711B/zh
Publication of CN106126711A publication Critical patent/CN106126711A/zh
Application granted granted Critical
Publication of CN106126711B publication Critical patent/CN106126711B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种百科词条分类方法及装置。该方法包括从资源站点的网页中提取出包含类别信息的资源数据;基于所述资源数据,生成一个或多个携带类别信息的主宾结构数据关系;获取一个或多个待分类的百科词条,与所述一个或多个主宾结构数据关系进行匹配;将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类。本发明实施例可以利用资源站点的网页中资源数据已知的类别信息来确定百科词条的类别,相比于现有技术中利用机器学习方法,先人工标注部分词条类别,然后预测未知的词条类别,本发明实施例提供的技术方案能够节省人力成本,并且准确率较高。

Description

百科词条分类方法及装置
技术领域
本发明涉及互联网应用技术领域,特别是一种百科词条分类方法及装置。
背景技术
百科是指天文、地理、自然、人文、宗教、信仰、文学等全部学科的知识的总称。互联网上的百科是一个知识库,是一部内容开放、自由的网络百科全书,其包含了各种各样的词条。种类多是百科的特点,在一些应用中需要对百科词条进行分类(比如人物类、电影作品类、音乐作品类等),由于百科的许多词条是网友参与编辑的,所以并没有明确的分类信息。
相关技术中主要利用机器学习的方法对百科词条进行分类,具体地,从百科词条的内容中提取能够代表词条类别的关键词,利用机器学习方法,先人工标注部分词条类别,然后预测未知的词条类别。然而,利用机器学习来分类,一个是需要人工标注大量的标注集,二是准确率也有限。
因此,如何快速、准确地对百科词条进行分类成为亟待解决的技术问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的百科词条分类方法及相应的装置。
依据本发明的一方面,提供了一种百科词条分类方法,包括:
从资源站点的网页中提取出包含类别信息的资源数据;
基于所述资源数据,生成一个或多个携带类别信息的主宾结构数据关系;
获取一个或多个待分类的百科词条,与所述一个或多个主宾结构数据关系进行匹配;
将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类。
可选地,所述类别信息包括主宾结构数据中的主语类别信息;
所述将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类,包括:
将匹配上的主宾结构数据中的主语类别信息作为对应百科词条所属的分类。
可选地,所述类别信息包括主宾结构数据中的宾语类别信息,所述百科词条进一步包括百科词条的属性数据;
所述将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类,包括:
将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的属性数据所属的分类。
可选地,所述匹配上是指百科词条与主宾结构数据中的主语匹配上,且百科词条的属性数据与主宾结构数据中的宾语匹配上。
可选地,所述百科词条的属性数据包括锚链接;
将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的属性数据所属的分类,包括:
将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的锚链接所属的分类。
可选地,从资源站点的网页中提取出包含类别信息的资源数据,包括:
确定资源站点的网页的资源类别;
根据所述资源站点的网页的资源类别,确定用于提取资源数据的一个或多个类别信息字段;
利用所述一个或多个类别信息字段,从所述资源站点的网页中提取出包含类别信息的资源数据。
可选地,从资源站点的网页中提取出包含类别信息的资源数据,包括:
从预先建立的资源数据模板库中,选取与所述资源站点的网页对应的资源数据模板;
利用所述资源数据模板从所述资源站点的网页中提取出包含类别信息的资源数据。
可选地,所述方法还包括:
收集多个资源站点的网页;
分析所述多个资源站点的网页,确定各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息;
记录所述各个资源站点的网页、所述各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息之间的对应关系,生成所述资源数据模板库。
可选地,所述资源数据包括数据类别和数据名称;
基于所述资源数据,生成一个或多个携带类别信息的主宾结构数据关系,包括:
将所述数据类别和所述数据名称进行组合,生成一个或多个携带类别信息的主宾结构数据关系。
依据本发明的另一方面,还提供了一种百科词条分类装置,包括:
资源数据提取模块,适于从资源站点的网页中提取出包含类别信息的资源数据;
数据关系生成模块,适于基于所述资源数据,生成一个或多个携带类别信息的主宾结构数据关系;
匹配模块,适于获取一个或多个待分类的百科词条,与所述一个或多个主宾结构数据关系进行匹配;
分类模块,适于将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类。
可选地,所述类别信息包括主宾结构数据中的主语类别信息,所述分类模块还适于:
将匹配上的主宾结构数据中的主语类别信息作为对应百科词条所属的分类。
可选地,所述类别信息包括主宾结构数据中的宾语类别信息,所述百科词条进一步包括百科词条的属性数据,所述分类模块还适于:
将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的属性数据所属的分类。
可选地,所述匹配上是指百科词条与主宾结构数据中的主语匹配上,且百科词条的属性数据与主宾结构数据中的宾语匹配上。
可选地,所述百科词条的属性数据包括锚链接,所述分类模块还适于:
将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的锚链接所属的分类。
可选地,所述资源数据提取模块还适于:
确定资源站点的网页的资源类别;
根据所述资源站点的网页的资源类别,确定用于提取资源数据的一个或多个类别信息字段;
利用所述一个或多个类别信息字段,从所述资源站点的网页中提取出包含类别信息的资源数据。
可选地,所述资源数据提取模块还适于:
从预先建立的资源数据模板库中,选取与所述资源站点的网页对应的资源数据模板;
利用所述资源数据模板从所述资源站点的网页中提取出包含类别信息的资源数据。
可选地,所述装置还包括资源数据模板库生成模块,适于:
收集多个资源站点的网页;
分析所述多个资源站点的网页,确定各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息;
记录所述各个资源站点的网页、所述各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息之间的对应关系,生成所述资源数据模板库。
可选地,所述资源数据包括数据类别和数据名称,所述数据关系生成模块还适于:
将所述数据类别和所述数据名称进行组合,生成一个或多个携带类别信息的主宾结构数据关系。
在本发明实施例中,首先从资源站点的网页中提取出包含类别信息的资源数据,并基于资源数据,生成一个或多个携带类别信息的主宾结构数据关系。随后,获取一个或多个待分类的百科词条,与一个或多个主宾结构数据关系进行匹配,将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类。由此可见,本发明实施例可以利用资源站点的网页中资源数据已知的类别信息来确定百科词条的类别,相比于现有技术中利用机器学习方法,先人工标注部分词条类别,然后预测未知的词条类别,本发明实施例提供的技术方案能够节省人力成本,并且准确率较高。
进一步,本发明实施例采用百科词条和其属性数据与主宾结构数据关系进行匹配,来确定百科词条和其属性数据的类别,而非单纯地利用百科词条与主宾结构数据关系进行匹配,解决了百科词条可能存在歧义导致分类不准确的问题,提高了分类的准确性。例如,由于存在词条名歧义的问题,可能很多人都叫“张三”,但是类别可能不相同(可能为演员、医生、教师等),本发明实施例辅助了“张三”的一些相关的属性数据来进行词条分类,极大地提高了分类的准确率,比如此“张三”有一个相关属性为“儿科常见问题大全”,则可以确定此“张三”为撰写《儿科常见问题大全》的“张三”,那么确定此“张三”为医生。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的百科词条分类方法的流程图;
图2示出了根据本发明一个实施例的百科词条分类装置的结构示意图;
图3示出了根据本发明另一个实施例的百科词条分类装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为解决上述技术问题,本发明实施例提供了一种百科词条分类方法。图1示出了根据本发明一个实施例的百科词条分类方法的流程图。如图1所示,该方法至少包括以下步骤S102至步骤S108:
步骤S102,从资源站点的网页中提取出包含类别信息的资源数据;
步骤S104,基于步骤S102提取的资源数据,生成一个或多个携带类别信息的主宾结构数据关系;
步骤S106,获取一个或多个待分类的百科词条,与一个或多个主宾结构数据关系进行匹配;
步骤S108,将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类。
在本发明实施例中,首先从资源站点的网页中提取出包含类别信息的资源数据,并基于资源数据,生成一个或多个携带类别信息的主宾结构数据关系。随后,获取一个或多个待分类的百科词条,与一个或多个主宾结构数据关系进行匹配,将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类。由此可见,本发明实施例可以利用资源站点的网页中资源数据已知的类别信息来确定百科词条的类别,相比于现有技术中利用机器学习方法,先人工标注部分词条类别,然后预测未知的词条类别,本发明实施例提供的技术方案能够节省人力成本,并且准确率较高。
上文步骤S102中提及的资源站点可以是提供某些特定领域的资源数据的站点,这些站点提供了有关这个领域的全部深度信息或相关服务。例如,资源站点“豆瓣电影”提供了影视信息、用户评论等资源数据;资源站点“读书”提供了图书详情、书榜、书评等资源数据,等等,本发明不限于此。
步骤S102中从资源站点的网页中提取出包含类别信息的资源数据,本发明实施例提供了多种实施方式,如利用资源数据的信息字段或者资源数据在网页中的位置信息等方式,下面将分别进行详细介绍。
方式一,利用资源数据的信息字段的方式。在该方式中,可以确定资源站点的网页的资源类别,随后根据资源站点的网页的资源类别,确定用于提取资源数据的一个或多个类别信息字段。进而,利用一个或多个类别信息字段,从资源站点的网页中提取出包含类别信息的资源数据。例如,当确定出资源站点为影视类资源时,确定用于提取资源数据的类别信息字段为“电影”、“导演”、“编剧”、“主演”、“类型”等。又如,当确定出资源站点为书籍类资源时,确定用于提取资源数据的类别信息字段为“作者”、“出版社”等。
方式二,基于资源数据在网页中的位置信息的方式。在该方式中,可以从预先建立的资源数据模板库中,选取与资源站点的网页对应的资源数据模板。进而,利用资源数据模板从资源站点的网页中提取出包含类别信息的资源数据。例如,从资源站点“豆瓣电影”的网页中左上角位置处提取出包含类别信息的资源数据。
进一步地,本发明实施例提供了一种可选的建立的资源数据模板库的方案,即,收集多个资源站点的网页,并分析多个资源站点的网页,确定各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息,随后记录各个资源站点的网页、各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息之间的对应关系,生成资源数据模板库。在本发明的可选实施例中,还可以对收集的大量资源站点的网页的结构和/或主题进行分析,将具有相同结构和/或主题的网页划分为属于同一页面类型的资源站点的网页,从而可以确定同一页面类型的资源站点的网页中包含类别信息的资源数据在网页中的位置信息,这样可以不用记录每个资源站点的网页中包含类别信息的资源数据在网页中的位置信息,可以节省存储资源。
以上方式一或方式二分别介绍了如何从资源站点的网页中提取出包含类别信息的资源数据,在实际应用中,可以结合方式一和方式二进行资源数据的提取,本发明对此不作限制。如下表1所示为从影视类资源站点中提取的资源数据,在表1中,资源数据包含数据类别和数据名称,这里的数据类别为资源数据的类别信息。另外,表1最后一行的省略号表示还有其他资源数据,这里未全部示出。
表1
数据类别 数据名称
电影 老炮儿
导演 管虎
编剧 管虎、董润年
主演 冯小刚、许晴、张涵予、刘桦、李易峰、吴亦凡、梁静等
类型 剧情、动作、犯罪
...... ......
在步骤S104中,基于步骤S102提取的资源数据,生成一个或多个携带类别信息的主宾结构数据关系。以上文表1为例,可以将数据类别和数据名称进行组合,生成一个或多个携带类别信息的主宾结构数据关系,生成结果如下表2所示。表2最后一行的省略号表示还有其他主宾结构数据,这里未全部示出。
表2
主语(括号中为类别) 谓语 宾语(括号中为类别)
老炮儿(电影) 主演 冯小刚(演员)
冯小刚(演员) 参演的电影作品 老炮儿(电影)
管虎(导演) 导演的电影作品 老炮儿(电影)
…… …… ……
上文步骤S106中获取一个或多个待分类的百科词条,这里的百科词条可以仅是百科词条本身,也可以包括百科词条的属性数据。例如,待分类的百科词条“冯小刚”,其属性数据可以是“老炮儿”、“集结号”等。
在获取到一个或多个待分类的百科词条之后,将其与一个或多个主宾结构数据关系进行匹配,本发明实施例提供了多种实施手段,如百科词条与主宾结构数据中的主语进行匹配;或者将百科词条与主宾结构数据中的主语匹配,且将百科词条的属性数据与主宾结构数据中的宾语匹配,等等。并且,步骤S106中的匹配方式不同,步骤S108中的分类方式也有所不同,下面将分别进行详细介绍。
情况一,将百科词条与主宾结构数据中的主语进行匹配,由于类别信息包括了主宾结构数据中的主语类别信息,此时,可以将匹配上的主宾结构数据中的主语类别信息作为对应百科词条所属的分类。例如,待分类的百科词条为“冯小刚”,将百科词条“冯小刚”与表2中的主宾结构数据中的主语进行匹配,得到匹配上的主宾结构数据为“冯小刚(演员)、老炮儿(电影)”,此时可以将匹配上的主宾结构数据中的主语“冯小刚”类别信息“演员”作为百科词条“冯小刚”所属的分类。
情况二,将百科词条与主宾结构数据中的主语匹配,以及将百科词条的属性数据与主宾结构数据中的宾语匹配,可以提高百科词条分类的精确度。例如,待分类的百科词条为“冯小刚”,将百科词条“冯小刚”与下表3中的主宾结构数据中的主语进行匹配,得到匹配上的主宾结构数据为“冯小刚(演员)、老炮儿(电影)”、“冯小刚(教师)、一个不能少(书籍)”,此时无法精确判断百科词条“冯小刚”的类别。
表3
主语(括号中为类别) 谓语 宾语(括号中为类别)
老炮儿(电影) 主演 冯小刚(演员)
冯小刚(演员) 参演的电影作品 老炮儿(电影)
管虎(导演) 导演的电影作品 老炮儿(电影)
…… …… ……
冯小刚(教师) 发表的文学作品 一个不能少(书籍)
为了解决这一问题,本发明实施例进一步获取了百科词条的属性数据,即获取到百科词条“冯小刚”的属性数据,如“老炮儿”、“集结号”等,将百科词条“冯小刚”的属性数据与表3中的主宾结构数据中的宾语进行匹配,将匹配上的主宾结构数据“冯小刚(演员)、老炮儿(电影)”中的主语“冯小刚”类别信息“演员”作为百科词条“冯小刚”所属的分类。
进一步地,在上述情况二中,还可以将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的属性数据所属的分类。仍以上述举例为例,匹配上的主宾结构数据为“冯小刚(演员)、老炮儿(电影)”,那么可以将匹配上的主宾结构数据“冯小刚(演员)、老炮儿(电影)”中的宾语“老炮儿”类别信息“电影”作为百科词条“冯小刚”的属性数据“老炮儿”的类别。
在本发明的另一实施例中,百科词条的属性数据还可以包括锚链接,这里的锚链接实际上就是链接文本,又叫锚文本,可以理解为带有文本的超链接,就叫锚链接。锚文本可以作为文本链接所在的页面的内容的评估。本发明实施例可以将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的锚链接所属的分类。仍以上述举例为例,待分类的百科词条“冯小刚”,其属性数据为锚链接,如下表4所示。在表4中示出了部分超链关系。
表4
锚链接 对应的网页链接
老炮儿 http://baike.baidu.com/subview/10701921/16783450.htm
集结号 http://baike.baidu.com/view/776916.htm
天下无贼 http://baike.baidu.com/subview/39918/6272046.htm
…… ……
此时,将百科词条“冯小刚”的属性数据(即锚链接)与表3中的主宾结构数据中的宾语进行匹配,将匹配上的主宾结构数据“冯小刚(演员)、老炮儿(电影)”中的主语“冯小刚”类别信息“演员”作为百科词条“冯小刚”所属的分类。并且,将匹配上的主宾结构数据“冯小刚(演员)、老炮儿(电影)”中的宾语“老炮儿”类别信息“电影”作为百科词条“冯小刚”的锚链接“老炮儿”的类别。这里,可以记录锚链接“老炮儿”对应的网页链接的类别为“电影”。
需要说明的是,在实际应用中,上述所有可选实施方式可以采用结合的方式任意组合,形成本发明的可选实施例,在此不再一一赘述。
基于上文各个实施例提供的百科词条分类方法,基于同一发明构思,本发明实施例还提供了一种百科词条分类装置。图2示出了根据本发明一个实施例的百科词条分类装置的结构示意图。如图2所示,该装置至少可以包括资源数据提取模块210、数据关系生成模块220、匹配模块230以及分类模块240。
现介绍本发明实施例的百科词条分类装置的各组成或器件的功能以及各部分间的连接关系:
资源数据提取模块210,适于从资源站点的网页中提取出包含类别信息的资源数据;
数据关系生成模块220,与资源数据提取模块210相耦合,适于基于资源数据,生成一个或多个携带类别信息的主宾结构数据关系;
匹配模块230,与数据关系生成模块220相耦合,适于获取一个或多个待分类的百科词条,与一个或多个主宾结构数据关系进行匹配;
分类模块240,与匹配模块230相耦合,适于将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类。
在本发明一实施例中,类别信息包括主宾结构数据中的主语类别信息,分类模块240还适于:
将匹配上的主宾结构数据中的主语类别信息作为对应百科词条所属的分类。
在本发明一实施例中,类别信息包括主宾结构数据中的宾语类别信息,百科词条进一步包括百科词条的属性数据,分类模块240还适于:
将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的属性数据所属的分类。
在本发明一实施例中,匹配上是指百科词条与主宾结构数据中的主语匹配上,且百科词条的属性数据与主宾结构数据中的宾语匹配上。
在本发明一实施例中,百科词条的属性数据包括锚链接,分类模块240还适于:
将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的锚链接所属的分类。
在本发明一实施例中,资源数据提取模块210还适于:
确定资源站点的网页的资源类别;
根据资源站点的网页的资源类别,确定用于提取资源数据的一个或多个类别信息字段;
利用一个或多个类别信息字段,从资源站点的网页中提取出包含类别信息的资源数据。
在本发明一实施例中,资源数据提取模块210还适于:
从预先建立的资源数据模板库中,选取与资源站点的网页对应的资源数据模板;
利用资源数据模板从资源站点的网页中提取出包含类别信息的资源数据。
在本发明一实施例中,如图3所示,上文图2展示的装置还可以包括资源数据模板库生成模块250,与资源数据提取模块210相耦合,适于:
收集多个资源站点的网页;
分析多个资源站点的网页,确定各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息;
记录各个资源站点的网页、各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息之间的对应关系,生成资源数据模板库。
在本发明一实施例中,资源数据包括数据类别和数据名称,数据关系生成模块220还适于:
将数据类别和数据名称进行组合,生成一个或多个携带类别信息的主宾结构数据关系。
根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到如下有益效果:
在本发明实施例中,首先从资源站点的网页中提取出包含类别信息的资源数据,并基于资源数据,生成一个或多个携带类别信息的主宾结构数据关系。随后,获取一个或多个待分类的百科词条,与一个或多个主宾结构数据关系进行匹配,将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类。由此可见,本发明实施例可以利用资源站点的网页中资源数据已知的类别信息来确定百科词条的类别,相比于现有技术中利用机器学习方法,先人工标注部分词条类别,然后预测未知的词条类别,本发明实施例提供的技术方案能够节省人力成本,并且准确率较高。
进一步,本发明实施例采用百科词条和其属性数据与主宾结构数据关系进行匹配,来确定百科词条和其属性数据的类别,而非单纯地利用百科词条与主宾结构数据关系进行匹配,解决了百科词条可能存在歧义导致分类不准确的问题,提高了分类的准确性。例如,由于存在词条名歧义的问题,可能很多人都叫“张三”,但是类别可能不相同(可能为演员、医生、教师等),本发明实施例辅助了“张三”的一些相关的属性数据来进行词条分类,极大地提高了分类的准确率,比如此“张三”有一个相关属性为“儿科常见问题大全”,则可以确定此“张三”为撰写《儿科常见问题大全》的“张三”,那么确定此“张三”为医生。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的百科词条分类装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
本发明实施例的一方面,提供了A1、一种百科词条分类方法,包括:
从资源站点的网页中提取出包含类别信息的资源数据;
基于所述资源数据,生成一个或多个携带类别信息的主宾结构数据关系;
获取一个或多个待分类的百科词条,与所述一个或多个主宾结构数据关系进行匹配;
将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类。
A2、根据A1所述的方法,其中,所述类别信息包括主宾结构数据中的主语类别信息;
所述将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类,包括:
将匹配上的主宾结构数据中的主语类别信息作为对应百科词条所属的分类。
A3、根据A1或A2所述的方法,其中,所述类别信息包括主宾结构数据中的宾语类别信息,所述百科词条进一步包括百科词条的属性数据;
所述将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类,包括:
将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的属性数据所属的分类。
A4、根据A1-A3中任一项所述的方法,其中,所述匹配上是指百科词条与主宾结构数据中的主语匹配上,且百科词条的属性数据与主宾结构数据中的宾语匹配上。
A5、根据A1-A4中任一项所述的方法,其中,所述百科词条的属性数据包括锚链接;
将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的属性数据所属的分类,包括:
将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的锚链接所属的分类。
A6、根据A1-A5中任一项所述的方法,其中,从资源站点的网页中提取出包含类别信息的资源数据,包括:
确定资源站点的网页的资源类别;
根据所述资源站点的网页的资源类别,确定用于提取资源数据的一个或多个类别信息字段;
利用所述一个或多个类别信息字段,从所述资源站点的网页中提取出包含类别信息的资源数据。
A7、根据A1-A6中任一项所述的方法,其中,从资源站点的网页中提取出包含类别信息的资源数据,包括:
从预先建立的资源数据模板库中,选取与所述资源站点的网页对应的资源数据模板;
利用所述资源数据模板从所述资源站点的网页中提取出包含类别信息的资源数据。
A8、根据A1-A7中任一项所述的方法,其中,还包括:
收集多个资源站点的网页;
分析所述多个资源站点的网页,确定各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息;
记录所述各个资源站点的网页、所述各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息之间的对应关系,生成所述资源数据模板库。
A9、根据A1-A8中任一项所述的方法,其中,所述资源数据包括数据类别和数据名称;
基于所述资源数据,生成一个或多个携带类别信息的主宾结构数据关系,包括:
将所述数据类别和所述数据名称进行组合,生成一个或多个携带类别信息的主宾结构数据关系。
本发明实施例的另一方面,还提供了B10、一种百科词条分类装置,包括:
资源数据提取模块,适于从资源站点的网页中提取出包含类别信息的资源数据;
数据关系生成模块,适于基于所述资源数据,生成一个或多个携带类别信息的主宾结构数据关系;
匹配模块,适于获取一个或多个待分类的百科词条,与所述一个或多个主宾结构数据关系进行匹配;
分类模块,适于将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类。
B11、根据B10所述的装置,其中,所述类别信息包括主宾结构数据中的主语类别信息,所述分类模块还适于:
将匹配上的主宾结构数据中的主语类别信息作为对应百科词条所属的分类。
B12、根据B10或B11所述的装置,其中,所述类别信息包括主宾结构数据中的宾语类别信息,所述百科词条进一步包括百科词条的属性数据,所述分类模块还适于:
将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的属性数据所属的分类。
B13、根据B10-B12中任一项所述的装置,其中,所述匹配上是指百科词条与主宾结构数据中的主语匹配上,且百科词条的属性数据与主宾结构数据中的宾语匹配上。
B14、根据B10-B13中任一项所述的装置,其中,所述百科词条的属性数据包括锚链接,所述分类模块还适于:
将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的锚链接所属的分类。
B15、根据B10-B14中任一项所述的装置,其中,所述资源数据提取模块还适于:
确定资源站点的网页的资源类别;
根据所述资源站点的网页的资源类别,确定用于提取资源数据的一个或多个类别信息字段;
利用所述一个或多个类别信息字段,从所述资源站点的网页中提取出包含类别信息的资源数据。
B16、根据B10-B15中任一项所述的装置,其中,所述资源数据提取模块还适于:
从预先建立的资源数据模板库中,选取与所述资源站点的网页对应的资源数据模板;
利用所述资源数据模板从所述资源站点的网页中提取出包含类别信息的资源数据。
B17、根据B10-B16中任一项所述的装置,其中,还包括资源数据模板库生成模块,适于:
收集多个资源站点的网页;
分析所述多个资源站点的网页,确定各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息;
记录所述各个资源站点的网页、所述各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息之间的对应关系,生成所述资源数据模板库。
B18、根据B10-17中任一项所述的装置,其中,所述资源数据包括数据类别和数据名称,所述数据关系生成模块还适于:
将所述数据类别和所述数据名称进行组合,生成一个或多个携带类别信息的主宾结构数据关系。

Claims (10)

1.一种百科词条分类方法,包括:
从资源站点的网页中提取出包含类别信息的资源数据;
基于所述资源数据,生成一个或多个携带类别信息的主宾结构数据关系;
获取一个或多个待分类的百科词条,与所述一个或多个主宾结构数据关系进行匹配;
将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类。
2.根据权利要求1所述的方法,其中,所述类别信息包括主宾结构数据中的主语类别信息;
所述将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类,包括:
将匹配上的主宾结构数据中的主语类别信息作为对应百科词条所属的分类。
3.根据权利要求1或2所述的方法,其中,所述类别信息包括主宾结构数据中的宾语类别信息,所述百科词条进一步包括百科词条的属性数据;
所述将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类,包括:
将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的属性数据所属的分类。
4.根据权利要求1-3中任一项所述的方法,其中,所述匹配上是指百科词条与主宾结构数据中的主语匹配上,且百科词条的属性数据与主宾结构数据中的宾语匹配上。
5.根据权利要求1-4中任一项所述的方法,其中,所述百科词条的属性数据包括锚链接;
将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的属性数据所属的分类,包括:
将匹配上的主宾结构数据中的宾语类别信息作为对应百科词条的锚链接所属的分类。
6.根据权利要求1-5中任一项所述的方法,其中,从资源站点的网页中提取出包含类别信息的资源数据,包括:
确定资源站点的网页的资源类别;
根据所述资源站点的网页的资源类别,确定用于提取资源数据的一个或多个类别信息字段;
利用所述一个或多个类别信息字段,从所述资源站点的网页中提取出包含类别信息的资源数据。
7.根据权利要求1-6中任一项所述的方法,其中,从资源站点的网页中提取出包含类别信息的资源数据,包括:
从预先建立的资源数据模板库中,选取与所述资源站点的网页对应的资源数据模板;
利用所述资源数据模板从所述资源站点的网页中提取出包含类别信息的资源数据。
8.根据权利要求1-7中任一项所述的方法,其中,还包括:
收集多个资源站点的网页;
分析所述多个资源站点的网页,确定各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息;
记录所述各个资源站点的网页、所述各个资源站点的网页中包含类别信息的资源数据在网页中的位置信息之间的对应关系,生成所述资源数据模板库。
9.根据权利要求1-8中任一项所述的方法,其中,所述资源数据包括数据类别和数据名称;
基于所述资源数据,生成一个或多个携带类别信息的主宾结构数据关系,包括:
将所述数据类别和所述数据名称进行组合,生成一个或多个携带类别信息的主宾结构数据关系。
10.一种百科词条分类装置,包括:
资源数据提取模块,适于从资源站点的网页中提取出包含类别信息的资源数据;
数据关系生成模块,适于基于所述资源数据,生成一个或多个携带类别信息的主宾结构数据关系;
匹配模块,适于获取一个或多个待分类的百科词条,与所述一个或多个主宾结构数据关系进行匹配;
分类模块,适于将匹配上的主宾结构数据对应的类别信息作为对应百科词条所属的分类。
CN201610509368.XA 2016-06-30 2016-06-30 百科词条分类方法及装置 Active CN106126711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610509368.XA CN106126711B (zh) 2016-06-30 2016-06-30 百科词条分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610509368.XA CN106126711B (zh) 2016-06-30 2016-06-30 百科词条分类方法及装置

Publications (2)

Publication Number Publication Date
CN106126711A true CN106126711A (zh) 2016-11-16
CN106126711B CN106126711B (zh) 2019-11-01

Family

ID=57468851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610509368.XA Active CN106126711B (zh) 2016-06-30 2016-06-30 百科词条分类方法及装置

Country Status (1)

Country Link
CN (1) CN106126711B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043843A (zh) * 2010-12-08 2011-05-04 百度在线网络技术(北京)有限公司 一种用于基于目标应用获取目标词条的方法与获取设备
CN102063428A (zh) * 2009-11-17 2011-05-18 腾讯科技(深圳)有限公司 互联网信息中重名人物的处理方法及系统
CN102073707A (zh) * 2010-12-22 2011-05-25 百度在线网络技术(北京)有限公司 用于实时识别短文本类别信息的方法、装置及计算机设备
CN102193944A (zh) * 2010-03-12 2011-09-21 三星电子(中国)研发中心 网页主题内容抽取方法
CN102216928A (zh) * 2008-09-12 2011-10-12 马来西亚微电子系统有限公司 用于检索数据并显示数据存储器的内容密度的方法和系统
CN102831128A (zh) * 2011-06-15 2012-12-19 富士通株式会社 一种对互联网上的同名人物信息进行分类的方法及装置
CN103324626A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种建立多粒度词典的方法、分词的方法及其装置
CN103870506A (zh) * 2012-12-17 2014-06-18 中国科学院计算技术研究所 一种网页信息的抽取方法和系统
US9235638B2 (en) * 2013-11-12 2016-01-12 International Business Machines Corporation Document retrieval using internal dictionary-hierarchies to adjust per-subject match results

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102216928A (zh) * 2008-09-12 2011-10-12 马来西亚微电子系统有限公司 用于检索数据并显示数据存储器的内容密度的方法和系统
CN102063428A (zh) * 2009-11-17 2011-05-18 腾讯科技(深圳)有限公司 互联网信息中重名人物的处理方法及系统
CN102193944A (zh) * 2010-03-12 2011-09-21 三星电子(中国)研发中心 网页主题内容抽取方法
CN102043843A (zh) * 2010-12-08 2011-05-04 百度在线网络技术(北京)有限公司 一种用于基于目标应用获取目标词条的方法与获取设备
CN102073707A (zh) * 2010-12-22 2011-05-25 百度在线网络技术(北京)有限公司 用于实时识别短文本类别信息的方法、装置及计算机设备
CN102831128A (zh) * 2011-06-15 2012-12-19 富士通株式会社 一种对互联网上的同名人物信息进行分类的方法及装置
CN103324626A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种建立多粒度词典的方法、分词的方法及其装置
CN103870506A (zh) * 2012-12-17 2014-06-18 中国科学院计算技术研究所 一种网页信息的抽取方法和系统
US9235638B2 (en) * 2013-11-12 2016-01-12 International Business Machines Corporation Document retrieval using internal dictionary-hierarchies to adjust per-subject match results

Also Published As

Publication number Publication date
CN106126711B (zh) 2019-11-01

Similar Documents

Publication Publication Date Title
Suominen Annif: DIY automated subject indexing using multiple algorithms
Chen et al. Websrc: A dataset for web-based structural reading comprehension
Inel et al. Crowdtruth: Machine-human computation framework for harnessing disagreement in gathering annotated data
CN102549571B (zh) 来自数字图片集合的地标
Talukdar et al. Crowdsourced comprehension: predicting prerequisite structure in wikipedia
CN104221017A (zh) 使用示例来查找连接语料库中的数据
Xue et al. Ontology alignment based on instance using NSGA-II
Agirre et al. Matching Cultural Heritage items to Wikipedia.
US20120011132A1 (en) system, method and computer program for preparing data for analysis
Müller-Budack et al. Multimodal news analytics using measures of cross-modal entity and context consistency
CN105653547A (zh) 一种提取文本关键词的方法和装置
CN108920479B (zh) 针对两微一端跨信源账号推荐方法
KR20110019131A (ko) 소셜 관계를 이용한 정보 검색 장치 및 방법
Kousha et al. Web impact metrics for research assessment
Hobel et al. Deriving the geographic footprint of cognitive regions
Karl Mining location information from life-and earth-sciences studies to facilitate knowledge discovery
KR20200031009A (ko) 교육과정 평가에 따른 평가정보 구축 및 제공방법
Kim et al. Harvesting large corpora for generating place graphs
Hamizeh et al. Socialmatching++: A novel approach for interlinking user profiles on social networks
Katz et al. Wikiometrics: a Wikipedia based ranking system
Leskinen et al. Modeling and using an actor ontology of second world war military units and personnel
Ritze Web-scale web table to knowledge base matching
CN105893556B (zh) 基于百科内容的词条分类方法及装置
Iser et al. A problem meta-data library for research in SAT
CN106126711A (zh) 百科词条分类方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220727

Address after: 300450 No. 9-3-401, No. 39, Gaoxin 6th Road, Binhai Science Park, Binhai New Area, Tianjin

Patentee after: 3600 Technology Group Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230717

Address after: 1765, floor 17, floor 15, building 3, No. 10 Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: Beijing Hongxiang Technical Service Co.,Ltd.

Address before: 300450 No. 9-3-401, No. 39, Gaoxin 6th Road, Binhai Science Park, Binhai New Area, Tianjin

Patentee before: 3600 Technology Group Co.,Ltd.

TR01 Transfer of patent right