CN108280221B

CN108280221B - 关注点的层次化构建方法、装置和计算机设备

Info

Publication number: CN108280221B
Application number: CN201810128902.1A
Authority: CN
Inventors: 陈一乐; 刘呈祥; 何伯磊; 肖欣延; 吕雅娟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-02-08
Filing date: 2018-02-08
Publication date: 2022-04-15
Anticipated expiration: 2038-02-08
Also published as: CN108280221A

Abstract

本申请提出一种关注点的层次化构建方法、装置和计算机设备，上述关注点的层次化构建方法包括：爬取至少两个数据源的概念层次体系；对爬取的概念层次体系中相同垂类的相同概念层次进行融合，获得特定垂类的分类体系；对特定垂类的分类体系中的概念进行层次化处理，获得特定垂类的关注点概念层次体系；获取已挖掘的关注点的上位词，根据所述关注点的上位词将所述关注点关联到所述特定垂类的关注点概念层次体系。本申请可以实现增强关注点的描述和关注点逻辑推理上的组织，有效描述用户的更上层关注点，并且概念层次的粒度准确而不细碎，可以精确地表述用户的一类兴趣。

Description

关注点的层次化构建方法、装置和计算机设备

技术领域

本申请涉及搜索技术领域，尤其涉及一种关注点的层次化构建方法、装置和计算机设备。

背景技术

互联网中普遍存在新闻、信息等内容推荐的问题，到底给用户什么主题的新闻与信息，用户对什么样的内容感兴趣是亟待解决的一个问题。现在普遍的做法是将新闻与信息进行类别标记，打上如“社会”、“体育”等标签，这样做在对文章分类的同时一定程度上限定了文章的主题范围，也不能精确的表示用户真正感兴趣的具体内容。例如，某个用户只对社会新闻中的某一系列事件感兴趣，而非整个大的社会新闻的类别，那么大的类别作为用户的兴趣点就无法满足用户的真实需求了。

这类问题的解决方案是，主动发掘用户感兴趣的内容标签，称之为用户的关注点。通过对用户的搜索等互联网行为进行分析，挖掘出用户感兴趣的具体内容标签，从而解决新闻、信息等内容精准推荐的问题。让用户能够更加便捷的获取到自己真正感兴趣的内容，而不是粗略的某些固定类别的文章。例如：“汽车”作为用户的兴趣点太宽范，不能准确的描述用户的关注点，而通过挖掘得出的“汽车”类别、品牌和产地，例如“奔驰E200”、“宝马320li”等就能准确的表述用户希望获取的内容。

但是关注点的问题在于，粒度过于精细，无法有效的表征用户的真实的普遍意义上的兴趣，例如“奔驰E200”，作为一个关注点太细小了，而“德系汽车”、“梅赛德斯-奔驰”、“轿跑”等粒度较大的概念则可以更好地表征用户感兴趣的一类文章内容。这些概念层的关注点可以既保证描述用户兴趣的准确性，又不至于使得将用户的关注点定义为某一特定内容的文章。

现有相关技术中，一般是通过自动挖掘上下位关系结合半自动构建概念层次的方法，得到一个大而全的实体类别的知识体系。

但是，上述方法侧重于知识体系构建，词典知识体系的组织，无法描述为一个用户的兴趣；另外概念层次的粒度太粗，仅指出了词语所属的类别，而无法精确表示用户的具体兴趣，并且垂直类别的挖掘脱离了用户实际需求与应用需求，不能满足内容推荐的具体任务。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种关注点的层次化构建方法，以实现增强关注点的描述和关注点逻辑推理上的组织，有效描述用户的更上层关注点，并且概念层次的粒度准确而不细碎，可以精确地表述用户的一类兴趣。

本申请的第二个目的在于提出一种关注点的层次化构建装置。

本申请的第三个目的在于提出一种计算机设备。

本申请的第四个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本申请第一方面实施例提出了一种关注点的层次化构建方法，包括：爬取至少两个数据源的概念层次体系；对爬取的概念层次体系中相同垂类的相同概念层次进行融合，获得特定垂类的分类体系；对特定垂类的分类体系中的概念进行层次化处理，获得特定垂类的关注点概念层次体系；获取已挖掘的关注点的上位词，根据所述关注点的上位词将所述关注点关联到所述特定垂类的关注点概念层次体系。

本申请实施例的关注点的层次化构建方法中，爬取至少两个数据源的概念层次体系之后，对爬取的概念层次体系中相同垂类的相同概念层次进行融合，获得特定垂类的分类体系，然后对特定垂类的分类体系中的概念进行层次化处理，获得特定垂类的关注点概念层次体系，最后，获取已挖掘的关注点的上位词，根据上述关注点的上位词将上述关注点关联到上述特定垂类的关注点概念层次体系，从而可以实现增强关注点的描述和关注点逻辑推理上的组织，有效描述用户的更上层关注点，并且概念层次的粒度准确而不细碎，可以精确地表述用户的一类兴趣，并可以实现针对特定垂类构建关注点概念层次体系。

为达上述目的，本申请第二方面实施例提出了一种关注点的层次化构建装置，包括：爬取模块，用于爬取至少两个数据源的概念层次体系；融合模块，用于对所述爬取模块爬取的概念层次体系中相同垂类的相同概念层次进行融合，获得特定垂类的分类体系；层次化处理模块，用于对所述融合模块获得的特定垂类的分类体系中的概念进行层次化处理，获得特定垂类的关注点概念层次体系；获取模块，用于获取已挖掘的关注点的上位词；关联模块，用于根据所述获取模块获取的关注点的上位词将所述关注点关联到所述特定垂类的关注点概念层次体系。

本申请实施例的关注点的层次化构建装置中，爬取模块爬取至少两个数据源的概念层次体系之后，融合模块对爬取的概念层次体系中相同垂类的相同概念层次进行融合，获得特定垂类的分类体系，然后层次化处理模块对特定垂类的分类体系中的概念进行层次化处理，获得特定垂类的关注点概念层次体系，最后，获取模块获取已挖掘的关注点的上位词，关联模块根据上述关注点的上位词将上述关注点关联到上述特定垂类的关注点概念层次体系，从而可以实现增强关注点的描述和关注点逻辑推理上的组织，有效描述用户的更上层关注点，并且概念层次的粒度准确而不细碎，可以精确地表述用户的一类兴趣，并可以实现针对特定垂类构建关注点概念层次体系。

为达上述目的，本申请第三方面实施例提出一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上所述的方法。

为了实现上述目的，本申请第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请关注点的层次化构建方法一个实施例的流程图；

图2为本申请关注点的层次化构建方法另一个实施例的流程图；

图3为本申请关注点的层次化构建方法中将冲突的关系和/或跳级的层次关系进行重新连接或删除一个实施例的示意图；

图4为本申请关注点的层次化构建方法中获得特定垂类的关注点概念层次体系一个实施例的示意图；

图5为本申请关注点的层次化构建方法中娱乐垂类的关注点概念层次体系一个实施例的示意图；

图6为本申请关注点的层次化构建方法再一个实施例的流程图；

图7为本申请关注点的层次化构建方法再一个实施例的流程图；

图8为本申请关注点的层次化构建方法中结构化信息一个实施例的示意图；

图9为本申请关注点的层次化构建方法再一个实施例的流程图；

图10为本申请关注点的层次化构建方法中通过迭代扩展获得上位词一个实施例的示意图；

图11为本申请关注点的层次化构建方法再一个实施例的流程图；

图12为本申请关注点的层次化构建方法中娱乐类别的概念层次体系一个实施例的示意图；

图13为本申请关注点的层次化构建装置一个实施例的结构示意图；

图14为本申请关注点的层次化构建装置另一个实施例的结构示意图；

图15为本申请计算机设备一个实施例的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

图1为本申请关注点的层次化构建方法一个实施例的流程图，如图1所示，上述关注点的层次化构建方法可以包括：

步骤101，爬取至少两个数据源的概念层次体系。

其中，上述数据源可以包括：百科网站、问答类网站和新闻网站等，本实施例对上述数据源的来源不作限定。

这样，爬取的概念层次体系可以包括：互联网百科分类、新闻分类体系和问答类社区体系等，本实施例对爬取的概念层次体系不作限定。

步骤102，对爬取的概念层次体系中相同垂类的相同概念层次进行融合，获得特定垂类的分类体系。

具体地，对爬取的概念层次体系中相同垂类的相同概念层次进行融合，获得特定垂类的分类体系可以为：通过同义词表或者同义词识别的方式，对爬取的概念层次体系中相同垂类的相同概念层次进行融合，获得特定垂类的分类体系。

步骤103，对特定垂类的分类体系中的概念进行层次化处理，获得特定垂类的关注点概念层次体系。

步骤104，获取已挖掘的关注点的上位词。

步骤105，根据上述关注点的上位词将上述关注点关联到上述特定垂类的关注点概念层次体系。

具体地，在得到特定垂类的关注点概念层次体系之后，可以获取已挖掘的关注点的上位词，然后可以根据上述关注点的上位词将上述关注点关联到上述特定垂类的关注点概念层次体系。

上述关注点的层次化构建方法中，爬取至少两个数据源的概念层次体系之后，对爬取的概念层次体系中相同垂类的相同概念层次进行融合，获得特定垂类的分类体系，然后对特定垂类的分类体系中的概念进行层次化处理，获得特定垂类的关注点概念层次体系，最后，获取已挖掘的关注点的上位词，根据上述关注点的上位词将上述关注点关联到上述特定垂类的关注点概念层次体系，从而可以实现增强关注点的描述和关注点逻辑推理上的组织，有效描述用户的更上层关注点，并且概念层次的粒度准确而不细碎，可以精确地表述用户的一类兴趣，并可以实现针对特定垂类构建关注点概念层次体系。

图2为本申请关注点的层次化构建方法另一个实施例的流程图，如图2所示，本申请图1所示实施例步骤103可以包括：

步骤201，对特定垂类的分类体系中非关注点的概念层次进行剪枝，删除无意义的知识性概念层次。

具体地，可以通过关注点图谱的覆盖或数据源的热度(例如：百科页面浏览量(PageView；以下简称：PV)、话题下的关注人数、新闻数量)等特征，对特定垂类的分类体系中非关注点的概念层次(有向无环图)进行剪枝，排除无意义的知识性概念层次。

步骤202，删除指称性过强的具体关注点和不适合作为概念层次的叶子节点。

具体地，由于关注点图谱中不包含概念层关注点，可通过对子树的覆盖来判断叶子节点是否适合作为概念层次，然后自下而上地将不适合作为概念层次的叶子节点删除。

步骤203，将冲突和/或跳级的层次关系进行重新连接或删除，以及将不适合作为关注点的概念层次进行标注和识别，获得特定垂类的关注点概念层次体系。

参见图3，图3为本申请关注点的层次化构建方法中将冲突的关系和/或跳级的层次关系进行重新连接或删除一个实施例的示意图，图3中，对x和y之间冲突的层次关系出现环状结构时的解决方法进行了举例示意。

本实施例中，将不适合作为关注点的概念层次进行标注和识别可以为：将不适合作为关注点的概念层次进行人工的标注和识别，由于概念层次结构清晰而可读，故这一步骤耗费的人力成本很少。

本实施例中，获得特定垂类的关注点概念层次体系的过程可以如图4所示，图4为本申请关注点的层次化构建方法中获得特定垂类的关注点概念层次体系一个实施例的示意图，通过本实施例提供的方法获得的娱乐垂类的关注点概念层次体系可以如图5所示，图5为本申请关注点的层次化构建方法中娱乐垂类的关注点概念层次体系一个实施例的示意图。

图6为本申请关注点的层次化构建方法再一个实施例的流程图，如图6所示，本申请图1所示实施例步骤104可以包括：

步骤601，通过预先构建的模板对已挖掘的关注点的百科词条内容进行模板化挖掘，并通过百科本身的类别与上述关注点的类别进行验证，获得上述关注点的上位词。

以已挖掘的关注点为“周杰伦”为例，“周杰伦”的百科词条内容为：“周杰伦(JayChou)，是中国台湾流行乐男歌手、音乐人、演员、导演、编剧、监制、商人”，可以判断在娱乐类别下，周杰伦是“歌手”、“音乐人”、“演员”和/或“导演”等。

于是可以通过启发式的方法构建一些模板，类似于“xx是xx”，通过预先构建的模板对已挖掘的关注点的百科词条内容进行模板化挖掘，同时通过百科本身的类别与关注点的类别进行验证，得到娱乐垂类下的周杰伦的上位词。

图7为本申请关注点的层次化构建方法再一个实施例的流程图，如图7所示，本申请图1所示实施例步骤104可以包括：

步骤701，通过预先构建的模板对数据源中查找到的已挖掘的关注点的结构化信息进行模板化挖掘，并通过百科本身的类别与上述关注点的类别进行验证，获得上述关注点的上位词。

仍以已挖掘的关注点为“周杰伦”为例，从百科等数据源中可以查找到如图8所示的结构化信息，图8为本申请关注点的层次化构建方法中结构化信息一个实施例的示意图。同样，可以通过预先构建的模板对上述结构化信息进行模板化挖掘，并通过百科本身的类别与上述关注点的类别进行验证，获得上述关注点的上位词。

图9为本申请关注点的层次化构建方法再一个实施例的流程图，如图9所示，本申请图1所示实施例步骤104可以包括：

步骤901，根据预先构建的模板对网页数据进行挖掘，获取已挖掘的关注点的候选上位词。

具体地，可以先启发式的构建一些模板，例如“xx是xx”等，根据预先构建的模板对网页数据进行挖掘，获取已挖掘的关注点的候选上位词。

步骤902，根据上述关注点与上关注点的候选上位词的上下位关系，挖掘新的模板。

步骤903，根据上述新的模板对网页数据进行挖掘，获得上述关注点的候选上位词。

步骤904，对所获得的上述关注点的每个候选上位词的出现频次进行统计，选择出现频次大于预定频次阈值的候选上位词作为上述关注点的上位词。

重复步骤901～步骤903这个过程，直至无法发现新的模板或者上位了，或者在此过程中引入的错误达到了一定的比例，则对所获得的上述关注点的每个候选上位词的出现频次进行统计，选择出现频次大于预定频次阈值的候选上位词作为上述关注点的上位词。

其中，上述预定频次阈值可以在具体实现时根据系统性能和/或实现需求等自行设置，本实施例对上述预定频次阈值的大小不作限定。

上述过程可以如图10所示，图10为本申请关注点的层次化构建方法中通过迭代扩展获得上位词一个实施例的示意图。

图11为本申请关注点的层次化构建方法再一个实施例的流程图，如图11所示，本申请图1所示实施例步骤104可以包括：

步骤1101，从语料中抽取上下位特征数据，根据抽取的数据进行训练，获得二元分类器。

其中，从语料中抽取的上下位特征数据包括：候选上位词是否为下位词的后缀、候选上位词在下位搜索出现结果的占比、候选上位词的同义词在下位搜索中出现结果的占比、候选上位词是否为下位词的百科标签以及候选上位词与下位词是否命中已有的模板。

步骤1102，通过上述二元分类器获得已挖掘的关注点的候选上位词，和每个候选上位词的置信度。

步骤1103，将置信度高于预定置信度阈值的候选上位词作为上述关注点的上位词。

其中，上述预定置信度阈值可以在具体实现时根据系统性能和/或实现需求等自行设置，本实施例对上述预定置信度阈值的大小不作限定。

以已挖掘的关注点为“周杰伦”为例，通过本申请实施例提供的关注点的层次化构建方法，可以得到关注点“周杰伦”在娱乐这一类别下的概念层次体系，如图12所示，图12为本申请关注点的层次化构建方法中娱乐类别的概念层次体系一个实施例的示意图。

本申请实施例提供的关注点的层次化构建方法侧重于关注点的描述与关注点逻辑推理上的组织，可以有效的描述用户的更上层兴趣。比如，现有相关技术中的上下位关系挖掘与层次化构建，将“周杰伦”视为“男歌手”→“歌手”→“艺人”→“娱乐人物”，但用户并非是因为喜欢歌手或男歌手才喜欢周杰伦，而本申请的层次化体系将“周杰伦”视为“台湾流行乐歌手”→“港台明星”→“娱乐人物”→“娱乐”下边的关注点，可以更好的沿着这个路径推理用户的兴趣。

本申请实施例构建的概念层次体系中，概念层次粒度准确而不细碎，可以精确地表述用户的一类兴趣。比如，现有相关技术中的上下位关系挖掘与层次化构建，将“奔驰E200”视为“汽车”→“车”→“交通工具”→“工具”，从一个具体的车型直接关联上了一个大的内容方向“汽车”，中间缺少很多精细的粒度，而本申请的层次化体系将“奔驰E200”视为“奔驰E级”→“奔驰汽车”→“德系汽车”→“汽车产地”(不展现)→“汽车”，还可以视为“轿跑”→“汽车类型(不展现)”→“汽车”等。

并且本申请可以针对特定垂直类别构建层次化体系，例如“周杰伦”属于“人物/人”，但在内容推荐上没有任何意义，而本申请的构建方法可以很好的将“周杰伦”关联在“娱乐”或“音乐”类别下。

本申请提供的关注点的层次化构建方法可以有选择的展现概念层次的关注点，例如上述的“汽车产地”和“汽车类型”可以作为逻辑上推导的节点，但不适合展现，可以作为用户关注点关联。

图13为本申请关注点的层次化构建装置一个实施例的结构示意图，本申请实施例中的关注点的层次化构建装置可以实现本申请实施例提供的关注点的层次化构建方法。如图13所示，上述关注点的层次化构建装置可以包括：爬取模块1301、融合模块1302、层次化处理模块1303、获取模块1304和关联模块1305；

其中，爬取模块1301，用于爬取至少两个数据源的概念层次体系；其中，上述数据源可以包括：百科网站、问答类网站和新闻网站等，本实施例对上述数据源的来源不作限定。

融合模块1302，用于对爬取模块1301爬取的概念层次体系中相同垂类的相同概念层次进行融合，获得特定垂类的分类体系；本实施例中，融合模块1302，具体用于通过同义词表或者同义词识别的方式，对爬取的概念层次体系中相同垂类的相同概念层次进行融合，获得特定垂类的分类体系。

层次化处理模块1303，用于对融合模块1302获得的特定垂类的分类体系中的概念进行层次化处理，获得特定垂类的关注点概念层次体系；

获取模块1304，用于获取已挖掘的关注点的上位词；

关联模块1305，用于根据获取模块1304获取的关注点的上位词将上述关注点关联到上述特定垂类的关注点概念层次体系。

具体地，在层次化处理模块1303得到特定垂类的关注点概念层次体系之后，获取模块1304可以获取已挖掘的关注点的上位词，然后关联模块1305可以根据上述关注点的上位词将上述关注点关联到上述特定垂类的关注点概念层次体系。

上述关注点的层次化构建装置中，爬取模块1301爬取至少两个数据源的概念层次体系之后，融合模块1302对爬取的概念层次体系中相同垂类的相同概念层次进行融合，获得特定垂类的分类体系，然后层次化处理模块1303对特定垂类的分类体系中的概念进行层次化处理，获得特定垂类的关注点概念层次体系，最后，获取模块1304获取已挖掘的关注点的上位词，关联模块1305根据上述关注点的上位词将上述关注点关联到上述特定垂类的关注点概念层次体系，从而可以实现增强关注点的描述和关注点逻辑推理上的组织，有效描述用户的更上层关注点，并且概念层次的粒度准确而不细碎，可以精确地表述用户的一类兴趣，并可以实现针对特定垂类构建关注点概念层次体系。

图14为本申请关注点的层次化构建装置另一个实施例的结构示意图，与图13所示的层次化构建装置相比，不同之处在于，图14所示的关注点的层次化构建装置中，层次化处理模块1303可以包括：删除子模块13031和获得子模块13032；

其中，删除子模块13031，用于对特定垂类的分类体系中非关注点的概念层次进行剪枝，删除无意义的知识性概念层次；以及删除指称性过强的具体关注点和不适合作为概念层次的叶子节点；具体地，删除子模块13031可以通过关注点图谱的覆盖或数据源的热度(例如：百科PV、话题下的关注人数、新闻数量)等特征，对特定垂类的分类体系中非关注点的概念层次(有向无环图)进行剪枝，排除无意义的知识性概念层次。由于关注点图谱中不包含概念层关注点，可通过对子树的覆盖来判断叶子节点是否适合作为概念层次，然后删除子模块13031自下而上地将不适合作为概念层次的叶子节点删除。

获得子模块13032，用于将冲突和/或跳级的层次关系进行重新连接或删除，以及将不适合作为关注点的概念层次进行标注和识别，获得特定垂类的关注点概念层次体系。

参见图3，图3中，对x和y之间冲突的层次关系出现环状结构时的解决方法进行了举例示意。

其中，获得子模块13032获得的娱乐垂类的关注点概念层次体系可以如图5所示。

本实施例的一种实现方式中，获取模块1304，具体用于通过预先构建的模板对已挖掘的关注点的百科词条内容进行模板化挖掘，并通过百科本身的类别与上述关注点的类别进行验证，获得上述关注点的上位词。

于是可以通过启发式的方法构建一些模板，类似于“xx是xx”，获取模块1304通过预先构建的模板对已挖掘的关注点的百科词条内容进行模板化挖掘，同时通过百科本身的类别与关注点的类别进行验证，得到娱乐垂类下的周杰伦的上位词。

本实施例的另一种实现方式中，获取模块1304，具体用于通过预先构建的模板对数据源中查找到的已挖掘的关注点的结构化信息进行模板化挖掘，并通过百科本身的类别与上述关注点的类别进行验证，获得上述关注点的上位词。

仍以已挖掘的关注点为“周杰伦”为例，从百科等数据源中可以查找到如图8所示的结构化信息，同样，获取模块1304可以通过预先构建的模板对上述结构化信息进行模板化挖掘，并通过百科本身的类别与上述关注点的类别进行验证，获得上述关注点的上位词。

本实施例的再一种实现方式中，获取模块1304可以包括：挖掘子模块13041和统计子模块13042；

挖掘子模块13041，用于根据预先构建的模板对网页数据进行挖掘，获取已挖掘的关注点的候选上位词；以及根据上述关注点与上述关注点的候选上位词的上下位关系，挖掘新的模板；以及根据上述新的模板对网页数据进行挖掘，获得上述关注点的候选上位词。

具体地，挖掘子模块13041可以先启发式的构建一些模板，例如“xx是xx”等，根据预先构建的模板对网页数据进行挖掘，获取已挖掘的关注点的候选上位词。

统计子模块13042，用于对挖掘子模块13041所获得的上述关注点的每个候选上位词的出现频次进行统计，选择出现频次大于预定频次阈值的候选上位词作为上述关注点的上位词。

本实施例中，挖掘子模块13041重复上述过程，直至无法发现新的模板或者上位了，或者在此过程中引入的错误达到了一定的比例，则统计子模块13042对挖掘子模块13041所获得的上述关注点的每个候选上位词的出现频次进行统计，选择出现频次大于预定频次阈值的候选上位词作为上述关注点的上位词。

其中，上述预定频次阈值可以在具体实现时根据系统性能和/或实现需求等自行设置，本实施例对上述预定频次阈值的大小不作限定。上述过程可以如图10所示。

本实施例的再一种实现方式中，获取模块1304可以包括：训练子模块13043和上位词确定子模块13044；

其中，训练子模块13043，用于从语料中抽取上下位特征数据，根据抽取的数据进行训练，获得二元分类器；从语料中抽取的上下位特征数据包括：候选上位词是否为下位词的后缀、候选上位词在下位搜索出现结果的占比、候选上位词的同义词在下位搜索中出现结果的占比、候选上位词是否为下位词的百科标签以及候选上位词与下位词是否命中已有的模板；

上位词确定子模块13044，用于通过上述二元分类器获得已挖掘的关注点的候选上位词，和每个候选上位词的置信度；将置信度高于预定置信度阈值的候选上位词作为上述关注点的上位词。

以已挖掘的关注点为“周杰伦”为例，通过本申请实施例提供的关注点的层次化构建装置，可以得到关注点“周杰伦”在娱乐这一类别下的概念层次体系，如图12所示。

本申请实施例提供的关注点的层次化构建装置侧重于关注点的描述与关注点逻辑推理上的组织，可以有效的描述用户的更上层兴趣。比如，现有相关技术中的上下位关系挖掘与层次化构建，将“周杰伦”视为“男歌手”→“歌手”→“艺人”→“娱乐人物”，但用户并非是因为喜欢歌手或男歌手才喜欢周杰伦，而本申请的层次化体系将“周杰伦”视为“台湾流行乐歌手”→“港台明星”→“娱乐人物”→“娱乐”下边的关注点，可以更好的沿着这个路径推理用户的兴趣。

并且本申请可以针对特定垂直类别构建层次化体系，例如“周杰伦”属于“人物/人”，但在内容推荐上没有任何意义，而本申请的构建装置可以很好的将“周杰伦”关联在“娱乐”或“音乐”类别下。

本申请提供的关注点的层次化构建装置可以有选择的展现概念层次的关注点，例如上述的“汽车产地”和“汽车类型”可以作为逻辑上推导的节点，但不适合展现，可以作为用户关注点关联。

图15为本申请计算机设备一个实施例的结构示意图，上述计算机设备可以包括存储器、处理器及存储在上述存储器上并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时，可以实现本申请实施例提供的关注点的层次化构建方法。

其中，上述计算机设备可以为服务器，也可以为终端设备，本实施例对上述计算机设备的具体形态不作限定。

图15示出了适于用来实现本申请实施方式的示例性计算机设备12的框图。图15显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图15所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图15未显示，通常称为“硬盘驱动器”)。尽管图15中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc ReadOnly Memory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图15所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图15中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本申请实施例提供的关注点的层次化构建方法。

本申请实施例还提供一种非临时性计算机可读存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时可以实现本申请实施例提供的关注点的层次化构建方法。

上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory；以下简称：ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory；以下简称：EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network；以下简称：LAN)或广域网(Wide Area Network；以下简称：WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(Random AccessMemory；以下简称：RAM)，只读存储器(Read Only Memory；以下简称：ROM)，可擦除可编辑只读存储器(Erasable Programmable Read Only Memory；以下简称：EPROM)或闪速存储器，光纤装置，以及便携式光盘只读存储器(Compact Disc Read Only Memory；以下简称：CD-ROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(ProgrammableGate Array；以下简称：PGA)，现场可编程门阵列(Field Programmable Gate Array；以下简称：FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种关注点的层次化构建方法，所述关注点为用户感兴趣的内容标签，其特征在于，包括：

爬取至少两个数据源的概念层次体系；

对爬取的概念层次体系中相同垂类的相同概念层次进行融合，获得特定垂类的分类体系；

对特定垂类的分类体系中的概念进行层次化处理，获得特定垂类的关注点概念层次体系；

获取已挖掘的关注点的上位词，根据所述关注点的上位词将所述关注点关联到所述特定垂类的关注点概念层次体系；

其中，所述对特定垂类的分类体系中的概念进行层次化处理，获得特定垂类的关注点概念层次体系包括：对特定垂类的分类体系中非关注点的概念层次进行剪枝，删除无意义的知识性概念层次；删除指称性过强的具体关注点和不适合作为概念层次的叶子节点；将冲突和/或跳级的层次关系进行重新连接或删除，以及将不适合作为关注点的概念层次进行标注和识别，获得特定垂类的关注点概念层次体系；

所述将不适合作为关注点的概念层次进行标注和识别包括：将不适合作为关注点的概念层次进行人工的标注和识别。

2.根据权利要求1所述的方法，其特征在于，所述对爬取的概念层次体系中相同垂类的相同概念层次进行融合，获得特定垂类的分类体系包括：

通过同义词表或者同义词识别的方式，对爬取的概念层次体系中相同垂类的相同概念层次进行融合，获得特定垂类的分类体系。

3.根据权利要求1-2任意一项所述的方法，其特征在于，所述获取已挖掘的关注点的上位词包括：

通过预先构建的模板对已挖掘的关注点的百科词条内容进行模板化挖掘，并通过百科本身的类别与所述关注点的类别进行验证，获得所述关注点的上位词。

4.根据权利要求1-2任意一项所述的方法，其特征在于，所述获取已挖掘的关注点的上位词包括：

通过预先构建的模板对数据源中查找到的已挖掘的关注点的结构化信息进行模板化挖掘，并通过百科本身的类别与所述关注点的类别进行验证，获得所述关注点的上位词。

5.根据权利要求1-2任意一项所述的方法，其特征在于，所述获取已挖掘的关注点的上位词包括：

根据预先构建的模板对网页数据进行挖掘，获取已挖掘的关注点的候选上位词；

根据所述关注点与述关注点的候选上位词的上下位关系，挖掘新的模板；

根据所述新的模板对网页数据进行挖掘，获得所述关注点的候选上位词；

对所获得的所述关注点的每个候选上位词的出现频次进行统计，选择出现频次大于预定频次阈值的候选上位词作为所述关注点的上位词。

6.根据权利要求1-2任意一项所述的方法，其特征在于，所述获取已挖掘的关注点的上位词包括：

从语料中抽取上下位特征数据，根据抽取的数据进行训练，获得二元分类器；从语料中抽取的上下位特征数据包括：候选上位词是否为下位词的后缀、候选上位词在下位搜索出现结果的占比、候选上位词的同义词在下位搜索中出现结果的占比、候选上位词是否为下位词的百科标签以及候选上位词与下位词是否命中已有的模板；

通过所述二元分类器获得已挖掘的关注点的候选上位词，和每个候选上位词的置信度；

将置信度高于预定置信度阈值的候选上位词作为所述关注点的上位词。

7.一种关注点的层次化构建装置，其特征在于，包括：

爬取模块，用于爬取至少两个数据源的概念层次体系；

融合模块，用于对所述爬取模块爬取的概念层次体系中相同垂类的相同概念层次进行融合，获得特定垂类的分类体系；

层次化处理模块，用于对所述融合模块获得的特定垂类的分类体系中的概念进行层次化处理，获得特定垂类的关注点概念层次体系；

获取模块，用于获取已挖掘的关注点的上位词；

关联模块，用于根据所述获取模块获取的关注点的上位词将所述关注点关联到所述特定垂类的关注点概念层次体系；

其中，所述层次化处理模块包括：

删除子模块，用于对特定垂类的分类体系中非关注点的概念层次进行剪枝，删除无意义的知识性概念层次；以及删除指称性过强的具体关注点和不适合作为概念层次的叶子节点；

获得子模块，用于将冲突和/或跳级的层次关系进行重新连接或删除，以及将不适合作为关注点的概念层次进行标注和识别，获得特定垂类的关注点概念层次体系。

8.根据权利要求7所述的装置，其特征在于，

所述融合模块，具体用于通过同义词表或者同义词识别的方式，对爬取的概念层次体系中相同垂类的相同概念层次进行融合，获得特定垂类的分类体系。

9.根据权利要求7-8任意一项所述的装置，其特征在于，

所述获取模块，具体用于通过预先构建的模板对已挖掘的关注点的百科词条内容进行模板化挖掘，并通过百科本身的类别与所述关注点的类别进行验证，获得所述关注点的上位词。

10.根据权利要求7-8任意一项所述的装置，其特征在于，

所述获取模块，具体用于通过预先构建的模板对数据源中查找到的已挖掘的关注点的结构化信息进行模板化挖掘，并通过百科本身的类别与所述关注点的类别进行验证，获得所述关注点的上位词。

11.根据权利要求7-8任意一项所述的装置，其特征在于，所述获取模块包括：

挖掘子模块，用于根据预先构建的模板对网页数据进行挖掘，获取已挖掘的关注点的候选上位词；以及根据所述关注点与所述关注点的候选上位词的上下位关系，挖掘新的模板；以及根据所述新的模板对网页数据进行挖掘，获得所述关注点的候选上位词；

统计子模块，用于对所述挖掘子模块所获得的所述关注点的每个候选上位词的出现频次进行统计，选择出现频次大于预定频次阈值的候选上位词作为所述关注点的上位词。

12.根据权利要求7-8任意一项所述的装置，其特征在于，所述获取模块包括：

训练子模块，用于从语料中抽取上下位特征数据，根据抽取的数据进行训练，获得二元分类器；从语料中抽取的上下位特征数据包括：候选上位词是否为下位词的后缀、候选上位词在下位搜索出现结果的占比、候选上位词的同义词在下位搜索中出现结果的占比、候选上位词是否为下位词的百科标签以及候选上位词与下位词是否命中已有的模板；

上位词确定子模块，用于通过所述二元分类器获得已挖掘的关注点的候选上位词，和每个候选上位词的置信度；将置信度高于预定置信度阈值的候选上位词作为所述关注点的上位词。

13.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-6中任一所述的方法。

14.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的方法。