CN103514289A - 一种兴趣本体库构建方法及装置 - Google Patents

一种兴趣本体库构建方法及装置 Download PDF

Info

Publication number
CN103514289A
CN103514289A CN201310464782.XA CN201310464782A CN103514289A CN 103514289 A CN103514289 A CN 103514289A CN 201310464782 A CN201310464782 A CN 201310464782A CN 103514289 A CN103514289 A CN 103514289A
Authority
CN
China
Prior art keywords
interest
entity
interested
attribute
interested entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310464782.XA
Other languages
English (en)
Inventor
李大任
�田�浩
戴岱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310464782.XA priority Critical patent/CN103514289A/zh
Publication of CN103514289A publication Critical patent/CN103514289A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明公开了一种兴趣本体库构建方法及装置,其中所述方法包括:根据预设兴趣类别,获取结构化数据信息;根据所述结构化数据信息获取兴趣实体及对应的至少一个属性;将所述兴趣实体及对应的至少一个属性保存为兴趣本体项。本发明构建了一个通用兴趣本体库,使得一个兴趣实体可以对应多个属性,从而使得本体结构更加全面和准确。

Description

一种兴趣本体库构建方法及装置
技术领域
本发明涉及互联网应用技术领域,具体涉及一种兴趣本体库构建方法及装置。
背景技术
随着互联网信息资源的极度膨胀,传统搜索引擎的单一搜索模式已经无法满足用户对于信息的个性化需求,因此定制化的搜索引擎和推荐系统被引入互联网领域,其核心问题就是如何对用户的兴趣进行表示和建模。
目前常见的用户兴趣建模方式主要有两种,一种是隐式的用户兴趣建模,即直接将某种关联或者训练好的机器学习模型用于兴趣推荐,由于这种方式完全不告诉用户推荐的原因,因此用户很难信任推荐引擎给出的推荐结果。另一种是显式的用户兴趣建模,通常是使用自然语言中的词语将用户的兴趣用一种显式的方式表示出来。显式的用户兴趣建模方式通常被称为基于本体的用户建模方式,即将用户的兴趣表示成本体中的一个或多个分类节点,然后使用这种分类节点来进行个性化的推荐或搜索,其中最常用的本体是ODP(Open DirectoryProject,即开放式分类目录搜索系统),它是目前互联网上最大的人工编制的分类检索系统。
显式的用户兴趣建模方式由于明确给出了兴趣推荐的原因,所以用户接受程度较高,已经逐渐成为用户兴趣建模的主要发展方向。但是显式的用户兴趣建模方式都是以传统的层级结构的本体(例如ODP)为基础的,这些本体都是分类体系,它们将实体中的每一个属性都作为一个分类,而且规定一个实体只能属于一个分类,这明显不符合实际情况,并且这些本体大都是从语义角度,而并非从用户兴趣角度建立的分类体系,所以由此建立的用户兴趣模型的兴趣推荐成功率并不是很高。
发明内容
有鉴于此,本发明实施例提供一种兴趣本体库构建方法及装置,来解决以上背景技术部分提到的技术问题。
一方面,本发明实施例提供了一种兴趣本体库构建方法,所述方法包括:
根据预设兴趣类别,获取结构化数据信息;
根据所述结构化数据信息获取兴趣实体及对应的至少一个属性;
将所述兴趣实体及对应的至少一个属性保存为兴趣本体项。
另一方面,本发明实施例还提供了一种兴趣本体库构建装置,所述装置包括:
信息获取单元,用于根据预设兴趣类别,获取结构化数据信息;
兴趣获取单元,用于根据所述结构化数据信息获取兴趣实体及对应的至少一个属性;
兴趣保存单元,用于将所述兴趣实体及对应的至少一个属性保存为兴趣本体项。
本发明实施例通过从不同兴趣类别的结构化数据信息中获取兴趣实体及其属性,并将所述兴趣实体及其属性保存为兴趣本体项,从而构建了一个通用兴趣本体库,使得一个兴趣实体可以对应多个属性,增加了本体结构的全面性、准确性和可扩展性,使其能更好地适应快速多变的互联网环境,可以显著提高显式用户兴趣建模的准确率,从而进一步提升用户兴趣推荐的成功率。
附图说明
图1是本发明第一实施例的兴趣本体库构建方法的流程图;
图2是应用本发明第一实施例的方法得到的兴趣本体库的结构示意图;
图3是本发明第二实施例的兴趣本体库构建方法的流程图;
图4是本发明第二实施例的一个优选实施方式的本体项去错方法的流程图;
图5是本发明第三实施例的兴趣本体库构建装置的结构图;
图6是本发明第四实施例的兴趣本体库构建装置的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部。
图1是本发明第一实施例的兴趣本体库构建方法的流程图。如图1所示,所述兴趣本体库构建方法包括:
步骤110、根据预设兴趣类别,获取结构化数据信息。
所述兴趣类别,就是将互联网用户可能感兴趣的所有信息进行分类得到的,例如可以分为影视娱乐、游戏、电脑数码、人文社科等各个类型,如果这些类型包含的信息量过多,还可以进行进一步的二级分类,例如影视娱乐作为一级分类的类型,那么它的二级分类可以包括娱乐人物、影视、动漫、音乐、网络红人等,而游戏作为一级分类时,它的二级分类可以包括大型客户端游戏、网页游戏、社交游戏、单机游戏、移动客户端游戏等。诸如此类,就可以将互联网用户可能感兴趣的所有信息进行细分,并且在构建所述兴趣本体库之前,所述兴趣类别都是已经设置好的。
在本实施例中,首先根据预设兴趣类别,选取相应的信息源,这个信息源应该是和所述兴趣类别密切相关的、并能提供可靠的且具有代表性数据的信息源,从而得到所述信息源中包含的结构化数据信息。所述信息源可以是可扩展标记语言文件、超文本标记语言文件或其他结构化/半结构化的信息源。
其中,可扩展标记语言(Extensible Markup Language,简称XML),用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。XML是标准通用标记语言(SGML)的子集,非常适合Web传输。XML提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据。
超文本标记语言(Hyper Text Mark-up Language,简称HTML),是目前网络上应用最为广泛的语言,也是构成网页文档的主要语言。HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字、图形、动画、声音、表格、链接等。HTML的结构包括头部(Head)、主体(Body)两大部分,其中头部描述浏览器所需的信息,而主体则包含所要说明的具体内容。也就是说,网页的本质通常就是超级文本标记语言。
具体举例来说,对于预设兴趣类别中影视这个兴趣类别,就可以选择豆瓣网中有关影视剧介绍的网页作为所述信息源,而对于文学这个兴趣类别,则可以选择起点中文网中的相关网页作为所述信息源。当然,对于已经建立过结构化数据库的兴趣类别,也可以直接把所述数据库作为信息源,例如对于旅游景点这个兴趣类别,可以直接将百度旅游(百度公司开发的一款旅游信息类应用程序)中的关于旅游景点的结构化数据库作为所述信息源。
步骤120、根据所述结构化数据信息获取兴趣实体及对应的至少一个属性。
具体地说,就是从所述信息源包含的结构化信息中抽取兴趣实体及其对应的属性。在所述结构化信息中,由于所述兴趣实体及其对应的至少一个属性都具有固定的表述方式,所以所述兴趣实体及其对应的至少一个属性都可以很容易地被抽取出来。
如果所述信息源是可扩展标记语言文件或超文本标记语言文件,所述兴趣实体及其对应的至少一个属性可以通过基于XML或HTML标签的正则表达式被抽取出来。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。通过正则表达式,可以从字符串中获取需要的特定部分。例如影视这个兴趣类别中的兴趣实体可以是从豆瓣网的相关网页中抽取出来的,那么抽取兴趣实体的实体名的正则表达式可以是<span property="v:itemreviewed">(.*?)</span>,这样就可以将具体的实体名抽取出来,同样,通过类似方法可以抽取得到所述兴趣实体的其他属性,所述属性可以是一个或多个。
如果所述信息源是结构化的数据库,那么可以直接将所述兴趣实体及其对应的属性抽取出来。对结构化数据库的具体操作方法为本领域技术人员所熟知,是本领域的公知技术,这里不再赘述。
步骤130、将所述兴趣实体及对应的至少一个属性保存为兴趣本体项。
具体地,可以将所述兴趣实体及对应的至少一个属性保存为一个字符串,那么这个字符串就是所述兴趣本体库中的一个兴趣本体项。
在本实施例的一个优选实施方式中,所述至少一个属性根据预设的属性维度进行保存。所述属性维度就是指每一个兴趣类别所对应的属性分类,例如影视这个兴趣类别,对应的属性维度可以包括实体名、实体别名、电影/电视剧、地区、类型、内容年代、年份、导演、演员等,那么每个属性维度的具体信息,例如具体演员名字、具体地区、具体年份就是所述兴趣实体的属性,表1展示了影视兴趣类别中,两个兴趣本体项的具体信息,其中“浪漫满屋2”和“少年派的奇幻漂流”是兴趣实体,而“韩国”和“美国”则是“地区”这个属性维度下的具体属性值,“胜孝”和“李安”则是“导演”这个属性维度下的具体属性值。
Figure BDA0000392346490000061
表1
在实际存储时,所述兴趣本体项可以是一个字符串,即所述兴趣实体及对应的至少一个属性可以以字符串的形式保存,所述至少一个属性则根据预设的属性维度顺序进行排列,并通过空格符隔开。例如,影视兴趣类别中,预设的属性维度顺序为:
实体名实体别名电影/电视剧地区类型年份导演
那么“少年派的奇幻漂流”这个兴趣实体对应的兴趣本体项就可以是:
少年派的奇幻漂流少年pi的奇幻漂流电影美国剧情|冒险2012李安。
图2是应用本发明第一实施例的方法得到的兴趣本体库的结构示意图。如图2所示,所述兴趣本体库主要由兴趣实体和属性两部分组成,所述兴趣实体根据兴趣类别进行分类,而所述属性则根据不同的属性维度进行保存,其中一个兴趣实体可以对应一个属性维度下的多个属性,也可以对应多个属性维度下的不同属性,例如在影视类别下的兴趣实体“天龙八部”,其对应的属性包括地区这个属性维度下的“大陆”和“香港”,也包括题材这个属性维度下的“武侠”。
这样对于一个兴趣实体来说,就可以对应多个属性,这些属性就像是兴趣实体的多个标签一样,每个标签都代表了兴趣实体的一个兴趣点,用户对某个兴趣实体感兴趣的真正原因,有可能是对这个兴趣实体所对应的兴趣点感兴趣。正是因为兴趣实体具备了用户感兴趣的这个“点”,所以这个兴趣实体才能成为这个用户感兴趣的实体。例如,用户对火影忍者这部漫画感兴趣,有可能是因为它的题材,即“热血打斗”;有可能是因为它的作者岸本齐史,这个用户可能是作者的粉丝;也有可能是因为它的国别,这个用户可能对日本漫画感兴趣。换句话说,用户是因为对兴趣实体的一个或多个客观的属性感兴趣,才对这个实体感兴趣,所以可以认为兴趣点是兴趣实体的可能会引起用户兴趣的客观属性。
应用本实施例的方法得到的兴趣本体库可以覆盖电影、电视剧、游戏、小说等多个娱乐领域的兴趣实体,同时也可以覆盖手机、数码相机、电脑、汽车等生活中常见的商品领域的兴趣实体,还可以覆盖其他各领域的兴趣实体。在实际使用过程中,可以将用户的搜索行为对应到所述兴趣本体库的兴趣实体上,兴趣实体对应的属性就可以作为用户可能感兴趣的兴趣点,然后通过这些兴趣实体和兴趣点构建该用户的显式兴趣模型,并根据这个模型为用户推荐其他兴趣实体。这种兴趣推荐方式可以使用在各类应用程序或软件中,例如百度视频页的猜你喜欢的功能,就是基于这个兴趣本体库为用户推荐个性化的影视作品。
本发明第一实施例通过从不同兴趣类别的结构化数据信息中获取兴趣实体及其属性,并将所述兴趣实体及其属性保存为兴趣本体项,从而构建了一个通用兴趣本体库,使得一个兴趣实体可以对应多个属性,增加了本体结构的全面性、准确性和可扩展性。
图3是本发明第二实施例的兴趣本体库构建方法的流程图。如图3所示,所述兴趣本体库构建方法包括:
步骤210、根据预设兴趣类别,获取结构化数据信息。
首先根据预设兴趣类别,选取相应的信息源,这个信息源应该是和所述兴趣类别密切相关的、并能提供可靠的且具有代表性数据的信息源,从而得到所述信息源中包含的结构化数据信息。所述信息源可以是可扩展标记语言文件、超文本标记语言文件或其他结构化/半结构化的信息源。
步骤220、根据所述结构化数据信息获取兴趣实体及对应的至少一个属性。
具体地说,就是从所述信息源包含的结构化信息中抽取兴趣实体及其对应的属性。在所述结构化信息中,由于所述兴趣实体及其对应的属性都具有固定的表述方式,所以所述兴趣实体及其对应的属性都可以被抽取出来。
步骤230、将所述兴趣实体及对应的至少一个属性保存为兴趣本体项。
具体地,可以将所述兴趣实体及对应的至少一个属性保存为一个字符串,这个字符串就是所述兴趣本体库中的一个兴趣本体项。
优选地,所述至少一个属性根据预设的属性维度进行保存。
步骤240、删除重复出现的兴趣本体项。
对于重复出现的同样的兴趣本体项只保留其中一个,将其余的兴趣本体项都删除。具体地说,就是在抽取兴趣实体的过程中,有可能抽取出两个或两个以上相同的兴趣实体,尤其当所述信息源来自支持用户生成内容的网站,很有可能出现多个用户都针对同一兴趣实体编辑了不同网页,使得在构建所述兴趣本体库时保存了多个相同的兴趣本体项,这个时候就需要对相同的兴趣本体项进行去重操作。
优选地,若实体名相同的所述兴趣实体为同一兴趣实体,则删除所述实体名相同的兴趣实体对应的所述兴趣本体项中除属性个数最多的一个兴趣本体项以外的其余兴趣本体项。
也就是说,首先需要判断实体名相同的所述兴趣实体是否为同一兴趣实体,有些兴趣实体的实体名虽然相同,但是实际上却不是相同的兴趣实体。例如,电影版奋斗和电视剧版奋斗,这两个兴趣实体的实体名都是“奋斗”,但是它们明显是两个不同的兴趣实体,所以,在判断实体名相同的所述兴趣实体是否为同一兴趣实体的具体过程中,可以通过比较兴趣实体的关键属性维度下的属性是否相同来实现。例如,对于影视类别的兴趣实体,导演和演员可以作为关键属性维度,那么就可以比较具体导演和演员的名字是否一致,如果导演和演员的名字都是一样的,就可以认定这两个兴趣实体是同一个兴趣实体,而类型就不能作为关键属性维度,因为即使两个兴趣实体的类型相同,例如电影版奋斗和电视剧版奋斗的类型都是爱情|喜剧,但是也无法认定它们就是同一个兴趣实体。根据不同的兴趣类别,可以选取不同的属性维度作为关键属性维度,并通过比较关键属性维度下的属性来确定实体名相同的所述兴趣实体是否为同一兴趣实体。
若经过判断发现实体名相同的所述兴趣实体为同一兴趣实体,则只保留所述实体名相同的兴趣实体对应的所述兴趣本体项中属性个数最多的一个兴趣本体项,而将其余的兴趣本体项都删除,其中所述兴趣本体项中属性个数最多的一个兴趣本体项,可以被认为是信息最全面的、最能体现兴趣实体特征的兴趣本体项,所以将其保留下来,而将那些信息量较小的兴趣本体项删除,从而保证在整个兴趣本体库中每个兴趣实体只对应一个兴趣本体项。
步骤250、删除兴趣类别错误的兴趣本体项。
具体地说,就是将分类错误的兴趣本体项从所述兴趣本体库中删除。所述分类错误就是指所述兴趣本体项不是某个兴趣类别的,却在构建这个兴趣类别的本体项过程中被错误的抽取出来。造成这种情况的原因可能有很多种,但是主要都是由于网页类信息源本身错误引起的,这些网页错误可能是网站编辑在编辑网页内容时出现了编辑错误,也可能是用户在上传自己生成内容时随意指定了一个分类而导致分类不准确等,所以在构建所述兴趣本体库时,还需要将这些兴趣类别错误的兴趣本体项删除,以确保整个兴趣本体库的内容是完整无误的。
图4是在本发明第二实施例的一个优选实施方式中删除兴趣类别错误的兴趣本体项,即本体项去错方法的流程图。如图4所示,所述本体项去错方法包括:
步骤251、将所述兴趣本体项中兴趣实体的实体名作为关键字在网络中进行检索,得到与所述兴趣实体相匹配的内容的摘要。
具体地说,就是利用常见的互联网搜索引擎(如百度搜索),将实体名作为关键字在整个网络中搜索与所述兴趣实体相匹配的内容,所述搜索引擎在返回所述相匹配的内容的同时,会自动生成所述相匹配内容的摘要。
步骤252、将所述与所述兴趣实体相匹配的内容的摘要进行切词统计,得到出现次数最多的预定数量的摘要关键词。
首先将搜索引擎自动生成的、与所述兴趣实体相匹配的内容的摘要进行切词处理。所谓切词,就是按照一定的策略将待分析的字符串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词),也就是将所述摘要切分成一个一个的单独的词。然后统计每个单独的词出现的频率,并将出现次数最多的预定数量的词作为摘要关键词。通常所述预定数量可以在10到20之间,也可以根据具体情况相应调整。
步骤253、若所述兴趣类别的关键词与所述摘要关键词不匹配,则删除所述兴趣本体项。
具体地说,每个兴趣类别都会有相应的类别关键词,例如影视类别的关键词就可以包括电影、影视、电视剧等。如果所述兴趣类别的关键词与所述摘要关键词完全不一致,就可以判定所述兴趣本体项的兴趣类别是错误的,因此就将这个兴趣本体项从所述兴趣本体库中删除。
下面通过具体例子对所述本体项去错方法做进一步说明。例如在影视这个兴趣类别下,获取了一个兴趣实体“郭德纲相声”并构建了一个对应的兴趣本体项。在本体项去错过程中,首先把这个实体名“郭德纲相声”作为关键字在百度搜索引擎中进行搜索,百度搜索会自动为搜索结果生成摘要。然后将搜索结果的摘要进行切词处理并统计切词结果,得到出现次数最高的几个词是:相声、于谦、全集、郭德纲、单口相声、高清、综艺等,这些词就被作为摘要关键词。兴趣实体“郭德纲相声”的兴趣类别为影视,其类别关键词为电影、影视、电视剧等。将兴趣类别的关键词与摘要关键词进行匹配,发现摘要关键词与兴趣类别的关键词完全不一致,因此认定这个兴趣实体“郭德纲相声”的兴趣类别是错误的,可以删除这个兴趣实体。
在本实施例的一个优选实施方式中,所述兴趣本体库构建方法,还包括根据查询请求关联图获得与所述兴趣实体对应的语义簇,并将所述语义簇作为所述兴趣实体对应的属性之一进行保存。
所述查询请求关联图是根据用户的点击数据构建出来的,即如果在两个查询请求中有相同的网址被用户点击,那么这两个查询请求就会被关联起来,从而得到所述查询请求关联图。在获得与所述兴趣实体对应的语义簇时,首先以实体名完全相同的查询请求作为起始节点,遵循广度优先原则,遍历这个查询请求关联图,直到达到指定的深度为止,然后将遍历过程中所经过的节点的查询请求作为与所述兴趣实体对应的语义簇,最后将所述语义簇也作为所述兴趣实体的属性,与其他属性一起保存为所述兴趣本体项。所述语义簇其实就是用户对兴趣实体的实体名的不规范表达,例如,对于兴趣实体“肖申克的救赎”,通过遍历查询请求关联图得到的语义簇包括“刺激1995”、“肖邦克的救赎”、“校生克的救赎”等常见的用户表达方式。
优选地,将所述语义簇作为所述兴趣实体对应的属性之一进行保存时,可以将所述语义簇都保存在实体别名这个属性维度下。
本发明第二实施例通过删除重复出现和兴趣类别错误的兴趣本体项,并将语义簇也作为兴趣实体的属性进行保存,解决了兴趣本体项可能重复出现和分类错误的问题,进一步优化了兴趣本体库的数据组成,提高了兴趣本体库的数据准确性。
图5是本发明第三实施例的兴趣本体库构建装置的结构图。如图5所示,所述兴趣本体库构建装置包括:
信息获取单元31,用于根据预设兴趣类别,获取结构化数据信息。
在本实施例中,首先根据预设兴趣类别,选取相应的信息源,这个信息源应该是和所述兴趣类别密切相关的、并能提供可靠的且具有代表性数据的信息源,从而得到所述信息源中包含的结构化数据信息。所述信息源可以是可扩展标记语言文件、超文本标记语言文件或其他结构化/半结构化的信息源。
兴趣获取单元32,用于根据所述结构化数据信息获取兴趣实体及对应的至少一个属性。
具体地说,就是从所述信息源包含的结构化信息中抽取兴趣实体及其对应的属性。在所述结构化信息中,由于所述兴趣实体及其对应的属性都具有固定的表述方式,所以所述兴趣实体及其对应的属性都可以被抽取出来。
兴趣保存单元33,用于将所述兴趣实体及对应的至少一个属性保存为兴趣本体项。
具体地,可以将所述兴趣实体及对应的至少一个属性保存为一个字符串,这个字符串就是所述兴趣本体库中的一个兴趣本体项。
在本实施例的一个优选实施方式中,所述至少一个属性根据预设的属性维度进行保存。在实际存储时,所述兴趣本体项可以是一个字符串,即所述兴趣实体及对应的至少一个属性可以以字符串的形式保存,所述至少一个属性则根据预设的属性维度顺序进行排列,并通过空格符隔开。
本发明第三实施例通过从不同兴趣类别的结构化数据信息中获取兴趣实体及其属性,并将所述兴趣实体及其属性保存为兴趣本体项,从而构建了一个通用兴趣本体库,使得一个兴趣实体可以对应多个属性,增加了本体结构的全面性、准确性和可扩展性。
图6是本发明第四实施例的兴趣本体库构建装置的结构图。如图6所示,所述兴趣本体库构建装置包括:
信息获取单元41,用于根据预设兴趣类别,获取结构化数据信息。
首先根据预设兴趣类别,选取相应的信息源,这个信息源应该是和所述兴趣类别密切相关的、并能提供可靠的且具有代表性数据的信息源,从而得到所述信息源中包含的结构化数据信息。所述信息源可以是可扩展标记语言文件、超文本标记语言文件或其他结构化/半结构化的信息源。
兴趣获取单元42,用于根据所述结构化数据信息获取兴趣实体及对应的至少一个属性。
具体地说,就是从所述信息源包含的结构化信息中抽取兴趣实体及其对应的属性。在所述结构化信息中,由于所述兴趣实体及其对应的属性都具有固定的表述方式,所以所述兴趣实体及其对应的属性都可以被抽取出来。
兴趣保存单元43,用于将所述兴趣实体及对应的至少一个属性保存为兴趣本体项。
具体地,可以将所述兴趣实体及对应的至少一个属性保存为一个字符串,这个字符串就是所述兴趣本体库中的一个兴趣本体项。
优选地,所述至少一个属性根据预设的属性维度进行保存。
本体项去重单元44,用于删除重复出现的兴趣本体项。
对于重复出现的同样的兴趣本体项只保留其中一个,将其余的兴趣本体项都删除。
优选地,所述本体项去重单元44包括重复本体项删除子单元441。
重复本体项删除子单元441,用于在实体名相同的所述兴趣实体为同一兴趣实体时,删除所述实体名相同的兴趣实体对应的所述兴趣本体项中除属性个数最多的一个兴趣本体项以外的其余兴趣本体项。
若实体名相同的所述兴趣实体为同一兴趣实体,则删除所述实体名相同的兴趣实体对应的所述兴趣本体项中除属性个数最多的一个兴趣本体项以外的其余兴趣本体项。
也就是说,首先需要判断实体名相同的所述兴趣实体是否为同一兴趣实体,可以通过比较兴趣实体的关键属性维度下的属性是否相同来实现。若经过判断发现实体名相同的所述兴趣实体为同一兴趣实体,则只保留所述实体名相同的兴趣实体对应的所述兴趣本体项中属性个数最多的一个兴趣本体项,而将其余的兴趣本体项都删除。
本体项去错单元45,用于删除兴趣类别错误的兴趣本体项。
具体地说,就是将分类错误的兴趣本体项从所述兴趣本体库中删除。
优选地所述本体项去错单元45包括实体检索子单元451、摘要处理子单元452和类别匹配子单元453,其中:
实体检索子单元451,用于将所述兴趣本体项中兴趣实体的实体名作为关键字在网络中进行检索,得到与所述兴趣实体相匹配的内容的摘要。
具体地说,就是利用常见的互联网搜索引擎(如百度搜索),将实体名作为关键字在整个网络中搜索与所述兴趣实体相匹配的内容,所述搜索引擎在返回所述相匹配的内容的同时,会自动生成所述相匹配内容的摘要。
摘要处理子单元452,用于将所述与所述兴趣实体相匹配的内容的摘要进行切词统计,得到出现次数最多的预定数量的摘要关键词。
首先将搜索引擎自动生成的、与所述兴趣实体相匹配的内容的摘要进行切词处理,也就是将所述摘要切分成一个一个单独的词。然后统计每个单独的词出现的频率,并将出现次数最多的预定数量的词作为摘要关键词。
类别匹配子单元453,用于在所述兴趣类别的关键词与所述摘要关键词不匹配时,删除所述兴趣本体项。
具体地说,每个兴趣类别都会有相应的类别关键词,如果所述兴趣类别的关键词与所述摘要关键词完全不一致,就可以判定所述兴趣本体项的兴趣类别是错误的,因此就将这个兴趣本体项从所述兴趣本体库中删除。
优选地,所述兴趣本体库构建装置还包括语义簇挖掘单元,用于根据查询请求关联图获得与所述兴趣实体对应的语义簇,并将所述语义簇作为所述兴趣实体对应的属性之一进行保存。
所述查询请求关联图是根据用户的点击数据构建出来的,即如果在两个查询请求中有相同的网址被用户点击,那么这两个查询请求就会被关联起来,从而得到所述查询请求关联图。在获得与所述兴趣实体对应的语义簇时,首先以实体名完全相同的查询请求作为起始节点,应用广度优先原则,遍历这个查询请求关联图,直到达到指定的深度为止,然后将遍历过程中所经过的节点的查询请求作为与所述兴趣实体对应的语义簇,最后将所述语义簇也作为所述兴趣实体的属性,与其他属性一起保存为所述兴趣本体项。
优选地,将所述语义簇作为所述兴趣实体对应的属性之一进行保存时,可以将所述语义簇都保存在实体别名这个属性维度下。
本发明第四实施例通过删除重复出现和兴趣类别错误的兴趣本体项,并将语义簇也作为兴趣实体的属性进行保存,解决了兴趣本体项可能重复出现和分类错误的问题,进一步优化了兴趣本体库的数据组成,提高了兴趣本体库的数据准确性。
显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (14)

1.一种兴趣本体库构建方法,其特征在于,包括:
根据预设兴趣类别,获取结构化数据信息;
根据所述结构化数据信息获取兴趣实体及对应的至少一个属性;
将所述兴趣实体及对应的至少一个属性保存为兴趣本体项。
2.如权利要求1所述的兴趣本体库构建方法,其特征在于,所述至少一个属性根据预设的属性维度进行保存。
3.如权利要求1所述的兴趣本体库构建方法,其特征在于,还包括:
删除重复出现的兴趣本体项。
4.如权利要求3所述的兴趣本体库构建方法,其特征在于,所述删除重复出现的兴趣本体项包括:
若实体名相同的所述兴趣实体为同一兴趣实体,则删除所述实体名相同的兴趣实体对应的所述兴趣本体项中除属性个数最多的一个兴趣本体项以外的其余兴趣本体项。
5.如权利要求1所述的兴趣本体库构建方法,其特征在于,还包括:
删除兴趣类别错误的兴趣本体项。
6.如权利要求5所述的兴趣本体库构建方法,其特征在于,所述删除兴趣类别错误的兴趣本体项包括:
将所述兴趣本体项中兴趣实体的实体名作为关键字在网络中进行检索,得到与所述兴趣实体相匹配的内容的摘要;
将所述与所述兴趣实体相匹配的内容的摘要进行切词统计,得到出现次数最多的预定数量的摘要关键词;
若所述兴趣类别的关键词与所述摘要关键词不匹配,则删除所述兴趣本体项。
7.如权利要求1所述的兴趣本体库构建方法,其特征在于,还包括:
根据查询请求关联图获得与所述兴趣实体对应的语义簇,并将所述语义簇作为所述兴趣实体对应的属性之一进行保存。
8.一种兴趣本体库构建装置,其特征在于,包括:
信息获取单元,用于根据预设兴趣类别,获取结构化数据信息;
兴趣获取单元,用于根据所述结构化数据信息获取兴趣实体及对应的至少一个属性;
兴趣保存单元,用于将所述兴趣实体及对应的至少一个属性保存为兴趣本体项。
9.如权利要求8所述的兴趣本体库构建装置,其特征在于,所述至少一个属性根据预设的属性维度进行保存。
10.如权利要求8所述的兴趣本体库构建装置,其特征在于,还包括:
本体项去重单元,用于删除重复出现的兴趣本体项。
11.如权利要求10所述的兴趣本体库构建装置,其特征在于,所述本体项去重单元包括:
重复本体项删除子单元,用于在实体名相同的所述兴趣实体为同一兴趣实体时,删除所述实体名相同的兴趣实体对应的所述兴趣本体项中除属性个数最多的一个兴趣本体项以外的其余兴趣本体项。
12.如权利要求8所述的兴趣本体库构建装置,其特征在于,还包括:
本体项去错单元,用于删除兴趣类别错误的兴趣本体项。
13.如权利要求12所述的兴趣本体库构建装置,其特征在于,所述本体项去错单元包括:
实体检索子单元,用于将所述兴趣本体项中兴趣实体的实体名作为关键字在网络中进行检索,得到与所述兴趣实体相匹配的内容的摘要;
摘要处理子单元,用于将所述与所述兴趣实体相匹配的内容的摘要进行切词统计,得到出现次数最多的预定数量的摘要关键词;
类别匹配子单元,用于在所述兴趣类别的关键词与所述摘要关键词不匹配时,删除所述兴趣本体项。
14.如权利要求8所述的兴趣本体库构建装置,其特征在于,还包括:
语义簇挖掘单元,用于根据查询请求关联图获得与所述兴趣实体对应的语义簇,并将所述语义簇作为所述兴趣实体对应的属性之一进行保存。
CN201310464782.XA 2013-10-08 2013-10-08 一种兴趣本体库构建方法及装置 Pending CN103514289A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310464782.XA CN103514289A (zh) 2013-10-08 2013-10-08 一种兴趣本体库构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310464782.XA CN103514289A (zh) 2013-10-08 2013-10-08 一种兴趣本体库构建方法及装置

Publications (1)

Publication Number Publication Date
CN103514289A true CN103514289A (zh) 2014-01-15

Family

ID=49897013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310464782.XA Pending CN103514289A (zh) 2013-10-08 2013-10-08 一种兴趣本体库构建方法及装置

Country Status (1)

Country Link
CN (1) CN103514289A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008203A (zh) * 2014-06-17 2014-08-27 浙江工商大学 一种融入本体情境的用户兴趣挖掘方法
CN104394439A (zh) * 2014-11-20 2015-03-04 合一网络技术(北京)有限公司 基于动态配置的视频推荐分流的系统
CN105917335A (zh) * 2014-01-16 2016-08-31 微软技术许可有限责任公司 通过挖掘标记有地理标签的数据来发现视域和有利视点
CN106133727A (zh) * 2014-04-01 2016-11-16 微软技术许可有限责任公司 通过知识库促进的用户兴趣
CN109684448A (zh) * 2018-12-17 2019-04-26 北京北大软件工程股份有限公司 一种智能问答方法
CN109960722A (zh) * 2019-03-31 2019-07-02 联想(北京)有限公司 一种信息处理方法及装置
US20210390351A1 (en) * 2020-06-15 2021-12-16 Toyota Research Institute, Inc. Systems and methods for improving the classification of objects

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1591416A (zh) * 2003-08-29 2005-03-09 财团法人资讯工业策进会 中文本体库自动建构系统及方法以及储存媒体
CN101755303A (zh) * 2007-06-05 2010-06-23 伊斯曼柯达公司 采用语义分类器的自动题材创建
US20100257127A1 (en) * 2007-08-27 2010-10-07 Stephen Patrick Owens Modular, folder based approach for semi-automated document classification
CN102236646A (zh) * 2010-04-20 2011-11-09 得利在线信息技术(北京)有限公司 对象级垂直搜索引擎个性化排序算法iRank
CN103020293A (zh) * 2012-12-28 2013-04-03 百度在线网络技术(北京)有限公司 一种移动应用的本体库的构建方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1591416A (zh) * 2003-08-29 2005-03-09 财团法人资讯工业策进会 中文本体库自动建构系统及方法以及储存媒体
CN101755303A (zh) * 2007-06-05 2010-06-23 伊斯曼柯达公司 采用语义分类器的自动题材创建
US20100257127A1 (en) * 2007-08-27 2010-10-07 Stephen Patrick Owens Modular, folder based approach for semi-automated document classification
CN102236646A (zh) * 2010-04-20 2011-11-09 得利在线信息技术(北京)有限公司 对象级垂直搜索引擎个性化排序算法iRank
CN103020293A (zh) * 2012-12-28 2013-04-03 百度在线网络技术(北京)有限公司 一种移动应用的本体库的构建方法及系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105917335B (zh) * 2014-01-16 2019-12-24 微软技术许可有限责任公司 通过挖掘标记有地理标签的数据来发现视域和有利视点
CN105917335A (zh) * 2014-01-16 2016-08-31 微软技术许可有限责任公司 通过挖掘标记有地理标签的数据来发现视域和有利视点
CN106133727A (zh) * 2014-04-01 2016-11-16 微软技术许可有限责任公司 通过知识库促进的用户兴趣
CN106133727B (zh) * 2014-04-01 2019-11-01 微软技术许可有限责任公司 通过知识库促进的用户兴趣
CN104008203B (zh) * 2014-06-17 2018-04-17 浙江工商大学 一种融入本体情境的用户兴趣挖掘方法
CN104008203A (zh) * 2014-06-17 2014-08-27 浙江工商大学 一种融入本体情境的用户兴趣挖掘方法
CN104394439A (zh) * 2014-11-20 2015-03-04 合一网络技术(北京)有限公司 基于动态配置的视频推荐分流的系统
CN104394439B (zh) * 2014-11-20 2016-04-20 合一网络技术(北京)有限公司 基于动态配置的视频推荐分流的系统
CN109684448A (zh) * 2018-12-17 2019-04-26 北京北大软件工程股份有限公司 一种智能问答方法
CN109684448B (zh) * 2018-12-17 2021-01-12 北京北大软件工程股份有限公司 一种智能问答方法
CN109960722A (zh) * 2019-03-31 2019-07-02 联想(北京)有限公司 一种信息处理方法及装置
US20210390351A1 (en) * 2020-06-15 2021-12-16 Toyota Research Institute, Inc. Systems and methods for improving the classification of objects
US11710324B2 (en) * 2020-06-15 2023-07-25 Toyota Research Institute, Inc. Systems and methods for improving the classification of objects

Similar Documents

Publication Publication Date Title
US11803596B2 (en) Efficient forward ranking in a search engine
US8713024B2 (en) Efficient forward ranking in a search engine
US8949214B1 (en) Mashup platform
US8972458B2 (en) Systems and methods for comments aggregation and carryover in word pages
Van Zwol et al. Faceted exploration of image search results
CN103514289A (zh) 一种兴趣本体库构建方法及装置
US20100185934A1 (en) Adding new attributes to a structured presentation
Gupta et al. An overview of social tagging and applications
KR100930455B1 (ko) 쿼리별 검색 컬렉션 생성 방법 및 시스템
KR20060017765A (ko) 개념 네트워크
Pol et al. A survey on web content mining and extraction of structured and semistructured data
Agirre et al. Matching Cultural Heritage items to Wikipedia.
CN104281648B (zh) 基于维度标签的搜索结果多维度导航方法
CN111597788A (zh) 基于实体对齐的属性融合方法、装置、设备及存储介质
JP2008226235A (ja) 情報フィードバックシステム、情報フィードバック方法、情報管理サーバ、情報管理方法及びプログラム
JP2008107904A (ja) テキスト及びアニメーションサービス装置及びコンピュータプログラム
KR100902674B1 (ko) 문서 탐색 서비스 제공 방법 및 시스템
JP2011096078A (ja) 特有コンテンツ判定装置、特有コンテンツ判定方法、特有コンテンツ判定プログラム及び関連コンテンツ挿入装置
CN107807964B (zh) 数字内容排序方法、装置和计算机可读存储介质
JP4439497B2 (ja) 検索処理装置及びプログラム
JP2008102790A (ja) 検索システム
Choi et al. Consento: a new framework for opinion based entity search and summarization
CN112100500A (zh) 范例学习驱动的内容关联网站发掘方法
Walther et al. Federated product search with information enrichment using heterogeneous sources
JP2000322167A (ja) データ管理システムおよびデータ属性表示方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140115

RJ01 Rejection of invention patent application after publication