CN104462506A - 基于用户标注信息构建知识图谱的方法和装置 - Google Patents
基于用户标注信息构建知识图谱的方法和装置 Download PDFInfo
- Publication number
- CN104462506A CN104462506A CN201410806174.7A CN201410806174A CN104462506A CN 104462506 A CN104462506 A CN 104462506A CN 201410806174 A CN201410806174 A CN 201410806174A CN 104462506 A CN104462506 A CN 104462506A
- Authority
- CN
- China
- Prior art keywords
- user
- entity
- information
- title
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于用户标注信息构建知识图谱的方法和装置,该方法包括:收集网络中对特定实体的用户标注信息;根据所述用户标注信息,生成所述特定实体、标注类属性信息的结构化数据对;利用所述结构化数据对作为知识条目,构建知识图谱。本发明基于结构化数据对对外提供搜索服务时,能够直观、精确地将标注类属性信息作为搜索结果提供给用户,从而提高搜索效率,提升用户搜索体验。
Description
技术领域
本发明涉及信息搜索领域,特别是一种基于用户标注信息构建知识图谱的方法和装置,以及一种基于知识图谱提供搜索的方法和装置。
背景技术
随着信息技术的飞速发展,当今社会进入了信息爆炸时代,人们越来越多地借助网络来寻找自己需要的信息,因此,检索成为人们工作、生活不可或缺的一部分。人们通常使用搜索引擎来进行检索,搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将与用户检索相关的信息展示给用户的系统。
相关技术中,例如影视的检索,主要是以影视的片名、导演、演员、简介信息作为检索手段,提供的检索信息不够丰富,而且这些信息还需要投入大量的人力进行信息的编辑或分类,人力成本高,且效率较低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于用户标注信息构建知识图谱的方法和装置,以及基于知识图谱提供搜索的方法和装置。
依据本发明的一个方面,提供了一种基于用户标注信息构建知识图谱的方法,包括:收集网络中对特定实体的用户标注信息;根据所述用户标注信息,生成所述特定实体、标注类属性信息的结构化数据对;利用所述结构化数据对作为知识条目,构建知识图谱。
可选地,所述标注类属性信息至少包括标注类属性名称以及相应的标注类属性赋值。
可选地,所述方法还包括:若当前收集的特定实体已存在于所述知识图谱中,则利用当前收集的所述特定实体的用户标注信息更新已存在的所述特定实体、标注类属性信息的结构化数据对;或者,将当前收集的特定实体的用户标注信息生成的所述特定实体、标注类属性信息的结构化数据对作为新的知识条目,插入所述知识图谱。
可选地,所述特定实体包括下列至少之一:影视、视频、音乐、小说、论坛。
可选地,所述用户标注信息包括下列至少之一:用户评论信息、用户创建的标签、用户选取的标签。
依据本发明的另一个方面,提供了一种基于知识图谱提供搜索的方法,包括:接收来自用户的查询词,从所述查询词中解析出实体名称以及实体属性名称;在知识图谱中匹配所述实体名称和/或实体属性名称,查找到相应的结构化数据对;查找所述结构化数据对中所述实体属性名称对应的属性赋值,并将所述属性赋值提供给所述用户。
可选地,所述实体包括下列至少之一:影视、视频、音乐、小说、论坛。
依据本发明的又一个方面,还提供了一种基于用户标注信息构建知识图谱的装置,包括:
收集器,适于收集网络中对特定实体的用户标注信息;
数据对生成器,适于根据所述用户标注信息,生成所述特定实体、标注类属性信息的结构化数据对;
知识图谱构建器,适于利用所述结构化数据对作为知识条目,构建知识图谱。
可选地,所述标注类属性信息至少包括标注类属性名称以及相应的标注类属性赋值。
可选地,所述知识图谱构建器还适于:若当前收集的特定实体已存在于所述知识图谱中,则利用当前收集的所述特定实体的用户标注信息更新已存在的所述特定实体、标注类属性信息的结构化数据对;或者,将当前收集的特定实体的用户标注信息生成的所述特定实体、标注类属性信息的结构化数据对作为新的知识条目,插入所述知识图谱。
可选地,所述特定实体包括下列至少之一:影视、视频、音乐、小说、论坛。
可选地,所述用户标注信息包括下列至少之一:用户评论信息、用户创建的标签、用户选取的标签。
依据本发明的再一个方面,还提供了一种基于知识图谱提供搜索的装置,包括:
数据输入器,适于接收来自用户的查询词;
解析器,适于从所述查询词中解析出实体名称以及实体属性名称;
知识图谱数据库,适于存储结构化数据对;
查找器,适于在所述知识图谱数据库中匹配所述实体名称和/或实体属性名称,查找到相应的结构化数据对,查找所述结构化数据对中所述实体属性名称对应的属性赋值;
数据输出器,适于将所述属性赋值提供给所述用户。
可选地,所述实体包括下列至少之一:影视、视频、音乐、小说、论坛。
本发明提供了基于用户标注信息构建知识图谱的方案,首先收集网络中对特定实体的用户标注信息,随后根据用户标注信息,生成特定实体、标注类属性信息的结构化数据对,进而利用结构化数据对作为知识条目,构建知识图谱。由此,本发明基于网络中对特定实体的用户标注信息生成架构包括特定实体、标注类属性信息的结构化数据对,基于结构化数据对对外提供搜索服务时,能够直观、精确地将标注类属性信息作为搜索结果提供给用户,解决了相关技术中在搜索结果中无法直接地展示这些信息,需要用户花费较多时间从相关网页中筛选出这部分信息的问题,从而提高搜索效率,提升用户搜索体验。并且,本发明收集用户对特定实体的用户标注信息,其能够反映大多数用户的主观意见,可以大幅提升知识图谱的适用范围,使其能够更好的理解用户。另外,本发明能够充分利用海量用户的力量对特定实体进行信息的标注,收集的用户标注信息丰富、全面,极大改善用户搜索体验,且无需投入大量人力资源,实现节约成本的目的。此外,基于结构化数据的特点,本发明能够将相关知识信息系统化地提供给用户,使得用户获取更多的知识信息。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了搜索服务系统的通用架构示意图;
图2示出了根据本发明一个实施例的基于用户标注信息构建知识图谱的方法的流程图;
图3示出了根据本发明一个实施例的基于知识图谱提供搜索的方法的流程图;
图4示出了根据本发明一个实施例的搜索词为“好看的科幻电影”的搜索结果示意图;
图5示出了根据本发明一个实施例的搜索词为“好听的流行音乐”的搜索结果示意图;
图6示出了根据本发明一个实施例的搜索词为“玄幻小说”的搜索结果示意图;
图7示出了根据本发明一个实施例的基于用户标注信息构建知识图谱的装置的结构示意图;以及
图8示出了根据本发明一个实施例的基于知识图谱提供搜索的装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在介绍本发明之前,先简要介绍知识图谱这个概念。知识图谱旨在描述真实世界中存在的各种实体(如人物、汉字、视频、音乐、影视、小说等)或概念,每个实体或概念用一个全局唯一确定的ID(Identity,身份标识号)来标识。每个属性-值对用来刻画实体的内在特性,而关系用来连接两个实体,刻画它们之间的关联。知识图谱亦可被看作是一张巨大的网状图,网状图中的节点表示实体或概念,而网状图中的边则由属性或关系构成。知识图谱主要就是构建和维护上述的实体和关系,为搜索中的推荐系统、语义理解、问题回答等提供支持。此外,知识图谱并不是一张静态的网状图,它会根据外界的变化而进行自我调整与更新。
基于上述知识图谱提供搜索知识图谱信息的服务,整体搜索服务系统的通用架构如图1所示,由查询解析模块、知识图谱数据库、结果处理模块三部分组成。这里,查询解析模块的功能是分析用户输入的搜索词,判断用户的查询是否属于知识图谱数据库覆盖的范围,将现有知识图谱数据库覆盖的查询转成知识图谱数据库可以理解的查询语言,提交给知识图谱数据库。其次,知识图谱数据库是整个搜索服务系统的核心部分,它是从互联网海量数据(例如结构化数据、网页源数据、用户生成数据等)利用数据挖掘方法整理组织起来,并通过特有的查询语言查询知识图谱数据库中相关的知识信息。再者,结果处理模块的功能是根据用户查询和知识图谱数据库返回的知识信息,组织成可视化的搜索结果展示给用户。
因而,知识图谱数据库覆盖的领域知识范围决定了搜索服务系统为用户解答问题的能力,因此构建一个覆盖多领域知识的通用知识图谱数据库是搜索服务系统实现的一个重点。在大数据环境下可以利用的数据资源空前丰富,如UGC(User Generated Content,用户生产内容),即网友将自己制作的内容通过互联网平台进行展示或者提供给其他用户。本发明针对用户生成数据中的用户标注信息构建知识图谱,用于大幅提升知识图谱的适用范围,使其能够更好的理解用户,如帮助搜索引擎更好的理解偏主观色彩的用户查询。图2示出了根据本发明一个实施例的基于用户标注信息构建知识图谱的方法的流程图。如图2所示,该方法至少包括以下步骤S202至步骤S206。
步骤S202、收集网络中对特定实体的用户标注信息。
步骤S204、根据用户标注信息,生成特定实体、标注类属性信息的结构化数据对。
步骤S206、利用结构化数据对作为知识条目,构建知识图谱。
本发明提供了基于用户标注信息构建知识图谱的方案,首先收集网络中对特定实体的用户标注信息,随后根据用户标注信息,生成特定实体、标注类属性信息的结构化数据对,进而利用结构化数据对作为知识条目,构建知识图谱。由此,本发明基于网络中对特定实体的用户标注信息生成架构包括特定实体、标注类属性信息的结构化数据对,基于结构化数据对对外提供搜索服务时,能够直观、精确地将标注类属性信息作为搜索结果提供给用户,解决了相关技术中在搜索结果中无法直接地展示这些信息,需要用户花费较多时间从相关网页中筛选出这部分信息的问题,从而提高搜索效率,提升用户搜索体验。并且,本发明收集用户对特定实体的用户标注信息,其能够反映大多数用户的主观意见,可以大幅提升知识图谱的适用范围,使其能够更好的理解用户。另外,本发明能够充分利用海量用户的力量对特定实体进行信息的标注,收集的用户标注信息丰富、全面,极大改善用户搜索体验,且无需投入大量人力资源,实现节约成本的目的。此外,基于结构化数据的特点,本发明能够将相关知识信息系统化地提供给用户,使得用户获取更多的知识信息。
上文步骤S202中提及的特定实体如影视、视频、音乐、小说、论坛等,用户标注信息如用户评论信息、用户创建的(tag)标签、用户选取的标签等等。这里收集网络中对特定实体的用户标注信息,例如,收集豆瓣电影、豆瓣读书网站的短评信息。又例如,收集优酷、土豆、爱奇异等视频类网站的用户评论或标签。再例如,收集虾米、酷狗等音乐类网站中用户为歌曲创建的标签,如标签舒缓、欧美经典、动漫、爵士、中国好声音、好听女声、纯音乐等。
在步骤S202收集网络中对特定实体的用户标注信息之后,步骤S204根据用户标注信息,生成特定实体、标注类属性信息的结构化数据对。这里的标注类属性信息至少包括标注类属性名称以及相应的标注类属性赋值,此时生成的结构化数据对的架构包括特定实体、标注类属性名称以及相应的标注类属性赋值,即“特定实体-标注类属性名称-标注类属性赋值”三元结构化数据对,例如,“明日边缘-类型-科幻”、“超凡蜘蛛侠2-类型-科幻”、“我相信-类型-励志”、“时间煮雨-类型-流行”、“武极天下-类型-玄幻”、“花都特工-更新-已完结”等等。
此外,本发明还可以对知识图谱进行更新操作,在本发明的优选方案中,若当前收集的特定实体已存在于知识图谱中,则利用当前收集的特定实体的用户标注信息更新已存在的特定实体、标注类属性信息的结构化数据对;或者,将当前收集的特定实体的用户标注信息生成的特定实体、标注类属性信息的结构化数据对作为新的知识条目,插入知识图谱。例如,当前收集的特定实体“明日边缘”已存在于知识图谱中,其对应的用户标注信息为“明日边缘的类型为科幻电影”,当前收集的“明日边缘”对应的用户标注信息为“明日边缘的类型为爱情电影”,此时可以利用“明日边缘-类型-爱情”替换“明日边缘-类型-科幻”,或者将“明日边缘-类型-爱情”作为新的知识条目插入知识图谱。当然,此处列举仅是示意性的,并不用于限制本发明,在实际应用中,可以根据实际需求进行更新操作。
进一步地,本发明还可以根据特定实体的基本信息,生成特定实体、基本属性信息的结构化数据对。这里的基本属性信息至少包括基本属性名称以及相应的基本属性赋值,此时生成的结构化数据对的架构包括特定实体、基本属性名称以及相应的基本属性赋值,即“特定实体-基本属性名称-基本属性赋值”三元结构化数据对,例如,“明日边缘-地区-美国”、“我相信-歌手-群星”等。
相应的,在基于用户标注信息构建的知识图谱的基础上,本发明还提供了一种基于知识图谱的影视歌曲搜索的方法。图3示出了根据本发明一个实施例的基于知识图谱提供搜索的方法的流程图。如图3所示,该方法至少包括以下步骤S302至步骤S306。
步骤S302、接收来自用户的查询词,从查询词中解析出实体名称以及实体属性名称。
步骤S304、在知识图谱中匹配实体名称和/或实体属性名称,查找到相应的结构化数据对。
步骤S306、查找结构化数据对中实体属性名称对应的属性赋值,并将属性赋值提供给用户。
本发明基于结构化数据对对外提供搜索服务,能够直观、精确地将属性赋值作为搜索结果提供给用户,解决了相关技术中在搜索结果中无法直接地展示这些信息,需要用户花费较多时间从相关网页中筛选出这部分信息的问题,从而提高搜索效率,提升用户搜索体验。并且,基于结构化数据的特点,本发明能够将相关知识信息系统化地提供给用户,使得用户获取更多的知识信息。
上文步骤S302解析出查询词中包含的实体名称及实体属性名称可以通过多种方式来实现。例如,在预先配置的、包含实体名称和实体属性名称的索引词中匹配查询词,进而根据匹配的结果,得到该查询词对应的实体名称和实体属性名称,如预先在索引词中配置“科幻类的电影”,若用户搜索“科幻类的电影”时,即命中索引词。又例如,在预先配置的、包含实体属性名称的正则规则中匹配查询词,进而根据匹配的结果,得到该查询词对应的实体名称和实体属性名称,如预先配置正则规则“^(.+?)的电影”,若用户搜索“爱情类的电影”时,就匹配上了这条正则规则,即正则命中。再例如,对查询词作分词处理,并在预置的、包含实体名称及实体属性名称的词类别组合中匹配查询词对应的分词,进而根据匹配的结果,得到查询词对应的实体名称和实体属性名称。举例来说,预先配置“电影”为关键词、“科幻类”为属性词,“的”为停用词,然后再配置词类别的组合规则,比如配置一条组合规则,属性词关键词,若用户搜索“科幻类的电影”,则先对查询词“科幻类的电影”作分词处理,结果为科幻类/的/电影,抛掉停用词“的”,剩下“科幻类电影”,匹配上了“属性词关键词”这条组合规则。
步骤S306查找结构化数据对中实体属性名称对应的属性赋值,并将属性赋值提供给用户。进一步地,本发明还可以将属性赋值相关的信息提供给用户,使得用户获取更多的知识信息。例如,用户输入的查询词为“好看的科幻电影”,通过步骤S302至步骤S304,查找相应的结构化数据对为“明日边缘-类型-科幻”、“星际穿越-类型-科幻”等,进而将“明日边缘”、“星际穿越”等提供给用户。进一步地,本发明还可以将“明日边缘”、“星际穿越”的播放资源地址、下载地址、用户评论信息等提供给用户,其搜索结果如图4所示。图4以图框的形式展示歌曲信息,在实际应用中,图框本身可以是其他形状或颜色,也可以隐藏。图4中,当用户点击“明日边缘”、“星际穿越”等可以直接进入播放页面播放影片。
在本发明的另一个实施例中,用户输入的查询词为“好听的流行音乐”,通过步骤S302至步骤S304,查找匹配的结构化数据对为“时间煮雨-类型-流行”、“泡沫-类型-流行”、“雪人-类型-流行”等,进而将“时间煮雨”、“泡沫”、“雪人”等提供给用户。进一步地,本发明还可以将“时间煮雨”、“泡沫”、“雪人”的播放资源地址、下载地址、用户评论信息等提供给用户,其搜索结果如图5所示。图5以图框的形式展示歌曲信息,在实际应用中,图框本身可以是其他形状或颜色,也可以隐藏。图5中,当用户点击“时间煮雨”、“泡沫”、“雪人”等可以直接进入播放页面播放音乐。进一步地,当用户点击“更多流行歌曲”时,会跳转到链接“http://music.so.com”查找。
在本发明的再一个实施例中,用户输入的查询词为“玄幻小说”,通过步骤S302至步骤S304,查找匹配的结构化数据对为“武极天下-类型-小说”、“极品仙商-类型-玄幻”等,进而将“武极天下”、“极品仙商”等提供给用户。进一步地,本发明还可以将“武极天下”、“极品仙商”等的阅读资源地址、下载地址、用户评论信息等提供给用户,其搜索结果如图6所示。图6以图框的形式展示歌曲信息,在实际应用中,图框本身可以是其他形状或颜色,也可以隐藏。图6中,当用户点击“武极天下”、“极品仙商”等可以直接进入阅读页面阅读小说。进一步地,当用户点击“查看更多”按键时,可以展示更多的玄幻类小说。
基于同一发明构思,本发明实施例还提供了一种基于用户标注信息构建知识图谱的装置,以实现上述基于用户标注信息构建知识图谱的方法。
图7示出了根据本发明一个实施例的基于用户标注信息构建知识图谱的装置的结构示意图。参见图7,该装置至少可以包括:收集器710、数据对生成器720以及知识图谱构建器730。
现介绍本发明实施例的基于用户标注信息构建知识图谱的装置的各组成或器件的功能以及各部分间的连接关系:
收集器710,适于收集网络中对特定实体的用户标注信息;
数据对生成器720,与收集器710相耦合,适于根据用户标注信息,生成特定实体、标注类属性信息的结构化数据对;
知识图谱构建器730,与数据对生成器720相耦合,适于利用结构化数据对作为知识条目,构建知识图谱。
在一个实施例中,标注类属性信息至少包括标注类属性名称以及相应的标注类属性赋值。
在一个实施例中,上述知识图谱构建器730还适于:若当前收集的特定实体已存在于知识图谱中,则利用当前收集的特定实体的用户标注信息更新已存在的特定实体、标注类属性信息的结构化数据对;或者,将当前收集的特定实体的用户标注信息生成的特定实体、标注类属性信息的结构化数据对作为新的知识条目,插入知识图谱。
在一个实施例中,特定实体包括下列至少之一:影视、视频、音乐、小说、论坛。
在一个实施例中,用户标注信息包括下列至少之一:用户评论信息、用户创建的标签、用户选取的标签。
相应的,本发明实施例还提供了基于知识图谱提供搜索的装置,以实现上述基于知识图谱提供搜索的方法。
图8示出了根据本发明一个实施例的基于知识图谱提供搜索的装置的结构示意图。参见图8,该装置至少可以包括:数据输入器810、解析器820、知识图谱数据库830、查找器840以及数据输出器850。
现介绍本发明实施例的基于知识图谱提供搜索的装置的各组成或器件的功能以及各部分间的连接关系:
数据输入器810,适于接收来自用户的查询词;
解析器820,与数据输入器810相耦合,适于从查询词中解析出实体名称以及实体属性名称;
知识图谱数据库830,适于存储结构化数据对;
查找器840,与解析器820以及知识图谱数据库830相耦合,适于在知识图谱数据库中匹配实体名称和/或实体属性名称,查找到相应的结构化数据对,查找结构化数据对中实体属性名称对应的属性赋值;
数据输出器850,与查找器840相耦合,适于将属性赋值提供给用户。
在一个实施例中,实体包括下列至少之一:影视、视频、音乐、小说、论坛。
根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到如下有益效果:
本发明提供了基于用户标注信息构建知识图谱的方案,首先收集网络中对特定实体的用户标注信息,随后根据用户标注信息,生成特定实体、标注类属性信息的结构化数据对,进而利用结构化数据对作为知识条目,构建知识图谱。由此,本发明基于网络中对特定实体的用户标注信息生成架构包括特定实体、标注类属性信息的结构化数据对,基于结构化数据对对外提供搜索服务时,能够直观、精确地将标注类属性信息作为搜索结果提供给用户,解决了相关技术中在搜索结果中无法直接地展示这些信息,需要用户花费较多时间从相关网页中筛选出这部分信息的问题,从而提高搜索效率,提升用户搜索体验。并且,本发明收集用户对特定实体的用户标注信息,其能够反映大多数用户的主观意见,可以大幅提升知识图谱的适用范围,使其能够更好的理解用户。另外,本发明能够充分利用海量用户的力量对特定实体进行信息的标注,收集的用户标注信息丰富、全面,极大改善用户搜索体验,且无需投入大量人力资源,实现节约成本的目的。此外,基于结构化数据的特点,本发明能够将相关知识信息系统化地提供给用户,使得用户获取更多的知识信息。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于用户标注信息构建知识图谱的装置以及基于知识图谱提供搜索的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
本发明还公开了:
A1、一种基于用户标注信息构建知识图谱的方法,包括:
收集网络中对特定实体的用户标注信息;
根据所述用户标注信息,生成所述特定实体、标注类属性信息的结构化数据对;
利用所述结构化数据对作为知识条目,构建知识图谱。
A2、根据A1所述的方法,其中,所述标注类属性信息至少包括标注类属性名称以及相应的标注类属性赋值。
A3、根据A1或A2所述的方法,其中,还包括:
若当前收集的特定实体已存在于所述知识图谱中,则利用当前收集的所述特定实体的用户标注信息更新已存在的所述特定实体、标注类属性信息的结构化数据对;或者,将当前收集的特定实体的用户标注信息生成的所述特定实体、标注类属性信息的结构化数据对作为新的知识条目,插入所述知识图谱。
A4、根据A1-A3任一项所述的方法,其中,所述特定实体包括下列至少之一:影视、视频、音乐、小说、论坛。
A5、根据A1-A4任一项所述的方法,其中,所述用户标注信息包括下列至少之一:用户评论信息、用户创建的标签、用户选取的标签。
A6、一种基于知识图谱提供搜索的方法,包括:
接收来自用户的查询词,从所述查询词中解析出实体名称以及实体属性名称;
在知识图谱中匹配所述实体名称和/或实体属性名称,查找到相应的结构化数据对;
查找所述结构化数据对中所述实体属性名称对应的属性赋值,并将所述属性赋值提供给所述用户。
A7、根据A6所述的方法,其中,所述实体包括下列至少之一:影视、视频、音乐、小说、论坛。
B8、一种基于用户标注信息构建知识图谱的装置,包括:
收集器,适于收集网络中对特定实体的用户标注信息;
数据对生成器,适于根据所述用户标注信息,生成所述特定实体、标注类属性信息的结构化数据对;
知识图谱构建器,适于利用所述结构化数据对作为知识条目,构建知识图谱。
B9、根据B8所述的装置,其中,所述标注类属性信息至少包括标注类属性名称以及相应的标注类属性赋值。
B10、根据B8或B9所述的装置,其中,所述知识图谱构建器还适于:
若当前收集的特定实体已存在于所述知识图谱中,则利用当前收集的所述特定实体的用户标注信息更新已存在的所述特定实体、标注类属性信息的结构化数据对;或者,将当前收集的特定实体的用户标注信息生成的所述特定实体、标注类属性信息的结构化数据对作为新的知识条目,插入所述知识图谱。
B11、根据B8-B10任一项所述的装置,其中,所述特定实体包括下列至少之一:影视、视频、音乐、小说、论坛。
B12、根据B8-B11任一项所述的装置,其中,所述用户标注信息包括下列至少之一:用户评论信息、用户创建的标签、用户选取的标签。
B13、一种基于知识图谱提供搜索的装置,包括:
数据输入器,适于接收来自用户的查询词;
解析器,适于从所述查询词中解析出实体名称以及实体属性名称;
知识图谱数据库,适于存储结构化数据对;
查找器,适于在所述知识图谱数据库中匹配所述实体名称和/或实体属性名称,查找到相应的结构化数据对,查找所述结构化数据对中所述实体属性名称对应的属性赋值;
数据输出器,适于将所述属性赋值提供给所述用户。
B14、根据B13所述的装置,其中,所述实体包括下列至少之一:影视、视频、音乐、小说、论坛。
Claims (10)
1.一种基于用户标注信息构建知识图谱的方法,包括:
收集网络中对特定实体的用户标注信息;
根据所述用户标注信息,生成所述特定实体、标注类属性信息的结构化数据对;
利用所述结构化数据对作为知识条目,构建知识图谱。
2.根据权利要求1所述的方法,其中,所述标注类属性信息至少包括标注类属性名称以及相应的标注类属性赋值。
3.根据权利要求1或2所述的方法,其中,还包括:
若当前收集的特定实体已存在于所述知识图谱中,则利用当前收集的所述特定实体的用户标注信息更新已存在的所述特定实体、标注类属性信息的结构化数据对;或者,将当前收集的特定实体的用户标注信息生成的所述特定实体、标注类属性信息的结构化数据对作为新的知识条目,插入所述知识图谱。
4.根据权利要求1-3任一项所述的方法,其中,所述特定实体包括下列至少之一:影视、视频、音乐、小说、论坛。
5.根据权利要求1-4任一项所述的方法,其中,所述用户标注信息包括下列至少之一:用户评论信息、用户创建的标签、用户选取的标签。
6.一种基于知识图谱提供搜索的方法,包括:
接收来自用户的查询词,从所述查询词中解析出实体名称以及实体属性名称;
在知识图谱中匹配所述实体名称和/或实体属性名称,查找到相应的结构化数据对;
查找所述结构化数据对中所述实体属性名称对应的属性赋值,并将所述属性赋值提供给所述用户。
7.根据权利要求6所述的方法,其中,所述实体包括下列至少之一:影视、视频、音乐、小说、论坛。
8.一种基于用户标注信息构建知识图谱的装置,包括:
收集器,适于收集网络中对特定实体的用户标注信息;
数据对生成器,适于根据所述用户标注信息,生成所述特定实体、标注类属性信息的结构化数据对;
知识图谱构建器,适于利用所述结构化数据对作为知识条目,构建知识图谱。
9.根据权利要求8所述的装置,其中,所述标注类属性信息至少包括标注类属性名称以及相应的标注类属性赋值。
10.一种基于知识图谱提供搜索的装置,包括:
数据输入器,适于接收来自用户的查询词;
解析器,适于从所述查询词中解析出实体名称以及实体属性名称;
知识图谱数据库,适于存储结构化数据对;
查找器,适于在所述知识图谱数据库中匹配所述实体名称和/或实体属性名称,查找到相应的结构化数据对,查找所述结构化数据对中所述实体属性名称对应的属性赋值;
数据输出器,适于将所述属性赋值提供给所述用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410806174.7A CN104462506A (zh) | 2014-12-19 | 2014-12-19 | 基于用户标注信息构建知识图谱的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410806174.7A CN104462506A (zh) | 2014-12-19 | 2014-12-19 | 基于用户标注信息构建知识图谱的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104462506A true CN104462506A (zh) | 2015-03-25 |
Family
ID=52908541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410806174.7A Pending CN104462506A (zh) | 2014-12-19 | 2014-12-19 | 基于用户标注信息构建知识图谱的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104462506A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005442A (zh) * | 2015-07-01 | 2015-10-28 | 马颐宁 | 一种基于网络终端的学习显示装置 |
CN105808931A (zh) * | 2016-03-03 | 2016-07-27 | 北京大学深圳研究生院 | 一种基于知识图谱的针灸决策支持方法及装置 |
WO2017005196A1 (zh) * | 2015-07-08 | 2017-01-12 | 谭红 | 基于知识点结构的搜索装置 |
CN107153641A (zh) * | 2017-05-08 | 2017-09-12 | 北京百度网讯科技有限公司 | 评论信息确定方法、装置、服务器及存储介质 |
CN107180059A (zh) * | 2016-03-11 | 2017-09-19 | 北大方正集团有限公司 | 数据检索方法和数据检索系统 |
CN107704634A (zh) * | 2017-11-04 | 2018-02-16 | 辽宁工程技术大学 | 一种形成知识和构建知识链的方法 |
CN107920266A (zh) * | 2017-11-20 | 2018-04-17 | 安徽亿联智能有限公司 | 一种机顶盒用户知识图谱构造方式 |
CN108268582A (zh) * | 2017-07-14 | 2018-07-10 | 广东神马搜索科技有限公司 | 信息查询方法及装置 |
CN108292310A (zh) * | 2015-11-05 | 2018-07-17 | 微软技术许可有限责任公司 | 用于数字实体相关的技术 |
CN108463818A (zh) * | 2016-10-31 | 2018-08-28 | 微软技术许可有限责任公司 | 建立和更新连接分段图谱 |
CN108509442A (zh) * | 2017-02-24 | 2018-09-07 | 百度在线网络技术(北京)有限公司 | 搜索方法和装置、服务器以及计算机可读存储介质 |
CN108509420A (zh) * | 2018-03-29 | 2018-09-07 | 赵维平 | 古谱及古文化知识图谱自然语言处理方法 |
CN109086356A (zh) * | 2018-07-18 | 2018-12-25 | 哈尔滨工业大学 | 大规模知识图谱的错误连接关系诊断及修正方法 |
CN109271556A (zh) * | 2018-08-31 | 2019-01-25 | 北京字节跳动网络技术有限公司 | 用于输出信息的方法和装置 |
CN109804364A (zh) * | 2016-10-18 | 2019-05-24 | 浙江核新同花顺网络信息股份有限公司 | 知识图谱构建系统及方法 |
US10579689B2 (en) | 2017-02-08 | 2020-03-03 | International Business Machines Corporation | Visualization and augmentation of human knowledge construction during material consumption |
CN111403011A (zh) * | 2020-03-12 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 挂号科室推送方法、装置、系统、电子设备及存储介质 |
WO2020237666A1 (zh) * | 2019-05-31 | 2020-12-03 | 西门子股份公司 | 用于提供信息的方法、设备和计算机可读存储介质 |
CN112084268A (zh) * | 2020-09-04 | 2020-12-15 | 北京字节跳动网络技术有限公司 | 一种搜索结果展示的方法、装置及计算机存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104035917A (zh) * | 2014-06-10 | 2014-09-10 | 复旦大学 | 一种基于语义空间映射的知识图谱管理方法和系统 |
CN104090955A (zh) * | 2014-07-07 | 2014-10-08 | 科大讯飞股份有限公司 | 一种音视频标签自动标注方法及系统 |
US20140324805A1 (en) * | 2013-04-30 | 2014-10-30 | Microsoft Corporation | User-generated content of entity-specific search |
-
2014
- 2014-12-19 CN CN201410806174.7A patent/CN104462506A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140324805A1 (en) * | 2013-04-30 | 2014-10-30 | Microsoft Corporation | User-generated content of entity-specific search |
CN104035917A (zh) * | 2014-06-10 | 2014-09-10 | 复旦大学 | 一种基于语义空间映射的知识图谱管理方法和系统 |
CN104090955A (zh) * | 2014-07-07 | 2014-10-08 | 科大讯飞股份有限公司 | 一种音视频标签自动标注方法及系统 |
Non-Patent Citations (2)
Title |
---|
HTTPS://36KR.COM/P/205737.HTML: "下一代搜索引擎即将来临:知识图谱的用户体验报告", 《HTTPS://36KR.COM/P/205737.HTML》 * |
王昊奋: "大规模知识图谱技术", 《中国计算机学会通讯》 * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005442A (zh) * | 2015-07-01 | 2015-10-28 | 马颐宁 | 一种基于网络终端的学习显示装置 |
WO2017005196A1 (zh) * | 2015-07-08 | 2017-01-12 | 谭红 | 基于知识点结构的搜索装置 |
CN108292310B (zh) * | 2015-11-05 | 2022-05-24 | 微软技术许可有限责任公司 | 用于数字实体相关的技术 |
CN108292310A (zh) * | 2015-11-05 | 2018-07-17 | 微软技术许可有限责任公司 | 用于数字实体相关的技术 |
CN105808931B (zh) * | 2016-03-03 | 2019-05-07 | 北京大学深圳研究生院 | 一种基于知识图谱的针灸决策支持方法及装置 |
CN105808931A (zh) * | 2016-03-03 | 2016-07-27 | 北京大学深圳研究生院 | 一种基于知识图谱的针灸决策支持方法及装置 |
CN107180059A (zh) * | 2016-03-11 | 2017-09-19 | 北大方正集团有限公司 | 数据检索方法和数据检索系统 |
CN109804364A (zh) * | 2016-10-18 | 2019-05-24 | 浙江核新同花顺网络信息股份有限公司 | 知识图谱构建系统及方法 |
CN108463818A (zh) * | 2016-10-31 | 2018-08-28 | 微软技术许可有限责任公司 | 建立和更新连接分段图谱 |
US11250086B2 (en) | 2017-02-08 | 2022-02-15 | International Business Machines Corporation | Visualization and augmentation of human knowledge construction during material consumption |
US10579689B2 (en) | 2017-02-08 | 2020-03-03 | International Business Machines Corporation | Visualization and augmentation of human knowledge construction during material consumption |
CN108509442A (zh) * | 2017-02-24 | 2018-09-07 | 百度在线网络技术(北京)有限公司 | 搜索方法和装置、服务器以及计算机可读存储介质 |
CN107153641B (zh) * | 2017-05-08 | 2021-01-12 | 北京百度网讯科技有限公司 | 评论信息确定方法、装置、服务器及存储介质 |
CN107153641A (zh) * | 2017-05-08 | 2017-09-12 | 北京百度网讯科技有限公司 | 评论信息确定方法、装置、服务器及存储介质 |
CN108268582A (zh) * | 2017-07-14 | 2018-07-10 | 广东神马搜索科技有限公司 | 信息查询方法及装置 |
CN107704634A (zh) * | 2017-11-04 | 2018-02-16 | 辽宁工程技术大学 | 一种形成知识和构建知识链的方法 |
CN107920266A (zh) * | 2017-11-20 | 2018-04-17 | 安徽亿联智能有限公司 | 一种机顶盒用户知识图谱构造方式 |
CN108509420A (zh) * | 2018-03-29 | 2018-09-07 | 赵维平 | 古谱及古文化知识图谱自然语言处理方法 |
CN109086356A (zh) * | 2018-07-18 | 2018-12-25 | 哈尔滨工业大学 | 大规模知识图谱的错误连接关系诊断及修正方法 |
CN109086356B (zh) * | 2018-07-18 | 2020-09-25 | 哈尔滨工业大学 | 大规模知识图谱的错误连接关系诊断及修正方法 |
CN109271556B (zh) * | 2018-08-31 | 2021-06-01 | 北京字节跳动网络技术有限公司 | 用于输出信息的方法和装置 |
CN109271556A (zh) * | 2018-08-31 | 2019-01-25 | 北京字节跳动网络技术有限公司 | 用于输出信息的方法和装置 |
WO2020237666A1 (zh) * | 2019-05-31 | 2020-12-03 | 西门子股份公司 | 用于提供信息的方法、设备和计算机可读存储介质 |
CN111403011A (zh) * | 2020-03-12 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 挂号科室推送方法、装置、系统、电子设备及存储介质 |
CN111403011B (zh) * | 2020-03-12 | 2023-05-02 | 腾讯科技(深圳)有限公司 | 挂号科室推送方法、装置、系统、电子设备及存储介质 |
CN112084268A (zh) * | 2020-09-04 | 2020-12-15 | 北京字节跳动网络技术有限公司 | 一种搜索结果展示的方法、装置及计算机存储介质 |
WO2022048360A1 (zh) * | 2020-09-04 | 2022-03-10 | 北京字节跳动网络技术有限公司 | 一种搜索结果展示的方法、装置及计算机存储介质 |
CN112084268B (zh) * | 2020-09-04 | 2022-05-20 | 北京字节跳动网络技术有限公司 | 一种搜索结果展示的方法、装置及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104462506A (zh) | 基于用户标注信息构建知识图谱的方法和装置 | |
CN104462507A (zh) | 基于影视歌曲数据构建知识图谱的方法和装置 | |
CN104462505A (zh) | 搜索方法和装置 | |
CN104462501A (zh) | 基于结构化数据的知识图谱构建方法和装置 | |
CN104462508A (zh) | 基于知识图谱的人物关系搜索方法和装置 | |
CN106030569A (zh) | 重构搜索查询的技术 | |
WO2017123785A1 (en) | User interface for multivariate searching | |
CN106294787A (zh) | 一种推送信息的方法、装置及电子设备 | |
CN103605808B (zh) | 基于搜索的ugc推荐的方法及系统 | |
CN103699669A (zh) | 一种浏览器中进行消息推送的方法和一种浏览器终端 | |
CN104636448B (zh) | 一种音乐推荐方法及装置 | |
CN103914513A (zh) | 一种实体输入方法和装置 | |
CN104221017A (zh) | 使用示例来查找连接语料库中的数据 | |
CN110377817B (zh) | 搜索词条挖掘方法和装置及其在多媒体资源的应用 | |
CN108614851A (zh) | 教学系统中的注释内容显示方法以及装置 | |
CN104462504A (zh) | 基于搜索中提供推理过程数据的方法和装置 | |
CN103207917A (zh) | 标注多媒体内容的方法、生成推荐内容的方法及系统 | |
CN104780257A (zh) | 联系人提示信息生成方法、装置和终端 | |
CN104503988A (zh) | 搜索方法及装置 | |
CN104462512A (zh) | 基于知识图谱的汉语信息搜索方法和装置 | |
CN104102733A (zh) | 搜索内容提供方法和搜索引擎 | |
CN106570103A (zh) | 语音播报方法及装置 | |
KR101122737B1 (ko) | 지식노드 연결구조를 생성하기 위한 검색 데이터베이스 구축 장치 및 방법 | |
CN105630953A (zh) | 移动搜索客户端展示新闻的方法和装置 | |
CN103699590B (zh) | 提供图文教程类问题解决方案的方法和服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150325 |
|
RJ01 | Rejection of invention patent application after publication |