CN104484461A - 一种基于百科数据对实体进行分类的方法及系统 - Google Patents

一种基于百科数据对实体进行分类的方法及系统 Download PDF

Info

Publication number
CN104484461A
CN104484461A CN201410838639.7A CN201410838639A CN104484461A CN 104484461 A CN104484461 A CN 104484461A CN 201410838639 A CN201410838639 A CN 201410838639A CN 104484461 A CN104484461 A CN 104484461A
Authority
CN
China
Prior art keywords
entity
classification
similarity
attribute
predetermined threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410838639.7A
Other languages
English (en)
Other versions
CN104484461B (zh
Inventor
龚颖坤
胡士文
项碧波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410838639.7A priority Critical patent/CN104484461B/zh
Publication of CN104484461A publication Critical patent/CN104484461A/zh
Application granted granted Critical
Publication of CN104484461B publication Critical patent/CN104484461B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Abstract

本发明涉及一种基于百科数据对实体进行分类的方法及系统,该方法包括:解析百科数据中实体的条目以得到所述实体对应的描述属性集合;提取百科数据中设定的类别以及与类别对应的属性模板集合;基于所述描述属性集合与所述属性模板集合的相似度,确定所述实体的类别并对所述实体进行分类。本发明通过将百科数据中的描述属性集合与预先设定的属性模板集合相比较,将对实体进行分类,并将相似度低于阈值的数据进行聚类,从而实现了对数据进行分类的目的。

Description

一种基于百科数据对实体进行分类的方法及系统
技术领域
本发明涉及计算机搜索技术领域,尤其是涉及一种基于百科数据对实体进行分类的方法及系统。
背景技术
计算机快速发展和普及的今天,为了更方便地、清晰地获取信息、学习知识,更经常的使用搜索引擎服务来进行信息搜索和查询。由于搜索引擎是基于爬虫抓取的方式获得网络资源信息,以关键词匹配的方式给出相应的搜索结果,然而往往搜索结果纷繁多样,有时不能直接满足用户特定的精准需求或全面性需求,用户可能还需调整搜索关键词发起多次搜索请求,效率比较低,用户体验也较差,因此对于搜索资源尚待进一步的挖掘及更准确的分类。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的一种基于百科数据对实体进行分类的方法及系统。
根据本发明的一个方面,提供一种基于百科数据对实体进行分类的方法,包括:
解析百科数据中实体的条目以得到所述实体对应的描述属性集合;
提取百科数据中设定的类别以及与类别对应的属性模板集合;
基于所述描述属性集合与所述属性模板集合的相似度,确定所述实体的类别并对所述实体进行分类。
其中,基于所述描述属性集合与所述属性模板集合的相似度,确定所述实体的类别并对所述实体进行分类,进一步包括:
计算所述描述属性集合与所述属性模板集合的相似度;
判断所述相似度是否高于第一预定阈值;
如果高于预定阈值,则按照百科数据中设定的类别对所述实体进行分类。
另外,如果低于预定阈值,则对实体进行聚类分析。
优选地,所述描述属性集合包括至少一个属性信息。
其中,所述属性模板集合为各类别预先设置的各个条目的关键信息。
其中,对实体进行聚类分析的步骤进一步包括:
获取实体的描述属性集合,
将描述属性集合相似度高于第二预定阈值的实体确定为一个类别。
其中,对实体进行聚类分析的步骤进一步包括:
获取实体的描述属性,
将描述属性重合度高于第三预定阈值的实体确定为一个类别。
根据本发明的另一个方面,提供一种对实体进行分类的系统,该系统包括:
百科数据库,适于存储百科数据;
条目解析单元,解析百科数据中实体的条目以得到所述实体对应的描述属性集合;
类别与属性模板集合提取单元,用于提取百科数据中设定的类别以及与类别对应的属性模板集合;
实体分类单元,用于基于所述描述属性集合与所述属性模板集合的相似度,确定所述实体的类别并对所述实体进行分类。
其中,所述实体分类单元进一步包括:
第一属性集合相似度计算子单元,用于计算所述描述属性集合与所述属性模板集合的相似度;
第一属性集合相似度判断子单元,用于判断所述相似度是否高于第一预定阈值;
第一类别标识子单元,用于在所述相似度高于预定阈值的情况下按照百科数据中设定的类别对实体进行分类。
优选地,该系统还包括实体聚类分析单元,用于在所述相似度低于预定阈值的情况下对实体进行聚类分析。
优选地,所述描述属性集合包括至少一个属性信息。
其中,所述属性模板集合为各类别预先设置的各个条目的关键信息。
其中,所述实体聚类分析单元进一步包括:
第二属性集合获取子单元,用于获取实体的描述属性集合,
第二属性集合相似度计算单元,用于计算实体间的描述属性集合的相似度;
第二类别标识子单元,用于将所述相似度高于第二预定阈值的实体分为一个类别。
其中,所述实体聚类分析单元进一步包括:
第三属性获取子单元,用于获取实体的描述属性,
第三属性集合相似度计算单元,用于计算实体间的描述属性的重合度;
第三类别标识子单元,用于将所述相似度高于第三预定阈值的实体分为一个类别。
本发明的有益效果为:
本发明的基于百科数据对实体进行分类的方法及系统,通过将百科数据中的描述属性集合与预先设定的属性模板集合相比较,将对实体进行分类,并将相似度低于阈值的数据进行聚类,从而实现了对数据进行分类的目的。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示意性地示出了本发明中一种基于百科数据对实体进行分类的方法的流程图。
图2示意性地示出了本发明中一种基于百科数据对实体进行分类的方法的步骤S3的流程图。
图3示意性地示出了本发明中对实体进行分类的系统的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
根据本发明的一个方面,提供一种基于百科数据对实体进行分类的方法。
图1示意性地示出了一种基于百科数据对实体进行分类的方法的流程图。
参照图1,本发明实施例的基于百科数据对实体进行分类的方法,包括步骤:
S1、解析百科数据中实体的条目以得到所述实体对应的描述属性集合;
实体(entity)表示数据库中描述的现实世界中的对象或概念,是客观世界中存在的且可互相区分的事物,实体可以是人也可以是物体实物,也可以是抽象概念。
描述属性集合指的是对实体的描述属性信息的集合,其包括至少一个用于描述实体的属性信息。如当一个实体是“老虎”时,该实体包含至少一个属性信息为“全身披毛”,也可以包括属性信息为“胎生、哺乳”等。
现有的百科数据中,热门词汇几乎都具有描述属性集合,因此,解决了含有描述属性集合的实体的分类问题,就解决了高浏览量的实体的分类问题。
S2、提取百科数据中设定的类别以及与类别对应的属性模板集合。
属性模板集合为百科数据中各类别预先设置的各个条目的关键信息,如在百科数据中,哺乳纲动物的属性模板集合中包括属性:体温恒温、全身披毛、胎生、哺乳等。
S3、基于所述描述属性集合与所述属性模板集合的相似度,确定所述实体的类别并对所述实体进行分类。
在上述过程中,比较描述属性集合与属性模板集合的相似度,选取相似度高且具有一定梯度下降的类别,作为该实体的类别。
上述实施例中,老虎的描述属性集合中的三个属性均在哺乳动物的属性模板集合中包含,因此可以将老虎归入到哺乳纲动物的类别中。
如在又一个实施例中,实体“麻雀”的描述属性集合中包含的属性有:会飞、卵生、体覆羽毛、体呈流线型、杂食动物等。由于麻雀的描述属性中的属性与哺乳纲的属性模板集合中的属性的相似度很低,因此,实体麻雀不属于哺乳纲动物。
在上述实施例中,对于描述属性集合与属性模板集合的相似度的计算,通过属性模板集合中属性的数量及性质设定。
图2示意性地示出了本发明的一种基于百科数据对实体进行分类的方法的步骤S3的流程图。
参照图3,在一个实施例中,上述步骤S3进一步包括:
S31、计算所述描述属性集合与所述属性模板集合的相似度;
S32、判断所述相似度是否高于第一预定阈值;
S33、如果高于预定阈值,则按照百科数据中设定的类别对所述实体进行分类。
S34、如果低于预定阈值,则对实体进行聚类分析。
在另一个实施例中,对实体进行聚类分析的过程进一步包括:
S341、获取实体的描述属性集合,
S342、将描述属性集合相似度高于第二预定阈值的实体确定为一个类别;
或者,在又一个实施例中,将描述属性重合度高于第三预定阈值的实体确定为一个类别。
通过上述过程,对低于阈值的实体进行聚类,通过对大类的实体进行人工筛选,在扩充召回的同时,又能发现新类别,从而丰富了类别的总数。
为使本发明实施例容易理解,现举例对其进行具体说明。
以实体PM2.5为例,PM2.5的描述属性集合至少包括以下描述属性,如:直径小于或等于2.5微米的颗粒物,存在于大气中,汽车排放尾气中包含,雾霾。
PM2.5常用来描述当前的空气质量,因此在百科数据中,寻找关于空气质量类型的属性模板集合,即在百科数据中对空气质量预先设定的属性集合。
如在空气质量类型中,其属性模板集合中包括以下属性:污染物浓度,车辆尾气,空气中细颗粒物的浓度、雾霾。
将PM2.5的描述属性集合中的描述属性与空气质量类型中的属性模板进行相似度对比,判断其相似度,由于实体PM2.5中直径小于或等于2.5微米的颗粒物的属性实际上定义为细颗粒物,由于上述PM2.5中的属性都是描述空气中包括的细颗粒物,因此,上述PM2.5可以归入到描述空气质量的类别中。
又如当实体为汽车时,则该实体汽车的描述属性集合中包含的属性信息可以有:动力驱动、载运人员或货物。在百科数据中,交通工具的属性模板集合中可以包括:人类代步、运载货物、动力驱动、动物驱动、人力驱动等,因此,通过二者的相似度比较,可知实体汽车可以归入到交通工具类别中。
上述实施例的方法中,通过比较实体的描述属性集合以及属性模板集合之间的相似度,对实体进行分类,从而使得百科数据中的实体分类清楚,便于查询和进一步的处理。
在本发明的有一个实施例中,提供一种对实体进行分类的系统。
图3示意性地示出了本发明的对实体进行分类的饿系统的结构框图。
参照图3,本发明的实施例的对实体进行分类的系统具体包括:
百科数据库10,用于存储百科数据;
条目解析单元20,用于解析百科数据中实体的条目以得到所述实体对应的描述属性集合;
类别与属性模板集合提取单元30,用于提取百科数据中设定的类别以及与类别对应的属性模板集合;
实体分类单元40,用于基于所述描述属性集合与所述属性模板集合的相似度,确定所述实体的类别并对所述实体进行分类。
其中,所述实体分类单元40进一步包括:
第一属性集合相似度计算子单元401,用于计算所述描述属性集合与所述属性模板集合的相似度;
第一属性集合相似度判断子单元402,用于判断所述相似度是否高于第一预定阈值;
第一类别标识子单元403,用于在所述相似度高于预定阈值的情况下按照百科数据中设定的类别对实体进行分类。
上述实施例中,所述描述属性集合包括至少一个属性信息,所述属性模板集合为各类别预先设置的各个条目的关键信息。
在另一个实施例中,该系统还包括实体聚类分析单元50,用于在所述相似度低于预定阈值的情况下对实体进行聚类分析。
并且所述实体聚类分析单元进一步包括:
第二属性集合获取子单元501,用于获取实体的描述属性集合,
第二属性集合相似度计算单元502,用于计算实体间的描述属性集合的相似度;
第二类别标识子单元503,用于将所述相似度高于第二预定阈值的实体分为一个类别。
在又一个实施例中,所述实体聚类分析单元50进一步包括:
第三属性获取子单元504,用于获取实体的描述属性,
第三属性集合相似度计算单元505,用于计算实体间的描述属性的重合度;
第三类别标识子单元506,用于将所述相似度高于第三预定阈值的实体分为一个类别。
本发明所述的基于百科数据对实体进行分类的方法及系统,可以用于在构建知识图谱过程中对数据进行分类处理,也可以用于对知识图谱进行更新过程中的数据处理,同时,构建其他类型的数据结构的过程中对数据进行分类同样可以使用本发明的方法来实现。
本发明的基于百科数据对实体进行分类的方法及系统,通过将百科数据中的描述属性集合与预先设定的属性模板集合相比较,将对实体进行分类,并将相似度低于阈值的数据进行聚类,从而实现了对数据进行分类的目的。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的服务器、客户端,和系统等设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种基于百科数据对实体进行分类的方法,包括:
解析百科数据中实体的条目以得到所述实体对应的描述属性集合;
提取百科数据中设定的类别以及与类别对应的属性模板集合;
基于所述描述属性集合与所述属性模板集合的相似度,确定所述实体的类别并对所述实体进行分类。
2.根据权利要求1所述的方法,基于所述描述属性集合与所述属性模板集合的相似度,确定所述实体的类别并对所述实体进行分类,进一步包括:
计算所述描述属性集合与所述属性模板集合的相似度;
判断所述相似度是否高于第一预定阈值;
如果高于预定阈值,则按照百科数据中设定的类别对所述实体进行分类。
3.根据权利要求1或2所述的方法,如果低于预定阈值,则对实体进行聚类分析。
4.根据权利要求1-3任一项所述的方法,所述描述属性集合包括至少一个属性信息。
5.根据权利要求1-4任一项所述的方法,所述属性模板集合为各类别预先设置的各个条目的关键信息。
6.根据权利要求1-5任一项所述方法,对实体进行聚类分析的步骤进一步包括:
获取实体的描述属性集合,
将描述属性集合相似度高于第二预定阈值的实体确定为一个类别。
7.根据权利要求1-6任一项所述方法,对实体进行聚类分析的步骤进一步包括:
获取实体的描述属性,
将描述属性重合度高于第三预定阈值的实体确定为一个类别。
8.一种对实体进行分类的系统,该系统包括:
百科数据库,适于存储百科数据;
条目解析单元,解析百科数据中实体的条目以得到所述实体对应的描述属性集合;
类别与属性模板集合提取单元,用于提取百科数据中设定的类别以及与类别对应的属性模板集合;
实体分类单元,用于基于所述描述属性集合与所述属性模板集合的相似度,确定所述实体的类别并对所述实体进行分类。
9.根据权利要求8所述的系统,所述实体分类单元进一步包括:
第一属性集合相似度计算子单元,用于计算所述描述属性集合与所述属性模板集合的相似度;
第一属性集合相似度判断子单元,用于判断所述相似度是否高于第一预定阈值;
第一类别标识子单元,用于在所述相似度高于预定阈值的情况下按照百科数据中设定的类别对实体进行分类。
10.根据权利要求8或9所述的系统,该系统还包括实体聚类分析单元,用于在所述相似度低于预定阈值的情况下对实体进行聚类分析。
CN201410838639.7A 2014-12-29 2014-12-29 一种基于百科数据对实体进行分类的方法及系统 Expired - Fee Related CN104484461B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410838639.7A CN104484461B (zh) 2014-12-29 2014-12-29 一种基于百科数据对实体进行分类的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410838639.7A CN104484461B (zh) 2014-12-29 2014-12-29 一种基于百科数据对实体进行分类的方法及系统

Publications (2)

Publication Number Publication Date
CN104484461A true CN104484461A (zh) 2015-04-01
CN104484461B CN104484461B (zh) 2018-03-23

Family

ID=52759002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410838639.7A Expired - Fee Related CN104484461B (zh) 2014-12-29 2014-12-29 一种基于百科数据对实体进行分类的方法及系统

Country Status (1)

Country Link
CN (1) CN104484461B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866625A (zh) * 2015-06-15 2015-08-26 苏州大学张家港工业技术研究院 一种用于实体匹配的方法及系统
CN105045863A (zh) * 2015-07-13 2015-11-11 苏州大学张家港工业技术研究院 一种用于实体匹配的方法及系统
CN105354597A (zh) * 2015-11-10 2016-02-24 网易(杭州)网络有限公司 一种游戏物品的分类方法及装置
CN105787105A (zh) * 2016-03-21 2016-07-20 浙江大学 一种基于迭代模型的中文百科知识图谱分类体系构建方法
CN105912625A (zh) * 2016-04-07 2016-08-31 北京大学 一种面向链接数据的实体分类方法和系统
CN106354827A (zh) * 2016-08-31 2017-01-25 Tcl集团股份有限公司 一种媒资数据整合方法及系统
CN106777080A (zh) * 2016-12-13 2017-05-31 竹间智能科技(上海)有限公司 短摘要生成方法、数据库建立方法及人机对话方法
CN107239481A (zh) * 2017-04-12 2017-10-10 北京大学 一种面向多源网络百科的知识库构建方法
CN108021579A (zh) * 2016-10-28 2018-05-11 百度在线网络技术(北京)有限公司 信息输出方法及装置
CN108268582A (zh) * 2017-07-14 2018-07-10 广东神马搜索科技有限公司 信息查询方法及装置
CN108415950A (zh) * 2018-02-01 2018-08-17 腾讯科技(深圳)有限公司 一种上位词聚合方法及装置
CN108805290A (zh) * 2018-06-28 2018-11-13 国信优易数据有限公司 一种实体类别的确定方法及装置
CN108921213A (zh) * 2018-06-28 2018-11-30 国信优易数据有限公司 一种实体分类模型训练方法及装置
CN109408645A (zh) * 2018-10-15 2019-03-01 国信优易数据有限公司 一种实体类型确定方法和装置
CN110209839A (zh) * 2019-06-18 2019-09-06 卓尔智联(武汉)研究院有限公司 农业知识图谱构建装置、方法及计算机可读存储介质
CN110874608A (zh) * 2018-09-03 2020-03-10 北京京东金融科技控股有限公司 分类方法、系统和电子设备
CN111339396A (zh) * 2018-12-18 2020-06-26 富士通株式会社 提取网页内容的方法、装置和计算机存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110093449A1 (en) * 2008-06-24 2011-04-21 Sharon Belenzon Search engine and methodology, particularly applicable to patent literature
CN102073729A (zh) * 2011-01-14 2011-05-25 百度在线网络技术(北京)有限公司 一种关系化知识共享平台及其实现方法
US20120054194A1 (en) * 2009-05-08 2012-03-01 Dolby Laboratories Licensing Corporation Storing and Searching Fingerprints Derived from Media Content Based on a Classification of the Media Content
CN102591988A (zh) * 2012-01-16 2012-07-18 宋胜利 基于语义图的短文本分类方法
CN103164428A (zh) * 2011-12-13 2013-06-19 富士通株式会社 确定微博与给定实体的相关性的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110093449A1 (en) * 2008-06-24 2011-04-21 Sharon Belenzon Search engine and methodology, particularly applicable to patent literature
US20120054194A1 (en) * 2009-05-08 2012-03-01 Dolby Laboratories Licensing Corporation Storing and Searching Fingerprints Derived from Media Content Based on a Classification of the Media Content
CN102073729A (zh) * 2011-01-14 2011-05-25 百度在线网络技术(北京)有限公司 一种关系化知识共享平台及其实现方法
CN103164428A (zh) * 2011-12-13 2013-06-19 富士通株式会社 确定微博与给定实体的相关性的方法和装置
CN102591988A (zh) * 2012-01-16 2012-07-18 宋胜利 基于语义图的短文本分类方法

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866625A (zh) * 2015-06-15 2015-08-26 苏州大学张家港工业技术研究院 一种用于实体匹配的方法及系统
CN104866625B (zh) * 2015-06-15 2018-08-17 苏州大学张家港工业技术研究院 一种用于实体匹配的方法及系统
CN105045863B (zh) * 2015-07-13 2018-09-28 苏州大学张家港工业技术研究院 一种用于实体匹配的方法及系统
CN105045863A (zh) * 2015-07-13 2015-11-11 苏州大学张家港工业技术研究院 一种用于实体匹配的方法及系统
CN105354597A (zh) * 2015-11-10 2016-02-24 网易(杭州)网络有限公司 一种游戏物品的分类方法及装置
CN105354597B (zh) * 2015-11-10 2019-03-19 网易(杭州)网络有限公司 一种游戏物品的分类方法及装置
CN105787105A (zh) * 2016-03-21 2016-07-20 浙江大学 一种基于迭代模型的中文百科知识图谱分类体系构建方法
CN105787105B (zh) * 2016-03-21 2019-04-19 浙江大学 一种基于迭代模型的中文百科知识图谱分类体系构建方法
CN105912625A (zh) * 2016-04-07 2016-08-31 北京大学 一种面向链接数据的实体分类方法和系统
CN105912625B (zh) * 2016-04-07 2019-05-14 北京大学 一种面向链接数据的实体分类方法和系统
CN106354827A (zh) * 2016-08-31 2017-01-25 Tcl集团股份有限公司 一种媒资数据整合方法及系统
CN108021579B (zh) * 2016-10-28 2021-10-15 上海优扬新媒信息技术有限公司 信息输出方法及装置
CN108021579A (zh) * 2016-10-28 2018-05-11 百度在线网络技术(北京)有限公司 信息输出方法及装置
CN106777080B (zh) * 2016-12-13 2020-04-24 竹间智能科技(上海)有限公司 短摘要生成方法、数据库建立方法及人机对话方法
CN106777080A (zh) * 2016-12-13 2017-05-31 竹间智能科技(上海)有限公司 短摘要生成方法、数据库建立方法及人机对话方法
CN107239481A (zh) * 2017-04-12 2017-10-10 北京大学 一种面向多源网络百科的知识库构建方法
CN107239481B (zh) * 2017-04-12 2021-03-12 北京大学 一种面向多源网络百科的知识库构建方法
CN108268582A (zh) * 2017-07-14 2018-07-10 广东神马搜索科技有限公司 信息查询方法及装置
CN108415950A (zh) * 2018-02-01 2018-08-17 腾讯科技(深圳)有限公司 一种上位词聚合方法及装置
CN108415950B (zh) * 2018-02-01 2021-03-23 腾讯科技(深圳)有限公司 一种上位词聚合方法及装置
CN108921213A (zh) * 2018-06-28 2018-11-30 国信优易数据有限公司 一种实体分类模型训练方法及装置
CN108805290A (zh) * 2018-06-28 2018-11-13 国信优易数据有限公司 一种实体类别的确定方法及装置
CN108921213B (zh) * 2018-06-28 2021-06-22 国信优易数据股份有限公司 一种实体分类模型训练方法及装置
CN110874608B (zh) * 2018-09-03 2024-04-05 京东科技控股股份有限公司 分类方法、系统和电子设备
CN110874608A (zh) * 2018-09-03 2020-03-10 北京京东金融科技控股有限公司 分类方法、系统和电子设备
CN109408645A (zh) * 2018-10-15 2019-03-01 国信优易数据有限公司 一种实体类型确定方法和装置
CN111339396A (zh) * 2018-12-18 2020-06-26 富士通株式会社 提取网页内容的方法、装置和计算机存储介质
CN111339396B (zh) * 2018-12-18 2024-04-16 富士通株式会社 提取网页内容的方法、装置和计算机存储介质
CN110209839A (zh) * 2019-06-18 2019-09-06 卓尔智联(武汉)研究院有限公司 农业知识图谱构建装置、方法及计算机可读存储介质

Also Published As

Publication number Publication date
CN104484461B (zh) 2018-03-23

Similar Documents

Publication Publication Date Title
CN104484461A (zh) 一种基于百科数据对实体进行分类的方法及系统
CN105824959B (zh) 舆情监控方法及系统
CN111191122A (zh) 一种基于用户画像的学习资源推荐系统
CN109409533B (zh) 一种机器学习模型的生成方法、装置、设备及存储介质
CN104809108B (zh) 信息监测分析系统
CN111291210B (zh) 图像素材库生成方法、图像素材推荐方法及相关装置
JPWO2012176317A1 (ja) 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム
WO2013170587A1 (zh) 一种多媒体问答系统及方法
CN106227788A (zh) 一种以Lucene为基础的数据库查询方法
CN103020069A (zh) 一种搜索数据的方法、装置及电子设备
JP2008282407A (ja) 情報処理装置
CN111737494A (zh) 智能学习系统的知识图谱生成方法
CN107229614A (zh) 用于分类数据的方法和装置
CN109063171B (zh) 基于语义的资源匹配方法
CN107330076B (zh) 一种网络舆情信息展示系统及方法
KR20120047622A (ko) 디지털 콘텐츠 관리 시스템 및 방법
Surjandari et al. Development of theses categorization system search engine using PHP and MySQL
CN103425748B (zh) 一种文档资源建议词的挖掘方法和装置
CN107506349A (zh) 一种基于网络日志的用户负面情绪预测方法和系统
CN110413903A (zh) 车辆导航系统中兴趣点信息检索装置及方法
US20130054553A1 (en) Method and apparatus for automatically extracting information of products
US20110295781A1 (en) Apparatus and Method for Improved Classifier Training
JP2007249600A (ja) 目的データをカテゴリに分類する方法
CN110618980A (zh) 基于法律文本精确匹配和矛盾检测的系统及方法
EP3807783A1 (en) Content analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180323

Termination date: 20211229