CN102214209A - 一种用于识别同名信息实体的方法与设备 - Google Patents
一种用于识别同名信息实体的方法与设备 Download PDFInfo
- Publication number
- CN102214209A CN102214209A CN 201110107228 CN201110107228A CN102214209A CN 102214209 A CN102214209 A CN 102214209A CN 201110107228 CN201110107228 CN 201110107228 CN 201110107228 A CN201110107228 A CN 201110107228A CN 102214209 A CN102214209 A CN 102214209A
- Authority
- CN
- China
- Prior art keywords
- information
- same name
- differentiation
- entity
- entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的目的是提供一种用于识别同名信息实体的方法与设备。其中,信息实体识别设备1获取待识别多个同名信息实体的基本区分信息;根据所述基本区分信息,识别具有不同所述基本区分信息的同名信息实体;根据具有相同所述基本区分信息的同名信息实体,获取所述同名信息实体的高级区分信息;根据所述高级区分信息,识别具有不同所述高级区分信息的所述同名信息实体。与现有技术相比,本发明通过建立多级区分信息,逐级识别多个同名信息实体,从而提高同名信息实体的可识别性,提升用户体验。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种用于识别同名信息实体的方法与设备。
背景技术
现有技术采用一级区分的方式识别多个同名的信息实体,如在即时通信工具QQ中输入“贝贝”来查找名字为“贝贝”的网友,查询结果列表中将列出使用“账号”、“昵称”、“城市”组成的区分信息来识别的所有名字为“贝贝”的网友记录,由此在同名网友数量很多的情况下,很可能导致各条同名网友记录的可识别性差,用户难于定位其希望查找的网友。
发明内容
本发明的目的是提供一种用于识别同名信息实体的方法与设备。
根据本发明的一个方面,提供一种用于识别同名信息实体的方法,其中,该方法包括以下步骤:
a获取待识别多个同名信息实体的基本区分信息;
b根据所述基本区分信息,识别具有不同所述基本区分信息的同名信息实体;
c根据具有相同所述基本区分信息的同名信息实体,获取所述同名信息实体的高级区分信息;
d根据所述高级区分信息,识别具有不同所述高级区分信息的所述同名信息实体。
根据本发明的一个方面,提供一种用于识别同名信息实体的设备,其中,该设备包括:
基本区分获取装置,用于获取待识别多个同名信息实体的基本区分信息;
基本区分识别装置,用于根据所述基本区分信息,识别具有不同所述基本区分信息的同名信息实体;
高级区分获取装置,用于根据具有相同所述基本区分信息的同名信息实体,获取所述同名信息实体的高级区分信息;
高级区分识别装置,用于根据所述高级区分信息,识别具有不同所述高级区分信息的所述同名信息实体。
与现有技术相比,本发明通过建立多级区分信息,逐级识别多个同名信息实体,从而提高同名信息实体的可识别性,提升用户体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面用于识别同名信息实体的设备示意图;
图2示出根据本发明另一个方面用于识别同名信息实体的的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面用于识别同名信息实体的设备示意图。信息实体识别设备1包括基本区分获取装置11、基本区分识别装置12、高级区分获取装置13和高级区分识别装置14。在此,信息实体识别设备1包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
具体地,基本区分获取装置11获取待识别多个同名信息实体的基本区分信息。更具体地,基本区分获取装置11通过诸如对多个同名信息实体进行分析,获取该多个同名信息实体共有的预先定义的基础属性,并将该基础属性作为基本区分信息,或者通过约定的通信方式直接从信息实体识别设备1的其他部分或第三方设备读取该基本区分信息。其中,上述信息实体意指具有结构化或半结构化特征的数据,包括但不限于网络百科中的词条,电子商务网站中的商品信息,电子图书馆中的图书条目,电子期刊网站中的期刊、论文信息等。在此,基本区分信息意指能够用于区分同名信息实体的信息,包括但不限于信息实体的一个区分属性、信息实体的多个区分属性等。例如,假设信息实体为网络百科中的词条,基本区分获取装置11对多个名称同为“星光大道”的词条进行分析,获得其共有的预置属性“分类”,并将该属性作为基本区分信息。再如,基本区分获取装置11将该多个同名信息实体作为输入参数,通过调用设定的应用编程接口(API)向第三方设备发送获取该多个同名信息实体的基本区分信息的请求,并接收该第三方设备基于该请求返回的基本区分信息。本领域技术人员应能理解上述获取基本区分信息的方式仅为举例,其他现有的或今后可能出现的获取基本区分信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
随后,基本区分识别装置12根据所述基本区分信息,识别具有不同所述基本区分信息的同名信息实体。具体地,基本区分识别装置12根据基本区分获取装置11获得的多个同名信息实体的基本区分信息,例如通过提取该区分信息中该些同名信息实体共有的一个或多个区分属性,并比较该些同名信息实体中该区分属性的属性值,以识别具有不同基本区分信息的同名信息实体。例如,假设信息实体为网络百科中的词条,存在5个名称同为“星光大道”的词条E1、E2、E3、E4、E5,E1代表中国中央电视台的综艺节目,E2代表台湾中视台的综艺节目,E3代表歌手谭咏麟的一张音乐专辑,E4代表香港的一条海滨长廊,E5代表美国好莱坞的一个人行道。基本区分识别装置12遍历基本区分获取装置11获得的基本区分信息,获得其中包含的一个区分属性“分类”,通过比较该5个词条中“分类”属性的属性值,获得E1与E2具有相同的分类“电视节目”,E4与E5具有相同的分类“道路”,而E3的分类为“音乐专辑”,从而识别出词条E3。再如,假设信息实体为电子商务网站的商品,存在4件商标同为“雨虹”的商品,其中3件商品C1,C2,C3为防水涂料,1件商品C4为挖掘机,基本区分获取装置11提供的基本区分信息包含两个区分属性“应用领域”和“产地”,基本区分识别装置12根据区分属性“应用领域”获得C1,C2,C3的属性值都为“装修”,C4的属性值为“土建”,由此识别出商品C4,进一步地,根据区分属性“产地”获得C1,C3的属性值都为“北京”,C2的属性值为“上海”,由此识别出商品C2。本领域技术人员应能理解上述识别同名信息实体的方式仅为举例,其他现有的或今后可能出现的识别同名信息实体的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,高级区分获取装置13根据具有相同所述基本区分信息的同名信息实体,获取所述同名信息实体的高级区分信息。具体地,高级区分获取装置13根据基本区分识别装置12识别后的具有相同基本区分信息的同名信息实体,例如通过遍历该同名信息实体中该基本区分信息所包含的属性之外的其他共有属性,获取该属性在信息实体中的权重,将权重较高的一个或多个属性作为所述同名信息实体的高级区分信息。例如,根据基本区分识别装置12识别后获得的具有相同“分类”基本区分属性的名称同为“星光大道”的网络百科词条E1与E2,E4与E5,其中E1代表中国中央电视台的综艺节目,E2代表台湾中视台的综艺节目,E4代表香港的一条海滨长廊,E5代表美国好莱坞的一个人行道,高级区分获取装置13遍历E1与E2同名词条中除“分类”属性之外的其他属性,如“主持人”、“导演”、“制作单位”、“播出时间”,从该同名词条中获取该些属性在词条中的预置的权重,通过比较各属性权重,获得属性“主持人”在词条中的属性权重最高,故此,将该属性作为同名词条E1与E2的高级区分信息,接着高级区分获取装置13遍历E4与E5同名词条中除“分类”属性之外的其他属性,如“长度”、“走向”、“所在城市”、“所在国家”,从该同名词条中获取该些属性在词条中的预置的属性权重,通过比较各属性权重,获得属性“所在城市”在词条中的属性权重最高,故此,将该属性作为同名词条E4与E5的高级区分信息。再如,根据基本区分识别装置12识别后获得的具有相同“应用领域”和“产地”区分属性的商标名称均为“雨虹”的电子商务网站的商品C1与C3,其中C1和C3均为防水涂料,高级区分获取装置13遍历该同名商品中除“应用领域”和“产地”基本区分属性之外的其他属性,如“规格”、“价格”、“销售量”,从该同名商品中获取该些属性在商品中的预置的权重,通过比较各属性的权重,获得属性“销售量”和“价格”在信息实体中的属性权重最高,故此,将该些属性作为同名商品C1与C3的高级区分信息。在此,高级区分信息意指能够用于区分同名信息实体的信息,包括但不限于信息实体的一个区分属性、信息实体的多个区分属性等。本领域技术人员应能理解上述获取高级区分信息的方式仅为举例,其他现有的或今后可能出现的获取高级区分信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,高级区分识别装置14根据所述高级区分信息,识别具有不同所述高级区分信息的所述同名信息实体。具体地,高级区分识别装置14根据高级区分获取装置13获得的同名信息实体的高级区分信息,例如通过提取该区分信息中一个或多个区分属性,并比较该些同名信息实体中该区分属性的属性值,以识别具有不同高级区分信息的同名信息实体。例如,假设基本区分识别装置12获取具有相同基本区分信息的同名词条E1与E2、E4与E5,其中,E1代表中国中央电视台的综艺节目,E3代表歌手谭咏麟的一张音乐专辑,E4代表香港的一条海滨长廊,E5代表美国好莱坞的一个人行道,根据高级区分获取装置13获取的同名词条E1与E2、E4与E5的高级区分信息,高级区分识别装置14遍历E1与E2的高级区分信息,获得其中包含的区分属性“主持人”,通过比较E1的该属性的属性值“毕福剑”与E2的该属性的属性值“陶晶莹”,识别出词条E1与E2,接着,高级区分识别装置14遍历E4与E5的高级区分信息,获得其中包含的区分属性“所在城市”,通过比较E4的该属性的属性值“香港”与E5的该属性的属性值“洛杉矶”,识别出词条E4与E5。再如,假设基本区分识别装置12获取具有相同基本区分信息的同名商品C1与C3,其中C1和C3均为防水涂料,根据高级区分获取装置13获取的同名词条C1与C3的高级区分信息,高级区分识别装置14遍历该高级区分信息,获得其中包含的区分属性“价格”和“销售量”,比较C1和C3的“价格”属性值,获得其属性值相等,然后,比较C1和C3的“销售量”属性值,获得二者的“销售量”属性值不同,从而识别出词条C1与C3。本领域技术人员应能理解上述识别同名信息实体的方式仅为举例,其他现有的或今后可能出现的识别同名信息实体的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在此,本领域技术人员应能理解本发明不限于采用二级区分信息进行同名信息实体识别,采用多级区分信息进行同名信息实体识别也在本发明的保护范围内。
优选地,基本区分获取装置11和基本区分识别装置12和高级区分获取装置13和高级区分识别装置14之间是持续不断地工作。具体地,基本区分获取装置11获取待识别多个同名信息实体的基本区分信息;随后,基本区分识别装置12根据所述基本区分信息,识别具有不同所述基本区分信息的同名信息实体;接着,高级区分获取装置13根据具有相同所述基本区分信息的同名信息实体,获取所述同名信息实体的高级区分信息;接着,高级区分识别装置14根据所述高级区分信息,识别具有不同所述高级区分信息的所述同名信息实体。在此,本领域技术人员应理解“持续”是指各装置分别按照设定的或实时调整的工作模式要求进行基本区分信息的获取、根据基本区分信息的同名信息实体的识别、高级区分信息的获取及根据高级区分信息的同名信息实体的识别,直至基本区分获取装置11在较长时间内停止对基本区分信息的获取。
优选地,所述高级区分获取装置13还包括高级属性获取单元(未示出)、相似距离获取单元(未示出)和第一获取单元(未示出),其中,高级属性获取单元根据具有相同所述基本区分信息的所述同名信息实体,获取所述同名信息实体的高级属性,相似距离获取单元根据所述高级属性,获取所述高级属性的相似距离,第一获取单元根据所述相似距离,获取所述同名信息实体的高级区分信息。具体地,高级属性获取单元根据基本区分识别装置12获得的具有相同基本区分信息的同名信息实体,例如通过查找与该基本区分信息中的基本区分属性相对应的子属性,并将该子属性作为该同名信息实体的高级属性;接着,相似距离获取单元根据高级属性获取单元获得的所有高级属性,获取每个高级属性的相似距离,例如根据每个高级属性被其他信息实体引用的次数,计算各高级属性的相似距离;随后,第一获取单元根据相似距离获取单元获得的相似距离,获取所述同名信息实体的高级区分信息。在此,上述相似距离意指信息实体中某个属性对具有该属性的多个同名信息实体的区分程度,相似距离越大,则区分程度越高。例如,基本区分识别装置12获得具有相同“分类”基本区分属性的名称同为“宋佳”的信息实体E1和E2,它们的“分类”属性值为“影视演员”,假设每个“分类”属性都具有与其属性值相对应的预定义的子属性,高级属性获取单元根据“影视演员”在分类属性映射表中进行匹配查询,以获得与该“分类”属性值对应的子属性“出生日期”、“毕业院校”和“代表作品”,并将其作为该同名信息实体的高级属性;接着,相似距离获取单元根据信息实体E1,在关联数据库中进行匹配查询,以获得与E1关联的其他信息实体,并通过查找改其他信息实体中与E1相对应的关联属性,确定该其他信息实体是否引用在高级属性获取单元中获得的该3个高级属性,并据此获得E1中的高级属性“出生日期”的引用次数为0,“毕业院校”的引用次数为5,“代表作品”的引用次数为20,接着,通过相同的操作,获得E2中的高级属性“出生日期”的引用次数为0,“毕业院校”的引用次数为8,“代表作品”的引用次数为8,最后,根据属性引用次数越多,相似距离越大的规则,获得该3个高级属性的相似距离为:“代表作品”>“毕业院校”>“出生日期”;随后,第一获取单元将相似距离最大的高级属性“代表作品”作为同名信息实体E1和E2的高级区分信息。在此,所述实施例中的分类属性映射表可存储在高级属性获取单元,也可按照约定的通信方式从信息实体识别设备1的其他部分或第三方设备获取。在此,所述实施例中的关联数据库用于存储信息实体之间的关联关系,该关联数据库包括但不限于关系数据库,内存存储器,硬盘存储器等。本领域技术人员应能理解上述获取高级属性信息、获取相似距离及获取高级区分信息的方式仅为举例,其他现有的或今后可能出现的获取高级属性信息、获取相似距离及获取高级区分信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,相似距离获取单元根据所述高级属性的评价信息,获取所述高级属性的相似距离。具体地,相似距离获取单元根据高级属性获取单元提供的高级属性,获得该属性的评价信息,例如该属性在与之对应的基本区分属性的所有子属性中的权重,并根据该评价信息,获取高级属性的相似距离。例如,高级属性获取单元获取与同名信息实体“少林寺”的基本区分属性“分类”的属性值“影视作品”相对应的子属性“主角”、“导演”和“发行方”作为该同名信息实体的高级属性,接着,相似距离获取单元获取各高级属性在“影视作品”分类中的权重,其中“主角”权重为0.8,“导演”权重为1,“发行方”权重为0.1,据此,获得该各高级属性的相似距离为:“导演”>“主角”>“发行方”。本领域技术人员应能理解上述获取相似距离的方式仅为举例,其他现有的或今后可能出现的获取相似距离的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
具体地,所述评价信息包括但不限于以下至少任一项:
-所述高级属性在所述同名信息实体中的权重;
-所述高级属性被其他信息实体引用的次数。例如,若该评价信息包括该高级属性在同名信息实体中的权重,则相似距离获取单元根据该权重获得该高级属性的相似距离,其中,高级属性的权重越高,则该高级属性的相似距离越大,反之,则越小。若该评价信息包括该被其他信息实体引用的次数,则相似距离获取单元根据该引用次数获得该高级属性的相似距离,其中,高级属性被引用的次数越多,则该高级属性的相似距离越大,反之,则越小。本领域技术人员应能理解,上述各项评价信息不仅可以单独用于相似距离获取单元对高级属性的相似距离进行获取,还可以将其中多项结合用于相似距离获取单元对高级属性的相似距离进行获取。本领域技术人员还应能理解上述评价信息仅为举例,其他现有的或今后可能出现的评价信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,所述相似距离获取单元还包括相似度获取单元(未示出)和相似距离确定单元(未示出),其中,相似度获取单元对各所述同名信息实体中相同高级属性的属性值进行语义分析,以获得所述属性值之间的语义相似度;相似距离确定单元根据所述语义相似度来确定与所述属性值相对应的高级属性的相似距离。具体地,相似度获取单元根据高级属性获取单元提供的各同名信息实体的高级属性,对相同高级属性的属性值进行语义分析,以获得所述属性值之间的语义相似度,例如通过利用分词算法对属性值进行分词,并将分词后的属性值进行比较,获得该属性值之间的语义相似度;接着,相似距离确定单元根据相似度获取单元获取的该高级属性的属性值的语义相似度来确定与该属性值相对应的高级属性的相似距离,如属性值的语义相似度越低,则与该属性值对应的高级属性的相似距离就越大。在此,上述语义分析包括但不限于通过文本比较,机器学习及决策树分析等方法实现。例如,假设名称同为“星光大道”的信息实体E1和E2的高级属性包括“主持人”和“制作单位”,在E1中,“主持人”的属性值为“毕福剑”,“制作单位”的属性值为“中国中央电视台”,而在E2中,“主持人”的属性值为“陶晶莹”,“制作单位”的属性值为“台湾中视电视台”,相似度获取单元利用正向最大匹配分词算法对E1和E2中高级属性“主持人”的属性值分别进行分词,获得分词结果为“毕/福/剑”和“陶/晶/莹”,通过对两个分词结果进行文本比较确定它们之间没有相同的分词,据此,获得“主持人”属性值的语义相似度为0,然后,相似度获取单元利用相同的方法对高级属性“主持人”的属性值分别进行分词,获得分词结果为“中国/中央/电视台”和“台湾/中视/电视台”,通过对两个分词结果进行文本比较确定在3个分词中有1个分词“电视台”相等,据此,获得“制作单位”属性值的语义相似度为0.33;接着,相似距离确定单元根据相似度获取单元获取的高级属性“主持人”和“制作单位”的属性值的语义相似度,按照属性值语义相似度越大,属性的相似距离越小的规则,确定高级属性的相似距离为:“主持人”>“制作单位”。在此,所述实施例中的分词算法包括但不限于正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等。本领域技术人员还应能理解上述获得语义相似度的方式仅为举例,其他现有的或今后可能出现的获得语义相似度的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。本领域技术人员还应能理解上述确定相似距离的方式仅为举例,其他现有的或今后可能出现的确定相似距离的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,所述基本区分信息和所述高级区分信息之一包括所述多个同名信息实体的至少一个属性,其中,所述基本区分信息和所述高级区分信息所包括的所述属性彼此不相同。具体地,基本区分获取装置11获取的基本区分信息中包括多个同名信息实体中共有的一个或多个属性,高级区分获取装置13获取的高级区分信息中包括该多个同名信息实体中共有的一个或多个属性,并且该基本区分信息和该高级区分信息所包括的属性彼此不相同。
在另一个优选实施例中(参照图1),信息实体识别设备1还包括查询装置(未示出)和提供装置(未示出),其中,查询装置获取与用户通过用户设备提交的查询信息相对应的所述多个同名信息实体;提供装置将识别后的所述多个同名信息实体提供给所述用户设备。以下参照图1对该另一个实施例进行详细描述,其中,高级区分识别装置14基于高级区分获取装置13获取的多个同名信息实体的高级区分信息,识别具有不同该高级区分信息的该多个同名信息实体,其具体过程与前述参照图1所描述的实施例中高级区分识别装置14所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。
具体地,查询装置获取与用户通过用户设备提交的查询信息相对应的所述多个同名信息实体。更具体地,查询装置根据用户通过用户设备提交的查询信息,例如通过在信息实体数据库中进行匹配查询,以获取与该查询信息相对应的多个同名信息实体。在此,该用户设备可以是任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或声控设备进行人机交互的电子产品,包括但不限于计算机、智能手机、PDA、或I PTV等。例如,用户通过键盘在用户设备所显示的输入框内输入的查询信息为:“星光大道”,则该用户设备通过网络将该查询信息“星光大道”发送至信息实体识别设备1,由此使查询装置获取该用户输入的查询信息,接着,查询装置根据该查询信息在信息实体数据库中进行匹配查询,获得名称同为“星光大道”的多个信息实体。用户设备与信息实体识别设备1连接的网络包括但不限于:互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。在此,上述信息实体数据库用于存储已存在的所有信息实体,该信息实体数据库包括但不限于关系数据库,内存存储器,硬盘存储器等。本领域技术人员应能理解上述获取同名信息实体的方式仅为举例,其他现有的或今后可能出现的获取同名信息实体的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
提供装置将识别后的所述多个同名信息实体提供给所述用户设备。具体地,提供装置根据高级区分识别装置14提供的该识别后的多个同名信息实体,例如通过约定的通信协议,提供给用户设备,并在用户设备上基于基本区分信息和高级区分信息逐级展现该多个同名信息实体。例如,提供装置将识别后的多个名称同为“星光大道”的信息实体通过诸如http、https等预先约定的通信协议提供给用户设备,并根据该同名信息实体的基本区分信息和高级区分信息逐级展现该多个同名信息实体在该用户设备的显示装置上。本领域技术人员应能理解上述提供同名信息实体的方式仅为举例,其他现有的或今后可能出现的提供同名信息实体的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,提供装置根据用户相关信息,对识别后的所述多个同名信息实体进行排序,并将排序后的所述多个同名信息实体提供给所述用户设备。具体地,提供装置根据用户相关信息,如用户的偏好设置,对高级区分识别装置14提供的识别后的多个同名信息实体进行排序,然后将排序后的所述多个同名信息实体提供给所述用户设备。例如,假设信息实体为网络百科中的词条,每个词条都具有其所属的分类,用户的偏好设置为根据词条的分类级别对多个同名词条进行排序,提供装置根据该用户偏好设置,对于识别后同名词条E1、E2和E3(E1的分类为一级分类“人物”,E2的分类为二级分类“艺术人物”,E3的分类为三级分类“歌手”)按照分类级别由低到高的顺序进行排序,获得排序结果:E3、E2、E1,并将该排序结果提供给用户设备。本领域技术人员应能理解上述提供同名信息实体的方式仅为举例,其他现有的或今后可能出现的提供同名信息实体的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
具体地,所述用户相关信息包括以下至少任一项:
-用户的偏好设置;
-用户的历史行为记录。
例如,若所述用户相关信息包括用户的偏好设置,提供装置根据用户的偏好设置,对识别后的所述多个同名信息实体进行排序。在此,用户的偏好设置包括但不限于优先排列累计访问次数较高的信息实体,优先排列近期访问频次较高的信息实体等。若所述用户相关信息包括用户的历史行为记录,提供装置根据用户的历史行为记录,例如通过对该历史行为记录进行统计分析,获得该用户在历史上累计搜索次数较多的信息实体,并赋予其高排列优先级,据此,对识别后的所述多个同名信息实体进行排序。例如,存在识别后的3个同名信息实体E1、E2、E 3,提供装置按照缺省的排序规则获得该同名信息实体的排序依次为E3、E2、E1,然后,提供装置通过对该历史行为记录进行统计分析,获得该用户在历史上累计搜索次数最多的前100个信息实体的集合,并将信息实体E1、E2、E3在该集合中进行匹配查找,确定E2存在于该集合,并据此调整该同名信息实体的排列顺序为E2、E3、E1。信息实体识别设备1获取用户相关信息的方式包括但不限于:根据用户通过用户设备登录该识别设备的注册信息中获取,或根据在用户通过用户设备浏览网页期间由用户设备端或网络端所记录的或由用户设备的cookies信息中提取的用户历史行为信息中获取等等。本领域技术人员应能理解上述用户相关信息仅为举例,其他现有的或今后可能出现的用户相关信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
图2示出根据本发明另一个方面用于识别同名信息实体的的方法流程图。在此,信息实体识别设备1包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
具体地,在步骤S1中,信息实体识别设备1获取待识别多个同名信息实体的基本区分信息。更具体地,在步骤S1中,信息实体识别设备1通过诸如对多个同名信息实体进行分析,获取该多个同名信息实体共有的预先定义的基础属性,并将该基础属性作为基本区分信息,或者通过约定的通信方式直接从第三方设备读取该基本区分信息。其中,上述信息实体意指具有结构化或半结构化特征的数据,包括但不限于网络百科中的词条,电子商务网站中的商品信息,电子图书馆中的图书条目,电子期刊网站中的期刊、论文信息等。在此,基本区分信息意指能够用于区分同名信息实体的信息,包括但不限于信息实体的一个区分属性、信息实体的多个区分属性等。例如,假设信息实体为网络百科中的词条,在步骤S1中,信息实体识别设备1对多个名称同为“星光大道”的词条进行分析,获得其共有的预置属性“分类”,并将该属性作为基本区分信息。再如,在步骤S1中,信息实体识别设备1将该多个同名信息实体作为输入参数,通过调用设定的应用编程接口(API)向第三方设备发送获取该多个同名信息实体的基本区分信息的请求,并接收该第三方设备基于该请求返回的基本区分信息。本领域技术人员应能理解上述获取基本区分信息的方式仅为举例,其他现有的或今后可能出现的获取基本区分信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
随后,在步骤S2中,信息实体识别设备1根据所述基本区分信息,识别具有不同所述基本区分信息的同名信息实体。具体地,在步骤S2中,信息实体识别设备1根据其在步骤S1中获得的多个同名信息实体的基本区分信息,例如通过提取该区分信息中该些同名信息实体共有的一个或多个区分属性,并比较该些同名信息实体中该区分属性的属性值,以识别具有不同基本区分信息的同名信息实体。例如,假设信息实体为网络百科中的词条,存在5个名称同为“星光大道”的词条E1、E2、E3、E4、E5,E1代表中国中央电视台的综艺节目,E2代表台湾中视台的综艺节目,E3代表歌手谭咏麟的一张音乐专辑,E4代表香港的一条海滨长廊,E5代表美国好莱坞的一个人行道。在步骤S2中,信息实体识别设备1遍历其在步骤S1中获得的基本区分信息,获得其中包含的一个区分属性“分类”,通过比较该5个词条中“分类”属性的属性值,获得E1与E2具有相同的分类“电视节目”,E4与E5具有相同的分类“道路”,而E3的分类为“音乐专辑”,从而识别出词条E3。再如,假设信息实体为电子商务网站的商品,存在4件商标同为“雨虹”的商品,其中3件商品C1,C2,C3为防水涂料,1件商品C4为挖掘机,在步骤S1中,信息实体识别设备1提供的基本区分信息包含两个区分属性“应用领域”和“产地”,在步骤S2中,信息实体识别设备1根据区分属性“应用领域”获得C1,C2,C3的属性值都为“装修”,C4的属性值为“土建”,由此识别出商品C4,进一步地,根据区分属性“产地”获得C1,C3的属性值都为“北京”,C2的属性值为“上海”,由此识别出商品C2。本领域技术人员应能理解上述识别同名信息实体的方式仅为举例,其他现有的或今后可能出现的识别同名信息实体的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,在步骤S3中,信息实体识别设备1根据具有相同所述基本区分信息的同名信息实体,获取所述同名信息实体的高级区分信息。具体地,在步骤S3中,信息实体识别设备1根据其在步骤S2中识别后的具有相同基本区分信息的同名信息实体,例如通过遍历该同名信息实体中该基本区分信息所包含的属性之外的其他共有属性,获取该属性在信息实体中的权重,将权重较高的一个或多个属性作为所述同名信息实体的高级区分信息。例如,根据在步骤S2中识别后获得的具有相同“分类”基本区分属性的名称同为“星光大道”的网络百科词条E1与E2,E4与E5,其中E1代表中国中央电视台的综艺节目,E2代表台湾中视台的综艺节目,E4代表香港的一条海滨长廊,E5代表美国好莱坞的一个人行道,在步骤S3中,信息实体识别设备1遍历E1与E2同名词条中除“分类”属性之外的其他属性,如“主持人”、“导演”、“制作单位”、“播出时间”,从该同名词条中获取该些属性在词条中的预置的权重,通过比较各属性权重,获得属性“主持人”在词条中的属性权重最高,故此,将该属性作为同名词条E1与E2的高级区分信息,接着信息实体识别设备1遍历E4与E5同名词条中除“分类”属性之外的其他属性,如“长度”、“走向”、“所在城市”、“所在国家”,从该同名词条中获取该些属性在词条中的预置的属性权重,通过比较各属性权重,获得属性“所在城市”在词条中的属性权重最高,故此,将该属性作为同名词条E4与E5的高级区分信息。再如,根据其在步骤S 2中识别后获得的具有相同“应用领域”和“产地”区分属性的商标名称均为“雨虹”的电子商务网站的商品C1与C3,其中C1和C3均为防水涂料,在步骤S3中,信息实体识别设备1遍历该同名商品中除“应用领域”和“产地”基本区分属性之外的其他属性,如“规格”、“价格”、“销售量”,从该同名商品中获取该些属性在商品中的预置的权重,通过比较各属性的权重,获得属性“销售量”和“价格”在信息实体中的属性权重最高,故此,将该些属性作为同名商品C1与C3的高级区分信息。在此,高级区分信息意指能够用于区分同名信息实体的信息,包括但不限于信息实体的一个区分属性、信息实体的多个区分属性等。本领域技术人员应能理解上述获取高级区分信息的方式仅为举例,其他现有的或今后可能出现的获取高级区分信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,在步骤S4中,信息实体识别设备1根据所述高级区分信息,识别具有不同所述高级区分信息的所述同名信息实体。具体地,在步骤S4中,信息实体识别设备1根据其在步骤S3中获得的同名信息实体的高级区分信息,例如通过提取该区分信息中一个或多个区分属性,并比较该些同名信息实体中该区分属性的属性值,以识别具有不同高级区分信息的同名信息实体。例如,假设在步骤S2中,信息实体识别设备1获取具有相同基本区分信息的同名词条E1与E2、E4与E5,其中,E1代表中国中央电视台的综艺节目,E3代表歌手谭咏麟的一张音乐专辑,E4代表香港的一条海滨长廊,E5代表美国好莱坞的一个人行道,根据在步骤S3中获取的同名词条E1与E2、E4与E5的高级区分信息,在步骤S4中,信息实体识别设备1遍历E1与E2的高级区分信息,获得其中包含的区分属性“主持人”,通过比较E1的该属性的属性值“毕福剑”与E2的该属性的属性值“陶晶莹”,识别出词条E1与E2,接着,信息实体识别设备1遍历E4与E5的高级区分信息,获得其中包含的区分属性“所在城市”,通过比较E4的该属性的属性值“香港”与E5的该属性的属性值“洛杉矶”,识别出词条E4与E5。再如,假设在步骤S2中,信息实体识别设备1获取具有相同基本区分信息的同名商品C1与C3,其中C1和C3均为防水涂料,根据在步骤S3中获取的同名词条C1与C3的高级区分信息,在步骤S4中,信息实体识别设备1遍历该高级区分信息,获得其中包含的区分属性“价格”和“销售量”,比较C1和C3的“价格”属性值,获得其属性值相等,然后,比较C1和C3的“销售量”属性值,获得二者的“销售量”属性值不同,从而识别出词条C1与C3。本领域技术人员应能理解上述识别同名信息实体的方式仅为举例,其他现有的或今后可能出现的识别同名信息实体的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在此,本领域技术人员应能理解本发明不限于采用二级区分信息进行同名信息实体识别,采用多级区分信息进行同名信息实体识别也在本发明的保护范围内。
优选地,上述各个步骤之间是持续不断工作的。具体地,在步骤S1中,信息实体识别设备1获取待识别多个同名信息实体的基本区分信息;随后,在步骤S2中,信息实体识别设备1根据所述基本区分信息,识别具有不同所述基本区分信息的同名信息实体;接着,在步骤S3中,信息实体识别设备1根据具有相同所述基本区分信息的同名信息实体,获取所述同名信息实体的高级区分信息;接着,在步骤S4中,信息实体识别设备1根据所述高级区分信息,识别具有不同所述高级区分信息的所述同名信息实体。在此,本领域技术人员应理解“持续”是指各步骤分别按照设定的或实时调整的工作模式要求进行基本区分信息的获取、根据基本区分信息的同名信息实体的识别、高级区分信息的获取及根据高级区分信息的同名信息实体的识别,直至信息实体识别设备1在较长时间内停止对基本区分信息的获取。
优选地,在所述步骤S3中还包括步骤S31(未示出)、步骤S32(未示出)和步骤S33(未示出),其中,在步骤S31中,信息实体识别设备1根据具有相同所述基本区分信息的所述同名信息实体,获取所述同名信息实体的高级属性,在步骤S32中,信息实体识别设备1根据所述高级属性,获取所述高级属性的相似距离,在步骤S33中,信息实体识别设备1根据所述相似距离,获取所述同名信息实体的高级区分信息。具体地,在步骤S31中,信息实体识别设备1根据其在步骤S2中获得的具有相同基本区分信息的同名信息实体,例如通过查找与该基本区分信息中的基本区分属性相对应的子属性,并将该子属性作为该同名信息实体的高级属性;接着,在步骤S32中,信息实体识别设备1根据其在步骤S31中获得的所有高级属性,获取每个高级属性的相似距离,例如根据每个高级属性被其他信息实体引用的次数,计算各高级属性的相似距离;随后,在步骤S33中,信息实体识别设备1根据其在步骤S32中获得的相似距离,获取所述同名信息实体的高级区分信息。在此,上述相似距离意指信息实体中某个属性对具有该属性的多个同名信息实体的区分程度,相似距离越大,则区分程度越高。例如,在步骤S2中,信息实体识别设备1获得具有相同“分类”基本区分属性的名称同为“宋佳”的信息实体E1和E2,它们的“分类”属性值为“影视演员”,假设每个“分类”属性都具有与其属性值相对应的预定义的子属性,在步骤S31中,信息实体识别设备1根据“影视演员”在分类属性映射表中进行匹配查询,以获得与该“分类”属性值对应的子属性“出生日期”、“毕业院校””和“代表作品”,并将其作为该同名信息实体的高级属性;接着,在步骤S32中,信息实体识别设备1根据信息实体E1,在关联数据库中进行匹配查询,以获得与E1关联的其他信息实体,并通过查找改其他信息实体中与E1相对应的关联属性,确定该其他信息实体是否引用在步骤S31中获得的该3个高级属性,并据此获得E1中的高级属性“出生日期”的引用次数为0,“毕业院校”的引用次数为5,“代表作品”的引用次数为20,接着,通过相同的操作,获得E2中的高级属性“出生日期”的引用次数为0,“毕业院校”的引用次数为8,“代表作品”的引用次数为8,最后,根据属性引用次数越多,相似距离越大的规则,获得该3个高级属性的相似距离为:“代表作品”>“毕业院校”>“出生日期”;随后,在步骤S33中,信息实体识别设备1将相似距离最大的高级属性“代表作品”作为同名信息实体E1和E2的高级区分信息。在此,所述实施例中的分类属性映射表可存储在信息实体识别设备1,也可按照约定的通信方式从第三方设备获取。在此,所述实施例中的关联数据库用于存储信息实体之间的关联关系,该关联数据库包括但不限于关系数据库,内存存储器,硬盘存储器等。本领域技术人员应能理解上述获取高级属性信息、获取相似距离及获取高级区分信息的方式仅为举例,其他现有的或今后可能出现的获取高级属性信息、获取相似距离及获取高级区分信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,在步骤S32中,信息实体识别设备1根据所述高级属性的评价信息,获取所述高级属性的相似距离。具体地,在步骤S32中,信息实体识别设备1根据其在步骤S31中提供的高级属性,获得该属性的评价信息,例如该属性在与之对应的基本区分属性的所有子属性中的权重,并根据该评价信息,获取高级属性的相似距离。例如,在步骤S31中,信息实体识别设备1获取与同名信息实体“少林寺”的基本区分属性“分类”的属性值“影视作品”相对应的子属性“主角”、“导演”和“发行方”作为该同名信息实体的高级属性,接着,在步骤S32中,信息实体识别设备1获取各高级属性在“影视作品”分类中的权重,其中“主角”权重为0.8,“导演”权重为1,“发行方”权重为0.1,据此,获得该各高级属性的相似距离为:“导演”>“主角”>“发行方”。本领域技术人员应能理解上述获取相似距离的方式仅为举例,其他现有的或今后可能出现的获取相似距离的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
具体地,所述评价信息包括但不限于以下至少任一项:
-所述高级属性在所述同名信息实体中的权重;
-所述高级属性被其他信息实体引用的次数。
例如,若该评价信息包括该高级属性在同名信息实体中的权重,则在步骤S32中,信息实体识别设备1根据该权重获得该高级属性的相似距离,其中,高级属性的权重越高,则该高级属性的相似距离越大,反之,则越小。若该评价信息包括该被其他信息实体引用的次数,则在步骤S32中,信息实体识别设备1根据该引用次数获得该高级属性的相似距离,其中,高级属性被引用的次数越多,则该高级属性的相似距离越大,反之,则越小。本领域技术人员应能理解,上述各项评价信息不仅可以单独用于信息实体识别设备1对高级属性的相似距离进行获取,还可以将其中多项结合用于在步骤S32中,信息实体识别设备1对高级属性的相似距离进行获取。本领域技术人员还应能理解上述评价信息仅为举例,其他现有的或今后可能出现的评价信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,所述步骤S32还包括步骤S321(未示出)和步骤S322(未示出),其中,在步骤S321中,信息实体识别设备1对各所述同名信息实体中相同高级属性的属性值进行语义分析,以获得所述属性值之间的语义相似度;在步骤S322中,信息实体识别设备1根据所述语义相似度来确定与所述属性值相对应的高级属性的相似距离。具体地,步骤S321中,信息实体识别设备1根据其在步骤S31中提供的各同名信息实体的高级属性,对相同高级属性的属性值进行语义分析,以获得所述属性值之间的语义相似度,例如通过利用分词算法对属性值进行分词,并将分词后的属性值进行比较,获得该属性值之间的语义相似度;接着,在步骤S322中,信息实体识别设备1根据其在步骤S321中获取的该高级属性的属性值的语义相似度来确定与该属性值相对应的高级属性的相似距离,如属性值的语义相似度越低,则与该属性值对应的高级属性的相似距离就越大。在此,上述语义分析包括但不限于通过文本比较,机器学习及决策树分析等方法实现。例如,假设名称同为“星光大道”的信息实体E1和E2的高级属性包括“主持人”和“制作单位”,在E1中,“主持人”的属性值为“毕福剑”,“制作单位”的属性值为“中国中央电视台”,而在E2中,“主持人”的属性值为“陶晶莹”,“制作单位”的属性值为“台湾中视电视台”,在步骤S321中,信息实体识别设备1利用正向最大匹配分词算法对E1和E2中高级属性“主持人”的属性值分别进行分词,获得分词结果为“毕/福/剑”和“陶/晶/莹”,通过对两个分词结果进行文本比较确定它们之间没有相同的分词,据此,获得“主持人”属性值的语义相似度为0,然后,信息实体识别设备1利用相同的方法对高级属性“主持人”的属性值分别进行分词,获得分词结果为“中国/中央/电视台”和“台湾/中视/电视台”,通过对两个分词结果进行文本比较确定在3个分词中有1个分词“电视台”相等,据此,获得“制作单位”属性值的语义相似度为0.33;接着,在步骤S322中,信息实体识别设备1根据其在步骤S321中获取高级属性“主持人”和“制作单位”的属性值的语义相似度,按照属性值语义相似度越大,属性的相似距离越小的规则,确定高级属性的相似距离为:“主持人”>“制作单位”。在此,所述实施例中的分词算法包括但不限于正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等。本领域技术人员还应能理解上述获得语义相似度的方式仅为举例,其他现有的或今后可能出现的获得语义相似度的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。本领域技术人员还应能理解上述确定相似距离的方式仅为举例,其他现有的或今后可能出现的确定相似距离的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,所述基本区分信息和所述高级区分信息之一包括所述多个同名信息实体的至少一个属性,其中,所述基本区分信息和所述高级区分信息所包括的所述属性彼此不相同。具体地,在步骤S1中,信息实体识别设备1获取的基本区分信息中包括多个同名信息实体中共有的一个或多个属性,在步骤S3中,信息实体识别设备1获取的高级区分信息中包括该多个同名信息实体中共有的一个或多个属性,并且该基本区分信息和该高级区分信息所包括的属性彼此不相同。
在另一个优选实施例中(参照图2),该过程还包括步骤S5(未示出)和步骤S6(未示出),其中,在步骤S5中,信息实体识别设备1获取与用户通过用户设备提交的查询信息相对应的所述多个同名信息实体;在步骤S6中,信息实体识别设备1将识别后的所述多个同名信息实体提供给所述用户设备。以下参照图2对该另一个实施例进行详细描述,其中,在步骤S4中,信息实体识别设备1基于其在步骤S3中获取的多个同名信息实体的高级区分信息,识别具有不同该高级区分信息的该多个同名信息实体,其具体过程与前述参照图2所描述的实施例中信息实体识别设备1在步骤S4所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。
具体地,在步骤S5中,信息实体识别设备1获取与用户通过用户设备提交的查询信息相对应的所述多个同名信息实体。更具体地,在步骤S5中,信息实体识别设备1根据用户通过用户设备提交的查询信息,例如通过在信息实体数据库中进行匹配查询,以获取与该查询信息相对应的多个同名信息实体。在此,该用户设备可以是任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或声控设备进行人机交互的电子产品,包括但不限于计算机、智能手机、PDA、或IPTV等。例如,用户通过键盘在用户设备所显示的输入框内输入的查询信息为:“星光大道”,则该用户设备通过网络将该查询信息“星光大道”发送至信息实体识别设备1,由此使信息实体识别设备1获取该用户输入的查询信息,接着,在步骤S5中,信息实体识别设备1根据该查询信息在信息实体数据库中进行匹配查询,获得名称同为“星光大道”的多个信息实体。用户设备与信息实体识别设备1连接的网络包括但不限于:互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。在此,上述信息实体数据库用于存储已存在的所有信息实体,该信息实体数据库包括但不限于关系数据库,内存存储器,硬盘存储器等。本领域技术人员应能理解上述获取同名信息实体的方式仅为举例,其他现有的或今后可能出现的获取同名信息实体的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S6中,信息实体识别设备1将识别后的所述多个同名信息实体提供给所述用户设备。具体地,在步骤S6中,信息实体识别设备1根据其在步骤S4中提供的该识别后的多个同名信息实体,例如通过约定的通信协议,提供给用户设备,并在用户设备上基于基本区分信息和高级区分信息逐级展现该多个同名信息实体。例如,在步骤S6中,信息实体识别设备1将识别后的多个名称同为“星光大道”的信息实体通过诸如http、https等预先约定的通信协议提供给用户设备,并根据该同名信息实体的基本区分信息和高级区分信息逐级展现该多个同名信息实体在该用户设备的显示装置上。本领域技术人员应能理解上述提供同名信息实体的方式仅为举例,其他现有的或今后可能出现的提供同名信息实体的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,在步骤S6中,信息实体识别设备1根据用户相关信息,对识别后的所述多个同名信息实体进行排序,并将排序后的所述多个同名信息实体提供给所述用户设备。具体地,在步骤S6中,信息实体识别设备1根据用户相关信息,如用户的偏好设置,对其在步骤S4中提供的识别后的多个同名信息实体进行排序,然后将排序后的所述多个同名信息实体提供给所述用户设备。例如,假设信息实体为网络百科中的词条,每个词条都具有其所属的分类,用户的偏好设置为根据词条的分类级别对多个同名词条进行排序,在步骤S6中,信息实体识别设备1根据该用户偏好设置,对于识别后同名词条E1、E2和E3(E1的分类为一级分类“人物”,E2的分类为二级分类“艺术人物”,E3的分类为三级分类“歌手”)按照分类级别由低到高的顺序进行排序,获得排序结果:E3、E2、E1,并将该排序结果提供给用户设备。本领域技术人员应能理解上述提供同名信息实体的方式仅为举例,其他现有的或今后可能出现的提供同名信息实体的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
具体地,所述用户相关信息包括以下至少任一项:
-用户的偏好设置;
-用户的历史行为记录。
例如,若所述用户相关信息包括用户的偏好设置,在步骤S6中,信息实体识别设备1根据用户的偏好设置,对识别后的所述多个同名信息实体进行排序。在此,用户的偏好设置包括但不限于优先排列累计访问次数较高的信息实体,优先排列近期访问频次较高的信息实体等。若所述用户相关信息包括用户的历史行为记录,在步骤S6中,信息实体识别设备1根据用户的历史行为记录,例如通过对该历史行为记录进行统计分析,获得该用户在历史上累计搜索次数较多的信息实体,并赋予其高排列优先级,据此,对识别后的所述多个同名信息实体进行排序。例如,存在识别后的3个同名信息实体E1、E2、E3,在步骤S6中,信息实体识别设备1按照缺省的排序规则获得该同名信息实体的排序依次为E3、E2、E1,然后,信息实体识别设备1通过对该历史行为记录进行统计分析,获得该用户在历史上累计搜索次数最多的前100个信息实体的集合,并将信息实体E1、E2、E3在该集合中进行匹配查找,确定E2存在于该集合,并据此调整该同名信息实体的排列顺序为E2、E3、E1。信息实体识别设备1获取用户相关信息的方式包括但不限于:根据用户通过用户设备登录该识别设备的注册信息中获取,或根据在用户通过用户设备浏览网页期间由用户设备端或网络端所记录的或由用户设备的cookies信息中提取的用户历史行为信息中获取等等。本领域技术人员应能理解上述用户相关信息仅为举例,其他现有的或今后可能出现的用户相关信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (18)
1.一种由计算机实现的用于识别同名信息实体的方法,其中,该方法包括以下步骤:
a获取待识别多个同名信息实体的基本区分信息;
b根据所述基本区分信息,识别具有不同所述基本区分信息的同名信息实体;
c根据具有相同所述基本区分信息的同名信息实体,获取所述同名信息实体的高级区分信息;
d根据所述高级区分信息,识别具有不同所述高级区分信息的所述同名信息实体。
2.根据权利要求1所述的方法,其中,所述步骤c还包括:
c 1根据具有相同所述基本区分信息的所述同名信息实体,获取所述同名信息实体的高级属性;
c2根据所述高级属性,获取所述高级属性的相似距离;
c 3根据所述相似距离,获取所述同名信息实体的高级区分信息。
3.根据权利要求2所述的方法,其中,所述步骤c2还包括:
-根据所述高级属性的评价信息,获取所述高级属性的相似距离。
4.根据权利要求3所述的方法,其中,所述评价信息包括以下至少任一项:
-所述高级属性在所述同名信息实体中的权重;
-所述高级属性被其他信息实体引用的次数。
5.根据权利要求2所述的方法,其中,所述步骤c2还包括:
-对各所述同名信息实体中相同高级属性的属性值进行语义分析,以获得所述属性值之间的语义相似度;
-根据所述语义相似度来确定与所述属性值相对应的高级属性的相似距离。
6.根据权利要求1至5中任一项所述的方法,其中,所述基本区分信息和所述高级区分信息之一包括所述多个同名信息实体的至少一个属性,其中,所述基本区分信息和所述高级区分信息所包括的所述属性彼此不相同。
7.根据权利要求1至6中任一项所述的方法,其中,该方法还包括:
-获取与用户通过用户设备提交的查询信息相对应的所述多个同名信息实体;
其中,该方法还包括:
X将识别后的所述多个同名信息实体提供给所述用户设备。
8.根据权利要求7所述的方法,其中,所述步骤X还包括:
-根据用户相关信息,对识别后的所述多个同名信息实体进行排序,并将排序后的所述多个同名信息实体提供给所述用户设备。
9.根据权利要求8所述的方法,其中,所述用户相关信息包括以下至少任一项:
-用户的偏好设置;
-用户的历史行为记录。
10.一种用于识别同名信息实体的设备,其中,该设备包括:
基本区分获取装置,用于获取待识别多个同名信息实体的基本区分信息;
基本区分识别装置,用于根据所述基本区分信息,识别具有不同所述基本区分信息的同名信息实体;
高级区分获取装置,用于根据具有相同所述基本区分信息的同名信息实体,获取所述同名信息实体的高级区分信息;
高级区分识别装置,用于根据所述高级区分信息,识别具有不同所述高级区分信息的所述同名信息实体。
11.根据权利要求10所述的设备,其中,所述高级区分获取装置还包括:
高级属性获取单元,用于根据具有相同所述基本区分信息的所述同名信息实体,获取所述同名信息实体的高级属性;
相似距离获取单元,用于根据所述高级属性,获取所述高级属性的相似距离;
第一获取单元,用于根据所述相似距离,获取所述同名信息实体的高级区分信息。
12.根据权利要求11所述的设备,其中,所述相似距离获取单元还用于根据所述高级属性的评价信息,获取所述高级属性的相似距离。
13.根据权利要求12所述的设备,其中,所述评价信息包括以下至少任一项:
-所述高级属性在所述同名信息实体中的权重;
-所述高级属性被其他信息实体引用的次数。
14.根据权利要求11所述的设备,其中,所述相似距离获取单元还包括:
相似度获取单元,用于对各所述同名信息实体中相同高级属性的属性值进行语义分析,以获得所述属性值之间的语义相似度;
相似距离确定单元,用于根据所述语义相似度来确定与所述属性值相对应的高级属性的相似距离。
15.根据权利要求10至14中任一项所述的设备,其中,所述基本区分信息和所述高级区分信息之一包括所述多个同名信息实体的至少一个属性,其中,所述基本区分信息和所述高级区分信息所包括的所述属性彼此不相同。
16.根据权利要求10至15中任一项所述的设备,其中,该设备还包括:
查询装置,用于获取与用户通过用户设备提交的查询信息相对应的所述多个同名信息实体;
其中,该设备还包括:
提供装置,用于将识别后的所述多个同名信息实体提供给所述用户设备。
17.根据权利要求16所述的设备,其中,所述提供装置还用于根据用户相关信息,对识别后的所述多个同名信息实体进行排序,并将排序后的所述多个同名信息实体提供给所述用户设备。
18.根据权利要求17所述的设备,其中,所述用户相关信息包括以下至少任一项:
-用户的偏好设置;
-用户的历史行为记录。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110107228 CN102214209A (zh) | 2011-04-27 | 2011-04-27 | 一种用于识别同名信息实体的方法与设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110107228 CN102214209A (zh) | 2011-04-27 | 2011-04-27 | 一种用于识别同名信息实体的方法与设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102214209A true CN102214209A (zh) | 2011-10-12 |
Family
ID=44745517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110107228 Pending CN102214209A (zh) | 2011-04-27 | 2011-04-27 | 一种用于识别同名信息实体的方法与设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102214209A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104079326A (zh) * | 2013-03-25 | 2014-10-01 | 华为终端有限公司 | 一种设备识别方法及相关设备 |
CN105574111A (zh) * | 2015-12-10 | 2016-05-11 | 天津海量信息技术有限公司 | 基于企业属性库的企业实体认证方法 |
CN107908796A (zh) * | 2017-12-15 | 2018-04-13 | 广州市齐明软件科技有限公司 | 电子政务查重方法、装置以及计算机可读存储介质 |
CN110110046A (zh) * | 2019-04-30 | 2019-08-09 | 北京搜狗科技发展有限公司 | 同名实体推荐方法及装置 |
CN110326315A (zh) * | 2017-02-22 | 2019-10-11 | 瑞典爱立信有限公司 | 第一通信设备、网络设备、及其中用于识别提供语义表示的至少一个第二通信设备的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6647383B1 (en) * | 2000-09-01 | 2003-11-11 | Lucent Technologies Inc. | System and method for providing interactive dialogue and iterative search functions to find information |
CN101454750A (zh) * | 2006-03-31 | 2009-06-10 | 谷歌公司 | 命名实体的消歧 |
CN101739407A (zh) * | 2008-11-19 | 2010-06-16 | 日电(中国)有限公司 | 自动构建用于相关信息浏览的信息组织结构的方法和系统 |
CN101986293A (zh) * | 2010-09-03 | 2011-03-16 | 百度在线网络技术(北京)有限公司 | 用于在搜索界面中呈现搜索答案信息的方法及设备 |
-
2011
- 2011-04-27 CN CN 201110107228 patent/CN102214209A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6647383B1 (en) * | 2000-09-01 | 2003-11-11 | Lucent Technologies Inc. | System and method for providing interactive dialogue and iterative search functions to find information |
CN101454750A (zh) * | 2006-03-31 | 2009-06-10 | 谷歌公司 | 命名实体的消歧 |
CN101739407A (zh) * | 2008-11-19 | 2010-06-16 | 日电(中国)有限公司 | 自动构建用于相关信息浏览的信息组织结构的方法和系统 |
CN101986293A (zh) * | 2010-09-03 | 2011-03-16 | 百度在线网络技术(北京)有限公司 | 用于在搜索界面中呈现搜索答案信息的方法及设备 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104079326A (zh) * | 2013-03-25 | 2014-10-01 | 华为终端有限公司 | 一种设备识别方法及相关设备 |
WO2014154089A1 (zh) * | 2013-03-25 | 2014-10-02 | 华为终端有限公司 | 一种设备识别方法及相关设备 |
CN104079326B (zh) * | 2013-03-25 | 2017-08-04 | 华为终端有限公司 | 一种设备识别方法及相关设备 |
CN105574111A (zh) * | 2015-12-10 | 2016-05-11 | 天津海量信息技术有限公司 | 基于企业属性库的企业实体认证方法 |
CN110326315A (zh) * | 2017-02-22 | 2019-10-11 | 瑞典爱立信有限公司 | 第一通信设备、网络设备、及其中用于识别提供语义表示的至少一个第二通信设备的方法 |
CN110326315B (zh) * | 2017-02-22 | 2023-05-26 | 瑞典爱立信有限公司 | 第一通信设备、网络设备、及其中用于识别提供语义表示的至少一个第二通信设备的方法 |
CN107908796A (zh) * | 2017-12-15 | 2018-04-13 | 广州市齐明软件科技有限公司 | 电子政务查重方法、装置以及计算机可读存储介质 |
CN110110046A (zh) * | 2019-04-30 | 2019-08-09 | 北京搜狗科技发展有限公司 | 同名实体推荐方法及装置 |
CN110110046B (zh) * | 2019-04-30 | 2021-10-01 | 北京搜狗科技发展有限公司 | 同名实体推荐方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106156127B (zh) | 选择数据内容向终端推送的方法及装置 | |
CN103886017B (zh) | 一种用于在搜索结果中提供相关子链接的方法和装置 | |
CN101984420B (zh) | 一种基于拆词处理进行图片搜索的方法与设备 | |
CN103970850B (zh) | 网站信息推荐方法和系统 | |
CN102968465B (zh) | 网络信息服务平台及其基于该平台的搜索服务方法 | |
JP5859606B2 (ja) | オンライン商取引プラットフォームにおける広告ソースおよびキーワードセットの適合 | |
CN102375885A (zh) | 一种提供与查询序列相对应的搜索建议的方法与设备 | |
CN106250513A (zh) | 一种基于事件建模的事件个性化分类方法及系统 | |
CN101847161A (zh) | 搜索网页的方法和建立数据库的方法 | |
CN104636402A (zh) | 一种业务对象的分类、搜索、推送方法和系统 | |
CN102043833A (zh) | 一种基于查询词进行搜索的方法和搜索装置 | |
CN104679771A (zh) | 一种个性化数据搜索方法和装置 | |
CN105426528A (zh) | 一种商品数据的检索排序方法及系统 | |
CN105930469A (zh) | 基于Hadoop的个性化旅游推荐系统及方法 | |
CN102760144A (zh) | 信息搜索方法及系统 | |
CN102063453A (zh) | 一种用于基于用户的需求进行搜索的方法和设备 | |
CN105740380A (zh) | 数据融合方法及系统 | |
CN108021715B (zh) | 基于语义结构特征分析的异构标签融合系统 | |
CN102236710A (zh) | 一种用于在查询结果中展现新闻信息的方法与设备 | |
CN102163228A (zh) | 用于确定资源候选项的排序结果的方法、装置及设备 | |
CN104021125A (zh) | 一种搜索引擎排序的方法、系统以及一种搜索引擎 | |
CN103064852A (zh) | 网站统计信息处理方法及系统 | |
CN102214209A (zh) | 一种用于识别同名信息实体的方法与设备 | |
CN107180078A (zh) | 一种基于用户兴趣学习的垂直搜索方法 | |
Dias et al. | Automating the extraction of static content and dynamic behaviour from e-commerce websites |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20111012 |