一种确定相关对象的方法和装置
【技术领域】
本发明涉及计算机数据处理的技术领域,尤其涉及一种确定相关对象的方法和装置。
【背景技术】
随着互联网的发展,人们可以从互联网网页、企业网站、或者提供特定信息服务的数据库等外部数据源获取越来越多的原始数据信息,这些原始数据信息可以为人们提供大量所需要的内容。然而,由于通过外部数据源所获取的信息数量庞大、单位价值相对较低、几乎全是以原始语料文档的方式存在,因此如何处理这些原始数据信息以获得人们想要的内容,或者如何分析原始数据信息中这些内容之间的关系以便为人们提供服务,是目前亟待解决的问题。
现有的处理和分析原始数据信息的方式通常是依据从业或者分析人员的经验,将采集的原始数据信息通过人工的方式进行分析和判断以提取出有用的内容。
但是通过经验分析法进行数据分析,人力成本过高,并且分析结果受限于分析人员的经验和市场活动范围。
【发明内容】
本发明提供了一种确定相关对象的方法和装置,用以降低人力成本,提高准确性。
具体技术方案如下:
本发明提供了一种确定相关对象的方法,所述方法包括:
依据对象的原始语料文档确定对象的对象类型和对象主题;
按照对象类型聚合对象,得到一个以上的对象簇;
依据同一对象簇中对象之间的主题相似度,获得待分析对象的相关对象。
根据本发明一优选实施例,所述依据对象的原始语料文档确定对象的对象类型和对象主题具体包括:
从外部数据源获取对象的原始语料文档;
从所述对象的原始语料文档中提取类型关键词集合和主题关键词集合;
将类型关键词集合所匹配到的标准对象类型作为对象类型,以及主题关键词集合所匹配到的标准对象主题作为对象主题。
根据本发明一优选实施例,所述将类型关键词集合所匹配到的标准对象类型作为对象类型,以及主题关键词集合所匹配到的标准对象主题作为对象主题具体包括:
将所述类型关键词集合和主题关键词集合分别与预先建立的标准类型分类知识库和标准主题分类知识库进行匹配;
确定所述标准类型分类知识库中与类型关键词集合相匹配的标准对象类型分类,以及所述标准主题分类知识库中与主题关键词集合相匹配的标准对象主题分类;
依据匹配的标准对象类型分类和标准对象主题分类确定对象类型和对象主题。
根据本发明一优选实施例,按照对象类型聚合对象,得到一个以上的对象簇包括:
查找标准对象类型树形结构,确定各对象类型在所述标准对象类型树形结构的位置;
若各对象的对象类型之间具有相同的上级节点,且对象类型之间的层级差符合预设的要求,则确定该各对象属于同一对象簇。
根据本发明一优选实施例,采用如下方式确定对象之间的主题相似度:
分别确定各对象的主题向量,所述主题向量由对象的每个对象主题构成;
确定各对象的主题向量的余弦相似度作为对象之间的主题相似度。
根据本发明一优选实施例,周期性地或者受事件触发时,执行所述方法。
根据本发明一优选实施例,所述方法还包括:
将各对象分别作为待分析对象,执行所述方法;
在结果数据库中存储各对象对应的相关对象。
根据本发明一优选实施例,所述方法还包括:
将用户输入的对象作为待分析对象,执行所述方法,并输出待分析对象的相关对象。
根据本发明一优选实施例,所述方法还包括:
获取用户输入的对象;
查询所述结果数据库,确定并输出与所述输入的对象对应的相关对象。
根据本发明一优选实施例,所述对象的原始语料文档包括公司的新闻语料、行业描述、产品服务描述及关系;
所述对象类型包括公司行业;
所述对象主题包括公司提供的产品服务;
所述相关对象包括存在竞争关系的公司。
本发明还提供了一种确定相关对象的装置,所述装置包括:
确定单元,用于依据对象的原始语料文档确定对象的对象类型和对象主题;
聚合单元,用于按照对象类型聚合对象,得到一个以上的对象簇;
相关对象获得单元,用于依据同一对象簇中对象之间的主题相似度,获得待分析对象的相关对象。
根据本发明一优选实施例,所述确定单元具体包括:
原始语料文档获取单元,用于从外部数据源获取对象的原始语料文档;
关键词集合提取单元,用于从所述对象的原始语料文档中提取类型关键词集合和主题关键词集合;
匹配单元,用于将类型关键词集合所匹配到的标准对象类型作为对象类型,以及主题关键词集合所匹配到的标准对象主题作为对象主题。
根据本发明一优选实施例,所述匹配单元具体执行以下操作:
将所述类型关键词集合和主题关键词集合分别与预先建立的标准类型分类知识库和标准主题分类知识库进行匹配;
确定所述标准类型分类知识库中与类型关键词集合相匹配的标准对象类型分类,以及所述标准主题分类知识库中与主题关键词集合相匹配的标准对象主题分类;
依据匹配的标准对象类型分类和标准对象主题分类确定对象类型和对象主题。
根据本发明一优选实施例,所述聚合单元具体执行以下操作:
查找标准对象类型树形结构,确定各对象类型在所述标准对象类型树形结构的位置;
若各对象的对象类型之间具有相同的上级节点,且对象类型之间的层级差符合预设的要求,则确定该各对象属于同一对象簇。
根据本发明一优选实施例,所述相关对象获得单元执行如下操作以确定对象之间的主题相似度:
分别确定各对象的主题向量,所述主题向量由对象的每个对象主题构成;
确定各对象的主题向量的余弦相似度作为对象之间的主题相似度。
根据本发明一优选实施例,周期性地或者受事件触发时,使所述装置执行确定相关对象的操作。
根据本发明一优选实施例,所述装置将各对象分别作为待分析对象,执行确定相关对象的操作;并且由所述相关对象获得单元将各对象对应的相关对象存储在结果数据库中。
根据本发明一优选实施例,所述装置将用户输入的对象作为待分析对象,执行确定相关对象的操作,并输出待分析对象的相关对象。
根据本发明一优选实施例,所述装置还包括输入单元和输出单元:所述输入单元用于获取用户输入的对象;所述输出单元用于将由所述相关对象获得单元通过查询所述结果数据库确定的与所述输入的对象对应的相关对象输出。
根据本发明一优选实施例,所述对象的原始语料文档包括公司的新闻语料、行业描述、产品服务描述及关系;
所述对象类型包括公司行业;
所述对象主题包括公司提供的产品服务;
所述相关对象包括存在竞争关系的公司。
由以上技术方案可以看出,本发明通过对象类型之间的相通性以及对象主题之间的相似性,自动实现了待分析对象的相关对象确定,降低了人力成本,且提高了分析准确性。
【附图说明】
图1为本发明实施例一提供的一种确定相关对象的方法的流程图;
图2为本发明实施例一提供的一种以树形结构来维护的标准行业类型分类示意图;
图3为本发明实施例二提供的一种确定相关对象的装置的结构示意图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明的基本思想是依据对象的原始语料文档确定对象的对象类型和对象主题;按照对象类型聚合对象,得到一个以上的对象簇;依据同一对象簇中对象之间的主题相似度,确定待分析对象的相关对象。通过上述方式,可以对涉及对象的原始语料文档进行分析,基于对象类型之间的共通性以及对象主题之间的相似性来确定对象之间的相关程度,从而深入全面的确定对象之间的关系。
实施例一、
图1为本发明实施例一提供的一种确定相关对象的方法的流程图,如图1所示,该方法的流程如下:
101、从外部数据源获取对象的原始语料文档。
在该步骤中,可以从提供特定信息的互联网网页、企业网站、或者专用数据库等外部数据源中获取与想要确定相互关系的对象相关的原始语料文档。其中所提供的特定信息可以包括对确定对象的类型和主题有帮助的信息。
该原始语料文档可以通过从互联网抓取网页的方式,或者通过企业或特定数据库直接提供等方式来获得。
并且,所获取的原始语料文档可以包括公司新闻语料、行业描述、产品服务描述及产品服务之间的关系等。
102、从对象原始语料文档中提取类型关键词集合和主题关键词集合。
当从外部数据源获得了大量的原始语料文档后,可以对该原始语料文档进行预处理,以从对象原始语料文档中提取对象的类型关键词集合和主题关键词集合,其中提取出来的类型关键词集合和主题关键词集合可以代表用自然语言描述的对象类型和对象主题。
并且,可以将相应的类型关键词集合和主题关键词集合以对象管理列表的形式保存在对象管理数据库中,以便为对象信息的处理提供原始语料的依据。
具体地,可以将原始语料文档进行分词,利用语义相似度的判断方式将分词得到的关键词分成多个语义相似的关键词集合。
在得到关键词集合后,可以按照关键词词义大致确定出其是类型关键词还是主题关键词。并且,由于主题关键词有时也能辅助的反映出关键词的类型,因此在确定类型关键词集合时,还可以将能够帮助确定关键词类型的辅助信息,包括与类型关键词相邻的主题关键词作为辅助信息而附加到类型关键词集合的相应类型关键词的后面。
在从原始语料文档中提取出针对一个对象的类型关键词集合、主题关键词集合后,可以将上述关键词集合保存在对象管理数据库中,并且,从大量原始语料文档中筛选出包含以上类型关键词集合、主题关键词集合的原始语料文档,将上述筛选出的原始语料文档也与关键词集合相对应地保存在对象管理数据库中,以便为随后的数据处理和分析提供原始语料的依据。
例如在原始语料文档中提取出以公司实体A-D表示的四个对象,针对这四个对象及其类型关键词集合、主题关键词集合所保存的对象管理列表可以参见表1,其中括号中为辅助关键词。
表1
表1中对象名称以公司实体的名称表示,对象类型以公司行业表示,对象主题以产品服务表示,原始语料文档具体为新闻语料文档。
上表中,可以对新闻语料“公司A所制造的键盘同时具备鼠标功能”进行分词处理,得到公司名称为“公司A”,行业是涉及“制造”的行业,涉及的产品服务可能包括“键盘”和“鼠标”,并且可以将所制造的“键盘”、“鼠标”作为行业的辅助信息,以通过该行业的辅助信息帮助确定该行业的进一步分类。
并且,在按照语义得到关键词集合后,可以确定各个关键词集合的权重,将权重靠前的关键词集合进行处理以确定类型关键词集合和主题关键词集合并进行维护。
103、将类型关键词集合所匹配到的标准对象类型作为对象类型,以及将主题关键词集合所匹配到的标准对象主题作为对象主题。
由于从原始语料文档提取出来的类型关键词集合和主题关键词集合代表的是用自然语言描述的对象类型和对象主题,而在用自然语言描述类型和主题时,由于自然语言的表述形式多种多样,因此有可能不能反映对象的真实类型和主题,或者表述的不够准确或规范,在这种情况下利用对象类型和主题来分析对象之间的关系就有可能不够准确,也可能漏掉一些重要的信息而导致不能全方面的获得分析结果。因此为了使自然语言描述的对象类型和对象主题能够用于大规模的数据分析,需要将自然语言描述的对象信息转换成标准化的对象信息。该步骤的主要目的就是将由自然语言描述的类型关键词集合和主题关键词集合进行标准化,即以国家、行业标准等标准的方式来表示对象类型和对象主题。
将类型关键词集合所匹配到的标准对象类型作为对象类型,以及将主题关键词集合所匹配到的标准对象主题作为对象主题可以具体包括:将所述类型关键词集合和主题关键词集合分别与预先建立的标准类型分类知识库和标准主题分类知识库进行匹配;确定所述标准类型分类知识库中与类型关键词集合相匹配的标准对象类型分类,以及所述标准主题分类知识库中与主题关键词集合相匹配的标准对象主题分类;依据匹配的标准对象类型分类和标准对象主题分类确定对象类型和对象主题。
具体地,该标准类型分类知识库和标准主题分类知识库各自维护有标准的类型分类和标准的主题分类。
以公司行业作为类型,以公司产品服务作为主题为例,现有的标准的行业分类可以包括国家行业分类标准、全球行业分类标准、新工业行业分类标准、以及电子信息产业行业标准等多种标准的行业分类,该建立的标准类型分类知识库就是将上述多种标准的行业分类进行聚合和统一形成的。
如图2所示,图2示出了在标准类型分类知识库中一种以树形结构来维护的标准行业类型分类。
从该树形结构中可以看出,如果将制造业201作为一级分类的话,则在该一级分类下还可以包括二、三、四级等分类,其中图2所示的第四级分类属于分类的最小单元。
优选地,每个分类中可以包含对于具体类型分类的辅助说明、关键词扩展、关键词的别名等信息,以帮助将关键词集合与类型分类中的具体类型进行匹配。
当然,还可以对四级分类进行进一步细分以得到第五、第六级分类等,其分类的目的就是将当前的对象信息中以自然语言描述的对象类型能够以标准的方式来表示。
举个例子,可以将表1里所初步提取的行业类型,包括公司A的制造(键盘、鼠标),公司B的开发(手机、耳机),公司C的开发(铁路售票、程序),公司D的生产(手机、半导体电路)这些关键词集合通过语义检索、关键词扩展等方式与标准知识库中的行业分类进行匹配,并结合行业分类所记录的辅助信息,得到标准化的对象类型信息,例如:将公司A的行业匹配到第四级的电子计算机外部设备制造204中,可以将公司行业的初始描述以标准化的方式来表示。利用表1的类型关键词集合与标准对象类型进行匹配,可以得到如表2的对应关系:
表2
另外,上述标准化的匹配过程虽然是在建立对象管理数据库以后进行的,但是也可以在建立对象管理数据库的同时,或者提取到关键词集合时直接执行。
上述是对对象类型进行的标准化处理,而对于对象主题的标准化处理,可以采用与对象类型标准化相同的方式。即通过建立标准主题分类知识库,利用标准主题分类知识库中的主题分类标准将主题关键词集合以标准化的方式进行表述,由于将主题关键词集合所匹配到的标准对象主题作为对象主题的各个步骤与将类型关键词集合所匹配到的标准对象类型作为对象类型的步骤相同,因此不再赘述。
主题分类知识库中的主题分类不仅可以采用与类型分类知识库中相同的树形结构来表示。而且,主题分类知识库中的主题分类也可以不以树形结构表示,而是通过将对象主题以及对象主题别名分为一组的方式将标准主题分成多个组。
以公司的产品服务作为对象主题为例,所维护的标准主题分类知识库中的具有相同含义的一组产品服务可以包括:移动通信终端,及可能构成该移动通信终端别名的手机、无线电话、移动电话、掌上电话、大哥大等。这些构成的标准主题组也是基于国家标准主题分类、行业标准主题分类等而确定的,更具体地,对于产品服务来说,可以将上述多种标准的产品分类进行聚合和统一,以建立起标准主题分类知识库。
另外,以上所举的一组相同含义的产品服务仅代表了一种可能的形式,其他任何按照分类标准对标准主题进行分组的方式均在本发明保护的范围内。
在将标准主题分成多个组后,则一个对象的主题关键词集合就可能对应到一组标准主题;由于一组标准主题中可以包括一个或多个标准主题,因此一个对象能够根据标准主题分类知识库扩展出多个标准的对象主题。
进一步地,在将主题关键词集合匹配到标准对象主题以得到一个或多个对象主题后,可以对对象的一个或多个主题进行分析和筛选,以准确确定对象的对象主题,从而能够帮助准确识别对象之间主题的相关性。
而对对象的一个或多个主题进行分析和筛选可以利用文档主题生成模型来实现。
具体地,可以利用文档主题生成模型对对象管理数据库中保存的包含主题关键词集合的原始语料文档进行主题提取,以从原始语料文档中获得同一对象的主要的对象主题。
该文档主题生成模型可以采用三层贝叶斯概率模型(LDA)、概率潜在语义分析(PLSA)等来实现。
举个例子,表1的公司D的原始语料文档中包含内容“公司D所生产的半导体电路已在智能手机中得到了广泛的应用……。公司D主要生产智能手机,但也逐渐涉及半导体电路领域的半导体电路制造”,从该原始语料文档中提取出了对象主题关键词“手机、半导体电路”,并且根据“手机”、“半导体电路”这些对象主题关键词分别匹配到了标准主题分类中的“移动通信终端、手机、无线电话、移动电话、掌上电话、大哥大”这一组主题以及“半导体电路、电路、电路板”这一组主题。至此,确定公司D能够提供的产品服务包括两组主题,但得出这样的结论并不一定是准确的。因为从包含该主题关键词的原始语料文档的内容中可以获知,“公司D主要生产智能手机,但也逐渐涉及半导体电路领域的半导体电路制造”,即该公司D实际上所提供的产品服务主要以“手机”为主,而“半导体电路”为辅。
为了明确公司的主题,以便更精确的确定对象主题,因此在将主题关键词集合匹配到标准对象主题以得到一个或多个对象主题后,可以利用文档主题生成模型对对象管理数据库中保存的包含关键词“手机”、“半导体电路”的原始语料文档“公司D所生产的半导体电路已在智能手机中得到了广泛的应用……。公司D主要生产智能手机,但也逐渐涉及半导体电路领域的半导体电路制造”进行主题提取,通过原始语料文档中关键词的出现概率等规则确定文档中的主要主题,例如假设“手机”的出现概率远远大于“半导体电路”的出现概率,从而仅将“手机”作为该公司的产品服务,即对象主题,因此纠正了初始对主题关键词进行提取可能带来的提取不准确的结果。
当然,该文档主题生成模型也可以在进行主题关键词集合提取的时候就使用,但是考虑到原始的语料文档数量巨大,利用文档主题生成模型对每个原始语料文档进行主题提取会影响处理速度。因此,优选地是在将主题关键词集合所匹配到的标准对象主题作为对象主题之后执行该步骤,从而只对包含可能的对象主题的关键词集合所在的原始语料文档进行主题判断,从而减小了数据处理量,增加了处理速度。
104、按照对象类型聚合对象,得到一个以上的对象簇。
当对对象类型和对象主题进行标准化后,可以按照对象的类型之间的共通性来聚合对象,所谓共通性就是对象类型之间的相关程度。
按照对象类型聚合对象,得到一个以上的对象簇包括:
查找标准对象类型树形结构,确定各对象类型在所述标准对象类型树形结构的位置;若各对象的对象类型之间具有相同的上级节点,且对象类型之间的层级差符合预设的要求,则确定该各对象属于同一对象簇。
举个例子,公司A的行业类型是电子计算机外部设备制造204,公司B的行业类型是移动通信及终端设备制造203,他们在图2中属于相同的上级节点通信设备、计算机及其他电子设备制造业202,即他们有可能属于同一个对象簇。并且假设认为层级差小于1的两对象类型才能够聚成一簇,则由于公司A和公司B的行业类型的层级均为四级,其层级差为0,两对象之间的层级差也符合预设的要求,因此认为公司A和B属于同一对象簇,该对象簇的类型可以是通信设备、计算机及其他电子设备制造业202。
当然,这仅是举了一个聚合对象簇的最简单的聚合标准,还可以根据两对象分别与相同的上级节点之间的层级差来确定两个对象是否能聚合到一个对象簇。例如规定两对象各自与相同的上级节点的层级差不能大于2或者其他情况,以约束聚合为一个对象簇的两个对象之间的类型关系。
优选地,也可以根据一个对象簇中对象簇的数量来调整所聚合的对象簇。其中,如果一个对象簇中对象的数量小于一个预设的值,极限情况下,例如一个对象簇中只有两个对象,则对这两个对象进行相关性判断意义不大,因此可以将该对象簇中的两个对象移入两对象所具有的相同上级节点的对象类型中,即基于该相同上级节点为基础来聚合对象,以此增加一个对象簇中对象的数目。另外,如果一个对象簇中对象的数量大于一个预设的值,则可以考虑将对象向其下一级对象类型进行聚合,以使对象减少到合适的数量。
例如,一个类型是电子计算机外部设备制造204的对象簇,其仅包含公司W和公司Q两个对象,由于该类型的对象过少,则可以将公司W和公司Q移动到该类型节点的上一层节点,即电子计算机制造207的节点中,使这两个对象参与到电子计算机制造207的其他对象的类型聚合。
105、依据同一对象簇中对象之间的主题相似度,确定待分析对象的相关对象。
当确定了对象类型以及对象主题,并对对象类型进行聚合而找到一类对象后,则可以对该一类对象中的对象主题进行分析,以确定在该一类对象中是否包含相同或相似主题的对象,其就是对对象主题相似度的判断。
该步骤可以先获取同一对象簇中的待分析对象的每个对象主题和另一对象的每个对象主题;然后确定由对象的每个对象主题构成的主题向量。
具体地,由于在确定对象的对象主题时发现,一个对象可以包括多个对象主题,而每个主题在一个对象中的词频是不一样的,因此可以从词频入手,确定一个对象的多个对象主题的出现概率。
当确定对象的每个对象主题的词频后,则可以依据由待分析对象的每个对象主题构成的主题向量与由另一对象的每个对象主题构成的主题向量之间的余弦相似度,得到两两对象的对象主题之间的相似度。
例如,假设待分析对象的产品服务包括手机、互联网电视盒、计算机等,可以从每一个产品的词频入手确定词频向量,例如上述每一个产品的词频分别为a、b、c,则可以根据上述词频确定待分析对象的词频向量为(a,b,c),词频向量即为待分析对象的主题向量。类似地,也可以确定出另一对象的主题向量。
在确定了各个对象的主题向量后,可以通过计算主题向量的向量余弦值来确定两个对象主题的相似程度。
然后,可以根据得到的相似度,确定两个对象之间是否相似。
其中通常认为余弦值越大则越相似,因此可以设置一个相似度的预设值,当余弦值超过预设值时,则认为两个对象是相关对象。
以公司A和公司B为例,如果确定这两个公司的相似度超过预设的值,则认为公司A和公司B属于同一行业下的公司,并且能够提供相似的产品服务,因此公司A和公司B存在竞争关系。
106、将各对象分别作为待分析对象,或者将用户输入的对象作为待分析对象,执行所述方法。
该步骤中,可以将各对象分别作为待分析对象,或者将用户输入的对象作为待分析对象,从而在执行完步骤101至105之后,可以确定出待分析对象的相关对象。
当将各对象分别作为待分析对象时,可以对所有的原始语料文档进行处理以获得涉及每个对象的关键词集合,也就是说将原始语料文档中涉及的每个对象分别作为待分析对象,以确定每个对象之间是否存在相应关系。
并且,在将各对象分别作为待分析对象的情况下,可以周期性地或者受事件触发时执行步骤101至105,将各对象对应的相关对象存储在结果数据库中。当用户输入一特定对象以查询该特定对象的相关对象时,可以获取用户输入的对象并且查询该结果数据库,以便确定并输出所述输入的对象对应的相关对象。
另外,也可以将用户输入的对象作为待分析对象,当接收到用户输入时则执行步骤101至105,从而实时输出待分析对象的相关对象。进一步地,可以先确定该待分析对象的对象类型及该待分析对象包含的所有对象主题。当对原始语料文档进行分词处理得到各对象的关键词集合后,可以利用待分析对象的对象类型或对象主题的语义来匹配各对象的关键词集合,以使用待分析对象的类型或主题帮助从各对象的关键词集合中提取到各对象的对象类型集合或对象主题集合。因此对于将用户输入的对象作为待分析对象来说,可以增加利用待分析对象的类型或主题来帮助提取其他各对象的对象类型集合或对象主题集合的步骤,除此之外,其他步骤均与将各对象分别作为待分析对象类似。
以对象类型为公司行业、对象主题为公司提供的产品服务、相关对象为存在竞争关系的公司为例,则经过上述一系列步骤可以确定,和待分析公司A具有竞争关系的公司是公司D,两个公司属于在同一对象簇中具有相同或相似主题的对象。
实施例二、
图3为本发明实施例二提供的一种确定相关对象的装置的结构示意图,如图3所示,该装置可以包括:确定单元300、聚合单元304、相关对象获得单元305、输入单元306和输出单元307。
其中,确定单元300还可以进一步划分为原始语料文档获取单元301、关键词集合提取单元302以及匹配单元303。
具体地:
原始语料文档获取单元301,用于从外部数据源获取对象的原始语料文档。
原始语料文档获取单元301可以从提供特定信息的互联网网页、企业网站、或者专用数据库等外部数据源中获取与想要确定相互关系的对象相关的原始语料文档。其中所提供的特定信息可以包括对确定对象的类型和主题有帮助的信息。
该原始语料文档可以通过从互联网抓取网页的方式,或者通过企业或特定数据库直接提供等方式来获得。
并且,所获取的原始语料文档可以包括公司新闻语料、行业描述、产品服务描述及产品服务之间的关系等。
关键词集合提取单元302,用于从对象原始语料文档中提取类型关键词集合和主题关键词集合。
当从外部数据源获得了大量的原始语料文档后,可以通过关键词集合提取单元302对该原始语料文档进行预处理,以从对象原始语料文档中提取对象的类型关键词集合和主题关键词集合,其中提取出来的类型关键词集合和主题关键词集合可以代表用自然语言描述的对象类型和对象主题。
并且,关键词集合提取单元302在提取出关键词集合后,可以将相应的类型关键词集合和主题关键词集合以对象管理列表的形式保存在对象管理数据库中,以便为对象信息的处理提供原始语料的依据。
具体地,可以通过关键词集合提取单元302将原始语料文档进行分词,利用语义相似度的判断方式将分词得到的关键词分成多个语义相似的关键词集合。
在得到关键词集合后,可以按照关键词词义大致确定出其是类型关键词还是主题关键词。并且,由于主题关键词有时也能辅助的反映出关键词的类型,因此在确定类型关键词集合时,还可以将能够帮助确定关键词类型的辅助信息,包括与类型关键词相邻的主题关键词作为辅助信息而附加到类型关键词集合的相应类型关键词的后面。
在从原始语料文档中提取出针对一个对象的类型关键词集合、主题关键词集合后,可以将上述关键词集合保存在对象管理数据库中,并且,从大量原始语料文档中筛选出包含以上类型关键词集合、主题关键词集合的原始语料文档,将上述筛选出的原始语料文档也与关键词集合相对应地保存在对象管理数据库中,以便为随后的数据处理和分析提供原始语料的依据。
其中,可以对所有的原始语料文档进行处理以获得涉及每个对象的关键词集合,也就是说将原始语料文档中涉及的每个对象分别作为待分析对象,以确定每个对象之间是否存在相应关系。
当然,还可以采用其他方式从原始语料文档中提取关键词集合,例如将用户输入的对象作为待分析对象,确定该待分析对象的对象类型及该对象包含的所有对象主题。当对原始语料文档进行分词处理得到关键词集合后,利用待分析对象的对象类型或对象主题的语义来匹配该关键词集合,以使用待分析对象的类型或主题帮助从关键词集合中提取到其他对象的对象类型集合或对象主题集合。
并且,在按照语义得到关键词集合后,可以确定各个关键词集合的权重,将权重靠前的关键词集合进行处理以确定类型关键词集合和主题关键词集合并进行维护。
匹配单元303,用于将类型关键词集合所匹配到的标准对象类型作为对象类型,以及将主题关键词集合所匹配到的标准对象主题作为对象主题。
由于从原始语料文档提取出来的类型关键词集合和主题关键词集合代表的是用自然语言描述的对象类型和对象主题,而在用自然语言描述类型和主题时,由于自然语言的表述形式多种多样,因此有可能不能反映对象的真实类型和主题,或者表述的不够准确或规范,在这种情况下利用对象类型和主题来分析对象之间的关系就有可能不够准确,也可能漏掉一些重要的信息而导致不能全方面的获得分析结果。因此为了使自然语言描述的对象类型和对象主题能够用于大规模的数据分析,需要将自然语言描述的对象信息转换成标准化的对象信息。匹配单元303就是用于将由自然语言描述的类型关键词集合和主题关键词集合进行标准化,即以国家、行业标准等标准的方式来表示对象类型和对象主题。
匹配单元303可以执行如下具体操作:将所述类型关键词集合和主题关键词集合分别与预先建立的标准类型分类知识库和标准主题分类知识库进行匹配;确定所述标准类型分类知识库中与类型关键词集合相匹配的标准对象类型分类,以及所述标准主题分类知识库中与主题关键词集合相匹配的标准对象主题分类;依据匹配的标准对象类型分类和标准对象主题分类确定对象类型和对象主题。
具体地,该标准类型分类知识库和标准主题分类知识库各自维护有标准的类型分类和标准的主题分类。
以公司行业作为类型,以公司产品服务作为主题为例,现有的标准的行业分类可以包括国家行业分类标准、全球行业分类标准、新工业行业分类标准、以及电子信息产业行业标准等多种标准的行业分类,该建立的标准类型分类知识库就是将上述多种标准的行业分类进行聚合和统一形成的。
本实施例使用了与实施例一相同的标准行业类型分类方式,也同样适用于图2示出的在标准类型分类知识库中一种以树形结构来维护的标准行业类型分类,对于图2的具体描述参见实施例一。
其中,标准化的匹配过程可以在建立对象管理数据库以后执行,也可以在建立对象管理数据库的同时,或者提取到关键词集合时直接执行。
上述是对对象类型进行的标准化处理,而对于对象主题的标准化处理,可以采用与对象类型标准化相同的方式,即通过建立标准主题分类知识库,利用标准主题分类知识库中的主题分类标准将主题关键词集合以标准化的方式进行表述,由于将主题关键词集合所匹配到的标准对象主题作为对象主题的各个步骤与将类型关键词集合所匹配到的标准对象类型作为对象类型的步骤相同,因此不再赘述。
主题分类知识库中的主题分类不仅可以采用与类型分类知识库中相同的树形结构来表示。而且,主题分类知识库中的主题分类也可以不以树形结构表示,而是通过将对象主题以及对象主题别名分为一组的方式将标准主题分成多个组。
另外,以上所举的一组相同含义的产品服务仅代表了一种可能的形式,其他任何按照分类标准对标准主题进行分组的方式均在本发明保护的范围内。
在将标准主题分成多个组后,则一个对象的主题关键词集合就可能对应到一组标准主题;由于一组标准主题中可以包括一个或多个标准主题,因此一个对象能够根据标准主题分类知识库扩展出多个标准的对象主题。
进一步地,在将主题关键词集合匹配到标准对象主题以得到一个或多个对象主题后,可以对对象的一个或多个主题进行分析和筛选,以准确确定对象的对象主题,从而能够帮助准确识别对象之间主题的相关性。
而对对象的一个或多个主题进行分析和筛选可以利用文档主题生成模型来实现。
具体地,可以利用文档主题生成模型对对象管理数据库中保存的包含主题关键词集合的原始语料文档进行主题提取,以从原始语料文档中获得同一对象的主要的对象主题。
该文档主题生成模型可以采用三层贝叶斯概率模型(LDA)、概率潜在语义分析(PLSA)等来实现。
通过原始语料文档中关键词的出现概率等形式确定文档中的主要主题,可以纠正初始对主题关键词进行提取可能带来的提取不准确的结果。
当然,该文档主题生成模型也可以在进行主题关键词集合提取的时候就使用,但是考虑到原始的语料文档数量巨大,利用文档主题生成模型对每个原始语料文档进行主题提取会影响处理速度。因此,优选地是在将主题关键词集合所匹配到的标准对象主题作为对象主题之后执行该操作,从而只对包含可能的对象主题的关键词集合所在的原始语料文档进行主题判断,从而减小了数据处理量,增加了处理速度。
聚合单元304,用于按照对象类型聚合对象,得到一个以上的对象簇。
当对对象类型和对象主题进行标准化后,可以利用聚合单元304按照对象的类型之间的共通性来聚合对象,所谓共通性就是对象类型之间的相关程度。
按照对象类型聚合对象,得到一个以上的对象簇包括:查找标准对象类型树形结构,确定各对象类型在所述标准对象类型树形结构的位置;若各对象的对象类型之间具有相同的上级节点,且对象类型之间的层级差符合预设的要求,则确定该各对象属于同一对象簇。
当然,还可以根据两对象分别与相同的上级节点之间的层级差来确定两个对象是否能聚合到一个对象簇。例如规定两对象各自与相同的上级节点的层级差不能大于2或者其他情况,以约束聚合为一个对象簇的两个对象之间的类型关系。
优选地,也可以根据一个对象簇中对象簇的数量来调整所聚合的对象簇。其中,如果一个对象簇中对象的数量小于一个预设的值,极限情况下,例如一个对象簇中只有两个对象,则对这两个对象进行相关性判断意义不大,因此可以将该对象簇中的两个对象移入两对象所具有的相同上级节点的对象类型中,即基于该相同上级节点为基础来聚合对象,以此增加一个对象簇中对象的数目。另外,如果一个对象簇中对象的数量大于一个预设的值,则可以考虑将对象向其下一级对象类型进行聚合,以使对象减少到合适的数量。
相关对象获得单元305,用于依据同一对象簇中对象之间的主题相似度,确定待分析对象的相关对象。
当确定了对象类型以及对象主题,并对对象类型进行聚合而找到一类对象后,则可以通过相关对象获得单元305对该一类对象中的对象主题进行分析,以确定在该一类对象中是否包含相同或相似主题的对象,其就是对对象主题相似度的判断。
相关对象获得单元305可以先获取同一对象簇中的待分析对象的每个对象主题和另一对象的每个对象主题;然后确定由对象的每个对象主题构成的主题向量。
具体地,由于在确定对象的对象主题时发现,一个对象可以包括多个对象主题,而每个主题在一个对象中的词频是不一样的,因此可以从词频入手,确定一个对象的多个对象主题的出现概率。
当确定对象的每个对象主题的词频后,则可以依据由待分析对象的每个对象主题构成的主题向量与由另一对象的每个对象主题构成的主题向量之间的余弦相似度,得到两两对象的对象主题之间的相似度。
例如,假设待分析对象的产品服务包括手机、互联网电视盒、计算机等,可以从每一个产品的词频入手确定词频向量,例如上述每一个产品的词频分别为a、b、c,则可以根据上述词频确定待分析对象的词频向量为(a,b,c),词频向量即为待分析对象的主题向量。类似地,也可以确定出另一对象的主题向量。
在确定了各个对象的主题向量后,可以通过计算主题向量的向量余弦值来确定两个对象主题的相似程度。
然后,可以根据得到的相似度,确定两个对象之间是否相似。
其中通常认为余弦值越大则越相似,因此可以设置一个相似度的预设值,当余弦值超过预设值时,则认为两个对象是相关对象。
输入单元306,用于获取用户输入的对象;以及输出单元307,用于输出所述输入的对象对应的相关对象。
以对象类型为公司行业、对象主题为公司提供的产品服务、相关对象为存在竞争关系的公司为例,则经过上述一系列处理可以确定,和待分析公司A具有竞争关系的公司是公司D,两个公司属于在同一对象簇中具有相同或相似主题的对象。
其中,可以将各对象分别作为待分析对象,或者将用户输入的对象作为待分析对象。
当将各对象分别作为待分析对象时,可以对所有的原始语料文档进行处理以获得涉及每个对象的关键词集合,也就是说将原始语料文档中涉及的每个对象分别作为待分析对象,以确定每个对象之间是否存在相应关系。
并且,在将各对象分别作为待分析对象的情况下,可以周期性地或者受事件触发时执行确定待分析对象的操作,将各对象对应的相关对象存储在结果数据库中。当用户通过输入单元306输入一特定对象以使相关对象获得单元305查询结果数据库时,可以通过查询数据库确定与输入的对象对应的相关对象,并由输出单元307输出该相关对象。
另外,也可以将用户输入的对象作为待分析对象,当接收到用户通过输入单元306输入的待分析对象时执行确定待分析对象的操作,从而实时输出待分析对象的相关对象。进一步地,可以先确定该待分析对象的对象类型及该待分析对象包含的所有对象主题。当对原始语料文档进行分词处理得到各对象的关键词集合后,可以利用待分析对象的对象类型或对象主题的语义来匹配各对象的关键词集合,以使用待分析对象的类型或主题帮助从各对象的关键词集合中提取到各对象的对象类型集合或对象主题集合。因此对于将用户输入的对象作为待分析对象来说,可以在确定单元300中增加利用待分析对象的类型或主题来帮助提取其他各对象的对象类型集合或对象主题集合的操作,除此之外,其他操作均与将各对象分别作为待分析对象类似。
本发明提供的各实施例,可以通过知识库对原始语料文档中的对象类型和对象主题进行解释,然后应用对象类型之间的相通性,以及对象主题之间的相似性,从而确定出待分析对象的相关对象。通过上述实施例,可以有效、全面、即时的识别相关对象,为深入的监测与分析相关对象提供建议。
在本发明所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。