一种确定对象的概念词的方法和装置
【技术领域】
本发明涉及计算机数据处理的技术领域,尤其涉及一种确定对象的概念词的方法和装置。
【背景技术】
随着互联网的发展,人们可以从互联网网页、企业网站、或者提供特定信息服务的数据库等外部数据源获取越来越多的原始数据信息,这些原始数据信息可以为人们提供大量所需要的内容。然而,由于通过外部数据源所获取的信息数量庞大、单位价值相对较低、几乎全是以原始语料文档的方式存在,因此如何处理这些原始数据信息以获得人们想要的内容,或者如何分析原始数据信息以提取与对象所属领域相关的概念词,是目前亟待解决的问题。其中概念词包括与对象的所属领域相关、且体现该对象特点的关键词或热点词。
现有的处理和分析原始数据信息的方式通常是依据从业或者分析人员的经验,将采集的原始数据信息通过人工的方式进行分析和判断以提取概念词。然而,这种人工的方式无法自动化发现概念词,使得概念词的挖掘准确性以及时效性受到很大的局限。
【发明内容】
本发明提供了一种确定对象的概念词的方法和装置,用以自动发现概念词,并提高概念词提取的准确性。
具体技术方案如下:
本发明提供了一种确定对象的概念词的方法,所述方法包括:
基于待分析对象的领域知识库,从所述待分析对象的原始语料文档中提取特征词,构成特征词集合;
对所述特征词集合中的各特征词进行n-gram处理,得到候选概念词集合,所述n取预设的一个或多个正整数;
基于构成候选概念词的各特征词之间的紧密度、各候选概念词在所述原始语料文档中的重要度、以及候选概念词与所述待分析对象之间的相似度,从所述候选概念词集合中确定所述待分析对象的概念词。
根据本发明一优选实施例,所述基于待分析对象的领域知识库,从所述待分析对象的原始语料文档中提取特征词包括:
从与对象相同或相关的领域获取待分析对象的原始语料文档;
对所述原始语料文档进行分词处理;
将分词处理结果与领域知识库进行匹配;
利用匹配得到的词语以及分词得到的词语构成特征词集合。
根据本发明一优选实施例,所述构成候选概念词的各特征词之间的紧密度通过以下方式确定:
确定候选概念词的各特征词对应的词向量;
确定各特征词对应的词向量之间的相似度;
通过所述词向量之间的相似度确定所述紧密度;
其中所述词向量是与领域知识库中所维护的对象属性相关的领域词汇。
根据本发明一优选实施例,所述各候选概念词在所述原始语料文档中的重要度通过以下一种或多种方式确定:
根据候选概念词在包含所述候选概念词的原始语料文档中出现的频率确定所述特征词的重要度;
根据全部原始语料文档数目相对于包含所述候选概念词的原始语料文档的数目确定所述候选概念词的重要度;
根据候选概念词在包含所述候选概念词的原始语料文档中出现的位置确定所述候选概念词的重要度;
根据候选概念词相对于候选概念词集合中其他概念词在所述原始语料文档中具有强调符号的比例确定所述候选概念词的重要度。
根据本发明一优选实施例,所述候选概念词与所述待分析对象之间的相似度通过以下一种或多种方式确定:
利用领域知识库确定候选概念词的各特征词中领域词汇的占比,根据所述领域词汇的占比确定所述相似度;
确定候选概念词的属性与对象属性之间的点互信息,利用所述点互信息确定所述相似度。
根据本发明一优选实施例,所述确定候选概念词的属性与对象属性之间的点互信息,利用所述点互信息确定所述相似度包括:
从包含候选概念词的原始语料文档中获取候选概念词的属性信息;
从领域知识库中获取对象的属性信息;
利用所述候选概念词的属性信息以及对象的属性信息之间的点互信息确定所述相似度;
其中所述属性信息包括地域、类型、或主题信息。
根据本发明一优选实施例,所述基于构成候选概念词的各特征词之间的紧密度、各候选概念词在所述原始语料文档中的重要度、以及候选概念词与所述待分析对象之间的相似度,从所述候选概念词集合中确定所述待分析对象的概念词包括:
基于所述构成候选概念词的各特征词之间的紧密度对候选概念词集合进行筛选;
从筛选后的候选概念词集合中,基于各候选概念词在所述原始语料文档中的重要度确定排在前m个的候选概念词;
基于所述排在前m个的候选概念词与所述待分析对象之间的相似度确定所述待分析对象的概念词;
其中,所述m为预设的正整数。
根据本发明一优选实施例,所述基于构成候选概念词的各特征词之间的紧密度、各候选概念词在所述原始语料文档中的重要度、以及候选概念词与所述待分析对象之间的相似度,从所述候选概念词集合中确定所述待分析对象的概念词包括:
利用概念词分类器对各候选概念词进行分类,得到各候选概念词是否为概念词的分类结果,所述概念词分类器是预先训练得到的;
其中依据所述构成候选概念词的各特征词之间的紧密度、各候选概念词在所述原始语料文档中的重要度、以及候选概念词与所述待分析对象之间的相似度作为分类特征,进行分类。
根据本发明一优选实施例,所述概念词分类器是预先利用已有的概念词作为训练样本,并将已有概念词在原始语料文档中的重要度、构成候选概念词各词语之间的紧密度以及候选概念词与其对应对象之间的相似度作为分类特征,训练得到的。
根据本发明一优选实施例,所述方法还包括:
将各对象分别作为待分析对象执行所述方法,在结果数据库中存储各对象对应的概念词,当获取到输入的对象时,查询所述结果数据库,确定并输出与所述输入的对象对应的概念词;或者,
获取输入的对象,将所述输入的对象作为待分析对象执行所述方法,输出所述输入的对象对应的概念词。
本发明还提供了一种确定对象的概念词的装置,所述装置包括:
提取单元,用于基于待分析对象的领域知识库,从所述待分析对象的原始语料文档中提取特征词,构成特征词集合;
处理单元,用于对所述特征词集合中的各特征词进行n-gram处理,得到候选概念词集合,所述n取预设的一个或多个正整数;
概念词确定单元,用于基于构成候选概念词的各特征词之间的紧密度、各候选概念词在所述原始语料文档中的重要度、以及候选概念词与所述待分析对象之间的相似度,从所述候选概念词集合中确定所述待分析对象的概念词。
根据本发明一优选实施例,所述提取单元具体执行如下操作:
从与对象相同或相关的领域获取待分析对象的原始语料文档;
对所述原始语料文档进行分词处理;
将分词处理结果与领域知识库进行匹配;
利用匹配得到的词语以及分词得到的词语构成特征词集合。
根据本发明一优选实施例,所述概念词确定单元包括紧密度确定单元,用于执行以下操作以确定构成候选概念词的各特征词之间的紧密度:
确定候选概念词的各特征词对应的词向量;
确定各特征词对应的词向量之间的相似度;
通过所述词向量之间的相似度确定所述紧密度;
其中所述词向量是与领域知识库中所维护的对象属性相关的领域词汇。
根据本发明一优选实施例,所述概念词确定单元包括重要度确定单元,用于执行以下一种或多种操作以确定各候选概念词在所述原始语料文档中的重要度:
根据候选概念词在包含所述候选概念词的原始语料文档中出现的频率确定所述特征词的重要度;
根据全部原始语料文档数目相对于包含所述候选概念词的原始语料文档的数目确定所述候选概念词的重要度;
根据候选概念词在包含所述候选概念词的原始语料文档中出现的位置确定所述候选概念词的重要度;
根据候选概念词相对于候选概念词集合中其他概念词在所述原始语料文档中具有强调符号的比例确定所述候选概念词的重要度。
根据本发明一优选实施例,所述概念词确定单元包括相似度确定单元,用于执行以下一种或多种操作以确定候选概念词与所述待分析对象之间的相似度:
利用领域知识库确定候选概念词的各特征词中领域词汇的占比,根据所述领域词汇的占比确定所述相似度;
确定候选概念词的属性与对象属性之间的点互信息,利用所述点互信息确定所述相似度。
根据本发明一优选实施例,所述相似度确定单元执行确定候选概念词的属性与对象属性之间的点互信息,利用所述点互信息确定所述相似度的操作包括:
从包含候选概念词的原始语料文档中获取候选概念词的属性信息;
从领域知识库中获取对象的属性信息;
利用所述候选概念词的属性信息以及对象的属性信息之间的点互信息确定所述相似度;
其中所述属性信息包括地域、类型、或主题信息。
根据本发明一优选实施例,所述概念词确定单元包括紧密度确定单元、重要度确定单元和相似度确定单元,
所述紧密度确定单元用于基于所述构成候选概念词的各特征词之间的紧密度对候选概念词集合进行筛选;
所述重要度确定单元用于从筛选后的候选概念词集合中,基于各候选概念词在所述原始语料文档中的重要度确定排在前m个的候选概念词;
所述相似度确定单元用于基于排在前m个的候选概念词与所述待分析对象之间的相似度确定所述待分析对象的概念词;
其中,所述m为预设的正整数。
根据本发明一优选实施例,所述概念词确定单元,用于利用概念词分类器对各候选概念词进行分类,得到各候选概念词是否为概念词的分类结果,所述概念词分类器是预先训练得到的;其中依据所述构成候选概念词的各特征词之间的紧密度、各候选概念词在所述原始语料文档中的重要度、以及候选概念词与所述待分析对象之间的相似度作为分类特征,进行分类。
根据本发明一优选实施例,所述概念词分类器是预先利用已有的概念词作为训练样本,并将已有概念词在原始语料文档中的重要度、构成候选概念词各词语之间的紧密度以及候选概念词与其对应对象之间的相似度作为分类特征,训练得到的。
根据本发明一优选实施例,所述装置还包括输入单元和输出单元;
所述装置将各对象分别作为待分析对象,执行确定对象的概念词的操作,由概念词确定单元将各对象对应的概念词存储在结果数据库中,当所述输入单元获取到输入的对象时,通过概念词确定单元查询所述结果数据库,确定与所述输入的对象对应的概念词,并由所述输出单元输出确定的概念词;或者,
由所述输入单元获取输入的对象,将所述输入的对象作为待分析对象执行确定对象的概念词的操作,并由所述输出单元输出所述输入的对象对应的概念词。
由以上技术方案可以看出,本发明基于构成候选概念词的各特征词之间的紧密度、各候选概念词在所述原始语料文档中的重要度、以及候选概念词与所述待分析对象之间的相似度,自动实现了从所述候选概念词集合中确定所述待分析对象的概念词,降低了人力成本,且提高了概念词提取的准确性。
【附图说明】
图1为本发明实施例一提供的一种确定对象的概念词的方法流程图;
图2为本发明实施例一提供的提取特征词的方法流程图;
图3为本发明实施例二提供的一种确定对象的概念词的装置结构示意图;
图4为使用本发明执行的结果展示图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明的基本思想是,由于与对象相关的新概念通常为由已有概念或已有普通名词组合得到的复合词语,因此为了方便人们认知新概念,本发明在确定对象的概念词时,可以将候选概念词视为由一个或多个特征词构成,确定构成候选概念词的各词语之间的紧密度、各候选概念词在原始语料文档中的重要度、以及候选概念词与所述待分析对象之间的相似度,综合考虑上述因素以确定该候选概念词是否是对象的新的热点概念词。
实施例一、
图1为本发明实施例一提供的一种确定对象的概念词的方法流程图,如图1所示,该方法的流程如下:
101、从与对象相同或相关的领域获取待分析对象的原始语料文档。
该步骤中,考虑到获得的对象相关概念词需要具有权威性,因此可以从权威的外部数据源,例如政府政策、官方媒体等各类新闻数据;政府网站(政策文件、会议报告、领导人讲话);官方媒体(新闻联播)中采集原始语料文档。
并且,由于本发明所确定的概念词与对象相关,因此考虑到要确定的概念词具有专业性,因此可能包含有概念词的文档应当具有与对象相同或相关专业的领域,因此可以从与对象相同或相关的领域获取待分析对象的原始语料文档。
对于相同或相关的专业领域,将股票作为对象为例,由于确定的概念词要与股票相关联,且股票领域通常涉及政经领域,考虑到与对象相关的概念词需要具有专业性,因此也可以从财经领域采集原始语料文档。
102、对所述原始语料文档进行分词处理,将分词处理结果与领域知识库进行匹配;利用匹配得到的词语以及分词得到的词语构成特征词集合。
图2示出了提取特征词的方法流程图,如图2所示,其可以具体细分为如下步骤:
1021、确定领域知识库中的领域词汇。
所述领域知识库维护了与对象属性和对象领域相关的领域词汇。
所述对象属性可以包括对象所处的位置、类型、或主题。
所述领域词汇可以包括与对象属性中的对象所处位置、对象类型、对象主题相关的位置名称、类型名称、主题名称,并且所述领域词汇还可以包括与对象领域相关的词汇以及已有的概念词。
仍将股票作为对象为例,则与股票的位置、类型、主题相关的领域词汇可以包括股票的地名、行业名称、业务/产品/服务名称,而与股票的财经领域相关的词汇可以包括财经术语。综上,领域数据库中维护的领域词汇可以包括:地名、行业名称、业务/产品/服务名称、财经术语、已有概念词等。
其中,股票的地名例如包括“广东”、“北京”或者各区县名称,其只要能代表股票的地域性的信息均可以记载在地名中;行业名称例如为“金融”、“通信设备”等词语;业务/产品/服务名称例如可以为“贷款”、“手机”、“余额宝”等;财经术语例如可以为“指数”、“CPI”、“上证指数”等,已有概念词可以包括银行等。
另外,领域知识库中还维护有缩写名词,所谓缩写名词就是对一些词汇的缩写,例如“棚改”就是对“棚户改造”的缩写,缩写名词还可以包括“一带一路”、“环保”、“十三五”等这些名词。该缩写名词可以通过简单处理语料得到。
简单处理语料的具体方式为:
获得对象的原始语料文档;
识别原始语料文档中的引号、书名号、粗体里的文字;
限定该引号、书名号、粗体里的文字中的最长词长;
将小于等于最长词长的文字识别为缩写名词;
将识别出的缩写名称维护于领域知识库中。
对于限定最长词长举个例子,假设原始语料文档中包括引号的内容为“海淀区的棚改进展顺利”,而限定的最长词长为2,则即使上述引号中可能出现有缩写名词,但由于整个引号中的内容所包括的词长大于最长词长,因此也不会对其进行识别。
确定领域知识库中的领域词汇的目的是为了帮助词典进行辅助分词。
1022、对原始语料文档进行分词处理。
该步骤中,分词词典是目前常用的具有关键词的词典。
在获得了原始语料文档后,可以利用分词词典对原始语料文档进行分词。
举个例子,如果获取了一个原始语料文档为“搜索引擎适合大数据搜索”,对于其中的“大数据”,则利用词典对其进行常用词分词可能得到“大”和“数据”作为分词结果。
1023、将分词处理结果与领域知识库进行匹配;利用匹配得到的词语以及分词得到的词语构成特征词集合。
当对原始语料文档进行分词并得到分词结果后,可以利用领域知识库中的领域词汇与分词结果进行匹配。例如,假设“大数据”属于领域知识库中保存的领域词汇,则基于词典中的词汇,结合了领域知识库的领域词汇后,则可以将“大”和“数据”合并为一个词,确定“大数据”是一个特征词。
当然,也可以依据其他规则从分词结果中提取特征词,只要该特征词能够作为形成概念词的原始语料,均可以被提取出来。
103、对特征词集合中的各特征词进行n-gram处理,得到候选概念词集合,所述n取预设的一个或多个正整数。
该步骤中,利用n-gram进行处理主要是将n个特征词作为一个短语,利用短语词频以及短语长度来对特征词集合进行预处理,以得到候选概念词集合。
其中短语词频是通过统计该短语在包含该短语的原始语料文档中的出现次数得到的。
短语长度是根据需要预先设定的。
具体地,n-gram是基于这样一种假设,即第n个词的出现只与前面n-1个词相关,而与其他任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计n个词同时出现的次数得到。
举个例子,以“互联网金融发展方向”这一原始语料文档为例,通过分词确定该原始语料文档的特征词集合包括“互联网”(由A表示)、“金融”(由B表示)、“发展”(由C表示)、以及“方向”(由D表示)这四个特征词,将n-gram中的n分别取1、2、3三个数,则基于n的数目,可以将上述四个特征词组成A、B、C、D、AB、BC、CD、ABC、BCD这些短语组合,通过这些短语组合可以先确定这些组合在原始语料文档中的出现次数,如果这其中某些组合在原始语料文档中的出现次数大于预设的词频,例如假设词频阈值为10,而“A”、“AB”、“ABC”的词频分别为20、12、10,其超过了词频阈值,则将“A”、“AB”、“ABC”作为候选概念词而构成候选概念词集合,因此最终构成候选概念词集合的候选概念词包括“互联网”、“互联网金融”、“互联网金融发展”。
优选地,还可以进一步设置短语的长度,假设短语词长需要在5个字以内,则根据词语阈值和最大短语词长的预处理后,由特征词集合中将筛选出符合条件的特征词为“互联网”(A)以及“互联网金融”(AB),将其作为候选概念词并得到候选概念词集合。
104、确定构成候选概念词的各特征词之间的紧密度。
在利用n-gram处理得到候选概念词集合后,还可以进一步确定构成候选概念词的各特征词之间的紧密度。
其中确定紧密度的目的主要是用于基于所述构成候选概念词的各词语之间的紧密度对候选概念词集合进行筛选。
如果候选概念词的各词语之间的紧密度越大,则认为该候选概念词越有可能为新的概念词。
由于相似的词语拥有相似的语境。换言之,特定的语境只有确定的语义才能够与之匹配。因此,在确定本实施例的各特征词之间的紧密度时,可以结合各特征词所拥有的语境来进行判断,如果各特征词拥有的语境相似,则能够表明各特征词之间具有较高的紧密度。
基于上述思想,该步骤确定紧密度就是通过确定候选概念词的各特征词对应的词向量;确定各特征词对应的词向量之间的相似度;通过所述词向量之间的相似度确定所述紧密度的方式来实现的。
具体地,可以获取包含特征词的原始语料文档,利用领域知识库中所维护的与对象属性相关的领域词汇(包括位置名称、类型名称、主题名称,并且所述领域词汇还可以包括与对象领域相关的词汇以及已有的概念词),从原始语料文档中确定出这些领域词汇。
将各特征词按照在其前后相邻w个词范围内出现的与对象属性相关的领域词汇将各特征词转换成词向量。
确定词向量之间的相似度。
当利用词向量确定了候选概念词中各特征词的相似度后,则可以依据该相似度确定词之间的紧密度。
进一步地,可以通过word2vec来计算上述特征词两两之间相似度,以及这些相似度的平均值/最大值/最小值。
105、确定各候选概念词在所述原始语料文档中的重要度。
当基于所述构成候选概念词的各词语之间的紧密度确定候选概念词集合后,可以从候选概念词集合中,基于各候选概念词在所述原始语料文档中的重要度确定排名靠前的候选概念词。具体地,其可以利用如下一个或多个方式确定候选概念词的重要度。
第一、基于字词的重要性可以随着它在一个文档中出现的次数成正比增加的理论,因此可以根据候选概念词在包含该候选概念词的原始语料文档中出现的频率确定所述特征词的重要度。
其可以用采用公式weight=freq/freq_len来确定重要度,其中freq代表该候选概念词在包含该候选概念词的原始语料文档中出现的次数,freq_len代表与该候选概念词具有相同词长的所有词语在包含该候选概念词的原始语料文档中出现的次数。这种词频的计算方式采用了一种归一化的处理方式,即将候选概念词的出现次数与与其具有相同长度的词语进行比较。
例如,假设将词长归一化为5,则以“互联网金融”作为候选概念词为例,将“互联网金融”在包含该“互联网金融”的原始语料文档中的出现次数与该原始语料文档中所有5个字的分词的出现次数进行比较以确定“互联网金融”的词频,从而确定“互联网金融”的重要程度。
第二、基于字词的重要性是随着包含该字词的文档越多则其重要性成反比下降的理论,因此可以根据全部原始语料文档数目相对于包含所述候选概念词的原始语料文档的数目确定所述候选概念词的重要度。
换句话说,该方式主要考虑的是,如果包含该候选概念词的文档的数目越高,则说明该候选概念词具有广泛性,相反的则降低了其自身的重要程度。因此可以考虑其逆文档频率,从而以相反的角度来确定概念词的自身重要度。
上述第一种和第二种方式可以采用TF-IDF的统计方法,来确定候选概念词的重要度。使用TF-IDF的方式确定重要度,可以过滤掉常见的词语,保留重要的词语。
第三、根据候选概念词在包含所述候选概念词的原始语料文档中出现的位置确定所述候选概念词的重要度。
该方式还考虑到了候选概念词在原始语料文档中的位置,通常情况下,位于文章不同位置处的关键词具有不同的权重,其位置与权重通常存在如下的关系:
位于段首的权重>位于段尾的权重>位于段中的权重
假设取段首、段尾、段中的权重分别为1、0.7、0.5,则可以根据候选概念词在一个文章段落中的位置而确定该词的权重,从而能够依据权重确定候选概念词的重要度
第四、根据候选概念词相对于候选概念词集合中其他概念词在所述原始语料文档中具有强调符号的比例确定所述候选概念词的重要度。
由于采用强调符号所示出的概念词通常具有较重要的地位,因此可以基于该概念词在原始语料文档中被用引号、书名号、加粗等方式所强调的情形相对于同一集合中其他概念词在原始语料文档中出现的比例而确定该概念词的重要度。
在确定了候选概念词的重要度后,可以对候选概念词依据重要度进行排序,从而可以从候选概念词集合中确定相对重要的候选概念词集合。
106、确定候选概念词与所述待分析对象之间的相似度。
确定相似度的目的是,基于排在前m个的候选概念词与待分析对象之间的相似度,可以确定待分析对象的概念词。其中,m为预设的正整数。
由于越重要的候选概念词越有可能成为待分析对象的概念词,因此当确定了候选概念词自身的重要度后,可以基于各候选概念词在所述原始语料文档中的重要度确定排名靠前的候选概念词,从而对更有可能成为概念词的候选概念词以进行进一步的处理。
具体地,可以通过以下一种或多种方式确定该相似度。
第一、利用领域知识库确定候选概念词的各特征词中领域词汇的占比,根据所述领域词汇的占比确定所述相似度。
具体地,由于领域知识库中所维护的领域词汇是按照对象的属性信息来维护的,因此当候选概念词中包含的领域知识库中的领域词汇越多的时候,则能够表明该候选概念词与对象属性越相关,因此可以通过对候选概念词的各特征词中属于领域词汇的比例的判断,来确定候选概念词与所述待分析对象之间的相似度。
举个例子,假设候选概念词集合中包括A、AB、ABC这三个候选概念词,其中A、B、C为三个特征词,如果“A”和“C”均属于领域词汇,则候选概念词A、AB、ABC中领域词汇的占比分别为100%、50%和66%,通过该例子可以看出,候选概念词A与对象的相似度大于候选概念词ABC,候选概念词ABC与对象的相似度大于候选概念词AB。
第二、确定候选概念词的属性与对象属性之间的点互信息,利用所述点互信息确定所述相似度。
具体地,利用所述点互信息确定所述相似度可以包括:
从包含候选概念词的原始语料文档中获取候选概念词的属性信息;
该属性信息包括地域、类型、或主题信息等。如果以股票为对象为例,则获取的候选概念词的属性信息包括地域/行业/业务/产品/服务词等。
由于领域知识库中维护的领域词汇与对象属性信息相关,因此还可以从领域知识库所维护的信息中获取对象的属性信息。
利用所述候选概念词的属性信息以及对象的属性信息之间的点互信息确定所述相似度。
其中点互信息作为相似度的衡量标准,实际上是考虑到了候选概念词和对象的所有可能的属性之间的相似度,通过利用候选概念词和对象的属性来确定相似度。本实施例中的点互信息(PMI,PointwiseMutualInformation),其是作为衡量候选概念词与对象之间相关性的指标。其原理可以通过公式表示:
PMI(x;y)=logp(x,y)p(x)p(y)=logp(x|y)p(x)=logp(y|x)p(y)
其中x和y分别代表候选概念词和对象,当x和y不相关,则p(x,y)=p(x)p(y)。二者相关性越大,则p(x,y)就相比于p(x)p(y)越大。
这里的log来自于信息论的理论,可以简单理解为,当对p(x)取log之后就将一个概率转换为了信息量(要再乘以-1将其变为正数),以2为底时可以简单理解为用多少个字节可以表示这个变量。
在本实施例中,可以依据先确定紧密度,再确定重要度,再确定相似度的顺序来确定待分析对象的概念词。然而,上述执行顺序仅是以举例的方式说明,实际上,本发明中确定待分析对象的概念词的方式并不需要按照上述顺序进行,一切能够利用紧密度,重要度,以及相似度来确定概念词的方式,均在本发明的保护范围内。
一种对于上述按顺序确定紧密度、重要度以及相似度的可替换的方式,是利用概念词分类器来确定概念词,即将紧密度,重要度,以及相似度这些因素同时进行处理以确定概念词的方式。
具体地,可以利用预先训练得到的概念词分类器对各候选概念词进行分类,得到各候选概念词是否为概念词的分类结果;其中所述概念词分类器依据所述构成候选概念词的各词语之间的紧密度、各候选概念词在所述原始语料文档中的重要度、以及候选概念词与所述待分析对象之间的相似度作为分类特征,进行分类。
其中该概念词分类器是预先利用已有的概念词作为训练样本,并将已有概念词在原始语料文档中的重要度、构成候选概念词各词语之间的紧密度以及候选概念词与其对应对象之间的相似度作为分类特征,训练得到的。
通过概念词分类器,可以基于紧密度,重要度,以及相似度对候选概念词进行0-1分类,去掉非概念。
进一步地,可以根据相关领域的概念词所对应的对象数量是否超出阈值,将在阈值范围内的对象所对应的概念词作为对象相关概念词。
该概念词分类器可以使用随机森林、SVM等分类算法,基于对已有概念词语料的标注,依据特征权重进行0-1分类,判断是否为概念。
以股票作为对象为例,概念词分类器可以依据确定出的相似度,例如根据领域知识库确定股票的属性信息,包括地名、行业名称、业务/产品/服务名称等,然后依据股票属性与概念词属性信息之间的点互信息,确定候选概念词与股票之间的相似度,同时去掉紧密度和重要度较低的候选概念词,从而确定对象的概念词。
利用概念词分类器进行概念词的确定,并不受紧密度、重要度以及相似度确定顺序的限制。
优选地,还可以根据相关领域的概念词所对应的对象数量是否超出阈值,将在阈值范围内的对象所对应的概念词作为对象相关概念词。换句话说,对一个候选概念词所聚合的对象数量是否超出阈值进行判断,如果超出阈值,则不将该候选概念词作为概念词,否则,则进入下一个概念词的判断。
对候选概念词所聚合的对象数量进行限制,是基于一个候选概念词可能为相应领域的常用词,因此其能够对应于相应领域的所有对象,因此该候选概念词不应作为对单独一个对象的新概念的考虑而作出的。
举个例子,如果候选概念词“数据挖掘”所聚合的股票数量超过了30个,即“数据挖掘”不能作为新概念而代表一定数量的股票,因此不将该候选概念词作为相应对象的概念词。
107、在确定待分析对象的概念词后,还对所述待分析对象的概念词进行过滤。
其中,可以依据过滤词表,从所述待分析对象的概念词中去除包含在过滤词表中的词;或者,
基于搜索日志,查询所述待分析对象的概念词的搜索量,去除搜索量低于预设值的概念词
具体地,
(1)通过过滤词表,去除政府部门、专家学者等人物、组织机构名称。
(2)基于搜索日志,查询该词的搜索量,输出搜索量明显高于前几日平均值的词。
108、将各对象分别作为待分析对象,或者将用户输入的对象作为待分析对象,执行该方法。
该步骤中,可以将各对象分别作为待分析对象,或者将输入的对象作为待分析对象从而执行确定对象的概念词的方法。
当将各对象分别作为待分析对象时,可以将原始语料文档中涉及的每个对象分别作为待分析对象,以确定每个对象的概念词。
并且,在将各对象分别作为待分析对象的情况下,可以周期性地或者受事件触发时执行该方法,并将确定的各对象对应的概念词存储在结果数据库中。当用户输入一特定对象以查询该特定对象的相关对象时,可以获取用户输入的对象并且查询该结果数据库,以便确定并输出所述输入的对象对应的概念词。
另外,也可以将输入的对象作为待分析对象,当接收到用户输入时则执行该方法,从而实时输出待分析对象的相关对象。
其中输入的对象可以包括:用户输入的对象;或者,网页主题词。
实施例二、
图3为本发明实施例二提供的一种确定对象的概念词的装置结构示意图,如图3所示,该装置包括提取单元201、处理单元202、概念词确定单元203、输入单元204以及输出单元205。其中概念词确定单元203进一步包括紧密度确定单元2031、重要度确定单元2032、相似度确定单元2033、以及过滤单元2034,对该装置的各单元详细介绍如下:
提取单元201,用于基于待分析对象的领域知识库和词典,从所述待分析对象的原始语料文档中提取特征词,构成特征词集合。
该提取单元201可以先从与对象相同或相关的领域获取待分析对象的原始语料文档。
具体地,提取单元201可以从权威的外部数据源,例如政府政策、官方媒体等各类新闻数据;政府网站(政策文件、会议报告、领导人讲话);官方媒体(新闻联播)中采集原始语料文档。
并且,可以从与对象相同或相关专业的领域获取待分析对象的原始语料文档。
提取单元201在获取原始语料文档后,可以对所述原始语料文档进行分词处理,将分词处理结果与领域知识库进行匹配;利用匹配得到的词语以及分词得到的词语构成特征词集合。
在词典词汇中加入领域知识库中的领域词汇,需要先确定领域知识库中的领域词汇。
所述领域知识库维护了与对象属性和对象领域相关的领域词汇。
所述对象属性可以包括对象所处的位置、类型、或主题。
所述领域词汇可以包括与对象属性中的对象所处位置、对象类型、对象主题相关的位置名称、类型名称、主题名称,并且所述领域词汇还可以包括与对象领域相关的词汇以及已有的概念词。
将股票作为对象为例,领域数据库中维护的领域词汇可以包括:地名、行业名称、业务/产品/服务名称、财经术语、已有概念词等。
另外,领域知识库中还维护有缩写名词,所谓缩写名词就是对一些词汇的缩写。该缩写名词可以通过简单处理语料得到。
简单处理语料的具体方式为:
获得对象的原始语料文档;
识别原始语料文档中的引号、书名号、粗体里的文字;
限定该引号、书名号、粗体里的文字中的最长词长;
将小于等于最长词长的文字识别为缩写名词;
将识别出的缩写名称维护于领域知识库中。
确定领域知识库中的领域词汇的目的是为了帮助词典进行辅助分词。
在确定了领域知识库中的领域词汇后,则提取单元201可以对原始语料文档进行分词处理。
具体地,分词词典是目前常用的具有关键词的词典。
在获得了原始语料文档后,可以利用分词词典对原始语料文档进行分词。
提取单元201在得到分词结果后,可以将分词处理结果与领域知识库进行匹配;利用匹配得到的词语以及分词得到的词语构成特征词集合。
当然,也可以依据其他规则从分词结果中提取特征词,只要该特征词能够作为形成概念词的原始语料,均可以被提取出来。
处理单元202,用于对特征词集合中的各特征词进行n-gram处理,得到候选概念词集合,其中n取预设的一个或多个正整数。
具体地,利用n-gram进行处理主要是将n个特征词作为一个短语,利用短语词频以及短语长度来对特征词集合进行预处理,以得到候选概念词集合。
其中短语词频是通过统计该短语在包含该短语的原始语料文档中的出现次数得到的。
短语长度是根据需要预先设定的。
其中,n-gram是基于这样一种假设,即第n个词的出现只与前面n-1个词相关,而与其他任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计n个词同时出现的次数得到。
概念词确定单元203,用于基于构成候选概念词的各特征词之间的紧密度、各候选概念词在所述原始语料文档中的重要度、以及候选概念词与所述待分析对象之间的相似度,从所述候选概念词集合中确定所述待分析对象的概念词。
其中,概念词确定单元203进一步包括紧密度确定单元2031、重要度确定单元2032、以及相似度确定单元2033,用于对构成候选概念词的各特征词之间的紧密度、各候选概念词在所述原始语料文档中的重要度、以及候选概念词与所述待分析对象之间的相似度进行确定。
紧密度确定单元2031,用于确定构成候选概念词的各特征词之间的紧密度。
在利用n-gram处理得到候选概念词集合后,还可以通过紧密度确定单元2031确定构成候选概念词的各词语之间的紧密度。
其中确定紧密度的目的主要是用于基于所述构成候选概念词的各特征词之间的紧密度对候选概念词集合进行筛选。
如果候选概念词的各特征词之间的紧密度越大,则认为该候选概念词越有可能为新的概念词。
由于相似的词语拥有相似的语境。换言之,特定的语境只有确定的语义才能够与之匹配。因此,在确定本实施例的各特征词之间的紧密度时,可以结合各特征词所拥有的语境来进行判断,如果各特征词拥有的语境相似,则能够表明各特征词之间具有较高的紧密度。
基于上述思想,紧密度确定单元2031就是通过确定候选概念词的各特征词对应的词向量;确定各特征词对应的词向量之间的相似度;通过所述词向量之间的相似度确定所述紧密度的方式来确定紧密度的。
具体地,可以获取包含特征词的原始语料文档,利用领域知识库中所维护的与对象属性相关的领域词汇(包括位置名称、类型名称、主题名称,并且所述领域词汇还可以包括与对象领域相关的词汇以及已有的概念词),从原始语料文档中确定出这些领域词汇。
将各特征词按照在其前后相邻w个词范围内出现的与对象属性相关的领域词汇将各特征词转换成词向量。
确定词向量之间的相似度。
当利用词向量确定了候选概念词中各特征词的相似度后,则可以依据该相似度确定词之间的紧密度。
进一步地,可以通过word2vec来计算上述特征词两两之间相似度,以及这些相似度的平均值/最大值/最小值。
重要度确定单元2032,用于确定各候选概念词在所述原始语料文档中的重要度。
该重要度确定单元2032确定重要度的目的,主要是从筛选后的候选概念词集合中,基于各候选概念词在所述原始语料文档中的重要度确定排名靠前的候选概念词。
具体地,其可以通过执行如下一种或多种方式确定候选概念词的重要度。
第一、基于字词的重要性可以随着它在一个文档中出现的次数成正比增加的理论,因此可以根据候选概念词在包含该候选概念词的原始语料文档中出现的频率确定所述特征词的重要度。
其可以用采用公式weight=freq/freq_len来确定重要度,其中freq代表该候选概念词在包含该候选概念词的原始语料文档中出现的次数,freq_len代表与该候选概念词具有相同词长的所有词语在包含该候选概念词的原始语料文档中出现的次数。这种词频的计算方式采用了一种归一化的处理方式,即将候选概念词的出现次数与与其具有相同长度的词语进行比较。
第二、基于字词的重要性是随着包含该字词的文档越多则其重要性成反比下降的理论,因此可以根据全部原始语料文档数目相对于包含所述候选概念词的原始语料文档的数目确定所述候选概念词的重要度。
上述第一种和第二种方式可以采用TF-IDF的统计方法,来确定候选概念词的重要度。使用TF-IDF的方式确定重要度,可以过滤掉常见的词语,保留重要的词语。
第三、根据候选概念词在包含所述候选概念词的原始语料文档中出现的位置确定所述候选概念词的重要度。
该方式还考虑到了候选概念词在原始语料文档中的位置,通常情况下,位于文章不同位置处的关键词具有不同的权重,其位置与权重通常存在如下的关系:
位于段首的权重>位于段尾的权重>位于段中的权重
第四、根据候选概念词相对于候选概念词集合中其他概念词在所述原始语料文档中具有强调符号的比例确定所述候选概念词的重要度。
由于采用强调符号所示出的概念词通常具有较重要的地位,因此可以基于该概念词在原始语料文档中被用引号、书名号、加粗等方式所强调的情形相对于同一集合中其他概念词在原始语料文档中出现的比例而确定该概念词的重要度。
在确定了候选概念词的重要度后,可以对候选概念词依据重要度进行排序,从而可以从候选概念词集合中确定相对重要的候选概念词集合。
相似度确定单元2033,用于确定候选概念词与所述待分析对象之间的相似度。
所述相似度确定单元用于基于排在前m个的候选概念词与待分析对象之间的相似度来确定待分析对象的概念词。其中,m为预设的正整数。
由于越重要的候选概念词越有可能成为待分析对象的概念词,因此当确定了候选概念词自身的重要度后,可以基于各候选概念词在所述原始语料文档中的重要度确定排名靠前的候选概念词,从而对更有可能成为概念词的候选概念词以进行进一步的处理。
具体地,可以通过以下一种或多种方式确定该相似度。
第一、利用领域知识库确定候选概念词的各特征词中领域词汇的占比,根据所述领域词汇的占比确定所述相似度。
具体地,由于领域知识库中所维护的领域词汇是按照对象的属性信息来维护的,因此当候选概念词中包含的领域知识库中的领域词汇越多的时候,则能够表明该候选概念词与对象属性越相关,因此可以通过对候选概念词的各特征词中属于领域词汇的比例的判断,来确定候选概念词与所述待分析对象之间的相似度。
第二、确定候选概念词的属性与对象属性之间的点互信息,利用所述点互信息确定所述相似度。
具体地,利用所述点互信息确定所述相似度可以包括:
从包含候选概念词的原始语料文档中获取候选概念词的属性信息;
该属性信息包括地域、类型、或主题信息等。如果以股票为对象为例,则获取的候选概念词的属性信息包括地域/行业/业务/产品/服务词等。
由于领域知识库中维护的领域词汇与对象属性信息相关,因此还可以从领域知识库所维护的信息中获取对象的属性信息。
利用所述候选概念词的属性信息以及对象的属性信息之间的点互信息确定所述相似度。
其中点互信息作为相似度的衡量标准,实际上是考虑到了候选概念词和对象的所有可能的属性之间的相似度,通过利用候选概念词和对象的属性来确定相似度。
在本实施例中,可以依据先确定紧密度,再确定重要度,再确定相似度的顺序来确定待分析对象的概念词。然而,上述执行顺序仅是以举例的方式说明,实际上,本发明中确定待分析对象的概念词的方式并不需要按照上述顺序进行,一切能够利用紧密度,重要度,以及相似度来确定概念词的方式,均在本发明的保护范围内。
一种对于上述按顺序确定紧密度、重要度以及相似度的可替换的方式,是利用概念词分类器来确定概念词,即将紧密度,重要度,以及相似度这些因素同时进行处理以确定概念词的方式。
概念词分类器是预先训练得到的,用于对各候选概念词进行分类,得到各候选概念词是否为概念词的分类结果。
具体地,可以利用预先训练得到的概念词分类器对各候选概念词进行分类,得到各候选概念词是否为概念词的分类结果;其中所述概念词分类器依据所述构成候选概念词的各词语之间的紧密度、各候选概念词在所述原始语料文档中的重要度、以及候选概念词与所述待分析对象之间的相似度作为分类特征,进行分类。
其中该概念词分类器是预先利用已有的概念词作为训练样本,并将已有概念词在原始语料文档中的重要度、构成候选概念词各词语之间的紧密度以及候选概念词与其对应对象之间的相似度作为分类特征,训练得到的。
通过概念词分类器,可以基于紧密度,重要度,以及相似度对候选概念词进行0-1分类,去掉非概念。
进一步地,可以根据相关领域的概念词所对应的对象数量是否超出阈值,将在阈值范围内的对象所对应的概念词作为对象相关概念词。
该概念词分类器可以使用随机森林、SVM等分类算法,基于对已有概念词语料的标注,依据特征权重进行0-1分类,判断是否为概念。
概念词分类器可以依据相似度确定单元2033所确定出的相似度,同时利用紧密度确定单元2031进而重要度确定单元2032去掉紧密度和重要度较低的候选概念词,从而确定对象的概念词。
利用概念词分类器进行概念词的确定,并不受紧密度确定单元2031、重要度确定单元2032以及相似度确定单元2033执行顺序的限制。
优选地,还可以根据相关领域的概念词所对应的对象数量是否超出阈值,将在阈值范围内的对象所对应的概念词作为对象相关概念词。
概念词确定单元203还包括过滤单元2034,用于在确定待分析对象的概念词后,对所述待分析对象的概念词进行过滤。
该过滤单元2034可以通过执行以下一种或多种操作以对所述待分析对象的概念词进行过滤:
依据过滤词表,从所述待分析对象的概念词中去除包含在过滤词表中的词;
基于搜索日志,查询所述待分析对象的概念词的搜索量,去除搜索量低于预设值的概念词。
具体地,
(1)通过过滤词表,去除政府部门、专家学者等人物、组织机构名称。
(2)基于搜索日志,查询该词的搜索量,输出搜索量明显高于前几日平均值的词。
输入单元204,用于获取输入的对象;输出单元205,用于输出与所述输入的对象对应的概念词。
其中可以将各对象分别作为待分析对象,或者将输入的对象作为待分析对象,执行确定对象的概念词的操作。
具体地,当将各对象分别作为待分析对象时,可以将原始语料文档中涉及的每个对象分别作为待分析对象,以确定每个对象的概念词。
并且,在将各对象分别作为待分析对象的情况下,可以周期性地或者受事件触发时执行确定对象的概念词的操作,并将确定的各对象对应的概念词存储在结果数据库中。当用户输入一特定对象以查询该特定对象的相关对象时,可以获取用户输入的对象并且通过概念词确定单元203查询该结果数据库,以便确定并由输出单元205输出输入的对象对应的概念词。
当将输入的对象作为待分析对象时,则接收到输入时可以执行确定对象的概念词的操作,从而实时输出待分析对象的相关对象。
其中输入的对象可以包括:用户输入的对象;或者,网页主题词。
本发明的一个典型应用场景可以为:
当用户打开股票类应用的界面时,假设网页主题词为“平安银行”,将平安银行股票作为对象,股票所涉及的概念作为待分析对象的概念词,则当用户选择平安银行股票作为概念的待分析对象时,则利用本发明的方法和装置可以得到涉及平安银行的概念,使用本发明执行的结果可以如图4所示,平安银行概念所包含的概念词可以在界面上进行显示,在本发明实施例中对显示方式并不加以限制,在图4中以悬浮窗口的形式显示。
在本发明所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。