一种信息热点挖掘方法及装置
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种信息热点挖掘方法及装置。
背景技术
热点挖掘是自然语言处理技术的一个重要应用领域,通过热点挖掘能够从大量信息中获取有价值的热点信息,为企业制定产品计划、营销策略和确定服务重心等提供参考依据。例如,企业及时收集客户反馈的各种问题,并挖掘用户重点关注的问题,从而优化公司产品或服务。但是,随着企业业务规模的不断发展,客户数量会逐渐增多,客户反馈的问题数量也会大量的增加,处理起来耗时费力,从而导致热点挖掘变得困难。
另外,企业通常通过客服系统接收用户反馈的问题,因此,信息采集的过程通常发生在客服与用户的对话中,而对话文本通常为短语料文本,并且具有以下特点:
1、高纬性。对话文本的数量巨大,并且通常会涉及到许多话题,难以进行聚焦。
2、稀疏性。对话文本的长度通常较短,对话内容中包含的信息量远小于新闻、博客等其他语料文本,语料特征稀疏,因此难以发现不同语料特征之间的关联,处理起来更加困难。
3、不规范性。与采集自新闻、博客等其他来源的语料相比,对话文本中会更频繁地出现用词不规范和语法错误的情况,例如大量的聊天表情、网络用语和缩略语等,从而导致这类文本处理起来更加困难。
由此可见,如何从大量的短语料信息(例如:客服对话文本)中挖掘出有价值的热点信息,成为本领域技术人员亟待解决的技术问题。
发明内容
本申请实施例提供了一种信息热点挖掘方法及装置,以解决现有技术中无法从大量的短语料信息中挖掘出有价值的热点信息的问题。
第一方面,本申请实施例提供了一种信息热点挖掘方法,该方法包括:
对采集的语料信息进行数据清洗和分词处理,得到样本语料;
对样本语料进行依存句法分析,以从样本语料抽取预设句法成分对应的分词,作为样本语料的特征信息;
选取一个特征信息作为簇心创建第一个聚类簇,并依次选取其余的特征信息作为目标特征信息与每个聚类簇的簇心计算相似度,如果计算得到的相似度的最大值大于预设阈值,则将目标特征信息加入到相似度的最大值对应的聚类簇中,如果计算得到的相似度的最大值小于预设阈值,则目标特征信息作为簇心创建新的聚类簇;
确定热点聚类簇及其对应的热点类别,并将热点聚类簇中的特征信息作为对应热点类别的代表热点。
第二方面,本申请实施例提供了一种信息热点挖掘装置,该装置包括:
预处理模块,用于对采集的语料信息进行数据清洗和分词处理,得到样本语料;
分析模块,用于对样本语料进行依存句法分析,以从样本语料抽取预设句法成分对应的分词,作为样本语料的特征信息;
聚类模块,用于选取一个特征信息作为簇心创建第一个聚类簇,并依次选取其余的特征信息作为目标特征信息与每个聚类簇的簇心计算相似度,如果计算得到的相似度的最大值大于预设阈值,则将目标特征信息加入到相似度的最大值对应的聚类簇中,如果计算得到的相似度的最大值小于预设阈值,则目标特征信息作为簇心创建新的聚类簇;
后处理模块,用于确定热点聚类簇及其对应的热点类别,并将热点聚类簇中的特征信息作为对应热点类别的代表热点。
由以上技术方案可知,本申请实施例提供了一种信息热点挖掘方法及装置,能够对采集的语料信息进行数据清洗和分词处理,得到样本语料;对样本语料进行依存句法分析,以从样本语料抽取预设句法成分对应的分词,作为样本语料的特征信息;选取一个特征信息作为簇心创建第一个聚类簇,并依次选取其余的特征信息作为目标特征信息与每个聚类簇的簇心计算相似度,如果计算得到的相似度的最大值大于预设阈值,则将目标特征信息加入到相似度的最大值对应的聚类簇中,如果计算得到的相似度的最大值小于预设阈值,则目标特征信息作为簇心创建新的聚类簇;确定热点聚类簇及其对应的热点类别,并将热点聚类簇中的特征信息作为对应热点类别的代表热点。由此,本申请实施例提供的方法,针对短语料信息包含信息量少的特点,将短语料中的特征信息进行聚类,使每个聚类簇包含大量同一类别的特征信息,从而,可以根据聚类簇中特征信息的数量等指标确定热点类别,解决了现有技术中无法从大量的短语料信息中挖掘出有价值的热点信息的问题。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种信息热点挖掘方法的流程图;
图2为本申请实施例示出的生成聚类簇的示意图;
图3为本申请实施例提供的一种信息热点挖掘方法步骤S120的流程图;
图4为本申请实施例提供的一种相似度计算方法的流程图;
图5为本申请实施例提供的一种簇心更新方法的流程图;
图6为本申请实施例提供的一种语料信息分词方法的流程图;
图7为本申请实施例提供的一种信息热点挖掘方法步骤S140的流程图;
图8为本申请实施例提供的一种语料信息采集方法的流程图;
图9是本申请实施例提供的一种信息热点挖掘装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
热点挖掘是自然语言处理技术的一个重要应用领域。热点挖掘的主要任务是对一定时间范围内产生的海量语料(例如:文本、语音和图像等)进行分析,并从分析结果中归纳该时间范围内产生的热点信息。现有技术中,热点挖掘主要分为基于监督学习的挖掘方式和基于无监督学习的挖掘方式,其中,基于监督学习的挖掘方式通过大量的标注数据对机器学习模型进行挖掘模式的训练,从而使机器学习模型具备从语料中挖掘热点的能力,那么,如果要提高机器学习模型的热点挖掘能力,就必须标注大量的语料,当语料是格式不规整的非结构化语料时,获取标注数据就要付出很大的代价,因此,无需使用标注数据的无监督学习的挖掘方法就更具有研究价值。
在企业的生产经营活动中,挖掘和分析领域内的热点信息,能够为企业制定投资战略、把控产品方向、制定营销策略、确定服务重心和规避市场风险等提供参考依据。由于企业提供各类产品和服务的目标是它们的用户,因此用户的反映出的问题和需求通常对企业的发展至关重要,企业可以及时收集客户反馈的各种问题,并挖掘用户重点关注的问题,从而优化公司产品或服务。但是,随着企业业务规模的不断发展,客户数量会逐渐增多,客户反馈的问题数量也会大量的增加,处理起来耗时费力,从而导致热点挖掘变得困难。
客服系统是企业获取用户反馈的一个重要渠道,客服系统采集用户反馈信息的过程通常发生在客服与用户的对话中,而客服与用户之间产生的对话文本通常为短语料文本,并且具有以下特点:
1、高纬性。对话文本的数量巨大,并且通常会涉及到许多话题,难以进行聚焦。
2、稀疏性。对话文本的长度通常较短,对话内容中包含的信息量远小于新闻、博客等其他语料文本,语料特征稀疏,因此难以发现不同语料特征之间的关联,处理起来更加困难。
3、不规范性。与采集自新闻、博客等其他来源的语料相比,对话文本中会更频繁地出现用词不规范和语法错误的情况,例如大量的聊天表情、网络用语和缩略语等,从而导致这类文本处理起来更加困难。
由此可见,从例如客服系统的对话文本中挖掘热点信息的难度更高,无法适用于现有技术的例如基于监督学习的挖掘方式,而现有技术中,也没有提供更好的适用于从短语料信息中挖掘热点信息的方法。因此,如何从大量的短语料信息(例如:客服对话文本)中挖掘出有价值的热点信息,成为本领域技术人员亟待解决的技术问题。
为了解决上述问题,本申请实施例提供了一种信息热点挖掘方法及装置。
下面是本申请的方法实施例。
图1是本申请实施例提供的一种信息热点挖掘方法的流程图。该方法可以应用于服务器、PC(个人电脑)、平板电脑、手机、虚拟现实设备和智能穿戴设备等多种设备中。
参见图1所示,该方法包括以下步骤:
步骤S110,对采集的语料信息进行数据清洗和分词处理,得到样本语料。
具体地,语料信息应该包含多条语料,语料的规模例如可以是100条语料、1000条语料、10000条语料,甚至更多,具体根据本领域技术人员采集到的数量确定。语料可以是文本形式的语料,也可以是语音形式的语料;如果是语音形式的语料,可以使用自动语音识别技术(Automatic Speech Recognition,ASR)将语音转换成文本形式;并且,在进行语音转换时,可以通过语音活性检测技术(Voice activity detection,VAD)识别语音信息中的有人发声的片段和无人发声的片段,从而将每个有人发声的片段独立地转换成一条文本语料;另外,在进行语音转换时,可以使用声纹识别技术(Voiceprint Recognize)识别出语音信息中的客服语音部分和用户语音部分,从而进行分类,并且可以仅对用户语音部分进行转换,使转换得到的文本包含更多用户反馈的问题信息。
由于信息热点需要从语料信息中挖掘得到,因此语料信息的质量在很大程度上影响挖掘得到的信息热点的准确性,那么,为了提高本申请挖掘的信息热点的准确性,首先对采集的语料信息进行预处理,得到可用于信息热点挖掘的样本语料,预处理过程具体包括对采集的语料信息进行数据清洗和分词处理。
其中,对语料信息进行数据清洗具体实现对语料信息去杂乱和规整,由于用户通过客服系统提交的语料文本具有不规范性,经常会夹杂一些聊天表情、网络用语、缩略语和标点符号等干扰信息,因此,本申请实施例中的数据清洗过程主要包括去除每一条语料文本中可能包含的聊天表情、网络用语、缩略语和标点符号等干扰信息,从而使语料文本变成纯文字文本。
示例地,语料信息包含以下几条语料:
语料1:我买的基金怎么赎回?
语料2:资产优化功能怎么配置啊/可怜/
语料3:emmm…有年化收益率更高,的项目吗
语料4:OK,了解
其中,语料1中包含标点符号“?”,执行数据清洗得到:我买的基金怎么赎回;语料2中包含聊天表情“/可怜/”,该聊天表情在用户的聊天窗口中显示为一个图像表情,在语料中记录的是图像表情对应的字符代码,那么,语料2执行数据清洗后得到:资产优化功能怎么配置啊;语料3中包含标点符号和网络用语“emmm”,执行数据清洗后得到:有年化收益率更高的项目吗;语料4中包含标点符号和英文缩写“OK”,执行数据清洗后得到:了解。
在去除干扰信息之后,对语料信息执行分词处理,并去除分词结果中的停用词。具体地,可以预先获取一个或多个自定义的分词词表,并使用分词词表对语料信息进行分词处理;另外,还可以使用基于字符匹配的分词方法或者基于语义理解的分词方法等对语料信息进行分词。
示例地,上述示例的去除了干扰信息的语料信息的分词结果为:
语料1:我买的基金怎么赎回
语料2:怎么配置资产优化功能啊
语料3:有年化收益率更高的吗
语料4:了解
进一步地,为了去除分词结果中的停用词,本申请实施例可以预先创建一个或多个停用词表,并根据停用词表去除分词结果中的停用词。本申请实施例中指定的停用词主要包括没有实际意义的虚词,包括副词、介词、连接词、语气词等,例如:“的”“了”“啊”等,这些停用词在语料信息中出现的频率很高,不携带信息热点,但是会干扰信息热点的挖掘,因此,为了提高挖掘信息热点的准确率和效率,这些停用词需要被去除。
示例地,对上述示例的分词结果去除停用词得到的样本语料为(语料4在去除停用词的过程中被全部去除了):
样本语料1:我买基金怎么赎回
样本语料2:怎么配置资产优化功能
样本语料3:年化收益率更高
由此,本申请实施例对采集的语料信息进行数据清洗和分词处理,得到不包含干扰信息和停用词的样本语料,从而避免语料信息中的干扰信息和停用词被当作信息热点挖掘出来,并减少热点挖掘中需要处理的数据量,从而提高热点挖掘的准确性和效率。
步骤S120,对样本语料进行依存句法分析,以从样本语料抽取预设句法成分对应的分词,作为样本语料的特征信息。
依存句法分析利用句子中词与词之间的依存关系来表示句子的句法的局部成分信息(如主谓、动宾、定中等结构关系),实现对自然语言的精确理解。
具体地,本申请实施例需要通过依存句法分析从样本语料中获取如表1所示的句法成分,并将提取到的句法成分对应的分词按照它们在句子中原本的顺序进行排序:
表1需要从样本语料中获取的句法成分
示例地,从样本语料“我买基金怎么赎回”中可以提取的句法依存成分为:root(root,赎回),即“赎回”作为句子中最重要的词;以及,nsubj(赎回,基金),即名词主语成分。那么,将提取到的句法成分对应的分词排序得到的特征信息为:基金赎回。
示例地,从样本语料“资产优化功能怎么配置”中可以提取的句法依存成分为:root(root,配置);nsubj(配置,功能);nn(资产,优化,功能)。那么,提取的特征信息为:配置资产优化功能。
示例地,从样本语料“年化收益率更高”中可以提取的句法成分为:(root,年化收益率)。那么,提取的特征信息为:年化收益率。
示例地,从样本语料“您好我的XX智投为什么没有优化成功”中可以提取的句法依存成分为:nsubj(优化,XX智投);neg(优化,没有);root(root,优化);dobj(优化,成功)。那么,提取的特征信息为:XX智投没有优化成功。
由此,通过对样本语料进行依存句法分析,能够得到样本语料包含的依存句法成分,并抽取指定的句法成分对应的分词作为样本语料的特征信息,从而,特征信息中包含的句法成分更集中地包含了潜在的信息热点,并且更少地包含与信息热点无关的内容,从而有利于提高信息热点挖掘的准确率和效率。
步骤S130,选取一个特征信息作为簇心创建第一个聚类簇,并依次选取其余的特征信息作为目标特征信息与每个聚类簇的簇心计算相似度,如果计算得到的相似度的最大值大于预设阈值,则将目标特征信息加入到相似度的最大值对应的聚类簇中,如果计算得到的相似度的最大值小于预设阈值,则以目标特征信息作为簇心创建新的聚类簇。
在一般的涉及到文本聚类的方法中,在创建第一个聚类簇时,通常会选取包含词语数量最多或者文本长度最长的语料作为第一个聚类簇的簇心。但是,由于短语料信息(例如客服文本)的高纬性、稀疏性和不规范性等特点,语料的文本长度长、词语多不代表其包含的信息热点丰富,由此,本申请实施例使用以下方式选取第一个聚类簇的簇心:具体地,可以首先将所有的特征信息进行排序,得到一个流式的特征信息序列。然后,从特征信息序列中选取一个特征信息作为簇心,以创建第一个聚类簇;其中,可以选取特征信息序列的第一个特征信息作为簇心,也可以从特征序列中随机选取一个特征信息作为簇心;或者,还可以根据其他选取规则,例如选取包含分词数量最少或者最多的特征信息作为第一个聚类簇的簇心;因此,对于第一个聚类簇的簇心的选择方法,本申请实施例中不做具体限定,能够在此处实施的技术构思和设计均没有超出本申请实施例的保护范围。
进一步地,将其余的特征信息按照其在特征信息序列中的顺序依次作为目标特征信息与每个聚类簇计算相似度,具体是计算聚类簇的簇心与目标特征信息的相似度,该相似度的数值范围在[0,1]之间。然后,根据相似度的计算结果确认是将当前的目标特征信息加入到某个已有的聚类簇中,还是以当前的目标特征信息作为簇心创建新的聚类簇,具体地,可以预设一个阈值,如果计算得到的相似度的最大值大于该阈值,则将目标特征向量加入到该相似度最大值对应的聚类簇中,如果计算得到的相似度的最大值小于该阈值,则将当前的目标特征向量作为簇心创建新的聚类簇。
示例地,如图2所示,A1~AM(M为大于1的正整数)为步骤S120得到的M个特征信息,W为阈值,W例如取值为0.85。那么,在步骤S130中,首先,以A1为簇心创建第一个聚类簇C1;然后,以A2为目标特征信息,计算A2与A1的相似度S21,例如S11=0.6(S21<W),由此,以A2为簇心创建新的聚类簇C2。接下来,以A3为目标特征信息,分别计算A3与A1的相似度S31,以及A3与A2的相似度S32,例如S31=0.86(S31>W)、S32=0.92(S32>W),则相似度的最大值Smax为S32,且大于阈值W,由此,将特征信息A3加入到聚类簇C2中。其余的特征信息依次按照上述方法处理,从而得到个聚类簇,每个聚类簇中包含数量不同的特征信息。
需要补充说明的是,上述示出的取值仅仅作为阈值取值的一个示例,而不是全部示例。发明人通过研究发现,阈值的不同取值对步骤S130中产生的聚类簇的数量以及每个聚类簇中特征信息的数量产生影响,具体为:当阈值取值增大时,聚类簇的数量增多,每个聚类簇中的特征信息的数量减少,热点类别的数量增加,从而热点类别的划分也随之细化,不利于较为明显地分辨出突出的热点类别;当阈值取值减小时,聚类簇的数量减少,每个聚类簇中的特征信息数量减少,热点类别的数量减少,从而热点类别的划分趋于笼统,可能导致热点类别中的特征信息不具有代表性,降低信息热点挖掘的准确性。由此可见,阈值的取值大小具有利弊的相对性,本领域普通技术人员在实施本申请实施例提供的技术方案和技术构思时,可以根据自身对信息热点类别的需求和准确性的需求,合理确定阈值的取值,本申请实施例不再具体赘述。
步骤S140,确定热点聚类簇及其对应的热点类别,并将热点聚类簇中的特征信息作为对应热点类别的代表热点。
具体地,步骤S130将特征信息汇聚到了多个聚类簇中,那么,每个聚类簇包含一个类别的特征信息,根据聚类簇中包含的特征信息的数量,可以确定热点聚类簇和热点类别(聚类簇中的样本语料越多,则说明对应的类别越热,可以针对聚类簇包含的特征信息的数量设定一个分界值,特征信息数量超过分界值的聚类簇即属于热点聚类簇),每个热点类别以其对应热点聚类簇包含的特征信息作为代表热点。另外,本领域技术人员可以为热点类别进行命名,以对热点进行概括和区分,例如:以热点聚类簇的簇心作为对应热点类别的名称。
示例地,步骤S130中生成的部分聚类簇和聚类簇包含的特征信息可以如表2所示:
表2聚类簇和聚类簇中的特征信息
根据聚类簇中包含的特征信息的数量,例如可以确定热点聚类簇为C1和C2。其中,热点聚类簇C1对应的热点类别可以是“优化XX智投”,即热点聚类簇C1的簇心;热点聚类簇C2对应热点类别可以是“投资收益率”,即根据热点聚类簇C2中的特征信息共同表达的语义确定。由此,基于上述示例生成的热点聚类簇C1和C2等,能够挖掘到的信息热点例如可以如表3所示:
表3信息热点
由此,语料信息中蕴藏的信息热点被发掘出来,用户(例如企业)可以根据信息热点确定相关的业务重心,从而优化产品和服务等。
由以上技术方案可知,本申请实施例提供了一种信息热点挖掘方法,该方法包括:对采集的语料信息进行数据清洗和分词处理,得到样本语料;对样本语料进行依存句法分析,以从样本语料抽取预设句法成分对应的分词,作为样本语料的特征信息;选取一个特征信息作为簇心创建第一个聚类簇,并依次选取其余的特征信息作为目标特征信息与每个聚类簇的簇心计算相似度,如果计算得到的相似度的最大值大于预设阈值,则将目标特征信息加入到相似度的最大值对应的聚类簇中,如果计算得到的相似度的最大值小于预设阈值,则目标特征信息作为簇心创建新的聚类簇;确定热点聚类簇及其对应的热点类别,并将热点聚类簇中的特征信息作为对应热点类别的代表热点。由此,本申请实施例提供的方法,针对短语料信息包含信息量少的特点,将短语料中的特征信息进行聚类,使每个聚类簇包含大量同一类别的特征信息,从而,可以根据聚类簇中特征信息的数量等指标确定热点类别,解决了现有技术中无法从大量的短语料信息中挖掘出有价值的热点信息的问题。
图3为本申请实施例提供的一种信息热点挖掘方法步骤S120的流程图。
在一个实施例中,如图3所示,步骤S120可以包括以下步骤:
步骤S121,从样本语料中抽取每个预设句法成分对应的分词,并添加句法成分标签。
示例地,如果预设的句法成分和句法成分标签如表1所示,那么,对样本语料“您好我的XX智投为什么没有优化成功”进行依存句法分析能够得到四个句法成分,抽取四个句法成分对应的分词并添加句法成分标签能够得到:
nsubj(优化,XX智投)
neg(优化,没有)
root(root,优化)
dobj(优化,成功)
步骤S122,根据抽取到的分词在样本语料中的先后顺序为每个分词添加词序信息。
示例地,词序信息可以用数字表示,例如设置“XX智投”的词序信息为1,“没有”的词序信息为2,“优化”的词序信息为3,“成功”的词序信息为4。那么,将上述词序信息添加给对应的分词得到:
nsubj(优化-3,XX智投-1)
neg(优化-3,没有-2)
root(root-0,优化-3)
dobj(优化-3,成功-4)
需要补充说明的是,在抽取到的句法成分“root(root,优化)”,由于表示语料根节点的“root”不真实存在于样本语料中,因此root的词序信息可以设置为0。
步骤S123,根据词序信息将抽取到的分词进行排序,得到特征信息。
示例地,对上述句法成分中的分词“XX智投-1”“没有-2”“优化-3”“成功-4”,得到特征信息为:XX智投没有优化成功。
由此,通过对句法成分的分词添加词序信息,能够保证特征信息的各个分词按照其在样本语料中的原始顺序排列,从而保证特征信息在语义上与样本语料相同。
图4为本申请实施例提供的一种相似度计算方法的流程图。
在一个实施例中,如图4所示,步骤S130的将目标特征信息与已有的聚类簇的簇心计算相似度,可以包括以下步骤:
步骤S201,获取簇心和目标特征信息的文本特征向量。
在自然语言处理(natural language processing,NLP)领域,文本特征向量是把文本内容进行数学化处理以映射到向量空间模型(vector space model,VSM)中的一种方式,文本特征向量以它们在空间上的相似度表达语义的相似度。现有技术中可以使用one-hot(独立热点)编码、TF-IDF(词频-逆向文件频率)编码等方法和思想实现文本的向量化,因此,本申请实施例中对生成特征信息的文本特征向量的方法不做具体限定。为了便于描述,本申请以D1表示簇心的文本特征向量,以D2表示目标特征信息的文本特征向量。
步骤S202,计算簇心与目标特征信息的文本特征向量的余弦距离或者欧式距离作为相似度。
例如,如果以文本特征向量的余弦距离作为相似度,则使用的计算公式为:
其中,sim(D1,D2)表示相似度,D1·D2表示D1和D2的点乘,‖D1‖和‖D2‖分别表示D1和D2的模量,N表示D1和D2的维度,w1i表示D1的第i个维度值(1≤i≤N),w2i表示D2的第i个维度值。
例如,如果以文本特征向量的余弦距离作为相似度,则使用的计算公式为:
其中,sim(D1,D2)表示相似度,N表示D1和D2的维度,w1i表示D1的第i个维度值(1≤i≤N),w2i表示D2的第i个维度值。
图5为本申请实施例提供的一种簇心更新方法的流程图。
在一个实施例中,如图5所示,如果步骤S130将目标特征信息加入到相似度的最大值对应的聚类簇中,则步骤S130之后还包括以下步骤:
步骤S301,计算聚类簇中每个特征信息的密度。
步骤S302,将密度最大的特征信息作为聚类簇新的簇心。
本申请实施例中,某一个特征信息(例如:特征信息Ti)的密度表示聚类簇中的其他特征信息围绕该特征信息(特征信息Ti)的聚集程度,该聚集程度可以通过这个特征信息(特征信息Ti)与其他特征信息的相似度的总体情况来体现。
示例地,对聚类簇中的任一个特征信息Ti(i为正整数,i≤k,k为聚类簇已有的特征信息的数量),分别计算它与聚类簇中的其他特征信息的相似度sim(1)~sim(k-1),然后,计算得到的相似度sim(1)~sim(k-1)取平均值,作为特征信息Ti的密度pi,即:
由此,本申请实施例在聚类簇中有新的特征信息加入时,更新聚类簇的簇心,从而使聚类簇的簇心始终表达聚类簇的最核心的特征信息,从而提高聚类的准确性。
需要补充说明的是,本申请实施例中的特征信息的密度还可以用其他的方式表达,例如相似度sim(1)~sim(k-1)的和,或者相似度sim(1)~sim(k-1)中大于某个预设值的数量等等,本申请实施例中对此处可以应用的其他可能实现的构思和方法不做具体赘述。
图6为本申请实施例提供的一种语料信息分词方法的流程图。
在一个实施例中,如图6所示,使用预先获取的分词词表对语料信息进行分词处理包括以下步骤:
步骤S401,将分词词表中具有相同前缀内容的分词以树形结构存储,得到前缀树。
其中,前缀树是一种有序树,包含多层节点,并主要有以三个特性:根节点不包含字符,除根节点外的每一个子节点都包含一个字符;从根节点到某一个节点,路径上经过的字符连接起来,为该节点对应的分词;每个节点的所有子节点包含的字符互不相同。
步骤S402,使用前缀树扫描语料信息,得到语料信息的多个分词方案。
具体地,对待分词的语料信息,首先根据前缀树的扫描,生成所有可能分词的方案。例如,可以根据前缀树得到语料信息的有向无环图,从而根据有向无环图中存在的路径得到对应的分词方案。另外,如果语料信息中存在未登录词,可以先不切分。
步骤S403,根据分词在前缀树中的词频,得到总词频最大的目标分词方案。
其中,分词的词频可以根据分词在前缀树中的出现次数得到,其取值等于分词在前缀树中出现的次数/分词词表的总词数。本申请实施例中,将每个方案的分词的词频相加得到总词频,并将总词频最大的方案作为目标分词方案。另外,在计算词频时,未登录词的词频值可以等于分词词表中词频最小的那个分词的词频。
步骤S404,使用基于训练得到的分词模型对目标分词方案中的未登录词进行切分,未登录词为分词词表中未包含的词。
例如,可以通过大量的标注语料训练获得一个用于分词的隐马尔科夫模型(Hidden Markov Model,HMM),并使用该隐马尔科夫模型对未登录词进行切分。
由此,本申请实施例针对短语料信息(例如:客服对话文本)的文本长度短且长度不一,以及口语化程度高的特点,使用了分词词表、前缀树和词频等基于统计的分词方法进行分词,提高分词质量。
图7为本申请实施例提供的一种信息热点挖掘方法步骤S140的流程图。
在一个实施例中,如图7所示,步骤S140可以包括以下步骤:
步骤S141,统计每个聚类簇中的特征信息的数量。
具体地,统计每个聚类簇中的特征信息的数量,将聚类簇按照特征信息的数量从高到低进行排列。
步骤S142,将特征信息的数量高于预设分界值的聚类簇作为热点聚类簇。
由于,特征信息的数量越高说明聚类簇对应的信息类别的热度就越高,因此,本申请实施例可以设置一个用于将聚类簇划分成热点聚类簇和非热点聚类簇的分界值,并将特征信息的数量高于该分界值的聚类簇作为热点聚类簇。
另外,还可以根据特征信息的数量选取预设比例的聚类簇作为热点聚类簇。例如,如果设置热点聚类簇的比例为10%,那么如果聚类簇共有100个,则将特征信息的数量最高的前10个聚类簇作为热点聚类簇。
步骤S143,对每个热点聚类簇创建对应的热点类别,并将热点聚类簇中的特征信息作为对应热点类别的热点信息。
创建热点类别和确定热点信息的内容具体参见本申请实施例对表3描述的内容,此处不再赘述。由此,语料信息中蕴藏的信息热点被发掘出来,用户(例如企业)可以根据信息热点确定相关的业务重心,从而优化产品和服务等。
图8为本申请实施例提供的一种语料信息采集方法的流程图。
在一个实施例中,如图8所示,本申请实施例使用的语料信息可以通过以下步骤采集:
步骤S501,获取同位词表,同位词表包含多个标准词和每个标准词的至少一个同位词。
其中,同位词是指多个语义相同或者相近的词,例如:购买、买入、认购就是一组同位词。那么,大量收集常见的同位词,并从每一组同位词中选择一个词作为标准词,就能得到一个同位词表。
步骤S502,采集原始语料信息,并使用同位词表扫描原始语料信息中包含的同位词。
其中,原始语料信息包含多条语料,这些语料可以是文本形式的语料,也可以是语音形式的语料,并通过语音识别技术转换成文本。具体地,如果是从客服系统的对话文本中挖掘热点信息,则原始预料信息就是从客服与用户的对话记录中采集的对话内容文本。
步骤S503,根据同位词表,将原始语料信息中的同位词替换为对应的标准词,得到语料信息。
由此,避免了语料中的同位词对计算相似度造成的影响,从而有利于提高信息热点挖掘的准确率和效率。
下面是本申请的装置实施例,可用于执行本申请的方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图9是本申请实施例提供的一种信息热点挖掘装置的示意图。该装置可以应用于PC(个人电脑)、平板电脑、手机和服务器等多种设备。
如图9所示,该装置可以包括:
预处理模块610,用于对采集的语料信息进行数据清洗和分词处理,得到样本语料;
分析模块620,用于对样本语料进行依存句法分析,以从样本语料抽取预设句法成分对应的分词,作为样本语料的特征信息;
聚类模块630,用于选取一个特征信息作为簇心创建第一个聚类簇,并依次选取其余的特征信息作为目标特征信息与每个聚类簇的簇心计算相似度,如果计算得到的相似度的最大值大于预设阈值,则将目标特征信息加入到相似度的最大值对应的聚类簇中,如果计算得到的相似度的最大值小于预设阈值,则目标特征信息作为簇心创建新的聚类簇;
后处理模块640,用于确定热点聚类簇及其对应的热点类别,并将热点聚类簇中的特征信息作为对应热点类别的代表热点。
由以上技术方案可知,本申请实施例提供了一种信息热点挖掘装置,该装置用于:对采集的语料信息进行数据清洗和分词处理,得到样本语料;对样本语料进行依存句法分析,以从样本语料抽取预设句法成分对应的分词,作为样本语料的特征信息;选取一个特征信息作为簇心创建第一个聚类簇,并依次选取其余的特征信息作为目标特征信息与每个聚类簇的簇心计算相似度,如果计算得到的相似度的最大值大于预设阈值,则将目标特征信息加入到相似度的最大值对应的聚类簇中,如果计算得到的相似度的最大值小于预设阈值,则目标特征信息作为簇心创建新的聚类簇;确定热点聚类簇及其对应的热点类别,并将热点聚类簇中的特征信息作为对应热点类别的代表热点。由此,本申请实施例提供的装置,针对短语料信息包含信息量少的特点,将短语料中的特征信息进行聚类,使每个聚类簇包含大量同一类别的特征信息,从而,可以根据聚类簇中特征信息的数量等指标确定热点类别,解决了现有技术中无法从大量的短语料信息中挖掘出有价值的热点信息的问题。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。