CN108536676A

CN108536676A - 数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN108536676A
Application number: CN201810262078.9A
Authority: CN
Inventors: 孔维斌; 黄伟; 朱晓华; 廖成才
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2018-03-28
Filing date: 2018-03-28
Publication date: 2018-09-14
Anticipated expiration: 2038-03-28
Also published as: CN108536676B

Abstract

本发明实施例公开了一种数据处理方法、装置、电子设备及存储介质，对第一数据集进行分词处理，对得到的分词进行词性分析，确定数据集中的同义词，将该同义词扩充到预定义的同义词词典中，然后从第一数据集中的各数据样本中提取关键词，根据提取的关键词构建与各个数据样本对应的代表词，根据扩充后的同义词词典对构建的代表词进行聚合处理，得到第二数据集。当第二数据集作为提示词集合应用于垂直搜索引擎时，提示词能够关联较多的内容，使得搜索结果能够满足用户实际需求，提高了对用户的辅助性。而且，由于提示词集合的数量较少，因此垂直搜索引擎能够快速展示提示词，提高搜索的便捷性。

Description

数据处理方法、装置、电子设备及存储介质

技术领域

本发明涉及信息处理技术领域，更具体地说，涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

垂直搜索引擎是常用的搜索引擎之一。它是针对某一特定领域而提出的一种搜索服务，因其搜索速度和搜索结果的精准性均较通用搜索引擎有所提高，因而正引起越来越多人的关注。

为了使得搜索更加便捷，当用户在搜索输入框输入关键词后，垂直搜索引擎会根据用户输入的关键词在提示词集合中选择相关的词或词组作为搜索提示词展示给用户，由用户在给出的搜索提示词中选择一提示词作为搜索关键词，垂直搜索引擎根据用户选择的搜索关键词进行搜索。其中，垂直搜索引擎提供提示词所使用的提示词集合是通过对垂直搜索引擎所针对的特定领域的数据集进行数据聚合得到。

发明人研究发现，传统的数据聚合方法聚合得到的数据集作为提示词集合应用到垂直搜索引擎时，用户在选择提示词后，难以搜索到自己想要的内容，对用户的辅助性较低。

发明内容

本发明的目的是提供一种数据处理方法、装置、电子设备及存储介质，以克服上述现有技术存在的问题。

为实现上述目的，本发明提供了如下技术方案：

一种数据处理方法，包括：

对第一数据集进行分词处理，得若干分词；

对所述分词进行词性分析，以确定所述若干分词中的同义词，并将所确定的同义词添加至预定义的第一同义词词典中，得到第二同义词词典，所述第一同义词词典中包括至少一组自定义的同义词；

根据所述若干分词，从所述第一数据集中的各个数据样本中提取关键词，并根据提取的关键词构建与各个所述数据样本对应的代表词；其中，所提取的关键的数量与数据样本的长度相适应；

根据所述第二同义词词典对构建的代表词进行聚合处理，得到第二数据集。

上述方法，优选的，所述根据所述若干分词，从所述第一数据集中的各个数据样本中提取关键词，并根据提取的关键词构建与各个所述数据样本对应的代表词，包括：

获取所述数据样本的长度；

若所述数据样本的长度小于预设阈值，将所述数据样本作为与所述数据样本对应的代表词；

若所述数据样本的长度大于或等于所述预设阈值，根据所述若干分词，从所述数据样本中提取关键词，根据所提取的关键词构建与所述数据样本对应的代表词。

上述方法，优选的，所述根据所述若干分词，从所述数据样本中提取关键词，根据所提取的关键词构建与所述数据样本对应的代表词，包括：

若所述数据样本由至少两个句子构成，对每个所述句子分别进行关键词提取，并去除所提取的关键词中的单字；

针对每个所述句子，根据保留的关键词在所述句子中的位置以及关键词的长度，计算任意相邻两个关键词之间的间隔，并将得到的所有间隔求和，得到与所保留的关键词对应的和值；

根据最小和值对应的保留的关键词构建与所述数据样本对应的代表词。

上述方法，优选的，所述根据所述第二同义词词典对构建的代表词进行聚合处理，得到第二数据集，包括：

若依据所述第二同义词词典确定第一代表词中的第一关键词存在同义词，获取与所述第一关键词及其同义词对应的预置关键词；

用所述预置关键词替换所述第一代表词中的第一关键词，得到所述第一代表词的同义词；

基于所述第一代表词的同义词对所述构建的代表词进行去重处理，得到所述第二数据集。

上述方法，优选的，所述基于所述第一代表词的同义词对所述构建的代表词进行去重处理，包括：

若所述构建的代表词中存在与所述第一代表词的同义词相同的第二代表词，将所述第一代表词和所述第二代表词进行去重处理；

若所述构建的代表词中的第三代表词的同义词与所述第一代表词的同义词相同，对所述第一代表词和所述第三代表词进行去重处理。

若所述构建的代表词中各个代表词均存在同义词，则将所述代表词的同义词中的各个关键词按预设规则进行排序，得到排序后的同义词；

基于所述排序后的同义词为所述代表词的同义词分配唯一识别标识；

将所述唯一识别标识与所述代表词相对应；

将所述构建的代表词中对应相同唯一识别标识的代表词进行去重处理。

若所述构建的代表词中第一部分的代表词存在同义词，第二部分的代表词不存在同义词，则：

将所述第一部分的代表词的同义词中的各个关键词按预设规则进行排序，得到排序后的同义词；

基于所述排序后的同义词为所述第一部分的代表词的同义词分配唯一识别标识；

将分配的唯一识别标识与所述第一部分的代表词相对应；

将所述第二部分的代表词中的各个关键词按预设规则进行排序，得到排序后的代表词；

基于所述排序后的代表词为所述第二部分的代表词分配唯一识别标识；

将所述获取的代表词中对应相同唯一识别标识的代表词进行去重处理。

一种数据处理装置，包括：

分词模块，用于对第一数据集进行分词处理，得若干分词；

词性分析模块，用于对所述分词进行词性分析，以确定所述若干分词中的同义词，并将所确定的同义词添加至预定义的第一同义词词典中，得到第二同义词词典，所述第一同义词词典中包括至少一组自定义的同义词；

提取模块，用于根据所述若干分词，从所述第一数据集中的各个数据样本中提取关键词，并根据提取的关键词构建与各个所述数据样本对应的代表词；其中，所提取的关键的数量与数据样本的长度相适应；

聚合模块，用于根据所述第二同义词词典对构建的代表词进行聚合处理，得到第二数据集。

一种计算机可读存储介质，所述机算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行如上所述的数据处理方法。

一种电子设备，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上所述的数据处理方法。

本申请提供的一种数据处理方法、装置、电子设备及存储介质，对第一数据集进行分词处理，对得到的分词进行词性分析，确定数据集中的同义词，将该同义词扩充到预定义的同义词词典中，然后从第一数据集中的各数据样本中提取关键词，根据提取的关键词构建与各个数据样本对应的代表词，根据扩充后的同义词词典对构建的代表词进行聚合处理，得到第二数据集。由于聚合处理过程考虑了词之间的相似性，且代表词中关键词的数量与样本数据的长度相适应，因此，使得聚合后的数据的数据量尽量少，且携带了较大的信息量，能够较充分的表征数据样本的特征，因而，当聚合后的数据(即第二数据集)作为提示词集合应用于垂直搜索引擎时，提示词能够关联较多的内容，使得搜索结果能够满足用户实际需求，提高了对用户的辅助性。而且，由于提示词集合的数量较少，因此垂直搜索引擎能够快速展示提示词，提高搜索的便捷性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施提供的数据处理方法的一种实现流程图；

图2为本申请实施提供的根据若干分词，从第一数据集中的各个数据样本中提取关键词，并根据提取的关键词构建与各个数据样本对应的代表词的一种实现流程图；

图3为本申请实施提供的数据处理装置的一种结构示意图。

说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示的以外的顺序实施。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1为本申请实施例提供的数据处理方法的一种实现流程图，可以包括：

步骤S11：对第一数据集进行分词处理，得若干分词。

第一数据集由特定专业或特定领域的数据构成，例如，在直播或视频领域，第一数据集可以由直播标题，主播昵称或艺名，视频标题等构成。在音乐领域，第一数据集可以由歌名，歌手的名字或艺名，专辑的名称等构成。在电商产品领域，第一数据集可以由商品名称，店家名称，商品属性等构成。

在上述特定专业或特定领域，原始搜集到的数据中会携带一些特殊字符或符号，如标点符号，数学符号，空格或由非正规化文字符号组成的文字(也称为火星文，例如，藍)等，而用户在进行检索的时候，一般不会使用这些特殊的字符或符号，因此，为了使得本申请的数据处理结果能够适应用户的实际需求，本申请中第一数据集通过对原始搜集到的数据集(以下简称原始数据集)进行数据清洗得到，具体的，在获取到原始数据集后，去除文本中的空格，标点符号，数学符号，表情符号(如，等)，得到第一数据集。另外，根据实际需要，如搜索引擎用户群体的语言使用习惯，例如，中国的用户主要使用中文和英文，而小语种(例如，俄语：“просMотрю”)基本不使用，因此，在对原始数据集进行数据清洗时，还可以去除文本中的小语种，即第一数据集中不包括上述特殊字符和符号，也不包括小语种文字。

第一数据集可以存储在MySQL或NoSQL等可持久化数据库。当通过数据库对第一数据集进行操作时，若第一数据集中数据的量级小于预设量级，可以直接将第一数据集中的所有数据读取到内存或者缓存中的进行操作，以提高数据处理速度；若第一数据集中数据的量级大于或等于预设量级，分多次将第一数据集中的数据读取到内存或缓存中，每次内存或缓存中的数据处理完后，可以删除内侧或缓存中的数据，并将新的数据读取到内侧或缓存中。

本申请实施例中，可以使用IKAnalyzer，即IK分词器，对第一数据集中的各个数据样本进行分词处理。

IK分词器支持自定义词典，例如，自定义词词典，停用词词典。

本申请中，自定义词词典中包括上述特定专业或特定领域常用，而在其它领域不常用的一些词，例如，在直播、短视频领域，“喊麦”就是直播常用词，而该词在其它领域却几乎不使用。停用词词典中除了常见的无意义词，如“我”“你”“的”等等，还包括上述特定专业或特定领域的无明确含义的词，例如，在直播、短视频领域，“老铁”、“666”等一般没有什么明确含义。

IK分词器在进行分词的时候，会根据停用词词典将第一数据集中的停用词滤除掉，而在分词的过程中会优先考虑自定义词词典。例如，假设要对“我爱中国篮球好玩”进行分词，那么，在不考虑停用词的情况下，一般标准的分词为：“我”，“爱”，“中国”，“篮球”，“好玩”，而如果将“中国篮”设置为自定义词，那么，分词结果就会变为：“我”，“爱”，“中国篮”，“球”，“好玩”。

步骤S12：对上述若个分词中的分词进行词性分析，以确定上述若干分词中的同义词，并将所确定的同义词添加至预定义的第一同义词词典中，得到第二同义词词典，其中，第一同义词词典中包括至少一组自定义的同义词。第一同义词词典可以是基于IK分词器的自定义的同义词词典。

可以使用预先训练好的词向量模型，如word2vec，将每个分词均转换为一个向量；

计算分词的向量之间的夹角的余弦值，将向量之间的夹角的余弦值大于预设值的分词(向量之间的夹角的余弦值大于预设值，说明分词之间的相似度较高)确定为同义词；或者，计算分词的向量之间的距离；将向量之间的距离小于预设距离预置的分词(向量之间的距离小于预设距离预置，说明分词的相似度较高)确定为同义词；或者，计算分词的向量之间的皮尔逊相关系数，将向量之间的皮尔逊相关系数大于预设系数预置的分词(向量之间的皮尔逊相关系数大于预设系数预置，说明分词的相似度较高)确定为同义词。

其中，向量之间的距离可以为欧式距离，闵可夫斯基距离或曼哈顿距离等。

第一同义词词典中除了包括一些常用同义词外，还包括在上述特定专业或特定领域的自定义的同义词，例如，在直播、短视频领域，“直播间”和“频道”通常代表一个意思，而这两个词在其它场景下却不是同义词，因此，若第一数据集是直播、短视频领域的数据集，则将“直播间”和“频道”作为同义词添加到第一同义词词典中。

步骤S13：根据上述若干分词，从上述第一数据集中的各个数据样本中提取关键词，并根据提取的关键词构建与各个数据样本对应的代表词。

可选的，可以使用TF-IDF(term frequency–inverse document frequency，词频-逆向文档频率)模型对每个样本数据进行关键词提取。具体的，可以计算每个关键词的词频和逆向文档词频，并计算词频和逆向文档词频的乘积，根据乘积结果选择一定数量的关键词。

为了使得数据处理结果，即第二数据集，能够更好的应用于垂直搜索引擎，可以从每个数据样本中提取预置数量(为方便叙述，记为K)的关键词，该预置数量与数据样本的长度相适应，也就是说，第一数据集中数据样本的长度不同，K值可能会不同。

发明人研究发现，如果K为定值，即不管数据样本的长度是什么，K值都不变，那么，对于较短数据样本，如果K值太大，从较短数据样本中提取的关键词就很少，而且，关键词太多也不适合做搜索提示词，如果K值太小，从较长数据样本中提取的关键词又会较少，而且无法刻画较长数据样本的特征，后续聚合处理的结果不能准确的表征第一数据集的特征，因此，需要结合具体的数据集中数据样本的长度设置一个较合适的K值。具体可以根据经验确定。其中，数据集中数据样本的长度可以根据数据集中大多数数据样本的长度确定，例如，若数据集中超过95％的样本数据的长度均小于第一长度，则可以将数据集中数据样本的长度定义为第一长度，或者，可以将数据集中长度小于第一长度的数据样本的长度的平均值作为数据集中数据样本的长度。

对于数据样本比较短的第一数据集，K的取值可以小一些，例如，对于直播、视频领域的第一数据集，数据样本(即直播标题，主播昵称或艺名，视频标题等)的长度通常比较短，数据样本的长度一般在20个字以内，K的取值可以为3或4或5。而在一些领域，例如论坛，数据样本(如，用户发表的观点)通常会比较长，K的取值可以在10-30之间，当然，这里只是示例性说明，具体的K值可以结合经验根据实际情况确定。

需要说明的是，若从数据样本中提取的关键词的个数G小于K，则将该G个关键词作为数据样本的关键词；若从数据样本中提取的关键词的个数G大于K，则从该G个关键词中选择K个关键词作为数据样本的关键词。也就是说，从数据样本中提取的关键词的个数不超过预置数量K。

本申请实施例中，每个数据样本对应的代表词由从该数据样本中提取的至少部分关键词构成。将该至少部分关键词按一定的规则进行组合得到数据样本对应的代表词。

例如，若提取的关键词中存在单字，则将单字去除，利用保留的关键词构建代表词。

在根据提取的关键词构建代表词时，可以根据关键词在数据样本中的位置及其长度判断相邻关键词之间的间隔，若相邻两个关键词之间的间隔小于预置字符数，则将该相邻的关键词连接在一起，若相邻两个关键词之间的间隔大于或等于预置字符数，则在该相邻关键词之间插入空格以将二者隔开。

其中，关键词在数据样本中的位置可以用关键词在数据样本中的偏移量来表征。关键词在数据样本中的偏移量即为关键词的第一个字符相对于数据样本的第一个字符的偏移量。

例如，假设数据样本为“呀大家都爱中国蓝”，分词结果为“大家”，“都爱”，“中国蓝”，这里“呀”作为停用词被过滤了。其中，“大家”在数据样本中的偏移量为1，其长度为2，“都爱”在数据样本中的偏移量为3，其长度为2，“中国蓝”在数据样本中的偏移量为5，其长度为3。“大家”和“都爱”为相邻的关键词，“都爱”和“中国蓝”为相邻的关键词。“大家”和“都爱”之间的间隔为：3-(1+2)＝0，“都爱”和“中国蓝”之间的间隔为：5-(3+2)＝0，假设上述预置字符数为2，则“大家”，“都爱”，“中国蓝”构成的代表词为：“大家都爱中国蓝”。

再例如，假设在数据样本A中，提取的相邻两个关键词分别为“美丽”和“中国蓝”，其中，“美丽”在数据样本A中的偏移量是2，长度是为2，“中国蓝”在数据样本A中的偏移量是5，长度是为3，则“美丽”和“中国蓝”之间的间隔为：5-(2+2)＝1，假设上述预置字符数为2，则“美丽”和“中国蓝”在构成代表词时是连接在一起的，即代表词为：“美丽中国蓝”。

又例如，假设在数据样本B中，提取的相邻两个关键词分别为“美丽”和“中国蓝”，其中，“美丽”在数据样本A中的偏移量是4，长度是为2，“中国蓝”在数据样本A中的偏移量是13，长度是为3，则“美丽”和“中国蓝”之间的间隔为：13-(4+2)＝7，假设上述预置字符数为2，则“美丽”和“中国蓝”在构成代表词时二者之间是存在空格的，即代表词为：“美丽中国蓝”。

步骤S14：根据上述第二同义词词典对构建的代表词进行聚合处理，得到第二数据集。

对构建的代表词进行聚合处理，主要是对构建的代表词进行去重处理，也就是说，根据第二同义词词典对构建的代表词进行分析，以确定是否存在具有相同预置特征的代表词，将具有相同预置特征的代表词进行去重处理，得到第二数据集。

本申请提供的数据处理方法，由于聚合处理过程考虑了词之间的相似性，且代表词中关键词的数量与样本数据的长度相适应，使得聚合后的数据的数据量尽量少，且携带了较大的信息量，能够较充分的表征数据样本的特征，因而，当聚合后的数据作为提示词集合应用于垂直搜索引擎时，提示词能够关联较多的内容，使得搜索结果能够满足用户实际需求，提高了对用户的辅助性。而且，由于提示词集合的数量较少，因此垂直搜索引擎能够快速展示提示词，提高搜索的便捷性。

在一可选的实施例中，上述根据上述若干分词，从第一数据集中的各个数据样本中提取关键词，并根据提取的关键词构建与各个数据样本对应的代表词的一种实现流程图如图2所示，可以包括：

步骤S21：获取数据样本的长度，若数据样本的长度小于预设阈值，则执行步骤S22；否则，执行步骤S23。

数据样本的长度可以是指数据样本的字符数。

步骤S22：将数据样本作为与数据样本对应的代表词。

也就是说，若数据样本的长度太短，就直接将数据样本作为该数据样本的代表词，而无需对该数据样本进行关键词提取。

步骤S23：根据上述若干分词，从数据样本中提取关键词，根据所提取的关键词构建与数据样本对应的代表词。

本实施例中，只有在数据样本的长度大于或等于预设阈值时才进行关键词提取，否则不进行关键词提取，而是直接将数据样本作为代表词，减少了提取关键词的步骤，从而提高了数据处理效率。

通常，在第一数据集中，数据样本可能由一个句子构成，也可能由两个或更多个句子构成。

对于只包括一个句子的数据样本，可以按照如图2所示实施例提供的处理方法对数据样本进行处理。

对于包括至少两个句子的数据样本，则对该数据样本中的每个句子分别进行关键词提取，并去除所提取的关键词中的单字。

针对每个句子，根据保留的关键词在该句子中的位置以及关键词的长度，计算任意相邻两个关键词之间的间隔，并将得到的所有间隔求和，得到与所保留的关键词对应的和值。

例如，假设数据样本C由句子C1和句子C2构成，其中，句子C1中提取的关键词为“大家”，“都爱”，“中国蓝”。“大家”和“都爱”之间的间隔为0，都爱”和“中国蓝”之间的间隔为2，则针对句子C1，关键词之间的间隔之和为：0+2＝2。句子C2中提取的关键词为“美丽”和“中国蓝”，“美丽”和“中国蓝”之间的间隔为7，则针对句子C2，关键词之间的间隔之和为：7。

以前述数据样本C为例，最小和值为2，则最小和值为2对应的保留的关键词为“大家”，“都爱”，“中国蓝”，即代表词由“大家”，“都爱”和“中国蓝”构成，而不是由“美丽”和“中国蓝”构成。例如，假设上述预置字符数为2，则由“大家”，“都爱”和“中国蓝”构成的代表词为：“大家都爱中国蓝”。

在一可选的实施例中，上述根据第二同义词词典对构建的代表词进行聚合处理，得到第二数据集的一种实现方式可以为：

若依据第二同义词词典确定第一代表词中的第一关键词存在同义词，获取与第一关键词及其同义词对应的预置关键词。

第一代表词为所构建的代表词中的任意一个代表词，也就是说，针对每个代表词，均判断其包括的关键词中是否存在同义词，并在确定存在关键词时，获取对应的预置关键词。

第一关键词及其同义词对应同一预置关键词。在一可选的实施例中，上述预置关键词为第一关键词或第一关键词的同义词。

用预置关键词替换第一代表词中的第一关键词，得到第一代表词的同义词。

例如，假设第一代表词为“大美乡村”，通过第二同义词词典，确定关键词“大美”的同义词为“美丽”，二者对应的预置关键词为“美丽”，则第一代表词的同义词为“美丽乡村”，而若二者对应的预置关键词为“大美”，则第一代表词的同义词为“大美乡村”，也就是其自身。

基于第一代表词的同义词对所构建的代表词进行去重处理，得到第二数据集。

在一可选的实施例中，基于第一代表词的同义词对所构建的代表词进行去重处理的一种实现方式可以为：

若所构建的代表词中存在与第一代表词的同义词相同的第二代表词，将第一代表词和第二代表词进行去重处理。

若所构建的代表词中的第三代表词的同义词与第一代表词的同义词相同，对第一代表词和第三代表词进行去重处理。

在另一可选的实施例中，基于第一代表词的同义词对所构建的代表词进行去重处理的一种实现方式可以为：

若所构建的代表词中各个代表词均存在同义词，则将代表词的同义词中的各个关键词按预设规则进行排序，得到排序后的同义词。

可选的，上述预设规则可以为：获取各个关键词关联的英文字母，按照英文字母的先后顺序将对应的关键词排序。其中，若关键词由文字构成，则关键词关联的英文字母为关键词中首字的拼音的首字母，若关键词为英文单词，则关键词关联的英文字母为英文单词的首字母。

另外，若关键词由文字构成，且两个关键词的首字的拼音的首字母相同，则对于这两个关键词，可以将关键词的第二个字的拼音的首字母作为关键词关联的英文字母，依此类推。或者，

若关键词由文字构成，且两个关键词的首字的拼音的首字母相同，则对于这两个关键词，可以将关键词的首字的拼音的第二个字母作为关键词关联的英文字母，依此类推。或者，

若关键词由文字构成，且两个关键词的首字的拼音的首字母相同，则保留这两个关键词在代表词的同义词中的顺序。

若关键词为英文单词，且两个英文单词的首字母相同，则可以将英文单词的第二个字母作为关键词关联的英文字母，依此类推。或者，

若关键词为英文单词，且两个英文单词的首字母相同，则可以保留这两个关键词在代表词的同义词中的顺序。

例如，假设代表词R1的同义词为：“大家都爱中国蓝”，其由“大家”，“都爱”，“中国蓝”三个关键词构成，其中，“大家”关联的英文字母为“大”的拼音“da”的首字母“d”，同理，“都爱”关联的英文字母为“都”的拼音“dou”的首字母“d”，“中国蓝”关联的英文字母为“中”的拼音“zhong”的首字母“z”，按照英文字母的先后顺序，d排在z的前边，则“大家”，“都爱”，应该排在“中国蓝”的前边，而由于R1的同义词中，“大家”，“都爱”本就排在“中国蓝”的前边，因此，保持R1的同义词中关键词的顺序即可，也就是说，排序后的同义词仍为“大家都爱中国蓝”。

再例如，假设代表词R2的同义词为“中国蓝都爱”，其由“中国蓝”和“都爱”两个关键词构成，根据前述分析，“都爱”应该在“中国蓝”的前边，因此，将R2的同义词“中国蓝都爱”中的两个关键词调换位置，得到“都爱中国蓝”。

需要说明的是，虽然这里介绍的是对代表词的同义词中的关键词按预设规则进行排序的过程，可以理解的是，若需要对代表词中的关键词按预设规则进行排序，其实现方式与上述对代表词的同义词中的关键词按预设规则进行排序的过程相同，这里不再详述。

基于排序后的同义词为代表词的同义词分配唯一识别标识。

可以计算排序后的同义词的MD5值，将计算得到的MD5值作为代表词的同义词的唯一识别标识。

将唯一识别标识与代表词相对应。

以前述代表词R2的同义词“中国蓝都爱”为例，需要计算“都爱中国蓝”的MD5值，然后将计算得到的MD5值与代表词R2建立对应关系。

将所构建的代表词中对应相同唯一识别标识的代表词进行去重处理。

也就是说，若第一代表词的同义词和第二代表词的同义词包括的关键词相同，但二者的关键词的排序不同，则认为第一代表词的同义词和第二代表词的同义词是重复的，相应的，第一代表词和第二代表词是重复的。

同理，若第一代表词和第二代表词包括的关键词相同，但二者的关键词的排序不同，则认为第一代表词和第二代表词是重复的。本实施例中，在进行去重处理时，不仅考虑了关键词的词性，还考虑了关键词之间的排序，使得聚合结果的数据量更少。在聚合结果作为提示词集合应用到搜索引擎时，能够更快的为用户提供搜索提示词。

在又一可选的实施例中，基于第一代表词的同义词对所构建的代表词进行去重处理的一种实现方式可以为：

若所构建的代表词中第一部分的代表词存在同义词，第二部分的代表词不存在同义词，即部分代表词存在同义词，部分代表词不存在同义词，则：

将第一部分的代表词的同义词中的各个关键词按预设规则进行排序，得到排序后的同义词。具体实现方式可以参看前述实施例，这里不再详述。

基于排序后的同义词为第一部分的代表词的同义词分配唯一识别标识。具体实现方式可以参看前述实施例，这里不再详述。

将分配的唯一识别标识与第一部分的代表词相对应。

将第二部分的代表词中的各个关键词按预设规则进行排序，得到排序后的代表词。具体实现方式可以参看前述实施例，这里不再详述。

基于排序后的代表词为第二部分的代表词分配唯一识别标识，即该唯一识别标识与第二部分的代表词建立有对应关系。可以计算排序后的代表词的MD5值，将MD5值作为第二部分的代表词的唯一识别标识。

将所获取的代表词中对应相同唯一识别标识的代表词进行去重处理。

若所构建的代表词中各个代表词不存在同义词，则将代表词中的各个关键词按预设规则进行排序，得到排序后的代表词。具体实现方式可以参看前述实施例，这里不再详述。

基于排序后的代表词为代表词分配唯一识别标识，即唯一识别标识与代表词建立有对应关系。可以计算排序后的代表词的MD5值，将MD5值作为代表词的唯一识别标识。

上述各实施例中，在进行去重处理时，可以考虑需要进行去重处理的代表词中，每个代表词中所有相邻关键词间的间隔之和，将需要进行去重处理的代表词中，和值最小的一个代表词保留，其它的代表词删除。

这样使得保留的代表词尽量短，在聚合结果作为提示词集合应用到搜索引擎时，对代表词的处理时间会缩短，提高搜索引擎的数据处理效率。

在一可选的实施例中，在根据第二同义词词典对构建的代表词进行聚合处理时，具体可以用于：

获取代表词的被点击频率，该代表词的点击频率由垂直搜索引擎监控得到。

本申请实施例中，在第二数据集应用于垂直搜索引擎后，垂直搜索引擎可以对第二数据集中的各个代表词的被点击情况进行监控，并将监控结果反馈给数据处理装置，以便于优化本申请提供的数据处理方法/装置。

若代表词的被点击频率小于预设频率阈值，删除该代表词；

根据第二同义词词典对剩余的代表词进行聚合处理。

与方法实施例相对应，本申请还提供一种数据处理装置。本申请提供的数据处理装置的一种结构示意图如图3所示，可以包括：

分词模块31，词性分析模块32，提取模块33和聚合模块34；其中，

分词模块31用于对第一数据集进行分词处理，得若干分词。

词性分析模块32用于对分词进行词性分析，以确定若干分词中的同义词，并将所确定的同义词添加至预定义的第一同义词词典中，得到第二同义词词典，第一同义词词典中包括至少一组自定义的同义词。

提取模块33用于根据上述若干分词，从第一数据集中的各个数据样本中提取关键词，并根据提取的关键词构建与各个数据样本对应的代表词；其中，所提取的关键的数量与数据样本的长度相适应。

聚合模块34用于根据第二同义词词典对构建的代表词进行聚合处理，得到第二数据集。

本申请提供的数据处理装置，由于聚合处理过程考虑了词之间的相似性，且代表词中关键词的数量与样本数据的长度相适应，使得聚合后的数据的数据量尽量少，且携带了较大的信息量，能够较充分的表征数据样本的特征，因而，当聚合后的数据作为提示词集合应用于垂直搜索引擎时，提示词能够关联较多的内容，使得搜索结果能够满足用户实际需求，提高了对用户的辅助性。而且，由于提示词集合的数量较少，因此垂直搜索引擎能够快速展示提示词，提高搜索的便捷性。

在一可选的实施例中，提取模块33具体可以用于：

获取数据样本的长度；

若数据样本的长度小于预设阈值，将数据样本作为与数据样本对应的代表词；

若数据样本的长度大于或等于预设阈值，根据上述若干分词，从数据样本中提取关键词，根据所提取的关键词构建与数据样本对应的代表词。

在一可选的实施例中，提取模块33在根据上述若干分词，从数据样本中提取关键词，根据所提取的关键词构建与数据样本对应的代表词时，具体可以用于：

若数据样本由至少两个句子构成，对每个句子分别进行关键词提取，并去除所提取的关键词中的单字；

针对每个句子，根据保留的关键词在句子中的位置以及关键词的长度，计算任意相邻两个关键词之间的间隔，并将得到的所有间隔求和，得到与所保留的关键词对应的和值；

根据最小和值对应的保留的关键词构建与数据样本对应的代表词。

在一可选的实施例中，聚合模块34具体可以用于：

若依据第二同义词词典确定第一代表词中的第一关键词存在同义词，获取与第一关键词及其同义词对应的预置关键词；

用预置关键词替换第一代表词中的第一关键词，得到第一代表词的同义词；

在一可选的实施例中，聚合模块34在基于第一代表词的同义词对所构建的代表词进行去重处理时，具体可以用于：

若构建的代表词中存在与第一代表词的同义词相同的第二代表词，将第一代表词和第二代表词进行去重处理；

若构建的代表词中的第三代表词的同义词与第一代表词的同义词相同，对第一代表词和第三代表词进行去重处理。

若构建的代表词中各个代表词均存在同义词，则将代表词的同义词中的各个关键词按预设规则进行排序，得到排序后的同义词；

基于排序后的同义词为代表词的同义词分配唯一识别标识；

将唯一识别标识与代表词相对应；

将构建的代表词中对应相同唯一识别标识的代表词进行去重处理。

若构建的代表词中第一部分的代表词存在同义词，第二部分的代表词不存在同义词，则：

将第一部分的代表词的同义词中的各个关键词按预设规则进行排序，得到排序后的同义词；

基于排序后的同义词为第一部分的代表词的同义词分配唯一识别标识；

将分配的唯一识别标识与第一部分的代表词相对应；

将第二部分的代表词中的各个关键词按预设规则进行排序，得到排序后的代表词；

基于排序后的代表词为第二部分的代表词分配唯一识别标识；

将获取的代表词中对应相同唯一识别标识的代表词进行去重处理。

另外，本申请实施例还提供一种计算机可读存储介质，该机算机可读存储介质中存储有指令，当该指令在终端设备上运行时，使得终端设备执行本申请实施例中提供的数据处理方法。

本申请实施例还提供一种电子设备，该电子设备包括：存储器，处理器，及存储在存储器上并可在上述处理器上运行的计算机程序，该处理器执行上述计算机程序时，实现本申请实施例提供的数据处理方法。

除了前述列举几种应用领域，本申请提供的数据处理方法和装置，还可以应用于图像领域，例如对图像标题进行搜索。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统(若存在)、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

对第一数据集进行分词处理，得若干分词；

2.根据权利要求1所述的方法，其特征在于，所述根据所述若干分词，从所述第一数据集中的各个数据样本中提取关键词，并根据提取的关键词构建与各个所述数据样本对应的代表词，包括：

获取所述数据样本的长度；

3.根据权利要求2所述的方法，其特征在于，所述根据所述若干分词，从所述数据样本中提取关键词，根据所提取的关键词构建与所述数据样本对应的代表词，包括：

4.根据权利要求1-3任意一项所述的方法，其特征在于，所述根据所述第二同义词词典对构建的代表词进行聚合处理，得到第二数据集，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一代表词的同义词对所述构建的代表词进行去重处理，包括：

6.根据权利要求4所述的方法，其特征在于，所述基于所述第一代表词的同义词对所述构建的代表词进行去重处理，包括：

将所述唯一识别标识与所述代表词相对应；

7.根据权利要求4所述的方法，其特征在于，所述基于所述第一代表词的同义词对所述构建的代表词进行去重处理，包括：

将分配的唯一识别标识与所述第一部分的代表词相对应；

8.一种数据处理装置，其特征在于，包括：

分词模块，用于对第一数据集进行分词处理，得若干分词；

9.一种计算机可读存储介质，其特征在于，所述机算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行如权利要求1-7任一项所述的数据处理方法。

10.一种电子设备，其特征在于，包括：存储器，处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-7中任一项所述的数据处理方法。