CN111553153A

CN111553153A - 一种采用多数据源采集技术用于游客画像分析的方法

Info

Publication number: CN111553153A
Application number: CN202010316027.7A
Authority: CN
Inventors: 石志潮; 万俊
Original assignee: Hubei Zhilyuyun Technology Co ltd
Current assignee: Hubei Zhilyuyun Technology Co ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-08-18

Abstract

本发明公开了一种采用多数据源采集技术用于游客画像分析的方法，具体包括以下步骤：S1、分词：首先通过分词算法将预先采集的游客画像数据转化为词语列表，S2、特征选择：然后通过特征选择算法对步骤S1分词后的游客画像进行特征选择，实现游客画像特征属性的提取，S3、相似度计算：最后基于相似度计算的去重算法对步骤S2提取的特征进行去重，本发明涉及数据库、数据文件、数据接口和程序技术领域。该采用多数据源采集技术用于游客画像分析的方法，本发明能够支持多数据源的游客画像数据采集，并且数据仓库使用多维数据模型建模，游客画像数据加工可精确去重，同时本发明支持多语言平台的开发应用。

Description

一种采用多数据源采集技术用于游客画像分析的方法

技术领域

本发明涉及数据库、数据文件、数据接口和程序技术领域，具体为一种采用多数据源采集技术用于游客画像分析的方法，涉及数据采集及数据合并去重和处理加工。

背景技术

目前现有数据采集非常依赖模型以及算法，如果想要得到精准的结论，需要建立模型来描述问题，同时，需要理顺逻辑，理解因果，设计精妙的算法来得出接近现实的结论，因此，一个问题，能否得到最好的解决，取决于建模是否合理，各种算法的比拼成为决定成败的关键。

举例来说，假设解决某一问题有原有算法A和我们的算法B。在小量数据中运行时，算法A的结果明显优于算法B。也就是说，就算法本身而言，算法A能够带来更好的结果；然而，我们发现，当数据量不断增大时，算法B在大量数据中运行的结果优于算法A在小量数据中运行的结果。当数据越来越大时，数据本身(而不是研究数据所使用的算法和模型)算法B保证了数据分析结果的有效性。即便缺乏精准的算法，只要拥有足够多的数据，也能得到接近事实的结论。

因此当数据足够多的时候，不需要了解具体的因果关系就能够得出结论，例如，Google在帮助用户翻译时，并不是设定各种语法和翻译规则。而是利用Google数据库中收集的所有用户的用词习惯进行比较推荐，Google检查所有用户的写作习惯，将最常用、出现频率最高的翻译方式推荐给用户。在这一过程中，计算机可以并不了解问题的逻辑，但是当用户行为的记录数据越来越多时，计算机就可以在不了解问题逻辑的情况之下，提供最为可靠的结果。可见，多数据源数据和处理这些数据的分析工具，提供了一条完整的新途径。

由于能够处理多种数据结构，能够在最大程度上利用和打通各类渠道的数据进行分析。在此出现之前，计算机所能够处理的数据都需要前期进行结构化处理，并记录在相应的数据库中，但多数据源采集技术对于数据的结构的要求大大降低，各类来源渠道的游客画像信息的各种维度的信息都可以实时处理，立体完整地勾勒出每一个游客个体的各种特征。

随着大数据时代的到来，多数据源抓取采集的游客画像数据重复性冗余急剧增大，这些重复的数据严重影响后期的加工和客户体验，因此对于多数据源采集服务，迫切需要针对游客画像数据开展去重研究来解决数据重复带来的一系列问题。

对于不同的应用场景，考虑到数据规模、时间开销，去重算法的选择会有所不同，本发明在此分析不同算法的去重原理以及时间开销，从理论上分析不同算法的优缺点，并给出具体的实现步骤，为不同需求的应用场景在去重算法的选择上提供选择，Jaccard算法中的Jaccard系数，又称Jaccard相似度系数，用来评估两个集合之间的相似度和分散度，Jaccard系数越大表明两种游客画像的相似度越大，利用Jaccard去重，首先将游客画像数据通过分词转化为由词语构成的特征集合，通过检查两个集合的Jaccard系数是否超过指定的阈值来判断游客画像数据是否重复。

传统的Jaccard，基于Merge算法，通过求取两个游客画像的特征集、合交集和并集的长度比例来衡量之间的距离，计算公式如下所示

从实现的原理上看，传统的Jaccard算法，并没有将两个游客画像数据的长度差异考虑进去，假设两个游客画像数据重复的数据长度差异很大，例如一个包含1500个单词，一个包含500个单词，两个游客画像数据的单词交集长度是500，利用传统的Jaccard计算两个游客画像数据距离，结果是：0.25，传统Jaccard的阈值一般在0.5以上，在这种情况下，就很容易漏判长度差异大的重复游客画像数据。此外Merge算法的时间复杂度是0(m+n)(m和n是两个集合的长度)，不是很高，但当游客画像数据内容很长，数据规模很大时，这个时间开销将会非常庞大，因此Jaccard算法不适应数据内容较长、数据规模较大的业务场景。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种采用多数据源采集技术用于游客画像分析的方法，通过去重算法在游客画像数据方面的表现进行研究，并分析不同实现方式的去重算法之间的精度，召回率和效率的差异，在游客画像去重上表现优异的算法，为数据去重提供服务。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种采用多数据源采集技术用于游客画像分析的方法，具体包括以下步骤：

S1、分词：首先通过分词算法将预先采集的游客画像数据转化为词语列表；

S2、特征选择：然后通过特征选择算法对步骤S1分词后的游客画像进行特征选择，实现游客画像特征属性的提取；

S3、相似度计算：最后基于相似度计算的去重算法对步骤S2提取的特征进行去重。

优选的，所述步骤S1中分词算法为结巴分词算法、IKAnalyzer分词算法或HanLP分词算法中的一种，结巴分词算法包含精确模式、全模式和搜索引擎模式三种模式，IKAnalyzer分词算法包含细粒度模式和智能模式两种模式，HanLP分词算法包含八个分词器，其分别为：标准分词、NLP分词、索引分词、N最短路径分词、最短路径分词、CRF分词、极速词典分词和繁体分词。

优选的，所述步骤S2中特征选择算法为词频TF算法、TF-IDF算法或TextRank算法中的一种。

优选的，所述词频算法是采用的是相对词频，且相对词频的计算公式为：词频＝某词在某游客画像数据中出现的次数/某游客画像总数据，词频是指词语出现的次数，词频统计通常不单独被使用，一般是结合其他算法一起使用，应用范围涉及中文分词、研究热点分析、文本分析等诸多方面，常用词频的计算方式是获取某个词在游客画像数据中出现的次数，但这种计算方式忽略了游客画像数据中有长短之分，当某一类游客画像数据差距很大，将不能准确体现游客画像数据之间的差异性，因此在本发明采用的是相对词频。

优选的，所述TF-IDF算法为词频TF和逆数据频率IDF的乘积，且逆数据频率IDF的计算公式为：逆数据频率＝log*(数据中的总游客画像数据总数/包含某词的游客画像数据数)，TF-IDF算法和词频算法同样都是常用的加权技术，但相比于词频，TF-IDF能够反映整个词在一个文本数据集合或者数据库中的“重要程度“，词频仅仅在一定程度上反映一个词在一个游客画像数据中的重要程度，没有将整个游客画像数据库的大小考虑进去，TF-IDF广泛应用于自动关键词提取、文本摘要提取等，TF-IDF的主要思想是词语的重要性随着这个词在游客画像数据中出现的次数成正比，同时随着它在整个游客画像数据集合中出现的频率成反比，某个词在游客画像数据中的重要程度越大，TF-IDF的值就越大。

优选的，所述TextRank算法的计算对象是从数据转化为文本中的词语或句子，使每个词语或句子根据此算法会得到相应的权重，具体计算公式为：

特征选择是获取不同词语的权重值，即把每个词语看成一个节点(V_i)，当计算对象是词语时，因为取值都为1，TextRank就蜕变成PageRank，S(V_i)表示文本中词语i的重要性，In(V_i)是文章中指向词语i的词语集合，|Out(V_i)|表示数据中词语i指向的词语集合的元素个数，词语之间的相邻关系，依赖于窗口大小的设置，一个窗口中的任意两个词语之间都是相邻的，并且边都是无向无权的，由于TextRank需要经过多次迭代，因此特征获取的时间复杂度很高。

优选的，所述步骤S3中相似度计算的去重算法为基于短段数据的Jaccard算法，针对传统Jaccard对属于包含关系重复的数据识别能力低的问题，本发明提出一种基于短数据的Jaccard算法，通过求取两个特征集合交集占短数据集合长度的比例来衡量两个数据的距离，基于短段数据的Jaccard算法的计算公式为：

在这种改进下，属于包含关系的重复游客画像数据，即使数据长度差异很大，求取的数据Jaccard系数也会随数据相似程度的增大而增大，对于传统Jaccard中的例子，使用改进的Jaccard计算，两个数据的距离就是1，即完全重复，符合实际情况，改进的Jaccard的时间复杂度和传统Jaccard相同，但是相比传统的Jaccard少了求并集的过程，因此时间消耗要少。

(三)有益效果

本发明提供了一种采用多数据源采集技术用于游客画像分析的方法。与现有技术相比具备以下有益效果：该采用多数据源采集技术用于游客画像分析的方法，通过针对在数据服务中去重不可避免且缺乏理论指导的问题，通过研究SimHash、MinHash、Jaccard、CosineSimilarty经典去重算法，以及常见的分词和特征选择算法，以寻求表现优异的算法搭配，并对传统Jaccard和SimHash进行了改进，分别产生新算法：Jaccard和基于CosineDistance的SimHash，针对比较对象众多实验效率低下的问题，提出了先纵向比较筛选出优势算法，然后横向比较获得最佳搭配，最后综合比较的策略，并结合3000游客画像样本实验证明：改进的SimHash比传统的SimHash具有更高的精度和召回率；改进的Jaccard较传统Jaccard，召回率提高了17％，效率提高了50％；MinHash+结巴全模式分词和Jaccard+IKAnalyzer智能分词在保持精度高于96％的条件下，都具有75％以上的高召回率，且稳定性很好，其中MinHash去重效果略低于Jaccard，但特征比较时间较短，综合表现最好，在这种改进下，属于包含关系的重复游客画像数据，即使数据长度差异很大，求取的数据Jaccard系数也会随数据相似程度的增大而增大，对于传统Jaccard中的例子，使用改进的Jaccard计算，两个数据的距离就是1，即完全重复，符合实际情况，改进的Jaccard的时间复杂度和传统Jaccard相同，但是相比传统的Jaccard少了求并集的过程，因此时间消耗要少，本发明能够支持多数据源的游客画像数据采集，并且数据仓库使用多维数据模型建模，游客画像数据加工可精确去重，同时本发明支持多语言平台的开发应用。

附图说明

图1为本发明的工作原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例提供三种技术方案：一种采用多数据源采集技术用于游客画像分析的方法，具体包括以下实施例：

实施例1

一种采用多数据源采集技术用于游客画像分析的方法，其特征在于：具体包括以下步骤：

S1、分词：首先通过分词算法将预先采集的游客画像数据转化为词语列表，分词算法为结巴分词算法，结巴分词算法包含精确模式、全模式和搜索引擎模式三种模式；

S2、特征选择：然后通过特征选择算法对步骤S1分词后的游客画像进行特征选择，实现游客画像特征属性的提取，特征选择算法为词频TF算法；

S3、相似度计算：最后基于相似度计算的去重算法对步骤S2提取的特征进行去重，相似度计算的去重算法为基于短段数据的Jaccard算法，针对传统Jaccard对属于包含关系重复的数据识别能力低的问题，本发明提出一种基于短数据的Jaccard算法，通过求取两个特征集合交集占短数据集合长度的比例来衡量两个数据的距离，基于短段数据的Jaccard算法的计算公式为：

词频算法是采用的是相对词频，且相对词频的计算公式为：词频＝某词在某游客画像数据中出现的次数/某游客画像总数据，词频是指词语出现的次数，词频统计通常不单独被使用，一般是结合其他算法一起使用，应用范围涉及中文分词、研究热点分析、文本分析等诸多方面，常用词频的计算方式是获取某个词在游客画像数据中出现的次数，但这种计算方式忽略了游客画像数据中有长短之分，当某一类游客画像数据差距很大，将不能准确体现游客画像数据之间的差异性，因此在本发明采用的是相对词频。

实施例2

S1、分词：首先通过分词算法将预先采集的游客画像数据转化为词语列表，分词算法为IKAnalyzer分词算法，IKAnalyzer分词算法包含细粒度模式和智能模式两种模式；

S2、特征选择：然后通过特征选择算法对步骤S1分词后的游客画像进行特征选择，实现游客画像特征属性的提取，特征选择算法为TF-IDF算法；

TF-IDF算法为词频TF和逆数据频率IDF的乘积，且逆数据频率IDF的计算公式为：逆数据频率＝log*(数据中的总游客画像数据总数/包含某词的游客画像数据数)，TF-IDF算法和词频算法同样都是常用的加权技术，但相比于词频，TF-IDF能够反映整个词在一个文本数据集合或者数据库中的“重要程度“，词频仅仅在一定程度上反映一个词在一个游客画像数据中的重要程度，没有将整个游客画像数据库的大小考虑进去，TF-IDF广泛应用于自动关键词提取、文本摘要提取等，TF-IDF的主要思想是词语的重要性随着这个词在游客画像数据中出现的次数成正比，同时随着它在整个游客画像数据集合中出现的频率成反比，某个词在游客画像数据中的重要程度越大，TF-IDF的值就越大。

实施例3

S1、分词：首先通过分词算法将预先采集的游客画像数据转化为词语列表，分词算法为HanLP分词算法，HanLP分词算法包含八个分词器，其分别为：标准分词、NLP分词、索引分词、N最短路径分词、最短路径分词、CRF分词、极速词典分词和繁体分词；

S2、特征选择：然后通过特征选择算法对步骤S1分词后的游客画像进行特征选择，实现游客画像特征属性的提取，特征选择算法为TextRank算法；

TextRank算法的计算对象是从数据转化为文本中的词语或句子，使每个词语或句子根据此算法会得到相应的权重，具体计算公式为：

综上，本发明通过针对在数据服务中去重不可避免且缺乏理论指导的问题，通过研究SimHash、MinHash、Jaccard、CosineSimilarty经典去重算法，以及常见的分词和特征选择算法，以寻求表现优异的算法搭配，并对传统Jaccard和SimHash进行了改进，分别产生新算法：Jaccard和基于CosineDistance的SimHash，针对比较对象众多实验效率低下的问题，提出了先纵向比较筛选出优势算法，然后横向比较获得最佳搭配，最后综合比较的策略，并结合3000游客画像样本实验证明：改进的SimHash比传统的SimHash具有更高的精度和召回率；改进的Jaccard较传统Jaccard，召回率提高了17％，效率提高了50％；MinHash+结巴全模式分词和Jaccard+IKAnalyzer智能分词在保持精度高于96％的条件下，都具有75％以上的高召回率，且稳定性很好，其中MinHash去重效果略低于Jaccard，但特征比较时间较短，综合表现最好，在这种改进下，属于包含关系的重复游客画像数据，即使数据长度差异很大，求取的数据Jaccard系数也会随数据相似程度的增大而增大，对于传统Jaccard中的例子，使用改进的Jaccard计算，两个数据的距离就是1，即完全重复，符合实际情况，改进的Jaccard的时间复杂度和传统Jaccard相同，但是相比传统的Jaccard少了求并集的过程，因此时间消耗要少，本发明能够支持多数据源的游客画像数据采集，并且数据仓库使用多维数据模型建模，游客画像数据加工可精确去重，同时本发明支持多语言平台的开发应用。

同时本说明书中未作详细描述的内容均属于本领域技术人员公知的现有技术。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种采用多数据源采集技术用于游客画像分析的方法，其特征在于：具体包括以下步骤：

2.根据权利要求1所述的一种采用多数据源采集技术用于游客画像分析的方法，其特征在于：所述步骤S1中分词算法为结巴分词算法、IKAnalyzer分词算法或HanLP分词算法中的一种。

3.根据权利要求1所述的一种采用多数据源采集技术用于游客画像分析的方法，其特征在于：所述步骤S2中特征选择算法为词频TF算法、TF-IDF算法或TextRank算法中的一种。

4.根据权利要求3所述的一种采用多数据源采集技术用于游客画像分析的方法，其特征在于：所述词频算法是采用的是相对词频，且相对词频的计算公式为：词频＝某词在某游客画像数据中出现的次数/某游客画像总数据。

5.根据权利要求3所述的一种采用多数据源采集技术用于游客画像分析的方法，其特征在于：所述TF-IDF算法为词频TF和逆数据频率IDF的乘积，且逆数据频率IDF的计算公式为：逆数据频率＝log*(数据中的总游客画像数据总数/包含某词的游客画像数据数)。

6.根据权利要求3所述的一种采用多数据源采集技术用于游客画像分析的方法，其特征在于：所述TextRank算法的计算对象是从数据转化为文本中的词语或句子，使每个词语或句子根据此算法会得到相应的权重，具体计算公式为：

特征选择是获取不同词语的权重值，即把每个词语看成一个节点(V_i)，当计算对象是词语时，因为取值都为1，TextRank就蜕变成PageRank，S(V_i)表示文本中词语i的重要性，In(V_i)是文章中指向词语i的词语集合，|Out(V_i)|表示数据中词语i指向的词语集合的元素个数。

7.根据权利要求1所述的一种采用多数据源采集技术用于游客画像分析的方法，其特征在于：所述步骤S3中相似度计算的去重算法为基于短段数据的Jaccard算法，通过求取两个特征集合交集占短数据集合长度的比例来衡量两个数据的距离，基于短段数据的Jaccard算法的计算公式为：