CN110059237A

CN110059237A - 一种基于搜索引擎的爱好信息采集系统及其推荐方法

Info

Publication number: CN110059237A
Application number: CN201910312446.0A
Authority: CN
Inventors: 汪齐顺
Original assignee: Hefei Tianyi Network Media Co Ltd
Current assignee: Hefei Tianyi Network Media Co Ltd
Priority date: 2019-04-18
Filing date: 2019-04-18
Publication date: 2019-07-26

Abstract

本发明公开了一种基于搜索引擎的爱好信息采集系统及其推荐方法，涉及数据分析领域。本发明包括依次连接的引擎输入模块、数据采集单元、数据预处理单元、特征分析模块、消息推送模块；引擎输入模块为移动动态数据引擎；数据采集单元包括数据清洗模块和分词模块；数据预处理单元包括比对模块、爱好提取模块和存储模块。本发明通过移动动态数据引擎获取用户输入的文本数据并加以清理、分词和向量化处理，再将提取后的数据输入预先设置网络模型中进行优化训练并不断完善，提高了搜索引擎推荐用户喜好的准确性和搜索体验。

Description

一种基于搜索引擎的爱好信息采集系统及其推荐方法

技术领域

本发明属于数据分析领域，特别是涉及一种基于搜索引擎的爱好信息采集系统，及一种基于搜索引擎的爱好信息推荐方法。

背景技术

随着互联网技术、通信技术的发展，特别是移动通信和软件技术的发展，为基于一种基于移动数据引擎的用户分析系统提供了可行性。

用户移动终端在移动网络中活动时，会产生各种信令消息，包含终端开机注册，用户终端切换，用户终端位置更新等各种信令消息，通过这些参数可以对用户行为、爱好进行分析，推断用户的行为规律以及用户用户喜好，从而提供了各种用户喜好和活动的有关信息，方便用户生活。

而移动动态数据引擎(MobileDynamicDataEngine，简称MDD)的发展为获取各种用户在移动通信网的用户的动静态数据提供了可能性，移动动态数据引擎是移动核心网络的一个新型的网元设备，通过集中采集和处理各种用户的活动产生的各种信令数据并进行解析和处理，并通过北向的数据服务接口开放处理后的各种用户数据，系统据此可以获取用户的各种动静态数据，包含终端位置，终端状态，终端信息等各种数据。

有鉴于此，本发明的目的在于提出一种简单易行，融合移动动态数据引擎的一种基于搜索引擎的爱好信息采集系统及其推荐方法。

发明内容

本发明的目的在于提供一种基于搜索引擎的爱好信息采集系统及其推荐方法，通过移动动态数据引擎获取用户输入的文本数据并加以清理、分词和向量化处理，再将提取后的数据输入预先设置网络模型中进行优化训练并不断完善，解决了现有的搜索引擎用户喜好推荐不准确、使用不方便的问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明为一种基于搜索引擎的爱好信息采集系统，包括依次连接的引擎输入模块、数据采集单元、数据预处理单元、特征分析模块、消息推送模块；

所述引擎输入模块为移动动态数据引擎，用于通过移动动态数据引擎采集用户在输入框中输入的各种文本数据，并汇聚到移动动态数据引擎；

所述数据采集单元包括数据清洗模块和分词模块；所述数据清洗模块用于对输入框中文本数据进行筛选，去除掉停用词和语气词；所述分词模块用于通过分词器对清洗完成的文本数据进行分词处理；

所述数据预处理单元包括比对模块、爱好提取模块和存储模块；所述对比模块用于将分词处理完成的文本数据与爱好数据库进行比对；所述爱好提取模块用于对比对完成的文本数据进行提取，获取用户的兴趣爱好数据；所述存储模块用于将对比出的新的喜好存入存储模块；

所述特征分析模块用于提取处理后的数据输入预置的网络模型中，确定用户的兴趣喜好，并对该用户设置标签，标签可为多个；

所述消息推送模板用于根据用户标签，来推送与标签相对应的喜好信息以及广告信息。

优选地，所述分词模块需要先获取的大量文本语料内容按照喜好类型进行分类和筛选，并制作成标签；所述标签的类型包括运动类、娱乐类、冒险类、益智类、收藏类、乐器类、文艺类、游戏类，并对文本语料歧义的、敏感题材的其他文本语料进行删除。

优选地，所述存储模块预先存储大量兴趣喜好关键词，并给每个关键词搭配相应的标签；所述分词模块将文本分词完成后，统计每个分词子集的词频，构建文本向量表示形式逐一与存储模块中的兴趣关键词进行比对。

本发明为一种基于搜索引擎的爱好信息采集系统的推荐方法，包括如下步骤：

步骤S01：用户通过搜索引擎的输入框输入文本数据；

步骤S02：对文本数据进行清洗，去除停用词和语气词；

步骤S03：利用分词器对文本数据进行分词处理获得子集；

步骤S04：对子集进行爱好提取并获取兴趣爱好标签；

步骤S05：将提取后的数据输入预置的网络模型中进行训练，优化模型；

步骤S06：系统根据获取的用户喜好在网页推荐相应的喜好信息以及广告信息。

优选地，所述步骤S01中，用户使用搜索引擎之前，需要通过系统完成身份注册并绑定唯一ID，每个ID能够绑定多个标签。

本发明具有以下有益效果：

本发明通过移动动态数据引擎获取用户输入的文本数据并加以清理、分词和向量化处理，再将提取后的数据输入预先设置网络模型中进行优化训练并不断完善，提高了搜索引擎推荐用户喜好的准确性和搜索体验。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于搜索引擎的爱好信息采集系统的结构示意图；

图2为本发明的一种基于搜索引擎的爱好信息采集系统的推荐方法步骤图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为一种基于搜索引擎的爱好信息采集系统，包括依次连接的引擎输入模块、数据采集单元、数据预处理单元、特征分析模块、消息推送模块；

引擎输入模块为移动动态数据引擎，用于通过移动动态数据引擎采集用户在输入框中输入的各种文本数据，并汇聚到移动动态数据引擎，移动动态数据引擎用户获取各种用户在移动通信网的用户的动静态数据提供了可能性，移动动态数据引擎是移动核心网络的一个新型的网元设备，通过集中采集和处理各种用户的活动产生的各种信令数据并进行解析和处理，并通过北向的数据服务接口开放处理后的各种用户数据；

数据采集单元包括数据清洗模块和分词模块；数据清洗模块用于对输入框中文本数据进行筛选，去除掉停用词和语气词，停用词是指语气助词、副词、介词、连接词等，通常自身并无明确的意义，只有将其放入一个完整的句子中才有一定作用，如常见的“的”、“在”之类，清洗删除停用词和语气词有助于提高检索效率和存储空间；分词模块用于通过分词器对清洗完成的文本数据进行分词处理；

数据预处理单元包括比对模块、爱好提取模块和存储模块；对比模块用于将分词处理完成的文本数据与爱好数据库进行比对；爱好提取模块用于对比对完成的文本数据进行提取，获取用户的兴趣爱好数据；存储模块用于将对比出的新的喜好存入存储模块；

特征分析模块用于提取处理后的数据输入预置的网络模型中，确定用户的兴趣喜好，并对该用户设置标签，标签可为多个；

消息推送模板用于根据用户标签，来推送与标签相对应的喜好信息以及广告信息，方便用户通过搜索引擎搜索时提供相应的信息和广告推荐，方便用户。

其中，分词模块需要先获取的大量文本语料内容按照喜好类型进行分类和筛选，并制作成标签；标签的类型包括运动类、娱乐类、冒险类、益智类、收藏类、乐器类、文艺类、游戏类，并对文本语料歧义的、敏感题材的其他文本语料进行删除。

其中，存储模块预先存储大量兴趣喜好关键词，并给每个关键词搭配相应的标签；分词模块将文本分词完成后，统计每个分词子集的词频，构建文本向量表示形式逐一与存储模块中的兴趣关键词进行比对。

请参阅图2所示，本发明为一种基于搜索引擎的爱好信息采集系统的推荐方法，包括如下步骤：

步骤S01：用户通过搜索引擎的输入框输入文本数据；

步骤S02：对文本数据进行清洗，去除停用词和语气词；

步骤S03：利用分词器对文本数据进行分词处理获得子集；

步骤S04：对子集进行爱好提取并获取兴趣爱好标签；

其中，步骤S01中，用户使用搜索引擎之前，需要通过系统完成身份注册并绑定唯一ID，每个ID能够绑定多个标签。

值得注意的是，上述系统实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于搜索引擎的爱好信息采集系统，包括依次连接的引擎输入模块、数据采集单元、数据预处理单元、特征分析模块、消息推送模块，其特征在于：

2.根据权利要求1所述的一种基于搜索引擎的爱好信息采集系统，其特征在于，所述分词模块需要先获取的大量文本语料内容按照喜好类型进行分类和筛选，并制作成标签；所述标签的类型包括运动类、娱乐类、冒险类、益智类、收藏类、乐器类、文艺类、游戏类，并对文本语料歧义的、敏感题材的其他文本语料进行删除。

3.根据权利要求1所述的一种基于搜索引擎的爱好信息采集系统，其特征在于，所述存储模块预先存储大量兴趣喜好关键词，并给每个关键词搭配相应的标签；所述分词模块将文本分词完成后，统计每个分词子集的词频，构建文本向量表示形式逐一与存储模块中的兴趣关键词进行比对。

4.如权利要求1-3任意一所述的一种基于搜索引擎的爱好信息采集系统的推荐方法，其特征在于，包括如下步骤：

步骤S01：用户通过搜索引擎的输入框输入文本数据；

步骤S02：对文本数据进行清洗，去除停用词和语气词；

步骤S03：利用分词器对文本数据进行分词处理获得子集；

步骤S04：对子集进行爱好提取并获取兴趣爱好标签；

5.根据权利要求4所述的一种基于搜索引擎的爱好信息采集系统的推荐方法，其特征在于，所述步骤S01中，用户使用搜索引擎之前，需要通过系统完成身份注册并绑定唯一ID，每个ID能够绑定多个标签。