CN110059237A - 一种基于搜索引擎的爱好信息采集系统及其推荐方法 - Google Patents

一种基于搜索引擎的爱好信息采集系统及其推荐方法 Download PDF

Info

Publication number
CN110059237A
CN110059237A CN201910312446.0A CN201910312446A CN110059237A CN 110059237 A CN110059237 A CN 110059237A CN 201910312446 A CN201910312446 A CN 201910312446A CN 110059237 A CN110059237 A CN 110059237A
Authority
CN
China
Prior art keywords
module
data
text
engine
hobby
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910312446.0A
Other languages
English (en)
Inventor
汪齐顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Tianyi Network Media Co Ltd
Original Assignee
Hefei Tianyi Network Media Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Tianyi Network Media Co Ltd filed Critical Hefei Tianyi Network Media Co Ltd
Priority to CN201910312446.0A priority Critical patent/CN110059237A/zh
Publication of CN110059237A publication Critical patent/CN110059237A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于搜索引擎的爱好信息采集系统及其推荐方法,涉及数据分析领域。本发明包括依次连接的引擎输入模块、数据采集单元、数据预处理单元、特征分析模块、消息推送模块;引擎输入模块为移动动态数据引擎;数据采集单元包括数据清洗模块和分词模块;数据预处理单元包括比对模块、爱好提取模块和存储模块。本发明通过移动动态数据引擎获取用户输入的文本数据并加以清理、分词和向量化处理,再将提取后的数据输入预先设置网络模型中进行优化训练并不断完善,提高了搜索引擎推荐用户喜好的准确性和搜索体验。

Description

一种基于搜索引擎的爱好信息采集系统及其推荐方法
技术领域
本发明属于数据分析领域,特别是涉及一种基于搜索引擎的爱好信息采集系统,及一种基于搜索引擎的爱好信息推荐方法。
背景技术
随着互联网技术、通信技术的发展,特别是移动通信和软件技术的发展,为基于一种基于移动数据引擎的用户分析系统提供了可行性。
用户移动终端在移动网络中活动时,会产生各种信令消息,包含终端开机注册,用户终端切换,用户终端位置更新等各种信令消息,通过这些参数可以对用户行为、爱好进行分析,推断用户的行为规律以及用户用户喜好,从而提供了各种用户喜好和活动的有关信息,方便用户生活。
而移动动态数据引擎(MobileDynamicDataEngine,简称MDD)的发展为获取各种用户在移动通信网的用户的动静态数据提供了可能性,移动动态数据引擎是移动核心网络的一个新型的网元设备,通过集中采集和处理各种用户的活动产生的各种信令数据并进行解析和处理,并通过北向的数据服务接口开放处理后的各种用户数据,系统据此可以获取用户的各种动静态数据,包含终端位置,终端状态,终端信息等各种数据。
有鉴于此,本发明的目的在于提出一种简单易行,融合移动动态数据引擎的一种基于搜索引擎的爱好信息采集系统及其推荐方法。
发明内容
本发明的目的在于提供一种基于搜索引擎的爱好信息采集系统及其推荐方法,通过移动动态数据引擎获取用户输入的文本数据并加以清理、分词和向量化处理,再将提取后的数据输入预先设置网络模型中进行优化训练并不断完善,解决了现有的搜索引擎用户喜好推荐不准确、使用不方便的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种基于搜索引擎的爱好信息采集系统,包括依次连接的引擎输入模块、数据采集单元、数据预处理单元、特征分析模块、消息推送模块;
所述引擎输入模块为移动动态数据引擎,用于通过移动动态数据引擎采集用户在输入框中输入的各种文本数据,并汇聚到移动动态数据引擎;
所述数据采集单元包括数据清洗模块和分词模块;所述数据清洗模块用于对输入框中文本数据进行筛选,去除掉停用词和语气词;所述分词模块用于通过分词器对清洗完成的文本数据进行分词处理;
所述数据预处理单元包括比对模块、爱好提取模块和存储模块;所述对比模块用于将分词处理完成的文本数据与爱好数据库进行比对;所述爱好提取模块用于对比对完成的文本数据进行提取,获取用户的兴趣爱好数据;所述存储模块用于将对比出的新的喜好存入存储模块;
所述特征分析模块用于提取处理后的数据输入预置的网络模型中,确定用户的兴趣喜好,并对该用户设置标签,标签可为多个;
所述消息推送模板用于根据用户标签,来推送与标签相对应的喜好信息以及广告信息。
优选地,所述分词模块需要先获取的大量文本语料内容按照喜好类型进行分类和筛选,并制作成标签;所述标签的类型包括运动类、娱乐类、冒险类、益智类、收藏类、乐器类、文艺类、游戏类,并对文本语料歧义的、敏感题材的其他文本语料进行删除。
优选地,所述存储模块预先存储大量兴趣喜好关键词,并给每个关键词搭配相应的标签;所述分词模块将文本分词完成后,统计每个分词子集的词频,构建文本向量表示形式逐一与存储模块中的兴趣关键词进行比对。
本发明为一种基于搜索引擎的爱好信息采集系统的推荐方法,包括如下步骤:
步骤S01:用户通过搜索引擎的输入框输入文本数据;
步骤S02:对文本数据进行清洗,去除停用词和语气词;
步骤S03:利用分词器对文本数据进行分词处理获得子集;
步骤S04:对子集进行爱好提取并获取兴趣爱好标签;
步骤S05:将提取后的数据输入预置的网络模型中进行训练,优化模型;
步骤S06:系统根据获取的用户喜好在网页推荐相应的喜好信息以及广告信息。
优选地,所述步骤S01中,用户使用搜索引擎之前,需要通过系统完成身份注册并绑定唯一ID,每个ID能够绑定多个标签。
本发明具有以下有益效果:
本发明通过移动动态数据引擎获取用户输入的文本数据并加以清理、分词和向量化处理,再将提取后的数据输入预先设置网络模型中进行优化训练并不断完善,提高了搜索引擎推荐用户喜好的准确性和搜索体验。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种基于搜索引擎的爱好信息采集系统的结构示意图;
图2为本发明的一种基于搜索引擎的爱好信息采集系统的推荐方法步骤图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种基于搜索引擎的爱好信息采集系统,包括依次连接的引擎输入模块、数据采集单元、数据预处理单元、特征分析模块、消息推送模块;
引擎输入模块为移动动态数据引擎,用于通过移动动态数据引擎采集用户在输入框中输入的各种文本数据,并汇聚到移动动态数据引擎,移动动态数据引擎用户获取各种用户在移动通信网的用户的动静态数据提供了可能性,移动动态数据引擎是移动核心网络的一个新型的网元设备,通过集中采集和处理各种用户的活动产生的各种信令数据并进行解析和处理,并通过北向的数据服务接口开放处理后的各种用户数据;
数据采集单元包括数据清洗模块和分词模块;数据清洗模块用于对输入框中文本数据进行筛选,去除掉停用词和语气词,停用词是指语气助词、副词、介词、连接词等,通常自身并无明确的意义,只有将其放入一个完整的句子中才有一定作用,如常见的“的”、“在”之类,清洗删除停用词和语气词有助于提高检索效率和存储空间;分词模块用于通过分词器对清洗完成的文本数据进行分词处理;
数据预处理单元包括比对模块、爱好提取模块和存储模块;对比模块用于将分词处理完成的文本数据与爱好数据库进行比对;爱好提取模块用于对比对完成的文本数据进行提取,获取用户的兴趣爱好数据;存储模块用于将对比出的新的喜好存入存储模块;
特征分析模块用于提取处理后的数据输入预置的网络模型中,确定用户的兴趣喜好,并对该用户设置标签,标签可为多个;
消息推送模板用于根据用户标签,来推送与标签相对应的喜好信息以及广告信息,方便用户通过搜索引擎搜索时提供相应的信息和广告推荐,方便用户。
其中,分词模块需要先获取的大量文本语料内容按照喜好类型进行分类和筛选,并制作成标签;标签的类型包括运动类、娱乐类、冒险类、益智类、收藏类、乐器类、文艺类、游戏类,并对文本语料歧义的、敏感题材的其他文本语料进行删除。
其中,存储模块预先存储大量兴趣喜好关键词,并给每个关键词搭配相应的标签;分词模块将文本分词完成后,统计每个分词子集的词频,构建文本向量表示形式逐一与存储模块中的兴趣关键词进行比对。
请参阅图2所示,本发明为一种基于搜索引擎的爱好信息采集系统的推荐方法,包括如下步骤:
步骤S01:用户通过搜索引擎的输入框输入文本数据;
步骤S02:对文本数据进行清洗,去除停用词和语气词;
步骤S03:利用分词器对文本数据进行分词处理获得子集;
步骤S04:对子集进行爱好提取并获取兴趣爱好标签;
步骤S05:将提取后的数据输入预置的网络模型中进行训练,优化模型;
步骤S06:系统根据获取的用户喜好在网页推荐相应的喜好信息以及广告信息。
其中,步骤S01中,用户使用搜索引擎之前,需要通过系统完成身份注册并绑定唯一ID,每个ID能够绑定多个标签。
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (5)

1.一种基于搜索引擎的爱好信息采集系统,包括依次连接的引擎输入模块、数据采集单元、数据预处理单元、特征分析模块、消息推送模块,其特征在于:
所述引擎输入模块为移动动态数据引擎,用于通过移动动态数据引擎采集用户在输入框中输入的各种文本数据,并汇聚到移动动态数据引擎;
所述数据采集单元包括数据清洗模块和分词模块;所述数据清洗模块用于对输入框中文本数据进行筛选,去除掉停用词和语气词;所述分词模块用于通过分词器对清洗完成的文本数据进行分词处理;
所述数据预处理单元包括比对模块、爱好提取模块和存储模块;所述对比模块用于将分词处理完成的文本数据与爱好数据库进行比对;所述爱好提取模块用于对比对完成的文本数据进行提取,获取用户的兴趣爱好数据;所述存储模块用于将对比出的新的喜好存入存储模块;
所述特征分析模块用于提取处理后的数据输入预置的网络模型中,确定用户的兴趣喜好,并对该用户设置标签,标签可为多个;
所述消息推送模板用于根据用户标签,来推送与标签相对应的喜好信息以及广告信息。
2.根据权利要求1所述的一种基于搜索引擎的爱好信息采集系统,其特征在于,所述分词模块需要先获取的大量文本语料内容按照喜好类型进行分类和筛选,并制作成标签;所述标签的类型包括运动类、娱乐类、冒险类、益智类、收藏类、乐器类、文艺类、游戏类,并对文本语料歧义的、敏感题材的其他文本语料进行删除。
3.根据权利要求1所述的一种基于搜索引擎的爱好信息采集系统,其特征在于,所述存储模块预先存储大量兴趣喜好关键词,并给每个关键词搭配相应的标签;所述分词模块将文本分词完成后,统计每个分词子集的词频,构建文本向量表示形式逐一与存储模块中的兴趣关键词进行比对。
4.如权利要求1-3任意一所述的一种基于搜索引擎的爱好信息采集系统的推荐方法,其特征在于,包括如下步骤:
步骤S01:用户通过搜索引擎的输入框输入文本数据;
步骤S02:对文本数据进行清洗,去除停用词和语气词;
步骤S03:利用分词器对文本数据进行分词处理获得子集;
步骤S04:对子集进行爱好提取并获取兴趣爱好标签;
步骤S05:将提取后的数据输入预置的网络模型中进行训练,优化模型;
步骤S06:系统根据获取的用户喜好在网页推荐相应的喜好信息以及广告信息。
5.根据权利要求4所述的一种基于搜索引擎的爱好信息采集系统的推荐方法,其特征在于,所述步骤S01中,用户使用搜索引擎之前,需要通过系统完成身份注册并绑定唯一ID,每个ID能够绑定多个标签。
CN201910312446.0A 2019-04-18 2019-04-18 一种基于搜索引擎的爱好信息采集系统及其推荐方法 Withdrawn CN110059237A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910312446.0A CN110059237A (zh) 2019-04-18 2019-04-18 一种基于搜索引擎的爱好信息采集系统及其推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910312446.0A CN110059237A (zh) 2019-04-18 2019-04-18 一种基于搜索引擎的爱好信息采集系统及其推荐方法

Publications (1)

Publication Number Publication Date
CN110059237A true CN110059237A (zh) 2019-07-26

Family

ID=67319514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910312446.0A Withdrawn CN110059237A (zh) 2019-04-18 2019-04-18 一种基于搜索引擎的爱好信息采集系统及其推荐方法

Country Status (1)

Country Link
CN (1) CN110059237A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949912A (zh) * 2020-08-12 2020-11-17 北京一起教育信息咨询有限责任公司 一种基于标签的消息推送方法、装置和系统
CN112581195A (zh) * 2021-02-25 2021-03-30 武汉卓尔数字传媒科技有限公司 一种广告推送方法、装置和电子设备
CN112799658A (zh) * 2021-04-12 2021-05-14 北京百度网讯科技有限公司 模型训练方法、模型训练平台、电子设备和存储介质
CN113674012A (zh) * 2020-05-14 2021-11-19 南宁富桂精密工业有限公司 广告信息推送方法及其系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674012A (zh) * 2020-05-14 2021-11-19 南宁富桂精密工业有限公司 广告信息推送方法及其系统
CN111949912A (zh) * 2020-08-12 2020-11-17 北京一起教育信息咨询有限责任公司 一种基于标签的消息推送方法、装置和系统
CN111949912B (zh) * 2020-08-12 2021-05-18 北京一起教育信息咨询有限责任公司 一种基于标签的消息推送方法、装置和系统
CN112581195A (zh) * 2021-02-25 2021-03-30 武汉卓尔数字传媒科技有限公司 一种广告推送方法、装置和电子设备
CN112799658A (zh) * 2021-04-12 2021-05-14 北京百度网讯科技有限公司 模型训练方法、模型训练平台、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN110059237A (zh) 一种基于搜索引擎的爱好信息采集系统及其推荐方法
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106682169B (zh) 一种应用标签挖掘方法、装置和应用搜索方法、服务器
CN110020422B (zh) 特征词的确定方法、装置和服务器
CN103853824B (zh) 一种基于深度语义挖掘的内文广告发布方法与系统
CN103136360B (zh) 一种互联网行为标注引擎及对应该引擎的行为标注方法
CN106601237B (zh) 交互式语音应答系统及其语音识别方法
CN109726274B (zh) 问题生成方法、装置及存储介质
JP2020509449A (ja) 警告するための方法と装置
US20170368683A1 (en) User portrait based skill package recommendation device and method
WO2016192309A1 (zh) 推送信息的处理方法、装置、设备及非易失性计算机存储介质
CN105045916A (zh) 一种手机游戏推荐系统及其推荐方法
CN104111941B (zh) 信息展示的方法及设备
CN106682170B (zh) 一种应用搜索方法和装置
CN105843962A (zh) 信息处理、显示方法及装置以及信息处理显示系统
CN104850546B (zh) 移动媒介信息的展示方法和系统
CN105183787A (zh) 一种信息输入方法和装置
CN102163198A (zh) 提供新词或热词的方法及系统
CN110263248A (zh) 一种信息推送方法、装置、存储介质和服务器
KR102015235B1 (ko) 경로조회 방법, 장치, 디바이스 및 비휘발성 컴퓨터 기억 매체
CN102314440B (zh) 利用网络维护语言模型库的方法和系统
CN110321549B (zh) 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法
CN105279159B (zh) 联系人的提示方法和装置
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN111651570A (zh) 文本语句处理方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190726