CN108549707A - 一种基于行为感知的大数据提取系统及方法 - Google Patents

一种基于行为感知的大数据提取系统及方法 Download PDF

Info

Publication number
CN108549707A
CN108549707A CN201810348617.0A CN201810348617A CN108549707A CN 108549707 A CN108549707 A CN 108549707A CN 201810348617 A CN201810348617 A CN 201810348617A CN 108549707 A CN108549707 A CN 108549707A
Authority
CN
China
Prior art keywords
behavior
information
user
server
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810348617.0A
Other languages
English (en)
Inventor
巫自友
胡德义
王钧甲
卢文波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Zhi Net Mdt Infotech Ltd
Original Assignee
Anhui Zhi Net Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Zhi Net Mdt Infotech Ltd filed Critical Anhui Zhi Net Mdt Infotech Ltd
Priority to CN201810348617.0A priority Critical patent/CN108549707A/zh
Publication of CN108549707A publication Critical patent/CN108549707A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/08Auctions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0611Request for offers or quotes

Landscapes

  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于行为感知的大数据提取系统及方法,涉及数据处理领域。本发明的一种基于行为感知的大数据提取方法包括如下步骤:步骤S001:页面获取;步骤S002:信息提取;步骤S003:信息去重;步骤S004:获取公告内容;步骤S005:自动分类;步骤S006:生成索引;步骤S007:信息分析提取;步骤S008:保存至数据库。本发明通过异步访问多个服务器同时采集多个网站页面数据,利用互联网的技术手段以及行为感知技术进行数据分析,为用户匹配感知信息,并对完成用户信息的智能分拣及过滤,实时为用户推送精准的匹配信息,提高了网页信息采集速度以及精准度,极大的增加了用户体验度。

Description

一种基于行为感知的大数据提取系统及方法
技术领域
本发明属于数据处理领域,特别是涉及一种基于行为感知的大数据提取系统及方法。
背景技术
按照预估计,全国公共采购招标网站在4000个以上,如果计入大型企业网站发布的招标信息在内可能在10000家以上。有些企业网站需要注册以后才能登录访问招标信息;要快速采集全国各招标网站最新发布的招标信息,必须对这几千上万的网站相关页面进行多线程并行自动访问。
在现有技术中,由于网页采集招标信息需要从几百上千个网站上获取,导致招标信息采集过慢、采集信息不准确,影响了用户快速了解招标信息。
本发明提出一种信息提取方法,根据需要进行多服务器同时采集。同一个网页采集线程需要管理几百上千个网站页面的获取,因此网页获取要采用异步访问模式,加快获取的速度。
发明内容
本发明的目的在于提供一种基于行为感知的大数据提取系统及方法,通过异步访问多个服务器同时采集多个网站页面数据,利用互联网的技术手段以及行为感知技术进行数据分析,为用户匹配感知信息,并对完成用户信息的智能分拣及过滤,实时为用户推送精准的匹配信息,解决了现有的网页信息采集过慢、信息精准度不足、用户体验不佳的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种基于行为感知的大数据提取系统,包括手机APP、交换机和应用服务器;所述手机APP通过互联网与交换机无线连接;所述互联网通过交换机与应用服务器连接;所述互联网和应用服务器之间设有一安全设备;所述交换机用于为多个网络节点提供独享的电性通路;所述应用服务器包括行为数据获取子系统、数据存储管理子系统、行为感知计算子系统;所述行为数据获取子系统,用以完成获取用户的历史行为数据,并据此生成融入上下文信息的用户行为数据;所述数据存储与管理子系统,用以完成用户历史行为数据、上下文信息、用户行为类集、页面采集信息、公告信息的存储与管理;所述行为感知计算子系统,用以完成依据用户行为数据的分类预处理,通过计算行为波动阈值、根据用户行为判断对公告内容进行分类;所述行为数据获取子系统还包括用户历史行为生成模块和上下文信息生成模块;所述用户历史行为生成模块,用以根据用户历史行为记录生成符合公告分类算法需求的数据源;所述用户上下文信息生成模块,用以实现与用户历史行为对应的上下文信息的生成,包括地理上下文、情绪上下文、环境上下文;所述行为感知计算子系统还包括行为分类模块和行为波动阈值计算模块;所述行为波动阈值计算模块,用以针对当前用户群组,采用量化的偏好均值来表示用户行为的变化,即用户行为波动,并根据其量化值分布特征计算波动阈值以分离用户行为孤点;所述行为分类模块,用以依据行为波动阈值将用户行为分类,输出用户与不同行为类的对应关系;所述应用服务器还包括采集模块、通信模块、日志模块和检索模块;所述采集模块用以采集页面信息;所述通信模块用以应用服务器与交换机之间通信连接;所述日志模块用以对用户的操作生成日志;所述检索模块用以用户通过关键字进行全文检索。
优选地,所述检索模块采用全文检索技术,公告标题和正文组合构成待检索的文本,事先构建文本的词汇检索索引,建立与文本的映射关系,构建成全文检索数据库。
优选地,所述应用服务器为多个;所述应用服务器包括公告采集服务器、推送信息生成分类服务器、全文检索服务器、数据库服务器、日志分析存储服务器、手机APP应用服务器和反向代理或负载均衡服务器;
其中,所述公告采集服务器、推送信息生成、分类服务器、全文检索服务器、数据库服务器、日志分析存储服务器均匀交换机通信连接;所述手机APP应用服务器通过反向代理或负载均衡服务器与交换机通信连接。
优选地,所述应用服务器包括公告采集服务器、推送信息生成分类服务器、全文检索服务器、数据库服务器、日志分析存储服务器、手机APP应用服务器和反向代理或负载均衡服务器均统一部署、配置。
本发明为一种基于行为感知的大数据提取方法,包括如下步骤:
步骤S001页面获取:根据系统配置的网站清单和需要访问的该网站页面清单,每个页面采集线程分批发起异步并访问页面;
步骤S002信息抽取:获取的页面交由页面解析线程组负责页面中需要的信息抽取;
步骤S003信息去重:抽取信息完成后,将重复的信息删除;
步骤S004获取公告内容:通过线程获取公告内容;
步骤S005自动分类:对获取的公告内容进行分类;
步骤S006生成索引:对分类完成的公告内容创建索引;
步骤S007信息分析提取:用户提交的关键字对新信息进行匹配,对匹配的新信息记录到需要推送的信息队列;
步骤S008保存至数据库:将发送的信息保存到系统数据库。
优选地,步骤S002中,页面信息抽取包括以下步骤:
步骤T001页面预处理:通过Java HTML Parser组件将半结构化HTML页面去掉无用的信息以及对不规则的HTML标识进行修正,为下一步标记信息做准备;
步骤T002解析DOM结构:页面预处理完成后,通过解析器把处理完成的网页文档分解成一个语法树;
步骤T003加载页面抽取规则:根据需求加载对应的抽取规则;
步骤T004页面文本分析:对特定的名词短语和动词短语进行语义和语法分析;
步骤T005按抽取规则搜索DOM节点:通过模式匹配识别指定的信息模式的各个部分;
步骤T006提取公告各部分信息:通过上下文分析和推理,确定信息的最终形式;
步骤T007输出结构化公告信息组:将结果输出成结构化的描述形式用于网络集成系统进行查询分析。
优选地,步骤T006中,公告提取通过所述用户行为波动阈值计算模块,计算量化的用户行为均值来获取用户行为的偏离程度,依据预设的舍弃比率最终获取行为波动阈值;
其中,所述量化的行为均值获取方法如下:
式中,Uk表示簇k内用户集,Item表示簇内用户有行为记录的项目集,Card(Item)表示集合Item内项目数量,Prejms表示在上下文环境Cm下用户Uj对于项目Ss的历史偏好值;
其中,用户行为偏离程度:
优选地,步骤T007中,公告化信息组通过用户偏好获取子系统获取用户行为分类,利用用户行为均值计算方法融合上下文信息与行为信息的用户行为,再根据用户反馈与具体应用环境对用户行为进行自适应修正,并将最终的用户行为信息存储至数据存储与管理子系统,然后依据用户行为信息通过网络服务为用户推荐出公告的分类内容。
本发明具有以下有益效果:
本发明通过异步访问多个服务器同时采集多个网站页面数据,利用互联网的技术手段以及行为感知技术进行数据分析,为用户匹配感知信息,并对完成用户信息的智能分拣及过滤,实时为用户推送精准的匹配信息,提高了网页信息采集速度以及精准度,极大的增加了用户体验度。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为发明的一种基于行为感知的大数据提取系统结构示意图;
图2为本发明的一种基于行为感知的大数据提取方法步骤图;
图3为页面信息抽取步骤图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种基于行为感知的大数据提取系统,包括手机APP、交换机和应用服务器;手机APP通过互联网与交换机无线连接;互联网通过交换机与应用服务器连接;互联网和应用服务器之间设有一安全设备;交换机用于为多个网络节点提供独享的电性通路;应用服务器包括行为数据获取子系统、数据存储管理子系统、行为感知计算子系统;行为数据获取子系统,用以完成获取用户的历史行为数据,并据此生成融入上下文信息的用户行为数据;数据存储与管理子系统,用以完成用户历史行为数据、上下文信息、用户行为类集、页面采集信息、公告信息的存储与管理;行为感知计算子系统,用以完成依据用户行为数据的分类预处理,通过计算行为波动阈值、根据用户行为判断对公告内容进行分类;行为数据获取子系统还包括用户历史行为生成模块和上下文信息生成模块;用户历史行为生成模块,用以根据用户历史行为记录生成符合公告分类算法需求的数据源;用户上下文信息生成模块,用以实现与用户历史行为对应的上下文信息的生成,包括地理上下文、情绪上下文、环境上下文;行为感知计算子系统还包括行为分类模块和行为波动阈值计算模块;行为波动阈值计算模块,用以针对当前用户群组,采用量化的偏好均值来表示用户行为的变化,即用户行为波动,并根据其量化值分布特征计算波动阈值以分离用户行为孤点;行为分类模块,用以依据行为波动阈值将用户行为分类,输出用户与不同行为类的对应关系;应用服务器还包括采集模块、通信模块、日志模块和检索模块;采集模块用以采集页面信息;通信模块用以应用服务器与交换机之间通信连接;日志模块用以对用户的操作生成日志;检索模块用以用户通过关键字进行全文检索。
其中,检索模块采用全文检索技术,公告标题和正文组合构成待检索的文本,事先构建文本的词汇检索索引,建立与文本的映射关系,构建成全文检索数据库;检索模块用于用户通过关键字进行全文检索,使用SQL语句在关系数据库字段中查询关键词和关键词组合是可以实现功能,但它的速度和准确性却很差,用户访问量大一些时就无法达到合适的响应速度,而且关键词组合查询无法直接满足匹配优先级排序;最理想的办法就是采用全文检索技术,构建本系统的垂直搜索子系统;将公告标题和正文组合构成待检索的文本,事先构建文本的词汇检索索引,建立与文本的映射关系,构建成全文检索数据库;关键词及其组合查询在全文检索系统有成熟匹配度模型,基于相关模型对搜索的结果排序;最后按匹配度顺序展示给用户;本系统的全文检索基本组件可以基于Lucene开放源代码的全文检索引擎工具包,其中中文分词可以采用基于java的综合效果较好的成熟分词软件。
其中,应用服务器为多个;应用服务器包括公告采集服务器、推送信息生成分类服务器、全文检索服务器、数据库服务器、日志分析存储服务器、手机APP应用服务器和反向代理或负载均衡服务器;
其中,公告采集服务器、推送信息生成、分类服务器、全文检索服务器、数据库服务器、日志分析存储服务器均匀交换机通信连接;手机APP应用服务器通过反向代理或负载均衡服务器与交换机通信连接。
其中,应用服务器包括公告采集服务器、推送信息生成分类服务器、全文检索服务器、数据库服务器、日志分析存储服务器、手机APP应用服务器和反向代理或负载均衡服务器均统一部署、配置。
请参阅图2-3所示,本发明为一种基于行为感知的大数据提取方法,包括如下步骤:
步骤S001页面获取:根据系统配置的网站清单和需要访问的该网站页面清单,每个页面采集线程分批发起异步并访问页面;例如一批可以同时异步访问100个页面,一个采集循环分10批完成,具体运行几个采集线程,分几批,每批并发获取多少页面需要实际选择不同参数试验来确定;
步骤S002信息抽取:获取的页面交由页面解析线程组负责页面中需要的信息抽取,抽取的信息包括招标信息和中标信息等等;
步骤S003信息去重:抽取信息完成后,将重复的信息删除,只保留最新的信息;
步骤S004获取公告内容:通过线程获取公告内容,获取公告内容只需1-2个线程获取,然后将获取的信息提交的数据产生模块和自动分类模块;
步骤S005自动分类:对获取的公告内容进行分类;
步骤S006生成索引:对分类完成的公告内容创建索引;
步骤S007信息分析提取:用户提交的关键字对新信息进行匹配,对匹配的新信息记录到需要推送的信息队列;
步骤S008保存至数据库:将发送的信息保存到系统数据库。
其中,步骤S002中,页面信息抽取包括以下步骤:
步骤T001页面预处理:通过Java HTML Parser组件将半结构化HTML页面去掉无用的信息以及对不规则的HTML标识进行修正,为下一步标记信息做准备;
步骤T002解析DOM结构:页面预处理完成后,通过解析器把处理完成的网页文档分解成一个语法树;
步骤T003加载页面抽取规则:根据需求加载对应的抽取规则,抽取规则通过正则表达式制定;
步骤T004页面文本分析:对特定的名词短语和动词短语进行语义和语法分析;
步骤T005按抽取规则搜索DOM节点:通过模式匹配识别指定的信息模式的各个部分;
步骤T006提取公告各部分信息:通过上下文分析和推理,确定信息的最终形式;
步骤T007输出结构化公告信息组:将结果输出成结构化的描述形式用于网络集成系统进行查询分析。
其中,步骤T006中,公告提取通过用户行为波动阈值计算模块,计算量化的用户行为均值来获取用户行为的偏离程度,依据预设的舍弃比率最终获取行为波动阈值;
其中,量化的行为均值获取方法如下:
式中,Uk表示簇k内用户集,Item表示簇内用户有行为记录的项目集,Card(Item)表示集合Item内项目数量,Prejms表示在上下文环境Cm下用户Uj对于项目Ss的历史偏好值;
其中,用户行为偏离程度:
其中,步骤T007中,公告化信息组通过用户偏好获取子系统获取用户行为分类,利用用户行为均值计算方法融合上下文信息与行为信息的用户行为,再根据用户反馈与具体应用环境对用户行为进行自适应修正,并将最终的用户行为信息存储至数据存储与管理子系统,然后依据用户行为信息通过网络服务为用户推荐出公告的分类内容。
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (8)

1.一种基于行为感知的大数据提取系统,包括手机APP、交换机和应用服务器,其特征在于:
所述手机APP通过互联网与交换机无线连接;所述互联网通过交换机与应用服务器连接;所述互联网和应用服务器之间设有一安全设备;
所述交换机用于为多个网络节点提供独享的电性通路;
所述应用服务器包括行为数据获取子系统、数据存储管理子系统、行为感知计算子系统;
所述行为数据获取子系统,用以完成获取用户的历史行为数据,并据此生成融入上下文信息的用户行为数据;
所述数据存储与管理子系统,用以完成用户历史行为数据、上下文信息、用户行为类集、页面采集信息、公告信息的存储与管理;
所述行为感知计算子系统,用以完成依据用户行为数据的分类预处理,通过计算行为波动阈值、根据用户行为判断对公告内容进行分类;
所述行为数据获取子系统还包括用户历史行为生成模块和上下文信息生成模块;
所述用户历史行为生成模块,用以根据用户历史行为记录生成符合公告分类算法需求的数据源;
所述用户上下文信息生成模块,用以实现与用户历史行为对应的上下文信息的生成,包括地理上下文、情绪上下文、环境上下文;
所述行为感知计算子系统还包括行为分类模块和行为波动阈值计算模块;
所述行为波动阈值计算模块,用以针对当前用户群组,采用量化的偏好均值来表示用户行为的变化,即用户行为波动,并根据其量化值分布特征计算波动阈值以分离用户行为孤点;
所述行为分类模块,用以依据行为波动阈值将用户行为分类,输出用户与不同行为类的对应关系;
所述应用服务器还包括采集模块、通信模块、日志模块和检索模块;
所述采集模块用以采集页面信息;
所述通信模块用以应用服务器与交换机之间通信连接;
所述日志模块用以对用户的操作生成日志;
所述检索模块用以用户通过关键字进行全文检索。
2.根据权利要求1所述的一种基于行为感知的大数据提取系统及方法,其特征在于,所述检索模块采用全文检索技术,公告标题和正文组合构成待检索的文本,事先构建文本的词汇检索索引,建立与文本的映射关系,构建成全文检索数据库。
3.根据权利要求1所述的一种基于行为感知的大数据提取系统及方法,其特征在于,所述应用服务器为多个;所述应用服务器包括公告采集服务器、推送信息生成分类服务器、全文检索服务器、数据库服务器、日志分析存储服务器、手机APP应用服务器和反向代理或负载均衡服务器;
其中,所述公告采集服务器、推送信息生成、分类服务器、全文检索服务器、数据库服务器、日志分析存储服务器均匀交换机通信连接;所述手机APP应用服务器通过反向代理或负载均衡服务器与交换机通信连接。
4.根据权利要求1所述的一种基于行为感知的大数据提取系统及方法,其特征在于,所述应用服务器包括公告采集服务器、推送信息生成分类服务器、全文检索服务器、数据库服务器、日志分析存储服务器、手机APP应用服务器和反向代理或负载均衡服务器均统一部署、配置。
5.如根据权利要求1-4所述的一种基于行为感知的大数据提取系统的大数据提取方法,其特征在于,包括如下步骤:
步骤S001页面获取:根据系统配置的网站清单和需要访问的该网站页面清单,每个页面采集线程分批发起异步并访问页面;
步骤S002信息抽取:获取的页面交由页面解析线程组负责页面中需要的信息抽取;
步骤S003信息去重:抽取信息完成后,将重复的信息删除;
步骤S004获取公告内容:通过线程获取公告内容;
步骤S005自动分类:对获取的公告内容进行分类;
步骤S006生成索引:对分类完成的公告内容创建索引;
步骤S007信息分析提取:用户提交的关键字对新信息进行匹配,对匹配的新信息记录到需要推送的信息队列;
步骤S008保存至数据库:将发送的信息保存到系统数据库。
6.根据权利要求5所述的一种基于行为感知的大数据提取方法,其特征在于,所述步骤S002中,页面信息抽取包括以下步骤:
步骤T001页面预处理:通过Java HTML Parser组件将半结构化HTML页面去掉无用的信息以及对不规则的HTML标识进行修正,为下一步标记信息做准备;
步骤T002解析DOM结构:页面预处理完成后,通过解析器把处理完成的网页文档分解成一个语法树;
步骤T003加载页面抽取规则:根据需求加载对应的抽取规则;
步骤T004页面文本分析:对特定的名词短语和动词短语进行语义和语法分析;
步骤T005按抽取规则搜索DOM节点:通过模式匹配识别指定的信息模式的各个部分;
步骤T006提取公告各部分信息:通过上下文分析和推理,确定信息的最终形式;
步骤T007输出结构化公告信息组:将结果输出成结构化的描述形式用于网络集成系统进行查询分析。
7.根据权利要求6所述的一种基于行为感知的大数据提取方法,其特征在于,所述步骤T006中,公告提取通过所述用户行为波动阈值计算模块,计算量化的用户行为均值来获取用户行为的偏离程度,依据预设的舍弃比率最终获取行为波动阈值;
其中,所述量化的行为均值获取方法如下:
式中,Uk表示簇k内用户集,Item表示簇内用户有行为记录的项目集,Card(Item)表示集合Item内项目数量,Prejms表示在上下文环境Cm下用户Uj对于项目Ss的历史偏好值;
其中,用户行为偏离程度:
8.根据权利要求6所述的一种基于行为感知的大数据提取系统及方法,其特征在于,所述步骤T007中,公告化信息组通过用户偏好获取子系统获取用户行为分类,利用用户行为均值计算方法融合上下文信息与行为信息的用户行为,再根据用户反馈与具体应用环境对用户行为进行自适应修正,并将最终的用户行为信息存储至数据存储与管理子系统,然后依据用户行为信息通过网络服务为用户推荐出公告的分类内容。
CN201810348617.0A 2018-04-18 2018-04-18 一种基于行为感知的大数据提取系统及方法 Pending CN108549707A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810348617.0A CN108549707A (zh) 2018-04-18 2018-04-18 一种基于行为感知的大数据提取系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810348617.0A CN108549707A (zh) 2018-04-18 2018-04-18 一种基于行为感知的大数据提取系统及方法

Publications (1)

Publication Number Publication Date
CN108549707A true CN108549707A (zh) 2018-09-18

Family

ID=63515319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810348617.0A Pending CN108549707A (zh) 2018-04-18 2018-04-18 一种基于行为感知的大数据提取系统及方法

Country Status (1)

Country Link
CN (1) CN108549707A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020205A (zh) * 2019-04-11 2019-07-16 中国联合网络通信集团有限公司 数据信息的筛选方法和系统
CN113792202A (zh) * 2021-08-31 2021-12-14 中国电子科技集团公司第三十研究所 一种用户分类的筛选方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1822005A (zh) * 2006-04-07 2006-08-23 张天山 基于网站自动生成和搜索引擎的信息推送系统及方法
US20090063265A1 (en) * 2007-09-04 2009-03-05 Yahoo! Inc. Information network for text ads
CN104408643A (zh) * 2014-10-30 2015-03-11 西北大学 一种行为感知偏好获取系统及其获取方法
CN104951512A (zh) * 2015-05-27 2015-09-30 中国科学院信息工程研究所 一种基于互联网的舆情数据采集方法及系统
CN106844640A (zh) * 2017-01-22 2017-06-13 漳州科技职业学院 一种网页数据分析处理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1822005A (zh) * 2006-04-07 2006-08-23 张天山 基于网站自动生成和搜索引擎的信息推送系统及方法
US20090063265A1 (en) * 2007-09-04 2009-03-05 Yahoo! Inc. Information network for text ads
CN104408643A (zh) * 2014-10-30 2015-03-11 西北大学 一种行为感知偏好获取系统及其获取方法
CN104951512A (zh) * 2015-05-27 2015-09-30 中国科学院信息工程研究所 一种基于互联网的舆情数据采集方法及系统
CN106844640A (zh) * 2017-01-22 2017-06-13 漳州科技职业学院 一种网页数据分析处理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020205A (zh) * 2019-04-11 2019-07-16 中国联合网络通信集团有限公司 数据信息的筛选方法和系统
CN113792202A (zh) * 2021-08-31 2021-12-14 中国电子科技集团公司第三十研究所 一种用户分类的筛选方法
CN113792202B (zh) * 2021-08-31 2023-05-05 中国电子科技集团公司第三十研究所 一种用户分类的筛选方法

Similar Documents

Publication Publication Date Title
CN103136360B (zh) 一种互联网行为标注引擎及对应该引擎的行为标注方法
Nabli et al. Efficient cloud service discovery approach based on LDA topic modeling
CN104216954A (zh) 突发事件话题状态的预测装置及预测方法
CN104978314B (zh) 媒体内容推荐方法及装置
US10019492B2 (en) Stop word identification method and apparatus
CN101118554A (zh) 智能交互式问答系统及其处理方法
CN101097570A (zh) 一种自动识别分类广告类型的广告分类方法
CN110765277B (zh) 一种基于知识图谱的移动端的在线设备故障诊断方法
CN106886579B (zh) 实时流式文本分级监控方法和装置
Wu et al. Extracting topics based on Word2Vec and improved Jaccard similarity coefficient
CN115098650A (zh) 基于历史数据模型的评论信息分析方法及相关装置
CN102123172A (zh) 一种基于神经网络聚类优化的Web服务发现的实现方法
CN116910221A (zh) 一种基于相似度检索提升大规模语言模型响应速度的方法
Blake et al. Taming Web Services from the wild
CN117436437A (zh) 一种组合敏感词检测方法、装置、设备及集群
CN108549707A (zh) 一种基于行为感知的大数据提取系统及方法
CN116561288B (zh) 事件查询方法、装置、计算机设备、存储介质及程序产品
CN113010643B (zh) 佛学领域词汇的处理方法、装置、设备及存储介质
Zhao et al. Integrating ontologies using ontology learning approach
CN114490923A (zh) 相似文本匹配模型的训练方法、装置、设备及存储介质
Rizvi et al. A preliminary review of web-page recommendation in information retrieval using domain knowledge and web usage mining
CN108932327A (zh) 一种页面信息提取系统及提取方法
Almoqhim et al. Improving on popularity as a proxy for generality when building tag hierarchies from folksonomies
CN116226494A (zh) 一种用于信息搜索的爬虫系统及方法
US20040260697A1 (en) Apparatus for and method of evaluating named entities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180918

RJ01 Rejection of invention patent application after publication