CN104951553A - 一种数据处理准确的内容搜集与数据挖掘平台及其实现方法 - Google Patents
一种数据处理准确的内容搜集与数据挖掘平台及其实现方法 Download PDFInfo
- Publication number
- CN104951553A CN104951553A CN201510371046.9A CN201510371046A CN104951553A CN 104951553 A CN104951553 A CN 104951553A CN 201510371046 A CN201510371046 A CN 201510371046A CN 104951553 A CN104951553 A CN 104951553A
- Authority
- CN
- China
- Prior art keywords
- data
- information
- library unit
- word
- terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据处理准确的内容搜集与数据挖掘平台及其实现方法,它包括云服务器和多个与云服务器连接的数据接收终端;所述的云服务器包括信息提取模块、信息过滤模块、信息分类模块和数据库模块,所述的数据库模块包括关键字数据库单元和基础数据库单元,所述的信息分类模块包括相似度计算单元和结果分类单元;所述的数据接收终端的输出端与信息提取模块连接,信息提取模块的输出端与信息过滤模块连接,信息过滤模块的输出端与相似度计算单元连接,相似度计算单元的输出端与结果分类单元连接;所述的基础数据库单元与相似度计算单元连接。本发明适用于新媒体发布平台,具有数据处理准确、高可靠性、处理速度快等优点。
Description
技术领域
本发明涉及一种数据处理准确的内容搜集与数据挖掘平台及其实现方法。
背景技术
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
然而现有的数据挖掘平台的数据库安全性得不到保障,很容易遭受攻击和篡改,一旦破坏会引起数据挖掘的不可靠性。并且,在出现新兴词汇的时候,数据挖掘平台往往会误认为非重要的字,即非关键字,这会使得出现错误的数据的分析与判断的情况。
发明内容
本发明的目的在于克服现有技术的不足,提供一种数据处理准确的内容搜集与数据挖掘平台及其实现方法。
本发明的目的是通过以下技术方案来实现的:一种数据处理准确的内容搜集与数据挖掘平台,它包括云服务器和多个与云服务器连接的数据接收终端;所述的云服务器包括信息提取模块、信息过滤模块、信息分类模块和数据库模块,所述的数据库模块包括关键字数据库单元和基础数据库单元,所述的信息分类模块包括相似度计算单元和结果分类单元;所述的数据接收终端的输出端与信息提取模块连接,信息提取模块的输出端与信息过滤模块连接,信息过滤模块的输出端与相似度计算单元连接,相似度计算单元的输出端与结果分类单元连接;所述的关键字数据库单元与信息过滤模块连接,所述的基础数据库单元与相似度计算单元连接。
所述的信息提取模块、信息过滤模块和信息分类模块采用流水线的方式进行数据处理。
一种数据处理准确的内容搜集与数据挖掘平台还包括一个数据发送终端,所述的数据发送终端将信息分类模块输出的数据发送至外部。
所述的数据接收终端包括多个用于接收来自无线终端发送数据的第一类数据接收终端和多个用于来自有线终端发送数据的第二类数据接收终端。
所述的无线终端包括手机、平板电脑;所述的有线终端包括PC机。
一种数据处理准确的内容搜集与数据挖掘平台的实现方法包括以下步骤:
S1:数据接收终端接收发送过来的信息,包括通过无线终端发送过来的信息和有线终端发送过来的信息;
S2:信息提取模块对数据接收终端的信息进行关键字提取,所述的关键字提取的数量根据预设的条件决定;
S3:信息过滤模块对关键字进行过滤处理:通过与关键字数据库单元的数据作比较,将含有非法关键字的信息进行剔除;
S4:将完成过滤处理的信息与基础数据库单元进行相似度比对,包括以下子步骤:
S41:将提取出的关键字合并成一个集合,计算基础数据库单元中的数据对于所述的集合中的词语的词频;
S42:生成所述信息以及基础数据库单元中的数据的词频向量;
S43:计算所述信息的词频向量与基础数据库单元中的数据的词频向量的余弦相似度;
S5:结果分类单元判断余弦相似度最大的一项是否大于阈值:
(1)若大于阈值,则选择余弦相似度大于阈值的且最大的一项或者多项,作为结果分类的结果输出;
(2)若小于阈值,则进行人工判断,是否作为结果分类的结果:如果判断为是,则将结果输出并且将该信息送入基础数据库单元进行存储。
所述的步骤S2包括以下子步骤:
S21:对信息进行分词处理,计算各个词语相对于所述信息的词频;
S22:计算各个词语相对于基础数据库单元中的数据的逆向文件频率,log(A/B);式中,A为基础数据库单元中数据的总数,B为各个词语在基础数据库单元中出现的次数;
S23:将词频与逆向文件频率相乘,得到关键词频率;
S24:根据预设的关键字提取的数量,选择多个关键词。
所述的步骤S2在计算关键词频率的子步骤中,不计算应删除词的频率。
所述的基础数据库单元包括新增子单元和通用子单元,所述的方法还包括一个数据库存储步骤S6:在完成过滤与分类之后,将收集到的信息存储至基础数据库单元的新增子单元中存储,根据需求选择之后信息的是否关键字提取与相似度比对是否包含新增子单元中的数据:若选择包含,则将新增子单元中的数据放入基础数据库单元的通用子单元中进行保存;否则选择删除或者保留。
本发明的有益效果是:本发明将采集到的数据送入云服务器进行处理,根据云服务器中已经存在的关键字黑名单对信息进行提取,根据云服务器中现有的基础信息即大数据进行关键字提取和分类操作,保证数据处理准确以及数据处理高安全性;并且采用人工分析的方法对机器无法判断的数据进行补充判断,具有判断高可靠性;同时,本发明还可以将新的数据存入现有数据库中,当有新的词汇出现,避免误判;通过流水线处理的并行化方式,提高处理速度;本发明适用于新媒体发布平台中的数据收集分析与发布模块。
附图说明
图1为本发明结构方框图;
图2为本发明方法流程图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案:如图1所示,一种数据处理准确的内容搜集与数据挖掘平台,它包括云服务器和多个与云服务器连接的数据接收终端;所述的云服务器包括信息提取模块、信息过滤模块、信息分类模块和数据库模块,所述的数据库模块包括关键字数据库单元和基础数据库单元,所述的信息分类模块包括相似度计算单元和结果分类单元;所述的数据接收终端的输出端与信息提取模块连接,信息提取模块的输出端与信息过滤模块连接,信息过滤模块的输出端与相似度计算单元连接,相似度计算单元的输出端与结果分类单元连接;所述的关键字数据库单元与信息过滤模块连接,所述的基础数据库单元与相似度计算单元连接。
所述的信息提取模块、信息过滤模块和信息分类模块采用流水线的方式进行数据处理。
一种数据处理准确的内容搜集与数据挖掘平台还包括一个数据发送终端,所述的数据发送终端将信息分类模块输出的数据发送至外部。
所述的数据接收终端包括多个用于接收来自无线终端发送数据的第一类数据接收终端和多个用于来自有线终端发送数据的第二类数据接收终端。
所述的无线终端包括手机、平板电脑;所述的有线终端包括PC机。
如图2所示,一种数据处理准确的内容搜集与数据挖掘平台的实现方法包括以下步骤:
S1:数据接收终端接收发送过来的信息,包括通过无线终端发送过来的信息和有线终端发送过来的信息;
S2:信息提取模块对数据接收终端的信息进行关键字提取,所述的关键字提取的数量根据预设的条件决定;
S3:信息过滤模块对关键字进行过滤处理:通过与关键字数据库单元的数据作比较,将含有非法关键字的信息进行剔除;
S4:将完成过滤处理的信息与基础数据库单元进行相似度比对,包括以下子步骤:
S41:将提取出的关键字合并成一个集合,计算基础数据库单元中的数据对于所述的集合中的词语的词频;
S42:生成所述信息以及基础数据库单元中的数据的词频向量;
S43:计算所述信息的词频向量与基础数据库单元中的数据的词频向量的余弦相似度;
S5:结果分类单元判断余弦相似度最大的一项是否大于阈值:
(1)若大于阈值,则选择余弦相似度大于阈值的且最大的一项或者多项,作为结果分类的结果输出;
(2)若小于阈值,则进行人工判断,是否作为结果分类的结果:如果判断为是,则将结果输出并且将该信息送入基础数据库单元进行存储。
所述的步骤S2包括以下子步骤:
S21:对信息进行分词处理,计算各个词语相对于所述信息的词频;
S22:计算各个词语相对于基础数据库单元中的数据的逆向文件频率,log(A/B);式中,A为基础数据库单元中数据的总数,B为各个词语在基础数据库单元中出现的次数;
S23:将词频与逆向文件频率相乘,得到关键词频率;
S24:根据预设的关键字提取的数量,选择多个关键词。
所述的步骤S2在计算关键词频率的子步骤中,不计算应删除词的频率。
所述的基础数据库单元包括新增子单元和通用子单元,所述的方法还包括一个数据库存储步骤S6:在完成过滤与分类之后,将收集到的信息存储至基础数据库单元的新增子单元中存储,根据需求选择之后信息的是否关键字提取与相似度比对是否包含新增子单元中的数据:若选择包含,则将新增子单元中的数据放入基础数据库单元的通用子单元中进行保存;否则选择删除或者保留。
所述的应删除词包括“的”、“是”、“和”、“中”、“得”、“地”、“等”、“它”等。
Claims (9)
1.一种数据处理准确的内容搜集与数据挖掘平台,其特征在于:它包括云服务器和多个与云服务器连接的数据接收终端;所述的云服务器包括信息提取模块、信息过滤模块、信息分类模块和数据库模块,所述的数据库模块包括关键字数据库单元和基础数据库单元,所述的信息分类模块包括相似度计算单元和结果分类单元;所述的数据接收终端的输出端与信息提取模块连接,信息提取模块的输出端与信息过滤模块连接,信息过滤模块的输出端与相似度计算单元连接,相似度计算单元的输出端与结果分类单元连接;所述的关键字数据库单元与信息过滤模块连接,所述的基础数据库单元与相似度计算单元连接。
2.根据权利要求1所述的一种数据处理准确的内容搜集与数据挖掘平台,其特征在于:所述的信息提取模块、信息过滤模块和信息分类模块采用流水线的方式进行数据处理。
3.根据权利要求1所述的一种数据处理准确的内容搜集与数据挖掘平台,其特征在于:还包括一个数据发送终端,所述的数据发送终端将信息分类模块输出的数据发送至外部。
4.根据权利要求1所述的一种数据处理准确的内容搜集与数据挖掘平台,其特征在于:所述的数据接收终端包括多个用于接收来自无线终端发送数据的第一类数据接收终端和多个用于来自有线终端发送数据的第二类数据接收终端。
5.根据权利要求4所述的一种数据处理准确的内容搜集与数据挖掘平台,其特征在于:所述的无线终端包括手机、平板电脑;所述的有线终端包括PC机。
6.如权利要求1~5中任意一项所述的一种数据处理准确的内容搜集与数据挖掘平台的实现方法,其特征在于:包括以下步骤:
S1:数据接收终端接收发送过来的信息,包括通过无线终端发送过来的信息和有线终端发送过来的信息;
S2:信息提取模块对数据接收终端的信息进行关键字提取,所述的关键字提取的数量根据预设的条件决定;
S3:信息过滤模块对关键字进行过滤处理:通过与关键字数据库单元的数据作比较,将含有非法关键字的信息进行剔除;
S4:将完成过滤处理的信息与基础数据库单元进行相似度比对,包括以下子步骤:
S41:将提取出的关键字合并成一个集合,计算基础数据库单元中的数据对于所述的集合中的词语的词频;
S42:生成所述信息以及基础数据库单元中的数据的词频向量;
S43:计算所述信息的词频向量与基础数据库单元中的数据的词频向量的余弦相似度;
S5:结果分类单元判断余弦相似度最大的一项是否大于阈值:
(1)若大于阈值,则选择余弦相似度大于阈值的且最大的一项或者多项,作为结果分类的结果输出;
(2)若小于阈值,则进行人工判断,是否作为结果分类的结果:如果判断为是,则将结果输出并且将该信息送入基础数据库单元进行存储。
7.根据权利要求6所述的一种数据处理准确的内容搜集与数据挖掘平台的实现方法,其特征在于:所述的步骤S2包括以下子步骤:
S21:对信息进行分词处理,计算各个词语相对于所述信息的词频;
S22:计算各个词语相对于基础数据库单元中的数据的逆向文件频率,log(A/B);式中,A为基础数据库单元中数据的总数,B为各个词语在基础数据库单元中出现的次数;
S23:将词频与逆向文件频率相乘,得到关键词频率;
S24:根据预设的关键字提取的数量,选择多个关键词。
8.根据权利要求7所述的一种数据处理准确的内容搜集与数据挖掘平台的实现方法,其特征在于:所述的步骤S2在计算关键词频率的子步骤中,不计算应删除词的频率。
9.根据权利要求6或7所述的一种数据处理准确的内容搜集与数据挖掘平台的实现方法,其特征在于:所述的基础数据库单元包括新增子单元和通用子单元,所述的方法还包括一个数据库存储步骤S6:在完成过滤与分类之后,将收集到的信息存储至基础数据库单元的新增子单元中存储,根据需求选择之后信息的是否关键字提取与相似度比对是否包含新增子单元中的数据:若选择包含,则将新增子单元中的数据放入基础数据库单元的通用子单元中进行保存;否则选择删除或者保留。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510371046.9A CN104951553B (zh) | 2015-06-30 | 2015-06-30 | 一种数据处理准确的内容搜集与数据挖掘平台及其实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510371046.9A CN104951553B (zh) | 2015-06-30 | 2015-06-30 | 一种数据处理准确的内容搜集与数据挖掘平台及其实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104951553A true CN104951553A (zh) | 2015-09-30 |
CN104951553B CN104951553B (zh) | 2018-11-27 |
Family
ID=54166211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510371046.9A Active CN104951553B (zh) | 2015-06-30 | 2015-06-30 | 一种数据处理准确的内容搜集与数据挖掘平台及其实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104951553B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975544A (zh) * | 2016-04-28 | 2016-09-28 | 天津贝德曼科技有限公司 | 一类大数据挖掘的“特质技法库”构造技术 |
WO2018157330A1 (zh) * | 2017-03-01 | 2018-09-07 | 深圳市博信诺达经贸咨询有限公司 | 大数据的划分方法及系统 |
CN110417751A (zh) * | 2019-07-10 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种网络安全预警方法、装置和存储介质 |
CN111325032A (zh) * | 2020-02-21 | 2020-06-23 | 中国建设银行股份有限公司 | 一种5g+智能银行机构名称的规范化方法及装置 |
CN111367971A (zh) * | 2020-03-30 | 2020-07-03 | 中国建设银行股份有限公司 | 一种基于数据挖掘的金融系统异常辅助分析方法及装置 |
CN112118208A (zh) * | 2019-06-20 | 2020-12-22 | 北京沃东天骏信息技术有限公司 | 上报数据的方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101035128A (zh) * | 2007-04-18 | 2007-09-12 | 大连理工大学 | 基于中文标点符号的三重网页文本内容识别及过滤方法 |
CN104199833A (zh) * | 2014-08-01 | 2014-12-10 | 北京奇虎科技有限公司 | 一种网络搜索词的聚类方法和聚类装置 |
CN104424302A (zh) * | 2013-09-04 | 2015-03-18 | 阿里巴巴集团控股有限公司 | 一种同类数据对象的匹配方法和装置 |
-
2015
- 2015-06-30 CN CN201510371046.9A patent/CN104951553B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101035128A (zh) * | 2007-04-18 | 2007-09-12 | 大连理工大学 | 基于中文标点符号的三重网页文本内容识别及过滤方法 |
CN104424302A (zh) * | 2013-09-04 | 2015-03-18 | 阿里巴巴集团控股有限公司 | 一种同类数据对象的匹配方法和装置 |
CN104199833A (zh) * | 2014-08-01 | 2014-12-10 | 北京奇虎科技有限公司 | 一种网络搜索词的聚类方法和聚类装置 |
Non-Patent Citations (1)
Title |
---|
王理等: "《消费品质量安全信息分析 理论、方法与技术》", 30 April 2014, 北京:北京航空航天大学出版社 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975544A (zh) * | 2016-04-28 | 2016-09-28 | 天津贝德曼科技有限公司 | 一类大数据挖掘的“特质技法库”构造技术 |
WO2018157330A1 (zh) * | 2017-03-01 | 2018-09-07 | 深圳市博信诺达经贸咨询有限公司 | 大数据的划分方法及系统 |
CN112118208A (zh) * | 2019-06-20 | 2020-12-22 | 北京沃东天骏信息技术有限公司 | 上报数据的方法和装置 |
CN112118208B (zh) * | 2019-06-20 | 2023-06-27 | 北京沃东天骏信息技术有限公司 | 上报数据的方法和装置 |
CN110417751A (zh) * | 2019-07-10 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种网络安全预警方法、装置和存储介质 |
CN110417751B (zh) * | 2019-07-10 | 2021-07-02 | 腾讯科技(深圳)有限公司 | 一种网络安全预警方法、装置和存储介质 |
CN111325032A (zh) * | 2020-02-21 | 2020-06-23 | 中国建设银行股份有限公司 | 一种5g+智能银行机构名称的规范化方法及装置 |
CN111325032B (zh) * | 2020-02-21 | 2023-06-16 | 中国建设银行股份有限公司 | 一种5g+智能银行机构名称的规范化方法及装置 |
CN111367971A (zh) * | 2020-03-30 | 2020-07-03 | 中国建设银行股份有限公司 | 一种基于数据挖掘的金融系统异常辅助分析方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104951553B (zh) | 2018-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104951553A (zh) | 一种数据处理准确的内容搜集与数据挖掘平台及其实现方法 | |
CN107391598B (zh) | 一种威胁情报自动生成方法及系统 | |
CN107169106B (zh) | 视频检索方法、装置、存储介质及处理器 | |
CN107729403A (zh) | 互联网信息风险提示方法及系统 | |
CN109214280A (zh) | 基于街景的店铺识别方法、装置、电子设备及存储介质 | |
CN109871749B (zh) | 一种基于深度哈希的行人重识别方法和装置、计算机系统 | |
CN112367273B (zh) | 基于知识蒸馏的深度神经网络模型的流量分类方法及装置 | |
CN105574544A (zh) | 一种数据处理方法和装置 | |
CN105550253B (zh) | 一种类型关系的获取方法及装置 | |
CN103218368B (zh) | 一种挖掘热词的方法与装置 | |
CN113886587A (zh) | 一种基于深度学习的数据分类方法以及图谱的建立方法 | |
CN111046087A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN110908957A (zh) | 电力行业网络安全日志审计分析方法 | |
CN110378190B (zh) | 基于主题识别的视频内容检测系统及检测方法 | |
CN109033351A (zh) | 案情数据的归并方法及装置 | |
CN108875050B (zh) | 面向文本的数字取证分析方法、装置和计算机可读介质 | |
CN106372083B (zh) | 一种有争议性新闻线索自动发现的方法及系统 | |
CN112487991B (zh) | 一种基于特征自学习的高精度负荷辨识方法及系统 | |
CN113011301A (zh) | 一种活体识别方法、装置及电子设备 | |
CN110362828B (zh) | 网络资讯风险识别方法及系统 | |
CN112434049A (zh) | 表格数据存储方法、装置、存储介质及电子装置 | |
CN103136256A (zh) | 一种在网络中实现信息检索的方法和系统 | |
CN111026940A (zh) | 一种面向电网电磁环境的网络舆情及风险信息监测系统、电子设备 | |
CN104484330A (zh) | 基于分档关键词阈值组合评估的垃圾评论预选方法及装置 | |
CN106933797B (zh) | 目标信息的生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |