CN108038245A - 一种基于多语言的数据挖掘方法 - Google Patents
一种基于多语言的数据挖掘方法 Download PDFInfo
- Publication number
- CN108038245A CN108038245A CN201711461988.1A CN201711461988A CN108038245A CN 108038245 A CN108038245 A CN 108038245A CN 201711461988 A CN201711461988 A CN 201711461988A CN 108038245 A CN108038245 A CN 108038245A
- Authority
- CN
- China
- Prior art keywords
- data
- website
- collected
- grader
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于多语言的数据挖掘方法,包括步骤:登入载有数据资料的网站;识别网站语言;采集网站数据资料;利用分类器对数据资料进行分类;将分类后的数据按照类别不同分别存放。本发明能够自动识别语种,然后进行对应的采集,将采集的内容按照语种的不同进行存入库中,有效的解决了网站数据源发现越来越困难,对网站源的地域判断效率低下,对网站源的语言判断准确性低,不能快速、高效的识别广告、电商、问答、视频、音频等非新闻类数据,对数据源的管理没有统一的修改,保存机制等问题。
Description
技术领域
本发明涉及用于处理跨域的大数据网站的挖掘技术。
背景技术
截止到2016年9月,全球互联网网站数量已超过11.6亿,并且这个数字目前还在不断增加,另外互联网网民的数量也将突破40亿大关。2016年我们每天在互联网产生至少4EB的数据。针对如此庞大的数据资源,通过人工方式获取已不能满足需求。
发明内容
本发明所要解决的技术问题是提供一种基于多语言的数据挖掘方法,能够提高数据识别效率和准确性,解决背景技术中的问题。
本发明解决上述技术问题所采用的技术方案是:一种基于多语言的数据挖掘方法,包括以下步骤:
(1)登入载有数据资料的网站;
(2)识别网站语言;
(3)采集网站数据资料;
(4)利用分类器对数据资料进行分类;
(5)将分类后的数据按照类别不同分别存放。
进一步地,上述步骤中使用到的分类器,需要预先经过训练,训练的步骤具体包括:收集数据,将数据按照一定的比例分为训练集和测试集,利用训练集对分类器进行分类,然后再用测试集对训练结果进行评估,当分类误差和精度达到一定阈值时,判断为训练结束。
进一步地,采集网站数据资料具体包括以下步骤:
(3.1)识别数据源;
(3.2)判断该数据源是否已被采集,如果已被采集,则直接存入已采集数据库,如果未被采集,进入下一步;
(3.3)利用Scrapy框架对数据进行采集,并将采集到的数据存入已采集数据库;
(3.4)根据Scrapy框架中的Response数据判断该数据来源的网站是否属于目标类型网站。
本发明的有益效果是:本发明能够自动识别语种,然后进行对应的采集,将采集的内容按照语种的不同进行存入库中,有效的解决了网站数据源发现越来越困难,对网站源的地域判断效率低下,对网站源的语言判断准确性低,不能快速、高效的识别广告、电商、问答、视频、音频等非新闻类数据,对数据源的管理没有统一的修改,保存机制等问题。本方法的优势在于不使用人工对网站语种以及网站注册地的判断,而是将这些操作交给机器来操作,极大的降低了人力的资源而且还提高了对网站源判断的精准度和效率。同时本方法会对不同语言进行分类,这样完成了数据的跨语言问题, 还解决了人工对语言进行分类的效率低下问题。
附图说明
图1是本发明的整体流程图。
图2是分类器的训练方法示意图。
具体实施方式
以下结合附图对本发明的具体实施方案做进一步详细说明,应当指出的是,实施例只是对方案的具体阐述,并不是对本发明的限定。
如图1所示,本发明的基于多语言的数据挖掘方法,包括以下步骤:
(1)登入载有数据资料的网站;
(2)利用语言识别模块识别网站语言;
(3)采集网站数据资料;
(3.1)识别数据源;
(3.2)判断该数据源是否已被采集,如果已被采集,则直接存入已采集数据库,如果未被采集,进入下一步;
(3.3)利用Scrapy框架对数据进行采集,并将采集到的数据存入已采集数据库;
(3.4)根据Scrapy框架中的Response数据判断该数据来源的网站是否属于目标类型网站。
(4)利用分类器对数据资料进行分类;
(5)将分类后的数据按照类别不同分别存放。
本发明的分类前提是,对分类器需要预进行训练,如图2所示,训练的步骤具体包括:首先提取一批精准的并且带有标签的数据,然后将这批数据分为测试和训练集,一般把训练和测试比例分为80%和20%这样训练出来的分类器再用这20%的测试数据进行评估,评估结果也就是分类误差/精度,其中,
误差 = 错误/句子样本;
误差最优为0.0;
精度 = 正确预测/句子样本;
精度最优为1.0。
Claims (3)
1.一种基于多语言的数据挖掘方法,其特征是,包括以下步骤:
(1)登入载有数据资料的网站;
(2)识别网站语言;
(3)采集网站数据资料;
(4)利用分类器对数据资料进行分类;
(5)将分类后的数据按照类别不同分别存放。
2.根据权利要求1所述的一种基于多语言的数据挖掘方法,其特征是,该方法还包括对分类器进行训练的步骤,具体包括:收集数据,将数据按照一定的比例分为训练集和测试集,利用训练集对分类器进行分类,然后再用测试集对训练结果进行评估,当分类误差和精度达到一定阈值时,判断为训练结束。
3.根据权利要求1所述的一种基于多语言的数据挖掘方法,其特征是,采集网站数据资料具体包括以下步骤:
(3.1)识别数据源;
(3.2)判断该数据源是否已被采集,如果已被采集,则直接存入已采集数据库,如果未被采集,进入下一步;
(3.3)利用Scrapy框架对数据进行采集,并将采集到的数据存入已采集数据库;
(3.4)根据Scrapy框架中的Response数据判断该数据来源的网站是否属于目标类型网站。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711461988.1A CN108038245A (zh) | 2017-12-28 | 2017-12-28 | 一种基于多语言的数据挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711461988.1A CN108038245A (zh) | 2017-12-28 | 2017-12-28 | 一种基于多语言的数据挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108038245A true CN108038245A (zh) | 2018-05-15 |
Family
ID=62097608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711461988.1A Pending CN108038245A (zh) | 2017-12-28 | 2017-12-28 | 一种基于多语言的数据挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108038245A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108827275A (zh) * | 2018-06-08 | 2018-11-16 | 苏州经贸职业技术学院 | 旅游导航方法和系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102194013A (zh) * | 2011-06-23 | 2011-09-21 | 上海毕佳数据有限公司 | 一种基于领域知识的短文本分类方法及文本分类系统 |
CN102819591A (zh) * | 2012-08-07 | 2012-12-12 | 北京网康科技有限公司 | 一种基于内容的网页分类方法及系统 |
CN103123642A (zh) * | 2012-02-22 | 2013-05-29 | 深圳市谷古科技有限公司 | 一种基于网页语种的搜索方法和装置 |
US20140013221A1 (en) * | 2010-12-24 | 2014-01-09 | Peking University Founder Group Co., Ltd. | Method and device for filtering harmful information |
CN104376406A (zh) * | 2014-11-05 | 2015-02-25 | 上海计算机软件技术开发中心 | 一种基于大数据的企业创新资源管理与分析系统和方法 |
CN104714968A (zh) * | 2013-12-16 | 2015-06-17 | 中国银联股份有限公司 | 对网站页面进行国际化的方法和装置 |
CN106156372A (zh) * | 2016-08-31 | 2016-11-23 | 北京北信源软件股份有限公司 | 一种互联网网站的分类方法及装置 |
CN106294885A (zh) * | 2016-10-09 | 2017-01-04 | 华东师范大学 | 一种面向异构网页的数据收集与标注方法 |
-
2017
- 2017-12-28 CN CN201711461988.1A patent/CN108038245A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140013221A1 (en) * | 2010-12-24 | 2014-01-09 | Peking University Founder Group Co., Ltd. | Method and device for filtering harmful information |
CN102194013A (zh) * | 2011-06-23 | 2011-09-21 | 上海毕佳数据有限公司 | 一种基于领域知识的短文本分类方法及文本分类系统 |
CN103123642A (zh) * | 2012-02-22 | 2013-05-29 | 深圳市谷古科技有限公司 | 一种基于网页语种的搜索方法和装置 |
CN102819591A (zh) * | 2012-08-07 | 2012-12-12 | 北京网康科技有限公司 | 一种基于内容的网页分类方法及系统 |
CN104714968A (zh) * | 2013-12-16 | 2015-06-17 | 中国银联股份有限公司 | 对网站页面进行国际化的方法和装置 |
CN104376406A (zh) * | 2014-11-05 | 2015-02-25 | 上海计算机软件技术开发中心 | 一种基于大数据的企业创新资源管理与分析系统和方法 |
CN106156372A (zh) * | 2016-08-31 | 2016-11-23 | 北京北信源软件股份有限公司 | 一种互联网网站的分类方法及装置 |
CN106294885A (zh) * | 2016-10-09 | 2017-01-04 | 华东师范大学 | 一种面向异构网页的数据收集与标注方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108827275A (zh) * | 2018-06-08 | 2018-11-16 | 苏州经贸职业技术学院 | 旅游导航方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018000269A1 (zh) | 一种基于数据挖掘和众包的数据标注方法及系统 | |
CN108985293A (zh) | 一种基于深度学习的图像自动化标注方法及系统 | |
CN110134849A (zh) | 一种网络舆情监控方法及系统 | |
CN109189901A (zh) | 一种智能客服系统中自动发现新分类以及对应语料的方法 | |
CN106951925A (zh) | 数据处理方法、装置、服务器及系统 | |
CN103841216A (zh) | 一种基于云平台的网络舆情监控系统 | |
CN107273295B (zh) | 一种基于文本混乱度的软件问题报告分类方法 | |
CN102509001B (zh) | 一种自动去除时序数据野值点的方法 | |
CN109657058A (zh) | 一种公告信息的抽取方法 | |
CN103927400A (zh) | Web网站产品详细信息的分类抓取及产品信息库建立方法 | |
CN104361010A (zh) | 一种纠正新闻分类的自动分类方法 | |
CN102567494A (zh) | 网站分类方法及装置 | |
CN103853720B (zh) | 基于用户关注度的网络敏感信息监控系统及方法 | |
CN111797772B (zh) | 发票图像自动分类方法、系统、装置 | |
CN115794803A (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
CN107305555A (zh) | 数据处理方法及装置 | |
CN115309815A (zh) | 一种基于大数据的网络舆情监测系统及方法 | |
CN104268214B (zh) | 一种基于微博用户关系的用户性别识别方法及系统 | |
CN107493275A (zh) | 异构网络安全日志信息的自适应提取和分析方法及系统 | |
CN108038245A (zh) | 一种基于多语言的数据挖掘方法 | |
CN110717044A (zh) | 一种研报正文的文本分类方法 | |
CN111222031A (zh) | 一种网站判别方法及系统 | |
CN110532394A (zh) | 订单备注文本的处理方法及系统 | |
CN110533466A (zh) | 基于大数据辅助产品开发的方法、系统和存储介质 | |
CN108256005A (zh) | 互联网产品监控方法及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180515 |