CN108038245A - 一种基于多语言的数据挖掘方法 - Google Patents

一种基于多语言的数据挖掘方法 Download PDF

Info

Publication number
CN108038245A
CN108038245A CN201711461988.1A CN201711461988A CN108038245A CN 108038245 A CN108038245 A CN 108038245A CN 201711461988 A CN201711461988 A CN 201711461988A CN 108038245 A CN108038245 A CN 108038245A
Authority
CN
China
Prior art keywords
data
website
collected
grader
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711461988.1A
Other languages
English (en)
Inventor
王晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Global Tone Communication Technology Qingdao Co Ltd
Original Assignee
Global Tone Communication Technology Qingdao Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Global Tone Communication Technology Qingdao Co Ltd filed Critical Global Tone Communication Technology Qingdao Co Ltd
Priority to CN201711461988.1A priority Critical patent/CN108038245A/zh
Publication of CN108038245A publication Critical patent/CN108038245A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于多语言的数据挖掘方法,包括步骤:登入载有数据资料的网站;识别网站语言;采集网站数据资料;利用分类器对数据资料进行分类;将分类后的数据按照类别不同分别存放。本发明能够自动识别语种,然后进行对应的采集,将采集的内容按照语种的不同进行存入库中,有效的解决了网站数据源发现越来越困难,对网站源的地域判断效率低下,对网站源的语言判断准确性低,不能快速、高效的识别广告、电商、问答、视频、音频等非新闻类数据,对数据源的管理没有统一的修改,保存机制等问题。

Description

一种基于多语言的数据挖掘方法
技术领域
本发明涉及用于处理跨域的大数据网站的挖掘技术。
背景技术
截止到2016年9月,全球互联网网站数量已超过11.6亿,并且这个数字目前还在不断增加,另外互联网网民的数量也将突破40亿大关。2016年我们每天在互联网产生至少4EB的数据。针对如此庞大的数据资源,通过人工方式获取已不能满足需求。
发明内容
本发明所要解决的技术问题是提供一种基于多语言的数据挖掘方法,能够提高数据识别效率和准确性,解决背景技术中的问题。
本发明解决上述技术问题所采用的技术方案是:一种基于多语言的数据挖掘方法,包括以下步骤:
(1)登入载有数据资料的网站;
(2)识别网站语言;
(3)采集网站数据资料;
(4)利用分类器对数据资料进行分类;
(5)将分类后的数据按照类别不同分别存放。
进一步地,上述步骤中使用到的分类器,需要预先经过训练,训练的步骤具体包括:收集数据,将数据按照一定的比例分为训练集和测试集,利用训练集对分类器进行分类,然后再用测试集对训练结果进行评估,当分类误差和精度达到一定阈值时,判断为训练结束。
进一步地,采集网站数据资料具体包括以下步骤:
(3.1)识别数据源;
(3.2)判断该数据源是否已被采集,如果已被采集,则直接存入已采集数据库,如果未被采集,进入下一步;
(3.3)利用Scrapy框架对数据进行采集,并将采集到的数据存入已采集数据库;
(3.4)根据Scrapy框架中的Response数据判断该数据来源的网站是否属于目标类型网站。
本发明的有益效果是:本发明能够自动识别语种,然后进行对应的采集,将采集的内容按照语种的不同进行存入库中,有效的解决了网站数据源发现越来越困难,对网站源的地域判断效率低下,对网站源的语言判断准确性低,不能快速、高效的识别广告、电商、问答、视频、音频等非新闻类数据,对数据源的管理没有统一的修改,保存机制等问题。本方法的优势在于不使用人工对网站语种以及网站注册地的判断,而是将这些操作交给机器来操作,极大的降低了人力的资源而且还提高了对网站源判断的精准度和效率。同时本方法会对不同语言进行分类,这样完成了数据的跨语言问题, 还解决了人工对语言进行分类的效率低下问题。
附图说明
图1是本发明的整体流程图。
图2是分类器的训练方法示意图。
具体实施方式
以下结合附图对本发明的具体实施方案做进一步详细说明,应当指出的是,实施例只是对方案的具体阐述,并不是对本发明的限定。
如图1所示,本发明的基于多语言的数据挖掘方法,包括以下步骤:
(1)登入载有数据资料的网站;
(2)利用语言识别模块识别网站语言;
(3)采集网站数据资料;
(3.1)识别数据源;
(3.2)判断该数据源是否已被采集,如果已被采集,则直接存入已采集数据库,如果未被采集,进入下一步;
(3.3)利用Scrapy框架对数据进行采集,并将采集到的数据存入已采集数据库;
(3.4)根据Scrapy框架中的Response数据判断该数据来源的网站是否属于目标类型网站。
(4)利用分类器对数据资料进行分类;
(5)将分类后的数据按照类别不同分别存放。
本发明的分类前提是,对分类器需要预进行训练,如图2所示,训练的步骤具体包括:首先提取一批精准的并且带有标签的数据,然后将这批数据分为测试和训练集,一般把训练和测试比例分为80%和20%这样训练出来的分类器再用这20%的测试数据进行评估,评估结果也就是分类误差/精度,其中,
误差 = 错误/句子样本;
误差最优为0.0;
精度 = 正确预测/句子样本;
精度最优为1.0。

Claims (3)

1.一种基于多语言的数据挖掘方法,其特征是,包括以下步骤:
(1)登入载有数据资料的网站;
(2)识别网站语言;
(3)采集网站数据资料;
(4)利用分类器对数据资料进行分类;
(5)将分类后的数据按照类别不同分别存放。
2.根据权利要求1所述的一种基于多语言的数据挖掘方法,其特征是,该方法还包括对分类器进行训练的步骤,具体包括:收集数据,将数据按照一定的比例分为训练集和测试集,利用训练集对分类器进行分类,然后再用测试集对训练结果进行评估,当分类误差和精度达到一定阈值时,判断为训练结束。
3.根据权利要求1所述的一种基于多语言的数据挖掘方法,其特征是,采集网站数据资料具体包括以下步骤:
(3.1)识别数据源;
(3.2)判断该数据源是否已被采集,如果已被采集,则直接存入已采集数据库,如果未被采集,进入下一步;
(3.3)利用Scrapy框架对数据进行采集,并将采集到的数据存入已采集数据库;
(3.4)根据Scrapy框架中的Response数据判断该数据来源的网站是否属于目标类型网站。
CN201711461988.1A 2017-12-28 2017-12-28 一种基于多语言的数据挖掘方法 Pending CN108038245A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711461988.1A CN108038245A (zh) 2017-12-28 2017-12-28 一种基于多语言的数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711461988.1A CN108038245A (zh) 2017-12-28 2017-12-28 一种基于多语言的数据挖掘方法

Publications (1)

Publication Number Publication Date
CN108038245A true CN108038245A (zh) 2018-05-15

Family

ID=62097608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711461988.1A Pending CN108038245A (zh) 2017-12-28 2017-12-28 一种基于多语言的数据挖掘方法

Country Status (1)

Country Link
CN (1) CN108038245A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108827275A (zh) * 2018-06-08 2018-11-16 苏州经贸职业技术学院 旅游导航方法和系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN102819591A (zh) * 2012-08-07 2012-12-12 北京网康科技有限公司 一种基于内容的网页分类方法及系统
CN103123642A (zh) * 2012-02-22 2013-05-29 深圳市谷古科技有限公司 一种基于网页语种的搜索方法和装置
US20140013221A1 (en) * 2010-12-24 2014-01-09 Peking University Founder Group Co., Ltd. Method and device for filtering harmful information
CN104376406A (zh) * 2014-11-05 2015-02-25 上海计算机软件技术开发中心 一种基于大数据的企业创新资源管理与分析系统和方法
CN104714968A (zh) * 2013-12-16 2015-06-17 中国银联股份有限公司 对网站页面进行国际化的方法和装置
CN106156372A (zh) * 2016-08-31 2016-11-23 北京北信源软件股份有限公司 一种互联网网站的分类方法及装置
CN106294885A (zh) * 2016-10-09 2017-01-04 华东师范大学 一种面向异构网页的数据收集与标注方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140013221A1 (en) * 2010-12-24 2014-01-09 Peking University Founder Group Co., Ltd. Method and device for filtering harmful information
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN103123642A (zh) * 2012-02-22 2013-05-29 深圳市谷古科技有限公司 一种基于网页语种的搜索方法和装置
CN102819591A (zh) * 2012-08-07 2012-12-12 北京网康科技有限公司 一种基于内容的网页分类方法及系统
CN104714968A (zh) * 2013-12-16 2015-06-17 中国银联股份有限公司 对网站页面进行国际化的方法和装置
CN104376406A (zh) * 2014-11-05 2015-02-25 上海计算机软件技术开发中心 一种基于大数据的企业创新资源管理与分析系统和方法
CN106156372A (zh) * 2016-08-31 2016-11-23 北京北信源软件股份有限公司 一种互联网网站的分类方法及装置
CN106294885A (zh) * 2016-10-09 2017-01-04 华东师范大学 一种面向异构网页的数据收集与标注方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108827275A (zh) * 2018-06-08 2018-11-16 苏州经贸职业技术学院 旅游导航方法和系统

Similar Documents

Publication Publication Date Title
CN108985293A (zh) 一种基于深度学习的图像自动化标注方法及系统
CN109189901A (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN110413786B (zh) 基于网页文本分类的数据处理方法、智能终端及存储介质
CN103841216A (zh) 一种基于云平台的网络舆情监控系统
CN107273295B (zh) 一种基于文本混乱度的软件问题报告分类方法
CN102509001B (zh) 一种自动去除时序数据野值点的方法
CN104182465A (zh) 一种基于网络的大数据处理方法
CN107292744A (zh) 基于机器学习的投资趋势分析方法及其系统
CN109657058A (zh) 一种公告信息的抽取方法
CN103377249A (zh) 关键词投放方法及系统
CN103927400A (zh) Web网站产品详细信息的分类抓取及产品信息库建立方法
CN104361010A (zh) 一种纠正新闻分类的自动分类方法
CN102567494A (zh) 网站分类方法及装置
CN111274814A (zh) 一种新型的半监督文本实体信息抽取方法
CN113495959B (zh) 一种基于文本数据的金融舆情识别方法及系统
CN103853720B (zh) 基于用户关注度的网络敏感信息监控系统及方法
CN107305555A (zh) 数据处理方法及装置
CN115309815A (zh) 一种基于大数据的网络舆情监测系统及方法
CN107493275A (zh) 异构网络安全日志信息的自适应提取和分析方法及系统
CN108038245A (zh) 一种基于多语言的数据挖掘方法
CN110008473A (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
Kobayakawa et al. How github contributing. md contributes to contributors
CN104268214A (zh) 一种基于微博用户关系的用户性别识别方法及系统
CN108920694A (zh) 一种短文本多标签分类方法及装置
CN101610459A (zh) 彩信内容自动采集系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180515