CN106815605A - 一种基于机器学习的数据分类方法及设备 - Google Patents
一种基于机器学习的数据分类方法及设备 Download PDFInfo
- Publication number
- CN106815605A CN106815605A CN201710051325.6A CN201710051325A CN106815605A CN 106815605 A CN106815605 A CN 106815605A CN 201710051325 A CN201710051325 A CN 201710051325A CN 106815605 A CN106815605 A CN 106815605A
- Authority
- CN
- China
- Prior art keywords
- data
- clump
- feature
- fisrt feature
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013145 classification model Methods 0.000 claims abstract description 18
- 238000012163 sequencing technique Methods 0.000 claims description 24
- 238000012216 screening Methods 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 abstract description 7
- 238000005520 cutting process Methods 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 5
- 241001269238 Data Species 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (12)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710051325.6A CN106815605B (zh) | 2017-01-23 | 2017-01-23 | 一种基于机器学习的数据分类方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710051325.6A CN106815605B (zh) | 2017-01-23 | 2017-01-23 | 一种基于机器学习的数据分类方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106815605A true CN106815605A (zh) | 2017-06-09 |
CN106815605B CN106815605B (zh) | 2021-04-13 |
Family
ID=59112339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710051325.6A Active CN106815605B (zh) | 2017-01-23 | 2017-01-23 | 一种基于机器学习的数据分类方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106815605B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273501A (zh) * | 2017-06-16 | 2017-10-20 | 合肥美的智能科技有限公司 | 语料生成方法及系统、智能设备和计算机装置 |
CN109597892A (zh) * | 2018-12-25 | 2019-04-09 | 杭州数梦工场科技有限公司 | 一种数据库中数据的分类方法、装置、设备及存储介质 |
CN111339304A (zh) * | 2020-03-16 | 2020-06-26 | 闪捷信息科技有限公司 | 一种基于机器学习的文本数据自动分类方法 |
CN111542819A (zh) * | 2017-09-26 | 2020-08-14 | 地质探索系统公司 | 用于改进的地下数据处理系统的装置和方法 |
CN111917648A (zh) * | 2020-06-30 | 2020-11-10 | 华南理工大学 | 一种数据中心里分布式机器学习数据重排的传输优化方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1460947A (zh) * | 2003-06-13 | 2003-12-10 | 北京大学计算机科学技术研究所 | 融合关键词学习的支持向量机文本分类增量训练学习方法 |
CN101449264A (zh) * | 2006-07-12 | 2009-06-03 | 柯法克斯公司 | 用于转导数据分类的方法和系统以及使用机器学习方法的数据分类方法 |
CN103257957A (zh) * | 2012-02-15 | 2013-08-21 | 深圳市腾讯计算机系统有限公司 | 一种基于中文分词的文本相似性识别方法及装置 |
CN103646464A (zh) * | 2013-12-23 | 2014-03-19 | 尤新革 | 智能点验钞机识别假币自动升级的方法 |
CN103886090A (zh) * | 2014-03-31 | 2014-06-25 | 北京搜狗科技发展有限公司 | 基于用户喜好的内容推荐方法及装置 |
CN104112026A (zh) * | 2014-08-01 | 2014-10-22 | 中国联合网络通信集团有限公司 | 一种短信文本分类方法及系统 |
CN104239436A (zh) * | 2014-08-27 | 2014-12-24 | 南京邮电大学 | 一种基于文本分类和聚类分析的网络热点事件发现方法 |
CN104866573A (zh) * | 2015-05-22 | 2015-08-26 | 齐鲁工业大学 | 一种文本分类的方法 |
CN106056098A (zh) * | 2016-06-23 | 2016-10-26 | 哈尔滨工业大学 | 一种基于类别合并的脉冲信号聚类分选方法 |
CN106294568A (zh) * | 2016-07-27 | 2017-01-04 | 北京明朝万达科技股份有限公司 | 一种基于bp网络的中文文本分类规则生成方法及系统 |
-
2017
- 2017-01-23 CN CN201710051325.6A patent/CN106815605B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1460947A (zh) * | 2003-06-13 | 2003-12-10 | 北京大学计算机科学技术研究所 | 融合关键词学习的支持向量机文本分类增量训练学习方法 |
CN101449264A (zh) * | 2006-07-12 | 2009-06-03 | 柯法克斯公司 | 用于转导数据分类的方法和系统以及使用机器学习方法的数据分类方法 |
CN103257957A (zh) * | 2012-02-15 | 2013-08-21 | 深圳市腾讯计算机系统有限公司 | 一种基于中文分词的文本相似性识别方法及装置 |
CN103646464A (zh) * | 2013-12-23 | 2014-03-19 | 尤新革 | 智能点验钞机识别假币自动升级的方法 |
CN103886090A (zh) * | 2014-03-31 | 2014-06-25 | 北京搜狗科技发展有限公司 | 基于用户喜好的内容推荐方法及装置 |
CN104112026A (zh) * | 2014-08-01 | 2014-10-22 | 中国联合网络通信集团有限公司 | 一种短信文本分类方法及系统 |
CN104239436A (zh) * | 2014-08-27 | 2014-12-24 | 南京邮电大学 | 一种基于文本分类和聚类分析的网络热点事件发现方法 |
CN104866573A (zh) * | 2015-05-22 | 2015-08-26 | 齐鲁工业大学 | 一种文本分类的方法 |
CN106056098A (zh) * | 2016-06-23 | 2016-10-26 | 哈尔滨工业大学 | 一种基于类别合并的脉冲信号聚类分选方法 |
CN106294568A (zh) * | 2016-07-27 | 2017-01-04 | 北京明朝万达科技股份有限公司 | 一种基于bp网络的中文文本分类规则生成方法及系统 |
Non-Patent Citations (3)
Title |
---|
刘红光等: ""基于机器学习的专利文本分类算法研究综述"", 《情报分析》 * |
宁亚辉等: ""基于领域词语本体的短文本分类"", 《计算机科学》 * |
胡燕等: ""中文文本分类中基于词性的特征提取方法研究"", 《中文文本分类中基于词性的特征提取方法研究》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273501A (zh) * | 2017-06-16 | 2017-10-20 | 合肥美的智能科技有限公司 | 语料生成方法及系统、智能设备和计算机装置 |
CN111542819A (zh) * | 2017-09-26 | 2020-08-14 | 地质探索系统公司 | 用于改进的地下数据处理系统的装置和方法 |
CN111542819B (zh) * | 2017-09-26 | 2024-05-31 | 地质探索系统公司 | 用于改进的地下数据处理系统的装置和方法 |
US12026222B2 (en) | 2017-09-26 | 2024-07-02 | Schlumberger Technology Corporation | Apparatus and methods for improved subsurface data processing systems |
CN109597892A (zh) * | 2018-12-25 | 2019-04-09 | 杭州数梦工场科技有限公司 | 一种数据库中数据的分类方法、装置、设备及存储介质 |
CN111339304A (zh) * | 2020-03-16 | 2020-06-26 | 闪捷信息科技有限公司 | 一种基于机器学习的文本数据自动分类方法 |
CN111917648A (zh) * | 2020-06-30 | 2020-11-10 | 华南理工大学 | 一种数据中心里分布式机器学习数据重排的传输优化方法 |
CN111917648B (zh) * | 2020-06-30 | 2021-10-26 | 华南理工大学 | 一种数据中心里分布式机器学习数据重排的传输优化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106815605B (zh) | 2021-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106815605A (zh) | 一种基于机器学习的数据分类方法及设备 | |
US7426509B2 (en) | Method and apparatus for document filtering using ensemble filters | |
US6501855B1 (en) | Manual-search restriction on documents not having an ASCII index | |
US8503769B2 (en) | Matching text to images | |
EP3821370A1 (en) | Document classification system | |
US20160171079A1 (en) | Systems and methods for probabilistic data classification | |
US7937338B2 (en) | System and method for identifying document structure and associated metainformation | |
US20070294223A1 (en) | Text Categorization Using External Knowledge | |
EP1612701A2 (en) | Automated taxonomy generation | |
US20100299332A1 (en) | Method and system of indexing numerical data | |
CN111639181A (zh) | 基于分类模型的论文分类方法、装置、电子设备及介质 | |
KR20070102035A (ko) | 문서 분류 시스템 및 그 방법 | |
JP5012078B2 (ja) | カテゴリ作成方法、カテゴリ作成装置、およびプログラム | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
KR20150086958A (ko) | 텍스트 기준점 기반의 저작권 침해 판단 시스템 및 그 방법 | |
CN113515622A (zh) | 一种档案数据分类保存系统 | |
CN111797267A (zh) | 一种医学图像检索方法及系统、电子设备、存储介质 | |
WO2020075062A1 (en) | Method and system to perform text-based search among plurality of documents | |
KR101839572B1 (ko) | 질병 관련 유전자 관계 분석 장치 및 방법 | |
JP2004287670A (ja) | 画像データベース作成装置、画像データベース作成方法、プログラム、及び記録媒体 | |
KR102297721B1 (ko) | 표절구간 탐색을 통한 표절률 산출방법을 적용하여 표절의 타당성을 평가하는 시스템 | |
WO2018220688A1 (ja) | 辞書生成装置、辞書生成方法、及びプログラム | |
CN110807099B (zh) | 一种基于模糊集的文本分析检索方法 | |
JP4125951B2 (ja) | テキスト自動分類方法及び装置並びにプログラム及び記録媒体 | |
JP2004038944A (ja) | 意味論的スナップショットの決定 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A Data Classification Method and Equipment Based on Machine Learning Effective date of registration: 20221008 Granted publication date: 20210413 Pledgee: Industrial Bank Co.,Ltd. Shanghai Branch Pledgor: SHANGHAI SUNINFO TECHNOLOGY Co.,Ltd. Registration number: Y2022310000279 |
|
PC01 | Cancellation of the registration of the contract for pledge of patent right | ||
PC01 | Cancellation of the registration of the contract for pledge of patent right |
Date of cancellation: 20231017 Granted publication date: 20210413 Pledgee: Industrial Bank Co.,Ltd. Shanghai Branch Pledgor: SHANGHAI SUNINFO TECHNOLOGY Co.,Ltd. Registration number: Y2022310000279 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A Data Classification Method and Equipment Based on Machine Learning Effective date of registration: 20231025 Granted publication date: 20210413 Pledgee: Industrial Bank Co.,Ltd. Shanghai Jinshan Branch Pledgor: SHANGHAI SUNINFO TECHNOLOGY Co.,Ltd. Registration number: Y2023980062535 |