CN108009248A - 一种数据分类方法和系统 - Google Patents

一种数据分类方法和系统 Download PDF

Info

Publication number
CN108009248A
CN108009248A CN201711244318.4A CN201711244318A CN108009248A CN 108009248 A CN108009248 A CN 108009248A CN 201711244318 A CN201711244318 A CN 201711244318A CN 108009248 A CN108009248 A CN 108009248A
Authority
CN
China
Prior art keywords
correlation
degree
word
classification
sorted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711244318.4A
Other languages
English (en)
Inventor
杨涛
王肃
杨耀威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoxin Youe Data Co Ltd
Original Assignee
Guoxin Youe Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guoxin Youe Data Co Ltd filed Critical Guoxin Youe Data Co Ltd
Priority to CN201711244318.4A priority Critical patent/CN108009248A/zh
Publication of CN108009248A publication Critical patent/CN108009248A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据分类方法和系统,包括:获得预先生成的多个分类领域相关度集;其中,每个分类领域相关度集包括对应领域名称词、与该领域名称词所表征领域相关的关键词、以及各关键词与该领域名称词之间的第一相关度;针对每个分类领域相关度集,确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度;其中,所述预设相关词包括该分类领域对应的各关键词,或者该分类领域对应的领域名称词;将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度;根据所述待分类词与多个分类领域之间的相关度,确定分类结果。

Description

一种数据分类方法和系统
技术领域
本申请涉及数据分析技术领域,具体而言,涉及一种数据分类方法和系统。
背景技术
目前,在各个平台获取到大量数据后,一般是通过手动标注的方式对大量数据进行分类,这种操作方式比较耗费人力,也比较浪费时间,在实际操作过程中,由于操作人员认知的差别,导致数据的分类不合理、针对的领域不够明确,分类效果也无法满足实际应用的需求,进而给数据的使用带来不便,降低了数据使用过程中的利用率。
发明内容
有鉴于此,本申请的目的在于提供一种数据分类方法和系统,用于解决现有技术中的对数据分类不科学导致数据应用效率低的问题。
第一方面,本申请实施例提供了一种数据分类方法,该方法包括:
获得预先生成的多个分类领域相关度集;其中,每个分类领域相关度集包括对应领域名称词、与该领域名称词所表征领域相关的关键词、以及各关键词与该领域名称词之间的第一相关度;
针对每个分类领域相关度集,确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度;其中,所述预设相关词包括该分类领域对应的各关键词,或者该分类领域对应的领域名称词;
将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度;
根据所述待分类词与多个分类领域之间的相关度,确定分类结果。
可选地,所述预设相关词为该分类领域对应的各关键词;
确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度,具体包括:
确定待分类词分别与该分类领域对应的各关键词之间的第二相关度;
将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度,具体包括:
将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,针对每个第二相关度,确定与该第二相关度对应关键词所对应的第一相关度与该第二相关度的乘积;
将各乘积相加得到的和确定为所述待分类词与该分类领域之间的相关度。
可选地,所述预设相关词为该分类领域对应的领域名称词;
确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度,具体包括:
确定待分类词分别与该分类领域对应的领域名称词之间的第二相关度;
将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度,具体包括:
将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,确定所述第二相关度分别和对应领域名称词与各关键词之间的第一相关度之间的乘积;
将各乘积相加得到的和确定为所述待分类词与该分类领域之间的相关度。
可选地,采用如下方式构建分类领域相关度集:
从预设平台获取语料;
采用预先训练得到的分词模型对所述语料进行分词处理,得到关键词集,其中,所述关键词集包括:关键词以及每两个关键词之间的第一相关度;
从所述关键词集中确定表征各领域的领域名称词;
针对每个领域名称词,将关键词集中的各关键词与该领域名称词之间的第一相关度按照从高到低的顺序进行排序;并
将前预设数量第一相关度对应的关键词以及该领域名称词构成的集合确定为对应的分类领域相关度集。
可选地,针对待分类词包含多个词的情况,还包括确定待分类词的步骤:
获取待分类数据和所述待分类数据的描述信息;
对所述待分类数据以及所述描述信息进行合成处理;
对合成后的待分类数据进行分词处理;
将分词处理得到的词中,有效的且具有名词属性的词确定为待分类词。
可选地,根据所述待分类词与多个分类领域之间的相关度,确定分类结果,具体包括:
针对每个分类领域,将待分类数据对应的各待分类词与该分类领域之间的相关度相加,得到所述待分类数据与该分类领域之间的相关度;
根据所述待分类数据与多个分类领域之间的相关度,确定所述待分类数据所属分类领域。
第二方面,本申请实施例提供了一种数据分类系统,该系统包括:
获取模块,用于获得预先生成的多个分类领域相关度集;其中,每个分类领域相关度集包括对应领域名称词、与该领域名称词所表征领域相关的关键词、以及各关键词与该领域名称词之间的第一相关度;
第一确定模块,用于针对每个分类领域相关度集,确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度;其中,所述预设相关词包括该分类领域对应的各关键词,或者该分类领域对应的领域名称词;
计算模块,用于将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度;
第二确定模块,用于根据所述待分类词与多个分类领域之间的相关度,确定分类结果。
可选地,所述预设相关词为该分类领域对应的各关键词;
所述第一确定模块具体用于:
确定待分类词分别与该分类领域对应的各关键词之间的第二相关度;
所述计算模块具体用于:
将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,针对每个第二相关度,确定与该第二相关度对应关键词所对应的第一相关度与该第二相关度的乘积;
将各乘积相加得到的和确定为所述待分类词与该分类领域之间的相关度。
第三方面,本申请实施例提供了一种计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的方法的步骤。
本申请实施例提供的数据分类方法和系统,包括:获得预先生成的多个分类领域相关度集;其中,每个分类领域相关度集包括对应领域名称词、与该领域名称词所表征领域相关的关键词、以及各关键词与该领域名称词之间的第一相关度;针对每个分类领域相关度集,确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度;其中,所述预设相关词包括该分类领域对应的各关键词,或者该分类领域对应的领域名称词;将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度;根据所述待分类词与多个分类领域之间的相关度,确定分类结果。在对待分类词进行分类时,采用预先生成的分类领域相关度集,使得分类领域更加明确,减少了使用人工对数据集进行标注耗费的时间,采用分类领域确定模型确定待分类词的分类领域,使得数据的分类更加准确,提高数据的利用率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种数据分类方法的流程示意图;
图2为本申请实施例提供的一种数据分类系统的第一种结构示意图;
图3为本申请实施例提供的一种数据分类系统的第二种结构示意图;
图4为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种数据分类方法,如图1所示,具体包括以下步骤:
S101,获得预先生成的多个分类领域相关度集;其中,每个分类领域相关度集包括对应领域名称词、与该领域名称词所表征领域相关的关键词、以及各关键词与该领域名称词之间的第一相关度;
具体地,分类领域可以是根据实际需求预先生成的,对应领域名称词一般是对应分类领域的关键词,通常作为所表征领域的名称,如,对应领域名称词可以为交通、天气、体育等。
采用如下方式构建分类领域相关度集:
从预设平台获取语料;
采用预先训练得到的分词模型对所述语料进行分词处理,得到关键词集,其中,所述关键词集包括:关键词以及每两个关键词之间的第一相关度;
从所述关键词集中确定表征各领域的领域名称词;
针对每个领域名称词,将关键词集中的各关键词与该领域名称词之间的第一相关度按照从高到低的顺序进行排序;并
将前预设数量第一相关度对应的关键词以及该领域名称词构成的集合确定为对应的分类领域相关度集。
具体地,预设平台可以是但不限于维基百科、百度百科、百科全书等;分词模型一般为机器学习模型,如,条件随机场模型、隐马尔可夫模型、word2vec模型等,在现有技术中已有详细的介绍,此处不再进行过多说明;分类领域可以是用户预先设置的,根据用户预先设置的各个领域,从关键词集中选择与各个分类领域匹配的领域名称词,如,预设的分类领域为体育,则将关键词集中的体育确定为领域名称词;预设数量一般是根据实际需求设置的,例如,预设数量可以为10、20、30等。
在具体实施中从维基百科获取气象相关的语料,可以利用分词技术对获取的语料进行预处理,得到多个关键词,将得到的关键词输入到word2vec模型中得到关键词集,关键词集中包括关键词和每两个关键词之间的相关度,根据预先设置的分类领域如气象领域,从关键词集中确定领域名称词如气象,将关键词集中的每个关键词与气象的第一相关度排序,选取前9个作为气象分类领域相关度集,如下表所示:
S102,针对每个分类领域相关度集,确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度;其中,所述预设相关词包括该分类领域对应的各关键词,或者该分类领域对应的领域名称词;
具体地,待分类词一般是从待分类数据中确定的,可以包含有多个,根据实际情况确定;预设相关词一般为分类领域相关度集中与领域名称词相关的关键词;其中,待分类数据可以是学术文章、论文、领域名称等。
以待分类词包括多个词的情况,基于以下步骤确定待分类词:
获取待分类数据和所述待分类数据的描述信息;
对所述待分类数据以及所述描述信息进行合成处理;
对合成后的待分类数据进行分词处理;
将分词处理得到的词中,有效的且具有名词属性的词确定为待分类词
具体地,在待分类数据为领域名称时,待分类数据的描述信息可以是针对领域名称的说明信息;进行合成处理时,可以将待分类数据和待分类数据的描述信息通过标点符号进行分隔;通过jieba分词技术对合成后的待分类数据进行分词处理。
在对待分类数据分词处理得到多个词后,可以利用词性标注去除无用(或无效)词,例如,数词、符号等,只保留具有名词属性的词,并根据停用词词典进一步去除无用词,防止无用词削弱处理结果,保证后续数据处理的准确度。
例如,待分类数据可以为:全国天气数据,描述信息可以为:全国天气多维度数据,经过上述合成处理、分词处理后得到的待分类词可以为全国和天气。
S103,将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度;
在预设相关词为该分类领域对应的各关键词时,在执行步骤S102时,确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度,具体如下:
确定待分类词分别与该分类领域对应的各关键词之间的第二相关度;
在具体实施中,将待分类词和分类领域对应的各关键词输入到Word2vec模型中,得到各个待分类词与分类领域对应的各关键词之间的第二相关度。
例如,待分类词为全国和天气,分类领域相关度集为上述的气象分类领域相关度集,得到待分类词和气象分类领域的各关键词之间的第二相关度如下:
全国与气象预报的第二相关度是:0.0812981353594
全国与预报的第二相关度是:0.0973937133801
全国与天气预报的第二相关度是:0.106457782808
全国与中国气象局的第二相关度是:0.157279118284
全国与气象局的第二相关度是:0.0529309243233
全国与中央气象局的第二相关度是:0.0451926381422
全国与地球物理的第二相关度是:0.0602337426254
全国与气象部门的第二相关度是:0.0123767723007
全国与气象台的第二相关度是:0.0737997889038
天气与气象预报的第二相关度是:0.319274366514
天气与预报的第二相关度是:0.421167100178
天气与天气预报的第二相关度是:0.423267774729
天气与中国气象局的第二相关度是:0.258348260122
天气与气象局的第二相关度是:0.332099838575
天气与中央气象局的第二相关度是:0.246132106892
天气与地球物理的第二相关度是:0.165185546058
天气与气象部门的第二相关度是:0.368846347868
天气与气象台的第二相关度是:0.274098601312
在执行步骤S103时,将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度,具体如下:
将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,针对每个第二相关度,确定与该第二相关度对应的关键词所对应的第一相关度与该第二相关度的乘积;
将各乘积相加得到的和确定为所述待分类词与该分类领域之间的相关度。
具体地,确定待分类词与分类领域之间的相关度的分类领域确定模型为:
其中,W表征待分类词与分类领域之间的相关度;Bi表征分类领域相关度集中的第i个第一相关度;Mi表征分类领域相关度集中第i个关键词与待分类词之间的第二相关度;n为正整数。
延续上述待分类词为全国和天气的实施例,通过预先构建的分类领域模型确定的待分类词为全国和天气与气象分类领域之间的相关度为:3.64923488526。
在预设相关词为该分类领域对应的领域名称词时,确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度,具体包括:
确定待分类词分别与该分类领域对应的领域名称词之间的第二相关度;
将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度,具体包括:
将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,确定所述第二相关度分别和对应领域名称词与各关键词之间的第一相关度之间的乘积;
将各乘积相加得到的和确定为所述待分类词与该分类领域之间的相关度。
待分类词为分类领域对应的领域名称词时,待分类词与分类领域对应的领域名称词之间的相关度的计算方法与待分类词为分类领域对应的各关键词的计算方法相同,此处不再进行过多介绍。
S104,根据所述待分类词与多个分类领域之间的相关度,确定分类结果。
以待分类词为全国和天气,分类领域为气象领域、交通领域、教育领域为例进行说明,参考上述构建气象分类领域相关度集的方法,构建的交通分类领域相关度集如下:
教育领域的相关度集如下:
参考计算全国、天气与气象分类领域中的各关键词之间第二相关度的方法,计算全国、天气与交通分类领域中的各关键词的之间的第二相关度,如下:
全国与交通设施的第二相关度是:0.160351754012
全国与公路交通的第二相关度是:0.196669711293
全国与运输网络的第二相关度是:0.14709498489
全国与城市交通的第二相关度是:0.214205770714
全国与公路运输的第二相关度是:0.210514155541
全国与公共交通的第二相关度是:0.175693816991
全国与交通网络的第二相关度是:0.100344823478
全国与运输的第二相关度是:0.0994003907193
全国与交通状况的第二相关度是:0.0485031404786
天气与交通设施的第二相关度是:0.177574539984
天气与公路交通的第二相关度是:0.140756620322
天气与运输网络的第二相关度是:0.143754343147
天气与城市交通的第二相关度是:0.118193139522
天气与公路运输的第二相关度是:0.0756150537559
天气与公共交通的第二相关度是:0.141750473875
天气与交通网络的第二相关度是:0.160881034881
天气与运输的第二相关度是:0.149997543905
天气与交通状况的第二相关度是:0.301120509304
参考计算全国、天气与气象分类领域中各关键词之间第二相关度的方法,计算全国、天气与教育领域的之间的第二相关度,如下:
全国与基础教育的第二相关度是:0.292304146044
全国与高等教育的相关度是:0.28841808329
全国与教育体制的第二相关度是:0.191234467909
全国与普及教育的第二相关度是:0.262526514727
全国与教学的第二相关度是:0.227708580412
全国与初等教育的第二相关度是:0.209912594755
全国与国民教育的第二相关度是:0.190269018673
全国与中等教育的第二相关度是:0.188077874666
全国与教育领域的第二相关度是:0.213031309404
天气与基础教育的第二相关度是:-0.020795508481
天气与高等教育的第二相关度是:-0.00872687046669
天气与教育体制的第二相关度是:0.00922546592203
天气与普及教育的第二相关度是:-0.067719810533
天气与教学的第二相关度是:0.0234477405422
天气与初等教育的第二相关度是:-0.0206816025318
天气与国民教育的第二相关度是:-0.0111382537442
天气与中等教育的第二相关度是:-0.0101429675162
天气与教育领域的第二相关度是:-0.0252851154884
根据待分类词与多个分类领域之间的相关度,确定分类结果,具体包括:
针对每个分类领域,将待分类数据对应的各待分类词与该分类领域之间的相关度相加,得到所述待分类数据与该分类领域之间的相关度;
根据所述待分类数据与多个分类领域之间的相关度,确定所述待分类数据所属分类领域。
参考计算全国、天气与气象分类领域之间相关度的方法,分别计算全国、天气与交通领域和教育领域的之间的相关度,该待分类词与教育领域的相关度是:2.33979413579,与交通领域的总相关度是:3.07043721423。
比较待分类词与气象领域、教育领域、交通领域之间的相关度,得到气象领域(3.64923488526)>交通领域(3.07043721423)>教育领域2.33979413579),因此,确定该待分类词属于气象领域。
本申请提供的数据分类方法,在对待分类词进行分类时,采用预先生成的分类领域相关度集,使得分类领域更加明确,减少了使用人工对数据集进行标注耗费的时间,采用分类领域确定模型确定待分类词的分类领域,使得数据的分类更加准确,提高数据的利用率。
本申请实施例提供了一种数据分类系统,如图2所示,该系统包括:
获取模块21,用于获得预先生成的多个分类领域相关度集;其中,每个分类领域相关度集包括对应领域名称词、与该领域名称词所表征领域相关的关键词、以及各关键词与该领域名称词之间的第一相关度;
第一确定模块22,用于针对每个分类领域相关度集,确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度;其中,所述预设相关词包括该分类领域对应的各关键词,或者该分类领域对应的领域名称词;
计算模块23,用于将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度;
第二确定模块24,用于根据所述待分类词与多个分类领域之间的相关度,确定分类结果。
可选地,所述预设相关词为该分类领域对应的各关键词;
所述第一确定模块22具体用于:
确定待分类词分别与该分类领域对应的各关键词之间的第二相关度;
所述计算模块23具体用于:
将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,针对每个第二相关度,确定与该第二相关度对应关键词所对应的第一相关度与该第二相关度的乘积;
将各乘积相加得到的和确定为所述待分类词与该分类领域之间的相关度。
可选地,所述预设相关词为该分类领域对应的领域名称词;
第一确定模块22具体用于:
确定待分类词分别与该分类领域对应的领域名称词之间的第二相关度;
计算模块23具体用于:
将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,确定所述第二相关度分别和对应领域名称词与各关键词之间的第一相关度之间的乘积;
将各乘积相加得到的和确定为所述待分类词与该分类领域之间的相关度。
本申请实施例还提供了一种数据分类系统,如图3所示,该数据分类系统与图2中的数据分类系统相比:还包括构建模块25,所述构建模块25具体用于:
从预设平台获取语料;
采用预先训练得到的分词模型对所述语料进行分词处理,得到关键词集,其中,所述关键词集包括:关键词以及每两个关键词之间的第一相关度;
从所述关键词集中确定表征各领域的领域名称词;
针对每个领域名称词,将关键词集中的各关键词与该领域名称词之间的第一相关度按照从高到低的顺序进行排序;并
将前预设数量第一相关度对应的关键词以及该领域名称词构成的集合确定为对应的分类领域相关度集。
可选地,针对所述待分类词包含多个词的情况,还包括第三确定模块26,第三确定模块26具体用于:
获取待分类数据和所述待分类数据的描述信息;
对所述待分类数据以及所述描述信息进行合成处理;
对合成后的待分类数据进行分词处理;
将分词处理得到的词中,有效的且具有名词属性的词确定为待分类词。
所述第二确定模块24具体用于:
针对每个分类领域,将待分类数据对应的各待分类词与该分类领域之间的相关度相加,得到所述待分类数据与该分类领域之间的相关度;
根据所述待分类数据与多个分类领域之间的相关度,确定所述待分类数据所属分类领域。
对应于图1中的数据分类方法,本申请实施例还提供了一种计算机设备,如图4所示,该设备包括存储器1000、处理器2000及存储在该存储器1000上并可在该处理器2000上运行的计算机程序,其中,上述处理器2000执行上述计算机程序时实现上述数据分类方法的步骤。
具体地,上述存储器1000和处理器2000能够为通用的存储器和处理器,这里不做具体限定,当处理器2000运行存储器1000存储的计算机程序时,能够执行上述数据分类方法,用于解决现有技术对数据分类不科学导致数据应用效率低的问题,在对待分类词进行分类时,采用预先生成的分类领域相关度集,使得分类领域更加明确,减少了使用人工对数据集进行标注耗费的时间,采用分类领域确定模型确定待分类词的分类领域,使得数据的分类更加准确,提高数据的利用率。
对应于图1中的数据分类方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述数据分类方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述数据分类方法,用于解决现有技术对数据分类不科学导致数据应用效率低的问题,在对待分类词进行分类时,采用预先生成的分类领域相关度集,使得分类领域更加明确,减少了使用人工对数据集进行标注耗费的时间,采用分类领域确定模型确定待分类词的分类领域,使得数据的分类更加准确,提高数据的利用率。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种数据分类方法,其特征在于,该方法包括:
获得预先生成的多个分类领域相关度集;其中,每个分类领域相关度集包括对应领域名称词、与该领域名称词所表征领域相关的关键词、以及各关键词与该领域名称词之间的第一相关度;
针对每个分类领域相关度集,确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度;其中,所述预设相关词包括该分类领域对应的各关键词,或者该分类领域对应的领域名称词;
将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度;
根据所述待分类词与多个分类领域之间的相关度,确定分类结果。
2.如权利要求1所述的方法,其特征在于,所述预设相关词为该分类领域对应的各关键词;
确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度,具体包括:
确定待分类词分别与该分类领域对应的各关键词之间的第二相关度;
将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度,具体包括:
将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,针对每个第二相关度,确定与该第二相关度对应关键词所对应的第一相关度与该第二相关度的乘积;
将各乘积相加得到的和确定为所述待分类词与该分类领域之间的相关度。
3.如权利要求1所述的方法,其特征在于,所述预设相关词为该分类领域对应的领域名称词;
确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度,具体包括:
确定待分类词分别与该分类领域对应的领域名称词之间的第二相关度;
将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度,具体包括:
将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,确定所述第二相关度分别和对应领域名称词与各关键词之间的第一相关度之间的乘积;
将各乘积相加得到的和确定为所述待分类词与该分类领域之间的相关度。
4.如权利要求1-3任一项所述的方法,其特征在于,采用如下方式构建分类领域相关度集:
从预设平台获取语料;
采用预先训练得到的分词模型对所述语料进行分词处理,得到关键词集,其中,所述关键词集包括:关键词以及每两个关键词之间的第一相关度;
从所述关键词集中确定表征各领域的领域名称词;
针对每个领域名称词,将关键词集中的各关键词与该领域名称词之间的第一相关度按照从高到低的顺序进行排序;并
将前预设数量第一相关度对应的关键词以及该领域名称词构成的集合确定为对应的分类领域相关度集。
5.如权利要求1所述的方法,其特征在于,针对所述待分类词包含多个词的情况,还包括确定待分类词的步骤:
获取待分类数据和所述待分类数据的描述信息;
对所述待分类数据以及所述描述信息进行合成处理;
对合成后的待分类数据进行分词处理;
将分词处理得到的词中,有效的且具有名词属性的词确定为待分类词。
6.如权利要求5所述的方法,其特征在于,根据所述待分类词与多个分类领域之间的相关度,确定分类结果,具体包括:
针对每个分类领域,将待分类数据对应的各待分类词与该分类领域之间的相关度相加,得到所述待分类数据与该分类领域之间的相关度;
根据所述待分类数据与多个分类领域之间的相关度,确定所述待分类数据所属分类领域。
7.一种数据分类系统,其特征在于,该系统包括:
获取模块,用于获得预先生成的多个分类领域相关度集;其中,每个分类领域相关度集包括对应领域名称词、与该领域名称词所表征领域相关的关键词、以及各关键词与该领域名称词之间的第一相关度;
第一确定模块,用于针对每个分类领域相关度集,确定待分类词与该分类领域相关度集中预设相关词之间的第二相关度;其中,所述预设相关词包括该分类领域对应的各关键词,或者该分类领域对应的领域名称词;
计算模块,用于将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,得到所述待分类词与该分类领域之间的相关度;
第二确定模块,用于根据所述待分类词与多个分类领域之间的相关度,确定分类结果。
8.如权利要求7所述的系统,其特征在于,所述预设相关词为该分类领域对应的各关键词;
所述第一确定模块具体用于:
确定待分类词分别与该分类领域对应的各关键词之间的第二相关度;
所述计算模块具体用于:
将所述第一相关度和所述第二相关度输入预先构建的分类领域确定模型,针对每个第二相关度,确定与该第二相关度对应关键词所对应的第一相关度与该第二相关度的乘积;
将各乘积相加得到的和确定为所述待分类词与该分类领域之间的相关度。
9.一种计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至6任一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1至6任一项所述的方法的步骤。
CN201711244318.4A 2017-11-30 2017-11-30 一种数据分类方法和系统 Pending CN108009248A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711244318.4A CN108009248A (zh) 2017-11-30 2017-11-30 一种数据分类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711244318.4A CN108009248A (zh) 2017-11-30 2017-11-30 一种数据分类方法和系统

Publications (1)

Publication Number Publication Date
CN108009248A true CN108009248A (zh) 2018-05-08

Family

ID=62055880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711244318.4A Pending CN108009248A (zh) 2017-11-30 2017-11-30 一种数据分类方法和系统

Country Status (1)

Country Link
CN (1) CN108009248A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763599A (zh) * 2018-07-12 2018-11-06 江苏慧学堂系统工程有限公司 一种计算机数据采集装置及方法
CN108829889A (zh) * 2018-06-29 2018-11-16 国信优易数据有限公司 一种新闻文本分类方法以及装置
CN109284392A (zh) * 2018-12-07 2019-01-29 深圳前海达闼云端智能科技有限公司 一种文本分类方法、装置、终端及存储介质
CN110858313A (zh) * 2018-08-24 2020-03-03 国信优易数据有限公司 一种人群分类方法以及人群分类系统
CN110969181A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 数据推送方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944099A (zh) * 2010-06-24 2011-01-12 西北工业大学 一种使用本体进行文本文档自动分类的方法
CN104572899A (zh) * 2014-12-25 2015-04-29 北京锐安科技有限公司 处理文章的方法和装置
CN106202380A (zh) * 2016-07-08 2016-12-07 中国科学院上海高等研究院 一种分类语料库的构建方法、系统及具有该系统的服务器
US20170154314A1 (en) * 2015-11-30 2017-06-01 FAMA Technologies, Inc. System for searching and correlating online activity with individual classification factors
CN106897262A (zh) * 2016-12-09 2017-06-27 阿里巴巴集团控股有限公司 一种文本分类方法和装置以及处理方法和装置
CN107193915A (zh) * 2017-05-15 2017-09-22 北京因果树网络科技有限公司 一种企业信息分类方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944099A (zh) * 2010-06-24 2011-01-12 西北工业大学 一种使用本体进行文本文档自动分类的方法
CN104572899A (zh) * 2014-12-25 2015-04-29 北京锐安科技有限公司 处理文章的方法和装置
US20170154314A1 (en) * 2015-11-30 2017-06-01 FAMA Technologies, Inc. System for searching and correlating online activity with individual classification factors
CN106202380A (zh) * 2016-07-08 2016-12-07 中国科学院上海高等研究院 一种分类语料库的构建方法、系统及具有该系统的服务器
CN106897262A (zh) * 2016-12-09 2017-06-27 阿里巴巴集团控股有限公司 一种文本分类方法和装置以及处理方法和装置
CN107193915A (zh) * 2017-05-15 2017-09-22 北京因果树网络科技有限公司 一种企业信息分类方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829889A (zh) * 2018-06-29 2018-11-16 国信优易数据有限公司 一种新闻文本分类方法以及装置
CN108763599A (zh) * 2018-07-12 2018-11-06 江苏慧学堂系统工程有限公司 一种计算机数据采集装置及方法
CN110858313A (zh) * 2018-08-24 2020-03-03 国信优易数据有限公司 一种人群分类方法以及人群分类系统
CN110858313B (zh) * 2018-08-24 2023-01-31 国信优易数据股份有限公司 一种人群分类方法以及人群分类系统
CN110969181A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 数据推送方法及装置
CN109284392A (zh) * 2018-12-07 2019-01-29 深圳前海达闼云端智能科技有限公司 一种文本分类方法、装置、终端及存储介质
CN109284392B (zh) * 2018-12-07 2021-04-06 达闼机器人有限公司 一种文本分类方法、装置、终端及存储介质

Similar Documents

Publication Publication Date Title
CN111177569B (zh) 基于人工智能的推荐处理方法、装置及设备
CN108009248A (zh) 一种数据分类方法和系统
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN107168992A (zh) 基于人工智能的文章分类方法及装置、设备与可读介质
CN106776574B (zh) 用户评论文本挖掘方法及装置
CN109213868A (zh) 基于卷积注意力机制网络的实体级别情感分类方法
CN106445919A (zh) 一种情感分类方法及装置
CN108090048A (zh) 一种基于多元数据分析的高校评价系统
CN103106262A (zh) 文档分类、支持向量机模型生成的方法和装置
CN106649819A (zh) 一种提取实体词和上位词的方法及装置
CN110597960B (zh) 一种个性化在线课程与职业双向推荐方法及系统
CN105930319A (zh) 建立获取题目知识点模型、获取题目知识点的方法和装置
CN107330009B (zh) 主题词分类模型创建方法、创建装置及存储介质
CN106611015A (zh) 标签的处理方法及装置
CN108959329A (zh) 一种文本分类方法、装置、介质及设备
CN106776808A (zh) 基于人工智能的资讯数据提供方法及装置
CN103631874A (zh) 社交平台的ugc标签类别确定方法和装置
CN107665221A (zh) 关键词的分类方法和装置
CN110110035A (zh) 数据处理方法和装置以及计算机可读存储介质
CN110347791A (zh) 一种基于多标签分类卷积神经网络的题目推荐方法
CN114037545A (zh) 客户推荐方法、装置、设备及存储介质
CN112632264A (zh) 智能问答方法、装置、电子设备及存储介质
CN112101029A (zh) 一种基于bert模型的高校导师推荐管理方法
CN113886580A (zh) 一种情感评分方法、装置及电子设备
CN109684467A (zh) 一种文本的分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 101-8, 1st floor, building 31, area 1, 188 South Fourth Ring Road West, Fengtai District, Beijing

Applicant after: Guoxin Youyi Data Co., Ltd

Address before: 100071 B, block B, ABP building, district ABP building, No. 188 headquarters base of South Fourth Ring West Road

Applicant before: SIC YOUE DATA Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20180508

RJ01 Rejection of invention patent application after publication