CN112818206A - 一种数据分类方法、装置、终端及存储介质 - Google Patents
一种数据分类方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN112818206A CN112818206A CN202110209592.8A CN202110209592A CN112818206A CN 112818206 A CN112818206 A CN 112818206A CN 202110209592 A CN202110209592 A CN 202110209592A CN 112818206 A CN112818206 A CN 112818206A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- grouped data
- target grouped
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请适用于计算机技术领域,提供了一种数据分类方法、装置、终端及存储介质,包括:获取待分类数据;对待分类数据进行分组,得到多个目标分组数据;采用语义分析模型提取每个目标分组数据的语义信息,并根据每个目标分组数据的语义信息,确定每个目标分组数据对应的分类类型;基于每个目标分组数据对应的分类类型,以及网页的展示版块对应的展示主题,在该展示版块中展示每个目标分组数据。这种数据分类方法,提升了数据分类的准确度,进而保证用户能够准确、快速地在网页中查找到自己想要的信息;且通过语义分析模型对目标分组数据进行处理,无需人工干预,提升了数据处理的速率,节省了经济成本。
Description
技术领域
本申请属于计算机技术领域,尤其涉及一种数据分类方法、数据分类装置、数据分类终端及存储介质。
背景技术
随着互联网的高速发展以及大数据平台的出现,网络信息的数量越来越多。开发人员对其进行分类并在网页的对应版块中展现这些网络信息,相应地,用户可在网页中浏览这些版块中的网络信息,以查找自己想要的信息。
然而,现有技术中对网络信息的分类并不准确,使得这些网络信息在网页中展示的位置不准确。
发明内容
有鉴于此,本申请实施例提供了一种数据分类方法、数据分类装置、数据分类终端及存储介质,以解决现有技术中对网络信息的分类并不准确,导致这些网络信息在网页中展示的位置不准确的问题。
本申请实施例的第一方面提供了一种数据分类方法,包括:
获取待分类数据;
对所述待分类数据进行分组,得到多个目标分组数据,所述目标分组数据对应的关联程度值大于或等于预设阈值;
采用已训练的语义分析模型提取每个目标分组数据的语义信息,并根据每个目标分组数据的语义信息,确定每个目标分组数据对应的分类类型;
基于每个目标分组数据对应的分类类型,以及网页的展示版块对应的展示主题,在所述展示版块中展示每个目标分组数据。
本申请实施例的第二方面提供了一种数据分类装置,包括:
获取单元,用于获取待分类数据;
划分单元,用于对所述待分类数据进行分组,得到多个目标分组数据,所述目标分组数据对应的关联程度值大于或等于预设阈值;
分类单元,用于采用已训练的语义分析模型提取每个目标分组数据的语义信息,并根据每个目标分组数据的语义信息,确定每个目标分组数据对应的分类类型;
展示单元,用于基于每个目标分组数据对应的分类类型,以及网页的展示版块对应的展示主题,在所述展示版块中展示每个目标分组数据。
本申请实施例的第三方面提供了一种数据分类终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述第一方面所述的数据分类方法的步骤。
本申请实施例的第四方面提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的数据分类方法的步骤。
本申请实施例的第五方面提供了一种计算机程序产品,当计算机程序产品在数据分类终端上运行时,使得数据分类终端执行上述第一方面所述的数据分类方法的步骤。
本申请实施例提供的一种数据分类方法、数据分类装置、数据分类终端及存储介质,具有以下有益效果:
本申请实施例,对待分类数据进行分组,得到多个目标分组数据;采用语义分析模型提取每个目标分组数据的语义信息,基于该语义信息确定每个目标分组数据对应的分类类型;基于每个目标分组数据对应的分类类型以及网页的展示版块对应的展示主题,在展示版块中展示每个目标分组数据。上述方式中,先对待分类数据进行分组处理,得到的每个目标分组数据内的数据之间的关联程度高,可使语义分析模型提取到每个目标分组数据丰富、准确地语义信息,基于该语义信息确定的分类类型更准确,进而可以将每个目标分组数据准确地在网页的各个展示版块中进行展示。这种数据分类方法,提升了数据分类的准确度,进而保证用户能够准确、快速地在网页中查找到自己想要的信息;且通过语义分析模型对目标分组数据进行处理,无需人工干预,提升了数据处理的速率,节省了经济成本。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据分类方法的示意流程图;
图2是本申请又一实施例提供的数据分类方法的示意性流程图;
图3是本申请另一实施例提供的数据分类方法的示意性流程图;
图4是本申请又一实施例提供的数据分类方法的示意性流程图;
图5是本申请另一实施例提供的数据分类方法的示意性流程图;
图6是本申请一实施例提供的一种数据分类装置的示意图;
图7是本申请另一实施例提供的一种数据分类终端的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
随着互联网的高速发展以及大数据平台的出现,网络信息的数量越来越多。开发人员对其进行分析并在网页的对应版块中展现这些网络信息,相应地,用户可在网页中浏览这些版块中的网络信息,以查找自己想要的信息。
然而,现有技术中对网络信息的分析并不准确,使得这些网络信息在网页中展示的位置不准确,导致用户在网页的展示板块中不能准确地获取到自己想要的信息。
有鉴于此,本申请提供了一种数据分类方法,该方法中,本申请实施例,对待分类数据进行分组,得到多个目标分组数据;采用语义分析模型提取每个目标分组数据的语义信息,基于该语义信息确定每个目标分组数据对应的分类类型;基于每个目标分组数据对应的分类类型以及网页的展示版块对应的展示主题,在展示版块中展示每个目标分组数据。上述方式中,先对待分类数据进行分组处理,得到的每个目标分组数据内的数据之间的关联程度高,可使语义分析模型提取到每个目标分组数据丰富、准确地语义信息,基于该语义信息确定的分类类型更准确,进而可以将每个目标分组数据准确地在网页的各个展示版块中进行展示。这种数据分类方法,提升了数据分类的准确度,进而保证用户能够准确、快速地在网页中查找到自己想要的信息;且通过语义分析模型对目标分组数据进行处理,无需人工干预,提升了数据处理的速率,节省了经济成本。
请参见图1,图1是本申请实施例提供的一种数据分类方法的示意流程图。本实施例中数据分类方法的执行主体为数据分类终端,数据分类终端包括但不限于智能手机、平板电脑、计算机、个人数字助理(Personal Digital Assistant,PDA)等移动终端,还可以包括台式电脑等终端。如图1所示的数据分类方法可包括S101~S104,具体如下:
S101:获取待分类数据。
数据分类终端获取待分类数据。待分类数据是指在网络中采集到的数据。待分类数据可以包括企业内部的自有数据、第三方数据、通过爬虫方式获取的网络数据等。例如,待分类数据具体可以是用户或者商户在使用各种系统时产生的行为数据;待分类数据也可以是采集互联网或大数据平台的文章、新闻、帖子、微博等得到的数据。这些数据需要经过分析处理后,才可在网页的各个展示版块中进行展示。
示例性地,可以是其他终端设备预先通过爬虫、搜索引擎、检索工具等采集互联网、大数据平台的数据,这些采集好的数据即为待分类数据,然后其他终端设备将待分类数据上传至数据分类终端,数据分类终端获取到待分类数据。也可以是数据分类终端通过爬虫、搜索引擎、检索等工具在互联网、大数据平台采集待分类数据,具体可以采集用户行为数据、网站类型、各类文章正文、文章标题、文章发表时间、文章摘要、文章作者、文章评论、文章所属类型、文章来源、娱乐新闻、八卦新闻、科学知识等数据,将采集到的这些数据作为待分类数据。
S102:对待分类数据进行分组,得到多个目标分组数据,该目标分组数据对应的关联程度值大于或等于预设阈值。
示例性地,可将待分类数据划分成多个数据单元,将这些数据单元任意组合,得到多个分组数据。确定每个分组数据对应的关联程度值,比较每个分组数据对应的关联程度值与预设阈值之间的大小,根据比较结果确定目标分组数据。其中,目标分组数据是指其对应的关联程度值大于或等于预设阈值的分组数据。
请参见图2,图2是本申请又一实施例提供的数据分类方法的示意性流程图,可选地,在一种可能的实现方式中,如图2所示,上述S102可以包括S1021~S1024,具体如下:
S1021:将待分类数据按预设结构划分为多个数据单元,该预设结构包括文章格式。
该预设结构可以包括文章结构、论文结构等,例如大标题、小标题、目录、内容提要、摘要、关键词、前言、正文、段落内容、评论内容等。其中,每一个板块的数据对应一个数据单元。例如,一个大标题对应一个数据单元,一段摘要对应一个数据单元,一个评论内容对应一个数据单元等,此处仅为示例性说明,对此不做限定。
示例性地,可先对待分类数据进行去重、外文翻译、图片文字识别等处理。例如,识别待分类数据中的重复数据内容,对于这些相同的数据内容只保留其中一份,将其余的重复数据内容删除;对于获取到的待分类数据中有外文数据内容的,则对这些外文数据内容进行翻译,将其翻译为中文;若检测到待分类数据中有文字图片,则可通过图片识别技术识别图片中的文字。
将经过去重、外文翻译、图片文字识别等处理后的待分类数据依据预设结构划分为多个数据单元。例如,待分类数据由多个结构完整或结构不完整的文章组成,识别这些文章中的大标题、小标题、摘要、前言、段落内容等,并根据识别出的这些内容对待分类数据进行划分,得到多个数据单元。例如,一个小标题对应一个数据单元,一段摘要对应一个数据单元,一个段落内容对应一个数据单元等,此处仅为示例性说明,对此不做限定。
示例性地,当待分类数据中的文章结构不完整时,比如有三个文章,分别是文章A、文章B、文章C,文章A只有大标题和摘要,文章B有小标题和前言,文章C有一段正文。此时对该待分类数据依据预设结构进行划分处理,可以得到大标题对应一个数据单元,摘要对应一个数据单元,小标题对应一个数据单元,前言对应一个数据单元,正文对应一个数据单元。
可选地,该预设结构还可以表格结构,当待分类数据中包含表格时,将每个表格内的内容划分为一个数据单元。
S1022:将多个数据单元进行任意组合,生成多个分组数据。
将划分得到的多个数据单元进行任意组合,对于组合的数量不进行限制,可以是两个数据单元进行组合,也可以是多个数据单元进行组合,进而得到多个分组数据。
示例性地,按照预设数量对多个数据单元进行组合。示例性地,每次将任意三个数据单元进行组合。沿用S1021中的例子,可以将大标题对应的数据单元、摘要对应的数据单元以及正文对应的数据单元进行组合,得到一个分组数据。也可以将小标题对应的数据单元、前言对应的数据单元以及正文对应的数据单元进行组合,得到一个分组数据。此处仅为示例性说明,对此不做限定。
S1023:确定每个分组数据对应的关联程度值,该关联程度值用于表示每个分组数据中的各个数据单元之间的关联程度。
示例性地,可通过已训练的关联程度模型,确定每个分组数据对应的关联程度值。该关联程度值用于表示每个分组数据中的各个数据单元之间的关联程度。比如,某个分组数据包含大标题对应的数据单元、摘要对应的数据单元以及正文对应的数据单元,通过关联程度值确定模块计算大标题的内容、摘要内容以及正文之间的相关程度。其中,关联程度值越大,表示该分组数据中的数据之间相关程度越高;关联程度值越小,表示该分组数据中的数据之间相关程度越低。
示例性地,通过关联程度模型对每个分组数据中的数据单元对应的具体内容进行关键词提取,得到能代表该数据单元的一个或多个关键词。对每个关键词进行向量化处理,得到每个关键词对应的向量特征,计算这些向量特征之间的余弦相似度。对计算得到的余弦相似度进行逻辑回归(softmax)处理,得到归一化的概率分布,该概率分布即为该分组数据对应的关联程度值。例如,某个分组数据包含大标题对应的数据单元、摘要对应的数据单元以及正文对应的数据单元,提取到该大标题的关键词为某个体育明星,提取摘要的关键词也为该体育明星,提取正文的关键词还是该体育明星,对每个关键词进行向量化处理,得到每个关键词对应的向量特征,计算这些向量特征之间的余弦相似度,最终得到这些关键词之间的关联程度值会很大,即得到该分组数据对应的关联程度值很大,也就是说该分组数据中的数据单元之间的相关程度很高。
值得说明的是,已训练的关联程度模型可以是在网络中获取到的,可确定数据之间的相关程度的网络模型。也可以是由数据分类终端使用机器学习算法,基于初始关联程度网络对每组样本待分类数据对应的样本目标分组数据进行训练得到。示例性地,将每组样本待分类数据对应的样本目标分组数据输入至初始关联程度网络中处理,得到样本目标分组数据对应的实际关联程度值,由于能作为样本目标分组数据的关联程度值必定大于或等于预设阈值,则比较实际关联程度值与预设阈值的大小,若实际关联程度值小于预设阈值,证明此时初始关联程度网络输出的关联程度值不准确,调整初始关联程度网络的网络参数,并继续训练。当实际关联程度值大于或等于预设阈值时,证明此时初始关联程度网络输出的关联程度值准确,可将此时的初始关联程度网络作为已训练的关联程度模型。
可以理解的是,该关联程度模型可以由该数据分类终端预先训练好,也可以由其他设备预先训练好后将该关联程度模型对应的文件移植至本数据分类终端中。也就是说,训练该关联程度模型的执行主体与使用该关联程度模型的执行主体可以是相同的,也可以是不同的。
S1024:将关联程度值大于或等于预设阈值的分组数据标记为目标分组数据。
预设阈值用于与关联程度值做比较,其比较结果用于判断是否将该分组数据标记为目标分组数据。预设阈值由用户预先设定,可根据实际情况进行调整,对此不做限定。
示例性地,比较每个分组数据对应的关联程度值与预设阈值之间的大小,当关联程度值大于或等于预设阈值时,将该关联程度值对应的分组数据标记为目标分组数据;当关联程度值小于预设阈值时,不对该关联程度值对应的分组数据进行标记,也可以将该关联程度值对应的分组数据删除。
在本实施方式中,确定每个分组数据对应的关联程度值可有效地过滤掉无用的、不相关的信息,例如注水的评论、不当的言论等,进而保证展示给用户的信息有效、积极向上。
S103:采用已训练的语义分析模型提取每个目标分组数据的语义信息,并根据每个目标分组数据的语义信息,确定每个目标分组数据对应的分类类型。
分类类型可以理解为每个目标分组数据所属的类别、主题。例如,沿用上述S1023中的例子,即关键词为体育明星的例子。其对应的目标分组数据对应的分类类型即为体育。或者,当某个目标分组数据中的内容主要是针对手机的描述时,其对应的分类类型即为科技;当某个目标分组数据中的内容主要是针对新型汽车的描述时,其对应的分类类型即为汽车。此处仅为示例性说明,对此不做限定。
在本实施例中,数据分类终端中预先存储有预先训练好的语义分析模型。该语义分析模型是使用机器学习算法,基于初始语义分析网络对训练样本集进行训练得到。可以理解的是,该语义分析模型可以由该数据分类终端预先训练好,也可以由其他设备预先训练好后将该语义分析模型对应的文件移植至本数据分类终端中。也就是说,训练该语义分析模型的执行主体与使用该语义分析模型的执行主体可以是相同的,也可以是不同的。
将每个目标分组数据输入至语义分析模型中进行处理,语义分析模型提取每个目标分组数据的语义信息,并根据每个目标分组数据的语义信息,确定每个目标分组数据对应的分类类型。其中,语义信息包括语义特征向量,语义特征向量为可体现该目标分组数据中心内容的特性向量。
请参见图3,图3是本申请另一实施例提供的数据分类方法的示意性流程图,可选地,在一种可能的实现方式中,如图3所示,上述S103可以包括S1031~S1034,具体如下:
S1031:针对每个目标分组数据,对该目标分组数据进行分词处理,得到多个分词。
针对每个目标分组数据,对目标分组数据中的文字进行分词处理,得到多个分词。示例性地,分词处理是指将目标分组数据中的文字切分为多个词。例如,目标分组数据中的文字为“全世界都在学中国话”时,对“全世界都在学中国话”进行分词处理,得到的多个分词为“全世界、都在、学、中国话”。此处仅为示例性说明,对此不做限定。
S1032:提取每个分词对应的词向量特征。
通过语义分析模型提取每个分词对应的词向量特征。语义分析模型可采用矩阵运算对每个分词进行处理,将每个分词转换为与其对应的词向量,该词向量就表示每个分词对应的词向量特征。因此,对每个分词进行上述处理,得到每个分词对应的词向量特征。
S1033:在特征空间中映射每个分词对应的词向量特征,得到该目标分组数据对应的语义特征向量。
已训练的语义分析模型包含多个卷积层以及输出层,在第一卷积层,获取输入每个分词对应的词向量特征,并组成映射矩阵;利用该映射矩阵和权值为1的核矩阵进行一维卷积运算,检测出该目标分组数据中潜在的多尺度候选语义单元。在第二卷积层,基于候选语义单元构建语义扩展矩阵,作为目标分组数据的扩展信息;在第三卷积层,使用多个不同宽度、包含不同权值的核矩阵分别对映射矩阵和语义扩展矩阵进行二维卷积运算,提取局部卷积特征,并生成多层局部卷积特征矩阵;在第四卷积层,对多层局部卷积特征矩阵进行下采样,得到目标分组数据的全局特征矩阵;将全局特征矩阵进行非线性正切变换,并将变换后的特征矩阵转换为语义特征向量。
S1034:基于该语义特征向量,确定该目标分组数据对应的分类类型。
在语义分析模型的输出层,将目标分组数据对应的语义特征向量赋予分类器,对目标分组数据的类别进行预测,得到该目标分组数据对应的分类类型。示例性地,在卷积神经网络的输出层,将目标分组数据对应的语义特征向量赋予逻辑回归分类器,逻辑回归分类器对目标分组数据的类别进行预测,得到该目标分组数据对应的分类类型,通过语义分析模型输出该目标分组数据对应的分类类型。此处仅为示例性说明,对此不做限定。
S104:基于每个目标分组数据对应的分类类型以及网页的展示版块对应的展示主题,在展示版块中展示每个目标分组数据。
通常浏览器显示的网页中会有多个不同的展示版块,每个展示版块都会对应不同的展示主题。例如,展示主题可以包括娱乐、小说、游戏、体育、汽车、时讯、电视剧、电影、生活、科技、综艺、动漫等。
针对每个目标分组数据对应的分类类型,在该网页的多个展示版块中寻找适合展示该目标分组数据的展示版块。即在该网页的多个展示版块各自对应的展示主题中,查找与该目标分组数据对应的分类类型相匹配的,进而查找到的展示版块中展示该目标分组数据。
图4,图4是本申请又一实施例提供的数据分类方法的示意性流程图,可选地,在一种可能的实现方式中,如图4所示,上述S104可以包括S1041~S1043,具体如下:
S1041:获取所述网页中每个展示版块对应的展示主题。
想要将这些目标分组数据在哪个网页中展示,则获取哪个网页中各个展示版块对应的展示主题。例如,想要在A网页中展示这些目标分组数据,供用户在该A网页中浏览这些目标分数数据的具体内容。获取A网页中包含的每个展示版块对应的展示位置以及展示主题。该展示主题可以包括娱乐、小说、游戏、体育、汽车、时讯、电视剧、电影、生活、科技、综艺、动漫等。此处仅为示例性说明,对此不做限定。
S1042:针对每个目标分组数据,在所述每个展示版块对应的展示主题中,确定与所述目标分组数据对应的分类类型所匹配的目标展示主题。
对于每个目标分组数据,根据其对应的分类类型,在这些展示版块对应的展示主题中,查找与该目标分组数据对应的分类类型所匹配的目标展示主题。
例如,展示主题包括娱乐、小说、游戏、体育、汽车、时讯、电视剧、电影、生活、科技、综艺、动漫等,某个目标分组数据对应的分类类型为体育,则体育这个展示主题即为该目标分组数据对应的目标展示主题。某个目标分组数据对应的分类类型为英雄联盟(网络游戏),则游戏这个展示主题即为该目标分组数据对应的目标展示主题。此处仅为示例性说明,对此不做限定。
S1043:在所述目标展示主题对应的展示版块中展示所述目标分组数据。
在该目标展示主题对应的展示版块中显示该目标分组数据。沿用上述S1042中的例子,某个目标分组数据对应的分类类型为体育,则在展示主题为体育的展示版块中展示该目标分组数据。某个目标分组数据对应的分类类型为英雄联盟(网络游戏),则在展示主题为游戏的展示版块中展示该目标分组数据。某个目标分组数据对应的分类类型为理财,则在展示主题为财经的展示版块中展示该目标分组数据。此处仅为示例性说明,对此不做限定。
可选地,在一种可能的实现方式中,在展示板块展示目标分组数据时,也可仅展示目标分组数据对应的关键信息,例如关键词、大标题、小标题等,用户通过点击该关键词、大标题、小标题等可查看该目标分组数据的具体内容,此处仅为示例性说明,对此不做限定。
本申请实施例,对待分类数据进行分组,得到多个目标分组数据;采用语义分析模型提取每个目标分组数据的语义信息,基于该语义信息确定每个目标分组数据对应的分类类型;基于每个目标分组数据对应的分类类型以及网页的展示版块对应的展示主题,在展示版块中展示每个目标分组数据。上述方式中,先对待分类数据进行分组处理,得到的每个目标分组数据内的数据之间的关联程度高,可使语义分析模型提取到每个目标分组数据丰富、准确地语义信息,基于该语义信息确定的分类类型更准确,进而可以将每个目标分组数据准确地在网页的各个展示版块中进行展示。这种数据分类方法,提升了数据分类的准确度,进而保证用户能够准确、快速地在网页中查找到自己想要的信息;且通过语义分析模型对目标分组数据进行处理,无需人工干预,提升了数据处理的速率,节省了经济成本。
可选地,在一种可能的实现方式中,在执行S101之前,该数据分类方法还可包括训练语义分析模型。具体地,基于训练样本集对初始语义分析网络进行训练,得到训练结果,并基于该训练结果更新初始语义分析网络的参数,训练样本集包括多组样本待分类数据、每组样本待分类数据对应的样本目标分组数据以及每个样本目标分组数据对应的样本类型,训练结果包括每个样本目标分组数据对应的真实类型;当初始语义分析网络对应的损失函数收敛时,得到已训练的语义分析模型。
示例性地,在训练该语义分析模型时,将每个样本目标分组数据输入至初始语义分析网络中进行处理,该初始语义分析网络提取每个样本目标分组数据对应的语义信息,并根据每个样本目标分组数据的语义信息,确定每个样本目标分组数据对应的真实类型。其中,真实类型指初始语义分析网络输出的分类类型。由于初始语义分析网络与已训练的语义分析模型中的网络结构类似,此处不再赘述初始语义分析网络具体的处理过程。
可以利用均方差公式作为损失函数,计算样本目标分组数据对应的真实类型与该样本目标分组数据对应的样本类型之间的损失值。其中,样本目标分组数据对应的真实类型与该样本目标分组数据对应的样本类型之间的损失值,用于衡量分类结果的准确度。
判断损失值是否满足预设条件。当损失值大于或等于预设损失值时,调整初始语义分析网络的模型参数,并继续训练该初始语义分析网络。当损失值小于预设损失值时,停止训练该初始语义分析网络,并将训练后的该初始语义分析网络作为已训练的语义分析模型。
可选地,在一种可能的实现方式中,也可以是检测到初始语义分析网络对应的损失函数是否收敛,当初始语义分析网络对应的损失函数收敛于一个常数时,停止训练该初始语义分析网络,并将训练后的该初始语义分析网络作为已训练的语义分析模型。当初始语义分析网络对应的损失函数未收敛时,调整初始语义分析网络的模型参数,并继续训练该初始语义分析网络。
如图5所示,图5是本申请另一实施例提供的数据分类方法的示意性流程图,可选地,在一种可能的实现方式中,如图5所示的数据分类方法可包括S201~S205。其中,图5所示的步骤S201~S204可以参考上述对S101~S104的相关描述,为了简洁,这里不再赘述。下面将具体对步骤S205进行说明。
S205:将多个目标分组数据以及每个目标分组数据对应的分类类型上传至区块链中。
在本实施例中,将多个目标分组数据以及每个目标分组数据对应的分类类型上传至区块链中,可保证其安全性和对用户的公正透明性。且将多个目标分组数据以及每个目标分组数据对应的分类类型上传至区块链中,借助区块链上文件无法随意篡改的特性,能够避免多个目标分组数据以及每个目标分组数据对应的分类类型被恶意篡改,后续开发人员可直接在区块链中获取每个目标分组数据对应的分类类型,进而将这些目标分组数据在其他网页、应用程序、客户端等进行展示,无需再次对待分类数据分析,也不用担心之前在网页中展示的目标分组数据被篡改。
请参见图6,图6是本申请一实施例提供的一种数据分类装置的示意图。该装置包括的各单元用于执行图1~图5对应的实施例中的各步骤。具体请参阅图1~图5各自对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图6,包括:
获取单元310,用于获取待分类数据;
划分单元320,用于对所述待分类数据进行分组,得到多个目标分组数据,所述目标分组数据对应的关联程度值大于或等于预设阈值;
分类单元330,用于采用已训练的语义分析模型提取每个目标分组数据的语义信息,并根据每个目标分组数据的语义信息,确定每个目标分组数据对应的分类类型;
展示单元340,用于基于每个目标分组数据对应的分类类型,以及网页的展示版块对应的展示主题,在所述展示版块中展示每个目标分组数据。
可选地,所述语义分析模型包括关联程度值确定模块以及分类模块,所述划分单元320具体用于:
将所述待分类数据按预设结构划分为多个数据单元,所述预设结构包括文章格式;
将所述多个数据单元进行任意组合,生成多个分组数据;
确定每个分组数据对应的关联程度值,所述关联程度值用于表示每个分组数据中的各个数据单元之间的关联程度;
将关联程度值大于或等于预设阈值的分组数据标记为目标分组数据。
可选地,所述分类单元330具体用于:
针对每个目标分组数据,对所述目标分组数据进行分词处理,得到多个分词;
提取每个分词对应的词向量特征;
在特征空间中映射每个分词对应的词向量特征,得到所述目标分组数据对应的语义特征向量;
基于所述语义特征向量,确定所述目标分组数据对应的分类类型。
可选地,所述展示单元340具体用于:
获取所述网页中每个展示版块对应的展示主题;
针对每个目标分组数据,在所述每个展示版块对应的展示主题中,确定与所述目标分组数据对应的分类类型所匹配的目标展示主题;
在所述目标展示主题对应的展示版块中展示所述目标分组数据。
可选地,所述装置还包括:
第一训练单元,用于基于训练样本集对初始语义分析网络进行训练,得到训练结果,并基于所述训练结果更新所述初始语义分析网络的参数,所述训练样本集包括多组样本待分类数据、每组样本待分类数据对应的样本目标分组数据以及每个样本目标分组数据对应的样本类型,所述训练结果包括每个样本目标分组数据对应的真实类型;
第二训练单元,用于当检测到所述初始语义分析网络对应的损失函数收敛时,得到所述已训练的语义分析模型。
可选地,所述装置还包括:
上传单元,用于将所述多个目标分组数据以及每个目标分组数据对应的分类类型上传至区块链中。
请参见图7,图7是本申请另一实施例提供的一种数据分类终端的示意图。如图7所示,该实施例的数据分类终端4包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机指令42。所述处理器40执行所述计算机指令42时实现上述各个数据分类方法实施例中的步骤,例如图1所示的S101至S104。或者,所述处理器40执行所述计算机指令42时实现上述各实施例中各单元的功能,例如图6所示单元310至340功能。
示例性地,所述计算机指令42可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器41中,并由所述处理器40执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机指令段,该指令段用于描述所述计算机指令42在所述数据分类终端4中的执行过程。例如,所述计算机指令42可以被分割为获取单元、划分单元、分类单元以及展示单元,各单元具体功能如上所述。
所述数据分类终端可包括,但不仅限于,处理器40、存储器41。本领域技术人员可以理解,图7仅仅是数据分类终端4的示例,并不构成对数据分类终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述数据分类终端还可以包括输入输出终端、网络接入终端、总线等。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41可以是所述数据分类终端的内部存储单元,例如数据分类终端的硬盘或内存。所述存储器41也可以是所述数据分类终端的外部存储终端,例如所述数据分类终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括所述数据分类终端的内部存储单元也包括外部存储终端。所述存储器41用于存储所述计算机指令以及所述终端所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种数据分类方法,其特征在于,包括:
获取待分类数据;
对所述待分类数据进行分组,得到多个目标分组数据,所述目标分组数据对应的关联程度值大于或等于预设阈值;
采用已训练的语义分析模型提取每个目标分组数据的语义信息,并根据每个目标分组数据的语义信息,确定每个目标分组数据对应的分类类型;
基于每个目标分组数据对应的分类类型,以及网页的展示版块对应的展示主题,在所述展示版块中展示每个目标分组数据。
2.如权利要求1所述的方法,其特征在于,所述对所述待分类数据进行分组,得到多个目标分组数据,包括:
将所述待分类数据按预设结构划分为多个数据单元,所述预设结构包括文章格式;
将所述多个数据单元进行任意组合,生成多个分组数据;
确定每个分组数据对应的关联程度值,所述关联程度值用于表示每个分组数据中的各个数据单元之间的关联程度;
将关联程度值大于或等于预设阈值的分组数据标记为目标分组数据。
3.如权利要求2所述的方法,其特征在于,所述采用已训练的语义分析模型提取每个目标分组数据的语义信息,并根据每个目标分组数据的语义信息,确定每个目标分组数据对应的分类类型,包括:
针对每个目标分组数据,对所述目标分组数据进行分词处理,得到多个分词;
提取每个分词对应的词向量特征;
在特征空间中映射每个分词对应的词向量特征,得到所述目标分组数据对应的语义特征向量;
基于所述语义特征向量,确定所述目标分组数据对应的分类类型。
4.如权利要求1所述的方法,其特征在于,所述基于每个目标分组数据对应的分类类型以及网页的展示版块对应的展示主题,在所述展示版块中展示每个目标分组数据,包括:
获取所述网页中每个展示版块对应的展示主题;
针对每个目标分组数据,在所述每个展示版块对应的展示主题中,确定与所述目标分组数据对应的分类类型所匹配的目标展示主题;
在所述目标展示主题对应的展示版块中展示所述目标分组数据。
5.如权利要求1至4任一项所述的方法,其特征在于,所述获取待分类数据之前,所述方法还包括:
基于训练样本集对初始语义分析网络进行训练,得到训练结果,并基于所述训练结果更新所述初始语义分析网络的参数,所述训练样本集包括多组样本待分类数据、每组样本待分类数据对应的样本目标分组数据以及每个样本目标分组数据对应的样本类型,所述训练结果包括每个样本目标分组数据对应的真实类型;
当检测到所述初始语义分析网络对应的损失函数收敛时,得到所述已训练的语义分析模型。
6.如权利要求1至4任一项所述的方法,其特征在于,所述基于每个目标分组数据对应的分类类型以及网页的展示版块对应的展示主题,在所述展示版块中展示每个目标分组数据之后,所述方法还包括:
将所述多个目标分组数据以及每个目标分组数据对应的分类类型上传至区块链中。
7.一种数据分类装置,其特征在于,包括:
获取单元,用于获取待分类数据;
划分单元,用于对所述待分类数据进行分组,得到多个目标分组数据,所述目标分组数据对应的关联程度值大于或等于预设阈值;
分类单元,用于采用已训练的语义分析模型提取每个目标分组数据的语义信息,并根据每个目标分组数据的语义信息,确定每个目标分组数据对应的分类类型;
展示单元,用于基于每个目标分组数据对应的分类类型,以及网页的展示版块对应的展示主题,在所述展示版块中展示每个目标分组数据。
8.如权利要求7所述的数据分类装置,其特征在于,所述数据分类装置还包括:
上传单元,用于将所述多个目标分组数据以及每个目标分组数据对应的分类类型上传至区块链中。
9.一种数据分类终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的方法。
10.一种计算机存储介质,所述计算机存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110209592.8A CN112818206A (zh) | 2021-02-25 | 2021-02-25 | 一种数据分类方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110209592.8A CN112818206A (zh) | 2021-02-25 | 2021-02-25 | 一种数据分类方法、装置、终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112818206A true CN112818206A (zh) | 2021-05-18 |
Family
ID=75865559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110209592.8A Pending CN112818206A (zh) | 2021-02-25 | 2021-02-25 | 一种数据分类方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112818206A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626119A (zh) * | 2021-07-29 | 2021-11-09 | 上海云轴信息科技有限公司 | 一种用于参数管理的方法与设备 |
CN115134169A (zh) * | 2022-08-29 | 2022-09-30 | 北京中科金财科技股份有限公司 | 一种区块链数据管理方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101359332A (zh) * | 2008-09-02 | 2009-02-04 | 浙江大学 | 具有语义分类功能的可视化搜索界面的设计方法 |
CN102043861A (zh) * | 2010-12-29 | 2011-05-04 | 重庆新媒农信科技有限公司 | 基于移动终端的网页数据结构化显示方法 |
CN103425389A (zh) * | 2012-05-24 | 2013-12-04 | 腾讯科技(深圳)有限公司 | 微博信息交互显示的方法及微博客户端 |
CN108153717A (zh) * | 2017-12-29 | 2018-06-12 | 北京仁和汇智信息技术有限公司 | 一种科技期刊论文word文档的结构化处理方法及装置 |
CN110889067A (zh) * | 2018-09-10 | 2020-03-17 | 广州虎牙信息科技有限公司 | 页面的渲染方法、装置、设备及存储介质 |
-
2021
- 2021-02-25 CN CN202110209592.8A patent/CN112818206A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101359332A (zh) * | 2008-09-02 | 2009-02-04 | 浙江大学 | 具有语义分类功能的可视化搜索界面的设计方法 |
CN102043861A (zh) * | 2010-12-29 | 2011-05-04 | 重庆新媒农信科技有限公司 | 基于移动终端的网页数据结构化显示方法 |
CN103425389A (zh) * | 2012-05-24 | 2013-12-04 | 腾讯科技(深圳)有限公司 | 微博信息交互显示的方法及微博客户端 |
CN108153717A (zh) * | 2017-12-29 | 2018-06-12 | 北京仁和汇智信息技术有限公司 | 一种科技期刊论文word文档的结构化处理方法及装置 |
CN110889067A (zh) * | 2018-09-10 | 2020-03-17 | 广州虎牙信息科技有限公司 | 页面的渲染方法、装置、设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626119A (zh) * | 2021-07-29 | 2021-11-09 | 上海云轴信息科技有限公司 | 一种用于参数管理的方法与设备 |
CN115134169A (zh) * | 2022-08-29 | 2022-09-30 | 北京中科金财科技股份有限公司 | 一种区块链数据管理方法及系统 |
CN115134169B (zh) * | 2022-08-29 | 2022-11-15 | 北京中科金财科技股份有限公司 | 一种区块链数据管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106776503B (zh) | 文本语义相似度的确定方法及装置 | |
CN112347778B (zh) | 关键词抽取方法、装置、终端设备及存储介质 | |
CN112347244B (zh) | 基于混合特征分析的涉黄、涉赌网站检测方法 | |
CN111797239B (zh) | 应用程序的分类方法、装置及终端设备 | |
WO2015149533A1 (zh) | 一种基于网页内容分类进行分词处理的方法和装置 | |
US20170185680A1 (en) | Chinese website classification method and system based on characteristic analysis of website homepage | |
CN107506472B (zh) | 一种学生浏览网页分类方法 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN112329824A (zh) | 多模型融合训练方法、文本分类方法以及装置 | |
CN113254655B (zh) | 文本分类方法、电子设备及计算机存储介质 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
Shawon et al. | Website classification using word based multiple n-gram models and random search oriented feature parameters | |
CN112818206A (zh) | 一种数据分类方法、装置、终端及存储介质 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及系统 | |
CN114416998A (zh) | 文本标签的识别方法、装置、电子设备及存储介质 | |
CN112115266A (zh) | 恶意网址的分类方法、装置、计算机设备和可读存储介质 | |
Lee et al. | Improved image retrieval and classification with combined invariant features and color descriptor | |
CN113626704A (zh) | 基于word2vec模型的推荐信息方法、装置及设备 | |
CN111291551A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN111859079A (zh) | 信息搜索方法、装置、计算机设备及存储介质 | |
CN109344397B (zh) | 文本特征词语的提取方法及装置、存储介质及程序产品 | |
Müller-Budack et al. | Finding person relations in image data of news collections in the internet archive | |
Dourado et al. | Event prediction based on unsupervised graph-based rank-fusion models | |
CN113761125A (zh) | 动态摘要确定方法和装置、计算设备以及计算机存储介质 | |
CN109063117B (zh) | 一种基于特征抽取的网络安全博客分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |