CN113076420A - 一种基于e2lsh算法的文本数据流分类方法及装置 - Google Patents

一种基于e2lsh算法的文本数据流分类方法及装置 Download PDF

Info

Publication number
CN113076420A
CN113076420A CN202110351982.9A CN202110351982A CN113076420A CN 113076420 A CN113076420 A CN 113076420A CN 202110351982 A CN202110351982 A CN 202110351982A CN 113076420 A CN113076420 A CN 113076420A
Authority
CN
China
Prior art keywords
data
concept
algorithm
representation
bucket
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110351982.9A
Other languages
English (en)
Other versions
CN113076420B (zh
Inventor
周梦泉
郎非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110351982.9A priority Critical patent/CN113076420B/zh
Publication of CN113076420A publication Critical patent/CN113076420A/zh
Application granted granted Critical
Publication of CN113076420B publication Critical patent/CN113076420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于E2LSH算法的文本数据流分类方法及装置,涉及数据处理技术领域。该基于E2LSH算法的文本数据流分类方法通过将数据集中的数据进行概念表征,将数据按照数据特征进行分类得到多个数据块,然后对数据块中每条数据的概念表征求取平均得到数据块的概念表征,再采用E2LSH算法将数据块的概念表征计算,并将计算结果与预置的概念表征桶匹配得到对应的概念表征桶,最后根据对应的概念表征桶的数据对数据进行分类。通过引入E2LSH算法,能够快速匹配到对应的概念表征桶,从而使数据分类的准确率有了大幅度的提升。通过建立概念表征桶能够快速匹配到数据块的概念表征,从而可以进一步提高数据分类速度。

Description

一种基于E2LSH算法的文本数据流分类方法及装置
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种基于E2LSH算法的文本数据流分类方法及装置。
背景技术
概念漂移是指数据流在不同时间段生成数据的分布发生了变化,对于发生漂移的数据流,需要分类器动态调整来减少分类准确率的损失,重现漂移是概念漂移的一种,指之前出现过概念可能会再次出现,但出现的时间不确定。比如垃圾邮件分类,某一用户在不同时间段对垃圾邮件的定义可能会反复变化。对于求职的用户,招聘时智联邮件被视为正常邮件,找到工作后就会试其为垃圾邮件,在失业后可能又会当成正常邮件。
传统漂移算法中通过直接丢弃旧分类器,建立新的分类器适应新出现的概念,但重新训练新的分类器会导致对重现概念适应的迟滞,短期内分类准确率降低的问题。
发明内容
本发明的目的在于提供一种基于E2LSH算法的文本数据流分类方法及装置,用以改善现有技术中重新建立新的分类器导致对重现概念适应的迟滞,短期内分类准确率降低的问题。
第一方面,本申请实施例提供一种基于E2LSH算法的文本数据流分类方法,包括以下步骤:
获取数据集;
将数据集中的数据进行文本向量化处理,得到每条数据的概念表征;
获取并根据数据特征对数据集中的数据进行分类,得到多个不同类别的数据块;
将各个数据块中每条数据的概念表征进行平均处理,以得到各个数据块的概念表征;
采用E2LSH算法对各个数据块的概念表征进行计算处理,得到计算结果,并将计算结果与预置的概念表征桶匹配,以得到各个数据块的概念表征所对应的概念表征桶;
根据对应的概念表征桶对数据集中的数据进行分类,得到分类结果。
上述实现过程中,通过将数据集中的数据进行概念表征,将数据按照数据特征进行分类得到多个数据块,然后对数据块中每条数据的概念表征求取平均得到数据块的概念表征,再采用E2LSH算法将数据块的概念表征计算,并将计算结果与预置的概念表征桶匹配得到对应的概念表征桶,最后根据对应的概念表征桶的数据对数据进行分类。通过引入E2LSH算法,能够快速匹配到对应的概念表征桶,从而使数据分类的准确率有了大幅度的提升。
基于第一方面,在本发明的一些实施例中,采用E2LSH算法对各个数据块的概念表征进行计算处理,得到计算结果,并将计算结果与预置的概念表征桶匹配,以得到各个数据块的概念表征所对应的概念表征桶的步骤包括以下步骤:
采用E2LSH算法对数据块的概念表征进行计算处理,得到数据块的概念表征的指纹值;
将概念表征的指纹值与预置的概念表征桶内的指纹值匹配,得到概念表征的指纹值所对应的概念表征桶。
基于第一方面,在本发明的一些实施例中,将数据集中的数据进行文本向量化处理,得到每条数据的概念表征的步骤包括以下步骤:
将数据集进行文本预处理,得到预处理数据;
采用TF-IDF算法和LDA算法对预处理数据进行向量化处理,以得到每条数据的概念表征。
基于第一方面,在本发明的一些实施例中,采用TF-IDF算法和LDA算法对预处理数据进行处理,以得到每条数据的概念表征的步骤包括:
采用TF-IDF算法对预处理数据进行向量化处理,得到文本向量数据;
采用LDA算法对文本向量数据进行计算处理,得到文本主题矩阵数据;
将文本主题矩阵数据中每条文本对应的主题向量作为该条数据的概念表征。
基于第一方面,在本发明的一些实施例中,还包括以下步骤:
获取样本数据集;
将样本数据集中的数据进行文本向量化处理,得到每条样本数据的概念表征;
获取并根据数据特征对样本数据集中数据进行分类,得到数据特征箱体的样本数据块;
将各个样本数据块中每条样本数据的概念表征进行平均处理,得到多个样本数据块的概念表征;
采用E2LSH算法对各个样本数据块的概念表征进行计算,以得到概念表征桶。
基于第一方面,在本发明的一些实施例中,根据对应的概念表征桶对数据集中的数据进行分类,得到分类结果的步骤包括以下步骤:
提取对应的概念表征桶内的数据块的文本向量;
根据文本向量利用预置的贝叶斯增量分类器对数据块的数据进行分类,得到分类结果。
基于第一方面,在本发明的一些实施例中,还包括以下步骤:
根据文本向量对预置的贝叶斯增量分类器进行训练,得到新的贝叶斯增量分类器。
第二方面,本申请实施例提供一种基于E2LSH算法的文本数据流分类装置,包括:
数据获取模块,用于获取数据集;
第一处理模块,用于将数据集中的数据进行文本向量化处理,得到每条数据的概念表征;
数据分类模块,用于获取并根据数据特征对数据集中的数据进行分类,得到多个数据特征相同的数据块;
第二处理模块,用于将各个数据块中每条数据的概念表征进行平均处理,以得到各个数据块的概念表征;
概念表征桶匹配模块,用于采用E2LSH算法对各个数据块的概念表征进行计算处理,得到计算结果,并将计算结果与预置的概念表征桶匹配,以得到各个数据块的概念表征所对应的概念表征桶;
分类器模块,用于根据对应的概念表征桶对数据集中的数据进行分类,得到分类结果。
上述实现过程中,通过第一处理模块将数据获取模块获得的数据集中的数据进行概念表征,数据分类模块将数据按照数据特征进行分类得到多个数据块,第二处理模块通过对数据块中每条数据的概念表征求取平均得到数据块的概念表征,概念表征桶匹配模块通过采用E2LSH算法将数据块的概念表征计算,并将计算结果与预置的概念表征桶匹配得到对应的概念表征桶,分类器模块根据对应的概念表征桶的数据对数据进行分类。E2LSH算法的引入能够快速匹配到对应的概念表征桶,从而使数据分类的准确率有了大幅度的提升。在概念表征阶段,通过LDA算法对数据处理得到文档主题矩阵数据,可以有效降低在算法运算中数据的维度,提高算法的运算速度,降低对系统内存的占用。
第三方面,本申请实施例提供一种电子设备,其包括存储器,用于存储一个或多个程序;处理器。当一个或多个程序被处理器执行时,实现如上述第一方面中任一项的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。
本发明实施例至少具有如下优点或有益效果:
本发明实施例提供一种基于E2LSH算法的文本数据流分类方法及装置,通过将数据集中的数据进行概念表征,将数据按照数据特征进行分类得到多个数据块,然后对数据块中每条数据的概念表征求取平均得到数据块的概念表征,再采用E2LSH算法将数据块的概念表征计算,并将计算结果与预置的概念表征桶匹配得到对应的概念表征桶,最后根据对应的概念表征桶的数据对数据进行分类。通过引入E2LSH算法,能够快速匹配到对应的概念表征桶,从而使数据分类的准确率有了大幅度的提升。在概念表征阶段,通过LDA算法对数据处理得到文档主题矩阵数据,可以有效降低在算法运算中数据的维度,提高算法的运算速度,降低对系统内存的占用。通过建立概念表征桶能够快速匹配到数据块的概念表征,从而可以进一步提高数据分类速度通过采用贝叶斯增量分类器对数据进行分类,贝叶斯增量分类器的算法简单,可以简化计算过程,从而可以提高分类速率。通过对贝叶斯增量分类器进行训练使得贝叶斯增量分类器可以得到更新,从而使分类更加准确。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种基于E2LSH算法的文本数据流分类方法流程图;
图2为本发明实施例提供的一种基于E2LSH算法的文本数据流分类装置结构框图;
图3为本发明实施例提供的一种电子设备的结构框图。
图标:110-数据获取模块;120-第一处理模块;130-数据分类模块;140-第二处理模块;150-概念表征桶匹配模块;160-分类器模块;101-存储器;102-处理器;103-通信接口。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本申请的描述中,需要说明的是,术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
实施例
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的各个实施例及实施例中的各个特征可以相互组合。
请参看图1,图1为本发明实施例提供的一种基于E2LSH算法的文本数据流分类方法流程图。该基于E2LSH算法的文本数据流分类方法包括以下步骤:
步骤S110:获取数据集。数据集可以是招聘信息、商品评论信息、电源评价信息等等。数据集的获取可以是由用户直接输入,也可以是从其他平台爬取得到。
步骤S120:将数据集中的数据进行文本向量化处理,得到每条数据的概念表征。其中,上述文本向量化处理的步骤主要包括以下步骤:
首先,将数据集进行文本预处理,得到预处理数据;文本预处理主要是将数据集中的数据进行中文分词、去停用词等操作,将数据中没有意义的词去掉,进而可以提高搜索效率。得到的数据是数据经过中文分词好的数据,将这个数据作为预处理数据。例如,将数据中的标点符号去掉,如句号,逗号等;将连接词去掉,如“的”、“这”、“和”等等。
其次,采用TF-IDF算法和LDA算法对预处理数据进行向量化处理,以得到每条数据的概念表征。上述向量化处理具体包括以下步骤:
第一步,采用TF-IDF算法对预处理数据进行向量化处理,得到文本向量数据;预处理数据是经过中分文词和去停用词后的数据,再经过TF-IDF算法进行向量化处理得到文本向量,上述向量化处理是指首先计算出各个词频TF,然后计算出逆文档频率IDF,最后计算出TF-IDF。由于数据集中的类别有多种,所以后得到的是文本向量数据。例如,数据集是职业招聘,数据集中的职业有医生、教师、工程师和设计师,对于“年龄”这个词语,分别计算出在医生、教师、工程师和设计师的职业中的TF-IDF,得到数据是文本向量数据。TF-IDF算法具有简单快速的优点,可以提高计算效率,同时由TF-IDF算法计算出的结果更接近实际情况。
第二步,采用LDA算法对文本向量数据进行计算处理,得到文本主题矩阵数据;由于数量流中的数据种类很多,得到文本向量数据就很多,可以采用LDA算法降低数据的维度,上述计算处理是指将文本向量数据转化为文档主题矩阵,每一条文本对应了一个主题向量,将文本主题矩阵数据中每条文本对应的主题向量作为该条数据的概念表征。
步骤S130:获取并根据数据特征对数据集中的数据进行分类,得到多个不同类别的数据块。数据块的大小可以任意设置,比如,可以选择40条数据作为一个数据块,也可以选择50条数据作为一个数据块。数据特征可以是职业类别、商品类别等等。通过使同一数据块内的数据特征相同,以保证同一个数据块内的数据分布都是相同的。例如数据块内的数据可以是同一职业或者是同一商品或者是同一部电影等等。
步骤S140:将各个数据块中每条数据的概念表征进行平均处理,以得到各个数据块的概念表征。一个数据块中包含多条数据,各个数据的概念表征不同,可以将多条数据的概念表征进行平均处理得到的值作为这个数据块的概念表征。上述平均处理首先是将数据块中每一条数据的概念表征求和,再除以数据块中数据的条目数,得到一个平均结果,这个结果就作为数据块的概念表征。
步骤S150:采用E2LSH算法对各个数据块的概念表征进行计算处理,得到计算结果,并将计算结果与预置的概念表征桶匹配,以得到各个数据块的概念表征所对应的概念表征桶。
上述计算处理是指利用E2LSH算法进行计算,E2LSH算法采用基于p-stable分布的哈希函数族:
Figure BDA0003002617690000111
其中,a是一个d维向量,a的每一项是从p-stable分布中随机独立选取的;b是从[0,w]中均匀选取的一个实数,w是哈希桶的长度,v是输入的概念表征。
对数据集中的点使用哈希函数哈希之后得到g(v)=(h1(v),…,hk(v)),但将(h1(v),…,hk(v))直接存入哈希表,即占用内存,又不便于查找,为解决此问题,E2LSH使用了另外两个哈希函数H1和H2:
H1=((a1*h1+…ak*hk)modC)modT;H2=((b1*h1+…bk*hk)modC)
其中,ai、bi是随机选取的整数,T为哈希表长度,一般设置为n,C是一个大素数,在32位机器上可以设置为2的32次方-1,通过H1将数据哈希到哈希表中后,使用H2通过链表将不同的值链接起来。由于每一个哈希桶gi(v)被映射成Zk,函数H1是普通哈希策略的哈希函数,函数H2用来确定链表中的哈希桶。要在一个链表中存储一个哈希桶gi(v)=(x1,…,xk)时,使用指纹h2(x1,…,xk)构造的指纹代替向量(x1,…,xk),因此一个哈希桶gi(v)=(x1,…,xk)在链表中的存储的相关信息仅包括标识指纹h2(x1,…,xk)和相应的原始数据点。存储指纹值h2,而不是存储gi(v)=(x1,…,xk)的值有两个原因:首先,用h2(x1,…,xk)构造的指纹将单个哈希桶的存储空间从O(k)降到了O(1);其次,使用指纹值可以更快的检索哈希表中哈希桶。通过选取一个足够大的h2的值域来保证任意两个不同的哈希桶在链表中有不同的H2指纹值。
采用上述算法对数据块的概念表征进行计算处理,得到数据块的概念表征的指纹值。上述计算处理是指将数据块的概念表征带入公式中的v,进而计算出数据块的概念表征的指纹值。每一个数据块求得的指纹值有L组,统计用于建立该职业桶所用到的数据块的所有指纹值,第L次指纹选用出现用到的数据块中出现最多次的指纹值作为第L次的指纹值。
预置的概念表征桶中存储了L个指纹,将概念表征的指纹值与预置的概念表征桶内的指纹值匹配,得到概念表征的指纹值所对应的概念表征桶。将每个数据块得到的L组指纹与预置的概念表征桶内的指纹做比较,相同次数最多的桶作为该数据块概念表征所属的概念表征桶。
步骤S160:根据对应的概念表征桶对数据集中的数据进行分类,得到分类结果。找到所属概念表征桶的数据块,将数据块的文本向量数据输入到分类器,分类器进行分类,从而得到分类结果。
上述实现过程中,通过将数据集中的数据进行概念表征,将数据按照数据特征进行分类得到多个数据块,然后对数据块中每条数据的概念表征求取平均得到数据块的概念表征,再采用E2LSH算法将数据块的概念表征计算,并将计算结果与预置的概念表征桶匹配得到对应的概念表征桶,最后根据对应的概念表征桶的数据对数据进行分类。通过引入E2LSH算法,能够快速匹配到对应的概念表征桶,从而使数据分类的准确率有了大幅度的提升。在概念表征阶段,通过LDA算法对数据处理得到文档主题矩阵数据,可以有效降低在算法运算中数据的维度,提高算法的运算速度,降低对系统内存的占用。
其中,预置的概念表征桶的建立与上述分类步骤S110-S150的步骤类似,主要包括以下步骤:
首先,获取样本数据集;样本数据集可以是从要处理的数据集中选取一部分数据作为样本数据集。
然后,将样本数据集中的数据进行文本向量化处理,得到每条样本数据的概念表征;
然后,获取并根据数据特征对样本数据集中数据进行分类,得到数据特征箱体的样本数据块;
然后,将各个样本数据块中每条样本数据的概念表征进行平均处理,得到多个样本数据块的概念表征;
最后,采用E2LSH算法对各个样本数据块的概念表征进行计算,以得到概念表征桶。
上述实现过程中,通过建立概念表征桶能够快速匹配到数据块的概念表征,从而可以进一步提高数据分类速度
其中,根据对应的概念表征桶对数据集中的数据进行分类,得到分类结果,上述分类的步骤包括以下步骤:
首先,提取对应的概念表征桶内的数据块的文本向量;概念表征桶内包括多组指纹和文本向量。
然后,根据文本向量利用预置的贝叶斯增量分类器对数据块的数据进行分类,得到分类结果。预置的贝叶斯增量分类器可以是根据概念表征桶内的信息建立的,根据文本向量采用贝叶斯增量分类器对数据进行分类,得到分类结果。贝叶斯增量分类器属于现有技术,在此不再赘述。
上述实现过程中,通过采用贝叶斯增量分类器对数据进行分类,贝叶斯增量分类器的算法简单,可以简化计算过程,从而可以提高分类速率。
当提取的文本向量在贝叶斯增量分类器中未能识别,则可以进行对贝叶斯增量分类器训练,可以包括以下步骤:
根据文本向量对预置的贝叶斯增量分类器进行训练,得到新的贝叶斯增量分类器。上述对贝叶斯增量分类器进行训练主要是将文本向量对应的数据信息加入到贝叶斯增量分类器中,从而可以得到新的贝叶斯增量分类器。
上述实现过程中,通过对贝叶斯增量分类器进行训练使得贝叶斯增量分类器可以得到更新,从而使分类更加准确。
基于同样的发明构思,本发明还提出一种基于E2LSH算法的文本数据流分类装置,请参看图2,图2为本发明实施例提供的一种基于E2LSH算法的文本数据流分类装置结构框图。该基于E2LSH算法的文本数据流分类装置包括:
数据获取模块110,用于获取数据集;
第一处理模块120,用于将数据集中的数据进行文本向量化处理,得到每条数据的概念表征;
数据分类模块130,用于获取并根据数据特征对数据集中的数据进行分类,得到多个数据特征相同的数据块;
第二处理模块140,用于将各个数据块中每条数据的概念表征进行平均处理,以得到各个数据块的概念表征;
概念表征桶匹配模块150,用于采用E2LSH算法对各个数据块的概念表征进行计算处理,得到计算结果,并将计算结果与预置的概念表征桶匹配,以得到各个数据块的概念表征所对应的概念表征桶;
分类器模块160,用于根据对应的概念表征桶对数据集中的数据进行分类,得到分类结果。
上述实现过程中,通过第一处理模块120将数据获取模块110获得的数据集中的数据进行概念表征,数据分类模块130将数据按照数据特征进行分类得到多个数据块,第二处理模块140通过对数据块中每条数据的概念表征求取平均得到数据块的概念表征,概念表征桶匹配模块150通过采用E2LSH算法将数据块的概念表征计算,并将计算结果与预置的概念表征桶匹配得到对应的概念表征桶,分类器模块160根据对应的概念表征桶的数据对数据进行分类。E2LSH算法的引入能够快速匹配到对应的概念表征桶,从而使数据分类的准确率有了大幅度的提升。在概念表征阶段,通过LDA算法对数据处理得到文档主题矩阵数据,可以有效降低在算法运算中数据的维度,提高算法的运算速度,降低对系统内存的占用。
请参阅图3,图3为本申请实施例提供的电子设备的一种示意性结构框图。该电子设备包括存储器101、处理器102和通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块,如本申请实施例所提供的一种基于E2LSH算法的文本数据流分类装置对应的程序指令/模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。
其中,存储器101可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以理解,图3所示的结构仅为示意,电子设备还可包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
综上,本申请实施例提供的一种基于E2LSH算法的文本数据流分类方法及装置,该基于E2LSH算法的文本数据流分类方法通过将数据集中的数据进行概念表征,将数据按照数据特征进行分类得到多个数据块,然后对数据块中每条数据的概念表征求取平均得到数据块的概念表征,再采用E2LSH算法将数据块的概念表征计算,并将计算结果与预置的概念表征桶匹配得到对应的概念表征桶,最后根据对应的概念表征桶的数据对数据进行分类。通过引入E2LSH算法,能够快速匹配到对应的概念表征桶,从而使数据分类的准确率有了大幅度的提升。在概念表征阶段,通过LDA算法对数据处理得到文档主题矩阵数据,可以有效降低在算法运算中数据的维度,提高算法的运算速度,降低对系统内存的占用。
以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (10)

1.一种基于E2LSH算法的文本数据流分类方法,其特征在于,包括以下步骤:
获取数据集;
将所述数据集中的数据进行文本向量化处理,得到每条数据的概念表征;
获取并根据数据特征对所述数据集中的数据进行分类,得到多个不同类别的数据块;
将各个数据块中每条数据的概念表征进行平均处理,以得到各个数据块的概念表征;
采用E2LSH算法对各个数据块的概念表征进行计算处理,得到计算结果,并将所述计算结果与预置的概念表征桶匹配,以得到各个数据块的概念表征所对应的概念表征桶;
根据所述对应的概念表征桶对所述数据集中的数据进行分类,得到分类结果。
2.根据权利要求1所述的基于E2LSH算法的文本数据流分类方法,其特征在于,所述采用E2LSH算法对各个数据块的概念表征进行计算处理,得到计算结果,并将所述计算结果与预置的概念表征桶匹配,以得到各个数据块的概念表征所对应的概念表征桶的步骤包括以下步骤:
采用E2LSH算法对所述数据块的概念表征进行计算处理,得到所述数据块的概念表征的指纹值;
将所述概念表征的指纹值与预置的概念表征桶内的指纹值匹配,得到所述概念表征的指纹值所对应的概念表征桶。
3.根据权利要求1所述的基于E2LSH算法的文本数据流分类方法,其特征在于,所述将所述数据集中的数据进行文本向量化处理,得到每条数据的概念表征的步骤包括以下步骤:
将所述数据集进行文本预处理,得到预处理数据;
采用TF-IDF算法和LDA算法对所述预处理数据进行向量化处理,以得到每条数据的概念表征。
4.根据权利要求3所述的基于E2LSH算法的文本数据流分类方法,其特征在于,所述采用TF-IDF算法和LDA算法对所述预处理数据进行处理,以得到每条数据的概念表征的步骤包括:
采用TF-IDF算法对所述预处理数据进行向量化处理,得到文本向量数据;
采用LDA算法对所述文本向量数据进行计算处理,得到文本主题矩阵数据;
将所述文本主题矩阵数据中每条文本对应的主题向量作为该条数据的概念表征。
5.根据权利要求1所述的基于E2LSH算法的文本数据流分类方法,其特征在于,还包括以下步骤:
获取样本数据集;
将所述样本数据集中的数据进行文本向量化处理,得到每条样本数据的概念表征;
获取并根据数据特征对所述样本数据集中数据进行分类,得到数据特征箱体的样本数据块;
将各个样本数据块中每条样本数据的概念表征进行平均处理,得到多个样本数据块的概念表征;
采用E2LSH算法对各个样本数据块的概念表征进行计算,以得到概念表征桶。
6.根据权利要求1所述的基于E2LSH算法的文本数据流分类方法,其特征在于,所述根据所述对应的概念表征桶对所述数据集中的数据进行分类,得到分类结果的步骤包括以下步骤:
提取所述对应的概念表征桶内的数据块的文本向量;
根据所述文本向量利用预置的贝叶斯增量分类器对所述数据块的数据进行分类,得到分类结果。
7.根据权利要求6所述的基于E2LSH算法的文本数据流分类方法,其特征在于,还包括以下步骤:
根据所述文本向量对预置的贝叶斯增量分类器进行训练,得到新的贝叶斯增量分类器。
8.一种基于E2LSH算法的文本数据流分类装置,其特征在于,包括:
数据获取模块,用于获取数据集;
第一处理模块,用于将所述数据集中的数据进行文本向量化处理,得到每条数据的概念表征;
数据分类模块,用于获取并根据数据特征对所述数据集中的数据进行分类,得到多个数据特征相同的数据块;
第二处理模块,用于将各个数据块中每条数据的概念表征进行平均处理,以得到各个数据块的概念表征;
概念表征桶匹配模块,用于采用E2LSH算法对各个数据块的概念表征进行计算处理,得到计算结果,并将所述计算结果与预置的概念表征桶匹配,以得到各个数据块的概念表征所对应的概念表征桶;
分类器模块,用于根据所述对应的概念表征桶对所述数据集中的数据进行分类,得到分类结果。
9.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN202110351982.9A 2021-03-31 2021-03-31 一种基于e2lsh算法的文本数据流分类方法及装置 Active CN113076420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110351982.9A CN113076420B (zh) 2021-03-31 2021-03-31 一种基于e2lsh算法的文本数据流分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110351982.9A CN113076420B (zh) 2021-03-31 2021-03-31 一种基于e2lsh算法的文本数据流分类方法及装置

Publications (2)

Publication Number Publication Date
CN113076420A true CN113076420A (zh) 2021-07-06
CN113076420B CN113076420B (zh) 2022-10-18

Family

ID=76614245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110351982.9A Active CN113076420B (zh) 2021-03-31 2021-03-31 一种基于e2lsh算法的文本数据流分类方法及装置

Country Status (1)

Country Link
CN (1) CN113076420B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020288A (zh) * 2012-12-28 2013-04-03 大连理工大学 一种动态数据环境下的数据流分类方法
CN107316053A (zh) * 2017-05-25 2017-11-03 华东理工大学 一种布料图像快速匹配检索方法
CN108764322A (zh) * 2018-05-22 2018-11-06 齐鲁工业大学 一种基于概念漂移的流数据集成分类方法和装置
CN112417153A (zh) * 2020-11-20 2021-02-26 虎博网络技术(上海)有限公司 文本分类方法、装置、终端设备和可读存储介质
CN112579741A (zh) * 2020-12-24 2021-03-30 合肥工业大学 基于在线序列核极限学习机的高维多标签数据流分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020288A (zh) * 2012-12-28 2013-04-03 大连理工大学 一种动态数据环境下的数据流分类方法
CN107316053A (zh) * 2017-05-25 2017-11-03 华东理工大学 一种布料图像快速匹配检索方法
CN108764322A (zh) * 2018-05-22 2018-11-06 齐鲁工业大学 一种基于概念漂移的流数据集成分类方法和装置
CN112417153A (zh) * 2020-11-20 2021-02-26 虎博网络技术(上海)有限公司 文本分类方法、装置、终端设备和可读存储介质
CN112579741A (zh) * 2020-12-24 2021-03-30 合肥工业大学 基于在线序列核极限学习机的高维多标签数据流分类方法

Also Published As

Publication number Publication date
CN113076420B (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN108629046B (zh) 一种字段匹配方法及终端设备
CN109241274B (zh) 文本聚类方法及装置
CN106599054B (zh) 一种题目分类及推送的方法及系统
Mihalcea Language independent extractive summarization
WO2020119063A1 (zh) 专家知识推荐方法、装置、计算机设备及存储介质
US8719267B2 (en) Spectral neighborhood blocking for entity resolution
CN110287328B (zh) 一种文本分类方法、装置、设备及计算机可读存储介质
CN109086375B (zh) 一种基于词向量增强的短文本主题抽取方法
Da San Martino et al. Ordinal text quantification
US9116898B2 (en) Information conversion device, computer-readable recording medium, and information conversion method
CN109918498B (zh) 一种问题入库方法和装置
CN109508374B (zh) 基于遗传算法的文本数据半监督聚类方法
WO2014068990A1 (ja) 関連性判定装置、同上用持続的有形コンピュータ読み取り媒体、及び関連性判定方法
CN111460090A (zh) 基于向量的文档检索方法、装置、计算机设备及存储介质
CN111460170B (zh) 一种词语识别方法、装置、终端设备及存储介质
Hidayatullah et al. Analysis of stemming influence on Indonesian tweet classification
CN111325033B (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN111177375A (zh) 一种电子文档分类方法及装置
CN112347246A (zh) 一种基于谱分解的自适应文档聚类方法及系统
CN111651596A (zh) 一种文本聚类的方法、装置、服务器及存储介质
CN113239150B (zh) 文本匹配方法、系统及设备
CN113076420B (zh) 一种基于e2lsh算法的文本数据流分类方法及装置
Amer et al. Machine learning approaches to detect online harassment using bag of words
CN112883704A (zh) 一种大数据相似文本去重预处理方法、装置及终端设备
Zadeh et al. Random manhattan indexing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant