CN109670326A - 一种数据分类方法及系统 - Google Patents
一种数据分类方法及系统 Download PDFInfo
- Publication number
- CN109670326A CN109670326A CN201811581678.8A CN201811581678A CN109670326A CN 109670326 A CN109670326 A CN 109670326A CN 201811581678 A CN201811581678 A CN 201811581678A CN 109670326 A CN109670326 A CN 109670326A
- Authority
- CN
- China
- Prior art keywords
- data
- sorted
- classification
- encrypted
- distal end
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2107—File encryption
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Storage Device Security (AREA)
Abstract
本申请实施例提供了一种数据分类方法及系统,所述数据分类方法应用于第一电子设备中,包括:获得待分类数据;处理所述待分类数据;对处理结果进行加密,以使所述待分类数据由第一显示形态变为第二显示形态,至少所述第二显示形态能够被远端分类器识别;发送加密后的待分类数据至所述远端分类器进行数据分类。本申请实施例数据分类方法用于解决数据经远端分类器进行分类时造成的数据易泄露的技术问题,提高数据分类过程中的数据安全性。
Description
技术领域
本申请实施例涉及数据分类领域,特别涉及一种数据分类方法及系统。
背景技术
远端计算的兴起(比如云服务),给使用者带来了极大的便利,随需而用。由于文本数据的大量存在,文本数据的分析挖掘成为了充分利用文本数据价值的有效途经,而文本分类则又是文本分析中一个常用的并且非常基础的文本数据分析功能;同时对于文本安全而言,如果能将文本数据依据安全属性进行分类,则文本的安全防护效果则能得到较大提升。云服务厂商提供了数据分类功能,可以方便使用者调用,在使用分类服务时,需要把文档以明文方式上传到云服务上进行计算,经过计算后,返回数据的分类信息。文本数据需要以明文方式提交给各种分类器进行算法训练和优化,导致重要的数据存在被泄露的风险。另外,在进行文本分类时,同样是对明文进行处理,同样存在数据安全风险。
申请内容
本申请实施例提供了一种用于解决数据经远端分类器进行分类时造成的数据易泄露的数据分类方法及系统。
为了解决上述技术问题,本申请实施例提供了一种数据分类方法,应用于第一电子设备中,所述方法包括:
获得待分类数据;
处理所述待分类数据;
对处理结果进行加密,以使所述待分类数据由第一显示形态变为第二显示形态,至少所述第二显示形态能够被远端分类器识别;
发送加密后的待分类数据至所述远端分类器进行数据分类。
作为优选,所述待分类数据为文本数据,所述处理所述待分类数据包括:
对所述待分类数据进行词法分析;
基于分析结果确定实际所需分类数据。
作为优选,所述基于分析结果确定实际所需分类数据包括:
获得经所述词法分析得到的词条集合;
剔除所述词条集合中的干扰词条而得到所述所需分类数据。
作为优选,所述对处理结果进行加密,以使所述待分类数据由第一显示形态变为第二显示形态包括:
对所述处理结果通过对称加密算法进行加密计算,以使所述待分类数据由第一显示形态变为第二显示形态。
本发明实施例同时提供一种文本分类方法,包括:
所述远端分类器基于获得的加密后的待分类数据进行数据分类;
将加密形式的分类结果发送至第一电子设备。
作为优选,所述在数据分类前,所述方法还包括:
所述远端分类器基于加密处理后的训练数据及对应的经加密处理后的分类结果信息进行训练;
所述基于获得的加密后的待分类数据进行数据分类包括:
基于获得的加密后的待分类数据确定匹配的经加密处理后的分类结果。
作为优选,所述远端分类器为云端分类器或第二电子设备中的分类器。
本发明实施例同时提供一种数据分类系统,包括:
第一电子设备,其用于处理获得的待分类数据,并对处理结果进行加密,以使所述待分类数据由第一显示形态变为第二显示形态,至少所述第二显示形态能够被远端分类器识别,发送加密后的待分类数据至所述远端分类器;
远端分类器,其用于根据获得的加密后的待分类数据进行数据分类,将加密形式的分类结果发送至所述第一电子设备。
作为优选,所述处理结果为所述第一电子设备对所述待分类数据进行词法分析,并基于分析结果确定的实际所需分类数据。
作为优选,所述加密形式的分类结果为所述远端分类器基于加密处理后的训练数据及对应的经加密处理后的分类结果信息进行训练后,基于获得的加密后的待分类数据确定的匹配结果。
基于上述实施例的公开可以获知,本申请实施例具备的有益效果在于通过对待分类数据进行预处理,并对处理结果进行加密后再发送至远端分类器中进行分类,并得到同为加密状态的分类结果,确保了数据分类过程中无任何时间点出现未经加密的数据,强有力地保证了数据分类过程的保密性,彻底避免了数据分类过程中出现的泄露现象。
附图说明
图1为本申请一实施例中的数据分类方法的流程示意图。
图2为本申请另一实施例中的数据分类方法流程示意图。
图3为本申请另一实施例中的数据分类方法流程示意图。
图4为本申请实施例中的数据分类系统的结构框图。
具体实施方式
下面,结合附图对本申请的具体实施例进行详细的描述,但不作为本申请的限定。
应理解的是,可以对此处公开的实施例做出各种修改。因此,下述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本申请的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本申请进行了描述,但本领域技术人员能够确定地实现本申请的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本公开的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本公开的具体实施例;然而,应当理解,所公开的实施例仅仅是本公开的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此,本文所公开的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本公开的相同或不同实施例中的一个或多个。
下面,结合附图详细的说明本申请实施例。
如图1所示,本发明实施例提供一种数据分类方法,应用于第一电子设备中,该方法包括:
获得待分类数据;
处理待分类数据;
对处理结果进行加密,以使待分类数据由第一显示形态变为第二显示形态,至少第二显示形态能够被远端分类器识别;
发送加密后的待分类数据至远端分类器进行数据分类。
本申请实施例具备的有益效果在于通过对待分类数据进行预处理,并对处理结果进行加密后再发送至远端分类器中进行分类,确保了数据在发送以及后续分类的过程中数据均处于加密状态,强有力地保证了数据分类过程的保密性,彻底避免了数据分类过程中出现的数据泄露现象。
进一步地,如图2所示,本实施例中,待分类数据为文本数据,电子设备在处理待分类数据时包括:
对待分类数据进行词法分析;
基于分析结果确定实际所需分类数据。
上述步骤的设置作用在于对文本数据至少进行分词操作,以确定出文本数据中的所有词条,使远端分类器能够根据词条而进行文本分类。
例如,文本数据为“我爱你中国”,则通过词法分析后得到的分析结果为五个词条,其分别为“我”,“爱”,“你”,“中国”。之后远端分类器便可根据该词条中的至少部分来进行文本分类。
进一步地,为了减少远端分类器在进行分类操作时受到的干扰,使分类效率得到提高,同时增加分类的精准性,本实施例中在基于分析结果确定实际所需分类数据时包括:
获得经词法分析得到的词条集合;
剔除词条集合中的干扰词条而得到所需分类数据。
例如,仍以上述实施例为例,经词法分析后得到词条集合:“我”,“爱”,“你”,“中国”。之后,电子设备分析各个词条后,确定该文本数据实际要表达的含义为“我爱中国”,也即由“我”,“爱”,“中国”三个词条即可清楚明确的表达出该文本数据的含义,故对于词条“你”便属于干扰性词条,也可认为是无实际意义的词条,对文本数据所要表达的含义无贡献的词条,对于该词条便可剔除,而仅保留其余三个词条,由该三个词条形成的文本数据即为所需分类数据。
进一步地,在得到包含有保留的词条的所需分类数据后,电子设备对需对其进行加密,以使待分类数据由第一显示形态变为第二显示形态,具体包括:
对处理结果通过对称加密算法进行加密计算,以使待分类数据由第一显示形态变为第二显示形态。
例如,对上述确定所分类数据中的各词条采用对称加密算法进行加密计算,以使待分类数据由第一显示形态变为能够被远端分类器识别的第二显示形态,也即,加密后的词条能够被远端分类器识别并进行分类。另外,上述加密算法具体不唯一,例如也可为非对称加密算法。
如图3所示,本发明实施例同时提供一种文本分类方法,应用于远端分类器中,本实施例中的远端分类器可为云端分类器,也可为第二电子设备中的分类器。该方法包括:
远端分类器基于获得的加密后的待分类数据进行数据分类;
将加密形式的分类结果发送至第一电子设备。
也就是,上文所述的第一电子设备将加密后的所需分类数据发送给远端分类器,使远端分类器对其进行分类,并得到同为加密形式的分类结果,最后,将加密形式的分类结果发送至第一电子设备中,以使第一电子设备得到原数据的分类结果。本实施例中的文本分类方法使得经远端分类器分类后的分类结果能够以加密形式发送至第一电子设备中,确保了分类结果的数据安全,使其仅能够被第一电子设备进行解密或识别,而对于其他设备在未经第一电子设备或用户的允许情况下是不能够解读该分类结果的。
进一步地,本实施例中远端分类器在执行数据分类任务前,需要预先通过训练才可投入使用,例如先建立一个智能模型,然后通过输入训练数据来对模型进行训练,以使其后续能够正常投入使用。据此,本实施例中的方法还包括:
远端分类器基于加密处理后的训练数据及对应的经加密处理后的分类结果信息进行训练。
例如,以输入数据为经加密处理后的词条集合中的各词条数据,而输出数据/结果数据为对应该词条集合的分类结果信息,且该结果信息同样是经过加密处理过的。其中,结果信息的加密处理过程与词条的加密处理过程可相同,也可不同。经该训练后,远程分类器便可根据获得的加密后的词条数据,即,待分类数据,便可直接得出匹配的分类结果数据。
也就是,远程分类器在执行基于获得的加密后的待分类数据进行数据分类时具体为:
基于获得的加密后的待分类数据确定匹配的经加密处理后的分类结果。
进一步地,如图4所示,本发明实施例中还提供一种数据分类系统,其包括:
第一电子设备,其用于处理获得的待分类数据,并对处理结果进行加密,以使待分类数据由第一显示形态变为第二显示形态,至少第二显示形态能够被远端分类器识别,发送加密后的待分类数据至远端分类器;
远端分类器,其用于根据获得的加密后的待分类数据进行数据分类,将加密形式的分类结果发送至第一电子设备。
也就是,第一电子设备将加密后的待分类数据发送给远端分类器,使远端分类器对其进行分类,并得到同为加密形式的分类结果,最后,将加密形式的分类结果发送至第一电子设备中,以使第一电子设备得到原数据的分类结果。本申请实施例中的文本分类系统通过对待分类数据进行预处理,并对处理结果进行加密后再发送至远端分类器中进行分类,确保了数据在发送以及后续分类的过程中数据均处于加密状态,强有力地保证了数据分类过程的保密性,彻底避免了数据分类过程中出现的数据泄露现象。另外,本实施例的文本分类系统还可使得经远端分类器分类后的分类结果能够以加密形式发送至第一电子设备中,确保了分类结果的数据安全,使其仅能够被第一电子设备进行解密或识别,而对于其他设备在未经第一电子设备或用户的允许情况下是不能够解读该分类结果的。
进一步地,本实施例中的上述处理结果为第一电子设备对待分类数据进行词法分析,并基于分析结果确定的实际所需分类数据。
例如,文本数据为“我爱你中国”,则通过词法分析后得到的分析结果为五个词条,其分别为“我”,“爱”,“你”,“中国”。而为了减少远端分类器在进行分类操作时受到的干扰,使分类效率得到提高,同时增加分类的精准性,本实施例中在基于分析结果确定实际所需分类数据时包括:
获得经词法分析得到的词条集合;
剔除词条集合中的干扰词条而得到所需分类数据。
例如,仍以上述实施例为例,经词法分析后得到词条集合:“我”,“爱”,“你”,“中国”。之后,第一电子设备分析各个词条后,确定该文本数据实际要表达的含义为“我爱中国”,也即由“我”,“爱”,“中国”三个词条即可清楚明确的表达出该文本数据的含义,故对于词条“你”便属于干扰性词条,也可认为是无实际意义的词条,对文本数据所要表达的含义无贡献的词条,对于该词条便可剔除,而仅保留其余三个词条,由该三个词条形成的文本数据即为所需分类数据。
进一步地,在得到包含有保留的词条的所需分类数据后,第一电子设备对需对其进行加密,以使待分类数据由第一显示形态变为第二显示形态,具体包括:
对处理结果通过对称加密算法进行加密计算,以使待分类数据由第一显示形态变为第二显示形态。
例如,对上述确定所分类数据中的各词条采用对称加密算法进行加密计算,以使待分类数据由第一显示形态变为能够被远端分类器识别的第二显示形态,也即,加密后的词条能够被远端分类器识别并进行分类。另外,上述加密算法具体不唯一,例如也可为非对称加密算法。
进一步地,上文所述的加密形式的分类结果为远端分类器基于加密处理后的训练数据及对应的经加密处理后的分类结果信息进行训练后,基于获得的加密后的待分类数据确定的匹配结果。
例如,以输入数据为经加密处理后的词条集合中的各词条数据,而输出数据/结果数据为对应该词条集合的分类结果信息,且该结果信息同样是经过加密处理过的。其中,结果信息的加密处理过程与词条的加密处理过程可相同,也可不同。经该训练后,远程分类器便可根据获得的加密后的词条数据,即,待分类数据,便可直接得出匹配的分类结果数据。
也就是,远程分类器在执行基于获得的加密后的待分类数据进行数据分类时具体为:
基于获得的加密后的待分类数据确定匹配的经加密处理后的分类结果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的数据处理方法所应用于的电子设备,可以参考前述产品实施例中的对应描述,在此不再赘述。
以上实施例仅为本申请的示例性实施例,不用于限制本申请,本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内,对本申请做出各种修改或等同替换,这种修改或等同替换也应视为落在本申请的保护范围内。
Claims (10)
1.一种数据分类方法,其特征在于,应用于第一电子设备中,所述方法包括:
获得待分类数据;
处理所述待分类数据;
对处理结果进行加密,以使所述待分类数据由第一显示形态变为第二显示形态,至少所述第二显示形态能够被远端分类器识别;
发送加密后的待分类数据至所述远端分类器进行数据分类。
2.根据权利要求1所述的方法,其特征在于,所述待分类数据为文本数据,所述处理所述待分类数据包括:
对所述待分类数据进行词法分析;
基于分析结果确定实际所需分类数据。
3.根据权利要求2所述的方法,其特征在于,所述基于分析结果确定实际所需分类数据包括:
获得经所述词法分析得到的词条集合;
剔除所述词条集合中的干扰词条而得到所述所需分类数据。
4.根据权利要求1所述的方法,其特征在于,所述对处理结果进行加密,以使所述待分类数据由第一显示形态变为第二显示形态包括:
对所述处理结果通过对称加密算法进行加密计算,以使所述待分类数据由第一显示形态变为第二显示形态。
5.一种数据分类方法,其特征在于,包括:
远端分类器基于获得的加密后的待分类数据进行数据分类;
将加密形式的分类结果发送至第一电子设备。
6.根据权利要求5所述的方法,其特征在于,所述在数据分类前,所述方法还包括:
所述远端分类器基于加密处理后的训练数据及对应的经加密处理后的分类结果信息进行训练;
所述基于获得的加密后的待分类数据进行数据分类包括:
基于获得的加密后的待分类数据确定匹配的经加密处理后的分类结果。
7.根据权利要求5所述的方法,其特征在于,所述远端分类器为云端分类器或第二电子设备中的分类器。
8.一种数据分类系统,其特征在于,包括:
第一电子设备,其用于处理获得的待分类数据,并对处理结果进行加密,以使所述待分类数据由第一显示形态变为第二显示形态,至少所述第二显示形态能够被远端分类器识别,发送加密后的待分类数据至所述远端分类器;
远端分类器,其用于根据获得的加密后的待分类数据进行数据分类,将加密形式的分类结果发送至所述第一电子设备。
9.根据权利要求8所述的数据分类系统,其特征在于,所述处理结果为所述第一电子设备对所述待分类数据进行词法分析,并基于分析结果确定的实际所需分类数据。
10.根据权利要求8所述的数据分类系统,其特征在于,所述加密形式的分类结果为所述远端分类器基于加密处理后的训练数据及对应的经加密处理后的分类结果信息进行训练后,基于获得的加密后的待分类数据确定的匹配结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811581678.8A CN109670326A (zh) | 2018-12-24 | 2018-12-24 | 一种数据分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811581678.8A CN109670326A (zh) | 2018-12-24 | 2018-12-24 | 一种数据分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109670326A true CN109670326A (zh) | 2019-04-23 |
Family
ID=66145945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811581678.8A Pending CN109670326A (zh) | 2018-12-24 | 2018-12-24 | 一种数据分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109670326A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372519A (zh) * | 2016-08-30 | 2017-02-01 | 江苏博智软件科技有限公司 | 一种信息加密方法及装置 |
CN106650493A (zh) * | 2016-12-14 | 2017-05-10 | 咪咕文化科技有限公司 | 一种行为数据的获取方法和装置 |
CN108153726A (zh) * | 2016-12-05 | 2018-06-12 | 北京国双科技有限公司 | 文本处理方法和装置 |
CN108717514A (zh) * | 2018-05-21 | 2018-10-30 | 中国人民大学 | 一种机器学习中的数据隐私保护方法和系统 |
-
2018
- 2018-12-24 CN CN201811581678.8A patent/CN109670326A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372519A (zh) * | 2016-08-30 | 2017-02-01 | 江苏博智软件科技有限公司 | 一种信息加密方法及装置 |
CN108153726A (zh) * | 2016-12-05 | 2018-06-12 | 北京国双科技有限公司 | 文本处理方法和装置 |
CN106650493A (zh) * | 2016-12-14 | 2017-05-10 | 咪咕文化科技有限公司 | 一种行为数据的获取方法和装置 |
CN108717514A (zh) * | 2018-05-21 | 2018-10-30 | 中国人民大学 | 一种机器学习中的数据隐私保护方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yan et al. | A method of information protection for collaborative deep learning under GAN model attack | |
Pena et al. | Bias in multimodal AI: Testbed for fair automatic recruitment | |
US20210051169A1 (en) | Thwarting model poisoning in federated learning | |
CN104009836B (zh) | 加密数据检测方法和系统 | |
CN101593324B (zh) | 基于可信计算应用技术的网络多级审批方法及系统 | |
SG11201901810TA (en) | Social security fraud behaviors identification method, device, apparatus and computer-readable storage medium | |
US10580272B1 (en) | Techniques to provide and process video data of automatic teller machine video streams to perform suspicious activity detection | |
CN111539535B (zh) | 基于隐私保护的联合特征分箱方法及装置 | |
EP4235477A3 (en) | Customer identification verification process | |
CN111539009B (zh) | 保护隐私数据的有监督特征分箱方法及装置 | |
CN106845220B (zh) | 一种Android恶意软件检测系统及方法 | |
Granizo et al. | Detection of possible illicit messages using natural language processing and computer vision on twitter and linked websites | |
CN110020430B (zh) | 一种恶意信息识别方法、装置、设备及存储介质 | |
Özkan et al. | Evaluation of convolutional neural network features for malware detection | |
Asani et al. | A maximum entropy classification scheme for phishing detection using parsimonious features | |
CN109670326A (zh) | 一种数据分类方法及系统 | |
CN101815015B (zh) | 面向内容的网络流量快速安检引擎 | |
Alneyadi et al. | Adaptable n-gram classification model for data leakage prevention | |
Ranka et al. | Computer Vision-Based Cybersecurity Threat Detection System with GAN-Enhanced Data Augmentation | |
Arya et al. | Email spam detection using naive Bayes and random forest classifiers | |
Albalooshi | Android Malware detection using predictive analytics. | |
Thahab | Legal measures to curb fraudulent online pharmacies in COVID-19 period | |
Aziz et al. | Privacy challenges in cyber security against cybercrime in digital forensic. A systematic literature review in Pakistan. | |
CN113792343B (zh) | 数据隐私的处理方法、装置、存储介质和电子设备 | |
Bartholomäus et al. | Blinded Anonymization: a method for evaluating cancer prevention programs under restrictive data protection regulations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190423 |
|
RJ01 | Rejection of invention patent application after publication |