CN107292191A - 数据标记化方法及装置 - Google Patents

数据标记化方法及装置 Download PDF

Info

Publication number
CN107292191A
CN107292191A CN201710374969.9A CN201710374969A CN107292191A CN 107292191 A CN107292191 A CN 107292191A CN 201710374969 A CN201710374969 A CN 201710374969A CN 107292191 A CN107292191 A CN 107292191A
Authority
CN
China
Prior art keywords
data
marking
initial data
conversion
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710374969.9A
Other languages
English (en)
Inventor
刘敬良
黄凌志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qianxin Technology Co Ltd
Original Assignee
Beijing Qianxin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qianxin Technology Co Ltd filed Critical Beijing Qianxin Technology Co Ltd
Priority to CN201710374969.9A priority Critical patent/CN107292191A/zh
Publication of CN107292191A publication Critical patent/CN107292191A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据标记化方法及装置,该方法包括接收原始数据,并解析获得原始数据的数据类型;根据预先配置的策略选取与原始数据的数据类型匹配的标记化算法;依据选取的标记化算法对原始数据进行标记化处理,得到原始数据转换的标记化数据。本发明实施例通过分析原始数据的数据类型,并针对不同类型的原始数据选取合适的、具有针对性的标记化算法,可以使标记化处理后的数据能够保留其原始数据的重要字段信息,从而能够明确地体现出标记化数据的业务属性。

Description

数据标记化方法及装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种数据标记化方法及装置。
背景技术
随着计算机技术的不断发展,利用计算机处理业务数据已经涉及到生活、工作、学习等各个方面,例如银行业务办理、平台的登录、用户信息统计等等。由此,在对数据进行处理的过程中,数据的安全性以及有效性就显得尤为重要。
采用现有技术对业务数据进行处理时,往往通过对业务数据进行标记化以得到相应的字符串,但是,标记化后的字符串中并没有有效地保留业务数据的重要字段信息。但是,在某些业务当中,需要对业务数据的重要字段做校验,如果标记化后的字符串中没有保留业务数据的重要字段,就很容易导致数据的校验失败,从而无法完成数据提交和处理。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的数据标记化方法及装置。
依据本发明的一方面,提供了一种数据标记化方法,包括:
接收原始数据,并解析获得所述原始数据的数据类型;
根据预先配置的策略选取与所述原始数据的数据类型匹配的标记化算法;
依据选取的标记化算法对所述原始数据进行标记化处理,得到所述原始数据转换的标记化数据。
可选地,所述依据选取的标记化算法对所述原始数据进行标记化处理,得到所述原始数据转换的标记化数据,包括:
依据选取的标记化算法对所述原始数据本身进行转换,得到转换后的数字字符串;
为所述转换后的数字字符串添加校验符,得到所述原始数据转换的标记化数据。
可选地,所述为所述转换后的数字字符串添加校验符,包括:
为所述转换后的数字字符串添加用于识别业务的特征标识;和/或
为所述转换后的数字字符串添加所述选取的标记化算法标识。
可选地,所述为所述转换后的数字字符串添加校验符,得到所述原始数据转换的标记化数据,包括:
在所述转换后的数字字符串的头部添加用于识别业务的特征标识,在所述转换后的数字字符串的尾部添加所述选取的标记化算法标识,结合头部、尾部以及所述转换后的数字字符串得到所述原始数据转换的标记化数据。
可选地,所述用于识别业务的特征标识长度为6个字节;
所述选取的标记化算法标识长度为3个字节。
可选地,所述原始数据的数据类型包括以下任意一项:
随机数字、定长规则数字以及特定格式的数字,其中,所述定长规则数字的长度一定。
可选地,所述根据预先配置的策略选取与所述原始数据的数据类型匹配的标记化算法,包括:
依据所述数据类型识别所述原始数据是否为敏感数据,其中,所述敏感数据包括与安全隐私相关的数据;
若是,则根据预先配置的策略选取与所述原始数据的数据类型匹配的标记化算法。
可选地,所述敏感数据包括以下任意一个:身份标识数据、密码数据、账号数据、账号余额数据。
可选地,所述根据预先配置的策略选取与所述原始数据的数据类型匹配的标记化算法,包括:
根据预先定义的不同数据类型与至少一个标记化算法之间的对应关系,选取与所述原始数据的数据类型对应的标记化算法。
可选地,所述依据选取的标记化算法对所述原始数据进行标记化处理,得到所述原始数据转换的标记化数据之后,还包括:
建立所述标记化数据与所述原始数据之间的映射关系,并保存在本地数据库中。
可选地,所述方法还包括:对标记化数据进行去标记化处理。
可选地,所述对标记化数据进行去标记化处理,包括:
依据所述本地数据库中保存的映射关系,查找与所述标记化数据对应的原始数据并获取。
依据本发明的另一方面,还提供了一种数据标记化装置,包括:
解析模块,适于接收原始数据,并解析获得所述原始数据的数据类型;
选取模块,适于根据预先配置的策略选取与所述原始数据的数据类型匹配的标记化算法;
标记模块,适于依据选取的标记化算法对所述原始数据进行标记化处理,得到所述原始数据转换的标记化数据。
可选地,所述标记模块还适于:
依据选取的标记化算法对所述原始数据本身进行转换,得到转换后的数字字符串;
为所述转换后的数字字符串添加校验符,得到所述原始数据转换的标记化数据。
可选地,所述标记模块还适于:
为所述转换后的数字字符串添加用于识别业务的特征标识;和/或
为所述转换后的数字字符串添加所述选取的标记化算法标识。
可选地,所述标记模块还适于:
在所述转换后的数字字符串的头部添加用于识别业务的特征标识,在所述转换后的数字字符串的尾部添加所述选取的标记化算法标识,结合头部、尾部以及所述转换后的数字字符串得到所述原始数据转换的标记化数据。
可选地,所述用于识别业务的特征标识长度为6个字节;
所述选取的标记化算法标识长度为3个字节。
可选地,所述原始数据的数据类型包括以下任意一项:
随机数字、定长规则数字以及特定格式的数字,其中,所述定长规则数字的长度一定。
可选地,所述选取模块还适于:
依据所述数据类型识别所述原始数据是否为敏感数据,其中,所述敏感数据包括与安全隐私相关的数据;
若是,则根据预先配置的策略选取与所述原始数据的数据类型匹配的标记化算法。
可选地,所述敏感数据包括以下任意一个:
身份标识数据、密码数据、账号数据、账号余额数据。
可选地,所述选取模块还适于:
根据预先定义的不同数据类型与至少一个标记化算法之间的对应关系,选取与所述原始数据的数据类型对应的标记化算法。
可选地,所述装置还包括:
建立模块,适于在所述标记模块依据选取的标记化算法对所述原始数据进行标记化处理,得到所述原始数据转换的标记化数据之后,
建立所述标记化数据与所述原始数据之间的映射关系,并保存在本地数据库中。
可选地,所述装置还包括:
去标记模块,适于对标记化数据进行去标记化处理。
可选地,所述去标记模块还适于:
依据所述本地数据库中保存的映射关系,查找与所述标记化数据对应的原始数据并获取。
依据本发明的再一方面,还提供了一种计算机程序,包括计算机可读代码,当所述计算机可读代码在计算设备上运行时,导致所述计算设备执行上文所述的数据标记化方法。
依据本发明的又一方面,还提供了一种计算机可读介质,其中存储了如上文所述的计算机程序。
在本发明实施例中,首先,接收原始数据,并解析获得原始数据的数据类型。然后,根据预先配置的策略选取与原始数据的数据类型匹配的标记化算法。最后,依据选取的标记化算法对原始数据进行标记化处理,得到原始数据转换的标记化数据。由于不同类型的数据进行标记化处理后,需要保留原始数据信息的需求不同。因此,本发明实施例通过分析原始数据的数据类型,并针对不同类型的原始数据匹配合适的、具有针对性的标记化算法,从而使经标记化算法处理后的数据能够保留其原始数据的重要字段信息,进而能够明确地体现出标记化数据的业务属性。
进一步的,本发明实施例还可以有效地避免由于采用同一种标记化算法,使标记化数据中未保留原始数据的重要字段,从而导致数据的校验失败,无法完成数据提交和处理的问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的数据标记化方法流程示意图;
图2示出了根据本发明一个实施例的数据标记化方法中的原始数据与标记化数据的对应关系示意图;
图3示出了本发明另一个实施例的数据标记化方法中的原始数据与标记化数据的对应关系示意图;
图4示出了本发明又一个实施例的数据标记化方法中的原始数据与标记化数据的对应关系示意图;
图5示出了本发明再一个实施例的数据标记化方法中的原始数据与标记化数据的对应关系示意图;
图6示出了根据本发明一个实施例的数据标记化装置的用户界面示意图;
图7示出了根据本发明另一个实施例的数据标记化装置的用户界面示意图;
图8示出了根据本发明一个实施例的数据标记化装置的结构示意图;
图9示出了根据本发明另一个实施例的数据标记化装置的结构示意图;
图10示出了用于执行根据本发明的数据标记化方法的计算设备的框图;以及
图11示出了用于保持或者携带实现根据本发明的数据标记化方法的程序代码的存储单元。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为解决上述技术问题,本发明实施例提供了一种数据标记化方法,图1示出了根据本发明一个实施例的数据标记化方法的流程示意图。参见图1,该方法至少可以包括步骤S102至步骤S106。
步骤S102,接收原始数据,并解析获得原始数据的数据类型。
在该步骤中,原始数据的数据类型可以是随机数字、定长规则数字以及特定格式的数字等。
其中,随机数字可以是能够进行算术运算的纯数字,如123456、542789345等,随机数字的长度并不固定。定长规则数字可以是长度一定且具有特定意义的数字,例如身份证号、信用卡号、银行卡号等。特定格式的数字可以是具有固定格式的数字,例如日期(如2017-04-18)、包含区号的电话号码(如010-123XXX22)等。在该实施例中,所列举的不同类型的数据仅仅是示意性的,本文中提及的数据类型还可以是其他的数据类型,本发明实施例对此不做具体限定。
步骤S104,根据预先配置的策略选取与原始数据的数据类型匹配的标记化算法。
在该步骤中,预先定义了多个不同的数据类型与至少一个标记化算法之间的对应关系,可以根据预先定义的策略选取与原始数据的数据类型对应的标记化算法。其中,标记化算法可以采用哈希置换算法或者其他一些自定义的不可逆的置换算法等,本发明实施例对此不做具体限定。
步骤S106,依据选取的标记化算法对原始数据进行标记化处理,得到原始数据转换的标记化数据。
由于不同类型的数据进行标记化处理后,需要保留原始数据信息的需求不同。因此,本发明实施例通过分析原始数据的数据类型,并针对不同类型的原始数据匹配合适的、具有针对性的标记化算法,从而使经标记化算法处理后的数据能够保留其原始数据的重要字段信息,进而能够明确地体现出标记化数据的业务属性。并且,本发明实施例还可以有效地避免由于采用同一种标记化算法,使标记化后的数据中未保留原始数据的重要字段,从而导致数据的校验失败,无法完成数据提交和处理的问题。
参见上文步骤S104,在本发明一实施例中,在根据预先配置的策略选取与原始数据的数据类型匹配的标记化算法时,还可以先依据原始数据的数据类型识别出该原始数据是否为敏感数据。若是,则进一步根据预先配置的策略选取与原始数据的数据类型匹配的标记化算法。该实施例中,敏感数据可以是与安全隐私相关的数据。例如,身份标识数据、密码数据、账号数据、账号余额数据等等,本发明实施例对敏感数据的内容不做具体限定。
参见上文步骤S106,在本发明一实施例中,可以采用如下方式对原始数据进行标记化处理,并得到原始数据转换后的标记化数据。
首先,依据选取的标记化算法对原始数据本身进行转换,得到转换后的数字字符串。转换后的数字字符串可以为一组随机数字,该随机数字的长度分为定长和不定长两种,具体长度需要视原始数据的数据类型而定。例如,定长规则数字和特定格式的数字转换后的数字字符串为定长字符串,随机数字转换后的数字字符串为不定长字符串。
然后,为转换后的数字字符串添加校验符,得到原始数据转换的标记化数据。其中,为数字字符串添加校验符时,可以添加用于识别业务的特征标识,还可以添加用于标识所选取的标记化算法的算法标识。当然,还可以同时添加特征标识和算法标识这两种校验符,本发明实施例对此不做具体限定。
在本发明一实施例中,标记化数据可以包含三部分,即为数字字符串添加校验符时,在转换后的数字字符串的头部添加用于识别业务的特征标识,并在转换后的数字字符串的尾部添加算法标识。然后结合头部、尾部以及转换后的数字字符串得到标记化数据。
例如,参见图2所示的原始数据与标记化数据的对应关系,在该实施例中,原始数据采用格式化数据,格式化数据可以为上文提及的定长规则数字或者特定格式的数字。将格式化数据本身进行转换,得到的转换后的数字字符串即为图2中所示的置换数据,该置换数据可以为定长数据。然后,在置换数据的头部添加定长的特征标识,尾部添加定长的算法标识,从而形成转换后的标记化数据。
在一个具体实施例中,参见图3,格式化数据(原始数据)为“458109199706033312”,将“458109199706033312”按照选取的标记化算法进行转换,得到转换后的数字字符串,为了保证转换后的字符串的安全性,用“********”代表转换后的数字字符串。在该具体实施例中,在转换后的数字字符串头部添加的特征标识为“01230”,尾部添加的算法标识为“012”。其中,特征标识长度为6个字节,通常仅使用其中的5位,另一位为预留位。算法标识的长度为3个字节,算法最大可以支持128种。
又例如,参见图4所示的原始数据与标记化数据的对应关系,在该实施例中,原始数据采用非格式化数据(即随机数据),非格式化数据可以为上文提及的随机数字。将格式化数据本身进行转换,得到的转换后的数字字符串即为图4中所示的置换数据,该置换数据可以为不定长数据。然后,在置换数据的头部添加定长的特征标识,尾部添加定长的算法标识,从而形成转换后的标记化数据。
在一个具体实施例中,参见图5,非格式化数据(原始数据)为“123456789”,将“123456789”按照选取的标记化算法进行转换,得到转换后的数字字符串,为了保证转换后的字符串的安全性,用“*************”代表转换后的数字字符串。该具体实施例中,在转换后的数字字符串头部添加的特征标识为“01230”,尾部添加的算法标识为“013”。其中,特征标识长度为6个字节,通常仅使用其中的5位,另一位为预留位。算法标识的长度为3个字节,算法最大可以支持128种。可见,图5所示的非格式化数据和图3所示的格式化数据分别转换后的标记化数据具有相同的特征标识“01230”,即两者可能是属于相同的业务类型,但是,两者转换后的标记化数据算法标识不同,即两者分别采用了不同的标记化算法进行转换。
在本发明一实施例中,数据标记化的过程可以在网关服务器侧执行。网关服务器接收来自客户端的原始数据,并解析原始数据的数据类型。其中,来自客户端中的原始数据可以是由用户输入至客户端中的数据。然后,根据网关服务器侧预先配置的策略选取与原始数据的数据类型匹配的标记化算法,并依据该标记化算法对原始数据进行标记化处理,得到相应的标记化数据。最后网关服务器利用标记化数据代替原始数据发送至外网服务器中,以由外网服务器依据标记化数据进行业务处理。
同时,网关服务器还可以建立标记化数据与原始数据之间的映射关系,并保存在本地数据库中,以在后续由网关服务器根据保存的映射关系中查找与标记化数据对应的原始数据。在该实施例中,数据库中存储的各数据可以以表格的形式进行存储,参见表1所示。
原始数据 置换数据 特征标识 算法标识
234345123432 764330485490 01230 01
123123 2356895243211 01231 12
123 563434 01230 96
123123 235689524 01236 11
32345677434 3435353425323 01231 12
表1
在该实施例中,网关服务器可以对数据进行标记化以及数据冲突的解决,其用于配置接口的UI(User Interface,用户界面)具体可以参见图6,在“管理”选项的“应用管理”中展示了多项配置接口,如客户、联系人、订单、商机等。用户可以点击其中任意一个配置选项进行相关信息的配置。例如,点击其中的“客户账户”选项,其展示界面如图7所示,展示出关于“客户账户”的多项配置信息,如账户名称、账号、电话等等,其中,“数据防护策略”这一选项展示出这些信息被进行了标记化处理。用户通过点击“操作”选项中的“编辑”可以对相应的数据信息进行配置。图6和图7中涉及到各项数据仅仅是示意性的,本发明实施例对此不做具体限定。
在本发明另一实施例中,在网关服务器侧还可以执行数据的去标记化过程。当外网服务器对标记化数据执行完业务处理之后,将标记化数据返回至网关服务器,网关服务器接收到标记化数据之后,根据保存的标记化数据与原始数据之间的映射关系查找到相应的原始数据,并将该原始数据返回至客户端,并展示给用户。
为了更加清楚地体现本发明实施例,现以一具体场景中的实施例对数据标记化的过程和数据的去标记化过程进行详细介绍。
在该实施例中,网关服务器为360网关服务器,客户端为银行业务办理客户端,外网服务器为银行的远端服务器。
首先,银行业务办理客户端接收用户输入的原始数据,如银行卡号“123XXXX456”。
其次,银行业务办理客户端将该卡号“123XXXX456”发送至360网关服务器,360网关服务器接收到该卡号“123XXXX456”后,对该卡号进行解析,并获得其数据类型为定长规则数字。
然后,360网关服务器根据预先配置的策略选取与定长规则数字类型匹配的标记化算法,并对卡号“123XXXX456”本身进行转换,得到转换后的数字字符串为“55XXXX66”。进而,360网关服务器对转换后的数字字符串“55XXXX66”添加特征标识。由于原始数据为银行卡卡号,因此,在数字字符串“55XXXX66”的头部添加用于标识银行业务的特征标识,如特征标识为“12345”。依据匹配的标记化算法确定在数字字符串“55XXXX66”的尾部添加算法标识“012”。最终,得到转换后的标记化数据为“1234555XXXX66012”。
进一步,360网关服务器将接收到的标记化数据“1234555XXXX66012”发送至银行的远端服务器,远端服务器根据接收到的标记化数据进行数据业务的处理。同时。360网关服务器还建立标记化数据“1234555XXXX66012”与原始卡号“123XXXX456”之间的映射关系,并保存在本地数据库中。
最后,当远端服务器对标记化数据“1234555XXXX66012”执行完业务处理之后,将该标记化数据返回至360网关服务器。360网关服务器在接收到标记化数据之后,依据之前保存的映射关系查找到相应的原始卡号“123XXXX456”,并将该卡号“123XXXX456”返回至业务办理客户端,并展示给办理业务的用户。
基于同一发明构思,本发明实施例还提供了一种数据标记化装置,图8示出了根据本发明一个实施例的数据标记化装置的结构示意图。参见图8,数据标记化装置800至少可以包括解析模块810、选取模块820以及标记模块830。
现介绍本发明实施例的数据标记化装置800的各组成或器件的功能以及各部分间的连接关系:
解析模块810,适于接收原始数据,并解析获得原始数据的数据类型;
选取模块820,与解析模块810耦合,适于根据预先配置的策略选取与原始数据的数据类型匹配的标记化算法;
标记模块830,与选取模块820耦合,适于依据选取的标记化算法对原始数据进行标记化处理,得到原始数据转换的标记化数据。
在本发明一实施例中,标记模块830还适于,依据选取的标记化算法对原始数据本身进行转换,得到转换后的数字字符串,并为转换后的数字字符串添加校验符,得到原始数据转换的标记化数据。
在本发明一实施例中,标记模块830还适于,为转换后的数字字符串添加用于识别业务的特征标识;和/或为转换后的数字字符串添加选取的标记化算法标识。
在本发明一实施例中,标记模块830还适于,在转换后的数字字符串的头部添加用于识别业务的特征标识,在转换后的数字字符串的尾部添加选取的标记化算法标识,结合头部、尾部以及转换后的数字字符串得到原始数据转换的标记化数据。
在本发明一实施例中,用于识别业务的特征标识长度为6个字节,并且选取的标记化算法标识长度为3个字节。
在本发明一实施例中,原始数据的数据类型包括以下任意一项,随机数字、定长规则数字以及特定格式的数字,其中,定长规则数字的长度一定。
在本发明一实施例中,选取模块820还适于,依据数据类型识别原始数据是否为敏感数据,其中,敏感数据包括与安全隐私相关的数据。若是,则根据预先配置的策略选取与原始数据的数据类型匹配的标记化算法。
在本发明一实施例中,敏感数据包括以下任意一个,身份标识数据、密码数据、账号数据、账号余额数据。
在本发明一实施例中,选取模块820还适于,根据预先定义的不同数据类型与至少一个标记化算法之间的对应关系,选取与原始数据的数据类型对应的标记化算法。
本发明实施例还提供了另一种数据标记化装置,图9示出了根据本发明一个实施例的数据标记化装置的结构示意图。参见图9,数据标记化装置800除了包含上述模块之外,还包括建立模块840和去标记模块850。
建立模块840,与标记模块830耦合,适于在标记模块830依据选取的标记化算法对原始数据进行标记化处理,得到原始数据转换的标记化数据之后,建立标记化数据与原始数据之间的映射关系,并保存在本地数据库中。
去标记模块850,与建立模块840耦合,适于对标记化数据进行去标记化处理。
在本发明一实施例中,去标记模块850还适于,依据本地数据库中保存的映射关系,查找与标记化数据对应的原始数据并获取。
本发明实施例还提供了一种计算机程序,包括计算机可读代码,当计算机可读代码在计算设备上运行时,导致计算设备执行上文任意实施例的数据标记化方法。
本发明实施例还提供了一种计算机可读介质,其中存储了如上文中的计算机程序。
根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到如下有益效果:
在本发明实施例中,首先,接收原始数据,并解析获得原始数据的数据类型。然后,根据预先配置的策略选取与原始数据的数据类型匹配的标记化算法。最后,依据选取的标记化算法对原始数据进行标记化处理,得到原始数据转换的标记化数据。由于不同类型的数据进行标记化处理后,需要保留原始数据信息的需求不同。因此,本发明实施例通过分析原始数据的数据类型,并针对不同类型的原始数据匹配合适的、具有针对性的标记化算法,从而使经标记化算法处理后的数据能够保留其原始数据的重要字段信息,进而能够明确地体现出标记化数据的业务属性。
进一步的,本发明实施例还可以有效地避免由于采用同一种标记化算法,使标记化后的数据中未保留原始数据的重要字段,从而导致数据的校验失败,无法完成数据提交和处理的问题。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的数据标记化装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图10示出了可以实现数据标记化方法的计算设备。该计算设备传统上包括处理器1010和存储器1020形式的计算机程序产品或者计算机可读介质。存储器1020可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器1020具有存储用于执行上述方法中的任何方法步骤的程序代码1031的存储空间1030。例如,存储程序代码的存储空间1030可以包括分别用于实现上面的方法中的各种步骤的各个程序代码1031。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图11所示的便携式或者固定存储单元。该存储单元可以具有与图10的计算设备中的存储器1020类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常,存储单元包括用于执行本发明的方法步骤的计算机可读代码1031’,即可以由诸如1010之类的处理器读取的代码,当这些代码由计算设备运行时,导致该计算设备执行上面所描述的方法中的各个步骤。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
本发明实施例提供了A1、一种数据标记化方法,包括:
接收原始数据,并解析获得所述原始数据的数据类型;
根据预先配置的策略选取与所述原始数据的数据类型匹配的标记化算法;
依据选取的标记化算法对所述原始数据进行标记化处理,得到所述原始数据转换的标记化数据。
A2、根据A1所述的方法,其中,所述依据选取的标记化算法对所述原始数据进行标记化处理,得到所述原始数据转换的标记化数据,包括:
依据选取的标记化算法对所述原始数据本身进行转换,得到转换后的数字字符串;
为所述转换后的数字字符串添加校验符,得到所述原始数据转换的标记化数据。
A3、根据A2所述的方法,其中,所述为所述转换后的数字字符串添加校验符,包括:
为所述转换后的数字字符串添加用于识别业务的特征标识;和/或
为所述转换后的数字字符串添加所述选取的标记化算法标识。
A4、根据A3所述的方法,其中,所述为所述转换后的数字字符串添加校验符,得到所述原始数据转换的标记化数据,包括:
在所述转换后的数字字符串的头部添加用于识别业务的特征标识,在所述转换后的数字字符串的尾部添加所述选取的标记化算法标识,结合头部、尾部以及所述转换后的数字字符串得到所述原始数据转换的标记化数据。
A5、根据A3或A4所述的方法,其中,
所述用于识别业务的特征标识长度为6个字节;
所述选取的标记化算法标识长度为3个字节。
A6、根据A1至A4任意一项所述的方法,其中,所述原始数据的数据类型包括以下任意一项:
随机数字、定长规则数字以及特定格式的数字,其中,所述定长规则数字的长度一定。
A7、根据A1至A4任意一项所述的方法,其中,所述根据预先配置的策略选取与所述原始数据的数据类型匹配的标记化算法,包括:
依据所述数据类型识别所述原始数据是否为敏感数据,其中,所述敏感数据包括与安全隐私相关的数据;
若是,则根据预先配置的策略选取与所述原始数据的数据类型匹配的标记化算法。
A8、根据A7所述的方法,其中,所述敏感数据包括以下任意一个:
身份标识数据、密码数据、账号数据、账号余额数据。
A9、根据A1至A4任意一项所述的方法,其中,所述根据预先配置的策略选取与所述原始数据的数据类型匹配的标记化算法,包括:
根据预先定义的不同数据类型与至少一个标记化算法之间的对应关系,选取与所述原始数据的数据类型对应的标记化算法。
A10、根据A1至A4任意一项所述的方法,其中,所述依据选取的标记化算法对所述原始数据进行标记化处理,得到所述原始数据转换的标记化数据之后,还包括:
建立所述标记化数据与所述原始数据之间的映射关系,并保存在本地数据库中。
A11、根据A10所述的方法,其中,所述方法还包括:对标记化数据进行去标记化处理。
A12、根据A11所述的方法,其中,所述对标记化数据进行去标记化处理,包括:
依据所述本地数据库中保存的映射关系,查找与所述标记化数据对应的原始数据并获取。
B13、一种数据标记化装置,包括:
解析模块,适于接收原始数据,并解析获得所述原始数据的数据类型;
选取模块,适于根据预先配置的策略选取与所述原始数据的数据类型匹配的标记化算法;
标记模块,适于依据选取的标记化算法对所述原始数据进行标记化处理,得到所述原始数据转换的标记化数据。
B14、根据B13所述的装置,其中,所述标记模块还适于:
依据选取的标记化算法对所述原始数据本身进行转换,得到转换后的数字字符串;
为所述转换后的数字字符串添加校验符,得到所述原始数据转换的标记化数据。
B15、根据B14所述的装置,其中,所述标记模块还适于:
为所述转换后的数字字符串添加用于识别业务的特征标识;和/或
为所述转换后的数字字符串添加所述选取的标记化算法标识。
B16、根据B15所述的装置,其中,所述标记模块还适于:
在所述转换后的数字字符串的头部添加用于识别业务的特征标识,在所述转换后的数字字符串的尾部添加所述选取的标记化算法标识,结合头部、尾部以及所述转换后的数字字符串得到所述原始数据转换的标记化数据。
B17、根据B14或B15所述的装置,其中,
所述用于识别业务的特征标识长度为6个字节;
所述选取的标记化算法标识长度为3个字节。
B18、根据B13至B16任意一项所述的方法,其中,所述原始数据的数据类型包括以下任意一项:
随机数字、定长规则数字以及特定格式的数字,其中,所述定长规则数字的长度一定。
B19、根据B13至B16任意一项所述的装置,其中,所述选取模块还适于:
依据所述数据类型识别所述原始数据是否为敏感数据,其中,所述敏感数据包括与安全隐私相关的数据;
若是,则根据预先配置的策略选取与所述原始数据的数据类型匹配的标记化算法。
B20、根据B19所述的装置,其中,所述敏感数据包括以下任意一个:
身份标识数据、密码数据、账号数据、账号余额数据。
B21、根据B13至B16任意一项所述的装置,其中,所述选取模块还适于:
根据预先定义的不同数据类型与至少一个标记化算法之间的对应关系,选取与所述原始数据的数据类型对应的标记化算法。
B22、根据B13至B16任意一项所述的装置,其中,所述装置还包括:
建立模块,适于在所述标记模块依据选取的标记化算法对所述原始数据进行标记化处理,得到所述原始数据转换的标记化数据之后,
建立所述标记化数据与所述原始数据之间的映射关系,并保存在本地数据库中。
B23、根据B22所述的装置,其中,所述装置还包括:
去标记模块,适于对标记化数据进行去标记化处理。
B24、根据B23所述的装置,其中,所述去标记模块还适于:
依据所述本地数据库中保存的映射关系,查找与所述标记化数据对应的原始数据并获取。
C25、一种计算机程序,包括计算机可读代码,当所述计算机可读代码在计算设备上运行时,导致所述计算设备执行根据A1至A12任一个所述的数据标记化方法。
C26、一种计算机可读介质,其中存储了如C25所述的计算机程序。

Claims (10)

1.一种数据标记化方法,包括:
接收原始数据,并解析获得所述原始数据的数据类型;
根据预先配置的策略选取与所述原始数据的数据类型匹配的标记化算法;
依据选取的标记化算法对所述原始数据进行标记化处理,得到所述原始数据转换的标记化数据。
2.根据权利要求1所述的方法,其中,所述依据选取的标记化算法对所述原始数据进行标记化处理,得到所述原始数据转换的标记化数据,包括:
依据选取的标记化算法对所述原始数据本身进行转换,得到转换后的数字字符串;
为所述转换后的数字字符串添加校验符,得到所述原始数据转换的标记化数据。
3.根据权利要求2所述的方法,其中,所述为所述转换后的数字字符串添加校验符,包括:
为所述转换后的数字字符串添加用于识别业务的特征标识;和/或
为所述转换后的数字字符串添加所述选取的标记化算法标识。
4.根据权利要求3所述的方法,其中,所述为所述转换后的数字字符串添加校验符,得到所述原始数据转换的标记化数据,包括:
在所述转换后的数字字符串的头部添加用于识别业务的特征标识,在所述转换后的数字字符串的尾部添加所述选取的标记化算法标识,结合头部、尾部以及所述转换后的数字字符串得到所述原始数据转换的标记化数据。
5.根据权利要求3或4所述的方法,其中,
所述用于识别业务的特征标识长度为6个字节;
所述选取的标记化算法标识长度为3个字节。
6.根据权利要求1至4任意一项所述的方法,其中,所述原始数据的数据类型包括以下任意一项:
随机数字、定长规则数字以及特定格式的数字,其中,所述定长规则数字的长度一定。
7.根据权利要求1至4任意一项所述的方法,其中,所述根据预先配置的策略选取与所述原始数据的数据类型匹配的标记化算法,包括:
依据所述数据类型识别所述原始数据是否为敏感数据,其中,所述敏感数据包括与安全隐私相关的数据;
若是,则根据预先配置的策略选取与所述原始数据的数据类型匹配的标记化算法。
8.一种数据标记化装置,包括:
解析模块,适于接收原始数据,并解析获得所述原始数据的数据类型;
选取模块,适于根据预先配置的策略选取与所述原始数据的数据类型匹配的标记化算法;
标记模块,适于依据选取的标记化算法对所述原始数据进行标记化处理,得到所述原始数据转换的标记化数据。
9.一种计算机程序,包括计算机可读代码,当所述计算机可读代码在计算设备上运行时,导致所述计算设备执行根据权利要求1至7任一个所述的数据标记化方法。
10.一种计算机可读介质,其中存储了如权利要求9所述的计算机程序。
CN201710374969.9A 2017-05-24 2017-05-24 数据标记化方法及装置 Pending CN107292191A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710374969.9A CN107292191A (zh) 2017-05-24 2017-05-24 数据标记化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710374969.9A CN107292191A (zh) 2017-05-24 2017-05-24 数据标记化方法及装置

Publications (1)

Publication Number Publication Date
CN107292191A true CN107292191A (zh) 2017-10-24

Family

ID=60095101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710374969.9A Pending CN107292191A (zh) 2017-05-24 2017-05-24 数据标记化方法及装置

Country Status (1)

Country Link
CN (1) CN107292191A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783074A (zh) * 2018-12-11 2019-05-21 平安科技(深圳)有限公司 程序编写的数据类型转换方法、电子设备
CN112261036A (zh) * 2020-10-20 2021-01-22 苏州矽典微智能科技有限公司 数据传出方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853985A (zh) * 2012-12-05 2014-06-11 中国移动通信集团黑龙江有限公司 数据加密方法、解密方法及装置
CN106203145A (zh) * 2016-08-04 2016-12-07 北京网智天元科技股份有限公司 数据脱敏方法及相关设备
CN106295367A (zh) * 2016-08-15 2017-01-04 北京奇虎科技有限公司 数据加密方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853985A (zh) * 2012-12-05 2014-06-11 中国移动通信集团黑龙江有限公司 数据加密方法、解密方法及装置
CN106203145A (zh) * 2016-08-04 2016-12-07 北京网智天元科技股份有限公司 数据脱敏方法及相关设备
CN106295367A (zh) * 2016-08-15 2017-01-04 北京奇虎科技有限公司 数据加密方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783074A (zh) * 2018-12-11 2019-05-21 平安科技(深圳)有限公司 程序编写的数据类型转换方法、电子设备
CN112261036A (zh) * 2020-10-20 2021-01-22 苏州矽典微智能科技有限公司 数据传出方法和装置
CN112261036B (zh) * 2020-10-20 2021-09-24 苏州矽典微智能科技有限公司 数据传出方法和装置

Similar Documents

Publication Publication Date Title
CA2738480C (en) Detection of confidential information
CN110309182B (zh) 一种信息录入方法及装置
US20110270837A1 (en) Method and system for logical data masking
CN107341716A (zh) 一种恶意订单识别的方法、装置及电子设备
US7664704B2 (en) Clearing receivables with improved search
CN104636334A (zh) 一种关键词推荐方法和装置
US11170052B2 (en) Identification of potentially sensitive information in data strings
CN105117380B (zh) 粘贴处理方法及装置
CN107423613A (zh) 依据相似度确定设备指纹的方法、装置及服务器
CN106961420A (zh) cookie信息的处理方法及装置
CN104714950B (zh) 用于对数据库中的信息进行修正及补充的方法及系统
CN106844413A (zh) 实体关系抽取的方法及装置
CN107341399A (zh) 评估代码文件安全性的方法及装置
CN106815226A (zh) 文本匹配方法和装置
CN110289059A (zh) 医疗数据处理方法、装置、存储介质及电子设备
CN112906361A (zh) 文本数据的标注方法和装置、电子设备和存储介质
CN108664501B (zh) 广告审核方法、装置及服务器
CN107292191A (zh) 数据标记化方法及装置
US20180096021A1 (en) Methods and systems for improved search for data loss prevention
CN107294956A (zh) 数据标记化的冲突处理方法及装置
CN109684467A (zh) 一种文本的分类方法及装置
CN110298751A (zh) 跨平台的交易数据处理方法、装置、终端及存储介质
CN107784064A (zh) 网页数据处理方法、装置、计算机设备及计算机存储介质
US20170032484A1 (en) Systems, devices, and methods for detecting firearm straw purchases
CN108205757A (zh) 电子支付业务合法性的校验方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100015 15, 17 floor 1701-26, 3 building, 10 Jiuxianqiao Road, Chaoyang District, Beijing.

Applicant after: Qianxin Technology Group Co., Ltd.

Address before: 100015 15, 17 floor 1701-26, 3 building, 10 Jiuxianqiao Road, Chaoyang District, Beijing.

Applicant before: BEIJING QI'ANXIN SCIENCE & TECHNOLOGY CO., LTD.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20171024

RJ01 Rejection of invention patent application after publication