CN110209892A - 敏感信息识别方法、装置、电子设备及存储介质 - Google Patents

敏感信息识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110209892A
CN110209892A CN201910310090.7A CN201910310090A CN110209892A CN 110209892 A CN110209892 A CN 110209892A CN 201910310090 A CN201910310090 A CN 201910310090A CN 110209892 A CN110209892 A CN 110209892A
Authority
CN
China
Prior art keywords
character string
field
identified
string
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910310090.7A
Other languages
English (en)
Inventor
程庚
张帆
杨亮吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
Original Assignee
OneConnect Smart Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Smart Technology Co Ltd filed Critical OneConnect Smart Technology Co Ltd
Priority to CN201910310090.7A priority Critical patent/CN110209892A/zh
Publication of CN110209892A publication Critical patent/CN110209892A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及人工智能技术领域,本发明提供一种敏感信息识别方法,所述方法包括:从数据库的数据库表中获取待识别字段;若所述待识别字段中至少一信息包括汉字字符串,且若所述汉字字符串包括满足第一预设规律的字符串,确定所述字符串是否与预设的语料库中的至少一字符串模板匹配;若所述字符串与预设的语料库中的任意一字符串模板不匹配,确定所述字符串对应的哈希值;确定预设的语料库中哈希值与所述字符串对应的哈希值匹配的目标字符串;确定所述目标字符串与所述字符串的相似度;若所述目标字符串与所述字符串的相似度超过预设值,确定所述待识别字段包括敏感字段。本发明还提供一种装置、电子设备及存储介质,可自动识别敏感字段。

Description

敏感信息识别方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,具体涉及一种敏感信息识别方法、装置、电子设备及存储介质。
背景技术
随着大数据应用的广泛,越来越多的企业采用线上处理敏感的文件。在享受线上处理敏感的文件给人们带来方便快捷的同时,个人信息也受到了严峻的考验,例如个人信息被侦听、截获及非法拷贝,而由此导致的个人被骚扰、个人财产的安全性受到了关注。因此个人信息中的敏感信息的识别就显得尤为重要,在识别敏感信息后可通过脱敏或加密等方式对敏感信息进行保护。目前敏感信息的识别都只能针对某一类型的敏感信息进行识别,例如对电话号码的识别等,而对于包含多个信息的字段,例如某一类型的敏感信息及非敏感信息或者复合类型的敏感信息,则无法识别。
发明内容
鉴于此,有必要提供一种敏感信息识别方法、装置、电子设备及存储介质,可自动识别敏感字段。
本申请的第一方面提供一种敏感信息识别方法,所述方法包括:
从数据库的数据库表中获取待识别字段,所述待识别字段包括至少一信息,所述信息包括数字字符串、符号字符串、及/或汉字字符串;
若所述待识别字段中至少一信息包括汉字字符串,确定所述汉字字符串是否包括满足第一预设规律的字符串;
若所述汉字字符串包括满足第一预设规律的字符串,确定所述字符串是否与预设的语料库中的至少一字符串模板匹配,所述预设的语料库中包括地址字符串模板及姓名字符串模板;
若所述字符串与预设的语料库中的任意一字符串模板不匹配,确定所述字符串对应的哈希值;
确定预设的语料库中哈希值与所述字符串对应的哈希值匹配的目标字符串;
确定所述目标字符串与所述字符串的相似度;
若所述目标字符串与所述字符串的相似度超过预设值,确定所述待识别字段包括敏感字段。
本申请的第二方面提供一种敏感信息识别装置,所述装置包括:
获取模块,用于从数据库的数据库表中获取待识别字段,所述待识别字段包括至少一信息,所述信息包括数字字符串、符号字符串、及/或汉字字符串;
规律确定模块,用于若所述待识别字段中至少一信息包括汉字字符串,确定所述汉字字符串是否包括满足第一预设规律的字符串;
匹配确定模块,用于若所述汉字字符串包括满足第一预设规律的字符串,确定所述字符串是否与预设的语料库中的至少一字符串模板匹配,所述预设的语料库中包括地址字符串模板及姓名字符串模板;
哈希值确定模块,用于若所述字符串与预设的语料库中的任意一字符串模板不匹配,确定所述字符串对应的哈希值;
字符串确定模块,用于确定预设的语料库中哈希值与所述字符串对应的哈希值匹配的目标字符串;
相似度确定模块,用于确定所述目标字符串与所述字符串的相似度;
敏感字段确定模块,用于若所述目标字符串与所述字符串的相似度超过预设值,确定所述待识别字段包括敏感字段。
本申请的第三方面提供一种电子设备,所述电子设备包括处理器及存储器,所述处理器用于执行所述存储器中存储的至少一个指令时实现如上任意一项所述的敏感信息识别方法。
本申请的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行以实现如上任意一项所述的敏感信息识别方法。
本方案通过若待识别字段中至少一信息所包括的汉字字符串中的某字符串满足预设的姓名的基本规律及/或预设的地址的基本规律,确定所述字符串是否与预设的语料库中的地址字符串模板及/或姓名字符串模板匹配,若所述字符串与语料库中的地址字符串模板及/或姓名字符串模板不匹配,确定所述字符串的哈希值,并确定预设的语料库中哈希值与所述字符串对应的哈希值匹配的目标字符串,若所述目标字符串与所述字符串的相似度超过预设值,确定所述待识别字段包括敏感字段,从而可自动从包含多个信息的字段中识别敏感字段。
附图说明
图1是本发明实施例一提供的敏感信息识别方法的流程图。
图2是本发明实施例二提供的敏感信息识别装置的结构图。
图3是本发明实施例三提供的电子设备的示意图。
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例一
图1为本发明实施例一提供的敏感信息识别方法的流程图。所述方法应用于电子设备中,所述电子设备可以为任何一种电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)等。如图1所示,所述敏感信息识别方法可包括以下步骤:
S11:从数据库的数据库表中获取待识别字段,所述待识别字段包括至少一信息,所述信息包括数字字符串、符号字符串、及/或汉字字符串。
所述数据库可为Oracle数据库、SQL Server数据库、Mysql数据库、Sybase数据库、或者Hadoop数据库。所述数据库中存储有至少一张数据库表。所述数据库表包括至少一列,每列包括相同类型的至少一行待识别字段。所述类型可为生日、IP地址、手机号、身份证号、银行卡号、固定电话、设备号、车牌号、邮箱、姓名、地址、敏感字段组合、学历、性别、职称、身高、或者爱好等。所述敏感字段组合包括短信内容或者邮件内容等。所述敏感字段组合可为,例如张三,来自湖北省洪湖市。在本实施例中,所述方法还包括:通过标点符号确定所述待识别字段中所包括的各信息,例如:若所述待识别字段为:张三,来自湖北省洪湖市,通过标点符号“,”确定所述待识别字段中包括信息“张三”及信息“来自湖北省洪湖市”。
每列还包括一字段名,所述字段名用于限定所述列的待识别字段的类型,例如字段名a用于限定所述列的每行待识别字段的类型为姓名、字段名sample用于限定所述列的每行待识别字段的类型为短信内容、字段名apple用于限定所述列的每行待识别字段的类型为爱好。不同数据库表中相同的字段名可限定不同的类型。
所述从数据库的数据库表中获取待识别字段可包括从数据库的数据库表的某列中获取至少一待识别字段。所述至少一待识别字段可为某列的所有待识别字段或者为某列中预设数量或者不定数量的待识别字段。当所述至少一待识别字段为某列中预设数量或者不定数量的待识别字段时,所述至少一待识别字段可为连续或不连续的字段。
S12:若所述待识别字段中至少一信息包括汉字字符串,确定所述汉字字符串是否包括满足第一预设规律的字符串。
在本实施例,若所述待识别字段中至少一信息包括汉字字符串包括:
a1:确定所述待识别字段中至少一信息中的字符的ASCII码是否大于第一预设值(例如127);
a2:若所述待识别字段中至少一信息中的字符的ASCII码大于第一预设值(例如127),确定所述待识别字段中至少一信息包括汉字字符串。
所述第一预设规律可为预设的姓名的基本规律及/或预设的地址的基本规律。其中,预设的姓名的基本规律为:长度在2~4之间,前1~2个字符的拼音或拼写类似姓氏。预设的地址的基本规律为:包含拼音或拼写类似省份、城市、或者街道字符。
确定所述汉字字符串是否包括满足第一预设规律的字符串可为例如:所述汉字字符串为“慕荣影”,确定所述汉字字符串“慕荣影”是否包括满足预设的姓名的基本规律及/或预设的地址的基本规律的字符串。
S13:若所述汉字字符串包括满足第一预设规律的字符串,确定所述字符串是否与预设的语料库中的至少一字符串模板匹配,所述预设的语料库中包括地址字符串模板及姓名字符串模板。
所述汉字字符串包括满足第一预设规律的字符串可为例如:汉字字符串“慕荣影”包括满足预设的姓名的基本规律:长度在2~4之间,前1~2个字符的拼音或拼写类似姓氏的字符串“慕荣影”。
所述预设的语料库中还包括各字符串模板的哈希值。所述地址字符串模板可为中国的某地的地址,所述地址可为省份、城市、及/或街道名等,所述地址字符串模板可为例如,紫琅路。所述预设的语料库中所有的地址字符串模板组成中国各地的地址。所述姓名字符串模板包括姓氏及名氏。所述预设的语料库中所有的姓名字符串模板中的姓氏为中国的所有姓氏。
在本实施例中,所述方法还包括建立预设的语料库。所述建立预设的语料库包括:
b1:获取中国各地的地址字符串;
b2:获取各姓名字符串,其中,所有的姓名字符串组成中国的所有姓氏;
b3:确定各地址字符串的哈希值及各姓名字符串的哈希值。例如:地址字符串“紫琅路”的哈希值为41GE5E。
b4:存储所述中国各地的地址字符串、所述姓名字符串、所述地址字符串的哈希值及所述姓名字符串的哈希值。
确定所述字符串是否与预设的语料库中的至少一字符串模板匹配包括:确定所述字符串是否与预设的语料库中的至少一字符串模板完全相同或实质相同。所述实质相同可通过预设的方法确定。所述预设的方法可为简繁体转换、或者字体转换等。
S14:若所述字符串与预设的语料库中的任意一字符串模板不匹配,确定所述字符串对应的哈希值。
确定所述字符串对应的哈希值包括:根据预设的汉字-音形码关系表确定所述字符串的每一位字符的音形码的第一位(韵母)和第五位(结构),确定所述字符串的哈希值为所述字符串中各字符的音形码的第一位(韵母)和第五位(结构)形成的组合字符的依序组合。确定所述字符串的哈希值为所述字符串中各字符的音形码的第一位(韵母)和第五位(结构)形成的组合字符的依序组合包括:确定所述字符串中各字符的音形码的第一位(韵母)和第五位(结构)的组合字符,确定所述字符串的哈希值为各组合字符的依序组合。
在本实施例中,所述方法还包括:建立预设的汉字-音形码关系表。所述建立预设的汉字-音形码关系表包括:获取中国各地的地址字符串;获取中国各姓名字符串;确定所述地址字符串及所述姓名字符串中所出现的目标汉字;确定容易与所述目标汉字产生混淆的混淆汉字;通过音形码转换模型将所述目标汉字及混淆汉字转换为对应的音形码;根据所述目标汉字、混淆汉字及对应的音形码建立汉字-音形码关系表。根据所述目标汉字、混淆汉字及对应的音形码建立汉字-音形码关系表包括根据所述目标汉字、所述目标汉字对应的音形码、所述混淆汉字及所述混淆汉字对应的音形码建立目标汉字-音形码关系表及混淆汉字-音形码关系表,确定所述汉字-音形码关系表包括所述目标汉字-音形码关系表及所述混淆汉字-音形码关系表。
S15:确定预设的语料库中哈希值与所述字符串对应的哈希值匹配的目标字符串。
所述确定预设的语料库中哈希值与所述字符串对应的哈希值匹配的目标字符串包括:确定预设的语料库中哈希值与所述字符串对应的哈希值相同的目标字符串。例如:若字符串“紫娘路”的哈希值为:41GE5E,预设的语料库中哈希值为“41GE5E”的字符串为“紫琅路”,则确定预设的语料库中哈希值与所述字符串“紫娘路”对应的哈希值“41GE5E”匹配的目标字符串为“紫琅路”。
S16:确定所述目标字符串与所述字符串的相似度。
确定所述目标字符串与所述字符串的相似度为确定所述目标字符串与所述字符串的音形码相似度。确定所述目标字符串与所述字符串的音形码相似度包括:
c1:确定所述目标字符串中每个汉字与所述字符串中对应的汉字的音形码相似度。
确定所述目标字符串中每个汉字与所述字符串中对应的汉字的音形码相似度包括:
d1:确定所述目标字符串中每个汉字与所述字符串中对应的汉字的音码相似度。
确定所述目标字符串中每个汉字与所述字符串中对应的汉字的音码相似度为:
其中,p为音码相似度,为所述目标字符串中的汉字的音码的第一个字符与所述字符串中对应的汉字的音码的第一个字符的相似度,为所述目标字符串中的汉字的音码的第二个字符与所述字符串中对应的汉字的音码的第二个字符的相似度,为所述目标字符串中的汉字的音码的第三个字符与所述字符串中对应的汉字的音码的第三个字符的相似度,为所述目标字符串中的汉字的音码的第四个字符与所述字符串中对应的汉字的音码的第四个字符的相似度。若两个字符相同,则两个字符的相似度为1,若两个字符不同,则两个字符的相似度为0。
d2:确定所述目标字符串中每个汉字与所述字符串中对应的汉字的形码相似度。
确定所述目标字符串中每个汉字与所述字符串中对应的汉字的形码相似度为:
其中,s为形码相似度,为所述目标字符串中的汉字的形码的第一个字符与所述字符串中对应的汉字的形码的第一个字符的相似度,为所述目标字符串中的汉字的形码的第二个字符与所述字符串中对应的汉字的形码的第二个字符的相似度,为所述目标字符串中的汉字的形码的第三个字符与所述字符串中对应的汉字的形码的第三个字符的相似度,为所述目标字符串中的汉字的形码的第四个字符与所述字符串中对应的汉字的形码的第四个字符的相似度,为所述目标字符串中的汉字的形码的第五个字符与所述字符串中对应的汉字的形码的第五个字符的相似度,为所述目标字符串中的汉字的形码的第六个字符与所述字符串中对应的汉字的形码的第六个字符的相似度。若两个字符相同,则两个字符的相似度为1,若两个字符不同,则两个字符的相似度为0。
d3:根据所述音码相似度及所述形码相似度确定所述目标字符串中每个汉字与所述字符串中对应的汉字的音形码相似度。
根据所述音码相似度及所述形码相似度确定所述目标字符串中每个汉字与所述字符串中对应的汉字的音形码相似度为:
其中,d为所述音形码相似度,p为所述音码相似度,s为形码相似度。
c2:确定所述目标字符串中所有的汉字的音形码相似度的平均值为所述目标字符串与所述字符串的相似度。
S17:若所述目标字符串与所述字符串的相似度超过预设值,确定所述待识别字段包括敏感字段。
若所述目标字符串与所述字符串的相似度超过预设值,确定所述待识别字段包括敏感字段包括:
e1:若所述目标字符串与所述字符串的相似度超过预设值,确定所述字符串为所述目标字符串;
e2:确定所述待识别字段包括地址及/或姓名字段;
e3:确定所述待识别字段包括敏感字段。
确定所述待识别字段包括敏感字段包括:
若所述待识别字段中包括地址及/或姓名字段的数量与所述待识别字段的数量的比值大于预设的数量时,确定所述待识别字段为敏感字段。
在本实施例中,为了以供管理者了解识别结果的置信度,在确定所述待识别字段为敏感字段后,所述方法还包括:
显示所述待识别字段中包括地址及/或姓名字段的数量与所述待识别字段的数量的比值。
在本实施例中,为了确定所述待识别字段不包括地址及/或姓名字段,所述方法还包括:
若所述汉字字符串不包括满足第一预设规律的字符串,确定所述待识别字段不包括地址及/或姓名字段。
在本实施例中,为了识别待识别字段中的地址及/或姓名字段,所述方法还包括:
若所述字符串与预设的语料库中的至少一字符串模板匹配,确定所述待识别字段包括敏感字段。
若所述字符串与预设的语料库中的至少一字符串模板匹配,确定所述待识别字段包括敏感字段包括:
若所述字符串与预设的语料库中的至少一字符串模板匹配,确定所述待识别字段包括地址及/或姓名字段;
确定所述待识别字段包括敏感字段。
在本实施例中,为了识别待识别字段中的手机号、身份证号、银行卡号、固定电话、生日、邮箱、IP地址、设备号、json、及/或者车牌号,所述方法还包括:
f1:若所述待识别字段中至少一信息包括数字字符串,确定所述数字字符串是否包括满足第二预设规律的字符串,所述第二预设规律可为预设的手机号的基本规律、预设的身份证号的基本规律、预设的银行卡号的基本规律、预设的固定电话的基本规律、及/或者预设的生日的基本规律;
f2:若所述数字字符串包括满足第二预设规律的字符串,确定所述待识别字段包括敏感字段;
f3:若所述待识别字段中至少一信息包括符号字符串,确定所述至少一信息是否包括满足第三预设规律的字符串,所述第三预设规律可为预设的邮箱的基本规律、预设的IP地址的基本规律、预设的设备号的基本规律、及/或者预设的json的基本规律;
f4:若所述至少一信息包括满足第三预设规律的字符串,确定所述待识别字段包括敏感字段;
f5:若所述待识别字段中至少一信息包括数字字符串及汉字字符串,确定所述至少一信息是否包括满足第四预设规律的字符串,所述第四预设规律可为预设的车牌号的基本规律;
f6:若所述至少一信息包括满足第四预设规律的字符串,确定所述待识别字段包括敏感字段。
具体地:为了识别待识别字段中的手机号字段,所述方法还包括:
g1:若所述待识别字段中至少一信息包括数字字符串,确定所述数字字符串是否包括满足第五预设规律的字符串。
所述第五预设规律可为预设的手机号的基本规律。其中,预设的手机号的基本规律为:长度为11的数字,前三位数字符合联通、移动或者电信的规格。
g2:若所述数字字符串包括满足第五预设规律的字符串,确定所述待识别字段包括敏感字段。
若所述数字字符串包括满足第五预设规律的字符串,确定所述待识别字段包括敏感字段包括:
若所述数字字符串包括满足第五预设规律的字符串,确定所述数字字符串包括手机号字段;
确定所述待识别字段包括敏感字段。
为了识别待识别字段中的身份证号字段,所述方法还包括:
h1:若所述待识别字段中至少一信息包括数字字符串,确定所述数字字符串是否包括满足第六预设规律的字符串。
所述第六预设规律可为预设的身份证号的基本规律。其中,预设的身份证号的基本规律为:长度为15或18,第7~12或7~14为日期格式。
h2:若所述数字字符串包括满足第六预设规律的字符串,确定所述待识别字段包括敏感字段。
若所述数字字符串包括满足第六预设规律的字符串,确定所述待识别字段包括敏感字段包括:
若所述数字字符串包括满足第六预设规律的字符串,确定所述数字字符串包括身份证号字段;
确定所述待识别字段包括敏感字段。
为了识别待识别字段中的银行卡号字段,所述方法还包括:
k1:若所述待识别字段中至少一信息包括数字字符串,确定所述数字字符串是否包括满足第七预设规律的字符串。
所述第七预设规律可为预设的银行卡号的基本规律。其中,预设的银行卡号的基本规律为:长度在13-19之间的数字,符合Luhn算法。
k2:若所述数字字符串包括满足第七预设规律的字符串,确定所述待识别字段包括敏感字段。
若所述数字字符串包括满足第七预设规律的字符串,确定所述待识别字段包括敏感字段包括:
若所述数字字符串包括满足第七预设规律的字符串,确定所述数字字符串包括银行卡号字段;
确定所述待识别字段包括敏感字段。
为了识别待识别字段中的固定电话字段,所述方法还包括:
m1:若所述待识别字段中至少一信息包括数字字符串,确定所述数字字符串是否包括满足第八预设规律的字符串。
所述第八预设规律可为预设的固定电话的基本规律。其中,预设的固定电话的基本规律为:总长度在10~12位之间,前3~4位为区号。
m2:若所述数字字符串包括满足第八预设规律的字符串,确定所述待识别字段包括敏感字段。
若所述数字字符串包括满足第八预设规律的字符串,确定所述待识别字段包括敏感字段包括:
若所述数字字符串包括满足第八预设规律的字符串,确定所述数字字符串包括固定电话字段;
确定所述待识别字段包括敏感字段。
为了识别待识别字段中的生日字段,所述方法还包括:
n1:若所述待识别字段中至少一信息包括数字字符串,确定所述数字字符串是否包括满足第九预设规律的字符串。
所述第九预设规律可为预设的生日的基本规律。其中,预设的生日的基本规律为:日期格式。
n2:若所述数字字符串包括满足第九预设规律的字符串,确定所述待识别字段包括敏感字段。
若所述数字字符串包括满足第九预设规律的字符串,确定所述待识别字段包括敏感字段包括:
若所述数字字符串包括满足第九预设规律的字符串,确定所述数字字符串包括生日字段;
确定所述待识别字段包括敏感字段。
在本实施例中,为了识别待识别字段中的邮箱字段,所述方法还包括:
p1:若所述待识别字段中至少一信息包括符号字符串,确定所述至少一信息是否包括满足第十预设规律的字符串。
所述第十预设规律可为预设的邮箱的基本规律。其中,预设的邮箱的基本规律为:在除首尾处包含一个“@”;在“@”后一预设数量的字符包含一个“.com”或“.edu”等。
p2:若所述至少一信息包括满足第十预设规律的字符串,确定所述待识别字段包括敏感字段。
若所述至少一信息包括满足第十预设规律的字符串,确定所述待识别字段包括敏感字段包括:
若所述至少一信息包括满足第十预设规律的字符串,确定所述至少一信息包括邮箱字段;
确定所述待识别字段包括敏感字段。
在本实施例中,为了识别待识别字段中的IP地址字段,所述方法还包括:
q1:若所述待识别字段中至少一信息包括符号字符串,确定所述至少一信息是否包括满足第十一预设规律的字符串。
所述第十一预设规律可为预设的IP地址的基本规律。其中,预设的IP地址的基本规律为:包括3个“.”,被“.”分隔后的每段都为0~255的数字。
q2:若所述至少一信息包括满足第十一预设规律的字符串,确定所述待识别字段包括敏感字段。
若所述至少一信息包括满足第十一预设规律的字符串,确定所述待识别字段包括敏感字段包括:
若所述至少一信息包括满足第十一预设规律的字符串,确定所述至少一信息包括IP地址字段;
确定所述待识别字段包括敏感字段。
在本实施例中,为了识别待识别字段中的设备号字段,所述方法还包括:
r1:若所述待识别字段中至少一信息包括符号字符串,确定所述至少一信息是否包括满足第十二预设规律的字符串。
所述第十二预设规律可为预设的设备号的基本规律。其中,预设的设备号的基本规律为:最后一位数字前包括符号“/”,长度为15的数字,符合Luhn算法。
r2:若所述至少一信息包括满足第十二预设规律的字符串,确定所述待识别字段包括敏感字段。
若所述至少一信息包括满足第十二预设规律的字符串,确定所述待识别字段包括敏感字段包括:
若所述至少一信息包括满足第十二预设规律的字符串,确定所述至少一信息包括设备号字段;
确定所述待识别字段包括敏感字段。
在本实施例中,为了识别待识别字段中的json字段,所述方法还包括:
s1:若所述待识别字段中至少一信息包括符号字符串,确定所述至少一信息是否包括满足第十三预设规律的字符串。
所述第十三预设规律可为预设的json的基本规律。其中,预设的json的基本规律为:包含“{”、“}”、“:”、““”、及/或“””,“{”的个数与“}”的个数相同或者““”的个数与“””的个数相同。
s2:若所述至少一信息包括满足第十三预设规律的字符串,确定所述待识别字段包括敏感字段。
若所述至少一信息包括满足第十三预设规律的字符串,确定所述待识别字段包括敏感字段包括:
若所述至少一信息包括满足第十三预设规律的字符串,确定所述至少一信息包括json字段;
确定所述待识别字段包括敏感字段。
在本实施例中,为了识别待识别字段中的车牌号字段,所述方法还包括:
t1:若所述待识别字段中至少一信息包括数字字符串及汉字字符串,确定所述至少一信息是否包括满足第十四预设规律的字符串。
所述第十四预设规律可为预设的车牌号的基本规律。其中,预设的车牌号的基本规律为:长度为7或者8;第一个字符为省份;第二个字符为字母。
t2:若所述至少一信息包括满足第十四预设规律的字符串,确定所述待识别字段包括敏感字段。
若所述至少一信息包括满足第十四预设规律的字符串,确定所述待识别字段包括敏感字段包括:
若所述至少一信息包括满足第十四预设规律的字符串,确定所述至少一信息包括车牌号字段;
确定所述待识别字段包括敏感字段。
在本实施例中,为了实现多进程同时识别,提升识别速度,所述方法还包括:
将所述待识别字段分为至少一份待识别字段,将每份待识别字段作为一个子任务,同时执行对每份待识别字段的识别。
在本实施例中,为了当通过简单的预设的规律确定完所述待识别字段后,可无需根据难的预设的规律确定所述待识别字段,节省了识别时间,所述方法还包括:
根据预设的规律的优先级别由简单到难的顺序确定所述待识别字段中包括敏感字段。在本实施例中,所述预设的规律的优先级别由简单到难的顺序为:手机号、银行卡号、身份证号、生日、固定电话、设备号、邮箱、IP地址、车牌号、姓名、地址。在其他实施例中,所述预设的规律的优先级别由简单到难的顺序可根据需要而随意更改,例如为:手机号、银行卡号、身份证号、固定电话、生日、设备号、邮箱、IP地址、车牌号、姓名、地址等。
在本实施例中,为了确定所述待识别字段不包括敏感字段,所述方法还包括:
当所述待识别字段中不包括手机号字段、银行卡号字段、身份证号字段、生日字段、固定电话字段、设备号字段、邮箱字段、IP地址字段、车牌号字段、姓名字段、及地址字段时,确定所述待识别字段不包括敏感字段。
本发明实施例一通过若待识别字段中至少一信息所包括的汉字字符串中的某字符串满足预设的姓名的基本规律及/或预设的地址的基本规律,确定所述字符串是否与预设的语料库中的地址字符串模板及/或姓名字符串模板匹配,若所述字符串与语料库中的地址字符串模板及/或姓名字符串模板不匹配,确定所述字符串的哈希值,并确定预设的语料库中哈希值与所述字符串对应的哈希值匹配的目标字符串,若所述目标字符串与所述字符串的相似度超过预设值,确定所述待识别字段包括敏感字段,从而可自动从包含多个信息的字段中识别敏感字段。
以上是对本发明所提供的方法进行的详细描述。根据不同的需求,所示流程图中方块的执行顺序可以改变,某些方块可以省略,优化目标应用的方法也在上述优化方法中选择性的组合使用,或者与其他上述未提及的优化方法组合使用。下面对本发明所提供的装置进行描述。
实施例二
图2为本发明实施例二提供的敏感信息识别装置的功能模块图。在一些实施例中,所述敏感信息识别装置20运行于电子设备中。所述电子设备可以为任何一种电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)等。所述敏感信息识别装置20可以包括多个由程序代码段所组成的功能模块。所述敏感信息识别装置20中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行自动确认客服服务质量。
本实施例中,所述敏感信息识别装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块21、规律确定模块22、匹配确定模块23、哈希值确定模块24、字符串确定模块25、相似度确定模块26、及敏感字段确定模块27。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。
所述获取模块21,用于从数据库的数据库表中获取待识别字段,所述待识别字段包括至少一信息,所述信息包括数字字符串、符号字符串、及/或汉字字符串。
所述数据库可为Oracle数据库、SQL Server数据库、Mysql数据库、Sybase数据库、或者Hadoop数据库。所述数据库中存储有至少一张数据库表。所述数据库表包括至少一列,每列包括相同类型的至少一行待识别字段。所述类型可为生日、IP地址、手机号、身份证号、银行卡号、固定电话、设备号、车牌号、邮箱、姓名、地址、敏感字段组合、学历、性别、职称、身高、或者爱好等。所述敏感字段组合包括短信内容或者邮件内容等。所述敏感字段组合可为,例如张三,来自湖北省洪湖市。在本实施例中,所述获取模块21还用于:通过标点符号确定所述待识别字段中所包括的各信息,例如:若所述待识别字段为:张三,来自湖北省洪湖市,通过标点符号“,”确定所述待识别字段中包括信息“张三”及信息“来自湖北省洪湖市”。
每列还包括一字段名,所述字段名用于限定所述列的待识别字段的类型,例如字段名a用于限定所述列的每行待识别字段的类型为姓名、字段名sample用于限定所述列的每行待识别字段的类型为短信内容、字段名apple用于限定所述列的每行待识别字段的类型为爱好。不同数据库表中相同的字段名可限定不同的类型。
所述从数据库的数据库表中获取待识别字段可包括从数据库的数据库表的某列中获取至少一待识别字段。所述至少一待识别字段可为某列的所有待识别字段或者为某列中预设数量或者不定数量的待识别字段。当所述至少一待识别字段为某列中预设数量或者不定数量的待识别字段时,所述至少一待识别字段可为连续或不连续的字段。
所述规律确定模块22,用于若所述待识别字段中至少一信息包括汉字字符串,确定所述汉字字符串是否包括满足第一预设规律的字符串。
在本实施例,若所述待识别字段中至少一信息包括汉字字符串包括:
a1:确定所述待识别字段中至少一信息中的字符的ASCII码是否大于第一预设值(例如127);
a2:若所述待识别字段中至少一信息中的字符的ASCII码大于第一预设值(例如127),确定所述待识别字段中至少一信息包括汉字字符串。
所述第一预设规律可为预设的姓名的基本规律及/或预设的地址的基本规律。其中,预设的姓名的基本规律为:长度在2~4之间,前1~2个字符的拼音或拼写类似姓氏。预设的地址的基本规律为:包含拼音或拼写类似省份、城市、或者街道字符。
确定所述汉字字符串是否包括满足第一预设规律的字符串可为例如:所述汉字字符串为“慕荣影”,确定所述汉字字符串“慕荣影”是否包括满足预设的姓名的基本规律及/或预设的地址的基本规律的字符串。
所述匹配确定模块23,用于若所述汉字字符串包括满足第一预设规律的字符串,确定所述字符串是否与预设的语料库中的至少一字符串模板匹配,所述预设的语料库中包括地址字符串模板及姓名字符串模板。
所述汉字字符串包括满足第一预设规律的字符串可为例如:汉字字符串“慕荣影”包括满足预设的姓名的基本规律:长度在2~4之间,前1~2个字符的拼音或拼写类似姓氏的字符串“慕荣影”。
所述预设的语料库中还包括各字符串模板的哈希值。所述地址字符串模板可为中国的某地的地址,所述地址可为省份、城市、及/或街道名等,所述地址字符串模板可为例如,紫琅路。所述预设的语料库中所有的地址字符串模板组成中国各地的地址。所述姓名字符串模板包括姓氏及名氏。所述预设的语料库中所有的姓名字符串模板中的姓氏为中国的所有姓氏。
在本实施例中,所述装置还包括建立模块28。所述建立模块28用于建立预设的语料库。所述建立预设的语料库包括:
b1:获取中国各地的地址字符串;
b2:获取各姓名字符串,其中,所有的姓名字符串组成中国的所有姓氏;
b3:确定各地址字符串的哈希值及各姓名字符串的哈希值。例如:地址字符串“紫琅路”的哈希值为41GE5E。
b4:存储所述中国各地的地址字符串、所述姓名字符串、所述地址字符串的哈希值及所述姓名字符串的哈希值。
确定所述字符串是否与预设的语料库中的至少一字符串模板匹配包括:确定所述字符串是否与预设的语料库中的至少一字符串模板完全相同或实质相同。所述实质相同可通过预设的方法确定。所述预设的方法可为简繁体转换、或者字体转换等。
所述哈希值确定模块24,用于若所述字符串与预设的语料库中的任意一字符串模板不匹配,确定所述字符串对应的哈希值。
确定所述字符串对应的哈希值包括:根据预设的汉字-音形码关系表确定所述字符串的每一位字符的音形码的第一位(韵母)和第五位(结构),确定所述字符串的哈希值为所述字符串中各字符的音形码的第一位(韵母)和第五位(结构)形成的组合字符的依序组合。确定所述字符串的哈希值为所述字符串中各字符的音形码的第一位(韵母)和第五位(结构)形成的组合字符的依序组合包括:确定所述字符串中各字符的音形码的第一位(韵母)和第五位(结构)的组合字符,确定所述字符串的哈希值为各组合字符的依序组合。
在本实施例中,所述建立模块28还用于:建立预设的汉字-音形码关系表。所述建立预设的汉字-音形码关系表包括:获取中国各地的地址字符串;获取中国各姓名字符串;确定所述地址字符串及所述姓名字符串中所出现的目标汉字;确定容易与所述目标汉字产生混淆的混淆汉字;通过音形码转换模型将所述目标汉字及混淆汉字转换为对应的音形码;根据所述目标汉字、混淆汉字及对应的音形码建立汉字-音形码关系表。根据所述目标汉字、混淆汉字及对应的音形码建立汉字-音形码关系表包括根据所述目标汉字、所述目标汉字对应的音形码、所述混淆汉字及所述混淆汉字对应的音形码建立目标汉字-音形码关系表及混淆汉字-音形码关系表,确定所述汉字-音形码关系表包括所述目标汉字-音形码关系表及所述混淆汉字-音形码关系表。
所述字符串确定模块25,用于确定预设的语料库中哈希值与所述字符串对应的哈希值匹配的目标字符串。
所述确定预设的语料库中哈希值与所述字符串对应的哈希值匹配的目标字符串包括:确定预设的语料库中哈希值与所述字符串对应的哈希值相同的目标字符串。例如:若字符串“紫娘路”的哈希值为:41GE5E,预设的语料库中哈希值为“41GE5E”的字符串为“紫琅路”,则确定预设的语料库中哈希值与所述字符串“紫娘路”对应的哈希值“41GE5E”匹配的目标字符串为“紫琅路”。
所述相似度确定模块26,用于确定所述目标字符串与所述字符串的相似度。
确定所述目标字符串与所述字符串的相似度为确定所述目标字符串与所述字符串的音形码相似度。确定所述目标字符串与所述字符串的音形码相似度包括:
c1:确定所述目标字符串中每个汉字与所述字符串中对应的汉字的音形码相似度。
确定所述目标字符串中每个汉字与所述字符串中对应的汉字的音形码相似度包括:
d1:确定所述目标字符串中每个汉字与所述字符串中对应的汉字的音码相似度。
确定所述目标字符串中每个汉字与所述字符串中对应的汉字的音码相似度为:
其中,p为音码相似度,为所述目标字符串中的汉字的音码的第一个字符与所述字符串中对应的汉字的音码的第一个字符的相似度,为所述目标字符串中的汉字的音码的第二个字符与所述字符串中对应的汉字的音码的第二个字符的相似度,为所述目标字符串中的汉字的音码的第三个字符与所述字符串中对应的汉字的音码的第三个字符的相似度,为所述目标字符串中的汉字的音码的第四个字符与所述字符串中对应的汉字的音码的第四个字符的相似度。若两个字符相同,则两个字符的相似度为1,若两个字符不同,则两个字符的相似度为0。
d2:确定所述目标字符串中每个汉字与所述字符串中对应的汉字的形码相似度。
确定所述目标字符串中每个汉字与所述字符串中对应的汉字的形码相似度为:
其中,s为形码相似度,为所述目标字符串中的汉字的形码的第一个字符与所述字符串中对应的汉字的形码的第一个字符的相似度,为所述目标字符串中的汉字的形码的第二个字符与所述字符串中对应的汉字的形码的第二个字符的相似度,为所述目标字符串中的汉字的形码的第三个字符与所述字符串中对应的汉字的形码的第三个字符的相似度,为所述目标字符串中的汉字的形码的第四个字符与所述字符串中对应的汉字的形码的第四个字符的相似度,为所述目标字符串中的汉字的形码的第五个字符与所述字符串中对应的汉字的形码的第五个字符的相似度,为所述目标字符串中的汉字的形码的第六个字符与所述字符串中对应的汉字的形码的第六个字符的相似度。若两个字符相同,则两个字符的相似度为1,若两个字符不同,则两个字符的相似度为0。
d3:根据所述音码相似度及所述形码相似度确定所述目标字符串中每个汉字与所述字符串中对应的汉字的音形码相似度。
根据所述音码相似度及所述形码相似度确定所述目标字符串中每个汉字与所述字符串中对应的汉字的音形码相似度为:
其中,d为所述音形码相似度,p为所述音码相似度,s为形码相似度。
c2:确定所述目标字符串中所有的汉字的音形码相似度的平均值为所述目标字符串与所述字符串的相似度。
所述敏感字段确定模块27,用于若所述目标字符串与所述字符串的相似度超过预设值,确定所述待识别字段包括敏感字段。
若所述目标字符串与所述字符串的相似度超过预设值,确定所述待识别字段包括敏感字段包括:
e1:若所述目标字符串与所述字符串的相似度超过预设值,确定所述字符串为所述目标字符串;
e2:确定所述待识别字段包括地址及/或姓名字段;
e3:确定所述待识别字段包括敏感字段。
确定所述待识别字段包括敏感字段包括:
若所述待识别字段中包括地址及/或姓名字段的数量与所述待识别字段的数量的比值大于预设的数量时,确定所述待识别字段为敏感字段。
在本实施例中,为了以供管理者了解识别结果的置信度,所述装置还包括显示模块29,所述显示模块29用于:
在确定所述待识别字段为敏感字段后,显示所述待识别字段中包括地址及/或姓名字段的数量与所述待识别字段的数量的比值。
在本实施例中,为了确定所述待识别字段不包括地址及/或姓名字段,所述敏感字段确定模块27还用于:
若所述汉字字符串不包括满足第一预设规律的字符串,确定所述待识别字段不包括地址及/或姓名字段。
在本实施例中,为了识别待识别字段中的地址及/或姓名字段,所述敏感字段确定模块27还用于:
若所述字符串与预设的语料库中的至少一字符串模板匹配,确定所述待识别字段包括敏感字段。
若所述字符串与预设的语料库中的至少一字符串模板匹配,确定所述待识别字段包括敏感字段包括:
若所述字符串与预设的语料库中的至少一字符串模板匹配,确定所述待识别字段包括地址及/或姓名字段;
确定所述待识别字段包括敏感字段。
在本实施例中,为了识别待识别字段中的手机号、身份证号、银行卡号、固定电话、生日、邮箱、IP地址、设备号、json、及/或者车牌号,所述敏感字段确定模块27还用于:
f1:若所述待识别字段中至少一信息包括数字字符串,确定所述数字字符串是否包括满足第二预设规律的字符串,所述第二预设规律可为预设的手机号的基本规律、预设的身份证号的基本规律、预设的银行卡号的基本规律、预设的固定电话的基本规律、及/或者预设的生日的基本规律;
f2:若所述数字字符串包括满足第二预设规律的字符串,确定所述待识别字段包括敏感字段;
f3:若所述待识别字段中至少一信息包括符号字符串,确定所述至少一信息是否包括满足第三预设规律的字符串,所述第三预设规律可为预设的邮箱的基本规律、预设的IP地址的基本规律、预设的设备号的基本规律、及/或者预设的json的基本规律;
f4:若所述至少一信息包括满足第三预设规律的字符串,确定所述待识别字段包括敏感字段;
f5:若所述待识别字段中至少一信息包括数字字符串及汉字字符串,确定所述至少一信息是否包括满足第四预设规律的字符串,所述第四预设规律可为预设的车牌号的基本规律;
f6:若所述至少一信息包括满足第四预设规律的字符串,确定所述待识别字段包括敏感字段。
具体地:为了识别待识别字段中的手机号字段,所述敏感字段确定模块27还用于:
g1:若所述待识别字段中至少一信息包括数字字符串,确定所述数字字符串是否包括满足第五预设规律的字符串。
所述第五预设规律可为预设的手机号的基本规律。其中,预设的手机号的基本规律为:长度为11的数字,前三位数字符合联通、移动或者电信的规格。
g2:若所述数字字符串包括满足第五预设规律的字符串,确定所述待识别字段包括敏感字段。
若所述数字字符串包括满足第五预设规律的字符串,确定所述待识别字段包括敏感字段包括:
若所述数字字符串包括满足第五预设规律的字符串,确定所述数字字符串包括手机号字段;
确定所述待识别字段包括敏感字段。
为了识别待识别字段中的身份证号字段,所述敏感字段确定模块27还用于:
h1:若所述待识别字段中至少一信息包括数字字符串,确定所述数字字符串是否包括满足第六预设规律的字符串。
所述第六预设规律可为预设的身份证号的基本规律。其中,预设的身份证号的基本规律为:长度为15或18,第7~12或7~14为日期格式。
h2:若所述数字字符串包括满足第六预设规律的字符串,确定所述待识别字段包括敏感字段。
若所述数字字符串包括满足第六预设规律的字符串,确定所述待识别字段包括敏感字段包括:
若所述数字字符串包括满足第六预设规律的字符串,确定所述数字字符串包括身份证号字段;
确定所述待识别字段包括敏感字段。
为了识别待识别字段中的银行卡号字段,所述敏感字段确定模块27还用于:
k1:若所述待识别字段中至少一信息包括数字字符串,确定所述数字字符串是否包括满足第七预设规律的字符串。
所述第七预设规律可为预设的银行卡号的基本规律。其中,预设的银行卡号的基本规律为:长度在13-19之间的数字,符合Luhn算法。
k2:若所述数字字符串包括满足第七预设规律的字符串,确定所述待识别字段包括敏感字段。
若所述数字字符串包括满足第七预设规律的字符串,确定所述待识别字段包括敏感字段包括:
若所述数字字符串包括满足第七预设规律的字符串,确定所述数字字符串包括银行卡号字段;
确定所述待识别字段包括敏感字段。
为了识别待识别字段中的固定电话字段,所述敏感字段确定模块27还用于:
m1:若所述待识别字段中至少一信息包括数字字符串,确定所述数字字符串是否包括满足第八预设规律的字符串。
所述第八预设规律可为预设的固定电话的基本规律。其中,预设的固定电话的基本规律为:总长度在10~12位之间,前3~4位为区号。
m2:若所述数字字符串包括满足第八预设规律的字符串,确定所述待识别字段包括敏感字段。
若所述数字字符串包括满足第八预设规律的字符串,确定所述待识别字段包括敏感字段包括:
若所述数字字符串包括满足第八预设规律的字符串,确定所述数字字符串包括固定电话字段;
确定所述待识别字段包括敏感字段。
为了识别待识别字段中的生日字段,所述敏感字段确定模块27还用于:
n1:若所述待识别字段中至少一信息包括数字字符串,确定所述数字字符串是否包括满足第九预设规律的字符串。
所述第九预设规律可为预设的生日的基本规律。其中,预设的生日的基本规律为:日期格式。
n2:若所述数字字符串包括满足第九预设规律的字符串,确定所述待识别字段包括敏感字段。
若所述数字字符串包括满足第九预设规律的字符串,确定所述待识别字段包括敏感字段包括:
若所述数字字符串包括满足第九预设规律的字符串,确定所述数字字符串包括生日字段;
确定所述待识别字段包括敏感字段。
在本实施例中,为了识别待识别字段中的邮箱字段,所述敏感字段确定模块27还用于:
p1:若所述待识别字段中至少一信息包括符号字符串,确定所述至少一信息是否包括满足第十预设规律的字符串。
所述第十预设规律可为预设的邮箱的基本规律。其中,预设的邮箱的基本规律为:在除首尾处包含一个“@”;在“@”后一预设数量的字符包含一个“.com”或“.edu”等。
p2:若所述至少一信息包括满足第十预设规律的字符串,确定所述待识别字段包括敏感字段。
若所述至少一信息包括满足第十预设规律的字符串,确定所述待识别字段包括敏感字段包括:
若所述至少一信息包括满足第十预设规律的字符串,确定所述至少一信息包括邮箱字段;
确定所述待识别字段包括敏感字段。
在本实施例中,为了识别待识别字段中的IP地址字段,所述敏感字段确定模块27还用于:
q1:若所述待识别字段中至少一信息包括符号字符串,确定所述至少一信息是否包括满足第十一预设规律的字符串。
所述第十一预设规律可为预设的IP地址的基本规律。其中,预设的IP地址的基本规律为:包括3个“.”,被“.”分隔后的每段都为0~255的数字。
q2:若所述至少一信息包括满足第十一预设规律的字符串,确定所述待识别字段包括敏感字段。
若所述至少一信息包括满足第十一预设规律的字符串,确定所述待识别字段包括敏感字段包括:
若所述至少一信息包括满足第十一预设规律的字符串,确定所述至少一信息包括IP地址字段;
确定所述待识别字段包括敏感字段。
在本实施例中,为了识别待识别字段中的设备号字段,所述敏感字段确定模块27还用于:
r1:若所述待识别字段中至少一信息包括符号字符串,确定所述至少一信息是否包括满足第十二预设规律的字符串。
所述第十二预设规律可为预设的设备号的基本规律。其中,预设的设备号的基本规律为:最后一位数字前包括符号“/”,长度为15的数字,符合Luhn算法。
r2:若所述至少一信息包括满足第十二预设规律的字符串,确定所述待识别字段包括敏感字段。
若所述至少一信息包括满足第十二预设规律的字符串,确定所述待识别字段包括敏感字段包括:
若所述至少一信息包括满足第十二预设规律的字符串,确定所述至少一信息包括设备号字段;
确定所述待识别字段包括敏感字段。
在本实施例中,为了识别待识别字段中的json字段,所述敏感字段确定模块27还用于:
s1:若所述待识别字段中至少一信息包括符号字符串,确定所述至少一信息是否包括满足第十三预设规律的字符串。
所述第十三预设规律可为预设的json的基本规律。其中,预设的json的基本规律为:包含“{”、“}”、“:”、““”、及/或“””,“{”的个数与“}”的个数相同或者““”的个数与“””的个数相同。
s2:若所述至少一信息包括满足第十三预设规律的字符串,确定所述待识别字段包括敏感字段。
若所述至少一信息包括满足第十三预设规律的字符串,确定所述待识别字段包括敏感字段包括:
若所述至少一信息包括满足第十三预设规律的字符串,确定所述至少一信息包括json字段;
确定所述待识别字段包括敏感字段。
在本实施例中,为了识别待识别字段中的车牌号字段,所述敏感字段确定模块27还用于:
t1:若所述待识别字段中至少一信息包括数字字符串及汉字字符串,确定所述至少一信息是否包括满足第十四预设规律的字符串。
所述第十四预设规律可为预设的车牌号的基本规律。其中,预设的车牌号的基本规律为:长度为7或者8;第一个字符为省份;第二个字符为字母。
t2:若所述至少一信息包括满足第十四预设规律的字符串,确定所述待识别字段包括敏感字段。
若所述至少一信息包括满足第十四预设规律的字符串,确定所述待识别字段包括敏感字段包括:
若所述至少一信息包括满足第十四预设规律的字符串,确定所述至少一信息包括车牌号字段;
确定所述待识别字段包括敏感字段。
在本实施例中,为了实现多进程同时识别,提升识别速度,所述敏感字段确定模块27还用于:
将所述待识别字段分为至少一份待识别字段,将每份待识别字段作为一个子任务,同时执行对每份待识别字段的识别。
在本实施例中,为了当通过简单的预设的规律确定完所述待识别字段后,可无需根据难的预设的规律确定所述待识别字段,节省了识别时间,所述敏感字段确定模块27还用于:
根据预设的规律的优先级别由简单到难的顺序确定所述待识别字段中包括敏感字段。在本实施例中,所述预设的规律的优先级别由简单到难的顺序为:手机号、银行卡号、身份证号、生日、固定电话、设备号、邮箱、IP地址、车牌号、姓名、地址。在其他实施例中,所述预设的规律的优先级别由简单到难的顺序可根据需要而随意更改,例如为:手机号、银行卡号、身份证号、固定电话、生日、设备号、邮箱、IP地址、车牌号、姓名、地址等。
在本实施例中,为了确定所述待识别字段不包括敏感字段,所述敏感字段确定模块27还用于:
当所述待识别字段中不包括手机号字段、银行卡号字段、身份证号字段、生日字段、固定电话字段、设备号字段、邮箱字段、IP地址字段、车牌号字段、姓名字段、及地址字段时,确定所述待识别字段不包括敏感字段。
本发明实施例二通过若待识别字段中至少一信息所包括的汉字字符串中的某字符串满足预设的姓名的基本规律及/或预设的地址的基本规律,确定所述字符串是否与预设的语料库中的地址字符串模板及/或姓名字符串模板匹配,若所述字符串与语料库中的地址字符串模板及/或姓名字符串模板不匹配,确定所述字符串的哈希值,并确定预设的语料库中哈希值与所述字符串对应的哈希值匹配的目标字符串,若所述目标字符串与所述字符串的相似度超过预设值,确定所述待识别字段包括敏感字段,从而可自动从包含多个信息的字段中识别敏感字段。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括至少一指令用以使得一台电子设备或处理器(processor)执行本发明各个实施例所述方法的部分。
实施例三
图3为本发明实施例三提供的电子设备的示意图。
所述电子设备3包括:存储器31、至少一个处理器32、及存储在所述存储器31中并可在所述至少一个处理器32上运行的计算机程序33。所述至少一个处理器32执行所述计算机程序33时实现上述方法实施例中的步骤。或者,所述至少一个处理器32执行所述计算机程序33时实现上述装置实施例中的各模块的功能。
示例性的,所述计算机程序33可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器31中,并由所述至少一个处理器32执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序33在所述电子设备3中的执行过程。例如,所述计算机程序33可以被分割成图2所示的模块,各模块具体功能参见实施例二。
所述电子设备3可以为任何一种电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)等。本领域技术人员可以理解,所述示意图3仅是电子设备3的示例,并不构成对电子设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备3还可以包括输入输出设备、网络接入设备、总线等。
所述至少一个处理器32可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述处理器32可以是微处理器或者该处理器32也可以是任何常规的处理器等,所述处理器32是所述电子设备3的控制中心,利用各种接口和线路连接整个电子设备3的各个部分。
所述存储器31可用于存储所述计算机程序33和/或模块/单元,所述处理器32通过运行或执行存储在所述存储器31内的计算机程序和/或模块/单元,以及调用存储在存储器31内的数据,实现所述电子设备3的各种功能。所述存储器31可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备3的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器31可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述电子设备3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
在本发明所提供的几个实施例中,应该理解到,所揭露的电子设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅是示意性的,例如,所述单元的划分,仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本发明各个实施例中的各功能单元可以集成在相同处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神范围。

Claims (10)

1.一种敏感信息识别方法,其特征在于,所述方法包括:
从数据库的数据库表中获取待识别字段,所述待识别字段包括至少一信息,所述信息包括数字字符串、符号字符串、及/或汉字字符串;
若所述待识别字段中至少一信息包括汉字字符串,确定所述汉字字符串是否包括满足第一预设规律的字符串;
若所述汉字字符串包括满足第一预设规律的字符串,确定所述字符串是否与预设的语料库中的至少一字符串模板匹配,所述预设的语料库中包括地址字符串模板及姓名字符串模板;
若所述字符串与预设的语料库中的任意一字符串模板不匹配,确定所述字符串对应的哈希值;
确定预设的语料库中哈希值与所述字符串对应的哈希值匹配的目标字符串;
确定所述目标字符串与所述字符串的相似度;
若所述目标字符串与所述字符串的相似度超过预设值,确定所述待识别字段包括敏感字段。
2.如权利要求1所述的敏感信息识别方法,其特征在于,所述确定所述目标字符串与所述字符串的相似度包括:
确定所述目标字符串与所述字符串的音形码相似度。
3.如权利要求2所述的敏感信息识别方法,其特征在于,所述确定所述目标字符串与所述字符串的音形码相似度包括:
确定所述目标字符串中每个汉字与所述字符串中对应的汉字的音形码相似度;
确定所述目标字符串中所有的汉字的音形码相似度的平均值为所述目标字符串与所述字符串的相似度。
4.如权利要求3所述的敏感信息识别方法,其特征在于,所述确定所述目标字符串中每个汉字与所述字符串中对应的汉字的音形码相似度包括:
确定所述目标字符串中每个汉字与所述字符串中对应的汉字的音码相似度;
确定所述目标字符串中每个汉字与所述字符串中对应的汉字的形码相似度;
根据所述音码相似度及所述形码相似度确定所述目标字符串中每个汉字与所述字符串中对应的汉字的音形码相似度。
5.如权利要求1所述的敏感信息识别方法,其特征在于:
所述数据库表包括至少一列,每列包括相同类型的至少一行待识别字段;
所述从数据库的数据库表中获取待识别字段包括:
从数据库的数据库表的某列中获取至少一待识别字段;
所述确定所述待识别字段包括敏感字段包括:
若所述待识别字段中包括地址及/或姓名字段的数量与所述待识别字段的数量的比值大于预设的数量时,确定所述待识别字段为敏感字段。
6.如权利要求1所述的敏感信息识别方法,其特征在于,所述确定所述字符串对应的哈希值包括:
根据预设的汉字-音形码关系表确定所述字符串的每一位字符的音形码的第一位和第五位;
确定所述字符串的哈希值为所述字符串中各字符的音形码的第一位和第五位形成的组合字符的依序组合;
所述方法还包括:
获取中国各地的地址字符串;
获取中国各姓名字符串;
确定所述地址字符串及所述姓名字符串中所出现的目标汉字;
确定容易与所述目标汉字产生混淆的混淆汉字;
通过音形码转换模型将所述目标汉字及混淆汉字转换为对应的音形码;
根据所述目标汉字、混淆汉字及对应的音形码建立汉字-音形码关系表。
7.如权利要求1所述的敏感信息识别方法,其特征在于,所述方法还包括:
若所述待识别字段中至少一信息包括数字字符串,确定所述数字字符串是否包括满足第二预设规律的字符串,所述第二预设规律为预设的手机号的基本规律、预设的身份证号的基本规律、预设的银行卡号的基本规律、预设的固定电话的基本规律、及/或者预设的生日的基本规律;
若所述数字字符串包括满足第二预设规律的字符串,确定所述待识别字段包括敏感字段;
若所述待识别字段中至少一信息包括符号字符串,确定所述至少一信息是否包括满足第三预设规律的字符串,所述第三预设规律为预设的邮箱的基本规律、预设的IP地址的基本规律、预设的设备号的基本规律、及/或者预设的json的基本规律;
若所述至少一信息包括满足第三预设规律的字符串,确定所述待识别字段包括敏感字段;
若所述待识别字段中至少一信息包括数字字符串及汉字字符串,确定所述至少一信息是否包括满足第四预设规律的字符串,所述第四预设规律为预设的车牌号的基本规律;
若所述至少一信息包括满足第四预设规律的字符串,确定所述待识别字段包括敏感字段。
8.一种敏感信息识别装置,其特征在于,所述装置包括:
获取模块,用于从数据库的数据库表中获取待识别字段,所述待识别字段包括至少一信息,所述信息包括数字字符串、符号字符串、及/或汉字字符串;
规律确定模块,用于若所述待识别字段中至少一信息包括汉字字符串,确定所述汉字字符串是否包括满足第一预设规律的字符串;
匹配确定模块,用于若所述汉字字符串包括满足第一预设规律的字符串,确定所述字符串是否与预设的语料库中的至少一字符串模板匹配,所述预设的语料库中包括地址字符串模板及姓名字符串模板;
哈希值确定模块,用于若所述字符串与预设的语料库中的任意一字符串模板不匹配,确定所述字符串对应的哈希值;
字符串确定模块,用于确定预设的语料库中哈希值与所述字符串对应的哈希值匹配的目标字符串;
相似度确定模块,用于确定所述目标字符串与所述字符串的相似度;
敏感字段确定模块,用于若所述目标字符串与所述字符串的相似度超过预设值,确定所述待识别字段包括敏感字段。
9.一种电子设备,其特征在于,所述电子设备包括处理器及存储器,所述处理器用于执行所述存储器中存储的至少一个指令时实现如权利要求1至7中任意一项所述的敏感信息识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行以实现如权利要求1至7中任意一项所述的敏感信息识别方法。
CN201910310090.7A 2019-04-17 2019-04-17 敏感信息识别方法、装置、电子设备及存储介质 Pending CN110209892A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910310090.7A CN110209892A (zh) 2019-04-17 2019-04-17 敏感信息识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910310090.7A CN110209892A (zh) 2019-04-17 2019-04-17 敏感信息识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN110209892A true CN110209892A (zh) 2019-09-06

Family

ID=67785368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910310090.7A Pending CN110209892A (zh) 2019-04-17 2019-04-17 敏感信息识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110209892A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110727955A (zh) * 2019-09-24 2020-01-24 中企链信科技有限公司 信息识别方法及装置
CN110929749A (zh) * 2019-10-15 2020-03-27 平安科技(深圳)有限公司 文本识别方法、装置、介质及电子设备
CN111079185A (zh) * 2019-12-20 2020-04-28 南京医康科技有限公司 数据库信息处理的方法、装置、存储介质及电子设备
CN111310205A (zh) * 2020-02-11 2020-06-19 平安科技(深圳)有限公司 敏感信息的检测方法、装置、计算机设备和存储介质
CN111563139A (zh) * 2020-07-15 2020-08-21 平安国际智慧城市科技股份有限公司 Ocr识别发票药品名的校验方法、装置及计算机设备
CN111597822A (zh) * 2020-05-19 2020-08-28 北京奇艺世纪科技有限公司 一种对象名称识别方法及装置
CN111832070A (zh) * 2020-06-12 2020-10-27 北京百度网讯科技有限公司 数据的掩码方法、装置、电子设备和存储介质
CN113420549A (zh) * 2021-07-02 2021-09-21 珠海金山网络游戏科技有限公司 异常字符串识别方法及装置
CN113472686A (zh) * 2021-07-06 2021-10-01 深圳乐信软件技术有限公司 信息识别方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007111609A1 (en) * 2006-03-27 2007-10-04 Teamon Systems, Inc. System and method for rendering presentation pages based on locality
CN102236664A (zh) * 2010-04-28 2011-11-09 百度在线网络技术(北京)有限公司 基于语义归一化的检索系统、检索方法以及信息处理方法
WO2013178002A1 (zh) * 2012-05-29 2013-12-05 中国移动通信集团公司 一种语音识别匹配的方法和设备,以及计算机程序和存储介质
CN108629046A (zh) * 2018-05-14 2018-10-09 平安科技(深圳)有限公司 一种字段匹配方法及终端设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007111609A1 (en) * 2006-03-27 2007-10-04 Teamon Systems, Inc. System and method for rendering presentation pages based on locality
CN102236664A (zh) * 2010-04-28 2011-11-09 百度在线网络技术(北京)有限公司 基于语义归一化的检索系统、检索方法以及信息处理方法
WO2013178002A1 (zh) * 2012-05-29 2013-12-05 中国移动通信集团公司 一种语音识别匹配的方法和设备,以及计算机程序和存储介质
CN108629046A (zh) * 2018-05-14 2018-10-09 平安科技(深圳)有限公司 一种字段匹配方法及终端设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李永平;: "无存贮音码汉字字符串的音码反查实现技术", 中文信息学报, no. 01 *
马建敏;: "嵌入式多语言模板翻译引擎的设计与实现", 内蒙古科技与经济, no. 19 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110727955A (zh) * 2019-09-24 2020-01-24 中企链信科技有限公司 信息识别方法及装置
CN110929749B (zh) * 2019-10-15 2022-04-29 平安科技(深圳)有限公司 文本识别方法、装置、介质及电子设备
CN110929749A (zh) * 2019-10-15 2020-03-27 平安科技(深圳)有限公司 文本识别方法、装置、介质及电子设备
CN111079185A (zh) * 2019-12-20 2020-04-28 南京医康科技有限公司 数据库信息处理的方法、装置、存储介质及电子设备
CN111310205A (zh) * 2020-02-11 2020-06-19 平安科技(深圳)有限公司 敏感信息的检测方法、装置、计算机设备和存储介质
CN111310205B (zh) * 2020-02-11 2024-05-10 平安科技(深圳)有限公司 敏感信息的检测方法、装置、计算机设备和存储介质
CN111597822A (zh) * 2020-05-19 2020-08-28 北京奇艺世纪科技有限公司 一种对象名称识别方法及装置
CN111597822B (zh) * 2020-05-19 2024-03-08 北京奇艺世纪科技有限公司 一种对象名称识别方法及装置
CN111832070A (zh) * 2020-06-12 2020-10-27 北京百度网讯科技有限公司 数据的掩码方法、装置、电子设备和存储介质
CN111832070B (zh) * 2020-06-12 2024-02-27 北京百度网讯科技有限公司 数据的掩码方法、装置、电子设备和存储介质
CN111563139A (zh) * 2020-07-15 2020-08-21 平安国际智慧城市科技股份有限公司 Ocr识别发票药品名的校验方法、装置及计算机设备
CN113420549A (zh) * 2021-07-02 2021-09-21 珠海金山网络游戏科技有限公司 异常字符串识别方法及装置
CN113472686A (zh) * 2021-07-06 2021-10-01 深圳乐信软件技术有限公司 信息识别方法、装置、设备及存储介质
CN113472686B (zh) * 2021-07-06 2024-03-08 深圳乐信软件技术有限公司 信息识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110209892A (zh) 敏感信息识别方法、装置、电子设备及存储介质
CN110929125B (zh) 搜索召回方法、装置、设备及其存储介质
CN111046667B (zh) 一种语句识别方法、语句识别装置及智能设备
CN112579733B (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
CN110619115B (zh) 一种模板创建方法、装置、电子设备及存储介质
CN112783825B (zh) 数据归档方法、装置、计算机装置及存储介质
CN111931491B (zh) 领域词典构建方法及装置
CN114387061A (zh) 产品推送方法、装置、电子设备及可读存储介质
CN111046653B (zh) 一种语句识别方法、语句识别装置及智能设备
CN112417128B (zh) 话术推荐方法、装置、计算机设备及存储介质
CN112989800A (zh) 基于Bert的篇章的多意图识别方法、设备及可读存储介质
CN113205814A (zh) 语音数据标注方法、装置、电子设备及存储介质
CN111209396A (zh) 实体识别模型的训练方法及实体识别方法、相关装置
CN112951233A (zh) 语音问答方法、装置、电子设备及可读存储介质
CN113064994A (zh) 会议质量评估方法、装置、设备及存储介质
CN112559687A (zh) 问题识别及查询方法、装置、电子设备及存储介质
CN111555960A (zh) 信息生成的方法
CN113902404A (zh) 基于人工智能的员工晋升分析方法、装置、设备及介质
CN111949793A (zh) 用户意图识别方法、装置及终端设备
CN114595760A (zh) 数据分类方法及装置
CN110472006B (zh) 捐助对象搜索方法、装置、电子设备及存储介质
CN115221274A (zh) 文本情感分类方法、装置、电子设备及存储介质
CN113516984A (zh) 一种手语交互方法、系统、设备及存储介质
CN113704405B (zh) 基于录音内容的质检评分方法、装置、设备及存储介质
CN111680513B (zh) 特征信息的识别方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20240621