CN110489997A - 一种基于模式匹配算法的敏感信息脱敏方法 - Google Patents

一种基于模式匹配算法的敏感信息脱敏方法 Download PDF

Info

Publication number
CN110489997A
CN110489997A CN201910757737.0A CN201910757737A CN110489997A CN 110489997 A CN110489997 A CN 110489997A CN 201910757737 A CN201910757737 A CN 201910757737A CN 110489997 A CN110489997 A CN 110489997A
Authority
CN
China
Prior art keywords
string
character
text string
text
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910757737.0A
Other languages
English (en)
Inventor
唐舸轩
石波
乔序
赵磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Computer Technology and Applications
Original Assignee
Beijing Institute of Computer Technology and Applications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Computer Technology and Applications filed Critical Beijing Institute of Computer Technology and Applications
Priority to CN201910757737.0A priority Critical patent/CN110489997A/zh
Publication of CN110489997A publication Critical patent/CN110489997A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于模式匹配算法的敏感信息脱敏方法,属于数据脱敏技术领域。本发明提出了一种基于模式匹配算法的敏感信息脱敏方法,使用改进后的Sunday算法,对原始文本字符串的敏感信息进行精准匹配与定位,通过记录所有敏感字符串的位置,并通过数据脱敏方法中的替代、混洗等技术,对敏感信息进行脱敏处理。本发明实现了将文本串中敏感的字符进行高效、精准脱敏,同时保证了数据原始价值。

Description

一种基于模式匹配算法的敏感信息脱敏方法
技术领域
本发明属于数据脱敏技术领域,具体涉及一种基于模式匹配算法的敏感信息脱敏方法。
背景技术
敏感数据一般是指不宜公开的含有敏感属性的数据,敏感数据的内容一般能够确定某个体的相关情报信息,比如个人身份证号码、个人手机号码、家庭住址、家庭成员关系等等。数据的安全是信息安全的重要一环,在做模型测试、实验等过程中,经常需要使用一些敏感的数据来训练。为了保护个体的隐私,需要对数据进行脱敏处理。
数据脱敏也叫做数据漂白,是指针对某些敏感信息通过定义的脱敏规则,进行数据的变形和隐藏,从而能够转化为全新的虚构的数据,让窃取数据的人不能获得这些数据的真正含义,从而实现对个体敏感信息的保护。一般来说,数据经过脱敏处理后需要满足如下两个条件:
(1)数据挖掘人员不能访问原始的、真实的数据,即使挖掘人员获得了失真数据,通过分析、重构也无法得到原始的、真实的数据内容。
(2)数据虽然是失真的,但是发布的数据依旧能够保持其性质不发生变化,即失真数据挖掘的知识与基于原始数据挖掘得出的知识是相同或者类似的。对制定的敏感信息进行脱敏,就需要对原始数据的信息进行匹配,对需要脱敏的数据进行脱敏处理,因此在数据脱敏之前,经常采用模式匹配算法,对需要脱敏的字符串进行定位。
模式匹配在网络入侵检测、生物序列数据库比对、信息检索、生物计量学等领域得到了比较广泛的应用。模式匹配按同时匹配模式串的个数,分为单模式匹配和多模式匹配,其中KMT、BM为经典的单模式匹配,AC、WM算法为经典多模式匹配。每种匹配算法都有其最优、最坏匹配复杂度,针对不同模式串的类型,算法各有优缺点,分析如下。
(一)Sunday算法
Sunday算法是对BM算法的一种改进,Sunday算法采用BM算法中坏字符的启发规则,和BM算法相比效率有了较大的提升。例如在文本串T中查找模式串P。
(二)数据脱敏方法
数据脱敏技术包括很多方法,常用的技术是采用替代、混洗、数值变换、加密、遮挡、空值插入/删除等数据脱敏方法,力求在度量脱敏后数据的各重要指标之间取得平衡。这包括统计特征和真实度、计算资源开销、保持原有数据感观、脱敏结果是否可能被反向推出原始数据等。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何将文本数据中敏感的字符进行高效、精准脱敏,同时保证数据原始价值。
(二)技术方案
为了解决上述技术问题,本发明提供了一种基于模式匹配算法的敏感信息脱敏方法,包括以下步骤:
步骤1:定义待脱敏的文本数据,提取文本数据中的文本串T,后续对文本串T进行敏感信息的脱敏;
步骤2:根据需求确定需要脱敏的敏感信息为模式串P,作为对文本串T进行模式匹配的对象;
步骤3:使用Sunday算法对待脱敏的文本数据进行模式匹配,记录敏感数据位置;
步骤4:构造出敏感数据位置记录表;
步骤5:使用脱敏方法,对待脱敏的文本数据中的所有敏感数据进行脱敏处理。
优选地,所述待脱敏的文本数据为PDF文档。
优选地,设所述文本串T长度为n,则有:
T=T0T1T2T3T4T5…Tn-1
其中,Ti为文本串T中一个特定的字符。
优选地,步骤2中,根据用户需求确定需要进行脱敏的敏感信息,定义模式串P的长度为m,m<n,则有:
P=P0P1P2P3P4P5…Pm-1
在文本串T中匹配给定的模式串P,若模式串P出现在了文本串T中,且:
TiTi+1Ti+2Ti+3Ti+4…Ti+m-1=P0P1P2P3P4P5…Pm-1
则认为匹配成功,此时P0在文本串T中的位置为i,将i作为敏感数据位置的坐标。
优选地,步骤3包括如下步骤:
步骤3.1:按照左对齐原则将文本串T和模式串P对齐;
步骤3.2:将文本串T和模式串P从右向左进行比较,此时从最右边的字符开始比较,若Pm-1与T中跟其位置对齐的字符相同,则执行步骤3.4,否则执行步骤3.3;
步骤3.3:若T中正在匹配的字符为坏字符,则执行步骤3.3.1,否则执行步骤3.3.2;
步骤3.3.1:此时字符匹配不成功是因为坏字符引起的,并且文本串T的当前字符右边的字符仍然不能和模式串P的右边第一个字匹配时,模式窗口则需要向右移动m+1的长度,并且返回步骤3.2;如果文本串T的当前字符右边的字符和模式串P右边第一个字匹配时,模式窗口则需要向右移动m的长度,并且返回步骤3.2;
步骤3.3.2:此时字符匹配不成功不是因为坏字符引起的,则在模式串P中由右向左查找第一次出现T中正在匹配的字符的地方与文本串T对齐,返回步骤3.2继续下一轮匹配;
步骤3.4:此时已经在文本串T中找到与模式串P最右侧的第一个字符匹配的字符,则P和T均继续向左取下一个字符继续匹配,当发现字符不匹配时,返回步骤3.3判断T中正在匹配的字符是否为坏字符,否则P和T均继续向左取下一个字符继续匹配,直至P0匹配完毕且均未发现不匹配的情况,此时执行步骤3.5;
步骤3.5:返回文本串T中与P0对应的位置作为敏感数据位置记录表的坐标i,判断文本串T是否已经检索完毕,检索完毕则执行步骤4;否则取待脱敏的文本数据中剩下未检索的文本串T’,返回至步骤3.1中将文本串T替换为文本串T’,并将模式串P与文本串T’重新进行匹配。
优选地,步骤4中构造出敏感数据位置记录表,将每次执行步骤3.5时返回的位置坐标依次插入到位置记录表中。
优选地,步骤5中,使用替代、混洗这些脱敏方法,对待脱敏的文本数据中的所有敏感数据进行脱敏处理。
优选地,步骤5中,采用替代技术时,用随机的伪装字符串替换文本串T中定位的敏感数据,使得文本串中的敏感数据不可恢复。
优选地,步骤5中,采用的替换方式是常数替代、查表替代、参数化替代等这些方法。
优选地,步骤5中,采用混洗技术,通过随机操作打乱原有的排列顺序,将文本串中的敏感数据进行随机互换,打破这些数据与其他数据的关联关系。
(三)有益效果
本发明提出了一种基于模式匹配算法的敏感信息脱敏方法,使用改进后的Sunday算法,对原始文本字符串的敏感信息进行精准匹配与定位,通过记录所有敏感字符串的位置,并通过数据脱敏方法中的替代、混洗等技术,对敏感信息进行脱敏处理。本发明实现了将文本串中敏感的字符进行高效、精准脱敏,同时保证了数据原始价值。
附图说明
图1是本发明的方法整体流程图;
图2至图5是本发明的方法中进行模式匹配时文本串与模式串的几种匹配位置示例。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
如图1所示,本发明提供的一种基于模式匹配算法的敏感信息脱敏,包括以下步骤:
步骤1:定义待脱敏的文本数据,提取文本数据中的文本串T,后续对文本串T进行敏感信息的脱敏;
以PDF文档为例,需要从其对象、文件结构、文档结构、内容流和编码等方面对其文件格式进行分析、理解。分析待脱敏文件的层次化结构,找到文档目录字典对象,根据引用的对象获得其他对象的内容,进而找到文本的整个内容。在文档中提取出整个内容,从提取的字符集中,构建文本串T,长度为n,则有:
T=T0T1T2T3T4T5…Tn-1
其中,Ti为文本串T中某个特定的字符。
步骤2:根据需求确定需要脱敏的敏感信息为模式串P,作为对文本串T进行模式匹配的对象;
根据用户需求确定需要进行脱敏的敏感信息,敏感信息一般为文本串T中的子串,定义模式串P的长度为m,m<n,则有:
P=P0P1P2P3P4P5…Pm-1
明确敏感信息字符串的目的在于,在文本串T中匹配给定的模式串P,若模式串P出现在了文本串T中,且:
TiTi+1Ti+2Ti+3Ti+4…Ti+m-1=P0P1P2P3P4P5…Pm-1
则认为匹配成功,此时P0在文本串T中的位置为i,将i作为敏感数据位置的坐标;
步骤3:使用改进后的Sunday算法对待脱敏的文本数据进行模式匹配,记录敏感数据位置;
步骤3.1:将文本串T的左边和模式串P的左边对齐,为了方便理解,本实施例中假设文本串T为“abcoefcacdxdbcd”,需要查找的模式串P为“dbcd”,按照左对齐原则将文本串T和模式串P对齐,如图2所示。
步骤3.2:将文本串T和模式串P从右向左进行比较,此时从最右边的字符开始比较,若Pm-1与T中跟其位置对齐的字符相同(本实施例中第一次执行本步骤时比较对象为T3、P3),则执行步骤3.4,否则执行步骤3.3;
步骤3.3:如图3所示,本实施例中第一次执行本步骤时文本串T3=‘o’,模式串P3=‘d’,且T3≠P3,则分为两种情况,若T中正在匹配的字符(本实施例中第一次执行本步骤时为T3)为坏字符,则执行步骤3.3.1,否则执行步骤3.3.2,本步骤中对Sunday算法进行了调整,以使得该Sunday算法能够适用于本发明的特定应用场景;
步骤3.3.1:此时字符匹配不成功是因为坏字符引起的,并且文本串T的当前字符右边的字符仍然不能和模式串P的右边第一个字匹配时,模式窗口则需要向右移动m+1的长度(本实施例中为图4的情况),并且返回步骤3.2;如果文本串T的当前字符右边的字符和模式串P右边第一个字匹配时,模式窗口则需要向右移动m的长度,并且返回步骤3.2;
步骤3.3.2:此时字符匹配不成功不是因为坏字符引起的,则在模式串P中由右向左查找第一次出现T中正在匹配的字符的地方与文本串T对齐,返回步骤3.2继续下一轮匹配;如图5所示的情况是经过由图4的情况(该图4所示情况下,T中正在匹配的字符为c)再返回步骤3.2之后再跳转至本步骤执行对齐动作之后得到的一个示例。
步骤3.4:此时已经在文本串T中找到与模式串P最右侧的第一个字符匹配的字符,则P和T均继续向左取下一个字符继续匹配,当发现字符不匹配时,返回步骤3.3判断T中正在匹配的字符是否为坏字符,否则P和T均继续向左取下一个字符继续匹配,直至P0匹配完毕且均未发现不匹配的情况,此时执行步骤3.5;
步骤3.5:返回文本串T中与P0对应的位置作为敏感数据位置记录表的坐标i,判断文本串T是否已经检索完毕,检索完毕则执行步骤4;否则取待脱敏的文本数据中剩下未检索的文本串T’,返回至步骤3.1中将文本串T替换为文本串T’,并将模式串P与文本串T’重新进行匹配;
步骤4:构造出敏感数据位置记录表,将每次执行步骤3.5时返回的位置坐标依次插入到位置记录表中,例如集合S{敏感数据1,位置1,...},能够快速定位脱敏数据位置;
步骤5:使用替代、混洗等脱敏方法,对待脱敏的文本数据中的所有敏感数据进行脱敏处理。
本步骤采用替代技术,用随机的伪装字符串替换文本串T中定位的敏感数据,使得文本串中的敏感数据不可恢复,从而确保敏感数据的安全,可以采用的替换方式是常数替代、查表替代、参数化替代等方法,一般来说,替换所用的数据集合会包括姓氏、名字、信用卡号、电话号码、邮件地址、城市、乡镇和街道地址、邮政编码、公司名称等。
同时,也可以采用混洗技术,通过随机操作打乱原有的排列顺序,将文本串中的敏感数据进行随机互换,打破这些数据与其他数据的关联关系,以消除偏差,此方法开销更小。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于模式匹配算法的敏感信息脱敏方法,其特征在于,包括以下步骤:
步骤1:定义待脱敏的文本数据,提取文本数据中的文本串T,后续对文本串T进行敏感信息的脱敏;
步骤2:根据需求确定需要脱敏的敏感信息为模式串P,作为对文本串T进行模式匹配的对象;
步骤3:使用Sunday算法对待脱敏的文本数据进行模式匹配,记录敏感数据位置;
步骤4:构造出敏感数据位置记录表;
步骤5:使用脱敏方法,对待脱敏的文本数据中的所有敏感数据进行脱敏处理。
2.如权利要求1所述的方法,其特征在于,所述待脱敏的文本数据为PDF文档。
3.如权利要求1所述的方法,其特征在于,设所述文本串T长度为n,则有:
T=T0T1T2T3T4T5…Tn-1
其中,Ti为文本串T中一个特定的字符。
4.如权利要求3所述的方法,其特征在于,步骤2中,根据用户需求确定需要进行脱敏的敏感信息,定义模式串P的长度为m,m<n,则有:
P=P0P1P2P3P4P5…Pm-1
在文本串T中匹配给定的模式串P,若模式串P出现在了文本串T中,且:
TiTi+1Ti+2Ti+3Ti+4…Ti+m-1=P0P1P2P3P4P5…Pm-1
则认为匹配成功,此时P0在文本串T中的位置为i,将i作为敏感数据位置的坐标。
5.如权利要求4所述的方法,其特征在于,步骤3包括如下步骤:
步骤3.1:按照左对齐原则将文本串T和模式串P对齐;
步骤3.2:将文本串T和模式串P从右向左进行比较,此时从最右边的字符开始比较,若Pm-1与T中跟其位置对齐的字符相同,则执行步骤3.4,否则执行步骤3.3;
步骤3.3:若T中正在匹配的字符为坏字符,则执行步骤3.3.1,否则执行步骤3.3.2;
步骤3.3.1:此时字符匹配不成功是因为坏字符引起的,并且文本串T的当前字符右边的字符仍然不能和模式串P的右边第一个字匹配时,模式窗口则需要向右移动m+1的长度,并且返回步骤3.2;如果文本串T的当前字符右边的字符和模式串P右边第一个字匹配时,模式窗口则需要向右移动m的长度,并且返回步骤3.2;
步骤3.3.2:此时字符匹配不成功不是因为坏字符引起的,则在模式串P中由右向左查找第一次出现T中正在匹配的字符的地方与文本串T对齐,返回步骤3.2继续下一轮匹配;
步骤3.4:此时已经在文本串T中找到与模式串P最右侧的第一个字符匹配的字符,则P和T均继续向左取下一个字符继续匹配,当发现字符不匹配时,返回步骤3.3判断T中正在匹配的字符是否为坏字符,否则P和T均继续向左取下一个字符继续匹配,直至P0匹配完毕且均未发现不匹配的情况,此时执行步骤3.5;
步骤3.5:返回文本串T中与P0对应的位置作为敏感数据位置记录表的坐标i,判断文本串T是否已经检索完毕,检索完毕则执行步骤4;否则取待脱敏的文本数据中剩下未检索的文本串T’,返回至步骤3.1中将文本串T替换为文本串T’,并将模式串P与文本串T’重新进行匹配。
6.如权利要求5所述的方法,其特征在于,步骤4中构造出敏感数据位置记录表,将每次执行步骤3.5时返回的位置坐标依次插入到位置记录表中。
7.如权利要求1所述的方法,其特征在于,步骤5中,使用替代、混洗这些脱敏方法,对待脱敏的文本数据中的所有敏感数据进行脱敏处理。
8.如权利要求7所述的方法,其特征在于,步骤5中,采用替代技术时,用随机的伪装字符串替换文本串T中定位的敏感数据,使得文本串中的敏感数据不可恢复。
9.如权利要求8所述的方法,其特征在于,步骤5中,采用的替换方式是常数替代、查表替代、参数化替代等这些方法。
10.如权利要求8所述的方法,其特征在于,步骤5中,采用混洗技术,通过随机操作打乱原有的排列顺序,将文本串中的敏感数据进行随机互换,打破这些数据与其他数据的关联关系。
CN201910757737.0A 2019-08-16 2019-08-16 一种基于模式匹配算法的敏感信息脱敏方法 Pending CN110489997A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910757737.0A CN110489997A (zh) 2019-08-16 2019-08-16 一种基于模式匹配算法的敏感信息脱敏方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910757737.0A CN110489997A (zh) 2019-08-16 2019-08-16 一种基于模式匹配算法的敏感信息脱敏方法

Publications (1)

Publication Number Publication Date
CN110489997A true CN110489997A (zh) 2019-11-22

Family

ID=68551385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910757737.0A Pending CN110489997A (zh) 2019-08-16 2019-08-16 一种基于模式匹配算法的敏感信息脱敏方法

Country Status (1)

Country Link
CN (1) CN110489997A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110955914A (zh) * 2019-12-02 2020-04-03 智器云南京信息科技有限公司 一种待脱敏数据的处理方法、系统、终端设备和存储介质
CN112000980A (zh) * 2020-07-06 2020-11-27 拉卡拉支付股份有限公司 数据处理方法及装置
CN112257108A (zh) * 2020-10-23 2021-01-22 天津新开心生活科技有限公司 数据脱敏方法及装置、介质及电子设备
CN112380566A (zh) * 2020-11-20 2021-02-19 北京百度网讯科技有限公司 用于对文档图像进行脱敏的方法、装置、电子设备及介质
CN114363016A (zh) * 2021-12-20 2022-04-15 浙江大学 一种基于关键词的隐私保护流量检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101409623A (zh) * 2008-11-26 2009-04-15 湖南大学 一种面向高速网络的模式匹配方法
CN106407843A (zh) * 2016-10-17 2017-02-15 深圳中兴网信科技有限公司 数据脱敏方法和数据脱敏装置
CN107229759A (zh) * 2017-07-27 2017-10-03 深圳市乐宜科技有限公司 一种字符串模式匹配的方法
CN107239500A (zh) * 2017-05-03 2017-10-10 成都国腾实业集团有限公司 一种字符串匹配方法及系统
CN109977276A (zh) * 2019-03-22 2019-07-05 华南理工大学 一种基于Sunday算法改进的单模式匹配方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101409623A (zh) * 2008-11-26 2009-04-15 湖南大学 一种面向高速网络的模式匹配方法
CN106407843A (zh) * 2016-10-17 2017-02-15 深圳中兴网信科技有限公司 数据脱敏方法和数据脱敏装置
CN107239500A (zh) * 2017-05-03 2017-10-10 成都国腾实业集团有限公司 一种字符串匹配方法及系统
CN107229759A (zh) * 2017-07-27 2017-10-03 深圳市乐宜科技有限公司 一种字符串模式匹配的方法
CN109977276A (zh) * 2019-03-22 2019-07-05 华南理工大学 一种基于Sunday算法改进的单模式匹配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱宁洪: "字符串匹配算法Sunday 的改进", 《西安科技大学学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110955914A (zh) * 2019-12-02 2020-04-03 智器云南京信息科技有限公司 一种待脱敏数据的处理方法、系统、终端设备和存储介质
CN112000980A (zh) * 2020-07-06 2020-11-27 拉卡拉支付股份有限公司 数据处理方法及装置
CN112257108A (zh) * 2020-10-23 2021-01-22 天津新开心生活科技有限公司 数据脱敏方法及装置、介质及电子设备
CN112380566A (zh) * 2020-11-20 2021-02-19 北京百度网讯科技有限公司 用于对文档图像进行脱敏的方法、装置、电子设备及介质
CN114363016A (zh) * 2021-12-20 2022-04-15 浙江大学 一种基于关键词的隐私保护流量检测方法
CN114363016B (zh) * 2021-12-20 2023-05-23 浙江大学 一种基于关键词的隐私保护流量检测方法

Similar Documents

Publication Publication Date Title
CN110489997A (zh) 一种基于模式匹配算法的敏感信息脱敏方法
CN111143842B (zh) 一种恶意代码检测方法及系统
CN110929125B (zh) 搜索召回方法、装置、设备及其存储介质
KR20110081177A (ko) 비밀 정보의 검출
CN109614795B (zh) 一种事件感知的安卓恶意软件检测方法
CN111177367A (zh) 案件分类方法、分类模型训练方法及相关产品
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN114896305A (zh) 一种基于大数据技术的智慧互联网安全平台
CN112001170A (zh) 一种识别经过变形的敏感词的方法和系统
CN112347223A (zh) 文档检索方法、设备及计算机可读存储介质
CN112132238A (zh) 一种识别隐私数据的方法、装置、设备和可读介质
CN114595689A (zh) 数据处理方法、装置、存储介质和计算机设备
CN114707517B (zh) 一种基于开源数据事件抽取的目标跟踪方法
CN115730087A (zh) 基于知识图谱的矛盾纠纷分析和预警方法及其应用
CN114021556A (zh) 基于自然语言处理技术的日志敏感数据检测方法及系统
CN111988327B (zh) 威胁行为检测和模型建立方法、装置、电子设备及存储介质
CN113515593A (zh) 基于聚类模型的话题检测方法、装置和计算机设备
CN112686026A (zh) 基于信息熵的关键词提取方法、装置、设备及介质
JP6470249B2 (ja) データクレンジングシステム、データクレンジング方法及びデータクレンジングプログラム
CN112016317A (zh) 基于人工智能的敏感词识别方法、装置及计算机设备
CN112581297A (zh) 基于人工智能的信息推送方法、装置及计算机设备
CN109359481A (zh) 一种基于bk树的反碰撞搜索约减方法
CN116611092A (zh) 一种基于多因子的数据脱敏方法及装置、溯源方法及装置
WO2020132852A1 (en) Coding information extractor
CN115510248A (zh) 基于深度学习的人员行为特征知识图谱构建与分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191122

RJ01 Rejection of invention patent application after publication