CN116701614B

CN116701614B - 一种用于文本智能采集的敏感数据模型建立方法

Info

Publication number: CN116701614B
Application number: CN202310962003.2A
Authority: CN
Inventors: 郭振廷; 华玉娟
Original assignee: Nanjing Yixing Technology Co ltd
Current assignee: Nanjing Yixing Technology Co ltd
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2024-07-19
Anticipated expiration: 2043-08-02
Also published as: CN116701614A

Abstract

本发明提供一种用于文本智能采集的敏感数据模型建立方法；涉及文本智能采集技术领域，方法包括：通过对文本数据进行分词获取待测单词合集；再对待测单词合集与敏感单词合集进行比较，筛选出第一敏感单词和深测文本，对深测文本进行关联度分析，得到类关联单词合集，最后对关联单词和敏感单词合集进行比较，筛选出第二敏感单词，融合第一敏感单词和第二敏感单词得到对应文本的敏感数据，本发明通过对文本数据进行重组提取敏感单词，能够识别文本数据中的特殊敏感词，以解决现有的敏感词识别方法不够精准，对于特殊表达的敏感词的识别存在不足的问题。

Description

一种用于文本智能采集的敏感数据模型建立方法

技术领域

本发明涉及文本智能采集技术领域，尤其涉及一种用于文本智能采集的敏感数据模型建立方法。

背景技术

敏感数据包括个人隐私数据，如姓名、身份证号码、住址、电话、银行账号、邮箱、密码、医疗信息、教育背景等；也包括企业或社会机构不适合公布的数据，如企业的经营情况，企业的网络结构、IP地址列表等；敏感数据的泄露会对社会或个人带来不可估量的危害；所以敏感数据的保护非常重要，敏感数据保护的核心就是从海量的数据中挑选出敏感数据，完成对敏感数据的精准识别和保护；

现有技术中对敏感数据的识别，通常是对敏感数据进行提取和分析，从而获取文本敏感度，比如在申请公开号为CN108280130A的申请文件中，公开了一种在文本大数据中发现敏感数据的方法，该方案就是利用敏感词的出现频率、文档类别和敏感词语的权重级别计算待检索文本的敏感度；将待检索文本的敏感度与预设的阈值进行比较，将敏感度值超过阀值的检索文本确定为敏感类文本；但是该方案在文本中出现隔字包含敏感词时，不能准确获取文本中的敏感词，还会存在敏感词盲区，鉴于此，有必要对现有的敏感数据识别方法进行改进。

发明内容

针对现有技术存在的不足，本发明目的是提供一种用于文本智能采集的敏感数据模型建立方法，通过对文本数据进行重组提取敏感单词，能够识别文本数据中的特殊敏感词，以解决现有的敏感词识别方法不够精准，对于特殊表达的敏感词的识别存在不足的问题。

为了实现上述目的，本发明是通过如下的技术方案来实现：第一方面，本申请提供一种用于文本智能采集的敏感数据模型建立方法，所述方法包括如下步骤：

步骤 S1：获取文本数据，提取所述文本数据的待测单词，获取待测单词的单词特征设置为待测特征；

步骤S2：从大数据中获取敏感单词数据库，提取所述敏感单词数据库的单词特征，得到敏感特征；

步骤S3：根据敏感单词对待测单词进行比对，将比对结果一致的待测单词设置为第一敏感单词，对文本数据内的第一敏感单词进行筛除后得到深测文本；

步骤S4：对深测文本进行敏感关联度分析，得到深测文本的关联单词和关联特征；

步骤S5：根据敏感特征对关联单词进行比对，将比对结果一致的关联单词设置为关联敏感单词；

步骤S6：获取关联敏感单词在深测文本中对应的单词，设置为第二敏感单词，将第一敏感单词与第二敏感单词融合，得到待测文本的敏感数据。

进一步地，所述步骤S1包括如下子步骤：

步骤S101：使用ICTCLAS分词系统，对文本数据进行分词；

步骤S102：统计文本数据中的单词长度、单词词性和单词词频；

步骤S103：获取待测文本中的单词词频，对单词词频使用TFIDF算法计算单词权重；

步骤S104：将单词权重小于第一权重阈值的单词进行筛除，将剩余的单词设置为待测单词；

步骤S105：将单词长度和单词词性设置为待测特征。

进一步地，所述步骤S2包括如下子步骤：

步骤S201：从敏感单词数据库中获取敏感单词数据；

步骤S202：统计敏感单词数据的单词长度和单词词性，并设置为敏感特征。

进一步地，所述步骤S3包括如下子步骤：

步骤S301：将待测单词和敏感单词按照单词长度和单词词性进行分类比较，所述分类比较包括：将待测单词合集与敏感单词合集中出现的单词长度相同且单词词性相同的文本设置为类敏感单词；

步骤S302：获取类敏感单词的统一码和敏感单词的统一码；

步骤S303：对类敏感单词的统一码和敏感单词的统一码进行比较，当类敏感单词的统一码和敏感单词的统一码一致时，将该类敏感单词设置为第一敏感单词；

步骤S303：将待测文本内的所有第一敏感单词进行筛除，得到深测文本。

进一步地，所述步骤S4包括如下子步骤：

步骤S401：获取深测文本，将深测文本进行关联度分析，得到类关联单词合集；

步骤S402：统计类关联单词合集中的单词长度、单词词性和单词词频；

步骤S403：获取类关联单词合集中的单词词频，对单词词频使用TFIDF算法计算单词权重；

步骤S404：将待测单词合集中的单词和类关联单词合集中单词权重小于第二权重阈值的单词进行筛除，将剩余的单词设置为关联单词；

步骤S405：将单词长度和单词词性设置为关联特征。

进一步地，所述步骤S401中关联度分析为：获取深测文本，对深测文本内的符号进行筛除；将筛除符号后的深测文本设置为筛除文本；

使用ICTCLAS分词系统，对筛除文本进行分词，得到筛除单词合集；统计筛除单词合集中单词在筛除文本中的排序，对筛除单词合集中的单词按照排序进行编号，记为单词1至单词m，m为正整数；对筛除单词合集中的单词按照单词种类进行编号，记为单词1至单词n，n为正整数；

根据编号对筛除单词合集中的单词进行命名，记为单词X1Z1至单词XmZn，对单词X1Z1至单词XmZn进行文本重组，将文本重组后得到的单词设置为重组单词，获取所有重组单词，设置为重组单词合集，将重组单词合集和筛除单词合集融合后得到类关联单词合集。

进一步地，所述文本重组包括间隔重组和次间隔重组，所述间隔重组包括：将单词XkZa和单词Xk+2Zc设为间隔单词，其中k为取值区间在1到m-2之间的正整数，a和c为取值区间在1到n之间的正整数；

对单词XkZa和单词Xk+2Zc进行组合，将组合后获得的文本设置为间隔文本，对间隔文本使用ICTCLAS分词系统进行分词，将分词后得到的单词设置为间隔预选单词；

重复进行间隔重组，直至获取所有的间隔预选单词，设置为间隔预选单词合集；获取筛除单词合集，对间隔预选单词合集中的单词进行比对，将间隔预选单词中与筛除单词合集中相同的单词剔除，将间隔预选单词合集中剩余的单词设置为间隔关联单词合集。

进一步地，所述次间隔重组包括：将单词XlZd和单词Xl+3Zg设为次间隔单词，其中l为取值区间在1到m-3之间的正整数，d和g为取值区间在1到n之间的正整数；

对单词XlZd和单词Xl+3Zg进行组合，将组合后获得的文本设置为次间隔文本，对次间隔文本使用ICTCLAS分词系统进行分词，将分词后得到的单词设置为次间隔预选单词；

重复进行次间隔重组，直至获取所有的次间隔预选单词，设置为次间隔预选单词合集；获取筛除单词合集和间隔关联单词合集，对次间隔预选单词合集中的单词进行比对，将次间隔预选单词合集中与筛除单词合集或间隔关联单词合集中相同的单词剔除，将次间隔预选单词合集中剩余的单词设置为次间隔关联单词；

将所有间隔关联单词和次间隔关联单词进行融合获得重组单词合集。

进一步地，所述步骤S5包括如下子步骤：

步骤S501：将关联单词和敏感单词按照单词长度和单词词性进行分类比较，所述分类比较包括：将类关联单词合集与敏感单词合集中出现的同单词长度和单词词性的文本设置为类敏感关联单词；

步骤S502：获取类敏感关联单词的统一码和敏感单词的统一码；

步骤S503：对类敏感关联单词的统一码和敏感单词的统一码进行比较，当类敏感关联单词的统一码和敏感单词的统一码一致时，将该类敏感关联单词设置为关联敏感单词。

进一步地，所述步骤S6包括如下子步骤：

步骤S601：获取分词前包含关联敏感单词的间隔文本和次间隔文本，设置为关联敏感文本，将组合成关联敏感文本的单词设置为第二敏感单词；

步骤S602：将第一敏感单词与第二敏感单词进行融合，将融合后得到的敏感单词合集设置为待测文本的敏感数据。

第二方面，本申请提供一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上任意一项所述方法中的步骤。

第三方面，本申请提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，运行如上任意一项所述方法中的步骤。

本发明的有益效果：本发明首先通过对文本数据进行分词获取待测单词合集；再对待测单词合集与敏感单词合集进行分类比较，将分类比较得到的敏感单词设置为第一敏感单词，将待测文本中的第一敏感单词剔除得到深测文本，再对深测文本进行分析；对待测文本进行提取和筛除之后得到的深测文本数据量小，便于计算和分析，有利于提高文本分析的速度；

本发明通过对深测文本进行符号筛除，得到筛除文本，再对筛除文本进行间隔重组和次间隔重组，对重组文本进行分词，提取关联单词；通过筛除符号和重组文本，可以筛选出间隔敏感数据，防止特殊格式的敏感数据丢失，提高敏感数据筛选的全面性和精准度。

本发明附加方面的优点将在下面的具体实施方式的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其他特征、目的和优点将会变得更明显：

图1为本发明的方法流程框图；

图2为本发明的间隔重组示意图；

图3为本发明的次间隔重组示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

请参阅图1所示，第一方面，本申请提供一种用于文本智能采集的敏感数据模型建立方法，所述方法包括如下步骤：

步骤S1包括如下子步骤：

步骤S101：使用ICTCLAS分词系统，对文本数据进行分词；在具体实施过程中，ICTCLAS分词系统是中文信息处理的基础与关键，其主要功能包括中文分词、词性标注、命名实体识别和新词识别，同时支持用户词典；ICTCLAS分词系统的分词速度已经达到单机996KB/s，分词精度98.45%，使用ICTCLAS分词系统对文本数据进行分词，可以保证分词的速度和精确度，进而提高敏感数据识别的速度和精确度；

步骤S103：获取待测文本中的单词词频，对单词词频使用TFIDF算法计算单词权重；在具体实施过程中，单词权重即为单词的TFIDF值，TFIDF算法是一种数字统计，单词的TFIDF值与单词在文档中的出现次数成正比，与该单词在整个语言中的出现次数成反比，因此，单词的TFIDF值可以反映出单词对集合或语料库中的文档的重要程度；

步骤S104：将单词权重小于第一权重阈值的单词进行筛除，将剩余的单词设置为待测单词；第一权重阈值设置为0.1%；

步骤S105：将单词长度和单词词性设置为待测特征；

步骤S2包括如下子步骤：

步骤S201：从敏感单词数据库中获取敏感单词数据；

步骤S202：统计敏感单词数据的单词长度和单词词性，并设置为敏感特征；

步骤S3包括如下子步骤：

步骤S301：将待测单词和敏感单词按照单词长度和单词词性进行分类比较，所述分类比较包括：将待测单词合集与敏感单词合集中出现的单词长度相同且单词词性相同的文本设置为类敏感单词；在具体实施过程中，文本数据中提取到的单词合集数量庞大，如果不对待测单词和敏感单词进行分类比较，可能会因为数据量过大导致比对过程繁琐或者缓慢，无法形成高效的敏感数据提取流程；

步骤S302：获取类敏感单词的统一码和敏感单词的统一码；在具体实施过程中，统一码可以解决传统的字符编码方案的局限，每种语言中的每个字符都有统一并且唯一的二进制编码；

步骤S303：将待测文本内的所有第一敏感单词进行筛除，得到深测文本；在具体实施过程中，对第一敏感单词进行筛除，可以减少待测文本的文本数据量，提高敏感单词的提取速度；

步骤S4包括如下子步骤：

步骤S401：获取深测文本，将深测文本进行关联度分析，得到类关联单词合集；所述关联度分析包括：获取深测文本，对深测文本内的符号进行筛除；将筛除符号后的深测文本设置为筛除文本；在具体实施过程中，深测文本内的符号具体为标点符号，部分敏感数据会由于符号间隔而无法被检测，通过对符号进行筛除后得到的筛除文本可以对敏感数据进行精确提取；

请参阅图2和图3所示，根据编号对筛除单词合集中的单词进行命名，记为单词X1Z1至单词XmZn，对单词X1Z1至单词XmZn进行文本重组，所述文本重组包括间隔重组和次间隔重组，所述间隔重组包括：将单词XkZa和单词Xk+2Zc设为间隔单词，其中k为取值区间在1到m-2之间的正整数，a和c为取值区间在1到n之间的正整数；

重复进行间隔重组，直至获取所有的间隔预选单词，设置为间隔预选单词合集；获取筛除单词合集，对间隔预选单词合集中的单词进行比对，将间隔预选单词中与筛除单词合集中相同的单词剔除，将间隔预选单词合集中剩余的单词设置为间隔关联单词合集；在具体实施过程中，当一个敏感单词被其他单词分隔的时候，分词提取无法提取到准确的敏感单词，分类比对过程中也无法比对出敏感单词，对筛除文本进行间隔重组和次间隔重组可以很好的提取出被间隔的特殊敏感单词，增加敏感数据识别的准确性；

所述次间隔重组包括：将单词XlZd和单词Xl+3Zg设为次间隔单词，其中l为取值区间在1到m-3之间的正整数，d和g为取值区间在1到n之间的正整数；

重复进行次间隔重组，直至获取所有的次间隔预选单词，设置为次间隔预选单词合集；获取筛除单词合集和间隔关联单词合集，对次间隔预选单词合集中的单词进行比对，将次间隔预选单词合集中与筛除单词合集或间隔关联单词合集中相同的单词剔除，将次间隔预选单词合集中剩余的单词设置为次间隔关联单词；在具体实施过程中，在不妨碍阅读的情况下，被间隔的敏感单词之间的间隔单词一般不会太多，因此只需要对文本进行间隔重组和次间隔重组就可以提取被间隔开的敏感单词；

将所有间隔关联单词和次间隔关联单词进行融合获得重组单词合集，将重组单词合集和筛除单词合集融合后得到类关联单词合集；

步骤S404：将待测单词合集中的单词和类关联单词合集中单词权重小于第二权重阈值的单词进行筛除，将剩余的单词设置为关联单词；第二权重阈值设置为1%；

步骤S405：将单词长度和单词词性设置为关联特征；

步骤S5包括如下子步骤：

步骤S503：对类敏感关联单词的统一码和敏感单词的统一码进行比较，当类敏感关联单词的统一码和敏感单词的统一码一致时，将该类敏感关联单词设置为关联敏感单词；

步骤S6：获取关联敏感单词在深测文本中对应的单词，设置为第二敏感单词，将第一敏感单词与第二敏感单词融合，得到待测文本的敏感数据；步骤S6包括如下子步骤：

实施例二

第二方面，本申请提供一种电子设备，包括处理器以及存储器，存储器存储有计算机可读取指令，当计算机可读取指令由处理器执行时，运行如上任意一项方法中的步骤。通过上述技术方案，处理器和存储器通过通信总线和/或其他形式的连接机构（未标出）互连并相互通讯，存储器存储有处理器可执行的计算机程序，当电子设备运行时，处理器执行该计算机程序，以执行时执行上述实施例的任一可选的实现方式中的方法，以实现以下功能：通过对文本数据进行分词获取待测单词合集；再对待测单词合集与敏感单词合集进行比较，筛选出第一敏感单词和深测文本，对深测文本进行关联度分析，得到类关联单词合集，最后对关联单词和敏感单词合集进行比较，筛选出第二敏感单词，融合第一敏感单词和第二敏感单词得到对应文本的敏感数据。

实施例三

第三方面，本申请提供一种存储介质，其上存储有计算机程序，计算机程序被处理器执行时，运行如上任意一项方法中的步骤。通过上述技术方案，计算机程序被处理器执行时，执行上述实施例的任一可选的实现方式中的方法，以实现以下功能：通过对文本数据进行分词获取待测单词合集；再对待测单词合集与敏感单词合集进行比较，筛选出第一敏感单词和深测文本，对深测文本进行关联度分析，得到类关联单词合集，最后对关联单词和敏感单词合集进行比较，筛选出第二敏感单词，融合第一敏感单词和第二敏感单词得到对应文本的敏感数据。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random AccessMemory，简称SRAM），电可擦除可编程只读存储器（Electrically Erasable ProgrammableRead-Only Memory，简称EEPROM），可擦除可编程只读存储器（Erasable ProgrammableRead Only Memory，简称EPROM），可编程只读存储器（Programmable Red-Only Memory，简称PROM），只读存储器（Read-OnlyMemory，简称ROM），磁存储器，快闪存储器，磁盘或光盘。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种用于文本智能采集的敏感数据模型建立方法，其特征在于，所述方法包括如下步骤：

所述步骤S4包括如下子步骤：

步骤S405：将单词长度和单词词性设置为关联特征；

所述步骤S401中关联度分析为：获取深测文本，对深测文本内的符号进行筛除；将筛除符号后的深测文本设置为筛除文本；

根据编号对筛除单词合集中的单词进行命名，记为单词X1Z1至单词XmZn，对单词X1Z1至单词XmZn进行文本重组，将文本重组后得到的单词设置为重组单词，获取所有重组单词，设置为重组单词合集，将重组单词合集和筛除单词合集融合后得到类关联单词合集；

2.根据权利要求1所述的一种用于文本智能采集的敏感数据模型建立方法，其特征在于，所述步骤S1包括如下子步骤：

步骤S101：使用ICTCLAS分词系统，对文本数据进行分词；

步骤S105：将单词长度和单词词性设置为待测特征。

3.根据权利要求2所述的一种用于文本智能采集的敏感数据模型建立方法，其特征在于，所述步骤S2包括如下子步骤：

步骤S201：从敏感单词数据库中获取敏感单词数据；

4.根据权利要求3所述的一种用于文本智能采集的敏感数据模型建立方法，其特征在于，所述步骤S3包括如下子步骤：

步骤S302：获取类敏感单词的统一码和敏感单词的统一码；

5.根据权利要求4所述的一种用于文本智能采集的敏感数据模型建立方法，其特征在于，所述文本重组包括间隔重组和次间隔重组，所述间隔重组包括：将单词XkZa和单词Xk+2Zc设为间隔单词，其中k为取值区间在1到m-2之间的正整数，a和c为取值区间在1到n之间的正整数；

6.根据权利要求5所述的一种用于文本智能采集的敏感数据模型建立方法，其特征在于，所述次间隔重组包括：将单词XlZd和单词Xl+3Zg设为次间隔单词，其中l为取值区间在1到m-3之间的正整数，d和g为取值区间在1到n之间的正整数；

7.根据权利要求6所述的一种用于文本智能采集的敏感数据模型建立方法，其特征在于，所述步骤S5包括如下子步骤：

8.根据权利要求6所述的一种用于文本智能采集的敏感数据模型建立方法，其特征在于，所述步骤S6包括如下子步骤：

9.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-8任一项所述方法中的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，运行如权利要求1-8任一项所述方法中的步骤。