CN106709370B

CN106709370B - 一种基于文本内容的长词识别方法及系统

Info

Publication number: CN106709370B
Application number: CN201611266756.6A
Authority: CN
Inventors: 魏效征; 王志海; 喻波; 张静; 徐军帅; 安鹏; 牛立伟
Original assignee: Beijing Wondersoft Technology Co Ltd
Current assignee: Beijing Wondersoft Technology Co Ltd
Priority date: 2016-12-31
Filing date: 2016-12-31
Publication date: 2019-10-29
Anticipated expiration: 2036-12-31
Also published as: CN106709370A

Abstract

本发明公开了一种基于文本内容的长词识别方法及系统，该方法包括以下步骤：对先验文档进行预处理，从中提取需要识别的文本内容；提取所述文本内容中的词语，对超过长度阈值的词语识别为特征长词；以选择出的所述特征长词为基准，获得特征长词组在每个先验文档中的出现频率，从而生成每个先验文档的特征长词频率向量，由多个先验文档的特征长词频率向量构成T‑D矩阵；计算所述向量间的距离，根据LSA的方法确定文档类别，对所述文档类别进行标记；选择出能代表所述文档的特征长词；用选择出的所述特征长词重新构造文档向量，将训练好的分类器判定新接收文档的类别。通过该发明的方案，提高了分档分类的效率和准确性，保证了文档的安全。

Description

一种基于文本内容的长词识别方法及系统

技术领域

本发明涉及数据安全领域，具体涉及一种基于文本内容的长词识别方法及系统。

背景技术

近年来，由于企业内部电子数据的格式及其存储形式的日益多样化，企业敏感数据泄露的风险急剧增加，因此企业对自有敏感数据或文档的防外泄工作日益重视。要实现对企业文档的有效防护，需要先对企业文档进行分类。企业文档数量大，只有适当的分类后，才能根据每类文档制定出合适的策略和规则。但是，文本分类的方法虽多种多样，分类结果的准确性却严重依赖于文本特征。如果选择出的文本特征区分度好，文本分类的结果不但类别数准确，属于每一类的文档边界也不容易产生重叠。因此，如何选择区分度好的文本特征，并使用这些特征进行分类或归类，是实现企业文档数据安全的核心内容。

现有技术中的专利技术：

专利文献1：《一种文本特征提取系统和方法》，申请号：201410491458.1，申请日：2014年09月24日；

专利文献2：《提取文本特征的装置和方法》，申请号：201510193912.X，申请日：2015年04月22日；

专利文献3：《一种短文本特征提取方法》，申请号：201510449415.1，申请日： 2015年07月28日。

专利文献1中，对于特征词库中的特征词Fi，根据预先建立的样本库中包含所述特征词Fi的样本中该特征词Fi的出现次数以及包含该特征词Fi的样本所具有的标签，确定该特征词Fi与标签库中的每个标签之间的互信息；对目标文档进行分词，获得所述目标文档中出现的所有特征词；基于目标文档中的每个特征词与每个标签之间的互信息，确定所述目标文档中的每个特征词对每个标签的权重，将所述目标文档中的所有特征词对同一个标签的权重进行加权，得到所述目标文档中的所有特征词对同一个标签的总权重；根据各个标签的所述总权重，从所述各个标签中确定出目标标签作为所述目标文档的文本特征。

专利文献2中，提到了一种提取文本特征的装置，包括：分词单元，被配置为对输入文档进行分词得到多个词、每个词的词性和每个词与其相邻词的词性组合；重要性计算单元，被配置为计算每个词的重要程度；词性权重计算单元，被配置为计算每个词的词性的权重；词性组合权重计算单元，被配置为计算每个词与其相邻词的词性组合的权重；以及文本特征提取单元，被配置为对于每个词，根据其重要程度、词性的权重以及词性组合的权重来提取该词的文本特征。

专利文献3中，基于知识库和句法分析方法对短文本进行特征提取，通过计算各个话题的权值，用话题向量作为短文本最终的特征向量，以解决短文本特征稀疏和短文本主题不明确的问题。

可见，目前现有的文本特征提取实现方案，能从词语的词性、语义、主题等方面来选择文本特征。不论是词性、语义还是主题分析，都是选定既定字典，对文本切词，按照词性、语义或者主题来计算词语的权值。

因此，现有技术存在以下技术问题：

(1)忽视长词在文本分类和归类中的显著作用。

(2)语义分析、词性分析、主题分析等方法的智能效果好，适合训练样本数量多，对分类和归类的精确度要求不高的场合，但不适合数据安全领域。在数据安全领域，需要归类和分类的文本种类少、样本规模小，但对精确度要求高。

(3)语义分析、词性分析、主题分析等方法实现难度大，在数据安全领域不好实现。因为数据安全领域的聚类、分类或归类，都是在相对封闭环境下进行，难以访问互联网，所涉及的主题或语义也很难从互联网获取到。但词语的长度，即词语短语的字节长度，易于计算并使用。

发明内容

为解决上述技术问题，本发明提供了一种基于文本内容的长词识别方法，包括以下步骤：

1)对多个先验文档进行预处理，从中提取需要识别的文本内容；

2)提取所述文本内容中的词语，对超过长度阈值的词语识别为特征长词，从而得到一组特征长词组；

3)以选择出的所述特征长词组为基准，获得所述特征长词组在每个先验文档中的出现频率，从而生成每个先验文档的特征长词频率向量，由多个先验文档的特征长词频率特征向量构成T-D矩阵；对所述T-D矩阵进行SVD(奇异值)分解实现降维；

4)根据对所述T-D矩阵分解后的结果，计算所述特征长词频率向量间的距离，根据LSA(潜在语义分析)的方法确定文档类别，对所述文档类别进行标记；

5)对所述特征长词按照词长进行排序，依次计算所述特征长词的权重值，按照特征词选择规则，选择出能代表所述先验文档的特征长词；

6)用选择出的所述特征长词重新构造文档向量，根据人工神经网络ANN或者支持向量机SVM方法训练分类器，确定分类器系数，将训练好的分类器判定新接收文档的类别。

优选的，所述对所述先验文档进行预处理包括：识别所述先验文档格式，提取所述先验文档的文本内容并进行统一编码转换。

优选的，在所述步骤2)提取所述文本内容中的词语具体包括：对所述文本内容进行切分，切分后根据词典进行验证，提取所述文本内容中的词语。

优选的，在所述步骤2)中对超过长度阈值的词语识别为特征长词之后还包括：判断所述特征长词是否可以继续切分，如果不能切分，并且该特征长词在所述先验文档中出现的频率大于某个阈值，选中该特征长词为最终的特征长词；如果能够切分，计算该特征长词在所述先验文档中出现的概率f1以及切分后的短词在所述先验文档中出现的概率f2，如果 f1>f2，选中该特征长词为最终的特征长词。

优选的，所述步骤)5中按照以下公式计算第k个特征长词的权重值：

其中，Length表示特征长词的长度，tf_k，tf_i表示词频，即第i,k个特征长词在当前先验文档中出现的次数，df_i表示文档频率，即第i个特征长词一共在多少个先验文档出现。

为解决上述技术问题，本发明提供了一种基于文本内容的长词识别装置，包括：

提取模块，对多个先验文档进行预处理，从中提取需要识别的文本内容；

长词识别模块，提取所述文本内容中的词语，对超过长度阈值的词语识别为特征长词，从而得到一组特征长词组；

聚类模块，以选择出的所述特征长词组为基准，获得所述特征长词组在每个先验文档中的出现频率，从而生成每个先验文档的特征长词频率向量，由多个先验文档的特征长词频率特征向量构成T-D矩阵；对所述T-D矩阵进行SVD(奇异值)分解实现降维；

类别标记模块，根据对所述T-D矩阵分解后的结果，计算所述特征长词频率向量间的距离，根据LSA(潜在语义分析)的方法确定文档类别，对所述文档类别进行标记；

特征选择模块，对所述特征长词按照词长进行排序，依次计算所述特征长词的权重值，按照特征词选择规则，选择出能代表所述先验文档的特征长词；

分类模块，用选择出的所述特征长词重新构造文档向量，根据人工神经网络ANN或者支持向量机SVM方法训练分类器，确定分类器系数，将训练好的分类器判定新接收文档的类别。

优选的，所述提取模块还包括：识别所述先验文档格式，提取所述先验文档的文本内容并进行统一编码转换。

优选的，所述长词识别模块还包括：判断所述特征长词是否可以继续切分，如果不能切分，并且该特征长词在所述先验文档中出现的频率大于某个阈值，选中该特征长词为最终的特征长词；如果能够切分，计算该特征长词在所述先验文档中出现的概率f1以及切分后的短词在所述先验文档中出现的概率f2，如果f1>f2，选中该特征长词为最终的特征长词。

优选的，所述特征选择模块按照以下公式计算第k个特征长词的权重值：

为解决上述技术问题，本发明提供了一种文档安全保护装置，其包括上述之一的长词识别装置，当发现某个文档被访问时，判断该文档的类别，根据该文档的类别判断是否需要对用户的访问权限进行授权，如果需要，则对用户权限进行鉴权，如果鉴权通过，允许对该文档的访问，否则拒绝对该文档的访问。

通过本发明的技术方案取得了以下技术效果：能显著减少误报率；基于词语字节长度的特征提取方法和文档类型判定方法简单有效，应用方便。

附图说明

图1是本发明的总体框图

图2是本发明总体方法流程图

图3是本发明的长词生成流程图

图4是本发明特征词权重计算流程图

具体实施方式

名词解释：

DLP：Data leakage prevention，是通过一定的技术手段，防止企业的指定数据或信息资产以违反安全策略规定的形式流出企业的一种策略。

VSM：Vector Space Model，向量空间模型，把对文本内容的处理简化为向量空间中的向量运算，并且它以空间上的相似度表达语义的相似度，直观易懂。当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。

文件指纹：安装在计算机上的操作系统，供用户自由使用，可以不进行磁盘加密。

贝叶斯分析方法：一种计算假设概率的方法，这种方法是基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身而得出的。

现有技术没能足够重视词长在数据安全领域文本分类过程中的显著作用。本发明提出了在已有的字典条件下生成长词的方法，还提出了在文本分类过程中如何使用词长特征。本发明提出的文本分类方法，适合于数据安全领域的文本聚类分类和归类，准确度高且易于实施

附图1是本发明的系统框图。

本发明提出的系统包括：文本聚类模块、特征选取模块、文档归类模块。

本发明的分类流程图如如图2：

1)文本提取

文本聚类前，首先要使用文本提取工具识别先验文档的格式，提取先验文档的文本内容并进行编码转换，最终从先验文档中提取出需要的文本内容。

这些先验文档是训练用的文档，一般都是企业信息管理部门提供的历史文档，这些文档的类别信息能用来制定分类规则。后面新接收的文档，是分类规则确定好后，从企业员工的邮件或者U盘或者其他渠道实时抓取到的文件，并对这些新接收文档进行归类。

2)切词并生成长词

对文本内容进行机械切分，切分后根据词典进行验证，提取文本中的词语；对超过四个字长度的短语，如Figure3所示生成长词。

3)特征构建与聚类处理

根据卡方校验(比较一列值，上一个和下一个之间的相对变化量，把变化量最大的地方，设置成界限值。)选择初步的特征词语，以选择出的特征词语为基准，生成每个先验文档的特征向量，组成T-D(词频—文档频率)矩阵；对T-D阵进行SVD分解实现降维。

4)类别标记与确定

根据T-D阵分解后的结果，计算每个先验文档向量间的距离，根据LSA的方法获得先验文档类别。文档类别需要进行人工确认，确认后标记文档类别标签；

5)特征提取

对特征关键词按照词长进行排序，按照附图4所示，依次计算词语的权重值，按照特征词选择规则(这个选择规则，可以是卡方校验，也可以是互信息，信息增益，或皮尔森系数等，这些均属于现有技术，在此不做赘述)，确定特征词。

按照词的权重值(重要系数)对词排序后，采用卡方校验确定选择那些词，不选择那些词。卡方校验能分析排好序的系数，哪里的空隙最大，即相邻词的系数差异最明显的地方。这样我们就可以从差异最明显的地方，切割开来，选择卡方值以上的那些词。

6)文本分类

选择好词语特征后，用选定的词语，重新构造文档向量，根据人工神经网络ANN或者支持向量机svm方法训练分类器，分类器系数确定后，将分类器判定规则下发给数据安全软件。数据安全软件捕获到文档后，根据分类器判定规则进行判决。

图3是本发明的长词生成方法，具体包括：

1)对文本内容进行切词；

2)通过判断切词得到长词；

3)判断该长词是否能够继续切分；

4)如果不能切分，并且该长词在文档中出现的频率大于某个阈值，选中该长词为特征长词；

5)如果能够切分，计算长词在文档中出现的概率；

6)查询切分后的短词在文档中出现的概率(通过查询常用词频率表)；

7)如果长词出现概率>短词出现的概率，选中该长词为文档特征长词。

附图4是本发明的特征词权重计算流程，包括：

1)提取文本内容中的特征词；

2)计算特征词的词频和文档的频率；

3)计算特征词词长权重，ln(Length)；

4)计算第k个特征词的权重。

其中，Length表示特征长词的长度，tf_k，tf_i表示词频，即第i,k个特征长词在当前先验文档中出现的次数，df_i表示文档频率，即第i个特征长词一共在多少个先验文档出现。如果文档频率越大，说明是每个文档中都可能出现的词，说明区分度小，参考意义不大。词频越大，反而说明这个词，对这个文档的类别区分意义越高。

本发明还公开了一种文档安全保护装置，其包括长词识别装置，当发现某个文档被访问时，判断该文档的类别，根据该文档的类别判断是否需要对用户的访问权限进行授权，如果需要，则对用户权限进行鉴权，如果鉴权通过，允许对该文档的访问，否则拒绝对该文档的访问。

在具体应用该发明时，在企业实际的文档审计中，使用企业完整名称匹配到的文档准确高于使用企业简称得到的文档。如中爱立信命中的文档不如爱立信电信技术公司准确，华为命中的文档不如华为技术股份有限公司准确。因为企业完整名称是长词，一旦出现，匹配文档的准确度很高。

通过本发明，在数据安全领域，基于长词的文本类型识别，能显著减少误报率。基于词语字节长度的特征提取方法和文档类型判定方法简单有效，应用方便。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换以及改进等，均应保护在本发明的保护范围之内。

Claims

1.一种基于企业内部文档的文本内容的长词识别方法，包括以下步骤：

3)以选择出的所述特征长词组为基准，获得所述特征长词组在每个先验文档中的出现频率，从而生成每个先验文档的特征长词频率向量，由多个先验文档的特征长词频率特征向量构成T-D矩阵；对所述T-D矩阵进行奇异值分解SVD实现降维；

4)根据对所述T-D矩阵分解后的结果，计算所述特征长词频率向量间的距离，根据潜在语义分析LSA的方法确定文档类别，对所述文档类别进行标记；

6)用选择出的所述特征长词重新构造文档向量，根据人工神经网络ANN或者支持向量机SVM方法训练分类器，确定分类器系数，将训练好的分类器判定新接收文档的类别；

在所述步骤2)中对超过长度阈值的词语识别为特征长词之后还包括：判断所述特征长词是否可以继续切分，如果不能切分，并且该特征长词在所述先验文档中出现的频率大于某个阈值，选中该特征长词为最终的特征长词；如果能够切分，计算该特征长词在所述先验文档中出现的概率f1以及切分后的短词在所述先验文档中出现的概率f2，如果f1>f2，选中该特征长词为最终的特征长词；

所述步骤5)中按照以下公式计算第k个特征长词的权重值：

其中，Length表示特征长词的长度，tf_k，tf_i表示词频，即第k，i个特征长词在当前先验文档中出现的次数，df_i表示文档频率，即第i个特征长词一共在多少个先验文档出现。

2.根据权利要求1所述的方法，所述对多个先验文档进行预处理包括：识别所述先验文档格式，提取所述先验文档的文本内容并进行统一编码转换。

3.根据权利要求1所述的方法，在所述步骤2)提取所述文本内容中的词语具体包括：对所述文本内容进行切分，切分后根据词典进行验证，提取所述文本内容中的词语。

4.一种基于企业内部文档的文本内容的长词识别装置，包括：

聚类模块，以选择出的所述特征长词组为基准，获得所述特征长词组在每个先验文档中的出现频率，从而生成每个先验文档的特征长词频率向量，由多个先验文档的特征长词频率特征向量构成T-D矩阵；对所述T-D矩阵进行奇异值分解SVD实现降维；

类别标记模块，根据对所述T-D矩阵分解后的结果，计算所述特征长词频率向量间的距离，根据LSA潜在语义分析LSA的方法确定文档类别，对所述文档类别进行标记；

分类模块，用选择出的所述特征长词重新构造文档向量，根据人工神经网络ANN或者支持向量机SVM方法训练分类器，确定分类器系数，将训练好的分类器判定新接收文档的类别；

所述长词识别模块还包括：判断所述特征长词是否可以继续切分，如果不能切分，并且该特征长词在所述先验文档中出现的频率大于某个阈值，选中该特征长词为最终的特征长词；如果能够切分，计算该特征长词在所述先验文档中出现的概率f1以及切分后的短词在所述先验文档中出现的概率f2，如果f1>f2，选中该特征长词为最终的特征长词；

所述特征选择模块按照以下公式计算第k个特征长词的权重值：

5.根据权利要求4所述的装置，所述提取模块还包括：识别所述先验文档格式，提取所述先验文档的文本内容并进行统一编码转换。

6.一种文档安全保护装置，其包括权利要求4-5之一的装置，当发现某个文档被访问时，判断该文档的类别，根据该文档的类别判断是否需要对用户的访问权限进行授权，如果需要，则对用户权限进行鉴权，如果鉴权通过，允许对该文档的访问，否则拒绝对该文档的访问。