CN111694961A - 一种用于敏感数据泄露检测的关键词语义分类方法与系统 - Google Patents
一种用于敏感数据泄露检测的关键词语义分类方法与系统 Download PDFInfo
- Publication number
- CN111694961A CN111694961A CN202010578950.8A CN202010578950A CN111694961A CN 111694961 A CN111694961 A CN 111694961A CN 202010578950 A CN202010578950 A CN 202010578950A CN 111694961 A CN111694961 A CN 111694961A
- Authority
- CN
- China
- Prior art keywords
- keyword
- category
- vector
- sensitive
- knx
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000001514 detection method Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 67
- 238000004364 calculation method Methods 0.000 claims abstract description 27
- 238000005457 optimization Methods 0.000 claims abstract description 21
- 230000009467 reduction Effects 0.000 claims abstract description 21
- 238000004458 analytical method Methods 0.000 claims abstract description 16
- 238000003058 natural language processing Methods 0.000 claims abstract description 13
- 238000005516 engineering process Methods 0.000 claims abstract description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000007621 cluster analysis Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 4
- 238000012423 maintenance Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 4
- 230000001502 supplementing effect Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种用于敏感数据泄露检测的关键词语义分类方法及系统,具体步骤如下:步骤1,输入敏感关键词库;步骤2,使用自然语言处理技术对关键词库向量化;步骤3,对每个关键词对应的向量数据降维;步骤4,对已经降维的向量数据,进行聚类分析;骤5,对已经完成聚类分析的关键词向量,结合业务对关键词类别进行标识;步骤6,根据所以已经标识的类别标签,对每个类别进行关键词分组优化;步骤7,输出敏感关键词库类别。以向量化形式表达词汇,以达到对词汇的分类分级;基于特定类别的词汇,使用相似度计算,优化词汇分类;将庞大的关键词库分类细化,提高了使用者的工作效率和指定领域的数据匹配精准度。
Description
技术领域
本发明涉及计算机数据安全技术领域,具体为一种用于敏感数据泄露检测的关键词语义分类方法与系统。
背景技术
敏感数据一般指的是企业、组织或者个人保密程度较高的信息数据。
在互联网高速发展的近几年中,信息安全变的尤为重要,企业面临的敏感数据泄露风险也越来越大。对于此类问题,当前企业用的最多最广的方法是利用敏感词匹配的方法进行互联网敏感信息发现,而其中使用的敏感词汇词库会随着样本数据逐渐增加的情况下越来越庞大冗杂。
敏感数据类型繁多,提取出的敏感关键词具有领域广,种类多的特点,如何有效利用庞大的关键词库从海量的互联网信息中查找和追回数据是众多行业面临的一大考验。
当前企业利用关键词查找敏感数据的常用方法是在已有关键词库内,随机选择或者遍历所有词汇,然后使用每个关键词对互联网信息进行匹配查找敏感数据。
如申请号为201911285835.5公开的一种关键词提取方法装置及介质,首先接收原始文档,从原始文档提取候选词,将提取出的候选词构成第一词语集合;获取第一词语集合中每个第一词语与原始文档的第一关联度,根据第一关联度确定第二词语集合;针对第二词语集合中的每个第二词语,在词语关联拓扑中查询与第二词语符合关联条件的至少一个节点词构成第三词语集合;确定第二词语集合和第三词语集合的并集,获取并集中每个候选关键词与原始文档的第二关联度,根据第二关联度从并集中选择至少一个候选关键词构成原始文档的关键词集合。虽然该技术可减少计算复杂度,提升计算速度;解决现有方法中优先选择高频词的问题;有效丰富关键词的表达方式。但是依然存在丢失一些重要的敏感词。
综上所述,现有技术中的这种使用关键词匹配敏感数据方法,存在占用计算资源高、时间周期长、匹配领域没有针对性等缺点。因此,为了提升工作效率、降低计算资源,亟需找到一种能够对关键词进行准确分类分级的方案,方便工作人员,在有限的资源和时间条件下,选择优先级更高的关键词目标,以快速高效、有针对性的从海量的互联网信息中查找和追回敏感数据。
发明内容
本发明所要解决的技术问题在于如何快速高效、有针对性的从海量的互联网信息中查找和追回敏感数据。
本发明通过以下技术手段实现解决上述技术问题的:
一种用于敏感数据泄露检测的关键词语义分类方法,包括以下步骤:
S01,输入敏感关键词库;
S02,词向量化,使用自然语言处理技术对关键词库向量化;
S03,数据降维,对每个关键词对应的向量数据降维;
S04,聚类分析,对已经降维的向量数据,进行聚类分析;
S05,类别标识,对已经完成聚类分析的关键词向量,结合业务对关键词类别进行标识;
S06,类别优化,根据所有已经标识的类别标签,对每个类别进行关键词分组优化;
S07,输出敏感关键词库类别。
优选的,其特征在于:S01中的方法为:与系统维护和相关业务人员确定已经准备好的待分类的关键词库,作为输入内容,记为集合<K>。
优选的,S02中的方法为:使用自然语言处理工具BERT,对输入内容<K>中的所有词汇,进行词向量转换,生成向量化的关键词库集合<Kv>。
优选的,词向量转换具体方法为:部署Bert-serving词向量转化服务;然后使用Bert-serving对集合<K>内的所有词汇进行向量转换,生成词向量集合<Kv>。
优选的,步骤S03方法具体为:对集合<Kv>进行降维;集合<Kv>中的每个关键词向量都为768高维数组矩阵,使用TSEN降维算法将每个关键词向量处理为2维数据。
优选的,步骤S04方法具体为:使用Kmeans算法对S03生成的关键词向量集合<Kv>进行聚类分析,得出n个关键词向量类别,对应至集合<K>,即获得已经具有分类标签的关键词库Kn,其中类别n的设定是由算法模型构建过程中自动获取的最优数值。
优选的,S05中的方法为:专家介入,对Kn的类别标签进行业务属性标识,得到有业务领域分类的KN。
优选的,S06中的方法为:在S05的分析结果中,经过业务专家选定重点关注的关键词类别KNx作为后续工作使用,具体为:将KNx中的所有词作为计算对象KNxi,然后在关键词向量集合<Kv>中寻找与计算对象语义相似度高于百分之九十的词汇补充至重点关键词类别KNx中,得到类别优化后的重点关键词汇类别KNX;
其中相似度计算采用余弦相似度计算,公式如下:
其中A、B分别代表需要计算相似度的两个对象,i代表对象位置,n代表对象长度。
本发明还提供一种用于敏感数据泄露检测的关键词语义分类系统,应用于上述的方法,包括
输入模块,输入敏感关键词库;
词向量化模块,使用自然语言处理技术对关键词库向量化;
数据降维模块,对每个关键词对应的向量数据降维;
聚类分析模块,对已经降维的向量数据,进行聚类分析;
类别标识模块,对已经完成聚类分析的关键词向量,结合业务对关键词类别进行标识;
类别优化模块,根据所有已经标识的类别标签,对每个类别进行关键词分组优化;
输出模块,输出敏感关键词库类别。
优选的,所述类别优化模块具体优化过程为:经过业务专家选定重点关注的关键词类别KNx作为后续工作使用,具体为:将KNx中的所有词作为计算对象KNxi,然后在关键词向量集合<Kv>中寻找与计算对象语义相似度高于百分之九十的词汇补充至重点关键词类别KNx中,得到类别优化后的重点关键词汇类别KNX;
其中相似度计算采用余弦相似度计算,公式如下:
其中A、B分别代表需要计算相似度的两个对象,i代表对象位置,n代表对象长度。
本发明的优点在于:
以向量化形式表达词汇,以达到对词汇的分类分级;基于特定类别的词汇,使用相似度计算,优化词汇分类;将庞大的关键词库分类细化,提高了使用者的工作效率和指定领域的数据匹配精准度;解决了现有技术中使用的关键词匹配敏感数据方法,存在占用计算资源高、时间周期长、匹配领域没有针对性等缺点。并提了升工作效率、降低计算资源,和对关键词进行了准确分类分级,方便工作人员,在有限的资源和时间条件下,选择优先级更高的关键词目标,以快速高效、有针对性的从海量的互联网信息中查找和追回敏感数据。
附图说明
图1为本发明实施例中一种用于敏感数据泄露检测的关键词语义分类方法的流程框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种用于敏感数据泄露检测的关键词语义分类方法,如图1所示,具体步骤如下:
步骤1,输入敏感关键词库;
步骤2,词向量化,使用自然语言处理技术对关键词库向量化;
步骤3,数据降维,对每个关键词对应的向量数据降维;
步骤4,聚类分析,对已经降维的向量数据,进行聚类分析;
步骤5,类别标识,对已经完成聚类分析的关键词向量,结合业务对关键词类别进行标识;
步骤6,类别优化,根据所以已经标识的类别标签,对每个类别进行关键词分组优化;
步骤7,输出敏感关键词库类别。
下面具体说明每个步骤内容:
步骤1中的方法为:与系统维护和相关业务人员确定已经准备好的待分类的关键词库,作为输入内容,记为集合<K>;
步骤2中的方法为:
使用自然语言处理工具BERT,对输入内容<K>中的所有词汇,进行词向量转换,生成向量化的关键词库集合<Kv>;
步骤21:部署Bert-serving词向量转化服务;
其中BERT全称是自变换器的双向编码器表征量(Bidirectional EncoderRepresentations from Transformers),它是Google于2018年开发并发布的一种新型语言模型,在问答、命名实体识别、自然语言推理、文本分类等自然语言处理领域具有高精度应用;它利用了web上公开的海量纯文本数据,并以一种无监督的方式进行训练。BERT模型的预训练对于每种语言来说都是相当复杂的计算过程。谷歌发布了一些预先训练好的模型,供科学研究使用。在此部署的Bert-serving是基于其中的ber-base-chinese预训练模型的开发的一种功能,用于词向量生成;
步骤22:使用Bert-serving对集合<K>内的所有词汇进行向量转换,生成词向量集合<Kv>;
步骤3中的方法为:对步骤22中生成的集合<Kv>进行降维;集合<Kv>中的每个关键词向量都为768高维数组矩阵,使用TSEN降维算法将每个关键词向量处理为2维数据;
其中TSNE是由SNE衍生出的一种算法,SNE最早出现在2002年,它改变传统降维算法中基于距离不变的思想,将高维映射到低维的同时,尽量保证相互之间的分布概率不变,SNE将高维和低维中的样本分布都看作高斯分布,而Tsne将低维中的数据当做T分布,这样做的好处是为了让簇之间的距离拉大,从而解决了拥挤问题,并且对异常点不敏感,保证了该降维算法的鲁棒性,因此其拟合结果更为合理,较好的捕获了数据的整体特征,从而获得更加优质的低维数据;
步骤4中的方法为:使用Kmeans算法对步骤3生成的关键词向量集合<Kv>进行聚类分析,得出n个关键词向量类别,对应至集合<K>,即获得已经具有分类标签的关键词库Kn,其中类别n的设定是由算法模型构建过程中自动获取的最优数值;
步骤5中的方法为:专家介入,对Kn的类别标签进行业务属性标识,得到有业务领域分类的KN;
步骤6中的方法为:在步骤5的分析结果中,经过业务专家可以选定重点关注的关键词类别KNx作为后续工作使用,但是由于步骤4的聚类算法本身的局限性,会导致部分关键词遗漏,针对此类问题,我们将KNx中的所有词作为计算对象KNxi,然后在关键词向量集合<Kv>中寻找与计算对象语义相似度高于百分之九十的词汇补充至重点关键词类别KNx中,得到类别优化后的重点关键词汇类别KNX;
其中余弦相似度是通过计算两个向量的夹角余弦值来评估他们的相似度,常使用于文本相似度计算,
其中余弦相似度计算公式如下:
其中A、B分别代表需要计算相似度的两个对象,i代表对象位置,n代表对象长度。
本发明还提供一种用于敏感数据泄露检测的关键词语义分类系统,应用于上述的方法,包括
输入模块,输入敏感关键词库;
词向量化模块,使用自然语言处理技术对关键词库向量化;
数据降维模块,对每个关键词对应的向量数据降维;
聚类分析模块,对已经降维的向量数据,进行聚类分析;
类别标识模块,对已经完成聚类分析的关键词向量,结合业务对关键词类别进行标识;
类别优化模块,根据所有已经标识的类别标签,对每个类别进行关键词分组优化;
输出模块,输出敏感关键词库类别。
下面具体说明每个模块的执行内容:
输入模块中的方法为:与系统维护和相关业务人员确定已经准备好的待分类的关键词库,作为输入内容,记为集合<K>;
词向量化模块中的方法为:
使用自然语言处理工具BERT,对输入内容<K>中的所有词汇,进行词向量转换,生成向量化的关键词库集合<Kv>;
步骤21:部署Bert-serving词向量转化服务;
其中BERT全称是自变换器的双向编码器表征量(Bidirectional EncoderRepresentations from Transformers),它是Google于2018年开发并发布的一种新型语言模型,在问答、命名实体识别、自然语言推理、文本分类等自然语言处理领域具有高精度应用;它利用了web上公开的海量纯文本数据,并以一种无监督的方式进行训练。BERT模型的预训练对于每种语言来说都是相当复杂的计算过程。谷歌发布了一些预先训练好的模型,供科学研究使用。在此部署的Bert-serving是基于其中的ber-base-chinese预训练模型的开发的一种功能,用于词向量生成;
步骤22:使用Bert-serving对集合<K>内的所有词汇进行向量转换,生成词向量集合<Kv>;
数据降维模块中的方法为:对步骤22中生成的集合<Kv>进行降维;集合<Kv>中的每个关键词向量都为768高维数组矩阵,使用TSEN降维算法将每个关键词向量处理为2维数据;
其中TSNE是由SNE衍生出的一种算法,SNE最早出现在2002年,它改变传统降维算法中基于距离不变的思想,将高维映射到低维的同时,尽量保证相互之间的分布概率不变,SNE将高维和低维中的样本分布都看作高斯分布,而Tsne将低维中的数据当做T分布,这样做的好处是为了让簇之间的距离拉大,从而解决了拥挤问题,并且对异常点不敏感,保证了该降维算法的鲁棒性,因此其拟合结果更为合理,较好的捕获了数据的整体特征,从而获得更加优质的低维数据;
聚类分析模块中的方法为:使用Kmeans算法对步骤3生成的关键词向量集合<Kv>进行聚类分析,得出n个关键词向量类别,对应至集合<K>,即获得已经具有分类标签的关键词库Kn,其中类别n的设定是由算法模型构建过程中自动获取的最优数值;
类别标识模块中的方法为:专家介入,对Kn的类别标签进行业务属性标识,得到有业务领域分类的KN;
类别优化模块中的方法为:在步骤5的分析结果中,经过业务专家可以选定重点关注的关键词类别KNx作为后续工作使用,但是由于步骤4的聚类算法本身的局限性,会导致部分关键词遗漏,针对此类问题,我们将KNx中的所有词作为计算对象KNxi,然后在关键词向量集合<Kv>中寻找与计算对象语义相似度高于百分之九十的词汇补充至重点关键词类别KNx中,得到类别优化后的重点关键词汇类别KNX;
其中余弦相似度是通过计算两个向量的夹角余弦值来评估他们的相似度,常使用于文本相似度计算,
其中余弦相似度计算公式如下:
其中A、B分别代表需要计算相似度的两个对象,i代表对象位置,n代表对象长度。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种用于敏感数据泄露检测的关键词语义分类方法,其特征在于:包括以下步骤:
S01,输入敏感关键词库;
S02,词向量化,使用自然语言处理技术对关键词库向量化;
S03,数据降维,对每个关键词对应的向量数据降维;
S04,聚类分析,对已经降维的向量数据,进行聚类分析;
S05,类别标识,对已经完成聚类分析的关键词向量,结合业务对关键词类别进行标识;
S06,类别优化,根据所有已经标识的类别标签,对每个类别进行关键词分组优化;
S07,输出敏感关键词库类别。
2.根据权利要求1所述的一种用于敏感数据泄露检测的关键词语义分类方法,其特征在于:S01中的方法为:与系统维护和相关业务人员确定已经准备好的待分类的关键词库,作为输入内容,记为集合<K>。
3.根据权利要求1所述的一种用于敏感数据泄露检测的关键词语义分类方法,其特征在于:S02中的方法为:使用自然语言处理工具BERT,对输入内容<K>中的所有词汇,进行词向量转换,生成向量化的关键词库集合<Kv>。
4.根据权利要求3所述的一种用于敏感数据泄露检测的关键词语义分类方法,其特征在于:词向量转换具体方法为:部署Bert-serving词向量转化服务;然后使用Bert-serving对集合<K>内的所有词汇进行向量转换,生成词向量集合<Kv>。
5.根据权利要求3或4所述的一种用于敏感数据泄露检测的关键词语义分类方法,其特征在于:步骤S03方法具体为:对集合<Kv>进行降维;集合<Kv>中的每个关键词向量都为768高维数组矩阵,使用TSEN降维算法将每个关键词向量处理为2维数据。
6.根据权利要求1所述的一种用于敏感数据泄露检测的关键词语义分类方法,其特征在于:步骤S04方法具体为:使用Kmeans算法对S03生成的关键词向量集合<Kv>进行聚类分析,得出n个关键词向量类别,对应至集合<K>,即获得已经具有分类标签的关键词库Kn,其中类别n的设定是由算法模型构建过程中自动获取的最优数值。
7.根据权利要求6所述的一种用于敏感数据泄露检测的关键词语义分类方法,其特征在于:S05中的方法为:专家介入,对Kn的类别标签进行业务属性标识,得到有业务领域分类的KN。
9.一种用于敏感数据泄露检测的关键词语义分类系统,其特征在于:应用于权利要求1至8任一所述的方法,包括
输入模块,输入敏感关键词库;
词向量化模块,使用自然语言处理技术对关键词库向量化;
数据降维模块,对每个关键词对应的向量数据降维;
聚类分析模块,对已经降维的向量数据,进行聚类分析;
类别标识模块,对已经完成聚类分析的关键词向量,结合业务对关键词类别进行标识;
类别优化模块,根据所有已经标识的类别标签,对每个类别进行关键词分组优化;
输出模块,输出敏感关键词库类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010578950.8A CN111694961A (zh) | 2020-06-23 | 2020-06-23 | 一种用于敏感数据泄露检测的关键词语义分类方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010578950.8A CN111694961A (zh) | 2020-06-23 | 2020-06-23 | 一种用于敏感数据泄露检测的关键词语义分类方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111694961A true CN111694961A (zh) | 2020-09-22 |
Family
ID=72483267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010578950.8A Pending CN111694961A (zh) | 2020-06-23 | 2020-06-23 | 一种用于敏感数据泄露检测的关键词语义分类方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111694961A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011171A (zh) * | 2021-03-05 | 2021-06-22 | 北京市博汇科技股份有限公司 | 一种基于bert的违规文本识别算法及装置 |
CN114239591A (zh) * | 2021-12-01 | 2022-03-25 | 马上消费金融股份有限公司 | 敏感词识别方法及装置 |
CN115455484A (zh) * | 2022-09-22 | 2022-12-09 | 鲍周艳 | 一种针对云计算空间的数据泄露应对方法及服务器 |
CN116049693A (zh) * | 2023-03-17 | 2023-05-02 | 济南市计量检定测试院 | 一种基于医疗设备的计量检定数据管理方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090099040A1 (en) * | 2007-10-15 | 2009-04-16 | Sigma Aldrich Company | Degenerate oligonucleotides and their uses |
US20140280145A1 (en) * | 2013-03-15 | 2014-09-18 | Robert Bosch Gmbh | System and method for clustering data in input and output spaces |
CN104391963A (zh) * | 2014-12-01 | 2015-03-04 | 北京中科创益科技有限公司 | 一种自然语言文本关键词关联网络构建方法 |
WO2017101342A1 (zh) * | 2015-12-15 | 2017-06-22 | 乐视控股(北京)有限公司 | 情感分类方法及装置 |
CN109299272A (zh) * | 2018-10-31 | 2019-02-01 | 北京国信云服科技有限公司 | 一种用于神经网络输入的大信息量文本表示方法 |
CN110674293A (zh) * | 2019-08-27 | 2020-01-10 | 电子科技大学 | 一种基于语义迁移的文本分类方法 |
CN110889443A (zh) * | 2019-11-21 | 2020-03-17 | 成都数联铭品科技有限公司 | 无监督文本分类系统及方法 |
CN111241361A (zh) * | 2020-01-09 | 2020-06-05 | 福州数据技术研究院有限公司 | 基于云平台的企业与高校的智能引荐系统及方法 |
-
2020
- 2020-06-23 CN CN202010578950.8A patent/CN111694961A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090099040A1 (en) * | 2007-10-15 | 2009-04-16 | Sigma Aldrich Company | Degenerate oligonucleotides and their uses |
US20140280145A1 (en) * | 2013-03-15 | 2014-09-18 | Robert Bosch Gmbh | System and method for clustering data in input and output spaces |
CN104391963A (zh) * | 2014-12-01 | 2015-03-04 | 北京中科创益科技有限公司 | 一种自然语言文本关键词关联网络构建方法 |
WO2017101342A1 (zh) * | 2015-12-15 | 2017-06-22 | 乐视控股(北京)有限公司 | 情感分类方法及装置 |
CN109299272A (zh) * | 2018-10-31 | 2019-02-01 | 北京国信云服科技有限公司 | 一种用于神经网络输入的大信息量文本表示方法 |
CN110674293A (zh) * | 2019-08-27 | 2020-01-10 | 电子科技大学 | 一种基于语义迁移的文本分类方法 |
CN110889443A (zh) * | 2019-11-21 | 2020-03-17 | 成都数联铭品科技有限公司 | 无监督文本分类系统及方法 |
CN111241361A (zh) * | 2020-01-09 | 2020-06-05 | 福州数据技术研究院有限公司 | 基于云平台的企业与高校的智能引荐系统及方法 |
Non-Patent Citations (6)
Title |
---|
BANERJEE, A ET AL: "Frequency-sensitive competitive learning for scalable balanced clustering on high-dimensional hyperspheres", 《IEEE TRANSACTIONS ON NEURAL NETWORKS》 * |
BANERJEE, A ET AL: "Frequency-sensitive competitive learning for scalable balanced clustering on high-dimensional hyperspheres", 《IEEE TRANSACTIONS ON NEURAL NETWORKS》, 1 May 2004 (2004-05-01) * |
于泽阳: "基于卷积神经网络的基因表达预测研究", 《中国知网硕士学位论文电子期刊》 * |
于泽阳: "基于卷积神经网络的基因表达预测研究", 《中国知网硕士学位论文电子期刊》, 15 November 2019 (2019-11-15) * |
赵国荣等: "一种基于组块分析的共现词提取方法", 《情报科学》 * |
赵国荣等: "一种基于组块分析的共现词提取方法", 《情报科学》, no. 12, 5 December 2017 (2017-12-05) * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011171A (zh) * | 2021-03-05 | 2021-06-22 | 北京市博汇科技股份有限公司 | 一种基于bert的违规文本识别算法及装置 |
CN114239591A (zh) * | 2021-12-01 | 2022-03-25 | 马上消费金融股份有限公司 | 敏感词识别方法及装置 |
CN114239591B (zh) * | 2021-12-01 | 2023-08-18 | 马上消费金融股份有限公司 | 敏感词识别方法及装置 |
CN115455484A (zh) * | 2022-09-22 | 2022-12-09 | 鲍周艳 | 一种针对云计算空间的数据泄露应对方法及服务器 |
CN116049693A (zh) * | 2023-03-17 | 2023-05-02 | 济南市计量检定测试院 | 一种基于医疗设备的计量检定数据管理方法 |
CN116049693B (zh) * | 2023-03-17 | 2023-06-06 | 济南市计量检定测试院 | 一种基于医疗设备的计量检定数据管理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111694961A (zh) | 一种用于敏感数据泄露检测的关键词语义分类方法与系统 | |
CN113449099B (zh) | 文本分类方法和文本分类设备 | |
Dashtipour et al. | Exploiting deep learning for Persian sentiment analysis | |
CN111324784A (zh) | 一种字符串处理方法及装置 | |
CN107391565B (zh) | 一种基于主题模型的跨语言层次分类体系匹配方法 | |
CN113033183B (zh) | 一种基于统计量与相似性的网络新词发现方法及系统 | |
Raisa et al. | A review on Twitter sentiment analysis approaches | |
CN116127090A (zh) | 基于融合和半监督信息抽取的航空系统知识图谱构建方法 | |
CN112685374B (zh) | 日志分类方法、装置及电子设备 | |
CN117454220A (zh) | 数据分级分类方法、装置、设备及存储介质 | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
Devarajan et al. | Analyzing semantic similarity amongst textual documents to suggest near duplicates | |
CN116680590A (zh) | 基于工作说明书解析的岗位画像标签提取方法及装置 | |
CN114238735B (zh) | 一种互联网数据智能采集方法 | |
CN117077680A (zh) | 问答意图识别方法及装置 | |
CN114610882A (zh) | 一种基于电力短文本分类的异常设备编码检测方法和系统 | |
Shahade et al. | Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining | |
CN114254622A (zh) | 一种意图识别方法和装置 | |
Ahmad et al. | Sentiment analysis of social media contents using machine learning algorithms | |
CN111199170B (zh) | 配方文件识别方法及装置、电子设备、存储介质 | |
Sinha et al. | Break Down Resumes into Sections to Extract Data and Perform Text Analysis using Python | |
ul haq Dar et al. | Classification of job offers of the World Wide Web | |
US11537647B2 (en) | System and method for decision driven hybrid text clustering | |
CN117221839B (zh) | 5g信令识别方法及其系统 | |
Xie et al. | A Content-based Intelligent Label Classification System for Warehouse Management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200922 |