CN109918548A - 一种自动检测文档敏感信息的方法和应用 - Google Patents
一种自动检测文档敏感信息的方法和应用 Download PDFInfo
- Publication number
- CN109918548A CN109918548A CN201910124529.7A CN201910124529A CN109918548A CN 109918548 A CN109918548 A CN 109918548A CN 201910124529 A CN201910124529 A CN 201910124529A CN 109918548 A CN109918548 A CN 109918548A
- Authority
- CN
- China
- Prior art keywords
- sensitive
- word
- sensitive information
- dictionary
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明公开了一种自动检测文档敏感信息的方法和应用,包括以下步骤:S1、敏感词典的准备;S2、检测敏感信息,包括以下子步骤:S21、使用精确匹配进行匹配与敏感词典中的词完全相同的词,得到敏感词的位置,放入bitmap中;S22、使用模糊匹配;S3、构建REST服务:将敏感信息检测方法应用到REST服务,将其作为一个库,可以被用户使用REST‑API调用。该自动检测文档敏感信息的方法和应用,与传统的人工分析的方法来统计文档中的敏感信息相比,该方法结合了AC自动机等自然语言处理技术,能够快速准确的分析文本文档中的敏感信息,对于被模糊处理的敏感信息,如使用繁体字、拼音、形近、同音字来代替原来的汉字,也能够准确识别。
Description
技术领域
本发明涉及文本分析技术领域,具体为一种自动检测文档敏感信息的方法和应用。
背景技术
根据2018年第42次中国互联网发展状况统计报告显示,我国网民规模为8.02亿,面对如此之多的互联网用户,对于与内容服务相关的企业来讲,用户所发布的信息数量非常庞大。
而在互联网用户提供的海量、庞杂的信息中,有很多与色情、广告、涉政、暴恐等多类敏感信息。如果通过人工的方式去检测用户发布的文档是否包含敏感信息,则非常费时费力。于此同时,用户会使用一些模糊手段,将敏感信息混淆为正常信息,例如,对于“六合彩”,使用同音字“和”代替“合”,或者使用拼音“liu”代替“六”等手段来混淆敏感信息。因此如何快速、准确的检测大量文档中的敏感信息成为了一个亟待解决的问题。
目前,对于文档的敏感信息检测,AC自动机是一种有效的解决方法。AC自动机是著名的多模匹配算法之一,与Trie树和KMP模式匹配算法的关系比较大,但是它对于混淆的中文敏感信息,不能很好的工作,因此,本发明提出了一种改进的AC自动机方法,用于解决此问题。
发明内容
本发明的目的在于提供一种自动检测文档敏感信息的方法和应用,以解决上述背景技术中提出的仅用人工的方式去检测用户发布的文档是否包含敏感信息,非常费时费力,无法快速、准确的检测大量文档中的敏感信息,而AC自动机对于混淆的中文敏感信息,不能很好的工作的问题。
为实现上述目的,本发明提供如下技术方案:一种自动检测文档敏感信息的方法和应用,包括以下步骤:
S1、敏感词典的准备,包括以下子步骤:
S11、准备好敏感词典,敏感词典中的结构为词-敏感词类型-权重;
S12、根据敏感词典,构建符合需求的AC自动机;
S13、针对每个汉字,构建其相应的拼音、形近字、同音字和繁体等的模糊信息库;
S2、检测敏感信息,包括以下子步骤:
S21、使用精确匹配进行匹配与敏感词典中的词完全相同的词,得到敏感词的位置,放入bitmap中;
S22、使用模糊匹配,首先通过bitmap过滤已经精确匹配的词的位置,然后结合已建立好的信息库进行模糊匹配,匹配出与敏感词有一定相似度的词;
S23、统计每个的词的位置,所属敏感类型、敏感覆盖率以及敏感权重;
S3、构建REST服务:将敏感信息检测方法应用到REST服务,将其作为一个库,可以被用户使用REST-API调用。
优选的,所述敏感词典有三列,分别表示敏感词、敏感词类型以及权重,敏感词类有涉赌、涉毒、粗言秽语、政治反动、色情等等类型,且权重的取值范围为1到10之间。
优选的,所述AC自动机是由敏感词典、Trie树和fail指针所构建,且Trie树根据敏感词典所构建,并且fail指针是根据Trie树所建立。
优选的,所述敏感词的检测可以分为精确匹配和模糊匹配两个过程,且精确匹配指的是搜索文档中与敏感词完全一致的字符串,并且模糊搜索是通过使用与繁体、拼音、同音、形近等信息库相结合的策略进行处理。
优选的,所述敏感信息检测使用Python3来编程实现,且基于tornado框架作为REST服务的基本框架,将敏感信息检测作为一个库集成到服务中,并提供REST-API。
与现有技术相比,本发明的有益效果是:
1、与传统的人工分析的方法来统计文档中的敏感信息相比,该方法结合了AC自动机等自然语言处理技术,能够快速准确的分析文本文档中的敏感信息,对于被模糊处理的敏感信息,如使用繁体字、拼音、形近、同音字来代替原来的汉字,也能够准确识别,同时,构建了基于REST-API的敏感信息检测服务,为敏感信息检测的工程应用实现上提供了一种思路;
2、对原始的AC自动机进行了一些改进,不但可以精确检测出与敏感词库中的敏感信息,还可以准确检测被模糊处理的敏感信息,如使用形近、同音、繁体、拼音字等替换敏感信息中某个或某几个字,然后给出敏感词的在文档中的位置、所属的敏感类型以及文档的敏感指数,最后,将检测方法应用到REST服务中,提供REST-API以供使用。
附图说明
图1为本发明敏感信息的匹配流程示意图;
图2为本发明AC自动机的构建流程示意图;
图3为本发明基于REST-API的敏感信息检测服务架构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-3,本发明提供一种技术方案:一种自动检测文档敏感信息的方法和应用,包括以下步骤:
S1、敏感词典的准备,包括以下子步骤:
S11、准备好敏感词典,敏感词典中的结构为词-敏感词类型-权重;
敏感词典有三列,分别表示敏感词、敏感词类型以及权重,敏感词有涉赌、涉毒、粗言秽语、政治反动、色情等等类型,且权重的取值范围为1到10之间;
S12、根据敏感词典,构建符合需求的AC自动机;
AC自动机是由敏感词典、Trie树和fail指针所构建,且Trie树根据敏感词典所构建,并且fail指针是根据Trie树所建立,Trie树使用哈希表来代替数组,有效的解决了空间浪费问题,fail指针通过BFS(广度优先搜索)来求得;
S13、针对每个汉字,构建其相应的繁体、拼音、同音和形近等的模糊信息库,用户可能会使用繁体、拼音、同音和形近等手段来模糊处理敏感信息。因此,我们需要分别建立繁体、拼音、同音和形近等的模糊信息库。繁体字就很简单了,就是简体字和繁体字的区别,比如“对”和“對”。拼音信息库为汉字拼音拼写相同的所有汉字,如拼音为“yi”的所有汉字。同音字信息库为读音相同的所有汉字,也就是拼音拼写相同而且音调也相同的字,比如“意”和“义”。形近字是汉字字形很相似的字,比如“人”和“入”。模糊信息库有四种,分别是繁体信息库、拼音信息库、同音信息库和形近信息库,为了便于计算机查询信息库,将这些信息库转化为哈希表的形式;
S2、检测敏感信息,包括以下子步骤:敏感词的检测可以分为精确匹配和模糊匹配两个过程,且精确匹配指的是搜索文档中与敏感词完全一致的字符串,并且模糊搜索是通过与繁体、拼音、同音、形近等信息库相结合的策略进行处理;
S21、使用精确匹配进行匹配与敏感词典中的词完全相同的词,得到敏感词的位置,放入bitmap中;匹配过程分为两种情况:
(1)当前字符匹配,表示从当前节点沿着树边有一条路径可以到达目标字符,如果当前匹配的字符是一个词语的结尾,我们可以沿着当前字符的fail指针,一直遍历到root节点,如果这些节点有结尾标记,这些节点全都是可以匹配上的节点。我们统计这些带有结尾标记的词,并且记下文档字符串的位置。此时只需沿该路径走向下一个节点继续匹配即可,文档字符串指针移向下个字符继续匹配。
(2)当前字符不匹配,则去当前节点的fail指针所指向的字符继续匹配,匹配过程随着指针指向root节点结束;
重复这两个过程中的任意一个,直到为文档字符串走到结尾为止;
S22、使用模糊匹配,首先通过bitmap过滤已经精确匹配的词的位置,然后结合已建立好的信息库进行模糊匹配,有时用户为了避免被检查到敏感词,会用一些相似的字或者拼音来代替敏感词中的某些字。这样精确匹配就没法有效的检测出这些敏感词了。对于简体汉字来讲如果使用相似的字、相同读音的字、繁体字或者拼音来代替对应的字,从语义上来讲,往往不影响用户的阅读。这里称这些词为混淆词。例如用户可以使用“liu和彩”来模糊处理敏感词“六合彩”。对于如何识别混淆词,本方法通过使用与繁体、拼音、同音、形近等信息库相结合的策略进行处理,匹配出与敏感词有一定相似度的词,同样分为两个过程。
(1)当某个字符被匹配到时,和精确匹配的处理方式一样。如果遇到结尾标记,则统计匹配到的词和文档中的位置。最后则移动文档字符串的指针到下一个字符,同时沿着Trie树往下走。
(2)如果当某个字符没有被匹配到时,首先,查询其是否是繁体,若是繁体,则转化为简体,其次,查询为否为拼音,若是拼音,则转化为所有拼音与其相同的汉字,然后,查询该字符所有可能的形近字、音近字。然后分别使用这些字做精确匹配。如果能匹配到,则目标字符指针指到下一个字符,如果没匹配到,则去当前字符的fail指针所指向的节点,继续匹配,直到指向root节点为止;
重复这两个过程中的任意一个,直到为文档字符串走到结尾为止。为了防止重复检测到精确匹配到的敏感词,本方法使用了bitmap来过滤,首先,将精确匹配到的敏感词的位置,存入到bitmap中,然后,如果模糊匹配的文档字符串的位置在bitmap中出现,则使文档字符串的指针指到下一个位置,开始新一轮匹配。
S23、统计每个的词的位置,所属敏感类型、敏感覆盖率以及敏感权重;
经过精确匹配和模糊匹配后,得到已经匹配的词,同时也得到了敏感词的位置信息。因此我们可以计算敏感覆盖率,其公式如下。
其中,wordi表示匹配的n个敏感词中的第i个敏感词,freq(wordi)表示敏感词出现的频率,|wordi|表示敏感词的长度,|document|表示文档的长度。敏感覆盖率越大说明文档中敏感信息的数量就越多。
举个例子,对于文档A,文档长度为20含有敏感词B和C,B和C出现的频率分别为2,1,长度分别是2,3,则敏感覆盖率为:
根据词典,我们可以获取敏感词的敏感类型以及权重。敏感词之间的权重不一样,因此我们可以计算敏感词的综合权重,公式如下所示:
其中,wordi表示匹配的n个敏感词中的第i个敏感词,freq(wordi)表示敏感词出现的频率,weight(wordi)表示敏感词的权重。根据敏感权重可以估计文档的敏感程度。
举个例子,对于匹配的敏感词B和C,它们的权重分别是1和2,频率分别是2和3,则敏感权重为:
通过敏感覆盖率和敏感权重两个维度,可以评估文档中敏感信息的严重程度。
S3、构建REST服务:将敏感信息检测方法应用到REST服务,将其作为一个库,可以被用户使用REST-API调用,敏感信息检测使用Python3来编程实现,且基于tornado框架作为REST服务的基本框架,将敏感信息检测作为一个库集成到服务中,并提供了REST-API。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (5)
1.一种自动检测文档敏感信息的方法和应用,包括以下步骤:
S1、敏感词典的准备,包括以下子步骤:
S11、准备好词典,敏感词典中的结构为词-敏感词类型-权重;
S12、根据敏感词典,构建符合需求的AC自动机;
S13、针对每个汉字,构建其相应的拼音、形近字、同音字和繁体等的模糊信息库;
S2、检测敏感信息,包括以下子步骤:
S21、使用精确匹配进行匹配与敏感词典中的词完全相同的词,得到敏感词的位置,放入bitmap中;
S22、使用模糊匹配,首先通过bitmap过滤已经精确匹配的词的位置,然后结合已建立好的信息库进行模糊匹配,匹配出与敏感词有一定相似度的词;
S23、统计每个的词的位置,所属敏感类型、敏感覆盖率以及敏感权重;
S3、构建REST服务:将敏感信息检测方法应用到REST服务,将其作为一个库,可以被用户使用REST-API调用。
2.根据权利要求1所述的一种自动检测文档敏感信息的方法和应用,其特征在于:所述敏感词典有三列,分别表示敏感词、敏感词类型以及权重,敏感词有涉赌、涉毒、粗言秽语、政治反动、色情等等类型,且权重的取值范围为1到10之间。
3.根据权利要求1所述的一种自动检测文档敏感信息的方法和应用,其特征在于:所述AC自动机是由敏感词典、Trie树和fail指针所构建,且Trie树根据敏感词典所构建,并且fail指针是根据Trie树所建立。
4.根据权利要求1所述的一种自动检测文档敏感信息的方法和应用,其特征在于:所述敏感词的检测可以分为精确匹配和模糊匹配两个过程,且精确匹配指的是搜索文档中与敏感词完全一致的字符串,并且模糊搜索是通过使用与繁体、拼音、同音、形近等信息库相结合的策略进行处理。
5.根据权利要求1所述的一种自动检测文档敏感信息的方法和应用,其特征在于:所述敏感信息检测使用Python3来编程实现,且基于tornado框架作为REST服务的基本框架,将敏感信息检测作为一个库集成到服务中,并提供REST-API。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910124529.7A CN109918548A (zh) | 2019-04-08 | 2019-04-08 | 一种自动检测文档敏感信息的方法和应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910124529.7A CN109918548A (zh) | 2019-04-08 | 2019-04-08 | 一种自动检测文档敏感信息的方法和应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109918548A true CN109918548A (zh) | 2019-06-21 |
Family
ID=66961778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910124529.7A Pending CN109918548A (zh) | 2019-04-08 | 2019-04-08 | 一种自动检测文档敏感信息的方法和应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109918548A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851590A (zh) * | 2019-09-11 | 2020-02-28 | 上海爱数信息技术股份有限公司 | 一种通过敏感词检测与非法内容识别进行文本分类的方法 |
CN111078827A (zh) * | 2019-12-23 | 2020-04-28 | 上海米哈游天命科技有限公司 | 一种关键词判断方法、装置、设备和介质 |
CN111680128A (zh) * | 2020-06-16 | 2020-09-18 | 杭州安恒信息技术股份有限公司 | 一种网页敏感词检测方法、检测系统及相关装置 |
CN111831785A (zh) * | 2020-07-16 | 2020-10-27 | 平安科技(深圳)有限公司 | 敏感词检测方法、装置、计算机设备及存储介质 |
CN112100361A (zh) * | 2020-11-12 | 2020-12-18 | 南京中孚信息技术有限公司 | 一种基于ac自动机的字符串多模模糊匹配方法 |
CN112329055A (zh) * | 2020-11-02 | 2021-02-05 | 微医云(杭州)控股有限公司 | 用户数据脱敏的方法及装置、电子设备、存储介质 |
CN112417103A (zh) * | 2020-12-02 | 2021-02-26 | 百度国际科技(深圳)有限公司 | 用于检测敏感词的方法、装置、设备和存储介质 |
CN112766236A (zh) * | 2021-03-10 | 2021-05-07 | 拉扎斯网络科技(上海)有限公司 | 文本生成方法、装置、计算机设备及计算机可读存储介质 |
CN112949691A (zh) * | 2021-02-02 | 2021-06-11 | 山东寻声网络科技有限公司 | 一种用于企业的舆情监测系统 |
CN113010882A (zh) * | 2021-03-18 | 2021-06-22 | 哈尔滨工业大学 | 一种适用于缓存丢失攻击的自定义位置顺序模式匹配算法 |
CN113051925A (zh) * | 2019-12-26 | 2021-06-29 | 中国移动通信集团有限公司 | 时间识别方法、装置、设备及计算机存储介质 |
CN113822059A (zh) * | 2021-09-18 | 2021-12-21 | 北京云上曲率科技有限公司 | 中文敏感文本识别方法、装置、存储介质及设备 |
CN115563288A (zh) * | 2022-12-06 | 2023-01-03 | 北京匠数科技有限公司 | 一种文本检测的方法、装置、电子设备及存储介质 |
CN116166698A (zh) * | 2023-01-12 | 2023-05-26 | 之江实验室 | 一种基于通用医疗术语的快速构建队列方法及系统 |
CN116562297A (zh) * | 2023-07-07 | 2023-08-08 | 北京电子科技学院 | 基于HTrie树的中文敏感词变形体识别方法及系统 |
CN117493540A (zh) * | 2023-12-28 | 2024-02-02 | 荣耀终端有限公司 | 文本匹配方法、终端设备及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101324883A (zh) * | 2008-07-31 | 2008-12-17 | 电子科技大学 | 一种变异关键词的提取方法 |
CN105260354A (zh) * | 2015-08-20 | 2016-01-20 | 及时标讯网络信息技术(北京)有限公司 | 一种基于关键词字典树构造的中文ac自动机工作方法 |
CN106446232A (zh) * | 2016-10-08 | 2017-02-22 | 深圳市彬讯科技有限公司 | 一种基于规则的敏感文本过滤方法 |
CN107463666A (zh) * | 2017-08-02 | 2017-12-12 | 成都德尔塔信息科技有限公司 | 一种基于文本内容的敏感词过滤方法 |
CN108280130A (zh) * | 2017-12-22 | 2018-07-13 | 中国电子科技集团公司第三十研究所 | 一种在文本大数据中发现敏感数据的方法 |
CN109492118A (zh) * | 2018-10-31 | 2019-03-19 | 北京奇艺世纪科技有限公司 | 一种数据检测方法及检测装置 |
-
2019
- 2019-04-08 CN CN201910124529.7A patent/CN109918548A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101324883A (zh) * | 2008-07-31 | 2008-12-17 | 电子科技大学 | 一种变异关键词的提取方法 |
CN105260354A (zh) * | 2015-08-20 | 2016-01-20 | 及时标讯网络信息技术(北京)有限公司 | 一种基于关键词字典树构造的中文ac自动机工作方法 |
CN106446232A (zh) * | 2016-10-08 | 2017-02-22 | 深圳市彬讯科技有限公司 | 一种基于规则的敏感文本过滤方法 |
CN107463666A (zh) * | 2017-08-02 | 2017-12-12 | 成都德尔塔信息科技有限公司 | 一种基于文本内容的敏感词过滤方法 |
CN108280130A (zh) * | 2017-12-22 | 2018-07-13 | 中国电子科技集团公司第三十研究所 | 一种在文本大数据中发现敏感数据的方法 |
CN109492118A (zh) * | 2018-10-31 | 2019-03-19 | 北京奇艺世纪科技有限公司 | 一种数据检测方法及检测装置 |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851590A (zh) * | 2019-09-11 | 2020-02-28 | 上海爱数信息技术股份有限公司 | 一种通过敏感词检测与非法内容识别进行文本分类的方法 |
CN111078827A (zh) * | 2019-12-23 | 2020-04-28 | 上海米哈游天命科技有限公司 | 一种关键词判断方法、装置、设备和介质 |
CN113051925A (zh) * | 2019-12-26 | 2021-06-29 | 中国移动通信集团有限公司 | 时间识别方法、装置、设备及计算机存储介质 |
CN111680128A (zh) * | 2020-06-16 | 2020-09-18 | 杭州安恒信息技术股份有限公司 | 一种网页敏感词检测方法、检测系统及相关装置 |
WO2021139268A1 (zh) * | 2020-07-16 | 2021-07-15 | 平安科技(深圳)有限公司 | 敏感词检测方法、装置、计算机设备及存储介质 |
CN111831785A (zh) * | 2020-07-16 | 2020-10-27 | 平安科技(深圳)有限公司 | 敏感词检测方法、装置、计算机设备及存储介质 |
CN112329055A (zh) * | 2020-11-02 | 2021-02-05 | 微医云(杭州)控股有限公司 | 用户数据脱敏的方法及装置、电子设备、存储介质 |
CN112100361A (zh) * | 2020-11-12 | 2020-12-18 | 南京中孚信息技术有限公司 | 一种基于ac自动机的字符串多模模糊匹配方法 |
CN112100361B (zh) * | 2020-11-12 | 2021-02-26 | 南京中孚信息技术有限公司 | 一种基于ac自动机的字符串多模模糊匹配方法 |
CN112417103A (zh) * | 2020-12-02 | 2021-02-26 | 百度国际科技(深圳)有限公司 | 用于检测敏感词的方法、装置、设备和存储介质 |
CN112949691A (zh) * | 2021-02-02 | 2021-06-11 | 山东寻声网络科技有限公司 | 一种用于企业的舆情监测系统 |
CN112766236A (zh) * | 2021-03-10 | 2021-05-07 | 拉扎斯网络科技(上海)有限公司 | 文本生成方法、装置、计算机设备及计算机可读存储介质 |
CN113010882A (zh) * | 2021-03-18 | 2021-06-22 | 哈尔滨工业大学 | 一种适用于缓存丢失攻击的自定义位置顺序模式匹配算法 |
CN113822059A (zh) * | 2021-09-18 | 2021-12-21 | 北京云上曲率科技有限公司 | 中文敏感文本识别方法、装置、存储介质及设备 |
CN115563288A (zh) * | 2022-12-06 | 2023-01-03 | 北京匠数科技有限公司 | 一种文本检测的方法、装置、电子设备及存储介质 |
CN115563288B (zh) * | 2022-12-06 | 2023-03-21 | 北京匠数科技有限公司 | 一种文本检测的方法、装置、电子设备及存储介质 |
CN116166698A (zh) * | 2023-01-12 | 2023-05-26 | 之江实验室 | 一种基于通用医疗术语的快速构建队列方法及系统 |
CN116166698B (zh) * | 2023-01-12 | 2023-09-01 | 之江实验室 | 一种基于通用医疗术语的快速构建队列方法及系统 |
CN116562297A (zh) * | 2023-07-07 | 2023-08-08 | 北京电子科技学院 | 基于HTrie树的中文敏感词变形体识别方法及系统 |
CN116562297B (zh) * | 2023-07-07 | 2023-09-26 | 北京电子科技学院 | 基于HTrie树的中文敏感词变形体识别方法及系统 |
CN117493540A (zh) * | 2023-12-28 | 2024-02-02 | 荣耀终端有限公司 | 文本匹配方法、终端设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918548A (zh) | 一种自动检测文档敏感信息的方法和应用 | |
Mitra et al. | An automatic approach to identify word sense changes in text media across timescales | |
CN106570179B (zh) | 一种面向评价性文本的核心实体识别方法及装置 | |
CN109766355A (zh) | 一种支持自然语言的数据查询方法和系统 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN105956180B (zh) | 一种敏感词过滤方法 | |
CN108287858A (zh) | 自然语言的语义提取方法及装置 | |
CN106096004A (zh) | 一种建立大规模跨领域文本情感倾向性分析框架的方法 | |
CN100485684C (zh) | 文本内容过滤方法和系统 | |
CN111460149B (zh) | 文本分类方法、相关设备及可读存储介质 | |
CN104966031A (zh) | 安卓应用程序中非权限相关隐私数据的识别方法 | |
US20170053031A1 (en) | Information forecast and acquisition method based on webpage link parameter analysis | |
KR102196508B1 (ko) | 비지도 학습을 통한 개체명 사전 구축 방법 및 시스템 | |
Ming-Sheng et al. | Detecting overlapping communities based on community cores in complex networks | |
CN106598862A (zh) | 一种基于sql语义可扩展的性能诊断调优方法 | |
CN104008123B (zh) | 用于中文姓名匹配的方法和系统 | |
CN105488098B (zh) | 一种基于领域差异性的新词提取方法 | |
CN108491228A (zh) | 一种二进制漏洞代码克隆检测方法及系统 | |
CN106933972A (zh) | 利用自然语言处理技术定义数据元素的方法以及装置 | |
CN109918648B (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
CN110929520A (zh) | 非命名实体对象抽取方法、装置、电子设备及存储介质 | |
CN107341142B (zh) | 一种基于关键词提取分析的企业关系计算方法及系统 | |
CN109739369A (zh) | 一种多音字汉字转拼音全拼的方法 | |
JP2010277409A (ja) | 代表文抽出装置およびプログラム | |
CN110147839A (zh) | 基于XGBoost的算法生成域名检测模型的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190621 |
|
RJ01 | Rejection of invention patent application after publication |