CN113486654A - 一种基于先验主题聚类的敏感词库构建与扩展方法 - Google Patents

一种基于先验主题聚类的敏感词库构建与扩展方法 Download PDF

Info

Publication number
CN113486654A
CN113486654A CN202110857533.1A CN202110857533A CN113486654A CN 113486654 A CN113486654 A CN 113486654A CN 202110857533 A CN202110857533 A CN 202110857533A CN 113486654 A CN113486654 A CN 113486654A
Authority
CN
China
Prior art keywords
sensitive
words
word
topic
anchor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110857533.1A
Other languages
English (en)
Other versions
CN113486654B (zh
Inventor
叶佳豪
房鹏展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Focus Technology Co Ltd
Original Assignee
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Focus Technology Co Ltd filed Critical Focus Technology Co Ltd
Priority to CN202110857533.1A priority Critical patent/CN113486654B/zh
Publication of CN113486654A publication Critical patent/CN113486654A/zh
Application granted granted Critical
Publication of CN113486654B publication Critical patent/CN113486654B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于先验主题聚类的敏感词库构建与扩展方法,其特征在于,包括步骤1,对敏感文本进行分词,步骤2,选取主题的锚定词,步骤3,锚定词的先验主题聚类,选择与锚定词同主题下的词汇作为新的敏感词,加入到基础敏感词库。本发明通过基于切词的分词算法,可以灵活设定锚定词,为主题聚类引入先验知识,最后筛出可靠的候选敏感词,解决了敏感词库自动构建的效率、扩展性和准确性问题。

Description

一种基于先验主题聚类的敏感词库构建与扩展方法
技术领域
本发明涉及敏感词检测领域,特别涉及一种基于先验主题聚类的敏感词库构建与扩展方法。
背景技术
敏感信息检测主要依靠敏感词库进行匹配检测,因此一个完备准确的敏感词库比不可少。通常,企业通过人工审核众多敏感文本并从中抽取关键敏感词汇,将关键敏感词整理到相应的敏感词库中。但是面对成千上万的敏感文本,一方面需要审核人员具备审核的业务知识来识别敏感词;另一方面,敏感词往往是随时间随环境而变化的,基于已有的敏感词库进行敏感信息检测容易失效。因此,基于人工构建敏感词库是低效且容易因为词库的规模和时效问题降低了敏感信息的检测效果。
目前自动构建敏感词库的方法主要通过新词发现算法来发现新的词语,如有监督的基于序列标注的新词发现算法,但是该方法的缺点是需要大量的标注数据,不具备可扩展性;另外一种是无监督的基于信息熵的新词发现算法,该方法通过计算词语的频数,凝固度,自由度三个维度来确定是否为新词,该方法的缺点是计算复杂,且准确性不高。
因此,需要一种更准确且适用的敏感词库构建与扩展方法。
发明内容
本发明所要解决的技术问题是,需要一种敏感词库构建与扩展方法,解决敏感词库自动构建的效率、扩展性和准确性问题。
为解决上述技术问题,本发明提供一种基于先验主题聚类的敏感词库构建与扩展方法,具体如下:
步骤1,对敏感文本进行分词,所述分词具体为,对于敏感文本,利用基于切词的新词发现算法进行分词;
步骤2,选取主题的锚定词,所述选取具体为,选取同时出现在基础敏感词库和敏感文本中的敏感词作为各个主题下的锚定词;
步骤3,锚定词的先验主题聚类,所述先验主题聚类具体为,将主题的锚定词加入到先验主题聚类模型中,得到基于锚定词的主题词汇概率分布,选择与锚定词同主题下的词汇作为新的敏感词,加入到基础敏感词库。
所述步骤1中,所述利用基于切词的新词发现算法进行分词,具体为,根据敏感文本中字片段的稳定性来判断是否切分这个字片段,以时间复杂度为O(N)的算法切分敏感文本,包括如下步骤:
步骤1-1:统计字片段中相邻的两字字a和字b共现的频率P(a,b),分别统计字a和字b的频率P(a)和P(b),取α为比值,所述α代表基于切词的粒度,α的取值范围为1-10;如果
Figure BDA0003184707610000021
则把相邻两字字a和字b切分,统计切分后的词汇的词频,预设与敏感文本的数量成正相关的阈值,选取词频大于所述预设阈值的词汇作为候选词;
步骤1-2:所述步骤1-1中得到的候选词的集合经过分词词库筛选,排除出现在分词词库中的词汇,得到候选新词;
步骤1-3:将步骤1-2得到的候选新词加入分词词库中,得到新的分词词库,利用新的分词词库对敏感文本进行分词,得到经过分词的敏感文本。
所述步骤2中,选取与敏感词有关的锚定词,具体为,选取同时出现在基础敏感词库和敏感文本中的敏感词作为各个主题下的锚定词,包括如下步骤:
步骤2-1:预设基础敏感词库,所述基础敏感词库中包括不止一个主题,所述每个主题下包括不止一个敏感词,所述敏感词是该主题下出现频率高于预设频率且只出现在该主题的词汇;
步骤2-2:从基础敏感词库的敏感词中选取出现在敏感文本中的敏感词;
步骤2-3:根据步骤2-2中选取的敏感词的频率,选取频率最高的指定数量的敏感词作为主题的锚定词。
所述步骤3中,锚定词的先验主题聚类,具体为,选取步骤2中的锚定词,以半监督的主题建模方式,获取与锚定词相关的主题敏感词加入到基础敏感词库中,包括如下步骤:
步骤3-1:对经过切分的敏感文本进行先验主题聚类,定义主题和敏感文本的多元互信息为:
Figure BDA0003184707610000022
其中X代表所有候选敏感词组成的敏感文本,Y代表敏感文本的主题集合,TC代表变量的多元互信息,I代表两个随机变量之间的互信息;当TC(X|Y)为0,即主题Y解释了文档X的分布概率;
步骤3-2:先验主题聚类的目标函数为:
Figure BDA0003184707610000031
其中I(Xi:Yj)代表词汇i与主题j的互信息,p(yj|x)代表候选敏感词在主题j的概率分布,αi,j代表词汇i出现在主题j的强度;
步骤3-3:将先验主题聚类得到的主题的锚定词集合加入到基础敏感词库中。
所述步骤1-1中,所述α取值为1,所述步骤1-2中,所述分词词库为jieba分词词库。
所述步骤2-1中,所述预设频率设定为0.1;所述步骤2-3中,所述指定数量为5个。
所述步骤3-2中,当且仅当词汇i只出现在主题j中,所述αi,j大于等于1,所述词汇i即为锚定词,j是锚定词下的主题;所述步骤3-3中,对于所述锚定词集合,排除基础敏感词库中已有的敏感词,得到新的敏感词。
本发明主要用于敏感词库的构建与扩展,通过基于切词的分词算法,解决了敏感词领域未登录词导致的分词不准确的问题;通过基于先验的主题聚类,可以灵活设定锚定词,为主题聚类引入先验知识,解决了主题聚类下的不准确问题,最后筛出可靠的候选敏感词,解决敏感词库自动构建的效率、扩展性和准确性问题。
附图说明
图1为本发明的示例性实施例的方法流程图;
图2为本发明的示例性实施例中基于切词的新词发现算法进行分词的方法流程图;
图3为本发明的示例性实施例中选取与敏感词有关的的锚定词的方法流程图;
图4为本发明的示例性实施例中主题的锚定词的先验主题聚类的方法流程图。
具体实施方式
下面结合附图和示例性实施例对本发明作进一步的说明:
本发明提供一种基于先验主题聚类的敏感词库构建与扩展方法,在基于信息熵的新词发现算法的基础上,提出基于切词的新词发现算法,时间复杂度从O(N^2)降低到O(N),提高了新词发现的效率;在无监督的主题聚类的基础上,提出基于锚定词的先验主题聚类,以半监督的方式,通过少量的锚定词,提高了主题聚类的准确性,解决了因为监督数据不足导致的扩展性问题。因此通过上述方式,本方法解决了敏感词库自动构建的效率、扩展性和准确性问题,具体如下:
步骤1,对敏感文本进行分词,具体为,对于敏感文本,利用基于切词的新词发现算法进行分词;
步骤2,选取主题的锚定词,具体为,选取同时出现在基础敏感词库和敏感文本中的敏感词作为各个主题下的锚定词。
步骤3,主题的锚定词的先验主题聚类,具体为,将主题的锚定词加入到先验主题聚类模型中,得到基于锚定词的主题词汇概率分布,最后选择与锚定词同主题下的词汇作为新的敏感词,加入到基础敏感词库从而实现敏感词库的自动创建和扩展。
所述步骤1中利用基于切词的新词发现算法进行分词,具体为,根据敏感文本中字片段的稳定性来判断是否切分这个字片段,以时间复杂度为O(N)的算法切分敏感文本,具体步骤包含如下步骤:
步骤1-1:统计字片段中相邻的两字字a和字b共现的频率P(a,b),然后分别统计字a和字b的频率P(a)和P(b),取α为比值,所述α代表基于切词的粒度,根据实际应用场景,通过灵活α值得大小来达到不同的分词粒度需求,通常设定α值为1-10之间;经过反复调试参数,发现当α取1时,分词的粒度较小,更多的新的敏感词能够被保留而不被错误的切分,因此本方法当α取1时可以获得最优效果,如果
Figure BDA0003184707610000041
那么就把这相邻两字a和字b切分,最后通过统计切分后的词汇的词频,预设与敏感文本的数量成正相关的阈值,选取词频大于所述预设阈值的词汇作为候选词;
步骤1-2:将步骤1-1中得到的候选词的集合经过已有的jieba分词词库筛选,排除出现在jieba分词词库中的词语,得到候选新词;
步骤1-3:将步骤1-2得到的候选新词加入到jieba已有的分词词库中,得到新的分词词库,重新利用新的分词词库对敏感文本进行分词,得到经过分词的敏感文本。通过同时利用基于切分的新词发现的候选新词和jieba已有的分词词库,提升了对新词和常规词的分词准确率。
所述步骤2中,选取主题的锚定词,具体为,选取同时出现在基础敏感词库和敏感文本中的敏感词作为各个主题下的锚定词。
步骤2-1:预设基础敏感词库,所述敏感词库中包括不止一个主题,所述每个主题下包括不止一个敏感词,所述敏感词是该主题下出现频率高于预设频率且只出现在该主题的词语,所述预设频率设定为0.1;
步骤2-2:从步骤2-1中的各个主题下的敏感词中选取出现在敏感文本中的敏感词;
步骤2-3:根据步骤2-2中选取的敏感词的频率,选取频率最高的5个敏感词作为主题的锚定词。
所述步骤3中主题的锚定词的先验主题聚类,具体为,最大化主题和敏感文本之间的互信息;选取步骤2中产生的各个主题下的敏感词作为锚定词,以半监督的主题建模方式,获取与锚定词相关的主题敏感词加入到基础敏感词库中,提高主题聚类的准确性、灵活性、可扩展性,具体步骤包含如下:
步骤3-1:将经过切分的敏感文本,进行先验主题聚类,最大化主题和敏感文本之间的互信息,定义主题和敏感文本的多元互信息为:
Figure BDA0003184707610000051
其中X代表所有候选敏感词组成的敏感文本,Y代表敏感文本的主题集合,TC代表变量的多元互信息,I代表两个随机变量之间的互信息;该主题建模通过最大化主题Y与敏感文本的互信息,此时TC(X|Y)为0,即主题Y很好的解释了文档X的分布概率。
步骤3-2:将步骤2选取的锚定词的主题强度设置为大于等于1,实现半监督的主题建模,主题聚类的目标函数为如下所示:
Figure BDA0003184707610000052
其中I(Xi:Yj)代表词汇i与主题j的互信息,p(yj|x)代表候选敏感词在主题j的概率分布,αi,j代表词汇i出现在主题j的强度,当且仅当词汇i只出现在主题j中的时候大于等于1。因此通过设置αi,j大于等于1,则词汇i必定出现在主题j中,此时词汇i即为人为设置的锚定词,j是锚定词下的主题;
步骤3-3:将先验主题聚类得到的主题词集合,排除掉基础词库中已有的敏感词,得到新的敏感词加入到基础敏感词库中。
本发明的一种具体实施例的技术方案包括以下步骤:
步骤S1,对敏感文本进行分词,具体为,对于敏感文本,利用基于切词的新词发现算法进行分词,具体步骤如下:
步骤S101:选取赌博主题下的敏感文本,“手机斗牛牛,提供炸金花,百人牛牛”,经过对赌博主题下的所有的敏感文本词语进行统计,“机斗”,“斗牛”,“供炸”,“人牛”的
Figure BDA0003184707610000061
所以对于敏感文本“手机斗牛牛,提供炸金花,百人牛牛”,在上述三个词处切开,得到经过切分的词语集合{手机,斗,牛牛,提供,炸金花,百人,牛牛};以赌博类的敏感词{炸金花}为例,在赌博类{炸,金}字出现的频率较高,假设都是0.1,而{炸金}出现的频率要远低于{炸,金}的频率,假设是0.01,此时α的取值为1时候,{炸金花}将不会切开,如果大于1则{炸金花}将会被切分为{炸,金花},
步骤S102:利用jieba对敏感文本分词,得到分词集合{手机,斗牛,牛,提供,炸,金花,百人,牛牛},将步骤1中得到的候选词集合经过jieba已有的分词词库筛选,排除掉{手机,斗,提供,百人}等已有的词汇,得到候选新词{炸金花,牛牛};
步骤S103:经步骤S102得到的候选新词{炸金花,牛牛}加入到jieba分词词库中,重新利用jieba对敏感文本进行分词,得到经过分词的敏感文本分词集合{手机,斗牛牛,炸金花,百人,牛牛}。
步骤S2,选取与敏感词有关的的锚定词,具体为,选取同时出现在基础敏感词库和敏感文本中的敏感词作为各个主题下的锚定词:
步骤S201:根据人工经验,从基础敏感词库中选取赌博主题下的敏感词集合{老虎机,牛牛};
步骤S202:从步骤1中的{老虎机,牛牛}选取出现在敏感文本{手机,斗牛牛,炸金花,百人,牛牛}中的词语{牛牛};
步骤S203:从步骤S202中的根据词的频率,选取频率最高的{牛牛}作为赌博主题下的锚定词。
步骤S3,主题的锚定词的先验主题聚类,具体步骤如下:
步骤S301:对赌博下的敏感主题进行主题聚类,得到赌博主题下的词汇分布集合;
步骤S302:设定锚定词{牛牛}的主题强度为1,对赌博主题下的敏感主题进行基于先验的主题聚类,得到使得锚定词{牛牛}所在敏感文本概率最大化的主题词集合{斗牛牛,炸金花,牛牛};
步骤S303:将基于先验的主题聚类得到的主题词集合{斗牛牛,炸金花,牛牛},排除掉基础敏感词库中已有的敏感词{牛牛},则得到赌博主题下新的敏感词{斗牛牛,炸金花},加入到赌博类的基础敏感词库,得到扩展的敏感词库为{老虎机,牛牛,斗牛牛,炸金花}。
本发明主要用于敏感词库的构建与扩展,通过基于切词的分词算法,解决了敏感词领域未登录词导致的分词不准确的问题;通过基于先验的主题聚类,可以灵活设定锚定词,为主题聚类引入先验知识,解决了主题聚类下的不准确问题,最后筛出可靠的候选敏感词,解决敏感词库自动构建的效率、扩展性和准确性问题。
以上实施例不以任何方式限定本发明,凡是对以上实施例以等效变换方式做出的其它改进与应用,都属于本发明的保护范围。

Claims (7)

1.一种基于先验主题聚类的敏感词库构建与扩展方法,其特征在于,包括如下步骤:
步骤1,对敏感文本进行分词,所述分词具体为,对于敏感文本,利用基于切词的新词发现算法进行分词;
步骤2,选取主题的锚定词,所述选取具体为,选取同时出现在基础敏感词库和敏感文本中的敏感词作为各个主题下的锚定词;
步骤3,锚定词的先验主题聚类,所述先验主题聚类具体为,将主题的锚定词加入到先验主题聚类模型中,得到基于锚定词的主题词汇概率分布,选择与锚定词同主题下的词汇作为新的敏感词,加入到基础敏感词库。
2.如权利要求1所述的一种基于先验主题聚类的敏感词库构建与扩展方法,其特征在于,所述步骤1中,所述利用基于切词的新词发现算法进行分词,具体为,根据敏感文本中字片段的稳定性来判断是否切分这个字片段,以时间复杂度为O(N)的算法切分敏感文本,包括如下步骤:
步骤1-1:统计字片段中相邻的两字字a和字b共现的频率P(a,b),分别统计字a和字b的频率P(a)和P(b),取α为比值,所述α代表基于切词的粒度,α的取值范围为1-10;如果
Figure FDA0003184707600000011
则把相邻两字字a和字b切分,统计切分后的词汇的词频,预设与敏感文本的数量成正相关的阈值,选取词频大于所述预设阈值的词汇作为候选词;
步骤1-2:所述步骤1-1中得到的候选词的集合经过分词词库筛选,排除出现在分词词库中的词汇,得到候选新词;
步骤1-3:将步骤1-2得到的候选新词加入分词词库中,得到新的分词词库,利用新的分词词库对敏感文本进行分词,得到经过分词的敏感文本。
3.如权利要求2所述的一种基于先验主题聚类的敏感词库构建与扩展方法,其特征在于,所述步骤2中,选取与敏感词有关的锚定词,具体为,选取同时出现在基础敏感词库和敏感文本中的敏感词作为各个主题下的锚定词,包括如下步骤:
步骤2-1:预设基础敏感词库,所述基础敏感词库中包括不止一个主题,所述每个主题下包括不止一个敏感词,所述敏感词是该主题下出现频率高于预设频率且只出现在该主题的词汇;
步骤2-2:从基础敏感词库的敏感词中选取出现在敏感文本中的敏感词;
步骤2-3:根据步骤2-2中选取的敏感词的频率,选取频率最高的指定数量的敏感词作为主题的锚定词。
4.如权利要求3所述的一种基于先验主题聚类的敏感词库构建与扩展方法,其特征在于,所述步骤3中,锚定词的先验主题聚类,具体为,选取步骤2中的锚定词,以半监督的主题建模方式,获取与锚定词相关的主题敏感词加入到基础敏感词库中,包括如下步骤:
步骤3-1:对经过切分的敏感文本进行先验主题聚类,定义主题和敏感文本的多元互信息为:
Figure FDA0003184707600000021
其中X代表所有候选敏感词组成的敏感文本,Y代表敏感文本的主题集合,TC代表变量的多元互信息,I代表两个随机变量之间的互信息;当TC(X|Y)为0,即主题Y解释了文档X的分布概率;
步骤3-2:先验主题聚类的目标函数为:
Figure FDA0003184707600000022
其中I(Xi:Yj)代表词汇i与主题j的互信息,p(yj|x)代表候选敏感词在主题j的概率分布,αi,j代表词汇i出现在主题j的强度;
步骤3-3:将先验主题聚类得到的主题的锚定词集合加入到基础敏感词库中。
5.如权利要求4所述的一种基于先验主题聚类的敏感词库构建与扩展方法,其特征在于,所述步骤1-1中,所述α取值为1,所述步骤1-2中,所述分词词库为jieba分词词库。
6.如权利要求5所述的一种基于先验主题聚类的敏感词库构建与扩展方法,其特征在于,所述步骤2-1中,所述预设频率设定为0.1;所述步骤2-3中,所述指定数量为5个。
7.如权利要求6所述的一种基于先验主题聚类的敏感词库构建与扩展方法,其特征在于,所述步骤3-2中,当且仅当词汇i只出现在主题j中,所述αi,j大于等于1,所述词汇i即为锚定词,j是锚定词下的主题;所述步骤3-3中,对于所述锚定词集合,排除基础敏感词库中已有的敏感词,得到新的敏感词。
CN202110857533.1A 2021-07-28 2021-07-28 一种基于先验主题聚类的敏感词库构建与扩展方法 Active CN113486654B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110857533.1A CN113486654B (zh) 2021-07-28 2021-07-28 一种基于先验主题聚类的敏感词库构建与扩展方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110857533.1A CN113486654B (zh) 2021-07-28 2021-07-28 一种基于先验主题聚类的敏感词库构建与扩展方法

Publications (2)

Publication Number Publication Date
CN113486654A true CN113486654A (zh) 2021-10-08
CN113486654B CN113486654B (zh) 2024-04-26

Family

ID=77944215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110857533.1A Active CN113486654B (zh) 2021-07-28 2021-07-28 一种基于先验主题聚类的敏感词库构建与扩展方法

Country Status (1)

Country Link
CN (1) CN113486654B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114385775A (zh) * 2021-12-29 2022-04-22 南京视察者智能科技有限公司 一种基于大数据的敏感词识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377724A (zh) * 2019-07-01 2019-10-25 厦门美域中央信息科技有限公司 一种基于数据挖掘的语料库关键词自动抽取算法
CN111061866A (zh) * 2019-08-20 2020-04-24 河北工程大学 一种基于特征扩展和T-oBTM的弹幕文本聚类方法
KR20200068769A (ko) * 2018-11-27 2020-06-16 주식회사 와이즈넛 속성 지식 확장 시스템 및 속성 지식 확장 방법
CN113033183A (zh) * 2021-03-03 2021-06-25 西北大学 一种基于统计量与相似性的网络新词发现方法及系统
CN113157903A (zh) * 2020-12-28 2021-07-23 国网浙江省电力有限公司信息通信分公司 一种面向多领域的电力词库构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200068769A (ko) * 2018-11-27 2020-06-16 주식회사 와이즈넛 속성 지식 확장 시스템 및 속성 지식 확장 방법
CN110377724A (zh) * 2019-07-01 2019-10-25 厦门美域中央信息科技有限公司 一种基于数据挖掘的语料库关键词自动抽取算法
CN111061866A (zh) * 2019-08-20 2020-04-24 河北工程大学 一种基于特征扩展和T-oBTM的弹幕文本聚类方法
CN113157903A (zh) * 2020-12-28 2021-07-23 国网浙江省电力有限公司信息通信分公司 一种面向多领域的电力词库构建方法
CN113033183A (zh) * 2021-03-03 2021-06-25 西北大学 一种基于统计量与相似性的网络新词发现方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114385775A (zh) * 2021-12-29 2022-04-22 南京视察者智能科技有限公司 一种基于大数据的敏感词识别方法
CN114385775B (zh) * 2021-12-29 2024-06-04 南京视察者智能科技有限公司 一种基于大数据的敏感词识别方法

Also Published As

Publication number Publication date
CN113486654B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
CN109783582B (zh) 一种知识库对齐方法、装置、计算机设备及存储介质
CN108875040B (zh) 词典更新方法及计算机可读存储介质
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN107577739B (zh) 一种半监督的领域词挖掘与分类的方法和设备
JP5092165B2 (ja) データ構築方法とシステム
CN105404648A (zh) 一种基于密度与紧密度聚类的用户移动行为确定方法
CN109543925A (zh) 基于机器学习的风险预测方法、装置、计算机设备和存储介质
CN107748745B (zh) 一种企业名称关键字提取方法
CN106897290B (zh) 一种建立关键词模型的方法及装置
CN110223675A (zh) 用于语音识别的训练文本数据的筛选方法及系统
CN107679135A (zh) 面向网络文本大数据的话题检测与跟踪方法、装置
CN112036169B (zh) 事件识别模型优化方法、装置、设备及可读存储介质
CN107679209B (zh) 分类表达式生成方法和装置
CN109903122A (zh) 房产交易信息处理方法、装置、设备及存储介质
CN114385775A (zh) 一种基于大数据的敏感词识别方法
CN113486654A (zh) 一种基于先验主题聚类的敏感词库构建与扩展方法
CN114036907B (zh) 一种基于领域特征的文本数据扩增方法
CN113360350A (zh) 定位网络设备根因告警的方法、装置、设备和存储介质
CN103870489B (zh) 基于搜索日志的中文人名自扩展识别方法
US11580101B2 (en) Method and apparatus for generating context category dataset
CN112364901A (zh) 一种基于lgb算法的诈骗电话识别方法
CN115660695A (zh) 客服人员标签画像构建方法、装置、电子设备及存储介质
CN109614491B (zh) 基于数据质量检测规则挖掘结果的进一步挖掘方法
CN104156423A (zh) 基于整数规划的多尺度视频关键帧提取方法
KR102456410B1 (ko) 크라우드-소싱 환경에서 이벤트를 분류하는 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant