CN113486654B - 一种基于先验主题聚类的敏感词库构建与扩展方法 - Google Patents

一种基于先验主题聚类的敏感词库构建与扩展方法 Download PDF

Info

Publication number
CN113486654B
CN113486654B CN202110857533.1A CN202110857533A CN113486654B CN 113486654 B CN113486654 B CN 113486654B CN 202110857533 A CN202110857533 A CN 202110857533A CN 113486654 B CN113486654 B CN 113486654B
Authority
CN
China
Prior art keywords
sensitive
word
words
topic
anchor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110857533.1A
Other languages
English (en)
Other versions
CN113486654A (zh
Inventor
叶佳豪
房鹏展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Focus Technology Co Ltd
Original Assignee
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Focus Technology Co Ltd filed Critical Focus Technology Co Ltd
Priority to CN202110857533.1A priority Critical patent/CN113486654B/zh
Publication of CN113486654A publication Critical patent/CN113486654A/zh
Application granted granted Critical
Publication of CN113486654B publication Critical patent/CN113486654B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于先验主题聚类的敏感词库构建与扩展方法,其特征在于,包括步骤1,对敏感文本进行分词,步骤2,选取主题的锚定词,步骤3,锚定词的先验主题聚类,选择与锚定词同主题下的词汇作为新的敏感词,加入到基础敏感词库。本发明通过基于切词的分词算法,可以灵活设定锚定词,为主题聚类引入先验知识,最后筛出可靠的候选敏感词,解决了敏感词库自动构建的效率、扩展性和准确性问题。

Description

一种基于先验主题聚类的敏感词库构建与扩展方法
技术领域
本发明涉及敏感词检测领域,特别涉及一种基于先验主题聚类的敏感词库构建与扩展方法。
背景技术
敏感信息检测主要依靠敏感词库进行匹配检测,因此一个完备准确的敏感词库比不可少。通常,企业通过人工审核众多敏感文本并从中抽取关键敏感词汇,将关键敏感词整理到相应的敏感词库中。但是面对成千上万的敏感文本,一方面需要审核人员具备审核的业务知识来识别敏感词;另一方面,敏感词往往是随时间随环境而变化的,基于已有的敏感词库进行敏感信息检测容易失效。因此,基于人工构建敏感词库是低效且容易因为词库的规模和时效问题降低了敏感信息的检测效果。
目前自动构建敏感词库的方法主要通过新词发现算法来发现新的词语,如有监督的基于序列标注的新词发现算法,但是该方法的缺点是需要大量的标注数据,不具备可扩展性;另外一种是无监督的基于信息熵的新词发现算法,该方法通过计算词语的频数,凝固度,自由度三个维度来确定是否为新词,该方法的缺点是计算复杂,且准确性不高。
因此,需要一种更准确且适用的敏感词库构建与扩展方法。
发明内容
本发明所要解决的技术问题是,需要一种敏感词库构建与扩展方法,解决敏感词库自动构建的效率、扩展性和准确性问题。
为解决上述技术问题,本发明提供一种基于先验主题聚类的敏感词库构建与扩展方法,具体如下:
步骤1,对敏感文本进行分词,所述分词具体为,对于敏感文本,利用基于切词的新词发现算法进行分词;
步骤2,选取主题的锚定词,所述选取具体为,选取同时出现在基础敏感词库和敏感文本中的敏感词作为各个主题下的锚定词;
步骤3,锚定词的先验主题聚类,所述先验主题聚类具体为,将主题的锚定词加入到先验主题聚类模型中,得到基于锚定词的主题词汇概率分布,选择与锚定词同主题下的词汇作为新的敏感词,加入到基础敏感词库。
所述步骤1中,所述利用基于切词的新词发现算法进行分词,具体为,根据敏感文本中字片段的稳定性来判断是否切分这个字片段,以时间复杂度为O(N)的算法切分敏感文本,包括如下步骤:
步骤1-1:统计字片段中相邻的两字字a和字b共现的频率P(a,b),分别统计字a和字b的频率P(a)和P(b),取α为比值,所述α代表基于切词的粒度,α的取值范围为1-10;如果
则把相邻两字字a和字b切分,统计切分后的词汇的词频,预设与敏感文本的数量成正相关的阈值,选取词频大于所述预设阈值的词汇作为候选词;
步骤1-2:所述步骤1-1中得到的候选词的集合经过分词词库筛选,排除出现在分词词库中的词汇,得到候选新词;
步骤1-3:将步骤1-2得到的候选新词加入分词词库中,得到新的分词词库,利用新的分词词库对敏感文本进行分词,得到经过分词的敏感文本。
所述步骤2中,选取与敏感词有关的锚定词,具体为,选取同时出现在基础敏感词库和敏感文本中的敏感词作为各个主题下的锚定词,包括如下步骤:
步骤2-1:预设基础敏感词库,所述基础敏感词库中包括不止一个主题,所述每个主题下包括不止一个敏感词,所述敏感词是该主题下出现频率高于预设频率且只出现在该主题的词汇;
步骤2-2:从基础敏感词库的敏感词中选取出现在敏感文本中的敏感词;
步骤2-3:根据步骤2-2中选取的敏感词的频率,选取频率最高的指定数量的敏感词作为主题的锚定词。
所述步骤3中,锚定词的先验主题聚类,具体为,选取步骤2中的锚定词,以半监督的主题建模方式,获取与锚定词相关的主题敏感词加入到基础敏感词库中,包括如下步骤:
步骤3-1:对经过切分的敏感文本进行先验主题聚类,定义主题和敏感文本的多元互信息为:
其中X代表所有候选敏感词组成的敏感文本,Y代表敏感文本的主题集合,TC代表变量的多元互信息,I代表两个随机变量之间的互信息;当TC(X|Y)为0,即主题Y解释了文档X的分布概率;
步骤3-2:先验主题聚类的目标函数为:
其中I(Xi:Yj)代表词汇i与主题j的互信息,p(yj|x)代表候选敏感词在主题j的概率分布,αi,j代表词汇i出现在主题j的强度;
步骤3-3:将先验主题聚类得到的主题的锚定词集合加入到基础敏感词库中。
所述步骤1-1中,所述α取值为1,所述步骤1-2中,所述分词词库为jieba分词词库。
所述步骤2-1中,所述预设频率设定为0.1;所述步骤2-3中,所述指定数量为5个。
所述步骤3-2中,当且仅当词汇i只出现在主题j中,所述αi,j大于等于1,所述词汇i即为锚定词,j是锚定词下的主题;所述步骤3-3中,对于所述锚定词集合,排除基础敏感词库中已有的敏感词,得到新的敏感词。
本发明主要用于敏感词库的构建与扩展,通过基于切词的分词算法,解决了敏感词领域未登录词导致的分词不准确的问题;通过基于先验的主题聚类,可以灵活设定锚定词,为主题聚类引入先验知识,解决了主题聚类下的不准确问题,最后筛出可靠的候选敏感词,解决敏感词库自动构建的效率、扩展性和准确性问题。
附图说明
图1为本发明的示例性实施例的方法流程图;
图2为本发明的示例性实施例中基于切词的新词发现算法进行分词的方法流程图;
图3为本发明的示例性实施例中选取与敏感词有关的的锚定词的方法流程图;
图4为本发明的示例性实施例中主题的锚定词的先验主题聚类的方法流程图。
具体实施方式
下面结合附图和示例性实施例对本发明作进一步的说明:
本发明提供一种基于先验主题聚类的敏感词库构建与扩展方法,在基于信息熵的新词发现算法的基础上,提出基于切词的新词发现算法,时间复杂度从O(N^2)降低到O(N),提高了新词发现的效率;在无监督的主题聚类的基础上,提出基于锚定词的先验主题聚类,以半监督的方式,通过少量的锚定词,提高了主题聚类的准确性,解决了因为监督数据不足导致的扩展性问题。因此通过上述方式,本方法解决了敏感词库自动构建的效率、扩展性和准确性问题,具体如下:
步骤1,对敏感文本进行分词,具体为,对于敏感文本,利用基于切词的新词发现算法进行分词;
步骤2,选取主题的锚定词,具体为,选取同时出现在基础敏感词库和敏感文本中的敏感词作为各个主题下的锚定词。
步骤3,主题的锚定词的先验主题聚类,具体为,将主题的锚定词加入到先验主题聚类模型中,得到基于锚定词的主题词汇概率分布,最后选择与锚定词同主题下的词汇作为新的敏感词,加入到基础敏感词库从而实现敏感词库的自动创建和扩展。
所述步骤1中利用基于切词的新词发现算法进行分词,具体为,根据敏感文本中字片段的稳定性来判断是否切分这个字片段,以时间复杂度为O(N)的算法切分敏感文本,具体步骤包含如下步骤:
步骤1-1:统计字片段中相邻的两字字a和字b共现的频率P(a,b),然后分别统计字a和字b的频率P(a)和P(b),取α为比值,所述α代表基于切词的粒度,根据实际应用场景,通过灵活α值得大小来达到不同的分词粒度需求,通常设定α值为1-10之间;经过反复调试参数,发现当α取1时,分词的粒度较小,更多的新的敏感词能够被保留而不被错误的切分,因此本方法当α取1时可以获得最优效果,如果
那么就把这相邻两字a和字b切分,最后通过统计切分后的词汇的词频,预设与敏感文本的数量成正相关的阈值,选取词频大于所述预设阈值的词汇作为候选词;
步骤1-2:将步骤1-1中得到的候选词的集合经过已有的jieba分词词库筛选,排除出现在jieba分词词库中的词语,得到候选新词;
步骤1-3:将步骤1-2得到的候选新词加入到jieba已有的分词词库中,得到新的分词词库,重新利用新的分词词库对敏感文本进行分词,得到经过分词的敏感文本。通过同时利用基于切分的新词发现的候选新词和jieba已有的分词词库,提升了对新词和常规词的分词准确率。
所述步骤2中,选取主题的锚定词,具体为,选取同时出现在基础敏感词库和敏感文本中的敏感词作为各个主题下的锚定词。
步骤2-1:预设基础敏感词库,所述敏感词库中包括不止一个主题,所述每个主题下包括不止一个敏感词,所述敏感词是该主题下出现频率高于预设频率且只出现在该主题的词语,所述预设频率设定为0.1;
步骤2-2:从步骤2-1中的各个主题下的敏感词中选取出现在敏感文本中的敏感词;
步骤2-3:根据步骤2-2中选取的敏感词的频率,选取频率最高的5个敏感词作为主题的锚定词。
所述步骤3中主题的锚定词的先验主题聚类,具体为,最大化主题和敏感文本之间的互信息;选取步骤2中产生的各个主题下的敏感词作为锚定词,以半监督的主题建模方式,获取与锚定词相关的主题敏感词加入到基础敏感词库中,提高主题聚类的准确性、灵活性、可扩展性,具体步骤包含如下:
步骤3-1:将经过切分的敏感文本,进行先验主题聚类,最大化主题和敏感文本之间的互信息,定义主题和敏感文本的多元互信息为:
其中X代表所有候选敏感词组成的敏感文本,Y代表敏感文本的主题集合,TC代表变量的多元互信息,I代表两个随机变量之间的互信息;该主题建模通过最大化主题Y与敏感文本的互信息,此时TC(X|Y)为0,即主题Y很好的解释了文档X的分布概率。
步骤3-2:将步骤2选取的锚定词的主题强度设置为大于等于1,实现半监督的主题建模,主题聚类的目标函数为如下所示:
其中I(Xi:Yj)代表词汇i与主题j的互信息,p(yj|x)代表候选敏感词在主题j的概率分布,αi,j代表词汇i出现在主题j的强度,当且仅当词汇i只出现在主题j中的时候大于等于1。因此通过设置αi,j大于等于1,则词汇i必定出现在主题j中,此时词汇i即为人为设置的锚定词,j是锚定词下的主题;
步骤3-3:将先验主题聚类得到的主题词集合,排除掉基础词库中已有的敏感词,得到新的敏感词加入到基础敏感词库中。
本发明主要用于敏感词库的构建与扩展,通过基于切词的分词算法,解决了敏感词领域未登录词导致的分词不准确的问题;通过基于先验的主题聚类,可以灵活设定锚定词,为主题聚类引入先验知识,解决了主题聚类下的不准确问题,最后筛出可靠的候选敏感词,解决敏感词库自动构建的效率、扩展性和准确性问题。
以上实施例不以任何方式限定本发明,凡是对以上实施例以等效变换方式做出的其它改进与应用,都属于本发明的保护范围。

Claims (5)

1.一种基于先验主题聚类的敏感词库构建与扩展方法,其特征在于,包括如下步骤:
步骤1,对敏感文本进行分词,所述分词具体为,对于敏感文本,利用基于切词的新词发现算法进行分词;
步骤2,选取主题的锚定词,所述选取具体为,选取同时出现在基础敏感词库和敏感文本中的敏感词作为各个主题下的锚定词;
步骤3,锚定词的先验主题聚类,所述先验主题聚类具体为,将主题的锚定词加入到先验主题聚类模型中,得到基于锚定词的主题词汇概率分布,选择与锚定词同主题下的词汇作为新的敏感词,加入到基础敏感词库;
所述步骤1中,所述利用基于切词的新词发现算法进行分词,具体为,根据敏感文本中字片段的稳定性来判断是否切分这个字片段,以时间复杂度为O(N)的算法切分敏感文本,包括如下步骤:
步骤1-1:统计字片段中相邻的两字字a和字b共现的频率P(a,b),分别统计字a和字b的频率P(a)和P(b),取α为比值,所述α代表基于切词的粒度,α的取值范围为1-10;如果
则把相邻两字字a和字b切分,统计切分后的词汇的词频,预设与敏感文本的数量成正相关的阈值,选取词频大于该阈值的词汇作为候选词;
步骤1-2:所述步骤1-1中得到的候选词的集合经过分词词库筛选,排除出现在分词词库中的词汇,得到候选新词;
步骤1-3:将步骤1-2得到的候选新词加入分词词库中,得到新的分词词库,利用新的分词词库对敏感文本进行分词,得到经过分词的敏感文本;
所述步骤3中,锚定词的先验主题聚类,具体为,选取步骤2中的锚定词,以半监督的主题建模方式,获取与锚定词相关的主题敏感词加入到基础敏感词库中,包括如下步骤:
步骤3-1:对经过切分的敏感文本进行先验主题聚类,定义主题和敏感文本的多元互信息为:
其中X代表所有候选敏感词组成的敏感文本,Y代表敏感文本的主题集合,TC代表变量的多元互信息,I代表两个随机变量之间的互信息;当TC(X|Y)为0,即主题Y解释了文档X的分布概率;
步骤3-2:先验主题聚类的目标函数为:
其中I(Xi:Yj)代表词汇i与主题j的互信息,p(yj|x)代表候选敏感词在主题j的概率分布,αi,j代表词汇i出现在主题j的强度;
步骤3-3:将先验主题聚类得到的主题的锚定词集合加入到基础敏感词库中。
2.如权利要求1所述的一种基于先验主题聚类的敏感词库构建与扩展方法,其特征在于,所述步骤2中,选取与敏感词有关的锚定词,具体为,选取同时出现在基础敏感词库和敏感文本中的敏感词作为各个主题下的锚定词,包括如下步骤:
步骤2-1:预设基础敏感词库,所述基础敏感词库中包括不止一个主题,所述每个主题下包括不止一个敏感词,所述敏感词是该主题下出现频率高于预设频率且只出现在该主题的词汇;
步骤2-2:从基础敏感词库的敏感词中选取出现在敏感文本中的敏感词;
步骤2-3:根据步骤2-2中选取的敏感词的频率,选取频率最高的指定数量的敏感词作为主题的锚定词。
3.如权利要求2所述的一种基于先验主题聚类的敏感词库构建与扩展方法,其特征在于,所述步骤1-1中,所述α取值为1,所述步骤1-2中,所述分词词库为jieba分词词库。
4.如权利要求3所述的一种基于先验主题聚类的敏感词库构建与扩展方法,其特征在于,所述步骤2-1中,所述预设频率设定为0.1;所述步骤2-3中,所述指定数量为5个。
5.如权利要求4所述的一种基于先验主题聚类的敏感词库构建与扩展方法,其特征在于,所述步骤3-2中,当且仅当词汇i只出现在主题j中,所述αi,j大于等于1,所述词汇i即为锚定词,j是锚定词下的主题;所述步骤3-3中,对于所述锚定词集合,排除基础敏感词库中已有的敏感词,得到新的敏感词。
CN202110857533.1A 2021-07-28 2021-07-28 一种基于先验主题聚类的敏感词库构建与扩展方法 Active CN113486654B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110857533.1A CN113486654B (zh) 2021-07-28 2021-07-28 一种基于先验主题聚类的敏感词库构建与扩展方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110857533.1A CN113486654B (zh) 2021-07-28 2021-07-28 一种基于先验主题聚类的敏感词库构建与扩展方法

Publications (2)

Publication Number Publication Date
CN113486654A CN113486654A (zh) 2021-10-08
CN113486654B true CN113486654B (zh) 2024-04-26

Family

ID=77944215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110857533.1A Active CN113486654B (zh) 2021-07-28 2021-07-28 一种基于先验主题聚类的敏感词库构建与扩展方法

Country Status (1)

Country Link
CN (1) CN113486654B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114385775B (zh) * 2021-12-29 2024-06-04 南京视察者智能科技有限公司 一种基于大数据的敏感词识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377724A (zh) * 2019-07-01 2019-10-25 厦门美域中央信息科技有限公司 一种基于数据挖掘的语料库关键词自动抽取算法
CN111061866A (zh) * 2019-08-20 2020-04-24 河北工程大学 一种基于特征扩展和T-oBTM的弹幕文本聚类方法
KR20200068769A (ko) * 2018-11-27 2020-06-16 주식회사 와이즈넛 속성 지식 확장 시스템 및 속성 지식 확장 방법
CN113033183A (zh) * 2021-03-03 2021-06-25 西北大学 一种基于统计量与相似性的网络新词发现方法及系统
CN113157903A (zh) * 2020-12-28 2021-07-23 国网浙江省电力有限公司信息通信分公司 一种面向多领域的电力词库构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200068769A (ko) * 2018-11-27 2020-06-16 주식회사 와이즈넛 속성 지식 확장 시스템 및 속성 지식 확장 방법
CN110377724A (zh) * 2019-07-01 2019-10-25 厦门美域中央信息科技有限公司 一种基于数据挖掘的语料库关键词自动抽取算法
CN111061866A (zh) * 2019-08-20 2020-04-24 河北工程大学 一种基于特征扩展和T-oBTM的弹幕文本聚类方法
CN113157903A (zh) * 2020-12-28 2021-07-23 国网浙江省电力有限公司信息通信分公司 一种面向多领域的电力词库构建方法
CN113033183A (zh) * 2021-03-03 2021-06-25 西北大学 一种基于统计量与相似性的网络新词发现方法及系统

Also Published As

Publication number Publication date
CN113486654A (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
US8045800B2 (en) Active segmentation for groups of images
CN112069310B (zh) 基于主动学习策略的文本分类方法及系统
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN109657697A (zh) 基于半监督学习和细粒度特征学习的分类优化方法
CN106407406A (zh) 一种文本处理方法和系统
CN104881458A (zh) 一种网页主题的标注方法和装置
EP0976094A1 (en) Pattern recognition employing arbitrary segmentation and compound probabilistic evaluation
CN111046930A (zh) 一种基于决策树算法的供电服务满意度影响因素识别方法
CN110717040A (zh) 词典扩充方法及装置、电子设备、存储介质
CN108959304B (zh) 一种标签预测方法及装置
CN112036476A (zh) 基于二分类业务的数据特征选择方法、装置及计算机设备
CN112329617B (zh) 基于单张源域样本的新场景人脸识别模型构建方法、系统
CN113486654B (zh) 一种基于先验主题聚类的敏感词库构建与扩展方法
CN108596204B (zh) 一种基于改进型scdae的半监督调制方式分类模型的方法
CN115953123A (zh) 机器人自动化流程的生成方法、装置、设备及存储介质
KR101584883B1 (ko) 그래프 분류를 위한 빈발 부분그래프의 생성 방법
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN104809229A (zh) 一种文本特征词提取方法及系统
CN103870489A (zh) 基于搜索日志的中文人名自扩展识别方法
CN101515329B (zh) 基于多种特征的图像匹配方法
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN110825874A (zh) 一种中文文本分类方法和装置及计算机可读存储介质
CN113810333B (zh) 基于半监督谱聚类和集成svm的流量检测方法及系统
CN104156423A (zh) 基于整数规划的多尺度视频关键帧提取方法
CN110598192A (zh) 一种基于邻域粗糙集的文本特征约简方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant