CN111310451A - 敏感词词典生成方法、装置及存储介质和电子设备 - Google Patents

敏感词词典生成方法、装置及存储介质和电子设备 Download PDF

Info

Publication number
CN111310451A
CN111310451A CN201811501581.1A CN201811501581A CN111310451A CN 111310451 A CN111310451 A CN 111310451A CN 201811501581 A CN201811501581 A CN 201811501581A CN 111310451 A CN111310451 A CN 111310451A
Authority
CN
China
Prior art keywords
word
sensitive
positive
vector
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811501581.1A
Other languages
English (en)
Inventor
陈希
杜永青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Wodong Tianjun Information Technology Co Ltd
Priority to CN201811501581.1A priority Critical patent/CN111310451A/zh
Publication of CN111310451A publication Critical patent/CN111310451A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提出敏感词词典生成方法、装置及存储介质和电子设备。方法包括:将每个非敏感用户的每个交互文档以及每个敏感用户在距离当前时刻第一预设时长之前的每个交互文档分别作为一个负样本;将每个敏感用户在最近第二预设时长内的每个交互文档分别作为一个正样本;对于在正负样本集合中出现的每个词,计算该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率;对于在正负样本集合中出现的每个词,根据该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率,计算该词的逐点KL散度,若计算出的逐点KL散度小于预设第一阈值,则将该词加入敏感词词典库。本发明提高了敏感词词典的生成效率和覆盖率。

Description

敏感词词典生成方法、装置及存储介质和电子设备
技术领域
本发明涉及文档处理技术领域,尤其涉及敏感词词典生成方法、装置及非瞬时计算机可读存储介质和电子设备。
背景技术
目前在电商领域,客服人员需要实时地识别用户从购物过程到售后各环节在聊天沟通的过程中是否有不满的情绪,以做到主动服务、提前安抚,最终提升用户的满意度,提高客户保有率和复购率。目前一般做法是,首先根据历史投诉人员的会话统计信息设计出表达客户情绪的威胁词表,用于识别客户威胁程度的强弱,再按照关键字匹配从分词后的聊天记录和电话录音中筛选出潜在的有投诉风险的用户。
在构建威胁词典过程中需要比较发生投诉的用户和正常用户在对话中的表达差异。
现有技术方案中大量依赖人工经验操作,效率较低且经验会随着时间推移而弱化,不支持自动迭代更新,更重要的是人工方式覆盖率有限,而且威胁信号间没有相对强弱关系。
发明内容
本发明实施例提出敏感词词典生成方法、装置及非瞬时计算机可读存储介质和电子设备,以提高敏感词词典的生成效率和覆盖率。
本发明实施例的技术方案是这样实现的:
一种敏感词词典生成方法,该方法包括:
将每个非敏感用户的每个交互文档以及每个敏感用户在距离当前时刻第一预设时长之前的每个交互文档分别作为一个负样本;
将每个敏感用户在最近第二预设时长内的每个交互文档分别作为一个正样本;
对于在正负样本集合中出现的每个词,计算该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率;
对于在正负样本集合中出现的每个词,根据该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率,计算该词的逐点KL散度,若计算出的逐点KL散度小于预设第一阈值,则将该词加入敏感词词典库。
所述计算该词对正样本集合的逆文档频率包括:
IDF1i=lg(|D1|/(1+|{j:wi∈d1j}|))
其中,D1表示正样本集合,|D1|表示D1中包含的正样本的总数,wi表示在正负样本集合中出现的第i个词,d1j表示正样本集合中的第j个正样本,|{j:Wi∈d1j}|表示包含词wi的正样本的总数,IDF1i表示词wi对正样本集合的逆文档频率;
所述计算该词对负样本集合的逆文档频率包括:
IDF2i=lg(|D2|/(1+|{k:wi∈d2k}|))
其中,D2表示负样本集合,|D2|表示D2中包含的负样本的总数,wi表示在正负样本集合中出现的第i个词,d2k表示负样本集合中的第k个负样本,|{k:Wi∈d2k}|表示包含词wi的负样本的总数,IDF2i表示词wi对负样本集合的逆文档频率。
所述计算该词的逐点KL散度包括:
Dkl_idf(IDF1i||IDF2i)=IDF1i*ln(IDF1i/(IDF2i+ε))
其中,Dkl_idf(IDF1i||IDF2i)为词wi的逐点KL散度,ε为预设的防止分母为0的小常数。
所述预设第一阈值≤-0.5。
当计算出的逐点KL散度小于预设第一阈值时,将该词加入敏感词词典库之前进一步包括:
计算该词对正样本集合的词频,当词频大于预设第二阈值时,将该词加入敏感词词库。
所述将该词加入敏感词词典库之后进一步包括:
采用word2vec算法,将每一交互文档转换成一个向量空间,向量空间中的每个向量对应交互文档中的一个词;
对于每个向量空间,将该向量空间中的每个向量分别作为神经网络模型中的一个输入向量,将该向量空间中指定的一个向量作为神经网络模型的输出向量,对神经网络模型进行训练,得到训练好的神经网络模型;
采用word2vec算法,将敏感词词典库中的每个敏感词转换成一个向量,将所有敏感词转换成的向量划分为多个向量空间,将每个向量空间中的向量分别输入到神经网络模型进行计算,对计算得到的每个输出向量分别采用word2vec算法转换为词,将转换出的每个词加入敏感词词典库。
一种敏感词词典生成装置,该装置包括:
样本产生模块,将每个非敏感用户的每个交互文档以及每个敏感用户在距离当前时刻第一预设时长之前的每个交互文档分别作为一个负样本;将每个敏感用户在最近第二预设时长内的每个交互文档分别作为一个正样本;
逆文档频率计算模块,对于在正负样本集合中出现的每个词,计算该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率;
敏感词判定模块,对于在正负样本集合中出现的每个词,根据该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率,计算该词的逐点KL散度,若计算出的逐点KL散度小于预设第一阈值,则将该词加入敏感词词典库。
所述逆文档频率计算模块计算该词对正样本集合的逆文档频率包括:
IDF1i=lg(|D1|/(1+|{j:wi∈d1j}|))
其中,D1表示正样本集合,|D1|表示D1中包含的正样本的总数,wi表示在正负样本集合中出现的第i个词,d1j表示正样本集合中的第j个正样本,|{j:Wi∈d1j}|表示包含词wi的正样本的总数,IDF1i表示词wi对正样本集合的逆文档频率;
所述逆文档频率计算模块计算该词对负样本集合的逆文档频率包括:
IDF2i=lg(|D2|/(1+|{k:wi∈d2k}|))
其中,D2表示负样本集合,|D2|表示D2中包含的负样本的总数,wi表示在正负样本集合中出现的第i个词,d2k表示负样本集合中的第k个负样本,|{k:Wi∈d2k}|表示包含词wi的负样本的总数,IDF2i表示词wi对负样本集合的逆文档频率。
所述敏感词判定模块计算该词的逐点KL散度包括:
Dkl_idf(IDF1i||IDF2i)=IDF1i*ln(IDF1i/(IDF2i+ε))
其中,Dkl_idf(IDF1i||IDF2i)为词wi的逐点KL散度,ε为预设的防止分母为0的小常数。
当敏感词判定模块计算出的逐点KL散度小于预设第一阈值时,将该词加入敏感词词典库之前进一步包括:
计算该词对正样本集合的词频,当词频大于预设第二阈值时,将该词加入敏感词词库。
所述敏感词判定模块将该词加入敏感词词典库之后进一步包括:
采用word2vec算法,将每一交互文档转换成一个向量空间,向量空间中的每个向量对应交互文档中的一个词;
对于每个向量空间,将该向量空间中的每个向量分别作为神经网络模型中的一个输入向量,将该向量空间中指定的一个向量作为神经网络模型的输出向量,对神经网络模型进行训练,得到训练好的神经网络模型;
采用word2vec算法,将敏感词词典库中的每个敏感词转换成一个向量,将所有敏感词转换成的向量划分为多个向量空间,将每个向量空间中的向量分别输入到神经网络模型进行计算,对计算得到的每个输出向量分别采用word2vec算法转换为词,将转换出的每个词加入敏感词词典库。
一种非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行如上任一项所述的敏感词词典生成方法的步骤。
一种电子设备,包括如上所述的非瞬时计算机可读存储介质、以及可访问所述非瞬时计算机可读存储介质的所述处理器。
本发明实施例通过计算词对正样本集合的逆文档频率以及词对负样本集合的逆文档频率,进而计算词的逐点KL散度,且当逐点KL散度小于预设第一阈值时,将该词加入敏感词词典库,从而提高了敏感词词典的生成效率和覆盖率。
附图说明
图1为本发明一实施例提供的敏感词词典生成方法流程图;
图2为本发明另一实施例提供的敏感词词典生成方法流程图;
图3为Word2Vec模型结构图;
图4为本发明实施例提供的扩展敏感词词典库的方法流程图;
图5为本发明实施例提供的敏感词词典生成装置的结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明再作进一步详细的说明。
图1为本发明一实施例提供的敏感词词典生成方法流程图,其具体步骤如下:
步骤101:将每个非敏感用户的每个交互文档以及每个敏感用户在距离当前时刻第二预设时长之前的每个交互文档分别作为一个负样本;将每个敏感用户在最近第三预设时长内的每个交互文档分别作为一个正样本。
步骤102:对于在正负样本集合中出现的每个词,计算该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率。
其中,计算该词对正样本集合的逆文档频率包括:
IDF1i=lg(|D1|/(1+|{j:wi∈d1j}|))
其中,D1表示正样本集合,|D1|表示D1中包含的正样本的总数,wi表示在正负样本集合中出现的第i个词,d1j表示正样本集合中的第j个正样本,|{j:Wi∈d1j}|表示包含词wi的正样本的总数,IDF1i表示词wi对正样本集合的逆文档频率。
计算该词对负样本集合的逆文档频率包括:
IDF2i=lg(|D2|/(1+|{k:wi∈d2k}|))
其中,D2表示负样本集合,|D2|表示D2中包含的负样本的总数,wi表示在正负样本集合中出现的第i个词,d2k表示负样本集合中的第k个负样本,|{k:Wi∈d2k}|表示包含词wi的负样本的总数,IDF2i表示词wi对负样本集合的逆文档频率。
步骤103:对于在正负样本集合中出现的每个词,根据该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率,计算该词的逐点KL(Kullback–LeiblerDivergence)散度。
其中,计算该词的逐点KL散度包括:
Dkl_idf(IDF1i||IDF2i)=IDF1i*ln(IDF1i/(IDF2i+ε))
其中,Dkl_idf(IDF1i||IDF2i)为词wi的逐点KL散度,m为正负样本集合中出现的词的总数,ε为预设的防止分母为0的小常数。
步骤104:若计算出的该词的逐点KL散度小于预设第一阈值,则将该词加入敏感词词典库。
其中,一般地,第一阈值≤-0.5。
在客户服务领域中,敏感用户指的是发出过投诉的用户,非敏感用户指的是未发出过投诉的用户,交互文档指的是用户与客服人员的聊天记录,每条聊天记录可看作一个交互文档。以下以客户服务领域为例,对本发明进行进一步说明:
图2为本发明另一实施例提供的敏感词词典生成方法流程图,其具体步骤如下:
步骤201:从不同数据源获取各待处理基础文档,对每个文档进行分词等预处理。
数据源典型地如:用户与客服人员的聊天记录、电话语音转换成的文本等。
预处理如:分词、去停用词、抽取表情符号、去除无用的URL等。
步骤202:将每个非敏感用户的每个交互文档以及每个敏感用户距离发出投诉之日第一预设时长之前的每个交互文档分别作为一个负样本,将每个敏感用户在发出投诉前第二预设时长内的每个交互文档分别作为一个正样本。
第一预设时长如:一个月,例如:敏感用户在2018年10月1日发出投诉,则将该用户在2018年9月1日之前的每个交互文档分别作为一个负样本。
考虑到语言的连贯性和投诉的突发性,正样本选择为投诉发生时刻之前较短时间内的交互文档。第二预设时长如:一日,例如:敏感用户在2018年10月1日发出投诉,则将该用户在2018年9月30日的每个交互文档分别作为一个正样本。
步骤203:对于在正负样本集合中出现的每个词wi,计算该词对正样本集合D1的逆文档频率IDF1i以及该词对负样本集合D2的逆文档频率IDF2i
IDF1i=lg(|D1|/(1+|{j:wi∈d1j}|))
其中,|D1|表示D1中包含的正样本的总数,wi表示在正负样本集合中出现的第i个词,d1j表示正样本集合中的第j个正样本,|{j:Wi∈d1j}|表示包含词wi的正样本的总数。
IDF2i=lg(|D2|/(1+|{k:wi∈d2k}|))
其中,|D2|表示D2中包含的负样本的总数,d2k表示负样本集合中的第k个负样本,|{k:Wi∈d2k}|表示包含词wi的负样本的总数。
步骤204:对于在正负样本集合中出现的每个词wi,根据该词的IDF1i和IDF2i,计算该词的逐点KL散度Dkl_idf(IDF1i||IDF2i)。
Dkl_idf(IDF1i||IDF2i)=IDF1i*ln(IDF1i/(IDF2i+ε))
其中,ε为预设的防止分母为0的小常数,如:ε=1e-10
例如:正样本总数为100万个,“投诉”一词在1万个正样本中出现,则IDF1i=lg(1000000/(1+10000))≈2;
负样本总数为5000万个,“投诉”一词在10万个负样本中出现,则IDF2i=lg(50000000/(1+100000))≈2.699;
则“投诉”一词的逐点KL散度Dkl_idf(IDF1i||IDF2i)=2*ln(2/2.699)≈-0.599。
对于一个词来说,其逐点KL散度的不同取值,表示不同的情形,具体地:
一)若其逐点KL散度值在0附近,说明该词在正、负样本中出现的概率很接近;
二)若其逐点KL散度值大于0,说明该词在正样本出现的概率大于其在负样本中出现的概率;
三)若其逐点KL散度值小于0,说明该词在负样本出现的概率大于其在正样本中出现的概率。
因此,若一个词的逐点KL散度值小于0,其取值离0越远,说明该词为敏感词的概率越大。
步骤205:判断Dkl_idf(IDF1i||IDF2i)小于预设第一阈值是否成立,若是,将该词加入敏感词词典库;否则,丢弃该词。
一般地,第一阈值≤-0.5。
在实际应用中,满足Dkl_idf(IDF1i||IDF2i)小于预设第一阈值这一条件的词中,可能混杂了一些出现频率较低的词,这些词存在偶然性,其泛化能力是可疑的。因此,当一个词满足Dkl_idf(IDF1i||IDF2i)小于预设第一阈值这一条件时,可进一步计算该词对正样本集合的词频,只有词频大于预设第二阈值,才将该词加入敏感词词典库,其中第二阈值的取值可根据经验设定。
具体地,词wi对正样本集合D1的词频
Figure BDA0001898303910000081
其中,j表示正样本集合中的第j个正样本,m表示正样本集合中出现的第m个词,nij表示词wi在第j个正样本中出现的次数,nkj表示词wk在第j个正样本中出现的次数。即,tf1i等于wi在正样本集合中出现的次数除以正样本集合中所有词在正样本集合中出现的总次数。
通过以上过程得到的敏感词词典已经可以覆盖多数常用应用场景。但为了精益求精,进一步提高覆盖率,本发明实施例考虑用Word2Vec词向量方式进一步拓展敏感词的覆盖率。
Word2Vec是一种用两层神经网络来训练的语言模型,通过输入大规模语料库,经过训练生成一个向量空间(一般为几百维)。词典中的每个词都对应了向量空间中的一个独一的向量,而且语料库中拥有共同上下文的词映射到向量空间中的距离会更近。常用的训练方法为CBOW(continuous bag-of-words,连续词袋),CBOW采用的是利用上下文去预测一个缺失的单词。Word2Vec模型结构如图3所示,其中,xik为V维词向量,WV,N为将V维词向量映射到N维向量的参数,yj为待预测的上下文单词,W’V,N为将N维向量映射回V维词向量的参数。模型训练得到的结果为任意指定的V维向量,其中按照语言模型具有较强关联的、上下文相关的词会被映射到高维空间的临近区域。
图4为本发明实施例提供的扩展敏感词词典库的方法流程图,其具体步骤如下:
步骤401:采用word2vec算法,将每一交互文档转换成一个向量空间,向量空间中的每个向量对应交互文档中的一个词。
步骤402:对于每个向量空间,将该向量空间中的每个向量分别作为神经网络模型中的一个输入向量,将该向量空间中指定的一个向量作为神经网络模型的输出向量,对神经网络模型进行训练,得到训练好的神经网络模型。
步骤403:采用word2vec算法,将敏感词词典库中的每个敏感词转换成一个向量,将所有敏感词转换成的向量划分为多个向量空间,将每个向量空间中的向量分别输入到神经网络模型进行计算,对计算得到的每个输出向量分别采用word2vec算法转换为词,将转换出的每个词加入敏感词词典库。
在实际应用中,为了提高扩展的敏感词的准确性,对神经网络模型的每个输出向量,可计算该输出向量与敏感词词典库中已有敏感词对应的向量的欧式距离,若与某个已有敏感词对应的向量的欧式距离小于预设距离,则将该输出向量对应的词加入敏感词词典库;或者,将所有输出向量与已有敏感词对应的向量的欧式距离进行排序,取排在前面的预设数目个输出向量对应的词加入敏感词词典库。
另外,在将扩展的词加入敏感词词典库之前,可先判断该词是否已存在于敏感词词典库中,若是,则不加入。
由于新的交互文档在不断产生,因此,可根据扩充后的交互文档周期性地执行上述过程,以新得到的敏感词词典库替换已有的敏感词词典库。
视应用需求场景不同,如果需要敏感词词典具有解释性,可再经过人工筛选,利用人工经验检验该敏感词词典覆盖的敏感词是否符合人们日常感知,若不符合,则将对应敏感词从词典中删除。如果不需要此步骤可省略。人工后筛主要有以下好处:
a)保证后续使用的可解释性,一方面尽量多识别新的敏感词,另一方面减少由抽样数据带来的相对整体偏差;
b)人为感知、把握敏感信号的尺度和强度,以便后续应用在不同系统时合理选择不同的第一阈值控制敏感词词典的大小;
c)人工筛选发现的某些异常高频词通过在语料中回溯的方式可以发现原分词软件中未识别的新热点词,提高敏感词词典对热点投诉动因的覆盖率。
本发明实施例还提供一种非瞬时计算机可读存储介质,该非瞬时计算机可读存储介质存储指令,该指令在由处理器执行时使得该处理器执行如步骤101-104,或者如步骤201-205所述的敏感词词典生成方法的步骤。
本发明实施例还提供一种电子设备,包括如上所述的非瞬时计算机可读存储介质、以及可访问所述非瞬时计算机可读存储介质的处理器。
图5为本发明实施例提供的敏感词词典生成装置的结构示意图,该装置主要包括:样本产生模块、逆文档频率计算模块和敏感词判定模块,其中:
样本产生模块,将每个非敏感用户的每个交互文档以及每个敏感用户在距离当前时刻第一预设时长之前的每个交互文档分别作为一个负样本;将每个敏感用户在最近第二预设时长内的每个交互文档分别作为一个正样本。
逆文档频率计算模块,对于在样本产生模块生成的正负样本集合中出现的每个词,计算该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率。
敏感词判定模块,对于在样本产生模块生成的正负样本集合中出现的每个词,根据逆文档频率计算模块计算得到的该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率,计算该词的逐点KL散度,若计算出的逐点KL散度小于预设第一阈值,则将该词加入敏感词词典库。
一可选实施例中,逆文档频率计算模块计算该词对正样本集合的逆文档频率包括:
IDF1i=lg(|D1|/(1+|{j:wi∈d1j}|))
其中,D1表示正样本集合,|D1|表示D1中包含的正样本的总数,wi表示在正负样本集合中出现的第i个词,d1j表示正样本集合中的第j个正样本,|{j:Wi∈d1j}|表示包含词wi的正样本的总数,IDF1i表示词wi对正样本集合的逆文档频率;
逆文档频率计算模块计算该词对负样本集合的逆文档频率包括:
IDF2i=lg(|D2|/(1+|{k:wi∈d2k}|))
其中,D2表示负样本集合,|D2|表示D2中包含的负样本的总数,wi表示在正负样本集合中出现的第i个词,d2k表示负样本集合中的第k个负样本,|{k:Wi∈d2k}|表示包含词wi的负样本的总数,IDF2i表示词wi对负样本集合的逆文档频率。
一可选实施例中,敏感词判定模块计算该词的逐点KL散度包括:
Dkl_idf(IDF1i||IDF2i)=IDF1i*ln(IDF1i/(IDF2i+ε))
其中,Dkl_idf(IDF1i||IDF2i)为词wi的逐点KL散度,ε为预设的防止分母为0的小常数。
一可选实施例中,当敏感词判定模块计算出的逐点KL散度小于预设第一阈值时,将该词加入敏感词词典库之前进一步包括:
计算该词对正样本集合的词频,当词频大于预设第二阈值时,将该词加入敏感词词库。
一可选实施例中,敏感词判定模块将该词加入敏感词词典库之后进一步包括:
采用word2vec算法,将每一交互文档转换成一个向量空间,向量空间中的每个向量对应交互文档中的一个词;
对于每个向量空间,将该向量空间中的每个向量分别作为神经网络模型中的一个输入向量,将该向量空间中指定的一个向量作为神经网络模型的输出向量,对神经网络模型进行训练,得到训练好的神经网络模型;
采用word2vec算法,将敏感词词典库中的每个敏感词转换成一个向量,将所有敏感词转换成的向量划分为多个向量空间,将每个向量空间中的向量分别输入到神经网络模型进行计算,对计算得到的每个输出向量分别采用word2vec算法转换为词,将转换出的每个词加入敏感词词典库。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (13)

1.一种敏感词词典生成方法,其特征在于,该方法包括:
将每个非敏感用户的每个交互文档以及每个敏感用户在距离当前时刻第一预设时长之前的每个交互文档分别作为一个负样本;
将每个敏感用户在最近第二预设时长内的每个交互文档分别作为一个正样本;
对于在正负样本集合中出现的每个词,计算该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率;
对于在正负样本集合中出现的每个词,根据该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率,计算该词的逐点KL散度,若计算出的逐点KL散度小于预设第一阈值,则将该词加入敏感词词典库。
2.根据权利要求1所述的方法,其特征在于,所述计算该词对正样本集合的逆文档频率包括:
IDF1i=lg(|D1|/(1+|{j:wi∈d1j}|))
其中,D1表示正样本集合,|D1|表示D1中包含的正样本的总数,wi表示在正负样本集合中出现的第i个词,d1j表示正样本集合中的第j个正样本,|{j:Wi∈d1j}|表示包含词wi的正样本的总数,IDF1i表示词wi对正样本集合的逆文档频率;
所述计算该词对负样本集合的逆文档频率包括:
IDF2i=lg(|D2|/(1+|{k:wi∈d2k}|))
其中,D2表示负样本集合,|D2|表示D2中包含的负样本的总数,wi表示在正负样本集合中出现的第i个词,d2k表示负样本集合中的第k个负样本,|{k:Wi∈d2k}|表示包含词wi的负样本的总数,IDF2i表示词wi对负样本集合的逆文档频率。
3.根据权利要求2所述的方法,其特征在于,所述计算该词的逐点KL散度包括:
Dkl_idf(IDF1i||IDF2i)=IDF1i*ln(IDF1i/(IDF2i+ε))
其中,Dkl_idf(IDF1i||IDF2i)为词wi的逐点KL散度,ε为预设的防止分母为0的小常数。
4.根据权利要求1至3任一所述的方法,其特征在于,所述预设第一阈值≤-0.5。
5.根据权利要求1所述的方法,其特征在于,当计算出的逐点KL散度小于预设第一阈值时,将该词加入敏感词词典库之前进一步包括:
计算该词对正样本集合的词频,当词频大于预设第二阈值时,将该词加入敏感词词库。
6.根据权利要求1所述的方法,其特征在于,所述将该词加入敏感词词典库之后进一步包括:
采用word2vec算法,将每一交互文档转换成一个向量空间,向量空间中的每个向量对应交互文档中的一个词;
对于每个向量空间,将该向量空间中的每个向量分别作为神经网络模型中的一个输入向量,将该向量空间中指定的一个向量作为神经网络模型的输出向量,对神经网络模型进行训练,得到训练好的神经网络模型;
采用word2vec算法,将敏感词词典库中的每个敏感词转换成一个向量,将所有敏感词转换成的向量划分为多个向量空间,将每个向量空间中的向量分别输入到神经网络模型进行计算,对计算得到的每个输出向量分别采用word2vec算法转换为词,将转换出的每个词加入敏感词词典库。
7.一种敏感词词典生成装置,其特征在于,该装置包括:
样本产生模块,将每个非敏感用户的每个交互文档以及每个敏感用户在距离当前时刻第一预设时长之前的每个交互文档分别作为一个负样本;将每个敏感用户在最近第二预设时长内的每个交互文档分别作为一个正样本;
逆文档频率计算模块,对于在正负样本集合中出现的每个词,计算该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率;
敏感词判定模块,对于在正负样本集合中出现的每个词,根据该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率,计算该词的逐点KL散度,若计算出的逐点KL散度小于预设第一阈值,则将该词加入敏感词词典库。
8.根据权利要求7所述的装置,其特征在于,所述逆文档频率计算模块计算该词对正样本集合的逆文档频率包括:
IDF1i=lg(|D1|/(1+|{j:wi∈d1j}|))
其中,D1表示正样本集合,|D1|表示D1中包含的正样本的总数,wi表示在正负样本集合中出现的第i个词,d1j表示正样本集合中的第j个正样本,|{j:Wi∈d1j}|表示包含词wi的正样本的总数,IDF1i表示词wi对正样本集合的逆文档频率;
所述逆文档频率计算模块计算该词对负样本集合的逆文档频率包括:
IDF2i=lg(|D2|/(1+|{k:wi∈d2k}|))
其中,D2表示负样本集合,|D2|表示D2中包含的负样本的总数,wi表示在正负样本集合中出现的第i个词,d2k表示负样本集合中的第k个负样本,|{k:Wi∈d2k}|表示包含词wi的负样本的总数,IDF2i表示词wi对负样本集合的逆文档频率。
9.根据权利要求8所述的装置,其特征在于,所述敏感词判定模块计算该词的逐点KL散度包括:
Dkl_idf(IDF1i||IDF2i)=IDF1i*ln(IDF1i/(IDF2i+ε))
其中,Dkl_idf(IDF1i||IDF2i)为词wi的逐点KL散度,ε为预设的防止分母为0的小常数。
10.根据权利要求7所述的装置,其特征在于,当敏感词判定模块计算出的逐点KL散度小于预设第一阈值时,将该词加入敏感词词典库之前进一步包括:
计算该词对正样本集合的词频,当词频大于预设第二阈值时,将该词加入敏感词词库。
11.根据权利要求7所述的装置,其特征在于,所述敏感词判定模块将该词加入敏感词词典库之后进一步包括:
采用word2vec算法,将每一交互文档转换成一个向量空间,向量空间中的每个向量对应交互文档中的一个词;
对于每个向量空间,将该向量空间中的每个向量分别作为神经网络模型中的一个输入向量,将该向量空间中指定的一个向量作为神经网络模型的输出向量,对神经网络模型进行训练,得到训练好的神经网络模型;
采用word2vec算法,将敏感词词典库中的每个敏感词转换成一个向量,将所有敏感词转换成的向量划分为多个向量空间,将每个向量空间中的向量分别输入到神经网络模型进行计算,对计算得到的每个输出向量分别采用word2vec算法转换为词,将转换出的每个词加入敏感词词典库。
12.一种非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质存储指令,其特征在于,所述指令在由处理器执行时使得所述处理器执行如权利要求1至6中任一项所述的敏感词词典生成方法的步骤。
13.一种电子设备,其特征在于,包括如权利要求12所述的非瞬时计算机可读存储介质、以及可访问所述非瞬时计算机可读存储介质的所述处理器。
CN201811501581.1A 2018-12-10 2018-12-10 敏感词词典生成方法、装置及存储介质和电子设备 Pending CN111310451A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811501581.1A CN111310451A (zh) 2018-12-10 2018-12-10 敏感词词典生成方法、装置及存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811501581.1A CN111310451A (zh) 2018-12-10 2018-12-10 敏感词词典生成方法、装置及存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN111310451A true CN111310451A (zh) 2020-06-19

Family

ID=71161263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811501581.1A Pending CN111310451A (zh) 2018-12-10 2018-12-10 敏感词词典生成方法、装置及存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN111310451A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036167A (zh) * 2020-08-25 2020-12-04 腾讯科技(深圳)有限公司 数据处理方法、装置、服务器及存储介质
CN113051911A (zh) * 2021-03-23 2021-06-29 北京百度网讯科技有限公司 提取敏感词的方法、装置、设备、介质及程序产品

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030182631A1 (en) * 2002-03-22 2003-09-25 Xerox Corporation Systems and methods for determining the topic structure of a portion of text
US20100063797A1 (en) * 2008-09-09 2010-03-11 Microsoft Corporation Discovering question and answer pairs
US20120278332A1 (en) * 2009-12-30 2012-11-01 Yi Wang Category-sensitive ranking for text
US20120303558A1 (en) * 2011-05-23 2012-11-29 Symantec Corporation Systems and methods for generating machine learning-based classifiers for detecting specific categories of sensitive information
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
US20170206891A1 (en) * 2016-01-16 2017-07-20 Genesys Telecommunications Laboratories, Inc. Material selection for language model customization in speech recognition for speech analytics
CN107515877A (zh) * 2016-06-16 2017-12-26 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN107609113A (zh) * 2017-09-13 2018-01-19 北京科技大学 一种文本自动分类方法
CN108491429A (zh) * 2018-02-09 2018-09-04 湖北工业大学 一种基于类内类间文档频和词频统计的特征选择方法
CN108717408A (zh) * 2018-05-11 2018-10-30 杭州排列科技有限公司 一种敏感词实时监控方法、电子设备、存储介质及系统
CN108829806A (zh) * 2018-06-07 2018-11-16 中南大学 一种跨事件新闻文本情感分析方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030182631A1 (en) * 2002-03-22 2003-09-25 Xerox Corporation Systems and methods for determining the topic structure of a portion of text
US20100063797A1 (en) * 2008-09-09 2010-03-11 Microsoft Corporation Discovering question and answer pairs
US20120278332A1 (en) * 2009-12-30 2012-11-01 Yi Wang Category-sensitive ranking for text
US20120303558A1 (en) * 2011-05-23 2012-11-29 Symantec Corporation Systems and methods for generating machine learning-based classifiers for detecting specific categories of sensitive information
US20170206891A1 (en) * 2016-01-16 2017-07-20 Genesys Telecommunications Laboratories, Inc. Material selection for language model customization in speech recognition for speech analytics
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN107515877A (zh) * 2016-06-16 2017-12-26 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN107609113A (zh) * 2017-09-13 2018-01-19 北京科技大学 一种文本自动分类方法
CN108491429A (zh) * 2018-02-09 2018-09-04 湖北工业大学 一种基于类内类间文档频和词频统计的特征选择方法
CN108717408A (zh) * 2018-05-11 2018-10-30 杭州排列科技有限公司 一种敏感词实时监控方法、电子设备、存储介质及系统
CN108829806A (zh) * 2018-06-07 2018-11-16 中南大学 一种跨事件新闻文本情感分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴旭康;杨旭光;陈园园;王营冠;张阅川;: "主题联合词向量模型", 计算机工程, no. 02 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036167A (zh) * 2020-08-25 2020-12-04 腾讯科技(深圳)有限公司 数据处理方法、装置、服务器及存储介质
CN112036167B (zh) * 2020-08-25 2023-11-28 腾讯科技(深圳)有限公司 数据处理方法、装置、服务器及存储介质
CN113051911A (zh) * 2021-03-23 2021-06-29 北京百度网讯科技有限公司 提取敏感词的方法、装置、设备、介质及程序产品
CN113051911B (zh) * 2021-03-23 2023-10-10 北京百度网讯科技有限公司 提取敏感词的方法、装置、设备、介质及程序产品

Similar Documents

Publication Publication Date Title
CN110765244B (zh) 获取应答话术的方法、装置、计算机设备及存储介质
Aborisade et al. Classification for authorship of tweets by comparing logistic regression and naive bayes classifiers
EP2885755B1 (en) Agent system, agent control method and agent control program with ability of natural conversation with users
CN111159409B (zh) 基于人工智能的文本分类方法、装置、设备、介质
CN107729520B (zh) 文件分类方法、装置、计算机设备及计算机可读介质
CN110458296B (zh) 目标事件的标记方法和装置、存储介质及电子装置
CN112307164A (zh) 信息推荐方法、装置、计算机设备和存储介质
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
KR101450453B1 (ko) 컨텐츠 추천 방법 및 장치
CN111680161A (zh) 一种文本处理方法、设备以及计算机可读存储介质
CN111310451A (zh) 敏感词词典生成方法、装置及存储介质和电子设备
Permana et al. Perception analysis of the Indonesian society on twitter social media on the increase in BPJS kesehatan contribution in the Covid 19 pandemic era
CN112597292B (zh) 问题回复推荐方法、装置、计算机设备和存储介质
CN110362828B (zh) 网络资讯风险识别方法及系统
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
CN112784011A (zh) 一种基于cnn和lstm的情感问题处理方法、装置和介质
CN110413770B (zh) 将群消息归类到群话题的方法及装置
CN109902152B (zh) 用于检索信息的方法和装置
CN110162535B (zh) 用于执行个性化的搜索方法、装置、设备以及存储介质
CN112069803A (zh) 文本备份方法、装置、设备及计算机可读存储介质
US20230080261A1 (en) Apparatuses and Methods for Text Classification
US7308444B2 (en) Information handling mechanism
CN116842936A (zh) 关键词识别方法、装置、电子设备和计算机可读存储介质
CN113888216A (zh) 广告信息推送方法、装置、电子设备及存储介质
CN111311197A (zh) 差旅数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination