CN111310451A

CN111310451A - 敏感词词典生成方法、装置及存储介质和电子设备

Info

Publication number: CN111310451A
Application number: CN201811501581.1A
Authority: CN
Inventors: 陈希; 杜永青
Original assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2018-12-10
Filing date: 2018-12-10
Publication date: 2020-06-19

Abstract

本发明提出敏感词词典生成方法、装置及存储介质和电子设备。方法包括：将每个非敏感用户的每个交互文档以及每个敏感用户在距离当前时刻第一预设时长之前的每个交互文档分别作为一个负样本；将每个敏感用户在最近第二预设时长内的每个交互文档分别作为一个正样本；对于在正负样本集合中出现的每个词，计算该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率；对于在正负样本集合中出现的每个词，根据该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率，计算该词的逐点KL散度，若计算出的逐点KL散度小于预设第一阈值，则将该词加入敏感词词典库。本发明提高了敏感词词典的生成效率和覆盖率。

Description

敏感词词典生成方法、装置及存储介质和电子设备

技术领域

本发明涉及文档处理技术领域，尤其涉及敏感词词典生成方法、装置及非瞬时计算机可读存储介质和电子设备。

背景技术

目前在电商领域，客服人员需要实时地识别用户从购物过程到售后各环节在聊天沟通的过程中是否有不满的情绪，以做到主动服务、提前安抚，最终提升用户的满意度，提高客户保有率和复购率。目前一般做法是，首先根据历史投诉人员的会话统计信息设计出表达客户情绪的威胁词表，用于识别客户威胁程度的强弱，再按照关键字匹配从分词后的聊天记录和电话录音中筛选出潜在的有投诉风险的用户。

在构建威胁词典过程中需要比较发生投诉的用户和正常用户在对话中的表达差异。

现有技术方案中大量依赖人工经验操作，效率较低且经验会随着时间推移而弱化，不支持自动迭代更新，更重要的是人工方式覆盖率有限，而且威胁信号间没有相对强弱关系。

发明内容

本发明实施例提出敏感词词典生成方法、装置及非瞬时计算机可读存储介质和电子设备，以提高敏感词词典的生成效率和覆盖率。

本发明实施例的技术方案是这样实现的：

一种敏感词词典生成方法，该方法包括：

将每个非敏感用户的每个交互文档以及每个敏感用户在距离当前时刻第一预设时长之前的每个交互文档分别作为一个负样本；

将每个敏感用户在最近第二预设时长内的每个交互文档分别作为一个正样本；

对于在正负样本集合中出现的每个词，计算该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率；

对于在正负样本集合中出现的每个词，根据该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率，计算该词的逐点KL散度，若计算出的逐点KL散度小于预设第一阈值，则将该词加入敏感词词典库。

所述计算该词对正样本集合的逆文档频率包括：

IDF1_i＝lg(|D1|/(1+|{j:w_i∈d1_j}|))

其中，D1表示正样本集合，|D1|表示D1中包含的正样本的总数，w_i表示在正负样本集合中出现的第i个词，d1_j表示正样本集合中的第j个正样本，|{j:W_i∈d1_j}|表示包含词w_i的正样本的总数，IDF1_i表示词w_i对正样本集合的逆文档频率；

所述计算该词对负样本集合的逆文档频率包括：

IDF2_i＝lg(|D2|/(1+|{k:w_i∈d2_k}|))

其中，D2表示负样本集合，|D2|表示D2中包含的负样本的总数，w_i表示在正负样本集合中出现的第i个词，d2_k表示负样本集合中的第k个负样本，|{k:W_i∈d2_k}|表示包含词w_i的负样本的总数，IDF2_i表示词w_i对负样本集合的逆文档频率。

所述计算该词的逐点KL散度包括：

D_{kl_idf}(IDF1_i||IDF2_i)＝IDF1_i*ln(IDF1_i/(IDF2_i+ε))

其中，D_{kl_idf}(IDF1_i||IDF2_i)为词w_i的逐点KL散度，ε为预设的防止分母为0的小常数。

所述预设第一阈值≤-0.5。

当计算出的逐点KL散度小于预设第一阈值时，将该词加入敏感词词典库之前进一步包括：

计算该词对正样本集合的词频，当词频大于预设第二阈值时，将该词加入敏感词词库。

所述将该词加入敏感词词典库之后进一步包括：

采用word2vec算法，将每一交互文档转换成一个向量空间，向量空间中的每个向量对应交互文档中的一个词；

对于每个向量空间，将该向量空间中的每个向量分别作为神经网络模型中的一个输入向量，将该向量空间中指定的一个向量作为神经网络模型的输出向量，对神经网络模型进行训练，得到训练好的神经网络模型；

采用word2vec算法，将敏感词词典库中的每个敏感词转换成一个向量，将所有敏感词转换成的向量划分为多个向量空间，将每个向量空间中的向量分别输入到神经网络模型进行计算，对计算得到的每个输出向量分别采用word2vec算法转换为词，将转换出的每个词加入敏感词词典库。

一种敏感词词典生成装置，该装置包括：

样本产生模块，将每个非敏感用户的每个交互文档以及每个敏感用户在距离当前时刻第一预设时长之前的每个交互文档分别作为一个负样本；将每个敏感用户在最近第二预设时长内的每个交互文档分别作为一个正样本；

逆文档频率计算模块，对于在正负样本集合中出现的每个词，计算该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率；

敏感词判定模块，对于在正负样本集合中出现的每个词，根据该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率，计算该词的逐点KL散度，若计算出的逐点KL散度小于预设第一阈值，则将该词加入敏感词词典库。

所述逆文档频率计算模块计算该词对正样本集合的逆文档频率包括：

IDF1_i＝lg(|D1|/(1+|{j:w_i∈d1_j}|))

所述逆文档频率计算模块计算该词对负样本集合的逆文档频率包括：

IDF2_i＝lg(|D2|/(1+|{k:w_i∈d2_k}|))

所述敏感词判定模块计算该词的逐点KL散度包括：

D_{kl_idf}(IDF1_i||IDF2_i)＝IDF1_i*ln(IDF1_i/(IDF2_i+ε))

当敏感词判定模块计算出的逐点KL散度小于预设第一阈值时，将该词加入敏感词词典库之前进一步包括：

所述敏感词判定模块将该词加入敏感词词典库之后进一步包括：

一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如上任一项所述的敏感词词典生成方法的步骤。

一种电子设备，包括如上所述的非瞬时计算机可读存储介质、以及可访问所述非瞬时计算机可读存储介质的所述处理器。

本发明实施例通过计算词对正样本集合的逆文档频率以及词对负样本集合的逆文档频率，进而计算词的逐点KL散度，且当逐点KL散度小于预设第一阈值时，将该词加入敏感词词典库，从而提高了敏感词词典的生成效率和覆盖率。

附图说明

图1为本发明一实施例提供的敏感词词典生成方法流程图；

图2为本发明另一实施例提供的敏感词词典生成方法流程图；

图3为Word2Vec模型结构图；

图4为本发明实施例提供的扩展敏感词词典库的方法流程图；

图5为本发明实施例提供的敏感词词典生成装置的结构示意图。

具体实施方式

下面结合附图及具体实施例对本发明再作进一步详细的说明。

图1为本发明一实施例提供的敏感词词典生成方法流程图，其具体步骤如下：

步骤101：将每个非敏感用户的每个交互文档以及每个敏感用户在距离当前时刻第二预设时长之前的每个交互文档分别作为一个负样本；将每个敏感用户在最近第三预设时长内的每个交互文档分别作为一个正样本。

步骤102：对于在正负样本集合中出现的每个词，计算该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率。

其中，计算该词对正样本集合的逆文档频率包括：

IDF1_i＝lg(|D1|/(1+|{j:w_i∈d1_j}|))

其中，D1表示正样本集合，|D1|表示D1中包含的正样本的总数，w_i表示在正负样本集合中出现的第i个词，d1_j表示正样本集合中的第j个正样本，|{j:W_i∈d1_j}|表示包含词w_i的正样本的总数，IDF1_i表示词w_i对正样本集合的逆文档频率。

计算该词对负样本集合的逆文档频率包括：

IDF2_i＝lg(|D2|/(1+|{k:w_i∈d2_k}|))

步骤103：对于在正负样本集合中出现的每个词，根据该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率，计算该词的逐点KL(Kullback–LeiblerDivergence)散度。

其中，计算该词的逐点KL散度包括：

D_{kl_idf}(IDF1_i||IDF2_i)＝IDF1_i*ln(IDF1_i/(IDF2_i+ε))

其中，D_{kl_idf}(IDF1_i||IDF2_i)为词w_i的逐点KL散度，m为正负样本集合中出现的词的总数，ε为预设的防止分母为0的小常数。

步骤104：若计算出的该词的逐点KL散度小于预设第一阈值，则将该词加入敏感词词典库。

其中，一般地，第一阈值≤-0.5。

在客户服务领域中，敏感用户指的是发出过投诉的用户，非敏感用户指的是未发出过投诉的用户，交互文档指的是用户与客服人员的聊天记录，每条聊天记录可看作一个交互文档。以下以客户服务领域为例，对本发明进行进一步说明：

图2为本发明另一实施例提供的敏感词词典生成方法流程图，其具体步骤如下：

步骤201：从不同数据源获取各待处理基础文档，对每个文档进行分词等预处理。

数据源典型地如：用户与客服人员的聊天记录、电话语音转换成的文本等。

预处理如：分词、去停用词、抽取表情符号、去除无用的URL等。

步骤202：将每个非敏感用户的每个交互文档以及每个敏感用户距离发出投诉之日第一预设时长之前的每个交互文档分别作为一个负样本，将每个敏感用户在发出投诉前第二预设时长内的每个交互文档分别作为一个正样本。

第一预设时长如：一个月，例如：敏感用户在2018年10月1日发出投诉，则将该用户在2018年9月1日之前的每个交互文档分别作为一个负样本。

考虑到语言的连贯性和投诉的突发性，正样本选择为投诉发生时刻之前较短时间内的交互文档。第二预设时长如：一日，例如：敏感用户在2018年10月1日发出投诉，则将该用户在2018年9月30日的每个交互文档分别作为一个正样本。

步骤203：对于在正负样本集合中出现的每个词w_i，计算该词对正样本集合D1的逆文档频率IDF1_i以及该词对负样本集合D2的逆文档频率IDF2_i。

IDF1_i＝lg(|D1|/(1+|{j:w_i∈d1_j}|))

其中，|D1|表示D1中包含的正样本的总数，w_i表示在正负样本集合中出现的第i个词，d1_j表示正样本集合中的第j个正样本，|{j:W_i∈d1_j}|表示包含词w_i的正样本的总数。

IDF2_i＝lg(|D2|/(1+|{k:w_i∈d2_k}|))

其中，|D2|表示D2中包含的负样本的总数，d2_k表示负样本集合中的第k个负样本，|{k:W_i∈d2_k}|表示包含词w_i的负样本的总数。

步骤204：对于在正负样本集合中出现的每个词w_i，根据该词的IDF1_i和IDF2_i，计算该词的逐点KL散度D_{kl_idf}(IDF1_i||IDF2_i)。

D_{kl_idf}(IDF1_i||IDF2_i)＝IDF1_i*ln(IDF1_i/(IDF2_i+ε))

其中，ε为预设的防止分母为0的小常数，如：ε＝1e^-10。

例如：正样本总数为100万个，“投诉”一词在1万个正样本中出现，则IDF1_i＝lg(1000000/(1+10000))≈2；

负样本总数为5000万个，“投诉”一词在10万个负样本中出现，则IDF2_i＝lg(50000000/(1+100000))≈2.699；

则“投诉”一词的逐点KL散度D_{kl_idf}(IDF1_i||IDF2_i)＝2*ln(2/2.699)≈-0.599。

对于一个词来说，其逐点KL散度的不同取值，表示不同的情形，具体地：

一)若其逐点KL散度值在0附近，说明该词在正、负样本中出现的概率很接近；

二)若其逐点KL散度值大于0，说明该词在正样本出现的概率大于其在负样本中出现的概率；

三)若其逐点KL散度值小于0，说明该词在负样本出现的概率大于其在正样本中出现的概率。

因此，若一个词的逐点KL散度值小于0，其取值离0越远，说明该词为敏感词的概率越大。

步骤205：判断D_{kl_idf}(IDF1_i||IDF2_i)小于预设第一阈值是否成立，若是，将该词加入敏感词词典库；否则，丢弃该词。

一般地，第一阈值≤-0.5。

在实际应用中，满足D_{kl_idf}(IDF1_i||IDF2_i)小于预设第一阈值这一条件的词中，可能混杂了一些出现频率较低的词，这些词存在偶然性，其泛化能力是可疑的。因此，当一个词满足D_{kl_idf}(IDF1_i||IDF2_i)小于预设第一阈值这一条件时，可进一步计算该词对正样本集合的词频，只有词频大于预设第二阈值，才将该词加入敏感词词典库，其中第二阈值的取值可根据经验设定。

具体地，词w_i对正样本集合D1的词频

其中，j表示正样本集合中的第j个正样本，m表示正样本集合中出现的第m个词，n_ij表示词w_i在第j个正样本中出现的次数，n_kj表示词w_k在第j个正样本中出现的次数。即，tf1_i等于w_i在正样本集合中出现的次数除以正样本集合中所有词在正样本集合中出现的总次数。

通过以上过程得到的敏感词词典已经可以覆盖多数常用应用场景。但为了精益求精，进一步提高覆盖率，本发明实施例考虑用Word2Vec词向量方式进一步拓展敏感词的覆盖率。

Word2Vec是一种用两层神经网络来训练的语言模型，通过输入大规模语料库，经过训练生成一个向量空间(一般为几百维)。词典中的每个词都对应了向量空间中的一个独一的向量，而且语料库中拥有共同上下文的词映射到向量空间中的距离会更近。常用的训练方法为CBOW(continuous bag-of-words，连续词袋)，CBOW采用的是利用上下文去预测一个缺失的单词。Word2Vec模型结构如图3所示，其中，x_ik为V维词向量，W_V,N为将V维词向量映射到N维向量的参数，y_j为待预测的上下文单词，W’_V,N为将N维向量映射回V维词向量的参数。模型训练得到的结果为任意指定的V维向量，其中按照语言模型具有较强关联的、上下文相关的词会被映射到高维空间的临近区域。

图4为本发明实施例提供的扩展敏感词词典库的方法流程图，其具体步骤如下：

步骤401：采用word2vec算法，将每一交互文档转换成一个向量空间，向量空间中的每个向量对应交互文档中的一个词。

步骤402：对于每个向量空间，将该向量空间中的每个向量分别作为神经网络模型中的一个输入向量，将该向量空间中指定的一个向量作为神经网络模型的输出向量，对神经网络模型进行训练，得到训练好的神经网络模型。

步骤403：采用word2vec算法，将敏感词词典库中的每个敏感词转换成一个向量，将所有敏感词转换成的向量划分为多个向量空间，将每个向量空间中的向量分别输入到神经网络模型进行计算，对计算得到的每个输出向量分别采用word2vec算法转换为词，将转换出的每个词加入敏感词词典库。

在实际应用中，为了提高扩展的敏感词的准确性，对神经网络模型的每个输出向量，可计算该输出向量与敏感词词典库中已有敏感词对应的向量的欧式距离，若与某个已有敏感词对应的向量的欧式距离小于预设距离，则将该输出向量对应的词加入敏感词词典库；或者，将所有输出向量与已有敏感词对应的向量的欧式距离进行排序，取排在前面的预设数目个输出向量对应的词加入敏感词词典库。

另外，在将扩展的词加入敏感词词典库之前，可先判断该词是否已存在于敏感词词典库中，若是，则不加入。

由于新的交互文档在不断产生，因此，可根据扩充后的交互文档周期性地执行上述过程，以新得到的敏感词词典库替换已有的敏感词词典库。

视应用需求场景不同，如果需要敏感词词典具有解释性，可再经过人工筛选，利用人工经验检验该敏感词词典覆盖的敏感词是否符合人们日常感知，若不符合，则将对应敏感词从词典中删除。如果不需要此步骤可省略。人工后筛主要有以下好处：

a)保证后续使用的可解释性，一方面尽量多识别新的敏感词，另一方面减少由抽样数据带来的相对整体偏差；

b)人为感知、把握敏感信号的尺度和强度，以便后续应用在不同系统时合理选择不同的第一阈值控制敏感词词典的大小；

c)人工筛选发现的某些异常高频词通过在语料中回溯的方式可以发现原分词软件中未识别的新热点词，提高敏感词词典对热点投诉动因的覆盖率。

本发明实施例还提供一种非瞬时计算机可读存储介质，该非瞬时计算机可读存储介质存储指令，该指令在由处理器执行时使得该处理器执行如步骤101-104，或者如步骤201-205所述的敏感词词典生成方法的步骤。

本发明实施例还提供一种电子设备，包括如上所述的非瞬时计算机可读存储介质、以及可访问所述非瞬时计算机可读存储介质的处理器。

图5为本发明实施例提供的敏感词词典生成装置的结构示意图，该装置主要包括：样本产生模块、逆文档频率计算模块和敏感词判定模块，其中：

样本产生模块，将每个非敏感用户的每个交互文档以及每个敏感用户在距离当前时刻第一预设时长之前的每个交互文档分别作为一个负样本；将每个敏感用户在最近第二预设时长内的每个交互文档分别作为一个正样本。

逆文档频率计算模块，对于在样本产生模块生成的正负样本集合中出现的每个词，计算该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率。

敏感词判定模块，对于在样本产生模块生成的正负样本集合中出现的每个词，根据逆文档频率计算模块计算得到的该词对正样本集合的逆文档频率以及该词对负样本集合的逆文档频率，计算该词的逐点KL散度，若计算出的逐点KL散度小于预设第一阈值，则将该词加入敏感词词典库。

一可选实施例中，逆文档频率计算模块计算该词对正样本集合的逆文档频率包括：

IDF1_i＝lg(|D1|/(1+|{j:w_i∈d1_j}|))

逆文档频率计算模块计算该词对负样本集合的逆文档频率包括：

IDF2_i＝lg(|D2|/(1+|{k:w_i∈d2_k}|))

一可选实施例中，敏感词判定模块计算该词的逐点KL散度包括：

D_{kl_idf}(IDF1_i||IDF2_i)＝IDF1_i*ln(IDF1_i/(IDF2_i+ε))

一可选实施例中，当敏感词判定模块计算出的逐点KL散度小于预设第一阈值时，将该词加入敏感词词典库之前进一步包括：

一可选实施例中，敏感词判定模块将该词加入敏感词词典库之后进一步包括：

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种敏感词词典生成方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述计算该词对正样本集合的逆文档频率包括：

IDF1_i＝lg(|D1|/(1+|{j:w_i∈d1_j}|))

所述计算该词对负样本集合的逆文档频率包括：

IDF2_i＝lg(|D2|/(1+|{k:w_i∈d2_k}|))

3.根据权利要求2所述的方法，其特征在于，所述计算该词的逐点KL散度包括：

D_{kl_idf}(IDF1_i||IDF2_i)＝IDF1_i*ln(IDF1_i/(IDF2_i+ε))

4.根据权利要求1至3任一所述的方法，其特征在于，所述预设第一阈值≤-0.5。

5.根据权利要求1所述的方法，其特征在于，当计算出的逐点KL散度小于预设第一阈值时，将该词加入敏感词词典库之前进一步包括：

6.根据权利要求1所述的方法，其特征在于，所述将该词加入敏感词词典库之后进一步包括：

7.一种敏感词词典生成装置，其特征在于，该装置包括：

8.根据权利要求7所述的装置，其特征在于，所述逆文档频率计算模块计算该词对正样本集合的逆文档频率包括：

IDF1_i＝lg(|D1|/(1+|{j:w_i∈d1_j}|))

IDF2_i＝lg(|D2|/(1+|{k:w_i∈d2_k}|))

9.根据权利要求8所述的装置，其特征在于，所述敏感词判定模块计算该词的逐点KL散度包括：

D_{kl_idf}(IDF1_i||IDF2_i)＝IDF1_i*ln(IDF1_i/(IDF2_i+ε))

10.根据权利要求7所述的装置，其特征在于，当敏感词判定模块计算出的逐点KL散度小于预设第一阈值时，将该词加入敏感词词典库之前进一步包括：

11.根据权利要求7所述的装置，其特征在于，所述敏感词判定模块将该词加入敏感词词典库之后进一步包括：

12.一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如权利要求1至6中任一项所述的敏感词词典生成方法的步骤。

13.一种电子设备，其特征在于，包括如权利要求12所述的非瞬时计算机可读存储介质、以及可访问所述非瞬时计算机可读存储介质的所述处理器。