CN110177182B

CN110177182B - 敏感数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN110177182B
Application number: CN201910300394.5A
Authority: CN
Inventors: 袁佳
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2022-09-02
Anticipated expiration: 2039-04-15
Also published as: CN110177182A

Abstract

本发明公开一种敏感数据处理方法、装置、计算机设备及存储介质，该敏感数据处理方法包括：获取外呼请求，外呼请求包括坐席分机号；将外呼请求发送给电话平台，实时接收电话平台基于坐席分机号和原始客户标识录制的录制语音；基于敏感词检测算法，对录制语音进行检测，若录制语音满足预设敏感电话检测标准，则将录制语音对应的原始客户标识作为敏感数据，基于敏感数据查询数据库，获取与敏感数据相对应的至少一个关联名单，关联名单包括与敏感数据相对应的任务编号；将关联名单中与任务编号相对应的名单处理状态更改为待回收状态，并将客户电话存储在禁拨表中。该敏感数据处理方法可有效降低客户投诉率，促进企业发展。

Description

敏感数据处理方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种敏感数据处理方法、装置、计算机设备及存储介质。

背景技术

银行、证券和保险等金融机构在金融产品或者其他业务推广时，电话销售是一种常用的推销方式。在电话销售的过程中，可能会遇到同行、律师以及记者等职业的客户，由于此类客户对产品推销类的电话比较反感且维权意识较强，较容易引起客户投诉，且由于不同的坐席有可能分配到相同的外呼任务，也即会出现再次拨打该类客户的电话的情况，导致客户投诉率大大增加，损害企业利益，不利于企业发展。

发明内容

本发明实施例提供一种敏感数据处理方法、装置、计算机设备及存储介质，以解决目前电话销售的过程中，部分客户比较反感此类销售电话，导致客户投诉率较高的问题。

一种敏感数据处理方法，包括：

获取外呼请求，所述外呼请求包括坐席分机号；

将所述外呼请求发送给电话平台，实时接收电话平台基于坐席分机号和原始客户标识录制的录制语音；所述原始客户标识与所述录制语音相对应；

基于敏感词检测算法，对所述录制语音进行检测，若所述录制语音满足预设敏感电话检测标准，则将所述录制语音对应的原始客户标识作为敏感数据，所述敏感数据对应一客户电话；

基于所述敏感数据查询数据库，获取与所述敏感数据相对应的至少一个关联名单，所述关联名单包括与所述敏感数据相对应的任务编号；

将所述关联名单中与所述任务编号相对应的名单处理状态更改为待回收状态，并将所述客户电话存储在禁拨表中。

一种敏感数据处理装置，包括：

外呼请求获取模块，用于获取外呼请求，所述外呼请求包括坐席分机号；

录制语音获取模块，用于将所述外呼请求发送给电话平台，实时接收电话平台基于坐席分机号和原始客户标识录制的录制语音；所述原始客户标识与所述录制语音相对应；

敏感数据获取模块，用于基于敏感词检测算法，对所述录制语音进行检测，若所述录制语音满足预设敏感电话检测标准，则将所述录制语音对应的原始客户标识作为敏感数据，所述敏感数据对应一客户电话；

关联名单获取模块，用于基于所述敏感数据查询数据库，获取与所述敏感数据相对应的至少一个关联名单，所述关联名单包括与所述敏感数据相对应的任务编号；

客户电话限制模块，用于将所述关联名单中与所述任务编号相对应的名单处理状态更改为待回收状态，并将所述客户电话存储在禁拨表中。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述敏感数据处理方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述敏感数据处理方法的步骤。

上述敏感数据处理方法、装置、计算机设备及存储介质中，通过获取外呼请求，以便将外呼请求发送给电话平台，并实时接收电话平台根据外呼请求中的坐席分机号和原始客户标识录制的录制语音，然后，采用基于敏感词检测算法，对录制语音进行检测，若录制语音满足预设敏感电话检测标准，则将录制语音对应的原始客户标识作为敏感数据，以便基于敏感数据查询数据库，获取与敏感数据相对应的至少一个关联名单，最后，将关联名单中与任务编号相对应的名单处理状态更改为待回收状态，以使服务器将该任务回收，无需坐席继续处理该外呼任务，节省时间。同时，将该任务编号对应的敏感数据存储在禁拨表中，以防止坐席进行二次拨打，有效降低客户投诉率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中敏感数据处理方法的一应用环境示意图；

图2是本发明一实施例中敏感数据处理方法的一流程图；

图3是图2中步骤S30的一具体流程图；

图4是图3中步骤S31的一具体流程图；

图5是本发明一实施例中敏感数据处理方法的一流程图；

图6是本发明一实施例中敏感数据处理方法的一流程图；

图7是本发明一实施例中敏感数据处理装置的一示意图；

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的敏感数据处理方法可应用一种电话销售系统中，用于限制敏感电话再次拨打，降低客户投诉率。该敏感数据处理方法可应用在如图1的应用环境中，其中，计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。

在一实施例中，如图2所示，提供一种敏感数据处理方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：获取外呼请求，外呼请求包括坐席分机号。

其中，外呼请求是用于触发服务器进行自动外呼的请求。坐席分机号是指企业或机构为每一坐席分配的坐席外呼终端的标识。具体地，坐席可通过输入坐席工号和密码进行登录，登录验证通过后方可进入电话销售系统，此时，电话销售系统会显示一交互页面给坐席，该交互界面中包括筛选条件，即坐席可通过筛选条件进行筛选，以便服务器根据坐席的筛选条件，返回相应的待处理外呼名单并在交互界面上显示给坐席，以供坐席选择，坐席可在交互界面中选择要处理的客户进行外呼，电话销售系统即可根据坐席工号获取与坐席工号相对应的坐席分机号，以使服务器获取外呼请求。

可理解，在交互界面上显示服务器基于筛选条件返回的待处理外呼名单时会以列表的形式(或其他显示形式)进行显示。在显示待处理外呼名单时，可按照客户的优先级进行显示，即按照客户优先级的高低显示待处理外呼名单。客户的优先级可由数据岗分配外呼名单时预先设定的，也可根据每一客户的历史成单记录进行统计，以确定客户的优先级。本实施例中，筛选条件包括但不限于预约名单和待处理外呼名单等。预约名单是指包括坐席在上一时刻外呼但未被接通的客户的名单，待处理外呼名单是指未被处理过的外呼单。进一步地，为了避免用户信息泄露，本实施例中的待处理外呼名单只显示用户的姓氏以及性别，如张先生或李小姐，以保障客户信息的安全性。

S20：将外呼请求发送给电话平台，实时接收电话平台基于坐席分机号和原始客户标识录制的录制语音，原始客户标识与录制语音相对应。

其中，电话平台是用于坐席与客户进行电话通讯的平台。原始客户标识是指未进行敏感电话检测的客户标识。客户标识是指用于唯一识别客户的标识。该电话平台预先存储有不同客户的客户电话。录制语音是电话平台在坐席与客户之前建立通讯连接时实时录制的语音。具体地，在客户接通电话时，电话销售系统中的语音识别接口会实时接收电话平台基于坐席分机号和预先存储的与原始客户标识相对应的客户电话建立通信连接所录制的录制语音，该过程无需用户手动输入客户联系方式拨打客户电话，提高工作效率。语音识别接口是用于实时接收录制语音的接口。

S30：基于敏感词检测算法，对录制语音进行检测，若录制语音满足预设敏感电话检测标准，则将录制语音对应的原始客户标识作为敏感数据，敏感数据对应一客户电话。

其中，敏感词过滤算法包括但不限于采用DFA算法、AC自动机和KMP

(Knuth-Morris-Pratt，努特-莫里斯-普拉特)算法。本实施例中，采用AC自动机对识别文本进行敏感词检测。AC(Aho-Corasick)自动机是一种字典匹配算法，它用于在输入文本(即识别文本)中查找预设关键词中的匹配的敏感词。该AC自动机应用有限自动机巧妙地将字符比较转化为了状态转移，时间复杂度是线性的，算法效率快，提高敏感词匹配的获取效率。敏感数据是指具有投诉意向的客户声道语音对应的客户电话数据。可理解地，敏感数据对应一客户电话。

在一实施例中，录制语音包括客户声道语音，客户声道语音与原始客户标识相对应。如图3所示，步骤S30中，即基于敏感词检测算法，对所述录制语音进行检测，若所述录制语音满足预设敏感电话检测标准，则将所述录制语音对应的原始客户标识作为敏感数据，具体包括如下步骤：

S31：采用语音识别模型对客户声道语音进行识别，得到第一识别文本。

其中，第一识别文本是指客户声道语音以文本形式表示的文本。语音识别模型是预先创建好的用于将语音转换为文本的模型。可理解地，在客户与坐席通话的过程中，电话平台会对客户与坐席的通话内容进行录制，在录制过程中，主要采集两个声道(即坐席声道和客户声道)的语音，在电话平台中会预先设定好客户和坐席的分别对应哪一声道。本实施例中，坐席声道采集的语音为坐席声道语音，客户声道采集的语音为客户声道语音。坐席声道语音对应一坐席标识。客户声道语音与原始客户标识相对应。坐席标识是用于识别坐席的唯一标识。

在一实施例中，如图4所示，步骤S31中，即采用语音识别模型对客户声道语音进行识别，得到第一识别文本，具体包括如下步骤：

S311：对客户声道语音进行预处理，获取语音信息。

其中，对客户声道语音进行预处理包括：分帧、加窗和预加重。分帧是将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512，涵盖的时间约为20-30ms左右。为避免相邻两帧的变化过大，通过使相邻两帧之间有一段重叠区域，此重叠区域包含了M个采样点，通常M的值约为N的1/2或1/3，此过程称为分帧。

加窗是每一帧乘以汉明窗(即Hamming Window)，由于汉明窗的幅频特性是旁瓣衰减较大，服务器通过对单帧语音数据进行加窗处理，可增加帧左端和帧右端的连续性。预加重是将加窗后的单帧语音数据通过一个高通滤波器，以提升高频部分，使信号的频谱更平滑，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，突出高频的共振峰。

S312：对语音信息进行特征提取，获取语音特征。

其中，语音特征包括但不限于采用滤波器特征。滤波器(Filter-Bank，简称Fbank)特征是语音识别过程中常用的语音特征。由于现有技术中常用的梅尔特征在进行模型识别过程中会对信息进行降维处理，导致部分信息的丢失，为避免上述问题出现，本实施例中采用滤波器特征代替常用的梅尔特征。

S313：采用语音识别模型对语音特征进行识别，得到第一识别文本。

可理解，语音识别模型包括预先训练好的声学模型和语言模型。其中，声学模型是用来获取目标语音特征对应的音素序列。音素是由语音中最小的单位，可理解为汉字里面的拼音。例如：汉语音节ā(啊)只有一个音素，ài(爱)有两个音素，dāi(呆)有三个音素等。声学模型的训练方法包括但不限于采用GMM-HMM(混合高斯模型)进行训练。语言模型是用于将音素序列转换为自然语言文本的模型。具体地，服务器将语音特征输入到预先训练好的声学模型中进行识别，获取目标语音特征对应的音素序列，然后将获取的音素序列输入到预先训练好的语言模型中进行转换，获取对应的第一识别文本。

本实施例中，通过对客户声道语音进行预处理，以获取更加平滑的语音信息，再对语音信息进行特征提取，获取语音特征，以便采用语音识别模型对语音特征进行识别，得到第一识别文本，为后续敏感数据的确定提供技术支持。

S32：基于第一预设敏感词，采用敏感词检测算法对第一识别文本进行检测，判断在是否存在与第一预设敏感词匹配的词语。

S33：若检测到存在匹配的词语，则根据匹配的词语查找第一敏感词对照表，获取与匹配的词语相对应的严重等级。

其中，第一预设敏感词是预先设置的用于检测客户声道语音对应的客户标识是否为敏感数据的敏感词。匹配的词语是客户声道语音中所包括的第一预设敏感词。由于坐席电话推销产品的过程中，可能会遇到同行、律师以及记者等职业的客户，由于此类客户对电话骚扰比较反感且维权意识较强，投诉风险较高，故本实施例中的第一预设敏感词可包括“投诉”、“同业”、“媒体”以及“监管”等。通过采用敏感词检测算法对第一识别文本进行检测，以判断在是否存在与第一预设敏感词匹配的词语，提高敏感词的匹配效率。

S34：基于严重等级，按照预设评分标准对匹配的词语进行处理，获取第一评分值。

S35：若第一评分值小于预设分值，则将客户声道语音对应的原始客户标识作为敏感数据。

具体地，预设评分标准是指预先设定的用于检测客户声道语音中的敏感词即匹配的词语进行评分的标准。具体地，根据匹配的词语对应的的严重等级对客户声道语音进行累积评分，当第一评分值达到预设分值，则将该客户声道语音对应的客户标识作为敏感数据。其中，预设分值是预先设定的用于决定检测是否通过的分值。

第一敏感词对照表是预先存储在数据库中用于针对第一预设敏感词对客户声道语音进行评分的对照表。第一评分值是是指根据客户声道语音中的匹配的洗浴对应的扣分分值进行累加所得到的评分值。该对照表中包括第一预设敏感词和对应的扣分分值。具体地，不同的第一预设敏感词对应的重要等级不同，其对应的扣分分值不同，例如，第一预设敏感词为“投诉”和“同业”，由于“投诉”这一第一预设敏感词很大程度上反映客户当前具有投诉意向，因此可将该第一预设敏感词对应的重要等级设置较高，由于“同业”这一第一预设敏感词不足以反映客户当前具有投诉意向，因此可将该第一预设敏感词对应的重要等级设置较低。

进一步地，客户声道语音对应一初始化分值，步骤S34具体为采用加权计算公式对严重等级对应的扣分分值和初始化分值进行处理，获取第一评分值；加权计算公式具体为

其中，T表示第一评分值，S表示初始化分值，i表示匹配的词语对应的标识，w_i表示匹配的词语对应的权重，n表示匹配的词语的数量

具体地，服务器会预先给每一客户声道语音设置一初始化分值，第一评分值可按照如下公式进行计算：

其中，T表示第一评分值，S表示初始化分值，i表示第一预设敏感词匹配的词语对应的标识，w_i表示第一预设敏感词匹配的词语对应的权重。若第一评分值不小于预设分值，则获取检测通过的检测结果。当第一评分值小于预设分值，则获取检测不通过的检测结果，并将该客户声道语音对应的原始客户标识作为敏感数据。

本实施例中，通过检测客户声道语音对应的第一识别文本中的第一匹配的敏感词，并按照第一敏感词对照表，快速获取与第一匹配的敏感词相对应的严重等级，以便基于第一匹配的敏感词相对应的严重等级预设评分标准对匹配的词语进行处理，获取第一评分值，最后，根据第一评分值确定敏感数据，为后续数据处理提供技术来源。

S40：基于敏感数据查询数据库，获取与敏感数据相对应的至少一个关联名单，关联名单包括与敏感数据相对应的任务编号。

其中，关联名单是指电话系统中与敏感数据相关联的外呼名单。该关联名单包括任务编号和对应的客户信息(如姓名)。任务编号是指外呼名单中的每一外呼任务的编号。由于电话销售系统中，不同的坐席可能会分配到同一客户，因此需将每一坐席的外呼名单中包含敏感数据的名单(即关联名单)筛选出来，以便从各关联名单中获取与敏感数据对应的任务编号，该任务编号是服务器在下发外呼任务时对每一客户设置的唯一编号。具体地，服务器可根据敏感数据与任务编号的映射关系，快速获取与敏感数据相对应的任务编号。

S50：将关联名单中与任务编号相对应的名单处理状态更改为待回收状态，并将客户电话作为敏感电话存储在禁拨表中。

其中，敏感电话指禁止二次拨打的电话。具体地，关联名单中还包括与任务编号相对应的名单处理状态。该名单处理状态包括待处理状态、处理中状态、处理完成状态和待回收状态。具体地，将关联名单中与任务编号相对应的名单处理状态更改为待回收状态，以使服务器将该任务回收，无需坐席继续处理该外呼任务，节省时间。同时，将敏感数据对应的客户电话存储在禁拨表中，以防止坐席进行二次拨打，有效降低客户投诉率。

本实施例中，通过获取外呼请求，以便将外呼请求发送给电话平台，并实时接收电话平台根据外呼请求中的坐席分机号和客户标识录制的录制语音，然后，采用预设监控规则对录制语音进行监控，获取敏感数据，以便基于基于敏感数据查询数据库，获取与敏感数据相对应的至少一个关联名单，最后，将关联名单中与任务编号相对应的名单处理状态更改为待回收状态，以使服务器将该任务回收，无需坐席继续处理该外呼任务，节省时间。同时，将该任务编号对应的敏感数据存储在禁拨表中，以防止坐席进行二次拨打，有效降低客户投诉率。

在一实施例中，如图5所示，步骤S50之后，即将关联名单中与任务编号相对应的名单处理状态更改为待回收状态之后，该敏感数据处理方法还包括如下步骤：

S511：获取定时回收指令，定时回收指定包括定时回收时间。

S512：若系统当前时间为定时回收时间，则对名单处理状态处于待回收状态的任务编号对应的外呼任务进行回收。

其中，定时回收指令是用于触发服务器设置定时回收任务的指令。定时回收时间是指回收待回收状态的名单的时间，例如，可为工作日的上午9:00-11:30之间的某一时间点。具体地，服务器基于定时回收时间设置定时任务，以便服务器在系统当前时间为定时回收时间时，采用数据库归档技术对名单处理状态处于待回收状态的任务编号对应的外呼任务进行批量回收，并接收每一任务编号对应的数据库归档结果，若数据库归档结果为归档成功，则电话销售系统会将该任务编号对应的外呼任务删除，降低存储空间的占有率，提高数据库性能。本实施例中的数据库归档技术可采用Solix EDMS数据库归档，Solix EDMS数据库归档技术可有效保证数据的完整性，即使在系统升级之后也可保持不变，也即提供了一个高稳定性的生产环境，可带来更高的生产力和对企业产生更积极的影响。本实施例中，归档数据可存于较低成本的存储设备上，降低存储成本。

本实施例中，通过定时回收名单处理状态处于待回收状态的外呼任务，以降低存储空间的占有率，提高数据库性能。

在一实施例中，录制语音包括坐席声道语音，坐席声道语音对应一坐席标识，如图6所示，步骤S20之后中，该敏感数据处理方法还包括如下步骤：

S61：采用语音识别模型对坐席声道语音进行识别，得到第二识别文本。

可理解地，由于本实施例是对坐席服务进行评价，因此只需采集坐席声道语音进行检测即可。具体地，步骤S61与步骤S31一致，为避免重复，此处不再赘述。

S62：采用预设时间对第二识别文本进行切分，获取首尾识别文本。

其中，预设时间是预先根据经验设置的坐席在客户接通电话时的开头语的起止时间和坐席在客户挂断电话前的结束语的起止时间。首尾识别文本是指根据预设时间，对第二识别文本进行切分所获取的开头文本和结束文本。具体地，按照开头语的起止时间和结束语的起止时间对第二识别文本进行切分，获取首尾识别文本。本实施例中，通过采用预设时间对第二识别文本进行切分，以便后续对预设话术和第二识别文本进行意图分析时，针对性更强，提高分析结果的准确率。

S63：基于预设话术，采用NLP技术对首尾识别文本进行意图分析，获取与首尾识别文本相对应的分析结果。

其中，预设话术是预先设置的用于规范坐席行为的标准话术，例如正常情况下，坐席在客户接通电话时应表明身份和意图，并在客户挂断电话前说明结束语。NLP(NaturalLanguage Processing，自然语言处理)是计算机以一种有效的方式分析、理解并从人类语言中获取意义的一种语言处理技术。通过利用NLP技术，开发者可以组织和构建知识体系来执行自动摘要、翻译、命名实体识别、关系提取、情感分析、语音识别和话题分割等任务。本实施例中，可采用开源NLP技术所提供的语义分析接口，传入首尾识别文本进行意图分析，获取与首尾识别文本相对应的分析结果。具体地，将预设话术中的在客户接通电话时应表明身份和意图的话术(即开头语)与首尾识别文本中的开始文本输入到语义分析接口中进行意图分析，获取与开始文本相对应的分析结果，将预设话术中的在客户挂断电话前所说的结束话术(即结束语)与首尾识别文本中的结束文本输入到语义分析接口中进行意图分析，获取与开始文本相对应的分析结果，以便分析坐席是否按照标准话术与客户沟通，进而对坐席的工作质量进行评价。

S64：基于第二预设敏感词，采用敏感词检测算法对第二识别文本进行检测，判断在是否存在与第二预设敏感词匹配的敏感词。

其中，第二预设敏感词是预先设置的用于检测录制语音中坐席与客户的通话内容是否符合标准的敏感词，例如正常应尊称客户为您，而“你”则为不礼貌的称呼，因此将“你”作为第二预设敏感词。匹配的敏感词是指坐席声道语音总所包含的第二预设敏感词。具体地，采用敏感词检测算法对第二识别文本进行检测，获取匹配的敏感词的检测过程与步骤S32一致，为避免重复，此处不再赘述。

S65：若检测到存在匹配的敏感词，则根据匹配的敏感词和第二敏感词对照表，获取与匹配的敏感词相对应的敏感评分值。

其中，第二敏感词对照表是预先存储在数据库中用于针对第二预设敏感词对坐席声道语音进行评分的对照表。该第二敏感词对照表中包括第二预设敏感词和对应的第二评分值。匹配的敏感词是指坐席声道语音中与第二预设敏感词相匹配的词。敏感评分值是指根据坐席声道语音中的匹配的敏感词对应的第二评分值进行累加所得到的评分值。服务器还会预先为每一坐席设置一质检分值。该质检分值即为预先设置的每一坐席的质量评分初始值，一般来说每一坐席的质量评分初始值相同，以增强之间评分的公平性。具体地，根据匹配的敏感词和第二敏感词对照表，获取与匹配的敏感词相对应的严重等级和第二评分值，再将第二评分值进行累加得到总扣分值，最后，将质量评分初始值减去总扣分值即可得到敏感评分值。

S66：基于敏感评分值和分析结果，获取与坐席标识相对应的坐席评分结果，若坐席评分结果大于预设评分阈值，则执行基于敏感词检测算法，对录制语音进行检测，若录制语音满足预设敏感电话检测标准，则将原始客户标识作为敏感数据的步骤。

其中，预设评分阈值是用于预先设置的用于对坐席服务质量进行评价的阈值。具体地，若分析结果为相似，证明该坐席按照预设话术中的开头语和结束语进行交谈，则该坐席对应的初始分值不变。若分析结果为不相似，则证明坐席未按照预设话术进行交谈，则在初始分值的基础上对坐席进行扣分，获取扣分后的话术分值，最后，采用加权算法对敏感评分值和话术分值进行处理，获取坐席评分结果。其中，加权算法的公式为P＝a₁*w₁+a₂*w₂，P为坐席评分结果，a₁为敏感评分值，w₁为敏感评分值的权重也即坐席声道语音中与预设话术中相似的开头语和结束语在进行质检评分时所占的权重，a₂为话术分值，w₂为话术分值的权重也即坐席声道语音中的不礼貌用语在进行质检评分时所占的权重。通过坐席评分结果对坐席的工作指令进行评价，以便根据坐席的坐席评分结果确定客户投诉的原因，即若坐席评分结果大于预设评分阈值，则继续执行基于敏感词检测算法，对录制语音进行检测，若录制语音满足预设敏感电话检测标准，则将原始客户标识作为敏感数据的步骤，以提高敏感数据的准确率，避免出现可能由于坐席原因引发客户投诉，而系统误将该存在投诉风险的客户的原始客户标识作为敏感数据存储在禁拨表中，导致确定敏感数据的准确率不高的问题。

本实施例中，通过综合坐席声道语音中与预设话术规定的开头语和技术语相似的话术以及坐席声道语音中的不礼貌用语这两个维度进行质检评分，以使坐席评分结果更加准确，再通过坐席评分结果对坐席的工作指令进行评价，以便根据坐席的服务质量确定客户投诉的原因，以提高敏感数据的准确率，避免出现可能由于坐席原因引发客户投诉，而系统误将该存在投诉风险的客户的原始客户标识作为敏感数据存储在禁拨表中，导致确定敏感数据的准确率不高的问题。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种敏感数据处理装置，该敏感数据处理装置与上述实施例中敏感数据处理方法一一对应。如图7所示，该敏感数据处理装置包括外呼请求获取模块10、录制语音获取模块20、敏感数据获取模块30、关联名单获取模块40和客户电话限制模块50。各功能模块详细说明如下：

外呼请求获取模块10，用于获取外呼请求，外呼请求包括坐席分机号。

录制语音获取模块20，用于将外呼请求发送给电话平台，实时接收电话平台基于坐席分机号和原始客户标识录制的录制语音；原始客户标识与录制语音相对应。

敏感数据获取模块30，用于基于敏感词检测算法，对录制语音进行检测，若录制语音满足预设敏感电话检测标准，则将录制语音对应的原始客户标识作为敏感数据，敏感数据对应一客户电话。

关联名单获取模块40，用于基于敏感数据查询数据库，获取与敏感数据相对应的至少一个关联名单，关联名单包括与敏感数据相对应的任务编号。

客户电话限制模块50，用于将关联名单中与任务编号相对应的名单处理状态更改为待回收状态，并将客户电话存储在禁拨表中。

具体地，录制语音包括客户声道语音，客户声道语音与原始客户标识相对应，敏感数据获取模块30包括第一识别文本获取单元31、第一敏感词检测单元32、严重等级获取单元33、第一评分值获取单元34和敏感数据获取单元35。

第一识别文本获取单元31，用于采用语音识别模型对客户声道语音进行识别，得到第一识别文本。

第一敏感词检测单元32，用于基于第一预设敏感词，采用敏感词检测算法对第一识别文本进行检测，判断在是否存在与第一预设敏感词匹配的词语。

严重等级获取单元33，用于若检测到存在匹配的词语，则根据匹配的词语查找第一敏感词对照表，获取与匹配的词语相对应的严重等级。

第一评分值获取单元34，用于基于严重等级，按照预设评分标准对匹配的词语进行处理，获取第一评分值。

敏感数据确定单元35，用于若第一评分值小于预设分值，则将客户声道语音对应的原始客户标识作为敏感数据。

具体地，第一识别文本获取单元包括语音信息获取子单元、语音特征获取子单元和第一识别文本获取单元。

语音信息获取子单元，用于对客户声道语音进行预处理，获取语音信息。

语音特征获取子单元，用于对语音信息进行特征提取，获取语音特征。

第一识别文本获取单元，用于采用语音识别模型对语音特征进行识别，得到第一识别文本。

具体地，该敏感数据处理装置还包括定时回收指令获取单元和外呼任务回收单元。

定时回收指令获取单元，用于获取定时回收指令，定时回收指定包括定时回收时间。

外呼任务回收单元，用于若系统当前时间为定时回收时间，则对名单处理状态处于待回收状态的任务编号对应的外呼任务进行回收。

具体地，录制语音包括坐席声道语音，坐席声道语音音对应一坐席标识，该该敏感数据处理装置还包括第二识别文本获取单元、首尾识别文本获取单元、分析结果获取单元、第二敏感词检测单元、敏感评分值获取单元和坐席评分结果获取单元。

第二识别文本获取单元，用于采用语音识别模型对坐席声道语音进行识别，得到第二识别文本。

首尾识别文本获取单元，用于采用预设时间对第二识别文本进行切分，获取首尾识别文本。

分析结果获取单元，用于基于预设话术，采用NLP技术对首尾识别文本进行意图分析，获取与首尾识别文本相对应的分析结果。

第二敏感词检测单元，用于基于第二预设敏感词，采用敏感词检测算法对第二识别文本进行检测，判断在是否存在与第二预设敏感词匹配的敏感词。

敏感评分值获取单元，用于若检测到存在匹配的敏感词，则根据匹配的敏感词和第二敏感词对照表，获取与匹配的敏感词相对应的敏感评分值。

坐席评分结果获取单元，用于基于敏感评分值和分析结果，获取与坐席标识相对应的坐席评分结果，若坐席评分结果大于预设评分阈值，则继续执行基于敏感词检测算法，对录制语音进行检测，若录制语音满足预设敏感电话检测标准，则将原始客户标识作为敏感数据的步骤。

关于敏感数据处理装置的具体限定可以参见上文中对于敏感数据处理方法的限定，在此不再赘述。上述敏感数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机可读存储介质、内存储器。该计算机可读存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机可读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行敏感数据处理方法过程中生成或获取的数据，如关联名单。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种敏感数据处理方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的敏感数据处理方法的步骤，例如图2所示的步骤S10-S50，或者图3至图6中所示的步骤。或者，处理器执行计算机程序时实现敏感数据处理装置这一实施例中的各模块/单元的功能，例如图7所示的各模块/单元的功能，为避免重复，这里不再赘述。

在一实施例中，提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中用户帐号解锁方法的步骤，例如图2所示的步骤S10-S50，或者图3至图6中所示的步骤，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现上述敏感数据处理装置这一实施例中的各模块/单元的功能，例如图7所示的各模块/单元的功能，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种敏感数据处理方法，其特征在于，包括：

获取外呼请求，所述外呼请求包括坐席分机号；

将所述外呼请求发送给电话平台，实时接收电话平台基于所述坐席分机号和原始客户标识录制的录制语音；所述原始客户标识与所述录制语音中的客户声道语音相对应；所述客户声道语音对应一初始化分值；

采用语音识别模型对所述客户声道语音进行识别，得到第一识别文本；

基于第一预设敏感词，采用所述敏感词检测算法对所述第一识别文本进行检测，判断在是否存在与所述第一预设敏感词匹配的词语；

若检测到存在所述匹配的词语，则根据所述匹配的词语查找第一敏感词对照表，获取与所述匹配的词语相对应的严重等级；

采用加权计算公式对所述严重等级对应的扣分分值和初始化分值进行处理，获取第一评分值；

若所述第一评分值小于预设分值，则将所述客户声道语音对应的原始客户标识作为所述敏感数据，所述敏感数据对应一客户电话；

2.如权利要求1所述的敏感数据处理方法，其特征在于，所述采用语音识别模型对所述客户声道语音进行识别，得到第一识别文本，包括：

对所述客户声道语音进行预处理，获取语音信息；

对所述语音信息进行特征提取，获取语音特征；

采用语音识别模型对所述语音特征进行识别，得到所述第一识别文本。

3.如权利要求1所述的敏感数据处理方法，其特征在于，所述采用加权计算公式对所述严重等级对应的扣分分值和初始化分值进行处理，获取所述第一评分值，包括：

所述加权计算公式具体为

其中，T表示所述第一评分值，S表示所述初始化分值，i表示所述匹配的词语对应的标识，w_i表示所述匹配的词语对应的权重，n表示所述匹配的词语的数量。

4.如权利要求1所述的敏感数据处理方法，其特征在于，在所述将所述关联名单中与所述任务编号相对应的名单处理状态更改为待回收状态之后，所述敏感数据处理方法还包括：

获取定时回收指令，所述定时回收指定包括定时回收时间；

若系统当前时间为定时回收时间，则对名单处理状态处于待回收状态的任务编号对应的外呼任务进行回收。

5.如权利要求1所述的敏感数据处理方法，其特征在于，所述录制语音包括坐席声道语音，所述坐席声道语音音对应一坐席标识；

在所述实时接收电话平台基于坐席分机号和客户标识录制的录制语音之后，所述敏感数据处理方法还包括：

采用语音识别模型对所述坐席声道语音进行识别，得到第二识别文本；

采用预设时间对所述第二识别文本进行切分，获取首尾识别文本；

基于预设话术，采用NLP技术对所述首尾识别文本进行意图分析，获取与所述首尾识别文本相对应的分析结果；

基于第二预设敏感词，采用敏感词检测算法对所述第二识别文本进行检测，判断在是否存在与所述第二预设敏感词匹配的敏感词；

若检测到存在所述匹配的敏感词，则根据所述匹配的敏感词和第二敏感词对照表，获取与所述匹配的敏感词相对应的敏感评分值；

基于所述敏感评分值和所述分析结果，获取与所述坐席标识相对应的坐席评分结果，若所述坐席评分结果大于预设评分阈值，则执行所述基于敏感词检测算法，对所述录制语音进行检测，若所述录制语音满足预设敏感电话检测标准，则将所述原始客户标识作为敏感数据的步骤。

6.一种敏感数据处理装置，其特征在于，包括：

7.如权利要求6所述的敏感数据处理装置，其特征在于，所述敏感数据获取模块包括：

第一识别文本获取单元，用于采用语音识别模型对所述客户声道语音进行识别，得到第一识别文本；

第一敏感词检测单元，用于基于第一预设敏感词，采用敏感词检测算法对所述第一识别文本进行检测，判断在是否存在与所述第一预设敏感词匹配的词语；

严重等级获取单元，用于若检测到存在所述匹配的词语，则根据所述匹配的词语查找第一敏感词对照表，获取与所述匹配的词语相对应的严重等级；

第一评分值获取单元，用于基于所述严重等级，按照预设评分标准对所述匹配的词语进行处理，获取第一评分值；

敏感数据确定单元，用于若所述第一评分值小于预设分值，则将所述客户声道语音对应的原始客户标识作为敏感数据。

8.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述敏感数据处理方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述敏感数据处理方法的步骤。