CN112559776A

CN112559776A - 一种敏感信息的定位方法及系统

Info

Publication number: CN112559776A
Application number: CN202011522433.5A
Authority: CN
Inventors: 黎海声; 黎子源; 赵雪松; 刘小燕; 郑瑞玲
Original assignee: Lvshou Health Industry Group Co ltd
Current assignee: Lvshou Health Industry Group Co ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-03-26

Abstract

本发明公开了一种敏感信息的定位方法及系统，所述方法包括：预先在后台管理服务器输入需要提示定位的敏感词，生成第一敏感词列表；从聊天软件服务器中实时采集每一个员工与客户之间的每条聊天记录；根据第一敏感词列表逐条检测聊天记录，检测每条聊天记录是否包含第一敏感词列表中的敏感词；若是，则记录该条聊天记录至触发记录表，并默认标记该条聊天记录中的敏感词为未处理状态，生成待处理敏感词列表；若否，则返回上一步，直至所有的聊天记录检测完毕。本发明能够检测企业员工在通过聊天软件与客户沟通时是否存在违规的敏感信息，通过对敏感信息进行精准定位后快速处理，提高企业员工与客户沟通的管理效率，降低时间成本和人力成本。

Description

一种敏感信息的定位方法及系统

技术领域

本发明涉及通信及计算机信息技术领域，尤其是涉及一种敏感信息的定位方法及系统。

背景技术

随着互联网技术的发展，网络已成为人们获取信息、交流信息的主要平台。即时通讯工具，打破了传统的电话交流方式，实现了网络即时通信。使得人们之间的交流更方便、更畅通。

当前企业已经陆续开发出各自的专属于客户与员工进行沟通的软件工具或平台，有利于员工与客服或顾问之间能够快捷便利地进行咨询和沟通，提高公司员工业务能力的同时，也能够使得客户及时得到服务和指导。

但是，在对现有技术的研究与实践过程中，本发明的发明人发现，目前企业的聊天软件工具或平台的功能过于简陋，仅仅只有文字交流和发送图片，而不具备敏感关键词功能，无法及时有效监控员工与客户之间的交流是否违规；或者，对于聊天过程中的敏感词，现有技术一般仅仅对敏感关键词进行简单的屏蔽，而并没有对敏感关键词进行后续的二次处理，导致无法快速对违规内容进行处理，在降低该方面的管理效率的同时，也大大提高了管理的时间成本和人力成本。

发明内容

本发明实施例所要解决的技术问题在于，提供一种敏感信息的定位方法及系统，能够对企业员工在通过聊天软件与客户沟通时存在的敏感信息进行定位。

为解决上述问题，本申请实施例的第一方面提供了一种敏感信息的定位方法，至少包括如下步骤：

预先在后台管理服务器输入需要提示定位的敏感词，生成第一敏感词列表；

从聊天软件服务器中实时采集每一个员工与客户之间的每条聊天记录；

根据所述第一敏感词列表逐条检测所述聊天记录，检测每条聊天记录是否包含所述第一敏感词列表中的敏感词；

若是，则记录该条聊天记录至触发记录表，并默认标记该条聊天记录中的敏感词为未处理状态，生成待处理敏感词列表；

若否，则返回上一步，直至所有的聊天记录检测完毕。

在第一方面的一种可能的实现方式中，所述敏感信息的定位方法，还包括：

根据所述触发记录表和所述待处理敏感词列表，定位至对应的每一条聊天记录后进行敏感词的审核，审核完成后标注处理状态，并进行备注和统计。

在完成统计后，生成员工触发敏感词排行表、每日敏感词触发排行表、每周敏感词触发排行表和每月敏感词触发排行表。

根据所述员工触发敏感词排行表、每日敏感词触发排行表、每周敏感词触发排行表和每月敏感词触发排行表，筛选出触发次数超过预设第一阈值的敏感词并进行语义分析，得到对应的相似敏感词后更新至所述第一敏感词列表。

从所述触发记录表中统计出现频率高于预设第二阈值的全部词语，判断该词语是否为相关敏感词；

若是，则在检测该词语并未收录至所述第一敏感词列表时，更新至所述第一敏感词列表。

在第一方面的一种可能的实现方式中，所述敏感词，包括客户敏感词和客服敏感词。

在第一方面的一种可能的实现方式中，所述聊天记录，包括文字记录、语音记录和图片记录，则所述根据所述第一敏感词列表逐条检测所述聊天记录，包括：

采用文本检测算法对所述文字记录进行敏感词识别；

采用语音识别技术对所述语音记录进行文本转换后进行敏感词识别；

采用二维码检测算法对所述图片记录进行违规二维码识别。

本申请实施例的第二方面提供了一种敏感信息的定位系统，包括：

敏感信息设置模块，用于预先在后台管理服务器输入需要提示定位的敏感词，生成第一敏感词列表；

聊天记录采集模块，用于从聊天软件服务器中实时采集每一个员工与客户之间的每条聊天记录；

敏感信息定位模块，用于根据所述第一敏感词列表逐条检测所述聊天记录，检测每条聊天记录是否包含所述第一敏感词列表中的敏感词；若是，则记录该条聊天记录至触发记录表，并默认标记该条聊天记录中的敏感词为未处理状态，生成待处理敏感词列表；若否，则返回上一步，直至所有的聊天记录检测完毕。

本申请实施例的第三方面提供了一种敏感信息的定位的终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述的敏感信息的定位方法。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的敏感信息的定位方法。

实施本发明实施例，具有如下有益效果：

本发明实施例提供的一种敏感信息的定位方法及系统，所述方法包括：预先在后台管理服务器输入需要提示定位的敏感词，生成第一敏感词列表；从聊天软件服务器中实时采集每一个员工与客户之间的每条聊天记录；根据所述第一敏感词列表逐条检测所述聊天记录，检测每条聊天记录是否包含所述第一敏感词列表中的敏感词；若是，则记录该条聊天记录至触发记录表，并默认标记该条聊天记录中的敏感词为未处理状态，生成待处理敏感词列表；若否，则返回上一步，直至所有的聊天记录检测完毕。

与现有技术相比，本发明实施例能够检测企业员工在通过聊天软件与客户沟通时是否存在违规的敏感信息，通过对敏感信息进行精准定位后快速处理，提高企业员工与客户沟通的管理效率，降低时间成本和人力成本。

附图说明

图1为本发明第一实施例提供的一种敏感信息的定位方法的流程示意图；

图2为本发明第一实施例提供的另一种敏感信息的定位方法的流程示意图；

图3为本发明第二实施例提供的一种敏感信息的定位系统的结构示意图；

图4为本发明第二实施例提供的另一种敏感信息的定位系统的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

首先介绍本发明可以提供的应用场景，如对企业员工在通过聊天软件与客户沟通时存在的敏感信息进行定位。

本发明第一实施例：

请参阅图1-2。

如图1所示，本实施例提供了一种敏感信息的定位方法，至少包括如下步骤：

S1、预先在后台管理服务器输入需要提示定位的敏感词，生成第一敏感词列表。

在优选的实施例中，所述敏感词，包括客户敏感词和客服敏感词。

具体的，对于步骤S1，企业管理人员首先在后台管理服务器中输入需要提示定位的敏感词，包括客户方面的敏感词和客服方面的敏感词，生成第一敏感词列表并进行存储。

S2、从聊天软件服务器中实时采集每一个员工与客户之间的每条聊天记录。

具体的，对于步骤S2，在员工与客户之间通过聊天软件沟通时，通过从聊天软件服务器中实时采集每一个员工与客户之间的每条聊天记录并进行存储。

S3、根据所述第一敏感词列表逐条检测所述聊天记录，检测每条聊天记录是否包含所述第一敏感词列表中的敏感词。

S31、若是，则记录该条聊天记录至触发记录表，并默认标记该条聊天记录中的敏感词为未处理状态，生成待处理敏感词列表。

S32、若否，则返回上一步，直至所有的聊天记录检测完毕。

具体的，对于步骤S3，每从聊天软件服务器中下载一条聊天记录时，就判断这条记录是否保护某个词，根据第一敏感词列表中的敏感词与聊天记录进行逐条匹配检测，检测每条聊天记录中是否包含所述第一敏感词列表中的敏感词。若包含，则首先将该条聊天记录存储至触发记录表，并默认标记该条聊天记录中的敏感词为未处理状态，并生成待处理敏感词列表至管理界面；若不包含，则返回步骤S3，继续进行逐条检测。

在优选的实施例中，所述聊天记录，包括文字记录、语音记录和图片记录，则所述根据所述第一敏感词列表逐条检测所述聊天记录，包括：

采用文本检测算法对所述文字记录进行敏感词识别；

采用二维码检测算法对所述图片记录进行违规二维码识别。

具体的，聊天记录包括但不限于文字记录、语音记录和图片记录，在对聊天记录进行逐条检测时，若检测对象是文字记录，则采用文本检测算法对所述文字记录进行敏感词识别，检测是否存在所述第一敏感词列表的敏感词；若检测对象是语音记录，则先采用语音识别技术对所述语音记录进行文本转换，再采用文本检测算法对所述文字记录进行敏感词识别，检测是否存在所述第一敏感词列表的敏感词；若检测对象是图片记录，则采用二维码检测算法对所述图片记录进行违规二维码识别，判断是否存在违规的二维码。

在优选的实施例中，如图2所示，所述敏感信息的定位方法，还包括：

S4、根据所述触发记录表和所述待处理敏感词列表，定位至对应的每一条聊天记录后进行敏感词的审核，审核完成后标注处理状态，并进行备注和统计。

具体的，根据触发记录表和待处理敏感词列表，定位至对应的每一条聊天记录中已标记的敏感词，对该敏感词进行审核，判断是否违规，审核完成成标注其对应的处理状态，最后对审核完成的聊天记录及敏感词进行备注和统计。

在优选的实施例中，所述步骤S4，还包括：

在优选的实施例中，所述敏感信息的定位方法，还包括：

具体的，对于步骤S4，在完成统计后，根据需求生成员工触发敏感词排行表以及不同时段统计的敏感词触发排行表进行二次统计，筛选出触发次数超过预设第一阈值的敏感词并进行语义分析，从而得到与该敏感词语义相似度高于预设阈值的相似敏感词，管理人员审核该批相似敏感词是否符合要求，从而更新至所述第一敏感词列表，对敏感词列表进行实时更新或修正，提高后续敏感词的识别和定位的精准度。

在优选的实施例中，所述敏感信息的定位方法，还包括：

具体的，从触发记录表中统计出现频率高于第二阈值的全部词语，首先判断该词语是否为与原有的第一敏感词列表中的敏感词的相关敏感词，具体可以通过语义分析方法分析其语义相似度；若判断为相关敏感词，则检测是否已经出现在第一敏感词列表，若否，则更新至第一敏感词列表中。

本实施例提供的一种敏感信息的定位方法，包括：预先在后台管理服务器输入需要提示定位的敏感词，生成第一敏感词列表；从聊天软件服务器中实时采集每一个员工与客户之间的每条聊天记录；根据所述第一敏感词列表逐条检测所述聊天记录，检测每条聊天记录是否包含所述第一敏感词列表中的敏感词；若是，则记录该条聊天记录至触发记录表，并默认标记该条聊天记录中的敏感词为未处理状态，生成待处理敏感词列表；若否，则返回上一步，直至所有的聊天记录检测完毕。

本实施例能够检测企业员工在通过聊天软件与客户沟通时是否存在违规的敏感信息，通过对敏感信息进行精准定位后快速处理，提高企业员工与客户沟通的管理效率，降低时间成本和人力成本。

本发明第二实施例：

请参阅图3-4。

如图3所示，本实施例提供了一种敏感信息的定位系统，包括：

敏感信息设置模块100，用于预先在后台管理服务器输入需要提示定位的敏感词，生成第一敏感词列表。

具体的，对于敏感信息设置模块100，企业管理人员首先在后台管理服务器中输入需要提示定位的敏感词，包括客户方面的敏感词和客服方面的敏感词，生成第一敏感词列表并进行存储。

聊天记录采集模块200，用于从聊天软件服务器中实时采集每一个员工与客户之间的每条聊天记录。

具体的，对于聊天记录采集模块200，在员工与客户之间通过聊天软件沟通时，通过从聊天软件服务器中实时采集每一个员工与客户之间的每条聊天记录并进行存储。

敏感信息定位模块300，用于根据所述第一敏感词列表逐条检测所述聊天记录，检测每条聊天记录是否包含所述第一敏感词列表中的敏感词；若是，则记录该条聊天记录至触发记录表，并默认标记该条聊天记录中的敏感词为未处理状态，生成待处理敏感词列表；若否，则返回上一步，直至所有的聊天记录检测完毕。

具体的，对于敏感信息定位模块300，每从聊天软件服务器中下载一条聊天记录时，就判断这条记录是否保护某个词，根据第一敏感词列表中的敏感词与聊天记录进行逐条匹配检测，检测每条聊天记录中是否包含所述第一敏感词列表中的敏感词。若包含，则首先将该条聊天记录存储至触发记录表，并默认标记该条聊天记录中的敏感词为未处理状态，并生成待处理敏感词列表至管理界面；若不包含，则返回上一步，继续进行逐条检测。

在优选的实施例中，如图4所示，本实施例提供的一种敏感信息的定位系统，还包括：

审核统计模块400，用于根据所述触发记录表和所述待处理敏感词列表，定位至对应的每一条聊天记录后进行敏感词的审核，审核完成后标注处理状态，并进行备注和统计。

具体的，对于审核统计模块400，根据触发记录表和待处理敏感词列表，定位至对应的每一条聊天记录中已标记的敏感词，对该敏感词进行审核，判断是否违规，审核完成成标注其对应的处理状态，最后对审核完成的聊天记录及敏感词进行备注和统计。

本实施例提供的一种敏感信息的定位系统，包括：敏感信息设置模块100，用于预先在后台管理服务器输入需要提示定位的敏感词，生成第一敏感词列表；聊天记录采集模块200，用于从聊天软件服务器中实时采集每一个员工与客户之间的每条聊天记录；敏感信息定位模块300，用于根据所述第一敏感词列表逐条检测所述聊天记录，检测每条聊天记录是否包含所述第一敏感词列表中的敏感词；若是，则记录该条聊天记录至触发记录表，并默认标记该条聊天记录中的敏感词为未处理状态，生成待处理敏感词列表；若否，则返回上一步，直至所有的聊天记录检测完毕。

本申请实施例还提供了一种敏感信息的定位的终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述的敏感信息的定位方法。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的敏感信息的定位方法。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的系统实施例仅仅是示意性的，例如所述模块的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和变形，这些改进和变形也视为本发明的保护范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

Claims

1.一种敏感信息的定位方法，其特征在于，至少包括如下步骤：

若否，则返回上一步，直至所有的聊天记录检测完毕。

2.根据权利要求1所述的敏感信息的定位方法，其特征在于，还包括：

3.根据权利要求2所述的敏感信息的定位方法，其特征在于，还包括：

4.根据权利要求3所述的敏感信息的定位方法，其特征在于，还包括：

5.根据权利要求2的敏感信息的定位方法，其特征在于，还包括：

6.根据权利要求1所述的敏感信息的定位方法，其特征在于，所述敏感词，包括客户敏感词和客服敏感词。

7.根据权利1所述的敏感信息的定位方法，其特征在于，所述聊天记录，包括文字记录、语音记录和图片记录，则所述根据所述第一敏感词列表逐条检测所述聊天记录，包括：

采用文本检测算法对所述文字记录进行敏感词识别；

采用二维码检测算法对所述图片记录进行违规二维码识别。

8.一种敏感信息的定位系统，其特征在于，包括：

9.一种敏感信息的定位的终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的敏感信息的定位方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的敏感信息的定位方法。