CN113132368B

CN113132368B - 聊天数据的审核方法、装置及计算机设备

Info

Publication number: CN113132368B
Application number: CN202110390278.4A
Authority: CN
Inventors: 王健
Original assignee: Hainan Chenfeng Technology Co ltd
Current assignee: Hainan Chenfeng Technology Co ltd
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2022-11-04
Anticipated expiration: 2041-04-12
Also published as: CN113132368A

Abstract

本申请公开了一种聊天数据的审核方法、装置及计算机设备，涉及计算机技术领域，可以解决人工审核聊天数据的方式，导致审核效率低、准确性差，不能实现对聊天信息的智能化识别，进而无法为用户营造良好的游戏体验的技术问题。其中方法包括：获取待审核的聊天数据，并提取所述聊天数据的数据类型；依据与所述数据类型匹配的信息审核规则审核所述聊天数据，确定第一审核结果；若所述第一审核结果为所述聊天数据中包含违禁数据，则依据所述违禁数据的违禁类别计算所述违禁数据的违禁分值，并基于所述违禁分值确定所述聊天数据的第二审核结果。本申请适用于对聊天数据的违规性审核。

Description

聊天数据的审核方法、装置及计算机设备

技术领域

本申请涉及计算机技术领域，尤其涉及到一种聊天数据的审核方法、装置及计算机设备。

背景技术

随着互联网的发展、移动终端的普及，网络聊天方式已经是生活中普遍、客观存在的一部分，在各大游戏、购物以及交友软件中均会设置聊天模块，用户可通过聊天模块实现信息的在线交互。然而网上聊天方式的弊端在于，无法对聊天信息进行有效审核，进而导致存在通过网上聊天传播色情、低俗以及违禁信息的不法行为，这对青少年乃至成年都造成了不良影响。为营造良好的网络聊天环境，对聊天信息的合法性审核显得尤为重要。

现有技术中，对聊天信息的违禁性审核方式通常采用人工审核的方式，然而这种方式会导致审核效率低、准确性差，不能实现对聊天信息的智能化识别，进而无法为用户营造良好的网络聊天环境。

发明内容

有鉴于此，本申请提供了一种聊天数据的审核方法、装置及计算机设备，用于解决人工审核聊天数据的方式，导致审核效率低、准确性差，不能实现对聊天信息的智能化识别，进而无法为用户营造良好的游戏体验的技术问题。

根据本申请的一个方面，提供了一种聊天数据的审核方法，该方法包括：

获取待审核的聊天数据，并提取所述聊天数据的数据类型；

依据与所述数据类型匹配的信息审核规则审核所述聊天数据，确定第一审核结果；

若所述第一审核结果为所述聊天数据中包含违禁数据，则依据所述违禁数据的违禁类别计算所述违禁数据的违禁分值，并基于所述违禁分值确定所述聊天数据的第二审核结果。

可选地，所述依据与所述数据类型匹配的信息审核规则审核所述聊天数据，确定第一审核结果，具体包括：

若所述数据类型为文本类型和/或语音类型，则利用第一审核规则审核所述聊天数据，获取得到第一审核结果；或，

若所述数据类型为语音类型，则利用第二审核规则审核所述聊天数据，获取得到第一审核结果。

可选地，所述利用第一审核规则审核所述聊天数据，获取得到第一审核结果，具体包括：

将所述聊天数据转换为标准文本；

基于分词技术将所述标准文本切分为包含各个第一字符的第一字符序列；

在所述第一字符序列中剔除与预设字符匹配的第一字符，得到包含各个第二字符的第二字符序列；

按照所述第二字符序列中的字符顺序，依次对预设数量个相邻的第二字符进行排列组合处理，获取得到各个待识别文本段；

基于正则表达式对所述待识别文本段进行违禁数据查询，以得到第一审核结果。

可选地，所述基于正则表达式对所述待识别文本段进行违禁数据查询，以得到第一审核结果，具体包括：

将所述待识别文本段与预设违禁词分别进行音码匹配和形码匹配，确定音码匹配下的第一相似度以及形码匹配下的第二相似度；

根据所述音码匹配对应的第一预设权重和所述形码匹配对应的第二预设权重，计算所述第一相似度和所述第二相似度的加权求和结果；

若判定所述加权求和结果大于第一预设阈值，则将与所述加权求和结果匹配的待识别文本段标记为违禁数据，并输出所述聊天数据中包含所述违禁数据的第一审核结果。

可选地，所述利用第二审核规则审核所述聊天数据，获取得到第一审核结果，具体包括：

确定所述聊天数据对应的语音类型；

基于与所述语音类型匹配的文本解析规则，将所述聊天数据解析为标准文本；

将所述聊天数据和所述标准文本输入符合预设训练标准的违禁数据识别模型中，获取所述聊天数据中是否包含违禁数据的第一审核结果，所述违禁数据识别模型是预先基于标记违禁数据的样本聊天数据训练得到的。

可选地，所述依据所述违禁数据的违禁类别计算所述违禁数据的违禁分值，并基于所述违禁分值确定所述聊天数据的第二审核结果，具体包括：

根据各个违禁类别对应的预设分值、配置权重，以及所述违禁数据在所述聊天数据中的出现频率，计算所述聊天数据的违禁分值；

基于所述违禁分值划分所述聊天数据的违禁等级；

输出所述聊天数据对应所述违禁等级的第二审核结果。

可选地，该方法还包括：

根据所述第一审核结果和所述第二审核结果，对所述聊天数据以及发布所述聊天数据的账号进行风险评估处理。

根据本申请的另一个方面，提供了一种聊天数据的审核装置，该装置包括：

获取模块，用于获取待审核的聊天数据，并提取所述聊天数据的数据类型；

第一确定模块，用于依据与所述数据类型匹配的信息审核规则审核所述聊天数据，确定第一审核结果；

第二确定模块，用于若所述第一审核结果为所述聊天数据中包含违禁数据，则依据所述违禁数据的违禁类别计算所述违禁数据的违禁分值，并基于所述违禁分值确定所述聊天数据的第二审核结果。

可选地，所述第一确定模块，具体用于若所述数据类型为文本类型和/或语音类型，则利用第一审核规则审核所述聊天数据，获取得到第一审核结果；或，若所述数据类型为语音类型，则利用第二审核规则审核所述聊天数据，获取得到第一审核结果。

可选地，所述第一确定模块，具体用于将所述聊天数据转换为标准文本；基于分词技术将所述标准文本切分为包含各个第一字符的第一字符序列；在所述第一字符序列中剔除与预设字符匹配的第一字符，得到包含各个第二字符的第二字符序列；按照所述第二字符序列中的字符顺序，依次对预设数量个相邻的第二字符进行排列组合处理，获取得到各个待识别文本段；基于正则表达式对所述待识别文本段进行违禁数据查询，以得到第一审核结果。

可选地，所述第一确定模块，具体用于将所述待识别文本段与预设违禁词分别进行音码匹配和形码匹配，确定音码匹配下的第一相似度以及形码匹配下的第二相似度；根据所述音码匹配对应的第一预设权重和所述形码匹配对应的第二预设权重，计算所述第一相似度和所述第二相似度的加权求和结果；若判定所述加权求和结果大于第一预设阈值，则将与所述加权求和结果匹配的待识别文本段标记为违禁数据，并输出所述聊天数据中包含所述违禁数据的第一审核结果。

可选地，所述第一确定模块，具体用于确定所述聊天数据对应的语音类型；基于与所述语音类型匹配的文本解析规则，将所述聊天数据解析为标准文本；将所述聊天数据和所述标准文本输入符合预设训练标准的违禁数据识别模型中，获取所述聊天数据中是否包含违禁数据的第一审核结果，所述违禁数据识别模型是预先基于标记违禁数据的样本聊天数据训练得到的。

可选地，所述第二确定模块，具体用于根据各个违禁类别对应的预设分值、配置权重，以及所述违禁数据在所述聊天数据中的出现频率，计算所述聊天数据的违禁分值；基于所述违禁分值划分所述聊天数据的违禁等级；输出所述聊天数据对应所述违禁等级的第二审核结果。

可选地，该装置还包括：处理模块；

所述处理模块，可用于根据所述第一审核结果和所述第二审核结果，对所述聊天数据以及发布所述聊天数据的账号进行风险评估处理。

根据本申请的又一个方面，提供了一种非易失性可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述聊天数据的审核方法。

根据本申请的再一个方面，提供了一种计算机设备，包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述聊天数据的审核方法。

借由上述技术方案，本申请提供的一种聊天数据的审核方法、装置及计算机设备，与目前针对聊天数据的审核方式相比，本申请可在获取得到待审核的聊天记录后，依据与聊天数据对应数据类型匹配的信息审核规则对聊天数据进行初步审核，当确定第一审核结果为聊天数据中包含违禁数据时，可进一步对违禁数据进行深层次的第二次审核，以便获取得到包含违禁等级的第二审核结果。在本申请中，通过对聊天数据的二重审核，可准确确定出聊天数据中所包含的违禁信息，且通过智能化的审核方式，可保证审核的效率，进而能够为用户营造良好的网络聊天环境。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本地申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种聊天数据的审核方法的流程示意图；

图2示出了本申请实施例提供的另一种聊天数据的审核方法的流程示意图；

图3示出了本申请实施例提供的一种聊天数据的审核装置的结构示意图；

图4示出了本申请实施例提供的另一种聊天数据的审核装置的结构示意图。

具体实施方式

下文将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。

针对人工审核聊天数据的方式，导致审核效率低、准确性差，不能实现对聊天信息的智能化识别，进而无法为用户营造良好的游戏体验的技术问题。本申请实施例提供了一种聊天数据的审核方法，如图1所示，该方法包括：

101、获取待审核的聊天数据，并提取聊天数据的数据类型。

其中，聊天数据可为在服务器中实时获取的具有访问权限的聊天信息，也可为在服务器中提取的用户存储的历史聊天信息，具体聊天数据的获取方式可根据数据审核场景进行确定。在获取得到待审核的聊天数据后，为了方便对聊天数据的精准审核，故可进一步提取聊天数据的数据类型，以便基于数据类型匹配优选的数据审核方式。

对于本申请的执行主体可为用于对网络聊天数据进行违禁内容审核的审核系统，审核系统可在审核聊天数据时，基于与聊天数据对应数据类型匹配的信息审核规则对聊天信息进行第一次审核，且在判定聊天数据中包含违禁数据时，再次对聊天信息进行深入层次的第二审核，进一步获取得到最终的审核结果，最后基于最终审核结果对聊天数据进行相应的处理。

102、依据与数据类型匹配的信息审核规则审核聊天数据，确定第一审核结果。

在具体的应用场景中，为了保证数据审核的准确性，可预先针对不同的数据类型设置不同的信息审核规则，其中，数据类型可包括文本类型、语音类型，根据具体的场景，还可以包括图片类型、视频类型等。由于不同数据类型对应的表达方式不同，故可预先针对不同的数据类型分别配置对应的信息审核规则。对于本实施例，在确定出聊天数据对应的数据类型后，可进一步基于与该数据类型匹配的信息审核规则对聊天信息进行审核，确定聊天数据中是否包含违禁数据。

103、若第一审核结果为聊天数据中包含违禁数据，则依据违禁数据的违禁类别计算违禁数据的违禁分值，并基于违禁分值确定聊天数据的第二审核结果。

其中，违禁数据是指涉黄、涉恐、涉政或者广告、辱骂等不适合公开发布的违禁内容，这些内容的发布均会在不同程度上影响社交平台内其他用户的使用体验，甚至对社会产生一定的危害性。由于不同的违禁类别造成的危险等级不同，如涉黄、涉恐、涉政的危险等级显然大于广告的危险等级，故在本实施例中，可预先基于不同的危险等级为各个违禁类别分别配置对应的评分标准，以便在提取出聊天数据所包含的违禁数据后，基于违禁数据所对应的评分标准，综合计算出聊天数据的违禁分值，进而基于违禁分值整体分析聊天数据的危险指数，并执行相应的处理操作。

通过本实施例中聊天数据的审核方法，可在获取得到待审核的聊天记录后，依据与聊天数据对应数据类型匹配的信息审核规则对聊天数据进行初步审核，当确定第一审核结果为聊天数据中包含违禁数据时，可进一步对违禁数据进行深层次的第二次审核，以便获取得到包含违禁等级的第二审核结果。在本申请中，通过对聊天数据的二重审核，可准确确定出聊天数据中所包含的违禁信息，且通过智能化的审核方式，可保证审核的效率，进而能够为用户营造良好的网络聊天环境。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例中的具体实施过程，提供了另一种聊天数据的审核方法，如图2所示，该方法包括：

201、获取待审核的聊天数据，并提取聊天数据的数据类型。

随着互联网的高速发展，用户可以更加自由地发布原创内容，用户生成内容(UserGenerated Content，UGC)的数量急剧增长。在各个社交平台、论坛平台以及游戏平台等公众平台中用户可以随意发布自己的观点、评论等。对于本申请，可应用于对各个公众平台中聊天数据的违禁性检测，在本实施例以针对游戏平台中各个玩家对应聊天数据的违禁性检测为例介绍本申请中的技术方案。需要说明的是，本领域技术人员应该想到，本申请中的聊天数据的审核方法可应用于游戏玩家聊天信息审核以外的任意一种聊天数据的审核场景，故本领域技术人员应当理解，应用于其他审核场景中的方法均应落入本申请中的保护范围内，针对具体的审核场景，在此不做具体限定。

202、若数据类型为文本类型和/或语音类型，则利用第一审核规则审核聊天数据，获取得到第一审核结果；或，若数据类型为语音类型，则利用第二审核规则审核聊天数据，获取得到第一审核结果。

对于本实施例，当聊天数据对应的数据类型为文本类型和/或语音类型时，作为一种可选方式，可首先基于预设转换规则将聊天数据转换为相应格式的标准文本；对于文本类型的聊天数据，为了避免用户利用相关字符、不同语种，甚至利用繁体字替换的方式逃避监测，在本申请中，当确定聊天数据的数据类型为文本类型时，可首先对聊天数据进行识别，进一步将聊天数据中出现的相关字符、不同语种、繁体字替换为标准的汉语简体表达，以方便后续对聊天数据的违禁内容审核；对于语音类型的聊天数据，由于地域的差别，往往会导致聊天数据在转换为文本形式时，出现大量的方言或者俚语，进而容易影响审核结果，故针对语音类型的聊天数据，可首先利用语言转换工具对聊天数据进行校准处理，将不标准的普通话转换为标准的普通话，进而生成标准的转化文本。对于校准后的文本类型的聊天数据或语音类型的聊天数据，可进一步依据第一审核规则对聊天数据进行审核，获取得到第一审核结果。

在具体的应用场景中，为了避免通过字符拆分或通过在字符中间插入特殊字符的形式来逃避审核，在依据第一审核规则对聊天数据进行审核时，可首先对聊天数据转换后的标准文本进行切词处理，并生成一个字符序列，各个第一字符作为字符序列中的元素，按照在标准文本中的出现位置依次排列，进一步得到第一字符序列，其中，对应第一字符序列的格式为：[字符1，字符2，字符3，…字符N]。为了提高审核的效率，在利用上述方法获取得到第一字符序列后，可对第一字符序列中的第一字符执行数据清洗操作，去除第一字符序列中乱码、空格，以及起到混淆作用的特殊字符，如对于聊天数据“明～教”，在拆分为字符序列时，可得到第一字符序列：[明，～，教]，显然“～”这一字符毫无意义，故为了节省审核成本，可将“～”这一字符去除，得到纯文本字符表达的第二字符序列：[明，教]。进而通过对第二字符序列中第二字符的分析得到聊天数据对应的第一审核结果。

相应的，在通过对第二字符序列中第二字符的分析得到聊天数据对应的第一审核结果时，为了避免出现违禁字符的颠倒排列，进而逃避有效审核的现象，如字符A、B、C按序连接在一起可构成违禁词，然而非法用户依次输入字符ACB、BAC、BCA、CAB、CBA，当采用逐一字符检测或按照第二字符序列中字符的排列顺序进行审核时，显然无法精准识别出违禁词。故在本申请中，可对第二字符进行排列组合处理，对各个组合结果分别进行违禁词检测。具体的，可按照第二字符序列中的字符顺序，依次对预设数量个相邻的第二字符进行排列组合处理，获取得到各个待识别文本段，通过对所有排列组合结果均进行违禁词的筛选，可保证违禁词不会被遗漏，进而保证违禁数据的审核精准度。

相应的，在利用第一审核规则审核聊天数据，获取得到第一审核结果时，实施例步骤202具体可以包括：将聊天数据转换为标准文本；基于分词技术将标准文本切分为包含各个第一字符的第一字符序列；在第一字符序列中剔除与预设字符匹配的第一字符，得到包含各个第二字符的第二字符序列；按照第二字符序列中的字符顺序，依次对预设数量个相邻的第二字符进行排列组合处理，获取得到各个待识别文本段；基于正则表达式对待识别文本段进行违禁数据查询，以得到第一审核结果。

其中，在按照第二字符序列中的字符顺序，依次对预设数量个相邻的第二字符进行排列组合处理时，单次排列组合的预设数量可根据实际筛选的词语颗粒度进行确定，词语颗粒度对应违禁数据的最大字符长度，具体数值的设定可根据实际应用场景进行设定。例如，在本申请中，可设定预设数量为3，当获取到文本类型的聊天数据为：“AB-CD～E*”，可首先确定聊天数据中是否存在利用相关字符、不同语种，甚至利用繁体字替换的方式逃避监测的现象，如有则将聊天数据中出现的相关字符、不同语种、繁体字替换为标准的汉语简体表达，进而可对聊天数据转换后的标准文本进行切词处理，得到第一字符序列：[A，B，-，C，D，～，E，*]，进而可在第一字符序列中剔除起到混淆作用的特殊字符:“-”、“～”、“*”，得到包含各个第二字符的第二字符序列：[A，B，C，D，E]。进一步的，为了避免出现违禁字符的颠倒排列，进而逃避有效审核的现象，可按照第二字符序列中的字符顺序，依次对预设数量个相邻的第二字符进行排列组合处理，获取得到各个待识别文本段，当预设数量为3时，可依次对A-B-C、B-C-D、C-D-E三组字符进行排列组合处理，每组排列组合均会得到6个字符组合结果，如A-B-C三个字符组合可得到字符组合结果：ABC、ACB、BAC、BCA、CAB、CBA；B-C-D三个字符组合可得到字符组合结果：BCD、BDC、CBD、CDB、DBC、DCB；C-D-E三个字符组合可得到字符组合结果：CDE、CED、DCE、DEC、ECD、EDC。最终，针对第二字符序列：[A，B，C，D，E]，可得到18个排列组合对应的待识别文本段，进而通过对所有待识别文本段均进行违禁词的筛选，当每组排列组合中存在任意一个违禁数据时，可确定该组的字符为违禁数据，如对于A-B-C排列组合中，确定BCA这一待识别文本段为违禁数据，故可在原聊天数据“AB-CD～E*”中，将A、B、C进行违禁数据的标记。

相应的，在对待识别文本段进行违禁数据查询时，可基于正则表达式对待识别文本段进行违禁数据查询的方式，以得到第一审核结果。实施例步骤具体可以包括：将待识别文本段与预设违禁词分别进行音码匹配和形码匹配，确定音码匹配下的第一相似度以及形码匹配下的第二相似度；根据音码匹配对应的第一预设权重和形码匹配对应的第二预设权重，计算第一相似度和第二相似度的加权求和结果；若判定加权求和结果大于第一预设阈值，则将与加权求和结果匹配的待识别文本段标记为违禁数据，并输出聊天数据中包含违禁数据的第一审核结果。对于本实施例，字形匹配和读音匹配主要目的是防止用户用形近的字或者是读音相同的字来进行违规操作。

在具体的应用场景中，第一相似度的公式特征描述可为：

P＝(0.4(Δp₁)+0.4(Δp₂)+0.1(Δp₃)+0.1(Δp₄)，其中，P为音码匹配下的第一相似度，p₁代表韵母位，通过简单地替代规则，将汉字的韵母部分映射到一个字符位，同样的p₂代表声母位，也是将声母转换为字符，p₃代表补码，通常用于当声母和韵母之间还有一个辅音的时候，采用的替代规则和韵母相同，p₄代表声调，分别用1、2、3、4来代替汉字中的四个声调。

相应的，第二相似度的公式特征描述可为：

其中，S为形码匹配下的第二相似度，s₁是结构体位，汉字的不同结构有不同的替代字符。s₂～s₅代表了四角编码，用于描述汉字的形态。s₆是汉字的笔划位数，1～9代表汉字笔划为1到9，接下来A代表笔划10，B代表笔划11，依次类推Z代表笔划35，以及任何超过35笔划的都用Z，s′₆是原子部件相似矩阵的转置。

对于本实施例，在对待识别文本段进行违禁数据查询时，可各个将待识别文本段中的各个字符依次与预设违禁词中的各个字符分别进行音码匹配和形码匹配。在进行形码匹配时，为了计算得到原子部件相似矩阵的转置s′₆，可将各个字符拆分成原子部件和复合部件，所谓原子部件就是独体字，表示不能再被分解的部件，如“王”、“一”、“东”、“日”等，复合部件由原子部件组成，如“想”、“箱”、“厢”中的“相”，“赢”中的“月贝凡”等。然后将原子部件进行编号，将原子部件集合表示为：

A＝(w₁，w₂，w₃，…，w_n)

其中，w_n表示编号为n的部件，表示该字符存在n个拆分的原子部件。

例如，若确定待识别文本段中第一个字符共存在i个拆分的原子部件，则可得到对应的原子部件集合B：

B＝(w₁，w₂，w₃，…，w_i)

若确定预设违禁词中第一个字符共存在j个拆分的原子部件，则可得到对应的原子部件集合C：

C＝(w₁，w₂，w₃，…，w_j)

进一步的，可将集合中各个部件之间的相似度通过人工分类和定义，由此构成原子部件集合B和原子部件集合C的原子部件相似矩阵：

其中：w_ij表示编号为i和j的部件的相似度，w_ij的取值为{1，0.8，0.5，0}，w_ij取1时表示i部件和j部件相同，w_ij取0.8时表示i部件和j部件十分相似，w_ij取0.5时表示i部件和j部件基本相似，w_ij取0时表示i部件和j部件不相似。特别的，定义空部件与任何部件的相似度为0，S₆′代表了这个矩阵的转置。

相应的，计算第一相似度和第二相似度的加权求和结果的公式特征描述可为：

d＝θP+εS，其中，d为第一相似度和第二相似度的加权求和结果，θ为音码匹配对应的第一预设权重，ε为形码匹配对应的第二预设权重，第一预设权重和第二预设权重的权重大小可根据具体的应用场景进行设定，两者的权重加和应为1。当第一预设权重和第二预设权重相等时，用于计算加权求和结果的公式特征描述可为：

对于本实施例，当聊天数据对应的数据类型为语音类型时，作为另一种可选方式，可应用于神经网络技术，并利用大量的标记违禁数据的样本聊天数据，训练用于对语音消息进行审核检测的违禁数据识别模型，其中，样本聊天数据为运用特征有效性分析的相关技术，例如相关系数、卡方检验、平均互信息、条件熵、后验概率、逻辑回归权重等方法，筛选出的具有显著特征的、包含标志性违禁数据的词语或者语句。并且在利用标记违禁数据训练违禁数据识别模型的过程中，不断利用大量的数据，即大量的违规消息来进行测试，进行模型诊断，根据要屏蔽的信息，来调整违禁数据识别模型中的相关参数，以使数据识别模型的识别精准度大于一定的阈值，进而得到符合预设训练标准的违禁数据识别模型。相应的，可进一步将本申请中待审核的聊天数据对应转换的标准文本以及语音类型下的聊天数据输入符合预设训练标准的违禁数据识别模型中，获取聊天数据中是否包含违禁数据的第一审核结果。

相应的，在利用第二审核规则审核聊天数据，获取得到第一审核结果时，实施例步骤202具体可以包括：确定聊天数据对应的语音类型；基于与语音类型匹配的文本解析规则，将聊天数据解析为标准文本；将聊天数据和标准文本输入符合预设训练标准的违禁数据识别模型中，获取聊天数据中是否包含违禁数据的第一审核结果，违禁数据识别模型是预先基于标记违禁数据的样本聊天数据训练得到的。

203、若第一审核结果为聊天数据中包含违禁数据，则依据违禁数据的违禁类别计算违禁数据的违禁分值，并基于违禁分值确定聊天数据的第二审核结果。

在具体的应用场景中，不适合公开发表的违禁内容可以划分为不同的违禁类别，例如，涉及黄色的内容，涉及暴力的内容，涉及政治敏感的内容，涉及广告的内容，涉及辱骂或不文明发言的内容等等，涉黄、涉暴的内容容易给青少年造成不良影响，而无处不在的广告、以及涉及辱骂或不文明发言的内容均容易给用户造成较差的使用体验，违禁数据审核系统因此将其作为违禁内容对其进行过滤。针对每个违禁类别，可以根据以往的经验积累、网信办收集的数据，设置相应的敏感词表，例如，涉及暴力的内容中经常会出现“殴打”、“嗜血”等词汇，则可以将“殴打”、“嗜血”作为涉暴类别的敏感词。由于不同的违禁类别造成的危险等级不同，如涉黄、涉恐、涉政的危险等级显然大于广告的危险等级，故在本实施例中，可预先基于不同的危险等级为各个违禁类别分别配置对应的评分标准，将危险等级较高的违禁类别设置较高的评定分值，将危险等级较低的违禁类别设置相对较低的评定分值，如，将涉黄、涉恐、涉政对应违禁类别的评定分值设定为3，将涉及辱骂或不文明发言对应违禁类别的评定分值设定为2，将涉及广告的评定分值设定为1。当提取出聊天数据所包含的违禁数据后，可首先基于敏感词匹配，确定违禁数据对应的违禁类别，进而根据违禁类别对应设定的评定分值，以及违禁词在聊天数据中的出现频率，综合计算聊天数据的违禁分值，进而基于违禁分值整体分析聊天数据的危险指数，并执行相应的处理操作。相应的，在基于违禁分值整体分析聊天数据的危险指数时，可预先根据不同的分值区间设定不同的违禁等级，如，可将0～10设定为第一违禁等级，11～30设定为第二违禁等级，31～50设定为第三违禁等级，违禁等级越高，表示聊天数据的危险指数越高。

相应的，对于本实施例，实施例步骤203具体可以包括：根据各个违禁类别对应的预设分值、配置权重，以及违禁数据在聊天数据中的出现频率，计算聊天数据的违禁分值；基于违禁分值划分聊天数据的违禁等级；输出聊天数据对应违禁等级的第二审核结果。

例如，若基于第一审核结果判定在聊天数据中共出现3次涉恐的违禁数据，2次涉政的违禁数据，以及4次涉及辱骂或不文明发言的违禁数据，此时可依据各个违禁类别对应的评定分值，综合计算得到聊天数据对应的违禁分值为：3*3+2*3+4*2＝23。相应的，当对应分值0～10为第一违禁等级，11～30为第二违禁等级，31～50为第三违禁等级时，可判定当前违禁分值23对应为第二违禁等级，故可进一步输出聊天数据对应为第二违禁等级的第二审核结果。

204、根据第一审核结果和第二审核结果，对聊天数据以及发布聊天数据的账号进行风险评估处理。

对于本实施例，在提取出第一审核结果以及第二审核结果后，可基于第一审核结果中提取出的违禁数据对聊天数据进行特殊处理，如对于文本类型的聊天数据，可对违禁数据利用特征符号替换处理等，对于语音类型的聊天数据，可进行消音处理等。对于发布聊天数据的账号，可根据违禁等级的不同，进行不同严重程度的处理，如对处于第一违禁等级的账户可进行警告提示处理，对于第二违禁等级的账户可进行禁言处理，对于处于第三违禁等级甚至更高的违禁等级，可进行封号处理等较为严重的惩罚。

通过上述聊天数据的审核方法，可在获取得到待审核的聊天记录后，依据与聊天数据对应数据类型匹配的信息审核方式对聊天数据进行初步审核，当确定第一审核结果为聊天数据中包含违禁数据时，可进一步对违禁数据进行深层次的第二次审核，以便获取得到包含违禁等级的第二审核结果，进而基于第一审核结果和第二审核结果对聊天数据进行相应的控制操作。在本申请中，通过对聊天数据的二重审核，可准确确定出聊天数据中所包含的违禁信息，且通过智能化的审核方式，可保证审核的效率，进而能够为用户营造良好的网络聊天环境。并且根据不同数据类型，配置多个可选的信息审核规则，可丰富聊天数据的信息审核形式，使数据审核更具有针对性，从而保证审核的精准度。

针对本申请中聊天数据的审核方法，可相应设置一套关于聊天数据的审核系统，在审核系统中，可包括数据获取模块、数据审核模块以及违禁惩罚模块，其中，数据获取模块通过客户端接口与用户客户端连接，用于从用户客户端获取待审核的聊天数据，并且提取出聊天数据的数据类型；数据审核模块与数据获取模块连接，用于识别聊天数据是否存在违禁用语，具体可依据与数据类型匹配的信息审核规则审核聊天数据，确定第一审核结果；若第一审核结果为聊天数据中包含违禁数据，则依据违禁数据的违禁类别计算违禁数据的违禁分值，并基于违禁分值确定聊天数据的第二审核结果；违禁惩罚模块与数据审核模块连接，以及通过客户端接口与用户客户端连接，用于在聊天数据存在违禁用语时向用户客户端发送惩罚信息。

进一步的，作为图1和图2所示方法的具体体现，本申请实施例提供了一种聊天数据的审核装置，如图3所示，该装置包括：获取模块31、第一确定模块32、第二确定模块33；

获取模块31，可用于获取待审核的聊天数据，并提取聊天数据的数据类型；

第一确定模块32，可用于依据与数据类型匹配的信息审核规则审核聊天数据，确定第一审核结果；

第二确定模块33，可用于若第一审核结果为聊天数据中包含违禁数据，则依据违禁数据的违禁类别计算违禁数据的违禁分值，并基于违禁分值确定聊天数据的第二审核结果。

在具体的应用场景中，第一确定模块32，具体可用于：若数据类型为文本类型和/或语音类型，则利用第一审核规则审核聊天数据，获取得到第一审核结果；或，若数据类型为语音类型，则利用第二审核规则审核聊天数据，获取得到第一审核结果。

相应的，在利用第一审核规则审核聊天数据，获取得到第一审核结果时，第一确定模块32，具体可用于：将聊天数据转换为标准文本；基于分词技术将标准文本切分为包含各个第一字符的第一字符序列；在第一字符序列中剔除与预设字符匹配的第一字符，得到包含各个第二字符的第二字符序列；按照第二字符序列中的字符顺序，依次对预设数量个相邻的第二字符进行排列组合处理，获取得到各个待识别文本段；基于正则表达式对待识别文本段进行违禁数据查询，以得到第一审核结果。

在具体的应用场景中，在基于正则表达式对待识别文本段进行违禁数据查询，以得到第一审核结果时，第一确定模块32，具体可用于：将待识别文本段与预设违禁词分别进行音码匹配和形码匹配，确定音码匹配下的第一相似度以及形码匹配下的第二相似度；根据音码匹配对应的第一预设权重和形码匹配对应的第二预设权重，计算第一相似度和第二相似度的加权求和结果；若判定加权求和结果大于第一预设阈值，则将与加权求和结果匹配的待识别文本段标记为违禁数据，并输出聊天数据中包含违禁数据的第一审核结果。

相应的，在利用第二审核规则审核聊天数据，获取得到第一审核结果时，第一确定模块32，具体可用于：确定聊天数据对应的语音类型；基于与语音类型匹配的文本解析规则，将聊天数据解析为标准文本；将聊天数据和标准文本输入符合预设训练标准的违禁数据识别模型中，获取聊天数据中是否包含违禁数据的第一审核结果，违禁数据识别模型是预先基于标记违禁数据的样本聊天数据训练得到的。

在具体的应用场景中，第二确定模块33，具体可用于根据各个违禁类别对应的预设分值、配置权重，以及违禁数据在聊天数据中的出现频率，计算聊天数据的违禁分值；基于违禁分值划分聊天数据的违禁等级；输出聊天数据对应违禁等级的第二审核结果。

相应的，如图4所示，该装置还包括：处理模块34；

处理模块34，可用于根据第一审核结果和第二审核结果，对聊天数据以及发布聊天数据的账号进行风险评估处理。

需要说明的是，本实施例提供的一种基于聊天数据的审核装置所涉及各功能单元的其它相应描述，可以参考图1至图2中的对应描述，在此不再赘述。

基于上述如图1和图2所示方法，相应的，本申请实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1和图2所示的聊天数据的审核方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景的方法。

基于上述如图1、图2所示的方法，以及图3、图4所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该实体设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1和图2所示的聊天数据的审核方法。

可选地，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的计算机设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

非易失性可读存储介质中还可以包括操作系统、网络通信模块。操作系统是聊天数据审核的实体设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性可读存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，与目前现有技术相比，本申请可在获取得到待审核的聊天记录后，依据与聊天数据对应数据类型匹配的信息审核方式对聊天数据进行初步审核，当确定第一审核结果为聊天数据中包含违禁数据时，可进一步对违禁数据进行深层次的第二次审核，以便获取得到包含违禁等级的第二审核结果，进而基于第一审核结果和第二审核结果对聊天数据进行相应的控制操作。在本申请中，通过对聊天数据的二重审核，可准确确定出聊天数据中所包含的违禁信息，且通过智能化的审核方式，可保证审核的效率，进而能够为用户营造良好的网络聊天环境。并且根据不同数据类型，配置多个可选的信息审核规则，可丰富聊天数据的信息审核形式，使数据审核更具有针对性，从而保证审核的精准度。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种聊天数据的审核方法，其特征在于，包括：

获取待审核的聊天数据，并提取所述聊天数据的数据类型；

依据与所述数据类型匹配的信息审核规则审核所述聊天数据，确定第一审核结果，具体包括：

若所述数据类型为文本类型和/或语音类型，则利用第一审核规则审核所述聊天数据，获取得到第一审核结果；

利用第一审核规则审核所述聊天数据，获取得到第一审核结果，具体包括：

将所述聊天数据转换为标准文本；

基于正则表达式对所述待识别文本段进行违禁数据查询，以得到第一审核结果；

2.根据权利要求1所述的方法，其特征在于，所述基于正则表达式对所述待识别文本段进行违禁数据查询，以得到第一审核结果，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述依据所述违禁数据的违禁类别计算所述违禁数据的违禁分值，并基于所述违禁分值确定所述聊天数据的第二审核结果，具体包括：

基于所述违禁分值划分所述聊天数据的违禁等级；

输出所述聊天数据对应所述违禁等级的第二审核结果。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.一种聊天数据的审核装置，其特征在于，包括：

第一确定模块，用于依据与所述数据类型匹配的信息审核规则审核所述聊天数据，确定第一审核结果，具体包括：

将所述聊天数据转换为标准文本；

6.一种非易失性可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至4中任一项所述的聊天数据的审核方法。

7.一种计算机设备，包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至4中任一项所述的聊天数据的审核方法。