CN111083292A

CN111083292A - 用于智能语音外呼系统的语料处理方法以及系统

Info

Publication number: CN111083292A
Application number: CN201911138353.7A
Authority: CN
Inventors: 崔晶晶; 张政; 经宇
Original assignee: Jeo Polymerization Beijing Artificial Intelligence Technology Co ltd
Current assignee: Jeo Polymerization Beijing Artificial Intelligence Technology Co ltd
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2020-04-28

Abstract

本申请公开了一种用于智能语音外呼系统的语料处理方法以及系统。该方法包括确定第一语料和第二语料中的敏感信息；导入所述第一语料和所述第二语料，并标识出所述敏感信息；当接入用户电话进行通话时，记录通话过程中的语音和文本信息；根据所述语音和文本信息，导出不含有敏感信息的所述第一语料和所述第二语料。本申请解决了智能语音外呼系统无法较好地为用户隐私安全提供保障的技术问题。通过本申请对智能语音外呼系统中的文本、语音材料自动脱敏。

Description

用于智能语音外呼系统的语料处理方法以及系统

技术领域

本申请涉及人工智能领域，具体而言，涉及一种用于智能语音外呼系统的语料处理方法以及系统。

背景技术

传统电销行业中通常需要考虑数据泄露以及用户个人隐私泄露的风险因素。

缺点在于：用户其他个人信息都是用户个人隐私范畴，在智能语音外呼系统中需要为用户隐私安全提供保障。

针对相关技术中智能语音外呼系统无法较好地为用户隐私安全提供保障的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种用于智能语音外呼系统的语料处理方法以及系统，以解决智能语音外呼系统无法较好地为用户隐私安全提供保障的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种用于智能语音外呼系统的语料处理方法，用于处理第一语料和第二语料通过所述智能语音外呼系统上传和下载过程中的敏感信息，所述第一语料是指文本语料，第二语料是指语音语料。

根据本申请的用于智能语音外呼系统的语料处理方法包括：确定第一语料和第二语料中的敏感信息；导入所述第一语料和所述第二语料，并标识出所述敏感信息；当接入用户电话进行通话时，记录通话过程中的语音和文本信息；根据所述语音和文本信息，导出不含有敏感信息的所述第一语料和所述第二语料。

进一步地，确定第一语料和第二语料中的敏感信息包括：

整理第一语料的对话任务的文本材料，将所述敏感信息设置为变量。

进一步地，确定第一语料和第二语料中的敏感信息包括：

整理第二语料的对话任务的语音材料，将所述敏感信息设置为变量。

进一步地，导入所述第一语料和所述第二语料，并标识出所述敏感信息包括：

导入固定文本信息和语音信息并标示所述变量的位置。

进一步地，导入所述第一语料和所述第二语料，并标识出所述敏感信息之后，还包括：

添加相应变量和话术节点、添加特殊常见问答或创建常见问答模板、添加通用对话模板、添加分支意图模板、添加意图关键字或者本地上传非敏感内容录音。

进一步地，根据所述语音和文本信息，导出不含有敏感信息的所述第一语料和所述第二语料包括：

将所述第一语料中的文本变量真实值替换为变量字段。

将所述第二语料中的通话录音变量真实值替换成空白录音。

进一步地，当接入用户电话进行通话时，记录通话过程中的语音和文本信息之后，还包括：

将用户通话中的敏感信息进行加密并上传，根据话术模板进行语音交互；

根据所述话术模板调用对应的上传录音与用户进行对话，如果有敏感信息存在，根据敏感信息位置标记，将敏感信息调用文本转化语音接口合成录音后替入补足全句进行语音交互。

为了实现上述目的，根据本申请的另一方面，提供了一种用于智能语音外呼系统的语料处理系统，用于处理第一语料和第二语料通过所述智能语音外呼系统上传和下载过程中的敏感信息，所述第一语料是指文本语料，第二语料是指语音语料。

根据本申请的用于智能语音外呼系统的语料处理系统包括：变量模块，用于确定第一语料和第二语料中的敏感信息；导入模块，用于导入所述第一语料和所述第二语料，并标识出所述敏感信息；接入模块，用于当接入用户电话进行通话时，记录通话过程中的语音和文本信息；导出模块，用于根据所述语音和文本信息，导出不含有敏感信息的所述第一语料和所述第二语料。

进一步地，系统还包括：语音交互模块，用于

在本申请实施例中用于智能语音外呼系统的语料处理方法以及系统，采用确定第一语料和第二语料中的敏感信息的方式，导入所述第一语料和所述第二语料，并标识出所述敏感信息，通过当接入用户电话进行通话时，记录通话过程中的语音和文本信息，达到了根据所述语音和文本信息，导出不含有敏感信息的所述第一语料和所述第二语料的目的，从而实现了处理第一语料和第二语料通过所述智能语音外呼系统上传和下载过程中的敏感信息的技术效果，进而解决了智能语音外呼系统无法较好地为用户隐私安全提供保障的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的用于智能语音外呼系统的语料处理方法流程示意图；

图2是根据本申请实施例的用于智能语音外呼系统的语料处理系统结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，该方法包括如下的步骤S101至步骤S104：

步骤S101，确定第一语料和第二语料中的敏感信息；

本申请实施例的用于智能语音外呼系统的语料处理方法，用于处理第一语料和第二语料通过所述智能语音外呼系统上传和下载过程中的敏感信息，所述第一语料是指文本语料，第二语料是指语音语料。

具体地，所述确定第一语料可以是对文本材料的整理，通过整理整个对话任务的文本材料，将敏感信息设置为变量，如若多个变量，则分别指定代表编号。

具体地，所述确定第二语料可以是对语音材料整理，通过整理整个对话任务的语音材料，将敏感信息设置为变量，如若多个变量，则分别指定代表编号。同时，还需要进行非敏感信息转语音信号工作。

步骤S102，导入所述第一语料和所述第二语料，并标识出所述敏感信息；

具体地，根据已确定流程，有序导入固定文本信息并标示敏感信息即变量位置；根据已确定流程，有序导入固定语音信息并标示敏感信息即变量位置；添加相应变量和话术节点、添加特殊常见问答或创建常见问答模板、添加通用对话模板、添加分支意图模板、添加意图关键字、本地上传录音即固定非敏感内容。

步骤S103，当接入用户电话进行通话时，记录通话过程中的语音和文本信息；

具体地，接入用户电话进行通话，再记录通话过程中的语音和文本信息。在接入用户电话后，实现智能语音交互。

步骤S104，根据所述语音和文本信息，导出不含有敏感信息的所述第一语料和所述第二语料。

具体地，将所述语音对话导出，并将语音对话转文本后导出，导出不含有敏感信息的所述第一语料和所述第二语料。

从以上的描述中，可以看出，本申请实现了如下技术效果：

在本申请实施例中，采用确定第一语料和第二语料中的敏感信息的方式，导入所述第一语料和所述第二语料，并标识出所述敏感信息，通过当接入用户电话进行通话时，记录通话过程中的语音和文本信息，达到了根据所述语音和文本信息，导出不含有敏感信息的所述第一语料和所述第二语料的目的，从而实现了处理第一语料和第二语料通过所述智能语音外呼系统上传和下载过程中的敏感信息的技术效果，进而解决了智能语音外呼系统无法较好地为用户隐私安全提供保障的技术问题。

根据本申请实施例，作为本实施例中的优选，确定第一语料和第二语料中的敏感信息包括：整理第一语料的对话任务的文本材料，将所述敏感信息设置为变量。

具体地，整理整个对话任务的文本材料，将敏感信息设置为变量。如果有多个变量，则分别指定代表编号。根据已确定流程，有序导入固定语音信息并标示出作为变量的敏感信息的位置。

根据本申请实施例，作为本实施例中的优选，确定第一语料和第二语料中的敏感信息包括：

整理第二语料的对话任务的语音材料，将所述敏感信息设置为变量。整理整个对话任务的语音材料。把敏感信息设置为变量，如果有多个变量，则分别指定代表编号，进行非敏感信息转语音信号工作。

根据本申请实施例，作为本实施例中的优选，导入所述第一语料和所述第二语料，并标识出所述敏感信息包括：导入固定文本信息和语音信息并标示所述变量的位置。

具体地，导入文本信息，标示敏感信息即变量的位置，导入语音信息，标示敏感信息即变量的位置。

根据本申请实施例，作为本实施例中的优选，导入所述第一语料和所述第二语料，并标识出所述敏感信息之后，还包括：添加相应变量和话术节点、添加特殊常见问答或创建常见问答模板、添加通用对话模板、添加分支意图模板、添加意图关键字或者本地上传非敏感内容录音。

根据本申请实施例，作为本实施例中的优选，根据所述语音和文本信息，导出不含有敏感信息的所述第一语料和所述第二语料包括：将所述第一语料中的文本变量真实值替换为变量字段。

具体地，在进行材料整理以及信息导入时，需要对用户敏感信息做变量处理。通话结束导出结果时，会自动将文本的变量真实值替换为变量字段。

需要注意的是，在导出文本时，对于用户敏感信息即变量，根据变量标示位置自动替换为空白文本补足全句后，执行导出程，从而实现智能语音外呼系统中的文本以及语音材料自动脱敏。

根据本申请实施例，作为本实施例中的优选，根据所述语音和文本信息，导出不含有敏感信息的所述第一语料和所述第二语料包括：将所述第二语料中的通话录音变量真实值替换成空白录音。

具体地，在进行材料整理以及信息导入时，都对用户敏感信息做了变量处理。通话结束导出结果时，通话录音中变量真实值替换成空白录音，有效保护用户隐私。

需要注意的是，导出对话语音时，对于用户敏感信息即变量根据变量标示位置以及调用TTS合成录音替入位置自动替换为空白TTS，合成录音补足全句后，执行导出程序，实现智能语音外呼系统中的文本以及语音材料自动脱敏。

根据本申请实施例，作为本实施例中的优选，当接入用户电话进行通话时，记录通话过程中的语音和文本信息之后，还包括：将用户通话中的敏感信息进行加密并上传，根据话术模板进行语音交互；根据所述话术模板调用对应的上传录音与用户进行对话，如果有敏感信息存在，根据敏感信息位置标记，将敏感信息调用文本转化语音接口合成录音后替入补足全句进行语音交互。

具体地，当接入用户电话进行通话时，记录通话过程中的语音和文本信息之后，用户敏感信息即变量进行加密并上传、根据话术模板实现语音交互，然后根据话术模板调用相应上传录音与用户进行对话，如若有用户敏感信息即变量存在，根据敏感信息即变量位置标记，将敏感信息即变量调用TTS合成录音后替入后补足全句，实现语音交互。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请实施例，还提供了一种用于实施上述方法的用于智能语音外呼系统的语料处理系统，用于处理第一语料和第二语料通过所述智能语音外呼系统上传和下载过程中的敏感信息，所述第一语料是指文本语料，第二语料是指语音语料，如图2所示，该系统包括：变量模块10，用于确定第一语料和第二语料中的敏感信息；导入模块11，用于导入所述第一语料和所述第二语料，并标识出所述敏感信息；接入模块12，用于当接入用户电话进行通话时，记录通话过程中的语音和文本信息；导出模块13，用于根据所述语音和文本信息，导出不含有敏感信息的所述第一语料和所述第二语料。

本申请实施例的变量模块10中本申请实施例的用于智能语音外呼系统的语料处理方法，用于处理第一语料和第二语料通过所述智能语音外呼系统上传和下载过程中的敏感信息，所述第一语料是指文本语料，第二语料是指语音语料。

本申请实施例的导入模块11中具体地，根据已确定流程，有序导入固定文本信息并标示敏感信息即变量位置；根据已确定流程，有序导入固定语音信息并标示敏感信息即变量位置；添加相应变量和话术节点、添加特殊常见问答或创建常见问答模板、添加通用对话模板、添加分支意图模板、添加意图关键字、本地上传录音即固定非敏感内容。

本申请实施例的接入模块12中具体地，接入用户电话进行通话，再记录通话过程中的语音和文本信息。在接入用户电话后，实现智能语音交互。

本申请实施例的导出模块13中具体地，将所述语音对话导出，并将语音对话转文本后导出，导出不含有敏感信息的所述第一语料和所述第二语料。

根据本申请实施例，作为本实施例中的优选，系统还包括：语音交互模块14，用于将用户通话中的敏感信息进行加密并上传，根据话术模板进行语音交互；根据所述话术模板调用对应的上传录音与用户进行对话，如果有敏感信息存在，根据敏感信息位置标记，将敏感信息调用文本转化语音接口合成录音后替入补足全句进行语音交互。

具体地，在所述语音交互模块14中当接入用户电话进行通话时，记录通话过程中的语音和文本信息之后，用户敏感信息即变量进行加密并上传、根据话术模板实现语音交互，然后根据话术模板调用相应上传录音与用户进行对话，如若有用户敏感信息即变量存在，根据敏感信息即变量位置标记，将敏感信息即变量调用TTS合成录音后替入后补足全句，实现语音交互。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种用于智能语音外呼系统的语料处理方法，其特征在于，用于处理第一语料和第二语料通过所述智能语音外呼系统上传和下载过程中的敏感信息，所述第一语料是指文本语料，第二语料是指语音语料，所述方法包括：

确定第一语料和第二语料中的敏感信息；

导入所述第一语料和所述第二语料，并标识出所述敏感信息；

当接入用户电话进行通话时，记录通话过程中的语音和文本信息；

根据所述语音和文本信息，导出不含有敏感信息的所述第一语料和所述第二语料。

2.根据权利要求1所述的用于智能语音外呼系统的语料处理方法，其特征在于，确定第一语料和第二语料中的敏感信息包括：

3.根据权利要求1所述的用于智能语音外呼系统的语料处理方法，其特征在于，确定第一语料和第二语料中的敏感信息包括：

4.根据权利要求1所述的用于智能语音外呼系统的语料处理方法，其特征在于，导入所述第一语料和所述第二语料，并标识出所述敏感信息包括：

导入固定文本信息和语音信息并标示所述变量的位置。

5.根据权利要求1所述的用于智能语音外呼系统的语料处理方法，其特征在于，导入所述第一语料和所述第二语料，并标识出所述敏感信息之后，还包括：

6.根据权利要求1所述的用于智能语音外呼系统的语料处理方法，其特征在于，根据所述语音和文本信息，导出不含有敏感信息的所述第一语料和所述第二语料包括：

将所述第一语料中的文本变量真实值替换为变量字段。

7.根据权利要求1所述的用于智能语音外呼系统的语料处理方法，其特征在于，根据所述语音和文本信息，导出不含有敏感信息的所述第一语料和所述第二语料包括：

将所述第二语料中的通话录音变量真实值替换成空白录音。

8.根据权利要求1所述的用于智能语音外呼系统的语料处理方法，其特征在于，当接入用户电话进行通话时，记录通话过程中的语音和文本信息之后，还包括：

9.一种用于智能语音外呼系统的语料处理系统，其特征在于，用于处理第一语料和第二语料通过所述智能语音外呼系统上传和下载过程中的敏感信息，所述第一语料是指文本语料，第二语料是指语音语料，所述系统包括：

变量模块，用于确定第一语料和第二语料中的敏感信息；

导入模块，用于导入所述第一语料和所述第二语料，并标识出所述敏感信息；

接入模块，用于当接入用户电话进行通话时，记录通话过程中的语音和文本信息；

导出模块，用于根据所述语音和文本信息，导出不含有敏感信息的所述第一语料和所述第二语料。

10.根据权利要求9所述的用于智能语音外呼系统的语料处理系统，其特征在于，其特征在于，还包括：语音交互模块，用于