CN113873088A

CN113873088A - 语音通话的交互方法、装置、计算机设备和存储介质

Info

Publication number: CN113873088A
Application number: CN202111272436.2A
Authority: CN
Inventors: 黄天来; 梁必志; 叶怡周
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2021-12-31
Anticipated expiration: 2041-10-29
Also published as: CN113873088B

Abstract

本申请涉及人工智能技术领域，提供一种语音通话的交互方法、装置、计算机设备和存储介质，方法包括：当接收到目标电话号码的通话请求时，接收用户输入的语音信息；从目标电话号码对应的客户画像信息中提取客户声纹特征；提取语音信息中的声纹特征，基于预设的目标相似度算法、客户声纹特征与声纹特征对用户进行验证；若验证通过，对语音信息进行分析得到业务类型信息；若业务类型信息为指定业务类型信息，基于问题数据对用户进行二次验证；若验证通过，生成语音信息对应的交互文本；生成交互文本对应的交互播报语音并播报。本申请能提高语音通话的智能性与身份校验的准确性。本申请还可以应用于区块链领域，上述客户画像信息可存储于区块链上。

Description

语音通话的交互方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种语音通话的交互方法、装置、计算机设备和存储介质。

背景技术

目标，随着智能时代的加快到来，智能客服的应用场景也越来越广泛，例如：业务咨询平台的语音客户在线，移动电话的客户服务等等。在现有技术中，在智能客服的应用场景中往往有较多的业务咨询交互需要对通话用户进行身份核验，通常的核验方式是需要通话用户通过按键输入身份证等信息，这样的核验流程比较简单容易造成核验准确性较低。另外，智能客服与通话用户进行交互时通常是采用固定不变的播报方式，即对于通话用户的疑问只能在设定好的选项中寻找答案，这样容易造成答非所问的现象。因此，在现有的技术方案中，智能客服在与用户进行通话交互的过程中存在身份核验的准确性较低，通话准确率低，用户的体验满意度差的问题。

发明内容

本申请的主要目的为提供一种语音通话的交互方法、装置、计算机设备和存储介质，旨在解决现有的智能客服在与用户进行通话交互的过程中存在身份核验的准确性较低，通话准确率低，用户的体验满意度差的技术问题。

本申请提取一种语音通话的交互方法，所述方法包括步骤：

当接收到用户通过目标电话号码对应的终端触发的通话请求时，建立与所述终端之间的通话连接，并接收所述用户输入的语音信息；

从预设数据库中获取与所述目标电话号码对应的客户画像信息，并从所述客户画像信息中提取客户声纹特征；

从预设的多个相似度算法中确定出符合第一预设条件的目标相似度算法；

提取所述语音信息中的声纹特征，基于各所述目标相似度算法、所述客户声纹特征与所述声纹特征对所述用户进行验证，并判断是否验证通过；

若验证通过，对所述语音信息进行分析得到对应的业务类型信息，并判断所述业务类型信息是否为符合第二预设条件的指定业务类型信息；

若为所述指定业务类型信息，基于预设的问题数据对所述用户进行二次验证，并判断是否验证通过；

若验证通过，基于预设的交互模型生成与所述语音信息对应的交互文本；

生成与所述交互文本对应的交互播报语音，并向所述用户播报所述交互播报语音。

可选地，所述从预设的多个相似度算法中确定出符合第一预设条件的目标相似度算法的步骤，包括：

获取各所述相似度算法的发布时间信息；

从所有所述相似度算法筛选出发布时间信息大于预设的发布时间阈值的第一相似度算法；

获取预设的测试声纹数据，并基于所述声纹测试数据生成与各所述第一相似度算法分别对应的数据处理时间；

从所述第一相似度算法中筛选出数据处理时间小于预设的数据处理时间阈值的第二相似度算法；

判断所述第二相似度算法的数量是否大于预设数量；

若是，按照所述数据处理时间从小到大的顺序对所有所述第二相似度算法进行排序，得到对应的排序结果；

从所述排序结果中排在首位的第二相似度算法开始，依次获取预设数量的第三相似度算法；

将所述第三相似度算法作为所述目标相似度算法。

可选地，所述基于各所述目标相似度算法、所述客户声纹特征与所述声纹特征对所述用户进行验证，并判断是否验证通过的步骤，包括：

使用各所述目标相似度算法分别计算所述客户声纹特征与所述声纹特征之间的第一相似度；其中，对于每一种所述目标相似度算法均会计算出一个所述客户声纹特征与所述声纹特征之间的相似度；

获取预设的与各所述目标相似度算法分别对应的第一相似度阈值；

将使用各所述目标相似度算法分别计算得到的第一相似度与各所述目标相似度算法对应的第一相似度阈值进行一一对应的大小比较处理；

若存在至少一个第一相似度不大于对应的第一相似度阈值，判定验证不通过；

若所有所述第一相似度均大于对应的第一相似度阈值，判定验证通过。

使用各所述目标相似度算法分别计算所述客户声纹特征与所述声纹特征之间的第二相似度；

计算所有所述第二相似度的平均值，得到综合相似度；

判断所述综合相似度是否大于预设的第二相似度阈值；

若大于所述第二相似度阈值，判定验证通过；

若不大于所述第二相似度阈值，判定验证不通过。

可选地，所述判断所述业务类型信息是否为符合第二预设条件的指定业务类型信息的步骤，包括：

获取与所述目标电话号码对应的历史业务服务记录；

从所述历史业务服务记录中获取所述用户办理过的历史业务类型信息；

判断所述历史业务类型信息中是否包含所述业务类型信息；

若包含所述业务类型信息，判定所述业务类型信息为所述指定业务类型；

若不包含所述业务类型信息，判定所述业务类型信息不为所述指定业务类型。

可选地，所述基于预设的问题数据对所述用户进行验证，并判断是否验证通过的步骤，包括：

从所述客户画像信息中获取问题文本数据，以及获取与所述问题文本数据对应的标准答案数据；

生成与所述问题文本数据对应的播报语音，并向所述用户播报所述播报语音；

接收所述用户基于所述播报语音反馈的答案语音；

生成与所述答案语音对应的答案文本数据，并判断所述答案文本数据是否与所述标准答案数据相同；

若相同，获取与所述答案语音对应的反馈时长；

从所述客户画像信息中获取第一年龄信息；

判断所述反馈时长是否大于与所述第一年龄信息对应的反馈时长阈值；

若大于所述反馈时长阈值，判定验证不通过；

若不大于所述反馈时长阈值，判定验证通过。

可选地，所述生成与所述交互文本对应的交互播报语音，并向所述用户播报所述交互播报语音的步骤，包括：

从所述客户画像信息中获取播报语种信息、第二年龄信息与性别信息；

基于所述播报语种信息生成与所述交互文本对应的交互播报语音；

基于所述性别信息确定出对应的播报声音类型；

基于所述第二年龄信息确定出对应的播报语速信息与播报音量信息；

基于所述播报声音类型、播报语速信息与播报音量信息，向所述用户播报所述交互播报语音。

本申请还提供一种语音通话的交互装置，包括：

接收模块，用于当接收到用户通过目标电话号码对应的终端触发的通话请求时，建立与所述终端之间的通话连接，并接收所述用户输入的语音信息；

获取模块，用于从预设数据库中获取与所述目标电话号码对应的客户画像信息，并从所述客户画像信息中提取客户声纹特征；

确定模块，用于从预设的多个相似度算法中确定出符合第一预设条件的目标相似度算法；

第一验证模块，用于提取所述语音信息中的声纹特征，基于各所述目标相似度算法、所述客户声纹特征与所述声纹特征对所述用户进行验证，并判断是否验证通过；

判断模块，用于若验证通过，对所述语音信息进行分析得到对应的业务类型信息，并判断所述业务类型信息是否为符合第二预设条件的指定业务类型信息；

第二验证模块，用于若为所述指定业务类型信息，基于预设的问题数据对所述用户进行二次验证，并判断是否验证通过；

生成模块，用于若验证通过，基于预设的交互模型生成与所述语音信息对应的交互文本；

播报模块，用于生成与所述交互文本对应的交互播报语音，并向所述用户播报所述交互播报语音。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本申请中提供的语音通话的交互方法、装置、计算机设备和存储介质，具有以下有益效果：

本申请中提供的语音通话的交互方法、装置、计算机设备和存储介质，在接收到用户通过目标电话号码对应的终端触发的通话请求时，会先建立与所述终端之间的通话连接，并接收所述用户输入的语音信息；然后从预设数据库中获取与所述目标电话号码对应的客户画像信息，并从所述客户画像信息中提取客户声纹特征；之后提取语音信息中的声纹特征，并基于从预设的多个相似度算法中确定出的目标相似度算法、客户声纹特征与声纹特征对用户进行验证；若验证通过，对语音信息进行分析得到业务类型信息；若业务类型信息为指定业务类型信息，则基于预设的问题数据对用户进行二次验证；若验证通过，生成与语音信息对应的交互文本；最后生成交互文本对应的交互播报语音，并向所述用户播报所述交互播报语音。通过本申请能够准确地进行对于用户的身份验证，并会在身份验证通过后才会正常进行与用户的语音通话交互，能够有效避免出现非法用户盗取重要业务信息的情况出现，提高了业务通话交互处理的智能性与规范性。另外，在用户的身份验证通过后，能够基于用户输入的语音信息来生成相匹配的交互文本，进而可以利用与交互文本对应的交互播报语音与用户进行个性化交互，提高了语音通话交互的智能性与准确性，有利于提升用户的使用体验与满意度。

附图说明

图1是本申请一实施例的语音通话的交互方法的流程示意图；

图2是本申请一实施例的语音通话的交互装置的结构示意图；

图3是本申请一实施例的计算机设备的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用于解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

参照图1，本申请一实施例的语音通话的交互方法，包括：

S10：当接收到用户通过目标电话号码对应的终端触发的通话请求时，建立与所述终端之间的通话连接，并接收所述用户输入的语音信息。其中，

S20：从预设数据库中获取与所述目标电话号码对应的客户画像信息，并从所述客户画像信息中提取客户声纹特征；

S30：从预设的多个相似度算法中确定出符合第一预设条件的目标相似度算法；

S40：提取所述语音信息中的声纹特征，基于各所述目标相似度算法、所述客户声纹特征与所述声纹特征对所述用户进行验证，并判断是否验证通过；

S50：若验证通过，对所述语音信息进行分析得到对应的业务类型信息，并判断所述业务类型信息是否为符合第二预设条件的指定业务类型信息；

S60：若为所述指定业务类型信息，基于预设的问题数据对所述用户进行二次验证，并判断是否验证通过；

S70：若验证通过，基于预设的交互模型生成与所述语音信息对应的交互文本；

S80：生成与所述交互文本对应的交互播报语音，并向所述用户播报所述交互播报语音。

如上述步骤S10至S80所述，本方法实施例的执行主体为一种语音通话的交互装置。在实际应用中，上述语音通话的交互装置可以通过虚拟装置，例如软件代码实现，也可以通过写入或集成有相关执行代码的实体装置实现，且可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。所述语音通话的交互装置具体可为智能客服。本实施例中的语音通话的交互装置能够提高语音通话交互中身份核验的准确性，提高语音通话交互的智能性与准确性，以及提高用户的体验满意度。

具体地，当接收到用户通过目标电话号码对应的终端触发的通话请求时，首先建立与所述终端之间的通话连接，并接收所述用户输入的语音信息。其中，所述用户为需要进行身份验证的处于通话状态中的用户。所述语音信息可指所述用户开始语音交互的第一次对话的语音文件，可通过录音的方式截取识别出该语音信息。另外，所述语音信息可包括用户所需要咨询的业务类型信息。然后从预设数据库中获取与所述目标电话号码对应的客户画像信息，并从所述客户画像信息中提取客户声纹特征。所述预设数据库为预先创建的存储有各个客户的客户信息，以及与各客户信息一一对应的画像信息的数据库。可先获取与所述目标电话号码对应的目标客户信息，再基于所述目标客户信息对所述预设数据库进行查询处理，以从该预设数据库中获取到与所述目标电话号码对应的客户画像信息。所述客户画像信息至少可包括客户的电话号码、年龄信息、性别信息、客户声纹特征、问题文本数据、与问题文本数据对应的标准答案数据、播报语种信息、历史业务服务记录等信息。

之后从预设的多个相似度算法中确定出符合第一预设条件的目标相似度算法。其中，所述目标相似度算法的数量大于1，所述相似度算法可包括欧氏距离、汉明距离、曼哈顿距离、夹角余弦、马氏距离、巴氏距离等算法。另外，所述第一预设条件可指处理优化较好且处理效率高的条件，例如发布时间信息大于预设的发布时间阈值，且数据处理时间大于预设的数据处理时间阈值的。从外，所述从预设的多个相似度算法中确定出符合第一预设条件的目标相似度算法的具体实现过程，本申请将在后续的具体实施例中对此作进一步的描述，在此不予赘述。后续提取所述语音信息中的声纹特征，基于各所述目标相似度算法、所述客户声纹特征与所述声纹特征对所述用户进行验证，并判断是否验证通过。其中，可以使用预设的声纹提取网络来完成对于所述语音信息中的声纹特征的提取，所述声纹提取网络可采用现有技术，在此不作过多阐述。另外，所述基于各所述目标相似度算法、所述客户声纹特征与所述声纹特征对所述用户进行验证，并判断是否验证通过的具体实现过程，本申请将在后续的具体实施例中对此作进一步的描述，在此不予赘述。

若验证通过，对所述语音信息进行分析得到对应的业务类型信息，并判断所述业务类型信息是否为符合第二预设条件的指定业务类型信息。其中，可通过对语音信息进行语音识别处理得到对应的语音文本，再对语音文本进行分词得到多个词语，进而从得到的多个词语中筛选出与业务类型对应的目标关键词，并将该目标关键词作为所述业务类型信息。另外，所述第二预设条件可指安全要求较高的条件。判断所述业务类型信息是否为符合第二预设条件的指定业务类型信息的具体实现过程，本申请将在后续的具体实施例中对此作进一步的描述，在此不予赘述。另外，如果验证不通过，则限制对用户的语音信息进行回复，并重新进行对于用户的身份验证处理。若为所述指定业务类型信息，基于预设的问题数据对所述用户进行二次验证，并判断是否验证通过。其中，可通过判断用户是否能够正确回答出客户画像信息中的问题文本数据，以及在用户回答正确的基础上比较用户回答问题的反馈时长与反馈时长阈值之间的数值大小的方式来实现对用户的二次身份验证

若验证通过，基于预设的交互模型生成与所述语音信息对应的交互文本。其中，所述交互模型为训练完成的多分支深度神经网络模型，通过所述交互模型能够实现将所述语音信息转换成文本信息得到语音文本，以及对所述语音信息进行交互预测处理，得到所述交互文本。另外，所述交互预测处理为提取所述语音信息的语速特征和语调特征，根据所述语音文本和提取的所述语速特征及所述语调特征，识别出预测概率最高的所述交互文本，如此，能够更加精准地对用户的通话内容做出更加符合用户的回答内容。此外，如果验证不通过，则限制对用户的语音信息进行回复，并重新进行对于用户的身份验证处理。最后生成与所述交互文本对应的交互播报语音，并向所述用户播报所述交互播报语音。其中，可从所述客户画像信息中获取播报语种信息、年龄信息与性别信息，再基于所述播报语种信息生成与所述交互文本对应的交互播报语音，基于所述性别信息确定出对应的播报声音类型，以及基于获得的年龄信息确定出对应的播报语速信息与播报音量信息，进而可以采用与所述用户相适应的播报声音类型、播报语速信息与播报音量信息，来向所述用户播报所述交互播报语音。另外，基于所述播报语种信息生成与所述交互文本对应的交互播报语音的过程可包括：通过语音合成技术对所述交互文本进行语音合成处理，以进行实时将所述交互文本转换成真人的与所述播报语种信息对应的音频文件，从而得到所述交互播报语音。所述语音合成技术的处理过程可以根据需求设定，可参考现有技术，在此不做过多阐述。

本实施例在接收到用户通过目标电话号码对应的终端触发的通话请求时，会先建立与所述终端之间的通话连接，并接收所述用户输入的语音信息；然后从预设数据库中获取与所述目标电话号码对应的客户画像信息，并从所述客户画像信息中提取客户声纹特征；之后提取语音信息中的声纹特征，并基于从预设的多个相似度算法中确定出的目标相似度算法、客户声纹特征与声纹特征对用户进行验证；若验证通过，对语音信息进行分析得到业务类型信息；若业务类型信息为指定业务类型信息，则基于预设的问题数据对用户进行二次验证；若验证通过，生成与语音信息对应的交互文本；最后生成交互文本对应的交互播报语音，并向所述用户播报所述交互播报语音。通过本实施例能够准确地进行对于用户的身份验证，并会在身份验证通过后才会正常进行与用户的语音通话交互，能够有效避免出现非法用户盗取重要业务信息的情况出现，提高了业务通话交互处理的智能性与规范性。另外，在用户的身份验证通过后，能够基于用户输入的语音信息来生成相匹配的交互文本，进而可以利用与交互文本对应的交互播报语音与用户进行个性化交互，提高了语音通话交互的智能性与准确性，有利于提升用户的使用体验与满意度。

进一步地，本申请一实施例中，上述步骤S30，包括：

S300：获取各所述相似度算法的发布时间信息；

S301：从所有所述相似度算法筛选出发布时间信息大于预设的发布时间阈值的第一相似度算法；

S302：获取预设的测试声纹数据，并基于所述声纹测试数据生成与各所述第一相似度算法分别对应的数据处理时间；

S303：从所述第一相似度算法中筛选出数据处理时间小于预设的数据处理时间阈值的第二相似度算法；

S304：判断所述第二相似度算法的数量是否大于预设数量；

S305：若是，按照所述数据处理时间从小到大的顺序对所有所述第二相似度算法进行排序，得到对应的排序结果；

S306：从所述排序结果中排在首位的第二相似度算法开始，依次获取预设数量的第三相似度算法；

S307：将所述第三相似度算法作为所述目标相似度算法。

如上述步骤S300至S307所述，所述从预设的多个相似度算法中确定出符合第一预设条件的目标相似度算法的步骤，具体可包括：首先获取各所述相似度算法的发布时间信息。其中，所述发布时间信息可指发布年份时间，如果相似度算法的发布年份时间距离当前时间越近，则可将该相似度算法视作为为比其他发布年份时间较早的相似度算法的优化更好，计算处理效果更佳的算法。然后从所有所述相似度算法筛选出发布时间信息大于预设的发布时间阈值的第一相似度算法。其中，对于所述发布时间阈值的取值不作具体限定，可根据实际需求进行设置。之后获取预设的测试声纹数据，并基于所述声纹测试数据生成与各所述第一相似度算法分别对应的数据处理时间。其中，所述测试声纹数据可包括待比对的两个声纹特征数据。所述数据处理时间是指相似度算法在接收到该两个待比对的声纹特征数据开始，直至输出与该两个声纹特征数据对应的相似识别结果所花费的时间。举例地，相似度算法接收到测试声纹数据c的时间为t1，相似度算法输出测试声纹数据c的相似识别结果时的时间为t2，则可得到该相似度算法的数据处理时间为t＝t2-t1。在得到所述数据处理时间后，从所述第一相似度算法中筛选出数据处理时间小于预设的数据处理时间阈值的第二相似度算法。其中，对于所述数据处理时间阈值的取值不作具体限定，可根据实际需求进行设置。并判断所述第二相似度算法的数量是否大于预设数量。其中，对于所述预设数量的取值不作具体限定，可根据实际需求进行设置。若大于所述预设数量，按照所述数据处理时间从小到大的顺序对所有所述第二相似度算法进行排序，得到对应的排序结果。后续从所述排序结果中排在首位的第二相似度算法开始，依次获取预设数量的第三相似度算法。最后将所述第三相似度算法作为所述目标相似度算法。本实施例在对用户进行声纹验证时，会智能地对预设的多种相似度算法进行处理效果与处理效率的综合考量，在从所有所述相似度算法筛选出发布时间信息大于预设的发布时间阈值的第一相似度算法后，会先从所述第一相似度算法中筛选出数据处理时间小于预设的数据处理时间阈值的第二相似度算法，进而会从该第二相似度算法中筛选出数据处理时间最下的第三相似度算法用作目标相似度算法，由于得到的目标相似度算法具有较高的处理效果与处理效率，使得后续通过使用该目标相似度算法对所述用户进行基于声纹特征与客户声纹特征的验证的过程中，能够在保证目标相似度算法输出的验证结果的准确性的基础上，有效地提高生成验证结果的处理效率，进而有利于根据得到的验证结果来准确地进行对于用户的身份验证处理，从而根据该身份验证结果来准确地完成后续与用户的通话交互。

进一步地，本申请一实施例中，上述步骤S40，包括：

S400：使用各所述目标相似度算法分别计算所述客户声纹特征与所述声纹特征之间的第一相似度；其中，对于每一种所述目标相似度算法均会计算出一个所述客户声纹特征与所述声纹特征之间的相似度；

S401：获取预设的与各所述目标相似度算法分别对应的第一相似度阈值；

S402：将使用各所述目标相似度算法分别计算得到的第一相似度与各所述目标相似度算法对应的第一相似度阈值进行一一对应的大小比较处理；

S403：若存在至少一个第一相似度不大于对应的第一相似度阈值，判定验证不通过；

S404：若所有所述第一相似度均大于对应的第一相似度阈值，判定验证通过。

如上述步骤S400至S404所述，所述基于各所述目标相似度算法、所述客户声纹特征与所述声纹特征对所述用户进行验证，并判断是否验证通过的步骤，具体可包括：首先使用各所述目标相似度算法分别计算所述客户声纹特征与所述声纹特征之间的第一相似度。其中，对于每一种所述目标相似度算法均会计算出一个所述客户声纹特征与所述声纹特征之间的相似度。另外，对于各种目标相似度算法的相似度计算过程可参考现有的相关算法计算过程，在此暂不作过多阐述。然后获取预设的与各所述目标相似度算法分别对应的第一相似度阈值。其中，对于每一个第一相似度阈值的取值不作具体限定，可根据实际需求、专家经验或历史经验进行设置。之后将使用各所述目标相似度算法分别计算得到的第一相似度与各所述目标相似度算法对应的第一相似度阈值进行一一对应的大小比较处理。举例地，假如目标相似度算法包括目标相似度算法A、目标相似度算法B与目标相似度算法C，且目标相似度算法A对应的第一相似度阈值为D，目标相似度算法B对应的第一相似度阈值为E，目标相似度算法C对应的第一相似度阈值为F，则会分别将目标相似度算法A计算得到的第一相似度与第一相似度阈值D进行大小比较，将目标相似度算法B计算得到的第一相似度与第一相似度阈值E进行大小比较，以及将目标相似度算法C计算得到的第一相似度与第一相似度阈值F进行大小比较。若存在至少一个第一相似度不大于对应的第一相似度阈值，判定验证不通过。而若所有所述第一相似度均大于对应的第一相似度阈值，判定验证通过。本实施例通过使用预设的与各种目标相似度算法分别对应的第一相似度阈值，来分别与基于各种目标相似度算法计算得到的第一相似度进行大小比较处理，从而可以基于大小比较处理后得到的比较结果来共同生成用户的验证结果，有效地提高了生成的验证结果的准确性，进而提高了对于用户的身份验证的处理准确性，以便于可以根据该身份验证结果来准确地完成后续与用户的通话交互。

进一步地，本申请一实施例中，上述步骤S40，包括：

S410：使用各所述目标相似度算法分别计算所述客户声纹特征与所述声纹特征之间的第二相似度；

S411：计算所有所述第二相似度的平均值，得到综合相似度；

S412：判断所述综合相似度是否大于预设的第二相似度阈值；

S413：若大于所述第二相似度阈值，判定验证通过；

S414：若不大于所述第二相似度阈值，判定验证不通过。

如上述步骤S410至S414所述，所述基于各所述目标相似度算法、所述客户声纹特征与所述声纹特征对所述用户进行验证，并判断是否验证通过的步骤，具体可包括：首先使用各所述目标相似度算法分别计算所述客户声纹特征与所述声纹特征之间的第二相似度。其中，对于每一种所述目标相似度算法均会计算出一个所述客户声纹特征与所述声纹特征之间的相似度。另外，对于各种目标相似度算法的相似度计算过程可参考现有的相关算法计算过程，在此暂不作过多阐述。然后计算所有所述第二相似度的平均值，得到综合相似度。之后判断所述综合相似度是否大于预设的第二相似度阈值。其中，对于第二相似度阈值的取值不作具体限定，可根据实际需求、专家经验或历史经验进行设置。若大于所述第二相似度阈值，判定验证通过。而若不大于所述第二相似度阈值，判定验证不通过。本实施例在基于各种目标相似度算法计算得到所述客户声纹特征与所述声纹特征之间的第二相似度后，会先计算所有所述第二相似度的平均值作为综合相似度，再使用该综合相似度与第二相似度阈值进行大小比较处理，从而可以基于大小比较处理后得到的比较结果来共同生成用户的验证结果，有效地提高了生成的验证结果的准确性，进而提高了对于用户的身份验证的处理准确性，以便可以根据该身份验证结果来准确地完成后续与用户的通话交互。

进一步地，本申请一实施例中，上述步骤S50，包括：

S500：获取与所述目标电话号码对应的历史业务服务记录；

S501：从所述历史业务服务记录中获取所述用户办理过的历史业务类型信息；

S502：判断所述历史业务类型信息中是否包含所述业务类型信息；

S503：若包含所述业务类型信息，判定所述业务类型信息为所述指定业务类型；

S504：若不包含所述业务类型信息，判定所述业务类型信息不为所述指定业务类型。

如上述步骤S500至S504所述，所述判断所述业务类型信息是否为符合第二预设条件的指定业务类型信息的步骤，具体可包括：首先获取与所述目标电话号码对应的历史业务服务记录。其中，在客户每次进线办理业务时，会对应生成该客户的历史业务服务记录并存储。客户的历史业务服务记录中至少可包括客户办理过的业务类型，办理各种业务的时间，办理各种业务的次数等信息。然后从所述历史业务服务记录中获取所述用户办理过的历史业务类型信息。之后判断所述历史业务类型信息中是否包含所述业务类型信息。若包含所述业务类型信息，判定所述业务类型信息为所述指定业务类型。而若不包含所述业务类型信息，判定所述业务类型信息不为所述指定业务类型。其中，如果用户当前需要办理的业务不属于历史办理的业务类型里，则表明当前的业务交互属于安全要求较高的业务场景，后续需要对用户进行二次验证以确保用户的身份合法性，从而可以保证业务通话交互的安全进行。本实施例通过获取与所述目标电话号码对应的历史业务服务记录，并从所述历史业务服务记录中获取所述用户办理过的历史业务类型信息，如果检测出所述历史业务类型信息中不包含所述业务类型信息，则会判定所述业务类型信息为所述指定业务类型，即会判定当前的业务交互属于安全要求较高的业务场景，从而后续会智能地对用户进行二次验证以确保用户的身份合法性，以有效保证业务的安全进行，避免出现非法用户盗取重要业务信息的情况出现，提高业务通话交互处理的智能性与规范性。

进一步地，所述判断所述业务类型信息是否为符合第二预设条件的指定业务类型信息的步骤还可包括：获取预设的业务等级数据表；从所述业务等级数据表查询出与所述业务类型信息对应的安全级别；判断所述安全级别是否大于预设的安全级别阈值；若大于所述安全级别阈值，则判定所述业务类型信息为所述指定业务类型；若不大于所述安全级别阈值，则判定所述业务类型信息不为所述指定业务类型。其中，所述业务等级数据表为预先创建的存储有各种业务类型，以及与各种业务类型分别对应的安全级别的数据表。另外，对于安全级别阈值的取值不作具体限定，可根据实际需求、专家经验或历史经验进行设置。如果业务类型大于该安全级别阈值，则表明该业务类型属于安全要求较高的业务，因此当前的业务交互属于安全要求较高的业务场景，后续需要对用户进行二次验证以确保用户的身份合法性，以保证业务通话交互的安全进行。

进一步地，本申请一实施例中，上述步骤S60，包括：

S600：从所述客户画像信息中获取问题文本数据，以及获取与所述问题文本数据对应的标准答案数据；

S601：生成与所述问题文本数据对应的播报语音，并向所述用户播报所述播报语音；

S602：接收所述用户基于所述播报语音反馈的答案语音；

S603：生成与所述答案语音对应的答案文本数据，并判断所述答案文本数据是否与所述标准答案数据相同；

S604：若相同，获取与所述答案语音对应的反馈时长；

S605：从所述客户画像信息中获取第一年龄信息；

S606：判断所述反馈时长是否大于与所述第一年龄信息对应的反馈时长阈值；

S607：若大于所述反馈时长阈值，判定验证不通过；

S608：若不大于所述反馈时长阈值，判定验证通过。

如上述步骤S600至S608所述，所述基于预设的问题数据对所述用户进行验证，并判断是否验证通过的步骤，具体可包括：首先从所述客户画像信息中获取问题文本数据，以及获取与所述问题文本数据对应的标准答案数据。其中，所述客户画像信息中还存储有对应的用于验证客户的身份合法性的问题文本数据，以及与所述问题文本数据对应的标准答案数据。然后生成与所述问题文本数据对应的播报语音，并向所述用户播报所述播报语音。并接收所述用户基于所述播报语音反馈的答案语音。之后生成与所述答案语音对应的答案文本数据，并判断所述答案文本数据是否与所述标准答案数据相同。其中，可以使用语音识别技术生成所述答案文本数据。若相同，获取与所述答案语音对应的反馈时长。其中，上述反馈时长为从用户在得知上述问题文本数据的内容后，到回答完问题后所使用的时间时长。具体的，计算上述用户的反馈时长的步骤可包括：获取所述播报语音播报完毕的第一时间；以及获取用户反馈上述答案语音的第二时间；计算所述第二时间与上述第一时间的差值；将上述差值确定为上述反馈时长。后续从所述客户画像信息中获取第一年龄信息。其中，所述客户画像信息中还存储有相关客户的年龄信息。最后判断所述反馈时长是否大于与所述第一年龄信息对应的反馈时长阈值。其中，所述与所述第一年龄信息对应的反馈时长阈值可从预设的年龄-反馈时长阈值数据表中查询得到，该年龄-反馈时长阈值数据表为根据实际需求预先创建的存储有各种年龄信息，以及与每一个年龄信息分别对应的反馈时长阈值，年龄信息与反馈时长阈值呈正相关关系，年龄越小则反馈时长阈值越小，年龄越大则反馈时长阈值越大。若大于所述反馈时长阈值，判定验证不通过。而若不大于所述反馈时长阈值，判定验证通过。其中，如果用户的反馈时长大于所述反馈时长阈值，可知用户并非是在规定的时间内马上正确回答出上述问题文本数据，而是经过是比较久的思考后才反馈了答案，从而可判定当前用户具备一定的风险可疑，并判定当前用户的验证结果为不通过，即验证不通过。本实施例在对判别出用户通过声纹验证后，如果检测出对用户的语音信息进行分析得到的业务类型信息为符合第二预设条件的指定业务类型信息，则会进一步基于预设的问题数据对所述用户进行二次验证处理，即通过判断用户是否能够正确回答出客户画像信息中的问题文本数据，以及在用户回答正确的基础上比较用户回答问题的反馈时长与反馈时长阈值之间的数值大小的方式来实现对于用户的二次身份验证，有效地提高了对于用户的身份验证的可靠性，从而可以根据最终的验证结果来有效保证业务的安全进行，避免出现非法用户盗取重要业务信息的情况出现，提高业务通话交互处理的智能性与规范性。

进一步地，本申请一实施例中，上述步骤S80，包括：

S800：从所述客户画像信息中获取播报语种信息、第二年龄信息与性别信息；

S801：基于所述播报语种信息生成与所述交互文本对应的交互播报语音；

S802：基于所述性别信息确定出对应的播报声音类型；

S803：基于所述第二年龄信息确定出对应的播报语速信息与播报音量信息；

S804：基于所述播报声音类型、播报语速信息与播报音量信息，向所述用户播报所述交互播报语音。

如上述步骤S800至S804所述，所述生成与所述交互文本对应的交互播报语音，并向所述用户播报所述交互播报语音的步骤，具体可包括：首先从所述客户画像信息中获取播报语种信息、第二年龄信息与性别信息。其中，所述客户画像信息还存储有相关客户的播报语种信息、年龄信息与性别信息。所述播报语种信息为记录的该客户首次进线时所选择的语种，后续该客户在进线时可默认采用该语种，以保证客户的使用体验。然后基于所述播报语种信息生成与所述交互文本对应的交互播报语音。之后基于所述性别信息确定出对应的播报声音类型。其中，如果性别信息为男，则其对应的播报声音类型为女声播报声音，而如果性别信息为女，则其对应的播报声音类型为男声播报声音。以及基于所述第二年龄信息确定出对应的播报语速信息与播报音量信息。其中，可以从预设的年龄-播报信息数据表中查询出所述播报语速信息与播报音量信息，所述年龄-播报信息数据表为根据实际的使用需求预先创建的存储有年龄信息，以及与年龄信息对应的播报语速信息与播报音量信息，优选该使用需求为：年龄大于第一预设年龄阈值则采用语速慢和音量大的播报信息，年龄小于第二预设年龄阈值则采用语速快和音量小的播报信息，而年龄处于第一预设年龄阈值与第二预设年龄阈值之间的则采用语速适中和音量适中的播报信息，所述第一预设年龄阈值大于第二预设年龄阈值。最后基于所述播报声音类型、播报语速信息与播报音量信息，向所述用户播报所述交互播报语音。本实施例在得到了与用户的语音信息对应的交互文本后，会智能地从所述客户画像信息中获取播报语种信息、第二年龄信息与性别信息，再基于所述播报语种信息生成与所述交互文本对应的交互播报语音，基于所述性别信息确定出对应的播报声音类型，以及基于所述第二年龄信息确定出对应的播报语速信息与播报音量信息，进而可以采用与所述用户相适应的播报声音类型、播报语速信息与播报音量信息，来向所述用户播报所述交互播报语音，以实现基于用户的画像信息来对用户进行针对性得个性化语音交互，有效地提高了用户的使用体验，有利于提高用户的满意度，提升通话交互的智能性与质量。

本申请实施例中的语音通话的交互方法还可以应用于区块链领域，如将上述交互播报语音等数据存储于区块链上。通过使用区块链来对上述交互播报语音进行存储和管理，能够有效地保证上述交互播报语音的安全性与不可篡改性。

上述区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

参照图2，本申请一实施例中还提供了一种语音通话的交互装置，包括：

接收模块1，用于当接收到用户通过目标电话号码对应的终端触发的通话请求时，建立与所述终端之间的通话连接，并接收所述用户输入的语音信息；

获取模块2，用于从预设数据库中获取与所述目标电话号码对应的客户画像信息，并从所述客户画像信息中提取客户声纹特征；

确定模块3，用于从预设的多个相似度算法中确定出符合第一预设条件的目标相似度算法；

第一验证模块4，用于提取所述语音信息中的声纹特征，基于各所述目标相似度算法、所述客户声纹特征与所述声纹特征对所述用户进行验证，并判断是否验证通过；

判断模块5，用于若验证通过，对所述语音信息进行分析得到对应的业务类型信息，并判断所述业务类型信息是否为符合第二预设条件的指定业务类型信息；

第二验证模块6，用于若为所述指定业务类型信息，基于预设的问题数据对所述用户进行二次验证，并判断是否验证通过；

生成模块7，用于若验证通过，基于预设的交互模型生成与所述语音信息对应的交互文本；

播报模块8，用于生成与所述交互文本对应的交互播报语音，并向所述用户播报所述交互播报语音。

本实施例中，上述模块或单元分别用于执行的操作与前述实施方式的语音通话的交互方法的步骤一一对应，在此不再赘述。

进一步地，本申请一实施例中，上述确定模块3，包括：

第一获取单元，用于获取各所述相似度算法的发布时间信息；

第一筛选单元，用于从所有所述相似度算法筛选出发布时间信息大于预设的发布时间阈值的第一相似度算法；

第一生成单元，用于获取预设的测试声纹数据，并基于所述声纹测试数据生成与各所述第一相似度算法分别对应的数据处理时间；

第二筛选单元，用于从所述第一相似度算法中筛选出数据处理时间小于预设的数据处理时间阈值的第二相似度算法；

第一判断单元，用于判断所述第二相似度算法的数量是否大于预设数量；

排序单元，用于若是，按照所述数据处理时间从小到大的顺序对所有所述第二相似度算法进行排序，得到对应的排序结果；

第二获取单元，用于从所述排序结果中排在首位的第二相似度算法开始，依次获取预设数量的第三相似度算法；

第一确定单元，用于将所述第三相似度算法作为所述目标相似度算法。

进一步地，本申请一实施例中，上述第一验证模块4，包括：

第一计算单元，用于使用各所述目标相似度算法分别计算所述客户声纹特征与所述声纹特征之间的第一相似度；其中，对于每一种所述目标相似度算法均会计算出一个所述客户声纹特征与所述声纹特征之间的相似度；

第三获取单元，用于获取预设的与各所述目标相似度算法分别对应的第一相似度阈值；

比较单元，用于将使用各所述目标相似度算法分别计算得到的第一相似度与各所述目标相似度算法对应的第一相似度阈值进行一一对应的大小比较处理；

第一判定单元，用于若存在至少一个第一相似度不大于对应的第一相似度阈值，判定验证不通过；

第二判定单元，用于若所有所述第一相似度均大于对应的第一相似度阈值，判定验证通过。

进一步地，本申请一实施例中，上述第一验证模块4，包括：

第二计算单元，用于使用各所述目标相似度算法分别计算所述客户声纹特征与所述声纹特征之间的第二相似度；

第三计算单元，用于计算所有所述第二相似度的平均值，得到综合相似度；

第二判断单元，用于判断所述综合相似度是否大于预设的第二相似度阈值；

第三判定单元，用于若大于所述第二相似度阈值，判定验证通过；

第四判定单元，用于若不大于所述第二相似度阈值，判定验证不通过。

进一步地，本申请一实施例中，上述判断模块5，包括：

第四获取单元，用于获取与所述目标电话号码对应的历史业务服务记录；

第五获取单元，用于从所述历史业务服务记录中获取所述用户办理过的历史业务类型信息；

第三判断单元，用于判断所述历史业务类型信息中是否包含所述业务类型信息；

第五判定单元，用于若包含所述业务类型信息，判定所述业务类型信息为所述指定业务类型；

第六判定单元，用于若不包含所述业务类型信息，判定所述业务类型信息不为所述指定业务类型。

进一步地，本申请一实施例中，上述第二验证模块6，包括：

第六获取单元，用于从所述客户画像信息中获取问题文本数据，以及获取与所述问题文本数据对应的标准答案数据；

第二生成单元，用于生成与所述问题文本数据对应的播报语音，并向所述用户播报所述播报语音；

接收单元，用于接收所述用户基于所述播报语音反馈的答案语音；

第三生成单元，用于生成与所述答案语音对应的答案文本数据，并判断所述答案文本数据是否与所述标准答案数据相同；

第七获取单元，用于若相同，获取与所述答案语音对应的反馈时长；

第八获取单元，用于从所述客户画像信息中获取第一年龄信息；

第四判断单元，用于判断所述反馈时长是否大于与所述第一年龄信息对应的反馈时长阈值；

第七判定单元，用于若大于所述反馈时长阈值，判定验证不通过；

第八判定单元，用于若不大于所述反馈时长阈值，判定验证通过。

进一步地，本申请一实施例中，上述播报模块8，包括：

第九获取单元，用于从所述客户画像信息中获取播报语种信息、第二年龄信息与性别信息；

第四生成单元，用于基于所述播报语种信息生成与所述交互文本对应的交互播报语音；

第二确定单元，用于基于所述性别信息确定出对应的播报声音类型；

第三确定单元，用于基于所述第二年龄信息确定出对应的播报语速信息与播报音量信息；

播报单元，用于基于所述播报声音类型、播报语速信息与播报音量信息，向所述用户播报所述交互播报语音。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、输入装置和数据库。其中，该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存储器为存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标电话号码、客户画像信息、客户声纹特征、目标相似度算法、声纹特征、业务类型信息、交互文本以及交互播报语音。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的显示屏是计算机中必不可少的一种图文输出设备，用于将数字信号转换为光信号，使文字与图形在显示屏的屏幕上显示出来。该计算机设备的输入装置是计算机与用户或其他设备之间进行信息交换的主要装置，用于把数据、指令及某些标志信息等输送到计算机中去。该计算机程序被处理器执行时以实现一种语音通话的交互方法。

上述处理器执行上述语音通话的交互方法的步骤：

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的装置、计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种语音通话的交互方法，具体为：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音通话的交互方法，其特征在于，包括：

2.根据权利要求1所述的语音通话的交互方法，其特征在于，所述从预设的多个相似度算法中确定出符合第一预设条件的目标相似度算法的步骤，包括：

获取各所述相似度算法的发布时间信息；

判断所述第二相似度算法的数量是否大于预设数量；

将所述第三相似度算法作为所述目标相似度算法。

3.根据权利要求1所述的语音通话的交互方法，其特征在于，所述基于各所述目标相似度算法、所述客户声纹特征与所述声纹特征对所述用户进行验证，并判断是否验证通过的步骤，包括：

4.根据权利要求1所述的语音通话的交互方法，其特征在于，所述基于各所述目标相似度算法、所述客户声纹特征与所述声纹特征对所述用户进行验证，并判断是否验证通过的步骤，包括：

计算所有所述第二相似度的平均值，得到综合相似度；

判断所述综合相似度是否大于预设的第二相似度阈值；

若大于所述第二相似度阈值，判定验证通过；

若不大于所述第二相似度阈值，判定验证不通过。

5.根据权利要求1所述的语音通话的交互方法，其特征在于，所述判断所述业务类型信息是否为符合第二预设条件的指定业务类型信息的步骤，包括：

获取与所述目标电话号码对应的历史业务服务记录；

判断所述历史业务类型信息中是否包含所述业务类型信息；

6.根据权利要求1所述的语音通话的交互方法，其特征在于，所述基于预设的问题数据对所述用户进行验证，并判断是否验证通过的步骤，包括：

接收所述用户基于所述播报语音反馈的答案语音；

若相同，获取与所述答案语音对应的反馈时长；

从所述客户画像信息中获取第一年龄信息；

若大于所述反馈时长阈值，判定验证不通过；

若不大于所述反馈时长阈值，判定验证通过。

7.根据权利要求1所述的语音通话的交互方法，其特征在于，所述生成与所述交互文本对应的交互播报语音，并向所述用户播报所述交互播报语音的步骤，包括：

基于所述性别信息确定出对应的播报声音类型；

8.一种语音通话的交互装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。