CN113223533B

CN113223533B - 语音通话方法、装置、计算机设备及存储介质

Info

Publication number: CN113223533B
Application number: CN202110603109.4A
Authority: CN
Inventors: 蒙桂; 彭钊
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2023-06-06
Anticipated expiration: 2041-05-31
Also published as: CN113223533A

Abstract

本发明涉及人工智能技术领域，提供一种语音通话方法、装置、计算机设备及存储介质，包括：获取第一用户阅读预设文本的阅读音频，调用声纹提取模型提取所述阅读音频中的所述第一用户的用户声纹及声纹提取参数；根据声纹提取参数提取双录视频中第一用户的通话音频；语音识别通话音频得到通话文本，对通话文本进行文本切分得到多个通话文本片段；从双录视频中切分出与每个通话文本片段对应的通话视频片段；将每个通话文本片段叠加显示在对应的通话视频片段上以辅助第二用户进行语音通话，根据双录视频的采集参数对显示在通话视频片段上的通话文本进行缩放处理。本发明能够辅助语音通话，提高语音通话的质量。

Description

语音通话方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种语音通话方法、装置、计算机设备及存储介质。

背景技术

远程视频服务为用户的业务办理提供了很多便利，使用户“足不出户”成为了可能。另一方面，也在一定程度上取代了传统网点，降低了网点装修、场地开销、服务人员分散难管理等实际操作问题带来的成本。

远程视频服务需要高质量的语音通话，但受限于用户所处的环境等因素的影响，难免会出现周围环境噪声过大，导致用户无法清晰的听到客服的说话声，或客服无法清晰的听到用户的说话声，在嘈杂环境中通话时的通话质量很低，使客服与用户的沟通交流受到影响，用户体验十分不好，也一定程度上增加了沟通成本。

发明内容

鉴于以上内容，有必要提出一种语音通话方法、装置、计算机设备及存储介质，能够提高语音通话的质量，提升用户体验。

本发明的第一方面提供一种语音通话方法，所述方法包括：

获取第一用户阅读预设文本的阅读音频，并调用声纹提取模型提取所述阅读音频中的所述第一用户的用户声纹及声纹提取参数；

采集所述第一用户的双录视频，并根据所述声纹提取参数从所述双录视频中提取所述第一用户的通话音频；

对所述通话音频进行语音识别得到通话文本，并对所述通话文本进行文本切分得到多个通话文本片段；

从所述双录视频中切分出与每个通话文本片段对应的通话视频片段；

将每个通话文本片段叠加显示在对应的通话视频片段上以辅助第二用户进行语音通话，并根据所述双录视频的采集参数对显示在所述通话视频片段上的通话文本进行缩放处理。

在一个可选的实施例中，所述调用声纹提取模型提取所述阅读音频中的所述第一用户的用户声纹及声纹提取参数包括：

将所述阅读音频编码为第一脉冲编码调制数据；

调用声纹提取模型基于预设的第一声纹提取参数从所述第一脉冲编码调制数据中提取出多个第一声纹，对每个所述第一声纹进行语音识别得到第一声纹文本，并对每个所述第一声纹文本与所述预设文本进行匹配；

当每个所述第一声纹文本与所述预设文本匹配失败时，更新所述第一声纹提取参数得到第二声纹提取参数；

调用所述声纹提取模型基于所述第二声纹提取参数从所述第一脉冲编码调制数据中提取出多个第二声纹，对每个所述第二声纹进行语音识别得到第二声纹文本，并对每个所述第二声纹文本与所述预设文本进行匹配；

当任意一个所述第二声纹文本与所述预设文本匹配成功时，将匹配成功的第二声纹确定为所述用户声纹，并将所述第二声纹提取参数确定为所述用户声纹提取参数。

在一个可选的实施例中，所述对每个所述第一声纹文本与所述预设文本进行匹配包括：

将待进行文本匹配的第一声纹文本确定为目标第一声纹，将其余每个第一声纹文本确定为非目标第一声纹；

根据多个所述非目标第一声纹计算所述目标第一声纹的文本匹配度阈值；

计算所述目标第一声纹对应的声纹文本与所述预设文本之间的文本匹配度；

判断所述文本匹配度是否大于所述文本匹配度阈值；

当所述文本匹配度大于所述文本匹配度阈值时，确定所述目标第一声纹对应的声纹文本与所述预设文本匹配成功；

当所述文本匹配度小于或者等于所述文本匹配度阈值时，确定所述目标第一声纹对应的声纹文本与所述预设文本匹配失败。

在一个可选的实施例中，所述根据多个所述非目标第一声纹计算所述目标第一声纹的文本匹配度阈值包括：

计算每个所述非目标第一声纹的声纹幅值；

匹配出每个声纹幅值对应的文本匹配度值；

计算多个所述文本匹配度值的和值得到所述文本匹配度阈值。

在一个可选的实施例中，所述根据所述声纹提取参数从所述双录视频中提取所述第一用户的通话音频包括：

对所述双录视频进行音视频分离得到音频数据；

将所述音频数据编码为第二脉冲编码调制数据；

调用所述声纹提取模型基于所述用户声纹提取参数从所述第二脉冲编码调制数据中提取出用户通话声纹；

将所述用户通话声纹编码为通话音频。

在一个可选的实施例中，所述从所述双录视频中切分出与每个通话文本片段对应的通话视频片段包括：

根据所述双录视频的时间轴确定每个通话文本片段对应的起止时间点；

以每个通话文本片段对应的起止时间点为视频切分点，对所述双录视频进行切分，得到多个通话视频片段；

关联每个通话文本片段与对应的通话视频片段。

在一个可选的实施例中，所述根据所述双录视频的采集参数对显示在所述通话视频片段上的通话文本进行缩放处理包括：

获取所述采集参数中的采样率；

根据所述采样率确定所述通话文本的文本显示区域；

根据所述通话文本中的文本字符数及所述显示区域计算每个文本字符的字符显示区域；

根据所述字符显示区域对所述通话文本进行缩放处理。

本发明的第二方面提供一种语音通话装置，所述装置包括：

第一提取模块，用于获取第一用户阅读预设文本的阅读音频，并调用声纹提取模型提取所述阅读音频中的所述第一用户的用户声纹及声纹提取参数；

第二提取模块，用于采集所述第一用户的双录视频，并根据所述声纹提取参数从所述双录视频中提取所述第一用户的通话音频；

音频切分模块，用于对所述通话音频进行语音识别得到通话文本，并对所述通话文本进行文本切分得到多个通话文本片段；

视频切分模块，用于从所述双录视频中切分出与每个通话文本片段对应的通话视频片段；

通话辅助模块，用于将每个通话文本片段叠加显示在对应的通话视频片段上以辅助第二用户进行语音通话，并根据所述双录视频的采集参数对显示在所述通话视频片段上的通话文本进行缩放处理。

本发明的第三方面提供一种计算机设备，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现所述语音通话方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述语音通话方法。

综上所述，本发明所述的语音通话方法、装置、计算机设备及存储介质，首先让第一用户阅读预设文本并获取阅读预设文本的阅读音频，调用声纹提取模型基于阅读音频和预设文本提取出所述第一用户的用户声纹及用户声纹提取参数，从而在采集到第一用户与第二用户进行语音通话过程中的双录视频后，能够根据声纹提取参数从双录视频中提取出第一用户的通话音频，通过对通话音频的通话文本叠加显示在通话视频上，并根据双录视频的采集参数对显示在通话视频片段上的通话文本进行缩放处理，实现了在第二用户的用户设备上实时输出叠加有第一用户通话的通话文本的通话视频，即使第一用户所处环境嘈杂，在没有听清第一用户说什么的时候，第二用户可以根据通话视频上的通话文本去理解第一用户的具体通话内容，降低了重复通话内容的成本和通话时间，提高了远程通话效率，提高了第一用户和第二用户远程通话体验。

附图说明

图1是本发明实施例一提供的语音通话方法的流程图。

图2是本发明实施例二提供的语音通话装置的结构图。

图3是本发明实施例三提供的计算机设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

本发明实施例提供的语音通话方法由计算机设备执行，相应地，语音通话装置运行于计算机设备中。

图1是本发明实施例一提供的语音通话方法的流程图。所述语音通话方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

S11，获取第一用户阅读预设文本的阅读音频，并调用声纹提取模型提取所述阅读音频中的所述第一用户的用户声纹及声纹提取参数。

本实施例的应用场景可以为在第一用户嘈杂环境下或者微噪音环境下与第二用户进行语音通话，导致第二用户无法听清第一用户的通话内容，通过本发明所述的方法在第二用户的用户设备上实时输出叠加有第一用户通话的通话文本的通话视频，以辅助第二用户进行语音通话。

其中，所述第一用户可以是客户，所述第二用户可以是客服。或者，所述第一用户可以是客服，第二用户可以是客户。本发明不做限制，接下来以第一用户为客户，第二用户为客服来举例说明本发明的发明构思。

第一用户可以通过客户端设备向第二用户的坐席端设备发起远程通话请求，请求远程通话服务。

坐席端设备响应于所述通话请求，接通电话，并从本地存储中的多个预设文本中随机选择一个预设文本发送给客户端设备，使得客户端设备显示所述预设文本，以在用户阅读所述预设文本时，通过客户端设备录取阅读所述预设文本的阅读音频。

坐席端设备还可以响应于所述通话请求，接通电话，并获取客户端设备所处的环境噪音，将所述环境噪音与预设噪音阈值进行比较。当所述环境噪音大于所述预设噪音阈值时，表明客户端设备所处的环境比较嘈杂，会影响远程通话的质量，则执行所述从本地存储中的多个预设文本中随机选择一个预设文本发送给客户端设备；当所述环境噪音不大于所述预设噪音阈值时，表明客户端设备所处的环境比较安静，不会影响远程通话的质量，则不需执行所述从本地存储中的多个预设文本中随机选择一个预设文本发送给客户端设备。

其中，所述声纹提取模型可以是基于VGG-M网络的声纹识别模型，其训练过程为现有技术。所述声纹提取模型能够提取声纹，并且当某段音频中包含多个人的音频片段时，则通过所述声纹提取模型能够将多个人的音频片段的声纹分离开来。

由于客户端设备所处的环境比较嘈杂，则阅读音频中为用户的音频，环境音频及一个或者多个第三方的音频的混合音频，且坐席端设备无法确定哪一个音频为用户的音频，则需要调用声纹提取模型提取所述阅读音频中的所述第一用户的用户声纹及声纹提取参数。

将所述阅读音频编码为第一脉冲编码调制数据；

调用声纹提取模型基于预设的第一声纹提取参数从所述第一脉冲编码调制数据中提取多个第一声纹，对每个所述第一声纹进行语音识别得到第一声纹文本，并对每个所述第一声纹文本与所述预设文本进行匹配；

其中，脉冲编码调制数据(Pulse Code Modulation，PCM)是对连续变化的模拟信号进行抽样、量化和编码产生的数字信号。将所述阅读音频转换为离散时间、连续幅度的抽样信号，再将所述抽样信号变为离散时间、离散幅度的数字信号，最后将所述数字信号编码成为一个二进制码组，得到所述第一脉冲编码调制数据。

其中，第一声纹提取参数可以包括抽样频率，量化位数等。

每个人发声的音色是不同的，通过音色可以区别不同的声源，基于这一原理，可以调用所述声纹提取模型从所述第一脉冲编码调制数据中提取出多种第一声纹，每种第一声纹对应一个人或者环境噪音。

当每种第一声纹对应的声纹文本与所述预设文本均匹配失败时，表明声纹提取模型提取出的多种声纹并没有用户的真实声纹，需要更新所述第一声纹提取参数并重新提取多种第二声纹；重复上述过程，直到某一个第二声纹对应的声纹文本与所述预设文本匹配成功时，将匹配成功的第二声纹确定为所述用户声纹，并将所述第二声纹提取参数确定为用户声纹提取参数。

该可选的实施例中，使用声纹提取模型从所述阅读音频中提取出多种声纹后进行语音转文本识别，并以预设文本为匹配依据，实现了从嘈杂环境中快速的提取出用户的真实声纹的效果，且根据提取用户声纹对应的用户声纹提取参数，能够快速的提取出通话过程的用户的通话音频。此外，由于通话音频与阅读音频所处的环境相同，因而，从所述阅读音频中提取出用户声纹及用户声纹提取参数后，使用所述用户声纹提取参数从通话过程中的双录视频提取出用户通话音频更为准确。

判断所述文本匹配度是否大于所述文本匹配度阈值；

其中，所述目标第一声纹和所述非目标第一声纹是相对而言的，每次获取一种第一声纹对应的声纹文本与预设文本进行文本匹配，将每次获取的待进行文本匹配的第一声纹称之为目标第一声纹，其余不进行文本匹配的第一声纹则称之为非目标第一声纹。

通过计算所述目标第一声纹对应的声纹文本与所述预设文本之间的余弦夹角，得到所述目标第一声纹对应的声纹文本与所述预设文本之间的文本匹配度。

根据多个所述非目标第一声纹计算所述目标第一声纹的文本匹配度阈值，使得不同的第一声纹具有不同的文本匹配度阈值，实现了对第一声纹的文本匹配度阈值的动态调整，从而与环境的嘈杂程度相配合，当环境较为复杂时，文本匹配度阈值可以自动调整的高一些，当环境不复杂时，文本匹配度阈值可以自动调整的低一些，以此来弥补声纹提取模型提取出的声纹无法正确的反映用户的实际声纹的缺陷。对不同的第一声纹对应的声纹文本采用对应的文本匹配度阈值，使得文本匹配的匹配结果更加准确。

计算每个所述非目标第一声纹的声纹幅值；

匹配出每个声纹幅值对应的文本匹配度值；

计算每个所述非目标第一声纹的声纹强度的均值得到每个所述非目标第一声纹的声纹幅值。

计算机设备中存储有映射关系库，所述映射关系库中记录有多个文本匹配度值及每个文本匹配度值对应的声纹幅值范围，将每个声纹幅值与多个声纹幅值范围进行匹配，确定每个声纹幅值对应的目标声纹幅值范围，再根据所述映射关系库来确定目标声纹幅值范围对应的目标文本匹配度值。声纹幅值越高，对应的文本匹配度值越大，声纹幅值越低，对应的文本匹配度值越小。其中，所述映射关系库是根据多次试验确定的。

为了更加精确的从所述阅读音频中提取出用户声纹，则需要根据多个非目标第一声纹确定目标第一声纹的文本匹配度阈值，使得目标第一声纹的文本匹配度大于所有非目标第一声纹的文本匹配度值之和。

S12，采集所述第一用户的双录视频，并根据所述声纹提取参数从所述双录视频中提取所述第一用户的通话音频。

其中，所述双录视频可以仅包括第一用户的视频，还可以仅包括第二用户的视频，还可以同时包括第一用户和第二用户之间通话的视频，或者仅包括第二用户的环境的视频，不做任何限制。

由于上述已经使用声纹提取模型提取出了用户声纹，且确定了提取用户声纹的用户声纹提取参数，则可以再次调用声纹提取模型基于所述用户声纹提取参数从所述双录视频中提取出所述用户的通话音频，提取出的通话音频为用户的真实通话音频。

对所述双录视频进行音视频分离得到音频数据；

将所述音频数据编码为第二脉冲编码调制数据；

将所述用户通话声纹编码为通话音频。

计算机设备可以采用音视频分离技术对所述双录视频进行音视频分离，从而得到视频数据和视频数据。

由于只需用户的通话音频，因此，计算机设备通过调用所述声纹提取模型基于所述用户声纹提取参数，即可从所述第二脉冲编码调制数据中提取出用户通话声纹，之后再采用与上述编码技术对应的逆编码技术将所述用户通话声纹编码为通话音频。

S13，对所述通话音频进行语音识别得到通话文本，并对所述通话文本进行文本切分得到多个通话文本片段。

计算机设备可以采用语音识别算法，例如，自动语音识别(Automatic SpeechRecognition，ASR)技术将提取出的通话音频转化为通话文本。

可以根据用户说话的停顿点为切分点对所述通话文本进行文本切分，得到多个通话文本片段，每个通话文本片段包括至少一条通话语句文本。

计算机设备还可以将每条通话文本对应的起止时间关联存储在本地的数据库表中，便于后续对视频数据进行切分。

S14，从所述双录视频中切分出与每个通话文本片段对应的通话视频片段。

计算机设备采用音视频分离技术对所述双录视频进行音视频分离得到视频数据之后，对所述视频数据进行视频切分，得到多个通话视频片段，将每个通话视频片段与对应的通话文本片段进行关联。通话视频片段与对应的通话文本片段在时间上是相互关联的，即通话视频片段的起止时间与通话文本片段的起止时间相同。

关联每个通话文本片段与对应的通话视频片段。

其中，每个通话视频片段包括连续的多帧通话图像，以每个通话文本片段对应的起止时间点为视频切分点对所述双录视频进行切分，得到的每个通话视频片段的第一帧通话图像的起始时间与对应的通话文本片段的起始时间相同，通话视频片段的最后一帧通话图像的截止时间与对应的通话文本片段的截止时间相同。

在一个可选的实施例中，每个通话文本片段可以包括一条通话语句文本，如此，能够使得一条通话语句文本刚好对应的一帧通话图像。

该可选的实施例中，通过每个通话文本片段对应的起止时间点对所述双录视频进行切分，使得切分得到的多个通话视频片段刚好能与多个通话文本片段一一对应，即，一个通话视频片段刚好对应一个通话文本片段，通话文本片段中的文本内容刚好对应通话视频片段中的多条语音文本，因此，能够便于后续很好的将通话文本片段叠加显示在对应的通话视频片段上，显示效果佳。

S15，将每个通话文本片段叠加显示在对应的通话视频片段上以辅助第二用户进行语音通话，并根据所述双录视频的采集参数对显示在所述通话视频片段上的通话文本进行缩放处理。

计算机设备将通话视频片段送到视频混合器的缓存中，视频混合器采用字幕叠加算法将每个通话文本片段叠加显示在对应的通话视频片段上以辅助第二用户进行语音通话，并根据通话视频片段中的通话图像的大小，对显示的通话文本片段中的通话文本的字体进行放大处理或者进行缩小处理。

计算机设备在叠加完成后将视频数据输送到音视频编码器处理，经过音视频编码器的编码，可以根据需求进行封包往外存储。

获取所述采集参数中的采样率；

根据所述采样率确定所述通话文本的文本显示区域；

根据所述字符显示区域对所述通话文本进行缩放处理。

根据所述采用率可以确定通话视频片段中的每一帧通话图像的大小，根据通话图像的宽度来确定通话文本的文本显示区域的宽度。

如果某一帧通话图像对应的通话文本中的文本字符较多时，对该通话文本中的文本字符的字体进行缩小处理，使得这一帧通话图像上叠加显示的通话文本的文本字符较小，如此能够避免通话文本溢出的问题。

如果某一帧通话图像对应的通话文本中的文本字符较少时，对该通话文本中的文本字符的字体进行放大处理，使得这一通话图像上叠加显示的通话文本的文本字符较大，如此能够更加清楚的显示通话文本。

采用本发明所述的方法，首先让第一用户阅读预设文本并获取阅读预设文本的阅读音频，调用声纹提取模型基于阅读音频和预设文本提取出所述第一用户的用户声纹及用户声纹提取参数，从而在采集到第一用户与第二用户进行语音通话过程中的双录视频后，能够根据声纹提取参数从双录视频中提取出第一用户的通话音频，通过对通话音频的通话文本叠加显示在通话视频上，并根据双录视频的采集参数对显示在通话视频片段上的通话文本进行缩放处理，实现了在第二用户的用户设备上实时输出叠加有第一用户通话的通话文本的通话视频，即使第一用户所处环境嘈杂，在没有听清第一用户说什么的时候，第二用户可以根据通话视频上的通话文本去理解第一用户的具体通话内容，降低了重复通话内容的成本和通话时间，提高了远程通话效率，提高了第一用户和第二用户远程通话体验。

同理，采用本发明所述的方案，还可以当第一用户听不清第二用户的通话内容时，在第一用户的用户设备上实时输出叠加有第二用户通话的通话文本的通话视频，即使第二用户所处环境嘈杂，在没有听清第二用户说什么的时候，第一用户可以根据通话视频上的通话文本去理解第二用户的具体通话内容，以辅助第一用户进行语音通话。

需要强调的是，为进一步保证上述双录视频的私密性和安全性，上述双录视频可存储于区块链的节点中。

图2是本发明实施例二提供的语音通话装置的结构图。

在一些实施例中，所述语音通话装置20可以包括多个由计算机程序段所组成的功能模块。所述语音通话装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中，并由至少一个处理器所执行，以执行(详见图1描述)语音通话的功能。

本实施例中，所述语音通话装置20根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：第一提取模块201、第二提取模块202、音频切分模块203、视频切分模块204及通话辅助模块205。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

所述第一提取模块201，用于获取第一用户阅读预设文本的阅读音频，并调用声纹提取模型提取所述阅读音频中的所述第一用户的用户声纹及声纹提取参数。

在一个可选的实施例中，所述第一提取模块201调用声纹提取模型提取所述阅读音频中的所述第一用户的用户声纹及声纹提取参数包括：

将所述阅读音频编码为第一脉冲编码调制数据；

其中，第一声纹提取参数可以包括抽样频率，量化位数等。

判断所述文本匹配度是否大于所述文本匹配度阈值；

计算每个所述非目标第一声纹的声纹幅值；

匹配出每个声纹幅值对应的文本匹配度值；

所述第二提取模块202，用于采集所述第一用户的双录视频，并根据所述声纹提取参数从所述双录视频中提取所述第一用户的通话音频。

在一个可选的实施例中，所述第二提取模块202根据所述声纹提取参数从所述双录视频中提取所述第一用户的通话音频包括：

对所述双录视频进行音视频分离得到音频数据；

将所述音频数据编码为第二脉冲编码调制数据；

将所述用户通话声纹编码为通话音频。

所述音频切分模块203，用于对所述通话音频进行语音识别得到通话文本，并对所述通话文本进行文本切分得到多个通话文本片段。

所述视频切分模块204，用于从所述双录视频中切分出与每个通话文本片段对应的通话视频片段。

在一个可选的实施例中，所述视频切分模块204从所述双录视频中切分出与每个通话文本片段对应的通话视频片段包括：

关联每个通话文本片段与对应的通话视频片段。

所述通话辅助模块205，用于将每个通话文本片段叠加显示在对应的通话视频片段上以辅助第二用户进行语音通话，并根据所述双录视频的采集参数对显示在所述通话视频片段上的通话文本进行缩放处理。

在一个可选的实施例中，所述通话辅助模块205根据所述双录视频的采集参数对显示在所述通话视频片段上的通话文本进行缩放处理包括：

获取所述采集参数中的采样率；

根据所述采样率确定所述通话文本的文本显示区域；

根据所述字符显示区域对所述通话文本进行缩放处理。

如果某一帧通话图像对应的通话文本中的文本字符较少时，对该通话文本中的文本字符的字体进行放大处理，使得这一帧通话图像上叠加显示的通话文本的文本字符较大，如此能够更加清楚的显示通话文本。

采用本发明所述的装置，首先让第一用户阅读预设文本并获取阅读预设文本的阅读音频，调用声纹提取模型基于阅读音频和预设文本提取出所述第一用户的用户声纹及用户声纹提取参数，从而在采集到第一用户与第二用户进行语音通话过程中的双录视频后，能够根据声纹提取参数从双录视频中提取出第一用户的通话音频，通过对通话音频的通话文本叠加显示在通话视频上，并根据双录视频的采集参数对显示在通话视频片段上的通话文本进行缩放处理，实现了在第二用户的用户设备上实时输出叠加有第一用户通话的通话文本的通话视频，即使第一用户所处环境嘈杂，在没有听清第一用户说什么的时候，第二用户可以根据通话视频上的通话文本去理解第一用户的具体通话内容，降低了重复通话内容的成本和通话时间，提高了远程通话效率，提高了第一用户和第二用户远程通话体验。

参阅图3所示，为本发明实施例三提供的计算机设备的结构示意图。在本发明较佳实施例中，所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解，图3示出的计算机设备的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述计算机设备3是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述计算机设备3仅为举例，其他现有的或今后可能出现的电子产品如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器31中存储有计算机程序，所述计算机程序被所述至少一个处理器32执行时实现如所述的语音通话方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-OnlyMemory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一些实施例中，所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit)，利用各种接口和线路连接整个计算机设备3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行计算机设备3的各种功能和处理数据。例如，所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的语音通话方法的全部或者部分步骤；或者实现语音通话装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。

在一些实施例中，所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出，所述计算机设备3还可以包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，计算机设备，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。本发明中的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种语音通话方法，其特征在于，所述方法包括：

获取所述第一用户的双录视频，对所述双录视频进行音视频分离得到音频数据，将所述音频数据编码为第二脉冲编码调制数据，调用所述声纹提取模型基于所述用户声纹提取参数从所述第二脉冲编码调制数据中提取出用户通话声纹，将所述用户通话声纹编码为通话音频；

2.如权利要求1所述的语音通话方法，其特征在于，所述调用声纹提取模型提取所述阅读音频中的所述第一用户的用户声纹及声纹提取参数包括：

将所述阅读音频编码为第一脉冲编码调制数据；

3.如权利要求2所述的语音通话方法，其特征在于，所述对每个所述第一声纹文本与所述预设文本进行匹配包括：

判断所述文本匹配度是否大于所述文本匹配度阈值；

4.如权利要求3所述的语音通话方法，其特征在于，所述根据多个所述非目标第一声纹计算所述目标第一声纹的文本匹配度阈值包括：

计算每个所述非目标第一声纹的声纹幅值；

匹配出每个声纹幅值对应的文本匹配度值；

5.如权利要求4所述的语音通话方法，其特征在于，所述从所述双录视频中切分出与每个通话文本片段对应的通话视频片段包括：

关联每个通话文本片段与对应的通话视频片段。

6.如权利要求5所述的语音通话方法，其特征在于，所述根据所述双录视频的采集参数对显示在所述通话视频片段上的通话文本进行缩放处理包括：

获取所述采集参数中的采样率；

根据所述采样率确定所述通话文本的文本显示区域；

根据所述字符显示区域对所述通话文本进行缩放处理。

7.一种语音通话装置，其特征在于，所述装置包括：

第二提取模块，用于采集所述第一用户的双录视频，对所述双录视频进行音视频分离得到音频数据，将所述音频数据编码为第二脉冲编码调制数据，调用所述声纹提取模型基于所述用户声纹提取参数从所述第二脉冲编码调制数据中提取出用户通话声纹，将所述用户通话声纹编码为通话音频；

8.一种计算机设备，其特征在于，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至6中任意一项所述语音通话方法。

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任意一项所述语音通话方法。