CN115022108A

CN115022108A - 会议接入方法、装置、存储介质及电子设备

Info

Publication number: CN115022108A
Application number: CN202210677939.6A
Authority: CN
Inventors: 孙焕棠
Original assignee: Shenzhen Huantai Technology Co Ltd
Current assignee: Shenzhen Huantai Technology Co Ltd
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2022-09-06

Abstract

本申请实施例公开了一种会议接入方法、装置、存储介质及电子设备，该方法包括：会议接入终端通过声音采集模块采集会议邀请终端播放的音频信号，该音频信号为会议邀请终端采用预定文本转声音方式对音视频会议的会议特征信息进行编码生成的音频信号；通过与预定文本转声音方式对应的解码方式，从音频信号中提取会议特征信息；根据会议特征信息，接入音视频会议。根据本申请实施例的技术方案，能够在没有有效通信连接的情况下，通过采集音频信号的方式高效便捷地接入音视频会议，提高接入会议的效率和准确性。

Description

会议接入方法、装置、存储介质及电子设备

技术领域

本申请涉及通信技术领域，尤其涉及一种会议接入方法、装置、存储介质及电子设备。

背景技术

随着互联网技术的发展，音视频会议系统的应用也越来越广泛。如何快速接入音视频会议成为了关注的焦点。

在一种技术方案中，当会议邀请终端创建了音视频会议后，将会议信息例如会议链接、会议号码和密码等通过网络通信例如即时通信工具、邮件、短信等通信方式分享给需要入会的其他人员。然而，在这种技术方案中，由于会议邀请终端与会议接收终端通过网络通信分享会议信息，在没有有效通信连接的情况下，无法直接分享会议信息，需要手动输入的方式接入音视频会议。

因此，如何在没有有效通信连接的情况下高效便捷地接入音视频会议成为了亟待解决的技术难题。

发明内容

本申请实施例提供了一种会议接入方法、装置、存储介质及电子设备，能够在没有有效通信连接的情况下，通过播放音频的方式高效便捷地接入音视频会议，提高接入会议的效率和准确性。上述技术方案如下：

第一方面，本申请实施例提供了一种会议接入方法，应用于会议接入终端，所述会议接入终端包括声音采集模块，所述方法包括：

通过所述声音采集模块采集会议邀请终端播放的音频信号，所述音频信号为所述会议邀请终端采用预定文本转声音方式对音视频会议的会议特征信息进行编码生成的音频信号；

通过与所述预定文本转声音方式对应的解码方式，从所述音频信号中提取所述会议特征信息；

根据所述会议特征信息，接入所述音视频会议。

第二方面，本申请实施例提供一种会议接入方法，应用于会议邀请终端，所述会议邀请终端包括声音播放模块，所述方法包括：

采用预定文本转声音方式对音视频会议的会议特征信息进行编码，生成所述会议特征信息对应的音频信号；

通过所述声音播放模块播放所述音频信号，以使会议接入终端基于所述音频信号接入所述音视频会议。

第三方面，本申请实施例提供一种会议接入装置，应用于会议接入终端，所述会议接入终端包括声音采集模块，所述装置包括：

音频信号获取模块，用于通过所述声音采集模块采集会议邀请终端播放的音频信号，所述音频信号为所述会议邀请终端采用预定文本转声音方式对音视频会议的会议特征信息进行编码生成的音频信号；

会议特征提取模块，用于通过与所述预定文本转声音方式对应的解码方式，从所述音频信号中提取所述会议特征信息；

会议接入模块，用于根据所述会议特征信息，接入所述音视频会议。

第四方面，本申请实施例提供一种会议接入装置，应用于会议邀请终端，所述会议邀请终端包括声音播放模块，所述装置包括：

文字转声音模块，用于采用预定文本转声音方式对音视频会议的会议特征信息进行编码，生成所述会议特征信息对应的音频信号；

会议信息分享模块，用于通过所述声音播放模块播放所述音频信号，以使会议接入终端基于所述音频信号接入所述音视频会议。

第五方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法的步骤。

第六方面，本申请实施例提供一种电子设备，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法的步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

一方面，通过会议接入终端的声音采集模块采集会议邀请终端播放的音频信号，从采集的音频信号中提取音视频会议的会议特征信息，能够通过播放音频的方式高效便捷地分享会议信息，从而能够实现在没有有效通信连接的情况下，将音视频会议的特征信息在不同设备间进行分享；另一方面，由于采用预定文本转声音方式对会议特征信息进行了编码，从而能够增加会议特征信息的安全性和隐私性；再一方面，会议接入终端根据提取的会议特征信息，接入音视频会议，能够在没有有效通信连接的情况下，通过采集音频信号的方式高效便捷地接入音视频会议，提高接入会议的效率和准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本申请实施例提供的会议接入方法的应用场景的示意图；

图2示出了根据本申请的一些实施例提供的会议接入方法的流程示意图；

图3示出了根据本申请的另一些实施例提供的声音增强处理的流程示意图；

图4示出了根据本申请的又一些实施例提供的会议接入方法的流程示意图；

图5示出了根据本申请的再一些实施例提供的会议接入方法的流程示意图；

图6示出了本申请实施例提供的一种会议接入装置的结构示意图；

图7示出了本申请实施例提供的一种会议接入装置的结构示意图；以及

图8示出了本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面，将结合附图对本申请实施例的会议接入方法的技术方案进行详细的说明。

图1示出了根据本申请实施例提供的会议接入方法的应用场景的示意图。

参照图1所示，该应用场景包括会议邀请终端110和会议接入终端120，终端110包括声音播放模块112和处理器114。在示例实施例中，处理器114被配置为采用预定文本转声音方式对音视频会议的会议特征信息进行编码，生成会议特征信息对应的音频信号。声音播放模块112是一种把电信号转变为音频信号的能量转换器件，声音播放模块112例如可以为扬声器，声音播放模块112用于播放会议特征信息对应的音频信号。

会议接入终端120包括声音采集模块122和处理器124。声音采集模块122是将音频信号转换为电信号的能量转换器件，声音采集模块122例如可以为麦克风。在示例实施例中，会议接入终端120通过声音采集模块122采集会议邀请终端110播放的音频信号，会议接入终端120通过处理器124通过与预定文本转声音方式对应的解码方式，从采集的音频信号中提取会议特征信息；根据该会议特征信息，接入音视频会议。

需要说明的是，上述会议邀请终端110和会议接入终端120可以包括智能手机、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、台式电脑、智能电视、可穿戴设备、车载设备等，在此不作限定。处理器114和处理器124可以包括一个或者多个处理核心，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行会议邀请终端110和会议接入终端120的各种功能和处理数据。

图2示出了根据本申请的一些实施例提供的会议接入方法的流程示意图。该会议接入方法的执行主体可以是具有计算处理功能的计算设备，例如终端设备。该会议接入方法包括步骤S210至步骤S250，下面，结合附图对示例实施例中的会议接入方法进行详细的说明。

参照图2所示，在步骤S210中，会议邀请终端采用预定文本转声音方式对音视频会议的会议特征信息进行编码，生成会议特征信息对应的音频信号。

在示例实施例中，音视频会议可以是由RTC(Real-Time Communication，实时通信)服务器创建的RTC音视频会议，例如RTC会议可以是基于WebRTC(Web Real-TimeCommunication，Web实时通信)创建RTC音视频会议。会议邀请终端可以包括但不限于智能手机、笔记本电脑、平板电脑、掌上电脑、台式电脑、智能电视、可穿戴设备、车载设备等。

进一步地，音视频会议的会议特征信息包括但不限于会议的链接、会议号码和会议密码、会议的主题、会议创建人中的一种或多种。预定文本转声音方式是将输入文本转换为声音的方式，预定文本转声音方式可以包括但不限于双音多频编码方式或语音合成模型等方式。会议邀请终端采用预定文本转声音方式对音视频会议的会议特征信息进行编码，生成会议特征信息对应的音频信号。

举例而言，设在音视频会议应用程序的会议邀请界面上设置声音分享控件，响应于对该声音分享控件的触发操作，将待分享的音视频会议的会议特征信息以预定文本转声音方式进行编码，生成会议特征信息对应的音频信号。

需要说明的是，音视频会议可以为远程会议中的音视频会议，也可以为直播平台的直播房间，还可以为其他适当的音视频会议例如远程医疗会议或远程教育课堂等，这同样在本申请实施例的范围内。预定文本转声音方式还可以包括其他适当的文本转声音方式例如音频拼接方式等，本实施例对此不进行特殊限定。

在步骤S220中，会议邀请终端通过声音播放模块播放会议特征信息对应的音频信号。

在示例实施例中，会议邀请终端包括声音播放模块，声音播放模块是一种把电信号转变为音频信号的能量转换器件，声音播放模块例如可以为扬声器。会议邀请终端通过声音播放模块播放会议特征信息对应的音频信号。

举例而言，设在音视频会议应用程序的会议邀请界面上设置声音播放控件，在将音视频会议的会议特征信息转换为对应的音频信号之后，响应于对该声音播放控件的触发操作，通过扬声器播放会议特征信息对应的音频信号。

在步骤S230中，会议接入终端通过声音采集模块采集会议邀请终端播放的音频信号。

在示例实施例中，声音采集模块是将音频信号转换为电信号的能量转换器件，声音采集模块例如可以为麦克风，麦克风的数量可以为一个或多个。会议接入终端可以包括但不限于智能手机、笔记本电脑、平板电脑、掌上电脑、台式电脑、智能电视、可穿戴设备、车载设备等。

进一步地，会议接入终端通过声音采集模块以预定频率例如22kHz采集会议邀请终端播放的音频信号。举例而言，设在音视频会议应用程序的会议接入界面上设置声音采集控件，响应于对该声音采集控件的触发操作，调用声音采集接口；通过所述声音采集接口，调用声音采集模块采集会议邀请终端播放的音频信号。

在步骤S240中，会议接入终端通过与预定文本转声音方式对应的解码方式，从采集的音频信号中提取会议特征信息。

在示例实施例中，预定文本转声音方式可以包括但不限于双音多频编码方式、音频拼接方式或语音合成模型等方式。会议接入终端通过与预定文本转声音方式对应的解码方式，从采集的音频信号中提取会议特征信息。

下面，对采用上述三种预定文本转声音方式对应的解码方式从音频信号中提取会议特征信息的实施过程进行详细的说明。

实施例一：

设预定文本转声音方式包括DTMF(Dual Tone Multi Frequency，双音多频)编码方式，也就是说，音频信号中每个音频对应一个频率组合，如下表1所示，0～9、*、#、A～D等16个字符，分别对应一个频率组合，例如1对应频率组合697Hz和1209Hz、2对应频率组合697Hz和1336Hz：

表1：字符与频率组合的对应关系

	1209Hz	1336Hz	1477Hz	1633Hz
					697Hz	1	2	3	A
770Hz	4	5	6	B
					852Hz	7	8	9	C
941Hz	*	0	#	D

音视频会议的会议特征信息例如会议号码和密码一般为数字，会议邀请终端通过DTMF编码方式将会议号码和密码编码成DTMF音频信号，然后播放信号，会议接入终端采集播放的音频信号，确定音频信号中各个音频对应的频率组合，例如通过格兹尔运算Goertzel algorithm确定音频信号中各个音频对应的频率组合；基于频率组合以及预定对应关系，确定音频信号中各个音频对应的字符，预定对应关系为频率组合与字符之间的对应关系，例如表1中的频率组合与字符的对应关系；基于音频信号中各个音频对应的字符，确定会议特征信息。

举例而言，设会议号码为135，将会议号码的DTMF音频信号划分为3个音频，确定3个音频对应的频率组合分别为697Hz和1209Hz、697Hz和1477Hz以及770Hz和1336Hz，根据上述表1中频率组合与字符的对应关系，确定DTMF音频信号中各个音频对应的字符分别为1、3、5，确定会议特征信息例如会议号为135。

实施例二：

设预定文本转声音方式包括：音频拼接方式。对音频信号进行音频划分，得到多个音频；将划分后的音频与音频库中的字符音频进行匹配，音频库中包括多个字符音频中各个字符音频与字符的对应关系；根据匹配结果确定多个音频中各个音频对应的字符；根据多个音频中各个音频对应的字符，确定会议特征信息。

实施例三：

设预定文本转声音方式包括：预定语音合成模型。将音频信号划分为多个音频帧，并提取各个音频帧的音频特征；基于各个音频特征通过声学模型对音频帧进行合并处理，生成对应的音素特征，例如将音频帧合并成声母和韵母等音素特征；对音素特征进行组合，确定音频信号对应的字符特征；基于音频信号对应的字符特征，将确定与音频信号对应的会议特征信息，该声学模型用于确定音频信号对应的字符特征。

举例而言，设会议特征信息包括会议号135，音频信号对应的音素特征为y、i、s、an、w、u，通过声学模型对音频信号对应的音素特征进行合并处理，生成音频信号对应的字符特征例如yi、san、wu，根据字符特征与字符的对应关系，确定与音频信号对应的会议特征信息例如会议号135。

在步骤S250中，会议接入终端根据会议特征信息，接入音视频会议。

在示例实施例中，会议特征信息包括会议号及会议密码，会议接入终端根据会议号和会议密码，接入对应的音视频会议。举例而言，会议接入终端将会议特征信息发送至音视频会议对应的服务器，服务器对该音视频会议对应的会议特征信息进行验证，若验证通过，则建立会议接入终端与服务器之间的通信连接，将会议接入终端加入该音视频会议。

根据图2的示例实施例中的技术方案，一方面，通过会议接入终端的声音采集模块采集会议邀请终端播放的音频信号，从采集的音频信号中提取音视频会议的会议特征信息，能够通过播放音频的方式高效便捷地分享会议信息，从而能够实现在没有有效通信连接的情况下，将音视频会议的特征信息在不同设备间进行分享；另一方面，由于采用预定文本转声音方式对会议特征信息进行了编码，从而能够增加会议特征信息的安全性和隐私性；再一方面，会议接入终端根据提取的会议特征信息，接入音视频会议，能够在没有有效通信连接的情况下，通过采集音频信号的方式高效便捷地接入音视频会议，提高接入会议的效率和准确性。

进一步地，在示例实施例中，在从音频信号中提取会议特征信息之前，确定会议接入终端所处的环境场景；根据环境场景对采集的音频信号进行声音增强处理。举例而言，在针对办公室等相对封闭的办公室场景，可以进行消混响处理；针对办公位等存在多人对话的对话场景，可以增加噪声抑制、背景人声消除等处理。

需要说明的是，虽然以办公室场景以及对话场景为例进行了说明，但是本领域技术人员应该理解的是，会议接入终端所处的环境场景也可以是其他适当的环境场景例如室外场景或车内场景等，这同样在本申请实施例的范围内。

根据上述示例实施例中的技术方案，根据会议接入终端所处的环境场景对采集的音频信号进行声音增强处理，能够降低音频信号中的噪声，提高声音识别的准确性。

图3示出了根据本申请的一些实施例提供的声音增强处理的流程示意图。

参照图3所示，在步骤S310中，通过背景噪声采集模块采集会议接入终端所处位置的背景噪声信号。

在示例实施例中，会议接入终端设置有麦克风整列，麦克风阵列包括多个麦克风，将麦克风阵列作为背景噪声采集模块，用于采集会议接入终端所处位置的背景噪声信号，例如在会议邀请终端播放音频信号时，通过麦克风阵列计算声源与麦克风阵列的距离和角度，将麦克风阵列中远离声源的麦克风采集背景噪声信号，靠近声源的麦克风用于采集会议邀请终端播放的音频信号。

在步骤S320中，基于背景噪声信号确定会议接入终端所处的环境场景。

在示例实施例中，根据背景噪声信号确定会议接入终端所处的环境场景，例如若背景噪声信号包含对话声音，则确定会议接入终端所处的环境场景为对话场景；若背景噪声包含回声，则确定会议接入终端所处的环境场景为办公室场景。

在步骤S330中，根据环境场景对采集的音频信号进行声音增强处理。

在示例实施例中，根据会议接入终端所处的环境场景对采集的音频信号进行声音增强处理。举例而言，预先设置不同的环境场景与滤波器的对应关系，根据会议终端所处的环境场景确定对应的滤波器，通过该滤波器对采集的音频信号进行滤波处理，例如封闭的办公室场景具有回声，设置对应的回声滤波器，对话场景包含人声对话，设置对应的人声滤波器。

根据图3所示的示例实施例中的技术方案，一方面，将麦克风阵列作为背景噪声采集模块采集背景噪声信号，基于背景噪声信号确定会议接入终端所处的环境场景，能够准确地确定会议接入终端所处的环境场景；另一方面，根据环境场景采用对应的滤波器对采集的音频信号进行声音增强处理，能够进一步降低音频信号中的噪声，提高声音识别的准确性。

图4示出了根据本申请的又一些实施例提供的会议接入方法的流程示意图。

参照图4所示，在步骤S410中，设备A创建或加入会议。

在示例实施例中，设备A创建或加入RTC音视频会议，例如RTC会议可以是基于WebRTC创建的RTC音视频会议。

在步骤S420中，将会议特征信息编码为音频文件。

在示例实施例中，设备A打开音视频会议的应用程序，将音视频会议的会议特征信息例如会议号和密码通过预定文本转声音方式编码成特定的音频信号。音频信号包括但不限于数字、字母、符号等的发音、DTMF音、超声波等音频形式。

预定文本转声音方式的编码/解码算法包括但不限于以下几种实例方法：

示例一：

预定文本转声音方式包括DTMF编码方式。采用DTMF编码，将会议号码和会议密码编译成特定音频信号。例如，DTMF编码中，0～9，*，#，A～D共16个字符中每个字符分别对应一个频率组合。

音视频会议的会议号码和密码一般多为数字，因此，可以直接使用DTMF编码方式将会议号码和密码编码成DTMF音频信号，然后在接收端采用格兹尔运算Goertzelalgorithm进行解码，重新获得对应的会议号码和密码。

此外，也可以参考DTMF编码方式将会议特征信息编码至其他频率组合，例如编码至超声波的频段。通过使用更多的频率组合，可以实现对更多字符的编码/解码。

示例二：

预定文本转声音方式包括：音频拼接方式。将每个字符分别对应一段特定长度、特定内容的音频，组成音频库，该音频库包括各个字符音频与字符的对应关系。会议邀请终端从音频库中获取会议特征信息中各个字符对应的音频，将各个字符对应的音频拼接为会议特征信息对应的音频信号，播放会议特征信息对应的音频信息。在会议接入终端将接收到的音频信号中的各个音频分别与音频库中的音频进行匹配，根据匹配结果确定音频信号中各个音频对应的字符，根据音频信号中各个音频对应的字符确定会议特征信息。

示例三：

预定文本转声音方式包括：预定语音合成模型。会议邀请终端将会议特征信息使用预定语音合成模型生成音频信号，预定语音合成模型用于将会议特征信息的字符序列转换成对应的音素序列，基于音素序列通过语音合成器例如声码器生成对应的音频信号。在会议接收终端可以使用语音识别技术将音频信号解码为对应的会议特征信息。

举例而言，会议邀请终端将会议特征信息输入预定语音合成模型，生成会议特征信息对应的音频信号，会议接入终端将音频信号划分为多个音频帧，并提取各个音频帧的音频特征；基于各个音频特征通过声学模型对音频帧进行合并处理，生成对应的音素特征，例如将音频帧合并成声母和韵母等音素特征；对音素特征进行组合，确定音频信号对应的字符特征；基于音频信号对应的字符特征，将确定与音频信号对应的会议特征信息，该声学模型用于确定音频信号对应的字符特征。

在步骤S430中，通过扬声器播放编码后的音频文件。

在示例实施例中，设备A通过外放设备例如扬声器，将产生的音频文件进行播放。

在步骤S440中，通过麦克风采集音频信号。

在示例实施例中，设备B为需要加入音视频会议的其他设备，设备B可以是一个，也可以是多个。设备B通过音视频会议的应用程序打开麦克风，采集所处空间内的声音信号。

进一步地，为了提高音频解析时的准确率，可以在麦克风采集到音频信号后，对音频信号进行语音增强处理，例如：在针对办公室等相对封闭的办公室场景，可以进行消混响处理；针对办公位等存在多人对话的对话场景，可以增加噪声抑制、背景人声消除等处理。

在步骤S450中，解码音频文件，提取会议特征信息

在示例实施例中，设备B的音视频会议应用程序调用与预定文本转声音方式对应的解码算法，将采集到的音频信号进行反向处理，提取出会议特征信息。

在步骤S460中，通过会议特征信息加入会议。

在示例实施例中，设备B根据获取到的会议特征信息，调用加入音视频会议的会议接入接口，实现自动加入音视频会议。

根据图4的示例实施例中的技术方案，一方面，通过会议接入终端的声音采集模块采集会议邀请终端播放的音频信号，从采集的音频信号中提取音视频会议的会议特征信息，能够通过播放音频的方式高效便捷地分享会议信息，从而能够实现在没有有效通信连接的情况下，将音视频会议的特征信息在不同设备间进行分享；另一方面，由于采用预定文本转声音方式对会议特征信息进行了编码，从而能够增加会议特征信息的安全性和隐私性；再一方面，会议接入终端根据提取的会议特征信息，接入音视频会议，能够在无法直接进行TCP/IP通信的场景下，通过采集音频信号的方式高效便捷地接入音视频会议，提高接入会议的效率和准确性。

图5示出了根据本申请的再一些实施例提供的会议接入方法的流程示意图。该会议接入方法的执行主体可以是具有计算处理功能的计算设备，例如会议邀请终端，该会议邀请终端包括声音播放模块。该会议接入方法包括步骤S510至步骤S520，下面，结合附图对示例实施例中的会议接入方法进行详细的说明。

参照图5所示，在步骤S510中，采用预定文本转声音方式对音视频会议的会议特征信息进行编码，生成所述会议特征信息对应的音频信号；

在步骤S520中，通过所述声音播放模块播放所述音频信号，以使会议接入终端基于所述音频信号接入所述音视频会议。

根据图5的示例实施例中的技术方案，一方面，由于采用预定文本转声音方式对会议特征信息进行了编码，从而能够增加会议特征信息的安全性和隐私性；另一方面，通过声音播放模块播放会议特征信息对应的音频信号，能够通过播放音频的方式高效便捷地分享会议信息，从而能够实现在没有有效通信连接的情况下，将音视频会议的特征信息在不同设备间进行分享；再一方面，会议接入终端根据提取的会议特征信息，接入音视频会议，能够在没有有效通信连接的情况下，通过采集音频信号的方式高效便捷地接入音视频会议，提高接入会议的效率和准确性。

在示例实施例中，基于上述方案，所述预定文本转声音方式包括双音多频编码方式，所述采用预定文本转声音方式对音视频会议的会议特征信息进行编码，生成所述会议特征信息对应的音频信号，包括：

基于预定对应关系，确定所述会议特征信息中各个字符对应的频率组合，所述预定对应关系为所述频率组合与所述字符之间的对应关系；

所述会议特征信息中各个字符对应的频率组合，生成所述会议特征信息对应的音频信号。

在示例实施例中，基于上述方案，所述预定文本转声音方式包括：音频拼接方式，所述采用预定文本转声音方式对音视频会议的会议特征信息进行编码，生成所述会议特征信息对应的音频信号，包括：

从音频库中获取会议特征信息中各个字符对应的音频，所述音频库中包括多个字符音频中各个字符音频与字符的对应关系；

将各个字符对应的音频拼接为所述会议特征信息对应的音频信号。

在示例实施例中，基于上述方案，所述预定文本转声音方式包括：预定语音合成模型，所述采用预定文本转声音方式对音视频会议的会议特征信息进行编码，生成所述会议特征信息对应的音频信号，包括：

通过所述预定语音合成模型将会议特征信息的字符序列转换成对应的音素序列；

基于所述会议特征信息的字符序列对应的音素序列，生成所述会议特征信息对应的音频信号。

需要说明的是，图5中的上述实施例提供的会议接入方法与图2至图4中的会议接入方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图6示出了本申请一个示例性实施例提供的会议接入装置的结构示意图。

参照图6所示，该会议接入装置600可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分，该会议接入装置600应用于会议接入终端，会议接入终端包括声音采集模块。该会议接入装置600包括音频信号获取模块610、会议特征提取模块620以及会议接入模块630。其中：

音频信号获取模块610，用于通过所述声音采集模块采集会议邀请终端播放的音频信号，所述音频信号为所述会议邀请终端采用预定文本转声音方式对音视频会议的会议特征信息进行编码生成的音频信号；

会议特征提取模块620，用于通过与所述预定文本转声音方式对应的解码方式，从所述音频信号中提取所述会议特征信息；

会议接入模块630，用于根据所述会议特征信息，接入所述音视频会议。

在一些示例实施例中，基于上述方案，所述预定文本转声音方式包括双音多频编码方式，所述会议特征提取模块620被配置为：

确定所述音频信号中各个音频对应的频率组合；

基于所述频率组合以及预定对应关系，确定所述音频信号中各个音频对应的字符，所述预定对应关系为所述频率组合与所述字符之间的对应关系；

基于所述音频信号中各个音频对应的字符，确定所述会议特征信息。

在一些示例实施例中，基于上述方案，所述预定文本转声音方式包括：音频拼接方式，所述会议特征提取模块620被配置为：

对所述音频信号进行音频划分，得到多个音频；

将所述音频与音频库中的字符音频进行匹配，所述音频库中包括多个字符音频中各个字符音频与字符的对应关系；

根据匹配结果确定所述多个音频中各个音频对应的字符；

根据所述多个音频中各个音频对应的字符，确定所述会议特征信息。

在一些示例实施例中，基于上述方案，所述预定文本转声音方式包括：预定语音合成模型，所述会议特征提取模块620被配置为：

将所述音频信号划分为多个音频帧，并提取各个所述音频帧的音频特征；

基于所述音频特征对所述多个音频帧进行合并处理，生成对应的音素特征；

对所述音素特征进行组合，确定所述音频信号对应的字符特征；

基于所述音频信号对应的字符特征，确定与所述音频信号对应的会议特征信息。

在一些示例实施例中，基于上述方案，在所述从所述音频信号中提取所述会议特征信息之前，所述装置还包括：

场景确定模块，用于确定所述会议接入终端所处的环境场景；

增强处理模块，用于根据所述环境场景对采集的所述音频信号进行声音增强处理。

在一些示例实施例中，基于上述方案，所述会议接入终端包括背景噪声采集模块，所述场景确定模块被配置为：

通过所述背景噪声采集模块采集所述会议接入终端所处位置的背景噪声信号；

基于所述背景噪声信号确定所述会议接入终端所处的环境场景。

在一些示例实施例中，基于上述方案，所述音频信号获取模块610被配置为：

响应于对会议接入界面上设置的声音采集控件的触发操作，调用声音采集接口；

通过所述声音采集接口，调用所述声音采集模块采集会议邀请终端播放的音频信号。

图7示出了本申请另一示例性实施例提供的会议接入装置的结构示意图。

参照图7所示，该会议接入装置700可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分，该会议接入装置700应用于会议邀请终端，会议邀请终端包括声音播放模块。该会议接入装置700包括：文字转声音模块710以及会议信息分享模块720。

其中，文字转声音模块710，用于采用预定文本转声音方式对音视频会议的会议特征信息进行编码，生成所述会议特征信息对应的音频信号；

会议信息分享模块720，用于通过所述声音播放模块播放所述音频信号，以使会议接入终端基于所述音频信号接入所述音视频会议。

在示例实施例中，基于上述方案，所述预定文本转声音方式包括双音多频编码方式，所述文字转声音模块710被配置为：

在示例实施例中，基于上述方案，所述预定文本转声音方式包括：音频拼接方式，所述文字转声音模块710被配置为：

在示例实施例中，基于上述方案，所述预定文本转声音方式包括：预定语音合成模型，所述文字转声音模块710被配置为：

需要说明的是，上述实施例提供的会议接入装置在执行会议接入方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

另外，上述实施例提供的会议接入装置与会议接入方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述实施例的所述会议接入方法，具体执行过程可以参见上述实施例的具体说明，在此不进行赘述。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行如上述实施例的所述会议接入方法，具体执行过程可以参见上述实施例的具体说明，在此不进行赘述。

本申请实施例还提供一种芯片，该芯片被配置成执行如上述实施例的所述会议接入方法，具体执行过程可以参见上述实施例的具体说明，在此不进行赘述。

此外，请参见图8，为本申请实施例提供了一种电子设备的结构示意图。如图8所示，所述电子设备800可以包括：至少一个处理器801，至少一个通信模块804，输入输出接口803，存储器805，至少一个通信总线802。

其中，通信总线802用于实现这些组件之间的连接通信。

其中，输入输出接口803可以包括显示屏(Display)、摄像头(Camera)，可选输入输出接口803还可以包括标准的有线接口、无线接口。

其中，通信模块804可选的可以包括标准的有线接口、无线接口(如WIFI接口)。

其中，处理器801可以包括一个或者多个处理核心。处理器801利用各种借口和线路连接整个电子设备800内的各个部分，通过运行或执行存储在存储器805内的指令、程序、代码集或指令集，以及调用存储在存储器805内的数据，执行电子设备800的各种功能和处理数据。可选的，处理器801可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器801可集成中央处理器(Central Processing Unit，CPU)、图形处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器801中，单独通过一块芯片进行实现。

其中，存储器805可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器805包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器805可用于存储指令、程序、代码、代码集或指令集。存储器805可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器805可选的还可以是至少一个位于远离前述处理器801的存储装置。如图8所示，作为一种计算机存储介质的存储器805中可以包括操作系统、通信模块、输入输出接口模块以及会议接入程序。

在图8所示的电子设备800中，输入输出接口803主要用于为用户提供输入的接口，获取用户输入的数据；而处理器801可以用于调用存储器805中存储的会议接入程序，使得处理器801执行根据本公开各种示例性实施例的会议接入方法中的步骤。例如，处理器801可以执行如图2中所示的步骤：步骤S210，会议邀请终端采用预定文本转声音方式对音视频会议的会议特征信息进行编码，生成会议特征信息对应的音频信号；步骤S220，通过声音播放模块播放会议特征信息对应的音频信号；步骤S230，会议接入终端通过声音采集模块采集会议邀请终端播放的音频信号；在步骤S240中，会议接入终端通过与预定文本转声音方式对应的解码方式，从采集的音频信号中提取会议特征信息；在步骤S250中，会议接入终端根据会议特征信息，接入音视频会议。

上述为本说明书实施例的一种电子设备的示意性方案，该电子设备可以为智能手机，也可以为其他适当的设备例如平板电脑、笔记本电脑等。需要说明的是，该电子设备的技术方案与上述的会议接入处理方法的技术方案属于同一构思，电子设备的技术方案未详细描述的细节内容，均可以参见上述会议接入处理方法的技术方案的描述。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本申请的描述中，需要说明的是，除非另有明确的规定和限定，“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种会议接入方法，其特征在于，应用于会议接入终端，所述会议接入终端包括声音采集模块，所述方法包括：

根据所述会议特征信息，接入所述音视频会议。

2.根据权利要求1所述的方法，其特征在于，所述预定文本转声音方式包括双音多频编码方式，所述通过与所述预定文本转声音方式对应的解码方式，从所述音频信号中提取所述会议特征信息，包括：

确定所述音频信号中各个音频对应的频率组合；

3.根据权利要求1所述的方法，其特征在于，所述预定文本转声音方式包括：音频拼接方式，所述通过与所述预定文本转声音方式对应的解码方式，从所述音频信号中提取所述会议特征信息，包括：

对所述音频信号进行音频划分，得到多个音频；

根据匹配结果确定所述多个音频中各个音频对应的字符；

4.根据权利要求1所述的方法，其特征在于，所述预定文本转声音方式包括：预定语音合成模型，所述通过与所述预定文本转声音方式对应的解码方式，从所述音频信号中提取所述会议特征信息，包括：

5.根据权利要求1所述的方法，其特征在于，在所述从所述音频信号中提取所述会议特征信息之前，所述方法还包括：

确定所述会议接入终端所处的环境场景；

根据所述环境场景对采集的所述音频信号进行声音增强处理。

6.根据权利要求5所述的方法，其特征在于，所述会议接入终端包括背景噪声采集模块，所述确定所述会议接入终端所处的环境场景，包括：

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述通过所述声音采集模块采集会议邀请终端播放的音频信号，包括：

8.一种会议接入方法，其特征在于，应用于会议邀请终端，所述会议邀请终端包括声音播放模块，所述方法包括：

9.一种会议接入装置，其特征在于，应用于会议接入终端，所述会议接入终端包括声音采集模块，所述装置包括：

10.一种会议接入装置，其特征在于，应用于会议邀请终端，所述会议邀请终端包括声音播放模块，所述装置包括：

11.一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1至8中任一项所述方法的步骤。

12.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1至8中任一项所述方法的步骤。