CN111405122A - 音频通话测试方法、装置及存储介质 - Google Patents
音频通话测试方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111405122A CN111405122A CN202010190139.2A CN202010190139A CN111405122A CN 111405122 A CN111405122 A CN 111405122A CN 202010190139 A CN202010190139 A CN 202010190139A CN 111405122 A CN111405122 A CN 111405122A
- Authority
- CN
- China
- Prior art keywords
- audio
- test
- component
- sending
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/2236—Quality of speech transmission monitoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/22—Arrangements for supervision, monitoring or testing
- H04M3/26—Arrangements for supervision, monitoring or testing with means for applying test signals or for measuring
- H04M3/28—Automatic routine testing ; Fault testing; Installation testing; Test methods, test equipment or test arrangements therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
Abstract
本申请涉及一种音频通话测试方法、装置及存储介质,属于计算机技术领域,该方法包括:控制音频发送组件和音频接收组件分别与音频控制组件建立通信连接;控制音频发送组件向音频控制组件发送测试音频,以使音频控制组件将各个音频发送组件发送的测试音频进行混音,并将混音后的测试音频转发至音频接收组件;控制音频接收组件接收音频控制组件发送的混音后的测试音频;并对混音后的测试音频进行音频识别得到音频测试结果;可以解决人工测试MCU的语音通话功能的效率较低且结果不准确的问题;可以提高音频通话功能的测试效率和测试结果的准确性。
Description
技术领域
本申请涉及一种音频通话测试方法、装置及存储介质,属于计算机技术领域。
背景技术
视频会议系统(又称会议电视系统)是指两个或两个以上不同地方的个人或群体,通过传输线路及多媒体设备将声音、影像及文件资料互传,实现即时且互动的沟通,以实现远程会议的系统设备。视频会议过程中除了既能看到参会人员,还能供参会人员进行语言交流,使处于不同地方的人就像在同一会议室内沟通。
在视频会议开启前需要对视频会议系统中的多点控制单元(Multi ControlUnit,MCU)的音频通话功能进行测试,比如:对MCU的混音功能、接通通话的功能进行测试。
传统的对MCU进行音频通话功能测试的方法包括:通过接入MCU的终端输出音频信息,供人耳主观听,以供测试人员通过音频信息的质量主观判断MCU的音频通话功能是否正常。
然而,通过人工测试MCU的语音通话功能时,不同测试人员的测试结果可能存在不同,存在测试不准确且效率较低的问题。
发明内容
本申请提供了一种音频通话测试方法、装置及存储介质,可以解决人工测试MCU的语音通话功能的效率较低且结果不准确的问题。本申请提供如下技术方案:
第一方面,提供了一种音频通话测试方法,所述方法包括:
控制音频发送组件和音频接收组件分别与音频控制组件建立通信连接,所述音频发送组件和所述音频接收组件用于测试所述音频控制组件的混音接话功能;
控制所述音频发送组件向所述音频控制组件发送测试音频,以使所述音频控制组件将各个音频发送组件发送的测试音频进行混音,并将混音后的测试音频转发至所述音频接收组件;
控制所述音频接收组件接收所述音频控制组件发送的混音后的测试音频;并对所述混音后的测试音频进行音频识别得到音频测试结果。
可选地,所述音频发送组件的数量为n个,所述n为大于1的整数;所述测试音频包括语音测试音频;所述控制所述音频发送组件向所述音频控制组件发送测试音频,包括:
控制所述n个音频发送组件依次向所述音频控制组件发送所述语音测试音频。
可选地,所述音频发送组件为虚拟终端,n个虚拟终端运行于同一设备中。
可选地,测试音频还包括静音测试音频;所述控制所述n个音频发送组件依次向所述音频控制组件发送所述语音测试音频,包括:
控制每个音频发送组件向所述音频控制组件发送所述静音测试音频;
获取第k个音频发送组件的第一音频切换指令,所述k依次取1至n的整数;
基于所述第一音频切换指令控制所述第k个音频发送组件停止发送所述静音测试音频、并开始发送所述语音测试音频。
可选地,所述基于所述第一音频切换指令控制所述第k个音频发送组件停止发送所述静音测试音频、并开始发送所述语音测试音频之后,还包括:
获取第k个音频发送组件的第二音频切换指令;
基于所述第二音频切换指令控制所述第k个音频发送组件停止发送所述语音测试音频、并开始发送所述静音测试音频。
可选地,所述获取第k个音频发送组件的第一音频切换指令,包括:
在所述第k个音频发送组件发送所述静音测试音频的时长达到预设时长时,生成所述第一音频切换指令,不同音频发送组件对应的预设时长不同;
或者,
接收服务器发送的第一音频切换指令,所述服务器用于控制所述n个音频发送组件。
可选地,所述获取第k个音频发送组件的第二音频切换指令,包括:
在所述第k个音频发送组件将全部的语音测试音频发送完成时,生成所述第二音频切换指令;
或者,
接收服务器发送的第二音频切换指令,所述服务器用于控制所述n个音频发送组件。
可选地,所述对所述混音后的测试音频进行音频识别得到音频测试结果,包括:
获取预先训练的音频识别模型,所述音频识别模型用于将音频信号识别为对应的文本信息,所述音频识别模型是使用语音训练集进行训练得到的;
基于所述音频识别模型对所述混音后的测试音频进行音频识别,得到所述音频测试结果。
可选地,所述获取预先训练的音频识别模型,包括:
获取所述语音训练集,所述语音训练集包括多组语音样本数据,每组语音样本数据包括语音数据和所述语音数据对应的期望文本数据,所述语音数据对应的期望文本数据的字符数量小于预设阈值;
获取神经网络模型,所述神经网络模型的网络结构与所述音频识别模型的网络结构相同;
将所述语音训练集中的语音数据输入所述神经网络模型,得到模型输出结果;
基于所述模型输出结果与所述语音数据对应的期望文本数据之间的差异训练所述神经网络模型,得到所述音频识别模型。
可选地,所述语音训练集包括与所述音频发送组件发送的测试音频相同的语音数据,不同音频发送组件发送的测试音频不同。
可选地,所述音频接收组件为安装有声卡的实体终端,所述控制音频接收组件接收所述音频控制组件发送的测试音频,包括:
通过所述实体终端的声卡实时采集所述测试音频。
第二方面,提供了一种音频通话测试装置,所述装置包括:
通信建立模块,用于控制音频发送组件和音频接收组件分别与音频控制组件建立通信连接,所述音频发送组件和所述音频接收组件用于测试所述音频控制组件的混音接话功能;
音频发送模块,用于控制所述音频发送组件向所述音频控制组件发送测试音频,以使所述音频控制组件将各个音频发送组件发送的测试音频进行混音,并将混音后的测试音频转发至所述音频接收组件;
音频识别模块,用于控制所述音频接收组件接收所述音频控制组件发送的混音后的测试音频;并对所述混音后的测试音频进行音频识别得到音频测试结果。
第三方面,提供一种音频通话测试装置,所述装置包括处理器和存储器;所述存储器中存储有程序,所述程序由所述处理器加载并执行以实现第一方面所述的音频通话测试方法。
第四方面,提供一种计算机可读存储介质,所述存储介质中存储有程序,所述程序由所述处理器加载并执行以实现第一方面所述的音频通话测试方法。
本申请的有益效果在于:通过控制音频发送组件和音频接收组件分别与音频控制组件建立通信连接;控制音频发送组件向音频控制组件发送测试音频,以使音频控制组件将各个音频发送组件发送的测试音频进行混音,并将混音后的测试音频转发至音频接收组件;控制音频接收组件接收音频控制组件发送的混音后的测试音频;并对混音后的测试音频进行音频识别得到音频测试结果;可以解决人工测试MCU的语音通话功能的效率较低且结果不准确的问题;由于可以通过控制音频发送组件和音频接收组件自动化地对音频控制组件的音频通话功能进行测试,无需人工参与,因此,可以提高音频通话功能的测试效率。另外,由于通过音频发送组件发送测试音频,通过音频接收组件接收音频控制组件转发的混音后的测试音频,可以实现模拟真实语音通话场景对混音通话功能的测试,因此,可以提高测试结果的准确性。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,并可依照说明书的内容予以实施,以下以本申请的较佳实施例并配合附图详细说明如后。
附图说明
图1是本申请一个实施例提供的音频通话测试系统的结构示意图;
图2是本申请一个实施例提供的音频通话测试方法的流程图;
图3是本申请一个实施例提供的测试音频切换的示意图;
图4是本申请一个实施例提供的音频识别模型中神经元的输入和输出的示意图;
图5是本申请一个实施例提供的音频通话测试装置的框图;
图6是本申请一个实施例提供的音频通话测试装置的框图。
具体实施方式
下面结合附图和实施例,对本申请的具体实施方式作进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。
图1是本申请一个实施例提供的音频通话测试系统的结构示意图,如图1所示,该系统至少包括:音频通话测试装置110和音频控制组件120。
可选地,音频通话测试装置110可以为计算机、平板电脑、个人计算机、手机等具有处理和通信能力的电子设备。
音频通话测试装置110用于测试音频控制组件120的音频通话能力,该音频通话能力包括混音接话功能。音频通话测试装置110上运行有音频发送组件,以通过该音频发送组件模拟真实音频通话者发送音频数据。音频通话测试装置110上运行有音频接收组件,以通过该音频接收组件接收将该音频发送组件发送的音频数据进行混音后输出的混音后的音频数据。音频发送组件和音频接收组件用于测试音频控制组件120的混音接话功能。
可选地,音频发送组件和音频接收组件可以运行于同一音频通话测试装置110中;或者,运行于不同的音频通话测试装置110中。
本申请中,以音频发送组件和音频接收组件运行于同一音频通话测试装置110中为例。此时,音频发送组件为运行于音频通话测试装置中的至少一个虚拟终端;音频接收组件为音频通话测试装置本身,该音频通话测试装置为安装有声卡的实体终端。声卡用于实时采集音频数据。
具体地,音频通话测试装置110用于:控制音频发送组件和音频接收组件分别与音频控制组件建立通信连接;控制音频发送组件向音频控制组件发送测试音频,以使音频控制组件将将各个音频发送组件发送的测试音频进行混音,并将混音后的测试音频转发至音频接收组件;控制音频接收组件接收音频控制组件发送的混音后的测试音频;并对该混音后的测试音频进行音频识别得到音频测试结果。
其中,音频测试结果包括测试音频对应的文本数据。这样,测试人员根据该文本数据是否与测试音频的原始文本数据一致,即可确定出音频控制组件的音频通话能力。
音频通话测试装置110控制音频发送组件和音频接收组件分别与音频控制组件建立通信连接,包括:音频控制组件120使用自动呼叫功能呼入音频发送组件和音频接收组件。
音频控制组件120用于为通话终端提供语音通话服务。比如:音频控制组件120为运行有多点控制单元(Multi Control Unit,MCU)的设备,此时,音频控制组件120用于提供视频会议服务。视频会议服务包括接通视频会议的过程(即接话)、和对视频会议过程中产生的音频数据进行混音的过程(即混音)。
需要补充说明的是,图1中仅以音频控制组件120的数量为一个为例进行说明,在实际实现时,音频控制组件120的数量可以为多个。
图2是本申请一个实施例提供的音频通话测试方法的流程图,本实施例以该方法应用于图1所示的音频通话测试系统中,且各个步骤的执行主体为该系统中的音频通话测试装置110为例进行说明。该方法至少包括以下几个步骤:
步骤201,控制音频发送组件和音频接收组件分别与音频控制组件建立通信连接。
可选地,音频控制组件使用自动呼叫功能呼入音频发送组件和音频接收组件。在一个示例中,音频控制组件通过MCU开启视频会议,使用自动呼叫功能呼入音频发送组件和音频接收组件。
音频发送组件和音频接收组件用于测试音频控制组件的混音接话功能。
步骤202,控制音频发送组件向音频控制组件发送测试音频,以使音频控制组件将各个音频发送组件发送的测试音频进行混音,并将混音后的测试音频转发至音频接收组件。
音频发送组件的数量为n个;测试音频包括语音测试音频;控制音频发送组件向音频控制组件发送测试音频,包括:控制n个音频发送组件依次向音频控制组件发送语音测试音频。n为大于1的整数。
语音测试音频用于模拟视频会议过程中正在发言的用户所产生的音频数据。
在实际的语音通话场景中,通常是一个语音通话者讲话时,其它语音通话者保持安静。因此,为了更好地模拟实际的语音通话场景,测试音频还包括静音测试音频,以使用该静音测试音频模拟语音通话者保持安静时对应的通话设备发送的音频信息。其中,静音测试音频用于模拟视频会议过程中未发言的用户所产生的音频数据。可选地,静音测试音频为一段平均分贝数低于语音测试音频的平均分贝数的噪声音频,静音测试音频不存在对应的文字数据,本实施例不对静音测试音频的生成方式作限定。
在测试音频包括语音测试音频和静音测试音频时,控制n个音频发送组件依次向音频控制组件发送语音测试音频,包括:控制每个音频发送组件向音频控制组件发送静音测试音频;获取第k个音频发送组件的第一音频切换指令,k依次取1至n的整数;基于第一音频切换指令控制第k个音频发送组件停止发送静音测试音频、并开始发送语音测试音频。
可选地,基于第一音频切换指令控制第k个音频发送组件停止发送静音测试音频、并开始发送语音测试音频之后,还包括:获取第k个音频发送组件的第二音频切换指令;基于第二音频切换指令控制第k个音频发送组件停止发送语音测试音频、并开始发送静音测试音频。
获取第k个音频发送组件的第一音频切换指令,包括:在第k个音频发送组件发送静音测试音频的时长达到预设时长时,生成第一音频切换指令;或者,接收服务器发送的第一音频切换指令。不同音频发送组件对应的预设时长不同。可选地,不同音频发送组件对应的预设时长使得在同一时刻内,仅存在一个音频发送组件发送语音测试音频、其它音频发送组件均发送静音测试音频。
可选地,服务器发送的第一音频切换指令可以是用户触发的;或者,是第k个音频发送组件发送静音测试音频的时长达到预设时长时生成的,本实施例不对服务器生成第一音频切换指令的方式作限定。
获取第k个音频发送组件的第二音频切换指令,包括:在第k个音频发送组件将全部的语音测试音频发送完成时,生成第二音频切换指令;或者,接收服务器发送的第二音频切换指令。
可选地,服务器发送的第二音频切换指令可以是用户触发的;或者,是第k个音频发送组件发送全部的语音测试音频完成时生成的,本实施例不对服务器生成第二音频切换指令的方式作限定。
在一个示例中,第二音频切换指令可以是第k+1个音频发送组件的第一音频切换指令。即,第二音频切换指令既用于控制第k个音频发送组件从发送语音测试音频切换至发送静音测试音频;又用于控制第k+1个音频发送组件从发送静音测试音频切换至发送语音测试音频。
服务器用于控制n个音频发送组件(比如:控制n个音频发送组件进行语音测试音频和静音测试音频的切换)。可选地,服务器运行于音频通话测试装置中。
可选地,参考图3,音频通话测试装置中运行服务器,服务器用于控制n个音频发送组件依次向音频控制组件发送语音测试音频。控制过程包括:1、服务器控制n个音频发送组件向音频控制组件发送静音测试音频;2、服务器生成并发送第一音频切换指令至第一个音频发送组件;控制第一个音频发送组件向音频控制组件发送语音测试音频、停止向音频控制组件发送静音测试音频,同时控制其它音频发送组件仍然发送静音测试音频;3、在第一个音频发送组件发送语音测试音频完成后,服务器生成第二音频切换指令,控制第一个音频发送组件向音频控制组件发送静音测试音频,停止向音频发送语音测试音频;4、在第一个音频发送组件由发送语音测试音频切换至静音测试视频后,服务器向第二个音频发送组件发送第一音频切换指令;控制第二个音频发送组件向音频控制组件发送语音测试音频、停止向音频控制组件发送静音测试音频,同时控制其它音频发送组件仍然发送静音测试音频;5、在第二个音频发送组件发送语音测试音频完成后,服务器生成第二音频切换指令,控制第二个音频发送组件向音频控制组件发送静音测试音频,停止向音频发送语音测试音频;如此循环,直至第n个音频发送组件发送语音测试音频完成后停止,或者,控制n个音频发送组件发送语音测试音频的循环次数达到预设次数时停止。其中,虚线箭头表示:服务器控制各虚拟终端发送次序以及各虚拟终端音频源的切换;实线箭头表示:前一个虚拟终端音频切换播放完成后切换至下一个虚拟终端进行音频切换播放。
在其它实施例中,音频通话测试装置也可以控制n个音频发送组件中的多个音频发送组件同时向音频控制组件发送语音测试音频。在其它实施方式中,音频通话装置也可以随机控制n个音频发送组件向音频控制组件发送语音测试音频。
可选地,音频发送组件为虚拟终端,n个虚拟终端运行于同一设备中。
步骤203,控制音频接收组件接收音频控制组件发送的混音后的测试音频;并对混音后的测试音频进行音频识别得到音频测试结果。
可选地,音频接收组件为安装有声卡的实体终端,音频接收组件通过实体终端的声卡实时采集测试音频。
可选地,对混音后的测试音频进行音频识别得到音频测试结果,包括:获取预先训练的音频识别模型,音频识别模型用于将音频信号识别为对应的文本信息,音频识别模型是使用语音训练集进行训练得到的;基于音频识别模型对混音后的测试音频进行音频识别,得到音频测试结果。
可选地,音频识别模型是基于神经网络模型建立的。参考图4所示的音频识别模型中每个神经元的输入及输出的示意图,神经元接收上一层多个神经元输出的结果x1-xn,每个神经元输出的结果与对应的权重w1-wn相乘后输入该神经元,神经元计算后经过激发函数(或称激活函数、激励函数)输出,得到该神经元的输出结果。其中,激发函数是指上层节点的输出和下层节点的输入之间的函数关系。激发函数可以是sigmoid函数或者tanh函数等,本实施例不对激发函数的类型作限定。Σ表示神经元的阈值。
获取预先训练的音频识别模型包括:读取预先存储的音频识别模型;或者,使用语音训练集对神经网络模型进行训练,得到音频识别模型。其中,神经网络模型的网络结构与音频识别模型的网络结构相同。
在一个示例中,使用语音训练集对神经网络模型进行训练,得到音频识别模型,包括:获取语音训练集,该语音训练集包括多组语音样本数据;获取神经网络模型;将语音训练集中的语音数据输入神经网络模型,得到模型输出结果;基于模型输出结果与语音数据对应的期望文本数据之间的差异训练神经网络模型,得到音频识别模型。
可选地,每组语音样本数据包括语音数据和语音数据对应的期望文本数据,语音数据对应的期望文本数据的字符数量小于预设阈值。每组语音样本数据中的语音数据和语音通话测试时使用的语音测试音频为相同的语音内容,且语音文字量少,具有很高的识别率。由于传统的语音识别方式大都是前后字连贯识别,对多个字识别率相对较高,但较少的语音文字因缺少前后连贯所以识别率较低,且识别的字越少性能消耗就越低。因此,相较于传统的语音识别方式来说,设备消耗更少、语音识别准确率更高。
其中,预设阈值的取值较小,可以为5、3等,本实施例不对预设阈值的取值作限定。
可选地,语音训练集包括与音频发送组件发送的测试音频相同的语音数据,不同音频发送组件发送的测试音频不同。由于通过使用与测试音频相同的语音数据来训练神经网络模型,可以保证训练得到的音频识别模型识别混音后的测试音频的准确率较高。不同音频发送组件发送的测试音频不同,以便于音频识别模型能够根据音频识别结果判断当前发送语音测试音频的音频发送组件,便于在音频识别结果为音频识别失败时,判断是否为当前音频发送组件的原因导致,排除音频发送组件对测试结果的影响,提高对音频控制组件的混音接话功能测试的准确性。
综上所述,本实施例提供的音频通话测试方法,通过控制音频发送组件和音频接收组件分别与音频控制组件建立通信连接;控制音频发送组件向音频控制组件发送测试音频,以使音频控制组件将各个音频发送组件发送的测试音频进行混音,并将混音后的测试音频转发至音频接收组件;控制音频接收组件接收音频控制组件发送的混音后的测试音频;并对混音后的测试音频进行音频识别得到音频测试结果;可以解决人工测试MCU的语音通话功能的效率较低且结果不准确的问题;由于可以通过控制音频发送组件和音频接收组件自动化地对音频控制组件的音频通话功能进行测试,无需人工参与,因此,可以提高音频通话功能的测试效率。另外,由于通过音频发送组件发送测试音频,通过音频接收组件接收音频控制组件转发的混音后的测试音频,可以实现模拟真实语音通话场景对混音通话功能的测试,因此,可以提高测试结果的准确性。
另外,通过音频接收组件使用语音识别模型来识别测试音频,该语音识别模型为使用字符数量小于预设阈值、且与测试音频相同的语音数据训练得到的,由于语音文字量少,且与测试音频内容相同;因此具有很高的识别率,且训练时消耗的设备资源较少。
图5是本申请一个实施例提供的音频通话测试装置的框图,本实施例以该装置应用于图1所示的音频通话测试系统中的音频通话测试装置110为例进行说明。该装置至少包括以下几个模块:通信建立模块510、音频发送模块520和音频识别模块530。
通信建立模块510,用于控制音频发送组件和音频接收组件分别与音频控制组件建立通信连接,所述音频发送组件和所述音频接收组件用于测试所述音频控制组件的混音接话功能;
音频发送模块520,用于控制所述音频发送组件向所述音频控制组件发送测试音频,以使所述音频控制组件将各个音频发送组件发送的测试音频进行混音,并将混音后的测试音频转发至所述音频接收组件;
音频识别模块530,用于控制所述音频接收组件接收所述音频控制组件发送的混音后的测试音频;并对所述混音后的测试音频进行音频识别得到音频测试结果。
可选地所述音频发送组件的数量为n个,所述n为大于1的整数;所述测试音频包括语音测试音频;所述音频发送模块520包括第一发送单元521。
所述第一发送单元521,用于控制所述n个音频发送组件依次向所述音频控制组件发送所述语音测试音频。
可选地,所述测试音频还包括静音测试音频;所述第一发送单元521,用于:
控制每个音频发送组件向所述音频控制组件发送所述静音测试音频;
获取第k个音频发送组件的第一音频切换指令,所述k依次取1至n的整数;
基于所述第一音频切换指令控制所述第k个音频发送组件停止发送所述静音测试音频、并开始发送所述语音测试音频。
可选地,所述音频发送模块520还包括第二发送单元522。
所述第二发送单元522,用于:
在所述基于所述第一音频切换指令控制所述第k个音频发送组件停止发送所述静音测试音频、并开始发送所述语音测试音频之后,获取第k个音频发送组件的第二音频切换指令;
基于所述第二音频切换指令控制所述第k个音频发送组件停止发送所述语音测试音频、并开始发送所述静音测试音频。
可选地,所述第一发送单元521,还用于:
在所述第k个音频发送组件发送所述静音测试音频的时长达到预设时长时,生成所述第一音频切换指令,不同音频发送组件对应的预设时长不同;
或者,
接收服务器发送的第一音频切换指令,所述服务器用于控制所述n个音频发送组件。
可选地,所述第二发送单元522,还用于:
在所述第k个音频发送组件将全部的语音测试音频发送完成时,生成所述第二音频切换指令;
或者,
接收服务器发送的第二音频切换指令,所述服务器用于控制所述n个音频发送组件。
可选地,所述音频识别模块530,包括模型获取单元531和音频识别单元532。
模型获取单元531,用于获取预先训练的音频识别模型,所述音频识别模型用于将音频信号识别为对应的文本信息,所述音频识别模型是使用语音训练集进行训练得到的;
音频识别单元532,用于基于所述音频识别模型对所述混音后的测试音频进行音频识别,得到所述音频测试结果。
可选地,所述模型获取单元531,还用于:
获取所述语音训练集,所述语音训练集包括多组语音样本数据,每组语音样本数据包括语音数据和所述语音数据对应的期望文本数据,所述语音数据对应的期望文本数据的字符数量小于预设阈值;
获取神经网络模型,所述神经网络模型的网络结构与所述音频识别模型的网络结构相同;
将所述语音训练集中的语音数据输入所述神经网络模型,得到模型输出结果;
基于所述模型输出结果与所述语音数据对应的期望文本数据之间的差异训练所述神经网络模型,得到所述音频识别模型。
可选地,所述语音训练集包括与所述音频发送组件发送的测试音频相同的语音数据,不同音频发送组件发送的测试音频不同。
相关细节参考上述方法实施例。
需要说明的是:上述实施例中提供的音频通话测试装置在进行音频通话测试时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将音频通话测试装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的音频通话测试装置与音频通话测试方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6是本申请一个实施例提供的音频通话测试装置的框图,该装置可以是图1所示的音频通话测试系统中的音频通话测试装置110。该装置至少包括处理器601和存储器602。
处理器601可以包括一个或多个处理核心,比如:4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的音频通话测试方法。
在一些实施例中,音频通话测试装置还可选包括有:外围设备接口和至少一个外围设备。处理器601、存储器602和外围设备接口之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口相连。示意性地,外围设备包括但不限于:射频电路、触摸显示屏、音频电路、和电源等。
当然,音频通话测试装置还可以包括更少或更多的组件,本实施例对此不作限定。
可选地,本申请还提供有一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现上述方法实施例的音频通话测试方法。
可选地,本申请还提供有一种计算机产品,该计算机产品包括计算机可读存储介质,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现上述方法实施例的音频通话测试方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种音频通话测试方法,其特征在于,所述方法包括:
控制音频发送组件和音频接收组件分别与音频控制组件建立通信连接,所述音频发送组件和所述音频接收组件用于测试所述音频控制组件的混音接话功能;
控制所述音频发送组件向所述音频控制组件发送测试音频,以使所述音频控制组件将各个音频发送组件发送的测试音频进行混音,并将混音后的测试音频转发至所述音频接收组件;
控制所述音频接收组件接收所述音频控制组件发送的混音后的测试音频;并对所述混音后的测试音频进行音频识别得到音频测试结果。
2.根据权利要求1所述的方法,其特征在于,所述音频发送组件的数量为n个,所述n为大于1的整数;所述测试音频包括语音测试音频;
所述控制所述音频发送组件向所述音频控制组件发送测试音频,包括:
控制所述n个音频发送组件依次向所述音频控制组件发送所述语音测试音频。
3.根据权利要求2所述的方法,其特征在于,所述测试音频还包括静音测试音频;所述控制所述n个音频发送组件依次向所述音频控制组件发送所述语音测试音频,包括:
控制每个音频发送组件向所述音频控制组件发送所述静音测试音频;
获取第k个音频发送组件的第一音频切换指令,所述k依次取1至n的整数;
基于所述第一音频切换指令控制所述第k个音频发送组件停止发送所述静音测试音频、并开始发送所述语音测试音频。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一音频切换指令控制所述第k个音频发送组件停止发送所述静音测试音频、并开始发送所述语音测试音频之后,还包括:
获取第k个音频发送组件的第二音频切换指令;
基于所述第二音频切换指令控制所述第k个音频发送组件停止发送所述语音测试音频、并开始发送所述静音测试音频。
5.根据权利要求1所述的方法,其特征在于,所述对所述混音后的测试音频进行音频识别得到音频测试结果,包括:
获取预先训练的音频识别模型,所述音频识别模型用于将音频信号识别为对应的文本信息,所述音频识别模型是使用语音训练集进行训练得到的;
基于所述音频识别模型对所述混音后的测试音频进行音频识别,得到所述音频测试结果。
6.根据权利要求5所述的方法,其特征在于,所述获取预先训练的音频识别模型,包括:
获取所述语音训练集,所述语音训练集包括多组语音样本数据,每组语音样本数据包括语音数据和所述语音数据对应的期望文本数据,所述语音数据对应的期望文本数据的字符数量小于预设阈值;
获取神经网络模型,所述神经网络模型的网络结构与所述音频识别模型的网络结构相同;
将所述语音训练集中的语音数据输入所述神经网络模型,得到模型输出结果;
基于所述模型输出结果与所述语音数据对应的期望文本数据之间的差异训练所述神经网络模型,得到所述音频识别模型。
7.根据权利要求6所述的方法,其特征在于,所述语音训练集包括与所述音频发送组件发送的测试音频相同的语音数据,不同音频发送组件发送的测试音频不同。
8.一种音频通话测试装置,其特征在于,所述装置包括:
通信建立模块,用于控制音频发送组件和音频接收组件分别与音频控制组件建立通信连接,所述音频发送组件和所述音频接收组件用于测试所述音频控制组件的混音接话功能;
音频发送模块,用于控制所述音频发送组件向所述音频控制组件发送测试音频,以使所述音频控制组件将各个音频发送组件发送的测试音频进行混音,并将混音后的测试音频转发至所述音频接收组件;
音频识别模块,用于控制所述音频接收组件接收所述音频控制组件发送的混音后的测试音频;并对所述混音后的测试音频进行音频识别得到音频测试结果。
9.一种音频通话测试装置,其特征在于,所述装置包括处理器和存储器;所述存储器中存储有程序,所述程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的音频通话测试方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有程序,所述程序被处理器执行时用于实现如权利要求1至7任一项所述的音频通话测试方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010190139.2A CN111405122B (zh) | 2020-03-18 | 2020-03-18 | 音频通话测试方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010190139.2A CN111405122B (zh) | 2020-03-18 | 2020-03-18 | 音频通话测试方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111405122A true CN111405122A (zh) | 2020-07-10 |
CN111405122B CN111405122B (zh) | 2021-09-24 |
Family
ID=71432595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010190139.2A Active CN111405122B (zh) | 2020-03-18 | 2020-03-18 | 音频通话测试方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111405122B (zh) |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03208130A (ja) * | 1990-01-11 | 1991-09-11 | Nec Corp | 状態遷移実行装置 |
CN102771082A (zh) * | 2010-01-20 | 2012-11-07 | 微软公司 | 具有混合能力的设备和接口之间的通信会话 |
CN103745731A (zh) * | 2013-12-31 | 2014-04-23 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别效果自动化测试系统及测试方法 |
CN106504770A (zh) * | 2016-10-17 | 2017-03-15 | 北京小米移动软件有限公司 | 通话质量的测试系统及测试方法、测试装置 |
CN106782610A (zh) * | 2016-11-15 | 2017-05-31 | 福建星网智慧科技股份有限公司 | 一种音频会议的音质测试方法 |
CN107039050A (zh) * | 2016-02-04 | 2017-08-11 | 阿里巴巴集团控股有限公司 | 对待测试语音识别系统的自动测试方法和装置 |
CN108417202A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
CN108766448A (zh) * | 2018-06-19 | 2018-11-06 | 苏州科达科技股份有限公司 | 混音测试系统、方法、装置及存储介质 |
CN108847238A (zh) * | 2018-08-06 | 2018-11-20 | 东北大学 | 一种新型服务机器人语音识别方法 |
CN109376264A (zh) * | 2018-11-09 | 2019-02-22 | 广州势必可赢网络科技有限公司 | 一种音频检测方法、装置、设备及计算机可读存储介质 |
CN109389989A (zh) * | 2017-08-07 | 2019-02-26 | 上海谦问万答吧云计算科技有限公司 | 混音方法、装置、设备及存储介质 |
WO2019055827A1 (en) * | 2017-09-15 | 2019-03-21 | Oneva, Inc. | STUDIO SYSTEM VIDEO PERSONAL VIDEO |
CN109800407A (zh) * | 2017-11-15 | 2019-05-24 | 腾讯科技(深圳)有限公司 | 意图识别方法、装置、计算机设备和存储介质 |
CN109830247A (zh) * | 2019-03-22 | 2019-05-31 | 北京百度网讯科技有限公司 | 用于测试通话质量的方法和装置 |
CN110136709A (zh) * | 2019-04-26 | 2019-08-16 | 国网浙江省电力有限公司信息通信分公司 | 语音识别方法及基于语音识别的视频会议系统 |
CN110136727A (zh) * | 2019-04-16 | 2019-08-16 | 平安科技(深圳)有限公司 | 基于说话内容的说话者身份识别方法、装置及存储介质 |
CN110197672A (zh) * | 2018-02-27 | 2019-09-03 | 招商信诺人寿保险有限公司 | 一种语音通话质量检测方法、服务器、存储介质 |
CN110223690A (zh) * | 2019-06-10 | 2019-09-10 | 深圳永顺智信息科技有限公司 | 基于图像与语音融合的人机交互方法及装置 |
CN110473523A (zh) * | 2019-08-30 | 2019-11-19 | 北京大米科技有限公司 | 一种语音识别方法、装置、存储介质及终端 |
CN110853628A (zh) * | 2019-11-18 | 2020-02-28 | 苏州思必驰信息科技有限公司 | 一种模型训练方法、装置、电子设备及存储介质 |
-
2020
- 2020-03-18 CN CN202010190139.2A patent/CN111405122B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03208130A (ja) * | 1990-01-11 | 1991-09-11 | Nec Corp | 状態遷移実行装置 |
CN102771082A (zh) * | 2010-01-20 | 2012-11-07 | 微软公司 | 具有混合能力的设备和接口之间的通信会话 |
CN103745731A (zh) * | 2013-12-31 | 2014-04-23 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别效果自动化测试系统及测试方法 |
CN107039050A (zh) * | 2016-02-04 | 2017-08-11 | 阿里巴巴集团控股有限公司 | 对待测试语音识别系统的自动测试方法和装置 |
CN106504770A (zh) * | 2016-10-17 | 2017-03-15 | 北京小米移动软件有限公司 | 通话质量的测试系统及测试方法、测试装置 |
CN106782610A (zh) * | 2016-11-15 | 2017-05-31 | 福建星网智慧科技股份有限公司 | 一种音频会议的音质测试方法 |
CN109389989A (zh) * | 2017-08-07 | 2019-02-26 | 上海谦问万答吧云计算科技有限公司 | 混音方法、装置、设备及存储介质 |
WO2019055827A1 (en) * | 2017-09-15 | 2019-03-21 | Oneva, Inc. | STUDIO SYSTEM VIDEO PERSONAL VIDEO |
CN109800407A (zh) * | 2017-11-15 | 2019-05-24 | 腾讯科技(深圳)有限公司 | 意图识别方法、装置、计算机设备和存储介质 |
CN108417202A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
CN110197672A (zh) * | 2018-02-27 | 2019-09-03 | 招商信诺人寿保险有限公司 | 一种语音通话质量检测方法、服务器、存储介质 |
CN108766448A (zh) * | 2018-06-19 | 2018-11-06 | 苏州科达科技股份有限公司 | 混音测试系统、方法、装置及存储介质 |
CN108847238A (zh) * | 2018-08-06 | 2018-11-20 | 东北大学 | 一种新型服务机器人语音识别方法 |
CN109376264A (zh) * | 2018-11-09 | 2019-02-22 | 广州势必可赢网络科技有限公司 | 一种音频检测方法、装置、设备及计算机可读存储介质 |
CN109830247A (zh) * | 2019-03-22 | 2019-05-31 | 北京百度网讯科技有限公司 | 用于测试通话质量的方法和装置 |
CN110136727A (zh) * | 2019-04-16 | 2019-08-16 | 平安科技(深圳)有限公司 | 基于说话内容的说话者身份识别方法、装置及存储介质 |
CN110136709A (zh) * | 2019-04-26 | 2019-08-16 | 国网浙江省电力有限公司信息通信分公司 | 语音识别方法及基于语音识别的视频会议系统 |
CN110223690A (zh) * | 2019-06-10 | 2019-09-10 | 深圳永顺智信息科技有限公司 | 基于图像与语音融合的人机交互方法及装置 |
CN110473523A (zh) * | 2019-08-30 | 2019-11-19 | 北京大米科技有限公司 | 一种语音识别方法、装置、存储介质及终端 |
CN110853628A (zh) * | 2019-11-18 | 2020-02-28 | 苏州思必驰信息科技有限公司 | 一种模型训练方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111405122B (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107910014B (zh) | 回声消除的测试方法、装置及测试设备 | |
US7933226B2 (en) | System and method for providing communication channels that each comprise at least one property dynamically changeable during social interactions | |
CN114079746A (zh) | 视频会议中的错误音频设置的智能检测和自动纠正 | |
US8515025B1 (en) | Conference call voice-to-name matching | |
CN111405232B (zh) | 视频会议主讲人画面切换处理方法及装置、设备、介质 | |
CN106791584A (zh) | 视频会议的实现方法、接入方法及相应装置 | |
CN110070878B (zh) | 音频码流的解码方法及电子设备 | |
CN110503981A (zh) | 无参考音频客观质量评价方法、装置及存储介质 | |
CN111314780B (zh) | 回声消除功能的测试方法、装置及存储介质 | |
CN104469032B (zh) | 混音处理方法及系统 | |
CN102239519A (zh) | 对话主观质量测试工具 | |
CN113783771A (zh) | 一种基于微信的ai虚拟人交互方法和系统 | |
CN111405122B (zh) | 音频通话测试方法、装置及存储介质 | |
CN112216306A (zh) | 基于声纹的通话管理方法、装置、电子设备及存储介质 | |
CN112862461A (zh) | 会议进程控制方法、装置、服务器及存储介质 | |
CN100484175C (zh) | 一种会场当前说话者上报的实现方法及系统 | |
JP2022092784A (ja) | 遠隔会議システム、通信端末、遠隔会議方法及びプログラム | |
CN111866440A (zh) | 一种推送视频数据方法、装置、设备及存储介质 | |
CN113450797A (zh) | 基于在线会议的音频处理方法、设备、存储介质及系统 | |
CN108766448B (zh) | 混音测试系统、方法、装置及存储介质 | |
US11783837B2 (en) | Transcription generation technique selection | |
JP2970645B2 (ja) | 多地点接続会議システム構成方法及び多地点接続会議システム及びサーバ装置及びクライアント装置及び多地点接続会議システム構成プログラムを格納した記憶媒体 | |
CN111028837B (zh) | 语音会话方法、语音识别系统及计算机存储介质 | |
CN104253699B (zh) | 组建远程会议的方法及装置 | |
CN113727060B (zh) | 互联网庭审处理方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |