CN112086095B - 数据处理方法、装置、设备及存储介质 - Google Patents

数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112086095B
CN112086095B CN202010948371.8A CN202010948371A CN112086095B CN 112086095 B CN112086095 B CN 112086095B CN 202010948371 A CN202010948371 A CN 202010948371A CN 112086095 B CN112086095 B CN 112086095B
Authority
CN
China
Prior art keywords
audio
target
time
network delay
delay time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010948371.8A
Other languages
English (en)
Other versions
CN112086095A (zh
Inventor
李牧之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202010948371.8A priority Critical patent/CN112086095B/zh
Publication of CN112086095A publication Critical patent/CN112086095A/zh
Application granted granted Critical
Publication of CN112086095B publication Critical patent/CN112086095B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04JMULTIPLEX COMMUNICATION
    • H04J3/00Time-division multiplex systems
    • H04J3/02Details
    • H04J3/06Synchronising arrangements
    • H04J3/0635Clock or time synchronisation in a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种数据处理方法、装置、设备及存储介质,所述方法包括:获取多个目标终端中的各个目标终端对应的音频采样数据;针对每个所述目标终端,通过与所述目标终端的多次往返通信,确定与所述目标终端通信的目标网络延迟时间;根据所述多个目标终端对应的所述目标网络延迟时间、所述服务端的当前本地时间以及所述音频采样数据,对所述多个目标终端进行音频对齐。本发明可以不依赖于各个终端设备的时间同步,且无需采购及部署中控设备,提升了音频对齐的精度。

Description

数据处理方法、装置、设备及存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术
随着计算机技术的发展,越来越多的场景中需要用到音频对齐,例如,多人会议场景中多个声源的音频流由于网络延迟、硬件终端设备不统一、本地时钟误差等原因,导致音频流出现不可控的错位问题,这对使用未对齐音频流进行语音识别大大降低语音识别与会议纪要的准确率。
目前,为了实现音频对齐,一般在会议中使用相关中控设备或在会议中对各个终端设备使用授时服务后统一音频流的发送时间。
但是,中控设备的使用,需要采购整套系统并部署,成本较高、浪费资源;依赖授时服务,需要控制各个终端设备时间同步以及准确性,但是该时间不可控,导致音频对齐的精度较低。因此,现有技术中无法保证节约资源的同时,提升音频对齐的精度。
发明内容
本发明的主要目的在于提供一种数据处理方法、装置、设备及存储介质,旨在解决无法保证节约资源的同时,提升音频对齐的精度的问题。
为实现上述目的,本发明提供一种数据处理方法,所述数据处理方法包括:
获取多个目标终端中的各个目标终端对应的音频采样数据;
针对每个所述目标终端,通过与所述目标终端的多次往返通信,确定与所述目标终端通信的目标网络延迟时间;
根据所述多个目标终端对应的所述目标网络延迟时间、所述服务端的当前本地时间以及所述音频采样数据,对所述多个目标终端进行音频对齐。
在一种可能的实现方式中,所述根据所述多个目标终端对应的所述目标网络延迟时间、所述服务端的当前本地时间以及所述音频采样数据,对所述多个目标终端进行音频对齐,包括:
针对每个所述目标终端,根据所述目标网络延迟时间和所述当前本地时间,得到所述目标终端对应的音频起始时间;
根据所述多个目标终端对应的所述音频起始时间和所述音频采样数据,对所述多个目标终端进行音频对齐。
在一种可能的实现方式中,所述音频采样数据包括采样频率和采样位数;
所述根据所述多个目标终端对应的所述音频起始时间和所述音频采样数据,对所述多个目标终端进行音频对齐,包括:
获取所述目标终端每次发送音频流的字节长度;
计算所述采样频率和所述采样位数的乘积,并根据所述字节长度和所述乘积,计算所述字节长度与所述乘积的比值,得到每次接收的所述音频流的音频时长;
根据所述多个目标终端设备对应的所述音频起始时间和所述音频时长,对所述多个目标终端进行音频对齐。
在一种可能的实现方式中,所述根据所述多个目标终端设备对应的所述音频起始时间和所述音频时长,对所述多个目标终端进行音频对齐,包括:
根据所述音频起始时间和所述音频时长,生成所述目标终端的时间戳;
对所述多个目标终端对应的所述时间戳进行排序,使得所述多个目标终端对应的音频对齐。
在一种可能的实现方式中,所述通过与所述目标终端的多次往返通信,确定与所述目标终端通信的目标网络延迟时间,包括:
通过与所述目标终端的多次往返通信,从每次往返通信的报文中获取每次网络延迟时间;
根据所述每次网络延迟时间,通过指数加权移动平均法,预测得到与目标终端通信的目标网络延迟时间,所述目标网络延迟时间用于表示在目标终端发送语音连接请求信号之后,所述目标终端发送音频流的网络延迟时间。
在一种可能的实现方式中,所述目标终端与所述服务端连接,所述获取多个目标终端中的各个目标终端对应的音频采样数据,包括:
针对每个所述目标终端,接收所述目标终端发送的http报文;
从所述http报文中获取所述目标终端对应的音频采样数据。
在一种可能的实现方式中,在所述对所述多个目标终端进行音频对齐之后,所述方法还包括:
根据各个目标终端对应的所述时间戳,将对齐后的音频进行文本转换,生成多人语音会议纪要。
本发明还提供一种数据处理装置,应用于服务端,所述装置包括:
采样数据获取模块,用于获取多个目标终端中的各个目标终端对应的音频采样数据;
延迟时间确定模块,用于针对每个所述目标终端,通过与所述目标终端的多次往返通信,确定与所述目标终端通信的目标网络延迟时间;
音频对齐处理模块,用于根据所述多个目标终端对应的所述目标网络延迟时间、所述服务端的当前本地时间以及所述音频采样数据,对所述多个目标终端进行音频对齐。
本发明还提供一种数据处理设备,所述数据处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如前述任一项所述的数据处理方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如前述任一项所述的数据处理方法的步骤。
本发明中,通过获取多个目标终端中的各个目标终端对应的音频采样数据,然后针对每个所述目标终端,通过与所述目标终端的多次往返通信,确定与所述目标终端通信的目标网络延迟时间,根据所述多个目标终端对应的所述目标网络延迟时间、所述服务端的当前本地时间以及所述音频采样数据,对所述多个目标终端进行音频对齐,可以不依赖于各个终端设备的时间同步,且无需采购及部署中控设备,提升了音频对齐的精度。
附图说明
图1为本发明实施例提供的一种应用场景示意图;
图2为本发明实施例提供的一种数据处理方法的流程示意图;
图3为本发明实施例提供的另一种数据处理方法的流程示意图;
图4为本发明实施例提供的又一种数据处理方法的流程示意图;
图5为本发明实施例提供的一种数据处理装置的结构示意图;
图6为本发明实施例提供的一种数据处理设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
目前,为了在用户终端侧实现多声源的音频流对齐:会议中使用中控设备对齐,用户配合控制声源发声时间点(如话筒开关),该方法需要采购整套系统并部署,但是此方案成本较高,需采购硬件系统以及布置安装整套会议中控设备,浪费资源;或者在会议中对各个终端设备使用授时服务后统一音频流的发送时间,但是此方案依赖其他的授时服务,需要控制终端设备时间准确性,效果不可控。因此,现有技术中无法保证节约资源的同时,提升音频对齐的精度。
为了解决这一问题,本发明的技术构思是以服务端的本地时间作为标准时间,考虑各个终端设备与服务端通信的网络延迟时间,基于标准时间以及网络延迟时间,结合各个终端设备通过与服务端协商的采样数据,来确定各个终端设备实际发送音频流的时间顺序,避免音频流出现不可控的错位问题,进而实现音频的对齐,不依赖于各个终端设备的时间同步,且无需采购及部署中控设备,提升了音频对齐的精度。
图1为本发明实施例提供的一种应用场景示意图。如图1所示,在多人会议的场景中,多个终端设备101(比如,终端设备1、终端设备2、…、终端设备n)与服务端(即服务器102)进行网络连接。这里的终端设备可以是移动终端、计算机设备(如,台式机、笔记本电脑、一体机等)等,移动终端可以包括智能手机、掌上电脑、平板电脑、带语音通话功能的智能设备等。
在连接之后,首先各个终端设备通过与服务端通信,服务端从通信的报文中获取相应的终端设备的音频关键参数,比如音频采样数据,然后各个终端设备与服务端多次往返通信,服务端多次采样估计网络延迟时间再,以服务端的本地时间作为标准时间,不依赖各个终端设备的时间,基于音频采样数据以及接收到的各个终端设备发送的音频的字节长度可以确定接收的音频时长,再结合每次的网络延迟时间以及服务端的本地时间,能够确定每次接收各个终端设备发送音频流的时间戳即实际时间,进而实现音频对齐,且音频对齐的精度较高,解决了现有技术依赖于各个终端设备时间同步而产生的效果不可控,导致的音频对齐的精度较低的问题,同时,无需采购整套系统并部署,降低了成本,节约了资源。
数据处理设备可以为服务端,服务端可以从各个终端设备获取音频采样数据、网络延迟时间以及获取各个终端设备发送音频流对应的服务端的本地时间,在获取到音频采样数据、网络延迟时间以及本地时间后,可以通过设置好的程序计算对应的时间戳并输出,基于时间戳实现各个终端设备的音频对齐。
此外,所述数据处理设备在得到时间戳后,还可以进一步对对齐后的音频进行文本转换,生成多人语音会议纪要,以作记录。实现了多人语音会议下不同声源对齐。
下面结合附图,对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
图2为本发明实施例提供的一种数据处理方法的流程示意图。本实施例中方法的执行主体可以为数据处理设备,比如服务器。该服务器具有数据处理功能。本实施例中的方法可以通过软件、硬件或者软硬件结合的方式来实现。如图2所示,所述方法可以包括:
S201、获取多个目标终端中的各个目标终端对应的音频采样数据。
其中,所述多个目标终端可以为待加入多人会议的终端设备。各个目标终端在发起语音连接请求之前,需要分别与服务端进行网络连接,在连接之后,终端设备可以与服务端进行协商,商议音频关键参数即音频采样数据,如采样频率、采样位数等。
其中,由于终端设备自身的配置不同或是网络环境不同等,各个终端设备对应的音频采样数据也可能不同。
可选的,如何获取各个终端设备对应的音频采样数据,可以通过以下步骤实现:
步骤a1、针对每个所述目标终端,接收所述目标终端发送的http报文。
步骤a2、从所述http报文中获取所述目标终端对应的音频采样数据。
示例性的,多个目标终端,比如包括终端设备1和终端设备2。针对终端设备1,终端设备1通过http协议与服务端进行通信,将http报文发送至服务端,服务端可以从http报文中获取与该终端设备1相应的采样频率以及采样位数。同理,针对终端设备2对应的采样频率以及采样位数的获取,重复上述终端设备1的步骤即可实现。
需要说明的是,上述仅仅是示例性的,本发明对终端设备接入服务端参加多人语音会议的数目不做具体限定,每个目标终端按照上述步骤即可获取相应的音频采样数据。
S202、针对每个所述目标终端,通过与所述目标终端的多次往返通信,确定与所述目标终端通信的目标网络延迟时间。
其中,与上述原因类似,由于终端设备自身的配置不同或是网络环境不同等,各个终端设备对应的网络延迟时间不同。
示例性的,以上述多个目标终端为终端设备1、终端设备2为例。针对终端设备1,终端设备1与服务端网络连接后,终端设备1通过与服务端交互通信,服务端可以估计出该终端设备1的网络延迟时间,为了避免误差太大,可以通过多次往返通信,多次采样终端设备1的网络延迟时间,即估计出每次往返的网络延迟时间,然后基于每次往返的网络延迟时间,确定在实际语音会议中,该终端设备的网络延迟时间即目标网络延迟时间。同理,针对终端设备2对应的每次往返采样的网络延迟时间的获取以及终端设备2对应的目标延迟时间的确定,可以重复上述终端设备1的步骤即可实现。
可选的,为了减少延迟预估的误差,可以通过下述至少两种方式实现:
方式1、以终端设备1为例,将每次往返获取的到网络延迟时间取平均值,将该平均值作为在终端设备1向服务端发送语音连接请求信号之后,该终端设备1与服务端进行音频流传输的网络延迟时间。同理,针对终端设备2对应的目标网络延迟时间的确定,重复上述终端设备1的步骤即可实现。
方式2、利用指数加权移动平均法:
通过与所述目标终端的多次往返通信,确定与所述目标终端通信的目标网络延迟时间,可以通过以下步骤实现:
步骤b1、通过与所述目标终端的多次往返通信,从每次往返通信的报文中获取每次网络延迟时间。
具体地,针对每个所述目标终端与服务端的每次往返通信,服务端接收所述目标终端发送的ICMP报文;从所述ICMP报文中获取所述目标终端对应的网络延迟时间。
其中,ICMP是(Internet Control Message Protocol)Internet控制报文协议。
示例性的,以多个目标终端中的终端设备1为例,终端设备1通过ICMP协议与服务端进行往返通信,服务端可以从每次往返通信的ICMP报文中获取与该终端设备1对应的每次网络延迟时间。同理,针对多个目标终端中的其他终端设备对应的每次网络延迟时间的获取,重复上述终端设备1的步骤即可实现。
步骤b2、根据所述每次网络延迟时间,通过指数加权移动平均法,预测得到与目标终端通信的目标网络延迟时间,所述目标网络延迟时间用于表示在目标终端发送语音连接请求信号之后,所述目标终端发送音频流的网络延迟时间。
其中,指数加权移动平均法是指各数值的加权系数随时间呈指数式递减,越靠近当前时刻的数值加权系数就越大。因此,采用指数加权移动平均法能够较准确地预估在目标终端发送语音连接请求信号之后的当前时刻目标终端发送音频流的网络延迟时间。
具体地,以终端设备1为例,终端设备1与服务端系统多次往返,估计每次网络延迟时间,记为t_ms;使用指数加权移动平均法,用以减少网络延迟时间预估的误差:estimated_t=(1-α)estimated_t+α*t_ms;其中,α表示指数加权系数,estimated_t表示减少预估误差后的网络延迟时间即目标网络延迟时间。α的确定可以通过多次试验获取得到的,在此对α的获取方式不做具体限定。
S203、根据所述多个目标终端对应的所述目标网络延迟时间、所述服务端的当前本地时间以及所述音频采样数据,对所述多个目标终端进行音频对齐。
本实施例中,当某个或某些目标终端设备发起音频请求连接时,记录服务端的当前本地时间作为相应的目标终端对应的标准时间,记为cur_server_ms。在实际应用中,不同的目标终端由于发起请求连接的时机不同即发起请求连接不同步,则每个目标终端在向服务端发起请求时对应的服务端的当前本地时间不同。
示例性的,多人语音会议开始后,假如终端设备1先发起音频请求连接时,服务端将自身当前的本地时间作为终端设备1的标准时间,结合终端设备1经过路由与服务端建立语音连接后开始发送音频流对应的目标网络延迟时间1,得到终端设备1发送音频流的实际发送时间即音频起始时间1,然后根据音频起始时间以及终端设备1的音频采样数据可以确定服务端接收到音频的真实时间1。
当有第二个目标终端比如终端设备2向服务端发起音频请求连接时,服务端将自身当前的本地时间作为终端设备2的标准时间,结合终端设备2经过路由与服务端建立语音连接后开始发送音频流对应的目标网络延迟时间2,得到终端设备2发送音频流的实际发送时间即音频起始时间2,然后根据音频起始时间以及终端设备1的音频采样数据可以确定服务端接收到音频的真实时间2。
以此类推,不限定目标终端的数目,根据真实时间进行排序,能够避免多人会议场景中多个声源的音频流因为网络延迟,硬件终端设备不统一,本地时钟误差等原因,导致音频流出现不可控的错位的问题,实现多个目标设备的音频对齐,并且基于网络延迟时间的分析,不依赖于终端设备的时间同步,减少了音频流对齐的误差,提升了同步精度。
本实施例提供的数据处理方法,通过获取多个目标终端中的各个目标终端对应的音频采样数据,然后针对每个所述目标终端,通过与所述目标终端的多次往返通信,确定与所述目标终端通信的目标网络延迟时间,根据所述多个目标终端对应的所述目标网络延迟时间、所述服务端的当前本地时间以及所述音频采样数据,对所述多个目标终端进行音频对齐,可以不依赖于各个终端设备的时间同步,解决了现有技术依赖于各个终端设备时间同步而产生的效果不可控,导致的音频对齐的精度较低的问题,同时,无需采购整套系统并部署,降低了成本,节约了资源,因此,既节约资源,同时也提升音频对齐的精度。
图3为本发明实施例提供的另一种数据处理方法的流程示意图。在上述实施例的基础上,对S203进行了详细说明。如图3所示,所述根据所述多个目标终端对应的所述目标网络延迟时间、所述服务端的当前本地时间以及所述音频采样数据,对所述多个目标终端进行音频对齐,可以包括:
S301、针对每个所述目标终端,根据所述目标网络延迟时间和所述当前本地时间,得到所述目标终端对应的音频起始时间。
本实施例中,以一个目标终端为例,计算其音频起始时间(或音频流起始时间)为:start_time_ms_a=cur_server_ms+estimated_t/2。由于获得到目标网络延迟时间为往返的时间,因此,需要取目标网络延迟时间的1/2,作为单路径的网络延迟时间。其他的目标终端重复S301实施例的步骤即可。
S302、根据所述多个目标终端对应的所述音频起始时间和所述音频采样数据,对所述多个目标终端进行音频对齐。
其中,音频采样数据可以包括采样频率和采样位数。在实际应用中,后续数据传输中,持续使用S201中协商的音频属性即采样频率、采样位数。
可选的,根据所述多个目标终端对应的所述音频起始时间和所述音频采样数据,对所述多个目标终端进行音频对齐,可以通过以下步骤实现:
步骤c1、获取所述目标终端每次发送音频流的字节长度。
在实际应用中,每个目标终端发送音频的时间间隔可能不同,比如终端设备1每200ms向服务端发送一次音频流,或是等间隔发送或是不等间隔发送,在此不做具体限定。同样,其他的终端设备类似,每一间隔时间发送一次音频流。服务端通过接收目标终端发送的音频流,获取音频流的字节长度。比如,100个字节长度。
步骤c2、计算所述采样频率和所述采样位数的乘积,并根据所述字节长度和所述乘积,计算所述字节长度与所述乘积的比值,得到每次接收的所述音频流的音频时长。
本实施例中,根据音频流的字节长度计算音频的时间即音频时长,记作chunk_ms。
其中,chunk_ms=dytes_len/(audio_rate*audio_width)。即可准确推定每次接收的音频时间。这里的dytes_len表示字节长度,audio_rate表示采样频率,audio_width表示采样位数。
步骤c3、根据所述多个目标终端设备对应的所述音频起始时间和所述音频时长,对所述多个目标终端进行音频对齐。
在实际应用中,当发起请求连接的目标终端为两个及以上时,随时目标设备的不断接入,不断地对各个目标终端进行音频对齐。可以依据每个目标终端对应的音频起始时间以及音频时长,计算该目标终端对应的时间戳,进而各个目标终端的时间戳实现各个目标终端的对齐。
可选的,在上述实施例的基础上,对步骤c3进行了详细说明。所述根据所述多个目标终端设备对应的所述音频起始时间和所述音频时长,对所述多个目标终端进行音频对齐,可以包括以下步骤:
步骤d1、根据所述音频起始时间和所述音频时长,生成所述目标终端的时间戳。
本实施例中,以一个目标终端为例,将音频起始时间和音频时长进行叠加,得到时间作为该目标终端的时间戳。其他的重复上述步骤生成语音时间戳即时间戳。
步骤d2、对所述多个目标终端对应的所述时间戳进行排序,使得所述多个目标终端对应的音频对齐。
本实施例中,这个时间戳可以反应数据传输(音频流传输)的真实的时间,基于这个时间戳,可以排序得到各个目标终端发送音频流至服务端后,服务端接收到音频流的时间,由于以服务端的本地时间作为标准时间,因此,该时间戳可以认为是统一后的真实时间。因此,基于时间戳的排序,排序后的音频实现了对齐,不会出现错位问题。
在实际应用中,以两个目标终端为例,参见图4所示,图4为本发明实施例提供的又一种数据处理方法的流程示意图。多设备时间对齐的方法步骤可以为:
针对其中一个目标终端,比如终端设备1,与服务端网络连接,服务端可以获取该终端设备1的音频流参数(即音频采样参数)即终端设备1将其音频流参数与服务端同步,然后终端设备1与服务端通过多次往返时间,服务端可以进行网络延迟估计,基于估计的网络延迟时间可以生成起始时间(即音频起始时间),然后基于音频流参数以及音频的字节长度,计算音频字节时间,然后其他的目标设备,比如终端设备2重复上述步骤,计算该终端设备2对应的音频字节时间,进而实现多设备时间对齐。因此,本发明不但实现了多人语音会议下不同声源对齐,还改进了音频流对齐误差。
可选的,在上述实施例的基础上,在所述对所述多个目标终端进行音频对齐之后,所述方法还包括:
根据各个目标终端对应的所述时间戳,将对齐后的音频进行文本转换,生成多人语音会议纪要。
在实际应用中,服务端可以配置有语音识别系统,语音识别系统使用上述方式生成的时间戳,能够实现多设备间的对齐,并且将对齐后的音频进一步送入说话人分离与语音识别模块进行行语音与文本的转换,生成多人语音会议纪要。由于音频对齐的精度较高,这样可以大大提高说话人识别与会议纪要的准确率。因此,本发明不依赖于终端设备的时间同步,无需采购中控设备,不仅提升了同步精度,还提高了语音转录效率与准确率。
图5为本发明实施例提供的一种数据处理装置的结构示意图。如图5所示,所述数据处理装置可以包括:
采样数据获取模块501,用于获取多个目标终端中的各个目标终端对应的音频采样数据;
延迟时间确定模块502,用于针对每个所述目标终端,通过与所述目标终端的多次往返通信,确定与所述目标终端通信的目标网络延迟时间;
音频对齐处理模块503,用于根据所述多个目标终端对应的所述目标网络延迟时间、所述服务端的当前本地时间以及所述音频采样数据,对所述多个目标终端进行音频对齐。
本实施例提供的数据处理装置,配置了采样数据获取模块501、延迟时间确定模块502以及音频对齐处理模块503,用于通过获取多个目标终端中的各个目标终端对应的音频采样数据,然后针对每个所述目标终端,通过与所述目标终端的多次往返通信,确定与所述目标终端通信的目标网络延迟时间,根据所述多个目标终端对应的所述目标网络延迟时间、所述服务端的当前本地时间以及所述音频采样数据,对所述多个目标终端进行音频对齐,可以不依赖于各个终端设备的时间同步,且无需采购及部署中控设备,提升了音频对齐的精度。
本实施例提供的数据处理装置,可以用于执行前述任一方法实施例提供的技术方案,其实现原理和技术效果类似,在此不再赘述。
在一种可能的实现方式中,所述音频对齐处理模块503,具体用于:
针对每个所述目标终端,根据所述目标网络延迟时间和所述当前本地时间,得到所述目标终端对应的音频起始时间;
根据所述多个目标终端对应的所述音频起始时间和所述音频采样数据,对所述多个目标终端进行音频对齐。
在一种可能的实现方式中,所述音频采样数据包括采样频率和采样位数;所述音频对齐处理模块503具体用于:
获取所述目标终端每次发送音频流的字节长度;
计算所述采样频率和所述采样位数的乘积,并根据所述字节长度和所述乘积,计算所述字节长度与所述乘积的比值,得到每次接收的所述音频流的音频时长;
根据所述多个目标终端设备对应的所述音频起始时间和所述音频时长,对所述多个目标终端进行音频对齐。
在一种可能的实现方式中,
所述音频对齐处理模块503具体用于:
根据所述音频起始时间和所述音频时长,生成所述目标终端的时间戳;
对所述多个目标终端对应的所述时间戳进行排序,使得所述多个目标终端对应的音频对齐。
在一种可能的实现方式中,所述延迟时间确定模块502,具体用于:
通过与所述目标终端的多次往返通信,从每次往返通信的报文中获取每次网络延迟时间;
根据所述每次网络延迟时间,通过指数加权移动平均法,预测得到与目标终端通信的目标网络延迟时间,所述目标网络延迟时间用于表示在目标终端发送语音连接请求信号之后,所述目标终端发送音频流的网络延迟时间。
在一种可能的实现方式中,所述采样数据获取模块501,具体用于:
针对每个所述目标终端,接收所述目标终端发送的http报文;
从所述http报文中获取所述目标终端对应的音频采样数据。
在一种可能的实现方式中,所述装置还可以包括:语音转换模块;语音转换模块,用于在所述对所述多个目标终端进行音频对齐之后,根据各个目标终端对应的所述时间戳,将对齐后的音频进行文本转换,生成多人语音会议纪要。
因此,本发明不依赖于终端设备的时间同步,无需采购中控设备,不仅提升了同步精度,还提高了语音转录效率与准确率。
前述任一实施例提供的数据处理装置,用于执行前述任一方法实施例的技术方案,其实现原理和技术效果类似,在此不再赘述。
图6为本发明实施例提供的一种数据处理设备的结构示意图。如图6所示,所述设备可以包括:存储器601、处理器602及存储在所述存储器601上并可在所述处理器602上运行的数据处理程序,所述数据处理程序被所述处理器602执行时实现如前述任一实施例所述的数据处理方法的步骤。
可选地,存储器601既可以是独立的,也可以跟处理器602集成在一起。
本实施例提供的设备的实现原理和技术效果可以参见前述各实施例,此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如前述任一实施例所述的数据处理方法的步骤。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本发明各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(Central Processing Unit,简称CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种数据处理方法,其特征在于,应用于服务端,所述方法包括:
获取多个目标终端中的各个目标终端对应的音频采样数据;
针对每个所述目标终端,通过与所述目标终端的多次往返通信,确定与所述目标终端通信的目标网络延迟时间;
根据所述多个目标终端对应的所述目标网络延迟时间、所述服务端的当前本地时间以及所述音频采样数据,对所述多个目标终端进行音频对齐;
其中,所述根据所述多个目标终端对应的所述目标网络延迟时间、所述服务端的当前本地时间以及所述音频采样数据,对所述多个目标终端进行音频对齐,包括:
针对每个所述目标终端,根据所述目标网络延迟时间和所述当前本地时间,得到所述目标终端对应的音频起始时间;
根据所述多个目标终端对应的所述音频起始时间和所述音频采样数据,对所述多个目标终端进行音频对齐;
其中,所述音频采样数据包括采样频率和采样位数;所述根据所述多个目标终端对应的所述音频起始时间和所述音频采样数据,对所述多个目标终端进行音频对齐,包括:
获取所述目标终端每次发送音频流的字节长度;
计算所述采样频率和所述采样位数的乘积,并根据所述字节长度和所述乘积,计算所述字节长度与所述乘积的比值,得到每次接收的所述音频流的音频时长;
根据所述多个目标终端设备对应的所述音频起始时间和所述音频时长,对所述多个目标终端进行音频对齐。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个目标终端设备对应的所述音频起始时间和所述音频时长,对所述多个目标终端进行音频对齐,包括:
根据所述音频起始时间和所述音频时长,生成所述目标终端的时间戳;
对所述多个目标终端对应的所述时间戳进行排序,使得所述多个目标终端对应的音频对齐。
3.根据权利要求1或2所述的方法,其特征在于,所述通过与所述目标终端的多次往返通信,确定与所述目标终端通信的目标网络延迟时间,包括:
通过与所述目标终端的多次往返通信,从每次往返通信的报文中获取每次网络延迟时间;
根据所述每次网络延迟时间,通过指数加权移动平均法,预测得到与目标终端通信的目标网络延迟时间,所述目标网络延迟时间用于表示在目标终端发送语音连接请求信号之后,所述目标终端发送音频流的网络延迟时间。
4.根据权利要求1所述的方法,其特征在于,所述目标终端与所述服务端连接,所述获取多个目标终端中的各个目标终端对应的音频采样数据,包括:
针对每个所述目标终端,接收所述目标终端发送的http报文;从所述http报文中获取所述目标终端对应的音频采样数据。
5.根据权利要求2所述的方法,其特征在于,在所述对所述多个目标终端进行音频对齐之后,所述方法还包括:根据各个目标终端对应的所述时间戳,将对齐后的音频进行文本转换,生成多人语音会议纪要。
6.一种数据处理装置,其特征在于,应用于服务端,所述装置包括:
采样数据获取模块,用于获取多个目标终端中的各个目标终端对应的音频采样数据;
延迟时间确定模块,用于针对每个所述目标终端,通过与所述目标终端的多次往返通信,确定与所述目标终端通信的目标网络延迟时间;
音频对齐处理模块,用于根据所述多个目标终端对应的所述目标网络延迟时间、所述服务端的当前本地时间以及所述音频采样数据,对所述多个目标终端进行音频对齐;
其中,所述根据所述多个目标终端对应的所述目标网络延迟时间、所述服务端的当前本地时间以及所述音频采样数据,对所述多个目标终端进行音频对齐,包括:
针对每个所述目标终端,根据所述目标网络延迟时间和所述当前本地时间,得到所述目标终端对应的音频起始时间;
根据所述多个目标终端对应的所述音频起始时间和所述音频采样数据,对所述多个目标终端进行音频对齐;
其中,所述音频采样数据包括采样频率和采样位数;所述根据所述多个目标终端对应的所述音频起始时间和所述音频采样数据,对所述多个目标终端进行音频对齐,包括:
获取所述目标终端每次发送音频流的字节长度;
计算所述采样频率和所述采样位数的乘积,并根据所述字节长度和所述乘积,计算所述字节长度与所述乘积的比值,得到每次接收的所述音频流的音频时长;
根据所述多个目标终端设备对应的所述音频起始时间和所述音频时长,对所述多个目标终端进行音频对齐。
7.一种数据处理设备,其特征在于,所述数据处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如权利要求1至5中任一项所述的数据处理方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如权利要求1至5中任一项所述的数据处理方法的步骤。
CN202010948371.8A 2020-09-10 2020-09-10 数据处理方法、装置、设备及存储介质 Active CN112086095B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010948371.8A CN112086095B (zh) 2020-09-10 2020-09-10 数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010948371.8A CN112086095B (zh) 2020-09-10 2020-09-10 数据处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112086095A CN112086095A (zh) 2020-12-15
CN112086095B true CN112086095B (zh) 2024-01-19

Family

ID=73736245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010948371.8A Active CN112086095B (zh) 2020-09-10 2020-09-10 数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112086095B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115691516B (zh) * 2022-11-02 2023-09-05 广东保伦电子股份有限公司 一种低延迟音频矩阵配置方法及服务器

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000074088A (ko) * 1999-05-18 2000-12-05 윤종용 음성 코딩/디코딩 장치 및 그 방법
WO2004080072A1 (fr) * 2003-02-04 2004-09-16 France Telecom Systeme de sous-titrage dynamique de signaux de television et radiophoniques
CN102044248A (zh) * 2009-10-10 2011-05-04 北京理工大学 一种针对流媒体音频质量的客观评测方法
CN103905881A (zh) * 2014-03-13 2014-07-02 北京奇艺世纪科技有限公司 一种视频数据和音频数据同步播放的方法、装置和设备
CN103905879A (zh) * 2014-03-13 2014-07-02 北京奇艺世纪科技有限公司 一种视频数据和音频数据同步播放的方法、装置和设备
CN104155644A (zh) * 2014-08-20 2014-11-19 西安电子科技大学 一种基于声音传感器的测距方法及系统
CN106531167A (zh) * 2016-11-18 2017-03-22 北京云知声信息技术有限公司 一种语音信息的处理方法及装置
CN110442853A (zh) * 2019-08-09 2019-11-12 深圳前海微众银行股份有限公司 文本定位方法、装置、终端及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI282970B (en) * 2003-11-28 2007-06-21 Mediatek Inc Method and apparatus for karaoke scoring
US8429287B2 (en) * 2009-04-29 2013-04-23 Rangecast Technologies, Llc Network audio distribution system and method
US9531921B2 (en) * 2013-08-30 2016-12-27 Audionow Ip Holdings, Llc System and method for video and secondary audio source synchronization

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000074088A (ko) * 1999-05-18 2000-12-05 윤종용 음성 코딩/디코딩 장치 및 그 방법
WO2004080072A1 (fr) * 2003-02-04 2004-09-16 France Telecom Systeme de sous-titrage dynamique de signaux de television et radiophoniques
CN102044248A (zh) * 2009-10-10 2011-05-04 北京理工大学 一种针对流媒体音频质量的客观评测方法
CN103905881A (zh) * 2014-03-13 2014-07-02 北京奇艺世纪科技有限公司 一种视频数据和音频数据同步播放的方法、装置和设备
CN103905879A (zh) * 2014-03-13 2014-07-02 北京奇艺世纪科技有限公司 一种视频数据和音频数据同步播放的方法、装置和设备
CN104155644A (zh) * 2014-08-20 2014-11-19 西安电子科技大学 一种基于声音传感器的测距方法及系统
CN106531167A (zh) * 2016-11-18 2017-03-22 北京云知声信息技术有限公司 一种语音信息的处理方法及装置
CN110442853A (zh) * 2019-08-09 2019-11-12 深圳前海微众银行股份有限公司 文本定位方法、装置、终端及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种面向互联网应用的多路实时流媒体同步合成方案;王英兰;刘晓强;李柏岩;宋晖;陶抒青;蔡立志;刘振宇;;东华大学学报(自然科学版)(01);全文 *
移动流媒体系统中自适应码流传输研究;吴伟信;;泉州师范学院学报(06);全文 *

Also Published As

Publication number Publication date
CN112086095A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN106488335B (zh) 直播控制方法及装置
US10827065B2 (en) Systems and methods for providing integrated computerized personal assistant services in telephony communications
CN110741435B (zh) 音频信号处理的方法、系统和介质
CN107395742B (zh) 基于智能音箱的网络通信方法以及智能音箱
CN105049319A (zh) 好友添加方法及系统、客户端及服务器
CN111078930A (zh) 音频文件数据处理方法及装置
CN105099795A (zh) 抖动缓冲器水平估计
CN111490947B (zh) 数据包发送方法、数据包接收方法、系统、设备及介质
CN112086095B (zh) 数据处理方法、装置、设备及存储介质
CN106713171B (zh) 服务器、基于延时队列的限流保护系统及方法
CN110543428A (zh) 应用系统的测试方法及装置
CN104092720A (zh) 播放列表的分享方法及装置
US9972342B2 (en) Terminal device and communication method for communication of speech signals
JP7341323B2 (ja) 全二重による音声対話の方法
CN112786070A (zh) 音频数据处理方法、装置、存储介质与电子设备
CN104700830A (zh) 一种语音端点检测方法及装置
CN112416289A (zh) 一种音频同步方法、装置、设备和存储介质
CN107967921B (zh) 会议系统的音量调节方法及装置
US8752101B2 (en) Distribution system
CN104348701A (zh) 一种在即时通信工具中进行文件传输的方法及装置
WO2016188078A1 (zh) 身份识别卡的联网处理方法及装置
WO2016054885A1 (zh) 操作对象的处理方法及装置
CN113098931B (zh) 信息分享方法和多媒体会话终端
CN113973089B (zh) 一种流媒体传输方法、系统、设备及存储介质
JP7333731B2 (ja) 通話品質情報を提供する方法および装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant