CN114185511A

CN114185511A - 一种音频数据处理方法、装置及电子设备

Info

Publication number: CN114185511A
Application number: CN202111438967.4A
Authority: CN
Inventors: 江鹏; 黄伟琦; 夏帅
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-03-15
Also published as: EP4120245A3; EP4120245A2; US20230117749A1

Abstract

本公开提供了一种音频数据处理方法、装置及电子设备，涉及自然语言处理技术领域，尤其涉及音频转换技术领域。具体实现方案为：接收至少一个音频矩阵发送的至少两份音频数据，所述音频数据由麦克风阵列采集并发送至所述音频矩阵；将全部所述音频数据分别转换为对应的文本数据；发送所述音频数据及所述音频数据对应的所述文本数据。

Description

一种音频数据处理方法、装置及电子设备

技术领域

本公开涉及自然语言处理领域，尤其涉及音频技术、数字会议、语音转写技术领域，具体涉及一种音频数据处理方法、装置及电子设备。

背景技术

随着网络通信和多媒体技术的迅猛发展，在一些场景下需要实时地将语音数据转换为文本数据，并记录和显示文本数据。典型的场景包括：视频会议和线下会议对应的会议纪要等。在一些场景下可能存在多个用户同时发出音频数据的情况，针对该场景，如何实时、准确地将每个用户的音频数据转换为对应的文本数据是音频数据处理领域一直追求的目标。

发明内容

本公开提供了一种音频数据处理方法、装置及电子设备。

根据本公开的第一方面，提供了一种音频数据处理方法，包括：

接收至少一个音频矩阵发送的至少两份音频数据，所述音频数据由麦克风阵列采集并发送至所述音频矩阵；

将全部所述音频数据分别转换为对应的文本数据；

发送所述音频数据及所述音频数据对应的所述文本数据。

根据本公开的第二方面，提供了一种音频数据处理装置，所述音频数据处理装置包括：

接收模块，用于接收至少一个音频矩阵发送的至少两份音频数据，所述音频数据由麦克风阵列采集并发送至所述音频矩阵；

数据转换模块，用于将全部所述音频数据分别转换为对应的文本数据；

发送模块，用于发送所述音频数据及所述音频数据对应的所述文本数据。

根据本公开的第三方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的音频数据处理方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述的音频数据处理方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令在被处理器执行时实现根据上述的音频数据处理方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例提供的音频数据处理方法的一种可选处理流程示意图；

图2是本公开实施例提供的音频数据处理方法的一种详细处理流程示意图；

图3是本公开实施例提供的音频数据处理装置对两场会议产生的数据同时进行处理的架构图；

图4是本公开实施例提供的音频数据处理装置的一种可选组成结构示意图；

图5是用来实现本公开实施例的音频数据处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开实施例的目的，不是旨在限制本公开。

在对本公开实施例进行详细说明之前，对本公开涉及的名词进行解释。

1)音频矩阵，是指通过阵列切换的方法将m路音频信号任意输出至n路设备上的电子装置。通常，音频矩阵的输入通道数量大于输出通道数量，即m>n。

2)自然语言处理(Natural Language Processing，NLP)，是以语言为对象，利用计算机技术来分析、理解和处理自然语言的一门学科,即把计算机作为语言研究的强大工具，在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。包括自然语言理解(Natural Language Understanding，NLU)和自然语言生成(Natural Language Generation，NLG)两部分。自然语言处理。自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。

3)热词，也可以称为热门词汇。作为一种词汇现象，反映了一个国家、一个地区在一个时期人们普遍关注的问题和事物。具有时代特征，反映一个时期的热点话题及民生问题。其主要表达形式有语言、文字以及网络图片。。

4)敏感词，一般是指带有敏感政治倾向、暴力倾向、不健康色彩的词或不文明语。

5)麦克风阵列，由两个或两个以上麦克风构成；麦克风是将声音信号转换为电信号的能量转换器件。

相关技术中，在一些场景下需要对会议进行数字化记录形成会议纪要，即将会议中的语音转换为文字。而现有的方案中，通常只有一个麦克风用于拾音；如在一个会议室内，多人参加一个会议，只有一个麦克风用于拾音，无法区分拾取的音频数据属于哪位参会人员。或者，在麦克风拾音之后，通过人工手动区分所拾取的音频数据分别属于哪位参会人员；但是，这种方法不能够满足实时记录会议纪要的要求，在参会人员音域相似的情况下，很难准确的区分音频数据属于哪位参会人员。

本公开提供一种音频数据处理方法，包括：接收至少一个音频矩阵发送的至少两份音频数据，所述音频数据由麦克风阵列采集；将全部所述音频数据分别转换为对应的文本数据；发送所述音频数据及所述音频数据对应的所述文本数据。

本公开实施例提供的音频数据处理方法能够实时、准确地将多路音频数据分别转换为对应的文本数据。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本公开实施例提供了如下实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。方法在实际的处理过程中或者控制设备执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。

图1是本公开提供的音频数据处理方法的一种可选处理流程示意图，音频数据处理方法至少可以包括以下步骤：

步骤S201，接收至少一个音频矩阵发送的至少两份音频数据，所述音频数据由麦克风阵列采集并发送至所述音频矩阵。

在一些可选实施例中，音频数据处理装置接收至少一个音频矩阵发送的至少两份音频数据。

在一些可选实施例中，可以在会议室等场景设置一个或多个音频矩阵；每个音频矩阵与一个麦克风阵列建立连接，通过音频矩阵与麦克风矩阵建立连接，使得麦克风拾取的音频数据能够发送至音频矩阵；其中，一个麦克风阵列可以包括多个麦克风。

在具体实施时，一场会议可以对应一个音频矩阵，一场会议也可以对应多个音频矩阵。针对一场会议对应一个音频矩阵的场景，参会人员的数量小于或等于与一个音频矩阵建立连接的麦克风阵列中麦克风的数量；作为示例，若第一会议的参会人员数量为12人，第一会议仅对应第一音频矩阵，与第一音频矩阵建立连接的麦克风阵列包括12个麦克风或多于12个麦克风。针对一场会议对应多个音频矩阵的场景，参会人员的数量大于与一个音频矩阵建立连接的麦克风阵列中麦克风的数量；作为示例，若第二会议的参会人员数量为20人，第二会议对应第二音频矩阵和第三音频矩阵，与第二音频矩阵建立连接的麦克风阵列包括12个麦克风，由于12个麦克风无法拾取20位参会人员的音频数据，或者即便12个麦克风能够拾取20位参会人员的音频数据，也会发生音频数据串音的问题，因此，采用可采用多个音频矩阵获取第二会议的音频数据，其中，与第三音频矩阵建立连接的麦克风阵列可以包括8个或8个以上的麦克风。上述仅以一场会议对应2个音频矩阵作为示例，在实际应用过程中，一场会议也可以对应多个音频矩阵；如第二会议对应三个音频矩阵，与每个音频矩阵建立连接的麦克风阵列包括的麦克风数量均为7个。

在一些可选实施例中，可以建立每个麦克风与一位参会人员的对应关系，如此，可以麦克风拾取的音频数据属于哪位参会人员。

步骤S202，将全部所述音频数据分别转换为对应的文本数据。

在一些可选实施例中，将全部所述音频数据分别转换为对应的文本数据的具体实现过程可以包括：针对每份音频数据执行下述操作：将所述音频数据转换为对应的候选文本数据；响应于所述候选文本数据中包括敏感词，删除所述候选文本数据中的所述敏感词，得到所述文本数据。

在具体实施时，可以对候选文本数据与预设的敏感词进行匹配，检测候选文本数据中是否包括敏感词；若候选文本数据中包括敏感词，则将候选文本数据中的敏感词删除，或者将候选文本数据中的敏感词替换为特殊符号；其中，特殊符号可以是预设的“*”、“#”和“&”等。敏感词可以是预先设置的具有敏感政治倾向、暴力倾向、不健康色彩的词或不文明语。

在另一些可选实施例中，将全部所述音频数据分别转换为对应的文本数据的具体实现过程可以包括：针对每份音频数据执行下述操作：将所述音频数据转换为对应的候选文本数据；响应于所述候选文本数据中包括热词，基于所述热词对所述候选文本数据进行修正，得到所述文本数据。

在一些实施例中，可以对候选文本数据与预设的热词进行匹配，检测候选文本数据中是否包括敏感词；若候选文本数据中包括敏感词，则基于热词对候选文本数据进行修正。作为示例，若候选文本数据中包括“耗子尾汁”，在对候选文本数据进行热词匹配时，检测到候选文本数据中包括的“耗子尾汁”为热词，则将热词“耗子尾汁”修正为“好自为之”。其中，热词可以包括网络热词，即生成并流传于网络的被赋予特定时代和语言环境意义的使用频率较高的新兴词汇。

本公开实施例中，可以仅对候选文本数据执行敏感词检测；也可以进队候选数据执行热词检测；还可以对候选文本数据既执行敏感词检测，又可以对候选文本数据执行热词检测

本公开实施例中，通过对候选文本数据进行敏感词检测以及热词检测，能够对候选文本数据进行矫正，提高语音数据转换为文本数据的准确率。

本公开实施例中，将音频数据转换为候选文本数据的过程可以基于现有的自动语音识别(Automatic Speech Recognition，ASR)算法实现，本申请实施例中不做限定。

步骤S203，发送所述音频数据及所述音频数据对应的所述文本数据。

在一些可选实施例中，音频数据处理装置将音频数据以及各音频数据分别对应的文本数据发送至所述音频数据处理装置对应的显示设备，以使显示设备显示文本数据以及音频数据对应的音频波形。其中，显示设备也可以称为前端设备，显示设备与数据处理装置可以是两个相互独立的设备，显示设备也可以是数据处理装置的一部分。

本公开实施例中，通过显示设备显示文本数据以及音频数据对应的音频波形，能够形成并显示针对会议的会议纪要，使得用户能够直观的查看会议内容。在一些实施例中，还可以将会议纪要存储至存储器。

在一些可选实施例中，在执行步骤S203之前，所述音频数据处理方法还可以包括：

步骤S202’，确定发送所述音频数据的音频矩阵，基于所述音频矩阵确定采集所述音频数据的麦克风。

在一些场景中，若包括两个或两个以上的音频矩阵，每个音频矩阵所关联的麦克风用相同的标识方式，则需首选确定发送音频数据的音频矩阵。其中，标识方式可以包括：字母、数字等。作为示例，若一个会议场景包括两个音频矩阵，分别是音频矩阵1和音频矩阵2；音频矩阵1关联3个麦克风，分别用数字1、2和3标识；音频矩阵2页关联3个麦克风，分别用数字1、2和3标识。则若要确定采集音频数据的麦克风，需要先确定发送音频数据的音频矩阵，再在音频矩阵关联的多个麦克风中确认采集音频数据的麦克风。

步骤S203’，在一些实施例中，确定采集所述音频数据的麦克风的标识，发送所述麦克风的标识，以使接收端显示所述文本数据、所述音频数据对应的音频波形以及采集所述音频数据的所述麦克风的标识。

在一些实施例中，所述麦克风的标识用于区分所述麦克风阵列中不同的麦克风。

在一些实施例中，音频数据处理装置确定发送所述音频数据的音频矩阵以及采集所述音频数据的麦克风的标识。具体的，音频矩阵向音频数据处理装置发送音频数据时，可以同时发送音频矩阵的标识以及采集音频数据的麦克风的标识；音频数据处理装置也可以在会议开启前获取音频矩阵的标识以及音频矩阵包括的麦克风的标识。其中，麦克风的标识与会议的参会人员具有一一对应关系，即每个麦克风拾取一名参会人员的音频数据，麦克风的标识与参会人员的姓名具有对应关系。

在一些实施例中，所述方法还可以包括：构建所述音频数据与音频矩阵和麦克风的对应关系。

本申请实施例中，对应关系用于表征发送所述音频数据的音频矩阵以及采集所述音频数据的麦克风；通过确定音频数据对应的音频矩阵，以及确定拾取音频数据的麦克风，并构建所述音频数据与音频矩阵和麦克风的对应关系，使得音频数据处理装置能够确定音频数据对应的参会人员；通过每位参会人员分别使用一个麦克风，能够避免音频数据发生串音，使得音频数据处理装置准确地获取每个参会人员的音频数据。

下面以会议场景下的设备拾音端拾取音频数据、会议纪要服务端对对音频数据转换为例，对本公开实施例提供的音频数据处理方法进行说明。音频数据处理方法的一种可选详细处理流程示意图，如图2所示，至少可以包括以下步骤：

步骤S301，会议纪要前端触发会议开始，会议纪要前端与会议纪要服务端建立双向通信(WebSocket，WS)连接。

其中，WebSocket是基于传输控制协议(Transmission Control Protocol，TCP)/网络协议(Internet Protocol，IP)，独立于超文本传输协议(HyperText TransferProtocol，HTTP)的通信协议。WebSocket是双向通讯，有状态，客户端一(多)个与服务端一(多)双向实时响应(客户端

服务端)。

在一些实施例中，会议纪要前端可以是安装有会议对应的应用程序或会议对应的小程序的电子设备；通过触控相应的控件启动会议。

在另一些实施例中，会议纪要前端也可以是会议纪要服务端的一部分，会议纪要前端用于启动会议以及显示会议纪要。

步骤S302，会议纪要服务端测试自身的接口，触发设备拾音端运行。

在一些实施例中，会议纪要服务端测试自身的接口可以指：测试会议纪要服务用于接收设备拾音端发送的音频数据的接口是否可用。

步骤S303，设备拾音端初始化自身的软件开发工具包(Software DevelopmentKit，SDK)接口，并进行SDK接口的性能测试。

在一些实施例中，设备拾音端可以包括音频矩阵；音频矩阵通过SDK接口接收麦克风矩阵发送的音频数据。

在一些实施例中，设备拾音端进行SDK接口的性能测试的过程可以是：参会人员接入会议并产生音频数据，麦克风矩阵拾取音频数据，并将音频数据发送至设备拾音端。设备拾音端通过检测是否接收到音频数据，和/或检测是否能够识别音频数据实现对SDK接口的性能测试。若设备拾音端能够接收到音频数据，并且能够识别所接收的音频数据，则表征SDK接口性能优良。若设备拾音端不能够接收到音频数据，或者接收到音频数据后不能够识别所接收的音频数据，则表征SDK接口性能差，需对设备拾音端进行调试，以使设备拾音端能够接收到音频数据，并且能够识别所接收的音频数据。

步骤S304，设备拾音端获取矩阵设备标识以及麦克风标识，并开启实时回调功能。

在一些实施例中，通过开启实时回调功能，使得设备拾音端在接收到音频矩阵发送的音频数据时，实时调用回调函数，通过回调函数将音频数据发送至会议纪要服务端。

在一些实施例中，设备拾音端还可以创建句柄，该句柄指向一个固定的位置(如存放某一参会人员的音频数据的区域)，该区域中的值可以动态地变化，它时刻记录着当前时刻音频数据在内存中的地址。这样，无论对象的位置在内存中如何变化，只要我们掌握了句柄的值，就可以找到该区域，进而找到该音频数据。

步骤S305，设备拾音端将拾取的音频数据发送至会议纪要服务端。

步骤S306，会议纪要服务端将音频数据转换为候选文本数据。

步骤S307，会议纪要服务端对候选文本进行敏感词和热词匹配，根据匹配结果对候选文本中的内容进行删除或修正处理，得到目标文本数据。

步骤S308，会议纪要服务端将音频数据及对应的目标文本数据发送至会议纪要前端。

步骤S309，会议纪要前端显示音频数据对应的音频波形及目标文本数据。

在一些实施例中，若会议结束，则设备拾音端退出登录，并释放句柄，清楚SDK接口，完成会议拾音的注销流程。

本公开实施例中，音频数据处理装置可以对一场会议产生的数据进行处理，也可以对两场或两场会议产生的数据同时进行处理；下面以音频数据处理装置对两场会议产生的数据同时进行处理为例，音频数据处理装置对两场会议产生的数据同时进行处理的架构图，如图3所示，两场会议分别是会议1和会议2，会议1的参会人员包括n个，分别是参会人员1、参会人员2…参会人员n；会议2的参会人员包括m个，分别是参会人员a、参会人员b…参会人员m。会议1中n个参会人员的音频数据分别由麦克风1、麦克风2…麦克风n采集，并发送至音频矩阵1。音频矩阵1将会议1的音频数据以及每个音频数据对应的麦克风标识发送至音频数据处理装置。会议2中m个参会人员的音频数据分别由麦克风a、麦克风b…麦克风m采集，并发送至音频矩阵2。音频矩阵2将会议2的音频数据以及每个音频数据对应的麦克风标识发送至音频数据处理装置。麦克风处理装置将收到的会议1的数据和会议2的数据分别转换为文本数据，并将文本数据以及该数据对应的参会人员名称发送至显示设备；显示设备显示文本数据集对应的参会人员名称。其中，显示设备可以是独立于音频数据处理装置的设备，显示设备也可以属于音频数据处理装置。

需要说明的是，本公开实施例中，麦克风采集音频数据也可以称为麦克风拾取音频数据。

本公开实施例还提供一种音频数据处理装置，所述音频数据处理装置的一种可选组成结构示意图，如图4所示，音频数据处理装置400包括：

接收模块401，用于接收至少一个音频矩阵发送的至少两份音频数据，所述音频数据由麦克风阵列采集并发送至所述音频矩阵；

数据转换模块402，用于将全部所述音频数据分别转换为对应的文本数据；

发送模块403，用于发送所述音频数据及所述音频数据对应的所述文本数据。

在一些可选实施例中，所述数据转换模块402，用于针对每份音频数据执行下述操作：

将所述音频数据转换为对应的候选文本数据；

响应于所述候选文本数据中包括敏感词，删除所述候选文本数据中的所述敏感词，得到所述文本数据。

将所述音频数据转换为对应的候选文本数据；

响应于所述候选文本数据中包括热词，基于所述热词对所述候选文本数据进行修正，得到所述文本数据。

在一些可选实施例中，所述音频数据处理装置400还包括确定模块404，所述确定模块404，用于针对每份音频数据执行下述操作：

确定发送所述音频数据的音频矩阵；

基于所述音频矩阵确定采集所述音频数据的麦克风。

在一些可选实施例中，所述确定模块404，用于针对每份音频数据执行下述操作：

确定采集所述音频数据的麦克风的标识，所述麦克风的标识用于区分所述麦克风阵列中不同的麦克风；

所述发送模块403，用于发送所述麦克风的标识，以使接收端显示所述文本数据、所述音频数据对应的音频波形以及采集所述音频数据的所述麦克风的标识。

在一些可选实施例中，每个所述音频矩阵分别对应一个会议场景。

在一些可选实施例中，所述音频数据处理装置400还包括显示模块405；所述显示模块405，用于针对每份音频数据执行下述操作：显示所述音频数据对应的音频波形、所述音频数据对应的文本数据以及采集所述音频数据的麦克风的标识。

本公开的技术方案中，所涉及的数据的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品，所述电子设备包括本公开实施例提供的音频数据处理装置。

图5示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。在一些实施例中，电子设备800可以是终端设备，也可以是服务器。在一些实施例中，电子设备800可以通过运行计算机程序来实现本申请实施例提供的音频数据处理方法，例如，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(Native)应用程序(Application，APP)，即需要在操作系统中安装才能运行的程序；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

在实际应用中，电子设备800可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，其中，云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。电子设备800可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表等，但并不局限于此。

电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备、车载终端和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(Read-Only Memory，ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(Read-Only Memory，RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储电子设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(Input/Output，I/O)接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphics Processing Unit，GPU)、各种专用的人工智能(ArtificialIntelligence，AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Processing，DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如音频数据处理方法。例如，在一些实施例中，音频数据处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的音频数据处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为音频数据处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application-Specific Integrated Circuit，ASIC)、专用标准产品(ApplicationSpecific Standard Parts，ASSP)、芯片上系统的系统(System-on-a-Chip，SOC)、负载可编程逻辑设备(Complex Programmable Logic Device，CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的交通识别限制方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)或快闪存储器、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管(Cathode Ray Tube，CRT)或者液晶显示器监视器(Liquid Crystal Display，LCD)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种音频数据处理方法，包括：

将全部所述音频数据分别转换为对应的文本数据；

发送所述音频数据及所述音频数据对应的所述文本数据。

2.根据权利要求1所述的方法，其中，所述将全部所述音频数据分别转换为对应的文本数据，包括：

针对每份音频数据执行下述操作：

将所述音频数据转换为对应的候选文本数据；

3.根据权利要求1所述的方法，其中，所述将全部所述音频数据分别转换为对应的文本数据，包括：

针对每份音频数据执行下述操作：

将所述音频数据转换为对应的候选文本数据；

4.根据权利要求1所述的方法，其中，所述接收至少一个音频矩阵发送的至少两份音频数据之后，所述方法还包括：

针对每份音频数据执行下述操作：

确定发送所述音频数据的音频矩阵；

基于所述音频矩阵确定采集所述音频数据的麦克风。

5.根据权利要求1或4所述的方法，其中，所述接收至少一个音频矩阵发送的至少两份音频数据之后，所述方法还包括：

针对每份音频数据执行下述操作：

发送所述麦克风的标识，以使接收端显示所述文本数据、所述音频数据对应的音频波形以及采集所述音频数据的所述麦克风的标识。

6.根据权利要求1所述的方法，其中，每个所述音频矩阵分别对应一个会议场景。

7.一种音频数据处理装置，所述音频数据处理装置包括：

8.根据权利要求7所述的音频数据处理装置，其中，

所述数据转换模块，用于针对每份音频数据执行下述操作：

将所述音频数据转换为对应的候选文本数据；

9.根据权利要求7所述的音频数据处理装置，其中，

所述数据转换模块，用于针对每份音频数据执行下述操作：

将所述音频数据转换为对应的候选文本数据；

10.根据权利要求7所述的音频数据处理装置，其中，所述音频数据处理装置还包括确定模块，

所述确定模块，用于针对每份音频数据执行下述操作：

针对每份音频数据执行下述操作：

确定发送所述音频数据的音频矩阵；

基于所述音频矩阵确定采集所述音频数据的麦克风。

11.根据权利要求7或10所述的音频数据处理装置，其中，所述音频数据处理装置还包括确定模块，

所述确定模块，用于针对每份音频数据执行下述操作：

确定采集所述音频数据的麦克风的标识；所述麦克风的标识用于区分所述麦克风阵列中的不同麦克风；

所述发送模块，用于发送所述麦克风的标识，以使接收端显示所述文本数据、所述音频数据对应的音频波形以及采集所述音频数据的所述麦克风的标识。

12.根据权利要求7所述的音频数据处理装置，其中，

每个所述音频矩阵分别对应一个会议场景。

13.一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至6中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现权利要求1至6中任一项所述的方法。