CN113761118A

CN113761118A - 音频数据处理方法、装置、音频数据处理设备及存储介质

Info

Publication number: CN113761118A
Application number: CN202110437064.8A
Authority: CN
Inventors: 王书培; 张忱; 邓理英
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-12-07

Abstract

本申请公开了一种音频数据处理方法、装置、音频数据处理设备及存储介质，该方法包括：获取在目标识别场景中采集到的目标音频数据，并获取场景通用词库；场景通用词库包括M个场景通用词语，M为正整数；基于M个场景通用词语对目标音频数据进行文本转换，得到转换文本数据；获取与目标识别场景相关联的目标术语词库，并获取转换文本数据中的异常转换词语；目标术语词库包括在目标识别场景下的N个术语词语，N为正整数；从N个术语词语中获取异常转换词语对应的目标术语词语，将转换文本数据中的异常转换词语替换为目标术语词语，得到转换文本数据的修正文本数据。可以提升对目标音频数据进行文本转换的准确性。

Description

音频数据处理方法、装置、音频数据处理设备及存储介质

技术领域

本申请涉及语音处理技术领域，尤其涉及一种音频数据处理方法、一种音频数据处理装置、一种音频数据处理设备及一种计算机存储介质。

背景技术

随着数据处理技术的进步以及移动互联网的快速普及，语音识别技术在越来越多的领域得到应用。其中，语音识别技术也被称为自动语音识别(Automatic SpeechRecognition，ASR)，可以让计算机“听写”出语音，也就是实现“音频数据”转换到“文本数据”的技术。

现有技术中，在将音频数据转换为文本数据时，直接通过一个通用词库中的通用词语即可实现转换。而由于音频数据可以是在任意场景中获取到的，该音频数据很大可能包含所属场景内的一些专用词语，而该专用词语通常不属于通用的词语，因此，直接通过通用词库对音频数据进行文本转换，会导致文本转换的结果并不准确。

发明内容

本申请实施例提供了一种音频数据处理方法、装置、音频数据处理设备及存储介质，可以准确地将目标音频数据转换为文本数据，提升文本转换的准确性。

一方面，本申请实施例提供了一种音频数据处理方法，该音频数据处理方法包括：

获取在目标识别场景中采集到的目标音频数据，并获取场景通用词库；该场景通用词库包括M个场景通用词语，M为正整数；

基于M个场景通用词语对目标音频数据进行文本转换，得到转换文本数据；

获取与目标识别场景相关联的目标术语词库，并获取转换文本数据中的异常转换词语；该目标术语词库包括在目标识别场景下的N个术语词语，N为正整数；

从N个术语词语中获取异常转换词语对应的目标术语词语，将转换文本数据中的异常转换词语替换为目标术语词语，得到转换文本数据的修正文本数据。

一方面，本申请实施例提供了一种音频数据处理装置，该音频数据处理装置包括：

获取单元，用于获取在目标识别场景中采集到的目标音频数据，并获取场景通用词库；该场景通用词库包括M个场景通用词语，M为正整数；

转换单元，用于基于M个场景通用词语对目标音频数据进行文本转换，得到转换文本数据；

该获取单元还用于获取与目标识别场景相关联的目标术语词库，并获取转换文本数据中的异常转换词语；该目标术语词库包括在目标识别场景下的N个术语词语，N为正整数；

替换单元，用于从N个术语词语中获取异常转换词语对应的目标术语词语，将转换文本数据中的异常转换词语替换为目标术语词语，得到转换文本数据的修正文本数据。

一方面，本申请实施例提供了一种音频数据处理设备，该音频数据处理设备包括输入接口、输出接口，该音频数据处理设备还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，该计算机存储介质存储有一条或多条指令，一条或多条指令适于由处理器加载并执行如下步骤：

一方面，本申请实施例提供了一种计算机存储介质，该计算机存储介质存储有一条或多条指令，一条或多条指令适于由处理器加载并执行如下步骤：

本申请实施例中，当音频数据处理设备获取在目标识别场景中采集到的目标音频数据时，可以先基于场景通用词库中包括的M个场景通用词语对目标音频数据进行文本转换得到转换文本数据，然后再根据与目标识别场景相关联的目标术语词库对转换文本数据中的异常转换词语进行修正，将转换文本数据中的异常转换词语替换为目标术语词库中的目标术语词语，得到转换文本数据的修正文本数据。由于利用了与目标识别场景下相关联的目标术语词库对该目标识别场景下的目标音频数据的转换文本数据进行修正，相比于标注人员人工对目标识别场景下的目标音频数据进行文本转换的方案，无需人工查询目标识别场景下的术语词语，可有效节省人力资源，提升目标音频数据的处理效率；并且，还可不受音频数据处理人员的能力限制，通过目标术语词库可以精准获得该目标音频数据中对应的目标术语词语，降低文本数据(修正文本数据)中的错字率，保证目标音频数据对应的文本数据(修正文本数据)的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音频数据处理系统的系统架构示意图；

图2是本申请实施例提供的一种音频数据处理方法的流程示意图；

图3是本申请实施例提供的另一种音频数据处理方法的流程示意图；

图4是本申请实施例提供的另一种音频数据处理方法的流程示意图；

图5是本申请实施例提供的一种信息交互平台的界面示意图；

图6是本申请实施例提供的一种生成目标术语词库的流程示意图；

图7是本申请实施例提供的一种区块链的结构示意图；

图8是本申请实施例提供的一种音频数据处理装置的结构示意图；

图9是本申请实施例提供的一种音频数据处理设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，本申请实施例基于语音处理技术提出了一种音频数据处理方法，可以通过目标识别场景下的目标术语词库来提升对目标识别场景下的目标音频数据进行文本转换的准确性。具体的，可以先利用场景通用词库包括的M个通用词语对目标识别场景中采集到的目标音频数据进行文本转换得到转换文本数据，然后再利用目标识别场景相关联的目标术语词库对转换文本数据中的异常转换词语进行修正，得到修正文本数据。由于目标音频数据可能包含目标识别场景内的一些术语词语，术语词语不属于场景通用词语，所以根据场景通用词库进行文本转换得到转换文本数据中可能存在一些异常转换词语。本申请利用目标术语词库中的术语词语对转换文本数据中的异常转换词语进行修正得到修正文本数据，使得目标音频数据转换的文本数据的准确性更高。

其中，文本数据的准确性可以由错字率进行评估。文本数据的准确性与文本数据的错字率成负相关关系，即，文本数据的错字率越低，文本数据的准确性越高。其中，音频数据处理设备可以利用以下表达式计算文本数据的错字率：

其中，CER用于表示文本数据中的错字率，N用于表示文本数据中的字符总数，S用于表示文本数据中被替换的字符数目，D用于表示文本数据中被删除的字符数目，I用于表示文本数据中被插入的字符数目。

在一个实施例中，该音频数据处理方法可用于对目标识别场景中采集到的目标音频数据进行文本转换，确定该目标音频数据对应的文本数据。在该音频数据处理方法用于确定目标音频数据对应的文本数据时，该音频数据处理方法可应用在如图1所示的音频数据处理系统中，该音频数据处理系统可至少包括：音频数据采集设备11和音频数据处理设备12。其中，该音频数据采集设备11可以是图1所示独立的麦克风，也可以是携带麦克风的其他设备，例如智能手机等等。音频数据处理设备12可以是图1所示的服务器，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、内容分发网络(Content Delivery Network，CDN)、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器，等等。其中，该音频数据处理设备12还可以是终端设备，该终端设备可以包括但不限于：智能手机、平板电脑、膝上计算机、可穿戴设备、台式计算机，等等。其中，在图1中，音频数据采集设备11和音频数据处理设备12是独立的设备，需要说明，在一些可行的实施方式中，音频数据采集设备11还可以是内嵌于音频数据处理设备12的设备，本申请对此不作限定。

请参见图2，是本申请实施例提出的一种音频数据处理方法的流程示意图。如图2所示，该音频数据处理方法包括步骤S201-S204：

S201，获取在目标识别场景中采集到的目标音频数据，并获取场景通用词库；该场景通用词库包括M个场景通用词语，M为正整数。

其中，目标音频数据可以包括以下一种或多种类型的数据：音视频文件、一句话音频或者实时的语音流。

在一个实施例中，音频数据处理设备可以直接获取目标识别场景下的目标音频数据。在另一个实施例中，音频数据处理设备可以从音频数据采集设备获取目标识别场景下的目标音频数据。具体的，音频数据处理系统中的音频数据采集设备与音频数据处理设备之间建立有通信连接。处于目标识别场景下的音频数据采集设备可以采集目标识别场景下的音频数据得到目标音频数据。然后，音频数据处理设备可以通过音频数据采集设备与音频数据处理设备之间的通信连接获取该目标识别场景下采集到的目标音频数据。例如，在游戏场景下，可以通过音频数据采集设备(如游戏终端设备)采集用户在游戏交互过程中的游戏音频数据，然后，音频数据采集设备可以将用户在游戏交互过程中的游戏音频数据作为目标音频数据。音频数据处理设备可以获取该游戏场景下的游戏音频数据，如图3中所示的目标音频数据。

其中，场景通用词库用于实现音频类型的数据到文本类型的数据的转换。该场景通用词库可以包括M个场景通用词语，M为正整数。场景通用词库可以是通用词典，例如《现代汉语语法信息词典》、清华大学词典、知网词典等。场景通用词库也可以是自定义的词典。

S202，基于M个场景通用词语对目标音频数据进行文本转换，得到转换文本数据。

在一个实施例中，音频数据处理设备可以对目标音频数据执行音频数据划分操作，获得L个音频段，L为正整数，L小于或等于M。然后基于M个场景通用词语分别对L个音频段进行文本转换，确定L个音频段中每个音频段对应的场景通用词语，进而确定转换文本数据，该转换文本数据包括L个场景通用词语。仍承接图3所示的例子，可以将目标音频数据划分为音频段L1、音频段L2、音频段L3和音频段L4。基于场景通用词库中的M个场景通用词语分别对音频段L1、音频段L2、音频段L3和音频段L4进行文本转换，可以得到音频段L1对应的场景通用词语1(他)，可以得到音频段L2对应的场景通用词语2(退税)，可以得到音频段L3对应的场景通用词语3(给)以及得到音频段L4对应的场景通用词语4(你)，那么音频数据处理设备可以基于场景通用词语1、场景通用词语2、场景通用词语3以及场景通用词语4确定该转换文本数据为“他退税给你”。

其中，音频数据处理设备可以通过多种方式确定音频段对应的场景通用词语。可选的，针对L个音频段中的任意一个音频段，音频数据处理设备可以从音频段中获取该音频段所指示的词语拼音，并在M个场景通用词语中获取与该音频段所指示的词语拼音具有相似词语拼音的场景通用词语，作为该音频段对应的场景通用词语。

可选的，针对L个音频段中的任意一个音频段，音频数据处理设备可以获取针对M个场景通用词语的场景通用词语选取指令；根据场景通用词语选取指令将M个场景通用词语中所选择的场景通用词语，确定为该音频段对应的场景通用词语。

S203，获取与目标识别场景相关联的目标术语词库，并获取转换文本数据中的异常转换词语；目标术语词库包括在目标识别场景下的N个术语词语，N为正整数。

其中，一个识别场景关联有至少一个术语词库，该至少一个术语词库包括该识别场景中特定使用的术语词语。该术语词语通常不是常规词典(如前述的场景通用词库)中所包括的词语(如场景通用词库中的场景通用词语)。

具体的，在目标识别场景下，音频数据处理设备可以获取与目标识别场景相关联的术语词库，并将与目标识别场景相关联的术语词库称为目标术语词库。目标术语词库包括目标识别场景下的N个术语词语，N为正整数，N的具体取值根据实际应用场景决定。如图3所示，当目标识别场景为游戏场景时，可以获取到该游戏场景相关联的目标术语词库，该目标术语词库中包括：“退水”、“踩狼”和“共边”。

为了获取与目标识别场景相关联的目标术语词库，在一个实施例中，音频数据处理设备可以直接获取与目标识别场景相关联的目标术语词库。具体的，音频数据处理设备内可以预先存储有P个识别场景下的术语词库。音频数据处理设备可以根据目标识别场景从P个识别场景中选择出与目标识别场景相关联的目标术语词库，P为正整数。在另一个实施例中，在目标识别场景下，音频数据处理设备可以从区块链获取与目标识别场景相关联的目标术语词库。音频数据处理设备可以向区块链节点发送携带有场景标识的查询请求，区块链节点可以接收携带有场景标识的查询请求，根据场景标识从区块链中选择出与目标识别场景相关联的目标术语词库，并将目标术语词库发送至音频数据处理设备。

在一个实施例，与目标识别场景相关联的目标术语词库是预先生成的。音频数据处理设备生成目标术语词库的具体步骤可参考后续相关实施例的具体描述。这里不做赘述。

其中，由于场景通用词库无法覆盖目标识别场景下的目标术语词语；例如，场景通用词库无法覆盖方言中的术语词语(如龙门阵)；又例如，场景通用词库无法覆盖游戏场景中的术语词语(如退水)等等，在基于M个场景通用词语对目标音频数据进行文本转换时，可能无法准确对包含术语词语的目标音频数据进行文本转换，因此得到的转换文本数据中可能存在异常转换词语。

音频数据处理设备可以通过不同方式获取转换文本数据中的异常转换词语。在一个实施例中，音频数据处理设备可以获取转换文本数据所包含的L个场景通用词语；并获取L个场景通用词语中每个场景通用词语在转换文本数据中的文本转换置信度，然后将L个场景通用词语中的文本转换置信度小于置信度阈值的场景通用词语，确定为异常转换词语。具体的，转换文本数据可以包括L个场景通用词语，即该L个场景通用词语构成了转换文本数据。在将目标音频数据转换为转换文本数据时，该L个场景通用词语中的每个场景通用词语都可以具有一个文本转换置信度。其中，将目标音频数据转换为转换文本数据可以是由文本转换模型来转换的，该文本转换模型在将目标音频数据转换为转换文本数据时，可以得到该转换文本数据中每个场景通用词语的转换概率，该转换概率越高，就表征对应所转换的场景通用词语被转换的置信度就越高，该转换概率越低，就表征对应所转换的场景通用词语被转换的准确性就越低，可以将该转换概率作为上述文本转换置信度。因此，可以将上述L个场景通用词语中的每个场景通用词语的文本转换置信度与置信度阈值(可以根据实际应用场景自行设置)作比较，并根据比较结果判定L个场景通用词语中的每个场景通用词语是否为异常转换词语，即针对L个场景通用词语中的场景通用词语A，若场景通用词语A的文本转换置信度大于或等于置信度阈值，则场景通用词语A为正常转换词语；若场景通用词语A的文本转换置信度小于置信度阈值，则场景通用词语A为异常转换词语。

在另一个实施例中，音频数据处理设备可以获取转换文本数据所包含的L个场景通用词语，并获取针对L个场景通用词语的词语选择指令。然后根据词语选择指令将L个场景通用词语中所选择的场景通用词语，确定为异常转换词语。其中，词语选择指令可以包括多种类型。词语选择指令是根据用户界面内的用户操作所生成的，该用户操作可以包括用户界面内的点击、滑动、长按、双击等操作中的一种或多种。

例如，假设L个场景通用词语分别为场景通用词语A1、场景通用词语A2和场景通用词语A3。音频数据处理设备可以获取针对这三个场景通用词语的词语选择指令，并根据该词语选择指令确定这三个场景通用词语中的异常转换词语。例如，若该词语选择指令用于指示选择场景通用词语A1，那么音频数据处理设备就确定场景通用词语A1为异常转换词语；若该词语选择指令用于指示选择场景通用词语A2，那么音频数据处理设备就确定场景通用词语A2为异常转换词语；若该词语选择指令用于指示选择场景通用词语A3，那么音频数据处理设备就确定场景通用词语A3为异常转换词语；若该词语选择指令用于指示选择场景通用词语A1和场景通用词语A2，那么音频数据处理设备就将场景通用词语A1和场景通用词语A2确定为异常转换词语。若该词语选择指令用于指示选择场景通用词语A1和场景通用词语A3，那么音频数据处理设备就将场景通用词语A1和场景通用词语A3确定为异常转换词语。若该词语选择指令用于指示选择场景通用词语A2和场景通用词语A3，那么音频数据处理设备就将场景通用词语A2和场景通用词语A3确定为异常转换词语。若该词语选择指令用于指示选择场景通用词语A1、场景通用词语A2和场景通用词语A3，那么就将场景通用词语A1、场景通用词语A2和场景通用词语A3确定为异常转换词语。

其中，异常转换词语的数量可以有多个，一个异常转换词语可以对应有一个目标术语词语。

S204，从N个术语词语中获取异常转换词语对应的目标术语词语，将转换文本数据中的异常转换词语替换为目标术语词语，得到转换文本数据的修正文本数据。

在一个实施例中，音频数据处理设备可以根据目标音频数据获取异常转换词语对应的词语拼音，由于该词语拼音是根据对目标音频数据进行语音识别后再进行文本转换过程中所获取到的，因此该词语拼音有可能和异常转换词语本身实际的词语拼音是有差异的。可选的，音频数据处理设备可以根据通过目标音频数据所获取到的异常转换词语对应的词语拼音，在N个术语词语中获取与异常转换词语具有相似词语拼音的术语词语，作为目标术语词语，将转换文本数据中的异常转换词语替换为目标术语词语，得到转换文本数据的修正文本数据，即该修正文本数据也就是将转换文本数据中的异常转换词语对应替换为目标术语词语后所得到的文本数据。其中，音频数据处理设备可以利用词语拼音转换工具确定每个词语的词语拼音。

可选的，也可以通过异常转换词语本身实际的词语拼音，来获取目标术语词语，例如可以将目标术语词库中，具有与异常转换词语本身实际的词语拼音相似的词语拼音的术语词语，作为异常转换词语对应的目标术语词语。

仍承接图3所示的例子，假设转换文本数据中的“退税”为异常转换词语，那么音频数据处理设备可以根据目标音频数据确定该异常转换词语“退税”对应的词语拼音为“tuishui”。由前文描述可知，该目标术语词库中包括的“退水”、“踩狼”和“共边”，那么音频数据处理设备可以确定术语词语“退水”的拼音为“tuishui”，确定术语词语“踩狼”的拼音为“cailang”，以及确定术语词语“共边”的拼音为“gongbian”，音频数据处理设备可以将与异常转换词语“退税”具有相似词语拼音的术语词语“退水”作为目标术语词语，并将转换文本数据“他退税给你”中的异常转换词语“退税”替换为目标术语词语“退水”，得到转换文本数据的修正文本数据“他退水给你”。

在一个实施例中，音频数据处理设备可以将目标音频数据和修正文本数据确定为针对初始文本转换模型的训练样本数据；并基于训练样本数据训练初始文本转换模型，得到目标文本转换模型，其中，目标文本转换模型用于将音频类型的数据转换为文本类型的数据。在本申请实施例中，由于可以通过与目标识别场景相关联的目标术语词库来对目标识别场景下的目标音频数据的转换文本数据进行修正，因此可以得到更准确的目标音频数据的文本数据(如修正文本数据)，因此，当将目标音频数据和修正文本数据作为初始文本转换模型的训练样本数据时，该训练样本数据的准确性更高，从而通过准确性更高的训练样本数据训练得到的目标文本转换模型的准确性也会更高，后续通过训练得到的目标文本转换模型也可以更准确地将需要进行文本转换的音频类型数据转换为文本类型数据。

参见上述图2所示方法实施例的相关描述可知，图2所示的音频数据处理方法可以通过目标术语词库对目标音频数据的转换文本数据进行修正。其中，目标术语词库可以是基于信息交互平台中与目标识别场景相关联的场景交互文本内容生成的。参见图4所示，本申请实施例提出了另一种音频数据处理方法的流程示意图。如图4的所示，该音频数据处理方法可包括步骤S401-S403：

S401，获取信息交互平台中与目标识别场景相关联的场景交互文本内容。

其中，信息交互平台是指支持用户进行在线交流的任意平台。例如搜索引擎、即时通讯平台等。在信息交互平台中，若干用户可以针对一个话题或者多个话题进行讨论交流。例如，若干用户可以在搜索引擎的讨论区进行讨论交流。

在一个实施例中，由于信息交互平台传播大量数据，在信息交互平台中可以传播各种识别场景中的场景交互文本内容。针对每个识别场景，场景交互文本内容中通常包含有本识别场景下特定的术语词语。因此，音频数据处理设备可以在信息交互平台中获取到与目标识别场景相关联的场景交互文本内容。

其中，音频数据处理设备可以基于网络爬虫技术获取信息交互平台中与目标识别场景相关联的场景交互文本内容。具体的，音频数据处理设备可以在网络爬取框架中录入信息交互平台的访问网址，并在信息交互平台中录入与目标识别场景相关联的检索字段，使得音频数据处理设备可以在信息交互平台中查看与目标识别场景相关联的用户界面。如图5所示，当信息交互平台为搜索引擎，目标识别场景为游戏狼人杀场景时，音频数据处理设备可以在搜索引擎中录入游戏狼人杀场景下的检索字段“狼人杀”查看包含与游戏狼人杀场景相关联的交流内容的页面。然后基于编程语言编写的网络爬取框架通过文章提取器对信息交互平台中统一资源定位器(Uniform Resource Locator，URL)发起请求，获取信息交互平台的URL对应的超文本标记语言(HyperText Markup Language，HTML)页面中与目标识别场景相关联的场景交互文本内容。需要说明，音频数据处理设备可以通过HTML页面中的页面内容获取与目标识别场景相关联的场景交互文本内容。当页面内容为空时，音频数据处理设备对信息交互平台的下一个URL发起请求，获取信息交互平台的下一个URL对应的HTML页面中与目标识别场景相关联的场景交互文本内容。当页面内容不为空时，将页面内容内的文本数据进行预处理操作(如对页面内容的文本数据中的标点符号，统一码(Unicode)编码区域进行清洗，保留页面内容的文本数据，(例如数字、中文和英文)，得到与目标识别场景相关联的场景交互文本内容。

S402，根据场景通用词库获取场景交互文本内容中的场景通用词语，对场景交互文本内容中的场景通用词语进行过滤，得到第一过滤文本数据。

在一个实施例中，由于术语词语通常不是场景通用词库中所包括的词语，所以可以基于场景通用词库对场景交互文本内容中的场景通用词语进行过滤，得到不包含场景通用词库中的场景通用词语的第一过滤文本数据。

具体的，音频数据处理设备可以对场景交互文本内容进行自然语音处理(NaturalLanguage Processing，NLP)操作，识别场景交互文本内容中属于场景通用词库的场景通用词语，将场景交互文本内容中的场景通用词语进行过滤，得到第一过滤文本数据。可选的，为了便于区别场景交互文本内容中的场景通用词语，音频数据处理设备在根据场景通用词库确定场景交互文本内容中的场景通用词语之后，音频数据处理设备可以输出提示信息。其中，此处的提示信息可以为显示信息或者语音信息。显示信息可以是指音频数据处理设备通过屏幕中的颜色标记(包括高亮显示或者灰色显示等)来标识场景交互文本内容中的场景通用词语；例如，如图6中的601所示，该场景交互文本内容为“他退水给你让警徽只能别人踩你俩狼踩狼共边，你去盘他是狼不是找打吗”。根据场景通用词库可以获取到该场景交互文本内容中包括的场景通用词语分别为“警徽”、“只能”、“别人”、“你去”、“他是”和“不是”。在图6的602中，场景交互文本内容中灰色显示的内容即为上述场景通用词语。语音信息可以是指通过语音播报来标识场景交互文本内容中的场景通用词语，例如携带场景通用词语的语音提示。

音频数据处理设备在识别了场景交互文本内容中的场景通用词语之后，可以对场景交互文本内容中的场景通用词语进行过滤，得到第一过滤文本数据。仍承接图6所示的例子，音频数据处理设备识别了场景交互文本内容“他退水给你让警徽只能别人踩你俩狼踩狼共边，你去盘他是狼不是找打吗”中的场景通用词语“警徽”、“只能”、“别人”、“你去”“他是”和“不是”进行过滤，得到如图6中603所示的第一过滤文本数据，该第一过滤文本数据包括“他退水给你让”、“踩你俩狼踩狼共边”、“盘”、“狼”以及“找打吗”。

S403，根据第一过滤文本数据生成目标术语词库。

在一个实施例中，音频数据处理设备可以获取第一过滤文本数据中的连接属性词语，然后对第一过滤文本数据中的连接属性词语进行过滤，得到第二过滤文本数据；根据第二过滤文本数据生成目标术语词库。由于过滤后的第一过滤文本内容中可能还存在一些用于指示语法格式的连接属性词语，术语词语通常不是连接属性词语，所以为了得到术语词语，还需要将第一过滤文本数据中的连接属性词语进行过滤，得到不包含连接属性词语的第二过滤文本数据，由该第二过滤文本数据生成目标术语词库。其中，其中，连接属性词语可以包括以下一种或多种：代词、助词、数量词和介词。

例如，仍承接上述图6的例子，音频数据处理设备可以识别第一过滤文本数据中的代词，并将第一过滤文本数据中的代词进行过滤。针对代词，例如，将图6中603所示的第一过滤文本数据“他退水给你让”“踩你俩狼踩狼共边”“盘”“狼”“找打吗”中的代词“他”和“你”过滤，可以得到不包含代词的文本数据，得到的文本数据包括“退水给“让”“踩”“俩狼踩狼共边”“盘”“狼”以及“找打吗”。

针对助词，例如，可以将图6中603所示的第一过滤文本数据“他退水给你让”“踩你俩狼踩狼共边”“盘”“狼”“找打吗”中的助词“吗”过滤，可以得到不包含助词的文本数据，得到的文本数据包括“他退水给你让”“踩你俩狼踩狼共边”“盘”“狼”以及“找打”。

针对数量词，例如，可以将图6中603所示的第一过滤文本数据“他退水给你让”“踩你俩狼踩狼共边”“盘”“狼”“找打吗”中的数量词“俩”过滤，可以得到不包含数量词的文本数据，包括“他退水给你让”“踩你”“狼踩狼共边”“盘”“狼”以及“找打吗”。

针对介词，例如，可以将图6中603所示的第一过滤文本数据“他退水给你让”“踩你俩狼踩狼共边”“盘”“狼”“找打吗”中的介词“给”、“让”、和“找”过滤，可以得到不包含介词的文本数据，包括“他退水”“你”“踩你俩狼踩狼共边”“盘”“狼”以及“打吗”。

将第一过滤文本数据中连接属性词语过滤之后，可以得到第二过滤文本数据。将第二过滤文本中所包含的词语作为术语词语。例如，可以将图6中603的第一过滤文本数据中的代词、助词、数量词和介词过滤，得到第二过滤文本数据为“退水”“踩”“狼踩狼共边”“盘”“狼”“打”，第二过滤文本中还包括三个词语，因此音频数据处理设备可以根据第二过滤文本可以得到三个术语词语“退水”，“踩狼”和“共边”，如图6的605中矩形框内的词语。因此生成的目标术语词库中可以包括“退水”，“踩狼”和“共边”这三个术语词语。

在另一个实施例中，音频数据处理设备可以获取针对第一过滤文本内容的选取指令。然后根据选取指令确定第一过滤文本内容中的术语词语，并根据该术语词语生成目标术语词库。例如，当第一过滤文本数据为“他退水给你让”“踩你俩狼踩狼共边”“盘”“狼”“找打吗”时，若该选取指令指示第一过滤文本内容中的“退水”，“踩狼”和“共边”这三个词语为术语词语，那么就将这三个词语作为术语词语，并生成目标术语词库。

在一个实施例中，音频数据处理设备可以将目标识别场景下的目标术语词库封装为区块，并将该区块存储至区块链上。其中，区块链是一种按照时间顺序将数据区块以顺序相连的方式组合成的一种链式数据结构，并以密码学方式保证数据不可篡改和不可伪造的分布式账本。多个独立的分布式节点保存相同的记录。区块链技术实现了去中心化，成为了可信的数字资产存储、转移和交易的基石。

以图7所示的区块链的结构示意图为例，在将目标识别场景下的目标术语词库写入区块链时，可以将目标识别场景下的目标术语词库封装为区块，并添加在已有区块链的末端，通过共识算法保证每个节点新添加的区块是完全相同的。每个区块内记录了目标术语词库，同时包含了前一个区块的哈希(hash)值，所有区块就是通过这种方式保存前一个区块中的hash值，按顺序相连，组成了区块链。区块链中下一个区块的区块头中会存储前一个区块的哈希值，当前一个区块中的目标术语词库发生变化时，本区块的哈希值也会随之改变，因此上传至区块链中的目标术语词库难以被篡改，提高了数据的可靠性。

本申请实施例中，音频数据处理设备可以在信息交互平台中获取与目标识别场景相关联的场景交互文本内容，从而可以基于与目标识别场景相关联的场景交互内容构建得到目标识别场景相关联的目标术语词库。在音频数据处理设备基于场景通用词库得到的目标识别场景下的目标音频数据的转换文本数据时，可以利用与目标识别场景相关联的目标术语词库对转换文本数据中的异常转换词语进行修正，可以得到更准确的目标音频数据的文本数据(即修正文本数据)。由于通过这种方式构建的目标术语词库可以更大程度覆盖目标识别场景下的术语词语，在利用目标术语词库对转换文本数据中的异常转换词语进行修正时，可以有效降低目标音频数据的文本数据中的错字率，保证目标音频数据对应的文本数据的准确性。

基于上述音频数据处理方法实施例的描述，本申请实施例还公开了一种音频数据处理装置，该音频数据处理装置可以是运行于上述所提及的音频数据处理设备中的一个计算机程序(包括程序代码)。该音频数据处理装置可以执行图2或图4所示的方法。请参见图8，该音频数据处理装置可以运行如下单元：

获取单元801，用于获取在目标识别场景中采集到的目标音频数据，并获取场景通用词库；该场景通用词库包括M个场景通用词语，M为正整数；

转换单元802，用于基于M个场景通用词语对目标音频数据进行文本转换，得到转换文本数据；

获取单元801还用于获取与目标识别场景相关联的目标术语词库，并获取转换文本数据中的异常转换词语；该目标术语词库包括在目标识别场景下的N个术语词语，N为正整数；

替换单元803，用于从N个术语词语中获取异常转换词语对应的目标术语词语，将转换文本数据中的异常转换词语替换为目标术语词语，得到转换文本数据的修正文本数据。

在一种实施方式中，获取单元801获取转换文本数据中的异常转换词语，包括：

获取转换文本数据所包含的L个场景通用词语；L为正整数，L小于或等于M；

获取L个场景通用词语中每个场景通用词语在转换文本数据中的文本转换置信度；

将L个场景通用词语中所属的文本转换置信度小于置信度阈值的场景通用词语，确定为异常转换词语。

再一种实施方式中，获取单元801获取转换文本数据中的异常转换词语，包括：

获取针对L个场景通用词语的词语选择指令；

根据词语选择指令将L个场景通用词语中所选择的场景通用词语，确定为异常转换词语。

再一种实施方式中，该音频数据处理装置还包括过滤单元804，过滤单元804用于获取信息交互平台中与目标识别场景相关联的场景交互文本内容；

根据场景通用词库获取场景交互文本内容中的场景通用词语，对场景交互文本内容中的场景通用词语进行过滤，得到第一过滤文本数据；

根据第一过滤文本数据生成目标术语词库。

再一种实施方式中，过滤单元804根据第一过滤文本数据，生成目标术语词库，包括：

获取第一过滤文本数据中的连接属性词语；

对第一过滤文本数据中的连接属性词语进行过滤，得到第二过滤文本数据；

根据第二过滤文本数据生成目标术语词库。

再一种实施方式中，替换单元803从N个术语词语中获取异常转换词语对应的目标术语词语，包括：

根据目标音频数据获取异常转换词语对应的词语拼音；

根据异常转换词语对应的词语拼音在N个术语词语中，获取与异常转换词语具有相似词语拼音的术语词语，作为目标术语词语。

再一种实施方式中，该音频数据处理装置还包括训练单元805，该训练单元805用于将目标音频数据和修正文本数据确定为针对初始文本转换模型的训练样本数据；

基于训练样本数据训练初始文本转换模型，得到目标文本转换模型；目标文本转换模型用于将音频类型的数据转换为文本类型的数据。

根据本申请的一个实施例，图2或图4所示的方法所涉及的各个步骤均可以是由图8所示的音频数据处理装置中的各个单元执行的。例如，图2所示的步骤S201和步骤S203由图8中所示的获取单元801来执行，步骤S202由图8中所示的转换单元802来执行，步骤S204由图8中所示的替换单元803来执行。又如，图4步骤中的S401-S403由图8中所示的过滤单元804来执行。

根据本申请的另一个实施例，图8所示的音频数据处理装置中的各个单元可以分别或者全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以是由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其他实施例中，基于音频数据处理装置也可以包括其他单元，在实际应用中，这些功能也可以由其他单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过包括中央处理单元(Central ProcessingUnit，CPU)，随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件。例如计算机的通用计算设备上运行能够执行如图2或图4中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图8所示的音频数据处理装置，以及来实现本申请实施例的音频数据处理方法。该计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述音频数据处理设备中，并在其中运行。

本申请实施例中，当获取单元获取在目标识别场景中采集到的目标音频数据时，转换单元可以基于场景通用词库中包括的M个场景通用词语对目标音频数据进行文本转换得到转换文本数据，然后获取单元可以获取与目标识别场景相关联的目标术语词库，并获取转换文本数据中的异常转换词语；替换单元再根据与目标识别场景相关联的目标术语词库对转换文本数据中的异常转换词语进行修正，将转换文本数据中的异常转换词语替换为目标术语词库中的目标术语词语，得到转换文本数据的修正文本数据。由于利用了与目标识别场景下相关联的目标术语词库对该目标识别场景下的目标音频数据的转换文本数据进行修正，相比于标注人员人工对目标识别场景下的目标音频数据进行文本转换的方案，无需人工查询目标识别场景下的术语词语，可有效节省人力资源，提升目标音频数据处理的效率；并且，还可不受音频数据处理人员的能力限制，通过目标术语词库可以精准获得该目标音频数据中对应的目标术语词语，降低文本数据(修正文本数据)中的错字率，保证目标音频数据对应的文本数据(修正文本数据)的准确性。

基于上述音频数据处理方法实施例的描述，本申请实施例还公开了一种音频数据处理设备。请参见图9，该音频数据处理设备至少包括处理器901、输入接口902、输出接口903以及计算机存储介质904可通过总线或其他方式连接。

计算机存储介质904是音频数据处理设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质904既可以包括音频数据处理设备的内置存储介质，当然也可以包括音频数据处理设备支持的扩展存储介质。计算机存储介质904提供存储空间，该存储空间存储了音频数据处理设备的操作系统。并且，在该存储空间中还存放了适于被处理器901加载并执行的一条或多条指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器；可选的，还可以是至少一个远离前述处理器的计算机存储介质、处理器可以称为中央处理单元(Central Processing Unit，CPU)，是音频数据处理设备的核心以及控制中心，适于被实现一条或多条指令，具体加载并执行一条或多条指令从而实现相应的方法流程或功能。

在一个实施例中，可由处理器901加载并执行计算机存储介质904中存放的一条或多条指令，以实现执行如图2或图4中所示的相应方法所涉及的各步骤，具体实现中，计算机存储介质904中的一条或多条指令由处理器901加载并执行以下步骤：

在一种实施方式中，处理器901获取转换文本数据中的异常转换词语，包括：

再一种实施方式中，处理器901获取转换文本数据中的异常转换词语，包括：

获取针对L个场景通用词语的词语选择指令；

再一种实施方式中，该处理器901还用于：

获取信息交互平台中与目标识别场景相关联的场景交互文本内容；

根据第一过滤文本数据生成目标术语词库。

再一种实施方式中，该处理器901根据第一过滤文本数据，生成目标术语词库，包括：

获取第一过滤文本数据中的连接属性词语；

根据第二过滤文本数据生成目标术语词库。

再一种实施方式中，该处理器901从N个术语词语中获取异常转换词语对应的目标术语词语，包括：

根据目标音频数据获取异常转换词语对应的词语拼音；

再一种实施方式中，该处理器901还用于：将目标音频数据和修正文本数据确定为针对初始文本转换模型的训练样本数据；

基于训练样本数据训练初始文本转换模型，得到目标文本转换模型；该目标文本转换模型用于将音频类型的数据转换为文本类型的数据。

需要说明的是，本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。音频数据处理设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该音频数据处理设备执行上述音频数据处理方法实施例图2或图4中所执行的步骤。

以上所揭露的仅为本申请一种较佳实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于申请所涵盖的范围。

Claims

1.一种音频数据处理方法，其特征在于，包括：

获取在目标识别场景中采集到的目标音频数据，并获取场景通用词库；所述场景通用词库包括M个场景通用词语，M为正整数；

基于所述M个场景通用词语对所述目标音频数据进行文本转换，得到转换文本数据；

获取与所述目标识别场景相关联的目标术语词库，并获取所述转换文本数据中的异常转换词语；所述目标术语词库包括在所述目标识别场景下的N个术语词语，N为正整数；

从所述N个术语词语中获取所述异常转换词语对应的目标术语词语，将所述转换文本数据中的所述异常转换词语替换为所述目标术语词语，得到所述转换文本数据的修正文本数据。

2.如权利要求1所述的方法，其特征在于，所述获取所述转换文本数据中的异常转换词语，包括：

获取所述转换文本数据所包含的L个场景通用词语；L为正整数，L小于或等于M；

获取所述L个场景通用词语中每个场景通用词语在所述转换文本数据中的文本转换置信度；

将所述L个场景通用词语中所属的文本转换置信度小于置信度阈值的场景通用词语，确定为所述异常转换词语。

3.如权利要求1所述的方法，其特征在于，所述获取所述转换文本数据中的异常转换词语，包括：

获取针对所述L个场景通用词语的词语选择指令；

根据所述词语选择指令将所述L个场景通用词语中所选择的场景通用词语，确定为所述异常转换词语。

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取信息交互平台中与所述目标识别场景相关联的场景交互文本内容；

根据所述场景通用词库获取所述场景交互文本内容中的场景通用词语，对所述场景交互文本内容中的场景通用词语进行过滤，得到第一过滤文本数据；

根据所述第一过滤文本数据生成所述目标术语词库。

5.如权利要求4所述的方法，其特征在于，所述根据所述第一过滤文本数据，生成所述目标术语词库，包括：

获取所述第一过滤文本数据中的连接属性词语；

对所述第一过滤文本数据中的连接属性词语进行过滤，得到第二过滤文本数据；

根据所述第二过滤文本数据生成所述目标术语词库。

6.如权利要求1所述的方法，其特征在于，所述从所述N个术语词语中获取所述异常转换词语对应的目标术语词语，包括：

根据所述目标音频数据获取所述异常转换词语对应的词语拼音；

根据所述异常转换词语对应的词语拼音在所述N个术语词语中，获取与所述异常转换词语具有相似词语拼音的术语词语，作为所述目标术语词语。

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

将所述目标音频数据和所述修正文本数据确定为针对初始文本转换模型的训练样本数据；

基于所述训练样本数据训练所述初始文本转换模型，得到目标文本转换模型；所述目标文本转换模型用于将音频类型的数据转换为文本类型的数据。

8.一种音频数据处理装置，其特征在于，包括：

获取单元，用于获取在目标识别场景中采集到的目标音频数据，并获取场景通用词库；所述场景通用词库包括M个场景通用词语，M为正整数；

转换单元，用于基于所述M个场景通用词语对所述目标音频数据进行文本转换，得到转换文本数据；

所述获取单元还用于获取与所述目标识别场景相关联的目标术语词库，并获取所述转换文本数据中的异常转换词语；所述目标术语词库包括在所述目标识别场景下的N个术语词语，N为正整数；

替换单元，用于从所述N个术语词语中获取所述异常转换词语对应的目标术语词语，将所述转换文本数据中的所述异常转换词语替换为所述目标术语词语，得到所述转换文本数据的修正文本数据。

9.一种音频数据处理设备，包括输入接口、输出接口，其特征在于，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-7任意一项所述的音频数据处理方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1-7任意一项所述的音频数据处理方法。