CN112686006A

CN112686006A - 音频的识别文本校正方法、音频识别设备、装置和介质

Info

Publication number: CN112686006A
Application number: CN202110004366.6A
Authority: CN
Inventors: 郑利群
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2021-04-20

Abstract

本发明涉及金融科技技术领域，公开了一种基于音频的识别文本校正方法、音频识别装置、设备及介质。所述音频的识别文本校正方法包括：获取音频，并将所述音频输入各个所述预设音频识别系统得到每个所述预设音频识别系统输出的第一识别文本；根据各个所述第一识别文本确定所述音频对应的第二识别文本，其中，所述第二识别文本中包括目标文字内容，所述目标文字内容为所述预设音频识别系统对音频片段识别出错所转换的文字内容，所述音频由多个音频片段组成。本发明提高了音频识别文本的校正效率。

Description

音频的识别文本校正方法、音频识别设备、装置和介质

技术领域

本发明涉及金融科技(Fintech)技术领域，尤其涉及一种音频的识别文本校正方法、音频识别设备、装置及介质。

背景技术

随着计算机技术的发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变，但由于金融行业的安全性、实时性要求，也对技术提出了更高的要求。

随着人们对设备的便捷性要求，越来越多的设备具有音频识别功能。而音频识别功能通过设备内的识别模型实现，识别模型需要大量音频识别文本进行训练。识别模型所需的音频识别文本通过系统识别音频得到识别文本，再由人工倾听音频对识别文本进行校正以保证音频识别文本的准确性。目前，在对音频识别文本进行校正时，需要从头到尾校正音频识别文本中的所有文本内容，音频识别文本的校正效率较低。

发明内容

本发明的主要目的在于提供一种音频的识别文本校正方法、音频识别设备、装置及介质，旨在解决音频识别文本的校正效率较低的问题。

为实现上述目的，本发明提供一种音频的识别文本校正方法，应用于音频识别装置，所述音频识别装置包括多个预设音频识别系统，所述音频的识别文本校正方法包括：

获取音频，并将所述音频输入各个所述预设音频识别系统得到每个所述预设音频识别系统输出的第一识别文本；

根据各个所述第一识别文本确定所述音频对应的第二识别文本，其中，所述第二识别文本中包括目标文字内容，所述目标文字内容为所述预设音频识别系统对音频片段识别出错所转换的文字内容，所述音频由多个音频片段组成；

输出所述第二识别文本，其中，所述目标文字内容突出显示于所述第二识别文本。

在一实施例中，所述根据各个所述第一识别文本确定第二识别文本的步骤之后，还包括：

在各个所述第一识别文本中，获取所述音频中音频片段对应的各个文本内容；

比对各个所述文本内容，以确定所述音频片段的文字识别是否存在识别错误；

在目标识别文本中，将各个存在识别错误的所述音频片段对应的文本内容，标记为目标文字内容，以得到第二识别文本，所述目标识别文本根据各个所述第一识别文本确定。

在一实施例中，所述比对各个所述文本内容，以确定所述音频片段的文字识别是否存在识别错误的步骤包括：

比对各个所述文本内容得到比对结果；

根据所述比对结果获取数量，所述数量为不相同的文本内容的数量；

判断所述数量与所述文本内容的总数量之间的比值是否大于预设比值，其中，在所述比值大于预设比值时，判定所述音频片段的文字识别存在识别错误。

在一实施例中，所述在各个所述第一识别文本中，获取所述音频中音频片段对应的各个文本内容的步骤包括：

确定所述音频中音频片段对应的第一音频播放时间；

在每个所述第一识别文本中确定所述第一音频播放时间对应的文本内容，以作为所述音频片段对应的各个文本内容，所述第一识别文本中的每个文本内容关联对应的第一音频播放时间。

确定所述音频中音频片段对应的文本内容，在所述第一识别文本中的位置；

提取每个所述第一识别文本中位置对应的字符串，以确定为所述音频片段对应的各个文本内容。

在一实施例中，所述目标文字内容通过标记突出显示于所述第二识别文本。

在一实施例中，所述输出所述第二识别文本的步骤之后，还包括：

在检测到所述目标文字内容的点击操作时，确定所述目标文字内容在所述音频中的第二音频播放时间；

播放所述第二音频播放时间对应的音频片段。

为实现上述目的，本发明还提供一种音频识别设备，所述音频识别设备包括多个预设音频识别系统，所述音频识别设备还包括：

获取模块，用于获取音频，并将所述音频输入各个所述预设音频识别系统得到每个所述预设音频识别系统输出的第一识别文本；

确定模块，用于根据各个所述第一识别文本确定所述音频对应的第二识别文本，其中，所述第二识别文本中包括目标文字内容，所述目标文字内容为所述预设音频识别系统对音频片段识别出错所转换的文字内容，所述音频由多个音频片段组成；

输出模块，用于输出所述第二识别文本，其中，所述目标文字内容突出显示于所述第二识别文本。

为实现上述目的，本发明还提供一种音频识别装置，所述音频识别装置设有多个预设音频识别系统，所述音频识别装置还包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的校正程序，所述预设音频识别系统与所述处理器连接，所述校正程序被所述处理器执行时实现如上所述的音频的识别文本校正方法的步骤。

为实现上述目的，本发明还提供一种介质，所述介质上存储有校正程序，所述识别程序被处理器执行时实现如上所述的音频的识别文本校正方法的步骤。

为实现上述目的，本发明还提供一种计算机程序产品，包括计算机程序，所述计算程序被处理器执行时实现如上所述的音频的识别文本校正方法的步骤。

本发明提供一种音频的识别文本的校正方法、设备、装置及介质，音频识别装置在获得音频后，将音频输入至各个预设音频识别系统得到每个预设音频识别系统输出的第一识别文本，再根据各个第一识别文本确定包括识别错误的目标文本内容的第二识别文本，最后输出第二识别文本使得第二识别文本中识别错误的文本内容突出显示。本发明通过多个预设音频识别系统对同一音频进行识别，得到多个识别文本，再综合各个识别文本确定含有识别错误的目标文本内容，最后将识别错误的目标文本内容突出显示，与现有技术中从头到尾校正音频识别文本中的所有文本内容进行音频识别文本校正的技术方案相比，本发明校正人员仅需确定音频识别文本中识别出错的部分，无需校正人员校正音频识别文本的所有内容，提高了音频识别文本的校正效率。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的音频识别装置/音频识别设备的硬件结构示意图；

图2为本发明音频的识别文本校正方法第一实施例的流程示意图；

图3为本发明音频的识别文本校正方法第二实施例的流程示意图；

图4为本发明音频的识别文本校正方法第三实施例的流程示意图；

图5为本发明音频的识别文本校正方法第四实施例的流程示意图；

图6为本发明音频的识别文本校正方法第五实施例的流程示意图；

图7为本发明音频识别设备的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及音频识别装置或音频识别设备的硬件运行环境的硬件结构示意图。

如图1所示，音频识别设备/音频识别装置可以包括：处理器1001，例如CPU，通信总线1002，用户接口1003，网络接口1004，存储器1005以及预设音频识别系统1006。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置，预设音频识别系统1006可为多个。

本领域技术人员可以理解，图1中示出的终端的结构并不构成对音频识别装置或音频识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及校正程序。

在图1所示的音频识别装置或音频识别设备中，网络接口1004主要用于连接后台服务端，与后台服务端进行数据通信；用户接口1003主要用于连接客户端，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的校正程序，并执行以下操作：

在一实施例中，处理器1001可以调用存储器1005中存储的校正程序，还执行以下操作：

比对各个所述文本内容得到比对结果；

确定所述音频中音频片段对应的第一音频播放时间；

所述目标文字内容通过标记突出显示于所述第二识别文本。

播放所述第二音频播放时间对应的音频片段。

基于上述音频识别装置/音频识别设备的硬件结构，提出本发明音频的识别文本校正方法的各实施例。

本发明提供一种音频的识别文本校正方法。

参照图2，图2为本发明音频的识别文本校正方法第一实施例，所述音频的识别文本校正方法包括：

步骤S10，获取音频，并将所述音频输入各个所述预设音频识别系统得到每个所述预设音频识别系统输出的第一识别文本；

在本实施例中，执行主体为音频识别装置。音频识别装置中包括有多个预设音频识别系统，每个预设音频识别系统可以独立的对音频进行识别，从而将音频转化为识别文本。音频可以音乐、用户的语音或者其他包括明确意思的声音。

音频可以是音频识别装置中预先存储的音频，也可以是外部设备传输至音频识别装置的音频。音频识别装置获取到需要识别的音频后，将音频输入值每个预设音频识别系统中。每个预设音频识别系统在得到音频后，对音频中的词语句子进行识别，再将识别出的词语句子按照识别的时间进行排列得到第一识别文本，预设音频识别系统再将第一识别文本输出，使得音频识别装置获取每个预设音频识别系统输出的第一识别文本。

步骤S20，根据各个所述第一识别文本确定所述音频对应的第二识别文本，其中，所述第二识别文本中包括目标文字内容，所述目标文字内容为所述预设音频识别系统对音频片段识别出错所转换的文字内容，所述音频由多个音频片段组成；

音频识别装置在得到各个第一识别文本后，对各个第一识别文本中的同一个位置的文字内容进行比对，以确定该位置对应的文字内容是否识别错误，若是识别错误，该位置对应的文字内容即为目标文字内容，目标文字内容即为音频中音频片段识别错误所转化的文字内容。音频识别装置在确定各个目标文字内容后，在各个第一识别文本中随机选择一个识别文本作为目标识别文本，音频识别装置对目标识别文本中识别错误的文字内容进行标记，从而生产第二识别文本，也即第二识别文本中包括识别错误的目标文字内容。

步骤S30，输出所述第二识别文本，其中，所述目标文字内容突出显示于所述第二识别文本。

音频识别装置再获取第二识别文本后，显示第二识别文本，且目标文字内容突出显示于第二识别文本上。突出显示指的是，识别错误的文字内容能够区别于第二识别文本上识别正确的文字内容，例如，可以对目标文字内容进行标记，并将标记进行显示，从而突出显示识别错误的文字内容，使得音频文本的校正人员能够快速确定识别错误的文字内容。

在本实施例提供的技术方案中，音频识别装置在获得音频后，将音频输入至各个预设音频识别系统得到每个预设音频识别系统输出的第一识别文本，再根据各个第一识别文本确定包括识别错误的目标文本内容的第二识别文本，最后输出第二识别文本使得第二识别文本中识别错误的文本内容突出显示。本发明通过多个预设音频识别系统对同一音频进行识别，得到多个识别文本，再综合各个识别文本确定含有识别错误的目标文本内容，最后将识别错误的目标文本内容突出显示，与现有技术中从头到尾校正音频识别文本中的所有文本内容进行音频识别文本校正的技术方案相比，本发明校正人员仅需确定音频识别文本中识别出错的部分，无需校正人员校正音频识别文本的所有内容，提高了音频识别文本的校正效率。

参照图3，图3为本发明音频的识别文本校正方法的第二实施例，基于第一实施例，所述步骤S20包括：

步骤S21，在各个所述第一识别文本中，获取所述音频中音频片段对应的各个文本内容；

步骤S22，比对各个所述文本内容，以确定所述音频片段的文字识别是否存在错误；

步骤S23，在目标识别文本中，将各个存在识别错误的所述音频片段对应的文本内容，标记为目标文字内容，以得到第二识别文本，所述目标识别文本根据各个所述第一识别文本确定。

在本实施例中，音频识别装置中包括多个预设音频识别系统，每个预设音频识别系统在对音频进行识别后，输出第一识别文本，音频识别装置可以在每个第一识别文本中确定音频中每个音频片段对应的文字内容，也即一个音频片段对应多个文字内容。音频识别装置比对音频片段的所有文字内容，以判断音频片段的文字识别是否存在识别错误。若音频片段的各个文字内容相同时，音频片段的文字识别不存在识别错误，若是音频片段的各个文字内容不同时，则音频片段的文字识别存在错误。

音频识别装置可在各个第一识别文本中随机确定目标识别文本，然后，在目标识别文本中将各个存在识别错误的音频文本的文本内容标记为目标文本内容，即可得到第二识别文本，也即第二识别文本由标记有目标文字内容的目标识别文本得到。

在本实施例提供的技术方案中，音频识别装置在各个第一识别文本中，获取音频中音频片段对应的各个文本内容，再对属于同一个音频片段的各个文本内容进行比对，从而确定出存在识别错误的音频片段，进而根据识别错误的音频片段对应的文字内容得到第二识别文本。

参照图4，图4为本发明音频的识别文本校正方法的第三实施例，基于第二实施例，所述22包括：

步骤S221，比对各个所述文本内容得到比对结果；

步骤S222，根据所述比对结果获取数量，所述数量为不相同的文本内容的数量；

步骤S223，判断所述数量与所述文本内容的总数量之间的比值是否大于预设比值，其中，在所述比值大于预设比值时，判定所述音频片段的文字识别存在识别错误。

在本实施例中，音频在输入预设音频识别系统时，音频可能音频识别装置内部元器件的干扰，导致某个预设音频识别系统识别的音频片段出现错误，也即会存在不可控的因素导致预设音频识别系统识别的文字内容出现错误。对此，音频识别装置允许出现一定的误差，也即若是仅有较小数量的预设音频识别系统存在识别错误，音频识别装置也可认为音频的音频片段是不存在识别问题的。

音频识别装置设置允许的误差，允许的误差可以以预设比值进行表征。例如，预设比值为0.2，预设音频识别系统的数量为10个，则允许2个预设音频识别系统对同一个音频片段出现识别错误，也即同一音频片段对应的10个文本内容至少有8个文本内容需要相同，才可判断音频片段的文字识别不存在识别错误。

音频识别装置在确定音频片段对应的各个文本内容后，比对各个文本内容以确定各个文本内容是否相同，从而得到比对结果。比对结果的内容可以是：N个文本内容相同，M个文本内容不存在相同的文本内容。N与M为整数，且N与M为预设音频识别系统的数量。音频识别装置在得到比对结果后，既可根据比对结果获取不相同的文本内容的数量，也即获取M，再判断数量(M)与文本内容的总数量(M+N)之间的比值是否大于预设比值。文本内容的总数量即为预设音频识别系统的总数量。若是比值大于预设比值，即可判定音频片段的文字识别存在识别错误。若是比值小于或等于预设比值，即可判定音频片段的文字识别不存在错误。音频识别装置可以通过此种方式对音频中的每个音频频段进行是否存在识别错误的判断，从而确定各个存在识别错误的音频片段。

需要说明的是，若是比对结果中出现有不同的文本内容，且不同的文本内容的数量实在音频识别装置的允许范围内，音频识别装置并不能在第一识别文本中随机选择一个作为目标识别文本，而需将含有相同的文本内容的第一识别文本作为目标识别文本。例如，五个第一识别文本分别为A、B、C、D、E，其中，D在音频片段a的文字内容与A、B、C、D在音频片段a的文字内容不同，A、B、C、D在音频片段a的文字内容是相同的，音频识别装置允许一个预设音频识别系统存在识别错误，则可以将A、B、C、D中任一个作为目标识别文本，而不会将E作为目标识别文本，从而避免在目标识别文本中的音频片段的文字内容进行标记。

在本实施例提供的技术方案中，音频识别装置比对音频片段的各个文本内容，并根据比对结果获取不相同的所述文本内容的数量，再判断数量与文本内容的总数量纸件的比值是否大于预设比值，以在音频识别装置的允许误差范围确定存在识别错误的音频片段。

参照图5，图5为本发明音频的识别文本的校正方法的第四实施例，基于第二或第三实施例，所述步骤S21包括：

步骤S211，确定所述音频中音频片段对应的第一音频播放时间；

步骤S212，在每个所述第一识别文本中确定所述第一音频播放时间对应的文本内容，以作为所述音频片段对应的各个文本内容，所述第一识别文本中的每个文本内容关联对应的第一音频播放时间。

在本实施例中，音频分为多个音频片段，音频片段的时长可以是任何合数的时长，也可以是固定长度的时长。预设音频识别系统在识别出每个音频片段得到文字内容后，音频片段在音频中的第一音频播放时间与该音频片段对应的文字内容进行关联。关联的形式可以是，在文字内容上面显示第一音频播放时间。因此，第一识别文本中的每个文本内容关联对应的第一音频播放时间。第一音频播放时间为音频片段在音频的播放时间段。

音频识别装置在需要获取音频片段的各个文本内容时，先确定音频片段在音频中的第一音频播放时间，再从每个第一识别模本中确定与第一音频播放时间关联的文本内容，以确定为音频片段对应的各个文本内容。

在本实施例提供的技术方案中，预设音频识别系统在对音频片段进行识别时，蒋音频播放时间与识别的文字内容关联，使得音频识别装置在需要确定音频片段对应的各个文本内容时，根据音频片段的音频播放时间即可快速的确定该音频片段对应的各个文本内容。

参照图6，图6为本发明音频的识别文本的校正方法的第五实施例，基于第二或第三实施例，所述步骤S21包括：

步骤S213，确定所述音频中音频片段对应的文本内容，在所述第一识别文本中的位置；

步骤S214，提取每个所述第一识别文本中位置对应的字符串，以确定为所述音频片段对应的各个文本内容。

在本实施例中，预设音频识别系统在对音频进行识别时，会对当前识别的音频片段进行标记，且对该音频片段所对应的文字内容进行同样的标记，且标记与音频片段进行关联存储。此外，每个预设音频识别系统对于音频的音频片段的分段方式相同，且标记方式相同，从而使得音频片段在每个第一识别文本中的位置可以根据相同的标记确定。

音频识别装置确定音频中音频片段在第一识别文本中的标记，从而根据标记确定音频片段识别的文本内容在第一识别文本中的位置，再从每个第一识别文本中提取该位置对应的字符串作为音频片段的文本内容，也即预设音频识别系统是通过用字符串表征音频片段的文字内容。

在本实施例提供的技术方案中，音频识别装置确定音频中音频片段对应的文本内容在第一识别文本中的位置，再从每个第一识别文本中提取该位置对应的字符串以准确的确定音频片段对应的各个文本内容。

在一实施例中，在音频识别装置确定各个目标文字内容后，在第二识别文本中将各个目标文字内容进行标记，以将识别错误的文字内容与识别正确的文字内容区别开来，同时可以让音频识别文本的校正人员可以快速的确定识别错误的文字内容。标记可以是对目标文字内容进行颜色、格式、字体大小的更改，例如，可以将目标文字内容的颜色标记为红色。

在一实施例中，第二识别文本可以视为一个网页页面，第二识别文本与音频为超链接关系，校正人员在点击第二识别文本中的文字内容时，会跳转至音频，且播放该文字内容在音频中对应的音频片段。

具体的，音频识别装置在检测到对目标文字内容的点击操作后，由于第二识别文本中的每个文字内容关联对应的音频播放时间，音频识别装置确定改目标文字内容对应的第二音频播放时间，从而跳转至音频，使得音频播放第二音频播放时间对应的音频片段。需要说明的是，目标文字内容关联的是第一音频播放时间，音频识别装置可以适当的修改第一音频播放时间的开始时间点以及结束时间点得到第二音频播放时间，第二音频播放时间包含第一音频播放时间。例如，目标文字内容对应的第一音频播放时间为0:05:00-0:07:00，则对第一音频播放时间进行修改后得到的第二音频播放时间为0:04:30-0:07:30。

音频识别装置通过此种方式，使得校正人员通过直接点击识别错误的文字内容，即可直接跳转至识别错误的音频片段进行重新播放，无须校正人员手动拉取音频进度查找识别错误的音频片段，便于校正人员对音频识别文本的校正，提高了音频识别文本的校正效率。

本发明还提供一种音频识别设备。

参照图7，图7为本发明音频识别设备的功能模块示意图。

如图7所示，所述音频识别设备包括多个预设音频识别系统10，且音频识别设备还包括：

获取模块20，用于获取音频，并将所述音频输入各个所述预设音频识别系统得到每个所述预设音频识别系统输出的第一识别文本；

确定模块30，用于根据各个所述第一识别文本确定所述音频对应的第二识别文本，其中，所述第二识别文本中包括目标文字内容，所述目标文字内容为所述预设音频识别系统对音频片段识别出错所转换的文字内容，所述音频由多个音频片段组成；

输出模块40，用于输出所述第二识别文本，其中，所述目标文字内容突出显示于所述第二识别文本。

在一实施例中，所述音频识别设备还包括：

获取模块20，用于在各个所述第一识别文本中，获取所述音频中音频片段对应的各个文本内容；

比对模块，用于比对各个所述文本内容，以确定所述音频片段的文字识别是否存在识别错误；

标记模块，用于在目标识别文本中，将各个存在识别错误的所述音频片段对应的文本内容，标记为目标文字内容，以得到第二识别文本，所述目标识别文本根据各个所述第一识别文本确定。

在一实施例中，所述音频识别设备还包括：

比对模块，用于比对各个所述文本内容得到比对结果；

获取模块20，用于根据所述比对结果获取数量，所述数量为不相同的文本内容的数量；

判断模块，用于判断所述数量与所述文本内容的总数量之间的比值是否大于预设比值，其中，在所述比值大于预设比值时，判定所述音频片段的文字识别存在识别错误。

在一实施例中，所述音频识别设备还包括：

确定模块30，用于确定所述音频中音频片段对应的第一音频播放时间；

确定模块30，用于在每个所述第一识别文本中确定所述第一音频播放时间对应的文本内容，以作为所述音频片段对应的各个文本内容，所述第一识别文本中的每个文本内容关联对应的第一音频播放时间。

在一实施例中，所述音频识别设备还包括：

确定模块30，用于确定所述音频中音频片段对应的文本内容，在所述第一识别文本中的位置；

提取模块，用于提取每个所述第一识别文本中位置对应的字符串，以确定为所述音频片段对应的各个文本内容。

在一实施例中，所述音频识别设备还包括：

确定模块30，用于在检测到所述目标文字内容的点击操作时，确定所述目标文字内容在所述音频中的第二音频播放时间；

播放模块，用于播放所述第二音频播放时间对应的音频片段。

其中，上述音频识别设备中各个模块的功能实现与上述音频的识别文本校正方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

本发明还提供一种介质，该介质上存储有校正程序，所述校正程序被处理器执行时实现如以上任一项实施例所述的音频的识别文本校正方法的步骤。

本发明介质的具体实施例与上述音频的识别文本校正方法各实施例基本相同，在此不作赘述。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算程序被处理器执行时实现如以上任一项实施例所述的音频的识别文本校正方法的步骤。

本发明计算机程序产品的具体实施例与上述音频的识别文本校正方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种音频的识别文本校正方法，其特征在于，应用于音频识别装置，所述音频识别装置包括多个预设音频识别系统，所述音频的识别文本校正方法包括：

2.如权利要求1所述的音频的识别文本校正方法，其特征在于，所述根据各个所述第一识别文本确定第二识别文本的步骤之后，还包括：

3.如权利要求2所述的音频的识别文本校正方法，其特征在于，所述比对各个所述文本内容，以确定所述音频片段的文字识别是否存在识别错误的步骤包括：

比对各个所述文本内容得到比对结果；

4.如权利要求2所述的音频的识别文本校正方法，其特征在于，所述在各个所述第一识别文本中，获取所述音频中音频片段对应的各个文本内容的步骤包括：

确定所述音频中音频片段对应的第一音频播放时间；

5.如权利要求2所述的音频的识别文本校正方法，其特征在于，所述在各个所述第一识别文本中，获取所述音频中音频片段对应的各个文本内容的步骤包括：

6.如权利要求1-5任一项所述的音频的识别文本校正方法，其特征在于，所述目标文字内容通过标记突出显示于所述第二识别文本。

7.如权利要求1-5任一项所述的音频的识别文本校正方法，其特征在于，所述输出所述第二识别文本的步骤之后，还包括：

播放所述第二音频播放时间对应的音频片段。

8.一种音频识别设备，其特征在于，所述音频识别设备包括多个预设音频识别系统，所述音频识别设备还包括：

9.一种音频识别装置，其特征在于，所述音频识别装置设有多个预设音频识别系统，所述音频识别装置还包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的校正程序，所述预设音频识别系统与所述处理器连接，所述校正程序被所述处理器执行时实现如权利要求1至7中任一项所述的音频的识别文本校正方法的步骤。

10.一种介质，其特征在于，所述介质上存储有校正程序，所述识别程序被处理器执行时实现如权利要求1至7中任一项所述的音频的识别文本校正方法的步骤。

11.一种计算机程序产品，包括计算机程序，其特征在于，所述计算程序被处理器执行时实现如权利要求1至7中任一项所述的音频的识别文本校正方法的步骤。