CN109326292A - 一种音频识别结果的生成方法及装置 - Google Patents
一种音频识别结果的生成方法及装置 Download PDFInfo
- Publication number
- CN109326292A CN109326292A CN201811476124.1A CN201811476124A CN109326292A CN 109326292 A CN109326292 A CN 109326292A CN 201811476124 A CN201811476124 A CN 201811476124A CN 109326292 A CN109326292 A CN 109326292A
- Authority
- CN
- China
- Prior art keywords
- text data
- audio information
- target audio
- input area
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Abstract
本申请提供了一种音频识别结果的生成方法及装置,其中,该方法包括一种音频识别结果的生成方法,包括:获取对目标音频信息进行自动识别所生成的第一文本数据;所述目标音频信息是完整音频信息中的一部分;将第二文本数据的输入区域、所述第一文本数据和所述目标音频信息的标识在同一个展示页面进行展示;根据用户在所述第二文本数据的输入区域所输入的第二文本数据,确定目标音频信息的实际识别结果。本申请实施例提供的一种音频识别结果的生成方法及装置,可以提高音频识别结果的生成效率。
Description
技术领域
本申请涉及数据标注技术领域,尤其是涉及一种音频识别结果的生成方法及装置。
背景技术
随着声音采集技术和互联网技术的快速发展,每天都会产生大量的音频数据,需要人工服务平台对大量的音频数据进行处理。工作人员需要根据音频数据和音频识别设备识别的结果对音频数据进行文本形式的编辑。
目前对音频数据以文本形式进行编辑时,工作人员既要打开音频播放器播放音频数据,同时又要打开文本编辑页面在文本编辑页面内编辑音频识别数据,由于音频数据、音频识别设备识别的结果以及音频识别数据不能同时在一个页面内进行展示,工作人员需要在音频播放器和文本编辑页面之间反复切换,这种编辑音频识别数据的方法浪费时间,导致识别效率低。
发明内容
有鉴于此,本申请的目的在于提供一种音频识别结果的生成方法及装置,以提高音频识别结果的生成效率。
第一方面,本申请实施例提供了一种音频识别结果的生成方法,包括:
获取对目标音频信息进行自动识别所生成的第一文本数据;所述目标音频信息是完整音频信息中的一部分;
将第二文本数据的输入区域、所述第一文本数据和所述目标音频信息的标识在同一个展示页面进行展示;
根据用户在所述第二文本数据的输入区域所输入的第二文本数据,确定所述目标音频信息的实际识别结果。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,
所述获取对目标音频信息进行自动识别所生成的第一文本数据,包括:
获取完整音频信息;
按照预设的截断规则,对所述完整音频信息进行分段,以生成多个发音单位;
选择所述多个发音单位中指定的一个或多个发音单位作为目标音频信息;
对所述目标音频信息进行语音自动识别,以得到第一文本数据。
结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第二种可能的实施方式,其中,
所述选择所述多个发音单位中指定的一个或多个发音单位作为目标音频信息,包括:
确定所述目标音频信息中每个发音单位的发音特征;
根据所述发音单位的发音特征,确定所述每个发音单位所对应的发言方;
将至少一个所述发言方所对应的发音单位组成目标音频信息。
结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第三种可能的实施方式,其中,
所述发音特征包括以下的任意一种或多种:所述发言方的声音的音色、音量、音调以及语速。
结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第四种可能的实施方式,其中,
所述将所述第一文本数据、第二文本数据的输入区域和所述目标音频信息的标识在同一个展示页面进行展示,包括:
将多个所述目标音频信息的标识按照音频的时间顺序在同一个展示页面进行展示。
结合第一方面,本申请实施例提供了第一方面的第五种可能的实施方式,其中,
所述将所述第一文本数据、第二文本数据的输入区域和所述目标音频信息的标识在同一个展示页面进行展示,包括:
将不可修改的所述第一文本数据与第二文本数据的输入区域在同一个展示页面的不同展示区域内展示。
结合第一方面,本申请实施例提供了第一方面的第六种可能的实施方式,其中,
所述将所述第一文本数据、第二文本数据的输入区域和所述目标音频信息的标识在同一个展示页面进行展示,包括:
将所述第一文本数据在第二文本数据的输入区域内,以可编辑的形式进行展示。
第二方面,本申请实施例还提供一种音频识别结果的生成装置,包括:获取模块、展示模块和确定模块;
所述获取模块,用于获取对目标音频信息进行自动识别所生成的第一文本数据;所述目标音频信息是完整音频信息中的一部分;
所述展示模块,用于将第二文本数据的输入区域、所述第一文本数据和所述目标音频信息的标识在同一个展示页面进行展示;
所述确定模块,用于根据用户在所述第二文本数据的输入区域所输入的第二文本数据,确定所述目标音频信息的实际识别结果。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面中任一种可能的实施方式中的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面中任一种可能的实施方式中的步骤。
本申请实施例提供的一种音频识别结果的生成方法及装置,所述方法包括获取对目标音频信息进行自动识别所生成的第一文本数据;所述目标音频信息是完整音频信息中的一部分;将所述第一文本数据、第二文本数据的输入区域和所述目标音频信息的标识在同一个展示页面进行展示;根据用户在所述第二文本数据的输入区域所输入的第二文本数据,确定目标音频信息的实际识别结果,与现有的音频数据和音频识别数据不能同时在一个页面内进行展示的音频识别数据编辑方法相比,本申请实施例能方便用户在同一个展示页面内根据音频信息,对音频识别设备识别的结果进行参照,并输入实际识别结果,用户不需要在音频播放器和文本编辑页面之间反复切换,可以提高音频识别结果的生成效率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的第一种音频识别结果的生成方法的流程图;
图2示出了本申请实施例所提供的第二种音频识别结果的生成系方法的结构示意图;
图3示出了本申请实施例所提供的第三种音频识别结果的生成方法的结构示意图;
图4示出了本申请实施例所提供的一种音频识别结果的生成系统的结构示意图;
图4a示出了本申请实施例所提供的第三显示模块的结构示意图;
图4b示出了本申请实施例所提供的第三显示模块的另一种结构示意图;
图5示出了本申请实施例所提供的一种音频识别结果的生成装置的结构示意图;
图6示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着声音采集技术和互联网技术的快速发展,每天都会产生大量的音频数据,需要人工服务平台对大量的音频数据进行处理。工作人员需要根据音频数据和音频识别设备识别的结果对音频数据进行文本形式的编辑。
目前对音频数据以文本形式进行编辑时,工作人员既要打开音频播放器播放音频数据,同时又要打开文本编辑页面在文本编辑页面内编辑音频识别数据,由于音频数据、音频识别设备识别的结果以及音频识别数据不能同时在一个页面内进行展示,工作人员需要在音频播放器和文本编辑页面之间反复切换,这种编辑音频识别数据的方法不仅浪费时间,导致识别效率低,而且工作人员在编辑音频识别数据过程中容易出现错误,导致编辑后的音频识别数据准确率较低。
考虑到现有的音频识别数据生成方法中音频识别结果的生成效率低,而且准确率也低。基于此,本申请实施例提供了一种音频识别结果的生成方法及装置,下面通过实施例进行描述。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种音频识别结果的生成方法进行详细介绍。
如图1所示,为本申请实施例提供的一种音频识别结果的生成方法流程图。
音频识别结果的生成方法具体包括:
S101:获取对目标音频信息进行自动识别所生成的第一文本数据;目标音频信息是完整音频信息中的一部分。
S102:将第二文本数据的输入区域、第一文本数据和目标音频信息的标识在同一个展示页面进行展示。
S103:根据用户在第二文本数据的输入区域所输入的第二文本数据,确定目标音频信息的实际识别结果。
在实际中通常会产生大量的音频信息,一般情况下需要将音频信息进行识别,生成与音频信息对应的文本识别结果,并保存文本识别结果以方便后期对音频信息进行整理和分析。一般可以生成与语音对应的文字。
在步骤S101中首先需要获取完整音频信息,再将完整音频信息进行分段以形成目标音频信息。在具体实施中,可以从服务器将完整音频信息下载并保存到存储模块中,例如下载到独立数据库中。完整音频信息下载之后,按照预设的截断规则对完整音频信息进行分段,具体地可以按照预设的断句规则对完整音频信息进行分段,也就是以一句话为单位对完整音频信息进行分段,以生成多个发音单位。这里发音单位可以是由一个字组成的一句话、一个词语组成的一句话、多个字或词语组成的一句话。一段完整的语音可以分成至少一句话。
在具体实施中,获取的完整音频信息可以是只有一个发言方的语音信息,也可以是有多个发言方的语音信息,例如客户与客服进行对话时,发言方一般包括客户方与客服方。为了使得识别结果更加清楚,因此可以需要出完整音频信息中的发言方的数目。具体地可以根据每个发音单位的发音特征来确定发言方的数目,例如可以根据发音单位所对应的声音的音色、音量、音调以及语速等特征来辨别不同的发言方。确定出发言方的数目后,将发言方对应的发音单位作为目标音频信息。然后利用语音识别系统对发音单位进行语音识别,翻译成文本形式的数据,也就是第一文本数据。
第一文本数据可以以不可修改的形式显示在展示页面上,也可以以可修改的形式显示在展示页面,在展示页面上有可以对第一文本数据进行编辑的编辑区域。
当有多个发言方,并且同一个发言方有多个目标音频信息时,首先可以按照不同的发言方对目标音频信息进行分组,再将每组目标音频信息的标识按照时间顺序排列展示在相应的音频信息展示区域;或者也可以只按照时间顺序将多个目标音频信息的标识进行排列展示。
在展示页面上还展示有第二文本数据的输入区域,也就是第一文本数据、第二文本数据的输入区域和目标音频信息的标识在同一个展示页面进行展示。在实际中,第二文本数据的输入区域可以是编辑框。若第一文本数据以不可修改的形式展示在展示页面上,第二文本数据的输入区域与第一文本数据在同一个展示页面上展示的区域可以是不同的;若第一文本数据以可修改的形式展示在展示页面上,第一文本数据可以展示在第二文本数据的输入区域内。
当第二文本数据直接在第二文本数据的输入区域直接进行输入时,第二文本数据可以覆盖第一文本数据,或者将第一文本数据删除,将第一文本数据替换为第二文本数据。
用户输入第二文本数据时可以直接将确定的目标音频信息的识别结果输入到第二文本数据的输入区域,并将此识别结果作为实际识别结果;用户也可以根据第一文本数据和目标音频信息确定出第二文本数据并输入到第二文本数据的输入区域,并将此识别结果作为实际识别结果。
用户输入第二文本数据后,可以对第二文本数据进行保存,在展示页面上还可以展示有第二文本数据的删除标识和修改标识,方便用户对目标音频信息再次生成识别结果。
如图2所示,提供了一种音频识别结果的生成方法优选的实施例。
S201:获取对目标音频信息进行自动识别所生成的第一文本数据;目标音频信息是完整音频信息中的一部分。
S202:将第二文本数据的输入区域、不可修改形式的第一文本数据和目标音频信息的标识在同一个展示页面的不同展示区域内展示。
S203:根据用户在第二文本数据的输入区域所输入的第二文本数据,确定目标音频信息的实际识别结果。
在步骤S201中首先需要获取完整音频信息,再将完整音频信息进行分段以形成目标音频信息。在具体实施中,可以从服务器将完整音频信息下载并保存到存储模块中,例如下载到独立数据库中。完整音频信息下载之后,按照预设的截断规则对完整音频信息进行分段,具体地可以按照预设的断句规则对完整音频信息进行分段,也就是以一句话为单位对完整音频信息进行分段,以生成多个发音单位。这里发音单位可以是由一个字组成的一句话、一个词语组成的一句话、多个字或词语组成的一句话。一段完整的语音可以分成至少一句话。
在具体实施中,获取的完整音频信息可以是只有一个发言方的语音信息,也可以是有多个发言方的语音信息,例如客户与客服进行对话时,发言方一般包括客户方与客服方。为了使得识别结果更加清楚,因此可以需要出完整音频信息中的发言方的数目。具体地可以根据每个发音单位的发音特征来确定发言方的数目,例如可以根据发音单位所对应的声音的音色、音量、音调以及语速等特征来辨别不同的发言方。确定出发言方的数目后,将发言方对应的发音单位作为目标音频信息。
在步骤S202中,第一本文数据可以通过语音识别系统对发音单位进行语音识别,翻译成文本形式的数据,也就是第一文本数据。生成的第一文本数据以不可修改的形式展示在展示页面上,第一文本数据的展示区域与第二文本数据的输入区域是不同的。
在步骤S203中,用户可以根据目标音频信息和第一文本数据确定出第二文本数据,用户也可以直接将目标音频信息的实际识别结果输入到第二文本数据的输入区域。第二文本数据的输入区域可以是编辑框。在编辑框内可以对第一文本数据进行删除操作,对第二文本数据可以进行输入或修改等操作。用户在第二文本数据的输入区域所输入的第二文本数据即目标音频信息的实际识别结果。
如图3所示,提供了另一种音频识别结果的生成方法优选的实施例。
S301:获取对目标音频信息进行自动识别所生成的第一文本数据;目标音频信息是完整音频信息中的一部分。
S302:将第二文本数据的输入区域、第一文本数据和目标音频信息的标识在同一个展示页面进行展示;第一文本数据以可编辑的形式在第二文本数据的输入区域内进行展示。
S303:根据用户在第二文本数据的输入区域所输入的第二文本数据,确定目标音频信息的实际识别结果。
在步骤S302中,第一文本数据以可修改的形式展示在展示页面上,第一文本数据可以展示在第二文本数据的输入区域内。当第二文本数据直接在第二文本数据的输入区域直接进行输入时,第二文本数据可以覆盖第一文本数据,或者将第一文本数据删除,将第一文本数据替换为第二文本数据。第二文本数据的输入区域可以是编辑框。在编辑框内可以对第一文本数据进行删除操作,对第二文本数据可以进行输入或修改等操作。
在步骤S303中,用户输入第二文本数据时可以直接将确定的目标音频信息的识别结果输入到第二文本数据的输入区域,并将此识别结果作为实际识别结果;用户也可以根据第一文本数据和目标音频信息确定出第二文本数据并输入到第二文本数据的输入区域,并将此识别结果作为实际识别结果。
上述音频识别结果的生成方法,可以将第一文本数据、第二文本数据的输入区域和目标音频信息的标识在同一个展示页面进行展示,方便同一个展示页面内根据音频信息,对音频识别设备识别的结果进行参照,并输入实际识别结果,避免了用户在音频播放器和文本编辑页面之间反复切换,可以提高音频识别结果的生成效率。
基于相同的技术构思,本申请实施例还提供一种音频识别结果的生成系统、一种音频识别结果的生成装置、电子设备以及计算机存储介质等,具体可参见以下实施例。
如图4所示,为本申请实施例提供的一种音频识别结果的生成系统,音频识别结果的生成系统400包括:第一显示模块401、第二显示模块402和第三显示模块403;
第一显示模块401,用于显示完整音频信息的属性信息;
第二显示模块402,用于显示完整音频信息的标识的控制按钮;
第三显示模块403,用于显示对目标音频信息进行自动识别所生成的第一文本数据、用户在第二文本数据的输入区域所输入的第二文本数据,以及目标音频信息的标识。
在具体实施中,第一显示模块401,具体可以显示完整音频信息的生成时间、完整音频信息的来源信息以及完整音频信息的用户信息,例如:客户与客服利用电话进行对话的拨打时间、CALL-ID、客户ID和用户的用户名。
在具体实施中,第二显示模块402,具体可以显示控制播放速度的第一按钮、控制播放进度的第二按钮以及控制显示或隐藏开始时间的第三按钮。
例如,控制播放速度的第一按钮可以设计为控制播放速度为正常播放速度的0.5倍速、1倍速、2倍速、5倍速以及10倍速等,音频信息的播放速度可以根据实际需要进行设计,不限于上述列举的播放速度。第一按钮可以为一个按钮,也可以为多个子按钮,子按钮分别控制不同的播放速度。
完整音频信息的标识可以设计为进度条的形式,控制播放进度的第二按钮可以控制完整音频信息播放或暂停。
第三按钮可以控制显示或隐藏完整音频信息的开始时间。
在具体实施中,第二显示模块402,具体还可以显示控制完整音频信息音量的第四按钮和控制完整音频信息音量音效的第五按钮等其他按钮。
在具体实施中,第三显示模块403,具体可以按照发言方显示目标音频信息的标识,也可以按照发言时间显示目标音频信息的标识。
例如针对发言方为客户方和客服方的对话音频,第一种情况,第三显示模块可以按照客户方和客服方分成不同的显示区域,然后按照客户方和客服方将目标音频信息分成两组,第一组目标音频信息为至少一个客户方的目标音频信息,第二组目标音频信息为至少一个客服方的目标音频信息,第一组目标音频信息显示在客户方对应的第一区域,第二组目标音频信息显示在客服方对应的第二区域,进一步地,每个发言方的目标音频信息的标识可以按照时间顺序进行排列展示。第二种情况,第三显示模块还可以按照发言时间显示目标音频信息的标识,即多个目标音频信息的标识按照时间顺序进行排列展示。目标音频信息的标识在第三模块的展示形式不限于上述两种情况,目标音频信息的标识在第三模块的其他展示形式也应在本申请保护的范围内。
在具体实施中,第三显示模块403,还可以显示用于区分发言方的头像,目标音频信息的标识可以显示在发言方头像的一侧,目标音频信息的标识可以设计为时间轴等形式。
第三显示模块403上显示的第一文本数据可以以不可修改的形式显示在展示页面上,也可以以可修改的形式显示在展示页面,在展示页面上有可以对第一文本数据进行编辑的编辑区域。
如图4a所示,示出了第三显示模块的结构示意图。图4a中,第一文本数据以不可修改的形式展示在第三显示模块403上,第二文本数据的输入区域4031与第一文本数据在第三显示模块403上展示的区域可以是不同的。
第二文本数据的输入区域4031,用于用户可以根据目标音频信息和第一文本数据在第二文本数据的输入区域4031内输入第二文本数据,用户在第二文本数据的输入区域4031所输入的第二文本数据即目标音频信息的实际识别结果;还可以用于用户直接将目标音频信息的实际识别结果输入到第二文本数据的输入区域4031。
第二文本数据的输入区域4031可以是编辑框。在编辑框内可以对第一文本数据进行删除操作,对第二文本数据可以进行输入或修改等操作。
如图4b所示,示出了另一种第三显示模块的结构示意图。图4b中,第一文本数据以可修改的形式展示在第二文本数据的输入区域4031内。在第二文本数据的输入区域4031,用于用户在第二文本数据的输入区域4031直接进行输入第二文本数据之前显示第一文本数据;用户输入第二文本数据后,仅显示第二文本数据。
用户输入第二文本数据时,第二文本数据可以覆盖第一文本数据,或者将第一文本数据删除,将第一文本数据替换为第二文本数据。第二文本数据的输入区域4031可以是编辑框。在编辑框内可以对第一文本数据进行删除操作,对第二文本数据可以进行输入或修改等操作。
在具体实施中,第三显示模块403,还可以显示修改按钮、删除按钮和保存按钮,用户输入第二文本数据后,可以对第二文本数据进行修改、删除或保存,方便用户对目标音频信息再次生成识别结果。
在具体实施中,第三显示模块403,还可以显示页面滚动条,页面滚动条用于跳转页面,同一页面上可以选择显示10条或20条或30条目标音频数据。
如图5所示,为本申请实施例提供的一种音频识别结果的生成装置,音频识别结果的生成装置500包括:获取模块501、展示模块502和确定模块503;
获取模块501,用于获取对目标音频信息进行自动识别所生成的第一文本数据;目标音频信息是完整音频信息中的一部分;
展示模块502,用于将第二文本数据的输入区域、第一文本数据和目标音频信息的标识在同一个展示页面进行展示;
确定模块503,用于根据用户在第二文本数据的输入区域所输入的第二文本数据,确定目标音频信息的实际识别结果。
如图6所示,为本申请实施例提供的一种电子设备600的结构示意图,该电子设备600包括:至少一个处理器601,至少一个网络接口604和至少一个用户接口603,存储器605,至少一个通信总线602。通信总线602用于实现这些组件之间的连接通信。用户接口603,包括显示器(例如,触摸屏)、键盘或者点击设备(例如,触感板或者触摸屏等)。
存储器605可以包括只读存储器和随机存取存储器,并向处理器601提供指令和数据。存储器605的一部分还可以包括非易失性随机存取存储器(NVRAM)。
在一些实施方式中,存储器605存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
操作系统6051,包含各种系统程序,用于实现各种基础业务以及处理基于硬件的任务;
应用程序模块6052,包含各种应用程序,用于实现各种应用业务。
在本申请实施例中,通过调用存储器605存储的程序或指令,处理器601用于:
获取对目标音频信息进行自动识别所生成的第一文本数据;目标音频信息是完整音频信息中的一部分;
将第二文本数据的输入区域、第一文本数据和目标音频信息的标识在同一个展示页面进行展示;
根据用户在第二文本数据的输入区域所输入的第二文本数据,确定目标音频信息的实际识别结果。
进一步地,处理器601还用于:获取完整音频信息;
按照预设的截断规则,对完整音频信息进行分段,以生成多个发音单位;
选择多个发音单位中指定的一个或多个发音单位作为目标音频信息;
对目标音频信息进行语音自动识别,以得到第一文本数据。
进一步地,处理器601还用于:确定目标音频信息中每个发音单位的发音特征;
根据发音单位的发音特征,确定每个发音单位所对应的发言方;
将至少一个发言方所对应的发音单位组成目标音频信息。
进一步地,处理器601还用于:确定目标音频信息中每个发音单位所对应的声音的音色、音量、音调以及语速。
进一步地,处理器601还用于:将多个目标音频信息的标识按照音频的时间顺序在同一个展示页面进行展示。
进一步地,处理器601还用于:将不可修改的第一文本数据与第二文本数据的输入区域在同一个展示页面的不同展示区域内展示。
进一步地,处理器601还用于:将第一文本数据在第二文本数据的输入区域内,以可编辑的形式进行展示。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述音频识别结果的生成方法的步骤。
本申请实施例所提供的进行音频识别结果的生成方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种音频识别结果的生成方法,其特征在于,包括:
获取对目标音频信息进行自动识别所生成的第一文本数据;所述目标音频信息是完整音频信息中的一部分;
将第二文本数据的输入区域、所述第一文本数据和所述目标音频信息的标识在同一个展示页面进行展示;
根据用户在所述第二文本数据的输入区域所输入的第二文本数据,确定所述目标音频信息的实际识别结果。
2.根据权利要求1所述的方法,其特征在于,包括:所述获取对目标音频信息进行自动识别所生成的第一文本数据,包括:
获取完整音频信息;
按照预设的截断规则,对所述完整音频信息进行分段,以生成多个发音单位;
选择所述多个发音单位中指定的一个或多个发音单位作为目标音频信息;
对所述目标音频信息进行语音自动识别,以得到第一文本数据。
3.根据权利要求2所述的方法,其特征在于,所述选择所述多个发音单位中指定的一个或多个发音单位作为目标音频信息,包括:
确定所述目标音频信息中每个发音单位的发音特征;
根据所述发音单位的发音特征,确定所述每个发音单位所对应的发言方;
将至少一个所述发言方所对应的发音单位组成目标音频信息。
4.根据权利要求3所述的方法,其特征在于,所述发音特征包括以下的任意一种或多种:所述发言方的声音的音色、音量、音调以及语速。
5.根据权利要求3所述的方法,其特征在于,所述将所述第一文本数据、第二文本数据的输入区域和所述目标音频信息的标识在同一个展示页面进行展示,包括:
将多个所述目标音频信息的标识按照音频的时间顺序在同一个展示页面进行展示。
6.根据权利要求1所述的方法,其特征在于,所述将所述第一文本数据、第二文本数据的输入区域和所述目标音频信息的标识在同一个展示页面进行展示,包括:
将不可修改的所述第一文本数据与第二文本数据的输入区域在同一个展示页面的不同展示区域内展示。
7.根据权利要求1所述的方法,其特征在于,所述将所述第一文本数据、第二文本数据的输入区域和所述目标音频信息的标识在同一个展示页面进行展示,包括:
将所述第一文本数据在第二文本数据的输入区域内,以可编辑的形式进行展示。
8.一种音频识别结果的生成装置,其特征在于,包括:获取模块、展示模块和确定模块;
所述获取模块,用于获取对目标音频信息进行自动识别所生成的第一文本数据;所述目标音频信息是完整音频信息中的一部分;
所述展示模块,用于将第二文本数据的输入区域、所述第一文本数据和所述目标音频信息的标识在同一个展示页面进行展示;
所述确定模块,用于根据用户在所述第二文本数据的输入区域所输入的第二文本数据,确定所述目标音频信息的实际识别结果。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的音频识别结果的生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的音频识别结果的生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811476124.1A CN109326292A (zh) | 2018-12-04 | 2018-12-04 | 一种音频识别结果的生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811476124.1A CN109326292A (zh) | 2018-12-04 | 2018-12-04 | 一种音频识别结果的生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109326292A true CN109326292A (zh) | 2019-02-12 |
Family
ID=65256697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811476124.1A Pending CN109326292A (zh) | 2018-12-04 | 2018-12-04 | 一种音频识别结果的生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109326292A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112185390A (zh) * | 2020-09-27 | 2021-01-05 | 中国商用飞机有限责任公司北京民用飞机技术研究中心 | 机上信息辅助方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130346086A1 (en) * | 2006-08-31 | 2013-12-26 | At&T Intellectual Property Ii, L.P. | Method and System for Providing an Automated Web Transcription Service |
CN106067310A (zh) * | 2016-06-27 | 2016-11-02 | 乐视控股(北京)有限公司 | 录音数据处理方法及装置 |
CN107945802A (zh) * | 2017-10-23 | 2018-04-20 | 北京云知声信息技术有限公司 | 语音识别结果处理方法及装置 |
CN108124061A (zh) * | 2017-12-22 | 2018-06-05 | 维沃移动通信有限公司 | 音频数据的存储方法及装置 |
-
2018
- 2018-12-04 CN CN201811476124.1A patent/CN109326292A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130346086A1 (en) * | 2006-08-31 | 2013-12-26 | At&T Intellectual Property Ii, L.P. | Method and System for Providing an Automated Web Transcription Service |
CN106067310A (zh) * | 2016-06-27 | 2016-11-02 | 乐视控股(北京)有限公司 | 录音数据处理方法及装置 |
CN107945802A (zh) * | 2017-10-23 | 2018-04-20 | 北京云知声信息技术有限公司 | 语音识别结果处理方法及装置 |
CN108124061A (zh) * | 2017-12-22 | 2018-06-05 | 维沃移动通信有限公司 | 音频数据的存储方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112185390A (zh) * | 2020-09-27 | 2021-01-05 | 中国商用飞机有限责任公司北京民用飞机技术研究中心 | 机上信息辅助方法及装置 |
CN112185390B (zh) * | 2020-09-27 | 2023-10-03 | 中国商用飞机有限责任公司北京民用飞机技术研究中心 | 机上信息辅助方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110933487B (zh) | 卡点视频的生成方法、装置、设备及存储介质 | |
JP5685702B2 (ja) | 音声認識結果管理装置および音声認識結果表示方法 | |
CN106648535A (zh) | 直播客户端语音输入方法及终端设备 | |
CN108345481A (zh) | 一种页面显示方法、装置、客户端及服务器 | |
CN108292231A (zh) | 从数据生成应用 | |
CN111653265B (zh) | 语音合成方法、装置、存储介质和电子设备 | |
CN111225236B (zh) | 生成视频封面的方法、装置、电子设备以及计算机可读存储介质 | |
CN101986249A (zh) | 使用手势对象控制计算机的方法及相应的计算机系统 | |
CN107978310B (zh) | 音频处理方法和装置 | |
CN104866275B (zh) | 一种用于获取图像信息的方法和装置 | |
CN112269898A (zh) | 背景音乐获取方法、装置、电子设备以及可读存储介质 | |
CN107566642A (zh) | 一种功能模式切换的方法、装置及智能终端 | |
CN112367551A (zh) | 视频编辑的方法及装置、电子设备和可读存储介质 | |
TW201237764A (en) | Method, apparatus, and computer program product for overlapped handwriting | |
JP7240505B2 (ja) | 音声パケット推薦方法、装置、電子機器およびプログラム | |
CN112614478B (zh) | 音频训练数据处理方法、装置、设备以及存储介质 | |
CN111653266B (zh) | 语音合成方法、装置、存储介质和电子设备 | |
CN112331234A (zh) | 歌曲多媒体的合成方法、装置、电子设备及存储介质 | |
CN109739425A (zh) | 一种虚拟键盘、语音输入方法、装置及电子设备 | |
CN109710747B (zh) | 信息处理方法、装置及电子设备 | |
CN109033163B (zh) | 一种在日历中添加日记的方法及装置 | |
CN109326292A (zh) | 一种音频识别结果的生成方法及装置 | |
CN108549493A (zh) | 候选词筛选方法及相关设备 | |
CN104866091A (zh) | 一种用于在计算机设备中输出音效信息的方法和装置 | |
CN111914115A (zh) | 一种声音信息的处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190212 |
|
RJ01 | Rejection of invention patent application after publication |