CN111863043B - 音频转写文件生成方法、相关设备及可读存储介质 - Google Patents

音频转写文件生成方法、相关设备及可读存储介质 Download PDF

Info

Publication number
CN111863043B
CN111863043B CN202010744772.1A CN202010744772A CN111863043B CN 111863043 B CN111863043 B CN 111863043B CN 202010744772 A CN202010744772 A CN 202010744772A CN 111863043 B CN111863043 B CN 111863043B
Authority
CN
China
Prior art keywords
file
audio
transcription
result data
data segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010744772.1A
Other languages
English (en)
Other versions
CN111863043A (zh
Inventor
田志强
曹亚
苏文畅
王玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Tingjian Technology Co ltd
Original Assignee
Anhui Tingjian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Tingjian Technology Co ltd filed Critical Anhui Tingjian Technology Co ltd
Priority to CN202010744772.1A priority Critical patent/CN111863043B/zh
Publication of CN111863043A publication Critical patent/CN111863043A/zh
Application granted granted Critical
Publication of CN111863043B publication Critical patent/CN111863043B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

本申请公开了一种音频转写文件生成方法、相关设备及可读存储介质。基于上述方案,可以将音频数据,以及,与该音频数据对应的转写结果数据,存储至一个音频转写文件中,该音频转写文件中包括至少一个文件单元,每个文件单元中包含音频数据片段及该音频数据片段对应的转写结果数据片段,各文件单元中的音频数据片段组成该音频数据;各文件单元中的转写结果数据片段组成该转写结果数据。当用户需要时,将该音频转写文件提供给用户,用户对该音频转写文件进行解析即可得到音频数据,以及,与音频数据对应的转写结果数据。

Description

音频转写文件生成方法、相关设备及可读存储介质
技术领域
本申请涉及数据处理技术领域,更具体的说,是涉及一种音频转写文件生成方法、相关设备及可读存储介质。
背景技术
随着语音识别技术的发展,音频转写技术应运而生,基于音频转写技术对音频进行处理,可以得到与音频对应的转写结果。目前,音频,以及,音频对应的转写结果是分别存储的,用户如果需要应用音频及其对应的转写结果,需要分别将存储有音频的文件及存储有音频对应的转写结果的文件,提供给用户,用户再分别对两个文件进行解析,才能得到音频及其对应的转写结果。
因此,对音频以及音频对应的转写结果的存储方式进行优化,显得尤为必要。
发明内容
鉴于上述问题,本申请提出了一种音频转写文件生成方法、相关设备及可读存储介质。具体方案如下:
一种音频转写文件生成方法,包括:
获取音频数据,以及,与所述音频数据对应的转写结果数据;
对所述音频数据及所述转写结果数据进行解析,得到至少一个文件单元,每个文件单元中包含音频数据片段及该音频数据片段对应的转写结果数据片段,各所述文件单元中的音频数据片段组成所述音频数据;各所述文件单元中的转写结果数据片段组成所述转写结果数据;
根据各所述文件单元,生成音频转写文件。
可选地,所述对所述音频数据及所述转写结果数据进行解析,得到至少一个文件单元,包括:
对所述转写结果数据进行解析,获取至少一个转写结果数据片段;
根据各转写结果数据片段对应的音频起始时间和音频结束时间,对所述音频数据进行解析,获取至少一个音频数据片段;
基于所述至少一个转写结果数据片段,以及,所述至少一个音频数据片段,获取至少一个文件单元。
可选地,所述基于所述至少一个转写结果数据片段,以及,所述至少一个音频数据片段,获取至少一个文件单元,包括:
针对每个转写结果数据片段,将所述转写结果数据片段,以及,与其对应的音频数据片段组合生成一个文件单元;
或者,
针对每个转写结果数据片段,将所述转写结果数据片段,以及,与其对应的音频数据片段进行组合,生成一个文件单元;
针对所述音频数据片段中,不存在对应转写结果数据片段的每个音频数据片段,生成一个文件单元,该文件单元中的转写结果数据片段为空。
可选地,所述根据各所述文件单元,生成音频转写文件,包括:
根据各所述文件单元,生成第一音频转写文件;所述第一音频文件包括第一文件头信息和至少一个文件块,所述第一文件头信息包括文件头总大小,所述音频数据的信息,所述转写结果数据的信息,以及各所述文件块的大小;
或者;
根据各所述文件单元,生成第二音频转写文件;所述第二音频文件包括第二文件头信息和各所述文件单元,所述第二文件头信息包括文件头总大小,所述音频数据的信息以及所述转写结果数据的信息。
可选地,所述根据各所述文件单元,生成第一音频转写文件,包括:
将各所述文件单元,划分为至少一个文件块;
根据所述音频数据、所述转写结果数据、各所述文件块,确定所述第一文件头信息;
基于各所述文件块和所述第一文件头信息,生成第一音频转写文件。
可选地,所述根据各所述文件单元,生成第二音频转写文件,包括:
根据所述音频数据、所述转写结果数据,确定所述第二文件头信息;
基于各所述文件单元和所述第二文件头信息,生成第二音频转写文件。
可选地,在基于各所述文件块和所述第一文件头信息,生成第一音频转写文件之后,所述方法还包括:
读取所述第一音频转写文件的第一文件头信息;
根据所述第一音频转写文件的第一文件头信息,确定所述第一音频转写文件中各文件块的起始位置和结束位置;
针对每一文件块,从所述文件块的起始位置开始至结束位置,依次读取所述文件块中的各文件单元,得到每个文件单元包含的音频数据片段以及音频转写数据片段。
可选地,在基于各所述文件块和所述第二文件头信息,生成第二音频转写文件之后,所述方法还包括:
读取所述第二音频转写文件的第二文件头信息;
根据所述第二音频转写文件的第二文件头信息,确定所述第二音频转写文件中文件单元的起始位置;
从所述文件单元的起始位置开始,依次读取所述文件块中的各文件单元,得到每个文件单元包含的音频数据片段以及音频转写数据片段。
一种音频转写文件生成装置,包括:
获取单元,用于获取音频数据,以及,与所述音频数据对应的转写结果数据;
解析单元,用于对所述音频数据及所述转写结果数据进行解析,得到至少一个文件单元,每个文件单元中包含音频数据片段及该音频数据片段对应的转写结果数据片段,各所述文件单元中的音频数据片段组成所述音频数据;各所述文件单元中的转写结果数据片段组成所述转写结果数据;
音频转写文件生成单元,用于根据各所述文件单元,生成音频转写文件。
可选地,所述解析单元,包括:
转写结果数据解析单元,用于对所述转写结果数据进行解析,获取至少一个转写结果数据片段;
音频数据解析单元,用于根据各转写结果数据片段对应的音频起始时间和音频结束时间,对所述音频数据进行解析,获取至少一个音频数据片段;
文件单元生成单元,用于基于所述至少一个转写结果数据片段,以及,所述至少一个音频数据片段,获取至少一个文件单元。
可选地,所述文件单元生成单元,包括:
第一文件单元生成单元,用于针对每个转写结果数据片段,将所述转写结果数据片段,以及,与其对应的音频数据片段组合生成一个文件单元;
或者,
第二文件单元生成单元,用于针对每个转写结果数据片段,将所述转写结果数据片段,以及,与其对应的音频数据片段进行组合,生成一个文件单元;针对所述音频数据片段中,不存在对应转写结果数据片段的每个音频数据片段,生成一个文件单元,该文件单元中的转写结果数据片段为空。
可选地,所述音频转写文件生成单元,包括:
第一音频转写文件生成单元,用于根据各所述文件单元,生成第一音频转写文件;所述第一音频文件包括第一文件头信息和至少一个文件块,所述第一文件头信息包括文件头总大小,所述音频数据的信息,所述转写结果数据的信息,以及各所述文件块的大小;
或者;
第二音频转写文件生成单元,用于根据各所述文件单元,生成第二音频转写文件;所述第二音频文件包括第二文件头信息和各所述文件单元,所述第二文件头信息包括文件头总大小,所述音频数据的信息以及所述转写结果数据的信息。
可选地,所述第一音频转写文件生成单元,包括:
划分单元,用于将各所述文件单元,划分为至少一个文件块;
第一文件头信息确定单元,用于根据所述音频数据、所述转写结果数据、各所述文件块,确定所述第一文件头信息;
第一音频转写文件生成子单元,用于基于各所述文件块和所述第一文件头信息,生成第一音频转写文件。
可选地,所述第二音频转写文件生成单元,包括:
第二文件头信息确定单元,用于根据所述音频数据、所述转写结果数据,确定所述第二文件头信息;
第二音频转写文件生成子单元,用于基于各所述文件单元和所述第二文件头信息,生成第二音频转写文件。
可选地,所述装置还包括:
第一文件解码单元,用于在第一音频转写文件生成子单元基于各所述文件块和所述第一文件头信息,生成第一音频转写文件之后,读取所述第一音频转写文件的第一文件头信息;根据所述第一音频转写文件的第一文件头信息,确定所述第一音频转写文件中各文件块的起始位置和结束位置;针对每一文件块,从所述文件块的起始位置开始至结束位置,依次读取所述文件块中的各文件单元,得到每个文件单元包含的音频数据片段以及音频转写数据片段。
可选地,所述装置还包括:
第二文件解码单元,用于在第二音频转写文件生成子单元基于各所述文件块和所述第二文件头信息,生成第二音频转写文件之后,读取所述第二音频转写文件的第二文件头信息;根据所述第二音频转写文件的第二文件头信息,确定所述第二音频转写文件中文件单元的起始位置;从所述文件单元的起始位置开始,依次读取所述文件块中的各文件单元,得到每个文件单元包含的音频数据片段以及音频转写数据片段。
一种音频转写文件生成设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的音频转写文件生成方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的音频转写文件生成方法的各个步骤。
借由上述技术方案,本申请公开了一种音频转写文件生成方法、相关设备及可读存储介质。基于上述方案,可以将音频数据,以及,与该音频数据对应的转写结果数据,存储至一个音频转写文件中,该音频转写文件中包括至少一个文件单元,每个文件单元中包含音频数据片段及该音频数据片段对应的转写结果数据片段,各文件单元中的音频数据片段组成该音频数据;各文件单元中的转写结果数据片段组成该转写结果数据。当用户需要时,将该音频转写文件提供给用户,用户对该音频转写文件进行解析即可得到音频数据,以及,与音频数据对应的转写结果数据。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例公开的音频转写文件生成方法的流程示意图;
图2为本申请实施例公开的一种文件单元的结构示意图;
图3为本申请实施例公开的一种转写结果数据格式示意图;
图4为本申请实施例公开的另一种转写结果数据格式示意图;
图5为本申请实施例公开的一种音频数据划分示意图;
图6为本申请实施例公开的一种文件块结构示意图;
图7为本申请实施例公开的一种第一音频转写文件的结构示意图;
图8为本申请实施例公开的一种第二音频转写文件的结构示意图;
图9为本申请实施例公开的一种音频转写文件生成装置结构示意图;
图10为本申请实施例提供的音频转写文件生成设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
接下来,通过下述实施例对本申请提供的流式网络服务负载方法进行介绍。
参照图1,图1为本申请实施例公开的音频转写文件生成方法的流程示意图,该方法可以包括:
步骤S101:获取音频数据,以及,与所述音频数据对应的转写结果数据。
在本申请中,音频数据可以为已进行语音转写处理后的音频数据,其格式可以有多种,作为一种可实施方式,其可以为音频文件,比如WAV格式的音频文件。
与音频数据对应的撰写结果数据的格式也可以有多种,作为一种可实施方式,其可以为转写结果文件,需要说明的是,不同格式的转写结果文件都应包括音频转写文字信息,以及文字对应的音频开始时间和音频结束时间。
步骤S102:对所述音频数据及所述转写结果数据进行解析,得到至少一个文件单元。
需要说明的是,每个文件单元中包含音频数据片段及该音频数据片段对应的转写结果数据片段,各所述文件单元中的音频数据片段组成所述音频数据;各所述文件单元中的转写结果数据片段组成所述转写结果数据。
作为一种可实施方式,文件单元可以为数据帧。每个文件单元除了包含音频数据片段及该音频数据片段对应的转写结果数据片段之外,还可以包含文件单元头信息,文件单元头信息中可以包含文件单元序号、文件单元总大小以及文件单元中音频数据大小;为便于理解,请参阅附图2,图2为本申请实施例公开的一种文件单元的结构示意图,如图2所示,每个文件单元包含文件单元头信息、音频数据片段及转写结果数据片段,文件单元头信息中包含文件单元序号、文件单元总大小以及文件单元中音频数据大小。
需要说明的是,文件单元序号从0开始,依次向上递增,表示文件单元在音频转写文件中的序列,其在文件单元头信息中的存储空间可为预设大小,比如,可以为4字节。文件单元总大小记录文件单元中包括文件单元头信息、音频数据片段、转写结果数据片段的总大小,在文件单元头信息中的存储空间可为预设大小,比如,可以为4字节。文件单元中音频数据大小用于记录文件单元中音频数据片段的大小,其依据具体大小占用文件单元头信息中的存储空间。由于音频数据片段不一定存在对应的转写结果片段,因此,文件单元头信息中为设置用于记录文件单元中转写结果数据片段大小的存储空间。在文件单元中,是预留有用于存储转写结果数据片段的存储空间的,如果有转写结果数据片段,则存储至该空间,如果没有转写结果数据片段,则该空间空置。
对所述音频数据及所述转写结果数据进行解析,得到至少一个文件单元的具体实现方式将通过后面的实施例详细说明。
步骤S103:根据各所述文件单元,生成音频转写文件。
在本申请中,可以将各文件单元进行组合,生成音频转写文件。需要说明的是,组合方式不同,生成的音频转写文件的结构也不相同,具体将通过后面的实施例详细说明。
本实施例公开了一种音频转写文件生成方法。基于该方法,可以将音频数据,以及,与该音频数据对应的转写结果数据,存储至一个音频转写文件中,该音频转写文件中包括至少一个文件单元,每个文件单元中包含音频数据片段及该音频数据片段对应的转写结果数据片段,各文件单元中的音频数据片段组成该音频数据;各文件单元中的转写结果数据片段组成该转写结果数据。当用户需要时,将该音频转写文件提供给用户,用户对该音频转写文件进行解析即可得到音频数据,以及,与音频数据对应的转写结果数据。
在本申请的另一个实施例中,对上述步骤S102对所述音频数据及所述转写结果数据进行解析,得到至少一个文件单元的具体实现方式进行了说明,该方式可以包括以下步骤:
步骤S201:对所述转写结果数据进行解析,获取至少一个转写结果数据片段。
在本步骤中,每个转写结果数据片段包含该片段对应的音频转写文字信息、该片段对应的音频起始时间以及该片段对应的音频结束时间。音频转写文字信息可以为单词、短语、一句话、一个段落等。转写结果数据片段对应的音频转写文字信息可能为空。
为便于理解,本申请给出了两种转写结果数据格式,请参阅图3,图3为本申请实施例公开的一种转写结果数据格式示意图,由图3可以看出,此种转写结果数据格式将没有音频转写文字信息的转写结果数据片段也进行了存储。请参阅图4,图4为本申请实施例公开的另一种转写结果数据格式示意图,由图4可以看出,此种转写结果数据格式并未将没有音频转写文字信息的转写结果数据片段进行存储。
步骤S202:根据各转写结果数据片段对应的音频起始时间和音频结束时间,对所述音频数据进行解析,获取至少一个音频数据片段。
作为一种可实施方式,针对图3所示转写结果数据格式,根据各转写结果数据片段对应的音频起始时间和音频结束时间,对所述音频数据进行解析,获取至少一个音频数据片段的具体方式可以为:
针对每个转写结果数据片段,根据所述转写结果数据片段对应的音频起始时间和音频结束时间,从所述音频数据中,确定与所述转写结果数据片段对应的音频数据片段。需要说明的是,在本实施方式中,转写结果数据片段与音频数据片段是一一对应的。
作为另一种可实施方式,针对图4所示转写结果数据格式,根据各转写结果数据片段对应的音频起始时间和音频结束时间,对所述音频数据进行解析,获取至少一个音频数据片段的具体方式可以为:
根据各转写结果数据片段对应的音频起始时间和音频结束时间对所述音频数据对应的时间轴划分为不同的时间区间,每个时间区间对应的音频数据为一个音频数据片段。为便于理解,请参阅附图5,图5为本申请实施例公开的一种音频数据划分示意图,其为基于图4中的各转写结果数据片段对应的音频起始时间和音频结束时间,对音频数据进行划分得到的各音频数据片段。需要说明的是,由于图4中各转写结果数据片段对应的音频起始时间和音频结束时间并不连续,因此,存在一些音频数据片段没有对应的转写结果数据片段,导致最终划分的音频数据片段的数量与转写结果数据片段的数量并不相同。
步骤S203:基于所述至少一个转写结果数据片段,以及,所述至少一个音频数据片段,获取至少一个文件单元。
作为一种可实施方式,针对图3所示转写结果数据格式,基于所述至少一个转写结果数据片段,以及,所述至少一个音频数据片段,获取至少一个文件单元的具体方式可以为:
针对每个转写结果数据片段,将所述转写结果数据片段,以及,与其对应的音频数据片段组合生成一个文件单元。需要说明的是,该实施方式中,最终形成的文件单元的数量是与转写结果数据片段或音频数据片段的数量等同的。
作为另一种可实施方式,针对图4所示转写结果数据格式,基于所述至少一个转写结果数据片段,以及,所述至少一个音频数据片段,获取至少一个文件单元的具体方式可以为:
针对每个转写结果数据片段,将所述转写结果数据片段,以及,与其对应的音频数据片段进行组合,生成一个文件单元。针对所述音频数据片段中,不存在对应转写结果数据片段的每个音频数据片段,生成一个文件单元,该文件单元中的转写结果数据片段为空。需要说明的是,该实施方式中,最终形成的文件单元的数量是与音频数据片段的数量等同的。
为便于理解,结合图4和图5所示,可以将音频起始时间为100ms、音频结束时间为200ms的转写结果数据片段1与时间区间为100ms至200ms的音频数据片段进行组合,生成一个文件单元。时间区间为0至100ma的音频数据片段,不存在对应转写结果数据片段,则将该音频数据片段生成一个文件单元,该文件单元中转写结果数据片段的字段为空。
在本申请的另一个实施例中,对上述步骤S103根据各所述文件单元,生成音频转写文件的一种具体实现方式进行了说明,该方式可以包括:
根据各所述文件单元,生成第一音频转写文件;所述第一音频文件包括第一文件头信息和至少一个文件块,所述第一文件头信息包括文件头总大小,所述音频数据的信息,所述转写结果数据的信息,以及各所述文件块的大小;
或者;
根据各所述文件单元,生成第二音频转写文件;所述第二音频文件包括第二文件头信息和各所述文件单元,所述第二文件头信息包括文件头总大小,所述音频数据的信息以及所述转写结果数据的信息。
在本申请的另一个实施例中,对上述根据各所述文件单元,生成第一音频转写文件的一种具体实现方式进行了说明,该方式可以包括以下步骤:
步骤S401:将各所述文件单元,划分为至少一个文件块;
在本申请中,可以文件单元的划分规则,作为一种可实施方式,可以将预设数量个文件单元划分为一个文件块。如果文件单元的总数量小于预设数量,则将全部文件单元划分为一个文件块。
为便于理解,请参阅附图6,图6为本申请实施例公开的一种文件块结构示意图。如图6所示,一个文件块中包含多个文件单元。
步骤S402:根据所述音频数据、所述转写结果数据、各所述文件块,确定第一文件头信息;所述第一文件头信息包括文件头总大小,所述音频数据的信息,所述转写结果数据的信息,以及各文件块大小。
在本步骤中,第一文件头信息中包括的音频数据的信息可以从所述音频数据中获得,为便于理解,假设音频数据为WAV格式的音频文件。WAV格式的音频文件头信息存储在音频文件的开始部分,大小为44字节。可以使用hexdump命令(hexdump-n 44origin.wav)来查看WAV格式的音频文件头信息得到音频数据的信息。需要说明的是,音频数据中的音频数据的信息与第一文件头信息中音频数据的信息完全一致。
类似于音频数据的信息,转写结果数据中会附加转写结果数据的信息,用于对转写结果数据进行解释说明,在本申请中,第一文件头信息中包括的转写结果数据的信息可以从所述转写结果数据中获得。需要说明的是,转写结果数据中的转写结果数据的信息与第一文件头信息中转写结果数据的信息完全一致。
在本步骤中,第一文件头信息中,可以使用固定大小的数据对每个文件块大小进行存储,比如,每个文件块大小使用2字节存储,如第一音频转写文件种共有10个文件块,则第一头信息中最后会有20个字节长度的数据分别记录每个文件块大小。
在本步骤中,第一文件头信息中,可以使用固定大小的数据对文件头总大小进行存储,比如,使用2字节存储。假设第一头信息中有44个字节记录音频数据的信息,有50个字节记录转写结果数据的信息,有20个字节长度的数据分别记录每个文件块大小,则第一文件头信息中文件头总大小为2+44+50+20=116字节,转化为二进制则为0000 0000 01110100。
步骤S403:基于各所述文件块和所述第一文件头信息,生成第一音频转写文件。
在本申请中,可以将各所述文件块和所述第一文件头信息进行组合,生成第一音频转写文件。
为便于理解,请参阅附图7,图7为本申请实施例公开的一种第一音频转写文件的结构示意图。如图7所示,第一音频转写文件包括第一文件头信息和各文件块,第一文件头信息中包括文件头总大小,所述音频数据的信息,所述转写结果数据的信息,以及各文件块大小。
在本申请的另一个实施例中,对上述根据各所述文件单元,生成第二音频转写文件的一种具体实现方式进行了说明,该方式可以包括以下步骤:
步骤S501:根据所述音频数据、所述转写结果数据,确定第二文件头信息;所述第二文件头信息包括文件头总大小,所述音频数据的信息以及所述转写结果数据的信息。
本步骤中,第二文件头信息中文件头总大小、音频数据的信息以及转写结果数据的信息确定方式可以参考步骤S401,与步骤S401不同的是,第二文件头信息中不包括文件块大小。
步骤S502:基于各所述文件单元和所述第二文件头信息,生成第二音频转写文件。
为便于理解,请参阅附图8,图8为本申请实施例公开的一种第二音频转写文件的结构示意图。如图8所示,第二音频转写文件包括第二文件头信息和各文件单元,第二文件头信息中包括文件头总大小,所述音频数据的信息,所述转写结果数据的信息。
在本申请的另一个实施例中,还对第一音频转写文件的解码过程进行了详细说明,该过程可以包括以下步骤:
步骤S601:读取所述第一音频转写文件的第一文件头信息。
在本申请中,读取第一音频转写文件的文件头信息可以读取第一文件头信息中文件头总大小,所述音频数据的信息,所述转写结果数据的信息,以及各文件块大小。
步骤S602:根据所述第一音频转写文件的第一文件头信息,确定所述第一音频转写文件中各文件块的起始位置和结束位置。
在本申请中,根据第一文件头信息中文件头总大小,所述音频数据的信息,所述转写结果数据的信息,以及各文件块大小,即可确定第一音频转写文件中文件块的起始位置和结束位置。
为便于理解,假设第一文件头信息中从95字节开始,每4个字节为各文件块的长度,依次读取可得到文件块总数数n以及各个文件块的长度block_length_1,block_length_2,...,block_length_n,由此可得第i块文件块在第一音频转写文件中的起始位置为:
block_i_startOffset=(95+4*n)+block_length_1+block_length_2+...+block_length_i-1
第i块文件块在第一音频转写文件中的结束位置为:
block_i_endOffset=block_i_startOffset+block_length_i
步骤S603:针对每一文件块,从所述文件块的起始位置开始至结束位置,依次读取所述文件块中的各文件单元,得到每个文件单元包含的音频数据片段以及音频转写数据片段。
针对每一文件块中每个文件单元,可以基于文件单元头信息读取文件单元中包含的音频数据片段以及音频转写数据片段。
在本申请的另一个实施例中,还对第二音频转写文件的解码过程进行了详细说明,该过程可以包括以下步骤:
步骤S701:读取所述第二音频转写文件的第二文件头信息。
在本申请中,读取第二音频转写文件的文件头信息可以读取第二文件头信息中文件头总大小,所述音频数据的信息,所述转写结果数据的信息。
步骤S702:根据所述第二音频转写文件的第二文件头信息,确定所述第二音频转写文件中文件单元的起始位置。
在本申请中,根据第二文件头信息中文件头总大小,所述音频数据的信息,所述转写结果数据的信息,即可确定第二音频转写文件中文件单元的起始位置。
步骤S703:从所述文件单元的起始位置开始,依次读取所述文件块中的各文件单元,得到每个文件单元包含的音频数据片段以及音频转写数据片段。
具体可以根据每个文件单元的头信息得到每个文件单元包含的音频数据片段以及音频转写数据片段。
下面对本申请实施例公开的音频转写文件生成装置进行描述,下文描述的音频转写文件生成装置与上文描述的音频转写文件生成方法可相互对应参照。
参照图9,图9为本申请实施例公开的一种音频转写文件生成装置结构示意图。如图9所示,该音频转写文件生成装置可以包括:
获取单元11,用于获取音频数据,以及,与所述音频数据对应的转写结果数据;
解析单元12,用于对所述音频数据及所述转写结果数据进行解析,得到至少一个文件单元,每个文件单元中包含音频数据片段及该音频数据片段对应的转写结果数据片段,各所述文件单元中的音频数据片段组成所述音频数据;各所述文件单元中的转写结果数据片段组成所述转写结果数据;
音频转写文件生成单元13,用于根据各所述文件单元,生成音频转写文件。
可选地,所述解析单元,包括:
转写结果数据解析单元,用于对所述转写结果数据进行解析,获取至少一个转写结果数据片段;
音频数据解析单元,用于根据各转写结果数据片段对应的音频起始时间和音频结束时间,对所述音频数据进行解析,获取至少一个音频数据片段;
文件单元生成单元,用于基于所述至少一个转写结果数据片段,以及,所述至少一个音频数据片段,获取至少一个文件单元。
可选地,所述文件单元生成单元,包括:
第一文件单元生成单元,用于针对每个转写结果数据片段,将所述转写结果数据片段,以及,与其对应的音频数据片段组合生成一个文件单元;
或者,
第二文件单元生成单元,用于针对每个转写结果数据片段,将所述转写结果数据片段,以及,与其对应的音频数据片段进行组合,生成一个文件单元;针对所述音频数据片段中,不存在对应转写结果数据片段的每个音频数据片段,生成一个文件单元,该文件单元中的转写结果数据片段为空。
可选地,所述音频转写文件生成单元,包括:
第一音频转写文件生成单元,用于根据各所述文件单元,生成第一音频转写文件;所述第一音频文件包括第一文件头信息和至少一个文件块,所述第一文件头信息包括文件头总大小,所述音频数据的信息,所述转写结果数据的信息,以及各所述文件块的大小;
或者;
第二音频转写文件生成单元,用于根据各所述文件单元,生成第二音频转写文件;所述第二音频文件包括第二文件头信息和各所述文件单元,所述第二文件头信息包括文件头总大小,所述音频数据的信息以及所述转写结果数据的信息。
可选地,所述第一音频转写文件生成单元,包括:
划分单元,用于将各所述文件单元,划分为至少一个文件块;
第一文件头信息确定单元,用于根据所述音频数据、所述转写结果数据、各所述文件块,确定所述第一文件头信息;
第一音频转写文件生成子单元,用于基于各所述文件块和所述第一文件头信息,生成第一音频转写文件。
可选地,所述第二音频转写文件生成单元,包括:
第二文件头信息确定单元,用于根据所述音频数据、所述转写结果数据,确定所述第二文件头信息;
第二音频转写文件生成子单元,用于基于各所述文件单元和所述第二文件头信息,生成第二音频转写文件。
可选地,所述装置还包括:
第一文件解码单元,用于在第一音频转写文件生成子单元基于各所述文件块和所述第一文件头信息,生成第一音频转写文件之后,读取所述第一音频转写文件的第一文件头信息;根据所述第一音频转写文件的第一文件头信息,确定所述第一音频转写文件中各文件块的起始位置和结束位置;针对每一文件块,从所述文件块的起始位置开始至结束位置,依次读取所述文件块中的各文件单元,得到每个文件单元包含的音频数据片段以及音频转写数据片段。
可选地,所述装置还包括:
第二文件解码单元,用于在第二音频转写文件生成子单元基于各所述文件块和所述第二文件头信息,生成第二音频转写文件之后,读取所述第二音频转写文件的第二文件头信息;根据所述第二音频转写文件的第二文件头信息,确定所述第二音频转写文件中文件单元的起始位置;从所述文件单元的起始位置开始,依次读取所述文件块中的各文件单元,得到每个文件单元包含的音频数据片段以及音频转写数据片段。
参照图10,图10为本申请实施例提供的音频转写文件生成设备的硬件结构框图,参照图10,音频转写文件生成设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取音频数据,以及,与所述音频数据对应的转写结果数据;
对所述音频数据及所述转写结果数据进行解析,得到至少一个文件单元,每个文件单元中包含音频数据片段及该音频数据片段对应的转写结果数据片段,各所述文件单元中的音频数据片段组成所述音频数据;各所述文件单元中的转写结果数据片段组成所述转写结果数据;
根据各所述文件单元,生成音频转写文件。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取音频数据,以及,与所述音频数据对应的转写结果数据;
对所述音频数据及所述转写结果数据进行解析,得到至少一个文件单元,每个文件单元中包含音频数据片段及该音频数据片段对应的转写结果数据片段,各所述文件单元中的音频数据片段组成所述音频数据;各所述文件单元中的转写结果数据片段组成所述转写结果数据;
根据各所述文件单元,生成音频转写文件。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种音频转写文件生成方法,其特征在于,包括:
获取音频数据,以及,与所述音频数据对应的转写结果数据;
对所述转写结果数据进行解析,获取至少一个转写结果数据片段;根据各转写结果数据片段对应的音频起始时间和音频结束时间,对所述音频数据进行解析,获取至少一个音频数据片段;基于所述至少一个转写结果数据片段,以及,所述转写结果数据片段对应的至少一个音频数据片段,得到至少一个文件单元,每个文件单元中包含音频数据片段及该音频数据片段对应的转写结果数据片段,各所述文件单元中的音频数据片段组成所述音频数据;各所述文件单元中的转写结果数据片段组成所述转写结果数据;
根据各所述文件单元,生成音频转写文件。
2.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个转写结果数据片段,以及,所述转写结果数据片段对应的至少一个音频数据片段,获取至少一个文件单元,还包括:
针对每个转写结果数据片段,将所述转写结果数据片段,以及,与其对应的音频数据片段进行组合,生成一个文件单元;
针对所述音频数据片段中,不存在对应转写结果数据片段的每个音频数据片段,生成一个文件单元,该文件单元中的转写结果数据片段为空。
3.根据权利要求1所述的方法,其特征在于,所述根据各所述文件单元,生成音频转写文件,包括:
根据各所述文件单元,生成第一音频转写文件;所述第一音频转写文件包括第一文件头信息和至少一个文件块,所述第一文件头信息包括文件头总大小,所述音频数据的信息,所述转写结果数据的信息,以及各所述文件块的大小;
或者;
根据各所述文件单元,生成第二音频转写文件;所述第二音频转写文件包括第二文件头信息和各所述文件单元,所述第二文件头信息包括文件头总大小,所述音频数据的信息以及所述转写结果数据的信息。
4.根据权利要求3所述的方法,其特征在于,所述根据各所述文件单元,生成第一音频转写文件,包括:
将各所述文件单元,划分为至少一个文件块;
根据所述音频数据、所述转写结果数据、各所述文件块,确定所述第一文件头信息;
基于各所述文件块和所述第一文件头信息,生成第一音频转写文件。
5.根据权利要求3所述的方法,其特征在于,所述根据各所述文件单元,生成第二音频转写文件,包括:
根据所述音频数据、所述转写结果数据,确定所述第二文件头信息;
基于各所述文件单元和所述第二文件头信息,生成第二音频转写文件。
6.根据权利要求4所述的方法,其特征在于,在基于各所述文件块和所述第一文件头信息,生成第一音频转写文件之后,所述方法还包括:
读取所述第一音频转写文件的第一文件头信息;
根据所述第一音频转写文件的第一文件头信息,确定所述第一音频转写文件中各文件块的起始位置和结束位置;
针对每一文件块,从所述文件块的起始位置开始至结束位置,依次读取所述文件块中的各文件单元,得到每个文件单元包含的音频数据片段以及音频转写数据片段。
7.根据权利要求5所述的方法,其特征在于,在基于各所述文件块和所述第二文件头信息,生成第二音频转写文件之后,所述方法还包括:
读取所述第二音频转写文件的第二文件头信息;
根据所述第二音频转写文件的第二文件头信息,确定所述第二音频转写文件中文件单元的起始位置;
从所述文件单元的起始位置开始,依次读取所述文件块中的各文件单元,得到每个文件单元包含的音频数据片段以及音频转写数据片段。
8.一种音频转写文件生成装置,其特征在于,包括:
获取单元,用于获取音频数据,以及,与所述音频数据对应的转写结果数据;
解析单元,用于对所述转写结果数据进行解析,获取至少一个转写结果数据片段;根据各转写结果数据片段对应的音频起始时间和音频结束时间,对所述音频数据进行解析,获取至少一个音频数据片段;基于所述至少一个转写结果数据片段,以及,所述转写结果数据片段对应的至少一个音频数据片段,得到至少一个文件单元,每个文件单元中包含音频数据片段及该音频数据片段对应的转写结果数据片段,各所述文件单元中的音频数据片段组成所述音频数据;各所述文件单元中的转写结果数据片段组成所述转写结果数据;
音频转写文件生成单元,用于根据各所述文件单元,生成音频转写文件。
9.一种音频转写文件生成设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1至7中任一项所述的音频转写文件生成方法的各个步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的音频转写文件生成方法的各个步骤。
CN202010744772.1A 2020-07-29 2020-07-29 音频转写文件生成方法、相关设备及可读存储介质 Active CN111863043B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010744772.1A CN111863043B (zh) 2020-07-29 2020-07-29 音频转写文件生成方法、相关设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010744772.1A CN111863043B (zh) 2020-07-29 2020-07-29 音频转写文件生成方法、相关设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111863043A CN111863043A (zh) 2020-10-30
CN111863043B true CN111863043B (zh) 2022-09-23

Family

ID=72946398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010744772.1A Active CN111863043B (zh) 2020-07-29 2020-07-29 音频转写文件生成方法、相关设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111863043B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8126391B2 (en) * 2003-07-11 2012-02-28 Broadcom Corporation Method and system for single chip satellite set-top box system
CN105867718A (zh) * 2015-12-10 2016-08-17 乐视网信息技术(北京)股份有限公司 一种多媒体互动方法及装置
CN205647778U (zh) * 2016-04-01 2016-10-12 安徽听见科技有限公司 一种智能会议系统
CN106340291A (zh) * 2016-09-27 2017-01-18 广东小天才科技有限公司 一种双语字幕制作方法及系统
CN106897379A (zh) * 2017-01-20 2017-06-27 广东小天才科技有限公司 语音文件的lrc时间轴文件自动生成方法及相关设备
CN107820112A (zh) * 2017-11-15 2018-03-20 安徽声讯信息技术有限公司 一种音频文字直播系统
CN108600773A (zh) * 2018-04-25 2018-09-28 腾讯科技(深圳)有限公司 字幕数据推送方法、字幕展示方法、装置、设备及介质
CN108829765A (zh) * 2018-05-29 2018-11-16 平安科技(深圳)有限公司 一种信息查询方法、装置、计算机设备及存储介质
CN110798733A (zh) * 2019-10-30 2020-02-14 中央电视台 一种字幕生成方法、装置及计算机存储介质、电子设备
CN110867180A (zh) * 2019-10-15 2020-03-06 北京雷石天地电子技术有限公司 一种基于k均值聚类算法生成逐字歌词文件的系统与方法
CN111008300A (zh) * 2019-11-20 2020-04-14 四川互慧软件有限公司 一种在音视频中基于关键词的时间戳定位搜索方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050177743A1 (en) * 2004-02-05 2005-08-11 Barber Aaron J. Method and system for a consumer upgradeable decoder
AU2007231829A1 (en) * 2007-11-02 2009-05-21 Smart Internet Technology Crc Pty Ltd Systems and methods for file transfer to a pervasive computing system
CN104978973B (zh) * 2014-10-22 2019-08-13 广州酷狗计算机科技有限公司 一种音频处理方法及装置
CN104778216B (zh) * 2015-03-20 2017-05-17 广东欧珀移动通信有限公司 一种预设风格歌曲处理的方法及装置
US20180158469A1 (en) * 2015-05-25 2018-06-07 Guangzhou Kugou Computer Technology Co., Ltd. Audio processing method and apparatus, and terminal
DE102017103533A1 (de) * 2017-02-21 2018-08-23 Grundig Business Systems Gmbh Verfahren und Vorrichtung zur textbezogenen Vorschau von Inhalten von Audiodateien
CN209089103U (zh) * 2018-09-11 2019-07-09 科大讯飞股份有限公司 一种编辑系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8126391B2 (en) * 2003-07-11 2012-02-28 Broadcom Corporation Method and system for single chip satellite set-top box system
CN105867718A (zh) * 2015-12-10 2016-08-17 乐视网信息技术(北京)股份有限公司 一种多媒体互动方法及装置
CN205647778U (zh) * 2016-04-01 2016-10-12 安徽听见科技有限公司 一种智能会议系统
CN106340291A (zh) * 2016-09-27 2017-01-18 广东小天才科技有限公司 一种双语字幕制作方法及系统
CN106897379A (zh) * 2017-01-20 2017-06-27 广东小天才科技有限公司 语音文件的lrc时间轴文件自动生成方法及相关设备
CN107820112A (zh) * 2017-11-15 2018-03-20 安徽声讯信息技术有限公司 一种音频文字直播系统
CN108600773A (zh) * 2018-04-25 2018-09-28 腾讯科技(深圳)有限公司 字幕数据推送方法、字幕展示方法、装置、设备及介质
CN108829765A (zh) * 2018-05-29 2018-11-16 平安科技(深圳)有限公司 一种信息查询方法、装置、计算机设备及存储介质
CN110867180A (zh) * 2019-10-15 2020-03-06 北京雷石天地电子技术有限公司 一种基于k均值聚类算法生成逐字歌词文件的系统与方法
CN110798733A (zh) * 2019-10-30 2020-02-14 中央电视台 一种字幕生成方法、装置及计算机存储介质、电子设备
CN111008300A (zh) * 2019-11-20 2020-04-14 四川互慧软件有限公司 一种在音视频中基于关键词的时间戳定位搜索方法

Also Published As

Publication number Publication date
CN111863043A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
US8117026B2 (en) String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method
EP3340238B1 (en) Method and device for audio processing
CN108595520B (zh) 一种生成多媒体文件的方法和装置
US9183837B2 (en) Apparatus and method for determining bit rate for audio content
CN102880460A (zh) 一种便签内容的解析方法和装置
CN108241612B (zh) 标点符号处理方法和装置
CN110008807B (zh) 一种合同内容识别模型的训练方法、装置及设备
CN108305622A (zh) 一种基于语音识别的音频摘要文本创建方法及其创建装置
CN111863043B (zh) 音频转写文件生成方法、相关设备及可读存储介质
WO2014078449A2 (en) Intelligent information summarization and display
CN113096635A (zh) 一种音频和文本的同步方法、装置、设备以及介质
CN109712613B (zh) 语义分析库更新方法、装置及电子设备
CN114492303A (zh) 电子书的排版处理方法、电子设备及存储介质
CN111563065B (zh) 一种文档保存方法、装置及计算机可读存储介质
CN111241036B (zh) 一种异步io数据处理方法、装置、设备及介质
CN103092859A (zh) 一种获取音乐文件信息的方法及装置
US10037148B2 (en) Facilitating reverse reading of sequentially stored, variable-length data
US20170329849A1 (en) Indexing variable bit stream audio formats
US11404053B1 (en) Speech-to-analytics framework with support for large n-gram corpora
CN111368099B (zh) 核心信息语义图谱生成方法及装置
CN113360287B (zh) 数据处理方法及装置
US20240143904A1 (en) Human-Computer Interaction Method And Apparatus Thereof
CN111352917B (zh) 信息录入方法、装置、电子设备及存储介质
CN114285797A (zh) Ip地址的处理方法、装置、存储介质
CN113434711A (zh) 一种多媒体数据展示方法、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant