CN111126001A - 文字标注方法、装置、设备及存储介质 - Google Patents

文字标注方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111126001A
CN111126001A CN201911131482.3A CN201911131482A CN111126001A CN 111126001 A CN111126001 A CN 111126001A CN 201911131482 A CN201911131482 A CN 201911131482A CN 111126001 A CN111126001 A CN 111126001A
Authority
CN
China
Prior art keywords
audio
voice
audios
voice audio
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911131482.3A
Other languages
English (en)
Inventor
黄哲
万康康
石真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhuiyi Technology Co Ltd
Original Assignee
Shenzhen Zhuiyi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhuiyi Technology Co Ltd filed Critical Shenzhen Zhuiyi Technology Co Ltd
Priority to CN201911131482.3A priority Critical patent/CN111126001A/zh
Publication of CN111126001A publication Critical patent/CN111126001A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Abstract

本申请公开了一种文字标注方法、装置、设备及存储介质,属于计算机技术领域。所述方法包括:获取语音音频集合,语音音频集合包括多个待标注的语音音频;从语音音频集合包括的多个待标注的语音音频中筛选出长语音音频和短语音音频,其中,长语音音频的音频时长大于等于第一时长阈值,短语音音频的音频时长小于等于第二时长阈值;对筛选出的各长语音音频进行切分处理,并对筛选出的各短语音音频进行拼接处理,得到多个处理语音音频,其中,处理语音音频的音频时长位于预设时长范围内;将多个处理语音音频发送至文字标注终端,以供文字标注终端对应的用户进行文字标注。本申请实施例提供的技术方案能够提高文字标注的效率。

Description

文字标注方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种文字标注方法、装置、设备及存储介质。
背景技术
当前,语音识别技术在人们的日常生活中已经越来越常见了,例如,智能音箱、语音机器人以及智能家居等语音交互类产品都需要使用到语音识别技术。所谓“语音识别技术”指的是识别语音音频中用户所说的话的内容的一种技术,换句话说,语音识别技术可以将语音音频转化为文字。
在当前的语音识别技术中,通常可以采用神经网络对语音音频进行识别,其中,该神经网络可以用大量的训练样本训练得到,该训练样本可以包括语音音频和语音音频对应的文字。为了对神经网络进行训练,就需要由人工对语音音频进行文字标注,从而通过文字标注得到训练样本。
其中,人工对语音音频进行文字标注的效率是制约神经网络训练效率的一个重要因素,当前,如何提高文字标注的效率已经成为了一个亟待解决的问题。
发明内容
基于此,为了提高文字标注的效率,提供了一种文字标注方法、装置、设备及存储介质。
第一方面,提供了一种文字标注方法,该方法包括:
获取语音音频集合,该语音音频集合包括多个待标注的语音音频;从该语音音频集合包括的多个待标注的语音音频中筛选出长语音音频和短语音音频,其中,该长语音音频的音频时长大于等于第一时长阈值,该短语音音频的音频时长小于等于第二时长阈值;对筛选出的各长语音音频进行切分处理,并对筛选出的各短语音音频进行拼接处理,得到多个处理语音音频,其中,该处理语音音频的音频时长位于预设时长范围内;将该多个处理语音音频发送至文字标注终端,以供该文字标注终端对应的用户进行文字标注。
在其中一个实施例中,对筛选出的各长语音音频进行切分处理,并对筛选出的各短语音音频进行拼接处理,包括:
对筛选出的各长语音音频和各短语音音频进行复制处理,得到复制后的各长语音音频和复制后的各短语音音频;对复制后的各长语音音频进行切分处理,并对复制后的各短语音音频进行拼接处理。
在其中一个实施例中,对筛选出的各长语音音频进行切分处理,包括:
对于各长语音音频,根据该预设时长范围确定多个音频切分时间节点,其中,任意相邻的两个该音频切分时间节点之间相隔的时长均位于该预设时长范围内;对于各长语音音频,根据该多个音频切分时间节点对该长语音音频进行切分处理。
在其中一个实施例中,对筛选出的各短语音音频进行拼接处理,包括:
从筛选出的该短语音音频中得到多个音频集合,各音频集合包括多个该短语音音频,各音频集合包括的短语音音频的音频时长之和位于该预设时长范围内;对各音频集合包括的多个该短语音音频进行拼接处理。
在其中一个实施例中,该多个处理语音音频包括多个切分处理语音音频和多个拼接处理语音音频,该切分处理语音音频是经过切分处理后得到的,该拼接处理语音音频是经过拼接处理后得到的,将该多个处理语音音频发送至文字标注终端之后,该方法还包括:
接收该文字标注终端发送的各处理语音音频所分别对应的标注文本;对该多个切分处理语音音频对应的标注文本进行拼接处理,对该多个拼接处理语音音频对应的标注文本进行切分处理,得到与筛选出的各长语音音频和各短语音音频所分别对应的标注文本。
在其中一个实施例中,对该多个切分处理语音音频对应的标注文本进行拼接处理,包括:
对与同一长语音音频相对应的切分处理语音音频对应的标注文本,按照切分处理时的顺序进行拼接处理。
在其中一个实施例中,从该语音音频集合中筛选出音频时长大于等于第一时长阈值的长语音音频和音频时长小于第二时长阈值的短语音音频之前,该方法包括:
获取该语音音频集合中各语音音频的时间基、音频帧的数量以及音频帧对应的时间基数量;将各语音音频的时间基、音频帧的数量以及音频帧对应的时间基数量相乘,得到各语音音频的音频时长。
第二方面,提供了一种文字标注装置,其特征在于,该装置包括:
集合获取模块,用于获取语音音频集合,该语音音频集合包括多个待标注的语音音频;
筛选模块,用于从该语音音频集合包括的多个待标注的语音音频中筛选出长语音音频和短语音音频,其中,该长语音音频的音频时长大于等于第一时长阈值,该短语音音频的音频时长小于等于第二时长阈值;
音频处理模块,用于对筛选出的各长语音音频进行切分处理,并对筛选出的各短语音音频进行拼接处理,得到多个处理语音音频,其中,该处理语音音频的音频时长位于预设时长范围内;
发送模块,用于将该多个处理语音音频发送至文字标注终端,以供该文字标注终端对应的用户进行文字标注。
在其中一个实施例中,该音频处理模块,具体用于:对筛选出的各长语音音频和各短语音音频进行复制处理,得到复制后的各长语音音频和复制后的各短语音音频;对复制后的各长语音音频进行切分处理,并对复制后的各短语音音频进行拼接处理。
在其中一个实施例中,该音频处理模块,具体用于:对于各长语音音频,根据该预设时长范围确定多个音频切分时间节点,其中,任意相邻的两个该音频切分时间节点之间相隔的时长均位于该预设时长范围内;对于各长语音音频,根据该多个音频切分时间节点对该长语音音频进行切分处理。
在其中一个实施例中,该音频处理模块,具体用于:从筛选出的该短语音音频中得到多个音频集合,各音频集合包括多个该短语音音频,各音频集合包括的短语音音频的音频时长之和位于该预设时长范围内;对各音频集合包括的多个该短语音音频进行拼接处理。
在其中一个实施例中,该多个处理语音音频包括多个切分处理语音音频和多个拼接处理语音音频,该切分处理语音音频是经过切分处理后得到的,该拼接处理语音音频是经过拼接处理后得到的,该装置还包括文本处理模块,该文本处理模块,用于:
接收该文字标注终端发送的各处理语音音频所分别对应的标注文本;对该多个切分处理语音音频对应的标注文本进行拼接处理,对该多个拼接处理语音音频对应的标注文本进行切分处理,得到与筛选出的各长语音音频和各短语音音频所分别对应的标注文本。
在其中一个实施例中,该文本处理模块,具体用于:对与同一长语音音频相对应的切分处理语音音频对应的标注文本,按照切分处理时的顺序进行拼接处理。
在其中一个实施例中,该装置还包括时长获取模块,该时长获取模块,用于:获取该语音音频集合中各语音音频的时间基、音频帧的数量以及音频帧对应的时间基数量;将各语音音频的时间基、音频帧的数量以及音频帧对应的时间基数量相乘,得到各语音音频的音频时长。
第三方面,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该计算机程序被该处理器执行时实现上述第一方面任一所述的文字标注方法。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面任一所述的文字标注方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过获取语音音频集合,其中,该语音音频集合包括多个待标注的语音音频,然后,从该语音音频集合中筛选出长语音音频和短语音音频,并对筛选出的长语音音频进行切分处理,对筛选出的短语音音频进行拼接处理,得到多个处理语音音频,接着,将该多个处理语音音频发送至文字标注终端,以供该文字标注终端对应的用户进行文字标注,这样,就可以使文字标注终端对应的用户能够对音频时长适中的处理语音音频进行文字标注,从而避免文字标注终端对应的用户对音频时长过长的语音音频和音频时长过短的语音音频进行标注而导致的文字标注效率低下的问题。
附图说明
图1为本申请实施例提供的一种文字标注方法所涉及到的实施环境的示意图;
图2为本申请实施例提供的一种文字标注方法的流程图;
图3为本申请实施例提供的另一种文字标注方法的流程图;
图4为本申请实施例提供的另一种文字标注方法的流程图;
图5为本申请实施例提供的另一种文字标注方法的流程图;
图6为本申请实施例提供的另一种文字标注方法的流程图;
图7为本申请实施例提供的一种文字标注装置的框图;
图8为本申请实施例提供的一种文字标注装置的框图;
图9为本申请实施例提供的一种计算机设备的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在语音识别技术中,通常可以使用神经网络对语音音频进行识别,其中,该神经网络可以由大量的训练样本训练得到,该训练样本可以包括语音音频和语音音频对应的文字。为了对神经网络进行训练,就需要由人工对语音音频进行文字标注,从而通过文字标注得到训练样本。
发明人发现,现有的由人工对语音音频进行文字标注的方式中,存在以下两个问题:
1、单个语音音频的音频时长过长的问题。
例如,某些需要进行文字标注的语音音频的音频时长可能超过30分钟,甚至超过一个小时,甚至于可以达到10个小时。对于音频时长过长的语音音频,单个标注人员需要较长的时间才能完成对其的文字标注。
2、单个语音音频的音频时长过短的问题。
例如,某些需要进行文字标注的语音音频的音频时长可能只有几秒钟。对于音频时长过短的语音音频,在文字标注的过程中,标注人员需要进行频繁的语音音频切换。例如,对于音频时长只有3秒钟的语音音频,在文字标注的过程中,标注人员可能每隔5秒钟就需要进行一次语音音频切换操作,以对下一个语音音频进行文字标注,那么一个小时以内,标注人员就需要执行720次语音音频切换操作。
上文所述的两个问题的存在会严重制约人工文字标注的效率。为了提高人工文字标注的效率,本申请实施例提供了一种文字标注方法。
下面,将对本申请实施例提供的文字标注方法所涉及到的实施环境进行简要说明。
图1为本申请实施例提供的一种实施环境的示意图。如图1所示,该实施环境可以包括服务器101和至少一个文字标注终端102(图1中仅示出了一个文字标注终端102),其中,服务器101和各文字标注终端102之间可以通过有线或无线的方式进行通信。
文字标注终端102可以是标注人员对应的终端,在本申请实施例提供的技术方案中,服务器101可以对语音音频集合中待标注的语音音频进行相关的处理,得到处理语音音频,而后,服务器101可以将处理语音音频发送至文字标注终端102中,以由文字标注终端102对应的标注人员对处理语音音频进行文字标注。
请参考图2,其示出了本申请实施例提供的一种文字标注方法的流程图,该文字标注方法可以应用于图1所示的服务器101中。如图2所示,该文字标注方法可以包括以下步骤:
步骤201、服务器获取语音音频集合。
其中,该语音音频集合包括多个待标注的语音音频。其中,语音音频指的是包括用户所说的话的一种音频,待标注的语音音频指的是未经过文字标注的语音音频,语音音频集合中包括的语音音频中可能存在音频时长过长的语音音频(也即是音频时长大于等于第一时长阈值的语音音频)和音频时长过短的语音音频(也即是音频时长小于等于第二时长阈值的语音音频),其中,第一时长阈值大于等于第二时长阈值。
需要指出的是,第一时长阈值和第二时长阈值可以由技术人员根据文字标注的实际情况进行设定,本申请实施例对其不做具体限定,例如,该第一时长阈值和第二时长阈值可以均为10分钟。
步骤202、服务器从语音音频集合包括的多个待标注的语音音频中筛选出长语音音频和短语音音频。
其中,该长语音音频的音频时长大于等于第一时长阈值,该短语音音频的音频时长小于等于第二时长阈值。
在步骤202中,服务器可以获取语音音频集合包括的每个待标注的语音音频的音频时长,在获取到每个待标注的语音音频的音频时长之后,服务器可以根据每个待标注的语音音频的音频时长,从语音音频集合包括的多个待标注的语音音频中筛选出长语音音频和短语音音频。
在一种可能的实现方式中,服务器可以获取语音音频集合中每个待标注的语音音频的时间基(time_base)、音频帧的数量以及音频帧对应的时间基数量,其中,时间基可以被理解为音频的时间刻度对应的时长,音频是由多个音频帧组成的,每个音频帧与一定数量的时间基相对应,因此,在获取了待标注的语音音频的时间基、音频帧的数量以及音频帧对应的时间基数量之后,将这三者进行相乘,即可得到待标注的语音音频的音频时长。
在实际应用中,服务器可以从待标注的语音音频的文件头中获取该待标注的语音音频的时间基、音频帧的数量以及音频帧对应的时间基数量。
步骤203、服务器对筛选出的各长语音音频进行切分处理,并对筛选出的各短语音音频进行拼接处理,得到多个处理语音音频。
其中,该处理语音音频的音频时长位于预设时长范围内,需要指出的是,该预设时长范围的上界小于第一时长阈值,该预设时长范围的下界大于第二时长阈值。换句话说,处理语音音频的音频时长小于第一时长阈值且大于第二时长阈值,因此,处理语音音频的音频时长既不过长,也不过短,而是比较适中。
所谓“对长语音音频进行切分处理”指的是将长语音音频分割成多个音频时长较短的语音音频的处理。所谓“对短语音音频进行拼接处理”指的是将多个短语音音频合并成音频时长较长的语音音频的处理。
步骤204、服务器将多个处理语音音频发送至文字标注终端,以供文字标注终端对应的用户进行文字标注。
需要指出的是,这里所谓的“文字标注终端对应的用户”也即是上文所述的标注人员。
在本申请实施例提供的文字标注方法中,通过获取语音音频集合,其中,该语音音频集合包括多个待标注的语音音频,然后,从该语音音频集合中筛选出长语音音频和短语音音频,并对筛选出的长语音音频进行切分处理,对筛选出的短语音音频进行拼接处理,得到多个处理语音音频,接着,将该多个处理语音音频发送至文字标注终端,以供该文字标注终端对应的用户进行文字标注,这样,就可以使文字标注终端对应的用户能够对音频时长适中的处理语音音频进行文字标注,从而避免文字标注终端对应的用户对音频时长过长的语音音频和音频时长过短的语音音频进行标注而导致的文字标注效率低下的问题。
请参考图3,在上文所述的实施例的基础上,服务器可以按照下述步骤执行步骤203的技术过程:
步骤301、服务器对筛选出的各长语音音频和各短语音音频进行复制处理,得到复制后的各长语音音频和复制后的各短语音音频。
服务器对各长语音音频和各短语音音频进行复制处理之后,可以保留原始的长语音音频和短语音音频,并同时存储复制后的长语音音频和复制后的短语音音频。
步骤302、服务器对复制后的各长语音音频进行切分处理,并对复制后的各短语音音频进行拼接处理。
在本申请实施例提供的文字标注方法中,服务器对复制后的长语音音频进行切分处理,并对复制后的短语音音频进行拼接处理,这样就可以避免对原始语音音频的操作,继而起到保护原始语音音频的目的,从而可以保证数据安全。
请参考图4,在上文所述的实施例的基础上,服务器可以按照下述步骤实现对长语音音频的切分处理:
步骤401、对于各长语音音频,服务器根据预设时长范围确定多个音频切分时间节点。
其中,任意相邻的两个音频切分时间节点之间相隔的时长均位于预设时长范围内,其中,该预设时长范围的上界小于第一时长阈值,该预设时长范围的下界大于第二时长阈值。可选的,在本申请实施例中,任意相邻的两个音频切分时间节点之间相隔的时长可以相等。
例如,某一长语音音频的音频时长为10分钟,预设时长范围为1分钟到2分钟之间,则服务器可以将距离该长语音音频的开头的时长分别为2分钟、4分钟、6分钟、8分钟和10分钟的时间节点作为音频切分时间节点,这样,任意相邻的两个音频切分时间节点之间相隔的时长就均为2分钟,位于该预设时长范围内。
步骤402、对于各长语音音频,服务器根据该多个音频切分时间节点对长语音音频进行切分处理。
由于任意相邻的两个音频切分时间节点之间相隔的时长均位于预设时长范围内,因此,根据该多个音频切分时间节点对长语音音频进行切分处理后得到的处理语音音频的音频时长均位于该预设时长范围内。
请参考图5,在上文所述的实施例的基础上,服务器可以按照下述步骤实现对短语音音频的拼接处理:
步骤501、服务器从筛选出的短语音音频中得到多个音频集合。
其中,各个音频集合包括多个短语音音频,且,各个音频集合包括的短语音音频的音频时长之和位于预设时长范围内。
例如,预设时长范围为1分钟到2分钟之间,在步骤501中,服务器得到的某一音频集合可以包括3个短语音音频,该3个短语音音频的音频时长分别为30秒、10秒和40秒,该3个短语音音频的音频时长之和为1分20秒,位于该预设时长范围内。
步骤502、服务器对每个音频集合包括的多个短语音音频进行拼接处理。
请参考图6,在上文所述的实施例的基础上,步骤205之后,本申请实施例提供的文字标注方法还包括以下步骤:
步骤601、服务器接收文字标注终端发送的各个处理语音音频所分别对应的标注文本。
在标注人员完成对处理语音音频的文字标注之后,文字标注终端可以将标注人员标注的文字(也即是上文所述的标注文本)发送至服务器中,服务器可以接收文字标注终端所发送的该标注文本。
步骤602、服务器对多个切分处理语音音频对应的标注文本进行拼接处理,对多个拼接处理语音音频对应的标注文本进行切分处理,得到与筛选出的各长语音音频和各短语音音频所分别对应的标注文本。
其中,处理语音音频包括切分处理语音音频和拼接处理语音音频,所谓切分处理语音音频是经过切分处理后得到的,所谓拼接处理语音音频是经过拼接处理后得到的。
其中,“对切分处理语音音频对应的标注文本进行拼接处理”指的是对与同一长语音音频相对应的切分处理语音音频对应的标注文本,按照切分处理时的顺序进行拼接处理。
“对多个拼接处理语音音频对应的标注文本进行切分处理”指的是根据组成该拼接处理语音音频的音频时长对标注文本进行切分处理。
请参考图7,其示出了本申请实施例提供的一种文字标注装置700的框图,该文字标注装置700可以配置于上文所述的服务器中。如图7所示,该文字标注装置700可以包括:集合获取模块701、筛选模块702、音频处理模块703和发送模块704。
该集合获取模块701,用于获取语音音频集合,该语音音频集合包括多个待标注的语音音频。
该筛选模块702,用于从该语音音频集合包括的多个待标注的语音音频中筛选出长语音音频和短语音音频,其中,该长语音音频的音频时长大于等于第一时长阈值,该短语音音频的音频时长小于等于第二时长阈值。
该音频处理模块703,用于对筛选出的各长语音音频进行切分处理,并对筛选出的各短语音音频进行拼接处理,得到多个处理语音音频,其中,该处理语音音频的音频时长位于预设时长范围内。
该发送模块704,用于将该多个处理语音音频发送至文字标注终端,以供该文字标注终端对应的用户进行文字标注。
在本申请的一个实施例中,该音频处理模块703,具体用于:对筛选出的各长语音音频和各短语音音频进行复制处理,得到复制后的各长语音音频和复制后的各短语音音频;对复制后的各长语音音频进行切分处理,并对复制后的各短语音音频进行拼接处理。
在本申请的一个实施例中,该音频处理模块703,具体用于:对于各长语音音频,根据该预设时长范围确定多个音频切分时间节点,其中,任意相邻的两个该音频切分时间节点之间相隔的时长均位于该预设时长范围内;对于各长语音音频,根据该多个音频切分时间节点对该长语音音频进行切分处理。
在本申请的一个实施例中,该音频处理模块703,具体用于:从筛选出的该短语音音频中得到多个音频集合,各音频集合包括多个短语音音频,各音频集合包括的短语音音频的音频时长之和位于该预设时长范围内;对各音频集合包括的多个该短语音音频进行拼接处理。
请参考图8,本申请实施例还提供了另外一种文字标注装置800,该文字标注装置800除了包括文字标注装置700包括的各模块外,可选的,该文字标注装置800还可以包括文本处理模块705和时长获取模块706。
该多个处理语音音频包括多个切分处理语音音频和多个拼接处理语音音频,该切分处理语音音频是经过切分处理后得到的,该拼接处理语音音频是经过拼接处理后得到的,该文本处理模块705,用于:
接收该文字标注终端发送的各处理语音音频所分别对应的标注文本;对该多个切分处理语音音频对应的标注文本进行拼接处理,对该多个拼接处理语音音频对应的标注文本进行切分处理,得到与筛选出的各长语音音频和各短语音音频所分别对应的标注文本。
在本申请的一个实施例中,该文本处理模块705,具体用于:对与同一长语音音频相对应的切分处理语音音频对应的标注文本,按照切分处理时的顺序进行拼接处理。
该时长获取模块706,用于:获取该语音音频集合中各语音音频的时间基、音频帧的数量以及音频帧对应的时间基数量;将各语音音频的时间基、音频帧的数量以及音频帧对应的时间基数量相乘,得到各语音音频的音频时长。
本申请实施例提供的文字标注装置,可以实现上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
关于文字标注装置的具体限定可以参见上文中对于文字标注方法的限定,在此不再赘述。上述文字标注装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在本申请的一个实施例中,提供了一种计算机设备,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器和存储器。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机程序被处理器执行时以实现一种文字标注方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本申请的一个实施例中,提供了一种计算机设备,该计算机设备可以为服务器,该计算机设备包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取语音音频集合,该语音音频集合包括多个待标注的语音音频;从该语音音频集合包括的多个待标注的语音音频中筛选出长语音音频和短语音音频,其中,该长语音音频的音频时长大于等于第一时长阈值,该短语音音频的音频时长小于等于第二时长阈值;对筛选出的各长语音音频进行切分处理,并对筛选出的各短语音音频进行拼接处理,得到多个处理语音音频,其中,该处理语音音频的音频时长位于预设时长范围内;将该多个处理语音音频发送至文字标注终端,以供该文字标注终端对应的用户进行文字标注。
在本申请的一个实施例中,处理器执行计算机程序时还实现以下步骤:对筛选出的各长语音音频和各短语音音频进行复制处理,得到复制后的各长语音音频和复制后的各短语音音频;对复制后的各长语音音频进行切分处理,并对复制后的各短语音音频进行拼接处理。
在本申请的一个实施例中,处理器执行计算机程序时还实现以下步骤:对于各长语音音频,根据该预设时长范围确定多个音频切分时间节点,其中,任意相邻的两个该音频切分时间节点之间相隔的时长均位于该预设时长范围内;对于各长语音音频,根据该多个音频切分时间节点对该长语音音频进行切分处理。
在本申请的一个实施例中,处理器执行计算机程序时还实现以下步骤:从筛选出的该短语音音频中得到多个音频集合,各音频集合包括多个该短语音音频,各音频集合包括的短语音音频的音频时长之和位于该预设时长范围内;对各音频集合包括的多个该短语音音频进行拼接处理。
该多个处理语音音频包括多个切分处理语音音频和多个拼接处理语音音频,该切分处理语音音频是经过切分处理后得到的,该拼接处理语音音频是经过拼接处理后得到的,在本申请的一个实施例中,处理器执行计算机程序时还实现以下步骤:接收该文字标注终端发送的各处理语音音频所分别对应的标注文本;对该多个切分处理语音音频对应的标注文本进行拼接处理,对该多个拼接处理语音音频对应的标注文本进行切分处理,得到与筛选出的各长语音音频和各短语音音频所分别对应的标注文本。
在本申请的一个实施例中,处理器执行计算机程序时还实现以下步骤:对与同一长语音音频相对应的切分处理语音音频对应的标注文本,按照切分处理时的顺序进行拼接处理。
在本申请的一个实施例中,处理器执行计算机程序时还实现以下步骤:获取该语音音频集合中各语音音频的时间基、音频帧的数量以及音频帧对应的时间基数量;将各语音音频的时间基、音频帧的数量以及音频帧对应的时间基数量相乘,得到各语音音频的音频时长。
本申请实施例提供的计算机设备,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
在本申请的一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取语音音频集合,该语音音频集合包括多个待标注的语音音频;从该语音音频集合包括的多个待标注的语音音频中筛选出长语音音频和短语音音频,其中,该长语音音频的音频时长大于等于第一时长阈值,该短语音音频的音频时长小于等于第二时长阈值;对筛选出的各长语音音频进行切分处理,并对筛选出的各短语音音频进行拼接处理,得到多个处理语音音频,其中,该处理语音音频的音频时长位于预设时长范围内;将该多个处理语音音频发送至文字标注终端,以供该文字标注终端对应的用户进行文字标注。
在本申请的一个实施例中,计算机程序被处理器执行时还实现以下步骤:对筛选出的各长语音音频和各短语音音频进行复制处理,得到复制后的各长语音音频和复制后的各短语音音频;对复制后的各长语音音频进行切分处理,并对复制后的各短语音音频进行拼接处理。
在本申请的一个实施例中,计算机程序被处理器执行时还实现以下步骤:对于各长语音音频,根据该预设时长范围确定多个音频切分时间节点,其中,任意相邻的两个该音频切分时间节点之间相隔的时长均位于该预设时长范围内;对于各长语音音频,根据该多个音频切分时间节点对该长语音音频进行切分处理。
在本申请的一个实施例中,计算机程序被处理器执行时还实现以下步骤:从筛选出的该短语音音频中得到多个音频集合,各音频集合包括多个该短语音音频,各音频集合包括的短语音音频的音频时长之和位于该预设时长范围内;对各音频集合包括的多个该短语音音频进行拼接处理。
该多个处理语音音频包括多个切分处理语音音频和多个拼接处理语音音频,该切分处理语音音频是经过切分处理后得到的,该拼接处理语音音频是经过拼接处理后得到的,在本申请的一个实施例中,计算机程序被处理器执行时还实现以下步骤:接收该文字标注终端发送的各处理语音音频所分别对应的标注文本;对该多个切分处理语音音频对应的标注文本进行拼接处理,对该多个拼接处理语音音频对应的标注文本进行切分处理,得到与筛选出的各长语音音频和各短语音音频所分别对应的标注文本。
在本申请的一个实施例中,计算机程序被处理器执行时还实现以下步骤:对与同一长语音音频相对应的切分处理语音音频对应的标注文本,按照切分处理时的顺序进行拼接处理。
在本申请的一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取该语音音频集合中各语音音频的时间基、音频帧的数量以及音频帧对应的时间基数量;将各语音音频的时间基、音频帧的数量以及音频帧对应的时间基数量相乘,得到各语音音频的音频时长。
本实施例提供的计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种文字标注方法,其特征在于,所述方法包括:
获取语音音频集合,所述语音音频集合包括多个待标注的语音音频;
从所述语音音频集合包括的多个待标注的语音音频中筛选出长语音音频和短语音音频,其中,所述长语音音频的音频时长大于等于第一时长阈值,所述短语音音频的音频时长小于等于第二时长阈值;
对筛选出的各所述长语音音频进行切分处理,并对筛选出的各所述短语音音频进行拼接处理,得到多个处理语音音频,其中,所述处理语音音频的音频时长位于预设时长范围内;
将所述多个处理语音音频发送至文字标注终端,以供所述文字标注终端对应的用户进行文字标注。
2.根据权利要求1所述的方法,其特征在于,所述对筛选出的各所述长语音音频进行切分处理,并对筛选出的各所述短语音音频进行拼接处理,包括:
对筛选出的各所述长语音音频和各所述短语音音频进行复制处理,得到复制后的各所述长语音音频和复制后的各所述短语音音频;
对复制后的各所述长语音音频进行切分处理,并对复制后的各所述短语音音频进行拼接处理。
3.根据权利要求1或2所述的方法,其特征在于,所述对筛选出的各所述长语音音频进行切分处理,包括:
对于各所述长语音音频,根据所述预设时长范围确定多个音频切分时间节点,其中,任意相邻的两个所述音频切分时间节点之间相隔的时长均位于所述预设时长范围内;
对于各所述长语音音频,根据所述多个音频切分时间节点对所述长语音音频进行切分处理。
4.根据权利要求1或2所述的方法,其特征在于,所述对筛选出的各所述短语音音频进行拼接处理,包括:
从筛选出的所述短语音音频中得到多个音频集合,各所述音频集合包括多个所述短语音音频,各所述音频集合包括的短语音音频的音频时长之和位于所述预设时长范围内;
对各所述音频集合包括的多个所述短语音音频进行拼接处理。
5.根据权利要求1或2所述的方法,其特征在于,所述多个处理语音音频包括多个切分处理语音音频和多个拼接处理语音音频,所述切分处理语音音频是经过切分处理后得到的,所述拼接处理语音音频是经过拼接处理后得到的,所述将所述多个处理语音音频发送至文字标注终端之后,所述方法还包括:
接收所述文字标注终端发送的各所述处理语音音频所分别对应的标注文本;
对所述多个切分处理语音音频对应的标注文本进行拼接处理,对所述多个拼接处理语音音频对应的标注文本进行切分处理,得到与筛选出的各所述长语音音频和各所述短语音音频所分别对应的标注文本。
6.根据权利要求5所述的方法,其特征在于,所述对所述多个切分处理语音音频对应的标注文本进行拼接处理,包括:
对与同一长语音音频相对应的切分处理语音音频对应的标注文本,按照切分处理时的顺序进行拼接处理。
7.根据权利要求1或2所述的方法,其特征在于,所述从所述语音音频集合中筛选出音频时长大于等于第一时长阈值的长语音音频和音频时长小于第二时长阈值的短语音音频之前,所述方法包括:
获取所述语音音频集合中各所述语音音频的时间基、音频帧的数量以及音频帧对应的时间基数量;
将各所述语音音频的时间基、音频帧的数量以及音频帧对应的时间基数量相乘,得到各所述语音音频的音频时长。
8.一种文字标注装置,其特征在于,所述装置包括:
集合获取模块,用于获取语音音频集合,所述语音音频集合包括多个待标注的语音音频;
筛选模块,用于从所述语音音频集合包括的多个待标注的语音音频中筛选出长语音音频和短语音音频,其中,所述长语音音频的音频时长大于等于第一时长阈值,所述短语音音频的音频时长小于等于第二时长阈值;
音频处理模块,用于对筛选出的各所述长语音音频进行切分处理,并对筛选出的各所述短语音音频进行拼接处理,得到多个处理语音音频,其中,所述处理语音音频的音频时长位于预设时长范围内;
发送模块,用于将所述多个处理语音音频发送至文字标注终端,以供所述文字标注终端对应的用户进行文字标注。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7任一所述的文字标注方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一所述的文字标注方法。
CN201911131482.3A 2019-11-19 2019-11-19 文字标注方法、装置、设备及存储介质 Pending CN111126001A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911131482.3A CN111126001A (zh) 2019-11-19 2019-11-19 文字标注方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911131482.3A CN111126001A (zh) 2019-11-19 2019-11-19 文字标注方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111126001A true CN111126001A (zh) 2020-05-08

Family

ID=70495810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911131482.3A Pending CN111126001A (zh) 2019-11-19 2019-11-19 文字标注方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111126001A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681644A (zh) * 2020-06-30 2020-09-18 浙江同花顺智能科技有限公司 一种说话人分割方法、装置、设备和存储介质
CN112133277A (zh) * 2020-11-20 2020-12-25 北京猿力未来科技有限公司 样本生成方法及装置
CN113763932A (zh) * 2021-05-13 2021-12-07 腾讯科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1645774A (zh) * 2000-04-06 2005-07-27 尼尔森媒体调查有限公司 向音频信号中添加不可听码的系统和方法,以及从音频信号中读取编码的方法和装置
CN107657947A (zh) * 2017-09-20 2018-02-02 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及其装置
CN110263322A (zh) * 2019-05-06 2019-09-20 平安科技(深圳)有限公司 用于语音识别的音频语料筛选方法、装置及计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1645774A (zh) * 2000-04-06 2005-07-27 尼尔森媒体调查有限公司 向音频信号中添加不可听码的系统和方法,以及从音频信号中读取编码的方法和装置
CN107657947A (zh) * 2017-09-20 2018-02-02 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及其装置
CN110263322A (zh) * 2019-05-06 2019-09-20 平安科技(深圳)有限公司 用于语音识别的音频语料筛选方法、装置及计算机设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681644A (zh) * 2020-06-30 2020-09-18 浙江同花顺智能科技有限公司 一种说话人分割方法、装置、设备和存储介质
CN111681644B (zh) * 2020-06-30 2023-09-12 浙江同花顺智能科技有限公司 一种说话人分割方法、装置、设备和存储介质
CN112133277A (zh) * 2020-11-20 2020-12-25 北京猿力未来科技有限公司 样本生成方法及装置
CN112133277B (zh) * 2020-11-20 2021-02-26 北京猿力未来科技有限公司 样本生成方法及装置
CN113763932A (zh) * 2021-05-13 2021-12-07 腾讯科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质
CN113763932B (zh) * 2021-05-13 2024-02-13 腾讯科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN111126001A (zh) 文字标注方法、装置、设备及存储介质
CN110781916A (zh) 视频数据的欺诈检测方法、装置、计算机设备和存储介质
CN109087667B (zh) 语音流利度识别方法、装置、计算机设备及可读存储介质
US10580436B2 (en) Method and device for processing speech based on artificial intelligence
CN111091811B (zh) 语音训练数据的处理方法、装置及存储介质
CN111061867B (zh) 基于质量感知的文本生成方法、设备、存储介质及装置
CN114556328A (zh) 数据处理方法、装置、电子设备和存储介质
CN109831677B (zh) 视频脱敏方法、装置、计算机设备和存储介质
CN114528394B (zh) 一种基于掩码语言模型的文本三元组提取方法及装置
CN111309855A (zh) 一种文本信息的处理方法及系统
CN114637837A (zh) 用户阅读行为信息的采集方法、装置、设备及介质
CN111666298A (zh) 基于flink的用户服务类别检测方法、装置、计算机设备
CN113223532B (zh) 客服通话的质检方法、装置、计算机设备及存储介质
CN112397052A (zh) Vad断句测试方法、装置、计算机设备及存储介质
CN112447167A (zh) 语音识别模型验证方法、装置、计算机设备和存储介质
CN115497484B (zh) 语音解码结果处理方法、装置、设备及存储介质
CN110826330B (zh) 人名识别方法及装置、计算机设备及可读存储介质
CN114449310A (zh) 视频剪辑方法、装置、计算机设备及存储介质
CN114140850A (zh) 人脸识别方法、装置和电子设备
CN113946615A (zh) 数据的结构化处理方法、装置、设备及存储介质
CN114118068A (zh) 训练文本数据的扩增方法、装置及电子设备
CN113656015A (zh) 一种基于图形化编程平台的积木标识方法、装置及设备
CN112615869B (zh) 音频数据的处理方法、装置、设备及存储介质
CN113421552A (zh) 音频识别方法和装置
WO2019179051A1 (zh) 还原语音话路的绘制方法、系统、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200508

RJ01 Rejection of invention patent application after publication