CN114974304A - 语音端点检测数据的标注方法、装置、设备和介质 - Google Patents
语音端点检测数据的标注方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN114974304A CN114974304A CN202210542230.5A CN202210542230A CN114974304A CN 114974304 A CN114974304 A CN 114974304A CN 202210542230 A CN202210542230 A CN 202210542230A CN 114974304 A CN114974304 A CN 114974304A
- Authority
- CN
- China
- Prior art keywords
- voice
- file
- labeling
- data
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000002372 labelling Methods 0.000 claims abstract description 121
- 238000012216 screening Methods 0.000 claims abstract description 63
- 238000012795 verification Methods 0.000 claims abstract description 21
- 238000010586 diagram Methods 0.000 claims description 18
- 238000001228 spectrum Methods 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 abstract description 5
- 238000012549 training Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 9
- 238000013461 design Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013524 data verification Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本申请提供一种语音端点检测数据的标注方法、装置、设备和介质,涉及智能客服技术领域,该方法包括:获取语音数据,根据预设参数和脚本工具对语音数据进行自动标注,得到初始标注文件,根据预设筛查准则,在初始标注文件中筛查得到标注合格文件,将标注合格文件输入至标注工具进行校验,得到校验完成文件,将校验完成文件进行拆分,得到语音端点检测数据标注文件。该技术方案中,通过脚本工具和参数对语音进行初步标注。然后用标注筛查模块对标注质量进行筛查,对标注筛查合格之后的标注进行校验完成后,进行标注数据帧级别标注结果转换。不需要人工边听音频边进行人工手动标注,提升了标注的效率和质量。
Description
技术领域
本申请涉及智能客服技术领域,尤其涉及一种语音端点检测数据的标注方法、装置、设备和介质。
背景技术
智能客服系统是人工智能技术与传统金融业客服窗口相结合的产物,是指由智能机器人为客户提供智能引导、业务查询、业务办理以及客户投诉等不涉及到账户资金变动的非金融业务。智能客服系统的语音识别准确率直接影响用户的体验,而语音识别主要包括语音端点检测和语音识别两个部分,其中,语音端点检测需要依赖语音端点检测模型,通常会使用少量精标的训练数据来训练语音端点检测模型。
现有技术中,由于训练数据是帧级别的语音标注数据,在获取训练数据的过程中,通常是由具备比较专业的标注知识的标注人员仔细反复聆听语音并标注得到训练数据。
但是,现有的这种人工标注的方式由于标注数据量非常大,可能面临的是上千甚至上万级别的数据量,整个标注过程非常耗费人力成本,标注效率不高。
发明内容
本申请提供一种语音端点检测数据的标注方法、装置、设备和介质,用于解决现有语音端点检测数据的标注效率低的问题。
第一方面,本申请实施例提供一种语音端点检测数据的标注方法,包括:
获取语音数据,根据预设参数和脚本工具对所述语音数据进行自动标注,得到初始标注文件;
根据预设筛查准则,在所述初始标注文件中筛查得到标注合格文件;
将所述标注合格文件输入至标注工具进行校验,得到校验完成文件;
将所述校验完成文件进行拆分,得到语音端点检测数据标注文件。
在第一方面的一种可能设计中,所述获取语音数据,包括:
获取音频数据,在所述音频数据中筛选得到包含预设语音场景的至少一个目标音频数据;
将所述至少一个目标音频数据中静音时长超过预设静音时长和/或信噪比超过预设信噪比阈值的音频数据筛除,得到筛除后目标音频数据;
将所述筛除后目标音频数据中语音时长小于预设时长阈值的音频数据筛除,得到所述语音数据。
在第一方面的另一种可能设计中,所述根据预设参数和脚本工具对所述语音数据进行自动标注,得到初始标注文件,包括:
根据所述预设参数,确定所述脚本工具的语音指标,所述语音指标包括静音阈值、最小静音长度、最小语音长度中的至少一种;
根据所述语音指标,获取所述语音数据中的语音、所述语音的时间戳、非语音和所述非语音的时间戳;
根据所述语音的时间戳和非语音的时间戳,获取所述初始标注文件。
在第一方面的再一种可能设计中,所述根据预设筛查准则,在所述初始标注文件中筛查得到标注合格文件,包括:
确定所述初始标注文件是否符合预设标注格式;
若所述初始标注文件符合预设标注格式,则检测所述初始标注文件的前端和末端是否为静音段;
若所述初始标注文件的前端和末端为静音段,则检测所述初始标注文件中语音时长和静音时长的比率是否大于预设比率;
若所述初始标注文件中语音时长和静音时长的比率大于预设比率,则确定所述初始标注文件为所述标注合格文件。
在第一方面的又一种可能设计中,所述方法还包括:
若所述初始标注文件不符合所述预设标注格式或前端和末端为非静音段或语音时长和静音时长的比率小于或等于所述预设比率,则确定所述初始标注文件为标注不合格文件;
根据所述标注不合格文件,对所述语音指标的值进行调整更新。
在第一方面的又一种可能设计中,所述将所述标注合格文件输入至标注工具进行校验,得到校验完成文件,包括:
将所述语音数据输入至标注工具,获取语谱波形图和频谱图的音强、音高、共振峰曲线;
根据所述语谱波形图和频谱图的音强、音高、共振峰曲线,确定所述语音数据的语音边界和非语音边界;
根据所述语音数据的语音边界和非语音边界,对所述标注合格文件进行校验,得到检验完成文件。
在第一方面的又一种可能设计中,所述将所述校验完成文件进行拆分,得到语音端点检测数据标注文件,包括:
获取所述校验完成文件中的语音段和非语音段;
根据预设时间间隔,对所述语音段和非语音段进行切分得到所述语音端点检测数据标注文件。
在第一方面的又一种可能设计中,所述方法还包括:
获取所述校验完成文件的总语音帧数;
确定所述校验完成文件的总语音帧数是否与目标帧数相同,所述目标帧数为所述语音端点检测数据标注文件的语音帧数;
若所述总语音帧数与所述目标帧数不同,则获取所述总语音帧数与所述目标帧数的差值;
将所述校验完成文件末端的语音帧复制添加差值数量份,添加至所述校验完成文件的末端。
第二方面,本申请实施例提供一种语音端点检测数据的标注装置,包括:
自动标注模块,用于获取语音数据,根据预设参数和脚本工具对所述语音数据进行自动标注,得到初始标注文件;
标注筛查模块,用于根据预设筛查准则,在所述初始标注文件中筛查得到标注合格文件;
标注校验模块,用于将所述标注合格文件输入至标注工具进行校验,得到校验完成文件;
文件生成模块,用于将所述校验完成文件进行拆分,得到语音端点检测数据标注文件。
第三方面,本申请实施例提供一种计算机设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现上述的方法。
第四方面,本申请实施例提供一种可读存储介质,所述可读存储介质中存储有计算机指令,所述计算机指令被处理器执行时用于实现上述的方法。
第五方面,本申请实施例提供一种程序产品,包括计算机指令,该计算机指令被处理器执行时实现上述的方法。
本申请实施例提供的音频端点数据标注方法、装置、设备、介质和程序产品,通过脚本工具和参数对语音进行初步标注。然后用标注筛查模块对标注质量进行筛查,对标注筛查合格之后的标注进行校验完成后,进行标注数据帧级别标注结果转换。不需要人工边听音频边进行人工手动标注,提升了标注的效率和质量。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理;
图1为本申请实施例提供的智能客服系统的场景示意图;
图2为本申请实施例提供的语音端点检测数据的标注方法实施例一的流程示意图;
图3为本申请实施例提供的语音端点检测数据的标注方法实施例二的流程示意图;
图4为本申请实施例提供的自动化标注的流程示意图;
图5为本申请实施例提供的标注结果筛选的流程示意图;
图6为本申请实施例提供的语音端点检测数据的标注装置实施例一的结构示意图;
图7为本申请实施例提供的语音端点检测数据的标注装置实施例二的结构示意图;
图8为本申请实施例提供的计算机设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先对本申请所涉及的名词进行解释:
语音识别:
语音识别,是指能够让机器自动识别人类发出的语音。
智能客服系统:
智能客服系统,是人工智能技术与传统金融业客服窗口相结合的产物,是指由智能机器人为客户提供智能引导、业务查询、业务办理以及客户投诉等不涉及到账户资金变动的非金融业务。目前的智能客服系统有应用于网点的线下实体机器人和线上开发的网银、App客户端、微信和电话银行等虚拟机器人服务。根据与客户交互方式的不同,可以将智能客服分为语音智能客服和文字智能客服。
语音端点检测:
语音端点检测(Voice Activity Detection,VAD),又称语音检测,用于判断给定的音频数据是否存在语音,其常用在语音编码、解码、降噪、增益控制、波束形成以及唤醒识别等算法中。
Praat语音学软件:
Praat语音学软件原名Praat:doing phonetics by computer,通常简称Praat,是一款跨平台的多功能语音学专业软件,主要用于对数字化的语音信号进行分析、标注、处理及合成等实验,同时生成各种语图和文字报表。
下面,通过具体实施例对本申请的技术方案进行详细说明。需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
图1为本申请实施例提供的智能客服系统的场景示意图,如图1所示,智能客服系统可以为用户提供线上业务办理。用户在终端侧(例如手机/平板/笔记本)可以发讲话,输入其想要办理的业务语音,智能客服系统对业务语音进行识别,分析出用户想要办理的业务以此来实现与用户的交互,通过智能客服系统的有效应用,能够大幅节约人力和时间成本。而要想真正达到这种效果,智能客服系统的语音识别准确率就至关重要,即识别准确率高的智能客服系统才能够有效地为用户提供服务,以节约人力,而识别准确率低的智能客服系统必然漏洞百出,忙中添乱。
其中,语音识别包括了语音端点检测和语音识别两个主要部分。语音端点检测需要少量精标的训练数据用于语音端点检测模型训练和测试。但是精标的训练数据是帧级别的语音标注数据,而且训练数据当中的背景噪声要尽量与测试数据当中的背景噪声相匹配,否则会引起噪声失配问题。
在实际应用中,为了获取到可用于语音端点检测模型的训练数据,主要有两种方法,一种是通过加噪、加混响等方式对纯静音的数据进行扩增;另一种则是利用实际的智能语音系统采集到的数据作为训练数据,其可以大大提高语音端点检测准确率。但是,加入噪声或者在线系统采集的数据在标注的过程中难度较高,标注人员需要比较专业的标注知识并且需要仔细反复听语音,标注人工成本高,效率低。而前期训练数据的获取将直接影响语音端点检测模型的性能和开发进度。在相关技术中,也有利用标注工具辅助人工标注的方式来提高标注效率,减轻标注人员负担。但是这种方法通常是借助标注工具导入音频,通过带有时间戳的音频的波形图来确定语音和非语音的各个间隔的时间戳,这种做法在实际操作过程中存在很大的误差,每个音频文件标注的时间很复杂,同时也很难对中间的静音部分进行标注。
针对上述问题,本申请实施例提供的语音端点检测数据的标注方法、装置、设备和介质,通过选择Praat软件导入音频文件,编写脚本对语音根据静音阈值,最小静音长度,最小语音长度等阈值进行初步时间戳确定,得到初始标注文件,然后用标注筛查模块对初始标注文件的质量进行筛查,对于质量合格率比较高的再次进行校验,校验完成后进行标注数据帧级别标注结果转换,减少了标注成本并提高了标注效率和准确率。
图2为本申请实施例提供的语音端点检测数据的标注方法实施例一的流程示意图,该方法可以应用于具有语音处理功能的计算机设备上。如图2所示,该方法具体可以包括如下步骤:
S201、获取语音数据,根据预设参数和脚本工具对语音数据进行自动标注,得到初始标注文件。
其中,语音数据可以是一些高质量的音频文件,其中至少包括有用户发出的语音。例如语音数据可以是用户在实际使用智能语音系统时采集得到的。
在本实施例中,在获取到语音数据之后,可以通过预设参数和脚本工具实现对语音数据的自动标注,例如标注出语音数据中的静音段和语音段。其中,语音数据可以理解为一整段音频,其中可以包括有用户发出语音的时间段(即语音段)、用户未发出语音的时间(静音段)和噪音段等等。
其中,预设参数通常是标注人员给脚本工具设置的参数。示例性的,标注人员在脚本工具的对话框设置输入输出参数。设置的输入参数可以修改语音强度和静音段检测参数(主要包括一些指标阈值,例如静音阈值、最小静音长度、最小语音长度等阈值),以此实现对音频数据中的语音段和非语音段的区分。设置的输出参数则可以用于指示脚本工具将自动标注得到的初始标注文本保存在设定的文件夹位置等。
示例性的,脚本工具可以是前文介绍的Praat语音学软件提供的脚本工具。通过使用Praat的脚本工具可以实现批量语音的导入,节省人工标注耗费的时间,同时也可以防止出错,即使存在错误,后续也可以通过修改参数来使得错误快速的得到更改。同时脚本工具还可以设置多个不同的参数,基于多个不同参数实现自动标注。
示例性的,在一些其它实施方式中,可以采用深度学习的方法对音频数据进行标注,得到帧级别的标注,这种方式可以直接提升标注的效率和质量。
S202、根据预设筛查准则,在初始标注文件中筛查得到标注合格文件。
在本实施例中,筛查的目的在于将初始标注文件中不合格的标注文件筛除出来,保留合格的标注文件。示例性的,在一些实施方式中,若筛查得到不合格的初始标注文件,则可以基于这些不合格的初始标注文件,对上述自动标注过程中的语音强度和静音段检测参数进行调参,直到上述自动标注过程输出的初始标注文件都为合格的标注文件。
其中,示例性的,预设筛查准则可以包括有文件格式、文件标注规范和静音比例等筛查准则。例如当初始标注文件中语音段与静音段的比例不符合阈值要求时,则该初始标注文件为不合格的标注文件。
S203、将标注合格文件输入至标注工具进行校验,得到校验完成文件。
示例性的,标注工具可以是Praat语音学软件,将标注合格文件输入至Praat语音学软件可以得到语谱波形图和频谱图的音强、音高、共振峰曲线等,通过语谱波形图和频谱图的音强、音高、共振峰曲线可以确定出标注合格文件的语音和非语音的精确边界,从而实现标注合格文件的校验。
其中,在校验的过程中如果标注合格文件中存在标注有误的情况,则可以再通过人工对标注进行再次编辑修改,以得到校验完成文件。
示例性的,在一些其它实施方式中,标注校验有一个系统的检查表,包括核心的标注准则,检查表是每个文件校验必须要完成的标准动作,提升数据校验的质量。同时,不同的说话人说话风格,标注校验应该按照说话人分组,然后对同一个说话人连续校验。
S204、将校验完成文件进行拆分,得到语音端点检测数据标注文件。
在本实施例中,语音端点检测数据标注文件是帧级别的精标训练数据,用于后续的语音端点检测模型训练和测试。而校验完成文件为一整段完整的语音,其中可以标注有语音段和非语音段等。示例性的,语音段可能时长为10秒钟。其中,若以一帧语音为2毫秒为例,则语音段可以拆分得到500帧。
本申请实施例通过脚本工具和参数对语音进行初步标注。然后用标注筛查模块对标注质量进行筛查,对标注筛查合格之后的标注进行校验完成后,进行标注数据帧级别标注结果转换。不需要人工边听音频边进行人工手动标注,提升了标注的效率和质量。
在一些实施例中,上述步骤S201中“获取语音数据”具体可以通过如下步骤实现:
获取音频数据,在音频数据中筛选得到包含预设语音场景的至少一个目标音频数据;
将至少一个目标音频数据中静音时长超过预设静音时长和/或信噪比超过预设信噪比阈值的音频数据筛除,得到筛除后目标音频数据;
将筛除后目标音频数据中语音时长小于预设时长阈值的音频数据筛除,得到语音数据。
其中,音频数据可以是需要进行标注的语音端点检测数据,例如在实际中用户与智能客服系统进行语音交互所产生的。预设语音场景是指适用于智能语音的场景,可以是用户在与智能客服系统交互过程中发生的语音场景,例如业务查询语音场景和业务办理语音场景等。
在本实施例中,音频数据中可能包括有静音段、语音段和噪音段等。在对音频数据进行筛查时,主要有四个步骤,第一个步骤为筛选符合上述智能语音场景的音频数据;第二个步骤在第一个步骤的基础上筛除纯静音数据和信噪比高的音频数据;第三个步骤在第二个步骤的基础上筛除原始语音时长太短的音频数据;第四个步骤在第三个步骤的基础上筛除原始标注词长太短的音频数据。
本申请实施例通过对音频数据进行筛查,在筛查过程中可以去掉音频质量差的数据而保留下高质量的语音数据,用作后续进行自动标注,以提高语音端点检测数据标注文件的质量。
在一些实施例中,上述步骤S201中“根据预设参数和脚本工具对语音数据进行自动标注,得到初始标注文件”,具体可以通过如下步骤实现:
根据预设参数,确定脚本工具的语音指标;
根据语音指标,获取语音数据中的语音、语音的时间戳、非语音和非语音的时间戳;
根据语音的时间戳和非语音的时间戳,获取初始标注文件。
其中,语音指标包括语音强度和静音段检测参数中至少一种。
在本实施例中,语音端点检测的判决特征主要分为六大类:能量、频域、倒谱、谱差、谐波和长时信息。示例性的,以语音指标为语音强度和静音段检测参数为例,可以基于语音强度和静音段检测参数,在语音数据中确定静音阈值、最小静音长度和最小语音长度,确定语音数据中哪些为语音段,哪些为非语音段,然后标注出语音段和非语音段的时间戳,作为初始标注文件。
本申请实施例通过编写脚本工具对语音根据静音阈值,最小静音长度,最小语音长度等阈值进行初步时间戳确定,得到初始标注文件,可以减少人工标注工作量,提高标注效率。
在一些实施例中,上述不好走S202具体可以通过如下步骤实现:
确定初始标注文件是否符合预设标注格式;
若初始标注文件符合预设标注格式,则检测初始标注文件的前端和末端是否为静音段;
若初始标注文件的前端和末端为静音段,则检测初始标注文件中语音时长和静音时长的比率是否大于预设比率;
若初始标注文件中语音时长和静音时长的比率大于预设比率,则确定初始标注文件为标注合格文件。
在本实施例中,以初始标注文件作为输入,主要通过如下四个步骤对初始标注文件进行筛查,第一个步骤为检查标注格式是否符合规范,如果是转入下一步骤;第二个步骤为检查首尾是否都有静音段,如果是转入下一个步骤;第三个步骤为检查语音和静音的比例是否符合阈值,如果是则转入下一个步骤;第四个步骤为标注文件标识为合格,对于标注合格文件,将该标注合格文件加入标注合格文件列表。以上四个步骤中不符合任一个步骤的初始标注文件都加入标注不合格文件列表,最后输出一个标注合格文件列表,一个是标注不合格文件列表。
其中,语音数据通常都为一整段完整连续的音频,语音数据的前端和末端即为该段完整连续的音频的前端和末端。
本申请实施例通过对自动标注得到的初始标注文件进行筛查,可以提高自动标注结果的质量,相比于现有的人工标注,也可以减少标注错误率,提高标注准确性。
在一些实施例中,上述方法还可以包括如下步骤:
若初始标注文件不符合预设标注格式或前端和末端为非静音段或语音时长和静音时长的比率小于或等于预设比率,则确定初始标注文件为标注不合格文件;
根据标注不合格文件,对语音指标的值进行调整更新。
在本实施例中,语音指标包括有语音强度和/或静音段检测参数,语音强度和静音段检测参数可以依据标注不合格文件进行调整,直到自动标注生成的初始标注文件都为标注合格文件。
本申请实施例通过对语音指标的修改更新,可以使得自动标注过程中出现的错误可以快速得到更改,提高自动标注的准确性。
在一些实施例中,上述步骤S203具体可以通过如下步骤实现:
将语音数据输入至标注工具,获取语谱波形图和频谱图的音强、音高、共振峰曲线;
根据语谱波形图和频谱图的音强、音高、共振峰曲线,确定语音数据的语音边界和非语音边界;
根据语音数据的语音边界和非语音边界,对标注合格文件进行校验,得到检验完成文件。
在本实施例中,标注工具可以上述的Praat语音学软件,使用Praat语音学软件可以每次打开50条语音,全选50条语音进行标注,标注的参数和自动标注的完全一样,然后同时选择语音和标注文件,选择查看语音和标注就可以结合语音查看和编辑标注,标注时通过播放语音确定语音/非语音的大致边界,再通过分析语谱波形图和频谱图的音强、音高、共振峰曲线来确定语音或者非语音的精确边界。
在一些实施例中,上述步骤S204具体可以通过如下步骤实现:
获取校验完成文件中的语音段和非语音段;
根据预设时间间隔,对语音段和非语音段进行切分得到语音端点检测数据标注文件。
在本实施例中,预设时间间隔可以是指每一帧语音帧占用的时间,例如一个语音帧占用的时间为1毫秒,语音段若为2秒,则该语音段会被拆分为2000帧。
本申请实施例通过拆分转化,可以使得语音段级别的标注文件转化为帧级别的语音端点检测数据标注文件,实现精标数据的获取以用于语音端点检测模型训练和测试。
进一步的,在一些实施例中,上述方法还可以包括如下步骤:
获取校验完成文件的总语音帧数;
确定校验完成文件的总语音帧数是否与目标帧数相同;
若总语音帧数与目标帧数不同,则获取总语音帧数与目标帧数的差值;
将校验完成文件末端的语音帧复制添加差值数量份,添加至校验完成文件的末端。
其中,目标帧数为语音端点检测数据标注文件的语音帧数,在本实施例中,语音端点检测数据标注文件包括的语音特征帧数是固定的,在校验完成文件转换为语音端点检测数据标注文件时,需要保持帧数的一致。
具体的,如果出现校验完成文件与语音端点检测数据标注文件的帧数不一致的情况时,需要采用校验完成文件尾部帧进行复制补齐。保证转化得到的语音端点检测数据标注文件准确可靠。
示例性的,图3为本申请实施例提供的语音端点检测数据的标注方法实施例二的流程示意图,如图3所示,该方法包括如下步骤:
S301、音频数据筛选;
S302、自动化标注;
S303、标注结果筛选;
S3041、对筛选得到的标注不合格文件,对自动化标注的参数进行调整;
S3042、对筛选得到的标注合格文件,进行校验得到校验完成的标注文件;
S305、将校验完成标注文件转换为帧级别的语音端点检测数据标注文件。
进一步的,图4为本申请实施例提供的自动化标注的流程示意图,如图4所示,其包括如下步骤:
S401、获取输入输出参数;
S402、修改语音强度和静音段检测参数;
S403、区分语音和非语音;
S404、保存标注文件。
进一步的,图5为本申请实施例提供的标注结果筛选的流程示意图,如图5所示,其包括如下步骤:
S501、标注文件导入;
S502、确定格式是否符合规范;
S503、确定首段和尾端都为静音段;
S504、确定语音和静音比例是否符合阈值;
S505、标注文件标识为合格;
S506、标注文件标识为不合格。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图6为本申请实施例提供的语音端点检测数据的标注装置实施例一的结构示意图,该装置可以集成在计算机设备上,也可以独立于计算机设备且与计算机设备协同实现本方案。如图6所示,该标注装置60包括自动标注模块61、标注筛查模块62、标注校验模块63和文件生成模块64。
其中,自动标注模块61用于获取语音数据,根据预设参数和脚本工具对语音数据进行自动标注,得到初始标注文件。标注筛查模块62用于根据预设筛查准则,在初始标注文件中筛查得到标注合格文件。标注校验模块63用于将标注合格文件输入至标注工具进行校验,得到校验完成文件。文件生成模块64用于将校验完成文件进行拆分,得到语音端点检测数据标注文件。
在一些实施例中,上述自动标注模块具体可以用于:
获取音频数据,在音频数据中筛选得到包含预设语音场景的至少一个目标音频数据;
将至少一个目标音频数据中静音时长超过预设静音时长和/或信噪比超过预设信噪比阈值的音频数据筛除,得到筛除后目标音频数据;
将筛除后目标音频数据中语音时长小于预设时长阈值的音频数据筛除,得到语音数据。
在一些实施例中,上述自动标注模块具体还可以用于:
根据预设参数,确定脚本工具的语音指标,语音指标包括语音强度和静音段检测参数中至少一种;
根据语音指标,获取语音数据中的语音、语音的时间戳、非语音和非语音的时间戳;
根据语音的时间戳和非语音的时间戳,获取初始标注文件。
在一些实施例中,上述标注筛查模块具体可以用于:
确定初始标注文件是否符合预设标注格式;
若初始标注文件符合预设标注格式,则检测初始标注文件的前端和末端是否为静音段;
若初始标注文件的前端和末端为静音段,则检测初始标注文件中语音时长和静音时长的比率是否大于预设比率;
若初始标注文件中语音时长和静音时长的比率大于预设比率,则确定初始标注文件为标注合格文件。
在一些实施例中,上述语音端点检测数据的标注装置还可以包括参数更新模块,用于:
若初始标注文件不符合预设标注格式或前端和末端为非静音段或语音时长和静音时长的比率小于或等于预设比率,则确定初始标注文件为标注不合格文件;
根据标注不合格文件,对语音指标的值进行调整更新。
在一些实施例中,上述标注校验模块具体可以用于:
将语音数据输入至标注工具,获取语谱波形图和频谱图的音强、音高、共振峰曲线;
根据语谱波形图和频谱图的音强、音高、共振峰曲线,确定语音数据的语音边界和非语音边界;
根据语音数据的语音边界和非语音边界,对标注合格文件进行校验,得到检验完成文件。
在一些实施例中,上述文件生成模块具体可以用于:
获取校验完成文件中的语音段和非语音段;
根据预设时间间隔,对语音段和非语音段进行切分得到语音端点检测数据标注文件。
可选的,在一些实施例中,上述文件语音端点检测数据的标注装置还可以包括帧数补齐模块,用于:
获取校验完成文件的总语音帧数;
确定校验完成文件的总语音帧数是否与目标帧数相同,目标帧数为语音端点检测数据标注文件的语音帧数;
若总语音帧数与目标帧数不同,则获取总语音帧数与目标帧数的差值;
将校验完成文件末端的语音帧复制添加差值数量份,添加至校验完成文件的末端。
图7为本申请实施例提供的语音端点检测数据的标注装置实施例二的结构示意图,如图7所示,该语音端点检测数据的标注装置70可以包括音频数据筛选模块71、自动化标注模块72、标注结果筛查模块73、标注数据校验模块74和帧级别标注生成模块75。
其中,在音频数据筛选模块71中输入所有语音端点检测数据,音频数据筛选模块71主要执行四个步骤:(1)筛选符合智能语音场景的数据;(2)纯静音数据和信噪比高的数据筛查;(3)去掉原始语音时长太短的语音;(4)去掉原始标注词长太短的语音。其中,如果是没有文本标注的训练数据就去掉信噪比低的数据。本模块的输出是高质量的语音数据。
自动化标注模块72主要执行四个步骤:(1)对话框设置输入输出参数;(2)脚本修改语音强度和静音段检测参数;(3)区分语音和非语音;(4)保存标注文件。
标注结果筛查模块73的输入是自动化标注模块72输出的标注文件。标注结果筛查模块73主要执行四个步骤:(1)检查标注格式是否符合规范;(2)检查首尾是否都有静音段;(3)检查语音和静音的比例是否符合阈值;(4)确定标注文件标识为合格或不合格,对于标注合格文件,加入标注合格文件列表,对于标注不合格文件,则加入标注不合格文件列表。标注结果筛查模块73输出的是一个标注合格文件列表,一个是标注不合格文件列表。
标注数据校验模块74输入的是标注合格文件列表,标注数据校验模块74使用开源标注工具Praat,每次打开50条语音,全选50条语音进行标注,标注的参数和自动标注的完全一样,然后同时选择语音和标注文件,选择查看语音和标注,就可以结合语音查看和编辑标注,标注时通过播放语音确定语音/非语音的大致边界,再通过分析语谱波形图和频谱图的音强、音高、共振峰曲线来确定语音或者非语音的边界。标注数据校验模块74输出是校验完成的标注文件。
帧级别标注生成模块75指的是可以直接用于语音端点检测模型训练的帧级别的标注。每一行是一条语音的文件名标签和语音/非语音标注,如用0代表非语音,1代表语音。其中每个语音的帧数应该和语音端点检测的语音特征帧数保持一致,如果出现帧数不足,可以采用尾部帧复制补齐。
本申请实施例提供的装置,可用于执行上述实施例中的方法,其实现原理和技术效果类似,在此不再赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,自动化标注模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上自动化标注模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
图8为本申请实施例提供的计算机设备的结构示意图。如图8所示,该计算机设备80包括:至少一个处理器81、存储器82、总线83及通信接口84。
其中:处理器81、通信接口84以及存储器82通过总线83完成相互间的通信。通信接口84用于与其它设备进行通信。该通信接口包括用于进行数据传输的通信接口以及用于进行人机交互的显示界面或者操作界面等。处理器81用于执行存储器82中存储的计算机执行指令,具体可以执行上述实施例中所描述的方法中的相关步骤。
处理器可能是中央处理器。计算机设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器82用于存放计算机执行指令。存储器可能包含高速RAM存储器,也可能还包括非易失性存储器,例如至少一个磁盘存储器。
本实施例还提供一种可读存储介质,可读存储介质中存储有计算机指令,当计算机设备的至少一个处理器执行该计算机指令时,计算机设备执行上述的各种实施方式提供的语音端点检测数据的标注方法。
本实施例还提供一种程序产品,该程序产品包括计算机指令,该计算机指令存储在可读存储介质中。计算机设备的至少一个处理器可以从可读存储介质读取该计算机指令,至少一个处理器执行该计算机指令使得计算机设备实施上述的各种实施方式提供的语音端点检测数据的标注方法。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系;在公式中,字符“/”,表示前后关联对象是一种“相除”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中,a,b,c可以是单个,也可以是多个。
可以理解的是,在本申请实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本申请的实施例的范围。在本申请的实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请的实施例的实施过程构成任何限定。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (12)
1.一种语音端点检测数据的标注方法,其特征在于,所述方法包括:
获取语音数据,根据预设参数和脚本工具对所述语音数据进行自动标注,得到初始标注文件;
根据预设筛查准则,在所述初始标注文件中筛查得到标注合格文件;
将所述标注合格文件输入至标注工具进行校验,得到校验完成文件;
将所述校验完成文件进行拆分,得到语音端点检测数据标注文件。
2.根据权利要求1所述的方法,其特征在于,所述获取语音数据,包括:
获取音频数据,在所述音频数据中筛选得到包含预设语音场景的至少一个目标音频数据;
将所述至少一个目标音频数据中静音时长超过预设静音时长和/或信噪比超过预设信噪比阈值的音频数据筛除,得到筛除后目标音频数据;
将所述筛除后目标音频数据中语音时长小于预设时长阈值的音频数据筛除,得到所述语音数据。
3.根据权利要求1所述的方法,其特征在于,所述根据预设参数和脚本工具对所述语音数据进行自动标注,得到初始标注文件,包括:
根据所述预设参数,确定所述脚本工具的语音指标,所述语音指标包括语音强度和静音段检测参数中至少一种;
根据所述语音指标,获取所述语音数据中的语音、所述语音的时间戳、非语音和所述非语音的时间戳;
根据所述语音的时间戳和非语音的时间戳,获取所述初始标注文件。
4.根据权利要求1所述的方法,其特征在于,所述根据预设筛查准则,在所述初始标注文件中筛查得到标注合格文件,包括:
确定所述初始标注文件是否符合预设标注格式;
若所述初始标注文件符合预设标注格式,则检测所述初始标注文件的前端和末端是否为静音段;
若所述初始标注文件的前端和末端为静音段,则检测所述初始标注文件中语音时长和静音时长的比率是否大于预设比率;
若所述初始标注文件中语音时长和静音时长的比率大于预设比率,则确定所述初始标注文件为所述标注合格文件。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若所述初始标注文件不符合所述预设标注格式或前端和末端为非静音段或语音时长和静音时长的比率小于或等于所述预设比率,则确定所述初始标注文件为标注不合格文件;
根据所述标注不合格文件,对语音指标的值进行调整更新。
6.根据权利要求1所述的方法,其特征在于,所述将所述标注合格文件输入至标注工具进行校验,得到校验完成文件,包括:
将所述语音数据输入至标注工具,获取语谱波形图和频谱图的音强、音高、共振峰曲线;
根据所述语谱波形图和频谱图的音强、音高、共振峰曲线,确定所述语音数据的语音边界和非语音边界;
根据所述语音数据的语音边界和非语音边界,对所述标注合格文件进行校验,得到检验完成文件。
7.根据权利要求1所述的方法,其特征在于,所述将所述校验完成文件进行拆分,得到语音端点检测数据标注文件,包括:
获取所述校验完成文件中的语音段和非语音段;
根据预设时间间隔,对所述语音段和非语音段进行切分得到所述语音端点检测数据标注文件。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
获取所述校验完成文件的总语音帧数;
确定所述校验完成文件的总语音帧数是否与目标帧数相同,所述目标帧数为所述语音端点检测数据标注文件的语音帧数;
若所述总语音帧数与所述目标帧数不同,则获取所述总语音帧数与所述目标帧数的差值;
将所述校验完成文件末端的语音帧复制添加差值数量份,添加至所述校验完成文件的末端。
9.一种语音端点检测数据的标注装置,其特征在于,包括:
自动标注模块,用于获取语音数据,根据预设参数和脚本工具对所述语音数据进行自动标注,得到初始标注文件;
标注筛查模块,用于根据预设筛查准则,在所述初始标注文件中筛查得到标注合格文件;
标注校验模块,用于将所述标注合格文件输入至标注工具进行校验,得到校验完成文件;
文件生成模块,用于将所述校验完成文件进行拆分,得到语音端点检测数据标注文件。
10.一种计算机设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-8中任一项所述的方法。
11.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机指令,所述计算机指令被处理器执行时用于实现如权利要求1-8中任一项所述的方法。
12.一种程序产品,包括计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210542230.5A CN114974304A (zh) | 2022-05-18 | 2022-05-18 | 语音端点检测数据的标注方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210542230.5A CN114974304A (zh) | 2022-05-18 | 2022-05-18 | 语音端点检测数据的标注方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114974304A true CN114974304A (zh) | 2022-08-30 |
Family
ID=82982719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210542230.5A Pending CN114974304A (zh) | 2022-05-18 | 2022-05-18 | 语音端点检测数据的标注方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114974304A (zh) |
-
2022
- 2022-05-18 CN CN202210542230.5A patent/CN114974304A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109599093B (zh) | 智能质检的关键词检测方法、装置、设备及可读存储介质 | |
US11322154B2 (en) | Diarization using linguistic labeling | |
WO2020024690A1 (zh) | 语音标注方法、装置及设备 | |
EP2849177B1 (en) | System and method of text zoning | |
CN110706690A (zh) | 语音识别方法及其装置 | |
US11810546B2 (en) | Sample generation method and apparatus | |
CN113327575B (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
Kopparapu | Non-linguistic analysis of call center conversations | |
CN106782517A (zh) | 一种语音音频关键词过滤方法及装置 | |
CN110782902A (zh) | 音频数据确定方法、装置、设备和介质 | |
CN109213970B (zh) | 笔录生成方法及装置 | |
CN112309398B (zh) | 工作时长监控方法、装置、电子设备和存储介质 | |
CN109559752B (zh) | 语音识别方法和装置 | |
CN117634471A (zh) | 一种nlp质检方法及计算机可读存储介质 | |
CN114974304A (zh) | 语音端点检测数据的标注方法、装置、设备和介质 | |
CN109559753B (zh) | 语音识别方法和装置 | |
KR102610360B1 (ko) | 발화 보이스에 대한 레이블링 방법, 그리고 이를 구현하기 위한 장치 | |
CN115862635B (zh) | 一种数据处理方法、电子设备及存储介质 | |
CN112257420B (zh) | 文本处理方法及装置 | |
CN113689861B (zh) | 一种单声道通话录音的智能分轨方法、装置和系统 | |
CN111276121B (zh) | 语音对齐方法、装置、电子设备及存储介质 | |
Pollák et al. | Long recording segmentation based on simple power voice activity detection with adaptive threshold and post-processing | |
CN115567642A (zh) | 众包客服服务的监测方法、装置、计算机设备和存储介质 | |
CN118430538A (zh) | 一种纠错多模态模型构建方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |