CN111354340B - 数据标注准确度验证方法、装置、电子设备及存储介质 - Google Patents
数据标注准确度验证方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111354340B CN111354340B CN201811577528.XA CN201811577528A CN111354340B CN 111354340 B CN111354340 B CN 111354340B CN 201811577528 A CN201811577528 A CN 201811577528A CN 111354340 B CN111354340 B CN 111354340B
- Authority
- CN
- China
- Prior art keywords
- data set
- voice data
- sample voice
- sample
- labeled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012795 verification Methods 0.000 title claims abstract description 61
- 238000002372 labelling Methods 0.000 claims abstract description 42
- 238000012216 screening Methods 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种数据标注准确度验证方法、装置、电子设备及存储介质,包括:将第一样本语音数据集与第二样本语音数据集进行组合,获取第三待标注语音数据集,其中,第一样本语音数据集具有已通过验证的标注;获取标注后的第三待标注语音数据集,并从标注后的第三待标注语音数据集中抽取第一样本语音数据集的待验证标注;根据第一样本语音数据集的待验证标注、以及已通过验证的标注,计算获取第二样本语音数据集的标注准确度。本方法通过将已通过验证标注的数据集对应的待验证标注与该通过验证的标注进行比对分析,从而得到目标标注的准确度。实现了通过样本数据标注准确度,来确定目标数据标注准确度,有效提高了数据标注准确度的验证效率。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种数据标注准确度验证方法、装置、电子设备及存储介质。
背景技术
近年来,随着人工智能领域研究工作的快速发展,越来越多基于深度学习的神经网络算法在计算机视觉、语音识别、自然语言处理等方面取得了优异成绩。通常,对于这类算法准确度的验证,需要通过对数据库中大量标注数据的准确度进行判断来实现。
现有技术中,判断数据库中大量数据标注的准确度,是通过人工逐一验证来实现的。
但是,通过人工方法去逐一验证,不但会耗费大量的人力资源,同时会导致准确度验证效率低下。
发明内容
有鉴于此,本申请实施例的目的在于提供一种标注数据准确度验证方法、装置、电子设备及存储介质,用于解决现有技术中存在的数据标注准确度验证效率较低的问题,达到提高数据标注准确度验证效率、节省人力资源消耗的效果。
第一方面,本申请实施例提供了一种数据标注准确度验证方法,该方法包括:
将第一样本语音数据集与第二样本语音数据集进行组合,获取第三待标注语音数据集,其中,该第一样本语音数据集具有已通过验证的标注;获取标注后的第三待标注语音数据集,并从标注后的第三待标注语音数据集中抽取第一样本语音数据集的待验证标注;根据第一样本语音数据集的待验证标注、以及已通过验证的标注,计算获取第二样本语音数据集的标注准确度。
可选地,将第一样本语音数据集与第二样本语音数据集进行组合,获取第三待标注语音数据集之前,还包括:根据预设规则,将第二样本语音数据集切分,得到切分后的多段样本语音数据;根据预设识别算法,筛选切分后的多段样本语音数据,获取筛选后的第二样本语音数据集。
可选地,根据预设识别算法,筛选切分后的多段样本语音数据,获取筛选后的第二样本语音数据集,包括:对切分后的多段样本语音数据分别进行识别,得到每段语音数据的识别结果;将识别结果不满足预设条件的样本语音数据删除,获取筛选后的第二样本语音数据集。
可选地,根据第一样本语音数据集的待验证标注、以及已通过验证的标注,计算获取第二样本语音数据集的标注准确度之后,还包括:判断准确度是否达到预设阈值;若达到预设阈值,则根据第二样本语音数据集的标识,从标注后的第三待标注语音数据集中,获取第二样本语音数据集的标注。
可选地,根据第一样本语音数据集的待验证标注、以及已通过验证的标注,计算获取第二样本语音数据集的标注准确度之后,还包括:判断准确度是否达到预设阈值;若未达到预设阈值,则获取新的标注后的第三待标注语音数据集。
可选地,上述标注用于描述下述一项或多项:语音特征信息、语言类型及语义信息。
可选地,将第一样本语音数据集与第二样本语音数据集进行组合,获取第三待标注语音数据集,包括:将第一样本语音数据集中的数据随机添加到第二样本语音数据集中,得到第三待标注语音数据集。
可选地,将第一样本语音数据集中的数据随机添加到第二样本语音数据集中,得到第三待标注语音数据集,包括:将第一样本语音数据集中的数据与第二样本语音数据集中的数据合并,得到合并后的数据集;将合并后的数据集中的数据顺序随机调整,得到第三待标注语音数据集。
可选地,上述第一样本语音数据集和第二样本语音数据集的数据格式相同。
第二方面,本申请实施例提供了一种数据标注准确度验证装置,该装置包括:获取模块、抽取模块及计算模块;
获取模块,用于将第一样本语音数据集与第二样本语音数据集进行组合,获取第三待标注语音数据集,其中,第一样本语音数据集具有已通过验证的标注;抽取模块,用于获取标注后的第三待标注语音数据集,并从标注后的第三待标注语音数据集中抽取第一样本语音数据集的待验证标注;计算模块,用于根据第一样本语音数据集的待验证标注、以及已通过验证的标注,计算获取第二样本语音数据集的标注准确度。
可选地,该装置还包括切分模块及筛选模块;
切分模块,用于根据预设规则,将第二样本语音数据集切分,得到切分后的多段样本语音数据;筛选模块,用于根据预设识别算法,筛选切分后的多段样本语音数据,获取筛选后的第二样本语音数据集。
可选地,筛选模块,具体用于对切分后的多段样本语音数据分别进行识别,得到每段语音数据的识别结果;将识别结果不满足预设条件的样本语音数据删除,获取筛选后的第二样本语音数据集。
可选地,该装置还包括判断模块;
判断模块,用于判断上述准确度是否达到预设阈值;若达到预设阈值,则根据第二样本语音数据集的标识,从标注后的第三待标注语音数据集中,获取第二样本语音数据集的标注。
可选地,该装置还包括判断模块;
判断模块,还用于判断上述准确度是否达到预设阈值;若未达到预设阈值,则获取新的标注后的第三待标注语音数据集。
可选地,上述标注用于描述下述一项或多项:语音特征信息、语言类型及语义信息。
可选地,获取模块,具体用于将第一样本语音数据集中的数据随机添加到第二样本语音数据集中,得到第三待标注语音数据集。
可选地,获取模块,具体用于将第一样本语音数据集中的数据与第二样本语音数据集中的数据合并,得到合并后的数据集;将该合并后的数据集中的数据顺序随机调整,得到第三待标注语音数据集。
可选地,上述第一样本语音数据集和第二样本语音数据集的数据格式相同。
第三方面,本申请实施例提供了一种电子设备,包括:处理器、存储介质和总线,存储介质存储有处理器可执行的机器可读指令,当电子设备运行时,处理器与存储介质之间通过总线通信,处理器执行机器可读指令,以执行时执行如第一方面或第二方面中提供的数据标注准确度验证方法的步骤。
第四方面,本申请实施例提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如第一方面或第二方面提供的数据标注准确度验证方法的步骤。
本申请实施例提供的数据标注准确度验证方法,能够采用将具有已通过验证的标注的数据集加入待验证标注数据集中,将已通过验证标注的数据集对应的待验证标注与已通过验证的标注进行比对分析,获取该待验证标注的准确度,从而得到待验证标注数据集中目标标注的准确度。实现了通过验证数据集中样本数据的标注准确度,来确定该数据集中目标数据的标注准确度,有效的提高了数据标注准确度的验证效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请的一些实施例的电子设备的示例性硬件和软件组件的示意图;
图2示出了本申请实施例提供的一种数据标注准确度验证方法流程示意图;
图3示出了本申请实施例提供的另一种数据标注准确度验证方法流程示意图;
图4示出了本申请实施例提供的又一种数据标注准确度验证方法流程示意图;
图5示出了本申请实施例提供的另一种数据标注准确度验证方法流程示意图;
图6示出了本申请实施例提供的一种数据标注准确度验证装置结构示意图;
图7示出了本申请实施例提供的另一种数据标注准确度验证装置结构示意图;
图8示出了本申请实施例提供的又一种数据标注准确度验证装置结构示意图;
图9示出了本申请实施例提供的另一种数据标注准确度验证装置结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
图1示出了本申请的一些实施例的电子设备的示例性硬件和软件组件的示意图。
例如,处理器可以用于电子设备200上,并且用于执行本申请中的功能。
电子设备200可以是通用计算机或特殊用途的计算机,两者都可以用于实现本申请的服务位置获取方法。本申请尽管仅示出了一个计算机,但是为了方便起见,可以在多个类似平台上以分布式方式实现本申请描述的功能,以均衡处理负载。
例如,电子设备200可以包括连接到网络的网络端口210、用于执行程序指令的一个或多个处理器220、通信总线230、和不同形式的存储介质240,例如,磁盘、ROM、或RAM,或其任意组合。示例性地,计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备200还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output,I/O)接口250。
为了便于说明,在电子设备200中仅描述了一个处理器。然而,应当注意,本申请中的电子设备200还可以包括多个处理器,因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如,若电子设备200的处理器执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一处理器和第二处理器共同执行步骤A和B。
图2示出了本申请实施例提供的一种数据标注准确度验证方法流程示意图,本实施例的执行主体可以是计算机、服务器等具有处理功能的设备,如图2所示,本申请提供的数据标注准确度验证方法,包括:
S101、将第一样本语音数据集与第二样本语音数据集进行组合,获取第三待标注语音数据集,其中,该第一样本语音数据集具有已通过验证的标注。
需要说明的是,本申请中的语音数据可以为服务平台采集的用户语音,其中,服务平台可以包括:网约车服务平台、导航平台、社交软件平台等。用户语音可以是:用户与客服之间的通话数据、用户通过终端向导航系统发送的语音数据、用户通过服务平台向其他用户发送的语音消息等。具体地,对于语音数据的类型不做具体限制。
首先,需先获取到第一样本语音数据集和第二样本语音数据集,可选地,可以通过从服务器后台中存储的历史语音数据中抽取一部分语音数据;或者也可以通过实时在线采集语音数据来获取等,例如,获取用户通过终端与服务平台进行通话的语音数据。
其中,获取到的第一样本语音数据集中的每个语音数据都具有标注,该标注用于指示该语音数据的属性信息。可选地,可以通过人工标注的方法进行标注,如:人工将获取到的语音数据进行识别,翻译等,并打上标注,或者也可以通过语音识别算法进行识别等。
S102、获取标注后的第三待标注语音数据集,并从标注后的第三待标注语音数据集中抽取第一样本语音数据集的待验证标注。
上述将获取到的第一样本语音数据集和第二样本语音数据集中的数据组合在一起,得到上述的第三待标注语音数据集,该第三待标注语音数据集中属于第一样本语音数据集的数据对应有已经通过验证的标注。通过对第三待标注语音数据集中的数据进行标注,可以得到属于第一样本语音数据集中数据的新的标注。
可选地,在对第三待标注语音数据集中的数据完成标注后,从中随机抽取多个待验证标注,其中该待验证标注会包括多个第一样本语音数据集中的数据的待验证标注和多个第二样本语音数据集中的数据的待验证标注。
需要说明的是,第一样本语音数据集中的标注均是通过验证的,其为正确标注,而从标注后的第三待标注语音数据集中抽取出的待验证标注中,属于第一样本语音数据集的待验证标注为该第一样本语音数据集的新标注,该新标注是为了用来与通过验证的正确标注进行比对,从而检验标注的准确度。
S103、根据第一样本语音数据集的待验证标注、以及已通过验证的标注,计算获取第二样本语音数据集的标注准确度。
上述从标注后的第三待标注语音数据集中抽取出第一样本语音数据集的待验证标注后,将该待验证标注数据与已经通过验证的第一样本数据集的标注进行比对,得到第一样本语音数据集的待验证标注的准确度,从而获取第二样本语音数据集的标注准确度。
例如:通过将第一样本语音数据集的待验证标注与已经通过验证的第一样本数据集的标注进行匹配,计算匹配程度,当正确匹配的标注的数量越多,其匹配度越高,对应的准确度越高。假设计算获得第一样本语音数据集的待验证标注的准确度为95%,则可以认为第二样本语音数据集的标注准确度也为95%。
可选地,对于准确度的计算,可以通过比对抽取到的第一样本语音数据集的待验证标注与已经通过验证的第一样本数据集的标注的字准率或是句准率等来进行判断,假设抽取到的第一样本语音数据集的待验证标注为“今天是周五,明天不上班”,而已经通过验证的第一样本数据集的标注为“今天是周五,明天要上班”,那么经过匹配,字准率对应为90%。当第一样本语音数据集的待验证标注较多时,通过字准率来进行准确度的计算,相对来说,计算过程较复杂,那么,也可以以一句话为单元,通过句准率来计算准确度。
或者,以标注口音为例,假设已经通过验证的第一样本数据集的标注为“四川话”,第一样本语音数据集的待验证标注为“湖南话”,那么可见待验证标注与已经通过验证的标注明显不同,计算获取的准确度较低。
需要说明的是,可以将上述第一样本语音数据集的待验证标注作为第二样本语音数据集标注的抽样样本,样本的准确度一定程度上可以用来代表整个数据集标注准确度。
可选地,本申请实施例中,第一样本语音数据集中数据的数量根据实际情况及第二样本语音数据集的数据量大小选择,若第一样本语音数据集中数据的数量过多,一定程度上会增加劳动成本,而第一样本语音数据集中数据的数量过小时,则会导致通过验证第一样本语音数据集中数据标注的准确度,来确定第二样本语音数据集中数据标注准确度的准确性降低。故需合理的进行数量选择,以使得本方法具有更高的验证准确度。
本申请实施例提供的数据标注准确度验证方法,能够采用将具有已通过验证的标注的数据集加入待验证标注数据集中,将已通过验证标注的数据集对应的待验证标注与已通过验证的标注进行比对分析,获取该待验证标注的准确度,从而得到待验证标注数据集中目标标注的准确度。实现了通过验证数据集中样本数据的标注准确度,来确定该数据集中目标数据的标注准确度,有效的提高了数据标注准确度的验证效率。
图3示出了本申请实施例提供的另一种数据标注准确度验证方法流程示意图,进一步地,如图3所示,将第一样本语音数据集与第二样本语音数据集进行组合,获取第三待标注语音数据集之前,还包括:
S201、根据预设规则,将第二样本语音数据集切分,得到切分后的多段样本语音数据。
需要说明的是,上述获取到的第二样本语音数据集中可能会存在无意义的或者低质量数据,例如:一段语音数据中可能存在较长的静音期,也即用户在输入语音数据时,可能因外界干扰,没有成功将语音输入,导致采集到的数据为空,又或者一段语音数据中可能会存在较短的语音数据,其可能只包含一两个语音字符,并非一条完整的语音信息,对其进行标注意义也不是很大,故还需将该类数据从第二样本语音数据集中删去,以保证第二样本语音数据集的有效性,同时,一定程度上还可以减少标注验证的复杂度。
可选地,可以通过预设的规则,例如采用VAD(Voice Activity Detection,语音边界检测)方法将该第二样本语音数据集中的语音数据切分为多条语音数据,其中,例如以识别出的一句话代表一条语音数据。需要说明的是,VAD的目的是从声音信号流里识别和消除长时间的静音期,以达到在不降低业务质量的情况下节省话路资源的作用。通过该方法可以得到多段样本语音数据,以便于从该多段样本语音数据中删除掉不符合要求的语音数据,保证语音数据的质量。
可选地,对第二样本语音数据集中的语音数据进行切分的方法不限于上述的VAD,也可以根据预设时间间隔,将语音数据切分为多段,再去识别每段中的有效语音数据长度。本实施例对数据切分方法不做具体限制,能将数据进行有效切分,以便于进行无效语音删除即可。
S202、根据预设识别算法,筛选切分后的多段样本语音数据,获取筛选后的第二样本语音数据集。
上述获取到切分后的多段样本语音数据后,可以采用ASR(Automatic SpeechRecognition,自动语音识别技术)算法对该多段样本语音数据进行识别,并判断句该语音数据的长度,将其中长度不满足条件的语音数据删除,以获得筛选后的第二样本语音数据集。
需要说明的是,采用ASR算法可以将输入的语音数据转换为文字数据,以便于对语音数据的长度进行计算。可选地,一段语音数据中可以包括文字,也可以包括字母等多种类型数据,可以对该段语音数据中的文字或字母的个数或长短进行计算,判断其是否满足长度条件,根据判断结果,将不满足条件的语音数据删除。
可选地,本实施例对语音数据的识别算法不做具体限制,满足识别要求即可。
图4示出了本申请实施例提供的又一种数据标注准确度验证方法流程示意图,进一步地,如图4所示,根据预设识别算法,筛选切分后的多段样本语音数据,获取筛选后的第二样本语音数据集,包括:
S301、对切分后的多段样本语音数据分别进行识别,得到每段语音数据的识别结果。
上述通过采用ASR算法对切分后的多段样本语音数据分别进行识别,可以得到多个识别结果。其中识别结果可以为:该段语音数据中包括的字母长度、文字长度等。
可选地,语音数据可以采用二进制方式进行表示,通常,一个汉字占两个字节,一个字节在二进制中对应8位,那么一个汉字对应16位,也可以说一个汉字的长度为16。假设识别后的语音数据中包含10个汉字,则可以认为该语音数据的长度为160,也对应的识别结果为160。同样的,一个字母占一个字节,也即对应8位,可以说一个字母的长度为8,那么假设识别后的语音数据中包含10个字母,则可以认为该语音数据的长度为80,也对应的识别结果为80。
可选地,当待识别的语音数据中只包含文字数据时,也可以通过直接计算该文字数据的个数作为识别结果。例如,识别后的该段语音数据为“我喜欢学习”,则其对应的识别结果为5。
其中,对于识别结果的计算方法,本申请不做具体限制,能够准确的对语音数据的长度进行识别即可。
S302、将识别结果不满足预设条件的样本语音数据删除,获取筛选后的第二样本语音数据集。
可选地,可以设定一长度阈值,例如200,则,识别结果中,语音数据长度小于200的均为不满足条件的语音数据,将其删除。其余符合条件的语音数据的集合即为筛选后的第二样本语音数据集。
需要说明的是,经过筛选的第二样本语音数据集,其数据更具有效性,对其进行标注并验证标注准确度,相对来说更有研究价值。
图5示出了本申请实施例提供的另一种数据标注准确度验证方法流程示意图,可选地,如图5所示,根据第一样本语音数据集的待验证标注、以及已通过验证的标注,计算获取第二样本语音数据集的标注准确度之后,还包括:
S401、判断准确度是否达到预设阈值。
通过上述计算可以获取到第二样本语音数据集的标注准确度,其中,标注准确度可以采用数值表示,例如:准确度为60%或是90%等。
可选地,计算出第二样本语音数据集的标注准确度后,需要将其与预先设置的阈值进行比对。其中,该阈值可以是通过多次实验获得的,当然该阈值较大时,标注准确度达到该阈值的该部分标注,其正确率越高,但是,也需要有一定的容错率,因此,可以设置阈值为95%,并判断上述计算得到的准确度是否达到该阈值。
S402、若达到预设阈值,则根据第二样本语音数据集的标识,从标注后的第三待标注语音数据集中,获取第二样本语音数据集的标注。
当上述计算得到的第二样本语音数据集的标注准确度大于或等于预设阈值时,则可以认为第二样本语音数据集的标注正确率符合条件。因第二样本语音数据集的标注正确率是符合要求的,那么可以将第二样本语音数据集的标注从标注后的第三待标注语音数据集中提取出来,以当做训练样本,可以利用该样本作为数据标注准确度模型的训练参数等,去构建数据标注准确度模型验证模型,来提高准确度验证效率。
需要说明的是,上述的第一样本语音数据集和第二样本语音数据集均包含有标识(ID),为了便于将第一样本语音数据集的数据标注与第二样本语音数据集的标注进行区分,可以将第一样本语音数据集和第二样本语音数据集的标识设置为不同,这样,可以根据需要的数据集的标识,提取数据集中的标注。也即,根据第二样本语音数据集的标识,从标注后的第三待标注语音数据集中,获取第二样本语音数据集的标注。设置数据集的标识,可以大大的提高数据提取的准确率,避免误取、漏取等情况的发生。
进一步地,根据第一样本语音数据集的待验证标注、以及已通过验证的标注,计算获取第二样本语音数据集的标注准确度之后,还包括:
判断准确度是否达到预设阈值。
S403、若未达到预设阈值,则获取新的标注后的第三待标注语音数据集。
当上述计算出的第二样本语音数据集的标注准确度小于预设阈值时,则其正确率达不到要求,需要重新对第三待标注语音数据集中的数据进行标注,并重新计算标注后的第三待标注语音数据集中第一样本语音数据集的待验证标注的准确度,从而计算得到第二样本语音数据集的标注准确度。
可选地,上述重新标注和计算过程可以重复进行多次,具体根据实际情况而定,直到计算出的标注准确度达到预设阈值为止。以保证第二样本语音数据集的标注均符合要求。
进一步地,上述标注用于描述下述一项或多项:语音特征信息、语言类型及语义信息。
可选地,因每个人的说话方式,口音等都是不同的,获取到的多个语音数据也是不尽相同,不同的语音数据,其对应的数据标注也不同。
需要说明的是,语音特征信息可以包括:用户发出语音时的语气,例如是笑着说的,还是生气着说的等,而语言类型可以包括:是普通话还是方言、是中文还是英文或者葡萄牙语等;而语义信息可以包括:该语音的具体内容、语音长度等。
通过从多个方面对语音数据进行解析获取标注,相对来说,标注的准确度更高一些。
进一步地,将第一样本语音数据集与第二样本语音数据集进行组合,获取第三待标注语音数据集,包括:将第一样本语音数据集中的数据随机添加到第二样本语音数据集中,得到第三待标注语音数据集。
需要说明的是,为了使得通过验证的第一样本语音数据集的数据可以随机均匀的分散在第三待标注语音数据集中,以保证抽样的随机性,同时也防止有针对性的抽取到第一样本语音数据集的数据,还需将第一样本语音数据集中的数据按照预设的规则添加至第二样本语音数据集中,得到更具有效性的第三待标注语音数据集。例如将第一样本语音数据集的数据打乱并随机插入在第二样本语音数据集中。
进一步地,将第一样本语音数据集中的数据随机添加到第二样本语音数据集中,得到第三待标注语音数据集,包括:将第一样本语音数据集中的数据与第二样本语音数据集中的数据合并,得到合并后的数据集;将合并后的数据集中的数据顺序随机调整,得到第三待标注语音数据集。
可选地,可以先将第一样本语音数据集中的数据全部添加至第二样本语音数据集中,得到合并后的数据集,然后采用随机数函数,将合并后的数据集中的数据打乱,使其随机排列,作为第三待标注语音数据。
或者,也可以在将第一样本语音数据集中的数据往第二样本语音数据集中添加的过程中,采用随机添加的方法进行添加,例如:将第一样本语音数据集中的每个数据间隔穿插在第二样本语音数据集的数据之间等,这样得到的合并后的数据集即为第三待标注语音数据集。
可选地,本实施例中对如何进行数据打乱的方法不做具体限制,以能将第一样本语音数据集中的数据随机分布在第二样本语音数据集中为前提即可。这样可以使得标注过程中,参与的人员不区分第一样本语音数据集和第二样本语音数据集,客观的进行标注,得到的标注结果也不受其他因素影响,以便获取的标注准确度更为准确。
进一步地,上述第一样本语音数据集和第二样本语音数据集的数据格式相同。
需要说明的是,将第一样本语音数据集中的数据格式设置为与第二样本语音数据集中的数据格式相同,可以有效的避免根据数据格式的不同来有针对性的抽取出第一样本语音数据集的待验证标注数据。例如:当第一样本语音数据集的数据格式为A,而第二样本语音数据集的数据格式为B,当将第一样本语音数据集的数据添加到第二样本语音数据集中,得到第三待标注样本语音数据集后,在对第三待标注样本语音数据集中的数据进行标注时,可以根据数据格式的不同分辨出属于第一样本语音数据集的数据,对其进行标注,这样很容易根据已经通过验证的第一样本语音数据集的标注获得的第一样本语音数据集的待验证标注,使得待验证的标注不具有随机性,从而得到的标注准确度与实际的标注准确度有偏差。
本申请实施例提供的本申请实施例提供的数据标注准确度验证方法,能够采用将具有已通过验证的标注的数据集加入待验证标注数据集中,将已通过验证标注的数据集对应的待验证标注与已通过验证的标注进行比对分析,获取该待验证标注的准确度,从而得到待验证标注数据集中目标标注的准确度。实现了通过验证数据集中样本数据的标注准确度,来确定该数据集中目标数据的标注准确度,有效的提高了数据标注准确度的验证效率,同时一定程度上降低了劳动力的投入,成本也大大降低。
图6示出了本申请实施例提供的一种数据标注准确度验证装置结构示意图,如图6所示,该装置包括:获取模块610、抽取模块620及计算模块630。
获取模块610,用于将第一样本语音数据集与第二样本语音数据集进行组合,获取第三待标注语音数据集,其中,第一样本语音数据集具有已通过验证的标注;抽取模块620,用于获取标注后的第三待标注语音数据集,并从标注后的第三待标注语音数据集中抽取第一样本语音数据集的待验证标注;计算模块630,用于根据第一样本语音数据集的待验证标注、以及已通过验证的标注,计算获取第二样本语音数据集的标注准确度。
图7示出了本申请实施例提供的另一种数据标注准确度验证装置结构示意图,可选地,如图7所示,该装置还包括切分模块640及筛选模块650;切分模块640,用于根据预设规则,将第二样本语音数据集切分,得到切分后的多段样本语音数据;筛选模块650,用于根据预设识别算法,筛选切分后的多段样本语音数据,获取筛选后的第二样本语音数据集。
可选地,筛选模块650,具体用于对切分后的多段样本语音数据分别进行识别,得到每段语音数据的识别结果;将识别结果不满足预设条件的样本语音数据删除,获取筛选后的第二样本语音数据集。
图8示出了本申请实施例提供的又一种数据标注准确度验证装置结构示意图,可选地,如图8所示,该装置还包括判断模块660;判断模块660,用于判断上述准确度是否达到预设阈值;若达到预设阈值,则根据第二样本语音数据集的标识,从标注后的第三待标注语音数据集中,获取第二样本语音数据集的标注。
可选地,在一些实施例中,参照图8,该装置还包括判断模块660;判断模块660,还用于判断上述准确度是否达到预设阈值;若未达到预设阈值,则获取新的标注后的第三待标注语音数据集。
可选地,上述标注用于描述下述一项或多项:语音特征信息、语言类型及语义信息。
可选地,获取模块610,具体用于将第一样本语音数据集中的数据随机添加到第二样本语音数据集中,得到第三待标注语音数据集。
可选地,获取模块610,具体用于将第一样本语音数据集中的数据与第二样本语音数据集中的数据合并,得到合并后的数据集;将该合并后的数据集中的数据顺序随机调整,得到第三待标注语音数据集。
可选地,上述第一样本语音数据集和第二样本语音数据集的数据格式相同。
上述装置可用于执行上述方法实施例提供的方法,具体实现方式和技术效果类似,这里不再赘述。
图9示出了本申请实施例提供的另一种数据标注准确度验证装置结构示意图,如图9所示,该装置包括:处理器901和存储器902,其中:存储器902用于存储程序,处理器901调用存储器902存储的程序,以执行上述方法实施例。具体实现方式和技术效果类似,这里不再赘述。
该装置可以集成于终端或服务器等设备,本申请中不作限制。
可选地,本发明还提供一种程序产品,例如计算机可读存储介质,包括程序,该程序在被处理器执行时用于执行上述方法实施例。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (14)
1.一种数据标注准确度验证方法,其特征在于,所述方法包括:
将第一样本语音数据集与第二样本语音数据集进行组合,获取第三待标注语音数据集,其中,所述第一样本语音数据集具有已通过验证的标注,所述第一样本语音数据集和所述第二样本语音数据集的数据格式相同;
获取标注后的所述第三待标注语音数据集,并从所述标注后的第三待标注语音数据集中抽取所述第一样本语音数据集的待验证标注;
将所述第一样本语音数据集的待验证标注与已通过验证的所述第一样本语音数据集的标注进行比对,确定所述第一样本语音数据集的待验证标注的准确度,并根据所述第一样本语音数据集的待验证标注的准确度,得到所述第二样本语音数据集的标注准确度;
若所述第二样本语音数据集的标注准确度达到预设阈值,则根据所述第二样本语音数据集的标识,从所述标注后的第三待标注语音数据集中,获取所述第二样本语音数据集的标注;
若所述第二样本语音数据集的标注准确度未达到预设阈值,则获取新的标注后的第三待标注语音数据集。
2.根据权利要求1所述的方法,其特征在于,所述将第一样本语音数据集与第二样本语音数据集进行组合,获取第三待标注语音数据集之前,还包括:
根据预设规则,将所述第二样本语音数据集切分,得到切分后的多段样本语音数据;
根据预设识别算法,筛选所述切分后的多段样本语音数据,获取筛选后的第二样本语音数据集。
3.根据权利要求2所述的方法,其特征在于,所述根据预设识别算法,筛选所述切分后的多段样本语音数据,获取筛选后的第二样本语音数据集,包括:
对所述切分后的多段样本语音数据分别进行识别,得到每段语音数据的识别结果;
将识别结果不满足预设条件的样本语音数据删除,获取筛选后的第二样本语音数据集。
4.根据权利要求1所述的方法,其特征在于,所述标注用于描述下述一项或多项:语音特征信息、语言类型及语义信息。
5.根据权利要求1所述的方法,其特征在于,所述将第一样本语音数据集与第二样本语音数据集进行组合,获取第三待标注语音数据集,包括:
将所述第一样本语音数据集中的数据随机添加到所述第二样本语音数据集中,得到第三待标注语音数据集。
6.根据权利要求5所述的方法,其特征在于,所述将所述第一样本语音数据集中的数据随机添加到所述第二样本语音数据集中,得到第三待标注语音数据集,包括:
将所述第一样本语音数据集中的数据与所述第二样本语音数据集中的数据合并,得到合并后的数据集;
将所述合并后的数据集中的数据顺序随机调整,得到所述第三待标注语音数据集。
7.一种数据标注准确度验证装置,其特征在于,所述装置包括:获取模块、抽取模块及计算模块、判断模块;
所述获取模块,用于将第一样本语音数据集与第二样本语音数据集进行组合,获取第三待标注语音数据集,其中,所述第一样本语音数据集具有已通过验证的标注,所述第一样本语音数据集和所述第二样本语音数据集的数据格式相同;
所述抽取模块,用于获取标注后的所述第三待标注语音数据集,并从所述标注后的第三待标注语音数据集中抽取所述第一样本语音数据集的待验证标注;
所述计算模块,用于将所述第一样本语音数据集的待验证标注与已通过验证的所述第一样本语音数据集的标注进行比对,确定所述第一样本语音数据集的待验证标注的准确度,并根据所述第一样本语音数据集的待验证标注的准确度,得到所述第二样本语音数据集的标注准确度;
所述判断模块,用于若所述第二样本语音数据集的标注准确度达到预设阈值,则根据所述第二样本语音数据集的标识,从所述标注后的第三待标注语音数据集中,获取所述第二样本语音数据集的标注;若所述第二样本语音数据集的标注准确度未达到预设阈值,则获取新的标注后的第三待标注语音数据集。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括切分模块及筛选模块;
所述切分模块,用于根据预设规则,将所述第二样本语音数据集切分,得到切分后的多段样本语音数据;
所述筛选模块,用于根据预设识别算法,筛选所述切分后的多段样本语音数据,获取筛选后的第二样本语音数据集。
9.根据权利要求8所述的装置,其特征在于,所述筛选模块,具体用于对所述切分后的多段样本语音数据分别进行识别,得到每段语音数据的识别结果;将识别结果不满足预设条件的样本语音数据删除,获取筛选后的第二样本语音数据集。
10.根据权利要求7所述的装置,其特征在于,所述标注用于描述下述一项或多项:语音特征信息、语言类型及语义信息。
11.根据权利要求7所述的装置,其特征在于,所述获取模块,具体用于将所述第一样本语音数据集中的数据随机添加到所述第二样本语音数据集中,得到第三待标注语音数据集。
12.根据权利要求11所述的装置,其特征在于,所述获取模块,具体用于将所述第一样本语音数据集中的数据与所述第二样本语音数据集中的数据合并,得到合并后的数据集;将所述合并后的数据集中的数据顺序随机调整,得到所述第三待标注语音数据集。
13.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求1至6任一项所述的数据标注准确度验证方法的步骤。
14.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至6任一项所述的数据标注准确度验证方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811577528.XA CN111354340B (zh) | 2018-12-20 | 2018-12-20 | 数据标注准确度验证方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811577528.XA CN111354340B (zh) | 2018-12-20 | 2018-12-20 | 数据标注准确度验证方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111354340A CN111354340A (zh) | 2020-06-30 |
CN111354340B true CN111354340B (zh) | 2023-04-07 |
Family
ID=71195417
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811577528.XA Active CN111354340B (zh) | 2018-12-20 | 2018-12-20 | 数据标注准确度验证方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111354340B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084241A (zh) * | 2020-09-23 | 2020-12-15 | 北京金山云网络技术有限公司 | 一种标注数据筛选方法、装置及电子设备 |
CN113284509B (zh) * | 2021-05-06 | 2024-01-16 | 北京百度网讯科技有限公司 | 语音标注的正确率获取方法、装置和电子设备 |
CN113392902A (zh) * | 2021-06-15 | 2021-09-14 | 珠海格力电器股份有限公司 | 数据集处理方法、装置、存储介质及电子设备 |
CN113421591A (zh) * | 2021-06-30 | 2021-09-21 | 平安科技(深圳)有限公司 | 语音标注方法、装置、设备以及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2585240C (en) * | 1995-05-15 | 2008-10-14 | Dolby Laboratories Licensing Corporation | Lossless coding method for waveform data |
EP2727103B1 (en) * | 2011-06-30 | 2014-12-31 | Google, Inc. | Speech recognition using variable-length context |
US10446143B2 (en) * | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US20190026346A1 (en) * | 2017-07-24 | 2019-01-24 | International Business Machines Corporation | Mining procedure dialogs from source content |
CN108418962B (zh) * | 2018-02-13 | 2020-06-09 | Oppo广东移动通信有限公司 | 基于脑电波的信息响应方法及相关产品 |
-
2018
- 2018-12-20 CN CN201811577528.XA patent/CN111354340B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111354340A (zh) | 2020-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111354340B (zh) | 数据标注准确度验证方法、装置、电子设备及存储介质 | |
CN110096570B (zh) | 一种应用于智能客服机器人的意图识别方法及装置 | |
CN110263322B (zh) | 用于语音识别的音频语料筛选方法、装置及计算机设备 | |
CN111341305B (zh) | 一种音频数据标注方法、装置及系统 | |
CN107305541A (zh) | 语音识别文本分段方法及装置 | |
CN112951275B (zh) | 语音质检方法、装置、电子设备及介质 | |
CN110929520B (zh) | 非命名实体对象抽取方法、装置、电子设备及存储介质 | |
CN111292751A (zh) | 语义解析方法及装置、语音交互方法及装置、电子设备 | |
CN111309905A (zh) | 一种对话语句的聚类方法、装置、电子设备及存储介质 | |
CN113380238A (zh) | 处理音频信号的方法、模型训练方法、装置、设备和介质 | |
Ek et al. | Identifying speakers and addressees in dialogues extracted from literary fiction | |
CN110222331A (zh) | 谎言识别方法及装置、存储介质、计算机设备 | |
CN114490998A (zh) | 文本信息的抽取方法、装置、电子设备和存储介质 | |
CN111737424A (zh) | 一种问题的匹配方法、装置、设备及存储介质 | |
CN111354354B (zh) | 一种基于语义识别的训练方法、训练装置及终端设备 | |
CN113705164A (zh) | 一种文本处理方法、装置、计算机设备以及可读存储介质 | |
CN110442876B (zh) | 文本挖掘方法、装置、终端及存储介质 | |
CN115691503A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN111310457B (zh) | 词语搭配不当识别方法、装置、电子设备和存储介质 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
JP2015102914A (ja) | 不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラム | |
CN113793611A (zh) | 评分方法、装置、计算机设备和存储介质 | |
CN114141235A (zh) | 语音语料库生成方法、装置、计算机设备和存储介质 | |
CN114120425A (zh) | 一种情绪识别方法、装置、电子设备及存储介质 | |
CN112000767A (zh) | 一种基于文本的信息抽取方法和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |