CN115687334B - 数据质检方法、装置、设备及存储介质 - Google Patents

数据质检方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115687334B
CN115687334B CN202310010360.9A CN202310010360A CN115687334B CN 115687334 B CN115687334 B CN 115687334B CN 202310010360 A CN202310010360 A CN 202310010360A CN 115687334 B CN115687334 B CN 115687334B
Authority
CN
China
Prior art keywords
data
determining
model
labeling
quality inspection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310010360.9A
Other languages
English (en)
Other versions
CN115687334A (zh
Inventor
赵之源
党旭勇
谢凯
尹曦
谢育涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Digital Economy Academy IDEA
Original Assignee
International Digital Economy Academy IDEA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Digital Economy Academy IDEA filed Critical International Digital Economy Academy IDEA
Priority to CN202310010360.9A priority Critical patent/CN115687334B/zh
Publication of CN115687334A publication Critical patent/CN115687334A/zh
Application granted granted Critical
Publication of CN115687334B publication Critical patent/CN115687334B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于计算机技术领域,公开了一种数据质检方法、装置、设备及存储介质。该方法包括:获取多个待检测数据,包括样本数据和标注数据;对标注数据进行预处理,得到标准化数据;从标准化数据中提取特征,得到特征序列;根据样本数据和特征序列对预设模型进行训练,得到训练好的目标模型;利用目标模型对样本数据进行识别,得到识别数据;根据标注数据和识别数据确定各个待检测数据的误码指标值;将误码指标值大于预设阈值的待检测数据确定为问题数据。通过上述方式,使用神经网络模型进行自动检测,筛选出问题数据,无需使用者确定样本数据与标注数据的正确性,节省了人力成本,提升了质检效率。

Description

数据质检方法、装置、设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据质检方法、装置、设备及存储介质。
背景技术
随着AI(Artificial Intelligence)技术和理论的日益成熟,AI算法的应用领域也越来越广,业务量更是呈飞速发展的态势。人们意识到数据和算力的重要性,依据海量数据和大规模算力训练超大参数模型,已成为提高深度学习模型性能的主要方式。同时也带来一些问题:使用大数据量的训练数据(例如以亿为单位的文本和上万小时的音频)时,很难依靠纯人工的方法对数据进行质检;在面对一些超出使用者知识范围的数据(如小语种语音或文本),使用者无法判断数据的正确性。
一般的数据质检往往依赖人工全检或抽检,但面对海量的数据,人工全检的成本高昂,且某些场景下,很难有足够的符合要求的人力,对数据进行全检,而人工抽检又容易有错漏。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种数据质检方法、装置、设备及存储介质,旨在解决数据质检依赖人工全检或抽检,人工成本高且检测效率低的技术问题。
为实现上述目的,本发明提供了一种数据质检方法,所述方法包括以下步骤:
获取多个待检测数据,所述待检测数据包括样本数据和标注数据;
对所述标注数据进行预处理,得到标准化数据;
从所述标准化数据中提取特征,得到特征序列;
根据所述样本数据和所述特征序列对预设模型进行训练,得到训练好的目标模型;
利用所述目标模型对所述样本数据进行识别,得到识别数据;
根据所述标注数据和所述识别数据确定各个所述待检测数据的误码指标值;
将误码指标值大于预设阈值的待检测数据确定为问题数据。
可选地,所述样本数据为以句子为单位的音频数据,所述标注数据为标注文本数据;
所述根据所述标注数据和所述识别数据确定各个所述待检测数据的误码指标值,包括:
计算所述标注文本数据与所述识别数据之间的编辑距离;
根据所述编辑距离确定各个所述待检测数据的词错误率;
根据所述词错误率确定各个所述待检测数据的误码指标值。
可选地,所述根据所述词错误率确定各个所述待检测数据的误码指标值,包括:
确定所述标注文本数据与所述识别数据中各单词之间的插入个数、删除个数以及替换个数;
根据所述插入个数、所述删除个数、所述替换个数以及所述词错误率确定各个所述待检测数据的误码指标值。
可选地,所述对所述标注数据进行预处理,得到标准化数据,包括:
对所述标注文本数据进行拼写校正处理、数字和缩写转单词处理、大小写转换处理以及标点去除处理,得到标准化数据。
可选地,所述从所述标准化数据中提取特征,得到特征序列,包括:
以词为单位切分所述标准化数据,得到多个词汇;
对所述多个词汇进行去重处理;
根据去重处理后的词汇构建词典,所述词典包括单词和对应的序号;
查询所述词典,确定所述标准化数据中各个词汇的序号,得到特征序列。
可选地,所述将误码指标值大于预设阈值的待检测数据确定为问题数据之后,所述方法还包括:
在接收到当前质检任务和待质检数据时,根据所述当前质检任务确定对应的已训练模型,所述待质检数据包括待质检样本数据和待质检标注数据;
根据所述已训练模型对所述待质检样本数据进行识别,得到目标识别数据;
根据所述待质检标注数据和所述目标识别数据确定所述待质检数据的当前误码指标值;
若所述当前误码指标值大于所述预设阈值,则将所述待质检数据确定为问题数据。
可选地,所述根据所述样本数据和所述特征序列对预设模型进行训练,得到训练好的目标模型之后,所述方法还包括:
获取人工验证通过的标准数据,所述标准数据包括标准样本数据和标准标注数据;
利用所述目标模型对所述标准样本数据进行识别,得到标准识别数据;
根据所述标准识别数据和所述标准标注数据确定所述目标模型的识别精度;
在所述识别精度低于预设精度时,对所述目标模型的模型参数进行调整,得到调整后的目标模型。
此外,为实现上述目的,本发明还提出一种数据质检装置,所述数据质检装置包括:
获取模块,用于获取多个待检测数据,所述待检测数据包括样本数据和标注数据;
预处理模块,用于对所述标注数据进行预处理,得到标准化数据;
特征提取模块,用于从所述标准化数据中提取特征,得到特征序列;
训练模块,用于根据所述样本数据和所述特征序列对预设模型进行训练,得到训练好的目标模型;
识别模块,用于利用所述目标模型对所述样本数据进行识别,得到识别数据;
确定模块,用于根据所述标注数据和所述识别数据确定各个所述待检测数据的误码指标值;
质检模块,用于将误码指标值大于预设阈值的待检测数据确定为问题数据。
此外,为实现上述目的,本发明还提出一种数据质检设备,所述数据质检设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据质检程序,所述数据质检程序配置为实现如上文所述的数据质检方法。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有数据质检程序,所述数据质检程序被处理器执行时实现如上文所述的数据质检方法。
本发明通过获取多个待检测数据,包括样本数据和标注数据;对标注数据进行预处理,得到标准化数据;从标准化数据中提取特征,得到特征序列;根据样本数据和特征序列对预设模型进行训练,得到训练好的目标模型;利用目标模型对样本数据进行识别,得到识别数据;根据标注数据和识别数据确定各个待检测数据的误码指标值;将误码指标值大于预设阈值的待检测数据确定为问题数据。通过上述方式,使用神经网络模型进行自动检测,无错漏地筛选出问题数据,无需使用者确定样本数据与标注数据的正确性,节省了人力成本,提升了质检效率,为人工智能模型提供准确的数据支持。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的数据质检设备的结构示意图;
图2为本发明数据质检方法第一实施例的流程示意图;
图3为本发明数据质检方法第二实施例的流程示意图;
图4为本发明数据质检方法一实例的具体流程示意图;
图5为本发明数据质检方法的模型结构示意图;
图6为本发明数据质检方法第三实施例的流程示意图;
图7为本发明数据质检装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的数据质检设备结构示意图。
如图1所示,该数据质检设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对数据质检设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据质检程序。
在图1所示的数据质检设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明数据质检设备中的处理器1001、存储器1005可以设置在数据质检设备中,所述数据质检设备通过处理器1001调用存储器1005中存储的数据质检程序,并执行本发明实施例提供的数据质检方法。
本发明实施例提供了一种数据质检方法,参照图2,图2为本发明数据质检方法第一实施例的流程示意图。
本实施例中,所述数据质检方法包括以下步骤:
步骤S10:获取多个待检测数据,所述待检测数据包括样本数据和标注数据。
可以理解的是,本实施例的执行主体为数据质检设备,所述数据质检设备可以为计算机、服务器等设备,还可以为其他具备人工智能推理能力的设备,本实施例对此不加以限制。
需要说明的是,待检测数据可以为用于模型训练、模型参数调整的训练数据,本实施例中对待检测数据进行质检,后续基于问题筛选后的样本数据和标注数据进行模型训练、模型参数调整等,提升模型训练精度,待检测数据可以应用于语音识别、图像识别、情感识别等分类任务上。
应当理解的是,在语音识别的场景下,样本数据为音频数据,标注数据为文本数据;在图像识别的场景下,样本数据为图像数据,标注数据为检测框数据;在情感识别的场景下,样本数据为音频数据或图像数据,标注数据为情感标注数据。获取海量的待检测数据,利用本实施例的方式进行质检,以语音识别为例,质检的过程为根据音频数据比对标注文本是否有错误。
步骤S20:对所述标注数据进行预处理,得到标准化数据。
在具体实现中,对标注数据进行预处理是为了消除不同标注数据之间的差异性,便于后续模型的识别和训练。以语音识别场景为例,预处理过程可以包括:拼写校正、数字和缩写转单词、大小写转换、标点去除等正则化操作。以图像识别场景为例,预处理过程可以包括:检测框坐标的转换处理。以情感识别场景为例,预处理过程可以包括:从文本数据中截取表征情感的单词。
步骤S30:从所述标准化数据中提取特征,得到特征序列。
需要说明的是,由于预设模型会对样本数据进行一系列的处理和深度信息学习,对标准化数据进行提取特征的过程是为了使标注数据与预设模型的输出格式保持一致。以语音识别场景为例,特征提取的过程可以包括:以词为单位切分标准化数据,去重得到包含所有词汇的词典,并在词典中对每个单词编号,词典中每个单词对应一个识别的序号(token),通过查询词典确定标准化数据所包含的一个或多个序号,组成特征序列。以图像识别场景为例,特征提取的过程可以包括:根据转换后的检测框确定检测框的四角坐标、检测框长度、检测框宽度、检测框长宽比等特征,构成特征序列。以情感识别场景为例,特征提取的过程可以包括:将表征情感的一个或多个单词转化为模型可识别的编码数据,组成特征序列。
步骤S40:根据所述样本数据和所述特征序列对预设模型进行训练,得到训练好的目标模型。
需要说明的是,预设模型为提前构建好的神经网络模型,用于进行语音识别、图像识别或情感识别。以语音识别场景为例,预设模型可选地为基于Wav2vec的ASR模型(自动语音识别模型),预设模型的输入为音频数据,输出为音频预测的token序列,根据标注数据对应的特征序列和预测的token序列进行模型训练和模型参数调整,直到模型满足要求,得到训练好的目标模型。
步骤S50:利用所述目标模型对所述样本数据进行识别,得到识别数据。
应当理解的是,利用训练好的目标模型进行推理,识别所有待检测数据中的样本数据,得到识别数据。以语音识别场景为例,利用目标模型识别所有音频数据,目标模型的输入为音频数据,输出为预测的文本token序列,通过词典将token序列中的各token id转换为词汇,得到识别文本。
步骤S60:根据所述标注数据和所述识别数据确定各个所述待检测数据的误码指标值。
需要说明的是,可选地,计算标注数据和识别数据之间的相似度,根据相似度确定标注数据和识别数据之间的差异度,得到误码指标值,其中,差异度=1-相似度。可选地,计算标注数据和识别数据之间的距离,得到误码指标值。可选地,根据目标模型训练时使用的损失函数,计算标注数据和识别数据对应的损失函数值,得到误码指标值。以语音识别场景为例,计算标注数据和识别数据之间的编辑距离,确定WER (word error rate,词错误率),得到误码指标值。
步骤S70:将误码指标值大于预设阈值的待检测数据确定为问题数据。
应当理解的是,预设阈值为提前设置的用于区分误码指标值高低的临界值,若一误码指标值大于预设阈值,表征该误码指标值较高,将该误码指标值对应的待检测数据确定为问题数据;若一误码指标值小于或等于预设阈值,表征该误码指标值较低,将该误码指标值对应的待检测数据确定为正常数据。在具体实现中,按照误码指标值由高至低进行排序,根据各待检测数据的误码指标值结果设定预设阈值(K值),误码指标值大于K值的认为是标注错误,误码指标值小于K值的认为是模型误差。可选地,由人工进行K值设定。
以下结合实例对本实施例的数据质检方法进行说明:
假设需要检测一批Y国语音数据,根据音频对比标注文本是否有错误,首先通过这批待检测数据训练基于Wav2vec的ASR模型(输入为音频,输出为文本),然后使用训练好的模型来识别待检测数据的音频,计算出识别文本与标注文本之间的WER,WER为0时,表示识别文本与标注文本一致,WER越大表示识别结果与标注相差越多,设定一个参数K,一待检测数据的WER大于K时,认为该待检测数据的标注有误,从而筛选出有问题的数据。本方法对使用者作为质检人员的要求不高,无需使用者对数据有专家级的理解(例:无需使用者掌握小语种)。
进一步地,为了提升质检效率,所述步骤S70之后,所述方法还包括:在接收到当前质检任务和待质检数据时,根据所述当前质检任务确定对应的已训练模型,所述待质检数据包括待质检样本数据和待质检标注数据;根据所述已训练模型对所述待质检样本数据进行识别,得到目标识别数据;根据所述待质检标注数据和所述目标识别数据确定所述待质检数据的当前误码指标值;若所述当前误码指标值大于所述预设阈值,则将所述待质检数据确定为问题数据。
需要说明的是,当前质检任务用于表征待质检数据的使用场景,如语音识别场景、图像识别场景、情感识别场景,进一步地,语音识别场景可以细分为不同语言类型的语音识别场景,例如,A国语言识别、C国语言识别等等,图像识别场景可以细分为不同识别对象的图像识别场景,例如,人脸识别场景、医学图像识别场景、设备姿态识别场景等等。在具体实现中,以不同种类的待检测数据为基础执行步骤S10-S40,训练不同识别场景下的目标模型并进行存储,在执行当前质检任务时,确定当前质检任务的识别场景,查询对应的已训练模型,使用已训练模型来识别待质检样本数据,计算出目标识别数据与待质检数据之间的当前误码指标值(例如,WER),判断当前误码指标值是否大于预设阈值,若是,则将待质检数据认定为问题数据。
进一步地,为了保证模型的识别结果的准确性,所述步骤S40之后,所述方法还包括:获取人工验证通过的标准数据,所述标准数据包括标准样本数据和标准标注数据;利用所述目标模型对所述标准样本数据进行识别,得到标准识别数据;根据所述标准识别数据和所述标准标注数据确定所述目标模型的识别精度;在所述识别精度低于预设精度时,对所述目标模型的模型参数进行调整,得到调整后的目标模型。
需要说明的是,本实施例中通过增加人工验证通过的标准数据,使得被检测数据本身具有良好的正确率,以保证模型的训练精度,进而提升模型的识别精度。例如当一个数据集中有10个相同的样本,其中8个标注正确,2个标注错误,那么模型在训练的过程中,得到的正确结果的概率为0.8,得到错误结果的概率为0.2,而计算总体损失值时模型将样本识别为正确标签得到的损失值更低(0.2),因此模型会倾向于将样本识别为正确的标签,从而检测出错误数据。预设精度为提前设置的用于区分模型精度是否满足要求的精度临界值,例如90%,确定目标模型识别标准数据时的准确率,得到识别精度,若识别精度高于90%,表征模型精度满足要求,若识别精度低于90%,表征模型精度不满足要求,对目标模型的模型参数进行调整,本实施不对模型参数调整方式进行限定。
本实施例通过获取多个待检测数据,包括样本数据和标注数据;对标注数据进行预处理,得到标准化数据;从标准化数据中提取特征,得到特征序列;根据样本数据和特征序列对预设模型进行训练,得到训练好的目标模型;利用目标模型对样本数据进行识别,得到识别数据;根据标注数据和识别数据确定各个待检测数据的误码指标值;将误码指标值大于预设阈值的待检测数据确定为问题数据。通过上述方式,使用神经网络模型进行自动检测,无错漏地筛选出问题数据,无需使用者确定样本数据与标注数据的正确性,节省了人力成本,提升了质检效率,为人工智能模型提供准确的数据支持。
参考图3,图3为本发明数据质检方法第二实施例的流程示意图。
基于上述第一实施例,本实施例数据质检方法中所述样本数据为以句子为单位的音频数据,所述标注数据为标注文本数据;
所述步骤S60,包括:
步骤S601:计算所述标注文本数据与所述识别数据之间的编辑距离。
应当理解的是,将标准文本数据和识别数据转换为字符串,利用编辑距离确定由标准文本字符串转换为识别数据字符串所需要的最少编辑操作次数,编辑操作包括:插入字符、删除字符及替换字符。
步骤S602:根据所述编辑距离确定各个所述待检测数据的词错误率。
需要说明的是,可选地,根据计算编辑距离中确定的插入字符数、删除字符数和替换字符数确定第一参数,根据插入字符数、删除字符数和识别正确字符数确定第二参数,根据第一参数和第二参数确定词错误率,具体通过以下公式确定词错误率:
其中,S为插入字符数,D为删除字符数,I为替换字符数,C为识别正确字符数。
步骤S603:根据所述词错误率确定各个所述待检测数据的误码指标值。
应当理解的是,可选地,将标注数据对应的词错误率作为各个待检测数据的误码指标值。可选地,对词错误率进行分值转换处理,得到误码指标值,例如,将词错误率转换为十分制参数、百分制参数等等。可选地,综合词错误率和其他指标值,得到误码指标值。
相应地,所述步骤S20,包括:对所述标注文本数据进行拼写校正处理、数字和缩写转单词处理、大小写转换处理以及标点去除处理,得到标准化数据。
需要说明的是,拼写校正处理可以包括:查询标注文本数据中可能的正确拼写,选择距离最近的正确拼写,当存在多个正确拼写的距离相等(或相近)时,选择最常出现的拼写作为正确拼写。数字和缩写转单词处理方式可以包括:查询标注文本数据中的数字和缩写,对其按照对应的语言词典进行转单词处理。大小写转换处理方式可以包括:查询标注文本数据中的全部大写字符和全部小写字符,按照识别要求将大写字符转换为小写字符或将小写字符转换为大写字符。标点去除处理可以包括:基于已知的多种标点符号对标注文本数据进行查询搜索,确定其中包含的标点符号,对标点符号进行删除。
相应地,所述步骤S30,包括:以词为单位切分所述标准化数据,得到多个词汇;对所述多个词汇进行去重处理;根据去重处理后的词汇构建词典,所述词典包括单词和对应的序号;查询所述词典,确定所述标准化数据中各个词汇的序号,得到特征序列。
应当理解的是,按照大量的待检测数据进行拼写校正、数字和缩写转单词、大小写转换以及标点去除等正则化处理,得到标准化数据,以词为单位切分标准化数据,去重后构建词典,并在词典中对每个单词编号,词典中每个单词对应一个识别的序号(token),通过查询词典确定标准化数据所包含的一个或多个序号,组成特征序列。
需要说明的是,参照图4,图4为本发明数据质检方法一实例的具体流程示意图:导入原始数据,包括音频数据和文本数据,提取所有文本;文本正则化,去除标点,按空格切分为词;对所有词汇进行去重处理,构建字典;使用待检测数据和字典训练ASR模型;使用训练好的模型识别训练数据音频;计算识别文本与标注文本之间的WER;按照WER从高至低,对文本句子进行排序,当WER大于K时,认定为问题数据。
在具体实现中,可选地,采用wenet模型进行模型训练和音频识别,参照图5,图5为本发明数据质检方法的模型结构示意图;图5中encoder①是共享编码器(SharedEncoder),其中也包括了下采样网络(Subsample网络);decoder②是结合注意力机制的编码器,即Attention-based Decoder网络;ctc③包括CTC解码器(即CTC Decoder,包含前向网络和softmax)和CTC损失;criterion_att④是Attention-based Decoder对应的自回归似然损失,T表示输入数据长度(语音的帧数),T’表示经过降采样后的长度,L表示标注文本长度,语音帧序列由帧数(Frame)和频域特征(Fbank)组成。
本实施例中样本数据为以句子为单位的音频数据,标注数据为标注文本数据;计算标注文本数据与识别数据之间的编辑距离;根据编辑距离确定各个待检测数据的词错误率;根据词错误率确定各个待检测数据的误码指标值。通过上述方式,使用神经网络模型自动检测音频数据的标注文本是否正确,无错漏地筛选出问题数据,无需使用者掌握小语种,节省了人力成本,提升了质检效率,为语音识别提供准确的数据支持。
参考图6,图6为本发明数据质检方法第三实施例的流程示意图。
基于上述第一实施例,本实施例数据质检方法中所述步骤S603,包括:
步骤S6031:确定所述标注文本数据与所述识别数据中各单词之间的插入个数、删除个数以及替换个数。
应当理解的是,计算标注文本数据与识别数据之间的编辑距离时,确定最少编辑操作次数,记录插入个数、删除个数以及替换个数,即插入字符次数、删除字符次数及替换字符次数。
步骤S6032:根据所述插入个数、所述删除个数、所述替换个数以及所述词错误率确定各个所述待检测数据的误码指标值。
需要说明的是,参照表1,表1为编辑距离参数记录的示意表,其中,idx为音频编号,Num为标注文本的单词数,Cor为识别正确个数,Sub为替换个数,Del为删除个数,Ins为插入个数。
表1:
idx wer Num Cor Sub Del Ins 标注文本 识别文本
1 1200 1 0 1 0 11 lab:A
2 300 1 0 1 0 2 lab:MAHADI
3 300 1 0 1 0 2 lab:MAHADI
… 
可选地,提前设置有各插入数值范围与分值之间的对应关系、删除数值范围与分值之间的对应关系以及替换个数与分值之间的对应关系,确定当前的插入个数、删除个数以及替换个数分别所属的数值范围,从而确定对应的插入数值分数、删除数值分数以及替换数值分数,对词错误率进行分值转换,得到词错误率分数,按照预先设置的插入数值权重、删除数值权重、替换数值权重以及词错误率权重对插入数值分数、删除数值分数、替换数值分数以及词错误率分数进行加权求和,得到各个待检测数据的误码指标值,其中,插入数值权重、删除数值权重、替换数值权重以及词错误率权重用于表征对应指标对文本错误的贡献程度。
可选地,先按词错误率由高至低进行排序,WER>K(例如,100)的数据为问题数据;然后再按Ins(插入个数)从大到小排序,识别结果比标注文本长很多的,即Ins>M(预设的值)的数据中标注存在错误;再按Del(删除个数)从大到小排序,有可能是模型性能问题导致Del较大,也有可能是标注错误,由人工辅助判断,设定阈值,确定标注存在错误的数据。进一步地,按Sub(替换个数)从大到小排序,确定Sub>N(预设的值)的数据中标注存在错误。
本实施例通过确定标注文本数据与识别数据中各单词之间的插入个数、删除个数以及替换个数;根据插入个数、删除个数、替换个数以及词错误率确定各个待检测数据的误码指标值。通过上述方式,使用多种参数确定误码指标值,提升了质检筛选的准确性,进一步提升了质检效率,为语音识别提供准确的数据支持。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有数据质检程序,所述数据质检程序被处理器执行时实现如上文所述的数据质检方法。
由于本存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
参照图7,图7为本发明数据质检装置第一实施例的结构框图。
如图7所示,本发明实施例提出的数据质检装置包括:
获取模块10,用于获取多个待检测数据,所述待检测数据包括样本数据和标注数据。
预处理模块20,用于对所述标注数据进行预处理,得到标准化数据。
特征提取模块30,用于从所述标准化数据中提取特征,得到特征序列。
训练模块40,用于根据所述样本数据和所述特征序列对预设模型进行训练,得到训练好的目标模型。
识别模块50,用于利用所述目标模型对所述样本数据进行识别,得到识别数据。
确定模块60,用于根据所述标注数据和所述识别数据确定各个所述待检测数据的误码指标值。
质检模块70,用于将误码指标值大于预设阈值的待检测数据确定为问题数据。
应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
本实施例通过获取多个待检测数据,包括样本数据和标注数据;对标注数据进行预处理,得到标准化数据;从标准化数据中提取特征,得到特征序列;根据样本数据和特征序列对预设模型进行训练,得到训练好的目标模型;利用目标模型对样本数据进行识别,得到识别数据;根据标注数据和识别数据确定各个待检测数据的误码指标值;将误码指标值大于预设阈值的待检测数据确定为问题数据。通过上述方式,使用神经网络模型进行自动检测,无错漏地筛选出问题数据,无需使用者确定样本数据与标注数据的正确性,节省了人力成本,提升了质检效率,为人工智能模型提供准确的数据支持。
需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的数据质检方法,此处不再赘述。
在一实施例中,所述样本数据为以句子为单位的音频数据,所述标注数据为标注文本数据;
所述确定模块60,还用于计算所述标注文本数据与所述识别数据之间的编辑距离;根据所述编辑距离确定各个所述待检测数据的词错误率;根据所述词错误率确定各个所述待检测数据的误码指标值。
在一实施例中,所述确定模块60,还用于确定所述标注文本数据与所述识别数据中各单词之间的插入个数、删除个数以及替换个数;根据所述插入个数、所述删除个数、所述替换个数以及所述词错误率确定各个所述待检测数据的误码指标值。
在一实施例中,所述预处理模块20,还用于对所述标注文本数据进行拼写校正处理、数字和缩写转单词处理、大小写转换处理以及标点去除处理,得到标准化数据。
在一实施例中,所述特征提取模块30,用于以词为单位切分所述标准化数据,得到多个词汇;对所述多个词汇进行去重处理;根据去重处理后的词汇构建词典,所述词典包括单词和对应的序号;查询所述词典,确定所述标准化数据中各个词汇的序号,得到特征序列。
在一实施例中,所述数据质检装置包括质检任务响应模块;
所述质检任务响应模块,用于在接收到当前质检任务和待质检数据时,根据所述当前质检任务确定对应的已训练模型,所述待质检数据包括待质检样本数据和待质检标注数据;
所述识别模块50,还用于根据所述已训练模型对所述待质检样本数据进行识别,得到目标识别数据;
所述确定模块60,还用于根据所述待质检标注数据和所述目标识别数据确定所述待质检数据的当前误码指标值;
所述质检模块70,还用于若所述当前误码指标值大于所述预设阈值,则将所述待质检数据确定为问题数据。
在一实施例中,所述数据质检装置包括模型调整模块;
所述模型调整模块,用于获取人工验证通过的标准数据,所述标准数据包括标准样本数据和标准标注数据;利用所述目标模型对所述标准样本数据进行识别,得到标准识别数据;根据所述标准识别数据和所述标准标注数据确定所述目标模型的识别精度;在所述识别精度低于预设精度时,对所述目标模型的模型参数进行调整,得到调整后的目标模型。
此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(Read Only Memory,ROM)/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种数据质检方法,其特征在于,所述数据质检方法包括:
获取多个待检测数据,所述待检测数据包括样本数据和标注数据,其中,所述样本数据为以句子为单位的音频数据,所述标注数据为标注文本数据;
对所述标注数据进行预处理,得到标准化数据;
从所述标准化数据中提取特征,得到特征序列;
根据所述样本数据和所述特征序列对预设模型进行训练,得到训练好的目标模型,其中,预设模型的输入为音频数据,输出为音频预测的token序列,根据标注数据对应的特征序列和预测的token序列进行模型训练和模型参数调整,得到训练好的目标模型;
利用所述目标模型对所述样本数据进行识别,得到识别数据;
根据所述标注数据和所述识别数据确定各个所述待检测数据的误码指标值;
将误码指标值大于预设阈值的待检测数据确定为问题数据;
其中,所述根据所述标注数据和所述识别数据确定各个所述待检测数据的误码指标值,包括:
计算所述标注文本数据与所述识别数据之间的编辑距离;
根据所述编辑距离确定各个所述待检测数据的词错误率;
根据所述词错误率确定各个所述待检测数据的误码指标值。
2.如权利要求1所述的数据质检方法,其特征在于,所述根据所述词错误率确定各个所述待检测数据的误码指标值,包括:
确定所述标注文本数据与所述识别数据中各单词之间的插入个数、删除个数以及替换个数;
根据所述插入个数、所述删除个数、所述替换个数以及所述词错误率确定各个所述待检测数据的误码指标值。
3.如权利要求1所述的数据质检方法,其特征在于,所述对所述标注数据进行预处理,得到标准化数据,包括:
对所述标注文本数据进行拼写校正处理、数字和缩写转单词处理、大小写转换处理以及标点去除处理,得到标准化数据。
4.如权利要求1所述的数据质检方法,其特征在于,所述从所述标准化数据中提取特征,得到特征序列,包括:
以词为单位切分所述标准化数据,得到多个词汇;
对所述多个词汇进行去重处理;
根据去重处理后的词汇构建词典,所述词典包括单词和对应的序号;
查询所述词典,确定所述标准化数据中各个词汇的序号,得到特征序列。
5.如权利要求1至4中任一项所述的数据质检方法,其特征在于,所述将误码指标值大于预设阈值的待检测数据确定为问题数据之后,所述方法还包括:
在接收到当前质检任务和待质检数据时,根据所述当前质检任务确定对应的已训练模型,所述待质检数据包括待质检样本数据和待质检标注数据;
根据所述已训练模型对所述待质检样本数据进行识别,得到目标识别数据;
根据所述待质检标注数据和所述目标识别数据确定所述待质检数据的当前误码指标值;
若所述当前误码指标值大于所述预设阈值,则将所述待质检数据确定为问题数据。
6.如权利要求1至4中任一项所述的数据质检方法,其特征在于,所述根据所述样本数据和所述特征序列对预设模型进行训练,得到训练好的目标模型之后,所述方法还包括:
获取人工验证通过的标准数据,所述标准数据包括标准样本数据和标准标注数据;
利用所述目标模型对所述标准样本数据进行识别,得到标准识别数据;
根据所述标准识别数据和所述标准标注数据确定所述目标模型的识别精度;
在所述识别精度低于预设精度时,对所述目标模型的模型参数进行调整,得到调整后的目标模型。
7.一种数据质检装置,其特征在于,所述数据质检装置包括:
获取模块,用于获取多个待检测数据,所述待检测数据包括样本数据和标注数据,其中,所述样本数据为以句子为单位的音频数据,所述标注数据为标注文本数据;
预处理模块,用于对所述标注数据进行预处理,得到标准化数据;
特征提取模块,用于从所述标准化数据中提取特征,得到特征序列;
训练模块,用于根据所述样本数据和所述特征序列对预设模型进行训练,得到训练好的目标模型,其中,预设模型的输入为音频数据,输出为音频预测的token序列,根据标注数据对应的特征序列和预测的token序列进行模型训练和模型参数调整,得到训练好的目标模型;
识别模块,用于利用所述目标模型对所述样本数据进行识别,得到识别数据;
确定模块,用于根据所述标注数据和所述识别数据确定各个所述待检测数据的误码指标值;
质检模块,用于将误码指标值大于预设阈值的待检测数据确定为问题数据;
其中,所述确定模块,还用于计算所述标注文本数据与所述识别数据之间的编辑距离;根据所述编辑距离确定各个所述待检测数据的词错误率;根据所述词错误率确定各个所述待检测数据的误码指标值。
8.一种数据质检设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据质检程序,所述数据质检程序配置为实现如权利要求1至6中任一项所述的数据质检方法。
9.一种存储介质,其特征在于,所述存储介质上存储有数据质检程序,所述数据质检程序被处理器执行时实现如权利要求1至6任一项所述的数据质检方法。
CN202310010360.9A 2023-01-05 2023-01-05 数据质检方法、装置、设备及存储介质 Active CN115687334B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310010360.9A CN115687334B (zh) 2023-01-05 2023-01-05 数据质检方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310010360.9A CN115687334B (zh) 2023-01-05 2023-01-05 数据质检方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115687334A CN115687334A (zh) 2023-02-03
CN115687334B true CN115687334B (zh) 2023-05-16

Family

ID=85057309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310010360.9A Active CN115687334B (zh) 2023-01-05 2023-01-05 数据质检方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115687334B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191080A (zh) * 2018-09-17 2019-01-11 北京点网聚科技有限公司 一种质检方法及装置
CN109599093A (zh) * 2018-10-26 2019-04-09 北京中关村科金技术有限公司 智能质检的关键词检测方法、装置、设备及可读存储介质
CN111078908A (zh) * 2019-11-28 2020-04-28 北京云聚智慧科技有限公司 一种数据标注的检测方法和装置
CN111181786A (zh) * 2019-12-30 2020-05-19 杭州东方通信软件技术有限公司 用户反馈故障信息处理方法、设备、服务器和存储介质
CN111414751A (zh) * 2020-03-20 2020-07-14 深圳前海微众银行股份有限公司 质检优化方法、装置、设备及存储介质
CN112992125A (zh) * 2021-04-20 2021-06-18 北京沃丰时代数据科技有限公司 一种语音识别方法、装置、电子设备、可读存储介质
CN114067786A (zh) * 2020-07-28 2022-02-18 腾讯科技(深圳)有限公司 语音识别方法、装置、电子设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7620855B2 (en) * 2006-06-30 2009-11-17 Seagate Technology Llc Self-defining counters
CN101727903B (zh) * 2008-10-29 2011-10-19 中国科学院自动化研究所 基于多特征和多系统融合的发音质量评估和错误检测方法
CN104616031B (zh) * 2015-01-22 2018-06-12 哈尔滨工业大学深圳研究生院 迁移学习方法及装置
CN104794500A (zh) * 2015-05-11 2015-07-22 苏州大学 一种tri-training半监督学习方法及装置
CN108900725B (zh) * 2018-05-29 2020-05-29 平安科技(深圳)有限公司 一种声纹识别方法、装置、终端设备及存储介质
CN113139559B (zh) * 2020-01-17 2022-06-24 魔门塔(苏州)科技有限公司 一种目标检测模型的训练方法、数据的标注方法和装置
CN112151014B (zh) * 2020-11-04 2023-07-21 平安科技(深圳)有限公司 语音识别结果的测评方法、装置、设备及存储介质
CN114360503A (zh) * 2021-11-18 2022-04-15 腾讯科技(深圳)有限公司 一种语音识别方法、系统及存储介质和终端设备
CN115359799A (zh) * 2022-08-18 2022-11-18 北京字跳网络技术有限公司 语音识别方法、训练方法、装置、电子设备及存储介质
CN115455166A (zh) * 2022-09-23 2022-12-09 支付宝(杭州)信息技术有限公司 一种智能对话系统异常检测的方法、装置、介质及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191080A (zh) * 2018-09-17 2019-01-11 北京点网聚科技有限公司 一种质检方法及装置
CN109599093A (zh) * 2018-10-26 2019-04-09 北京中关村科金技术有限公司 智能质检的关键词检测方法、装置、设备及可读存储介质
CN111078908A (zh) * 2019-11-28 2020-04-28 北京云聚智慧科技有限公司 一种数据标注的检测方法和装置
CN111181786A (zh) * 2019-12-30 2020-05-19 杭州东方通信软件技术有限公司 用户反馈故障信息处理方法、设备、服务器和存储介质
CN111414751A (zh) * 2020-03-20 2020-07-14 深圳前海微众银行股份有限公司 质检优化方法、装置、设备及存储介质
CN114067786A (zh) * 2020-07-28 2022-02-18 腾讯科技(深圳)有限公司 语音识别方法、装置、电子设备及存储介质
CN112992125A (zh) * 2021-04-20 2021-06-18 北京沃丰时代数据科技有限公司 一种语音识别方法、装置、电子设备、可读存储介质

Also Published As

Publication number Publication date
CN115687334A (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN111324784B (zh) 一种字符串处理方法及装置
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN113033183B (zh) 一种基于统计量与相似性的网络新词发现方法及系统
CN112307741B (zh) 保险行业文档智能化解析方法和装置
CN113033185B (zh) 标准文本纠错方法、装置、电子设备和存储介质
CN111651978A (zh) 基于实体的词法检查方法与装置和计算机设备及存储介质
CN112435651A (zh) 一种语音数据自动标注的质量评估方法
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN112395392A (zh) 一种意图识别方法及装置、可读存储介质
CN113626573A (zh) 一种销售会话异议及应对提取方法及系统
CN114970502B (zh) 一种应用于数字政府的文本纠错方法
CN114969387A (zh) 文献作者信息消歧方法、装置及电子设备
CN112699671B (zh) 一种语言标注方法、装置、计算机设备和存储介质
CN113076720B (zh) 长文本的分段方法及装置、存储介质、电子装置
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN111291535A (zh) 剧本处理方法、装置、电子设备及计算机可读存储介质
CN115687334B (zh) 数据质检方法、装置、设备及存储介质
CN116912832A (zh) 一种图像文字识别的纠错方法、纠错装置、设备及介质
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质
CN114564942A (zh) 一种用于监管领域的文本纠错方法、存储介质和装置
CN113127607A (zh) 文本数据标注方法、装置、电子设备及可读存储介质
CN113962196A (zh) 一种简历处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant