CN112435651A - 一种语音数据自动标注的质量评估方法 - Google Patents
一种语音数据自动标注的质量评估方法 Download PDFInfo
- Publication number
- CN112435651A CN112435651A CN202011312501.5A CN202011312501A CN112435651A CN 112435651 A CN112435651 A CN 112435651A CN 202011312501 A CN202011312501 A CN 202011312501A CN 112435651 A CN112435651 A CN 112435651A
- Authority
- CN
- China
- Prior art keywords
- quality
- rule
- error
- labeling
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 33
- 238000002372 labelling Methods 0.000 claims abstract description 98
- 238000001514 detection method Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 12
- 238000005259 measurement Methods 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000012854 evaluation process Methods 0.000 claims description 3
- 230000008676 import Effects 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 5
- 238000011161 development Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 230000001737 promoting effect Effects 0.000 abstract description 2
- 238000011156 evaluation Methods 0.000 description 4
- 230000008713 feedback mechanism Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000001303 quality assessment method Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供一种语音数据自动标注的质量评估方法,包括:基于质量关键指标,预先构建自动标注语音数据的质量规则库;读取需要被检测的自动标注语音数据,依据所述质量关键指标对所述需要被检测的自动标注语音数据进行质量检测,以完成质量度量;根据所述质量度量的结果更新自动标注语音数据集;将更新后的所述自动标注语音数据集转换为新规则导入所述质量规则库。本发明方法弥补了将传统数据标注质量评估方法用于机器自动标注数据存在的不足;对推动小语种语言语音智能化发展进程具有非常积极的支撑作用。
Description
技术领域
本发明涉及语言信息处理技术领域,尤其涉及一种语音数据自动标注的质量评估方法。
背景技术
近年来,数据自动标注逐步成为人工智能领域的关键基础技术,希望通过机器自动标注数据来取代人力,已在图像等领域的数据自动标注中取得较大进展。语音标注数据极度匮乏已经成为制约我国少数民族语言语音识别性能的关键因素。由于受原始数据质量、人工出错和模型局限性等因素的影响,数据标注错误难以避免,因此引入有效的质量评估方法是非常重要的,而数据标注的标准不统一、标注质量参差不齐,很大程度上阻碍了数据标注的应用和发展。
目前已有的人工数据标注质量评估方法主要包括:第一,基于人工参与的数据标注质量评估方法,主要通过质量检验员的抽样分析得出评估结论;第二,基于概率模型的质量评估方法,主要是通过标注数据质量的抽样统计实现质量评估及纠错。但这些方法主要用于人工数据标注质量评估,并不适用于自动数据标注的质量评估,主要原因是机器自动标注和人工标注的错误形成原因、质量问题类型和规律都较大差异。
发明内容
本发明的目的在于解决上述现有技术存在的缺陷,提供一种语音数据自动标注的质量评估方法,解决了以下问题:第一,对机器完成的语音自动标注数据进行质量评估,发现标注数据存在的“错标和漏标”等质量问题,从而提升数据自动标注的质量。第二,针对自动标注与人工标注的本质差异,基于现有的概率模型质量评价方法,引入基于规则库的逻辑推理机制,根据自动标注数据中常见的质量问题形成规则,通过规则比对实现质量评估和度量。
一种语音数据自动标注的质量评估方法,包括以下步骤:
步骤一:基于质量关键指标,预先构建自动标注语音数据的质量规则库;
所述质量关键指标包括:词错误率WER、句子错误率SER、偏误特征错误率PAR、用户反馈错误率CER;
步骤二:读取需要被检测的自动标注语音数据,依据所述质量关键指标对所述需要被检测的自动标注语音数据进行质量检测,以完成质量度量;
步骤三:根据所述质量度量的结果更新自动标注语音数据集;
步骤四:将更新后的所述自动标注语音数据集转换为新规则导入所述质量规则库。
进一步地,如上所述的语音数据自动标注的质量评估方法,步骤一中所述构建自动标注语音数据的质量规则库包括以下步骤:
步骤11,生成基础规则层;根据所述质量关键指标生成基础规则,作为规则库的基础标准;所述基础规则层包括预先构建的规则,质量评估过程中不进行规则导入操作;
步骤12,生成自定规则层;根据业务需求定义规则,分别生成数据标注规则;所述数据标注规则包括:语音数据自动标注规则、小语种数据标注规则;质量评估过程中生成的新规则导入自定规则层进行存储;
步骤13,生成用户规则层;测试用户反馈质量结果,采用统一的文本模板收集反馈意见,进行人工审核后入库生成新规则;
步骤14,规则检测;检测以上所有规则之间在逻辑上是否存在冲突,对有逻辑冲突的规则进行修改后再进行检测,直到所有逻辑冲突消失;
步骤15:将检测完成的规则库作为所述质量规则库。
进一步地,如上所述的语音数据自动标注的质量评估方法,所述步骤二包括以下步骤:
步骤21:获取所述所述需要被检测的自动标注语音数据,分别将数据中对词进行标注、句子进行标注、偏误特征进行标注的标签分离出来,存储为词标注集、句子标注集和偏误标注集;
步骤22:词标注集与所述质量规则库中的词错误率规则进行逐一比对,分别记录标注错误词数量,再计算词错误率并记录错误位置和类型;
步骤23:句子标注集与所述质量规则库中的句子错误率规则进行逐一比对,记录标注错误句子的数量,再计算句子错误率并记录错误位置和类型;
步骤24:偏误标注集与所述质量规则库中的偏误特征规则进行逐一比对,记录未标注偏误特征的句子数量,再计算偏误特征未标注率并记录错误位置和类型;
步骤25:分别将上述词标注集、句子标注集和偏误标注集与用户反馈错误规则进行逐一比对,记录通过比对发现的错误,再计算用户反馈错误率并记录错误位置和类型;
步骤26:按上述词错误率、句子错误率、偏误特征未标注率和用户反馈错误率进行公式计算,获得每一个自动标注语音数据集的质量评分;
其中,质量评分公式为:
进一步地,如上所述的语音数据自动标注的质量评估方法,所述词错误率计算为:WER=(S+D+I)/N,S表示需要替换的标注错误词数,D表示需要删除的标注错误词数,I表示需要插入的标注错误词数,N表示标注词汇总量;对应基础规则层和自定规则层;
所述句子错误率计算为:SER=EN/TN,EN表示标注错误的句子数,若句子中有词标注错误则判断为该句子错误,TN表示标注的句子总数;对应基础规则层和自定规则层;
所述偏误特征错误率计算为:PAR=AN/TN,其中AN表示未标注偏误特征的句子数量,TN表示规则库中的偏误特征总数;对应基础规则层和自定规则层;
所述用户反馈错误率计算为:CER=(w1*B1+w2*B2+w3*B3)/N,其中B1、B2、B3分别表示在用户反馈错误规则中该样本数据的词错误标注数量、句子错误数量和偏误特征错误数量,w1、w2、w3表示对应的权重,N表示该样本数据中三类错误的总和;对应用户规则层。
进一步地,如上所述的语音数据自动标注的质量评估方法,所述步骤13包括以下步骤:
步骤131:预先给定规则模板,用于当测试用户发现自动标注语音数据集质量问题时填写模板并反馈;采用所述规则模板生成的用户反馈可直接读取并导入所述质量规则库;
步骤132:人工审核反馈意见的规范性和合理性,审核通过,则导入所述质量规则库,否则不导入。
进一步地,如上所述的语音数据自动标注的质量评估方法,所述步骤三包括:
步骤31:设置质量阈值,如果质量评分大于阈值则不进行更新;
步骤32:若质量评分小于质量阈值,则进行更新处理;按照质量评分过程中记录的错误位置和类型,分别对自动标注语音数据进行标签删除、替换和插入处理;
步骤33:更新处理后再次进行质量评估,直至质量评分大于阈值。
进一步地,如上所述的语音数据自动标注的质量评估方法,所述步骤四包括:
步骤41:将自动标注语音数据集评估过程中分离并记录下来的标签进行分类存储;
步骤42:按照预先给定规则模板,将所述分类标签转换为规则模板的格式,生成新规则;
步骤43:将上述新规则导入质量规则库的自定规则层进行存储。
本发明的优点是:
第一、本发明是一种专门针对语音数据自动标注的质量评估方法,与现有的人工数据标注或半自动数据标注方法有较大区别。
第二、本发明是采用基于规则库的“逻辑推理”实现质量评估,不同于现有的人工评估和概率模型评估方法。并通过将规则库分层,处理传统错误、方言偏误、用户反馈等多层级的评估指标,确保评估方法的全面和有效。
具体地说,现有深度学习方法绝大多数都是基于概率模型的方法,语音自动标注的数据也是基于神经网络等概率模型方法获得的。因此,不能再采用同样的理论方法进行质量评估。采用规则库的方法具有以下优势:
1、可以将人类总结的质量评估经验以规则(知识)的形式进行表示并重复利用;
2、采用基于规则库的质量检测方式,弥补了“机器学习模型训练得到的自动标注结果”存在的不足(如:数据样本不足、过拟合、模型缺陷等),真正实现了人类逻辑知识与基于数据的概率模型训练结果相互结合、取长补短。大大提升数据标注质量。
3、机器自动标注数据出现的错误是有规律可寻的,且通常会反复、大量出现,使规则库的方法更容易识别这些错误(往往一类错误就会使分值大幅度降低),并处理错误。
第三、本发明引入用户反馈机制,是一种避免机器自动标注发生的“漏标”、“错标”等纠错机制。
本发明是的积极效果是:
(1)弥补了将传统数据标注质量评估方法用于机器自动标注数据存在的不足;
(2)针对语音(特别是受方言和汉语借来词影响较大的少数民族语言)设计专门的数据标注质量评估方法。对推动小语种语言语音智能化发展进程具有非常积极的支撑作用。
附图说明
图1为本发明语音数据自动标注的质量评估方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
自动标注数据的质量检测机制。由于人类和机器对“标注错误”的理解存在差距,对计算机自动完成的大量自动标注数据质量检测存在一定难度,因此需要适当借助原人工方法。检测机制设计的基本思想是:建立质量评价关键指标体系,并抽取标注流程中容易“犯错误”点建立规则库,如:句头、句尾词汇,汉语借来词汇,分支语言差异词汇等等。此外,需引入测试用户使用反馈机制来逐步丰富规则库。
数据标注质量度量方法。数据自动标注方法采用基于概率的学习模型,而质量度量则需要更加“精确”的方法,因此本发明采用基于关键指标的度量方法。建立包括词错误率、句子错误率、特征错误率、用户反馈率等因素的指标体系,通过大量自动标注数据的质量评估不断优化指标权重,并利用质量反馈机制优化参数,不断提高模型性能。
由于数据自动标注模型主要采用概率模型方法,而采用基于规则逻辑推理的方法对标注质量进行检测将更有效。目前,大数据技术领域中基于规则库的数据清洗技术较为成熟,本发明拟对这些方法进行研究并在此基础上构建“基于规则库的语音自动标注数据质量检测模型”。模型中规则库和关键指标的建立至关重要,将在自建指标的基础上引入用户反馈机制,及时发现标注易错点和常见问题,不断丰富关键指标库的内容,逐步提升标注数据质量检测的准确率。
图1为本发明语音数据自动标注的质量评估方法流程图,如图1所示,该方法包括以下步骤:
步骤一:基于质量关键指标,预先构建自动标注语音数据的质量规则库;
所述质量关键指标包括:词错误率WER、句子错误率SER、偏误特征错误率PAR、用户反馈错误率CER;
步骤二:读取需要被检测的自动标注语音数据,依据所述质量关键指标对所述需要被检测的自动标注语音数据进行质量检测,以完成质量度量;
步骤三:根据所述质量度量的结果更新自动标注语音数据集;
步骤四:将更新后的所述自动标注语音数据集导入所述质量规则库。
优选地,所述步骤一中所述构建自动标注语音数据的质量规则库包括以下步骤:
步骤11,生成基础规则层;根据所述质量关键指标生成基础规则,作为规则库的基础标准;所述基础规则层包括预先构建的规则,质量评估过程中不进行规则导入操作;
步骤12,生成自定规则层;根据业务需求定义规则,分别生成数据标注规则;所述数据标注规则包括:语音数据自动标注规则、小语种数据标注规则;质量评估过程中生成的新规则导入自定规则层进行存储;
步骤13,生成用户规则层;测试用户反馈质量结果,采用统一的文本模板收集反馈意见,进行人工审核后入库生成新规则;
步骤14,规则检测;检测以上所有规则之间在逻辑上是否存在冲突,对有逻辑冲突的规则进行修改后再进行检测,直到所有逻辑冲突消失;
步骤15:将检测完成的规则库作为所述质量规则库。
其中,所述步骤13包括以下步骤:
步骤131:预先给定规则模板,用于当测试用户发现自动标注语音数据集质量问题时填写模板并反馈;采用所述规则模板生成的用户反馈可直接读取并导入所述质量规则库;
步骤132:人工审核反馈意见的规范性和合理性,审核通过,则导入所述质量规则库,否则不导入。
优选地,所述步骤二包括以下步骤:
步骤21:获取所述所述需要被检测的自动标注语音数据,分别将数据中对词进行标注、句子进行标注、偏误特征进行标注的标签分离出来,存储为词标注集、句子标注集和偏误标注集;
步骤22:词标注集与所述质量规则库中的词错误率规则进行逐一比对,分别记录标注错误词数量,再计算词错误率并记录错误位置和类型;
步骤23:句子标注集与所述质量规则库中的句子错误率规则进行逐一比对,记录标注错误句子的数量,再计算句子错误率并记录错误位置和类型;
步骤24:偏误标注集与所述质量规则库中的偏误特征规则进行逐一比对,记录未标注偏误特征的句子数量,再计算偏误特征未标注率并记录错误位置和类型;
步骤25:分别将上述词标注集、句子标注集和偏误标注集与用户反馈错误规则进行逐一比对,记录通过比对发现的错误,再计算用户反馈错误率并记录错误位置和类型;
步骤26:按上述词错误率、句子错误率、偏误特征未标注率和用户反馈错误率进行公式计算,获得每一个自动标注语音数据集的质量评分;
其中,质量评分公式为:
优选地,所述词错误率计算为:WER=(S+D+I)/N,S表示需要替换的标注错误词数,D表示需要删除的标注错误词数,I表示需要插入的标注错误词数,N表示标注词汇总量;对应基础规则层和自定规则层;
所述句子错误率计算为:SER=EN/TN,EN表示标注错误的句子数,若句子中有词标注错误则判断为该句子错误,TN表示标注的句子总数;对应基础规则层和自定规则层;
所述偏误特征错误率计算为:PAR=AN/TN,其中AN表示未标注偏误特征的句子数量,TN表示规则库中的偏误特征总数;对应基础规则层和自定规则层;
所述用户反馈错误率计算为:CER=(w1*B1+w2*B2+w3*B3)/N,其中B1、B2、B3分别表示在用户反馈错误规则中该样本数据的词错误标注数量、句子错误数量和偏误特征错误数量,w1、w2、w3表示对应的权重,N表示该样本数据中三类错误的总和;对应用户规则层。
优选地,所述步骤三包括:
步骤31:设置质量阈值,如果质量评分大于阈值则不进行更新;
步骤32:若质量评分小于质量阈值,则进行更新处理;按照质量评分过程中记录的错误位置和类型,分别对自动标注语音数据进行标签删除、替换和插入处理;
步骤33:更新处理后再次进行质量评估,直至质量评分大于阈值。
优选地,所述步骤四包括:
步骤41:将自动标注语音数据集评估过程中分离并记录下来的标签进行分类存储;
步骤42:按照预先给定规则模板,将所述分类标签转换为规则模板的格式,生成新规则;
步骤43:将上述新规则导入质量规则库的自定规则层进行存储。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种语音数据自动标注的质量评估方法,其特征在于,包括以下步骤:
步骤一:基于质量关键指标,预先构建自动标注语音数据的质量规则库;
所述质量关键指标包括:词错误率WER、句子错误率SER、偏误特征错误率PAR、用户反馈错误率CER;
步骤二:读取需要被检测的自动标注语音数据,依据所述质量关键指标对所述需要被检测的自动标注语音数据进行质量检测,以完成质量度量;
步骤三:根据所述质量度量的结果更新自动标注语音数据集;
步骤四:将更新后的所述自动标注语音数据集转换为新规则导入所述质量规则库。
2.根据权利要求1所述的语音数据自动标注的质量评估方法,其特征在于,步骤一中所述构建自动标注语音数据的质量规则库包括以下步骤:
步骤11,生成基础规则层;根据所述质量关键指标生成基础规则,作为规则库的基础标准;所述基础规则层包括预先构建的规则,质量评估过程中不进行规则导入操作;
步骤12,生成自定规则层;根据业务需求定义规则,分别生成数据标注规则;所述数据标注规则包括:语音数据自动标注规则、小语种数据标注规则;质量评估过程中生成的新规则导入自定规则层进行存储;
步骤13,生成用户规则层;测试用户反馈质量结果,采用统一的文本模板收集反馈意见,进行人工审核后入库生成新规则;
步骤14,规则检测;检测以上所有规则之间在逻辑上是否存在冲突,对有逻辑冲突的规则进行修改后再进行检测,直到所有逻辑冲突消失;
步骤15:将检测完成的规则库作为所述质量规则库。
3.根据权利要求2所述的语音数据自动标注的质量评估方法,其特征在于,所述步骤二包括以下步骤:
步骤21:获取所述所述需要被检测的自动标注语音数据,分别将数据中对词进行标注、句子进行标注、偏误特征进行标注的标签分离出来,存储为词标注集、句子标注集和偏误标注集;
步骤22:词标注集与所述质量规则库中的词错误率规则进行逐一比对,分别记录标注错误词数量,再计算词错误率并记录错误位置和类型;
步骤23:句子标注集与所述质量规则库中的句子错误率规则进行逐一比对,记录标注错误句子的数量,再计算句子错误率并记录错误位置和类型;
步骤24:偏误标注集与所述质量规则库中的偏误特征规则进行逐一比对,记录未标注偏误特征的句子数量,再计算偏误特征未标注率并记录错误位置和类型;
步骤25:分别将上述词标注集、句子标注集和偏误标注集与用户反馈错误规则进行逐一比对,记录通过比对发现的错误,再计算用户反馈错误率并记录错误位置和类型;
步骤26:按上述词错误率、句子错误率、偏误特征未标注率和用户反馈错误率进行公式计算,获得每一个自动标注语音数据集的质量评分;
其中,质量评分公式为:
4.根据权利要求3所述的语音数据自动标注的质量评估方法,其特征在于,所述词错误率计算为:WER=(S+D+I)/N,S表示需要替换的标注错误词数,D表示需要删除的标注错误词数,I表示需要插入的标注错误词数,N表示标注词汇总量;对应基础规则层和自定规则层;
所述句子错误率计算为:SER=EN/TN,EN表示标注错误的句子数,若句子中有词标注错误则判断为该句子错误,TN表示标注的句子总数;对应基础规则层和自定规则层;
所述偏误特征错误率计算为:PAR=AN/TN,其中AN表示未标注偏误特征的句子数量,TN表示规则库中的偏误特征总数;对应基础规则层和自定规则层;
所述用户反馈错误率计算为:CER=(w1*B1+w2*B2+w3*B3)/N,其中B1、B2、B3分别表示在用户反馈错误规则中该样本数据的词错误标注数量、句子错误数量和偏误特征错误数量,w1、w2、w3表示对应的权重,N表示该样本数据中三类错误的总和;对应用户规则层。
5.根据权利要求2所述的语音数据自动标注的质量评估方法,其特征在于,所述步骤13包括以下步骤:
步骤131:预先给定规则模板,用于当测试用户发现自动标注语音数据集质量问题时填写模板并反馈;采用所述规则模板生成的用户反馈可直接读取并导入所述质量规则库;
步骤132:人工审核反馈意见的规范性和合理性,审核通过,则导入所述质量规则库,否则不导入。
6.根据权利要求3所述的语音数据自动标注的质量评估方法,其特征在于,所述步骤三包括:
步骤31:设置质量阈值,如果质量评分大于阈值则不进行更新;
步骤32:若质量评分小于质量阈值,则进行更新处理;按照质量评分过程中记录的错误位置和类型,分别对自动标注语音数据进行标签删除、替换和插入处理;
步骤33:更新处理后再次进行质量评估,直至质量评分大于阈值。
7.根据权利要求2所述的语音数据自动标注的质量评估方法,其特征在于,所述步骤四包括:
(1)将自动标注语音数据集评估过程中分离并记录下来的标签进行分类存储;
(2)按照预先给定规则模板,将所述分类标签转换为规则模板的格式,生成新规则;
(3)将上述新规则导入质量规则库的自定规则层进行存储。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011312501.5A CN112435651B (zh) | 2020-11-20 | 2020-11-20 | 一种语音数据自动标注的质量评估方法 |
US17/530,495 US11790166B2 (en) | 2020-11-20 | 2021-11-19 | Quality assessment method for automatic annotation of speech data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011312501.5A CN112435651B (zh) | 2020-11-20 | 2020-11-20 | 一种语音数据自动标注的质量评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112435651A true CN112435651A (zh) | 2021-03-02 |
CN112435651B CN112435651B (zh) | 2023-05-02 |
Family
ID=74692765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011312501.5A Active CN112435651B (zh) | 2020-11-20 | 2020-11-20 | 一种语音数据自动标注的质量评估方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11790166B2 (zh) |
CN (1) | CN112435651B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284509A (zh) * | 2021-05-06 | 2021-08-20 | 北京百度网讯科技有限公司 | 语音标注的正确率获取方法、装置和电子设备 |
CN114441029A (zh) * | 2022-01-20 | 2022-05-06 | 深圳壹账通科技服务有限公司 | 语音标注系统的录音噪音检测方法、装置、设备及介质 |
CN115440238A (zh) * | 2022-08-16 | 2022-12-06 | 广西壮族自治区通信产业服务有限公司技术服务分公司 | 一种语音自动标注数据中的噪音筛选方法及系统 |
CN117687887A (zh) * | 2024-01-04 | 2024-03-12 | 南京一八零九网络科技有限公司 | 一种基于神经网络的数据安全预警系统及方法 |
CN117786465A (zh) * | 2024-02-23 | 2024-03-29 | 北京中科闻歌科技股份有限公司 | 一种领域预训练模型数据构建方法和系统 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220198323A1 (en) * | 2020-12-22 | 2022-06-23 | Collibra Nv | System for preparing machine learning training data for use in evaluation of term definition quality |
US20240264986A1 (en) * | 2023-01-18 | 2024-08-08 | Google Llc | Automated, In-Context Data Quality Annotations for Data Analytics Visualization |
CN118094234B (zh) * | 2024-04-26 | 2024-07-23 | 广东电网有限责任公司 | 一种基于多源电力数据的自动数据标注方法及装置 |
CN118608773B (zh) * | 2024-08-07 | 2024-10-08 | 宁波博登智能科技有限公司 | 一种获取连续帧点云目标检测真值的协同标注系统和方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101154241A (zh) * | 2007-10-11 | 2008-04-02 | 北京金山软件有限公司 | 一种数据检索方法及一种数据检索系统 |
CN101727903A (zh) * | 2008-10-29 | 2010-06-09 | 中国科学院自动化研究所 | 基于多特征和多系统融合的发音质量评估和错误检测方法 |
CN105279249A (zh) * | 2015-09-30 | 2016-01-27 | 北京奇虎科技有限公司 | 一种网站中兴趣点数据的置信度的判定方法和装置 |
CN106570525A (zh) * | 2016-10-26 | 2017-04-19 | 昆明理工大学 | 一种基于贝叶斯网络的在线商品评价质量评估方法 |
CN107133214A (zh) * | 2017-05-05 | 2017-09-05 | 中国计量大学 | 一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法 |
CN107808661A (zh) * | 2017-10-23 | 2018-03-16 | 中央民族大学 | 一种基于协作式批量主动学习的藏语语音语料标注方法及系统 |
CN109670727A (zh) * | 2018-12-30 | 2019-04-23 | 湖南网数科技有限公司 | 一种基于众包的分词标注质量评估系统及评估方法 |
CN109753715A (zh) * | 2015-12-30 | 2019-05-14 | 成都信息工程大学 | 可视化公差标注系统 |
CN110210029A (zh) * | 2019-05-30 | 2019-09-06 | 浙江远传信息技术股份有限公司 | 基于垂直领域的语音文本纠错方法、系统、设备及介质 |
CN111554272A (zh) * | 2020-04-27 | 2020-08-18 | 天津大学 | 一种面向中文语音识别的语言模型建模方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7548847B2 (en) * | 2002-05-10 | 2009-06-16 | Microsoft Corporation | System for automatically annotating training data for a natural language understanding system |
US20070245308A1 (en) * | 2005-12-31 | 2007-10-18 | Hill John E | Flexible XML tagging |
JP2017511914A (ja) * | 2014-01-28 | 2017-04-27 | ゾモル・ツォルツィン・ゲーエムベーハーSomol Zorzin GmbH | テキストの意味を自動検出して一義性を自動測定する方法 |
US9037967B1 (en) * | 2014-02-18 | 2015-05-19 | King Fahd University Of Petroleum And Minerals | Arabic spell checking technique |
DK201670539A1 (en) * | 2016-03-14 | 2017-10-02 | Apple Inc | Dictation that allows editing |
US11620566B1 (en) * | 2017-08-04 | 2023-04-04 | Grammarly, Inc. | Artificial intelligence communication assistance for improving the effectiveness of communications using reaction data |
WO2020072759A1 (en) * | 2018-10-03 | 2020-04-09 | Visteon Global Technologies, Inc. | A voice assistant system for a vehicle cockpit system |
JP2022547750A (ja) * | 2019-09-16 | 2022-11-15 | ドキュガミ インコーポレイテッド | クロスドキュメントインテリジェントオーサリングおよび処理アシスタント |
US11721322B2 (en) * | 2020-02-28 | 2023-08-08 | Rovi Guides, Inc. | Automated word correction in speech recognition systems |
-
2020
- 2020-11-20 CN CN202011312501.5A patent/CN112435651B/zh active Active
-
2021
- 2021-11-19 US US17/530,495 patent/US11790166B2/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101154241A (zh) * | 2007-10-11 | 2008-04-02 | 北京金山软件有限公司 | 一种数据检索方法及一种数据检索系统 |
CN101727903A (zh) * | 2008-10-29 | 2010-06-09 | 中国科学院自动化研究所 | 基于多特征和多系统融合的发音质量评估和错误检测方法 |
CN105279249A (zh) * | 2015-09-30 | 2016-01-27 | 北京奇虎科技有限公司 | 一种网站中兴趣点数据的置信度的判定方法和装置 |
CN109753715A (zh) * | 2015-12-30 | 2019-05-14 | 成都信息工程大学 | 可视化公差标注系统 |
CN106570525A (zh) * | 2016-10-26 | 2017-04-19 | 昆明理工大学 | 一种基于贝叶斯网络的在线商品评价质量评估方法 |
CN107133214A (zh) * | 2017-05-05 | 2017-09-05 | 中国计量大学 | 一种基于评论信息的产品需求偏好特征挖掘及其质量评估方法 |
CN107808661A (zh) * | 2017-10-23 | 2018-03-16 | 中央民族大学 | 一种基于协作式批量主动学习的藏语语音语料标注方法及系统 |
CN109670727A (zh) * | 2018-12-30 | 2019-04-23 | 湖南网数科技有限公司 | 一种基于众包的分词标注质量评估系统及评估方法 |
CN110210029A (zh) * | 2019-05-30 | 2019-09-06 | 浙江远传信息技术股份有限公司 | 基于垂直领域的语音文本纠错方法、系统、设备及介质 |
CN111554272A (zh) * | 2020-04-27 | 2020-08-18 | 天津大学 | 一种面向中文语音识别的语言模型建模方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284509A (zh) * | 2021-05-06 | 2021-08-20 | 北京百度网讯科技有限公司 | 语音标注的正确率获取方法、装置和电子设备 |
CN113284509B (zh) * | 2021-05-06 | 2024-01-16 | 北京百度网讯科技有限公司 | 语音标注的正确率获取方法、装置和电子设备 |
CN114441029A (zh) * | 2022-01-20 | 2022-05-06 | 深圳壹账通科技服务有限公司 | 语音标注系统的录音噪音检测方法、装置、设备及介质 |
CN115440238A (zh) * | 2022-08-16 | 2022-12-06 | 广西壮族自治区通信产业服务有限公司技术服务分公司 | 一种语音自动标注数据中的噪音筛选方法及系统 |
CN117687887A (zh) * | 2024-01-04 | 2024-03-12 | 南京一八零九网络科技有限公司 | 一种基于神经网络的数据安全预警系统及方法 |
CN117786465A (zh) * | 2024-02-23 | 2024-03-29 | 北京中科闻歌科技股份有限公司 | 一种领域预训练模型数据构建方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
US11790166B2 (en) | 2023-10-17 |
CN112435651B (zh) | 2023-05-02 |
US20220164531A1 (en) | 2022-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112435651B (zh) | 一种语音数据自动标注的质量评估方法 | |
CN111914532B (zh) | 一种中文作文评分方法 | |
WO2024131111A1 (zh) | 一种智能写作方法、装置、设备及非易失性可读存储介质 | |
WO2021170085A1 (zh) | 标注方法、关系抽取方法、存储介质和运算装置 | |
CN116361472B (zh) | 社交网络评论热点事件舆情大数据分析方法 | |
CN101777044B (zh) | 利用语句结构信息的机器翻译自动评测系统及实现方法 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN113033185B (zh) | 标准文本纠错方法、装置、电子设备和存储介质 | |
CN115034218A (zh) | 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法 | |
CN112966708A (zh) | 一种基于语义相似度的中文众包测试报告聚类方法 | |
CN115033659A (zh) | 基于深度学习的子句级自动摘要模型系统及摘要生成方法 | |
CN110634546A (zh) | 电子病历文本规范化检测方法 | |
CN110889274B (zh) | 信息质量评估方法、装置、设备及计算机可读存储介质 | |
CN114792140A (zh) | 一种基于知识图谱的变电站缺陷分析系统 | |
WO2021012684A1 (zh) | 市场情绪监测体系建立方法和系统 | |
CN115757815A (zh) | 知识图谱的构建方法、装置及存储介质 | |
CN111046663A (zh) | 一种中文表单的智能校正方法 | |
CN113971403B (zh) | 一种考虑文本语义信息的实体识别方法及系统 | |
CN114239553A (zh) | 基于人工智能的日志审核方法、装置、设备及介质 | |
CN114676207A (zh) | 一种用于金融长文本复核系统的金融数据勾稽关系审核模块 | |
CN115687334B (zh) | 数据质检方法、装置、设备及存储介质 | |
CN111341404A (zh) | 一种基于ernie模型的电子病历数据组解析方法及系统 | |
CN118246431B (zh) | 一种支持文本语义查重查新的评估指标体系模型构建方法 | |
CN112836047B (zh) | 一种基于句子语义替换的电子病历文本数据增强方法 | |
CN117972074B (zh) | 一种个性化学习推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |