CN109830230A - 一种基于自我学习算法的数据标注方法及装置 - Google Patents

一种基于自我学习算法的数据标注方法及装置 Download PDF

Info

Publication number
CN109830230A
CN109830230A CN201910237084.3A CN201910237084A CN109830230A CN 109830230 A CN109830230 A CN 109830230A CN 201910237084 A CN201910237084 A CN 201910237084A CN 109830230 A CN109830230 A CN 109830230A
Authority
CN
China
Prior art keywords
text
mark
data
self
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910237084.3A
Other languages
English (en)
Other versions
CN109830230B (zh
Inventor
余伟
赵静芝
任丽
胡发泽
徐旭东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ping An Comprehensive Financial Services Co Ltd Shanghai Branch
Original Assignee
Shenzhen Ping An Comprehensive Financial Services Co Ltd Shanghai Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ping An Comprehensive Financial Services Co Ltd Shanghai Branch filed Critical Shenzhen Ping An Comprehensive Financial Services Co Ltd Shanghai Branch
Priority to CN201910237084.3A priority Critical patent/CN109830230B/zh
Publication of CN109830230A publication Critical patent/CN109830230A/zh
Application granted granted Critical
Publication of CN109830230B publication Critical patent/CN109830230B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及语音信号处理领域,更具体的说,涉及一种基于自我学习算法的数据标注方法及装置。该方法包括:语音识别步骤;文本对比步骤,将多篇识别文本进行对比,标注差异部分文本,并进行断句处理;自然语言处理算法评价步骤;自然语言处理算法预测步骤;数据标注步骤,参考差异部分原始识别文本与预测文本,对最优预标注文本进行多次数据标注,形成多组数据标注文本;质检步骤;自我学习步骤,将最优标注文本与对应音频信号输入语音识别引擎,语音识别引擎基于自我学习算法迭代训练语音识别。本发明方法及装置,大大节省了数据标注时长,有效提升了数据标注质量和数据标注效率,为各类人工智能产品提供训练支持,提升智能产品生产效果。

Description

一种基于自我学习算法的数据标注方法及装置
技术领域
本发明涉及语音信号处理领域,更具体的说,涉及一种基于自我学习算法的数据标注方法及装置。
背景技术
伴随人工智能(AI,Artificial Intelligence)技术的发展,基于ASR技术的语音机器人、坐席助手、语音质检等智能产品得到了大量的推广。ASR,英文的全称是AutomatedSpeech Recognition,即自动语音识别技术,是一种将人的语音转换为文本的技术。ASR的准确率将直接影响智能产品效果。
自我学习算法,必须有大量的训练集和测试集,测试集和训练集里的数据必须是支持算法可用的标注数据,而将采集的原始数据变成算法可用数据的过程叫做数据标注。即对采集来的文本、图片、语音数据进行梳理、整理、定性的过程。
通过自我学习算法提升ASR的准确率,需要大量优质的语音标注数据使ASR引擎可以通过学习从而形成更好的模型,语音标注工作应运而生。
Google智能引擎训练团队1万多人,科大训练中心固定团队1000多人,固定的专有的AI数据标注团队迅速崛起,AI数据标注训练需求成倍扩张,但是目前市场上的语音标注产品是人工手动转写文本,编辑角色,耗时多,易出错,标注效率低。语音标注本身是一项枯燥的工作,语音是时序信号,所以需要的人力工时相对很多,工作人员需要对大量数据不断进行重复劳动,容易产生疲惫导致数据的一致性很难保证。如何提高数据标注的正确率是语音识别的关键问题。
同时,语音数据标注的速度决定了AI产品的研发速度,提高标注的效率也就显得很重要。为了节约人力成本,加快标注速度,提高标注质量,需要开发一套新的语音数据标注方法及对应装置,将标注工作简单化、标准化,为标注人员尽量减少一些重复简单的劳动,提高标注效率与质量。
发明内容
本发明的目的是提供一种基于自我学习算法的数据标注方法及装置,解决目前数据标注中智能化程度低、人力工时长、效率低和质量差的问题。
为了实现上述目的,本发明提供了一种基于自我学习算法的数据标注方法,包括以下步骤:
语音识别步骤,语音识别引擎模块中的多个语音识别引擎接收并识别音频信号,进行音频转文字处理,输出识别文本;
文本对比步骤,将输入的多篇识别文本进行对比,标注差异部分文本,并进行断句处理;
自然语言处理算法评价步骤,将差异部分文本通过自然语言处理算法进行语义通顺性评价,选择最优部分,将识别文本重新拼接形成最优预标注文本,并提供差异部分原始识别文本;
自然语言处理算法预测步骤,将差异部分文本通过自然语言处理算法进行预测,并提供预测文本;
数据标注步骤,参考差异部分原始识别文本与预测文本,对最优预标注文本进行多次数据标注,形成多组数据标注文本;
质检步骤,将多组数据标注文本进行文本对比,对差异部分文本进行质检,标注差异部分文本,形成最优标注文本;
自我学习步骤,将最优标注文本与对应音频信号输入语音识别引擎,语音识别引擎基于自我学习算法迭代训练语音识别。
在一实施例中,所述数据标注步骤和质检步骤中,采用可信的外部检验方式进行数据标注和质检。
在一实施例中,所述可信的外部检验方式是人工检验方式。
在一实施例中,所述自然语言处理算法预测步骤之后和数据标注步骤之前,还包括任务分配流转步骤,通过自主领取或系统自动分配的方式,将最优预标注文本进行流转分配。
在一实施例中,所述数据标注步骤,具体包括,将最优预标注文本的差异部分和共同部分用不同的显示方式,对差异部分文本差异显示,参考预测文本与差异部分原始识别文本,经多个可信的外部检验对差异部分文本进行数据标注,形成多组数据标注文本。
在一实施例中,所述语音识别步骤中的语音识别引擎数量至少为2个,所述数据标注步骤中为两个可信的外部检验进行数据标注。
在一实施例中,所述质检步骤,还包括,在将多组数据标注文本进行文本对比之后,通过自然语言处理算法对差异部分文本进行语义通顺性评价,选择最优部分,辅助质检。
在一实施例中,所述质检步骤之后和自我学习步骤之前,还包括二次质检步骤,采用批次抽检或全部质检的方式,对质检步骤中形成的最优标注文本进行二次质检,对数据标注质量进行检查,若不合格,则重新进行质检步骤。
在一实施例中,所述语音识别步骤之前,还包括音频处理步骤,将原始音频进行格式转换,输出语音识别引擎能够识别处理的音频信号。
为了实现上述目的,本发明提供了一种基于自我学习算法的数据标注装置,包括:
语音识别引擎模块,输出端与文本对比模块输入端连接,由多个语音识别引擎组成,分别接收并识别音频信号,进行音频转文字处理,输出对应的识别文本;
文本对比模块,输入端与语音识别引擎模块及语音标注系统连接,输出端与自然语言处理算法模块输入端连接,将输入的文本进行对比,标注差异部分并断句,输出标注文本;
自然语言处理算法模块,输入端与文本对比模块连接,输出端与语音标注系统连接,对输入的标注文本的差异部分进行语义通顺性评价,选择最优部分,重新拼接形成最优预标注文本,对标注文本的差异部分进行预测,形成预测文本,并与最优预标注文本、差异部分原始识别文本一并输出;
语音标注系统,包括数据标注单元和质检单元,输入端与自然语言处理算法模块连接,输出端与文本对比模块、语音识别引擎模块连接,
数据标注单元对最优预标注文本进行数据标注,形成数据标注文本,
质检单元对数据标注文本的质量进行检查,对差异部分文本进行标注,形成最优标注文本,
将最优标注文本与对应目标格式音频信号输入语音识别引擎模块,语音识别引擎模块基于自我学习算法迭代训练语音识别。
在一实施例中,所述语音标注系统,数据标注单元采用可信的外部检验方式对最优预标注文本进行数据标注,质检单元采用可信的外部检验方式对数据标注文本的质量进行检查。
在一实施例中,所述可信的外部检验方式是人工检验方式。
在一实施例中,所述语音识别引擎模块中的语音识别引擎数量至少为2个,所述数据标注单元为两个可信的外部检验进行数据标注。
在一实施例中,所述语音标注系统的数据标注单元,将最优预标注文本的差异部分和共同部分用不同的显示方式,对差异部分文本差异显示,同时显示预测文本与差异部分原始识别文本,经多个可信的外部检验对差异部分文本进行数据标注,形成多组数据标注文本后输出。
在一实施例中,所述文本对比模块接收多组数据标注文本,进行文本对比标注差异部分,自然语言处理算法模块对差异部分进行语义通顺性评价选出最优部分后,将形成的优化的数据标注文本送到质检单元进行质检。
在一实施例中,所述数据标注装置,还包括音频处理模块,输出端与语音识别引擎模块连接,将原始音频进行格式转换,输出语音识别引擎能够识别处理的目标格式音频信号;
所述语音标注系统,与音频处理模块连接,还包括音频上传单元,为音频处理模块提供原始音频。
在一实施例中,所述语音标注系统,还包括任务流转分配单元,通过自主领取或系统自动分配的方式,将自然语言处理算法模块输出的最优预标注文本进行流转分配到数据标注单元。
本发明提供的基于自我学习算法的数据标注方法及装置,大大节省了数据标注时长,有效提升了数据标注质量,自动化任务分配以及智能化管理,有效的改善了数据标注效率,为语音机器人、智能客服系统等各类人工智能产品提供训练支持,提升智能产品生产效果。
本发明具体具有以下有益效果:
1)通过双ASR引擎自动转写与文本比对模块,标注人员只需针对差异部分的识别文本进行标注,大大节省了标注时间,提高了标注效率。
2)增加NLP对差异部分评价模块,针对差异部分的识别文本进行评价,选择最优翻译结果重新拼接形成预标注结果,大大提过ASR准确率。
3)增加NLP对差异部分预测模块,对差异部分利用NLP语言模型进行智能预测,标注人员只需点选标注,不需要打字,提高了标注效率。
4)增加双人工标注,双人工标注准确率很高,质检人员只需针对差异部分重点质检,大大节省质检时间,提高质检效率,保证了标注质量。
附图说明
本发明上述的以及其他的特征、性质和优势将通过下面结合附图和实施例的描述而变的更加明显,在附图中相同的附图标记始终表示相同的特征,其中:
图1揭示了根据本发明一实施例的基于自我学习算法的数据标注方法的流程图;
图2揭示了根据本发明一实施例的基于自我学习算法的数据标注方法的信息流示意图;
图3揭示了根据本发明一实施例的基于自我学习算法的数据标注装置的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释发明,并不用于限定发明。
本发明实施例提供的数据标注方法的执行主体(以下简称系统),可以是本发明实施例提供的数据标注装置,或者集成了所述数据标注装置的终端设备(例如,智能手机、平板电脑等)或服务器,该系统可以采用硬件或软件实现。
参考图1和图2所示,图1揭示了根据本发明的一实施例的基于自我学习算法的数据标注方法的流程图,图2揭示了根据本发明一实施例的基于自我学习算法的数据标注方法的信息流示意图。
该基于自我学习算法的数据标注方法,包括如下的步骤:
S101、音频处理步骤,将原始音频进行格式转换,输出语音识别引擎能够识别处理的音频信号。语音识别引擎以下简称ASR引擎。当原始音频格式不能得到ASR引擎的支持时,通过音频处理步骤进行相应的格式转换。如果原始音频格式能达到ASR引擎的支持,则音频处理步骤并不是必要的,可以跳过,不进行相应的操作。
S102、语音识别步骤,ASR引擎模块中的多个ASR引擎接收并识别音频信号,进行音频转文字处理,输出识别文本。ASR引擎数量至少为2个,分别对同一个音频信号进行音频转文字处理,相应的,形成多篇识别文本供后续处理。
在图2所示的实施例中,ASR引擎模块中有2个ASR引擎,分别为ASR1引擎和ASR2引擎,对同一个音频信号进行音频转文字处理,形成2个识别文本供后续处理。
S103、文本对比步骤,将输入的多篇识别文本进行对比,标注差异部分文本,并进行断句处理。
在图2所示的实施例中,将输入的ASR1引擎和ASR2引擎的2个识别文本进行对比,标注2个文本的差异部分,并对2个识别文本进行断句处理。
在图2所示的实施例中,通过步骤S102双ASR引擎自动转写与步骤S103的文本比对,提升至少80%标注效率:测试结果表明两个ASR准确率基本上80%以上,相同率会在80%左右,后续的数据标注步骤只需针对差异部分的20%的识别文本进行标注,大大节省了标注时间,提高了标注效率。
S104、自然语言处理算法评价步骤,将差异部分文本通过自然语言处理算法进行语义通顺性评价,选择最优部分,将识别文本重新拼接形成最优预标注文本,并提供差异部分原始识别文本。
自然语言处理(Natural language processing),以下简称NLP,作为一种人工智能方法,能够处理机器和人类自然语言之间的交互,即NLP算法帮助计算机机器以各种形式使用自然人类语言进行交流,包括进行分析、理解、改变或生成自然语言。
本步骤中通过现有的NLP算法模型对差异部分文本的语音通顺性进行评价,选择最优的词组,将识别文本进行重新拼接,形成最优预标注文本,对于差异部分的原始识别文本同时一并输出,作为后续数据标注的参考。对差异部分文本的语音通顺性进行的评价方式可以是打分及其他可视化方式。
在图2所示的实施例中,与最优预标注文本一并输出的差异部分的原始识别文本包括未被选用的另一个ASR引擎的差异部分识别文本。
本步骤大大提升ASR引擎的识别效果以及对预标注数据的准确率,更好的辅助后续的数据标注步骤。根据图2所示的实施例,增加NLP对差异部分评价,针对差异部分的20%的识别文本进行评价,选择最优翻译结果重新拼接形成预标注结果,ASR准确率提高10%左右。
S105、NLP算法预测步骤,将差异部分文本通过NLP算法进行预测,并提供预测文本。通过现有的NLP模型对差异部分文本进行预测,形成预测文本一并输出。通过对差异部分文本利用NLP算法模型进行智能预测,标注人员只需点选标注,不需要打字,提高了标注效率。
在步骤S104、S105中,NLP算法是关键,早期的NLP算法涉及更基于规则的方法,目前NLP算法是主要基于深度学习。然而本技术方案中,现有技术的NLP算法模型都可以实现该步骤所要求的功能。原因在于,步骤S104和S105为预处理步骤,起辅助作用,不同性能的NLP模型形成的最优预标注文本可能并不一致,但是由于对差异部分的原始文本并没有做丢弃,后续数据标注步骤仍可据此做相应的修正,进行进一步的操作。
通过S104、S105步中利用NLP模型对识别文本的差异部分的预处理,为后续步骤提供了最优预标注文本,同时一并提供差异部分的原始识别文本和预测文本,为后续数据标注节省了标注时间,大大提高了标注效率。
S106、任务分配流转步骤,通过自主领取或系统自动分配的方式,将最优预标注文本进行流转分配。自主领取方式是数据标注方主动按一定的规则自主领取任务,进行数据标注。系统自动分配方式是为系统按一定的规则分配任务到数据标注方,进行数据标注。
该步骤在数据标注任务较多时,能及时高效的对数据标注任务进行管理。标注任务较少或在一些简单的数据标注装置中,该步骤并不是必要的,可以跳过,不进行相应的操作。
S107、数据标注步骤,参考差异部分原始识别文本与预测文本,对最优预标注文本进行多次数据标注,形成多组数据标注文本。本步骤中采用可信的外部检验方式进行数据标注。在一实施例中,可信的外部检验方式是人工检验方式。在一实施例中,可信的外部检验方式是采用一定检验模型的人工智能方式。
将最优预标注文本的差异部分和共同部分用不同的显示方式,对差异部分文本差异显示,参考预测文本与差异部分原始识别文本,经多个可信的外部检验对差异部分文本进行数据标注,形成多组数据标注文本。在一实施例中采用2个可信的外部检验对差异部分文本进行数据标注,形成2组数据标注文本。
在图2所示的实施例中,数据标注步骤,将最优预标注文本的差异部分和共同部分用不同的颜色显示,差异部分文本高亮显示,采用人工检验方式,标注人员参考预测文本和另一个ASR引擎的识别文本,对差异部分文本进行标注。标注人员只需点选标注,不需要打字,提高了标注效率。采用双人标注的方式,形成2组数据标注文本。根据图2所示的实施例,测试结果表明双人标注准确率基本上90%以上,差异部分只有10%,后续质检步骤只需针对不到10%差异部分重点质检,大大节省质检时间,提高质检效率,保证了标注质量。
S108、质检步骤,将多组数据标注文本进行文本对比,对差异部分文本进行质检,标注差异部分文本,形成最优标注文本。本步骤中采用可信的外部检验方式进行数据标注。在一实施例中,可信的外部检验方式是人工检验方式。在另一实施例中,可信的外部检验方式是采用一定检验模型的人工智能方式。
在将多组数据标注文本进行文本对比之后,可以通过NLP模型对差异部分文本进行语义通顺性评价,选择最优的词组,形成优化的数据标注文本,辅助质检。评价方式可以是打分及其他可视化方式。通过NLP模型对数据标注的质量进行预测,大大提高了质检的质量与效率。
在图2所述的实施例中,质检步骤又称为一次质检步骤。一次质检步骤,首先对双人标注的数据标注文本进行对比,该对比为系统自动进行对比,再通过NLP模型对双人标注的数据标注文本的差异部分进行评价处理后,采用人工检验方式,由质检人员对数据标注文本的差异部分再进行标注。该方法大大提升了质检效率,提高了标注的准确率。
S109、二次质检步骤,采用批次抽检或全部质检的方式,对质检步骤中形成的最优标注文本进行二次质检,对数据标注质量进行检查,若不合格,则重新进行质检步骤。数据标注的准确率满足要求,则数据标注质量合格。
本步骤中采用可信的外部检验方式进行数据标注。在一实施例中,可信的外部检验方式是人工检验方式。在另一实施例中,可信的外部检验方式是采用一定检验模型的人工智能方式。
在图2所示的实施例中,二次质检步骤,采用人工检验方式,二检人员对一次质检形成的最优标注文本进行二次检查,采用批次抽检或全部质检的方式,若数据标注的准确率满足要求,则质量合格,否则重新进行一次质检步骤,由一次质检步骤中的质检人员重新进行质检。
二次质检步骤进一步提高了数据标注的准确率。需要明确的是,质检次数的增加显而易见的会进一步提高数据标注的准确率,但也会影响数据标注的效率,本技术方案中,二次质检步骤为较优实施例,既能提高数据标注的准确率,又不会大幅降低数据标注的效率。如果对数据标注的效率有更高的要求,以可能降低数据标注的准确率为代价,也可以不进行二次质检步骤,只进行质检步骤。
S110、自我学习步骤,将最优标注文本与对应音频信号输入ASR引擎,ASR引擎基于自我学习算法迭代训练语音识别。
在图2所示的实施例中,二次质检步骤中质检合格的最优标注数据,与对应音频信号一并输入ASR引擎,通过自我学习算法,自动训练ASR引擎,迭代提升ASR引擎的识别率。
下面提供一种可以实现上述基于自我学习算法的数据标注方法的数据标注装置。如图3所示,图3揭示了根据本发明一实施例的基于自我学习算法的数据标注装置的示意图。该数据标注装置包括语音标注系统301、ASR引擎模块303、NLP算法模块304、文本对比模块305。
ASR引擎模块303,输出端与文本对比模块305输入端连接,由多个ASR引擎组成,分别接收并识别音频信号,进行音频转文字处理,输出对应的识别文本。ASR引擎数量至少为2个。
在图3的实施例中,ASR引擎模块303中有2个ASR引擎,分别为ASR1引擎和ASR2引擎,对同一个音频信号进行音频转文字处理,形成2个识别文本输出到文本对比模块305。
文本对比模块305,输入端与ASR引擎模块303及语音标注系统301连接,输出端与NLP算法模块304输入端连接,将输入的文本进行对比,标注差异部分并断句,输出标注文本。
NLP算法模块304,输入端与文本对比模块连接,输出端与语音标注系统301连接,包括NLP算法预测单元和NLP算法评价单元。NLP算法评价单元对输入的标注文本的差异部分通过NLP算法模型进行语义通顺性评价,选择最优部分,重新拼接形成最优预标注文本。NLP算法预测单元对标注文本的差异部分进行预测,形成预测文本,并与最优预标注文本、差异部分原始识别文本一并输出。评价方式可以是打分及其他可视化方式。
语音标注系统301,包括数据标注单元和质检单元,输入端与自然语言处理算法模块连接,输出端与文本对比模块、语音识别引擎模块连接。
数据标注单元采用可信的外部检验方式对最优预标注文本进行数据标注,形成数据标注文本。数据标注单元为两个可信的外部检验进行数据标注。可信的外部检验方式可以是人工检验方式,也可以是采用一定检验模型的人工智能方式等其他方式。
在图3所示的实施例中,数据标注单元将最优预标注文本的差异部分和共同部分用不同的颜色显示,差异部分文本高亮显示,采用人工检验方式,标注人员参考预测文本和另一个ASR引擎的识别文本,对差异部分文本进行标注。采用双人标注的方式,形成2组数据标注文本。文本对比模块接收2组数据标注文本,进行文本对比标注差异部分,NLP算法模块对差异部分进行语义通顺性评价选出最优部分后,将形成的最终数据标注文本送到质检单元进行质检。
质检单元对数据标注文本的质量进行检查,对差异部分文本进行标注,形成最优标注文本,将最优标注文本与对应目标格式音频信号输入语音识别引擎模块。
质检单元采用可信的外部检验方式对数据标注文本的质量进行检查。可信的外部检验方式可以是人工检验方式,也可以是采用一定检验模型的人工智能方式等其他方式。质检单元为两个可信的外部检验进行质检,在第一个可信的外部检验完成质检后输出最优标注文本后,第二个可信的外部检验对最优标注文本进行二次质检,若不合格,则返回第一个可信的外部检验进行质检。
更进一步的,该数据标注装置,还包括音频处理模块302,输出端与ASR引擎模块303连接,将原始音频进行格式转换,输出ASR引擎能够识别处理的目标格式音频信号。
更进一步的,语音标注系统301,与音频处理模块302连接,还包括音频上传单元,为音频处理模块提供原始音频。在一实施例中,原始音频通过可视界面上传至音频处理模块。原始音频可以是录音或其他数据音频。
更进一步的,语音标注系统301,还包括任务流转分配单元,通过自主领取或系统自动分配的方式,将NLP算法模块输出的最优预标注文本进行流转分配到数据标注单元。
本发明提供的基于自我学习算法的数据标注方法及装置,大大节省了数据标注时长、有效提升了数据标注质量,自动化任务分配以及智能化管理,有效的改善了数据标注效率,为语音机器人、智能客服系统等各类人工智能产品提供训练支持,提升智能产品生产效果。
本发明具体具有以下有益效果:
1)通过双ASR引擎自动转写与文本比对模块,标注人员只需针对差异部分的识别文本进行标注,大大节省了标注时间,提高了标注效率。
2)增加NLP对差异部分评价模块,针对差异部分的识别文本进行评价,选择最优翻译结果重新拼接形成预标注结果,大大提过ASR准确率。
3)增加NLP对差异部分预测模块,对差异部分利用NLP语言模型进行智能预测,标注人员只需点选标注,不需要打字,提高了标注效率。
4)增加双人工标注,双人工标注准确率很高,质检人员只需针对差异部分重点质检,大大节省质检时间,提高质检效率,保证了标注质量。
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
上述实施例是提供给熟悉本领域内的人员来实现或使用本发明的,熟悉本领域的人员可在不脱离本发明的发明思想的情况下,对上述实施例做出种种修改或变化,因而本发明的保护范围并不被上述实施例所限,而应该是符合权利要求书提到的创新性特征的最大范围。

Claims (17)

1.一种基于自我学习算法的数据标注方法,其特征在于,包括以下步骤:
语音识别步骤,语音识别引擎模块中的多个语音识别引擎接收并识别音频信号,进行音频转文字处理,输出识别文本;
文本对比步骤,将输入的多篇识别文本进行对比,标注差异部分文本,并进行断句处理;
自然语言处理算法评价步骤,将差异部分文本通过自然语言处理算法进行语义通顺性评价,选择最优部分,将识别文本重新拼接形成最优预标注文本,并提供差异部分原始识别文本;
自然语言处理算法预测步骤,将差异部分文本通过自然语言处理算法进行预测,并提供预测文本;
数据标注步骤,参考差异部分原始识别文本与预测文本,对最优预标注文本进行多次数据标注,形成多组数据标注文本;
质检步骤,将多组数据标注文本进行文本对比,对差异部分文本进行质检,标注差异部分文本,形成最优标注文本;
自我学习步骤,将最优标注文本与对应音频信号输入语音识别引擎,语音识别引擎基于自我学习算法迭代训练语音识别。
2.根据权利要求1所述的基于自我学习算法的数据标注方法,其特征在于,所述数据标注步骤和质检步骤中,采用可信的外部检验方式进行数据标注和质检。
3.根据权利要求2所述的基于自我学习算法的数据标注方法,其特征在于,所述可信的外部检验方式是人工检验方式。
4.根据权利要求2所述的基于自我学习算法的数据标注方法,其特征在于,所述自然语言处理算法预测步骤之后和数据标注步骤之前,还包括任务分配流转步骤,通过自主领取或系统自动分配的方式,将最优预标注文本进行流转分配。
5.根据权利要求2所述的基于自我学习算法的数据标注方法,其特征在于,所述数据标注步骤,具体包括,将最优预标注文本的差异部分和共同部分用不同的显示方式,对差异部分文本差异显示,参考预测文本与差异部分原始识别文本,经多个可信的外部检验对差异部分文本进行数据标注,形成多组数据标注文本。
6.根据权利要求2所述的基于自我学习算法的数据标注方法,其特征在于,所述语音识别步骤中的语音识别引擎数量至少为2个,所述数据标注步骤中为两个可信的外部检验进行数据标注。
7.根据权利要求1所述的基于自我学习算法的数据标注方法,其特征在于,所述质检步骤,还包括,在将多组数据标注文本进行文本对比之后,通过自然语言处理算法对差异部分文本进行语义通顺性评价,选择最优部分,辅助质检。
8.根据权利要求1所述的基于自我学习算法的数据标注方法,其特征在于,所述质检步骤之后和自我学习步骤之前,还包括二次质检步骤,采用批次抽检或全部质检的方式,对质检步骤中形成的最优标注文本进行二次质检,对数据标注质量进行检查,若不合格,则重新进行质检步骤。
9.根据权利要求1所述的基于自我学习算法的数据标注方法,其特征在于,所述语音识别步骤之前,还包括音频处理步骤,将原始音频进行格式转换,输出语音识别引擎能够识别处理的音频信号。
10.一种基于自我学习算法的数据标注装置,其特征在于,包括:
语音识别引擎模块,输出端与文本对比模块输入端连接,由多个语音识别引擎组成,分别接收并识别音频信号,进行音频转文字处理,输出对应的识别文本;
文本对比模块,输入端与语音识别引擎模块及语音标注系统连接,输出端与自然语言处理算法模块输入端连接,将输入的文本进行对比,标注差异部分并断句,输出标注文本;
自然语言处理算法模块,输入端与文本对比模块连接,输出端与语音标注系统连接,对输入的标注文本的差异部分进行语义通顺性评价,选择最优部分,重新拼接形成最优预标注文本,对标注文本的差异部分进行预测,形成预测文本,并与最优预标注文本、差异部分原始识别文本一并输出;
语音标注系统,包括数据标注单元和质检单元,输入端与自然语言处理算法模块连接,输出端与文本对比模块、语音识别引擎模块连接,
数据标注单元对最优预标注文本进行数据标注,形成数据标注文本,
质检单元对数据标注文本的质量进行检查,对差异部分文本进行标注,形成最优标注文本,
将最优标注文本与对应目标格式音频信号输入语音识别引擎模块,语音识别引擎模块基于自我学习算法迭代训练语音识别。
11.根据权利要求10所述的基于自我学习算法的数据标注装置,其特征在于,所述语音标注系统,数据标注单元采用可信的外部检验方式对最优预标注文本进行数据标注,质检单元采用可信的外部检验方式对数据标注文本的质量进行检查。
12.根据权利要求11所述的基于自我学习算法的数据标注装置,其特征在于,所述可信的外部检验方式是人工检验方式。
13.根据权利要求11所述的基于自我学习算法的数据标注装置,其特征在于,所述语音识别引擎模块中的语音识别引擎数量至少为2个,所述数据标注单元为两个可信的外部检验进行数据标注。
14.根据权利要求13所述的基于自我学习算法的数据标注装置,其特征在于,所述语音标注系统的数据标注单元,将最优预标注文本的差异部分和共同部分用不同的显示方式,对差异部分文本差异显示,同时显示预测文本与差异部分原始识别文本,经多个可信的外部检验对差异部分文本进行数据标注,形成多组数据标注文本后输出。
15.根据权利要求14所述的基于自我学习算法的数据标注装置,其特征在于,所述文本对比模块接收多组数据标注文本,进行文本对比标注差异部分,自然语言处理算法模块对差异部分进行语义通顺性评价选出最优部分后,将形成的优化的数据标注文本送到质检单元进行质检。
16.根据权利要求10所述的基于自我学习算法的数据标注装置,其特征在于,
所述数据标注装置,还包括音频处理模块,输出端与语音识别引擎模块连接,将原始音频进行格式转换,输出语音识别引擎能够识别处理的目标格式音频信号;
所述语音标注系统,与音频处理模块连接,还包括音频上传单元,为音频处理模块提供原始音频。
17.根据权利要求10所述的基于自我学习算法的数据标注装置,其特征在于,所述语音标注系统,还包括任务流转分配单元,通过自主领取或系统自动分配的方式,将自然语言处理算法模块输出的最优预标注文本进行流转分配到数据标注单元。
CN201910237084.3A 2019-03-27 2019-03-27 一种基于自我学习算法的数据标注方法及装置 Active CN109830230B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910237084.3A CN109830230B (zh) 2019-03-27 2019-03-27 一种基于自我学习算法的数据标注方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910237084.3A CN109830230B (zh) 2019-03-27 2019-03-27 一种基于自我学习算法的数据标注方法及装置

Publications (2)

Publication Number Publication Date
CN109830230A true CN109830230A (zh) 2019-05-31
CN109830230B CN109830230B (zh) 2020-09-01

Family

ID=66872284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910237084.3A Active CN109830230B (zh) 2019-03-27 2019-03-27 一种基于自我学习算法的数据标注方法及装置

Country Status (1)

Country Link
CN (1) CN109830230B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322883A (zh) * 2019-06-27 2019-10-11 上海麦克风文化传媒有限公司 一种高效语音转文字效果评价优化方法
CN110853635A (zh) * 2019-10-14 2020-02-28 广东美的白色家电技术创新中心有限公司 语音识别方法、音频标注方法、计算机设备、存储装置
CN112199683A (zh) * 2020-09-11 2021-01-08 深圳价值在线信息科技股份有限公司 一种数据检测方法、装置、终端及存储介质
CN113380238A (zh) * 2021-06-09 2021-09-10 阿波罗智联(北京)科技有限公司 处理音频信号的方法、模型训练方法、装置、设备和介质
CN115617989A (zh) * 2022-09-26 2023-01-17 无锡睿文科技有限公司 一种中文专利关键信息语料库的构建方法、系统和计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1457041A (zh) * 2002-05-10 2003-11-19 微软公司 为一个自然语言理解系统用来自动注解训练数据的一个系统
US20080276790A1 (en) * 2007-04-20 2008-11-13 Lemons Kenneth R System and method for sound recognition
CN103151042A (zh) * 2013-01-23 2013-06-12 中国科学院深圳先进技术研究院 全自动口语评测管理与评分系统及其评分方法
CN103530282A (zh) * 2013-10-23 2014-01-22 北京紫冬锐意语音科技有限公司 语料标注方法及设备
CN109460558A (zh) * 2018-12-06 2019-03-12 云知声(上海)智能科技有限公司 一种语音翻译系统的效果评判方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1457041A (zh) * 2002-05-10 2003-11-19 微软公司 为一个自然语言理解系统用来自动注解训练数据的一个系统
US20080276790A1 (en) * 2007-04-20 2008-11-13 Lemons Kenneth R System and method for sound recognition
CN103151042A (zh) * 2013-01-23 2013-06-12 中国科学院深圳先进技术研究院 全自动口语评测管理与评分系统及其评分方法
CN103530282A (zh) * 2013-10-23 2014-01-22 北京紫冬锐意语音科技有限公司 语料标注方法及设备
CN109460558A (zh) * 2018-12-06 2019-03-12 云知声(上海)智能科技有限公司 一种语音翻译系统的效果评判方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALEKSANDR DIMENT, TUOMAS VIRTANEN: "TRANSFER LEARNING OF WEAKLY LABELLED AUDIO", 《IEEE》 *
王兮楼等: "基于解码多候选结果的半监督数据挑选的语音识别", 《模式识别与人工智能》 *
袁冬: "基于海量文本的语义构建方法研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322883A (zh) * 2019-06-27 2019-10-11 上海麦克风文化传媒有限公司 一种高效语音转文字效果评价优化方法
CN110322883B (zh) * 2019-06-27 2023-02-17 上海麦克风文化传媒有限公司 一种语音转文字效果评价优化方法
CN110853635A (zh) * 2019-10-14 2020-02-28 广东美的白色家电技术创新中心有限公司 语音识别方法、音频标注方法、计算机设备、存储装置
CN110853635B (zh) * 2019-10-14 2022-04-01 广东美的白色家电技术创新中心有限公司 语音识别方法、音频标注方法、计算机设备、存储装置
CN112199683A (zh) * 2020-09-11 2021-01-08 深圳价值在线信息科技股份有限公司 一种数据检测方法、装置、终端及存储介质
CN113380238A (zh) * 2021-06-09 2021-09-10 阿波罗智联(北京)科技有限公司 处理音频信号的方法、模型训练方法、装置、设备和介质
CN115617989A (zh) * 2022-09-26 2023-01-17 无锡睿文科技有限公司 一种中文专利关键信息语料库的构建方法、系统和计算机设备

Also Published As

Publication number Publication date
CN109830230B (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
CN109830230A (zh) 一种基于自我学习算法的数据标注方法及装置
CN109003624B (zh) 情绪识别方法、装置、计算机设备及存储介质
CN111613212B (zh) 语音识别方法、系统、电子设备和存储介质
CN107657017A (zh) 用于提供语音服务的方法和装置
CN110134944A (zh) 一种基于强化学习的指代消解方法
CN110197279B (zh) 变换模型训练方法、装置、设备和存储介质
CN110148400A (zh) 发音类型的识别方法、模型的训练方法、装置及设备
CN110705265A (zh) 合同条款风险识别方法以及装置
CN113468296B (zh) 可配置业务逻辑的模型自迭代式智能客服质检系统与方法
CN110334187A (zh) 基于迁移学习的缅语情感分析方法及装置
CN106897384A (zh) 一种要点题自动评价方法及装置
CN110211592A (zh) 智能语音数据处理装置及方法
CN110473571A (zh) 基于短视频语音的情感识别方法和装置
CN111145903A (zh) 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统
Wagner et al. Applying cooperative machine learning to speed up the annotation of social signals in large multi-modal corpora
Dongmei Design of English text-to-speech conversion algorithm based on machine learning
CN115101042A (zh) 一种文本处理方法、装置及设备
CN112507117A (zh) 一种基于深度学习的检修意见自动分类方法及系统
CA3166556A1 (en) Method and device for generating target advertorial based on deep learning
CN110852082A (zh) 同义词的确定方法及装置
CN114648976A (zh) 语种识别方法、装置、电子设备及介质
CN116129868A (zh) 一种结构化画本的生成方法和生成系统
CN110851572A (zh) 会话标注方法、装置、存储介质及电子设备
Szekrényes et al. Classification of formal and informal dialogues based on turn-taking and intonation using deep neural networks
CN114840680A (zh) 一种实体关系联合抽取方法、装置、存储介质及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant