CN109801628A - 一种语料收集方法、装置及系统 - Google Patents

一种语料收集方法、装置及系统 Download PDF

Info

Publication number
CN109801628A
CN109801628A CN201910110199.6A CN201910110199A CN109801628A CN 109801628 A CN109801628 A CN 109801628A CN 201910110199 A CN201910110199 A CN 201910110199A CN 109801628 A CN109801628 A CN 109801628A
Authority
CN
China
Prior art keywords
corpus
text
initial
standard
phonetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910110199.6A
Other languages
English (en)
Other versions
CN109801628B (zh
Inventor
聂颖
王竹欣
郑权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Original Assignee
Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd filed Critical Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority to CN201910110199.6A priority Critical patent/CN109801628B/zh
Publication of CN109801628A publication Critical patent/CN109801628A/zh
Application granted granted Critical
Publication of CN109801628B publication Critical patent/CN109801628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供了一种语料收集方法、装置及系统。通过三级递进式比较判断,即首先比较初始语料转换后的文字和标准语料文本的长度是否一致,进而识别出无效语料;当长度一致时,进一步比较初始语料转换后的文字和标准语料文本的文字是否相同,进而识别出有效语料;当存在不相同的文字时,进一步比较初始语料转换后的文字和标准语料文本的拼音并根据初始语料转换后的文字的拼音相对于标准语料文本的拼音的编辑距离计算出初始语料的误差率,通过初始语料的误差率与阈值的大小关系,进而识别出有效语料和无效语料;解决了现有技术中收集语料的准确率和收集成本无法兼顾的问题,降低了语料收集的成本,同时提高了所收集语料的准确率。

Description

一种语料收集方法、装置及系统
技术领域
本发明涉及信息处理技术领域,具体而言,涉及一种语料收集方法、装置及系统。
背景技术
随着语音交互技术愈发的成熟,语料作为语音交互的能源,语料的收集变得极其的重要。
现有的语料收集方案基于两种形式,一种是在录音棚中由专业训练过的录音人员利用录音设备(麦克风、电脑等)录音,对于录制好的语音,再由专门的数据标注人员对数据进行整理,其中包括对录制好的语音的准确性进行判断(一般都是通过抽取样本去听)、对音频进行分割、然后对分割后的音频进行归类,从而完成语音语料的采集;另一种是通过互联网小程序对任何水平的录音人员的语音进行收集。第一种形式收集的语料准确率高,但是耗时耗力,且收集的语料具有局限性,即录音人员的丰富性不足;第二种形式收集的语料有足够的丰富性,但准确率不足。
专利号CN103198828A公开了一种语音语料库的构建系统和方法,其语料的来源为用户通过语音录入客户端录入,将语音与其对应的话术(按照话术录制的语音)上传至服务器,通过语音识别对录制的语音进行识别,若正确则标注正确,否则标注错误。该方法完全依赖于语音识别的准确率,但现实生活中一个读音可能会对应不同的字,所以基于此收集的语料准确率较低,并且在线调听并标注仍然进一步增加了工作量和收集成本,并没有解决现有技术中存在的收集语料的准确率和收集成本无法兼顾的问题。
发明内容
为了解决现有技术中存在的收集语料的准确率和收集成本无法兼顾的问题,本发明提供了一种语料收集方法、装置及系统,通过三级递进式比较判断,即首先比较初始语料转换后的文字和标准语料文本的长度是否一致,进而识别出无效语料;当长度一致时,进一步比较初始语料转换后的文字和标准语料文本的文字是否相同,进而识别出有效语料;当存在不相同的文字时,进一步比较初始语料转换后的文字和标准语料文本的拼音并根据初始语料转换后的文字的拼音相对于标准语料文本的拼音的编辑距离计算出初始语料的误差率,通过初始语料的误差率与阈值的大小关系,进而识别出有效语料和无效语料;降低了语料搜集的成本,同时提高了收集语料的准确率。
在第一方面,本发明提供了一种语料收集方法,包括:
在服务器中预置标准语料文本;
声音采集装置检测任务启动指令,当检测到任务启动指令后开始采集基于所述标准语料文本录入的语音作为初始语料;
利用语音识别技术把所述初始语料转换为初始文字,比较所述初始文字与所述标准语料文本的长度,当所述初始文字与所述标准语料文本的长度不一致时,则判断所述初始语料为无效语料,把所述初始语料存储至服务器中的无效语料库;当所述初始文字与所述标准语料文本的长度一致时,则进一步进行以下步骤,
逐字比较所述初始文字与所述标准语料文本,当所述初始文字与所述标准语料文本的文字全部相同时,则判断所述初始语料为有效语料,把所述初始语料存储至服务器中的有效语料库;
当所述初始文字与所述标准语料文本存在不相同的文字时,则分别提取所述初始文字和所述标准语料文本的拼音,计算所述初始文字的拼音相对于所述标准语料文本的拼音的编辑距离,所述初始文字的拼音相对于所述标准语料文本的拼音的编辑距离与所述标准语料文本的拼音的长度的比值记为所述初始语料的误差率,当所述初始语料的误差率不大于阈值α时,则判断所述初始语料为有效语料,把所述初始语料存储至服务器中的有效语料库;当所述初始语料的误差率大于阈值α时,则判断所述初始语料为无效语料,把所述初始语料存储至服务器中的无效语料库。
进一步地,所述阈值α随着所述标准语料文本的拼音的长度不同而变化,所述标准语料文本的拼音的长度越长则所述阈值α越大,且0<α<1。
进一步地,所述阈值α的计算公式为:
其中,L为所述标准语料文本的拼音的长度,k为预置的系数且k为正数。
进一步地,在服务器中预置测试文本,在声音采集装置检测到任务启动指令之后、开始采集基于所述标准语料文本录入的语音之前,声音采集装置采集基于所述测试文本录入的测试语音,利用语音识别技术把所述测试语音转换为测试文字,分别提取所述测试文字和所述测试文本的拼音,对比所述测试文字和所述测试文本的拼音,利用寻优算法确定阈值α的取值。
进一步地,还包括:
在服务器中预置地方方言语料;
利用语音识别技术把所述地方方言语料转换为方言语料文本,提取所述方言语料文本的拼音作为所述地方方言语料的基准拼音;
当所述初始文字与所述标准语料文本存在不相同的文字时,分别计算所述初始文字的拼音相对于所述标准语料文本的拼音的编辑距离、和所述初始文字的拼音相对于所述地方方言语料的基准拼音的编辑距离;
所述初始文字的拼音相对于所述标准语料文本的拼音的编辑距离与所述标准语料文本的拼音的长度的比值记为所述初始语料的第一误差率,所述初始文字的拼音相对于所述地方方言语料的基准拼音的编辑距离与所述地方方言语料的基准拼音的长度的比值记为所述初始语料的第二误差率;
在所述第一误差率和所述第二误差率中取最小值记为所述初始语料的误差率,当所述初始语料的误差率不大于阈值α时,则判断所述初始语料为有效语料,把所述初始语料存储至服务器中的有效语料库;当所述初始语料的误差率大于阈值α时,则判断所述初始语料为无效语料,把所述初始语料存储至服务器中的无效语料库。
进一步地,在把所述初始语料存储至服务器之前,对所述初始语料进行标注,标注内容包括:正确或错误标识、语音来源体的唯一标识、语料内容。
进一步地,对判断为无效语料的所述初始语料进行标注的标注内容还包括:对应的标准语料文本。
在第二方面,本发明还提供了一种语料收集装置,包括:
声音采集装置,用于检测任务启动指令,当检测到所述任务启动指令后开始采集基于标准语料文本录入的语音作为初始语料,并发送至语料识别装置;
语料识别装置,用于接收所述声音采集装置发送的所述初始语料,进一步包括:
语音识别模块,用于利用语音识别技术把所述初始语料转换为初始文字;
语料分析模块,用于比较所述初始文字与所述标准语料文本的长度,当所述初始文字与所述标准语料文本的长度不一致时,则判断所述初始语料为无效语料,把所述初始语料和判断结果发送至服务器;当所述初始文字与所述标准语料文本的长度一致时,则逐字比较所述初始文字与所述标准语料文本,当所述初始文字与所述标准语料文本的文字全部相同时,则判断所述初始语料为有效语料,把所述初始语料和判断结果发送至服务器;当所述初始文字与所述标准语料文本存在不相同的文字时,则分别提取所述初始文字和所述标准语料文本的拼音,计算所述初始文字的拼音相对于所述标准语料文本的拼音的编辑距离,所述初始文字的拼音相对于所述标准语料文本的拼音的编辑距离与所述标准语料文本的拼音的长度的比值记为所述初始语料的误差率,当所述初始语料的误差率不大于阈值α时,则判断所述初始语料为有效语料,把所述初始语料和判断结果发送至服务器;当所述初始语料的误差率大于阈值α时,则判断所述初始语料为无效语料,把所述初始语料和判断结果发送至服务器;
服务器,用于存储所述标准语料文本,还用于接收所述语料识别装置发送的所述初始语料和所述判断结果,并根据所述判断结果把对应的所述初始语料存储至有效语料库或无效语料库。
进一步地,所述语料分析模块还用于确定所述阈值α的取值,所述阈值α随着所述标准语料文本的拼音的长度不同而变化,所述标准语料文本的拼音的长度越长则所述阈值α越小,且0<α<1。
进一步地,所述语料分析模块还用于确定所述阈值α的取值,所述阈值α的计算公式为:
其中,L为所述标准语料文本的拼音的长度,k为预置的系数且k为正数。
进一步地,所述服务器用于存储测试文本;所述声音采集装置用于在检测到任务启动指令之后、开始采集基于所述标准语料文本录入的语音之前,采集基于所述测试文本录入的测试语音,并发送至所述语料识别装置;所述语料识别装置,用于接收所述声音采集装置发送的所述测试语音,所述语音识别模块用于利用语音识别技术把所述测试语音转换为测试文字,所述语料分析模块用于分别提取所述测试文字和所述测试文本的拼音,对比所述测试文字和所述测试文本的拼音,利用寻优算法确定阈值α的取值。
进一步地,所述服务器还用于存储基于标准语料文本的地方方言语料;所述语音识别模块用于利用语音识别技术把所述地方方言语料转换为方言语料文本,所述语料分析模块用于提取所述方言语料文本的拼音作为所述地方方言语料的基准拼音,比较所述初始文字与所述标准语料文本的长度,当所述初始文字与所述标准语料文本的长度不一致时,则判断所述初始语料为无效语料,把所述初始语料和判断结果发送至服务器;当所述初始文字与所述标准语料文本的长度一致时,则逐字比较所述初始文字与所述标准语料文本,当所述初始文字与所述标准语料文本的文字全部相同时,则判断所述初始语料为有效语料,把所述初始语料和判断结果发送至服务器;当所述初始文字与所述标准语料文本存在不相同的文字时,分别计算所述初始文字的拼音相对于所述标准语料文本的拼音的编辑距离、和所述初始文字的拼音相对于所述地方方言语料的基准拼音的编辑距离,所述初始文字的拼音相对于所述标准语料文本的拼音的编辑距离与所述标准语料文本的拼音的长度的比值记为所述初始语料的第一误差率,所述初始文字的拼音相对于所述地方方言语料的基准拼音的编辑距离与所述地方方言语料的基准拼音的长度的比值记为所述初始语料的第二误差率,在所述第一误差率和所述第二误差率中取最小值记为所述初始语料的误差率,当所述初始语料的误差率不大于阈值α时,则判断所述初始语料为有效语料,把所述初始语料存储至服务器中的有效语料库;当所述初始语料的误差率大于阈值α时,则判断所述初始语料为无效语料,把所述初始语料存储至服务器中的无效语料库。
进一步地,所述语料识别装置还包括标注模块,用于在把所述初始语料发送至所述服务器之前,对所述初始语料进行标注,标注内容包括:正确或错误标识、语音来源体的唯一标识、语料内容。
进一步地,所述标注模块对判断为无效语料的所述初始语料进行标注的标注内容还包括:对应的标准语料文本。
在第三方面,本发明还提供了一种语料收集系统,包括上述的语料收集装置,还包括:
用户终端,用于录音人员录入语音;
管理员终端,用于维护语料收集系统。
本发明提供了一种语料收集方法、装置及系统。通过在服务器中预置标准语料文本,声音采集装置检测任务启动指令,当检测到任务启动指令后开始采集基于标准语料文本录入的语音作为初始语料,利用语音识别技术把初始语料转换为初始文字,比较初始文字与标准语料文本的长度,当初始文字与标准语料文本的长度不一致时,则判断初始语料为无效语料,把初始语料存储至服务器中的无效语料库;当初始文字与标准语料文本的长度一致时,则逐字比较初始文字与标准语料文本,当初始文字与标准语料文本的文字全部相同时,则判断初始语料为有效语料,把初始语料存储至服务器中的有效语料库;当初始文字与标准语料文本存在不相同的文字时,则分别提取初始文字和标准语料文本的拼音,计算初始文字的拼音相对于标准语料文本的拼音的编辑距离,初始文字的拼音相对于标准语料文本的拼音的编辑距离与标准语料文本的拼音的长度的比值记为初始语料的误差率,当初始语料的误差率不大于阈值α时,则判断初始语料为有效语料,把初始语料存储至服务器中的有效语料库;当初始语料的误差率大于阈值α时,则判断初始语料为无效语料,把初始语料存储至服务器中的无效语料库;解决了现有技术中收集语料的准确率和收集成本无法兼顾的问题,降低了语料收集的成本,同时提高了所收集语料的准确率。
附图说明
图1是本发明实施例一提供的一种语料收集方法的流程示意图;
图2是本发明实施例三提供的一种语料收集装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
如图1所示,为本发明实施例一提供的一种语料收集方法的流程示意图,包括步骤S11至S15,具体如下:
步骤S11,在服务器中预置标准语料文本。
步骤S12,声音采集装置检测任务启动指令,当检测到任务启动指令后开始采集基于标准语料文本录入的语音作为初始语料。
在本实施例中,任务启动指令可以是由录音人员输入的预定命令,如录音人员在用户终端输入文字命令“开始录音”或者输入语音命令“开始录音”,声音采集装置检测到预定命令,则开始进入语料收集状态。任务启动指令也可以是由服务器向用户终端发送任务启动确认指令,录音人员点击任务启动确认指令确认开始,声音采集装置检测到录音人员的确认指令,则开始进入语料收集状态。
服务器向向用户终端发送标准语料文本,录音人员基于标准语料文本输入语音,声音采集装置录制语音并保存为音频,作为初始语料保存在服务器。
步骤S13,利用语音识别技术把初始语料转换为初始文字,比较初始文字与标准语料文本的长度,当初始文字与标准语料文本的长度不一致时,则判断初始语料为无效语料,把初始语料存储至服务器中的无效语料库;当初始文字与标准语料文本的长度一致时,则执行步骤S14。
在本实施例中,基于两个文本字数相同则不一定相同、但字数不同一定不同,则通过比较由初始语料转换的初始文字与标准语料文本的长度,能够快速筛选出无效语料。当初始文字与标准语料文本的长度不一致时,则可以判断初始语料为无效语料,把初始语料存储至服务器中的无效语料库;对与标准语料文本的长度一致的初始文字无法判断,需要再做进一步判断。这种比较判断方式和顺序,能够快速把可以判断确认的语料判断确认,提高判断效率。
步骤S14,逐字比较初始文字与标准语料文本,当初始文字与标准语料文本的文字全部相同时,则判断初始语料为有效语料,把初始语料存储至服务器中的有效语料库;当初始文字与标准语料文本存在不相同的文字时,则执行步骤S15。
在本实施例中,同理于步骤S13,基于两个文本文字全部相同时则一定相同,则当初始文字与标准语料文本的文字全部相同时,则可以判断初始语料为有效语料,把初始语料存储至服务器中的有效语料库;对与标准语料文本存在不相同文字的初始文字需要再做进一步判断。这种比较判断方式和顺序,能够快速把可以判断确认的语料判断确认,提高判断效率。
步骤S15,分别提取初始文字和标准语料文本的拼音,计算初始文字的拼音相对于标准语料文本的拼音的编辑距离,初始文字的拼音相对于标准语料文本的拼音的编辑距离与标准语料文本的拼音的长度的比值记为初始语料的误差率,当初始语料的误差率不大于阈值α时,则判断初始语料为有效语料,把初始语料存储至服务器中的有效语料库;当初始语料的误差率大于阈值α时,则判断初始语料为无效语料,把初始语料存储至服务器中的无效语料库。
进一步的,阈值α随着标准语料文本的拼音的长度不同而变化,标准语料文本的拼音的长度越长则阈值α越大,且0<α<1。
进一步的,阈值α的计算公式为:
其中,L为标准语料文本的拼音的长度,k为预置的系数且k为正数。
在本实施例中,例如标准语料文本为“小音量”,yin和ying的发音非常接近,语音识别技术准确区分比较困难,即使录音人员发音准确,仍很有可能转换后的初始文字为“小英亮”,这时候初始文字与标准语料文本存在不相同文字,如果直接判断初始语料为无效语料,显然判断错误。而且部分地区人员对前鼻音和后鼻音无法区分发音,对于是“小音量”仍然会发出“xiaoyingling”的读音,经过语音识别技术转换为初始文字“小英亮”,这时候初始文字与标准语料文本存在不相同文字,如果直接判断初始语料为无效语料,显然又是判断错误,导致收集的有效语料不全面。而分别提取初始文字和标准语料文本的拼音得到xiaoyingling和xiaoyinliang,初始文字的拼音相对于标准语料文本的拼音的编辑距离为1,标准语料文本的拼音的长度为12,初始文字的拼音相对于标准语料文本的拼音的编辑距离与标准语料文本的拼音的长度的比值为8.33%,记为初始语料的误差率。可见,在初始语料为有效语料的情况下,仍然会出现初始语料的误差率不是零的情况。
所以,利用初始文字的拼音相对于标准语料文本的拼音的编辑距离计算初始语料的误差率,并设置阈值,当初始语料的误差率不大于设置的阈值时,判断初始语料为有效语料,一方面可以解决由于语音识别不准确导致的语料判断错误问题,另一方面可以解决录音人员发音不正规导致的语料收集不全面的问题。
在本实施例中,根据实际生活规律,影响语音识别准确率或者录音人员发音的汉字数量有限,根据墨菲定律假设这类字一定会出现,则标准语料文本的字数越多即基数越大,这类字的占比就越小,对语料判断的准确率的影响就越小,进而初始语料的误差率就越小。例如第一种情况,标准语料文本为“小音量”,发音人员语音表达的正是“小音量”,由于语音识别技术难以准确区分或者区域性发音人员发音习惯的问题,转换后的初始文字为“小英亮”,这时候初始语料的误差率为8.33%;第二种情况,标准语料文本为“请把空调的音量调小”,发音人员语音表达的正是“请把空调的音量调小”,由于语音识别技术难以准确区分或者区域性发音人员发音习惯的问题,转换后的初始文字为“请把空调的英亮调小”,这时候初始语料的误差率为3.12%。如果为了准确判断初始语料为有效语料,则第一种情况下阈值α最优可以取值8.33%,第二种情况下阈值α最优可以取值3.12%。如果不区分标准语料文本的长度,所有阈值α都取相同值,若偏大些取8.33%,则第二种情况下就允许出现更多的错字,则可能把表达其它语义的无效语料如“请把空调的音量调大”判断为有效语料,导致降低语料判断的准确率;若偏小些取3.12%,则第一种情况下就会把表达正确语义的有效语料如“小英亮”判断为无效语料,导致收集的语料不全面。故,阈值α设置为变量,随着标准语料文本的字数越多,即标准语料文本的拼音的长度越长,则阈值α越小,且0<α<1,可以提高语料判断的准确率,同时使收集的语料更加全面。
进一步的,在服务器中还预置基于标准语料文本的地方方言语料;利用语音识别技术把地方方言语料转换为方言语料文本,提取方言语料文本的拼音作为地方方言语料的基准拼音;当初始文字与标准语料文本存在不相同的文字时,分别计算初始文字的拼音相对于标准语料文本的拼音的编辑距离、和初始文字的拼音相对于地方方言语料的基准拼音的编辑距离;初始文字的拼音相对于标准语料文本的拼音的编辑距离与标准语料文本的拼音的长度的比值记为初始语料的第一误差率,初始文字的拼音相对于地方方言语料的基准拼音的编辑距离与地方方言语料的基准拼音的长度的比值记为初始语料的第二误差率;在第一误差率和第二误差率中取最小值记为初始语料的误差率,当初始语料的误差率不大于阈值α时,则判断初始语料为有效语料,把初始语料存储至服务器中的有效语料库;当初始语料的误差率大于阈值α时,则判断初始语料为无效语料,把初始语料存储至服务器中的无效语料库。
在本实施例中,主要解决方言语料的收集问题。声音采集装置检测任务启动指令,当检测到任务启动指令后开始采集基于标准语料文本录入的语音作为初始语料。如果录音人员的发音为方言,收集到的初始语料为方言,则利用语音识别技术把初始语料转换为的初始文字是与初始语料发音相同的汉字。无论是方言还是普通话,基于同一标准语料文本录入的语料转换来的初始文字的长度是一致的,所以比较初始文字与标准语料文本的长度,当初始文字与标准语料文本的长度不一致时,则判断初始语料为无效语料,把初始语料存储至服务器中的无效语料库。当初始文字与标准语料文本的长度一致时,逐字比较初始文字与标准语料文本,当初始文字与标准语料文本的文字全部相同时,说明初始语料为普通话或者和普通话发音相同的方言或者和普通话发音非常相似以致语音识别技术无法区分的方言,可以确认的是初始语料的内容与标准语料文本一致,则判断初始语料为有效语料,把初始语料存储至服务器中的有效语料库。
当初始文字与标准语料文本存在不相同的文字时,则需要进一步确认初始文字的内容与标准语料文本是否一致。在服务器中预置基于标准语料文本的地方方言语料,即利用方言念出标准语料文本的音频,利用普通话的语音识别引擎得到发音相同的对应的普通话文字,即方言语料文本。提取方言语料文本的拼音就是地方方言语料的发音,以此作为地方方言语料的基准拼音。当初始文字与标准语料文本存在不相同的文字时,分别计算初始文字的拼音相对于标准语料文本的拼音的编辑距离、和初始文字的拼音相对于地方方言语料的基准拼音的编辑距离;初始文字的拼音相对于标准语料文本的拼音的编辑距离与标准语料文本的拼音的长度的比值记为初始语料的第一误差率,初始文字的拼音相对于地方方言语料的基准拼音的编辑距离与地方方言语料的基准拼音的长度的比值记为初始语料的第二误差率;在第一误差率和第二误差率中取最小值记为初始语料的误差率,当第一误差率最小时说明录音人员发音为普通话,当第二误差率最小时说明录音人员发音为方言。当初始语料的误差率不大于阈值α时,则判断初始语料为有效语料,把初始语料存储至服务器中的有效语料库;当初始语料的误差率大于阈值α时,则判断初始语料为无效语料,把初始语料存储至服务器中的无效语料库。
进一步的,在把初始语料存储至服务器之前,对初始语料进行标注,标注内容包括:正确或错误标识、语音来源体的唯一标识、语料内容。
在本实施例中,对初始语料进行标注后存储至服务器,可以实现后续对语料的分类或统计。通过标注正确或错误标识,可以快速查找到有效语料或无效语料,可以快速统计有效语料或无效语料的数量;通过标注语音来源体的唯一标识,可以快速查找到特定录音人员的语料,可以快速统计特定录音人员的语料的数量;通过标注语料内容,可以快速查找到特定内容的语料,可以快速统计特定内容的语料的数量。
进一步的,对判断为无效语料的初始语料进行标注的标注内容还包括:对应的标准语料文本。
在本实施例中,对于无效语料进一步标注对应的标准语料文本,一方面可以为后续人工校对时提供指引;另一方面在特定内容的有效语料数量不足时,可以快速查找到特定内容的无效语料来扩充语料库;第三方面,还可以方便统计特定内容的无效语料的数量。
本发明实施例通过在服务器中预置标准语料文本,声音采集装置检测任务启动指令,当检测到任务启动指令后开始采集基于标准语料文本录入的语音作为初始语料,利用语音识别技术把初始语料转换为初始文字,比较初始文字与标准语料文本的长度,当初始文字与标准语料文本的长度不一致时,则判断初始语料为无效语料,把初始语料存储至服务器中的无效语料库;当初始文字与标准语料文本的长度一致时,则逐字比较初始文字与标准语料文本,当初始文字与标准语料文本的文字全部相同时,则判断初始语料为有效语料,把初始语料存储至服务器中的有效语料库;当初始文字与标准语料文本存在不相同的文字时,则分别提取初始文字和标准语料文本的拼音,计算初始文字的拼音相对于标准语料文本的拼音的编辑距离,初始文字的拼音相对于标准语料文本的拼音的编辑距离与标准语料文本的拼音的长度的比值记为初始语料的误差率,当初始语料的误差率不大于阈值α时,则判断初始语料为有效语料,把初始语料存储至服务器中的有效语料库;当初始语料的误差率大于阈值α时,则判断初始语料为无效语料,把初始语料存储至服务器中的无效语料库;解决了现有技术中收集语料的准确率和收集成本无法兼顾的问题,降低了语料收集的成本,同时提高了所收集语料的准确率。
实施例二
本实施例以实施例一为基础进行优化,在本实施例中,阈值α的取值的确定方法具体为:
在服务器中预置测试文本,在声音采集装置检测到任务启动指令之后、开始采集基于标准语料文本录入的语音之前,声音采集装置采集基于测试文本录入的测试语音,利用语音识别技术把测试语音转换为测试文字,分别提取测试文字和测试文本的拼音,对比测试文字和测试文本的拼音,利用寻优算法确定阈值α的取值。
在本实施例中,测试文本包含多组字、词、词组、或语句等测试文本单元,声音采集装置分别采集基于测试文本中各测试文本单元录入的测试语音单元,或者声音采集装置采集基于测试文本录入的测试语音后再基于测试文本单元划分为对应的测试语音单元,利用语音识别技术把测试语音单元转换为测试文字单元,分别提取各测试文字单元和测试文本单元的拼音,计算各测试文字单元的拼音相对于对应的测试文本单元的拼音的编辑距离,各测试文字单元的拼音相对于对应的测试文本单元的拼音的编辑距离与对应的测试文本单元的拼音的比值即为各测试语音单元的误差率,利用寻优算法在各测试语音单元的误差率中寻优确定阈值α的取值。通过设置测试文本采集录音人员的语音,并利用寻优算法分析得到针对该录音人员的最优阈值α,则保证了初始语料的误差率的阈值α始终在最优值,在语料判断的准确率和语料收集的全面性之间寻找到最佳临界点,既保证了对语料判断的准确率,又兼顾了语料收集的全面性。
实施例三
根据本发明实施例还提供了一种语料收集装置,需要说明的是,本发明实施例的语料收集装置可以用于执行本发明实施例所提供的语料收集方法。以下对本发明实施例提供的语料收集装置进行介绍。
图2是根据本发明实施例的语料收集装置的示意图,包括:
声音采集装置11,用于检测任务启动指令,当检测到任务启动指令后开始采集基于标准语料文本录入的语音作为初始语料,并发送至语料识别装置;
语料识别装置12,耦接于声音采集装置11,用于接收声音采集装置11发送的初始语料,进一步包括:
语音识别模块121,用于利用语音识别技术把初始语料转换为初始文字;
语料分析模块122,用于比较初始文字与标准语料文本的长度,当初始文字与标准语料文本的长度不一致时,则判断初始语料为无效语料,把初始语料和判断结果发送至服务器;当初始文字与标准语料文本的长度一致时,则逐字比较初始文字与标准语料文本,当初始文字与标准语料文本的文字全部相同时,则判断初始语料为有效语料,把初始语料和判断结果发送至服务器;当初始文字与标准语料文本存在不相同的文字时,则分别提取所述初始文字和标准语料文本的拼音,计算初始文字的拼音相对于标准语料文本的拼音的编辑距离,初始文字的拼音相对于标准语料文本的拼音的编辑距离与标准语料文本的拼音的长度的比值记为初始语料的误差率,当初始语料的误差率不大于阈值α时,则判断初始语料为有效语料,把初始语料和判断结果发送至服务器;当初始语料的误差率大于阈值α时,则判断初始语料为无效语料,把初始语料和判断结果发送至服务器;
服务器13,分别耦接于声音采集装置11、语料识别装置12,用于存储标准语料文本,还用于接收语料识别装置12发送的初始语料和判断结果,并根据判断结果把对应的初始语料存储至有效语料库或无效语料库。
进一步地,语料分析模块122还用于确定阈值α的取值,阈值α随着标准语料文本的拼音的长度不同而变化,标准语料文本的拼音的长度越长则阈值α越小,且0<α<1。
进一步地,语料分析模块122还用于确定阈值α的取值,阈值α的计算公式为:
其中,L为标准语料文本的拼音的长度,k为预置的系数且k为正数。
进一步地,服务器13用于存储测试文本;声音采集装置11用于在检测到任务启动指令之后、开始采集基于标准语料文本录入的语音之前,采集基于测试文本录入的测试语音,并发送至语料识别装置12;语料识别装置12,用于接收声音采集装置11发送的测试语音,语音识别模块121用于利用语音识别技术把测试语音转换为测试文字,语料分析模块122用于分别提取测试文字和测试文本的拼音,对比测试文字和测试文本的拼音,利用寻优算法确定阈值α的取值。
进一步地,服务器13还用于存储基于标准语料文本的地方方言语料;语音识别模块121用于利用语音识别技术把地方方言语料转换为方言语料文本,语料分析模块122用于提取方言语料文本的拼音作为地方方言语料的基准拼音,比较初始文字与标准语料文本的长度,当初始文字与标准语料文本的长度不一致时,则判断初始语料为无效语料,把初始语料和判断结果发送至服务器13;当初始文字与标准语料文本的长度一致时,则逐字比较初始文字与标准语料文本,当初始文字与标准语料文本的文字全部相同时,则判断初始语料为有效语料,把初始语料和判断结果发送至服务器13;当初始文字与标准语料文本存在不相同的文字时,分别计算初始文字的拼音相对于标准语料文本的拼音的编辑距离、和初始文字的拼音相对于地方方言语料的基准拼音的编辑距离,初始文字的拼音相对于标准语料文本的拼音的编辑距离与标准语料文本的拼音的长度的比值记为初始语料的第一误差率,初始文字的拼音相对于地方方言语料的基准拼音的编辑距离与地方方言语料的基准拼音的长度的比值记为初始语料的第二误差率,在第一误差率和第二误差率中取最小值记为初始语料的误差率,当初始语料的误差率不大于阈值α时,则判断初始语料为有效语料,把初始语料存储至服务器中的有效语料库;当初始语料的误差率大于阈值α时,则判断初始语料为无效语料,把初始语料存储至服务器中的无效语料库。
进一步的,语料识别装置12还包括标注模块123,用于在把初始语料发送至服务器13之前,对初始语料进行标注,标注内容包括:正确或错误标识、语音来源体的唯一标识、语料内容。
进一步地,标注模块123对判断为无效语料的初始语料进行标注的标注内容还包括:对应的标准语料文本。
本发明实施例提供的语料收集装置,通过在服务器中预置标准语料文本,声音采集装置检测任务启动指令,当检测到任务启动指令后开始采集基于标准语料文本录入的语音作为初始语料,利用语音识别技术把初始语料转换为初始文字,比较初始文字与标准语料文本的长度,当初始文字与标准语料文本的长度不一致时,则判断初始语料为无效语料,把初始语料存储至服务器中的无效语料库;当初始文字与标准语料文本的长度一致时,则逐字比较初始文字与标准语料文本,当初始文字与标准语料文本的文字全部相同时,则判断初始语料为有效语料,把初始语料存储至服务器中的有效语料库;当初始文字与标准语料文本存在不相同的文字时,则分别提取初始文字和标准语料文本的拼音,计算初始文字的拼音相对于标准语料文本的拼音的编辑距离,初始文字的拼音相对于标准语料文本的拼音的编辑距离与标准语料文本的拼音的长度的比值记为初始语料的误差率,当初始语料的误差率不大于阈值α时,则判断初始语料为有效语料,把初始语料存储至服务器中的有效语料库;当初始语料的误差率大于阈值α时,则判断初始语料为无效语料,把初始语料存储至服务器中的无效语料库;解决了现有技术中收集语料的准确率和收集成本无法兼顾的问题,降低了语料收集的成本,同时提高了所收集语料的准确率。
实施例四
本发明还提供一种语料收集系统,包括上述实施例三的语料收集装置,还包括:
用户终端,用于录音人员录入语音;
管理员终端,用于维护语料收集系统。
本发明实施例所提供的语料收集系统可用于执行本发明任意实施例提供的语料收集方法,具备相应的功能模块,实现相同的有益效果。
本领域的技术人员容易理解的是,在不冲突的前提下,上述各优选方案可以自由地组合、叠加。
以上仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语料收集方法,其特征在于,包括:
在服务器中预置标准语料文本;
声音采集装置检测任务启动指令,当检测到任务启动指令后开始采集基于所述标准语料文本录入的语音作为初始语料;
利用语音识别技术把所述初始语料转换为初始文字,比较所述初始文字与所述标准语料文本的长度,当所述初始文字与所述标准语料文本的长度不一致时,则判断所述初始语料为无效语料,把所述初始语料存储至服务器中的无效语料库;当所述初始文字与所述标准语料文本的长度一致时,则进一步进行以下步骤,
逐字比较所述初始文字与所述标准语料文本,当所述初始文字与所述标准语料文本的文字全部相同时,则判断所述初始语料为有效语料,把所述初始语料存储至服务器中的有效语料库;
当所述初始文字与所述标准语料文本存在不相同的文字时,则分别提取所述初始文字和所述标准语料文本的拼音,计算所述初始文字的拼音相对于所述标准语料文本的拼音的编辑距离,所述初始文字的拼音相对于所述标准语料文本的拼音的编辑距离与所述标准语料文本的拼音的长度的比值记为所述初始语料的误差率,当所述初始语料的误差率不大于阈值α时,则判断所述初始语料为有效语料,把所述初始语料存储至服务器中的有效语料库;当所述初始语料的误差率大于阈值α时,则判断所述初始语料为无效语料,把所述初始语料存储至服务器中的无效语料库。
2.如权利要求1所述的语料收集方法,其特征在于,所述阈值α随着所述标准语料文本的拼音的长度不同而变化,所述标准语料文本的拼音的长度越长则所述阈值α越小,且0<α<1。
3.如权利要求2所述的语料收集方法,其特征在于,所述阈值α的计算公式为:
其中,L为所述标准语料文本的拼音的长度,k为预置的系数且k为正数。
4.如权利要求1所述的语料收集方法,其特征在于,在服务器中预置测试文本,在声音采集装置检测到任务启动指令之后、开始采集基于所述标准语料文本录入的语音之前,声音采集装置采集基于所述测试文本录入的测试语音,利用语音识别技术把所述测试语音转换为测试文字,分别提取所述测试文字和所述测试文本的拼音,对比所述测试文字和所述测试文本的拼音,利用寻优算法确定阈值α的取值。
5.如权利要求1-4中任一项所述的语料收集方法,其特征在于,还包括:
在服务器中还预置基于标准语料文本的地方方言语料;
利用语音识别技术把所述地方方言语料转换为方言语料文本,提取所述方言语料文本的拼音作为所述地方方言语料的基准拼音;
当所述初始文字与所述标准语料文本存在不相同的文字时,分别计算所述初始文字的拼音相对于所述标准语料文本的拼音的编辑距离、和所述初始文字的拼音相对于所述地方方言语料的基准拼音的编辑距离;
所述初始文字的拼音相对于所述标准语料文本的拼音的编辑距离与所述标准语料文本的拼音的长度的比值记为所述初始语料的第一误差率,所述初始文字的拼音相对于所述地方方言语料的基准拼音的编辑距离与所述地方方言语料的基准拼音的长度的比值记为所述初始语料的第二误差率;
在所述第一误差率和所述第二误差率中取最小值记为所述初始语料的误差率,当所述初始语料的误差率不大于阈值α时,则判断所述初始语料为有效语料,把所述初始语料存储至服务器中的有效语料库;当所述初始语料的误差率大于阈值α时,则判断所述初始语料为无效语料,把所述初始语料存储至服务器中的无效语料库。
6.如权利要求1-5中任一项所述的语料收集方法,其特征在于,在把所述初始语料存储至服务器之前,对所述初始语料进行标注,标注内容包括:正确或错误标识、语音来源体的唯一标识、语料内容。
7.如权利要求6所述的语料收集方法,其特征在于,对判断为无效语料的所述初始语料进行标注的标注内容还包括:对应的标准语料文本。
8.一种语料收集装置,其特征在于,包括:
声音采集装置,用于检测任务启动指令,当检测到所述任务启动指令后开始采集基于标准语料文本录入的语音作为初始语料,并发送至语料识别装置;
语料识别装置,用于接收所述声音采集装置发送的所述初始语料,进一步包括:
语音识别模块,用于利用语音识别技术把所述初始语料转换为初始文字;
语料分析模块,用于比较所述初始文字与所述标准语料文本的长度,当所述初始文字与所述标准语料文本的长度不一致时,则判断所述初始语料为无效语料,把所述初始语料和判断结果发送至服务器;当所述初始文字与所述标准语料文本的长度一致时,则逐字比较所述初始文字与所述标准语料文本,当所述初始文字与所述标准语料文本的文字全部相同时,则判断所述初始语料为有效语料,把所述初始语料和判断结果发送至服务器;当所述初始文字与所述标准语料文本存在不相同的文字时,则分别提取所述初始文字和所述标准语料文本的拼音,计算所述初始文字的拼音相对于所述标准语料文本的拼音的编辑距离,所述初始文字的拼音相对于所述标准语料文本的拼音的编辑距离与所述标准语料文本的拼音的长度的比值记为所述初始语料的误差率,当所述初始语料的误差率不大于阈值α时,则判断所述初始语料为有效语料,把所述初始语料和判断结果发送至服务器;当所述初始语料的误差率大于阈值α时,则判断所述初始语料为无效语料,把所述初始语料和判断结果发送至服务器;
服务器,用于存储所述标准语料文本,还用于接收所述语料识别装置发送的所述初始语料和所述判断结果,并根据所述判断结果把对应的所述初始语料存储至有效语料库或无效语料库。
9.如权利要求8所述的语料收集装置,其特征在于,所述语料识别装置还包括标注模块,用于在把所述初始语料发送至所述服务器之前,对所述初始语料进行标注,标注内容包括:正确或错误标识、语音来源体的唯一标识、语料内容。
10.一种语料收集系统,其特征在于,包括如权利要求8或9所述的语料收集装置,还包括:
用户终端,用于录音人员录入语音;
管理员终端,用于维护语料收集系统。
CN201910110199.6A 2019-02-11 2019-02-11 一种语料收集方法、装置及系统 Active CN109801628B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910110199.6A CN109801628B (zh) 2019-02-11 2019-02-11 一种语料收集方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910110199.6A CN109801628B (zh) 2019-02-11 2019-02-11 一种语料收集方法、装置及系统

Publications (2)

Publication Number Publication Date
CN109801628A true CN109801628A (zh) 2019-05-24
CN109801628B CN109801628B (zh) 2020-02-21

Family

ID=66562014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910110199.6A Active CN109801628B (zh) 2019-02-11 2019-02-11 一种语料收集方法、装置及系统

Country Status (1)

Country Link
CN (1) CN109801628B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110223673A (zh) * 2019-06-21 2019-09-10 龙马智芯(珠海横琴)科技有限公司 语音的处理方法及装置、存储介质、电子设备
CN110503958A (zh) * 2019-08-30 2019-11-26 厦门快商通科技股份有限公司 语音识别方法、系统、移动终端及存储介质
CN110782874A (zh) * 2019-11-05 2020-02-11 四川虹美智能科技有限公司 一种语音库管理方法、语音识别测试方法和装置
CN110942765A (zh) * 2019-11-11 2020-03-31 珠海格力电器股份有限公司 一种构建语料库的方法、设备、服务器和存储介质
CN111508468A (zh) * 2020-04-17 2020-08-07 北京灵伴即时智能科技有限公司 录音编辑管理方法及系统
CN111862933A (zh) * 2020-07-20 2020-10-30 北京字节跳动网络技术有限公司 用于生成合成语音的方法、装置、设备和介质
CN111933120A (zh) * 2020-08-19 2020-11-13 潍坊医学院 一种用于语音识别的语音数据自动化标注方法和系统
CN113113019A (zh) * 2021-03-27 2021-07-13 上海红阵信息科技有限公司 一种语音库生成系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1815551A (zh) * 2006-02-28 2006-08-09 安徽中科大讯飞信息科技有限公司 在方言语音合成系统中进行文本方言化处理的方法
US20140195226A1 (en) * 2013-01-04 2014-07-10 Electronics And Telecommunications Research Institute Method and apparatus for correcting error in speech recognition system
CN106055623A (zh) * 2016-05-26 2016-10-26 《中国学术期刊(光盘版)》电子杂志社有限公司 一种跨语言推荐方法和系统
CN108831476A (zh) * 2018-05-31 2018-11-16 平安科技(深圳)有限公司 语音采集方法、装置、计算机设备及存储介质
CN109190110A (zh) * 2018-08-02 2019-01-11 厦门快商通信息技术有限公司 一种命名实体识别模型的训练方法、系统及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1815551A (zh) * 2006-02-28 2006-08-09 安徽中科大讯飞信息科技有限公司 在方言语音合成系统中进行文本方言化处理的方法
US20140195226A1 (en) * 2013-01-04 2014-07-10 Electronics And Telecommunications Research Institute Method and apparatus for correcting error in speech recognition system
CN106055623A (zh) * 2016-05-26 2016-10-26 《中国学术期刊(光盘版)》电子杂志社有限公司 一种跨语言推荐方法和系统
CN108831476A (zh) * 2018-05-31 2018-11-16 平安科技(深圳)有限公司 语音采集方法、装置、计算机设备及存储介质
CN109190110A (zh) * 2018-08-02 2019-01-11 厦门快商通信息技术有限公司 一种命名实体识别模型的训练方法、系统及电子设备

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110223673A (zh) * 2019-06-21 2019-09-10 龙马智芯(珠海横琴)科技有限公司 语音的处理方法及装置、存储介质、电子设备
CN110223673B (zh) * 2019-06-21 2020-01-17 龙马智芯(珠海横琴)科技有限公司 语音的处理方法及装置、存储介质、电子设备
CN110503958A (zh) * 2019-08-30 2019-11-26 厦门快商通科技股份有限公司 语音识别方法、系统、移动终端及存储介质
CN110782874A (zh) * 2019-11-05 2020-02-11 四川虹美智能科技有限公司 一种语音库管理方法、语音识别测试方法和装置
CN110782874B (zh) * 2019-11-05 2022-08-16 四川虹美智能科技有限公司 一种语音库管理方法、语音识别测试方法和装置
CN110942765A (zh) * 2019-11-11 2020-03-31 珠海格力电器股份有限公司 一种构建语料库的方法、设备、服务器和存储介质
CN111508468A (zh) * 2020-04-17 2020-08-07 北京灵伴即时智能科技有限公司 录音编辑管理方法及系统
CN111862933A (zh) * 2020-07-20 2020-10-30 北京字节跳动网络技术有限公司 用于生成合成语音的方法、装置、设备和介质
CN111933120A (zh) * 2020-08-19 2020-11-13 潍坊医学院 一种用于语音识别的语音数据自动化标注方法和系统
CN113113019A (zh) * 2021-03-27 2021-07-13 上海红阵信息科技有限公司 一种语音库生成系统及方法

Also Published As

Publication number Publication date
CN109801628B (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN109801628A (zh) 一种语料收集方法、装置及系统
Yang et al. Content based lecture video retrieval using speech and video text information
CN107039034B (zh) 一种韵律预测方法及系统
CN102034475B (zh) 一种运用计算机对开放式短对话进行交互式评分的方法
CN107305541A (zh) 语音识别文本分段方法及装置
CN111339283B (zh) 针对用户问题提供客服答案的方法及装置
CN101650886B (zh) 一种自动检测语言学习者朗读错误的方法
CN109192194A (zh) 语音数据标注方法、装置、计算机设备及存储介质
Li et al. A Mandarin-English Code-Switching Corpus.
CN101751919A (zh) 一种汉语口语重音自动检测方法
CN101329667A (zh) 多语言语音互译的智能翻译设备及其控制方法
Verbree et al. Dialogue-act tagging using smart feature selection; results on multiple corpora
CN113450774A (zh) 一种训练数据的获取方法及装置
CN109614623A (zh) 一种基于句法分析的作文处理方法及系统
CN112417850A (zh) 音频标注的检错方法和装置
CN109271492A (zh) 一种语料正则表达式的自动生成方法及系统
CN114996506A (zh) 语料生成方法、装置、电子设备和计算机可读存储介质
Christensen et al. Are extractive text summarisation techniques portable to broadcast news?
Zufferey et al. Towards automatic identification of discourse markers in dialogs: The case of like
Brown et al. Capitalization recovery for text
WO2020111374A1 (ko) 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템
Asadi et al. Real-Time Presentation Tracking Using Semantic Keyword Spotting.
Gravellier et al. Weakly supervised discourse segmentation for multiparty oral conversations
Passonneau et al. Learning about voice search for spoken dialogue systems
Jouvet et al. Adaptation of speech recognition vocabularies for improved transcription of youtube videos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 519031 office 1316, No. 1, lianao Road, Hengqin new area, Zhuhai, Guangdong

Patentee after: LONGMA ZHIXIN (ZHUHAI HENGQIN) TECHNOLOGY Co.,Ltd.

Address before: Room 417.418.419, building 20, creative Valley, 1889 Huandao East Road, Hengqin New District, Zhuhai City, Guangdong Province

Patentee before: LONGMA ZHIXIN (ZHUHAI HENGQIN) TECHNOLOGY Co.,Ltd.