CN111785272B - 一种在线标注方法及系统 - Google Patents
一种在线标注方法及系统 Download PDFInfo
- Publication number
- CN111785272B CN111785272B CN202010548311.7A CN202010548311A CN111785272B CN 111785272 B CN111785272 B CN 111785272B CN 202010548311 A CN202010548311 A CN 202010548311A CN 111785272 B CN111785272 B CN 111785272B
- Authority
- CN
- China
- Prior art keywords
- audio
- labeling
- recognition
- result
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- General Factory Administration (AREA)
Abstract
本发明提出一种在线标注方法,包括以下步骤:利用ASR引擎识别待标注音频得到原始音频日志和短音频;对原始音频日志和短音频进行解析,获取识别结果和音频相关信息;对识别结果进行在线标注,得到标注结果;根据识别结果和标注结果进行对比计算识别率;利用音频相关信息对ASR引擎识别效果进行统计。本发明对ASR引擎识别的原始音频的日志和短音频进行解析,获得识别结果,在根据识别结果进行在线标注,提高标注效率和准确度。
Description
技术领域
本发明涉及语音识别技术领域,尤其是涉及一种在线标注方法及系统。
背景技术
在语音识别领域,必须事先获得大量应用场景下原始语音的标注数据和音频,才能投入到声学模型训练和语言模型的训练中,从而获得较高的语音识别准确率。
然而,原始语音只包含音频,不包含标注数据,需要靠人工方式进行语音标注获得标注数据。但是传统的语音标注系统是逐字进行标注,效率低且人力成本高,并且传统的标注系统是基于单机软件,无法进行统一的数据管理。
发明内容
针对传统的语音标注系统是逐字进行标注,效率低且人力成本高的问题,本发明提出了一种在线标注方法及系统,对ASR引擎识别的原始音频的日志和短音频进行解析,获得识别结果,在根据识别结果进行在线标注,提高标注效率和准确度。
为实现上述目的,本发明提供以下的技术方案:
一种在线标注方法,包括以下步骤:
S1,利用ASR引擎识别待标注音频得到原始音频日志和短音频;
S2,对原始音频日志和短音频进行解析,获取识别结果和音频相关信息;
S3,对识别结果进行在线标注,得到标注结果;
S4,根据识别结果和标注结果进行对比计算识别率;
S5,利用音频相关信息对ASR引擎识别效果进行统计。
相对于传统的标注工具需要逐字进行标注,本发明在ASR引擎识别结果的基础上进行标注,可以节省标注成本,提高工作效率。本发明根据识别结果和标注结果对比,分析识别结果缺漏,增添,替换等相关信息,确定ASR引擎的识别效果。
作为优选,所述音频相关信息包括截幅比、音量、前信噪比、后信噪比、音频时长、识别延时、语句长度和传输延时。
截幅比、音量、前信噪比、后信噪比用于分析音频是否出现异常,音频时长、识别延时、语句长度和传输延时用于统计ASR引擎识别效果统计以及效果分析。
作为优选,所述步骤S5具体包括:
S501,设定截幅比、音量、前信噪比和后信噪比的阈值范围;
S502,将音频相关信息与阈值范围进行比对,若超过阈值范围则标记为异常音频,并定位异常音频;
S503,计算异常音频占比,并以web客户端通过图表展示。
通过异常音频占比,以及定位异常音频,来展示ASR引擎识别效果的好坏,并以web客户端通过图表展示,方便管理人员直观获取ASR引擎识别效果的好坏。
作为优选,所述步骤S5具体包括:
S511,对音频时长、识别延时、语句长度和传输延时进行计算得到相关参数;
S512,设定相关参数的阈值范围,若相关参数超过阈值范围,对相关参数进行标记;
S513,用web客户端将相关参数以及带标记的相关参数用图表展示。
对相关参数进行标记,并用图标展示,有助于管理人员对ASR引擎识别效果较差时,直观获取ASR引擎识别效果较差的原因。
作为优选,所述相关参数包括实时率、总实时率、排队时延、识别延时。设置实时率、总实时率、排队时延、识别延时更加全面的判定ASR引擎识别效果较差的原因,提高判定的准确率。
作为优选,所述步骤S4具体包括:获取识别结果关于缺漏错误、增添错误和替换错误的信息,计算识别率,所述识别率包括缺漏识别率、增添识别率、替换识别率和总错误识别率。对各种可能出现的错误进行统计,使对ASR引擎识别效果识别更加全面,有利于后续管理人员对ASR引擎识别进行优化,以及优化标注方式。
一种在线标注系统,采用上述的一种在线标注方法,包括:
解析子系统,对原始音频日志和短音频进行解析,获取识别结果和音频相关信息;
在线标注子系统,对识别结果进行在线标注,得到标注结果;
统计子系统,根据识别结果和标注结果进行对比计算识别率,利用音频相关信息对ASR引擎识别效果进行统计;
垂直分数据库,分开存储解析和标注不同的阶段产生的数据。对解析和标注不同的阶段产生的数据,存储至不同的数据库,可以提高查询的效率。本发明在ASR引擎识别结果的基础上进行标注,可以节省标注成本,提高工作效率。本发明根据识别结果和标注结果对比,分析识别结果缺漏,增添,替换等相关信息,确定ASR引擎的识别效果。
作为优选,本发明还包括标注音频管控子系统,根据不同的业务场景建立不同的项目和任务对需要标注的音频进行管控,提高标注的效率。
本发明有以下有益效果:在ASR引擎识别结果的基础上进行标注,可以节省标注成本,提高工作效率;根据识别结果和标注结果对比,分析识别结果缺漏,增添,替换等相关信息,确定ASR引擎的识别效果;对各种可能出现的错误进行统计,使对ASR引擎识别效果识别更加全面,有利于后续管理人员对ASR引擎识别进行优化,以及优化标注方式。
附图说明
图1是本实施例的方法流程图;
图2是本实施例的系统构成图。
具体实施方式
实施例:
本实施例提出一种在线标注方法,参考图1,包括以下步骤:
S1,利用ASR引擎识别待标注音频得到原始音频日志和短音频;
S2,对原始音频日志和短音频进行解析,获取识别结果和音频相关信息;音频相关信息包括截幅比、音量、前信噪比、后信噪比、音频时长、识别延时、语句长度和传输延时。
S3,对识别结果进行在线标注,得到标注结果;
S4,根据识别结果和标注结果进行对比计算识别率;
步骤S4具体包括:获取识别结果关于缺漏错误、增添错误和替换错误的信息,计算识别率,识别率包括缺漏识别率、增添识别率、替换识别率和总错误识别率。对各种可能出现的错误进行统计,使对ASR引擎识别效果识别更加全面,有利于后续管理人员对ASR引擎识别进行优化,以及优化标注方式。
S5,利用音频相关信息对ASR引擎识别效果进行统计。
步骤S5具体包括:
S501,设定截幅比、音量、前信噪比和后信噪比的阈值范围;
S502,将音频相关信息与阈值范围进行比对,若超过阈值范围则标记为异常音频,并定位异常音频;
S503,计算异常音频占比,并以web客户端通过图表展示。
通过异常音频占比,以及定位异常音频,来展示ASR引擎识别效果的好坏,并以web客户端通过图表展示,方便管理人员直观获取ASR引擎识别效果的好坏。
步骤S5具体包括:
S511,对音频时长、识别延时、语句长度和传输延时进行计算得到相关参数;相关参数包括实时率、总实时率、排队时延、识别延时。
S512,设定相关参数的阈值范围,若相关参数超过阈值范围,对相关参数进行标记;
S513,用web客户端将相关参数以及带标记的相关参数用图表展示。
相对于传统的标注工具需要逐字进行标注,本发明在ASR引擎识别结果的基础上进行标注,可以节省标注成本,提高工作效率。本发明根据识别结果和标注结果对比,分析识别结果缺漏,增添,替换等相关信息,确定ASR引擎的识别效果。
截幅比、音量、前信噪比、后信噪比用于分析音频是否出现异常,音频时长、识别延时、语句长度和传输延时用于统计ASR引擎识别效果统计以及效果分析。
对相关参数进行标记,并用图标展示,有助于管理人员对ASR引擎识别效果较差时,直观获取ASR引擎识别效果较差的原因。
设置实时率、总实时率、排队时延、识别延时更加全面的判定ASR引擎识别效果较差的原因,提高判定的准确率。
本实施例还提出一种在线标注系统,采用上述的一种在线标注方法,参考图2,包括:
解析子系统,对原始音频日志和短音频进行解析,获取识别结果和音频相关信息;
在线标注子系统,对识别结果进行在线标注,得到标注结果;
统计子系统,根据识别结果和标注结果进行对比计算识别率,利用音频相关信息对ASR引擎识别效果进行统计;
垂直分数据库,分开存储解析和标注不同的阶段产生的数据。
标注音频管控子系统,根据不同的业务场景建立不同的项目和任务对需要标注的音频进行管控,提高标注的效率。
对解析和标注不同的阶段产生的数据,存储至不同的数据库,可以提高查询的效率。本发明在ASR引擎识别结果的基础上进行标注,可以节省标注成本,提高工作效率。本发明根据识别结果和标注结果对比,分析识别结果缺漏,增添,替换等相关信息,确定ASR引擎的识别效果。
本发明有以下有益效果:在ASR引擎识别结果的基础上进行标注,可以节省标注成本,提高工作效率;根据识别结果和标注结果对比,分析识别结果缺漏,增添,替换等相关信息,确定ASR引擎的识别效果;对各种可能出现的错误进行统计,使对ASR引擎识别效果识别更加全面,有利于后续管理人员对ASR引擎识别进行优化,以及优化标注方式。
Claims (8)
1.一种在线标注方法,其特征是,包括以下步骤:
S1,利用ASR引擎识别待标注音频得到原始音频日志和短音频;
S2,对原始音频日志和短音频进行解析,获取识别结果和音频相关信息;
S3,对识别结果进行在线标注,得到标注结果;
S4,根据识别结果和标注结果进行对比计算识别率;
S5,利用音频相关信息对ASR引擎识别效果进行统计。
2.根据权利要求1所述的一种在线标注方法,其特征是,所述音频相关信息包括截幅比、音量、前信噪比、后信噪比、音频时长、识别延时、语句长度和传输延时。
3.根据权利要求2所述的一种在线标注方法,其特征是,步骤S5具体包括:
S501,设定截幅比、音量、前信噪比和后信噪比的阈值范围;
S502,将音频相关信息与阈值范围进行比对,若超过阈值范围则标记为异常音频,并定位异常音频;
S503,计算异常音频占比,并以web客户端通过图表展示。
4.根据权利要求2所述的一种在线标注方法,其特征是,步骤S5具体包括:
S511,对音频时长、识别延时、语句长度和传输延时进行计算得到相关参数;
S512,设定相关参数的阈值范围,若相关参数超过阈值范围,对相关参数进行标记;
S513,用web客户端将相关参数以及带标记的相关参数用图表展示。
5.根据权利要求4所述的一种在线标注方法,其特征是,所述相关参数包括实时率、总实时率、排队时延、识别延时。
6.根据权利要求1所述的一种在线标注方法,其特征是,步骤S4具体包括:获取识别结果关于缺漏错误、增添错误和替换错误的信息,计算识别率,所述识别率包括缺漏识别率、增添识别率、替换识别率和总错误识别率。
7.一种在线标注系统,采用权利要求1所述的一种在线标注方法,其特征是,包括:
解析子系统,对原始音频日志和短音频进行解析,获取识别结果和音频相关信息;
在线标注子系统,对识别结果进行在线标注,得到标注结果;
统计子系统,根据识别结果和标注结果进行对比计算识别率,利用音频相关信息对ASR引擎识别效果进行统计;
垂直分数据库,分开存储解析和标注不同的阶段产生的数据。
8.根据权利要求7所述的一种在线标注系统,其特征是,还包括标注音频管控子系统,根据不同的业务场景建立不同的项目和任务对需要标注的音频进行管控。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010548311.7A CN111785272B (zh) | 2020-06-16 | 2020-06-16 | 一种在线标注方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010548311.7A CN111785272B (zh) | 2020-06-16 | 2020-06-16 | 一种在线标注方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111785272A CN111785272A (zh) | 2020-10-16 |
CN111785272B true CN111785272B (zh) | 2021-06-11 |
Family
ID=72756626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010548311.7A Active CN111785272B (zh) | 2020-06-16 | 2020-06-16 | 一种在线标注方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111785272B (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005050474A2 (en) * | 2003-11-21 | 2005-06-02 | Philips Intellectual Property & Standards Gmbh | Text segmentation and label assignment with user interaction by means of topic specific language models and topic-specific label statistics |
CN110209764B (zh) * | 2018-09-10 | 2023-04-07 | 腾讯科技(北京)有限公司 | 语料标注集的生成方法及装置、电子设备、存储介质 |
CN109599095B (zh) * | 2018-11-21 | 2020-05-29 | 百度在线网络技术(北京)有限公司 | 一种语音数据的标注方法、装置、设备和计算机存储介质 |
CN110853627B (zh) * | 2019-11-07 | 2022-12-27 | 证通股份有限公司 | 用于语音标注的方法及系统 |
CN111125124B (zh) * | 2019-11-18 | 2023-04-25 | 云知声智能科技股份有限公司 | 一种基于大数据平台的语料标注的方法及装置 |
-
2020
- 2020-06-16 CN CN202010548311.7A patent/CN111785272B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111785272A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11276407B2 (en) | Metadata-based diarization of teleconferences | |
CN108962282B (zh) | 语音检测分析方法、装置、计算机设备及存储介质 | |
CN107818798B (zh) | 客服服务质量评价方法、装置、设备及存储介质 | |
CN101662549B (zh) | 一种基于语音的客户评价系统及客户评价方法 | |
CN109669663B (zh) | 音区幅值获取方法、装置、电子设备及存储介质 | |
CN106847305B (zh) | 一种处理客服电话的录音数据的方法及装置 | |
CN110134756A (zh) | 会议记录生成方法、电子装置及存储介质 | |
CN112488222B (zh) | 一种众包数据标注方法、系统、服务器及存储介质 | |
CN110556110A (zh) | 语音处理方法及装置、智能终端、存储介质 | |
CN111444072A (zh) | 客户端的异常识别方法、装置、计算机设备和存储介质 | |
CN113361969A (zh) | 一种灵活可配置模板的智能质检系统 | |
CN111785272B (zh) | 一种在线标注方法及系统 | |
CN112346950A (zh) | 基于查询日志分析的数据库索引性能估计系统与方法 | |
CN115409518A (zh) | 用户交易风险预警方法及装置 | |
US20220157322A1 (en) | Metadata-based diarization of teleconferences | |
US7689414B2 (en) | Speech recognition device and method | |
CN112199376B (zh) | 一种基于聚类分析的标准知识库管理方法及系统 | |
US9047872B1 (en) | Automatic speech recognition tuning management | |
CN113380229B (zh) | 语音响应速度确定方法、相关装置及计算机程序产品 | |
CN114401348A (zh) | 一种运营商客服座席质检前监管提醒的方法 | |
CN112860873B (zh) | 智能应答方法、装置及存储介质 | |
CN113935309A (zh) | 一种基于语义平台的技能优化处理方法及系统 | |
CN110322883B (zh) | 一种语音转文字效果评价优化方法 | |
CN117609441A (zh) | 一种智能运维助手的排障方法、设备、装置及存储介质 | |
CN115985315A (zh) | 说话人标注方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |