CN110264996A - 语音标注质量确定方法、装置、设备及计算机可读介质 - Google Patents

语音标注质量确定方法、装置、设备及计算机可读介质 Download PDF

Info

Publication number
CN110264996A
CN110264996A CN201910693573.XA CN201910693573A CN110264996A CN 110264996 A CN110264996 A CN 110264996A CN 201910693573 A CN201910693573 A CN 201910693573A CN 110264996 A CN110264996 A CN 110264996A
Authority
CN
China
Prior art keywords
mark
text
history
quality
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910693573.XA
Other languages
English (en)
Other versions
CN110264996B (zh
Inventor
张晴晴
何淑琳
刘天宇
杨金富
罗磊
马光谦
汪洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qingshu Intelligent Technology Co ltd
Original Assignee
BEIJING WISDOM TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING WISDOM TECHNOLOGY Co Ltd filed Critical BEIJING WISDOM TECHNOLOGY Co Ltd
Publication of CN110264996A publication Critical patent/CN110264996A/zh
Application granted granted Critical
Publication of CN110264996B publication Critical patent/CN110264996B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种语音标注质量确定方法、装置、设备及计算机可读介质。所述方法包括将目标音频文件输入预设的语音识别模型中,得到预识别文本及所述预识别文本的贝叶斯风险值;获取标注员对所述预识别文本在标注过程中的标注过程信息及所述标注员在标注历史标注文本时的历史标注信息;基于所述贝叶斯风险值、所述标注过程信息及历史标注信息确定所述标注员对所述预识别文本进行标注的得到的标注文本的文本可信度;根据所述文本可信度确定所述标注文本的标注质量。本申请能够实现辅助验收员关注更可能出错的标注文本,进而提升整个语音数据标注质检的效率。

Description

语音标注质量确定方法、装置、设备及计算机可读介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种语音标注质量确定方法、装置、设备及计算机可读介质。
背景技术
目前,随着人工智能技术的突破,语音作为人机交互的重要环节,地位也越来越突出。但由于不同地域相应的语音差异性也较大,因此,为了建立一个有效的声学模型,需要对海量语音数据进行标注。
目前,语音数据获取常采用人工进行标注,再通过质检对标注数据进行合格验收。不同标注员标注数据的质量会存在参差不齐的情况,需要质检人员对数据质量再次把关,质检验收后获取的数据越精准,对声学模型训练的效果越好。质检验收常采用随机抽取标注员数据的方法,该方法随机性比较强,会存在漏掉质量差的标注数据。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种语音标注质量确定方法、装置、设备及计算机可读介质。
第一方面,本申请提供了一种语音标注质量确定方法,包括:
将目标音频文件输入预设的语音识别模型中,得到预识别文本及所述预识别文本的贝叶斯风险值;
获取标注员对所述预识别文本在标注过程中的标注过程信息及所述标注员在标注历史标注文本时的历史标注信息;
基于所述贝叶斯风险值、所述标注过程信息及历史标注信息确定所述标注员对所述预识别文本进行标注的得到的标注文本的文本可信度;
根据所述文本可信度确定所述标注文本的标注质量。
可选地,所述基于所述贝叶斯风险值、所述标注过程信息及历史标注信息确定所述标注员对所述预识别文本进行标注的得到的标注文本的文本可信度,包括:
若所述贝叶斯风险值超过预设风险阈值、根据所述历史标注信息确定的所述标注员的历史标注质量低于预设标注质量阈值且根据所述标注过程信息确定所述标注员对所述预识别文本的修改量小于预设修改阈值,则确定所述文本可信度低。
可选地,所述历史标注质量根据所述标注员的认真度和准确度确定;
根据所述历史标注记录确定所述标注员的历史标注质量是否低于预设标注质量阈值,包括:
根据所述历史标注信息确定所述标注员的历史标注质量是否低于预设标注质量阈值,包括:
根据所述历史标注信息确定所述标注员的认真度和准确度;
将所述历史标注质量与预设标注质量阈值比较;
若所述历史标注质量小于所述预设标注质量阈值,确定所述标注员的历史标注质量低于预设标注质量阈值;否则,确定所述标注员的历史标注质量大于预设标注质量阈值。
可选地,所述历史标注质量根据所述标注员的准确度和标注时长确定;
根据所述历史标注信息确定所述标注员的历史标注质量是否低于预设标注质量阈值,包括:
根据所述历史标注信息确定所述标注员的认真度和准确度;
基于所述认真度、预设认真度权重系数、准确度及预设准确度权重系数计算所述标注员的历史标注质量;
将所述历史标注质量与预设标注质量阈值比较;
若所述历史标注质量小于所述预设标注质量阈值,确定所述标注员的历史标注质量低于预设标注质量阈值;否则,确定所述标注员的历史标注质量大于预设标注质量阈值。
可选地,所述方法还包括:
获取所述目标音频文件的文件信息;
在多个标注团队中,查找与所述文件信息匹配的标注团队;
基于所述标注团队中多个标注员的历史标注信息,确定对所述目标音频文件进行语音识别标注的标注员。
可选地,所述根据所述文本可信度确定所述标注文本的标注质量,包括:
若所述文本可信度大于所述预设可信度阈值,确定所述标注文本的标注质量合格;
若所述文本可信度小于所述预设可信度阈值,确定所述标注文本的标注质量不合格,待进一步校验。
第二方面,本申请还提供了一种语音标注质量确定装置,包括:
输入模块,用于将目标音频文件输入预设的语音识别模型中,得到预识别文本及所述预识别文本的贝叶斯风险值;
第一获取模块,用于获取标注员对所述预识别文本在标注过程中的标注过程信息及所述标注员在标注历史标注文本时的历史标注信息;
第一确定模块,用于基于所述贝叶斯风险值、所述标注过程信息及历史标注信息确定所述标注员对所述预识别文本进行标注的得到的标注文本的文本可信度;
第二确定模块,用于根据所述文本可信度确定所述标注文本的标注质量。
可选地,所述第一确定模块,还用于:
若所述贝叶斯风险值超过预设风险阈值、根据所述历史标注信息确定的所述标注员的历史标注质量低于预设标注质量阈值且根据所述标注过程信息确定所述标注员对所述预识别文本的修改量小于预设修改阈值,则确定所述文本可信度低。
第三方面,本申请还提供了一种语音标注设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法的步骤。
第四方面,本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行所述第一方面所述的方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请通过首先将目标音频文件输入预设的语音识别模型中,得到预识别文本及所述预识别文本的贝叶斯风险值,然后获取标注员对所述预识别文本在标注过程中的标注过程信息及所述标注员在标注历史标注文本时的历史标注信息,再基于所述贝叶斯风险值、所述标注过程信息及历史标注信息确定所述标注员对所述预识别文本进行标注的得到的标注文本的文本可信度,最后可以根据所述文本可信度确定所述标注文本的标注质量,实现辅助验收员关注更可能出错的标注文本,进而提升整个语音数据标注质检的效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种语音标注质量确定方法的一种流程图;
图2为本申请实施例提供的一种语音标注质量确定方法的另一种流程图;
图3为本申请实施例提供的一种语音标注质量确定装置的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
由于目前语音数据获取常采用人工进行标注,再通过质检对标注数据进行合格验收。不同标注员标注数据的质量会存在参差不齐的情况,需要质检人员对数据质量再次把关,质检验收后获取的数据越精准,对声学模型训练的效果越好。质检验收常采用随机抽取标注员数据的方法,该方法随机性比较强,会存在漏掉质量差的标注数据。为此,本发明实施例提供一种语音标注质量确定方法,如图1所示,所述方法可以包括以下步骤:
步骤S101,将目标音频文件输入预设的语音识别模型中,得到预识别文本及所述预识别文本的贝叶斯风险值;
在本申请实施例中,可以预先获取用于训练语音识别模型的音频文件,提取音频文件中常用的语音特征,以对音频文件进行语音识别得到的正确文本作为模型输出,通过最小化预测文本和正确文本之间错误率,对模型参数进行调整和训练,得到训练好的语音识别模型,本申请实施例中的语音识别模型可以指:深入神经网络或者隐马尔科夫模型等。
语音识别模型在进行语音识别过程中,通过解码结果可得到预识别文本中各个词语的置信度分数,对预识别文本中各词语的置信度分数值进行分析,通过一定计算方法(例如:取平均值等)可得到该文本的贝叶斯风险值。
步骤S102,获取标注员对所述预识别文本在标注过程中的标注过程信息及所述标注员在标注历史标注文本时的历史标注信息;
在本申请实施例中,所述历史标注信息包括:标注员所标注的标注文本的验收合格率,标注文本的平均返修率,一次通过率,标注文本被打回次数信息等体现标注员的历史标注质量信息。
标注过程信息包括:标注员对当前标注文本是否一键清除,标注过程中基于预识别文本是否存在词或者字的插入,删除或者替换等。
步骤S103,基于所述贝叶斯风险值、所述标注过程信息及历史标注信息确定所述标注员对所述预识别文本进行标注的得到的标注文本的文本可信度;
在该步骤中,基于预识别文本的贝叶斯风险值、统计标注员之前历史标注信息和标注员对预识别文本的标注过程信息(替换字,删除字或者添加字等)确定标注文本的文本可信度。
若所述贝叶斯风险值超过预设风险阈值、根据所述历史标注信息确定的所述标注员的历史标注质量低于预设标注质量阈值且根据所述标注过程信息确定所述标注员对所述预识别文本的修改量小于预设修改阈值,则确定所述文本可信度低。
在本申请的一种实施方式中,所述历史标注质量根据所述标注员的认真度和准确度确定;
根据所述历史标注信息确定所述标注员的历史标注质量是否低于预设标注质量阈值,可以包括以下步骤:根据所述历史标注信息确定所述标注员的认真度和准确度;基于所述认真度、预设认真度权重系数、准确度及预设准确度权重系数计算所述标注员的历史标注质量;将所述历史标注质量与预设标注质量阈值比较;若所述历史标注质量小于所述预设标注质量阈值,确定所述标注员的历史标注质量低于预设标注质量阈值;否则,确定所述标注员的历史标注质量大于预设标注质量阈值。
在本申请的另一种实施方式中,所述历史标注质量根据所述标注员的准确度和标注时长确定;
根据所述历史标注信息确定所述标注员的历史标注质量是否低于预设标注质量阈值,可以包括以下步骤:根据所述历史标注信息确定所述标注员的认真度和准确度;基于所述认真度、预设认真度权重系数、准确度及预设准确度权重系数计算所述标注员的历史标注质量;将所述历史标注质量与预设标注质量阈值比较;若所述历史标注质量小于所述预设标注质量阈值,确定所述标注员的历史标注质量低于预设标注质量阈值;否则,确定所述标注员的历史标注质量大于预设标注质量阈值。
步骤S104,根据所述文本可信度确定所述标注文本的标注质量。
在该步骤中,若所述文本可信度大于所述预设可信度阈值,确定所述标注文本的标注质量合格;
若所述文本可信度小于所述预设可信度阈值,确定所述标注文本的标注质量不合格,待进一步校验。
本申请通过首先将目标音频文件输入预设的语音识别模型中,得到预识别文本及所述预识别文本的贝叶斯风险值,然后获取所述标注员对所述预识别文本在标注过程中的标注过程信息及所述标注员历史标注文本的历史标注信息,再基于所述贝叶斯风险值、所述标注过程信息及历史标注信息确定所述标注文本的文本可信度,最后可以根据所述文本可信度确定所述标注文本的标注质量,实现辅助验收员关注更可能出错的标注文本,进而提升整个语音数据标注质检的效率。
在本申请的又一实施例中,在步骤S101之前,如图2所示,所述方法还包括:
步骤S201,获取所述目标音频文件的文件信息;
在本申请实施例中,文件信息可以指语音文件是否有地域性及语音数据类型等,例如:客服对话还是朗读语音,标注难易程度等,基于前期对标注团队擅长项目,标注团队可完成任务难易程度,选择适合的标注团队。
步骤S202,在多个标注团队中,查找与所述文件信息匹配的标注团队;
步骤S203,基于所述标注团队中多个标注员的历史标注信息,确定对所述目标音频文件进行语音识别标注的标注员。
基于标注员对同类项目的标注历史信息,获取标注员所属团队信息,标注员准确性,认真度,标注时效比信息,擅长任务信息,用于动态推送不同标注员不同任务。
本申请能够通过标注平台收集标注员对类似项目的标注信息,进而得到:标注员项目的时效信息,标注员标注认真度,标注员数据准确度,基于该标注员历史数据同时对标注员擅长任务进行数据统计,后续用于在项目任务中对不同标注员进行动态分配标注任务。
在本申请的又一实施例中,如图3所示,还提供一种语音标注质量确定装置,包括:
输入模块11,用于将目标音频文件输入预设的语音识别模型中,得到预识别文本及所述预识别文本的贝叶斯风险值;
第一获取模块12,用于获取标注员对所述预识别文本在标注过程中的标注过程信息及所述标注员在标注历史标注文本时的历史标注信息;
第一确定模块13,用于基于所述贝叶斯风险值、所述标注过程信息及历史标注信息确定所述标注员对所述预识别文本进行标注的得到的标注文本的文本可信度;
第二确定模块14,用于根据所述文本可信度确定所述标注文本的标注质量。
在本申请的又一实施例中,所述第一确定模块,还用于:
若所述贝叶斯风险值超过预设风险阈值、根据所述历史标注信息确定的所述标注员的历史标注质量低于预设标注质量阈值且根据所述标注过程信息确定所述标注员对所述预识别文本的修改量小于预设修改阈值,则确定所述文本可信度低。
在本申请的又一实施例中,还提供一种语音标注设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法实施例所述的方法的步骤。
在本申请的又一实施例中,还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行所述方法实施例所述的方法。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种语音标注质量确定方法,其特征在于,包括:
将目标音频文件输入预设的语音识别模型中,得到预识别文本及所述预识别文本的贝叶斯风险值;
获取标注员对所述预识别文本在标注过程中的标注过程信息及所述标注员在标注历史标注文本时的历史标注信息;
基于所述贝叶斯风险值、所述标注过程信息及历史标注信息确定所述标注员对所述预识别文本进行标注的得到的标注文本的文本可信度;
根据所述文本可信度确定所述标注文本的标注质量。
2.根据权利要求1所述的语音标注质量确定方法,其特征在于,所述基于所述贝叶斯风险值、所述标注过程信息及历史标注信息确定所述标注员对所述预识别文本进行标注的得到的标注文本的文本可信度,包括:
若所述贝叶斯风险值超过预设风险阈值、根据所述历史标注信息确定的所述标注员的历史标注质量低于预设标注质量阈值且根据所述标注过程信息确定所述标注员对所述预识别文本的修改量小于预设修改阈值,则确定所述文本可信度低。
3.根据权利要求2所述的语音标注质量确定方法,其特征在于,所述历史标注质量根据所述标注员的认真度和准确度确定;
根据所述历史标注信息确定所述标注员的历史标注质量是否低于预设标注质量阈值,包括:
根据所述历史标注信息确定所述标注员的认真度和准确度;
基于所述认真度、预设认真度权重系数、准确度及预设准确度权重系数计算所述标注员的历史标注质量;
将所述历史标注质量与预设标注质量阈值比较;
若所述历史标注质量小于所述预设标注质量阈值,确定所述标注员的历史标注质量低于预设标注质量阈值;否则,确定所述标注员的历史标注质量大于预设标注质量阈值。
4.根据权利要求2所述的语音标注质量确定方法,其特征在于,所述历史标注质量根据所述标注员的准确度和标注时长确定;
根据所述历史标注信息确定所述标注员的历史标注质量是否低于预设标注质量阈值,包括:
根据所述历史标注信息确定所述标注员的认真度和准确度;
基于所述认真度、预设认真度权重系数、准确度及预设准确度权重系数计算所述标注员的历史标注质量;
将所述历史标注质量与预设标注质量阈值比较;
若所述历史标注质量小于所述预设标注质量阈值,确定所述标注员的历史标注质量低于预设标注质量阈值;否则,确定所述标注员的历史标注质量大于预设标注质量阈值。
5.根据权利要求1所述的语音标注质量确定方法,其特征在于,所述方法还包括:
获取所述目标音频文件的文件信息;
在多个标注团队中,查找与所述文件信息匹配的标注团队;
基于所述标注团队中多个标注员的历史标注信息,确定对所述目标音频文件进行语音识别标注的标注员。
6.根据权利要求1所述的语音标注质量确定方法,其特征在于,所述根据所述文本可信度确定所述标注文本的标注质量,包括:
若所述文本可信度大于预设可信度阈值,确定所述标注文本的标注质量合格;
若所述文本可信度小于所述预设可信度阈值,确定所述标注文本的标注质量不合格,待进一步校验。
7.一种语音标注质量确定装置,其特征在于,包括:
输入模块,用于将目标音频文件输入预设的语音识别模型中,得到预识别文本及所述预识别文本的贝叶斯风险值;
第一获取模块,用于获取标注员对所述预识别文本在标注过程中的标注过程信息及所述标注员在标注历史标注文本时的历史标注信息;
第一确定模块,用于基于所述贝叶斯风险值、所述标注过程信息及历史标注信息确定所述标注员对所述预识别文本进行标注的得到的标注文本的文本可信度;
第二确定模块,用于根据所述文本可信度确定所述标注文本的标注质量。
8.根据权利要求7所述的语音标注质量确定装置,其特征在于,所述第一确定模块,还用于:
若所述贝叶斯风险值超过预设风险阈值、根据所述历史标注信息确定的所述标注员的历史标注质量低于预设标注质量阈值且根据所述标注过程信息确定所述标注员对所述预识别文本的修改量小于预设修改阈值,则确定所述文本可信度低。
9.一种语音标注设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至6任一项所述的方法的步骤。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1-6任一所述方法。
CN201910693573.XA 2019-04-17 2019-07-30 语音标注质量确定方法、装置、设备及计算机可读介质 Active CN110264996B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910306732.6A CN110070854A (zh) 2019-04-17 2019-04-17 语音标注质量确定方法、装置、设备及计算机可读介质
CN2019103067326 2019-04-17

Publications (2)

Publication Number Publication Date
CN110264996A true CN110264996A (zh) 2019-09-20
CN110264996B CN110264996B (zh) 2021-12-17

Family

ID=67367871

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910306732.6A Withdrawn CN110070854A (zh) 2019-04-17 2019-04-17 语音标注质量确定方法、装置、设备及计算机可读介质
CN201910693573.XA Active CN110264996B (zh) 2019-04-17 2019-07-30 语音标注质量确定方法、装置、设备及计算机可读介质

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201910306732.6A Withdrawn CN110070854A (zh) 2019-04-17 2019-04-17 语音标注质量确定方法、装置、设备及计算机可读介质

Country Status (1)

Country Link
CN (2) CN110070854A (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472054B (zh) * 2019-08-15 2023-05-23 北京爱数智慧科技有限公司 一种数据处理方法和装置
CN111259251A (zh) * 2020-01-21 2020-06-09 北京爱数智慧科技有限公司 一种推荐标注任务的方法和装置
CN114025216B (zh) * 2020-04-30 2023-11-17 网易(杭州)网络有限公司 媒体素材处理方法、装置、服务器及存储介质
CN112669814A (zh) * 2020-12-17 2021-04-16 北京猎户星空科技有限公司 一种数据处理方法、装置、设备及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439660A (zh) * 2010-06-29 2012-05-02 株式会社东芝 基于置信度得分的语音标签方法和装置
CN102662930A (zh) * 2012-04-16 2012-09-12 乐山师范学院 一种语料标注方法及装置
US20130066632A1 (en) * 2011-09-14 2013-03-14 At&T Intellectual Property I, L.P. System and method for enriching text-to-speech synthesis with automatic dialog act tags
CN103530282A (zh) * 2013-10-23 2014-01-22 北京紫冬锐意语音科技有限公司 语料标注方法及设备
CN104795077A (zh) * 2015-03-17 2015-07-22 北京航空航天大学 一种检验语音标注质量的一致性检测方法
CN107808661A (zh) * 2017-10-23 2018-03-16 中央民族大学 一种基于协作式批量主动学习的藏语语音语料标注方法及系统
US20180130460A1 (en) * 2016-11-08 2018-05-10 International Business Machines Corporation Splitting utterances for quick responses
CN108389577A (zh) * 2018-02-12 2018-08-10 广州视源电子科技股份有限公司 优化语音识别声学模型的方法、系统、设备及存储介质
CN109062950A (zh) * 2018-06-22 2018-12-21 北京奇艺世纪科技有限公司 一种文本标注的方法及装置
CN109446300A (zh) * 2018-09-06 2019-03-08 厦门快商通信息技术有限公司 一种语料预处理方法、语料预标注方法及电子设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439660A (zh) * 2010-06-29 2012-05-02 株式会社东芝 基于置信度得分的语音标签方法和装置
US20130066632A1 (en) * 2011-09-14 2013-03-14 At&T Intellectual Property I, L.P. System and method for enriching text-to-speech synthesis with automatic dialog act tags
CN102662930A (zh) * 2012-04-16 2012-09-12 乐山师范学院 一种语料标注方法及装置
CN103530282A (zh) * 2013-10-23 2014-01-22 北京紫冬锐意语音科技有限公司 语料标注方法及设备
CN104795077A (zh) * 2015-03-17 2015-07-22 北京航空航天大学 一种检验语音标注质量的一致性检测方法
US20180130460A1 (en) * 2016-11-08 2018-05-10 International Business Machines Corporation Splitting utterances for quick responses
US9972308B1 (en) * 2016-11-08 2018-05-15 International Business Machines Corporation Splitting utterances for quick responses
CN107808661A (zh) * 2017-10-23 2018-03-16 中央民族大学 一种基于协作式批量主动学习的藏语语音语料标注方法及系统
CN108389577A (zh) * 2018-02-12 2018-08-10 广州视源电子科技股份有限公司 优化语音识别声学模型的方法、系统、设备及存储介质
CN109062950A (zh) * 2018-06-22 2018-12-21 北京奇艺世纪科技有限公司 一种文本标注的方法及装置
CN109446300A (zh) * 2018-09-06 2019-03-08 厦门快商通信息技术有限公司 一种语料预处理方法、语料预标注方法及电子设备

Also Published As

Publication number Publication date
CN110070854A (zh) 2019-07-30
CN110264996B (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN110264996A (zh) 语音标注质量确定方法、装置、设备及计算机可读介质
US11068519B2 (en) Conversation oriented machine-user interaction
US20190333118A1 (en) Cognitive product and service rating generation via passive collection of user feedback
CN107256428B (zh) 数据处理方法、数据处理装置、存储设备及网络设备
CN110297912A (zh) 欺诈识别方法、装置、设备及计算机可读存储介质
EP3144860A2 (en) Subject estimation system for estimating subject of dialog
Kim et al. Point-based value iteration for constrained POMDPs
CN110263157B (zh) 一种数据风险预测方法、装置及设备
KR102416684B1 (ko) 인공지능 기반 이력서/구인요청서 작성 지원 시스템
CN109492858B (zh) 基于机器学习的员工绩效预测方法及装置、设备、介质
JP2020091846A (ja) 会話に基づくチケットロギングのためのシステム及び方法
US11250513B2 (en) Computer implemented system for generating assurance related planning process and documents for an entity and method thereof
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
JP2017059205A (ja) 主題推定システム、主題推定方法およびプログラム
CN110929524A (zh) 数据筛选方法、装置、设备及计算机可读存储介质
CN112364661B (zh) 一种数据检测的方法、装置、可读存储介质和电子设备
CN110321416A (zh) 基于aiml的智能问答方法、装置、计算机设备及存储介质
AU2021218244A1 (en) Machine learning modeling for protection against online disclosure of sensitive data
CN117114514B (zh) 一种基于大数据的人才信息分析管理方法、系统及装置
CN113051930A (zh) 基于Bert模型的意图识别方法、装置及相关设备
Misu et al. Modeling spoken decision support dialogue and optimization of its dialogue strategy
CN111181757A (zh) 信息安全风险预测方法、装置以及计算设备、存储介质
CN113077312A (zh) 酒店推荐方法、系统、设备及存储介质
CN116402630B (zh) 一种基于表征学习的财务风险预测方法及系统
US10305765B2 (en) Adaptive selection of message data properties for improving communication throughput and reliability

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 411, 4th floor, building 4, No.44, Middle North Third Ring Road, Haidian District, Beijing 100088

Patentee after: Beijing Qingshu Intelligent Technology Co.,Ltd.

Address before: 100044 1415, 14th floor, building 1, yard 59, gaoliangqiaoxie street, Haidian District, Beijing

Patentee before: BEIJING AISHU WISDOM TECHNOLOGY CO.,LTD.

CP03 Change of name, title or address