CN109741731B - 一种语种训练数据获得方法及装置 - Google Patents

一种语种训练数据获得方法及装置 Download PDF

Info

Publication number
CN109741731B
CN109741731B CN201910015434.1A CN201910015434A CN109741731B CN 109741731 B CN109741731 B CN 109741731B CN 201910015434 A CN201910015434 A CN 201910015434A CN 109741731 B CN109741731 B CN 109741731B
Authority
CN
China
Prior art keywords
language
audio data
training
data
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910015434.1A
Other languages
English (en)
Other versions
CN109741731A (zh
Inventor
袁庆升
汪立东
包秀国
张鸿
时磊
张卫强
邵云飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
National Computer Network and Information Security Management Center
Original Assignee
Tsinghua University
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, National Computer Network and Information Security Management Center filed Critical Tsinghua University
Priority to CN201910015434.1A priority Critical patent/CN109741731B/zh
Publication of CN109741731A publication Critical patent/CN109741731A/zh
Application granted granted Critical
Publication of CN109741731B publication Critical patent/CN109741731B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种语种训练数据获得方法及装置,用以解决相关技术中语种训练数据质量较低的问题。该方法包括:训练用于识别各种语种的语种识别模型;使用各语种识别模型识别数据集中的第二音频数据,获得与各语种识别模型对应的得分;确定第二音频数据对应的识别语种;计算数据集中各条第二音频数据的得分信息熵;将所述数据集中,得分信息熵满足第一预设条件且实际语种与识别语种一致的第二音频数据的集合作为训练数据集,训练数据集中的第二音频数据用于训练所述语种识别模型,返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤,直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。本发明提高了语种训练数据的质量。

Description

一种语种训练数据获得方法及装置
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种语种训练数据获得方法及装置。
背景技术
语种识别模型的质量取决于用于训练该模型的训练数据的质量,然而一般情况下,训练数据中总会有一些标注错误的情况,这些数据的存在会使得训练得到的语种识别模型的描述能力较差,最终影响语种识别模型的识别性能。故如何将这些数据筛除变得非常重要。目前,语种训练数据的选择主要依靠人工检查,将标注好的训练数据进行抽检,发现标注错误率较大时,则重新对训练数据进行标注。这种方式费时费力,在数据量较大时,不可避免的会残留一些错误。
发明内容
本发明的主要目的在于提供一种语种训练数据获得方法及装置,以解决相关技术中用于训练语种识别模型的训练数据质量较低的问题。
根据本公开的第一个方面,提供了一种语种训练数据获得方法,包括:使用训练数据分别训练用于识别各种语种的语种识别模型,其中,所述训练数据中包括各种语种的第一音频数据;分别使用所述各语种识别模型识别数据集中的第二音频数据,所述第二音频数据预先标注有其所属语种,获得与各所述语种识别模型对应的得分;根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种;计算所述数据集中各条第二音频数据的得分信息熵;将所述数据集中,所述得分信息熵满足第一预设条件且实际语种与所述识别语种一致的第二音频数据的集合作为训练数据集,所述训练数据集中的第二音频数据用于训练所述语种识别模型,返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤,直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。
可选地,所述计算所述数据集中各条第二音频数据的得分信息熵,包括:使用如下公式对使用各所述语种识别模型识别所述第二音频数据得到的分数进行归一化;
Figure GDA0002697929230000021
其中,I为所述语种识别模型的总个数,
Figure GDA0002697929230000022
为第i个语种识别模型,
Figure GDA0002697929230000023
的上标(0)表示迭代次数,
Figure GDA0002697929230000024
表示使用第i个语种识别模型识别所述数据集中第j条第二音频数据的得分;
使用如下公式计算所述得分信息熵;
Figure DEST_PATH_BDA0001938884520000024
其中,H(j)表示所述数据集中第j条第二音频数据对应的得分信息熵。
可选地,所述第一预设条件,包括:H(j)≤κlog I,其中,H(j)表示所述数据集中第j条第二音频数据对应的得分信息熵,κ为预设常数,I为所述语种识别模型的总个数。
可选地,所述第二预设条件包括,当前得到的所述训练数据的数量与上一次得到的所述训练数据的数量一致。
可选地,所述根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种,包括:选择各所述语种识别模型对所述第二音频数据进行识别得到的得分中,得分最高的分数对应的语种作为所述第二音频数据的识别语种。
根据本发明的第二个方面,提供了一种语种训练数据获得装置,包括:训练模块,用于使用训练数据分别训练用于识别各种语种的语种识别模型,其中,所述训练数据中包括各种语种的第一音频数据;识别模块,用于分别使用所述各语种识别模型识别数据集中的第二音频数据,所述第二音频数据预先标注有其所属语种,获得与各所述语种识别模型对应的得分;第一确定模块,用于根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种;计算模块,用于计算所述数据集中各条第二音频数据的得分信息熵;第二确定模块,用于将所述数据集中,所述得分信息熵满足第一预设条件且实际语种与所述识别语种一致的第二音频数据的集合作为训练数据集,所述训练数据集中的第二音频数据用于训练所述语种识别模型,返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤,直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。
可选地,所述计算模块,包括:第一计算单元,用于使用如下公式对使用各所述语种识别模型识别所述第二音频数据得到的分数进行归一化;
Figure GDA0002697929230000031
其中,I为所述语种识别模型的总个数,
Figure GDA0002697929230000032
为第i个语种识别模型,
Figure GDA0002697929230000033
的上标(0)表示迭代次数,
Figure GDA0002697929230000034
表示使用第i个语种识别模型识别所述数据集中第j条第二音频数据的得分;第二计算单元,用于使用如下公式计算所述得分信息熵;
Figure DEST_PATH_BDA0001938884520000034
其中,H(j)表示所述数据集中第j条第二音频数据对应的得分信息熵。
可选地,所述第一预设条件,包括:H(j)≤κlog I,其中,H(j)表示所述数据集中第j条第二音频数据对应的得分信息熵,κ为预设常数,I为所述语种识别模型的总个数。
可选地,所述第二预设条件包括,当前得到的所述训练数据的数量与上一次得到的所述训练数据的数量一致。
可选地,所述第一确定模块用于:选择各所述语种识别模型对所述第二音频数据进行识别得到的得分中,得分最高的分数对应的语种作为所述第二音频数据的识别语种。
本发明实施例的语种训练数据获得方法基于训练得到的语种识别模型识别训练数据,根据识别分数选取信息熵低的训练数据作为新的训练数据,用于再次训练语种识别模型,即可实现对语种训练数据的提纯,从而得到质量较高的语种训练数据。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据一示例性实施例示出的一种语种训练数据获得方法的流程图;
图2是根据一示例性实施例示出的一种语种训练数据获得方法的流程图;
图3是根据一示例性实施例示出的一种语种训练数据获得装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种语种训练数据获得方法,该方法可用于语种训练数据的过滤与提纯,本发明的语种训练数据用于训练语种识别模块,语种识别模型可识别音频数据对应的语种。该方法先采用训练得到的语种识别模型对训练数据进行语种识别,然后根据识别分数选取信息熵低的训练数据再次训练语种识别模型,如此迭代若干次后,即可得到较为纯正的训练集数据,再利用这些数据训练得到的语种识别模型,将能够获得较高的识别性能。
图1是根据一示例性实施例示出的一种语种训练数据获得方法的流程图,如图1所示,该方法包括如下步骤:
步骤101:使用训练数据分别训练用于识别各种语种的语种识别模型,其中,所述训练数据中包括各种语种的第一音频数据;
上述训练数据可预先标注有其所属的语种,该训练数据在一个训练数据集中。
上述语种识别模型可以是GMM(高斯混合)模型、SVM(Support Vector Machine,支持向量机)模型或i-vector模型中的任意一种。
步骤102:分别使用所述各语种识别模型识别数据集中的第二音频数据,所述第二音频数据的预先标注有其所属语种,获得与各所述语种识别模型对应的得分;
步骤102中的数据集可以与步骤101中的训练数据集为同一数据集,也可为不同的数据集。在使用各语种识别模型识别第二音频数据的语种之前,该第二音频数据预先标注有其所属语种,故,根据各语种识别模型对第二音频数据进行语种识别得到的识别结果可用于衡量数据集中音频数据的之间,例如,可识别出一些标注错误的音频数据。
步骤103:根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种;
在一种可实现方式中,所述根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种可包括:选择各所述语种识别模型对所述第二音频数据进行识别得到的得分中,得分最高的分数对应的语种作为所述第二音频数据的识别语种。例如,假设上述语种识别模型包括,汉语识别模型、英语识别模型以及法语识别模型,对于数据集中第n条第二音频数据来说,在使用该三种模型对该音频数据进行语种识别时,得到的分数依次为汉语识别模型得到的分数为6分、英语识别模型得到的分数为5分以及法语模型得到的分数为8.5分,则可认为该数据集中该第n条音频数据的语种为法语。
步骤104:计算所述数据集中各条第二音频数据的得分信息熵;
在一种可实现方式中,所述计算所述数据集中各条第二音频数据的得分信息熵可包括:
使用如下公式对使用各所述语种识别模型识别所述第二音频数据得到的分数进行归一化;
Figure GDA0002697929230000061
其中,I为所述语种识别模型的总个数,
Figure GDA0002697929230000062
为第i个语种识别模型,
Figure GDA0002697929230000063
的上标(0)表示迭代次数,
Figure GDA0002697929230000064
表示使用第i个语种识别模型识别所述数据集中第j条第二音频数据的得分;
使用如下公式计算所述得分信息熵;
Figure GDA0002697929230000065
其中,H(j)表示所述数据集中第j条第二音频数据对应的得分信息熵。
步骤105:将所述数据集中,所述得分信息熵满足第一预设条件且实际语种与所述识别语种一致的第二音频数据的集合作为训练数据集,所述训练数据集中的第二音频数据用于训练所述语种识别模型,重新执行步骤101至步骤104,直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。
本发明实施例的语种训练数据获得方法基于训练得到的语种识别模型识别训练数据,根据识别分数选取信息熵低的训练数据作为新的训练数据,用于再次训练语种识别模型,即可实现对语种训练数据的提纯,从而得到质量较高的语种训练数据。
在一种可实现方式中,所述第一预设条件可包括:H(j)≤κlog I,其中, H(j)表示所述数据集中第j条第二音频数据对应的得分信息熵,κ为预设常数,I为所述语种识别模型的总个数。
在一种可实现方式中,所述第二预设条件可包括,当前得到的所述训练数据的数量与上一次得到的所述训练数据的数量一致,例如,通过不断的循环执行上述步骤101至步骤105这些步骤,直到某次重新执行完步骤101至步骤105之后,得到的训练数据的数量与上一次执行步骤101至步骤105时所得到的训练数据的数量一致时,该方法的流程结束。也即,通过不断的循环执行上述步骤101至步骤105,直至获得的训练数据的数量不再减少时,停止执行该方法的步骤。
以下结合附图2通过一个例子对本发明的语种训练数据的获得方法进行说明,该方法可在数字集成电路芯片中按以下流程实现:
步骤一:采用初始标注数据集训练基础模型,每类语种对应一个基础模型,共I个基础模型,第i个语种的模型记为
Figure GDA0002697929230000071
其中上标(0)表示迭代次数;
在该例子中,首先提供一个初始标注数据集,该数据集中可包括多种语种的音频数据,各音频数据可事先标注有其所属的语种。利用该初始标注数据集生成的语种识别模型可称为基础模型。
步骤二:先采用基础模型对训练数据(该训练数据可以是初始标注数据集中的训练数据)进行识别,第j条数据输入第i个语种模型得到的得分记为
Figure GDA0002697929230000072
步骤三:计算第j条数据的得分信息熵,计算过程如下:
采用如下公式对得分进行归一化处理:
Figure GDA0002697929230000081
将归一化的分数视为每个语种的概率,采用如下公式计算信息熵:
Figure GDA0002697929230000082
步骤四:根据信息熵进行数据选择,保留初始标注数据集中满足 H(j)≤κlogI条件以及
Figure GDA0002697929230000083
(语种识别分数最高的模型识别出的数据的语种)与该数据的标注标签(标注标签表明该数据所属的语种)一致的数据 (κ的取值可以为0.9,的取值可以决定步骤一至步骤四的循环执行次数),作为新的训练集;
步骤五:采用新的训练集重复步骤一至步骤四进行下一次迭代,直到训练集数据不再减少为止。
为了便于对本发明实施例的语种训练数据的获得方法进行理解,以下结合附图2基于该方法的一种可实现方式,对该方法的整个流程进行简要说明,如图2所示,首先基于训练得到的语种识别模型识别训练数据,根据识别分数选取信息熵低的训练数据进行再次训练语种识别模型,如此循环执行该过程,即可得到较为纯正的训练集数据,再利用这些数据训练得到的语种识别模型,将能够获得较高的识别性能。该方法可以对训练集中的错误数据、垃圾数据进行有效过滤,且处理流程简单,采用该方法,可以有效提高语种模型训练的质量。
本发明的语种训练数据的获得方法的关键在于信息熵的计算,下面将举一个例子对信息熵的计算进行说明。假设一共有5个语种模型,对某一条数据进行识别得到的分数分别为-0.1、0.1、-1.2、0.8、-0.6,则归一化因子为exp(-0.1)+exp(0.1)+exp(-1.2)+exp(0.8)+exp(-0.6)=5.085555,归一化分数为 exp(-0.1)/5.085555=0.177923、exp(0.1)/5.085555=0.217316、 exp(-1.2)/5.085555=0.059225、exp(0.8)/5.085555=0.437620、exp(-0.6)/5.085555=0.107916,进而可得到信息熵为{0.177923log(0.177923)+0.217316log(0.217316)+0.059225log(0.059225) +0.437620log(0.437620)+0.107916log(0.107916)}=1.408189
整个计算过程的结果如下表1所示:
表1
Figure GDA0002697929230000092
由于该熵值小于0.9*log5=1.44849,如果同时满足该条数据的语种标注号 4,则这条数据应该保留,否则可从初始标注数据集中删除该条数据。
图3是根据一示例性实施例示出的一种语种训练数据获得装置的框图,如图3所示,该装置30包括:
训练模块31,用于使用训练数据分别训练用于识别各种语种的语种识别模型,其中,所述训练数据中包括各种语种的第一音频数据;
识别模块32,用于分别使用所述各语种识别模型识别数据集中的第二音频数据,所述第二音频数据预先标注有其所属语种,获得与各所述语种识别模型对应的得分;
第一确定模块33,用于根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种;
计算模块34,用于计算所述数据集中各条第二音频数据的得分信息熵;
第二确定模块35,用于将所述数据集中,所述得分信息熵满足第一预设条件且实际语种与所述识别语种一致的第二音频数据的集合作为训练数据集,所述训练数据集中的第二音频数据用于训练所述语种识别模型,返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤,直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。
在一种可实现方式中,所述计算模块34可包括:第一计算单元,用于使用如下公式对使用各所述语种识别模型识别所述第二音频数据得到的分数进行归一化;
Figure GDA0002697929230000101
其中,I为所述语种识别模型的总个数,
Figure GDA0002697929230000102
为第i个语种识别模型,
Figure GDA0002697929230000103
的上标(0)表示迭代次数,
Figure GDA0002697929230000104
表示使用第i个语种识别模型识别所述数据集中第j条第二音频数据的得分;第二计算单元,用于使用如下公式计算所述得分信息熵;
Figure GDA0002697929230000105
其中,H(j)表示所述数据集中第j条第二音频数据对应的得分信息熵。
在一种可实现方式中,所述第一预设条件可包括:H(j)≤κlog I,其中, H(j)表示所述数据集中第j条第二音频数据对应的得分信息熵,κ为预设常数,I为所述语种识别模型的总个数。
在一种可实现方式中,所述第二预设条件可包括,当前得到的所述训练数据的数量与上一次得到的所述训练数据的数量一致。
在一种可实现方式中,所述第一确定模块33可用于:选择各所述语种识别模型对所述第二音频数据进行识别得到的得分中,得分最高的分数对应的语种作为所述第二音频数据的识别语种。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种语种训练数据获得方法,其特征在于,包括:
使用训练数据分别训练用于识别各种语种的语种识别模型,其中,所述训练数据中包括各种语种的第一音频数据;
分别使用所述各语种识别模型识别数据集中的第二音频数据,所述第二音频数据预先标注有其所属语种,获得与各所述语种识别模型对应的得分;
根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种;
计算所述数据集中各条所述第二音频数据的得分信息熵;
将所述数据集中,所述得分信息熵满足第一预设条件且实际语种与所述识别语种一致的第二音频数据的集合作为训练数据集,所述训练数据集中的第二音频数据用于训练所述语种识别模型,返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤,直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。
2.根据权利要求1所述的方法,其特征在于,所述计算所述数据集中各条所述第二音频数据的得分信息熵,包括:
使用如下公式对使用各所述语种识别模型识别所述第二音频数据得到的分数进行归一化;
Figure FDA0002697929220000011
其中,I为所述语种识别模型的总个数,
Figure FDA0002697929220000012
为第i个语种识别模型,
Figure FDA0002697929220000013
的上标(0)表示迭代次数,
Figure FDA0002697929220000014
表示使用第i个语种识别模型识别所述数据集中第j条第二音频数据的得分;
使用如下公式计算所述得分信息熵;
Figure FDA0002697929220000021
其中,H(j)表示所述数据集中第j条第二音频数据对应的得分信息熵。
3.根据权利要求1所述的方法,其特征在于,所述第一预设条件,包括:
H(j)≤κlogI,其中,H(j)表示所述数据集中第j条第二音频数据对应的得分信息熵,κ为预设常数,I为所述语种识别模型的总个数。
4.根据权利要求1所述的方法,其特征在于,所述第二预设条件包括:当前得到的所述训练数据的数量与上一次得到的所述训练数据的数量一致。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种,包括:
选择各所述语种识别模型对所述第二音频数据进行识别得到的得分中,得分最高的分数对应的语种作为所述第二音频数据的识别语种。
6.一种语种训练数据获得装置,其特征在于,包括:
训练模块,用于使用训练数据分别训练用于识别各种语种的语种识别模型,其中,所述训练数据中包括各种语种的第一音频数据;
识别模块,用于分别使用所述各语种识别模型识别数据集中的第二音频数据,所述第二音频数据预先标注有其所属语种,获得与各所述语种识别模型对应的得分;
第一确定模块,用于根据所述得分基于各所述语种识别模型确定出所述第二音频数据对应的识别语种;
计算模块,用于计算所述数据集中各条所述第二音频数据的得分信息熵;
第二确定模块,用于将所述数据集中,所述得分信息熵满足第一预设条件且实际语种与所述识别语种一致的第二音频数据的集合作为训练数据集,所述训练数据集中的第二音频数据用于训练所述语种识别模型,返回执行所述使用训练数据训练用于识别语种的各语种识别模型的步骤,直至获得的所述训练数据集中的音频数据的数量满足第二预设条件。
7.根据权利要求6所述的装置,其特征在于,所述计算模块,包括:
第一计算单元,用于使用如下公式对使用各所述语种识别模型识别所述第二音频数据得到的分数进行归一化;
Figure FDA0002697929220000031
其中,I为所述语种识别模型的总个数,
Figure FDA0002697929220000032
为第i个语种识别模型,
Figure FDA0002697929220000033
的上标(0)表示迭代次数,
Figure FDA0002697929220000034
表示使用第i个语种识别模型识别所述数据集中第j条第二音频数据的得分;
第二计算单元,用于使用如下公式计算所述得分信息熵;
Figure FDA0002697929220000035
其中,H(j)表示所述数据集中第j条第二音频数据对应的得分信息熵。
8.根据权利要求6所述的装置,其特征在于,所述第一预设条件,包括:
H(j)≤κlogI,其中,H(j)表示所述数据集中第j条第二音频数据对应的得分信息熵,κ为预设常数,I为所述语种识别模型的总个数。
9.根据权利要求6所述的装置,其特征在于,所述第二预设条件包括:当前得到的所述训练数据的数量与上一次得到的所述训练数据的数量一致。
10.根据权利要求6所述的装置,其特征在于,所述第一确定模块用于:
选择各所述语种识别模型对所述第二音频数据进行识别得到的得分中,得分最高的分数对应的语种作为所述第二音频数据的识别语种。
CN201910015434.1A 2019-01-08 2019-01-08 一种语种训练数据获得方法及装置 Active CN109741731B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910015434.1A CN109741731B (zh) 2019-01-08 2019-01-08 一种语种训练数据获得方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910015434.1A CN109741731B (zh) 2019-01-08 2019-01-08 一种语种训练数据获得方法及装置

Publications (2)

Publication Number Publication Date
CN109741731A CN109741731A (zh) 2019-05-10
CN109741731B true CN109741731B (zh) 2020-12-29

Family

ID=66363884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910015434.1A Active CN109741731B (zh) 2019-01-08 2019-01-08 一种语种训练数据获得方法及装置

Country Status (1)

Country Link
CN (1) CN109741731B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675864A (zh) * 2019-09-12 2020-01-10 上海依图信息技术有限公司 一种语音识别方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393740B (zh) * 2008-10-31 2011-01-19 清华大学 一种计算机多方言背景的汉语普通话语音识别的建模方法
EP3084002A4 (en) * 2013-12-16 2017-08-23 Complete Genomics, Inc. Basecaller for dna sequencing using machine learning
CN104036774B (zh) * 2014-06-20 2018-03-06 国家计算机网络与信息安全管理中心 藏语方言识别方法及系统
US20170308526A1 (en) * 2016-04-21 2017-10-26 National Institute Of Information And Communications Technology Compcuter Implemented machine translation apparatus and machine translation method
US20180260703A1 (en) * 2016-11-22 2018-09-13 Massachusetts Institute Of Technology Systems and methods for training neural networks
CN108154237B (zh) * 2016-12-06 2022-04-05 华为技术有限公司 一种数据处理系统及方法
CN108648747B (zh) * 2018-03-21 2020-06-02 清华大学 语种识别系统

Also Published As

Publication number Publication date
CN109741731A (zh) 2019-05-10

Similar Documents

Publication Publication Date Title
CN108959257B (zh) 一种自然语言解析方法、装置、服务器及存储介质
CN112016304A (zh) 文本纠错方法、装置、电子设备及存储介质
CN110516248A (zh) 语音识别结果纠错方法、装置、存储介质和电子设备
CN104978354B (zh) 文本分类方法和装置
CN107341143A (zh) 一种句子连贯性判断方法及装置和电子设备
CN109190099B (zh) 句模提取方法及装置
WO2020143301A1 (zh) 一种训练样本有效性检测方法、计算机设备及计算机非易失性存储介质
CN110751234A (zh) Ocr识别纠错方法、装置及设备
CN112417850A (zh) 音频标注的检错方法和装置
CN112101032A (zh) 一种基于自蒸馏的命名实体识别与纠错方法
CN110826301B (zh) 标点符号添加方法、系统、移动终端及存储介质
CN111354354B (zh) 一种基于语义识别的训练方法、训练装置及终端设备
CN109741731B (zh) 一种语种训练数据获得方法及装置
CN106484677A (zh) 一种基于最小信息量的汉语快速分词系统及方法
WO2020082613A1 (zh) 利用深度学习模型的证券研报核心观点提取方法及装置
CN110489514B (zh) 提升事件抽取标注效率的系统及方法、事件抽取方法及系统
CN110705258A (zh) 文本实体识别方法及装置
CN116089142A (zh) 一种新型的服务故障根因分析方法
CN111931020B (zh) 公式的标注方法、装置、设备及存储介质
CN114490929A (zh) 一种招投标信息采集方法、装置、存储介质及终端设备
CN113283233A (zh) 文本纠错方法、装置、电子设备和存储介质
CN108021918B (zh) 文字识别方法及装置
CN114078470A (zh) 模型处理方法及装置、语音识别方法及装置
CN112101019A (zh) 一种基于词性标注和组块分析的需求模板符合性检查优化方法
CN113515588A (zh) 表单数据检测方法、计算机装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant