CN112185359A - 一种基于词覆盖率的语音训练集最小化方法 - Google Patents

一种基于词覆盖率的语音训练集最小化方法 Download PDF

Info

Publication number
CN112185359A
CN112185359A CN202011040506.7A CN202011040506A CN112185359A CN 112185359 A CN112185359 A CN 112185359A CN 202011040506 A CN202011040506 A CN 202011040506A CN 112185359 A CN112185359 A CN 112185359A
Authority
CN
China
Prior art keywords
text
dis
corpus
training set
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011040506.7A
Other languages
English (en)
Other versions
CN112185359B (zh
Inventor
李清安
付磊
邵鹏飞
张�浩
薛春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Bingli Technology Co ltd
Original Assignee
Guangzhou Bingli Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Bingli Technology Co ltd filed Critical Guangzhou Bingli Technology Co ltd
Priority to CN202011040506.7A priority Critical patent/CN112185359B/zh
Publication of CN112185359A publication Critical patent/CN112185359A/zh
Application granted granted Critical
Publication of CN112185359B publication Critical patent/CN112185359B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于语音识别技术领域,公开了一种基于词覆盖率的语音训练集最小化方法,遍历所有训练集文本获得词袋,并为每条文本生成对应的向量,计算当前未加入语料库的剩余文本对应的向量与当前的语料库的向量之间的相似度,得到区别程度信息,根据区别程度信息挑选出对语料库贡献最大的文本,最终得到最小化的语音训练集。本发明能够解决现有技术中通用ASR模型在专门领域性能显著下降、语音数据采集成本高昂的问题,能够用最少的数据得到最大的模型性能提升。

Description

一种基于词覆盖率的语音训练集最小化方法
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于词覆盖率的语音训练集最小化方法。
背景技术
深度神经网络(Deep Neural Networks,DNN)在语音识别技术领域的应用和改进和海量的训练数据以及强大的计算能力作为保障,通用自动语音识别技术(AutomaticSpeech Recognition,ASR)取得了巨大的突破。但是,在为专门领域开发基于ASR的系统时,比如基于ASR的医疗报告自动生成系统,通用ASR模型的性能有显著下降。比如,科大讯飞的云端语音识别引擎,在通用语音上的语音识别的字错误率低于5%;但是前期实验评估表明,在医疗领域语音数据上,其字错误率接近20%。其原因在于通用ASR模型是基于通用语音和文本数据训练的,其面临的特征和分布不能与专门领域的数据特征和分布完全一致。
业界主要基于两种思路来改善专门领域的语音识别性能。第一种思路是,补充专门领域的数据集,然后利用模型迁移等技术,将通用ASR模型适配到专门领域。第二种思路是,基于专门领域重新训练ASR模型。这两种思路都需要搜集一定规模的专门领域的数据。然而,通常专门领域的数据集极为缺乏,尤其是语音数据。比如,在医疗报告自动生成场景下,已有海量医疗报告的文本数据,但是基本上没有语音记录。语音数据的采集成本异常高昂,不仅需要额外投入设备和人力资源,而且会干扰现有的医疗业务流程。
发明内容
本发明通过提供一种基于词覆盖率的语音训练集最小化方法,解决了现有技术中通用ASR模型在专门领域性能显著下降、语音数据采集成本高昂的问题。
本发明提供一种基于词覆盖率的语音训练集最小化方法,包括以下步骤:
步骤1、初始化词典集合为空,遍历所有训练集文本,将每条文本中的词汇集合与所述词典集合取并集得到词袋,所述词袋包含第一数量的词汇;得到所述词袋后,为每条文本生成对应的向量;将语料库的全局向量globalvector初始化为维度为所述第一数量的零向量;
步骤2、计算当前未加入语料库的剩余文本对应的向量filevector与当前的语料库的向量globalvector之间的相似度,得到区别程度信息,所述区别程度信息记为Dis(globalvector,filevector);对每一条剩余文本,以文件名作为key,以该文本对应的区别程度信息Dis为value,存入文件名-Dis词典;
步骤3、遍历所述文件名-Dis词典,维护最大Dis值的{filename,Dis}二元组;
步骤4、将所述最大Dis值的{filename,Dis}二元组对应的文本加入语料库,更新语料库的词汇集合,并计算加入该文本后的词覆盖率;所述词覆盖率定义为当前语料库所含词汇数量与所述第一数量之比;
步骤5、判断当前的词覆盖率是否达到预期条件且是否还有剩余文本;
若所述当前的词覆盖率达到所述预期条件,或者,已无剩余文本可加入语料库,则结束训练集筛选算法,得到最小化的语音训练集;
若所述当前的词覆盖率未达到所述预期条件,且还有剩余文本,则转至步骤2。
优选的,所述步骤1中,所述为每条文本生成对应的向量的具体实现方式为:
将词汇作为特征项,将文本定义为该文本包含的所有特征项及特征项对应的权重所组成的集合,表示为D=D(t1,w1;t2,w2;...,tn,wn);
其中,tk表示特征项1≤k≤n,wk表示特征项tk对应的权重,1≤k≤n。
优选的,所述步骤1中,为每条文本生成对应的向量后,以文本名路径作为key,将文本对应的向量作为value存入所述词袋中。
优选的,所述步骤2中,计算相似度采用余弦相似度方法,所述区别程度信息Dis(globalvector,filevector)=1-Similarity(globalvector,filevector)=1-cosθ。
优选的,所述步骤2中,计算相似度采用维度数评估方法,所述区别程度信息
Figure BDA0002706482780000021
优选的,所述步骤3中,所述维护最大Dis值的二元组的具体实现方式为:
以所述文件名-Dis词典中的第一条记录初始化{filename,Dis}二元组,遍历比较后续记录的Dis值,若当前记录Dis值大于当前{filename,Dis}二元组所维护的最大Dis值,则用该记录的filename和Dis更新{filename,Dis}二元组。
优选的,所述步骤4中,计算加入该文本后的词覆盖率后,记录当前的文件名和当前的词覆盖率。
优选的,所述步骤5中的所述最小化的语音训练集对应的输出文件包括训练集中的所有文件名、文件数和对应的词覆盖率;所述最小化的语音训练集用于训练语音识别模型。
本发明中提供的一个或多个技术方案,至少具有如下技术效果或优点:
在发明中,遍历所有训练集文本获得词袋,并为每条文本生成对应的向量,计算当前未加入语料库的剩余文本对应的向量与当前的语料库的向量之间的相似度,得到区别程度信息,根据区别程度信息挑选出对语料库贡献最大的文本,最终得到最小化的语音训练集。本发明用最少的数据得到最大的模型性能提升,通过筛选现有文本数据采集录音,可以有效降低语音采集成本。
附图说明
图1为本发明实施例提供的一种基于词覆盖率的语音训练集最小化方法中筛选训练集的流程图;
图2是本发明实施例提供的一种基于词覆盖率的语音训练集最小化方法中词覆盖率-训练样本量图;
图3是本发明实施例提供的一种基于词覆盖率的语音训练集最小化方法中词覆盖率-模型性能图;
图4是本发明实施例提供的一种基于词覆盖率的语音训练集最小化方法中训练样本量-模型性能图;
图5是本发明实施例提供的一种基于词覆盖率的语音训练集最小化方法中训练样本量-模型性能平滑图;
图6是本发明实施例提供的一种基于词覆盖率的语音训练集最小化方法中训练样本量-模型性能散点图。
具体实施方式
本发明的技术方案为一种基于词覆盖率的语音训练集最小化方法,包含以下步骤:
步骤1,初始化词典dictionary集合为空,遍历所有训练集文本,将每条文本中的词汇集合与词典dictionary集合取并集,得到词袋(即所有词汇的集合dictionary),所述词袋包含第一数量的词汇。
此时语料库未加入文本,语料库对应的向量globalvector为零向量,wordcoverage为0。得到所述词袋(即获取到总词汇)后对所有的文本生成对应的向量,对每个文本进行遍历词典,判断词典中的词是否出现在本文本中,若出现则向量新增一维置1,否则置0。将语料库的向量globalvector初始化为维度为所述第一数量的零向量。
步骤2,计算当前未加入语料库的剩余文本对应的向量filevector与当前的语料库的向量globalvector之间的相似度,得到区别程度信息。
相似度是指任意两个文本D1和D2之间的相似性系数Similarity(D1,D2),代表两个文本内容的相关程度(degree of relevance)。可以借助于n维向量之间的某种距离来表示文本之间的相似度。每条文本对应的向量已由步骤1生成,globalvector随着文本加入语料库而不断变化,剩余文本与其相似度也随之改变,根据相似度求出区别程度Dis(globalvector,filevector)。
具体的,采用两种方法计算Dis(globalvector,filevector)。
一种方法令:
Dis(globalvector,filevector)=1-Similarity(globalvector,filevector)=1-cosθ。
另一种方法令:
Figure BDA0002706482780000041
步骤3,遍历步骤2中得到的文件名-Dis词典,维护最大Dis值的{filename,Dis}二元组。
步骤4,根据步骤3中得到的最大Dis值的{filename,Dis}二元组,以该文本作为对当前语料库贡献最大的文本加入语料库中,更新语料库中的词汇集合,计算加入该文本后语料库的词覆盖率,记录当前文件名和词覆盖率。
步骤5,判断当前的词覆盖率是否达到预期标准且是否还有剩余文本,若达到预期标准或已无文本可加入语料库,则结束训练集筛选算法,得到最小化的语音训练集,若未达到预期标准且还有剩余文本,则转步骤2。
所述最小化的语音训练集对应的输出文件包括训练集中的所有文件名、文件数和对应的词覆盖率;所述最小化的语音训练集用于训练语音识别模型。
此外,还可以包括步骤6。
步骤6,根据所述最小化的语音训练集(即预期词覆盖率划分的训练集)去训练语音识别模型,得到训练好的语音识别模型,然后用测试集验证所述训练好的语音识别模型的性能。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明的应用场景满足如下假设:
假设1:在目标应用领域,已有海量文本数据,但是缺乏对应的语音数据。
假设2:在目标应用领域,语音数据的采集成本十分高昂。
在本发明的目标应用场景下,从文本库中挑选文本(y),提供给录音人员来采集录音(x),从而构造训练样本(x,y)。
本发明主要基于向量空间模型,提出的一种基于词覆盖率的语音训练集最小化方法。本方法通过计算文本相似度来考虑不同文本对当前语料库的模型训练性能提升贡献。通过本发明获得筛选后的训练集大小有可观的减少,其训练得到的语音识别模型性能与总语料库(即未删选前的全体训练集文本)训练得到的模型性能十分接近。
本发明提供的方法能够用计算机软件技术实现流程。参见图1,实施例以THCHS-30数据集和ASRT语音识别模型为例对本发明的流程进行一个具体的阐述,如下:
THCHS-30数据集,共1000条选自大容量新闻的文本(语音13388条,总词数8873),实验过程中将全部数据拆分成训练集和测试集:
训练集800(11392音频,词数7537);
测试集200(1996音频,词数2513)。
本发明基于向量空间模型(VSM),将词汇看作VSM中最小的不可分的语言单元作为特征项(feature term)。一个文本的内容被看成是它含有的特征项所组成的集合,表示为:Document=D(t1,t2,...,tn),其中tk是特征项,1≤k≤n。项的权重(term weight):对于含有n个特征项的文本D(t1,t2,...,tn),每一个特征项tk都依据一定的原则被赋予一个权重wk,用于表示特征项在文本中的重要程度。一个文本D可用它含有的特征项及其所对应的权重所表示:D=D(t1,w1;t2,w2;....,tn,wn),简记为D=D(w1,w2,...,wn),其中wk就是特征项tk的权重,1≤k≤n。一个文本在上述约定下可以看成是n维空间中的一个向量,各个特征项互异且无先后顺序关系。
定义dictionary为存储训练集全部词汇的词袋,globalvector为当前语料库的向量,filename为文本名,filevector为文本对应的向量,wordcoverage为当前语料库所含词汇数与词袋中词汇数之比,即词覆盖率。
步骤1,初始化词典dictionary集合为空,遍历所有训练集文本,将每条文本中的词汇集合与词典dictionary集合取并集,得到词袋(即所有词汇的集合dictionary)。此时语料库未加入文本,语料库对应的向量globalvector为零向量,wordcoverage为0。获取到总词汇后对所有的文本生成对应的向量,对每个文本进行遍历词典,判断词典中的词是否出现在本文本中,若出现则向量新增一维置1,否则置0。
实施例具体的实施过程说明如下:
根据1000条文本所存放的路径得到所有文本的完整路径名,用列表存储。初始化dictionary时遍历整个列表,与1000条文本的词集合作逐条的合并,遍历完毕后dictionary集合共计8873个词,globalvector初始化为维度为8873的零向量。遍历所有文本,为每条文本生成对应的向量,以文本路径名作为key,对应向量作为value存入词典中,避免后续重复计算。
步骤2,计算当前未加入语料库的剩余文本对应的向量filevector与当前的语料库的向量globalvector之间的相似度,得到区别程度信息。
相似度是指任意两个文本D1和D2之间的相似性系数Similarity(D1,D2),代表两个文本内容的相关程度(degree of relevance)。可以借助于n维向量之间的某种距离来表示文本之间的相似度。每条文本对应的向量已由步骤1生成,globalvector随着文本加入语料库而不断变化,剩余文本与其相似度也随之改变,根据相似度求出区别程度Dis(globalvector,file vector)。
实施例具体实施方案为:
本发明运用了两种不同的相似度计算方法,方法一采用余弦相似度(CosineSimilarity)通过计算两个向量的夹角余弦值来评估他们的相似度。将向量根据坐标值,绘制到向量空间中,求得他们的夹角,并得出夹角对应的余弦值,此余弦值就可以用来表征这两个向量的相似性。夹角越小,余弦值越接近于1,它们的方向越吻合,则越相似。假定A和B是两个n维向量,A(A1,A2,...,An),B(B1,B2,...,Bn),则A与B的相似性系数等于:
Figure BDA0002706482780000071
本发明记Dis(A,B)=1-Sim(A,B)=1-cosθ,向量A为globalvector,向量B为filevector,两向量的夹角θ越接近90°,两文本的相似度(cosθ)越小,Dis越大,代表当前文本对语料库的贡献越大。该方法对应的结果为图2-图6中的cosine。
方法二通过计算向量A(globalvector)为0,向量B(filevector)为1的维度数来评估当前文本对于语料库的贡献,
Figure BDA0002706482780000072
Dis越大,该文本为语料库添入的新词越多,代表当前文本对语料库的贡献越大。该方法对应的结果为图2-图6中的increment。
对每一条文本以文件名为key,Dis为value存入文件名-Dis词典中。
步骤3,遍历步骤2中得到的所述文件名-Dis词典,维护最大Dis值的{filename,Dis}二元组。
实施例具体实施方案为:
以文件名-Dis词典中的第一条记录初始化{filename,Dis}二元组,遍历比较后续记录的Dis值,若当前记录Dis值大于二元组所维护的最大值,则用该记录的filename和Dis更新二元组。
步骤4,根据步骤3中得到的所述最大Dis值的{filename,Dis}二元组,以该文本作为对当前语料库贡献最大的文本加入语料库中,更新语料库中的词汇集合,计算加入该文本后语料库的词覆盖率,记录当前文件名和词覆盖率。
实施例具体实施方案为:
根据当前filename读取相应文本,获取到文本中的词汇并加入集合中,该集合与记录当前语料库的词集合相合并,即表明语料库中已加入该文本所含词汇。计算语料库集合的大小与词袋dictionary的大小得到词覆盖率,将filename和wordcoverage加入列表中。
步骤5,判断当前的词覆盖率是否达到预期标准且是否还有剩余文本,若达到预期标准或已无文本可加入语料库,则算法结束转步骤6,若未达到预期标准且还有剩余文本,则转步骤2。
步骤6,根据训练集筛选算法得到的输出文件可得出训练集的所有文件名、文件数和对应的词覆盖率。根据预期词覆盖率划分的训练集去训练语音识别模型,然后用测试集验证模型性能。
实施例具体实施方案为:
为找到合适词覆盖率去训练语音识别模型,根据词覆盖率分别为20%、40%、60%、80%、100%对相似度计算方法一(cosine)和方法二(increment)和随机采样方法(baseline)共得到15组训练集,随机采样方法用作对照。为达到词覆盖率标准所需训练样本量的具体数据如表1所示:
表1三种采样方法对应的词覆盖率标准与所需训练样本量的关系
方法 20%覆盖率 40%覆盖率 60%覆盖率 80%覆盖率 100%覆盖率
baseline 133 305 504 735 800
cosine 122 276 462 712 800
increment 96 235 420 686 800
根据图2可知,方法一和方法二相较于随机采样表现都更为优秀,能够以更小的训练集得到既定词覆盖率。且方法二能以最少的文本数得到相同覆盖率。
对用15组训练集分别训练得到的语音识别模型进行测试集验证,每组的词错误率如表2所示:
表2三种采样方法对应的词覆盖率标准与词错误率的关系
方法 20%覆盖率 40%覆盖率 60%覆盖率 80%覆盖率 100%覆盖率
baseline 0.592 0.349 0.292 0.249 0.247
cosine 0.612 0.348 0.271 0.243 0.247
increment 0.663 0.343 0.278 0.248 0.247
根据图3可知,词覆盖率和模型性能是紧密相关的,词覆盖率越高,模型性能越高(词错误率越低)。
将图3中横坐标由词覆盖率换成文本数可更直观体现出训练集筛选的效果,如图4、图5、图6所示,可知在相同的文本数下,方法一和方法二的模型性能有略微提升,而对于相同模型性能下所需要的文本数而言,方法一和方法二较随机采样方法有较大的减少,以0.3的词错误率为例,方法二较随机采样少用了130条左右的文本。
综上,本发明提供的一种基于词覆盖率的语音训练集最小化方法,采取计算文本区别程度,根据结果挑选出对语料库贡献最大的文本,能够用最少的数据得到最大的模型性能提升。
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照实例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种基于词覆盖率的语音训练集最小化方法,其特征在于,包括以下步骤:
步骤1、初始化词典集合为空,遍历所有训练集文本,将每条文本中的词汇集合与所述词典集合取并集得到词袋,所述词袋包含第一数量的词汇;得到所述词袋后,为每条文本生成对应的向量;将语料库的全局向量globalvetctor初始化为维度为所述第一数量的零向量;
步骤2、计算当前未加入语料库的剩余文本对应的向量filevector与当前的语料库的向量globalvector之间的相似度,得到区别程度信息,所述区别程度信息记为Dis(globalvector,filevector);对每一条剩余文本,以文件名作为key,以该文本对应的区别程度信息Dis为value,存入文件名-Dis词典;
步骤3、遍历所述文件名-Dis词典,维护最大Dis值的{filename,Dis}二元组;
步骤4、将所述最大Dis值的{filename,Dis}二元组对应的文本加入语料库,更新语料库的词汇集合,并计算加入该文本后的词覆盖率;所述词覆盖率定义为当前语料库所含词汇数量与所述第一数量之比;
步骤5、判断当前的词覆盖率是否达到预期条件且是否还有剩余文本;
若所述当前的词覆盖率达到所述预期条件,或者,已无剩余文本可加入语料库,则结束训练集筛选算法,得到最小化的语音训练集;
若所述当前的词覆盖率未达到所述预期条件,且还有剩余文本,则转至步骤2。
2.根据权利要求1所述的基于词覆盖率的语音训练集最小化方法,其特征在于,所述步骤1中,所述为每条文本生成对应的向量的具体实现方式为:
将词汇作为特征项,将文本定义为该文本包含的所有特征项及特征项对应的权重所组成的集合,表示为D=D(t1,w1;t2,w2;....,tn,wn);
其中,tk表示特征项1≤k≤n,wk表示特征项tk对应的权重,1≤k≤n。
3.根据权利要求1所述的基于词覆盖率的语音训练集最小化方法,其特征在于,所述步骤1中,为每条文本生成对应的向量后,以文本名路径作为key,将文本对应的向量作为value存入所述词袋中。
4.根据权利要求1所述的基于词覆盖率的语音训练集最小化方法,其特征在于,所述步骤2中,计算相似度采用余弦相似度方法,所述区别程度信息Dis(globalvector,filevector)=1-Similarity(globalvector,filevector)=1-cosθ。
5.根据权利要求1所述的基于词覆盖率的语音训练集最小化方法,其特征在于,所述步骤2中,计算相似度采用维度数评估方法,所述区别程度信息
Figure FDA0002706482770000021
6.根据权利要求1所述的基于词覆盖率的语音训练集最小化方法,其特征在于,所述步骤3中,所述维护最大Dis值的二元组的具体实现方式为:
以所述文件名-Dis词典中的第一条记录初始化{filename,Dis}二元组,遍历比较后续记录的Dis值,若当前记录Dis值大于当前{filename,Dis}二元组所维护的最大Dis值,则用该记录的filename和Dis更新{filename,Dis}二元组。
7.根据权利要求1所述的基于词覆盖率的语音训练集最小化方法,其特征在于,所述步骤4中,计算加入该文本后的词覆盖率后,记录当前的文件名和当前的词覆盖率。
8.根据权利要求1所述的基于词覆盖率的语音训练集最小化方法,其特征在于,所述步骤5中的所述最小化的语音训练集对应的输出文件包括训练集中的所有文件名、文件数和对应的词覆盖率;所述最小化的语音训练集用于训练语音识别模型。
CN202011040506.7A 2020-09-28 2020-09-28 一种基于词覆盖率的语音训练集最小化方法 Active CN112185359B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011040506.7A CN112185359B (zh) 2020-09-28 2020-09-28 一种基于词覆盖率的语音训练集最小化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011040506.7A CN112185359B (zh) 2020-09-28 2020-09-28 一种基于词覆盖率的语音训练集最小化方法

Publications (2)

Publication Number Publication Date
CN112185359A true CN112185359A (zh) 2021-01-05
CN112185359B CN112185359B (zh) 2023-08-29

Family

ID=73943728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011040506.7A Active CN112185359B (zh) 2020-09-28 2020-09-28 一种基于词覆盖率的语音训练集最小化方法

Country Status (1)

Country Link
CN (1) CN112185359B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111977A (zh) * 2021-05-20 2021-07-13 润联软件系统(深圳)有限公司 训练样本的贡献度评价方法、装置及相关设备
WO2021208700A1 (zh) * 2020-11-23 2021-10-21 平安科技(深圳)有限公司 语音数据选择方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108682417A (zh) * 2018-05-14 2018-10-19 中国科学院自动化研究所 语音识别中的小数据语音声学建模方法
US10134388B1 (en) * 2015-12-23 2018-11-20 Amazon Technologies, Inc. Word generation for speech recognition
CN109284397A (zh) * 2018-09-27 2019-01-29 深圳大学 一种领域词典的构建方法、装置、设备及存储介质
CN109359302A (zh) * 2018-10-26 2019-02-19 重庆大学 一种领域化词向量的优化方法及基于其的融合排序方法
US20190294925A1 (en) * 2018-03-26 2019-09-26 Clinc, Inc. Systems and methods for intelligently curating machine learning training data and improving machine learning model performance
CN110990567A (zh) * 2019-11-25 2020-04-10 国家电网有限公司 一种增强领域特征的电力审计文本分类方法
CN111581984A (zh) * 2020-05-21 2020-08-25 西安科技大学 一种基于任务贡献度的语句表示方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10134388B1 (en) * 2015-12-23 2018-11-20 Amazon Technologies, Inc. Word generation for speech recognition
US20190294925A1 (en) * 2018-03-26 2019-09-26 Clinc, Inc. Systems and methods for intelligently curating machine learning training data and improving machine learning model performance
CN108682417A (zh) * 2018-05-14 2018-10-19 中国科学院自动化研究所 语音识别中的小数据语音声学建模方法
CN109284397A (zh) * 2018-09-27 2019-01-29 深圳大学 一种领域词典的构建方法、装置、设备及存储介质
CN109359302A (zh) * 2018-10-26 2019-02-19 重庆大学 一种领域化词向量的优化方法及基于其的融合排序方法
CN110990567A (zh) * 2019-11-25 2020-04-10 国家电网有限公司 一种增强领域特征的电力审计文本分类方法
CN111581984A (zh) * 2020-05-21 2020-08-25 西安科技大学 一种基于任务贡献度的语句表示方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021208700A1 (zh) * 2020-11-23 2021-10-21 平安科技(深圳)有限公司 语音数据选择方法、装置、电子设备及存储介质
CN113111977A (zh) * 2021-05-20 2021-07-13 润联软件系统(深圳)有限公司 训练样本的贡献度评价方法、装置及相关设备

Also Published As

Publication number Publication date
CN112185359B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN110321925B (zh) 一种基于语义聚合指纹的文本多粒度相似度比对方法
CN111177365A (zh) 一种基于图模型的无监督自动文摘提取方法
CN109902289B (zh) 一种面向模糊文本挖掘的新闻视频主题分割方法
CN116701431A (zh) 一种基于大语言模型的数据检索方法及系统
CN115393692A (zh) 基于生成式预训练语言模型的联想文本到图像生成方法
CN110362819A (zh) 基于卷积神经网络的文本情感分析方法
CN112185359A (zh) 一种基于词覆盖率的语音训练集最小化方法
CN116501875B (zh) 一种基于自然语言和知识图谱的文档处理方法和系统
CN115098690B (zh) 一种基于聚类分析的多数据文档分类方法及系统
CN115794999A (zh) 一种基于扩散模型的专利文档查询方法及计算机设备
CN116756303A (zh) 一种多主题文本摘要自动生成方法及系统
WO2023134074A1 (zh) 文本主题的生成方法、装置、设备及存储介质
CN113742396A (zh) 一种对象学习行为模式的挖掘方法及装置
CN112667797A (zh) 自适应迁移学习的问答匹配方法、系统及存储介质
CN111859898B (zh) 一种基于隐藏关联网络的多领域文本隐式特征抽取方法及计算机存储介质
TW202133070A (zh) 工作日誌登載系統
CN116933785A (zh) 一种基于Transformer的电子档案摘要生成方法、系统及介质
CN113971403B (zh) 一种考虑文本语义信息的实体识别方法及系统
CN115587231A (zh) 基于云计算平台的数据组合处理及快速存储调取方法
CN111899832B (zh) 基于上下文语义分析的医疗主题管理系统与方法
US20230267277A1 (en) Systems and methods for using document activity logs to train machine-learned models for determining document relevance
Bilgin CLASSIFICATION OF TURKISH TWEETS BY DOCUMENT VECTORS AND INVESTIGATION OF THE EFFECTS OF PARAMETER CHANGES ON CLASSIFICATION SUCCESS
Moriya et al. An ASR N-Best Transcript Neural Ranking Model for Spoken Content Retrieval
CN118070775B (zh) 摘要生成模型的性能评测方法、装置、计算机设备
CN117331893B (zh) 搜索方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant