CN116601648A - 备选软标签生成 - Google Patents

备选软标签生成 Download PDF

Info

Publication number
CN116601648A
CN116601648A CN202180082291.1A CN202180082291A CN116601648A CN 116601648 A CN116601648 A CN 116601648A CN 202180082291 A CN202180082291 A CN 202180082291A CN 116601648 A CN116601648 A CN 116601648A
Authority
CN
China
Prior art keywords
soft
model
tag
computer
processors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180082291.1A
Other languages
English (en)
Inventor
长野彻
福田隆
仓田岳人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN116601648A publication Critical patent/CN116601648A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • G06F18/2185Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

可以提供一种识别用于训练学生模型的备选软标签的方法。教学模型可以为经标记的训练数据生成软标签。训练数据可以是用于语音或口头自然语言的声学文件。可以在标签级别搜索先前由教师模型生成的软标签池,以识别与所生成的软标签相似的软标签。相似的软标签在单词音素和/或状态级别可具有相似的长度或序列。所识别的相似软标签可以与所生成的软标签结合使用以训练学生模型。

Description

备选软标签生成
背景技术
本发明一般地涉及机器学习领域,更具体而言,涉及经由知识蒸馏来训练学生模型。
训练机器学习模型需要大型数据集和大量计算资源。试图将知识从复杂的教师网络转移到简单的学生网络的知识蒸馏技术被用于训练机器学习模型。学生网络是在教师的软输出上训练的,其最小化了学生分布与教师分布之间的差异。学生模型训练是通过使用退化特征作为输入并且使用来自教师网络的更好特征的软目标作为目标来实现的。这样的方法需要附加的并行数据来提高它们在学生网络上的准确性。
发明内容
本公开的实施例包括一种用于训练学生声学模型的计算机实现的方法、计算机程序产品和系统。实施例可以包括接收经标记的声学特征。另外,实施例可以包括通过教师模型生成用于所述经标记的声学特征的软标签。实施例还可以包括由所述一个或多个处理器从软标签池中提取与所述第一软标签相似的第二软标签。最后,实施例可以包括使用所述第一软标签和所述第二软标签来训练学生模型。
上述“发明内容”并非旨在描述本公开的每个实施方式的每个所示实施例。
附图说明
图1是根据本发明的实施例的一般地为软标签生成环境的功能框图;
图2是根据本发明的实施例的描绘备选软标签识别引擎的功能框图;
图3是根据本发明的实施例的描绘用于备选软标签生成的方法的流程图;
图4是根据本发明的实施例的在代码重构器命名环境中的示例性计算系统的功能框图;
图5是根据本发明的实施例的描绘云计算环境的图;
图6是根据本发明的实施例的描绘抽象模型层的功能框图。
虽然本文所述的实施例可具有各种修改和替代形式,但其细节已在附图中以实例的方式示出并将被详细描述。然而,应当理解,所描述的特定实施例不应被理解为限制性的。相反,本发明将涵盖落入本公开的范围内的所有修改物、等效物和替代物。
具体实施方式
所描绘的实施例允许基于由教师模型生成训练数据来生成用于学生模型的软标签训练数据。复杂声学模型不能被部署用于流式语音数据的实时解码。这主要是由于与诸如智能电话、平板电脑和膝上型计算机之类的设备上的计算资源的缺乏相关联的约束。与部署复杂声学模型的困难相关联的另一个因素是等待时间问题,如果设备正试图通过网络将数据发送到位于服务器上的模型的话。在试图规避复杂声学模型的计算和等待时间问题时,已经经由知识蒸馏技术训练了紧凑声学模型。紧凑声学模型缺乏与复杂或宽带声学模型相关联的层或分析能力。然而,这允许更快的反馈和更低的计算资源要求。在提高紧凑声学模型输出的性能的尝试中,提炼来自复杂模型的训练数据,从而允许在紧凑声学模型的层中包含更多信息。
在语音识别中,神经网络(NN)模型通常被用于声学模型,以根据从语音(音频)信号导出的声学特征来产生在隐马尔可夫模型(HMM)状态上的概率分布。HMM状态可以对应于上下文相关音素状态的聚类,或者简单地对应于上下文无关音素状态。上下文相关模型之一是五音子(quinphone)模型,其中使用了用于每两个不同的左和右音子上下文的每个独特的音子模型。
例如,英语中有44个音素。通过以参数共享来考虑中心音素之前和之后的音素,对于典型的语音识别系统,存在数千到数万个上下文相关音素状态。用于声学模型的神经网络模型通常包括:输入层,其接收从语音信号导出的声学特征;一个或多个隐藏层,其处理声学特征;以及输出层,其基于隐藏层的激活来输出HMM状态上的概率分布。
图1是描绘软标签生成环境100的功能框图。软标签生成环境100包括在服务器102上运行的教师模型104和备选软标签识别引擎106、存储在服务器102上的软标签池108、在服务器112上运行的学生模型114、以及网络110。
服务器102和112可以是独立的计算设备、管理服务器、web服务器、移动计算设备、或能够接收、发送和处理数据的任何其他电子设备或计算系统。在其他实施例中,服务器102和112可以表示利用多个计算机作为服务器系统的服务器计算系统。在另一个实施例中,服务器102和112可以是膝上型计算机、平板计算机、上网本计算机、个人计算机、台式计算机、或能够经由网络110与软标签生成环境100内的其他计算设备(未示出)通信的任何可编程电子设备。
在另一个实施例中,服务器102和112表示利用集群计算机和组件(例如,数据库服务器计算机、应用服务器计算机等)的计算系统,当在软标签生成环境100内被访问时,该集群计算机和组件可以充当单个无缝资源池。服务器102和112可以包括内部和外部硬件组件,如参考图4进一步详细描绘和描述的,应当注意,尽管在图1中仅示出了服务器102和112,但是在软标签生成环境100中可以存在多个计算设备。例如,客户端计算机(未示出)可以经由网络110与服务器102和112通信。在另一示例中,服务器102和112可以是云服务器网络的一部分,其中连接到网络110的计算设备(未示出)可以访问服务器102和112(例如,因特网)。
教师模型104通常是高资源分类模型,其包含单个模型或多个模型的集合(ensemble)。教师模型104甚至可以具有太重而不能实际部署为实际服务的资源。单个分类模型或集合中的每个分类模型可以是标准神经网络中的任何一个,其包括基于DNN(深度神经网络)、CNN(卷积神经网络)、RNN(循环神经网络)的模型和组合了多个神经网络类型的特征的神经网络模型。在特定实施例中,教师模型104包括但不限于VGG模型、长短期记忆(LSTM)和/或ResNet。在所描述的实施例中,在知识蒸馏之前,已经使用足够大的训练数据集合来训练了教师模型104。应当注意,教师模型104可被配置为将经标记的声学特征分类到一个或多个类别中。软标签可以是对声学特征将处于特定类别中的概率的预测。另外,在一些实施例中,教师模型104可生成用于经标记的声学特征的硬特征。硬标签是输入声学特征是否在类别中的是或否分类。软标签是输入声学特征将在类别内的预测(即,概率)。
备选软标签识别引擎106是可以被配置为识别软标签池108内的与由教师模型104输出的参考标签相似的一个或多个软标签的计算机模块。备选软标签识别引擎106可以搜索由经训练的教师模型生成的参考标签。此外,在一些实施例中,备选软标签识别引擎106可以基于与软标签池108内的参考标签相关联的音素来识别候选的相似软标签。应当注意,生成在软标签池108中的软标签的教师模型可以是与软标签生成环境100内的教师模型104不同的教师模型。备选软标签识别引擎106还可以从候选软标签提取相似度得分以生成用于训练学生模型114的备选软标签。备选软标签识别引擎106可以经由网络110将所生成的软标签发送到学生模型114。
软标签池108被配置为存储参考标签和被标记到语音数据中的各个帧的软标签集合。在示例性实施例中,数据单元是语音数据中的帧。被收集以生成软标签的语音数据可以包括记录在对话、叙述等中所说的实际话语的任何语音数据。软标签池内的每个软标签可以包括通过强制对齐而与来自教师模型104的对应帧对齐的音素类别。换句话说,预先利用从教师侧类别集合中选择的正确的音素类别对每个帧进行了并行标记。软标签池108由可操作地耦接到实现用于学生模型的知识蒸馏的备选软标签生成的备选软标签识别引擎106的任何存储介质或设备的数据存储装置或存储器区域来提供。
网络110可以是局域网(LAN)、诸如因特网的广域网(WAN)、或两者的组合,并且可以包括有线、无线、或光纤连接。通常,网络110可以是将支持服务器102、112和其他计算设备(未示出)之间的通信的连接和协议的任何组合。
学生模型114通常是可容易地用作生产声学模型的轻量紧凑分类模型。学生模型114可以是标准神经网络中的任何一个,其包括基于DNN、CNN、RNN的模型和组合多个神经网络类型的特征的神经网络。在一个或多个实施例中,学生模型114具有与教师模型104不同的结构。在示意性实施例中,学生模型114比教师模型104更小且更简单(即,更少的参数)。然而,比教师模型104更大和/或更复杂的模型可能不被排除在用于学生模型114的模型之外。应当注意,学生模型114可以在与教师模型104相同的类别中被训练。学生模型114也可以在多个类别中被训练,并接收来自多个教师模型(未示出)的训练数据。
图2是描绘根据本发明实施例的备选软标签识别引擎的功能框图200。
图2中示出了备选软标签识别引擎106。在备选软标签识别引擎106上运行的是参考标签搜索模块202和相似度提取模块204。
参考标签搜索模块202是可以被配置为基于与软标签池108内的软标签相关联的参考标签,从软标签池108中识别候选软标签的计算机模块′在一些实施例中,参考标签搜索模块202可以接收与由教师模块104输出的软标签相关联的数据。该数据可以包括所识别的语音或话语的参考。例如,来自教师模型104的软标签的参考标签可以是“I have aquestion”,目标是“question”。参考标签搜索模块202可以搜索与软标签池108中的软标签相关联的所有参考标签以找到候选软标签。在以上紧接的示例中,参考标签搜索模块202从软标签池108中识别以下项:“...good question...”、“...your question...”和“...twoquestions...”。在参考标签中具有“question”的候选软标签可以被发送到备选软标签识别引擎106。应当注意,参考标签可以是所生成的包含话语的音频文件的转录(transcription),其中自动语音识别系统已经处理了该音频文件。在一些实施例中,参考标签可以是音频文件的内容的人类注释转录。
相似度提取模块204是可以被配置为从由参考标签搜索模块202识别的候选软标签中识别相似软标签的计算机模块。相似度提取模块204可以基于对用于软标签的语音数据内的数据的分析来识别相似的软标签。在一些实施例中,相似度提取模块204在单词、音素或状态级别提取相似长度的单词序列。在另一个实施例中,相似度提取模块204可以在单词音素或状态级别提取相同或相似序列的单词。在另一个实施例中,相似度提取模块204可以在音素或状态级别识别相同或相似长度的音素序列。在一些实施例中,相似度提取模块204可以被配置为基于各种因素(例如,单词/音素/状态、性别、年龄、说话者属性等的精确匹配)生成候选软标签的相似度得分。应当注意,相似度提取模块204可以被配置为强制对齐来自软标签池108的转录。然后,强制对齐的转录可以被与音频文件对齐,其中相似度提取模块204可以进一步处理音频文件的声谱图(spectrogram)。在一个实施例中,相似度提取模块204分析语言相似度。如果目标单词是“question”,则相似度提取模块204从软标签池208中选择具有相同或相似持续时间的话语区域“question”。对于目标域中的单词“question”,例如在单词级别,相似度提取模块204将在软标签池208中搜索“question(24)”,在音子级别,相似度提取模块204将在软标签池208中搜索K(3)-W(3)-EH(4)-S(3)-CH(5)-IH(3)-N(3)”,以及在状态级别,相似度提取模块204将搜索“K(1-1—1)-W(1—1-1)-EH(1-2-1)-S(1—1-1)-CH(1-3-1)-IH(1-1-1)-N(1-1-1)”,应当注意,来自目标域的“question”的声学特征、“question”的原始软标签、以及来自所选话语区域的“question”的备选软标签被用于训练学生模型。
在另一个示例中,在相似度提取模块204分析相似长度的单词序列的实施例中,针对教师生成的软标签的输入可以是“I have aquestion”中的“question”。从软标签池108中,已经从参考标签中识别出以下两个单词片段的候选软标签和数据:“...that’s twoquestions,sir”和“...very good question”。相似度提取模块204将识别出候选片段之一以其中一个中的单词“question”结束,而候选片段之一具有四个单词,就像输入片段。在该示例中,相似度提取模块204已被配置为生成候选软标签的相似度得分。“...very goodquestion”的相似度得分是96%,而“...that’s two questions,sir”的相似度得分是70%′在该示例配置中,仅将具有大约83%的分数的候选软标签发送到学生模型114以用于训练。
在附加实施例中,如果相似度提取模型204确定一个或多个候选软标签与由教师模型104生成的软标签相似,则相似度提取模型可进一步从所确定的候选软标签中提取相似的软标签。在一个实施例中,相似度提取模型204可以将所有匹配的软标签发送到学生模型114以用于训练。在另一个实施例中,相似度提取模型可以仅将最接近的匹配(例如,1-最佳)或n-最佳软(其中n是正整数)标签发送到学生模型114以用于训练。在又一个实施例中,相似度提取模型204可以发送具有高峰度分布的软标签以训练学生模型114。
图3是描绘根据本发明实施例的用于备选软标签生成的方法300的流程图。在步骤302,在教师模型104处接收训练数据。在一些实施例中,训练数据是来自用户或数据库的音频文件。在一些实施例中,训练数据被用转录来标记。另外,训练数据可以具有表示与音频文件相关联的声波的声谱图。在一些实施例中,自动语音识别系统已经生成了训练数据的特征向量。
在步骤304,由教师模型104生成软标签以用于训练数据。在一些实施例中,教师模型104可以生成用于训练数据的软标签,软标签是针对训练数据的概率预测,它将单词或单词片段放置在教师模型被设计为分类的特定类别中。在一些实施例中,教师模型104还可以被配置为生成用于训练数据的硬标签。
在步骤306,利用备选软标签识别引擎106从软标签池108中提取相似的软标签。例如,备选软标签识别引擎106可以接收由教师模型104生成的软标签以及相关联的训练数据。参考标签搜索模块202可以基于与训练数据相关联的参考标签,在软标签池108内搜索候选软标签。在一些实施例中,可以在训练数据参考标签内隔离目标单词以用于进一步细化。在另一个示例中,相似度提取模块204可以基于与软标签相关联的语音数据,分析所识别的候选软标签。可以基于目标单词,将语音数据强制对齐到所生成的软目标的语音数据。在一些实施例中,可以对照所生成的软标签的语音数据的音素序列来分析候选软标签的语音数据的音素序列。在一些实施例中,相似度提取模块204可以针对每个所识别的候选软标签生成相似度得分。此外,如果候选软标签被识别为高于阈值相似度得分,则候选软标签可被发送到学生模型114以用于训练。在一些实施例中,基于备选软标签识别引擎106的配置,一个或多个相似的软标签可以被发送到学生模型114以用于训练。
在步骤308,利用由教师模型104生成的软标签和由备选软标签识别引擎106识别的相似的软标签来训练学生模型114。在一些实施例中,可以使用多于一个的相似软标签来训练学生模型114。
图4描绘了计算机系统400,即,代表服务器102和112或本发明实施例中的任何其它计算设备的示例计算机系统。计算机系统400包括通信结构412,其提供计算机处理器414、存储器416、持久性存储装置418、网络适配器428和输入/输出(I/O)接口426之间的通信。通信结构412可以用被设计成在处理器(诸如微处理器、通信和网络处理器等)、系统存储器、外围设备和系统内的任何其它硬件组件之间传递数据和/或控制信息的任何体系结构来实现。例如,通信结构412可以用一个或多个总线来实现。
计算机系统400包括处理器414、高速缓存422、存储器416、网络适配器428、输入/输出(I/O)接口426和通信结构412。通信结构412提供高速缓存422、存储器416、持久存储装置418、网络适配器428和输入/输出(I/O)接口426之间的通信。通信结构412可以用被设计成在处理器(诸如微处理器、通信和网络处理器等)、系统存储器、外围设备和系统内的任何其它硬件组件之间传递数据和/或控制信息的任何体系结构来实现。例如,通信结构412可以用一个或多个总线或交叉开关(crossbar switch)来实现。
存储器416和持久性存储装置418是计算机可读存储介质。在该实施例中,存储器416包括持久性存储装置418、随机存取存储器(RAM)420、高速缓存422和程序模块424。通常,存储器416可以包括任何合适的易失性或非易失性计算机可读存储介质。高速缓存422是通过保存来自存储器416的最近访问数据和最近访问数据附近的数据来增强处理器414的性能的快速存储器。如下面将进一步描绘和描述的,存储器416可以包括被配置为执行本发明的实施例的功能的至少一个程序模块424。
作为示例而非限制,具有至少一个程序模块424的程序/实用程序以及操作系统、一个或多个应用程序、其它程序模块和程序数据可被存储在存储器416中。操作系统、一个或多个应用程序、其它程序模块和程序数据或其某种组合中的每一个可包括联网环境的实现。程序模块424通常执行如本文所述的本发明实施例的功能和/或方法。
用于实施本发明的实施例的程序指令和数据可以存储在持久性存储装置418和存储器416中,以便由一个或多个相应的处理器414经由高速缓存422来执行。在一个实施例中,持久性存储装置418包括磁硬盘驱动器。作为磁硬盘驱动器的替代或补充,持久性存储装置418可包括固态硬盘驱动器、半导体存储设备、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存或能够存储程序指令或数字信息的任何其它计算机可读存储介质。
持久性存储装置418所使用的介质也可以是可移动的。例如,可移动硬盘驱动器可用于持久性存储装置418。其它示例包括光盘和磁盘、拇指驱动器和智能卡,它们被插入到驱动器中以便传送到也是持久存储418的一部分的另一计算机可读存储介质上。
在这些示例中,网络适配器428提供与其他数据处理系统或设备的通信。在这些示例中,网络适配器428包括一个或多个网络接口卡。网络适配器428可以通过使用物理和无线通信链路中的一种或两种来提供通信。用于实施本发明的实施例的程序指令和数据可以通过网络适配器428下载到持久性存储器418。
I/O接口426允许与可连接到每个计算机系统的其它设备输入和输出数据′例如,I/O接口426可以提供到诸如键盘、小键盘、触摸屏和/或一些其它合适的输入设备的外部设备430的连接。外部设备430还可以包括便携式计算机可读存储介质,例如拇指驱动器、便携式光盘或磁盘、以及存储卡。用于实施本发明的实施例的软件和数据可以存储在这样的便携式计算机可读存储介质上,并且可以经由I/O接口426加载到持久性存储装置418上。I/O接口426也连接到显示器432。
显示器432提供向用户显示数据的机制,并且可以是例如计算机监视器或虚拟图形用户界面。
在此描述的组件是基于在本发明的特定实施例中实现它们的应用来识别的。然而,应当理解,本文中任何特定的组件命名仅为了方便而使用,且因此本发明不应限于仅在由这种命名所识别和/或暗示的任何特定应用中使用。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质),所述计算机可读程序指令用于使处理器执行本发明的各方面。
计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置,以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤线缆的光脉冲)、或通过导线传输的电信号。
本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者经由网络,例如因特网、局域网、广域网和/或无线网络,下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器相关指令、微代码、固件指令、状态设置数据,或者以一种或多种编程语言(包括面向对象的编程语言,例如Smalltalk、C++等)和常规过程编程语言(例如“C”编程语言或类似的编程语言)的任意组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行,部分在用户的计算机上执行,作为独立的软件包执行,部分在用户的计算机上并且部分在远程计算机上执行,或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络连接到用户的计算机,包括局域网(LAN)或广域网(WAN),或者可以连接到外部计算机(例如,使用因特网服务提供商通过因特网)。在一些实施例中,为了执行本发明的各方面,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。
在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解,流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。
这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作,使得其中存储有指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的方面的指令。
计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。
附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上,流程图或框图中的每个框可以表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中,框中所提及的功能可不按图中所提及的次序发生。例如,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的顺序执行,这取决于所涉及的功能。还将注意,框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。
应当理解,尽管本公开包括关于云计算的详细描述,但是本文中记载的教导的实现不限于云计算环境。相反,本发明的实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。
云计算是一种服务交付模型,用于实现对可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便的按需网络访问,可配置计算资源可以以最小的管理努力或与服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
特性如下:
按需自助:云消费者可以单方面地自动地根据需要提供计算能力,诸如服务器时间和网络存储,而不需要与服务的提供者进行人工交互。
广泛的网络接入:能力在网络上可用,并且通过促进由异构的薄或厚客户端平台(例如,移动电话、膝上型计算机和PDA)使用的标准机制来访问。
资源池化:供应商的计算资源被集中以使用多租户模型来服务多个消费者,其中不同的物理和虚拟资源根据需求被动态地分配和重新分配。存在位置无关的意义,因为消费者通常不控制或不知道所提供的资源的确切位置,但是能够在较高抽象级别(例如国家、州或数据中心)指定位置。
快速弹性:在一些情况下,可以快速且弹性地提供快速向外扩展的能力和快速向内扩展的能力。对于消费者,可用于提供的能力通常看起来不受限制,并且可以在任何时间以任何数量购买。
测量服务:云系统通过利用在适合于服务类型(例如,存储、处理、带宽和活动用户账户)的某一抽象级别的计量能力来自动地控制和优化资源使用。可以监视、控制和报告资源使用,从而为所利用服务的提供者和消费者两者提供透明度。
服务模型如下:
软件即服务(SaaS):提供给消费者的能力是使用在云基础设施上运行的提供者的应用。应用程序可通过诸如web浏览器(例如,基于web的电子邮件)等瘦客户机界面从各种客户机设备访问。消费者不管理或控制包括网络、服务器、操作系统、存储、或甚至个别应用能力的底层云基础结构,可能的例外是有限的用户专用应用配置设置。
平台即服务(PaaS):提供给消费者的能力是将消费者创建或获取的应用部署到云基础设施上,该消费者创建或获取的应用是使用由提供商支持的编程语言和工具创建的。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施,但具有对部署的应用和可能的应用托管环境配置的控制。
基础设施即服务(IaaS):提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其它基本计算资源,所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施,但具有对操作系统、存储、部署的应用的控制,以及可能对选择的联网组件(例如,主机防火墙)的有限控制。
部署模型如下:
私有云:云基础设施仅为组织操作。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
社区云:云基础设施由若干组织共享,并且支持具有共享关注(例如,任务、安全要求、策略和合规性考虑)的特定社区。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
公共云:云基础设施可用于一般公众或大型工业群体,并且由销售云服务的组织拥有。
混合云:云基础设施是两个或更多云(私有、共同体或公共)的组合,所述云保持唯一实体,但是通过使数据和应用能够移植的标准化或私有技术(例如,用于云之间的负载平衡的云突发)绑定在一起。
云计算环境是面向服务的,其焦点在于无状态、低耦合、模块性和语义互操作性。在云计算的核心是包括互连节点的网络的基础设施。
图5是描绘根据本发明的至少一个实施例的云计算环境50的框图。云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10,本地计算设备例如是个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N。节点10可以彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中,诸如如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境50提供基础设施即服务、平台即服务和软件即服务,云消费者不需要为其维护本地计算设备上的资源。应当理解,图5中所示的计算设备54A-N的类型仅旨在说明,并且计算节点10和云计算环境50可通过任何类型的网络和网络可寻址连接(例如,使用网络浏览器)与任何类型的计算机化设备通信。
图6是描绘根据本发明的至少一个实施例的由图5中描绘的云计算环境50提供的一组功能抽象模型层的框图。应当预先理解,图6中所示的组件、层和功能仅旨在说明,并且本发明的实施例不限于此。如所描绘的,提供了以下层和相应的功能:
硬件和软件层60包括硬件和软件组件。硬件组件的示例包括:主机61;基于RISC(精简指令集计算机)架构的服务器62;服务器63;刀片服务器64;存储设备65;以及网络和联网组件66。在一些实施例中,软件组件包括网络应用服务器软件67和数据库软件68。
虚拟化层70提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器71;虚拟存储装置72;虚拟网络73,包括虚拟专用网络;虚拟应用和操作系统74;以及虚拟客户端75。
在一个示例中,管理层80可以提供以下描述的功能。资源供应81提供计算资源和用于在云计算环境内执行任务的其他资源的动态采购。计量和定价82在云计算环境内利用资源时提供成本跟踪,并为这些资源的消费开账单或发票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理,使得满足所需的服务水平。服务水平协议(SLA)规划和履行85提供云计算资源的预安排和采购,根据该SLA预期该云计算资源的未来要求。
工作负载层90提供了可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括:绘图和导航91;软件开发和生命周期管理92;虚拟教室教育传递93;数据分析处理94;交易处理95;以及备选软标签识别96。
已经出于说明的目的给出了对本发明的各种实施例的描述,但是这些描述不是穷举性的或者不旨在限于所公开的实施例。在不背离本发明范围的情况下,许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术的技术改进,或使本领域的其他普通技术人员能够理解本文所公开的实施例。

Claims (20)

1.一种用于经由知识蒸馏使用补充的经标记的训练数据来训练学生模型的计算机实现的方法,所述方法包括:
由一个或多个处理器接收经标记的声学特征;
由所述一个或多个处理器通过教师模型生成用于所述经标记的声学特征的软标签;
由所述一个或多个处理器从软标签池中提取与所述第一软标签相似的第二软标签;以及
由所述一个或多个处理器使用所述第一软标签和所述第二软标签来训练学生模型。
2.根据权利要求1所述的计算机实现的方法,其中,提取第二软标签进一步包括:
由所述一个或多个处理器基于与所述软标签相关联的每个参考标签,识别一个或多个候选软标签;
由所述一个或多个处理器确定所述一个或多个候选软标签中的每一个候选软标签是否与所述经标记的声学特征相似,其中,如果所述一个或多个候选软标签具有与所述经标记的声学特征相同的音素序列,则所述一个或多个候选软标签是相似的;以及
响应于确定所述一个或多个候选软标签与所述经标记的声学特征相似:由所述一个或多个处理器在所述一个或多个候选软标签被确定为与所述声学特征相似的情况下,输出所述一个或多个候选软标签。
3.根据权利要求1所述的计算机实现的方法,其中,所述软标签池已经由所述教师模型生成。
4.根据权利要求1所述的计算机实现的方法,其中,所述教师模型和所述学生模型是自动语音识别系统。
5.根据权利要求1所述的计算机实现的方法,其中,所述经标记的声学特征由声学特征生成器生成,其中,所述声学特征生成器是卷积神经网络。
6.根据权利要求1所述的计算机实现的方法,其中,所述教师模型是视觉几何组模型。
7.根据权利要求1所述的计算机实现的方法,还包括:
由所述一个或多个处理器生成用于所述经标记的声学特征的硬标签;以及
由所述一个或多个处理器用所述硬标签训练所述学生模型。
8.一种用于生成用于学生模型的经标记的训练数据的系统,所述系统包括:
一个或多个计算机处理器;
一个或多个计算机可读存储介质;以及
计算机程序指令,其用于:
接收包括多对第一硬标签和第一软标签的第一训练数据,其中,每个第一软标签由教师模型生成;
由所述一个或多个处理器从软标签池中检测与所述第一软标签相似的第二软标签;
输出所述第二软标签,作为用于每个第一软标签的附加训练数据;以及
使用所述第一软标签和所述第二软标签来训练学生模型。
9.根据权利要求8所述的系统,其中,检测第二软标签进一步包括:由一个或多个处理器从所述软标签池中在状态级别提取相同长度的单词序列。
10.根据权利要求8所述的系统,其中,检测第二软标签进一步包括:从所述软标签池中提取相同长度的音素序列。
11.根据权利要求8所述的系统,其中,所述教师模型和所述学生模型是自动语音识别系统。
12.根据权利要求8所述的系统,其中,生成用于所述多个函数和所述多个类的所述源代码的特征向量是由代码编码器执行的。
13.根据权利要求8所述的系统,其中,所述教师模型是视觉几何组模型。
14.根据权利要求8所述的系统,其中,所述学生模型是卷积神经网络。
15.一种用于代码重构重命名的计算机程序产品,所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质包含程序指令,所述程序指令能够由处理器执行以使得所述处理器执行功能,所述功能包括:
接收包括多对第一硬标签和第一软标签的第一训练数据,其中,每个第一软标签由教师模型生成;
由所述一个或多个处理器从软标签池中检测与所述第一软标签相似的第二软标签;
输出所述第二软标签,作为用于每个第一软标签的附加训练数据;以及
使用所述第一软标签和所述第二软标签来训练学生模型。
16.根据权利要求15所述的计算机程序产品,其中,检测第二软标签进一步包括:由一个或多个处理器从所述软标签池中在状态级别提取相同长度的单词序列。
17.根据权利要求15所述的计算机程序产品,其中,检测第二软标签进一步包括:从所述软标签池中提取相同长度的音素序列。
18.根据权利要求15所述的计算机程序产品,其中,所述教师模型和所述学生模型是自动语音识别系统。
19.根据权利要求15所述的计算机程序产品,其中,所述教师模型是视觉几何组模型。
20.根据权利要求15所述的计算机程序产品,其中,所述学生模型是卷积神经网络。
CN202180082291.1A 2020-12-10 2021-11-24 备选软标签生成 Pending CN116601648A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/118,139 2020-12-10
US17/118,139 US20220188622A1 (en) 2020-12-10 2020-12-10 Alternative soft label generation
PCT/CN2021/132681 WO2022121684A1 (en) 2020-12-10 2021-11-24 Alternative soft label generation

Publications (1)

Publication Number Publication Date
CN116601648A true CN116601648A (zh) 2023-08-15

Family

ID=81942584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180082291.1A Pending CN116601648A (zh) 2020-12-10 2021-11-24 备选软标签生成

Country Status (6)

Country Link
US (1) US20220188622A1 (zh)
JP (1) JP2023552711A (zh)
CN (1) CN116601648A (zh)
DE (1) DE112021005230T5 (zh)
GB (1) GB2617729A (zh)
WO (1) WO2022121684A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11922678B2 (en) * 2022-04-27 2024-03-05 Descartes Labs, Inc. Carbon estimation
CN116186200B (zh) * 2023-01-19 2024-02-09 北京百度网讯科技有限公司 模型训练方法、装置、电子设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10529318B2 (en) * 2015-07-31 2020-01-07 International Business Machines Corporation Implementing a classification model for recognition processing
US11410029B2 (en) * 2018-01-02 2022-08-09 International Business Machines Corporation Soft label generation for knowledge distillation
US20200167677A1 (en) * 2018-11-27 2020-05-28 International Business Machines Corporation Generating result explanations for neural networks
US11170761B2 (en) * 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
CN110459208B (zh) * 2019-09-09 2022-01-11 中科极限元(杭州)智能科技股份有限公司 一种基于知识迁移的序列到序列语音识别模型训练方法
CN110852426B (zh) * 2019-11-19 2023-03-24 成都晓多科技有限公司 基于知识蒸馏的预训练模型集成加速方法及装置

Also Published As

Publication number Publication date
WO2022121684A1 (en) 2022-06-16
DE112021005230T5 (de) 2023-08-24
JP2023552711A (ja) 2023-12-19
US20220188622A1 (en) 2022-06-16
GB2617729A (en) 2023-10-18
GB202310170D0 (en) 2023-08-16

Similar Documents

Publication Publication Date Title
US11093707B2 (en) Adversarial training data augmentation data for text classifiers
US11200811B2 (en) Intelligent recommendation of guidance instructions
US10657962B2 (en) Modeling multiparty conversation dynamics: speaker, response, addressee selection using a novel deep learning approach
US11182557B2 (en) Driving intent expansion via anomaly detection in a modular conversational system
US10929383B2 (en) Method and system for improving training data understanding in natural language processing
US11189269B2 (en) Adversarial training data augmentation for generating related responses
US11443227B2 (en) System and method for cognitive multilingual speech training and recognition
US20200005797A1 (en) Speaker identification assisted by categorical cues
US10372824B2 (en) Disambiguating concepts in natural language
US11030402B2 (en) Dictionary expansion using neural language models
US11011161B2 (en) RNNLM-based generation of templates for class-based text generation
CN116235245A (zh) 改进语音识别转录
US11748393B2 (en) Creating compact example sets for intent classification
WO2022017004A1 (en) Voice response systems based on personalized vocabulary and user profiling –personalized linguistics ai engines
WO2022121684A1 (en) Alternative soft label generation
US11354920B2 (en) Updating and implementing a document from an audio proceeding
US20210150270A1 (en) Mathematical function defined natural language annotation
US11003854B2 (en) Adjusting an operation of a system based on a modified lexical analysis model for a document
US20200159824A1 (en) Dynamic Contextual Response Formulation
US20230237987A1 (en) Data sorting for generating rnn-t models
US20220180865A1 (en) Runtime topic change analyses in spoken dialog contexts
US20220092403A1 (en) Dialog data processing
US20230078698A1 (en) Inter-training of pre-trained transformer-based language models using partitioning and classification
US20230136842A1 (en) Training data sequence for rnn-t based global english model
US20230335123A1 (en) Speech-to-text voice visualization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination