CN106816148B - 语音识别设备和方法 - Google Patents

语音识别设备和方法 Download PDF

Info

Publication number
CN106816148B
CN106816148B CN201611078946.5A CN201611078946A CN106816148B CN 106816148 B CN106816148 B CN 106816148B CN 201611078946 A CN201611078946 A CN 201611078946A CN 106816148 B CN106816148 B CN 106816148B
Authority
CN
China
Prior art keywords
speech
word
searched
candidate
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611078946.5A
Other languages
English (en)
Other versions
CN106816148A (zh
Inventor
李知炫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN106816148A publication Critical patent/CN106816148A/zh
Application granted granted Critical
Publication of CN106816148B publication Critical patent/CN106816148B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供一种语音识别设备和方法。一种语音识别设备,包括:预测器,被配置为基于已被之前搜索的单词序列预测跟随已被之前搜索的单词序列的单词的词类;解码器,被配置为搜索与语音信号对应的候选单词,使用已被搜索的候选单词扩展之前已被搜索的单词序列,并基于预测的词类调整扩展的单词序列的概率值。

Description

语音识别设备和方法
本申请要求于2015年11月30日提交到韩国知识产权局的第10-2015-0168967号韩国专利申请的优先权,该申请的全部公开出于所有目的通过引用全部包含于此。
技术领域
下面的描述涉及一种语音识别设备和方法。
背景技术
与过去的现有技术不同,最近的语音识别技术已引起广泛的关注。这是因为语音识别技术的实现允许互联网信息、电子商务和在使用语音的各种普遍存在的环境中的操作的使用更加方便,并且甚至在用户难以使用他们的双手时也能满足用户的各种需要,诸如,启用互联网访问、实施商业事务以及使用其他服务。
发明内容
提供发明内容从而以简化的形式介绍构思的选择,其将在下面的具体实施方式中将被进一步描述。发明内容不意在确定所要求保护主题的关键特征或必要特征,也不意在用作辅助确定所要求保护的主题的范围。
在一个总体方面中,一种语音识别设备,包括:预测器,被配置为基于之前已被搜索的单词序列预测跟随之前已被搜索的单词序列的单词的词类;解码器,被配置为搜索与语音信号对应的候选单词,使用已被搜索的候选单词扩展之前已被搜索的单词序列,并基于预测的词类调整扩展的单词序列的概率值。
词类可为实体名或词性;实体名可为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。
预测器还可被配置为:使用词类预测模型预测跟随之前已被搜索的单词序列的单词的词类。
词类预测模型可基于词典和语法以规则集的形式被构造,或者可使用命名的实体识别方案和词性标注方案的任何一个或两者通过机器学习被构造。
词类预测模型可为基于递归神经网络(RNN)的模型。
解码器还可被配置为:使用以加权有限状态转换器(WFST)的形式在数据结构中构造的发音词典和语言模型来搜索候选单词。
解码器还可被配置为:从未来的搜索目标排除已被搜索的候选单词之中的不属于预测的词类的候选单词。
解码器还可被配置为:在已被搜索的候选单词之中增加属于预测的词类的候选单词的概率值。
解码器还可被配置为:在已被搜索的候选单词之中增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值。
预测器还可被配置为:预测跟随之前已被搜索的单词序列的单词的词类概率分布;解码器还可被配置为:通过用每一候选单词的概率值乘以该候选单词所从属的词类的预测的概率值,调整每一候选单词的概率值。
在另一总体方面中,一种语音识别方法,包括:基于之前已被搜索的单词序列预测跟随已被之前搜索的单词序列的单词的词类;搜索与语音信号对应的候选单词;使用已被搜索的候选单词扩展之前已被搜索的单词序列;基于预测的词类调整扩展的单词序列的概率值。
词类可为实体名或词性;实体名可为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。
所述预测词类的步骤可包括:使用词类预测模型预测跟随之前已被搜索的单词序列的单词的词类。
词类预测模型可基于词典和语法以规则集的形式被构造,或者可使用命名的实体识别方案和词性标注方案的任何一个或两者通过机器学习被构造。
词类预测模型可为基于递归神经网络(RNN)的模型。
所述搜索候选单词的步骤可包括:使用以加权有限状态转换器(WFST)的形式在数据结构中构造的发音词典和语言模型搜索候选单词。
所述的语音识别方法,还可包括:从未来的搜索目标排除已被搜索的候选单词之中的不属于预测的词类的候选单词。
所述调整扩展的单词序列的概率值的步骤可包括:在已被搜索的候选单词之中增加属于预测的词类的候选单词的概率值。
所述调整扩展的单词序列的概率值的步骤可包括:在已被搜索的候选单词之中增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值。
所述预测词类的步骤可包括:预测跟随之前已被搜索的单词序列的单词的词类概率分布;所述调整扩展的单词序列的概率值的步骤可包括:通过将每一候选单词的概率值乘以该候选单词所属的词类的预测的概率值,来调整每一候选单词的概率值。
在另一总体方面,一种存储当由处理器执行时导致处理器执行上面描述的方法的指令的计算机可读存储介质。
在另一总体方面中,一种词类预测模型生成设备,包括:训练数据采集器,被配置为采集包括多个单词序列和多个与所述多个单词序列的每一单词序列对应的类序列的训练数据;模型生成器,被配置为基于采集的训练数据通过学习生成词类预测模型。
类序列的每一类可为实体名或词性;实体名可为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。
模型生成器还可被配置为:基于采集的训练数据训练递归神经网络(RNN)以生成词类预测模型。
模型生成器还可被配置为:使用作为输入的单词和作为目标的跟随所述单词的单词的词类来训练RNN。
在另一总体方面中,一种词类预测模型生成方法,包括:采集包括多个单词序列和多个与所述多个单词序列中的每个单词序列对应的类序列的训练数据;基于采集的训练数据通过学习来生成词类预测模型。
所述多个类序列的每一类可为实体名或词性;实体名可为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。
所述生成词类预测模型的步骤可包括:基于采集的训练数据训练递归神经网络(RNN)以生成词类预测模型。
所述训练RNN的步骤可包括:使用作为输入的单词和作为目标的跟随所述单词的单词的词类来训练RNN。
在另一总体方面中,一种语音识别设备,包括:预测器,被配置为基于之前已被搜索的单词序列预测跟随已被之前搜索的单词序列的单词的词类;解码器,被配置为基于预测的词类将单词添加到之前已被搜索的单词序列。
预测器还可被配置为:基于之前已被搜索的单词序列预测多个词类的各自的概率;解码器还可被配置为:基于所述多个词类的预测的概率将单词添加到之前已被搜索的单词序列。
解码器还可被配置为:将属于在所述多个词类之中具有最高概率的词类的单词添加到之前已被搜索的单词序列。
解码器还可被配置为:搜索与语音信号对应的多个候选单词,并基于所述多个候选单词的各自的概率和所述多个预测的词类的预测的概率确定是否将所述多个候选单词中的一个候选单词添加到之前已被搜索的单词序列。
解码器还可被配置为:搜索与语音信号对应的候选单词,并基于预测的词类确定是否将候选单词添加到之前已被搜索的单词序列。
其他特征和方面从下面的具体实施方式、附图和权利要求将是清楚的。
附图说明
图1是示出语音识别设备的示例的框图。
图2是示出预测跟随单词序列的单词的词类概率分布的处理的示例的示图。
图3是示出基于一词性调整候选单词序列的概率值的处理的示例的示图。
图4是示出通过应用个性化的信息调整候选单词序列的概率值的处理的示例的示图。
图5是示出基于预测的词类概率分布调整候选单词序列的概率值的处理的示例的示图。
图6是示出语音识别设备的另一示例的框图。
图7是示出词类预测模型生成设备的示例的框图。
图8是示出生成词类预测模型的方法的示例的示图。
图9是示出语音识别方法的示例的流程图。
图10是示出语音识别方法的另一示例的流程图。
图11是示出生成词类预测模型的方法的示例的流程图。
贯穿附图和具体实施方式,除非另外被描述,否则相同的附图标记将被理解为表示相同的元件、特征和结构。附图可不按比例,并且为了清楚、说明和便利,这些元件的相对大小、比例和描写可被夸大。
具体实施方式
下面的详细描述被提供以协助读者获得对在此描述的方法、设备和/或系统的全面理解。然而,在对本申请的公开的理解后,在此描述的方法、设备和/或系统的各种变化、修改和等同物将是明显的。例如,在此描述的操作的顺序仅是示例,操作的顺序不被局限于在此阐述的那些顺序,而是除了必需按特定顺序发生的操作之外可被改变,在对本申请的公开理解之后将是明显的。同样,为了更加清楚和简洁,对本领域中已知的特征的描述可以被省略。
在此描述的特征可以不同的形式被实现,并且不应被解释为被局限于在此描述的示例。相反,在此描述的示例仅被提供于示出实现在此描述的执行方法、设备和/或系统的许多可能方式中的一些方式,这在对本申请的公开理解之后将是明显的。
图1是示出语音识别设备的示例的框图。语音识别设备100可以以硬件芯片的形式被制造,并可在电子装置上被安装。电子装置可为(例如)电视(TV)、导航系统、车辆电子装置、智能电话、平板PC、桌面计算机、笔记本PC或者可穿戴装置(例如,智能手表、智能眼镜、智能耳麦或智能耳机),但不限于此。
参照图1,语音识别设备100可包括:预测器110和解码器120。
预测器110基于之前检测的候选单词序列预测跟随之前检测的候选单词序列的下一单词的词类。为了根据上下文确定单词是否能跟随之前检测的候选单词序列,来定义词类,并指示单词类型。例如,词类可为实体名或词性(例如,名称、动词、形容词或副词)。
实体名可为适当的名词或在句子中具有重要意义的未注册的单词(诸如,人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名)。实体名可为多个单词的短语(诸如,“纽约”或“美国专利及商标局”)。
在一个示例中,预测器110使用词类预测模型预测跟随之前已被搜索的候选单词序列的单词的词类。可基于单词序列将词类预测模型实现为预测作为跟随单词序列的下一单词的单词的词类或词类概率分布。例如,词类预测模型可基于词典和语法以规则集的形式被构造并被实现为预测词类,或者可通过使用(例如)命名的实体识别方案或词性标注方案的机器学习被构造并被实现为预测词类概率分布。也就是,预测器110可使用以规则集的形式构造的词类预测模型预测词类,或者使用通过机器学习构造的词类预测模型预测词类概率分布,并且随后基于预测的词类概率分布预测词类。
机器学习算法可为神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯过程回归、线性判别分析、k最近邻(k-NN)算法、感知机、径向基函数网络、支持向量机(SVM)或深度学习(例如,递归神经网络(RNN))。
解码器120搜索与语音信号对应的候选单词,并使用已被搜索的候选单词扩展之前已被搜索的候选单词序列。换句话说,解码器120基于语音信号添加高度可能作为跟随之前识别的候选单词序列的下一单词出现的单词,以跟随候选单词序列来逐步扩展候选单词序列。
在一个示例中,解码器120使用声学模型、发音词典和语言模型搜索与语音信号对应的候选单词。
声学模型是接收语音信号并输出音素(phone或subphone,音子或子音子)概率矢量的模型。可使用(例如)隐马尔科夫模型(HMM)、高斯混合模型(GMM)、递归神经网络(RNN)、深度神经网络(DNN)、双向长短期模型(BLSTM)或者长短期记忆(LSTM)来预先构造声学模型。
发音词典是用于语音识别的单词被定义并且单词的发音符号被记录的模型。可基于从语料库或词典采集的单词预先构造发音词典。
语言模型是单词与另一单词之间的规则(也就是,一种语法)被定义的模型。可使用(例如)n-gram模型、递归神经网络(RNN)、深度神经网络(DNN)、双向长短期模型(BLSTM)或者长短期记忆(LSTM)来预先构造语言模型,以通过参照组成单词序列的一列单词确定单词序列的概率。
在一个示例中,发音词典和语言模型以加权有限状态转换器(WFST)的形式的数据结构构造。加权有限状态转换器(WFST)的形式的数据结构可为包括音素序列的所有可能的单词序列的简短的数据结构。如果发音词典和语言模型以WFST的形式的数据结构来构造,则解码器120基于WFST形式的数据结构搜索与语音信号对应的可能的单词序列。
解码器120计算扩展的候选单词序列的概率值。例如,解码器120使用声学模型和语言模型计算已被搜索的候选单词的概率值,并基于候选单词的计算的概率值计算扩展的候选单词序列的概率值。
此外,解码器120基于由预测器110预测的词类调整扩展的候选单词序列的概率值。
在一个示例中,解码器120通过增加已被搜索的候选单词之中的属于由预测器110预测的词类的候选单词的概率值,来调整扩展的候选单词序列的概率值。例如,当预测器110将位置名预测为跟随之前已被搜索的候选单词序列的单词的词类,并且解码器120搜索与人名有关的“A”以及与位置名有关的“B”和“C”作为与语音信号对应的候选单词时,解码器120在已被搜索的候选单词“A”、“B”和“C”之中通过将大的权重应用于属于位置名的候选单词“B”和“C”,来增加候选单词“B”和“C”的概率值。应用权重的方案可为调整语言模型和/或声学模型的权重的方案,但是该方案不限于此,并且该权重可被应用于各种方案。
在另一示例中,解码器120通过增加已被搜索的候选单词之中的属于由预测器110预测的词类的并包括在个性化的语言模型中的候选单词的概率值,调整扩展的候选单词序列的概率值。例如,如果预测器110将位置名预测为跟随之前已被搜索的候选单词序列的单词的词类,则解码器120搜索与人名有关的“A”以及与位置名有关的“B”和“C”作为与语音信号对应的候选单词,并且位置名“C”连同位置名“D”和“E”也被包括在个性化的语言模型中,解码器120通过将大的权重应用于已被搜索的候选单词“A”、“B”和“C”之中的属于该位置名的并被包括在个性化的语言模型中的候选单词“C”,来增加候选单词“C”的概率值。
可基于个性化的语料库使用(例如)n-gram模型、递归神经网络(RNN)、深度神经网络(DNN)、双向长短期模型(BLSTM)或者长短期记忆(LSTM)来预先构造个性化的语言模型。
在另一示例中,解码器120通过在属于类的候选单词的概率值中反映各个预测的词类的概率值,来调整扩展的候选单词序列的概率值。例如,当预测器110预测位置名为0.6以及人名为0.4作为跟随之前已被搜索的候选单词序列的单词的类概率,并且解码器120搜索与人名有关的“A”以及与位置名有关的“B”和“C”作为与语音信号对应的候选单词时,解码器120通过用0.4乘以候选单词“A”的概率值并用0.6乘以候选单词“B”的概率值和“C”的概率值,来调整候选单词“A”、“B”和“C”的概率值。
解码器120可在已被搜索的候选单词之中通过删减不属于由预测器110预测的词类的单词来减少未来的搜索范围。换句话说,解码器120可在已被搜索的候选单词之中去除不属于由预测器110预测的词类的未来的搜索目标单词。
此外,解码器120基于候选单词序列的概率值的调整的结果选择具有最大概率值的候选单词序列,并输出选择的候选单词序列作为语音识别结果。
此外,当针对输入语音信号的语音识别没有完成时,解码器120可从扩展的/生成的候选单词序列选择预定数量的概率值大的候选单词序列,并从未来的搜索范围去除其他的候选单词序列。
图2是示出预测跟随单词序列的单词的词类概率分布的处理的示例的示图。在这个示例中,词类预测模型被假定为实现的基于RNN的模型以预测词类概率分布。
预测器110使用之前构造的词类预测模型预测跟随单词序列“How do I get to”的下一单词的词类概率分布。即,当预测器110在时间t5接收“to”时,预测器110使用之前构造的词类预测模型来预测跟随候选单词序列“How do I get to”的下一单词的词类概率分布。在示出的示例中,跟随“How do I get to”的下一单词的词类概率中,所有格为0.2、位置名为0.4,人名为0.3。在这个示例中,位置名0.4的概率为最高的概率。
图3是示出基于词性调整候选单词序列的概率值的处理的示例以及示出在语音识别处理中在特定时间点(t4)的快照的示例的视图。在这个示例中,如所示出的,假定解码器120已生成与从t1到t3的时间的语音信号对应的候选单词序列“I’m going to”。
在示出的示例中,因为根据上下文,动词高度可能作为跟随“I’m going to”的下一单词出现,所以预测器110基于候选单词序列“I’m going to”将动词预测为跟随“I’mgoing to”的单词的词类。预测器110可基于单词序列使用之前已被构造为预测跟随单词序列的单词的词类的词类预测模型。
解码器120基于声学模型、发音词典和语言模型搜索作为跟随候选单词序列“I’mgoing to”的下一单词出现的候选单词“meet”、“meat”和“minjung”,并在时间点t4扩展候选单词序列“I’m going to”以生成扩展的候选单词序列“I’m going to meet”、“I’mgoing to meat”和“I’m going to minjung”。
然后,解码器120在候选单词“meet”、“meat”和“minjung”之中增加属于动词词类的“meet”的概率值以增加“I’m going to meet”的概率值。
图4是示出通过应用个性化的信息调整候选单词序列的概率值的处理的示例并且示出在语音识别处理中在特定时间点(t5)的快照的示例的示图。在这个示例中,如所示出的,假定解码器120已生成与从t1到t4的时间上的语音信号对应的候选单词序列“I’mgoing to meet”。
在示出的示例中,因为根据上下文,人名高度可能作为“I’m going to meet”后的下一单词出现,所以预测器110基于候选单词序列“I’m going to meet”预测人名作为跟随“I’m going to meet”的单词的词类。预测器110可基于单词序列使用之前已被构造为预测跟随单词序列的单词的词类的词类预测模型。
解码器120基于声学模型、发音词典和语言模型搜索作为跟随候选单词序列“I’mgoing to meet”的下一单词出现的候选单词“heejong”、“heeja”、“minjung”和“heejung”,并在时间点t5扩展候选单词序列“I’m going to meet”以生成扩展的候选单词序列“I’mgoing to meet heejong”、“I’m going to meet heeja”、“I’m going to meet minjung”和“I’m going to meet heejung”。
然后,解码器120搜索与人名有关的个性化的语言模型(PLM),在候选单词“heejong”、“heeja”、“minjung”和“heejung”之中增加在个性化的语言模型(PLM)中发现的“heejung”的概率值,并增加“I’m going to meet heejung”的概率值。
图5是示出基于预测的词类概率分布调整候选单词序列的概率值的处理的示例以及示出在语音识别处理中在特定时间点(t9)的快照的示例的示图。在这个示例中,如在图5中所示,假定解码器120已生成与从t1到t8的时间中的语音信号对应的候选单词序列“Iwant to make a call to David’s”和“I want to make a call to David”。
预测器110基于候选单词序列“I want to make a call to David’s”预测跟随候选单词序列“I want to make a call to David’s”的单词的词类概率分布,并基于候选单词序列“I want to make a call to David”预测跟随候选单词序列“I want to make acall to David”的单词的词类概率分布。在示出的示例中,预测器110预测名词为0.8以及所有格为0.1,以作为作为跟随候选单词序列“I want to make a call to David’s”的下一单词的单词的词类概率,并预测动词为0.01、人名为0.5和所有格为0.3,以作为作为跟随候选单词序列“I want to make a call to David”的下一单词的单词的词类概率。
然后,解码器120基于声学模型、发音词典和语言模型在时间点t9搜索作为跟随候选单词序列“I want to make a call to David’s”的下一单词出现的候选单词“office”(概率值0.3)和作为跟随候选单词序列“I want to make a call to David”的下一单词出现的候选单词“is”(概率值0.6),并通过使用已被搜索的候选单词扩展各自的候选单词序列来生成扩展的候选单词序列“I want to make a call to David’s office”和“I wantto make a call to David is”。
然后,解码器120用名词类概率值0.8乘“office”的概率值0.3以将扩展的候选单词序列“I want to make a call to David’s office”的概率值调整为0.24,并用动词类概率值0.01乘以“is”的概率值0.6以调整扩展的候选单词序列“I want to make a callto David is”的概率值为0.006。
图6是示出语音识别设备的另一示例的框图。
参照图6,与在图1中的语音识别设备100相比,在图6中的语音识别设备600还包括:词类预测模型存储单元610、声学模型存储单元620、发音词典存储单元630、语言模型存储单元640、个性化的语言模型存储单元650、输入单元660、特征矢量提取器670和输出单元680。
词类预测模型存储单元610存储词类预测模型,声学模型存储单元620存储声学模型,发音词典存储单元630存储发音词典,语言模型存储单元640存储语言模型,个性化的语言模型存储单元650存储个性化的语言模型。
在一个示例中,词类预测模型存储单元610、声学模型存储单元620、发音词典存储单元630、语言模型存储单元640和个性化的语言模型存储单元650包括:闪存、硬盘、多媒体卡(MMC)、微型多媒体卡、存储器卡(例如,SD存储器卡或XD存储器卡)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁存储器、磁盘、光盘中的任何一个或者任何两个或更多个的任何组合作为存储器介质。
尽管存储单元610至650在示出的示例中被显示为分离的组件,但是存储单元610至650可被集成为一个存储单元。
输入单元660接收用户语音信号。为达到这个目的,输入单元660可包括(例如)麦克风。
特征矢量提取器670将输入语音信号划分为单元帧,并提取与划分的输入语音信号的部分对应的特征矢量。
在一个示例中,特征矢量提取器670通过声音活动检测(VAD)从输入语音信号检测语音部分,并在检测的语音部分中从语音信号提取语音的特征以获得适合于语音识别的信息。在一个示例中,特征矢量提取器670针对每一单元帧计算语音信号的频率特性以提取包括在语音信号中的特征矢量。为了达到这个目的,特征矢量提取器670可包括将模拟语音信号转换为数字语音信号的模数(A/D)转换器,并且可将数字语音信号划分为大约10ms的单元帧并处理该信号。
特征矢量提取器670可使用梅尔频率倒频谱系数(MFCC)特征提取方案提取特征矢量。在梅尔频率倒频谱系数(MFCC)特征提取方案中,可使用以一阶微分或二阶微分的组合的形式的梅尔倒频谱系数、对数能量和特征矢量。
此外,特征矢量提取器670可使用诸如线性预测编码(LPC)、LPC导出的倒频谱、感知线性预测(PLP)、音频模型特征提取或滤波器组的方法以提取单元帧区域中的语音信号的特征。
输出单元680输出语音识别结果。在一个示例中,输出单元680以可听的方式或可视的方式输出语音识别结果。为了达到这个目的,输出单元680可包括(例如):扬声器或显示器。显示器可包括(例如):液晶显示器、薄膜晶体管液晶显示器、有机发光二极管、柔性显示器、三维显示器(3D显示器)或者眼镜式显示器(例如,头戴式显示器(HMD)、面部安装的显示器(face-mounted display,FMD)、眼部安装的显示器(eye-mounted display,EMD)或眼镜显示器(EGD))。
图7是示出词类预测模型生成设备的示例的框图。
参照图7,词类预测模型生成设备700包括:训练数据采集器710和模型生成器720。
训练数据采集器710采集包括多个单词序列和多个与各自的单词序列对应的类序列的训练数据。
训练数据采集器710采集训练数据的方法没有特定的限制。也就是,训练数据采集器710能简单地从外部装置接收和采集多个单词序列和多个与每一单词序列对应的类序列,或者能从外部装置接收多个单词序列并使用词典或其他资源通过命名的实体识别方案或词性标记方案生成与每一单词序列对应的类序列。
模型生成器720基于采集的训练数据通过机器学习生成词类预测模型。机器学习算法可为神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯处理回归、线性判决分析、k最近邻(k-NN)算法、感知机、径向基函数网络、支持向量机(SVM)或深度学习(例如,递归神经网络(RNN))。
将参照图8详细描述生成词类预测模型的方法。
图8是示出生成词类预测模型的方法的示例的示图。在这个示例中,词类预测模型被假定为对序列模式学习有效的基于RNN的模型。模型生成器720在每一时间点使用作为RNN的输入或目标的下一单词的单词和词类训练RNN。在这个示例中,输入和目标可被表示为独热(one-hot)矢量。例如,输入被表示为具有单词的位置值为1且其他值为0的词典的大小的独热矢量,目标被表示为具有类的位置值为1且其他值为0的将被处理的类的大小的独热矢量。
参照图8,模型生成器720在时间点t1使用作为输入的指示单词序列的开始的单词“<s>”和作为目标的第一单词的词类“副词”来训练RNN。
然后,模型生成器720在时间点t2使用作为输入的第一单词“how”和作为目标的第二单词的词类“动词根”来训练RNN。
模型生成器720在时间点t3至时间点t5之间的每一时间点以这样的方式训练RNN,并在时间点t6使用作为输入的第五单词“to”和作为目标的第六单词的词类“位置名”来训练RNN。
模型生成器720以这样的方式学习多个训练数据项,并生成词类预测模型。
图9是示出语音识别方法的示例的流程图。
参照图1至图9,语音识别设备100基于之前已被搜索的候选单词序列预测跟随之前已被搜索的候选单词序列的单词的词类(910)。例如,语音识别设备100使用词类预测模型预测跟随之前已被搜索的候选单词序列的单词的词类。可基于单词序列实现词类预测模型,以预测跟随单词序列的单词的词类或词类概率分布。例如,词类预测模型可基于词典和语法以规则集的形式被构造并被实现为预测词类,或者可使用(例如)命名的实体识别方案或词性标记方案通过机器学习来构造并被实现为预测词类概率分布。也就是,语音识别设备100可使用以规则集的形式构造的词类预测模型来预测词类,或者可使用通过机器学习构造的词类预测模型来预测词类概率分布,然后基于预测的词类概率分布预测词类。
语音识别设备100搜索与语音信号对应的候选单词(920)。例如,语音识别设备100使用声学模型、发音词典和语言模型搜索与语音信号对应的候选单词。在这个示例中,发音词典和语言模型可以以加权有限状态转换器(WFST)的形式在数据结构中被构造。在这个示例中,语音识别设备100基于WFST搜索与语音信号对应的可能的单词序列。
语音识别设备100使用已被搜索的候选单词扩展之前已被搜索的候选单词序列(930)。例如,语音识别设备100添加高度可能作为跟随候选单词序列(也就是,已被搜索的候选单词)的下一单词出现的单词,以跟随候选单词序列来逐步扩展候选单词序列。
语音识别设备100基于预测的词类调整扩展的候选单词序列的概率值(940)。
在一个示例中,语音识别设备100在已被搜索的候选单词之中通过增加属于预测的词类的候选单词的概率值,调整扩展的候选单词序列的概率值。
在另一示例中,语音识别设备100在已被搜索的候选单词之中通过增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值,调整扩展的候选单词序列的概率值。
在另一示例中,语音识别设备100在属于该类的候选单词的概率值中反映每一预测的词类的概率值,以调整扩展的候选单词序列的概率值。
图10是示出语音识别方法的另一示例的流程图。
参照图1至图10,语音识别设备100接收语音信号(1010),并搜索与语音信号对应的候选单词(1020)。例如,语音识别设备100使用声学模型、发音词典和语言模型搜索与语音信号对应的候选单词。在这个示例中,发音词典和语言模型可以以加权有限状态转换器(WFST)的形式在数据结构中被构造。在这个示例中,语音识别设备100基于WFST搜索与语音信号对应的可能的单词序列。
语音识别设备100使用已被搜索的候选单词扩展之前已被搜索的候选单词序列(1030)。例如,语音识别设备100添加高度可能作为之前识别的候选单词序列的下一单词出现的单词,以跟随候选单词序列来逐步扩展候选单词序列。
语音识别设备100计算扩展的候选单词序列的概率值(1040)。例如,语音识别设备100使用声学模型和语言模型计算扩展的候选单词序列的概率值。
语音识别设备100基于之前已被搜索的候选单词序列,预测跟随之前已被搜索的候选单词序列的单词的词类(1050)。例如,语音识别设备100使用词类预测模型预测跟随之前已被搜索的候选单词序列的单词的词类。在这个示例中,词类预测模型可基于单词序列被实现以预测跟随单词序列的单词的词类或词类概率分布。例如,词类预测模型可基于词典和语法以规则集的形式被构造并被实现为预测词类,或者可使用(例如)命名的实体识别方案或词性标记方案通过机器学习被构造并被实现为预测词类概率分布。也就是,语音识别设备100可使用以规则集的形式构造的词类预测模型预测词类,或者可使用通过机器学习构造的词类预测模型预测词类概率分布,然后基于预测的词类概率分布预测词类。
语音识别设备100基于预测的词类调整扩展的候选单词序列的概率值(1060)。
在一个示例中,语音识别设备100在已被搜索的候选单词之中通过增加属于预测的词类的候选单词的概率值,调整扩展的候选单词序列的概率值。
在另一示例中,语音识别设备100在已被搜索的候选单词之中通过增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值,调整扩展的候选单词序列的概率值。
在另一示例中,语音识别设备100通过在属于类的候选单词的概率值中反映每一预测的词类的概率值,调整扩展的候选单词序列的概率值。
语音识别设备100确定语音识别是否被完成(1070),并且如果语音识别被完成,则输出具有最大概率值的候选单词作为语音识别结果(1080)。
如果语音识别结果没有被完成,则语音识别设备100选择预定数量的概率值大的候选单词序列,并从未来的搜索范围去除其他候选单词序列(1090)。
语音识别设备100可在已被搜索的候选单词之中通过删减不属于预测的词类的单词,减少未来的搜索范围。换句话说,语音识别设备100可在已被搜索的候选单词之中去除不属于预测的单词的未来的搜索目标单词。
图11是示出生成词类预测模型的方法的示例的流程图。
参照图7和图11,词类预测模型生成设备700采集包括多个单词序列和多个与各自的单词序列对应的类序列的训练数据(1110)。
词类预测模型生成设备700基于采集的训练数据通过机器学习生成词类预测模型(1120)。在这个示例中,机器学习算法可为神经网络、决策树、遗传算法(GA)、遗传编程(GP)、高斯处理回归、线性判决分析、k最近邻(k-NN)算法、感知器、径向基函数网络、支持向量机(SVM)或深度学习(例如,递归神经网络(RNN))。因为词类预测模型生成设备700生成词类预测模型的特定方法与上面参照图8的描述的方法相同,所以它们的详细描述将参照图11被省略。
通过被配置为执行由硬件组件所执行的在本申请中描述的操作的硬件组件,实施执行在本申请中描述的操作的图1至图6中的预测器110、图1和图6中的解码器120、图6中的词类预测模型存储器单元610、声学模型存储器单元620、发音词典存储器单元630、语言模型存储器单元640、个性化的语言模型存储器单元650、输入单元660、特征矢量提取器670和输出单元680,以及图7中的训练数据采集器710和模型生成器720。可用于执行在本申请中的适当位置描述的操作的硬件组件的示例包括:控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器和任何其他被配置为执行在本申请中描述的操作的电子组件。在其他示例中,一个或多个执行在本申请中描述的操作的硬件组件通过计算机硬件(例如,通过一个或多个处理器或计算机)实施。处理器或计算机可通过一个或多个处理元件(诸如,逻辑门阵列、控制器和算术逻辑单元)、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编辑门阵列、可编程逻辑阵列、微处理器或任何其他被配置为以定义的方式响应并执行指令去实现期望的结果的装置或装置的组合被实施。在一个示例中,处理器或计算机包括或被连接到,一个或多个存储有被处理器或计算机执行的指令或软件的存储器。被处理器和计算器实施的硬件组件可执行指令或软件(诸如操作系统(OS)和运行在OS中的一个或多个软件应用)来执行在本申请中描述的操作。响应于指令或软件的执行,硬件组件还可访问、操纵、处理、生成和存储数据。为了简明,单数术语“处理器”或“计算机”可用于在本申请中描述的示例的描述中,但在其他示例中,多处理器或多计算机可被使用,或者一个处理器或计算机可包括多处理器元件或多种类型的处理器元件或者两者均有。例如,单个硬件组件或两个或更多个硬件组件可通过单个处理器或者两个或更多个处理器或者一个处理器和控制器实施。一个或多个硬件组件可通过一个或多个处理器,或者一个处理器和一个控制器实施,并且一个或多个其他硬件组件可通过一个或多个其他处理器,或者另一处理器和另一控制器实施。一个或多个处理器,或者一个处理器和一个控制器可实施单个硬件组件,或者两个或更多个硬件组件。硬件组件可具有任何一个或多个不同的处理配置,其示例包括:单处理器、独立的处理器、并行处理器、单指令单数据(SISD)多重处理、多指令单数据(MISD)多重处理、单指令多数据(SIMD)多重处理以及多指令多数据(MIMD)多重处理。
图9至图11中示出的执行在本申请中描述的操作的方法由如上描述的那样被实施为执行指令或软件以执行所述方法所执行的在本申请中描述的操作的计算机硬件(例如,一个或多个处理器或计算机)执行。例如,单个操作或者两个或更多个操作可通过单处理器或者两个或更多个处理器,或者处理器和控制器来执行。一个或多个操作可通过一个或多个处理器,或者处理器和控制器来执行,且一个或多个其他操作可通过一个或多个其他处理器,或者另一处理器和另一控制器来执行。一个或多个处理器,或者处理器和控制器,可执行单个操作,或者两个或更多个操作。
为了单独地或共同地指示或配置一个或多个处理器或计算机来作为机器或专用计算机执行被如上面所描述的硬件组件和方法所执行的操作,用于控制计算机硬件(例如,一个或多个处理器或计算机)以实施硬件组件并执行如上面所描述的方法的指令或软件可被写为计算机程序、代码段、指令或它们的任意组合。在一个示例中,指令或软件包括直接被一个或多个处理器或计算机执行的机器代码(诸如,被编译器产生的机器代码)。在另一示例中,指令或软件包括被一个或多个处理器或计算机使用解释器执行的高级代码。指令或软件可基于公开了用于执行被如上所述的硬件组件和方法执行的操作的算法的在附图中示出的框图和流程图和说明书的相应描述使用任意编程语言被编写。
用于控制计算机硬件(例如,一个或多个处理器或计算机)以实施硬件组件并执行如上所述的方法的指令或软件、以及任何相关的数据、数据文件以及数据结构可被记录、存储或安装在一个或多个非暂时计算机可读存储介质中或上。非暂时性计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-Re、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘、和被配置为以非暂时方式存储指令或软件、以及任何相关的数据、数据文件以及数据结构,并向一个或多个处理器或计算机提供指令或软件、以及任何相关的数据、数据文件以及数据结构以便所述一个或多个处理器和计算机能够执行指令的任何其他设备。在一个示例中,指令或软件、以及任何相关数据、数据文件以及数据结构分布在联网的计算机系统上,以便指令和软件、以及任何相关的数据、数据文件以及数据结构被一个或多个处理器或计算机以分布式方式存储、访问和执行。
尽管本公开包括特定的示例,但是在不脱离权利要求和它们的等同物的精神和范围的情况下可在这些示例中做出形式和细节上各种改变,在对本申请的公开的理解后将是清楚的。在此描述的示例被认为仅是描述性的,而非为了限制的目的。在每一示例中的特征和方面的描述将被认为适用于其他示例中的相似特征和方面。如果描述的技术以不同的顺序被执行,和/或如果在描述的系统、架构、装置、或电路中的组件以不同的方式组合,和/或被其他组件或者它们的等同物代替或增补,可实现合适的结果。因此,公开的范围不是通过具体实施方式所限定,而是由权利要求和它们的等同物限定,并且在权利要求和它们的等同物的范围内的所有变化将被解释为被包括在该公开之内。

Claims (26)

1.一种语音识别设备,包括:
预测器,被配置为基于之前已被搜索的单词序列预测跟随所述之前已被搜索的单词序列的单词的词类概率分布;
解码器,被配置为搜索与语音信号和跟随所述之前已被搜索的单词序列的单词对应的候选单词,并使用已被搜索的候选单词扩展所述之前已被搜索的单词序列,
其中,使用已被搜索的候选单词扩展所述之前已被搜索的单词序列的处理包括:
计算与跟随所述之前已被搜索的单词序列的单词对应的候选单词的概率值;
通过预测的词类概率分布和个性化的语言模型,调整候选单词的概率值;
输出扩展单词序列,扩展单词序列包括所述之前已被搜索的单词序列和具有调整的概率值之中的最高的调整的概率值的候选单词。
2.如权利要求1所述的语音识别设备,其中,词类为实体名或词性;
实体名为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。
3.如权利要求1所述的语音识别设备,其中,预测器还被配置为:基于所述之前已被搜索的单词序列预测跟随所述之前已被搜索的单词序列的单词的词类,
解码器还被配置为:基于预测的词类调整扩展的单词序列的概率值。
4.如权利要求3所述的语音识别设备,其中,词类预测模型基于词典和语法以规则集的形式被构造,或者使用命名的实体识别方案和词性标注方案中的任何一个或两者通过机器学习被构造。
5.如权利要求3所述的语音识别设备,其中,词类预测模型为基于递归神经网络RNN的模型。
6.如权利要求1所述的语音识别设备,其中,解码器还被配置为:使用以加权有限状态转换器WFST的形式在数据结构中构造的发音词典和语言模型来搜索候选单词。
7.如权利要求3所述的语音识别设备,其中,解码器还被配置为:从未来的搜索目标排除已被搜索的候选单词之中的不属于预测的词类的候选单词。
8.如权利要求3所述的语音识别设备,其中,解码器还被配置为:在已被搜索的候选单词之中增加属于预测的词类的候选单词的概率值。
9.如权利要求3所述的语音识别设备,其中,解码器还被配置为:在已被搜索的候选单词之中增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值。
10.如权利要求3所述的语音识别设备,其中,预测器还被配置为:使用词类预测模型预测跟随所述之前已被搜索的单词序列的单词的词类;解码器还被配置为:通过用每一候选单词的概率值乘以该候选单词所属的词类的预测的概率值,调整每一候选单词的概率值。
11.一种语音识别方法,包括:
基于之前已被搜索的单词序列预测跟随所述之前已被搜索的单词序列的单词的词类概率分布;
搜索与语音信号和跟随所述之前已被搜索的单词序列的单词对应的候选单词;
使用已被搜索的候选单词扩展所述之前已被搜索的单词序列,
其中,使用已被搜索的候选单词扩展所述之前已被搜索的单词序列的步骤包括:
计算与跟随所述之前已被搜索的单词序列的单词对应的候选单词的概率值;
通过预测的词类概率分布和个性化的语言模型,调整候选单词的概率值;
输出扩展单词序列,扩展单词序列包括所述之前已被搜索的单词序列和具有调整的概率值之中的最高的调整的概率值的候选单词。
12.如权利要求11所述的语音识别方法,其中,词类为实体名或词性;
实体名为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。
13.如权利要求11所述的语音识别方法,还包括:基于所述之前已被搜索的单词序列预测跟随所述之前已被搜索的单词序列的单词的词类;
基于预测的词类调整扩展的单词序列的概率值。
14.如权利要求13所述的语音识别方法,其中,词类预测模型基于词典和语法以规则集的形式被构造,或者使用命名的实体识别方案和词性标注方案的任何一个或两者通过机器学习被构造。
15.如权利要求13所述的语音识别方法,其中,词类预测模型为基于递归神经网络RNN的模型。
16.如权利要求11所述的语音识别方法,其中,所述搜索候选单词的步骤包括:使用以加权有限状态转换器WFST的形式在数据结构中构造的发音词典和语言模型搜索候选单词。
17.如权利要求13所述的语音识别方法,还包括:从未来的搜索目标排除已被搜索的候选单词之中的不属于预测的词类的候选单词。
18.如权利要求13所述的语音识别方法,其中,所述调整扩展的单词序列的概率值的步骤包括:在已被搜索的候选单词之中增加属于预测的词类的候选单词的概率值。
19.如权利要求13所述的语音识别方法,其中,所述调整扩展的单词序列的概率值的步骤包括:在已被搜索的候选单词之中增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值。
20.如权利要求13所述的语音识别方法,其中,所述预测词类的步骤包括:使用词类预测模型预测跟随所述之前已被搜索的单词序列的单词的词类;
所述调整扩展的单词序列的概率值的步骤包括:通过用每一候选单词的概率值乘以该候选单词所属的词类的预测的概率值,调整每一候选单词的概率值。
21.一种语音识别设备,包括:
预测器,被配置为基于之前已被搜索的单词序列预测跟随所述之前已被搜索的单词序列的单词的词类概率分布;
解码器,被配置为搜索与语音信号和跟随所述之前已被搜索的单词序列的单词对应的多个候选单词,并将候选单词添加到所述之前已被搜索的单词序列,
其中,将候选单词添加到所述之前已被搜索的单词序列的处理包括:
计算与跟随所述之前已被搜索的单词序列的单词对应的所述多个候选单词的概率值;
通过预测的词类概率分布和个性化的语言模型,调整所述多个候选单词的概率值;
将具有调整的概率值之中的最高的调整的概率值的候选单词添加到所述之前已被搜索的单词序列。
22.如权利要求21所述的语音识别设备,其中,预测器还被配置为:基于所述之前已被搜索的单词序列预测多个词类的各自的概率;
解码器还被配置为:基于所述多个词类的预测的概率将单词添加到所述之前已被搜索的单词序列。
23.如权利要求22所述的语音识别设备,其中,预测器还被配置为:基于所述之前已被搜索的单词序列预测跟随所述之前已被搜索的单词序列的单词的词类;
解码器还被配置为:将属于在所述多个词类之中具有最高概率的词类的单词添加到所述之前已被搜索的单词序列。
24.如权利要求22所述的语音识别设备,其中,预测器还被配置为:基于所述之前已被搜索的单词序列预测跟随所述之前已被搜索的单词序列的单词的词类;
解码器还被配置为:基于所述多个候选单词的各自的概率和所述多个词类的预测的概率确定是否将所述多个候选单词中的一个候选单词添加到所述之前已被搜索的单词序列。
25.如权利要求21所述的语音识别设备,其中,预测器还被配置为:基于所述之前已被搜索的单词序列预测跟随所述之前已被搜索的单词序列的单词的词类;
解码器还被配置为:基于预测的词类确定是否将候选单词添加到所述之前已被搜索的单词序列。
26.一种存储当由处理器执行时导致处理器执行权利要求11所述的语音识别方法的指令的计算机可读存储介质。
CN201611078946.5A 2015-11-30 2016-11-30 语音识别设备和方法 Active CN106816148B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020150168967A KR102450853B1 (ko) 2015-11-30 2015-11-30 음성 인식 장치 및 방법
KR10-2015-0168967 2015-11-30

Publications (2)

Publication Number Publication Date
CN106816148A CN106816148A (zh) 2017-06-09
CN106816148B true CN106816148B (zh) 2022-04-22

Family

ID=57421753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611078946.5A Active CN106816148B (zh) 2015-11-30 2016-11-30 语音识别设备和方法

Country Status (4)

Country Link
US (1) US10606947B2 (zh)
EP (1) EP3174047B1 (zh)
KR (1) KR102450853B1 (zh)
CN (1) CN106816148B (zh)

Families Citing this family (138)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US9984683B2 (en) * 2016-07-22 2018-05-29 Google Llc Automatic speech recognition using multi-dimensional models
US11341413B2 (en) * 2016-08-29 2022-05-24 International Business Machines Corporation Leveraging class information to initialize a neural network language model
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10593346B2 (en) * 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10529324B1 (en) * 2016-12-27 2020-01-07 Cognistic, LLC Geographical based voice transcription
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR20180092582A (ko) * 2017-02-10 2018-08-20 삼성전자주식회사 Wfst 디코딩 시스템, 이를 포함하는 음성 인식 시스템 및 wfst 데이터 저장 방법
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
CN107293288B (zh) * 2017-06-09 2020-04-21 清华大学 一种残差长短期记忆循环神经网络的声学模型建模方法
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法
KR102369416B1 (ko) * 2017-09-18 2022-03-03 삼성전자주식회사 복수의 사용자 각각에 대응하는 개인화 레이어를 이용하여 복수의 사용자 각각의 음성 신호를 인식하는 음성 신호 인식 시스템
US11755834B2 (en) * 2017-12-22 2023-09-12 Google Llc Selective text prediction for electronic messaging
CN107993651B (zh) * 2017-12-29 2021-01-19 深圳和而泰数据资源与云技术有限公司 一种语音识别方法、装置、电子设备及存储介质
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
CN108418744A (zh) * 2018-02-06 2018-08-17 国网浙江省电力有限公司信息通信分公司 一种用于提升电力服务质量的电子坐席系统
CN108305605A (zh) * 2018-03-06 2018-07-20 吟飞科技(江苏)有限公司 基于计算机音视频的人机交互数字乐器系统
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
CN110389668A (zh) * 2018-04-20 2019-10-29 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11036926B2 (en) 2018-05-21 2021-06-15 Samsung Electronics Co., Ltd. Generating annotated natural language phrases
CN108694939B (zh) * 2018-05-23 2020-11-03 广州视源电子科技股份有限公司 语音搜索优化方法、装置和系统
CN110600032A (zh) * 2018-05-23 2019-12-20 北京语智科技有限公司 一种语音识别方法及装置
CN108682415B (zh) * 2018-05-23 2020-09-29 广州视源电子科技股份有限公司 语音搜索方法、装置和系统
EP3576019A1 (en) 2018-05-29 2019-12-04 Nokia Technologies Oy Artificial neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
CN108922513B (zh) * 2018-06-04 2023-03-17 平安科技(深圳)有限公司 语音区分方法、装置、计算机设备及存储介质
WO2020003928A1 (ja) * 2018-06-28 2020-01-02 株式会社Nttドコモ エンティティ特定システム
CN110764422A (zh) * 2018-07-27 2020-02-07 珠海格力电器股份有限公司 电器的控制方法和装置
CN109274845A (zh) * 2018-08-31 2019-01-25 平安科技(深圳)有限公司 智能语音自动回访方法、装置、计算机设备及存储介质
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
CN109472020B (zh) * 2018-10-11 2022-07-01 重庆邮电大学 一种特征对齐中文分词方法
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
KR20200056001A (ko) * 2018-11-14 2020-05-22 삼성전자주식회사 인공신경망에서의 디코딩 방법 및 그 장치
KR20200059703A (ko) 2018-11-21 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
KR102346026B1 (ko) * 2019-02-11 2021-12-31 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN110069612B (zh) * 2019-04-28 2022-02-01 河北省讯飞人工智能研究院 一种回复生成方法及装置
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
CN110164020A (zh) * 2019-05-24 2019-08-23 北京达佳互联信息技术有限公司 投票创建方法、装置、计算机设备及计算机可读存储介质
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11074909B2 (en) 2019-06-28 2021-07-27 Samsung Electronics Co., Ltd. Device for recognizing speech input from user and operating method thereof
CN110322884B (zh) * 2019-07-09 2021-12-07 科大讯飞股份有限公司 一种解码网络的插词方法、装置、设备及存储介质
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
KR20210044559A (ko) 2019-10-15 2021-04-23 삼성전자주식회사 출력 토큰 결정 방법 및 장치
US11482214B1 (en) * 2019-12-12 2022-10-25 Amazon Technologies, Inc. Hypothesis generation and selection for inverse text normalization for search
CN111177403B (zh) * 2019-12-16 2023-06-23 恩亿科(北京)数据科技有限公司 样本数据的处理方法和装置
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN111651599B (zh) * 2020-05-29 2023-05-26 北京搜狗科技发展有限公司 一种语音识别候选结果的排序方法及装置
US11688394B1 (en) * 2020-06-01 2023-06-27 Amazon Technologies, Inc. Entity language models for speech processing
US11704460B2 (en) * 2020-06-10 2023-07-18 University Of Florida Research Foundation, Incorporated System and method for fast and accurate netlist to RTL reverse engineering
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
KR102386627B1 (ko) * 2020-08-25 2022-04-14 주식회사 카카오엔터프라이즈 음성 인식에 관한 빔 서치 방법 및 장치
US11829720B2 (en) 2020-09-01 2023-11-28 Apple Inc. Analysis and validation of language models
CN112530421B (zh) * 2020-11-03 2023-04-07 科大讯飞股份有限公司 语音识别方法、电子设备及存储装置
CN112287678A (zh) * 2020-11-03 2021-01-29 沈阳雅译网络技术有限公司 一种基于预训练模型的古体诗自动生成方法
CN112927679B (zh) * 2021-02-07 2023-08-15 虫洞创新平台(深圳)有限公司 一种语音识别中添加标点符号的方法及语音识别装置
US11232793B1 (en) * 2021-03-30 2022-01-25 Chief Chief Technologies Oy Methods, systems and voice managing servers for voice recognition to perform action
CN113096642A (zh) * 2021-03-31 2021-07-09 南京地平线机器人技术有限公司 语音识别方法和装置、计算机可读存储介质、电子设备
CN113192501B (zh) * 2021-04-12 2022-04-22 青岛信芯微电子科技股份有限公司 一种指令词识别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2026328A1 (de) * 2007-08-09 2009-02-18 Volkswagen Aktiengesellschaft Verfahren zur multimodalen Bedienung mindestens eines Gerätes in einem Kraftfahrzeug
CN101604520A (zh) * 2009-07-16 2009-12-16 北京森博克智能科技有限公司 基于统计模型和语法规则的口语语音识别方法
CN102682763A (zh) * 2011-03-10 2012-09-19 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
CN103076893A (zh) * 2012-12-31 2013-05-01 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
CN103187052A (zh) * 2011-12-29 2013-07-03 北京百度网讯科技有限公司 一种建立用于语音识别的语言模型的方法及装置

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1133766B1 (en) * 1998-11-25 2004-01-21 Entropic Limited Network and language models for use in a speech recognition system
US7457750B2 (en) * 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
KR100657267B1 (ko) * 2003-10-30 2006-12-14 삼성전자주식회사 검색을 위한 메타 정보가 포함된 저장 매체, 재생 장치 및그 재생 방법
US7111248B2 (en) * 2002-01-15 2006-09-19 Openwave Systems Inc. Alphanumeric information input method
JP4171323B2 (ja) 2003-02-27 2008-10-22 日本電信電話株式会社 認識誤り訂正方法、装置、およびプログラム
GB2407657B (en) 2003-10-30 2006-08-23 Vox Generation Ltd Automated grammar generator (AGG)
US8676577B2 (en) * 2008-03-31 2014-03-18 Canyon IP Holdings, LLC Use of metadata to post process speech recognition output
JP5475795B2 (ja) * 2008-11-05 2014-04-16 グーグル・インコーポレーテッド カスタム言語モデル
US8108214B2 (en) 2008-11-19 2012-01-31 Robert Bosch Gmbh System and method for recognizing proper names in dialog systems
KR101217524B1 (ko) * 2008-12-22 2013-01-18 한국전자통신연구원 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치
JP2010154397A (ja) 2008-12-26 2010-07-08 Sony Corp データ処理装置、データ処理方法、及び、プログラム
US8589163B2 (en) 2009-12-04 2013-11-19 At&T Intellectual Property I, L.P. Adapting language models with a bit mask for a subset of related words
KR101394253B1 (ko) 2012-05-16 2014-05-13 광주과학기술원 음성 인식 오류 보정 장치
JP2013250379A (ja) 2012-05-31 2013-12-12 Alpine Electronics Inc 音声認識装置、音声認識方法およびプログラム
CN104823135B (zh) * 2012-08-31 2018-01-30 微软技术许可有限责任公司 用于输入法编辑器的个人语言模型
KR101892734B1 (ko) 2013-01-04 2018-08-28 한국전자통신연구원 음성 인식 시스템에서의 오류 수정 방법 및 그 장치
US9305545B2 (en) 2013-03-13 2016-04-05 Samsung Electronics Co., Ltd. Speech recognition vocabulary integration for classifying words to identify vocabulary application group
US9558743B2 (en) * 2013-03-15 2017-01-31 Google Inc. Integration of semantic context information
US9613619B2 (en) * 2013-10-30 2017-04-04 Genesys Telecommunications Laboratories, Inc. Predicting recognition quality of a phrase in automatic speech recognition systems
JP2015102805A (ja) 2013-11-27 2015-06-04 アルパイン株式会社 音声認識システム、電子装置、サーバー、音声認識方法および音声認識プログラム
KR102204395B1 (ko) 2013-12-06 2021-01-19 주식회사 케이티 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템
US9971765B2 (en) * 2014-05-13 2018-05-15 Nuance Communications, Inc. Revising language model scores based on semantic class hypotheses
US20150370787A1 (en) * 2014-06-18 2015-12-24 Microsoft Corporation Session Context Modeling For Conversational Understanding Systems
CN104036010B (zh) * 2014-06-25 2017-05-24 华东师范大学 一种基于半监督cbow的用户搜索词主题分类的方法
KR102380833B1 (ko) * 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US9607616B2 (en) * 2015-08-17 2017-03-28 Mitsubishi Electric Research Laboratories, Inc. Method for using a multi-scale recurrent neural network with pretraining for spoken language understanding tasks
US10740384B2 (en) * 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10366158B2 (en) * 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10896681B2 (en) * 2015-12-29 2021-01-19 Google Llc Speech recognition with selective use of dynamic language models
CN109313896B (zh) * 2016-06-08 2020-06-30 谷歌有限责任公司 可扩展的动态类语言建模方法、用于生成话语转录的系统、计算机可读介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2026328A1 (de) * 2007-08-09 2009-02-18 Volkswagen Aktiengesellschaft Verfahren zur multimodalen Bedienung mindestens eines Gerätes in einem Kraftfahrzeug
CN101604520A (zh) * 2009-07-16 2009-12-16 北京森博克智能科技有限公司 基于统计模型和语法规则的口语语音识别方法
CN102682763A (zh) * 2011-03-10 2012-09-19 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
CN103187052A (zh) * 2011-12-29 2013-07-03 北京百度网讯科技有限公司 一种建立用于语音识别的语言模型的方法及装置
CN103076893A (zh) * 2012-12-31 2013-05-01 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RNN language model with word clustering and;Yongzhe Shi,et al.;《EURASIP Journal on Audio, Speech, and Music Processing》;20130122(第22期);第1-7页 *
互联网时代语音识别基本问题;柯登峰等;《中国科学:信息科学》;20131220;第43卷(第12期);第1578-1597页 *

Also Published As

Publication number Publication date
KR102450853B1 (ko) 2022-10-04
US20170154033A1 (en) 2017-06-01
CN106816148A (zh) 2017-06-09
KR20170063037A (ko) 2017-06-08
EP3174047A1 (en) 2017-05-31
EP3174047B1 (en) 2021-08-04
US10606947B2 (en) 2020-03-31

Similar Documents

Publication Publication Date Title
CN106816148B (zh) 语音识别设备和方法
CN111292728B (zh) 语音识别方法和设备
CN107590135B (zh) 自动翻译方法、设备和系统
CN107195296B (zh) 一种语音识别方法、装置、终端及系统
JP7234415B2 (ja) 音声認識のためのコンテキストバイアス
US9911409B2 (en) Speech recognition apparatus and method
US11132992B2 (en) On-device custom wake word detection
US9361084B1 (en) Methods and systems for installing and executing applications
US11074909B2 (en) Device for recognizing speech input from user and operating method thereof
CN110097870B (zh) 语音处理方法、装置、设备和存储介质
Chen et al. Strategies for Vietnamese keyword search
EP3826007B1 (en) Method and apparatus with speech processing
US9972308B1 (en) Splitting utterances for quick responses
US10607601B2 (en) Speech recognition by selecting and refining hot words
CN112420026A (zh) 优化关键词检索系统
Abed et al. Diacritics effect on Arabic speech recognition
Moyal et al. Phonetic search methods for large speech databases
Nasr et al. End-to-end speech recognition for arabic dialects
US20230076073A1 (en) Method and apparatus for speech recognition
US11328713B1 (en) On-device contextual understanding
Chen et al. Topic segmentation on spoken documents using self-validated acoustic cuts
Chen et al. A Keyword-Aware Language Modeling Approach to Spoken Keyword Search
Ruan et al. Mobile phone-based audio announcement detection and recognition for people with hearing impairment
Gill et al. Spectral Features Based Spoken Dialect Identification for Punjabi Language
Medeiros Deep learning for speech to text transcription for the portuguese language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant