CN105810193A - 训练语言模型的方法和设备及识别语言的方法和设备 - Google Patents

训练语言模型的方法和设备及识别语言的方法和设备 Download PDF

Info

Publication number
CN105810193A
CN105810193A CN201610005525.3A CN201610005525A CN105810193A CN 105810193 A CN105810193 A CN 105810193A CN 201610005525 A CN201610005525 A CN 201610005525A CN 105810193 A CN105810193 A CN 105810193A
Authority
CN
China
Prior art keywords
training
estimation
vector sequence
data
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610005525.3A
Other languages
English (en)
Other versions
CN105810193B (zh
Inventor
李昊潼
李镐式
崔喜烈
闵允泓
柳尚贤
李礼夏
李知炫
崔荣相
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN105810193A publication Critical patent/CN105810193A/zh
Application granted granted Critical
Publication of CN105810193B publication Critical patent/CN105810193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

提供一种训练语言模型的方法和设备及识别语言的方法和设备。一种用于训练语言模型的方法和设备包括:从训练数据产生第一训练特征向量序列和第二训练特征向量序列。所述方法被配置为基于第一训练特征向量序列执行神经网络的前向估计,基于第二训练特征向量序列执行神经网络的后向估计。所述方法还被配置为基于前向估计的结果和后向估计的结果训练语言模型。

Description

训练语言模型的方法和设备及识别语言的方法和设备
本申请要求于2015年1月19日提交到韩国知识产权局的第10-2015-0008881号韩国专利申请的权益,所述韩国专利申请的全部公开通过出于所有目的的引用包含于此。
技术领域
以下描述涉及一种用于训练语言模型的方法和设备及用于使用该语言模型识别语言的方法和设备。
背景技术
过去,设计语音和语言处理的方法已从基于语言学和语音学的系统和处理改变为数据驱动的模式识别技术。这些技术已成为集中、快速进展的研究的焦点并为该领域的重要的进步作出贡献。为了对人类输入模式进行分类,正在对将人类的有效的模式识别方法应用到实际计算机进行积极研究。这样的一个研究领域关注在通过人的生物神经细胞的数学表达特性来建模的人工神经网络。
在语音识别领域,人工神经网络用于输出与语音的输入模式对应的识别结果。人工神经网络通过学习在输入模式和输出模式之间产生映射,并输出指示该映射的学习结果。基于学习结果,人工神经网络产生针对有待用于学习的输入模式的输出。
发明内容
提供本发明内容以按照简化的形式来介绍对构思的选择,将在下面的具体实施方式中对所述构思进行进一步描述。本发明内容不意图确定所要求保护的主题的关键特征或必要特征,也不意图用作帮助确定所要求保护的主题的范围。
根据实施例,提供一种方法,所述方法包括:从训练数据产生第一训练特征向量序列和第二训练特征向量序列;基于第一训练特征向量序列执行神经网络的前向估计,基于第二训练特征向量序列执行神经网络的后向估计;基于前向估计的结果和后向估计的结果训练语言模型。
神经网络可包括用于前向估计的第一隐藏层和用于后向估计的第二隐藏层,第一隐藏层与第二隐藏层分开。
所述产生的步骤可包括:将训练数据转换为词向量序列;产生沿词向量序列的正向开始的第一训练特征向量序列和沿词向量序列的反向开始的第二训练特征向量序列。
前向估计可包括:估计将要与包括在训练数据中的第一词连接的随后的词,后向估计可包括:估计与包括在训练数据中的第二词连接的之前的词。
所述训练的步骤可包括:基于前向估计的结果和后向估计的结果计算神经网络的训练数据与输出数据之间的误差值;基于所述误差值更新包括在神经网络中的人工神经元之间的连接权重。
可基于双向长短期记忆(BLSTM)结构的递归神经网络配置语言模型。
BLSTM的递归神经网络可包括被配置为保持先前时间段中输出的值直到随后的时间段为止的存储块。
训练数据可包括包含语音数据、手写数据或它们的组合的序列数据。
根据实施例,提供一种方法,所述方法包括:从输入数据产生第一输入特征向量序列和第二输入特征向量序列;基于第一输入特征向量序列执行神经网络的前向估计,并基于第二输入特征向量序列执行神经网络的后向估计,以估计识别输入数据的结果。
神经网络可包括用于前向估计的第一隐藏层和用于后向估计的第二隐藏层,第一隐藏层可与第二隐藏层分开。
所述估计的步骤可包括:基于与第一输入特征向量序列相关联的前向估计结果和与第二输入特征向量序列相关联的后向估计结果,来估计识别所述输入数据的结果。
一种包括程序的非暂时性计算机可读存储介质,所述程序包括可使计算机执行如上所述的方法的指令。
根据另一实施例,提供一种设备,所述设备包括:训练数据预处理器,被配置为从训练数据产生第一训练特征向量序列和第二训练特征向量序列;语言模型训练器,被配置为基于第一训练特征向量序列和第二训练特征向量序列训练基于神经网络的语言模型,针对第一训练特征向量序列执行神经网络的前向估计,并针对第二训练特征向量序列执行神经网络的后向估计。
神经网络可包括用于前向估计的第一隐藏层和用于后向估计的第二隐藏层,并且第一隐藏层可与第二隐藏层分开。
语言模型训练器可被配置为:基于前向估计的结果和后向估计的结果训练语言模型。
语言模型训练器可被配置为:基于前向估计的结果和后向估计的结果计算训练数据与输出数据之间的误差值,并基于所述误差值更新包括在神经网络中的人工神经元之间的连接权重。
训练数据预处理器可被配置为:将训练数据转换为词向量序列,并产生沿词向量序列的正向开始的第一训练特征向量序列和沿词向量序列的反向开始的第二训练特征向量序列。
根据另一实施例,提供一种用于识别语言的设备,所述设备包括:输入数据预处理器,被配置为从输入数据产生第一输入特征向量序列和第二输入特征向量序列;输入数据识别器,被配置为基于第一输入特征向量序列执行神经网络的前向估计,基于第二输入特征向量序列执行神经网络的后向估计,以估计识别输入数据的结果。
根据另一实施例,提供一种用于识别语言的设备,所述设备包括:输入数据预处理器,被配置为从输入数据产生第一输入特征向量序列和第二输入特征向量序列;输入数据识别器,被配置为基于神经网络的第一隐藏层使用第一输入特征向量序列执行正向估计,基于神经网络的第二隐藏层使用第二输入特征向量序列执行后向估计,其中,第一隐藏层与第二隐藏层分开。
所述设备还可包括语言模型数据库,被配置为存储基于神经网络的语言模型。
根据另一实施例,提供一种语言模型训练器设备,所述设备包括:训练处理器,被配置为基于第一训练特征向量序列和第二训练特征向量序列训练语言模型;控制器,被配置为基于第一训练特征向量序列执行神经网络的前向估计,基于第二训练特征向量序列执行神经网络的后向估计;误差计算处理器,被配置为通过整合针对第一训练特征向量序列的前向估计的结果和针对第二训练特征向量序列的后向估计的结果来计算语言模型的训练数据与输出数据之间的误差值。
控制器可使用第一训练特征向量序列持续执行前向估计,并可使用第二训练特征向量序列持续执行后向估计。
控制器可被配置为通过估计将与包括在训练数据中的第一词连接的随后的词以及通过基于句子中的之前的词的记录估计当前词,来执行神经网络的前向估计,并可通过估计将与包括在训练数据中的第二词连接的之前的词以及通过基于句子中的将来的词的记录估计当前词,来执行后向估计。
基于误差值,可更新包括在神经网络中的人工神经元之间的连接权重。
所述设备还可包括计算处理器,所述计算处理器被配置为使用神经网络计算词序列的双向发生概率,并配置语言模型来估计感兴趣位置的词。
可沿词向量序列的正向开始产生第一训练特征向量序列,可沿词向量序列的反向开始产生第二训练特征向量序列。
通过以下具体实施方式、附图和权利要求,其它特征和方面将是清楚的。
附图说明
图1A是示出根据实施例的用于训练语言模型的设备的配置的示例的框图。
图1B是示出根据实施例的用于训练语言模型的训练数据预处理器和语言模型训练器的配置的示例的框图。
图2是示出根据实施例的配置语言模型的神经网络的结构的示例的框图。
图3是示出根据实施例的用于识别语言的设备的配置的示例的框图。
图4是示出根据实施例的训练基于双向长短期记忆(BLSTM)结构的递归神经网络(recurrentneuralnetwork)来配置的语言模型的示例的流程图。
图5是示出根据实施例的训练语言模型的方法的示例的流程图。
图6是示出根据实施例的识别语言的方法的示例的流程图。
贯穿附图和具体实施方式,除非另外描述或提供,否则相同附图标记将被理解为表示相同元件、特征和结构。附图可不必成比例绘制,并且为了清楚、说明和方便,可夸大附图中的元件的相对大小、比例和描绘。
具体实施方式
提供以下具体实施方式以帮助读者获得对这里描述的方法、设备和/或系统的全面理解。然而,这里描述的系统、设备和/或方法的各种改变、修改和等同物对于本领域的普通技术人员将是清楚的。这里描述的处理功能和/或操作的进程仅是示例,然而,处理功能和/或操作的顺序不限于这里阐述的顺序,除了必需按特定顺序发生的处理功能和/或操作之外,这里描述的处理功能和/或操作的顺序可如本领域所知的那样被改变。此外,为了更加清楚和简明,可省略本领域的普通技术人员公知的功能和结构的描述。
这里描述的特征可以以不同形式被实现,并不被解释为限于这里描述的示例。相反,提供这里描述的示例使得本公开将是彻底和全面的,并将向本领域普通技术人员传达本公开的全部范围。
在下文中,参照附图详细描述示例。以下特定结构或功能描述是示例性的以仅描述示例,示例的范围不限于在本说明书中提供的描述。本领域普通技术人员可做出各种改变和修改。附图中的相同标号表示相同的元件,并且这里将省略已知功能或配置。
将理解,当元件或层被称为“在”另一元件或层“上”或者“连接到”另一元件或层时,所述元件或层可直接在另一元件或层上或连接到所述另一元件或层,或者可存在中间元件或中间层。相反,当元件被称为“直接”在另一元件或层“上”、或“直接连接到”另一元件或层时,不存在中间元件或中间层。相同标号始终表示相同的元件。如这里所使用的,术语“和/或”包括一个或更多个相关列出的项的任何组合和所有组合。
图1A是示出根据实施例的用于训练语言模型的设备的配置的示例的框图。
用于训练语言模型的设备100训练基于神经网络的语言模型。用于训练语言模型的设备100通过双向估计来训练语言模型,并输出训练的语言模型。
语言模型基于神经网络估计与输入模式对应的识别结果。语言模型的识别性能通过学习处理提高。语言模型用于针对连续语音数据或手写数据(例如,文本输入)估计将被识别的词。语言模型用于自然语言识别系统,例如,用于语音识别、手写识别、口述、口译和翻译的系统。语言模型包括一套、一系列或一组词,并指示每个词与输入模式的对应率作为概率信息。
神经网络是被实现为使用通过边连接的大量人工神经元来对生物系统的计算能力进行仿真的硬件的识别模型。神经网络执行用于执行所述仿真的处理。神经网络通过人工神经元执行人的识别动作或学习处理,人工神经元通过具有连接权重(connectionweight,连接权、连接权值)的边彼此连接。连接权重是边的预定值,并且还可被称为连接强度。人工神经元还可被称为节点。
参照图1A,用于训练语言模型的设备100包括训练数据预处理器110和语言模型训练器120。
将被用于训练语言模型的训练数据被输入到训练数据预处理器110。序列数据(例如,语音数据或手写数据)被用作训练数据。
例如,将被学习的序列数据作为训练数据被输入到训练数据预处理器110。训练数据预处理器110将训练数据划分为句子单元。构成每个句子单元的词以向量形式被表示,训练数据预处理器110将包括在单个句子中的词转换为词向量序列。
训练数据预处理器110从训练数据中的连续词提取特征,并基于提取的特征将训练数据转换为词向量序列。例如,当训练数据对应于语音数据时,训练数据预处理器110执行环境适应、端点检测、回声消除或噪声去除,并提取特征向量以有效地表示数字化的语音数据。例如,使用反映声道特性和激励信号特性的倒频谱提取方法或反映人的听觉识别处理的与倒频谱提取方法对应的梅尔频率倒频谱系数(MFCC)来提取特征向量。
训练数据预处理器110从词向量序列产生用于前向估计的第一训练特征向量和用于后向估计的第二训练特征向量序列。第一训练特征向量序列沿词向量序列的正向开始,第二训练特征向量序列沿词向量序列的反向开始。
语言模型训练器120基于第一训练特征向量序列和第二训练特征向量序列来训练语言模型。第一训练特征向量序列和第二训练特征向量序列随时间被顺序输入到语言模型。语言模型训练器120针对第一训练特征向量序列执行配置语言模型的神经网络的前向估计,并针对第二训练特征向量序列执行神经网络的后向估计。根据实施例,语言模型训练器120针对第一训练特征向量序列持续执行前向估计,根据示例,语言模型训练器120针对第二训练特征向量序列持续执行后向估计。
神经网络的前向估计是估计将与包括在训练数据中的第一词连接的随后的词的处理和基于给定句子中的过去的词的记录来估计当前词的处理。后向估计是估计与包括在训练数据中的第二词连接的之前的词的处理和基于给定句子中的将来的词的记录来估计当前词的处理。
例如,当训练数据对应于句子“Wearefriends”并且输入到神经网络的当前词为“are”时,前向估计基于之前的词“We”估计“are”,后向估计基于随后的词“friends”估计“are”。
使用能够双向估计的双向长短期记忆(BLSTM)结构的递归神经网络或另一结构的递归神经网络来配置语言模型。递归神经网络是包括在隐藏层中的隐藏节点在不同时间段递归地连接的神经网络。之后将参照图2描述BLSTM结构的递归神经网络。
语言模型训练器120使用能够双向估计的神经网络(例如,BLSTM结构的递归神经网络)来计算词序列的双向发生概率。语言模型训练器120配置语言模型以估计感兴趣位置的词。例如,语言模型训练器120基于给定句子的正向上下文从左至右训练语言模型,并基于给定句子的反向上下文从右向左训练语言模型。由于双向上下文(正向上下文和反向上下文)被考虑,因此词被估计得更准确并且噪声的效果减小。
语言模型训练器120通过整合针对第一训练特征向量序列的前向估计的结果和针对第二训练特征向量序列的后向估计的结果来计算语言模型的训练数据与输出数据之间的误差值。语言模型训练器120基于计算的误差值更新包括在神经网络中的人工神经元之间的连接权重。
语言模型训练器120例如使用通过时间的反向传播算法(backpropagationthroughtime,BPTT,时间进化反传算法)方案来更新人工神经元之间的连接权重。语言模型训练器120从神经网络的卷积层开始反向传播误差值,并更新人工神经元之间的连接权重以减小误差值,在神经网络的卷积层中朝着隐藏层和数据层整合前向估计结果和后向估计结果。
语言模型训练器120定义用于测量当前设置的人工神经元之间的最佳连接权重的目标函数,基于目标函数的结果持续改变连接权重,并迭代地执行训练。目标函数为例如用于基于训练数据计算实际输出值与期望从神经网络输出的预期值之间的误差的误差函数。语言模型训练器120更新连接权重以减小误差函数的值。
图1B是示出根据实施例的用于训练语言模型的训练数据预处理器110和语言模型训练器120的配置的示例的框图。
如之前所解释的,训练数据预处理器110产生沿词向量序列的正向开始的第一训练特征向量序列和沿词向量序列的反向开始的第二训练特征向量序列。
语言模型训练器120包括训练处理器122,训练处理器122被配置为基于在训练数据处理器110产生的第一训练特征向量序列和第二训练特征向量序列来训练语言模型。语言模型训练器120包括控制器124,控制器124被配置为针对第一训练特征向量序列执行神经网络的前向估计,并针对第二训练特征向量序列执行神经网络的后向估计。控制器124针对第一训练特征向量序列持续执行前向估计,并针对第二训练特征向量序列持续执行后向估计。控制器124通过估计将与包括在训练数据中的第一词连接的随后的词以及通过基于在给定句子中的过去的词的记录估计当前词,来执行神经网络的前向估计。控制器124通过估计将与包括在训练数据中的第二词连接的之前的词以及通过基于在句子中的将来的的词的记录估计当前词,来执行后向估计。
语言模型训练器120还包括计算处理器126,计算处理器126被配置为使用能够双向估计的神经网络计算词序列的双向发生概率,并配置语言模型来估计感兴趣位置处的词。语言模型训练器120还包括误差计算处理器128,误差计算处理器128被配置为通过整合针对第一训练特征向量序列的前向估计的结果和针对第二训练特征向量序列的后向估计的结果来计算语言模型的训练数据与输出数据之间的误差值。基于计算的误差值,包括在神经网络中的人工神经元之间的连接权重被更新。基于给定句子的正向上下文从左至右训练语言模型,并基于给定句子的反向上下文从右向左训练语言模型。
图2是示出根据实施例的配置语言模型的神经网络的结构的示例的框图。
参照图2,神经网络200包括数据层210、隐藏层240和卷积层250。隐藏层240包括第一隐藏层220和第二隐藏层230。当神经网络200对应于BLSTM结构的递归神经网络时,第一隐藏层220和第二隐藏层230对应于长短期记忆(LSTM)层。
BLSTM结构的递归神经网络包括存储块,存储块被配置为保持先前时间段输出的值直到随后时间段为止。存储块存储过去的历史,并在当前阶段反映过去的历史。BLSTM结构的递归神经网络使用隐藏层中的三个门(例如,输入门、遗忘门和输出门)输入、存储并输出以时间为单位输入的数据。
用于前向估计的第一训练特征向量序列和用于后向估计的第二训练特征向量序列被输入到数据层210。分别从针对包括在训练数据中的词的特征向量产生第一训练特征向量序列和第二训练特征向量序列。根据可选择配置,利用针对包括在训练数据中的词的特征向量同时产生第一训练特征向量序列和第二训练特征向量序列。
通过基于第一隐藏层220中的第一训练特征向量序列执行前向估计来计算正向概率信息,并通过基于第二隐藏层230中的第二训练特征向量序列执行后向估计来计算反向概率信息。
设置多个第一隐藏层220和多个第二隐藏层230,多个第一隐藏层220和多个第二隐藏层230可具有分层结构。第一隐藏层220连接到上面的第一隐藏层,第二隐藏层230连接到上面的第二隐藏层。
在第一隐藏层220中计算的概率信息和在第二隐藏层230中计算的概率信息被分别发送到上面的第一隐藏层220和上面的第二隐藏层230。基于接收的概率信息在上面的第一隐藏层220和上面的第二隐藏层230中重新计算概率信息。通过第一隐藏层220执行前向估计,通过第二隐藏层230执行后向估计。在一种配置中,第一隐藏层220和第二隐藏层230在结构和功能上彼此分开。在可选择配置中,第一隐藏层220和第二隐藏层230在结构上一起,但是在功能上彼此分开。在另一可选择配置中,单个隐藏层用于处理第一隐藏层和第二隐藏层。
在卷积层250中,从前向估计推出的概率信息和从后向估计推出的概率信息被整合,基于整合的结果产生与输入词相关联的最终估计结果。
用于训练语言模型的设备计算在卷积层250中产生的最终估计结果与输入词之间的误差值,并更新人工神经元之间的连接权重以减小误差值。
图3是示出根据实施例的用于识别语言的设备的配置的示例的框图。
用于识别语言的设备300使用预先训练的语言模型识别输入数据,并输出识别结果。用于识别语言的设备300使用语言模型从输入数据提取特征,并通过将提取的特征应用于语言模型来输出对输入数据进行分类和识别的结果。例如,用于识别语言的设备300识别并输出与输入语音数据对应的句子或词。用于识别语言的设备300用于例如语音识别和手写识别的领域中,并可应用于各种装置/设备(诸如,智能电话、平板电脑、台式电脑、导航系统、显示装置、可穿戴装置、安全系统和智能家庭系统)。
参照图3,用于识别语言的设备300包括输入数据预处理器310、语言模型数据库320和输入数据识别器330。
输入数据预处理器310从输入数据产生用于前向估计的第一输入特征向量序列和用于后向估计的第二输入特征向量序列。序列数据(例如,语音数据或手写数据)作为输入数据被输入。当接收到输入数据时,输入数据预处理器310从输入语音数据提取相对于一段时间的相对变化作为特征,并将提取的特征转换为语音特征向量序列。输入数据预处理器310基于语音特征向量序列产生沿语音特征向量序列的正向开始的第一输入特征向量序列和沿语音特征向量序列的反向开始的第二输入特征向量序列。
输入数据识别器330基于语言模型通过将第一输入特征向量序列和第二输入特征向量序列应用于神经网络来估计识别输入数据的结果。第一输入特征向量序列和第二输入特征向量序列可随时间被顺序地输入到语言模型。可选择地,第一输入特征向量序列和第二输入特征向量序列可被同时输入到语言模型。
语言模型通过参照图1、图4和图5描述的处理被预先训练并被存储在语言模型数据库320中。配置语言模型的神经网络是能够双向估计(例如,前向估计和后向估计)的递归神经网络。输入数据识别器330针对第一输入特征向量序列持续执行神经网络的前向估计,并针对第二输入特征向量序列持续执行神经网络的后向估计。前向估计和后向估计被分开和单独地执行。可选择地,前向估计和后向估计被同时执行。
配置语言模型的神经网络包括被配置为执行前向估计的第一隐藏层和被配置为执行后向估计的第二隐藏层。第一隐藏层和第二隐藏层可彼此分开或可被整合。输入数据识别器330基于第一隐藏层针对第一输入特征向量序列执行前向估计,并基于第二隐藏层针对第二输入特征向量序列执行后向估计。
与第一输入特征向量序列相关联的前向估计结果和与第二输入特征向量序列相关联的后向估计结果通过语言模型被整合,并且与输入数据相应的识别结果基于整合的结果被确定。在前向估计结果和后向估计结果被同时执行并被整合的配置中,语言模型确认两个结果被整合。输入数据识别器330通过接口装置(例如,显示器和扬声器)输出由语音模型确定的识别结果。
图4是示出根据实施例的训练基于BLSTM结构的递归神经网络配置的语言模型的示例的流程图。
参照图4,在操作410,用于训练语言模型的设备100产生用于双向估计的词向量序列。训练数据包括包含连续词的词序列,用于训练语言模型的设备100通过将从词序列提取的特征转换为向量的形式来产生词向量序列。
根据实施例,用于训练语言模型的设备100从词向量序列分别产生用于前向估计的第一训练特征向量序列和用于后向估计的第二训练特征向量序列。用于训练语言模型的设备100通过以相反顺序重构第一训练特征向量序列来产生第二训练特征向量序列。
在估计当前输入词之后的词的前向估计中,特定词或指示符标识或指示符被配置为指示在第一训练特征向量序列的开端插入句子的开始。在估计当前输入词之前的词的后向估计中,特定词或指示符标志或指示符被配置为指示可在第二训练特征向量序列的开端插入句子的结尾。在一种配置中,对于前向估计或后向估计,词、标志或指示符是被预先定义以被识别为句子的开始的指示符的单个字符或合成字符。
在操作420,用于训练语言模型的设备100执行数据层和长短期记忆(LSTM)层之间的估计。在操作410中产生的第一训练特征向量序列和第二训练特征向量序列以词为单位被顺序输入到双向长短期记忆(BLSTM)结构的递归神经网络的数据层。用于训练语言模型的设备100基于现有技术已知的LSTM层的等式来计算第一训练特征向量序列和第二训练特征向量序列的加权和。LSTM层对应于BLSTM结构的递归神经网络中的隐藏层。
当BLSTM结构的递归神经网络包括分层LSTM层时,在操作430,用于训练语言模型的设备100执行LSTM层和上面的LSTM层之间的估计。
在一个示例中,用于训练语言模型的设备100基于通过前一LSTM层的前向估计计算的结果执行上面的LSTM层的前向估计,在一个示例中,用于训练语言模型的设备100基于通过前一LSTM层的后向估计计算的结果执行上面的LSTM层的后向估计。
在操作440,当终止LSTM层中的计算时,用于训练语言模型的设备100通过整合与第一训练特征向量序列相关联的前向估计结果和与第二训练特征向量序列相关联的后向估计结果来计算针对最终词的概率值。
在操作450,用于训练语言模型的设备100基于针对最终词的概率值计算误差值,并校正误差。用于训练语言模型的设备100通过使用监督式学习方法将输入词与最终词进行比较来计算误差值,并通过使用通过时间的反向传播算法(BPTT)方案将误差值传播到下面的LSTM层来校正包括在LSTM层中的人工神经元之间的连接权重。
在操作460,用于训练语言模型的设备100存储通过校正误差而训练的语言模型。用于训练语言模型的设备100存储与构成BLSTM结构的递归神经网络的人工神经元相关的连接权重信息和状态信息。
在操作470,用于训练语言模型的设备100验证在操作450中计算的误差值是否满足预设条件。当误差值满足预设条件时,用于训练语言模型的设备100终止训练。相反地,当误差值不满足预设条件时,用于训练语言模型的设备100重新执行操作410至操作470。
图5是示出根据实施例的训练语言模型的方法的示例的流程图。
参照图5,在操作510,用于训练语言模型的设备100从训练数据产生用于前向估计的第一训练特征向量序列和用于后向估计的第二训练特征向量序列。用于训练语言模型的设备100将构成训练数据的连续词转换为词向量序列,并产生沿词向量序列的正向开始的第一训练特征向量序列和沿词向量序列的反向开始的第二训练特征向量序列。
在操作520,用于训练语言模型的设备100基于第一训练特征向量序列执行配置语言模型的神经网络的前向估计,并基于第二训练特征向量序列执行神经网络的后向估计。针对第一训练特征向量序列的前向估计和针对第二训练特征向量序列的后向估计被分开执行。在可选择配置中,针对第一训练特征向量序列的前向估计和针对第二训练特征向量序列的后向估计被同时执行。
在操作530,用于训练语言模型的设备100基于与第一训练特征向量序列相关联的前向估计结果和与第二训练特征向量序列相关联的后向估计结果来训练语言模型。用于训练语言模型的设备100通过整合前向估计结果和后向估计结果来计算神经网络的训练数据与输出数据之间的误差值,并更新人工神经元之间的连接权重以减小误差值。
参照图1、图2和图4提供的描述可应用于图5的操作,因此,为了简明,将省略重复描述。
图6是示出根据实施例的识别语言的方法的示例的流程图。
参照图6,在操作610,用于识别语言的设备300从输入数据产生输入特征向量序列。用于识别语言的设备300从输入数据提取特征,并基于提取的特征产生输入特征向量序列。用于识别语言的设备300基于输入特征向量序列来产生用于前向估计的第一输入特征向量序列和用于后向估计的第二输入特征向量序列。在一个实施例中,第一输入特征向量序列和第二输入特征向量序列随时间被顺序应用到预先训练的语言模型。
在操作620,用于识别语言的设备300使用基于神经网络的语言模型估计识别输入数据的结果。用于识别语言的设备300基于第一输入特征向量序列持续执行配置语言模型的神经网络的前向估计,并基于第二输入特征向量序列持续执行神经网络的后向估计。用于识别语言的设备300基于与第一输入特征向量序列相关联的前向估计结果和与第二输入特征向量序列相关联的后向估计结果来估计识别输入数据的结果。
参照图3提供的描述可应用于图6的操作,因此,为了简明,将省略重复描述。
使用一个或更多个硬件组件来实现以上描述的各种训练器、层、模块、元件、处理器和控制器。
硬件组件可以是例如物理地执行一个或更多个操作的物理装置,但不限于此。硬件组件的示例包括电阻器、电容器、电感器、电源、频率发生器、运算放大器、功率放大器、低通滤波器、高通滤波器、带通滤波器、模数转换器、数模转换器、处理装置和本领域普通技术人员已知的任何其它电子组件。在一个示例中,硬件组件由一个或更多个处理器或计算机来实现。处理器或计算机由一个或更多个处理元件(诸如逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微处理器、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或本领域普通技术人员已知的能够以预定义方式响应并运行指令以实现期望的结果的任何其它装置或装置的组合)来实现。
在一个示例中,处理器或计算机包括或连接到存储由处理器或计算机运行的指令或软件的一个或更多个存储器。由处理器或计算机实现的硬件组件运行指令或软件(诸如操作系统(OS)和运行在OS上的一个或更多个软件应用),以执行这里针对图4至图6描述的操作。硬件组件还响应于指令或软件的运行来访问、操纵、处理、创建和存储数据。为了简化,在这里描述的示例的描述中可使用单数术语“处理器”或“计算机”,但是在其它示例中,可使用多个处理器或多个计算机,或者处理器或计算机包括多个处理元件或多种类型的处理元件或者包括两者。在一个示例中,硬件组件包括多个处理器,而在另一示例中,硬件组件包括处理器和控制器。硬件组件具有不同的处理构造中的任何一个或更多个,硬件组件的示例包括单处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理设备、单指令多数据(SIMD)多处理设备、多指令单数据(MISD)多处理设备和多指令多数据(MIMD)多处理设备。
可使用一个或更多个通用或专用计算机(诸如例如,处理器、控制器和算术逻辑单元)、数字信号处理器、微型计算机、现场可编程阵列、可编程逻辑单元、微处理器或能够运行软件或执行指令的任何其它装置来实现处理装置。处理装置可运行操作系统(OS)并且可运行在OS下操作的一个或更多个软件应用。当运行软件或执行指令时,处理装置可访问、存储、操纵、处理和创建数据。为了简化,可在这里描述的示例的描述中使用单数术语“处理装置”,但是本领域普通技术人员将理解,处理装置可包括多个处理元件和多种类型的处理元件。例如,处理装置可包括一个或更多个处理器或者一个或更多个处理器和一个或更多个控制器。另外,不同的处理结构是可行的,诸如并行处理器或多核处理器。
可由如上描述的运行指令或软件以执行这里描述的操作的处理器或计算机来执行这样的方法,所述方法执行这里针对图4至图6描述的操作的图4至图6中示出的方法。
用于控制处理器或计算机实现硬件组件并执行上述方法的指令或软件被写为计算机程序、代码段、指令或它们的任何组合,以用于独立地或共同地指示或配置处理器或计算机如机器或专用计算机一样操作以执行由硬件组件执行的操作和如上所述的方法。在一个示例中,指令或软件包括由处理器或计算机直接执行的机器代码,诸如由编译器产生的机器代码。在另一示例中,指令或软件包括由处理器或计算机使用解释器执行的高级代码。本领域普通编程员可基于公开了用于执行由硬件组件执行的操作和如上所述的方法的算法的附图中示出的框图和流程图以及说明书中的相应描述容易地编写指令或软件。
用于控制处理器或计算机实现硬件组件并执行上述方法的指令或软件以及任何关联的数据、数据文件和数据结构被记录、存储或固定在一个或更多个非暂时性计算机可读存储介质中。非暂时性计算机可读存储介质的示例包括只读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-RLTH、BD-RE、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘和本领域普通技术人员已知的能够以非暂时方式存储指令或软件以及任何关联的数据、数据文件和数据结构并将可指令或软件以及任何关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机可执行指令的任何装置。在一个示例中,软件或指令以及任何关联的数据、数据文件和数据结构分布在网络连接的计算机系统上,从而通过处理器或计算机以分布方式存储、访问并执行指令和软件以及任何关联的数据、数据文件和数据结构。
虽然本公开包括特定示例,但是本领域普通技术人员将清楚,在不脱离权利要求及其等同物的精神和范围的情况下,可在这些示例中进行形式和细节上的各种改变。这里描述的示例仅被考虑为描述性的,而不是限制的目的。每个示例中的特征或方面的描述将被认为可应用于其它示例中的相似特征或方面。如果描述的技术以不同的顺序被执行,和/或如果描述的系统、结构、装置或电路中的组件以不同的方式被组合和/或被其它组件或其等同物代替或补充,则可获得合适的结果。因而,本公开的范围不是由具体实施方式限定,而是由权利要求及其等同物限定,并且权利要求及其等同物的范围内的所有改变均被解释为包括在本公开内。

Claims (18)

1.一种用于训练语言模型的方法,包括:
从训练数据产生第一训练特征向量序列和第二训练特征向量序列;
基于第一训练特征向量序列执行神经网络的前向估计,基于第二训练特征向量序列执行神经网络的后向估计;
基于前向估计的结果和后向估计的结果训练语言模型。
2.如权利要求1所述的方法,其中,神经网络包括用于前向估计的第一隐藏层和用于后向估计的第二隐藏层,
第一隐藏层与第二隐藏层分开。
3.如权利要求1所述的方法,其中,所述产生的步骤包括:
将训练数据转换为词向量序列;
产生沿词向量序列的正向开始的第一训练特征向量序列和沿词向量序列的反向开始的第二训练特征向量序列。
4.如权利要求1所述的方法,其中,前向估计包括:估计将要与包括在训练数据中的第一词连接的随后的词,
后向估计包括:估计与包括在训练数据中的第二词连接的之前的词。
5.如权利要求1所述的方法,其中,所述训练的步骤包括:
基于前向估计的结果和后向估计的结果计算神经网络的训练数据与输出数据之间的误差值;
基于所述误差值更新包括在神经网络中的人工神经元之间的连接权重。
6.如权利要求1所述的方法,其中,基于双向长短期记忆结构BLSTM的递归神经网络配置语言模型。
7.如权利要求6所述的方法,其中,双向长短期记忆结构的递归神经网络包括存储块,存储块被配置为保持先前时间段中输出的值直到随后的时间段为止。
8.如权利要求1所述的方法,其中,训练数据包括包含语音数据、手写数据或它们的组合的序列数据。
9.一种用于识别输入数据的方法,包括:
从输入数据产生第一输入特征向量序列和第二输入特征向量序列;
基于第一输入特征向量序列执行神经网络的前向估计并基于第二输入特征向量序列执行神经网络的后向估计,以估计识别所述输入数据的结果。
10.如权利要求9所述的方法,其中,神经网络包括用于前向估计的第一隐藏层和用于后向估计的第二隐藏层,
第一隐藏层与第二隐藏层分开。
11.如权利要求9所述的方法,其中,所述估计的步骤包括:
基于与第一输入特征向量序列相关联的前向估计结果和与第二输入特征向量序列相关联的后向估计结果,来估计识别所述输入数据的结果。
12.一种用于训练语言模型的设备,包括:
训练数据预处理器,被配置为从训练数据产生第一训练特征向量序列和第二训练特征向量序列;
语言模型训练器,被配置为基于第一训练特征向量序列和第二训练特征向量序列训练基于神经网络的语言模型,针对第一训练特征向量序列执行神经网络的前向估计,并针对第二训练特征向量序列执行神经网络的后向估计。
13.如权利要求12所述的设备,其中,神经网络包括用于前向估计的第一隐藏层和用于后向估计的第二隐藏层,并且第一隐藏层与第二隐藏层分开。
14.如权利要求12所述的设备,其中,语言模型训练器被配置为:基于前向估计的结果和后向估计的结果训练语言模型。
15.如权利要求12所述的设备,其中,语言模型训练器被配置为:基于前向估计的结果和后向估计的结果计算训练数据与输出数据之间的误差值,并基于所述误差值更新包括在神经网络中的人工神经元之间的连接权重。
16.如权利要求12所述的设备,其中,训练数据预处理器被配置为:将训练数据转换为词向量序列,并产生沿词向量序列的正向开始的第一训练特征向量序列和沿词向量序列的反向开始的第二训练特征向量序列。
17.一种用于识别输入数据的设备,包括:
输入数据预处理器,被配置为从输入数据产生第一输入特征向量序列和第二输入特征向量序列;
输入数据识别器,被配置为基于第一输入特征向量序列执行神经网络的前向估计,并基于第二输入特征向量序列执行神经网络的后向估计,以估计识别所述输入数据的结果。
18.如权利要求17所述的设备,其中,神经网络包括用于前向估计的第一隐藏层和用于后向估计的第二隐藏层,第一隐藏层与第二隐藏层分开。
CN201610005525.3A 2015-01-19 2016-01-05 训练语言模型的方法和设备及识别语言的方法和设备 Active CN105810193B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2015-0008881 2015-01-19
KR1020150008881A KR102305584B1 (ko) 2015-01-19 2015-01-19 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치

Publications (2)

Publication Number Publication Date
CN105810193A true CN105810193A (zh) 2016-07-27
CN105810193B CN105810193B (zh) 2022-02-08

Family

ID=54145576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610005525.3A Active CN105810193B (zh) 2015-01-19 2016-01-05 训练语言模型的方法和设备及识别语言的方法和设备

Country Status (5)

Country Link
US (1) US10380483B2 (zh)
EP (1) EP3046053B1 (zh)
JP (1) JP6746292B2 (zh)
KR (1) KR102305584B1 (zh)
CN (1) CN105810193B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778867A (zh) * 2016-12-15 2017-05-31 北京旷视科技有限公司 目标检测方法和装置、神经网络训练方法和装置
CN107610707A (zh) * 2016-12-15 2018-01-19 平安科技(深圳)有限公司 一种声纹识别方法及装置
CN107633842A (zh) * 2017-06-12 2018-01-26 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN107993651A (zh) * 2017-12-29 2018-05-04 深圳和而泰数据资源与云技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN108074575A (zh) * 2017-12-14 2018-05-25 广州势必可赢网络科技有限公司 一种基于循环神经网络的身份验证方法及装置
CN108363695A (zh) * 2018-02-23 2018-08-03 西南交通大学 一种基于双向依赖语法树表征的用户评论属性抽取方法
WO2018153200A1 (zh) * 2017-02-21 2018-08-30 中兴通讯股份有限公司 基于hlstm模型的声学建模方法、装置和存储介质
CN108630198A (zh) * 2017-03-23 2018-10-09 三星电子株式会社 用于训练声学模型的方法和设备
CN109543041A (zh) * 2018-11-30 2019-03-29 安徽听见科技有限公司 一种语言模型得分的生成方法及装置
CN110168542A (zh) * 2017-03-09 2019-08-23 三星电子株式会社 用于压缩语言模型的电子设备、用于提供推荐词的电子设备及其操作方法
CN110176230A (zh) * 2018-12-11 2019-08-27 腾讯科技(深圳)有限公司 一种语音识别方法、装置、设备和存储介质
CN111833851A (zh) * 2020-06-16 2020-10-27 杭州云嘉云计算有限公司 一种自动学习优化声学模型的方法

Families Citing this family (123)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
KR102305584B1 (ko) * 2015-01-19 2021-09-27 삼성전자주식회사 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CN106486115A (zh) * 2015-08-28 2017-03-08 株式会社东芝 改进神经网络语言模型的方法和装置及语音识别方法和装置
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10032463B1 (en) * 2015-12-29 2018-07-24 Amazon Technologies, Inc. Speech processing with learned representation of user interaction history
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
JP6671020B2 (ja) * 2016-06-23 2020-03-25 パナソニックIpマネジメント株式会社 対話行為推定方法、対話行為推定装置及びプログラム
KR102615290B1 (ko) 2016-09-01 2023-12-15 에스케이텔레콤 주식회사 발음 사전 학습 방법 및 장치
US10474753B2 (en) * 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
KR20180027887A (ko) * 2016-09-07 2018-03-15 삼성전자주식회사 뉴럴 네트워크에 기초한 인식 장치 및 뉴럴 네트워크의 트레이닝 방법
US10565493B2 (en) * 2016-09-22 2020-02-18 Salesforce.Com, Inc. Pointer sentinel mixture architecture
EP3516591B1 (en) 2016-09-26 2024-07-31 Google LLC Neural machine translation systems
US10372814B2 (en) * 2016-10-18 2019-08-06 International Business Machines Corporation Methods and system for fast, adaptive correction of misspells
US10579729B2 (en) 2016-10-18 2020-03-03 International Business Machines Corporation Methods and system for fast, adaptive correction of misspells
US20180113919A1 (en) * 2016-10-24 2018-04-26 Google Llc Graphical user interface rendering predicted query results to unstructured queries
US11042796B2 (en) * 2016-11-03 2021-06-22 Salesforce.Com, Inc. Training a joint many-task neural network model using successive regularization
KR101869438B1 (ko) * 2016-11-22 2018-06-20 네이버 주식회사 딥 러닝을 이용하여 환자의 진단 이력으로부터 질병 예후를 예측하는 방법 및 시스템
KR20180068475A (ko) 2016-12-14 2018-06-22 삼성전자주식회사 순환 모델에 기초한 인식 및 순환 모델을 트레이닝하는 방법과 장치
CN106531150B (zh) * 2016-12-23 2020-02-07 云知声(上海)智能科技有限公司 一种基于深度神经网络模型的情感合成方法
US10529324B1 (en) * 2016-12-27 2020-01-07 Cognistic, LLC Geographical based voice transcription
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10241684B2 (en) * 2017-01-12 2019-03-26 Samsung Electronics Co., Ltd System and method for higher order long short-term memory (LSTM) network
KR102637338B1 (ko) 2017-01-26 2024-02-16 삼성전자주식회사 번역 보정 방법 및 장치와 번역 시스템
US11954098B1 (en) * 2017-02-03 2024-04-09 Thomson Reuters Enterprise Centre Gmbh Natural language processing system and method for documents
US20190362703A1 (en) * 2017-02-15 2019-11-28 Nippon Telegraph And Telephone Corporation Word vectorization model learning device, word vectorization device, speech synthesis device, method thereof, and program
US10769522B2 (en) 2017-02-17 2020-09-08 Wipro Limited Method and system for determining classification of text
CN108304365A (zh) * 2017-02-23 2018-07-20 腾讯科技(深圳)有限公司 关键词提取方法及装置
JP6657137B2 (ja) * 2017-03-31 2020-03-04 Kddi株式会社 情報処理装置、情報処理方法、及びプログラム
JP6663881B2 (ja) * 2017-04-13 2020-03-13 日本電信電話株式会社 並列句解析装置、並列句解析モデル学習装置、方法、及びプログラム
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
KR102291615B1 (ko) * 2017-05-29 2021-08-18 주식회사 케이티 통신망의 장애를 예측하는 장치 및 방법
KR102410820B1 (ko) 2017-08-14 2022-06-20 삼성전자주식회사 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
KR102067973B1 (ko) 2017-08-28 2020-02-11 에스케이텔레콤 주식회사 음소열의 편집 거리를 이용한 웨이크업 단어 선정 방법
CN108304388B (zh) * 2017-09-12 2020-07-07 腾讯科技(深圳)有限公司 机器翻译方法及装置
KR102424540B1 (ko) * 2017-10-16 2022-07-25 삼성전자주식회사 문장 생성 모델의 업데이트 방법 및 문장 생성 장치
KR102458244B1 (ko) * 2017-11-23 2022-10-24 삼성전자주식회사 기계 번역 방법 및 장치
KR102449842B1 (ko) * 2017-11-30 2022-09-30 삼성전자주식회사 언어 모델 학습 방법 및 이를 사용하는 장치
KR102424514B1 (ko) * 2017-12-04 2022-07-25 삼성전자주식회사 언어 처리 방법 및 장치
KR102083938B1 (ko) * 2017-12-08 2020-04-29 주식회사 엘솔루 음성인식 시스템 및 이의 전사데이터 생성 방법
US11030414B2 (en) * 2017-12-26 2021-06-08 The Allen Institute For Artificial Intelligence System and methods for performing NLP related tasks using contextualized word representations
KR101896973B1 (ko) * 2018-01-26 2018-09-10 가천대학교 산학협력단 기계학습 모델을 이용한 자연어 생성 시스템, 방법, 및 컴퓨터 판독가능매체
JP6816047B2 (ja) * 2018-02-08 2021-01-20 日本電信電話株式会社 目的発話推定モデル学習装置、目的発話判定装置、目的発話推定モデル学習方法、目的発話判定方法、プログラム
KR102599980B1 (ko) * 2018-03-23 2023-11-07 삼성에스디에스 주식회사 텍스트 데이터 복호화를 위한 데이터 처리 방법 및 그 데이터 처리 장치
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
KR102622349B1 (ko) 2018-04-02 2024-01-08 삼성전자주식회사 전자 장치 및 그 제어 방법
US10599769B2 (en) 2018-05-01 2020-03-24 Capital One Services, Llc Text categorization using natural language processing
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
JP7163618B2 (ja) * 2018-05-22 2022-11-01 大日本印刷株式会社 学習装置、学習方法、プログラム及び推定装置
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
KR101951026B1 (ko) * 2018-08-21 2019-02-22 넷마블 주식회사 처리 방법 및 처리 장치와 서버
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
JP7192356B2 (ja) * 2018-09-27 2022-12-20 大日本印刷株式会社 情報処理装置、情報処理方法及びプログラム
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
KR102153211B1 (ko) * 2019-01-11 2020-09-07 서울과학기술대학교 산학협력단 채팅 데이터와 오디오 데이터를 이용한 하이라이트 영상 생성 장치 및 방법
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110415702A (zh) * 2019-07-04 2019-11-05 北京搜狗科技发展有限公司 训练方法和装置、转换方法和装置
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
KR102405522B1 (ko) 2019-11-27 2022-06-03 연세대학교 산학협력단 텍스트의 계층적 특성을 반영한 문맥적 비윤리 탐지 장치 및 방법
CN113496282B (zh) * 2020-04-02 2024-06-28 北京金山数字娱乐科技有限公司 一种模型训练方法及装置
CN111477220B (zh) * 2020-04-15 2023-04-25 南京邮电大学 一种面向家居口语环境的神经网络语音识别方法及系统
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN111737996B (zh) * 2020-05-29 2024-03-26 北京百度网讯科技有限公司 基于语言模型获取词向量的方法、装置、设备及存储介质
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11829720B2 (en) 2020-09-01 2023-11-28 Apple Inc. Analysis and validation of language models
WO2022139047A1 (ko) * 2020-12-22 2022-06-30 한국과학기술원 대화문에서의 프레임 자동 분석 방법 및 장치
CN112926344B (zh) * 2021-03-13 2023-11-17 中国科学院新疆理化技术研究所 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436811A (zh) * 2010-09-21 2012-05-02 微软公司 用于语音识别的深度结构的全序列训练
CN102890930A (zh) * 2011-07-19 2013-01-23 上海上大海润信息系统有限公司 基于hmm/sofmnn混合模型的语音情感识别方法
CN103810999A (zh) * 2014-02-27 2014-05-21 清华大学 基于分布式神经网络的语言模型训练方法及其系统
CN103839545A (zh) * 2012-11-23 2014-06-04 三星电子株式会社 用于构建多语言声学模型的设备和方法
CN103871404A (zh) * 2012-12-13 2014-06-18 北京百度网讯科技有限公司 一种语言模型的训练方法、查询方法和对应装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPR824301A0 (en) * 2001-10-15 2001-11-08 Silverbrook Research Pty. Ltd. Methods and systems (npw001)
KR100480790B1 (ko) 2003-01-28 2005-04-06 삼성전자주식회사 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
JP2007271876A (ja) 2006-03-31 2007-10-18 Denso Corp 音声認識装置および音声認識用のプログラム
KR100825690B1 (ko) 2006-09-15 2008-04-29 학교법인 포항공과대학교 음성 인식 시스템에서의 인식 오류 수정 방법
WO2012025579A1 (en) * 2010-08-24 2012-03-01 Veovox Sa System and method for recognizing a user voice command in noisy environment
KR20120066530A (ko) 2010-12-14 2012-06-22 한국전자통신연구원 언어 모델 가중치 추정 방법 및 이를 위한 장치
KR102153606B1 (ko) * 2013-08-13 2020-09-08 삼성전자주식회사 동영상 콘텐트에 대한 사용자 피로도 예측 장치 및 방법
KR102183856B1 (ko) * 2013-12-20 2020-11-30 삼성전자주식회사 단말 및 콘텐츠 공유 방법
KR102295769B1 (ko) * 2014-05-20 2021-08-30 삼성전자주식회사 스토리지 컨트롤러 및 상기 스토리지 컨트롤러의 동작 방법
KR102281178B1 (ko) * 2014-07-09 2021-07-23 삼성전자주식회사 멀티-레벨 음성 인식 방법 및 장치
KR102187195B1 (ko) * 2014-07-28 2020-12-04 삼성전자주식회사 주변 소음에 기초하여 자막을 생성하는 동영상 디스플레이 방법 및 사용자 단말
KR102265931B1 (ko) * 2014-08-12 2021-06-16 삼성전자주식회사 음성 인식을 이용하는 통화 수행 방법 및 사용자 단말
KR102248822B1 (ko) * 2014-10-06 2021-05-10 삼성전자주식회사 디스플레이 장치를 구비한 모바일 기기 및 그것의 동작 방법
KR102380833B1 (ko) * 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
KR102117082B1 (ko) * 2014-12-29 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
KR102305584B1 (ko) * 2015-01-19 2021-09-27 삼성전자주식회사 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치
KR102387567B1 (ko) * 2015-01-19 2022-04-18 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
KR102396250B1 (ko) * 2015-07-31 2022-05-09 삼성전자주식회사 대역 어휘 결정 장치 및 방법
KR102209689B1 (ko) * 2015-09-10 2021-01-28 삼성전자주식회사 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법
KR20180001889A (ko) * 2016-06-28 2018-01-05 삼성전자주식회사 언어 처리 방법 및 장치
KR102589637B1 (ko) * 2016-08-16 2023-10-16 삼성전자주식회사 기계 번역 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436811A (zh) * 2010-09-21 2012-05-02 微软公司 用于语音识别的深度结构的全序列训练
CN102890930A (zh) * 2011-07-19 2013-01-23 上海上大海润信息系统有限公司 基于hmm/sofmnn混合模型的语音情感识别方法
CN103839545A (zh) * 2012-11-23 2014-06-04 三星电子株式会社 用于构建多语言声学模型的设备和方法
CN103871404A (zh) * 2012-12-13 2014-06-18 北京百度网讯科技有限公司 一种语言模型的训练方法、查询方法和对应装置
CN103810999A (zh) * 2014-02-27 2014-05-21 清华大学 基于分布式神经网络的语言模型训练方法及其系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
OLIVIER MORILLOT等: "Comparative study of HMM and BLSTM segmentation-free approaches for the recognition of handwritten text-lines", 《2013 12TH INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778867B (zh) * 2016-12-15 2020-07-07 北京旷视科技有限公司 目标检测方法和装置、神经网络训练方法和装置
CN107610707A (zh) * 2016-12-15 2018-01-19 平安科技(深圳)有限公司 一种声纹识别方法及装置
US10671919B2 (en) 2016-12-15 2020-06-02 Beijing Kuangshi Technology Co., Ltd. Target detection method and device, neural network training method and device
CN106778867A (zh) * 2016-12-15 2017-05-31 北京旷视科技有限公司 目标检测方法和装置、神经网络训练方法和装置
CN107610707B (zh) * 2016-12-15 2018-08-31 平安科技(深圳)有限公司 一种声纹识别方法及装置
WO2018153200A1 (zh) * 2017-02-21 2018-08-30 中兴通讯股份有限公司 基于hlstm模型的声学建模方法、装置和存储介质
CN110168542B (zh) * 2017-03-09 2023-11-24 三星电子株式会社 用于压缩语言模型的电子设备、用于提供推荐词的电子设备及其操作方法
CN110168542A (zh) * 2017-03-09 2019-08-23 三星电子株式会社 用于压缩语言模型的电子设备、用于提供推荐词的电子设备及其操作方法
CN108630198B (zh) * 2017-03-23 2024-04-02 三星电子株式会社 用于训练声学模型的方法和设备
CN108630198A (zh) * 2017-03-23 2018-10-09 三星电子株式会社 用于训练声学模型的方法和设备
US11062699B2 (en) 2017-06-12 2021-07-13 Ping An Technology (Shenzhen) Co., Ltd. Speech recognition with trained GMM-HMM and LSTM models
CN107633842A (zh) * 2017-06-12 2018-01-26 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN108074575A (zh) * 2017-12-14 2018-05-25 广州势必可赢网络科技有限公司 一种基于循环神经网络的身份验证方法及装置
CN107993651A (zh) * 2017-12-29 2018-05-04 深圳和而泰数据资源与云技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN108363695A (zh) * 2018-02-23 2018-08-03 西南交通大学 一种基于双向依赖语法树表征的用户评论属性抽取方法
CN108363695B (zh) * 2018-02-23 2020-04-24 西南交通大学 一种基于双向依赖语法树表征的用户评论属性抽取方法
CN109543041A (zh) * 2018-11-30 2019-03-29 安徽听见科技有限公司 一种语言模型得分的生成方法及装置
CN110176230B (zh) * 2018-12-11 2021-10-08 腾讯科技(深圳)有限公司 一种语音识别方法、装置、设备和存储介质
CN110176230A (zh) * 2018-12-11 2019-08-27 腾讯科技(深圳)有限公司 一种语音识别方法、装置、设备和存储介质
CN111833851A (zh) * 2020-06-16 2020-10-27 杭州云嘉云计算有限公司 一种自动学习优化声学模型的方法

Also Published As

Publication number Publication date
EP3046053A2 (en) 2016-07-20
KR102305584B1 (ko) 2021-09-27
JP6746292B2 (ja) 2020-08-26
EP3046053B1 (en) 2019-05-08
CN105810193B (zh) 2022-02-08
JP2016134169A (ja) 2016-07-25
KR20160089210A (ko) 2016-07-27
US20160210551A1 (en) 2016-07-21
EP3046053A3 (en) 2016-12-21
US10380483B2 (en) 2019-08-13

Similar Documents

Publication Publication Date Title
CN105810193A (zh) 训练语言模型的方法和设备及识别语言的方法和设备
US10957309B2 (en) Neural network method and apparatus
Khalil et al. Speech emotion recognition using deep learning techniques: A review
Erol et al. Toward artificial emotional intelligence for cooperative social human–machine interaction
US11836593B1 (en) Devices, systems, and methods for learning and using artificially intelligent interactive memories
CN106709461B (zh) 基于视频的行为识别方法及装置
JP7097801B2 (ja) 表情認識方法、オブジェクト認識方法、表情認識装置及び表情トレーニング方法
CN105679317A (zh) 用于训练语言模型并识别语音的方法和设备
CN107609572B (zh) 基于神经网络和迁移学习的多模态情感识别方法、系统
CN108269569A (zh) 语音识别方法和设备
CN108090408A (zh) 用于执行脸部表情识别和训练的方法和设备
CN105654946A (zh) 用于语音识别的设备和方法
CN106560891A (zh) 使用声学建模的语音识别设备和方法
CN108346436A (zh) 语音情感检测方法、装置、计算机设备及存储介质
CN105913121A (zh) 神经网络训练方法和设备以及识别方法和设备
CN106156003A (zh) 一种问答系统中的问句理解方法
CN112216307B (zh) 语音情感识别方法以及装置
CN108563624A (zh) 一种基于深度学习的自然语言生成方法
CN109410974A (zh) 语音增强方法、装置、设备及存储介质
EP3336775B1 (en) Method and apparatus for performing recognition using recurrent model and training recurrent model
CN108630198A (zh) 用于训练声学模型的方法和设备
CN110751260A (zh) 电子设备、任务处理的方法以及训练神经网络的方法
Iakovidis et al. Digital enhancement of cultural experience and accessibility for the visually impaired
Saba et al. Towards artificial intelligence: concepts, applications, and innovations
Rach et al. Interaction quality estimation using long short-term memories

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant