CN109147775A - 一种基于神经网络的语音识别方法及装置 - Google Patents
一种基于神经网络的语音识别方法及装置 Download PDFInfo
- Publication number
- CN109147775A CN109147775A CN201811212495.9A CN201811212495A CN109147775A CN 109147775 A CN109147775 A CN 109147775A CN 201811212495 A CN201811212495 A CN 201811212495A CN 109147775 A CN109147775 A CN 109147775A
- Authority
- CN
- China
- Prior art keywords
- text
- identified
- voice signal
- semantic
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 21
- 239000011159 matrix material Substances 0.000 claims abstract description 37
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000005312 nonlinear dynamic Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于神经网络的语音识别方法及装置,所述方法包括对获取的待识别语音信号分帧处理,获得所述待识别语音信号的语音帧特征向量矩阵;利用卷积神经网络对所述语音帧特征向量矩阵进行识别,获得待识别语音信号对应的文字;解析所述待识别语音信号对应的文字得到目标语义;根据所述目标语义,启动与所述目标语义对应的第三方程序。本发明通过人工智能学习的方法进行语音识别,解决了现有技术只能机械地识别语音信息库中已有的信息,无法准确识别一些口音不准或者模糊的语音命令的问题。
Description
技术领域
本发明涉及技术领域,尤其涉及一种基于神经网络的语音识别方法及装置。
背景技术
语音识别由于其重要的理论价值与广阔的应用前景,受到人们的广泛重视。到目前为止,语音识别研究大部分以线性系统理论为基础,主要应用隐马尔可夫模型与动态时间规整等技术。随着研究的逐步深入,人们发现语音是一个复杂的非线性过程,基于线性系统理论的语音识别方法的局限性越来越凸显。语音识别若要取得突破,必须引入非线性理论的方法。近年来,人工神经网络、混沌、分形等非线性理论研究和应用的逐渐深入,将这些理论应用于语音识别成为可能。因此,针对以上问题设计基于神经网络的语音识别方法及装置是十分必要的。
将深度学习用于语音识别,目前己经获得了长足的进步。以下介绍几种深度学习:
深度神经网络(Deep Neural Networks,简称DNNs):该网络提取出的特征有较强的区分性,因此训练出的模型具有较强的区分能力,这种网络通常采用深度信念网络(DeepBelief Network,简称DBN)用作预训练过程,采用DNN-HMM混合网络训练声学模型,在大词汇量语音识别系统中有较广泛的应用。
卷积神经网络(Convolutional Neural Networks,简称CNNs):相比于DNNs,引入了卷积和池化的概念。通过卷积实现对语音特征局部信息的抽取,再通过池化加强模型对特征的鲁棒性。在明显降低模型规模的同时,识别性能更好,且泛化能力更强。
递归神经网络(Recurrent Neural Networks,简称RNN):目前在语音识别领域最常用的深度网络模型是RNN,它是一种序列模型,它在神经网络的基础上,考虑相邻语音帧的隐含层单元之间的连接关系,通过按时间反向传播误差调整网络参数训练网络。RNN的分布式隐藏状态能有效存储之前的信息,并且作为非线性动态系统能够使其隐藏层单元以一种复杂的方式更新,结合了这两种特性,使它能够通过递归层识别潜在的时间依赖关系,进行语音识别的任务。
联结时间分类(Connectionist Temporal Classification,简称CTC):是一种对齐模型,能够将深度网络输出与标签文本对齐,计算所有可能路径的概率和作为整个句子的概率,使用CTC能够使得我们不需要对样本进行预先的分割或者后处理,大幅提高了效率。
然而,目前的语音识别技术只能机械地识别语音信息库中已有的信息,无法准确识别一些口音不准或者模糊的语音命令,因此容易出现误操作或者误识别或者无法识别,从而限制了语音技术的广泛应用,用户体验效果不佳。
发明内容
为解决上述技术问题,本发明提供一种基于神经网络的语音识别方法及装置。
本发明提供的一种基于神经网络的语音识别方法,所述方法包括:
对获取的待识别语音信号分帧处理,获得所述待识别语音信号的语音帧特征向量矩阵;
利用卷积神经网络对所述语音帧特征向量矩阵进行识别,获得待识别语音信号对应的文字;
解析所述待识别语音信号对应的文字得到目标语义;
根据所述目标语义,启动与所述目标语义对应的第三方程序。
进一步地,采用经过训练的卷积神经网络对语音帧特征向量矩阵进行识别,获得与语音帧特征向量矩阵对应的状态标签矩阵;
采用解码模型对上述状态标签矩阵进行解码,以得到待识别语音信号对应的文本。
进一步地,解析所述待识别语音信号对应的文字得到目标语义具体包括:
将待识别语音信号对应的文字组成至少两种文本语义;
按照预定的评分规则,根据所述至少两种文本语义的自然性及连贯性对所述至少两种文本语义中的每种文本语义的进行评分;
获取所述至少两种文本语义中评分最高的所述文本语义作为所述目标语义。
进一步地,根据所述目标语义,启动与所述目标语义对应的第三方程序具体包括:
根据目标语义确定第三方应用对象;
根据第三方应用注册表中所述第三方应用对象与第三方应用程序的对应关系,启动与目标语义对应的第三方程序。
进一步地,所述方法还包括:
判断目标语义的类型,若目标语义为语音操作控制指令类型,则所述第三方应用程序根据所述语音操作控制指令执行相应的操作;
若目标语义为语音文本输入指令,则所述第三方应用程序根据所述语音文本输入指令生成相应的文本。
本发明提供的一种基于神经网络的语音识别装置,所述装置包括:
处理模块,用于对获取的待识别语音信号分帧处理,获得所述待识别语音信号的语音帧特征向量矩阵;
识别模块,用于利用卷积神经网络对所述语音帧特征向量矩阵进行识别,获得待识别语音信号对应的文字;
解析模块,用于解析所述待识别语音信号对应的文字得到目标语义;
启动模块,用于根据所述目标语义,启动与所述目标语义对应的第三方程序。
进一步地,所述识别模块具体用于:
采用经过训练的卷积神经网络对语音帧特征向量矩阵进行识别,获得与语音帧特征向量矩阵对应的状态标签矩阵;
采用解码模型对上述状态标签矩阵进行解码,以得到待识别语音信号对应的文本。
进一步地,所述解析模块具体用于:
将待识别语音信号对应的文字组成至少两种文本语义;
按照预定的评分规则,根据所述至少两种文本语义的自然性及连贯性对所述至少两种文本语义中的每种文本语义的进行评分;
获取所述至少两种文本语义中评分最高的所述文本语义作为所述目标语义。
进一步地,所述启动模块具体用于:
根据目标语义确定第三方应用对象;
根据第三方应用注册表中所述第三方应用对象与第三方应用程序的对应关系,启动与目标语义对应的第三方程序。
进一步地,所述装置还包括执行模块,所述执行模块具体用于:
判断目标语义的类型,若目标语义为语音操作控制指令类型,则所述第三方应用程序根据所述语音操作控制指令执行相应的操作;
若目标语义为语音文本输入指令,则所述第三方应用程序根据所述语音文本输入指令生成相应的文本。
实施本发明,具有如下有益效果:
本发明通过人工智能方式训练的卷积神经网络,对获取的语音信号进行识别,并且将获取的语音信号对应文本的连贯性和自然性进行评分得到目标语义,解决了现有技术只能机械识别语音信息库已有的信息,无法准确地识别一些口音不准或者模糊的语音命令的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于神经网络的语音识别方法的流程图。
图2是本发明实施例提供的基于神经网络的语音识别装置的结构图。
具体实施方式
本专利核心内容为利用训练好的卷积神经网络识别语音,以下结合附图和实施例对该方法和装置具体实施方式做进一步说明。
下面将详细描述本发明提供的一种基于神经网络的语音识别方法及装置的实施例。
如图1所示,本发明实施例提供了一种基于神经网络的语音识别方法,所述方法包括:
步骤S101、对获取的待识别语音信号分帧处理,获得所述待识别语音信号的语音帧特征向量矩阵。
在本发明实施例中,可以将待识别语音信号划分为若干语音帧,针对每一个语音帧,计算其梅尔频率倒谱系数以及该梅尔频率倒谱系数的一阶差分和二阶差分,并将该梅尔频率倒谱系数与其一阶差分和二阶差分连接起来,作为该语音帧的特征向量。假定待识别语音信号划分为m个语音帧,语音帧为n维的,因此分帧后获得的语音帧特征向量矩阵(m×n,m为帧数)。
步骤S102、利用卷积神经网络对所述语音帧特征向量矩阵进行识别,获得待识别语音信号所对应的文字。
具体地,采用经过训练的卷积神经网络对语音帧特征向量矩阵进行识别,获得与语音帧特征向量矩阵对应的状态标签矩阵;采用解码模型对上述状态标签矩阵进行解码,以得到待识别语音信号对应的文本。
步骤S103、解析所述待识别语音信号对应的文字得到目标语义。
具体地,仅仅得到待识别语音信号对应的文字只是得到组成元素,需要将文字进行解析得到目标语义,该目标语义符合待识别语音信号所表达的真正意思;将待识别语音信号对应的文字组成至少两种文本语义,按照预定的评分规则,根据所述至少两种文本语义的自然性及连贯性对所述至少两种文本语义中的每种文本语义的进行评分,所述评分的高低体现所述语义的自然性及连贯性的优劣;获取所述至少两种文本语义中评分最高的所述文本语义作为所述目标语义。
例如解析得到两种文本语义,一种是“请把铅笔放在我座位上”,另一种是“请放铅笔在我的座位上”,应该来说语义连贯性来看第一种更好些。
步骤S104、根据目标语义,启动与目标语义对应的第三方程序。
具体地,根据目标语义确定第三方应用对象,根据第三方应用注册表中所述第三方应用对象与第三方应用程序的对应关系,启动与目标语义对应的第三方程序。
需要说明的是,第三方应用注册表中记载了第三方应用对象与第三应用程序的对应关系;目标语义确定第三应用对象的方法是,在目标语义中搜索关键词作为第三方应用对象,例如出现了太太,则第三方应用对象为太太,进一步调用呼叫程序对太太进行呼叫,例如出现了关键词扫地,则第三方应用对象为扫地,进一步调用机器人控制程序控制机器人扫地,若目标语音为谢谢等简单陈述,则调用输入程序输入谢谢文本。
进一步地,判断目标语义的类型,若目标语义为语音操作控制指令类型,则所述第三方应用程序根据所述语音操作控制指令执行相应的操作;若目标语义为语音文本输入指令,则所述第三方应用程序根据所述语音文本输入指令生成相应的文本。
具体地,判断目标语义的类型关键是在目标语义中搜索是否存在预存的执行词,例如接、扫等;例如目标语义为“太太下班接孩子”,根据预存的接字判断该目标语义为语音控制指令类型,上一步骤确定的第三方应用程序为呼叫程序,呼叫程序呼叫太太;如果目标语义为谢谢,谢谢为语音文本输入指令,输入程序目标语义输入谢谢文本。
如图2所示,本发明实施例提供了一种基于神经网络的语音识别装置,所述装置包括:
处理模块21,用于对获取的待识别语音信号分帧处理,获得所述待识别语音信号的语音帧特征向量矩阵;
识别模块22,用于利用卷积神经网络对所述语音帧特征向量矩阵进行识别,获得待识别语音信号对应的文字;
解析模块23,用于解析所述待识别语音信号对应的文字得到目标语义;
启动模块24,用于根据所述目标语义,启动与所述目标语义对应的第三方程序。
进一步地,所述识别模块22具体用于:
采用经过训练的卷积神经网络对语音帧特征向量矩阵进行识别,获得与语音帧特征向量矩阵对应的状态标签矩阵;
采用解码模型对上述状态标签矩阵进行解码,以得到待识别语音信号对应的文本。
进一步地,所述解析模块23具体用于:
将待识别语音信号对应的文字组成至少两种文本语义;
按照预定的评分规则,根据所述至少两种文本语义的自然性及连贯性对所述至少两种文本语义中的每种文本语义的进行评分;
获取所述至少两种文本语义中评分最高的所述文本语义作为所述目标语义。
进一步地,所述启动模块24具体用于:
根据目标语义确定第三方应用对象;
根据第三方应用注册表中所述第三方应用对象与第三方应用程序的对应关系,启动与目标语义对应的第三方程序。
进一步地,所述装置还包括执行模块,所述执行模块具体用于:
判断目标语义的类型,若目标语义为语音操作控制指令类型,则所述第三方应用程序根据所述语音操作控制指令执行相应的操作;
若目标语义为语音文本输入指令,则所述第三方应用程序根据所述语音文本输入指令生成相应的文本。
实施本发明,具有如下有益效果:
本发明通过人工智能方式训练的卷积神经网络,对获取的语音信号进行识别,并且将获取的语音信号对应文本的连贯性和自然性进行评分得到目标语义,解决了现有技术只能机械识别语音信息库已有的信息,无法准确地识别一些口音不准或者模糊的语音命令的问题。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (10)
1.一种基于神经网络的语音识别方法,其特征在于,所述方法包括:
对获取的待识别语音信号分帧处理,获得所述待识别语音信号的语音帧特征向量矩阵;
利用卷积神经网络对所述语音帧特征向量矩阵进行识别,获得待识别语音信号对应的文字;
解析所述待识别语音信号对应的文字得到目标语义;
根据所述目标语义,启动与所述目标语义对应的第三方程序。
2.如权利要求1所述的方法,其特征在于,利用卷积神经网络对所述语音帧特征向量矩阵进行识别,获得待识别语音信号对应的文字具体为:
采用经过训练的卷积神经网络对语音帧特征向量矩阵进行识别,获得与语音帧特征向量矩阵对应的状态标签矩阵;
采用解码模型对上述状态标签矩阵进行解码,以得到待识别语音信号对应的文本。
3.如权利要求1所述的方法,其特征在于,解析所述待识别语音信号对应的文字得到目标语义具体包括:
将待识别语音信号对应的文字组成至少两种文本语义;
按照预定的评分规则,根据所述至少两种文本语义的自然性及连贯性对所述至少两种文本语义中的每种文本语义的进行评分;
获取所述至少两种文本语义中评分最高的所述文本语义作为所述目标语义。
4.如权利要求1所述的方法,其特征在于,根据所述目标语义,启动与所述目标语义对应的第三方程序具体包括:
根据目标语义确定第三方应用对象;
根据第三方应用注册表中所述第三方应用对象与第三方应用程序的对应关系,启动与目标语义对应的第三方程序。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
判断目标语义的类型,若目标语义为语音操作控制指令类型,则所述第三方应用程序根据所述语音操作控制指令执行相应的操作;
若目标语义为语音文本输入指令,则所述第三方应用程序根据所述语音文本输入指令生成相应的文本。
6.一种基于神经网络的语音识别装置,其特征在于,所述装置包括:
处理模块,用于对获取的待识别语音信号分帧处理,获得所述待识别语音信号的语音帧特征向量矩阵;
识别模块,用于利用卷积神经网络对所述语音帧特征向量矩阵进行识别,获得待识别语音信号对应的文字;
解析模块,用于解析所述待识别语音信号对应的文字得到目标语义;
启动模块,用于根据所述目标语义,启动与所述目标语义对应的第三方程序。
7.如权利要求6所述的装置,其特征在于,所述识别模块具体用于:
采用经过训练的卷积神经网络对语音帧特征向量矩阵进行识别,获得与语音帧特征向量矩阵对应的状态标签矩阵;
采用解码模型对上述状态标签矩阵进行解码,以得到待识别语音信号对应的文本。
8.如权利要求6所述的装置,其特征在于,所述解析模块具体用于:
将待识别语音信号对应的文字组成至少两种文本语义;
按照预定的评分规则,根据所述至少两种文本语义的自然性及连贯性对所述至少两种文本语义中的每种文本语义的进行评分;
获取所述至少两种文本语义中评分最高的所述文本语义作为所述目标语义。
9.如权利要求6所述的装置,其特征在于,所述启动模块具体用于:
根据目标语义确定第三方应用对象;
根据第三方应用注册表中所述第三方应用对象与第三方应用程序的对应关系,启动与目标语义对应的第三方程序。
10.如权利要求6所述的装置,其特征在于,所述装置还包括执行模块,所述执行模块具体用于:
判断目标语义的类型,若目标语义为语音操作控制指令类型,则所述第三方应用程序根据所述语音操作控制指令执行相应的操作;
若目标语义为语音文本输入指令,则所述第三方应用程序根据所述语音文本输入指令生成相应的文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811212495.9A CN109147775A (zh) | 2018-10-18 | 2018-10-18 | 一种基于神经网络的语音识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811212495.9A CN109147775A (zh) | 2018-10-18 | 2018-10-18 | 一种基于神经网络的语音识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109147775A true CN109147775A (zh) | 2019-01-04 |
Family
ID=64808602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811212495.9A Pending CN109147775A (zh) | 2018-10-18 | 2018-10-18 | 一种基于神经网络的语音识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109147775A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109872714A (zh) * | 2019-01-25 | 2019-06-11 | 广州富港万嘉智能科技有限公司 | 一种提高语音识别准确性的方法、电子设备及存储介质 |
CN110992941A (zh) * | 2019-10-22 | 2020-04-10 | 国网天津静海供电有限公司 | 一种基于语谱图的电网调度语音识别方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103915095A (zh) * | 2013-01-06 | 2014-07-09 | 华为技术有限公司 | 语音识别的方法、交互设备、服务器和系统 |
CN108255934A (zh) * | 2017-12-07 | 2018-07-06 | 北京奇艺世纪科技有限公司 | 一种语音控制方法及装置 |
CN108255805A (zh) * | 2017-12-13 | 2018-07-06 | 讯飞智元信息科技有限公司 | 舆情分析方法及装置、存储介质、电子设备 |
CN108281139A (zh) * | 2016-12-30 | 2018-07-13 | 深圳光启合众科技有限公司 | 语音转写方法和装置、机器人 |
CN108564940A (zh) * | 2018-03-20 | 2018-09-21 | 平安科技(深圳)有限公司 | 语音识别方法、服务器及计算机可读存储介质 |
-
2018
- 2018-10-18 CN CN201811212495.9A patent/CN109147775A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103915095A (zh) * | 2013-01-06 | 2014-07-09 | 华为技术有限公司 | 语音识别的方法、交互设备、服务器和系统 |
CN108281139A (zh) * | 2016-12-30 | 2018-07-13 | 深圳光启合众科技有限公司 | 语音转写方法和装置、机器人 |
CN108255934A (zh) * | 2017-12-07 | 2018-07-06 | 北京奇艺世纪科技有限公司 | 一种语音控制方法及装置 |
CN108255805A (zh) * | 2017-12-13 | 2018-07-06 | 讯飞智元信息科技有限公司 | 舆情分析方法及装置、存储介质、电子设备 |
CN108564940A (zh) * | 2018-03-20 | 2018-09-21 | 平安科技(深圳)有限公司 | 语音识别方法、服务器及计算机可读存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109872714A (zh) * | 2019-01-25 | 2019-06-11 | 广州富港万嘉智能科技有限公司 | 一种提高语音识别准确性的方法、电子设备及存储介质 |
CN110992941A (zh) * | 2019-10-22 | 2020-04-10 | 国网天津静海供电有限公司 | 一种基于语谱图的电网调度语音识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10347244B2 (en) | Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response | |
Henderson et al. | Discriminative spoken language understanding using word confusion networks | |
US9495350B2 (en) | System and method for determining expertise through speech analytics | |
CN112307742B (zh) | 会话式人机交互口语测评方法、装置及存储介质 | |
Merdivan et al. | Dialogue systems for intelligent human computer interactions | |
CN112017645B (zh) | 一种语音识别方法及装置 | |
CN103000052A (zh) | 人机互动的口语对话系统及其实现方法 | |
CN106297773A (zh) | 一种神经网络声学模型训练方法 | |
CN113987179A (zh) | 基于知识增强和回溯损失的对话情绪识别网络模型、构建方法、电子设备及存储介质 | |
CN106548777B (zh) | 一种用于智能机器人的数据处理方法及装置 | |
CN110019304B (zh) | 扩展问答知识库的方法及存储介质、终端 | |
CN112581938A (zh) | 基于人工智能的语音断点检测方法、装置和设备 | |
CN109104534A (zh) | 一种提高外呼机器人意图检测准确率、召回率的系统 | |
Chen et al. | Sequence-to-sequence modelling for categorical speech emotion recognition using recurrent neural network | |
CN111128175B (zh) | 口语对话管理方法及系统 | |
CN109147775A (zh) | 一种基于神经网络的语音识别方法及装置 | |
KR20210123545A (ko) | 사용자 피드백 기반 대화 서비스 제공 방법 및 장치 | |
US10929601B1 (en) | Question answering for a multi-modal system | |
CN109934347B (zh) | 扩展问答知识库的装置 | |
CN112397053B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
Lu et al. | Decision of response timing for incremental speech recognition with reinforcement learning | |
CN113053414B (zh) | 一种发音评测方法及装置 | |
Gordon et al. | Helping agents help their users despite imperfect speech recognition | |
CN112185346B (zh) | 多语种语音关键词检测、模型生成方法及电子设备 | |
CN109933777B (zh) | 知识库扩展装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190104 |