CN111508501B - 一种电话机器人中带口音的语音识别方法及系统 - Google Patents
一种电话机器人中带口音的语音识别方法及系统 Download PDFInfo
- Publication number
- CN111508501B CN111508501B CN202010623463.9A CN202010623463A CN111508501B CN 111508501 B CN111508501 B CN 111508501B CN 202010623463 A CN202010623463 A CN 202010623463A CN 111508501 B CN111508501 B CN 111508501B
- Authority
- CN
- China
- Prior art keywords
- accent
- features
- voice input
- input signal
- conversation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013528 artificial neural network Methods 0.000 claims abstract description 44
- 238000013518 transcription Methods 0.000 claims abstract description 10
- 230000035897 transcription Effects 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims description 27
- 230000009466 transformation Effects 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 description 8
- 241001672694 Citrus reticulata Species 0.000 description 7
- 239000000047 product Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种电话机器人中带口音的语音识别方法及系统,包括获取语音输入信号的高级声学特征和口音特征;将所述高级声学特征和所述口音特征进行拼接后送入深度神经网络的softmax层,输出所述语音输入信号的子因素序列;获取会话理解系统的会话场景判断结果,根据所述会话场景判定结果调用对应的WFST解码图对所述子因素序列进行解码,得到所述语音输入信号对应的转写文本。通过上述方式,将口音特征与会话场景相结合,可以大大提升电话机器人中,对带口音的语音识别的准确性。
Description
技术领域
本申请涉及智能语音识别技术领域,具体而言,涉及一种电话机器人中带口音的语音识别方法及系统。
背景技术
随着消费群体的日益增长,电话回访的需求太大,以传统的人工客服组成的呼叫中心,很难在人力成本与回访质量两者之间取得平衡。电话机器人可以解决这个问题,它由语音识别系统、会话理解系统、语音合成系统三部分组成。语音识别系统作为电话机器人的“耳朵”,负责将顾客的会话语音转换为文字,再进行会话理解,语音识别的准确率在很大程度上决定电话回访的质量;但是因为回访对象的普通话水平不一,很多带有方言口音,所以对语音识别的准确性造成了很大的困扰。虽然有部分专利实现了对口音的语音识别,例如公开号为CN106875942A和CN107452379A的专利都对不同地域的口音进行了识别,但是上述两种方法需要对声纹特征和语音特征进行建模,来解决不同口音的声学模型建模,模型复杂度高,且无法提高电话机器人在不同会话场景下语音识别的准确性。
发明内容
本申请的目的在于提供一种电话机器人中带口音的语音识别方法及系统,用以实现提高电话机器人对带口音的语音识别准确性的技术效果。
第一方面,本申请实施例提供了一种电话机器人中带口音的语音识别方法,包括获取语音输入信号的高级声学特征和口音特征;其中包括,获取语音输入信号的多帧MFCC特征;利用多层时延神经网络对所述MFCC特征进行非线性变换,提取所述语音输入信号的高级声学特征;通过一层时延神经网络对所述高级声学特征进行非线性变换,提取所述语音输入信号的口音特征;
将所述高级声学特征和所述口音特征进行拼接后送入深度神经网络的softmax层,输出所述语音输入信号的子因素序列;获取会话理解系统的会话场景判断结果,根据所述会话场景判定结果调用对应的WFST解码图对所述子因素序列进行解码,得到所述语音输入信号对应的转写文本。
进一步地,通过一层时延神经网络对所述高级声学特征进行非线性变换时,每个时间步的计算包含多帧数据,且进行当前时间步的特征计算时将包含上一时间步的尾部帧数据。
进一步地,所述语音识别方法还包括:通过反向传播法调整时延神经网络的参数。
进一步地,所述语音识别方法还包括:获取用于语言模型训练的会话文本语料;对所述会话文本语料进行分类,得到不同会话场景下的语料;利用N元模型进行语言模型建模,生成不同会话场景下的语言模型;将所述语言模型转换为不同会话场景下对应的WFST解码图。
进一步地,会话场景中的会话开始阶段和会话结束阶段共用一个语言模型。
第二方面,本申请实施例提供一种电话机器人中带口音的语音识别系统,包括:
获取模块,用于获取语音输入信号的高级声学特征和口音特征;其中包括,获取语音输入信号的多帧MFCC特征;利用多层时延神经网络对所述MFCC特征进行非线性变换,提取所述语音输入信号的高级声学特征;通过一层时延神经网络对所述高级声学特征进行非线性变换,提取所述语音输入信号的口音特征;
子因素序列输出模块,用于将所述高级声学特征和所述口音特征进行拼接后送入深度神经网络的softmax层,输出所述语音输入信号的子因素序列;
解码输出模块,用于获取会话理解系统的会话场景判断结果,根据所述会话场景判定结果调用对应的WFST解码图对所述子因素序列进行解码,得到所述语音输入信号对应的转写文本。
进一步地,所述语音识别系统还包括语言模型训练模块,所述语言模型训练模块用于:获取用于语言模型训练的会话文本语料;对所述会话文本语料进行分类,得到不同会话场景下的语料;利用N元模型进行语言模型建模,生成不同会话场景下的语言模型;将所述语言模型转换为不同会话场景下对应的WFST解码图。
进一步地,所述语音识别系统还包括高级声学特征提取模块和口音特征提取模块;所述高级声学特征提取模块用于获取语音输入信号的多帧MFCC特征;利用多层时延神经网络对所述MFCC特征进行非线性变换,提取所述语音输入信号的高级声学特征;所述口音特征提取模块用于通过一层时延神经网络对所述高级声学特征进行非线性变换,提取所述语音输入信号的口音特征。
进一步地,所述口音特征提取模块通过一层时延神经网络对所述高级声学特征进行非线性变换时,每个时间步的计算包含多帧数据,且进行当前时间步的特征计算时将包含上一时间步的尾部帧数据。
本申请能够实现的有益效果是:本申请将高级声学特征和口音特征进行拼接后送入softmax层输出语音输入信号的子因素序列;然后根据会话理解层的会话场景判定结果调用对应的WFST解码图对子因素序列进行解码,得到语音输入信号对应的转写文本,使得语音识别的结果更为准确。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种语音识别方法流程示意图;
图2为本申请实施例提供的一种声学模型训练过程示意图;
图3为本申请实施例提供的一种语言模型训练过程示意图;
图4为本申请实施例提供的一种语音识别系统的拓扑结构示意图;
图5为本申请实施例提供的一种语音识别系统的工作流程示意图。
图标:10-语音识别系统;100-获取模块;200-声学模型;210-高级声学特征提取模块;220-口音特征提取模块;230-拼接模块;240-子因素序列输出模块;300-解码输出模块;400-语言模型;500-语言模型训练模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参看图1、图2和图3,图1为本申请实施例提供的一种语音识别方法流程示意图;图2为本申请实施例提供的一种声学模型训练过程示意图;图3为本申请实施例提供的一种语言模型训练过程示意图。
经申请人研究发现,因为回访对象的普通话水平不一,很多用户输入的语音都带有方言口音,这对语音识别的准确性造成了很大的困扰。所以本申请提供了一种电话机器人中带口音的语音识别方法,以提高电话机器人语音识别的准确性,如图1和图2所示,本申请实施例提供的语音识别方法具体内容如下所述。
步骤S101,获取语音输入信号的高级声学特征和口音特征。
在一种实施方式中,可以通过以下方式获取语音输入信号的高级声学特征和口音特征。
首先,获取语音输入信号的多帧MFCC特征;
在一种实施方式中,可以在一个预训练好的基线普通话模型的输出层设置一个原始特征输入模块,用于获取梅尔倒谱(Mel Frequency Cepstrum Coefficient,MFCC)特征。示例性地,基线普通话模型可以使用CVTE等开源的模型,也可以自己采集标准普通话语料,或者利用本领域内已有的普通话语料训练声学模型得到。
然后,利用多层时延神经网络对MFCC特征进行非线性变换,提取语音输入信号的高级声学特征;
在一种实施方式中,可以使用3层时延神经网络对MFCC特征进行非线性变换,提取语音输入信号的高级声学特征。
需要说明的是,上述使用3层时延神经网络对MFCC特征进行非线性变换只是本申请实施例提供的一种实施方式。实际操作过程中,时延神经网络的层数可以根据本领域技术人员的实际需求进行相应的调整,但是为了满足运算速度的要求,时延神经网络的层数一般不超过10层。
最后,通过一层时延神经网络对高级声学特征进行非线性变换,提取语音输入信号的口音特征。
在一种实施方式中,当获取到语音输入信号的高级声学特征后就可以进一步使用一层时延神经网络(Time-Delay Neural Network,TDNN)对高级声学特征进行非线性变换,得到语音输入信号的口音特征。
需要说明的是在提取口音特征时,也可以使用循环神经网络(Recurrent NeuralNetwork,RNN)等序列建模的神经网络类型,本申请实施例仅仅是考虑到TDNN在延时上会好于RNN,所以选择的TDNN。
在一种实施方式中,还可以使用反向传播法调整上述各个时延神经网络的网络参数,逐渐提高对输入特征预测的准确率。
另一方面,考虑到语音识别中精确的分段或特征边界的自动确定是困难的或不可能的,所以不能保证每一帧的数据都包含了完整的词汇发音起点和终点,为了减少划分错误带来的负面影响,通过一层时延神经网络对高级声学特征进行非线性变换时,每个时间步的计算包含多帧数据,且进行当前时间步的特征计算时将包含上一时间步的尾部帧数据。例如一个14帧的余音输入信号,第一时间步可以对1-3帧做特征计算,下一时间步对2-4帧做特征计算,以此类推。
需要说明的是,每个时间步进行特征计算的帧数据也并不局限于上述的方式,可以根据实际需求进行调整,例如第一时间步可以对1-4帧做特征计算,下一时间步对3-6帧做特征计算,以此类推。
步骤S102,将所述高级声学特征和所述口音特征进行拼接后送入深度神经网络的softmax层,输出所述语音输入信号的子因素序列。
在一种实施方式中,当提取出语音输入信号的高级声学特征和口音特征后,就可以对高级声学特征和口音特征进行拼接,然后送入深度神经网络的softmax层完成声学模型的输出,声学模型输出的是由声母、韵母拆分得到的子音素序列。
步骤S103,获取会话理解系统的会话场景判定结果,根据所述会话场景判定结果调用对应的WFST解码图对所述子因素序列进行解码,得到所述语音输入信号对应的转写文本。
在一种实施方式中,可以使用电话机器人中的会话理解系统分析当前语音输入信号对应的会话场景,根据分析出的会话场景调用对应的WFST解码图对子因素序列进行解码,得到该语音输入信号对应的转写文本。
请参看图3,WFST解码图可以通过以下流程进行获取:首先,获取用于语言模型训练的会话文本语料;其次,对会话文本语料进行分类,得到不同会话场景下的语料;然后,利用N元模型(N-gram)进行语言模型建模,生成不同会话场景下的语言模型;最后,将语言模型转换为对应的WFST解码图。
示例性地,语言模型可以选用三元模型(3-gram),也可以使用包括神经网络的其他语言模型。
需要说明的是,当使用N元模型时,具体运用的模型类型可以根据实际需求进行选取,并不局限于三元模型。
在一种实施方式中,以电话回访为例,会话流程可以分为:
(1)会话开始阶段——在这一阶段,电话机器人会主动进行问候,确认顾客是否有时间接受回访,并确认顾客信息。
(2)服务评分阶段——电话机器人会引导顾客对购买商品、购买体验或者售后安装等进行评分,在这个场景内,比较关注的是数字的识别,商家需要记录顾客回复的评分进行数据分析,达到改进商品或者服务的目的。
(3)会话反馈阶段——就商品的某一些特性,顾客可以反馈在使用上的一些可以改进的部分,作为第(2)阶段评分的补充,比较关注的是和商品有关的一些子特性,以燃气灶为例,比如说燃气灶开关、进气量、整体做工等。
(4)会话结束阶段——电话机器人对顾客表示感谢,并引导会话结束。
电话回访过程中,会话流程最重要的是第(2)和第(3)阶段,这两个阶段可以定制两个特定的语言模型,第(1)和第(4)阶段的会话内容比较简单和固定,可以合并为一个语言模型。
请参考图4和图5,图4为本申请实施例提供的一种语音识别系统的拓扑结构示意图;图5为本申请实施例提供的一种语音识别系统的工作流程示意图。
如图4和图5所示,在一种实施方式中,本申请实施例还提供了一种语音识别系统10,该语音识别系统10包括:
获取模块100,用于获取语音输入信号的高级声学特征和口音特征;
子因素序列输出模块240,用于将高级声学特征和口音特征进行拼接后送入深度神经网络的softmax层,输出语音输入信号的子因素序列;
解码输出模块300,用于获取会话理解系统的会话场景判断结果,根据会话场景判定结果调用对应的WFST解码图对子因素序列进行解码,得到语音输入信号对应的转写文本。
在一种实施方式中,语音识别系统10还包括语言模型训练模块500,语言模型训练模块500用于:获取用于语言模型训练的会话文本语料;对会话文本语料进行分类,得到不同会话场景下的语料;利用N元模型进行语言模型建模,生成不同会话场景下的语言模型400;将语言模型400转换为不同会话场景下对应的WFST解码图。
进一步地,语言模型训练模块500可以利用N元模型进行语言模型建模,生成不同会话场景下的语言模型时所用的模型可以选用三元模型(3-gram)。
需要说明的是,语言模型可以选用三元模型(3-gram),也可以使用包括神经网络的其他语言模型。
在一种实施方式中,语音识别系统10还包括高级声学特征提取模块210和口音特征提取模块220;高级声学特征提取模块210用于获取语音输入信号的多帧MFCC特征;利用多层时延神经网络对MFCC特征进行非线性变换,提取语音输入信号的高级声学特征;口音特征提取模块220用于通过一层时延神经网络对高级声学特征进行非线性变换,提取语音输入信号的口音特征。
在一种实施方式中,高级声学特征提取模块210可以从预训练的普通话模型(例如CVTE模型等开源的模型)中获得,且高级声学特征提取模块210与口音特征提取模块220相独立。高级声学特征提取模块210的参数在训练时不会更新,训练时需要更新的参数也就会大大减小,以此保证底层声学特征的提取。那么,口音特征提取模块220只需要少量的训练数据就可以很好地拟合,这样可以解决带口音的训练数据获取的难题。
在一种实施方式中,高级声学特征提取模块210提取出的高级声学特征和口音特征提取模块220提取出的口音特征可以通过设置的拼接模块230进行拼接后送入子因素序列输出模块240,通过深度神经网络的softmax层进行处理后输出对应的子因素序列。高级声学特征提取模块210、口音特征提取模块220、拼接模块230和子因素序列输出模块240均设置在声学模型200中。
在一种实施方式中,考虑到语音识别中精确的分段或特征边界的自动确定是困难的或不可能的,所以不能保证每一帧的数据都包含了完整的词汇发音起点和终点,为了减少划分错误带来的负面影响,口音特征提取模块220通过时延神经网络对高级声学特征进行非线性变换时,每个时间步的计算包含多帧数据,且进行当前时间步的特征计算时将包含上一时间步的尾部帧数据。
综上所述,本申请实施例提供一种电话机器人中带口音的语音识别方法及系统,包括获取语音输入信号的高级声学特征和口音特征;将高级声学特征和口音特征进行拼接后送入深度神经网络的softmax层,输出语音输入信号的子因素序列;获取会话理解系统的会话场景判断结果,根据会话场景判定结果调用对应的WFST解码图对子因素序列进行解码,得到语音输入信号对应的转写文本。通过上述方式,将口音特征与会话场景相结合,可以大大提升电话机器人中,对带口音的语音识别的准确性。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种电话机器人中带口音的语音识别方法,其特征在于,包括:
获取语音输入信号的高级声学特征和口音特征;其中包括,获取语音输入信号的多帧MFCC特征;利用多层时延神经网络对所述MFCC特征进行非线性变换,提取所述语音输入信号的高级声学特征;通过一层时延神经网络对所述高级声学特征进行非线性变换,提取所述语音输入信号的口音特征;
将所述高级声学特征和所述口音特征进行拼接后送入深度神经网络的softmax层,输出所述语音输入信号的子因素序列;
获取会话理解系统的会话场景判断结果,根据所述会话场景判定结果调用对应的WFST解码图对所述子因素序列进行解码,得到所述语音输入信号对应的转写文本。
2.根据权利要求1所述的语音识别方法,其特征在于,通过一层时延神经网络对所述高级声学特征进行非线性变换时,每个时间步的计算包含多帧数据,且进行当前时间步的特征计算时将包含上一时间步的尾部帧数据。
3.根据权利要求1所述的语音识别方法,其特征在于,所述语音识别方法还包括:通过反向传播法调整时延神经网络的参数。
4.根据权利要求1所述的语音识别方法,其特征在于,所述语音识别方法还包括:
获取用于语言模型训练的会话文本语料;
对所述会话文本语料进行分类,得到不同会话场景下的语料;
利用N元模型进行语言模型建模,生成不同会话场景下的语言模型;
将所述语言模型转换为不同会话场景下对应的WFST解码图。
5.根据权利要求4所述的语音识别方法,其特征在于,会话场景中的会话开始阶段和会话结束阶段共用一个语言模型。
6.一种电话机器人中带口音的语音识别系统,其特征在于,包括:
获取模块,用于获取语音输入信号的高级声学特征和口音特征;其中包括,获取语音输入信号的多帧MFCC特征;利用多层时延神经网络对所述MFCC特征进行非线性变换,提取所述语音输入信号的高级声学特征;通过一层时延神经网络对所述高级声学特征进行非线性变换,提取所述语音输入信号的口音特征;
子因素序列输出模块,用于将所述高级声学特征和所述口音特征进行拼接后送入深度神经网络的softmax层,输出所述语音输入信号的子因素序列;
解码输出模块,用于获取会话理解系统的会话场景判断结果,根据所述会话场景判定结果调用对应的WFST解码图对所述子因素序列进行解码,得到所述语音输入信号对应的转写文本。
7.根据权利要求6所述的语音识别系统,其特征在于,所述语音识别系统还包括语言模型训练模块,所述语言模型训练模块用于:
获取用于语言模型训练的会话文本语料;
对所述会话文本语料进行分类,得到不同会话场景下的语料;
利用N元模型进行语言模型建模,生成不同会话场景下的语言模型;
将所述语言模型转换为不同会话场景下对应的WFST解码图。
8.根据权利要求6所述的语音识别系统,其特征在于,所述语音识别系统还包括高级声学特征提取模块和口音特征提取模块;
所述高级声学特征提取模块用于获取语音输入信号的多帧MFCC特征;利用多层时延神经网络对所述MFCC特征进行非线性变换,提取所述语音输入信号的高级声学特征;
所述口音特征提取模块用于通过一层时延神经网络对所述高级声学特征进行非线性变换,提取所述语音输入信号的口音特征。
9.根据权利要求8所述的语音识别系统,其特征在于,所述口音特征提取模块通过一层时延神经网络对所述高级声学特征进行非线性变换时,每个时间步的计算包含多帧数据,且进行当前时间步的特征计算时将包含上一时间步的尾部帧数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010623463.9A CN111508501B (zh) | 2020-07-02 | 2020-07-02 | 一种电话机器人中带口音的语音识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010623463.9A CN111508501B (zh) | 2020-07-02 | 2020-07-02 | 一种电话机器人中带口音的语音识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111508501A CN111508501A (zh) | 2020-08-07 |
CN111508501B true CN111508501B (zh) | 2020-09-29 |
Family
ID=71878824
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010623463.9A Active CN111508501B (zh) | 2020-07-02 | 2020-07-02 | 一种电话机器人中带口音的语音识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111508501B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112614485A (zh) * | 2020-12-30 | 2021-04-06 | 竹间智能科技(上海)有限公司 | 识别模型构建方法、语音识别方法、电子设备及存储介质 |
CN113436616B (zh) * | 2021-05-28 | 2022-08-02 | 中国科学院声学研究所 | 一种多领域自适应的端到端语音识别方法、系统及电子装置 |
CN113792140A (zh) * | 2021-08-12 | 2021-12-14 | 南京星云数字技术有限公司 | 文本处理方法、装置及计算机可读存储介质 |
CN115935076A (zh) * | 2023-02-20 | 2023-04-07 | 珠海大横琴泛旅游发展有限公司 | 基于人工智能的旅游服务信息推送方法及系统 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105427869A (zh) * | 2015-11-02 | 2016-03-23 | 北京大学 | 一种基于深度学习的会话情感自动分析方法 |
CN105632501A (zh) * | 2015-12-30 | 2016-06-01 | 中国科学院自动化研究所 | 一种基于深度学习技术的自动口音分类方法及装置 |
CN106653002A (zh) * | 2016-12-15 | 2017-05-10 | 咪咕数字传媒有限公司 | 一种文字直播方法及平台 |
CN106683677A (zh) * | 2015-11-06 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
CN106875942A (zh) * | 2016-12-28 | 2017-06-20 | 中国科学院自动化研究所 | 基于口音瓶颈特征的声学模型自适应方法 |
WO2018048549A1 (en) * | 2016-09-08 | 2018-03-15 | Intel IP Corporation | Method and system of automatic speech recognition using posterior confidence scores |
WO2018066436A1 (ja) * | 2016-10-05 | 2018-04-12 | 国立研究開発法人情報通信研究機構 | 音響モデルの学習装置及びそのためのコンピュータプログラム |
CN108766419A (zh) * | 2018-05-04 | 2018-11-06 | 华南理工大学 | 一种基于深度学习的非常态语音区别方法 |
CN108831439A (zh) * | 2018-06-27 | 2018-11-16 | 广州视源电子科技股份有限公司 | 语音识别方法、装置、设备和系统 |
CN109065052A (zh) * | 2018-11-05 | 2018-12-21 | 中通天鸿(北京)通信科技股份有限公司 | 一种语音机器人 |
EP3608918A1 (en) * | 2018-08-08 | 2020-02-12 | Tata Consultancy Services Limited | Parallel implementation of deep neural networks for classifying heart sound signals |
CN110914898A (zh) * | 2018-05-28 | 2020-03-24 | 北京嘀嘀无限科技发展有限公司 | 一种用于语音识别的系统和方法 |
CN110930982A (zh) * | 2019-10-31 | 2020-03-27 | 国家计算机网络与信息安全管理中心 | 一种多口音声学模型及多口音语音识别方法 |
-
2020
- 2020-07-02 CN CN202010623463.9A patent/CN111508501B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105427869A (zh) * | 2015-11-02 | 2016-03-23 | 北京大学 | 一种基于深度学习的会话情感自动分析方法 |
CN106683677A (zh) * | 2015-11-06 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
CN105632501A (zh) * | 2015-12-30 | 2016-06-01 | 中国科学院自动化研究所 | 一种基于深度学习技术的自动口音分类方法及装置 |
WO2018048549A1 (en) * | 2016-09-08 | 2018-03-15 | Intel IP Corporation | Method and system of automatic speech recognition using posterior confidence scores |
WO2018066436A1 (ja) * | 2016-10-05 | 2018-04-12 | 国立研究開発法人情報通信研究機構 | 音響モデルの学習装置及びそのためのコンピュータプログラム |
CN106653002A (zh) * | 2016-12-15 | 2017-05-10 | 咪咕数字传媒有限公司 | 一种文字直播方法及平台 |
CN106875942A (zh) * | 2016-12-28 | 2017-06-20 | 中国科学院自动化研究所 | 基于口音瓶颈特征的声学模型自适应方法 |
CN108766419A (zh) * | 2018-05-04 | 2018-11-06 | 华南理工大学 | 一种基于深度学习的非常态语音区别方法 |
CN110914898A (zh) * | 2018-05-28 | 2020-03-24 | 北京嘀嘀无限科技发展有限公司 | 一种用于语音识别的系统和方法 |
CN108831439A (zh) * | 2018-06-27 | 2018-11-16 | 广州视源电子科技股份有限公司 | 语音识别方法、装置、设备和系统 |
EP3608918A1 (en) * | 2018-08-08 | 2020-02-12 | Tata Consultancy Services Limited | Parallel implementation of deep neural networks for classifying heart sound signals |
CN109065052A (zh) * | 2018-11-05 | 2018-12-21 | 中通天鸿(北京)通信科技股份有限公司 | 一种语音机器人 |
CN110930982A (zh) * | 2019-10-31 | 2020-03-27 | 国家计算机网络与信息安全管理中心 | 一种多口音声学模型及多口音语音识别方法 |
Non-Patent Citations (3)
Title |
---|
"APPLICATION OF PROGRESSIVE NEURAL NETWORKS FOR MULTI-STREAM WFST COMBINATION IN ONE-PASS DECODING";Sirui Xu;《IEEE》;20181231;全文 * |
"ELASTIC SPECTRAL DISTORTION FOR LOW RESOURCE SPEECH RECOGNITION WITH DEEP NEURAL NETWORKS";Naoyuki Kanda;《IEEE》;20131231;全文 * |
"Improving BLSTM RNN Based Mandarin Speech Recognition Using Accent Dependent Bottleneck Features";"Jiangyan Yi";《IEEE》;20161231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111508501A (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111508501B (zh) | 一种电话机器人中带口音的语音识别方法及系统 | |
CN111128126B (zh) | 多语种智能语音对话的方法及系统 | |
CN111246027B (zh) | 一种实现人机协同的语音通讯系统及方法 | |
CN107195296B (zh) | 一种语音识别方法、装置、终端及系统 | |
US11496582B2 (en) | Generation of automated message responses | |
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
Cox et al. | Speech and language processing for next-millennium communications services | |
Rudnicky et al. | Survey of current speech technology | |
US20100217591A1 (en) | Vowel recognition system and method in speech to text applictions | |
CN110853649A (zh) | 基于智能语音技术的标签提取方法、系统、设备及介质 | |
CN111477216A (zh) | 一种用于对话机器人的音意理解模型的训练方法及系统 | |
JPH10507536A (ja) | 言語認識 | |
CN103003876A (zh) | 修改经由声音通道的对话中的语音质量 | |
CN112349289B (zh) | 一种语音识别方法、装置、设备以及存储介质 | |
KR19980070329A (ko) | 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템 | |
CN111081219A (zh) | 一种端到端的语音意图识别方法 | |
CN111489743A (zh) | 一种基于智能语音技术的运营管理分析系统 | |
CN114818649A (zh) | 基于智能语音交互技术的业务咨询处理方法及装置 | |
CN111968622A (zh) | 一种基于注意力机制的语音识别方法、系统及装置 | |
Mirishkar et al. | CSTD-Telugu corpus: Crowd-sourced approach for large-scale speech data collection | |
Kumar et al. | Automatic spontaneous speech recognition for Punjabi language interview speech corpus | |
CN111402887A (zh) | 一种语音转义文字的方法及装置 | |
KR20040038419A (ko) | 음성을 이용한 감정인식 시스템 및 감정인식 방법 | |
Furui | Robust methods in automatic speech recognition and understanding. | |
KR20200028767A (ko) | 발화자의 감정 분석에 따른 언어 순화 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |