CN114842835A - 一种基于深度学习模型的语音交互系统 - Google Patents
一种基于深度学习模型的语音交互系统 Download PDFInfo
- Publication number
- CN114842835A CN114842835A CN202210411322.XA CN202210411322A CN114842835A CN 114842835 A CN114842835 A CN 114842835A CN 202210411322 A CN202210411322 A CN 202210411322A CN 114842835 A CN114842835 A CN 114842835A
- Authority
- CN
- China
- Prior art keywords
- sequence
- sound
- module
- information
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013136 deep learning model Methods 0.000 title claims abstract description 45
- 230000003993 interaction Effects 0.000 title claims abstract description 32
- 230000005236 sound signal Effects 0.000 claims abstract description 40
- 238000004458 analytical method Methods 0.000 claims abstract description 22
- 230000009471 action Effects 0.000 claims abstract description 8
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 8
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 19
- 230000004807 localization Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 8
- 238000003491 array Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000008451 emotion Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 235000012054 meals Nutrition 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 208000030979 Language Development disease Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度学习模型的语音交互系统。该系统通过所述声源定位模块用于从所述采集的声音信号中获取相应的目标声音数据;所述语音识别模块用于得到所述目标声音数据对应的文本数据,并将所述文本数据传输至所述自然语言理解模块;所述自然语言理解模块用于得到所述文本数据的语义分析结果;所述对话管理模块用于根据接收的所述语义分析结果、当前的语义环境和预设的对话状态决策动作和更新语义环境;所述自然语言生成模块用于根据接收的所述语义分析结果生成回复文本;所述语音合成模块用于将所述回复文本转换为成语音进行播报。本发明技术方案提高了非接触式语音交互系统的语音交互效率。
Description
技术领域
本发明涉及语音交互技术领域,尤其涉及一种基于深度学习模型的语音交互系统。
背景技术
智能巡检机器人应用于高铁站广场,在广场上进行巡检。在高铁站广场上,当旅客有询问路线的需求,智能机器人语音交互系统不通过接触就可以回答行人的问题,以满足行人需求。目前,在商场中的语音交互还需要用户触屏点击获得相应的信息。而在疫情还未完全过去的当下,接触式的交互系统会给疫情防控带来巨大的隐患。非接触式的智能机器人语音交互系统可以大大减少这种隐患,在高铁站的巡检机器人中,加入语音交互系统,可以满足进站旅客对于进站口,取票点询问的需求,也可以满足出站旅客询问地铁站,公交站,酒店以及出租车乘车点的需求。
从语音交互整个处理流程来看,可将其分为3部分:语音输入、语音处理和语音输出,其中语音输入包括:语音增强;语音处理包括:语音唤醒、语音识别、语义理解;语音输出包括:语音合成和音效增强。声音的信号特征提取的质量将直接影响语音识别的准确率。由于环境噪声包含周围人的噪声、风噪、周围车辆噪声以及媒体播放声等,这些噪声源都会减弱人声的信号特征,从而加大识别难度。除此之外,广场上存在很多旅客,机器人需要找到某一个声源,并提取信息作出回应,而现有技术中,对声源进行识别和定位的准确率较低,进而导致人机交互的体验较差。
传统的语音识别的声学模型训练,对于每一帧的数据,需要知道对应的label才能进行有效的训练,在训练数据之前需要做语音对齐的预处理。因此,存在训练数据之前需要做语音对齐的预处理,工作比较耗时的问题,并且在缺失对齐标签时,无法做出准确预测的问题。传统的语音识别输出的预测是局部分类,只利用了当前帧的信息,并未利用序列的全局信息进行预测,因此存在识别精度低的问题。
发明内容
本发明提供一种基于深度学习模型的语音交互系统,提高了非接触式语音交互系统的语音交互效率。
本发明一实施例提供一种基于深度学习模型的语音交互系统,包括声源定位模块、语音识别模块、自然语言理解模块、对话管理模块、自然语言生成模块和语音合成模块;
所述声源定位模块用于将采集到的声音信号进行预处理后输入至所述端到端声源定位模型得到声音定位信息,并根据所述声音定位信息从所述采集的声音信号中获取相应的目标声音数据后,传输至所述语音识别模块;
所述语音识别模块用于将接收到的所述目标声音数据输入至端到端的深度学习模型,得到所述目标声音数据对应的文本数据,并将所述文本数据传输至所述自然语言理解模块;
所述自然语言理解模块用于将接收到的所述文本数据进行分词、词性标注、命名实体识别和依存句法分析处理后,再结合所述文本数据的情感分析结果,得到所述文本数据的语义分析结果;
所述对话管理模块用于根据接收的所述语义分析结果、当前的语义环境和预设的对话状态决策动作和更新语义环境;
所述自然语言生成模块用于根据接收的所述语义分析结果生成回复文本;
所述语音合成模块用于将所述回复文本转换为成语音进行播报。
进一步的,将采集到的声音信号进行预处理后输入至所述端到端声源定位模型得到声音定位信息,具体为:
通过多个传声器阵列采集声音信号,将所述声音信号进行特征提取后输入至所述端到端声源定位模型;
所述端到端声源定位模型计算所述声音信号对应的声源的方位角信息、俯仰角信息和距离信息,得到所述声源对应的声音定位信息。
进一步的,所述端到端声源定位模型计算所述声音信号对应的声源的方位角信息、俯仰角信息和距离信息,具体为:
所述端到端声源定位模型根据延时估计算法计算各个传声器阵列采集的声音信号之间的时延差,再结合各个传声器阵列的几何结构计算所述声音信号对应的声源的方位角信息和俯仰角信息,再根据所述方位角信息、俯仰角信息和双曲线定位法计算所述声源的距离信息。
进一步的,所述端到端的深度学习模型的训练过程包括以下步骤:
确定所述端到端的深度学习模型的输入序列和预测序列,所述输入序列为音频文件对应的序列,所述预测序列为文本文件对应的序列;
将所述输入序列输入所述端到端的深度学习模型后,所述端到端的深度学习模型通过编码器对所述输入序列进行特征提取,并根据特征提取结果计算对应的预测序列的分布结果;
通过解码器对所述分布结果进行解码,再对解码结果进行线性变换和softmax归一化处理后,得到所述输入序列的预测结果。
进一步的,所述预测序列的获取过程为:
使用扩展标签集对收集的文本文件的序列进行标注得到第一序列集,将所述第一序列集中可以通过映射函数转换为真实序列的序列确定为预测序列。
进一步的,所述自然语言生成模块在生成回复文本时,包括以下步骤:
根据接收的所述语义分析结果确定需要回复的信息,并根据所述需要回复的信息确定合理的文本顺序;
根据所述文本顺序确定单个句子中所呈现的文本信息,根据所述单个句子的文本信息选择相应的多个单词和短语;
识别所述需要回复的信息所属的领域,并根据所述领域从所述多个单词和短语中选择对应领域的单词和短语;
将选择的所述对应领域的单词和短语组成格式正确的句子。
进一步的,所述对话管理模块和自然语言生成模块的执行方式为并行执行或同步执行。
本发明的实施例,具有如下有益效果:
本发明提供了一种基于深度学习模型的语音交互系统,所述语音交互系统的所述声源定位模块采用声源定位技术提了语音交互的效率。具体的,通过将采集到的声音信号进行预处理后输入至所述端到端声源定位模型得到声音定位信息,根据所述声音定位信息从所述采集的声音信号中获取相应的目标声音数据,提高了语音识别的准确率,进而提高了语音识别的效率。本发明采用一种完全端到端的深度学习模型,在对所述端到端的深度学习模型进行训练时,不需要预先对数据进行对齐处理,只需要一个输入序列和一个输出序列即可以训练。即无需像传统语音识别模型那样对数据对齐和一一标注。同时,本发明的端到端的深度学习模型直接输出序列预测的概率,其预测过程是基于全局序列信息进行预测的,因此,在输出序列预测的概率后不需要再进行外部的后处理,而传统的语音识别输出的预测是局部分类,只利用了当前帧的信息,并未利用序列的全局信息,因此需要采用其他外部的后处理。可见,本发明通过采用一种完全端到端的深度学习模型以获取所述目标声音数据对应的文本数据时,不仅提高了语音识别的准确率,还减少了模型训练的时间。
附图说明
图1是本发明一实施例提供的基于深度学习模型的语音交互系统的结构示意图;
图2是本发明一实施例提供的基于深度学习模型的语音交互系统的端到端声源定位模型的结构示意图;
图3是本发明一实施例提供的基于深度学习模型的语音交互系统的自然语言理解模块的处理流程示意图;
图4是本发明一实施例提供的基于深度学习模型的语音交互系统的自然语言生成模块的处理流程示意图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明一实施例提供的一种基于深度学习模型的语音交互系统,包括声源定位模块、语音识别模块、自然语言理解模块、对话管理模块、自然语言生成模块和语音合成模块;
所述声源定位模块用于将采集到的声音信号进行预处理后输入至所述端到端声源定位模型得到声音定位信息,并根据所述声音定位信息从所述采集的声音信号中获取相应的目标声音数据后,传输至所述语音识别模块;
所述语音识别模块用于将接收到的所述目标声音数据输入至端到端的深度学习模型,得到所述目标声音数据对应的文本数据,并将所述文本数据传输至所述自然语言理解模块;
所述自然语言理解模块用于将接收到的所述文本数据进行分词、词性标注、命名实体识别和依存句法分析处理后,再结合所述文本数据的情感分析结果,得到所述文本数据的语义分析结果。具体的,如图所示,将所述文本数据进行预处理后输入至深度学习模型,所述深度学习模型提取文本数据的特征,转化为词向量,然后进行文本分类、情感分析、命名实体识别、机器翻译等处理。例如,自然语言理解模块对“我要购票”进行分析,识别出主语是“我”,谓语是“要”,宾语是“购票”,并从中找到接下来执行的动作“购票”。
所述对话管理模块用于根据接收的所述语义分析结果、当前的语义环境和预设的对话状态决策动作和更新语义环境。所述对话管理模块控制人机交互过程,维护和更新对话状态,并决策下一步的动作。所述预设的对话状态即对话规则,所述对话规则包括但不限于对话流程、动作判断、对话流程和动作判断的结合。例如,所述对话管理模块根据接收的所述自然语言理解模块的“购票”结果,自动打开购票系统界面,然后等待操作者接下来的命令,并在等待过程中会给出操作提示,所述提示包括但不限于选择出发地、选择到达地。
所述自然语言生成模块用于根据接收的所述语义分析结果生成回复文本。即所述自然语言生成模块用于将向用户传达的概念、知识、数据、意图等回复信息转化为语言文本。
所述语音合成模块用于将所述文本转换为语音进行播报。
作为其中一种实施例,如图2所示,将采集到的声音信号进行预处理后输入至所述端到端声源定位模型得到声音定位信息,具体为:
通过多个传声器阵列采集声音信号,将所述声音信号进行特征提取后输入至所述端到端声源定位模型;
所述端到端声源定位模型计算所述声音信号对应的声源的方位角信息、俯仰角信息和距离信息,得到所述声源对应的声音定位信息。本发明实施例采用的声源定位技术使用球坐标系,所述声音定位信息包括方位角、俯仰角和距离。具体的,所述端到端声源定位模型根据声音传播的特征-位置映射原理计算出声源的定位信息,所述定位信息包括方位角信息、俯仰角信息和距离信息。所述声音传播的特征-位置映射原理在具体应用时包括延时估计算法和双曲线定位法。所述延时估计算法的原理为:针对同一声源,不同位置的传声器接收到声音的时间有差别,根据时间的差别,结合传播速率,可以计算出声源到不同传声器的距离,进而可以推断声源的位置。
作为其中一种实施例,所述端到端声源定位模型计算所述声音信号对应的声源的方位角信息、俯仰角信息和距离信息,具体为:
所述端到端声源定位模型根据延时估计算法计算各个传声器阵列采集的声音信号之间的时延差,再结合各个传声器阵列的几何结构计算所述声音信号对应的声源的方位角信息和俯仰角信息;优选地,所述延时估计算法包括互相关延时算法、广义互相关延时算法或相位差延时算法。由于各个传声器阵列接收到的信号都有不同程度的延时,因此需要计算时延差。
再根据所述方位角信息、俯仰角信息和双曲线定位法计算所述声源的距离信息。当对所述声音信号进行波达方向估计,得到所述声源的方位角信息和俯仰角信息后,所述声源可以定位在传声器阵列和捕获信号之间的双曲线内,此时则可以通过每个传声器阵列的双曲线交点对所述声源进行定位(即采用双曲线定位法),得到所述声源的距离信息。
作为其中一种实施例,所述端到端的深度学习模型的训练过程包括以下步骤:
确定所述端到端的深度学习模型的输入序列X=[x1,x2,...,xT]和预测序列(即标签数据)Y=[y1,y2,...,yU],所述输入序列为音频文件对应的序列,所述预测序列为文本文件对应的序列;其中,T是输入序列的长度,U是输出序列的长度。目的是要找到X到Y的一个映射。X和Y的长度都是变化且不相等的。
将所述输入序列X输入所述端到端的深度学习模型后,所述端到端的深度学习模型通过编码器对所述输入序列X进行特征提取,并根据特征提取结果计算对应的预测序列Y的分布结果;
通过解码器对所述分布结果进行解码,再对解码结果进行线性变换和softmax归一化处理后,得到所述输入序列X的预测结果。所述预测结果即所述输入序列对应的文本序列。
在训练时通过目标函数最大化所有正确的预测序列的概率和。在查找所有正确预测序列时,采用了前向后向算法。
作为其中一种实施例,所述标签数据的获取过程为:
使用扩展标签集对收集的文本文件的序列进行标注得到第一序列集,将所述第一序列集中可以通过映射函数转换为真实序列的序列确定为预测序列。
所述输入序列是指音频文件对应的序列,所述预测序列是指深度学习模型的预测结果,即文本文件对应的序列。所述真实序列是指与所述音频文件完全对应的文本文件序列。例如,输入序列,即音频文件是“你吃饭了吗?”;真实序列,即与所述音频文件对应的正确的文本文件序列是“你吃饭了吗?”。而预测序列,则有很多种,如“你——吃饭了吗?”、“你吃饭——了吗?”、“你吃——饭了吗?”,破折号表示说话者语气延时等。本发明实施例的多个预测序列均为正确的预测,但真实序列只有一个。预测序列与真实序列之间仅仅是语气延迟的区别。所述预测序列可以通过映射函数转变为真实序列。
作为其中一种实施例,如图4所示,所述自然语言生成模块在生成回复文本时,包括以下步骤:
根据接收的所述语义分析结果确定需要回复的信息(即内容确定),并根据所述需要回复的信息确定合理的文本顺序(即文本结构);
根据所述文本顺序确定单个句子中所呈现的文本信息(即句子聚合),根据所述单个句子的文本信息选择相应的多个单词和短语(即语法化);
识别所述需要回复的信息所属的领域,并根据所述领域从所述多个单词和短语中选择对应领域的单词和短语(即参考表达式生成);
将选择的所述对应领域的单词和短语组成格式正确的句子(即语音实现)。
本发明实施例在内容确定步骤中,需要决定哪些信息应该包含在正在构建的文本中,哪些不应该包含。在文本结构步骤中,需要合理的组织文本的顺序。在句子聚合步骤中,将多个信息合并到一个句子里表达可能会更加流畅,也更易于阅读。在语法化步骤中,将确定下来的句子内容组织成自然语言。在参考表达式生成步骤中,再次选择一些单词和短语来构成一个完整的句子。在语言实现步骤中,将所有已经确定的相关的单词和短语,组合起来形成一个结构良好的完整句子。例如,对话管理模块打开购票系统,提示操作者依次说出起始地、到达地、日期等信息。自然语言生成模块根据操作者说出的购票、起始地、到达地、日期等信息,最终生成完整的语句,即“您将购买a时间从b地点到c地点的车票1张,请确认”。
作为其中一种实施例,所述对话管理模块和自然语言生成模块的执行方式为并行执行或同步执行。即所述对话管理模块和自然语言生成模块可以并行执行,也可以先后执行。
本发明通过采用声源定位技术提了语音交互的效率。具体的,本发明采用多个麦克风在环境不同位置点对声信号进行测量,由于声信号到达各麦克风的时间有不同程度的延迟,利用算法对测量到的声信号进行处理,由此获得声源点相对于麦克风的波达方向DOA(包括方位角、俯仰角)和距离,大大提高了语音识别的准确率,进而提高了语音识别的效率。
本发明采用一种完全端到端的深度学习模型,在对所述端到端的深度学习模型进行训练时,不需要预先对数据进行对齐处理,只需要一个输入序列和一个输出序列即可以训练。即无需像传统语音识别模型那样对数据对齐和一一标注。本发明使用扩展标签集对收集的文本文件的序列进行标注得到第一序列集,将所述第一序列集中可以通过映射函数转换为真实序列的序列确定为标签数据,得到的标签数据即为正确的预测结果,可见,本发明无需数据对齐处理,即可得到预测序列。与此同时,本发明的端到端的深度学习模型直接输出序列预测的概率,其预测过程是基于全局序列信息进行预测的,因此,在输出序列预测的概率后不需要再进行外部的后处理,而传统的语音识别输出的预测是局部分类,只利用了当前帧的信息,并未利用序列的全局信息,因此需要采用其他外部的后处理(如非端到端模型需要将预测结果在时间点上与输入序列做对齐)。综上,本发明通过采用一种完全端到端的深度学习模型以获取所述目标声音数据对应的文本数据时,不仅提高了语音识别的准确率,还减少了模型训练的时间。
本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。本领域普通技术人员可以理解实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
Claims (7)
1.一种基于深度学习模型的语音交互系统,其特征在于,包括声源定位模块、语音识别模块、自然语言理解模块、对话管理模块、自然语言生成模块和语音合成模块;
所述声源定位模块用于将采集到的声音信号进行预处理后输入至所述端到端声源定位模型得到声音定位信息,并根据所述声音定位信息从所述采集的声音信号中获取相应的目标声音数据后,传输至所述语音识别模块;
所述语音识别模块用于将接收到的所述目标声音数据输入至端到端的深度学习模型,得到所述目标声音数据对应的文本数据,并将所述文本数据传输至所述自然语言理解模块;
所述自然语言理解模块用于将接收到的所述文本数据进行分词、词性标注、命名实体识别和依存句法分析处理后,再结合所述文本数据的情感分析结果,得到所述文本数据的语义分析结果;
所述对话管理模块用于根据接收的所述语义分析结果、当前的语义环境和预设的对话状态决策动作和更新语义环境;
所述自然语言生成模块用于根据接收的所述语义分析结果生成回复文本;
所述语音合成模块用于将所述回复文本转换为成语音进行播报。
2.根据权利要求1所述的基于深度学习模型的语音交互系统,其特征在于,将采集到的声音信号进行预处理后输入至所述端到端声源定位模型得到声音定位信息,具体为:
通过多个传声器阵列采集声音信号,将所述声音信号进行特征提取后输入至所述端到端声源定位模型;
所述端到端声源定位模型计算所述声音信号对应的声源的方位角信息、俯仰角信息和距离信息,得到所述声源对应的声音定位信息。
3.根据权利要求2所述的基于深度学习模型的语音交互系统,其特征在于,所述端到端声源定位模型计算所述声音信号对应的声源的方位角信息、俯仰角信息和距离信息,具体为:
所述端到端声源定位模型根据延时估计算法计算各个传声器阵列采集的声音信号之间的时延差,再结合各个传声器阵列的几何结构计算所述声音信号对应的声源的方位角信息和俯仰角信息,再根据所述方位角信息、俯仰角信息和双曲线定位法计算所述声源的距离信息。
4.根据权利要求3所述的基于深度学习模型的语音交互系统,其特征在于,所述端到端的深度学习模型的训练过程包括以下步骤:
确定所述端到端的深度学习模型的输入序列和预测序列,所述输入序列为音频文件对应的序列,所述预测序列为文本文件对应的序列;
将所述输入序列输入所述端到端的深度学习模型后,所述端到端的深度学习模型通过编码器对所述输入序列进行特征提取,并根据特征提取结果计算对应的预测序列的分布结果;
通过解码器对所述分布结果进行解码,再对解码结果进行线性变换和softmax归一化处理后,得到所述输入序列的预测结果。
5.根据权利要求4所述的基于深度学习模型的语音交互系统,其特征在于,所述预测序列的获取过程为:
使用扩展标签集对收集的文本文件的序列进行标注得到第一序列集,将所述第一序列集中可以通过映射函数转换为真实序列的序列确定为预测序列。
6.根据权利要求5所述的基于深度学习模型的语音交互系统,其特征在于,所述自然语言生成模块在生成回复文本时,包括以下步骤:
根据接收的所述语义分析结果确定需要回复的信息,并根据所述需要回复的信息确定合理的文本顺序;
根据所述文本顺序确定单个句子中所呈现的文本信息,根据所述单个句子的文本信息选择相应的多个单词和短语;
识别所述需要回复的信息所属的领域,并根据所述领域从所述多个单词和短语中选择对应领域的单词和短语;
将选择的所述对应领域的单词和短语组成格式正确的句子。
7.根据权利要求1至6任一项所述的基于深度学习模型的语音交互系统,其特征在于,所述对话管理模块和自然语言生成模块的执行方式为并行执行或同步执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210411322.XA CN114842835A (zh) | 2022-04-19 | 2022-04-19 | 一种基于深度学习模型的语音交互系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210411322.XA CN114842835A (zh) | 2022-04-19 | 2022-04-19 | 一种基于深度学习模型的语音交互系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114842835A true CN114842835A (zh) | 2022-08-02 |
Family
ID=82565905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210411322.XA Pending CN114842835A (zh) | 2022-04-19 | 2022-04-19 | 一种基于深度学习模型的语音交互系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114842835A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116597821A (zh) * | 2023-07-17 | 2023-08-15 | 深圳市国硕宏电子有限公司 | 一种基于深度学习的智能客服语音识别方法和系统 |
CN117854517A (zh) * | 2024-02-05 | 2024-04-09 | 南京龙垣信息科技有限公司 | 车载多人实时智能语音交互系统 |
-
2022
- 2022-04-19 CN CN202210411322.XA patent/CN114842835A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116597821A (zh) * | 2023-07-17 | 2023-08-15 | 深圳市国硕宏电子有限公司 | 一种基于深度学习的智能客服语音识别方法和系统 |
CN117854517A (zh) * | 2024-02-05 | 2024-04-09 | 南京龙垣信息科技有限公司 | 车载多人实时智能语音交互系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
CN108305634B (zh) | 解码方法、解码器及存储介质 | |
CN107657017B (zh) | 用于提供语音服务的方法和装置 | |
CN108766414B (zh) | 用于语音翻译的方法、装置、设备和计算机可读存储介质 | |
WO2021147041A1 (zh) | 语义分析方法、装置、设备及存储介质 | |
CN110321418B (zh) | 一种基于深度学习的领域、意图识别和槽填充方法 | |
CN102298443B (zh) | 结合视频通道的智能家居语音控制系统及其控制方法 | |
CN109036467B (zh) | 基于tf-lstm的cffd提取方法、语音情感识别方法及系统 | |
KR20230147685A (ko) | 서브 워드 엔드-투-엔드 자동 스피치 인식을 위한 워드 레벨 신뢰도 학습 | |
CN114842835A (zh) | 一种基于深度学习模型的语音交互系统 | |
US20070100618A1 (en) | Apparatus, method, and medium for dialogue speech recognition using topic domain detection | |
KR20170003246A (ko) | 음성 인식 장치 및 방법과 전자 장치 | |
WO2020186712A1 (zh) | 一种语音识别方法、装置及终端 | |
CN117099157A (zh) | 用于端到端自动语音识别置信度和删除估计的多任务学习 | |
US11961515B2 (en) | Contrastive Siamese network for semi-supervised speech recognition | |
WO2023272616A1 (zh) | 一种文本理解方法、系统、终端设备和存储介质 | |
Zhao et al. | End-to-end-based Tibetan multitask speech recognition | |
Wang et al. | A research on HMM based speech recognition in spoken English | |
CN114495905A (zh) | 语音识别方法、装置及存储介质 | |
CN112395414B (zh) | 文本分类方法和分类模型的训练方法、装置、介质和设备 | |
Mouaz et al. | A new framework based on KNN and DT for speech identification through emphatic letters in Moroccan dialect | |
CN114333768A (zh) | 语音检测方法、装置、设备和存储介质 | |
Kim et al. | SGGNet 2: Speech-Scene Graph Grounding Network for Speech-guided Navigation | |
CN112037772A (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
CN113555006B (zh) | 一种语音信息识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |