CN112287673B - 一种基于深度学习来实现语音导航机器人的方法 - Google Patents

一种基于深度学习来实现语音导航机器人的方法 Download PDF

Info

Publication number
CN112287673B
CN112287673B CN202011150454.9A CN202011150454A CN112287673B CN 112287673 B CN112287673 B CN 112287673B CN 202011150454 A CN202011150454 A CN 202011150454A CN 112287673 B CN112287673 B CN 112287673B
Authority
CN
China
Prior art keywords
training
word
text
queue
navigation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011150454.9A
Other languages
English (en)
Other versions
CN112287673A (zh
Inventor
黄诗雅
罗睦军
邓从健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Yunqu Information Technology Co ltd
Original Assignee
Guangzhou Yunqu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Yunqu Information Technology Co ltd filed Critical Guangzhou Yunqu Information Technology Co ltd
Priority to CN202011150454.9A priority Critical patent/CN112287673B/zh
Publication of CN112287673A publication Critical patent/CN112287673A/zh
Application granted granted Critical
Publication of CN112287673B publication Critical patent/CN112287673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于深度学习来实现语音导航机器人的方法,方法包括步骤:获取用户通话文本数据;将用户通话文本输入到训练好的基于深度学习的导航队列分类模型进行预测识别,获取输出的导航队列预测结果;根据获取的导航队列预测结果将用户转接到相应的人工队列进行处理。本发明提供的方法能够对大量文本数据针对性进行训练,可以快速获取良好的效果。后期遇到新知识时,可以加强训练使其模型适应文本数据中存在的新知识,从而可以大幅度改善人力成本和提高时间成本。

Description

一种基于深度学习来实现语音导航机器人的方法
技术领域
本发明涉及电信通讯领域、深度学习领域、自然语言领域,特别是涉及一种基于深度学习对运营商文本实现导航机器人的方法。
背景技术
目前语音导航机器人使用语音交互方式来识别用户意图,然后机器人自动判断用户情况后对接相关人工队列进行处理。这个过程中需要机器人自动去识别用户话语信息然后转接相关队列的过程。利用传统规则方式可以得到较好的结果,但是背后需要大量人工去标注关键词,并且后期维护关键词词库。但是由于每天有2、3万用户使用语音导航机器人情况下,非结构化文本内容变得复杂化,这需要大量人工逐条标注并建立关键词词库的话,这将会需要耗费大量的人力资源,还需要大量的时间成本。
发明内容
针对语音导航机器人中产生的文本如果使用大量人力去标注来搭建关键词库,然后利用关键词库进行快速索引的方式可以匹配到正确导航队列中。但是会消耗大量人力和时间的技术问题,本发明旨在提供一种高效率、自动化,准确性高的基于深度学习来实现语音导航机器人的方法。
本发明的目的采用以下技术方案来实现:
本发明示出一种基于深度学习来实现语音导航机器人的方法,方法包括步骤:
S20获取用户通话文本数据;
S30将用户通话文本输入到训练好的基于深度学习的导航队列分类模型进行预测识别,获取输出的导航队列预测结果;
S40根据获取的导航队列预测结果将用户转接到相应的人工队列进行处理。
一种实施方式中,该方法还包括:
S10训练基于深度学习的导航队列分类模型,包括如下步骤:
S11获取训练通话录音文本数据组成训练语料,对训练通话录音文本数据进行预处理,获取规范化的训练语料,其中训练通话录音文本数据包括通话录音文本和对应的导航队列标签;
S12对规范化的训练语料进行特征工程,获取训练语料的特征向量;
S13将训练语料的特征向量输入到导航队列分类模型进行基于深度学习的模型训练,获取训练好的基于深度学习的导航队列分类模型。
一种实施方式中,步骤S11中,对训练通话录音文本数据进行预处理,包括如下步骤:
过滤短语:过滤训练通话录音文本中句子长度低于阈值的句子;
文本分词:加载专用的词库和分词提取工具对训练通话录音文本进行分词处理,输出分词文本;
停用词处理:加载停用词表,并根据停用词表过滤分词文本中存在的停用词;
数据均衡处理:统计训练语料中对应每个导航队列标签的各通话录音文本数据量,判断各导航队列是否均衡:如果每个导航队列对应的通话录音文本的数据量保持在平均值的5%内,即不进行处理;否则则对训练语料进行向下采样处理,使训练语料中的数据对应各导航队列保持均衡状态。
一种实施方式中,步骤S12中对训练语料进行特征工程,包括如下步骤:
构建语料字典:将分词后的训练语料读入内存,通过计算每个单词在文档中出现的词频,过滤掉词频小于最低阈值或高于最高阈值的单词,然后对剩余、不重复的单词映射成索引表示,构建词汇-索引映射表;
构建队列标签字典:对训练语料的导航队列标签进行去重处理,然后将去重后的导航队列标签映射成索引表,构建标签-索引映射表;
构建词向量:将word2vec词向量模型导入内存中,获取词汇-索引映射表相对应的词向量,作为模型的初始值;
文本序列化:通过词汇-索引映射表把每个文档单词数值化;
队列序列化:通过标签-索引映射表把每个文档标签数值化;
一种实施方式中,导航队列分类模型为基于TEXTRNN实现导航队列分类模型。
本发明的有益效果为:本发明提供的方法能够对大量文本数据针对性进行训练,可以快速获取良好的效果。后期遇到新知识时,可以加强训练使其模型适应文本数据中存在的新知识,从而可以大幅度改善人力成本和提高时间成本。
从传统的规则性模型到现在的深度学习模型,技术的迭代更新可以改善前期标注和后期维护的人力成本,且能进一步提升识别准确性。通过对已有标签数据情况下做数据预处理完成训练语料制作;通过特征提取以及深度学习对训练语料进行建模,最后对通话录音转写文本进行非结构化的文本识别,以此降低人工标注数据、整合知识库的压力,从而节省人力。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1为本发明方法的流程示意图;
图2为本发明在一种实施方式中方法的流程结构示意图。
具体实施方式
结合以下应用场景对本发明作进一步描述。
参见图1,其示出一种基于深度学习来实现语音导航机器人的方法,包括:
获取训练语料:获取训练通话录音文本数据组成训练语料,其中训练通话录音文本数据包括通话录音文本和对应的导航队列标签。
数据预处理:对训练通话录音文本数据进行预处理,获取规范化的训练语料。
可选的,获取通话录音文本后,对文本进行预处理,从而完成训练语料的规范化。
可选的,对训练通话录音文本数据进行预处理,包括如下步骤:
1)过滤短语:过滤训练通话录音文本中句子长度低于阈值的句子。
2)文本分词:加载专用的词库和分词提取工具对训练通话录音文本进行分词处理,输出分词文本;可选的,加载专用词字典后放入jieba工具,然后采用jieba工具对通话文本进行分词。例如:传入进去字符串形式的句子,分词后返回有词语组合成的列表。
3)停用词处理:加载停用词表,并根据停用词表过滤分词文本中存在的停用词。
4)数据均衡处理:统计训练语料中对应每个导航队列标签的各通话录音文本数据量,判断各导航队列是否均衡:如果每个导航队列对应的通话录音文本的数据量保持在平均值的5%内,即不进行处理;否则,对训练语料进行向下采样处理,使训练语料中的数据对应各导航队列保持均衡状态。
特征工程:对规范化的训练语料进行特征工程,获取训练语料的特征向量。
可选的,对训练语料进行特征工程,包括如下步骤:
1)构建语料字典:将分词后的训练语料读入内存,通过计算每个单词在文档中出现的词频,过滤掉词频小于最低阈值或高于最高阈值的单词,然后对剩余、不重复的单词映射成索引表示,构建词汇-索引映射表。
2)构建队列标签字典:对训练语料的导航队列标签进行去重处理,然后将去重后的导航队列标签映射成索引表,构建标签-索引映射表;
3)构建词向量:将word2vec词向量模型导入内存中,获取词汇-索引映射表相对应的词向量,作为模型的初始值;可选的,通过网络方式下载Tencent AI开源的word2vec词向量模型,然后将模型导入内存中,最后读取出词汇-索引映射表相对应的词向量,作为模型的初始值。
4)文本序列化:通过词汇-索引映射表把每个文档单词数值化。可选的,设置统一的文本长度,如果出现文档长度不一致情况,进行定长处理。长于阈值进行截取,短于阈值采用<PAD>扩充。
5)队列序列化:通过标签-索引映射表把每个文档标签数值化。
可选的,将上述映射表以及词向量保存到配置文件中。
模型训练:将上述预处理及特征工程处理后的训练语料作为训练样本输入到导航队列分类模型进行训练,得到训练后的导航队列分类模型。
可选的,导航队列分类模型采用基于TEXTRNN实现的导航队列分类模型。
可选的,导航队列分类模型包括依次连接的输入层、双向RNN层、全连接层和softmax层。
导航队列分类模型采用BiRNN模型,其中BiRNN是一种双向循环神经网络,是RNN神经网络的一个变种。BiRNN网络结构的核心是把一个普通的单向RNN拆成两个方向,一个是随时序正向的,一个是逆着时序的反向的。这样可以根据两个方向信息来提取正反两个文本的特征。通常可以使用BiRNN的最终输出作为文本特征,也可以使用BiRNN的最终状态作为文本特征。
可选的,将训练语料作为训练样本输入到导航队列分类模型进行训练,得到训练后的导航队列分类模型,包括如下步骤:
将训练语料转化为定长的文本序列;
输入层:在输入层输入定长n的文本序列c,每个词用向量xi表示,每个词嵌入的维度k;将句子表示为
Figure BDA0002741030100000041
(
Figure BDA0002741030100000042
表示连接操作)即输入层输入的是文本序列c中各个词汇对应的分布式表示xi,即词向量;其中词向量采用预训练word2vec做输入层的输入,并在模型训练过程中不再微调;
双向RNN层:分为前向RNN和反向RNN;文本任务中,在理解一句话意思时,孤立理解句中中每个词的意思是不够的,我们还需要处理词连起来的整个序列,而RNN能够处理好序列信息。但RNN结构都是单向的,但实际问题中还存在不仅依赖之前序列还依赖之后的序列进行预测问题。对于这类问题引用双向RNN(BiRNN),即前向RNN和反向RNN;
前向RNN更新状态如下:获取到输入层句子信息
Figure BDA0002741030100000051
(1)假设初始状态
Figure BDA0002741030100000052
将x1输入至函数
Figure BDA0002741030100000053
中,获取状态
Figure BDA0002741030100000054
(2)然后计算
Figure BDA0002741030100000055
获取
Figure BDA0002741030100000056
(3)输入x2后,通过函数
Figure BDA0002741030100000057
来获取
Figure BDA00027410301000000528
(4)依次输入向量xi直到输入xn至函数
Figure BDA0002741030100000058
Figure BDA0002741030100000059
获取状态
Figure BDA00027410301000000510
其中U[1]、W[1]分别表示权重,b[1]表示偏差;n=1,......,n;
Figure BDA00027410301000000511
表示单元输出,
Figure BDA00027410301000000512
表示单元状态;V[1]表示单元参量;
反向RNN更新规则如下:获取到输入层句子信息
Figure BDA00027410301000000513
假设初始状态
Figure BDA00027410301000000514
将xn输入到函数
Figure BDA00027410301000000515
中,获取状态
Figure BDA00027410301000000516
依次输入向量xn:1,直到得到
Figure BDA00027410301000000517
Figure BDA00027410301000000518
其中U[2]、W[2]分别表示权重,b[2]表示偏差,n=1,......,n;
Figure BDA00027410301000000519
表示单元输出,
Figure BDA00027410301000000520
表示单元状态;V[2]表示单元参量;
全连接层:使用一层全连接层将前向RNN与反向RNN进行拼接,
Figure BDA00027410301000000521
Figure BDA00027410301000000522
其中
Figure BDA00027410301000000523
表示连接操作,其中W是需要学习的权重,b是偏差;
Softmax层:将获取的hn信息输入到softmax激活函数:
Figure BDA00027410301000000524
其中
Figure BDA00027410301000000525
是预测每个导航队列标签的概率情况:采用cost函数
Figure BDA00027410301000000526
评价模型的性能,其中λj是每个导航队列j的权重,
Figure BDA00027410301000000527
表示预测每个导航队列标签的概率与实际对应每个导航队列标签的概率的向量差,其中函数越小说明模型和参数越符合训练样本,训练过程中关注cost的变化;通过调节模型参数寻找全局最小的c值,完成模型训练。
基于上述提出的语音导航机器人方法,能够对大量文本数据针对性进行训练,可以快速获取良好的效果。后期遇到新知识时,可以加强训练使其模型适应文本数据中存在的新知识,从而可以大幅度改善人力成本和提高时间成本。
可选的,模型训练完毕后,对含标注文本数据进行预测,并返回预测结果。返回结果做准确率测试,判断是否达到实际要求。如果达标的话,将保存模型。否则,则从FTP上获取其他训练通话录音文本数据继续对模型进行训练,即重复上述获取训练语料、数据预处理、特征工程的以及模型训练的步骤。
获取用户通话文本:根据用户通话录音,将该录音转化文用户通话录音文本数据。
可选的,获取用户通话录音,获取用户通话数据并对其进行录音,获取用户通话录音。
可选的,该方法中,获取用户通话文本数据还包括:
接收用户发送至语音导航机器人的通话语音信号并对该通话语音信号进行录音,获取用户通话录音信号,对获取的用户通话录音信号进行预处理,输出预处理后的用户通话录音信号;
根据预处理后的用户通话录音信号进行语音信号转文字处理,获取用户通话文本数据。
可选的,上述获取的用户通话录音信号进行预处理,包括如下步骤:
对获取的用户通话录音信号进行分帧、加窗处理,获取各用户通话录音信号帧;
针对每一个获取的用户通话录音信号帧进行音频增强处理,包括:
采用设定的小波基和分解层数对用户通话录音信号帧进行小波分解处理,获取该用户通话录音信号帧的低频小波系数和高频小波系数;
分别对各层获取的高频小波系数进行阈值处理,获取阈值处理后的高频小波系数,其中采用的优化阈值处理函数为:
Figure BDA0002741030100000061
式中,z(i,c)表示小波分解后获取的第i层第c个高频小波系数,z′(i,c)表示增强预阈值函数处理后获取的第i层第c个高频小波系数,z-1(i)表示前一帧用户通话录音信号帧中小波分解获取的第i层高频系数均值,Γ表示设定的阈值,sgn(·)表示符号函数,d1表示设定的幅度调节因子,其中d1∈(0,1),d2表示设定的上界调节因子,其中d2∈(0,1);
根据优化预阈值函数处理后获取的高频小波系数和获取的低频小波系数进行小波逆变换,获取预处理后的用户通话录音信号帧;
针对各预处理后的用户通话录音信号帧组成输出的预处理后的用户通话录音信号。
可选的,上述音频增强处理中,针对第一帧用户通话录音信号不对其进行高频小波系数阈值处理。
在进行语音导航的过程中,其中第一步便是根据用户的语音信息(用户通话录音信号)来获取相应的文本数据,在此过程中,需要对获取的用户通话录音信号进行声音转文字处理,针对用户通话录音信号中由于通话过程中通话质量容易受到影响,从而使得用户通话录音信号中存在噪声干扰的情况,从而影响用户通话录音信号的清晰度和声音转文字的准确度,从而影响语音导航机器人的根据用户通话录音文本转接相应的人工队列的准确度,影响用户体验的情况。上述实施方式中提供了一种专门针对用户通话录音信号进行音频增强处理的技术方案,该方案中,通过将用户通话录音信号从时域转换到小波域中进行处理,特别针对获取的高频小波系数进行阈值处理,去除高频小波系数中包含的噪声干扰,其中特别提出了一种改进的高频小波系数阈值处理函数,该函数中能够针对用户通话录音信号的特性,最大程度地保留信号中的有用音频信息,去除其中的噪声干扰,提高音频信号的质量。
同时为了进一步提高优化阈值处理函数的处理效果,可选的,针对优化阈值处理函数中采用的阈值Γ由以下优化阈值获取函数计算所得:
Figure BDA0002741030100000071
式中,Γi表示针对第i层高频小波系数进行优化阈值处理时采用的阈值,med(z(i))表示第i层高频小波系数的中值,C表示高频小波系数的长度。
上述实施方式中,提出了一种自适应的阈值获取函数,该函数中能够适应各层小波高频系数的特性进行自适应设置,提高阈值处理的效果。
识别预测:将用户通话文本输入到训练好的基于深度学习的导航队列分类模型进行预测识别,获取输出的导航队列预测结果;
可选的,将用户通话文本输入到训练好的导航队列分类模型之前,还包括对用户通话文本进行上述预处理和特征工程处理。获取与用户通话文本对应的特征文本作为分类模型的输入。
可选的,导航队列分类模型也可以基于现有的TEXTRNN模型进行训练和进行导航队列预测识别。
可选的,导航队列分类模型包括依次连接的输入层、双向RNN层、全连接层和softmax层。
从传统的规则性模型到现在的深度学习模型,技术的迭代更新可以改善前期标注和后期维护的人力成本,且能进一步提升识别准确性。通过对已有标签数据情况下做数据预处理完成训练语料制作;通过特征提取以及深度学习对训练语料进行建模,最后对通话录音转写文本进行非结构化的文本识别,以此降低人工标注数据、整合知识库的压力,从而节省人力。
为了进一步对上述基于深度学习来实现语音导航机器人的方法进行阐述,参见图2,其示出一种针对本申请方法进行模块化实现的流程结构示意图,该系统中,
步骤1:文本处理系统通过FTP下载通话录音转写文本文件。
步骤2:文本处理系统读取通话文本文件,首先对文本进行规范化处理,剔除掉噪音数据(如:语气词、常用口语代词等),然后对文本进行分词,把一句话切分为词语最小单位;最后将分词后的文本数据转化为数值形式。
步骤3:模型训练系统加载转化为数值形式的数据,然后搭建TEXTRNN模型,然后进行模型训练,并保存模型结果。
步骤4:判断是否达到要求读取模型后,对含标注文本数据进行预测,并返回预测结果。返回结果做准确率测试,判断是否达到实际要求。如果达标的话,将保存模型,进入导航机器人系统中;否则,从FTP上获取其他通话录音转写文本文件继续进行模型训练,即重新走步骤1、2、3。
步骤5:导航机器人系统通过FTP下载需要预测分析的通话录音转写文本,通过TEXTRNN模型来预测识别,最后得到概率最高的识别结果。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当分析,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

Claims (2)

1.一种基于深度学习来实现语音导航机器人的方法,其特征在于,所述方法包括步骤:
S20获取用户通话文本数据;
S30将用户通话文本输入到训练好的基于深度学习的导航队列分类模型进行预测识别,获取输出的导航队列预测结果;
S40根据获取的导航队列预测结果将用户转接到相应的人工队列进行处理;
所述方法还包括:
S10训练基于深度学习的导航队列分类模型,包括如下步骤:
S11获取训练通话录音文本数据组成训练语料,对训练通话录音文本数据进行预处理,获取规范化的训练语料,其中所述训练通话录音文本数据包括通话录音文本和对应的导航队列标签;
S12对规范化的训练语料进行特征工程,获取训练语料的特征向量;
S13将训练语料的特征向量输入到导航队列分类模型进行基于深度学习的模型训练,获取所述训练好的基于深度学习的导航队列分类模型;
其中,所述步骤S11中,对训练通话录音文本数据进行预处理,包括如下步骤:
过滤短语:过滤训练通话录音文本中句子长度低于阈值的句子;
文本分词:加载专用的词库和分词提取工具对训练通话录音文本进行分词处理,输出分词文本;
停用词处理:加载停用词表,并根据所述停用词表过滤分词文本中存在的停用词;
数据均衡处理:统计训练语料中对应每个导航队列标签的各通话录音文本数据量,判断各导航队列是否均衡:如果每个导航队列对应的通话录音文本的数据量保持在平均值的5%内,即不进行处理;否则对训练语料进行向下采样处理,使训练语料中的数据对应各导航队列保持均衡状态;
其中,所述步骤S12中对训练语料进行特征工程,包括如下步骤:
构建语料字典:将分词后的训练语料读入内存,通过计算每个单词在文档中出现的词频,过滤掉词频小于最低阈值或高于最高阈值的单词,然后对剩余、不重复的单词映射成索引表示,构建词汇-索引映射表;
构建队列标签字典:对训练语料的导航队列标签进行去重处理,然后将去重后的导航队列标签映射成索引表,构建标签-索引映射表;
构建词向量:将word2vec词向量模型导入内存中,获取词汇-索引映射表相对应的词向量,作为模型的初始值;
文本序列化:通过词汇-索引映射表把每个文档单词数值化;
队列序列化:通过标签-索引映射表把每个文档标签数值化;
该方法还包括:
将训练语料作为训练样本输入到导航队列分类模型进行训练,得到训练后的导航队列分类模型,包括如下步骤:
将训练语料转化为定长的文本序列;
输入层:在输入层输入定长n的文本序列c,每个词用向量xi表示,每个词嵌入的维度k;将句子表示为
Figure FDA0003109674610000021
Figure FDA0003109674610000022
表示连接操作,即输入层输入的是文本序列c中各个词汇对应的分布式表示xi,即词向量;其中词向量采用预训练word2vec做输入层的输入,并在模型训练过程中不再微调;
双向RNN层:分为前向RNN和反向RNN;
前向RNN更新状态如下:获取到输入层句子信息
Figure FDA0003109674610000023
假设初始状态
Figure FDA0003109674610000024
将x1输入至函数
Figure FDA0003109674610000025
中,获取状态
Figure FDA0003109674610000026
(2)然后计算
Figure FDA0003109674610000027
获取
Figure FDA0003109674610000028
(3)输入x2后,通过函数
Figure FDA0003109674610000029
Figure FDA00031096746100000210
来获取
Figure FDA00031096746100000211
(4)依次输入向量xi直到输入xn至函数
Figure FDA00031096746100000212
Figure FDA00031096746100000213
获取状态
Figure FDA00031096746100000214
其中U[1]、W[1]分别表示权重,b[1]表示偏差;n=1,......,n
反向RNN更新规则如下:获取到输入层句子信息
Figure FDA00031096746100000215
假设初始状态
Figure FDA00031096746100000216
将xn输入到函数
Figure FDA00031096746100000217
Figure FDA00031096746100000218
中,获取状态
Figure FDA00031096746100000219
依次输入向量xn:1,直到得到
Figure FDA00031096746100000220
Figure FDA00031096746100000221
其中U[2]、W[2]分别表示权重,b[2]表示偏差,n=1,......,n;
全连接层:使用一层全连接层将前向RNN与反向RNN进行拼接,
Figure FDA00031096746100000222
Figure FDA00031096746100000223
Figure FDA00031096746100000224
其中
Figure FDA00031096746100000225
表示连接操作,其中W是需要学习的权重,b是偏差;
Softmax层:将获取的hn信息输入到softmax激活函数:
Figure FDA00031096746100000226
其中
Figure FDA00031096746100000227
是预测每个导航队列标签的概率情况:采用cost函数
Figure FDA00031096746100000228
评价模型的性能,其中λj是每个导航队列j的权重,
Figure FDA00031096746100000229
表示预测每个导航队列标签的概率与实际对应每个导航队列标签的概率的向量差,其中函数越小说明模型和参数越符合训练样本,通过调节模型参数寻找全局最小的c值,完成模型训练。
2.根据权利要求1所述的一种基于深度学习来实现语音导航机器人的方法,其特征在于,所述导航队列分类模型为基于TEXTRNN实现导航队列分类模型。
CN202011150454.9A 2020-10-23 2020-10-23 一种基于深度学习来实现语音导航机器人的方法 Active CN112287673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011150454.9A CN112287673B (zh) 2020-10-23 2020-10-23 一种基于深度学习来实现语音导航机器人的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011150454.9A CN112287673B (zh) 2020-10-23 2020-10-23 一种基于深度学习来实现语音导航机器人的方法

Publications (2)

Publication Number Publication Date
CN112287673A CN112287673A (zh) 2021-01-29
CN112287673B true CN112287673B (zh) 2021-08-17

Family

ID=74424851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011150454.9A Active CN112287673B (zh) 2020-10-23 2020-10-23 一种基于深度学习来实现语音导航机器人的方法

Country Status (1)

Country Link
CN (1) CN112287673B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680580A (zh) * 2017-09-28 2018-02-09 百度在线网络技术(北京)有限公司 文本转换模型训练方法和装置、文本转换方法和装置
CN108874785A (zh) * 2018-06-01 2018-11-23 清华大学 一种翻译处理方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729329B (zh) * 2017-11-08 2021-03-26 苏州大学 一种基于词向量连接技术的神经机器翻译方法及装置
CN109188026B (zh) * 2018-10-25 2021-03-09 北京航空航天大学 适用于mems加速度计的自动标定的深度学习方法
CN109341693B (zh) * 2018-11-06 2021-02-05 大国创新智能科技(东莞)有限公司 基于大数据和深度学习的娱乐场所导航方法和系统
CN111488758A (zh) * 2019-01-25 2020-08-04 富士通株式会社 用于驾驶行为识别的深度学习模型、训练装置及方法
CN111027684A (zh) * 2019-12-10 2020-04-17 北京奇艺世纪科技有限公司 一种深度学习模型量化方法、装置、电子设备及存储介质
CN111783437A (zh) * 2020-06-03 2020-10-16 广州云趣信息科技有限公司 基于深度学习实现语种识别的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680580A (zh) * 2017-09-28 2018-02-09 百度在线网络技术(北京)有限公司 文本转换模型训练方法和装置、文本转换方法和装置
CN108874785A (zh) * 2018-06-01 2018-11-23 清华大学 一种翻译处理方法及系统

Also Published As

Publication number Publication date
CN112287673A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN114973062B (zh) 基于Transformer的多模态情感分析方法
CN105957531B (zh) 基于云平台的演讲内容提取方法及装置
CN110853649A (zh) 基于智能语音技术的标签提取方法、系统、设备及介质
CN111081230B (zh) 语音识别方法和设备
CN116955699B (zh) 一种视频跨模态搜索模型训练方法、搜索方法及装置
WO2023197977A1 (zh) 语音识别方法以及装置
CN115269836A (zh) 意图识别方法及装置
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN116186258A (zh) 基于多模态知识图谱的文本分类方法、设备及存储介质
CN114358017A (zh) 标签分类方法、装置、设备和存储介质
CN113744727A (zh) 模型训练方法、系统、终端设备及存储介质
CN113555133A (zh) 一种医疗问诊数据处理方法和装置
CN117558278A (zh) 一种自适应语音识别方法及系统
CN117116251A (zh) 一种基于催收录音的还款概率评估方法和装置
CN112287673B (zh) 一种基于深度学习来实现语音导航机器人的方法
CN117150338A (zh) 任务处理、自动问答以及多媒体数据识别模型训练方法
CN111414748A (zh) 话务数据处理方法及装置
CN114238605B (zh) 一种智能语音客服机器人自动对话方法及装置
CN116186259A (zh) 一种会话线索评分方法、装置、设备及存储介质
CN114822495A (zh) 声学模型训练方法、装置及语音合成方法
CN112908296A (zh) 一种方言识别方法
CN114822510B (zh) 一种基于二值卷积神经网络的语音唤醒方法及系统
CN117094335B (zh) 政治等效框架下外交话语情感分析与智能翻译系统及方法
CN118377909B (zh) 基于通话内容的客户标签确定方法、装置及存储介质
CN112820274B (zh) 一种语音信息识别校正方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant