CN109961777A - 一种基于智能机器人的语音交互方法 - Google Patents
一种基于智能机器人的语音交互方法 Download PDFInfo
- Publication number
- CN109961777A CN109961777A CN201910118358.7A CN201910118358A CN109961777A CN 109961777 A CN109961777 A CN 109961777A CN 201910118358 A CN201910118358 A CN 201910118358A CN 109961777 A CN109961777 A CN 109961777A
- Authority
- CN
- China
- Prior art keywords
- intelligent robot
- speech recognition
- speech
- voice
- python
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 14
- 238000012360 testing method Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims abstract description 13
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 12
- 230000000694 effects Effects 0.000 claims abstract description 12
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 12
- 241000512668 Eunectes Species 0.000 claims abstract description 5
- 230000001537 neural effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 abstract description 22
- 238000013527 convolutional neural network Methods 0.000 abstract description 11
- 238000006243 chemical reaction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000012800 visualization Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 1
- 101100506221 Nitrosomonas europaea (strain ATCC 19718 / CIP 103999 / KCTC 2705 / NBRC 14298) hao3 gene Proteins 0.000 description 1
- 240000003768 Solanum lycopersicum Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于智能机器人的语音交互方法,方法包括:获取语音语料库,构建训练数据集和测试数据集,并对数据进行预处理;计算训练数据集的梅尔频率倒谱系数;搭建python+Anaconda+Tensorflow环境,使用python的keras库训练基于卷积神经网络构建语音识别模型;调用语义理解接口,处理语音识别结果;同时使用jieba、pypinyin、pydub、pyAudio库构建语音合成模型;将软件程序打包安装在智能机器人上后,分模块进行测试,再进行整体测试,根据测试效果重复上述内容,以进行调试和修改。本发明使服务型智能机器人可以实现识别语音、“理解”人类语言和与人“说话”的基本功能,从而实现其在大型场所进行引导、介绍的功能。
Description
技术领域
本发明涉及语音识别、语音合成和自然语言处理领域,尤其涉及一种基于智能机器人的语音交互方法。
背景技术
目前语音识别技术主要有两种实现方法:隐马尔科夫法和人工神经网络。隐马尔科夫法是对语音信号的时间序列结构建立统计模型,将之看作是一个数学上的双重随机过程,HMM(隐马尔科夫)方法现已成为语音识别的主流技术,目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。人工神经网络模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性,其强大的分类能力和输入输出映射能力都可以很好的提高语音识别性能,但由于训练模型需要耗费较长的时间,目前发展的还不够完善。
语音合成技术主要有线性预测编码技术(LPC)、基音同步叠加技术(PSOLA)以及基于幅度对数估计(LMA)声道模型的语音合成方法。LPC合成技术本质上是一种时间波形的编码技术,目的是为了降低时间域信号的传输速率。PSOLA技术在拼接语音波形片断之前,首先根据上下文的要求,用PSOLA算法对拼接单元的韵律特征进行调整,使合成波形既保持了原始发音的主要音段特征,又能使拼接单元的韵律特征符合上下文的要求,从而获得很高的清晰度和自然度。基于LMA声道模型的语音合成方法具有传统的参数合成并且可以灵活调节韵律参数的优点,同时又具有比PSOLA算法更高的合成音质。
发明内容
本发明提供了一种基于智能机器人的语音交互方法,本发明使服务型智能机器人可以实现识别语音、“理解”人类语言和与人“说话”的基本功能,从而实现其在大型场所进行引导、介绍的功能,详见下文描述:
一种基于智能机器人的语音交互方法,所述方法包括以下步骤:
获取语音语料库,构建训练数据集和测试数据集,并对数据进行预处理;
计算训练数据集的梅尔频率倒谱系数;
搭建python+Anaconda+Tensorflow环境,使用python的keras库训练基于卷积神经网络构建语音识别模型;
调用语义理解接口,处理语音识别结果;同时使用jieba、pypinyin、pydub、pyAudio库构建语音合成模型;
将软件程序打包安装在智能机器人上后,分模块进行测试,再进行整体测试,根据测试效果重复上述内容,以进行调试和修改。
本发明提供的技术方案的有益效果是:
1、本发明提供的基于智能机器人的语音交互可进行多轮对话,录音无时间限制,并且即使在嘈杂背景下识别效果仍较为良好;
2、本发明在语音合成后以卡通形象的可爱声音进行播放,让智能机器在人与人对话时为用户提供放松的声音环境和有效的“声音”响应;
3、本发明避免了目前大部分语音交互系统存在的缺点,如多轮对话需要多次按键进行录音、录音时间受限制、识别效果受环境影响大、无法语音播放结果等;
4、本发明融合了目前较为成熟的手机语音助手的快速简单等优点,并加以改进后效果更佳优异。
附图说明
图1为一种基于智能机器人的语音交互方法的流程图;
图2为语音交互可视化界面的示意图;
图3为智能机器人系统界面的示意图;
图4为CNN(卷积神经网络)基本结构的示意图;
图5为语音库文件命名示例图;
图6为文字转换为拼音的示意图;
图7为文字转换为拼音的另一示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
一种基于智能机器人的语音交互方法,该方法包括以下步骤:
101:获取语音语料库,构建训练数据集和测试数据集,并对数据进行预处理;
102:计算训练数据集的梅尔频率倒谱系数(本领域技术人员所公知的技术术语);
103:搭建python+Anaconda+Tensorflow环境,使用python的keras库训练基于卷积神经网络构建语音识别模型;
104:调用灵云公司的语义理解接口,直接处理语音识别结果;
105:使用python语言进行编写代码实现功能,同时使用jieba、pypinyin、pydub、pyAudio库构建语音合成模型;
106:可视化语音交互界面,提示用户开始说话。
107:将软件程序打包安装在智能机器人系统上后,分模块对系统进行测试,再进行系统整体测试,根据测试效果重复上述内容,以进行调试和修改。
具体实现时,上述步骤101-步骤103是语音识别模块的实现过程。其中,数据预处理包括:分词和字典映射的过程。提取和选择声信号的最佳参数是语音识别系统设计中的一个重要任务,它十分显著的影响着语音识别系统的性能。
本发明实施例通过计算梅尔频率倒谱系数(MFCC)来解决特征提取的问题。MFCC主要分为梅尔频率和倒谱两个部分,它是在梅尔频率上表示的短期频谱的实数对数的余弦变换的结果。
具体实现时,步骤103使用卷积神经网络训练语音识别模型,卷积神经网络包括:输入层、卷积层、池化层、全连接层和输出层。在语音识别的实现过程中,输入层为MFCC特征值。卷积层的每一个节点的输入是前一层的节点乘以权值矩阵得到的,在本方法的实现过程中,由python keras库中的Conv1D函数实现,Conv1D函数是一维卷积,作用是过滤一维输入的相邻元素。
步骤104是语义理解模块的实现过程,本方法中直接调用了灵云接口。
步骤105-106是语音合成模块的实现过程。预处理包括文本处理来进行分词以及确定单词的重音,并根据语音合成模型的结果进行波形重建,得到最后的语音段。
步骤107是最后进行合成和改进的过程。
综上所述,本发明实施例使服务型智能机器人可以实现识别语音、“理解”人类语言和与人“说话”的基本功能,从而实现其在大型场所进行引导、介绍的功能。
实施例2
下面结合附图、表1-表4,以及具体的计算公式对实施例1中的方案进行进一步地介绍,详见下文描述:
1、语音识别模块使用python语言调用Keras库实现中文语音识别系统。Keras是一个基于CNN(卷积神经网络)和CTC(连接时序分类)的深度学习框架,用python
语言编写,是一个支持GPU和CPU的神经网络库。
下面将介绍一下语音识别模块的实现步骤和使用的算法。
1)建立数据集
2)训练语音识别模型:搭建python+Anaconda+Tensorflow环境,使用python的keras库训练模型。具体实现步骤如表1至表4所示。
表1数据预处理
表2生成字典映射
表1和表2说明了对训练数据中的文本数据进行分词预处理和生成字典映射的过程。
表3计算MFCC特征值
如表3所示,提取和选择声信号的最佳参数是语音识别设计中的一个重要任务,它十分显著的影响着语音识别的性能。本方法通过计算梅尔频率倒谱系数(Mel-freauencyCepstral Coefficients,MFCC)来解决特征提取的问题。MFCC主要分为梅尔频率和倒谱两个部分,它是在梅尔频率上表示的短期频谱的对数的余弦变换的结果。
表4使用CNN训练模型
如表4所示,在语音识别的自主实现过程中,使用卷积神经网络对语音识别模型进行训练。卷积神经网络的基本结构图如图4所示。
在图4中可以看到,卷积神经网络包括:输入层、卷积层、池化层、全连接层和输出层。在本模块的实现过程中,输入层为MFCC特征值。卷积层的每一个节点的输入是前一层的节点乘以权值矩阵得到的,在本方法的实现过程中,由python keras库中的Conv1D函数实现,Conv1D函数是一维卷积,作用是过滤一维输入的相邻元素。在卷积层中,主要使用了两个非线性激活函数,如公式(1)和公式(2)所示。
sigmoid函数:
tanh函数:
在本模块的实现过程中,两个函数均被使用。其中,x为对输入的MFCC特征值进行一维卷积过滤处理后的值,及x=Conv1D()(input)。卷积层之后是池化层,池化层通过对前一个卷积层的局部区域进行下采样得到,本模块通过对卷积层分别计算得到的sigmoid函数值和tan h函数值进行合并来达到池化的目的。最后一层softmax层使用连接时间分类(Connectionist Temporal Classification,CTC)的方法计算损失函数,从而达到对文本数据和音频数据进行“对齐”的目的,这一步使用keras库中的ctc_batch_cost函数实现。
最后生成的模型保存在listen_model.chk文件中。
模型测试:输入测试数据,观察模型输出结果。测试模型的过程如表5至表6所示。
表5计算MFCC特征
如表5所示,在测试语音识别模型之前,首先需要计算音频的特征值。
表6生成文字
表6为模型识别文字的过程。模型根据音频特征值生成相应的文字,并通过计算CTC损失函数对生成的文字进行排序,最后输出结果。
将上一步保存下来的识别结果做为语义理解模块的输入,调用灵云语义理解的接口,获取结果,并保存在本地文件中。
将上一步的结果作为语音合成的输入。语音合成模块同样使用python语言进行编写代码实现功能,同时使用jieba、pypinyin、pydub、pyAudio库。
下面主要介绍一下TTS模块自主实现过程及相关算法。
1)准备数据:语音库由从拼音a到拼音z为首字母的408个拼音组成,其中每个拼音包括轻音、一声、二声、三声、四声这5种音调。将每个文字的拼音以“拼音+音调”的方式保存,具体效果如图5所示。
2)实现转换,具体实现步骤如表7至表8所示。
表7文字转换为拼音
输入文字后,首先将文字转换为拼音,如表7所示。本方法通过使用python的pypinyin库实现这一目的,转换效果为pypinyin.TONE3,将文字转换为拼音的示例如图6所示。
在图6中,以“你好”和“我是天津大学的学生”为例,将文字分别转换为“ni3,hao3”和“wo3,shi4,tian1,jin1,da4,xue2,de,xue2,sheng1”。
为了对输入文本中的标点符号做出处理,使用lazy_pinyin函数进行拼音转换,lazy_pinyin函数含有简单的分词功能,能够对字符串按照是否是中文字符进行分词,从而将标点符号和句子中的特殊内容进行提取,如图7所示。
在图7中可以看到,将输入文本中的中文文字转换为拼音,并将其中的标点符号和英文字符串提取了出来。
表8根据拼音获取文件
如表8所示,本方法根据拼音从语音库中获取相应拼音的“.wav”文件,用拼音合成文字语音,每次遇到标点符号不读,并停顿500ms,最后将语音文件(.wav)保存在本地文件夹中。
综上所述,本发明实施例提供的基于智能机器人的语音交互可进行多轮对话,录音无时间限制,并且即使在嘈杂背景下识别效果仍较为良好。
实施例3
下面结合具体的实例对实施例1和2中的方案进行可行性验证,验证过程在智能机器人系统上进行,详见下文描述;
从图1中可以看到,语音交互开启后,用户开始面向计算机说话,用户说话停止后,自动检测语音的开始和结束端点,并将录音数据发送至语音识别模块,语音识别模块立即进行语音识别工作并将识别结果以文字形式保存在本地文件中,并触发自然语言理解模块;语义理解模块读取上一模块保存下来的文字数据,进行文字特征提取工作,根据特征寻找相对应的结果,返回的结果数据同样以文字形式进行保存;最后,语音合成模块读取语义理解模块的文件数据,把文字结果转换为语音结果并自动播放,使用户获得反馈结果。
点击开始录音按钮后,在状态栏显示录音机状态,当出现录音开始时,提示说话人可以开始说话,说话结束后自动识别语音,为了方便观察识别结果,本实验中将识别结果显示在界面状态栏上。本模块测试数据包括不同音色、不同环境下的长短语句语音。语音识别模块结果以MFC可视化界面呈现,其界面如图2所示。
将上述三个模块整合后隐藏了语义理解模块和语音合成模块的可视化界面,只显示语音识别界面以提示说话人录音的开始时间,语义理解模块和语音合成模块后台运行,最后播放语音结果。智能机器人及机器人的展示界面如图3所示。
本发明实施例对语音识别模块共进行了697次测试,语义理解模块进行了433次测试,语音合成模块进行了651次测试。
语音识别模块的测试数据包括不同音色、不同环境下的长短语句语音。语音识别模块结果以MFC可视化界面呈现。测试在较安静的环境下进行时,本发明实施例对于说话人给出的常用短语句语音均能给出较为准确的识别结果,对于说话人沉默不语的情况,本发明实施例识别结果为空。但是当说话人语速太快或出现方言时,如“西红柿炒鸡蛋”文字连读时,被识别为“熊手机的”,这说明说话人必须保证使用普通话交流。
测试结果说明,本发明实施例在识别普通话常用短语句任务中表现很好。本发明实施例在识别长语音时,受说话人说话语速、吐字清晰程度影响较大,对于吐字不清晰或连读的词汇会有识别错误的情况出现,但总体识别结果没有较大误差,说明本发明实施例对于识别长语音任务表现良好。在嘈杂环境下,本方法会把背景音当做语音进行录取导致录音时间过长,但是在识别短语音过程中可以把噪音去除,识别长语音时,当背景噪音过大且大于说话人语音时,被盖住的语音会被当做噪音去除,但总体上,本方法在噪音环境下识别表现良好。
本发明实施例通过计算词错误率(Word Error Rate,WER)来进行识别准确率评估。其中WER是指为了让识别出的词序列和标准词序列一致,对识别出的词序列进行替换(replace)、删除(delete)或插入(insert)操作,这些被操作的词的个数,除以标准词序列中词的个数(N)形成的百分比,就是WER,如公式(3)所示。
其中,r为词的替换个数,d为词的删除个数,i为插入的词的个数。
由词错误率,可以计算得到准确率,如公式(4)所示。
Accuracy=1-WER (4)
另,本语音识别方法共进行了697次测试,其中安静环境下进行了497次测试,噪音背景下进行了200次测试,并分别对测试结果进行了准确率计算。通过计算可以发现,在安静背景下,除识别非名人人名外,系统识别率较高,即便是识别长语音,准确率也在90%以上。
本方法通过计算语义理解模块测试结果的准确率,对发明进行评估,即
由计算结果可见,对于天气、笑话、翻译、百度百科这四个方面没有歧义的文本输入,系统都能够给出准确的理解结果。
语音合成模块共经过600余次测试。本模块采用主观评测的方法,从中英文合成、多音字、数字串、儿化音、特殊符号、分词断句几个方面进行了测试。测试发现,当输入文本为中英文混合、含有多音字、数字串和普通符号(如“,”、“。”等)时均表现很好,分词断句没有误差,播放效果流利、韵律生动,可信度及自然度较高。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于智能机器人的语音交互方法,其特征在于,所述方法包括以下步骤:
获取语音语料库,构建训练数据集和测试数据集,并对数据进行预处理;
计算训练数据集的梅尔频率倒谱系数;
搭建python+Anaconda+Tensorflow环境,使用python的keras库训练基于卷积神经网络构建语音识别模型,在训练模型的过程中使用梅尔频率倒谱系数;
调用语义理解接口,处理语音识别结果;同时使用jieba、pypinyin、pydub、pyAudio库构建语音合成模型;
将软件程序打包安装在智能机器人上后,分模块进行测试,再进行整体测试,根据测试效果重复上述内容,以进行调试和修改。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910118358.7A CN109961777A (zh) | 2019-02-16 | 2019-02-16 | 一种基于智能机器人的语音交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910118358.7A CN109961777A (zh) | 2019-02-16 | 2019-02-16 | 一种基于智能机器人的语音交互方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109961777A true CN109961777A (zh) | 2019-07-02 |
Family
ID=67023816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910118358.7A Pending CN109961777A (zh) | 2019-02-16 | 2019-02-16 | 一种基于智能机器人的语音交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109961777A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110675946A (zh) * | 2019-09-25 | 2020-01-10 | 吴虹 | 一种多媒体方式下的医院医护调度系统及方法 |
CN110718226A (zh) * | 2019-09-19 | 2020-01-21 | 厦门快商通科技股份有限公司 | 语音识别结果处理方法、装置、电子设备及介质 |
CN111128123A (zh) * | 2019-07-12 | 2020-05-08 | 深圳云知声信息技术有限公司 | 一种基于方言识别与普通话识别的交互方法 |
CN111145720A (zh) * | 2020-02-04 | 2020-05-12 | 清华珠三角研究院 | 一种将文本转换成语音的方法、系统、装置和存储介质 |
CN112365876A (zh) * | 2020-11-27 | 2021-02-12 | 北京百度网讯科技有限公司 | 语音合成模型的训练方法、装置、设备以及存储介质 |
CN112908316A (zh) * | 2019-12-02 | 2021-06-04 | 浙江思考者科技有限公司 | Ai智能语音流采集 |
CN113035200A (zh) * | 2021-03-03 | 2021-06-25 | 科大讯飞股份有限公司 | 基于人机交互场景的语音识别纠错方法、装置以及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120210233A1 (en) * | 2010-11-04 | 2012-08-16 | Davis Bruce L | Smartphone-Based Methods and Systems |
US20130253909A1 (en) * | 2012-03-23 | 2013-09-26 | Tata Consultancy Services Limited | Second language acquisition system |
CN107247750A (zh) * | 2017-05-26 | 2017-10-13 | 深圳千尘计算机技术有限公司 | 人工智能交互方法及系统 |
CN107644643A (zh) * | 2017-09-27 | 2018-01-30 | 安徽硕威智能科技有限公司 | 一种语音交互系统及方法 |
US20180075343A1 (en) * | 2016-09-06 | 2018-03-15 | Google Inc. | Processing sequences using convolutional neural networks |
CN107958433A (zh) * | 2017-12-11 | 2018-04-24 | 吉林大学 | 一种基于人工智能的在线教育人机交互方法与系统 |
CN108364640A (zh) * | 2018-04-21 | 2018-08-03 | 无锡商业职业技术学院 | 一种基于TensorFlow框架的机器人远程语音控制系统 |
-
2019
- 2019-02-16 CN CN201910118358.7A patent/CN109961777A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120210233A1 (en) * | 2010-11-04 | 2012-08-16 | Davis Bruce L | Smartphone-Based Methods and Systems |
US20130253909A1 (en) * | 2012-03-23 | 2013-09-26 | Tata Consultancy Services Limited | Second language acquisition system |
US20180075343A1 (en) * | 2016-09-06 | 2018-03-15 | Google Inc. | Processing sequences using convolutional neural networks |
CN107247750A (zh) * | 2017-05-26 | 2017-10-13 | 深圳千尘计算机技术有限公司 | 人工智能交互方法及系统 |
CN107644643A (zh) * | 2017-09-27 | 2018-01-30 | 安徽硕威智能科技有限公司 | 一种语音交互系统及方法 |
CN107958433A (zh) * | 2017-12-11 | 2018-04-24 | 吉林大学 | 一种基于人工智能的在线教育人机交互方法与系统 |
CN108364640A (zh) * | 2018-04-21 | 2018-08-03 | 无锡商业职业技术学院 | 一种基于TensorFlow框架的机器人远程语音控制系统 |
Non-Patent Citations (3)
Title |
---|
GSWYHQ: "linux环境下用python将文字转换成语音(不调用api)", 《知乎 HTTPS://ZHUANLAN.ZHIHU.COM/P/28629057》 * |
南方朗郎: "python+keras实现语音识别", 《CSDN HTTPS://BLOG.CSDN.NET/SUNSHUAI_CODER/ARTICLE/DETAILS/83658625》 * |
裔隽 等: "《Python机器学习实战》", 31 January 2018, 科学技术文献出版社 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111128123A (zh) * | 2019-07-12 | 2020-05-08 | 深圳云知声信息技术有限公司 | 一种基于方言识别与普通话识别的交互方法 |
CN110718226A (zh) * | 2019-09-19 | 2020-01-21 | 厦门快商通科技股份有限公司 | 语音识别结果处理方法、装置、电子设备及介质 |
CN110718226B (zh) * | 2019-09-19 | 2023-05-05 | 厦门快商通科技股份有限公司 | 语音识别结果处理方法、装置、电子设备及介质 |
CN110675946A (zh) * | 2019-09-25 | 2020-01-10 | 吴虹 | 一种多媒体方式下的医院医护调度系统及方法 |
CN112908316A (zh) * | 2019-12-02 | 2021-06-04 | 浙江思考者科技有限公司 | Ai智能语音流采集 |
CN111145720A (zh) * | 2020-02-04 | 2020-05-12 | 清华珠三角研究院 | 一种将文本转换成语音的方法、系统、装置和存储介质 |
CN111145720B (zh) * | 2020-02-04 | 2022-06-21 | 清华珠三角研究院 | 一种将文本转换成语音的方法、系统、装置和存储介质 |
CN112365876A (zh) * | 2020-11-27 | 2021-02-12 | 北京百度网讯科技有限公司 | 语音合成模型的训练方法、装置、设备以及存储介质 |
CN112365876B (zh) * | 2020-11-27 | 2022-04-12 | 北京百度网讯科技有限公司 | 语音合成模型的训练方法、装置、设备以及存储介质 |
CN113035200A (zh) * | 2021-03-03 | 2021-06-25 | 科大讯飞股份有限公司 | 基于人机交互场景的语音识别纠错方法、装置以及设备 |
CN113035200B (zh) * | 2021-03-03 | 2022-08-05 | 科大讯飞股份有限公司 | 基于人机交互场景的语音识别纠错方法、装置以及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Donovan | Trainable speech synthesis | |
Yamagishi et al. | Thousands of voices for HMM-based speech synthesis–Analysis and application of TTS systems built on various ASR corpora | |
Wu et al. | Voice conversion using duration-embedded bi-HMMs for expressive speech synthesis | |
CN109961777A (zh) | 一种基于智能机器人的语音交互方法 | |
Qian et al. | A cross-language state sharing and mapping approach to bilingual (Mandarin–English) TTS | |
Neto et al. | Free tools and resources for Brazilian Portuguese speech recognition | |
US20030154080A1 (en) | Method and apparatus for modification of audio input to a data processing system | |
Gaurav et al. | Development of application specific continuous speech recognition system in Hindi | |
Burileanu | Basic research and implementation decisions for a text-to-speech synthesis system in Romanian | |
Jackson | Automatic speech recognition: Human computer interface for kinyarwanda language | |
Takaki et al. | Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012 | |
Singh et al. | Speech recognition system for north-east Indian accent | |
Zhang et al. | Chinese speech synthesis system based on end to end | |
Broad | Basic directions in automatic speech recognition | |
Mustafa et al. | EM-HTS: real-time HMM-based Malay emotional speech synthesis. | |
Mallik et al. | Speech to text conversion for visually impaired person using µ law companding | |
Wiggers | HIDDEN MARKOV MODELS FOR AUTOMATIC SPEECH RECOGNITION | |
Rukwong et al. | Thai vowels speech recognition using Convolutional Neural Networks | |
Winarti et al. | Enhancing Indonesian Speech Synthesis: Embracing Naturalness and Expressiveness with Hidden Markov Models | |
Georgila | 19 Speech Synthesis: State of the Art and Challenges for the Future | |
Hosn et al. | New resources for brazilian portuguese: Results for grapheme-to-phoneme and phone classification | |
Ayush et al. | A design and implementation of HMM based mongolian speech recognition system | |
Catanghal et al. | Computer Discriminative Acoustic Tool for Reading Enhancement and Diagnostic: Development and Pilot Test | |
Niu et al. | Prosody-Enhanced Mandarin Text-to-Speech System | |
Khaw et al. | A fast adaptation technique for building dialectal malay speech synthesis acoustic model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190702 |