CN109670073A - 一种信息转换方法及装置、交互辅助系统 - Google Patents
一种信息转换方法及装置、交互辅助系统 Download PDFInfo
- Publication number
- CN109670073A CN109670073A CN201811577433.8A CN201811577433A CN109670073A CN 109670073 A CN109670073 A CN 109670073A CN 201811577433 A CN201811577433 A CN 201811577433A CN 109670073 A CN109670073 A CN 109670073A
- Authority
- CN
- China
- Prior art keywords
- characteristic sequence
- sign language
- phoneme
- sequence
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 30
- 230000003993 interaction Effects 0.000 title abstract description 7
- 239000000284 extract Substances 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims description 27
- 238000013528 artificial neural network Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 18
- 238000013519 translation Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 13
- 238000013518 transcription Methods 0.000 claims description 13
- 230000035897 transcription Effects 0.000 claims description 13
- 230000002452 interceptive effect Effects 0.000 claims description 5
- 230000005236 sound signal Effects 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 210000005036 nerve Anatomy 0.000 claims 1
- 206010011878 Deafness Diseases 0.000 abstract description 14
- 230000014616 translation Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 230000013016 learning Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本申请提供的信息转换方法及装置、交互辅助系统,提取语音的音素特征序列,依据预设的音素特征序列与手语特征序列的对应关系,确定提取的音素特征序列对应的手语特征序列,并依据手语特征序列生成与语音对应的手语图,从而解决聋哑人理解语音的问题。
Description
技术领域
本申请涉及电子信息领域,尤其涉及一种信息转换方法及装置、交互辅助系统。
背景技术
沟通是每个人最基本的生活需求,而聋哑人由于先天的缺陷,沟通需求,特别是与正常人的沟通需求,往往需要借助特殊手段才能得到满足。
目前常见的辅助聋哑人沟通的设备为手语处理移动终端,该终端能够采集手语图像,并将手语图像转换为语音,从而使得正常人理解聋哑人的表达。但该终端只能满足聋哑人的表达需求,而无法满足聋哑人的聆听需求,也就是说,聋哑人还是无法使用该终端获知语音表达的含义。
发明内容
本申请提供了一种信息转换方法及装置、交互辅助系统,目的在于解决如何使得聋哑人理解语音的问题。
为了实现上述目的,本申请提供了以下技术方案:
一种信息转换方法,包括:
提取语音的音素特征序列;
依据预设的音素特征序列与手语特征序列的对应关系,确定提取的音素特征序列对应的手语特征序列;
依据所述手语特征序列生成与所述语音对应的手语图。
可选的,所述依据预设的音素特征序列与手语特征序列的对应关系,确定提取的音素特征序列对应的手语特征序列包括:
依据孪生神经网络预先建立的音素特征序列与手语特征序列的对应关系,从所述提取的音素特征序列中确定目标音素特征序列,所述目标音素序列为与所述手语特征序列匹配的音素特征序列;
由所述目标音素特征预测得到所述手语特征序列。
可选的,所述提取语音的音素特征序列包括:
将所述语音转换为语谱图;
将所述语谱图作为预先训练的孪生神经网络的第一输入端的输入,得到所述孪生神经网络输出的所述音素特征序列。
可选的,所述依据孪生神经网络预先建立的音素特征序列与手语特征的对应关系,从所述提取的音素特征序列中确定目标音素特征,由所述目标音素特征预测得到所述手语特征序列包括:
将所述音素特征序列作为预先训练的特征翻译网络的输入,得到所述特征翻译网络输出的手语特征序列;
其中,所述特征翻译网络用于:利用所述音素特征序列之间的时序关系,得到预测序列,从所述预测序列中,搜索与手语特征序列i-1的相似度满足第一预设条件的目标音素特征序列i,并依据所述目标音素特征序列i、所述目标音素特征序列的前一个音素特征序列和手语特征序列i-1,预测得到手语特征i,所述手语特征序列i-1为所述手语特征序列i的时序之前的一个手语特征序列。
可选的,所述孪生神经网络和所述特征翻译网络构成手语特征预测模型;
所述手语特征预测模型的训练过程包括:
将样本语音的语谱图作为所述孪生神经网络的第一输入端的输入,将与所述样本语音对应的样本手语图作为所述孪生神经网络的第二输入端的输入,得到所述孪生神经网络输出的音素特征序列和手语特征序列;
将所述音素特征序列和所述手语特征序列作为所述特征翻译网络的输入,得到所述音素特征序列和所述手语特征序列;
搜索与手语特征序列i-1的相似度满足第三预设条件的音素特征序列,作为目标音素特征序列i;手语特征序列i-1为任意一个手语特征序列;
依据所述目标音素特征序列i、所述目标音素特征序列i的前一个音素特征序列和所述手语特征序列i-1,得到预测手语特征序列i;手语特征序列i为手语特征序列i-1的时序之后的手语特征序列;
依据手语特征预测模型的损失函数、预测手语图i和样本手语图i,训练所述手语特征预测模型。
可选的,所述依据所述手语特征序列生成与所述语音对应的手语图包括:
将预设的手语图库中,按照预设的分类,检索与所述当前手语特征的相似度满足第四预设条件的手语图,得到所述手语图;
其中,所述预设的手语图库中的手语图按照预设规则分类,形成至少两个分类。
一种信息转换装置,包括:
提取模块,用于提取语音的音素特征;
确定模块,用于依据预设的音素特征序列与手语特征序列的对应关系,确定提取的音素特征序列对应的手语特征序列;
生成模块,用于依据所述手语特征序列生成与所述语音对应的手语图。
一种辅助交互系统,包括:
处理服务器,用于实现前述的信息转换方法;
用户端设备,用于接收语音,并将所述语音上传至所述处理服务器;接收并显示所述处理服务器发送的手语图。
可选的,所述云端服务器还用于实现以下至少一项功能:
语音转写、文本到语音的转换、多语种文本和/或语音之间的相互转译、所述用户端设备的管理。
可选的,所述用户端设备包括:控制设备和录音设备;
所述控制设备用于接收模式选择数据和待处理的数据,并依据所述模式选择数据输出所述处理服务器发送的处理结果数据;
所述录音设备用于采集作为所述待处理数据的音频信号,并播放作为音频信号的所述处理结果数据。
本申请所述的信息转换方法及装置、交互辅助系统,提取语音的音素特征序列,依据预设的音素特征序列与手语特征序列的对应关系,确定提取的音素特征序列对应的手语特征序列,并依据手语特征序列生成与语音对应的手语图,从而解决聋哑人理解语音的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种信息转换方法的流程图;
图2为本申请实施例公开的又一种信息转换方法的流程图;
图3为本申请实施例公开的语音转写系统的结构示意图;
图4为孪生神经网络的结构示意图;
图5为本申请实施例公开的语音转写系统的训练流程图;
图6为本申请实施例公开的语音转写系统的测试流程图;
图7为本申请实施例公开的一种交互辅助系统的结构示意图;
图8为本申请实施例公开的录音设备的结构示意图。
具体实施方式
本申请实施例公开的信息转换方法及装置、交互辅助系统的应用场景的示例为:将语音转写为手语图并输出,使得聋哑人能够理解语音表达的含义。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例公开的一种信息转换方法的流程,包括以下步骤:
S101:提取语音的音素特征,得到音素特征序列。
通常,语音中包括多个语音帧,从每一个语音帧可以提取多个音素特征,组成音素特征序列。多个语音帧提取得到多个音素特征序列。
S102:依据预设的音素特征序列与手语特征序列之间的对应关系,由提取的音素特征序列确定手语特征序列。
本实施例中,音素特征序列与手语图特征之间的对应关系的设置方式可以包括以下几种:1、设置数据库,数据库中包括预先统计的音素特征序列与手语图特征之间的对应关系。2、使用具有对应关系的样本音素特征序列与样本手语图特征序列训练模型,得到能够由音素特征序列输出手语图特征序列的模型。
S103:依据手语特征序列生成手语图。
具体的,可以依据手语特征序列将对应的手语表达图拼接为手语图。生成的手语图即为与语音对应的手语图,即依据语音转换得到的手语图。
图1所示的信息转换方法,能够由语音的音素特征序列得到手语图,因此,使得语音能够转换为手语图,提高了聋哑人理解语音的便利性。
图2为本申请实施例公开的又一种信息转换方法的流程,与图1所示的流程相比,提供依据预设的对应关系,确定提取的音素特征序列对应的手语特征序列更为具体的步骤:
S201:将语音转换为语谱图。
S202:提取语谱图的音素特征,得到音素特征序列。
S203:建立各个音素特征序列之间的时序关系。
如前所述,音素特征序列由从每一个语音帧提取的音素特征组成,因为语音帧具有时序关系,因此,该步骤中,按照语音帧的时序关系,建立各个音素特征序列之间的时序关系,以下将建立时序关系的音素特征序列称为预测序列。
建立的预测序列的一种示例为:音素特征序列按照时序从先到后的顺序排序的序列。
S204:初始化i=1。
S205:确定预测序列中与第i-1个手语特征序列的相似度满足第一预设条件(例如相似度最高)的音素特征序列,即目标音素特征序列i。
其中,第i-1个手语特征序列为第i-1帧手语图的特征序列。第i-1帧手语图为在第i-1次循环预测得到(即依据第i-1个音素特征序列预测得到)的一帧手语图。
本实施例中,将i=1的情况作为第一次循环,因此,有可能不存在第i-1帧手语图,所以,可以将全零特征作为第0个手语特征序列。
S206:由目标音素特征序列i、目标音素特征序列i的前一个音素特征序列和第i-1个手语特征序列,预测得到第i个手语特征序列(即手语特征序列i)。
其中,目标音素特征序列i的前一个音素特征序列,为预测序列中,目标音素特征序列的前一个音素特征序列。
需要说明的是,在得到第i个手语特征序列后,将第i个手语特征序列作为下一次(即i=i+1)循环中S205的第i-1个手语特征序列。
如前所述,因为语音帧具有时序,所以,与语音帧对应的手语特征序列也具有时序性。即每次执行S206预测得到的手语特征序列,按照循环的先后顺序,具有先后时序。
S207:在预设的手语图库中,检索与第i个手语特征序列匹配的手语图,作为预测得到的第i帧手语图。
其中,与第i个手语特征序列匹配的手语图可以为:具有与第i个手语特征序列满足第二预设条件(例如相似度最高)的手语特征序列的手语图。
每次执行S207预测得到的手语图,按照循环的先后顺序,具有先后时序。
可选的,由于手语图库的体量巨大,因此,在本实施例中,为了提高检索的效率,对于给定的手语图库,使用2-means聚类进行分类,将手语图库中的手语图分为两类,每一类再分为两个子类,每个子类可以再分为两个子类….,依次类推。2-means聚类仅为示例,也可以采用其它分类方式。
在检索匹配的手语图的过程中,按照上述分类逐层检索,至少能够省去对一半数量的手语图的匹配计算,从而实现提高检索效率的目的。
举例说明:假设手语图库有1000张手语图,未分类的情况下,最多需要遍历1000张手语图的特征,才能确定与手语特征序列最相似的手语图。而在分类之后,先找到与手语特征序列最相似的分类,再找子分类….,在与手语特征序列最相似的子分类中查找与手语特征序列最相似的手语图,假设手语图中的分类和子分类的数量总共为20个,因此,最多需要查找20+N(N为与手语特征序列最相似的子分类中手语图的数量,远小于1000)次,即能够确定与手语特征序列最相似的手语图。
S208:i=i+1,返回执行S205,直到处理完所有的语音帧,即i的上限值为语音中的语音帧的数量。
从图2所示的流程可以看出,本实施例所述的信息转换方法,可以依据语音预测出手语图,因此,能够帮助聋哑人理解语音,满足聋哑人聆听的需求。
进一步的,需要强调的是,本实施例所述的信息转换方法,并不是现有技术中手语图转换为语音的逆过程。现有技术中,利用摄像头采集手势图像信息,然后编码手语并送入数据库进行匹配,这种线性检索方法不仅效率低,速度慢,准确性也难以保证,且在根据手语图像进行手语编码环节单纯依赖于图像识别技术,缺少连贯性语义校正,数据库匹配语义时速度与效率会严重影响交流的实时性和有效性。
而图2所示的流程,预先将手语图库中的手语图进行分类,因此能够提高检索效率,且在预测手语特征序列时,以上一个预测出的手语特征序列以及目标音素特征序列的前一个音素特征序列作为依据,因此,考虑到了语言的时序性和连贯性,从而提高预测的准确性。
需要说明的是,图2所示的以上一个预测出的手语特征序列为依据,预测当前手语特征序列的方式仅为示例,实际上,也可以使用依据预设的音素特征序列与手语特征序列的对应关系,从提取的音素特征序列中确定目标音素特征序列,由目标音素特征预测得到手语特征序列。
图2所示的流程可以使用图3所示的语音转写系统实现:
其中,图3所示的语音转写系统中,包括:转换模块、特征提取网络、特征翻译网络和特征检索模块。其中,特征提取网络和特征翻译网络构成手语特征预测模型。转换模块用于将语音转换为语谱图。手语特征预测模型用于依据语谱图得到手语特征序列,检索模块用于依据手语特征序列,从预设的手语图库中检索匹配的手语图,作为预测出的手语图。
具体的,特征提取网络为孪生神经网络,如图4所示,孪生神经网络包括两个输入端,第一输入端用于输入语谱图,第二输入端用于输入手语图。第一输入端后连接音素特征提取网络,用于从语谱图提取音素特征序列(第i帧语音的语谱图提取到音素特征序列i)。第二输入端后连接手语特征提取网络,用于从手语图提取手语特征序列(第i帧手语图提取到手语特征序列i)。其中,第一输入端和音素特征提取网络构成第一个网络,第二输入端和手语特征提取网络构成第二个网络,第一个网络与第二个网络为孪生神经网络。
孪生神经网络在建立不同域特征的共享嵌入时具有较大优势,它的损失函数反应的是孪生神经网络中的两个网络(即上述第一网络和第二网络)提取特征的差异度,通过随机梯度下降(SGD),两个网络对匹配样本输出相似的特征,对不匹配的样本,让其输出的特征的差异度大。本实施例中,孪生神经网络可以采用darknet,darknet的网络参数非常少,对于快速提取特征非常有利。
特征翻译网络用于特征之间的翻译,即依据音素特征序列预测手语特征序列。具体的,特征翻译网络包括第一LSTM网络、第二LSTM网络和Attention网络。
图3所示的手语特征预测模型的训练和测试过程(测试过程即图2所示的流程)分别为:
训练过程如图5所示:
孪生神经网络中的第一网络提取语谱图的音素特征序列,孪生神经网络中的第二网络提取样本手语图的手语特征序列,其中,样本手语图与语音帧一一对应(对应是指,语音帧与手语图表达相同的含义),每个语音帧提取一个音素特征序列,每帧样本手语图提取一个手语特征序列。利用音素特征序列与手语特征序列之间的差异度,训练损失函数。需要说明的是,加入正负样本同时学习,能够提高识别的准确性。在学习率优化策略方面可以采用Adam优化算法:根据邻域梯度动态调整局部学习率,对于基础学习率,先根据验证集结果动态调整基础学习率,给出基础学习率下降曲线,再以该曲线作参考,设计多倍率基础学习率下降策略,以优化网络训练的稳定性,保证识别的准确性。具体实现方式可参见现有技术。
第一LSTM网络建立音素特征序列之间的时序关系,得到预测序列。第二LSTM网络建立手语特征序列之间的时序关系,得到对照序列。
Attention网络搜索与手语特征序列i-1相似度最高的音素特征序列,作为目标音素特征序列i。
第二LSTM网络依据目标音素特征序列i、目标音素特征序列i的前一个音素特征序列和手语特征序列i-1,得到预测手语特征序列i。
检索模块从预设的手语图库中检索与预测手语特征序列i匹配的手语图,记为预测手语图i。
依据预测手语图i和样本手语图i,训练手语特征预测模型的损失函数。其中,孪生网络的损失函数如前所述,特征翻译网络的损失函数可以定义交交叉熵损失,用于表示预测出的手语特征序列与样本手语图的真实手语特征之间的差异度。
测试过程如图6所示:
孪生神经网络中的第一网络提取语谱图的音素特征序列。第一LSTM网络建立音素特征序列之间的时序关系,得到预测序列。
开始如下循环:
初始化i=1。Attention网络搜索与手语特征序列i相似度最高的音素特征序列,作为目标音素特征序列i。第二LSTM网络由目标音素特征序列i、目标音素特征序列i的前一个音素特征序列和第i-1个手语特征序列,预测得到第i个手语特征序列。检索模块在预设的手语图库中,检索与第i个手语特征序列匹配的手语图,作为预测得到的第i帧手语图。i=i+1。
从上述说明可以看出,借助于孪生神经网络,使得测试过程中,提取的音素特征序列,接近于真实手语特征序列,并借助音素特征序列以及手语特征序列之间的关联性,提高手语特征序列预测的准确性,为有效交流奠定了基础。
图7为本申请实施例公开的一种交互辅助系统,包括用户端设备1和云端处理服务器2(也可以是本地处理器、服务器)。
具体的,用户端设备1可以包括控制设备11和录音设备12。
控制设备11用于实现以下功能:
1、系统配置:可配置项包括但不限于:系统输入语言、系统输出语言、系统输入文本语种和系统输出文本语种。其中,语言的默认配置可为汉语,文本语种的默认配置可为中文。
2、设备管理:可管理项包括但不限于:对系统中的文件的管理,例如对录音文件和系统日志的删除、移动等。
3、模式选择:模式包括但不限于:手语模式、文本模式和语音模式。在手语模式下,控制设备11接收并输出来自云端处理服务器1的语音转换得到的手语图。控制设备11在文本模型下,接收并输出来自云端处理服务器1的语音转换(转换可以为转写或翻译)得到的文本。在语音模式下,控制设备11接收并输出来自云端处理服务器1的文本转换(转换可以为转写或翻译)得到的语音。即控制设备用于接收模式选择数据和待处理的数据,并依据模式选择数据输出云端处理服务器发送的处理结果数据。
4、输出:包括显示和播放声音,例如,显示以上功能的操作界面,以及在相应模式下的图像或文本形式的输出内容。又例如,播放来自云端处理服务器1的文本转换得到的语音。
5、输入:接收用户输入的信息,例如文本等。
录音设备12用于接收用户输入作为待处理数据的语音、以及将作为音频信号的处理结果的语音结果输出。
控制设备11和录音设备12可以集成为一个实体设备。控制设备11和录音设备12也可以为两个独立的实体设备,例如控制设备11为手机,手机中通过安装具有上述用户端设备1的功能的APP,实现上述用户端设备1的功能,录音设备12为音频处理终端,例如录音笔。
在此情况下,录音设备12的具体结构可以如图8所示,包括:通信模块、音频传输模块、处理器、存储模块和电源模块。
其中,通信模块可以包括但不限于移动通信模块(例如4G模块)、WIFI模块、蓝牙模块。通信模块用于与录音设备22以及云端处理服务器1通信。
音频传输模块包括音频采集模块(例如麦克风阵列)和音频输出模块。处理器用于对采集和/或输出的音频进行处理,以得到高质量的音频。存储模块用于存储采集和/或输出的音频。电源模块用于为上述各个模块供电。
需要说明的是,在控制设备11和录音设备12均具有声音播放功能的情况下,用户可以通过控制设备11设置选用控制设备11和/或录音设备12作为声音的输出设备。声音输出设备的选择可以集成在控制设备11的系统配置功能中的一个配置项。
云端处理服务器2用于实现图或图2所示的流程,除此之外,还可以实现以下至少一项功能:
1、用户端设备的管理:具体的,包括用户端设备的注册、注销等。
2、文本到语音的转换。
3、语音到文本的转写,文本可以包括中文、英语等多语言。
4、多语种文本和/或语音之间的相互转译。
5、绑定或解绑设置:在控制设备11和录音设备12为两个不同实体的情况下,云端处理服务器4还可以具有绑定或解绑这两个设备的功能。例如,建立这两个设备的识别码之间的对应关系。在云端处理服务器2为多个用户端设备提供服务的情况下,能够保证数据传输的准确性。
上述功能的具体实现算法,均可以参见现有技术,这里不再赘述。
综合用户端设备1和云端处理服务器2的功能可以看出,用户端设备1用于选择输出的形式,包括语音、手语图或文本,云端处理服务器2用于并依据用户端设备1要求输出的形式,实现各种形式之间的转换,例如语音转换为文本、手语图、或文本转换为语音。当然,也有可能,云端处理服务器2在得到输入数据后,实现上述全部转换功能,并将全部转换结果发给用户端设备1,用户端设备1依据用户选择的模型,输出相应形式的结果。
综上所述,图7所示的交互辅助系统,将语音转换为手语图、语音转写为文本、文本转换为语音、以及不同语言的互译集于一体,不仅能够满足聋哑人的沟通需求,还能够因为图1或图2所示的流程,提高有效沟通的可能性。而且,还满足跨语种翻译、会议转写记录等功能,使得沟通更简单和方便。
本申请实施例还公开了一种信息转换装置,包括:提取模块、确定模块和生成模块。其中,提取模块用于提取语音的音素特征。确定模块用于依据预设的音素特征序列与手语特征序列的对应关系,确定提取的音素特征序列对应的手语特征序列。生成模块用于依据所述手语特征序列生成与所述语音对应的手语图。
信息转换装置中的各个模块的功能的具体实现方式,可以参见图1或图2所示的方法实施例,这里不再赘述。
本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种信息转换方法,其特征在于,包括:
提取语音的音素特征序列;
依据预设的音素特征序列与手语特征序列的对应关系,确定提取的音素特征序列对应的手语特征序列;
依据所述手语特征序列生成与所述语音对应的手语图。
2.根据权利要求1所述的方法,其特征在于,所述依据预设的音素特征序列与手语特征序列的对应关系,确定提取的音素特征序列对应的手语特征序列包括:
依据孪生神经网络预先建立的音素特征序列与手语特征序列的对应关系,从所述提取的音素特征序列中确定目标音素特征序列,所述目标音素序列为与所述手语特征序列匹配的音素特征序列;
由所述目标音素特征预测得到所述手语特征序列。
3.根据权利要求1或2所述的方法,其特征在于,所述提取语音的音素特征序列包括:
将所述语音转换为语谱图;
将所述语谱图作为预先训练的孪生神经网络的第一输入端的输入,得到所述孪生神经网络输出的所述音素特征序列。
4.根据权利要求2所述的方法,其特征在于,所述依据孪生神经网络预先建立的音素特征序列与手语特征的对应关系,从所述提取的音素特征序列中确定目标音素特征,由所述目标音素特征预测得到所述手语特征序列包括:
将所述音素特征序列作为预先训练的特征翻译网络的输入,得到所述特征翻译网络输出的手语特征序列;
其中,所述特征翻译网络用于:利用所述音素特征序列之间的时序关系,得到预测序列,从所述预测序列中,搜索与手语特征序列i-1的相似度满足第一预设条件的目标音素特征序列i,并依据所述目标音素特征序列i、所述目标音素特征序列的前一个音素特征序列和所述手语特征序列i-1,预测得到手语特征i,所述手语特征序列i-1为所述手语特征序列i的时序之前的一个手语特征序列。
5.根据权利要求4所述的方法,其特征在于,所述孪生神经网络和所述特征翻译网络构成手语特征预测模型;
所述手语特征预测模型的训练过程包括:
将样本语音的语谱图作为所述孪生神经网络的第一输入端的输入,将与所述样本语音对应的样本手语图作为所述孪生神经网络的第二输入端的输入,得到所述孪生神经网络输出的音素特征序列和手语特征序列;
将所述音素特征序列和所述手语特征序列作为所述特征翻译网络的输入,得到所述音素特征序列和所述手语特征序列;
搜索与手语特征序列i-1的相似度满足第三预设条件的音素特征序列,作为目标音素特征序列i;手语特征序列i-1为任意一个手语特征序列;
依据所述目标音素特征序列i、所述目标音素特征序列i的前一个音素特征序列和所述手语特征序列i-1,得到预测手语特征序列i;手语特征序列i为手语特征序列i-1的时序之后的手语特征序列;
依据手语特征预测模型的损失函数、预测手语图i和样本手语图i,训练所述手语特征预测模型。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述依据所述手语特征序列生成与所述语音对应的手语图包括:
在预设的手语图库中,按照预设的分类,检索与所述手语特征的相似度满足第四预设条件的手语图,得到所述手语图;
其中,所述预设的手语图库中的手语图按照预设规则分类,形成至少两个分类。
7.一种信息转换装置,其特征在于,包括:
提取模块,用于提取语音的音素特征;
确定模块,用于依据预设的音素特征序列与手语特征序列的对应关系,确定提取的音素特征序列对应的手语特征序列;
生成模块,用于依据所述手语特征序列生成与所述语音对应的手语图。
8.一种辅助交互系统,其特征在于,包括:
处理服务器,用于实现权利要求1-6任一项所述的方法;
用户端设备,用于接收语音,并将所述语音上传至所述处理服务器;接收并显示所述处理服务器发送的手语图。
9.根据权利要求8所述的系统,其特征在于,所述云端服务器还用于实现以下至少一项功能:
语音转写、文本到语音的转换、多语种文本和/或语音之间的相互转译、所述用户端设备的管理。
10.根据权利要求8所述的系统,其特征在于,所述用户端设备包括:控制设备和录音设备;
所述控制设备用于接收模式选择数据和待处理的数据,并依据所述模式选择数据输出所述处理服务器发送的处理结果数据;
所述录音设备用于采集作为所述待处理数据的音频信号,并播放作为音频信号的所述处理结果数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811577433.8A CN109670073B (zh) | 2018-12-20 | 2018-12-20 | 一种信息转换方法及装置、交互辅助系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811577433.8A CN109670073B (zh) | 2018-12-20 | 2018-12-20 | 一种信息转换方法及装置、交互辅助系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109670073A true CN109670073A (zh) | 2019-04-23 |
CN109670073B CN109670073B (zh) | 2021-03-23 |
Family
ID=66146005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811577433.8A Active CN109670073B (zh) | 2018-12-20 | 2018-12-20 | 一种信息转换方法及装置、交互辅助系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109670073B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457673A (zh) * | 2019-06-25 | 2019-11-15 | 北京奇艺世纪科技有限公司 | 一种自然语言转换为手语的方法及装置 |
CN111354246A (zh) * | 2020-01-16 | 2020-06-30 | 浙江工业大学 | 一种用于帮助聋哑人交流的系统及方法 |
CN113314123A (zh) * | 2021-04-12 | 2021-08-27 | 科大讯飞股份有限公司 | 语音处理方法、电子设备及存储装置 |
CN113689951A (zh) * | 2021-08-04 | 2021-11-23 | 翼健(上海)信息科技有限公司 | 一种智能导诊方法、系统和计算机可读存储介质 |
CN113314123B (zh) * | 2021-04-12 | 2024-05-31 | 中国科学技术大学 | 语音处理方法、电子设备及存储装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030223455A1 (en) * | 2002-05-29 | 2003-12-04 | Electronic Data Systems Corporation | Method and system for communication using a portable device |
CN104064187A (zh) * | 2014-07-09 | 2014-09-24 | 张江杰 | 一种哑语转换语音系统 |
CN105184778A (zh) * | 2015-08-25 | 2015-12-23 | 广州视源电子科技股份有限公司 | 一种检测方法及装置 |
CN106909625A (zh) * | 2017-01-20 | 2017-06-30 | 清华大学 | 一种基于Siamese网络的图像检索方法及系统 |
CN108427910A (zh) * | 2018-01-30 | 2018-08-21 | 浙江凡聚科技有限公司 | 深层神经网络ar手语翻译学习方法、客户端及服务器 |
CN108615009A (zh) * | 2018-04-24 | 2018-10-02 | 山东师范大学 | 一种基于动态手势识别的手语翻译交流系统 |
-
2018
- 2018-12-20 CN CN201811577433.8A patent/CN109670073B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030223455A1 (en) * | 2002-05-29 | 2003-12-04 | Electronic Data Systems Corporation | Method and system for communication using a portable device |
CN104064187A (zh) * | 2014-07-09 | 2014-09-24 | 张江杰 | 一种哑语转换语音系统 |
CN105184778A (zh) * | 2015-08-25 | 2015-12-23 | 广州视源电子科技股份有限公司 | 一种检测方法及装置 |
CN106909625A (zh) * | 2017-01-20 | 2017-06-30 | 清华大学 | 一种基于Siamese网络的图像检索方法及系统 |
CN108427910A (zh) * | 2018-01-30 | 2018-08-21 | 浙江凡聚科技有限公司 | 深层神经网络ar手语翻译学习方法、客户端及服务器 |
CN108615009A (zh) * | 2018-04-24 | 2018-10-02 | 山东师范大学 | 一种基于动态手势识别的手语翻译交流系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457673A (zh) * | 2019-06-25 | 2019-11-15 | 北京奇艺世纪科技有限公司 | 一种自然语言转换为手语的方法及装置 |
CN110457673B (zh) * | 2019-06-25 | 2023-12-19 | 北京奇艺世纪科技有限公司 | 一种自然语言转换为手语的方法及装置 |
CN111354246A (zh) * | 2020-01-16 | 2020-06-30 | 浙江工业大学 | 一种用于帮助聋哑人交流的系统及方法 |
CN113314123A (zh) * | 2021-04-12 | 2021-08-27 | 科大讯飞股份有限公司 | 语音处理方法、电子设备及存储装置 |
CN113314123B (zh) * | 2021-04-12 | 2024-05-31 | 中国科学技术大学 | 语音处理方法、电子设备及存储装置 |
CN113689951A (zh) * | 2021-08-04 | 2021-11-23 | 翼健(上海)信息科技有限公司 | 一种智能导诊方法、系统和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109670073B (zh) | 2021-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110534087B (zh) | 一种文本韵律层级结构预测方法、装置、设备及存储介质 | |
CN112185352B (zh) | 语音识别方法、装置及电子设备 | |
WO2021114841A1 (zh) | 一种用户报告的生成方法及终端设备 | |
WO2022178969A1 (zh) | 语音对话数据处理方法、装置、计算机设备及存储介质 | |
CN109961041B (zh) | 一种视频识别方法、装置及存储介质 | |
CN114298310A (zh) | 长度损失确定方法以及装置 | |
CN110795913B (zh) | 一种文本编码方法、装置、存储介质及终端 | |
CN109670073A (zh) | 一种信息转换方法及装置、交互辅助系统 | |
CN113488024B (zh) | 一种基于语义识别的电话打断识别方法和系统 | |
CN104462600A (zh) | 实现来电原因自动分类的方法及装置 | |
CN114627863A (zh) | 一种基于人工智能的语音识别方法和装置 | |
CN107316635A (zh) | 语音识别方法及装置、存储介质、电子设备 | |
JP2023535108A (ja) | ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN113314119A (zh) | 语音识别智能家居控制方法及装置 | |
JP2024512628A (ja) | キャプション生成器を生成するための方法および装置、並びにキャプションを出力するための方法および装置 | |
CN113435208A (zh) | 学生模型的训练方法、装置及电子设备 | |
CN114023309A (zh) | 语音识别系统、相关方法、装置及设备 | |
CN111933151A (zh) | 通话数据处理的方法、装置、设备及存储介质 | |
CN116189678A (zh) | 语音处理方法、装置及计算机设备 | |
CN113763925B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN109271637A (zh) | 一种语义理解方法及装置 | |
CN112002306B (zh) | 语音类别的识别方法、装置、电子设备及可读存储介质 | |
CN109285559B (zh) | 角色转换点检测方法及装置、存储介质、电子设备 | |
CN113434663A (zh) | 基于边缘计算的会议纪要生成方法及相关设备 | |
CN113792537A (zh) | 一种动作生成方法以及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |