CN108268452A - 一种基于深度学习的专业领域机器同步翻译装置及方法 - Google Patents

一种基于深度学习的专业领域机器同步翻译装置及方法 Download PDF

Info

Publication number
CN108268452A
CN108268452A CN201810063565.2A CN201810063565A CN108268452A CN 108268452 A CN108268452 A CN 108268452A CN 201810063565 A CN201810063565 A CN 201810063565A CN 108268452 A CN108268452 A CN 108268452A
Authority
CN
China
Prior art keywords
unit
module
neural network
hidden layer
wearer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810063565.2A
Other languages
English (en)
Inventor
贾子熙
李林根
李硕
崔菀清
魏凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201810063565.2A priority Critical patent/CN108268452A/zh
Publication of CN108268452A publication Critical patent/CN108268452A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于深度学习的专业领域机器同步翻译装置及方法,属于人工智能的自然语言处理领域。该装置包括可穿戴入耳式监听及录音采样器、可穿戴便携式显示处理器,可穿戴入耳式监听及录音采样器又包括声音采样单元、重力感应单元、发声单元、无线数据传输单元A、中央处理单元A和供电单元A;可穿戴便携式显示处理器包括语音识别单元、无线数据传输单元B、中央处理单元B、神经网络仿生计算单元、显示单元、视频信号处理单元和供电单元B。本发明装置作为口译人员的辅助设备能为其提供有用的帮助与提示,作为直接翻译设备能实现更加准确处理专业领域术语和较接近口译人员的翻译效果。

Description

一种基于深度学习的专业领域机器同步翻译装置及方法
技术领域
本发明属于人工智能的自然语言处理技术领域,涉及一种基于深度学习的专业领域机器同步翻译装置及方法,适用于对翻译有一定实时性和专业性要求的专业领域会议,如政治领域新闻发布会或计算机领域学术交流会议等,同时也适用于日常的对话实时翻译。
背景技术
随着科学技术的发展和经济全球化,无论是在日常生活中还是学术领域沟通上,国际交流沟通已经是一个几乎每个人都有过的经历,但跨语言交流场景对参与者的多语言水平要求较高,交流参与者通常会借助词典或是翻译软件甚至口译员进行跨语言交流。于是在这样的需求背景下,近年来便携式机器翻译设备应运而生。但是,现有的传统式便携式机器翻译设备需要佩戴者和翻译设备进行半双工式交流,即当佩戴者想要进行翻译时,需要佩戴者按下按钮,并说出一句话,同时等待设备翻译并反馈结果后,再说出下一句话进行翻译,如此往复进行会话翻译或陈述翻译。这样的机器翻译设备的实时性很多时候并不能满足一些如会议或者课堂的同步翻译或口译的需求。而且在涉及专业领域的会议或课堂等的使用场景里,传统机器翻译设备不论在翻译专业词汇的准确度上还是在处理一些特定语句的语序上的表现都不能够令人满意。
虽然一些对翻译质量要求较高的场合仍然需要同声传译人员进行人工翻译,但是在这类场合下,人工译员是在接近满负荷状态(Tightrope Hypothesis)下工作的,随时有可能由于各种原因导致同传中的漏译或是错译。同时,发言者的话语中有着大量的专业词汇和大量的口语体,甚至是引经据典,这都是同传人员将要面临的困难。若在上述场景中将一种效果良好的机器实时翻译的结果与语音识别结果同时作为一个辅助提示实时反馈给口译人员,将一定程度上降低口译人员的翻译难度,减少漏译及误译现象的发生,同时还可以适当降低翻译成本。但是传统的机器翻译对于口语体和专业领域词汇的处理尤其不理想,如果作为辅助的机器翻译结果中仍有相当程度之误译,接收提示的口译人员就必须花费更多的时间,先根据原文了解文意,再对照机器翻译稿,分辨正确和错误的翻译,这样的辅助设备对于同声传译译员来说更可能是干扰而非帮助。而一个实时或准实时的、且经过专业领域优化的机器翻译设备则可以更好地解决上述问题。
本发明将推动同声传译从译员同传(Human SI)向机辅同传(Computer-aidedSI),再向最终的机器口译(Machine SI)发展。基于深度学习来一方面解决译员在同声传译现场出现的听不懂、记不住、译不出的困难,提高术语和固有表达的双语转换正确率,另一方面译员可以根据机器翻译在线即时进行译后编辑,提高译语的信息量,而且在一些场景能够替代译员实现延时一秒以内的准实时的同声传译功能。
发明内容
针对自然语言处理和机器翻译技术,需要在提高翻译在专业领域的准确率的同时加快翻译速度与翻译实时性,本发明提供一种基于深度学习的专业领域机器同步翻译装置及方法。相比现有的传统机器翻译装置,本发明提供的翻译装置在实时性和对于专业领域表达用语的处理上效果更佳,符合口译人员的需求,可以作为其口译时的辅助设备。同时在对翻译精度没有绝对准确要求的翻译场合下则可以直接使用本装置进行翻译,使用方便快捷。
本发明的技术方案:
一种基于深度学习的专业领域机器同步翻译装置,包括可穿戴入耳式监听及录音采样器、可穿戴便携式显示处理器;
所述的可穿戴入耳式监听及录音采样器包括声音采样单元、重力感应单元、发声单元、无线数据传输单元A、中央处理单元A和供电单元A;其中,重力感应单元为加速度传感器,用于检测佩戴者的佩戴行为和发声状态,并用于感应佩戴者的操作手势;声音采样单元包含传声器A(靠近佩戴者口部的传声器)、传声器B(远离佩戴者口部的传声器)和噪音过滤器,传声器用于捕获外界声音,噪音过滤器将两个传声器接收到的声音信号进行抵消和放大处理,滤去部分环境噪音和发声单元正在发出的声音;发声单元为动圈发声器,用于向佩戴者反馈语音的翻译结果;无线数据传输单元A为蓝牙传输芯片A,以实现与显示单元进行数据通信;中央处理单元A为嵌入式为场景设计功耗(SDP)0.5W-1W的超低功耗中央处理器,用于控制和协调各个单元间的操作;供电单元A为微型稳压锂电池A,在保证能为可穿戴入耳式监听及录音采样器稳定供电的同时保持其便携性;
所述的可穿戴便携式显示处理器包括语音识别单元、无线数据传输单元B、中央处理单元B、神经网络仿生计算单元、显示单元、视频信号处理单元和供电单元B;其中,无线数据传输单元B包含蓝牙传输芯片B、无线局域网(WLAN)传输芯片和4G-LTE通信芯片,蓝牙传输芯片B用于和可穿戴入耳式监听及录音采样器进行数据通信,无线局域网传输芯片和4G-LTE通信芯片用于提供装置与云计算服务器之间的通信途径;中央处理单元B为场景设计功耗(SDP)2W-10W的低功耗中央处理器,用于控制和协调可穿戴便携式显示处理器内各个单元间的工作和数据信号的收发;显示单元包括LED显示面板和电容触控面板,用于向佩戴者显示识别和翻译的结果并提供人机交互方式;视频信号处理单元为图形处理器,用于控制显示单元并生成HDMI视频数字信号以向投影仪或外接显示器实时投影识别和翻译的结果;供电单元B为微型稳压锂电池B,为可穿戴便携式显示处理器稳定供电;
所述的语音识别单元包含数据缓冲模块、断句模块、语音转文本模块和文本优化模块;数据缓冲模块用于缓存来自声音采样单元采集到的音频数据流;断句模块用于根据佩戴者的讲话停顿间隔将佩戴者讲话的连续音频数据切分成多个单句的音频数据;语音转文本模块用于接收来自断句模块的音频数据流,并将音频数据流转换成和说话人的同种语言的文本信息;文本优化模块用于接收来自语音转文本模块的文本信息,并对文本信息添加标点符号,删去口语中无意义或重复的部分(如“嗯”、“啊”等),同时对文本进行分词,以提升后续翻译工作的准确度;
所述的神经网络仿生计算单元包括预翻译模块和专业领域表达微调模块;所述的预翻译模块用于接收语音识别单元传来的文本信息,将文本信息向目标语言进行初步翻译,得到初步翻译结果;预翻译模块包括编码器A、解码器A和注意力模块A;其中编码器A和解码器A各包括一个循环神经网络,每个循环神经网络采用LSTM(长短期记忆)网络,一个LSTM网络包含4层神经网络层,每一层包括1024个神经元;所述的编码器A用于将源语言语句转换成隐层状态向量列表;解码器A用于将隐层状态向量列表转换为目标语言的语句;注意力模块A用于在解码器的转换过程中优化其转换工作,以达到关注上下文的效果;所述的专业领域表达微调模块用于将预翻译模块得到的初步翻译结果调整成为更符合口译要求的结果,包括编码器B、解码器B、注意力模块B,其中编码器B和解码器B各包括两个循环神经网络;编码器B用于将预翻译语句转换成隐层状态向量列表;解码器B用于将隐层状态向量列表转换为根据专业领域微调后的语句;注意力模块B用于在解码器的转换过程中优化其转换工作,以达到关注上下文的效果。
一种基于深度学习的专业领域机器同步翻译方法,步骤如下:
步骤1,佩戴者使用前,先在Linux系统下基于TensorFlow平台搭建预翻译神经网络模型和专业领域表达微调神经网络模型,然后分别置入神经网络仿生单元中的预翻译模块和专业领域表达微调模块中;神经网络模型的建立方法如下:
步骤1-1,建立预翻译神经网络模型;预翻译神经网络模型利用NMT(神经机器翻译)方法建立,并使用大规模的从源语言到目标语言的平行语料对其进行训练,得到一个训练好的预翻译神经网络模型;
步骤1-2,建立专业领域表达微调神经网络模型:首先在预翻译神经网络模型的目标语言词汇表的基础上加入专业领域的罕见词汇,形成专业词汇表,该专业词汇表作为专业领域表达微调神经网络模型的目标语言词汇表;然后使用TensorFlow平台搭建基于LSTM的神经网络模型,并利用大规模的预翻译结果-人工专业翻译结果语料对基于LSTM的神经网络模型进行训练,得到一个训练好的专业领域表达微调神经网络模型;其中,基于LSTM的神经网络模型的搭建方法如下:
步骤1-2-1,编码器B依次读取语句x中分好的第t个词xt,同时对当前的词语产生编码隐层状态向量ht,然后将所有的隐层状态向量ht(t=1,2,…,n)进行拼接得到编码隐层状态向量列表(h1,h2,…,hn);编码隐层状态向量ht的计算方式如下:
it=σ(W(i)xt+U(i)ht-1)
ft=σ(W(f)xt+U(f)ht-1)
ot=σ(W(o)xt+U(o)ht-1)
其中,xt为语句中的第t个词,ht为编码器对应的第t个编码隐层状态向量,ht-1是编码器读取上一个词语时的编码隐层状态向量;σ(·)为非线性变换函数,tanh(·)为双曲正切函数;W(i),W(f),W(o),W(c),U(i),U(f),U(o),U(c)皆为LSTM模型计算过程中待训练的权值参数,角标i,f,o,c分别表示符号属于输入门、遗忘门、输出门和神经元记忆的计算参数;it,ft,ot,ct皆为模型计算过程的中间变量,分别表示LSTM单元的输入门的输出,遗忘门的输出,输出门的输出,新记忆和最终记忆;°符号表示乘积;
步骤1-2-2,注意力模块B配合解码器B进行解码,首先解码器B逐项读取编码器B输出的编码隐层状态向量列表,并对于编码隐层状态向量列表中的每一项产生一个解码隐层状态向量si;然后将所有解码隐层状态向量si(i=1,2,…,n)进行拼接得到解码隐层状态向量列表(s1,s2,…,sn);
在解码过程中,解码器B通过编码隐层状态向量列表(h1,h2,…,hn)和其已经解码生成的输出序列(y1,y2,…yi-1)来预测下一个输出的单词yi;由于有注意力模块B的存在,解码器B会有侧重地关注编码器B产生的隐层状态;隐层状态向量si的计算方法如下:
zi=[yi-1;bi]
ii=σ(W(i)zi+U(i)si-1)
fi=σ(W(f)zi+U(f)si-1)
oi=σ(W(o)zi+U(o)si-1)
其中,yi-1为解码过程中第i-1个词,即已经输出的上一个词,si为解码器B对应的第i个隐层状态向量,si-1是解码器B生成上一个词语时的隐层状态向量;σ(·)为非线性变换函数,tanh(·)为双曲正切函数;W(i),W(f),W(o),W(c),U(i),U(f),U(o),U(c)皆为LSTM模型计算过程中待训练的权值参数,其中角标i,f,o,c分别表示符号属于输入门、遗忘门、输出门和神经元记忆的计算参数;其中zi,ii,fi,oi,ci皆为模型计算过程的中间变量,分别表示LSTM单元的来自注意力机制的输入,输入门的输出,遗忘门的输出,输出门的输出,新记忆和最终记忆;[;]符号表示向量元素的拼接;其中bi为当前解码器B输出词与编码器端每个词对应关系的数学表示,通过注意力机制的方式计算:
其中,eit,ait皆为模型计算过程的中间变量;为注意力模型参数,exp(·)为指数函数,j为作为起迭代作用的临时变量;σ(·)为非线性变换函数,tanh(·)为双曲正切函数;
步骤1-2-3,模型根据步骤1-2-2得到的解码隐层状态向量列表(s1,s2,…,sn)对应其目标语言词汇表生成目标端的词语,输出最终翻译结果;得到基于LSTM的神经网络模型;
步骤2,可穿戴便携式显示处理器的中央处理单元B控制显示单元向佩戴者展示设置选项,佩戴者选择翻译源语言和目标语言后,中央处理单元B通过控制无线数据传输单元B的蓝牙传输芯片B与可穿戴入耳式监听及录音采样器建立连接,以通知其进入工作状态;可穿戴入耳式监听及录音采样器通过其无线传输单元接收到来自可穿戴便携式显示处理器的连接请求后进入工作状态,其重力感应单元利用加速度传感器实时获取设备的加速度,当设备收到两次横向加速度改变时(即佩戴者轻敲耳中的设备时),声音采样单元将开始工作,即此时装置已启动监听状态;供电单元A为可穿戴入耳式监听及录音采样器稳定供电;
步骤3,可穿戴入耳式监听及录音采样器中的传声器A(靠近佩戴者口部的传声器)和传声器B(远离佩戴者口部的传声器)将声音采样后,分别得到音频信号DA和DB,得到DA和DB的同时将其输入噪音过滤器,噪音过滤器以差分放大器的方式将信号DA和信号DB相减,得到降低环境噪音的信号DC,并将DC进行信号放大处理,然后信号DC被传输到中央处理器A中,中央处理单元A通过基于软件的数模信号转换方法将模拟信号DC转换为数字信号,并将得到的数字信号传送到无线数据传输单元A的蓝牙传输芯片A中,蓝牙传输芯片A将收到的信号以音频数据流的形式传输到可穿戴便携式显示处理器的语音识别单元;
步骤4,首先语音识别单元将收到的音频信息,利用断句模块根据佩戴者的讲话停顿间隔将佩戴者讲话的连续音频数据切分成多个单句的音频数据,其次利用语音转文本模块将音频数据流转换成和说话人的同种语言的文本信息,最后利用文本优化模块用于接收来自语音转文本模块的文本信息,并对文本信息添加标点符号,删去口语中无意义或重复的部分(如“嗯”、“啊”等),同时对文本进行分词;随后将文本信息以流的形式传入到神经网络仿生计算单元;
步骤5,在网络状态良好的情况下,中央处理器将通过云计算的方式,利用无线局域网(WLAN)传输芯片和/或4G-LTE通信芯片与具备强大计算能力的服务器进行连接,使其运行步骤1中训练好的模型以进行翻译;在离线状态下,则由本地的神经网络仿生单元利用步骤1中训练好的深度学习模型进行翻译;
步骤6,翻译后的文本将传输至可穿戴便携式显示处理器的中央处理单元B,中央处理单元B控制视频信号处理单元将视频数字信号传输到显示单元和HDMI输出端;显示单元利用LED显示面板根据得到的视频数字信号实时显示识别和翻译的结果;HDMI输出端将视频信号输出到外接的显示器或者投影仪等设备上;同时,可穿戴便携式显示处理器的中央处理单元B将翻译后的文本通过开源TTS方法生成语音音频数据,由无线数据传输单元B的蓝牙传输芯片B传输到可穿戴入耳式监听及录音采样器的无线数据传输单元A中,无线数据传输单元A接收到音频数据后,将其传递给中央处理单元A,中央处理单元A通过基于软件的数模信号转换方法将数字信号转换为模拟信号并传送到发声单元,发声单元中的动圈发声器通过振动发声将语音翻译结果以声音的形式反馈给其佩戴者,供电单元B为可穿戴便携式显示处理器稳定供电。
本发明的有益效果:本发明是基于深度学习算法理论,在不断学习翻译质量极高的高级译员的经验条件下,充分训练。区别于传统机器口译方式,本发明在语音识别处理上更适合口语、预翻译后会针对专业领域进行翻译结果微调,同时结合可穿戴式装置的交互特性,使装置作为口译人员的辅助设备能为其提供有用的帮助与提示,或作为直接翻译设备能实现更加准确地处理专业领域术语,更接近口译人员的翻译效果。
附图说明
图1为本发明装置组成结构图。
具体实施方式
以下结合技术方案和附图详细叙述本发明的具体实施例。
一种基于深度学习的专业领域机器同步翻译装置,包括可穿戴入耳式监听及录音采样器、可穿戴便携式显示处理器;
所述的可穿戴入耳式监听及录音采样器包括声音采样单元、重力感应单元、发声单元、无线数据传输单元A、中央处理单元A和供电单元A;其中,重力感应单元为加速度传感器,用于检测佩戴者的佩戴行为和发声状态,并用于感应佩戴者的操作手势;声音采样单元包含传声器A(靠近佩戴者口部的传声器)、传声器B(远离佩戴者口部的传声器)和一个噪音过滤器,传声器用于捕获外界声音,噪音过滤器将两个传声器接收到的声音信号进行抵消和放大处理,滤去部分环境噪音和发声单元正在发出的声音;发声单元为动圈发声器,用于向佩戴者反馈语音的翻译结果;无线数据传输单元A为蓝牙传输芯片A,以实现与显示处理模块进行数据通信;中央处理单元A为嵌入式为场景设计功耗(SDP)0.5W-1W的超低功耗中央处理器,用于控制和协调各个单元间的操作;供电单元A为微型稳压锂电池A,在保证能为可穿戴入耳式监听及录音采样器稳定供电的同时保持其便携性;
所述的可穿戴便携式显示处理器包括语音识别单元、无线数据传输单元B、中央处理单元B、神经网络仿生计算单元、显示单元、视频信号处理单元和供电单元B;其中,无线数据传输单元B包含蓝牙传输芯片B、无线局域网(WLAN)传输芯片和4G-LTE通信芯片,蓝牙传输芯片B用于和可穿戴入耳式监听及录音采样器进行数据通信,无线局域网传输芯片和4G-LTE通信芯片用于提供装置与云计算服务器之间的通信途径;中央处理单元B为场景设计功耗(SDP)2W-10W的低功耗中央处理器,用于控制和协调模块内各个单元间的工作和数据信号的收发;显示单元包括LED显示面板和电容触控面板,用于向佩戴者显示识别和翻译的结果并提供人机交互方式;视频信号处理单元为图形处理器,用于控制显示单元并生成HDMI视频数字信号以向投影仪或外接显示器实时投影识别和翻译的结果;供电单元B为微型稳压锂电池B,为可穿戴便携式显示处理器稳定供电;
所述的语音识别单元包含数据缓冲模块、断句模块、语音转文本模块和文本优化模块;数据缓冲模块用于缓存来自声音采样单元采集到的音频数据流;断句模块用于根据佩戴者的讲话停顿间隔将佩戴者讲话的连续音频数据切分成多个单句的音频数据;语音转文本模块用于接收来自断句模块的音频数据流,并将音频数据流转换成和说话人的同种语言的文本信息;文本优化模块用于接收来自语音转文本模块的文本信息,并对文本信息添加标点符号,删去口语中无意义或重复的部分(如“嗯”、“啊”等),同时对文本进行分词,以提升后续翻译工作的准确度;
所述的神经网络仿生计算单元中的神经网络模型包括预翻译模块和专业领域表达微调模块;所述的预翻译模块用于接收语音识别单元传来的文本信息,将文本信息向目标语言进行初步翻译,得到初步翻译结果;预翻译模块包括编码器A、解码器A和注意力模块A;其中编码器A和解码器A各包括一个循环神经网络,每个循环神经网络采用LSTM(长短期记忆)网络,一个LSTM网络包含4层神经网络层,每一层包括1024个神经元;所述的编码器A用于将源语言语句转换成隐层状态向量列表;解码器A用于将隐层状态向量列表转换为目标语言的语句;注意力模块A用于在解码器的转换过程中优化其转换工作,以达到关注上下文的效果;所述的专业领域表达微调模块用于将预翻译模块得到的初步翻译结果调整成为更符合口译要求的结果,包括编码器B、解码器B、注意力模块B,其中编码器B和解码器B各包括两个循环神经网络;编码器B用于将预翻译语句转换成隐层状态向量列表;解码器B用于将隐层状态向量列表转换为根据专业领域微调后的语句;注意力模块B用于在解码器的转换过程中优化其转换工作,以达到关注上下文的效果。
一种基于深度学习的专业领域机器同步翻译方法,步骤如下:
步骤1,佩戴者使用前,先在Linux系统下基于TensorFlow平台搭建预翻译神经网络模型和专业领域表达微调神经网络模型,然后分别置入神经网络仿生单元中的预翻译模块和专业领域表达微调模块中;神经网络模型的建立方法如下:
步骤1-1,建立预翻译神经网络模型;预翻译神经网络模型利用NMT(神经机器翻译)方法建立,并使用大规模的从源语言到目标语言的平行语料对其进行训练,得到一个训练好的预翻译神经网络模型;
步骤1-2,建立专业领域表达微调神经网络模型:首先在预翻译神经网络模型的目标语言词汇表的基础上加入专业领域的罕见词汇,形成专业词汇表,该专业词汇表作为专业领域表达微调神经网络模型的目标语言词汇表;然后使用TensorFlow平台搭建基于LSTM的神经网络模型,并利用大规模的预翻译结果-人工专业翻译结果语料对基于LSTM的神经网络模型进行训练,得到一个训练好的专业领域表达微调神经网络模型;其中,基于LSTM的神经网络模型的搭建方法如下:
步骤1-2-1,编码器B依次读取语句x中分好的第t个词xt,同时对当前的词语产生编码隐层状态向量ht,然后将所有的隐层状态向量ht(t=1,2,…,n)进行拼接得到编码隐层状态向量列表(h1,h2,…,hn);编码隐层状态向量ht的计算方式如下:
it=σ(W(i)xt+U(i)ht-1)
ft=σ(W(f)xt+U(f)ht-1)
ot=σ(W(o)xt+U(o)ht-1)
其中,xt为语句中的第t个词,ht为编码器对应的第t个编码隐层状态向量,ht-1是编码器读取上一个词语时的编码隐层状态向量;σ(·)为非线性变换函数,tanh(·)为双曲正切函数;W(i),W(f),W(o),W(c),U(i),U(f),U(o),U(c)皆为LSTM模型计算过程中待训练的权值参数,角标i,f,o,c分别表示符号属于输入门、遗忘门、输出门和神经元记忆的计算参数;it,ft,ot,ct皆为模型计算过程的中间变量,分别表示LSTM单元的输入门的输出,遗忘门的输出,输出门的输出,新记忆和最终记忆;°符号表示乘积;
步骤1-2-2,注意力模块B配合解码器B进行解码,首先解码器B逐项读取编码器B输出的编码隐层状态向量列表,并对于编码隐层状态向量列表中的每一项产生一个解码隐层状态向量si;然后将所有解码隐层状态向量si(i=1,2,…,n)进行拼接得到解码隐层状态向量列表(s1,s2,…,sn);
在解码过程中,解码器B通过编码隐层状态向量列表(h1,h2,…,hn)和其已经解码生成的输出序列(y1,y2,…yi-1)来预测下一个输出的单词yi;由于有注意力模块B的存在,解码器B会有侧重地关注编码器B产生的隐层状态;隐层状态向量si的计算方法如下:
zi=[yi-1;bi]
ii=σ(W(i)zi+U(i)si-1)
fi=σ(W(f)zi+U(f)si-1)
oi=σ(W(o)zi+U(o)si-1)
其中,yi-1为解码过程中第i-1个词,即已经输出的上一个词,si为解码器B对应的第i个隐层状态向量,si-1是解码器B生成上一个词语时的隐层状态向量;σ(·)为非线性变换函数,tanh(·)为双曲正切函数;W(i),W(f),W(o),W(c),U(i),U(f),U(o),U(c)皆为LSTM模型计算过程中待训练的权值参数,其中角标i,f,o,c分别表示符号属于输入门、遗忘门、输出门和神经元记忆的计算参数;其中zi,ii,fi,oi,ci皆为模型计算过程的中间变量,分别表示LSTM单元的来自注意力机制的输入,输入门的输出,遗忘门的输出,输出门的输出,新记忆和最终记忆;[;]符号表示向量元素的拼接;其中bi为当前解码器B输出词与编码器端每个词对应关系的数学表示,通过注意力机制的方式计算:
其中,eit,ait皆为模型计算过程的中间变量;为注意力模型参数,exp(·)为指数函数,j为作为起迭代作用的临时变量;σ(·)为非线性变换函数,tanh(·)为双曲正切函数;
步骤1-2-3,模型根据步骤1-2-2得到的解码隐层状态向量列表(s1,s2,…,sn)对应其目标语言词汇表生成目标端的词语,输出最终翻译结果;得到基于LSTM的神经网络模型;
步骤2,可穿戴便携式显示处理器的中央处理单元B控制显示单元向佩戴者展示设置选项,佩戴者选择翻译源语言和目标语言后,中央处理单元B通过控制无线数据传输单元B的蓝牙传输芯片B与可穿戴入耳式监听及录音采样器建立连接,以通知其进入工作状态;可穿戴入耳式监听及录音采样器通过其无线传输单元接收到来自可穿戴便携式显示处理器的连接请求后进入工作状态,其重力感应单元利用加速度传感器实时获取设备的加速度,当设备收到两次横向加速度改变时(即佩戴者轻敲耳中的设备时),声音采样单元将开始工作,即此时装置已启动监听状态;供电单元A为可穿戴入耳式监听及录音采样器稳定供电;
步骤3,可穿戴入耳式监听及录音采样器中的传声器A(靠近佩戴者口部的传声器)和传声器B(远离佩戴者口部的传声器)将声音采样后,分别得到音频信号DA和DB,得到DA和DB的同时将其输入噪音过滤器,噪音过滤器以差分放大器的方式将信号DA和信号DB相减,得到降低环境噪音的信号DC,并将DC进行信号放大处理,然后信号DC被传输到中央处理器A中,中央处理单元A通过基于软件的数模信号转换方法将模拟信号DC转换为数字信号,并将得到的数字信号传送到无线数据传输单元A的蓝牙传输芯片A中,蓝牙传输芯片A将收到的信号以音频数据流的形式传输到可穿戴便携式显示处理器的语音识别单元;
步骤4,首先语音识别单元将收到的音频信息,利用断句模块根据佩戴者的讲话停顿间隔将佩戴者讲话的连续音频数据切分成多个单句的音频数据,其次利用语音转文本模块将音频数据流转换成和说话人的同种语言的文本信息,最后利用文本优化模块用于接收来自语音转文本模块的文本信息,并对文本信息添加标点符号,删去口语中无意义或重复的部分(如“嗯”、“啊”等),同时对文本进行分词;随后将文本信息以流的形式传入到神经网络仿生计算单元;
步骤5,在网络状态良好的情况下,中央处理器将通过云计算的方式,利用无线局域网(WLAN)传输芯片和/或4G-LTE通信芯片与具备强大计算能力的服务器进行连接,使其运行步骤1中训练好的模型以进行翻译;在离线状态下,则由本地的神经网络仿生单元利用步骤1中训练好的深度学习模型进行翻译;
步骤6,翻译后的文本将传输至可穿戴便携式显示处理器的中央处理单元B,中央处理单元B控制视频信号处理单元将视频数字信号传输到显示单元和HDMI输出端;显示单元利用LED显示面板根据得到的视频数字信号实时显示识别和翻译的结果;HDMI输出端将视频信号输出到外接的显示器或者投影仪等设备上;同时,可穿戴便携式显示处理器的中央处理单元B将翻译后的文本通过开源TTS方法生成语音音频数据,由无线数据传输单元B的蓝牙传输芯片B传输到可穿戴入耳式监听及录音采样器的无线数据传输单元A中,无线数据传输单元A接收到音频数据后,将其传递给中央处理单元A,中央处理单元A通过基于软件的数模信号转换方法将数字信号转换为模拟信号并传送到发声单元,发声单元中的动圈发声器通过振动发声将语音翻译结果以声音的形式反馈给其佩戴者,供电单元B为可穿戴便携式显示处理器稳定供电。

Claims (2)

1.一种基于深度学习的专业领域机器同步翻译装置,其特征在于,包括可穿戴入耳式监听及录音采样器、可穿戴便携式显示处理器;
所述的可穿戴入耳式监听及录音采样器包括声音采样单元、重力感应单元、发声单元、无线数据传输单元A、中央处理单元A和供电单元A;其中,重力感应单元为加速度传感器,用于检测佩戴者的佩戴行为和发声状态,并用于感应佩戴者的操作手势;声音采样单元包含传声器A、传声器B和噪音过滤器,传声器用于捕获外界声音,噪音过滤器将两个传声器接收到的声音信号进行抵消和放大处理,滤去部分环境噪音和发声单元正在发出的声音;发声单元为动圈发声器,用于向佩戴者反馈语音的翻译结果;无线数据传输单元A为蓝牙传输芯片A,以实现与显示单元进行数据通信;中央处理单元A为中央处理器,用于控制和协调各个单元间的操作;供电单元A为微型稳压锂电池A;所述的传声器A靠近佩戴者口部,所述的传声器B远离佩戴者口部;
所述的可穿戴便携式显示处理器包括语音识别单元、无线数据传输单元B、中央处理单元B、神经网络仿生计算单元、显示单元、视频信号处理单元和供电单元B;其中,无线数据传输单元B包含蓝牙传输芯片B、无线局域网传输芯片和4G-LTE通信芯片,蓝牙传输芯片B用于和可穿戴入耳式监听及录音采样器进行数据通信,无线局域网传输芯片和4G-LTE通信芯片用于提供装置与云计算服务器之间的通信途径;中央处理单元B为中央处理器,用于控制和协调可穿戴便携式显示处理器内各个单元间的工作和数据信号的收发;显示单元包括LED显示面板和电容触控面板,用于向佩戴者显示识别和翻译的结果并提供人机交互方式;视频信号处理单元为图形处理器,用于控制显示单元并生成HDMI视频数字信号,并向投影仪或外接显示器实时投影识别和翻译的结果;供电单元B为微型稳压锂电池B,为可穿戴便携式显示处理器稳定供电;
所述的语音识别单元包含数据缓冲模块、断句模块、语音转文本模块和文本优化模块;数据缓冲模块用于缓存来自声音采样单元采集到的音频数据流;断句模块用于根据佩戴者的讲话停顿间隔,将佩戴者讲话的连续音频数据流切分成多个单句的音频数据;语音转文本模块用于接收来自断句模块的音频数据,并将音频数据转换成与佩戴者同种语言的文本信息;文本优化模块用于接收来自语音转文本模块的文本信息,并对文本信息添加标点符号,删去口语中无意义或重复的部分,同时对文本信息进行分词,以提升后续翻译工作的准确度;
所述的神经网络仿生计算单元包括预翻译模块和专业领域表达微调模块;所述的预翻译模块用于接收语音识别单元传来的文本信息,将文本信息向目标语言进行初步翻译,得到初步翻译结果;预翻译模块包括编码器A、解码器A和注意力模块A;其中,编码器A和解码器A各包括一个循环神经网络,每个循环神经网络采用LSTM网络,一个LSTM网络包含4层神经网络层,每一层包括1024个神经元;所述的编码器A用于将源语言语句转换成隐层状态向量列表;解码器A用于将隐层状态向量列表转换为目标语言的语句;注意力模块A用于在解码器A的转换过程中优化其转换工作,以达到关注上下文的效果;所述的专业领域表达微调模块用于将预翻译模块得到的初步翻译结果调整成为更符合口译要求的结果,包括编码器B、解码器B和注意力模块B;其中,编码器B和解码器B各包括两个循环神经网络;编码器B用于将预翻译语句转换成隐层状态向量列表;解码器B用于将隐层状态向量列表转换为根据专业领域微调后的语句;注意力模块B用于在解码器的转换过程中优化其转换工作,以达到关注上下文的效果。
2.一种基于深度学习的专业领域机器同步翻译方法,其特征在于,步骤如下:
步骤1,佩戴者使用前,先在Linux系统下基于TensorFlow平台搭建预翻译神经网络模型和专业领域表达微调神经网络模型,然后分别置入神经网络仿生单元中的预翻译模块和专业领域表达微调模块中;神经网络模型的建立方法如下:
步骤1-1,建立预翻译神经网络模型;预翻译神经网络模型利用神经机器翻译方法建立,并使用大规模的从源语言到目标语言的平行语料对其进行训练,得到一个训练好的预翻译神经网络模型;
步骤1-2,建立专业领域表达微调神经网络模型;首先在预翻译神经网络模型的目标语言词汇表的基础上加入专业领域词汇,形成专业词汇表,该专业词汇表作为专业领域表达微调神经网络模型的目标语言词汇表;然后使用TensorFlow平台搭建基于LSTM的神经网络模型,并利用大规模的预翻译结果-人工专业翻译结果语料对基于LSTM的神经网络模型进行训练,得到一个训练好的专业领域表达微调神经网络模型;其中,基于LSTM的神经网络模型的搭建方法如下:
步骤1-2-1,编码器B依次读取语句x中分好的第t个词xt,同时对当前的词语产生编码隐层状态向量ht,然后将所有的隐层状态向量ht进行拼接得到编码隐层状态向量列表(h1,h2,…,hn),t=1,2,…,n;编码隐层状态向量ht的计算方式如下:
it=σ(W(i)xt+U(i)ht-1)
ft=σ(W(f)xt+U(f)ht-1)
ot=σ(W(o)xt+U(o)ht-1)
其中,xt为语句中的第t个词,ht为编码器对应的第t个编码隐层状态向量,ht-1是编码器读取上一个词语时的编码隐层状态向量;σ(·)为非线性变换函数,tanh(·)为双曲正切函数;W(i),W(f),W(o),W(c),U(i),U(f),U(o),U(c)皆为LSTM模型计算过程中待训练的权值参数,角标i,f,o,c分别表示符号属于输入门、遗忘门、输出门和神经元记忆的计算参数;it,ft,ot,ct皆为模型计算过程的中间变量,分别表示LSTM单元的输入门的输出,遗忘门的输出,输出门的输出,新记忆和最终记忆;°符号表示乘积;
步骤1-2-2,注意力模块B配合解码器B进行解码,首先解码器B逐项读取编码器B输出的编码隐层状态向量列表,并对于编码隐层状态向量列表中的每一项产生一个解码隐层状态向量si;然后将所有解码隐层状态向量si(i=1,2,…,n)进行拼接得到解码隐层状态向量列表(s1,s2,…,sn);
在解码过程中,解码器B通过编码隐层状态向量列表(h1,h2,…,hn)和其已经解码生成的输出序列(y1,y2,…yi-1)来预测下一个输出的单词yi;由于有注意力模块B的存在,解码器B侧重地关注编码器B产生的隐层状态;隐层状态向量si的计算方法如下:
zi=[yi-1;bi]
ii=σ(W(i)zi+U(i)si-1)
fi=σ(W(f)zi+U(f)si-1)
oi=σ(W(o)zi+U(o)si-1)
其中,yi-1为解码过程中第i-1个词,即已经输出的上一个词,si为解码器B对应的第i个隐层状态向量,si-1是解码器B生成上一个词语时的隐层状态向量;σ(·)为非线性变换函数,tanh(·)为双曲正切函数;
W(i),W(f),W(o),W(c),U(i),U(f),U(o),U(c)皆为LSTM模型计算过程中待训练的权值参数,其中角标i,f,o,c分别表示符号属于输入门、遗忘门、输出门和神经元记忆的计算参数;其中zi,ii,fi,oi,ci皆为模型计算过程的中间变量,分别表示LSTM单元的来自注意力机制的输入,输入门的输出,遗忘门的输出,输出门的输出,新记忆和最终记忆;[;]符号表示向量元素的拼接;其中bi为当前解码器B输出词与编码器端每个词对应关系的数学表示,通过注意力机制的方式计算:
其中,eit,ait皆为模型计算过程的中间变量;为注意力模型参数,exp(·)为指数函数,j为作为起迭代作用的临时变量;σ(·)为非线性变换函数,tanh(·)为双曲正切函数;
步骤1-2-3,模型根据步骤1-2-2得到的解码隐层状态向量列表(s1,s2,…,sn)对应其目标语言词汇表生成目标端的词语,输出最终翻译结果;得到基于LSTM的神经网络模型;
步骤2,可穿戴便携式显示处理器的中央处理单元B控制显示单元向佩戴者展示设置选项,佩戴者选择翻译源语言和目标语言后,中央处理单元B通过控制无线数据传输单元B的蓝牙传输芯片B与可穿戴入耳式监听及录音采样器建立连接,以通知其进入工作状态;可穿戴入耳式监听及录音采样器通过其无线传输单元接收到来自可穿戴便携式显示处理器的连接请求后进入工作状态,其重力感应单元利用加速度传感器实时获取设备的加速度,当设备收到两次横向加速度改变时,声音采样单元将开始工作,即此时装置已启动监听状态;供电单元A为可穿戴入耳式监听及录音采样器稳定供电;
步骤3,可穿戴入耳式监听及录音采样器中的传声器A和传声器B分别采集靠近佩戴者口部和远离佩戴者口部的声音,并形成音频信号DA和DB,得到DA和DB的同时将其输入噪音过滤器,噪音过滤器以差分放大器的方式将信号DA和信号DB相减,得到降低环境噪音的信号DC,并将DC进行信号放大处理,然后信号DC被传输到中央处理器A中,中央处理单元A通过基于软件的数模信号转换方法将模拟信号DC转换为数字信号,并将得到的数字信号传送到无线数据传输单元A的蓝牙传输芯片A中,蓝牙传输芯片A将收到的信号以音频数据流的形式传输到可穿戴便携式显示处理器的语音识别单元;
步骤4,首先语音识别单元将收到的音频信息,利用断句模块根据佩戴者的讲话停顿间隔将佩戴者讲话的连续音频数据切分成多个单句的音频数据,其次利用语音转文本模块将音频数据流转换成和说话人的同种语言的文本信息,最后利用文本优化模块用于接收来自语音转文本模块的文本信息,并对文本信息添加标点符号,删去口语中无意义或重复的部分,同时对文本进行分词;随后将文本信息以流的形式传入到神经网络仿生计算单元;
步骤5,在网络状态良好的情况下,中央处理器将通过云计算的方式,利用无线局域网传输芯片和/或4G-LTE通信芯片与具备强大计算能力的服务器进行连接,使其运行步骤1中训练好的模型以进行翻译;在离线状态下,则由本地的神经网络仿生单元利用步骤1中训练好的深度学习模型进行翻译;
步骤6,翻译后的文本将传输至可穿戴便携式显示处理器的中央处理单元B,中央处理单元B控制视频信号处理单元将视频数字信号传输到显示单元和HDMI输出端;显示单元利用LED显示面板根据得到的视频数字信号实时显示识别和翻译的结果;HDMI输出端将视频信号输出到外接的显示器或者投影仪等设备上;同时,可穿戴便携式显示处理器的中央处理单元B将翻译后的文本通过开源TTS方法生成语音音频数据,由无线数据传输单元B的蓝牙传输芯片B传输到可穿戴入耳式监听及录音采样器的无线数据传输单元A中,无线数据传输单元A接收到音频数据后,将其传递给中央处理单元A,中央处理单元A通过基于软件的数模信号转换方法将数字信号转换为模拟信号并传送到发声单元,发声单元中的动圈发声器通过振动发声将语音翻译结果以声音的形式反馈给其佩戴者,供电单元B为可穿戴便携式显示处理器稳定供电。
CN201810063565.2A 2018-01-15 2018-01-15 一种基于深度学习的专业领域机器同步翻译装置及方法 Withdrawn CN108268452A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810063565.2A CN108268452A (zh) 2018-01-15 2018-01-15 一种基于深度学习的专业领域机器同步翻译装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810063565.2A CN108268452A (zh) 2018-01-15 2018-01-15 一种基于深度学习的专业领域机器同步翻译装置及方法

Publications (1)

Publication Number Publication Date
CN108268452A true CN108268452A (zh) 2018-07-10

Family

ID=62776257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810063565.2A Withdrawn CN108268452A (zh) 2018-01-15 2018-01-15 一种基于深度学习的专业领域机器同步翻译装置及方法

Country Status (1)

Country Link
CN (1) CN108268452A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674281A (zh) * 2019-12-05 2020-01-10 北京百度网讯科技有限公司 人机对话及人机对话模型获取方法、装置及存储介质
CN110866404A (zh) * 2019-10-30 2020-03-06 语联网(武汉)信息技术有限公司 基于lstm神经网络的词向量生成方法及装置
CN110969028A (zh) * 2018-09-28 2020-04-07 百度(美国)有限责任公司 用于同步翻译的系统和方法
CN111092798A (zh) * 2019-12-24 2020-05-01 东华大学 一种基于口语理解的可穿戴系统
CN111178099A (zh) * 2018-11-28 2020-05-19 腾讯科技(深圳)有限公司 一种文本翻译的方法以及相关装置
TWI698109B (zh) * 2018-12-29 2020-07-01 大陸商北京金山安全軟件有限公司 一種基於可穿戴裝置的監聽方法、裝置及電子裝置
CN111368558A (zh) * 2018-12-25 2020-07-03 Tcl集团股份有限公司 基于神经网络的实时翻译方法、智能终端及存储介质
CN111382584A (zh) * 2018-09-04 2020-07-07 腾讯科技(深圳)有限公司 文本翻译方法、装置、可读存储介质和计算机设备
CN111562815A (zh) * 2020-05-04 2020-08-21 北京花兰德科技咨询服务有限公司 无线头戴装置及语言翻译系统
CN112037768A (zh) * 2019-05-14 2020-12-04 北京三星通信技术研究有限公司 语音翻译方法、装置、电子设备及计算机可读存储介质
TWI716885B (zh) * 2019-05-27 2021-01-21 陳筱涵 即時外語溝通系統
CN112447168A (zh) * 2019-09-05 2021-03-05 阿里巴巴集团控股有限公司 语音识别系统、方法、音箱、显示设备和交互平台
WO2021093333A1 (zh) * 2019-11-14 2021-05-20 网易(杭州)网络有限公司 音频播放方法、电子设备及存储介质
CN113808583A (zh) * 2020-06-16 2021-12-17 阿里巴巴集团控股有限公司 一种语音识别方法、装置及系统
TWI801941B (zh) * 2021-07-21 2023-05-11 國立中正大學 個人化語音轉換系統

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104517107A (zh) * 2014-12-22 2015-04-15 央视国际网络无锡有限公司 基于可穿戴设备的实时翻译图片文字的方法
CN104572635A (zh) * 2015-01-20 2015-04-29 郑州市中业科技有限公司 可穿戴翻译装置及其控制方法
CN204679734U (zh) * 2015-06-15 2015-09-30 徐世通 智能翻译眼镜
CN105512113A (zh) * 2015-12-04 2016-04-20 青岛冠一科技有限公司 交流式语音翻译系统及翻译方法
CN105807924A (zh) * 2016-03-07 2016-07-27 浙江理工大学 一种基于柔性电子皮肤的互动式智能翻译系统及方法
CN206236080U (zh) * 2016-12-01 2017-06-09 南京君子游信息技术有限公司 面对面翻译机
CN206341361U (zh) * 2016-12-29 2017-07-18 语联网(武汉)信息技术有限公司 一种实时翻译耳机

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104517107A (zh) * 2014-12-22 2015-04-15 央视国际网络无锡有限公司 基于可穿戴设备的实时翻译图片文字的方法
CN104572635A (zh) * 2015-01-20 2015-04-29 郑州市中业科技有限公司 可穿戴翻译装置及其控制方法
CN204679734U (zh) * 2015-06-15 2015-09-30 徐世通 智能翻译眼镜
CN105512113A (zh) * 2015-12-04 2016-04-20 青岛冠一科技有限公司 交流式语音翻译系统及翻译方法
CN105807924A (zh) * 2016-03-07 2016-07-27 浙江理工大学 一种基于柔性电子皮肤的互动式智能翻译系统及方法
CN206236080U (zh) * 2016-12-01 2017-06-09 南京君子游信息技术有限公司 面对面翻译机
CN206341361U (zh) * 2016-12-29 2017-07-18 语联网(武汉)信息技术有限公司 一种实时翻译耳机

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曾维佳等: "基于人工神经网络的手语识别系统", 《信息与电脑(理论版)》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382584A (zh) * 2018-09-04 2020-07-07 腾讯科技(深圳)有限公司 文本翻译方法、装置、可读存储介质和计算机设备
CN110969028A (zh) * 2018-09-28 2020-04-07 百度(美国)有限责任公司 用于同步翻译的系统和方法
CN110969028B (zh) * 2018-09-28 2023-09-26 百度(美国)有限责任公司 用于同步翻译的系统和方法
CN111178099A (zh) * 2018-11-28 2020-05-19 腾讯科技(深圳)有限公司 一种文本翻译的方法以及相关装置
CN111178099B (zh) * 2018-11-28 2023-03-10 腾讯科技(深圳)有限公司 一种文本翻译的方法以及相关装置
CN111368558A (zh) * 2018-12-25 2020-07-03 Tcl集团股份有限公司 基于神经网络的实时翻译方法、智能终端及存储介质
CN111368558B (zh) * 2018-12-25 2024-01-02 Tcl科技集团股份有限公司 基于神经网络的实时翻译方法、智能终端及存储介质
TWI698109B (zh) * 2018-12-29 2020-07-01 大陸商北京金山安全軟件有限公司 一種基於可穿戴裝置的監聽方法、裝置及電子裝置
CN112037768A (zh) * 2019-05-14 2020-12-04 北京三星通信技术研究有限公司 语音翻译方法、装置、电子设备及计算机可读存储介质
TWI716885B (zh) * 2019-05-27 2021-01-21 陳筱涵 即時外語溝通系統
CN112447168A (zh) * 2019-09-05 2021-03-05 阿里巴巴集团控股有限公司 语音识别系统、方法、音箱、显示设备和交互平台
CN110866404A (zh) * 2019-10-30 2020-03-06 语联网(武汉)信息技术有限公司 基于lstm神经网络的词向量生成方法及装置
CN110866404B (zh) * 2019-10-30 2023-05-05 语联网(武汉)信息技术有限公司 基于lstm神经网络的词向量生成方法及装置
WO2021093333A1 (zh) * 2019-11-14 2021-05-20 网易(杭州)网络有限公司 音频播放方法、电子设备及存储介质
CN110674281B (zh) * 2019-12-05 2020-05-29 北京百度网讯科技有限公司 人机对话及人机对话模型获取方法、装置及存储介质
CN110674281A (zh) * 2019-12-05 2020-01-10 北京百度网讯科技有限公司 人机对话及人机对话模型获取方法、装置及存储介质
CN111092798B (zh) * 2019-12-24 2021-06-11 东华大学 一种基于口语理解的可穿戴系统
CN111092798A (zh) * 2019-12-24 2020-05-01 东华大学 一种基于口语理解的可穿戴系统
CN111562815A (zh) * 2020-05-04 2020-08-21 北京花兰德科技咨询服务有限公司 无线头戴装置及语言翻译系统
CN113808583A (zh) * 2020-06-16 2021-12-17 阿里巴巴集团控股有限公司 一种语音识别方法、装置及系统
CN113808583B (zh) * 2020-06-16 2024-05-28 浙江未来精灵人工智能科技有限公司 一种语音识别方法、装置及系统
TWI801941B (zh) * 2021-07-21 2023-05-11 國立中正大學 個人化語音轉換系統

Similar Documents

Publication Publication Date Title
CN108268452A (zh) 一种基于深度学习的专业领域机器同步翻译装置及方法
CN111933115B (zh) 语音识别方法、装置、设备以及存储介质
CN111276120B (zh) 语音合成方法、装置和计算机可读存储介质
WO2022121150A1 (zh) 基于自注意力机制和记忆网络的语音识别方法及装置
WO2021189984A1 (zh) 语音合成方法、装置、设备及计算机可读存储介质
CN110880198A (zh) 动画生成方法和装置
JP2022046731A (ja) 音声生成方法、装置、電子機器及び記憶媒体
Nakahara et al. Mobile device-based speech enhancement system using lip-reading
CN115953521B (zh) 远程数字人渲染方法、装置及系统
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
Cao et al. [Retracted] Optimization of Intelligent English Pronunciation Training System Based on Android Platform
CN110010136A (zh) 韵律预测模型的训练和文本分析方法、装置、介质和设备
CN114882862A (zh) 一种语音处理方法及相关设备
CN114255737B (zh) 语音生成方法、装置、电子设备
Dai et al. The sound of silence: end-to-end sign language recognition using smartwatch
CN115937369A (zh) 一种表情动画生成方法、系统、电子设备及存储介质
Wu et al. Oral English Speech Recognition Based on Enhanced Temporal Convolutional Network.
CN117556027B (zh) 基于数字人技术的智能交互系统及方法
WO2021232877A1 (zh) 实时驱动虚拟人的方法、装置、电子设备及介质
CN116095357A (zh) 虚拟主播的直播方法、装置及系统
CN112242134A (zh) 语音合成方法及装置
CN114708849A (zh) 语音处理方法、装置、计算机设备及计算机可读存储介质
CN114005430A (zh) 语音合成模型的训练方法、装置、电子设备和存储介质
Chen et al. Text to avatar in multimodal human computer interface
Zeng et al. Research and implementation of an improved cgru model for speech emotion recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20180710

WW01 Invention patent application withdrawn after publication