CN108960126A - 手语翻译的方法、装置、设备及系统 - Google Patents

手语翻译的方法、装置、设备及系统 Download PDF

Info

Publication number
CN108960126A
CN108960126A CN201810695335.8A CN201810695335A CN108960126A CN 108960126 A CN108960126 A CN 108960126A CN 201810695335 A CN201810695335 A CN 201810695335A CN 108960126 A CN108960126 A CN 108960126A
Authority
CN
China
Prior art keywords
sign language
word
language model
movement
sent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810695335.8A
Other languages
English (en)
Inventor
林湘粤
刘昆
乔爽爽
梁阳
韩超
朱名发
郭江亮
李旭
刘俊
李硕
尹世明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810695335.8A priority Critical patent/CN108960126A/zh
Publication of CN108960126A publication Critical patent/CN108960126A/zh
Priority to US16/278,690 priority patent/US11138903B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/009Teaching or communicating with deaf persons
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Business, Economics & Management (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种手语翻译的方法、装置、设备及系统,服务器接收终端设备发送的视频信息,并对所述视频信息进行预处理,获取至少一个手语动作;将所述至少一个手语动作输入手语模型中进行分类预测,得到所述至少一个手语动作对应的单词;将各所述单词输入到语言模型中,判断意图表达是否完整,在所述意图表达完整时,将各所述单词发送给所述终端设备,以使终端设备对各单词进行显示,实现了将手语动作翻译为文字,使得普通人士能够很好的理解听障人士的意图,从而提高了听障人士与普通人士沟通的效率,有助于听障人士更好的融入社会生活。

Description

手语翻译的方法、装置、设备及系统
技术领域
本发明涉及人工智能技术领域,尤其涉及一种手语翻译的方法、装置、设备及系统。
背景技术
我国听障人士的数量已达到两千多万,在社会条件的改善和社会福利的保障下,听障人士的生活水平有所改善。目前,听障人士与普通人士沟通主要使用手语,由于手语的学习成本较高,手语很难做到全民普及,使得听障人士与普通人士的沟通过程中面临许多困难。
目前,为了提高听障人士和普通人士沟通的便利性,已出现一些将语音转换为手语动作的手语机器人,通过在机器人内预设转换指令,将特定场景的常用语音通过一对一的映射关系转换为对应的手语动作,以使听障人士能够更好地理解普通人士的意图。
但是,上述的现有技术中的手语机器人,只能用于将语音翻译为手语动作,无法将手语动作翻译为文字,使得普通人士无法很好的理解听障人士的意图。
发明内容
本发明提供一种手语翻译的方法、装置、设备及系统,通过对视频中的手语动作进行识别,能够实现将手语动作翻译为文字,使得普通人士能够更好地理解听障人士的意图。
第一方面,本发明提供的手语翻译的方法,包括:
接收终端设备发送的视频信息,并对所述视频信息进行预处理,获得至少一个手语动作;
将所述至少一个手语动作输入手语模型中进行分类预测,得到所述至少一个手语动作对应的单词;
将各所述单词输入到语言模型中,判断意图表达是否完整;
在所述意图表达完整时,将各所述单词发送给所述终端设备。
可选的,所述将所述至少一个手语动作输入手语模型中进行分类预测,得到所述至少一个手语动作对应的单词,包括:
针对每个所述手语动作,生成所述手语动作对应的预测请求,所述预测请求包括所述手语动作和所述手语动作对应的采集时间;
根据至少一个手语模型的负载情况和资源情况,确定执行所述预测请求的目标手语模型;
将所述预测请求输入到所述目标手语模型中进行分类预测,得到所述手语动作对应的单词。
可选的,所述得到所述至少一个手语动作对应的单词之后,还包括:
根据所述单词对应的手语动作的采集时间,将所述单词存储到预设的缓存区;
相应的,所述将各所述单词输入到语言模型中,包括:
从所述缓存区中获取各所述单词,将各所述单词输入到语言模型中。
可选的,当所述单词在所述缓存区中的缓存时间大于预设时长时,将所述单词发送给所述终端设备。
可选的,所述将所述至少一个手语动作输入手语模型中进行分类预测,得到所述至少一个手语动作对应的单词之前,还包括:
针对预设数量的手语动作,分别获取至少两幅从不同角度拍摄的图像,组成训练样本库;
采用深度卷积神经网络算法,对训练样本库中的样本进行训练,得到所述手语模型。
可选的,所述方法还包括:
接收终端设备发送的翻译类型,所述翻译类型包括:语音类型和/或文字类型;
相应的,所述将各所述单词发送给所述终端设备,包括:
根据所述翻译类型,将各所述单词以语音形式和/或文字形式发送给所述终端设备。
可选的,所述语言模型为N-gram模型。
第二方面,本发明提供的手语翻译的装置,包括:
接收模块,用于接收终端设备发送的视频信息,并对所述视频信息进行预处理,获得至少一个手语动作;
预测模块,用于将所述至少一个手语动作输入手语模型中进行分类预测,得到所述至少一个手语动作对应的单词;
判断模块,用于将各所述单词输入到语言模型中,判断意图表达是否完整;
发送模块,用于在所述意图表达完整时,将各所述单词发送给所述终端设备。
可选的,所述预测模块,具体用于:
针对每个所述手语动作,生成所述手语动作对应的预测请求,所述预测请求包括所述手语动作和所述手语动作对应的采集时间;
根据至少一个手语模型的负载情况和资源情况,确定执行所述预测请求的目标手语模型;
将所述预测请求输入到所述目标手语模型中进行分类预测,得到所述手语动作对应的单词。
可选的,所述预测模块,还用于根据所述单词对应的手语动作的采集时间,将所述单词存储到预设的缓存区;
相应的,所述判断模块,具体用于从所述缓存区中获取各所述单词,将各所述单词输入到语言模型中。
可选的,所述发送模块,还用于当所述单词在所述缓存区中的缓存时间大于预设时长时,将所述单词发送给所述终端设备。
可选的,所述装置还包括:训练模块,用于:
针对预设数量的手语动作,分别获取至少两幅从不同角度拍摄的图像,组成训练样本库;
采用深度卷积神经网络算法,对训练样本库中的样本进行训练,得到所述手语模型。
可选的,所述接收模块,还用于接收终端设备发送的翻译类型,所述翻译类型包括:语音类型和/或文字类型;
相应的,所述发送模块,具体用于根据所述翻译类型,将各所述单词以语音形式和/或文字形式发送给所述终端设备。
可选的,所述语言模型为N-gram模型。
第三方面,本发明提供的服务器,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面任一项所述的方法。
第四方面,本发明提供的计算机可读存储介质,其上存储有计算机程序;所述计算机程序被处理器执行以实现如第一方面任一项所述的方法。
第五方面,本发明提供的手语翻译的系统,包括:终端设备和如第三方面任一项所述的服务器。
本发明提供的手语翻译的方法、装置、设备及系统,服务器接收终端设备发送的视频信息,并对所述视频信息进行预处理,获取至少一个手语动作;将所述至少一个手语动作输入手语模型中进行分类预测,得到所述至少一个手语动作对应的单词;将各所述单词输入到语言模型中,判断意图表达是否完整,在所述意图表达完整时,将各所述单词发送给所述终端设备。可见,通过采用手语模型对视频信息中的手语动作进行识别,得到该手语动作对应的单词,进而采用语言模型判断各单词表达的意图的完整性,当意图表达完整时,将各单词发送给终端设备,以使终端设备对各单词进行显示,实现了将手语动作翻译为文字,使得普通人士能够很好的理解听障人士的意图,从而提高了听障人士与普通人士沟通的效率,有助于听障人士更好的融入社会生活。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的手语翻译的方法所适用的场景示意图;
图2为本发明提供的手语翻译的方法实施例一的流程图;
图3为本发明提供的手语翻译的方法实施例二的流程图;
图4为本发明提供的手语翻译的方法实施例三的流程图;
图5为本发明提供的手语翻译的装置实施例一的结构示意图;
图6为本发明提供的手语翻译的装置实施例二的结构示意图;
图7为本发明提供的服务器实施例的结构示意图;
图8为本发明提供的手语翻译的系统实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如前所述,目前,为了提高听障人士和普通人士沟通的便利性,已出现一些将语音转换为手语动作的手语机器人,通过在机器人内预设转换指令,将特定场景的常用语音通过一对一的映射关系转换为对应的手语动作,以使听障人士能够更好地理解普通人士的意图。
但是,上述的现有技术中的手语机器人,只能用于将语音翻译为手语动作,无法将手语动作翻译为文字,使得普通人士无法很好的理解听障人士的意图。
本发明提供一种手语翻译的方法、装置、设备及系统,通过对视频中的手语动作进行识别,能够实现将手语动作翻译为文字,使得普通人士能够更好地理解听障人士的意图。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为本发明提供的手语翻译的方法所适用的场景示意图,如图1所示,听障人士与普通人士沟通的场景中,终端设备采集包括听障人士手语动作的视频信息,并将视频信息发送给手语翻译服务器,由手语翻译服务器对视频信息中的手语动作进行识别,得到视频信息中的手语动作对应的意图,并将意图返回给终端设备,由终端设备进行显示。
需要说明的是,终端设备可以为具有采集功能的电子设备,包括但不限于:手机、摄像头、笔记本电脑、翻译机器人等。手语翻译服务可以以软件形式集成在终端设备中,还可以以硬件形式独立存在。
图2为本发明提供的手语翻译的方法实施例一的流程图,本实施例的执行主体可以为手语翻译的装置,具体的,该装置可以设置于终端设备中,还可以设置于手语翻译服务器中,其中,服务器可以为云端服务器,也可以为本地服务器。本实施例中以该装置设置与服务器中为例进行说明。
如图2所示,本实施例的方法包括:
S21:接收终端设备发送的视频信息,并对所述视频信息进行预处理,获得至少一个手语动作。
其中,终端设备可以为具有采集功能的电子设备,包括但不限于:手机、摄像头、笔记本电脑、翻译机器人等。在听障人士与普通人士进行沟通时,终端设备可以采集包括听障人士的手语动作的视频信息,并将该视频信息发送给执行本实施例方法的服务器。
服务器接收到终端设备发送的视频信息后,可以对视频信息进行预处理,获取至少一个手语动作。可以理解的,由于在进行交流过程中,听障人士并不是时刻处于说话状态,采集的视频信息中有些图像帧可能并没有手语动作。因此,对视频信息进行预处理的过程可以包括:将明显不包括手语动作的图像帧去除,例如:可以根据视频信息中听障人士的手部的状态是否发生变化来判断所述图像帧中是否包括手语动作。具体的,若相邻数帧的图像中,听障人士的手部状态均未发生变化,则可以判该图像帧中不包括手语动作;若相邻数帧的图像中,听障人士的手部状态发生了变化,则可以初步确定该图像帧中包括手语动作。
可选的,对视频信息进行预处理的过程还可以包括:在初步确定图像帧中包括手语动作之后,采用图像分割技术对图像帧进行分隔,获取该图像帧中的手语动作。需要说明的是,本发明对于所述手语动作的表述形式并不作具体限定,可以是该图像中手部区域对应的图像,还可以是采用预设算法获取的手语动作对应的特征信息。
在具体实施过程中,可以根据手语模型的对于输入的要求,确定手语动作的表述形式。例如,当手语模型的输入为图像时,本步骤中获取的手语动作可以是该图像中手部区域;当手语模型的输入为手语动作对应的特征信息时,本步骤中获取的手语动作可以是采用预设算法获取的手语动作的特征信息。
可选的,对视频信息进行预处理的过程还可以包括:对视频中的图像帧的大小和/或格式进行调整。可以理解的,可以根据手语模型对于输入的要求,对视频中的图像帧调整为合适的大小和格式,例如:将图像帧调整为大小为256像素*256像素、格式为JPGE的图像。
需要说明的是,本实施例对于上述预处理的多个过程的先后顺序并不作具体限定。
S22:将所述至少一个手语动作输入手语模型中进行分类预测,得到所述至少一个手语动作对应的单词。
具体的,服务器上运行了已训练好的手语模型,将手语动作输入到该手语模型后,该手语模型可以输出该手语动作对应的单词。其中,该手语模型为通过深度学习算法训练得到的。
需要说明的是,本实施例对于手语模型的训练过程以及训练算法不作具体限定,其可以采用多种机器学习算法进行训练。一种可选的实施方式可参考后续的实施例三。
另外,服务器上运行的手语模型的数量可以为一个或者多个,本发明对此并不作具体限定,一种可选的实施方式中,当服务器上运行一个手语模型时,按照视频信息中的图像帧的顺序,依次将解析到的手语动作输入到该手语模型中进行分类预测。另一种可选的实施方式中,可以在服务器上设置多个处理器,所述多个处理器上分别运行所述手语模型,在进行预测时,可以将视频信息中的多个手语动作输入不同的手语模型中,以提高预测的的效率和实时性。
S23:将各所述单词输入到语言模型中,判断意图表达是否完整。
S24:在所述意图表达完整时,将各所述单词发送给所述终端设备。
具体的,由于手语模型输出的是手语动作对应的单词,本发明为了保证手语翻译的准确性,并不将单词直接输出给终端设备,而是将单词输入到语言模型中,当语言模型判断意图表达完整时再输出给终端设备。例如,在服务器上运行已训练好的语言模型,该语言模型可以判断意图表达的完整性。S22中手语模型对手语动作进行分类预测得到对应的单词后,将该单词输入到语言模型中,由语言模型判断意图表达是否完整。
具体实施时,语言模型可以采用任一现有技术中的语言模型,可选的,当手语的目标翻译语言为汉语时,所述语言模型为N-gram模型。N-gram是一种基于统计语言模型的算法,N-gram模型利用了上下文中相邻词的搭配信息,根据输入的单词,可以计算出具有最大概率的句子,从而实现单词到句子的转换。
例如:当输入语言模型的单词为分别为“我”和“发现”时,则该语言模型可以判断意图表达不完整;若后续输入语言模型的单词为“一个错误”时,则该语言模型可以判断意图表达完整,意图对应的语句为“我发现一个错误”。
可以理解的,当意图表达不完整时,输入到语言模型中的各单词暂时不输出,继续等待后续输入的单词。当意图表达完整时,将表达该意图的各单词发送给终端设备。例如,上述举例中,服务器向终端发送的各单词分别为“我”、“发现”、“一个错误”。
终端设备接收到各单词后,可以对各单词进行文字显示,例如,在显示屏幕中显示“我发现一个错误”对应的文字,从而普通人士可以根据终端设备显示的文字信息理解听障人士的手语动作所表达的意图。
一种可选的实施方式中,服务器还可以接收终端设备发送的翻译类型,例如,用户可以根据对话场景在终端设备上设置翻译类型,所述翻译类型包括:语音类型和/或文字类型。相应的,服务器可以根据所述翻译类型,将各所述单词以语音形式和/或文字形式发送给终端设备。
具体的,若翻译类型为语音类型,则在S24中判断意图表达完整时,采用语音转换算法将各所述单词转换为语音形式,然后发送给终端设备,以使终端设备对语音形式的各单词进行播放。若翻译类型为文字类型,则在S24中判断意图表达完整时,直接将各单词以文字形式发送给终端设备以使终端设备对文字形式的各单词进行显示。本实施例中,可以根据听障人士与普通人士的沟通场景,选择将手语翻译为语音或者文字,进一步增强了手语翻译的灵活性。
本实施例中,接收终端设备发送的视频信息,并对所述视频信息进行预处理,获取至少一个手语动作;将所述至少一个手语动作输入手语模型中进行分类预测,得到所述至少一个手语动作对应的单词;将各所述单词输入到语言模型中,判断意图表达是否完整,在所述意图表达完整时,将各所述单词发送给所述终端设备;可见,通过采用手语模型对视频信息中的手语动作进行识别,得到该手语动作对应的单词,进而采用语言模型判断各单词表达的意图的完整性,当意图表达完整时,将各单词发送给终端设备,以使终端设备对各单词进行显示,实现了将手语动作翻译为文字,使得普通人士能够很好的理解听障人士的意图,从而提高了听障人士与普通人士沟通的效率,有助于听障人士更好的融入社会生活。
图3为本发明提供的手语翻译的方法实施例二的流程图,在上述实施例的基础上,本实施例对于本发明方案的实施细节进行详细描述。如图3所示,本发明提供的手语翻译的方法,包括:
S31:接收终端设备发送的视频信息,并对所述视频信息进行预处理,获得至少一个手语动作。
本实施例S31的具体实施方式可参考上述实施例一中的S21,此处不再赘述。
S32:针对每个所述手语动作,生成所述手语动作对应的预测请求,所述预测请求包括所述手语动作和所述手语动作对应的采集时间。
具体的,终端设备在采集视频信息时,会记录每个图像帧的具体采集时间。通过对视频信息进行预处理得到各个手语动作时,还可以根据视频信息中记录的时间信息,获取每个手语动作对应的采集时间。针对每个手语动作生成一个预测请求,该预测请求将被输入到手语模型中进行分类预测。其中,预测请求中手语动作对应的采集时间,可以作为手语模型输出的各单词采集时间,进而根据各单词的采集时间可以确定出各单词的顺序。
S33:根据至少一个手语模型的负载情况和资源情况,确定执行所述预测请求的目标手语模型。
具体实施中,可以在服务器中设置一个调度模块和多个处理模块,每个处理模块用于运行手语模型。调度模块用于针对每个手语动作生成对应的预测请求,并且还用于多个处理模块的负载均衡和资源调度。具体的,根据多个处理模块中的手语模型的负载情况和资源情况,确定执行该预测请求的目标手语模型,例如:优先选择负载较小的手语模型或者资源充足的手语模型作为目标手语模型。
S34:将所述预测请求输入到所述目标手语模型中进行分类预测,得到所述手语动作对应的单词,根据所述单词对应的手语动作的采集时间,将所述单词存储到预设的缓存区。
S35:从所述缓存区中获取各所述单词,将各所述单词输入到语言模型中,判断意图表达是否完整。
由于存在多个手语模型同时对不同的手语动作进行分类预测,每个手语模型分类预测得到单词后,可以根据手语动作的采集时间,将单词存储到预设的缓存区中,例如:按照手语动作采集时间的顺序,将单词按序存储至缓存区中,或者,按照手语模型输出单词的顺序,将单词存储到缓存区中,同时记录该单词对应的采集时间。
进而,按照各单词的采集时间,从缓存区中获取各个单词,将单词输入到语言模型中,判断意图表达是否完整。
本实施例中,通过设置单词缓存区,一方面可以保证单词按序输出,另一方面,可以对手语模型和语言模型的处理速度进行适配。
S36:在所述意图表达完整时,将各所述单词发送给所述终端设备。
S37:当所述单词在所述缓存区中的缓存时间大于预设时长时,将所述单词发送给所述终端设备。
可以理解的,为了保证手语翻译的实时性,当单词在缓存区中的缓存时间大于预设时长时,将单词发送给终端设备。
图4为本发明提供的手语翻译的方法实施例三的流程图,本实施例的执行主体为服务器。在上述实施例的基础上,本实施例对手语模型的训练过程进行详细描述。如图4所示,一种可选的对手语模型进行训练的方法,包括:
S41:针对预设数量的手语动作,分别获取至少两幅从不同角度拍摄的图像,组成训练样本库。
由于在实际使用过程中,听障人士使用的终端设备的采集装置未必始终为正面朝向,为了增加手语模型的鲁棒性,本实施例中,在制作训练样本库时,针对每个手语动作,分别获取至少两幅不同角度拍摄的图像,并标注该图像中手语动作所对应的单词。
S42:采用深度卷积神经网络算法,对训练样本库中的样本进行训练,得到所述手语模型。
本实施例中采用的深度卷积神经网络的结构包括卷积层、池化层和全连接层,其中,卷积层用于对输入图像进行特征提取,池化层用于对特征作降采样,全连接层用于连接所有特征,将输出值送给分类器。
具体的,在训练过程中,利用训练样本库中的样本,通过反向传播、梯度下降的方式进行训练。进一步的,还可以将训练样本库划分为训练集和测试集,使用训练集中的样本进行手语模型的训练,使用测试集中的样本进行手语模型的验证。
由于模型的学习特点,可以在训练样本库中不断增加样本数量,对手语模型进行迭代扩展,使得手语模型不断丰富,识别能力不断增强。具体实施中,对于每一次训练好的手语模型,可通过小流量上线的方式逐步取代正在线上运行的旧模型,以达到模型随业务动态扩展泛化的目的,提高手语模型的扩展性。
图5为本发明提供的手语翻译的装置实施例一的结构示意图,本实施例的装置可以设置于终端设备中,还可以设置于手语翻译服务器中。如图5所示,本实施例的手语翻译的装置500,包括:接收模块501、预测模块502、判断模块503和发送模块504。
其中,接收模块501,用于接收终端设备发送的视频信息,并对所述视频信息进行预处理,获得至少一个手语动作。
预测模块502,用于将所述至少一个手语动作输入手语模型中进行分类预测,得到所述至少一个手语动作对应的单词。
判断模块503,用于将各所述单词输入到语言模型中,判断意图表达是否完整。
发送模块504,用于在所述意图表达完整时,将各所述单词发送给所述终端设备。
可选的,预测模块502,具体用于:针对每个所述手语动作,生成所述手语动作对应的预测请求,所述预测请求包括所述手语动作和所述手语动作对应的采集时间;根据至少一个手语模型的负载情况和资源情况,确定执行所述预测请求的目标手语模型;将所述预测请求输入到所述目标手语模型中进行分类预测,得到所述手语动作对应的单词。
可选的,预测模块502,还用于根据所述单词对应的手语动作的采集时间,将所述单词存储到预设的缓存区;相应的,判断模块503,具体用于从所述缓存区中获取各所述单词,将各所述单词输入到语言模型中。
可选的,发送模块504,还用于当所述单词在所述缓存区中的缓存时间大于预设时长时,将所述单词发送给所述终端设备。
可选的,接收模块501,还用于接收终端设备发送的翻译类型,所述翻译类型包括:语音类型和/或文字类型;相应的,发送模块504,具体用于根据所述翻译类型,将各所述单词以语音形式和/或文字形式发送给所述终端设备。
可选的,所述语言模型为N-gram模型。
本实施例的装置,可用于执行上述如图2和图3所示的方法实施例,其实现原理和技术效果类似,此处不再赘述。
图6为本发明提供的手语翻译的装置实施例二的结构示意图,如图6所示,在图5所示实施例的基础上,本实施例的手语翻译的装置600,还可以包括训练模块601。
训练模块601,用于针对预设数量的手语动作,分别获取至少两幅从不同角度拍摄的图像,组成训练样本库;采用深度卷积神经网络算法,对训练样本库中的样本进行训练,得到所述手语模型。
本实施例的装置,可用于执行上述如图4所示的方法实施例,其实现原理和技术效果类似,此处不再赘述。
图7为本发明提供的服务器实施例的结构示意图,如图7所示,本实施例的服务器700,包括:存储器701、处理器702和计算机程序,其中,所述计算机程序存储在存储器701中,并被配置为由处理器702执行以实现上述任一方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,能够实现上述任一方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图8为本发明提供的手语翻译的系统实施例的结构示意图,如图8所示,本实施例的手语翻译的系统800,可以包括终端设备801和服务器802,其中,服务器802可以采用如图7所示的结构。
具体的,终端设备801,用于采集视频信息,所述视频信息中包括至少一个手语动作,并将所述视频信息发送给服务器802。
终端设备801还用于接收服务器802发送的单词。
可选的,终端设备801还用于向服务器802发送翻译类型,所述翻译类型包括:语音类型和/或文字类型;
相应的,终端设备801还用于根据所述翻译类型,将所述单词以文字形式进行显示,或者,以语音形式进行播放。
本实施例的手语翻译的系统,可用于执行上述任一方法实施例中的技术方案,其实现原理和技术效果类似,此处不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在上述网络设备或者终端设备的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:ApplicationSpecific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (17)

1.一种手语翻译的方法,其特征在于,包括:
接收终端设备发送的视频信息,并对所述视频信息进行预处理,获得至少一个手语动作;
将所述至少一个手语动作输入手语模型中进行分类预测,得到所述至少一个手语动作对应的单词;
将各所述单词输入到语言模型中,判断意图表达是否完整;
在所述意图表达完整时,将各所述单词发送给所述终端设备。
2.根据权利要求1所述的方法,其特征在于,所述将所述至少一个手语动作输入手语模型中进行分类预测,得到所述至少一个手语动作对应的单词,包括:
针对每个所述手语动作,生成所述手语动作对应的预测请求,所述预测请求包括所述手语动作和所述手语动作对应的采集时间;
根据至少一个手语模型的负载情况和资源情况,确定执行所述预测请求的目标手语模型;
将所述预测请求输入到所述目标手语模型中进行分类预测,得到所述手语动作对应的单词。
3.根据权利要求2所述的方法,其特征在于,所述得到所述至少一个手语动作对应的单词之后,还包括:
根据所述单词对应的手语动作的采集时间,将所述单词存储到预设的缓存区;
相应的,所述将各所述单词输入到语言模型中,包括:
从所述缓存区中获取各所述单词,将各所述单词输入到语言模型中。
4.根据权利要求3所述的方法,其特征在于,还包括:
当所述单词在所述缓存区中的缓存时间大于预设时长时,将所述单词发送给所述终端设备。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述将所述至少一个手语动作输入手语模型中进行分类预测,得到所述至少一个手语动作对应的单词之前,还包括:
针对预设数量的手语动作,分别获取至少两幅从不同角度拍摄的图像,组成训练样本库;
采用深度卷积神经网络算法,对训练样本库中的样本进行训练,得到所述手语模型。
6.根据权利要求1-4任一项所述的方法,其特征在于,还包括:
接收终端设备发送的翻译类型,所述翻译类型包括:语音类型和/或文字类型;
相应的,所述将各所述单词发送给所述终端设备,包括:
根据所述翻译类型,将各所述单词以语音形式和/或文字形式发送给所述终端设备。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述语言模型为N-gram模型。
8.一种手语翻译的装置,其特征在于,包括:
接收模块,用于接收终端设备发送的视频信息,并对所述视频信息进行预处理,获得至少一个手语动作;
预测模块,用于将所述至少一个手语动作输入手语模型中进行分类预测,得到所述至少一个手语动作对应的单词;
判断模块,用于将各所述单词输入到语言模型中,判断意图表达是否完整;
发送模块,用于在所述意图表达完整时,将各所述单词发送给所述终端设备。
9.根据权利要求8所述的装置,其特征在于,所述预测模块,具体用于:
针对每个所述手语动作,生成所述手语动作对应的预测请求,所述预测请求包括所述手语动作和所述手语动作对应的采集时间;
根据至少一个手语模型的负载情况和资源情况,确定执行所述预测请求的目标手语模型;
将所述预测请求输入到所述目标手语模型中进行分类预测,得到所述手语动作对应的单词。
10.根据权利要求9所述的装置,其特征在于,
所述预测模块,还用于根据所述单词对应的手语动作的采集时间,将所述单词存储到预设的缓存区;
相应的,所述判断模块,具体用于从所述缓存区中获取各所述单词,将各所述单词输入到语言模型中。
11.根据权利要求10所述的装置,其特征在于,
所述发送模块,还用于当所述单词在所述缓存区中的缓存时间大于预设时长时,将所述单词发送给所述终端设备。
12.根据权利要求8-11任一项所述的装置,其特征在于,还包括训练模块,用于:
针对预设数量的手语动作,分别获取至少两幅从不同角度拍摄的图像,组成训练样本库;
采用深度卷积神经网络算法,对训练样本库中的样本进行训练,得到所述手语模型。
13.根据权利要求8-11任一项所述的装置,其特征在于,
所述接收模块,还用于接收终端设备发送的翻译类型,所述翻译类型包括:语音类型和/或文字类型;
相应的,所述发送模块,具体用于根据所述翻译类型,将各所述单词以语音形式和/或文字形式发送给所述终端设备。
14.根据权利要求8-11任一项所述的装置,其特征在于,所述语言模型为N-gram模型。
15.一种服务器,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-7任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,其上存储有计算机程序;所述计算机程序被处理器执行以实现如权利要求1-7任一项所述的方法。
17.一种手语翻译的系统,其特征在于,包括:终端设备和如权利要求15所述的服务器。
CN201810695335.8A 2018-06-29 2018-06-29 手语翻译的方法、装置、设备及系统 Pending CN108960126A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810695335.8A CN108960126A (zh) 2018-06-29 2018-06-29 手语翻译的方法、装置、设备及系统
US16/278,690 US11138903B2 (en) 2018-06-29 2019-02-18 Method, apparatus, device and system for sign language translation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810695335.8A CN108960126A (zh) 2018-06-29 2018-06-29 手语翻译的方法、装置、设备及系统

Publications (1)

Publication Number Publication Date
CN108960126A true CN108960126A (zh) 2018-12-07

Family

ID=64487851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810695335.8A Pending CN108960126A (zh) 2018-06-29 2018-06-29 手语翻译的方法、装置、设备及系统

Country Status (2)

Country Link
US (1) US11138903B2 (zh)
CN (1) CN108960126A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993130A (zh) * 2019-04-04 2019-07-09 哈尔滨拓博科技有限公司 一种基于深度图像动态手语语义识别系统及方法
CN110457673A (zh) * 2019-06-25 2019-11-15 北京奇艺世纪科技有限公司 一种自然语言转换为手语的方法及装置
CN110992783A (zh) * 2019-10-29 2020-04-10 东莞市易联交互信息科技有限责任公司 一种基于机器学习的手语翻译方法及翻译设备
CN111507115A (zh) * 2020-04-12 2020-08-07 北京花兰德科技咨询服务有限公司 多模态语言信息人工智能翻译方法、系统和设备
CN111738023A (zh) * 2020-06-24 2020-10-02 宋万利 一种图文音频自动翻译方法及其系统
CN112949689A (zh) * 2021-02-01 2021-06-11 Oppo广东移动通信有限公司 图像识别方法、装置、电子设备及存储介质
CN113438300A (zh) * 2021-06-22 2021-09-24 江苏科技大学 基于网络实现的听障人士与正常人士无障碍沟通在线交流系统及方法
CN115223428A (zh) * 2021-04-20 2022-10-21 美光科技公司 转换手语

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183114B (zh) * 2020-08-10 2024-05-14 招联消费金融股份有限公司 模型训练、语义完整性识别方法和装置
CN112257513B (zh) * 2020-09-27 2023-07-25 南京工业大学 一种手语视频翻译模型的训练方法、翻译方法及系统
US11587362B2 (en) * 2020-12-16 2023-02-21 Lenovo (Singapore) Pte. Ltd. Techniques for determining sign language gesture partially shown in image(s)
CN112668463B (zh) * 2020-12-25 2022-12-02 株洲手之声信息科技有限公司 一种基于场景识别的中文手语翻译方法及系统
CN112668464B (zh) * 2020-12-25 2022-12-02 株洲手之声信息科技有限公司 一种融合场景匹配的中文手语翻译模型构建方法及装置
CN114546326A (zh) * 2022-02-22 2022-05-27 浙江核新同花顺网络信息股份有限公司 一种虚拟人手语生成方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110274311A1 (en) * 2010-05-04 2011-11-10 Hon Hai Precision Industry Co., Ltd. Sign language recognition system and method
CN105957514A (zh) * 2016-07-11 2016-09-21 吉林宇恒光电仪器有限责任公司 一种便携式聋哑人交流设备
CN107103311A (zh) * 2017-05-31 2017-08-29 西安工业大学 一种连续手语的识别方法及其装置
CN107690651A (zh) * 2015-04-16 2018-02-13 罗伯特·博世有限公司 用于自动化手语识别的系统和方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5659764A (en) * 1993-02-25 1997-08-19 Hitachi, Ltd. Sign language generation apparatus and sign language translation apparatus
US7149970B1 (en) * 2000-06-23 2006-12-12 Microsoft Corporation Method and system for filtering and selecting from a candidate list generated by a stochastic input method
JP3906729B2 (ja) * 2002-04-05 2007-04-18 株式会社日立製作所 手話教育用システム及び該システムを実現するためのプログラム
AU2003275134A1 (en) * 2002-09-19 2004-04-08 The Penn State Research Foundation Prosody based audio/visual co-analysis for co-verbal gesture recognition
JP5160235B2 (ja) * 2005-01-07 2013-03-13 クアルコム,インコーポレイテッド 画像中の物体の検出及び追跡
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
TWI484450B (zh) * 2011-08-23 2015-05-11 Hon Hai Prec Ind Co Ltd 手語翻譯系統、手語翻譯裝置及手語翻譯方法
EP3094082A1 (en) * 2015-05-13 2016-11-16 AIM Sport Vision AG Digitally overlaying an image with another image
US10037458B1 (en) * 2017-05-02 2018-07-31 King Fahd University Of Petroleum And Minerals Automated sign language recognition
US10885320B2 (en) * 2018-05-03 2021-01-05 Microsoft Technology Licensing, Llc Enhanced accessibility in mixed reality experience for collaboration tools

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110274311A1 (en) * 2010-05-04 2011-11-10 Hon Hai Precision Industry Co., Ltd. Sign language recognition system and method
CN107690651A (zh) * 2015-04-16 2018-02-13 罗伯特·博世有限公司 用于自动化手语识别的系统和方法
CN105957514A (zh) * 2016-07-11 2016-09-21 吉林宇恒光电仪器有限责任公司 一种便携式聋哑人交流设备
CN107103311A (zh) * 2017-05-31 2017-08-29 西安工业大学 一种连续手语的识别方法及其装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李云: ""基于肌电模式的中国手语识别研究及康复应用探索"", 《万方》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993130A (zh) * 2019-04-04 2019-07-09 哈尔滨拓博科技有限公司 一种基于深度图像动态手语语义识别系统及方法
CN110457673A (zh) * 2019-06-25 2019-11-15 北京奇艺世纪科技有限公司 一种自然语言转换为手语的方法及装置
CN110992783A (zh) * 2019-10-29 2020-04-10 东莞市易联交互信息科技有限责任公司 一种基于机器学习的手语翻译方法及翻译设备
CN111507115A (zh) * 2020-04-12 2020-08-07 北京花兰德科技咨询服务有限公司 多模态语言信息人工智能翻译方法、系统和设备
CN111507115B (zh) * 2020-04-12 2021-07-27 北京花兰德科技咨询服务有限公司 多模态语言信息人工智能翻译方法、系统和设备
CN111738023A (zh) * 2020-06-24 2020-10-02 宋万利 一种图文音频自动翻译方法及其系统
CN112949689A (zh) * 2021-02-01 2021-06-11 Oppo广东移动通信有限公司 图像识别方法、装置、电子设备及存储介质
CN115223428A (zh) * 2021-04-20 2022-10-21 美光科技公司 转换手语
CN113438300A (zh) * 2021-06-22 2021-09-24 江苏科技大学 基于网络实现的听障人士与正常人士无障碍沟通在线交流系统及方法

Also Published As

Publication number Publication date
US20200005673A1 (en) 2020-01-02
US11138903B2 (en) 2021-10-05

Similar Documents

Publication Publication Date Title
CN108960126A (zh) 手语翻译的方法、装置、设备及系统
US20210312671A1 (en) Method and apparatus for generating video
CN108920639A (zh) 基于语音交互的上下文获取方法及设备
CN110446063A (zh) 视频封面的生成方法、装置及电子设备
CN110610534B (zh) 基于Actor-Critic算法的口型动画自动生成方法
CN108920640A (zh) 基于语音交互的上下文获取方法及设备
CN111611436A (zh) 一种标签数据处理方法、装置以及计算机可读存储介质
CN109660865B (zh) 为视频自动打视频标签的方法及装置、介质和电子设备
US20230215068A1 (en) Method for outputting blend shape value, storage medium, and electronic device
CN109871736A (zh) 自然语言描述信息的生成方法及装置
JP2022553252A (ja) 画像処理方法、画像処理装置、サーバ、及びコンピュータプログラム
CN108538283B (zh) 一种由唇部图像特征到语音编码参数的转换方法
CN109961041A (zh) 一种视频识别方法、装置及存储介质
CN111354246A (zh) 一种用于帮助聋哑人交流的系统及方法
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
CN116137673B (zh) 数字人表情驱动方法及其装置、设备、介质
CN114302157A (zh) 属性标签识别、代播事件检测方法及其装置、设备、介质
CN110033077A (zh) 神经网络训练方法以及装置
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN113516972A (zh) 语音识别方法、装置、计算机设备及存储介质
CN116229311B (zh) 视频处理方法、装置及存储介质
CN112183430A (zh) 一种基于双神经网络的手语识别方法及装置
CN109299777B (zh) 一种基于人工智能的数据处理方法及其系统
CN111340329B (zh) 演员评估方法、装置及电子设备
CN112235517A (zh) 旁白添加方法、旁白添加装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181207

RJ01 Rejection of invention patent application after publication