CN104239394A - 包括显示装置和服务器的翻译系统及其控制方法 - Google Patents

包括显示装置和服务器的翻译系统及其控制方法 Download PDF

Info

Publication number
CN104239394A
CN104239394A CN201410274057.0A CN201410274057A CN104239394A CN 104239394 A CN104239394 A CN 104239394A CN 201410274057 A CN201410274057 A CN 201410274057A CN 104239394 A CN104239394 A CN 104239394A
Authority
CN
China
Prior art keywords
voice
user
face shape
translation
display device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410274057.0A
Other languages
English (en)
Inventor
郑载润
金圣晋
金容圭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN104239394A publication Critical patent/CN104239394A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

提供了一种显示装置。所述显示装置包括:输入器,被配置成接收用户的面部形状和语音;语音处理器,被配置成分析输入的语音并提取经翻译的数据,并且将经翻译的数据转换成经翻译的语音;图像处理器,被配置成检测与对应于经翻译的数据的用户面部形状的嘴部区域有关的信息,以及基于所检测到的与嘴部区域有关的信息来创建改变后的用户面部形状;以及输出器,被配置成输出经翻译的语音和改变后的用户面部形状。

Description

包括显示装置和服务器的翻译系统及其控制方法
相关申请的交叉引用
本申请要求于2013年6月18日向韩国知识产权局提交的韩国专利申请第2013-0069993号的优先权,通过引用将其公开内容全部结合于此。
技术领域
与示例性实施例一致的方法和装置涉及包括显示装置和服务器的翻译系统以及控制所述显示装置的方法。更具体地,示例性实施例涉及包括被配置成转换输入的语音和图像并且输出经转换的语音和图像的显示装置、服务器的翻译系统以及控制所述显示装置的方法。
背景技术
随着通信和电子技术的发展,视频电话或者视频呼叫技术被日益增多地使用。此外,随着与其它国家的交流增加,用户有更多的机会与说不同语言的另一用户进行视频电话呼叫。外语不流利的用户发现当通过视频电话呼叫来交谈时比当实际见面并且面对面交谈时更难以理解对话的内容。为了解决这些问题,正在研发自动翻译装置。
因此,存在对于转换对方的图像以及对方的语音的技术的需要。
发明内容
根据示例性实施例,提供了一种显示装置。所述显示装置包括:输入器,被配置成接收用户面部形状和语音;语音处理器,被配置成分析输入的语音并提取经翻译的数据,并且将经翻译的数据转换成经翻译的语音;图像处理器,被配置成检测与对应于经翻译的数据的用户面部形状的嘴部(mouth)区域有关的信息,并且基于所检测到的与嘴部区域有关的信息创建改变后的用户面部形状;以及输出器,被配置成输出经翻译的语音和改变后的用户面部形状。
所述图像处理器可以被配置成将所述改变后的用户面部形状同步为对应于所述经翻译的语音。
所述语音处理器可以被配置成比较所述输入的语音的长度和所述经翻译的语音的长度并且调整所述经翻译的语音的长度。
所述语音处理器可以提取所述输入的语音的音调、音高以及声音质量中的至少一个特性并且将所提取的特性应用到所述经翻译的语音。
与所述嘴部区域有关的信息可以是其中连接了存储的嘴部形状的(mouth-shaped)图像的特征点的网格信息,并且所述图像处理器可以被配置成从所述经翻译的数据中提取音位(phoneme),并搜索相应的嘴部形状的图像,以及将其中连接了所搜索到的嘴部形状图像的特征点的网格信息映射到用户面部形状以便创建改变后的用户面部形状。
与所述嘴部区域有关的信息可以是所存储的嘴部形状的图像,并且所述图像处理器可以从所述经翻译的数据中提取音位并搜索相应的嘴部形状的图像,并且在面部形状中编辑所搜索到的嘴部形状的图像以便创建改变后的用户面部形状。
所述显示装置还可以包括通信器,所述通信器被配置成与服务器通信,并且所述通信器可以向所述服务器发送用户面部形状和输入的语音,以及从所述服务器接收所述经翻译的语音和改变后的用户面部形状。
所述显示装置还可以包括通信器,所述通信器被配置成与服务器通信,所述通信器可以被配置成向所述服务器发送用户面部形状和输入的语音,并从所述服务器接收所述经翻译的语音和嘴部区域信息,并且所述图像处理器可以基于接收到的与所述嘴部区域有关的信息来创建改变后的用户面部形状。
根据示例性实施例,提供了一种被配置成与显示装置通信的服务器,所述服务器包括:通信器,被配置成从所述显示装置接收用户面部形状和语音;语音处理器,被配置成分析接收到的语音并提取经翻译的数据,并且将经翻译的数据转换成经翻译的语音;以及图像处理器,被配置成检测与对应于所述经翻译的数据的用户面部形状的嘴部区域有关的信息,其中,所述通信器将嘴部区域的信息连同所述经翻译的语音一起发送到所述显示装置。
所述图像处理器可以基于检测到的与所述嘴部区域有关的信息来创建改变后的用户面部形状,并且所述通信器可以将所述改变后的用户面部形状连同所述经翻译的语音一起发送到所述显示装置。
根据示例性实施例,提供一种包括显示装置和服务器的转换系统;所述系统包括:显示装置,被配置成向所述服务器发送输入的用户面部形状和输入的语音;以及服务器,被配置成分析输入的语音并提取经翻译的数据,并且将经翻译的数据转换成经翻译的语音,以及检测与对应于所述经翻译的数据的用户面部形状的嘴部区域有关的信息以便创建从所述用户面部形状映射的改变后的用户面部形状,其中,所述显示装置将所述改变后的用户面部形状或者与所述嘴部区域有关的信息连同所述经翻译的语音一起从所述服务器接收。
根据示例性实施例,提供一种控制显示装置的方法,该方法包括:接收用户面部形状和语音;分析输入的语音并提取经翻译的数据;检测与对应于所述经翻译的数据的用户面部形状的嘴部区域有关的信息,并且基于所检测到的与嘴部区域有关的信息创建改变后的用户面部形状;将所述经翻译的数据转换成经翻译的语音;以及输出所述经翻译的语音和用户面部形状的改变后的形状。
所述输出可以将所述改变后的用户面部形状同步到所述经翻译的语音。
所述控制显示装置的方法还可以包括比较所述输入的语音的长度和所述经翻译的语音的长度,并且基于所述比较来调整所述经翻译的语音的长度。
所述控制显示装置的方法还可以包括提取所述输入的语音的音调、音高以及声音质量中的至少一个特性,并且将所提取的特性应用到所述经翻译的语音。
与所述嘴部区域有关的信息可以是其中连接了存储的嘴部形状的图像的特征点的网格信息,并且创建改变后的用户面部形状可以从所述经翻译的数据中提取音位并搜索相应的嘴部形状的图像,并且将其中连接了搜索到的嘴部形状的图像的特征点的网格信息映射到用户面部形状以便创建改变后的用户面部形状。
嘴部区域的信息可以是存储的嘴部形状的图像,并且创建改变后的用户面部形状可以包括从所述经翻译的数据中提取音位并且搜索相应的嘴部形状的图像,并且在面部形状中编辑搜索到的嘴部形状的图像以创建改变后的用户面部形状。
所述控制显示装置的方法还可以包括向所述服务器发送用户面部形状和输入的语音,并从所述服务器接收所述经翻译的语音和改变后的用户面部形状,并且所述输出可以输出接收到的经翻译的语音和接收到的改变后的用户面部形状。
所述控制显示装置的方法还可以包括向所述服务器发送用户面部形状和输入的语音,并从服务器接收所述经翻译的语音和用户面部形状的改变后的形状,并且创建改变后的用户面部形状可以基于接收到的与所述嘴部区域有关的信息来创建改变后的用户面部形状。
示例性实施例的一方面可以提供一种显示装置,其包括:语音处理器,被配置成分析输入的语音并提取经翻译的数据,并且将经翻译的数据转换成经翻译的语音;和图像处理器,被配置成检测与对应于经翻译的数据的用户面部形状的嘴部区域有关的信息,并且基于所检测到的信息来创建改变后的用户面部形状。
所述显示装置还可以包括输入器,所述输入器被配置成接收用户面部形状和语音。
所述显示装置还可以包括输出器,所述输出器被配置成输出经翻译的语音和改变后的用户面部形状。
所述图像处理器可以被配置成将所述改变后的用户面部形状同步到所述经翻译的语音。
所述语音处理器可以被配置成比较所述输入的语音的长度和所述经翻译的语音的长度,并且基于所述比较来调整所述经翻译的语音的长度。
另外,所述语音处理器可以被配置成提取所述输入的语音的音调、音高以及声音质量中的至少一个特性,并且将所提取的特性应用到所述经翻译的语音。
与所述嘴部区域有关的信息可以被配置成存储的嘴部形状的图像。
所述图像处理器可以被配置成从所述经翻译的数据中提取音位并搜索相应的嘴部形状的图像,并且在面部形状中编辑搜索到的嘴部形状的图像以创建改变后的用户面部形状。
所述显示装置还可以包括:通信器,被配置成与服务器通信,其中,所述通信器向所述服务器发送用户面部形状和输入的语音,并且从所述服务器接收所述经翻译的语音和改变后的用户面部形状。
附图说明
通过参考附图描述一定的本公开,示例性实施例的以上和/或其它方面将更加清楚,在附图中:
图1是根据示例性实施例的显示装置的框图;
图2是根据示例性实施例的显示装置的框图;
图3是根据示例性实施例的服务器的框图;
图4是说明根据示例性实施例的检测嘴部区域信息的过程的视图;
图5是说明根据示例性实施例的创建改变后的用户面部形状的过程的视图;
图6是说明根据示例性实施例的创建改变后的用户面部形状的过程的视图;
图7是说明根据示例性实施例的输出改变后的语音和图像的视图;
图8是说明根据示例性实施例的面部变化系统的时序图;
图9是说明根据另一示例性实施例的面部变化系统的时序图;
图10是说明根据另一示例性实施例的面部变化系统的时序图;并且
图11是根据示例性实施例的控制显示装置的方法的流程图。
具体实施方式
下面参照附图更详细地描述某些示例性实施例。
在以下描述中,即使在不同的附图中,相似的附图标号也用于相似的元素。提供描述中定义的主题,诸如详细的构造和元素,是为了帮助全面理解示例性实施例。然而,也可以在没有那些具体定义的主题的情况下实践示例性实施例。并且,因为熟知的功能或构造将以不必要的细节使应用模糊,所以将不对它们进行详细描述。
图1是图示根据示例性实施例的显示装置的框图。参考图1,显示装置100包括输入器110、语音处理器121、图像处理器122、以及输出器130。
例如,显示装置100可以是平板PC、便携式多媒体播放器(PMP)、个人数字助理(PDA)、智能电话、移动电话、数字相框、游戏机、PC、膝上型计算机、数字TV、或者资讯站(kiosk)等等。
输入器110接收用户面部形状和语音的输入。
语音处理器121分析输入的语音并提取经翻译的数据,并且将所提取的经翻译的数据转换成经翻译的语音。在示例性实施例中,语音处理器121接收包含用户语音的具有模拟格式的音频信号并且将它转换成数字信号。从输入的数字信号中去除噪声。已经去除噪声的数字信号被创建为文本信息。所创建的文本信息被分析,并且然后被翻译成确定的语言。有可能将特定的语言设置为默认语言。或者用户可以选择可翻译的语言。例如,英语可以被设置为默认语言,然后用户可以将默认语言改为日语、韩语、法语和西班牙语等等。
已经被翻译的文本信息被称为经翻译的数据。经翻译的数据可以被用在图像处理器122中以改变用户面部形状。此外,经翻译的数据可以被转换成将要由语音处理器121处理的具有模拟格式的经翻译的语音。
语音处理器121可以比较输入的语音的长度和经翻译的语音的长度,并且调整经翻译的语音的长度。此外,语音处理器121可以提取输入的语音的音调、音高、以及声音质量中的至少一个特性,并且将所提取的特性应用到经翻译的语音。在下文中将更详细地说明这个过程。
图像处理器122可以检测与对应于经翻译的数据的用户面部形状的嘴部区域有关的信息,并且基于所检测到的嘴部区域信息来创建改变后的用户面部形状。
图像处理器122从经翻译的数据中提取音位。音位是语言中重要的最小声音单元。例如,Hello可以被表示为发“helou”的音,并且用户可以根据发音符号(pronunciation symbol)来发它的音。因此,Hello的音位可以被分离成[hel]、[lo]和[u]。图像处理器122从可视音位或者存储的视位(viseme)当中搜索相应的可视音位。可视音位指的是可以用来描述特定声音的图像。例如,它可以是对应于每个音位的嘴部形状的图像。
例如,在Hello的情况下,图像处理器122搜索对应于[hel]、[lo]和[u]的嘴部形状图像。当不存在准确对应于[hel]、[lo]和[u]的嘴部形状图像时,可以使用相关性来搜索最相关的嘴部形状图像来作为相应的嘴部形状图像。
图像处理器122从搜索到的嘴部形状图像中检测与嘴部区域有关的信息。与嘴部区域有关的信息可以是具有已经被连接的、所存储的嘴部形状图像的特征点(characteristic point)的网格信息(mesh information),或者所存储的嘴部形状图像。图像处理器122可以将网格信息映射到输入的用户面部的形状以便创建改变后的用户面部形状。否则,图像处理器122可以在输入的用户面部形状中编辑搜索到的嘴部形状图像以创建改变后的用户面部形状。图像处理器122可以将改变后的用户面部形状同步到经翻译的语音。
输出器130输出经翻译的语音以及改变后的用户面部形状。
图2是根据另一示例性实施例的显示装置的框图。
参考图2,显示装置100a可以包括输入器110、控制器120、输出器130和通信器140。
输入器110接收用户的面部形状和语音的输入。输入器110可以包括麦克风111和/或摄影器112。麦克风111接收用户的语音,而摄影器112接收用户的面部形状。麦克风111将由用户语音的声波产生的机械振动转换成电信号,并且向图像处理器122发送转换后的电信号。
在图2中,示出了输入器110包括麦克风111以及摄影器112,但是输入器110可以从通信器140和存储装置(未示出)等等接收面部形状和语音的输入。例如,输入器110可以通过通信器140从另一个显示装置或者服务器接收面部形状和语音的输入,或者可以从存储在存储装置中的内容中接收面部形状和语音的输入。在这种情况下,输入器110可以以与输入接口相同的方式操作。
控制器120可以包括语音处理器121和图像处理器122。语音处理器121和图像处理器122的操作与图1中所说明的相同,从而省略了进一步说明。然而,虽然图1图示了彼此分离的语音处理器121和图像处理器122,但是它们可以是一个控制器120的分离的模块,如图2中那样。
输出器130输出经翻译的语音以及改变后的用户面部形状。输出器130可以包括扬声器131和显示器132。也就是说,扬声器131可以输出经翻译的语音,而显示器132可以输出改变后的用户面部形状。此外,输出器130可以向通信器140和存储装置(未示出)输出经翻译的语音和用户面部形状的改变后的形状。例如,输出器130可以通过通信器140向另一个显示装置或者服务器等等发送经翻译的语音和用户面部形状,或者可以将经翻译的语音和用户面部形状存储在存储装置中。在这种情况下,输出器130可以以与输出接口相同的方式操作。
通信器140可以执行与服务器的通信以便向服务器发送用户的面部形状和语音,并且可以从服务器接收经翻译的语音。此外,通信器140可以接收改变后的用户面部形状或者嘴部区域信息。服务器可以将对应于音位的嘴部形状的图像存储在数据库中。显示装置100可以向服务器发送通过通信器140输入的用户面部形状和语音。服务器可以将用户的语音转换成经翻译的语音。此外,服务器可以检测可用来创建改变后的用户面部形状的嘴部区域信息,或者可以改变用户面部形状。通信器140可以将改变后的用户面部形状或者检测到的嘴部信息与经翻译的语音一起接收。
下文中是对用于提取用于翻译用户的语音和改变用户面部形状的信息的服务器的框图的说明。
图3是根据示例性实施例的服务器的框图。
参考图3,服务器200包括通信器210、语音处理器221、和图像处理器222。
通信器210从显示装置接收用户的面部形状和语音。
语音处理器221分析接收到的语音并提取经翻译的数据,并且将所提取的经翻译的数据转换成经翻译的语音。在示例性实施例中,语音处理器221从接收到的语音中创建文本信息,并且分析所创建的文本信息以执行翻译。当执行翻译时,经翻译的数据被创建。此外,语音处理器221将经翻译的数据转换成经翻译的语音。
语音处理器221可以比较输入的语音的长度和经翻译的语音的长度,并且可以调整经翻译的语音的长度。此外,语音处理器221可以提取输入的语音的音调、音高、以及声音质量中的至少一个特性,并且可以将所提取的特性应用到经翻译的语音。
图像处理器222使用所创建的经翻译的数据来检测与用户面部形状的嘴部区域有关的信息。服务器200可以存储音位或者对应于音位的嘴部形状图像。此外,服务器200可以创建用户简档,并且可以将每个用户的对应于音位的嘴部形状的图像存储在用户简档中。此外,服务器200可以使用接收到的用户面部形状和语音来存储新的嘴部形状的图像或者更新所存储的嘴部形状的图像。
图像处理器222从经翻译的数据中提取音位并且搜索相应的嘴部形状的图像。当没有相应的嘴部形状的图像时,可以使用相关性来搜索最紧密相关的嘴部形状的图像来作为相应的嘴部形状的图像。
图像处理器222可以从搜索到的嘴部形状的图像中检测嘴部区域信息。嘴部区域信息可以是具有已经连接的、所存储的嘴部形状的图像的特征点的网格信息,或者所存储的嘴部形状的图像。
通信器210可以向显示装置发送经翻译的语音和嘴部区域信息。
或者,图像处理器222可以检测与对应于经翻译的数据的用户面部形状有关的嘴部区域信息,并且基于所检测到的嘴部区域信息来创建改变后的用户面部形状。响应于嘴部区域信息为网格信息,网格信息可以被映射到所接收到的用户面部形状的嘴部区域以便创建改变后的用户面部形状。响应于检测到的嘴部区域的信息是嘴部形状的图像,可以在接收到的用户面部形状中编辑搜索到的嘴部形状的图像以便创建改变后的用户面部形状。在这种情况下,通信器210可以向显示装置发送经翻译的语音和改变后的用户面部形状。
上述是与示例性实施例的显示装置和服务器的配置有关的说明。以下是与检测嘴部区域信息和创建改变后的用户面部形状的过程有关的说明。
图4是说明根据示例性实施例的检测嘴部区域信息的过程的视图。
参考图4,示出了音位和与音位相对应的可视视位。音位是语言中重要的最小声音单元。可视视位可以是对应于每个音位的嘴部形状的图像。
显示装置可以存储音位和对应于音位的嘴部形状的图像。发音符号[a]的音位11-1对应于在发[a]的音时的嘴部形状图像11-2,并且[a]的音位11-1和当发[a]的音时的嘴部形状图像11-2被存储在显示装置中。类似地,发音符号[e]、[i]、[o]、[u]的音位13-1、15-1、17-1和19-1以及对应于每个发音符号的嘴部形状图像13-2、15-2、17-2、19-2被存储在显示装置中。
初始阶段时的显示装置可以在其中存储了对应于每个音位的、标准用户的嘴部形状的图像。当显示装置接收到用户的嘴部形状的图像的输入时,显示装置可以将接收到的用户的嘴部形状图像与相应的音位进行匹配,并且可以额外地存储所输入的用户的嘴部形状的图像,或者可以用新输入的嘴部形状的图像来替代所存储的嘴部形状图像。因为音位和相应的嘴部形状的图像是基于发音符号的,所以不管是什么语言它们都可以被使用。
当用户的语音被输入时,显示装置分析输入的语音并提取经翻译的数据。在示例性实施例中,输入的语音被转换成文本信息,并且转换后的文本信息被翻译成另一种语言。翻译后的文本信息被称为经翻译的数据。显示装置将经翻译的数据分离成音位,并且搜索对应于每个音位的嘴部形状的图像。例如,当显示装置确定[a]发音11-1时,它搜索对应于[a]发音的嘴部形状的图像11-2。同样地,显示装置基于经翻译的数据搜索嘴部形状的图像。
显示装置从搜索到的嘴部形状的图像中检测嘴部区域信息,并且创建改变后的用户面部形状。
图5是说明根据示例性实施例的创建改变后的用户面部形状的过程的视图。
图5示出了输入的用户面部形状21-1和改变后的用户面部形状21-2。如图4中所图示的,显示装置从嘴部形状的图像中检测嘴部区域信息。在示例性实施例中,嘴部区域信息可以是其中已经连接了特征点的网格信息。显示装置从输入的用户面部形状的嘴部区域23-1中提取特征点。例如,根据唇线可以提取多个特征点。显示装置连接所提取的特征点并创建网格结构。
此外,显示装置提取多个特征点并且沿着搜索到的嘴部形状的图像的唇线连接所述特征点以创建网格结构。网格结构指的是通过连接三个特征点而形成的三角形结构。期望的是用户面部形状的嘴部区域23-1的特征点的数目和位置与搜索到的嘴部形状的图像的特征点的数目和位置相同。
显示装置使用用户面部形状的嘴部区域23-1的特征点和搜索到的嘴部形状的图像的特征点的坐标之间的差以及相应的网格结构的尺寸面积来计算用户面部形状的嘴部区域23-1的改变后的值。显示装置将计算出的改变后的值应用到用户面部形状的嘴部区域23-1。用户面部形状的嘴部区域23-1被改变为如搜索到的嘴部形状的图像中那样。因此,包括改变后的嘴部区域23-2的改变后的用户面部形状21-2被创建。
图6是说明根据另一示例性实施例的创建改变后的用户面部形状的过程的视图。
参考图6,根据另一示例性实施例,图示了用户面部形状25-1和改变后的用户面部形状25-2。显示装置检测嘴部区域信息。在这里,嘴部区域信息指的是搜索到的嘴部形状的图像。显示装置从输入的用户面部形状25-1中检测嘴部区域27-1并且提取某一区域。
显示装置在用户面部形状25-1的嘴部区域27-1中编辑搜索到的嘴部形状图像。因此,具有搜索到的嘴部形状的图像27-2的改变后的用户面部形状25-2被创建。
显示装置可以额外地对所提取的区域的边界执行图像处理,从而嘴部区域的编辑能够显得自然。例如,可以应用渐变以减小色差,或者可以执行诸如“模糊”之类的图像处理过程以减小对差别的感觉。此外,显示装置可以针对某一检测到的区域的边界线提取特征点,并且也执行改变边界线的过程。显示装置可以将经翻译的数据转换成经翻译的语音,并且将其连同改变后的用户面部形状一起输出。
图7是说明根据示例性实施例的输出改变的语音和图像的视图。图7图示了hello被翻译并且然后与用户的改变后的图像一起被输出的过程。
显示装置将经翻译的数据转换成经翻译的语音。转换成经翻译的语音可以由语音处理器执行。显示装置可以提取输入的语音的特性,并且将所述特性应用到经翻译的语音。例如,语音的特性是音调、音高以及声音质量等等。诸如语音的音调、音高以及声音质量的语音特性可以通过检测频率特性和噪声程度来提取。此外,检测到的频率特性和噪声程度可以被应用到转换后的经翻译的语音,从而可以被转换成与输入的语音类似的经翻译的语音。
此外,显示装置可以比较输入的语音的长度和经翻译的语音的长度以便调整经翻译的语音的长度。例如,当用户的输入的语音的长度是5秒而经翻译的语音的长度是7秒时,经翻译的语音的长度可以被调整为5秒或者接近于5秒。通过调整经翻译的语音的长度可以使实时视频电话或者视频会议成为可能。
同样地,显示装置可以进行调整以使得输入的语音的特性被应用到经翻译的语音,并且使得经翻译的语音的长度变得与输入的语音的长度类似。显示装置可以将改变后的用户面部形状同步到经翻译的语音并且输出结果。同步指的是同时输出用户面部形状的改变后的形状的嘴部形状和经翻译的语音,从而它们彼此对应。
在图7的第一帧31部分中,经翻译的语音被输出为[he-]31-2,并且被同步的嘴部形状31-1也被输出为发[he-]的音。在第二帧33部分,经翻译的语音被输出为[llo-]33-2,并且被同步的嘴部形状33-1也被输出为发[llo-]的音。
在第三帧35部分,经翻译的语音被输出为[u-](35-2),并且被同步的嘴部形状35-1被输出为发[u-]的音。
上述是与在显示装置中创建改变后的用户面部形状的过程有关的说明。然而,在一些情况下,作为替代,可以在服务器中执行创建改变后的用户面部形状。在服务器中创建改变后的用户面部形状的过程与在显示装置中执行的过程相同。或者,服务器可以执行语音翻译和对嘴部区域信息的提取,并且显示装置可以接收所提取的嘴部区域信息以及创建改变后的用户面部形状。
图8是说明根据示例性实施例的转换系统的时序图。
参考图8,显示装置100向服务器200发送用户的面部形状和语音(S810)。服务器200分析接收到的语音并提取经翻译的数据,将经翻译的数据转换成经翻译的语音,并且检测与对应于经翻译的数据的用户面部形状有关的嘴部区域信息(S820)。服务器200将接收到的语音转换成文本信息并且翻译所转换的文本信息。然后服务器200将经翻译的数据分离成音位并且搜索对应于所述音位的嘴部形状的图像。
响应于嘴部区域信息是网格信息,服务器200从搜索到的嘴部形状的图像和接收到的用户面部形状的嘴部区域中提取特征点,并提取网格信息。服务器200利用搜索到的嘴部形状的图像和接收到的用户面部形状的嘴部区域之间的网格信息的差来计算转换关系。也就是说,嘴部区域信息可以是具有转换关系的网格信息或者是用来计算转换关系的信息,或者其自身是搜索到的嘴部形状的图像。
服务器200向显示装置100发送经翻译的语音及检测到的嘴部区域信息(S830)。显示装置100基于接收到的嘴部区域信息创建用户面部形状,并且输出经翻译的语音和改变后的用户面部形状(S840)。
图9是说明根据另一示例性实施例的转换系统的时序图。
参考图9,显示装置100向服务器200发送用户的面部形状和语音(S910)。服务器200分析接收到的语音并提取经翻译的数据,并且将经翻译的数据转换成经翻译的语音,并且检测与对应于经翻译的数据的用户面部形状有关的嘴部区域信息,以及形成从用户面部形状映射的改变后的用户面部形状(S920)。嘴部区域信息可以是从用户面部形状的嘴部区域的网格信息和嘴部形状图像的网格信息中计算的转换关系、网格信息自身、或者搜索到的嘴部形状的图像。
服务器200向显示装置100发送经翻译的语音和改变后的用户面部形状(S930)。显示装置100输出接收到的经翻译的语音以及改变后的用户面部形状(S940)。具体过程与上述的相同,从而被省略。
图8和图9示出了显示装置100向服务器200发送用户面部形状和语音、并且将嘴部区域信息或者改变后的用户面部形状连同经翻译的语音一起从服务器200接收的过程。然而,服务器200可以向除了发送用户面部形状和语音的显示装置之外的另一个显示装置发送所检测到的或者所创建的数据。
图10是说明根据另一示例性实施例的转换系统的时序图。
参考图10,转换系统可以包括第一显示装置100-1、第二显示装置100-2和服务器200。第一显示装置100-1向服务器200发送用户面部形状和语音(S1010)。用户面部形状和语音可以被输入到第一显示装置100-1中并被实时发送,或者可以被存储在第一显示装置100-1的存储装置中,然后被发送。
服务器分析接收到的语音并提取经翻译的数据,并且将经翻译的数据转换成经翻译的语音。此外,服务器200检测与对应于经翻译的数据的用户面部形状有关的嘴部区域信息。在一些情况下,服务器200可以创建从检测到的嘴部区域信息映射的改变后的用户面部形状(S1020)。
当服务器200检测到嘴部区域信息时,服务器200将嘴部区域信息连同经翻译的语音一起发送到第二显示装置100-2。或者,当服务器200创建了改变后的用户面部形状时,服务器200可以将所创建的改变后的用户面部形状连同经翻译的语音一起发送(S1030)。
当服务器200向第二显示装置100-2发送了嘴部区域信息时,第二显示装置100-2基于接收到的嘴部区域信息创建改变后的用户面部形状,并且输出经翻译的语音和改变后的用户面部形状(S1040-1)。
当服务器200向第二显示装置100-2发送了改变后的用户面部形状时,第二显示装置100-2将接收到的改变后的用户面部形状连同经翻译的语音一起输出(S1040-2)。
也就是说,第二显示装置100-2可以创建改变后的用户面部形状并将其输出,或者输出从服务器200接收的改变后的用户面部形状。或者,服务器200可以向发送用户面部形状和语音的显示装置发送改变后的用户面部形状或者嘴部区域信息,或者可以向另一显示装置发送改变后的用户面部形状和嘴部区域信息。
图11是根据示例性实施例的控制显示装置的方法的流程图。
参考图11,显示装置接收用户面部形状和语音(S1110)。显示装置分析输入的语音并且计算经翻译的数据(S1120)。经翻译的数据是通过将输入的语音转换成文本信息并且翻译所转换的文本信息而产生的数据。显示装置利用经翻译的数据来检测音位,并且搜索对应于所检测到的音位的嘴部形状的图像。
显示装置检测对应于经翻译的数据的用户面部形状的嘴部区域信息,并且基于检测到的嘴部区域信息来创建改变后的用户面部形状(S1130)。具体过程的说明已在前面提到,从而被省略。
显示装置将经翻译的数据转换成经翻译的语音(S1140)。显示装置可以提取输入的语音的音调、音高以及声音质量中的至少一个特性,并且可以将所提取的特性应用到经翻译的语音。此外,显示装置可以比较输入的语音的长度和经翻译的语音的长度,并且可以调整经翻译的语音的长度。
显示装置输出经翻译的语音和改变后的用户面部形状(S1150)。显示装置可以将改变后的用户面部形状同步到经翻译的语音并且可以将其输出。
根据上述各种示例性实施例的控制显示装置的方法可以具体实现在程序中并且被提供在显示装置中。
例如,可以提供非瞬时计算机可读存储介质,其将程序作为数据结构存储在其中,并且执行以下步骤:分析输入的语音和提取经翻译的数据的步骤;检测与对应于经翻译的数据的用户面部形状的嘴部区域有关的信息、并且基于与检测到的嘴部区域有关的信息来创建用户面部形状的改变的形状的步骤;将经翻译的数据转换成经翻译的语音的步骤;以及输出经翻译的语音以及改变后的用户面部形状的步骤。
非瞬时可读存储介质指的是其中有可能半永久地和非临时地存储数据并通过比如电阻器、高速缓存和存储器等等的设备读取所存储的数据的介质。更具体地,上述各种应用或者程序可以在非瞬时可读存储介质中存储和提供,所述非瞬时可读存储介质比如CD、DVD、硬盘、蓝光盘TM、USB、存储卡和ROM等等。
尽管已经示出和描述了少数示例性实施例,但本领域技术人员将会理解,可以对这些示例性实施例做出改变而不偏离本发明的原理和精神,本发明的范围在权利要求及其等效物中被定义。

Claims (15)

1.一种显示装置,包括:
输入器,被配置成接收用户面部形状和语音;
语音处理器,被配置成分析输入的语音并提取经翻译的数据,并且将经翻译的数据转换成经翻译的语音;
图像处理器,被配置成检测与对应于经翻译的数据的用户面部形状的嘴部区域有关的信息,并且基于所检测到的与嘴部区域有关的信息来创建改变后的用户面部形状;以及
输出器,被配置成输出经翻译的语音和改变后的用户面部形状。
2.根据权利要求1所述的显示装置,
其中,所述图像处理器被配置成将所述改变后的用户面部形状同步到所述经翻译的语音。
3.根据权利要求1所述的显示装置,
其中,所述语音处理器被配置成比较所述输入的语音的长度和所述经翻译的语音的长度,并且基于所述比较来调整所述经翻译的语音的长度。
4.根据权利要求1所述的显示装置,
其中,所述语音处理器被配置成提取所述输入的语音的音调、音高以及声音质量中的至少一个特性,并且将所提取的特性应用到所述经翻译的语音。
5.根据权利要求1所述的显示装置,
其中,与所述嘴部区域有关的信息被配置成其中连接了所存储的嘴部形状的图像的特征点的网格信息,并且
所述图像处理器从所述经翻译的数据中提取音位并搜索相应的嘴部形状的图像,并且将其中连接了搜索到的嘴部形状的图像的特征点的网格信息映射到用户面部形状以便创建改变后的用户面部形状。
6.根据权利要求1所述的显示装置,
其中,与所述嘴部区域有关的信息是所存储的嘴部形状的图像,并且
所述图像处理器被配置成从所述经翻译的数据中提取音位并搜索相应的嘴部形状的图像,并且在所述面部形状中编辑搜索到的嘴部形状的图像以创建改变后的用户面部形状。
7.根据权利要求1所述的显示装置,
还包括:
通信器,被配置成与服务器通信,
其中,所述通信器向所述服务器发送所述用户面部形状和输入的语音,并且从所述服务器接收所述经翻译的语音和改变后的用户面部形状。
8.根据权利要求1所述的显示装置,
还包括通信器,其被配置成与服务器通信,
其中,所述通信器被配置成向所述服务器发送所述用户面部形状和输入的语音,并且从所述服务器接收所述经翻译的语音和嘴部区域信息,并且
所述图像处理器被配置成基于接收到的与所述嘴部区域有关的信息来创建改变后的用户面部形状。
9.一种被配置成与显示装置通信的服务器,所述服务器包括:
通信器,被配置成从所述显示装置接收用户面部形状和语音;
语音处理器,被配置成分析接收到的语音并提取经翻译的数据,并且将经翻译的数据转换成经翻译的语音;以及
图像处理器,被配置成检测与对应于所述经翻译的数据的用户面部形状的嘴部区域有关的信息,
其中,所述通信器被配置成将与所述嘴部区域有关的信息和所述经翻译的语音一起发送到所述显示装置。
10.根据权利要求9所述的服务器,
其中,所述图像处理器被配置成基于检测到的与所述嘴部区域有关的信息来创建改变后的用户面部形状,并且
所述通信器被配置成将所述改变后的用户面部形状和所述经翻译的语音一起发送到所述显示装置。
11.一种包括显示装置和服务器的转换系统,该系统包括:
显示装置,被配置成向所述服务器发送输入的用户面部形状和输入的语音;以及
服务器,被配置成分析所述输入的语音并提取经翻译的数据,并且将经翻译的数据转换成经翻译的语音,以及检测与对应于所述经翻译的数据的用户面部形状的嘴部区域有关的信息,以便创建从所述用户面部形状映射的改变后的用户面部形状,
其中,所述显示装置被配置成将所述改变后的用户面部形状或者与所述嘴部区域有关的信息连同所述经翻译的语音一起从所述服务器接收。
12.一种控制显示装置的方法,该方法包括:
接收用户面部形状和语音;
分析输入的语音并提取经翻译的数据;
检测与对应于所述经翻译的数据的用户面部形状的嘴部区域有关的信息,并且基于所检测到的与所述嘴部区域有关的信息来创建改变后的用户面部形状;
将所述经翻译的数据转换成经翻译的语音;以及
输出所述经翻译的语音和所述改变后的用户面部形状。
13.根据权利要求12所述的方法,
其中,所述输出将所述改变后的用户面部形状与所述经翻译的语音同步。
14.根据权利要求12所述的方法,
还包括比较所述输入的语音的长度和所述经翻译的语音的长度,并且基于所述比较来调整所述经翻译的语音的长度。
15.根据权利要求12所述的方法,
还包括提取所述输入的语音的音调、音高以及声音质量中的至少一个特性,并且将所提取的特性应用到所述经翻译的语音。
CN201410274057.0A 2013-06-18 2014-06-18 包括显示装置和服务器的翻译系统及其控制方法 Pending CN104239394A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2013-0069993 2013-06-18
KR1020130069993A KR20140146965A (ko) 2013-06-18 2013-06-18 디스플레이 장치, 서버를 포함하는 변환 시스템 및 디스플레이 장치의 제어 방법

Publications (1)

Publication Number Publication Date
CN104239394A true CN104239394A (zh) 2014-12-24

Family

ID=51178654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410274057.0A Pending CN104239394A (zh) 2013-06-18 2014-06-18 包括显示装置和服务器的翻译系统及其控制方法

Country Status (4)

Country Link
US (1) US20140372100A1 (zh)
EP (1) EP2816559A3 (zh)
KR (1) KR20140146965A (zh)
CN (1) CN104239394A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018108013A1 (zh) * 2016-12-14 2018-06-21 中兴通讯股份有限公司 一种媒体显示方法及终端
CN112562721A (zh) * 2020-11-30 2021-03-26 清华珠三角研究院 一种视频翻译方法、系统、装置及存储介质

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150068609A (ko) * 2013-12-12 2015-06-22 삼성전자주식회사 이미지 정보 표시 방법 및 장치
JP6663444B2 (ja) * 2015-10-29 2020-03-11 株式会社日立製作所 視覚情報と聴覚情報の同期方法および情報処理装置
CN109712065A (zh) * 2017-10-25 2019-05-03 丽宝大数据股份有限公司 身体信息分析装置及其脸形模拟方法
US10657972B2 (en) * 2018-02-02 2020-05-19 Max T. Hall Method of translating and synthesizing a foreign language
EP3815050B1 (en) * 2018-05-24 2024-01-24 Warner Bros. Entertainment Inc. Matching mouth shape and movement in digital video to alternative audio
DE102018212902A1 (de) * 2018-08-02 2020-02-06 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Bestimmen eines digitalen Assistenten zum Ausführen einer Fahrzeugfunktion aus einer Vielzahl von digitalen Assistenten in einem Fahrzeug, computerlesbares Medium, System, und Fahrzeug
AU2020211809A1 (en) * 2019-01-25 2021-07-29 Soul Machines Limited Real-time generation of speech animation
KR20210032809A (ko) 2019-09-17 2021-03-25 삼성전자주식회사 동시 통역 방법 및 장치
KR20210112726A (ko) * 2020-03-06 2021-09-15 엘지전자 주식회사 차량의 좌석별로 대화형 비서를 제공하는 방법
KR20220059629A (ko) * 2020-11-03 2022-05-10 현대자동차주식회사 차량 및 그의 제어방법
GB2601162A (en) * 2020-11-20 2022-05-25 Yepic Ai Ltd Methods and systems for video translation
US20220179615A1 (en) * 2020-12-09 2022-06-09 Cerence Operating Company Automotive infotainment system with spatially-cognizant applications that interact with a speech interface
US20220208185A1 (en) * 2020-12-24 2022-06-30 Cerence Operating Company Speech Dialog System for Multiple Passengers in a Car
KR102360919B1 (ko) * 2021-05-28 2022-02-09 주식회사 유콘 음성 더빙 기반의 진행자 영상 편집 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5826234A (en) * 1995-12-06 1998-10-20 Telia Ab Device and method for dubbing an audio-visual presentation which generates synthesized speech and corresponding facial movements
US6697120B1 (en) * 1999-06-24 2004-02-24 Koninklijke Philips Electronics N.V. Post-synchronizing an information stream including the replacement of lip objects
US20100082345A1 (en) * 2008-09-26 2010-04-01 Microsoft Corporation Speech and text driven hmm-based body animation synthesis

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6232965B1 (en) * 1994-11-30 2001-05-15 California Institute Of Technology Method and apparatus for synthesizing realistic animations of a human speaking using a computer
JP4011844B2 (ja) * 2000-09-22 2007-11-21 株式会社国際電気通信基礎技術研究所 翻訳装置、翻訳方法および媒体
JP4310916B2 (ja) * 2000-11-08 2009-08-12 コニカミノルタホールディングス株式会社 映像表示装置
US6925438B2 (en) * 2002-10-08 2005-08-02 Motorola, Inc. Method and apparatus for providing an animated display with translated speech
JP4087400B2 (ja) * 2005-09-15 2008-05-21 株式会社東芝 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
KR101378811B1 (ko) * 2012-09-18 2014-03-28 김상철 단어 자동 번역에 기초한 입술 모양 변경 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5826234A (en) * 1995-12-06 1998-10-20 Telia Ab Device and method for dubbing an audio-visual presentation which generates synthesized speech and corresponding facial movements
US6697120B1 (en) * 1999-06-24 2004-02-24 Koninklijke Philips Electronics N.V. Post-synchronizing an information stream including the replacement of lip objects
US20100082345A1 (en) * 2008-09-26 2010-04-01 Microsoft Corporation Speech and text driven hmm-based body animation synthesis

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018108013A1 (zh) * 2016-12-14 2018-06-21 中兴通讯股份有限公司 一种媒体显示方法及终端
CN108234735A (zh) * 2016-12-14 2018-06-29 中兴通讯股份有限公司 一种媒体显示方法及终端
CN112562721A (zh) * 2020-11-30 2021-03-26 清华珠三角研究院 一种视频翻译方法、系统、装置及存储介质
WO2022110354A1 (zh) * 2020-11-30 2022-06-02 清华珠三角研究院 一种视频翻译方法、系统、装置及存储介质
CN112562721B (zh) * 2020-11-30 2024-04-16 清华珠三角研究院 一种视频翻译方法、系统、装置及存储介质

Also Published As

Publication number Publication date
EP2816559A2 (en) 2014-12-24
EP2816559A3 (en) 2015-01-21
US20140372100A1 (en) 2014-12-18
KR20140146965A (ko) 2014-12-29

Similar Documents

Publication Publication Date Title
CN104239394A (zh) 包括显示装置和服务器的翻译系统及其控制方法
US10176366B1 (en) Video relay service, communication system, and related methods for performing artificial intelligence sign language translation services in a video relay service environment
US20140350933A1 (en) Voice recognition apparatus and control method thereof
CN109754783B (zh) 用于确定音频语句的边界的方法和装置
JP6333260B2 (ja) 単語自動翻訳に基づく唇形状変更装置および方法
KR20140120560A (ko) 통역 장치 제어 방법, 통역 서버의 제어 방법, 통역 시스템의 제어 방법 및 사용자 단말
KR20160056734A (ko) 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
CN103956167A (zh) 一种基于Web的可视化手语翻译方法及设备
CN112242149B (zh) 音频数据的处理方法、装置、耳机及计算机可读存储介质
WO2021227308A1 (zh) 一种视频资源的生成方法和装置
KR20180012639A (ko) 음성 인식 방법, 음성 인식 장치, 음성 인식 장치를 포함하는 기기, 음성 인식 방법을 수행하기 위한 프로그램을 저장하는 저장 매체, 및 변환 모델을 생성하는 방법
EP2747464A1 (en) Sent message playing method, system and related device
KR101517975B1 (ko) 동시 통/번역 기능을 가지는 이어폰 장치
CN111199160A (zh) 即时通话语音的翻译方法、装置以及终端
US10216732B2 (en) Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system
CN112581965A (zh) 转写方法、装置、录音笔和存储介质
CN113782026A (zh) 一种信息处理方法、装置、介质和设备
US20140129228A1 (en) Method, System, and Relevant Devices for Playing Sent Message
CN114120969A (zh) 智能终端的语音识别功能测试方法、系统、电子设备
KR100849027B1 (ko) 음성 신호에 대한 립싱크 동기화 방법 및 장치
CN116108176A (zh) 基于多模态深度学习的文本分类方法、设备及存储介质
CN114283791A (zh) 一种基于高维声学特征的语音识别方法及模型训练方法
CN115171645A (zh) 一种配音方法、装置、电子设备以及存储介质
KR101920653B1 (ko) 비교음 생성을 통한 어학학습방법 및 어학학습프로그램
CN116472705A (zh) 一种会议内容显示的方法、会议系统及会议设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141224