CN1262988C - 音频视频转换设备和音频视频转换方法 - Google Patents

音频视频转换设备和音频视频转换方法 Download PDF

Info

Publication number
CN1262988C
CN1262988C CN03806570.3A CN03806570A CN1262988C CN 1262988 C CN1262988 C CN 1262988C CN 03806570 A CN03806570 A CN 03806570A CN 1262988 C CN1262988 C CN 1262988C
Authority
CN
China
Prior art keywords
unit
voice
video
data
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN03806570.3A
Other languages
English (en)
Other versions
CN1643573A (zh
Inventor
伊福部达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KK B.U.G.
Japan Science and Technology Agency
Original Assignee
Kk Bug
Japan Science and Technology Agency
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kk Bug, Japan Science and Technology Agency filed Critical Kk Bug
Publication of CN1643573A publication Critical patent/CN1643573A/zh
Application granted granted Critical
Publication of CN1262988C publication Critical patent/CN1262988C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Machine Translation (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Studio Circuits (AREA)

Abstract

讲话者的语音被一复述人员复述,该复述人员的语音被识别且讲话者的视频在被显示时被延迟以使其连同字符一起被显示,从而该讲话者的语音可容易地被理解。视频延迟单元(2)输出被视频输入到照相机(1)且被延迟的视频数据。第一语音识别单元(5)识别输入到第一语音输入单元(3)的第一复述人员以第一语言复述的内容并将其转换成可视语言数据。第二语音识别单元(6)识别输入到第二语音输入单元(4)的第二复述人员以第二语言复述的内容并将其转换成第二可视语言数据。设置单元(8)接收来自第一和第二语音识别单元(5,6)的第一和第二语言数据和来自视频延迟单元(2)的延迟的视频数据,设置这些数据的显示布局,建立显示视频,并在一字符视频显示单元(9)上进行显示。

Description

音频视频转换设备和音频视频转换方法
技术领域
本发明涉及音频视频转换设备以及音频视频转换方法。
发明背景
通常,已经使用确切的字幕、精简的抄录及其他辅助性技术和服务来使失聪的人得以参与会议。
现有基于计算机的语音识别技术需要用户高声地读出一些语词,并且预先将用户的语音特征输入到语音识别装置的词典中。即便是限制论题,讲话者所用的存储语音的装置的最高识别率也不超过95%。
本发明人没有报告说有任何的论文或者任何材料示出了与本发明类似的技术,但是以下应用是已知的:日本广播协会(NHK)已经采用了这样一种语音识别方法,当向电视节目添加字幕时,该方法需要介入复述人员;根据Daikin Industries有限公司的新闻报道(2003年1月20日),已经发行了借助于语音识别的Mospy、非线性抄录软件。此软件可以通过重复播放-暂停序列并通过使用语音识别装置、根据录像片段中包括的语音来编译文本。
发明内容
由于常规的字幕和抄录;需要一些经验来创建字幕和抄录;并且没有足够熟练的工人这些大的障碍,所以常规的字幕和抄录服务未曾广泛地被利用。
通常,以语音识别技术的现有水平,任意讲话者发出的语音只能以非常低的精确度来识别。所述技术在噪声环境中可能无法使用。一般的语音识别时间大约为1秒,而经由翻译者的语音识别往往还需要2或3秒。经由语音识别获得的文本在时间上落后于讲话者的面部表情等等,从而无法使用可视数据来理解上下文含义,所述可视数据诸如嘴唇的移动、讲话者的面部表情以及手语。例如,日文包括许多发音相同但意思不同(同音异义)的汉字(日本汉字)。如果无法根据上下文含义猜测出正确的意思,那么可能发生错误转换。以现代技术水平,很难自动地理解上下文含义,语音识别装置的用户应该选择日本汉字。现有语音识别技术的另一个问题在于:在讲话者或者论题改变之后,识别率立即下降。所述语音识别装置必须用于安静的环境,同时专用的麦克风必须保存在接近讲话者嘴的预定位置上。
故而在会议中,难以使用常规的语音识别装置作为翻译者或者失聪人员的助手。
由Daikin开发的NHK的语音识别系统和产品没有使用互联网或者其它电信电路,从而无法提供远程用户辅助服务以供在家上班或者远方的翻译者或者复述人员使用。
考虑到上述几点,本发明的目的在于提供这样一种音频视频转换设备、音频视频转换方法,其中复述人员重复由任意讲话者发出的语音;语音识别装置将所述语音转换为文本;并且在一定延迟之后、将用于显示他或她的面部表情等等的讲话者图像以及对应文本显示在屏幕等上;以便帮助失聪人员以及其他人理解由讲话者发出的语音。
本发明的另一个目的在于提供这样一种音频视频转换设备、音频视频转换方法,其中复述人员重复由演讲者或者翻译者发出的语音;语音识别装置将所述语音转换为文本;并且将所述文本连同演讲者的相应图像显示在屏幕上;作为失聪人员的辅助性装置参加国际会议、多边或者双边的会议及其他会议。
本发明的另一个目的在于翻译其中使用不同语言的国际会议,以便立即打印那些会议的内容(信息补偿),帮助正在开会或者演讲的失聪人员以及其他人,并且在经由电话向复述人员传输语音之后、向用户提供文本信息。本发明的又一个目的在于提供一种音频视频转换设备、音频视频转换方法,其帮助用户跨越不同语言系统的边界而与讲话者通信。
本发明的另一个目的在于:借助于经由诸如互联网的电信通路执行通信的电信电路、通过添加用于将讲话者的语音和图像传输给在家或远方的翻译者、复述人员或者校正人员的装置,使如上所述的系统可以为在任何地方的用户所利用。本发明还包括这样一个目的,即提供一种系统,其中复述人员和翻译者可以从事基于家庭的事业,并且使很难从家里出去的残障人员在家从事复述人员的工作。
依照本发明的第一解决方案,提供了一种音频视频转换设备,其包括:
照相机,用于拍摄讲话者的面部表情;
视频延迟单元,用于延迟照相机拍摄的图像的视频信号达预定延迟时间之久,并且用于输出延迟的视频数据;
第一语音输入单元,用于接收第一复述人员依照第一语言发出的语音,所述第一复述人员复述讲话者依照第一语言发出的语音;
第二语音输入单元,用于接收第二复述人员依照第二语言发出的语音,所述第二复述人员复述翻译者依照第二语言发出的语音,其中所述翻译者翻译讲话者依照第一语言发出的语音;
第一语音识别单元,用于将从第一语音输入单元发送的依照第一语言发出的语音识别并且转换为第一可视语言数据,并且用于输出所述数据;以及第二语音识别单元,用于将从第二语音输入单元发送的依照第二语言发出的的语音识别并且转换为第二可视语言数据,并且用于输出所述数据;
设置单元,用于接收从第一语音识别单元输出的第一可视语言数据、从第二语音识别单元输出的第二可视语言数据以及由视频延迟单元延迟的讲话者的延迟视频数据,用于确定显示状态,并且用于生成待显示的图像,其中所述第一可视语言数据、第二可视语言数据以及延迟视频数据已经同步化或者近似同步化;
文本和视频显示单元,用于依照来自于设置单元的输出显示待显示的图像,在所述图像中,第一可视语言数据、第二可视语言数据以及延迟视频数据已经同步化或者近似同步化;
输入单元,用于建立一个或多个第一语音识别单元、第二语音识别单元、视频延迟单元以及设置单元;以及
处理器,用于控制第一语音识别单元、第二语音识别单元、视频延迟单元、输入单元以及设置单元。
依照本发明的第二解决方案,提供了一种音频视频转换设备,其包括:
照相机,用于拍摄讲话者的面部表情的图像;
视频延迟单元,用于延迟照相机拍摄的图像的视频信号达预定延迟时间之久,并且用于输出延迟的视频数据;
第一语音输入单元,用于接收第一复述人员依照第一语言发出的语音,所述第一复述人员复述讲话者或者翻译者依照第一语言发出的语音;
第一语音识别单元,用于将从第一语音输入单元发送的依照第一语言发出的语音识别并且转换为第一可视语言数据,并且用于输出所述数据;
设置单元,用于接收从第一语音识别单元输出的第一可视语言数据、以及由视频延迟单元延迟的讲话者的延迟视频数据,用于确定显示状态,并且用于生成待显示的图像,其中所述第一可视语言数据、第二可视语言数据以及延迟视频数据已经同步化或者近似同步化;
文本和视频显示单元,用于依照来自于设置单元的输出显示待显示的图像,在所述图像中,第一可视语言数据以及延迟视频数据已经同步化或者近似同步化;
输入单元,用于建立一个或多个第一语音识别单元、视频延迟单元以及设置单元;以及
处理器,用于控制第一语音识别单元、视频延迟单元、输入单元以及设置单元。
依照本发明的第三解决方案,提供了一种音频视频转换方法,用于将讲话者发出的语音转换为可视的语言数据,并且显示所述语言数据以及讲话者的图像数据,并且所述音频视频转换方法包括:
按照输入单元的指示或者按照适当的存储单元中预定的指示,处理器建立第一语音识别单元、第二语音识别单元和视频延迟单元的步骤;
按照输入单元的指示或者按照适当的存储单元中预定的指示,所述处理器建立设置单元的步骤;
照相机拍摄讲话者的图像的步骤;
按照处理器的指定和控制、所述视频延迟单元延迟照相机拍摄的图像,并且必要时执行适当的图像处理,并输出延迟视频数据的步骤;
第一语音输入单元接收第一复述人员依照第一语言发出的语音的步骤,其中所述第一复述人员复述讲话者依照第一语言发出的语音;
第一语音识别单元识别由第一语音输入单元接收的、第一复述人员依照第一语言发出的语音,并且将所述语音转换为第一可视语言数据的步骤;
第二语音输入单元接收第二复述人员依照第二语言发出的语音的步骤,其中所述第二复述人员复述翻译者依照第二语言发出的语音,而所述翻译者翻译讲话者依照第一语言发出的语音;
第二语音识别单元识别由第二语音输入单元接收的、第二复述人员依照第二语言发出的语音,并且将所述语音转换为第二可视语言数据的步骤;
按照处理器的指定和控制,所述设置单元接收来自于第一语音识别单元的第一语言数据、来自于第二语音识别单元的第二语言数据以及来自于视频延迟单元的延迟视频数据,确定所述第一可视语言数据、第二可视语言数据以及延迟视频数据的显示设置,生成待显示的图像,并输出所述图像的步骤,其中在所述图像中,所述第一可视语言数据、第二可视语言数据以及延迟视频数据已经同步化或者近似同步化;并且
依照来自于设置单元的输出,文本和视频显示单元显示待显示的图像的步骤,在所述图像中,第一语言数据、第二语言数据以及延迟视频数据已经同步化或者近似同步化。
依照本发明的第四解决方案,提供了一种音频视频转换方法,用于将讲话者发出的语音转换为可视的语言数据,并且显示所述语言数据以及讲话者的图像数据,并且所述音频视频转换方法包括:
按照输入单元的指示或者按照适当的存储单元中预定的指示,处理器建立第一语音识别单元和视频延迟单元的步骤;
按照输入单元的指示或者按照适当的存储单元中预定的指示,所述处理器建立设置单元的步骤;
照相机拍摄讲话者的图像的步骤;
按照处理器的指定和控制、所述视频延迟单元延迟照相机拍摄的图像,并且必要时执行适当的图像处理,并输出延迟视频数据的步骤;
第一语音输入单元接收第一复述人员依照第一语言发出的语音的步骤,其中所述第一复述人员复述讲话者或者翻译者依照第一语言发出的语音;
第一语音识别单元识别由第一语音输入单元接收的、第一复述人员依照第一语言发出的语音,并且将所述语音转换为第一可视语言数据的步骤;
按照处理器的指定和控制,所述设置单元接收来自于第一语音识别单元的第一语言数据以及来自于视频延迟单元的延迟视频数据,确定所述第一可视语言数据、第二可视语言数据以及延迟视频数据的显示设置,生成待显示的图像,并输出所述图像的步骤,其中在所述图像中,所述第一可视语言数据、第二可视语言数据以及延迟视频数据通过图像处理已经同步化或者近似同步化;并且
依照来自于设置单元的输出,文本和视频显示单元显示待显示的图像的步骤,在所述图像中,第一语言数据以及延迟视频数据已经同步化或者近似同步化。
依照本发明的第五解决方案,提供了一种音频视频转换设备,其包括:
第一识别装置,包括:第一语音识别单元,用于识别第一复述人员依照第一语言发出的语音,并且将所述语音转换为第一可视语言数据,其中所述第一复述人员复述讲话者依照第一语言发出的语音;第一输入单元,用于建立第一语音识别单元;以及第一处理器,用于控制第一语音识别单元和第一输入单元;
第二识别装置,包括:第二语音识别单元,用于识别第二复述人员依照第二语言发出的语音,并且将所述语音转换为第二可视语言数据,其中所述第二复述人员复述翻译者依照第二语言发出的语音,所述翻译者翻译讲话者依照第一语言发出的语音;第二输入单元,用于建立第二语音识别单元;以及第二处理器,用于控制第二语音识别单元以及第二输入单元;以及
显示装置,用于接收来自于第一识别装置以及第二识别装置的输出,并且显示文本和图像,
所述显示装置包括:
视频延迟单元,用于延迟照相机拍摄的图像信号达预定延迟时间之久,并且输出延迟的视频数据;
设置单元,用于接收来自于第一识别装置的第一可视语言数据、来自于第二识别装置的第二可视语言数据以及由所述视频延迟单元延迟的讲话者的延迟视频数据,用于确定显示状态,并且用于生成待显示的图像,其中所述第一可视语言数据、第二可视语言数据以及延迟视频数据已经同步化或者近似同步化;
文本和视频显示单元,用于显示从设置单元输出的待显示的图像;
第三输入单元,用于建立视频延迟单元和设置单元;以及
第三处理器,用于控制视频延迟单元、第三输入单元以及设置单元。
依照本发明的第六解决方案,提供了一种音频视频转换设备,其包括:
第一识别装置,包括:第一语音识别单元,用于识别第一复述人员依照第一语言发出的语音,并且将所述语音转换为第一可视语言数据,其中所述第一复述人员复述讲话者或者翻译者依照第一语言发出的语音;第一输入单元,用于建立第一语音识别单元;以及第一处理器,用于控制第一语音识别单元和第一输入单元;以及
显示装置,用于接收来自于第一识别装置的输出并且显示文本和图像,
所述显示装置包括:
视频延迟单元,用于延迟照相机拍摄的图像信号达预定延迟时间之久,并且输出延迟的视频数据;
设置单元,用于接收来自于第一识别装置的第一可视语言数据以及由视频延迟单元延迟的讲话者的延迟视频数据,用于确定显示状态,并且用于生成待显示的图像,其中所述第一可视语言数据、第二可视语言数据以及延迟视频数据已经同步化或者近似同步化;
文本和视频显示单元,用于显示从设置单元输出的待显示的图像;
第三输入单元,用于建立视频延迟单元和设置单元;以及
第三处理器,用于控制视频延迟单元、第三输入单元以及设置单元。
依照本发明的第七解决方案,提供了一种音频视频转换方法,用于将讲话者发出的语音转换为可视的语言数据,并且显示所述语言数据以及讲话者的图像数据,并且所述音频视频转换方法包括:
分别按照第一输入单元、第二输入单元和第三输入单元的指示或者按照适当的存储单元中的预定指示,第一处理器、第二处理器和第三处理器建立第一识别单元、第二识别单元和视频延迟单元的步骤;
按照第三输入单元的指示或者按照适当的存储单元中预定的指示,所述第三处理器建立设置单元的步骤;
按照第三处理器的指定和控制、所述视频延迟单元延迟照相机拍摄的讲话者图像,并且必要时执行适当的图像处理,并输出延迟视频数据的步骤;
第一语音识别单元识别由第一复述人员依照第一语言发出的语音、并且将所述语音转换为第一可视语言数据的步骤,其中所述第一复述人员复述讲话者依照第一语言发出的语音;
所述第二语音识别单元识别第二复述人员依照第二语言发出的语音、并且将所述语音转换为第二可视语言数据的步骤,其中所述第二复述人员复述翻译者依照第二语言发出的语音,所述翻译者翻译讲话者依照第一语言发出的语音;
按照第三处理器的指定和控制,所述设置单元接收来自于第一语音识别单元的第一可视语言数据、来自于第二语音识别单元的第二可视语言数据以及来自于视频延迟单元的延迟视频数据,确定所述第一可视语言数据、第二可视语言数据以及延迟视频数据的显示设置,生成待显示的图像,并输出所述图像的步骤,其中在所述图像中,所述第一可视语言数据、第二可视语言数据以及延迟视频数据通过图像处理已经同步化或者近似同步化;并且
依照来自于设置单元的输出,文本和视频显示单元显示待显示的图像的步骤,在所述图像中,第一可视语言数据、第二可视语言数据以及延迟视频数据已经同步化或者近似同步化。
依照本发明的第八解决方案,提供了一种音频视频转换方法,用于将讲话者发出的语音转换为可视的语言数据,并且显示所述语言数据以及讲话者的图像数据,并且所述音频视频转换方法包括:
分别按照第一输入单元和第三输入单元的指示或者按照适当的存储单元中的预定指示,第一处理器和第三处理器建立第一语音识别单元和视频延迟单元的步骤;
按照第三输入单元的指示或者按照适当的存储单元中预定的指示,所述第三处理器建立设置单元的步骤;
按照第三处理器的指定和控制、所述视频延迟单元延迟照相机拍摄的讲话者图像,并且必要时执行图像处理,并输出延迟视频数据的步骤;
所述第一语音识别单元识别由第一复述人员依照第一语言发出的语音、并且将所述语音转换为第一可视语言数据的步骤,其中所述第一复述人员复述讲话者或者翻译者依照第一语言发出的语音;
按照第三处理器的指定和控制,所述设置单元接收来自于第一语音识别单元的第一语言数据以及来自于视频延迟单元的延迟视频数据,确定所述第一可视语言数据、第二可视语言数据以及延迟视频数据的显示设置,生成待显示的图像,并输出所述图像的步骤,其中在所述图像中,所述第一可视语言数据、第二可视语言数据以及延迟视频数据通过图像处理已经同步化或者近似同步化;并且
依照来自于设置单元的输出,文本和视频显示单元显示待显示的图像的步骤,在所述图像中,第一可视语言数据以及延迟视频数据已经同步化或者近似同步化。
附图说明
图1是示出了依照第一实施例的音频视频转换设备的结构的示意性框图。
图2是由依照第一实施例的处理器执行的语音转换的流程图。
图3是示出了依照第二实施例的音频视频转换设备的结构的示意性框图。
图4是由依照第二实施例的处理器执行的语音转换的流程图。
图5是示出了依照第三实施例的音频视频转换设备的结构的示意性框图。
图6是示出了依照第四实施例的音频视频转换设备的结构的示意性框图。
具体实施方式
在下文中,将参照附图详细地描述本发明的实施例。
1.第一实施例
图1是示出了依照第一实施例的音频视频转换设备的结构的示意性框图。
本实施例的音频视频转换设备主要用于在多种语言的会议中帮助通信,所述会议诸如国际会议、多边会议和双边会议、会见、演讲、课程、教育等等。依照本实施例的音频视频转换设备包括照相机1、视频延迟单元2、第一语音输入单元3、第二语音输入单元4、第一语音识别单元5、第二语音识别单元6、文本显示单元7、设置单元8、文本和视频显示单元9、输入单元10和处理器11。
照相机1拍摄讲话者A的行为图像。视频延迟单元2延迟从照相机1发送的视频信号达预定延迟时间之久,并输出延迟的视频数据。所述视频延迟单元2提供视频延迟时间,从而可以显示讲话者的行为以及经由语音识别获得的相应文本。这样帮助用户正确地理解上下文含义。所述视频延迟时间可以根据每个会议参与者(诸如失聪人员)的语音读取能力以及讲话者A、复述人员B或者C以及翻译者D的语速和能力进行调节。所述视频延迟单元2可以执行适当的图像处理,诸如放大或者缩小讲话者A的图像等。
第一语音输入单元3包括麦克风,并且输入由第一指定复述人员B发出的语音,所述第一指定复述人员B复述由讲话者A发出的语音。第二语音输入单元4输入由第二指定复述人员C发出的语音,所述第二指定复述人员C复述由翻译者D发出的语音,所述翻译者D翻译由讲话者A发出的语音。如果复述人员B或者C对置于会议场所内安静地方的第一语音输入单元3或者第二语音输入单元4的叙述麦克风讲话,那么可以去除麦克风的背景噪声和影响。
第一语音识别单元5将从第一语音输入单元3发送的语音识别并且转换为第一可视语言数据,诸如文本数据和会意(ideographical)数据。第二语音识别单元6将从第二语音输入单元4发送的语音识别并且转换为第二可视语言数据。依照此实施例,第一语音识别单元5接收第一复述人员B依照第一语言发出的语音(例如日文),并输出依照第一语言的可视语言数据(例如日文文本),其中所述第一复述人员B复述讲话者A依照第一语言发出的语音。第二语音识别单元6接收第二复述人员C依照第二语言(非日文诸如英文之类的)发出的语音,并输出依照第二语言的可视语言数据(非日文文本,诸如英语文本之类的),其中所述第二复述人员C复述翻译者D依照第二语言发出的语音,而所述翻译者D翻译讲话者A依照第一语言发出的语音(例如日文)。
第一语音识别单元5和/或第二语音识别单元6可以选择由第一复述人员B复述的语音、或者由翻译者D翻译并由第二复述人员C复述的语音,或者选择它们两者。将第一语音识别单元5和/或第二语音识别单元6配置为识别由复述人员发出的语音。第一语音识别单元5和/或第二语音识别单元6可以包括选择器,用于允许第一复述人员B和/或第二复述人员C根据讲话者A的论题、会议的主题等,选择存储在第一语音识别单元5和/或第二语音识别单元6中的语言数据库。
第一语音识别单元5和/或第二语音识别单元6可以包括错误转换概率计算单元,用于计算出现从语音字符(假名)到日本汉字的错误转换概率;以及输出确定单元,用于根据错误转换概率计算单元计算的概率来选择日本汉字输出或者假名输出。第一语音识别单元5和/或第二语音识别单元6可以被配置为在启动语音识别以前、计算日文同音异义(homonym)词的错误识别概率,并且对具有高错误识别概率的同音异义词选择假名显示。如果在第一语音识别单元5和/或第二语音识别单元6中没有存储该字,那么第一复述人员B和/或第二复述人员C可能决定以假名显示该字。
文本显示单元7可视地显示依照第一语言从第一语音识别单元5输出的可视语言数据。翻译者D可以翻译、浏览由文本显示单元7显示的第一可视语言数据。
所述设置单元8接收作为第一语音识别单元5识别结果输出的第一可视语言数据、作为第二语音识别单元6识别结果输出的第二可视语言数据以及由视频延迟单元2输出的讲话者A的延迟视频数据,并且确定在文本和视频显示单元9上的显示设置。处理器11设置将在文本和视频显示单元9上显示的一个或多个显示设置项,诸如每单位时间的行数、每单位时间的字符数、每行字符数、色彩、大小、显示位置以及其他显示格式、涉及的第一可视语言数据(文本数据)以及第二可视语言数据(文本数据)以及延迟视频数据。所述设置单元8按照处理器11的指定执行图像处理,诸如放大或者缩小第一可视语言数据、第二可视语言数据以及延迟视频数据,并且生成待显示的图像。
依照设置单元8指定并且生成的输出,所述文本和视频显示单元9组合并且显示作为第一语音识别单元5识别结果输出的第一可视语言数据、作为第二语音识别单元6识别结果输出的第二可视语言数据以及由视频延迟单元2输出的讲话者A的延迟视频数据。
所述输入单元10建立第一语音识别单元5、第二语音识别单元6、视频延迟单元2、设置单元8及其他,并且向适当的数据库、存储器等等发布数据输入指令。所述处理器11是一种小型计算机,其控制第一语音识别单元5、第二语音识别单元6、视频延迟单元2、输入单元10、设置单元8及其他。
图2示出了由依照第一实施例的处理器执行的语音转换的流程图。
所述处理器11按照输入单元10的指示或者按照适当存储单元中的预定指示建立第一语音识别单元5、第二语音识别单元6和视频延迟单元2(步骤S01)。第一语音识别单元5和第二语音识别单元6将按照诸如日本汉字的错误识别率的阈值水平以及待用的语言数据库之类的项目来建立。就视频延迟单元2而言,例如讲话者图像的延迟时间可以指定或者选择。此外,所述处理器11按照输入单元10的指示或者按照适当存储单元中的预定指示建立设置单元8(步骤S03)。所述设置单元8按照待由文本和视频显示单元9显示的第一可视语言数据、第二可视语言数据以及延迟视频数据的显示状态和设置来建立。为可视语言数据指定的项目包括待显示的文本行数目、大小、字体以及待显示的字符色彩以及文本行的显示位置。为延迟视频数据指定的项目包括讲话者图像的大小和显示位置。那些项目根据需要指定。
照相机1拍摄讲话者A的图像(步骤S05)。依照处理器11的指定和控制,视频延迟单元2延迟照相机1拍摄的图像,并且必要时执行适当的图像处理,并输出延迟的视频数据(步骤S07)。
第一语音输入单元3接收由第一复述人员B复述的语音(步骤S11)。按照处理器11的指定和控制,第一语音识别单元5识别第一语音输入单元3接收的、由第一复述人员B依照第一语言复述的语音,并且将所述语音转换为第一可视语言数据(例如日文文本)(步骤S13)。必要时,所述文本显示单元7显示从第一语音识别单元5输出的第一可视语言数据(步骤S15)。
第二语音输入单元4接收(步骤S17)由第二复述人员C发出的语音,所述第二复述人员C复述由翻译者D发出的语音,所述翻译者D翻译由讲话者发出的语音和/或由文本显示单元7显示的第一可视语言数据。按照处理器11的指定和控制,第二语音识别单元6识别第二语音输入单元4接收的、由第二复述人员C依照第二语言复述的语音,并且将所述语音转换为第二可视语言数据(例如非日文文本)(步骤S19)。
按照处理器11的指定和控制,所述设置单元8接收来自于第一语音识别单元5的第一可视语言数据、来自于第二语音识别单元6的第二可视语言数据以及来自于视频延迟单元2的延迟视频数据,确定那些数据的显示设置,必要时通过适当的图像处理生成待显示的图像,并输出所述图像(步骤S21)。依照来自于设置单元8的输出,所述文本和视频显示单元9显示第一可视语言数据、第二可视语言数据以及视频延迟数据(步骤S23)。
如果决定改变设置(步骤S25),那么处理器11返回到步骤S01,并且复述所述处理。如果决定不改变任何设置(步骤S25),并且如果发现讲话者A继续服务(步骤S27),那么处理器11返回以复述步骤S03之后的处理。如果发现讲话者A改为他人(步骤S27),那么处理器11结束处理并且可以重新执行所述处理。
2.第二实施例
图3是示出了依照第二实施例的音频视频转换设备的结构的示意性框图。
本实施例的音频视频转换设备主要用于在会议中帮助通信,所述会议诸如国内会议、双边会议、会见、演讲、课程、教育等等。依照本实施例的音频视频转换设备包括照相机1、视频延迟单元2、第一语音输入单元3、第二语音输入单元4、第一语音识别单元5、文本显示单元7、设置单元8、文本和视频显示单元9、输入单元10、处理器11和选择器20。
第二实施例和第一实施例的不同在于:没有包括第二语音识别单元,而添加了选择器20,但其他结构和操作是相同的。如果不必要,第二语音输入单元和选择器20也可以去除。
图4示出了由依照第二实施例的处理器执行的语音转换的流程图。
第二实施例的处理与第一实施例的处理的不同主要在于:没有包括步骤S17到S19。第一语音输入单元3可以接收由复述人员B发出的语音,或者接收由复述人员C发出的语音,所述复述人员B复述由讲话者发出的语音,而复述人员C复述由翻译者D发出的语音,所述翻译者D翻译由讲话者发出的语音。
所述处理器11按照输入单元10的指示或者按照适当存储单元中的预定指示来建立第一语音识别单元5、视频延迟单元2和选择器20(步骤S101)。如果不包括所述选择器20,那么没有必要建立选择器20。第一语音识别单元5按照日本汉字的错误识别率的阈值水平、待用的语言数据库等等来建立。就视频延迟单元2而言,例如讲话者图像的延迟时间被指定或者选择。所述处理器11按照输入单元10的指示或者按照适当存储单元中的预定指示来建立设置单元8(步骤S103)。所述设置单元8按照待由文本和视频显示单元9显示的第一可视语言数据(在本实施例中为日文文本或者非日文文字)以及延迟视频数据的显示状态和设置来建立。为可视语言数据指定的项目包括待显示的文本行数目、大小、字体以及字符色彩和文本行的显示位置等等的一个或多个。为延迟视频数据指定的项目包括讲话者图像的大小和显示位置等等的一个或多个。那些项目根据需要指定。
照相机1拍摄讲话者A的图像(步骤S105)。按照处理器11的指定和控制,所述视频延迟单元2延迟照相机1拍摄的图像,并且必要时执行图像处理,并输出延迟视频数据(步骤S107)。
第一语音输入单元3接收由第一复述人员B或者第二复述人员C发出的语音(步骤S111)。按照处理器11的指定和控制,第一语音识别单元5识别由第一语音输入单元3接收的、由第一复述人员B或者第二复述人员C依照第一语言发出的语音(在本实施例中是日文或者非日文语言),并且将所述语音转换为第一可视语言数据(在本实施例中是日文或者非日文文本)(步骤S113)。必要时,所述文本显示单元7显示从第一语音识别单元5输出的第一可视语言数据(步骤S115)。
按照处理器11的指定和控制,所述设置单元8接收来自于第一语音识别单元5的第一可视语言数据以及来自于视频延迟单元2的延迟视频数据,确定那些数据的显示设置,生成待显示的图像,并输出所述图像(步骤S121),所述图像必要时可执行适当的图像处理。依照来自于设置单元8的输出,所述文本和视频显示单元9适当地显示第一可视语言数据以及延迟视频数据(步骤S123)。
如果决定改变设置(步骤S125),那么处理器11返回到步骤S101,并且复述所述处理。如果决定不改变任何设置,并且如果发现讲话者A继续服务(步骤S127),那么处理器11返回以执行步骤S103之后的处理。如果发现讲话者A改为他人,那么处理器11结束处理并且可以重新执行所述处理。
3.第三实施例
图5是示出了依照第三实施例的音频视频转换设备的结构的示意性框图。
本实施例的音频视频转换设备用于帮助讲话者和用户跨越不同语言系统之间的边界进行通信,这通过在介入诸如复述人员的第三方的情况下、将讲话者的语音信息转换为文本信息,并且经由电信电路提供讲话者的语言信息以及非语言信息来实现的。
依照与第一实施例同样的方式,依照本实施例的音频视频转换设备用于在多种语言的会议中帮助通信,所述会议诸如国际会议、多边会议和双边会议、会见、演讲、课程、教育等等。本实施例的音频视频转换设备包括讲话者装置100、翻译者装置200、第一复述人员装置300、第二复述人员装置400、第一识别装置500、第二识别装置600、显示装置700以及电信电路800。
讲话者装置100包括照相机1并且必要时包括麦克风。翻译者装置200包括手机和麦克风。第一复述人员装置300包含第一语音输入单元3和手机,而第二复述人员装置400包含第二语音输入单元4和手机。第一识别装置500包括第一语音识别单元5、输入单元10-b、处理器11-b,而第二识别装置600包括第二语音识别单元6、输入单元10-c和处理器11-c。所述显示装置700包括视频延迟单元2、文本显示单元7、设置单元8、文本和视频显示单元9、输入单元10-c和处理器11-c。图中的黑色圆圈表示电信电路800,其中电信通路诸如互联网、局域网、无线局域网、移动电话、PDA及其他,并且在电信通路和相应装置100到700之间提供了输入输出接口。讲话者装置100、翻译者装置200、第一复述人员装置300、第二复述人员装置400、第一识别装置500、第二识别装置600和显示装置700根据需要由电信电路800连接,从而可以交换音频信号和/或视频信号。所述装置可以直接通过电线或者用无线电连接,而不经由任何电信电路800。利用包含电信通路和接口的电信电路800,会议场所中的讲话者A、翻译者D、第一复述人员B、第二复述人员C、第一识别装置500、第二识别装置600和显示装置700等可以位于任何地方,并且可以恰当地安排。
照相机1、视频延迟单元2、第一语音输入单元3、第二语音输入单元4、第一语音识别单元5、文本显示单元7、设置单元8、文本和视频显示单元9、输入单元10-a、输入单元10-b、输入单元10-c、处理器11-a、处理器11-b和处理器11-c可以依照与第一实施例中具有相同参考标记的部件的相同方法来配置和操作。
所述输入单元10-a建立视频延迟单元2、设置单元8及其他,并且向适当的数据库、存储器等等发布数据输入指令。所述处理器11-a是一种小型计算机,其控制视频延迟单元2、输入单元10-a、输入单元10-b、输入单元10-c、设置单元8及其他。所述输入单元10-b和输入单元10-c分别建立第一语音识别单元5和第二语音识别单元6,并且向适当的数据库、存储器等等发布数据输入指令。所述处理器11-b是一种小型计算机,其控制第一语音识别单元5及其他,并且处理器11-c是用于控制第二语音识别单元6及其他的小型计算机。
依照第三实施例的语音转换流程图与依照第一实施例的流程图相同。所述音频视频转换设备如上所述那样进行操作。
4.第四实施例
图6是示出了依照第四实施例的音频视频转换设备的结构的示意性框图。
本实施例的音频视频转换设备用于帮助讲话者和用户跨越不同语言系统之间的边界进行通信,这通过在介入诸如复述人员的第三方的情况下、将讲话者的语音信息转换为文本信息,并且经由电信电路提供讲话者的语言信息以及非语言信息来实现的。
依照与第三实施例同样的方式,依照本实施例的音频视频转换设备用于在多种语言的会议中帮助通信,所述会议诸如国际会议、多边会议和双边会议、会见、演讲、课程、教育等等。本实施例的音频视频转换设备包括讲话者装置100、翻译者装置200、第一复述人员装置300、第二复述人员装置400,第一识别装置500、显示装置700以及电信电路800。
第四实施例和第三实施例的不同在于:没有包括具有第二语音识别单元的第二识别装置600,而是将选择器20包括在第一识别装置500中,但其他结构和操作是相同的。
选择器20的结构和操作与第二实施例中的相同。如果不必要,第二语音输入单元和选择器20也可以去除。
依照第四实施例的语音转换流程图与依照第三实施例的流程图相同。所述音频视频转换设备如上所述那样进行操作。
5.结论
如上所述,依照本实施例的语音识别装置使用了预先存储复述人员发出的语音的语音数据库。当接收到由复述人员发出的语音时,所述语音识别装置执行语音转换,其中所述复述人员复述由讲话者A发出的语音。据此,无论是否是讲话者A,都可以获得高的识别率。如果讲话者A是翻译者D,那么复述人员复述由翻译者D发出的语音,从而能够以较高的识别率将依照非日文语言发出的语音翻译为日文。如果原始语音是依照日文发出的,那么翻译者D将所述语音翻译为非日文语言,并且依照非日文语言复述非日文语音,从而使依照日文发出的语音能够以较高的识别率翻译为非日文语言。因为还可以将由他人发出的询问转换为文本并且显示,故而所述音频视频转换设备可以在会议中实现双向帮助。所述音频视频转换设备可以用作国际会议以及国内会议的通信助手。
本实施例的音频视频转换设备拍摄讲话者A的图像,并且延迟和显示所述图像,以及作为语音识别结果获得的相应文本。据此,可以使用讲话者A的的移动和面部表情、手语及其他视觉信息来理解上下文含义。视频延迟单元2的视频延迟时间可以根据每个失聪人员的唇读能力来进行调节。通过利用他或她的高唇读能力,唇读熟练的失聪人员可以校正语音识别中5%的误差。
根据本发明的文本和视频转换方法、文本和视频转换设备、或者文本和视频转换系统可以作为以下方式被提供,即:由计算机执行每个步骤的文本和视频转换程序;计算机可读记录介质,其上存储有所述文本和视频转换程序;包括文本和视频转换程序的程序产品,其可以载入计算机、服务器或包括所述程序的计算机的内部存储器中。
工业实用性
根据本发明,如上所述,提供了一种音频视频转换设备、音频视频转换方法和音频视频转换程序,其通过以下方式帮助失聪人员以及其他人理解由任意讲话者发出的语音,所述方式为:在复述语音的复述人员和语音识别装置介入的情况下、将讲话者发出的语音转换为文本,并且在延迟之后、在屏幕上显示讲话者相应的面部表情及其他视觉信息以及相应的文本。
此外,根据本发明,提供了一种音频视频转换设备、音频视频转换方法和音频视频转换程序,其通过以下方式来帮助参加国际会议、多边或者双边会议及其他会议的失聪人员,所述方式为:将由复述演讲者或者翻译者发出的语音的复述人员发出的语音输入到语音识别装置中,并且在屏幕上显示作为语音识别结果获得的文本以及演讲者的相应图像。
此外,根据本发明,可以在使用不同语言的国际会议中进行翻译,可以立即打印那些会议的内容(信息补偿);可以为参加会议和演讲的失聪人员以及其他人提供帮助;并且在将语音经由电话传送到复述人员之后、向用户提供文本信息。此外,根据本发明,提供了一种音频视频转换设备、音频视频转换方法和音频视频转换程序,其帮助用户跨越不同语言系统的边界而与讲话者通信。
依照本发明,借助于经由诸如互联网的电信通路允许通信的电信电路、通过添加用于将讲话者的语音和其图像传输给在家工作的或者在远方的翻译者、复述人员或者校正人员的装置,如上所述的系统可以为处于任何地方的用户所利用。此外,根据本发明,复述人员和翻译者通过使用此系统可以从事基于家庭的事业,很难从家庭中走出的残障者可以在家从事复述人员的工作。

Claims (19)

1.一种音频视频转换设备,包括:
照相机,用于拍摄讲话者的面部表情的图像;
视频延迟单元,用于延迟照相机拍摄的图像的视频信号达预定延迟时间之久,并且用于输出延迟的视频数据;
第一语音输入单元,用于接收第一复述人员依照第一语言发出的语音,所述第一复述人员复述讲话者依照第一语言发出的语音;
第二语音输入单元,用于接收第二复述人员依照第二语言发出的语音,所述第二复述人员复述翻译者依照第二语言发出的语音,其中所述翻译者翻译讲话者依照第一语言发出的语音;
第一语音识别单元,用于将从第一语音输入单元发送的依照第一语言发出的语音识别并且转换为第一可视语言数据,并且用于输出所述数据;以及第二语音识别单元,用于将从第二语音输入单元发送的依照第二语言发出的的语音识别并且转换为第二可视语言数据,并且用于输出所述数据;
设置单元,用于接收从第一语音识别单元输出的第一可视语言数据、从第二语音识别单元输出的第二可视语言数据以及由视频延迟单元延迟的讲话者的延迟视频数据,用于确定显示状态,并且用于生成待显示的图像,其中所述第一可视语言数据、第二可视语言数据以及延迟视频数据已经同步化或者近似同步化;
文本和视频显示单元,用于依照来自于设置单元的输出来显示待显示的图像,在所述图像中,第一可视语言数据、第二可视语言数据以及延迟视频数据已经同步化或者近似同步化;
输入单元,用于建立一个或多个第一语音识别单元、第二语音识别单元、视频延迟单元以及设置单元;以及
处理器,用于控制第一语音识别单元、第二语音识别单元、视频延迟单元、输入单元以及设置单元。
2.如权利要求1所述的音频视频转换设备,其中所述第一语音识别单元和/或第二语音识别单元还包括:
错误转换概率计算单元,用于计算假名到日本汉字转换中出现错误的概率;以及
输出确定单元,用于根据错误转换概率计算单元计算的概率来选择日本汉字输出还是假名输出。
3.如权利要求1所述的音频视频转换设备,其中如果一个字的日本汉字没有包括在所述语言数据库中,那么所述第一语音识别单元和/或第二语音识别单元依照预定设置以假名来显示该字。
4.如权利要求1所述的音频视频转换设备,还包括文本显示单元,用于依照第一语言可视地显示从第一语音识别单元输出的可视语言数据。
5.如权利要求1所述的音频视频转换设备,其中所述设置单元就待由文本和视频显示单元显示的可视语言数据和延迟视频数据,指定任意的每单位时间的行数、每单位时间的字符数、每行字符数、色彩、大小、显示位置以及其他显示格式,据此执行可视语言数据和延迟视频数据的图像处理,并且生成待显示的图像。
6.用于将由讲话者发出的语音转换为可视语言数据、并且显示所述语言数据以及讲话者的图像数据的音频视频转换方法,所述音频视频转换方法包括:
按照输入单元的指示或者按照适当的存储单元中预定的那样,处理器建立第一语音识别单元、第二语音识别单元和视频延迟单元的步骤;
按照输入单元的指示或者按照适当的存储单元中预定的指示,所述处理器建立设置单元的步骤;
照相机拍摄讲话者的图像的步骤;
按照处理器的指定和控制、所述视频延迟单元延迟照相机拍摄的图像,并且必要时执行适当的图像处理,并输出延迟视频数据的步骤;
第一语音输入单元接收第一复述人员依照第一语言发出的语音的步骤,其中所述第一复述人员复述讲话者依照第一语言发出的语音;
第一语音识别单元识别由第一语音输入单元接收的、第一复述人员依照第一语言发出的语音,并且将所述语音转换为第一可视语言数据的步骤;
第二语音输入单元接收第二复述人员依照第二语言发出的语音的步骤,其中所述第二复述人员复述翻译者依照第二语言发出的语音,而所述翻译者翻译讲话者依照第一语言发出的语音;
第二语音识别单元识别由第二语音输入单元接收的、第二复述人员依照第二语言发出的语音,并且将所述语音转换为第二可视语言数据的步骤;
按照处理器的指定和控制,所述设置单元接收来自于第一语音识别单元的第一语言数据、来自于第二语音识别单元的第二语言数据以及来自于视频延迟单元的延迟视频数据,确定所述第一可视语言数据、第二可视语言数据以及延迟视频数据的显示设置,生成待显示的、其中所述第一可视语言数据、第二可视语言数据以及延迟视频数据已经同步化或者近似同步化的图像,并输出所述图像的步骤;并且
依照来自于设置单元的输出,文本和视频显示单元显示待显示的图像的步骤,在所述图像中,第一语言数据、第二语言数据以及延迟视频数据已经同步化或者近似同步化。
7.如权利要求6所述的音频视频转换方法,其中在建立所述设置单元的步骤中,为可视语言数据指定了待显示的文本行数目、待显示字符的大小、字体以及色彩、文本行显示位置等等的一个或多个;以及为延迟视频数据指定了讲话者图像的大小、显示位置等等的一个或多个。
8.如权利要求6所述的音频视频转换方法,还包括文本显示单元显示从第一语音识别单元输出的第一可视语言数据的步骤。
9.一种音频视频转换设备,包括:
第一识别装置,包括:第一语音识别单元,用于识别第一复述人员依照第一语言发出的语音,并且将所述语音转换为第一可视语言数据,其中所述第一复述人员复述讲话者依照第一语言发出的语音;第一输入单元,用于建立第一语音识别单元;以及第一处理器,用于控制第一语音识别单元和第一输入单元;
第二识别装置,包括:第二语音识别单元,用于识别第二复述人员依照第二语言发出的语音,并且将所述语音转换为第二可视语言数据,其中所述第二复述人员复述翻译者依照第二语言发出的语音,所述翻译者翻译讲话者依照第一语言发出的语音;第二输入单元,用于建立第二语音识别单元;以及第二处理器,用于控制第二语音识别单元以及第二输入单元;以及
显示装置,用于接收来自于第一识别装置以及第二识别装置的输出,并且显示文本和图像,
所述显示装置包括:
视频延迟单元,用于延迟照相机拍摄的图像信号达预定延迟时间之久,并且输出延迟的视频数据;
设置单元,用于接收来自于第一识别装置的第一可视语言数据、来自于第二识别装置的第二可视语言数据以及由所述视频延迟单元延迟的讲话者的延迟视频数据,用于确定显示状态,并且用于生成待显示的图像,其中所述第一可视语言数据、第二可视语言数据以及延迟视频数据已经同步化或者近似同步化;
文本和视频显示单元,用于显示从设置单元输出的待显示的图像;
第三输入单元,用于建立视频延迟单元和设置单元;以及
第三处理器,用于控制视频延迟单元、第三输入单元以及设置单元。
10.如权利要求9所述的音频视频转换设备,还包括讲话者装置,
所述讲话者装置包括:
照相机,用于拍摄讲话者的面部表情的图像;
输入单元,用于接收由讲话者发出的语音;以及
接口,用于允许经由电子通信通路进行通信,以及
所述讲话者装置经由所述电信通路和接口输出音频信号以及视频信号。
11.如权利要求9所述的音频视频转换设备,还包括第一复述人员装置,
所述第一复述人员装置包括:
第一语音输入单元,用于接收第一复述人员依照第一语言发出的语音,所述第一复述人员复述讲话者依照第一语言发出的语音;以及
接口,用于允许经由电信通路进行通信,以及
所述第一复述人员装置经由所述电信通路和接口向所述第一识别装置输出音频信号。
12.如权利要求9所述的音频视频转换设备,还包括第二复述人员装置,所述第二复述人员装置包括:
第二语音输入单元,用于接收第二复述人员依照第二语言发出的语音,所述第二复述人员复述翻译者依照第二语言发出的语音,其中所述翻译者翻译讲话者依照第一语言发出的语音;以及
接口,用于允许经由电信通路进行通信,以及
所述第二复述人员装置经由所述电信通路和接口向所述第二识别装置输出音频信号。
13.如权利要求9所述的音频视频转换设备,其中第一识别装置、第二识别装置和显示装置中的每一个均具有用于允许经由电信通路进行通信的接口;以及
经由电信通路以及接口、向所述显示装置传输所述第一识别装置以及第二识别装置的输出。
14.如权利要求9所述的音频视频转换设备,其中所述设置单元就待由文本和视频显示单元显示的可视语言数据和延迟视频数据来指定任意的每单位时间的行数、每单位时间的字符数、每行字符数、色彩、大小、显示位置以及其他显示格式;据此执行可视语言数据和延迟视频数据的图像处理;并且生成待显示的图像。
15.用于将由讲话者发出的语音转换为可视语言数据、并且显示所述语言数据以及讲话者的图像数据的音频视频转换方法,所述音频视频转换方法包括:
分别按照第一输入单元、第二输入单元和第三输入单元的指示或者按照适当的存储单元中预定的指示,第一处理器、第二处理器和第三处理器建立第一识别单元、第二识别单元和视频延迟单元的步骤;
按照第三输入单元的指示或者按照适当的存储单元中预定的指示,所述第三处理器建立设置单元的步骤;
按照第三处理器的指定和控制、所述视频延迟单元延迟照相机拍摄的讲话者图像,并且必要时执行适当的图像处理,并输出延迟视频数据的步骤;
第一语音识别单元识别由第一复述人员依照第一语言发出的语音、并且将所述语音转换为第一可视语言数据的步骤,其中所述第一复述人员复述讲话者依照第一语言发出的语音;
所述第二语音识别单元识别第二复述人员依照第二语言发出的语音、并且将所述语音转换为第二可视语言数据的步骤,其中所述第二复述人员复述翻译者依照第二语言发出的语音,所述翻译者翻译讲话者依照第一语言发出的语音;
按照第三处理器的指定和控制,所述设置单元接收来自于第一语音识别单元的第一可视语言数据、来自于第二语音识别单元的第二可视语言数据以及来自于视频延迟单元的延迟视频数据,确定所述第一可视语言数据、第二可视语言数据以及延迟视频数据的显示设置,生成待显示的、其中所述第一可视语言数据、第二可视语言数据以及延迟视频数据已经同步化或者近似同步化的图像,并输出所述图像的步骤;并且
依照来自于设置单元的输出,文本和视频显示单元显示待显示的图像的步骤,在所述图像中,第一可视语言数据、第二可视语言数据以及延迟视频数据已经同步化或者近似同步化。
16.如权利要求15所述的音频视频转换方法,其中在建立所述设置单元的步骤中,为可视语言数据指定了待显示的文本行数目、待显示字符的大小、字体以及色彩、文本行显示位置等等的一个或多个;以及为延迟视频数据指定了讲话者图像的大小、显示位置等等的一个或多个。
17.如权利要求15所述的音频视频转换方法,还包括经由电信电路传输讲话者依照第一语言发出的语音以及照相机拍摄的讲话者的图像的步骤。
18.如权利要求15所述的音频视频转换方法,还包括经由电信电路传输由第一复述人员依照第一语言发出的语音、由第二复述人员依照第二语言发出的语音以及翻译者依照第二语言发出的语音的一个或多个的步骤。
19.如权利要求15所述的音频视频转换方法,还包括经由电信电路输入从第一语音识别装置和/或第二语音识别装置输出的第一可视语言数据和/或第二可视语言数据的步骤。
CN03806570.3A 2002-03-20 2003-03-19 音频视频转换设备和音频视频转换方法 Expired - Fee Related CN1262988C (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2002077773 2002-03-20
JP77773/2002 2002-03-20
JP2003068440A JP2003345379A (ja) 2002-03-20 2003-03-13 音声映像変換装置及び方法、音声映像変換プログラム
JP68440/2003 2003-03-13

Publications (2)

Publication Number Publication Date
CN1643573A CN1643573A (zh) 2005-07-20
CN1262988C true CN1262988C (zh) 2006-07-05

Family

ID=28043788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN03806570.3A Expired - Fee Related CN1262988C (zh) 2002-03-20 2003-03-19 音频视频转换设备和音频视频转换方法

Country Status (7)

Country Link
US (1) US20050228676A1 (zh)
EP (1) EP1486949A4 (zh)
JP (1) JP2003345379A (zh)
CN (1) CN1262988C (zh)
AU (1) AU2003220916A1 (zh)
CA (1) CA2479479A1 (zh)
WO (1) WO2003079328A1 (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6603835B2 (en) 1997-09-08 2003-08-05 Ultratec, Inc. System for text assisted telephony
US8416925B2 (en) 2005-06-29 2013-04-09 Ultratec, Inc. Device independent text captioned telephone service
US8515024B2 (en) 2010-01-13 2013-08-20 Ultratec, Inc. Captioned telephone service
WO2005109830A1 (ja) 2004-05-12 2005-11-17 Takashi Yoshimine 会話支援装置及び会話支援方法
JP2006240826A (ja) * 2005-03-03 2006-09-14 Mitsubishi Electric Corp エレベータかご内表示装置
US11258900B2 (en) 2005-06-29 2022-02-22 Ultratec, Inc. Device independent text captioned telephone service
KR100856407B1 (ko) * 2006-07-06 2008-09-04 삼성전자주식회사 메타 데이터를 생성하는 데이터 기록 및 재생 장치 및 방법
US7844460B2 (en) * 2007-02-15 2010-11-30 Motorola, Inc. Automatic creation of an interactive log based on real-time content
CN101309390B (zh) * 2007-05-17 2012-05-23 华为技术有限公司 视讯通信系统、装置及其字幕显示方法
WO2008154542A1 (en) * 2007-06-10 2008-12-18 Asia Esl, Llc Program to intensively teach a second language using advertisements
US8149330B2 (en) * 2008-01-19 2012-04-03 At&T Intellectual Property I, L. P. Methods, systems, and products for automated correction of closed captioning data
US8358328B2 (en) * 2008-11-20 2013-01-22 Cisco Technology, Inc. Multiple video camera processing for teleconferencing
JP4930564B2 (ja) * 2009-09-24 2012-05-16 カシオ計算機株式会社 画像表示装置及び方法並びにプログラム
US9013399B2 (en) * 2010-02-18 2015-04-21 Nikon Corporation Information processing device, portable device and information processing system
US8963987B2 (en) * 2010-05-27 2015-02-24 Microsoft Corporation Non-linguistic signal detection and feedback
US8670018B2 (en) 2010-05-27 2014-03-11 Microsoft Corporation Detecting reactions and providing feedback to an interaction
JP5727777B2 (ja) 2010-12-17 2015-06-03 株式会社東芝 会議支援装置および会議支援方法
CN104424955B (zh) * 2013-08-29 2018-11-27 国际商业机器公司 生成音频的图形表示的方法和设备、音频搜索方法和设备
CN103632670A (zh) * 2013-11-30 2014-03-12 青岛英特沃克网络科技有限公司 语音和文本消息自动转换系统及其方法
US20180034961A1 (en) 2014-02-28 2018-02-01 Ultratec, Inc. Semiautomated Relay Method and Apparatus
US10389876B2 (en) 2014-02-28 2019-08-20 Ultratec, Inc. Semiautomated relay method and apparatus
US10878721B2 (en) 2014-02-28 2020-12-29 Ultratec, Inc. Semiautomated relay method and apparatus
US20180270350A1 (en) 2014-02-28 2018-09-20 Ultratec, Inc. Semiautomated relay method and apparatus
US9741342B2 (en) * 2014-11-26 2017-08-22 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
KR102281341B1 (ko) * 2015-01-26 2021-07-23 엘지전자 주식회사 싱크 디바이스 및 그 제어 방법
US10397645B2 (en) * 2017-03-23 2019-08-27 Intel Corporation Real time closed captioning or highlighting method and apparatus
US11017778B1 (en) 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems
US10573312B1 (en) * 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
CN110246501B (zh) * 2019-07-02 2022-02-01 思必驰科技股份有限公司 用于会议记录的语音识别方法及系统
JP7416078B2 (ja) 2019-09-27 2024-01-17 日本電気株式会社 音声認識装置、音声認識方法、およびプログラム
US11132535B2 (en) * 2019-12-16 2021-09-28 Avaya Inc. Automatic video conference configuration to mitigate a disability
US11539900B2 (en) 2020-02-21 2022-12-27 Ultratec, Inc. Caption modification and augmentation systems and methods for use by hearing assisted user
US11488604B2 (en) 2020-08-19 2022-11-01 Sorenson Ip Holdings, Llc Transcription of audio
KR102583764B1 (ko) * 2022-06-29 2023-09-27 (주)액션파워 외국어가 포함된 오디오의 음성 인식 방법

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63219067A (ja) * 1987-03-09 1988-09-12 Agency Of Ind Science & Technol 辞書検索装置
US5294982A (en) * 1991-12-24 1994-03-15 National Captioning Institute, Inc. Method and apparatus for providing dual language captioning of a television program
US5701153A (en) * 1994-01-14 1997-12-23 Legal Video Services, Inc. Method and system using time information in textual representations of speech for correlation to a second representation of that speech
JP3582069B2 (ja) * 1994-08-05 2004-10-27 マツダ株式会社 音声対話型ナビゲーション装置
JPH10234016A (ja) * 1997-02-21 1998-09-02 Hitachi Ltd 映像信号処理装置及びそれを備えた映像表示装置及び記録再生装置
KR100357642B1 (ko) * 1998-03-31 2002-10-25 마츠시타 덴끼 산교 가부시키가이샤 전송 장치 및 전송 방법
US7110951B1 (en) * 2000-03-03 2006-09-19 Dorothy Lemelson, legal representative System and method for enhancing speech intelligibility for the hearing impaired
EP1903453A3 (en) * 2000-06-09 2008-04-09 British Broadcasting Corporation A method of parsing an electronic text file
JP2002010138A (ja) * 2000-06-20 2002-01-11 Nippon Telegr & Teleph Corp <Ntt> 情報処理方法及び情報処理装置
US7035797B2 (en) * 2001-12-14 2006-04-25 Nokia Corporation Data-driven filtering of cepstral time trajectories for robust speech recognition

Also Published As

Publication number Publication date
JP2003345379A (ja) 2003-12-03
EP1486949A4 (en) 2007-06-06
AU2003220916A1 (en) 2003-09-29
EP1486949A1 (en) 2004-12-15
CN1643573A (zh) 2005-07-20
CA2479479A1 (en) 2003-09-25
US20050228676A1 (en) 2005-10-13
WO2003079328A1 (fr) 2003-09-25

Similar Documents

Publication Publication Date Title
CN1262988C (zh) 音频视频转换设备和音频视频转换方法
CN101075983A (zh) 即时语音通信终端、服务器、系统和即时语音通信方法
CN1682535A (zh) 手语翻译系统及手语翻译方法
CN100338619C (zh) 字符识别处理设备、字符识别处理方法和便携式终端设备
US9183199B2 (en) Communication device for multiple language translation system
CN1602483A (zh) 进行多语种口述词语实时翻译的实时翻译装置与方法
CN1682536A (zh) 手语影像提示装置、手语影像输入输出装置及手语通信系统
CN1639707A (zh) 用于并行多模通信的系统和方法
US20110246172A1 (en) Method and System for Adding Translation in a Videoconference
CN1685380A (zh) 远程教育系统、听讲确认方法及听讲确认程序
CN1788481A (zh) 移动通信装置外壳及其操作方法
CN1639696A (zh) 用于并行多模通信会话持续的系统和方法
WO2011145117A2 (en) Hand-held communication aid for individuals with auditory, speech and visual impairments
CN1747486A (zh) 便携式终端和便携式终端的控制方法
CN1682537A (zh) 手语对谈用影像输入装置、手语对谈用影像输入输出装置及手语翻译系统
CN1620066A (zh) 提供通信服务的系统、服务器、方法和程序
CN101076184A (zh) 一种实现自动应答的系统及方法
CN1124901A (zh) 用于电视会议终端的电视传输设备
CN1559121A (zh) 使用无线通信的教学方法和系统
CN101056439A (zh) 便携式电子装置、内容信息服务器、内容列表提供方法
JP2003345379A6 (ja) 音声映像変換装置及び方法、音声映像変換プログラム
CN1639681A (zh) 使用并行多模标签的进行并行多模通信的系统和方法
CN1770886A (zh) 一种蜂窝电话及其传送消息的方法
CN1890949A (zh) 用于输入字符和数字到移动通信终端显示器的设备和方法
CN1685696A (zh) 电话翻译系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: INDEPENDENT ADMINISTRATIVE LEGAL PERSON S SCIENCE

Free format text: FORMER OWNER: INDEPENDENT ADMINISTRATIVE LEGAL PERSON S SCIENCE AND TECHNOLOGY DEVELOPMENT ORGANIZATION; CO., LTD. B.U.G.; IFUKUBE DA

Effective date: 20061103

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20061103

Address after: Saitama Prefecture, Japan

Co-patentee after: KK B.U.G.

Patentee after: Independent Administrative Corporation Japan Science & Tech Corp.

Address before: Saitama Prefecture, Japan

Co-patentee before: KK B.U.G. Ifukube Tohru

Patentee before: Independent Administrative Corporation Japan Science & Tech Corp.

C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee