CN1643573A

CN1643573A - 音频视频转换设备、音频视频转换方法以及音频视频转换程序

Info

Publication number: CN1643573A
Application number: CN03806570.3A
Authority: CN
Inventors: 伊福部达
Original assignee: Kk Bug; Japan Science and Technology Agency
Current assignee: KK B.U.G.; Japan Science and Technology Agency
Priority date: 2002-03-20
Filing date: 2003-03-19
Publication date: 2005-07-20
Anticipated expiration: 2023-03-19
Also published as: US20050228676A1; CA2479479A1; CN1262988C; WO2003079328A1; EP1486949A4; JP2003345379A; EP1486949A1; AU2003220916A1

Abstract

讲话者的语音被一复述人员复述，该复述人员的语音被识别且讲话者的视频在被显示时被延迟以使其连同字符一起被显示，从而该讲话者的语音可容易地被理解。视频延迟单元(2)输出被视频输入到照相机(1)且被延迟的视频数据。第一语音识别单元(5)识别输入到第一语音输入单元(3)的第一复述人员以第一语言复述的内容并将其转换成可视语言数据。第二语音识别单元(6)识别输入到第二语音输入单元(4)的第二复述人员以第二语言复述的内容并将其转换成第二可视语言数据。设置单元(8)接收来自第一和第二语音识别单元(5，6)的第一和第二语言数据和来自视频延迟单元(2)的延迟的视频数据，设置这些数据的显示布局，建立显示视频，并在一字符视频显示单元(9)上进行显示。

Description

音频视频转换设备、音频视频转换方法以及音频视频转换程序

技术领域

本发明涉及音频视频转换设备、音频视频转换方法以及音频视频转换程序。

发明背景

通常，已经使用确切的字幕、精简的抄录及其他辅助性技术和服务来使失聪的人得以参与会议。

现有基于计算机的语音识别技术需要用户高声地读出一些语词，并且预先将用户的语音特征输入到语音识别装置的词典中。即便是限制论题，讲话者所用的存储语音的装置的最高识别率也不超过95％。

本发明人没有报告说有任何的论文或者任何材料示出了与本发明类似的技术，但是以下应用是已知的：日本广播协会(NHK)已经采用了这样一种语音识别方法，当向电视节目添加字幕时，该方法需要介入复述人员；根据Daikin Industries有限公司的新闻报道(2003年1月20日)，已经发行了借助于语音识别的Mospy、非线性抄录软件。此软件可以通过重复播放-暂停序列并通过使用语音识别装置、根据录像片段中包括的语音来编译文本。

发明内容

由于常规的字幕和抄录；需要一些经验来创建字幕和抄录；并且没有足够熟练的工人这些大的障碍，所以常规的字幕和抄录服务未曾广泛地被利用。

通常，以语音识别技术的现有水平，任意讲话者发出的语音只能以非常低的精确度来识别。所述技术在噪声环境中可能无法使用。一般的语音识别时间大约为1秒，而经由翻译者的语音识别往往还需要2或3秒。经由语音识别获得的文本在时间上落后于讲话者的面部表情等等，从而无法使用可视数据来理解上下文含义，所述可视数据诸如嘴唇的移动、讲话者的面部表情以及手语。例如，日文包括许多发音相同但意思不同(同音异义)的汉字(日本汉字)。如果无法根据上下文含义猜测出正确的意思，那么可能发生错误转换。以现代技术水平，很难自动地理解上下文含义，语音识别装置的用户应该选择日本汉字。现有语音识别技术的另一个问题在于：在讲话者或者论题改变之后，识别率立即下降。所述语音识别装置必须用于安静的环境，同时专用的麦克风必须保存在接近讲话者嘴的预定位置上。

故而在会议中，难以使用常规的语音识别装置作为翻译者或者失聪人员的助手。

由Daikin开发的NHK的语音识别系统和产品没有使用互联网或者其它电信电路，从而无法提供远程用户辅助服务以供在家上班或者远方的翻译者或者复述人员使用。

考虑到上述几点，本发明的目的在于提供这样一种音频视频转换设备、音频视频转换方法和音频视频转换程序，其中复述人员重复由任意讲话者发出的语音；语音识别装置将所述语音转换为文本；并且在一定延迟之后、将用于显示他或她的面部表情等等的讲话者图像以及对应文本显示在屏幕等上；以便帮助失聪人员以及其他人理解由讲话者发出的语音。

本发明的另一个目的在于提供这样一种音频视频转换设备、音频视频转换方法和音频视频转换程序，其中复述人员重复由演讲者或者翻译者发出的语音；语音识别装置将所述语音转换为文本；并且将所述文本连同演讲者的相应图像显示在屏幕上；作为失聪人员的辅助性装置参加国际会议、多边或者双边的会议及其他会议。

本发明的另一个目的在于翻译其中使用不同语言的国际会议，以便立即打印那些会议的内容(信息补偿)，帮助正在开会或者演讲的失聪人员以及其他人，并且在经由电话向复述人员传输语音之后、向用户提供文本信息。本发明的又一个目的在于提供一种音频视频转换设备、音频视频转换方法和音频视频转换程序，其帮助用户跨越不同语言系统的边界而与讲话者通信。

本发明的另一个目的在于：借助于经由诸如互联网的电信通路执行通信的电信电路、通过添加用于将讲话者的语音和图像传输给在家或远方的翻译者、复述人员或者校正人员的装置，使如上所述的系统可以为在任何地方的用户所利用。本发明还包括这样一个目的，即提供一种系统，其中复述人员和翻译者可以从事基于家庭的事业，并且使很难从家里出去的残障人员在家从事复述人员的工作。

依照本发明的第一解决方案，提供了一种音频视频转换设备，其包括：

照相机，用于拍摄讲话者的面部表情；

视频延迟单元，用于延迟照相机拍摄的图像的视频信号达预定延迟时间之久，并且用于输出延迟的视频数据；

第一语音输入单元，用于接收第一复述人员依照第一语言发出的语音，所述第一复述人员复述讲话者依照第一语言发出的语音；

第二语音输入单元，用于接收第二复述人员依照第二语言发出的语音，所述第二复述人员复述翻译者依照第二语言发出的语音，其中所述翻译者翻译讲话者依照第一语言发出的语音；

第一语音识别单元，用于将从第一语音输入单元发送的依照第一语言发出的语音识别并且转换为第一可视语言数据，并且用于输出所述数据；以及第二语音识别单元，用于将从第二语音输入单元发送的依照第二语言发出的的语音识别并且转换为第二可视语言数据，并且用于输出所述数据；

设置单元，用于接收从第一语音识别单元输出的第一可视语言数据、从第二语音识别单元输出的第二可视语言数据以及由视频延迟单元延迟的讲话者的延迟视频数据，用于确定显示状态，并且用于生成待显示的图像，其中那些数据已经同步化或者近似同步化；

文本和视频显示单元，用于依照来自于设置单元的输出显示待显示的图像，在所述图像中，第一可视语言数据、第二可视语言数据以及延迟视频数据已经同步化或者近似同步化；

输入单元，用于建立一个或多个第一语音识别单元、第二语音识别单元、视频延迟单元以及设置单元；以及

处理器，用于控制第一语音识别单元、第二语音识别单元、视频延迟单元、输入单元以及设置单元。

依照本发明的第二解决方案，提供了一种音频视频转换设备，其包括：

照相机，用于拍摄讲话者的面部表情的图像；

第一语音输入单元，用于接收第一复述人员依照第一语言发出的语音，所述第一复述人员复述讲话者或者翻译者依照第一语言发出的语音；

第一语音识别单元，用于将从第一语音输入单元发送的依照第一语言发出的语音识别并且转换为第一可视语言数据，并且用于输出所述数据；

设置单元，用于接收从第一语音识别单元输出的第一可视语言数据、以及由视频延迟单元延迟的讲话者的延迟视频数据，用于确定显示状态，并且用于生成待显示的图像，其中那些数据已经同步化或者近似同步化；

文本和视频显示单元，用于依照来自于设置单元的输出显示待显示的图像，在所述图像中，第一可视语言数据以及延迟视频数据已经同步化或者近似同步化；

输入单元，用于建立一个或多个第一语音识别单元、视频延迟单元以及设置单元；以及

处理器，用于控制第一语音识别单元、视频延迟单元、输入单元以及设置单元。

依照本发明的第三解决方案，提供了一种音频视频转换方法和程序，用于将讲话者发出的语音转换为可视的语言数据，并且显示所述语言数据以及讲话者的图像数据，并且所述音频视频转换方法和程序包括：

按照输入单元的指示或者按照适当的存储单元中预定的指示，处理器建立第一语音识别单元、第二语音识别单元和视频延迟单元的步骤；

按照输入单元的指示或者按照适当的存储单元中预定的指示，所述处理器建立设置单元的步骤；

照相机拍摄讲话者的图像的步骤；

按照处理器的指定和控制、所述视频延迟单元延迟照相机拍摄的图像，并且必要时执行适当的图像处理，并输出延迟视频数据的步骤；

第一语音输入单元接收第一复述人员依照第一语言发出的语音的步骤，其中所述第一复述人员复述讲话者依照第一语言发出的语音；

第一语音识别单元识别由第一语音输入单元接收的、第一复述人员依照第一语言发出的语音，并且将所述语音转换为第一可视语言数据的步骤；

第二语音输入单元接收第二复述人员依照第二语言发出的语音的步骤，其中所述第二复述人员复述翻译者依照第二语言发出的语音，而所述翻译者翻译讲话者依照第一语言发出的语音；

第二语音识别单元识别由第二语音输入单元接收的、第二复述人员依照第二语言发出的语音，并且将所述语音转换为第二可视语言数据的步骤；

按照处理器的指定和控制，所述设置单元接收来自于第一语音识别单元的第一语言数据、来自于第二语音识别单元的第二语言数据以及来自于视频延迟单元的延迟视频数据，确定那些数据的显示设置，生成待显示的图像，并输出所述图像的步骤，其中在所述图像中，那些数据已经同步化或者近似同步化；并且

依照来自于设置单元的输出，文本和视频显示单元显示待显示的图像的步骤，在所述图像中，第一语言数据、第二语言数据以及延迟视频数据已经同步化或者近似同步化。

依照本发明的第四解决方案，提供了一种音频视频转换方法和程序，用于将讲话者发出的语音转换为可视的语言数据，并且显示所述语言数据以及讲话者的图像数据，并且所述音频视频转换方法和程序包括：

按照输入单元的指示或者按照适当的存储单元中预定的指示，处理器建立第一语音识别单元和视频延迟单元的步骤；

照相机拍摄讲话者的图像的步骤；

第一语音输入单元接收第一复述人员依照第一语言发出的语音的步骤，其中所述第一复述人员复述讲话者或者翻译者依照第一语言发出的语音；

按照处理器的指定和控制，所述设置单元接收来自于第一语音识别单元的第一语言数据以及来自于视频延迟单元的延迟视频数据，确定那些数据的显示设置，生成待显示的图像，并输出所述图像的步骤，其中在所述图像中，那些数据通过图像处理已经同步化或者近似同步化；并且

依照来自于设置单元的输出，文本和视频显示单元显示待显示的图像的步骤，在所述图像中，第一语言数据以及延迟视频数据已经同步化或者近似同步化。

依照本发明的第五解决方案，提供了一种音频视频转换设备，其包括：

第一识别装置，包括：第一语音识别单元，用于识别第一复述人员依照第一语言发出的语音，并且将所述语音转换为第一可视语言数据，其中所述第一复述人员复述讲话者依照第一语言发出的语音；第一输入单元，用于建立第一语音识别单元；以及第一处理器，用于控制第一语音识别单元和第一输入单元；

第二识别装置，包括：第二语音识别单元，用于识别第二复述人员依照第二语言发出的语音，并且将所述语音转换为第二可视语言数据，其中所述第二复述人员复述翻译者依照第二语言发出的语音，所述翻译者翻译讲话者依照第一语言发出的语音；第二输入单元，用于建立第二语音识别单元；以及第二处理器，用于控制第二语音识别单元以及第二输入单元；以及

显示装置，用于接收来自于第一识别装置以及第二识别装置的输出，并且显示文本和图像，

所述显示装置包括：

视频延迟单元，用于延迟照相机拍摄的图像信号达预定延迟时间之久，并且输出延迟的视频数据；

设置单元，用于接收来自于第一识别装置的第一可视语言数据、来自于第二识别装置的第二可视语言数据以及由所述视频延迟单元延迟的讲话者的延迟视频数据，用于确定显示状态，并且用于生成待显示的图像，其中那些数据已经同步化或者近似同步化；

文本和视频显示单元，用于显示从设置单元输出的待显示的图像；

第三输入单元，用于建立视频延迟单元和设置单元；以及

第三处理器，用于控制视频延迟单元、第三输入单元以及设置单元。

依照本发明的第六解决方案，提供了一种音频视频转换设备，其包括：

第一识别装置，包括：第一语音识别单元，用于识别第一复述人员依照第一语言发出的语音，并且将所述语音转换为第一可视语言数据，其中所述第一复述人员复述讲话者或者翻译者依照第一语言发出的语音；第一输入单元，用于建立第一语音识别单元；以及第一处理器，用于控制第一语音识别单元和第一输入单元；以及

显示装置，用于接收来自于第一识别装置的输出并且显示文本和图像，

所述显示装置包括：

设置单元，用于接收来自于第一识别装置的第一可视语言数据以及由视频延迟单元延迟的讲话者的延迟视频数据，用于确定显示状态，并且用于生成待显示的图像，其中那些数据已经同步化或者近似同步化；

第三输入单元，用于建立视频延迟单元和设置单元；以及

依照本发明的第七解决方案，提供了一种音频视频转换方法和程序，用于将讲话者发出的语音转换为可视的语言数据，并且显示所述语言数据以及讲话者的图像数据，并且所述音频视频转换方法包括：

分别按照第一输入单元、第二输入单元和第三输入单元的指示或者按照适当的存储单元中的预定指示，第一处理器、第二处理器和第三处理器建立第一识别单元、第二识别单元和视频延迟单元的步骤；

按照第三输入单元的指示或者按照适当的存储单元中预定的指示，所述第三处理器建立设置单元的步骤；

按照第三处理器的指定和控制、所述视频延迟单元延迟照相机拍摄的讲话者图像，并且必要时执行适当的图像处理，并输出延迟视频数据的步骤；

第一语音识别单元识别由第一复述人员依照第一语言发出的语音、并且将所述语音转换为第一可视语言数据的步骤，其中所述第一复述人员复述讲话者依照第一语言发出的语音；

所述第二语音识别单元识别第二复述人员依照第二语言发出的语音、并且将所述语音转换为第二可视语言数据的步骤，其中所述第二复述人员复述翻译者依照第二语言发出的语音，所述翻译者翻译讲话者依照第一语言发出的语音；

按照第三处理器的指定和控制，所述设置单元接收来自于第一语音识别单元的第一可视语言数据、来自于第二语音识别单元的第二可视语言数据以及来自于视频延迟单元的延迟视频数据，确定那些数据的显示设置，生成待显示的图像，并输出所述图像的步骤，其中在所述图像中，那些数据通过图像处理已经同步化或者近似同步化；并且

依照来自于设置单元的输出，文本和视频显示单元显示待显示的图像的步骤，在所述图像中，第一可视语言数据、第二可视语言数据以及延迟视频数据已经同步化或者近似同步化。

依照本发明的第八解决方案，提供了一种音频视频转换方法和程序，用于将讲话者发出的语音转换为可视的语言数据，并且显示所述语言数据以及讲话者的图像数据，并且所述音频视频转换方法包括：

分别按照第一输入单元和第三输入单元的指示或者按照适当的存储单元中的预定指示，第一处理器和第三处理器建立第一语音识别单元和视频延迟单元的步骤；

按照第三处理器的指定和控制、所述视频延迟单元延迟照相机拍摄的讲话者图像，并且必要时执行图像处理，并输出延迟视频数据的步骤；

所述第一语音识别单元识别由第一复述人员依照第一语言发出的语音、并且将所述语音转换为第一可视语言数据的步骤，其中所述第一复述人员复述讲话者或者翻译者依照第一语言发出的语音；

按照第三处理器的指定和控制，所述设置单元接收来自于第一语音识别单元的第一语言数据以及来自于视频延迟单元的延迟视频数据，确定那些数据的显示设置，生成待显示的图像，并输出所述图像的步骤，其中在所述图像中，那些数据通过图像处理已经同步化或者近似同步化；并且

依照来自于设置单元的输出，文本和视频显示单元显示待显示的图像的步骤，在所述图像中，第一可视语言数据以及延迟视频数据已经同步化或者近似同步化。

附图说明

图1是示出了依照第一实施例的音频视频转换设备的结构的示意性框图。

图2是由依照第一实施例的处理器执行的语音转换的流程图。

图3是示出了依照第二实施例的音频视频转换设备的结构的示意性框图。

图4是由依照第二实施例的处理器执行的语音转换的流程图。

图5是示出了依照第三实施例的音频视频转换设备的结构的示意性框图。

图6是示出了依照第四实施例的音频视频转换设备的结构的示意性框图。

具体实施方式

在下文中，将参照附图详细地描述本发明的实施例。

1.第一实施例

本实施例的音频视频转换设备主要用于在多种语言的会议中帮助通信，所述会议诸如国际会议、多边会议和双边会议、会见、演讲、课程、教育等等。依照本实施例的音频视频转换设备包括照相机1、视频延迟单元2、第一语音输入单元3、第二语音输入单元4、第一语音识别单元5、第二语音识别单元6、文本显示单元7、设置单元8、文本和视频显示单元9、输入单元10和处理器11。

照相机1拍摄讲话者A的行为图像。视频延迟单元2延迟从照相机1发送的视频信号达预定延迟时间之久，并输出延迟的视频数据。所述视频延迟单元2提供视频延迟时间，从而可以显示讲话者的行为以及经由语音识别获得的相应文本。这样帮助用户正确地理解上下文含义。所述视频延迟时间可以根据每个会议参与者(诸如失聪人员)的语音读取能力以及讲话者A、复述人员B或者C以及翻译者D的语速和能力进行调节。所述视频延迟单元2可以执行适当的图像处理，诸如放大或者缩小讲话者A的图像等。

第一语音输入单元3包括麦克风，并且输入由第一指定复述人员B发出的语音，所述第一指定复述人员B复述由讲话者A发出的语音。第二语音输入单元4输入由第二指定复述人员C发出的语音，所述第二指定复述人员C复述由翻译者D发出的语音，所述翻译者D翻译由讲话者A发出的语音。如果复述人员B或者C对置于会议场所内安静地方的第一语音输入单元3或者第二语音输入单元4的叙述麦克风讲话，那么可以去除麦克风的背景噪声和影响。

第一语音识别单元5将从第一语音输入单元3发送的语音识别并且转换为第一可视语言数据，诸如文本数据和会意(ideographical)数据。第二语音识别单元6将从第二语音输入单元4发送的语音识别并且转换为第二可视语言数据。依照此实施例，第一语音识别单元5接收第一复述人员B依照第一语言发出的语音(例如日文)，并输出依照第一语言的可视语言数据(例如日文文本)，其中所述第一复述人员B复述讲话者A依照第一语言发出的语音。第二语音识别单元6接收第二复述人员C依照第二语言(非日文诸如英文之类的)发出的语音，并输出依照第二语言的可视语言数据(非日文文本，诸如英语文本之类的)，其中所述第二复述人员C复述翻译者D依照第二语言发出的语音，而所述翻译者D翻译讲话者A依照第一语言发出的语音(例如日文)。

第一语音识别单元5和/或第二语音识别单元6可以选择由第一复述人员B复述的语音、或者由翻译者D翻译并由第二复述人员C复述的语音，或者选择它们两者。将第一语音识别单元5和/或第二语音识别单元6配置为识别由复述人员发出的语音。第一语音识别单元5和/或第二语音识别单元6可以包括选择器，用于允许第一复述人员B和/或第二复述人员C根据讲话者A的论题、会议的主题等，选择存储在第一语音识别单元5和/或第二语音识别单元6中的语言数据库。

第一语音识别单元5和/或第二语音识别单元6可以包括错误转换概率计算单元，用于计算出现从语音字符(假名)到日本汉字的错误转换概率；以及输出确定单元，用于根据错误转换概率计算单元计算的概率来选择日本汉字输出或者假名输出。第一语音识别单元5和/或第二语音识别单元6可以被配置为在启动语音识别以前、计算日文同音异义(homonym)词的错误识别概率，并且对具有高错误识别概率的同音异义词选择假名显示。如果在第一语音识别单元5和/或第二语音识别单元6中没有存储该字，那么第一复述人员B和/或第二复述人员C可能决定以假名显示该字。

文本显示单元7可视地显示依照第一语言从第一语音识别单元5输出的可视语言数据。翻译者D可以翻译、浏览由文本显示单元7显示的第一可视语言数据。

所述设置单元8接收作为第一语音识别单元5识别结果输出的第一可视语言数据、作为第二语音识别单元6识别结果输出的第二可视语言数据以及由视频延迟单元2输出的讲话者A的延迟视频数据，并且确定在文本和视频显示单元9上的显示设置。处理器11设置将在文本和视频显示单元9上显示的一个或多个显示设置项，诸如每单位时间的线数、每单位时间的字符数、每行字符数、色彩、大小以及显示位置、涉及的第一可视语言数据(文本数据)以及第二可视语言数据(文本数据)以及延迟视频数据。所述设置单元8按照处理器11的指定执行图像处理，诸如放大或者缩小第一可视语言数据、第二可视语言数据以及延迟视频数据，并且生成待显示的图像。

依照设置单元8指定并且生成的输出，所述文本和视频显示单元9组合并且显示作为第一语音识别单元5识别结果输出的第一可视语言数据、作为第二语音识别单元6识别结果输出的第二可视语言数据以及由视频延迟单元2输出的讲话者A的延迟视频数据。

所述输入单元10建立第一语音识别单元5、第二语音识别单元6、视频延迟单元2、设置单元8及其他，并且向适当的数据库、存储器等等发布数据输入指令。所述处理器11是一种小型计算机，其控制第一语音识别单元5、第二语音识别单元6、视频延迟单元2、输入单元10、设置单元8及其他。

图2示出了由依照第一实施例的处理器执行的语音转换的流程图。

所述处理器11按照输入单元10的指示或者按照适当存储单元中的预定指示建立第一语音识别单元5、第二语音识别单元6和视频延迟单元2(步骤S01)。第一语音识别单元5和第二语音识别单元6将按照诸如日本汉字的错误识别率的阈值水平以及待用的语言数据库之类的项目来建立。就视频延迟单元2而言，例如讲话者图像的延迟时间可以指定或者选择。此外，所述处理器11按照输入单元10的指示或者按照适当存储单元中的预定指示建立设置单元8(步骤S03)。所述设置单元8按照待由文本和视频显示单元9显示的第一可视语言数据、第二可视语言数据以及延迟视频数据的显示状态和设置来建立。为可视语言数据指定的项目包括待显示的文本行数目、大小、字体以及待显示的字符色彩以及文本行的显示位置。为延迟视频数据指定的项目包括讲话者图像的大小和显示位置。那些项目根据需要指定。

照相机1拍摄讲话者A的图像(步骤S05)。依照处理器11的指定和控制，视频延迟单元2延迟照相机1拍摄的图像，并且必要时执行适当的图像处理，并输出延迟的视频数据(步骤S07)。

第一语音输入单元3接收由第一复述人员B复述的语音(步骤S11)。按照处理器11的指定和控制，第一语音识别单元5识别第一语音输入单元3接收的、由第一复述人员B依照第一语言复述的语音，并且将所述语音转换为第一可视语言数据(例如日文文本)(步骤S13)。必要时，所述文本显示单元7显示从第一语音识别单元5输出的第一可视语言数据(步骤S15)。

第二语音输入单元4接收(步骤S17)由第二复述人员C发出的语音，所述第二复述人员C复述由翻译者D发出的语音，所述翻译者D翻译由讲话者发出的语音和/或由文本显示单元7显示的第一可视语言数据。按照处理器11的指定和控制，第二语音识别单元6识别第二语音输入单元4接收的、由第二复述人员C依照第二语言复述的语音，并且将所述语音转换为第二可视语言数据(例如非日文文本)(步骤S19)。

按照处理器11的指定和控制，所述设置单元8接收来自于第一语音识别单元5的第一可视语言数据、来自于第二语音识别单元6的第二可视语言数据以及来自于视频延迟单元2的延迟视频数据，确定那些数据的显示设置，必要时通过适当的图像处理生成待显示的图像，并输出所述图像(步骤S21)。依照来自于设置单元8的输出，所述文本和视频显示单元9显示第一可视语言数据、第二可视语言数据以及视频延迟数据(步骤S23)。

如果决定改变设置(步骤S25)，那么处理器11返回到步骤S01，并且复述所述处理。如果决定不改变任何设置(步骤S25)，并且如果发现讲话者A继续服务(步骤S27)，那么处理器11返回以复述步骤S03之后的处理。如果发现讲话者A改为他人(步骤S27)，那么处理器11结束处理并且可以重新执行所述处理。

2.第二实施例

本实施例的音频视频转换设备主要用于在会议中帮助通信，所述会议诸如国内会议、双边会议、会见、演讲、课程、教育等等。依照本实施例的音频视频转换设备包括照相机1、视频延迟单元2、第一语音输入单元3、第二语音输入单元4、第一语音识别单元5、文本显示单元7、设置单元8、文本和视频显示单元9、输入单元10、处理器11和选择器20。

第二实施例和第一实施例的不同在于：没有包括第二语音识别单元，而添加了选择器20，但其他结构和操作是相同的。如果不必要，第二语音输入单元和选择器20也可以去除。

图4示出了由依照第二实施例的处理器执行的语音转换的流程图。

第二实施例的处理与第一实施例的处理的不同主要在于：没有包括步骤S17到S19。第一语音输入单元3可以接收由复述人员B发出的语音，或者接收由复述人员C发出的语音，所述复述人员B复述由讲话者发出的语音，而复述人员C复述由翻译者D发出的语音，所述翻译者D翻译由讲话者发出的语音。

所述处理器11按照输入单元10的指示或者按照适当存储单元中的预定指示来建立第一语音识别单元5、视频延迟单元2和选择器20(步骤S101)。如果不包括所述选择器20，那么没有必要建立选择器20。第一语音识别单元5按照日本汉字的错误识别率的阈值水平、待用的语言数据库等等来建立。就视频延迟单元2而言，例如讲话者图像的延迟时间被指定或者选择。所述处理器11按照输入单元10的指示或者按照适当存储单元中的预定指示来建立设置单元8(步骤S103)。所述设置单元8按照待由文本和视频显示单元9显示的第一可视语言数据(在本实施例中为日文文本或者非日文文字)以及延迟视频数据的显示状态和设置来建立。为可视语言数据指定的项目包括待显示的文本行数目、大小、字体以及字符色彩和文本行的显示位置。为延迟视频数据指定的项目包括讲话者图像的大小和显示位置。那些项目根据需要指定。

照相机1拍摄讲话者A的图像(步骤S105)。按照处理器11的指定和控制，所述视频延迟单元2延迟照相机1拍摄的图像，并且必要时执行图像处理，并输出延迟视频数据(步骤S107)。

第一语音输入单元3接收由第一复述人员B或者第二复述人员C发出的语音(步骤S111)。按照处理器11的指定和控制，第一语音识别单元5识别由第一语音输入单元3接收的、由第一复述人员B或者第二复述人员C依照第一语言发出的语音(在本实施例中是日文或者非日文语言)，并且将所述语音转换为第一可视语言数据(在本实施例中是日文或者非日文文本)(步骤S113)。必要时，所述文本显示单元7显示从第一语音识别单元5输出的第一可视语言数据(步骤S115)。

按照处理器11的指定和控制，所述设置单元8接收来自于第一语音识别单元5的第一可视语言数据以及来自于视频延迟单元2的延迟视频数据，确定那些数据的显示设置，生成待显示的图像，并输出所述图像(步骤S121)，所述图像必要时可执行适当的图像处理。依照来自于设置单元8的输出，所述文本和视频显示单元9适当地显示第一可视语言数据以及延迟视频数据(步骤S123)。

如果决定改变设置(步骤S125)，那么处理器11返回到步骤S101，并且复述所述处理。如果决定不改变任何设置，并且如果发现讲话者A继续服务(步骤S127)，那么处理器11返回以执行步骤S103之后的处理。如果发现讲话者A改为他人，那么处理器11结束处理并且可以重新执行所述处理。

3.第三实施例

本实施例的音频视频转换设备用于帮助讲话者和用户跨越不同语言系统之间的边界进行通信，这通过在介入诸如复述人员的第三方的情况下、将讲话者的语音信息转换为文本信息，并且经由电信电路提供讲话者的语言信息以及非语言信息来实现的。

依照与第一实施例同样的方式，依照本实施例的音频视频转换设备用于在多种语言的会议中帮助通信，所述会议诸如国际会议、多边会议和双边会议、会见、演讲、课程、教育等等。本实施例的音频视频转换设备包括讲话者装置100、翻译者装置200、第一复述人员装置300、第二复述人员装置400、第一识别装置500、第二识别装置600、显示装置700以及电信电路800。

讲话者装置100包括照相机1并且必要时包括麦克风。翻译者装置200包括手机和麦克风。第一复述人员装置300包含第一语音输入单元3和手机，而第二复述人员装置400包含第二语音输入单元4和手机。第一识别装置500包括第一语音识别单元5、输入单元10-b、处理器11-b，而第二识别装置600包括第二语音识别单元6、输入单元10-c和处理器11-c。所述显示装置700包括视频延迟单元2、文本显示单元7、设置单元8、文本和视频显示单元9、输入单元10-c和处理器11-c。图中的黑色圆圈表示电信电路800，其中电信通路诸如互联网、局域网、无线局域网、移动电话、PDA及其他，并且在电信通路和相应装置100到700之间提供了输入输出接口。讲话者装置100、翻译者装置200、第一复述人员装置300、第二复述人员装置400、第一识别装置500、第二识别装置600和显示装置700根据需要由电信电路800连接，从而可以交换音频信号和/或视频信号。所述装置可以直接通过电线或者用无线电连接，而不经由任何电信电路800。利用包含电信通路和接口的电信电路800，会议场所中的讲话者A、翻译者D、第一复述人员B、第二复述人员C、第一识别装置500、第二识别装置600和显示装置700等可以位于任何地方，并且可以恰当地安排。

照相机1、视频延迟单元2、第一语音输入单元3、第二语音输入单元4、第一语音识别单元5、文本显示单元7、设置单元8、文本和视频显示单元9、输入单元10-a、输入单元10-b、输入单元10-c、处理器11-a、处理器11-b和处理器11-c可以依照与第一实施例中具有相同参考标记的部件的相同方法来配置和操作。

所述输入单元10-a建立视频延迟单元2、设置单元8及其他，并且向适当的数据库、存储器等等发布数据输入指令。所述处理器11-a是一种小型计算机，其控制视频延迟单元2、输入单元10-a、输入单元10-b、输入单元10-c、设置单元8及其他。所述输入单元10-b和输入单元10-c分别建立第一语音识别单元5和第二语音识别单元6，并且向适当的数据库、存储器等等发布数据输入指令。所述处理器11-b是一种小型计算机，其控制第一语音识别单元5及其他，并且处理器11-c是用于控制第二语音识别单元6及其他的小型计算机。

依照第三实施例的语音转换流程图与依照第一实施例的流程图相同。所述音频视频转换设备如上所述那样进行操作。

4.第四实施例

依照与第三实施例同样的方式，依照本实施例的音频视频转换设备用于在多种语言的会议中帮助通信，所述会议诸如国际会议、多边会议和双边会议、会见、演讲、课程、教育等等。本实施例的音频视频转换设备包括讲话者装置100、翻译者装置200、第一复述人员装置300、第二复述人员装置400，第一识别装置500、显示装置700以及电信电路800。

第四实施例和第三实施例的不同在于：没有包括具有第二语音识别单元的第二识别装置600，而是将选择器20包括在第一识别装置500中，但其他结构和操作是相同的。

选择器20的结构和操作与第二实施例中的相同。如果不必要，第二语音输入单元和选择器20也可以去除。

依照第四实施例的语音转换流程图与依照第三实施例的流程图相同。所述音频视频转换设备如上所述那样进行操作。

5.结论

如上所述，依照本实施例的语音识别装置使用了预先存储复述人员发出的语音的语音数据库。当接收到由复述人员发出的语音时，所述语音识别装置执行语音转换，其中所述复述人员复述由讲话者A发出的语音。据此，无论是否是讲话者A，都可以获得高的识别率。如果讲话者A是翻译者D，那么复述人员复述由翻译者D发出的语音，从而能够以较高的识别率将依照非日文语言发出的语音翻译为日文。如果原始语音是依照日文发出的，那么翻译者D将所述语音翻译为非日文语言，并且依照非日文语言复述非日文语音，从而使依照日文发出的语音能够以较高的识别率翻译为非日文语言。因为还可以将由他人发出的询问转换为文本并且显示，故而所述音频视频转换设备可以在会议中实现双向帮助。所述音频视频转换设备可以用作国际会议以及国内会议的通信助手。

本实施例的音频视频转换设备拍摄讲话者A的图像，并且延迟和显示所述图像，以及作为语音识别结果获得的相应文本。据此，可以使用讲话者A的的移动和面部表情、手语及其他视觉信息来理解上下文含义。视频延迟单元2的视频延迟时间可以根据每个失聪人员的唇读能力来进行调节。通过利用他或她的高唇读能力，唇读熟练的失聪人员可以校正语音识别中5％的误差。

根据本发明的文本和视频转换方法、文本和视频转换设备、或者文本和视频转换系统可以作为以下方式被提供，即：由计算机执行每个步骤的文本和视频转换程序；计算机可读记录介质，其上存储有所述文本和视频转换程序；包括文本和视频转换程序的程序产品，其可以载入计算机、服务器或包括所述程序的计算机的内部存储器中。

工业实用性

根据本发明，如上所述，提供了一种音频视频转换设备、音频视频转换方法和音频视频转换程序，其通过以下方式帮助失聪人员以及其他人理解由任意讲话者发出的语音，所述方式为：在复述语音的复述人员和语音识别装置介入的情况下、将讲话者发出的语音转换为文本，并且在延迟之后、在屏幕上显示讲话者相应的面部表情及其他视觉信息以及相应的文本。

此外，根据本发明，提供了一种音频视频转换设备、音频视频转换方法和音频视频转换程序，其通过以下方式来帮助参加国际会议、多边或者双边会议及其他会议的失聪人员，所述方式为：将由复述演讲者或者翻译者发出的语音的复述人员发出的语音输入到语音识别装置中，并且在屏幕上显示作为语音识别结果获得的文本以及演讲者的相应图像。

此外，根据本发明，可以在使用不同语言的国际会议中进行翻译，可以立即打印那些会议的内容(信息补偿)；可以为参加会议和演讲的失聪人员以及其他人提供帮助；并且在将语音经由电话传送到复述人员之后、向用户提供文本信息。此外，根据本发明，提供了一种音频视频转换设备、音频视频转换方法和音频视频转换程序，其帮助用户跨越不同语言系统的边界而与讲话者通信。

依照本发明，借助于经由诸如互联网的电信通路允许通信的电信电路、通过添加用于将讲话者的语音和其图像传输给在家工作的或者在远方的翻译者、复述人员或者校正人员的装置，如上所述的系统可以为处于任何地方的用户所利用。此外，根据本发明，复述人员和翻译者通过使用此系统可以从事基于家庭的事业，很难从家庭中走出的残障者可以在家从事复述人员的工作。

Claims

1.一种音频视频转换设备，包括：

照相机，用于拍摄讲话者的面部表情的图像；

文本和视频显示单元，用于依照来自于设置单元的输出来显示待显示的图像，在所述图像中，第一可视语言数据、第二可视语言数据以及延迟视频数据已经同步化或者近似同步化；

2.一种音频视频转换设备，包括：

照相机，用于拍摄讲话者的面部表情的图像；

设置单元，用于接收从第一语音识别单元输出的第一可视语言数据以及由视频延迟单元延迟的讲话者的延迟视频数据，用于确定显示状态，并且用于生成待显示的图像，其中那些数据已经同步化或者近似同步化；

文本和视频显示单元，用于依照来自于设置单元的输出来显示待显示的图像，在所述图像中，第一可视语言数据以及延迟视频数据已经同步化或者近似同步化；

3.如权利要求1或者2所述的音频视频转换设备，其中所述第一语音识别单元和/或第二语音识别单元还包括选择器，用于根据讲话者的论题或者会议的主题、从为语音识别而设的多个语言数据库中选择特定的语言数据库。

4.如权利要求1或者2所述的音频视频转换设备，其中所述第一语音识别单元和/或第二语音识别单元还包括：

错误转换概率计算单元，用于计算假名到日本汉字转换中出现错误的概率；以及

输出确定单元，用于根据错误转换概率计算单元计算的概率来选择日本汉字输出还是假名输出。

5.如权利要求1或者2所述的音频视频转换设备，其中如果一个字的日本汉字没有包括在所述语言数据库中，那么所述第一语音识别单元和/或第二语音识别单元依照预定设置以假名来显示该字。

6.如权利要求1或者2所述的音频视频转换设备，还包括文本显示单元，用于依照第一语言可视地显示从第一语音识别单元输出的可视语言数据。

7.如权利要求1或2所述的音频视频转换设备，其中所述设置单元就待由文本和视频显示单元显示的可视语言数据和延迟视频数据，指定任意的每单位时间的行数、每单位时间的字符数、每行字符数、色彩、大小、显示位置以及其他显示格式，据此执行可视语言数据和延迟视频数据的图像处理，并且生成待显示的图像。

8.用于将由讲话者发出的语音转换为可视语言数据、并且显示所述语言数据以及讲话者的图像数据的音频视频转换方法，所述音频视频转换方法包括：

按照输入单元的指示或者按照适当的存储单元中预定的那样，处理器建立第一语音识别单元、第二语音识别单元和视频延迟单元的步骤；

照相机拍摄讲话者的图像的步骤；

按照处理器的指定和控制，所述设置单元接收来自于第一语音识别单元的第一语言数据、来自于第二语音识别单元的第二语言数据以及来自于视频延迟单元的延迟视频数据，确定那些数据的显示设置，生成待显示的其中那些数据已经同步化或者近似同步化的图像，并输出所述图像的步骤；并且

9.用于将由讲话者发出的语音转换为可视语言数据、并且显示所述语言数据以及讲话者的图像数据的音频视频转换方法，所述音频视频转换方法包括：

照相机拍摄讲话者的图像的步骤；

按照处理器的指定和控制，所述设置单元接收来自于第一语音识别单元的第一语言数据以及来自于视频延迟单元的延迟视频数据，确定那些数据的显示设置，生成待显示的其中那些数据已经同步化或者近似同步化的图像，并输出所述图像的步骤；并且

10.如权利要求8或9所述的音频视频转换方法，其中在建立所述设置单元的步骤中，为可视语言数据指定了待显示的文本行数目、待显示字符的大小、字体以及色彩、文本行显示位置等等的一个或多个；以及为延迟视频数据指定了讲话者图像的大小、显示位置等等的一个或多个。

11.如权利要求8或9所述的音频视频转换方法，还包括文本显示单元显示从第一语音识别单元输出的第一可视语言数据的步骤。

12.用于将由讲话者发出的语音转换为可视语言数据并且显示所述语言数据以及讲话者的图像数据的音频视频转换程序，所述音频视频转换程序使计算机执行：

照相机拍摄讲话者的图像的步骤；

13.用于将由讲话者发出的语音转换为可视语言数据并且显示所述语言数据以及讲话者的图像数据的音频视频转换程序，所述音频视频转换程序使计算机执行：

照相机拍摄讲话者的图像的步骤；

14.一种音频视频转换设备，包括：

所述显示装置包括：

第三输入单元，用于建立视频延迟单元和设置单元；以及

15.一种音频视频转换设备，包括：

第一识别装置，包括：第一语音识别单元，用于识别第一复述人员依照第一语言发出或翻译者依照第一语言发出的语音；第一输入单元，用于建立第一语音识别单元；以及第一处理器，用于控制第一语音识别单元和第一输入单元；以及

所述显示装置包括：

设置单元，用于接收从第一识别装置输出的第一可视语言数据以及由视频延迟单元延迟的讲话者的延迟视频数据，用于确定显示状态，并且用于生成待显示的图像，其中那些数据已经同步化或者近似同步化；

第三输入单元，用于建立视频延迟单元和设置单元；以及

16.如权利要求14或15所述的音频视频转换设备，还包括讲话者装置，

所述讲话者装置包括：

照相机，用于拍摄讲话者的面部表情的图像；

输入单元，用于接收由讲话者发出的语音；以及

接口，用于允许经由电子通信通路进行通信，以及

所述讲话者装置经由所述电信通路和接口输出音频信号以及视频信号。

17.如权利要求14或15所述的音频视频转换设备，还包括第一复述人员装置，

所述第一复述人员装置包括：

第一语音输入单元，用于接收第一复述人员依照第一语言发出的语音，所述第一复述人员复述讲话者依照第一语言发出的语音；以及

接口，用于允许经由电信通路进行通信，以及

所述第一复述人员装置经由所述电信通路和接口向所述第一识别装置输出音频信号。

18.如权利要求14或15所述的音频视频转换设备，还包括第二复述人员装置，所述第二复述人员装置包括：

第二语音输入单元，用于接收第二复述人员依照第二语言发出的语音，所述第二复述人员复述翻译者依照第二语言发出的语音，其中所述翻译者翻译讲话者依照第一语言发出的语音；以及

接口，用于允许经由电信通路进行通信，以及

所述第二复述人员装置经由所述电信通路和接口向所述第二识别装置输出音频信号。

19.如权利要求14或者15所述的音频视频转换设备，其中每个第一识别装置、第二识别装置和显示装置均具有用于允许经由电信通路进行通信的接口；以及

经由电信通路以及接口、向所述显示装置传输所述第一识别装置以及第二识别装置的输出。

20.如权利要求14或15所述的音频视频转换设备，其中所述设置单元就待由文本和视频显示单元显示的可视语言数据和延迟视频数据来指定任意的每单位时间的行数、每单位时间的字符数、每行字符数、色彩、大小、显示位置以及其他显示格式；据此执行可视语言数据和延迟视频数据的图像处理；并且生成待显示的图像。

21.用于将由讲话者发出的语音转换为可视语言数据、并且显示所述语言数据以及讲话者的图像数据的音频视频转换方法，所述音频视频转换方法包括：

分别按照第一输入单元、第二输入单元和第三输入单元的指示或者按照适当的存储单元中预定的指示，第一处理器、第二处理器和第三处理器建立第一识别单元、第二识别单元和视频延迟单元的步骤；

按照第三处理器的指定和控制，所述设置单元接收来自于第一语音识别单元的第一可视语言数据、来自于第二语音识别单元的第二可视语言数据以及来自于视频延迟单元的延迟视频数据，确定那些数据的显示设置，生成待显示的其中那些数据已经同步化或者近似同步化的图像，并输出所述图像的步骤；并且

22.用于将由讲话者发出的语音转换为可视语言数据、并且显示所述语言数据以及讲话者的图像数据的音频视频转换方法，所述音频视频转换方法包括：

按照第三处理器的指定和控制，所述设置单元接收来自于第一语音识别单元的第一语言数据以及来自于视频延迟单元的延迟视频数据，确定那些数据的显示设置，生成待显示的其中那些数据已经同步化或者近似同步化的图像，并输出所述图像的步骤；并且

23.如权利要求8或9所述的音频视频转换方法，其中在建立所述设置单元的步骤中，为可视语言数据指定了待显示的文本行数目、待显示字符的大小、字体以及色彩、文本行显示位置等等的一个或多个；以及为延迟视频数据指定了讲话者图像的大小、显示位置等等的一个或多个。

24.如权利要求8或9所述的音频视频转换方法，还包括经由电信电路传输讲话者依照第一语言发出的语音以及照相机拍摄的讲话者的图像的步骤。

25.如权利要求8或9所述的音频视频转换方法，还包括经由电信电路传输由第一复述人员依照第一语言发出的语音、由第二复述人员依照第二语言发出的语音以及翻译者依照第二语言发出的语音的一个或多个的步骤。

26.如权利要求8或9所述的音频视频转换方法，还包括经由电信电路输入从第一语音识别装置和/或第二语音识别装置输出的第一可视语言数据和/或第二可视语言数据的步骤。