CN102170553A - 会议系统、信息处理装置、会议辅助方法及信息处理方法 - Google Patents

会议系统、信息处理装置、会议辅助方法及信息处理方法 Download PDF

Info

Publication number
CN102170553A
CN102170553A CN2011100491071A CN201110049107A CN102170553A CN 102170553 A CN102170553 A CN 102170553A CN 2011100491071 A CN2011100491071 A CN 2011100491071A CN 201110049107 A CN201110049107 A CN 201110049107A CN 102170553 A CN102170553 A CN 102170553A
Authority
CN
China
Prior art keywords
captions
original text
mentioned
translation
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100491071A
Other languages
English (en)
Inventor
大西谕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of CN102170553A publication Critical patent/CN102170553A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明涉及会议系统,信息处理装置、会议辅助方法及信息处理方法,用于识别发言者以英语发言的语音。将听众使用的显示器的字幕显示区域(4)的上半部分作为并列区域(41)利用,将下半部分作为原文区域(42)利用。在并列区域(41)显示作为语音的识别结果的原文(431)和将原文(431)翻译成日语的译文(432)并列地显示的并列字幕(43)。这样,显示出原文(431)和译文(432)双方,而且,在原文(431)中所包含的单词或者词组上,作为译文(432)显示将该单词或者词组翻译而成的语句,因此听众容易理解且容易发现误译。进而,在原文区域(42)显示包含还未被翻译的原文(442)的原文字幕(44)。

Description

会议系统、信息处理装置、会议辅助方法及信息处理方法
技术领域
本发明涉及用于辅助会议的实现的会议系统、信息处理装置、会议辅助方法以及信息处理方法。
背景技术
随着通信技术以及图像处理技术等技术的进步,即使会议的参加者彼此处于远隔位置的情况下也能够没有问题地进行会议的会议系统已被实现。在这样的会议系统中,多台终端装置与网络连接,使各终端装置具有的显示部显示相互共用的图像。该结果为使用终端装置的参加者彼此能够共享会议所需的信息。
以下,将处于发言立场的参加者称为发言者,将处于听发言的立场参加者称为听众,在不区分两者的情况下简称为参加者。
近来,公知有识别发言者的发言的语音,对识别了语音的结果(以下,称为原文)进行显示的技术。进而,为了辅助异国间的会议,或者母语不同的参加者彼此的会议等会议,公知有显示将原文翻译成所需要的语言的结果(以下,称为译文)的技术(参照日本特开平7-87472号公报)。
该结果为能够将以听众无法理解的语言、或者理解需要较多努力的语言进行的发言的内容翻译成听众能够容易理解的语言后显示。因此,能够提高参加者的便利性。
但是,在以往的会议系统中,仅显示原文,或者仅显示译文。
因此,仅显示原文时,听众有时无法理解发言者的发言内容。
另一方面,仅显示译文时,在误译了原文的情况下,听众有可能误解发言者所发言的内容。
发明内容
本发明是为了解决这种问题而提出的,其主要目的是提供一种会议系统,信息处理装置,会议辅助方法以及信息处理方法,通过形成为显示对发言的语音用一种语言进行识别的结果和翻译了识别结果得到的结果的翻译字幕的构成,从而听众能够容易且正确地理解发言者发言的内容。
本发明的会议系统的特征在于,具有:以第一语言识别发言的语音的识别单元;将通过该识别单元识别出的识别结果翻译成与上述第一语言不同的第二语言的翻译单元;生成显示上述识别结果以及通过上述翻译单元翻译出的翻译结果的翻译字幕的生成单元。
本发明的会议系统的特征在于,上述翻译字幕是并列显示上述识别结果以及翻译结果的并列字幕。
本发明的会议系统的特征在于,在上述并列字幕中,针对上述识别结果所包含的每个单词或者词组,并列显示在上述翻译结果中包含的与上述单词或者词组对应的语句。
本发明的会议系统的特征在于,具有显示上述生成部所生成的翻译字幕的显示部。
本发明的会议系统的特征在于,上述翻译字幕是将上述翻译结果与上述识别结果并列显示的并列字幕,上述生成单元还生成表示上述识别结果的识别结果字幕,上述显示部显示上述并列字幕以及上述生成单元所生成的识别结果字幕。
本发明的会议系统的特征在于,上述生成单元生成的识别结果字幕所示的识别结果是除去了上述并列字幕所包含的识别结果的识别结果。
本发明的会议系统的特征在于,上述显示部进行上述识别结果字幕以及并列字幕的滚动显示。
本发明的会议系统的特征在于,上述识别单元以上述第一语言对上述发言的语音进行至少两次识别,会议系统还具有:判定是否应将通过上述识别单元在第一次识别得到识别结果,用在第二次以后的识别得到的识别结果进行置换的识别判断单元;以及,在该识别判断单元判断为应置换的情况下,判断通过从显示在上述显示部的上述翻译字幕中消去在上述第一次识别得到的识别结果的被置换部分,在上述翻译字幕产生能够显示在上述第二次以后的识别得到的识别结果的置换部分的可显示区域与否的区域判断单元,上述生成单元在上述识别判断单元判断为应置换的情况下,将上述翻译字幕修正为,显示在上述第二次以后的识别得到识别结果以及通过上述翻译单元根据在上述第二次以后的识别得到的识别结果而翻译出的翻译结果的翻译字幕,上述显示部具有:在上述识别判断单元判断为应置换的情况下,消去上述被置换部分的单元;在上述区域判断单元判断为否的情况下,为了设置上述可显示区域而将比上述被置换部分靠后的后尾侧的翻译字幕向后滚动的单元;以及,在上述可显示区域显示上述置换部分的单元。
本发明的会议系统的特征在于,上述显示部在上述可显示区域显示上述置换部分的情况下,与上述置换部分以外的上述翻译字幕相比强调显示该置换部分规定时间。
本发明的会议系统的特征在于,中央装置与多台终端装置分别以可通信的方式连接,各终端装置具有上述显示部以及生成单元,上述中央装置具有上述识别单元、翻译单元和将分别表示上述识别结果以及翻译结果的数据向上述终端装置发送的发送单元,在各终端装置中,基于接收到的数据,上述生成单元执行生成处理。
本发明的信息处理装置的特征在于,具有:接收分别表示第一语言的原文和将该原文翻译成与上述第一语言不同的第二语言而成的译文的接收单元;基于该接收单元接收到的数据,生成显示上述原文以及译文的翻译字幕的生成单元。
本发明的信息处理装置的特征在于,具有显示上述生成部所生成的翻译字幕的显示部。
本发明的会议辅助方法是利用会议系统を使用辅助会议实现的会议辅助方法,其特征在于,识别以第一语言进行的发言的语音,将通过识别语音而得到的识别结果翻译成与上述第一语言不同的第二语言,生成显示上述识别结果和通过翻译该识别结果而得到的翻译结果的翻译字幕。
本发明的会议辅助方法的特征在于,将上述翻译字幕显示在上述会议系统所具有的显示部。
本发明的信息处理方法,是利用信息处理装置来处理信息的信息处理方法,其特征在于,接收分别表示第一语言的原文和将该原文翻译成与上述第一语言不同的第二语言而成的译文的数据,基于接收到的数据,生成显示上述原文以及译文的翻译字幕。
本发明的信息处理方法的特征在于,将上述翻译字幕显示在上述信息处理装置所具有的显示部。
本发明的存储介质是将计算机程序以计算机可读取的方式存储的存储介质,其特征在于,上述计算机程序让计算机基于分别表示第一语言的原文和将该原文翻译成与上述第一语言不同的第二语言而成的译文的数据,生成显示上述原文以及译文的翻译字幕。
本发明的存储介质的特征在于,上述计算机程序让计算机将上述翻译字幕显示在计算机所具有的显示部。
在本发明中,会议系统具有识别单元、翻译单元以及生成单元。这样的会议系统实现本发明的会议辅助方法。
发言者以第一语言发言。在此,第一语言是发言者能够容易理解的语言。
发言者所发言的语音通过识别单元以第一语言识别。
通过识别单元识别出的识别结果(即原文)通过翻译单元翻译成第二语言。在此,第二语言是听众能够容易理解的语言。
生成单元生成显示原文和通过翻译单元翻译出的翻译结果(即译文)的翻译字幕。
对翻译字幕,即显示原文和译文的字幕进行显示的情况下,听众阅读所显示的翻译字幕,理解发言者所发言的内容。此时,听众可以仅阅读译文或者仅阅读原文,还可以边对比原文和译文边进行阅读。
一般,会议系统利用多个参加者单独使用的多台终端装置而组成。在这样的会议系统中,各终端装置具有显示部。另一方面,对于识别单元、翻译单元以及生成单元,各终端装置可以具有上述的一部分或者全部,也可以代表性的终端装置具有,还可以与各终端装置进行通信的中央装置具备。
此外,参加者在一个房间的情况下,显示部也可以是一个。
在本发明中,生成单元生成并列字幕。在并列字幕中,并列显示原文和译文,所以对听众来说,与并列字幕以外的翻译字幕(例如,仅单纯地显示原文和译文的翻译字幕)相比,能够更容易对比原文和译文。因此,听众能够容易判断有无误译。该结果为听众能够更容易且正确地理解发言者所发言的内容。
不过,在会议系统不是后述那样同时显示并列字幕和识别结果字幕的构成,在是仅显示并列字幕的构成的情况下,能够仅以并列字幕独占显示字幕的显示区域。因此,防止由对无法理解原文的听众来说无用的内容即识别结果字幕占据显示区域的一部分,而该部分无法显示并列字幕这样的问题。
在本发明中,生成单元针对原文所包含的每个单词或者词组,生成显示翻译了该单词或者词组而成的语句的并列字幕。
与正确地翻译原文所包含的一个句子的情况相比,正确地翻译原文所包含的单词或者词组较容易。因此,能够减少误译原文的可能性。
另外,听众能够按单词或者词组容易地对比原文和译文。因此,听众能够容易地判断有无误译。该结果为听众能够更容易且正确地理解发言者所发言的内容。
在本发明中,生成单元分别生成并列字幕和识别结果字幕,显示部显示通过生成单元所生成的并列字幕和识别结果字幕。
显示部在例如被一分为二的显示区域的一方(以下,称为并列区域)显示对原文和译文并列进行显示的并列字幕,在另一方(以下,称为原文区域)显示记载了原文的字幕(即识别结果字幕)。因此,无论在显示区域显示并列字幕以及识别结果字幕双方与否,对听众来说并列字幕以及识别结果字幕各自容易阅读。即,能够提高各字幕的易读性。
不过,发言者发言之后到得到原文的时间比到得到该原文的译文为止的时间短。换言之,在发言者发言之后到得到译文的时间长。
但是,在本发明中,能够在从原文得到译文之前,仅将识别结果字幕先显示。该结果为与仅显示并列字幕的情况相比,没有会使听众做无用的等待的担忧。
而且,与已显示在原文区域的识别结果字幕分开地,从后面在并列区域显示并列字幕,所以修正已显示的识别结果字幕而无需成为并列字幕。即,分别显示识别结果字幕以及并列字幕的处理简单。
在本发明中,适当地消去了识别结果字幕。原因是在并列字幕也包含有原文。更详细地说,同时显示包含相同的原文的并列字幕和识别结果字幕没有多大好处,另一方面,重复的原文会产生无用地占据显示部所具有的显示区域这样的问题。
于是,生成表示除去了并列字幕所包含的原文的原文的识别结果字幕,将所生成的识别结果字幕显示在原文区域。该结果为识别结果字幕通常从旧的开始依次被消去。
也就是说,能够将识别结果字幕适当地消去。该结果为不损失参加者的便利性,就能够高效地显示原文以及译文。
在本发明中,在并列区域滚动并显示并列字幕,在原文区域滚动并显示识别结果字幕。
并列区域以及原文区域分别是将显示部所具有的显示区域一分为二而成的,能够同时显示并列区域(或者原文区域)的并列字幕(或者识别结果字幕)的量比能够显示在整个显示区域中的量少。
但是,在自动地滚动并显示并列字幕(或者识别结果字幕)的情况下,听众能够将并列字幕(或者识别结果字幕)的全文按顺序阅读。
另外,在并列字幕(或者识别结果字幕)能够以手动方式滚动的情况下,听众通过向上滚动或者向下滚动并列字幕(或者识别结果字幕),能够适当地阅读并列字幕(或者识别结果字幕)内所希望的部位。
以上的结果为能够提高各字幕的易读性。
此外,在从原文得到译文的时间过长的情况下,显示在原文区域中的与识别结果字幕对应的并列字幕未显示在并列区域的期间内,有时必须在原文区域显示新的识别结果字幕。在该情况下可以认为,将已经显示的识别结果字幕从原文区域自动地滚动出,使新的识别结果字幕显示在原文区域。另外,在该情况下,将表示正在进行识别结果字幕的滚出显示的符号或者消息等附加地显示在原文区域。
在本发明中,会议系统还具有识别判断单元以及区域判断单元。
一般,用于得到高精度的语音识别结果的计算需要长时间。因此,会有直到显示高精度的语音识别结果为止使听众长时间等待的担忧。虽然这么说,若牺牲语音识别结果的精度而缩短计算时间,则可能会显示错误的语音识别结果。
于是,识别单元在以第一语言识别了发言的语音之后,再次以第一语言识别发言的语音。在该情况下,识别单元只要以再次识别出的识别结果比最初的识别结果精度高的方式识别语音即可。此时,与语音的识别相关的计算需要长时间,但到显示语音的识别结果为止,听众不会等待长时间。原因是第二次识别单元应识别语音的发言的语音,是已经识别过的语音,不用等到第二次语音的识别结束,显示在第一次识别出的语音的识别结果即可。
以下,将由识别单元得到的最初的识别结果称为最初的原文,将再次识别出的识别结果称为高精度原文。
有可能在最初的原文中包含错误。因此,识别判断单元判断在最初的原文中是否存在应用高精度原文的置换部分置换的被置换部分。高精度原文比最初的原文识别语音的精度高,因此在最初的原文和高精度原文存在不同部分的情况下,最初的原文中的该部分是被置换部分,高精度原文中的部分是置换部分。若将被置换部分用置换部分进行置换,则最初的原文和高精度原文变得相同。即,能够改正最初的原文的错误。
生成单元在具有置换部分以及被置换部分的情况下,即最初的原文含有错误的情况下,将显示最初的原文和译文的翻译字幕修正成显示高精度原文和译文的翻译字幕。
在未被显示的翻译字幕中包含错误的情况下,显示部在显示未被显示的翻译字幕时,显示通过生成单元修正后的翻译字幕即可。
另一方面,在所显示的翻译字幕包含错误的情况下,需要注意。原因是例如在被置换部分的文字数比置换部分的文字数少的情况下,无法将显示在显示部的被置换部分以置换部分单纯地置换。
如果将置换部分的文字尺寸或者文字间的间距变得比被置换部分的文字尺寸或者文字间小,则可能能够置换。但是,在该情况下,会显示文字尺寸或者文字间的间距部局部不同的翻译字幕所以容易损害美观,而且,听众有可能难以阅读翻译字幕。
而且,还能认为在消去最初的原文之后,重新显示高精度原文(即,全部置换原文),该情况下,把握修正过的部分对听众来说很难。
进而,在最初的原文和高精度原文中,按照例如置换部分以及被置换部分各自的文字数的差异,相同的语句配置在不同位置的可能性高。因此,若听众正在阅读最初的原文时,消去最初的原文,则即使重新显示高精度原文,听众也容易不知道自己读到哪里。
也就是说,原文的全置换存在使会议系统的使用性恶化这样的问题。
于是,在最初的原文包含错误的情况下,区域判断单元判断通过从显示在显示部的翻译字幕中消去被置换部分,在翻译字幕产生能够显示置换部分的可显示区域与否。
在通过消去被置换部分而产生可显示区域的情况下,显示部消去被置换部分,在可显示区域显示置换部分。
在即使消去被置换部分也没有产生可显示区域的情况下,显示部消去被置换部分且在设置可显示区域之后,在可显示区域显示置换部分。在此,显示部为了设置可显示区域,而将被置换部分的后尾侧的翻译字幕向后滚动。
以上的结果是不变更文字尺寸或者文字间的间距,并且不全部置换原文,就能够将所显示的最初的原文修正成高精度原文。在该情况下,能够抑制会议系统的使用性的恶化。
此外,为了进一步减少显示内容的变化,显示部在显示最初的原文时,在语句和语句之间预先有富裕即可。在该情况下,例如,在通常应配置1个文字量空白的英文单词间,配置规定的N(N≥2)文字量的空白。此时,由于容易判断为如果消去被置换部分则产生可显示区域,所以无需为了设置可显示区域而滚动翻译字幕的可能性高。即,显示内容的变化减少。
在本发明中,在显示部在可显示区域显示置换部分的情况下,将该置换部分在规定时间内与置换部分以外的翻译字幕相比进行强调显示。在该情况下,听众更容易把握是否修正了所显示的原文以及在修正的情况下所修正的场所。
而且,如果经过规定时间,则不强调显示置换部分,所以没有持续强调显示置换部分会有损美观,或听众难以阅读翻译字幕的担忧。
在本发明中,会议系统利用中央装置和多台终端装置而构成。中央装置和多台终端装置分别以可通信的方式连接。终端装置是参加者使用的装置。
在中央装置中,识别单元以第1语音识别发言的语音。该结果为在中央装置得到原文。而且,在中央装置中,翻译单元将原文翻译成第二语言。该结果为在中央装置得到译文。
进而,在中央装置中,发送单元将与原文以及译文对应的数据向多台终端装置发送。
在终端装置中,基于接收到的数据,生成单元生成显示原文和译文的翻译字幕。而且,在终端装置中,显示部显示生成单元所生成的翻译字幕。
这样的终端装置是利用本发明的信息处理装置而成,实现本发明的信息处理方法。另外,本发明的存储介质所存储的计算机程序是使本发明的信息处理装置所具有的各种单元,利用计算机的硬件要素以软件方式进行实现。
一般,为了用计算机实现语音识别以及翻译,需要繁琐的计算处理。因此,假设各终端装置具备识别单元以及翻译单元的情况下,如果各个终端装置的计算能力没有提高,则从语音识别到字幕显示的处理时间可能变得非常长。另一方面,如果提高各个终端装置的计算能力,则会议系统的制造成本增大。
因此,中央装置执行繁琐的计算处理。在该情况下,仅中央装置的计算能力提高即可,所以能够减少会议系统的制造成本,并能够缩短从语音识别到字幕显示的处理时间。
在本发明的会议系统、信息处理装置、会议辅助方法以及信息处理方法中,发言者能够以自身能够容易理解的第一语言进行发言。此时,即使完全无法理解第二语言也没有特别的问题。
另一方面,听众能够将发言者发言的内容以自身能够容易理解的第二语言进行阅读。此时,即使无法完全理解第一语言也没有特别的问题。因此,听众相比较在听以第一语言进行的发言的情况,以及阅读以第一语言记载的发言的内容的情况中的任意一个相比,都能够容易理解发言者所发言的内容。
另外,即使对第一语言的理解不充分,听众也能通过对比阅读以第一语言记载的内容(即原文)和以第二语言记载的发言的内容(即译文),而容易地判断有无误译。因此,听众能够更容易且正确地理解发言者的发言内容。
以上的结果,不论是发言者还是听众,都能够提高会议的参加者全员的便利性。
以下参照附图对对象和功能更充分地进行说明。
附图说明
图1是表示本发明实施方式1的会议系统的构成的示意图。
图2是表示本发明实施方式1的会议系统所具有的终端装置的主要部分构成的框图。
图3是表示本发明实施方式1的会议系统所具有的中央装置的主要部分构成的框图。
图4是表示本发明实施方式1的会议系统中显示在各终端装置的显示器中的字幕显示画面的一个例子的示意图。
图5是表示本发明实施方式1的会议系统中显示在字幕显示画面的字幕显示区域的原文字幕的一个例子的示意图。
图6是表示本发明实施方式1的会议系统中显示在字幕显示区域的并列字幕以及原文字幕的一个例子的示意图。
图7是用于说明本发明实施方式1的会议系统中在终端装置间共享字幕的结构的功能模块图。
图8A以及8B是表示本发明实施方式1的会议系统中用于管理原文、译文以及各种字幕的字幕管理表的一个例子的示意图。
图9A以及9B是表示本发明实施方式1的会议系统中用于管理原文、译文以及各种字幕的字幕管理表的一个例子的示意图。
图10是表示本发明实施方式1的会议系统中显示在字幕显示区域的并列字幕以及原文字幕的另外一个例子的示意图。
图11是表示本发明实施方式1的会议系统中显示在字幕显示区域的并列字幕以及原文字幕的又一个例子的示意图。
图12是表示在本发明实施方式1的会议系统中显示在字幕显示区域的并列字幕的一个例子的示意图。
图13是表示用本发明实施方式1的会议系统执行的语音发送处理、数据发送处理以及字幕显示处理的顺序的流程图。
图14是表示用本发明实施方式1的会议系统所具有的中央装置执行的数据发送处理的顺序的流程图。
图15是表示用本发明实施方式1的会议系统所具有的各终端装置执行的字幕显示处理的顺序的流程图。
图16是表示用本发明实施方式1的会议系统所具有的各终端装置执行的字幕显示处理的顺序的流程图。
图17是表示用本发明实施方式1的会议系统所具有的各终端装置执行的原文字幕输出处理的详细顺序的流程图。
图18是表示用本发明实施方式1的会议系统所具有的各终端装置执行的并列字幕输出处理的详细顺序的流程图。
图19是用于说明本发明实施方式2的会议系统中的高速处理以及高精度处理的结构的功能模块图。
图20是表示本发明实施方式2的会议系统中显示在字幕显示画面的字幕显示区域中的高速原文字幕的一个例子的示意图。
图21是表示本发明实施方式2的会议系统中显示在字幕显示区域的高速并列字幕以及高速原文字幕的一个例子的示意图。
图22是表示本发明实施方式2的会议系统中显示在字幕显示区域的高速并列字幕以及高速原文字幕的另外一个例子的示意图。
图23是表示本发明实施方式2的会议系统中显示在字幕显示区域的高速并列字幕以及高速原文字幕的又一个例子的示意图。
图24是表示本发明实施方式2的会议系统中显示在字幕显示区域的高精度并列字幕以及高精度原文字幕的一个例子的示意图。
图25是表示用本发明实施方式2的会议系统执行的数据发送处理以及字幕显示处理的顺序的流程图。
图26是表示用本发明实施方式2的会议系统所具有的中央装置执行的数据发送处理的顺序的流程图。
图27是表示用本发明实施方式2的会议系统所具有的各终端装置执行的字幕显示处理的顺序的流程图。
图28是表示用本发明实施方式2的会议系统所具有的各终端装置执行的字幕显示处理的顺序的流程图。
图29是表示用本发明实施方式2的会议系统所具有的各终端装置执行的原文字幕修正处理的详细顺序的流程图。
图30是表示用本发明的实施方式2的会议系统所具有的各终端装置执行的原文字幕修正处理的详细顺序的流程图。
图31是表示用本发明实施方式2的会议系统所具有的各终端装置执行的并列字幕修正处理的详细顺序的流程图。
具体实施方式
以下,基于表示本发明实施方式的附图详述本发明。
实施方式1
图1是表示本发明实施方式1的会议系统6的构成的示意图。
就实施方式1的会议系统6而言,为了辅助实现由多个参加者参加的会议,要使会议所需的信息在多台终端装置1,1,......之间共享。因此,在会议系统6中参加者所用的终端装置1要具备人数数量,而且还具有1台中央装置3和网络5。
作为会议所需的信息,例如有参加者发言的语音、映出参加者的动态图像,在会议中所使用的资料的静止图像以及表示参加者的发言内容的字幕等信息。
网络5利用进行会议的公司组织的公司内LAN以及/或者互联网之类的公共通信网等网络而构成。
各终端装置1和中央装置3经由网络5能够通信地被连接。因此,各终端装置1接受与中央装置3连接的认证,在被认证过的终端装置1和中央装置3之间交接应共享的语音以及字幕等信息。例如,将表示语音的语音数据从中央装置3向被认证过的终端装置1,1,......发送,接收到语音数据的各终端装置1,基于接收到的语音数据,从后述的扬声器28输出语音。该结果为相同的语音从被认证过的终端装置1,1,......各自的扬声器28输出。即,在终端装置1,1,......间共享相同的语音。
以下,只要没有特别区别,将被认证过的终端装置1仅称为终端装置1。
图2是表示终端装置1的主要部分构成的框图。
终端装置1利用个人计算机构成,具有通过总线或者信号线相互连接的控制部11、HDD(Hard Disk Drive:硬盘驱动器)12、输入处理部13、显示处理部14、通信处理部15、影像处理部16、输入语音处理部17、输出语音处理部18以及外部存储部19。
而且,终端装置1通过内置或者从外部连接,而具有图形输入板21、鼠标22、键盘23、显示器24、I/F部25、摄像机26、麦克风27以及扬声器28。
控制部11具有作为主存储部的ROM、根据存储在ROM中的计算机程序执行各种处理的CPU和CPU用作作业区域的RAM,并且该控制部11作为终端装置1的控制中枢发挥作用。
HDD12是辅助存储部。HDD12中存储有终端装置1用的计算机程序(以下,称为终端程序)1P。终端程序1P作为本发明实施方式的计算机程序发挥作用。此外,HDD12中可以还存储有终端程序1P以外的计算机程序。
通过控制部11根据存储在HDD12中的终端程序1P控制装置各部,从而终端装置1作为本发明实施方式中的信息处理装置发挥作用。
而且,在HDD12中存储有后述的字幕管理表1T(参照图8A、图8B、图9A以及图9B)。
输入处理部13,作为输入用用户接口,连接有图形输入板21、鼠标22以及键盘23。图形输入板21使用笔20来操作。
以下,不区分图形输入板21、鼠标22以及键盘23而称为操作部21~23。
显示处理部14,作为输出用用户接口,连接有显示器24。显示器24利用液晶显示器而成,作为本发明实施方式的显示部发挥作用。
控制部11通过显示处理部14,使后述的字幕显示画面241(参照图4)显示在显示器24上。在字幕显示画面241内设有用于显示应在终端装置1,1,......间共享的字幕的字幕显示区域4。
通信处理部15利用网卡而成,在通信处理部15连接有作为终端装置1与网络5的接口的I/F部25。通信处理部15进行经由网络5收发的数字数据的数据包化以及来自数据包的数字数据的读取等处理。通信处理部15为了收发语音数据以及表示动态图像的动态图像数据等数据而利用的通信协议例如是H.323,SIP(Session Initiation Protocol:会话发起协议),或者HTTP(Hypertext Transfer Protocol:超文本传输协议)等通信协议,但并不限定于上述。
控制部11利用通信处理部15,在与中央装置3之间收发各种数据。
在影像处理部16连接有摄像机26。摄像机26通过拍摄使用终端装置1的参加者,而将参加者的动态图像给予影像处理部16。影像处理部16包含编码器,将自摄像机26给予的动态图像转换成H.264或者MPEG等影像规格的动态图像数据并输出转换后的动态图像数据。
控制部11将从影像处理部16输出的动态图像数据向中央装置3发送。从一个终端装置1被发送到中央装置3的动态图像数据从中央装置3向其他终端装置1,1,......发送。
接收到动态图像数据的终端装置1使基于接收到的动态图像数据的动态图像显示在显示器24的规定显示区域(例如显示在图4所示的字幕显示画面241附近的动态图像显示画面内)。
输入语音处理部17连接麦克风27。麦克风27通过对使用终端装置1的参加者的发言进行集音,而将模拟的语音信号给予输入语音处理部17。输入语音处理部17具有A/D转换功能,通过对语音信号进行取样(sampling),而将所给予的语音信号转换成数字的语音数据并输出转换后的语音数据。此外,输入语音处理部17可以内置回波消去器。
控制部11将从输入语音处理部17输出的语音数据向中央装置3发送。从一个终端装置1发送到中央装置3的语音数据从中央装置3向其他终端装置1,1,......发送。
接收到语音数据的终端装置1将接收到的语音数据输入到输出语音处理部18。
输出语音处理部18连接扬声器28。输出语音处理部18具有D/A转换功能,将输入到自身的数字的语音数据转换成模拟的语音信号,将转换后的语音信号给予扬声器28。此时,语音从扬声器28被输出。
外部存储部19通过被控制部11控制,从具有移动性的记录介质M读入被记录在记录介质M中的终端程序1P。所读入的终端程序1P被写入HDD12。
作为记录介质M,能够使用例如CD-ROM、DVD、蓝光光盘或者软盘等存储介质。
在实施方式1中,终端程序1P是在记录到记录介质M的状态下进行分布的构成,但不限定于这样的构成。例如,终端程序1P可以是经由网络5进行发送的构成,也可以是预先存储在控制部11所具有的ROM中的构成。
另外,在实施方式1中,终端程序1P是安装到终端装置1之后被执行的构成,但并不限定在这样的构成。终端程序1P也可以是从记录介质M或者发送源读取而被直接执行的构成。
以下,在区分多台终端装置1,1......的情况下,为方便起见称为终端装置A1,B1,C1......(参照后述的图7)。另外,将使用终端装置A1、B1、C1......的参加者称为参加者Pa,Pb,Pc......。进而,参加者Pa还称为发言者Pa,参加者Pb,Pc......还称为听众Pb,Pc......。
图3是表示中央装置3的主要部分构成的框图。
中央装置3利用服务器计算机构成,具有通过总线或者信号线相互连接的控制部31、HDD32以及通信处理部33。进而,中央装置3内置有I/F部34。
控制部31具有作为主存储部的ROM、根据存储在ROM中的计算机程序执行各种处理的CPU和CPU用作作业区域的RAM,而且该控制部31作为中央装置3的控制中枢发挥作用。
HDD32是辅助存储部。
HDD32中存储有中央装置3用的计算机程序(以下,称为中央程序)3P。控制部31根据存储在HDD32中的中央程序3P执行各种处理,从而控制装置各部。中央程序3P中包含有语音识别用的计算机程序以及翻译用的计算机程序等计算机程序。此外,HDD32中可以还存储中央程序3P以外的计算机程序。
而且,虽未图示,HDD32中存储有用于进行终端装置1,1,......的认证的用户数据。而且,HDD32中存储有后述的语言登录表3T。
通信处理部33利用网卡构成,通信处理部33与作为中央装置3与网络5的接口的I/F部34连接。通信处理部33进行经由网络5收发的数字数据的数据包化以及来自数据包的数字数据的读取等处理。通信处理部33为了收发语音数据以及动态图像数据等数据而利用的通信协议例如是H.323、SIP或者HTTP等通信协议,但不限定于这些。
控制部31利用通信处理部33,在与终端装置1,1,......各个之间收发各种数据。
此外,终端装置1(或者中央装置3)也可以是代替具有HDD12(或者HDD32)的辅助存储部,而具备具有SSD这样的闪存的辅助存储部的构成。
以上这样构成的会议系统6是所谓的电视会议系统,通过利用会议系统6,参加者能够实时地进行电子会议。
由此,各参加者各使用一台终端装置1,通过操作操作部21~23,而启动基于终端程序1P的会议用应用软件(以下,称为会议用应用程序)。
在会议用应用程序启动了的情况下,将参加者输入用户ID以及密码等用户信息用的认证画面显示在显示器24。参加者一边用眼观看显示在显示器24中的认证画面,一边通过操作操作部21~23,在认证画面输入用户信息。
输入处理部13将表示被输入到认证画面中的用户信息的用户数据向控制部11输出。控制部11将所输入的用户数据向中央装置3发送。此时,与用户数据建立关联地,还将终端装置1对应的IP地址向中央装置3发送。
中央装置3接收用户数据以及IP地址。
控制部31通过比较接收到的用户数据和存储在HDD32中的用户数据,判断是否许可登录。接着,控制部31将与判断结果相应的认证结果数据向根据接收到的IP地址识别出来的终端装置1发送。
在许可登录的情况下,控制部31发行用于识别各个终端装置1,1,......的终端识别数据。在表示许可登录的认证结果数据中含有终端识别数据。以后,控制部31利用终端识别数据,识别各个终端装置1,1,......。
对于接收到表示许可登录的认证结果数据的终端装置1(即被认证过的终端装置1),在显示器24显示会议用应用程序的各种画面(动态图像显示画面以及字幕显示画面241等画面)。以后,参加者能够将终端装置1作为会议系统6的会议用终端装置使用。而且,终端装置1在将所需的数据向中央装置3发送的情况下,也将在认证结果数据中包含的终端识别数据同时向中央装置3发送。
另一方面,对于接收到表示拒绝登录的认证结果数据的终端装置1(即没有被认证的终端装置1),在显示器24显示包含错误报文的画面。此时,参加者无法将终端装置1作为会议系统6的会议用终端装置使用。
图4是表示显示在各终端装置B1,C1的显示器24的字幕显示画面241的一个例子的示意图。
字幕显示画面241是会议用应用程序的应用窗口,在字幕显示画面241的中央部设有矩形形状的字幕显示区域4。
然而,在发言者Pa以英语作为母语、听众Pb,Pc以日语作为母语、听众Pd以德语作为母语的情况下,发言者Pa使用英语比使用日语或者德语等语言的便利性高,听众Pb,Pc使用日语的便利性高,听众Pd使用德语的便利性高。
于是,会议系统6,识别发言者Pa用英语发言的语音之后将其翻译成日语,使显示发言内容的英文(即,原文)以及日文(即,译文)的翻译字幕、仅原文的原文字幕显示在终端装置B1,C1各自的显示器24所具有的字幕显示区域4。同样,会议系统6,使显示原文以及作为译文的德文的翻译字幕和原文字幕显示在终端装置D1的显示器24所具有的字幕显示区域4。
作为这样的翻译字幕,在实施方式1中,例示了并列地显示原文以及译文的并列字幕。而且,原文字幕作为本发明实施方式中的识别结果字幕发挥作用。
图5是表示显示在字幕显示区域4的原文字幕44的一个例子的示意图。而且,图6是表示显示在字幕显示区域4的并列字幕43以及原文字幕44的一个例子的示意图。
字幕显示区域4被虚拟地上下分为两部分,上侧作为显示并列字幕用的并列区域41,下侧作为显示原文字幕用的原文区域42。因此,字幕显示区域4、并列区域41以及原文区域42,作为本发明实施方式的显示部所具有的显示区域,以及将显示区域两分成的一方以及另一方起作用。而且,也可以在并列区域41和原文区域42之间显示边界线。
图5例示了将包含原文441,442的原文字幕44以横写方式显示在原文区域42,而在并列区域41没有任何显示的情况。一般地,由于翻译处理需要长时间,所以直到得到原文441,442的译文之前都显示包含原文441,442的原文字幕44。
此时,对于用眼睛观看原文区域42的听众Pb,Pc,首先,原文441以从原文区域42的下边部向上方移动的方式自动地被显示(即,原文441自动地向上滚动),接着,原文442以将原文441推上去的方式自动地被显示(即,原文441,442自动地向上滚动)。
图6例示有得到了原文441(参照图5)的译文432的情况。此时,并列区域41中以横写方式对原文431和译文432被并列地显示的并列字幕43进行显示,在原文区域42以横写方式显示原文字幕44。
此时,对于用眼睛观看并列区域41的听众Pb,Pc,第1行的原文431以从原文区域42的下边部向上方移动的方式被自动地显示,接着,第1行的译文432以将原文441推上去的方式被自动地显示,同样,各第2行的原文431以及译文432以将各第1行的原文431以及译文432推上去的方式被自动地显示。
在此,原文431相当于图5所示的原文441。因此,图6所示的原文字幕44中含有图5所示的原文442,但不含有原文441。换而言之,表示显示在并列区域41的并列字幕43中所包含的原文431的原文字幕44被从原文区域42被消去了。因此,在并列字幕43和原文字幕44中不会重复内容完全相同的原文441和原文431。也就是说,在原文字幕44中仅含有未译的原文442。
因此,对于用眼睛观看原文区域42的听众Pb,Pc,显示原文431以及译文432的同时原文441被消去了,仅留下原文442。
如图6所示那样,实施方式1的并列字幕43按原文431所包含的每个单词或者词组(例如“try and”、“make~decision”、“final”以及“hotel”),作为译文432并列显示翻译该单词或者词组而成的语句(此时,为“~よう努める”、“意思决定をする”、“最终の”以及“ホテル”)。此时,各单词以及各词组通过下划线以及显示颜色等的差别,与其他单词以及词组进行区别。
不过,在图6所示的例子中,原文431中所含的单词或者词组的横向的长度比包含在译文432中、翻译该单词或者词组而成的语句的横向的长度短。因此,在原文431中,根据翻译出的语句的长度,将单词或者词组彼此的间隔设置为比图5所示的原文441中的单词或者词组彼此的间隔长。
为了显示字幕,参加者Pa,Pb,Pc,......预先登录自身使用的语言。为此,在显示器24中显示语言登录画面。例如参加者Pa一边用眼睛观看显示在显示器24中语言登录画面,一边通过操作操作部21~23,在语言登录画面上,将作为所希望的语言的英语作为使用语言输入。
此后,表示使用语言为英语的数据和终端识别数据被从终端装置A1向中央装置3发送。
在接收到表示使用语言的数据和终端识别数据的中央装置3,将终端装置A1,B1,C1,......的终端识别数据和参加者Pa,Pb,Pc,......的使用语言建立了关联的语言登录表3T被存储到HDD32。
此外,会议系统6也可以是使并列字幕以及原文字幕显示在终端装置A1的显示器24的构成。而且,在至少使原文字幕显示在终端装置A1的显示器24上的情况下,发言者Pa能够阅读所显示的原文字幕,判断自身的发言的语音是否正确地被识别出。
图7是用于说明在终端装置1,1,......间共享字幕的结构的功能模块图(参照图2以及图3)。
发言者Pa以英语发言的语音被终端装置A1的麦克风27集音,通过终端装置A1的输入语音处理部17被转换成语音数据。转换后的语音数据、即表示发言者Pa发言的语音的语音数据,与终端装置A1的终端识别数据一起,被从终端装置A1向中央装置3发送。
在接收到了语音数据以及终端识别数据的情况下,中央装置3的控制部31基于接收到的终端识别数据并参照语言登录表3T,由此判断原文的语言和译文的语言。
由于在实施方式1的例子中,中央装置3接收到的终端识别数据是表示终端装置A1的数据,所以判断为原文的语言是英语。而且,判断为终端装置B1,C1涉及的译文的语言是日语、终端装置D1涉及的译文的语言是德语。
以下,例示将英语翻译成日语的情况。
中央装置3的控制部31作为通过根据中央程序3P中所含有的语音识别用的计算机程序内用于识别英语的语音的计算机程序来识别英语的语音的语音识别引擎311发挥作用。而且,控制部31作为通过根据中央程序3P中所包含的翻译用的计算机程序内用于把英文译成日文的计算机程序而从英语翻译成日语的翻译引擎312发挥作用。
语音识别引擎311通过对从终端装置A1接收到的语音数据执行语音识别处理,生成表示识别结果(即,原文)的原文数据。这样的语音识别引擎311作为本发明实施方式的识别部发挥作用。
而且,语音识别引擎311将生成了的原文数据向终端装置B1,C1发送。
翻译引擎312通过对语音识别引擎311所生成的原文数据执行翻译处理,生成表示翻译结果(即,译文)的译文数据。这样的翻译引擎312作为本发明实施方式的翻译部发挥作用。其中,将原文的单词或者词组和翻译该单词或者词组而成的语句以建立了关联的状态包含在译文数据中。
而且,翻译引擎312将所生成的译文数据向终端装置B1,C1发送。
由语音识别引擎311进行的语音识别处理和由翻译引擎312进行的翻译处理以多任务被执行。由于语音识别处理以及翻译处理是计算负荷大的处理,所以希望控制部31的计算能力至少比终端装置1的控制部11高。此外,控制部31还可以具有专门执行语音识别处理的MPU和专门执行翻译处理的MPU。
不过,在一个语音识别处理结束后、接着该语音识别处理的翻译处理没有结束的期间内,有时下一个语音识别处理会结束。此时,例如在发送了一个原文441的原文数据并发送与原文441(原文431)对应的译文432的译文数据之前,就会发送下一个原文442的原文数据(参照图5以及图6)。
此外,可以认为在原文是长篇文章的情况下,分割原文并对分割过的原文进行翻译,从翻译已结束的部分起按顺序发送译文数据。此时,发送对长篇文章进行了分割后的一个原文441以及下一个原文442的原文数据,并发送与先前被翻译完的原文441对应的译文432的译文数据,然后发送剩余的原文442的译文的译文数据。
图8A、图8B,图9A以及图9B分别是表示用于管理原文、译文以及各种字幕的字幕管理表1T的一个例子的示意图。更详细地说,字幕管理表1T是在终端装置1中,用于管理接收到的原文数据、显示中的原文字幕、接收到的译文数据、显示中的并列字幕的表。
在图8A、图8B、图9A以及图9B中,将原文441,442的原文数据用“aaa”,“bbb”表示,将原文字幕44所包含的原文441,442用“AAA”,“BBB”表示。而且,在图9A以及图9B中,将译文432的译文数据用“めめめ”表示,将并列字幕43所包含的原文431以及译文432用“ααα”以及“アアア”表示。进而,将原文441的原文数据和译文432的译文数据对应着的情况用“*”表示。
如图7所示那样,终端装置B1,C1各自的控制部11通过按照终端程序1P,作为字幕生成引擎111发挥作用。
在接收到原文441的原文数据的情况下,终端装置B1,C1各自的字幕生成引擎111,首先在字幕管理表1T中登录原文441的原文数据。
接着,字幕生成引擎111基于接收到的原文数据,生成用于使包含原文441的原文字幕44显示在显示器24上的原文字幕数据。进而,字幕生成引擎111通过将所生成的原文字幕数据给予显示处理部14,而使原文字幕44显示在显示器24上。然后,字幕生成引擎111在字幕管理表1T中登录包含原文441的原文字幕44。
该结果为得到图8A所示那样的字幕管理表1T。
而且,在接收到原文442的原文数据的情况下,字幕生成引擎111在字幕管理表1T中登录原文442的原文数据。
接着,字幕生成引擎111基于接收到的原文数据,生成用于使包含原文441,442的原文字幕44显示在显示器24上的原文字幕数据。进而,字幕生成引擎111通过将所生成的原文字幕数据给予显示处理部14,而使原文字幕44显示在显示器24上。
然后,字幕生成引擎111在字幕管理表1T中登录包含原文441,442的原文字幕44。
该结果,得到图8B所示那样的字幕管理表1T。因此,如果参照该字幕管理表1T,就可知图5所示那样的字幕显示区域4被显示在显示器24。
进而,在接收到译文432的译文数据的情况下,字幕生成引擎111在字幕管理表1T中登录译文432的译文数据。
另外,字幕生成引擎111基于译文432的译文数据中所包含的原文的单词或者词组,对译文432与已经接收到的原文数据所示的原文的对应关系进行调查。由于在实施方式1的例子中,译文432与原文441对应,所以字幕生成引擎111在字幕管理表1T中登录原文441的原文数据和译文432的译文数据对应的意思。
该结果,得到图9A所示那样的字幕管理表1T。
接着,字幕生成引擎111基于接收到的译文数据,生成用于在显示器24显示包含与原文441相当的原文431和译文432的并列字幕43的并列字幕数据。
而且,字幕生成引擎111将当前的原文字幕数据,也就是说,将用于在显示器24显示包含原文441,442的原文字幕44的原文字幕数据修正成用于在显示器24显示包含原文442的原文字幕44的原文字幕数据。因为在并列字幕43中包含与原文441相当的原文431。在基于这样修正过的原文字幕数据而显示的原文字幕44中,原文441被消去。
而且,字幕生成引擎111通过将所生成的并列字幕数据和修正过的原文字幕数据给予显示处理部14,而使并列字幕43以及原文字幕44显示在显示器24上。
然后,字幕生成引擎111在字幕管理表1T中登录包含原文431以及译文432的并列字幕43和包含原文442的原文字幕44。
该结果,得到图9B所示那样的字幕管理表1T。因此,若参照该字幕管理表1T,则可知图6所示那样的字幕显示区域4被显示到显示器24。
以上这样的字幕生成引擎111作为本发明实施方式的生成部发挥作用。
不过,在图5(或者图6)的例子中,原文字幕44所包含的原文441,442(或者原文442)是能够全部显示在原文区域42的量。但是,在保持不从中央装置3发送译文数据的状态而发送了新的原文数据的情况下,原文字幕44所包含的原文的量有时会超过能够显示在原文区域42中的量。
该情况下,在原文区域42中,原文字幕44所包含的原文的前头部侧按顺序被自动地消去,同时原文字幕44所包含的原文的后尾部侧按顺序自动地向上滚动。而且,显示通知省略了原文字幕44所包含的原文的前头部侧的情况的省略符号45(参照下面的图10)。
图10是表示显示在字幕显示区域4的并列字幕43以及原文字幕44的另外一个例子的示意图。图10所示的字幕显示区域4虽与图6所示的字幕显示区域4对应,但显示有省略符号45、后述的滚动条421以及滚动块422。
对于用眼睛观看原文区域42的听众Pb,Pc,在原文字幕44所包含的原文从前头部起向后尾部按顺序自动地持续向上滚动的期间内,不久,原文的前头部就自动地向原文区域42外被推上去了(即,自动地滚动出)。而且,对于听众Pb,Pc,原文被滚动出的同时,在并列区域41和原文区域42之间显示划分两者的省略符号45。
在实施方式1中,听众Pb、Pc通过以手动方式滚动原文字幕44,要显示原文字幕44所包含的原文内被消去的部分,而消去已显示的部分。为此,在原文区域42中,与省略符号45一起显示对原文字幕44以手动方式进行滚动用的滚动条421以及滚动块422。
在该情况下,听众Pb、Pc通过使用操作部21~23操作滚动块422,而使原文字幕44所含的原文的任意部分显示在原文区域42,因此提高了听众Pb、Pc的便利性。
然而,在图6的例子中,并列字幕43所包含的原文431以及译文432是能在并列区域41全部显示的量。但是,在从中央装置3发送了新的译文数据的情况下,并列字幕43所包含的原文以及译文的量有时超过能够显示在并列区域41的量。
在该情况下,在并列区域41中,将并列字幕43所包含的原文以及译文的前头部侧按顺序自动地消去,同时将并列字幕43所包含的原文以及译文的后尾部侧按顺序自动地向上滚动。
因此,对于用眼睛观看并列区域41的听众Pb、Pc,并列字幕43所包含的原文以及译文被从前头部起向后尾部按顺序自动地持续向上滚动的期间内,不久,原文以及译文的前头部会被自动地滚动出。
在此,可以是无法二次显示被消去的原文以及译文的构成,但还可以是听众Pb,Pc通过以手动方式滚动并列字幕43,能够显示并列字幕43所包含的原文以及译文内被消去的部分,并消去已显示的部分的构成。
图11是表示显示在字幕显示区域4的并列字幕43以及原文字幕44的又一个例子的示意图。图11所述的字幕显示区域4与图10所示的的字幕显示区域4对应,但在并列区域41显示有用于将并列字幕43以手动方式滚动的滚动条(bar)411以及滚动块(box)412。
此时,听众Pb、Pc通过使用操作部21~23操作滚动块412能够使并列字幕43中所包含的任意部分显示在并列区域41。该结果,听众Pb,Pc能够任意阅读读漏了的原文或者希望再读的译文等句子,因此提高了听众Pb,Pc的便利性。
此外,并列区域41以及原文区域42各自的纵向长度可以根据并列字幕43所包含的原文以及译文的量以及原文字幕44所包含的原文的量各自的多寡而改变。此时,例如图6所示的并列区域41的空白少,而原文区域42的空白多,因此并列区域41的纵向长度变长,而原文区域42的纵向长度变短该并列区域41的纵向长度变长的部分。
图12是表示显示在字幕显示区域4的并列字幕43的一个例子的示意图。
图5、图6、图10以及图11分别例示了在字幕显示区域4设有并列区域41以及原文区域42的情况,但在图12所示的字幕显示区域4中未设置相当于原文区域42的区域,字幕显示区域4整体相当于并列区域41。
因此,在图12所示的字幕显示区域4,并列字幕43被滚动显示,但原文字幕44完全不显示。也就是说,字幕显示区域4中仅显示已结束翻译的原文,而不显示未译的原文。
因此,能够用并列字幕43占据字幕显示区域4。
此外,也可以是在字幕显示区域4不显示并列字幕43,而显示仅单纯地并列布置了原文和译文的翻译字幕的构成。
以下,对并列字幕43以及原文字幕44被自动地滚动显示的情况进行说明,省略关于以手动方式的滚动的说明。
对并列字幕43以及原文字幕44分别进行流畅滚动显示(以下,仅称为滚动显示)。
另外,原文字幕44的滚动速度被设定为,在显示了一个1行(例如第1行)之后到显示下个1行(例如第2行)之前,在一个1行的下侧产生1行量的空行这样的速度。
另一方面,并列字幕43的滚动速度被设定为,在显示一个2行(例如第1行以及第2行)之后到显示下个2行(例如第3行以及第4行)之前,在一个2行的下侧产生2行量的空行这样的速度。原因是在并列字幕43中,原文和与原文并列显示的译文的2行量是成组的。
这样的原文字幕44的滚动速度取决于原文数据所包含的原文的量和接收原文数据的频率。在原文数据所包含的原文的量多,或者接收原文数据的频率高的情况下(以下,称为原文得到速度快的情况),设定快速的滚动速度。反之,在原文得到速度慢的情况下,设定慢的滚动速度。其中,滚动速度的设定考虑到滚动显示的原文的易读性,使之尽可能流畅地变化。
同样,并列字幕43的滚动速度取决于译文数据所包含的原文以及译文的量以及接收译文数据的频率。在译文数据所包含的原文以及译文的量多,或者接收译文数据的频率高的情况下(以下,称为译文得到速度快的情况),设定高速的滚动速度。反之,在译文得到速度慢的情况下,设定低速的滚动速度。其中,滚动速度的设定考虑滚动显示的原文以及译文的易读性,使之尽可能流畅地变化。
图13是表示用会议系统6执行的语音发送处理、数据发送处理以及字幕显示处理的顺序的流程图。图13中示出摘录了下面的图14所示的数据发送处理和图15以及图16所示的字幕显示处理的流程。
图14是表示用中央装置3执行的数据发送处理的顺序的流程图。图15以及图16是表示用各终端装置B1,C1执行的字幕显示处理的顺序的流程图。
图13所示的语音发送处理是用终端装置A1执行的。
终端装置A1的控制部11判断发言者Pa是否向麦克风27输入了语音(S11),在还没有输入的情况下(在S11为否),反复执行S11的处理。S11中的控制部11例如判断输入语音处理部17是否输出了语音数据,在输出了(没有输出)语音数据的情况下,判断为发言者Pa输入了(没有输入)语音。
在发言者Pa输入了语音的情况下(在S11为是),控制部11将表示发言者Pa发言的语音的语音数据与终端装置A1的终端识别数据一起,向中央装置3发送(S12)。
在S12的处理结束后,控制部11将处理返回S11。
图13以及14分别所示的数据发送处理是用中央装置3执行的。
中央装置3的控制部31判断是否从终端装置1,1,......的任意一个中与终端识别数据一起接收到了语音数据(S21)。
在没有接收到语音数据的情况下(在S21为否),控制部31将处理移到后述的S24。
在接收到语音数据的情况下(在S21为是),控制部31通过参照语言登录表3T来判断原文的语言和译文的语言(S22)。接着,控制部31基于S22中的原文的语言的判断结果,对在S21接收到的语音数据实施语音识别处理(S23)。S23中的控制部31作为语音识别引擎311发挥作用。
控制部31一边以多任务执行S23的语音识别处理,一边将处理移到下面的S24。
控制部31判断是否存在还未实施翻译处理的原文数据(以下,仅称为未译的原文数据)(S24),在不存在未译的原文数据的情况下(在S24为否),将处理移到后述的S27。
在存在未译的原文数据的情况下(在S24为是),即,在得到语音识别处理的结果且所得到的结果还未被翻译的情况下,对未译的原文数据实施翻译处理(S25)。S25中的控制部31作为翻译引擎312发挥作用。
控制部31一边以多任务执行S25的翻译处理,一边将处理移到下面的S26。
控制部31将在S25实施了翻译处理的原文数据向终端装置1,1,......发送(S26),接着,将处理移到后述的S27。此时,控制部31将实施过翻译处理的原文数据作为翻译结束的原文的原文数据存储到HDD32,或者删除。
控制部31判断是否存在未发送的译文数据(S27),在不存在未发送的译文数据的情况下(在S27为否),将处理返回到S21。
在存在未发送的译文数据的情况下(在S27为是),控制部31将未发送的译文数据向终端装置1,1,......发送(S28),接着,将处理返回S21。此时,控制部31将所发送的译文数据作为发送结束的译文数据存储到HDD32,或者删除。在此,在S22中的译文的语言的判断结果是日语的情况下,在S28的处理中应发送译文数据的的终端装置1,1,......是终端装置B1,C1。
S26以及S28中的控制部31,作为本发明实施方式的发送部发挥作用。
图13、图15以及图16各自所示的字幕显示处理是在终端装置B1,C1分别执行的。
如图15所示那样,终端装置B1,C1各自的控制部11使字幕显示区域4显示在显示器24(S41)。在执行了S41的处理的时刻,并列字幕43以及原文字幕44都不显示在字幕显示区域4。
另外,控制部11将并列区域41的滚动速度以及原文区域42的滚动速度分别初始化为“0”(S42),将处理移到下面的S43。
如图13以及图15所示那样,控制部11判定是否接收到原文数据(S43),在没有接收到的情况下(在S43为否),将处理转移到后述的S45。
在接收到原文数据的情况下(在S43为是),控制部11执行后述的原文字幕输出处理(参照图17)(S44)。
控制部11一边以多任务执行S44的原文字幕输出处理,一边将处理移到后述的S45。
图17是表示用各终端装置1执行的原文字幕输出处理的详细顺序的流程图。
控制部11基于在S43接收到的原文数据,生成原文字幕数据(S61)。接着,控制部11基于在S61生成的原文字幕数据,使原文字幕44显示在原文区域42(S62)。S61以及S62中的控制部11作为字幕生成引擎111发挥作用。
进而,控制部11计算原文得到速度(S63)。
接着,控制部11判断原文区域42的空行是否是在上限值(例如2行)以上,或者在下限值(例如1行)以下(S64)。在此,原文区域42的空行是指通过显示在原文区域42的原文字幕44被向上滚动而在原文字幕44的最终行的下侧产生的空行。
在原文区域42的空行超过下限值且不到上限值(例如1.5行)的情况下(在S64为否),控制部11将滚动速度维持现状,结束原文字幕输出处理,返回到原来的字幕显示处理。
在原文区域42的空行为上限值以上,或者,为下限值以下的情况下(在S64为是),控制部11基于当前的滚动速度和原文区域42的空行的多寡来设定滚动速度(S65)。
具体地说,在原文区域42的空行为下限值以下的情况下,S65中的控制部11使滚动速度增加。此时,控制部11以当前时刻的滚动速度为基准,以滚动速度的变化连续的方式设定滚动速度。例如,在当前时刻的滚动速度为“0”的情况下,控制部11将滚动速度设定成每单位时间为1点的速度、每单位时间为2点的速度、......滚动速度在未来会缓缓地增加。此时,最终的滚动速度设为在原文区域42中描绘原文字幕44所包含的原文的行的描绘结束的时机空行为1行或者强行产生1行的速度。
另一方面,在原文区域42的空行为上限值以上的情况下,S65中的控制部11使滚动速度减少。此时,控制部11以当前时刻的滚动速度为基准,以滚动速度的变化连续的方式(即,滚动速度在未来缓缓地减少的方式)来设定滚动速度。其中,在当前时刻的滚动速度为“0”的情况下,在S65中,滚动速度也维持现状。
在S65的处理结束后,控制部11结束原文字幕输出处理,返回原来的字幕显示处理。
如图13以及15所示那样,控制部11判断是否接收到译文数据(S45),在没有接收到的情况下(在S45为否),将处理移到后述的S47。
在接收到译文数据的情况(在S45为是),控制部11执行后述的并列字幕输出处理(参照图18)(S46)。
控制部11一边以多任务执行S46的并列字幕输出处理,一边将处理移到后述的S47。
图18是表示用各终端装置1执行的并列字幕输出处理的详细顺序的流程图。
控制部11基于在S45接收到的译文数据,生成并列字幕数据(S71)。接着,控制部11基于在S45接收到的译文数据,为了消去重复的原文,而修正在S61生成的原文字幕数据(S72)。控制部11基于在S71所生成的并列字幕数据以及在S72所修正的原文字幕数据,在并列区域41显示并列字幕43,在原文区域42显示原文字幕44(S73)。S71~S73中的控制部11作为字幕生成引擎111发挥作用。
其中,在后述的S48的处理被滚动出的全部原文作为S72的处理的结果被消去的情况下,S73中的控制部11使省略符号45,滚动条421以及滚动块422从原文区域42消去。
进而,控制部11计算译文得到速度(S74)。
接着,控制部11判断并列区域41的空行是否为上限值(例如4行)以上,或者是否为下限值(例如2行)以下(S75)。在此,并列区域41的空行是指通过显示在并列区域41的并列字幕43被向上滚动而在并列字幕43的最终行的下侧产生的空行。
在并列区域41的空行超过下限值且不到上限值(例如3行)的情况下(在S75为否),控制部11维持滚动速度的现状,结束并列字幕输出处理,返回原来的字幕显示处理。
在并列区域41的空行为上限值以上,或者下限值以下的情况下(在S75为是),控制部11基于当前的滚动速度和并列区域41的空行的多寡来设定滚动速度(S76)。
在并列区域41的空行为下限值以下的情况下,S76中的控制部11使滚动速度增加。此时,控制部11以当前时刻的滚动速度为基准,以滚动速度的变化连续性的方式设定滚动速度。例如,在当前时刻的滚动速度为“0”的情况下,控制部11将滚动速度设定成每单位时间为1点的速度,每单位时间为2点的速度,......,滚动速度在未来会缓缓地增加。此时,最终的滚动速度是在并列区域41在描绘并列字幕43所包含的译文的行的描绘结束的时机空行为2行或者强行产生2行的速度。
另一方面,在并列区域41的空行为上限值以上的情况下,S76中的控制部11使滚动速度减少。此时,控制部11以当前时刻的滚动速度为基准,以滚动速度的变化连续的方式(即,滚动速度在未来缓缓地减少的方式)设定滚动速度。其中,在当前时刻的滚动速度为“0”的情况下,在S76中,滚动速度也维持现状。
在S76的处理结束后,控制部11结束并列字幕输出处理,返回原来的字幕显示处理。
如图16所示那样,控制部11判断是否是应滚动原文字幕44的时机(S47),在是应滚动的时机的情况下(在S47为是),将原文字幕44按原文区域42的滚动速度进行滚动(S48)。作为S48的处理的结果,在原文字幕44所包含的原文被滚出的情况下,控制部11使省略符号45、滚动条421以及滚动块422显示于原文区域42。
在S48的处理结束后,或者,在不是应滚动原文字幕44的时机的情况下(在S47否),控制部11判断是否是应滚动并列字幕43的时机(S49),在是应滚动的时机的情况下(在S49为是),将并列字幕43按并列区域41的滚动速度进行滚动(S50)。
在S50的处理结束后,或者,在不是应滚动并列字幕43的情况下(在S49为否),控制部11判断是否通过操作部21~23进行了结束字幕显示画面241的显示的操作(以下,称为结束操作)(S51)。
在没有进行结束操作的情况下(在S51为否),控制部11将处理返回S43。
在进行了结束操作的情况下(在S51为是),控制部11结束字幕显示处理。
通过利用以上这样的会议系统6,听众Pb,Pc以日语阅读发言者Pa以英语发言的语音的内容,从而能够容易且正确地进行理解。
此外,英语的单词或者词组与日语的语句并列显示,所以能够容易判断有无误译。
而且,并列字幕43以及原文字幕44各自被单独地显示在并列区域41以及原文区域,进而,将并列字幕43以及原文字幕44分别自动地滚动显示,因此听众Pb,Pc容易读取并列字幕43以及原文字幕44各自的内容。另外,并列字幕43以及原文字幕44各自的滚动速度根据原文得到速度以及译文得到速度而被适当地设定,而且,由于滚动速度顺畅地变化,因此能够抑制因滚动速度过快或者过慢导致的可读性的恶化,以及因滚动速度的变化急剧导致可读性的恶化。
进而,由于并列字幕43所包含的原文和原文字幕44所包含的原文不重复,所以能够高效地利用字幕显示区域4。而且,听众Pb,Pc不会有被强迫做出反复读取相同的原文的无用的努力的忧虑。
实施方式2
实施方式2中的会议系统6的硬件构成与实施方式1中的会议系统6的硬件构成相同。此外,对与实施方式1对应的部分标注相同附图标记而省略上述的说明。
为了顺畅地进行会议,希望在发言者Pa发言后,迅速地显示实施方式1的图5所示那样的原文字幕44,接着迅速地显示图6所示的那样的并列字幕43。
但是,在语音识别精度低的情况下,所显示的原文字幕44以及并列字幕43有时有错误。反之,为了高精度地进行语音识别,往往需要长时间。
于是,实施方式2中的会议系统6通过将发言者Pa发言的语音在短时间内(即高速地)识别,而显示原文字幕,基于高速地识别出的结果,显示并列字幕。与这样的高速的语音识别、翻译以及显示等处理(以下,统称为高速处理)并行地,会议系统6通过高精度地识别语音来修正已显示的原文字幕的错误,基于高精度识别的结果,修正已显示的并列字幕的错误。这样的高精度的语音识别、翻译以及修正等处理以下统称为高精度处理。
图19是用于说明本发明实施方式2的会议系统6中的高速处理以及高精度处理的结构的功能模块图。图19与实施方式1的图7对应,但省略了终端装置A1以及终端装置C1的图示。
中央装置3的控制部31通过按照中央程序3P(参照图3)所包含的语音识别用的计算机程序,作为高速识别引擎313以及高精度识别引擎315发挥作用。而且,控制部31通过按照中央程序3P所包含的翻译用的计算机程序,作为高速翻译引擎314以及高精度翻译引擎316发挥作用。
高速识别引擎313通过对从终端装置A1接收到的语音数据即时地执行第一次语音识别处理,而高速生成表示识别结果的原文数据。这样的高速识别引擎313作为本发明实施方式的识别部发挥作用。以下将高速识别引擎313所生成的原文数据称为高速原文数据。
高速识别引擎313将所生成的高速原文数据向终端装置B1,C1发送。
在高速识别引擎313中,即时地执行最初的语音识别处理。因此,高速识别引擎313应实施语音识别处理的语音数据是表示例如数秒的量~十几秒的量的发言的语音数据,即,数据量少的语音数据。因此,虽然语音识别的精度低,但能够在短时间内得到语音识别结果。高速原文数据所示的原文(以下,称为高速原文)存在与发言的内容不同的可能性。
高速识别引擎313将识别完了语音的语音数据积存到HDD32(参照图3)。
高速翻译引擎314通过对高速识别引擎313所生成的高速原文数据实施翻译处理,生成表示翻译结果的译文数据。这样的高速翻译引擎314作为本发明实施方式的翻译部发挥作用。以下,将高速翻译引擎314所生成的译文数据称为高速译文数据。
高速翻译引擎314将所生成的高速译文数据向终端装置B1,C1发送。
高速译文数据由于是基于语音识别精度低的高速原文数据的数据,所以高速译文数据所示的译文(以下,称为高速译文)包含错误的可能性高。
高精度识别引擎315通过对积存在HDD32中的语音数据,即,高速识别引擎313识别完语音的语音数据实施第二次语音识别处理,而生成表示识别结果的原文数据。这样的高精度识别引擎315也作为本发明实施方式的识别部发挥作用。以下,将高精度识别引擎315所生成的原文数据,称为高精度原文数据。
高精度识别引擎315将所生成的高精度原文数据向终端装置B1,C1发送。
在高精度识别引擎315中,对暂时积存的语音数据再次实施语音识别处理。此时,高精度识别引擎315应实施语音识别处理的语音数据是表示例如数十秒的量~数分的量的发言的语音数据,即,数据量多的语音数据。因此,虽到得到语音识别结果为止需要长时间,但语音识别的精度高。高精度原文数据所示的原文(以下,称为高精度原文)是与发言的内容相同的的可能性高。
原因是,相比对数据量少的语音数据(例如,表示发言的一部分的语音数据)执行语音识别的情况,对数据量多的语音数据(例如,表示整个发言的语音数据)执行语音识别时识别精度会提高。
此外,提高语音识别的精度的方法不限定于增加语音数据的数据量。
高精度翻译引擎316通过对高精度识别引擎315所生成的高精度原文数据实施翻译处理,而生成表示翻译结果的译文数据。以下,将高精度翻译引擎316所生成的译文数据称为高精度译文数据。
高精度翻译引擎316将所生成的高精度译文数据向终端装置B1,C1发送。
高精度译文数据是基于语音识别精度高的高精度原文数据的数据,所以高精度译文数据所示的译文(以下,称为高精度译文)包含错误的可能性低。
由高速识别引擎313以及高精度识别引擎315分别进行的语音识别处理,和由高速翻译引擎314以及高精度翻译引擎316分别进行的翻译处理以多任务执行。
在实施方式2中例示了,不论发言者Pa发言了“We will try and make a final hotel decision by the end of the calendar year.”与否,基于表示发言的一部分“We will try and”的语音数据,高速识别引擎313进行了语音识别的结果为生成了表示“We will try a”这样错误的高速原文的高速原文数据情况。
假设对表示原文“We will try and”的原文数据实施了翻译处理的情况下,高速翻译引擎314将2个词的单词“try and”看做在“and”之后伴随某个动词的词组而翻译成“~よう努める”。
但是,在对表示错误的高速原文“We will try a”的高速原文数据实施了翻译处理的情况下,高速翻译引擎314将动词“try”翻译为“试す”,将不定冠词“a”看做无需特别翻译的单词而无视。
图20是表示会议系统6中显示在字幕显示画面241(参照图4)的字幕显示区域4的高速原文字幕48的一个例子的示意图。图20中例示有在原文区域42显示包含“We will try a”之类错误的高速原文481的高速原文字幕48,在并列区域41还没有任何显示的情况。
图21是表示显示在字幕显示区域4的高速并列字幕47以及高速原文字幕48的一个例子的示意图。如图21所示那样,在原文区域42显示有包含错误的高速原文481和正确的高速原文482的高速原文字幕48。另外,在并列区域41显示有包含与错误的高速原文481相同的高速原文471和与错误的高速原文471对应的错误的高速译文474的高速并列字幕47。这样,在实施方式2中,例示了即使在高速并列字幕47显示高速原文471,也在高速原文字幕48继续显示高速原文481的情况。此外,与实施方式1同样地,可以是若在高速并列字幕47显示高速原文471,则消去高速原文字幕48所包含的高速原文481的构成。
图22是表示显示在字幕显示区域4的高速并列字幕47以及高速原文字幕48的另一个例子的示意图。如图22所示那样,在原文区域42中显示着包含错误的高速原文481和正确的高速原文482,483的高速原文字幕48。而且,在并列区域41显示有包含高速原文471、与正确的高速原文482,483相同的高速原文472,473、高速译文474、与正确的高速原文472,473对应的正确的高速译文475,476的高速并列字幕47。
如图19所示那样,终端装置B1,C1各自的控制部11通过按照终端程序1P(参照图2),作为字幕生成引擎112发挥作用。
在接收到高速原文481的高速原文数据的情况下,字幕生成引擎112首先,在字幕管理表1T中登录接收到的高速原文数据(参照图8)。
然后,字幕生成引擎112基于接收到的高速原文数据,生成用于使包含高速原文481的高速原文字幕48(参照图20)显示在显示器24的原文字幕数据。
其中,此时字幕生成引擎112生成的原文字幕数据,为了在高速原文481所包含的英文单词间有富裕,而要在该英文单词间配置至少2个文字量的空白文字。此外,只要是能显示在原文区域42的高速原文字幕48除了空白文字之外的文字的个数没有被大幅减少的程度,则应配置的空白文字不限定于2个文字的量,也可以是3个文字以上的量。另外,应配置的空白文字也可以为1个文字的量。
进而,字幕生成引擎112通过将所生成的原文字幕数据给予显示处理部14(参照图2),而使在高速原文字幕48显示在显示器24。然后,字幕生成引擎112在字幕管理表1T中登录包含高速原文481的高速原文字幕48的原文字幕数据。
同样,字幕生成引擎112每当接收到高速原文数据,就在字幕管理表1T中登录接收到的高速原文数据。然后,字幕生成引擎112基于接收到的高速原文数据,生成用于使包含高速原文481,482的高速原文字幕48(参照图21)显示在显示器24上的原文字幕数据,接着基于接收到的高速原文数据,生成用于使包含高速原文481~483的高速原文字幕48(参照图22)显示在显示器24上的原文字幕数据。进而,字幕生成引擎112通过将所生成的原文字幕数据给予显示处理部14,而使高速原文字幕48显示在显示器24中。然后,字幕生成引擎112在字幕管理表1T中登录高速原文字幕48的原文字幕数据。
在接收到高速译文474的高速译文数据的情况下,字幕生成引擎112在字幕管理表1T中登录高速译文474的高速译文数据。
接着,字幕生成引擎112基于接收到的高速译文数据,生成用于使包含高速原文471和高速译文474的高速并列字幕47(参照图21)显示在显示器24上的并列字幕数据。
其中,此时字幕生成引擎112生成的并列字幕数据在高速原文471所包含的英文单词间要配置最小限度(至少1文字量)的空白文字。此外,只要是能够显示在并列区域41的高速并列字幕47的除空白文字以外的文字的个数没有被大幅减少的程度,则为了英文单词间有富裕,也可以配置2个文字量以上的空白文字。
进而,字幕生成引擎112通过将所生成的并列字幕数据给予显示处理部14,而使高速并列字幕47显示在显示器24。
然后,字幕生成引擎112,在字幕管理表1T中登录包含高速原文471以及高速译文474的高速并列字幕47的并列字幕数据(参照图9A以及图9B)。
以上这样的字幕生成引擎112作为本发明实施方式的生成部发挥作用。
同样,字幕生成引擎112每当接收到高速译文数据,就在字幕管理表1T中登录接收到的高速译文数据。
接着,字幕生成引擎112基于接收到的译文数据,生成用于使包含高速原文471~473和高速译文474~476的高速并列字幕47显示在显示器24(参照图22)上的并列字幕数据。
进而,字幕生成引擎112通过将所生成的并列字幕数据给予显示处理部14,而使高速原文字幕48显示在显示器24。
然后,字幕生成引擎112在字幕管理表1T登录包含高速原文471~473以及高速译文474~476的高速并列字幕47的并列字幕数据。
在实施方式2中,例示在使图22所示那样的高速并列字幕47以及高速原文字幕48之后,字幕生成引擎112接收到高精度原文数据以及高精度译文数据的情况。
在此,说明高精度识别引擎315基于表示发言者Pa所发言的整个一篇文章的语音数据进行了语音识别的结果为生成表示“We will try and make a finalhotel decision by the end of the calendar year.”这样的正确的高精度原文的高精度原文数据的情况。
对这样的高精度原文数据实施了翻译处理的结果,高精度翻译引擎316将2个词的单词“try and”看做在“and”之后伴随动词“make”的词组而翻译为“~よう努める”。
字幕生成引擎112将接收到的高精度原文数据与在字幕管理表1T中登录的高速原文数据进行比较,判断是否有应用高精度原文的置换部分置换的被置换部分。这样的字幕生成引擎112作为本发明实施方式中的识别判断部发挥作用。
在高速原文中未包含错误的情况下,高速识别数据所示的高速原文和高精度识别数据所示的高精度原文相同。此时,不存在置换部分以及被置换部分。因此,被登录到字幕管理表1T中的高速原文数据、高速原文字幕的原文字幕数据以及高速并列字幕的并列字幕数据,被看做高精度原文数据、高精度原文字幕的原文字幕数据以及高精度并列字幕的并列字幕数据。
另一方面,在高速原文中含有错误的情况下,高速识别数据所示的高速原文和高精度识别数据所示的高精度原文不同。更详细地说,高速原文之内与高精度原文不同的部分为错误。具体地说,在实施方式2中,高速原文“......try a......”的“a”错误,高精度原文“......try and......”的“and”是在此应置换高速原文的错误的置换部分。此时,高速原文所包含的错误“a”是被置换部分。
因此,字幕生成引擎112通过将被置换部分用置换部分进行置换,而将登录到字幕管理表1T中的高速原文数据、高速原文字幕的原文字幕数据以及高速并列字幕的并列字幕数据修正为高精度原文数据、高精度原文字幕的原文字幕数据以及高精度并列字幕的并列字幕数据。
在包含错误的高速并列字幕没有显示在并列区域41的情况下,字幕生成引擎112在适当的时机使基于表示高精度并列字幕的并列字幕数据的高精度并列字幕显示在显示器24即可。此时,在高精度并列字幕所包含的英文单词间配置最小限度文字数的空白文字即可。
同样,在包含错误的高速原文字幕没有显示在原文区域42的情况下,字幕生成引擎112在适当的时机使基于表示高精度原文字幕的原文字幕数据的高精度原文字幕显示在显示器24即可。此时,在高精度原文字幕所包含的英文单词之间配置最小限度文字数的空白文字即可。
以下,说明在所显示的高速并列字幕以及高速原文字幕两者中包含错误的情况。
图23是表示显示在字幕显示区域4的高速并列字幕47以及高速原文字幕48的又一个例子的示意图。
由于被置换部分“a”是错误的,所以从高速并列字幕47以及高速原文字幕48分别消去被置换部分“a”。此时,字幕生成引擎112通过控制显示处理部14而使被置换部分“a”淡出显示。
此后,通过以被置换部分“a”被置换的方式将置换部分“and”淡入,由此高速并列字幕47的高速原文471~473和高速原文字幕48的高速原文481~483,被修正成下面的图24所示那样的高精度并列字幕49的高精度原文491~493和高精度原文字幕46的高精度原文461~463。
图24是表示显示在字幕显示区域4的高精度并列字幕49以及高精度原文字幕46的一个例子的示意图。
被淡入的置换部分“and”仅在规定时间(例如10秒期间)内用粗体被强调显示。这用于向听众Pb,Pc报告被置换部分“a”已被置换成置换部分“and”。因此,置换部分“and”的强调显示,只要置换部分“and”比高精度并列字幕49以及高精度原文字幕46的其他部分显眼即可,不限定于粗体显示,也可以是加框显示,闪烁显示,斜体显示,红字显示,或者下画线显示等显示。
在超过了规定时间之后,置换部分“and”与高精度并列字幕49以及高精度原文字幕46的其他部分相同地显示(以下,称为通常显示)。
在此,通过被置换部分“a”被淡出、置换部分“and”被淡入,从而对于听众Pb,Pc来说,被置换部分“a”被缓缓置换为置换部分“and”。因此,与被置换部分“a”瞬间被置换为置换部分“and”的情况相比,强调了被置换部分“a”和置换部分“and”的置换。
另外,不限定于淡出显示以及淡入显示,例如也可以通过被置换部分“a”的文字尺寸缓缓变小、置换部分“and”的文字尺寸缓缓变大这样的显示方法将被置换部分“a”置换为置换部分“and”。或者,可以在将被置换部分“a”仅在规定时间内用与其他部分不同的色彩(例如灰色)显示之后被消去,接着,强调显示置换部分“and”。
然而,被置换部分“a”是1个文字,置换部分“and”是3个文字,所以在消去了被置换部分“a”后的1文字量的空白区域无法显示置换部分“and”。
因此,字幕生成引擎112分别判断在从高速并列字幕47以及高速原文字幕48消去了被置换部分“a”的情况下,能够显示置换部分“and”的可显示区域在高速并列字幕47以及高速原文字幕48中产生与否。这样的字幕生成引擎112作为本发明实施方式的区域判断部发挥作用。
在置换部分“and”的前后需要配置至少1个文字量的空白文字。因此,最低5个文字量的空白区域为置换部分“and”的可显示区域。
在高速原文字幕48中,被置换部分“a”的文字数和配置在被置换部分前后的空白文字的文字数总计为5个文字。因此,通过消去被置换部分“a”,在高速原文字幕48产生可显示区域。
因此,对于高速原文字幕48,被置换部分“a”通过被淡出而消去,另外,置换部分“and”被淡入,并被强调显示。
该结果,在高精度原文字幕46中,在其他英文单词间各配置2个文字的空白文字,相对于此在“and”前后的空白文字各减少1个文字。但是,这不是导致可读性恶化的变化。
而且,在被置换部分“a”被置换为置换部分“and”的情况下,也可以将高精度原文字幕46所含的其他英文单词间的空白文字的文字数各减少1个文字(即,还可以减小单词间的间距)。在该情况下,通过例如将高精度原文字幕46所包含的各英文单词向左方向滚动,从而不会牺牲高精度原文字幕46的可读性,就能够减小单词间的间距。
另一方面,在高速并列字幕47中,被置换部分“a”的文字数和配置在被置换部分前后的空白文字的文字数共计为3个文字。因此,即使消去了被置换部分“a”,在高速并列字幕47也不会产生可显示区域。
因此,字幕生成引擎112,将显示在被置换部分“a”的后尾侧的字幕,即将显示在被置换部分“a”的右侧以及下一行的高速原文472,473向右方向(图23中的白箭头方向)滚动。滚动持续直到能够显示的区域产生为止(即,到产生5个文字量的空白区域为止)。也就是说,高速原文472,473只要向右方向滚动2个文字量即可。
此后,在高速并列字幕47中,被置换部分“a”通过淡出而被消去,另外,置换部分“and”被淡入并被强调显示。此外,被置换部分“a”的淡出显示和高速原文472,473的滚动显示也可以同时进行。
可是,在该保持原样的状态下,高速原文472,473的左右方向的位置和高速译文475,476的左右方向的位置发生了位置偏移。所以,字幕生成引擎112,与高速原文472,473的2个文字量的滚动相应地,将高速译文475,476也向右方向滚动2个文字量。
将高速译文修正成高精度译文的顺序与将高速原文修正成高精度原文的顺序大致相同。具体地说,接收到高精度译文数据的字幕生成引擎112通过比较高精度译文数据和登录到字幕管理表1T中的高速译文数据,而判断是否存在应该用高精度译文的置换部分置换的高速译文的被置换部分。在实施方式2中,“试す”是被置换部分,“~よう努める”是置换部分。
接着,高速并列字幕47的高速译文474~476被修正成图24所示那样的高精度并列字幕49的高精度译文494~496。
不过,通常英文用半角文字记载,日文用全角文字记载。因此,置换部分“~よう努める”的文字数比被置换部分“试す”长了8个半角文字的量。其中,在被置换部分“试す”和高速译文475之间,通过刚才的滚动显示而产生2个文字量的富裕。
因此,字幕生成引擎112将显示在被置换部分“试す”的右侧以及下一行的高速译文475,476向右方向(图23中的白箭头方向)滚动6个文字量。此后,在高速并列字幕47中,被置换部分“试す”通过淡出而被消去,而且,置换部分“~よう努める”被淡入并强调显示。
但是,在该保持原样的状态下,高精度原文492,493的左右方向的位置和高精度译文495,496的左右方向的位置会产生位移偏移。于是,字幕生成引擎112通过将高精度原文492,493向右方向滚动6个文字量,而将高精度原文492,493和高精度译文495,496的位置关系调整成变为图24所示的状态。
由于通过以上这样的滚动显示使单词间的间距增加的结果为例如在配置在第1行的语句(具体地说“by the end of the”以及“~の终わりまでに”)无法配置在第1行的情况下,将该单词送到第2行即可。
此外,与实施方式2相反,在“and”为被置换部分、“a”为置换部分的情况下,若将被置换部分“and”用置换部分“a”进行置换,则“a”比“and”前后的空白文字增加2个文字量。
在这样的情况下,所增加的空白文字可以放置,也可以通过将高精度原文字幕所包含的各英文单词向左方向滚动,来消去增加的空白文字。在放置所增加的空白文字的情况下,在置换部分以及被置换部分以外的英文单词不产生变化,因此能够减低给予听众Pb,Pc的不协调感。另一方面,在使增加的空白文字消去的情况下,能够使所显示的原文字幕的文字数增加上述量,所以能够有效利用被限制的字幕显示区域4。
在此,叙述高速原文数据和高精度原文数据的关联,以及高速译文数据和高精度译文数据的关联。
例如,基于表示发言前半的语音的前半语音数据,生成第一组高速原文数据以及高速译文数据,基于表示发言后半的语音的后半语音数据,生成第二组高速原文数据以及高速译文数据。进而,基于前半语音数据以及后半语音数据双方,生成高精度原文数据以及高精度译文数据。
在实施方式2中,通过中央装置3,对前半语音数据以及后半语音数据分别分别发行识别信息。将第一组(或者第二组)高速原文数据以及高速译文数据分别与前半语音数据(或者后半语音数据)的识别信息建立关联并发送到终端装置B1,C1。然后,将高精度原文数据以及高精度译文数据分别与前半语音数据的识别信息和后半语音数据的识别信息一起建立关联并向终端装置B1,C1发送。
在该情况下,经各个终端装置B1,C1,能够基于识别信息,容易地将高速原文数据和高精度原文数据(或者高速译文数据和高精度译文数据)建立关联。
图25是表示用会议系统6执行的数据发送处理以及字幕显示处理的顺序的流程图。图25是与实施方式1的图13对应的图,由于实施方式2中的语音发送处理与实施方式1的语音发送处理相同,所以省略图示。而且,图25示出摘录了下面的图26所示的数据发送处理和图27以及图28所示的字幕显示处理的流程。
图26是表示用中央装置3执行的数据发送处理的顺序的流程图。图27以及图28是表示用各终端装置B1,C1执行的字幕显示处理的顺序的流程图。
图25以及图26分别所示的数据发送处理是在中央装置3被执行。
图25以及图26所示的S21与实施方式1的图13以及图14所示的S21相同,图26所示的S22,S24以及S27与实施方式1的图14所示的S22,S24以及S27相同。
在接收到语音数据的情况下(在S21为是),控制部31发行用于识别语音数据的识别信息(S81),将所发行的识别信息与在S21接收到的语音数据相互建立关联,积存在HDD32(S82)。接着,控制部31将处理移到S22。
在S22的处理结束后,控制部31与实施方式1的S23大致相同地,基于S22中的原文语言的判断结果,对在S21接收到的语音数据实施语音识别处理(S83)。S83中的控制部31作为高速识别引擎313发挥作用。此时所生成的高速原文数据与在S21接收到的语音数据的识别信息建立关联。
控制部31一边以多任务执行S83的语音识别处理,一边将处理移动下面的S24。
S24中的控制部31不区分高速原文数据和高精度原文数据,判断是否存在未译的原文数据。
在S24为是的情况下,控制部31与实施方式1的S25大致相同地,对未译的高速原文数据(或者高精度原文数据)实施翻译处理(S84)。S84中的控制部31作为高速翻译引擎314(或者高精度翻译引擎316)发挥作用。此时所生成的高速译文数据(或者高精度译文数据)与在S84实施了翻译处理的原文数据的识别信息建立关联。
控制部31一边以多任务执行S84的翻译处理,一边将处理向下面的S85移动。
控制部31与实施方式1的S26大致相同地,将在S84实施了翻译处理的原文数据与识别信息一起向终端装置1,1,......发送(S85),接着,将处理移到S27。
S27中,控制部31不区分高速译文数据和高精度译文数据,而判断是否存在未发送的译文数据。
在不存在未发送的译文数据的情况下(在S27为否),控制部31将处理移到后述的S87。
在存在未发送的译文数据的情况下(在S27为是),控制部31与实施方式1的S28大致相同地进行,将未发送的译文数据与识别信息一起向终端装置1,1,......发送(S86),接着,将处理移到S87。
控制部31判断在HDD32中是否积存有语音数据(S87)。S87中的控制部31例如判断所积存的语音数据的数据量是否为规定数据量以上,另外,判断在从积存语音数据起的经过时间是否在规定的时间以上。如果所积存的语音数据的数据量在规定数据量以上,则控制部31判断为积存有语音数据。但是,即使在所积存的语音数据的数据量不到规定数据量,只要在从积存有语音数据起的经过时间也在规定时间以上,则控制部31判断为积存有语音数据。
在没有积存语音数据的情况下(在S87为否),控制部31使处理返S21。
在积存有语音数据的情况下(在S87为是),控制部31对HDD32所积存的语音数据实施语音识别处理(S88)。S88中,控制部31作为高精度识别引擎315发挥作用。将HDD32所积存的语音数据的识别信息与此时所生成的高精度原文数据全部建立关联。
控制部31一边以多任务执行S88的语音识别处理,一边使处理返回S21。在S88的语音识别处理结束了的情况下,删除HDD32所积存的语音数据,或者作为语音识别处理完的语音数据,与新积存的语音数据进行区分。
图25、图27以及28分别所示的字幕显示处理分别在终端装置B1,C1被执行。
图27所示的S41以及S42的处理与实施方式1的图15所示S41以及S42的处理相同。
图25以及图27所示的S44和S46的处理与实施方式1的图13以及图15所示的S44和S46的处理大致相同。
图28所示的S47~S51的处理与实施方式1的图16所示S47~S51的处理相同。
如图25以及图27所示那样,控制部11判断是否接收到了高速原文数据以及识别信息(S91),在没有接收到的情况下(在S91为否),将处理移到后述的S92。
在接收到了高速原文数据以及识别信息的情况下(在S91为是),控制部11将处理转到S44,执行与图17所示的实施方式1的原文字幕输出处理相同的原文字幕输出处理。该原文字幕输出处理的S61以及S62中的控制部11作为字幕生成引擎112发挥作用。
然后,控制部11一边以多任务执行S44的原文字幕输出处理,一边将处理移到后述的S92。
在执行了S44的原文字幕输出处理的情况下,在原文区域42显示高速原文字幕48。
接着,控制部11判断是否接收到了高速译文数据以及识别信息(S92),在没有接收到的情况(在S92为否),将处理移到后述的S93。
在接收到了高速译文数据以及识别信息的情况下(在S92为是),控制部11将处理移到S46,执行与图18所示的实施方式1的并列字幕输出处理大致相同的并列字幕输出处理。其中,在该并列字幕输出处理中,无需执行与实施方式1的S72的处理相当的处理,在与S73的处理相当的处理中,控制部11基于在S71所生成的并列字幕数据,使高速并列字幕47显示在并列区域41即可。S71以及S73中的控制部11作为字幕生成引擎112发挥作用。
然后,控制部11一边以多任务执行并列字幕输出处理,一边将处理移到S93。
在执行了S46的并列字幕输出处理的情况下,在并列区域41显示高速并列字幕47。
接着,控制部11判断是否接收到了高精度原文数据以及识别信息(S93),在没有接收到的情况(在S93为否),将处理移到后述的S95。
在接收到高精度原文数据以及识别信息的情况下(在S93为是),控制部11执行后述的原文字幕修正处理(参照图29以及图30)(S94)。
控制部11一边以多任务执行S94的原文字幕修正处理,一边将处理移到S95。
图29以及图30是表示用各终端装置1执行的原文字幕修正处理顺序的详细内容的流程图。
如图29所示那样,控制部11比较在S93接收到的高精度原文数据和与该高精度原文数据对应的高速原文数据(即,所建立关联的识别信息相互相同的高精度原文数据和高速原文数据)(S111),判断两者的差异,即置换部分以及被置换部分是否存在(S112)。
在高精度原文数据所示的高精度原文和高速原文数据所示的高速原文一致的情况下(在S112为否),控制部11结束原文字幕修正处理,返回原来的字幕显示处理。
在置换部分以及被置换部分存在的情况下(在S112为是),控制部11通过将被置换部分用置换部分进行置换,而修正原文字幕数据以及并列字幕数据(S113)。
接着,控制部11判断基于修正前的原文字幕数据以及并列字幕数据的高速原文字幕以及高速并列字幕是否显示在字幕显示区域4(S114),在没有显示的情况下(在S114为否),结束原文字幕修正处理,返回原来的字幕显示处理。
在显示有各种字幕的情况(在S114为是),控制部11判断通过从显示着的高速原文字幕消去被置换部分产生可显示区域与否(S115)。
在高速原文字幕中没产生可显示区域的情况下(在S115为否),控制部11求出应设置在高速原文字幕的可显示区域的文字数(S116),相应于所求出的可显示区域的文字数,将高速原文字幕所包含的高速原文中的相比被置换部分靠后的后尾侧向右方向滚动(S117)。
在以多任务执行S117的处理,或者,在高速原文字幕显示可显示区域的情况下(在S115为是),控制部11判断通过从被显示着的高速并列字幕消去被置换部分产生可显示区域与否(S118)。
在高速并列字幕中没产生可显示区域的情况下(在S118为否),控制部11求出应设置在高速并列字幕的可显示区域的文字数(S119)。然后,控制部11相应于在S119所求出的可显示区域的文字数,将高速并列字幕所包含的高速原文中的相比被置换部分靠后的后尾侧向右方向滚动,并且将高速并列字幕中所包含的高速译文中的相比与被置换部分对应的语句靠后的后尾侧向右方向滚动(S120)。
S120中的控制部11,在图22的例子中,将高速并列字幕47所包含的高速原文471~473中的相比被置换部分“a”靠后的后尾侧即“make a......”向右方向滚动,并且,将高速译文474~476中的相比与被置换部分对应的语句“试す”靠后的后尾侧即“意思决定をする......”向右方向滚动。该结果为“make a......”的配置位置和”意思决定をする......”的配置位置不会产生位置偏移地对应。
在将S120的处理一边以多任务执行,一边或者在高速并列字幕产生可显示区域的情况下(在S118为是),如图30所示那样,控制部11,在高速原文字幕以及高速并列字幕中分别淡出被置换部分(S121),将置换部分淡入之后(S122),使置换部分强调显示(S123)。
接着,控制部11开始对从使置换部分强调显示起的经过时间的计时(S124),判断所计时的经过时间是否超过了规定时间(S125),在还未超过的情况下(在S125为否),反复执行S125的处理。
在从使置换部分强调显示起的经过时间超过了规定时间的情况下(在S125为是),控制部11使置换部分通常显示(S126)。
在S126的处理结束后,控制部11结束在S124开始的计时处理之后(S127),结束原文字幕修正处理,返回原来的字幕显示处理。
执行以上这样的原文字幕修正处理的控制部11作为字幕生成引擎112发挥作用。
如图25以及图28所示那样,控制部11判断是否接收到高精度译文数据以及识别信息(S95),在没有接收到的情况下(在S95为否),使处理移到S47。
在接收到高精度译文数据以及识别信息的情况下(在S95为是),控制部11执行后述的并列字幕修正处理(参照图31)(S96)。
控制部11一边以多任务执行S96的并列字幕修正处理,一边使处理移到S47。
图31是表示在各终端装置1执行的并列字幕修正处理的详细顺序的流程图。
控制部11比较在S95接收到的高精度译文数据和与该高精度译文数据对应的高速译文数据(即,被建立关联的识别信息相互相同的高精度译文数据和高速译文数据)(S131),判断两者的差异,即置换部分以及被置换部分是否存在(S132)。
在高精度译文数据所示的高精度译文和高速译文数据所示的高速译文一致的情况下(在S132为否),控制部11结束并列字幕修正处理,返回到原来的字幕显示处理。
在置换部分以及被置换部分存在的情况下(在S132为是),控制部11通过将被置换部分用置换部分置换,来修正并列字幕数据(S133)。
接着,控制部11判断基于修正前的并列字幕数据的高速并列字幕是否显示在字幕显示区域4(S134),在没有显示的情况下(在S134为否),结束并列字幕修正处理,返回原来的字幕显示处理。
在显示着各种字幕的情况下(在S134为是),控制部11判断通过从显示着的高速并列字幕消去被置换部分产生可显示区域与否(S135)。
在高速并列字幕中没产生可显示区域的情况下(在S135为否),控制部11求出应设置在高速并列字幕中的可显示区域的文字数(S136)。然后,控制部11,与在S136所求出的可显示区域的文字数相应地,将高速并列字幕所含的高速译文中的相比被置换部分靠后的后尾侧向右方向滚动,并且将高速并列字幕中所包含的高速原文中的相比与被置换部分对应的语句靠后的后尾侧向右方向滚动(S137)。
S137中,控制部11,在图22的例子中,将高速并列字幕47所包含的高速译文474~476中的相比与被置换部分对应的语句“试す”靠后的后尾侧即“意思决定をする......”向右方向滚动,并且将高精度原文491~493(参照图24)中的相比置换部分“and”靠后的后尾侧即“make a......”向右方向滚动。该结果,“make a......”的配置位置和“意思决定をする......”的配置位置不会产生位置偏移地进行对应。
在以多任务执行S137的处理同时,或者,在高速并列字幕产生可显示区域的情况下(在S135为是),如图31所示那样,控制部11,在高速并列字幕中,在淡出被置换部分(S138)、淡入置换部分之后(S139),强调显示置换部分(S140)。
接着,控制部11,开始计时从使置换部分强调显示起的经过时间(S141),判断所计时的经过时间是否超过了规定时间(S142),在还未超过的情况下(在S142为否),反复执行S142的处理。
在从使置换部分强调显示起的经过时间超过了规定时间的情况下(在S142为是),控制部11进行置换部分的通常显示(S143)。
在S143的处理结束后,控制部11结束在S141开始的计时处理之后(S144),结束并列字幕修正处理,返回原来的字幕显示处理。
执行以上这样的并列字幕修正处理的控制部11作为字幕生成引擎112发挥作用。
此外,控制部11不限定于刚在S93接收到高精度原文数据之后就执行S94的原文字幕修正处理的构成,也可以是在S95接收到高精度译文数据之后,执行原文字幕修正处理以及相当于S96的并列字幕修正处理的字幕修正处理的构成。此时,能够将高速原文字幕以及高速并列字幕同时地修正为高精度原文字幕以及高精度并列字幕。
以上那样的会议系统6通过同时执行高速处理和高精度处理,而能够兼顾在短时间内显示各种字幕和显示正确的各种字幕。
因此,听众Pb,Pc不会在发言者Pa发言之后长时间等待直到显示各种字幕。即使在各种字幕的内容中包含着错误,也在后面仅修正错误的部分,因此听众Pb,Pc能够正确且更容易地理解发言者Pa的发言。
这次所公开的实施方式的全部的点仅是例示,应该认为不是限制性的。本发明的范围不是上述的意思,可认为包含与权利要求的范围等价的意思以及权利要求内的全部变更。
例如,在实施方式1,2中,例示了原文字幕以及并列字幕分别以横写方式被显示的情况,但也可以以竖写方式显示各种字幕。此时,用于将在实施方式1说明那样的各种字幕滚动出的滚动显示是向右方向的滚动显示即可。另外,用于设置在实施方式2中说明那样的可显示区域的滚动显示向下方向滚动即可。
而且,在本实施方式中,会议系统6用中央装置3实现语音识别引擎311以及翻译引擎312,对原文数据以及译文数据进行发送,将字幕生成引擎111用各听众的终端装置1实现。但是,会议系统6也可以是用中央装置3(或者发言者的终端装置1)实现语音识别引擎311,发送原文数据,用各听众的终端装置1实现翻译引擎312以及字幕生成引擎111的构成。或者,会议系统6还可以是用中央装置3(或者发言者的终端装置1)实现语音识别引擎311、翻译引擎312以及字幕生成引擎111,发送原文字幕数据以及并列字幕数据的构成。
而且,例如,在本实施方式中,会议系统6是以利用了终端装置1,1,......和中央装置3的客户端服务器型的通信方式辅助会议实现的构成。但是,也可以是以不利用中央装置3而仅利用终端装置1,1,......的对和对(pair to pair)型的通信方式辅助会议实现的会议系统。或者,会议系统6可以是仅利用2台终端装置1,1的点对点(point to point)型的通信方式,也可以是利用终端装置1,1,......和MCU(多地点连接装置)的点到多点型或者多点到点型的通信方式。
进而,只要具有本发明的效果,在会议系统6或者终端装置1也可以包含有实施方式1,2没有公开的构成要素。
该记述在不脱离其实质特征和精神的范围内能够任意说明。目前的例子是具体化的,因此不能进行限制,因为范围是指被权利要求所限定,而不是前面的记述,可以认为等价的所有的变化都在权利要求的范围内中。

Claims (16)

1.一种会议系统,包括:
识别部,其以第一语言对发言的语音进行识别;
翻译部,其将该识别部识别出的识别结果翻译成与上述第一语言不同的第二语言;以及
生成部,其生成显示上述识别结果以及被上述翻译部翻译出的翻译结果的翻译字幕。
2.根据权利要求1所述的会议系统,其特征在于,上述翻译字幕是并列显示上述识别结果以及翻译结果的并列字幕。
3.根据权利要求2所述的会议系统,其特征在于,在上述并列字幕中,针对上述识别结果所包含的每个单词或者词组,并列显示在上述翻译结果中包含的与上述单词或者词组对应的语句。
4.根据权利要求1~3所示的会议系统,其特征在于,还包括显示上述生成部所生成的翻译字幕的显示部。
5.根据权利要求4所述的会议系统,其特征在于,
上述翻译字幕是上述翻译结果被并列地显示在上述识别结果上的并列字幕,
上述生成部还生成表示上述识别结果的识别结果字幕,
上述显示部显示上述并列字幕、以及上述生成部所生成的识别结果字幕。
6.根据权利要求5所述的会议系统,其特征在于,
上述生成部生成的识别结果字幕所示的识别结果是除去了上述并列字幕所含的识别结果的识别结果。
7.根据权利要求5或6所述的会议系统,其特征在于,上述显示部进行上述识别结果字幕以及并列字幕的滚动显示。
8.根据权利要求4~7中任一项所述的会议系统,其特征在于,
上述识别部以上述第一语言对上述发言的语音进行至少两次识别,
上述会议系统还包括:
识别判断部,其判断是否应将通过上述识别部在第一次识别得到的识别结果,用在第二次以后的识别得到的识别结果进行置换;以及
区域判断部,其在该识别判断部判断为应置换的情况下,判断通过从显示在上述显示部的上述翻译字幕消去在上述第一次识别得到的识别结果的上述被置换部分,在上述翻译字幕产生能够显示在上述第二次以后的识别得到的识别结果的置换部分的可显示区域与否,
在上述识别判断部判断为应置换的情况下,上述生成部将上述翻译字幕修正为显示了在上述第二次以后的识别得到的识别结果、以及根据在上述第二次以后的识别得到的识别结果由上述翻译部翻译出的翻译结果的翻译字幕,
上述显示部包括:
消去部,其在上述识别判断部判断为应置换的情况下,消去上述被置换部分;
滚动显示部,其在上述区域判断部判断为否的情况下,为了设置上述可显示区域,将比上述被置换部分靠后的后尾侧的翻译字幕向后滚动;以及
置换部分显示部,其在上述可显示区域显示上述置换部分。
9.根据权利要求8所述的会议系统,其特征在于,上述显示部在上述可显示区域显示上述置换部分的情况下,与上述置换部分以外的上述翻译字幕相比强调显示该置换部分规定时间。
10.根据权利要求4~9中任一项所示的会议系统,其特征在于,
中央装置与多台终端装置分别以可通信的方式连接,
各终端装置具有上述显示部以及生成部,
上述中央装置包括:
上述识别部;
上述翻译部;以及
发送部,其将分别表示上述识别结果以及翻译结果的数据向上述终端装置发送,
在各终端装置中,基于接收到的数据,上述生成部执行生成处理。
11.一种信息处理装置,包括
接收部,其接收分别表示第一语言的原文和将该原文翻译成与上述第一语言不同的第二语言而成的译文的数据;
生成部,其基于该接收部接收到的数据,生成显示上述原文以及译文的翻译字幕。
12.根据权利要求11所述的信息处理装置,其特征在于,还包括显示上述生成部所生成的翻译字幕的显示部。
13.一种会议辅助方法,用于利用会议系统来辅助会议的实现,包括如下步骤:
识别以第一语言进行的发言的语音;
将通过识别语音而得到的识别结果翻译成与上述第一语言不同的第二语言;以及
生成显示上述识别结果和通过翻译该识别结果而得到的翻译结果的翻译字幕。
14.根据权利要求13所述的会议辅助方法,其特征在于,还包括将上述翻译字幕显示在上述会议系统所具有的显示部的步骤。
15.一种信息处理方法,用于利用信息处理装置处理信息,其特征在于,包括如下步骤:
接收分别表示第一语言的原文和将该原文翻译成与上述第一语言不同的第二语言而成的译文的数据;以及
基于接收到的数据,生成显示上述原文以及上述译文的翻译字幕。
16.根据权利要求15所述的信息处理方法,其特征在于,还包括将上述翻译字幕显示在上述信息处理装置所具有的显示部的步骤。
CN2011100491071A 2010-02-26 2011-02-25 会议系统、信息处理装置、会议辅助方法及信息处理方法 Pending CN102170553A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-043163 2010-02-26
JP2010043163A JP5014449B2 (ja) 2010-02-26 2010-02-26 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
CN102170553A true CN102170553A (zh) 2011-08-31

Family

ID=44491508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100491071A Pending CN102170553A (zh) 2010-02-26 2011-02-25 会议系统、信息处理装置、会议辅助方法及信息处理方法

Country Status (3)

Country Link
US (1) US8504375B2 (zh)
JP (1) JP5014449B2 (zh)
CN (1) CN102170553A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360347A (zh) * 2011-09-30 2012-02-22 宇龙计算机通信科技(深圳)有限公司 一种语音翻译方法、系统及语音翻译服务器
CN102521221A (zh) * 2011-11-30 2012-06-27 江苏奇异点网络有限公司 具有文字输出功能的多语言会议信息输出方法
CN103744843A (zh) * 2013-12-25 2014-04-23 北京百度网讯科技有限公司 一种在线语音翻译方法及装置
CN103853705A (zh) * 2012-11-28 2014-06-11 上海能感物联网有限公司 计算机汉语语音与外语语音实时语音字幕翻译方法
CN103853709A (zh) * 2012-12-08 2014-06-11 上海能感物联网有限公司 计算机汉语有声影像资料自动加注中外文字幕的方法
CN103853704A (zh) * 2012-11-28 2014-06-11 上海能感物联网有限公司 计算机外语有声影像资料自动加注中外文字幕的方法
CN103854648A (zh) * 2012-12-08 2014-06-11 上海能感物联网有限公司 汉语外语有声影像资料双向可逆语音转换并加注字幕方法
CN103853708A (zh) * 2012-12-08 2014-06-11 上海能感物联网有限公司 计算机汉语有声影像资料自动加注汉语字幕的方法
CN103902530A (zh) * 2012-12-30 2014-07-02 上海能感物联网有限公司 汉语自动实时标注中外文字幕音像录播方法
CN103905743A (zh) * 2012-12-30 2014-07-02 上海能感物联网有限公司 汉语自动实时标注汉语字幕音像录播方法
CN103902529A (zh) * 2012-12-30 2014-07-02 上海能感物联网有限公司 外语自动实时标注中外文字幕音像录播方法
CN103902531A (zh) * 2012-12-30 2014-07-02 上海能感物联网有限公司 汉语与外语自动实时语音翻译并标注字幕的音像录播方法
CN109033423A (zh) * 2018-08-10 2018-12-18 北京搜狗科技发展有限公司 同传字幕显示方法及装置、智能会议方法、装置及系统
CN109255129A (zh) * 2017-07-14 2019-01-22 松下电器(美国)知识产权公司 翻译方法、翻译装置以及翻译程序
CN109889764A (zh) * 2019-03-20 2019-06-14 上海高屋信息科技有限公司 会议系统
CN110060670A (zh) * 2017-12-28 2019-07-26 夏普株式会社 操作辅助装置、操作辅助系统以及操作辅助方法
CN110232194A (zh) * 2019-06-17 2019-09-13 安徽听见科技有限公司 翻译显示方法、装置、设备及可读存储介质
CN110648653A (zh) * 2019-09-27 2020-01-03 安徽咪鼠科技有限公司 基于智能语音鼠标的字幕实现方法、装置、系统和存储介质
CN110728976A (zh) * 2018-06-30 2020-01-24 华为技术有限公司 语音识别的方法、装置及系统
WO2020135192A1 (zh) * 2018-12-24 2020-07-02 深圳Tcl新技术有限公司 一种多字幕显示方法、智能终端及存储介质
CN112541495A (zh) * 2020-12-22 2021-03-23 厦门亿联网络技术股份有限公司 会议消息的检测方法、装置、服务器及存储介质
CN114125358A (zh) * 2021-11-11 2022-03-01 北京有竹居网络技术有限公司 云会议字幕显示方法、系统、装置、电子设备和存储介质
CN115047997A (zh) * 2016-02-08 2022-09-13 三菱电机株式会社 输入显示控制装置、输入显示控制方法和输入显示系统

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9600473B2 (en) 2013-02-08 2017-03-21 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US10650103B2 (en) 2013-02-08 2020-05-12 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
US9031829B2 (en) 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9231898B2 (en) 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US8996352B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
JP2015060332A (ja) * 2013-09-18 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム
JP2015153408A (ja) * 2014-02-19 2015-08-24 株式会社リコー 翻訳システム、翻訳処理装置、及び翻訳処理プログラム
JP2016057986A (ja) * 2014-09-11 2016-04-21 株式会社東芝 音声翻訳装置、方法およびプログラム
JP2016062357A (ja) * 2014-09-18 2016-04-25 株式会社東芝 音声翻訳装置、方法およびプログラム
US10162811B2 (en) 2014-10-17 2018-12-25 Mz Ip Holdings, Llc Systems and methods for language detection
US9372848B2 (en) 2014-10-17 2016-06-21 Machine Zone, Inc. Systems and methods for language detection
JP6470097B2 (ja) 2015-04-22 2019-02-13 株式会社東芝 通訳装置、方法およびプログラム
CN105024834A (zh) * 2015-07-03 2015-11-04 马岩 会议的互动方法及系统
JP6690200B2 (ja) * 2015-11-20 2020-04-28 株式会社Jvcケンウッド 端末装置、通信方法
JP6610195B2 (ja) * 2015-11-20 2019-11-27 株式会社Jvcケンウッド 端末装置、通信方法
US10765956B2 (en) 2016-01-07 2020-09-08 Machine Zone Inc. Named entity recognition on chat data
JP2017167805A (ja) 2016-03-16 2017-09-21 株式会社東芝 表示支援装置、方法およびプログラム
JP6760566B2 (ja) * 2016-07-13 2020-09-23 株式会社富士通ソーシアルサイエンスラボラトリ 端末装置、翻訳方法、及び、翻訳プログラム
US10339224B2 (en) 2016-07-13 2019-07-02 Fujitsu Social Science Laboratory Limited Speech recognition and translation terminal, method and non-transitory computer readable medium
US10866719B1 (en) * 2016-11-29 2020-12-15 Amazon Technologies, Inc. Content-specific auto-scrolling devices and methods
JP6852478B2 (ja) 2017-03-14 2021-03-31 株式会社リコー 通信端末、通信プログラム及び通信方法
US10769387B2 (en) 2017-09-21 2020-09-08 Mz Ip Holdings, Llc System and method for translating chat messages
US10459620B2 (en) * 2018-02-09 2019-10-29 Nedelco, Inc. Caption rate control
CN109686363A (zh) * 2019-02-26 2019-04-26 深圳市合言信息科技有限公司 一种现场会议人工智能同传设备
CN110475146B (zh) * 2019-09-05 2022-01-14 珠海市杰理科技股份有限公司 字幕矫正方法、装置及智能音箱
CN113014853B (zh) * 2020-04-30 2022-11-11 北京字节跳动网络技术有限公司 互动信息处理方法、装置、电子设备及存储介质
KR102390187B1 (ko) * 2020-05-27 2022-04-25 네이버 주식회사 회의보조용 번역 도구를 위한 방법 및 시스템
CN112672099B (zh) * 2020-12-31 2023-11-17 深圳市潮流网络技术有限公司 字幕数据生成和呈现方法、装置、计算设备、存储介质
US11955117B2 (en) * 2021-05-27 2024-04-09 The Toronto-Dominion Bank System and method for analyzing and reacting to interactions between entities using electronic communication channels

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0787472A (ja) * 1993-09-09 1995-03-31 Oki Electric Ind Co Ltd テレビ会議システム
JP2001350749A (ja) * 2000-06-06 2001-12-21 Nec Corp インターネットにおける議事録の作成記録方法及び記録媒体
JP2003242148A (ja) * 2002-02-15 2003-08-29 Seiko Epson Corp 情報端末、管理装置、及び情報処理方法
US6868379B1 (en) * 1999-07-08 2005-03-15 Koninklijke Philips Electronics N.V. Speech recognition device with transfer means
CN101322097A (zh) * 2005-12-05 2008-12-10 微软公司 灵活的显示翻译

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06124302A (ja) * 1992-10-14 1994-05-06 Brother Ind Ltd 機械翻訳システム
JPH09106399A (ja) * 1995-08-08 1997-04-22 Matsushita Electric Ind Co Ltd 機械翻訳装置及び機械翻訳方法
US6651039B1 (en) * 1995-08-08 2003-11-18 Matsushita Electric Industrial Co., Ltd. Mechanical translation apparatus and method
JPH10307496A (ja) * 1996-10-04 1998-11-17 Ricoh Co Ltd ベルト定着装置
US6175819B1 (en) * 1998-09-11 2001-01-16 William Van Alstine Translating telephone
US7130790B1 (en) * 2000-10-24 2006-10-31 Global Translations, Inc. System and method for closed caption data translation
JP2003122179A (ja) 2001-10-19 2003-04-25 Ricoh Co Ltd 定着装置・画像形成装置
JP4087400B2 (ja) * 2005-09-15 2008-05-21 株式会社東芝 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
JP2007133033A (ja) * 2005-11-08 2007-05-31 Nec Corp 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
US8249856B2 (en) * 2008-03-20 2012-08-21 Raytheon Bbn Technologies Corp. Machine translation
US8621505B2 (en) * 2008-03-31 2013-12-31 At&T Intellectual Property I, L.P. Method and system for closed caption processing
US8639505B2 (en) * 2008-04-23 2014-01-28 Nvoq Incorporated Method and systems for simplifying copying and pasting transcriptions generated from a dictation based speech-to-text system
KR100998566B1 (ko) * 2008-08-11 2010-12-07 엘지전자 주식회사 음성인식을 이용한 언어 번역 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0787472A (ja) * 1993-09-09 1995-03-31 Oki Electric Ind Co Ltd テレビ会議システム
US6868379B1 (en) * 1999-07-08 2005-03-15 Koninklijke Philips Electronics N.V. Speech recognition device with transfer means
JP2001350749A (ja) * 2000-06-06 2001-12-21 Nec Corp インターネットにおける議事録の作成記録方法及び記録媒体
JP2003242148A (ja) * 2002-02-15 2003-08-29 Seiko Epson Corp 情報端末、管理装置、及び情報処理方法
CN101322097A (zh) * 2005-12-05 2008-12-10 微软公司 灵活的显示翻译

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360347A (zh) * 2011-09-30 2012-02-22 宇龙计算机通信科技(深圳)有限公司 一种语音翻译方法、系统及语音翻译服务器
CN102521221A (zh) * 2011-11-30 2012-06-27 江苏奇异点网络有限公司 具有文字输出功能的多语言会议信息输出方法
CN103853705A (zh) * 2012-11-28 2014-06-11 上海能感物联网有限公司 计算机汉语语音与外语语音实时语音字幕翻译方法
CN103853704A (zh) * 2012-11-28 2014-06-11 上海能感物联网有限公司 计算机外语有声影像资料自动加注中外文字幕的方法
CN103853708A (zh) * 2012-12-08 2014-06-11 上海能感物联网有限公司 计算机汉语有声影像资料自动加注汉语字幕的方法
CN103853709A (zh) * 2012-12-08 2014-06-11 上海能感物联网有限公司 计算机汉语有声影像资料自动加注中外文字幕的方法
CN103854648A (zh) * 2012-12-08 2014-06-11 上海能感物联网有限公司 汉语外语有声影像资料双向可逆语音转换并加注字幕方法
CN103902530A (zh) * 2012-12-30 2014-07-02 上海能感物联网有限公司 汉语自动实时标注中外文字幕音像录播方法
CN103905743A (zh) * 2012-12-30 2014-07-02 上海能感物联网有限公司 汉语自动实时标注汉语字幕音像录播方法
CN103902529A (zh) * 2012-12-30 2014-07-02 上海能感物联网有限公司 外语自动实时标注中外文字幕音像录播方法
CN103902531A (zh) * 2012-12-30 2014-07-02 上海能感物联网有限公司 汉语与外语自动实时语音翻译并标注字幕的音像录播方法
CN103744843A (zh) * 2013-12-25 2014-04-23 北京百度网讯科技有限公司 一种在线语音翻译方法及装置
CN115047997A (zh) * 2016-02-08 2022-09-13 三菱电机株式会社 输入显示控制装置、输入显示控制方法和输入显示系统
CN109255129B (zh) * 2017-07-14 2023-11-07 松下电器(美国)知识产权公司 翻译方法、翻译装置以及记录介质
CN109255129A (zh) * 2017-07-14 2019-01-22 松下电器(美国)知识产权公司 翻译方法、翻译装置以及翻译程序
CN110060670A (zh) * 2017-12-28 2019-07-26 夏普株式会社 操作辅助装置、操作辅助系统以及操作辅助方法
CN110728976A (zh) * 2018-06-30 2020-01-24 华为技术有限公司 语音识别的方法、装置及系统
CN109033423A (zh) * 2018-08-10 2018-12-18 北京搜狗科技发展有限公司 同传字幕显示方法及装置、智能会议方法、装置及系统
WO2020135192A1 (zh) * 2018-12-24 2020-07-02 深圳Tcl新技术有限公司 一种多字幕显示方法、智能终端及存储介质
CN109889764A (zh) * 2019-03-20 2019-06-14 上海高屋信息科技有限公司 会议系统
CN110232194A (zh) * 2019-06-17 2019-09-13 安徽听见科技有限公司 翻译显示方法、装置、设备及可读存储介质
CN110232194B (zh) * 2019-06-17 2024-04-09 安徽听见科技有限公司 翻译显示方法、装置、设备及可读存储介质
CN110648653A (zh) * 2019-09-27 2020-01-03 安徽咪鼠科技有限公司 基于智能语音鼠标的字幕实现方法、装置、系统和存储介质
CN112541495A (zh) * 2020-12-22 2021-03-23 厦门亿联网络技术股份有限公司 会议消息的检测方法、装置、服务器及存储介质
CN114125358A (zh) * 2021-11-11 2022-03-01 北京有竹居网络技术有限公司 云会议字幕显示方法、系统、装置、电子设备和存储介质

Also Published As

Publication number Publication date
JP5014449B2 (ja) 2012-08-29
US8504375B2 (en) 2013-08-06
US20110213607A1 (en) 2011-09-01
JP2011182125A (ja) 2011-09-15

Similar Documents

Publication Publication Date Title
CN102170553A (zh) 会议系统、信息处理装置、会议辅助方法及信息处理方法
CN108615527B (zh) 基于同声传译的数据处理方法、装置和存储介质
US10102859B2 (en) Conference support apparatus, conference support method, and computer program product
US10176366B1 (en) Video relay service, communication system, and related methods for performing artificial intelligence sign language translation services in a video relay service environment
CN113014732B (zh) 会议记录处理方法、装置、计算机设备和存储介质
CN110557678B (zh) 视频处理方法、装置及设备
JP6233798B2 (ja) データを変換する装置及び方法
CN105554582A (zh) 一种评论展示方法及系统
EP2747464A1 (en) Sent message playing method, system and related device
US20210249007A1 (en) Conversation assistance device, conversation assistance method, and program
US20220094654A1 (en) Methods, systems, and media for identifying and presenting video objects linked to a source video
KR101510144B1 (ko) 배경 화면을 이용한 광고 시스템 및 방법
US20140129228A1 (en) Method, System, and Relevant Devices for Playing Sent Message
CN112562677B (zh) 会议语音转写方法、装置、设备及存储介质
US11600279B2 (en) Transcription of communications
JP2018200541A (ja) 会議管理システム
US11318373B2 (en) Natural speech data generation systems and methods
Braithwaite A sketch of the linguistic geography of signed languages in the Caribbean
Nitzke et al. Translating subtitles into Easy Language: First considerations and empirical investigations
CN114503117A (zh) 语音信息处理方法、中枢设备、控制终端及存储介质
CN111091035A (zh) 一种科目识别方法及电子设备
CN112165627B (zh) 信息处理方法、装置、存储介质、终端及系统
CN102929859B (zh) 辅助阅读的方法及装置
KR102541162B1 (ko) 콘텐츠에 대한 자막 동기화를 수행하는 전자 장치 및 방법
WO2022237381A1 (zh) 保存会议记录的方法、终端及服务器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110831