CN105446960A - 语音翻译装置、方法及程序 - Google Patents

语音翻译装置、方法及程序 Download PDF

Info

Publication number
CN105446960A
CN105446960A CN201510574967.5A CN201510574967A CN105446960A CN 105446960 A CN105446960 A CN 105446960A CN 201510574967 A CN201510574967 A CN 201510574967A CN 105446960 A CN105446960 A CN 105446960A
Authority
CN
China
Prior art keywords
speech
translation
character string
mentioned
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510574967.5A
Other languages
English (en)
Other versions
CN105446960B (zh
Inventor
釜谷聪史
住田一男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of CN105446960A publication Critical patent/CN105446960A/zh
Application granted granted Critical
Publication of CN105446960B publication Critical patent/CN105446960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

本发明的实施方式涉及语音翻译装置、方法及程序。目的是提供能够减少翻译结果的误解且提高发言的理解性的语音翻译装置、方法及程序。本公开一实施方式的语音翻译装置包含语音识别部、检测部、翻译部及控制部。语音识别部对基于多个说话人的一种以上第1语言的发言按时序顺序进行语音识别处理,获得作为语音识别结果的文本字符串。检测部检测文本字符串的意思的连贯性,获得表示以该意思的连贯性进行划分的字符串的一个以上的单位字符串。翻译部将上述一个以上的单位字符串翻译为与第1语言不同的第2语言,获得一个以上的翻译字符串。控制部在时序上在上述发言间存在重复的情况下,以改变重复的部分所对应的翻译字符串的显示顺序的方式进行控制。

Description

语音翻译装置、方法及程序
相关申请
本申请以日本专利申请2014-190411(申请日:2014年9月18日)为基础,享有该申请的优先权。本申请通过参照该申请,包含该申请的全部内容。
技术领域
本发明的实施方式涉及语音翻译装置、方法及程序。
背景技术
随着语音语言处理技术的进展,实现了将基于第1语言的输入变换为第2语言而输出的语音翻译设备。输入和/或输出的形式根据应用有字符串(文本)或者语音,但是作为对人发出的语音进行翻译的技术,本质是相同的。
语音翻译技术可以应用于会议和/或演讲中的翻译的字幕显示和/或翻译的语音输出。作为语音传译技术的一例,例如有会议字幕系统。
但是,由于翻译结果在作为翻译对象的区间的发言结束之后呈现,所以依呈现翻译结果的定时,存在使用者错误理解翻译结果的问题。
发明内容
本发明是为了解决上述问题而提出的,其目的在于提供能够减少翻译结果的误解的语音翻译装置、方法及程序。
本发明的一实施方式所涉及的语音翻译装置包含语音识别部、检测部、翻译部及控制部。语音识别部对基于多个说话人的一种以上第1语言的发言按时序顺序进行语音识别处理,获得作为语音识别结果的文本字符串。检测部检测上述文本字符串的意思的连贯性,获得表示以该意思的连贯性进行划分的字符串的一个以上的单位字符串。翻译部将上述一个以上的单位字符串翻译为与上述第1语言不同的第2语言,获得一个以上的翻译字符串。控制部在时序上在上述发言间存在重复的情况下,以改变重复的部分所对应的翻译字符串的显示顺序的方式进行控制。
根据上述构成的语音翻译装置,能够减少翻译结果的误解,提高发言的理解性。
附图说明
图1是表示本实施方式所涉及的语音翻译装置的方框图。
图2是表示控制部中的控制处理的流程图。
图3是表示语音翻译装置的工作的第1具体例的图。
图4是表示语音翻译装置的工作的第2具体例的图。
图5是表示呈现部中的第1显示例的图。
图6是表示呈现部中的第2显示例的图。
图7是表示呈现部中的第3显示例的图。
图8是表示控制部中的控制处理的第1变形例的图。
图9是表示控制部中的控制处理的第2变形例的图。
图10是说明由以往方法实现的翻译结果的显示的图。
具体实施方式
以下,参照附图详细说明本公开的一实施方式所涉及的语音翻译装置、方法及程序。另外,在以下的实施方式中,设定标注了同一编号的部分进行同样的工作,并省略重复的说明。
参照图1的方框图说明第1实施方式所涉及的语音翻译装置。
本实施方式所涉及的语音翻译装置100包含语音取得部101、语音识别部102、翻译单位检测部103、翻译部104、控制部105及呈现部106。
语音取得部101取得以第1语言发言的说话人的发言作为语音信号。进而,语音取得部101与语音信号相对应地取得表示语音信号的发话者的说话人信息和包含取得语音信号的时刻及语音信号的持续时间的时间信息。第1语言包含一种以上的语言。语音信号例如能够通过麦克风集音并利用模拟数字变换器(A/D变换器)对其进行处理而由此获得。另外,也可以通过利用再现装置等读入并再现预先记录了语音的记录介质而取得语音信号。
语音识别部102从语音取得部101接收语音信号、说话人信息及时间信息,并对语音信号按时序顺序进行语音识别处理,获得作为语音信号的语音识别结果的文本字符串。语音识别处理由于可以利用例如隐马尔可夫模型(HiddenMarkovModel:HMM)等一般的方法进行,因此省略这里的详细说明。
翻译单位检测部103从语音识别部102接收文本字符串、说话人信息及时间信息,检测适于翻译处理的文本字符串的意思的连贯性,生成以意思的连贯性划分的字符串即单位字符串。
在说话人说出的口语中,由于没有书面语中所包含的句号和逗号那样明确的划分,所以为了实现同步性高、品质佳的语音传译,需要分割为适于翻译处理的单位。这里,所谓适于翻译处理的单位,只要能保持对输入于机器翻译装置的语音同步并行地译出并获得最佳翻译结果那样的意思的连贯性即可,由于使用一般的方法即可,所以省略这里的说明。
另外,由于意思的连贯性根据语言的种类而划分不同,所以翻译单位检测部103只要根据第1语言的种类来确定意思的连贯性即可。
翻译部104从翻译单位检测部103接收单位字符串、说话人信息及时间信息,将单位字符串翻译为与第1语言不同的第2语言,获得翻译字符串。翻译处理只要应用例如在一般的转换方式、用例库方式、统计库方式、中间语言方式等以往的机器翻译(MachineTranslation)技术中利用的所有方法即可,所以省略这里的说明。
控制部105从翻译部104接收翻译字符串、单位字符串、说话人信息及时间信息。控制部105参照说话人信息及时间信息,在时序上在发言间存在重复的情况下,在后述的呈现部106,以使与发言重复的部分对应的翻译字符串的显示顺序改变的方式进行控制。显示顺序的改变基于已经向说话人呈现的翻译字符串和发言时其他人的发言的产生状况来确定,详细情况将后述。
呈现部106是例如LCD(Liquidcrystaldisplay:液晶显示器)和/或OLED(organiclightemittingdiode:有机发光二极管)显示器那样的显示装置,从控制部105接收翻译字符串及单位字符串,向使用者显示翻译结果及文本字符串。另外,文本字符串也可以从语音识别部102接收。呈现部106不限于显示装置,也可以是打印机装置、扬声器等语音装置、硬盘驱动器等对存储介质的存储装置。
另外,也能够通过语音合成处理将翻译字符串及文本字符串输出为语音。该语音合成处理能够应用语音片段编辑语音合成、共振峰语音合成、语音语料库的语音合成、文本到语音等一般利用的所有方法。在该情况下,控制部105只要代替确定显示位置,而对存在重复的多个翻译字符串使语音间的停顿长度改变或者改变语音输出的顺序。
进而,在本实施方式中,以英语及汉语为第1语言,日语为第2语言,以第1语言与第2语言之间的翻译为前提进行说明,但是也可以是其他语言的组合,进而在同时处理多种语言的情况下也可以同样进行处理。
另外,也可以在每次生成单位字符串及翻译字符串时,将说话人信息及时间信息分别相对应地保存在缓冲器(未图示)。控制部105也可以参照缓冲器中保存的时间信息及说话人信息,以使翻译字符串的显示顺序改变的方式进行控制。
接着,参照图2的流程图说明控制部105中的显示顺序的控制处理。
在步骤S201,取得与作为处理对象的发言(也称为对象发言)对应的翻译字符串i。
在步骤S202,将用于控制翻译字符串的显示的内部变量k设定成k=1。
在步骤S203,判定是否存在与翻译字符串i所对应的发言部分重复的发言。是否存在重复发言的判定只要参照与翻译字符串i对应的时间信息和与其他发言的翻译字符串对应的时间信息,根据在翻译字符串i所对应的发言的持续时间与其他说话人的发言的持续时间上是否存在重复部分来判定即可。在存在与翻译字符串i所对应的发言部分重复的发言的情况下,前进至步骤S204,在不存在重复发言的情况下前进至步骤S209。
在步骤S204,获得已经呈现在呈现部106的翻译字符串之中从末尾算起的第k个翻译字符串所对应的发言h。
在步骤S205,判定发言h是否为空。在发言h为空的情况下前进至步骤S209,在发言h不为空的情况下前进至步骤S206。另外,在关于最初的翻译字符串进行处理的情况下,由于不存在已经显示的翻译字符串,所以发言h为空。
在步骤S206,判定发言h的持续时间的终端是否是比翻译字符串i的发言的持续时间的始端早的时刻。在发言h的持续时间的终端是比翻译字符串i的发言的持续时间的始端早的时刻的情况下前进至步骤S209,否则前进至步骤S207。
在步骤S207,判定翻译字符串i之前且与发言h不重复的发言之中紧靠其之前的发言的说话人与翻译字符串i的说话人是否相同。若是同一说话人则前进至步骤S209,在不是同一说话人、即说话人不同的情况下前进至步骤S208。
在步骤S208,使k递增1,并返回步骤S204,反复同样的处理。
在步骤S209,以在已经显示于呈现部106的翻译字符串之中从末尾算起的第k个翻译字符串之后显示翻译字符串i的方式进行控制。
在步骤S210,取得在翻译字符串i的前一个显示的翻译字符串的发言p。
在步骤S211,判定发言p与翻译字符串i的说话人是否相同。在发言p与翻译字符串i的说话人相同的情况下前进至步骤S212,在发言p与翻译字符串i的说话人不相同的情况下处理结束。另外,在关于最初的翻译字符串进行处理的情况下,认为不存在与翻译字符串i相同的说话人而结束处理。
在步骤S212,汇总发言p与翻译字符串i的显示。以上,结束控制部105的控制处理。
接着,参照图3说明语音翻译装置100基于图2所示的控制部105的控制处理的工作的第1具体例。
图3是表示以不同语言发言的3个说话人A、说话人B及说话人C分别发言的情况下的时序的图。越靠上侧的发言表示越早的发言(越早时刻的发言)。这里,设为:分别地,说话人A以英语发言、说话人B以汉语发言、说话人C以日语发言。发言301到发言304是表示各个说话人的发言内容(单位字符串)的气球形框。持续时间305到持续时间308表示从发言301到发言304的各自的持续时间。
在本实施方式中,假定从发言的开始时间(也称为发言始端)早的发言按顺序进行处理的情况。即,在图3的例子中,按发言301、发言302、发言303及发言304的顺序进行处理。
假定说话人A发出了发言301“Let'shaveanextmeetingonnextMonday.”。
在生成了与发言301对应的翻译字符串i的情况下,控制部105取得发言301的翻译字符串i作为对象发言,并设定k=1。
由于不存在与发言301的持续时间305时间上重复的发言,所以在显示于呈现部106的翻译字符串的从末尾算起的第1个,显示发言301的翻译字符串。这里,由于是最初的发言,不存在显示于呈现部106的翻译字符串,所以发言301的翻译字符串显示在最开始。作为后续处理,取得在发言301的前一个显示的翻译字符串所对应的发言,但是由于在现阶段不存在发言,所以结束处理。
接着,假定说话人A发出了发言302“IsthatOKforyou?”。
在生成了与发言302对应的翻译字符串i的情况下,控制部105取得发言302的翻译字符串i作为对象发言,并设定k=1。
由于存在具有与发言302的持续时间306时间上重复的持续时间的发言303、304,所以取得显示于呈现部106的发言中的从末尾算起的第k个发言、即末尾的翻译字符串所对应的发言301。若对持续时间305与持续时间306进行比较,则由于发言301的发言终端是比发言302的发言始端早的时刻,且发言301的说话人与发言302的说话人相同,所以发言301与发言302汇总,收置在同一框内显示。
接着,假定说话人B发出了下述发言作为发言303:
“星期二,怎么样?”。
在生成了与发言303对应的翻译字符串i的情况下,控制部105取得发言303的翻译字符串i作为对象发言,并设定k=1。
由于存在具有与发言303的持续时间307时间上重复的持续时间的发言302、304,所以取得显示于呈现部106的翻译字符串中的从末尾算起的第k个发言、即末尾的翻译字符串所对应的发言302。若对持续时间306与持续时间307进行比较,则发言302的发言终端存在于发言303的发言始端之后。进而,由于与发言303不重复的紧靠其之前的发言即发言301的说话人是说话人A,所以与发言303的说话人B不相同。因此,将k递增1而设定成k=2。
接着,取得显示于呈现部106的翻译字符串中的从末尾算起的第k个发言、即从末尾算起的第2个翻译字符串所对应的发言301。若对持续时间305与持续时间307进行比较,则由于发言301的发言终端存在于发言303的发言始端之前,所以将发言303显示在发言301之后。另外,由于发言303的说话人与发言301的说话人不相同,所以结束对发言303的显示控制。由此,发言303与已经显示的发言302相比,在时序上靠前显示。
接着,假定说话人C发出了发言304“そうしましょう”的情况。
在生成了与发言304对应的翻译字符串i的情况下,控制部105取得发言304的翻译字符串i作为对象发言,并设定k=1。
存在具有与发言304的持续时间308时间上重复的持续时间的发言302、303。因此,取得显示于呈现部106的翻译字符串中的从末尾算起的第k个、即末尾的翻译字符串所对应的发言302。若对持续时间306与持续时间308进行比较,则发言302的发言终端是比发言304的发言始端迟的时刻。另外,由于与发言304不重复的紧靠其之前的发言即发言301的说话人是说话人A,所以与发言304的说话人C不相同。因此,使k递增1而设定成k=2。
接着,取得显示于呈现部106的翻译字符串中的从末尾算起的第2个翻译字符串所对应的发言303。若对持续时间307与持续时间308进行比较,则发言303的发言终端是比发言304的发言始端迟的时刻。另外,由于与发言304不重复的紧靠其之前的发言即发言301的说话人是说话人A,所以使k再递增1而设定成k=3。
取得显示于呈现部106的翻译字符串中的从末尾算起的第3个发言301。若对持续时间305与持续时间308进行比较,则由于发言301的发言终端是比发言304的发言始端早的时刻,所以将与发言304对应的翻译字符串i显示在发言301之后。这里,由于发言304的说话人与发言301的说话人不相同,所以结束对发言304的显示控制。由此,发言304与已经显示的发言303及发言302相比,在时序上靠前显示。结果,最终的翻译字符串的显示顺序成为发言301、发言304、发言303、发言302。
接着,参照图4说明语音翻译装置100的工作的第2具体例。
图4与图3大致相同,但是表示说话人B的发言303与说话人A的发言302相比在时间上靠前发出的情况。
假定在发言301的翻译字符串显示之后,说话人B发出了发言303。在生成了发言303的翻译字符串i的情况下,控制部105取得发言303的翻译字符串i作为对象发言,并设定k=1。
由于存在具有与发言303的持续时间在时间上重复的持续时间的发言302、304,所以取得呈现于呈现部106的翻译字符串的从末尾算起的前一个显示的发言301。由于发言301的发言终端是比发言303的发言始端早的时刻,且发言301与发言303的说话人不同,所以紧接在发言301的翻译字符串之后显示发言303的翻译字符串。
接着,假定说话人A发出了发言302的情况。
生成发言302的翻译字符串i,控制部105取得发言302的翻译字符串i作为对象发言,并设定成k=1。
由于存在与发言302的持续时间在时间上重复的发言303、发言304,所以取得在发言302的前一个显示的发言303。发言303的发言终端是比发言302的发言始端迟的时刻,且与发言303不重复的发言之中紧靠其之前的发言即发言301的说话人与发言302的说话人相同。从而,在呈现于呈现部106的翻译字符串的从末尾算起的第1个显示发言302的翻译字符串。
关于发言304,由于进行与图3同样的处理,所以最终的翻译字符串的显示顺序成为发言301、发言304、发言303、发言302。
接着,参照图5说明呈现部106的第1显示例。
图5是完成了对图3的发言302的翻译字符串的处理的状态下的显示,是同一说话人与其他人的发言不重复而连续发言的情况下的发言的显示例。
这里,作为发言301的发言显示501,在上部显示单位字符串,在下部显示单位字符串的翻译即翻译字符串。另外,也显示发言301的说话人502。
在说话人A与发言“来週の月曜日に次の会議を開きましょう”连续发出了发言302“大丈夫でしょうか?”的情况下,控制部105以汇总显示同一说话人的发言所对应的翻译字符串的方式进行控制。
在呈现部106,根据来自控制部105的控制,将发言302的发言显示503和发言301的发言显示501汇总为一组,显示为发言显示504。这样,在同一说话人的发言持续的期间,由于其翻译结果关联显示为一个,所以在翻译结果中,也能够使与发言的持续性相关的理解性提高。
接着,参照图6说明呈现部106的第2显示例。
图6是从图5所示的发言显示504的状态到有其他人的发言的情况下的发言的显示例,在图3的例子中,是完成了对发言303的翻译字符串的处理的状态下的显示。
按照图3的例子,控制部105以紧接在发言301之后显示发言303的方式进行控制。结果,在呈现部106,发言显示501与发言显示503分离,紧接在发言显示501之后,显示发言303的发言显示601,在发言显示601之后显示发言显示503。
接着,参照图7说明呈现部106的第3显示例。
图7是完成了对图3的发言304的翻译字符串的处理的状态下的显示。
按照图3的例子,控制部105以紧接在发言301之后显示发言304的方式进行控制。从而,在呈现部106,紧接在发言显示501之后显示发言304的发言显示701,接着,依次显示发言显示601及发言显示503。
通过进行图6及图7所示的处理,说话人以到何处为止的翻译结果为基础进行了发言的情况变得明确,能够提高翻译结果的理解性。
接着,参照图8说明与控制部105的显示顺序的控制处理相关的第1变形例。
在图8的例子中,不使发言显示601与发言显示503相比在时间上靠前显示,而是使发言显示503与发言显示601横向并列显示。这样,也能够提高翻译结果的理解性。
接着,参照图9说明与控制部105的显示顺序的控制处理相关的第2变形例。
在图9的例子中,将当前行的发言与被判定为应该紧接在先前的发言之后显示的发言显示为一组。
例如,由于发言显示601的显示顺序被确定为紧接在发言显示501之后,所以只要将发言显示501与发言显示601显示为一组即可。
根据以上所示的本实施方式,在发言存在重复的情况下,通过基于发言的持续时间和说话人来控制显示顺序,同一说话人的连续发言及说话人以到何处为止的翻译字符串为基准进行了发言的情况变得明确,能够提高发言的理解性,能够抑制误解的发生。
另外,也可以使用谈话分析的技术,基于语境的前后关系来控制呈现顺序。或者,以在先前呈现完毕的发言之前呈现新的翻译结果的方式进行控制时,也可以以将后置的发言设为浅色或者如图8那样使呈现位置错开而呈现等强调呈现发言的连续性丧失这一情况的方式进行控制。
(比较例)
作为比较例,参照图10说明基于以往方法的翻译结果的显示。
设为对于图10的发言显示501及发言显示503的说话人A的“Let'shaveanextmeetingonnextMonday.IsthatOKforyou?”的发言,说话人B发出了“星期二,怎么样?”,说话人C发出了“そうしましょう”。
此时,在说话人B的发言先于说话人C的情况下,在显示画面上,在说话人B的发言显示601之后显示说话人C的发言显示701。因此,尽管说话人C同意的是说话人A的“月曜日に会議を開催する”这一提案,但也会被解释为同意了说话人B的“火曜日に会議を開催する”这一提案。
在本实施方式中,由于对说话人以到何处为止的翻译字符串为基准进行了发言的情况进行了明确显示,所以能够减少比较例那样的错误解释的情况。
上述的实施方式中所示的处理步骤所示的指示可以基于作为软件的程序而执行。通用的计算机系统通过预先存储该程序并读入该程序,也可以获得与由上述语音翻译装置实现的效果同样的效果。上述的实施方式中描述的指示作为能够使计算机执行的程序,可以存储在磁盘(软盘、硬盘等)、光盘(CD-ROM、CD-R、CD-RW、DVD-ROM、DVD±R、DVD±RW、Blu-ray(注册商标)Disc等)、半导体存储器或与之类似的记录介质。只要是计算机或嵌入系统可以读取的记录介质,其存储形式可以是任意的形态。计算机若从该记录介质读入程序并基于该程序由CPU执行程序所描述的指示,则能够实现与上述实施方式的语音翻译装置同样的工作。当然,在计算机取得或读入程序的情况下,也可以通过网络取得或读入。
另外,基于从记录介质安装到计算机和/或嵌入系统的程序的指示而在计算机上工作的OS(操作系统)和/或数据库管理软件、网络等MW(中间件)等也可以执行用于实现本实施方式的各处理的一部分。
进而,本实施方式中的记录介质不限于与计算机或者嵌入系统独立的介质,也包含下载并存储或暂时存储通过LAN和/或因特网等传递的程序的记录介质。
另外,记录介质不限于一个,从多个介质执行本实施方式中的处理的情况也包含在本实施方式中的记录介质,介质的构成可以是任意的构成。
另外,本实施方式中的计算机或嵌入系统是用于基于记录介质中存储的程序来执行本实施方式中的各处理的装置,可以是包括个人计算机、微计算机等一个设备的装置、多个装置进行网络连接而成的系统等任意的构成。
另外,本实施方式中的计算机不限于个人计算机,也包含信息处理设备所包含的运算处理装置、微计算机等,是可以通过程序实现本实施方式中的功能的设备、装置的总称。
虽然说明了本发明的几个实施方式,但是这些实施方式是作为例子而呈现的,而并非要限定发明的范围。这些新实施方式能够以其他各种方式实施,在不脱离发明的主旨的范围,可以进行各种省略、置换、改变。这些实施方式和/或其变形包含于发明的范围和/或主旨,并且包含于权利要求的范围所记载的发明及其均等的范围。

Claims (10)

1.一种语音翻译装置,其特征在于,具备:
语音识别部,其对基于多个说话人的一种以上第1语言的发言按时序顺序进行语音识别处理,获得作为语音识别结果的文本字符串;
检测部,其检测上述文本字符串的意思的连贯性,获得表示以该意思的连贯性进行划分的字符串的一个以上的单位字符串;
翻译部,其将上述一个以上的单位字符串翻译为与上述第1语言不同的第2语言,获得一个以上的翻译字符串;以及
控制部,其在时序上在上述发言间存在重复的情况下,以改变重复的部分所对应的翻译字符串的显示顺序的方式进行控制。
2.权利要求1所述的语音翻译装置,其特征在于,
上述控制部基于上述发言的持续时间和上述说话人,控制上述显示顺序。
3.权利要求1所述的语音翻译装置,其特征在于,
上述控制部,在同一说话人的发言与其他说话人的发言不重复而连续的情况下,以汇总显示该同一说话人的发言所对应的翻译字符串的方式进行控制。
4.权利要求1所述的语音翻译装置,其特征在于,
上述控制部,在作为处理对象的对象发言与其他发言重复且在该对象发言之前且不重复的发言之中紧靠其之前的发言的说话人与该对象发言的说话人不相同的情况下,以下述方式进行控制:将该对象发言所对应的翻译字符串,相比于对应于与该对象发言重复的发言且已显示的翻译字符串,在时序上靠前显示。
5.权利要求1所述的语音翻译装置,其特征在于,
上述控制部,在作为处理对象的对象发言与其他发言重复的情况下,以下述方式进行控制:并列显示该对象发言所对应的翻译字符串和与该对象发言重复的发言所对应的翻译字符串。
6.权利要求1~3的任一项所述的语音翻译装置,其特征在于,
上述控制部,在作为处理对象的对象发言与其他发言重复的情况下,以下述方式进行控制:将该对象发言之前且不重复的发言之中紧靠其之前的发言所对应的翻译字符串与该对象发言所对应的翻译字符串作为一组而显示。
7.权利要求1所述的语音翻译装置,其特征在于,
上述检测部根据上述第1语言的种类,检测上述意思的连贯性。
8.权利要求1所述的语音翻译装置,其特征在于,
上述控制部基于上述翻译字符串所对应的发言的持续时间与其他说话人的发言的持续时间是否存在重复部分,判定在上述发言间是否存在重复。
9.一种语音翻译方法,其特征在于,
对基于多个说话人的一种以上第1语言的发言按时序顺序进行语音识别处理,获得作为语音识别结果的文本字符串;
检测上述文本字符串的意思的连贯性,获得表示以该意思的连贯性进行划分的字符串的一个以上的单位字符串;
将上述一个以上的单位字符串翻译为与上述第1语言不同的第2语言,获得一个以上的翻译字符串;以及
在时序上在上述发言间存在重复的情况下,以改变重复的部分所对应的翻译字符串的显示顺序的方式进行控制。
10.一种语音翻译程序,其特征在于,用于使计算机作为以下单元起作用:
语音识别单元,其对基于多个说话人的一种以上第1语言的发言按时序顺序进行语音识别处理,获得作为语音识别结果的文本字符串;
检测单元,其检测上述文本字符串的意思的连贯性,获得表示以该意思的连贯性进行划分的字符串的一个以上的单位字符串;
翻译单元,其将上述一个以上的单位字符串翻译为与上述第1语言不同的第2语言,获得一个以上的翻译字符串;以及
控制单元,其在时序上在上述发言间存在重复的情况下,以改变重复的部分所对应的翻译字符串的显示顺序的方式进行控制。
CN201510574967.5A 2014-09-18 2015-09-10 语音翻译装置、方法及程序 Active CN105446960B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014190411A JP2016062357A (ja) 2014-09-18 2014-09-18 音声翻訳装置、方法およびプログラム
JP2014-190411 2014-09-18

Publications (2)

Publication Number Publication Date
CN105446960A true CN105446960A (zh) 2016-03-30
CN105446960B CN105446960B (zh) 2018-09-11

Family

ID=55525900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510574967.5A Active CN105446960B (zh) 2014-09-18 2015-09-10 语音翻译装置、方法及程序

Country Status (3)

Country Link
US (1) US9600475B2 (zh)
JP (1) JP2016062357A (zh)
CN (1) CN105446960B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106486125A (zh) * 2016-09-29 2017-03-08 安徽声讯信息技术有限公司 一种基于语音识别技术的同声传译系统
CN110162252A (zh) * 2019-05-24 2019-08-23 北京百度网讯科技有限公司 同声传译系统、方法、移动终端及服务器
CN112055876A (zh) * 2018-04-27 2020-12-08 语享路有限责任公司 利用语音识别技术的多方对话记录/输出方法及用于其的装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10121474B2 (en) * 2016-02-17 2018-11-06 Microsoft Technology Licensing, Llc Contextual note taking
JP2017167805A (ja) 2016-03-16 2017-09-21 株式会社東芝 表示支援装置、方法およびプログラム
US9747282B1 (en) * 2016-09-27 2017-08-29 Doppler Labs, Inc. Translation with conversational overlap
US10431216B1 (en) * 2016-12-29 2019-10-01 Amazon Technologies, Inc. Enhanced graphical user interface for voice communications
US11582174B1 (en) 2017-02-24 2023-02-14 Amazon Technologies, Inc. Messaging content data storage
KR102190986B1 (ko) * 2019-07-03 2020-12-15 주식회사 마인즈랩 개별 화자 별 음성 생성 방법
CN111654658B (zh) * 2020-06-17 2022-04-15 平安科技(深圳)有限公司 音视频通话的处理方法、系统、编解码器及存储装置
KR102264224B1 (ko) * 2020-12-30 2021-06-11 주식회사 버넥트 실시간 번역 서비스 기반의 원격 커뮤니케이션 방법 및 그 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101154220A (zh) * 2006-09-25 2008-04-02 株式会社东芝 机器翻译装置和方法
US20130144603A1 (en) * 2011-12-01 2013-06-06 Richard T. Lord Enhanced voice conferencing with history
CN103246643A (zh) * 2012-02-10 2013-08-14 株式会社东芝 语音翻译装置和语音翻译方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6424946B1 (en) * 1999-04-09 2002-07-23 International Business Machines Corporation Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering
JP2000322077A (ja) 1999-05-12 2000-11-24 Sony Corp テレビジョン装置
JP2001117920A (ja) 1999-10-15 2001-04-27 Sony Corp 翻訳装置および翻訳方法、並びに記録媒体
US6556972B1 (en) * 2000-03-16 2003-04-29 International Business Machines Corporation Method and apparatus for time-synchronized translation and synthesis of natural-language speech
JP2002101205A (ja) 2000-09-22 2002-04-05 Sharp Corp 会議支援装置及び方法並びにこれに利用される記憶媒体
US7567908B2 (en) * 2004-01-13 2009-07-28 International Business Machines Corporation Differential dynamic content delivery with text display in dependence upon simultaneous speech
JP2005345681A (ja) * 2004-06-02 2005-12-15 Nippon Telegr & Teleph Corp <Ntt> 異言語間対話処理方法および装置
JP2006050500A (ja) 2004-08-09 2006-02-16 Jfe Systems Inc 会議支援システム
US20070133437A1 (en) * 2005-12-13 2007-06-14 Wengrovitz Michael S System and methods for enabling applications of who-is-speaking (WIS) signals
US8972268B2 (en) * 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US20080300872A1 (en) * 2007-05-31 2008-12-04 Microsoft Corporation Scalable summaries of audio or visual content
KR100911621B1 (ko) * 2007-12-18 2009-08-12 한국전자통신연구원 한영 자동번역 방법 및 장치
US8407049B2 (en) * 2008-04-23 2013-03-26 Cogi, Inc. Systems and methods for conversation enhancement
US8370142B2 (en) * 2009-10-30 2013-02-05 Zipdx, Llc Real-time transcription of conference calls
JP5014449B2 (ja) * 2010-02-26 2012-08-29 シャープ株式会社 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム
JP2013206253A (ja) 2012-03-29 2013-10-07 Toshiba Corp 機械翻訳装置、方法、およびプログラム
JP5727980B2 (ja) 2012-09-28 2015-06-03 株式会社東芝 表現変換装置、方法およびプログラム
US9231898B2 (en) * 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9031829B2 (en) * 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US8996352B2 (en) * 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US20160179831A1 (en) * 2013-07-15 2016-06-23 Vocavu Solutions Ltd. Systems and methods for textual content creation from sources of audio that contain speech
JP6235280B2 (ja) 2013-09-19 2017-11-22 株式会社東芝 音声同時処理装置、方法およびプログラム
JP2015201215A (ja) 2015-05-25 2015-11-12 株式会社東芝 機械翻訳装置、方法、およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101154220A (zh) * 2006-09-25 2008-04-02 株式会社东芝 机器翻译装置和方法
US20130144603A1 (en) * 2011-12-01 2013-06-06 Richard T. Lord Enhanced voice conferencing with history
CN103246643A (zh) * 2012-02-10 2013-08-14 株式会社东芝 语音翻译装置和语音翻译方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106486125A (zh) * 2016-09-29 2017-03-08 安徽声讯信息技术有限公司 一种基于语音识别技术的同声传译系统
CN112055876A (zh) * 2018-04-27 2020-12-08 语享路有限责任公司 利用语音识别技术的多方对话记录/输出方法及用于其的装置
CN110162252A (zh) * 2019-05-24 2019-08-23 北京百度网讯科技有限公司 同声传译系统、方法、移动终端及服务器

Also Published As

Publication number Publication date
JP2016062357A (ja) 2016-04-25
US9600475B2 (en) 2017-03-21
US20160085747A1 (en) 2016-03-24
CN105446960B (zh) 2018-09-11

Similar Documents

Publication Publication Date Title
CN105446960A (zh) 语音翻译装置、方法及程序
US11727914B2 (en) Intent recognition and emotional text-to-speech learning
JP4987623B2 (ja) ユーザと音声により対話する装置および方法
CN1128435C (zh) 用于无读本的和无显示装置的语音识别注册方法
US8155958B2 (en) Speech-to-text system, speech-to-text method, and speech-to-text program
CN105426362A (zh) 语音翻译装置、方法及程序
US20120016671A1 (en) Tool and method for enhanced human machine collaboration for rapid and accurate transcriptions
CN110740275B (zh) 一种非线性编辑系统
CN111739556B (zh) 一种语音分析的系统和方法
US10521945B2 (en) Text-to-articulatory movement
US9026430B2 (en) Electronic device and natural language analysis method thereof
JP2011504624A (ja) 自動同時通訳システム
US11393458B2 (en) Method and apparatus for speech recognition
CN101079189A (zh) 一种汉语读音修正的听写学习方法及其系统
WO2012173516A1 (ru) Способ и компьютерное устройство для автоматизированной обработки текста
CN109903594A (zh) 口语练习辅助方法、装置、设备及存储介质
CN117769739A (zh) 用于配音的辅助翻译和嘴唇匹配的系统和方法
KR20140072670A (ko) 사용자 음성 처리용 인터페이스 장치 및 방법
KR20220120330A (ko) 자기주도 영어 학습 콘텐츠 제공 방법 및 장치
KR20140078810A (ko) 언어 데이터 및 원어민의 발음 데이터를 이용한 리듬 패턴 학습장치 및 방법
WO2022185363A1 (ja) ラベル付与支援装置、ラベル付与支援方法およびプログラム
CN111475708A (zh) 一种跟读内容的推送方法、介质、装置和计算设备
CN102542854A (zh) 借助角色扮演学习发音的方法
KR101030777B1 (ko) 스크립트 데이터 생성 방법 및 장치
US20240161739A1 (en) System and method for hybrid generation of text from audio

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant