CN104899192A

CN104899192A - 用于自动通译的设备和方法

Info

Publication number: CN104899192A
Application number: CN201510101076.8A
Authority: CN
Inventors: 李秀钟; 金相勋; 金政世; 朴相奎
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2014-03-07
Filing date: 2015-03-06
Publication date: 2015-09-09
Anticipated expiration: 2035-03-06
Also published as: KR20150105075A; CN104899192B

Abstract

提供了用于自动通译的设备和方法。所述用于自动通译的设备包括：输入单元，用于接收源语言的说话声音；语音识别单元，用于通过对源语言的说话声音进行语音识别，来生成语音识别语句；通译单元，用于将该语音识别语句转换为目标语言的文本语句；说话声音生成单元，按照目标语言和源语言来生成发音符号，用于对方国家中的用户通过使用语音翻译数据库来再现或可视识别语音识别语句以及目标语言的文本语句；和输出单元，用于按照目标语言和源语言的每一个来输出所述语音识别语句、所述文本语句、和所述发音符号。

Description

用于自动通译的设备和方法

相关申请的交叉引用

该申请要求2014年3月7日提交的名为“Apparatus and method forautomatic interpretation”的韩国专利申请第10-2014-0027275号的权益，由此通过援引将其全部合并在该申请中。

技术领域

本发明涉及用于韩文和中文之间的自动通译(interpretation)的设备和方法。

背景技术

韩中自动通译设备是允许讲韩文或中文并且不知道其他人的语言的人彼此交流(communicate)的装置，并且包括源语言的发声(vocalization)、语音识别语句的生成、自动通译为目标语言并按照目标语言输出合成声音(complex sound)。源语言的说话(uttered)声音被转换为源语言的文本，通过自动通译与目标语言的语句相互关联，并然后作为目标语言的声音输出。然而，由于这样的说话声音立即消失，所以几乎(virtually)不可能记得或直接再现该说话声音用于交流。此外，由于在具有低使用频率的专有名词(proper nouns)的情况或噪音环境下，语音识别性能迅速恶化，所以存在通过在用于自动通译的设备中直接输入文本而交流、或直接说出对方国家中使用的语言的需求。应该尽可能地提供积极利用该自动通译功能的附加界面(interface)以便处置该情形。

发明内容

本发明提供了用于自动通译的设备和方法，其对源语言的说话声音进行语音识别，生成语音识别语句，将该语句的说话声音抄写(transcribes)为目标语言的文本，提供目标语言的自动通译语句，并在源语言的文本中抄写该语句的说话声音。

根据本发明的一个方面，提供了一种用于自动通译的设备。

根据本发明实施例的用于自动通译的设备包括：输入单元，用于接收源语言的说话声音；语音识别单元，用于通过对源语言的说话声音进行语音识别，来生成语音识别语句；通译单元，用于将该语音识别语句转换为目标语言的文本语句；说话声音生成单元，按照目标语言和源语言的每一个生成发音符号，用于对方国家中的用户通过使用语音翻译数据库来再现或可视识别语音识别语句以及目标语言的文本语句；和输出单元，用于按照目标语言和源语言的每一个来输出所述语音识别语句、所述文本语句、和所述发音符号。

该输入单元通过麦克风接收韩文和中文之一的说话声音，或者通过文本输入模块来接收韩文和中文之一的文本语句。

该语音翻译数据库存储韩文翻译单词数据以将中文语句的说话声音抄写为韩文发音符号，并存储中文翻译单词数据以将韩文语句的说话声音抄写为中文发音符号。

该韩文翻译单词数据包括在将拼音划分为发音单元之后、而与中文发音单元对应的韩文发音符号的映射信息，其中所述拼音是中文罗马字母表中书写的发音符号，包括中文字符的发音的4个声调(tones)。

所述中文翻译单词数据将韩文音节(syllable)划分为首音、中间音和尾音，并包括利用拼音或罗马字母表的发音符号映射的首音、中间音和尾音中的每一个的信息。

所述用于自动通译的设备在移动终端的应用中实现。

根据本发明的另一方面，提供了由用于自动通译的设备执行的用于自动通译的方法。

根据本发明的实施例的用于自动通译的方法包括：接收源语言的说话声音；通过对源语言的说话声音进行语音识别，来生成语音识别语句并输出；按照目标语言生成发音符号并输出，用于对方国家中的用户通过使用语音翻译数据库来再现或可视识别语音识别语句；将所述语音识别语句转换为目标语言的文本语句，并输出结果；和按照源语言生成发音符号并输出，用于对方国家中的用户通过使用语音翻译数据库来再现或可视识别目标语言的文本语句。

所述接收源语言的说话声音的步骤包括：通过麦克风接收韩文和中文之一的说话声音；或通过文本输入模块来接收韩文和中文之一的文本语句。

该韩文翻译单词数据包括通过将拼音划分为发音单元、而与中文发音单元对应的韩文发音符号的映射信息，其中所述拼音是中文罗马字母表中书写的发音符号，包括中文字符的发音的4个声调。

所述中文翻译单词数据将韩文音节划分为首音、中间音和尾音，并包括利用拼音或罗马字母表的发音符号映射的首音、中间音和尾音中的每一个的信息。

本发明允许对源语言的说话声音进行语音识别，生成语音识别语句，将该语句的说话声音抄写为目标语言的文本，提供目标语言的自动通译语句，并在源语言的文本中抄写该语句的说话声音，使得能够通过直接讲对方国家的语言而帮助交流。

附图说明

图1是用于韩文和中文之间的自动通译的设备的示意图。

图2是图示了图1的用于自动通译的设备中的用于韩文和中文之间的自动通译的方法的流程图。

图3是在语音翻译数据库中构建的示范数据。

具体实施方式

尽管已参考特定实施例描述了本发明，但是要理解的是，本领域技术人员可进行各种改变和修改，而不脱离所附权利要求及其等效定义的本发明的精神和范围。

贯穿本发明的描述，当描述某一技术被确定为规避(evade)本发明的点时，将省略相关详细描述。同时标号可用来描述各个组件，并且仅用来区分一个组件与另一组件。

当一个元件被描述为“连接”或“接入(accessed)”到另一元件时，其应被解释为直接连接或接入到另一元件，但是也可能在其间具有另一元件。

下面将参考附图来更详细地描述本发明的示范实施例，其中那些组件和相同或对应的组件具有相同附图标记，而不管图号，并且省略重复说明。

图1是用于韩文和中文之间的自动通译的设备的示意图。

参考图1，用于自动通译的设备包括输入单元10、语音识别单元20、通译单元30、说话声音生成单元40、输出单元50、翻译数据库60、和通译引擎70。

输入单元10接收源语言的说话声音。例如，输入单元10可通过麦克风接收韩文和中文之一的说话声音，或者通过文本输入模块来接收韩文和中文之一的文本语句。这里，输入单元10可将接收的语句直接传送到通译单元30。

语音识别单元20对于接收的源语言的说话声音执行语音识别，并生成语音识别语句。例如，语音识别单元20通过对于接收的源语言的说话声音执行信号处理来检测语音活动性(activity)，并然后提取用于语音活动性的语音特征。语音识别单元20基于语音数据库和语言数据库来建立声学(acoustic)模型、发音字典、语言模型，并形成全部集成在其中的认知网络。语音识别单元20可通过认知网络将提取的语音特征转换为语音识别文本语句，并将转换的语音识别文本语句通过输出单元50输出到用户屏幕。

例如，当发出语音(phonated)源语言的(其是韩文的你好)时，语音识别单元20生成要在用户屏幕上输出的语音识别语句。

通译单元30通过使用通译引擎70而将源语言的语音识别语句或输入的语句转换为目标语言的文本语句。

例如，当语音识别语句是(其是韩文的你好)时，通译单元30将(其是韩文的你好)通译为中文字符“你好”(其是中文的你好)。

说话声音生成单元40按照目标语言和源语言的每一个生成发音符号，用于对方国家中的用户通过使用语音翻译数据库60来再现或可视识别源语言的语音识别语句以及目标语言的文本语句。

例如，当语音识别语句是(其是韩文的你好)时，说话声音生成单元40生成如同“an-nyeong-ha-se-yo”的中文发音符号。当按照中文转换的文本语句是“你好”时，说话声音生成单元40生成“(其是韩文的Ni Hao)”的韩文发音符号。

语音翻译数据库60存储韩文翻译单词数据以将中文语句的说话声音抄写为韩文发音符号，并存储中文翻译单词数据以将韩文语句的说话声音抄写为中文发音符号。

例如，图3是在语音翻译数据库中构建的示范数据。下面将参考图3来说明语音翻译数据库60。

中文包括除了之外的非尾音音节，并特别具有四个声调以区分含义。这样的特征反映在语音翻译数据库60中构建的数据中。

将首先说明韩文翻译单词数据，来将中文语句的说话声音抄写为韩文发音符号。

拼音是用于将中文字符的发音抄写为中文罗马字母表的发音符号。例如，拼音是中文罗马字母表中抄写的发音符号，其包括[]中的作为中文重音(accents)的四个声调连同(其是韩文的你好)的中文字符，诸如，“你好[nǐhǎo]”。在四个声调中，第一声(“-”或“1”)开始于高并保持高而没有音高(pitch)的变化，第二声(“ˊ”或“2”)从中音高开始并前往高音高，第三声(或“3”)从中低音高开始、降到低音高并升至中高音高，而第四声(“ˋ”或“4”)开始于高并迅速降低到最低音高。中文可以不具有声调。

从中文发音字典和拼音表格中提取2,441个拼音集合，并且建立与每一集合对应的韩文翻译单词。中文发音字典提供中文词汇及其发音符号，诸如“你好/ni3 hao3”。这里，通过发音单元来划分中文词汇，并然后建立用于每一中文发音单元的韩文发音符号作为韩文翻译单词数据，诸如ni3/hao3/(其中是韩文的ni而是韩文的hao)。韩文发音符号也可包括中文语调(intonation)符号，被参考用于发音。

当发音中文“你好”时，通过中文g2p(字素到音素(grapheme to phoneme))转换数据库和认知网络基于中韩翻译单词数据在中文语音识别语句中生成“你好”，并且还同时通过中文发音字典生成“ni3 hao3”。此外，能通过使用中韩翻译单词数据(其中是韩文的ni而是韩文的hao)来生成说话声音的韩文发音符号这里，通过在中文发音字典中延伸拼音的一部分用于语音识别，来重构g2p转换数据库。

下面将说明将韩文语句的说话声音抄写为中文发音符号的中文翻译单词数据。

将韩文音节划分为首音、中间音和尾音，并然后通过韩文g2p转换数据库对其每一个进行转换以便建立韩中翻译单词数据。选择性使用拼音和罗马单词表抄本(transcript)的发音符号用于其中文翻译单词。

韩文的每一音节是3192，其中韩文包括19个首音、21个中间音、7个代表性尾音、以及其组合(包括不具有尾音的韩文，诸如 )。能根据韩文g2p转换规则来建立韩文g2p转换表格，诸如 /h a xn”、“/r o”。这里，g2p是音素单元的发音符号，其是将语音转换为文本的单元，并能够是用于创建发音字典的基础。实际上，在韩中翻译单词数据中使用韩文g2p单元。

在构造用于韩文音节的中文翻译单词数据时，组合罗马字母表抄本和拼音抄本。即，在罗马字母表抄本和拼音抄本的组合中抄写韩文音节之中的能用拼音表达的293种情形，但是在罗马字母表中抄写剩余2,899种情形。与韩文g2p对应的拼音的示例可以是“/h a xn/han"、“/r o/lo”。当难以发现拼音中的发音符号诸如“/g u xg/guk”时，将其抄写在罗马字母表中。韩中翻译单词数据可以例如是“h axn/han”、“r o/lo”、“g u xg/guk”的形式。

输出单元50包括显示模块和声音输出模块，并在屏幕上或通过语音输出源语言的语音识别语句、用于该语音识别语句的目标语言的发音符号、从该语音识别语句转换为目标语言的文本语句、以及用于转换的文本语句的源语言的发音符号。

例如，用于自动通译的设备能被应用到传统自动通译装置或被实现为诸如智能电话的移动终端的应用。

在S210中，用于自动通译的设备接收源语言的说话声音。例如，用于自动通译的设备通过麦克风接收韩文和中文之一的说话声音，或者通过输入单元10来接收韩文和中文之一的文本语句。

在S220中，用于自动通译的设备对于接收的源语言的说话声音执行语音识别，并生成语音识别语句。例如，用于自动通译的设备通过对于接收的源语言的说话声音执行信号处理来分离语音活动性，并然后提取用于语音活动性的语音特征。用于自动通译的设备基于语音数据库和语言数据库来建立声学模型、发音字典、语言模型等，并通过集成它们来生成认知网络。用于自动通译的设备通过认知网络将提取的语音特征转换为语音识别文本语句，并将转换的语音识别文本语句输出到用户的屏幕。当用于自动通译的设备通过文本输入模块接收韩文和中文之一的文本语句时，可省略步骤S220。

在S230中，用于自动通译的设备按照目标语言生成发音符号，用于对方国家中的用户来再现或可视识别源语言的语音识别语句，并通过用户的屏幕输出结果。例如，当语音识别语句为(其是韩文的你好)时，用于自动通译的设备能生成“(an-nyeong-ha-se-yo)”的中文发音符号。

在S240中，用于自动通译的设备将源语言的语音识别语句或接收的语句转换为目标语言的文本语句，并通过用户的屏幕输出结果。例如，当语音识别语句为(其是韩文的你好)时，用于自动通译的设备将(其是韩文的你好)转换为中文字符“你好”(其意味着中文的你好)。

在S250中，用于自动通译的设备按照源语言生成发音符号，用于对方国家中的用户来再现或可视识别按照目标语言转换的文本语句，并在用户的屏幕上输出结果。例如，当转换为中文的文本语句是“你好”时，用于自动通译的设备能生成的韩文发音符号。

本发明的示范实施例能通过实现计算机的方法来实现，或在计算机可运行指令中存储的非易失性计算机记录介质中实现。当所述指令由处理器运行时，所述指令能执行根据本发明的至少一个实施例的方法。计算机可读介质可包括程序指令、数据文件和数据结构或这些中一个或多个的组合。

计算机可读介质中记录的程序指令可被特别设计用于本发明，或在本领域一般已知可用于使用。计算机可读记录介质的示例包括被构造为存储和运行程序指令的硬件装置，例如磁介质(诸如硬盘、软盘、和磁带)、光介质(诸如CD-ROM和DVD)、以及磁光介质(诸如软盘、只读存储器(ROM)、随机存取存储器(RAM)、和闪存)。另外，上述介质可以是传输介质，诸如包括传送指定程序指令的信号和数据结构的载波的光、金属线和波导(waveguide)。程序指令可包括汇编器作出的机器代码、以及计算机可通过解释器运行的高级语言。

上述硬件装置可被构造以作为执行本发明的操作的一个或多个软件模块来操作，并且反之亦然。

尽管已参考特定实施例描述了本发明，但是本领域技术人员应理解的是，可进行各种修改和变型，而不脱离所附权利要求及其等效所限定的这里的实施例的精神和范围。因此，这里描述的示例仅用于说明，并且不存在限制本发明的意图。本发明的范围应通过以下权利要求来解释，并且应解释的是，与以下权利要求等效的所有精神落入本发明的范围中。

附图标记的描述

10：输入单元

30：通译单元

40：说话声音生成单元

50：输出单元

60：翻译数据库

70：通译引擎

Claims

1.一种用于自动通译的设备，包括：

输入单元，用于接收源语言的说话声音；

语音识别单元，用于通过对源语言的说话声音进行语音识别，来生成语音识别语句；

通译单元，用于将该语音识别语句转换为目标语言的文本语句；

说话声音生成单元，按照目标语言和源语言的每一个生成发音符号，用于对方国家中的用户通过使用语音翻译数据库来再现或可视识别所述语音识别语句以及所述目标语言的文本语句；和

输出单元，用于按照目标语言和源语言来输出所述语音识别语句、所述文本语句、和所述发音符号。

2.根据权利要求1的用于自动通译的设备，其中该输入单元通过麦克风接收韩文和中文之一的说话声音，或者通过文本输入模块来接收韩文和中文之一的文本语句。

3.根据权利要求1的用于自动通译的设备，其中该语音翻译数据库存储韩文翻译单词数据以将中文语句的说话声音抄写为韩文发音符号，并存储中文翻译单词数据以将韩文语句的说话声音抄写为中文发音符号。

4.根据权利要求1的用于自动通译的设备，其中该韩文翻译单词数据包括通过将拼音划分为发音单元、而与中文发音单元对应的韩文发音符号的映射信息，

其中所述拼音是中文罗马字母表中书写的发音符号，包括中文字符的发音的4个声调。

5.根据权利要求3的用于自动通译的设备，其中所述中文翻译单词数据将韩文音节划分为首音、中间音和尾音，并包括利用拼音或罗马字母表的发音符号映射的首音、中间音和尾音中的每一个的信息。

6.根据权利要求1的用于自动通译的设备，其中所述用于自动通译的设备在移动终端的应用中实现。

7.一种用于自动通译的方法，包括：

接收源语言的说话声音；

通过对源语言的说话声音进行语音识别，来生成语音识别语句并输出；

按照目标语言生成发音符号并输出，用于对方国家中的用户通过使用语音翻译数据库来再现或可视识别所述语音识别语句；

将所述语音识别语句转换为目标语言的文本语句，并输出结果；和

按照源语言生成发音符号并输出，用于对方国家中的用户通过使用语音翻译数据库来再现或可视识别所述目标语言的文本语句。

8.根据权利要求7的用于自动通译的方法，其中所述接收源语言的说话声音的步骤包括：

通过麦克风接收韩文和中文之一的说话声音；或

通过文本输入模块来接收韩文和中文之一的文本语句。

9.根据权利要求7的用于自动通译的方法，其中该语音翻译数据库存储韩文翻译单词数据以将中文语句的说话声音抄写为韩文发音符号，并存储中文翻译单词数据以将韩文语句的说话声音抄写为中文发音符号。

10.根据权利要求9的用于自动通译的方法，其中该韩文翻译单词数据包括通过将拼音划分为发音单元、而与中文发音单元对应的韩文发音符号的映射信息，

11.根据权利要求9的用于自动通译的方法，其中所述中文翻译单词数据将韩文音节划分为首音、中间音和尾音，并包括利用拼音或罗马字母表的发音符号映射的首音、中间音和尾音中的每一个的信息。