CN201532762U

CN201532762U - 个人专用同声传译装置

Info

Publication number: CN201532762U
Application number: CN 200920081481
Authority: CN
Inventors: 郑郁正; 张�杰
Original assignee: Chengdu Information Technology Co Ltd of CAS
Current assignee: Chengdu University of Information Technology; Chengdu Information Technology Co Ltd of CAS
Priority date: 2009-06-04
Filing date: 2009-06-04
Publication date: 2010-07-21
Anticipated expiration: 2019-06-04

Abstract

一种个人专用同声传译装置，属针对个人同步翻译的智能装置，尤其适用于解决发音困难者的交流问题。其组成包括，信号采集单元：通过话筒或振动传感器方式采集人的声音信号，对于发声困难的人士可以采集其发声动作的振动信号；自动识别单元：接收信号采集单元输出的编码信号并通过模板样本的方法进行识别；输出单元：根据自动识别单元所识别的模式，可以通过语音合成方法合成语音显示输出或输出成为一种有规律的振动信号或输出成为盲文；控制单元：控制系统的信号采集、识别、输出；模板样本为可不断训练的特定人声音特征库，它能准确识别特定人的语音，尤其适用于残障人士的振动发声，并将转换为相应的标准语言加以输出。

Description

个人专用同声传译装置

技术领域

本实用新型涉及自动声音识别技术，特别是针对个人的同步翻译的智能装置，同时适用于非失声“哑巴”的同声传译。

背景技术

自动声音识别技术(Automatic Sound Recognition)的目标是让计算机或设备能够“听写”出人所说出的声音，以实现相应的自动处理功能。长期以来，自动声音识别技术主要针对健全人的语音识别，也就是自动语音识别(AutomaticSpeech Recognition简称“ASR”)很少涉及到残障人士的声音(或振动)的识别。利用自动声音(振动)识别技术可以帮助残障人士进行人工辅助发声。并且，利用该技术可以实现丰富的针对性同步传送翻译功能。

自动声音识别通常有以下几种分类方法，按系统的用户情况分：特定人和非特定人识别系统；按系统词汇量分：小词汇量、中词汇量和大词汇量系统；按声音的输入方式分：孤立词、连接词、连续语音系统等。

目前，自动声音识别技术的发展，一方面向着非特定人大词汇量连续语音识别方向进行，可以使得普通人能够方便的进行语音的识别和处理；另一方面对特定人的识别，特殊声音的识别处理也成为了重要的发展方向。

实用新型内容

本实用新型的目的是提供一种专用于残障人士声音或振动识别的个人专用同声传译装置。

本新型的目的是这样实现的：一种个人专用同声传译装置，包括，控制单元：控制系统的信号采集、识别、输出；还具有：

信号采集单元：与自动识别单元和输出单元连接，通过话筒或振动传感器方式采集人的声音信号，对于发声困难的人士可以采集其发声动作的振动信号，并将该声音信号或振动信号编码后输出；

自动识别单元：接收信号采集单元输出的编码信号并通过模板样本的比对方法进行识别，该模板样本为可不断训练的特定人声音特征库；

输出单元：根据自动识别单元所识别的模式，可以通过语音合成方法合成语音显示输出或输出成为一种有规律的振动信号或输出成为盲文；

上述输出单元由TTS芯片OSYN6188组成；上述信号采集单元由WM8731声音编码/解码芯片以及FPGA EP2S15芯片组成，且前者的输出信号经A/D转换器接至后者输入端，后者的输出信号回送至前者的输入端，同时输出到由TTS芯片OSYNO6188组成的输出单元。

对于有语音残障的人来说，其无法发出正常的语音，所以语音识别不可能用于语音残障人的声音的识别。我国的俗语“十聋九哑”，“哑”的实质是“聋”，聋哑者其发音及构成语音器官一般多属正常，只是长期听不到声音，最终造成不能发出正确语音。

实际上每个人只要能发出声音，每个声音都有属于其个人的声音特征，代表其特定的意义，如果听者没有相同的语音体系时，就无法听懂该声音的意义；就象我们听不懂某些地方口音一样。从训练动物的经验来说，通常能听到语音的动物能理解主人的声音意义，但一般无法理解非主人的声音。本专利技术实现的智能电子设备，就象一条训练有素的狗，能自动准确识别所属个人的声音，只要该设备所有人能发出声音即可。设备所有人将终身训练该智能设备，经过专人训练的设备不能为他人所用。

利用自动声音识别技术，不管语音是否正常，只要能发出电子设备能“听”到的不同声音，或者通过其它信号检测技术“听”到说话者的信号，即可准确识别声音的意义，在此基础上再结合语音合成技术，就可以实现针对性同步传送翻译功能。这样也就解决了那些可发声“哑巴”说话的问题。

本发明人针对特定人的声音识别，其识别率、安全性等方面都优于非特定人的声音识别；同时声音识别的范畴也广于语音识别，使得不能正常进行语言交流的人群，利用特定人的声音振动转换为相应的标准语音输出成为可能。

该技术的典型应用，可以用于发音障碍人士的辅助发声。通过训练，只要发出有规律的声音(不是语音)或者仅仅是一种振动，将该模式的振动与想要输出的文字联系起来，在使用时只要再次作出同样的发声动作，就可以利用该技术识别出来，并且把定义好的文字采用TTS技术用机器合成语音进行播放。也可以采用其它方式进行输出，同时训练是自定义的，因此可以根据需要定义出训练者的具体含意。

本实用新型具有以下特点：

1、直接或间接采集说话人的声音信号。如果是先天性哑巴、发音障碍人士，则通过面部耳骨或喉咙处检测振荡信号，而不需要真正采集声带发声。该设备扩展后，可以检测任何模式的振动信号，从而实现有规律的振动信号转化为设定语音的目的，使人能利用机器进行任意的辅助发声。

2、采用数字信号处理技术，过滤非设备持有人的信号，针对性的提取所有人的声音特征信号。

3、与设备内训练好的个人声音特征库进行匹配，输出个人指定的语音信号，包含其它语言的输出、指定声音的输出等功能。

4、对于听力障碍人士，可以通过耳机输出足够的音量，或者转换为低频率的机械振动，来刺激设备持有人，达到训练听觉或实现辅助听觉设备的作用。

5、此设备为个人专用，设备经过训练后，只听译持有人的信号，对未经训练的第二人使用无效。

6、具有译字译句的功能，方便的中/英机器发声系统。

7、设备具有智能训练功能，可以根据需要进行随时的添加、删除、修改机器识别模式、输出模式等功能。

8、配有触摸式液晶屏，操作方便。

9、该专利变形后可以嵌入各种电子应用设备中。

本实用新型的有益效果是：

当前的语音识别技术都追求通用性，希望能识别所有人的语音，做到一机多人使用。而本专利正好相反，尽最大可能，一机专用，它使得不能正常进行语言交流的人群，利用特定人的声音振动转换为相应的标准语音输出成为可能，同时能在很差的背景噪声中使用，以更高的识别准确率满足专人使用的要求。

附图说明

图1是本新型系统工作原理框图；

图2是本新型系统结构图；

图3是图2所示一个实施例的结构框图。

具体实施方式

本实用新型主要包含了以下关键部分：声音或振动信号的采集，采集信号的自动识别，采集到的信号的翻译输出；涉及到主要技术有：声音特征的提取(采用小波特征)、自动识别、TTS(Text-To-Speech)技术自动合成人工语音。

图1示出，系统组成：

(1)信号采集单元：与自动识别单元和输出单元连接，采用话筒(或振动传感器)采集人的声音信号，对于发声困难的人士可以采集其发声动作的振动信号并将该声音信号或振动信号编码后输出；

(2)自动识别单元：接收信号采集单元输出的编码信号并通过模板样本的比对方法进行识别；识别特定人的发声模式特征与特征库(即可不断训练的特定人声音特征库，并以之作为模板样本)中的样本比较，识别出相应的发声动作，该设备针对个人专用，在使用中可以不断加入个人新的模式，使得功能不断丰富扩大；

(3)输出单元：根据自动识别单元所识别的模式，由预先(训练时)定义好的方式进行输出，可以通过人工合成方法合成语音或显示输出或输出成为一种有规律的振动信号或输出成为盲文；

(4)控制单元：控制系统的信号采集、使用、识别、训练、输出等。

图3示出，信号采集单元由欧胜微电子公司的WM8731声音编码/解码芯片以及FPGA EP2S15芯片组成(可扩展使用其它型号的FPGA)，前者的输出信号经A/D转换器接至后者输入端，后者的输出信号回送至前者的输入端，同时输出到由TTS芯片OSYNO6188组成的输出单元，话筒声音输入经WM8731的A/D转换编码后，传入FPGA处理和识别，处理结果编码分两路输出，其一回送WM8731解码，其二经TTS输出；输出单元由北京宇音天下科技有限公司的TTS芯片OSYNO6188组成，可不断训练的特定人声音特征库为SD卡。

话筒型号为CNS-EJ18E，其麦克风检得的电信号连接WM8731的输入，而其耳机接TTS芯片OSYNO6188的输出。

SD存储卡与FPGA EP2S15连接，经FPGA训练的特定人声音特征库编码输出连接到SD的输入端，而SD的输出信号连接到FPGA输入。

SDRAM与FPGA以计算机总线方式连接，组成智能SOPC系统。

SD卡可采用金士顿SD卡(2G)。话筒和耳机采用南京赤那思科技实业有限公司的高性能耳骨耳机和麦克风，可扩展使用其它型号的耳骨、或喉骨麦克风；SDRAM型号为IS42S16400；可编程逻辑芯片FPGA型号：Altera StratixII EP2S15(实现快速小波特征提取和模式识别)。

在当前计算机技术的情况，处理声音所需的大容量半导体存储器和高速微处理器的产品价格已经可以被大众接授，同时语音识别技术日益成熟，为个人专用同声传译设备得以实现打下了坚实的基础。实际应用中，空间各种声波的干扰是影响声音识别正确率的最大因素，为了解决空间各种杂音的干扰，我们选择声音骨传导的技术方案，通过喉骨或耳骨话筒，高保真检测获取专用人的话音信号，再利用FPGA中灵活的SOPC技术(也可以采用低价位的高速处理器)，高速处理识别声音信号，模式匹配得到正确的结果(与训练一致)，然后通过四种方式输出。第一种通过显示屏同时显示拼音和文字；第二种以TTS技术合成语音，通过骨导耳机反馈给本人，以便训练聋哑人的听力(将声波翻译成皮肤能够感受到的震动，人工耳蜗要5万)；第三种将TTS合成的语音通过扬声器输出给对方接听；第四种将识别结果，以数据通信方式发送给接收方。

系统操作要点：

系统操作分两部分：训练和识别。训练时可根据需要随时进行添加、删除、更改模式；识别时，只需要按自己定义的模式进行发生动作系统即可匹配出最佳的结果，根据训练的设定进行相应的输出。

几点技术说明：

1)、特征提取采用的特征为声音的小波特征，根据技术的发展也可采用其它特征代替；

2)、识别部分采用薄命样本匹配的方法，根据需要也可采用其它的识别算法和方法；

3)、输出部分可以根据需要加入其它输出方式。

Claims

1.一种个人专用同声传译装置，包括，控制单元：控制系统的信号采集、识别、输出；其特征是，还具有：