CN101115245A

CN101115245A - 具有语音识别及翻译功能的移动终端

Info

Publication number: CN101115245A
Application number: CNA2006100618442A
Authority: CN
Inventors: 陈修志
Original assignee: Individual
Current assignee: Individual
Priority date: 2006-07-25
Filing date: 2006-07-25
Publication date: 2008-01-30

Abstract

本发明涉及一种具有语音识别和翻译功能的移动终端，该移动终端包括：用于接收本地语音信息的语音接收单元；对本地语音信息进行识别的语音识别单元；用于存储翻译词库的存储单元；用于进行功能控制和数据处理的处理单元；用于显示信息的显示单元以及用于输出语音信息的语音输出单元；其中，处理单元根据语音识别单元所识别的语音基元从翻译词库中选出相似度大于预定阈值的本地文本信息，然后在翻译词库中检索相对应的目标文本信息并在显示单元上进行显示。通过采用上述结构，在移动终端上增加了对用户语音进行识别并实时翻译的功能，同时还可以对翻译结果通过显示或语音方式输出，方便、实用。

Description

具有语音识别及翻译功能的移动终端

【技术领域】

本发明涉及一种移动终端，尤其涉及一种具有语音识别及翻译功能的移动终端。

【背景技术】

随着科技和经济的不断发展，在日常生活和工作中人们需要与越来越多的不同国籍的人进行交流。然而由于语言的不通，不可避免地会造成交流困难的问题，不仅信息无法得到沟通，而且很可能会产生误解，给双方都带来了极大的不便。目前手机和PDA等移动终端由于其结构小巧、便于携带等优点，已经在人们日常生活中得到广泛使用。其中，许多移动终端中都集成语音识别系统和各种翻译字典，但是目前移动终端的语音识别系统仅限于用户进行电话查询以及控制指令的输入。而翻译字典需要用户手动输入自己想要查询的单词或句子，然后移动终端的处理单元从翻译字典中检索出与之相对应的单词或句子，因而目前的移动终端的翻译功能仅限于文字翻译，在实际的语音交流中根本无法起到很大的作用。另外，目前移动终端中所使用的语音识别系统的识别效果有限，特别当输入中文时，由于中文发音可能对应多个同音不同意的词条时，往往会造成识别错误。

【发明内容】

为了解决现有技术的目前的移动终端的翻译功能仅限于文字翻译，不适用于实际的语言交流的技术问题。本发明提出了一种能够对用户输入的语音信息进行语音识别并翻译的移动终端。此外，本发明进一步通过模糊识别方式为用户提供多个备选识别结果，进而提高翻译的准确度。

本发明解决现有技术的移动终端不具备备选功能，无法识别同音不同意的词条的技术问题所采用的技术方案是：提供一种具有语音识别和翻译功能的移动终端，移动终端包括：用于接收本地语音信息的语音接收单元；对本地语音信息进行识别的语音识别单元；用于存储翻译词库的存储单元；用于进行功能控制和数据处理的处理单元；用于显示信息的显示单元以及用于输出语音信息的语音输出单元，其中，处理单元根据语音识别单元所识别的语音基元从翻译词库中选出相似度大于预定阈值的本地文本信息，在翻译词库中检索相对应的目标文本信息并在显示单元上进行显示。

根据本发明一优选实施例，存储单元上进一步存储与目标文本信息相对应的图片，处理单元进一步在显示单元上显示图片。

根据本发明一优选实施例，存储单元中进一步存储与目标文本信息相对应的目标语音数据，移动终端进一步包括用于对目标语音数据进行处理并由语音输出单元进行输出的语音转换单元。

根据本发明一优选实施例，存储器中存储有多个备选翻译词库，中央处理单元从用户指定的备选翻译词库或多个备选翻译词库中进行检索。

根据本发明一优选实施例，多个备选翻译词库包括：按语言进行分类的备选翻译词库或者按交流场景进行分类的备选翻译词库。

根据本发明一优选实施例，移动终端进一步包括用于输入用户确认信息的用户输入界面，处理单元从翻译词库中选出相似度大于预定阈值的多个本地文本信息，并在显示单元上进行显示并等待用户确认。

根据本发明一优选实施例，移动终端进一步包括用于接收翻译词库或语音识别单元中的声学模型的数据接口。

根据本发明一优选实施例，数据接口为USB接口、蓝牙接口或红外接口。

根据本发明一优选实施例，数据接口为与存储翻译词库或声学模型的服务器通过移动通信网络进行连接无线通信模块。

根据本发明一优选实施例，数据接口进一步用于接收和发送目标文本信息。

上述技术方案的有益效果是：在移动终端上增加了对用户语音进行识别并实时翻译的功能，同时还可以对翻译结果通过显示或语音方式输出。此外，还根据用户的输入语音从存储器中识别出多个相关词条并由用户进行选择以增加翻译的准确性。存储器中还存储多个备选词库，以方便用户根据不同的语言环境选择相应的词库。

【附图说明】

图1是本发明的移动终端一实施例的示意框图；

图2是图1所示移动终端的工作流程图；

图3是本发明的移动终端另一实施例的示意框图。

【具体实施方式】

下面结合附图和实施例对本发明进一步说明。

参见图1和图2，图1是本发明的移动终端一实施例的示意框图，图2是图1所示的移动终端的工作流程图。在本实施例中，本发明的具有语音识别和翻译功能的移动终端1包括：用于接收本地语音信息的语音接收单元11；对本地语音信息进行识别的语音识别单元12；用于存储翻译词库的存储单元13；用于进行功能控制和数据处理的处理单元14；用于显示信息的显示单元15以及用于输出语音信息的语音输出单元16。

语音接收单元11(例如，麦克)接收用户的本地语音信息，语音识别单元12以本地语音信息的语音基元进行识别。在现有的语音命令输入及控制系统中一般以词为单位进行声学建模，但是由于在翻译过程中所涉及的词条较多，因而声学模型就会很大，不但占用大量的存储空间而且增加系统开销，并且在出现词表以外的词条后将无法识别。因而，本发明采用的语音基元优选采用音节、音素或声韵母。处理单元14将上述语音基元的识别结果或结果组合在存储单元13中存储的翻译词库中的本地文本信息中选出相似度大于预定阈值的本地文本信息，在显示单元15上进行显示并等待用户进行确认。其中，预定阈值可以根据实际情况进行变化，例如以音节为单位进行识别时，可以是用户输入的连续音节与本地文本信息的每个字相对应，或者至少一半以上相对应。用户通过语音指令或用户输入界面18的按键指令选择出适当的本地文本信息。处理单元12根据存储单元13内的翻译词库将所选择的本地文本信息翻译成相应的目标文本信息。在移动终端1的存储单元13内可以存储多种翻译映射词库，翻译词库可以是各种不同语言之间的翻译词库，例如，汉英文词库、英法词库或英德词库。翻译词库可以根据交流场景进行分类，旅游用语词库、商务用语词库、工程用语词库等，甚至可以将旅游用语词库进一步细化到交通、购物、娱乐等更小的词库。用户可以根据具体的语言环境通过选择适当的备选翻译词库来进行最恰当的翻译。处理单元14可以将目标文本信息在显示单元15上进行显示。存储单元13上进一步存储与目标文本信息相对应的图片，处理单元14进一步在显示单元15上显示图片，以方便对方理解。此外，存储单元13内进一步存储与目标文本信息相对应的目标语音数据，移动终端1还可以进一步包括将目标语音数据转换成语音信息的语音转换单元17，语音转换单元17将目标文本信息转换成语音信息并通过语音输出单元16输出。

使用时，用户首先根据自己的翻译需要确定所需的词库，然后对着移动终端1连续说出自己想要表达的短句，语音识别单元12以语音基元为单位对用户的本地语言信息进行识别，并分别从翻译词库中选择出与语音基元或语音基元组合相对应的本地文本信息(例如，单词或句子)并在显示单元15上显示，等待用户确认，并由移动终端1翻译成相应的目标文本信息，将其拼写显示在显示单元15上或进行语音播报，同时还可以显示与目标文本信息相对应的图片。而其他用户通过语音播报或查看显示单元15的显示内容理解用户想要表达的意思，并通过反向的翻译过程回答提问，进而实现互动翻译。在翻译过程中，由于出现备选内容，避免了由于同音不同意的字或词条所带来的翻译错误，保证了翻译的准确率。

参见图3，图3是本发明的移动终端另一实施例的示意框图。在本实施例中，移动终端2除设有语音输入单元21、语音识别单元22、存储单元23、显示单元24、处理单元25、语音转换单元26以及语音输出单元27外，还进一步设置数据接口28。数据接口28可以是网卡、USB接口、蓝牙接口或红外接口，用户可以通过电脑从网站上下载各种声学模型、翻译词库并通过USB接口、蓝牙接口或红外接口存储在存储单元23中，也可以通过网卡直接通过互联网从服务网站上下载。用户可以根据自己想要去的国家、想要交流的对象等实际需要进行下载，从而实现移动终端2的按需翻译。此外，数据接口28还可以是无线通信模块，该无线通信模块与存储翻译词库和声学模型的服务器通过移动通信网络进行连接并以无线上网的方式进行下载。另外，数据接口28可以通过各种传输协议与其他移动终端建立无线或有线连接，例如通过互联网、红外或蓝牙信号以及无线通信网络。采用这种联机方式将目标文本信息传递给对方，并对方通过短信方式显示或进行语音播报，因而无需将频繁地将移动终端递交到其他用户手中，可以使用户更方便地进行“对话”。

本发明移动终端的语音识别单元可以包括：针对特定人的语音识别系统或针对非特定人的语音识别系统。在针对特定人的语音识别系统中，用户需要事先对每一个词条进行训练。在训练阶段，用户每个词条依次说数遍，移动终端的语音识别单元提取词条的特征量，并将特征量按序列存入存储单元中。在识别阶段，语音识别单元将输入词条的特征量依次与存储单元中存储的每一个特征量进行相似度比较，将相似度大于预定阈值的词条作为识别结果输出。针对特定人的识别系统识别的词条数目一般在100条以下，识别性能随着词条数目的增加会有明显的下降，并且对于不同用户、在不同的噪声环境中，以及不同的时间相同用户的不同生理、心理状态下，系统的性能都会受到明显的影响。当采用针对非特定人的语音识别系统中，采用基于统计模型的算法，系统开发者事先采集大量的语音数据进行训练，得到声学模型并存储在存储单元中。在识别阶段，语音识别单元将用户的输入词条的特征量与通过声学模型构建的识别网络进行匹配解码，输出该词条。处理单元可根据语音识别单元输出的识别结果进行相应显示。非特定人语音识别系统对于用户而言，不需要引入繁琐的训练过程，方便了用户的使用；同时它可以供不同的人使用，因此大大拓宽了应用范围。另一方面，由于采用了基于统计模型的算法，其稳健性和识别性能都比特定人识别系统大大的提高。非特定人识别系统识别的词条数目可以达到1000条，识别性能不会随着识别词条数目的增加有明显的下降，并且具有一定的抗噪能力。

上述的详细描述仅是示范性描述，本领域技术人员在不脱离本发明所保护的范围和精神的情况下，可根据不同的实际需要设计出各种实施方式。

Claims

1.一种具有语音识别和翻译功能的移动终端，所述移动终端包括：用于接收本地语音信息的语音接收单元；对所述本地语音信息进行识别的语音识别单元；用于存储翻译词库的存储单元；用于进行功能控制和数据处理的处理单元；用于显示信息的显示单元以及用于输出语音信息的语音输出单元；其特征在于：所述处理单元根据所述语音识别单元所识别的语音基元从所述翻译词库中选出相似度大于预定阈值的本地文本信息，然后在所述翻译词库中检索相对应的目标文本信息并在所述显示单元上进行显示。

2.根据权利要求1所述的移动终端，其特征在于：所述存储单元上进一步存储与所述目标文本信息相对应的图片，所述处理单元进一步在所述显示单元上显示所述图片。

3.根据权利要求1所述的移动终端，其特征在于：所述存储单元中进一步存储与所述目标文本信息相对应的目标语音数据，所述移动终端进一步包括用于对所述目标语音数据进行处理并由所述语音输出单元进行输出的语音转换单元。

4.根据权利要求1所述的移动终端，其特征在于：所述存储器中存储有多个备选翻译词库，所述中央处理单元从用户指定的备选翻译词库或所述多个备选翻译词库中进行检索。

5.根据权利要求4所述的移动终端，其特征在于：所述多个备选翻译词库包括：按语言进行分类的备选翻译词库或者按交流场景及应用范围进行分类的备选翻译词库。

6.根据权利要求1所述的移动终端，其特征在于：所述移动终端进一步包括用于输入用户确认信息的用户输入界面，所述处理单元从所述翻译词库中选出相似度大于预定阈值的多个本地文本信息，并在所述显示单元上进行显示并等待用户确认。

7.根据权利要求1所述的移动终端，其特征在于：所述移动终端进一步包括用于接收所述翻译词库或所述语音识别单元中的声学模型的数据接口。

8.根据权利要求7所述的移动终端，其特征在于：所述数据接口为USB接口、蓝牙接口或红外接口。

9.根据权利要求7所述的移动终端，其特征在于：所述数据接口为与存储所述翻译词库或所述声学模型的服务器通过移动通信网络进行连接无线通信模块。

10.根据权利要求7所述的移动终端，其特征在于：所述数据接口进一步用于接收和发送所述目标文本信息。