CN105913845A

CN105913845A - 一种移动终端识别语音生成字幕的方法、系统及移动终端

Info

Publication number: CN105913845A
Application number: CN201610263142.6A
Authority: CN
Inventors: 邹阿林
Original assignee: Huizhou TCL Mobile Communication Co Ltd
Current assignee: Huizhou TCL Mobile Communication Co Ltd
Priority date: 2016-04-26
Filing date: 2016-04-26
Publication date: 2016-08-31

Abstract

本发明公开了一种移动终端识别语音生成字幕的方法、系统及移动终端，其中，方法包括：预先在移动终端中安装本地语音库；移动终端麦克风获取当前视频或歌曲的语音输入；在移动终端本地解析当前视频或歌曲中输入的语音、获取对应的语音特征；利用本地语音库将所获取的语音特征生成对应的文字，并将生成的文字同步显示在视频或歌曲界面上。本发明使用语音识别技术，结合语音库的大数据将采样输入视频或者歌曲的声音，翻译成用户需要的语种字幕，能达到快速地捕捉声音输入，快速地解析和生成字幕，方便用户学习、沟通交流和娱乐目的。

Description

一种移动终端识别语音生成字幕的方法、系统及移动终端

技术领域

本发明涉及语音识别技术领域，尤其涉及一种移动终端识别语音生成字幕的方法、系统及移动终端。

背景技术

近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。预计在未来十年内，语音识别技术将全面进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个应用领域。在目前，语音识别应用，对于在网页应用或者在输入法中、或者在导航软件、各类APP中，都呈现出迅速发展的趋势，尤其是苹果手机系统里面的Siri智能语音助手更是将语音识别和语意合成技术推向一个新的高度。

目前语音识别技术更多的应用在APP或者浏览器等的语音输入转成文字方面。然而，在视频或者歌曲的语音输入应用上，语音识别应用技术较为落后。譬如，为方便学习和沟通交流，用户常常需观看视频或者收听歌曲，一般用户不熟练其它外语，常常受语言限制，不能体会到视频或者歌曲中语义的真实意境和涵义，为用户带来不便。

有鉴于此，现有技术有待改进和提高。

发明内容

鉴于现有技术的不足，本发明目的在于提供一种移动终端识别语音生成字幕的方法、系统及移动终端。本发明将移动终端的语音识别技术利用在视频或者歌曲应用上，并采用本地语音库或网络语音库解析、自动生成相应的字幕，方便用户学习和沟通交流。

本发明的技术方案如下：

一种移动终端识别语音生成字幕的方法，其中，包括以下步骤：

S1、预先在移动终端中安装本地语音库；

S2、移动终端麦克风获取当前视频或歌曲的语音输入；

S3、在移动终端本地解析当前视频或歌曲中输入的语音、获取对应的语音特征；

S4、利用本地语音库将所获取的语音特征生成对应的文字，并将生成的文字同步显示在视频或歌曲界面上。

所述的移动终端识别语音生成字幕的方法，其中，所述步骤S1还包括：

S11、将移动终端联网到网络语音库。

所述的移动终端识别语音生成字幕的方法，其中，所述步骤S3还包括：

S31、移动终端将当前视频或歌曲中输入的语音联网上传至网络语音库，解析获得对应的语音特征。

所述的移动终端识别语音生成字幕的方法，其中，所述步骤S4还包括：

S41、利用网络语音库将解析获取的语音特征生成对应的文字，将生成的文字发送至移动终端、并同步显示在视频或歌曲界面上。

所述的移动终端识别语音生成字幕的方法，其中，所述本地语音库或网络语音库为语音、文字和语意均相适应的数据库；所述网络语音库为Neospeech语音库、科大讯飞语音库或Nuance语音库。

本发明还提供一种移动终端识别语音生成字幕的系统，其中，包括：

本地语音库安装模块、用于预先在移动终端中安装本地语音库；

语音获取模块、用于移动终端麦克风获取当前视频或歌曲的语音输入；

语音特征本地解析模块、用于在移动终端本地解析当前视频或歌曲中输入的语音、获取对应的语音特征；

第一字幕生成与显示模块、用于利用本地语音库将所获取的语音特征生成对应的文字，并将生成的文字同步显示在视频或歌曲界面上。

所述的移动终端识别语音生成字幕的系统，其中，所述系统还包括：

联网模块、用于将移动终端联网到网络语音库。

语音特征网络解析模块、用于移动终端将当前视频或歌曲中输入的语音联网上传至网络语音库，解析获得对应的语音特征。

第二字幕生成与显示模块、用于利用网络语音库将解析获取的语音特征生成对应的文字，将生成的文字发送至移动终端、并同步显示在视频或歌曲界面上。

所述的移动终端识别语音生成字幕的系统，其中，所述本地语音库或网络语音库为语音、文字和语意均相适应的数据库；所述网络语音库为Neospeech语音库、科大讯飞语音库或Nuance语音库。

本发明还提供一种移动终端，其中，包括上述任一项的识别语音生成字幕的系统。

有益效果：本申请的一种移动终端识别语音生成字幕的方法、系统及移动终端，采用移动终端的MIC采集视频或歌曲的语音输入，然后通过本地或联网的语音库解析语音，从而将语音对应的文字显示在视频或歌曲的显示界面上形成字幕，本发明使用语音识别技术，结合语音库的大数据将采样输入视频或者歌曲的声音，翻译成用户需要的语种字幕，能达到快速地捕捉声音输入，快速地解析和生成字幕，方便用户学习，沟通交流和娱乐目的。

附图说明

图1为本发明一种移动终端识别语音生成字幕的方法较佳实施例的流程图。

图2为本发明一种移动终端识别语音生成字幕的系统较佳实施例的模块框图。

具体实施方式

本发明提供一种移动终端识别语音生成字幕的方法、系统及移动终端，为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

日常生活中，或多或少都会出现以下情况：如在观看外文视频中，很多视频都是没有字幕的，譬如一些国外网站上的公开课程；或者观看精彩的日本动漫；又或者在网上收听的外文歌曲只有音乐没有相应的字幕。只接听得到声音而不知道声音所代表的真实意思，很是让观看者苦恼。本发明提供一种移动终端识别语音生成字幕的方法，请参阅图1，所述识别语音生成字幕的方法包括以下步骤：

S1、预先在移动终端中安装本地语音库。

本发明具体实施时，移动终端以手机为例进行说明，当然，移动终端可以为手机、平板、笔记本电脑或者其它移动设备。移动终端中设置有采集语音信息的麦克风或者其它语音采集装置。本发明还预先在移动终端中安装本地语音库，各类语音库可以从网上下载，譬如Neospeech、科大讯飞或Nuance提供用户下载的语音库。具体地，所述本地安装的语音库为包含语音、文字和语意均相适应的数据库；在语音库中通过输入的语音，能根据具体语境、语竟，查找到相应的文字组成通顺的语句，与输入的语音相适应。所述语音库还可以按类别区分下载安装到本地，如美音语音库、日语语音库、法语语音库、电影语音库等，可根据采集的视频及歌曲的语音输入类型，由移动终端自动选择或由用户手动选择相适应的语音库，解析输入的语音信息，譬如，若当前手机播放的视频为法语语音视频，则用户可手动选择手机安装的法语语音库作为解析语音的数据库，从而提高语音转化成文字的速度。

本发明在具体实施时，还可以将移动终端联网到网络语音库。因而，移动终端能实时地将用麦克风采集到的当前视频或者歌曲的语音，实时通过网络传输到网络语音库中解析，并在语音库中查找相对的词名、以生成语义相适应的文字。通过网络语音库，能搜索到更多类型的语音库，方便针对不同类型的语音输入进行及时解析；在网络语音库中其数据量不似本地语音库，受移动终端内存限制，因而使用网络语音库可提高将视频或歌曲中的语音转化成字幕的准确率，也同时加快了同步生成字幕的速度。具体地，本发明所述的网络语音库可以为Neospeech语音库、科大讯飞语音库或Nuance语音库等，譬如，无论是国外的Nuance还是国内的科大讯飞，它们提供的联网语音库都非常强大，能满足本发明解析生成字幕需要。

进一步地，可以同时在移动终端本地安装语音库，也将移动终端联网网络语音库，在播放视频或歌曲时，先搜索本地语音库，在未找到区配类型的语音库时，如正在播放的为法语电影，然而本地没有安装法语语音库，则能及时联网网络上的法语语音库，及时获取与语音相适应的字幕。

S2、移动终端麦克风获取当前视频或歌曲的语音输入。譬如，移动终端通过自带的麦克风获取当前播放视频或歌曲的语音输入，当然，也可以采用其它设置于移动终端中的语音采集装置。

S3、在移动终端本地解析当前视频或歌曲中输入的语音、获取对应的语音特征。

当将语音库下载安装到移动终端本地时，则通过在移动终端本地解析当前视频或歌曲中输入的语音、获取对应的语音特征。当然，当移动终端联网网络语音库时，移动终端将当前视频或歌曲中输入的语音联网上传至网络语音库，解析获得对应的语音特征。

本发明所述的语音特征可以为区别性语音特征，譬如，语音里的音位互相对立，从而使语素和词的语音形式和意义能够彼此区别开来。音位的这种相互对立和区别，如果进一步加以分析，是通过几个语音特征来实现的。比如汉语普通话中的/p/音位通过“双唇”这个特征和非双唇音区别开来，通过“清音”这个特征和浊音区别开来，通过“塞音”这个特征和擦音、鼻音、边音、闪音、颤音等区别开来，通过“不送气”这个特征和送气音区别开来，这些特征加合起来就能把/p/音位和汉语普通话中的所有其它音位相区别。这种具有区别音位作用的语音特征就是区别性语音特征。语音中的每一个音位都可以分解成几个区别特征，音位之间的对立可以进一步分解成区别特征之间的对立，这样就可以判断音位的变异功能归根到底是由区别性语音特征承担的。

当将语音库下载安装到移动终端本地时，利用本地语音库将所获取的语音特征生成对应的文字，并结合语音库中的语意，并将生成的文字同步显示在视频或歌曲界面上，形成供用户观看的字幕，这样用户就能直接查看同步的字幕了解视频或歌曲所表达的意思。进一步地，当移动终端联网网络语音库时，则利用网络语音库将解析获取的语音特征生成对应的文字，将生成的文字发送至移动终端、并同步显示在视频或歌曲界面上。譬如用户观看无任何字幕的日本动漫，用户不需要懂得日语，只要在播放动漫过程中将播放的语音解析生成文字，就能在视频界面生成字幕，因而用户观看动漫，即使听不明所播放的日语，也能根据字幕了解剧情等信息，为观看者提供方便。

本发明采用移动终端的MIC采集视频或歌曲的语音输入，然后通过本地或联网的语音库解析语音，从而将语音对应的文字显示在视频或歌曲的显示界面上形成字幕，为用户提供便利，使用户观看视频或收听歌曲，了解语义毫无障碍。

进一步地，本发明还提供一种移动终端识别语音生成字幕的系统，如图2所示，包括：

本地语音库安装模块110、用于预先在移动终端中安装本地语音库；具体如上述方法实施例所述。

语音获取模块120、用于移动终端麦克风获取当前视频或歌曲的语音输入；具体如上述方法实施例所述。

语音特征本地解析模块130、用于在移动终端本地解析当前视频或歌曲中输入的语音、获取对应的语音特征；具体如上述方法实施例所述。

第一字幕生成与显示模块140、用于利用本地语音库将所获取的语音特征生成对应的文字，并将生成的文字同步显示在视频或歌曲界面上。具体如上述方法实施例所述。

进一步地，所述系统还包括：

联网模块1101、用于将移动终端联网到网络语音库。具体如上述方法实施例所述。具体如上述方法实施例所述。

进一步地，所述系统还包括：

语音特征网络解析模块1301、用于移动终端将当前视频或歌曲中输入的语音联网上传至网络语音库，解析获得对应的语音特征。具体如上述方法实施例所述。

进一步地，所述系统还可以包括：

第二字幕生成与显示模块1401、用于利用网络语音库将解析获取的语音特征生成对应的文字，将生成的文字发送至移动终端、并同步显示在视频或歌曲界面上；具体如上述方法实施例所述。

本系统具体实施时，所述本地语音库或网络语音库为语音、文字和语意均相适应的数据库；所述网络语音库为Neospeech语音库、科大讯飞语音库或Nuance语音库。具体如上述方法实施例所述。

本发明还提供一种移动终端，包括上述任一项所述系统。

综上所述，本发明提供的一种移动终端识别语音生成字幕的方法、系统及移动终端，采用移动终端的MIC采集视频或歌曲的语音输入，然后通过本地或联网的语音库解析语音，从而将语音对应的文字显示在视频或歌曲的显示界面上形成字幕，本发明使用语音识别技术，结合语音库的大数据将采样输入视频或者歌曲的声音，翻译成用户需要的语种字幕，能达到快速地捕捉声音输入，快速地解析和生成字幕，方便用户学习，沟通交流和娱乐目的。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种移动终端识别语音生成字幕的方法，其特征在于，包括以下步骤：

S1、预先在移动终端中安装本地语音库；

S2、移动终端麦克风获取当前视频或歌曲的语音输入；

2.根据权利要求1所述的移动终端识别语音生成字幕的方法，其特征在于，所述步骤S1还包括：

S11、将移动终端联网到网络语音库。

3.根据权利要求2所述的移动终端识别语音生成字幕的方法，其特征在于，所述步骤S3还包括：

4.根据权利要求2所述的移动终端识别语音生成字幕的方法，其特征在于，所述步骤S4还包括：

5.根据权利要求1所述的移动终端识别语音生成字幕的方法，其特征在于，所述本地语音库或网络语音库为语音、文字和语意均相适应的数据库；所述网络语音库为Neospeech语音库、科大讯飞语音库或Nuance语音库。

6.一种移动终端识别语音生成字幕的系统，其特征在于，包括：

7.根据权利要求6所述的移动终端识别语音生成字幕的系统，其特征在于，所述系统还包括：

联网模块、用于将移动终端联网到网络语音库。

8.根据权利要求7所述的移动终端识别语音生成字幕的系统，其特征在于，所述系统还包括：

9.根据权利要求7所述的移动终端识别语音生成字幕的系统，其特征在于，所述系统还包括：

第二字幕生成与显示模块、用于利用网络语音库将解析获取的语音特征生成对应的文字，将生成的文字发送至移动终端、并同步显示在视频或歌曲界面上；

所述本地语音库或网络语音库为语音、文字和语意均相适应的数据库；所述网络语音库为Neospeech语音库、科大讯飞语音库或Nuance语音库。

10.一种移动终端，其特征在于，包括如权利要求6~9所述任一项的识别语音生成字幕的系统。