CN108366305A

CN108366305A - 一种不带字幕的码流通过语音识别显示字幕的方法及系统

Info

Publication number: CN108366305A
Application number: CN201810123157.1A
Authority: CN
Inventors: 廖佳秋; 王小艳; 邱国苗; 何志鹏
Original assignee: Shenzhen Jiali Extension Technology Co Ltd
Current assignee: Shenzhen Jiali Extension Technology Co Ltd
Priority date: 2018-02-07
Filing date: 2018-02-07
Publication date: 2018-08-03

Abstract

本发明公开了一种不带字幕的码流通过语音识别显示字幕的方法及系统。本发明可以实现根据用户在节目语言设置界面设置好语言，并且传送命令给机顶盒，机顶盒再自动的根据语音识别设备进行监听节目，把一些不带字幕的节目源识别出来，并且按照预先设置好的节目语言用转码器转化成对应的文字形式，显示在当前播放节目的上面，便于一些有听说障碍的用户对当前播放节目内容的理解，也便于用户在一些喧嚣的场所中更加容易理解节目的内容。省去人机交流的繁琐的语音操作，机顶盒自动的更新节目字幕给用户。界面设计比较友好，能提供节目语言设置界面给用户，效果能满足用户的需求。其智能化程度高、操作方便、设计人性化、使用效果好。

Description

一种不带字幕的码流通过语音识别显示字幕的方法及系统

技术领域

本发明涉及广播电视技术领域，尤其涉及一种不带字幕的码流通过语音识别显示字幕的方法及系统。

背景技术

随着数字电视机的日益普及，除了传统的电视节目外，通过利用先进的数字电视技术为广大用户提供更多的信息服务，是广播电视事业发展的必然趋势。

字幕(subtitle)作为一种简便而直观的信息提供途径，其重要性主要体现在两个方面。一是字幕可以为听力有障碍的人提供另一个"语音"信息途径；二是字幕功能可以通过简单的后期制作(如多语言显示)，配合电视节目的全球化推广提供便捷的平台；三是在一些喧闹的场景，也便于用户理解所观看节目的内容。但是对于不带字幕的码流，目前机顶盒还没有集成某种功能去显示字幕。

在机顶盒的技术领域中，已经集成了语音识别技术，这种技术大多数属于人机操作技术，必须通过用户来命令，语音设备进行识别，最后机顶盒响应命令。从操作角度来说，步骤还是有点繁琐的。另外，从用户角度来说这种传统的语音识别技术还是不能满足一些特殊的的用户需求。比如一些听说有障碍的用户。

针对以上的背景，特此开发出一种不带字幕的码流通过语音识别显示出来的技术，此技术能有效的解决了以上问题，是电视用户急需的一种数字电视技术。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是提供一种不带字幕的码流通过语音识别显示字幕的方法及系统，帮助用户更方便更清楚的知道节目的内容，真正的普及到所有的用户。并且设计出友好的选择节目语言界面，提供给用户多语言方面的支持，是语音识别技术在机顶盒上的一次创新和发展。

为实现上述目的，本发明提供了一种不带字幕的码流通过语音识别显示字幕的方法，包括以下步骤：

步骤1、在机顶盒系统中建立一个语言数据库，并且根据各国的语言代码进行初始化，以供用户对节目的语言需求做出响应；

步骤2、在机顶盒系统中建立一个语音数据库，并且根据预制的语音辨识程序组进行初始化，以供辨别出最准确的语音；

步骤3、不带字幕的码流传送至机顶盒CPU处理，机顶盒解析出音频数据，并经播放器播放；

步骤4、语音识别子系统的降噪声模块对机顶盒CPU处理后的音频数据进行降噪声处理，然后经语音识别模块语音识别处理之后，再通过语言解码模块进行语言转码转化成用户需要的文本数据；

步骤5、根据语言解码模块转化的文本数据，叠加字幕在当前播放节目的画面上，利用OSD(On-Screen Display)即屏幕菜单式调节方式的界面显示技术来显示字幕，字幕位置属性是动态的，由实时的文本数据长度决定。

进一步地，所述步骤1具体为：在字幕语言选择中选择要显示的字幕的语言，并且保存到机顶盒的固态存储器；根据用户输入的字幕语言，从预先定义的语言数据库中匹配出相同的语言，以供字幕的语言文字显示。

进一步地，所述步骤2具体为：在机顶盒系统里面合入语音辨别的程序组，机顶盒预制一些语音信息，提取语音模板，最后将语音信息保存到语音数据库中。

进一步地，所述步骤4具体为：

(1)降噪声模块将机顶盒收集到的音频数据送到降噪声模块进行去除噪声处理，通过滤波减弱、消除信号中噪声信号的频谱成分，增强信号的信噪比，然后传送给语音识别模块；

(2)语音识别模块对降噪声模块处理后的音频数据进行识别，并把识别出的数据保存到机顶盒的存储模块中，通过与之前步骤2中创建的语音数据库中的数据进行比较，匹配出最准确的音频数据；

(3)音频数据经过语音识别处理之后，识别出来的结果传送至机顶盒保存起来，然后根据步骤1所示的方法匹配出语言类型，然后根据这种语言类型来进行语言转码，转出对应的文本数据。

进一步地，所述步骤5具体为：

(1)先得到获取到数据的时间信息，并通过这个时间信息与音频同步，在每次解析完之后，显示模块创建相关的OSD区域，分配内存空间，把解析完的数据连同该数据要显示的时间PTS送到显示缓冲区，根据当前系统时钟和存储的PTS创建一个定时器，如果显示时间已经超过了系统时间，那么显示缓冲区的数据就要清空掉；反之，当显示时间到的时候，定时器被触发，显示内容输出到OSD缓冲区，并结合显示持续时间来进行字幕的显示；

(2)字幕的显示位置属性是由实时的文本数据长度决定的，始终根据文本数据的长度来设置字幕图层显示的位置，通过设置了一个动态的坐标值来实现，设定字幕的显示坐标为(X，Y，W，H)(X是横坐标，Y是纵坐标，W是字幕长度，H是字幕高度)，屏幕的尺寸宽度是OSD SCREEN MAX WIDTH，文本数据的长度为SCREEN_WIDTH，那么字幕显示的横坐标是X＝(OSD_SCREEN_MAX_WIDTH-SCREEN_WIDTH)>>1。

一种不带字幕的码流通过语音识别显示字幕的系统，包括：

机顶盒主板，包括CPU和与CPU相连接的交互模块、存储模块；

语音识别子系统，包括降噪声模块和与降噪声模块输出端连接的语音识别模块；

显示终端，包括语言解码模块和与语言解码模块输出端连接的显示模块；

所述信号传输模块输出端连接CPU，所述CPU输出端连接降噪声模块，所述语音识别模块输出端连接语言解码模块；其中：

信号传输模块，用于传输数字音频数据到CPU；

CPU，用于处理和更新音频数据；

交互模块，用于与系统进行交互，包括建立语言数据库、建立语音数据库、字幕语言设置；

存储模块，用于存储音频数据和字幕语言；

降噪声模块，用于通过滤波减弱、消除音频数据中噪声信号的频谱成分，增强信号的信噪比；

语音识别模块，对降噪声模块处理后的音频数据进行识别，并把识别出的数据保存到机顶盒的存储模块中；

语言解码模块，用于按照用户的字幕语言设置来进行语言转码，转出对应的文本数据。

进一步地，所述存储模块为FLASH存储器。

进一步地，所述降噪声模块为数字滤波器。

进一步地，所述交互模块为遥控器或者触摸屏。

进一步地，所述显示终端为液晶显示屏或者电视机。

本发明的有益效果是：

本发明可以实现根据用户在节目语言设置界面设置好语言，并且传送命令给机顶盒，机顶盒再自动的根据语音识别设备进行监听节目，把一些不带字幕的节目源识别出来，并且按照预先设置好的节目语言用转码器转化成对应的文字形式，显示在当前播放节目的上面，便于一些有听说障碍的用户对当前播放节目内容的理解，也便于用户在一些喧嚣的场所中更加容易理解节目的内容。其智能化程度高、操作方便、设计人性化、使用效果好。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的方法流程图。

图2是本发明的系统结构框图。

图3是本发明的语音识别流程图。

图4是本发明的字幕显示流程图。

具体实施方式

如图1所示，本发明提供了一种不带字幕的码流通过语音识别技术显示字幕的方法和系统，主要由机顶盒、语音识别子系统组成。语音识别子系统包括降噪声模块和语音识别模块。过程包括:机顶盒把不带字幕的码流的音频解析出来，并通过电视播放声音；用户对节目的字幕语言进行设置，机顶盒对用户设置语言的需求响应；语音识别子系统对音频数据进行去噪声处理识别出来，通过语言解码转化成用户需求的语言文字信息；最后将文字信息以叠加方式显示在当前播放节目的画面上。

本发明的一种不带字幕的码流通过语音识别显示字幕的方法，包括步骤：

步骤1、在系统中建立一个语言数据库，并且根据各国的语言代码进行初始化，以供用户对节目的语言需求做出响应，包括：

用户在字幕(Subtitle)语言选择中选择要显示的字幕的语言，并且保存到机顶盒的固态存储器(FLASH)；

根据用户输入的Subtitle语言，从预先定义的数据库中匹配出相同的语言，以供字幕的语言文字显示；

步骤2、在系统中建立一个语音的数据库，并且根据预制的语音辨识程序组进行初始化，以供辨别出最准确的语音；

步骤3、机顶盒CPU接收处理音频数据，包括：

实时的更新音频数据，并且传送至机顶盒中央处理器(CPU)；

步骤4、语音识别子系统对机顶盒接收到的音频数据进行降噪声处理，信号经语音识别模块处理之后通过语言转码转化成用户需要的语言文字，包括：

降噪声模块去除噪声之后传送给语音识别模块；

语音识别设备对语音进行识别；

按照用户的字幕语言设置来进行语言转码，转出对应的文本数据；

步骤5、根据语言设备识别出来的文本数据，叠加字幕在当前播放节目的画面上，包括：

利用OSD(On-Screen Display)即屏幕菜单式调节方式的界面显示技术来显示字幕；

字幕位置属性是动态的，由实时的文本数据长度决定的；

步骤1所述的建立一个语言数据库包括：

建立一个语言数据库，并且根据国际标准的语言代码来进行初始化。在每次用户通过Subtitle语言设置界面进行语言选择的时候，将这次设置的数据保存到机顶盒的FLASH中，这样能确保每次重新开机之后都能记住用户设置。接着，从语言数据库中匹配出用户设置的语言，以供后面显示字幕的语言做准备。

步骤2中所述的在系统中建立一个语音的数据库，并且根据预制的语音辨识程序组进行初始化，包括：

首先建立一个语音的数据库，并且在机顶盒系统里面合入语音辨别的程序组，机顶盒可以预制一些语音信息，比如预制一些用户经常观看的节目语音，提取语音模板，最后将这些语音保存到这个语音数据库中。这个步骤是为了后面让语音数据库中的数据和采集到的音频数据进行匹配，尽量使最终输出的语音更准确。

步骤3所述机顶盒CPU接收处理音频数据，步骤包括：

不带字幕的流传送至机顶盒，机顶盒解析出音频数据，并经播放器播放。同时，机顶盒将这些音频数据数据保存起来。这些音频数据是实时的，所以要增加一个定时器(Timer)去不断的更新这些音频数据数据，以保证机顶盒获取到的音频数据是最新的。

步骤5所述语音识别子系统对机顶盒接收到的音频数据进行降噪声处理，信号经语音识别模块处理之后通过语言转码转化成用户需要的语言文字，步骤包括：

(1)降噪声模块是一个数字滤波器，能通过滤波减弱、消除信号中噪声信号的频谱成分，增强信号的信噪比，使语音识别模块能更快速更准确的识别语音。首先将机顶盒收集到的音频数据送到降噪声模块进行去除噪声处理，最后传送给语音识别模块；

(2)语音识别模块是用USB接口与机顶盒连接起来的。对语音识别设备进行移植安装到机顶盒，并适配好与机顶盒的通信方式。机顶盒开机之后，机顶盒系统能自动识出该设备，当降噪的音频数据传送至语音识别模块之后，语音识别模块能对音频数据进行识别，并把识别出的数据保存到机顶盒的FLASH中，通过与之前步骤2中创建的语音数据库中的数据进行比较，匹配出最准确的音频数据；具体的实现过程如下图3所示。

(3)经过语音识别设备处理之后，识别出来的结果将传送至机顶盒保存起来。然后根据步骤1所示的方法匹配出语言类型，然后根据这种语言类型来进行语言转码，转出对应的文本数据。

步骤5根据语言设备识别出来的文本数据，叠加字幕在当前播放节目的画面上。这个步骤包括：

(1)由步骤4得到字幕的文本信息之后，利用OSD(On-Screen Display)即屏幕菜单式调节方式的界面显示技术来显示字幕。为了控制字幕在屏幕上的正常显示，需要利用OSD驱动模块提供的区域操作功能。在该字幕显示实现中使用的函数模块依次是：OSD模块初始化、OSD内存清空、OSD图层创建、OSD图层显示、OSD图层销毁、OSD内存释放。在机顶盒系统中以回调函数的形式利用这些函数模块。在系统初始化中，必须先初始化OSD模块，获取OSD层的设备id,注册OSD图层创建回调函数、OSD图层显示回调函数、OSD图层销毁回调函数和OSD内存释放回调函数。把这些函数以指针的形式保存在全局变量中，当需要相应的OSD服务时，就通过函数指针调用相应的函数。

字幕显示要根据由语音设备实时解析出来的文本数据来显示：先得到获取到数据的时间信息，并通过这个时间信息与音频同步。在每次解析完之后，显示模块创建相关的OSD区域，分配内存空间，把解析完的数据连同该数据要显示的时间PTS(PresentationTime Stamp，显示时间戳)送到显示缓冲区。此时，根据当前系统时钟STC(System TimeClock,系统时序时钟)和存储的PTS创建一个定时器，如果显示时间已经超过了系统时间，那么显示缓冲区的数据就要清空掉；反之，当显示时间到的时候，定时器被触发，显示内容输出到OSD缓冲区，并结合显示持续时间来进行字幕的显示。显示状态流程如图4所示。

(1)字幕的显示位置属性是由实时的文本数据长度决定的，始终根据文本数据的长度来设置字幕图层显示的位置。这里主要设置了一个动态的坐标值来实现，设定字幕的显示坐标为(X，Y，W，H)(X是横坐标，Y是纵坐标，W是字幕长度，H是字幕高度)，屏幕的尺寸宽度是OSD_SCREEN_MAX_WIDTH。文本数据的长度为SCREEN_WIDTH。那么我们的Subtitle字幕显示的横坐标是X＝(OSD_SCREEN_MAX_WIDTH-SCREEN_WIDTH)>>1，这样设置就可以让字幕始终能在屏幕的下中央位置显示，是整个屏幕让用户看起来比较舒服。

如图2所示，本发明的实现方法对应一种不带字幕的码流通过语音识别显示字幕的系统，包括：

机顶盒主板，包括CPU和与CPU相连接的交互模块、存储模块；

CPU，用于处理和更新音频数据；

交互模块，用于用于与系统进行交互，包括建立语言数据库、建立语音数据库、字幕语言设置；

存储模块，用于存储音频数据和字幕语言；

其中，所述存储模块为FLASH存储器，所述降噪声模块为数字滤波器，所述交互模块为遥控器或者触摸屏，所述显示终端为液晶显示屏或者电视机。

综上所述，本发明的优势在于：

第一，省去人机交流的繁琐的语音操作，机顶盒自动的更新节目字幕给用户。

第二，本发明的界面设计比较友好，能提供节目语言设置界面给用户，效果能满足用户的需求。

第三，对于一些不带字幕的节目源，用语音识别技术显示出来，能以更好的方式把节目内容传达给用户；不但充分照顾到一些有听说障碍的用户，还能适用于一些喧嚣的场所。

通过本发明可以实现根据用户在节目语言设置界面设置好语言，并且传送命令给机顶盒，机顶盒再自动的根据语音识别设备进行监听节目，把一些不带字幕的节目源识别出来，并且按照预先设置好的节目语言用转码器转化成对应的文字形式，显示在当前播放节目的上面，便于一些有听说障碍的用户对当前播放节目内容的理解，也便于用户在一些喧嚣的场所中更加容易理解节目的内容。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种不带字幕的码流通过语音识别显示字幕的方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种不带字幕的码流通过语音识别显示字幕的方法，其特征在于，所述步骤1具体为：在字幕语言选择中选择要显示的字幕的语言，并且保存到机顶盒的固态存储器；根据用户输入的字幕语言，从预先定义的语言数据库中匹配出相同的语言，以供字幕的语言文字显示。

3.如权利要求1所述的一种不带字幕的码流通过语音识别显示字幕的方法，其特征在于，所述步骤2具体为：在机顶盒系统里面合入语音辨别的程序组，机顶盒预制一些语音信息，提取语音模板，最后将语音信息保存到语音数据库中。

4.如权利要求1所述的一种不带字幕的码流通过语音识别显示字幕的方法，其特征在于，所述步骤4具体为：

5.如权利要求1所述的一种不带字幕的码流通过语音识别显示字幕的方法，其特征在于，所述步骤5具体为：

(2)字幕的显示位置属性是由实时的文本数据长度决定的，始终根据文本数据的长度来设置字幕图层显示的位置，通过设置了一个动态的坐标值来实现，设定字幕的显示坐标为(X，Y，W，H)(X是横坐标，Y是纵坐标，W是字幕长度，H是字幕高度)，屏幕的尺寸宽度是OSD_SCREEN_MAX_WIDTH，文本数据的长度为SCREEN_WIDTH，那么字幕显示的横坐标是X＝(OSD_SCREEN_MAX_WIDTH-SCREEN_WIDTH)>>1。

6.一种不带字幕的码流通过语音识别显示字幕的系统，其特征在于，包括：

机顶盒主板，包括CPU和与CPU相连接的交互模块、存储模块；

CPU，用于处理和更新音频数据；

存储模块，用于存储音频数据和字幕语言；

7.如权利要求6所述的一种不带字幕的码流通过语音识别显示字幕的系统，其特征在于：所述存储模块为FLASH存储器。

8.如权利要求6所述的一种不带字幕的码流通过语音识别显示字幕的系统，其特征在于：所述降噪声模块为数字滤波器。

9.如权利要求6所述的一种不带字幕的码流通过语音识别显示字幕的系统，其特征在于：所述交互模块为遥控器或者触摸屏。

10.如权利要求6所述的一种不带字幕的码流通过语音识别显示字幕的系统，其特征在于：所述显示终端为液晶显示屏或者电视机。