CN109275027A

CN109275027A - 视频的语音输出方法、电子播放设备及存储介质

Info

Publication number: CN109275027A
Application number: CN201811129168.7A
Authority: CN
Inventors: 赵龙
Original assignee: TCL Overseas Electronics Huizhou Ltd
Current assignee: TCL Overseas Electronics Huizhou Ltd
Priority date: 2018-09-26
Filing date: 2018-09-26
Publication date: 2019-01-25

Abstract

本发明公开了一种视频的语音输出方法，包括以下步骤：获取屏幕界面的视频播放的图像信息；解析所述图像信息，得到所述图像信息包含的内容信息；根据所述内容信息从数据库中获取与所述内容信息对应的内容语境描述信息；根据所述内容语境描述信息生成语音信息，并输出所述语音信息。本发明还公开了一种电子播放设备以及计算机可读存储介质。本发明通过将视频显示内容转换语音输出，实现使盲人也能够接触了解到的视频播放的相关内容信息。

Description

视频的语音输出方法、电子播放设备及存储介质

技术领域

本发明涉及视频播放领域，尤其涉及一种视频的语音输出方法、电子播放设备以及计算机可读存储介质。

背景技术

目前，电子播放设备如电视等能播放的视频内容越来越精彩丰富，但是盲人因为身体原因，无法看到图像信息，也就无法接触了解到播放的视频内容，所以亟需解决盲人不需要通过肉眼也能接触了解到播放的视频内容的问题，以实现盲人也能“观看”丰富多彩的视频。

发明内容

本发明的主要目的在于提供一种视频的语音输出方法、电子播放设备以及计算机可读存储介质，通过将视频播放显示的内容转换语音输出，实现使盲人也能够接触了解到的视频播放的相关内容信息。

为实现上述目的，本发明提供一种视频的语音输出方法，所述视频的语音输出方法包括以下步骤：

获取屏幕界面的视频播放的图像信息；

解析所述图像信息，得到所述图像信息包含的内容信息；

根据所述内容信息从数据库中获取与所述内容信息对应的内容语境描述信息；

根据所述内容语境描述信息生成语音信息，并输出所述语音信息。

优选地，所述根据所述内容语境描述信息生成语音信息的步骤包括：

获取所述内容语境描述信息的优先级常量，根据所述优先级常量对各个所述内容语境描述信息进行排序组合，得到排序组合结果；

根据所述排序组合结果生成语音信息。

优选地，所述根据所述排序组合结果生成语音信息的步骤之前，还包括：

获取预设的语言逻辑组合规则，根据所述语言逻辑组合规则对所述排序组合结果进行语法优化和语义优化。

优选地，所述根据所述排序组合结果生成语音信息的步骤包括：

将所述排序组合结果添加到语音生成序列中；

对所述语音生成序列进行重复语义筛选；

根据筛选后的所述语音生成序列，生成语音信息。

优选地，所述视频的语音输出方法还包括：

获取语言信息，生成与所述语言信息对应的所述语音信息。

优选地，所述视频的语音输出方法还包括：

在所述图像信息对应的视频为电视节目时，获取所述电视节目的码流信息；

根据所述码流信息从互联网上获取与所述码流信息对应的地区信息；

获取与所述地区信息对应的所述语言信息。

优选地，所述获取屏幕界面的视频播放的图像信息的步骤包括：

在预设间隔时间点时，获取所述屏幕界面的所述视频播放的所述图像信息。

优选地，所述获取屏幕界面的视频播放的图像信息的步骤之前，还包括：

在接收到进入语音模式指令时，进入语音模式设置界面，并接收语音指令；

输出与所述语音模式设置界面对应的操作引导语音信息。

为实现上述目的，本发明还提供一种电子播放设备，所述电子播放设备包括：

所述电子播放设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频的语音输出程序，所述视频的语音输出程序被所述处理器执行时实现如上述视频的语音输出方法的步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有视频的语音输出程序，所述视频的语音输出程序被处理器执行时实现如上述视频的语音输出方法的步骤。

本发明提供的视频的语音输出方法、电子播放设备以及计算机可读存储介质，获取屏幕界面的视频播放的图像信息；解析所述图像信息，得到所述图像信息包含的内容信息；根据所述内容信息从数据库中获取与所述内容信息对应的内容语境描述信息；根据所述内容语境描述信息生成语音信息，并输出所述语音信息。这样，通过将视频播放显示的内容转换语音输出，实现使盲人也能够接触了解到的视频播放的相关内容信息。

附图说明

图1为本发明实施例方案涉及的实施例终端的硬件运行环境示意图；

图2为本发明视频的语音输出方法第一实施例的流程示意图；

图3为本发明视频的语音输出方法第二实施例的流程示意图；

图4为本发明视频的语音输出方法第三实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种视频的语音输出方法，通过将视频播放显示的内容转换语音输出，实现使盲人也能够接触了解到的视频播放的相关内容信息。

如图1所示，图1是本发明实施例方案涉及的实施例终端的硬件运行环境示意图；

本发明实施例终端可以是电子播放设备，例如电视机。

如图1所示，该终端可以包括：处理器1001，例如CPU，存储器1002，通信总线1003。其中，通信总线1003用于实现该终端中各组成部件之间的连接通信。存储器1002可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1002可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端的结构并不构成对本发明实施例终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1002中可以包括视频的语音输出程序。

在图1所示的终端中，处理器1001可以用于调用存储器1002中存储的视频的语音输出程序，并执行以下操作：

获取屏幕界面的视频播放的图像信息；

解析所述图像信息，得到所述图像信息包含的内容信息；

进一步地，处理器1001可以调用存储器1002中存储的视频的语音输出程序，还执行以下操作：

根据所述排序组合结果生成语音信息。

将所述排序组合结果添加到语音生成序列中；

对所述语音生成序列进行重复语义筛选；

根据筛选后的所述语音生成序列，生成语音信息。

获取语言信息，生成与所述语言信息对应的所述语音信息。

获取与所述地区信息对应的所述语言信息。

输出与所述语音模式设置界面对应的操作引导语音信息。

参照图2，在一实施例中，所述视频的语音输出方法包括：

步骤S10、获取屏幕界面的视频播放的图像信息。

本实施例中，现在通过电子播放设备播放的视频内容，例如电视机，对于盲人来说，只能听到视频播放的旁白或者对白的声音，却无法看到图像信息，也就无法接触了解到播放的视频内容，严重影响视力障碍人群渴望了解视频播放显示的内容的需求。

为了让盲人也能接触了解到视频播放显示的内容，以及满足一些有特殊需要的人群的需要，本申请提供一种频的语音输出方法，通过将视频播放显示的内容转换语音输出，解决了不需要通过肉眼也能接触了解到播放的视频内容的问题，实现使盲人也能够接触了解到的视频播放的相关内容信息。

具体地，在预设间隔时间点时，获取屏幕界面的视频播放的图像信息所述预设间隔时间点优选设置为200毫秒。以电子播放设备为电视机为例，通过启动内置画面抓取模块，电视机执行画面抓取工作，每次抓取时间间隔为200毫秒。需要说明的是，为了方便盲人更好地操作具有视频显示内容的语音输出功能的电视机，电视机在接收到进入语音模式指令时，进入语音模式设置界面，并接收语音指令；输出与所述语音模式设置界面对应的操作引导语音信息。这样，有视力障碍的人也能够通过操作引导语音信息，以及通过发出的语音指令，完成视频内容的语音模式的设置。

步骤S20、解析所述图像信息，得到所述图像信息包含的内容信息。

电视机进行屏幕界面的视频播放显示的图像信息的抓取工作，并将抓取的图像信息进行解析，得到所述图像信息包含的内容信息，所述内容信息可以是包括时间信息、地点信息、生物信息、物品信息中的至少一个。例如该图像信息显示出漆黑的夜幕画面，时间信息即可以是夜晚；在图像信息显示出天安门的画面时，地点信息及可以是北京或者天安门广场。所述生物信息可以是人物信息，也可以是动物信息或者植物信息，包括动作、表情信息等。

步骤S30、根据所述内容信息从数据库中获取与所述内容信息对应的内容语境描述信息。

步骤S40、根据所述内容语境描述信息生成语音信息，并输出所述语音信息。

本实施例中，所述数据库可以是控制终端的数据库，也可以是云数据库。所述语境描述信息为描述所述内容信息的文字描述信息，例如内容信息为“夜晚”，对应的内容语境描述信息可以是“在一个漆黑的夜晚”；例如内容信息为“车辆”或者“车流”，对应的内容语境描述信息可以是“汽车川流不息”。

具体地，在根据所述内容信息从数据库中获取与所述内容信息对应的内容语境描述信息之后，获取所述内容语境描述信息的优先级常量，根据所述优先级常量对各个所述内容语境描述信息进行排序组合，得到排序组合结果；根据所述排序组合结果生成语音信息。所述优先级常量，可以根据用语规则习惯设置，比如，优先级常量从高到低的顺序可以是时间、地点、人物、动作或语言。

例如，在解析图像信息得到的内容信息包括“车流”、“朝阳”、“人群”、“天安门”，对应获取到的内容语境描述信息为“汽车川流不息”、“一个风和日丽的早上”、“人来人往”、“北京天安门广场”，根据优先级常量对各个语境描述信息进行排序组合，得到的排序组合结果为“一个风和日丽的早上，北京天安门广场，人来人往，汽车川流不息”。

需要说明的是，在所述根据所述排序组合结果生成语音信息的步骤之前，还可以包括：获取预设的语言逻辑组合规则，根据所述语言逻辑组合规则对所述排序组合结果进行语法优化和语义优化。所述语言逻辑组合规则，即根据语言的逻辑关系，句子的组合需要分清语法成分，以及通过介词、谓语等使句子连贯，语义优化方面，为了使句子更加优美，在需要时，可以对一些句子作状语化或定语化。例如，对排序组合结果为“一个风和日丽的早上，北京天安门广场，人来人往，汽车川流不息”的句子，根据语言逻辑组合规则进行语法优化和语义优化后的结果为“在一个风和日丽的早上，北京天安门广场前，人来人往，汽车川流不息”。

具体地，所述根据所述排序组合结果生成语音信息的步骤包括：将所述排序组合结果添加到语音生成序列中；对所述语音生成序列进行重复语义筛选；根据筛选后的所述语音生成序列，生成语音信息。

需要说明的是，以电视机为例，由于在获取屏幕界面的视频播放的图像信息时，根据设置的预设间隔时间点中，间隔时长的长短的不同，有可能出现电视机获取到的图像信息中，多张图像的信息出现部分内容信息或者大部分内容信息重复的现象，为了避免出现内容信息重复输出，可以先将每次图像信息的排序组合结果添加到语音生成序列中，然后对语音生成序列进行重复语义筛选，筛选出重复的内容。当然，根据实际情况需要，还可以根据预设的语言逻辑组合规则，对筛选过后的语音生成序列进行语法优化和语义优化。然后，根据筛选后的所述语音生成序列，生成语音信息。

具体地，在生成语音信息时，先获取语言信息，并生成与所述语言信息对应的所述语音信息。所述语言信息可以是英语、普通话、粤语等人类自然语言信息。进一步地，在所述图像信息对应的视频为电视节目时，获取所述电视节目的码流信息；根据所述码流信息从互联网上获取与所述码流信息对应的地区信息；获取与所述地区信息对应的所述语言信息。比如，在获取到地区信息对应的所述语言信息为英语时，即生成语言为英语的语音信息。

在生成语音信息后，输出所述语音信息。

需要说明的是，为了方便盲人等特殊人群操作电视机，在电视机处于视频内容的语音模式输出时，同时还能接收语音指令，用户可以通过向电视机发出语音指令，通过语音指令控制电视机执行相应操作。

在第一实施例中，在接收到语音模式切换信号时，在预设时间间隔内获取屏幕界面的图像信息；解析所述图像信息，得到所述图像信息呈现的内容信息；根据所述内容信息从数据库中获取与所述内容信息对应的语境描述数据；获取语言输出数据，根据所述语境描述数据和所述语言输出数据生成语音信息，并将所述语音信息添加到语音信息输出序列中。这样，通过将视频播放显示的内容转换语音输出，解决了不需要通过肉眼也能接触了解到播放的视频内容的问题，实现使盲人也能够接触了解到的视频播放的相关内容信息。

在第二实施例中，如图3所示，在上述图2所示的实施例基础上，所述根据所述内容语境描述信息生成语音信息的步骤包括：

步骤S50、获取所述内容语境描述信息的优先级常量，根据所述优先级常量对各个所述内容语境描述信息进行排序组合，得到排序组合结果。

步骤S60、获取预设的语言逻辑组合规则，根据所述语言逻辑组合规则对所述排序组合结果进行语法优化和语义优化。

步骤S70、将所述排序组合结果添加到语音生成序列中。

步骤S80、对所述语音生成序列进行重复语义筛选。

步骤S90、根据筛选后的所述语音生成序列，生成语音信息。

本实施例中，所述语境描述信息为描述所述内容信息的文字描述信息，例如内容信息为“夜晚”，对应的内容语境描述信息可以是“在一个漆黑的夜晚”；例如内容信息为“车辆”或者“车流”，对应的内容语境描述信息可以是“汽车川流不息”。

在第二实施例中，获取所述内容语境描述信息的优先级常量，根据所述优先级常量对各个所述内容语境描述信息进行排序组合，得到排序组合结果；获取预设的语言逻辑组合规则，根据所述语言逻辑组合规则对所述排序组合结果进行语法优化和语义优化；将所述排序组合结果添加到语音生成序列中；对所述语音生成序列进行重复语义筛选；根据筛选后的所述语音生成序列，生成语音信息。这样，通过将视频播放显示的内容转换成语音信息。

在第三实施例中，如图4所示，在上述图2至图3的实施例基础上，所述视频的语音输出方法还包括：

步骤S100、获取语言信息，生成与所述语言信息对应的所述语音信息。

步骤S110、在所述图像信息对应的视频为电视节目时，获取所述电视节目的码流信息。

步骤S120、根据所述码流信息从互联网上获取与所述码流信息对应的地区信息。

步骤S130、获取与所述地区信息对应的所述语言数据。

本实施例中，为了生成不同地区的用户，或者具有不同语种听取需求的用户方便听取理解的语音信息，在生成语音信息时，先获取语言信息，并生成与所述语言信息对应的所述语音信息。所述语言信息可以是英语、普通话、粤语等人类自然语言信息。进一步地，在所述图像信息对应的视频为电视节目时，获取所述电视节目的码流信息；根据所述码流信息从互联网上获取与所述码流信息对应的地区信息；获取与所述地区信息对应的所述语言信息。比如，在获取到地区信息对应的所述语言信息为英语时，即生成语言为英语的语音信息。

当然，语言信息的获取方式，还可以是在接收到用户发出的语音指令时，解析所述语音指令得到所述语音指令对应的语言信息。

在第三实施例中，获取语言信息，生成与所述语言信息对应的所述语音信息；在所述图像信息对应的视频为电视节目时，获取所述电视节目的码流信息；根据所述码流信息从互联网上获取与所述码流信息对应的地区信息；获取与所述地区信息对应的所述语言数据。这样，通过获取对应的语言信息，生成与所述语言信息对应的语音信息，能够满足具有不同语音听取需求的用户。

此外，本发明还提出一种电子播放设备，所述电子播放设备包括存储器、处理器及存储在存储器上并可在处理器上运行的视频的语音输出程序，所述处理器执行所述视频的语音输出程序时实现如以上实施例所述的视频的语音输出方法的步骤。

此外，本发明还提出一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括视频的语音输出程序，所述视频的语音输出程序被处理器执行时实现如以上实施例所述的视频的语音输出方法的步骤。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是电视机，手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视频的语音输出方法，其特征在于，所述视频的语音输出方法包括以下步骤：

获取屏幕界面的视频播放的图像信息；

解析所述图像信息，得到所述图像信息包含的内容信息；

2.如权利要求1所述的视频的语音输出方法，其特征在于，所述根据所述内容语境描述信息生成语音信息的步骤包括：

根据所述排序组合结果生成语音信息。

3.如权利要求2所述的视频的语音输出方法，其特征在于，所述根据所述排序组合结果生成语音信息的步骤之前，还包括：

4.如权利要求2所述的视频的语音输出方法，其特征在于，所述根据所述排序组合结果生成语音信息的步骤包括：

将所述排序组合结果添加到语音生成序列中；

对所述语音生成序列进行重复语义筛选；

根据筛选后的所述语音生成序列，生成语音信息。

5.如权利要求1、2或4所述的视频的语音输出方法，其特征在于，所述视频的语音输出方法还包括：

获取语言信息，生成与所述语言信息对应的所述语音信息。

6.如权利要求5所述的视频的语音输出方法，其特征在于，所述视频的语音输出方法还包括：

获取与所述地区信息对应的所述语言信息。

7.如权利要求1所述的视频的语音输出方法，其特征在于，所述获取屏幕界面的视频播放的图像信息的步骤包括：

8.如权利要求1所述的视频的语音输出方法，其特征在于，所述获取屏幕界面的视频播放的图像信息的步骤之前，还包括：

输出与所述语音模式设置界面对应的操作引导语音信息。

9.一种电子播放设备，其特征在于，所述电视机包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频的语音输出程序，所述视频的语音输出程序被所述处理器执行时实现如权利要求1至8中任一项所述的视频的语音输出方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有视频的语音输出程序，所述视频的语音输出程序被处理器执行时实现如权利要求1至8中任一项所述的视频的语音输出方法的步骤。