CN112040272A

CN112040272A - 体育赛事智能解说方法、服务器及显示设备

Info

Publication number: CN112040272A
Application number: CN202010932116.4A
Authority: CN
Inventors: 朱飞; 柳志德; 连欢
Original assignee: Hisense Electronic Technology Wuhan Co ltd
Current assignee: Hisense Electronic Technology Wuhan Co ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2020-12-04

Abstract

本申请提供了一种体育赛事智能解说方法、服务器及显示设备。其中，显示设备可以将当前播放的体育赛事内容实时发送到服务器；服务器根据体育赛事内容的场景分类结果从深度学习模型中获得对应的目标解说词，并将目标解说词发送给显示设备；显示设备再将目标解说词以语音的方式与体育赛事内容同步播出。由服务器中的深度学习模型生成与显示设备当前播放内容相匹配的解说词，显示设备可以以这种解说词替代真人解说员进行解说，进而避免真人解说员带有个人主观情感而产生的解说内容不公正或者解说观点带地域偏袒性的问题；由于深度学习模型是由大量历史赛事数据训练而来的，因此由服务器提供的解说词相比于真人解说员的解说内容也可以更加具有专业性。

Description

体育赛事智能解说方法、服务器及显示设备

技术领域

本申请涉及智能家居技术领域，尤其涉及一种体育赛事智能解说方法、服务器及显示设备。

背景技术

近年来，随着人民生活水平的提高，体育产业发展迅速，人们对于体育赛事的需求不断加强，正逐步进入体验消费时代。其中足球、篮球是国际最流行的两大体育赛事，比赛的收视率非常高。比赛解说是体育赛事转播中的重要一环，直接影响球迷的观赛体验，许多球迷往往会根据比赛解说员的解说风格而选择不同的转播平台进行观看。

但是，目前真人解说员存在着一些问题。比如，解说员是某场比赛其中一支球队的忠实粉丝，那么在解说过程中不可避免地会出现偏袒的倾向，使得解说过程备受争议，这个现象其实在国内解说行业非常普遍；再比如，目前国内真正从事专业解说的人非常少，且部分解说足球知识储备较差，比赛前功课不足，导致对比赛双方球队知之甚少，经常在解说过程中出现口误，甚至说出一些错误信息，造成误导球迷的问题。而这些问题都可以看作是由于解说员不够专业引起的。

可见，当前依靠真人解说员对体育赛事进行解说，不可避免地会出现解说内容不专业或者解说观点带地域偏袒性的问题，进而也会影响用户观看体育赛事的体验感。

发明内容

本申请提供了一种体育赛事智能解说方法、服务器及显示设备，在用户观看体育赛事时以智能体育赛事解说的方式替代真人解说员进行解说，避免出现真人解说员解说不够专业或者解说观点带地域偏袒性的问题。

第一方面，本申请提供了一种体育赛事智能解说方法，包括：

实时获取显示设备上当前播放的体育赛事内容，所述体育赛事内容用于表示显示设备当前播放的体育赛事的实时图像和与实时图像匹配的实时声音；

根据所述实时图像的图像解析结果和所述实时转播声音的声音解析结果，对所述体育赛事内容进行场景分类；

将所述场景分类结果作为输入，从深度学习模型中获得所述体育赛事内容对应的目标解说词；所述深度学习模型为根据历史赛事的相关信息训练学习后获得的模型；所述历史赛事与当前体育赛事的类型相同；

将所述目标解说词发送给显示设备，以使所述显示设备在播放当前的体育赛事的同时以语音方式播放所述目标解说词。

在一些实施例中，将所述目标解说词发送给显示设备的步骤包括：

将所述目标解说词从文字内容转化为目标风格的语音内容；所述目标风格用于表示用户选择的显示设备播放所述目标解说词时的内容风格和语音音色；

将目标风格的所述语音内容发送给所述显示设备。

在一些实施例中，根据所述实时图像的图像解析结果和所述实时转播声音的声音解析结果，对所述体育赛事内容进行场景分类的步骤包括：

分别识别所述实时图像中的图像元素和所述实时转播声音中的声音元素；所述图像元素用于表示所述实时图像中的人物、文字、数字和/或物体；所述声音元素用于表示所述实时图像中裁判发出的声音和/或观众声音和/或教练、队员的声音；

根据所述图像元素和所述声音元素分别判断出所述实时图像的图像类别和所述实时转播声音的声音类别；

结合所述图像类别和所述声音类别，对所述体育赛事内容进行场景分类。

在一些实施例中，在将所述场景分类结果作为输入，从深度学习模型中获得所述体育赛事内容对应的目标解说词的步骤之前，还包括训练所述深度学习模型；训练所述深度学习模型的步骤包括：

从所述历史赛事的视频资料中提取每一帧图像对应的现场声音和历史解说词；所述历史解说词用于表示在所述历史赛事中由解说员说出的解说词；

利用所述历史赛事的相关知识图谱和预设规则分析每一帧图像的图像内容和所述现场声音，生成每一帧图像相应的预测解说词；所述知识图谱用于表示与所述历史赛事相关的人员、教练、队伍和历史比赛信息；

将每一帧图像对应的历史解说词与每一帧图像对应的所述预测解说词对比；

根据对比结果优化所述预设规则；

利用优化后的所述预设规则和所述相关知识图谱再次分析每一帧图像的图像内容和所述现场声音，生成新的预测解说词；

将每一帧图像对应的历史解说词再次与每一帧图像对应的所述预测解说词对比，直至对比结果达到预设要求，进而获得针对于当前的体育赛事训练的深度学习模型。

在一些实施例中，将所述场景分类结果作为输入，从深度学习模型中获得所述体育赛事内容对应的目标解说词的步骤，包括：

利用所述深度学习模型中的预设规则和知识图谱针对于分类后场景中的实时图像和实时声音生成相应的目标解说词。

在一些实施例中，在将所述目标解说词发送给显示设备的步骤之后，还包括：

接收所述显示设备发送的用户对于所述目标解说词的反馈内容；

根据所述反馈内容优化所述深度学习模型中的预设规则。

在一些实施例中，所述图像类别包括：远景图像、近景图像和/或回放图像。

第二方面，本申请还提供了另一种体育赛事智能解说方法，包括：

将显示设备上当前播放的体育赛事内容实时发送到服务器；

接收服务器发送的符合目标风格的目标解说词；所述目标解说词为服务器根据所述体育赛事内容的场景类别，从深度学习模型中获得的解说词；所述深度学习模型为根据历史赛事的相关信息训练学习后获得的模型；所述历史赛事与当前体育赛事的类型相同；所述体育赛事内容用于表示显示设备当前播放的体育赛事的实时图像和与实时图像匹配的实时转播声音；所述目标风格用于表示用户选择的显示设备播放所述目标解说词时的内容风格和语音音色；

将所述目标解说词以语音的方式与所述体育赛事内容同步播出。

第三方面，本申请提供了一种服务器，包括：

处理器，用于执行：

实时获取显示设备上当前播放的体育赛事内容；所述体育赛事内容用于表示显示设备当前播放的体育赛事的实时图像和与实时图像匹配的实时转播声音；

第四方面，本申请还提供了一种显示设备，包括：

显示器；

通信器，用于与服务器进行通信；

控制器，用于执行：

将显示设备上当前播放的体育赛事内容实时发送到服务器；

由上述内容可知，本申请的技术方案能够实现服务器与显示设备之间的通信，显示设备可以将当前播放的体育赛事内容实时发送到服务器；服务器根据体育赛事内容的场景分类结果从深度学习模型中获得对应的目标解说词，并将目标解说词发送给显示设备；显示设备再将目标解说词以语音的方式与体育赛事内容同步播出。由服务器中的深度学习模型生成与显示设备当前播放内容相匹配的解说词，显示设备可以以这种解说词替代真人解说员进行解说，进而避免真人解说员带有个人主观情感而产生的解说内容不公正或者解说观点带地域偏袒性的问题；同时，由于深度学习模型是由大量历史赛事数据训练而来的，因此由服务器提供的解说词相比于真人解说员的解说内容也可以更加具有专业性。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1中示例性示出了根据一些实施例的显示设备与控制装置之间操作场景的示意图；

图2中示例性示出了根据一些实施例的显示设备200的硬件配置框图；

图3中示例性示出了根据一些实施例的控制装置100的硬件配置框图；

图4中示例性示出了根据一些实施例的显示设备200中软件配置示意图；

图5中示例性示出了根据一些实施例的显示设备200中应用程序的图标控件界面显示示意图；

图6为本申请实施例示出的一种体育赛事智能解说方法的流程图；

图7为本申请实施例示出的一种足球比赛中远景图像的示意图；

图8为本申请实施例示出的一种足球比赛中近景图像的示意图；

图9为本申请实施例示出的一种体育赛事回放图像的示意图；

图10为本申请实施例示出的另一种体育赛事回放图像的示意图；

图11为本申请实施例示出的一种足球比赛开场画面的示意图；

图12为本申请实施例示出的一种深度学习模型的学习过程示意图；

图13为本申请实施例示出的另一种体育赛事智能解说方法的流程图；

图14为本申请实施例示出的一种显示设备200与服务器400之间通信的交互示意图；

图15为本申请实施例示出的针对于一种足球比赛图像进行解说的示意图；

图16为本申请实施例示出的针对于另一种足球比赛图像进行解说的示意图。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请描述的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请所附权利要求保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请中使用的术语“模块”，是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

本申请中使用的术语“遥控器”，是指电子设备(如本申请中公开的显示设备)的一个组件，通常可在较短的距离范围内无线控制电子设备。一般使用红外线和/或射频(RF)信号和/或蓝牙与电子设备连接，也可以包括WiFi、无线USB、蓝牙、动作传感器等功能模块。例如：手持式触摸遥控器，是以触摸屏中用户界面取代一般遥控装置中的大部分物理内置硬键。

本申请中使用的术语“手势”，是指用户通过一种手型的变化或手部运动等动作，用于表达预期想法、动作、目的/或结果的用户行为。

图1中示例性示出了根据实施例中显示设备与控制装置之间操作场景的示意图。如图1中示出，用户可通过移动终端300和控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式等，通过无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键，语音输入、控制面板输入等输入用户指令，来控制显示设备200。如：用户可以通过遥控器上音量加减键、频道控制键、上/下/左/右的移动按键、语音输入按键、菜单键、开关机按键等输入相应控制指令，来实现控制显示设备200的功能。

在一些实施例中，也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。该应用程序通过配置可以在与智能设备关联的屏幕上，在直观的用户界面(UI)中为用户提供各种控制。

在一些实施例中，移动终端300可与显示设备200安装软件应用，通过网络通信协议实现连接通信，实现一对一控制操作的和数据通信的目的。如：可以实现用移动终端300与显示设备200建立控制指令协议，将遥控控制键盘同步到移动终端300上，通过控制移动终端300上用户界面，实现控制显示设备200的功能。也可以将移动终端300上显示音视频内容传输到显示设备200上，实现同步显示功能。

如图1中还示出，显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。示例的，显示设备200通过发送和接收信息，以及电子节目指南(EPG)互动，接收软件程序更新，或访问远程储存的数字媒体库。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。通过服务器400提供视频点播和广告服务等其他网络服务内容。

显示设备200，可以液晶显示器、OLED显示器、投影显示设备。具体显示设备类型，尺寸大小和分辨率等不作限定，本领技术人员可以理解的是，显示设备200可以根据需要做性能和配置上一些改变。

显示设备200除了提供广播接收电视功能之外，还可以附加提供计算机支持功能的智能网络电视功能，包括但不限于，网络电视、智能电视、互联网协议电视(IPTV)等。

图2中示例性示出了根据示例性实施例中显示设备200的硬件配置框图。

在一些实施例中，显示设备200中包括控制器250、调谐解调器210、通信器220、检测器230、输入/输出接口255、显示器275，音频输出接口285、存储器260、供电电源290、用户接口265、外部装置接口240中的至少一种。

在一些实施例中，显示器275，用于接收源自第一处理器输出的图像信号，进行显示视频内容和图像以及菜单操控界面的组件。

在一些实施例中，显示器275，包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件。

在一些实施例中，显示视频内容，可以来自广播电视内容，也可以是说，可通过有线或无线通信协议接收的各种广播信号。或者，可显示来自网络通信协议接收来自网络服务器端发送的各种图像内容。

在一些实施例中，显示器275用于呈现显示设备200中产生且用于控制显示设备200的用户操控UI界面。

在一些实施例中，根据显示器275类型不同，还包括用于驱动显示的驱动组件。

在一些实施例中，显示器275为一种投影显示器，还可以包括一种投影装置和投影屏幕。

在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或外部服务器进行通信的组件。例如：通信器220可以包括Wifi模块221，蓝牙模块222，有线以太网模块223等其他网络通信协议模块或近场通信协议模块，以及红外接收器中的至少一种。

在一些实施例中，显示设备200可以通过通信器220与外部控制装置100或内容提供设备之间建立控制信号和数据信号发送和接收。

在一些实施例中，用户接口265，可用于接收控制装置100(如：红外遥控器等)红外控制信号。

在一些实施例中，检测器230是显示设备200用于采集外部环境或与外部交互的信号。

在一些实施例中，检测器230包括光接收器，用于采集环境光线强度的传感器，可以通过采集环境光可以自适应性显示参数变化等。

在一些实施例中，检测器230还可以包括图像采集器232，如相机、摄像头等，可以用于采集外部环境场景，以及用于采集用户的属性或与用户交互手势，可以自适应变化显示参数，也可以识别用户手势，以实现与用户之间互动的功能。

在一些实施例中，检测器230还可以包括温度传感器等，如通过感测环境温度。

在一些实施例中，显示设备200可自适应调整图像的显示色温。如当温度偏高的环境时，可调整显示设备200显示图像色温偏冷色调，或当温度偏低的环境时，可以调整显示设备200显示图像偏暖色调。

在一些实施例中，检测器230还可以包括声音采集器231等，如麦克风，可以用于接收用户的声音。示例性的，包括用户控制显示设备200的控制指令的语音信号，或采集环境声音，用于识别环境场景类型，使得显示设备200可以自适应适应环境噪声。

在一些实施例中，如图2所示，输入/输出接口255被配置为，可进行控制器250与外部其他设备或其他控制器250之间的数据传输。如接收外部设备的视频信号数据和音频信号数据、或命令指令数据等。

在一些实施例中，外部装置接口240可以包括，但不限于如下：可以高清多媒体接口HDMI接口、模拟或数据高清分量输入接口、复合视频输入接口、USB输入接口、RGB端口等任一个或多个接口。也可以是上述多个接口形成复合性的输入/输出接口。

在一些实施例中，如图2所示，调谐解调器210被配置为，通过有线或无线接收方式接收广播电视信号，可以进行放大、混频和谐振等调制解调处理，从多个无线或有线广播电视信号中解调出音视频信号，该音视频信号可以包括用户所选择电视频道频率中所携带的电视音视频信号，以及EPG数据信号。

在一些实施例中，调谐解调器210解调的频点受到控制器250的控制，控制器250可根据用户选择发出控制信号，以使的调制解调器响应用户选择的电视信号频率以及调制解调该频率所携带的电视信号。

在一些实施例中，广播电视信号可根据电视信号广播制式不同区分为地面广播信号、有线广播信号、卫星广播信号或互联网广播信号等。或者根据调制类型不同可以区分为数字调制信号，模拟调制信号等。或者根据信号种类不同区分为数字信号、模拟信号等。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。这样，机顶盒将接收到的广播电视信号调制解调后的电视音视频信号输出给主体设备，主体设备经过第一输入/输出接口接收音视频信号。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250可以控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器275上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接或图标。与所选择的对象有关操作，例如：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。用于选择UI对象用户命令，可以是通过连接到显示设备200的各种输入装置(例如，鼠标、键盘、触摸板等)输入命令或者与由用户说出语音相对应的语音命令。

如图2所示，控制器250包括随机存取存储器251(Random Access Memory，RAM)、只读存储器252(Read-Only Memory,ROM)、图形处理器253(Graphics Processing Unit，GPU)、中央处理器254(Central Processing Unit，CPU)、输入/输出接口255以及通信总线256(Bus)中的至少一种。其中，通信总线连接各个部件。

在一些实施例中，RAM 251用于存储操作系统或其他正在运行中的程序的临时数据

在一些实施例中，ROM 252用于存储各种系统启动的指令。

在一些实施例中，ROM 252用于存储一个基本输入输出系统，称为基本输入输出系统(Basic Input Output System，BIOS)。用于完成对系统的加电自检、系统中各功能模块的初始化、系统的基本输入/输出的驱动程序及引导操作系统。

在一些实施例中，在收到开机信号时，显示设备200电源开始启动，CPU运行ROM252中系统启动指令，将存储在存储器的操作系统的临时数据拷贝至RAM 251中，以便于启动或运行操作系统。当操作系统启动完成后，CPU再将存储器中各种应用程序的临时数据拷贝至RAM 251中，然后，以便于启动或运行各种应用程序。

在一些实施例中，处理器254，用于执行存储在存储器中操作系统和应用程序指令。以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。

在一些示例性实施例中，处理器254，可以包括多个处理器。多个处理器可包括一个主处理器以及一个或多个子处理器。主处理器，用于在预加电模式中执行显示设备200一些操作，和/或在正常模式下显示画面的操作。一个或多个子处理器，用于在待机模式等状态下一种操作。

在一些实施例中，图形处理器253，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等。包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象。以及包括渲染器，对基于运算器得到的各种对象，进行渲染，上述渲染后的对象用于显示在显示器上。

在一些实施例中，视频处理器270被配置为将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等等视频处理，可得到直接可显示设备200上显示或播放的信号。

在一些实施例中，视频处理器270，包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等。

其中，解复用模块，用于对输入音视频数据流进行解复用处理，如输入MPEG-2,则解复用模块进行解复用成视频信号和音频信号等。

视频解码模块，则用于对解复用后的视频信号进行处理，包括解码和缩放处理等。

图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的GUI信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。

帧率转换模块，用于对转换输入视频帧率，如将60Hz帧率转换为120Hz帧率或240Hz帧率，通常的格式采用如插帧方式实现。

显示格式化模块，则用于将接收帧率转换后视频输出信号，改变信号以符合显示格式的信号，如输出RGB数据信号。

在一些实施例中，图形处理器253可以和视频处理器可以集成设置，也可以分开设置，集成设置的时候可以执行输出给显示器的图形信号的处理，分离设置的时候可以分别执行不同的功能，例如GPU+FRC(Frame Rate Conversion))架构。

在一些实施例中，音频处理器280，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理，得到可以在扬声器中播放的声音信号。

在一些实施例中，视频处理器270可以包括一颗或多颗芯片组成。音频处理器，也可以包括一颗或多颗芯片组成。

在一些实施例中，视频处理器270和音频处理器280，可以单独的芯片，也可以于控制器一起集成在一颗或多颗芯片中。

在一些实施例中，音频输出，在控制器250的控制下接收音频处理器280输出的声音信号，如：扬声器286，以及除了显示设备200自身携带的扬声器之外，可以输出至外接设备的发生装置的外接音响输出端子，如：外接音响接口或耳机接口等，还可以包括通信接口中的近距离通信模块，例如：用于进行蓝牙扬声器声音输出的蓝牙模块。

供电电源290，在控制器250控制下，将外部电源输入的电力为显示设备200提供电源供电支持。供电电源290可以包括安装显示设备200内部的内置电源电路，也可以是安装在显示设备200外部电源，在显示设备200中提供外接电源的电源接口。

用户接口265，用于接收用户的输入信号，然后，将接收用户输入信号发送给控制器250。用户输入信号可以是通过红外接收器接收的遥控器信号，可以通过网络通信模块接收各种用户控制信号。

在一些实施例中，用户通过控制装置100或移动终端300输入用户命令，用户输入接口则根据用户的输入，显示设备200则通过控制器250响应用户的输入。

在一些实施例中，用户可在显示器275上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

存储器260，包括存储用于驱动显示设备200的各种软件模块。如：第一存储器中存储的各种软件模块，包括：基础模块、检测模块、通信模块、显示控制模块、浏览器模块、和各种服务模块等中的至少一种。

基础模块用于显示设备200中各个硬件之间信号通信、并向上层模块发送处理和控制信号的底层软件模块。检测模块用于从各种传感器或用户输入接口中收集各种信息，并进行数模转换以及分析管理的管理模块。

例如，语音识别模块中包括语音解析模块和语音指令数据库模块。显示控制模块用于控制显示器进行显示图像内容的模块，可以用于播放多媒体图像内容和UI界面等信息。通信模块，用于与外部设备之间进行控制和数据通信的模块。浏览器模块，用于执行浏览服务器之间数据通信的模块。服务模块，用于提供各种服务以及各类应用程序在内的模块。同时，存储器260还用存储接收外部数据和用户数据、各种用户界面中各个项目的图像以及焦点对象的视觉效果图等。

图3示例性示出了根据示例性实施例中控制装置100的配置框图。如图3所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器190、供电电源180。

控制装置100被配置为控制显示设备200，以及可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。如：用户通过操作控制装置100上频道加减键，显示设备200响应频道加减的操作。

在一些实施例中，控制装置100可是一种智能设备。如：控制装置100可根据用户需求安装控制显示设备200的各种应用。

在一些实施例中，如图1所示，移动终端300或其他智能电子设备，可在安装操控显示设备200的应用之后，可以起到控制装置100类似功能。如：用户可以通过安装应用，在移动终端300或其他智能电子设备上可提供的图形用户界面的各种功能键或虚拟按钮，以实现控制装置100实体按键的功能。

控制器110包括处理器112和RAM 113和ROM 114。控制器用于控制控制装置100的运行和操作，以及内部各部件之间通信协作以及外部和内部的数据处理功能。

通信接口130在控制器110的控制下，实现与显示设备200之间控制信号和数据信号的通信。如：将接收到的用户输入信号发送至显示设备200上。通信接口130可包括WiFi芯片131、蓝牙模块132、NFC模块133等其他近场通信模块中至少之一种。

用户输入/输出接口140，其中，输入接口包括麦克风141、触摸板142、传感器143、按键144等其他输入接口中至少一者。如：用户可以通过语音、触摸、手势、按压等动作实现用户指令输入功能，输入接口通过将接收的模拟信号转换为数字信号，以及数字信号转换为相应指令信号，发送至显示设备200。

输出接口包括将接收的用户指令发送至显示设备200的接口。在一些实施例中，可以红外接口，也可以是射频接口。如：红外信号接口时，需要将用户输入指令按照红外控制协议转化为红外控制信号，经红外发送模块进行发送至显示设备200。再如：射频信号接口时，需将用户输入指令转化为数字信号，然后按照射频控制信号调制协议进行调制后，由射频发送端子发送至显示设备200。

在一些实施例中，控制装置100包括通信接口130和输入输出接口140中至少一者。控制装置100中配置通信接口130，如：WiFi、蓝牙、NFC等模块，可将用户输入指令通过WiFi协议、或蓝牙协议、或NFC协议编码，发送至显示设备200。

存储器190，用于在控制器的控制下存储驱动和控制控制设备200的各种运行程序、数据和应用。存储器190，可以存储用户输入的各类控制信号指令。

供电电源180，用于在控制器的控制下为控制装置100各元件提供运行电力支持。可以电池及相关控制电路。

在一些实施例中，系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后，再加载Shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。

参见图4，在一些实施例中，将系统分为四层，从上至下分别为应用程序(Applications)层(简称“应用层”)，应用程序框架(Application Framework)层(简称“框架层”)，安卓运行时(Android runtime)和系统库层(简称“系统运行库层”)，以及内核层。

在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序、时钟程序、相机应用等；也可以是第三方开发者所开发的应用程序，比如嗨见程序、K歌程序、魔镜程序等。在具体实施时，应用程序层中的应用程序包不限于以上举例，实际还可以包括其它应用程序包，本申请实施例对此不做限制。

框架层为应用程序层的应用程序提供应用编程接口(application programminginterface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问系统中的资源和取得系统的服务

如图4所示，本申请实施例中应用程序框架层包括管理器(Managers)，内容提供者(Content Provider)等，其中管理器包括以下模块中的至少一个：活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互；位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问；文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息；通知管理器(NotificationManager)用于控制通知消息的显示和清除；窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。

在一些实施例中，活动管理器用于：管理各个应用程序的生命周期以及通常的导航回退功能，比如控制应用程序的退出(包括将显示窗口中当前显示的用户界面切换到系统桌面)、打开、后退(包括将显示窗口中当前显示的用户界面切换到当前显示的用户界面的上一级用户界面)等。

在一些实施例中，窗口管理器用于管理所有的窗口程序，比如获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕，控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。

在一些实施例中，系统运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。

在一些实施例中，内核层是硬件和软件之间的层。如图4所示，内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，触摸传感器、压力传感器等)等。

在一些实施例中，内核层还包括用于进行电源管理的电源驱动模块。

在一些实施例中，图4中的软件架构对应的软件程序和/或模块存储在图2或图3所示的第一存储器或第二存储器中。

在一些实施例中，以魔镜应用(拍照应用)为例，当遥控接收装置接收到遥控器输入操作，相应的硬件中断被发给内核层。内核层将输入操作加工成原始输入事件(包括输入操作的值，输入操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，根据焦点当前的位置识别该输入事件所对应的控件以及以该输入操作是确认操作，该确认操作所对应的控件为魔镜应用图标的控件，魔镜应用调用应用框架层的接口，启动魔镜应用，进而通过调用内核层启动摄像头驱动，实现通过摄像头捕获静态图像或视频。

在一些实施例中，对于具备触控功能的显示设备，以分屏操作为例，显示设备接收用户作用于显示屏上的输入操作(如分屏操作)，内核层可以根据输入操作产生相应的输入事件，并向应用程序框架层上报该事件。由应用程序框架层的活动管理器设置与该输入操作对应的窗口模式(如多窗口模式)以及窗口位置和大小等。应用程序框架层的窗口管理根据活动管理器的设置绘制窗口，然后将绘制的窗口数据发送给内核层的显示驱动，由显示驱动在显示屏的不同显示区域显示与之对应的应用界面。

在一些实施例中，如图5中所示，应用程序层包含至少一个应用程序可以在显示器中显示对应的图标控件，如：直播电视应用程序图标控件、视频点播应用程序图标控件、媒体中心应用程序图标控件、应用程序中心图标控件、游戏应用图标控件等。

在一些实施例中，直播电视应用程序，可以通过不同的信号源提供直播电视。例如，直播电视应用程可以使用来自有线电视、无线广播、卫星服务或其他类型的直播电视服务的输入提供电视信号。以及，直播电视应用程序可在显示设备200上显示直播电视信号的视频。

在一些实施例中，视频点播应用程序，可以提供来自不同存储源的视频。不同于直播电视应用程序，视频点播提供来自某些存储源的视频显示。例如，视频点播可以来自云存储的服务器端、来自包含已存视频节目的本地硬盘储存器。

在一些实施例中，媒体中心应用程序，可以提供各种多媒体内容播放的应用程序。例如，媒体中心，可以为不同于直播电视或视频点播，用户可通过媒体中心应用程序访问各种图像或音频所提供服务。

在一些实施例中，应用程序中心，可以提供储存各种应用程序。应用程序可以是一种游戏、应用程序，或某些和计算机系统或其他设备相关但可以在智能电视中运行的其他应用程序。应用程序中心可从不同来源获得这些应用程序，将它们储存在本地储存器中，然后在显示设备200上可运行。

基于上述问题，本申请实施例提供了一种体育赛事智能解说方法、服务器和显示设备，可以实现服务器400与显示设备200之间的通信。由服务器400中的深度学习模型生成与显示设备200当前播放内容相匹配的解说词，显示设备200可以以这种解说词替代真人解说员进行解说，进而避免真人解说员带有个人主观情感而产生的解说内容不公正或者解说观点带地域偏袒性的问题；同时，由于深度学习模型是由大量历史赛事数据训练而来的，因此由服务器400提供的解说词相比于真人解说员的解说内容也可以更加具有专业性。

图6为本申请实施例示出的一种体育赛事智能解说方法的流程图。如图6所示，本申请实施例中首先提供了一种体育赛事智能解说方法，该方法应用在服务器400端，具体包括如下步骤：

步骤S101，实时获取显示设备200上当前播放的体育赛事内容。

体育赛事内容用于表示显示设备200当前播放的体育赛事的实时图像和与实时图像匹配的实时转播声音。例如，显示设备200当前播放的是足球比赛的视频，那么此时的体育赛事内容包括足球比赛的比赛画面和与比赛现场转播过来的声音；如果显示设备200当前播放的篮球比赛的视频，那么此时的体育赛事内容包括篮球比赛的比赛画面和比赛现场转播过来的声音。显示设备200实际可以播放的体育赛事有很多种，不仅仅包括足球或者篮球，还可以包括排球、网球、乒乓球等。

体育赛事视频中每一帧图像的内容都可能包含有关键信息，比如某某队员进球、某某队员传球等，因此，服务器400针对于某一体育赛事生成对应的解说词时，需要将体育赛事的整体视频内容拆分为各个帧的图像进行处理，具体的操作方式为，显示设备200实时地将其显示的每一帧图像和图像对应的转播声音发送给服务器400。

步骤S102，根据实时图像的图像解析结果和实时转播声音的声音解析结果，对体育赛事内容进行场景分类。

由于体育赛事内容包括体育赛事的实时图像和与实时图像匹配的实时转播声音，所以，服务器400还需要分别对实时图像和实时转播声音进行分类。其中，实时图像可以分为远景图像、近景图像和/或回放图像等，实时转播声音可以分为裁判哨声和/或观众声音和/或教练队员等的声音。由于本申请实施例中对实时的体育赛事内容进行的是替代真人解说员的解说，因此，如果实时转播声音中包含了转播源发来的解说声音，需要将这个解说声音过滤掉或者排除掉，以免其影响本申请实施例中服务器400生成的解说词的播放。

在一些实施例中，服务器400对体育赛事内容进行场景分类的步骤包括：

步骤S201，提取体育赛事内容中的实时图像和实时转播声音，分别识别实时图像中的图像元素和实时转播声音中的声音元素。

图像元素用于表示实时图像中的人物、文字、数字和/或物体。例如，识别出足球赛事图像中的球员、球员编号、场上当前比分等等。

声音元素用于表示实时图像中裁判发出的声音和/或观众声音和/或教练、队员的声音。例如，识别出足球赛事图像中的裁判的哨声、现场观众的欢呼声、队员的说话声、教练的指导声等等。

步骤S202，根据图像元素和声音元素分别判断出实时图像的图像类别和实时转播声音的声音类别。

例如，可以根据实时图像中识别出的球员、球员数量、观众数量和场地大小等元素，确定出实时图像是远景图像还是近景图像，图7为本申请实施例示出的一种足球比赛中远景图像的示意图，图8为本申请实施例示出的一种足球比赛中近景图像的示意图，如图7和图8所示，远景图像和近景图像在人物数量、人物大小、观众数量以及场地大小等方面均有一定的差异。

或者通过当前实时图像的一些特点确定当前实时图像是否为回放图像。图9为本申请实施例示出的一种体育赛事回放图像的示意图，图10为本申请实施例示出的另一种体育赛事回放图像的示意图。通常在体育赛事的播放过程中，会回放一些精彩瞬间，如图9所示在回放图像上也许会显示类似于“精彩瞬间”的提示，或者如图10所示在播放回放图像之前有单独的图像显示类似于“回放画面”的提示，服务器400通过这些提示或者图像特点来判断出当前实时图像是否为回放图像。

实时转播声音即为由转播源转播过来的比赛现场声音，其类别包括裁判哨声、观众声音、教练声音或者队员声音等。通常一个实时图像都会有对应的实时转播声音，其中的声音可以包括裁判哨声、观众声音、教练声音、球员声音等其中一种或者几种。

步骤S203，结合图像类别和声音类别，对体育赛事内容进行场景分类。

体育赛事的场景通常由是由图像和声音共同组成的，根据图像可以确定出场景中的主要人物、主要动作等，结合声音可以确定出场景中的主要事件。以足球比赛为例，如果其某个场景的图像中仅有某队一个22号球员张开双臂奔跑，同时现场观众发出欢呼声，那么结合图像和声音可以确定出这个场景为某队22号球员射球进门。足球比赛中的场景有很多，例如射门、进球、传球、中场休息、教练指导战术等等。

步骤S103，将场景分类结果作为输入，从深度学习模型中获得体育赛事内容对应的目标解说词。

深度学习模型为根据历史赛事的相关信息训练学习后获得的模型，并且采用的历史赛事时大量真实的赛事，以保证训练的内容更加全面，进而尽可能的包含实际应用中的各种赛事图像和声音。

通常来说，由于各类体育项目的差异性，需要训练针对于不同体育赛事的深度学习模型，例如针对于足球比赛的、针对于篮球比赛的或者针对于乒乓球比赛的等等。

本申请实施例中，需要将实时图像和实时转播声音相结合得出场景分类结果，深度学习模型在获得了场景分类后，也要结合相应的图像元素和声音元素，预测出有关于图像元素和声音元素的解说词。例如，一个XX队进球的场景中，有很多相同队服的球员在场地上奔跑，而此时的实时转播声音为现场观众的欢呼声，那么深度学习模型可以根据识别出的球队的信息和声音的内容产生类似于“XX队进球，观众热情欢呼”的预测解说词。再例如，一个比赛结束的场景中，双方队员都在场地上奔跑，同时实时转播声音为裁判的哨声，那么深度学习模型可以产生关于比赛进程的预测解说词，类似于“裁判一声哨响，比赛结束，最终比分为XX主场1:1闷平YY”等。

再或者，如图11所示，可将其确定为比赛开场的场景，根据开场的图像，从深度学习模型中获得关于球队A和球队B的相关介绍。图11为本申请实施例示出的一种足球比赛开场画面的示意图。

在一些实施例中，获得体育赛事内容对应的目标解说词的步骤可以包括：利用深度学习模型中的预设规则和知识图谱针对于分类后场景中的实时图像和实时声音生成相应的目标解说词。以足球比赛为例，深度学习模型需要学习历史足球比赛中各类的图像和声音，以及历史足球比赛中各类图像和声音对应的真实解说内容，进而自己形成一套类似于真实解说的过程，其中，预设规则的作用就是用于规定如何针对于不同类别的场景形成解说内容和解说过程。

一般情况下，如图7所示，远景图像包含的图像元素比较多，而近景图像通常为人物特写图像，如图8所示。仍以足球比赛为例，对于远景图像的解说词结合多是偏向于比赛阵容、比赛人数或者场上队伍的比赛情况等等，例如，“XX中路拿球，高速推进，左路YY已经前插到底线”等。对于近景的人物特写，解说词多是偏向于某个球员的介绍，例如，“镜头现在给到了XX，XX本赛季已经打进19球了，位居射手榜第一，现在状态火热”等。而对于回放图像来说，由于该图像的内容之前可以已经被深度学习模型预测过了解说词，所以再次回放时，需要再进行更加详细的解说。

步骤S104，将目标解说词发送给显示设备200，以使显示设备200在播放当前的体育赛事的同时以语音方式播放目标解说词。

在一些实施例中，显示设备200还可以向用户提供不同的解说风格，其中，解说风格解说时的内容风格和语音音色，例如幽默的、正式的、女声或者男声等等。具体的解说风格需要用户在显示设备200上预先选择，然后显示设备200把选择后的风格作为目标风格发送给服务器400，服务器400再将目标解说词转化为符合目标风格的解说词发送给显示设备200。进而，在一些实施例中，服务器400将目标解说词发送给显示设备200的步骤可以包括：

步骤S401，将目标解说词从文字内容转化为目标风格的语音内容。

上述目标风格用于表示用户选择的显示设备200播放所述目标解说词时的内容风格和语音音色。

由于深度学习模型输出的目标解说词通常为文字内容，但是显示设备200中需要通过智能语音助手等语音模块将目标解说词给用户读出来，因此，在服务器400中需要将目标解说词从文字内容转化为语音内容。

另外，由于用户在显示设备200上也要求了目标风格，因为在内容转化的过程中，还需要结合目标风格中风格和音色的特点，将目标解说词稍作变化，使得其满足特定风格和音色的特点，再将其转化为语音内容。此时，转化后的语音内容就能更加符合用户的要求。

步骤S402，将目标风格的语音内容发送给显示设备200。

相比于真人解说的风格单一性来说，服务器400可以将目标解说词变化为特定解说风格的内容，能够为用户提供更加多元化的体育赛事解说内容。

上述实施例中提供的体育赛事智能解说方法，可以实现服务器400与显示设备200之间的通信，由服务器400中的深度学习模型生成与显示设备200当前播放内容相匹配的解说词，显示设备200可以以这种解说词替代真人解说员进行解说，进而避免真人解说员带有个人主观情感而产生的解说内容不公正或者解说观点带地域偏袒性的问题；同时，由于深度学习模型是由大量历史赛事数据训练而来的，因此由服务器400提供的解说词相比于真人解说员的解说内容也可以更加具有专业性。

在一些实施例中，使用深度学习模型之前，还需要对深度学习模型进行训练，以便深度学习模型能够学习到真实的解说过程。图12为本申请实施例示出的一种深度学习模型的学习过程示意图，如图12所示，需要从历史赛事的视频资料中提取图像、图像对应的声音以及图像对应的历史解说词，深度学习模型结合知识图谱和预设规则对图像和声音进行分析，输出预测解说词，然后将预测解说词与历史解说词进行对比，如果对比结果不理想，则优化预设规则，再重新分析图像和声音生成新的预测解说词，这个对比和优化的过程可以看作是深度学习模型的迭代优化过程，优化后的深度学习模型就可以应用在实际的场景中，实现显示设备200上的体育赛事解说，事实上，对深度学习模型训练的过程也是对模型中的预设规则进行迭代优化的过程。并且根据图12所示的内容，在一些实施例中，训练深度学习模型可以包括如下步骤：

步骤S501，从历史赛事的视频资料中提取每一帧图像对应的现场声音和历史解说词。

历史解说词用于表示在历史赛事中由解说员说出的解说词。并且，作为训练数据的历史赛事与显示设备200当前需要解说的体育赛事的类型需要一致，例如，显示设备200当前播放的是篮球比赛，那么作为训练数据的历史赛事视频资料就应该是篮球比赛的视频资料；如果显示设备200当前播放的是足球比赛，那么作为训练数据的历史赛事视频资料就应该是足球比赛的视频资料。

在训练深度学习模型时，也需要将视频资料中每一帧的图像和对应的声音提取出来，在结合每一帧图像对应的历史解说词，使深度学习模型一帧一帧地学习。

步骤S502，利用历史赛事的相关知识图谱和预设规则分析每一帧图像的图像内容和现场声音，生成每一帧图像相应的预测解说词。

深度学习模型最初开始学习时，需要首先根据技术人员设计的初始预设规则根据图像的内容和声音生成一个预测解说词，这个预测解说词大概率上不能符合实际的解说需求，需要不断的优化的规则进而优化预测解说词的内容。

另外，本申请实施例中，在生成预测解说词时可以引入知识图谱，知识图谱用于表示与历史赛事相关的人员、教练、队伍和历史比赛信息，可以为预测解说词的生成提供比较专业的参考。真人在解说时，由于精力有限以及知识储备的原因，很多情况下是不可能对每一个球员、每一场赛事以及过往的比赛情况进行一一介绍的，这就造成了真人解说时一些内容单调或者不够专业的问题。而本申请实施例中，知识图谱可以弥补真人解说时知识储备量不够的问题，在对每一帧图像学习时，根据知识图谱的内容，进一步介绍各个队伍的历史比赛战绩、历史阵容或者各个球员的出场和战绩等。

在训练过程中，预测规则用于规定如何针对于每一帧图像形成解说内容和解说过程，再结合知识图谱补充一些图像内球队、队员或者教练等的一些信息，进而可以生成一套内容比较丰富的解说词。

步骤S503，将每一帧图像对应的历史解说词与每一帧图像对应的预测解说词对比；根据对比结果优化预设规则。

由于历史解说词是真实的解说词，其语言的逻辑性、流畅度和内容相关性等都比较高，因此，利用历史解说词与预测解说词进行对比，如果发现预测解说词的逻辑性、流畅度和内容相关性等都比历史解说词要高，那么说明预测解说词在大概率上比历史解说词的内容更加专业和丰富，那么当前的预设规则可以作为深度学习模型训练后的预设规则使用。

而如果预测解说词的逻辑性、流畅度和/或内容相关性等中一项或者任几项比历史解说词的低时，则说明预测解说词没有历史解说词的内容专业或者丰富，此时则需要修改预设的规则，使其更加优化。

步骤S504，利用优化后的预设规则和相关知识图谱再次分析每一帧图像的图像内容和现场声音，生成新的预测解说词。

步骤S505，将每一帧图像对应的历史解说词再次与每一帧图像对应的预测解说词对比，直至对比结果达到预设要求，进而获得针对于当前的体育赛事训练的深度学习模型。这里的判断对比结果是否达到预设要求可以理解为上述步骤S503中的判断预测解说词与历史解说词在逻辑性、流畅度和内容相关性等方面对比的结果。

训练后的深度学习模型中的预设规则可以规定如何针对于每一帧图像形成不同的解说内容和解说过程，也可以规定出针对于不同的图像从知识图谱中获得怎样的补充信息。例如，一副近景人物特写图像，通过深度学习模型的预测后，可以输出当前比赛情况的解说的内容，同时还可以从知识图谱中获得相关人物的介绍或者球队、教练的介绍等等，进而，在实际使用过程中，利用深度学习模型可以对某一生场景图像成一套内容比较丰富和专业的解说词。

另外，上述实施例中提到，为了使深度学习模型输出的预测解说词更加准确和专业，需要用大量的历史赛事资料对其进行训练，那么上述步骤S501-步骤S505的过程需要针对于大料历史赛事资料中的每一帧图像都进行一次，以保证深度学习模型学习到尽可能多的图像类别和声音类别。

值得说明的是，本申请实施例中虽然对整体的比赛视频进行了图像的拆分或者提取，但是有些图像内容之间是具有连续性的，针对于连续性图像之间的解说词也需要具有一定的承接作用，例如，如图11所示的开场画面，其下一个画面通常为双方的首发阵容介绍，那么此时针对于具有连续性开场画面而言，显示设备200从服务器400获取的目标解说词就可以是图11所示中的解说词。连续性的解说内容和解说过程也是深度学习模型通过大量的历史赛事资料训练而学习到的，而具体的训练过程也包含在本申请实施例的深度学习模型训练过程中。

本申请实施例中，深度学习模型的迭代优化过程实际上有两次，分别是上述实施例中在训练深度学习模型时的迭代优化过程，和在实际使用中根据用户反馈对深度学习模型进行迭代优化的过程。在实际使用中，服务器400将目标解说词发送给显示设备200之后，还需要获得用户对于目标解说词的反馈，获取反馈的过程可以是显示设备200向用户询问本次的解说内容是否满意，用户通过选择是或者否等选项向显示设备200反馈，显示设备200再将反馈结果发送给服务器400。

进而，在一些实施例中，服务器400在接收到显示设备200发送的用户对于目标解说词的反馈内容之后，如果反馈内容为不满意或者其他表示不满意的内容时，服务器400需要重新优化深度学习模型中的预设规则。

上述实施例中的体育赛事智能解说方法应用在服务器400中，可以实现服务器400中的深度学习模型训练、目标解说词的输出等过程，并且输出的目标解说词可以替代真人解说员的解说词，进而避免真人解说员带有个人主观情感而产生的解说内容不公正或者解说观点带地域偏袒性的问题；同时，由于深度学习模型是由大量历史赛事数据训练而来的，因此由服务器400提供的解说词相比于真人解说员的解说内容也可以更加具有专业性。另外，服务器400还可以根据显示设备200端用户的风格要求，产生特定风格的目标解说词，能够为用户提供更加多元化的体育赛事解说内容。

上述实施例中，深度学习模型在训练时，是结合每一帧图像的内容和声音共同进行学习，其中声音可以具体关注比较有特殊意义的声音，比如裁判的哨声或者观众的欢呼声或者教队员的声音，因为这些哨声可以分辨出当前场上的比赛进程，例如，中场休息或者进球等等。但是实际情况下，也不排除比赛进程中包括其他的现场声音，如果其具有一定的特殊意义，也可以作为深度模型学习的内容。

图13为本申请实施例示出的另一种体育赛事智能解说方法的流程图，该方法主要由显示设备200实现，其余在服务器400上所进行的操作和内容均与前述实施例中的内容相同，不再赘述。图13所示的方法具体可以包括如下步骤：

步骤S601，将显示设备200上当前播放的体育赛事内容实时发送到服务器400。

步骤S602，接收服务器400发送的符合目标风格的目标解说词。

目标解说词为服务器400根据体育赛事内容的场景类别，从深度学习模型中获得的解说词。深度学习模型为根据历史赛事的相关信息训练学习后获得的模型；历史赛事与当前体育赛事的类型相同。体育赛事内容用于表示显示设备200当前播放的体育赛事的实时图像和与实时图像匹配的实时转播声音。目标风格用于表示用户选择的显示设备200播放目标解说词时的内容风格和语音音色。

步骤S603，将目标解说词以语音的方式与体育赛事内容同步播出。

图14为本申请实施例示出的一种显示设备200与服务器400之间通信的交互示意图，如图14所示，显示设备200可以将当前播放的体育赛事内容实时发送到服务器400；服务器400根据体育赛事内容的场景分类结果从深度学习模型中获得对应的目标解说词，并将目标解说词发送给显示设备200；显示设备200再将目标解说词以语音的方式与体育赛事内容同步播出。

图15为本申请实施例示出的针对于一种足球比赛图像进行解说的示意图，如果显示设备200当前正在播放足球比赛，其中某一个场景图像如图15所示，为B队23号球员飞身堵球，A队3号球员射门，那么此时显示设备200可以从服务器400获得如图15所示的解说词“A队右路下底传中到门前，3号球员XX不停球侧身直接凌空抽射，B队的23号球员赶紧飞身封堵”。

图16为本申请实施例示出的针对于另一种足球比赛图像进行解说的示意图，如果显示设备200当前播放的足球比赛中，某一个场景图像如图16所示，为A队的22号球员XX奔跑庆祝，并且观众欢呼，那么此时显示设备200可以从服务器400获得如图16所示的解说词“这球进了，1比0，这是天若有情天亦老，看见XX蒙一脚。防守球员还是慢了一步啊”。

或者如图11所示，显示设备200从服务器400中获得关于比赛开场时的解说词“各位球迷朋友们晚上好，下面为您直接的是MM杯小组赛C组，由A队对阵B队，我们先开看一下双方的首发阵容……”。

另外，前述实施例中提到，用户可以通过显示设备200设置智能解说的风格，那么如果用户选择的是比较幽默的解说风格，则显示设备200可能也会从服务器400中获得如图16中这种内容比较幽默的解说词。

本申请实施例中，由服务器400中的深度学习模型生成与显示设备200当前播放内容相匹配的解说词，显示设备200可以以这种解说词替代真人解说员进行解说，进而避免真人解说员带有个人主观情感而产生的解说内容不公正或者解说观点带地域偏袒性的问题；同时，由于深度学习模型是由大量历史赛事数据训练而来的，因此由服务器400提供的解说词相比于真人解说员的解说内容也可以更加具有专业性。

本申请实施例还提供了一种服务器400，该服务器400包括：处理器，用于执行：实时获取显示设备200上当前播放的体育赛事内容；所述体育赛事内容用于表示显示设备200当前播放的体育赛事的实时图像和与实时图像匹配的实时转播声音；根据所述实时图像的图像解析结果和所述实时转播声音的声音解析结果，对所述体育赛事内容进行场景分类；将所述场景分类结果作为输入，从深度学习模型中获得所述体育赛事内容对应的目标解说词；所述深度学习模型为根据历史赛事的相关信息训练学习后获得的模型；所述历史赛事与当前体育赛事的类型相同；将所述目标解说词发送给显示设备200，以使所述显示设备200在播放当前的体育赛事的同时以语音方式播放所述目标解说词。

在一些实施例中，服务器400的处理器还用于执行：将所述目标解说词从文字内容转化为目标风格的语音内容；所述目标风格用于表示用户选择的显示设备200播放所述目标解说词时的内容风格和语音音色；将目标风格的所述语音内容发送给所述显示设备200。

在一些实施例中，服务器400的处理器还用于执行：分别识别所述实时图像中的图像元素和所述实时转播声音中的声音元素；所述图像元素用于表示所述实时图像中的人物、文字、数字和/或物体；所述声音元素用于表示所述实时图像中裁判发出的声音和/或观众声音和/或教练、队员的声音；根据所述图像元素和所述声音元素分别判断出所述实时图像的图像类别和所述实时转播声音的声音类别；结合所述图像类别和所述声音类别，对所述体育赛事内容进行场景分类。

在一些实施例中，服务器400的处理器还用于执行：训练所述深度学习模型，从所述历史赛事的视频资料中提取每一帧图像对应的现场声音和历史解说词；所述历史解说词用于表示在所述历史赛事中由解说员说出的解说词；利用所述历史赛事的相关知识图谱和预设规则分析每一帧图像的图像内容和所述现场声音，生成每一帧图像相应的预测解说词；所述知识图谱用于表示与所述历史赛事相关的人员、教练、队伍和历史比赛信息；将每一帧图像对应的历史解说词与每一帧图像对应的所述预测解说词对比；根据对比结果优化所述预设规则；利用优化后的所述预设规则和所述相关知识图谱再次分析每一帧图像的图像内容和所述现场声音，生成新的预测解说词；将每一帧图像对应的历史解说词再次与每一帧图像对应的所述预测解说词对比，直至对比结果达到预设要求，进而获得针对于当前的体育赛事训练的深度学习模型。

在一些实施例中，服务器400的处理器还用于执行：利用所述深度学习模型中的预设规则和知识图谱针对于分类后场景中的实时图像和实时声音生成相应的目标解说词。

在一些实施例中，服务器400的处理器还用于执行：接收所述显示设备200发送的用户对于所述目标解说词的反馈内容；根据所述反馈内容优化所述深度学习模型中的预设规则。

本申请实施例还提供了一种显示设备200，该显示设备200包括：显示器275；通信器220，用于与服务器400进行通信；控制器250，用于执行：将显示设备200上当前播放的体育赛事内容实时发送到服务器400；接收服务器400发送的符合目标风格的目标解说词；所述目标解说词为服务器400根据所述体育赛事内容的场景类别，从深度学习模型中获得的解说词；所述深度学习模型为根据历史赛事的相关信息训练学习后获得的模型；所述历史赛事与当前体育赛事的类型相同；所述体育赛事内容用于表示显示设备200当前播放的体育赛事的实时图像和与实时图像匹配的实时转播声音；所述目标风格用于表示用户选择的显示设备200播放所述目标解说词时的内容风格和语音音色；将所述目标解说词以语音的方式与所述体育赛事内容同步播出。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种体育赛事智能解说方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，将所述目标解说词发送给显示设备的步骤包括：

将目标风格的所述语音内容发送给所述显示设备。

3.根据权利要求1所述的方法，其特征在于，根据所述实时图像的图像解析结果和所述实时转播声音的声音解析结果，对所述体育赛事内容进行场景分类的步骤包括：

4.根据权利要求1所述的方法，其特征在于，在将所述场景分类结果作为输入，从深度学习模型中获得所述体育赛事内容对应的目标解说词的步骤之前，还包括训练所述深度学习模型；训练所述深度学习模型的步骤包括：

根据对比结果优化所述预设规则；

5.根据权利要求4所述的方法，其特征在于，将所述场景分类结果作为输入，从深度学习模型中获得所述体育赛事内容对应的目标解说词的步骤，包括：

6.根据权利要求4所述的方法，其特征在于，在将所述目标解说词发送给显示设备的步骤之后，还包括：

根据所述反馈内容优化所述深度学习模型中的预设规则。

7.根据权利要求3所述的方法，其特征在于，所述图像类别包括：远景图像、近景图像和/或回放图像。

8.一种体育赛事智能解说方法，其特征在于，包括：

将显示设备上当前播放的体育赛事内容实时发送到服务器；

9.一种服务器，其特征在于，包括：

处理器，用于执行：

10.一种显示设备，其特征在于，包括：

显示器；

通信器，用于与服务器进行通信；

控制器，用于执行：

将显示设备上当前播放的体育赛事内容实时发送到服务器；