CN107146620A

CN107146620A - 一种赛事状况数据展现方法和装置

Info

Publication number: CN107146620A
Application number: CN201710177032.2A
Authority: CN
Inventors: 杨文俊; 张大勇; 陈栋宇; 黄德权; 田凤萍; 廉志昌
Original assignee: Beijing Dawn Multimedia Technology Co Ltd
Current assignee: Beijing Dawn Multimedia Technology Co Ltd
Priority date: 2017-03-22
Filing date: 2017-03-22
Publication date: 2017-09-08

Abstract

本发明实施例提供了一种赛事状况数据展现方法和装置，包括：获取赛事语音数据；将所述赛事语音数据，识别为文本数据；提取所述文本数据中的结构化数据；采用所述结构化数据，生成赛事状况数据；将所赛事状况数据发送至前端页面进行展现。在本发明实施例中，服务器实时收集赛事语音数据，将赛事语音数据识别为文本数据，然后提取文本数据中的结构化数据，并根据结构化数据统计生成赛事状况数据，最后将赛事状况数据返回至前端页面进行展现。本发明实施例中，由服务器实现了赛事状况数据的快速分析统计，从而使得用户可以在赛事进行的同时，快速获得赛事状况数据。

Description

一种赛事状况数据展现方法和装置

技术领域

本发明涉及通信技术领域，特别是涉及一种赛事状况数据展现方法和一种赛事状况数据展现装置。

背景技术

随着人们对体育赛事关注度的提升，以及移动互联网的兴起，实时提供赛事状况数据成为一个关键的功能。

但目前赛事状况数据的提供仍存在很多挑战：一是赛事的多样化，由于举办方的限制，数据采集者不可能在现场做太多改动；二是数据量大，对于足球、篮球这类节奏快、时间长的比赛，一场比赛下来会产生大量的数据，如何从大量的数据中提取有价值的信息是一个值得关注的问题；三是稳定性，由于比赛场地，天气状况以及各种人为因素，数据收集的稳定性受到很大威胁，根据经验，极少的体育赛事直播过程能完全不出现问题。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种赛事状况数据展现方法和一种赛事状况数据展现装置。

为了解决上述问题，本发明实施例公开了一种赛事状况数据展现方法，包括：

获取赛事语音数据；

将所述赛事语音数据，识别为文本数据；

提取所述文本数据中的结构化数据；

采用所述结构化数据，生成赛事状况数据；

将所赛事状况数据发送至前端页面进行展现。

优选的，所述提取所述文本数据中的结构化数据的步骤包括：

识别所述文本数据中的命名实体；

采用所述命名实体，组成结构化数据。

优选的，所述将所述赛事语音数据，识别为文本数据的步骤包括：

将所述赛事语音数据输入预先建立的基于深度学习的语音识别模型进行识别，得到文本数据。

优选的，所述预先建立的基于深度学习的语音识别模型通过如下方式生成：

获取采用包含体育赛事数据的语音训练数据；

将所述语音训练数据输入到深度学习网络进行训练，得到基于深度学习的语音识别模型。

优选的，所述识别所述文本数据中的命名实体的步骤包括：

将所述文本数据输入预先建立的命名实体模型进行标注，获得命名实体。

本发明实施例还公开了一种赛事状况数据展现方法，包括：

收集赛事语音数据；

将所述赛事语音数据上传至预设服务器；所述预设服务器将所述赛事语音数据，识别为文本数据；采用所述文本数据，生成赛事状况数据；将所赛事状况数据发送至前端页面进行展现。

优选的，还包括：

在当前接收赛事语音数据的服务器出现异常时，确定未出现异常的新服务器；

切换至所述新服务器进行赛事语音数据的上传。

本发明实施例还公开了一种赛事状况数据展现装置，包括：

赛事语音数据获取模块，用于获取赛事语音数据；

文本数据识别模块，用于将所述赛事语音数据，识别为文本数据；

结构化数据提取模块，用于提取所述文本数据中的结构化数据；

赛事状况数据生成模块，用于采用所述结构化数据，生成赛事状况数据；

赛事状况数据发送模块，用于将所赛事状况数据发送至前端页面进行展现。

优选的，所述结构化数据提取模块包括：

命名实体识别子模块，用于识别所述文本数据中的命名实体；

结构化数据组成子模块，用于采用所述命名实体，组成结构化数据。

优选的，所述文本数据识别模块包括：

模型识别子模块，用于将所述赛事语音数据输入预先建立的基于深度学习的语音识别模型进行识别，得到文本数据。

优选的，所述预先建立的基于深度学习的语音识别模型通过如下模块生成：

语音训练数据获取模块，用于获取采用包含体育赛事数据的语音训练数据；

语音识别模型训练模块，用于将所述语音训练数据输入到深度学习网络进行训练，得到基于深度学习的语音识别模型。

优选的，所述命名实体识别子模块包括：

模型标注单元，用于将所述文本数据输入预先建立的命名实体模型进行标注，获得命名实体。

本发明实施例还公开了一种赛事状况数据展现装置，包括：

赛事语音数据收集模块，用于收集赛事语音数据；

赛事语音数据上传模块，用于将所述赛事语音数据上传至预设服务器；所述预设服务器将所述赛事语音数据，识别为文本数据；采用所述文本数据，生成赛事状况数据；将所赛事状况数据发送至前端页面进行展现。

优选的，还包括：

新服务器确定模块，用于在当前接收赛事语音数据的服务器出现异常时，确定未出现异常的新服务器；

服务器切换模块，用于切换至所述新服务器进行赛事语音数据的上传。

本发明实施例包括以下优点：

在本发明实施例中，服务器实时收集赛事语音数据，将赛事语音数据识别为文本数据，然后提取文本数据中的结构化数据，并根据结构化数据统计生成赛事状况数据，最后将赛事状况数据返回至前端页面进行展现。本发明实施例中，由服务器实现了赛事状况数据的快速分析统计，从而使得用户可以在赛事进行的同时，快速获得赛事状况数据。

在本发明实施例中，当数据传输异常时，客户端马上切换至另一个服务器进行赛事语音数据的上传，由新的服务器实现赛事状况数据的快速分析统计，保证赛事状况数据能稳定展现。

附图说明

图1是本发明的一种赛事状况数据展现方法实施例1的步骤流程图；

图2是本发明实施例中一种采用双向-长短期记忆网络模型BLSTM对文本数据进行标注的示意图；

图3是本发明的一种赛事状况数据展现方法实施例2的步骤流程图；

图4是本发明的一种赛事状况数据展现装置实施例1的结构框图；

图5是本发明的一种赛事状况数据展现装置实施例2的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种赛事状况数据展现方法实施例1的步骤流程图，具体可以包括如下步骤：

步骤101，服务器获取赛事语音数据；

在体育赛事举行过程中，通常由演播室的主持人对赛事进行讲解。在本发明实施例中，可以为主持人配置一个客户端，由客户端收集主持人讲解的赛事语音数据。之后，客户端将收集的赛事语音数据上传至服务器。

考虑到赛事直播的稳定性，客户端可以与多个服务器建立通信，选择其中一个服务器进行赛事语音数据的上传，并通过监控系统监控数据传输情况。当数据传输异常时，客户端马上切换至另一个服务器进行赛事语音数据的上传。

步骤102，将所述赛事语音数据，识别为文本数据；

服务器在收集了客户端上传的赛事语音数据后，将赛事语音数据识别为文本数据。具体的，所述步骤102可以为：将所述赛事语音数据输入预先建立的基于深度学习的语音识别模型进行识别，得到文本数据。

所述预先建立的基于深度学习的语音识别模型通过如下方式生成：

获取采用包含体育赛事数据的语音训练数据；

基于深度学习的语音识别模型的识别效果，与训练数据的类型有关。通常为了建立识别某一类型的数据识别模型，可以采用同样类型的数据进行训练。

在本发明实施例中，在训练数据中增加了大量的体育赛事数据，因此可以很好的提升语音识别模型识别与体育赛事相关的文本数据。

步骤103，提取所述文本数据中的结构化数据；

在本发明实施例中，结构化数据是对体育赛事中特定事件的定义。

例如，在足球比赛中，特定事件包括有射门事件，射门事件可能包含以下属性：谁，在什么位置，什么时间，射门是否成功。

又例如，在篮球比赛中，特定事件包括有投篮事件，投篮事件可能包含以下属性：谁，在什么位置，什么时间，投篮是否成功。

在本发明实施例中，所述步骤103具体可以包括如下子步骤：

子步骤S11，识别所述文本数据中的命名实体；

命名实体是指人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的实体还包括数字、日期、时间、动作等等。

在自然语言处理技术中，命名实体识别的本质可以认为是一个序列标注问题。

所谓序列标注是指对一个输入序列(X＝x1，x2，x3，……，xn)中的每个元素打上标注集合中的某个标注，得到标注序列(Y＝y1，y2，y3，……，yn)。

例如，假设标注集合包括4种(B：人名开始；M：人名中间；E：人名结束；N：不是人名)。输入序列为“张三和李四去吃饭”对应的标注序列为：BENBENNN。

在得到标注序列后，可以根据各个字的标注，切分得到各个词性的命名实体。例如，BE的标注组合对应的是人名的命名实体，当出现BE时进行切分，出现N时进行切分。则切分的标注序列为：BE/N/BE/N/N/N。对应的输入序列切分为：张三/和/李四/去/吃/饭。

在对输入序列进行分词后，可以按照得到各个词性的命名实体。

本领域技术人员应该可以理解，上述的命名实体识别方法仅仅是本发明的示例，本领域技术人员可以命名实体识别方法，本发明在此不作限制。如，在标注集合中可以设定更多的标注类型。选择命名实体时，可以采用其他标注类型作为命名实体。

在本发明实施例中，所述子步骤S11可以为：将所述文本数据输入预先建立的命名实体模型进行标注，获得命名实体。

具体的，可以采用预先建立的BLSTM(Bidirectional Long Short-Term Memory，双向-长短期记忆网络)模型对文本数据进行标注。

参照图2所示，为本发明实施例中一种采用双向-长短期记忆网络模型BLSTM对文本数据进行标注的示意图。其中双向LSTM模型包括多对双向的节点，在向BLSTM模型输入文本数据“科比命中率”后，BLSTM模型中的每一对节点分别对一个字进行标注。例如，标注集合包括：(BN：球员名称开始；EN：球员名称结束；BP：篮球术语开始；MP：篮球术语中间；EP：篮球术语结束)。

图中，对“科”标注为BN，对“比”标注为EN，对“命”标注为BP，对“中”标注为MP，对“率”标注为EP。

根据对各个字的标注可以确定文本中的命名实体。如根据BN，EN的组合可以确定球员名称“科比”。根据BP，MP，EP的组合可以确定篮球术语“命中率”。

子步骤S12，采用所述命名实体，组成结构化数据。

在本发明实施例中，一段文本数据中可以包括多种标注的命名实体，而结构化数据可以是由特定标注的命名实体组成的数据。

例如，一段文本数据的命名实体包括：人名命名实体、时间命名实体、动作命名实体、地点命名实体。结构化数据是由人名命名实体、动作命名实体组成的数据。

如：梅西在边路射球。其中的人名命名实体为：梅西；动作命名实体为射球。结构化数据则为梅西射球。

步骤104，采用所述结构化数据，生成赛事状况数据；

赛事状况数据，可以是赛事过程中的技术统计数据。例如，射球次数、传球次数、罚球次数等等。根据整场比赛的结构化数据，统计中赛事中的各项技术统计数据。

步骤105，将所赛事状况数据发送至前端页面进行展现。

前端页面可以是指应用程序APP中的页面，或者浏览器打开的网页页面等。用户可以在前端页面查看各种赛事状况数据。

参照图3，示出了本发明的一种赛事状况数据展现方法实施例2的步骤流程图，具体可以包括如下步骤：

步骤201，客户端收集赛事语音数据；

步骤202，将所述赛事语音数据上传至预设第一服务器；所述第一预设服务器将所述赛事语音数据，识别为文本数据；采用所述文本数据，生成赛事状况数据；将所赛事状况数据发送至前端页面进行展现。

在本发明实施例中，所述的方法还可以包括：

切换至所述新服务器进行赛事语音数据的上传。

当数据传输异常时，客户端马上切换至另一个服务器进行赛事语音数据的上传，由新的服务器实现赛事状况数据的快速分析统计，保证赛事状况数据能稳定展现。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明的一种赛事状况数据展现装置实施例1的结构框图，具体可以包括如下模块：

位于服务器的赛事语音数据获取模块301，用于获取赛事语音数据；

位于服务器的文本数据识别模块302，用于将所述赛事语音数据，识别为文本数据；

位于服务器的结构化数据提取模块303，用于提取所述文本数据中的结构化数据；

位于服务器的赛事状况数据生成模块304，用于采用所述结构化数据，生成赛事状况数据；

位于服务器的赛事状况数据发送模块305，用于将所赛事状况数据发送至前端页面进行展现。

在本发明实施例中，所述结构化数据提取模块303可以包括：

在本发明实施例中，所述文本数据识别模块302可以包括：

在本发明实施例中，所述预先建立的基于深度学习的语音识别模型可以通过如下模块生成：

在本发明实施例中，所述命名实体识别子模块可以包括：

参照图5，示出了本发明的一种赛事状况数据展现装置实施例2的结构框图，具体可以包括如下模块：

位于客户端的赛事语音数据收集模块401，用于收集赛事语音数据；

位于客户端的赛事语音数据上传模块402，用于将所述赛事语音数据上传至预设服务器；所述预设服务器将所述赛事语音数据，识别为文本数据；采用所述文本数据，生成赛事状况数据；将所赛事状况数据发送至前端页面进行展现。

在本发明实施例中，所述的装置还可以包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种赛事状况数据展现方法和一种赛事状况数据展现装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种赛事状况数据展现方法，其特征在于，包括：

获取赛事语音数据；

将所述赛事语音数据，识别为文本数据；

提取所述文本数据中的结构化数据；

采用所述结构化数据，生成赛事状况数据；

将所赛事状况数据发送至前端页面进行展现。

2.根据权利要求1所述的方法，其特征在于，所述提取所述文本数据中的结构化数据的步骤包括：

识别所述文本数据中的命名实体；

采用所述命名实体，组成结构化数据。

3.根据权利要求1所述的方法，其特征在于，所述将所述赛事语音数据，识别为文本数据的步骤包括：

4.根据权利要求3所述的方法，其特征在于，所述预先建立的基于深度学习的语音识别模型通过如下方式生成：

获取采用包含体育赛事数据的语音训练数据；

5.根据权利要求2所述的方法，其特征在于，所述识别所述文本数据中的命名实体的步骤包括：

6.一种赛事状况数据展现方法，其特征在于，包括：

收集赛事语音数据；

7.根据权利要求6所述的方法，其特征在于，还包括：

切换至所述新服务器进行赛事语音数据的上传。

8.一种赛事状况数据展现装置，其特征在于，包括：

赛事语音数据获取模块，用于获取赛事语音数据；

9.根据权利要求8所述的装置，其特征在于，所述结构化数据提取模块包括：

10.根据权利要求8所述的装置，其特征在于，所述文本数据识别模块包括：

11.根据权利要求10所述的装置，其特征在于，所述预先建立的基于深度学习的语音识别模型通过如下模块生成：

12.根据权利要求9所述的装置，其特征在于，所述命名实体识别子模块包括：

13.一种赛事状况数据展现装置，其特征在于，包括：

赛事语音数据收集模块，用于收集赛事语音数据；

14.根据权利要求13所述的装置，其特征在于，还包括：