CN112052375B

CN112052375B - 舆情获取和词粘度模型训练方法及设备、服务器和介质

Info

Publication number: CN112052375B
Application number: CN202011058837.3A
Authority: CN
Inventors: 章文俊; 黄强; 方军; 潘旭; 李云聪; 杨哲; 洪赛丁
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2024-06-11
Anticipated expiration: 2040-09-30
Also published as: JP2022058098A; KR20220044074A; EP3979126A1; KR102527589B1; US20220101009A1; CN112052375A; US11610401B2

Abstract

本公开提供一种舆情获取和词粘度模型训练方法及设备、服务器和介质，涉及人工智能技术领域，具体涉及图像识别、自然语言处理，可用于云平台。一种视频舆情获取方法，包括：接收舆情获取请求，其中所述舆情获取请求包括所要获取的舆情关键词；将所要获取的舆情关键词与包含识别结果的视频数据进行匹配，其中，识别结果是对所述视频数据进行预定义内容识别获得的，预定内容识别包括文本识别和图像识别；以及确定经匹配得到的视频数据作为结果视频数据。

Description

舆情获取和词粘度模型训练方法及设备、服务器和介质

技术领域

本公开涉及人工智能技术领域，具体涉及图像识别、自然语言处理，特别涉及一种舆情获取和词粘度模型训练方法及设备、服务器和介质。

背景技术

目前的舆情监控系统主要是从各媒体网站、社交平台、移动端采集文本类舆情信息。但随着技术的发展，越来越多的舆情信息采用富媒体的方式发布和传播，如视频。现有的舆情产品对视频数据的识别也是基于其周边文本如视频标题、视频描述等进行识别，以根据用户输入的关键词与识别信息进行匹配并召回，缺少对视频内容本身的理解。而且，现有的舆情产品虽然可以实现文本类型的识别和匹配，但其文本类型的识别和匹配一般较简单，容易出现描述偏差；而且对视频数据的信息挖掘不够充分，可能导致最终的舆情预测精度不够准确，无法对视频中提及或展示的内容进行召回，导致系统的召回率低。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

根据本公开的一个方面，提供了一种视频舆情获取方法，包括：接收舆情获取请求，其中舆情获取请求包括所要获取的舆情关键词；将所要获取的舆情关键词与包含识别结果的视频数据进行匹配，其中，识别结果是对所述视频数据进行预定义内容识别获得的，预定内容识别包括文本识别和图像识别；以及确定经匹配得到的视频数据作为结果视频数据。

根据本公开的另一个方面，提供了一种词粘度模型训练方法，包括：对文本语料进行分词，以获得多个词对作为训练样本，其中所述词对包括前词和后词两个词；基于所述训练样本训练所述词粘度模型，以使得所述词粘度模型输出每一个词对能够组成关键短语的概率；以及通过梯度下降训练所述词粘度模型，直到所词粘度模型达到预设条件则停止训练，其中预设条件包括预设精度或预设训练次数。

根据本公开的又一个方面，提供了一种视频舆情获取设备，包括：接收单元，配置为接收舆情获取请求，其中所述舆情获取请求包括所要获取的舆情关键词；匹配单元，配置为将所要获取的舆情关键词与包含识别结果的视频数据进行匹配，其中，识别结果是对所述视频数据进行预定义内容识别获得的，预定内容识别包括文本识别和图像识别；以及确定单元，配置为确定经匹配得到的视频数据作为结果视频数据。

根据本公开的又一个方面，提供了一种词粘度模型训练设备，包括：取样单元，配置为对文本语料进行分词，以获得多个词对作为训练样本，其中所述词对包括前词和后词两个词；训练单元，配置为基于所述训练样本训练所述词粘度模型，以使得所述词粘度模型输出每一个词对能够组成关键短语的概率；以及响应单元，配置为通过梯度下降训练所述词粘度模型，直到所述词粘度模型达到预设条件则停止训练，其中所述预设条件包括预设精度或预设训练次数。

根据本公开的又一个方面，提供了一种服务器，包括：处理器；以及存储程序的存储器，该程序包括指令，该指令在由处理器执行时使处理器执行本公开中所述的视频舆情获取方法。

根据本公开的又一个方面，提供了一种存储程序的计算机可读存储介质，该程序包括指令，该指令在由服务器的处理器执行时，致使服务器执行本公开中所述的视频舆情获取方法。

根据本公开的又一个方面，提供了一种计算机程序产品，包括计算机程序，其中，该计算机程序在被处理器执行时实现本公开中所述的视频舆情获取方法。

根据本公开的又一个方面，提供了一种服务器，包括：处理器；以及存储程序的存储器，该程序包括指令，该指令在由处理器执行时使处理器执行本公开中所述的词粘度模型训练方法。

根据本公开的又一个方面，提供了一种存储程序的计算机可读存储介质，该程序包括指令，该指令在由服务器的处理器执行时，致使服务器执行本公开中所述的词粘度模型训练方法。

根据本公开的又一个方面，提供了一种计算机程序产品，包括计算机程序，其中，该计算机程序在被处理器执行时实现本公开中所述的词粘度模型训练方法。

根据本公开的一个方面，该视频舆情获取方法能够细粒度识别文本信息，提高了文本识别的准确性。

根据在下文中所描述的实施例，本公开的这些和其它方面将是清楚明白的，并且将参考在下文中所描述的实施例而被阐明。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图；

图2示出了根据本公开的实施例的视频舆情获取方法的流程图；

图3示出了根据本公开的实施例的词粘度模型训练方法的流程图；

图4示出了根据本公开的实施例的视频舆情获取设备的结构框图；

图5示出了根据本公开的实施例的词粘度模型训练设备的结构框图；以及

图6示出了能够用于实现本公开的实施例的示例性服务器和客户端的结构框图。

具体实施方式

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

因近期短视频媒介平台用户规模大幅度提升，大量的网络舆情的通过短视频的方式进行发酵和传播，对短视频媒介的舆情监控对于舆情产品来说越来越重要。通过视频舆情监控和分析能力，对视频内容进行解析识别，帮助客户快速掌握短视频舆情信息和发展态势，满足客户对于视频舆情监控的需求。

下面将结合附图详细描述本公开的实施例。

图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性系统100的示意图。参考图1，该系统100包括一个或多个客户端设备101、102、103、104、105和106、服务器120以及将一个或多个客户端设备耦接到服务器120的一个或多个通信网络110。客户端设备101、102、103、104、105和106可以被配置为执行一个或多个应用程序。

在本公开的实施例中，服务器120可以运行使得能够获取视频舆情的方法的一个或多个服务或软件应用。

在某些实施例中，服务器120还可以提供可以包括非虚拟环境和虚拟环境的其他服务或软件应用。在某些实施例中，这些服务可以作为基于web的服务或云服务提供，例如在软件即服务(SaaS)模型下提供给客户端设备101、102、103、104、105和/或106的用户。

在图1所示的配置中，服务器120可以包括实现由服务器120执行的功能的一个或多个组件。这些组件可以包括可由一个或多个处理器执行的软件组件、硬件组件或其组合。操作客户端设备101、102、103、104、105和/或106的用户可以依次利用一个或多个客户端应用程序来与服务器120进行交互以利用这些组件提供的服务。应当理解，各种不同的系统配置是可能的，其可以与系统100不同。因此，图1是用于实施本文所描述的各种方法的系统的一个示例，并且不旨在进行限制。

用户可以使用客户端设备101、102、103、104、105和/或106来发起视频舆情获取请求和/或词粘度模型训练。客户端设备可以提供使客户端设备的用户能够与客户端设备进行交互的接口。客户端设备还可以经由该接口向用户输出信息。尽管图1仅描绘了六种客户端设备，但是本领域技术人员将能够理解，本公开可以支持任何数量的客户端设备。

客户端设备101、102、103、104、105和/或106可以包括各种类型的计算系统，例如便携式手持设备、通用计算机(诸如个人计算机和膝上型计算机)、工作站计算机、可穿戴设备、游戏系统、瘦客户端、各种消息收发设备、传感器或其他感测设备等。这些计算设备可以运行各种类型和版本的软件应用程序和操作系统，例如Microsoft Windows、Apple iOS、类UNIX操作系统、Linux或类Linux操作系统(例如Google Chrome OS)；或包括各种移动操作系统，例如Microsoft Windows Mobile OS、iOS、Windows Phone、Android。便携式手持设备可以包括蜂窝电话、智能电话、平板电脑、个人数字助理(PDA)等。可穿戴设备可以包括头戴式显示器和其他设备。游戏系统可以包括各种手持式游戏设备、支持互联网的游戏设备等。客户端设备能够执行各种不同的应用程序，例如各种与Internet相关的应用程序、通信应用程序(例如电子邮件应用程序)、短消息服务(SMS)应用程序，并且可以使用各种通信协议。

网络110可以是本领域技术人员熟知的任何类型的网络，其可以使用多种可用协议中的任何一种(包括但不限于TCP/IP、SNA、IPX等)来支持数据通信。仅作为示例，一个或多个网络110可以是局域网(LAN)、基于以太网的网络、令牌环、广域网(WAN)、因特网、虚拟网络、虚拟专用网络(VPN)、内部网、外部网、公共交换电话网(PSTN)、红外网络、无线网络(例如蓝牙、WIFI)和/或这些和/或其他网络的任意组合。

服务器120可以包括一个或多个通用计算机、专用服务器计算机(例如PC(个人计算机)服务器、UNIX服务器、中端服务器)、刀片式服务器、大型计算机、服务器群集或任何其他适当的布置和/或组合。服务器120可以包括运行虚拟操作系统的一个或多个虚拟机，或者涉及虚拟化的其他计算架构(例如可以被虚拟化以维护服务器的虚拟存储设备的逻辑存储设备的一个或多个灵活池)。在各种实施例中，服务器120可以运行提供下文所描述的功能的一个或多个服务或软件应用。

服务器120中的计算系统可以运行包括上述任何操作系统以及任何商业上可用的服务器操作系统的一个或多个操作系统。服务器120还可以运行各种附加服务器应用程序和/或中间层应用程序中的任何一个，包括HTTP服务器、FTP服务器、CGI服务器、JAVA服务器、数据库服务器等。

在一些实施方式中，服务器120可以包括一个或多个应用程序，以分析和合并从客户端设备101、102、103、104、105和106的用户接收的数据馈送和/或事件更新。服务器120还可以包括一个或多个应用程序，以经由客户端设备101、102、103、104、105和106的一个或多个显示设备来显示数据馈送和/或实时事件。

系统100还可以包括一个或多个数据库130。在某些实施例中，这些数据库可以用于存储数据和其他信息。例如，数据库130中的一个或多个可用于存储诸如音频文件和视频文件的信息。数据存储库130可以驻留在各种位置。例如，由服务器120使用的数据存储库可以在服务器120本地，或者可以远离服务器120且可以经由基于网络或专用的连接与服务器120通信。数据存储库130可以是不同的类型。在某些实施例中，由服务器120使用的数据存储库可以是数据库，例如关系数据库。这些数据库中的一个或多个可以响应于命令而存储、更新和检索到数据库以及来自数据库的数据。

在某些实施例中，数据库130中的一个或多个还可以由应用程序使用来存储应用程序数据。由应用程序使用的数据库可以是不同类型的数据库，例如键值存储库，对象存储库或由文件系统支持的常规存储库。

图1的系统100可以以各种方式配置和操作，以使得能够应用根据本公开所描述的各种方法和设备。

根据本公开的示例性实施例，如图2所示，提供了一种视频舆情获取方法，包括：接收舆情获取请求，其中所述舆情获取请求包括所要获取的舆情关键词(步骤210)；将所述所要获取的舆情关键词与包含识别结果的视频数据进行匹配，其中，所述识别结果是对所述视频数据进行预定义内容识别获得的，所述预定内容识别包括文本识别和图像识别(步骤220)；以及确定经匹配得到的视频数据作为结果视频数据(步骤230)。

根据本公开的实施例，该视频舆情获取方法能够细粒度识别文本信息，提高了文本识别的准确性。

根据一些实施例，对所述视频数据进行预定义内容识别包括：定时从视频源获取源视频数据；根据预定义条件对所获取的源视频数据进行过滤；以及将过滤后的源视频数据转码为预定义格式，以用于预定义内容识别。

根据一些实施例，所述预定义条件包括以下中的一个或多个：视频时长、视频类别、发布时间。

在一些示例中，也可以将视频源获取的视频数据先转码为统一的格式和分辨率后再根据预定义条件进行过滤。该预定义条件包括视频时长、视频类别以及发布时间。例如，过滤掉视频时长超过5分钟的视频数据；过滤掉视频类别为“搞笑”类的视频数据；以及过滤掉发布时间为2018年以前的视频数据等等。可以根据客户需求来具体设置过滤的规则，在此不作限制。

通过设置过滤条件，保证了用于舆情分析的视频数据的准确性，因为时长过长的视频有可能为电影片段等，而且某些类型的视频数据(例如搞笑类视频)用于舆情分析的价值也不太大，从而进一步节约了计算资源，提升了运行效率。

根据一些实施例，所述文本识别包括：对视频进行取帧，以获得所提取的每一帧的图片；对所述图片中的文本进行识别，以作为文本信息；以及对所述文本信息进行关键词抽取，以将所述抽取的关键词作为识别结果。

在一些示例中，对获取的视频按帧提取图片，例如每秒提取一帧。例如光学字符识别(OCR)技术对提取的视频图片中的文字进行识别。对识别出的文字，可以使用关键词提取算法进行关键词抽取，关键词是指能反映文本主题或者主要内容的词语。可以用于关键词抽取的算法包括但不限于：TF-IDF关键词抽取方法、Topic-model关键词抽取方法和RAKE关键词抽取方法、TextRank算法、LDA算法、TPR算法等。

在一些示例中，提取视频中的语音信息，并使用自动语音识别(ASR)技术将抽取的语音转化为文字。使用关键词提取算法对转化后的文字进行关键词抽取，可以用于关键词抽取的算法包括但不限于：TF-IDF关键词抽取方法、Topic-model关键词抽取方法和RAKE关键词抽取方法、TextRank算法、LDA算法、TPR算法等。

根据一些实施例，所述文本识别包括：获取所述视频周边文本，以作为文本信息，其中所述周边文本包括以下中的一个或多个：标题、描述文本、语音文本；对所述文本信息进行分词处理；将经分词处理的词输入经训练的词粘度模型，以获得每一个所述词能与其后一个词连在一起的概率；以及筛选所述概率大于阈值概率的词，以将所述词组成关键短语，作为识别结果。

关键短语是指语句中的典型的、有代表性的短语，能够表达该语句的关键内容。一般关键短语包含多个词，例如“百度国际大厦”一般可构成一个关键短语，其包含“百度”、“国际”以及“大厦”三个词。在一些示例中，也可以对视频按帧提取的图片中的文字、视频语音中的文字、视频标题、视频描述语以及视频评论等等各部分的文字自定义进行关键词识别和/或关键短语识别，包括多个部分识别出的文字一同进行识别、各个部分的文字各自进行识别等，在此不作限制。

上述“连在一起”表示所述词能够与后一个词作为词组一同出现，这里的词组并不一定表示其只包含前词以及其后一个词这两个词，可能还会包含该后一个词之后的词或词组。例如，对于“百度国际大厦”，可以是获得“百度”和“国际”连在一起的概率，也可以获得“国际”和“大厦”连在一起的概率。当该概率大于阈值概率(例如为0.8)，则将大于阈值概率的词与其后一个词组成关键短语，如果连续一个以上词与其后一个词连在一起的概率大于该阈值概率，例如“百度”和“国际”连在一起的概率以及“国际”和“大厦”连在一起的概率均大于阈值概率，则将上述连续的词一同组成关键短语，即可以获得关键短语“百度国际大厦”。

通过经训练的词粘度模型，可快速判断前后两个词能够连在一起的概率，进而快速地根据该概率获得相应的关键短语，识别率较高。

根据一些实施例，筛选所述概率大于阈值概率的词，以将所述词组成关键短语，作为识别结果包括：获得所述组成的关键短语中的每个词的逆文档频率；计算所述关键短语中的所有词的逆文档频率之和，以作为所述关键短语的逆文档频率；选择其逆文档频率最高的预定个数的关键短语作为所述识别结果。

逆文档频率(Inverse Document Frequency，IDF)的主要思想是：如果包含词语A的文档越少，则其IDF越大，说明词语A在整个文档集层面上具有很好的类别区分能力。而例如常用的中文词语如“我”、“了”、“是”、“的”等在每篇文档中几乎具有非常高的词频，那么对于整个文档集而言，这些词就不太重要。对于整个文档集而言，评价词语重要性的标准就是IDF。在一些示例中，可以通过建立逆文档频率计算模型和数据库来相应地计算和保存一系列词语的逆文档频率。当生成关键短语后，向数据库中读取该关键短语中包含的每一个词语的逆文档频率，并将获取的逆文档频率相加以作为所述关键短语的逆文档频率。可以设置关键短语的逆文档频率阈值，选择出其逆文档频率最高的一个或多个关键短语作为识别结果。应当理解，也可以将提取的所有关键短语作为识别结果。

通过计算关键短语的逆文档频率来对提取的关键短语进行筛选，使得提取的关键短语更能反映视频内容的特性，提高了视频内容提取的精确度。

根据一些实施例，还包括：对所述文本信息进行情感分析，其中所述情感包括正面情感、中性情感和反面情感；以及对所述文本信息进行敏感度识别，及敏感信息识别。

在一些示例中，可以使用实体识别技术识别出提取的文本信息中的实体。对于文本信息中的每一个句子，可以使用句子情感分析技术进行分析，以过滤掉没有明显情感的句子，并进一步过滤掉不包含任何实体的句子，组成实体-句子对。根据该组成实体-句子对的实体的逆文档频率，即权重(例如为归一化后的形式)，对该句子的所有实体的情感进行加权求和，从而得到该文本信息的情感分析结果。

在一些示例中，其中情感分析结果例如可以是正面情感、中性情感和反面情感。本示例性实施例的系统中可以首先建立一个包含情感的词库，该词库中的每一个词均对应相应的情感标签，例如正面、中性或反面。将识别出的实体与所述词库中的词进行比对，以获取实体对应的情感，从而根据该实体的逆文档频率，对句子中的所有实体的情感进行加权求和，以获取所述文本信息所包含的正面情感、中性情感和反面情感的概率。

在一些示例中，可以首先建立一个敏感词库，将获取的文本信息与所述敏感词库进行比对，以确认所述文本信息是否包含敏感信息。

根据一些实施例，所述图像识别包括人脸识别，其中，对所述视频数据进行预定义内容识别包括：对视频进行取帧，以获得所提取的每一帧的图片；以及对所述图片中的人脸进行识别，以基于人脸数据库识别出所述人脸对应的名称。

在一些示例中，可以利用预先设置的人脸识别模型，对抽取的视频帧的图像进行人脸识别，并得出人脸识别结果，其中人脸检测识别结果例如可以是人脸对应的目标对象。本示例性实施例的系统中可以首先建立一个包含特定公众人物/敏感人物的人脸库，检测图片中的人脸，并将人脸区域与人脸库中的每个人脸做相似度度量，如果最大相似度大于一个阈值，给这个人脸打上“某某某”(特定公众人物/敏感人物的名称，例如姓名)的标签，否则认为是“其他人脸”。

根据一些实施例，所述图像识别还包括：场景识别、实体识别以及标识识别，其中，对所述视频数据进行预定义内容识别包括：将所述视频进行取帧，以获得所提取的每一帧的图片；对所述图片中的场景进行识别；对所述图片中的实体进行识别；以及对所述图片中的标识进行识别。

在一些示例中，例如可以利用预先设置的场景识别模型，对关键帧的图像进行场景识别，并确定图像中的场景预测结果，其中场景预测结果至少可以包括：医院、校园、商场、广场、公园以及银行等地点场景，也可以包括：火灾、婚礼、地质灾害等事件场景。

在一些示例中，例如可以利用预先设置的实体识别模型，对关键帧的图像进行实体识别，并确定图像中的实体预测结果，其中实体预测结果至少可以包括：汽车、鲜花、旗帜、道路等等一系列实体。

在一些示例中，例如可以利用预先设置的标识识别模型，对关键帧的图像进行标识识别，并确定图像中的标识预测结果。根据示例性实施例的标识可以包括商标、logo等。

根据一些实施例，所述舆情获取请求还包括所要过滤掉的舆情关键词，其中，确定经匹配得到的结果视频数据包括：将匹配得到的视频数据中包括所述所要过滤掉的舆情关键词相对应的识别结果的视频数据进行过滤；以及确定所述过滤后的视频数据作为所述结果视频数据。

根据一些实施例，可以将结果视频数据发送到客户端进行显示，即召回。在显示之前，可以将匹配到的视频数据再进一步与舆情获取请求中的所要过滤掉的舆情关键词进行语义匹配，以将过滤后的视频数据发送到客户端进行显示。

根据本公开的实施例细粒度对视频内容进行识别和提取，使得视频内容的理解更加充分以及准确度更高；通过对视频内容进行更完整的建模，极大地增加了召回率。

根据本公开的示例性实施例，如图3所示，提供了一种词粘度模型训练方法，包括：对文本语料进行分词，以获得多个词对作为训练样本，其中所述词对包括前词和后词两个词(步骤310)；基于所述训练样本训练所述词粘度模型，以使得所述词粘度模型输出每一个词对能够组成关键短语的概率(步骤320)；以及通过梯度下降训练所述词粘度模型，直到所述词粘度模型达到预设条件则停止训练，其中所述预设条件包括预设精度或预设训练次数(步骤330)。

根据一些实施例，对文本语料进行分词，以获得多个词对作为训练样本，其中所述词对包括前词和后词两个词包括：对文本语料进行分词处理；设置后词窗口，其中所述后词窗口表示能够与所述前词组成词对的所述前词在所述文本预料中的位置之后的词个数；设置所述后词窗口中的每一个词能与所述前词组成词对的概率，其中，根据在所述文本预料中的顺序，所述概率依次减小；以及根据所述后词窗口和所述概率获取词对，以作为训练样本。

在一些示例性实施例中，在训练词粘度模型时首先对文本语料进行采样，以获得训练样本。对文本语料进行采样得到的训练样本为包括前词和后词的词对。在采样过程中，首先设置后词窗口大小，该窗口大小表示每一个词后面可以有几个词被采样到。例如，对于文本语料中的每一个词，设置其后词窗口大小为4，即表示每个词后面有4个词有可能被选中，第4个词之后的词不会被选到。

在设置完后词窗口大小后，可以进行衰减率的设置，以基于该衰减率确定每一个词能够被选中的后词能够与所述词组成词对的概率，概率越高表示越有可能被选中与所述前词组成词对。例如，使用discounting算法进行概率设置。例如，可以设置衰减率为0.3，即窗口中第二个词被选中的概率为第一个词被选中概率的30％，第三个词被选中的概率为第二词被选中概率为30％，以此类推。例如，给定后词窗口中的第一个词一个随机数(大于0即可)，以表示该第一个词被选中的概率，并根据衰减率依次设置后词窗口中第二个词、第三个词…被选中的概率。将后词窗口中的每一个词的概率进行归一化，以使得后词窗口中的所有概率的和为0，并满足衰减率条件：窗口中第二个词被选中的概率为第一个词被选中概率的30％，第三个词被选中的概率为第二词被选中概率为30％，以此类推。例如，在后词窗口为4时，其中一组后词窗口中的每个词被选中的概率设置为[0.71,0.21,0.06,0.02]。根据概率值选择后词窗口中的某一个后词，以将其与该前词组成词对，从而得到一大批包含前词和后词的词对作为训练样本。

可以理解的是，如果某个词对被采样的频率很高，说明该词对中的两个词粘度较高；反而说明其粘度较低。

在采样完成后，即可根据采集到的训练样本进行词粘度模型的训练，其中，使用梯度下降训练模型，拟合训练数据。

根据一些实施例，基于所述训练样本训练所述词粘度模型，以使得所述词粘度模型输出每一个词对能够组成关键短语的概率包括：将输入的所述词对中的前词和后词分别转换为向量数据；计算所述转换后的向量数据之间的余弦相似度；以及将所述余弦相似度转化为概率。

在一些示例中，词粘度模型可以使用多层神经网络模型。例如，可以使用word2vec算法将输入的两个词映射为向量。word2vec(word to vector)是一个将单词转换成向量形式的工具，可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。可以理解，其他可以用来将输入的词转换为向量的算法或模型也是可能的，例如autoencoder等。

在一些示例中，例如可以使用sigmoid函数将相似度转化为概率。sigmoid函数也叫logistic函数，用于隐层神经元输出，它可以将一个实数映射到(0,1)的区间。可以理解，其他可以用来将相似度转换为向量的算法或模型也是可能的，在此不作限制。

在一些示例中，将待抽取的文本进行切词，设定粘度阈值判断前后两个词之间的粘度，如果超过0.8则将词连在一起组成短语。假设输入文本按语序进行切词后为：A/B/C/D/E/F/G，将AB、BC、CD、DE、EF、FG组成词对输入词粘度模型中以获得其之间的词粘度(即连在一起的概率)。例如，计算词间的粘度分别为：A和B[0.93]、B和C[0.31]、C和D[0.95]、D和E[0.85]、E和F[0.88]、F和G[0.75]，当阈值为0.8时可生成的短语为AB、CDEF以及G。

通过训练后的词粘度模型，可以更加准确和高效地提取出文档中所包含的关键短语，并且，通过设定粘度阈值，进一步控制所要提取的关键短语的精确度与数量。

根据本公开的示例性实施例，如图4所示，提供了一种视频舆情获取设备400，包括：接收单元410，配置为接收舆情获取请求，其中所述舆情获取请求包括所要获取的舆情关键词；匹配单元420，配置为将所述所要获取的舆情关键词与包含识别结果的视频数据进行匹配，其中，所述识别结果是对所述视频数据进行预定义内容识别获得的，所述预定内容识别包括文本识别和图像识别；以及确定单元430，配置为确定经匹配得到的视频数据作为结果视频数据。

根据一些实施例，所述文本识别还包括对所述文本信息进行情感分析，其中所述情感包括正面情感、中性情感和反面情感；以及对所述文本信息进行敏感度识别，即敏感信息识别。

根据一些实施例，所述图像识别包括人脸识别，其中，对所述视频数据进行预定义内容识别包括：将所述视频进行取帧，以获得所提取的每一帧的图片；以及对所述图片中的人脸进行识别，以基于人脸数据库识别出所述人脸对应的名称。

根据一些实施例，所述图像识别还包括：场景识别、实体识别以及标识识别，其中，对所述视频数据进行预定义内容识别包括将所述视频进行取帧，以获得所提取的每一帧的图片对所述图片中的场景进行识别；对所述图片中的实体进行识别；以及对所述图片中的标识进行识别。

这里，视频内容发布设备400的上述各单元410～430的操作分别与前面描述的步骤210～230的操作类似，在此不再赘述。

根据本公开的示例性实施例，如图5所示，提供了一种词粘度模型训练设备500，包括：取样单元510，配置为对文本语料进行分词，以获得多个词对作为训练样本，其中所述词对包括前词和后词两个词；训练单元520，配置为基于所述训练样本训练所述词粘度模型，以使得所述词粘度模型输出每一个词对能够组成关键短语的概率；以及响应单元530，配置为通过梯度下降训练所述词粘度模型，直到所述词粘度模型达到预设条件则停止训练，其中所述预设条件包括预设精度或预设训练次数。

根据一些实施例，基于所述训练样本训练所述词粘度模型，以使得所述词粘度模型输出每一个词对能够组成关键短语的概率包括：将输入的所述词对中的前词和后词分别转换为向量数据计算所述转换后的向量数据之间的余弦相似度；以及将所述余弦相似度转化为概率。

这里，词粘度模型训练设备500的上述各单元510～530的操作分别与前面描述的步骤310～330的操作类似，在此不再赘述。

根据本公开的一方面，还提供一种服务器，包括：处理器；以及存储程序的存储器，该程序包括指令，该指令在由处理器执行时使处理器执行上述的视频舆情获取方法。

根据本公开的另一个方面，提供了一种存储程序的计算机可读存储介质，该程序包括指令，该指令在由服务器的处理器执行时，致使服务器执上述的视频舆情获取方法。

根据本公开的又一个方面，提供了一种服务器，包括：处理器；以及存储程序的存储器，该程序包括指令，该指令在由处理器执行时使处理器执行上述的词粘度模型训练方法。

根据本公开的又一个方面，提供了一种存储程序的计算机可读存储介质，该程序包括指令，该指令在由服务器的处理器执行时，致使服务器执行上述的词粘度模型训练方法。

参见图6所示，现将描述可以作为本公开的服务器或客户端的计算设备2000的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。

计算设备2000可以包括(可能经由一个或多个接口)与总线2002连接或与总线2002通信的元件。例如，计算设备2000可以包括总线2002、一个或多个处理器2004、一个或多个输入设备2006以及一个或多个输出设备2008。一个或多个处理器2004可以是任何类型的处理器，并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。处理器2004可以对在计算设备2000内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个计算设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器2004为例。

输入设备2006可以是能向计算设备2000输入信息的任何类型的设备，输入设备2006可以接收输入的数字或字符信息，以及产生与视频舆情获取和/或词粘度模型训练计算设备的用户设置和/或功能控制有关的键信号输入，并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。

输出设备2008可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。计算设备2000还可以包括非暂时性存储设备2010或者与非暂时性存储设备2010连接，非暂时性存储设备可以是非暂时性的并且可以实现数据存储的任何存储设备，并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁介质，光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。非暂时性存储设备2010可以从接口拆卸。非暂时性存储设备2010可以具有用于实现上述方法和步骤的数据/程序(包括指令)/代码/单元(例如，附图4所示的接收单元、匹配单元、确定单元，以及附图5所示的取样单元、训练单元、响应单元)。

计算设备2000还可以包括通信设备2012。通信设备2012可以是使得能够与外部设备和/或与网络通信的任何类型的设备或系统，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组，例如蓝牙TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算设备2000还可以包括工作存储器2014，其可以是可以存储对处理器2004的工作有用的程序(包括指令)和/或数据的任何类型的工作存储器，并且可以包括但不限于随机存取存储器和/或只读存储器设备。

软件要素(程序)可以位于工作存储器2014中，包括但不限于操作系统2016、一个或多个应用程序2018、驱动程序和/或其他数据和代码。用于执行上述方法和步骤的指令可以被包括在一个或多个应用程序2018中，并且上述视频舆情获取和/或词粘度模型训练方法可以各自通过由处理器2004读取和执行一个或多个应用程序2018的指令来实现。更具体地，上述视频舆情获取和/或词粘度模型训练方法中，步骤210～步骤230和/或步骤310～步骤330可以例如通过处理器2004执行具有步骤210～步骤230和/或步骤310～步骤330的指令的应用程序2018而实现。此外，上述视频舆情获取和/或词粘度模型训练方法中的其它步骤可以例如通过处理器2004执行具有执行相应步骤中的指令的应用程序2018而实现。软件要素(程序)的指令的可执行代码或源代码可以存储在非暂时性计算机可读存储介质(例如上述存储设备2010)中，并且在执行时可以被存入工作存储器2014中(可能被编译和/或安装)。软件要素(程序)的指令的可执行代码或源代码也可以从远程位置下载。

还应该理解，可以根据具体要求而进行各种变型。例如，也可以使用定制硬件，和/或可以用硬件、软件、固件、中间件、微代码，硬件描述语言或其任何组合来实现特定元件。例如，所公开的方法和设备中的一些或全部可以通过使用根据本公开的逻辑和算法，用汇编语言或硬件编程语言(诸如VERILOG，VHDL，C++)对硬件(例如，包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。

还应该理解，前述方法可以通过服务器-客户端模式来实现。例如，客户端可以接收用户输入的数据并将所述数据发送到服务器。客户端也可以接收用户输入的数据，进行前述方法中的一部分处理，并将处理所得到的数据发送到服务器。服务器可以接收来自客户端的数据，并且执行前述方法或前述方法中的另一部分，并将执行结果返回给客户端。客户端可以从服务器接收到方法的执行结果，并例如可以通过输出设备呈现给用户。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算设备上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器也可以是云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。

还应该理解，计算设备2000的组件可以分布在网络上。例如，可以使用一个处理器执行一些处理，而同时可以由远离该一个处理器的另一个处理器执行其他处理。计算设备2000的其他组件也可以类似地分布。这样，计算设备2000可以被解释为在多个位置执行处理的分布式计算系统。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种视频舆情获取方法，包括：

接收舆情获取请求，其中所述舆情获取请求包括所要获取的舆情关键词；

将所述所要获取的舆情关键词与包含识别结果的视频数据进行匹配，其中，所述识别结果是对所述视频数据进行预定义内容识别获得的，所述预定义内容识别包括文本识别和图像识别，所述文本识别包括：

获取所述视频周边文本，以作为文本信息，其中所述周边文本包括以下中的一个或多个：标题、描述文本、语音文本；

对所述文本信息进行分词处理；

将经分词处理的词输入经训练的词粘度模型，以获得每一个所述词能与其后一个词连在一起的概率；以及

筛选所述概率大于阈值概率的词，以将所述词组成关键短语，作为识别结果，包括：

获得所述组成的关键短语中的每个词的逆文档频率；

计算所述关键短语中的所有词的逆文档频率之和，以作为所述关键短语的逆文档频率；

选择其逆文档频率最高的预定个数的关键短语作为所述识别结果；以及

确定经匹配得到的视频数据作为结果视频数据。

2.如权利要求1所述的方法，其中，对所述视频数据进行预定义内容识别包括：

定时从视频源获取源视频数据；

根据预定义条件对所获取的源视频数据进行过滤；以及

将所述过滤后的源视频数据转码为预定义格式，以用于预定义内容识别。

3.如权利要求2所述的方法，其中，所述预定义条件包括以下中的一个或多个：视频时长、视频类别、发布时间。

4.如权利要求1所述的方法，所述文本识别包括：

对所述视频进行取帧，以获得所提取的每一帧的图片；

对所述图片中的文本进行识别，以作为文本信息；以及

对所述文本信息进行关键词抽取，以将所述抽取的关键词作为识别结果。

5.如权利要求1或4所述的方法，还包括：

对所述文本信息进行情感分析，其中所述情感包括正面情感、中性情感和反面情感；以及

对所述文本信息进行敏感度识别。

6.如权利要求1所述的方法，所述图像识别包括人脸识别，其中，对所述视频数据进行预定义内容识别包括：

对所述视频进行取帧，以获得所提取的每一帧的图片；以及

对所述图片中的人脸进行识别，以基于人脸数据库识别出所述人脸对应的名称。

7.如权利要求1所述的方法，所述图像识别还包括：场景识别、实体识别以及标识识别，其中，对所述视频数据进行预定义内容识别包括：

将所述视频进行取帧，以获得所提取的每一帧的图片；

对所述图片中的场景进行识别；

对所述图片中的实体进行识别；以及

对所述图片中的标识进行识别。

8.如权利要求1所述的方法，所述舆情获取请求还包括所要过滤掉的舆情关键词，其中，确定经匹配得到的结果视频数据包括：

将匹配得到的视频数据中包括所述所要过滤掉的舆情关键词相对应的识别结果的视频数据进行过滤；以及

确定所述过滤后的视频数据作为所述结果视频数据。

9.一种用于如权利要求1所述的视频舆情获取方法的词粘度模型训练方法，包括：

对文本语料进行分词，以获得多个词对作为训练样本，其中所述词对包括前词和后词两个词；

基于所述训练样本训练所述词粘度模型，以使得所述词粘度模型输出每一个词对能够组成关键短语的概率；以及

通过梯度下降训练所述词粘度模型，直到所述词粘度模型达到预设条件则停止训练，其中所述预设条件包括预设精度或预设训练次数。

10.如权利要求9所述的方法，对文本语料进行分词，以获得多个词对作为训练样本，其中所述词对包括前词和后词两个词包括：

对文本语料进行分词处理；

设置后词窗口，其中所述后词窗口表示能够与所述前词组成词对的所述前词在所述文本语料中的位置之后的词个数；

设置所述后词窗口中的每一个词能与所述前词组成词对的概率，其中，根据在所述文本语料中的顺序，所述概率依次减小；以及

根据所述后词窗口和所述概率获取词对，以作为训练样本。

11.如权利要求9所述的方法，基于所述训练样本训练所述词粘度模型，以使得所述词粘度模型输出每一个词对能够组成关键短语的概率包括：

将输入的所述词对中的前词和后词分别转换为向量数据；

计算所述转换后的向量数据之间的余弦相似度；以及

将所述余弦相似度转化为概率。

12.一种视频舆情获取设备，包括：

接收单元，配置为接收舆情获取请求，其中所述舆情获取请求包括所要获取的舆情关键词；

匹配单元，配置为将所述所要获取的舆情关键词与包含识别结果的视频数据进行匹配，其中，所述识别结果是对所述视频数据进行预定义内容识别获得的，所述预定义内容识别包括文本识别和图像识别，所述文本识别包括：

对所述文本信息进行分词处理；

获得所述组成的关键短语中的每个词的逆文档频率；

确定单元，配置为确定经匹配得到的视频数据作为结果视频数据。

13.如权利要求12所述的设备，所述文本识别包括：

对所述视频进行取帧，以获得所提取的每一帧的图片；

对所述图片中的文本进行识别，以作为文本信息；以及

14.一种用于如权利要求1所述的视频舆情获取方法的词粘度模型训练设备，包括：

取样单元，配置为对文本语料进行分词，以获得多个词对作为训练样本，其中所述词对包括前词和后词两个词；

训练单元，配置为基于所述训练样本训练所述词粘度模型，以使得所述词粘度模型输出每一个词对能够组成关键短语的概率；以及

响应单元，配置为通过梯度下降训练所述词粘度模型，直到所述词粘度模型达到预设条件则停止训练，其中所述预设条件包括预设精度或预设训练次数。

15.如权利要求14所述的设备，对文本语料进行分词，以获得多个词对作为训练样本，其中所述词对包括前词和后词两个词包括：

对文本语料进行分词处理；

根据所述后词窗口和所述概率获取词对，以作为训练样本。

16.如权利要求14所述的设备，基于所述训练样本训练所述词粘度模型，以使得所述词粘度模型输出每一个词对能够组成关键短语的概率包括：

将输入的所述词对中的前词和后词分别转换为向量数据；

计算所述转换后的向量数据之间的余弦相似度；以及

将所述余弦相似度转化为概率。

17.一种服务器，包括：

处理器；以及

存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-8中任一项所述的方法。

18.一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由服务器的处理器执行时，致使所述服务器执行根据权利要求1-8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现权利要求1-8中任一项所述的方法。

20.一种服务器，包括：

处理器；以及

存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求9-11中任一项所述的方法。

21.一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由服务器的处理器执行时，致使所述服务器执行根据权利要求9-11中任一项所述的方法。

22.一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现权利要求9-11中任一项所述的方法。