CN111813944A

CN111813944A - 一种直播评论分析方法、装置、电子设备及存储介质

Info

Publication number: CN111813944A
Application number: CN202010938305.2A
Authority: CN
Inventors: 张月鹏; 李晓宇; 李明; 姜秋宇; 王志慧; 裴广超
Original assignee: Beijing Ultrapower Intelligent Data Technology Co ltd
Current assignee: Beijing Ultrapower Intelligent Data Technology Co ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2020-10-23

Abstract

本申请提供一种直播评论分析方法、装置、电子设备及存储介质，该方法包括：获取在视频直播过程中产生的弹幕文本和评论文本，以获得评论数据；对评论数据进行分词，获得多个词语；对多个词语进行聚类分析和类别标注，获得多个类别标签；从多个类别标签筛选出商品名称，获得多个商品名称。在上述的实现过程中，通过对评论数据进行分词、聚类分析和类别标注，获得多个类别标签，并从多个类别标签筛选出评论数据中的商品名称，从而有效地改善了获得直播用户希望下一次直播或者以后直播的商品名称的效率低下的问题。

Description

一种直播评论分析方法、装置、电子设备及存储介质

技术领域

本申请涉及机器学习和计算机数据分析的技术领域，具体而言，涉及一种直播评论分析方法、装置、电子设备及存储介质。

背景技术

在目前的视频直播过程中，直播用户会评价直播商家的商品试吃、商品试用和商品推荐等活动，直播商家通过与直播用户交流后，可以获知直播用户希望下一次直播或者以后直播的商品；直播商家也可以在视频直播完成后，收集直播用户在视频直播过程中评价的评论数据，然后人工地观察分析直播用户希望下一次直播或者以后直播的商品。在实践中发现，通过上述方式获得直播用户希望下一次直播或者以后直播的商品名称的效率低下，且满足直播用户的需求效果并不好。

发明内容

本申请实施例的目的在于提供一种直播评论分析方法、装置、电子设备及存储介质，用于改善获得直播用户希望后续直播的商品名称的效率低下的问题。

本申请实施例提供了一种直播评论分析方法，包括：获取在视频直播过程中产生的弹幕文本和评论文本，以获得评论数据；对评论数据进行分词，获得多个词语；对多个词语进行聚类分析和类别标注，获得多个类别标签；从多个类别标签筛选出商品名称，获得多个商品名称。在上述的实现过程中，通过对评论数据进行分词、聚类分析和类别标注，获得多个类别标签，并从多个类别标签筛选出评论数据中的商品名称，从而有效地改善了获得直播用户希望下一次直播或者以后直播的商品名称的效率低下的问题。

可选地，在本申请实施例中，对评论数据进行分词，包括：使用词频-逆向文件频率分词器对评论数据进行分词。在上述的实现过程中，通过使用词频-逆向文件频率分词器对评论数据进行分词时，统计了在分词过程中的频率和次数，并根据频率和次数确定词语之间的权重，有效地筛选出包括直播用户关心的热门词汇，从而能够提高获得下一次直播商品名称的概率。

可选地，在本申请实施例中，对多个词语进行聚类分析和类别标注，获得多个类别标签，包括：对多个词语进行聚类分析采样，获得多个采样簇类；将从多个采样簇类的每个采样簇类中的多个词语筛选出的词语确定为该采样簇类的类别标签，获得多个类别标签；其中，每个采样簇类确定出一个类别标签。在上述的实现过程中，通过对多个词语进行聚类分析采样，并将从多个采样簇类的每个采样簇类中的多个词语筛选出的词语确定为该采样簇类的类别标签，获得多个类别标签；从而有效地将相似的词语划分在一个簇类中，减少了对同一簇类的词语计算量，提高了获得类别标签的效率。

可选地，在本申请实施例中，获得多个类别标签，包括：使用手肘法或差距统计法确定需要类别标注的类别数量；根据类别数量确定多个类别标签。在上述的实现过程中，通过使用手肘法或差距统计法确定需要类别标注的类别数量，从而能够快速地确定聚类后的最优类别数量。

可选地，在本申请实施例中，在获得多个商品名称之后，还包括：从商品信息表中查找到多个商品名称对应的商品信息；输出多个商品名称对应的商品信息。在上述的实现过程中，通过从商品信息表中查找到多个商品名称对应的商品信息，并将商品信息显示给直播商家或者直播用户，使得直播商家根据展示的直播用户关心的商品信息实时地调整视频直播策略。

可选地，在本申请实施例中，商品信息包括：商品购买链接或者商品投票选项；输出多个商品名称对应的商品信息，包括：向第一终端设备发送多个商品名称对应的商品购买链接；或者向第二终端设备发送多个商品名称对应的商品投票选项，商品投票选项用于投选出下一次被视频直播的商品。在上述的实现过程中，通过向第一终端设备发送多个商品名称对应的商品购买链接或者商品投票选项，使得直播用户可以及时地购买视频正在直播的商品，或者通过投票选择出下一次或者以后想看到的视频直播商品。

可选地，在本申请实施例中，商品信息包括：商品名称在评论数据中出现的频率或次数；在输出多个商品名称对应的商品信息之后，还包括：对商品名称在评论数据中出现的频率或次数进行分析，获得分析结果，分析结果包括：建议视频直播的商品信息以及商品顺序信息。在上述的实现过程中，通过对商品名称在评论数据中出现的频率或次数进行分析，并向用户展示建议视频直播的商品信息以及商品顺序信息的分析结果；从而使得直播商家节省了根据商品信息确定视频直播的商品和商品顺序，有效地提高了直播商家获得建议视频直播的商品信息以及商品顺序信息的速度，以使得直播商家更好地满足直播用户的需求。

本申请实施例还提供了一种直播评论分析装置，包括：评论数据获得模块，用于获取在视频直播过程中产生的弹幕文本和评论文本，以获得评论数据；评论数据分词模块，用于分词模块对评论数据进行分词，获得多个词语；类别标签获得模块，用于对多个词语进行聚类分析和类别标注，获得多个类别标签；商品名称获得模块，用于从多个类别标签筛选出商品名称，获得多个商品名称。

可选地，在本申请实施例中，评论数据分词模块，包括：数据分词器子模块，用于使用词频-逆向文件频率分词器对评论数据进行分词。

可选地，在本申请实施例中，类别标签获得模块，包括：采样簇类获得模块，用于对多个词语进行聚类分析采样，获得多个采样簇类；类别标签确定模块，用于将从多个采样簇类的每个采样簇类中的多个词语筛选出的词语确定为该采样簇类的类别标签，获得多个类别标签；其中，每个采样簇类确定出一个类别标签。

可选地，在本申请实施例中，类别标签获得模块，包括：类别数量确定模块，用于使用手肘法或差距统计法确定需要类别标注的类别数量；类别标签确定模块，用于根据类别数量确定多个类别标签。

可选地，在本申请实施例中，还包括：商品信息查找模块，用于从商品信息表中查找到多个商品名称对应的商品信息；商品信息输出模块，用于输出多个商品名称对应的商品信息。

可选地，在本申请实施例中，商品信息包括：商品购买链接或者商品投票选项；商品信息输出模块，包括：商品信息发送模块，用于向第一终端设备发送多个商品名称对应的商品购买链接；或者向第二终端设备发送多个商品名称对应的商品投票选项，商品投票选项用于投选出下一次被视频直播的商品。

可选地，在本申请实施例中，商品信息包括：商品名称在评论数据中出现的频率或次数；直播评论分析装置，还包括：分析结果获得模块，用于对商品名称在评论数据中出现的频率或次数进行分析，获得分析结果，分析结果包括：建议视频直播的商品信息以及商品顺序信息。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上面描述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的直播评论分析方法的流程示意图；

图2示出的本申请实施例提供的使用手肘法确定聚类数量的示意图；

图3示出的本申请实施例提供的根据商品名称确定商品信息并输出商品信息的流程示意图；

图4示出的本申请实施例提供的直播评论分析装置的结构示意图；

图5示出的本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。

在介绍本申请实施例提供的直播评论分析方法之前，先介绍本申请实施例涉及的一些概念：

自然语言处理（Natural Language Processing，NLP），是指由于理解（understanding）自然语言，需要关于外在世界的广泛知识以及运用操作这些知识的能力，而研究自然语言认知的相关问题，即自然语言认知同时也被视为一个人工智能完备（AI-complete）的相关问题，这里的自然语言处理也是机器学习中的一个重要组成部分。

分词（Tokenization），是指将连续的字序列按照一定的规范重新组合成词序列的过程，以自然语言处理（NLP）领域为例，常见的分词分为英文分词和中文分词，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只有字、句和段能通过明显的分界符来简单划界，而词没有一个形式上的分界符。

隐马尔可夫模型（Hidden Markov Model，HMM）或称作隐性马尔可夫模型，是统计模型，隐马尔可夫模型用来描述一个含有隐含未知参数的马尔可夫过程。

N-Gram模型算法，又被简称为N-Gram，是一种基于统计语言模型的算法；N-Gram的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列；每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是向量特征空间。

聚类（Clustering），是指按照一个或多个维度将多个字符序列分成由类似的字符序列组成的多个类的过程。也就是说，由聚类所生成的簇类是一组数据对象的集合，这些对象与同一个簇类中的对象彼此相似，与其他簇类中的对象相异，即人们常说的“物以类聚，人以群分”。

服务器是指通过网络提供计算服务的设备，服务器例如：x86服务器以及非x86服务器，非x86服务器包括：大型机、小型机和UNIX服务器。当然在具体的实施过程中，上述的服务器可以具体选择大型机或者小型机，这里的小型机是指采用精简指令集计算(Reduced Instruction Set Computing，RISC)、单字长定点指令平均执行速度（MillionInstructions Per Second，MIPS）等专用处理器，主要支持UNIX操作系统的封闭且专用的提供计算服务的设备；这里的大型机，又名大型主机，是指使用专用的处理器指令集、操作系统和应用软件来提供计算服务的设备。

需要说明的是，本申请实施例提供的直播评论分析方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端或者上述的服务器，设备终端例如：智能手机、个人电脑（personal computer，PC）、平板电脑、个人数字助理（personaldigital assistant，PDA）、移动上网设备（mobile Internet device，MID）、网络交换机或网络路由器等。

在介绍本申请实施例提供的直播评论分析方法之前，先介绍该直播评论分析方法适用的应用场景，这里的应用场景包括但不限于：使用该直播评论分析方法获得在视频直播过程中的热门商品名称，可以使用该直播评论分析方法向直播商家提供直播用户们希望下一次及以后直播的商品名称和商品的顺序信息等，以便于直播商家实时调整直播策略；也可以使用该直播评论分析方法在视频直播的过程中向直播用户推荐商品信息，例如：商品购买链接和商品投票选项，从而让直播用户边看视频直播边下单购买商品，并投票选出下一次希望观看的直播商品名称。

请参见图1示出的本申请实施例提供的直播评论分析方法的流程示意图；该直播评论分析方法的主要思路是，通过对评论数据进行分词、聚类分析和类别标注，获得多个类别标签，并从多个类别标签筛选出评论数据中的商品名称，从而有效地改善了获得直播用户希望下一次直播或者以后直播的商品名称的效率低下的问题；上述的直播评论分析方法可以包括：

步骤S110：获取在视频直播过程中产生的弹幕文本和评论文本，以获得评论数据。

上述步骤S110的实施方式有很多种，至少包括如下三种：第一种实施方式，在直播服务器中接收终端设备发送的弹幕文本和评论文本，从而获得上述评论数据；第二种实施方式，在直播服务器接收弹幕文本和评论文本之后，并将弹幕文本和评论文本存储至数据库中，可以从数据库获取弹幕文本和评论文本，从而获得评论数据；第三种实施方式，在终端设备与直播服务器之间设置拦截设备，拦截终端设备向直播服务器发送的弹幕文本和评论文本，获得评论数据。

在一些实施方式中，因为视频直播场景中的评论数据比较纷繁复杂，为了让评论数据更准确，还可以对上述视频直播场景中的评论数据进行预处理，预处理的具体实施方式例如：对评论数据进行数据清洗，具体地，过滤掉评论数据中的空值、格式错误数据、无效属性值和属性错误等无效样本数据，即将这些无效样本数据全部去除或删除，从而减少无效样本数据对结果的影响；如果有些样本数据的属性值是数字数据，有些算法模型不能直接对其处理，那么可以把数字数据变成字符串类型数据，再对字符串类型数据进行处理。

在步骤S110之后，执行步骤S120：对评论数据进行分词，获得多个词语。

上述步骤S120的实施方式有很多种，至少包括如下三种：

第一种实施方式，基于语法和规则的分词法对评论数据进行分词，获得多个词语，其基本思想就是在分词的同时进行句法、语义分析, 利用句法信息和语义信息来进行词性标注, 以解决分词歧义现象；

第二种实施方式，基于机械式分词法（即词典）对评论数据进行分词，获得多个词语，此处的机械分词的原理是将文档中的字符串与词典中的词条进行逐一匹配, 如果词典中找到某个字符串, 则匹配成功, 可以切分, 否则不予切分，机械式分词法例如：以词典为依据的正向最大匹配法、逆向最大匹配法和最少切分法；

第三种实施方式，基于统计的方法对评论数据进行分词，基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。由于词是字的组合，若相邻的字同时出现的次数越多，则越有可能构成一个词，基于统计的方法例如：隐马尔可夫模型 (Hidden Markov Model，HMM)方法和N元模型（N-Gram）方法等等；在具体的实践过程中，基于统计的方法还可以使用词频-逆向文件频率（Term Frequency–Inverse DocumentFrequency，TF-IDF）分词器对评论数据进行分词，获得多个词语，还可以在使用TF-IDF分词器时，结合N-Gram模型算法来设置TF-IDF分词器的分词粒度，即根据设置的分词粒度对评论数据经词频统计后，从而根据统计出的词频确定词语的权重；TF-IDF是一种用于信息检索与文本挖掘的加权技术；TF-IDF也可以理解为一种统计方法，用于评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

在上述的实现过程中，通过使用词频-逆向文件频率分词器对评论数据进行分词时，统计了在分词过程中的频率和次数，并根据频率和次数确定词语之间的权重，有效地筛选出包括直播用户关心的热门词汇，从而能够提高获得下一次直播商品名称的概率。

在具体的分词过程中发现，常用的基于词典的分词算法不支持带空格的词语，具体例如：假设需要分词的语句为“steve jobs拯救了公司”，这里的“steve jobs”是一个人名，应当被划分为一个词语；然而使用jieba分词算法或者hanlp工具分词算法时发现，这些算法均将“steve jobs”划分为两个词语。

针对上述问题，可以使用TF-IDF分词器对评论数据进行分词，并根据不同的待处理的评论数据体量采用不同的分词粒度，具体例如：当评论数据小于一万字时，可以将分词粒度设置得稍微小一些，具体可以设置为1-3个字符；当评论数据超过一万字时，可以将分词粒度设置得大一些，具体可以设置为4-6个字符，下面将详细描述这两种方法。

第一种分词粒度设置方法：用TF-IDF分词器对评论数据进行分词；其中，TF-IDF分词器的分词粒度可以设置为1个字符单词、2个字符单词或者3个字符单词，并根据这些设置的分词粒度进行分词，然后对分词后获得的词语进行组合，此处的进行组合的目的是，在文本类型的评论数据的分词粒度更细致的时候，需要执行K-means算法对组合后的词语进行聚类，从而获得对组合后的词语进行聚类的结果，而不仅仅是获得分词后的词语聚类的结果。具体例如：“你们好，我要评论”，当分词粒度设置为1个字符单词时，TF-IDF分词器会拆成，“你，们，好，我，要，评，论”；当分词粒度设置为2个字符单词时，TF-IDF分词器会拆成，“你们，好，我，要，评论”；当分词粒度设置为3个字符单词时，TF-IDF分词器会拆成，“你们好，我，要，评论”。然后以此类推，这个是分词粒度最细则时的颗粒度的划分，为下一步模型对分词（组合）后的词语进行聚类算法做准备，即将分词（组合）后的词语作为聚类算法的输入数据。

第二种分词粒度设置方法：用TF-IDF分词器对评论数据进行分词；其中，TF-IDF分词器的分词粒度可以设置为5个字符单词、6个字符单词或7个字符单词，并根据这些设置的分词粒度进行分词，然后对分词后获得的词语进行组合。此处使用这种比较大的分词粒度进行分词的原因在于，当针对的是直播评论数据体量比较大时，需要对大量的评论结果数据进行分词，处理颗粒度虽然稍微粗一些，但是分词处理的速度更快，对大量的评论数据进行分词也会更加高效。

使用TF-IDF分词器能够对评论数据进行更好地分词的原因在于，由于直播视频的评论数据纷繁杂乱，因此需要使用可以设置分词粒度的TF-IDF分词器来对评论数据进行分词，TF-IDF分词器能够有效地利用词语在评论数据中出现的频率或者次数作为该词语的权重信息，一般情况下，词频越大就代表该词语的重要程度越高，即词语的频率或次数越大代表该词语在评论数据中的权重也越大。举个例子：对于常见的停用词（stop word）“我们”，TF-IDF分词器会赋予较小的权重，而对于非常少见的词语，例如商品名称，则赋予较大的权重。这样就会筛选出来高价值的词语，然后再将高价值的词语（例如商品名称）进行排序，获得排序后的商品名称。

以上面的例子说明：假设需要分词的语句为“steve jobs拯救了公司”，使用不同的分词粒度对该语句进行分词时，TF-IDF分词器发现“steve jobs”不是停用词（stopword），且在评论数据中多次反复出现，因此将该词语在分词粒度为两个字符单词的权重设置得高于其它分词粒度的权重，从而有效地将带空格的词语划分正确。因此，以此类推，使用TF-IDF分词器能够有效地利用词语在评论数据中出现的频率或者次数作为该词语的权重信息，从而使得TF-IDF分词器能够达到更好地分词的技术效果。

在步骤S120之后，执行步骤S130：对多个词语进行聚类分析和类别标注，获得多个类别标签。

在步骤S130之后，执行步骤S140：从多个类别标签筛选出商品名称，获得多个商品名称。

此处将上述的步骤S130和步骤S140步骤放在一起，下面将对这两个步骤进行详细的描述，上述步骤S130中包括聚类分析和类别标注两个步骤，其实施方式包括：

步骤S131：对多个词语进行聚类分析采样，获得多个采样簇类。

上述步骤S131的实施方式有很多种，包括但不限于：使用层次聚类法、谱聚类（Spectral Clustering）方法、K均值聚类算法（K-means clustering algorithm，有时简称K-means）、基于采样的Mini Batch K-Means算法、基于密度的聚类算法(Density-BasedSpatial Clustering of Applications，DBSCAN）等算法对多个词语进行聚类分析采样，获得多个采样簇类。为了便于理解和说明，下面使用基于采样的Mini Batch K-Means算法和K-Means算法对多个词语进行聚类分析采样，关于确定采样簇类的较优类别数量将在下面进行详细地说明。将多个采样簇类的类别数量设置为4时发现，基于K-Means算法的卡林斯基-哈拉巴斯指数（Calinski-Harabasz Index）分数为5924.05，而基于采样的Mini BatchK-Means算法的卡林斯基-哈拉巴斯指数分数为5921.45。上述的Calinski-HarabaszIndex分数越小说明聚类算法所达到的聚类效果越好，由此可以看出，K-Means算法的聚类效果与Mini Batch K-Means算法大致差不多，Mini Batch K-Means算法的聚类效果仅仅比K-Means算法稍微好一点。因此，可以根据具体实际情况选择基于K-Means技术构思的聚类算法，例如选择Mini Batch K-Means算法，具体聚类算法的选择不应理解为对本申请实施例的限制。

请参见图2示出的本申请实施例提供的使用手肘法确定聚类数量的示意图；图中的纵坐标轴Y表示距离之和，图中的横坐标X表示聚类数量K。在上述步骤S131中的聚类分析采样过程中，还可以使用手肘法或差距统计（Gap Statistics）法确定需要类别标注的类别数量，并根据类别数量确定多个类别标签。

上述的手肘法的主要思路是，在设置各种类别数量的情况下，计算出各个聚类下的点到中心点的距离，再计算各个类别数量的情况下的距离之和，并根据距离之和绘制图表数据，通过观察图表数据确定出曲线斜率转折点对应的聚类类别数量就是较优的选择；具体例如：从图中可以看出，当聚类数量K为1或2时的曲线斜率非常陡峭，而当聚类数量K为3-8时的曲线斜率又非常平缓，曲线的转折点就在聚类数量K为3时，这个聚类数量K为3的点可以理解为手肘对应的点，当聚类数量K为3时是较优的选择，因此，该方法被称为手肘法。

上述的差距统计（Gap Statistics）法的主要思路是，在设置各种类别数量的情况下，通过蒙特卡洛模拟来产生聚类后的多个类别之间的差距值（Gap）期望，将每个类别数量情况下的差距值期望进行统计，获得差距值期望的图表数据，可以从差距值期望的图表数据观测出差距值期望最大的聚类类别数量，而差距值期望最大的聚类类别数量就是较优的选择，因此，该方法又被称为差距统计（Gap Statistics）法。

当K-Means算法完成后，将得到K个聚类的中心点，以及每个原始点所对应的聚类，通常采用所有样本点到它所在的聚类的中心点的距离的和作为聚类模型的度量，即在确定聚类数量时，将所有样本点到它所在的聚类的中心点的距离之和作为度量值，当所有样本点到它所在的聚类的中心点的距离之和较小，且聚类数量并不太多时（例如上述例子中的聚类数量K为3的点），可以确定此时的聚类数量为较优聚类数量。对于不同的聚类数量K，使用K-Means算法对评论数据进行聚类后，会得到不同的中心点和聚类下对应的原始点，所以会对不同的聚类中心点有不同的度量方式，即可以根据具体实际情况确定聚类数量和聚类中心点的度量方式。

在具体的实施过程中，还可以对聚类算法模型进行多次迭代训练，具体例如：使用聚类算法模型多次对评论数据进行聚类运算，依次将聚类数量从2增加至合适的数量，让聚类算法模型达到稳定的状态之后，即让所有样本点到它所在的聚类的中心点的距离之和的变化趋势变得非常缓和时，再使用稳定的聚类算法模型对评论数据进行聚类，即再从多个聚类数量中确定一个合适的聚类数量，再对评论数据进行聚类验证，从而增加聚类算法模型对评论数据进行处理的稳定性。

可以理解的是，在对评论数据的过程中，使用TF-IDF分词器结合K-Means聚类算法的好处在于，K-Means聚类算法能够有效地处理TF-IDF分词器对评论数据进行分词和组合拼接后的连续特征，也就是说，TF-IDF分词器可以设置分词粒度的分词方式更适合评论数据的分词方式，对评论数据分词后获得的词语进行组合，获得的连续特征值能够被K-means算法有效地处理，从而使得TF-IDF分词器和K-Means聚类算法结合后的融合率更高。

步骤S132：将从多个采样簇类的每个采样簇类中的多个词语筛选出的词语确定为该采样簇类的类别标签，获得多个类别标签；其中，每个采样簇类确定出一个类别标签。

上述步骤S132的实施方式有很多种，至少包括如下几种实施方式：

第一种实施方式，根据词语出现的频率或者次数将多个词语筛选出的词语确定为类别标签，具体例如：对每个采样簇类中的多个词语进行统计，获得每个词语在多个词语中出现的频率或者次数，将在多个词语中出现的频率最高或者次数最多的词语确定为类别标签；以此类推，对每个采样簇类都做这样的处理，即可获得多个类别标签。

第二种实施方式，在上述聚类分析的过程中，每个采样簇类中都包括聚类后的簇中心（又称质心），可以将距离簇中心最近的词语确定为该采样簇类的类别标签；同理，将每个采样簇类中距离簇中心最近的词语确定为该采样簇类的类别标签，即可获得多个类别标签。

第三种实施方式，首先人工地对每个采样簇类标注类别标签，然后基于深度学习的方式来学习每个采样簇类和每个采样簇类对应的类别标签，具体地，以多个采样簇类为训练数据，以多个采样簇类对应的类别标签为训练标签，对深度神经网络（Deep NeuralNetworks, DNN）进行训练，获得深度网络模型；最后，使用训练后的深度网络模型对没有标注的采样簇类进行标注，即可获得多个类别标签；其中，上述的DNN是一种判别模型，可以使用反向传播算法进行训练；这里的深度神经网络包括但不限于：VGG网络、Resnet网络、WideResnet网络和Inception网络等。

第四种实施方式，可以结合具体情景，具体情景例如：从评论数据中筛选出最受欢迎的且排名靠前的多个商品信息；在这种情景下，可以对采样簇类中的每个词语对应评论信息进行情感分析，获得采样簇类中的每个词语情感指示度，情感指示度表征该词语对应评论信息在情感上呈现的正面程度或者负面程度，即该词语是正面词还是负面词；最后，根据采样簇类中的每个词语情感指示度来对每个采样簇类中的多个词语进行筛选，从而确定采样簇类的类别标签。上述情感分析获得情感指示度的具体方式可以采用机器学习的方式和词典库匹配的方式。这里先以机器学习的方式为例，采用预先使用训练数据训练的神经网络模型对采样簇类中的每个词语对应评论信息进行情感分析，即可获得采样簇类中的每个词语情感指示度。然后再以词典库匹配的方式为例，词典库可以包括：正面词库和负面词库；将该待确定标签的词语对应评论信息进行分词，获得多个待确定情感词，然后再将每个待确定情感词输入正面词库进行匹配，若在正面词库中能够匹配到，那么将该待确定标签的词语对应的情感指示度累加1，对应地，再将每个待确定情感词输入负面词库进行匹配，若在负面词库中能够匹配到，那么将该待确定标签的词语对应的情感指示度减1。

在上述的实现过程中，通过对多个词语进行聚类分析采样，并将从多个采样簇类的每个采样簇类中的多个词语筛选出的词语确定为类别标签，获得多个类别标签；从而有效地将相似的词语划分在一个簇类中，减少了对同一簇类的词语计算量，提高了获得类别标签的效率。

上述步骤S140中的从多个类别标签筛选出商品名称的实施方式有很多种，至少包括如下几种：

第一种实施方式，将多个类别标签中的每个类别标签与多个商品名称进行匹配，若多个商品名称包含该类别标签，即该类别标签本身就是商品名称，那么就将该类别标签筛选出来，从而获得多个商品名称；具体例如：若多个类别标签包括：抽奖、肥皂和沐浴露，而多个商品名称包括：肥皂、沐浴露、洗头膏和护发素等等，那么每个类别标签与多个商品名称匹配后得知，多个类别标签中的肥皂和沐浴露是商品名称，则将肥皂和沐浴露筛选出来，获得肥皂和沐浴露两个商品名称。

第二种实施方式，获取用户输入的多个商品名称，将多个商品名称存入数据库中，在数据库中查询多个类别标签中的每个类别标签，也就是说，在数据库中查询是否存在每个类别标签，若该类别标签存在，那么就将该类别标签筛选出来，从而获得多个商品名称；其中，此处的数据库包括关系型数据库，关系型数据库是指采用关系模型来组织数据的数据库，可以使用的关系型数据库例如：Mysql、PostgreSQL、Oracle和SQLSever等。

第三种实施方式，计算多个类别标签中的每个类别标签与多个商品名称中的每个商品名称的相似度，若多个商品名称中存在任一商品名称与该类别标签的相似度值大于预设阈值，则将该类别标签筛选出来，从而获得多个商品名称；其中，这里的预设阈值可以根据具体情况进行设置，例如：可以设置为70%、80%或者90%。

第四种实施方式，人工筛选方式，具体例如：直播商家根据经验从多个类别标签中筛选出是商品名称的类别标签，从而获得多个商品名称。

在上述的实现过程中，将非结构化数据转化为结构化数据，具体地，从大量杂乱的且非结构化的弹幕文本和评论文本的评论数据中抽取出能够体现用户潜在需求的结构化的商品信息，从而减少盲目迎合用户需要的成本，而且可以提高用户体验；也就是说，通过机器学习方法对评论数据进行分词、聚类分析、类别标注和筛选等处理，并从多个类别标签筛选出评论数据中的商品名称，可以有效地分析直播用户希望以后的直播商品的内在需求，有效地提高了获得直播用户希望后续直播的商品名称的效率，从而有效地改善了获得直播用户希望下一次直播或者以后直播的商品名称的效率低下的问题，同时也能够提高在视频直播过程中的用户体验。

请参见图3示出的本申请实施例提供的根据商品名称确定商品信息并输出商品信息的流程示意图；可选地，在本申请实施例中，执行上述直播评论分析方法的电子设备在获得多个商品名称之后，还可以根据商品名称确定商品信息并输出商品信息，可以包括：

步骤S210：电子设备从商品信息表中查找到多个商品名称对应的商品信息。

商品信息表，是指包括商品信息的表，可以是数据库中的数据表，也可以是文件系统中的excel表格文件，也可以是内存中映射的链表或者数组等等数据结构；其中，此处的数据库包括：内存数据库、关系型数据库和非关系型数据库：非关系型数据库主要分为：面向列式存储、面向文档存储和键值对存储的三种非关系型数据库；可以使用的内存数据库例如：Memcached和Redis等。

其中，上述的商品信息还可以包括：商品购买链接、商品投票选项、商品购买数量和商品投票数量，以及商品名称在评论数据中出现的频率或次数等信息。

上述步骤S210的实施方式有很多种，至少包括：第一种实施方式，从内存数据库、关系型数据库或者非关系型数据库中的商品信息表中查找到商品名称对应的商品信息；第二种实施方式，从文件系统中的名称为商品信息表的excel表格文件中查找到商品名称对应的商品信息。

步骤S220：电子设备输出多个商品名称对应的商品信息。

上述步骤S220的第一种实施方式，电子设备向第一终端设备发送商品购买链接，该实施方式可以包括：

步骤S221：电子设备向第一终端设备发送多个商品名称对应的商品购买链接。

上述步骤S221的实施方式包括：电子设备通过传输控制协议（TransmissionControl Protocol，TCP）或者用户数据报协议（User Datagram Protocol，UDP）向第一终端设备发送多个商品名称对应的商品购买链接；第一终端设备在接收到商品购买链接之后，直播用户可以边看直播边点击商品购买链接下单购买商品。

上述步骤S220的第二种实施方式，电子设备直接显示商品投票选项，即向直播商家展示目前商品投票选项的投票数量情况，以便于直播商家实时调整直播策略；或者电子设备向第二终端设备发送商品投票选项，该实施方式可以包括：

步骤S222：电子设备向第二终端设备发送多个商品名称对应的商品投票选项，商品投票选项用于投选出下一次被视频直播的商品。

上述步骤S222的实施方式包括：电子设备向第二终端设备发送多个商品名称对应的商品投票选项，直播用户可以点击商品投票选项，终端设备向电子设备发送用户点击的商品投票选项，电子设备接收终端设备发送的用户点击的商品投票选项之后，电子设备可以对用户点击的商品投票选项进行统计分析，从而统计用户投选出的下一次被视频直播的商品。

在上述的实现过程中，通过向第一终端设备发送多个商品名称对应的商品购买链接或者商品投票选项，使得直播用户可以及时地购买视频正在直播的商品，或者通过投票选择出下一次或者以后想看到的视频直播商品。

上述步骤S220的第三种实施方式，电子设备向第三终端设备发送建议视频直播的商品信息以及商品顺序信息，该实施方式可以包括：

步骤S223：电子设备对商品名称在评论数据中出现的频率或次数进行分析，获得分析结果。

其中，上述的分析结果可以包括：建议视频直播的商品信息以及商品顺序信息。

在本实施方式的步骤S223中，还可以结合第一种实施方式和第二种实施方式的结果，即结合商品购买链接的点击次数、商品购买次数和投票次数共同确定上述分析结果，上述步骤S223的实施方式具体例如：对评论数据做情感倾向性分析，获得评论数据的情感倾向，即可以通过情感倾向判断评论数据是好评，还是差评；然后统计评论数据中对应商品的好评次数和商品的差评次数，最后根据赋予各类数据的权重对商品的需求程度进行排序，获得建议视频直播的商品信息以及商品顺序信息。上述商品的需求程度计算方法具体例如：赋予各类数据预设权重，将各类数据乘以预设权重获得商品的需求程度，此处的各类数据包括但不限于：商品的好评次数、差评次数、商品在评论中的出现频率、商品在评论中的出现次数、商品购买链接的点击次数、商品购买次数和投票次数等等。

步骤S224：电子设备向第三终端设备发送建议视频直播的商品信息以及商品顺序信息的分析结果。

上述步骤S223至步骤S224的实施方式包括：电子设备对商品名称在评论数据中出现的频率或次数进行统计分析，获得建议视频直播的商品信息以及商品顺序信息的分析结果，并将该分析结果通过超文本传输协议（Hyper Text Transfer Protocol，HTTP）和超文本传输安全协议（Hyper Text Transfer Protocol Secure，HTTPS）发送给第三终端设备。

在上述的实现过程中，通过对商品名称在评论数据中出现的频率或次数进行分析，并向用户展示建议视频直播的商品信息以及商品顺序信息的分析结果；从而使得直播商家节省了根据商品信息确定视频直播的商品和商品顺序，有效地提高了直播商家获得建议视频直播的商品信息以及商品顺序信息的速度。进一步地，通过从商品信息表中查找到多个商品名称对应的商品信息，并将商品信息显示给直播商家或者直播用户，使得直播商家根据展示的直播用户关心的商品信息实时地调整视频直播策略，从而让直播商家更好地满足直播用户的需求。

请参见图4示出的本申请实施例提供的直播评论分析装置的结构示意图；本申请实施例提供了一种直播评论分析装置300，包括：

评论数据获得模块310，用于获取在视频直播过程中产生的弹幕文本和评论文本，以获得评论数据。

评论数据分词模块320，用于分词模块对评论数据进行分词，获得多个词语。

类别标签获得模块330，用于对多个词语进行聚类分析和类别标注，获得多个类别标签。

商品名称获得模块340，用于从多个类别标签筛选出商品名称，获得多个商品名称。

可选地，在本申请实施例中，评论数据分词模块，包括：

数据分词器子模块，用于使用词频-逆向文件频率分词器对评论数据进行分词。

可选地，在本申请实施例中，类别标签获得模块，包括：

采样簇类获得模块，用于对多个词语进行聚类分析采样，获得多个采样簇类。

类别标签确定模块，用于将从多个采样簇类的每个采样簇类中的多个词语筛选出的词语确定为该采样簇类的类别标签，获得多个类别标签；其中，每个采样簇类确定出一个类别标签。

可选地，在本申请实施例中，类别标签获得模块，还可以包括：

类别数量确定模块，用于使用手肘法或差距统计法确定需要类别标注的类别数量。

类别标签确定模块，用于根据类别数量确定多个类别标签。

可选地，在本申请实施例中，还包括：

商品信息查找模块，用于从商品信息表中查找到多个商品名称对应的商品信息。

商品信息输出模块，用于输出多个商品名称对应的商品信息。

可选地，在本申请实施例中，商品信息包括：商品购买链接或者商品投票选项；商品信息输出模块，包括：

商品信息发送模块，用于向第一终端设备发送多个商品名称对应的商品购买链接；或者向第二终端设备发送多个商品名称对应的商品投票选项，商品投票选项用于投选出下一次被视频直播的商品。

可选地，在本申请实施例中，商品信息包括：商品名称在评论数据中出现的频率或次数；直播评论分析装置，还包括：

分析结果获得模块，用于对商品名称在评论数据中出现的频率或次数进行分析，获得分析结果，分析结果包括：建议视频直播的商品信息以及商品顺序信息。

应理解的是，该装置与上述的直播评论分析方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件（firmware）的形式存储于存储器中或固化在装置的操作系统（operating system，OS）中的软件功能模块。

请参见图5示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400，包括：处理器410和存储器420，存储器420存储有处理器410可执行的机器可读指令，机器可读指令被处理器410执行时执行如上的方法。

本申请实施例还提供了一种存储介质430，该存储介质430上存储有计算机程序，该计算机程序被处理器410运行时执行如上的方法。

其中，存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random Access Memory, 简称SRAM），电可擦除可编程只读存储器（Electrically Erasable Programmable Read-Only Memory, 简称EEPROM），可擦除可编程只读存储器（Erasable Programmable Read Only Memory, 简称EPROM），可编程只读存储器（Programmable Red-Only Memory, 简称PROM），只读存储器（Read-Only Memory, 简称ROM），磁存储器，快闪存储器，磁盘或光盘。

本申请实施例提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这主要根据所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以使用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种直播评论分析方法，其特征在于，包括：

获取在视频直播过程中产生的弹幕文本和评论文本，以获得评论数据；

使用词频-逆向文件频率分词器对所述评论数据进行分词，获得多个词语；

对所述多个词语进行聚类分析和类别标注，获得多个类别标签；

从所述多个类别标签筛选出商品名称，获得多个商品名称。

2.根据权利要求1所述的方法，其特征在于，所述对所述多个词语进行聚类分析和类别标注，获得多个类别标签，包括：

对所述多个词语进行聚类分析采样，获得多个采样簇类；

将从所述多个采样簇类的每个采样簇类中的多个词语筛选出的词语确定为该采样簇类的类别标签，获得所述多个类别标签；其中，所述每个采样簇类确定出一个类别标签。

3.根据权利要求1所述的方法，其特征在于，所述获得多个类别标签，包括：

使用手肘法或差距统计法确定需要类别标注的类别数量；

根据所述类别数量确定所述多个类别标签。

4.根据权利要求1所述的方法，其特征在于，在所述获得多个商品名称之后，还包括：

从商品信息表中查找到所述多个商品名称对应的商品信息；

输出所述多个商品名称对应的商品信息。

5.根据权利要求4所述的方法，其特征在于，所述商品信息包括：商品购买链接或者商品投票选项；所述输出所述多个商品名称对应的商品信息，包括：

向第一终端设备发送所述多个商品名称对应的商品购买链接；或者

向第二终端设备发送所述多个商品名称对应的商品投票选项，所述商品投票选项用于投选出下一次被视频直播的商品。

6.根据权利要求4所述的方法，其特征在于，所述商品信息包括：商品名称在所述评论数据中出现的频率或次数；在所述输出所述多个商品名称对应的商品信息之后，还包括：

对所述商品名称在所述评论数据中出现的频率或次数进行分析，获得分析结果，所述分析结果包括：建议视频直播的商品信息以及商品顺序信息。

7.一种直播评论分析装置，其特征在于，包括：

评论数据获得模块，用于获取在视频直播过程中产生的弹幕文本和评论文本，以获得评论数据；

评论数据分词模块，用于使用词频-逆向文件频率分词器对所述评论数据进行分词，获得多个词语；

类别标签获得模块，用于对所述多个词语进行聚类分析和类别标注，获得多个类别标签；

商品名称获得模块，用于从所述多个类别标签筛选出商品名称，获得多个商品名称。

8.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至6任一所述的方法。

9.一种存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至6任一所述的方法。