CN111400495A

CN111400495A - 一种基于模板特征的视频弹幕消费意图识别方法

Info

Publication number: CN111400495A
Application number: CN202010184505.3A
Authority: CN
Inventors: 张璞; 张俊杰; 熊安萍
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2020-07-10

Abstract

本发明涉及消费意图识别领域，具体涉及一种基于模板特征的视频弹幕消费意图识别方法，该方法包括：获取实时视频弹幕数据集，将实时视频弹幕数据集输入到训练好的消费意图识别模型中，得到消费意图结果；所述训练消费意图识别模型的过程包括：将获取视频弹幕数据集输入到消费意图模板集中，得到模板特征向量；将模板特征向量输入到SVM分类器中，调用支持向量机的核函数对输入数据进行特征映射，获取对不同标注数据点最好分割情况的超平面，完成消费意图识别模型的训练；本发明使用生成的消费意图模板集将弹幕文本转化为模板特征，将模板特征作为消费意图识别模型的输入，提高了消费意图识别的准确性。

Description

一种基于模板特征的视频弹幕消费意图识别方法

技术领域

本发明涉及消费意图识别领域，具体涉及一种基于模板特征的视频弹幕消费意图识别方法。

背景技术

消费意图研究是针对用户表现出的这些购买意愿进行识别、挖掘和推理的过程，通过这种方式可以深入理解人类消费行为和进行精准的个性化产品推荐。消费意图分析研究是营销决策的基础，对准确预测用户消费行为、推断市场预期和提高广告投放水平等方面有重要意义。

随着互联网的发展，越来越多的用户选择在网络上进行消费，消费意图识别领域越发被关注，涌现了一系列的方法进行消费意图的识别。其中最为基础、应用最广泛的就是基于模板匹配的方法，例如授权发明专利号为201310301375.7的《一种识别消费意图的方法及装置》公开了构建消费意图识别模型的方法，包括：获取消费领域的行为日志，并根据该日志进行行为模式分析，得到对应购买前行为的行为日志和对应购买后行为的行为日志；从确定的行为日志中选择满足训练数据筛选条件的行为日志作为训练样本；从中提取特征训练分类模型，得到设定消费领域对应的消费意图识别模型；通过该模型能够确定待识别用户的消费领域，从而得到待识别用户的消费意图是购买前或购买后。该专利能够实现用户消费意图的识别，有助于针对用户S进行更准确的信息投放。

但是在对输入的数据进行消费意图识别时，输入的模板由人工定义或者自动抽取高频词语组成；而人工定义编写规则，通常是基于一系列预处理与语言分析等过程，费时费力；由人工定义所编写的规则只能用于单一领域，可扩展性差，因此在进行自动抽取模板时经常会出现模板覆盖率不高等问题。

发明内容

为解决以上现有技术的问题，本发明提出了一种基于模板特征的视频弹幕消费意图识别方法，该方法包括：

获取实时视频弹幕数据集，将实时视频弹幕数据集输入到训练好的消费意图识别模型中，得到消费意图结果；

所述消费意图识别模型包括消费意图模板集和SVM分类器模型；

所述训练消费意图识别模型的过程包括：将获取视频弹幕数据集输入到消费意图模板集中，得到模板特征向量；将模板特征向量输入到SVM分类器中，调用支持向量机的核函数对输入数据进行特征映射，获取对不同标注数据点最好分割情况的超平面，完成消费意图识别模型的训练。

优选的，消费意图识别模型的生成方式包括：

步骤1：对获取的视频弹幕数据集进行预处理，得到消费意图正例集；

步骤2：采用基于PrefixSpan算法的消费意图模板自动生成方法对消费意图正例集进行处理，得到消费意图模板；

步骤3：对视频弹幕数据集进行文本预处理，并通过消费意图模板将其转化为模板特征；

步骤4：模板特征输入模型中进行训练，得到消费意图识别模型。

优选的，转化为模板特征的过程包括：

步骤31：对视频弹幕数据进行分词，去除停用词；

步骤32：使用模板匹配方法确定模板特征向量；即文本中包含消费意图模板中的所有模板词，则为匹配到该模板，将该模板所对应的特征值标为1，否则标0。

优选的，获取消费意图识别模型的过程包括：

步骤41：将模板特征以及分类标注输入SVM模型中进行SVM模型训练；

步骤42：采用代价敏感方法解决弹幕消费意图识别中数据具有的不均衡问题，优化训练的SVM模型；

步骤43：将处理过的在线弹幕数据输入到训练后的支持向量机模型中，进行消费意图的识别，输出消费意图识别结果。

优选的，所述代价敏感方法包括：

对获取的数据中不同类别设定不同的惩罚参数，且类别数越多惩罚项越小；将类别数量比作为参数设置的具体参数值；跟据设置的参数以及SVM支持向量机设置类别权重参数，完成SVM模型的优化。

优选的，消费意图模板集的获取包括：获取视频弹幕数据集，对数据集进行分词处理，剔除分词后的与视频领域相关的词语，得到处理后的词集；采用PrefixSpan算法计算处理后的词集，得到消费意图模板初集template-list，选取消费意图模板初集中的动词和副词，得到第二消费意图模板初集；去除第二消费意图模板初集的每一模板中重复词语；若模板为空集，将该模板从第二消费意图模板初集中删除；若该模板不为空集，则去除第二消费意图模板初集中相同的模板，得到消费意图模板集。

优选的，PrefixSpan算法的步骤包括：

步骤1：获取数据集中的所有频繁项，对每个频繁项做投影，得到投影数据库集合；

步骤2：获取所有长度为L的前缀和对应的投影数据库；对长度为L的前缀进行计数，并设置阈值α；

步骤3：将支持度低于阈值α的前缀对应的项从数据集S删除，得到所有的频繁项序列，且序列的长度为L；

步骤4：对于每个长度为L满足支持度要求的前缀进行递归挖掘；

步骤5：输出所有满足支持度要求的频繁序列集。

优选的，所述对前缀进行递归挖掘的过程包括：找出前缀所对应的投影数据库，若投影数据库为空，则递归返回；统计对应投影数据库中各项的支持度计数；若所有项的支持度计数都低于阈值α，则递归返回；将满足支持度计数的各个单项和当前的前缀进行合并，得到新的前缀；跟据得到的新的前缀，将对应的序列长度加1，即L＝L+1；将新的前缀作为合并单项后的各个前缀，分别递归返回，直到所有的数据都进行数据递归挖掘。

本发明利通过基于PrefixSpan的消费意图模板自动生成方法，使用视频弹幕数据集中的消费意图正例自动生成消费意图模板集，提高了消费规则制定过程的效率；本发明使用生成的消费意图模板集将弹幕文本转化为模板特征，消费意图识别模型的输入，提高了消费意图识别的准确性。

附图说明

图1为本发明的基于PrefixSpan算法的自动消费意图模板生成方法流程图；

图2为本发明的基于模板特征的视频弹幕消费意图识别方法的结构图。

具体实施方式

下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明为一种基于模板特征的视频弹幕消费意图识别方法，如图1所示，该方法包括：获取实时视频弹幕数据集，将实时视频弹幕数据集输入到训练好的消费意图识别模型中，得到消费意图结果；

所述训练消费意图识别模型的过程包括：将获取视频弹幕数据集输入到消费意图模板集中，得到模板特征向量；将模板特征向量输入到SVM分类器中，调用支持向量机的核函数对输入数据进行特征映射，获取对不同标注数据点最好分割情况的超平面，完成消费意图识别模型的训练；

其中，SVM表示支持向量机。

所述获取取消费意图模板初集template-list的算法为：

template_list

←PrefixSpan(D_t,minimum length,maximum length,minimum support)

其中D_t表示视频弹幕消费意图正例数据集，minimum length表示限制生成的最小模板长度，maximum length表示限制生成的最长模板长度minimum support表示最小支持度，只有出现超过该支持度的次数的序列才会被保存到消费意图模板初集合。

基于PrefixSpan算法的消费意图模板自动生成方法如下：

输入：

视频弹幕消费意图正例数据集D_t

参数：最小模板长度minimum length，最长模板长度maximum length，最小支持度minimum supplrt。

输出；视频弹幕消费意图模板D_t'

1.对D_t分词，拼接分词后的词语和词性。

2.去除D_t中视频弹幕领域相关词语。如‘华为’，‘小米’等与实验数据相关的品牌、商品名。

3.对D_t中数据去除中英文符号。

4.template_list←

PrefixSpan(D_t,minimum length,maximum length,minimum support)

5.for template_item in template_list do

6.剔除template_item中停用词及除了动词、副词以外的词

7.对template_item中的词进行去重

8.if template_item不为空then

9.if template_item不存在于D_t'then

10.将template_item加入D_t'

11.end if

12.end for

13.返回D_t'

即PrefixSpan算法的步骤包括：

步骤5：输出所有满足支持度要求的频繁序列集。

其中，PrefixSpan表示前缀投影的模式挖掘。

所述对前缀进行递归挖掘的过程包括：找出前缀所对应的投影数据库，若投影数据库为空，则递归返回；统计对应投影数据库中各项的支持度计数；若所有项的支持度计数都低于阈值α，则递归返回；将满足支持度计数的各个单项和当前的前缀进行合并，得到新的前缀；跟据得到的新的前缀，将对应的序列长度加1，即L＝L+1；将新的前缀作为合并单项后的各个前缀，分别递归返回，直到所有的数据都进行数据递归挖掘。

为了数据弹幕数据集进行分词并拼接词性，本实例使用jieba分词包进行文本处理，将分词后的词语文本和词性通过字符串拼接进行连接。通过哈工大提供的自然语音处理停用词表，与文本进行比对，去除文本中所包含的停用词以及标点符号。

在一个实例中，提出视频弹幕中与视频相关的领域词语主要通过视频名称中包含的名词信息，以及视频弹幕数据中出现频率较高的名词信息，通过以上信息在产品网站上的搜索得到相关领域名词，而后与视频弹幕文本进行匹配，删除匹配到的词语。

整个消费意图识别过程类似黑盒，对用户无感，用户只用输入网络上产生的视频弹幕信息，模型进行计算后输出消费意图识别结果。

如图2所示，消费意图识别过程包括：首先使用弹幕数据集中的具有消费意图的数据，结合停用词知识库以及自然语言处理知识库，使用基于PrefixSpan算法的自动消费意图模板生成方法进行消费意图模板集的生成。其次，将弹幕数据集中的全部数据使用模板匹配的方法与消费意图模板集进行匹配，使用匹配的结果拼接为消费意图特征向量，再次，使用消费意图特征向量输入SVM支持向量机中进行训练，得到消费意图识别模型。最后，输入在线弹幕数据，通过消费意图模板集匹配转化为特征向量，进一步将特征向量输入消费意图识别模型，输出消费意图识别结果。

本发明中针对的数据集不同，这些数据集中所包含的数据长度等也不尽相同，本发明通过数据统计的方法确定数据的最长长度作为模板的最长模板长度，通过数据集大小来确定其中的模板最小支持度，本实例中根据经验设置为总样本数量的1/10。

对于已经得到的消费意图模板初集，遍历其中的每个模板项，对其中包含有相同的词语进行去重，由于对于文本消费意图的定义中规定必须有消费意图触发词的存在，而消费意图触发词经语言学分析为动宾结构词组，所以将动词副词以外的词判定为噪音项予以剔除。最后去除整个模板初集中的重复项，得到最后的消费意图模板。

基于模板特征的视频弹幕消费意图识别方法，所述方法包括上述的基于PrefixSpan的消费意图模板自动生成方法，将在线弹幕文本输入消费意图识别模型，输出弹幕消费意图的识别结果。

消费意图识别模型的生成方式包括：

步骤4：模板特征输入模型中进行训练，得到消费意图识别模型

转化为模板特征的过程包括：

步骤31：对视频弹幕数据进行分词，去除停用词；

获取消费意图识别模型的过程包括：

所述代价敏感方法包括为了应对数据不平衡性，通过代价敏感的方法完成类别权重的均衡化，使所占比例较小的样本权重较高，而所占比例较大的样本权重较低。

代价敏感的方法即对不同的类别设定不同的惩罚参数，类别数越多惩罚项越小，某一类的输入样本数越多，这一类的惩罚项越小，这样就能很好的平衡输入样本不均衡带来的学习偏移问题。

具体的在本例中采用为SVM支持向量机设置类别权重参数的方式来完成代价敏感方法，使用类别数量比作为参数设置的具体的参数值。

对于将在在西安弹幕数据转化为消费提图模板的具体过程可以通过以下过程实现，使用直播视频网站的API完成在线弹幕数据的获取，在获取到在线弹幕数据后对弹幕文本进行分词并利用哈工大提供的停用词表进行去除停用词。将分词的结果与之前生成的消费意图模板中的每项模板进行对比，如果包含所对比模板中的所有模板词，则认为比对此消费意图模板成功，将该模板所对应的特征量置为1，否则置为0，比对完所有消费意图模板集中的模板后，将所有的模板特征量进行拼接得到最终的消费意图模板向量。

将消费意图模板向量作为输入的训练模型过程如下，在本实例中选择SVM支持向量机作为分类器模型，将上步中得到的消费意图模板向量作为支持向量机的输入向量，进行训练。

优选的，由于数据经常存在不平衡性，本实例中使用代价敏感方法进行训练，以图数据不平衡性带来的负面影响，进一步提高模型的识别能力。具体为提高少数类别的评价错误惩罚系数，以求将支持向量机超平面推向更少数据一测，减少由于数据不平衡性导致的分类不准确的情况，进一步的提高消费意图识别效果。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于模板特征的视频弹幕消费意图识别方法，其特征在于：获取实时视频弹幕数据集，将实时视频弹幕数据集输入到训练好的消费意图识别模型中，得到消费意图结果；

其中，SVM表示支持向量机。

2.根据权利要求1所述的一种基于模板特征的视频弹幕消费意图识别方法，其特征在于，所述消费意图识别模型的生成过程包括：

步骤4：模板特征输入模型中进行训练，得到消费意图识别模型；

其中，PrefixSpan表示前缀投影的模式挖掘。

3.根据权利要求2所述的一种基于模板特征的视频弹幕消费意图识别方法，其特征在于，所述转化为模板特征的过程包括：

步骤31：对视频弹幕数据进行分词，去除停用词；

4.根据权利要求2所述的一种基于模板特征的视频弹幕消费意图识别方法，其特征在于，所述获取消费意图识别模型的过程包括：

5.跟据权利要求4所述的一种基于模板特征的视频弹幕消费意图识别方法，其特征在于，所述代价敏感方法包括：

6.跟据权利要求1所述的一种基于模板特征的视频弹幕消费意图识别方法，其特征在于，所述消费意图模板集的获取包括：

获取视频弹幕数据集，对数据集进行分词处理，剔除分词后的与视频领域相关的词语，得到处理后的词集；采用PrefixSpan算法计算处理后的词集，得到消费意图模板初集template-list，选取消费意图模板初集中的动词和副词，得到第二消费意图模板初集；去除第二消费意图模板初集的每一模板中重复词语；若模板为空集，将该模板从第二消费意图模板初集中删除；若该模板不为空集，则去除第二消费意图模板初集中相同的模板，得到消费意图模板集；

其中，PrefixSpan表示前缀投影的模式挖掘，template-list表示消费意图模板初集。

7.跟据权利要求1所述的一种基于模板特征的视频弹幕消费意图识别方法，其特征在于，所述PrefixSpan算法的步骤包括：

步骤5：输出所有满足支持度要求的频繁序列集。

8.跟据权利要求7所述的一种基于模板特征的视频弹幕消费意图识别方法，其特征在于，所述对前缀进行递归挖掘的过程包括：

找出前缀所对应的投影数据库，若投影数据库为空，则递归返回；统计对应投影数据库中各项的支持度计数；若所有项的支持度计数都低于阈值α，则递归返回；将满足支持度计数的各个单项和当前的前缀进行合并，得到新的前缀；跟据得到的新的前缀，将对应的序列长度加1，即L＝L+1；将新的前缀作为合并单项后的各个前缀，分别递归返回，直到所有的数据都进行数据递归挖掘。