CN108664470A

CN108664470A - 视频标题信息量的度量方法、可读存储介质及电子设备

Info

Publication number: CN108664470A
Application number: CN201810428803.5A
Authority: CN
Inventors: 王璐; 张文明; 陈少杰
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Wuhan Douyu Network Technology Co Ltd
Priority date: 2018-05-04
Filing date: 2018-05-04
Publication date: 2018-10-16
Anticipated expiration: 2038-05-04
Also published as: CN108664470B

Abstract

一种视频标题信息量的度量方法，包括以下步骤：S1、将待度量的视频标题文本切分为一个或多个单独的词语；S2、统计各词语在所有视频标题文本中出现的概率，并选择一个参照文本，统计各词语在所述参照文本中出现的概率；S3、计算各词语在所有视频标题文本中的平均信息熵，并计算各词语在参照文本中的平均信息熵；以及S4、将各词语在所有视频标题文本中的平均信息熵与在参照文本中的平均信息熵加权求和，并将求和的结果作为视频标题的信息量的值。本发明还涉及相关的计算机可读存储介质和电子设备。

Description

视频标题信息量的度量方法、可读存储介质及电子设备

技术领域

本发明涉及数据处理的技术领域，更具体地，涉及一种视频标题信息量的度量方法以及相关的计算机可读存储介质和电子设备。

背景技术

网站上视频的标题一般由用户在上传时填写，通过填写一些有意义的文字使得视频观看者能够通过标题快速的获取信息。标题的质量是视频质量的一部分，一个能够包含更多视频内容信息的标题可以吸引更多用户观看，因此对视频标题的信息量进行度量是非常重要的。目前，现有技术中并无对视频标题信息量进行度量的实现方案。

发明内容

针对上述问题，为了对视频标题信息量进行度量，作为本发明的一个方面，提出了一种视频标题信息量的度量方法，其中，该方法包括以下步骤：

S1、将待度量的视频标题文本切分为一个或多个单独的词语；

S2、统计各词语在所有视频标题文本中出现的概率，并选择一个参照文本，统计各词语在所述参照文本中出现的概率；

S3、计算各词语在所有视频标题文本中的平均信息熵，并计算各词语在参照文本中的平均信息熵；以及

S4、将各词语在所有视频标题文本中的平均信息熵与在参照文本中的平均信息熵加权求和，并将求和的结果作为视频标题的信息量的值。

在一些实施例中，步骤S1还包括去除所述词语中的无意义词语的步骤。

在一些实施例中，在步骤S2中，通过下式统计各词语在所有视频标题文本中出现的概率：

其中，p_i是视频标题中第i个词语在所有视频标题文本中出现的概率，N_i是视频标题中第i个词语在所有视频标题文本中出现的次数，N是所有视频标题文本中出现的词语的总出现次数；以及

通过下式统计各词语在所有参照文本中出现的概率：

其中，s_i是视频标题中第i个词语在参照文本中出现的概率，M_i是视频标题中第i个词语在参照文本中出现的次数，M是参照文本中出现的词语的总出现次数。

在一些实施例中，在步骤S3中，采用下式计算所述各词语在所有视频标题文本中的平均信息熵H_p：

以及

采用下式计算所述各词语在参照文本中的平均信息熵H_s：

其中，log表示以10为底的对数，n为视频标题文本中出现的词语的个数。

在一些实施例中，在步骤S4中，采用如下公式来进行加权求和：

H＝w₁H_p+w₂H_s

其中，H为视频标题的信息量的值，w₁为H_p的权重系数，w₂为H_s的权重系数，w₁+w₂＝1，且0.5＜w₁≤1。

在一些实施例中，若M_i＝0，则

在一些实施例中，所述参照文本为人民日报文本。

本发明的另一方面提供了一种计算机可读存储介质，其上存储有可执行指令，所述可执行指令在由处理器执行时，实现如前任一项所述的视频标题信息量的度量方法的步骤。

本发明另一方面提供了一种电子设备，包括：

存储器，用于存储可执行指令；以及

处理器，用于执行存储器中存储的可执行指令，以执行如上任一项所述的视频标题信息量的度量方法的步骤。

基于上述技术方案可知，本发明至少取得了以下有益效果中的一个：

本发明提供的视频标题信息量的度量方法及相关的可读存储介质和电子设备，基于如果词语在语料中出现的概率越大，那么该词语所包含的信息越多的思想，提出了一种基于信息熵的视频标题信息量的度量方式，可以方便、简洁、直观地完成视频标题信息量的度量；同时还选用了参照文本来综合考虑视频标题信息量的度量，使得度量结果更加客观可信。

附图说明

图1为根据本发明的实施例的视频标题信息量的度量方法的流程图。

图2为根据本发明的实施例的计算机可读存储介质的示意图；

图3为根据本发明的实施例的电子设备的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。

参照图1，示出了根据本发明的一个实施例的视频标题信息量的度量方法的流程图，包括以下步骤：

S1、将待度量的视频的标题文本切分为一个或多个单独的词语。在对需要度量的某一视频的标题文本进行信息量的度量时，首先需要把待度量的视频的标题文本进行切分，比如可以将具有较长字符串的标题文本按照语义关系切分成一个或多个单独的词语。

S2、统计各词语在所有视频标题文本中出现的概率，并选择一个参照文本，统计各词语在参照文本中出现的概率。通过选用参照文本来综合考虑视频标题信息量的度量，使得度量结果更加客观可信。

S3、计算各词语在所有视频标题文本中的平均信息熵，并计算各词语在参照文本中的平均信息熵。

如上在步骤S2中所述的所有视频标题文本和参照文本可以根据实际统计需求进行确定。例如，所有视频标题文本可以为一个视频网站中的全部视频标题文本；也可以综合考虑多个视频网站中的全部视频标题文本作为所有视频标题文本。在待度量的视频的标题属于较常规领域的情况下，上述参照文本可以为较为通用的文本，例如人民日报文本；当待度量的视频的标题涉及较特殊的领域时，上述参照文本可以为涉及相关领域的文本，例如，对于科普类视频的标题，可以选取相关科普文献或期刊文本作为参照文本。

本发明的实施例基于如果词语在语料中出现的概率越大，那么该词语所包含的信息越多的思想，提出了一种基于信息熵的视频标题信息量的度量方法，可以方便、简洁、直观地完成视频标题信息量的度量。

“信息熵”的概念最初由香农提出，香农借鉴了热力学的概念，把信息中排除了冗余后的平均信息量称为“信息熵”，并给出了计算信息熵的数学表达式。

然而对于视频标题来说，并不是视频标题包括的词语越多则该视频标题质量越高、包含的信息量越多。本发明的实施例中将信息熵除以视频标题文本切分后得到的词语个数作为平均信息熵，以更加客观地反映视频标题的信息量。通过采用平均信息熵，使得视频标题中信息熵较高的词语占的比重越大，其包含的信息量越多。

其中，所述所有视频标题文本实质上为一个包括了所有视频标题文本的文本库；所述参照文本实质上为参照文本的文本库。

在一些实施例中，步骤S1还包括去除所述词语中的无意义词语的步骤。例如，对于标题“视频标题信息量的度量方法”，则将其切分为“视频”、“标题”、“信息量”、“度量”和“方法”，而去除了无意义的助词“的”。通过去除无意义的词语，优化了度量结果。

在一些实施例中，所述参照文本为人民日报文本。人民日报文本属于较通用的文本，而视频标题文本具有较高的专业性。因此，计算得到的在所有视频标题文本中的平均信息熵表示视频标题在较专业的领域中的信息量；在人民日报文本中的平均信息熵表示视频标题在通用领域中的信息量。对二者进行综合考虑，使得视频标题信息量度量结果更加客观可信。

通过下式统计各词语在所有参照文本中出现的概率：

其中，s_i是视频标题中第i个词语在参照文本中出现的概率，M_i是视频标题中第i个词在参照文本中出现的次数，M是参照文本中出现的词语的总出现次数。

需要说明的是，N表示的并不是所有视频标题文本中出现的所有词语的个数，而是所有词语中的每个词语出现的次数之和。

同样，M表示并不是参照文本中出现的所有词语的个数，而是所有词语中的每个词语出现的次数之和。

p_i表示的是视频标题中第i个词语在所有视频标题文本中出现的次数在所有视频标题文本中出现的词语的总出现次数中的占比；s_i表示的是视频标题中第i个词在参照文本中出现的次数在参照文本中出现的词语的总出现次数中的占比。

以及

采用下式计算所述各词语在参照文本中的平均信息熵H_s：

在此，log表示以10为底的对数，n为视频标题文本中出现的词语的个数。

H＝w₁H_p+w₂H_s

其中，H为视频标题的信息量的值，w₁为H_p的权重系数，w₂为H_s的权重系数，w₁+w₂＝1，且0.5＜w₁≤1。其中w₁和w₂根据业务经验确定，因度量对象为视频标题，一般情况下，各词语在所有视频标题文本中的平均信息熵的权重应较高。

通过以上公式，能方便、简洁、直观地完成视频标题信息量的度量。H的值越大，则表示视频标题所包含的信息量越多。

在一些实施例中，若M_i＝0，即第i个词语在参照文本中没有出现时，令在这种情况下，可能某些专业性较高的词语并未在参照文本中出现，此时优选方案是进行平滑处理，即给s_i赋一个定值。

下面对一个具体实施例进行说明：

例如，一个视频的标题经过分词生成了三个词语a，b和c。a，b和c在所有视频标题文本中出现的次数分别是10次、50次和100次，所有视频标题文本中出现的词语的总出现次数为100000次。

词语a，b和c在人民日报文本中出现的次数分别是500次、200次和1000次，人民日报文本中出现的词语的总出现次数为1000000次。

设置权重系数w₁＝0.6，w₂＝0.4

于是：

计算得到的H值越大，则表示视频标题所包含的信息量越多，进一步可据此判断视频标题本文的质量较好，因此可以根据上述H值判断相关视频的标题本文的质量的好坏。当然，根据本发明的方法不仅用于对视频的标题信息的质量进行判断，还可用于对直播间、文档等的标题名称的质量进行评价。

本发明的实施例基于如果词语在语料中出现的概率越大，那么该词语所包含的信息越多的思想，提出了一种基于信息熵的视频标题信息量的度量方式，可以方便、简洁、直观地完成视频标题信息量的度量；并且去除了无意义的词语，优化了度量结果；同时还选用了参照文本来综合考虑视频标题信息量的度量，使得度量结果更加客观可信。

基于同一发明构思，参考图2所示，本发明的实施例还提供一种计算机可读存储介质201，其上存储有可执行指令202，可执行指令202在由一个或多个处理器执行时，可以实现如上实施例的任一种所述的视频标题信息量的度量方法的步骤。

基于同一发明构思，参考图3所示，本发明的实施例还提供一种电子设备301，其包括：存储器302，用于存储可执行指令；以及处理器303，用于执行存储器302中存储的可执行指令，以执行根据如上实施例的任一种所述的视频标题信息量的度量方法的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频标题信息量的度量方法，包括以下步骤：

2.根据权利要求1所述的方法，其中，步骤S1还包括去除所述词语中的无意义词语的步骤。

3.根据权利要求1所述的方法，其中，在步骤S2中，通过下式统计各词语在所有视频标题文本中出现的概率：

通过下式统计各词语在所有参照文本中出现的概率：

4.根据权利要求3所述的方法，其中，在步骤S3中，采用下式计算所述各词语在所有视频标题文本中的平均信息熵H_p：

以及

采用下式计算所述各词语在参照文本中的平均信息熵H_s：

5.根据权利要求4所述的方法，其中，在步骤S4中，采用如下公式来进行加权求和：

H＝w₁H_p+w₂H_s

其中，H为视频标题的信息量的值，w₁为H_p的权重系数，w₂为H_s的权重系数，w₁+w_２＝1，且0.5＜w₁≤1。

6.根据权利要求3所述的方法，其中，若M_i＝0，则

7.根据权利要求1-6中任一项所述的方法，其中，所述参照文本为人民日报文本。

8.一种计算机可读存储介质，其上存储有可执行指令，所述可执行指令在由处理器执行时，实现根据权利要求1-7中的任一项所述的视频标题信息量度量方法的步骤。

9.一种电子设备，包括：

存储器，用于存储可执行指令；以及

处理器，用于执行存储器中存储的可执行指令，以执行根据权利要求1-7中的任一项所述的视频标题信息量度量方法的步骤。