CN108664470A - 视频标题信息量的度量方法、可读存储介质及电子设备 - Google Patents

视频标题信息量的度量方法、可读存储介质及电子设备 Download PDF

Info

Publication number
CN108664470A
CN108664470A CN201810428803.5A CN201810428803A CN108664470A CN 108664470 A CN108664470 A CN 108664470A CN 201810428803 A CN201810428803 A CN 201810428803A CN 108664470 A CN108664470 A CN 108664470A
Authority
CN
China
Prior art keywords
video title
word
cross reference
reference file
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810428803.5A
Other languages
English (en)
Other versions
CN108664470B (zh
Inventor
王璐
张文明
陈少杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201810428803.5A priority Critical patent/CN108664470B/zh
Publication of CN108664470A publication Critical patent/CN108664470A/zh
Application granted granted Critical
Publication of CN108664470B publication Critical patent/CN108664470B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种视频标题信息量的度量方法,包括以下步骤:S1、将待度量的视频标题文本切分为一个或多个单独的词语;S2、统计各词语在所有视频标题文本中出现的概率,并选择一个参照文本,统计各词语在所述参照文本中出现的概率;S3、计算各词语在所有视频标题文本中的平均信息熵,并计算各词语在参照文本中的平均信息熵;以及S4、将各词语在所有视频标题文本中的平均信息熵与在参照文本中的平均信息熵加权求和,并将求和的结果作为视频标题的信息量的值。本发明还涉及相关的计算机可读存储介质和电子设备。

Description

视频标题信息量的度量方法、可读存储介质及电子设备
技术领域
本发明涉及数据处理的技术领域,更具体地,涉及一种视频标题信息量的度量方法以及相关的计算机可读存储介质和电子设备。
背景技术
网站上视频的标题一般由用户在上传时填写,通过填写一些有意义的文字使得视频观看者能够通过标题快速的获取信息。标题的质量是视频质量的一部分,一个能够包含更多视频内容信息的标题可以吸引更多用户观看,因此对视频标题的信息量进行度量是非常重要的。目前,现有技术中并无对视频标题信息量进行度量的实现方案。
发明内容
针对上述问题,为了对视频标题信息量进行度量,作为本发明的一个方面,提出了一种视频标题信息量的度量方法,其中,该方法包括以下步骤:
S1、将待度量的视频标题文本切分为一个或多个单独的词语;
S2、统计各词语在所有视频标题文本中出现的概率,并选择一个参照文本,统计各词语在所述参照文本中出现的概率;
S3、计算各词语在所有视频标题文本中的平均信息熵,并计算各词语在参照文本中的平均信息熵;以及
S4、将各词语在所有视频标题文本中的平均信息熵与在参照文本中的平均信息熵加权求和,并将求和的结果作为视频标题的信息量的值。
在一些实施例中,步骤S1还包括去除所述词语中的无意义词语的步骤。
在一些实施例中,在步骤S2中,通过下式统计各词语在所有视频标题文本中出现的概率:
其中,pi是视频标题中第i个词语在所有视频标题文本中出现的概率,Ni是视频标题中第i个词语在所有视频标题文本中出现的次数,N是所有视频标题文本中出现的词语的总出现次数;以及
通过下式统计各词语在所有参照文本中出现的概率:
其中,si是视频标题中第i个词语在参照文本中出现的概率,Mi是视频标题中第i个词语在参照文本中出现的次数,M是参照文本中出现的词语的总出现次数。
在一些实施例中,在步骤S3中,采用下式计算所述各词语在所有视频标题文本中的平均信息熵Hp
以及
采用下式计算所述各词语在参照文本中的平均信息熵Hs
其中,log表示以10为底的对数,n为视频标题文本中出现的词语的个数。
在一些实施例中,在步骤S4中,采用如下公式来进行加权求和:
H=w1Hp+w2Hs
其中,H为视频标题的信息量的值,w1为Hp的权重系数,w2为Hs的权重系数,w1+w2=1,且0.5<w1≤1。
在一些实施例中,若Mi=0,则
在一些实施例中,所述参照文本为人民日报文本。
本发明的另一方面提供了一种计算机可读存储介质,其上存储有可执行指令,所述可执行指令在由处理器执行时,实现如前任一项所述的视频标题信息量的度量方法的步骤。
本发明另一方面提供了一种电子设备,包括:
存储器,用于存储可执行指令;以及
处理器,用于执行存储器中存储的可执行指令,以执行如上任一项所述的视频标题信息量的度量方法的步骤。
基于上述技术方案可知,本发明至少取得了以下有益效果中的一个:
本发明提供的视频标题信息量的度量方法及相关的可读存储介质和电子设备,基于如果词语在语料中出现的概率越大,那么该词语所包含的信息越多的思想,提出了一种基于信息熵的视频标题信息量的度量方式,可以方便、简洁、直观地完成视频标题信息量的度量;同时还选用了参照文本来综合考虑视频标题信息量的度量,使得度量结果更加客观可信。
附图说明
图1为根据本发明的实施例的视频标题信息量的度量方法的流程图。
图2为根据本发明的实施例的计算机可读存储介质的示意图;
图3为根据本发明的实施例的电子设备的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。
参照图1,示出了根据本发明的一个实施例的视频标题信息量的度量方法的流程图,包括以下步骤:
S1、将待度量的视频的标题文本切分为一个或多个单独的词语。在对需要度量的某一视频的标题文本进行信息量的度量时,首先需要把待度量的视频的标题文本进行切分,比如可以将具有较长字符串的标题文本按照语义关系切分成一个或多个单独的词语。
S2、统计各词语在所有视频标题文本中出现的概率,并选择一个参照文本,统计各词语在参照文本中出现的概率。通过选用参照文本来综合考虑视频标题信息量的度量,使得度量结果更加客观可信。
S3、计算各词语在所有视频标题文本中的平均信息熵,并计算各词语在参照文本中的平均信息熵。
S4、将各词语在所有视频标题文本中的平均信息熵与在参照文本中的平均信息熵加权求和,并将求和的结果作为视频标题的信息量的值。
如上在步骤S2中所述的所有视频标题文本和参照文本可以根据实际统计需求进行确定。例如,所有视频标题文本可以为一个视频网站中的全部视频标题文本;也可以综合考虑多个视频网站中的全部视频标题文本作为所有视频标题文本。在待度量的视频的标题属于较常规领域的情况下,上述参照文本可以为较为通用的文本,例如人民日报文本;当待度量的视频的标题涉及较特殊的领域时,上述参照文本可以为涉及相关领域的文本,例如,对于科普类视频的标题,可以选取相关科普文献或期刊文本作为参照文本。
本发明的实施例基于如果词语在语料中出现的概率越大,那么该词语所包含的信息越多的思想,提出了一种基于信息熵的视频标题信息量的度量方法,可以方便、简洁、直观地完成视频标题信息量的度量。
“信息熵”的概念最初由香农提出,香农借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”,并给出了计算信息熵的数学表达式。
然而对于视频标题来说,并不是视频标题包括的词语越多则该视频标题质量越高、包含的信息量越多。本发明的实施例中将信息熵除以视频标题文本切分后得到的词语个数作为平均信息熵,以更加客观地反映视频标题的信息量。通过采用平均信息熵,使得视频标题中信息熵较高的词语占的比重越大,其包含的信息量越多。
其中,所述所有视频标题文本实质上为一个包括了所有视频标题文本的文本库;所述参照文本实质上为参照文本的文本库。
在一些实施例中,步骤S1还包括去除所述词语中的无意义词语的步骤。例如,对于标题“视频标题信息量的度量方法”,则将其切分为“视频”、“标题”、“信息量”、“度量”和“方法”,而去除了无意义的助词“的”。通过去除无意义的词语,优化了度量结果。
在一些实施例中,所述参照文本为人民日报文本。人民日报文本属于较通用的文本,而视频标题文本具有较高的专业性。因此,计算得到的在所有视频标题文本中的平均信息熵表示视频标题在较专业的领域中的信息量;在人民日报文本中的平均信息熵表示视频标题在通用领域中的信息量。对二者进行综合考虑,使得视频标题信息量度量结果更加客观可信。
在一些实施例中,在步骤S2中,通过下式统计各词语在所有视频标题文本中出现的概率:
其中,pi是视频标题中第i个词语在所有视频标题文本中出现的概率,Ni是视频标题中第i个词语在所有视频标题文本中出现的次数,N是所有视频标题文本中出现的词语的总出现次数;以及
通过下式统计各词语在所有参照文本中出现的概率:
其中,si是视频标题中第i个词语在参照文本中出现的概率,Mi是视频标题中第i个词在参照文本中出现的次数,M是参照文本中出现的词语的总出现次数。
需要说明的是,N表示的并不是所有视频标题文本中出现的所有词语的个数,而是所有词语中的每个词语出现的次数之和。
同样,M表示并不是参照文本中出现的所有词语的个数,而是所有词语中的每个词语出现的次数之和。
pi表示的是视频标题中第i个词语在所有视频标题文本中出现的次数在所有视频标题文本中出现的词语的总出现次数中的占比;si表示的是视频标题中第i个词在参照文本中出现的次数在参照文本中出现的词语的总出现次数中的占比。
在一些实施例中,在步骤S3中,采用下式计算所述各词语在所有视频标题文本中的平均信息熵Hp
以及
采用下式计算所述各词语在参照文本中的平均信息熵Hs
在此,log表示以10为底的对数,n为视频标题文本中出现的词语的个数。
在一些实施例中,在步骤S4中,采用如下公式来进行加权求和:
H=w1Hp+w2Hs
其中,H为视频标题的信息量的值,w1为Hp的权重系数,w2为Hs的权重系数,w1+w2=1,且0.5<w1≤1。其中w1和w2根据业务经验确定,因度量对象为视频标题,一般情况下,各词语在所有视频标题文本中的平均信息熵的权重应较高。
通过以上公式,能方便、简洁、直观地完成视频标题信息量的度量。H的值越大,则表示视频标题所包含的信息量越多。
在一些实施例中,若Mi=0,即第i个词语在参照文本中没有出现时,令在这种情况下,可能某些专业性较高的词语并未在参照文本中出现,此时优选方案是进行平滑处理,即给si赋一个定值。
下面对一个具体实施例进行说明:
例如,一个视频的标题经过分词生成了三个词语a,b和c。a,b和c在所有视频标题文本中出现的次数分别是10次、50次和100次,所有视频标题文本中出现的词语的总出现次数为100000次。
词语a,b和c在人民日报文本中出现的次数分别是500次、200次和1000次,人民日报文本中出现的词语的总出现次数为1000000次。
设置权重系数w1=0.6,w2=0.4
于是:
计算得到的H值越大,则表示视频标题所包含的信息量越多,进一步可据此判断视频标题本文的质量较好,因此可以根据上述H值判断相关视频的标题本文的质量的好坏。当然,根据本发明的方法不仅用于对视频的标题信息的质量进行判断,还可用于对直播间、文档等的标题名称的质量进行评价。
本发明的实施例基于如果词语在语料中出现的概率越大,那么该词语所包含的信息越多的思想,提出了一种基于信息熵的视频标题信息量的度量方式,可以方便、简洁、直观地完成视频标题信息量的度量;并且去除了无意义的词语,优化了度量结果;同时还选用了参照文本来综合考虑视频标题信息量的度量,使得度量结果更加客观可信。
基于同一发明构思,参考图2所示,本发明的实施例还提供一种计算机可读存储介质201,其上存储有可执行指令202,可执行指令202在由一个或多个处理器执行时,可以实现如上实施例的任一种所述的视频标题信息量的度量方法的步骤。
基于同一发明构思,参考图3所示,本发明的实施例还提供一种电子设备301,其包括:存储器302,用于存储可执行指令;以及处理器303,用于执行存储器302中存储的可执行指令,以执行根据如上实施例的任一种所述的视频标题信息量的度量方法的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种视频标题信息量的度量方法,包括以下步骤:
S1、将待度量的视频标题文本切分为一个或多个单独的词语;
S2、统计各词语在所有视频标题文本中出现的概率,并选择一个参照文本,统计各词语在所述参照文本中出现的概率;
S3、计算各词语在所有视频标题文本中的平均信息熵,并计算各词语在参照文本中的平均信息熵;以及
S4、将各词语在所有视频标题文本中的平均信息熵与在参照文本中的平均信息熵加权求和,并将求和的结果作为视频标题的信息量的值。
2.根据权利要求1所述的方法,其中,步骤S1还包括去除所述词语中的无意义词语的步骤。
3.根据权利要求1所述的方法,其中,在步骤S2中,通过下式统计各词语在所有视频标题文本中出现的概率:
其中,pi是视频标题中第i个词语在所有视频标题文本中出现的概率,Ni是视频标题中第i个词语在所有视频标题文本中出现的次数,N是所有视频标题文本中出现的词语的总出现次数;以及
通过下式统计各词语在所有参照文本中出现的概率:
其中,si是视频标题中第i个词语在参照文本中出现的概率,Mi是视频标题中第i个词语在参照文本中出现的次数,M是参照文本中出现的词语的总出现次数。
4.根据权利要求3所述的方法,其中,在步骤S3中,采用下式计算所述各词语在所有视频标题文本中的平均信息熵Hp
以及
采用下式计算所述各词语在参照文本中的平均信息熵Hs
其中,log表示以10为底的对数,n为视频标题文本中出现的词语的个数。
5.根据权利要求4所述的方法,其中,在步骤S4中,采用如下公式来进行加权求和:
H=w1Hp+w2Hs
其中,H为视频标题的信息量的值,w1为Hp的权重系数,w2为Hs的权重系数,w1+w=1,且0.5<w1≤1。
6.根据权利要求3所述的方法,其中,若Mi=0,则
7.根据权利要求1-6中任一项所述的方法,其中,所述参照文本为人民日报文本。
8.一种计算机可读存储介质,其上存储有可执行指令,所述可执行指令在由处理器执行时,实现根据权利要求1-7中的任一项所述的视频标题信息量度量方法的步骤。
9.一种电子设备,包括:
存储器,用于存储可执行指令;以及
处理器,用于执行存储器中存储的可执行指令,以执行根据权利要求1-7中的任一项所述的视频标题信息量度量方法的步骤。
CN201810428803.5A 2018-05-04 2018-05-04 视频标题信息量的度量方法、可读存储介质及电子设备 Active CN108664470B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810428803.5A CN108664470B (zh) 2018-05-04 2018-05-04 视频标题信息量的度量方法、可读存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810428803.5A CN108664470B (zh) 2018-05-04 2018-05-04 视频标题信息量的度量方法、可读存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN108664470A true CN108664470A (zh) 2018-10-16
CN108664470B CN108664470B (zh) 2022-06-17

Family

ID=63778659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810428803.5A Active CN108664470B (zh) 2018-05-04 2018-05-04 视频标题信息量的度量方法、可读存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN108664470B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109729348A (zh) * 2019-03-07 2019-05-07 腾讯科技(深圳)有限公司 一种确定视频质量的方法、装置及设备
CN112528598A (zh) * 2020-12-07 2021-03-19 上海交通大学 基于预训练语言模型和信息论的自动化文本摘要评测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054006A (zh) * 2009-11-10 2011-05-11 腾讯科技(深圳)有限公司 一种词汇质量挖掘评价方法及装置
US20110219004A1 (en) * 2010-03-08 2011-09-08 Alibaba Group Holding Limited Determining word information entropies
CN105224695A (zh) * 2015-11-12 2016-01-06 中南大学 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置
CN107526792A (zh) * 2017-08-15 2017-12-29 南通大学附属医院 一种中文问句关键词快速提取方法
CN107797990A (zh) * 2017-10-18 2018-03-13 渡鸦科技(北京)有限责任公司 用于确定文本核心语句的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054006A (zh) * 2009-11-10 2011-05-11 腾讯科技(深圳)有限公司 一种词汇质量挖掘评价方法及装置
US20110219004A1 (en) * 2010-03-08 2011-09-08 Alibaba Group Holding Limited Determining word information entropies
CN105224695A (zh) * 2015-11-12 2016-01-06 中南大学 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置
CN107526792A (zh) * 2017-08-15 2017-12-29 南通大学附属医院 一种中文问句关键词快速提取方法
CN107797990A (zh) * 2017-10-18 2018-03-13 渡鸦科技(北京)有限责任公司 用于确定文本核心语句的方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109729348A (zh) * 2019-03-07 2019-05-07 腾讯科技(深圳)有限公司 一种确定视频质量的方法、装置及设备
CN109729348B (zh) * 2019-03-07 2020-06-02 腾讯科技(深圳)有限公司 一种确定视频质量的方法、装置及设备
CN112528598A (zh) * 2020-12-07 2021-03-19 上海交通大学 基于预训练语言模型和信息论的自动化文本摘要评测方法
CN112528598B (zh) * 2020-12-07 2022-04-05 上海交通大学 基于预训练语言模型和信息论的自动化文本摘要评测方法

Also Published As

Publication number Publication date
CN108664470B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
US20160232134A1 (en) Template-based page layout for hosted social magazines
US8553930B1 (en) Crowd source content editing
CN106548375B (zh) 用于构建产品画像的方法和装置
US20150019951A1 (en) Method, apparatus, and computer storage medium for automatically adding tags to document
US9189540B2 (en) Mobile web-based platform for providing a contextual alignment view of a corpus of documents
US20140325348A1 (en) Conversion of a document of captured images into a format for optimized display on a mobile device
US9280536B2 (en) Synonym determination among n-grams
CN103699521A (zh) 文本分析方法及装置
CN106227834A (zh) 多媒体资源的推荐方法及装置
CN109508373A (zh) 企业舆情指数的计算方法、设备及计算机可读存储介质
JP2018081727A5 (zh)
CN108664470A (zh) 视频标题信息量的度量方法、可读存储介质及电子设备
Harolds Tips for giving a memorable presentation, Part IV: Using and composing PowerPoint slides
Aliata et al. Modern office technology and the performance of the professional secretary in contemporary organisation in Ghana
Hammill The New Yorker, the middlebrow and the periodical marketplace in 1925
CN114817726A (zh) 一种话题推荐方法、装置、计算机设备及存储介质
Cokley et al. Growth of ‘Long Tail’in Australian journalism supports new engaging approach to audiences
Väätäjä User experience evaluation criteria for mobile news making technology: findings from a case study
US20170032271A1 (en) Method and Apparatus for Recommending Message
Richardson et al. The Effect of display size on reading and manipulating electronic text
CN111435405A (zh) 一种文章关键句自动标注方法及装置
CN108121693B (zh) 一种幻灯片美化方法及装置
CN109670183A (zh) 一种文本重要性的计算方法、装置、设备和存储介质
US10025763B2 (en) Masking an object in hypertext markup language
CN110597980B (zh) 一种数据处理方法、装置以及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant