CN110619073B - 一种基于Apriori算法的视频字幕网络用语词典构建方法和装置 - Google Patents

一种基于Apriori算法的视频字幕网络用语词典构建方法和装置 Download PDF

Info

Publication number
CN110619073B
CN110619073B CN201910817315.8A CN201910817315A CN110619073B CN 110619073 B CN110619073 B CN 110619073B CN 201910817315 A CN201910817315 A CN 201910817315A CN 110619073 B CN110619073 B CN 110619073B
Authority
CN
China
Prior art keywords
emotion
network
video
words
mutual information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910817315.8A
Other languages
English (en)
Other versions
CN110619073A (zh
Inventor
吴霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Moviebook Science And Technology Co ltd
Original Assignee
Beijing Moviebook Science And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Moviebook Science And Technology Co ltd filed Critical Beijing Moviebook Science And Technology Co ltd
Priority to CN201910817315.8A priority Critical patent/CN110619073B/zh
Publication of CN110619073A publication Critical patent/CN110619073A/zh
Application granted granted Critical
Publication of CN110619073B publication Critical patent/CN110619073B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于Apriori算法的视频字幕网络用语词典构建方法和装置,属于网络数据提取识别技术领域。该方法包括:从在线视频网站上爬取若干条字幕信息作为视频字幕数据,采用jieba分词对视频字幕数据进行分词,对分词后的语料集进行数据清洗,再对所述视频字幕文本的各个词汇项集进行计算统计,统计出的出现次数高于设定的阈值时则将对应的词汇项集归入到频繁项集中,对频繁项集采用互信息方式进行语义含义的标注,集合所有网络用语构成基于视频字幕的网络用语词典。本申请能够准确挖掘视频字幕中的网络用语并为其挖掘网络用语含义,通过新构建的网络用语词典能够从视频字幕的角度辅助进行视频分析。

Description

一种基于Apriori算法的视频字幕网络用语词典构建方法和 装置
技术领域
本申请涉及网络数据提取识别技术领域,特别是涉及一种基于Apriori算法的视频字幕网络用语词典构建方法和装置。
背景技术
随着互联网行业的高速发展,人们的娱乐方式也更加多样化,看电影、电视剧、纪录片、综艺节目等各种类型的在线视频成为越来越多人的娱乐和解压方式,随之而来的是不断增长的视频字幕文本,视频字幕中包含了视频的主题内容和核心思想,如何充分利用这些字幕文本数据挖掘其中包含的重要数据信息成为研究热点。
视频字幕文本通常包含许多特殊性质:(1)字幕以句子的形式出现,文本形式属于短文本行列;(2)视频字幕中包含许多新兴网络用语,网络用语不符合一般中文词语的构建规则,一般词性和词义难以理解因此很难全面对网络用语进行文本分析。对视频字幕进行数据挖掘可以判断该视频的核心内容,根据用户喜爱视频排行也可以挖掘用户喜爱或常用的词语或短句,但鉴于以上视频字幕文本的特殊性,如何更高效准确的挖掘视频字幕的数据信息值得考虑,尤其是其中的网络用语。
词典是一组包含常用语及其词性或性质的集合,目前常用的有中文情感词典,例如知网情感库HowNet词典、中国台湾大学通用中文情感词典NTUSD、大连理工大学的情感词汇本体词典等,情感词典是情感分析的重要工具,在一些无法采用有监督方法进行训练的数据集中大部分采用基于情感词典的方法进行情感分类。还有较为常用的中文词典有停用词词典,例如“哈工大停用词词库”、“四川大学机器学习智能实验室停用词库”、百度停用词表“等各种停用词表,停用词典中一般包括了常用的标点符号、特殊符号、语气词、人称代词等等,去除停用词是文本处理的重要步骤,通过去除停用词操作可以删除文本中无用的干扰信息,增强后续数据分析的准确性。目前词典的构建的方法一般分为两大类。第一类是人工标注,即数据集的采集和标注完全依赖人工进行,目前通用的很多词典都是通过人工标注得来的,人工标注的好处是通过人为的监督能够得到较高质量的词典,但代价是人力、物力和时间的消耗,并且随着网络用语的快速更新换代和领域词的一词多义等特征,更多人采用第二类方法,即自动构建的方法。自动构建的方法是指在现有基础词典的基础上,采用扩充的方式将新词扩充至基础词典,从而构成新领域的词典。目前一般通过语义相似度的衡量进行词汇的扩充和词语性质的计算。
综上,不难发现,目前并没有涵盖大量网络用语的中文词典,且无法准确挖掘视频字幕文本中的网络用语,更无法准确计算网络用语的词汇含义和性质。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种基于Apriori算法的视频字幕网络用语词典构建方法,包括:
从在线视频网站上爬取若干条字幕信息作为视频字幕数据,组成抽取网络用语用的语料集;
采用jieba分词对视频字幕数据进行分词;
对分词后的语料集进行数据清洗,删除已知的基础词汇,构成由非基础词汇所构成的视频字幕文本,再对所述视频字幕文本的各个词汇项集进行计算统计,统计出的出现次数高于设定的阈值时则将对应的词汇项集归入到频繁项集中;
对所得到的频繁项集采用互信息方式进行语义含义的标注,并在互信息的基础上加入情感强度值并根据不同类别分别计算情感倾向,以情感倾向的类别来判定对应词汇的语义含义;
集合所有网络用语构成基于视频字幕的网络用语词典,其中,包含了网络用语词汇及其对应的含义。
可选地,采用jieba分词对视频字幕数据进行分词,包括:
将所爬取到的字幕信息去除停用词、去除标点符号、特殊字符这几类干扰信息。
可选地,将分词后的语料集定义为Si={w1,w2,w3,...,wj},其中i代表语料集中视频字幕数据的条数,j代表每条视频字幕数据中所包含的词汇数目;
对Si={w1,w2,w3,...,wj}进行数据清洗,删除已知的基础词汇,删除后的视频字幕文本为Si={w1,w2,w3,...,wj′};
语料集的数据全集为D={S1,S2,S3,......,Si},
对所述视频字幕文本的各个词汇项集进行计算统计,统计出的出现次数高于设定的阈值时则将对应的词汇项集归入到频繁项集中,包括:
设定支持度阈值K,计算数据全集中各个词汇项集的支持度,支持度的计算公式为
Figure BDA0002186674960000031
其中(X,Y)代表视频字幕文本中的两个词汇,支持度的计算公式即为某几项项集共同出现的次数与全部样本之比;
扫描数据全集,找到支持度高于支持度阈值K的词汇项集并归入到频繁项集中。
可选地,对所述视频字幕文本的各个词汇项集进行计算统计,统计出的出现次数高于设定的阈值时则将对应的词汇项集归入到频繁项集中,对所找到的频繁项集进行顺序的结果扫描,即:
扫描数据全集,找到支持度高于阈值K的频繁2项集Fre_item2
扫描频繁2项集Fre_item2,在其中找到支持度高于阈值的频繁3项集Fre_item3
扫描频繁3项集Fre_item3,在其中找到支持度高于阈值的频繁4项集Fre_item4
如此周期往复进行扫描,经至少三次的扫描生成多个频繁项集,所述多个频繁项集中包含的词汇项集即为常用的网络用语。
可选地,对所得到的频繁项集采用互信息方式进行语义含义的标注,并在互信息的基础上加入情感强度值并根据不同类别分别计算情感倾向,以情感倾向的类别来判定对应词汇的语义含义,包括:
互信息可以通过词语间的共现来判断词语间的相似性,同时通过互信息判断网络用语的情感类别作为其语义含义,情感类别包括喜、怒、哀、惧、恶、惊,每一类别的情感包括多个不同情感强度,对每个网络用语与每一情感类别下的基础词典中的词汇进行互信息计算,最终进行情感倾向的判断。
可选地,对每个网络用语与每一情感类别的基础词典中的词汇进行互信息计算,进行情感倾向的判断中,互信息计算公式为
Figure BDA0002186674960000041
其中,N代表基础词典中第c类词语的个数,α代表情感词汇wi的情感强度、为可设定常数,通过每一类情感类别中的基础词汇与网络用语进行互信息计算,计算数值最大的一类即为该网络用语的对应情感类别,这一情感类别的所属情感倾向即为该网络用语的语义含义。
可选地,α优选采用设置为7。
根据本申请的另一个方面,提供了一种基于Apriori算法的视频字幕网络用语词典构建装置,包括:
爬取模块,其配置成从在线视频网站上爬取若干条字幕信息作为视频字幕数据,组成抽取网络用语用的语料集;
分词模块,其配置成采用jieba分词对视频字幕数据进行分词;
筛词模块,其配置成对分词后的语料集进行数据清洗,删除已知的基础词汇,构成由非基础词汇所构成的视频字幕文本,再对所述视频字幕文本的各个词汇项集进行计算统计,统计出的出现次数高于设定的阈值时则将对应的词汇项集归入到频繁项集中;
语义识别模块,其配置成对所得到的频繁项集采用互信息方式进行语义含义的标注,并在互信息的基础上加入情感强度值并根据不同类别分别计算情感倾向,以情感倾向的类别来判定对应词汇的语义含义;
数据集合模块,其配置成集合所有网络用语构成基于视频字幕的网络用语词典,其中,包含了网络用语词汇及其对应的含义。
可选地,所述语义识别模块具体配置成:
对所得到的频繁项集采用互信息方式进行语义含义的标注,并在互信息的基础上加入情感强度值并根据不同类别分别计算情感倾向,以情感倾向的类别来判定对应词汇的语义含义,包括:
互信息可以通过词语间的共现来判断词语间的相似性,同时通过互信息判断网络用语的情感类别作为其语义含义,情感类别包括喜、怒、哀、惧、恶、惊,每一类别的情感包括多个不同情感强度,对每个网络用语与每一情感类别下的基础词典中的词汇进行互信息计算,最终进行情感倾向的判断。
可选地,对每个网络用语与每一情感类别的基础词典中的词汇进行互信息计算,进行情感倾向的判断中,互信息计算公式为
Figure BDA0002186674960000051
其中,N代表基础词典中第c类词语的个数,α代表情感词汇wi的情感强度、为可设定常数,通过每一类情感类别中的基础词汇与网络用语进行互信息计算,计算数值最大的一类即为该网络用语的对应情感类别,这一情感类别的所属情感倾向即为该网络用语的语义含义。
根据本申请的又一个方面,提供了一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述的方法。
根据本申请的又一个方面,提供了一种计算机可读存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现如上所述的方法。
根据本申请的又一个方面,提供了一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码由计算机设备执行时,导致所述计算机设备执行如上所述的方法。
本申请所提供的技术方案,通过从在线视频网站上爬取字幕信息并对其进行分词等预处理后,经由Apriori算法挖掘视频字幕中的常用网络用语,其次再通过互信息计算网络用语的词汇含义,互信息可以通过词语间的共现来判断词语间的相似性,进而在互信息计算中引入情感倾向识别来判断词汇的语义含义,提高词汇语义识别的准确性,最后集合网络用语词汇及其含义将它们构成网络用语词典,方便了视频字幕的数据挖掘工作,能够准确挖掘视频字幕中的网络用语并为其挖掘网络用语含义,通过新构建的网络用语词典能够从视频字幕的角度辅助进行视频分析。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本申请一个实施例的基于Apriori算法的视频字幕网络用语词典构建方法的词典构建流程图;
图2是根据本申请另一个实施例的基于Apriori算法的视频字幕网络用语词典构建装置的结构图;
图3是根据本申请另一个实施例的计算设备结构图;
图4是根据本申请另一个实施例的计算机可读存储介质结构图。
具体实施方式
图1是根据本申请一个实施例的基于Apriori算法的视频字幕网络用语词典构建方法的词典构建流程示意图。参见图1,本实施例所描述的基于Apriori算法的视频字幕网络用语词典构建方法,包括:
101:从在线视频网站上爬取字幕信息作为视频字幕数据,组成抽取网络用语用的语料集。在本实施例中,根据电影、电视剧、综艺、纪录片这四个类别分别爬取500条字幕信息,一共构成2000条视频字幕数据,组成抽取网络用语的语料集;
102:采用jieba分词对视频字幕数据进行分词。jieba分词,为中文分词组件,在采用jieba分词对视频字幕数据进行分词时,将所爬取到的字幕信息去除停用词、去除标点符号、特殊字符等这几类干扰信息,方便后续对于词汇的提取;
103:对分词后的语料集进行数据清洗,删除已知的基础词汇,构成由非基础词汇所构成的视频字幕文本,再对所述视频字幕文本的各个词汇项集进行计算统计,统计出的出现次数高于设定的阈值时则将对应的词汇项集归入到频繁项集中;
104:对所得到的频繁项集采用互信息方式进行语义含义的标注,并在互信息的基础上加入情感强度值并根据不同类别分别计算情感倾向,以情感倾向的类别来判定对应词汇的语义含义;
105:集合所有网络用语构成基于视频字幕的网络用语词典,其中,包含了网络用语词汇及其对应的含义。
将分词后的语料集定义为Si={w1,w2,w3,...,wj},其中i代表语料集中视频字幕数据的条数,i=2000,j代表每条视频字幕数据中所包含的词汇数目;对Si={w1,w2,w3,...,wj}进行数据清洗,删除已知的基础词汇,这里对基础词汇进行删除时,可采用现有的基础数据库删除后的视频字幕文本为Si={w1,w2,w3,...,wj′};语料集的数据全集为D={S1,S2,S3,......,Si}。
Apriori算法是一种常用的挖掘数据关联规则的算法,能够找到数据中的频繁项集,而常用的热门网络用语往往会频繁出现在视频字幕文本中,因此我们可以认为视频字幕文本中的频繁项集即为常用网络用语,只要能够计算出视频字幕文本中的频繁项集即可确定出常用网络用语。对所述视频字幕文本的各个词汇项集进行计算统计,统计出的出现次数高于设定的阈值时则将对应的词汇项集归入到频繁项集中,在本实施例中,包括:
设定支持度阈值0.01,计算数据全集中各个词汇项集的支持度,支持度的计算公式为
Figure BDA0002186674960000071
其中(X,Y)代表视频字幕文本中的两个词汇,支持度的计算公式即为某几项项集共同出现的次数与全部样本之比;
扫描数据全集,找到支持度高于支持度阈值0.01的词汇项集并归入到频繁项集中,也就是说,当设置支持度阈值为0.01,全部样本数为2000时,认为只要某个项集出现20次以上,我们就认为这是频繁项集。
如果只筛选一次会出现多个连续词汇出现在一起的情况,因此对其进行再次的频繁项集筛选是必须的,多次筛选能够择选出更短的词汇,直至筛选出单个词汇。
所采取的方法是,对所述视频字幕文本的各个词汇项集进行计算统计,统计出的出现次数高于设定的阈值时则将对应的词汇项集归入到频繁项集中,对所找到的频繁项集进行顺序的结果扫描,即:
扫描数据全集,找到支持度高于阈值0.01的频繁2项集Fre_item2
扫描频繁2项集Fre_item2,在其中找到支持度高于阈值0.01的频繁3项集Fre_item3
扫描频繁3项集Fre_item3,在其中找到支持度高于阈值0.01的频繁4项集Fre_item4
如此周期往复进行扫描,经至少三次的扫描生成多个频繁项集,所述多个频繁项集中包含的词汇项集即为常用的网络用语。因为一般情况下网络用语的长度较短,因此在本实施例中只找到频繁4项集为止,频繁项集中包含的即为常用网络用语。而频繁4项集中的词汇出现最频繁,为最热门的网络用语。
当找到频繁项集后就要判断其词汇含义和性质,互信息可以通过词语间的共现来判断词语间的相似性,在此我们为网络用语判断其情感类别作为其语义含义。但由于情感词汇具有情感类别和情感强度之分,因此在此采用改进的互信息计算网络用语情感倾向,在互信息的基础上加入情感强度值并根据不同类别分别计算情感倾向。本申请采用情感词汇本体作为基础词典,并对其中的情感类别做了调整,的情感类别有6大类包括“喜、怒、哀、惧、恶、惊”,情感强度分为1,3,5,7,9,五档,9说明强度最大,1说明强度最小。对所得到的频繁项集采用互信息方式进行语义含义的标注,并在互信息的基础上加入情感强度值并根据不同类别分别计算情感倾向,以情感倾向的类别来判定对应词汇的语义含义,包括:
互信息可以通过词语间的共现来判断词语间的相似性,同时通过互信息判断网络用语的情感类别作为其语义含义,情感类别包括喜、怒、哀、惧、恶、惊,每一类别的情感包括多个不同情感强度,对每个网络用语与每一情感类别下的基础词典中的词汇进行互信息计算,最终进行情感倾向的判断。
可选地,对每个网络用语与每一情感类别的基础词典中的词汇进行互信息计算,进行情感倾向的判断中,互信息计算公式为
Figure BDA0002186674960000081
其中,N代表基础词典中第c类词语的个数,α代表情感词汇wi的情感强度、为可设定常数,通过每一类情感类别中的基础词汇与网络用语进行互信息计算,计算数值最大的一类即为该网络用语的对应情感类别,这一情感类别的所属情感倾向即为该网络用语的语义含义。由于网络用语属于新兴词语一半表达较为强烈的情感,因此我们将网络用语的情感强度全部设置为7。
可知,本实施例所提供的方法,通过从在线视频网站上爬取字幕信息并对其进行分词等预处理后,经由Apriori算法挖掘视频字幕中的常用网络用语,其次再通过互信息计算网络用语的词汇含义,互信息可以通过词语间的共现来判断词语间的相似性,进而在互信息计算中引入情感倾向识别来判断词汇的语义含义,提高词汇语义识别的准确性,最后集合网络用语词汇及其含义将它们构成网络用语词典,方便了视频字幕的数据挖掘工作,能够准确挖掘视频字幕中的网络用语并为其挖掘网络用语含义,通过新构建的网络用语词典能够从视频字幕的角度辅助进行视频分析。
图2是根据本申请另一个实施例的基于Apriori算法的视频字幕网络用语词典构建装置的结构图。参见图2,该基于Apriori算法的视频字幕网络用语词典构建装置,包括:
爬取模块201,其配置成从在线视频网站上爬取若干条字幕信息作为视频字幕数据,组成抽取网络用语用的语料集;
分词模块202,其配置成采用jieba分词对视频字幕数据进行分词;
筛词模块203,其配置成对分词后的语料集进行数据清洗,删除已知的基础词汇,构成由非基础词汇所构成的视频字幕文本,再对所述视频字幕文本的各个词汇项集进行计算统计,统计出的出现次数高于设定的阈值时则将对应的词汇项集归入到频繁项集中;
语义识别模块204,其配置成对所得到的频繁项集采用互信息方式进行语义含义的标注,并在互信息的基础上加入情感强度值并根据不同类别分别计算情感倾向,以情感倾向的类别来判定对应词汇的语义含义;
数据集合模块205,其配置成集合所有网络用语构成基于视频字幕的网络用语词典,其中,包含了网络用语词汇及其对应的含义。
可选地,所述语义识别模块具体配置成:
对所得到的频繁项集采用互信息方式进行语义含义的标注,并在互信息的基础上加入情感强度值并根据不同类别分别计算情感倾向,以情感倾向的类别来判定对应词汇的语义含义,包括:
互信息可以通过词语间的共现来判断词语间的相似性,同时通过互信息判断网络用语的情感类别作为其语义含义,情感类别包括喜、怒、哀、惧、恶、惊,每一类别的情感包括多个不同情感强度,对每个网络用语与每一情感类别下的基础词典中的词汇进行互信息计算,最终进行情感倾向的判断。
可选地,对每个网络用语与每一情感类别的基础词典中的词汇进行互信息计算,进行情感倾向的判断中,互信息计算公式为
Figure BDA0002186674960000091
其中,N代表基础词典中第c类词语的个数,α代表情感词汇wi的情感强度、为可设定常数,通过每一类情感类别中的基础词汇与网络用语进行互信息计算,计算数值最大的一类即为该网络用语的对应情感类别,这一情感类别的所属情感倾向即为该网络用语的语义含义。
可知,本实施例所提供的装置,通过从在线视频网站上爬取字幕信息并对其进行分词等预处理后,经由Apriori算法挖掘视频字幕中的常用网络用语,其次再通过互信息计算网络用语的词汇含义,互信息可以通过词语间的共现来判断词语间的相似性,进而在互信息计算中引入情感倾向识别来判断词汇的语义含义,提高词汇语义识别的准确性,最后集合网络用语词汇及其含义将它们构成网络用语词典,方便了视频字幕的数据挖掘工作,能够准确挖掘视频字幕中的网络用语并为其挖掘网络用语含义,通过新构建的网络用语词典能够从视频字幕的角度辅助进行视频分析。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
本申请实施例还提供了一种计算设备,参照图3,该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序,该计算机程序存储于存储器1120中的用于程序代码的空间1130,该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。
本申请实施例还提供了一种计算机可读存储介质。参照图4,该计算机可读存储介质包括用于程序代码的存储单元,该存储单元设置有用于执行根据本发明的方法步骤的程序1131′,该程序被处理器执行。
本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行根据本发明的方法步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种基于Apriori算法的视频字幕网络用语词典构建方法,包括:
从在线视频网站上爬取若干条字幕信息作为视频字幕数据,组成抽取网络用语用的语料集;
采用jieba分词对视频字幕数据进行分词;
对分词后的语料集进行数据清洗,删除已知的基础词汇,构成由非基础词汇所构成的视频字幕文本,再对所述视频字幕文本的各个词汇项集进行计算统计,统计出的出现次数高于设定的阈值时则将对应的词汇项集归入到频繁项集中;
对所得到的频繁项集采用互信息方式进行语义含义的标注,并在互信息的基础上加入情感强度值并根据不同类别分别计算情感倾向,以情感倾向的类别来判定对应词汇的语义含义;
集合所有网络用语构成基于视频字幕的网络用语词典,其中,包含了网络用语词汇及其对应的含义。
2.根据权利要求1所述的方法,其特征在于,采用jieba分词对视频字幕数据进行分词,包括:
将所爬取到的字幕信息去除停用词、去除标点符号、特殊字符这几类干扰信息。
3.根据权利要求1所述的方法,其特征在于,将分词后的语料集定义为Si={w1,w2,w3,...,wj},其中i代表语料集中视频字幕数据的条数,j代表每条视频字幕数据中所包含的词汇数目;
对Si={w1,w2,w3,...,wj}进行数据清洗,删除已知的基础词汇,删除后的视频字幕文本为Si={w1,w2,w3,...,wj′};
语料集的数据全集为D={S1,S2,S3,......,Si},
对所述视频字幕文本的各个词汇项集进行计算统计,统计出的出现次数高于设定的阈值时则将对应的词汇项集归入到频繁项集中,包括:
设定支持度阈值K,计算数据全集中各个词汇项集的支持度,支持度的计算公式为
Figure FDA0003460988700000021
其中(X,Y)代表视频字幕文本中的两个词汇,支持度的计算公式即为某几项项集共同出现的次数与全部样本之比;
扫描数据全集,找到支持度高于支持度阈值K的词汇项集并归入到频繁项集中。
4.根据权利要求3所述的方法,其特征在于,对所述视频字幕文本的各个词汇项集进行计算统计,统计出的出现次数高于设定的阈值时则将对应的词汇项集归入到频繁项集中,对所找到的频繁项集进行顺序的结果扫描,即:
扫描数据全集,找到支持度高于阈值K的频繁2项集Fre_item2
扫描频繁2项集Fre_item2,在其中找到支持度高于阈值的频繁3项集Fre_item3
扫描频繁3项集Fre_item3,在其中找到支持度高于阈值的频繁4项集Fre_item4
如此周期往复进行扫描,经至少三次的扫描生成多个频繁项集,所述多个频繁项集中包含的词汇项集即为常用的网络用语。
5.根据权利要求1所述的方法,其特征在于,对所得到的频繁项集采用互信息方式进行语义含义的标注,并在互信息的基础上加入情感强度值并根据不同类别分别计算情感倾向,以情感倾向的类别来判定对应词汇的语义含义,包括:
互信息可以通过词语间的共现来判断词语间的相似性,同时通过互信息判断网络用语的情感类别作为其语义含义,情感类别包括喜、怒、哀、惧、恶、惊,每一类别的情感包括多个不同情感强度,对每个网络用语与每一情感类别下的基础词典中的词汇进行互信息计算,最终进行情感倾向的判断。
6.根据权利要求1所述的方法,其特征在于,对每个网络用语与每一情感类别的基础词典中的词汇进行互信息计算,进行情感倾向的判断中,互信息计算公式为
Figure FDA0003460988700000031
其中,N代表基础词典中第c类词语的个数,α代表情感词汇wi的情感强度、为可设定常数,通过每一类情感类别中的基础词汇与网络用语进行互信息计算,计算数值最大的一类即为该网络用语的对应情感类别,这一情感类别的所属情感倾向即为该网络用语的语义含义。
7.根据权利要求6所述的方法,其特征在于,α设置为7。
8.一种基于Apriori算法的视频字幕网络用语词典构建装置,包括:
爬取模块,其配置成从在线视频网站上爬取若干条字幕信息作为视频字幕数据,组成抽取网络用语用的语料集;
分词模块,其配置成采用jieba分词对视频字幕数据进行分词;
筛词模块,其配置成对分词后的语料集进行数据清洗,删除已知的基础词汇,构成由非基础词汇所构成的视频字幕文本,再对所述视频字幕文本的各个词汇项集进行计算统计,统计出的出现次数高于设定的阈值时则将对应的词汇项集归入到频繁项集中;
语义识别模块,其配置成对所得到的频繁项集采用互信息方式进行语义含义的标注,并在互信息的基础上加入情感强度值并根据不同类别分别计算情感倾向,以情感倾向的类别来判定对应词汇的语义含义;
数据集合模块,其配置成集合所有网络用语构成基于视频字幕的网络用语词典,其中,包含了网络用语词汇及其对应的含义。
9.根据权利要求8所述的装置,其特征在于,所述语义识别模块具体配置成:
对所得到的频繁项集采用互信息方式进行语义含义的标注,并在互信息的基础上加入情感强度值并根据不同类别分别计算情感倾向,以情感倾向的类别来判定对应词汇的语义含义,包括:
互信息可以通过词语间的共现来判断词语间的相似性,同时通过互信息判断网络用语的情感类别作为其语义含义,情感类别包括喜、怒、哀、惧、恶、惊,每一类别的情感包括多个不同情感强度,对每个网络用语与每一情感类别下的基础词典中的词汇进行互信息计算,最终进行情感倾向的判断。
10.根据权利要求9所述的装置,其特征在于,对每个网络用语与每一情感类别的基础词典中的词汇进行互信息计算,进行情感倾向的判断中,互信息计算公式为
Figure FDA0003460988700000041
其中,N代表基础词典中第c类词语的个数,α代表情感词汇wi的情感强度、为可设定常数,通过每一类情感类别中的基础词汇与网络用语进行互信息计算,计算数值最大的一类即为该网络用语的对应情感类别,这一情感类别的所属情感倾向即为该网络用语的语义含义。
CN201910817315.8A 2019-08-30 2019-08-30 一种基于Apriori算法的视频字幕网络用语词典构建方法和装置 Active CN110619073B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910817315.8A CN110619073B (zh) 2019-08-30 2019-08-30 一种基于Apriori算法的视频字幕网络用语词典构建方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910817315.8A CN110619073B (zh) 2019-08-30 2019-08-30 一种基于Apriori算法的视频字幕网络用语词典构建方法和装置

Publications (2)

Publication Number Publication Date
CN110619073A CN110619073A (zh) 2019-12-27
CN110619073B true CN110619073B (zh) 2022-04-22

Family

ID=68922838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910817315.8A Active CN110619073B (zh) 2019-08-30 2019-08-30 一种基于Apriori算法的视频字幕网络用语词典构建方法和装置

Country Status (1)

Country Link
CN (1) CN110619073B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036120A (zh) * 2020-08-31 2020-12-04 上海硕恩网络科技股份有限公司 一种技能短语抽取方法
CN112800173B (zh) * 2021-04-14 2021-07-09 北京金山云网络技术有限公司 标准化数据库和医学文本库的构建方法、装置及电子设备

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101131705A (zh) * 2007-09-27 2008-02-27 中国科学院计算技术研究所 一种新词发现方法和系统
US7370033B1 (en) * 2002-05-17 2008-05-06 Oracle International Corporation Method for extracting association rules from transactions in a database
CN101950309A (zh) * 2010-10-08 2011-01-19 华中师范大学 一种面向学科领域的新专业词汇识别方法
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN102663139A (zh) * 2012-05-07 2012-09-12 苏州大学 一种情感词典构建方法及系统
CN103559174A (zh) * 2013-09-30 2014-02-05 东软集团股份有限公司 语义情感分类特征值提取方法及系统
CN104182527A (zh) * 2014-08-27 2014-12-03 广西教育学院 基于偏序项集的中英文本词间关联规则挖掘方法及其系统
CN104516947A (zh) * 2014-12-03 2015-04-15 浙江工业大学 一种融合显性和隐性特征的中文微博情感分析方法
CN105138510A (zh) * 2015-08-10 2015-12-09 昆明理工大学 一种基于微博的新词情感倾向判定方法
CN105868185A (zh) * 2016-05-16 2016-08-17 南京邮电大学 一种购物评论情感分析中基于词性标注的词典构建方法
CN106339481A (zh) * 2016-08-30 2017-01-18 电子科技大学 基于最大置信度的中文复合新词发现方法
CN106681985A (zh) * 2016-12-13 2017-05-17 成都数联铭品科技有限公司 基于主题自动匹配的多领域词典构建系统
CN107203520A (zh) * 2016-03-16 2017-09-26 中国科学院上海高等研究院 酒店情感词典的建立方法、评论的情感分析方法及系统
CN107729320A (zh) * 2017-10-19 2018-02-23 西北大学 一种基于时序分析用户会话情感趋势的表情符号推荐方法
CN107945033A (zh) * 2017-11-14 2018-04-20 李勇 一种网络舆情的分析方法、系统及相关装置
CN108664642A (zh) * 2018-05-16 2018-10-16 句容市茂润苗木有限公司 基于Apriori算法的词性标注规则自动获取方法
CN108875049A (zh) * 2018-06-27 2018-11-23 中国建设银行股份有限公司 文本聚类方法及装置

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7370033B1 (en) * 2002-05-17 2008-05-06 Oracle International Corporation Method for extracting association rules from transactions in a database
CN101131705A (zh) * 2007-09-27 2008-02-27 中国科学院计算技术研究所 一种新词发现方法和系统
CN101950309A (zh) * 2010-10-08 2011-01-19 华中师范大学 一种面向学科领域的新专业词汇识别方法
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置
CN102663139A (zh) * 2012-05-07 2012-09-12 苏州大学 一种情感词典构建方法及系统
CN103559174A (zh) * 2013-09-30 2014-02-05 东软集团股份有限公司 语义情感分类特征值提取方法及系统
CN104182527A (zh) * 2014-08-27 2014-12-03 广西教育学院 基于偏序项集的中英文本词间关联规则挖掘方法及其系统
CN104516947A (zh) * 2014-12-03 2015-04-15 浙江工业大学 一种融合显性和隐性特征的中文微博情感分析方法
CN105138510A (zh) * 2015-08-10 2015-12-09 昆明理工大学 一种基于微博的新词情感倾向判定方法
CN107203520A (zh) * 2016-03-16 2017-09-26 中国科学院上海高等研究院 酒店情感词典的建立方法、评论的情感分析方法及系统
CN105868185A (zh) * 2016-05-16 2016-08-17 南京邮电大学 一种购物评论情感分析中基于词性标注的词典构建方法
CN106339481A (zh) * 2016-08-30 2017-01-18 电子科技大学 基于最大置信度的中文复合新词发现方法
CN106681985A (zh) * 2016-12-13 2017-05-17 成都数联铭品科技有限公司 基于主题自动匹配的多领域词典构建系统
CN107729320A (zh) * 2017-10-19 2018-02-23 西北大学 一种基于时序分析用户会话情感趋势的表情符号推荐方法
CN107945033A (zh) * 2017-11-14 2018-04-20 李勇 一种网络舆情的分析方法、系统及相关装置
CN108664642A (zh) * 2018-05-16 2018-10-16 句容市茂润苗木有限公司 基于Apriori算法的词性标注规则自动获取方法
CN108875049A (zh) * 2018-06-27 2018-11-23 中国建设银行股份有限公司 文本聚类方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Research of an improved Apriori algorithm in data mining association rules;Jiao Yabing;《International Journal of Computer and Communication Engineering》;20130131;第2卷(第1期);第25-27页 *
利用互信息和聚类抽样的文本情感分类;陈智等;《现代计算机(专业版)》;20150415(第11期);第14-20页 *
挖掘中文网络客户评论的产品特征及情感倾向;李实等;《计算机应用研究》;20100815(第08期);第3016-3019页 *

Also Published As

Publication number Publication date
CN110619073A (zh) 2019-12-27

Similar Documents

Publication Publication Date Title
CN110413780B (zh) 文本情感分析方法和电子设备
US7783476B2 (en) Word extraction method and system for use in word-breaking using statistical information
WO2015185019A1 (zh) 一种基于语义理解的表情输入方法和装置
US20150161144A1 (en) Document classification apparatus and document classification method
US20160299955A1 (en) Text mining system and tool
CN109471942B (zh) 基于证据推理规则的中文评论情感分类方法及装置
US9251248B2 (en) Using context to extract entities from a document collection
US9501557B2 (en) Information generating computer product, apparatus, and method; and information search computer product, apparatus, and method
CN107168956B (zh) 一种基于管道的中文篇章结构分析方法及系统
CN108628822B (zh) 无语义文本的识别方法及装置
CN112188312B (zh) 用于确定新闻的视频素材的方法和装置
CN110287409B (zh) 一种网页类型识别方法及装置
CN111680509A (zh) 基于共现语言网络的文本关键词自动抽取方法和装置
CN111460162B (zh) 一种文本分类方法、装置、终端设备及计算机可读存储介质
CN110619073B (zh) 一种基于Apriori算法的视频字幕网络用语词典构建方法和装置
CN114266256A (zh) 一种领域新词的提取方法及系统
CN110825998A (zh) 一种网站识别方法及可读存储介质
CN112380866A (zh) 一种文本话题标签生成方法、终端设备及存储介质
CN111027306A (zh) 一种基于关键词抽取和词移距离的知识产权匹配技术
CN111429184A (zh) 一种基于文本信息的用户画像抽取方法
CN110413998B (zh) 一种面向电力行业的自适应中文分词方法及其系统、介质
CN113111645B (zh) 一种媒体文本相似性检测方法
Li Construction of Internet of Things English terms model and analysis of language features via deep learning
CN114491062A (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN111639189A (zh) 一种基于文本内容特征的文本图构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Method and Device for Constructing a Video Subtitle Network Vocabulary Dictionary Based on Apriori Algorithm

Effective date of registration: 20230713

Granted publication date: 20220422

Pledgee: Bank of Jiangsu Limited by Share Ltd. Beijing branch

Pledgor: BEIJING MOVIEBOOK SCIENCE AND TECHNOLOGY Co.,Ltd.

Registration number: Y2023110000278