CN112911326B - 弹幕信息处理方法、装置、电子设备和存储介质 - Google Patents

弹幕信息处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112911326B
CN112911326B CN202110134453.3A CN202110134453A CN112911326B CN 112911326 B CN112911326 B CN 112911326B CN 202110134453 A CN202110134453 A CN 202110134453A CN 112911326 B CN112911326 B CN 112911326B
Authority
CN
China
Prior art keywords
bullet screen
information
intention
text
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110134453.3A
Other languages
English (en)
Other versions
CN112911326A (zh
Inventor
许丹
杨德杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110134453.3A priority Critical patent/CN112911326B/zh
Publication of CN112911326A publication Critical patent/CN112911326A/zh
Application granted granted Critical
Publication of CN112911326B publication Critical patent/CN112911326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及互联网直播技术领域,还涉及人工智能技术领域,尤其涉及一种弹幕信息处理方法、装置、电子设备和存储介质。本发明的弹幕信息处理方法,通过弹幕信息中的弹幕文字确定弹幕信息的意图类别,建立意图类别对应表;通过弹幕信息中的发布时间定位弹幕信息指向的内容片段,根据内容片段的文本数据确定弹幕信息指向的主题点,建立主题点对应表;根据所述意图类别对应表和所述主题点对应表,确定每个主题点的意图类别汇总信息,根据每个所述主题点的意图类别汇总信息生成评价信息;通过上述方式,无需进行直播视频的回放,直接获取每个所述主题点的意图类别汇总信息以及生成的评价信息,充分利用弹幕信息的同时节约了直播者的时间。

Description

弹幕信息处理方法、装置、电子设备和存储介质
【技术领域】
本发明涉及互联网直播技术领域,还涉及人工智能技术领域,尤其涉及一种弹幕信息处理方法、装置、电子设备和存储介质。
【背景技术】
直播手段越来越多的被引入在线教学中,这种新型的教学手段既可以打破地理限制,同时不同于录播课程的是它可以提供条件给学生和老师进行实时互动。弹幕便是观看者和视频直播者进行现场沟通的一个重要手段。
现有技术中,视频直播者在直播过程中会关注弹幕留言,或在某些内容讲完后邀请观看者用弹幕的方式提问以便视频直播者可以及时对疑问进行解答。一般情况下这些弹幕信息在直播结束之后便不再发挥作用。同时,弹幕留言区别于视频下方评论的是弹幕是对直播内容的及时反馈,用户发布门更槛低,相较于下方评论发布量更大,是一种非常有价值的参考资源。但是弹幕文本内容通常会省略掉上下文,针对当下直播内容发布简略的直接反馈,视频直播者想要回顾反馈时需要重新播放录播视频,无法直接对照弹幕和当时的直播内容从而了解观看者的真实反馈,弹幕信息利用不充分,无法利用弹幕信息对直播内容进行准确评价。
【发明内容】
本发明的目的在于提供一种,以解决现有技术中无法利用弹幕信息对直播内容进行准确评价的技术问题。
本发明的技术方案如下:提供一种弹幕信息处理方法,包括:
获取从直播视频数据中汇总的弹幕信息,其中,所述弹幕信息包括弹幕文字和发布时间;
根据所述弹幕文字确定所述弹幕信息所属的意图类别,根据所述弹幕信息和对应的所述意图类别建立意图类别对应表;
根据所述发布时间从所述直播视频数据中获取所述弹幕信息指向的内容片段信息,根据所述内容片段信息获取所述弹幕信息指向的文本数据;
根据所述文本数据确定所述弹幕信息所指向的主题点,根据所述弹幕信息和对应的主题点建立主题点对应表;
根据所述意图类别对应表和所述主题点对应表,确定每个所述主题点的意图类别汇总信息,根据每个所述主题点的意图类别汇总信息生成评价信息,其中,所述意图类别汇总信息包括意图类别以及指向所述意图类别的弹幕信息数量。
优选地,所述根据所述弹幕文字确定所述弹幕信息所属的意图类别,包括:
获取历史弹幕文本,按照预设意图类别对所述历史弹幕文本进行标注;
对所述历史弹幕文本进行分词处理,得到所述历史弹幕文本的分词词语;
根据预先确定的词语与词向量的对应关系,确定所述历史弹幕文本中每个分词词语对应的词向量,生成所述历史弹幕文本的词向量矩阵;根据所述历史弹幕文本的词向量矩阵构建历史数据集合;
对所述弹幕文本进行分词处理,得到所述弹幕文本的分词词语;根据预先确定的词语与词向量的对应关系,确定所述弹幕文本中每个分词词语对应的词向量,生成所述弹幕文本的词向量矩阵;
基于余弦相似度计算所述弹幕文本的词向量矩阵与所述历史数据集合中每个所述历史弹幕文本的词向量矩阵的余弦距离,选择所述余弦距离最近的预设数量个历史弹幕文本;
对所选择的预设数量个历史弹幕文本的意图类别数量分布进行统计,将数量最多的意图类别作为所述弹幕文本的意图类别。
优选地,所述根据所述文本数据确定所述弹幕信息所指向的主题点,包括:
将所述文本数据输入至预先训练好的LDA主题模型中,根据所述LDA主题模型的输出结果确定所述弹幕信息所指向的主题点;
所述LDA主题模型的训练步骤包括:
将不同类型的课程讲义文本按照预设长度进行自然段拆分,得到文本文件,构建课程讲义语料库;
将所述课程讲义语料库中的每个文本文件依次进行分词处理、去标点处理以及去停用词处理,得到每个所述文本文件的分词词语;
对所述课程讲义语料库中的所有文本文件的分词词语进行数量统计,根据统计结果对出现次数少于预设阈值的分词进行过滤,得到所述课程讲义语料库的字典;
根据所述词典,将所述课程讲义语料库中的所有文本文件转换为关于所述词典的稀疏矩阵;
预先设置主题数量参数为第一预设数量,采用最大期望算法建立初始的LDA主题模型;
将所述课程讲义语料库的稀疏矩阵输入至所述初始的LDA主题模型进行迭代训练,利用所述LDA主题模型训练时的聚词功能在所述课程讲义语料库经所述LDA主题模型训练后获得按设定主题数分别聚集成的第一预设数量个主题关联词集合;
针对每个所述主题关联词集合,根据所述主题关联词获取对应的主题点。
优选地,所述直播视频数据为课程视频数据;
所述根据所述文本数据确定所述弹幕信息所指向的主题点之前,还包括:
根据课程的类别为每个课程类别创建一个专有词典表;
对每个所述专有词典表进行编辑,以在所述专有词典表中记录每个对应课程类别所涉及的专有名词;
对所述专有词典表进行存储;
相应地,所述将所述文本数据输入至预先训练好的LDA主题模型中,根据所述LDA主题模型的输出结果确定所述弹幕信息所指向的主题点,包括:
读取所述课程视频数据的课程简介,识别所述课程视频数据的课程类别;
根据所述课程视频数据的课程类别,从所存储的多个专有词典表中调取与所述课程类别对应的专有词典表;
按照所调取的专有词典表对所述文本数据进行分词处理,得到所述文本数据的分词词语;
根据所述词典,将所述文本数据的分词词语转换为关于所述词典的稀疏矩阵;
利用所述LDA主题模型,对所述文本数据的稀疏矩阵进行主题识别,根据所述LDA主题模型的输出结果确定所述弹幕信息所指向的主题点。
优选地,所述弹幕信息还包括弹幕id;
所述根据所述意图类别对应表和所述主题点对应表,确定每个所述主题点的意图类别汇总信息,包括:
将所述意图类别对应表和所述知识点对应表进行合并,得到合并数据表,其中,所述合并数据表包括弹幕id字段、意图类别字段和主题点字段;
在所述合并数据表中,按照所述主题点进行排序,分别得到每个所述主题点的合并数据表子区域;
在每个所述主题点的合并数据表子区域中,按照所述意图类别进行排序,根据排序结果分别统计每个意图类别的数量;
针对每个所述合并数据表子区域,根据所述意图类别以及指向所述意图类别的弹幕信息数量生成对应主题点的意图类别汇总信息。
优选地,所述根据每个所述主题点的意图类别汇总信息生成评价信息,包括:
根据所述主题点的意图类别汇总信息,分别计算每个所述主题点的各意图类别的概率值;
根据所述主题点的各意图类别的概率值计算所述主题点的信息熵;
当所述信息熵小于第一预设阈值时,根据所述主题点的弹幕信息数量最多的意图类别生成所述评价信息。
优选地,所述根据每个所述主题点的意图类别汇总信息生成评价信息,还包括:
当所述信息熵大于或等于第一预设阈值时,获取所述主题点的弹幕信息总数量;
当所述弹幕信息总数量小于第二预设阈值时,忽略所述主题点;
当所述弹幕信息总数量大于或等于第二预设阈值时,根据所述主题点的所有意图类别及指向所述意图类别的弹幕信息数量生成所述展示信息,将所述展示信息作为所述评价信息。
本发明的另一技术方案如下:提供一种弹幕信息处理装置,包括:
弹幕获取模块,用于获取从直播视频数据中汇总的弹幕信息,其中,所述弹幕信息包括弹幕文字和发布时间;
意图识别模块,用于根据所述弹幕文字确定所述弹幕信息所属的意图类别,根据所述弹幕信息和对应的所述意图类别建立意图类别对应表;
内容定位模块,用于根据所述发布时间从所述直播视频数据中获取所述弹幕信息指向的内容片段信息,根据所述内容片段信息获取所述弹幕信息指向的文本数据;
主题识别模块,用于根据所述文本数据确定所述弹幕信息所指向的主题点,根据所述弹幕信息和对应的主题点建立主题点对应表;
汇总评价模块,用于根据所述意图类别对应表和所述主题点对应表,确定每个所述主题点的意图类别汇总信息,根据每个所述主题点的意图类别汇总信息生成评价信息,其中,所述意图类别汇总信息包括意图类别以及指向所述意图类别的弹幕信息数量。
本发明的另一技术方案如下:提供一种电子设备,包括处理器、以及与所述处理器耦接的存储器,所述存储器存储有可被所述处理器执行的程序指令;所述处理器执行所述存储器存储的所述程序指令时实现上述的弹幕信息处理方法。
本发明的另一技术方案如下:提供一种存储介质,所述存储介质内存储有程序指令,所述程序指令被处理器执行时实现能够实现上述的弹幕信息处理方法。
本发明的有益效果在于:本发明的弹幕信息处理方法、装置、电子设备和存储介质,通过弹幕信息中的弹幕文字确定弹幕信息的意图类别,建立意图类别对应表;通过弹幕信息中的发布时间定位弹幕信息指向的内容片段,根据内容片段的文本数据确定弹幕信息指向的主题点,建立主题点对应表;根据所述意图类别对应表和所述主题点对应表,确定每个主题点的意图类别汇总信息,根据每个所述主题点的意图类别汇总信息生成评价信息;通过上述方式,无需进行直播视频的回放,直接获取每个所述主题点的意图类别汇总信息以及生成的评价信息,充分利用弹幕信息的同时节约了直播者的时间。
【附图说明】
图1为本发明第一实施例的弹幕信息处理方法的流程图;
图2为本发明第二实施例的弹幕信息处理方法的流程图;
图3为本发明第三实施例的弹幕信息处理装置的结构示意图;
图4为本发明第四实施例的电子设备的结构示意图;
图5为本发明第五实施例的存储介质的结构示意图。
【具体实施方式】
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1是本发明第一实施例的弹幕信息处理方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该弹幕信息处理方法包括步骤:
S101,获取从直播视频数据中汇总的弹幕信息,其中,所述弹幕信息包括弹幕文字和发布时间。
其中,本实施例可应用在线上直播教学领域,更具体地,可以应用在寿险线上直播培训领域,所述直播视频数据为课程视频数据。本实施例还可以应用在线上直播其他领域,例如,线上直播销售领域。本实施例以线上直播教学为例进行具体说明。
其中,弹幕信息经过汇总后可存储于数据库中,该弹幕信息为用户(学生)在观看课程直播时在客户端发送的以弹幕形式显示的发言。弹幕信息包含的弹幕文字一般为短文本,一般小于300字。进一步地,该弹幕信息还包括弹幕id,为该弹幕信息的唯一识别编号。
S102,根据所述弹幕文字确定所述弹幕信息所属的意图类别,根据所述弹幕信息和对应的所述意图类别建立意图类别对应表。
其中,意图类别用于表征在发布时间用户(学生)对课程的感受,可以反映出在发布时间用户(学生)对课程内容的接受程度,用户即为直播视频的观看者,例如,弹幕文本“这部分没听懂”,其对应的意图类别为“疑问”;弹幕文本“为什么要这么做”,其对应的意图类别也为“疑问”;弹幕文本“这个应该讲错了”,其对应的意图类别为“质疑”;弹幕文本“貌似有问题”,其对应的意图类别为“质疑”;弹幕文本“讲得很清晰”,其对应的意图类别为“认可”;弹幕文本“明白了”,其对应的意图类别为“认可”。意图类别为预先设置的,以上述为例,可以设置三种类型的意图类别,分别为“疑问”、“质疑”和“认可”,于是,所有的弹幕信息均要被划分为上述三个意图类别中的其中一种。
其中,可以对所述弹幕文字进行语义理解,以识别用户意图,进而确定所述弹幕信息所属的意图类别。
所述弹幕信息还包括弹幕id,建立意图对应表时,可以将所述弹幕id作为字段以行或列的形式汇总至初始的意图类别对应表中,再根据所述弹幕信息所属的意图类别对所述意图类别对应表进行更新。上述的意图类别对应表汇总了一个课程视频数据的所有弹幕信息的意图类别,一个弹幕信息对应一个意图类别。
S103,根据所述发布时间从所述直播视频数据中获取所述弹幕信息指向的内容片段信息,根据所述内容片段信息获取所述弹幕信息指向的文本数据。
其中,所述内容片段信息为弹幕信息指向的直播内容,在在线教育应用场景中,所述内容片段信息为弹幕信息指向的教学内容,也就是说,用户(学生)是针对上述教学内容发表简略的直接反馈,所述意图类别指向上述教学内容。所述内容片段信息可以为音频信息,例如,截取所述发布时间之前预设时间段的课程音频信息,将所述课程音频信息转化为文本数据,以实现上述教学内容的文本化,该文本数据用于后续分析。另外,可以利用Wav2Letter++等STT技术实现课程音频信息的文本转化。文本数据一般为长文本,大约300字,对应正常语速下讲课2分钟,因此,预设时间段的长度优选为2分钟。
S104,根据所述文本数据确定所述弹幕信息所指向的主题点,根据所述弹幕信息和对应的主题点建立主题点对应表。
其中,在线上直播教学领域,所述主题点为知识点,所述主题点对应表为知识点对应表。具体地,所述知识点用于表征文本数据所对应的教学内容的主题。
其中,步骤S102中所识别出的弹幕信息的意图也是用户针对所述主题点发出的。
其中,所述弹幕信息还包括弹幕id,建立主题点对应表时,可以将所述弹幕id作为字段以行或列的形式汇总至初始的主题点对应表中,再根据所述弹幕信息所指向的主题点对所述主题点对应表进行更新。上述的主题点对应表汇总了一个直播视频数据的所有弹幕信息所指向的主题点,可能有若干个弹幕信息指向同一个主题点。
S105,根据所述意图类别对应表和所述主题点对应表,确定每个所述主题点的意图类别汇总信息,根据每个所述主题点的意图类别汇总信息生成评价信息。
其中,所述意图类别汇总信息包括意图类别以及指向所述意图类别的弹幕信息数量。
具体地,还是以线上直播教育为例进行具体说明,主题点为知识点,主题点对应表为知识点对应表,所述评价信息为课程评价信息。于是,根据意图类别对应表中的“弹幕id”字段和知识点对应表中的“弹幕id”字段,将同一弹幕信息的意图类别和知识点进行关联,建立意图类别和知识点的关联关系;再根据知识点进行意图类别汇总,将相同知识点的意图类别汇总形成意图类别汇总信息,所述意图类别汇总信息包括意图类别以及指向所述意图类别的弹幕信息数量。例如,“保险客户的信用等级评价”知识点,“疑问”意图类别的数量为3条(弹幕id00002,00003,00010),“质疑”意图类别的数量为1条(弹幕id00020),“认可”意图类别的数量为20条(弹幕id00021至00040)。进一步地,所述弹幕信息还包括发布者账号,在每个知识点的意图类别汇总信息中,针对每个意图类别,根据发布者账号对同一意图类别的弹幕id进行聚类,根据聚类结果对所述意图类别的弹幕信息数量进行调整。例如,上述意图类别汇总信息中,“认可”意图类别的数量为20条(弹幕id00021至00040),其中,弹幕id00021至00025这5个弹幕信息均为同一发布者发布,聚类后的结果为弹幕id00021至00025聚类为1条,于是,“认可”意图类别的数量为16条(弹幕id00021至00040),避免由于同一发布者用相同弹幕文字进行刷屏而影响汇总结果。
其中,对于每个知识点,其意图类别及意图类别的数量分布能够反映该知识点的教学情况,例如,“保险客户的信用等级评价”知识点,“疑问”意图类别的数量为3条(弹幕id00002,00003,00010),“质疑”意图类别的数量为1条(弹幕id00020),“认可”意图类别的数量为20条(弹幕id00021至00040),在“认可”意图类别的数量显著高于另外两个类别,可以输出“学生对保险客户的信用等级评价的讲授表示认可”这样的课程评价;又如,“重疾类保险线上营销”知识点,“疑问”意图类别的数量为3条,“质疑”意图类别的数量为10条,“认可”意图类别的数量为0条,可以输出“学生对重疾类保险线上营销的讲授表示质疑”,对于上述课程评价,授课老师可以对上述知识点的讲授内容进行进一步调研确认知识输出的正确性,或者改进讲课方式让学生更容易理解和接受。
在第一个可选的实施方式中,在步骤S102中,利用K-近邻(K-Nearest Neighbor,KNN)模型实现意图类别的确定,具体包括如下步骤:
S1021,获取历史弹幕文本,按照预设意图类别对所述历史弹幕文本进行标注。
在步骤S1021中,意图类别以及意图类别的数量均是预先设定的,可以按照实际需要进行确定。
S1022,对所述历史弹幕文本进行分词处理,得到所述历史弹幕文本的分词词语。
在步骤S1022中,可以利用word2vec模型得到所述分词词语的词向量。与传统KNN模型中采用词袋模型进行文本向量化相比,具有如下优势:第一,用word2vec模型训练出的词向量维度可以自定义,通常取100维,远小于字典长度;第二,Word2vec模型训练过程中考虑到上下文,语义类似的词语各自向量之间距离比较短,在判断带有情感色彩,褒贬倾向的弹幕类别时,这种优势会体现出来;第三,很容易用word2vec模型训练的词向量加工出句向量,也就是弹幕向量。
具体地,弹幕文本的分词示例如下:弹幕文本“这部分没听懂”,对应文本分词:这||部分||没||听懂;弹幕文本“为什么要这么做”,对应文本分词:为什么||要||这么||做;弹幕文本“这个应该讲错了”,对应文本分词:这个||应该||讲错||了;弹幕文本“貌似有问题”,对应文本分词:貌似||有||问题;弹幕文本“讲得很清晰”,对应文本分词:讲得||很||清晰;弹幕文本“明白了”,对应文本分词:明白||了。
S1023,根据预先确定的词语与词向量的对应关系,确定所述历史弹幕文本中每个分词词语对应的词向量,生成所述历史弹幕文本的词向量矩阵;根据所述历史弹幕文本的词向量矩阵构建历史数据集合。
S1024,对所述弹幕文本进行分词处理,得到所述弹幕文本的分词词语;根据预先确定的词语与词向量的对应关系,确定所述弹幕文本中每个分词词语对应的词向量,生成所述弹幕文本的词向量矩阵。
在步骤S1024中,与步骤S1022中的分词类似,可以利用word2vec模型得到所述分词词语的词向量,具体描述和操作方式参见步骤S1022的说明。
S1025,基于余弦相似度计算所述弹幕文本的词向量矩阵与所述历史数据集合中每个所述历史弹幕文本的词向量矩阵的余弦距离,选择所述余弦距离最近的预设数量个历史弹幕文本。
在步骤S1025中,采用余弦相似度替代欧式距离来衡量待分类的弹幕文本的词向量矩阵与历史弹幕文本的词向量矩阵的相似程度,一方面,欧氏距离重点从维度数值大小中捕捉样本差异,而余弦相似度对数值的绝对值不敏感,着重捕捉向量在方向上的差异,对于涉及到感性认知的文本使用环境,余弦相似性会更加适用;另一方面欧式距离受维度影响大(即便是100维),唯独较大时欧式距离可能取到无限高的值,而余弦相似性无论在多高维度的向量之间依然保持0-1的取值。
S1026,对所选择的预设数量个历史弹幕文本的意图类别数量分布进行统计,将数量最多的意图类别作为所述弹幕文本的意图类别。
在步骤S1026中,例如,预设数量为K,K个近邻的历史弹幕文本中对应n个意图类别,每个意图类别的数量为Xi,i=1,…,n。获取X1至Xn中的最大值Xj,Xj对应的意图类别即为输出结果。
在第二个可选的实施方式中,在步骤S104中,可以利用LDA(Latent DirichletAllocation)主题模型实现主题点的确定,于是,根据所述文本数据确定所述弹幕信息所指向的主题点,具体包括如下步骤:将所述文本数据输入至预先训练好的LDA主题模型中,根据所述LDA主题模型的输出结构确定所述弹幕信息所指向的主题点。
其中,上述的LDA主题模型的训练方法包括如下步骤:
S104a,将不同类型的课程讲义文本按照预设长度进行自然段拆分,得到文本文件,构建课程讲义语料库;
其中,为了与上述步骤中输入的文本数据匹配,文本文件的长度大约为300字左右。
S104b,将所述课程讲义语料库中的每个文本文件依次进行分词处理、去标点处理以及去停用词处理,得到每个所述文本文件的分词词语;
例如,对于文本文件中的一句话“再多讲几个案例就好了”,分词之后得到:再||多||讲||几个||案例||就||好||了,分完词之后,可以发现“就”和“了”属于停用词,因此过滤掉。
S104c,对所述课程讲义语料库中的所有文本文件的分词词语进行数量统计,根据统计结果对出现次数少于预设阈值的分词进行过滤,得到所述课程讲义语料库的字典;
例如,统计结果显示,在所有文本文件中,分词“保险”:100000;分词“不懂”:100;分词“我勒个去”:1,其中,分词“我勒个去”只出现了一次,属于超低频词,将其过滤掉。
S104d,根据词典,将所述课程讲义语料库中的所有文本文件转换为关于所述词典的稀疏矩阵;
其中,以文本文件的编号为列,以字典中的分词为行,在稀疏矩阵中,元素Aij表示第i行第j列的值,Aij代表第i行对应的分词在第j个文本文件中出现的次数。通过稀疏矩阵对所述课程讲义语料库中的各文本文件进行存放,可以增加存储空间的利用率。
S104e,预先设置主题数量参数为第一预设数量,采用最大期望算法建立初始的LDA主题模型;
例如,第一预设数量为模型的主题个数参数,训练后的LDA主题模型会按照设定的主题个数分别聚集成第一预设数量个主题关联词集合,可以设置100个主题,并为每个主题设置主题关联词个数参数,例如为10个,于是训练后的LDA主题模型聚集100个主题关联词集合,每个主题关联词集合包括10个主题关联词;其中,最大期望算法的英文全称为Expectation Maximization,英文缩写为EM。
S104f,将所述课程讲义语料库的稀疏矩阵输入至所述初始的LDA主题模型进行迭代训练,利用LDA主题模型训练时的聚词功能在所述课程讲义语料库经所述LDA主题模型训练后获得按设定主题数分别聚集成的第一预设数量个主题关联词集合;
其中,可以使用gensim库的LdaModel模块训练LDA主题模型,模型需要一个主题个数参数(即为步骤S405中设定的第一预设数量),可以结合知识点体量人为制定,或者用HDP方法确定主题个数。
其中,课程讲义语料库输入至初始的LDA主题模型中,得到所述文本文件的各主题概率分布和每个主题的各分词概率分布;可以基于所述文本文件的各主题概率分布和每个主题的各分词概率分布计算困惑度,选择困惑度最小的LDA主题模型作为训练好的LDA主题模型。
S104g,针对每个所述主题关联词集合,根据所述主题关联词获取对应的主题点。
其中,可以利用人工标注的方式将主题关联词总结为主题点,例如,一个主题关联词集合中各主题关联词分别为“客户“,”信用“,”评分“,”保险“,”申请“,“调查”,确定此主题关联词集合对应的主题点(知识点)为”保险客户的信用等级评价”。归纳好的主题点(知识点)相较于一系列词语来说展示起来会更加清晰。由此可以得到第一预设数量个主题点,例如100个。制定更多的主题个数会得到更加精细的主题点。
其中,LDA主题模型训练好之后在使用时,弹幕信息定位的文本数据与构成训练集的文本文件进行步骤S104b至步骤S104d的类似处理,以生成所述文本数据的稀疏矩阵;再将所述文本数据的稀疏矩阵输入至训练好的LDA主题模型中,得到所述文本数据的主题点。
在第三个优选实施方式中,在步骤S105中,可以利用数据表进行汇总,其中,所述主题点为知识点,于是,根据所述意图类别对应表和所述主题点对应表,确定每个主题点的意图类别汇总信息,具体包括如下步骤:
S1051,将所述意图类别对应表和所述知识点对应表进行合并,得到合并数据表,其中,所述合并数据表包括弹幕id字段、意图类别字段和知识点字段;
具体地,在所述意图类别对应表中添加知识点字段,按照弹幕id所在行或列,将所述知识点对应表中各知识点写入对应位置,生成所述合并数据表。
S1052,在所述合并数据表中,按照所述知识点进行排序,分别得到每个所述知识点的合并数据表子区域;
其中,按照知识点进行排序时,相同的知识点在合并数据表中连续排列,可以按照知识点,将排序后的合并数据表划分为与每个知识点对应的合并数据表子区域,合并数据表子区域的数量与知识点的数量相同。
S1053,在每个所述知识点的合并数据表子区域中,按照所述意图类别进行排序,根据排序结果分别统计每个意图类别的数量;
其中,按照意图类别进行排序时,相同的意图类别在所述合并数据表子区域中连续排列,相同的意图类别的总行数或总列数即为该意图类别的数量。
S1054,针对每个所述合并数据表子区域,根据所述意图类别以及指向所述意图类别的弹幕信息数量生成对应知识点的意图类别汇总信息。
在第四个优选实施方式中,在步骤S105中,根据每个所述主题点的意图类别汇总信息生成评价信息,具体包括如下步骤:
S1051’,根据所述主题点的意图类别汇总信息,分别计算每个所述主题点的各意图类别的概率值;
其中,通过汇总每一个主题点都可能对应多种意图类别,假设意图类别有m种,我们算出一个知识点对应m种意图类别的概率值pi=ni/N。其中ni是提出第i种意图类别的弹幕信息数量,N是针对这个主题点的弹幕信息总数量。
S1052’,根据所述主题点的各意图类别的概率值计算所述主题点的信息熵;
其中,可以通过以下公式计算信息熵
Figure BDA0002922878820000191
信息熵用于描述针对一个特定的主题点,弹幕信息的意图类别的分散程度。还是以上述三种意图类别为例进行说明,针对某个主题点(知识点),假设第一种情况,发布疑问/质疑/认可的弹幕信息数量分别为9,2,1,则计算信息熵为
Figure BDA0002922878820000192
假设第二种情况,发布疑问/质疑/认可的弹幕信息数量分别为4,4,4,则信息熵为
Figure BDA0002922878820000193
可以看到当弹幕信息的意图类别越集中时,信息熵越小,当弹幕信息的意图类别越分散时,信息熵越大。同时,因为m,也就是意图类别的数量是固定的,信息熵之间有可比性(类别多时熵自然变大)。
S1053’,当所述信息熵小于第一预设阈值时,根据所述主题点的弹幕信息数量最多的意图类别生成所述评价信息;
其中,如果信息熵足够小,说明主题点的意图类别集中,则展示弹幕信息占比最多的那个意图类别,同时还可以展示相应的弹幕信息数量。
S1054’,当所述信息熵大于或等于第一预设阈值时,获取所述主题点的弹幕信息总数量;
其中,如果信息熵较大,说明主题点的意图类别分散,则进一步判断该主题点的弹幕信息总数量。
S1055’,当所述弹幕信息总数量小于第二预设阈值时,忽略所述主题点;
其中,该主题点的弹幕信息总数量很低,则不对此主题点做反馈。
S1056’,当所述弹幕信息总数量大于或等于第二预设阈值时,根据所述主题点的所有意图类别及指向所述意图类别的弹幕信息数量生成所述展示信息,将所述展示信息作为所述评价信息。
其中,该主题点的弹幕信息总数量足够高,则展示所有意图类别及指向所述意图类别的弹幕信息数量,直播者可以根据评价信息自行判断。
其中,表征信息熵大小的第一预设阈值,以及表征弹幕信息总数量的第二预设阈值可以通过前期统计分析进行制定,也可以通过经验直接进行制定。
图2是本发明第二实施例的弹幕信息处理方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图2所示的流程顺序为限。如图2所示,该弹幕信息处理方法包括步骤:
S201,根据课程的类别为每个课程类别创建一个专有词典表。
S202,对每个所述专有词典表进行编辑,以在所述专有词典表中记录每个对应课程类别所涉及的专有名词;对所述专有词典表进行存储。
在本实施例中,为了增加对所述文本数据的分词准确率,在LDA主题模型的数据预处理阶段引入专有词典表。例如,在寿险课程中,有专有名词“平安福”、“安e赔”、“长期医疗险”等,在进行分词过程中,若无法识别其为专有名词,上述几个词会被切开,“平安福”切为“平安”“福”;“安e赔”切为“安”“e”“赔”。于是,将“平安福”、“安e赔”、“长期医疗险”作为寿险课程的专有名词,记录于专有词典表中。
其中,专有词典表可以为一个文本文档,例如可以是txt文档,或excel文档;专有词典表也可以为一个数据表。
其中,每个课程类别的专有词典表所涉及的专有名词可以由该领域的专业人员进行收集和维护。
其中,课程类别可以按照实际需求进行划分,例如,可以包括寿险类、合同类、营销类等。
S203,获取从直播视频数据中汇总的弹幕信息,其中,所述弹幕信息包括弹幕文字和发布时间。
S204,根据所述弹幕文字确定所述弹幕信息所属的意图类别,根据所述弹幕信息和对应的所述意图类别建立意图类别对应表。
S205,根据所述发布时间从所述直播视频数据中获取所述弹幕信息指向的内容片段信息,根据所述内容片段信息获取所述弹幕信息指向的文本数据。
步骤S203至步骤S205具体参见第一实施例步骤S101至步骤S103的描述,在此不进行一一赘述。
S206,将所述文本数据输入至预先训练好的LDA主题模型中,根据所述LDA主题模型的输出结构确定所述弹幕信息所指向的主题点,根据所述弹幕信息和对应的主题点建立主题点对应表。
在步骤S206中,读取所述课程视频数据的课程简介,识别所述课程视频数据的课程类别;根据所述课程视频数据的课程类别,从所存储的多个专有词典表中调取与所述课程类别对应的专有词典表;按照所调取的专有词典表对所述文本数据进行分词处理,得到所述文本数据的分词词语;根据所述词典,将所述文本数据的分词词语转换为关于所述词典的稀疏矩阵;利用所述LDA主题模型,对所述文本数据的稀疏矩阵进行主题识别,根据所述LDA主题模型的输出结果确定所述弹幕信息所指向的主题点。
S207,根据所述意图类别对应表和所述主题点对应表,确定每个所述主题点的意图类别汇总信息,根据每个所述主题点的意图类别汇总信息生成评价信息。
步骤S207参见第一实施例中步骤S105的描述,在此不进行一一赘述。
在一个可选的实施方式中,步骤S207之后还包括:
S208,将所述评价信息上传至区块链中,以使得所述区块链对所述评价信息进行加密存储。
在步骤S208中,分别基于所述评价信息得到对应的摘要信息,具体来说,摘要信息由所述评价信息进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息,以便查证所述评价信息是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。本方案属于智慧教育领域,通过本方案能够推动智慧城市的建设。
图3是本发明第三实施例的弹幕信息处理装置的结构示意图。如图3所示,该装置30包括弹幕获取模块31、意图识别模块32、内容定位模块33、主题识别模块34和汇总评价模块35。其中,弹幕获取模块31,用于获取从直播视频数据中汇总的弹幕信息,其中,所述弹幕信息包括弹幕文字和发布时间;意图识别模块32,用于根据所述弹幕文字确定所述弹幕信息所属的意图类别,根据所述弹幕信息和对应的所述意图类别建立意图类别对应表;内容定位模块33,用于根据所述发布时间从所述直播视频数据中获取所述弹幕信息指向的内容片段信息,根据所述内容片段信息获取所述弹幕信息指向的文本数据;主题识别模块34,用于根据所述文本数据确定所述弹幕信息所指向的主题点,根据所述弹幕信息和对应的主题点建立主题点对应表;汇总评价模块35,用于根据所述意图类别对应表和所述主题点对应表,确定每个所述主题点的意图类别汇总信息,根据每个所述主题点的意图类别汇总信息生成评价信息,其中,所述意图类别汇总信息包括意图类别以及指向所述意图类别的弹幕信息数量。
进一步地,意图识别模块32还用于获取历史弹幕文本,按照预设意图类别对所述历史弹幕文本进行标注;对所述历史弹幕文本进行分词处理,得到所述历史弹幕文本的分词词语;根据预先确定的词语与词向量的对应关系,确定所述历史弹幕文本中每个分词词语对应的词向量,生成所述历史弹幕文本的词向量矩阵;根据所述历史弹幕文本的词向量矩阵构建历史数据集合;对所述弹幕文本进行分词处理,得到所述弹幕文本的分词词语;根据预先确定的词语与词向量的对应关系,确定所述弹幕文本中每个分词词语对应的词向量,生成所述弹幕文本的词向量矩阵;基于余弦相似度计算所述弹幕文本的词向量矩阵与所述历史数据集合中每个所述历史弹幕文本的词向量矩阵的余弦距离,选择所述余弦距离最近的预设数量个历史弹幕文本;对所选择的预设数量个历史弹幕文本的意图类别数量分布进行统计,将数量最多的意图类别作为所述弹幕文本的意图类别。
进一步地,主题识别模块34,用于将所述文本数据输入至预先训练好的LDA主题模型中,根据所述LDA主题模型的输出结果确定所述弹幕信息所指向的主题点。所述LDA主题模型的训练步骤包括:将不同类型的课程讲义文本按照预设长度进行自然段拆分,得到文本文件,构建课程讲义语料库;将所述课程讲义语料库中的每个文本文件依次进行分词处理、去标点处理以及去停用词处理,得到每个所述文本文件的分词词语;对所述课程讲义语料库中的所有文本文件的分词词语进行数量统计,根据统计结果对出现次数少于预设阈值的分词进行过滤,得到所述课程讲义语料库的字典;根据所述词典,将所述课程讲义语料库中的所有文本文件转换为关于所述词典的稀疏矩阵;预先设置主题数量参数为第一预设数量,采用最大期望算法建立初始的LDA主题模型;将所述课程讲义语料库的稀疏矩阵输入至所述初始的LDA主题模型进行迭代训练,利用所述LDA主题模型训练时的聚词功能在所述课程讲义语料库经所述LDA主题模型训练后获得按设定主题数分别聚集成的第一预设数量个主题关联词集合;针对每个所述主题关联词集合,根据所述主题关联词获取对应的主题点。
进一步地,所述直播视频数据为课程视频数据;主题识别模块34还用于根据课程的类别为每个课程类别创建一个专有词典表;对每个所述专有词典表进行编辑,以在所述专有词典表中记录每个对应课程类别所涉及的专有名词;对所述专有词典表进行存储;
进一步地,主题识别模块34用于读取所述课程视频数据的课程简介,识别所述课程视频数据的课程类别;根据所述课程视频数据的课程类别,从所存储的多个专有词典表中调取与所述课程类别对应的专有词典表;按照所调取的专有词典表对所述文本数据进行分词处理,得到所述文本数据的分词词语;根据所述词典,将所述文本数据的分词词语转换为关于所述词典的稀疏矩阵;利用所述LDA主题模型,对所述文本数据的稀疏矩阵进行主题识别,根据所述LDA主题模型的输出结果确定所述弹幕信息所指向的主题点。
进一步地,汇总评价模块35用于将所述意图类别对应表和所述知识点对应表进行合并,得到合并数据表,其中,所述合并数据表包括弹幕id字段、意图类别字段和主题点字段;在所述合并数据表中,按照所述主题点进行排序,分别得到每个所述主题点的合并数据表子区域;在每个所述主题点的合并数据表子区域中,按照所述意图类别进行排序,根据排序结果分别统计每个意图类别的数量;针对每个所述合并数据表子区域,根据所述意图类别以及指向所述意图类别的弹幕信息数量生成对应主题点的意图类别汇总信息。
进一步地,汇总评价模块35用于根据所述主题点的意图类别汇总信息,分别计算每个所述主题点的各意图类别的概率值;根据所述主题点的各意图类别的概率值计算所述主题点的信息熵;当所述信息熵小于第一预设阈值时,根据所述主题点的弹幕信息数量最多的意图类别生成所述评价信息。
进一步地,汇总评价模块35还用于当所述信息熵大于或等于第一预设阈值时,获取所述主题点的弹幕信息总数量;当所述弹幕信息总数量小于第二预设阈值时,忽略所述主题点;当所述弹幕信息总数量大于或等于第二预设阈值时,根据所述主题点的所有意图类别及指向所述意图类别的弹幕信息数量生成所述展示信息,将所述展示信息作为所述评价信息。
图4是本发明第四实施例的电子设备的结构示意图。如图4所示,该电子设备40包括处理器41及和处理器41耦接的存储器42。
存储器42存储有用于实现上述任一实施例的弹幕信息处理方法的程序指令。
处理器41用于执行存储器42存储的程序指令以进行弹幕信息处理。
其中,处理器41还可以称为CPU(Central Processing Unit,中央处理单元)。处理器41可能是一种集成电路芯片,具有信号的处理能力。处理器41还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图5,图5为本发明第五实施例的存储介质的结构示意图。本发明第五实施例的存储介质存储有能够实现上述所有方法的程序指令51,其中,该程序指令51可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围。
以上所述的仅是本发明的实施方式,在此应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。

Claims (8)

1.一种弹幕信息处理方法,其特征在于,包括:
获取从直播视频数据中汇总的弹幕信息,其中,所述弹幕信息包括弹幕文字和发布时间;
根据所述弹幕文字确定所述弹幕信息所属的意图类别,根据所述弹幕信息和对应的所述意图类别建立意图类别对应表;
根据所述发布时间从所述直播视频数据中获取所述弹幕信息指向的内容片段信息,根据所述内容片段信息获取所述弹幕信息指向的文本数据,其中,所述内容片段信息为所述弹幕信息指向的所述直播视频数据对应的音频信息,将所述音频信息转化为所述文本数据;
根据所述文本数据确定所述弹幕信息所指向的主题点,根据所述弹幕信息和对应的主题点建立主题点对应表;
根据所述意图类别对应表和所述主题点对应表,确定每个所述主题点的意图类别汇总信息,根据每个所述主题点的意图类别汇总信息生成评价信息,其中,所述意图类别汇总信息包括意图类别以及指向所述意图类别的弹幕信息数量;
所述根据所述弹幕文字确定所述弹幕信息所属的意图类别,包括:
获取历史弹幕文本,按照预设意图类别对所述历史弹幕文本进行标注;
对所述历史弹幕文本进行分词处理,得到所述历史弹幕文本的分词词语;
根据预先确定的词语与词向量的对应关系,确定所述历史弹幕文本中每个分词词语对应的词向量,生成所述历史弹幕文本的词向量矩阵;根据所述历史弹幕文本的词向量矩阵构建历史数据集合;
对所述弹幕文本进行分词处理,得到所述弹幕文本的分词词语;根据预先确定的词语与词向量的对应关系,确定所述弹幕文本中每个分词词语对应的词向量,生成所述弹幕文本的词向量矩阵;
基于余弦相似度计算所述弹幕文本的词向量矩阵与所述历史数据集合中每个所述历史弹幕文本的词向量矩阵的余弦距离,选择所述余弦距离最近的预设数量个历史弹幕文本;
对所选择的预设数量个历史弹幕文本的意图类别数量分布进行统计,将数量最多的意图类别作为所述弹幕文本的意图类别;
所述根据所述文本数据确定所述弹幕信息所指向的主题点,包括:
将所述文本数据输入至预先训练好的LDA主题模型中,根据所述LDA主题模型的输出结果确定所述弹幕信息所指向的主题点;
所述LDA主题模型的训练步骤包括:
将不同类型的课程讲义文本按照预设长度进行自然段拆分,得到文本文件,构建课程讲义语料库;
将所述课程讲义语料库中的每个文本文件依次进行分词处理、去标点处理以及去停用词处理,得到每个所述文本文件的分词词语;
对所述课程讲义语料库中的所有文本文件的分词词语进行数量统计,根据统计结果对出现次数少于预设阈值的分词进行过滤,得到所述课程讲义语料库的词典;
根据所述词典,将所述课程讲义语料库中的所有文本文件转换为关于所述词典的稀疏矩阵;
预先设置主题数量参数为第一预设数量,采用最大期望算法建立初始的LDA主题模型;
将所述课程讲义语料库的稀疏矩阵输入至所述初始的LDA主题模型进行迭代训练,利用所述LDA主题模型训练时的聚词功能在所述课程讲义语料库经所述LDA主题模型训练后获得按设定主题数分别聚集成的第一预设数量个主题关联词集合;
针对每个所述主题关联词集合,根据所述主题关联词获取对应的主题点。
2.根据权利要求1所述的弹幕信息处理方法,其特征在于,所述直播视频数据为课程视频数据;
所述根据所述文本数据确定所述弹幕信息所指向的主题点之前,还包括:
根据课程的类别为每个课程类别创建一个专有词典表;
对每个所述专有词典表进行编辑,以在所述专有词典表中记录每个对应课程类别所涉及的专有名词;
对所述专有词典表进行存储;
相应地,所述将所述文本数据输入至预先训练好的LDA主题模型中,根据所述LDA主题模型的输出结果确定所述弹幕信息所指向的主题点,包括:
读取所述课程视频数据的课程简介,识别所述课程视频数据的课程类别;
根据所述课程视频数据的课程类别,从所存储的多个专有词典表中调取与所述课程类别对应的专有词典表;
按照所调取的专有词典表对所述文本数据进行分词处理,得到所述文本数据的分词词语;
根据所述词典,将所述文本数据的分词词语转换为关于所述词典的稀疏矩阵;
利用所述LDA主题模型,对所述文本数据的稀疏矩阵进行主题识别,根据所述LDA主题模型的输出结果确定所述弹幕信息所指向的主题点。
3.根据权利要求1所述的弹幕信息处理方法,其特征在于,所述弹幕信息还包括弹幕id;
所述根据所述意图类别对应表和所述主题点对应表,确定每个所述主题点的意图类别汇总信息,包括:
将所述意图类别对应表和所述主题点对应表进行合并,得到合并数据表,其中,所述合并数据表包括弹幕id字段、意图类别字段和主题点字段;
在所述合并数据表中,按照所述主题点进行排序,分别得到每个所述主题点的合并数据表子区域;
在每个所述主题点的合并数据表子区域中,按照所述意图类别进行排序,根据排序结果分别统计每个意图类别的数量;
针对每个所述合并数据表子区域,根据所述意图类别以及指向所述意图类别的弹幕信息数量生成对应主题点的意图类别汇总信息。
4.根据权利要求1所述的弹幕信息处理方法,其特征在于,所述根据每个所述主题点的意图类别汇总信息生成评价信息,包括:
根据所述主题点的意图类别汇总信息,分别计算每个所述主题点的各意图类别的概率值;
根据所述主题点的各意图类别的概率值计算所述主题点的信息熵;
当所述信息熵小于第一预设阈值时,根据所述主题点的弹幕信息数量最多的意图类别生成所述评价信息。
5.根据权利要求4所述的弹幕信息处理方法,其特征在于,所述根据每个所述主题点的意图类别汇总信息生成评价信息,还包括:
当所述信息熵大于或等于第一预设阈值时,获取所述主题点的弹幕信息总数量;
当所述弹幕信息总数量小于第二预设阈值时,忽略所述主题点;
当所述弹幕信息总数量大于或等于第二预设阈值时,根据所述主题点的所有意图类别及指向所述意图类别的弹幕信息数量生成展示信息,将所述展示信息作为所述评价信息。
6.一种弹幕信息处理装置,其特征在于,包括:
弹幕获取模块,用于获取从直播视频数据中汇总的弹幕信息,其中,所述弹幕信息包括弹幕文字和发布时间;
意图识别模块,用于根据所述弹幕文字确定所述弹幕信息所属的意图类别,根据所述弹幕信息和对应的所述意图类别建立意图类别对应表;
内容定位模块,用于根据所述发布时间从所述直播视频数据中获取所述弹幕信息指向的内容片段信息,根据所述内容片段信息获取所述弹幕信息指向的文本数据,其中,所述内容片段信息为所述弹幕信息指向的所述直播视频数据对应的音频信息,将所述音频信息转化为所述文本数据;
主题识别模块,用于根据所述文本数据确定所述弹幕信息所指向的主题点,根据所述弹幕信息和对应的主题点建立主题点对应表;
汇总评价模块,用于根据所述意图类别对应表和所述主题点对应表,确定每个所述主题点的意图类别汇总信息,根据每个所述主题点的意图类别汇总信息生成评价信息,其中,所述意图类别汇总信息包括意图类别以及指向所述意图类别的弹幕信息数量;
意图识别模块还用于获取历史弹幕文本,按照预设意图类别对所述历史弹幕文本进行标注;对所述历史弹幕文本进行分词处理,得到所述历史弹幕文本的分词词语;根据预先确定的词语与词向量的对应关系,确定所述历史弹幕文本中每个分词词语对应的词向量,生成所述历史弹幕文本的词向量矩阵;根据所述历史弹幕文本的词向量矩阵构建历史数据集合;对所述弹幕文本进行分词处理,得到所述弹幕文本的分词词语;根据预先确定的词语与词向量的对应关系,确定所述弹幕文本中每个分词词语对应的词向量,生成所述弹幕文本的词向量矩阵;基于余弦相似度计算所述弹幕文本的词向量矩阵与所述历史数据集合中每个所述历史弹幕文本的词向量矩阵的余弦距离,选择所述余弦距离最近的预设数量个历史弹幕文本;对所选择的预设数量个历史弹幕文本的意图类别数量分布进行统计,将数量最多的意图类别作为所述弹幕文本的意图类别;
主题识别模块还用于将所述文本数据输入至预先训练好的LDA主题模型中,根据所述LDA主题模型的输出结果确定所述弹幕信息所指向的主题点;所述LDA主题模型的训练步骤包括:将不同类型的课程讲义文本按照预设长度进行自然段拆分,得到文本文件,构建课程讲义语料库;将所述课程讲义语料库中的每个文本文件依次进行分词处理、去标点处理以及去停用词处理,得到每个所述文本文件的分词词语;对所述课程讲义语料库中的所有文本文件的分词词语进行数量统计,根据统计结果对出现次数少于预设阈值的分词进行过滤,得到所述课程讲义语料库的词典;根据所述词典,将所述课程讲义语料库中的所有文本文件转换为关于所述词典的稀疏矩阵;预先设置主题数量参数为第一预设数量,采用最大期望算法建立初始的LDA主题模型;将所述课程讲义语料库的稀疏矩阵输入至所述初始的LDA主题模型进行迭代训练,利用所述LDA主题模型训练时的聚词功能在所述课程讲义语料库经所述LDA主题模型训练后获得按设定主题数分别聚集成的第一预设数量个主题关联词集合;针对每个所述主题关联词集合,根据所述主题关联词获取对应的主题点。
7.一种电子设备,其特征在于,包括处理器、以及与所述处理器耦接的存储器,所述存储器存储有可被所述处理器执行的程序指令;所述处理器执行所述存储器存储的所述程序指令时实现如权利要求1~5中任一项所述的弹幕信息处理方法。
8.一种存储介质,其特征在于,所述存储介质内存储有程序指令,所述程序指令被处理器执行时实现能够实现如权利要求1~5中任一项所述的弹幕信息处理方法。
CN202110134453.3A 2021-01-29 2021-01-29 弹幕信息处理方法、装置、电子设备和存储介质 Active CN112911326B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110134453.3A CN112911326B (zh) 2021-01-29 2021-01-29 弹幕信息处理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110134453.3A CN112911326B (zh) 2021-01-29 2021-01-29 弹幕信息处理方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN112911326A CN112911326A (zh) 2021-06-04
CN112911326B true CN112911326B (zh) 2023-04-11

Family

ID=76122447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110134453.3A Active CN112911326B (zh) 2021-01-29 2021-01-29 弹幕信息处理方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112911326B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420132A (zh) * 2021-06-15 2021-09-21 读书郎教育科技有限公司 一种大班直播课讨论区提问快速响应的方法
CN113487458A (zh) * 2021-07-05 2021-10-08 杭州卓健信息科技股份有限公司 一种基于互联网的医链教学管理系统
CN113901226B (zh) * 2021-12-08 2022-06-21 阿里巴巴达摩院(杭州)科技有限公司 实时直播数据处理方法及计算机存储介质
CN114390306A (zh) * 2021-12-27 2022-04-22 中国电信股份有限公司 一种直播互动摘要生成方法和装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130311409A1 (en) * 2012-05-18 2013-11-21 Veetle, Inc. Web-Based Education System
CN104469508B (zh) * 2013-09-13 2018-07-20 中国电信股份有限公司 基于弹幕信息内容进行视频定位的方法、服务器和系统
CN106941625B (zh) * 2017-03-10 2019-08-02 Oppo广东移动通信有限公司 一种移动终端的播放控制方法、装置及移动终端
CN107609478A (zh) * 2017-08-09 2018-01-19 广州思涵信息科技有限公司 一种匹配课堂知识内容的实时学情分析系统及方法
CN107592578B (zh) * 2017-09-22 2019-05-07 Oppo广东移动通信有限公司 信息处理方法、装置、终端设备及存储介质
CN108090857B (zh) * 2017-12-29 2021-06-22 复旦大学 一种多模态的学生课堂行为分析系统和方法
CN108281052B (zh) * 2018-02-09 2019-11-01 郑州市第十一中学 一种在线教学系统及在线教学方法
CN108683938A (zh) * 2018-05-11 2018-10-19 Oppo(重庆)智能科技有限公司 视频播放显示方法、装置、存储介质及终端设备
CN108875606A (zh) * 2018-06-01 2018-11-23 重庆大学 一种基于表情识别的课堂教学评价方法及系统
CN108846431B (zh) * 2018-06-05 2021-09-28 成都信息工程大学 基于改进贝叶斯模型的视频弹幕情感分类方法
CN109309880B (zh) * 2018-10-08 2021-10-22 腾讯科技(深圳)有限公司 视频播放方法、装置、计算机设备及存储介质
CN109862397B (zh) * 2019-02-02 2021-11-09 广州虎牙信息科技有限公司 一种视频分析方法、装置、设备和存储介质
CN110246385A (zh) * 2019-05-16 2019-09-17 杭州博世数据网络有限公司 基于关键授课点评价的互联网教学辅助教学系统
CN110324662B (zh) * 2019-06-28 2022-07-22 北京奇艺世纪科技有限公司 一种视频封面生成方法及装置
CN110322738B (zh) * 2019-07-03 2021-06-11 北京易真学思教育科技有限公司 一种课程优化方法、装置和系统
CN110427897B (zh) * 2019-08-07 2022-03-08 北京奇艺世纪科技有限公司 视频精彩度的分析方法、装置和服务器
CN111831901A (zh) * 2020-03-26 2020-10-27 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN112911326A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN112911326B (zh) 弹幕信息处理方法、装置、电子设备和存储介质
Nouh et al. Understanding the radical mind: Identifying signals to detect extremist content on twitter
Zhao et al. Cyberbullying detection based on semantic-enhanced marginalized denoising auto-encoder
US10380249B2 (en) Predicting future trending topics
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
WO2021218028A1 (zh) 基于人工智能的面试内容精炼方法、装置、设备及介质
CN111930792B (zh) 数据资源的标注方法、装置、存储介质及电子设备
CN110348907B (zh) 一种广告人群的定向方法及装置
CN108269122B (zh) 广告的相似度处理方法和装置
CN102033880A (zh) 基于结构化数据集合的标注方法和装置
CN110457672A (zh) 关键词确定方法、装置、电子设备及存储介质
Theisen et al. Automatic discovery of political meme genres with diverse appearances
CN107862058B (zh) 用于生成信息的方法和装置
CN111767393A (zh) 一种文本核心内容提取方法及装置
Houjeij et al. A novel approach for emotion classification based on fusion of text and speech
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
CN116738250A (zh) 提示文本扩展方法、装置、电子设备和存储介质
Amorim et al. Novelty detection in social media by fusing text and image into a single structure
CN111639485A (zh) 基于文本相似性的课程推荐方法及相关设备
CN113407775B (zh) 视频搜索方法、装置及电子设备
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN113096687A (zh) 音视频处理方法、装置、计算机设备及存储介质
CN111159377B (zh) 属性召回模型训练方法、装置、电子设备以及存储介质
CN112232067A (zh) 文案生成方法、文案评估模型的训练方法、装置及设备
CN106446696B (zh) 一种信息处理方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant