CN109361962A

CN109361962A - 互联网流媒体大数据弹幕信息处理系统及处理方法

Info

Publication number: CN109361962A
Application number: CN201811419910.8A
Authority: CN
Inventors: 不公告发明人
Original assignee: Beijing Luo Da Da Technology Co Ltd
Current assignee: Shanghai Jixun Information Technology Co ltd
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2019-02-19
Anticipated expiration: 2038-11-26
Also published as: CN109361962B

Abstract

本发明互联网流媒体大数据弹幕信息处理系统包括弹幕输入模块、第一删除模块、声音转换文字模块、文本成分分析模块、弹幕关联匹配模块、弹幕输出模块，其根据预设最大弹幕显示量而判定以更少弹幕而输出第三弹幕、流媒体合成模块、用户终端。本发明通过上述方式可先过滤掉违法的、不良的弹幕，再根据弹幕实际与流媒体中的音频的关联程度而输出最后的第三弹幕，从而使用户能够在浏览到流媒体的具体内容时，第一时间观看到与其最为关联的弹幕内容，以保证弹幕信息的及时性关联性，从而提升用户体验，加强用户粘性。

Description

互联网流媒体大数据弹幕信息处理系统及处理方法

技术领域

本发明涉及一种大数据处理系统，特别是涉及一种用于处理流媒体大数据的信息处理系统。

背景技术

弹幕(barrage)，中文流行词语，指的是在网络上观看视频时弹出的评论性字幕。

现如今，视频行业蓬勃发展，不管是长视频录像、短视频录像、视频直播、音频直播，观众均可发布弹幕与其他观众进行分享。

然而，弹幕系统的信息的量过于庞大，如果弹幕信息不受管控，而任由用户发送，则会使黄色弹幕、反动弹幕、传播不良信息弹幕猖獗。而很多弹幕有是实时发送，实时浏览的。

因此，目前急需一种能够用于治理弹幕的互联网流媒体大数据弹幕信息处理系统。

发明内容

本发明要解决的技术问题是提供一种结构简单、成本低、操作简便的互联网流媒体大数据弹幕信息处理系统。

本发明互联网流媒体大数据弹幕信息处理系统，包括

弹幕输入模块，其用于输入第一弹幕；

第一删除模块，其用于删除第一弹幕中与第一数据库的内容相同的第一弹幕，而生成第二弹幕，所述第二弹幕包括第一文本信息和输入所述第一文本信息位于时间轨道的第一时间信息；

声音转换文字模块，其用于流媒体的音频内容实时转换为第二信息，所述第二信息包括第二文本信息和生成所述第二文本信息位于时间轨道的第二时间信息；

文本成分分析模块，其用于识别所述第一文本信息、第二文本信息的主语、谓语、宾语；

弹幕关联匹配模块，其将所述第二文本信息之前的第一预设时间内的第二弹幕进行对比，其将第一文本信息与第二文本信息的宾语相匹配的第二弹幕定义为第一优先级，其将第一文本信息与第二文本信息的谓语相匹配的第二弹幕定义为第二优先级，其将第一文本信息与第二文本信息的主语相匹配的第二弹幕定义为第三优先级；

弹幕输出模块，其根据预设最大弹幕显示量而判定以更少弹幕而输出第三弹幕，其中，

当所述预设最大弹幕显示量大于单位时间应显示的第二弹幕的数量时，则将第二弹幕转换为第三弹幕，

当所述预设最大弹幕显示量小于单位时间应显示的第二弹幕的数量时，则将第一优先级、第二优先级、第三优先级的第二弹幕和随机的其他第二弹幕转换为第三弹幕，

当所述预设最大弹幕显示量小于第一优先级、第二优先级、第三优先级之和的第二弹幕数量时，则将所述第一优先等级、第二优先等级的第二弹幕和随机的第三优先等级的第二弹幕转换为第三弹幕；

当所述预设最大弹幕显示量小于第一优先级、第二优先级之和的第二弹幕数量时，则将所述第一优先级的第二弹幕与随机的第二优先等级的第二弹幕转化为第三弹幕；

当所述预设最大弹幕显示量小于第一优先级时，则将随机将第一优先级的弹幕转化为第三弹幕，其中，所述第三弹幕包括第三文本信息生成所述第三文本信息位于时间轨道的第三时间信息；

流媒体合成模块，其将所述第三弹幕的第三时间信息转化为第二时间信息，与所述流媒体合并发送至用户终端；

用户终端，其用于显示弹幕、显示流媒体。

第一删除模块、声音转换文字模块、文本成分分析模块、弹幕关联匹配模块、弹幕输出模块、流媒体合成模块可均为弹幕服务器。

本发明互联网流媒体大数据弹幕信息处理系统，其中文本成分分析模块与第二数据库连接，所述文本成分分析模块用于将所述第一文本信息、第二文本信息中的每1或2个连续的字与所述第二数据库中的第三信息对比，若匹配，则将第一文本信息、第二文本信息中的匹配的1或2个连续的字定义为谓语，将所述第一文本信息、第二文本信息中的匹配的1或2个连续的字之前的字定义为主语，将所述文本信息中的匹配的1或2个连续的字之后的字定义为宾语。

本发明互联网流媒体大数据弹幕信息处理系统，其中所述弹幕关联匹配模块与第三数据库连接，所述第三数据库为同义词数据库，第三数据库与弹幕输入模块连接，所述第三数据库用于存储第一优先级、第二优先级、第三优先级的第二弹幕，当所述弹幕关联匹配模块检测到弹幕输入模块输入的第一弹幕与所述第一优先级、第二优先级、第三优先级的第二弹幕相匹配时，将所述第一弹幕的文本信息的同义词转化为第三文本信息，并以第一时间信息生成第三弹幕。

本发明互联网流媒体大数据弹幕信息处理系统的处理方法，包括如下步骤：

输入第一弹幕；

删除第一弹幕中与第一数据库的内容相同的第一弹幕，而生成第二弹幕，所述第二弹幕包括第一文本信息和输入所述第一文本信息位于时间轨道的第一时间信息；

将流媒体的音频内容实时转换为第二信息，所述第二信息包括第二文本信息和生成所述第二文本信息位于时间轨道的第二时间信息；

识别所述第一文本信息、第二文本信息的主语、谓语、宾语；

将所述第二文本信息之前的第一预设时间内的第二弹幕进行对比，其将第一文本信息与第二文本信息的宾语相匹配的第二弹幕定义为第一优先级，其将第一文本信息与第二文本信息的谓语相匹配的第二弹幕定义为第二优先级，其将第一文本信息与第二文本信息的主语相匹配的第二弹幕定义为第三优先级；

根据预设最大弹幕显示量而判定以更少弹幕而输出第三弹幕，其中，

将所述第三弹幕的第三时间信息转化为第二时间信息，与所述流媒体合并发送至用户终端，以显示弹幕、显示流媒体。

本发明一种互联网流媒体大数据弹幕信息处理系统，其中包括

弹幕输入模块，其用于输入第一弹幕；

视频转换文字模块，其用于流媒体的视频内容实时转换为第二信息，所述第二信息包括第二文本信息和生成所述第二文本信息位于时间轨道的第二时间信息；

用户终端，其用于显示弹幕、显示流媒体。

本发明互联网流媒体大数据弹幕信息处理系统与现有技术不同之处在于本发明互联网流媒体大数据弹幕信息处理系统通过上述方式可先过滤掉违法的、不良的弹幕，再根据弹幕实际与流媒体中的音频的关联程度而输出最后的第三弹幕，从而使用户能够在浏览到流媒体的具体内容时，第一时间观看到与其最为关联的弹幕内容，以保证弹幕信息的及时性关联性，从而提升用户体验，加强用户粘性。

下面结合附图对本发明的互联网流媒体大数据弹幕信息处理系统作进一步说明。

附图说明

图1是互联网流媒体大数据弹幕信息处理系统的电路连接图。

具体实施方式

如图1所示，本发明互联网流媒体大数据弹幕信息处理系统包括

弹幕输入模块，其用于输入第一弹幕；

用户终端，其用于显示弹幕、显示流媒体。

本发明通过上述方式可先过滤掉违法的、不良的弹幕，再根据弹幕实际与流媒体中的音频的关联程度而输出最后的第三弹幕，从而使用户能够在浏览到流媒体的具体内容时，第一时间观看到与其最为关联的弹幕内容，以保证弹幕信息的及时性关联性，从而提升用户体验，加强用户粘性。

其中，所述流媒体可为录像、录音、视频直播、音频直播。

其中，第一弹幕、第二弹幕的第一时间信息、第三弹幕的第三时间信息可为同一个时间信息，也就是说，是此弹幕发送时候的时间信息。

需要说明的是，

当所述预设最大弹幕显示量小于单位时间应显示的第二弹幕的数量时，随机的其他第二弹幕主要是为了能够保证第一优先级、第二优先级、第三优先级的第二弹幕和随机的其他第二弹幕之和等于预设最大弹幕显示量，并在用户设置预设最大弹幕显示量时，不会使显示的弹幕数量出现明显的断层。

当所述预设最大弹幕显示量小于第一优先级、第二优先级、第三优先级之和的第二弹幕数量时，随机的第三优先等级的第二弹幕与第一优先级、第二优先级的第二弹幕之和等于预设最大弹幕显示量。

当所述预设最大弹幕显示量小于第一优先级、第二优先级之和的第二弹幕数量时，第一优先级的第二弹幕与随机的第二优先等级的第二弹幕之和等于预设最大弹幕显示量。

当所述预设最大弹幕显示量小于第一优先级时，随机的第一优先级的弹幕等于预设最大弹幕显示量。

其中单位时间应显示的第二弹幕的数量可为在不过滤的情况下，第二弹幕在标准速度的情况下在用户终端上以截图形式而可数出的第二弹幕的数量，而预设最大弹幕显示量是上述可数出的第二弹幕的数量的上限，以保证各个弹幕不会重叠而使用户无法看清弹幕。上述预设最大弹幕显示量、弹幕的标准速度可根据优酷、斗鱼平台获取，此处不赘述。

其中，当所述预设最大弹幕显示量大于第一优先级、第二优先级、第三优先级的第二弹幕时，则发送第一优先级、第二优先级、第三优先级的第二弹幕和随机抽取的第二弹幕，

其中，预设最大弹幕显示量可为屏幕上同时出现1、2、3、4、5、6、7、8、9、10、12、13、15、20、25、30、35条弹幕。

其中，所述第一预设时间可3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20秒，也就是说，弹幕关联匹配模块可将第二弹幕输入前的20秒至输入时的任意一句第二文本信息与第一文本信息相对比，若其宾语相匹配，则该第二弹幕为第一优先级，并在用户屏幕较小或用户选择弹幕量较少的时候，仅仅将第一优先级的第二弹幕与流媒体合成发送至用户终端。

其中，所述时间轨道可以理解为直播、录播的视频、音频的进度条。

用户终端，其用于发送弹幕和浏览弹幕；

其中，所述文本成分分析模块可根据现有技术中的翻译软件而得出，也就是说，翻译软件可以识别主谓宾，并将其翻译成外文，那么，只用其标注第一文本信息、第二文本信息那就是现有技术。

弹幕输入模块可为用户终端。

优选地，所述文本成分分析模块与第二数据库连接，所述文本成分分析模块用于将所述第一文本信息、第二文本信息中的每1或2个连续的字与所述第二数据库中的第三信息对比，若匹配，则将第一文本信息、第二文本信息中的匹配的1或2个连续的字定义为谓语，将所述第一文本信息、第二文本信息中的匹配的1或2个连续的字之前的字定义为主语，将所述文本信息中的匹配的1或2个连续的字之后的字定义为宾语。

本发明通过上述方式可更加简单、快速地将所述第一文本的信息、第二文本信息的谓语找到，并将其相邻的主语、宾语找到，从而可以相同的识别方法对于第一文本信息、第二文本信息进行相应的主语、宾语识别，从而使其更加容易被判定是否匹配。例如，第二数据库中的谓语有“爱”、“打”、“吃”，当第一文本信息或第二文本信息为“我爱你”时，所述文本成分分析模块将“我”、“爱”、“你”，分别与“爱”进行对比，其中“爱”与“爱”匹配，则将“爱”定义为谓语，“我”定义为主语，“你”定义为宾语，从而将所述识别上述语句成分。需要说明的是，本发明的识别方式中不排除会出现被动、状语、定语的部分，其都可认为是主语或宾语的一部分，而进行第一文本信息、第二文本信息之间的匹配。

优选地，所述弹幕关联匹配模块与第三数据库连接，所述第三数据库为同义词数据库，第三数据库与弹幕输入模块连接，所述第三数据库用于存储第一优先级、第二优先级、第三优先级的第二弹幕，当所述弹幕关联匹配模块检测到弹幕输入模块输入的第一弹幕与所述第一优先级、第二优先级、第三优先级的第二弹幕相匹配时，将所述第一弹幕的文本信息的同义词转化为第三文本信息，并以第一时间信息生成第三弹幕。

本发明通过上述方式可将本系统具有自我学习能力，也就是说，可将最终匹配出的第一优先级、第二优先级、第三优先级的第二弹幕作为一个标准而将与其相同的信息的同义词自动转化为第三弹幕。一方面说，直接将其转化为第三弹幕可降低其他模块的工作量并且适合更大数据弹幕的处理，另一方面说，不直接将其转化为第三弹幕，而是将其转化为其同义词，可让用户有着更好、更丰富的弹幕内容体验。

第一弹幕的文本信息可以理解为第一文本信息。

当所述弹幕关联匹配模块检测到弹幕输入模块输入的第一弹幕与所述第一优先级、第二优先级、第三优先级的第二弹幕相匹配时，所述匹配可理解为相同。

使用时，如果弹幕关联匹配模块判定“我爱你”为第一优先级的第二弹幕，那么在弹幕输入模块再次输入“我爱你”时，所述弹幕关联匹配模块根据第三数据库而将“我爱你”生成为“我喜欢你”并将其输出为第三弹幕。

输入第一弹幕；

当然，本发明的一种变形还可为：一种互联网流媒体大数据弹幕信息处理系统，包括

弹幕输入模块，其用于输入第一弹幕；

用户终端，其用于显示弹幕、显示流媒体。

其中，所述视频转换文字模块，其用于流媒体的视频内容实时转换为第二信息可理解为，将所述视频上出现的可转化为文字信息的东西转化为带有第二时间信息的第二文本信息，也就是第二信息。

其中，所述可实时转换的流媒体的视频内容超过1秒、2秒、3秒、4秒、或5秒才可实际转换为第二信息，也就避免了视频上突然出现的，复杂的图像被判定为第二信息而被匹配，从而降低了弹幕关联匹配模块的工作量。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案作出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种互联网流媒体大数据弹幕信息处理系统，其特征在于：包括

弹幕输入模块，其用于输入第一弹幕；

用户终端，其用于显示弹幕、显示流媒体。

2.根据权利要求1所述的互联网流媒体大数据弹幕信息处理系统，其特征在于：所述文本成分分析模块与第二数据库连接，所述文本成分分析模块用于将所述第一文本信息、第二文本信息中的每1或2个连续的字与所述第二数据库中的第三信息对比，若匹配，则将第一文本信息、第二文本信息中的匹配的1或2个连续的字定义为谓语，将所述第一文本信息、第二文本信息中的匹配的1或2个连续的字之前的字定义为主语，将所述文本信息中的匹配的1或2个连续的字之后的字定义为宾语。

3.根据权利要求2所述的互联网流媒体大数据弹幕信息处理系统，其特征在于：所述弹幕关联匹配模块与第三数据库连接，所述第三数据库为同义词数据库，第三数据库与弹幕输入模块连接，所述第三数据库用于存储第一优先级、第二优先级、第三优先级的第二弹幕，当所述弹幕关联匹配模块检测到弹幕输入模块输入的第一弹幕与所述第一优先级、第二优先级、第三优先级的第二弹幕相匹配时，将所述第一弹幕的文本信息的同义词转化为第三文本信息，并以第一时间信息生成第三弹幕。

4.利用权利要求3所述的互联网流媒体大数据弹幕信息处理系统的处理方法，其特征在于包括如下步骤：

输入第一弹幕；

5.一种互联网流媒体大数据弹幕信息处理系统，其特征在于：包括

弹幕输入模块，其用于输入第一弹幕；

用户终端，其用于显示弹幕、显示流媒体。