CN109195022B

CN109195022B - 一种语音弹幕系统

Info

Publication number: CN109195022B
Application number: CN201811070964.8A
Authority: CN
Inventors: 王春晖; 殷恋珊
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-09-14
Filing date: 2018-09-14
Publication date: 2021-03-02
Anticipated expiration: 2038-09-14
Also published as: CN109195022A

Abstract

本发明提供一种语音弹幕系统，客户端能够以弹幕的形式播放所述弹幕信息，简化了用户发送弹幕的处理流程，而且所述弹幕信息可为语音信号或文本内容，改善了现有的弹幕都是均以文字的形式呈现、用户需要在发布弹幕信息时只能输入文字，使得弹幕的发布效率较低，给用户造成了不便的问题。同时通过设立用户属性处理数据库端，储存以及处理每个客户端标识信息，以及判断每个客户端标识信息之间是否有关联性用户；实现可以选择出与用户存在某些特定关系的用户进行弹幕交流，使得用户之间能进行较好的语音交互，弹幕发布速度更加便捷；减少了文字弹幕对屏幕的遮盖，并且由于采用艺术形像进行语音弹幕表达，从而可以获得更好的交互体验。

Description

一种语音弹幕系统

技术领域

本发明涉及弹幕系统领域，尤指一种语音弹幕系统。

背景技术

弹幕，是指直接显示在视频播放画面上的评论，它可以以滚动、停留或其它动作特效方式出现在视频播放画面上。随着网络多媒体技术的发展，弹幕技术被广泛应用于视频网站中。

区别于传统的视频网站仅在播放器下方的专用点评区显示用户发表的内容，具有弹幕交互功能的视频网站还可以以滑动字幕的方式将用户发表的评论显示在播放器的视频画面上，以使视频观看者都能注意到，从而增加观看乐趣。

现有技术中，在弹幕交互功能开启之后，会在播放器的视频画面上无差异地显示各用户发表的评论，用户无法仅与存在某些特定关系的用户进行弹幕交流；现有的弹幕都是以文字的形式呈现的，使得用户需要在发布弹幕信息时需要输入文字，不仅使得弹幕的发布效率较低，还给用户造成了不便。

发明内容

为解决上述问题，本发明提供一种语音弹幕系统，以弹幕的形式播放所述弹幕信号，极大的简化了用户发送弹幕的处理流程；同时选择出与用户存在某些特定关系的用户进行弹幕交流。使得用户之间能进行较好的语音交互，弹幕发布速度更加便捷；减少了文字弹幕对屏幕的遮盖，从而可以获得更好的交互体验。

为实现上述目的，本发明采用的技术方案是提供一种语音弹幕系统，包括客户端、服务器、网络模块，其中所述客户端通过网络模块与服务器进行数据交互；

所述客户端包括弹幕信号接收单元，用于接收用户输入与当前视频对应的弹幕信号；弹幕信号上传单元，用于将所述弹幕信号以及所述当前视频的当前视频索引信息、当前客户端的客户端标识信息上传到所述服务器；弹幕请求指令发送单元，用于在当前视频开始播放时或播放过程中监测到弹幕播放事件被触发时，向所述服务器发送弹幕获取请求，所述弹幕获取请求中携带有所述当前视频的视频索引信息、当前客户端的客户端标识信息；

所述服务器包括弹幕处理数据库端，用于储存以及处理各个视频索引信息，以及每个视频索引信息对应的弹幕信号、对应的客户端标识信息；

弹幕请求指令获取单元，用于获取客户端中弹幕请求指令发送单元发送的弹幕获取请求，并将弹幕获取请求中携带的当前视频的视频索引信息储存至弹幕处理数据库端进行处理，以及将弹幕获取请求中携带的当前客户端的客户端标识信息储存至用户属性处理数据库端进行处理；

用户属性处理数据库端，用于储存以及处理每个客户端标识信息，以及判断每个客户端标识信息之间是否有关联性；

弹幕内容发送单元，用于经过处理的弹幕信号返回所述客户端，以使所述客户端在播放所述当前视频时播放所述弹幕信号；

其中所述弹幕信号包括语音信号或文本内容。

进一步，所述语音弹幕系统的操作方法包括以下步骤：

步骤S101:所述客户端通过语音信号接收单元接收用户输入的与当前视频对应的弹幕信号；

步骤S102:所述语音信号上传单元将所述弹幕信号以及所述当前视频的当前视频索引信息以及当前客户端的客户端标识信息上传到所述服务器；

步骤S103:语音弹幕处理数据库端储存步骤S102发送来的所述弹幕信号以及所述当前视频的当前视频索引信息；同时所述用户属性数据库端储存步骤S102发送来的当前客户端的客户端标识信息；

步骤S104：用户的客户端在当前视频开始播放时或播放过程中监测到弹幕播放事件被触发时，通过弹幕获取请求单元向所述服务器发送弹幕获取请求，其中弹幕获取请求中携带有所述当前视频的当前视频索引信息以及自身客户端的客户端标识信息；

步骤S105：弹幕请求指令获取单元获取客户端中弹幕请求指令发送单元发送的弹幕获取请求，并将弹幕获取请求中携带的当前视频的视频索引信息储存至弹幕处理数据库端进行处理，以及将弹幕获取请求中携带的当前客户端的客户端标识信息储存至用户属性处理数据库端进行处理；

步骤S106：用户属性处理数据库端查找与用户的客户端标识信息、其他用户的客户端标识信息，并将其发送至弹幕处理数据库端；

步骤S107：弹幕处理数据库端筛选出与弹幕获取请求携带的视频索引信息相同的视频索引信息，同时在含有该视频索引信息的弹幕信号中筛选出具有与用户属性处理数据库端发送来的客户端标识信息对应的语音信号；

步骤S108：弹幕内容发送单元将经过步骤S107筛选出来的的弹幕信号返回所述客户端，以使所述客户端在播放所述当前视频时播放所述弹幕信号。

进一步，所述所述客户端还包括弹幕信号评价单元，其中用户通过弹幕信号评价单元对接收到的弹幕信号进行评价，并把关于所述弹幕信号的评价发送到弹幕处理数据库端存储。

进一步，所述服务器包括人工智能处理单元，所述人工智能处理单元用于将弹幕处理数据库端储存的语音信号转化为文本内容；或将弹幕处理数据库端储存的文本内容转化为语音信号；或将弹幕处理数据库端储存的语音信息转化为文本内容，并将现有的文本内容与经过转化的文本内容进行语义分析，并按相同语义将多个的文本内容归类到同一文字弹幕集合；然后选出文本内容数量最多的一个或多个文字弹幕集合，并从一个或多个的文字弹幕集合中各自筛选出最具有代表性的文本内容，再将其文本内容转化为语音信号。

进一步，所述服务器还包括智能问答处理数据库端，所述智能问答处理数据库端存储有预先准备的问题文本内容、以及对应的回答文本内容；其中智能问答处理数据库端将弹幕处理数据库端储存的文本内容与问题文本内容进行语义分析，若语义相同，则输出对应的回答文本内容，所述智能问答处理数据库端将对应的回答文本内容转化为回答语音信号；或智能问答处理数据库端将弹幕处理数据库端储存的语音信号转化为文本内容，经过转化后的文本内容与问题文本内容进行语义分析，若语义相同，则输出对应的回答文本内容，所述智能问答处理数据库端将对应的回答文本内容转化为回答语音信号。

进一步，所述客户端还包括语音信息调节子单元，所述语音信息调节子单元对弹幕内容发送单元返回的语音信号进行声调和/或音色调节。

进一步，所述客户端还包括音频信号强度提取单元，用于提取由弹幕内容发送单元返回的语音信号的音频信号强度，以及当前视频的音频信号强度；

音频信号强度对比单元，用于对比由弹幕内容发送单元返回的语音信号的音频信号强度和当前视频的音频信号强度；

音频信号强度处理单元，用于降低由弹幕内容发送单元返回的语音信号的音频信号强度，得到处理后的语音信号的音频信号强度，所述处理后的语音信号的音频信号强度小于所述当前视频的音频信号强度。

进一步，所述服务器还包括艺术形像表达端，所述艺术形像表达端包括艺术形象学习单元、弹幕语义数据分析输入端、视频图像采集输入端、视频声音采集输入端、性格参数设定输入端、艺术形象动画生成模块，弹幕语义数据分析输入端将接收到的语音信号分析其语义，再将其弹幕语义数据发送至艺术形象学习单元；视频图像采集输入端采集当前视频的图像并将其图像数据发送至艺术形象学习单元；视频声音采集输入端采集当前视频的声音并将其声音数据发送至艺术形象学习单元；性格参数设定输入端采集用户设定艺术形象的性格参数并将其艺术形象的性格参数发送至艺术形象学习单元；艺术形象学习单元将收集到的数据进行分析处理并发送至艺术形象动画生成模块；艺术形象动画生成模块输出艺术形象至客户端播放。

进一步，所述艺术形像表达端的工作过程包括以下步骤：

步骤S201:其中弹幕语义数据分析输入端将由服务器返回至客户端的弹幕信号进行语义分析，同时将其语义数据发送至艺术形象学习单元；

步骤S202:视频声音采集输入端采集当前视频的声音并将其音频数据发送至艺术形象学习单元；视频图像采集输入端采集当前视频的图像并将其图像数据发送至艺术形象学习单元；

步骤S203:性格参数设定输入端采集用户设定艺术形象的性格参数并将其艺术形象的性格参数发送至艺术形象学习单元；

步骤S204:所述艺术形象学习单元输出艺术形象并通过弹幕内容发送单元并发送至客户端

本发明的有益效果在于：本发明通过所述客户端接收用户输入的与当前视频对应的弹幕信号，将所述弹幕信号与所述当前视频的视频索引信息上传到所述服务器，以使所述服务器将所述弹幕信号作为与所述当前视频对应的弹幕内容进行存储，在接收到包括所述当前视频的视频索引信息的弹幕获取请求时，根据所述当前视频的视频索引信息，查找并向发送所述弹幕获取请求的客户端返回与所述当前视频对应的弹幕内容，从而使得所述客户端能够以弹幕的形式播放所述弹幕信号，极大的简化了用户发送弹幕的处理流程，而且所述弹幕信号可为语音信号或文本内容，改善了现有的弹幕都是均以文字的形式呈现的，用户需要在发布弹幕信息时只能输入文字，弹幕的发布效率较低，给用户造成了不便的问题。

此外，本发明同时通过设立用户属性处理数据库端，储存以及处理每个客户端标识信息，以及判断每个客户端标识信息之间是否有关联性用户；用户属性处理数据库端查找与用户的客户端标识信息相同的客户端标识信息、与用户的客户端标识信息相关联的关联客户端标识信息（与用户的客户端标识信息相关联的关联客户端标识信息即表示用户与用户之间的好友关系），并将其发送至弹幕处理数据库端；弹幕处理数据库端筛选出与弹幕获取请求携带的视频索引信息相同的视频索引信息，同时在含有该视频索引信息的弹幕信号中筛选出具有与用户属性处理数据库端发送来的客户端标识信息对应的语音信号；弹幕内容发送单元将经过筛选出来的的语音信号返回所述客户端，以使所述客户端在播放所述当前视频时播放所述语音信号；故实现了可以选择出与用户存在某些特定关系的用户进行弹幕交流。使得用户之间能进行较好的语音交互，弹幕发布速度更加便捷；减少了文字弹幕对屏幕的遮盖，并且由于采用艺术形像进行语音弹幕表达，从而可以获得更好的交互体验。

附图说明

图1 是本发明实施例提供的语音弹幕系统的总结构示意框图。

图2 是本发明实施例提供的语音弹幕系统的另一总结构示意框图。

图3 是本发明实施例四种播放模式中的逻辑流程框图。

图4 是本发明实施例人工智能处理单元的工作逻辑流程框图。

图5是本发明实施例艺术形像表达端的结构示意框图。

图6是本发明实施例客户端的显示界面图。

图7是本发明实施例艺术形像表达端弹幕语义流程图。

图8是本发明实施例艺术形像表达端的艺术形像准备流程图。

图9是本发明实施例艺术形像表达端的艺术形像训练的流程图。

附图标号说明：1.客户端；11.弹幕信号接收单元；12.弹幕信号上传单元；13.弹幕请求指令发送单元；2.服务器；20.艺术形像表达端；201.弹幕语义数据分析输入端；202.视频声音采集输入端；203.视频图像采集输入端；204.性格参数设定输入端；205.语音声调声量深度学习神经网络选择端；206.面部表情数据及其深度学习神经网络选择端；207.肢体语言数据及其深度学习神经网络选择端；208.艺术形象动画生成模块；21.用户属性处理数据库端；22.弹幕处理数据库端；23.智能问答处理数据库端；24.弹幕请求指令获取单元；25.弹幕内容发送单元；3.网络模块。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1-6所示，下面通过具体实施方式对本发明作进一步说明。一种语音弹幕系统，包括客户端1、服务器2、网络模块3，其中所述客户端1通过网络模块3与服务器2进行数据交互；

所述客户端1包括弹幕信号接收单元11，用于接收用户输入与当前视频对应的弹幕信号；弹幕信号上传单元12，用于将所述弹幕信号以及所述当前视频的当前视频索引信息、当前客户端1的客户端标识信息上传到所述服务器2；弹幕请求指令发送单元13，用于在当前视频开始播放时或播放过程中监测到弹幕播放事件被触发时，向所述服务器2发送弹幕获取请求，所述弹幕获取请求中携带有所述当前视频的视频索引信息、当前客户端1的客户端标识信息；

所述服务器2包括弹幕处理数据库端22，用于储存以及处理各个视频索引信息，以及每个视频索引信息对应的弹幕信号、对应的客户端标识信息；

弹幕请求指令获取单元24，用于获取客户端1中弹幕请求指令发送单元13发送的弹幕获取请求，并将弹幕获取请求中携带的当前视频的视频索引信息储存至弹幕处理数据库端22进行处理，以及将弹幕获取请求中携带的当前客户端1的客户端标识信息储存至用户属性处理数据库端21进行处理；

用户属性处理数据库端21，用于储存以及处理每个客户端标识信息，以及判断每个客户端标识信息之间是否有关联性；

弹幕内容发送单元25，用于经过处理的弹幕信号返回所述客户端1，以使所述客户端1在播放所述当前视频时播放所述弹幕信号；

所述弹幕信号可为语音信号或文本内容。

其中用户由客户端1发送弹幕至服务器2的过程(假设用户发送的是语音信号)：

步骤S101:所述客户端1通过弹幕信号接收单元11接收用户输入的与当前视频对应的语音信号；

步骤S102:所述弹幕信号上传单元12将所述语音信号以及所述当前视频的当前视频索引信息（视频索引信息包含当前视频的基本属性参数以及发送语音信号时的时间节点）以及当前客户端1的客户端标识信息（每个客户端1都有唯一的客户端标识信息，用于分辨不同的客户端1）上传到所述服务器2；

步骤S103:弹幕处理数据库端22储存步骤S102发送来的所述语音信号以及所述当前视频的视频索引信息；同时所述用户属性处理数据库端21储存步骤S102发送来的当前客户端1的客户端标识信息；

以上步骤即完成了用户由客户端1发送弹幕至服务器2的过程(假设弹幕是语音信号)；

请参阅图1-3所示，以下描述用户接收弹幕的播放模式，其中在用户客户端1上设有对应的播放模式选择操作界面，用户可以通过播放模式选择操作界面选择适合的弹幕的播放模式：

弹幕播放模式一：用户只显示好友以及自身的弹幕的过程：（假设好友以及自身的弹幕均为语音信号）

步骤S104a：用户的客户端1在当前视频开始播放时或播放过程中监测到弹幕播放事件被触发时，通过弹幕获取请求单元向所述服务器2发送弹幕获取请求，其中弹幕获取请求中携带有所述当前视频的当前视频索引信息以及自身客户端1的客户端标识信息；

步骤S105a：弹幕请求指令获取单元24获取客户端1中弹幕请求指令发送单元13发送的弹幕获取请求，并将弹幕获取请求中携带的当前视频的视频索引信息储存至弹幕处理数据库端22进行处理，以及将弹幕获取请求中携带的当前客户端1的客户端标识信息储存至用户属性处理数据库端21进行处理；

步骤S106a：用户属性处理数据库端21查找与用户的客户端标识信息相同的客户端标识信息、与用户的客户端标识信息相关联的关联客户端标识信息（与用户的客户端标识信息相关联的关联客户端标识信息即表示用户与用户之间的好友关系），并将其发送至弹幕处理数据库端22；

步骤S107a：弹幕处理数据库端22筛选出与弹幕获取请求携带的视频索引信息相同的视频索引信息，同时在含有该视频索引信息的弹幕信号中筛选出具有与用户属性处理数据库端21发送来的客户端标识信息对应的语音信号；

步骤S108a：弹幕内容发送单元25将经过筛选出来的的语音信号返回所述客户端1，以使所述客户端1在播放所述当前视频时播放所述语音信号。

为了便于用户操作，所述客户端1设置有弹幕播放按钮，用户在所述客户端1观看视频的过程中，需要接受弹幕内容时，可以通过所述弹幕播放按钮触发弹幕播放事件，而当所述客户端1监测到弹幕播放事件被触发时，向所述服务器2发送弹幕获取请求。

所述客户端1的标识信息可以为用户登录所述客户端1的用户名，则当用户在上传语音信号时，不仅会上传当前视频的视频索引信息，还会上传用户的用户名。而每个用户均可以添加其他用户为好友，则所述服务器2中会存储不同用户的用户名之间的关联关系。则当客户端1在接收服务器2发送的弹幕内容时，可以选择只接收与登录该客户端1的用户名关联的用户名所对应的弹幕内容。而在实践过程中，可以在所述服务器2中数据库端中建立所述客户端1的标识信息之间的关联关系。这样子可以减少了文字弹幕对屏幕的遮盖，从而可以获得更好的交互体验。

请参阅图1-3所示，弹幕播放模式二：用户客户端1随机播放弹幕的过程：

步骤S104b：用户的客户端1在当前视频开始播放时或播放过程中监测到弹幕播放事件被触发时，通过弹幕获取请求单元向所述服务器2发送弹幕获取请求，其中弹幕获取请求中携带有所述当前视频的当前视频索引信息以及自身客户端1的客户端标识信息；

步骤S105b：弹幕请求指令获取单元24获取客户端1中弹幕请求指令发送单元13发送的弹幕获取请求，并将弹幕获取请求中携带的当前视频的视频索引信息储存至弹幕处理数据库端22进行处理，以及将弹幕获取请求中携带的当前客户端1的客户端标识信息储存至用户属性处理数据库端21进行处理；

步骤S106b：用户属性处理数据库端21查找与用户的客户端标识信息相同的客户端标识信息、查找任意数目的客户端标识信息（任意数目的客户端标识信息少于用户属性处理数据库端21中客户端标识信息的总数），并将其发送至弹幕处理数据库端22；

步骤S107b：弹幕处理数据库端22筛选出与弹幕获取请求携带的视频索引信息相同的视频索引信息，同时在含有该视频索引信息的弹幕信号中筛选出具有与用户属性处理数据库端21发送来的客户端标识信息对应的弹幕信号；

步骤S108b：弹幕内容发送单元25将经过筛选出来的的语音信号返回所述客户端1，以使所述客户端1在播放所述当前视频时播放所述弹幕信号。

其中在模式2中提及到的弹幕信号为语音信号或文本内容；其中用户选择模式2采用随机播放的方式播放弹幕，减少了文字弹幕对屏幕的遮盖，从而可以获得更好的交互体验。

请参阅图1-4所示，弹幕播放模式三：用户客户端1播放经过人工智能处理单元处理后的弹幕的过程，其中人工智能处理单元也可以细分为三种方案供用户选择：1.将所有的语音信号转化为文本内容进行播放；2.将所有的文本内容转化为语音信号进行播放；3.将所有弹幕信号进行语义分析，并将语义相同的多个弹幕信号整合为一个文字弹幕集合，最终文字弹幕集合转化为语音语音信号进行播放；

所述服务器2包括人工智能处理单元，所述人工智能处理单元用于将弹幕处理数据库端22储存的语音信号转化为文本内容；或将弹幕处理数据库端22储存的文本内容转化为语音信号；或将弹幕处理数据库端22储存的语音信息转化为文本内容，并将现有的文本内容与经过转化的文本内容进行语义分析，并按相同语义将多个的文本内容归类到同一文字弹幕集合；然后选出文本内容数量最多的一个或多个文字弹幕集合，并从一个或多个的文字弹幕集合中各自筛选出最具有代表性的文本内容，再将其文本内容转化为语音信号。

以下描述的是第三种方案的实施过程，其他两种方案可参照人工智能处理单元的功能再结合以下实施过程进行类推。

步骤S104c：人工智能处理单元将弹幕处理数据库端22储存的语音信息转化为文本内容，并将现有的文本内容以及经过转化的文本内容进行语义分析，并按相同语义将多个的文本内容归类到同一文字弹幕集合；然后选出文本内容数量最多的一个或多个文字弹幕集合，并从一个或多个的文字弹幕集合中各自筛选出最具有代表性的文本内容，再将其文本内容转化为语音信号；

步骤S105c：用户的客户端1在当前视频开始播放时或播放过程中监测到弹幕播放事件被触发时，通过弹幕获取请求单元向所述服务器2发送弹幕获取请求，其中弹幕获取请求中携带有所述当前视频的视频索引信息以及自身客户端1的客户端标识信息；

步骤S106c：弹幕请求指令获取单元24获取客户端1中弹幕请求指令发送单元13发送的弹幕获取请求，并将弹幕获取请求中携带的当前视频的视频索引信息发送至弹幕处理数据库端22进行处理；同时将弹幕获取请求中携带的自身客户端1的客户端标识信息发送至用户熟悉处理数据库端进行处理；

步骤S107c：经过步骤S104c处理的弹幕处理数据库端22筛选出与弹幕获取请求中携带的视频索引信息相同的视频索引信息，同时筛选出含有该视频索引信息的弹幕信号；（并不用考虑客户端标识信息，因为已经经过了人工智能处理单元的处理，弹幕获取请求中携带的视频索引信息与经过步骤S104c处理的弹幕处理数据库端22内的视频索引信息相同即可）。

步骤S108c：弹幕内容发送单元25将经过筛选出来的的语音信号返回所述客户端1，以使所述客户端1在播放所述当前视频时播放所述弹幕信号。

上述实施例中，采用人工智能处理单元将弹幕处理数据库端22储存的语音信息转化为文本内容，并将现有的文本内容以及经过转化的文本内容进行语义分析，并按相同语义将多个的文本内容归类到同一文字弹幕集合；然后选出文本内容数量最多的一个或多个文字弹幕集合，并从一个或多个的文字弹幕集合中各自筛选出最具有代表性的文本内容，再将其文本内容转化为语音信号；这种方式可以避免给用户播放重复的弹幕，减少了文字弹幕对屏幕的遮盖，从而可以获得更好的交互体验。

弹幕播放模式四：用户进入问答模式，并通过智能问答处理数据库端23返回回答语音信号；(假设用户之前的提问是语音信号)。

所述服务器还包括智能问答处理数据库端23，所述智能问答处理数据库端23存储有预先准备的问题文本内容、以及对应的回答文本内容；其中智能问答处理数据库端23将弹幕处理数据库端22储存的文本内容与问题文本内容进行语义分析，若语义相同，则输出对应的回答文本内容，所述智能问答处理数据库端23将对应的回答文本内容转化为回答语音信号；或智能问答处理数据库端23将弹幕处理数据库端22储存的语音信号转化为文本内容，经过转化后的文本内容与问题文本内容进行语义分析，若语义相同，则输出对应的回答文本内容，所述智能问答处理数据库端将对应的回答文本内容转化为回答语音信号。

其中智能问答处理数据库端的处理过程为：

步骤S104d：用户的客户端1在当前视频开始播放时或播放过程中监测到弹幕播放事件被触发时，通过弹幕获取请求单元向所述服务器2发送弹幕获取请求，其中弹幕获取请求中携带有所述当前视频的视频索引信息以及自身客户端的客户端标识信息；

步骤S105d：弹幕请求指令获取单元24获取客户端1中弹幕请求指令发送单元13发送的弹幕获取请求，并将弹幕获取请求中携带的当前视频的视频索引信息发送至弹幕处理数据库端22进行处理；同时将自身客户端1的客户端标识信息发送至用户属性处理数据库端21处理；

步骤S106d：用户属性处理数据库端21查找与用户的客户端标识信息相同的客户端标识信息，并将其发送至弹幕处理数据库端22；

步骤S107d：弹幕处理数据库端22筛选出与弹幕获取请求携带的视频索引信息相同的视频索引信息，同时在含有该视频索引信息的弹幕信号中筛选出具有与用户属性处理数据库端21发送来的客户端标识信息对应的语音信号；

步骤S108d：智能问答处理数据库端23将经过步骤S107d处理后的的语音信号转化为文本内容，经过转化后的文本内容与问题文本内容进行语义分析，若语义相同，则输出对应的回答文本内容，所述智能问答处理数据库端23将对应的回答文本内容转化为回答语音信号;若语义不相同，则将其文本内容添加到智能问答处理数据库端23内；

步骤S109d：弹幕内容发送单元25将回答语音信号返回所述客户端1，以使所述客户端1在播放所述当前视频时播放所述回答语音信号。

智能问答处理数据库端23，在用户选择本模式后，通过向智能问答处理数据库端23提问，人工智能自动搜索答案并语音回答；如提问：主角名字，人工智能在网上查询结果后语音回答，模式四是人工智能知识助手的接口，可以在实际实现中根据需要舍取；

其中上述的四种播放模式中，还可以通过语音信息调节子单元对播放的语音信号进行调节；当用户在发布语音信号后，其他用户则可能通过所收听到的语音信号内容来判断出发布该语音信号的用户的真实身份，造成发布语音信号的用户的身份信息泄漏。而当所述客户端1对所述语音信号进行声调和/或音色调节后，所述语音信号的声调和/或音色则会有相应的改变，从而保证当用户在发布语音信号后，其他用户则不能通过所收听到的语音信号内容来判断出发布该语音信号的用户的真实身份。

如在弹幕播放模式一中，在步骤S108a之后还包括步骤S1081a：所述语音信息调节子单元对经过步骤S108a处理的语音信号进行声调和/或音色调节，并经过客户端1播出。

如在弹幕播放模式二中，在步骤S108b之后还包括步骤S1081b：所述语音信息调节子单元对经过步骤S108b处理的语音信号进行声调和/或音色调节，并经过客户端1播出。

如在弹幕播放模式三中，在步骤S108c之间还包括步骤S1081c：所述语音信息调节子单元对经过步骤S108c处理的语音信号进行声调和/或音色调节，并经过客户端1播出。

如在弹幕播放模式四中，在步骤S109d之间还包括步骤S1091d：所述语音信息调节子单元对经过步骤S109d处理的回答语音信号进行声调和/或音色调节，并经过客户端1播出。

进一步地，其中上述的四种播放模式中，为了避免语音弹幕与视频同时播放时，语音弹幕的音量大于当前视频的音量对观看有一定干扰；故通过音频信号强度提取单元，提取由弹幕内容发送单元25返回的语音信号的音频信号强度，以及当前视频的音频信号强度；通过音频信号强度对比单元，对比由弹幕内容发送单元25返回的语音信号的音频信号强度和当前视频的音频信号强度；通过音频信号强度处理单元，降低由弹幕内容发送单元25返回的语音信号的音频信号强度，得到处理后的语音信号的音频信号强度，所述处理后的语音信号的音频信号强度小于所述当前视频的音频信号强度；

上述的音频信号强度处理过程可对经过语音信息调节子单元的语音信号进行二次处理，或者音频信号强度处理。

请参阅图5所示，进一步所述服务器2还包括艺术形像表达端20，所述艺术形像表达端20包括艺术形象学习单元、弹幕语义数据分析输入端201、视频图像采集输入端203、视频声音采集输入端202、性格参数设定输入端204、艺术形象动画生成模块208，弹幕语义数据分析输入端201将接收到的语音信号分析其语义，再将其弹幕语义数据发送至艺术形象学习单元；视频图像采集输入端203采集当前视频的图像并将其图像数据发送至艺术形象学习单元；视频声音采集输入端202采集当前视频的声音并将其声音数据发送至艺术形象学习单元；性格参数设定输入端204采集用户设定艺术形象的性格参数并将其艺术形象的性格参数发送至艺术形象学习单元；艺术形象学习单元将收集到的数据进行分析处理并发送至艺术形象动画生成模块208；艺术形象动画生成模块208输出艺术形象至客户端1播放。

增加的艺术形像表达端20，可以上述播放模式中输出的弹幕信号转化为艺术形象表达，大大增加了弹幕信号的多样性。

其中，所述艺术形象学习单元包括语音声调声量深度学习神经网络选择端205、面部表情数据及其深度学习神经网络选择端206、肢体语言数据及其深度学习神经网络选择端207；

其中所述艺术形像表达端20的处理方法包括以下步骤：

步骤S201:其中弹幕语义数据分析输入端201将由上述4种播放模式中的任意一种输出的弹幕信号进行语义分析，同时将其语义数据发送至艺术形象学习单元；视频图像采集输入端203采集当前视频的图像并将其图像数据发送至艺术形象学习单元；视频声音采集输入端202采集当前视频的声音并将其声音数据发送至艺术形象学习单元；性格参数设定输入端204采集用户设定艺术形象的性格参数并将其艺术形象的性格参数发送至艺术形象学习单元；

步骤S202:所述艺术形象学习单元中的语音声调声量深度学习神经网络选择端205根据步骤S201采集以及设置的数据，输出艺术形象的语音声调声量并发送至艺术形象动画生成模块208；

同时所述艺术形象学习单元中的面部表情数据及其深度学习神经网络选择端206根据步骤S201采集以及设置的数据，输出艺术形象的面部表情数据并发送至艺术形象动画生成模块208；

同时所述艺术形象学习单元中的肢体语言数据及其深度学习神经网络选择端207根据步骤S201采集以及设置的数据，输出艺术形象的肢体语言数据并发送至艺术形象动画生成模块208；

步骤S203:所述艺术形象动画生成模块208生成艺术形象动画并通过弹幕内容发送单元25发送至客户端1。

本实施例中，所述客户端1还包括弹幕信号评价单元，其中用户通过弹幕信号评价单元对接收到的弹幕信号进行评价，并把关于所述弹幕信号的评价发送到弹幕处理数据库端22存储；用户可以通过客户端1的弹幕信号评价单元对发送至客户端1显示的弹幕信号或艺术形象动画进行评价。

请参考下图7-9,列举艺术形像表达端20的另外一种处理方法，其中在本处理方式中，艺术形象是在服务器2提前准备好的，是在提供给用户使用前进行准备；所述艺术形像表达端的内核是语音声调声量深度学习神经网络选择端205、面部表情数据及其深度学习神经网络选择端206、肢体语言数据及其深度学习神经网络选择端207，故需要先进行训练学习才能识别出不同语义并进行符合艺术形像性格要求的动画表达；参考图8，先需要艺术形象的准备，然后开始训练艺术形象，训练完成后即输出准备好的艺术形象。

其中艺术形象训练的过程请参考下图9，包括以下步骤：步骤S301:其中弹幕语义数据分析输入端201将弹幕信号进行语义分析，同时将其语义数据发送至艺术形象学习单元；视频图像采集输入端203采集当前视频的图像并将其图像数据发送至艺术形象学习单元；视频声音采集输入端202采集当前视频的声音并将其声音数据发送至艺术形象学习单元；性格参数设定输入端204采集用户设定艺术形象的性格参数并将其艺术形象的性格参数发送至艺术形象学习单元；

步骤S302:所述艺术形象学习单元中的语音声调声量深度学习神经网络选择端205根据步骤S301采集以及设置的数据，输出艺术形象的语音声调声量并发送至艺术形象动画生成模块208；同时所述艺术形象学习单元中的面部表情数据及其深度学习神经网络选择端206根据步骤S201采集以及设置的数据，输出艺术形象的面部表情数据并发送至艺术形象动画生成模块208；同时所述艺术形象学习单元中的肢体语言数据及其深度学习神经网络选择端207根据步骤S201采集以及设置的数据，输出艺术形象的肢体语言数据并储存至艺术形象动画生成模块208；

步骤S303:所述艺术形象动画生成模块208生成经过训练的艺术形象动画并储存至弹幕处理数据库端；

参考图7，在提交给用户时，不进行训练学习；弹幕语义数据分析输入端201对用户的弹幕信号进行语义分析，同时服务器2会获取用户对语音弹幕播放频率的设置；再根据获取弹幕语义次数强度调用对应的训练好的艺术形象，再输出艺术形象至客户端播放；但服务器可以收集用户对艺术形像的表达效果评价信息，再对艺术形像的表达方式进行进化式的训练学习，使其在提交给用户使用时，用户能获得更好体验；

参考图9，比如弹幕信号评价单元对发送至客户端1显示艺术形象动画进行评价，假如用户对某个艺术形象的评价评分十分低，则对于某个语义所表达出来的艺术形象重新的训练，则重新的训练是在上述的艺术形象训练的过程步骤；其中在步骤S301的基础上通过弹幕信号评价单元对艺术形象的评价参数发送至艺术形象学习单元；即重新训练的步骤S301:其中弹幕语义数据分析输入端201将弹幕信号进行语义分析，同时将其语义数据发送至艺术形象学习单元；视频图像采集输入端203采集当前视频的图像并将其图像数据发送至艺术形象学习单元；视频声音采集输入端202采集当前视频的声音并将其声音数据发送至艺术形象学习单元；性格参数设定输入端204采集用户设定艺术形象的性格参数并将其艺术形象的性格参数发送至艺术形象学习单元；弹幕信号评价单元对艺术形象的评价参数发送至艺术形象学习单元；其他的步骤与上述的雷同故不在累赘陈述。

以上实施方式仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通工程技术人员对本发明的技术方案作出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。

Claims

1.一种语音弹幕系统，其特征在于：包括客户端、服务器、网络模块，其中所述客户端通过网络模块与服务器进行数据交互；

所述服务器还包括艺术形像表达端，所述艺术形像表达端包括艺术形象学习单元、弹幕语义数据分析输入端、视频图像采集输入端、视频声音采集输入端、性格参数设定输入端、艺术形象动画生成模块，弹幕语义数据分析输入端将接收到的语音信号分析其语义，再将其弹幕语义数据发送至艺术形象学习单元；视频图像采集输入端采集当前视频的图像并将其图像数据发送至艺术形象学习单元；视频声音采集输入端采集当前视频的声音并将其声音数据发送至艺术形象学习单元；性格参数设定输入端采集用户设定艺术形象的性格参数并将其艺术形象的性格参数发送至艺术形象学习单元；艺术形象学习单元将收集到的数据进行分析处理并发送至艺术形象动画生成模块；艺术形象动画生成模块输出艺术形象至客户端播放；

弹幕内容发送单元，用于将经过处理的弹幕信号返回所述客户端，以使所述客户端在播放所述当前视频时播放所述弹幕信号；

其中所述弹幕信号包括语音信号或文本内容。

2.根据权利要求1所述的一种语音弹幕系统，其特征在于：所述所述客户端还包括弹幕信号评价单元，其中用户通过弹幕信号评价单元对接收到的弹幕信号进行评价，并把关于所述弹幕信号的评价发送到弹幕处理数据库端存储。

3.根据权利要求1所述的一种语音弹幕系统，其特征在于：所述服务器还包括人工智能处理单元，所述人工智能处理单元用于将弹幕处理数据库端储存的语音信号转化为文本内容；或将弹幕处理数据库端储存的文本内容转化为语音信号；或将弹幕处理数据库端储存的语音信息转化为文本内容，并将现有的文本内容与经过转化的文本内容进行语义分析，并按相同语义将多个的文本内容归类到同一文字弹幕集合；然后选出文本内容数量最多的一个或多个文字弹幕集合，并从一个或多个的文字弹幕集合中各自筛选出最具有代表性的文本内容，再将其文本内容转化为语音信号。

4.根据权利要求1所述的一种语音弹幕系统，其特征在于：所述服务器还包括智能问答处理数据库端，所述智能问答处理数据库端存储有预先准备的问题文本内容、以及对应的回答文本内容；其中智能问答处理数据库端将弹幕处理数据库端储存的文本内容与问题文本内容进行语义分析，若语义相同，则输出对应的回答文本内容，所述智能问答处理数据库端将对应的回答文本内容转化为回答语音信号；或智能问答处理数据库端将弹幕处理数据库端储存的语音信号转化为文本内容，经过转化后的文本内容与问题文本内容进行语义分析，若语义相同，则输出对应的回答文本内容，所述智能问答处理数据库端将对应的回答文本内容转化为回答语音信号。

5.根据权利要求1所述的一种语音弹幕系统，其特征在于：所述客户端还包括语音信息调节子单元，所述语音信息调节子单元对弹幕内容发送单元返回的语音信号进行声调和/或音色调节。

6.根据权利要求1所述的一种语音弹幕系统，其特征在于：所述客户端还包括音频信号强度提取单元，用于提取由弹幕内容发送单元返回的语音信号的音频信号强度，以及当前视频的音频信号强度；