CN108566565B

CN108566565B - 弹幕展示方法及装置

Info

Publication number: CN108566565B
Application number: CN201810292542.9A
Authority: CN
Inventors: 杨光; 王金钖; 潘青华; 王智国
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2021-08-17
Anticipated expiration: 2038-03-30
Also published as: CN108566565A

Abstract

本发明实施例提供一种弹幕展示方法及装置，属于视频直播技术领域。该方法包括：获取对语音数据进行识别后的识别文本，语音数据是通过采集直播参与者的发言所得到的；提取识别文本中的关键信息，展示关键信息对应的文本弹幕。本发明实施例通过提取识别文本中的关键信息，展示关键信息对应的文本弹幕。由于直播过程中发言人的发言也可通过文本弹幕进行显示，能够使得直播观众在听到发言人发言的同时，还能够看到发言人发言对应的文本弹幕，从而能够增强直播的节目效果。另外，相较于采用字幕的形式展示所有的发言内容，可展示发言中的关键信息，以使得观众能够注意到发言中的重点，从而进一步增强了直播的节目效果。

Description

弹幕展示方法及装置

技术领域

本发明实施例涉及视频直播技术领域，更具体地，涉及一种弹幕展示方法及装置。

背景技术

随着视频直播技术的飞速发展，网络直播越来越受到大众的欢迎。其中，弹幕功能为直播过程中流行的互动评论方式。目前，弹幕的展示形式主要有两种，其中一种是文本展示，即在直播或节目过程中，当视频内容的引发议论时，观众可以通过弹幕输入框发表自己的观点，节目发言人(主持人、嘉宾)及其他观众都可以在视频中看到该文本的弹幕内容；另一种是语音弹幕形式，即观众通过语音录下自己的观点并发表，其他参与人员都能听到该声音弹幕内容。目前弹幕均侧重于展现观众的评论和观点，而节目发言人作为直播的核心参与者，一般是将其完整说话内容通过实时字幕予以展示，并没有弹幕展示方式。因此，急需一种弹幕展示方法。

发明内容

为了解决上述问题，本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的弹幕展示方法及装置。

根据本发明实施例的第一方面，提供了一种弹幕展示方法，该方法包括：

获取对语音数据进行识别后的识别文本，语音数据是通过采集直播参与者的发言所得到的；

提取识别文本中的关键信息，展示关键信息对应的文本弹幕。

本发明实施例提供的方法，通过获取对语音数据进行识别后的识别文本，提取识别文本中的关键信息，展示关键信息对应的文本弹幕。由于直播过程中直播参与者的发言也可通过文本弹幕进行显示，从而能够使得观看观众在听到直播参与者发言的同时，还能够看到直播参与者发言对应的文本弹幕，从而能够增强直播的节目效果。另外，相较于通过字幕的形式展示所有的发言内容，可展示发言中的关键信息，以使得观众能够注意到发言中的重点，从而进一步增强了直播的节目效果。

根据本发明实施例的第二方面，提供了一种弹幕展示装置，该装置包括：

第一获取模块，用于获取对语音数据进行识别后的识别文本，语音数据是通过采集直播参与者的发言所得到的；

展示模块，用于提取识别文本中的关键信息，展示关键信息对应的文本弹幕。

根据本发明实施例的第三方面，提供了一种弹幕展示设备，包括：

至少一个处理器；以及

与处理器通信连接的至少一个存储器，其中：

存储器存储有可被处理器执行的程序指令，处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的弹幕展示方法。

根据本发明的第四方面，提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的弹幕展示方法。

应当理解的是，以上的一般描述和后文的细节描述是示例性和解释性的，并不能限制本发明实施例。

附图说明

图1为本发明实施例的一种弹幕展示方法的流程示意图；

图2为本发明实施例的一种弹幕展示方法的流程示意图；

图3为本发明实施例的一种弹幕展示方法的流程示意图；

图4为本发明实施例的一种弹幕展示方法的流程示意图；

图5为本发明实施例的一种弹幕展示的效果示意图；

图6为本发明实施例的一种弹幕展示的效果示意图；

图7为本发明实施例的一种弹幕展示装置的框图；

图8为本发明实施例的一种弹幕展示设备的框图。

具体实施方式

下面结合附图和实施例，对本发明实施例的具体实施方式作进一步详细描述。以下实施例用于说明本发明实施例，但不用来限制本发明实施例的范围。

目前弹幕的展示形式主要有两种，一种是文本弹幕形式，即在直播或节目过程中，当视频内容的引发议论时，观众可以通过弹幕输入框发表自己的观点，发言人(主持人、嘉宾)及其他观众都可以在视频中看到该文本弹幕；另一种是语音弹幕形式，即观众通过语音录下自己的观点并发表，其他参与人员都能听到该语音弹幕。而上述弹幕展示过程针对的一般是观众，而对于直播现场中的直播参与者，其讲话内容也同样需要通过文本弹幕的形式进行展示。针对上述情形，本发明实施例提供了一种弹幕展示方法。参见图1，该方法包括：101、获取对语音数据进行识别后的识别文本，语音数据是通过采集直播参与者的发言所得到的；102、提取识别文本中的关键信息，展示关键信息对应的文本弹幕。

由于直播现场中发言的直播参与者可能有多个，如综艺节目现场可能会有多位主持人及嘉宾均为直播参与者，从而为了便于描述，本发明实施例以其中一位直播参与者为例。在执行步骤101之前，可获取该直播参与者的语音数据。需要说明的是，实际实施过程中获取到的语音数据可能是包含多位直播参与者的发言，从而在执行步骤101之前，可先对语音数据进行端点检测，分别确定多个语音段的起始点和结束点。根据每一语音段的起始点和结束点，即可得到多个语音段。其中，每一语音段即对应一位直播参与者的一次发言。后续可以语音段为处理单位来执行步骤101，即获取对语音段进行识别后的识别文本，并执行后续的方法流程。

在获取到语音数据后，可对语音数据进行识别以得到识别文本。由于该直播参与者在发言时，一些发言内容可能会比较重要，可能会比较容易引起观众关注，从而这些发言内容可以作为关键信息。相应地，在步骤102中可提取识别文本中的关键信息，并展示关键信息对应的文本弹幕。

本发明实施例提供的方法，通过获取对语音数据进行识别后的识别文本，提取识别文本中的关键信息，展示关键信息对应的文本弹幕。由于直播过程中直播参与者的发言也可通过文本弹幕进行显示，从而能够使得观看观众在听到直播参与者发言的同时，还能够看到直播参与者发言对应的文本弹幕，从而能够增强直播的节目效果。另外，相较于通过字幕的形式展示所有的发言内容，可展示发言中的关键信息，以使得观众能够注意到发言中的重点，从而增强了直播的节目效果。

由上述实施例的内容可知，直播参与者可以为直播现场中的发言人(如主持人、嘉宾等)。而除了发言人之外，由于观看直播的观众可能会发送语音弹幕，而发言人在直播现场是无法听到语音弹幕的，与此同时，其它观看直播的观众在不方便收听语音的情况下也无法听到语音弹幕，从而观看直播的观众所发送的语音弹幕，同样需要转化为文本弹幕进行展示。因此，直播参与者还可以为观看直播且发送语音弹幕的观众。基于上述原理及上述实施例的内容，作为一种可选实施例，直播参与者为直播现场中的发言人，相应地，语音数据是通过采集发言人的发言所得到的；或者，直播参与者为观看直播且发送语音弹幕的观众，相应地，语音数据为观看直播的观众所发送的语音弹幕。

本发明实施例提供的方法，由于直播参与者可以为直播现场中的发言人，还可以为观看直播且发送语音弹幕的观众，从而使得直播现场的发言人在无法听到语音弹幕的情况下，能够看到语音弹幕对应的文本弹幕。另外，在观看直播的观众无法听到语音弹幕的情况下，可以选择看该语音弹幕的文本弹幕。因此，增强了直播的节目效果。

由于直播现场中通常存在多个发言人，且还可能存在一些与直播相关度不高的人，而实际实施过程中，这些与直播相关度不高的人其发言可能并不需要通过文本弹幕进行展示，如直播现场中工作人员的讲话，从而在获取对语音数据进行识别后的识别文本时，可对语音数据对应讲话者的身份进行确认，以便于确定是否执行后续方法流程。基于该原理及上述实施例的内容，作为一种可选实施例，本发明实施例不对获取对语音数据进行识别后的识别文本的方式作具体限定。参见图2，该方法包括：201、提取语音数据中的声纹特征，并将声纹特征与样本声纹特征进行匹配，每一样本声纹特征对应一种身份标记；202、获取与声纹特征相匹配的样本声纹特征所对应的身份标记，若身份标记为发言人，则对语音数据进行识别，得到识别文本。

由于人的发声具有特定性和稳定性，从而人发声对应的声纹特征一样具有身份识别(认定个人)的作用。而实际实施过程中，直播现场中通常只存在有限的人其语音数据需要转化为文本弹幕，如直播现场中发言人(主持人、嘉宾)等。由于这些发言人的身份都是预先确定的，从而可预先收集这些发言人的声纹特征并作为样本声纹特征。其中，每一样本声纹特征均对应一种身份标记。在提取到语音数据的声纹特征后，通过匹配过程可确定与该声纹特征相匹配的样本声纹特征，进而可确定相匹配的样本声纹特征所对应的身份标记。若身份标记为发言人，也即语音数据对应讲话者的身份为发言人，而发言人的发言是需要通过文本弹幕进行展示的，从而可对语音数据进行识别，得到识别文本。若身份标记不为发言人，则可不对语音数据进行识别，并中断对该语音数据的处理过程。

需要说明的是，由上述实施例可知，语音数据可以为发言人的发言，也可以为直播观众发送的语音弹幕。通过上述过程，即可识别出语音数据是否为发言人的发言。由于观看直播的观众是随机的，从而无法通过收集观众的声纹特征来识别直播观众的身份，也即无法按照上述方式确定直播观众的身份。针对该种情形，可以由语音数据中携带标记的方式来确定直播观众的身份。具体地，直播观众在发语音弹幕时可同时携带上直播观众对应的身份标记。若识别出语音数据不为发言人的发言，且检测到语音弹幕对应的语音数据中携带直播观众对应的身份标记，则可对语音数据进行识别，得到识别文本，并继续后续的处理流程。

本发明实施例提供的方法，通过提取语音数据中的声纹特征，并将声纹特征与样本声纹特征进行匹配。获取与声纹特征相匹配的样本声纹特征所对应的身份标记，若身份标记为发言人，则对语音数据进行识别，得到识别文本。由于可识别语音数据对应讲话者的身份，从而可保证在身份符合的情况下再进行语音识别，提高了处理效率。

考虑到识别文本中可能会存在识别错误的分词，这会导致后续展示内容错误的文本弹幕。与此同时，识别文本中一些分词的表达形式可能不太符合用户的阅读习惯，这会导致后续展示的文本弹幕中一些内容也不太符合用户的阅读习惯。另外，识别文本还可能会出现一些敏感词，如粗话、脏话、政治相关的论述等，这会导致后续展示的文本弹幕中也存在敏感词。针对上述情形，基于上述实施例的内容，作为一种可选实施例，本发明实施例提供了一种识别文本的处理方法，该方法包括：确定识别文本中每一分词的词置信度，过滤掉识别文本中词置信度低于第一预设阈值的分词；和/或，基于预设表达规则，对识别文本中分词的表达形式进行规整；和/或，基于预设替换规则及预设词，对识别文本中的分词进行替换。

在上述第一种处理方式中，可先通过语言模型确定识别文本中每一分词的词置信度。其中，词置信度的取值范围可以为0至1。取值越大，则对应置信度也就越高。在确定每一分词的词置信度后，即可过滤掉识别文本中词置信度低于第一预设阈值的分词。例如，以第一预设阈值为0.9，则可将词置信度低于0.9的分词，作为识别错误的分词，并将识别错误的分词过滤掉。

在上述第二种处理方式中，预设表达规则指代的是符合日常表达习惯的词语表达形式。例如，由于在日常生活中，手机号、商品价格、身份证号等用数字表示能够更加便于人们阅读，从而预设表达规则可以具体地为“手机号、商品价格、身份证号等用数字表示而非用汉字表示”。当识别文本中出现内容为数字且用汉字表示的分词时，可按照预设表达规则，对识别文本中分词的表达形式进行规整。例如，十九点五元，按照预设表达规则可表示为19.5元。

需要说明的是，预设表达规则不限于上述示例，还可以为“公式相关的内容用公式表达而非用汉字表达”，本发明实施例对此不作具体限定。例如，“三X加二Y等于十”实则为一个公式，按照预设表达规则可表示为3X+2Y＝10。

在基于预设表达规则对识别文本中分词的表达形式进行规整时，可先从大量语料中整理总结出预设表达规则。基于ABNF文法规则为每一种预设表达规则编写匹配策略，根据匹配策略即可从识别文本中匹配出需要规整的分词。在确定识别文本中需要规整的分词后，可根据每一种预设表达规则建立相应的处理函数，以用于规整识别文本。其中，预设表达规则对应的规整目标类型可以为表示数量大小的数值(如商品价格、商品数目等)、不分数量大小的字符串(如手机号、身份证号、银行卡号等)、用于特征场景的数字表达式(如日期、时间、数学公式等)等，本发明实施例对此不作具体限定。

在上述第三种处理方式中，预设替换规则可为用于屏蔽敏感词的替换规则、用于增加文字趣味性的替换规则等。另外，预设替换规则中可包含预设词与待替换词之间的对应关系，本发明实施例对此不作具体限定。若预设替换规则为用于屏蔽敏感词的替换规则，则可预先建立敏感词表，基于敏感词表查找识别文本中出现的敏感词(即待替换词)。在查找到识别文本中出现的敏感词后，可基于预设词与敏感词之间的对应关系，将敏感词替换为预设词。

若预设替换规则为用于增加文字趣味性的替换规则，则可先确定识别文本中的待替换词，基于预设词与待替换词之间的对应关系，将识别文本中的待替换词替换为预设词。例如，以发言人为直播现场中的主持人为例，若主持人讲话对应的识别文本“准备好了吗”，而预设词为“Everyone Ready”，“准备好了吗”正好为待替换词，从而可将“准备好了吗”替换为“Everyone Ready”。

本发明实施例提供的方法，通过过滤掉识别文本中词置信度低于第一预设阈值的分词，可提高识别文本中文字内容的准确性。通过基于预设表达规则，对识别文本中分词的表达形式进行规整，可便于用户对文字内容进行阅读。通过基于预设替换规则及预设词，对识别文本中的分词进行替换，可屏蔽掉敏感词或增强文字内容的趣味性。

由于发言人在讲话时，有些讲话内容会比较重要，即语音数据对应的识别文本中，有些分句会比较重要，从而在提取识别文本中的关键信息之前，还可确定识别文本中每一分句的重要程度分值，以用于确定识别文本中的关键信息。

相应地，基于上述实施例的内容，作为一种可选实施例，本发明实施例还提供了一种确定识别文本中每一分句的重要程度分值的方法。参见图3，该方法包括：301、获取识别文本中每一分句的关键特征，关键特征包括以下四种信息中的至少一种信息，以下四种信息分别为高能量词占比、热点词占比、个性化词占比及互动指数；302、根据识别文本中每一分句的关键特征，计算识别文本中每一分句的重要程度分值。

在上述步骤301中，高能量词指的是人讲话时语气较重或语调较高的讲话内容。由于发言人在发言过程中，当发言人需要对所讲内容进行强调时往往会加重语气或提升语调，这就使其所强调的内容在语音中的能量高于其它内容。热点词指的是与特定谈论主题相关的词语，如评价某一现象时的现象术语、推广某一产品时的产品名称等。个性化词指的是与发言人个性紧密相关的词语，如口头禅、习惯性用语、习惯性语气词、停顿习惯等。互动指数指的是发言人在讲一句话(如抛出一个话题)时，观众对于该话语的响应程度或参与响应讨论的参与程度，也即互动的热烈程度。

识别文本中的分句通常包含多个分词，对于任一分句，若该分句中高能量词占比越大，则说明发言人在讲该分句时可能在刻意强调一些内容，从而该分句对应的重要程度也越高。若该分句中热点词占比越大，则说明发言人在讲该分句时可能在谈论当前的一些热点话题，从而该分句对应的重要程度也越高。若该分句中个性化词占比越大，则说明发言人在讲该分句时，可能在使用自己的个性化表述习惯进行表述，以阐述一些观点，从而该分句对应的重要程度也越高。若该分句对应的互动指数越大，则说明发言人在讲该分句时，观众的互动程度较高，从而该分句对应的重要程度也越高。

其中，关键特征可包含上述四种信息中的至少一种信息，本发明实施例对此不作具体限定。由上述说明可知，关键特征能够客观地反映发言人在讲话时讲话内容的重要性，从而根据识别文本中每一分句的关键特征，可计算识别文本中每一分句的重要程度分值。相应地，在提取识别文本中的关键信息时，可确定识别文本中重要程度分值不小于第二预设阈值的分句，并作为关键信息。

本发明实施例提供的方法，通过获取识别文本中每一分句的关键特征，根据识别文本中每一分句的关键特征，计算识别文本中每一分句的重要程度分值。确定识别文本中重要程度分值不小于第二预设阈值的分句，并作为关键信息。由于关键特征能够客观地反映每一分句的重要程度，从而根据每一分句的重要程度分值，能够准确地筛选出识别文本中的关键信息，并作为后续文本弹幕的展示内容。

相应地，当展示包含高能量词的文本弹幕时，也即将发言人的讲话重点呈现给观众，可提醒观众注意发言人当前的讲话重点。当展示包含个性化词的文本弹幕时，也即将发言人的口头禅或习惯用语等呈现给观众，可提高直播时的节目互动效果。当展示包含热点词的文本弹幕时，可提醒观众注意发言人所谈论的热点话题。当展示互动指数较高的文本弹幕时，可吸引观众的注意力，提高观众的参与感。

基于上述实施例的内容，作为一种可选实施例，本发明实施例还提供了一种获取识别文本中每一分句的关键特征的方法，该方法包括：获取每一分句中每一分词对应的平均能量值，将平均能量值大于第三预设阈值的分词作为高能量词，确定每一分句中的高能量词占比；和/或，获取每一分句中每一分词的词向量与热点向量之间的相关度，将相关度不小于第四预设阈值的分词作为热点词，确定每一分句中的热点词占比；和/或，确定每一分句中的个性化词，并确定每一分句中的个性化词占比；和/或，对于每一分句对应的直播时间段，根据直播时间段中的直播在线人数、评论数及互动讨论数，确定直播时间段对应的互动指数。

由上述实施例可知，关键特征可包含上述四种信息中的至少一种信息。相应地，本实施例在执行时，高能量词占比、热点词占比、个性化词占比、互动指数的各个确定过程可选择执行。例如，当关键特征同时包含上述四种信息时，四个确定过程可同时执行。

关于确定高能量词占比的过程，具体解释说明如下：语音能量在一定程度上能反映多种语音特征，包括声强(单位为分贝dB)、响度(单位为phon)、音高(单位为Mel)等。而对于每一分句中的任一分词，该分词在语音数据中通常由多个语音帧组成，采用短时平均能量计算公式可以得到该分词对应的任一语音帧的能量值。根据该分词的开始结束帧信息可确定该分词对应的所有语音帧，根据该分词对应的所有语音帧中每一语音帧的能量值，可算出该分词的平均能量值。其中，可将平均能量值大于第三预设阈值的分词作为高能量词。根据该分句中分词的总数量以及高能量词的数量，即可得到该分句中的高能量词占比。

需要说明的是，第三预设阈值可以由实时的语音数据进行确定。具体地，可记录并持续更新截止到当前的语音数据的平均能量值

相应地，第三预设阈值的取值可以为

当某一分词的平均能量值

超过

的α倍时，也即

即可确定该分词为高能量词。

关于确定热点词占比的过程，具体解释说明如下：预先构建当前直播主题的热点向量。本发明实施例不对构建当前直播主题的热点向量的方式作具体限定，包括但不限于：收集样本热点词，获取每一样本热点词的词向量；将每一样本热点词的词向量进行加权求和，得到热点向量。其中，样本热点词可以为当前社会热点词，和/或，与当前直播主题相关的热点词，本发明实施例对此不作具体限定。另外，可预先为每一样本热点词分配重要度系数。相应地，计算热点向量的过程可如下公式所示：

其中，x₁至x_n分别表示样本热点词的重要度系数，

至

分别表示样本热点词的词向量，

表示热点向量。需要说明的是，样本热点词的词向量可通过word2vec等开放工具获取，本发明实施例对此不作具体限定。

在构建得到热点向量后，对于识别文本中任一分句的任一分词，可获取该分词的词向量与热点向量之间的相关度，如通过余弦距离计算相关度，即计算热点向量

与该分词w_i的词向量

夹角的余弦值

其中，当余弦值不小于第四预设阈值θ时，也即

则该分词为热点词。当余弦值小于第四预设阈值θ时，则该分词不为热点词。根据该分句中分词的总数量以及热点词的数量，即可得到该分句中的热点词占比。

关于确定个性化词占比的过程，具体解释说明如下：在确定每一分句中个性化词占比之前，可先确定每一分句中的个性化词。对于识别文本中的任一分句，本发明实施例不对确定该分句中个性化词的方法作具体限定，包括但不限于如下两种方式：

第一种方式，预先收集发言人的影音数据；对影音数据中发言人所使用的词语进行分析统计，确定发言人的个性化词列表；将该分句中的分词与个性化词列表进行匹配，将匹配成功的分词作为该分句中的个性化词。其中，不同的发言人可以使用不同的个性化词列表进行匹配。

第二种方式，将该分句输入至个性化特征构建模型，输出该分句中的个性化分词。其中，个性化特征构建模型可通过如下过程构建：收集样本分词，并对样本分词中的个性化分词以及非个性化分词进行标注；基于样本分词及样本分词的标注结果，对初始模型进行训练，得到个性化特征构建模型。需要说明的是，在对样本分词进行标注时，可将样本分词中的个性化分词标注为1，将样本分词中的非个性化分词标注为0。当然，也可以标注为其它符号，本发明实施例对此不作具体限定。另外，训练得到个性化特征构建模型时所使用的初始模型可以为条件随机场(CRF)理论或循环神经网络(RNN)模型，本发明实施例对此也不作具体限定。

关于确定直播时间段对应的互动指数的过程，具体解释说明如下：发言人每讲一句话，即对应一组讲话时的起始时间及结束时间。相应地，在直播场景下，识别文本中每一分句即对应一个直播时间段。对于任一分句对应的直播时间段，直播在线人数即为在该直播时间段内收看直播的观众数量；评论数即为在该直播时间段内所有观众发表的评论总数；互动讨论数即为在该直播时间段内发言人与观众之间的问答交互次数，和/或评论交互次数。相应地，根据直播时间段中的直播在线人数、评论数及互动讨论数，确定直播时间段对应的互动指数的过程可参考如下公式：

其中，

为互动指数，O_t为在线人数，C_t为评论数，L_t为互动讨论数。λ为在线人数系数，μ为评论数系数，η为互动讨论数系数。系数λ、μ、η分别反映了三者对互动指数的影响程度，三者可根据实际需求取值，本发明实施例对此不作具体限定。

通过上述过程，可获取识别文本中每一分句的关键特征。在获取到识别文本中每一分句的关键特征后，可根据每一分句的关键特征，计算每一分句的重要程度分值。对于任一分句，以关键特征同时包含高能量词占比、热点词占比、个性化词占比及互动指数这四项信息为例，将该四项信息的取值进行求和，即可得到该分句的重要程度分值，具体计算过程可参考如下公式：

其中，

表示高能量词占比、

表示热点词占比、

表示个性化词占比、

表示互动指数，S_t表示重要程度分值。

的取值范围均为0至1，S_t的取值范围为0至4。

考虑到关键特征中的不同信息其重要度可能存在差异，从而上述公式可进一步演变为如下加权求和公式：

其中，ω₁至ω₄分别表示各项信息的重要度系数。需要说明的是，当关键特征包含若干项信息时，可对该若干项信息进行求和或者加权求和，从而得到该分句的重要程度分值。

另外，由上述内容可知，S_t的取值范围为0至4。为了便于阐述，可将S_t的取值范围映射为0至400。通过对多场直播的历史数据进行分析，可确定第二预设阈值H(如H取值60)。若该分句的重要程度分值S_t不小于第二预设阈值H，即可确定该分句为关键信息，并可展示该关键信息对应的文本弹幕。

在确定识别文本中的关键信息后，可展示关键信息对应的文本弹幕。具体展示文本弹幕时，可采用默认的弹幕模板，也可以随机选取预先定义的模板，本发明实施例对此不作具体限定。其中，弹幕模板可以包括弹幕显示时的背景图、弹幕显示的字体、字体大小等各种显示要素，弹幕模板可根据需求进行设置，本发明实施例对此不作具体限定。基于上述实施例的内容，作为一种可选实施例，本发明实施例提供了一种展示关键信息对应的文本弹幕的展示方法。参见图4，该方法包括：401、根据关键信息的重要程度分值，确定关键信息的分类类型；402、根据关键信息的分类类型，确定关键信息所使用的弹幕模板，并按照弹幕模板展示关键信息对应的文本弹幕。

在上述步骤401中，关键信息的内容类型可通过如下两种方式分类：第一种分类方式，根据关键信息的重要程度分值进行分类；第二种分类方式，根据关键信息的内容进行分类。当然，还可以采用其它的分类方式，如同时考虑关键信息的重要程度分值及内容进行分类，本发明实施例对此不作具体限定。

对于上述第一种分类方式，可预先划分四个依次降低的重要程度分值的取值区间，如H(S_t＞100)、A(100≥S_t＞80)、B(80≥S_t＞70)、C(70≥S_t＞60)。其中，每一取值区间对应一种弹幕模板。取值区间H对应的第一类弹幕模板，取值区间A对应的第二类弹幕模板，取值区间B对应的第三类弹幕模板，取值区间C对应的第四类弹幕模板。其中，每类弹幕模板的弹幕窗口形状、弹幕窗口大小、背景色可均不同。除此之外，每类弹幕模板包含的字体大小、颜色及字体类型也可以均不同，本发明实施例对此不作具体限定。

对于任一关键信息，若该关键信息的重要程度分值落入的取值区间为H，则可确定该关键信息使用的弹幕模板为第一类弹幕模板。若该关键信息的重要程度分值落入的取值区间为A，则可确定该关键信息使用的弹幕模板为第二类弹幕模板。若该关键信息的重要程度分值落入的取值区间为B，则可确定该关键信息使用的弹幕模板为第三类弹幕模板。若该关键信息的重要程度分值落入的取值区间为C，则可确定该关键信息使用的弹幕模板为第四类弹幕模板。

以使用第一类弹幕模板的关键信息为“哎呀，真是的！又打广告，XX老板是不是多给你了钱？”为例，则弹幕效果可如图5中第一类弹幕模板对应的文本弹幕所示。以使用第四类弹幕模板的关键信息为“明晚下雪我们的活动也如期举行”为例，则弹幕效果可如图5中第四类模板对应的文本弹幕所示。

在图5中，第一类弹幕模板对应的文本弹幕相比第四类弹幕模板对应的文本弹幕，其背景颜色更深、表情丰富、且个性化词与热点词都通过特殊的字体及颜色进行显示，展示效果相对更能引起观众的注意力。而由上述说明可知，取值区间H的取值范围大于取值区间C的取值范围，也即重要程度分值落入到取值区间H的关键信息其重要程度要大于落入到取值区间C的关键信息，从而在使用弹幕模板进行展示时，落入到重要程度分值取值区间H的关键信息，其展示效果会更加突出，从而更加能够引起观众的注意。

对于上述第二种分类方式，按照内容可分类为“心灵鸡汤类”、“互动娱乐类”、“广告插播类”、“科普知识类”。其中，“心灵鸡汤类”的关键信息包括的内容可以为阐述分享的经验和哲理，“互动娱乐类”的关键信息可包含娱乐新闻及涉及互动回答的内容，“广告插播类”的关键信息可包括涉及赞助商广告和产品信息，“科普知识类”的关键信息可包括科普讲解及说明。当然，上述仅为其中一种按关键信息内容进行分类的分类方式，实际实施过程中分类方式、每种分类的名称及定义可根据直播场景进行定制，本发明实施例对此不作具体限定。

在确定关键信息的分类类型时，可将关键信息输入至分类确定模型中，从而输出该关键信息的分类类型，本发明实施例对此不作具体限定。其中，分类确定模型可以基于样本信息及样本信息对应的标注分类，对初始模型进行训练后得到，本发明实施例对此也不作具体限定。

另外，上述四种分类类型可对应不同的弹幕模板。例如，“心灵鸡汤类”弹幕模板可以设计得温馨简约，“互动娱乐类”弹幕模板可以设计得幽默风趣，“广告插播类”弹幕模板可以设计得新颖吸引眼球，“科普知识类”可以设计得具有科技色彩。

需要说明的是，无论是通过取值区间确定关键信息的分类，还是根据关键信息的内容确定的分类，均仅根据分类类型确定所使用的弹幕模板。而弹幕的展示效果除了可以由弹幕模板本身决定之外，还可以由弹幕的显示策略决定。相应地，在确定关键信息所使用的弹幕模板的同时，还可以确定关键信息作为弹幕进行显示时的显示策略。

其中，在确定关键信息的显示策略时，可以通过预设几种显示策略并随机选取，也可预先为每种关键信息的类型设置一种显示策略，并根据关键信息的类型来进行选取，本发明实施例对此不作具体限定。

显示策略可包含弹幕显示方式、弹幕显示透明度、弹幕显示起始位置、弹幕显示跳出位置等不同显示要素，本发明实施例对此也不作具体限定。例如，关键信息对应的文本弹幕在直播界面中展示时，可从下到上跳跃式的飘过，且整个文本弹幕不透明。而观众发的普通弹幕可采用传统的展示方式，也即从右至左的飘过，且为了让观众尽量关注关键信息对应的文本弹幕，以把握关键信息，可适当增加普通弹幕的透明度，以凸显关键信息对应的文本弹幕。如图6所示，在图6中，主持人弹幕即为关键信息对应的文本弹幕，观众弹幕即为普通弹幕。

本发明实施例提供的方法，通过根据关键信息的重要程度分值，确定关键信息的分类类型。根据关键信息的分类类型，确定关键信息所使用的弹幕模板，并按照弹幕模板展示关键信息对应的文本弹幕。由于可根据关键信息的分类类型，选取与分类类型相匹配的弹幕模板以展示关键信息对应的文本弹幕，从而相比传统的弹幕展示方式，能够让关键信息更加容易引起观众的注意，并能增强弹幕的显示效果及趣味性。

需要说明的是，上述所有可选实施例，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

基于上述实施例的内容，本发明实施例提供了一种弹幕展示装置，该弹幕展示装置用于执行上述方法实施例中的弹幕展示方法。参见图7，该装置包括：

第一获取模块701，用于获取对语音数据进行识别后的识别文本，语音数据是通过采集直播参与者的发言所得到的；

提取模块702，用于提取识别文本中的关键信息；

展示模块703，用于展示关键信息对应的文本弹幕。

作为一种可选实施例，直播参与者为直播现场中的发言人，相应地，语音数据是通过采集发言人的发言所得到的；或者，

直播参与者为观看直播且发送语音弹幕的观众，相应地，语音数据为观看直播的观众所发送的语音弹幕。

作为一种可选实施例，第一获取模块701，用于提取语音数据中的声纹特征，并将声纹特征与样本声纹特征进行匹配，每一样本声纹特征对应一种身份标记；获取与声纹特征相匹配的样本声纹特征所对应的身份标记，若身份标记为发言人，则对语音数据进行识别，得到识别文本。

作为一种可选实施例，该装置还包括：

过滤模块，用于确定识别文本中每一分词的词置信度，过滤掉识别文本中词置信度低于第一预设阈值的分词；和/或，

规整模块，用于基于预设表达规则，对识别文本中分词的表达形式进行规整；和/或，

替换模块，用于基于预设替换规则及预设词，对识别文本中的分词进行替换。

作为一种可选实施例，该装置还包括：

第二获取模块，用于获取识别文本中每一分句的关键特征，关键特征包括以下四种信息中的至少一种信息，以下四种信息分别为高能量词占比、热点词占比、个性化词占比及互动指数；

计算模块，用于根据识别文本中每一分句的关键特征，计算识别文本中每一分句的重要程度分值；

相应地，提取模块702，用于确定识别文本中重要程度分值不小于第二预设阈值的分句，并作为关键信息。

作为一种可选实施例，第二获取模块，用于获取每一分句中每一分词对应的平均能量值，将平均能量值大于第三预设阈值的分词作为高能量词，确定每一分句中的高能量词占比；和/或，获取每一分句中每一分词的词向量与热点向量之间的相关度，将相关度不小于第四预设阈值的分词作为热点词，确定每一分句中的热点词占比；和/或，确定每一分句中的个性化词，并确定每一分句中的个性化词占比；和/或，对于每一分句对应的直播时间段，根据直播时间段中的直播在线人数、评论数及互动讨论数，确定直播时间段对应的互动指数。

作为一种可选实施例，展示模块703，用于根据关键信息的重要程度分值，确定关键信息的分类类型；根据关键信息的分类类型，确定关键信息所使用的弹幕模板，并按照弹幕模板展示关键信息对应的文本弹幕。

本发明实施例提供的装置，通过获取对语音数据进行识别后的识别文本，提取识别文本中的关键信息，展示关键信息对应的文本弹幕。由于直播过程中直播参与者的发言也可通过文本弹幕进行显示，从而能够使得观看观众在听到直播参与者发言的同时，还能够看到直播参与者发言对应的文本弹幕，从而能够增强直播的节目效果。另外，相较于通过字幕的形式展示所有的发言内容，可展示发言中的关键信息，以使得观众能够注意到发言中的重点，从而增强了直播的节目效果。

其次，由于直播参与者可以为直播现场中的发言人，还可以为观看直播且发送语音弹幕的观众，从而使得直播现场的发言人在无法听到语音弹幕的情况下，能够看到语音弹幕对应的文本弹幕。另外，在观看直播的观众无法听到语音弹幕的情况下，可以选择看该语音弹幕的文本弹幕。因此，增强了直播的节目效果。

再次，通过提取语音数据中的声纹特征，并将声纹特征与样本声纹特征进行匹配。获取与声纹特征相匹配的样本声纹特征所对应的身份标记，若身份标记为发言人，则对语音数据进行识别，得到识别文本。由于可识别语音数据对应讲话者的身份，从而可保证在身份符合的情况下再进行语音识别，提高了处理效率。

从次，通过过滤掉识别文本中词置信度低于第一预设阈值的分词，可提高识别文本中文字内容的准确性。通过基于预设表达规则，对识别文本中分词的表达形式进行规整，可便于用户对文字内容进行阅读。通过基于预设替换规则及预设词，对识别文本中的分词进行替换，可屏蔽掉敏感词或增强文字内容的趣味性。

另外，通过获取识别文本中每一分句的关键特征，根据识别文本中每一分句的关键特征，计算识别文本中每一分句的重要程度分值。确定识别文本中重要程度分值不小于第二预设阈值的分句，并作为关键信息。由于关键特征能够客观地反映每一分句的重要程度，从而根据每一分句的重要程度分值，能够准确地筛选出识别文本中的关键信息，并作为后续文本弹幕的展示内容。

其中，当展示包含高能量词的文本弹幕时，也即将发言人的讲话重点呈现给观众，可提醒观众注意发言人当前的讲话重点。当展示包含个性化词的文本弹幕时，也即将发言人的口头禅或习惯用语等呈现给观众，可提高直播时的节目互动效果。当展示包含热点词的文本弹幕时，可提醒观众注意发言人所谈论的热点话题。当展示互动指数较高的文本弹幕时，可吸引观众的注意力，提高观众的参与感。

最后，通过根据关键信息的重要程度分值，确定关键信息的分类类型。根据关键信息的分类类型，确定关键信息所使用的弹幕模板，并按照弹幕模板展示关键信息对应的文本弹幕。由于可根据关键信息的分类类型，选取与分类类型相匹配的弹幕模板以展示关键信息对应的文本弹幕，从而相比传统的弹幕展示方式，能够让关键信息更加容易引起观众的注意，并能增强弹幕的显示效果及趣味性。

本发明实施例提供了一种弹幕展示设备。参见图8，该设备包括：处理器(processor)801、存储器(memory)802和总线803；

其中，处理器801及存储器802分别通过总线803完成相互间的通信；

处理器801用于调用存储器802中的程序指令，以执行上述实施例所提供的弹幕展示方法，例如包括：获取对语音数据进行识别后的识别文本，语音数据是通过采集直播参与者的发言所得到的；提取识别文本中的关键信息，展示关键信息对应的文本弹幕。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令使计算机执行上述实施例所提供的弹幕展示方法，例如包括：获取对语音数据进行识别后的识别文本，语音数据是通过采集直播参与者的发言所得到的；提取识别文本中的关键信息，展示关键信息对应的文本弹幕。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的弹幕展示设备等实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分方法。最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明实施例的保护范围。凡在本发明实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种弹幕展示方法，其特征在于，包括：

获取对语音数据进行识别后的识别文本，所述语音数据是通过采集直播参与者的发言所得到的；

提取所述识别文本中的关键信息，展示所述关键信息对应的文本弹幕；

所述直播参与者为直播现场中的发言人，相应地，所述语音数据是通过采集所述发言人的发言所得到的；

所述提取所述识别文本中的关键信息之前，包括：

确定所述识别文本中的待替换词，基于预设词与待替换词之间的对应关系，将所述识别文本中的待替换词替换为预设词；

所述提取所述识别文本中的关键信息之前，还包括：

获取所述识别文本中每一分句的关键特征，所述关键特征包括高能量词占比和/或互动指数；

根据所述识别文本中每一分句的关键特征，计算所述识别文本中每一分句的重要程度分值；

所述识别文本中每一分句的重要程度分值用于确定所述识别文本中的关键信息。

2.根据权利要求1所述的方法，其特征在于，

所述关键特征还包括热点词占比和/或个性化词占比。

3.根据权利要求1所述的方法，其特征在于，所述获取所述识别文本中每一分句的关键特征，包括：

获取每一分句中每一分词对应的平均能量值，将平均能量值大于第三预设阈值的分词作为高能量词，确定每一分句中的高能量词占比；和/或，

对于每一分句对应的直播时间段，根据所述直播时间段中的直播在线人数、评论数及互动讨论数，确定所述直播时间段对应的互动指数。

4.根据权利要求1所述的方法，其特征在于，所述展示所述关键信息对应的文本弹幕，包括：

根据所述关键信息的重要程度分值，确定所述关键信息的分类类型；

根据所述关键信息的分类类型，确定所述关键信息所使用的弹幕模板，并按照所述弹幕模板展示所述关键信息对应的文本弹幕。

5.根据权利要求1所述的方法，其特征在于，所述获取对语音数据进行识别后的识别文本，包括：

提取所述语音数据中的声纹特征，并将所述声纹特征与样本声纹特征进行匹配，每一样本声纹特征对应一种身份标记；

获取与所述声纹特征相匹配的样本声纹特征所对应的身份标记，若所述身份标记为发言人，则对所述语音数据进行识别，得到所述识别文本。

6.根据权利要求1所述的方法，其特征在于，所述提取所述识别文本中的关键信息之前，还包括：

确定所述识别文本中每一分词的词置信度，过滤掉所述识别文本中词置信度低于第一预设阈值的分词；和/或，

基于预设表达规则，对所述识别文本中分词的表达形式进行规整。

7.一种弹幕展示装置，其特征在于，包括：

第一获取模块，用于获取对语音数据进行识别后的识别文本，所述语音数据是通过采集直播参与者的发言所得到的；

展示模块，用于提取所述识别文本中的关键信息，展示所述关键信息对应的文本弹幕；

还包括：

替换模块，用于确定所述识别文本中的待替换词，基于预设词与待替换词之间的对应关系，将所述识别文本中的待替换词替换为预设词；

第二获取模块，用于获取所述识别文本中每一分句的关键特征，所述关键特征包括高能量词占比和/或互动指数；

计算模块，用于根据所述识别文本中每一分句的关键特征，计算所述识别文本中每一分句的重要程度分值；

8.一种弹幕展示设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至6任一所述的方法。