CN109246473B

CN109246473B - 基于声纹识别的个性化视频弹幕的语音交互方法及终端系统

Info

Publication number: CN109246473B
Application number: CN201811068061.6A
Authority: CN
Inventors: 郑炜乔; 雷雄国; 涂长宇; 强胜轩
Original assignee: AI Speech Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2018-09-13
Filing date: 2018-09-13
Publication date: 2020-06-26
Anticipated expiration: 2038-09-13
Also published as: CN109246473A

Abstract

本发明公开一种基于声纹识别的个性化视频弹幕的语音交互方法，包括如下步骤：配置响应于语音操作的关键词；进行语音监听，并根据检测到的语音和关键词进行声纹识别；根据声纹识别结果生成声身份信号。还公开了一种基于声纹识别的个性化视频弹幕的语音交互终端系统，通过本发明可以应用声纹识别来识别用户的信息，简单方便，使用户不必再进行手动输入用户名、密码、验证码等繁琐步骤，直接通过对用户声音的识别就可以认证用户，实现登录等操作，之后用户通过语音进行不同的弹幕操作，增加用户的体验感和互动便利性，通过语音实时转录弹幕内容，解放用户的双手，高效便利，并提高弹幕输入及时性和个性化弹幕内容表达。

Description

基于声纹识别的个性化视频弹幕的语音交互方法及终端系统

技术领域

本发明涉及人工智能与通信技术领域，特别是一种基于声纹识别的个性化视频弹幕的语音交互方法及终端系统。

背景技术

随着弹幕技术的发展和智能终端设备如智能电视的普及，越来越多的用户倾向于在观看视频节目时发表和观看弹幕评论，可以表达自己观看电视节目的感受，增加节目的参与感。

在目前的实际应用中，用户向互联网视频平台上发表弹幕的评论方式为：通过用户登录到视频平台，再建立通信连接，手动输入文字弹幕，传输至视频平台上进行显示，这种用户认证的方式和发送弹幕的方式由于操作繁琐，均会带来不同程度的观影中止，且影响用户的体验感和互动便利性。

发明内容

本发明的其中一个目的在于，通过声纹识别技术实现语音认证，简化用户的发送弹幕操作时的认证处理过程，免去登录的繁琐操作。

本发明的另一目的还在于，通过语音实现弹幕发送，将用户随意说出的语音实时转为弹幕内容(文字、点赞、表情等)，通过语音实时转录弹幕内容，解放用户的双手，高效便利，并提高弹幕输入的及时性。

本发明的又一个目的还在于，在语音发送弹幕的过程中，根据用户会员等级将弹幕内容进行个性化显示(如爆炸或闪烁等效果)在视频画面上，增加用户的体验感和互动便利性。

为此，本发明提供了一种基于声纹识别的个性化视频弹幕的语音交互方法及终端系统。

根据本发明的一个方面，提供了一种基于声纹识别的个性化视频弹幕的语音交互方法，包括如下步骤：配置响应于语音操作的关键词；进行语音监听，并根据检测到的语音和关键词进行声纹识别；根据声纹识别结果进行视频弹幕的交互操作。由此，可以通过配置关键词对用户的语音内容进行识别，并作出相应的操作，声纹识别在现有技术中比较成熟，在本发明中应用声纹识别来实现登录认证，简单方便，使用户不必再进行手动输入用户名、密码、验证码等繁琐步骤，直接通过对用户声音的识别就可以认证用户，之后用户就可以登录通过语音进行不同的弹幕操作，增加用户的体验感和互动便利性。

在一些实施方式中，基于声纹识别的个性化视频弹幕的语音交互方法，根据声纹识别结果进行视频弹幕的交互操作实现为：根据声纹识别结果进行语音检测，生成互动操作信号；根据互动操作信号实现视频弹幕的交互操作。或根据声纹识别结果进行视频弹幕的交互操作实现为:进行语音检测并生成互动操作信号输出；根据声纹识别结果和所述互动操作信号实现对视频弹幕的个性化操作。由此，可以通过语音实时转录弹幕内容，并根据互动操作信号与视频弹幕进行互动，解放用户的双手，高效便利。还可以通过语音检测和声纹识别实现弹幕的个性化操作。

在一些实施方式中，基于声纹识别的个性化视频弹幕的语音交互方法，关键词包括适配于语音唤醒发送弹幕操作的第一关键词，进行语音监听，并根据检测到的语音和关键词进行声纹识别实现为进行语音监听，并根据检测到的语音和第一关键词生成发送弹幕唤醒信号；根据发送弹幕操作信号获取语音信息，将获取的语音信息与预存的用户信息进行匹配，根据匹配结果进行语音检测。可以通过对用户的语音与配置的第一关键词进行匹配，监听到用户的语音中包含有配置的第一关键词就可以生成发送弹幕唤醒信号，唤醒视频弹幕的发送功能。由此，可以仅通过语音就可以唤醒弹幕的发送，将获取的语音信息与预存用户信息进行匹配，通过语音就可以识别用户信息是否包含于视频弹幕的系统中，不需要通过键盘输入的方式输入用户信息，再由系统进行匹配，简单方便，高效便利。

在一些实施方式中，基于声纹识别的个性化视频弹幕的语音交互方法，用户信息包括声音信息和基本信息，根据发送弹幕操作信号获取语音信息，将获取的语音信息与预存的用户信息进行匹配，根据匹配结果进行语音检测包括如下步骤；响应于发送弹幕操作信号，获取用户的语音信息与预存的声音信息进行匹配；若匹配成功则生成用于启动语音检测的声纹身份信号；若匹配失败则获取用户的语音信息进行训练，将语音信息绑定用户基本信息实现声纹注册，并生成用于启动语音检测的声纹身份信号。由此，可以根据语音来识别用户声音信息进行声纹识别，简单方便，解放用户的双手，并且声纹识别对于用户的个人信息可以起到一定的保护作用。对于还没有注册的用户，还可以使用户直接通过声音训练的方式注册用户信息，通过第一关键词的语音唤醒就可以实现进入录制弹幕的界面，为用户提供了极大的方便，有效的增加了用户的参与感和趣味性。

在一些实施方式中，基于声纹识别的个性化视频弹幕的语音交互方法，关键词还包括适配于语音赠送礼物弹幕操作的第二关键词，根据声纹识别结果进行语音检测生成互动操作信号包括：根据声纹身份信号启动语音检测，根据检测到的语音内容和第二关键词生成送礼操作信号；根据互动操作信号实现对弹幕的交互操作包括：根据送礼操作信号获取用户信息，根据用户信息中的权限信息进行支付或发送礼物弹幕操作。由此，在声纹识别后，用户就可以通过语音实现与视频弹幕的互动操作，比如实现送礼物操作，仅通过语音就可以送礼，免于现有技术中的要在送礼物专栏中搜索礼物点击发送后再进行送礼的繁琐操作，可以增加用户的体验感和互动便利性。

在一些实施方式中，基于声纹识别的个性化视频弹幕的语音交互方法，关键词还包括适配于语音控制弹幕发送操作的第三关键词，根据声纹识别结果进行语音检测生成互动操作信号包括：根据声纹身份信号进行语音检测，根据检测到的语音内容和第三关键词生成发送弹幕操作信号；根据互动操作信号实现对弹幕的交互操作包括：根据发送弹幕操作信号获取弹幕内容输出。由此，可以根据第三关键词实现对语音弹幕的发送，在现有技术中，在发送弹幕时，需要在下方或弹出的文本框中输入文字，影响了用户的观看体验感，通过本技术方案就可以解决这一问题，可以使用户边看边通过语音编辑要输入的弹幕，非常智能，还大大的提升了用户的参与感。

在一些实施方式中，上述的方法，关键词还包括适配于语音赠送礼物弹幕操作的第二关键词，进行语音检测并生成互动操作信号包括：根据发送弹幕唤醒信号启动语音端点检测，根据检测到的语音的有效起始端点和有效结束端点，持续获取语音内容，并在检测到有效结束端点时生成发送弹幕操作信号；根据声纹识别结果和发送弹幕操作信号实现对视频弹幕的个性化操作包括：根据语音内容和第二关键词判断是否存在送礼互动操作，在判断存在送礼互动操作时，根据声纹识别结果获取用户权限信息，根据用户权限信息进行支付操作或/和根据用户权限信息和发送弹幕操作信号获取个性化弹幕界面，生成弹幕内容输出。由此，根据语音端点检测可以提高处理效率，节约资源，且方便用户。根据判断送礼互动操作的方法可以实现用户与弹幕的个性化互动体验。

根据本发明的另一个方面，还提供了一种基于声纹识别的视频弹幕的语音交互终端系统，还包括关键词配置模块，用于配置响应于语音操作的关键词存储；声纹检测模块，与关键词配置模块连接，用于进行语音监听，并根据检测到的语音和所述关键词进行声纹识别，生成声纹识别结果；弹幕互动模块，与声纹检测模块连接，用于根据声纹识别结果进行语音检测，实现视频弹幕的交互操作。由此，可以通过声纹识别技术实现语音认证，简化用户的发送弹幕操作时的认证处理过程，免去登录的繁琐操作。

根据本发明的另一个发明，还提供了一种基于声纹识别的个性化视频弹幕的语音交互终端系统，包括：关键词配置模块，用于配置响应于语音操作的关键词存储；声纹检测模块，与关键词配置模块连接，用于进行语音监听，并根据检测到的语音和所述关键词进行声纹识别，生成声纹识别结果；弹幕处理模块，与声纹检测模块连接，用于进行语音检测并根据声纹识别结果实现对视频弹幕的个性化操作。由此，可以通过弹幕处理模块和声纹检测模块实现用户与弹幕的个性化互动。

在一些实施方式中，基于声纹识别的个性化视频弹幕的语音交互终端系统中，关键词包括适配于语音唤醒发送弹幕操作的第一关键词和适配于语音赠送礼物弹幕操作的第二关键词，弹幕处理模块包括：语音检测单元，用于根据第一关键词启动语音端点检测，根据检测到的语音的有效起始端点和有效结束端点，持续获取语音内容，并在检测到有效结束端点时生成发送弹幕操作信号；送礼检测单元，与语音检测单元连接，用于根据语音内容和第二关键词判断是否存在送礼互动操作，在判断存在送礼互动操作时，根据声纹识别结果获取用户权限信息；发送弹幕单元，用于根据用户权限信息、语音内容和所述发送弹幕操作信号生成弹幕内容输出。通过语音实时转文字实现弹幕内容的输入与交互。并且，通过关键词配置模块可以设置多种供用户使用的语音指令，丰富了用户的体验，实现简单方便，通过语音实时转录弹幕内容，解放用户的双手，高效便利，并提高弹幕输入的及时性。

在一些实施方式中，上述基于声纹识别的个性化视频弹幕的语音交互终端系统，声纹检测模块包括：匹配单元，用于获取所述权限验证信息，获取用户的语音信息与预存的声音信息进行匹配，若匹配成功则生成用于标识用户权限的声纹身份信号；若匹配失败则生成用于启用注册单元的失败信号；注册单元，与匹配单元连接，用于响应于失败信号进行声纹注册，并根据声纹注册结果生成用于标识用户权限的声纹身份信号。由此，可以通过匹配单元和监测单元就可以根据语音来识别的用户声音信息进行声纹识别，简单方便，解放用户的双手，并且声纹识别对于用户的个人信息可以起到一定的保护作用。对于还没有注册的用户，还可以使用户直接通过声音训练的方式注册用户信息，通过声纹识别就可以实现进入录制弹幕的界面，有效的增加了用户的参与感和趣味性。

根据本发明的另一个方面，还提供了一种智能终端设备，包括存储单元和执行单元，存储单元中存储有用于实现权利要求前述方法或基于声纹识别的个性化视频弹幕的语音交互终端系统的程序指令，该程序指令能够被执行单元执行以用于基于声纹识别实现向智能终端设备中的用于进行视频播放的视频软件终端发送个性化视频弹幕的操作。由此，可以使得本发明上述提到的基于声纹识别的个性化视频弹幕的语音交互终端系统和方法适用于同一智能终端设备上的不同视频软件终端，实用性更高。

根据本发明的另一个方面，还提供了一种用于进行视频播放的视频软件终端，视频软件终端中包括有弹幕语音控制模块，弹幕语音控制模块为上述的基于声纹识别的个性化视频弹幕的语音交互终端系统，用于基于声纹识别实现对该视频软件终端的视频弹幕的控制。由此，可以将本发明上述提到的基于声纹识别的个性化视频弹幕的语音交互终端系统设置于独立的视频软件终端中，实现与视频软件终端的集成，方便用户安装和灵活的使用相应的视频软件终端以进行个性化弹幕操作。

附图说明

图1为本发明一实施方式的基于声纹识别的个性化视频弹幕的语音交互方法流程图；

图2为本发明另一实施方式的基于声纹识别的个性化视频弹幕的语音交互方法流程图；

图3为本发明又一实施方式的基于声纹识别的个性化视频弹幕的语音交互方法流程图；

图4为本发明一实施方式的基于声纹识别的个性化视频弹幕的语音交互终端系统框图；

图5为本发明另一实施方式的基于声纹识别的个性化视频弹幕的语音交互终端系统框图；

图6为本发明一实施方式的智能终端设备；

图7为本发明另一实施方式的智能终端设备。

具体实施方式

下面结合附图对本发明作进一步详细的说明。

图1示意性地显示了根据本发明一实施方式的基于声纹识别的个性化视频弹幕的语音交互方法流程图，在该实施例中，以在进行弹幕操作如发送弹幕时需要首先进行用户认证、而认证的方式实现为声纹认证为例，如图1所示，该方法包括如下步骤：

步骤S101：配置响应于语音操作的关键词。具体实现为：根据需求对用于响应语音控制视频弹幕的操作指令进行关键词配置并存储，在本实施例中，配置的第一关键词至少包括用于语音唤醒发送弹幕操作的关键词，配置内容例如为“发弹幕”或“启动发送弹幕”等。

步骤S102：进行语音监听，并根据检测到的语音和关键词进行声纹识别，生成声纹身份信号。具体实现为：通过设置语音监听线程，始终对用户的语音进行监听，例如通过调用智能终端设备的语音监听接口，开启智能终端设备的语音监听线程，实现持续的语音监听(可以通过现有技术实现)。之后，当检测到用户发出语音指令时，对语音指令的内容进行识别(可以是通过现有技术先对语音内容进行文本转换，然后对文本内容进行关键词匹配识别，也可以是通过语音唤醒，也称关键词检测技术去匹配检测到的语音是否为关键词，这些都可参照相关现有技术进行实现)，如果识别结果为包含有“发弹幕”的语音，就会识别出该语音指令与第一关键词相匹配，此时会生成发送弹幕唤醒信号，该信号为对弹幕内容获取的指令，对弹幕内容获取的指令可以是与智能终端设备的语音功能的调用接口相适配的指令。这样，就会根据发送弹幕唤醒信号启动录音界面，此时会根据获取到的语音进行声纹识别，获取语音信息(即用户发出的语音信息)，并将获取到用户的语音信息与预存的声音信息通过声纹识别技术进行匹配(在此使用的声纹识别技术为现有技术，故对声纹识别的过程不进行赘述)，若匹配成功，即用户发出的语音信息可以在预存的用户信息中找到，则生成用于启动语音检测的声纹身份信号；若匹配失败则获取用户的语音信息进行训练，即反复录入用户的声音信息，将录入的声音信息绑定用户基本信息实现声纹注册，并生成用于启动语音检测的声纹身份信号，在上述提到的用于启动语音检测的声纹身份信号为开始获取语音信息的信号，其具体实现可以根据启动语音检测的方式相适应，例如当启动的语音检测为端点检测时，与端点检测的触发信号相同，再如当启动的语音检测为录音时，则为启动语音功能的调用接口指令，从获取到该信号开始，接下来的内容才是要发送的弹幕内容或互动操作的内容，基于该信号即可进行后续的响应和操作。

其中，在其他实现例中，还可以是根据语音监听检测到的语音内容进行声纹识别，即将用于与关键词进行匹配的语音，同时用于声纹识别，在这种情况下，识别出该语音指令与第一关键词相匹配，就会直接启动声纹识别，而不会直接启动录音界面，而是在声纹识别处理完成后，根据声纹身份信号启动录音界面，以开始进行语音检测，获取语音弹幕内容。

图2示意性地显示了根据本发明一实施方式的基于声纹识别的个性化视频弹幕的语音交互方法流程图，本实施例为在声纹识别后的进一步弹幕处理过程，即为根据声纹身份信号进行互动操作的实现例，如图2所示，该方法包括：

步骤S201至步骤S202：该步骤的具体实现可以参见步骤S101至步骤S102。

步骤S203：根据声纹身份信号进行语音检测生成互动操作信号。在声纹认证成功后，用户就可以通过语音实现弹幕互动操作。在本实施例中，以互动操作包括送礼及打赏操作、发送弹幕操作，操作内容是通过语音端点检测进行有效语音端点识别后获取语音内容为例。在声纹认证成功生成了声纹身份信号后，会根据声纹身份信号在录音界面启动录音功能，同时启动语音端点检测线程，进行语音检测。当检测到有效的语音起始端点后，就会持续获取语音信息，并将其实时转换为文本信息，在录音界面进行实时显示，并在检测到有效的语音结束端点后，将获取到的文本信息生成为发送弹幕操作信号，该信号为与提供弹幕功能的软件系统提供的接口相适配的指令。另外，在检测的过程中，还会通过配置关键词对检测到的语音内容即转换生成的文本信息进行监测，以实现发送弹幕过程中的送礼及打赏的互动操作，具体实现为：在配置关键词时，还配置有第二关键词，第二关键词的内容例如配置为包括“送礼”、“送礼物”等。通过语音端点检测获取到语音信息并转换为文本信息后，就对文本信息进行监测，如果匹配到与第二关键词适配的内容，就生成送礼操作信号，其中，送礼操作信号为触发用户信息检测的信号，可以是字符串标识。其中，语音端点检测可以通过现有技术实现，该现有技术例如可以是包括但不限于语音能量和过零率双门限的方法，并且还可以结合Fbank、听觉特性等特征综合进行判断。用户可以根据需求说出不同的语句，这时语音端点检测线程就会根据用户的语音能量检测到有效起始端点(即用户发出语音的第一个具有语音能量的词语)。当通过语音检测到的用户语音内容包含有第二关键词，则生成送礼操作信号，该送礼操作信号为互动操作信号的一种。

步骤S204：根据互动操作信号实现对弹幕的交互操作。具体实现为：

当接收到上述生成的送礼操作信号时，则会响应于该信号进行用户信息的检测，包括获取用户信息进行权限判断，根据权限判断结果进行弹幕操作。具体实现为：获取存储的用户信息，其中，用户信息中包含有权限信息，权限信息分为高级权限、中级权限和初级权限。根据用户信息中的权限信息进行判断，当检测会员等级为初级会员和中级会员时，跳转到支付页面进行充值，充值完成后对会员等级进行重新检测；当检测到会员等级为高级会员时，生成送礼物弹幕操作信号，其中，送礼物弹幕操作信号为与发送弹幕的目标视频软件终端(即提供弹幕发送功能的视频软件终端)的送礼物的调用接口适配的信号，其包括了送礼物的信号内容和与会员等级适配的特效显示的标识内容。视频软件终端在获取到上述生成的送礼物弹幕操作信号，就会根据该信号执行送礼物的弹幕操作，此时弹幕还会根据信号中的特效显示的标识内容自动出现送礼特效(例如爆炸或闪烁等效果)或为其选择适配的弹幕皮肤输出，以实现在声纹识别的基础上，根据用户会员等级将弹幕进行个性化显示(如爆炸或闪烁等效果)在视频画面上，增加用户的体验感和互动便利性。而当接收到上述发送弹幕操作信号时，则会根据发送弹幕操作信号调用视频软件终端的调用接口，获取文本信息(即上述转换成的待发送弹幕内容)作为弹幕输出，从而实现发送弹幕的操作。由此可以实现通过语音实时转录弹幕内容，解放用户的双手，高效便利，并提高弹幕输入的及时性。

在优选实施方式中，还可以基于关键词检测进行发送弹幕的操作，即替代上述的语音端点检测实现弹幕的发送操作的实现方式，还可以配置用于适配于语音控制弹幕发送操作的第三关键词，当通过语音检测到的用户语音内容包含有第三关键词，则生成发送弹幕操作信号进行发送弹幕操作。其中，发送弹幕操作信号也为互动操作信号的一种。

图3为本发明又一实施方式的基于声纹识别的个性化视频弹幕的语音交互方法流程图，与图1和图2所示的实施例不同的是，在本发明实施例中，在通过语音监听检测到第一关键词时，不需要先进行声纹识别验证，而是同时进行声纹识别和启动录音界面进行弹幕互动操作，在该实施例中，声纹识别仅用于确定用户身份，而不是触发弹幕互动操作的前提条件，本发明实施例是在发送弹幕时，基于对弹幕内容的检测和声纹识别结果，进行弹幕内容的个性化展示。如图3所示，该方法包括如下步骤：

步骤S301：配置响应于语音操作的关键词。具体实现方式可以参照步骤S101，与图1和2所示的实施例的不同仅在于，本步骤中配置的关键词还包括适配于语音赠送礼物弹幕操作的第二关键词。

步骤S302：进行语音监听，并根据检测到的语音和关键词进行声纹识别。该步骤与图1和2所示的实施例的不同在于，在该步骤中当监听到用户发出语音，就会根据配置的关键词检测用户的语音，当检测到包含有唤醒发送弹幕唤醒的第一关键词时，就会利用检测到的语音进行声纹识别，同时生成启动发送弹幕唤醒信号，开启语音检测，以根据检测到的语音，获取弹幕内容。其中，声纹识别的方法可以参照前文叙述，根据声纹识别结果会生成声纹身份信号，在该实施例中，声纹身份信号为标识用户权限信息的标识信号，例如用户账号。而生成的启动发送弹幕唤醒信号为对弹幕内容获取的指令，可以是与智能终端设备的语音功能的调用接口相适配的指令，也可以是与启动语音端点检测的调用接口相适配的指令，当为后者时，则通过语音端点检测实现弹幕内容的获取，本发明实施例优选实现为后者。

步骤S303：进行语音检测并生成互动操作信号输出。本实施例以通过语音端点检测进语音检测为例，实现为根据检测到的语音的有效起始端点和有效结束端点，持续获取语音内容，并在检测到有效结束端点时生成发送弹幕操作信号。

步骤S304：根据声纹识别结果和互动操作信号实现对视频弹幕的个性化操作。在本实施例中，在检测到语音结束后，还会根据声纹身份信号获取用户的信息对用户的账户等级进行判断，判断的方式可以根据声纹身份信号的用户账号，获取用户权限或用户等级进行判断。当判断当前账户为VIP或高级账户时，会根据端点检测过程中获取到的语音内容和第二关键词判断是否存在送礼互动操作，即是否存在与第二关键词匹配的语音内容。在判断存在送礼互动操作时，会根据用户权限信息进行支付操作，或/和根据用户权限信息和发送弹幕操作信号获取个性化弹幕界面(即与用户等级权限相适配的弹幕皮肤或特效样式)，生成弹幕内容输出。当判断没有送礼互动操作时，就会根据用户权限信息获取到的个性化弹幕界面，直接将弹幕内容通过特殊的显示样式(如爆炸、火花等)渲染和特效处理后发送，以达到个性化显示的目的。当判断具有送礼互动操作信息时，就会根据账户等级权限进行支付的操作(当权限允许进行送礼或打赏操作，但需要支付才能完成相应操作时，例如针对高级或VIP账号用户)或提示充值升级的操作(当权限不允许进行送礼或打赏操作，需要充值升级才能达到相应等级时，例如针对普通会员)，连接一外部的支付接口，具体的支方式可以参照现有技术，支付成功后就会进行打赏或者送礼的操作。当检测到的账户不属于注册过的用户时(例如声纹识别失败，提示注册但未注册的情况下)，会按照游客登陆的方式处理，即通过上述方式判断发送的弹幕内容是否包含送礼互动操作，如果包含就会提示其进行声纹注册和通过支付操作升级为高级或VIP会员，当游客发送的弹幕内容中没有检测到送礼互动操作时，就会将弹幕内容直接进行简单显示。

图4示意性地显示了根据本发明一实施方式的基于声纹识别的个性化视频弹幕的语音交互终端系统框图，如图4所示，

该系统包括关键词配置模块3、声纹检测模块4和弹幕处理模块5，关键词配置模块3用于配置响应于语音操作的关键词存储，其中配置了第一关键词，例如“发弹幕”或“发送”等；声纹检测模块4与关键词配置模块3连接，用于进行语音监听，并根据检测到的语音和关键词进行声纹识别，生成声纹身份信号；弹幕处理模块5与声纹检测模块4连接，用于根据声纹身份信号进行语音检测生成互动操作信号，并根据互动操作信号实现视频弹幕的交互操作。其中，声纹验证模块包括监测单元401、匹配单元402和注册单元403，监测单元401用于进行语音监听，获取监听到的语音信息与第一关键词进行匹配，并根据匹配结果生成发送弹幕操作信号，当获取到的用户语音的内容中包含有第一关键词，就会生成发送弹幕操作信号，该信号为触发信号，可以与提供弹幕功能的软件系统提供的接口进行适配，即根据现有的弹幕功能的调用接口，生成相适应的弹幕操作信号，也可以与智能终端设备的音频接口相适配，调用智能终端设备的音频功能，以展示录音界面。匹配单元403用于响应于发送弹幕操作信号，获取用户的语音信息与预存的声音信息进行匹配，若匹配成功则生成用于启动语音检测的声纹身份信号；若匹配失败则生成用于启用注册单元的失败信号。当检测到发送弹幕操作信号时，就会对用户的语音信息与该模块中预存的声音信息通过声纹识别技术进行匹配，这些声音信息来源于注册过本系统的用户，如果可以在预存的信息中找到则匹配成功，就会得到启动语音检测的声纹身份信号。若未在预存的语音信息中找到，则会生成失败信号传输至注册单元403。注册单元403与匹配单元402连接，用于响应于失败信号，获取用户的语音信息进行训练，将语音信息绑定用户基本信息实现声纹注册，并生成用于启动语音检测的声纹身份信号(为一种响应信号，可以通过该信号对检测到的语音进行声纹识别)当获取由匹配单元402生成的失败信号后，就会对该用户的声音信息进行注册。

在注册成功后或检测到该用户已经注册，就可以生成声纹身份信号，用户就可以对弹幕进行互动操作。其中，对弹幕进行互动操作例如在本实施例中实现为包括通过语音获取弹幕内容进行发送以及对弹幕内容进行监测，根据弹幕内容生成个性化展示效果输出。为此，本实施例中的关键词配置模块3还配置了用于适配于语音赠送礼物弹幕操作的第二关键词和用于适配于语音控制弹幕发送操作的第三关键词，弹幕处理模块5包括：送礼检测单元501和发送弹幕单元502，送礼检测单元501用于根据声纹身份信号进行语音检测，根据检测到的语音内容和第二关键词生成送礼操作信号；发送弹幕单元502用于根据声纹身份信号进行语音检测，根据检测到的语音内容和第三关键词生成发送弹幕操作信号。当认证完用户信息后，用户可以选择对当前弹幕页面进行送礼物的操作，此时，需要先检验用户的权限信息，权限信息分为高级权限、中级权限和初级权限，当检测到用户的会员等级为初级会员和中级会员时，跳转到支付页面进行充值，充值完成后对会员等级进行重新检测；当检测到用户的会员等级为高级会员时，就执行发送礼物弹幕操作。并且用户还可以通过语音编辑弹幕内容，直接通过发送弹幕单元502将弹幕内容发送并显示。

其中，本实施例中涉及到的各模块及单元的具体的实现过程可以参照图2方法部分的叙述，在此不进行赘述。

图5示意性地显示了根据本发明另一实施方式的基于声纹识别的个性化视频弹幕的语音交互终端系统框图，如图5所示，在该实施例中，弹幕处理模块5还包括语音检测单元503，用于根据声纹识别结果启动语音端点检测，持续获取语音信息实现对视频弹幕的交互操作。通过设置语音检测单元503，在通过语音获取弹幕内容时，就可以通过端点检测获取有效起始端点和有效结束端点内的有效语音信息，以将有效语音信息转换为文本信息，从而对文本信息进行监测实现个性化弹幕交互或/和将文本信息作为弹幕内容输出。其中，语音端点检测可以通过现有技术实现，该现有技术例如可以是包括但不限于语音能量和过零率双门限的方法，并且还可以结合Fbank、听觉特性等特征综合进行判断。用户可以根据需求说出不同的语句，这时语音端点检测线程就会根据用户的语音能量检测到有效起始端点(即用户发出语音的第一个具有语音能量的词语)。通过该单元可以实现有效的检测用户发出的语音信息。在设置了语音检测单元503的实施例中，就可以仅仅通过语音端点检测进行弹幕内容的获取和触发弹幕的发送操作，而不需要根据第三关键词进行触发，这样，用户就不需要在发送弹幕时进行特定的语音指令，进一步简化了用户的操作步骤，提高用户体验。且通过语音端点检测还能够减少噪声的干扰，实现仅获取有效语音进行处理，节约资源，提高效率。

图6示意性地显示了根据本发明一实施方式的智能终端设备，如图6所示，该智能终端设备6，包括视频软件终端601和上述的基于声纹识别的个性化视频弹幕的语音交互终端系统602，视频软件终端601用于进行视频播放，终端系统602用于基于声纹识别实现对视频软件终端的视频弹幕的个性化操作。由此，可以使得本发明上述提到的基于声纹识别的个性化视频弹幕的语音交互终端系统适用于同一智能终端设备上的不同视频软件终端，实用性更高。在具体实现中，可以实现为将上述的基于声纹识别的个性化视频弹幕的语音交互终端系统或方法通过程序指令进行实现，并将该程序指令存储在智能终端设备6的存储单元中，这样，通过智能终端设备6的执行单元执行该程序指令时，就可以实现相应的功能，从而可以基于声纹识别实现对视频软件终端的视频弹幕的个性化操作。

图7示意性地显示了根据本发明一实施方式的智能终端设备，如图7所示，该智能终端设备7，包括用于进行视频播放的视频软件终端701，视频软件终端中包括有弹幕语音控制模块702，弹幕语音控制模块702为上述的基于声纹识别的个性化视频弹幕的语音交互终端系统，用于基于声纹识别实现对视频软件终端的视频弹幕的控制。由此，可以将本发明上述提到的基于声纹识别的个性化视频弹幕的语音交互终端系统设置于独立的视频软件终端中，方便用户安装和灵活的使用。

在具体实现中，智能终端设备可以是手机、平板、智能手表、智能电视、智能音箱等，任何能够安装终端应用，特别是视频软件终端的设备，视频软件终端可以是任何现有的能够播放视频和提供了视频弹幕功能的软件。当为智能电视或智能音箱时，将极大的扩展现有终端设备的功能，为用户的娱乐智能设备提供更多能够适应现代社交方式的新功能，将娱乐与社交相结合，极大提高用户体验。

另外，本领域技术人员应当可以理解的是，虽然上述方法部分是以发送弹幕时需要声纹识别为例进行了详细阐述，但在实际应用中，根据每用户需求，进行声纹识别验证的弹幕操作还可以是发送弹幕操作之外的其他操作，例如打开弹幕操作、关闭弹幕操作等，本发明实施例不应视为对此的限制，只需要在语音关键字配置和生成弹幕互动操作信号时，根据相应的需求和实际应用的弹幕操作进行适当变形即可，这些都应视为本发明的构思变形，属于本发明的保护范围。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.基于声纹识别的个性化视频弹幕的语音交互方法，其特征在于，包括如下步骤：

配置响应于语音操作的关键词，所述关键词包括适配于语音唤醒发送弹幕操作的第一关键词和适配于语音赠送礼物弹幕操作的第二关键词；

进行语音监听，并根据检测到的语音和所述第一关键词，获取语音信息进行声纹识别；

根据声纹识别结果进行视频弹幕的交互操作，其实现为包括：根据声纹识别结果进行语音检测，生成互动操作信号，其中，生成的互动操作信号包括基于所述第二关键词生成的送礼操作信号；根据所述互动操作信号实现视频弹幕的交互操作，其包括根据送礼操作信号获取用户信息，根据所述用户信息中的权限信息进行支付操作或发送礼物弹幕操作。

2.根据权利要求1所述的基于声纹识别的个性化视频弹幕的语音交互方法，其特征在于，所述进行语音监听，并根据检测到的语音和所述第一关键词获取语音信息进行声纹识别实现为：

进行语音监听，并根据检测到的语音和所述第一关键词生成发送弹幕唤醒信号；

响应于发送弹幕唤醒信号，获取根据所述语音监听检测到的语音作为识别用的语音信息，或响应于发送弹幕唤醒信号，启动录音界面获取用户的语音作为识别用的语音信息；

将获取的语音信息与预存的用户信息进行匹配，根据匹配结果生成声纹识别结果。

3.根据权利要求2所述的基于声纹识别的个性化视频弹幕的语音交互方法，其特征在于，所述用户信息包括声音信息和基本信息，所述将获取的语音信息与预存的用户信息进行匹配，根据匹配结果生成声纹识别结果包括如下步骤：

将获取的语音信息与预存的声音信息进行匹配；

若匹配成功则生成声纹身份信号；

若匹配失败则录入用户的声音信息，将录入的声音信息绑定用户基本信息实现声纹注册，并生成用于启动语音检测的声纹身份信号。

4.根据权利要求3所述的基于声纹识别的个性化视频弹幕的语音交互方法，其特征在于，所述根据声纹识别结果进行语音检测生成互动操作信号包括：

根据所述声纹身份信号启动语音检测，根据检测到的语音内容和所述第二关键词生成送礼操作信号。

5.根据权利要求1至4任意一项所述的基于声纹识别的个性化视频弹幕的语音交互方法，其特征在于，所述关键词还包括适配于语音控制弹幕发送操作的第三关键词，所述根据声纹识别结果进行语音检测生成互动操作信号包括：

根据所述声纹识别结果进行语音检测，根据检测到的语音内容和所述第三关键词生成发送弹幕操作信号；

所述根据所述互动操作信号实现对弹幕的交互操作包括：

根据所述发送弹幕操作信号获取弹幕内容输出。

6.基于声纹识别的个性化视频弹幕的语音交互方法，其特征在于，包括如下步骤：

根据声纹识别结果进行视频弹幕的交互操作，其中，在进行声纹识别时根据声纹识别结果生成用于标识用户权限信息的声纹身份信号，所述根据声纹识别结果进行视频弹幕的交互操作实现为包括：

进行语音检测并生成互动操作信号输出，其中，所述互动操作信号包括发送弹幕操作信号；

根据所述声纹识别结果和所述互动操作信号实现对视频弹幕的个性化操作，其包括：在检测到有效结束端点时，根据声纹身份信号获取用户权限信息；根据所述语音检测获取的语音内容和所述第二关键词判断是否存在送礼互动操作，在判断存在送礼互动操作时，根据所述用户权限信息进行支付操作或/和根据所述用户权限信息和发送弹幕操作信号获取个性化弹幕界面，生成弹幕内容输出。

7.根据权利要求6所述的基于声纹识别的个性化视频弹幕的语音交互方法，其特征在于，所述进行语音监听，并根据检测到的语音和所述第一关键词获取语音信息进行声纹识别实现为：

8.根据权利要求7所述的基于声纹识别的个性化视频弹幕的语音交互方法，其特征在于，所述用户信息包括声音信息和基本信息，所述将获取的语音信息与预存的用户信息进行匹配，根据匹配结果生成声纹识别结果包括如下步骤：

将获取的语音信息与预存的声音信息进行匹配；

若匹配成功则生成声纹身份信号；

若匹配失败则录入用户的声音信息，将录入的声音信息绑定用户基本信息实现声纹注册，并生成声纹身份信号。

9.根据权利要求8所述的基于声纹识别的个性化视频弹幕的语音交互方法，其特征在于，所述进行语音检测并生成互动操作信号包括：

根据所述发送弹幕唤醒信号启动语音端点检测，根据检测到的语音的有效起始端点和有效结束端点，持续获取语音内容，并在检测到有效结束端点时生成发送弹幕操作信号；

所述根据所述声纹识别结果和所述互动操作信号实现对视频弹幕的个性化操作还包括：

在检测到有效结束端点时，根据声纹身份信号获取用户权限信息；

根据所述语音内容和所述第二关键词判断是否存在送礼互动操作，

在判断不存在送礼互动操作时，根据所述用户权限信息和发送弹幕操作信号获取与用户权限适配的弹幕界面，生成弹幕内容输出。

10.基于声纹识别的个性化视频弹幕的语音交互终端系统，其特征在于，包括：

关键词配置模块，用于配置响应于语音操作的关键词存储，所述关键词包括适配于语音唤醒发送弹幕操作的第一关键词和适配于语音赠送礼物弹幕操作的第二关键词；

声纹检测模块，与所述关键词配置模块连接，用于进行语音监听，并根据检测到的语音和所述第一关键词进行声纹识别，生成声纹识别结果；

弹幕处理模块，与所述声纹检测模块连接，用于进行语音检测，并根据检测到的语音内容和所述声纹识别结果实现对视频弹幕的个性化操作；

其中，所述弹幕处理模块包括：

语音检测单元，用于根据监听时检测到的语音和所述第一关键词启动语音端点检测，根据检测到的语音的有效起始端点和有效结束端点，持续获取语音内容，并在检测到有效结束端点时生成发送弹幕操作信号；

送礼检测单元，与所述语音检测单元连接，用于根据所述语音内容和所述第二关键词判断是否存在送礼互动操作，在判断存在送礼互动操作时，根据声纹识别结果获取用户权限信息，根据用户权限信息进行支付操作或发送礼物弹幕操作；和

发送弹幕单元，用于根据用户权限信息、所述语音内容和所述发送弹幕操作信号生成弹幕内容输出。

11.根据权利要求10所述的基于声纹识别的个性化视频弹幕的语音交互终端系统，其特征在于，所述声纹检测模块包括：

匹配单元，用于获取用户的语音信息与预存的声音信息进行匹配，若匹配成功则生成用于标识用户权限的声纹身份信号；若匹配失败则生成用于启用注册单元的失败信号；

注册单元，与所述匹配单元连接，用于响应于所述失败信号进行声纹注册，并根据声纹注册结果生成用于标识用户权限的声纹身份信号。

12.一种智能终端设备，包括存储单元和执行单元，其特征在于，所述存储单元存储有用于实现权利要求1至9任一项所述方法的程序指令，所述程序指令能够被所述执行单元执行以用于基于声纹识别实现向所述智能终端设备中的用于进行视频播放的视频软件终端发送个性化视频弹幕的操作。

13.一种视频软件终端，其特征在于，所述视频软件终端中包括有弹幕语音控制模块，所述弹幕语音控制模块为权利要求10至11任意一项所述的基于声纹识别的个性化视频弹幕的语音交互终端系统，用于基于声纹识别实现向所述视频软件终端发送个性化视频弹幕的操作。