面向智能终端设备的视频弹幕的语音交互方法、终端系统及
智能终端设备
技术领域
本发明涉及通信技术领域,特别是一种面向智能终端设备的视频弹幕的语音交互方法、终端系统及智能终端设备。
背景技术
随着弹幕技术的发展和智能终端设备如智能电视的普及,越来越多的电视用户倾向于在观看电视节目时发表和观看弹幕评论,可以表达自己观看电视节目的感受,增加节目的参与感。
在目前的实际应用中,用户向智能终端设备如智能电视,发表弹幕的评论方式为:将手机或电脑设备与智能电视建立通信连接,通过在手机或电脑设备上手动输入文字弹幕,传输至智能电视显示。在智能电视场景下,无法将用户与智能电视建立直接交互式的连接,影响用户的体验感和参与感。并且,在其他智能终端设备的场景下,目前弹幕的发表方式也还是通过用户进行手动输入文字的方式,影响用户的体验。
发明内容
本发明为了解决上述问题,提供了一种通过语音交互的方式来控制视频弹幕的新方案,该方案通过语音交互的方式对智能终端设备上的提供弹幕功能的视频软件进行弹幕操作,极大的提高了用户的参与感,且扩展了用户可进行弹幕操作的场景。
根据本发明的一个方面,提供了一种面向智能终端设备的视频弹幕的语音交互方法,包括如下步骤:配置响应于语音操作的关键词;进行语音监听,并根据检测到的语音和关键词实现对智能终端设备的视频弹幕操作。由此,可以通过检测不同的关键词进行语音唤醒,并根据不同的关键词识别语音指令,从而做出与关键词对应的语音操作控制,并在智能终端上响应,可以实现通过远近场语音唤醒控制视频弹幕,解决了对于一些智能终端设备场景下无法进行弹幕交互的缺口,同时相对于现有的手机或电脑设备下的手动输入文字弹幕来说也更有效与便利,仅通过语音就可以实现交互式操作,极大提升了用户体验感与参与感。
在一些实施方式中,面向智能终端设备的视频弹幕的语音交互方法,语音操作包括打开弹幕操作和关闭弹幕操作,配置响应于语音操作的关键词实现为:配置响应于打开弹幕操作的第一关键词和响应于关闭弹幕操作的第二关键词存储;进行语音监听,并根据检测到的语音和所述关键词实现对智能终端设备的视频弹幕操作实现为:根据检测到的第一关键词生成第一弹幕操作信号或根据检测到的所述第二关键词生成第二弹幕操作信号;根据第一弹幕操作信号打开智能终端设备的视频弹幕或根据第二弹幕操作信号关闭智能终端设备的视频弹幕。由此,可以通过配置第一关键词和第二关键词来识别语音指令,并在做出相应语音指示时,就可以实现对弹幕进行打开和关闭的操作,而通过配置多种关键词,也可以根据不同的语音操作信号触发不同的效果,使得用户可以通过语音控制更多方面的参与到交互场景中,提高了用户的体验感和参与感,实现为用户提供多种语音指令,使得整个交互过程更加贴近现实。
在一些实施方式中,上述面向智能终端设备的视频弹幕的语音交互方法,语音操作还包括发送弹幕操作,配置响应于语音操作的关键词实现为:配置响应于发送弹幕操作的第三关键词存储;进行语音监听,并根据检测到的语音和关键词实现对智能终端设备的视频弹幕操作实现为:根据检测到的第三关键词生成第三弹幕操作信号;根据第三弹幕操作信号向智能终端设备发送视频弹幕。由此,可以根据语音内容实现对弹幕内容的编辑并发送,克服了现有技术中需要由用户在终端上打字输入弹幕内容再手动发送,而导致用户体验感不佳的缺陷,仅通过语音就可以实现发送弹幕的操作,简单方便。
在一些实施方式中,上述面向智能终端设备的视频弹幕的语音交互方法,根据第三弹幕操作信号向智能终端设备发送弹幕包括如下步骤:
根据第三弹幕操作信号启动录音界面,并进行语音端点检测;自检测到有效起始端点起,持续获取语音信息将其转换为文本信息,在检测到有效结束端点时,获取文本信息生成弹幕发送指令输出至智能终端设备。在存储或传输语音的场景下,从连续的语音流中通过语音端点检测分离出有效的语音,可以降低存储或传输的数据量。其次,在一些应用场景中,使用端点检测可以简化人机交互,例如在录音的场景中,语音后端点检测可以省略结束录音的操作。由此,本发明采用了对语音的端点进行检测的方法来获取语音信息,对端点内的有效语音进行转换和输出,提高处理效率,节约资源,且方便用户。
在一些实施方式中,上述方法还包括配置用于语音操作的第四关键词;根据第三弹幕操作信号向智能终端设备发送弹幕还包括:在持续获取语音信息进行转换时,对转换的内容进行监测,识别文本信息中包含的第四关键词,并在识别到第四关键词时,根据第四关键词对文本信息进行操作。第四关键词包括用于发送弹幕消息的关键词、用于清空弹幕消息的关键词和用于删除弹幕消息的关键词。由此可以根据第四关键词中包含的不同的关键词对录制语音的过程进行语音控制,如清空弹幕、删除弹幕、发送弹幕,特别对于删除弹幕的控制,不需要再由用户去手动的逐字删除,简单方便,提高了用户的体验感,且节约了处理流程。
根据本发明的另一个方面,提供了一种面向智能终端设备的视频弹幕的语音交互的终端系统,包括关键词配置模块,用于配置响应于语音操作的关键词存储;语音处理模块,用于进行语音监听,并根据检测到的语音和关键词生成弹幕操作信号;调用模块,用于根据弹幕操作信号调用智能终端设备的视频弹幕接口,实现对智能终端设备视频弹幕的控制。由此,可以通过本语音交互终端系统实现远近场语音唤醒的方式对视频弹幕进行操控,并通过语音实时转文字实现弹幕内容的输入与交互。并且,通过关键词配置模块可以设置多种供用户使用的语音指令,丰富了用户的体验。在监听到语音时最终将语音信息通过语音处理模块转变为可供智能终端识别的文本信息或操作信号信息,再通过调用模块与智能终端设备的现有调用接口进行通信,不改变现有视频弹幕的调用方式,实现简单方便。
在一些实施方式中,在上述面向智能终端设备的视频弹幕的语音交互的终端系统中,关键词包括第一关键词、第二关键词和第三关键词,语音处理模块包括:开启弹幕单元,用于根据检测到的第一关键词唤醒打开弹幕操作;录制弹幕单元,用于根据检测到的第三关键词生成录制界面,唤醒发送弹幕操作;和关闭弹幕单元,用于根据检测到的第二关键词唤醒关闭弹幕操作。由此,可以根据语音处理模块控制弹幕功能的开启,实现了通过检测不同的关键词进行语音唤醒,并根据不同的关键词识别语音指令,从而做出与关键词对应的语音操作控制,并在智能终端上响应,可以实现通过远近场语音唤醒控制视频弹幕,增加用户的体验感。
在一些实施方式中,上述面向智能终端设备的视频弹幕的语音交互的终端系统,语音处理模块还包括:语音端点检测单元,用于根据第三关键词在录制界面进行语音端点检测;弹幕内容生成单元,用于根据语音端点检测单元检测到的有效起始端点起,持续获取语音信息将其转换为文本信息,并根据语音端点检测单元检测到的有效结束端点,获取文本信息生成弹幕发送指令输出至智能终端设备。由此,通过语音端点检测单元和弹幕内容生成单元可以实现在传输语音的场景下,从连续的语音流中分离出有效语音,降低存储或传输的数据量,并且可以简化在录音场景的人机交互处理过程,提高用户体验。
在一些实施方式中,上述面向智能终端设备的视频弹幕的语音交互的终端系统,关键词还包括第四关键词,第四关键词包括用于发送弹幕消息的关键词、用于清空弹幕消息的关键词和用于删除弹幕消息的关键词,弹幕内容生成单元包括:语音监测组件,用于在持续获取语音信息进行转换的同时,对转换的内容进行监测,识别文本信息中包含的第四关键词,并根据识别到的第四关键词对所述文本信息进行相应的操作。由此,可以根据第四关键词实现对录制过程的语音控制,在现有技术中,在发送弹幕时,需要在下方或弹出的文本框中输入文字,影响了用户的观看体验感,通过本系统就可以解决这一问题,可以使用户边看边通过语音编辑要输入的弹幕,在不需要发送弹幕内容时,还可以语音进行清空弹幕、删除弹幕等操作,非常智能,还大大的提升了用户的参与感。
根据本发明的另一个方面,提供了一种智能终端设备,包括上述面向智能终端设备的视频弹幕的语音交互的终端系统,该终端系统通过语音实现对智能终端设备上的用于进行视频播放的视频软件终端的视频弹幕的控制。由此,可以使得本发明上述提到的面向智能终端设备的视频弹幕的语音交互的终端系统适用于同一智能终端设备上的不同视频软件终端,实用性更高。
根据本发明的另一个方面,提供了一种智能终端设备,包括用于进行视频播放的视频软件终端,该视频软件终端中包括有弹幕语音控制模块,弹幕语音控制模块为上述的面向智能终端设备的视频弹幕的语音交互的终端系统,用于通过语音实现对视频软件终端的视频弹幕的控制。由此,可以将本发明上述提到的面向智能终端设备的视频弹幕的语音交互的终端系统设置于独立的视频软件终端中,使得该视频软件终端本身就集成有语音控制视频弹幕的功能,方便用户安装和灵活的使用该视频软件终端。
附图说明
图1为本发明一实施方式的面向智能终端设备的视频弹幕的语音交互的方法流程图;
图2为为本发明另一实施方式的根据第三弹幕操作信号向智能终端设备的视频发送弹幕的方法流程图;
图3为本发明一实施方式的面向智能终端设备的视频弹幕的语音交互的系统框图;
图4为本发明另一实施方式的面向智能终端设备的视频弹幕的语音交互的系统框图;
图5为本发明一实施方式的智能终端设备;
图6为本发明另一实施方式的智能终端设备。
具体实施方式
下面结合附图对本发明作进一步详细的说明。
本发明实施例所提到的智能终端设备可以是智能电视、智能手机、平板、计算机等。对于其它智能终端设备能够装载APP终端系统的,特别是视频软件终端的,也包含在本发明实施例所提到的智能终端设备中。
图1示意性地显示了根据本发明的一种实施方式的面向智能终端设备的视频弹幕的语音交互方法流程图。该实施例通过监测到语音和配置的关键词,生成用于适配于视频弹幕调用接口的弹幕操作信号,以通过弹幕操作信号调用视频弹幕的相应接口,实现对视频弹幕的语音控制,本领域技术人员可以理解的是,适用于视频弹幕本身提供的调用方式的不同,也可以对是否生成弹幕操作信号以及生成何种弹幕操作信号进行适应性调整,以达到相应的语音控制功能,这些都应视为在本发明的发明构思范围内的适应性变形。如图1所示,该方法包括如下步骤:
步骤S101:配置响应于语音操作的关键词。根据需求对用于语音控制视频弹幕的操作指令进行关键词配置,以基于关键词识别出语音操作指令,实现对视频弹幕的语音操控。具体实现可以为:配置第一关键词、第二关键词和第三关键词并存储,其中,将第一关键词配置为用于打开弹幕,配置内容例如为“打开弹幕”或“展现”等,第二关键词配置为用于关闭弹幕,配置内容例如为“关闭弹幕”或“关掉”等,第三关键词配置为用于发送弹幕,配置内容例如为“发送弹幕”或“启动”等。
步骤S102:进行语音监听,并根据检测到的语音和关键词生成弹幕操作信号。具体实现为:通过设置语音监听线程,始终对用户的语音进行监听,例如通过调用智能终端设备的语音监听接口,开启智能终端设备的语音监听线程,实现持续的语音监听(可以通过现有技术实现)。之后,当检测到用户发出语音指令时,对语音指令的内容进行识别(可以是通过现有技术先对语音内容进行文本转换,然后对文本内容进行关键词匹配识别,也可以是通过语音唤醒,也称关键词检测技术去匹配检测到的语音是否为关键词,这些都可参照相关现有技术进行实现),如果识别结果为包含有“打开弹幕”的语音,就会识别出该语音指令与第一关键词“打开弹幕”相匹配,此时会生成第一弹幕操作信号,该信号为触发信号,可以与提供弹幕功能的软件系统提供的接口进行适配,即根据现有的弹幕功能的调用接口,生成相适应的弹幕操作信号。同样地,如果识别结果为包含有“关闭弹幕”的语音,就会识别出该语音指令与第二关键词“关闭弹幕”相匹配,此时会生成第二弹幕操作信号,该信号为触发信号,可以与提供弹幕功能的软件系统提供的接口进行适配,即根据现有的弹幕功能的调用接口,生成相适应的弹幕操作信号。而如果识别结果为包含有“发送弹幕”的语音,就会识别出该语音指令与第三关键词“发送弹幕”相匹配,此时会生成第三弹幕操作信号,该信号包括对弹幕内容获取的指令以及触发发送弹幕消息的信号,对弹幕内容获取的指令可以是与智能终端设备的语音功能的调用接口相适配的指令,而触发发送弹幕消息的信号则与提供弹幕功能的软件系统提供的接口进行适配。
步骤S103:根据弹幕操作信号实现对智能终端设备的视频弹幕操作。具体实现为:根据生成的与各种接口适配的弹幕操作信号就可以与智能终端设备上的视频软件的弹幕接口进行通信或启动智能终端设备的录音功能,实现通过语音对弹幕操作的控制。其中,打开和关闭弹幕的操作,在生成第一弹幕操作信号和第二弹幕操作信号后,就可以通过弹幕接口的调用,向提供弹幕功能的软件终端直接输出调用指令,相应的软件终端就会根据调用指令提供打开或关闭弹幕的功能,即完成了通过语音对智能终端设备上的视频弹幕的打开或关闭操作的控制。而对发送弹幕的控制,则除了需要调用视频弹幕的调用接口外,还需要实现弹幕内容的处理和转换,其中,图2示出了一种实施方式的发送弹幕的实现方法,如图2所示,包括如下步骤:
步骤S201:根据第三弹幕操作信号启动录音界面,并进行语音端点检测。具体实现为:根据第三弹幕操作信号在进行语音录制的智能终端的界面上启动一个进行录音的界面(可以为语音波形界面或麦克风界面等),当跳转到这个录音界面时,就会启动语音端点检测的线程,持续进行语音端点检测,其中,语音端点检测可以通过现有技术实现,该现有技术例如可以是包括但不限于语音能量和过零率双门限的方法,并且还可以结合Fbank、听觉特性等特征综合进行判断。用户可以根据需求说出不同的语句,这时语音端点检测线程就会根据用户的语音能量检测到有效起始端点(即用户发出语音的第一个具有语音能量的词语)。通过语音端点检测,只有在检测到声音时才生成弹幕内容,即真正的用于发送弹幕的声音才会被识别并生成为弹幕内容,可以减少用户误操作,提高弹幕发送的准确率和成功率。
步骤S202:当检测到有效起始端点之后,就会持续获取用户输入的语音信息(即通过智能终端设备的语音功能),并将其实时转换为文本信息输出显示在录音界面。具体实现为:其中,将语音信息转换为文本信息可以参照现有技术实现。
步骤S203:当检测到有效起始端点后,语音端点检测线程会持续检测有效结束端点,当检测到有效结束端点时,在检测到有效结束端点(即用户停止语音,检测不到语音能量)时,停止获取语音信息和文本信息的转换,并进行步骤S204。
步骤S204:将最终获取的文本信息生成弹幕发送指令输出至智能终端设备。其中,生成的弹幕发送指令包括了提供弹幕功能的终端提供的调用接口信号和具体的弹幕内容,其中,调用接口信号根据提供弹幕功能的终端给出的标准接口进行适配,弹幕内容即为最终获取的文本信息。
通过端点检测,就可以在连续的语音流中分离出有效的语音(即可以检测到能量的语音),这样可以降低传输的数据量,且不需要用户进行开始和结束的配置或指示动作,简化处理过程。
在优选实施方式中,配置关键词时还配置了第四关键词,在持续获取语音信息进行转换时,还包括对转换的内容进行监测,识别文本信息中包含的第四关键词的步骤,这样,就可以在识别到第四关键词时,根据第四关键词对文本信息进行相应的操作。具体实现为:第四关键词包括用于发送弹幕消息的关键词(例如“发出”“发送”“over”等)、用于清空弹幕消息的关键词(例如“清空”、“不要了”等)和用于删除弹幕消息的关键词(例如“删除”、“删掉”等)。当检测到上述关键词时(与识别检测其他关键词的方式相同)就会对上述获取的文本信息做出相应的操作,例如在检测到清空弹幕消息的关键词时,就会删除全部已获取并转换得到的文本信息,将重新获取到的语音信息作为有效起始端点的消息内容,以生成新的用于发送弹幕的文本消息内容;再如在检测到删除弹幕消息的关键词时,就生成用于删除弹幕消息的弹幕操作信号,发送到智能终端设备的视频软件的调用接口,以将最新发送的弹幕消息删除;又如在检测到发送弹幕消息的关键词时,就将获取到的文本消息作为弹幕消息发送到智能终端设备的视频软件的调用接口,以将输入的语音消息作为弹幕消息发送(此方式可以与端点检测有效结束端点的实现方案择一选用,也可以与其并用)。由此,可以通过本语音交互终端系统实现远近场语音唤醒发送弹幕,并通过语音实时转文字实现弹幕内容的输入与交互,根据关键词配置模块设置多种可以供用户使用的指令,丰富了用户的体验,最终将语音信息通过文本模块转变为可供智能终端识别的文本信息,再通过调用模块得以及时性的显示。
在优选实施例中,该方法还可以实现为包括如下步骤:
在唤醒发送弹幕操作时,智能终端上的视频画面会保持继续播放,但是会自动调节音量,使视频音量降低,其具体实现方法为:在启动录音界面时,还生成音量控制信号(根据智能终端设备的录音功能提供的调用接口,生成适配的指令信号),调低智能终端设备的音量。这就,就可以避免用户在录制声音时外界噪音过大、不能识别等问题。在其他优选实施例中,还可以包括为录音界面设置个性化的显示效果的步骤,例如开始录音时还会在智能终端上输出显示录音动画,提醒用户已经进行录制模式。
图3示意性地显示了根据本发明一实施方式的面向智能终端设备的视频弹幕的语音交互的终端系统框图,如图3所示,包括关键词配置模块3、语音处理模块4和调用模块5,关键词配置模块3用于配置响应于语音操作的关键词存储,可以实现为一个数据库,语音处理模块4用于进行语音监听,并根据检测到的语音和关键词生成弹幕操作信号,调用模块5用于根据弹幕操作信号调用智能终端设备的视频弹幕接口,实现对智能终端设备视频弹幕的控制。其中,关键词包括第一关键词、第二关键词和第三关键词,将第一关键词配置为用于打开弹幕,配置内容例如为“打开弹幕”或“展现”等,第二关键词配置为用于关闭弹幕,配置内容例如为“关闭弹幕”或“关掉”等,第三关键词配置为用于发送弹幕,配置内容例如为“发送弹幕”或“启动”等。在关键词配置模块3中将这些关键词进行保存,可以理解的是,上述关键词的内容可以根据用户习惯进行更改。其中,语音处理模块4包括:开启弹幕单元401、录制弹幕单元402和关闭弹幕单元403,开启弹幕单元401用于根据检测到的第一关键词唤醒打开弹幕操作,唤醒打开弹幕操作可以实现为生成第一弹幕操作信号,以供调用模块利用该信号进行视频弹幕接口的调用,从而实现打开弹幕操作;录制弹幕单元402用于根据检测到的第三关键词生成录制界面,唤醒发送弹幕操作,唤醒发送弹幕操作可以实现为生成第三弹幕操作信号,以供调用模块利用该信号进行视频弹幕接口的调用,从而实现发送弹幕操作;关闭弹幕单元403用于根据检测到的第二关键词唤醒关闭弹幕操作,唤醒关闭弹幕操作可以实现为生成第二弹幕操作信号,以供调用模块利用该信号进行视频弹幕接口的调用,从而实现关闭弹幕操作。这样,将语音处理模块4与关键词配置模块3连接,语音处理模块4就可以对用户发出的语音进行实时监听,根据检测到的不同关键词生成对应的弹幕操作信号,从而基于调用模块5的调用实现对视频弹幕进行不同操作。调用模块5与语音处理模块4连接,与智能终端设备系统的现有技术中的弹幕调用接口相适配。本系统中各模块的具体的实现方法可以参照前文方法部分的叙述,在此不进行赘述。
图4示意性地显示了根据本发明另一实施方式的面向智能终端设备的视频弹幕的语音交互的终端系统框图,如图4所示,
语音处理模块还包括:语音端点检测单元404和弹幕内容生成单元405,语音端点检测单元404为现有技术的应用语音能量或过零率双门限的方法的装置,用于时刻监听语音消息进行语音端点检测;弹幕内容生成单元405与语音端点检测单元404连接,用于在语音端点检测单元404检测到的有效起始端点时,持续获取语音信息将其转换为文本信息(内容不限于文字、点赞、表情等),并根据语音端点检测单元检测404到的有效结束端点,获取文本信息生成弹幕发送指令输出至智能终端设备。语音处理模块中各单元的具体实现方式可以参照前文方法部分的叙述,在此不赘述。
其中,作为优选实施例,在本实施例中,在关键词配置模块3配置的关键词还包括第四关键词,第四关键词包括用于发送弹幕消息的关键词(例如“发出”“发送”“over”等)、用于清空弹幕消息的关键词(例如“清空”、“不要了”等)和用于删除弹幕消息的关键词(例如“删除”、“删掉”等),弹幕内容生成单元405包括语音监测组件4051,用于在持续获取语音信息进行转换的同时,对转换的内容进行监测,识别文本信息中包含的第四关键词,并根据识别到的第四关键词对所述文本信息进行相应的操作。该方案的具体的操作过程和实现方法可以参照前文,在此不进行赘述。由于在现有技术中,在发送弹幕时,需要在下方或弹出的文本框中输入文字,影响了用户的观看体验感,但通过本实施方式就可以解决这一问题,可以使用户边看边通过语音输入字幕,还大大的提升了用户的参与感。
本领域技术人员应当可以理解的是,本发明实施例中述及的一些方法步骤和模块,可以根据需求进行任意组合,以形成相应的技术方案,例如,可以仅包含实现对智能终端设备的打开和关闭弹幕的操作的方法步骤或模块组合,或可以仅包含实现对智能终端设备的发送弹幕的操作的方法步骤或模块组合。这些都应视为在本申请的保护范围内。
图5示意性地显示了根据本发明一实施方式的智能终端设备,在该实施例中,智能终端设备7包括视频软件终端701和上述面向智能终端设备的视频弹幕的语音交互的终端系统702,视频软件终端701可以为爱奇艺、优酷、腾讯视频等用于进行视频播放的软件,终端系统702通过语音实现对视频软件终端的视频弹幕的控制。由此,可以使得本发明上述提到的面向智能终端设备的视频弹幕的语音交互的终端系统适用于不同的智能终端,实用性更高。
图6示意性地显示了根据本发明另一实施方式的智能终端设备,在该实施例中,智能终端设备8包括用于进行视频播放的视频软件终端801,视频软件终端801中包括有弹幕语音控制模块802,弹幕语音控制模块802为上述的面向智能终端设备的视频弹幕的语音交互的终端系统702,用于通过语音实现对视频软件终端801的视频弹幕的控制。由此,可以将本发明上述提到的面向智能终端设备的视频弹幕的语音交互的终端系统设置于独立的终端系统中,方便用户安装和灵活的使用。
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。