CN109195016B - 面向智能终端设备的视频弹幕的语音交互方法、终端系统及智能终端设备 - Google Patents

面向智能终端设备的视频弹幕的语音交互方法、终端系统及智能终端设备 Download PDF

Info

Publication number
CN109195016B
CN109195016B CN201811069053.3A CN201811069053A CN109195016B CN 109195016 B CN109195016 B CN 109195016B CN 201811069053 A CN201811069053 A CN 201811069053A CN 109195016 B CN109195016 B CN 109195016B
Authority
CN
China
Prior art keywords
bullet screen
voice
intelligent terminal
barrage
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811069053.3A
Other languages
English (en)
Other versions
CN109195016A (zh
Inventor
郑炜乔
雷雄国
涂长宇
强胜轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Priority to CN201811069053.3A priority Critical patent/CN109195016B/zh
Publication of CN109195016A publication Critical patent/CN109195016A/zh
Application granted granted Critical
Publication of CN109195016B publication Critical patent/CN109195016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明公开一种面向智能终端设备的视频弹幕的语音交互方法,包括如下步骤:配置响应于语音操作的关键词;进行语音监听,并根据检测到的语音和关键词生成弹幕操作信号;根据弹幕操作信号实现对智能终端设备的视频弹幕操作。同时,本发明还公开了一种面向智能终端设备的视频弹幕的语音交互终端系统及智能终端设备。通过本发明可以赋予智能家居场景下的语音交互新方法,实现远近场语音唤醒发送弹幕,并通过语音实时转文字实现弹幕内容的输入与交互,解决智能家居场景下无法进行弹幕交互的缺口,同时相对于现有的手机或电脑设备下的手动输入文字弹幕来说更有效与便利,极大提升了用户体验与参与感。

Description

面向智能终端设备的视频弹幕的语音交互方法、终端系统及 智能终端设备
技术领域
本发明涉及通信技术领域,特别是一种面向智能终端设备的视频弹幕的语音交互方法、终端系统及智能终端设备。
背景技术
随着弹幕技术的发展和智能终端设备如智能电视的普及,越来越多的电视用户倾向于在观看电视节目时发表和观看弹幕评论,可以表达自己观看电视节目的感受,增加节目的参与感。
在目前的实际应用中,用户向智能终端设备如智能电视,发表弹幕的评论方式为:将手机或电脑设备与智能电视建立通信连接,通过在手机或电脑设备上手动输入文字弹幕,传输至智能电视显示。在智能电视场景下,无法将用户与智能电视建立直接交互式的连接,影响用户的体验感和参与感。并且,在其他智能终端设备的场景下,目前弹幕的发表方式也还是通过用户进行手动输入文字的方式,影响用户的体验。
发明内容
本发明为了解决上述问题,提供了一种通过语音交互的方式来控制视频弹幕的新方案,该方案通过语音交互的方式对智能终端设备上的提供弹幕功能的视频软件进行弹幕操作,极大的提高了用户的参与感,且扩展了用户可进行弹幕操作的场景。
根据本发明的一个方面,提供了一种面向智能终端设备的视频弹幕的语音交互方法,包括如下步骤:配置响应于语音操作的关键词;进行语音监听,并根据检测到的语音和关键词实现对智能终端设备的视频弹幕操作。由此,可以通过检测不同的关键词进行语音唤醒,并根据不同的关键词识别语音指令,从而做出与关键词对应的语音操作控制,并在智能终端上响应,可以实现通过远近场语音唤醒控制视频弹幕,解决了对于一些智能终端设备场景下无法进行弹幕交互的缺口,同时相对于现有的手机或电脑设备下的手动输入文字弹幕来说也更有效与便利,仅通过语音就可以实现交互式操作,极大提升了用户体验感与参与感。
在一些实施方式中,面向智能终端设备的视频弹幕的语音交互方法,语音操作包括打开弹幕操作和关闭弹幕操作,配置响应于语音操作的关键词实现为:配置响应于打开弹幕操作的第一关键词和响应于关闭弹幕操作的第二关键词存储;进行语音监听,并根据检测到的语音和所述关键词实现对智能终端设备的视频弹幕操作实现为:根据检测到的第一关键词生成第一弹幕操作信号或根据检测到的所述第二关键词生成第二弹幕操作信号;根据第一弹幕操作信号打开智能终端设备的视频弹幕或根据第二弹幕操作信号关闭智能终端设备的视频弹幕。由此,可以通过配置第一关键词和第二关键词来识别语音指令,并在做出相应语音指示时,就可以实现对弹幕进行打开和关闭的操作,而通过配置多种关键词,也可以根据不同的语音操作信号触发不同的效果,使得用户可以通过语音控制更多方面的参与到交互场景中,提高了用户的体验感和参与感,实现为用户提供多种语音指令,使得整个交互过程更加贴近现实。
在一些实施方式中,上述面向智能终端设备的视频弹幕的语音交互方法,语音操作还包括发送弹幕操作,配置响应于语音操作的关键词实现为:配置响应于发送弹幕操作的第三关键词存储;进行语音监听,并根据检测到的语音和关键词实现对智能终端设备的视频弹幕操作实现为:根据检测到的第三关键词生成第三弹幕操作信号;根据第三弹幕操作信号向智能终端设备发送视频弹幕。由此,可以根据语音内容实现对弹幕内容的编辑并发送,克服了现有技术中需要由用户在终端上打字输入弹幕内容再手动发送,而导致用户体验感不佳的缺陷,仅通过语音就可以实现发送弹幕的操作,简单方便。
在一些实施方式中,上述面向智能终端设备的视频弹幕的语音交互方法,根据第三弹幕操作信号向智能终端设备发送弹幕包括如下步骤:
根据第三弹幕操作信号启动录音界面,并进行语音端点检测;自检测到有效起始端点起,持续获取语音信息将其转换为文本信息,在检测到有效结束端点时,获取文本信息生成弹幕发送指令输出至智能终端设备。在存储或传输语音的场景下,从连续的语音流中通过语音端点检测分离出有效的语音,可以降低存储或传输的数据量。其次,在一些应用场景中,使用端点检测可以简化人机交互,例如在录音的场景中,语音后端点检测可以省略结束录音的操作。由此,本发明采用了对语音的端点进行检测的方法来获取语音信息,对端点内的有效语音进行转换和输出,提高处理效率,节约资源,且方便用户。
在一些实施方式中,上述方法还包括配置用于语音操作的第四关键词;根据第三弹幕操作信号向智能终端设备发送弹幕还包括:在持续获取语音信息进行转换时,对转换的内容进行监测,识别文本信息中包含的第四关键词,并在识别到第四关键词时,根据第四关键词对文本信息进行操作。第四关键词包括用于发送弹幕消息的关键词、用于清空弹幕消息的关键词和用于删除弹幕消息的关键词。由此可以根据第四关键词中包含的不同的关键词对录制语音的过程进行语音控制,如清空弹幕、删除弹幕、发送弹幕,特别对于删除弹幕的控制,不需要再由用户去手动的逐字删除,简单方便,提高了用户的体验感,且节约了处理流程。
根据本发明的另一个方面,提供了一种面向智能终端设备的视频弹幕的语音交互的终端系统,包括关键词配置模块,用于配置响应于语音操作的关键词存储;语音处理模块,用于进行语音监听,并根据检测到的语音和关键词生成弹幕操作信号;调用模块,用于根据弹幕操作信号调用智能终端设备的视频弹幕接口,实现对智能终端设备视频弹幕的控制。由此,可以通过本语音交互终端系统实现远近场语音唤醒的方式对视频弹幕进行操控,并通过语音实时转文字实现弹幕内容的输入与交互。并且,通过关键词配置模块可以设置多种供用户使用的语音指令,丰富了用户的体验。在监听到语音时最终将语音信息通过语音处理模块转变为可供智能终端识别的文本信息或操作信号信息,再通过调用模块与智能终端设备的现有调用接口进行通信,不改变现有视频弹幕的调用方式,实现简单方便。
在一些实施方式中,在上述面向智能终端设备的视频弹幕的语音交互的终端系统中,关键词包括第一关键词、第二关键词和第三关键词,语音处理模块包括:开启弹幕单元,用于根据检测到的第一关键词唤醒打开弹幕操作;录制弹幕单元,用于根据检测到的第三关键词生成录制界面,唤醒发送弹幕操作;和关闭弹幕单元,用于根据检测到的第二关键词唤醒关闭弹幕操作。由此,可以根据语音处理模块控制弹幕功能的开启,实现了通过检测不同的关键词进行语音唤醒,并根据不同的关键词识别语音指令,从而做出与关键词对应的语音操作控制,并在智能终端上响应,可以实现通过远近场语音唤醒控制视频弹幕,增加用户的体验感。
在一些实施方式中,上述面向智能终端设备的视频弹幕的语音交互的终端系统,语音处理模块还包括:语音端点检测单元,用于根据第三关键词在录制界面进行语音端点检测;弹幕内容生成单元,用于根据语音端点检测单元检测到的有效起始端点起,持续获取语音信息将其转换为文本信息,并根据语音端点检测单元检测到的有效结束端点,获取文本信息生成弹幕发送指令输出至智能终端设备。由此,通过语音端点检测单元和弹幕内容生成单元可以实现在传输语音的场景下,从连续的语音流中分离出有效语音,降低存储或传输的数据量,并且可以简化在录音场景的人机交互处理过程,提高用户体验。
在一些实施方式中,上述面向智能终端设备的视频弹幕的语音交互的终端系统,关键词还包括第四关键词,第四关键词包括用于发送弹幕消息的关键词、用于清空弹幕消息的关键词和用于删除弹幕消息的关键词,弹幕内容生成单元包括:语音监测组件,用于在持续获取语音信息进行转换的同时,对转换的内容进行监测,识别文本信息中包含的第四关键词,并根据识别到的第四关键词对所述文本信息进行相应的操作。由此,可以根据第四关键词实现对录制过程的语音控制,在现有技术中,在发送弹幕时,需要在下方或弹出的文本框中输入文字,影响了用户的观看体验感,通过本系统就可以解决这一问题,可以使用户边看边通过语音编辑要输入的弹幕,在不需要发送弹幕内容时,还可以语音进行清空弹幕、删除弹幕等操作,非常智能,还大大的提升了用户的参与感。
根据本发明的另一个方面,提供了一种智能终端设备,包括上述面向智能终端设备的视频弹幕的语音交互的终端系统,该终端系统通过语音实现对智能终端设备上的用于进行视频播放的视频软件终端的视频弹幕的控制。由此,可以使得本发明上述提到的面向智能终端设备的视频弹幕的语音交互的终端系统适用于同一智能终端设备上的不同视频软件终端,实用性更高。
根据本发明的另一个方面,提供了一种智能终端设备,包括用于进行视频播放的视频软件终端,该视频软件终端中包括有弹幕语音控制模块,弹幕语音控制模块为上述的面向智能终端设备的视频弹幕的语音交互的终端系统,用于通过语音实现对视频软件终端的视频弹幕的控制。由此,可以将本发明上述提到的面向智能终端设备的视频弹幕的语音交互的终端系统设置于独立的视频软件终端中,使得该视频软件终端本身就集成有语音控制视频弹幕的功能,方便用户安装和灵活的使用该视频软件终端。
附图说明
图1为本发明一实施方式的面向智能终端设备的视频弹幕的语音交互的方法流程图;
图2为为本发明另一实施方式的根据第三弹幕操作信号向智能终端设备的视频发送弹幕的方法流程图;
图3为本发明一实施方式的面向智能终端设备的视频弹幕的语音交互的系统框图;
图4为本发明另一实施方式的面向智能终端设备的视频弹幕的语音交互的系统框图;
图5为本发明一实施方式的智能终端设备;
图6为本发明另一实施方式的智能终端设备。
具体实施方式
下面结合附图对本发明作进一步详细的说明。
本发明实施例所提到的智能终端设备可以是智能电视、智能手机、平板、计算机等。对于其它智能终端设备能够装载APP终端系统的,特别是视频软件终端的,也包含在本发明实施例所提到的智能终端设备中。
图1示意性地显示了根据本发明的一种实施方式的面向智能终端设备的视频弹幕的语音交互方法流程图。该实施例通过监测到语音和配置的关键词,生成用于适配于视频弹幕调用接口的弹幕操作信号,以通过弹幕操作信号调用视频弹幕的相应接口,实现对视频弹幕的语音控制,本领域技术人员可以理解的是,适用于视频弹幕本身提供的调用方式的不同,也可以对是否生成弹幕操作信号以及生成何种弹幕操作信号进行适应性调整,以达到相应的语音控制功能,这些都应视为在本发明的发明构思范围内的适应性变形。如图1所示,该方法包括如下步骤:
步骤S101:配置响应于语音操作的关键词。根据需求对用于语音控制视频弹幕的操作指令进行关键词配置,以基于关键词识别出语音操作指令,实现对视频弹幕的语音操控。具体实现可以为:配置第一关键词、第二关键词和第三关键词并存储,其中,将第一关键词配置为用于打开弹幕,配置内容例如为“打开弹幕”或“展现”等,第二关键词配置为用于关闭弹幕,配置内容例如为“关闭弹幕”或“关掉”等,第三关键词配置为用于发送弹幕,配置内容例如为“发送弹幕”或“启动”等。
步骤S102:进行语音监听,并根据检测到的语音和关键词生成弹幕操作信号。具体实现为:通过设置语音监听线程,始终对用户的语音进行监听,例如通过调用智能终端设备的语音监听接口,开启智能终端设备的语音监听线程,实现持续的语音监听(可以通过现有技术实现)。之后,当检测到用户发出语音指令时,对语音指令的内容进行识别(可以是通过现有技术先对语音内容进行文本转换,然后对文本内容进行关键词匹配识别,也可以是通过语音唤醒,也称关键词检测技术去匹配检测到的语音是否为关键词,这些都可参照相关现有技术进行实现),如果识别结果为包含有“打开弹幕”的语音,就会识别出该语音指令与第一关键词“打开弹幕”相匹配,此时会生成第一弹幕操作信号,该信号为触发信号,可以与提供弹幕功能的软件系统提供的接口进行适配,即根据现有的弹幕功能的调用接口,生成相适应的弹幕操作信号。同样地,如果识别结果为包含有“关闭弹幕”的语音,就会识别出该语音指令与第二关键词“关闭弹幕”相匹配,此时会生成第二弹幕操作信号,该信号为触发信号,可以与提供弹幕功能的软件系统提供的接口进行适配,即根据现有的弹幕功能的调用接口,生成相适应的弹幕操作信号。而如果识别结果为包含有“发送弹幕”的语音,就会识别出该语音指令与第三关键词“发送弹幕”相匹配,此时会生成第三弹幕操作信号,该信号包括对弹幕内容获取的指令以及触发发送弹幕消息的信号,对弹幕内容获取的指令可以是与智能终端设备的语音功能的调用接口相适配的指令,而触发发送弹幕消息的信号则与提供弹幕功能的软件系统提供的接口进行适配。
步骤S103:根据弹幕操作信号实现对智能终端设备的视频弹幕操作。具体实现为:根据生成的与各种接口适配的弹幕操作信号就可以与智能终端设备上的视频软件的弹幕接口进行通信或启动智能终端设备的录音功能,实现通过语音对弹幕操作的控制。其中,打开和关闭弹幕的操作,在生成第一弹幕操作信号和第二弹幕操作信号后,就可以通过弹幕接口的调用,向提供弹幕功能的软件终端直接输出调用指令,相应的软件终端就会根据调用指令提供打开或关闭弹幕的功能,即完成了通过语音对智能终端设备上的视频弹幕的打开或关闭操作的控制。而对发送弹幕的控制,则除了需要调用视频弹幕的调用接口外,还需要实现弹幕内容的处理和转换,其中,图2示出了一种实施方式的发送弹幕的实现方法,如图2所示,包括如下步骤:
步骤S201:根据第三弹幕操作信号启动录音界面,并进行语音端点检测。具体实现为:根据第三弹幕操作信号在进行语音录制的智能终端的界面上启动一个进行录音的界面(可以为语音波形界面或麦克风界面等),当跳转到这个录音界面时,就会启动语音端点检测的线程,持续进行语音端点检测,其中,语音端点检测可以通过现有技术实现,该现有技术例如可以是包括但不限于语音能量和过零率双门限的方法,并且还可以结合Fbank、听觉特性等特征综合进行判断。用户可以根据需求说出不同的语句,这时语音端点检测线程就会根据用户的语音能量检测到有效起始端点(即用户发出语音的第一个具有语音能量的词语)。通过语音端点检测,只有在检测到声音时才生成弹幕内容,即真正的用于发送弹幕的声音才会被识别并生成为弹幕内容,可以减少用户误操作,提高弹幕发送的准确率和成功率。
步骤S202:当检测到有效起始端点之后,就会持续获取用户输入的语音信息(即通过智能终端设备的语音功能),并将其实时转换为文本信息输出显示在录音界面。具体实现为:其中,将语音信息转换为文本信息可以参照现有技术实现。
步骤S203:当检测到有效起始端点后,语音端点检测线程会持续检测有效结束端点,当检测到有效结束端点时,在检测到有效结束端点(即用户停止语音,检测不到语音能量)时,停止获取语音信息和文本信息的转换,并进行步骤S204。
步骤S204:将最终获取的文本信息生成弹幕发送指令输出至智能终端设备。其中,生成的弹幕发送指令包括了提供弹幕功能的终端提供的调用接口信号和具体的弹幕内容,其中,调用接口信号根据提供弹幕功能的终端给出的标准接口进行适配,弹幕内容即为最终获取的文本信息。
通过端点检测,就可以在连续的语音流中分离出有效的语音(即可以检测到能量的语音),这样可以降低传输的数据量,且不需要用户进行开始和结束的配置或指示动作,简化处理过程。
在优选实施方式中,配置关键词时还配置了第四关键词,在持续获取语音信息进行转换时,还包括对转换的内容进行监测,识别文本信息中包含的第四关键词的步骤,这样,就可以在识别到第四关键词时,根据第四关键词对文本信息进行相应的操作。具体实现为:第四关键词包括用于发送弹幕消息的关键词(例如“发出”“发送”“over”等)、用于清空弹幕消息的关键词(例如“清空”、“不要了”等)和用于删除弹幕消息的关键词(例如“删除”、“删掉”等)。当检测到上述关键词时(与识别检测其他关键词的方式相同)就会对上述获取的文本信息做出相应的操作,例如在检测到清空弹幕消息的关键词时,就会删除全部已获取并转换得到的文本信息,将重新获取到的语音信息作为有效起始端点的消息内容,以生成新的用于发送弹幕的文本消息内容;再如在检测到删除弹幕消息的关键词时,就生成用于删除弹幕消息的弹幕操作信号,发送到智能终端设备的视频软件的调用接口,以将最新发送的弹幕消息删除;又如在检测到发送弹幕消息的关键词时,就将获取到的文本消息作为弹幕消息发送到智能终端设备的视频软件的调用接口,以将输入的语音消息作为弹幕消息发送(此方式可以与端点检测有效结束端点的实现方案择一选用,也可以与其并用)。由此,可以通过本语音交互终端系统实现远近场语音唤醒发送弹幕,并通过语音实时转文字实现弹幕内容的输入与交互,根据关键词配置模块设置多种可以供用户使用的指令,丰富了用户的体验,最终将语音信息通过文本模块转变为可供智能终端识别的文本信息,再通过调用模块得以及时性的显示。
在优选实施例中,该方法还可以实现为包括如下步骤:
在唤醒发送弹幕操作时,智能终端上的视频画面会保持继续播放,但是会自动调节音量,使视频音量降低,其具体实现方法为:在启动录音界面时,还生成音量控制信号(根据智能终端设备的录音功能提供的调用接口,生成适配的指令信号),调低智能终端设备的音量。这就,就可以避免用户在录制声音时外界噪音过大、不能识别等问题。在其他优选实施例中,还可以包括为录音界面设置个性化的显示效果的步骤,例如开始录音时还会在智能终端上输出显示录音动画,提醒用户已经进行录制模式。
图3示意性地显示了根据本发明一实施方式的面向智能终端设备的视频弹幕的语音交互的终端系统框图,如图3所示,包括关键词配置模块3、语音处理模块4和调用模块5,关键词配置模块3用于配置响应于语音操作的关键词存储,可以实现为一个数据库,语音处理模块4用于进行语音监听,并根据检测到的语音和关键词生成弹幕操作信号,调用模块5用于根据弹幕操作信号调用智能终端设备的视频弹幕接口,实现对智能终端设备视频弹幕的控制。其中,关键词包括第一关键词、第二关键词和第三关键词,将第一关键词配置为用于打开弹幕,配置内容例如为“打开弹幕”或“展现”等,第二关键词配置为用于关闭弹幕,配置内容例如为“关闭弹幕”或“关掉”等,第三关键词配置为用于发送弹幕,配置内容例如为“发送弹幕”或“启动”等。在关键词配置模块3中将这些关键词进行保存,可以理解的是,上述关键词的内容可以根据用户习惯进行更改。其中,语音处理模块4包括:开启弹幕单元401、录制弹幕单元402和关闭弹幕单元403,开启弹幕单元401用于根据检测到的第一关键词唤醒打开弹幕操作,唤醒打开弹幕操作可以实现为生成第一弹幕操作信号,以供调用模块利用该信号进行视频弹幕接口的调用,从而实现打开弹幕操作;录制弹幕单元402用于根据检测到的第三关键词生成录制界面,唤醒发送弹幕操作,唤醒发送弹幕操作可以实现为生成第三弹幕操作信号,以供调用模块利用该信号进行视频弹幕接口的调用,从而实现发送弹幕操作;关闭弹幕单元403用于根据检测到的第二关键词唤醒关闭弹幕操作,唤醒关闭弹幕操作可以实现为生成第二弹幕操作信号,以供调用模块利用该信号进行视频弹幕接口的调用,从而实现关闭弹幕操作。这样,将语音处理模块4与关键词配置模块3连接,语音处理模块4就可以对用户发出的语音进行实时监听,根据检测到的不同关键词生成对应的弹幕操作信号,从而基于调用模块5的调用实现对视频弹幕进行不同操作。调用模块5与语音处理模块4连接,与智能终端设备系统的现有技术中的弹幕调用接口相适配。本系统中各模块的具体的实现方法可以参照前文方法部分的叙述,在此不进行赘述。
图4示意性地显示了根据本发明另一实施方式的面向智能终端设备的视频弹幕的语音交互的终端系统框图,如图4所示,
语音处理模块还包括:语音端点检测单元404和弹幕内容生成单元405,语音端点检测单元404为现有技术的应用语音能量或过零率双门限的方法的装置,用于时刻监听语音消息进行语音端点检测;弹幕内容生成单元405与语音端点检测单元404连接,用于在语音端点检测单元404检测到的有效起始端点时,持续获取语音信息将其转换为文本信息(内容不限于文字、点赞、表情等),并根据语音端点检测单元检测404到的有效结束端点,获取文本信息生成弹幕发送指令输出至智能终端设备。语音处理模块中各单元的具体实现方式可以参照前文方法部分的叙述,在此不赘述。
其中,作为优选实施例,在本实施例中,在关键词配置模块3配置的关键词还包括第四关键词,第四关键词包括用于发送弹幕消息的关键词(例如“发出”“发送”“over”等)、用于清空弹幕消息的关键词(例如“清空”、“不要了”等)和用于删除弹幕消息的关键词(例如“删除”、“删掉”等),弹幕内容生成单元405包括语音监测组件4051,用于在持续获取语音信息进行转换的同时,对转换的内容进行监测,识别文本信息中包含的第四关键词,并根据识别到的第四关键词对所述文本信息进行相应的操作。该方案的具体的操作过程和实现方法可以参照前文,在此不进行赘述。由于在现有技术中,在发送弹幕时,需要在下方或弹出的文本框中输入文字,影响了用户的观看体验感,但通过本实施方式就可以解决这一问题,可以使用户边看边通过语音输入字幕,还大大的提升了用户的参与感。
本领域技术人员应当可以理解的是,本发明实施例中述及的一些方法步骤和模块,可以根据需求进行任意组合,以形成相应的技术方案,例如,可以仅包含实现对智能终端设备的打开和关闭弹幕的操作的方法步骤或模块组合,或可以仅包含实现对智能终端设备的发送弹幕的操作的方法步骤或模块组合。这些都应视为在本申请的保护范围内。
图5示意性地显示了根据本发明一实施方式的智能终端设备,在该实施例中,智能终端设备7包括视频软件终端701和上述面向智能终端设备的视频弹幕的语音交互的终端系统702,视频软件终端701可以为爱奇艺、优酷、腾讯视频等用于进行视频播放的软件,终端系统702通过语音实现对视频软件终端的视频弹幕的控制。由此,可以使得本发明上述提到的面向智能终端设备的视频弹幕的语音交互的终端系统适用于不同的智能终端,实用性更高。
图6示意性地显示了根据本发明另一实施方式的智能终端设备,在该实施例中,智能终端设备8包括用于进行视频播放的视频软件终端801,视频软件终端801中包括有弹幕语音控制模块802,弹幕语音控制模块802为上述的面向智能终端设备的视频弹幕的语音交互的终端系统702,用于通过语音实现对视频软件终端801的视频弹幕的控制。由此,可以将本发明上述提到的面向智能终端设备的视频弹幕的语音交互的终端系统设置于独立的终端系统中,方便用户安装和灵活的使用。
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (10)

1.面向智能终端设备的视频弹幕的语音交互方法,其特征在于,包括如下步骤:
配置响应于语音操作的关键词,其包括响应于打开弹幕操作的第一关键词、响应于关闭弹幕操作的第二关键词和响应于发送弹幕操作的第三关键词;
进行语音监听,并根据检测到的语音和所述关键词生成适配于智能终端设备的相应视频弹幕功能的调用接口的弹幕操作信号;
根据弹幕操作信号调用所述智能终端设备的对应功能的视频弹幕接口,实现对智能终端设备的相应视频弹幕功能的语音控制操作,其包括:
根据检测到的所述第一关键词生成与提供弹幕功能的软件系统提供的已有弹幕功能的调用接口适配的第一弹幕操作信号,通过所述第一弹幕操作信号唤醒所述智能终端设备的打开弹幕功能;
根据检测到的所述第二关键词生成与提供弹幕功能的软件系统提供的已有弹幕功能的调用接口适配的第二弹幕操作信号,通过所述第二弹幕操作信号唤醒所述智能终端设备的关闭弹幕功能;和
根据检测到的所述第三关键词生成第三弹幕操作信号,唤醒所述智能终端设备的发送弹幕功能,其中,所述第三弹幕操作信号包括与所述智能终端设备的语音功能的调用接口相适配的用于获取弹幕内容的指令和与提供弹幕功能的软件系统提供的调用接口相适配的用于触发发送弹幕消息的信号,通过所述第三弹幕操作信号启动录音界面和语音端点检测以获取弹幕内容及发送弹幕消息的信号输出至所述智能终端设备。
2.根据权利要求1所述的面向智能终端设备的视频弹幕的语音交互方法,其特征在于,所述基于语音端点检测获取弹幕内容及发送弹幕消息的信号包括如下步骤:
根据所述第三弹幕操作信号启动录音界面,并进行语音端点检测;
自检测到有效起始端点起,持续获取语音信息将其转换为文本信息,在检测到有效结束端点时,获取文本信息生成包括弹幕内容及发送弹幕消息信号的弹幕发送指令输出至所述智能终端设备。
3.根据权利要求2所述的面向智能终端设备的视频弹幕的语音交互方法,其中,所述方法还包括
配置用于语音操作的第四关键词;
所述根据所述第三弹幕操作信号向所述智能终端设备发送弹幕还包括:
在持续获取语音信息进行转换时,对转换的内容进行监测,识别所述文本信息中包含的第四关键词,并在识别到所述第四关键词时,根据所述第四关键词对所述文本信息进行操作。
4.根据权利要求3所述的面向智能终端设备的视频弹幕的语音交互方法,其特征在于,所述第四关键词包括用于发送弹幕消息的关键词、用于清空弹幕消息的关键词和用于删除弹幕消息的关键词。
5.根据权利要求1至4任一项所述的面向智能终端设备的视频弹幕的语音交互方法,其特征在于,还包括:
在唤醒发送弹幕功能时,保持所述智能终端设备上的视频画面继续播放,并自动调低所述智能终端设备的视频音量。
6.根据权利要求5所述的面向智能终端设备的视频弹幕的语音交互方法,其特征在于,还包括:
为所述录音界面设置个性化的显示效果。
7.面向智能终端设备的视频弹幕的语音交互的终端系统,其特征在于,包括
关键词配置模块,用于配置响应于语音操作的关键词存储,所述语音操作包括打开弹幕操作、关闭弹幕操作和发弹幕操作,所述关键词包括响应于打开弹幕操作的第一关键词、响应于关闭弹幕操作的第二关键词和响应于发弹幕操作的第三关键词;
语音处理模块,用于进行语音监听,并根据检测到的语音和所述关键词生成适配于智能终端设备的相应视频弹幕功能的调用接口的弹幕操作信号;以及
调用模块;用于根据弹幕操作信号调用所述智能终端设备的视频弹幕接口,实现对所述智能终端设备上的视频弹幕的控制;
其中,所述语音处理模块包括
开启弹幕单元,用于根据检测到的第一关键词唤醒打开弹幕操作;
关闭弹幕单元,用于根据检测到的第二关键词唤醒关闭弹幕操作;
录制弹幕单元,用于根据检测到的第三关键词生成录制界面,唤醒发送弹幕操作;
语音端点检测单元,用于根据所述第三关键词在录制界面进行语音端点检测;和
弹幕内容生成单元,用于根据所述语音端点检测单元检测到的有效起始端点,持续获取语音信息将其转换为文本信息,并根据所述语音端点检测单元检测到的有效结束端点,获取文本信息生成包括弹幕内容及发送弹幕消息信号的弹幕发送指令输出至所述智能终端设备。
8.根据权利要求7所述的面向智能终端设备的视频弹幕的语音交互的终端系统,其特征在于,所述关键词还包括第四关键词,第四关键词包括用于发送弹幕消息的关键词、用于清空弹幕消息的关键词和用于删除弹幕消息的关键词,所述弹幕内容生成单元包括:
语音监测组件,用于在持续获取语音信息进行转换的同时,对转换的内容进行监测,识别所述文本信息中包含的第四关键词,并根据识别到的所述第四关键词对所述文本信息进行相应的操作。
9.一种智能终端设备,其特征在于,包括权利要求7或8所述的面向智能终端设备的视频弹幕的语音交互的终端系统,所述终端系统通过语音实现对所述智能终端设备上的用于进行视频播放的视频软件终端的视频弹幕的控制。
10.一种用于进行视频播放的视频软件终端,其特征在于,所述视频软件终端中包括有弹幕语音控制模块,所述弹幕语音控制模块实现为权利要求7或8所述的面向智能终端设备的视频弹幕的语音交互的终端系统,用于通过语音实现对所述视频软件终端的视频弹幕的控制。
CN201811069053.3A 2018-09-13 2018-09-13 面向智能终端设备的视频弹幕的语音交互方法、终端系统及智能终端设备 Active CN109195016B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811069053.3A CN109195016B (zh) 2018-09-13 2018-09-13 面向智能终端设备的视频弹幕的语音交互方法、终端系统及智能终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811069053.3A CN109195016B (zh) 2018-09-13 2018-09-13 面向智能终端设备的视频弹幕的语音交互方法、终端系统及智能终端设备

Publications (2)

Publication Number Publication Date
CN109195016A CN109195016A (zh) 2019-01-11
CN109195016B true CN109195016B (zh) 2020-12-15

Family

ID=64910965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811069053.3A Active CN109195016B (zh) 2018-09-13 2018-09-13 面向智能终端设备的视频弹幕的语音交互方法、终端系统及智能终端设备

Country Status (1)

Country Link
CN (1) CN109195016B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110312229A (zh) * 2019-07-05 2019-10-08 斑马网络技术有限公司 一种车辆交互方法、装置、设备及可读存储介质
CN112017664A (zh) * 2020-08-19 2020-12-01 深圳创维-Rgb电子有限公司 基于语音识别的弹幕发送控制方法、装置、终端及介质
CN113382311A (zh) * 2020-11-27 2021-09-10 北京大米科技有限公司 在线教学交互方法、装置、存储介质以及终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105867718A (zh) * 2015-12-10 2016-08-17 乐视网信息技术(北京)股份有限公司 一种多媒体互动方法及装置
CN106470356A (zh) * 2015-08-17 2017-03-01 百度在线网络技术(北京)有限公司 一种弹幕发布方法及装置
CN106791921A (zh) * 2016-12-09 2017-05-31 北京小米移动软件有限公司 视频直播的处理方法及装置
CN106804006A (zh) * 2017-03-07 2017-06-06 杭州当虹科技有限公司 一种vr全景视频弹幕评论投放方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW463503B (en) * 1998-08-26 2001-11-11 United Video Properties Inc Television chat system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106470356A (zh) * 2015-08-17 2017-03-01 百度在线网络技术(北京)有限公司 一种弹幕发布方法及装置
CN105867718A (zh) * 2015-12-10 2016-08-17 乐视网信息技术(北京)股份有限公司 一种多媒体互动方法及装置
CN106791921A (zh) * 2016-12-09 2017-05-31 北京小米移动软件有限公司 视频直播的处理方法及装置
CN106804006A (zh) * 2017-03-07 2017-06-06 杭州当虹科技有限公司 一种vr全景视频弹幕评论投放方法和系统

Also Published As

Publication number Publication date
CN109195016A (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
CN110634483B (zh) 人机交互方法、装置、电子设备及存储介质
AU2014200407B2 (en) Method for Voice Activation of a Software Agent from Standby Mode
CN109195016B (zh) 面向智能终端设备的视频弹幕的语音交互方法、终端系统及智能终端设备
JP2019117623A (ja) 音声対話方法、装置、デバイス及び記憶媒体
US11282519B2 (en) Voice interaction method, device and computer readable storage medium
US20140242955A1 (en) Method and system for supporting a translation-based communication service and terminal supporting the service
CN109147779A (zh) 语音数据处理方法和装置
US11200899B2 (en) Voice processing method, apparatus and device
KR102331254B1 (ko) 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
KR20160036104A (ko) 디지털화된 오디오 스트림을 분석하는 저전력 집적 회로
CN111862940A (zh) 基于耳机实现的翻译方法、装置、系统、设备和存储介质
WO2022089224A1 (zh) 一种视频通信方法、装置、电子设备、计算机可读存储介质及计算机程序产品
KR102358831B1 (ko) 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
KR20190005103A (ko) 전자기기의 웨이크업 방법, 장치, 디바이스 및 컴퓨터 가독 기억매체
JP2014182307A (ja) 音声認識システム、および発話システム
CN109065049A (zh) 基于语音交互的智能终端的社交分享方法及系统、智能终端设备
CN108494970A (zh) 终端状态信息的处理方法、装置、存储介质及终端
WO2019239659A1 (ja) 情報処理装置および情報処理方法
CN109658924B (zh) 会话消息处理方法、装置及智能设备
JP7331044B2 (ja) 情報処理方法、装置、システム、電子機器、記憶媒体およびコンピュータプログラム
JP2022095689A (ja) 音声データノイズ低減方法、装置、機器、記憶媒体及びプログラム
CN110534084B (zh) 一种基于FreeSWITCH的智能语音控制方法及系统
US20170289327A1 (en) Electronic device and voice controlling method
CN108281145B (zh) 语音处理方法、语音处理装置和电子设备
CN112565913A (zh) 视频通话方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee after: Sipic Technology Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee before: AI SPEECH Co.,Ltd.

CP01 Change in the name or title of a patent holder
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Voice interaction methods, terminal systems, and intelligent terminal devices for video barrage targeting intelligent terminal devices

Effective date of registration: 20230726

Granted publication date: 20201215

Pledgee: CITIC Bank Limited by Share Ltd. Suzhou branch

Pledgor: Sipic Technology Co.,Ltd.

Registration number: Y2023980049433

PE01 Entry into force of the registration of the contract for pledge of patent right