CN109686372A

CN109686372A - 资源播放控制方法和装置

Info

Publication number: CN109686372A
Application number: CN201910002547.8A
Authority: CN
Inventors: 杨宇宁
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2019-01-02
Filing date: 2019-01-02
Publication date: 2019-04-26
Anticipated expiration: 2039-01-02
Also published as: CN109686372B

Abstract

本发明实施例提出一种资源播放控制方法和装置。其中该方法包括：检测资源播放设备的收音时长是否超时；如果所述收音时长未超时，则对所述资源播放设备收到的语音信号进行识别，以确定所述语音信号中是否包括资源播放需求；如果所述语音信号中包括资源播放需求，则执行所述资源播放需求对应的播放动作。本发明实施例可以在收音时长内，对收到的语音信号进行识别。如果语音信号具有资源播放需求，即可执行资源播放需求对应的播放动作。因此，可以无需唤醒设备就能够连续地进行资源播放控制。

Description

资源播放控制方法和装置

技术领域

本发明涉及语音交互技术领域，尤其涉及一种资源播放控制方法和装置。

背景技术

具有语音交互功能的智能设备进行语音控制时，每次都需要用户先说出唤醒词，再说出控制指令。

在控制资源播放的场景中，如果用户发现当前播放的资源不满意、当前的音量不适合等情况，可能需要手动调整，或者再次通过唤醒词和控制指令来改变资源播放状态。

但是，每次都需要唤醒设备，既不高效也不自然。即使增加多种唤醒词，也不能满足各种资源播放需求。而且还会增加用户记忆唤醒词的时间成本和对设备的使用难度。

发明内容

本发明实施例提供一种资源播放控制方法和装置，以解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种资源播放控制方法，包括：

检测资源播放设备的收音时长是否超时；

如果所述收音时长未超时，则对所述资源播放设备收到的语音信号进行识别，以确定所述语音信号中是否包括资源播放需求；

如果所述语音信号中包括资源播放需求，则执行所述资源播放需求对应的播放动作。

在一种实施方式中，该方法还包括：

检测资源播放设备是否处于唤醒状态；

如果所述资源播放设备处于唤醒状态，则执行检测资源播放设备的收音时长是否超时的步骤。

在一种实施方式中，该方法还包括：

如果所述资源播放设备处于未唤醒状态，则对所述资源播放设备收到的语音信号进行识别，以确定所述语音信号中是否包括唤醒词；

如果所述语音信号中包括唤醒词，则控制所述资源播放设备进入所述唤醒状态。

在一种实施方式中，检测资源播放设备的收音时长是否超时，包括：

在设定的资源播放控制场景下，检测所述资源播放设备的收音时长是否超时。

在一种实施方式中，该方法还包括：

如果所述收音时长超时，则控制所述资源播放设备进入未唤醒状态。

在一种实施方式中，如果所述语音信号中包括资源播放需求，则执行所述资源播放需求对应的播放动作，包括：

如果所述语音信号中包括多个资源播放需求，则按照识别出各所述资源播放需求的顺序执行对应的播放动作。

第二方面，本发明实施例提供了一种资源播放控制装置，包括：

收音检测模块，用于检测资源播放设备的收音时长是否超时；

需求识别模块，用于如果所述收音时长未超时，则对所述资源播放设备收到的语音信号进行识别，以确定所述语音信号中是否包括资源播放需求；

播放控制模块，用于如果所述语音信号中包括资源播放需求，则执行所述资源播放需求对应的播放动作。

在一种实施方式中，该装置还包括：

唤醒检测模块，用于检测资源播放设备是否处于唤醒状态；如果所述资源播放设备处于唤醒状态，则执行检测资源播放设备的收音时长是否超时的步骤。

在一种实施方式中，该装置还包括：

唤醒模块，用于如果所述资源播放设备处于未唤醒状态，则对所述资源播放设备收到的语音信号进行识别，以确定所述语音信号中是否包括唤醒词；如果所述语音信号中包括唤醒词，则控制所述资源播放设备进入所述唤醒状态。

在一种实施方式中，所述收音检测模块还用于在设定的资源播放控制场景下，检测所述资源播放设备的收音时长是否超时。

在一种实施方式中，该装置还包括：

未唤醒模块，用于如果所述收音时长超时，则控制所述资源播放设备进入未唤醒状态。

在一种实施方式中，所述播放控制模块还用于如果所述语音信号中包括多个资源播放需求，则按照识别出各所述资源播放需求的顺序执行对应的播放动作。

第三方面，本发明实施例提供了一种资源播放控制装置，所述装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，所述装置的结构中包括处理器和存储器，所述存储器用于存储支持所述装置执行上述资源播放控制方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述装置还可以包括通信接口，用于与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储资源播放控制装置所用的计算机软件指令，其包括用于执行上述资源播放控制方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：可以在收音时长内，对收到的语音信号进行识别。如果语音信号具有资源播放需求，即可执行资源播放需求对应的播放动作。因此，可以无需唤醒设备就能够连续地进行资源播放控制。

上述技术方案中的另一个技术方案具有如下优点或有益效果：可以一次唤醒，多次交互。先检测资源播放设备是否已经处于唤醒状态。如果资源播放设备处于唤醒状态，只要在收音时长内接收的语音信号具有资源播放需求，即可执行资源播放需求对应的播放动作。因此，将设备唤醒后能够连续地进行资源播放控制。这样，如果用户的资源播放需求发生了改变，不需要在每次进行资源播放控制时都说出唤醒词，直接说出包括资源播放需求的语音即可方便地改变资源播放需求对应的播放动作，提高了资源播放控制的灵活性。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示出根据本发明实施例的资源播放控制方法的流程图。

图2示出根据本发明实施例的资源播放控制方法的流程图。

图3示出根据本发明实施例的资源播放控制方法的应用示例的示意图。

图4示出根据本发明实施例的资源播放控制装置的结构框图。

图5示出根据本发明实施例的资源播放控制装置的结构框图。

图6示出根据本发明实施例的资源播放控制装置的结构框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1示出根据本发明实施例的资源播放控制方法的流程图。如图1所示，该方法可以包括：

步骤S11、检测资源播放设备的收音时长是否超时。

步骤S12、如果所述收音时长未超时，则对所述资源播放设备收到的语音信号进行识别，以确定所述语音信号中是否包括资源播放需求。

步骤S13、如果所述语音信号中包括资源播放需求，则执行所述资源播放需求对应的播放动作。

在本发明实施例中，资源播放设备可以包括具有语音交互功能和资源播放功能的各种设备，例如手机、笔记本电脑、手持电脑、智能音箱、影音播放器等。资源播放设备可以播放的资源包括但不限于音频、视频、文本等各种多媒体资源。

资源播放设备被唤醒后，进入唤醒状态，可以开始在收音时长内持续地进行收音。可以根据资源播放设备的类型、具体应用场景的需求等设置收音时长。在收音时长内，如果资源播放设备从收到的语音信号中识别到资源播放需求，则可以按照资源播放需求进行对应的操作。其中，资源播放设备可以在本地对语音信号进行识别，也可以将收到的语音信号发送到其他的设备例如云端的语音识别服务器中进行识别。

一般来说，资源播放设备具有自身的资源播放功能。例如，一般的资源播放设备具有调整音量、调整播放速度、调整画面显示效果、资源切换、状态控制等功能。其中，调整音量可以包括将音量调高、调低等。调整播放速度可以包括将音频或视频的播放速度调快、播放速度调慢，播放内容快进、播放内容后退等。调整画面显示效果可以包括调整色彩、对比度、亮度等。资源切换可以包括将当前播放的资源切换为上一首、下一首等。状态控制可以包括资源停止播放、资源开始播放等。

相应地，用户说出某些语音后，资源播放设备收到语音信号中包括的资源播放需求可以有多种。如果资源播放需求满足资源播放设备的功能，资源播放设备就能够进行与资源播放需求对应的播放动作。根据不同的资源播放需求，播放动作可以包括但不限于开始播放、暂停、切换为下一首、切换为上一首、快进、后退、加速播放、减速播放、改变音量、改变色彩、改变对比度、改变亮度等。

例如，如果用户说出“停止播放这首歌”的语音，识别出的资源播放需求为“停止”。这时，资源播放设备可以控制当前正在播放的资源停止播放。

再如，如果用户说出“我想听下一首歌”的语音，识别出的资源播放需求为“切换为下一首”。这时，资源播放设备可以将当前正在播放的资源切换为播放下一首资源。

在一种实施方式中，步骤S11包括：在设定的资源播放控制场景下，检测所述资源播放设备的收音时长是否超时。

在本发明实施例中，可以预先设定一些个性化的资源播放控制场景。例如，个性化的资源播放控制场景可以包括音乐播放场景、有声播放场景、新闻播放场景、笑话播放场景、视频播放等场景等。在这些场景中，一旦设备被唤醒，即可开始连续的接收并识别语音信号，从而连续地进行资源播放控制，无需每次都唤醒。在资源播放设备的各种场景中，也可以设置为每次都需要唤醒后再进行资源播放控制。例如，在音乐播放场景中，支持循环模式设置、快进、快退、上一首、下一首、开始播放、暂停等多次连续的资源播放控制。

在本发明实施例中，计算收音时长的方式有多种，示例如下：

方式一，将上一次从识别出的资源播放需求的时刻到当前时刻的时长作为收音时长。

例如，上一次识别出“暂停播放”的资源播放需求的时刻为10:00:00，当前时刻为10:00:05，则收音时长为5s。

方式二，将上一次检测到语音信号的时刻到当前时刻的时长作为收音时长。

例如，上一次收到语音信号的时刻为8:00:00，当前时刻为8:00:07，则收音时长为7s。

然后，判断收音时长是否超时。例如，如果设定一个时长阈值为8s，如果收音时长小于或等于8s则不超时，如果收音时长大于8s则超时。

在收音时长未超时的情况下，资源播放设备可以连续地进行收音，并识别收到的语音信号中的资源播放需求。如果收音时长超时，表明用户可能长时间不需要进行资源播放控制。这种情况下，可以控制所述资源播放设备再进入未唤醒状态。这样，资源播放设备可以更加的节能环保。

在一种实施方式中，步骤S13包括：如果所述语音信号中包括多个资源播放需求，则按照识别出各所述资源播放需求的顺序执行对应的播放动作。

如果资源播放设备连续地进行收音，并识别出多个资源播放需求，则可以按照识别出需求的顺序执行对应的播放动作。

例如，如果用户依次说出的语音包括“开始播放”、“把声音调高”、“播下一首吧”，识别出的资源播放需求依次为“开始”、“增加音量”、“切换为下一首”。这时，资源播放设备可以依次执行打开当前播放的资源、调高当前播放的资源的音量、切换为播放下一首资源。

在一种实施方式中，如图2所示，该方法还包括：

步骤S21、检测资源播放设备是否处于唤醒状态。如果所述资源播放设备处于唤醒状态，则执行检测资源播放设备的收音时长是否超时的步骤S11。

在一种实施方式中，如图2所示，该方法还包括：

步骤S22、如果所述资源播放设备处于未唤醒状态，则对所述资源播放设备收到的语音信号进行识别，以确定所述语音信号中是否包括唤醒词。

步骤S23、如果所述语音信号中包括唤醒词，则控制所述资源播放设备进入所述唤醒状态。

在本发明实施例中，可以预先设置一个或多个唤醒词。如果资源播放设备检测到用户的语音中包括唤醒词，即可将设备唤醒。将设备唤醒后，可以控制设备对收到的语音信号进行降噪、语音识别、语义理解等操作，得到资源播放需求。此外，还可以控制设备的计时器开始工作，从而开始计算收音时长。

本发明实施例中，可以在收音时长内，对收到的语音信号进行识别。如果语音信号具有资源播放需求，即可执行资源播放需求对应的播放动作。因此，可以无需唤醒设备就能够连续地进行资源播放控制。

此外，也可以一次唤醒，多次交互。先检测资源播放设备是否已经处于唤醒状态。如果资源播放设备处于唤醒状态，只要在收音时长内接收的语音信号具有资源播放需求，即可执行资源播放需求对应的播放动作。因此，将设备唤醒后能够连续地进行资源播放控制。这样，如果用户的资源播放需求发生了改变，不需要在每次进行资源播放控制时都说出唤醒词，直接说出包括资源播放需求的语音即可方便地改变资源播放需求对应的播放动作，提高了资源播放控制的灵活性。

在一种应用示例中，可以在设定场景，采用免唤醒播放控制。例如：在音乐播放场景、有声播放场景、新闻播放场景、笑话播放场景、视频播放(包括短视频、长视频播放等)、秒懂百科、串联触发的资源播放等场景，采用免唤醒播放控制。如音乐播放场景，支持循环模式设置、快进快退、上一首、下一首、播放、暂停等。并且，所有场景均可以支持通用控制。

其中，控制类表述，不限定形式，支持泛化表述。支持的表述形式多样，例如：“快退两分钟”、“快退30秒”、“随机播放我的收藏”、“单曲循环这首歌”等。

如图3所示，在上述的任意一种设定场景下，在资源播放中，可以利用收音时长进行资源播放控制。

如果处于收音时长内，在设备与用户的交互中，向用户传达“可以对我说”的状态，表示设备已被唤醒。用户可以直接说出需求，无需说唤醒词。设备可以响应收到的语音信号中的部分资源播放需求。如果是播放状态保持类需求，可以保持资源播放中状态。如果是播放状态终止类需求，可以控制资源停止播放。

如果处于收音时长外，设备可以重新进入未唤醒状态。在设备与用户的交互中，向用户传达“需要唤醒我”的状态，表示设备未被唤醒。用户不能直接说出需求，需要说出唤醒词先唤醒设备。设备响应收到的语音信号中的唤醒词，唤醒设备后，检测资源播放需求。如果是播放状态保持类需求，可以保持资源播放中状态。如果是播放状态终止类需求，可以控制资源停止播放。

效果示例场景一：

用户说出“小度小度，放个歌”，资源播放设备开始放歌；

用户说出“大点声”，资源播放设备声音变大；

用户说出“再大一点”，资源播放设备声音变大；

用户说出“下一首”，资源播放设备换了首歌；

用户说出“单曲循环”，资源播放设备单曲循环该歌曲。

效果示例场景二：

用户说出“小度小度，播放音乐”，资源播放设备开始放歌；

用户说出“换个歌”，资源播放设备换了首歌；

用户说出“收藏这首歌”，资源播放设备收藏。

本实施例中，可以在例如DuerOS中实现免唤醒的播放控制体验。进一步地，也可以一次唤醒，多次交互。

图4示出根据本发明实施例的资源播放控制装置的结构框图。如图4所示，该装置可以包括：

收音检测模块41，用于检测资源播放设备的收音时长是否超时；

需求识别模块42，用于如果所述收音时长未超时，则对所述资源播放设备收到的语音信号进行识别，以确定所述语音信号中是否包括资源播放需求；

播放控制模块43，用于如果所述语音信号中包括资源播放需求，则执行所述资源播放需求对应的播放动作。

在一种实施方式中，如图5所示，该装置还包括：

唤醒检测模块51，用于检测资源播放设备是否处于唤醒状态；如果所述资源播放设备处于唤醒状态，则执行检测资源播放设备的收音时长是否超时的步骤。

在一种实施方式中，该装置还包括：

唤醒模块52，用于如果所述资源播放设备处于未唤醒状态，则对所述资源播放设备收到的语音信号进行识别，以确定所述语音信号中是否包括唤醒词；如果所述语音信号中包括唤醒词，则控制所述资源播放设备进入所述唤醒状态。

在一种实施方式中，所述收音检测模块41还用于在设定的资源播放控制场景下，检测所述资源播放设备的收音时长是否超时。

在一种实施方式中，该装置还包括：

未唤醒模块53，用于如果所述收音时长超时，则控制所述资源播放设备进入未唤醒状态。

在一种实施方式中，所述播放控制模块43还用于如果所述语音信号中包括多个资源播放需求，则按照识别出各所述资源播放需求的顺序执行对应的播放动作。

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

图6示出根据本发明实施例的资源播放控制装置的结构框图。如图6所示，该装置包括：存储器910和处理器920，存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的资源播放控制方法。所述存储器910和处理器920的数量可以为一个或多个。

该装置还包括：

通信接口930，用于与外界设备进行通信，进行数据交互传输。

存储器910可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述实施例中任一所述的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种资源播放控制方法，其特征在于，包括：

检测资源播放设备的收音时长是否超时；

2.根据权利要求1所述的方法，其特征在于，还包括：

检测资源播放设备是否处于唤醒状态；

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，检测资源播放设备的收音时长是否超时，包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

6.根据权利要求1至5中任一项所述的方法，其特征在于，如果所述语音信号中包括资源播放需求，则执行所述资源播放需求对应的播放动作，包括：

7.一种资源播放控制装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，还包括：

9.根据权利要求7所述的装置，其特征在于，还包括：

10.根据权利要求7所述的装置，其特征在于，所述收音检测模块还用于在设定的资源播放控制场景下，检测所述资源播放设备的收音时长是否超时。

11.根据权利要求7所述的装置，其特征在于，还包括：

12.根据权利要求7至11中任一项所述的装置，其特征在于，所述播放控制模块还用于如果所述语音信号中包括多个资源播放需求，则按照识别出各所述资源播放需求的顺序执行对应的播放动作。

13.一种资源播放控制装置设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至6中任一项所述的方法。

14.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至6中任一项所述的方法。