CN113190647A

CN113190647A - 媒体文件播放方法、媒体文件播放装置及存储介质

Info

Publication number: CN113190647A
Application number: CN202110405679.2A
Authority: CN
Inventors: 张秀云
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-07-30

Abstract

本公开是关于一种媒体文件播放方法、媒体文件播放装置及存储介质，媒体文件播放方法应用于具有媒体文件播放功能的终端，所述终端存储有离线语音指令模型以及离线媒体文件库，媒体文件播放方法包括：响应于获取到语音控制指令，基于所述离线语音指令模型识别所述语音控制指令；若识别到所述语音控制指令中包括媒体文件播放控制关键词，以及媒体文件内容关键词，则基于所述媒体文件内容关键词，在所述离线媒体文件库中查找匹配所述媒体文件内容关键词的媒体文件并播放。通过本公开实施例，能够无需联网实现用户通过语音控制指令控制终端进行媒体文件播放，提高终端播放的反应速度，减少播放相同媒体文件时重复下载带来资源的浪费，减小服务器压力。

Description

媒体文件播放方法、媒体文件播放装置及存储介质

技术领域

本公开涉及智能设备技术领域，尤其涉及一种媒体文件播放方法、媒体文件播放装置及存储介质。

背景技术

随着科学技术的进步，智能设备形态多样化，功能完善，性能优异，人们越来越感受到智能设备带给生活和工作的便捷与舒适体验。对智能家居的控制可以通过遥控器进行非接触式遥控，为了进一步方便用户的使用，还可以通过利用语音指令在网络支持下实现对智能设备的控制，用户的语音指令通过网络实现识别。

然而，在无网络的情况下，用户与智能设备之间的语音交互难以实现，使用热点或蓝牙进行网络桥接，使用门槛高，造成资源的浪费，且用户体验差。

发明内容

为克服相关技术中存在的问题，本公开提供媒体文件播放方法、媒体文件播放装置及存储介质。

根据本公开实施例的一方面，提供一种媒体文件播放方法，应用于具有媒体文件播放功能的终端，所述终端存储有离线语音指令模型以及离线媒体文件库，所述媒体文件播放方法包括：响应于获取到语音控制指令，基于所述离线语音指令模型识别所述语音控制指令；若识别到所述语音控制指令中包括媒体文件播放控制关键词，以及媒体文件内容关键词，则基于所述媒体文件内容关键词，在所述离线媒体文件库中查找匹配所述媒体文件内容关键词的媒体文件并播放。

在一实施例中，所述离线语音指令模型采用如下方式确定：确定所述离线媒体文件库中存储的各媒体文件分别对应的媒体文件内容关键词；在所述媒体文件内容关键词前添加媒体文件播放控制关键词，得到第一关键词；基于所述第一关键词训练得到语音指令识别模型，并在所述终端本地存储所述语音指令识别模型得到离线语音指令模型。

在一实施例中，所述媒体文件播放方法还包括：若在所述离线媒体文件库中未查找到匹配所述媒体文件内容关键词的媒体文件，且所述终端处于网络连接环境下，则基于所述语音控制指令中包括的媒体文件内容关键词从云端获取匹配所述媒体文件内容关键词的媒体文件；将匹配所述媒体文件内容关键词的媒体文件存储在所述离线媒体文件库中。

在一实施例中，所述媒体文件播放方法还包括：将所述语音控制指令中包括的媒体文件播放控制关键词以及所述媒体文件内容关键词，组成第二关键词；基于所述第二关键词训练并更新所述语音指令识别模型。

在一实施例中，所述媒体文件播放方法还包括：若所述终端处于网络连接环境下，基于云端语音识别模型同步识别所述语音控制指令；若所述云端语音识别模型优先于所述离线语音识别模型识别到所述语音控制指令中包括的媒体文件播放控制关键词，以及媒体文件内容关键词，则基于所述云端语音识别模型，确定匹配所述媒体文件内容关键词的媒体文件的统一资源定位符，并基于所述统一资源定位符进行所述媒体文件的播放。

根据本公开实施例的又一方面，提供一种媒体文件播放装置，应用于具有媒体文件播放功能的终端，所述终端存储有离线语音指令模型以及离线媒体文件库，所述媒体文件播放装置包括：获取模块，用于获取语音控制指令；识别模块，用于响应于获取到语音控制指令，基于所述离线语音指令模型识别所述语音控制指令；以及当识别到所述语音控制指令中包括媒体文件播放控制关键词，以及媒体文件内容关键词时，基于所述媒体文件内容关键词，在所述离线媒体文件库中查找匹配所述媒体文件内容关键词的媒体文件；播放模块，用于播放所述媒体文件。

在一实施例中，所述获取模块还用于：当在所述离线媒体文件库中未查找到匹配所述媒体文件内容关键词的媒体文件，且所述终端处于网络连接环境下时，基于所述语音控制指令中包括的媒体文件内容关键词从云端获取匹配所述媒体文件内容关键词的媒体文件；所述媒体文件播放装置还包括：存储模块，用于将匹配所述媒体文件内容关键词的媒体文件存储在所述离线媒体文件库中。

在一实施例中，所述识别模块还用于：将所述语音控制指令中包括的媒体文件播放控制关键词以及所述媒体文件内容关键词，组成第二关键词；基于所述第二关键词训练并更新所述语音指令识别模型。

在一实施例中，所述识别模块还用于：当所述终端处于网络连接环境下，基于云端语音识别模型同步识别所述语音控制指令；所述播放模块，还用于当所述云端语音识别模型优先于所述离线语音识别模型识别到所述语音控制指令中包括的媒体文件播放控制关键词，以及媒体文件内容关键词，则基于所述云端语音识别模型，确定匹配所述媒体文件内容关键词的媒体文件的统一资源定位符，并基于所述统一资源定位符进行所述媒体文件的播放。

根据本公开实施例的又一方面，提供一种媒体文件播放装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为：执行前述任意一项所述的媒体文件播放方法。

根据本公开实施例的又一方面，提供一种非临时性计算机可读存储介质，当存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行前述任意一项所述的媒体文件播放方法。

本公开的实施例提供的技术方案可以包括以下有益效果：具有媒体文件播放功能的终端，终端存储有离线语音指令模型以及离线媒体文件库，在获取到语音控制指令时，基于离线语音指令模型识别语音控制指令，能够在无网络时识别语音控制指令。在识别到语音控制指令中包括媒体文件播放控制关键词，以及媒体文件内容关键词时，在终端的离线媒体文件库中查找匹配媒体文件内容关键词的媒体文件，并播放媒体文件，能够无需联网，实现用户通过语音控制指令控制终端进行媒体文件播放。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据本公开一示例性实施例示出的一种媒体文件播放方法的流程图。

图2是根据本公开一示例性实施例示出的一种确定离线语音指令模型方法的流程图。

图3是根据本公开又一示例性实施例示出的一种媒体文件播放方法的流程图。

图4是根据本公开又一示例性实施例示出的一种媒体文件播放方法的流程图。

图5是根据本公开又一示例性实施例示出的一种媒体文件播放方法的流程图。

图6是根据本公开又一示例性实施例示出的一种媒体文件播放方法的流程图。

图7是根据本公开一示例性实施例示出的一种媒体文件播放装置框图。

图8是根据本公开又一示例性实施例示出的一种媒体文件播放装置框图。

图9根据本公开一示例性实施例示出的一种用于媒体文件播放的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

智能终端的功能越来越完善，产品形态越来越丰富，人们越来越享受于智能终端带来的便捷、智能的体验。对于具有媒体文件播放功能的终端，例如，智能音箱、智能幼教产品等，用户使用频次最高的功能是进行音频或者视频等媒体文件的播放。当通过语音控制智能终端进行媒体文件播放时，智能音箱对用户语音控制指令录制，并将录制的用户语音控制指令发送到云端，通过云端语音识别模型进行语音控制指令的语音识别(ASR，Automatic Speech Recognition)、语音理解(NLP，Natural Language Processing)。在云端资源库搜索歌曲链接下发到智能终端，终端利用媒体文件的资源链接后进行在线播放。通过语音控制智能终端进行媒体文件播放过程强依赖网络，在户外无网络环境或者网络差的场景下，无法使用。当前技术中，无网络时，为了实现通过语音控制智能终端进行媒体文件播放，只能通过其它设备连接热点，桥接上网。或者，通过蓝牙连接，将终端录制的用户语音控制指令发送到其它能够联网的终端，其它终端通过网络上传到云端完成识别的过程。使用过程繁琐，使用门槛高，用户体验差。

由此，本公开提供一种媒体文件播放方法，通过在终端联网时进行媒体文件的下载供终端离网时使用，并且在终端本地实现通过语音指令控制播放媒体文件，在使用时无需额外操作以及额外开销。

图1是根据本公开一示例性实施例示出的一种媒体文件播放方法的流程图，应用于具有媒体文件播放功能的终端。例如，智能音箱、智能幼教产品等。本公开实施例中具有媒体文件播放功能的终端具有存储空间，在终端本地存储有离线语音指令模型，以及离线媒体文件库，离线媒体文件库中存储有媒体文件。如图1所示，媒体文件播放方法包括以下步骤。

在步骤S101中，响应于获取到语音控制指令，基于离线语音指令模型识别语音控制指令。

在步骤S102中，若识别到语音控制指令中包括媒体文件播放控制关键词，以及媒体文件内容关键词，则基于媒体文件内容关键词，在离线媒体文件库中查找匹配媒体文件内容关键词的媒体文件并播放。

在本公开实施例中，用户通过语音控制具有媒体文件播放功能的终端，与终端语音交互，控制终端进行媒体文件播放。终端本地存储有离线语音指令模型，具有语音识别、语义理解的功能，用于识别用户发出的语音控制指令。终端还具有存储功能，能够存储离线媒体文件库，媒体文件库中存储有多个媒体文件，终端可以播放媒体文件库中的媒体文件。媒体文件库可以是预先生成的，还可以是根据用户喜好生成。可以理解地，终端具有音频采集部件，例如麦克风等。音频采集部件采集环境内的音频信号，音频信号可以是用户发出的语音控制指令。用户希望搜索媒体文件进行播放时，通过语音发出语音控制指令，终端的音频采集部件采集语音指令形成的音频信号。终端获取用户发出的语音控制指令，并基于设置于终端本地的离线语音指令模型识别用户的语音控制指令。用户的语音控制指令中可以包括媒体文件播放控制关键词，例如，“播放”、“我想听”等，控制终端执行相应的功能。还可以包括媒体文件内容关键词，例如，当媒体文件为音频文件时，媒体文件内容关键词可以是歌曲、故事或诗词的名称等，使终端基于媒体文件内容关键词确定相应的媒体文件。若终端通过离线语音指令模型识别出语音控制指令中包括媒体文件播放控制关键词，以及媒体文件内容关键词，基于语音控制指令中的媒体文件内容关键词，在离线媒体文件库中查找匹配媒体文件内容关键词的媒体文件。例如，用户想听儿歌“小螺号”，通过语言发送控制指令，“我想听小螺号”，终端识别出语音控制指令中包括的“小螺号”，在终端存储的离线媒体文件库中，查找匹配“小螺号”的音频文件。在音频文件确定后，终端进行音频文件的播放，用户如愿收听到想要搜索的歌曲“小螺号”。

根据本公开实施例，对于具有媒体文件播放功能的终端，终端存储有离线语音指令模型以及离线媒体文件库，在获取到语音控制指令时，基于离线语音指令模型识别语音控制指令，能够在无网络时识别语音控制指令，在识别到语音控制指令中包括媒体文件播放控制关键词，以及媒体文件内容关键词时，在终端的离线媒体文件库中查找匹配媒体文件内容关键词的媒体文件，并播放媒体文件，实现用户通过语音控制指令控制终端进行媒体文件播放时，减少对网络连接条件的限制，提高终端播放的反应速度，减少播放相同媒体文件时重复下载带来资源的浪费，减小服务器压力。

图2是根据本公开一示例性实施例示出的一种确定离线语音指令模型方法的流程图，如图2所示，确定离线语音指令模型方法包括以下步骤。

在步骤S201中，确定离线媒体文件库中存储的各媒体文件分别对应的媒体文件内容关键词。

在步骤S202中，在媒体文件内容关键词前添加媒体文件播放控制关键词，得到第一关键词。

在步骤S203中，基于第一关键词训练得到语音指令识别模型，并在终端本地存储语音指令识别模型得到离线语音指令模型。

在本公开实施例中，用户通过语音控制具有媒体文件播放功能的终端，与终端交互，控制终端进行媒体文件播放。终端本地存储有离线语音指令模型，用于识别用户发出的语音控制指令。用户通过语音控制指令控制终端进行媒体文件播放，语音控制指令中包括媒体文件播放控制关键词，以及媒体文件内容关键词。终端存储的媒体文件库中包括媒体文件，终端可以不需要网络环境，播放媒体文件库中的媒体文件。在训练离线语音指令模型时，确定离线媒体文件库中存储的各媒体文件分别对应的媒体文件内容关键词，在媒体文件内容关键词前添加媒体文件播放控制关键词，得到第一关键词，基于第一关键词训练得到语音指令识别模型。可以理解地，离线媒体文件库中存储的媒体文件内容关键词，可以根据媒体文件中包括的信息确定。

例如，离线媒体文件库中存储的媒体文件为歌曲，对应的媒体文件内容关键词为歌曲名称，例如“鲁冰花”“卖报歌”等，在歌曲名称前添加媒体文件播放控制关键词。例如，“播放”，“我想听”等，得到的第一关键词可以为“播放送别”、“我想听小白船”等包括媒体文件播放控制关键词，以及媒体文件内容关键词的组合。基于第一关键词训练语音指令识别模型，训练得到的语音指令识别模型能够识别到用户发出的播放媒体文件的语音控制指令。可以理解地，语音指令识别模型体量小，减小对终端存储空间的占用，且处理语音指令时反应速度快。本公开实施例中的离线语音指令模型可以是当终端在网时，在云端基于媒体文件播放控制关键词，以及媒体文件内容关键词训练得到。将训练得到的语音指令识别模型通过网络连接下载至终端本地进行存储，用户的语音控制指令可以无需通过网络，在终端本地进行识别，实现对终端播放媒体文件的控制。

根据本公开实施例，离线媒体文件库中存储的各媒体文件分别对应的媒体文件内容关键词添加媒体文件播放控制关键词组合得到第一关键词，基于第一关键词训练得到语音指令识别模型，语音指令识别模型体量小，存储空间的占用少，提高识别语音控制指令的效率，且在终端本地存储语音指令识别模型，实现用户的语音控制指令可以在终端本地进行识别，无需依赖网络资源，减小服务器压力。

图3是根据本公开又一示例性实施例示出的一种媒体文件播放方法的流程图，如图3所示，媒体文件播放方法包括以下步骤。

在步骤S301中，响应于获取到语音控制指令，基于离线语音指令模型识别语音控制指令。

在步骤S302中，若识别到语音控制指令中包括媒体文件播放控制关键词，以及媒体文件内容关键词，则基于媒体文件内容关键词，在离线媒体文件库中查找匹配媒体文件内容关键词的媒体文件并播放。

在步骤S303中，若在离线媒体文件库中未查找到匹配媒体文件内容关键词的媒体文件，且终端处于网络连接环境下，则基于语音控制指令中包括的媒体文件内容关键词从云端获取匹配媒体文件内容关键词的媒体文件。

在步骤S304中，将匹配媒体文件内容关键词的媒体文件存储在离线媒体文件库中。

在本公开实施例中，用户通过语音控制具有媒体文件播放功能的终端，与终端交互，控制终端进行媒体文件播放。终端本地存储有离线语音指令模型，用于识别用户发出的语音控制指令。用户通过语音控制指令控制终端进行媒体文件播放，语音控制指令中包括媒体文件播放控制关键词，以及媒体文件内容关键词。终端存储的媒体文件库中包括媒体文件，终端可以不需要网络环境，播放媒体文件库中的媒体文件。若终端通过离线语音指令模型识别出语音控制指令中包括媒体文件播放控制关键词，以及媒体文件内容关键词，基于语音控制指令中的媒体文件内容关键词，在离线媒体文件库中查找匹配媒体文件内容关键词的媒体文件。例如，通过离线语音指令模型识别出“我想听送别”，终端识别出语音控制指令中包括的“送别”，在终端存储的离线媒体文件库中，查找匹配“送别”的音频文件。在音频文件确定后，终端进行音频文件的播放。

若通过离线语音指令模型识别出“我想听送别”，语音控制指令中包括的歌曲文件名为“送别”，在终端存储的离线媒体文件库中，未查找到匹配“送别”的音频文件，当终端处于网络连接环境下时，通过网络获取歌曲文件名为“送别”的音频文件，并将文件名为“送别”的音频文件存储在离线媒体文件库中，满足用户后续的欣赏需求。

在一实施例中，若基于终端离线语音指令模型识别用户语音控制指令识别语音控制指令失败，且当终端处于网络连接环境下时，通过网络获取歌曲文件名为“送别”的音频文件，并将文件名为“送别”的音频文件存储在离线媒体文件库中，以满足用户后续的播放需求。

在一实施例中，终端的离线媒体文件库中媒体文件的存储，可以是将媒体文件内容关键词与媒体文件在离线媒体文件库中的存储路径对应存储。基于媒体文件内容关键词在离线媒体文件库中查找匹配媒体文件内容关键词的媒体文件时，可以是基于媒体文件内容关键词与媒体文件存储路径的对应关系，确定媒体文件内容关键词对应媒体文件的存储路径，播放存储路径下的媒体文件。

根据本公开实施例，具有媒体文件播放功能的终端，终端存储有离线语音指令模型以及离线媒体文件库，在获取到语音控制指令时，基于离线语音指令模型识别语音控制指令，能够在无网络时识别语音控制指令，若在离线媒体文件库中未查找到匹配媒体文件内容关键词的媒体文件，且终端处于网络连接环境下，基于语音控制指令中包括的媒体文件内容关键词获取匹配媒体文件内容关键词的媒体文件，将匹配媒体文件内容关键词的媒体文件，存储在离线媒体文件库中，减少终端播放相同媒体文件时重复下载带来资源的浪费，节省媒体文件下载的耗时，提高用户播放指令的反应速度。

图4是根据本公开又一示例性实施例示出的一种媒体文件播放方法的流程图，如图4所示，媒体文件播放方法包括以下步骤。

在步骤S401中，响应于获取到语音控制指令，基于离线语音指令模型识别语音控制指令。

在步骤S402中，若识别到语音控制指令中包括媒体文件播放控制关键词，以及媒体文件内容关键词，则基于媒体文件内容关键词，在离线媒体文件库中查找匹配媒体文件内容关键词的媒体文件并播放。

在步骤S403中，若在离线媒体文件库中未查找到匹配媒体文件内容关键词的媒体文件，且终端处于网络连接环境下，则基于语音控制指令中包括的媒体文件内容关键词从云端获取匹配媒体文件内容关键词的媒体文件。

在步骤S404中，将匹配媒体文件内容关键词的媒体文件存储在离线媒体文件库中。

在步骤S405中，将语音控制指令中包括的媒体文件播放控制关键词以及媒体文件内容关键词，组成第二关键词。

在步骤S406中，基于第二关键词训练并更新语音指令识别模型。

在本公开实施例中，用户通过语音控制具有媒体文件播放功能的终端进行媒体文件播放。终端本地存储有离线语音指令模型，用于识别用户发出的语音控制指令。用户通过语音控制指令控制终端进行媒体文件播放，语音控制指令中包括媒体文件播放控制关键词，以及媒体文件内容关键词。终端存储的媒体文件库中包括媒体文件，终端可以不需要网络环境，播放媒体文件库中的媒体文件。若终端通过离线语音指令模型识别出语音控制指令中包括媒体文件播放控制关键词，以及媒体文件内容关键词，基于语音控制指令中的媒体文件内容关键词，在离线媒体文件库中查找匹配媒体文件内容关键词的媒体文件。例如，通过离线语音指令模型识别出“我想听送别”，终端识别出语音控制指令中包括的“送别”，在终端存储的离线媒体文件库中，查找匹配“送别”的音频文件。在音频文件确定后，终端进行音频文件的播放。

若通过离线语音指令模型识别出“我想听送别”，语音控制指令中包括的歌曲文件名为“送别”，在终端存储的离线媒体文件库中，未查找到匹配“送别”的音频文件，当终端处于网络连接环境下时，通过网络获取歌曲文件名为“送别”的音频文件，并将文件名为“送别”的音频文件存储在离线媒体文件库中。并将语音控制指令中包括的媒体文件播放控制关键词以及媒体文件内容关键词，组成第二关键词，基于第二关键词训练并更新语音指令识别模型。用户在后续通过语音控制终端进行媒体文件播放，更新的语音指令识别模型能够对媒体文件库中原有的媒体文件，以及新增的媒体文件有效识别。

根据本公开实施例，具有媒体文件播放功能的终端，终端存储有离线语音指令模型以及离线媒体文件库，在获取到语音控制指令时，基于离线语音指令模型识别语音控制指令，能够在无网络时识别语音控制指令，若在离线媒体文件库中未查找到匹配媒体文件内容关键词的媒体文件，且终端处于网络连接环境下，基于语音控制指令中包括的媒体文件内容关键词获取匹配媒体文件内容关键词的媒体文件，将匹配媒体文件内容关键词的媒体文件，存储在离线媒体文件库中，并将语音控制指令中包括的媒体文件播放控制关键词以及媒体文件内容关键词，组成第二关键词，基于第二关键词训练并更新语音指令识别模型，实现了用户在使用终端的过程中对语音指令识别模型的更新，从而通过更新的语音指令识别模型实现用户语音控制指令的有效识别。

图5是根据本公开又一示例性实施例示出的一种媒体文件播放方法的流程图，如图5所示，媒体文件播放方法包括以下步骤。

在步骤S501中，响应于获取到语音控制指令，基于离线语音指令模型识别语音控制指令。

在步骤S502中，若终端处于网络连接环境下，基于云端语音识别模型同步识别语音控制指令。

在步骤S503中，若云端语音识别模型优先于离线语音识别模型识别到语音控制指令中包括的媒体文件播放控制关键词，以及媒体文件内容关键词，则基于云端语音识别模型，确定匹配媒体文件内容关键词的媒体文件的统一资源定位符，并基于统一资源定位符进行媒体文件的播放。

在本公开实施例中，用户通过语音控制具有媒体文件播放功能的终端进行媒体文件播放。终端本地存储有离线语音指令模型，用于识别用户发出的语音控制指令。用户语音控制指令中包括媒体文件播放控制关键词，以及媒体文件内容关键词。终端存储的媒体文件库中包括媒体文件，若终端处于网络连接环境下，终端基于离线语音指令模型以及云端语音识别模型同步识别语音控制指令。若云端语音识别模型优先于离线语音识别模型识别到语音控制指令中包括的媒体文件播放控制关键词，以及媒体文件内容关键词，则基于云端服务器的语音识别模型，进行语音识别、自然语音理解，确定匹配媒体文件内容关键词的媒体文件的统一资源定位符(uniform resource locator，URL)。URL是互联网上标准资源的地址，互联网上的每个文件具有唯一URL，通过URL包含的信息能够确定文件的位置以及浏览器处理文件的方式。云端服务器通过网络将搜索到的URL连接发送至终端，终端基于接收到的URL进行媒体文件在线播放。

例如，用户向终端发出语音指令“播放小螺号”，终端处于网络连接环境下，基于终端本地的离线语音指令模型以及云端语音识别模型同步识别“播放小螺号”的指令。通过云端语音识别模型识别出“小螺号”，云端服务器确定匹配“小螺号”的音频文件的URL，并将对应歌曲“小螺号”的URL连接发送至终端，终端基于接收到的URL在线播放歌曲“小螺号”。

根据本公开实施例，在获取到用户语音控制指令时，基于离线语音指令模型与云端语音识别模型同步识别语音控制指令，若优先得到云端语音识别模型的反应，则基于云端服务器发送的统一资源定位符进行语音控制指令中包括的媒体文件的播放，提高用户使用终端播放媒体文件时的反应速度，减少等待时间，进一步提升用户体验。

图6是根据本公开又一示例性实施例示出的一种媒体文件播放方法的流程图，如图6所示，媒体文件播放方法包括以下步骤。

在步骤S601中，终端处于网络环境下，下载媒体文件，生成离线媒体文件库。

在步骤S602中，确定离线媒体文件库中存储的各媒体文件分别对应的媒体文件内容关键词。

在步骤S603中，在媒体文件内容关键词前添加媒体文件播放控制关键词，得到第一关键词。

在步骤S604中，基于第一关键词训练得到语音指令识别模型，并在终端本地存储语音指令识别模型得到离线语音指令模型。

在步骤S605中，响应于获取到语音控制指令，基于离线语音指令模型识别语音控制指令。

在步骤S606中，若识别到语音控制指令中包括媒体文件播放控制关键词，以及媒体文件内容关键词，则基于媒体文件内容关键词，在离线媒体文件库中查找匹配媒体文件内容关键词的媒体文件并播放。

在步骤S607中，若在离线媒体文件库中未查找到匹配媒体文件内容关键词的媒体文件，且终端处于网络连接环境下，则基于语音控制指令中包括的媒体文件内容关键词从云端获取匹配媒体文件内容关键词的媒体文件。

在步骤S608中，将匹配媒体文件内容关键词的媒体文件存储在离线媒体文件库中。

在步骤S609中，将语音控制指令中包括的媒体文件播放控制关键词以及媒体文件内容关键词，组成第二关键词。

在步骤S610中，基于第二关键词训练并更新语音指令识别模型。

在本公开一实施例中，用户通过语音与终端交互，控制终端进行媒体文件播放。终端处于网络环境下时，从网络下载媒体文件，生成离线媒体文件库。在训练离线语音指令模型时，确定离线媒体文件库中存储的各媒体文件分别对应的媒体文件内容关键词，在媒体文件内容关键词前添加媒体文件播放控制关键词，得到第一关键词，基于第一关键词训练得到语音指令识别模型。用户通过语音发出语音控制指令，终端获取用户发出的语音控制指令，基于设置于终端本地的离线语音指令模型识别用户的语音控制指令。用户的语音控制指令中包括媒体文件播放控制关键词、媒体文件内容关键词，终端基于媒体文件内容关键词确定相应的媒体文件。若终端通过离线语音指令模型识别出语音控制指令中包括媒体文件播放控制关键词，以及媒体文件内容关键词，基于语音控制指令中的媒体文件内容关键词，在离线媒体文件库中查找匹配媒体文件内容关键词的媒体文件，进行音频文件的播放。若在离线媒体文件库中未查找到匹配媒体文件内容关键词的媒体文件，且终端处于网络连接环境下，则基于语音控制指令中包括的媒体文件内容关键词获取匹配媒体文件内容关键词的媒体文件。将匹配媒体文件内容关键词的媒体文件存储在离线媒体文件库中，并将语音控制指令中包括的媒体文件播放控制关键词以及媒体文件内容关键词，组成第二关键词，基于第二关键词训练并更新语音指令识别模型。

本公开实施例以下以具有媒体文件播放功能的终端为智能音箱为例，对上述实施例进行说明。智能音箱具有存储空间，存储有离线语音指令模型，以及离线媒体文件库，离线媒体文件库中存储有媒体文件。用户通过语音点播歌曲，当智能音箱处于网络连接环境下，把喜欢的歌曲下载到智能音箱本地离线媒体文件库的固定目录下。把歌曲名称的关键词加上“播放”、“我想听”等播放控制关键词形成语音指令，并在线生成这些语音指令的识别算法模型，将生成的指令模型存储到智能音箱的存储空间中，用户在无网络下发出的语音指令可以通过离线语音指令模型进行识别。

用户使用智能音箱进行音乐播放，发出的语音指令可以通过智能音箱本地的离线语音指令模型识别出想搜索的歌曲关键词，在存储歌曲的固定目录下检索出歌曲关键词对应的歌曲，进行播放。

另一实施例中，在用户与智能音箱进行语音交互时，本地离线语音指令识别模型与云端识别模型同时进行语音识别。若基于本地离线语音指令识别模型优先识别到用户想要搜索的歌曲关键词，则优先使用本地结果进行播放。

通过本公开即使用户在户外没有网络的条件下，也可以通过语音控制智能音箱播放指定歌曲。

例如，智能音箱本地离线媒体文件库中存储有“忘情水”、“让我们荡起双桨”“鲁冰花”等歌曲，将歌曲名称收集起来，生成文本库，即文本库中包括“忘情水”、“让我们荡起双桨”“鲁冰花”等歌曲名称。智能音箱将生成的歌曲名称文本库发送到云端服务器，把歌曲名称文本前加上“播放”、“我想听”等播放控制关键词，送入语音识别训练模型中训练，动态生成经典的指令模型，比如“播放忘情水”、“我想听让我们荡起双桨”等。将云端动态生成的离线语音指令识别模型下载到音箱本地进行存储，供后续使用。

用户用语音说搜歌的语句，例如“播放忘情水”时，智能音箱通过离线语音指令模型识别出想搜索的歌曲“忘情水”，在离线媒体文件库存储歌曲的固定目录下检索出“忘情水”对应的歌曲，进行播放。

根据本公开实施例，对于具有媒体文件播放功能的终端，终端存储有离线语音指令模型以及离线媒体文件库，在获取到语音控制指令时，基于离线语音指令模型识别语音控制指令，能够在无网络时识别语音控制指令，在识别到语音控制指令中包括媒体文件播放控制关键词，以及媒体文件内容关键词时，在终端的离线媒体文件库中查找匹配媒体文件内容关键词的媒体文件，并播放媒体文件，能够无需联网，实现用户通过语音控制指令控制终端进行媒体文件播放，提高终端播放的反应速度，减少播放相同媒体文件时重复下载带来资源的浪费，减小服务器压力。

图7是根据本公开一示例性实施例示出的一种媒体文件播放装置框图，应用于具有媒体文件播放功能的终端，终端存储有离线语音指令模型以及离线媒体文件库，如图7所示，媒体文件播放装置100包括：获取模块101、识别模块102以及播放模块103。

获取模块101，用于获取语音控制指令。

识别模块102，用于响应于获取到语音控制指令，基于离线语音指令模型识别语音控制指令；以及当识别到语音控制指令中包括媒体文件播放控制关键词，以及媒体文件内容关键词时，基于媒体文件内容关键词，在离线媒体文件库中查找匹配媒体文件内容关键词的媒体文件。

播放模块103，用于播放媒体文件。

在一实施例中，离线语音指令模型采用如下方式确定：确定离线媒体文件库中存储的各媒体文件分别对应的媒体文件内容关键词；在媒体文件内容关键词前添加媒体文件播放控制关键词，得到第一关键词；基于第一关键词训练得到语音指令识别模型，并在终端本地存储语音指令识别模型得到离线语音指令模型。

图8是根据本公开又一示例性实施例示出的一种媒体文件播放装置框图，如图8所示，媒体文件播放装置100还包括：存储模块104。

获取模块101还用于：当在离线媒体文件库中未查找到匹配媒体文件内容关键词的媒体文件，且终端处于网络连接环境下时，基于语音控制指令中包括的媒体文件内容关键词从云端获取匹配媒体文件内容关键词的媒体文件。

存储模块104，用于将匹配媒体文件内容关键词的媒体文件存储在离线媒体文件库中。

在一实施例中，识别模块102还用于：将语音控制指令中包括的媒体文件播放控制关键词以及媒体文件内容关键词，组成第二关键词；基于第二关键词训练并更新语音指令识别模型。

在一实施例中，识别模块102还用于：当终端处于网络连接环境下，基于云端语音识别模型同步识别语音控制指令；播放模块，还用于当云端语音识别模型优先于离线语音识别模型识别到语音控制指令中包括的媒体文件播放控制关键词，以及媒体文件内容关键词，则基于云端语音识别模型，确定匹配媒体文件内容关键词的媒体文件的统一资源定位符，并基于统一资源定位符进行播放。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9是根据本公开一示例性实施例示出的一种用于媒体文件播放的装置200的框图。例如，装置200可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图9，装置200可以包括以下一个或多个组件：处理组件202，存储器204，电力组件206，多媒体组件208，音频组件210，输入/输出(I/O)的接口212，传感器组件214，以及通信组件216。

处理组件202通常控制装置200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件202可以包括一个或多个处理器220来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件202可以包括一个或多个模块，便于处理组件202和其他组件之间的交互。例如，处理组件202可以包括多媒体模块，以方便多媒体组件208和处理组件202之间的交互。

存储器204被配置为存储各种类型的数据以支持在装置200的操作。这些数据的示例包括用于在装置200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件206为装置200的各种组件提供电力。电力组件206可以包括电源管理系统，一个或多个电源，及其他与为装置200生成、管理和分配电力相关联的组件。

多媒体组件208包括在所述装置200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件208包括一个前置摄像头和/或后置摄像头。当装置200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件210被配置为输出和/或输入音频信号。例如，音频组件210包括一个麦克风(MIC)，当装置200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。在一些实施例中，音频组件210还包括一个扬声器，用于输出音频信号。

I/O接口212为处理组件202和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件214包括一个或多个传感器，用于为装置200提供各个方面的状态评估。例如，传感器组件214可以检测到装置200的打开/关闭状态，组件的相对定位，例如所述组件为装置200的显示器和小键盘，传感器组件214还可以检测装置200或装置200一个组件的位置改变，用户与装置200接触的存在或不存在，装置200方位或加速/减速和装置200的温度变化。传感器组件214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件214还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件214还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件216被配置为便于装置200和其他设备之间有线或无线方式的通信。装置200可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件216还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器204，上述指令可由装置200的处理器220执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

可以理解的是，本公开中“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

进一步可以理解的是，术语“第一”、“第二”等用于描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

进一步可以理解的是，除非有特殊说明，“连接”包括两者之间不存在其他构件的直接连接，也包括两者之间存在其他元件的间接连接。

进一步可以理解的是，本公开实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种媒体文件播放方法，其特征在于，应用于具有媒体文件播放功能的终端，所述终端存储有离线语音指令模型以及离线媒体文件库，所述媒体文件播放方法包括：

响应于获取到语音控制指令，基于所述离线语音指令模型识别所述语音控制指令；

若识别到所述语音控制指令中包括媒体文件播放控制关键词，以及媒体文件内容关键词，则

基于所述媒体文件内容关键词，在所述离线媒体文件库中查找匹配所述媒体文件内容关键词的媒体文件并播放。

2.根据权利要求1所述的媒体文件播放方法，其特征在于，所述离线语音指令模型采用如下方式确定：

确定所述离线媒体文件库中存储的各媒体文件分别对应的媒体文件内容关键词；

在所述媒体文件内容关键词前添加媒体文件播放控制关键词，得到第一关键词；

基于所述第一关键词训练得到语音指令识别模型，并在所述终端本地存储所述语音指令识别模型得到离线语音指令模型。

3.根据权利要求1或2所述的媒体文件播放方法，其特征在于，所述方法还包括：

若在所述离线媒体文件库中未查找到匹配所述媒体文件内容关键词的媒体文件，且所述终端处于网络连接环境下，则基于所述语音控制指令中包括的媒体文件内容关键词从云端获取匹配所述媒体文件内容关键词的媒体文件；

将匹配所述媒体文件内容关键词的媒体文件存储在所述离线媒体文件库中。

4.根据权利要求3所述的媒体文件播放方法，其特征在于，所述方法还包括：

将所述语音控制指令中包括的媒体文件播放控制关键词以及所述媒体文件内容关键词，组成第二关键词；

基于所述第二关键词训练并更新所述语音指令识别模型。

5.根据权利要求4所述的媒体文件播放方法，其特征在于，所述方法还包括：

若所述终端处于网络连接环境下，基于云端语音识别模型同步识别所述语音控制指令；

若所述云端语音识别模型优先于所述离线语音识别模型识别到所述语音控制指令中包括的媒体文件播放控制关键词，以及媒体文件内容关键词，则基于所述云端语音识别模型，确定匹配所述媒体文件内容关键词的媒体文件的统一资源定位符，并基于所述统一资源定位符进行所述媒体文件的播放。

6.一种媒体文件播放装置，其特征在于，应用于具有媒体文件播放功能的终端，所述终端存储有离线语音指令模型以及离线媒体文件库，所述媒体文件播放装置包括：

获取模块，用于获取语音控制指令；

识别模块，用于响应于获取到语音控制指令，基于所述离线语音指令模型识别所述语音控制指令；以及当识别到所述语音控制指令中包括媒体文件播放控制关键词，以及媒体文件内容关键词时，基于所述媒体文件内容关键词，在所述离线媒体文件库中查找匹配所述媒体文件内容关键词的媒体文件；

播放模块，用于播放所述媒体文件。

7.根据权利要求6所述的媒体文件播放装置，其特征在于，所述离线语音指令模型采用如下方式确定：

8.根据权利要求6或7所述的媒体文件播放装置，其特征在于，所述获取模块还用于：

当在所述离线媒体文件库中未查找到匹配所述媒体文件内容关键词的媒体文件，且所述终端处于网络连接环境下时，基于所述语音控制指令中包括的媒体文件内容关键词从云端获取匹配所述媒体文件内容关键词的媒体文件；

所述媒体文件播放装置还包括：

存储模块，用于将匹配所述媒体文件内容关键词的媒体文件存储在所述离线媒体文件库中。

9.根据权利要求8所述的媒体文件播放装置，其特征在于，所述识别模块还用于：

基于所述第二关键词训练并更新所述语音指令识别模型。

10.根据权利要求9所述的媒体文件播放装置，其特征在于，所述识别模块还用于：

当所述终端处于网络连接环境下，基于云端语音识别模型同步识别所述语音控制指令；

所述播放模块，还用于当所述云端语音识别模型优先于所述离线语音识别模型识别到所述语音控制指令中包括的媒体文件播放控制关键词，以及媒体文件内容关键词，则基于所述云端语音识别模型，确定匹配所述媒体文件内容关键词的媒体文件的统一资源定位符，并基于所述统一资源定位符进行所述媒体文件的播放。

11.一种媒体文件播放装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行权利要求1至5中任意一项所述的媒体文件播放方法。

12.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行权利要求1至5中任意一项所述的媒体文件播放方法。