CN109754820B

CN109754820B - 目标音频获取方法及装置、存储介质及终端

Info

Publication number: CN109754820B
Application number: CN201811494569.2A
Authority: CN
Inventors: 赵涛涛
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2020-12-29
Anticipated expiration: 2038-12-07
Also published as: CN109754820A

Abstract

本发明提供一种目标音频获取方法及装置、存储介质及终端。该方法包括：根据目标对象的第一声音属性，输出第一候选音频，然后，采集所述目标对象根随所述第一候选音频发出的声音，得到跟随音频，从而，获取所述第一候选音频与所述跟随音频的第一相似度，进而，若所述第一相似度大于或者等于预设的第一相似度阈值，将所述第一候选音频确定为目标音频。本发明的方法能够提高目标音频与用户的声音条件的匹配度，进而获取到更适合用户的目标音频。

Description

目标音频获取方法及装置、存储介质及终端

技术领域

本发明涉及数据处理技术，尤其涉及一种目标音频获取方法及装置、存储介质及终端。

背景技术

随着娱乐生活的丰富，用户有唱歌的需求。但是，用户可能并不清楚自己适合唱哪些歌。此时，用户一般会向朋友咨询，或者，自己在音乐数据库中搜索歌曲，然后，通过主动的试唱，并由朋友或自己来进行主观比较，最终确定自己适合唱的歌曲。

依据前述方法确定目标歌曲时，主观因素对最终结果的影响较大，最终确定的目标歌曲与用户本人的声音条件的匹配度较差，可能并不适合用户。

发明内容

本发明提供一种目标音频获取方法及装置、存储介质及终端，用以提供一种客观的目标音频获取方法，并提高目标音频与用户的声音条件的匹配度，以期获取到更适合用户的目标音频。

第一方面，本发明提供一种目标音频获取方法，包括：

根据目标对象的第一声音属性，输出第一候选音频；

采集所述目标对象根随所述第一候选音频发出的声音，得到跟随音频；

获取所述第一候选音频与所述跟随音频的第一相似度；

若所述第一相似度大于或者等于预设的第一相似度阈值，将所述第一候选音频确定为目标音频。

第二方面，本发明提供一种目标音频获取装置，包括：

输出模块，用于根据目标对象的第一声音属性，输出第一候选音频；

采集模块，用于采集所述目标对象根随所述第一候选音频发出的声音，得到跟随音频；

获取模块，用于获取所述第一候选音频与所述跟随音频的第一相似度；

确定模块，用于若所述第一相似度大于或者等于预设的第一相似度阈值，将所述第一候选音频确定为目标音频。

第三方面，本发明提供一种目标音频获取装置，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，

所述计算机程序被处理器执行以实现如第一方面所述的方法。

第五方面，本发明提供一种终端，包括：第二方面或第三方面所述的装置。

本发明提供的目标音频获取方法及装置、存储介质及终端，依据目标对象的声音属性，输出第一候选音频，从而，采集目标对象的跟随音频，进而，根据跟随音频与第一候选音频之间的相似度，来确定第一候选音频是否适合目标对象，如此，通过一种客观的筛选方法确定目标音频，能够有效避免主观因素对获取结果的不利影响，获得更适合目标对象的目标音频，并且，本发明实施例中，候选音频是根据目标对象的第一声音属性确定并输出的，如此，保证了最终得到的目标音频能够满足目标对象的声音条件，也就是，得到更符合其声音条件的目标音频，具备更高的匹配准确度。因此，本发明实施例所提供的技术方案能够在一定程度上解决现有技术中主观因素导致目标音频获取结果不理想的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本发明实施例所提供的一种目标音频获取方法的流程示意图；

图2为本发明实施例所提供的另一种目标音频获取方法的流程示意图；

图3为本发明实施例所提供的另一种目标音频获取方法的流程示意图；

图4为本发明实施例所提供的一种目标音频获取装置的功能方块图；

图5为本发明实施例所提供的一种目标音频获取装置的实体结构示意图；

图6为本发明实施例所提供的一种终端的架构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本发明具体的应用场景为：用户获取更适合自身的歌曲的应用场景。

在前述应用场景中，用户一般通过自己的试唱，来让朋友或自身主观判断是否适合自己，从而，实现目标音频(目标歌曲)的确定。如前所述，这种实现方式更多的受到评判人的主观因素的影响，不够客观，换言之，其主观确定的目标音频有可能根本不适合用户。

本发明提供的技术方案，旨在解决现有技术的如上技术问题，并提出如下解决思路：提供一种相对客观的目标音频获取方式，采集用户跟唱第一候选音频时的跟随音频，进而，通过二者的相似程度来最终确定该第一候选音频是否合适用户。此外，本发明实施例还考虑到用户的声音条件，前述第一候选音频是根据用户的声音属性筛选并输出的，也就是，第一候选音频至少为符合用户声音条件的音频，以进一步提高前述目标音频获取步骤的准确率。

下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

实施例一

本发明实施例提供了一种目标音频获取方法。请参考图1，该方法包括如下步骤：

S102，根据目标对象的第一声音属性，输出第一候选音频。

S104，采集目标对象根随第一候选音频发出的声音，得到跟随音频。

S106，获取第一候选音频与跟随音频的第一相似度。

S108，若第一相似度大于或者等于预设的第一相似度阈值，将第一候选音频确定为目标音频。

反之，若第一相似度小于第一相似度阈值，则确定该第一候选音频不是目标音频。

在前述用户获取目标音频的实现场景中，目标对象为用户，而目标音频即为适合用户演唱的目标歌曲。

为了便于理解，以下结合具体的应用场景对前述方法进行具体说明。

首先，S102步骤的目的在于根据目标对象的声音条件，来筛选并输出第一候选音频，具体而言，其具体可包括如图2所示的两个步骤：

S1022，根据目标对象的第一声音属性，在预设的音频数据库中筛选出第一候选音频。

S1024，输出第一候选音频。

具体而言，第一声音属性用以表征目标对象的声音条件。也就是，本发明实施例时根据目标对象的声音条件来筛选出第一候选音频并输出的。

在具体的实现场景中，第一声音属性可以包括但不限于如下至少一种：性别、年龄与性格。

具体考虑到女性客观上更适合演唱女性嗓音的歌曲，男性客观上更适合演唱男性嗓音的歌曲，因此，性别属性可作为一个筛选条件，指导第一候选音频的筛选。

而考虑到不同年龄阶段喜好的歌曲类型不同，例如，青年人更喜欢流行歌曲或摇滚类歌曲，而老年人可能更喜欢怀旧类歌曲，儿童则更喜欢儿童歌曲。由此，目标对象的年龄属性对第一候选音频的筛选也具有一定的指导意义。

性格则是可用于指导目标对象喜好的曲风类型。例如，性格外向的人更喜欢活泼一些的曲风，而性格内向的人更喜欢安静一些的曲风。

除前述几种声音属性之外，在具体实现时，还可以进一步考虑其他声音属性。例如，在一个具体的应用场景中，除前述三种属性之外，第一声音属性还可以包括但不限于：语种、主题与场景等。

基于前述步骤，在执行S1022的筛选步骤之前，如图2所示，该方法还可以包括如下步骤：

S1021，获取目标对象的第一声音属性。

结合不同的实现场景，本发明实施例至少给出如下几种获取第一声音属性的实现方式：

方式一，基于目标对象当前发出的声音来获取第一声音属性。

在一种实现场景中，若该方法以目标音频获取指令来触发执行本方案，则该步骤的实现流程可以为：接收目标对象发出的目标音频获取指令；并对目标音频获取指令进行声音属性分析，得到目标对象的第一声音属性。

具体而言，若前述目标音频获取指令为语音指令，则直接对该语音指令进行语音识别，即可得到第一声音属性。

例如，可以预设触发语音指令，例如“我适合唱什么歌”，如此，若接收到目标对象发出的语音指令为“我适合唱什么歌”，则触发执行本方法；此时，可直接通过对该语音指令进行分析，得到第一声音属性。

或者，若前述目标音频获取指令不是语音指令，则还需进一步引导目标对象输入用以获取第一声音属性的数据源(声音)。此时，可以输出第一提示信息，其中，第一提示信息用于提示目标对象发出声音；进而，采集目标对象发出的声音，并对采集到的声音进行语音识别，得到第一声音属性。

在前述两种实现方式中，目标对象可在发出的声音(或指令)中提供尽可能多的信息，如此，在执行第一声音属性的获取步骤中，还可以通过对用户所发出声音的语义分析，来得到尽可能多的第一声音属性，以尽可能贴合目标对象的歌唱需求。

此时，可能存在一种场景，若目标对象所发出声音得到的第一声音属性与根据其声学特征获取到的第一声音属性存在冲突，则可优先以根据其所发出声音得到的第一声音属性为主，实现该方案。

举例说明，若目标对象发出的语音指令为“我适合唱哪些男歌手的歌”，则对其进行语义分析，得到的性别属性为男性；但是，对其声学特征进行分析，得到的性别属性为女性。二者存在冲突，此时，优先以目标对象的需求为主，也就是，将第一声音属性确认为男性。

在前述实现方式中，由于提取第一声音属性的数据源是目标对象当前发出的声音，针对部分具备时效性的第一声音属性，如性格或情感等，更加能够反映目标对象当前的声音状态，从而，更有利于获取到与目标对象更匹配、更合适的目标音频。并且，这种实现方式为目标对象提供了更多的选择空间，更适用于目标对象的个性化歌唱需求。

此外，本发明实施例中，还可以进一步将本次分析出的第一声音属性进行存储，以便于后续可作为历史声音属性指导之后可能涉及到的第一声音属性获取步骤。

方式二，还可以通过预存的方式，根据目标对象的历史声音数据，来获取第一声音属性。

其中，历史声音数据可以包括但不限于：前述方式一中采集并存储的目标对象所发出的声音数据、目标对象的语音通话数据(可在获取到目标对象的允许后自动采集)与目标对象与终端之间的语音交互数据。

在具体实现S1021步骤时，除单独采用前述两种实现方式之外，还可以采用二者的结合方案。但是，考虑到部分第一声音属性对时效的要求较高，若二者存在冲突，则可以距离当前时刻更近的数据对应的第一声音属性为准，执行后续处理。

此外，本发明实施例所涉及到的语音识别技术可以包括但不限于如下至少一种：隐式马尔科夫模型(Hidden Markov Model，HMM)技术、神经网络模型技术、语义分析模型。

其中，为了便于理解，以神经网络模型技术为例进行举例说明。在该实现方式执行之前，需要预先利用神经网络算法训练神经网络模型，其中，神经网络模型的输入为语音数据，输出为声音属性。在具体实现时，将前述语音指令输入神经网络模型，并获取神经网络模型的输出，以作为第一声音属性即可。

此外，在以神经网络模型技术实现时，神经网络模型可以为其中的一种声音属性的神经网络模型，或者，也可以为多种声音属性的神经网络模型，本发明实施例对此无特别限定。

具体而言，本发明实施例中，若涉及多个第一声音属性，则这些第一声音属性，可以同时获取，或者，也可以分别获取。此外，若分别获取多个第一声音属性，本发明实施例对于获取次序无特别限定。

此外，在获取第一声音属性的过程中，还可能会涉及场景属性，例如，咖啡厅场景、学习场景、运动场景等，这些场景属性可通过前述方法获取到(用户发出的声音中携带对场景的指示)，或者，还可以通过图像采集设备，如摄像头，获取到场景属性。

基于前述各种实现方式，可以获取到目标对象的第一声音属性。

进而，在执行图2的S1022步骤的筛选出第一候选音频的步骤时，本发明实施例至少提供如下三种可能的设计：

第一种，一种可能的设计中，可以在预设的音频数据库中，筛选出具备第一声音属性的一个音频，以作为第一候选音频。

具体而言，就是，将筛选出具备第一声音属性的至少一个音频作为第一候选音频集合，进而，在其中确定出一个音频作为第一候选音频。这是考虑到在如图1所示方法中，每次仅输出一个第一候选音频，因此，若经过前述筛选流程仍存在多个(至少两个)候选音频，在满足同样的第一声音属性的前提下，则可以在其中筛选出一个未输出过的候选音频作为第一候选音频。此时，选择未输出过的音频是考虑到可能在本轮获取流程之前，已输出过的第一候选音频可能并不适合目标对象，因此，出于提高处理效率与准确率的考虑，优先选择未输出过的一个候选音频作为第一候选音频。

例如，若前述S1021步骤获取到的第一声音属性为女性，则在执行该步骤时，则在音频数据库中获取女性嗓音的音频，作为第一音频集合，进而将其中的一个未输出过的音频作为第一候选音频。

此外，考虑到前述S1021中获取到的第一声音属性可以为多种，则在具体实现时，则可以获取满足全部第一声音属性的音频作为第一候选音频集合；或者，获取满足任意的至少一种第一声音属性的音频作为第一候选音频集合；或者，获取满足指定的至少一种第一声音属性的音频作为第一候选音频集合。

此外，考虑到本方法可以多轮实现，在具体实现时，还可以基于所满足的第一声音属性的数目实现分次筛选。具体而言，可以将满足任意的至少一种第一声音属性的音频都作为候选音频，并按照满足的第一声音属性的数目排序，按照由大至小或由小至大的次序，分别将候选音频中具备同样的第一声音属性数目的部分音频作为第一候选音频集合，进而在其中确定出一个音频作为第一候选音频。

举例说明，若共获取到3个第一声音属性，并依据这些第一声音属性确定出3个候选音频，其中，有1个候选音频满足全部3个第一声音属性，记为A1，有1个候选音频满足其中的2个第一声音属性，记为A2(未输出过)与A3(已输出过)。若预设按照由大至小的顺序筛选第一候选音频，则在第一次确定目标对象时，可将其中的A1确定为第一候选音频；若A1与其跟随音频A1’之间的相似度较低(小于第一相似度阈值)，则在下一次交互时，优选选择未输出过的A2，将其确定为第一候选音频；若A2与其跟随音频A2’之间的相似度较低(小于第一相似度阈值)，则在下一次交互时，再将A3确定为第一候选音频。

此外，前述方案是基于满足第一声音属性的数目来分次筛选第一候选音频，在具体实现时，还可以以其他依据实现分次筛选，例如，以据各第一声音属性的类型实现，其具体执行方式与前述方式类似，不再赘述。此外，若以各第一声音属性的类型实现筛选，还可以进一步预设各第一声音属性的优先级，按照优先级由高至低的次序进行分次筛选。

第二种，在另一种可能的设计中，可以获取音频数据库中各音频的第二声音属性，并获取各第二声音属性与第一声音属性之间的第二相似度，以及，获取第二相似度大于预设的第二相似度阈值的一个音频，以作为第一候选音频。

该设计中，通过第二相似度的比较，可以满足一个或多个第一声音属性的筛选，并且，针对获取到多个第一声音属性的实现场景，具备更高的兼容性。

与前述比较是否满足第一声音属性的实现方式类似，该第二相似度可以为单独一个第一声音属性的相似度。

或者，也可以用以表征多个第一声音属性的相似度。具体而言，当其用以表征多个第一声音属性的相似度时，该第二相似度可以为多个第一声音属性的相似度的加权平均值或加权和。其中，各第一声音属性的权重可根据需要预设，本发明实施例对此无特别限定。

该设计的具体实现方式与前一设计的实现方式类似，可依据不同的第一声音属性的数目或类别实现分次筛选，不再赘述。

第三种，在另一种可能的设计中，可以依据第一声音属性与历史跟随音频，共同确定出第一候选音频。

具体实现时，可通过如下步骤实现：根据第一声音属性，在音频数据库中筛选出第一候选集合；以及，根据历史跟随音频，在音频数据库中删除部分音频，得到第二候选集合；进而，获取第一候选集合与第二候选集合的交集中的一个音频，以作为第一候选音频。

其中，历史跟随音频是指目标对象在本次执行本方案之前，可能已经执行过本方案，并且，其跟唱之前输出的第一候选音频的跟随音频与第一候选音频之间的相似度较低，可能不适合该目标对象，因此，在本次执行目标音频的获取步骤时，可根据历史跟随音频删除对应的第一候选音频。

该实现方式中，可以分别针对音频数据库执行筛选与删除，并针对第一候选集合与第二候选集合求交集，得到第一候选音频集合，从而，得到第一候选音频。

此外，该实现方式还可以有其他行驶的变形。如可以先根据第一声音属性，在音频数据库中筛选出第一候选集合，进而，在第一候选集合中，根据历史跟随音频，删除其中的部分音频，得到第一候选音频集合。

仍以前述A1、A2和A3共3个候选音频为例，若本次执行该方案时，仍确定了第一候选音频集合包括：A1、A2和A3，并且，根据历史跟随音频A1’与A3’可以确定，与之对应的候选音频A1与A3已经输出过，因此，在执行本次筛选时，将候选音频A1与A3在第一候选音频集合中删除，如此，最终确定本次筛选出的第一候选音频为A2。

或者，反之，先根据历史跟随音，频在音频数据库中删除部分音频，得到第二候选集合，进而，在第二候选集合中，根据第一声音属性，筛选出第一候选音频集合。

基于前述筛选步骤，可最终确定出一个第一候选音频，之后将该第一候选音频输出即可。

在一个可能的实现场景中，考虑到第一候选音频为歌曲时，高潮部分片段更加适合跟唱，因此，可在输出第一候选音频时，获取第一候选音频中的高潮音频片段，从而，输出高潮音频片段。如此，能够在一定程度上缩短音频播放时长，提高目标音频的获取效率。

本发明实施例中，在输出第一候选音频后，即可采集目标对象跟唱第一候选音频发出的声音，将该声音数据作为跟随音频。具体而言，该采集步骤可以通过麦克风采集声音。

进而，在获取第一相似度时，可以获取第一候选音频与跟随音频在至少一个音频维度上的维度相似度，进而，根据至少一个维度相似度，获取第一相似度。

而本发明实施例所涉及到的音频维度可以包括但不限于以下至少一种：音色、音量与波形。其中，波形维度相似度能够在一定程度上表征跟随音频与第一候选音频之间的波形差距。若波形维度相似度较大，说明跟随音频与第一候选音频之间的波形差距较小，目标用户跟唱该第一候选音频整体上不太跑调，与第一候选音频的匹配程度较高；反之，若波形维度相似度较小，说明跟随音频与第一候选音频之间的波形差距较大，目标用户跟唱该第一候选音频整体上可能跑调问题较为严重，与第一候选音频的匹配程度较低。

具体的，若仅以一个音频维度为获取依据，则可以将该维护相似度直接作为第一相似度，并之后后续与第一相似度阈值的比较，即可。

而针对以多个音频维度为获取依据的实现场景中，则至少可以通过如下至少一种实现方式来获取第一相似度：

获取多个维度相似度的加权平均值，以作为第一相似度；或者，

获取多个维度相似度的加权和，以作为第一相似度；或者，

获取一个维度相似度，以作为第一相似度。

也就是说，在包含多个音频维度的实现场景中，也可仅依据其中的一个维度相似度实现候选判断。

此外，需要说明的是，本发明实施例随对各维度相似度的加权平均值无特殊限定。

在实际实现时，在不同的目标音频获取步骤中，可为各维度相似度设置固定的权重系数，并以固定的权重系数实现本方案。

或者，还可以在具体实现该第一相似度的获取步骤之前，可以根据历史跟随音频与历史第一候选音频，对各维度相似度的权重系数进行调整；从而，根据调整后的权重系数，获取第一相似度。

例如，若在本方案执行之前，已进行了一轮目标音频的获取，此时，可将这一轮中涉及到的跟随音频与第一候选音频分别作为历史跟随音频与历史第一候选音频，对二者进行分析，从而，调整各维度相似度的权重系数。

具体而言，假设根据上一轮的历史跟随音频与历史第一候选音频发现目标对象对历史第一候选音频的音色与音量的维度相似度较高，但是波形相似度较低，此时，可根据需要，在进行本轮目标音频的获取步骤时，可将波形相似度的权重系数适应性提高，而适应性降低音色维度相似度与音量维度相似度的权重系数，并利用重新调整后的权重系数执行本轮第一相似度的获取。

因此，考虑到唱歌这一具体的应用场景，在具体获取前述各维度相似度的加权和或加权平均值时，可为波形维度相似度设置较高的权重。

此外，为了便于处理，除前述处理之外，还可以对第一相似度进行归一化处理，使得第一相似度的数值范围在0到100之间。

经过前述处理，可以在一次获取过程中，确定第一候选音频是否为目标音频，如此，存在如下两个处理分支：

分支一，若第一相似度大于或者等于第一相似度阈值，该第一候选音频为目标音频。

此时，可以输出第二提示信息，第二提示信息用于提示获取到目标音频。

在一个可能的实现场景中，第二提示信息可以通过文字方式展示在终端屏幕上。例如，其文字可以为“您和XX歌曲相似度高达XX％，要不要换个歌曲试试”。从而，若目标对象指示换个歌曲试试时，再重新筛选第一候选歌曲并输出，执行前述方案。

分支二，若第一相似度小于第一相似度阈值，该第一候选音频不是目标音频。

此时，可以输出第三提示信息。

其中，该第三提示信息可用于提示跟随音频与第一候选音频之间的相似度较低。例如，以“您和XX歌曲相似度较低”的文字形式在终端屏幕上显示以提示目标对象。

该第三提示信息可用于提示是否重新进行目标音频的获取。仍以前述方式举例，此时可以“您好像有跑调哦，要不要再试试？”的文字形式在终端屏幕上显示以提示目标对象。

在具体实现时，以第三提示信息同时提示前述两种信息亦可。例如，可以“您和XX歌曲相似度较低，要不要再试试其他歌曲？”的文字形式在终端屏幕上显示以提示目标对象。

根据前述举例，在前述分支中，还可能会涉及到目标对象希望重新获取目标音频的处理，因此，在前述输出第三提示信息(或第二提示信息)之后，还可执行如下步骤：

获取目标对象针对前述提示信息(第二提示信息或第三提示信息)的操作信息；

若操作信息指示重新获取目标音频，根据目标对象的第一声音属性，输出第二候选音频；第二候选音频与第一候选音频不同。

也就是，在前述S1022步骤中筛选第一候选音频时，尽量使得本次筛选得到的第一候选音频与之前筛选得到的第一候选音频不同，实现方式如前，不再赘述。

为了便于理解，本发明实施例给出图3所示的一种实现流程示意图，如图3所示，本方法包括如下步骤：

S301，接收用于指示获取目标对象的语音指令。

S302，对该语音指令进行声音属性分析，得到目标对象的第一声音属性。

S303，根据第一声音属性，在音频数据库中筛选第一候选音频。

S304，输出第一候选音频。

S305，采集目标对象根随第一候选音频发出的声音，得到跟随音频。

S306，获取跟随音频与第一候选音频之间的第一相似度。

S307，判断第一相似度是否大于第一相似度阈值；若是S308，执行；若否，执行S309。

S308，将该第一候选音频确定为目标音频，并输出第二提示信息。

其中，第二提示信息用于提示获取到目标音频

S309，输出第三提示信息。

其中，第三提示信息用于提示跟随音频与第一候选音频之间的相似度较低，以及，用于提示是否重新进行目标音频的获取

S310，获取目标对象针对提示信息的操作信息。

S311，判断该操作信息是否指示重新获取目标音频；若是，执行S303；若否，结束。

需注意，S311的判断结果若为是，再次执行S303时筛选出的为区别于第一候选音频的第二候选音频。

基于上述实施例一所提供的目标音频获取方法，本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。

本发明实施例提供了一种目标音频获取装置，请参考图4，该目标音频获取装置400，包括：

输出模块41，用于根据目标对象的第一声音属性，输出第一候选音频；

采集模块42，用于采集目标对象根随第一候选音频发出的声音，得到跟随音频；

获取模块43，用于获取第一候选音频与跟随音频的第一相似度；

确定模块44，用于若第一相似度大于或者等于预设的第一相似度阈值，将第一候选音频确定为目标音频。

在一种可能的设计中，该输出模块41还包括：

筛选子模块(图4未示出)，用于根据目标对象的第一声音属性，在预设的音频数据库中筛选出第一候选音频；

输出子模块(图4未示出)，用于输出第一候选音频。

其中，该目标音频获取装置400包括：

接收模块(图4未示出)，用于根据目标对象的第一声音属性，在预设的音频数据库中筛选出第一候选音频之前，接收目标对象发出的目标音频获取指令；

分析模块(图4未示出)，用于对目标音频获取指令进行声音属性分析，得到目标对象的第一声音属性。

具体的，若目标音频获取指令为语音指令，分析模块，具体用于：

对语音指令进行语音识别，得到第一声音属性。

或者，若目标音频获取指令不是语音指令，输出模块41，还用于输出第一提示信息，第一提示信息用于提示目标对象发出声音；

采集模块42，还用于采集目标对象发出的声音；

分析模块，具体用于对采集到的声音进行语音识别，得到第一声音属性。

一种可能的设计中，筛选子模块，具体用于：

在预设的音频数据库中，筛选出具备第一声音属性的一个音频，以作为第一候选音频；或者，

获取音频数据库中各音频的第二声音属性，并获取各第二声音属性与第一声音属性之间的第二相似度，以及，获取第二相似度大于预设的第二相似度阈值的一个音频，以作为第一候选音频。

另一种可能的设计中，筛选子模块，具体用于：

根据第一声音属性，在音频数据库中筛选出第一候选集合；

根据历史跟随音频，在音频数据库中删除部分音频，得到第二候选集合；

获取第一候选集合与第二候选集合的交集中的一个音频，以作为第一候选音频。

一种可能的设计中，输出子模块，具体用于：

获取第一候选音频中的高潮音频片段；

输出高潮音频片段。

本发明实施例所涉及到的第一声音属性包括如下至少一种：性别、年龄与性格。

一种可能的设计中，获取模块43，用于：

获取第一候选音频与跟随音频在至少一个音频维度上的维度相似度；

根据至少一个维度相似度，获取第一相似度。

其中，获取模块43，可具体用于：

获取多个维度相似度的加权和，以作为第一相似度；或者，

获取一个维度相似度，以作为第一相似度。

此外，获取模块43，还可具体用于：

根据历史跟随音频与历史第一候选音频，对各维度相似度的权重系数进行调整，并根据调整后的权重系数，获取第一相似度。

本发明实施例中，音频维度包括以下至少一种：音色、音量与波形。

此外，输出模块41，还用于：

输出第二提示信息，第二提示信息用于提示获取到目标音频。

此外，输出模块41，还用于：

若第一相似度小于第一相似度阈值，输出第三提示信息，第三提示信息用于提示跟随音频与第一候选音频之间的相似度较低，和/或，用于提示是否重新进行目标音频的获取。

一种可能的设计中，目标音频获取装置400还包括：

第二获取模块(图4未示出)，用于获取目标对象针对提示信息的操作信息；

输出模块41，还用于若操作信息指示重新获取目标音频，根据目标对象的第一声音属性，输出第二候选音频；第二候选音频与第一候选音频不同。

并且，本发明实施例提供了一种目标音频获取装置，请参考图5，该目标音频获取装置400，包括：

存储器410；

处理器420；以及

计算机程序；

其中，计算机程序存储在存储器410中，并被配置为由处理器420执行以实现如上述实施例的方法。

此外，如图5所示，在该目标音频获取装置400中还设置有收发器430，用于与其他设备进行数据传输或通信，在此不再赘述。

如图5所示，存储器410、处理器420与收发器430通过总线连接。

此外，本发明实施例提供了一种可读存储介质，其上存储有计算机程序，

该计算机程序被处理器执行以实现如前述实施例中任一实现方式所述的方法。

此外，本发明实施例提供了一种终端，请参考图6，该终端600包括：目标音频获取装置400。

其中，本发明实施例所涉及到的终端可以是无线终端也可以是有线终端。无线终端可以是指向目标对象提供语音和/或其他业务数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网(Radio Access Network，简称RAN)与一个或多个核心网设备进行通信，无线终端可以是移动终端，如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语言和/或数据。再例如，无线终端还可以是个人通信业务(Personal Communication Service，简称PCS)电话、无绳电话、会话发起协议(Session Initiation Protocol，简称SIP)话机、无线本地环路(Wireless Local Loop，简称WLL)站、个人数字助理(Personal DigitalAssistant，简称PDA)等设备。无线终端也可以称为系统、订户单元(Subscriber Unit)、订户站(Subscriber Station)，移动站(Mobile Station)、移动台(Mobile)、远程站(RemoteStation)、远程终端(Remote Terminal)、接入终端(Access Terminal)、目标对象终端(User Terminal)、目标对象代理(User Agent)、目标对象设备(User Device or UserEquipment)，在此不作限定。可选的，上述终端设备还可以是智能手表、平板电脑等设备。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims

1.一种目标音频获取方法，其特征在于，包括：

根据目标对象的第一声音属性，输出第一候选音频；

采集所述目标对象跟随所述第一候选音频发出的声音，得到跟随音频；

获取所述第一候选音频与所述跟随音频的第一相似度；

2.根据权利要求1所述的方法，其特征在于，所述根据目标对象的第一声音属性，输出第一候选音频，包括：

根据所述目标对象的第一声音属性，在预设的音频数据库中筛选出所述第一候选音频；

输出所述第一候选音频。

3.根据权利要求1或2所述的方法，其特征在于，根据所述目标对象的第一声音属性，在预设的音频数据库中筛选出所述第一候选音频之前，所述方法包括：

接收所述目标对象发出的目标音频获取指令；

对所述目标音频获取指令进行声音属性分析，得到所述目标对象的第一声音属性。

4.根据权利要求3所述的方法，其特征在于，若所述目标音频获取指令为语音指令，所述对所述目标音频获取指令进行声音属性分析，包括：

对所述语音指令进行语音识别，得到所述第一声音属性。

5.根据权利要求3所述的方法，其特征在于，若所述目标音频获取指令不是语音指令，所述对所述目标音频获取指令进行声音属性分析，包括：

输出第一提示信息，所述第一提示信息用于提示所述目标对象发出声音；

采集所述目标对象发出的声音，并对采集到的声音进行语音识别，得到所述第一声音属性。

6.根据权利要求2所述的方法，其特征在于，所述根据所述目标对象的第一声音属性，在预设的音频数据库中筛选出所述第一候选音频，包括：

在预设的所述音频数据库中，筛选出具备所述第一声音属性的一个音频，以作为所述第一候选音频；或者，

获取所述音频数据库中各音频的第二声音属性，并获取各所述第二声音属性与所述第一声音属性之间的第二相似度，以及，获取所述第二相似度大于预设的第二相似度阈值的一个音频，以作为所述第一候选音频。

7.根据权利要求2所述的方法，其特征在于，所述根据所述目标对象的第一声音属性，在预设的音频数据库中筛选出所述第一候选音频，包括：

根据所述第一声音属性，在所述音频数据库中筛选出第一候选集合；

根据历史跟随音频，在所述音频数据库中删除部分音频，得到第二候选集合；

获取所述第一候选集合与所述第二候选集合的交集中的一个音频，以作为所述第一候选音频。

8.根据权利要求1或2所述的方法，其特征在于，所述输出所述第一候选音频，包括：

获取所述第一候选音频中的高潮音频片段；

输出所述高潮音频片段。

9.根据权利要求1或2所述的方法，其特征在于，所述第一声音属性包括如下至少一种：性别、年龄与性格。

10.根据权利要求1或2所述的方法，其特征在于，所述获取所述第一候选音频与所述跟随音频的第一相似度，包括：

获取所述第一候选音频与所述跟随音频在至少一个音频维度上的维度相似度；

根据至少一个所述维度相似度，获取所述第一相似度。

11.根据权利要求10所述的方法，其特征在于，所述根据至少一个所述维度相似度，获取所述第一相似度，包括：

获取多个所述维度相似度的加权平均值，以作为所述第一相似度；或者，

获取多个所述维度相似度的加权和，以作为所述第一相似度；或者，

获取一个所述维度相似度，以作为所述第一相似度。

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

根据历史跟随音频与历史第一候选音频，对各维度相似度的权重系数进行调整，并根据调整后的权重系数，获取所述第一相似度。

13.根据权利要求10所述的方法，其特征在于，所述音频维度包括以下至少一种：音色、音量与波形。

14.根据权利要求1所述的方法，其特征在于，所述方法还包括：

输出第二提示信息，所述第二提示信息用于提示获取到所述目标音频。

15.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述第一相似度小于所述第一相似度阈值，输出第三提示信息，所述第三提示信息用于提示所述跟随音频与所述第一候选音频之间的相似度较低，和/或，用于提示是否重新进行目标音频的获取。

16.根据权利要求14或15所述的方法，其特征在于，所述方法还包括：

获取所述目标对象针对提示信息的操作信息；

若所述操作信息指示重新获取所述目标音频，根据目标对象的第一声音属性，输出第二候选音频；所述第二候选音频与所述第一候选音频不同。

17.一种目标音频获取装置，其特征在于，包括：

采集模块，用于采集所述目标对象跟随所述第一候选音频发出的声音，得到跟随音频；

18.一种目标音频获取装置，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-16任一项所述的方法。

19.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，

所述计算机程序被处理器执行以实现如权利要求1-16任一项所述的方法。

20.一种终端，其特征在于，包括：如权利要求17或18所述的目标音频获取装置。