CN108737872A

CN108737872A - 用于输出信息的方法和装置

Info

Publication number: CN108737872A
Application number: CN201810587827.5A
Authority: CN
Inventors: 侯在鹏; 栾舒涵
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2018-06-08
Filing date: 2018-06-08
Publication date: 2018-11-02
Also published as: US20190379941A1; JP2019216408A; JP6855527B2; US11006179B2

Abstract

本申请实施例公开了用于输出信息的方法和装置。该方法的一具体实施方式包括：响应于接收到用户输入的语音，基于语音生成声纹特征向量；将声纹特征向量输入声纹识别模型，得到用户的身份信息；从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件；根据目标多媒体文件生成预览信息进行输出。该实施方式实现了富有针对性的多媒体预览信息推荐。

Description

用于输出信息的方法和装置

技术领域

本申请实施例涉及智能电视技术领域，具体涉及用于输出信息的方法和装置。

背景技术

智能电视已经广泛出现在我们的生活中，智能电视不仅仅局限于传统的电视节目观看功能，目前热门的电视应用市场，为用户提供成百上千电视应用，覆盖电视直播、视频点播、股票金融、生活健康、系统优化工具等。

现有技术中电视作为一个家庭公用设备，通常对家庭中的每个成员提供相同的服务。

发明内容

本申请实施例提出了用于输出信息的方法和装置。

第一方面，本申请实施例提供了一种用于输出信息的方法，包括：响应于接收到用户输入的语音，基于语音生成声纹特征向量；将声纹特征向量输入声纹识别模型，得到用户的身份信息；从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件；根据目标多媒体文件生成预览信息进行输出。

在一些实施例中，基于语音生成声纹特征向量，包括：将语音导入预先训练的全局背景模型中进行映射得到声纹特征超向量，其中，全局背景模型用于表征语音与声纹特征超向量之间的对应关系；将声纹特征超向量经过降维处理得到声纹特征向量。

在一些实施例中，上述方法还包括：对于用于多媒体文件检索的操作指令所涉及的至少一个多媒体文件中的多媒体文件，累加检索该多媒体文件的次数作为该多媒体文件对应的检索次数；以及从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件，包括：按照检索次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。

在一些实施例中，上述方法还包括：对于用于多媒体文件播放的操作指令所涉及的至少一个多媒体文件中的多媒体文件，累加播放该多媒体文件的次数作为该多媒体文件对应的播放次数；以及从预设的多媒体文件集合中选择预定数目个与用户的身份信息匹配的多媒体文件作为目标多媒体文件，包括：按照播放次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与用户的身份信息匹配的多媒体文件作为目标多媒体文件。

在一些实施例中，用户的身份信息包括以下至少一项：性别、年龄、家庭成员标识。

在一些实施例中，上述方法还包括：从预设的音色信息集合中选择与用户的身份信息匹配的音色信息；使用所选择的音色信息所指示的音色输出语音交互信息以与用户进行语音交互。

在一些实施例中，声纹识别模型是预先训练的、用于表征声纹特征向量和用户的身份信息之间的对应关系的模型。

第二方面，本申请实施例提供了一种用于输出信息的装置，包括：生成单元，被配置成响应于接收到用户输入的语音，基于语音生成声纹特征向量；识别单元，被配置成将声纹特征向量输入预先训练的声纹识别模型，得到用户的身份信息，其中，声纹识别模型用于表征声纹特征向量和用户的身份信息之间的对应关系；选项单元，被配置成从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件；输出单元，被配置成根据目标多媒体文件生成预览信息进行输出。

在一些实施例中，生成单元进一步被配置成：将语音导入预先训练的全局背景模型中进行映射得到声纹特征超向量，其中，全局背景模型用于表征语音与声纹特征超向量之间的对应关系；将声纹特征超向量经过降维处理得到声纹特征向量。

在一些实施例中，上述装置还包括执行单元，被配置成：响应于确定出语音包括操作指令，执行操作指令，其中，操作指令包括以下至少一项：频道选择、音量控制、图像参数调整、多媒体文件检索、多媒体文件播放。

在一些实施例中，上述装置还包括检索次数统计单元，被配置成：对于用于多媒体文件检索的操作指令所涉及的至少一个多媒体文件中的多媒体文件，累加检索该多媒体文件的次数作为该多媒体文件对应的检索次数；以及从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件，包括：按照检索次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。

在一些实施例中，上述装置还包括播放次数统计单元，被配置成：对于用于多媒体文件播放的操作指令所涉及的至少一个多媒体文件中的多媒体文件，累加播放该多媒体文件的次数作为该多媒体文件对应的播放次数；以及从预设的多媒体文件集合中选择预定数目个与用户的身份信息匹配的多媒体文件作为目标多媒体文件，包括：按照播放次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与用户的身份信息匹配的多媒体文件作为目标多媒体文件。

在一些实施例中，上述装置还包括调音单元，被配置成：从预设的音色信息集合中选择与用户的身份信息匹配的音色信息；使用所选择的音色信息所指示的音色输出语音交互信息以与用户进行语音交互。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一的方法。

第四方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，程序被处理器执行时实现如第一方面中任一的方法。

本申请实施例提供的用于输出信息的方法和装置，通过语音识别出用户身份信息，然后再根据用户身份信息选择待推荐的多媒体文件生成预览信息。从而实现了富有针对性的多媒体预览信息推荐。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本申请的用于输出信息的方法的一个实施例的流程图；

图3是根据本申请的用于输出信息的方法的一个应用场景的示意图；

图4是根据本申请的用于输出信息的方法的又一个实施例的流程图；

图5是根据本申请的用于输出信息的装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于输出信息的方法或用于输出信息的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括智能电视101和遥控器102。智能电视101上安装有麦克风103，用于采集观看者的声音。遥控器102用来远程控制智能电视101。可以实现对智能电视频道的转换、用于输出信息的等功能。智能电视101连接网络后，能提供网页浏览器、全高清3D体感游戏、视频通话以及教育在线等多种娱乐、资讯、学习资源，并可以无限拓展，还能分别支持组织与个人、专业和业余软件爱好者自主开发、共同分享数以万计的实用功能软件。它将实现网络搜索、网络电视、视频点播、数字音乐、网络新闻、网络视频电话等各种应用服务。用户可以搜索电视频道和网站，录制电视节目，能够播放卫星和有线电视节目以及网络视频。

智能电视101像智能手机一样，具有全开放式平台，搭载了操作系统，可以由用户自行安装和卸载软件、游戏等第三方服务商提供的程序，通过此类程序来不断对彩电的功能进行扩充，并可以通过网线、无线网络来实现上网冲浪。智能电视101可通过麦克风103采集观看者的声音，然后识别出观看者的身份。再针对不同的身份提供个性化的服务。

需要说明的是，本申请实施例所提供的用于输出信息的方法一般由智能电视101执行，相应地，用于输出信息的装置一般设置于智能电视101中。

继续参考图2，示出了根据本申请的用于输出信息的方法的一个实施例的流程200。该用于输出信息的方法，包括以下步骤：

步骤201，响应于接收到用户输入的语音，基于语音生成声纹特征向量。

在本实施例中，用于输出信息的方法的执行主体(例如图1所示的智能电视)可以通过麦克风接收用户口头输入的语音。语音中可包括遥控指令(例如，“开机”)，也可以是不包括遥控指令的语音。声纹是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且有相对稳定性的特点。声纹特征向量可以是标识用户的声纹频谱特征的向量。如果一段音频中存在多个人的声音，则可以提取出多个声纹特征向量。需要说明的是，基于语音生成声纹特征向量是目前广泛研究和应用的公知技术，在此不再赘述。

作为示例，基于语音生成声纹特征向量可以通过提取语音中的典型特征来实现。具体地，由于声音的波长、频率、强度、节奏等特征能体现用户声音的特点，因此，在对语音进行声纹特征提取时，可以提取语音中的波长、频率、强度、节奏等特征，并确定语音中波长、频率、强度、节奏等特征的特征值，将语音中的波长、频率、强度、节奏等特征的特征值作为声纹特征向量中的元素。

作为示例，基于语音生成声纹特征向量还可以通过提取语音中的声学特征，例如，梅尔倒谱系数。将梅尔倒谱系数作为声纹特征向量中的元素。其中，从语音中提取梅尔倒谱系数的过程可以包括预加重、分帧、加窗、快速傅里叶变换、梅尔滤波、对数变换以及离散余弦变换。

在用户输入语音之前，可通过遥控器让智能电视静音，以防止采集的用户输入的语音中包括电视节目的声音。可选地，还可通过预定的语音命令，让智能电视静音。例如，用户可以口头输入语音“静音”令智能电视静音。

在本实施例的一些可选的实现方式中，上述电子设备可以将上述语音导入预先训练的全局背景模型(Universal Background Model，UBM)中进行映射得到声纹特征超向量(即高斯超向量)。全局背景模型也被称为通用背景模型，用于表示通用的背景特性。全局背景模型是由大量的冒认者语音使用EM(Expectation-Maximum，期望最大化)算法训练得到的，UBM模型的训练来自大量不同的说话人。假如训练好的全局背景模型中有多个高斯分布，如果提取得到了某个人的多帧语音特征序列，就可以计算出这个人的声纹特征超向量。实际上反映的就是这个人的声学特征和全局背景模型的不同，即这个人发音中的独特个性。如此一来，最终可以将用户不定长语音最终映射到一个能反映用户发声特征的固定长度的声纹特征超向量上来。

这样的高维声纹特征超向量中，不仅包含了个人发音的差异，可能还包含信道所造成的差异。所以，还需要通过一些有监督降维算法进一步把这个超向量降维，映射到更低维度的向量上面去。可以通过联合因子分析方法(Joint Factor Analysis，JFA)对上述声纹特征超向量进行降维处理得到声纹特征向量，上述联合因子分析方法是声纹认证算法中针对信道补偿的有效算法，它通过假设说话人空间和信道空间是独立的，并可以分别用两个低维因子空间进行描述，从而估计信道因子；也可以通过概率线性判别分析算法(Probabilistic Linear Discriminant Analysis，PLDA)对上述声纹超向量进行降维处理得到声纹特征向量，上述概率线性判别分析算法也是一种信道补偿算法，是概率形式的线性判别分析算法(Linear Discriminant Analysis，LDA)；还可以通过辨识矢量(Identifying Vector，I-Vector)对上述声纹特征超向量进行降维处理得到声纹特征向量。实际上，为了保证声纹的准确性，训练全局背景模型的时候通常需要提供多条语音，然后提取得到多个这样的声纹特征向量，然后可将用户的声纹特征向量存储起来，多个用户声纹特征向量构成声纹库。

然后，通过上述方法将声纹特征超向量进行降维处理得到声纹特征向量。使用许多人的大量声学特征向量，通过最大期望算法(Expectation Maximization)便可以训练得到一个高斯混合模型(Gaussian Mixture Model)，这个模型描述了很多人的语音特征数据的一个概率分布，可以理解为所有说话人的共性，看作具体某一个说话人声纹模型的一个先验模型。因此，这个高斯混合模型还被称为UBM模型。还可通过深层神经网络构建全局背景模型。

可选的，可在生成声纹特征向量之前先对语音进行处理，过滤掉噪音。例如，通过奇异值分解算法或滤波算法过滤掉语音中的噪音。这里所指的噪音可以包括音高和音强变化混乱、听起来不谐和的声音。也可包括背景音乐等干扰识别出目标声音的声音。奇异值分解(SVD，Singular Value Decomposition)是线性代数中一种重要的矩阵分解，是矩阵分析中正规矩阵酉对角化的推广。在信号处理、统计学等领域有重要应用。基于SVD的去噪声技术属于子空间算法的一种。简单的来说将带噪信号向量空间分解为分别由纯净信号主导和噪声信号主导的两个子空间，然后通过简单地去除落在“噪声空间”中的带噪信号向量分量来估计纯净信号。还可通过自适应滤波法和卡尔曼滤波法过滤掉音频文件中的噪音。通常以20～50ms为间隔对语音进行分帧，然后通过一些特征提取算法(主要是进行时域到频域的转换)，每一帧语音都可以映射到一个固定长度的声学特征序列。

步骤202，将声纹特征向量输入声纹识别模型，得到用户的身份信息。

在本实施例中，声纹识别模型可以是市售的用于用户身份识别的模型。声纹识别模型还可以是预先训练的、用于表征声纹特征向量和用户的身份信息之间的对应关系的模型。用户的身份信息可以包括以下至少一项：性别、年龄、家庭成员标识。年龄可以是一定的年龄区间，例如，4-8岁、20-30岁等。可将性别和年龄结合起来确定用户的具体身份。例如，可以识别出儿童、老人、成年女性、成年男性。家庭成员标识用于标识预先注册了的家庭成员。例如，妈妈，爸爸，女儿，奶奶等。如果一个家庭中相近年龄，相同性别的成员只有一个，则可直接用用户的年龄和性别确定出家庭成员。例如，家庭成员包括妈妈，爸爸，女儿，奶奶，则确定出年龄在50-60之间的女性就是奶奶，年龄在4-8之间的女性是女儿。声纹识别模型可以包括分类器，能够把声纹特征向量库中的声纹特征向量映射到给定用户的类别中的某一个，从而可以应用于用户的类别的预测。可以按年龄分类，也可按性别分类，还可按年龄和性别的结合分类。例如女童、男性成年人、女性老人等。即，将声纹特征向量输入分类器，可输出用户的类别。本实施例采用的分类器，可包含决策树、逻辑回归、朴素贝叶斯、神经网络等。分类器在一个简单的概率模型的基础上，使用最大的概率值来对数据进行分类预测。分类器是提前训练好的。可从大量的声音样本中提取出声纹特征向量，训练分类器。分类器的构造和实施大体会经过以下几个步骤：1、选定样本(包含正样本和负样本)，将所有样本分成训练样本和测试样本两部分。2、基于训练样本执行分类器算法，生成分类器。3、将测试样本输入分类器，生成预测结果。4、根据预测结果，计算必要的评估指标，评估分类器的性能。

例如，采集大量儿童的声音作为正样本，大量成人的声音作为负样本。基于正样本和负样本上执行分类器算法，生成分类器。再将正样本和负样本分别输入分类器，生成预测结果以验证预测结果是否为儿童。根据预测结果评估分类器的性能。

声纹识别模型还可以包括家庭成员映射表。上述家庭成员映射表记录了家庭成员标识、性别、年龄的对应关系。从家庭成员映射表中查找分类器分类的结果，可确定家庭成员标识。例如，分类器输出的结果是年龄在50-60之间的女性，则通过家庭成员映射表确定出该用户的家庭成员标识是奶奶。

可选地，声纹识别模型可以是声纹库。声纹库用于表征声纹特征向量和身份信息的对应关系。将声纹特征向量输入预定的声纹库进行匹配，并按照匹配度由高到低的顺序选取第一预定数目个身份信息并输出。可以通过多次采集同一用户的声音，通过步骤201构建出该用户的声纹特征向量，建立声纹特征向量和身份信息的对应关系，通过注册多个用户的声纹特征向量和身份信息的对应关系从而构建出声纹库。计算上述声纹特征向量与上述声纹库之间的匹配度时，可以采用曼哈顿距离(Manhattan Distance)进行计算，也可以采用闵可夫斯基距离(Minkowski Distance)进行计算，还可以采用余弦相似度(CosineSimilarity)进行计算。

步骤203，从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。

在本实施例中，预设的多媒体文件集合中的多媒体文件预先分好级别，例如仅限于18岁以上观看。例如，动画片类的多媒体文件与儿童相匹配。恐怖电影与成年人相匹配。目标多媒体文件是待向用户推荐的多媒体文件。当身份信息为儿童时，可从多媒体文件集合中选择动画片、儿歌、科教等多个适合儿童观看的多媒体文件作为目标多媒体文件。

步骤204，根据目标多媒体文件生成预览信息进行输出。

在本实施例中，可将步骤203选择出的预定数目个目标多媒体文件随机生成预览信息。也可按照点播次数由大到小的顺序排列生成预览信息进行输出。点播次数是每次多媒体文件被点播时统计的。预览信息可包括视频截图、时长、简介、文件标识等信息。用户可通过遥控器根据文件标识选择要播放的多媒体文件。也可通过语音输入文件标识选择要播放的多媒体文件。

在本实施例的一些可选的实现方式中，上述方法还可以包括：响应于确定出语音包括操作指令，执行操作指令，其中，操作指令可以包括以下至少一项：频道选择、音量控制、图像参数调整、多媒体文件检索、多媒体文件播放。例如，用户可以语音输入“换到中央5台”、“声音大一点”、“增加亮度”、“搜索汤姆克鲁斯的电影”、“播放1号(预览信息中的多媒体文件标识)”等操作指令。

在本实施例的一些可选的实现方式中，上述方法还可以包括：对于用于多媒体文件检索的操作指令所涉及的至少一个多媒体文件中的多媒体文件，累加检索该多媒体文件的次数作为该多媒体文件对应的检索次数。从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件，包括：按照检索次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。例如，电影A被搜索了100次，电影B被搜索了200次，则可选择电影B生成预览文件，或者将电影B的预览信息排在电影A的预览信息之前。

在本实施例的一些可选的实现方式中，上述方法还可以包括：对于用于多媒体文件播放的操作指令所涉及的至少一个多媒体文件中的多媒体文件，累加播放该多媒体文件的次数作为该多媒体文件对应的播放次数。从预设的多媒体文件集合中选择预定数目个与用户的身份信息匹配的多媒体文件作为目标多媒体文件，包括：按照播放次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与用户的身份信息匹配的多媒体文件作为目标多媒体文件。例如，电影A被播放了100次，电影B被播放了200次，则可选择电影B生成预览文件，或者将电影B的预览信息排在电影A的预览信息之前。

继续参见图3，图3是根据本实施例的用于输出信息的方法的应用场景的一个示意图。在图3的应用场景中，智能电视通过麦克风进行音频采集301，接收了儿童输入的语音“看电视”。然后基于语音进行声纹提取302生成声纹特征向量。再将声纹特征向量输入预先训练的声纹识别模型进行声纹识别303，得到用户的身份信息304(儿童)。再根据用户的身份信息进行预览推荐305，得到预览信息306，包括：1、动画片A；2、动物世界；3、科学探索。

本申请的上述实施例提供的方法通过语音识别用户的身份，从而实现了富有针对性的多媒体预览信息推荐。

进一步参考图4，其示出了用于输出信息的方法的又一个实施例的流程400。该用于输出信息的方法的流程400，包括以下步骤：

步骤401，响应于接收到用户输入的语音，基于语音生成声纹特征向量。

步骤402，将声纹特征向量输入声纹识别模型，得到用户的身份信息。

步骤403，从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。

步骤404，根据目标多媒体文件生成预览信息进行输出。

步骤401-404与步骤201-204基本相同，因此不再赘述。

步骤405，从预设的音色信息集合中选择与用户的身份信息匹配的音色信息。

在本实施例中，智能电视可提供多种音色供用户选择，可以通过语音命令选择也可通过遥控器选择。也可根据用户的身份信息自动为其匹配音色信息。例如，对于儿童，可为其选择动画人物的音色，如喜羊羊、光头强、小猪佩琪等。对于成年人，可提供明星A、明星B的音色。还可根据多媒体文件的播放次数来确定具体的音色。例如，《喜羊羊与灰太狼》的播放次数最多，则可选择喜羊羊的音色。

步骤406，使用所选择的音色信息所指示的音色输出语音交互信息以与用户进行语音交互。

在本实施例中，按照步骤405选择的音色输出语音交互信息以与用户进行语音交互。可以提高趣味性。例如，儿童可以语音输入“要看《喜羊羊与灰太狼》”。智能电视可以用喜羊羊的音色问他“要看第几集呀？”。

从图4中可以看出，与图2对应的实施例相比，本实施例中的用于输出信息的方法的流程400突出了对音色的选择的步骤。由此，本实施例描述的方案可以针对不同的用户群体采用不同的音色进行语音交互。从而提高了用户与智能电视互动的趣味性。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种用于输出信息的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的用于输出信息的装置500包括：生成单元501、识别单元502、选项单元503、输出单元504。其中，生成单元501被配置成响应于接收到用户输入的语音，基于语音生成声纹特征向量。识别单元502被配置成将声纹特征向量输入声纹识别模型，得到用户的身份信息。选项单元503被配置成从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。输出单元504被配置成根据目标多媒体文件生成预览信息进行输出。

在本实施例中，用于输出信息的装置500的生成单元501、识别单元502、选项单元503、输出单元504的具体处理可以参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204。

在本实施例的一些可选的实现方式中，生成单元501可以进一步被配置成：将语音导入预先训练的全局背景模型中进行映射得到声纹特征超向量，其中，全局背景模型用于表征语音与声纹特征超向量之间的对应关系。将声纹特征超向量经过降维处理得到声纹特征向量。

在本实施例的一些可选的实现方式中，上述装置500还可以包括执行单元(未示出)，被配置成：响应于确定出语音包括操作指令，执行操作指令，其中，操作指令包括以下至少一项：频道选择、音量控制、图像参数调整、多媒体文件检索、多媒体文件播放。

在本实施例的一些可选的实现方式中，上述装置500还可以包括检索次数统计单元，被配置成：对于用于多媒体文件检索的操作指令所涉及的至少一个多媒体文件中的多媒体文件，累加检索该多媒体文件的次数作为该多媒体文件对应的检索次数。从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件，包括：按照检索次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。

在本实施例的一些可选的实现方式中，上述装置500还可以包括播放次数统计单元，被配置成：对于用于多媒体文件播放的操作指令所涉及的至少一个多媒体文件中的多媒体文件，累加播放该多媒体文件的次数作为该多媒体文件对应的播放次数。从预设的多媒体文件集合中选择预定数目个与用户的身份信息匹配的多媒体文件作为目标多媒体文件，包括：按照播放次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与用户的身份信息匹配的多媒体文件作为目标多媒体文件。

在本实施例的一些可选的实现方式中，用户的身份信息可以包括以下至少一项：性别、年龄、家庭成员标识。

在本实施例的一些可选的实现方式中，装置500还可以包括调音单元，被配置成：从预设的音色信息集合中选择与用户的身份信息匹配的音色信息。使用所选择的音色信息所指示的音色输出语音交互信息以与用户进行语音交互。

在本实施例的一些可选的实现方式中，声纹识别模型是预先训练的、用于表征声纹特征向量和用户的身份信息之间的对应关系的模型。

下面参考图6，其示出了适于用来实现本申请实施例的电子设备(如图1所示的智能电视)的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括遥控器、麦克风等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括生成单元、识别单元、选项单元和输出单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，生成单元还可以被描述为“响应于接收到用户输入的语音，基于所述语音生成声纹特征向量的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置响应于接收到用户输入的语音，基于语音生成声纹特征向量；将声纹特征向量输入预先训练的声纹识别模型，得到用户的身份信息，其中，声纹识别模型用于表征声纹特征向量和用户的身份信息之间的对应关系；从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件；根据目标多媒体文件生成预览信息进行输出。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于输出信息的方法，包括：

响应于接收到用户输入的语音，基于所述语音生成声纹特征向量；

将所述声纹特征向量输入声纹识别模型，得到所述用户的身份信息；

从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件；

根据所述目标多媒体文件生成预览信息进行输出。

2.根据权利要求1所述的方法，其中，所述基于所述语音生成声纹特征向量，包括：

将所述语音导入预先训练的全局背景模型中进行映射得到声纹特征超向量，其中，所述全局背景模型用于表征语音与声纹特征超向量之间的对应关系；

将所述声纹特征超向量经过降维处理得到声纹特征向量。

3.根据权利要求1所述的方法，其中，所述方法还包括：

响应于确定出所述语音包括操作指令，执行所述操作指令，其中，所述操作指令包括以下至少一项：频道选择、音量控制、图像参数调整、多媒体文件检索、多媒体文件播放。

4.根据权利要求3所述的方法，其中，所述方法还包括：

对于用于多媒体文件检索的操作指令所涉及的至少一个多媒体文件中的多媒体文件，累加检索该多媒体文件的次数作为该多媒体文件对应的检索次数；以及

所述从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件，包括：

按照检索次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。

5.根据权利要求3所述的方法，其中，所述方法还包括：

对于用于多媒体文件播放的操作指令所涉及的至少一个多媒体文件中的多媒体文件，累加播放该多媒体文件的次数作为该多媒体文件对应的播放次数；以及

所述从预设的多媒体文件集合中选择预定数目个与所述用户的身份信息匹配的多媒体文件作为目标多媒体文件，包括：

按照播放次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与所述用户的身份信息匹配的多媒体文件作为目标多媒体文件。

6.根据权利要求1所述的方法，其中，所述用户的身份信息包括以下至少一项：性别、年龄、家庭成员标识。

7.根据权利要求1-6之一所述的方法，其中，所述方法还包括：

从预设的音色信息集合中选择与所述用户的身份信息匹配的音色信息；

使用所选择的音色信息所指示的音色输出语音交互信息以与所述用户进行语音交互。

8.根据权利要求1-6之一所述的方法，其中，所述声纹识别模型是预先训练的、用于表征声纹特征向量和用户的身份信息之间的对应关系的模型。

9.一种用于输出信息的装置，包括：

生成单元，被配置成响应于接收到用户输入的语音，基于所述语音生成声纹特征向量；

识别单元，被配置成将所述声纹特征向量输入声纹识别模型，得到所述用户的身份信息；

选项单元，被配置成从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件；

输出单元，被配置成根据所述目标多媒体文件生成预览信息进行输出。

10.根据权利要求9所述的装置，其中，所述生成单元进一步被配置成：

将所述声纹特征超向量经过降维处理得到声纹特征向量。

11.根据权利要求9所述的装置，其中，所述装置还包括执行单元，被配置成：

12.根据权利要求11所述的装置，其中，所述装置还包括检索次数统计单元，被配置成：

13.根据权利要求11所述的装置，其中，所述装置还包括播放次数统计单元，被配置成：

14.根据权利要求9所述的装置，其中，所述用户的身份信息包括以下至少一项：性别、年龄、家庭成员标识。

15.根据权利要求9-14之一所述的装置，其中，所述装置还包括调音单元，被配置成：

16.根据权利要求9-14之一所述的装置，其中，所述声纹识别模型是预先训练的、用于表征声纹特征向量和用户的身份信息之间的对应关系的模型。

17.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

18.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。