CN108737872A - 用于输出信息的方法和装置 - Google Patents

用于输出信息的方法和装置 Download PDF

Info

Publication number
CN108737872A
CN108737872A CN201810587827.5A CN201810587827A CN108737872A CN 108737872 A CN108737872 A CN 108737872A CN 201810587827 A CN201810587827 A CN 201810587827A CN 108737872 A CN108737872 A CN 108737872A
Authority
CN
China
Prior art keywords
multimedia file
user
vocal print
multimedia
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810587827.5A
Other languages
English (en)
Inventor
侯在鹏
栾舒涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810587827.5A priority Critical patent/CN108737872A/zh
Publication of CN108737872A publication Critical patent/CN108737872A/zh
Priority to US16/297,230 priority patent/US11006179B2/en
Priority to JP2019047116A priority patent/JP6855527B2/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4753End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for user identification, e.g. by entering a PIN or password
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47202End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting content on demand, e.g. video on demand
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
    • H04N21/2387Stream processing in response to a playback request from an end-user, e.g. for trick-play
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4826End-user interface for program selection using recommendation lists, e.g. of programs or channels sorted out according to their score
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4828End-user interface for program selection for searching program descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Abstract

本申请实施例公开了用于输出信息的方法和装置。该方法的一具体实施方式包括:响应于接收到用户输入的语音,基于语音生成声纹特征向量;将声纹特征向量输入声纹识别模型,得到用户的身份信息;从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件;根据目标多媒体文件生成预览信息进行输出。该实施方式实现了富有针对性的多媒体预览信息推荐。

Description

用于输出信息的方法和装置
技术领域
本申请实施例涉及智能电视技术领域,具体涉及用于输出信息的方法和装置。
背景技术
智能电视已经广泛出现在我们的生活中,智能电视不仅仅局限于传统的电视节目观看功能,目前热门的电视应用市场,为用户提供成百上千电视应用,覆盖电视直播、视频点播、股票金融、生活健康、系统优化工具等。
现有技术中电视作为一个家庭公用设备,通常对家庭中的每个成员提供相同的服务。
发明内容
本申请实施例提出了用于输出信息的方法和装置。
第一方面,本申请实施例提供了一种用于输出信息的方法,包括:响应于接收到用户输入的语音,基于语音生成声纹特征向量;将声纹特征向量输入声纹识别模型,得到用户的身份信息;从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件;根据目标多媒体文件生成预览信息进行输出。
在一些实施例中,基于语音生成声纹特征向量,包括:将语音导入预先训练的全局背景模型中进行映射得到声纹特征超向量,其中,全局背景模型用于表征语音与声纹特征超向量之间的对应关系;将声纹特征超向量经过降维处理得到声纹特征向量。
在一些实施例中,上述方法还包括:对于用于多媒体文件检索的操作指令所涉及的至少一个多媒体文件中的多媒体文件,累加检索该多媒体文件的次数作为该多媒体文件对应的检索次数;以及从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件,包括:按照检索次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。
在一些实施例中,上述方法还包括:对于用于多媒体文件播放的操作指令所涉及的至少一个多媒体文件中的多媒体文件,累加播放该多媒体文件的次数作为该多媒体文件对应的播放次数;以及从预设的多媒体文件集合中选择预定数目个与用户的身份信息匹配的多媒体文件作为目标多媒体文件,包括:按照播放次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与用户的身份信息匹配的多媒体文件作为目标多媒体文件。
在一些实施例中,用户的身份信息包括以下至少一项:性别、年龄、家庭成员标识。
在一些实施例中,上述方法还包括:从预设的音色信息集合中选择与用户的身份信息匹配的音色信息;使用所选择的音色信息所指示的音色输出语音交互信息以与用户进行语音交互。
在一些实施例中,声纹识别模型是预先训练的、用于表征声纹特征向量和用户的身份信息之间的对应关系的模型。
第二方面,本申请实施例提供了一种用于输出信息的装置,包括:生成单元,被配置成响应于接收到用户输入的语音,基于语音生成声纹特征向量;识别单元,被配置成将声纹特征向量输入预先训练的声纹识别模型,得到用户的身份信息,其中,声纹识别模型用于表征声纹特征向量和用户的身份信息之间的对应关系;选项单元,被配置成从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件;输出单元,被配置成根据目标多媒体文件生成预览信息进行输出。
在一些实施例中,生成单元进一步被配置成:将语音导入预先训练的全局背景模型中进行映射得到声纹特征超向量,其中,全局背景模型用于表征语音与声纹特征超向量之间的对应关系;将声纹特征超向量经过降维处理得到声纹特征向量。
在一些实施例中,上述装置还包括执行单元,被配置成:响应于确定出语音包括操作指令,执行操作指令,其中,操作指令包括以下至少一项:频道选择、音量控制、图像参数调整、多媒体文件检索、多媒体文件播放。
在一些实施例中,上述装置还包括检索次数统计单元,被配置成:对于用于多媒体文件检索的操作指令所涉及的至少一个多媒体文件中的多媒体文件,累加检索该多媒体文件的次数作为该多媒体文件对应的检索次数;以及从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件,包括:按照检索次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。
在一些实施例中,上述装置还包括播放次数统计单元,被配置成:对于用于多媒体文件播放的操作指令所涉及的至少一个多媒体文件中的多媒体文件,累加播放该多媒体文件的次数作为该多媒体文件对应的播放次数;以及从预设的多媒体文件集合中选择预定数目个与用户的身份信息匹配的多媒体文件作为目标多媒体文件,包括:按照播放次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与用户的身份信息匹配的多媒体文件作为目标多媒体文件。
在一些实施例中,用户的身份信息包括以下至少一项:性别、年龄、家庭成员标识。
在一些实施例中,上述装置还包括调音单元,被配置成:从预设的音色信息集合中选择与用户的身份信息匹配的音色信息;使用所选择的音色信息所指示的音色输出语音交互信息以与用户进行语音交互。
在一些实施例中,声纹识别模型是预先训练的、用于表征声纹特征向量和用户的身份信息之间的对应关系的模型。
第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一的方法。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一的方法。
本申请实施例提供的用于输出信息的方法和装置,通过语音识别出用户身份信息,然后再根据用户身份信息选择待推荐的多媒体文件生成预览信息。从而实现了富有针对性的多媒体预览信息推荐。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的用于输出信息的方法的一个实施例的流程图;
图3是根据本申请的用于输出信息的方法的一个应用场景的示意图;
图4是根据本申请的用于输出信息的方法的又一个实施例的流程图;
图5是根据本申请的用于输出信息的装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于输出信息的方法或用于输出信息的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括智能电视101和遥控器102。智能电视101上安装有麦克风103,用于采集观看者的声音。遥控器102用来远程控制智能电视101。可以实现对智能电视频道的转换、用于输出信息的等功能。智能电视101连接网络后,能提供网页浏览器、全高清3D体感游戏、视频通话以及教育在线等多种娱乐、资讯、学习资源,并可以无限拓展,还能分别支持组织与个人、专业和业余软件爱好者自主开发、共同分享数以万计的实用功能软件。它将实现网络搜索、网络电视、视频点播、数字音乐、网络新闻、网络视频电话等各种应用服务。用户可以搜索电视频道和网站,录制电视节目,能够播放卫星和有线电视节目以及网络视频。
智能电视101像智能手机一样,具有全开放式平台,搭载了操作系统,可以由用户自行安装和卸载软件、游戏等第三方服务商提供的程序,通过此类程序来不断对彩电的功能进行扩充,并可以通过网线、无线网络来实现上网冲浪。智能电视101可通过麦克风103采集观看者的声音,然后识别出观看者的身份。再针对不同的身份提供个性化的服务。
需要说明的是,本申请实施例所提供的用于输出信息的方法一般由智能电视101执行,相应地,用于输出信息的装置一般设置于智能电视101中。
继续参考图2,示出了根据本申请的用于输出信息的方法的一个实施例的流程200。该用于输出信息的方法,包括以下步骤:
步骤201,响应于接收到用户输入的语音,基于语音生成声纹特征向量。
在本实施例中,用于输出信息的方法的执行主体(例如图1所示的智能电视)可以通过麦克风接收用户口头输入的语音。语音中可包括遥控指令(例如,“开机”),也可以是不包括遥控指令的语音。声纹是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明,声纹不仅具有特定性,而且有相对稳定性的特点。声纹特征向量可以是标识用户的声纹频谱特征的向量。如果一段音频中存在多个人的声音,则可以提取出多个声纹特征向量。需要说明的是,基于语音生成声纹特征向量是目前广泛研究和应用的公知技术,在此不再赘述。
作为示例,基于语音生成声纹特征向量可以通过提取语音中的典型特征来实现。具体地,由于声音的波长、频率、强度、节奏等特征能体现用户声音的特点,因此,在对语音进行声纹特征提取时,可以提取语音中的波长、频率、强度、节奏等特征,并确定语音中波长、频率、强度、节奏等特征的特征值,将语音中的波长、频率、强度、节奏等特征的特征值作为声纹特征向量中的元素。
作为示例,基于语音生成声纹特征向量还可以通过提取语音中的声学特征,例如,梅尔倒谱系数。将梅尔倒谱系数作为声纹特征向量中的元素。其中,从语音中提取梅尔倒谱系数的过程可以包括预加重、分帧、加窗、快速傅里叶变换、梅尔滤波、对数变换以及离散余弦变换。
在用户输入语音之前,可通过遥控器让智能电视静音,以防止采集的用户输入的语音中包括电视节目的声音。可选地,还可通过预定的语音命令,让智能电视静音。例如,用户可以口头输入语音“静音”令智能电视静音。
在本实施例的一些可选的实现方式中,上述电子设备可以将上述语音导入预先训练的全局背景模型(Universal Background Model,UBM)中进行映射得到声纹特征超向量(即高斯超向量)。全局背景模型也被称为通用背景模型,用于表示通用的背景特性。全局背景模型是由大量的冒认者语音使用EM(Expectation-Maximum,期望最大化)算法训练得到的,UBM模型的训练来自大量不同的说话人。假如训练好的全局背景模型中有多个高斯分布,如果提取得到了某个人的多帧语音特征序列,就可以计算出这个人的声纹特征超向量。实际上反映的就是这个人的声学特征和全局背景模型的不同,即这个人发音中的独特个性。如此一来,最终可以将用户不定长语音最终映射到一个能反映用户发声特征的固定长度的声纹特征超向量上来。
这样的高维声纹特征超向量中,不仅包含了个人发音的差异,可能还包含信道所造成的差异。所以,还需要通过一些有监督降维算法进一步把这个超向量降维,映射到更低维度的向量上面去。可以通过联合因子分析方法(Joint Factor Analysis,JFA)对上述声纹特征超向量进行降维处理得到声纹特征向量,上述联合因子分析方法是声纹认证算法中针对信道补偿的有效算法,它通过假设说话人空间和信道空间是独立的,并可以分别用两个低维因子空间进行描述,从而估计信道因子;也可以通过概率线性判别分析算法(Probabilistic Linear Discriminant Analysis,PLDA)对上述声纹超向量进行降维处理得到声纹特征向量,上述概率线性判别分析算法也是一种信道补偿算法,是概率形式的线性判别分析算法(Linear Discriminant Analysis,LDA);还可以通过辨识矢量(Identifying Vector,I-Vector)对上述声纹特征超向量进行降维处理得到声纹特征向量。实际上,为了保证声纹的准确性,训练全局背景模型的时候通常需要提供多条语音,然后提取得到多个这样的声纹特征向量,然后可将用户的声纹特征向量存储起来,多个用户声纹特征向量构成声纹库。
然后,通过上述方法将声纹特征超向量进行降维处理得到声纹特征向量。使用许多人的大量声学特征向量,通过最大期望算法(Expectation Maximization)便可以训练得到一个高斯混合模型(Gaussian Mixture Model),这个模型描述了很多人的语音特征数据的一个概率分布,可以理解为所有说话人的共性,看作具体某一个说话人声纹模型的一个先验模型。因此,这个高斯混合模型还被称为UBM模型。还可通过深层神经网络构建全局背景模型。
可选的,可在生成声纹特征向量之前先对语音进行处理,过滤掉噪音。例如,通过奇异值分解算法或滤波算法过滤掉语音中的噪音。这里所指的噪音可以包括音高和音强变化混乱、听起来不谐和的声音。也可包括背景音乐等干扰识别出目标声音的声音。奇异值分解(SVD,Singular Value Decomposition)是线性代数中一种重要的矩阵分解,是矩阵分析中正规矩阵酉对角化的推广。在信号处理、统计学等领域有重要应用。基于SVD的去噪声技术属于子空间算法的一种。简单的来说将带噪信号向量空间分解为分别由纯净信号主导和噪声信号主导的两个子空间,然后通过简单地去除落在“噪声空间”中的带噪信号向量分量来估计纯净信号。还可通过自适应滤波法和卡尔曼滤波法过滤掉音频文件中的噪音。通常以20~50ms为间隔对语音进行分帧,然后通过一些特征提取算法(主要是进行时域到频域的转换),每一帧语音都可以映射到一个固定长度的声学特征序列。
步骤202,将声纹特征向量输入声纹识别模型,得到用户的身份信息。
在本实施例中,声纹识别模型可以是市售的用于用户身份识别的模型。声纹识别模型还可以是预先训练的、用于表征声纹特征向量和用户的身份信息之间的对应关系的模型。用户的身份信息可以包括以下至少一项:性别、年龄、家庭成员标识。年龄可以是一定的年龄区间,例如,4-8岁、20-30岁等。可将性别和年龄结合起来确定用户的具体身份。例如,可以识别出儿童、老人、成年女性、成年男性。家庭成员标识用于标识预先注册了的家庭成员。例如,妈妈,爸爸,女儿,奶奶等。如果一个家庭中相近年龄,相同性别的成员只有一个,则可直接用用户的年龄和性别确定出家庭成员。例如,家庭成员包括妈妈,爸爸,女儿,奶奶,则确定出年龄在50-60之间的女性就是奶奶,年龄在4-8之间的女性是女儿。声纹识别模型可以包括分类器,能够把声纹特征向量库中的声纹特征向量映射到给定用户的类别中的某一个,从而可以应用于用户的类别的预测。可以按年龄分类,也可按性别分类,还可按年龄和性别的结合分类。例如女童、男性成年人、女性老人等。即,将声纹特征向量输入分类器,可输出用户的类别。本实施例采用的分类器,可包含决策树、逻辑回归、朴素贝叶斯、神经网络等。分类器在一个简单的概率模型的基础上,使用最大的概率值来对数据进行分类预测。分类器是提前训练好的。可从大量的声音样本中提取出声纹特征向量,训练分类器。分类器的构造和实施大体会经过以下几个步骤:1、选定样本(包含正样本和负样本),将所有样本分成训练样本和测试样本两部分。2、基于训练样本执行分类器算法,生成分类器。3、将测试样本输入分类器,生成预测结果。4、根据预测结果,计算必要的评估指标,评估分类器的性能。
例如,采集大量儿童的声音作为正样本,大量成人的声音作为负样本。基于正样本和负样本上执行分类器算法,生成分类器。再将正样本和负样本分别输入分类器,生成预测结果以验证预测结果是否为儿童。根据预测结果评估分类器的性能。
声纹识别模型还可以包括家庭成员映射表。上述家庭成员映射表记录了家庭成员标识、性别、年龄的对应关系。从家庭成员映射表中查找分类器分类的结果,可确定家庭成员标识。例如,分类器输出的结果是年龄在50-60之间的女性,则通过家庭成员映射表确定出该用户的家庭成员标识是奶奶。
可选地,声纹识别模型可以是声纹库。声纹库用于表征声纹特征向量和身份信息的对应关系。将声纹特征向量输入预定的声纹库进行匹配,并按照匹配度由高到低的顺序选取第一预定数目个身份信息并输出。可以通过多次采集同一用户的声音,通过步骤201构建出该用户的声纹特征向量,建立声纹特征向量和身份信息的对应关系,通过注册多个用户的声纹特征向量和身份信息的对应关系从而构建出声纹库。计算上述声纹特征向量与上述声纹库之间的匹配度时,可以采用曼哈顿距离(Manhattan Distance)进行计算,也可以采用闵可夫斯基距离(Minkowski Distance)进行计算,还可以采用余弦相似度(CosineSimilarity)进行计算。
步骤203,从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。
在本实施例中,预设的多媒体文件集合中的多媒体文件预先分好级别,例如仅限于18岁以上观看。例如,动画片类的多媒体文件与儿童相匹配。恐怖电影与成年人相匹配。目标多媒体文件是待向用户推荐的多媒体文件。当身份信息为儿童时,可从多媒体文件集合中选择动画片、儿歌、科教等多个适合儿童观看的多媒体文件作为目标多媒体文件。
步骤204,根据目标多媒体文件生成预览信息进行输出。
在本实施例中,可将步骤203选择出的预定数目个目标多媒体文件随机生成预览信息。也可按照点播次数由大到小的顺序排列生成预览信息进行输出。点播次数是每次多媒体文件被点播时统计的。预览信息可包括视频截图、时长、简介、文件标识等信息。用户可通过遥控器根据文件标识选择要播放的多媒体文件。也可通过语音输入文件标识选择要播放的多媒体文件。
在本实施例的一些可选的实现方式中,上述方法还可以包括:响应于确定出语音包括操作指令,执行操作指令,其中,操作指令可以包括以下至少一项:频道选择、音量控制、图像参数调整、多媒体文件检索、多媒体文件播放。例如,用户可以语音输入“换到中央5台”、“声音大一点”、“增加亮度”、“搜索汤姆克鲁斯的电影”、“播放1号(预览信息中的多媒体文件标识)”等操作指令。
在本实施例的一些可选的实现方式中,上述方法还可以包括:对于用于多媒体文件检索的操作指令所涉及的至少一个多媒体文件中的多媒体文件,累加检索该多媒体文件的次数作为该多媒体文件对应的检索次数。从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件,包括:按照检索次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。例如,电影A被搜索了100次,电影B被搜索了200次,则可选择电影B生成预览文件,或者将电影B的预览信息排在电影A的预览信息之前。
在本实施例的一些可选的实现方式中,上述方法还可以包括:对于用于多媒体文件播放的操作指令所涉及的至少一个多媒体文件中的多媒体文件,累加播放该多媒体文件的次数作为该多媒体文件对应的播放次数。从预设的多媒体文件集合中选择预定数目个与用户的身份信息匹配的多媒体文件作为目标多媒体文件,包括:按照播放次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与用户的身份信息匹配的多媒体文件作为目标多媒体文件。例如,电影A被播放了100次,电影B被播放了200次,则可选择电影B生成预览文件,或者将电影B的预览信息排在电影A的预览信息之前。
继续参见图3,图3是根据本实施例的用于输出信息的方法的应用场景的一个示意图。在图3的应用场景中,智能电视通过麦克风进行音频采集301,接收了儿童输入的语音“看电视”。然后基于语音进行声纹提取302生成声纹特征向量。再将声纹特征向量输入预先训练的声纹识别模型进行声纹识别303,得到用户的身份信息304(儿童)。再根据用户的身份信息进行预览推荐305,得到预览信息306,包括:1、动画片A;2、动物世界;3、科学探索。
本申请的上述实施例提供的方法通过语音识别用户的身份,从而实现了富有针对性的多媒体预览信息推荐。
进一步参考图4,其示出了用于输出信息的方法的又一个实施例的流程400。该用于输出信息的方法的流程400,包括以下步骤:
步骤401,响应于接收到用户输入的语音,基于语音生成声纹特征向量。
步骤402,将声纹特征向量输入声纹识别模型,得到用户的身份信息。
步骤403,从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。
步骤404,根据目标多媒体文件生成预览信息进行输出。
步骤401-404与步骤201-204基本相同,因此不再赘述。
步骤405,从预设的音色信息集合中选择与用户的身份信息匹配的音色信息。
在本实施例中,智能电视可提供多种音色供用户选择,可以通过语音命令选择也可通过遥控器选择。也可根据用户的身份信息自动为其匹配音色信息。例如,对于儿童,可为其选择动画人物的音色,如喜羊羊、光头强、小猪佩琪等。对于成年人,可提供明星A、明星B的音色。还可根据多媒体文件的播放次数来确定具体的音色。例如,《喜羊羊与灰太狼》的播放次数最多,则可选择喜羊羊的音色。
步骤406,使用所选择的音色信息所指示的音色输出语音交互信息以与用户进行语音交互。
在本实施例中,按照步骤405选择的音色输出语音交互信息以与用户进行语音交互。可以提高趣味性。例如,儿童可以语音输入“要看《喜羊羊与灰太狼》”。智能电视可以用喜羊羊的音色问他“要看第几集呀?”。
从图4中可以看出,与图2对应的实施例相比,本实施例中的用于输出信息的方法的流程400突出了对音色的选择的步骤。由此,本实施例描述的方案可以针对不同的用户群体采用不同的音色进行语音交互。从而提高了用户与智能电视互动的趣味性。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于输出信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于输出信息的装置500包括:生成单元501、识别单元502、选项单元503、输出单元504。其中,生成单元501被配置成响应于接收到用户输入的语音,基于语音生成声纹特征向量。识别单元502被配置成将声纹特征向量输入声纹识别模型,得到用户的身份信息。选项单元503被配置成从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。输出单元504被配置成根据目标多媒体文件生成预览信息进行输出。
在本实施例中,用于输出信息的装置500的生成单元501、识别单元502、选项单元503、输出单元504的具体处理可以参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204。
在本实施例的一些可选的实现方式中,生成单元501可以进一步被配置成:将语音导入预先训练的全局背景模型中进行映射得到声纹特征超向量,其中,全局背景模型用于表征语音与声纹特征超向量之间的对应关系。将声纹特征超向量经过降维处理得到声纹特征向量。
在本实施例的一些可选的实现方式中,上述装置500还可以包括执行单元(未示出),被配置成:响应于确定出语音包括操作指令,执行操作指令,其中,操作指令包括以下至少一项:频道选择、音量控制、图像参数调整、多媒体文件检索、多媒体文件播放。
在本实施例的一些可选的实现方式中,上述装置500还可以包括检索次数统计单元,被配置成:对于用于多媒体文件检索的操作指令所涉及的至少一个多媒体文件中的多媒体文件,累加检索该多媒体文件的次数作为该多媒体文件对应的检索次数。从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件,包括:按照检索次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。
在本实施例的一些可选的实现方式中,上述装置500还可以包括播放次数统计单元,被配置成:对于用于多媒体文件播放的操作指令所涉及的至少一个多媒体文件中的多媒体文件,累加播放该多媒体文件的次数作为该多媒体文件对应的播放次数。从预设的多媒体文件集合中选择预定数目个与用户的身份信息匹配的多媒体文件作为目标多媒体文件,包括:按照播放次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与用户的身份信息匹配的多媒体文件作为目标多媒体文件。
在本实施例的一些可选的实现方式中,用户的身份信息可以包括以下至少一项:性别、年龄、家庭成员标识。
在本实施例的一些可选的实现方式中,装置500还可以包括调音单元,被配置成:从预设的音色信息集合中选择与用户的身份信息匹配的音色信息。使用所选择的音色信息所指示的音色输出语音交互信息以与用户进行语音交互。
在本实施例的一些可选的实现方式中,声纹识别模型是预先训练的、用于表征声纹特征向量和用户的身份信息之间的对应关系的模型。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备(如图1所示的智能电视)的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括遥控器、麦克风等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括生成单元、识别单元、选项单元和输出单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,生成单元还可以被描述为“响应于接收到用户输入的语音,基于所述语音生成声纹特征向量的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置响应于接收到用户输入的语音,基于语音生成声纹特征向量;将声纹特征向量输入预先训练的声纹识别模型,得到用户的身份信息,其中,声纹识别模型用于表征声纹特征向量和用户的身份信息之间的对应关系;从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件;根据目标多媒体文件生成预览信息进行输出。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (18)

1.一种用于输出信息的方法,包括:
响应于接收到用户输入的语音,基于所述语音生成声纹特征向量;
将所述声纹特征向量输入声纹识别模型,得到所述用户的身份信息;
从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件;
根据所述目标多媒体文件生成预览信息进行输出。
2.根据权利要求1所述的方法,其中,所述基于所述语音生成声纹特征向量,包括:
将所述语音导入预先训练的全局背景模型中进行映射得到声纹特征超向量,其中,所述全局背景模型用于表征语音与声纹特征超向量之间的对应关系;
将所述声纹特征超向量经过降维处理得到声纹特征向量。
3.根据权利要求1所述的方法,其中,所述方法还包括:
响应于确定出所述语音包括操作指令,执行所述操作指令,其中,所述操作指令包括以下至少一项:频道选择、音量控制、图像参数调整、多媒体文件检索、多媒体文件播放。
4.根据权利要求3所述的方法,其中,所述方法还包括:
对于用于多媒体文件检索的操作指令所涉及的至少一个多媒体文件中的多媒体文件,累加检索该多媒体文件的次数作为该多媒体文件对应的检索次数;以及
所述从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件,包括:
按照检索次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。
5.根据权利要求3所述的方法,其中,所述方法还包括:
对于用于多媒体文件播放的操作指令所涉及的至少一个多媒体文件中的多媒体文件,累加播放该多媒体文件的次数作为该多媒体文件对应的播放次数;以及
所述从预设的多媒体文件集合中选择预定数目个与所述用户的身份信息匹配的多媒体文件作为目标多媒体文件,包括:
按照播放次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与所述用户的身份信息匹配的多媒体文件作为目标多媒体文件。
6.根据权利要求1所述的方法,其中,所述用户的身份信息包括以下至少一项:性别、年龄、家庭成员标识。
7.根据权利要求1-6之一所述的方法,其中,所述方法还包括:
从预设的音色信息集合中选择与所述用户的身份信息匹配的音色信息;
使用所选择的音色信息所指示的音色输出语音交互信息以与所述用户进行语音交互。
8.根据权利要求1-6之一所述的方法,其中,所述声纹识别模型是预先训练的、用于表征声纹特征向量和用户的身份信息之间的对应关系的模型。
9.一种用于输出信息的装置,包括:
生成单元,被配置成响应于接收到用户输入的语音,基于所述语音生成声纹特征向量;
识别单元,被配置成将所述声纹特征向量输入声纹识别模型,得到所述用户的身份信息;
选项单元,被配置成从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件;
输出单元,被配置成根据所述目标多媒体文件生成预览信息进行输出。
10.根据权利要求9所述的装置,其中,所述生成单元进一步被配置成:
将所述语音导入预先训练的全局背景模型中进行映射得到声纹特征超向量,其中,所述全局背景模型用于表征语音与声纹特征超向量之间的对应关系;
将所述声纹特征超向量经过降维处理得到声纹特征向量。
11.根据权利要求9所述的装置,其中,所述装置还包括执行单元,被配置成:
响应于确定出所述语音包括操作指令,执行所述操作指令,其中,所述操作指令包括以下至少一项:频道选择、音量控制、图像参数调整、多媒体文件检索、多媒体文件播放。
12.根据权利要求11所述的装置,其中,所述装置还包括检索次数统计单元,被配置成:
对于用于多媒体文件检索的操作指令所涉及的至少一个多媒体文件中的多媒体文件,累加检索该多媒体文件的次数作为该多媒体文件对应的检索次数;以及
所述从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件,包括:
按照检索次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与所得到的用户的身份信息匹配的多媒体文件作为目标多媒体文件。
13.根据权利要求11所述的装置,其中,所述装置还包括播放次数统计单元,被配置成:
对于用于多媒体文件播放的操作指令所涉及的至少一个多媒体文件中的多媒体文件,累加播放该多媒体文件的次数作为该多媒体文件对应的播放次数;以及
所述从预设的多媒体文件集合中选择预定数目个与所述用户的身份信息匹配的多媒体文件作为目标多媒体文件,包括:
按照播放次数由大到小的顺序从预设的多媒体文件集合中选择预定数目个与所述用户的身份信息匹配的多媒体文件作为目标多媒体文件。
14.根据权利要求9所述的装置,其中,所述用户的身份信息包括以下至少一项:性别、年龄、家庭成员标识。
15.根据权利要求9-14之一所述的装置,其中,所述装置还包括调音单元,被配置成:
从预设的音色信息集合中选择与所述用户的身份信息匹配的音色信息;
使用所选择的音色信息所指示的音色输出语音交互信息以与所述用户进行语音交互。
16.根据权利要求9-14之一所述的装置,其中,所述声纹识别模型是预先训练的、用于表征声纹特征向量和用户的身份信息之间的对应关系的模型。
17.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
18.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN201810587827.5A 2018-06-08 2018-06-08 用于输出信息的方法和装置 Pending CN108737872A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201810587827.5A CN108737872A (zh) 2018-06-08 2018-06-08 用于输出信息的方法和装置
US16/297,230 US11006179B2 (en) 2018-06-08 2019-03-08 Method and apparatus for outputting information
JP2019047116A JP6855527B2 (ja) 2018-06-08 2019-03-14 情報を出力するための方法、及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810587827.5A CN108737872A (zh) 2018-06-08 2018-06-08 用于输出信息的方法和装置

Publications (1)

Publication Number Publication Date
CN108737872A true CN108737872A (zh) 2018-11-02

Family

ID=63932905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810587827.5A Pending CN108737872A (zh) 2018-06-08 2018-06-08 用于输出信息的方法和装置

Country Status (3)

Country Link
US (1) US11006179B2 (zh)
JP (1) JP6855527B2 (zh)
CN (1) CN108737872A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109700113A (zh) * 2018-11-30 2019-05-03 迅捷安消防及救援科技(深圳)有限公司 智能头盔、消防救援方法及相关产品
CN109739354A (zh) * 2018-12-28 2019-05-10 广州励丰文化科技股份有限公司 一种基于声音的多媒体交互方法及装置
CN109785859A (zh) * 2019-01-31 2019-05-21 平安科技(深圳)有限公司 基于语音分析的管理音乐的方法、装置和计算机设备
CN109961793A (zh) * 2019-02-20 2019-07-02 北京小米移动软件有限公司 处理语音信息的方法及装置
CN109994117A (zh) * 2019-04-09 2019-07-09 昆山古鳌电子机械有限公司 一种电子签名系统
CN110659412A (zh) * 2019-08-30 2020-01-07 三星电子(中国)研发中心 用于在电子设备中提供个性化服务的方法和设备
CN110909243A (zh) * 2019-11-27 2020-03-24 南京创维信息技术研究院有限公司 电视端内容推荐方法及装置
CN111061907A (zh) * 2019-12-10 2020-04-24 腾讯科技(深圳)有限公司 媒体数据处理方法、装置及存储介质
CN111081249A (zh) * 2019-12-30 2020-04-28 腾讯科技(深圳)有限公司 一种模式选择方法、装置及计算机可读存储介质
CN111627417A (zh) * 2019-02-26 2020-09-04 北京地平线机器人技术研发有限公司 播放语音的方法、装置及电子设备
CN111641875A (zh) * 2020-05-21 2020-09-08 广州欢网科技有限责任公司 一种智能电视分析家庭成员的方法、装置和系统
CN111785246A (zh) * 2020-06-30 2020-10-16 联想(北京)有限公司 虚拟角色语音处理方法、装置及计算机设备
CN111798857A (zh) * 2019-04-08 2020-10-20 北京嘀嘀无限科技发展有限公司 一种信息识别方法、装置、电子设备及存储介质
CN111862947A (zh) * 2020-06-30 2020-10-30 百度在线网络技术(北京)有限公司 用于控制智能设备的方法、装置、电子设备和计算机存储介质
CN112002317A (zh) * 2020-07-31 2020-11-27 北京小米松果电子有限公司 语音输出方法、装置、存储介质和电子设备
CN112185344A (zh) * 2020-09-27 2021-01-05 北京捷通华声科技股份有限公司 语音交互方法、装置、计算机可读存储介质和处理器
CN112423063A (zh) * 2020-11-03 2021-02-26 深圳Tcl新技术有限公司 一种智能电视自动设置方法、装置及存储介质
CN113495976A (zh) * 2020-04-03 2021-10-12 百度在线网络技术(北京)有限公司 内容显示方法、装置、设备以及存储介质
CN114339342A (zh) * 2021-12-23 2022-04-12 歌尔科技有限公司 一种遥控器控制方法、遥控器、控制装置及介质
CN114630171A (zh) * 2020-12-11 2022-06-14 海信视像科技股份有限公司 显示设备以及配置切换方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111192587A (zh) * 2019-12-27 2020-05-22 拉克诺德(深圳)科技有限公司 语音数据匹配方法、装置、计算机设备及存储介质
CN111599353A (zh) * 2020-06-04 2020-08-28 北京如影智能科技有限公司 基于语音的设备控制方法及装置
CN112148900A (zh) * 2020-09-14 2020-12-29 联想(北京)有限公司 一种多媒体文件的显示方法及装置
CN112614478B (zh) * 2020-11-24 2021-08-24 北京百度网讯科技有限公司 音频训练数据处理方法、装置、设备以及存储介质
CN112954377B (zh) * 2021-02-04 2023-07-28 广州繁星互娱信息科技有限公司 直播对战画面显示方法、直播对战方法及装置
KR20220130362A (ko) * 2021-03-18 2022-09-27 삼성전자주식회사 전자 장치 및 전자 장치에서 컨텐츠의 태그 정보를 저장하는 방법
CN115831152B (zh) * 2022-11-28 2023-07-04 国网山东省电力公司应急管理中心 一种用于实时监测应急装备发电机运行状态的声音监测装置及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170164049A1 (en) * 2015-12-02 2017-06-08 Le Holdings (Beijing) Co., Ltd. Recommending method and device thereof
CN107507612A (zh) * 2017-06-30 2017-12-22 百度在线网络技术(北京)有限公司 一种声纹识别方法及装置
CN107623614A (zh) * 2017-09-19 2018-01-23 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN107659849A (zh) * 2017-11-03 2018-02-02 中广热点云科技有限公司 一种推荐节目的方法及系统

Family Cites Families (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6144938A (en) * 1998-05-01 2000-11-07 Sun Microsystems, Inc. Voice user interface with personality
JP4432246B2 (ja) * 2000-09-29 2010-03-17 ソニー株式会社 観客状況判定装置、再生出力制御システム、観客状況判定方法、再生出力制御方法、記録媒体
US20120240045A1 (en) * 2003-08-08 2012-09-20 Bradley Nathaniel T System and method for audio content management
US7499104B2 (en) * 2003-05-16 2009-03-03 Pixel Instruments Corporation Method and apparatus for determining relative timing of image and associated information
JP3938104B2 (ja) * 2003-06-19 2007-06-27 ヤマハ株式会社 アルペジオパターン設定装置およびプログラム
JP2005157894A (ja) 2003-11-27 2005-06-16 Sony Corp 情報処理装置、利用環境提供方法及び利用環境提供プログラム
US20050289582A1 (en) * 2004-06-24 2005-12-29 Hitachi, Ltd. System and method for capturing and using biometrics to review a product, service, creative work or thing
US8036361B2 (en) * 2004-12-17 2011-10-11 Alcatel Lucent Selection of ringback tone indicative of emotional state that is input by user of called communication device
US20060229505A1 (en) * 2005-04-08 2006-10-12 Mundt James C Method and system for facilitating respondent identification with experiential scaling anchors to improve self-evaluation of clinical treatment efficacy
US20060287912A1 (en) * 2005-06-17 2006-12-21 Vinayak Raghuvamshi Presenting advertising content
US20100153885A1 (en) * 2005-12-29 2010-06-17 Rovi Technologies Corporation Systems and methods for interacting with advanced displays provided by an interactive media guidance application
US8374874B2 (en) * 2006-09-11 2013-02-12 Nuance Communications, Inc. Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction
US20080260212A1 (en) * 2007-01-12 2008-10-23 Moskal Michael D System for indicating deceit and verity
WO2009067676A1 (en) * 2007-11-21 2009-05-28 Gesturetek, Inc. Device access control
WO2009067670A1 (en) * 2007-11-21 2009-05-28 Gesturetek, Inc. Media preferences
KR101644421B1 (ko) * 2008-12-23 2016-08-03 삼성전자주식회사 사용자의 관심 정도에 기반한 컨텐츠 제공장치 및 방법
US9014546B2 (en) * 2009-09-23 2015-04-21 Rovi Guides, Inc. Systems and methods for automatically detecting users within detection regions of media devices
KR101636716B1 (ko) * 2009-12-24 2016-07-06 삼성전자주식회사 발언자를 구별하는 영상 회의 장치 및 방법
US9530144B2 (en) * 2010-05-28 2016-12-27 Rakuten, Inc. Content output device, content output method, content output program, and recording medium having content output program recorded thereon
JP5542536B2 (ja) 2010-06-15 2014-07-09 株式会社Nttドコモ 情報処理装置及びダウンロード制御方法
US8959648B2 (en) * 2010-10-01 2015-02-17 Disney Enterprises, Inc. Audio challenge for providing human response verification
US9538219B2 (en) * 2011-02-04 2017-01-03 Panasonic Intellectual Property Corporation Of America Degree of interest estimating device and degree of interest estimating method
US20130194177A1 (en) * 2011-07-29 2013-08-01 Kotaro Sakata Presentation control device and presentation control method
US20130173765A1 (en) * 2011-12-29 2013-07-04 United Video Properties, Inc. Systems and methods for assigning roles between user devices
US20130205314A1 (en) * 2012-02-07 2013-08-08 Arun Ramaswamy Methods and apparatus to select media based on engagement levels
JP6028351B2 (ja) * 2012-03-16 2016-11-16 ソニー株式会社 制御装置、電子機器、制御方法、及びプログラム
CA2775700C (en) * 2012-05-04 2013-07-23 Microsoft Corporation Determining a future portion of a currently presented media program
US9699485B2 (en) * 2012-08-31 2017-07-04 Facebook, Inc. Sharing television and video programming through social networking
US9398335B2 (en) * 2012-11-29 2016-07-19 Qualcomm Incorporated Methods and apparatus for using user engagement to provide content presentation
US9996150B2 (en) * 2012-12-19 2018-06-12 Qualcomm Incorporated Enabling augmented reality using eye gaze tracking
US20140195918A1 (en) * 2013-01-07 2014-07-10 Steven Friedlander Eye tracking user interface
US10031637B2 (en) * 2013-01-25 2018-07-24 Lg Electronics Inc. Image display apparatus and method for operating the same
EP2965228A4 (en) * 2013-03-06 2016-12-14 Arthur J Zito Jr MULTIMEDIA PRESENTATION SYSTEM
US20160293167A1 (en) * 2013-10-10 2016-10-06 Google Inc. Speaker recognition using neural networks
US9401148B2 (en) * 2013-11-04 2016-07-26 Google Inc. Speaker verification using neural networks
US9516259B2 (en) * 2013-10-22 2016-12-06 Google Inc. Capturing media content in accordance with a viewer expression
US20150244747A1 (en) * 2014-02-26 2015-08-27 United Video Properties, Inc. Methods and systems for sharing holographic content
KR20150108028A (ko) * 2014-03-16 2015-09-24 삼성전자주식회사 컨텐츠의 재생 제어 방법 및 이를 수행하기 위한 컨텐츠 재생 장치
US8874448B1 (en) * 2014-04-01 2014-10-28 Google Inc. Attention-based dynamic audio level adjustment
US9542948B2 (en) * 2014-04-09 2017-01-10 Google Inc. Text-dependent speaker identification
JP6208631B2 (ja) 2014-07-04 2017-10-04 日本電信電話株式会社 音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム
US10390064B2 (en) * 2015-06-30 2019-08-20 Amazon Technologies, Inc. Participant rewards in a spectating system
US9988055B1 (en) * 2015-09-02 2018-06-05 State Farm Mutual Automobile Insurance Company Vehicle occupant monitoring using infrared imaging
US10062100B2 (en) * 2015-09-24 2018-08-28 Adobe Systems Incorporated Methods and systems for identifying visitors to real-world shopping venues as belonging to a group
US9787940B2 (en) * 2015-10-05 2017-10-10 Mutualink, Inc. Video management defined embedded voice communication groups
KR102102453B1 (ko) * 2016-01-08 2020-04-20 주식회사 아이플래테아 시청률 산출 서버, 시청률 산출 방법, 및 시청률 산출 리모트 장치
US10685383B2 (en) * 2016-02-05 2020-06-16 Adobe Inc. Personalizing experiences for visitors to real-world venues
US10217261B2 (en) * 2016-02-18 2019-02-26 Pinscreen, Inc. Deep learning-based facial animation for head-mounted display
JP6721365B2 (ja) 2016-03-11 2020-07-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声辞書生成方法、音声辞書生成装置及び音声辞書生成プログラム
CN105959806A (zh) 2016-05-25 2016-09-21 乐视控股(北京)有限公司 节目推荐方法及装置
US10152969B2 (en) * 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10972495B2 (en) * 2016-08-02 2021-04-06 Invincea, Inc. Methods and apparatus for detecting and identifying malware by mapping feature data into a semantic space
US20180075763A1 (en) * 2016-09-15 2018-03-15 S. Lynne Wainfan System and method of generating recommendations to alleviate loneliness
US10339925B1 (en) * 2016-09-26 2019-07-02 Amazon Technologies, Inc. Generation of automated message responses
CN106782564B (zh) * 2016-11-18 2018-09-11 百度在线网络技术(北京)有限公司 用于处理语音数据的方法和装置
US10163003B2 (en) * 2016-12-28 2018-12-25 Adobe Systems Incorporated Recognizing combinations of body shape, pose, and clothing in three-dimensional input images
US20180189647A1 (en) * 2016-12-29 2018-07-05 Google, Inc. Machine-learned virtual sensor model for multiple sensors
US20180225083A1 (en) * 2017-02-03 2018-08-09 Scratchvox Inc. Methods, systems, and computer-readable storage media for enabling flexible sound generation/modifying utilities
US10678846B2 (en) * 2017-03-10 2020-06-09 Xerox Corporation Instance-level image retrieval with a region proposal network
CN110506262A (zh) * 2017-06-12 2019-11-26 谷歌有限责任公司 使用机器学习模型的情境感知聊天历史协助
CN109146450A (zh) * 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 支付方法、客户端、电子设备、存储介质和服务器
US10579401B2 (en) * 2017-06-21 2020-03-03 Rovi Guides, Inc. Systems and methods for providing a virtual assistant to accommodate different sentiments among a group of users by correlating or prioritizing causes of the different sentiments
US11159856B2 (en) * 2017-07-10 2021-10-26 Sony Interactive Entertainment LLC Non-linear content presentation and experience
US10904615B2 (en) * 2017-09-07 2021-01-26 International Business Machines Corporation Accessing and analyzing data to select an optimal line-of-sight and determine how media content is distributed and displayed
CN107767869B (zh) * 2017-09-26 2021-03-12 百度在线网络技术(北京)有限公司 用于提供语音服务的方法和装置
US10452958B2 (en) * 2017-10-06 2019-10-22 Mitsubishi Electric Research Laboratories, Inc. System and method for image comparison based on hyperplanes similarity
US10425247B2 (en) * 2017-12-12 2019-09-24 Rovi Guides, Inc. Systems and methods for modifying playback of a media asset in response to a verbal command unrelated to playback of the media asset
US10664999B2 (en) * 2018-02-15 2020-05-26 Adobe Inc. Saliency prediction for a mobile user interface
US11210375B2 (en) * 2018-03-07 2021-12-28 Private Identity Llc Systems and methods for biometric processing with liveness

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170164049A1 (en) * 2015-12-02 2017-06-08 Le Holdings (Beijing) Co., Ltd. Recommending method and device thereof
CN107507612A (zh) * 2017-06-30 2017-12-22 百度在线网络技术(北京)有限公司 一种声纹识别方法及装置
CN107623614A (zh) * 2017-09-19 2018-01-23 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN107659849A (zh) * 2017-11-03 2018-02-02 中广热点云科技有限公司 一种推荐节目的方法及系统

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109700113A (zh) * 2018-11-30 2019-05-03 迅捷安消防及救援科技(深圳)有限公司 智能头盔、消防救援方法及相关产品
CN109739354A (zh) * 2018-12-28 2019-05-10 广州励丰文化科技股份有限公司 一种基于声音的多媒体交互方法及装置
CN109785859A (zh) * 2019-01-31 2019-05-21 平安科技(深圳)有限公司 基于语音分析的管理音乐的方法、装置和计算机设备
CN109785859B (zh) * 2019-01-31 2024-02-02 平安科技(深圳)有限公司 基于语音分析的管理音乐的方法、装置和计算机设备
WO2020155490A1 (zh) * 2019-01-31 2020-08-06 平安科技(深圳)有限公司 基于语音分析的管理音乐的方法、装置和计算机设备
CN109961793A (zh) * 2019-02-20 2019-07-02 北京小米移动软件有限公司 处理语音信息的方法及装置
CN109961793B (zh) * 2019-02-20 2021-04-27 北京小米移动软件有限公司 处理语音信息的方法及装置
CN111627417B (zh) * 2019-02-26 2023-08-08 北京地平线机器人技术研发有限公司 播放语音的方法、装置及电子设备
CN111627417A (zh) * 2019-02-26 2020-09-04 北京地平线机器人技术研发有限公司 播放语音的方法、装置及电子设备
CN111798857A (zh) * 2019-04-08 2020-10-20 北京嘀嘀无限科技发展有限公司 一种信息识别方法、装置、电子设备及存储介质
CN109994117A (zh) * 2019-04-09 2019-07-09 昆山古鳌电子机械有限公司 一种电子签名系统
CN110659412A (zh) * 2019-08-30 2020-01-07 三星电子(中国)研发中心 用于在电子设备中提供个性化服务的方法和设备
CN110909243A (zh) * 2019-11-27 2020-03-24 南京创维信息技术研究院有限公司 电视端内容推荐方法及装置
CN111061907A (zh) * 2019-12-10 2020-04-24 腾讯科技(深圳)有限公司 媒体数据处理方法、装置及存储介质
CN111081249A (zh) * 2019-12-30 2020-04-28 腾讯科技(深圳)有限公司 一种模式选择方法、装置及计算机可读存储介质
CN113495976A (zh) * 2020-04-03 2021-10-12 百度在线网络技术(北京)有限公司 内容显示方法、装置、设备以及存储介质
CN111641875A (zh) * 2020-05-21 2020-09-08 广州欢网科技有限责任公司 一种智能电视分析家庭成员的方法、装置和系统
CN111785246A (zh) * 2020-06-30 2020-10-16 联想(北京)有限公司 虚拟角色语音处理方法、装置及计算机设备
CN111862947A (zh) * 2020-06-30 2020-10-30 百度在线网络技术(北京)有限公司 用于控制智能设备的方法、装置、电子设备和计算机存储介质
CN112002317A (zh) * 2020-07-31 2020-11-27 北京小米松果电子有限公司 语音输出方法、装置、存储介质和电子设备
CN112002317B (zh) * 2020-07-31 2023-11-14 北京小米松果电子有限公司 语音输出方法、装置、存储介质和电子设备
CN112185344A (zh) * 2020-09-27 2021-01-05 北京捷通华声科技股份有限公司 语音交互方法、装置、计算机可读存储介质和处理器
CN112423063A (zh) * 2020-11-03 2021-02-26 深圳Tcl新技术有限公司 一种智能电视自动设置方法、装置及存储介质
CN114630171A (zh) * 2020-12-11 2022-06-14 海信视像科技股份有限公司 显示设备以及配置切换方法
CN114339342A (zh) * 2021-12-23 2022-04-12 歌尔科技有限公司 一种遥控器控制方法、遥控器、控制装置及介质

Also Published As

Publication number Publication date
US20190379941A1 (en) 2019-12-12
JP2019216408A (ja) 2019-12-19
JP6855527B2 (ja) 2021-04-07
US11006179B2 (en) 2021-05-11

Similar Documents

Publication Publication Date Title
CN108737872A (zh) 用于输出信息的方法和装置
CN108882032A (zh) 用于输出信息的方法和装置
CN111930992B (zh) 神经网络训练方法、装置及电子设备
US11475897B2 (en) Method and apparatus for response using voice matching user category
US20200126566A1 (en) Method and apparatus for voice interaction
CN107463700B (zh) 用于获取信息的方法、装置及设备
CN107210045A (zh) 会议搜索以及搜索结果的回放
CN107211061A (zh) 用于空间会议回放的优化虚拟场景布局
CN107211058A (zh) 基于会话动态的会议分段
CN103024530A (zh) 智能电视语音应答系统及方法
CN109257659A (zh) 字幕添加方法、装置、电子设备及计算机可读存储介质
CN107481720A (zh) 一种显式声纹识别方法及装置
CN107210034A (zh) 选择性会议摘要
WO2007043679A1 (ja) 情報処理装置およびプログラム
CN110517689A (zh) 一种语音数据处理方法、装置及存储介质
Quasim et al. RETRACTED ARTICLE: Emotion-based music recommendation and classification using machine learning with IoT Framework
CN109145148A (zh) 信息处理方法和装置
CN108989882A (zh) 用于输出视频中的音乐片段的方法和装置
CN107210036A (zh) 会议词语云
CN109308901A (zh) 歌唱者识别方法和装置
CN108933730A (zh) 信息推送方法和装置
CN114143479B (zh) 视频摘要的生成方法、装置、设备以及存储介质
CN106921749A (zh) 用于推送信息的方法和装置
CN113380271B (zh) 情绪识别方法、系统、设备及介质
CN108900612A (zh) 用于推送信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210510

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Applicant after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181102