CN104795067B - 语音交互方法及装置 - Google Patents

语音交互方法及装置 Download PDF

Info

Publication number
CN104795067B
CN104795067B CN201410026212.7A CN201410026212A CN104795067B CN 104795067 B CN104795067 B CN 104795067B CN 201410026212 A CN201410026212 A CN 201410026212A CN 104795067 B CN104795067 B CN 104795067B
Authority
CN
China
Prior art keywords
recognition result
user
attribute
user property
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410026212.7A
Other languages
English (en)
Other versions
CN104795067A (zh
Inventor
金洪波
江焯林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201410026212.7A priority Critical patent/CN104795067B/zh
Priority to CN201910636912.0A priority patent/CN110459214B/zh
Priority to US14/601,026 priority patent/US9583101B2/en
Publication of CN104795067A publication Critical patent/CN104795067A/zh
Priority to US15/444,340 priority patent/US9990924B2/en
Priority to US15/968,252 priority patent/US10468025B2/en
Application granted granted Critical
Publication of CN104795067B publication Critical patent/CN104795067B/zh
Priority to US16/598,764 priority patent/US11380316B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Abstract

本发明公开了一种语音交互方法及装置,属于语音处理技术领域。方法包括:获取用户的语音数据;对语音数据进行用户属性识别,得到第一用户属性识别结果;对语音数据进行内容识别,得到语音数据的内容识别结果;至少根据第一用户属性识别结果及内容识别结果执行相应操作,以响应语音数据。本发明在获取到语音数据后,分别对该语音数据进行用户属性识别及内容识别,得到第一用户属性识别结果及内容识别结果,且至少根据第一用户属性识别结果及内容识别结果执行相应操作,即便针对同一内容识别结果,由于不同用户的用户属性可能不同,所以执行的响应操作也可能不同,从而使得同一语音对应多种响应形式,丰富了语音响应方式,提高了语音响应的灵活性。

Description

语音交互方法及装置
技术领域
本发明涉及语音处理技术领域,特别涉及一种语音交互方法及装置。
背景技术
随着信息技术的不断发展,用户交互技术得到了广泛的应用。而语音交互作为继键盘交互、鼠标交互及触摸屏交互后的新一代用户交互模式,以其方便快捷的特点,逐渐被广大用户认可且有被大规模推广的潜在前景。比如,智能移动终端上与语音相关的应用越来越多,而智能电视厂商也通过引用语音交互技术替换掉传统的手持遥控器。
现有技术中语音交互基于语音识别技术,也即,语音交互系统在接收到一段语音后,首先对语音数据进行内容识别,得到内容识别结果,并根据该内容识别结果获知用户意图。之后,语音交互系统根据用户意图进行与该语音相对应的操作,或向终端用户返回与该语音相对应的信息。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
由于现有技术中当语音内容一致时,语音交互系统执行的操作或返回的结果均一致,所以对语音内容的响应形式较为单一,灵活性不高。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种语音交互方法及装置。所述技术方案如下:
第一方面,提供了一种语音交互方法,所述方法包括:
获取用户的语音数据;
对所述语音数据进行用户属性识别,得到第一用户属性识别结果;
对所述语音数据进行内容识别,得到所述语音数据的内容识别结果;
至少根据所述第一用户属性识别结果及所述内容识别结果执行相应操作,以响应所述语音数据。
在第一方面的第一种可能的实现方式中,所述方法还包括:
采集用户图像;
当检测所述用户图像中的人数为预设值时,执行所述对所述语音数据进行用户属性识别的步骤。
结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述当检测所述用户图像中的人数为预设值之后,所述方法还包括:
提取所述用户图像中的人脸数据;
对所述人脸数据进行人脸识别,得到第二用户属性识别结果。
结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述至少根据所述第一用户属性识别结果及所述内容识别结果执行相应操作,包括:
将所述第一用户属性识别结果及所述第二用户属性识别结果进行加权,得到最终用户属性识别结果;
根据所述最终用户属性识别结果及所述内容识别结果执行相应操作。
结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述根据所述最终用户属性识别结果及所述内容识别结果执行相应操作,包括:
确定所述最终用户属性识别结果对应的词汇内容;
根据所述最终用户属性识别结果对应的词汇内容和所述内容识别结果执行相应操作。
结合第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,所述确定所述最终用户属性识别结果对应的词汇内容之前,所述方法还包括:
预先设置用户属性,所述用户属性至少包括性别属性及年龄属性;
预先设置所述性别属性对应的多个词汇及所述年龄属性对应的多个词汇,并将所述对应关系进行存储;
所述确定所述最终用户属性识别结果对应的词汇内容,包括:
在预先设置的所述性别属性与词汇的对应关系及所述年龄属性与词汇的对应关系中,查询所述最终用户识别结果对应的词汇,并将查找到的词汇作为所述最终用户属性识别结果对应的词汇内容。
结合第一方面,在第一方面的第六种可能的实现方式中,所述对所述语音数据进行用户属性识别,得到所述语音数据的第一用户属性识别结果之前,所述方法还包括:
预先设置频谱特征与用户属性识别结果的对应关系,所述用户属性识别结果至少包括性别属性识别结果及年龄属性识别结果;
所述对所述语音数据进行用户属性识别,得到所述语音数据的第一用户属性识别结果包括:
对所述语音数据进行频域变换处理,得到所述语音数据的频谱特征;
在预先设置的各个频谱特征与用户属性识别结果的对应关系中,查询所述语音数据的频谱特征对应的用户属性识别结果,将查找到的用户属性识别结果作为所述语音数据的第一用户属性识别结果。
第二方面,提供了一种语音交互装置,所述装置包括:
获取模块,用于获取用户的语音数据;
用户属性识别模块,用于对所述语音数据进行用户属性识别,得到第一用户属性识别结果;
内容识别模块,用于对所述语音数据进行内容识别,得到所述语音数据的内容识别结果;
执行模块,用于至少根据所述第一用户属性识别结果及所述内容识别结果执行相应操作,以响应所述语音数据。
在第二方面的第一种可能的实现方式中,所述装置还包括:
采集模块,用于采集用户图像;
所述用户属性识别模块,用于当检测所述用户图像中的人数为预设值时,执行所述对所述语音数据进行用户属性识别的步骤。
结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述装置还包括:
提取模块,用于提取所述用户图像中的人脸数据;
人脸识别模块,用于对所述人脸数据进行人脸识别,得到第二用户属性识别结果。
结合第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式中,所述执行模块,包括:
加权单元,用于将所述第一用户属性识别结果及所述第二用户属性识别结果进行加权,得到最终用户属性识别结果;
执行单元,用于根据所述最终用户属性识别结果及所述内容识别结果执行相应操作。
结合第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式中,所述执行单元,包括:
确定子单元,用于确定所述最终用户属性识别结果对应的词汇内容;
执行子单元,用于根据所述最终用户属性识别结果对应的词汇内容和所述内容识别结果执行相应操作。
结合第二方面的第四种可能的实现方式,在第二方面的第五种可能的实现方式中,所述装置还包括:
用户属性设置模块,用于预先设置用户属性,所述用户属性至少包括性别属性及年龄属性;
词汇对应关系设置模块,用于预先设置所述性别属性对应的多个词汇及所述年龄属性对应的多个词汇,并将所述对应关系进行存储;
所述确定子单元,用于在预先设置的所述性别属性与词汇的对应关系及所述年龄属性与词汇的对应关系中,查询所述最终用户识别结果对应的词汇,并将查找到的词汇作为所述最终用户属性识别结果对应的词汇内容。
结合第二方面,在第二方面的第六种可能的实现方式中,所述装置还包括:
频谱特征设置模块,用于预先设置频谱特征与用户属性识别结果的对应关系,所述用户属性识别结果至少包括性别属性识别结果及年龄属性识别结果;
所述用户属性识别模块,用于对所述语音数据进行频域变换处理,得到所述语音数据的频谱特征;在预先设置的各个频谱特征与用户属性识别结果的对应关系中,查询所述语音数据的频谱特征对应的用户属性识别结果,将查找到的用户属性识别结果作为所述语音数据的第一用户属性识别结果。
本发明实施例提供的技术方案带来的有益效果是:
在获取到用户的语音数据后,分别对该语音数据进行用户属性识别及内容识别,得到语音数据的第一用户属性识别结果及内容识别结果,且至少根据第一用户属性识别结果及内容识别结果执行相应操作,由于对语音数据进行属性识别,所以即便针对同一内容识别结果,由于不同用户的用户属性可能不同,所以执行的响应操作或返回的结果也可能存在不同,从而使得同一语音对应多种响应形式,不但丰富了语音响应方式,提高了语音响应的灵活程度,而且语音响应结果更加满足用户需求。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种语音交互的方法流程图;
图2是本发明实施例二提供的一种语音交互系统的系统架构图;
图3是本发明实施例二提供的一种用户属性识别模块的内部结构示意图;
图4是本发明实施例二提供的一种语音交互的方法流程图;
图5是本发明实施例三提供的一种语音交互装置的结构示意图;
图6是本发明实施例四提供的一种语音交互设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
本发明实施例提供了一种语音交互方法,参见图1,本实施例提供的方法流程包括:
101、获取用户的语音数据。
102、对语音数据进行用户属性识别,得到第一用户属性识别结果。
103、对语音数据进行内容识别,得到语音数据的内容识别结果。
104、至少根据第一用户属性识别结果及内容识别结果执行相应操作,以响应语音数据。
本实施例提供的方法,在获取到用户的语音数据后,分别对该语音数据进行用户属性识别及内容识别,得到语音数据的第一用户属性识别结果及内容识别结果,且至少根据第一用户属性识别结果及内容识别结果执行相应操作,由于对语音数据进行属性识别,所以即便针对同一内容识别结果,由于不同用户的用户属性可能不同,所以执行的响应操作也可能不同,从而使得同一语音对应多种响应形式,不但丰富了语音响应方式,提高了语音响应的灵活程度,而且语音响应结果更加满足用户需求。
可选地,该方法还包括:
采集用户图像;
当检测用户图像中的人数为预设值时,执行对语音数据进行用户属性识别的步骤。
可选地,当检测用户图像中的人数为预设值之后,该方法还包括:
提取用户图像中的人脸数据;
对人脸数据进行人脸识别,得到第二用户属性识别结果。
可选地,至少根据第一用户属性识别结果及内容识别结果执行相应操作,包括:
将第一用户属性识别结果及第二用户属性识别结果进行加权,得到最终用户属性识别结果;
根据最终用户属性识别结果及内容识别结果执行相应操作。
可选地,根据最终用户属性识别结果及内容识别结果执行相应操作,包括:
确定最终用户属性识别结果对应的词汇内容;
根据最终用户属性识别结果对应的词汇内容和内容识别结果执行相应操作。
可选地,确定最终用户属性识别结果对应的词汇内容之前,该方法还包括:
预先设置用户属性,用户属性至少包括性别属性及年龄属性;
预先设置性别属性对应的多个词汇及年龄属性对应的多个词汇,并将对应关系进行存储;
确定最终用户属性识别结果对应的词汇内容,包括:
在预先设置的性别属性与词汇的对应关系及年龄属性与词汇的对应关系中,查询最终用户识别结果对应的词汇,并将查找到的词汇作为最终用户属性识别结果对应的词汇内容。
可选地,对语音数据进行用户属性识别,得到语音数据的第一用户属性识别结果之前,该方法还包括:
预先设置频谱特征与用户属性识别结果的对应关系,用户属性识别结果至少包括性别属性识别结果及年龄属性识别结果;
对语音数据进行用户属性识别,得到语音数据的第一用户属性识别结果包括:
对语音数据进行频域变换处理,得到语音数据的频谱特征;
在预先设置的各个频谱特征与用户属性识别结果的对应关系中,查询语音数据的频谱特征对应的用户属性识别结果,将查找到的用户属性识别结果作为语音数据的第一用户属性识别结果。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
实施例二
本发明实施例提供了一种语音交互方法,现结合上述实施例一及图2所示的语音交互系统对本发明实施例提供的语音交互方法进行详细地解释说明。在图2中,语音交互系统共分为五个部分,分别为图像检测模块、用户属性识别模块、人脸识别模块、语音内容识别模块及语音应用模块。其中,图像检测模块用于对采集到的用户图像中的人数进行检测;用户属性识别模块用于对用户语音进行用户属性识别;人脸识别模块用于当图像检测模块检测出用户图像中的人数为预设值时,对用户图像中的人脸数据进行识别;语音内容识别模块用于对语音数据进行内容识别;语音应用模块用于获取用户的语音数据,并根据用户属性识别模块输出的识别结果、人脸识别模块输出的识别结果及语音内容识别模块输出的识别结果执行相应操作。图3为用户属性识别模块的内部结构图。在图3中,用户属性识别模块一共包括4部分,分别为学习单元、用户属性模型、预测单元及用户属性规则库。其中,学习单元用于收集语音样本,在训练阶段根据收集的语音样本使用机器学习或统计学习的方法得到用户属性模型。用户属性模型既可是机器学习模型,也可是基于规则的统计模型;用户属性模型至少包括性别模型及年龄模型;性别模型中记录了语音数据的频谱特征与性别的对应关系;年龄模型中记录了语音数据的频谱特征与年龄的对应关系。预测单元用于在实际使用阶段根据用户属性模型对当前输入的语音数据进行识别,得到用户属性识别结果;用户属性规则库通过使用离线统计或使用主题模型建立,存储了用户属性与词汇的对应关系,用于输出用户属性识别结果对应词汇内容。
参见图4,本实施例提供的方法流程包括:
401、预先设置用户属性,用户属性至少包括性别属性及年龄属性。
其中,用户属性用来表征用户身份,除包括性别属性及年龄属性外,还可包括职业属性、种族属性等等,本实施例对用户属性包括的内容不进行具体限定。本实施例仅以用户属性包括性别属性及年龄属性为例进行举例说明。
402、预先设置性别属性对应的多个词汇及年龄属性对应的多个词汇,并将对应关系进行存储。
针对性别属性来说,由于受男女的喜好差异及生理差异等因素影响,男性、女性事物喜好的方向一般不同。比如对于观看体育类节目而言,女性可能更偏爱于体操、花样滑冰这样较文艺的体育节目;而男性可能更偏爱于篮球、足球这样较激烈的体育节目。所以在设置性别属性对应的多个词汇时,针对男性、女性分别进行设置。比如,针对女性而言,其对应的多个词汇可设置为化妆品、宝宝喂养、体操、低风险、时尚、烹饪等等;针对男性而言,其对应的多个词汇可设置为体育、手表、科技、足球、高风险、教育、健身等等。在设置好性别属性对应的多个词汇后,可将性别属性与词汇的对应关系存储在如图3所示的用户属性规则库中。
针对年龄属性来说,由于受年龄差异影响,青年人、成年人、老年人对事物喜好的方向一般不同。比如老年人可能更关注于养生、医疗、太极等等方面,而青年人及成年人可能更关注于时尚、旅游、美食等方面。所以在设置年龄属性对应的多个词汇时,针对不同年龄段分别进行设置。比如,针对老年人而言,其对应的多个词汇可设置为养老、休闲、健康、医疗、时事、太极拳、门球等等;针对成年人而言,其对应的多个词汇可设置为时尚、美食、游戏、冒险、工作、投资等等;针对青年人而言,其对应的多个词汇可设置为教育、学习、课外活动、假期、考试等等。在设置好年龄属性对应的多个词汇后,可将年龄属性与词汇的对应关系存储在如图3所示的用户属性规则库中。
403、预先设置频谱特征与用户属性识别结果的对应关系,用户属性识别结果至少包括性别属性识别结果及年龄属性识别结果。
在本实施例中,设置频谱特征与用户属性识别结果的过程,也即性别模型及年龄模型的建立过程。针对性别而言,男性的基音频率大都在100赫兹至200赫兹之间,而女性的基音频率大都在200赫兹至350赫兹之间,由于男性和女性的基因频率存在明显差异,所以可通过频谱特征中的基音频率来区分语音数据输入用户的性别。针对年龄而言,老年人说话的语速通常较青年人及成年人来说较慢,反应在频谱特征上,老年人的语音数据对应的波形较密。因此,根据频率波形的疏密程度可对语音数据的输入用户的年龄进行区分。
在本实施例中,建立性别模型及年龄模型时,可采取机器学习或统计学习的方式。也即,可预先采集大规模的语音样本。对每个语音样本进行频域变换后,分析各个语音样本的频谱特征,根据每个语音样本提供者的性别及年龄等属性信息对频率特征进行归纳总结,得到频谱特征与性别属性、频谱特征与年龄属性的对应关系。
此外,若用户属性中还包括职业属性及种族属性等其他属性,则均可通过上述建立性别模型及年龄模型的方式,对应建立职业模型及种族模型等其他模型。在对预先采集的大规模语音样本进行处理时,可同时分析各个语音样本的电信号波形及频谱特征,以根据电信号波形及频谱特征对每个语音样本提供者的职业及种族等属性信息进行归纳总结,从而得到职业模型及种族模型。
需要说明的是,在执行本实施例提供的方法时,上述步骤401至步骤403无需每次均执行。仅在初次执行本实施例提供的方式时执行即可。在通过上述步骤401至403建立用户属性模型及用户属性规则库后,便可通过下述步骤404至步骤408执行语音交互过程。
404、获取用户的语音数据,对语音数据进行内容识别,得到语音数据的内容识别结果。
在获取用户的语音数据时,可检测用户语音的起始端点和终止端点;获取起始端点和终止端点之间的语音数据,并将获取到的语音数据作为用户的语音数据。以检测到用户语音的起始端点为10:00:00,终止端点为10:00:05为例,则将10:00:00与10:00:05之间的时长为5秒的语音数据作为用户的语音数据。
此外,对用户的语音数据进行内容识别时,可采取下述方式:采用背景声学模型及前景声学模型对用户的语音数据进行识别。其中,背景声学模型采用基于LVCSR(LargeVocabulary Continuous Speech Recognition,大词汇量连续语音识别)的Mono-phone(单音素)技术、前景声学模型采用LVCSR的Tri-phone(三音素)技术通过解码网络在语音识别服务器上提前构建声学资源,该声学资源中包括各种声音特征矢量与其对应的命令字符的对应关系表。当对用户的语音数据进行识别时,先对用户的语音数据进行频谱变换,得到对应的声学特征矢量,并在提前构建的声学资源中查找该声学特征矢量对应的命令字符,而该命令字符即为得到的语音数据的内容识别结果。
当然,除上述对第一语音进行识别的方式外,还可以采用其他识别方式,本实施例对此不作具体限定。
405、采集用户图像,当检测用户图像中的人数为预设值时,对语音数据进行用户属性识别,得到第一用户属性识别结果。
其中,采集用户图像时,可仅通过终端摄像头采集一帧图像。在本实施例中,预设值的大小设置为1。也即,在进行基于用户图像的人数检测时,如果检测到人数大于1,则认为当前为公共场所,不进行语音数据的用户属性识别;比如,智能电视通过摄像头检测到当前为一家三口在观看电视,则此时不进行语音数据的用户属性识别;如果检测到人数为1(也可为0,光线较暗摄像头捕获不到图像),则默认为私有场景,即用户单独在操作终端设备,比如用户操作智能移动终端的场景,此时进行语音数据的用户属性识别。
在对语音数据进行用户属性识别时,可采取如下识别方式:对语音数据进行频域变换处理,得到语音数据的频谱特征;在预先设置的各个频谱特征与用户属性识别结果的对应关系中,查询该语音数据的频谱特征对应的用户属性识别结果,将查找到的用户属性识别结果作为语音数据的第一用户属性识别结果。该第一用户属性识别结果中包括第一性别属性识别结果和第一年龄属性识别结果。比如,语音数据的频谱特征的基音频率为185赫兹,则由于该值位于男性的基因频率100赫兹至200赫兹范围内,所以该语音数据的输入用户为男性,即第一用户属性识别结果为男性;且若该语音数据的频谱波形的疏密程度与老年人的语音数据的频谱波形的疏密程度相对应,则得到的第一年龄识别结果为老年人。
当然,除上述对语音数据进行用户属性识别的方式外,还可采取其他识别方式,本实施例对此不作具体限定。
可选地,在执行本步骤时也可不采集用户图像及对用户图像中的人数进行检测,而直接对语音数据进行用户属性识别。也即,对语音数据进行用户属性识别的过程可不受用户图像中人数的限制。无论用户图像中的人数为多少个,均对语音数据进行用户属性识别。若不对用户图像进行采集,则在执行本实施例时可直接跳过下述步骤406及步骤407而直接执行下述步骤408。
406、提取用户图像中的人脸数据,对人脸数据进行人脸识别,得到第二用户属性识别结果。
在本实施例中,当用户图像中的人数为1时,为了使得图3中的语音应用模块获得更加精确的识别结果,以根据精确地识别结果执行相应操作,还将提取用户图像中的人脸数据,并对人脸数据进行人脸识别。在对人脸数据进行识别之前,也可采取机器学习或统计学习的方式。也即,可预先采集大规模的人脸样本。对每个人脸样本进行肌肤纹理、面型结构等人脸特征分析,根据每个人脸样本提供者的性别及年龄等属性信息对肌肤纹理、面型结构等人脸特征进行归纳总结,得到肌肤纹理、面型结构等人脸特征与性别属性的对应关系,肌肤纹理、面型结构等人脸特征与年龄属性的对应关系。从而在提取到人脸数据后,根据上述对应关系便可得到该人脸数据对应的第二性别属性识别结果及第二年龄属性识别结果。
407、将第一用户属性识别结果及第二用户属性识别结果进行加权,得到最终用户属性识别结果。
其中,在将第一用户属性识别结果及第二用户属性识别结果进行加权之前,还需设置第一用户属性识别结果对应的权重及第二用户属性识别结果对应的权重。在设置权重时,通常第一用户属性识别结果对应的权重大于及第二用户属性识别结果对应的权重,比如,第一用户属性识别结果对应的权重为0.6,第二用户属性识别结果对应的权重为0.4。当然,第一用户属性识别结果的权重也可小于第二用户属性识别结果的权重,本实施例对此不作具体限定,权重的设置可视具体情况而定,本实施例仅给出一种可能的设置方式。
由于第一用户属性识别结果中包括第一性别属性识别结果及第一年龄属性识别结果,第二用户属性识别结果中包括第二性别属性识别结果及第二年龄属性识别结果,所以在将第一用户属性识别结果及第二用户属性识别结果进行加权时,将第一性别属性识别结果及第二性别属性识别结果进行加权求和,得到最终性别属性识别结果;将第一年龄属性识别结果及第二年龄属性识别结果进行加权求和,得到最终年龄属性识别结果。而最终性别属性识别结果和最终年龄属性识别结果便构成最终用户属性识别结果。
408、根据最终用户属性识别结果及内容识别结果执行相应操作。
在本实施例中,根据最终用户属性识别结果及内容识别结果执行相应操作,可通过以下方式实现:确定最终用户属性识别结果对应的词汇内容;根据最终用户属性识别结果对应的词汇内容和内容识别结果执行相应操作。
为了能够使得图3中的语音应用模块精准地执行与用户意图相匹配的操作,图3中的用户属性识别模块还将确定最终用户属性识别结果对应的词汇内容,并将词汇内容直接传输给语音应用模块,而语音应用模块将直接根据最终用户属性识别结果对应的词汇内容和内容识别结果执行相应操作。其中,确定最终用户属性识别结果对应的词汇内容,具体可通过以下方式实现:在预先设置的性别属性与词汇的对应关系及年龄属性与词汇的对应关系中,查询最终用户识别结果对应的词汇,并将查找到的词汇作为最终用户属性识别结果对应的词汇内容。
下面通过几个具体的例子对根据最终用户属性识别结果对应的词汇内容和内容识别结果执行相应操作进行具体地解释说明。
针对智能电视机而言,若用户输入的语音数据为“我想看体育节目”,则若用户属性识别模块确定当前语音对应的最终用户属性识别结果为老年女性,则将根据用户属性规则库确定老年女性对应的词汇内容,由步骤402可知老年女性对应的词汇内容可为烹饪、养老、休闲、健康、医疗、时事、太极拳、门球等等,则语音应用模块在综合上述词汇内容及语音内容识别结果“我想看体育节目”后,将当前播放频道切换至正在播放太极拳或门球等适合老年人观看的节目频道。
针对智能移动终端而言,若用户输入的语音数据为“推荐一些宝宝相关的书籍”,则若用户属性识别模块确定当前语音对应的最终用户属性识别结果为成年女性,则将根据用户属性规则库确定成年女性对应的词汇内容,由步骤402可知成年女性对应的词汇内容可为化妆品、宝宝喂养、体操、低风险、时尚、烹饪、美食等等,则语音应用模块在综合上述词汇内容及语音内容识别结果“推荐一些宝宝相关的书籍”后,将搜索一些有关宝宝抚育喂养的书籍,并将得到的搜索结果反馈至智能移动终端的显示界面,以供终端用户进行参考。
可选地,如果用户属性中还可包含职业属性等其他属性,则若用户输入的语音数据为“推荐一些理财产品”,则当用户属性识别模块确定最终用户属性识别结果为白领IT男性时,语音应用模块便会搜索一些较高风险的银行理财产品,并将得到搜索结果推荐给用户;若当用户属性识别模块确定最终用户属性识别结果为家庭主妇时,则搜索一些风险相对较低保本型的理财产品,并将搜索结果推荐给用户。
此外,若检测出用户图像中存在的人数大于1时,可跳过步骤405至步骤407,而直接执行步骤408。此时,最终用户属性识别结果为空,语音应用模块仅根据语音数据的内容识别结果执行相应操作。也就是说,当检测出用户图像中存在的人数大于1时,用户属性识别模块及人脸识别模块不做识别处理。
需要说明的是,在执行本实施例提供的方法时,上述步骤401至步骤408中语音应用模块在获取到用户的语音数据后,直接对语音数据进行透传处理,没有作任何预处理,由语音识别模块及用户属性识别模块对该语音数据进行预处理。可选地,在语音应用模块获取到用户的语音数据后,还可由语音应用模块对该语音数据进行预处理,并将进行预处理后的语音数据发送给语音内容识别模块及用户属性识别模块。具体采用何种语音数据处理方式,本实施例对此不作具体限定。
本实施例提供的方法,在获取到用户的语音数据后,分别对该语音数据进行用户属性识别及内容识别,得到语音数据的第一用户属性识别结果及内容识别结果,且至少根据第一用户属性识别结果及内容识别结果执行相应操作,由于对语音数据进行属性识别,所以即便针对同一内容识别结果,由于不同用户的用户属性可能不同,所以执行的响应操作或返回的结果也可能存在不同。比如,若男性用户和女性用户输入的语音数据均为“我想看体育节目”,采用本实施例提供的方法,对于女性用户而言,可能会切换到正在播放花样滑冰或体操等适合女性用户观看的频道;对于男性用户而言,可能会切换到正在播放足球或篮球等适合男性用户观看的频道。从而使得同一语音对应多种响应形式,不但丰富了语音响应方式,提高了语音响应的灵活程度,而且语音响应结果更加满足用户需求。
实施例三
本发明实施例提供了一种语音交互装置,用户执行上述实施例一或实施例二所示的方法。参见图5,该装置包括:获取模块501、用户属性识别模块502、内容识别模块503、执行模块504。
其中,获取模块501,用于获取用户的语音数据;用户属性识别模块502与获取模块501连接,用于对语音数据进行用户属性识别,得到第一用户属性识别结果;内容识别模块503与用户属性识别模块502连接,用于对语音数据进行内容识别,得到语音数据的内容识别结果;执行模块504与内容识别模块503连接,用于至少根据第一用户属性识别结果及内容识别结果执行相应操作,以响应语音数据。
可选地,该装置还包括:
采集模块,用于采集用户图像;
用户属性识别模块,用于当检测用户图像中的人数为预设值时,执行对语音数据进行用户属性识别的步骤。
可选地,该装置还包括:
提取模块,用于提取用户图像中的人脸数据;
人脸识别模块,用于对人脸数据进行人脸识别,得到第二用户属性识别结果。
可选地,执行模块,包括:
加权单元,用于将第一用户属性识别结果及第二用户属性识别结果进行加权,得到最终用户属性识别结果;
执行单元,用于根据最终用户属性识别结果及内容识别结果执行相应操作。
可选地,执行单元,包括:
确定子单元,用于确定最终用户属性识别结果对应的词汇内容;
执行子单元,用于根据最终用户属性识别结果对应的词汇内容和内容识别结果执行相应操作。
可选地,该装置还包括:
用户属性设置模块,用于预先设置用户属性,用户属性至少包括性别属性及年龄属性;
词汇对应关系设置模块,用于预先设置性别属性对应的多个词汇及年龄属性对应的多个词汇,并将对应关系进行存储;
确定子单元,用于在预先设置的性别属性与词汇的对应关系及年龄属性与词汇的对应关系中,查询最终用户识别结果对应的词汇,并将查找到的词汇作为最终用户属性识别结果对应的词汇内容。
可选地,该装置还包括:
频谱特征设置模块,用于预先设置频谱特征与用户属性识别结果的对应关系,用户属性识别结果至少包括性别属性识别结果及年龄属性识别结果;
用户属性识别模块,用于对语音数据进行频域变换处理,得到语音数据的频谱特征;在预先设置的各个频谱特征与用户属性识别结果的对应关系中,查询语音数据的频谱特征对应的用户属性识别结果,将查找到的用户属性识别结果作为语音数据的第一用户属性识别结果。
综上所述,本发明实施例提供的装置,在获取到用户的语音数据后,分别对该语音数据进行用户属性识别及内容识别,得到语音数据的第一用户属性识别结果及内容识别结果,且至少根据第一用户属性识别结果及内容识别结果执行相应操作,由于对语音数据进行属性识别,所以即便针对同一内容识别结果,由于不同用户的用户属性可能不同,所以执行的响应操作或返回的结果也可能存在不同,从而使得同一语音对应多种响应形式,不但丰富了语音响应方式,提高了语音响应的灵活程度,而且语音响应结果更加满足用户需求。
实施例四
本发明提供了一种语音交互设备的结构示意图,参见图6,该设备包括至少一个处理器601,例如CPU,至少一个网络接口604或者其他用户接口603,存储器605,和至少一个通信总线602。通信总线602用于实现这些装置之间的连接通信。用户接口603可以是显示器,键盘或者点击设备。存储器605可能包含高速Ram存储器,也可能还包括非易失性存储器(non-volat i le memory),例如至少一个磁盘存储器。
处理器601用于执行存储器605存放的程序,以实现如下方法:
获取用户的语音数据;对所述语音数据进行用户属性识别,得到第一用户属性识别结果;对所述语音数据进行内容识别,得到所述语音数据的内容识别结果;至少根据所述第一用户属性识别结果及所述内容识别结果执行相应操作,以响应所述语音数据。
进一步地,处理器601,具体用于采集用户图像;当检测所述用户图像中的人数为预设值时,执行所述对所述语音数据进行用户属性识别的步骤。
进一步地,处理器601,具体用于提取所述用户图像中的人脸数据;对所述人脸数据进行人脸识别,得到第二用户属性识别结果。
进一步地,处理器601,具体用于将所述第一用户属性识别结果及所述第二用户属性识别结果进行加权,得到最终用户属性识别结果;根据所述最终用户属性识别结果及所述内容识别结果执行相应操作。
进一步地,处理器601,具体用于预先设置用户属性,所述用户属性至少包括性别属性及年龄属性;预先设置所述性别属性对应的多个词汇及所述年龄属性对应的多个词汇,并将所述对应关系进行存储;所述确定所述最终用户属性识别结果对应的词汇内容,包括:在预先设置的所述性别属性与词汇的对应关系及所述年龄属性与词汇的对应关系中,查询所述最终用户识别结果对应的词汇,并将查找到的词汇作为所述最终用户属性识别结果对应的词汇内容。
进一步地,处理器601,具体用于预先设置频谱特征与用户属性识别结果的对应关系,所述用户属性识别结果至少包括性别属性识别结果及年龄属性识别结果;所述对所述语音数据进行用户属性识别,得到所述语音数据的第一用户属性识别结果包括:对所述语音数据进行频域变换处理,得到所述语音数据的频谱特征;在预先设置的各个频谱特征与用户属性识别结果的对应关系中,查询所述语音数据的频谱特征对应的用户属性识别结果,将查找到的用户属性识别结果作为所述语音数据的第一用户属性识别结果。
本实施例提供的设备,在获取到用户的语音数据后,分别对该语音数据进行用户属性识别及内容识别,得到语音数据的第一用户属性识别结果及内容识别结果,且至少根据第一用户属性识别结果及内容识别结果执行相应操作,由于对语音数据进行属性识别,所以即便针对同一内容识别结果,由于不同用户的用户属性可能不同,所以执行的响应操作或返回的结果也可能存在不同,从而使得同一语音对应多种响应形式,不但丰富了语音响应方式,提高了语音响应的灵活程度,而且语音响应结果更加满足用户需求。
需要说明的是:上述实施例提供的语音交互装置在进行语音交互时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音交互装置与语音交互方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音交互方法,其特征在于,所述方法包括:
获取用户的语音数据;
根据所述语音数据的频谱特征,从预先设置各个频谱特征与用户属性识别结果的对应关系中确定第一用户属性识别结果;
对所述语音数据进行内容识别,得到所述语音数据的内容识别结果;
采集用户图像,根据对所述用户图像中的人脸数据的识别,得到第二用户属性识别结果;
将所述第一用户属性识别结果及所述第二用户属性识别结果进行加权,得到最终用户属性识别结果;
在预先设置的性别属性与所述性别属性对应的词汇的对应关系及年龄属性与所述年龄属性对应的词汇的对应关系中,查询所述最终用户属性识别结果对应的词汇,并将查找到的词汇作为所述最终用户属性识别结果对应的词汇内容;
根据所述最终用户属性识别结果对应的词汇内容和所述内容识别结果执行相应操作。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当检测所述用户图像中的人数为预设值时,执行所述确定第一用户属性识别结果的步骤。
3.根据权利要求1所述的方法,其特征在于,所述根据对所述用户图像中的人脸数据的识别,得到第二用户属性识别结果,包括:
提取所述用户图像中的人脸数据;
对所述人脸数据进行人脸识别,得到第二用户属性识别结果。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
预先设置用户属性,所述用户属性至少包括所述性别属性及所述年龄属性;
预先设置所述性别属性对应的多个词汇及所述年龄属性对应的多个词汇,并将所述对应关系进行存储。
5.根据权利要求1所述的方法,其特征在于,所述根据所述语音数据的频谱特征,从预先设置各个频谱特征与用户属性识别结果的对应关系中确定第一用户属性识别结果之前,所述方法还包括:
预先设置频谱特征与用户属性识别结果的对应关系,所述用户属性识别结果至少包括性别属性识别结果及年龄属性识别结果;
所述根据所述语音数据的频谱特征,从预先设置各个频谱特征与用户属性识别结果的对应关系中确定第一用户属性识别结果,包括:
对所述语音数据进行频域变换处理,得到所述语音数据的频谱特征;
在预先设置的各个频谱特征与用户属性识别结果的对应关系中,查询所述语音数据的频谱特征对应的用户属性识别结果,将查找到的用户属性识别结果作为所述语音数据的第一用户属性识别结果。
6.一种语音交互装置,其特征在于,所述装置包括:
获取模块,用于获取用户的语音数据;
用户属性识别模块,用于根据所述语音数据的频谱特征,从预先设置各个频谱特征与用户属性识别结果的对应关系中确定第一用户属性识别结果;
内容识别模块,用于对所述语音数据进行内容识别,得到所述语音数据的内容识别结果;
采集模块,用于采集用户图像;
人脸识别模块,用于根据对所述用户图像中的人脸数据的识别,得到第二用户属性识别结果;
执行模块,包括:加权单元和执行单元;
所述加权单元,用于将所述第一用户属性识别结果及所述第二用户属性识别结果进行加权,得到最终用户属性识别结果;
所述执行单元,包括:
确定子单元,用于在预先设置的性别属性与所述性别属性对应的词汇的对应关系及年龄属性与所述年龄属性对应的词汇的对应关系中,查询所述最终用户属性识别结果对应的词汇,并将查找到的词汇作为所述最终用户属性识别结果对应的词汇内容;
执行子单元,用于根据所述最终用户属性识别结果对应的词汇内容和所述内容识别结果执行相应操作。
7.根据权利要求6所述的装置,其特征在于,所述用户属性识别模块,用于当检测所述用户图像中的人数为预设值时,执行所述确定第一用户属性识别结果的步骤。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
提取模块,用于提取所述用户图像中的人脸数据;
所述人脸识别模块,用于对所述人脸数据进行人脸识别,得到第二用户属性识别结果。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
用户属性设置模块,用于预先设置用户属性,所述用户属性至少包括所述性别属性及所述年龄属性;
词汇对应关系设置模块,用于预先设置所述性别属性对应的多个词汇及所述年龄属性对应的多个词汇,并将所述对应关系进行存储。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
频谱特征设置模块,用于预先设置频谱特征与用户属性识别结果的对应关系,所述用户属性识别结果至少包括性别属性识别结果及年龄属性识别结果;
所述用户属性识别模块,用于对所述语音数据进行频域变换处理,得到所述语音数据的频谱特征;在预先设置的各个频谱特征与用户属性识别结果的对应关系中,查询所述语音数据的频谱特征对应的用户属性识别结果,将查找到的用户属性识别结果作为所述语音数据的第一用户属性识别结果。
CN201410026212.7A 2014-01-20 2014-01-20 语音交互方法及装置 Active CN104795067B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201410026212.7A CN104795067B (zh) 2014-01-20 2014-01-20 语音交互方法及装置
CN201910636912.0A CN110459214B (zh) 2014-01-20 2014-01-20 语音交互方法及装置
US14/601,026 US9583101B2 (en) 2014-01-20 2015-01-20 Speech interaction method and apparatus
US15/444,340 US9990924B2 (en) 2014-01-20 2017-02-28 Speech interaction method and apparatus
US15/968,252 US10468025B2 (en) 2014-01-20 2018-05-01 Speech interaction method and apparatus
US16/598,764 US11380316B2 (en) 2014-01-20 2019-10-10 Speech interaction method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410026212.7A CN104795067B (zh) 2014-01-20 2014-01-20 语音交互方法及装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201910636912.0A Division CN110459214B (zh) 2014-01-20 2014-01-20 语音交互方法及装置

Publications (2)

Publication Number Publication Date
CN104795067A CN104795067A (zh) 2015-07-22
CN104795067B true CN104795067B (zh) 2019-08-06

Family

ID=53545342

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201410026212.7A Active CN104795067B (zh) 2014-01-20 2014-01-20 语音交互方法及装置
CN201910636912.0A Active CN110459214B (zh) 2014-01-20 2014-01-20 语音交互方法及装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201910636912.0A Active CN110459214B (zh) 2014-01-20 2014-01-20 语音交互方法及装置

Country Status (2)

Country Link
US (4) US9583101B2 (zh)
CN (2) CN104795067B (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104795067B (zh) 2014-01-20 2019-08-06 华为技术有限公司 语音交互方法及装置
US10482184B2 (en) * 2015-03-08 2019-11-19 Google Llc Context-based natural language processing
US10650162B2 (en) * 2015-07-29 2020-05-12 Simplifeye, Inc. System and method for facilitating access to a database
CN106709804A (zh) * 2015-11-16 2017-05-24 优化科技(苏州)有限公司 一种交互式财富规划咨询机器人系统
CN105979376A (zh) * 2015-12-02 2016-09-28 乐视致新电子科技(天津)有限公司 一种推荐方法和装置
CN105635795A (zh) * 2015-12-30 2016-06-01 小米科技有限责任公司 电视用户行为信息采集方法及装置
CN105681318A (zh) * 2016-02-03 2016-06-15 百度在线网络技术(北京)有限公司 基于人工智能的语音识别的信息推送方法和装置
CN105808695A (zh) * 2016-03-03 2016-07-27 陈包容 一种获取聊天回复内容的方法及装置
CN106027485A (zh) * 2016-04-28 2016-10-12 乐视控股(北京)有限公司 基于语音交互的富媒体展示方法及系统
CN106128467A (zh) * 2016-06-06 2016-11-16 北京云知声信息技术有限公司 语音处理方法及装置
CN106599110A (zh) * 2016-11-29 2017-04-26 百度在线网络技术(北京)有限公司 基于人工智能的语音搜索方法及装置
CN106782544A (zh) * 2017-03-29 2017-05-31 联想(北京)有限公司 语音交互设备及其输出方法
CN107945848A (zh) * 2017-11-16 2018-04-20 百度在线网络技术(北京)有限公司 一种健身指导实现方法、装置、设备和介质
CN108010527B (zh) * 2017-12-19 2020-06-12 深圳市欧瑞博科技有限公司 语音识别方法、计算机设备和存储介质
US10896213B2 (en) * 2018-03-07 2021-01-19 Google Llc Interface for a distributed network system
CN108600306A (zh) * 2018-03-20 2018-09-28 成都星环科技有限公司 一种智能内容推送系统
US10573298B2 (en) 2018-04-16 2020-02-25 Google Llc Automated assistants that accommodate multiple age groups and/or vocabulary levels
CN110390932A (zh) * 2018-04-20 2019-10-29 比亚迪股份有限公司 基于人脸识别的语音处理方法及其设备
CN108920539B (zh) * 2018-06-12 2021-10-01 广东小天才科技有限公司 一种搜索问题答案的方法及家教机
CN109237740A (zh) * 2018-07-31 2019-01-18 珠海格力电器股份有限公司 一种电器的控制方法、装置、存储介质及电器
US11417236B2 (en) * 2018-12-28 2022-08-16 Intel Corporation Real-time language learning within a smart space
CN109801632A (zh) * 2019-03-08 2019-05-24 北京马尔马拉科技有限公司 一种基于大数据的人工智能语音机器人系统及方法
CN109830240A (zh) * 2019-03-25 2019-05-31 出门问问信息科技有限公司 基于语音操作指令识别用户特定身份的方法、装置及系统
US10930284B2 (en) 2019-04-11 2021-02-23 Advanced New Technologies Co., Ltd. Information processing system, method, device and equipment
CN110275692A (zh) * 2019-05-20 2019-09-24 北京百度网讯科技有限公司 一种语音指令的推荐方法、装置、设备和计算机存储介质
CN110464550A (zh) * 2019-08-15 2019-11-19 迈康时代(厦门)医疗科技有限公司 一种便携式多功能急救包
CN110570839A (zh) * 2019-09-10 2019-12-13 中国人民解放军陆军军医大学第一附属医院 基于人机交互的智能监护系统
CN113808575A (zh) * 2020-06-15 2021-12-17 珠海格力电器股份有限公司 语音交互方法、系统、存储介质以及电子设备
CN113091221A (zh) * 2021-03-08 2021-07-09 珠海格力电器股份有限公司 空调器及其控制方法
CN113194210B (zh) * 2021-04-30 2023-02-24 中国银行股份有限公司 一种语音通话接入方法及装置
CN115376512B (zh) * 2022-08-22 2023-05-30 深圳市长量智能有限公司 一种基于人物画像的语音识别系统及方法
CN115271891B (zh) * 2022-09-29 2022-12-30 深圳市人马互动科技有限公司 基于互动小说的产品推荐方法及相关装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101390155A (zh) * 2006-02-21 2009-03-18 索尼电脑娱乐公司 发言者适配的语音识别和利用基音的注册
CN101419671A (zh) * 2008-11-10 2009-04-29 北方工业大学 基于模糊支持向量机的人脸性别识别方法
CN102802114A (zh) * 2012-06-20 2012-11-28 北京语言大学 利用语音进行座席筛选的方法及系统
CN102984359A (zh) * 2012-11-13 2013-03-20 广东欧珀移动通信有限公司 自动设置手机参数的方法
CN103024530A (zh) * 2012-12-18 2013-04-03 天津三星电子有限公司 智能电视语音应答系统及方法
CN103186326A (zh) * 2011-12-27 2013-07-03 联想(北京)有限公司 一种应用对象操作方法及电子设备
CN103236259A (zh) * 2013-03-22 2013-08-07 乐金电子研发中心(上海)有限公司 语音识别处理及反馈系统、语音回复方法
CN103491411A (zh) * 2013-09-26 2014-01-01 深圳Tcl新技术有限公司 基于语言推荐频道的方法及其装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6424935B1 (en) * 2000-07-31 2002-07-23 Micron Technology, Inc. Two-way speech recognition and dialect system
WO2002052394A1 (en) * 2000-12-27 2002-07-04 Intel Corporation A method and system for concurrent use of two or more closely coupled communication recognition modalities
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
GB2378776A (en) * 2001-05-22 2003-02-19 Canon Kk Apparatus and method for managing a multi-modal interface in which the inputs feedback on each other
US7069215B1 (en) * 2001-07-12 2006-06-27 At&T Corp. Systems and methods for extracting meaning from multimodal inputs using finite-state devices
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US20040215453A1 (en) * 2003-04-25 2004-10-28 Orbach Julian J. Method and apparatus for tailoring an interactive voice response experience based on speech characteristics
US20060229879A1 (en) * 2005-04-06 2006-10-12 Top Digital Co., Ltd. Voiceprint identification system for e-commerce
US9300790B2 (en) * 2005-06-24 2016-03-29 Securus Technologies, Inc. Multi-party conversation analyzer and logger
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
JP4816409B2 (ja) * 2006-01-10 2011-11-16 日産自動車株式会社 認識辞書システムおよびその更新方法
US8280726B2 (en) * 2009-12-23 2012-10-02 Qualcomm Incorporated Gender detection in mobile phones
US8897455B2 (en) * 2010-02-18 2014-11-25 Qualcomm Incorporated Microphone array subset selection for robust noise reduction
US8401853B2 (en) * 2010-09-22 2013-03-19 At&T Intellectual Property I, L.P. System and method for enhancing voice-enabled search based on automated demographic identification
EP2595031A3 (en) * 2011-11-16 2016-01-06 Samsung Electronics Co., Ltd Display apparatus and control method thereof
US20130205312A1 (en) * 2012-02-03 2013-08-08 Novatek Microelectronics Corp. Image display device and operation method therefor
KR20130140423A (ko) * 2012-06-14 2013-12-24 삼성전자주식회사 디스플레이 장치, 대화형 서버 및 응답 정보 제공 방법
KR101284594B1 (ko) 2012-10-26 2013-07-10 삼성전자주식회사 영상처리장치 및 그 제어방법, 영상처리 시스템
US9190058B2 (en) * 2013-01-25 2015-11-17 Microsoft Technology Licensing, Llc Using visual cues to disambiguate speech inputs
US20150088515A1 (en) * 2013-09-25 2015-03-26 Lenovo (Singapore) Pte. Ltd. Primary speaker identification from audio and video data
CN104795067B (zh) * 2014-01-20 2019-08-06 华为技术有限公司 语音交互方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101390155A (zh) * 2006-02-21 2009-03-18 索尼电脑娱乐公司 发言者适配的语音识别和利用基音的注册
CN101419671A (zh) * 2008-11-10 2009-04-29 北方工业大学 基于模糊支持向量机的人脸性别识别方法
CN103186326A (zh) * 2011-12-27 2013-07-03 联想(北京)有限公司 一种应用对象操作方法及电子设备
CN102802114A (zh) * 2012-06-20 2012-11-28 北京语言大学 利用语音进行座席筛选的方法及系统
CN102984359A (zh) * 2012-11-13 2013-03-20 广东欧珀移动通信有限公司 自动设置手机参数的方法
CN103024530A (zh) * 2012-12-18 2013-04-03 天津三星电子有限公司 智能电视语音应答系统及方法
CN103236259A (zh) * 2013-03-22 2013-08-07 乐金电子研发中心(上海)有限公司 语音识别处理及反馈系统、语音回复方法
CN103491411A (zh) * 2013-09-26 2014-01-01 深圳Tcl新技术有限公司 基于语言推荐频道的方法及其装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《Automatic Recognition of Speakers"Age and Gender on the Basis of Empirical Studies》;Christian Muller;《INTERSPEECH 2006-Icslp》;20060921;第2118-2121页
《VOICE SIGNATURES》;Izhak Shafran et al.;《ASRU 2003》;20131130;第31-36页
《基于MFCC与基频特征贡献度识别说话人性别》;庞程等;《华中科技大学学报(自然科学版)》;20131031;第41卷;第108-111、120页
《基于视听信息的自动年龄估计方法》;方尔庆等;《软件学报》;20110731;第22卷(第7期);第1503-1523页

Also Published As

Publication number Publication date
US9583101B2 (en) 2017-02-28
US20200058301A1 (en) 2020-02-20
US20170263251A1 (en) 2017-09-14
US20180247650A1 (en) 2018-08-30
CN104795067A (zh) 2015-07-22
US20150206533A1 (en) 2015-07-23
CN110459214A (zh) 2019-11-15
US11380316B2 (en) 2022-07-05
US9990924B2 (en) 2018-06-05
US10468025B2 (en) 2019-11-05
CN110459214B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN104795067B (zh) 语音交互方法及装置
CN107798653B (zh) 一种图像处理的方法和一种装置
CN109257622A (zh) 一种音视频处理方法、装置、设备及介质
CN104537341B (zh) 人脸图片信息获取方法和装置
CN110353675A (zh) 基于图片生成的脑电信号情感识别方法及装置
TW201821946A (zh) 數據發送系統及其方法
CN107316641B (zh) 一种语音控制方法及电子设备
Danner et al. Quantitative analysis of multimodal speech data
CN107886953A (zh) 一种基于表情和语音识别的婴儿哭声翻译系统
CN105868686A (zh) 视频分类方法及装置
CN108509416A (zh) 句意识别方法及装置、设备和存储介质
CN105512609A (zh) 一种基于核超限学习机的多模融合视频情感识别方法
CN112016367A (zh) 一种情绪识别系统、方法及电子设备
WO2016123777A1 (zh) 一种基于生物特征的对象呈现、推荐方法和装置
CN109278051A (zh) 基于智能机器人的交互方法及系统
CN111413877A (zh) 控制家电设备的方法及装置
CN110148393B (zh) 音乐生成方法、装置和系统以及数据处理方法
CN111126280A (zh) 基于融合手势识别的失语症患者辅助康复训练系统及方法
Zlatintsi et al. Multimodal signal processing and learning aspects of human-robot interaction for an assistive bathing robot
CN111368800B (zh) 手势识别方法及装置
CN110728604B (zh) 一种分析方法及装置
CN109326348A (zh) 分析提示系统及方法
JP2019057255A (ja) 顧客服飾品マッチングシステム
Berdos et al. Discovering the Optimal Setup for Speech Emotion Recognition Model Incorporating Different CNN Architectures
JP7135607B2 (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant