CN111192574A - 智能语音交互方法、移动终端和计算机可读存储介质 - Google Patents
智能语音交互方法、移动终端和计算机可读存储介质 Download PDFInfo
- Publication number
- CN111192574A CN111192574A CN201811355502.0A CN201811355502A CN111192574A CN 111192574 A CN111192574 A CN 111192574A CN 201811355502 A CN201811355502 A CN 201811355502A CN 111192574 A CN111192574 A CN 111192574A
- Authority
- CN
- China
- Prior art keywords
- voice
- current user
- user
- voice signal
- stored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000003993 interaction Effects 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims description 26
- 230000008451 emotion Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 11
- 230000002618 waking effect Effects 0.000 claims description 6
- 230000002996 emotional effect Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000036772 blood pressure Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000036651 mood Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明揭示了一种智能语音交互方法、移动终端和计算机可读存储介质,其中方法包括:采集当前用户的第一语音信号;通过预设声纹特征识别模型,识别第一语音信号的声纹特征;通过比较声纹特征与预存声纹特征的相似度,判断当前用户是否为预存声纹特征对应的预存用户;若当前用户为预存声纹特征对应的预存用户,则判断第一语音信号是否与预设语音唤醒指令相匹配;若与预设语音唤醒指令相匹配,则唤醒终端设备。通过不断训练用户的语音特征,实现智能设备能够更为准确的识别用户的声纹特征,达到语音唤醒的功能。
Description
技术领域
本发明涉及智能设备技术领域,特别是涉及一种智能语音交互方法、移动终端和计算机可读存储介质。
背景技术
语音识别技术的不断发展,基于语音识别的应用也越来越广泛,这样的技术已经渗透入家庭生活、办公领域、娱乐等方面。
现有的具有语音识别的智能设备在用户语音唤醒时,会因为用户此时说话的声音过大或过小,或者是用户说话过快或过慢,从而导致智能设备无法识别出用户的语音,造成唤醒失败的情况,给用户带来极大地不方便。
发明内容
本发明的主要目的为提供一种智能语音交互方法、移动终端和计算机可读存储介质,旨在解决现有的智能设备识别用户语音不够准确的技术问题。
本发明提出一种智能语音交互方法,包括:
采集当前用户的第一语音信号;
通过预设声纹特征识别模型,识别所述第一语音信号的声纹特征;
通过比较所述声纹特征与预存声纹特征的相似度,判断所述当前用户是否为所述预存声纹特征对应的预存用户;
若所述当前用户为所述预存用户,则判断所述第一语音信号是否与预设语音唤醒指令相匹配;
若所述第一语音信号与预设语音唤醒指令相匹配,则唤醒终端设备。
优选地,所述预设声纹特征识别模型为优化了识别阈值的声纹特征识别模型,所述优化了识别阈值的声纹特征识别模型的训练集中包括了多种极限语音场景分别对应的语音信号,所述通过预设声纹特征识别模型,识别所述第一语音信号的声纹特征的步骤之前,包括:
通过收集到的所述预存用户的多种极限语音场景对应的语音信号更新训练集的正负样本;
通过更新后的训练集的正负样本更新训练所述声纹特征识别模型的;
根据更新训练输出的优化权重参数,调整所述声纹特征识别模型的声纹特征识别阈值。
优选地,所述通过收集到的所述预存用户的多种极限语音场景对应的语音信号更新训练集的正负样本的步骤,包括:
采集所述预存用户在极限语音场景下的极限值分别对应的语音信号添加至所述正样本,其中,所述极限值为所述预存用户所述极限值包括最大音量值、最小音量值、最快语速值和最慢语速值。
优选地,所述唤醒终端设备的步骤之后,包括:
采集所述当前用户的第二语音信号;
根据所述第二语音信号,解析所述当前用户的情绪信息;
判断在预设的第一数据库中是否查找与所述情绪信息对应的回答模式,其中,所述第一数据库中包括多个回答模式;
若查找到与所述情绪信息对应的回答模式,则生成执行所述回答模式的命令。
优选地,所述解析所述当前用户的情绪信息的步骤,包括:
获取所述第二语音信号中所述当前用户的语音状态,其中,所述语音状态包括所述当前用户的语速值和音量值;
通过预关联传感器获取所述当前用户的体征信息;
根据所述语音状态和所述体征信息得到所述当前用户的情绪状态。
优选地,所述解析所述当前用户的情绪信息的步骤,包括:
获取所述第二语音信号中所述当前用户的语音状态;
获取所述当前用户当前环境信息;
根据所述语音状态和所述当前环境信息得到所述当前用户的情绪状态。
优选地,所述采集所述当前用户的第二语音信号的步骤之后,包括:
所述第二语音信号中包括执行信息,解析所述第二语音信号,获取执行信息;
判断根据所述执行信息于预设的第三数据库中是否查找到与所述执行信息对应的执行操作;
若查找到与所述执行信息对应的执行操作,则生成执行所述执行操作的命令。
优选地,所述唤醒终端设备的步骤之后,包括:
获取所述当前用户的脸部画面信息;
根据所述脸部画面信息识别所述当前用户的年龄;
根据所述年龄在预设的第二数据库中查找与所述年龄对应的年龄组,其中所述第二数据库包含多个年龄组,以及与所述年龄组呈一对一映射关系的识别回答模式;
根据所述年龄对应的所述年龄组,生成执行所述年龄组对应的所述识别回答模式的命令。
本发明还提供一种移动终端,包括存储器和处理器,所述移动终端存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明提供的智能语音交互方法、移动终端和计算机可读存储介质,通过不断训练用户的语音特征,实现智能设备能够更为准确的识别用户的声纹特征,达到语音唤醒的功能。
附图说明
图1是本发明智能语音交互方法的流程示意图;
图2是本发明智能语音交互方法的整体流程示意图;
图3是本发明一实施例的计算机设备的结构示意框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1和图2,本发明提供的一种智能语音交互方法,包括:
S1、采集当前用户的第一语音信号;
S2、通过预设声纹特征识别模型,识别第一语音信号的声纹特征;
S3、通过比较声纹特征与预存声纹特征的相似度,判断当前用户是否为预存声纹特征对应的预存用户;
S4、若当前用户为预存用户,则判断第一语音信号是否与预设语音唤醒指令相匹配;
S5、若第一语音信号与预设语音唤醒指令相匹配,则唤醒终端设备。
本实施例中,当前用户为当前时间内智能设备接收到语音信号的人。预存用户为用户预先存储指定声纹特征到智能设备中的用户。提供一种智能语音交互方法,提高智能设备上语音助手的识别率。在使用时,智能设备采集当前用户的第一语音信号,第一语音信号包括智能设备检测到用户说话的声音信号,将第一语音信号解析识别,得到第一语音信号中的当前用户的声纹特征,将采集到的声纹特征与预先在智能设备中存储的预存声纹特征进行相似度比较,判断当前采集的声纹特征是否与预存声纹特征相似度达到指定阈值。若经过判断,智能设备采集到声纹特征与预存声纹特征达到指定阈值,则认为当前用户为智能设备的预存用户,此时智能设备将会生成判断第一语音信号是否为预设的语音唤醒指令,智能设备将会对第一语音信号所包含的文字信息与预设的语音唤醒指令进行匹配,判断语音信息是否为预设的语音唤醒指令,若经过判断提取的语音信息是预设的语音唤醒指令,则智能设备将唤醒语音助手。上述预设声纹识别模型基于神经网络训练得到,包括多种形式的神经网络,如多层感知、径向基函数(RBF)等,可以显式训练以区分说话人的声音信号和其背景声音信号。
上述S1、上述预设声纹特征识别模型为优化了识别阈值的声纹特征识别模型,上述优化了识别阈值的声纹特征识别模型的训练集中包括了多种极限语音场景分别对应的语音信号,通过预设声纹特征识别模型,识别第一语音信号的声纹特征的步骤之前,包括:
S6、通过收集到的预存用户的多种极限语音场景对应的语音信号更新训练集的正负样本;
S7、通过更新后的训练集的正负样本更新训练所述声纹特征识别模;
S8、根据更新训练输出的优化权重参数,调整声纹特征识别模型的声纹特征识别阈值。
本实施例中,智能设备通过不断收集预存用户的语音信号,建立一个训练集,训练集包括正负样本,正样本为用户的语音信号,负样本为其他用户的语音信号,正样本包括了用户不同状态时对同一语音文件的语音信号,上述同一语音文件包括相同文字文本对应的同一句话或同一段话,上述用户不同状态时对同一语音文件的语音信号,可理解为用户在不同状态下讲同一句话或同一段话时对应的音量、音色、音调及语义等数据。上述极限语音场景分别对应的语音信号,即用户最大音量值和最小音量值时的声音信号以及用户最快语速值和最慢语速值的声音信号。通过不断收集用户的语音信号,不断更新训练集中的正样本,增加正样本的比例,并将包括了多种极限语音场景分别对应的语音信号的更新后的训练集,输入神经网络进行声纹特征识别模型的更新训练,经过声纹特征识别模型更新训练输出的优化权重参数,根据这个权重参数,不断调整声纹特征的识别阈值,扩大能够识别的声纹特征,进一步提高智能设备的识别度。
上述S6、通过收集到的预存用户的多种极限语音场景对应的语音信号更新训练集的正负样本的步骤,包括:
S61、采集预存用户在极限语音场景下的极限值分别对应的语音信号添加至所述正样本,其中,极限值为预存用户相对于终端设备最大音量值、最小音量值、最快语速值和最慢语速值的第一语音信号。
本实施例中,智能设备预先录入当前用户的极限值的语音信号,具体的,智能设备将当前用户当前说话声音最大声时的音量录入,最小声时的音量录入,将最大音量值和最小音量值作为当前用户的语音信号的极限值保存,再将当前用户的日常音量值录入保存,由此得到当前用户的说话声音的极限值和日常音量值。本实施例中,用户说话声音的日常音量值既可以是智能设备保存的当前用户的说话声音的音量值,也可以跟不超过上述日常音量值一定范围的声音值。智能设备还将记录当前用户说话语速的最快语速值和最慢语速值,以及当前用户的正常说话的正常语速值。同样的用户说话的正常语速值既可以是智能设备保存的当前用户的正常语速值,也可以跟不超过上述正常语速值一定范围的语速值。根据录入的极限值的声纹特征计算得到智能设备的识别范围,即在极限值内的声纹特征,属于预存用户的声纹特征。在接收到用户的第一语音信号后,得到第一语音信号中的声纹特征,与智能设备中的预存声纹特征进行对比匹配,判断第一语音信号中的声纹特征是否在预存声纹特征识别范围中,再判断该声纹特征与预存声纹特征的相似度是否在识别阈值内。
上述S5、唤醒终端设备的步骤之后,包括:
S51、采集当前用户的第二语音信号;
S52、根据第二语音信号,解析当前用户的情绪信息;
S53、判断在预设的第一数据库中是否查找与情绪信息对应的回答模式,其中,第一数据库中包括多个回答模式;
S54、若查找到与情绪信息对应的回答模式,则生成执行回答模式对应的回答语境的命令。
本实施例中,第二语音信号为智能设备接收到的当前用户说的话。智能设备根据接收到的当前用户的第二语音信号,解析得到第二语音信号中当前用户说话语速的语速值、声音的音量值等不同语音信息,将解析得到的语音信息用户日常的说话语速的语速值、声音的音量值进行对比,判断出用户此时的心情。例如检测到用户声音音量值超过用户的日常音量值,且检测到用户说话的语速值也超过日常说话的语速值,则判定用户此时处于生气的情绪。根据不同的情绪信息,查找对应的回答模式,具体的,生气时采用简短而准确的回答模式,开心时采用趣味回答模式。
上述S52、解析当前用户的情绪信息的步骤,包括:
S521、获取第二语音信号中当前用户的语音状态,其中,语音状态包括当前用户的语速值和声音音量值;
S522、通过预关联传感器获取当前用户的体征信息;
S523、根据语音状态和体征信息得到当前用户的情绪状态。
本实施例中,体征信息为智能设备通过当前用户的智能手环等传感器检测得到的当前用户的心率、血压等信息,该传感器与智能设备连接,得到当前用户的特征信息。具体的,智能设备可以结合多种信息来精确分析判断当前用户的情绪信息,智能设备接收智能手环实时监测到当前用户此时的心率、血压等体征数据,结合当前用户说话语速的语速值、声音的音量值,得到当前用户的情绪信息。例如,智能设备在接收到当前用户第二语音信号时,若当前用户的说话声音音量值高于日常的说话声音音量值,此时智能设备将会接收来自预先与智能设备关联的智能手环的监测数据,若检测到当前用户此时的心率高于正常心率,血压也高于正常心率,则判定此时当前用户处于生气的情绪中,智能设备将启动当前用户生气时对应的回答模式,采用简短而准确的回答方式来回答当前用户。
上述S52、解析当前用户的情绪信息的步骤,包括:
S524、获取第二语音信号中当前用户的语音状态;
S525、获取当前用户当前环境信息;
S526、根据语音状态和当前环境信息得到当前用户的情绪状态。
本实施例中,智能设备获取当前用户当前环境信息的方式为通过智能设备的摄像头拍摄用户当前的周围环境获得的。具体的,在智能设备检测当前用户情绪状态时,结合当前用户的表情来推断。例如,智能设备在接收到当前用户第二语音信号时,若当前用户的说话声音音量值大于日常音量值,且说话的语速值也超过日常说话的语速值,此时智能设备将会开启摄像头,检测当前用户的脸部表情,若检测到当前用户此时嘴角向下弯曲或嘴唇紧闭。则会判定当前用户此时处于生气状态。若在接收到第二语音信号以后,通过摄像头检测到当前用户嘴角上扬,则判定当前用户此时处于开心状态。本实施例中,智能设备还可以通过摄像头拍摄当前的环境,检测当前的环境信息,例如智能设备通过摄像头拍摄到周围当前用户屋内灯光较暗,此时还拍摄到有蜡烛点燃,此时检测到当前用户处于开心状态,在趣味应答模式中添加浪漫回答等。
上述S5、唤醒终端设备的步骤之后,包括:
S55、获取当前用户的脸部画面信息;
S56、根据脸部画面信息识别当前用户的年龄;
S57、根据年龄在预设的第二数据库中查找与年龄对应的年龄组,其中第二数据库包含多个年龄组,以及与年龄组呈一对一映射关系的识别回答模式;
S58、根据年龄对应的年龄组,生成执行年龄组对应的识别回答模式的命令。
本实施例中,脸部画面信息由智能设备的摄像头采集得到,在当前用户唤醒智能设备之后,智能设备将开启摄像头采集当前用户的脸部画面信息。将得到的脸部画面信息解析得到当前用户的年龄。根据得到的年龄信息,在预设的数据库中查找该年龄在数据库中所对应的年龄组,年龄组根据年龄分为三组,0-15岁为第一年龄组,16-50岁为第二年龄组,超过50岁为第三年龄组,根据当前用户的年龄查找该年龄在数据库中所对应的年龄组,根据年龄组选取不同的识别模式和回答模式来回复用户,例如若当前用户检测到年龄超过50岁时,判定当前用户对应为第三年龄组,根据第三年龄组的识别回答模式,采用调整降低采集语音的速度,将识别时间延长,在回复时声音变大。若当前用户检测到年龄在0-15岁时,判定当前用户对应为第一年龄组,根据第一年龄组的识别回答模式,采用进行关键词的提取,按照主谓宾重组,挑选出概率最大的向用户询问是不是这样。若当前用户检测到年龄在16-50岁时,判定当前用户对应为第二年龄组,根据第二年龄组的识别回答模式,采用清晰语音采用快速应答模式。
S51、采集当前用户的第二语音信号的步骤之后,包括:
S511、解析第二语音信号,获取执行信息;
S512、判断根据执行信息于预设的第三数据库中是否查找到与执行信息对应的执行操作;
S513、若查找到与执行信息对应的执行操作,则生成执行执行操作的命令。
本实施例中,执行信息包括用户向智能设备提出的日期检索命令,天气检索命令、日程检索命令和信息检索命令。在接受到用户的第二语音信号后,智能设备将第二语音信号解析,获得其中的执行信息,在预设的第三数据库中是否查找到与执行信息对应的执行操作,若查找到与执行信息对应的执行操作,则生成执行执行操作的命令。例如,在第三数据库中,包括执行日期检索、天气检索、交通检索、外卖检索和信息检索等执行命令,在接收到当前用户的第二语音之后,检索该语音信号包含的检索当前天气的执行信息,智能设备将会调取智能设备中查询天气的应用程序中的当前天气情况,在检索到之后向当前用户报告当前的天气状况。本实施例中,智能设备还可以在接收到当前用户的第二语音之后,检索该语音信号包含的检索当前交通的执行信息,根据历史消息,检索用户常用的出行路线,优先显示该常用的出行路线的交通状况,若以后没有常用出行路线则根据当前用户的所在位置,显示周围的交通状况。
综上,本发明提供的智能语音交互方法、移动终端和计算机可读存储介质,通过不断训练用户的语音特征,实现智能设备能够更为准确的识别用户的声纹特征,达到语音唤醒的功能。
如图3,本申请实施例中还提供一种移动终端,该移动终端可以是服务器,其内部结构可以如图3所示。该移动终端包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该移动终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该移动终端的数据库用于存储用户语音信号等数据。该移动终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种智能语音交互方法。
上述处理器执行上述智能语音交互方法的步骤:
采集当前用户的第一语音信号;
通过预设声纹特征识别模型,识别第一语音信号的声纹特征;
通过比较声纹特征与预存声纹特征的相似度,判断当前用户是否为预存声纹特征对应的预存用户;
若当前用户为预存用户,则判断第一语音信号是否与预设语音唤醒指令相匹配;
若第一语音信号与预设语音唤醒指令相匹配,则唤醒终端设备。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种智能语音交互方法,具体为:
采集当前用户的第一语音信号;
通过预设声纹特征识别模型,识别第一语音信号的声纹特征;
通过比较声纹特征与预存声纹特征的相似度,判断当前用户是否为预存声纹特征对应的预存用户;
若当前用户为预存用户,则判断第一语音信号是否与预设语音唤醒指令相匹配;
若第一语音信号与预设语音唤醒指令相匹配,则唤醒终端设备。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种智能语音交互方法,其特征在于,包括:
采集当前用户的第一语音信号;
通过预设声纹特征识别模型,识别所述第一语音信号的声纹特征;
通过比较所述声纹特征与预存声纹特征的相似度,判断所述当前用户是否为所述预存声纹特征对应的预存用户;
若所述当前用户为所述预存用户,则判断所述第一语音信号是否与预设语音唤醒指令相匹配;
若所述第一语音信号与预设语音唤醒指令相匹配,则唤醒终端设备。
2.如权利要求1所述智能语音交互方法,其特征在于,所述预设声纹特征识别模型为优化了识别阈值的声纹特征识别模型,所述优化了识别阈值的声纹特征识别模型的训练集中包括了多种极限语音场景分别对应的语音信号,所述通过预设声纹特征识别模型,识别所述第一语音信号的声纹特征的步骤之前,包括:
通过收集到的所述预存用户的多种极限语音场景对应的语音信号更新训练集的正负样本;
通过更新后的训练集的正负样本更新训练所述声纹特征识别模型;
根据更新训练输出的优化权重参数,调整所述声纹特征识别模型的声纹特征识别阈值。
3.如权利要求2所述智能语音交互方法,其特征在于,所述通过收集到的所述预存用户的多种极限语音场景对应的语音信号更新训练集的正负样本的步骤,包括:
采集所述预存用户在极限语音场景下的极限值分别对应的语音信号添加至所述正样本,其中,所述极限值为所述预存用户所述极限值包括最大音量值、最小音量值、最快语速值和最慢语速值。
4.如权利要求1所述智能语音交互方法,其特征在于,所述唤醒终端设备的步骤之后,包括:
采集所述当前用户的第二语音信号;
根据所述第二语音信号,解析所述当前用户的情绪信息;
判断在预设的第一数据库中是否查找与所述情绪信息对应的回答模式,其中,所述第一数据库中包括多个回答模式;
若查找到与所述情绪信息对应的回答模式,则生成执行所述回答模式的命令。
5.如权利要求4所述智能语音交互方法,其特征在于,所述根据所述第二语音信号,解析所述当前用户的情绪信息的步骤,包括:
获取所述第二语音信号中所述当前用户的语音状态,其中,所述语音状态包括所述当前用户的语速值和音量值;
通过预关联传感器获取所述当前用户的体征信息;
根据所述语音状态和所述体征信息得到所述当前用户的情绪状态。
6.如权利要求4所述智能语音交互方法,其特征在于,所述根据所述第二语音信号,解析所述当前用户的情绪信息的步骤,包括:
获取所述第二语音信号中所述当前用户的语音状态,其中,所述语音状态包括所述当前用户的语速值和音量值;
获取所述当前用户当前环境信息;
根据所述语音状态和所述当前环境信息得到所述当前用户的情绪状态。
7.如权利要求4所述智能语音交互方法,其特征在于,所述第二语音信号中包括执行信息,所述采集所述当前用户的第二语音信号的步骤之后,包括:
解析所述第二语音信号,获取所述执行信息;
判断根据所述执行信息于预设的第三数据库中是否查找到与所述执行信息对应的执行操作;
若查找到与所述执行信息对应的执行操作,则生成执行所述执行操作的命令。
8.如权利要求1所述智能语音交互方法,其特征在于,所述唤醒终端设备的步骤之后,包括:
获取所述当前用户的脸部画面信息;
根据所述脸部画面信息识别所述当前用户的年龄;
根据所述年龄在预设的第二数据库中查找与所述年龄对应的年龄组,其中所述第二数据库包含多个年龄组,以及与所述年龄组呈一对一映射关系的识别回答模式;
根据所述年龄对应的所述年龄组,生成执行所述年龄组对应的所述识别回答模式的命令。
9.一种移动终端,包括存储器和处理器,所述移动终端存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811355502.0A CN111192574A (zh) | 2018-11-14 | 2018-11-14 | 智能语音交互方法、移动终端和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811355502.0A CN111192574A (zh) | 2018-11-14 | 2018-11-14 | 智能语音交互方法、移动终端和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111192574A true CN111192574A (zh) | 2020-05-22 |
Family
ID=70710493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811355502.0A Pending CN111192574A (zh) | 2018-11-14 | 2018-11-14 | 智能语音交互方法、移动终端和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111192574A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111710340A (zh) * | 2020-06-05 | 2020-09-25 | 深圳市卡牛科技有限公司 | 基于语音识别用户身份的方法、装置、服务器及存储介质 |
CN111816174A (zh) * | 2020-06-24 | 2020-10-23 | 北京小米松果电子有限公司 | 语音识别方法、装置及计算机可读存储介质 |
CN112151026A (zh) * | 2020-08-20 | 2020-12-29 | 未来穿戴技术有限公司 | 语音控制方法、装置、服务器和计算机可读存储介质 |
CN112669836A (zh) * | 2020-12-10 | 2021-04-16 | 鹏城实验室 | 命令的识别方法、装置及计算机可读存储介质 |
CN112951234A (zh) * | 2021-03-31 | 2021-06-11 | 国网江苏省电力有限公司营销服务中心 | 一种基于语音交互的负荷辨识智能控制方法、系统和装置 |
CN113177114A (zh) * | 2021-05-28 | 2021-07-27 | 重庆电子工程职业学院 | 一种基于深度学习的自然语言语义理解方法 |
CN113407922A (zh) * | 2021-07-14 | 2021-09-17 | 上海万向区块链股份公司 | 基于区块链技术的智能意图识别分析系统及方法 |
CN113580166A (zh) * | 2021-08-20 | 2021-11-02 | 安徽淘云科技股份有限公司 | 一种拟人化机器人的交互方法、装置、设备及存储介质 |
CN115116442A (zh) * | 2022-08-30 | 2022-09-27 | 荣耀终端有限公司 | 语音交互方法和电子设备 |
CN116052667A (zh) * | 2023-03-08 | 2023-05-02 | 广东浩博特科技股份有限公司 | 智能开关的控制方法、装置和智能开关 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104681023A (zh) * | 2015-02-15 | 2015-06-03 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN105575395A (zh) * | 2014-10-14 | 2016-05-11 | 中兴通讯股份有限公司 | 语音唤醒方法及装置、终端及其处理方法 |
CN106328133A (zh) * | 2016-08-18 | 2017-01-11 | 张培 | 一种语音应答响应装置 |
CN106683672A (zh) * | 2016-12-21 | 2017-05-17 | 竹间智能科技(上海)有限公司 | 一种基于情感和语义的智能对话方法及系统 |
CN107825429A (zh) * | 2016-09-15 | 2018-03-23 | 富士施乐株式会社 | 对话装置和方法 |
CN107886957A (zh) * | 2017-11-17 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种结合声纹识别的语音唤醒方法及装置 |
CN108305623A (zh) * | 2018-01-15 | 2018-07-20 | 珠海格力电器股份有限公司 | 电器控制方法及装置 |
CN108510992A (zh) * | 2018-03-22 | 2018-09-07 | 北京云知声信息技术有限公司 | 语音唤醒设备的方法 |
CN108670128A (zh) * | 2018-05-21 | 2018-10-19 | 深圳市沃特沃德股份有限公司 | 语音控制扫地机器人的方法和扫地机器人 |
CN108735222A (zh) * | 2018-05-03 | 2018-11-02 | 广州国音科技有限公司 | 一种基于声纹识别的声纹鉴定方法及系统 |
-
2018
- 2018-11-14 CN CN201811355502.0A patent/CN111192574A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105575395A (zh) * | 2014-10-14 | 2016-05-11 | 中兴通讯股份有限公司 | 语音唤醒方法及装置、终端及其处理方法 |
CN104681023A (zh) * | 2015-02-15 | 2015-06-03 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN106328133A (zh) * | 2016-08-18 | 2017-01-11 | 张培 | 一种语音应答响应装置 |
CN107825429A (zh) * | 2016-09-15 | 2018-03-23 | 富士施乐株式会社 | 对话装置和方法 |
CN106683672A (zh) * | 2016-12-21 | 2017-05-17 | 竹间智能科技(上海)有限公司 | 一种基于情感和语义的智能对话方法及系统 |
CN107886957A (zh) * | 2017-11-17 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种结合声纹识别的语音唤醒方法及装置 |
CN108305623A (zh) * | 2018-01-15 | 2018-07-20 | 珠海格力电器股份有限公司 | 电器控制方法及装置 |
CN108510992A (zh) * | 2018-03-22 | 2018-09-07 | 北京云知声信息技术有限公司 | 语音唤醒设备的方法 |
CN108735222A (zh) * | 2018-05-03 | 2018-11-02 | 广州国音科技有限公司 | 一种基于声纹识别的声纹鉴定方法及系统 |
CN108670128A (zh) * | 2018-05-21 | 2018-10-19 | 深圳市沃特沃德股份有限公司 | 语音控制扫地机器人的方法和扫地机器人 |
Non-Patent Citations (1)
Title |
---|
都伊林: "《智能安防新发展与应用》", 华中科技大学出版社, pages: 49 - 50 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111710340A (zh) * | 2020-06-05 | 2020-09-25 | 深圳市卡牛科技有限公司 | 基于语音识别用户身份的方法、装置、服务器及存储介质 |
CN111816174A (zh) * | 2020-06-24 | 2020-10-23 | 北京小米松果电子有限公司 | 语音识别方法、装置及计算机可读存储介质 |
CN112151026A (zh) * | 2020-08-20 | 2020-12-29 | 未来穿戴技术有限公司 | 语音控制方法、装置、服务器和计算机可读存储介质 |
CN112669836A (zh) * | 2020-12-10 | 2021-04-16 | 鹏城实验室 | 命令的识别方法、装置及计算机可读存储介质 |
CN112669836B (zh) * | 2020-12-10 | 2024-02-13 | 鹏城实验室 | 命令的识别方法、装置及计算机可读存储介质 |
CN112951234A (zh) * | 2021-03-31 | 2021-06-11 | 国网江苏省电力有限公司营销服务中心 | 一种基于语音交互的负荷辨识智能控制方法、系统和装置 |
CN113177114A (zh) * | 2021-05-28 | 2021-07-27 | 重庆电子工程职业学院 | 一种基于深度学习的自然语言语义理解方法 |
CN113177114B (zh) * | 2021-05-28 | 2022-10-21 | 重庆电子工程职业学院 | 一种基于深度学习的自然语言语义理解方法 |
CN113407922B (zh) * | 2021-07-14 | 2022-06-03 | 上海万向区块链股份公司 | 基于区块链技术的智能意图识别分析系统及方法 |
CN113407922A (zh) * | 2021-07-14 | 2021-09-17 | 上海万向区块链股份公司 | 基于区块链技术的智能意图识别分析系统及方法 |
CN113580166A (zh) * | 2021-08-20 | 2021-11-02 | 安徽淘云科技股份有限公司 | 一种拟人化机器人的交互方法、装置、设备及存储介质 |
CN113580166B (zh) * | 2021-08-20 | 2023-11-28 | 安徽淘云科技股份有限公司 | 一种拟人化机器人的交互方法、装置、设备及存储介质 |
CN115116442A (zh) * | 2022-08-30 | 2022-09-27 | 荣耀终端有限公司 | 语音交互方法和电子设备 |
CN115116442B (zh) * | 2022-08-30 | 2023-01-10 | 荣耀终端有限公司 | 语音交互方法和电子设备 |
CN116052667A (zh) * | 2023-03-08 | 2023-05-02 | 广东浩博特科技股份有限公司 | 智能开关的控制方法、装置和智能开关 |
CN116052667B (zh) * | 2023-03-08 | 2023-06-16 | 广东浩博特科技股份有限公司 | 智能开关的控制方法、装置和智能开关 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111192574A (zh) | 智能语音交互方法、移动终端和计算机可读存储介质 | |
CN108182937B (zh) | 关键词识别方法、装置、设备及存储介质 | |
CN108320733B (zh) | 语音数据处理方法及装置、存储介质、电子设备 | |
JP6754184B2 (ja) | 音声認識装置及び音声認識方法 | |
CN108630231B (zh) | 信息处理装置、感情识别方法以及存储介质 | |
US10789961B2 (en) | Apparatus and method for predicting/recognizing occurrence of personal concerned context | |
JPWO2003015076A1 (ja) | 鳴声の音声的特徴分析に基づく犬の感情判別装置及びその方法 | |
CA2421746A1 (en) | Emotion detecting method and system | |
CN110914897B (zh) | 语音识别系统和语音识别装置 | |
KR20190094316A (ko) | 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법 | |
US10916240B2 (en) | Mobile terminal and method of operating the same | |
CN111968645B (zh) | 一种个性化的语音控制系统 | |
CN112102850A (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
KR20210153165A (ko) | 음성 인식 기능을 제공하는 인공 지능 기기, 인공 지능 기기의 동작 방법 | |
JP2019124952A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN112634897A (zh) | 设备唤醒方法、装置和存储介质及电子装置 | |
CN111326152A (zh) | 语音控制方法及装置 | |
CN111524514A (zh) | 一种语音控制方法及中控设备 | |
CN110689896A (zh) | 追溯性声音识别系统 | |
US11335359B2 (en) | Methods and devices for obtaining an event designation based on audio data | |
KR20170086233A (ko) | 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법 | |
CN112002349A (zh) | 一种语音端点检测方法及装置 | |
KR20210063698A (ko) | 전자장치와 그의 제어방법, 및 기록매체 | |
CN110728993A (zh) | 一种变声识别方法及电子设备 | |
CN115691478A (zh) | 语音唤醒方法、装置、人机交互设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200522 |
|
RJ01 | Rejection of invention patent application after publication |