CN116597839A - 一种智能语音交互系统及方法 - Google Patents
一种智能语音交互系统及方法 Download PDFInfo
- Publication number
- CN116597839A CN116597839A CN202310868084.XA CN202310868084A CN116597839A CN 116597839 A CN116597839 A CN 116597839A CN 202310868084 A CN202310868084 A CN 202310868084A CN 116597839 A CN116597839 A CN 116597839A
- Authority
- CN
- China
- Prior art keywords
- coefficient
- preset
- voice
- user
- heart rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 49
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 28
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 28
- 238000006243 chemical reaction Methods 0.000 claims abstract description 25
- 230000008569 process Effects 0.000 claims abstract description 23
- 238000012937 correction Methods 0.000 claims description 141
- 230000007613 environmental effect Effects 0.000 claims description 45
- 239000013598 vector Substances 0.000 claims description 30
- 230000002159 abnormal effect Effects 0.000 claims description 24
- 230000002452 interceptive effect Effects 0.000 claims description 9
- 230000009123 feedback regulation Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 210000000707 wrist Anatomy 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A44—HABERDASHERY; JEWELLERY
- A44C—PERSONAL ADORNMENTS, e.g. JEWELLERY; COINS
- A44C5/00—Bracelets; Wrist-watch straps; Fastenings for bracelets or wrist-watch straps
- A44C5/0007—Bracelets specially adapted for other functions or with means for attaching other articles
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明涉及一种智能语音交互系统及方法,尤其涉及语音交互技术领域,包括采集模块,用以采集语音信号,并转换为数字信号;存储模块,用以存储用户录入的声纹模型、预设语音模型、预设语言模型和预设语音合成模型;语音识别模块,用以根据所述声纹模型对采集到的数字信号进行识别,并将识别为用户声纹的数字信号进行文本转换;语言处理模块,用以对文本转换后的文本内容进行语言处理;执行操作模块,用以对语言处理结果内容进行执行;语音合成模块,用以根据语言处理后的文本内容进行语音合成,并进行语音输出;反馈模块,用以对语音识别过程进行调整和反馈。本发明提高了语音识别的准确性和鲁棒性,从而提高了语音交互效率。
Description
技术领域
本发明涉及语音交互技术领域,尤其涉及一种智能语音交互系统及方法。
背景技术
智能手环语音交互技术目前正在不断发展,并且取得了一些重要的进展,而语音识别的准确性一直是语音交互技术的关键挑战之一,尽管在正常环境下的语音识别已经取得了很大的进展,但在嘈杂环境、口音、语速变化等复杂情况下的准确性仍然存在挑战,且智能手环语音交互涉及到用户的语音输入和个人信息,因此隐私和安全性是一个重要的考虑因素。
中国专利公开号:CN110584278A公开了一种具有语音交互功能的智能手环及方法,一种具有语音交互功能的智能手环,包括手环主体、腕带,它还包括语音交互模块;手环主体与腕带紧固相接;手环主体的内部由下向上依次设置有充电触点、电池、电板主体;电板主体上设置有数据处理模块、语音交互模块;数据处理模块上设置有蓝牙及无线模块、存储和加速器模块;数据处理模块分别与语音交互模块、电源模块、马达控制模块、复位模块、按键模块、显示模块相连接;一种具有语音交互功能的智能手环的方法,使用方法为:用户短按语音交互键进行手环模式切换,长按手环主体表面的语音交互键,手动唤醒语音识别功能。该方案未对语音识别过程进行调整,且未针对语音交互的结果进行反馈控制,无法提高语音交互效率。
发明内容
为此,本发明提供一种智能语音交互系统及方法,用以克服现有技术中通过智能手环进行语音交互时语音交互效率低的问题。
为实现上述目的,一方面,本发明提供一种智能语音交互系统,包括:
采集模块,用以采集语音信号,并将语音信号转换为数字信号;
存储模块,用以存储用户录入的声纹模型、预设语音模型、预设语言模型和预设语音合成模型;
语音识别模块,用以根据所述声纹模型对采集到的数字信号进行识别,并将识别为用户声纹的数字信号进行文本转换,语音识别模块设有声纹识别单元,其用以根据所述声纹模型计算采集到的数字信号的相关系数,并根据相关系数对用户声纹进行识别,语音识别模块还设有调节单元,其用以根据用户使用状态设定调节系数对相关系数进行调节,语音识别模块还设有补偿单元,其用以根据用户心率计算补偿系数,以对调节系数进行补偿,语音识别模块还设有更正单元,其用以根据环境噪音强度计算更正系数,以对补偿系数进行更正,语音识别模块还设有调整单元,其用以根据智能手环使用时长计算调整系数,以对更正系数进行调整,语音识别模块还设有文本转换单元,用以对识别为用户声纹的数字信号进行文本转换;
语言处理模块,用以根据所述预设语言模型对文本转换后的文本内容进行语言处理;
执行操作模块,用以根据语言处理结果对结果内容进行执行;
语音合成模块,用以根据语言处理后的文本内容进行语音合成,并进行语音输出;
反馈模块,用以对语音识别过程进行调整,还用以根据反馈周期内的反馈调整次数对存储模块中的声纹模型进行反馈,反馈模块设有误差单元,其用以根据语音预设停留时长内相同对话的重复次数计算误差系数,以对语音识别过程进行调整,反馈模块还设有校正单元,其用以根据预设停留时长内相同对话的距离差值计算校正系数,以对误差系数进行校正,反馈模块还设有修正单元,其用以根据预设停留时长内相同对话的心率差值计算修正系数,以对校正系数进行修正,反馈模块还设有反馈单元,其用以根据反馈周期内的反馈调整次数判断声纹模型的模型状态,以对存储模块中的声纹模型进行反馈。
进一步地,所述声纹识别单元将采集到的数字信号转换为特征向量,将其作为用户特征向量,并根据用户特征向量和声纹模型中预设用户声纹特征向量计算相关系数r,设定r=1-(6×Σ(d²))/(n×(n²-1)),其中,d为用户特征向量和预设用户声纹特征向量的秩次差,n为用户特征向量的长度,所述声纹识别单元将相关系数r与各预设相关系数进行比对,并根据比对结果对用户声纹进行判断,其中:
当相关系数大于等于-1且小于等于第一预设相关系数时,所述声纹识别单元判定该数字信号是用户声纹;
当相关系数大于第一预设相关系数且小于第二相关系数时,所述声纹识别单元判定该数字信号不是用户声纹;
当相关系数大于等于第二预设相关系数且小于等于1时,所述声纹识别单元判定该数字信号是用户声纹。
进一步地,所述调节单元将反射光强度与预设反射光强度进行比对,根据比对结果判断用户的使用状态,并设置调节系数,其中:
当反射光强度小于等于预设反射光强度时,所述调节单元判定用户使用状态异常,设定调节系数为0;
当反射光强度大于预设反射光强度时,所述调节单元判定用户使用状态正常,设定调节系数为1;
所述调节单元根据调节系数对相关系数进行调节,使调节后的相关系数随着用户的使用状态而变化,以在使用状态异常时不进行语音识别。
进一步地,所述补偿单元将用户心率与各预设心率进行比对,并根据比对结果计算补偿系数D,以对调节系数B进行补偿,其中:
当用户心率小于第一预设心率时,所述补偿单元判定用户心率异常,并设定补偿系数,以使补偿系数随着用户心率的降低而增大;
当用户心率大于等于第一预设心率且小于等于第二预设心率时,所述补偿单元判定用户心率正常,不对调节系数进行补偿;
当用户心率大于第二预设心率时,所述补偿单元判定用户心率异常,并设定补偿系数,以使补偿系数随着用户心率的增大而增大;
所述补偿单元根据补偿系数对调节系数进行补偿,以使补偿后的调节系数为随着补偿系数的增大而增大。
进一步地,所述更正单元将环境噪音强度与预设环境噪音强度进行比对,并根据比对结果计算更正系数,以对补偿系数进行更正,其中:
当环境噪音强度小于预设环境噪音强度时,所述更正单元判定环境噪音无影响,不对补偿系数进行更正;
当环境噪音强度大于等于预设环境噪音强度时,所述更正单元判定环境噪音有影响,设定更正系数F=1+[1 - e-[E-E0]]/E,e为自然对数的底数,所述更正单元对补偿系数D进行更正,更正后的补偿系数为Df,设定Df=F×D。
进一步地,所述调整单元将智能手环使用时长与预设智能手环使用时长进行比对,并根据比对结果计算调整系数,以对更正系数进行调整,其中:
当智能手环使用时长小于预设智能手环使用时长时,所述调整单元判定智能手环使用时长正常,不对更正系数进行调整;
当智能手环使用时长大于等于预设智能手环使用时长时,所述调整单元判定智能手环使用时长异常,设定调整系数,以使调整系数随着智能手环使用时长的增大而增大,所述调整单元对更正系数进行调整,以使调整后的更正系数随着调整系数的增大而增大。
进一步地,所述误差单元将重复次数与预设重复次数进行比对,并根据比对结果计算误差系数,以对语音识别过程进行调整,其中:
当重复次数小于预设重复次数时,所述误差单元判定语音识别正常,不对语音识别过程进行调整;
当重复次数大于等于预设重复次数时,所述误差单元判定语音识别异常,设定误差系数,以使误差系数随着重复次数的增大而增大,所述误差单元根据误差系数对第二预设心率和预设环境噪音强度进行调整,以使调整后的第二预设心率随着误差系数的增大而增大,调整后的预设环境噪音强度随着误差系数的增大而增大。
进一步地,所述校正单元将预设停留时长内相同对话的距离差值与预设距离差值进行比对,并根据比对结果计算校正系数L,以对误差系数J进行校正,其中:
当距离差值小于预设距离差值时,所述校正单元判定距离差值正常,不对误差系数进行校正;
当距离差值大于等于预设距离差值时,所述校正单元判定距离差值异常,并设定校正系数,以使校正系数随着距离差值的增大而增大,所述校正单元根据校正系数对误差系数进行校正,以使校正后误差系数随着校正系数的增大而增大。
进一步地,所述修正单元将预设停留时长内相同对话的心率差值与预设心率差值进行比对,并根据比对结果计算修正系数,以对校正系数进行修正,其中:
当心率差值小于预设心率差值时,所述修正单元判定心率差值正常,不对校正系数进行修正;
当心率差值大于等于预设心率差值时,所述修正单元判定心率差值异常,设定修正系数,以使修正系数随着心率差值的增大而增大,以使修正后校正系数随着修正系数的增大而增大。
另一方面,本发明还提供一种智能语音交互方法,包括:
步骤S1,采集语音信号,并将语音信号转换为数字信号;
步骤S2,存储用户录入的声纹模型、预设语音模型、预设语言模型和预设语音合成模型;
步骤S3,根据所述声纹模型对采集到的数字信号进行识别,并将识别为用户声纹的数字信号进行文本转换;
步骤S4,根据所述预设语言模型对文本转换后的文本内容进行语言处理;
步骤S5,根据语言处理结果对结果内容进行执行;
步骤S6,根据语言处理后的文本内容进行语音合成,并进行语音输出;
步骤S7,对语音识别过程进行调整,还用以根据反馈周期内的反馈调整次数对存储模块中的声纹模型进行反馈。
与现有技术相比,本发明的有益效果在于,所述系统通过采集模块采集语音信号,并将语音信号转换为数字信号,以便于智能手环对语音信号进行传输和处理,从而进行语音交互,所述系统通过存储模块存储声纹模型、预设语音模型、预设语言模型和预设语音合成模型,以便于根据各模型进行语音交互,从而实现语音交互功能,所述系统还通过语音识别模块根据声纹模型对采集到的数字信号进行识别,以识别出用户声纹,针对用户进行语音识别,从而提高语音交互效率,并将识别为用户声纹的数字信号进行文本转换,从而对识别为用户声纹的数字信号进行处理,进一步提高语音交互效率,所述系统还通过语言处理模对文本转换后的文本内容进行语言处理,从而根据预设语言模型理解用户语音内容,实现语音交互,所述系统还通过执行操作模块根据语言处理结果对结果内容进行执行,从而响应用户语音内容,所述系统还通过语音合成模块进行语音合成,从而根据语言处理结果将处理后文本进行语音输出,实现语音交互,所述系统还通过反馈模块对语音识别过程进行调整,从而根据语音预设停留时长内相同对话的重复次数调整语音识别过程,以提高语音识别效率,从而进一步提高语音交互效率,所述系统还通过反馈模块根据反馈周期内的反馈调整次数对存储模块中的声纹模型进行反馈,从而在各模型失真时,根据用户使用的实际情况对各模型进行反馈,从而进一步提高语音交互效率。
尤其,所述声纹识别单元通过对用户特征向量和声纹模型中预设用户声纹特征向量进行斯皮尔曼相关系数的计算,从而得到两个特征向量之间的线性相关性的度量值,以对用户声纹进行识别,对采集到的语音信号进行预处理,以提高语音识别的准确性和鲁棒性,从而提高语音交互效率。
尤其,所述补偿单元在用户心率小于第一预设心率时,设定补偿系数随着用户心率的降低而增大,以补偿用户心率在小于正常范围时的用户语音交互的变化,从而提高声纹识别的准确度,进一步提高语音交互效率,所述补偿单元在用户心率大于第二预设心率时,设定补偿系数随着用户心率的增大而增大,以补偿用户在情绪激动,心率超过正常值时用户语音交互的变化,从而提高声纹识别的准确度,进一步提高语音交互效率。
尤其,所述更正单元在环境噪音强度大于等于预设环境噪音强度时,设定更正系数随着环境噪音强度的增大而增大,从而使更正系数反映环境噪音强度,所述更正单元根据更正系数对补偿系数进行更正,以使更正后的补偿系数随着更正系数是增大而增大,从而根据环境噪音强度对补偿系数进行更正,提高补偿系数计算的准确性,进一步提高相关系数判断的准确性,从而提高声纹识别的准确度,进一步提高语音交互效率。
尤其,在智能手环使用时长大于等于预设智能手环使用时长时,所述调整单元设定调整系数随着智能手环使用时长的增大而增大,以对更正系数进行调整,以使调整后的更正系数随着调整系数的增大而增大,从而根据智能手环使用时长对更正系数进行调整,提高更正系数计算的准确性,进一步提高相关系数判断的准确性,从而提高声纹识别的准确度,进一步提高语音交互效率。
尤其,在重复次数大于等于预设重复次数时,所述误差单元设定误差系数随着重复次数的增大而增大,并根据误差系数对第二预设心率和预设环境噪音强度进行调整,以使调整后的第二预设心率随着误差系数的增大而增大,调整后的预设环境噪音强度随着误差系数的增大而增大,从而根据重复次数对第二预设心率和预设环境噪音强度进行调整,从而提高用户声纹识别的准确性,进一步提高语音交互效率。
尤其,在距离差值大于等于预设距离差值时,所述校正单元设定校正系数随着距离差值的增大而增大,并根据校正系数对误差系数进行校正,以使校正后误差系数随着校正系数的增大而增大,提高误差系数计算的准确性,从而提高用户声纹识别的准确性,进一步提高语音交互效率。
尤其,在心率差值大于等于预设心率差值时,所述修正单元设定修正系数随着心率差值的增大而增大,以使修正后校正系数随着修正系数的增大而增大,提高误差系数计算的准确性,从而提高用户声纹识别的准确性,进一步提高语音交互效率。
附图说明
图1为本实施例智能语音交互系统的结构示意图;
图2为本实施例语音识别模块的结构示意图;
图3为本实施例反馈控制模块的结构示意图;
图4为本实施例智能语音交互方法的流程示意图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,其为本实施例智能语音交互系统的结构示意图,所述系统包括:
采集模块,用以采集语音信号,并将语音信号转换为数字信号;
存储模块,用以存储用户录入的声纹模型、预设语音模型、预设语言模型和预设语音合成模型,存储模块与采集模块连接;
语音识别模块,用以根据所述声纹模型对采集到的数字信号进行识别,并将识别为用户声纹的数字信号进行文本转换,语音识别模块与采集模块和存储模块连接;
语言处理模块,用以根据所述预设语言模型对文本转换后的文本内容进行语言处理,语言处理模块与存储模块和语音识别模块连接;
执行操作模块,用以根据语言处理结果对结果内容进行执行,执行操作模块与语言处理模块连接;
语音合成模块,用以根据语言处理后的文本内容进行语音合成,并进行语音输出,语音合成模块与存储模块和语言处理模块连接;
反馈模块,用以对语音识别过程进行调整,还用以根据反馈周期内的反馈调整次数对存储模块中的声纹模型进行反馈,反馈模块与存储模块和语音合成模块连接。
具体而言,所述系统应用于智能手环中,用以与用户进行语音交互,所述采集模块通过智能手环中内置的麦克风采集语音信号,当用户说话时,麦克风接收到声音,并将声音转换为电信号,所述采集模块通过模数转换将电信号转换为数字信号。
具体而言,所述系统通过采集模块采集语音信号,并将语音信号转换为数字信号,以便于智能手环对语音信号进行传输和处理,从而进行语音交互,所述系统通过存储模块存储声纹模型、预设语音模型、预设语言模型和预设语音合成模型,以便于根据各模型进行语音交互,从而实现语音交互功能,所述系统还通过语音识别模块根据声纹模型对采集到的数字信号进行识别,以识别出用户声纹,针对用户进行语音识别,从而提高语音交互效率,并将识别为用户声纹的数字信号进行文本转换,从而对识别为用户声纹的数字信号进行处理,进一步提高语音交互效率,所述系统还通过语言处理模对文本转换后的文本内容进行语言处理,从而根据预设语言模型理解用户语音内容,实现语音交互,所述系统还通过执行操作模块根据语言处理结果对结果内容进行执行,从而响应用户语音内容,所述系统还通过语音合成模块进行语音合成,从而根据语言处理结果将处理后文本进行语音输出,实现语音交互,所述系统还通过反馈模块对语音识别过程进行调整,从而根据语音预设停留时长内相同对话的重复次数调整语音识别过程,以提高语音识别效率,从而进一步提高语音交互效率,所述系统还通过反馈模块根据反馈周期内的反馈调整次数对存储模块中的声纹模型进行反馈,从而在各模型失真时,根据用户使用的实际情况对各模型进行反馈,从而进一步提高语音交互效率。
具体而言,所述存储模块的声纹模型是指智能手环提前采集并存储的与用户声纹进行比对的,用来识别用户声纹的模型,本实施不对声纹模型的获取方式进行限定,本领域技术人员可以自由设置,只需满足对声纹模型的准确获取并存储的需求即可,如可设置数据采集、特征提取、模型训练、模型优化和验证的方式获取声纹模型,所述预设语音模型是指将识别为用户声纹的数字信号进行文本转换的模型,预设语言模型是指对文本转换后的文本内容进行自然语言处理,以理解用户的意图和命令的模型,预设语音合成模型是指将文本转换为自然流畅的语音进行输出的模型。
请参阅图2所示,其为本实施例语音识别模块的结构示意图,所述语音识别模块包括:
声纹识别单元,用以根据所述声纹模型计算采集到的数字信号的相关系数,并根据相关系数对用户声纹进行识别;
调节单元,用以根据用户使用状态设定调节系数,以对相关系数进行调节,调节单元与声纹识别单元连接;
补偿单元,用以根据用户心率计算补偿系数,以对调节系数进行补偿,补偿单元与调节单元连接;
更正单元,用以根据环境噪音强度计算更正系数,以对补偿系数进行更正,更正单元与调节单元连接;
调整单元,用以根据智能手环使用时长计算调整系数,以对更正系数进行调整,调整单元与更正单元连接;
文本转换单元,用以对识别为用户声纹的数字信号进行文本转换,文本转换单元与声纹识别单元连接。
请参阅图3所示,其为本实施例反馈控制模块的结构示意图,所述反馈控制模块包括:
误差单元,用以根据语音预设停留时长内相同对话的重复次数计算误差系数,以对语音识别过程进行调整;
校正单元,用以根据预设停留时长内相同对话的距离差值计算校正系数,以对误差系数进行校正,校正单元与误差单元连接;
修正单元,用以根据预设停留时长内相同对话的心率差值计算修正系数,以对校正系数进行修正,修正单元与校正单元连接;
反馈单元,用以根据反馈周期内的反馈调整次数判断模型状态,并根据声纹模型的模型状态,以对存储模块中的声纹模型进行反馈,反馈单元与误差单元连接。
具体而言,所述声纹识别单元将采集到的数字信号转换为特征向量,将其作为用户特征向量,并根据用户特征向量和声纹模型中预设用户声纹特征向量计算相关系数r,设定r=1-(6×Σ(d²))/(n×(n²-1)),其中,d为用户特征向量和预设用户声纹特征向量的秩次差,n为用户特征向量的长度,所述声纹识别单元将相关系数r与各预设相关系数进行比对,并根据比对结果对用户声纹进行判断,其中:
当-1≤r≤r1时,所述声纹识别单元判定该数字信号是用户声纹;
当r1<r<r2时,所述声纹识别单元判定该数字信号不是用户声纹;
当r2≤r≤1时,所述声纹识别单元判定该数字信号是用户声纹;
r1为第一预设相关系数,r2为第二预设相关系数,r1≤0≤r2。
具体而言,所述声纹识别单元通过对用户特征向量和声纹模型中预设用户声纹特征向量进行斯皮尔曼相关系数的计算,从而得到两个特征向量之间的线性相关性的度量值,以对用户声纹进行识别,对采集到的语音信号进行预处理,以提高语音识别的准确性和鲁棒性,从而提高语音交互效率。
具体而言,所述调节单元根据设置在智能手环背面的光传感器获取反射光强度A,并将反射光强度A与预设反射光强度A0进行比对,根据比对结果判断用户的使用状态,并设置调节系数,其中:
当A≤A0时,所述调节单元判定用户使用状态异常,设定调节系数B=0;
当A>A0时,所述调节单元判定用户使用状态正常,设定调节系数B=1;
所述调节单元根据调节系数B对相关系数r进行调节,调节后的相关系数为rb,设定rb=r×B。
具体而言,所述补偿单元将用户心率C与各预设心率进行比对,并根据比对结果计算补偿系数D,以对调节系数B进行补偿,其中:
当C<C1时,所述补偿单元判定用户心率异常,设定补偿系数D=1+(C1-C)/C;
当C1≤C≤C2时,所述补偿单元判定用户心率正常,不对调节系数进行补偿;
当C2<C时,所述补偿单元判定用户心率异常,设定补偿系数D=1+(C-C2)/C;
所述补偿单元根据补偿系数D对调节系数B进行补偿,补偿后的调节系数为Bd,设定Bd=D×B,C1为第一预设心率,C2为第二预设心率,0<C1<C2,本实施例不对各预设心率的取值进行限定,本领域技术人员可根据自然人的正常心率范围进行设定,如可设定第一预设心率C1=60次/分,第二预设心率C2=100次/分。
可以理解的是,本实施例不对补偿系数的计算方式作具体限定,本领域技术人员可以自由设定,只需满足补偿规律即可,如还可设置当C<C1时,补偿系数D=1+(C1-C)/(C1+C),当C2<C时,补偿系数D=1+(C-C2)/(C+C2)。
具体而言,所述补偿单元在用户心率小于第一预设心率时,设定补偿系数随着用户心率的降低而增大,以补偿用户心率在小于正常范围时的用户语音交互的变化,从而提高声纹识别的准确度,进一步提高语音交互效率,所述补偿单元在用户心率大于第二预设心率时,设定补偿系数随着用户心率的增大而增大,以补偿用户在情绪激动,心率超过正常值时用户语音交互的变化,从而提高声纹识别的准确度,进一步提高语音交互效率。
具体而言,所述更正单元将环境噪音强度E与预设环境噪音强度E0进行比对,并根据比对结果计算更正系数F,以对补偿系数D进行更正,其中:
当E<E0时,所述更正单元判定环境噪音无影响,不对补偿系数D进行更正;
当E≥E0时,所述更正单元判定环境噪音有影响,设定更正系数F=1+[1 - e-[E-E0]]/E,e为自然对数的底数,本实施例中e=2.71,所述更正单元对补偿系数D进行更正,更正后的补偿系数为Df,设定Df=F×D。
具体而言,所述环境噪音强度是指用户使用手环时所处的环境的噪音强度,本实施例不对环境噪音强度的获取方式进行限定,本领域技术人员可以自由设置,只需满足对环境噪音强度的采集需求即可,如可通过智能手环内置的声压级传感器测量声音波的压力变化来获取噪音水平的信息,并将其转化为数字信号供智能手环处理和分析。
具体而言,所述更正单元在环境噪音强度大于等于预设环境噪音强度时,设定更正系数随着环境噪音强度的增大而增大,从而使更正系数反映环境噪音强度,所述更正单元根据更正系数对补偿系数进行更正,以使更正后的补偿系数随着更正系数是增大而增大,从而根据环境噪音强度对补偿系数进行更正,提高补偿系数计算的准确性,进一步提高相关系数判断的准确性,从而提高声纹识别的准确度,进一步提高语音交互效率。
具体而言,所述调整单元将智能手环使用时长G与预设智能手环使用时长G0进行比对,并根据比对结果计算调整系数H,以对更正系数F进行调整,其中:
当G<G0时,所述调整单元判定智能手环使用时长正常,不对更正系数F进行调整;
当G≥G0时,所述调整单元判定智能手环使用时长异常,设定调整系数H=1+(G-G0)/G,并对更正系数F进行调整,调整后的更正系数F为Fh,设定Fh=F×H。
具体而言,本实施例不对预设智能手环使用时长的取值进行限定,本领域技术人员可以根据智能手环型号的使用衰减特征时长进行限定,如可设定预设智能手环使用时长G0=1年。
可以理解的是,本实施例不对调整系数的计算方式作具体限定,本领域技术人员可以自由设置,只需满足调整系数随着智能手环使用时长的增大而增大的变化规律即可,如还可设定调整系数H=1+(G-G0)/(G+G0)。
具体而言,在智能手环使用时长大于等于预设智能手环使用时长时,所述调整单元设定调整系数随着智能手环使用时长的增大而增大,以对更正系数进行调整,以使调整后的更正系数随着调整系数的增大而增大,从而根据智能手环使用时长对更正系数进行调整,提高更正系数计算的准确性,进一步提高相关系数判断的准确性,从而提高声纹识别的准确度,进一步提高语音交互效率。
具体而言,所述文本转换单元根据预设语音模型对识别为用户声纹的数字信号进行文本转换。
具体而言,所述语言处理模块将文本转换后的内容输入预设语言模型,并进行语法分析、语义理解和语言生成等语言处理操作,得到理解后的语言处理结果,所述语言处理结果是指理解用户的意图后生成的指令和文本回答,所述执行操作模块根据语言处理结果中的指令对结果内容进行执行,如指令为开启手电筒时,所述执行操作模块执行打开手电筒的指令,所述文本回答是指语言处理后得到的响应用户提问或与用户进行交互的文本回答内容,所述语音合成模块根据语言处理结果中的文本回答与预设语音合成模型进行匹配,以进行语音合成,将处理后文本进行语音输出。
具体而言,所述误差单元将重复次数n与预设重复次数n0进行比对,并根据比对结果计算误差系数J,以对语音识别过程进行调整,其中:
当n<n0时,所述误差单元判定语音识别正常,不对语音识别过程进行调整;
当n≥n0时,所述误差单元判定语音识别异常,设定误差系数J=1+(n-n0)/n,并根据误差系数J对第二预设心率C2和预设环境噪音强度E0进行调整,调整后的第二预设心率为Cj2,设定Cj2=J×C2,调整后的预设环境噪音强度为Ej0,设定Ej0=J×E0。
具体而言,所述重复次数是指用户在预设停留时长内相同对话内容的重复次数,本实施例中预设重复次数n0=2,所述预设停留时长是指智能手环采集到语音信号以后持续进行采集的时长,本实施例不对预设停留时长进行限定,本领域技术人员可以自由设置,如可设置预设停留时长为10秒,所述相同对话是指两个以上的语音内容重叠度达到70%以上的对话。
可以理解的是,本实施例不对误差系数的计算方式作具体限定,本领域技术人员可以自由设置,只需满足误差系数随着重复次数的增大而增大的变化规律即可,如还可设定误差系数J=1+(n-n0)/(n+n0)。
具体而言,在重复次数大于等于预设重复次数时,所述误差单元设定误差系数随着重复次数的增大而增大,并根据误差系数对第二预设心率和预设环境噪音强度进行调整,以使调整后的第二预设心率随着误差系数的增大而增大,调整后的预设环境噪音强度随着误差系数的增大而增大,从而根据重复次数对第二预设心率和预设环境噪音强度进行调整,从而提高用户声纹识别的准确性,进一步提高语音交互效率。
具体而言,所述校正单元将预设停留时长内相同对话的距离差值∆K与预设距离差值∆K0进行比对,并根据比对结果计算校正系数L,以对误差系数J进行校正,其中:
当∆K<∆K0时,所述校正单元判定距离差值正常,不对误差系数进行校正;
当∆K≥∆K0时,所述校正单元判定距离差值异常,并设定校正系数L=1+(∆K-∆K0)/∆K,所述校正单元根据校正系数L对误差系数J进行校正,校正后误差系数为Jk,设定Jk=L×J。
可以理解的是,本实施例不对校正系数的计算方式作具体限定,本领域技术人员可以自由设置,只需满足校正系数随着距离差值的增大而增大的变化规律即可,如还可设定校正系数L=1+(∆K-∆K0)/(∆K+∆K0)。
具体而言,在距离差值大于等于预设距离差值时,所述校正单元设定校正系数随着距离差值的增大而增大,并根据校正系数对误差系数进行校正,以使校正后误差系数随着校正系数的增大而增大,提高误差系数计算的准确性,从而提高用户声纹识别的准确性,进一步提高语音交互效率。
具体而言,所述距离差值是指用户在进行相同对话时,发声声源与智能手环的距离的差值。
具体而言,所述修正单元将预设停留时长内相同对话的心率差值∆M与预设心率差值∆M0进行比对,并根据比对结果计算修正系数P,以对校正系数L进行修正,其中:
当∆M<∆M0时,所述修正单元判定心率差值正常,不对校正系数L进行修正;
当∆M≥∆M0时,所述修正单元判定心率差值异常,设定修正系数P=1+(∆M-∆M0)/∆M,修正后校正系数为Lm,设定Lm=P×L。
可以理解的是,本实施例不对修正系数的计算方式作具体限定,本领域技术人员可以自由设置,只需满足修正系数随着心率差值∆M的增大而增大的变化规律即可,如还可设定修正系数P=1+(∆M-∆M0)/(∆M+∆M0)。
具体而言,所述反馈单元将反馈周期内的反馈调整次数Q与预设调整次数Q0进行比对,并根据比对结果判断声纹模型的模型状态,以对存储模块中的声纹模型进行反馈,其中:
当Q≤Q0时,所述反馈单元判定声纹模型的模型状态正常;
当Q>Q0时,所述反馈单元判定声纹模型的模型状态异常,对存储模块中的声纹模型进行反馈,提示用户重新录入声纹模型。
具体而言,在心率差值大于等于预设心率差值时,所述修正单元设定修正系数随着心率差值的增大而增大,以使修正后校正系数随着修正系数的增大而增大,提高误差系数计算的准确性,从而提高用户声纹识别的准确性,进一步提高语音交互效率。
具体而言,所述反馈周期是指智能手环进行语音交互的反馈周期,本实施例不对反馈周期的周期长度进行限定,本领域技术人员可根据设备需求进行设置,如可设定反馈周期为7天或30天等,所述反馈调整次数是指在反馈周期内进行调整的次数,所述声纹模型的模型状态是指声纹模型与现有用户声纹的匹配度,是否存在失真的情况。
请参阅图4所示,其为本实施例智能语音交互方法的流程示意图,所述方法包括:
步骤S1,采集语音信号,并将语音信号转换为数字信号;
步骤S2,存储用户录入的声纹模型、预设语音模型、预设语言模型和预设语音合成模型;
步骤S3,根据所述声纹模型对采集到的数字信号进行识别,并将识别为用户声纹的数字信号进行文本转换;
步骤S4,根据所述预设语言模型对文本转换后的文本内容进行语言处理;
步骤S5,根据语言处理结果对结果内容进行执行;
步骤S6,根据语言处理后的文本内容进行语音合成,并进行语音输出;
步骤S7,对语音识别过程进行调整,还用以根据反馈周期内的反馈调整次数对存储模块中的声纹模型进行反馈。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种智能语音交互系统,其特征在于,包括:
采集模块,用以采集语音信号,并将语音信号转换为数字信号;
存储模块,用以存储用户录入的声纹模型、预设语音模型、预设语言模型和预设语音合成模型;
语音识别模块,用以根据所述声纹模型对采集到的数字信号进行识别,并将识别为用户声纹的数字信号进行文本转换,语音识别模块设有声纹识别单元,其用以根据所述声纹模型计算采集到的数字信号的相关系数,并根据相关系数对用户声纹进行识别,语音识别模块还设有调节单元,其用以根据用户使用状态设定调节系数对相关系数进行调节,语音识别模块还设有补偿单元,其用以根据用户心率计算补偿系数,以对调节系数进行补偿,语音识别模块还设有更正单元,其用以根据环境噪音强度计算更正系数,以对补偿系数进行更正,语音识别模块还设有调整单元,其用以根据智能手环使用时长计算调整系数,以对更正系数进行调整,语音识别模块还设有文本转换单元,用以对识别为用户声纹的数字信号进行文本转换;
语言处理模块,用以根据所述预设语言模型对文本转换后的文本内容进行语言处理;
执行操作模块,用以根据语言处理结果对结果内容进行执行;
语音合成模块,用以根据语言处理后的文本内容进行语音合成,并进行语音输出;
反馈模块,用以对语音识别过程进行调整,还用以根据反馈周期内的反馈调整次数对存储模块中的声纹模型进行反馈,反馈模块设有误差单元,其用以根据语音预设停留时长内相同对话的重复次数计算误差系数,以对语音识别过程进行调整,反馈模块还设有校正单元,其用以根据预设停留时长内相同对话的距离差值计算校正系数,以对误差系数进行校正,反馈模块还设有修正单元,其用以根据预设停留时长内相同对话的心率差值计算修正系数,以对校正系数进行修正,反馈模块还设有反馈单元,其用以根据反馈周期内的反馈调整次数判断声纹模型的模型状态,以对存储模块中的声纹模型进行反馈。
2.根据权利要求1所述的智能语音交互系统,其特征在于,所述声纹识别单元将采集到的数字信号转换为特征向量,将其作为用户特征向量,并根据用户特征向量和声纹模型中预设用户声纹特征向量计算相关系数r,设定r=1-(6×Σ(d²))/(n×(n²-1)),其中,d为用户特征向量和预设用户声纹特征向量的秩次差,n为用户特征向量的长度,所述声纹识别单元将相关系数r与各预设相关系数进行比对,并根据比对结果对用户声纹进行判断,其中:
当相关系数大于等于-1且小于等于第一预设相关系数时,所述声纹识别单元判定该数字信号是用户声纹;
当相关系数大于第一预设相关系数且小于第二相关系数时,所述声纹识别单元判定该数字信号不是用户声纹;
当相关系数大于等于第二预设相关系数且小于等于1时,所述声纹识别单元判定该数字信号是用户声纹。
3.根据权利要求2所述的智能语音交互系统,其特征在于,所述调节单元将反射光强度与预设反射光强度进行比对,根据比对结果判断用户的使用状态,并设置调节系数,其中:
当反射光强度小于等于预设反射光强度时,所述调节单元判定用户使用状态异常,设定调节系数为0;
当反射光强度大于预设反射光强度时,所述调节单元判定用户使用状态正常,设定调节系数为1;
所述调节单元根据调节系数对相关系数进行调节,使调节后的相关系数随着用户的使用状态而变化,以在使用状态异常时不进行语音识别。
4.根据权利要求3所述的智能语音交互系统,其特征在于,所述补偿单元将用户心率与各预设心率进行比对,并根据比对结果计算补偿系数D,以对调节系数B进行补偿,其中:
当用户心率小于第一预设心率时,所述补偿单元判定用户心率异常,并设定补偿系数,以使补偿系数随着用户心率的降低而增大;
当用户心率大于等于第一预设心率且小于等于第二预设心率时,所述补偿单元判定用户心率正常,不对调节系数进行补偿;
当用户心率大于第二预设心率时,所述补偿单元判定用户心率异常,并设定补偿系数,以使补偿系数随着用户心率的增大而增大;
所述补偿单元根据补偿系数对调节系数进行补偿,以使补偿后的调节系数为随着补偿系数的增大而增大。
5.根据权利要求4所述的智能语音交互系统,其特征在于,所述更正单元将环境噪音强度与预设环境噪音强度进行比对,并根据比对结果计算更正系数,以对补偿系数进行更正,其中:
当环境噪音强度小于预设环境噪音强度时,所述更正单元判定环境噪音无影响,不对补偿系数进行更正;
当环境噪音强度大于等于预设环境噪音强度时,所述更正单元判定环境噪音有影响,设定更正系数F=1+[1 - e-[E-E0]]/E,e为自然对数的底数,所述更正单元对补偿系数D进行更正,更正后的补偿系数为Df,设定Df=F×D。
6.根据权利要求5所述的智能语音交互系统,其特征在于,所述调整单元将智能手环使用时长与预设智能手环使用时长进行比对,并根据比对结果计算调整系数,以对更正系数进行调整,其中:
当智能手环使用时长小于预设智能手环使用时长时,所述调整单元判定智能手环使用时长正常,不对更正系数进行调整;
当智能手环使用时长大于等于预设智能手环使用时长时,所述调整单元判定智能手环使用时长异常,设定调整系数,以使调整系数随着智能手环使用时长的增大而增大,所述调整单元对更正系数进行调整,以使调整后的更正系数随着调整系数的增大而增大。
7.根据权利要求1所述的智能语音交互系统,其特征在于,所述误差单元将重复次数与预设重复次数进行比对,并根据比对结果计算误差系数,以对语音识别过程进行调整,其中:
当重复次数小于预设重复次数时,所述误差单元判定语音识别正常,不对语音识别过程进行调整;
当重复次数大于等于预设重复次数时,所述误差单元判定语音识别异常,设定误差系数,以使误差系数随着重复次数的增大而增大,所述误差单元根据误差系数对第二预设心率和预设环境噪音强度进行调整,以使调整后的第二预设心率随着误差系数的增大而增大,调整后的预设环境噪音强度随着误差系数的增大而增大。
8.根据权利要求7所述的智能语音交互系统,其特征在于,所述校正单元将预设停留时长内相同对话的距离差值与预设距离差值进行比对,并根据比对结果计算校正系数L,以对误差系数J进行校正,其中:
当距离差值小于预设距离差值时,所述校正单元判定距离差值正常,不对误差系数进行校正;
当距离差值大于等于预设距离差值时,所述校正单元判定距离差值异常,并设定校正系数,以使校正系数随着距离差值的增大而增大,所述校正单元根据校正系数对误差系数进行校正,以使校正后误差系数随着校正系数的增大而增大。
9.根据权利要求8所述的智能语音交互系统,其特征在于,所述修正单元将预设停留时长内相同对话的心率差值与预设心率差值进行比对,并根据比对结果计算修正系数,以对校正系数进行修正,其中:
当心率差值小于预设心率差值时,所述修正单元判定心率差值正常,不对校正系数进行修正;
当心率差值大于等于预设心率差值时,所述修正单元判定心率差值异常,设定修正系数,以使修正系数随着心率差值的增大而增大,以使修正后校正系数随着修正系数的增大而增大。
10.一种智能语音交互方法,应用于如权利要求1-9任一项所述的智能语音交互系统,其特征在于,包括:
步骤S1,采集语音信号,并将语音信号转换为数字信号;
步骤S2,存储用户录入的声纹模型、预设语音模型、预设语言模型和预设语音合成模型;
步骤S3,根据所述声纹模型对采集到的数字信号进行识别,并将识别为用户声纹的数字信号进行文本转换;
步骤S4,根据所述预设语言模型对文本转换后的文本内容进行语言处理;
步骤S5,根据语言处理结果对结果内容进行执行;
步骤S6,根据语言处理后的文本内容进行语音合成,并进行语音输出;
步骤S7,对语音识别过程进行调整,还用以根据反馈周期内的反馈调整次数对存储模块中的声纹模型进行反馈。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310868084.XA CN116597839B (zh) | 2023-07-17 | 2023-07-17 | 一种智能语音交互系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310868084.XA CN116597839B (zh) | 2023-07-17 | 2023-07-17 | 一种智能语音交互系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116597839A true CN116597839A (zh) | 2023-08-15 |
CN116597839B CN116597839B (zh) | 2023-09-19 |
Family
ID=87599454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310868084.XA Active CN116597839B (zh) | 2023-07-17 | 2023-07-17 | 一种智能语音交互系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116597839B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107342076A (zh) * | 2017-07-11 | 2017-11-10 | 华南理工大学 | 一种兼容非常态语音的智能家居控制系统及方法 |
US20180068103A1 (en) * | 2015-03-20 | 2018-03-08 | Aplcomp Oy | Audiovisual associative authentication method, related system and device |
US20180293981A1 (en) * | 2017-04-07 | 2018-10-11 | Google Inc. | Multi-user virtual assistant for verbal device control |
WO2019051668A1 (zh) * | 2017-09-13 | 2019-03-21 | 深圳传音通讯有限公司 | 一种智能终端的启动控制方法及启动控制系统 |
CN111063360A (zh) * | 2020-01-21 | 2020-04-24 | 北京爱数智慧科技有限公司 | 一种声纹库的生成方法和装置 |
CN112820291A (zh) * | 2021-01-08 | 2021-05-18 | 广州大学 | 智能家居控制方法、系统和存储介质 |
CN214226506U (zh) * | 2020-12-31 | 2021-09-17 | 珠海市杰理科技股份有限公司 | 声音处理电路、电声器件和声音处理系统 |
CN113593581A (zh) * | 2021-07-12 | 2021-11-02 | 西安讯飞超脑信息科技有限公司 | 声纹判别方法、装置、计算机设备和存储介质 |
CN113643707A (zh) * | 2020-04-23 | 2021-11-12 | 华为技术有限公司 | 一种身份验证方法、装置和电子设备 |
CN114023315A (zh) * | 2021-11-24 | 2022-02-08 | 北京有竹居网络技术有限公司 | 语音的识别方法、装置、可读介质和电子设备 |
WO2022236827A1 (zh) * | 2021-05-14 | 2022-11-17 | 华为技术有限公司 | 一种声纹管理方法及装置 |
-
2023
- 2023-07-17 CN CN202310868084.XA patent/CN116597839B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180068103A1 (en) * | 2015-03-20 | 2018-03-08 | Aplcomp Oy | Audiovisual associative authentication method, related system and device |
US20180293981A1 (en) * | 2017-04-07 | 2018-10-11 | Google Inc. | Multi-user virtual assistant for verbal device control |
CN107342076A (zh) * | 2017-07-11 | 2017-11-10 | 华南理工大学 | 一种兼容非常态语音的智能家居控制系统及方法 |
WO2019051668A1 (zh) * | 2017-09-13 | 2019-03-21 | 深圳传音通讯有限公司 | 一种智能终端的启动控制方法及启动控制系统 |
CN111063360A (zh) * | 2020-01-21 | 2020-04-24 | 北京爱数智慧科技有限公司 | 一种声纹库的生成方法和装置 |
CN113643707A (zh) * | 2020-04-23 | 2021-11-12 | 华为技术有限公司 | 一种身份验证方法、装置和电子设备 |
CN214226506U (zh) * | 2020-12-31 | 2021-09-17 | 珠海市杰理科技股份有限公司 | 声音处理电路、电声器件和声音处理系统 |
CN112820291A (zh) * | 2021-01-08 | 2021-05-18 | 广州大学 | 智能家居控制方法、系统和存储介质 |
WO2022236827A1 (zh) * | 2021-05-14 | 2022-11-17 | 华为技术有限公司 | 一种声纹管理方法及装置 |
CN113593581A (zh) * | 2021-07-12 | 2021-11-02 | 西安讯飞超脑信息科技有限公司 | 声纹判别方法、装置、计算机设备和存储介质 |
CN114023315A (zh) * | 2021-11-24 | 2022-02-08 | 北京有竹居网络技术有限公司 | 语音的识别方法、装置、可读介质和电子设备 |
Non-Patent Citations (2)
Title |
---|
DZATI ATHIAR RAMLI ET AL: "Preprocessing Techniques for Voice-Print Analysis for Speaker Recognition", 2007 5TH STUDENT CONFERENCE ON RESEARCH AND DEVELOPMENT * |
郑方;李蓝天;张慧;艾斯卡尔・肉孜;: "声纹识别技术及其应用现状", 信息安全研究, no. 01 * |
Also Published As
Publication number | Publication date |
---|---|
CN116597839B (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3697748B2 (ja) | 端末、音声認識装置 | |
TW396699B (en) | Communication device responsive to spoken commands and method of using same | |
CN106920548B (zh) | 语音控制装置、语音控制系统和语音控制方法 | |
EP1517298B1 (en) | Speaking period detection based on electromyography | |
EP1538865B1 (en) | Microphone and communication interface system | |
US8566094B2 (en) | Information processing apparatus, information processing method, and program | |
EP3716266B1 (en) | Artificial intelligence device and method of operating artificial intelligence device | |
US11705105B2 (en) | Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same | |
US8996373B2 (en) | State detection device and state detecting method | |
US9672809B2 (en) | Speech processing device and method | |
EP2711923B1 (en) | Methods and systems for assessing and improving the performance of a speech recognition system | |
US6721698B1 (en) | Speech recognition from overlapping frequency bands with output data reduction | |
US11398219B2 (en) | Speech synthesizer using artificial intelligence and method of operating the same | |
WO2007063827A1 (ja) | 声質変換システム | |
US11200888B2 (en) | Artificial intelligence device for providing speech recognition function and method of operating artificial intelligence device | |
US20210327407A1 (en) | Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium | |
CN111179927A (zh) | 一种金融设备语音交互方法以及系统 | |
KR20210076921A (ko) | 음성 분석을 통한 폐 용적 추정 | |
US11776557B2 (en) | Automatic interpretation server and method thereof | |
CN116597839B (zh) | 一种智能语音交互系统及方法 | |
US8935168B2 (en) | State detecting device and storage medium storing a state detecting program | |
US20040117181A1 (en) | Method of speaker normalization for speech recognition using frequency conversion and speech recognition apparatus applying the preceding method | |
EP1336947B1 (en) | Learning method and device, mobile communication terminal and information recognition system based on the analysis of user articulation movements during speech | |
US11393447B2 (en) | Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium | |
US11227578B2 (en) | Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |