CN116844555A - 车辆语音交互的方法及装置、车辆、电子设备和存储介质 - Google Patents
车辆语音交互的方法及装置、车辆、电子设备和存储介质 Download PDFInfo
- Publication number
- CN116844555A CN116844555A CN202210302739.2A CN202210302739A CN116844555A CN 116844555 A CN116844555 A CN 116844555A CN 202210302739 A CN202210302739 A CN 202210302739A CN 116844555 A CN116844555 A CN 116844555A
- Authority
- CN
- China
- Prior art keywords
- voiceprint
- personalized
- voice
- interaction
- vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 145
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000012549 training Methods 0.000 claims description 41
- 230000008569 process Effects 0.000 claims description 14
- 230000008451 emotion Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 18
- 238000012545 processing Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
本公开公开了车辆语音交互的方法及装置、车辆、电子设备和存储介质,涉及车辆技术领域,主要技术方案包括:对采集到的语音信息进行分析,并提取所述语音信息中的第一声纹特征,将所述第一声纹特征与预设注册声纹库中第二声纹特征进行比对,将所述第二声纹特征中、与所述第一声纹特征的相似度高于预设相似阈值的声纹特征,确定为已注册声纹特征,根据所述已注册声纹特征获取对应的个性化交互策略,并根据所述个性化交互策略执行语音交互。基于声纹识别技术,在用户唤醒车辆语音交互系统时,通过识别用户的声纹特征确认用户的身份,获取用户个性化的交互声音来进行人机交互,以满足用户的个性化需求。
Description
技术领域
本公开涉及车辆技术领域,具体涉及一种车辆语音交互的方法及装置、电子设备和存储介质。
背景技术
随着车辆技术的发展,语音交互技术已经应用于越来越多的智能车辆领域,语音控制的方式为行车提供更多的便利。目前,车辆启动后,用户在车内说出特定的关键词,可唤醒车辆的语音交互系统,即可通过语音指令控制汽车状态以及车机系统,例如,语音控制打开车窗、播放音乐、地图导航等操作。
上述车辆的语音交互技术虽然能够增加用车便利,但是在与车辆语音交互过程中,车辆输出较为单一的语音回复或输出较为单一的操作反馈的语音提示,忽略了用户的个性化语音交互需求。
发明内容
本公开提供了一种车辆语音交互的方法及装置、电子设备和存储介质。
根据本公开的第一方面,提供了一种车辆语音交互的方法,包括:
对采集到的语音信息进行分析,并提取所述语音信息中的第一声纹特征;
将所述第一声纹特征与预设注册声纹库中第二声纹特征进行比对;
将所述第二声纹特征中、与所述第一声纹特征的相似度高于预设相似阈值的声纹特征,确定为已注册声纹特征;
根据所述已注册声纹特征获取对应的个性化交互策略,并根据所述个性化交互策略执行语音交互。
可选的,所述个性化交互策略包括个性化声音,在根据所述已注册声纹特征获取对应的个性化交互策略之前,所述方法还包括:
获取已注册声纹特征对应的声纹ID;
根据所述声纹ID获取设定的个性化音色、个性化情感及个性化发音口音中的至少一种;
将所述个性化音色、个性化情感及个性化发音口音中的至少一种输入声音及话术训练模型,以获取所述声音及话术训练模型训练得到的所述个性化声音。
可选的,所述个性化交互策略包括个性化回复话术,在根据所述已注册声纹特征获取对应的个性化交互策略之前,所述方法还包括:
根据已注册声纹特征对应的声纹ID,获取相关的画像信息、语音交互习惯及语音控制历史记录中的至少一种;
将所述画像信息、语音交互习惯及语音控制历史记录中的至少一种信息,输入声音及话术训练模型,以获取所述声音及话术训练模型训练得到的所述个性化回复话术。
可选的,所述方法还包括:
响应于声音录入请求,接收基于车载麦克风采集的第二唤醒指令;
对所述第二唤醒指令中的唤醒关键词进行判断;
若录入正确的唤醒关键词,则提取所述第二唤醒指令的第三声纹特征;
生成与所述第三声纹特征对应的声纹ID,并建立所述声纹ID与所述个性化声音之间的对应关系,并将其存入所述预设注册声纹库中。
可选的,所述将所述第二声纹特征中、与所述第一声纹特征的相似度高于预设相似阈值的声纹特征,确定为已注册声纹特征方法还包括:
若所述第二声纹特征中不存在与所述第一声纹特征的相似度高于所述预设相似阈值的声纹特征,则确定为未注册声纹特征;
与未注册声纹的用户,使用通用声音执行语音交互。
可选的,所述根据所述个性化交互策略执行语音交互包括:
使用个性化声音和/或个性化回复话术执行语音交互。
根据本公开的第二方面,提供了一种车辆语音交互的装置,所述装置应用于车辆的语音交互过程中,包括:
分析单元,用于对采集到的语音信息进行分析;
第一提取单元,用于提取所述语音信息中的第一声纹特征;
比对单元,用于将所述第一声纹特征与预设注册声纹库中第二声纹特征进行比对;
确定单元,用于将所述第二声纹特征中、与所述第一声纹特征的相似度高于预设相似阈值的声纹特征,确定为已注册声纹特征;
第一获取单元,用于根据所述已注册声纹特征获取对应的个性化交互策略;
交互单元,用于根据所述个性化交互策略执行语音交互。
可选的,所述个性化交互策略包括个性化声音,所述装置还包括:
第二获取单元,用于在所述第一获取单元根据所述已注册声纹特征获取对应的个性化交互策略之前,获取已注册声纹特征对应的声纹ID;
第三获取单元,用于根据所述声纹ID获取设定的个性化音色、个性化情感及个性化发音口音中的至少一种;
第一输入单元,用于将所述个性化音色、个性化情感及个性化发音口音中的至少一种输入声音及话术训练模型,以获取所述声音及话术训练模型训练得到的所述个性化声音。
可选的,所述个性化交互策略包括个性化回复话术,所述装置还包括:
第四获取单元,用于在所述第一获取单元根据所述已注册声纹特征获取对应的个性化交互策略之前,根据已注册声纹特征对应的声纹ID,获取相关的画像信息、语音交互习惯及语音控制历史记录中的至少一种;
第二输入单元,用于将所述画像信息、语音交互习惯及语音控制历史记录中的至少一种信息,输入声音及话术训练模型,以获取所述声音及话术训练模型训练得到的所述个性化回复话术。
可选的,所述装置还包括:
接收单元,用于响应于声音录入请求,接收基于车载麦克风采集的第二唤醒指令;
判断单元,用于对所述第二唤醒指令中的唤醒关键词进行判断;
第二提取单元,用于当录入正确的唤醒关键词时,提取所述第二唤醒指令的第三声纹特征;
生成单元,用于生成与所述第三声纹特征对应的声纹ID,并建立所述声纹ID与所述个性化声音之间的对应关系,并将其存入所述预设注册声纹库中。
可选的,所述确定单元包括:
确定模块,用于当所述第二声纹特征中不存在与所述第一声纹特征的相似度高于所述预设相似阈值的声纹特征时,确定为未注册声纹特征;
交互模块,用于与未注册声纹的用户,使用通用声音执行语音交互。
可选的,所述交互单元,还用于使用个性化声音和/或个性化回复话术执行语音交互。
本公开的第三方面,提供了一种车辆,所述车辆包括前述第二方面所述的车辆座椅的调整装置。
根据本公开的第四方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述第一方面所述的方法。
根据本公开的第五方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行前述第一方面所述的方法。
根据本公开的第六方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如前述第一方面所述的方法。
本公开提供的车辆语音交互的方法及装置、车辆、电子设备和存储介质,首先,对采集到的语音信息进行分析,并提取所述语音信息中的第一声纹特征,其次,将所述第一声纹特征与预设注册声纹库中第二声纹特征进行比对,将所述第二声纹特征中、与所述第一声纹特征的相似度高于预设相似阈值的声纹特征,确定为已注册声纹特征,最后,根据所述已注册声纹特征获取对应的个性化交互策略,并根据所述个性化交互策略执行语音交互。与相关技术相比,本申请实施例基于声纹识别技术,在用户唤醒车辆语音交互系统时,通过识别用户的声纹特征来确认用户的身份,获取该用户个性化的交互声音,执行人机语音交互,以满足用户的个性化需求。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例所提供的一种车辆语音交互的方法的流程示意图;
图2为本申请实施例所提供的一种生成个性化声音及个性化回复话术的方法的流程示意图;
图3为本申请实施例所提供的一种分析语音数据方法的流程示意图;
图4为本申请实施例所提供的一种注册用户声纹的方法的流程示意图;
图5为本公开实施例提供的一种车辆语音交互的装置的结构示意图;
图6为本公开实施例提供的另一种车辆语音交互的装置的结构示意图;
图7为本公开实施例提供的示例电子设备600的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参考附图描述本公开实施例的车辆语音交互的方法及装置、电子设备和存储介质。
图1为本公开实施例所提供的一种车辆语音交互的方法的流程示意图。如图1所示,该方法包含以下步骤:
步骤101,对采集到的语音信息进行分析,并提取所述语音信息中的第一声纹特征。
车辆基于车载麦克风实时或者按照预设采集周期(如十分钟),采集车内的语音信息,并对采集到的语音信息进行解析,得到车机能够识别的声音信号,从该声音信号中提取其携带的信息,该些携带的信息中包含有第一声纹特征。
不同用户在讲话时的共鸣方式特征、嗓音纯度特征、平均音高特征与音域特征不同,因此不同用户的声音在语谱图中共振峰的分布情况不同,所述第一声纹特征即为用户的声音在语谱图中共振峰的分布特征。
步骤102,将所述第一声纹特征与预设注册声纹库中第二声纹特征进行比对。
所述预设注册声纹库中的第二声纹特征为所有的已注册的声纹特征,其可能为一个,也可能为两个或多个,本申请实施例对预设注册声纹库中的注册声纹特征数量不进行限定。
在进行比对过程中,可从预设注册声纹库中的首位声纹特征开始执行与第一声纹特征的比对,依次轮询完所有的第二声纹特征。
需要说明的是,所述第一声纹特征是为了便于与其他声纹特征进行区别,本申请实施例中采用第一、第二、第三这种撰写方式,该种撰写方式仅为了区分不同的声纹特征,而非是对声纹特征顺序或者声纹特征优先级的具体限定。
步骤103,将所述第二声纹特征中、与所述第一声纹特征的相似度高于预设相似阈值的声纹特征,确定为已注册声纹特征。
步骤102在执行比对过程中,针对每次执行第一声纹特征与第二声纹特征的比对,均会产生两者比对的相似度,在确认第一声纹特征是否为已注册声纹特征时,主要依赖于两者相似度的高低。
可通过设置预设相似阈值的方式,来界定第一声纹特征与第二声纹特征的相似度,若预设相似阈值设置为100%,则代表第一声纹特征与第二声纹特征必须完全相同,实际应用中,同一人可能在不同时期下的声纹会存在一定差异,若将预设相似阈值设置的过高(如100%),则导致在基于声纹特征确认用户身份时,出现无法确认的情况。若预设相似阈值设置为10%,设置的过低,可能会出现基于该预设相似阈值同时确认出多个用户的情景,会降低用户的用车语音交互体验。
因此,在设置预设相似阈值时,可设置为85%,或90%等,预设相似阈值为一经验值,可根据自身的需求灵活设定,本申请实施例对预设相似阈值的数值不进行限定。
在实际应用中,若在预设声纹库中同时有多个已注册声纹与所述第一声纹特征的相似度高于预设相似阈值,则可以将多个已注册声纹根据相似度高低进行排名,并确定与所述第一声纹特征与相似度最高的已注册声纹特征为同一声纹特征。
步骤104,根据所述已注册声纹特征获取对应的个性化交互策略,并根据所述个性化交互策略执行语音交互。
在预设注册声纹库中,每个第二声纹特征分别对应唯一的个性化交互策略,因此在基于步骤103确认出与第一声纹特征对应的第二声纹特征后,直接获取与第二声纹特征对应的个性化交互策略,并基于该个性化交互策略执行与用户的语音交互。本申请实施例所述的个性化交互策略包括个性化声音、个性化回复话术、个性化视频、个性化音乐、个性化路线中的至少一种,后续实施例以个性化交互策略包括个性化声音、个性化回复话术为例进行说明,有关个性化视频、个性化音乐、个性化路线的实现方式,与个性化声音、个性化回复话术的现实方式相似,本申请实施例对此不进行重复说明。但是,应当明确的是该种说明方式并非意在限定。
本公开提供的车辆语音交互的方法,首先,对采集到的语音信息进行分析,并提取所述语音信息中的第一声纹特征,其次,将所述第一声纹特征与预设注册声纹库中第二声纹特征进行比对,将所述第二声纹特征中、与所述第一声纹特征的相似度高于预设相似阈值的声纹特征,确定为已注册声纹特征,最后,根据所述已注册声纹特征获取对应的个性化交互策略,并根据所述个性化交互策略执行语音交互。与相关技术相比,本申请实施例基于声纹识别技术,在用户唤醒车辆语音交互系统时,通过识别用户的声纹特征来确认用户的身份,获取该用户个性化的交互声音,执行人机语音交互,以满足用户的个性化需求。
作为对上述申请实施例的进一步扩展,在所述第一声纹特征与预设注册声纹库中第二声纹特征进行比对时,若所述第二声纹特征中不存在与所述第一声纹特征的相似度高于所述预设相似阈值的声纹特征,则确定为未注册声纹特征;针对未注册声纹的用户,使用通用声音执行语音交互。
作为对上述申请实施例的细化,本申请实施例中所述的个性化交互策略包括个性化声音及个性化回复话术为例进行说明。作为对上述申请实施例的细化,本实施例提供了一种个性化回复话术的生成方法,如图2所示,图2为本申请实施例提供的一种个性化回复话术的生成方法的流程图,包括:
步骤201,获取已注册声纹特征对应的声纹ID。
所述声纹ID用于获取与注册声纹特征相关的唯一用户信息标识。在注册声纹成功后,便生成。
步骤202,根据所述声纹ID获取相关的画像信息、语音交互习惯及语音控制历史记录中的至少一种。
用户在车辆语音交互系统内注册声纹特征后,车辆会记录该用户与车机进行语音交互的所有语音信息,并根据更新的语音信息进行不断地学习、训练,不断完善画像信息及语音交互习惯,使车辆为乘客个性化的声音特点更符合用户的个性化需求。
语音交互习惯包括习惯用词、语速等信息;画像信息即为抽象的用户的信息全貌,其中包含了用户的性别、年龄、喜好等用户特征。
所述注册声纹信息及声纹ID相关的画像信息、语音交互习惯、语音控制历史记录及根据上述信息得出的用户个性化声音和个性化回复话术全部保存在车辆本地的系统,以保证用户的隐私安全。
步骤203,将所述画像信息、语音交互习惯及语音控制历史记录中的至少一种信息,输入声音及话术训练模型,以获取所述声音及话术训练模型训练得到的所述个性化回复话术。
通过声音及话术训练模型,对用户的发音特点、口音,如:方言、普通话、音量、语速、等口音进行模拟训练,提升对用户语言的识别率。
该训练过程是一个迭代训练过程,即可以根据用户最新的语音交互习惯及语音控制历史记录重新对个性化声音进行训练,以适应用户的语音习惯,进一步增强了用户体验。
与图2所示的个性化回复话术一致的训练方式,还包括针对个性化声音的训练,具体过程包括:首先获取已注册声纹特征对应的声纹ID,其次,根据所述声纹ID获取设定的个性化音色、个性化情感及个性化发音口音中的至少一种,最后,将所述个性化音色、个性化情感及个性化发音口音中的至少一种输入声音及话术训练模型,以获取所述声音及话术训练模型训练得到的所述个性化声音。作为本申请实施例的一种可实现方式,用户可以提前录入个性化音色、个性化情感及个性化发音口音,作为另一种可实现方式,针对个性化音色、个性化情感及个性化发音口音,由车辆分别给出的多个选项,供用户选择,将最终录入或者选定的个性化音色、个性化情感及个性化发音口音中的至少一种输入声音及话术训练模型。
上述实施例给出的是基于声音及话术训练模型分别对个性化声音及个性化回复话术,进行单独训练的过程,在实际应用中,可以将个性化音色、个性化情感及个性化发音口音,画像信息、语音交互习惯及语音控制历史记录全部输入到声音及话术训练模型中,以便同时对个性化语音及个性化回复话术进行训练。本申请实施例对训练的具体实现方式及过程不进行限定。
上述对个性化声音和个性化回复话术的训练过程在用户唤醒车辆交互系统之前完成,使得语音在交互时可通过声纹ID获取训练后的个性化声音及个性化回复话术。
图1所示的方法,为基于语音信息的匹配,查找与其第一声纹特征对应的个性化声音,本申请实施例在执行时,可通过增加唤醒车辆语音交互系统的操作,如图3所述,图3为本申请实施例提供的一种分析语音数据方法的流程示意图,包括:
步骤301,基于车载麦克风采集所述语音数据,并检测所述语音数据中是否存在第一唤醒指令。
车辆启动后,即基于车载麦克风实时采集语音数据并实时检测所述语音数据中是否包含第一唤醒指令;所述第一唤醒指令可以为一句话,或几个词,实际应用中,用户可根据自身喜好需求进行设置第一唤醒指令,本申请实施例对唤醒指令的内容不进行具体限定;重新设置第一唤醒指令后也需在车辆语音交互系统内重新录制声纹特征。
步骤302,若确定存在所述第一唤醒指令,则响应于所述第一唤醒指令,唤醒车辆语音交互系统。
唤醒车辆语音交互系统后,将所述第一唤醒指令送入下一步骤执行第一声纹特征的提取。
步骤303,若确定不存在所述第一唤醒指令,则忽略所述语音数据。
循环执行上述步骤,直至检测到第一唤醒指令为止。
为了对不同的用户制定个性化交互策略,在执行本申请实施例之前,需完成用户信息的注册,以便后续根据该注册的用户信息生成并使用个性化声音,图4为本申请实施例所提供的一种注册用户声纹的方法的流程示意图,如图4所示,包括:
步骤401,响应于声音录入请求,接收基于车载麦克风采集的第二唤醒指令。
用户需录入声纹特征时,可在车辆中控操作面板上进入声纹注册系统,声纹注册系统会引导用户录入3~5次第二唤醒指令,确保提取的声纹特征的准确性。需要说明的是,所述3~5次只是示范性的说明,本申请实施例对录入唤醒指令的次数不做限定。
步骤402,对所述第二唤醒指令中的唤醒关键词进行判断。
第二唤醒指令录制完成后,车辆会对录入的唤醒指令进行检测,检测录制环境是否有杂音、检测唤醒关键词是否录入正确。若录入正确的唤醒关键词,则执行步骤403;若录入的唤醒关键词不正确,则执行步骤405。
步骤403,提取所述第二唤醒指令的第三声纹特征。
当检测唤醒关键词录入正确、环境噪音不会对提取声纹特征有影响时,提取第二唤醒指令的第三声纹特征,并将第三声纹特征与注册声纹库中的声纹特征进行对比,若存在相似度高于预设相似阈值的声纹特征,则引导用户重新录制,确保注册声纹的唯一性;若不存在相似度高于预设相似阈值的声纹特征,则执行步骤404。
步骤404,生成与所述第三声纹特征对应的声纹ID,并建立所述声纹ID与所述个性化声音之间的对应关系,并将其存入所述预设注册声纹库中。
所述个性化声音为步骤203中训练得到的个性化声音,
步骤405,提醒用户重新录入。
当检测唤醒关键词录入不正确或环境噪音会对提取声纹特征有影响时,引导用户重新进行录制。
图5为本公开实施例提供的一种车辆语音交互的装置的结构示意图,如图5所示,包括:
分析单元51,用于对采集到的语音信息进行分析;
第一提取单元52,用于提取所述语音信息中的第一声纹特征;
比对单元53,用于将所述第一声纹特征与预设注册声纹库中第二声纹特征进行比对;
确定单元54,用于将所述第二声纹特征中、与所述第一声纹特征的相似度高于预设相似阈值的声纹特征,确定为已注册声纹特征;
第一获取单元55,用于根据所述已注册声纹特征获取对应的个性化交互策略;
交互单元56,用于根据所述个性化交互策略执行语音交互。
本公开提供的车辆语音交互的装置,首先,对采集到的语音信息进行分析,并提取所述语音信息中的第一声纹特征,其次,将所述第一声纹特征与预设注册声纹库中第二声纹特征进行比对,将所述第二声纹特征中、与所述第一声纹特征的相似度高于预设相似阈值的声纹特征,确定为已注册声纹特征,最后,根据所述已注册声纹特征获取对应的个性化交互策略,并根据所述个性化交互策略执行语音交互。与相关技术相比,本申请实施例基于声纹识别技术,在用户唤醒车辆语音交互系统时,通过识别用户的声纹特征来确认用户的身份,获取该用户个性化的交互声音,执行人机语音交互,以满足用户的个性化需求。
进一步地,在本实施例一种可能的实现方式中,如图6所示,所述个性化交互策略包括个性化声音,所述装置还包括:
第二获取单元57,用于在所述第一获取单元根据所述已注册声纹特征获取对应的个性化交互策略之前,获取已注册声纹特征对应的声纹ID;
第三获取单元58,用于根据所述声纹ID获取设定的个性化音色、个性化情感及个性化发音口音中的至少一种;
第一输入单元59,用于将所述个性化音色、个性化情感及个性化发音口音中的至少一种输入声音及话术训练模型,以获取所述声音及话术训练模型训练得到的所述个性化声音。
进一步地,在本实施例一种可能的实现方式中,如图6所示,所述个性化交互策略包括个性化回复话术,所述装置还包括:
第四获取单元510,用于在所述第一获取单元55根据所述已注册声纹特征获取对应的个性化交互策略之前,根据已注册声纹特征对应的声纹ID,获取相关的画像信息、语音交互习惯及语音控制历史记录中的至少一种;
第二输入单元511,用于将所述画像信息、语音交互习惯及语音控制历史记录中的至少一种信息,输入声音及话术训练模型,以获取所述声音及话术训练模型训练得到的所述个性化回复话术。
进一步地,在本实施例一种可能的实现方式中,如图6所示,所述装置还包括:
接收单元512,用于响应于声音录入请求,接收基于车载麦克风采集的第二唤醒指令;
判断单元513,用于对所述第二唤醒指令中的唤醒关键词进行判断;
第二提取单元514,用于当录入正确的唤醒关键词时,提取所述第二唤醒指令的第三声纹特征;
生成单元515,用于生成与所述第三声纹特征对应的声纹ID,并建立所述声纹ID与所述个性化声音之间的对应关系,并将其存入所述预设注册声纹库中。
进一步地,在本实施例一种可能的实现方式中,如图6所示,所述确定单元54包括:
确定模块541,用于当所述第二声纹特征中不存在与所述第一声纹特征的相似度高于所述预设相似阈值的声纹特征时,确定为未注册声纹特征;
交互模块542,用于与未注册声纹的用户,使用通用声音执行语音交互。
进一步的,在本申请的一种实现方式中,所述交互单元56还用于使用所述个性化声音及所述个性化回复话术执行语音交互。
需要说明的是,前述对方法实施例的解释说明,也适用于本实施例的装置,原理相同,本实施例中不再限定。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备600包括计算单元601,其可以根据存储在ROM(Read-OnlyMemory,只读存储器)602中的计算机程序或者从存储单元608加载到RAM(Random AccessMemory,随机访问/存取存储器)603中的计算机程序,来执行各种适当的动作和处理。在RAM603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。I/O(Input/Output,输入/输出)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于CPU(Central Processing Unit,中央处理单元)、GPU(Graphic Processing Units,图形处理单元)、各种专用的AI(Artificial Intelligence,人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor,数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如车辆语音交互的方法。例如,在一些实施例中,车辆语音交互的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行前述车辆语音交互的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array,现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit,专用集成电路)、ASSP(Application Specific StandardProduct,专用标准产品)、SOC(System On Chip,芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device,复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory,可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory,便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(Cathode-Ray Tube,阴极射线管)或者LCD(Liquid Crystal Display,液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:LAN(LocalArea Network,局域网)、WAN(Wide Area Network,广域网)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
其中,需要说明的是,人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (11)
1.一种车辆语音交互的方法,其特征在于,所述方法应用于车辆的语音交互过程中,包括:
对采集到的语音信息进行分析,并提取所述语音信息中的第一声纹特征;
将所述第一声纹特征与预设注册声纹库中第二声纹特征进行比对;
将所述第二声纹特征中、与所述第一声纹特征的相似度高于预设相似阈值的声纹特征,确定为已注册声纹特征;
根据所述已注册声纹特征获取对应的个性化交互策略,并根据所述个性化交互策略执行语音交互。
2.根据权利要求1所述的车辆语音交互的方法,其特征在于,所述个性化交互策略包括个性化声音,在根据所述已注册声纹特征获取对应的个性化交互策略之前,所述方法还包括:
获取已注册声纹特征对应的声纹ID;
根据所述声纹ID获取设定的个性化音色、个性化情感及个性化发音口音中的至少一种;
将所述个性化音色、个性化情感及个性化发音口音中的至少一种输入声音及话术训练模型,以获取所述声音及话术训练模型训练得到的所述个性化声音。
3.根据权利要求1所述的车辆语音交互方法,其特征在于,所述个性化交互策略包括个性化回复话术,在根据所述已注册声纹特征获取对应的个性化交互策略之前,所述方法还包括:
根据已注册声纹特征对应的声纹ID,获取相关的画像信息、语音交互习惯及语音控制历史记录中的至少一种;
将所述画像信息、语音交互习惯及语音控制历史记录中的至少一种信息,输入声音及话术训练模型,以获取所述声音及话术训练模型训练得到的所述个性化回复话术。
4.根据权利要求2或3所述的车辆语音交互的方法,其特征在于,所述方法还包括:
响应于声音录入请求,接收基于车载麦克风采集的第二唤醒指令;
对所述第二唤醒指令中的唤醒关键词进行判断;
若录入正确的唤醒关键词,则提取所述第二唤醒指令的第三声纹特征;
生成与所述第三声纹特征对应的声纹ID,并建立所述声纹ID与所述个性化声音之间的对应关系,并将其存入所述预设注册声纹库中。
5.根据权利要求1所述的车辆语音交互的方法,其特征在于,所述将所述第二声纹特征中、与所述第一声纹特征的相似度高于预设相似阈值的声纹特征,确定为已注册声纹特征方法还包括:
若所述第二声纹特征中不存在与所述第一声纹特征的相似度高于所述预设相似阈值的声纹特征,则确定为未注册声纹特征;
与未注册声纹的用户,使用通用交互策略执行语音交互。
6.根据权利要求2所述的车辆语音交互的方法,其特征在于,所述根据所述个性化交互策略执行语音交互包括:
使用个性化声音和/或个性化回复话术执行语音交互。
7.一种车辆语音交互的装置,其特征在于,所述装置应用于车辆的语音交互过程中,包括:
分析单元,用于对采集到的语音信息进行分析;
第一提取单元,用于提取所述语音信息中的第一声纹特征;
比对单元,用于将所述第一声纹特征与预设注册声纹库中第二声纹特征进行比对;
确定单元,用于将所述第二声纹特征中、与所述第一声纹特征的相似度高于预设相似阈值的声纹特征,确定为已注册声纹特征;
第一获取单元,用于根据所述已注册声纹特征获取对应的个性化交互策略;
交互单元,用于根据所述个性化交互策略执行语音交互。
8.一种车辆,其特征在于,所述车辆包括如权利要求7所述的车辆座椅的调整装置。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。
11.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210302739.2A CN116844555A (zh) | 2022-03-24 | 2022-03-24 | 车辆语音交互的方法及装置、车辆、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210302739.2A CN116844555A (zh) | 2022-03-24 | 2022-03-24 | 车辆语音交互的方法及装置、车辆、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116844555A true CN116844555A (zh) | 2023-10-03 |
Family
ID=88167617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210302739.2A Pending CN116844555A (zh) | 2022-03-24 | 2022-03-24 | 车辆语音交互的方法及装置、车辆、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116844555A (zh) |
-
2022
- 2022-03-24 CN CN202210302739.2A patent/CN116844555A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11735176B2 (en) | Speaker diarization using speaker embedding(s) and trained generative model | |
US11062699B2 (en) | Speech recognition with trained GMM-HMM and LSTM models | |
US9589564B2 (en) | Multiple speech locale-specific hotword classifiers for selection of a speech locale | |
CN109686383B (zh) | 一种语音分析方法、装置及存储介质 | |
US20200219487A1 (en) | Information processing apparatus and information processing method | |
EP3593346B1 (en) | Graphical data selection and presentation of digital content | |
US11676572B2 (en) | Instantaneous learning in text-to-speech during dialog | |
CN110706707B (zh) | 用于语音交互的方法、装置、设备和计算机可读存储介质 | |
CN113450771B (zh) | 唤醒方法、模型训练方法和装置 | |
JP6875819B2 (ja) | 音響モデル入力データの正規化装置及び方法と、音声認識装置 | |
CN113129867A (zh) | 语音识别模型的训练方法、语音识别方法、装置和设备 | |
US10847154B2 (en) | Information processing device, information processing method, and program | |
CN110647613A (zh) | 一种课件构建方法、装置、服务器和存储介质 | |
CN114255754A (zh) | 语音识别方法、电子设备、程序产品和存储介质 | |
KR20220030120A (ko) | 증강된 일관성 정규화를 이용한 음성 인식 모델 학습 방법 및 시스템 | |
CN114399992B (zh) | 语音指令响应方法、装置及存储介质 | |
CN116844555A (zh) | 车辆语音交互的方法及装置、车辆、电子设备和存储介质 | |
CN113763992A (zh) | 语音测评方法、装置、计算机设备和存储介质 | |
CN109801622B (zh) | 一种语音识别模板训练方法、语音识别方法及装置 | |
CN116189680B (zh) | 一种展演智能设备的语音唤醒方法 | |
WO2021139737A1 (zh) | 一种人机交互的方法和系统 | |
CN115985317A (zh) | 信息处理方法、装置、车辆及存储介质 | |
CN117935841A (zh) | 一种车载声纹唤醒方法、装置、电子设备及存储介质 | |
CN113921016A (zh) | 语音处理方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |