CN113628628A - 一种基于声纹识别的方向盘调节方法、系统及存储介质 - Google Patents

一种基于声纹识别的方向盘调节方法、系统及存储介质 Download PDF

Info

Publication number
CN113628628A
CN113628628A CN202110862288.3A CN202110862288A CN113628628A CN 113628628 A CN113628628 A CN 113628628A CN 202110862288 A CN202110862288 A CN 202110862288A CN 113628628 A CN113628628 A CN 113628628A
Authority
CN
China
Prior art keywords
steering wheel
sound
owner
control system
voiceprint recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110862288.3A
Other languages
English (en)
Inventor
韩智伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dilu Technology Co Ltd
Original Assignee
Dilu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dilu Technology Co Ltd filed Critical Dilu Technology Co Ltd
Priority to CN202110862288.3A priority Critical patent/CN113628628A/zh
Publication of CN113628628A publication Critical patent/CN113628628A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Mechanical Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

本发明公开了一种基于声纹识别的方向盘调节方法、系统及存储介质,本发明通过AI算法识别车主声纹后,将车主声纹信息与方向盘设置信息相关联,在以后每次车主需要调节方向盘位置时均能自动调节至所对应车主声纹所关联的方向盘位置,提高了驾驶效率。

Description

一种基于声纹识别的方向盘调节方法、系统及存储介质
技术领域
本发明涉及汽车智能控制领域,特别涉及一种基于声纹识别的方向盘调节方法、系统及存储介质。
背景技术
现有的车辆方向盘的调节大部分都是通过车主对方向盘进行手动调节到适合自身驾驶的状态,这样的操作对于公用车辆的车主来说过于麻烦,一旦车主为了避免麻烦不调节方向盘,容易在驾驶时由于方向盘的姿态不符合自身的驾驶习惯而产生危险。
声纹识别技术是生物识别技术的一种,理论基础是每一个声音都具有独特的特征,通过该特征能将不同人的声音进行有效的区分,目前声纹识别技术在各个领域均有运用,本申请结合声纹识别技术对车辆方向盘的自动调节提出了一种方案。
发明内容
发明目的:本发明的目的是提供一种基于声纹识别的方向盘调节方法、系统及存储介质,能够根据车主的声纹自动调节车辆方向盘的位置状态。
技术方案:本发明所述的一种基于声纹识别的方向盘调节方法,具体包括以下步骤:
S1:构建算法模型实现声纹识别车主;
S2:将构建的算法模型嵌入到车辆控制系统内;
S3:车主进入车内,对车辆控制系统发出声音,车辆控制系统录入车主声音,采用构建的算法对车主声音进行训练,形成车主声音模型,将车主声音模型存储在车辆控制系统内;
S4:车主手动调整方向盘姿态后,车辆控制系统记录方向盘姿态信息,并将方向盘姿态信息与S3中存储的车主声音模型关联;
S5:车主后续进入车辆后,对车辆控制系统发声,车辆控制系统采集声音后与车辆控制系统内存储的车主声音模型匹配,匹配成功后自动将方向盘姿态进行调整,确保与车主声音模型相关联的方向盘姿态信息一致。
作为优选,所述S1中构建算法模型实现声纹识别车主具体包括以下步骤:
S1.1:使用Long-term Spectral Divergence(LTSD),即长时谱能量差异来进行声音信号的过滤,从复杂的环境中区分出语音部分和非语音部分,将声音沉默部分去除,留下语音部分;
S1.2:使用Mel Frequency Cepstral Coefficents(MFCC),即梅尔频率倒谱系数进行特征提取,将音频信号中具有辨识性的成分提取出来,把噪音信息扔掉;
S1.3:使用GMM-UBM,即混合高斯-通用背景模型进行通用短语音特征定位识别,即通过通用的短语音特征信息提取,进行车主声纹识别对比,达到鉴别车主目的。
作为优选,所述S1.2中的噪音信息包括有背景噪声和情绪音。
作为优选,所述S1.2中MFCC进行特征提取时,依靠快速傅里叶变换(FFT)和梅尔滤波器(Mel滤波器)进行降维操作。
作为优选,所述S3中车辆控制系统可以根据需要,采用构建的算法训练多个不同车主声音模型并且存储在车辆控制系统内。
作为优选,所述S4中方向盘姿态信息仅关联唯一的车主声音模型且均与最近一次车主声音模型关联。
有益效果:本发明利用声纹技术对车主声音进行识别后,自动匹配不同车主对于车辆方向盘状态位置的需求,减少了车主对车辆的操作过程,提高了驾驶效率以及驾驶的安全性。
附图说明
图1是LTSD效果图;
图2是MFCC流程图;
图3是GMM-UBM模型。
具体实施方式
下面将结合本申请实施例中的附图1-3,对本申请实施例中的技术方案进行清楚、完整地描述。
本发明的具体步骤如下:
S1;构建算法模型实现声纹识别车主,具体包括以下步骤:
S1.1:使用Long-term Spectral Divergence(LTSD),即长时谱能量差异来进行声音信号的过滤,从复杂的环境中区分出语音部分和非语音部分,将声音沉默部分去除,留下语音部分;
S1.2:使用Mel Frequency Cepstral Coefficents(MFCC),即梅尔频率倒谱系数进行特征提取,将音频信号中具有辨识性的成分提取出来,把噪音信息扔掉,这里的噪音信息包括有背景噪声和情绪音,其中在进行特征提取时,依靠快速傅里叶变换(FFT) 和梅尔滤波器(Mel滤波器)进行降维操作;
S1.3:使用GMM-UBM,即混合高斯-通用背景模型进行通用短语音特征定位识别,即通过通用的短语音特征信息提取,进行车主声纹识别对比,达到鉴别车主目的;
S2:将构建的算法模型嵌入到车辆控制系统内;
S3:车主进入车内,对车辆控制系统发出语音:我是车主,车辆控制系统录入车主声音,采用构建的算法对车主声音进行训练,形成车主声音模型,将车主声音模型存储在车辆控制系统内,同时车辆控制系统可以根据需要,采用构建的算法训练多个不同车主声音模型并且存储在车辆控制系统内;
S4:车主手动调整方向盘姿态后,车辆控制系统记录方向盘姿态信息,并将方向盘姿态信息与S3中存储的车主声音模型关联,此时方向盘姿态信息仅关联唯一的车主声音模型且均与最近一次车主声音模型关联;
S5:车主后续进入车辆后,对车辆控制系统发出语音:我是车主,车辆控制系统采集声音后与车辆控制系统内存储的车主声音模型匹配,匹配成功后自动将方向盘姿态进行调整,确保与车主声音模型相关联的方向盘姿态信息一致。
本实施例还提供了一种基于声纹识别的方向盘调节系统,包括有网络接口、存储器和处理器,其中网络接口,用于在与其他外部网元之间进行收发信息过程中,实现信号的接收和发送;存储器,用于存储能够在所述处理器上运行的计算机程序指令;处理器,用于在运行所述计算机程序指令时,执行上述基于声纹识别的方向盘调节方法的步骤。
本实施例还提供了一种计算机存储介质,该计算机存储介质存储有计算机程序,在处理器执行所述计算机程序时可实现以上所描述的方法。所述计算机可读介质可以被认为是有形的且非暂时性的。非暂时性有形计算机可读介质的非限制性示例包括非易失性存储器电路(例如闪存电路、可擦除可编程只读存储器电路或掩膜只读存储器电路)、易失性存储器电路(例如静态随机存取存储器电路或动态随机存取存储器电路)、磁存储介质 (例如模拟或数字磁带或硬盘驱动器)和光存储介质(例如CD、DVD或蓝光光盘)等。计算机程序包括存储在至少一个非暂时性有形计算机可读介质上的处理器可执行指令。计算机程序还可以包括或依赖于存储的数据。计算机程序可以包括与专用计算机的硬件交互的基本输入/输出系统(BIOS)、与专用计算机的特定设备交互的设备驱动程序、一个或多个操作系统、用户应用程序、后台服务、后台应用程序等。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和 /或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和 /或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

Claims (8)

1.一种基于声纹识别的方向盘调节方法,其特征在于:具体包括以下步骤:
S1:构建算法模型实现声纹识别车主;
S2:将构建的算法模型嵌入到车辆控制系统内;
S3:车主进入车内,对车辆控制系统发出声音,车辆控制系统录入车主声音,采用构建的算法对车主声音进行训练,形成车主声音模型,将车主声音模型存储在车辆控制系统内;
S4:车主手动调整方向盘姿态后,车辆控制系统记录方向盘姿态信息,并将方向盘姿态信息与S3中存储的车主声音模型关联;
S5:车主后续进入车辆后,对车辆控制系统发声,车辆控制系统采集声音后与车辆控制系统内存储的车主声音模型匹配,匹配成功后自动将方向盘姿态进行调整,确保与车主声音模型相关联的方向盘姿态信息一致。
2.根据权利要求1所述的一种基于声纹识别的方向盘调节方法,其特征在于:所述S1中构建算法模型实现声纹识别车主具体包括以下步骤:
S1.1:使用Long-term SpectralDivergence(LTSD),即长时谱能量差异来进行声音信号的过滤,从复杂的环境中区分出语音部分和非语音部分,将声音沉默部分去除,留下语音部分;
S1.2:使用Mel Frequency Cepstral Coefficents(MFCC),即梅尔频率倒谱系数进行特征提取,将音频信号中具有辨识性的成分提取出来,把噪音信息扔掉;
S1.3:使用GMM-UBM,即混合高斯-通用背景模型进行通用短语音特征定位识别,即通过通用的短语音特征信息提取,进行车主声纹识别对比,达到鉴别车主目的。
3.根据权利要求2所述的一种基于声纹识别的方向盘调节方法,其特征在于:所述S1.2中的噪音信息包括有背景噪声和情绪音。
4.根据权利要求2所述的一种基于声纹识别的方向盘调节方法,其特征在于:所述S1.2中MFCC进行特征提取时,依靠快速傅里叶变换(FFT)和梅尔滤波器(Mel滤波器)进行降维操作。
5.根据权利要求1所述的一种基于声纹识别的方向盘调节方法,其特征在于:所述S3中车辆控制系统可以根据需要,采用构建的算法训练多个不同车主声音模型并且存储在车辆控制系统内。
6.根据权利要求1所述的一种基于声纹识别的方向盘调节方法,其特征在于:所述S4中方向盘姿态信息仅关联唯一的车主声音模型且均与最近一次车主声音模型关联。
7.一种基于声纹识别的方向盘调节系统,其特征在于:所述系统包括网络接口、存储器和处理器,其中:
所述网络接口,用于在与其他外部网元之间进行收发信息过程中,实现信号的接收和发送;
所述存储器,用于存储能够在所述处理器上运行的计算机程序指令;
所述处理器,用于在运行所述计算机程序指令时,执行权利要求1-6中任一项所述的一种基于声纹识别的方向盘调节方法的步骤。
8.一种计算机存储介质,其特征在于:所述计算机存储介质存储有一种基于声纹识别的方向盘调节方法,所述一种基于声纹识别的方向盘调节方法被至少一个处理器执行时实现权利要求1-6中任一项所述的一种基于声纹识别的方向盘调节方法的步骤。
CN202110862288.3A 2021-07-29 2021-07-29 一种基于声纹识别的方向盘调节方法、系统及存储介质 Pending CN113628628A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110862288.3A CN113628628A (zh) 2021-07-29 2021-07-29 一种基于声纹识别的方向盘调节方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110862288.3A CN113628628A (zh) 2021-07-29 2021-07-29 一种基于声纹识别的方向盘调节方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN113628628A true CN113628628A (zh) 2021-11-09

Family

ID=78381503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110862288.3A Pending CN113628628A (zh) 2021-07-29 2021-07-29 一种基于声纹识别的方向盘调节方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN113628628A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010163100A (ja) * 2009-01-16 2010-07-29 Mitsubishi Motors Corp 車載機器用制御装置
CN106683673A (zh) * 2016-12-30 2017-05-17 智车优行科技(北京)有限公司 驾驶模式的调整方法、装置和系统、车辆
CN108694954A (zh) * 2018-06-13 2018-10-23 广州势必可赢网络科技有限公司 一种性别年龄识别方法、装置、设备及可读存储介质
CN109473102A (zh) * 2017-09-07 2019-03-15 上海新同惠自动化系统有限公司 一种机器人秘书智能会议记录方法及系统
CN112036468A (zh) * 2020-08-27 2020-12-04 安徽江淮汽车集团股份有限公司 驾驶操作系统调节方法、车辆及存储介质
CN112053695A (zh) * 2020-09-11 2020-12-08 北京三快在线科技有限公司 声纹识别方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010163100A (ja) * 2009-01-16 2010-07-29 Mitsubishi Motors Corp 車載機器用制御装置
CN106683673A (zh) * 2016-12-30 2017-05-17 智车优行科技(北京)有限公司 驾驶模式的调整方法、装置和系统、车辆
CN109473102A (zh) * 2017-09-07 2019-03-15 上海新同惠自动化系统有限公司 一种机器人秘书智能会议记录方法及系统
CN108694954A (zh) * 2018-06-13 2018-10-23 广州势必可赢网络科技有限公司 一种性别年龄识别方法、装置、设备及可读存储介质
CN112036468A (zh) * 2020-08-27 2020-12-04 安徽江淮汽车集团股份有限公司 驾驶操作系统调节方法、车辆及存储介质
CN112053695A (zh) * 2020-09-11 2020-12-08 北京三快在线科技有限公司 声纹识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US11042616B2 (en) Detection of replay attack
US9875739B2 (en) Speaker separation in diarization
CN106463112B (zh) 语音识别方法、语音唤醒装置、语音识别装置及终端
US20170061978A1 (en) Real-time method for implementing deep neural network based speech separation
WO2020025951A1 (en) Detection of replay attack
CN108538293B (zh) 语音唤醒方法、装置及智能设备
Sadjadi et al. Mean Hilbert Envelope Coefficients (MHEC) for Robust Speaker Recognition.
CN108364656B (zh) 一种用于语音重放检测的特征提取方法及装置
KR101888058B1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치
US20170125038A1 (en) Transfer function to generate lombard speech from neutral speech
JP2010149757A (ja) 覚醒持続支援システム
CN110689887B (zh) 音频校验方法、装置、存储介质及电子设备
US11081115B2 (en) Speaker recognition
CN109065026B (zh) 一种录音控制方法及装置
CN113628628A (zh) 一种基于声纹识别的方向盘调节方法、系统及存储介质
JP5301037B2 (ja) 音声認識装置
JP5115944B2 (ja) 音声認識装置
US20070198255A1 (en) Method For Noise Reduction In A Speech Input Signal
WO2017024835A1 (zh) 语音识别方法及装置
JP6480124B2 (ja) 生体検知装置、生体検知方法及びプログラム
US11276404B2 (en) Speech recognition device, speech recognition method, non-transitory computer-readable medium storing speech recognition program
JP5731929B2 (ja) 音声強調装置とその方法とプログラム
CN117079650A (zh) 一种多级自适应语音识别方法、装置、车辆及可读存储介质
KR102018110B1 (ko) 음성파일 생성방법 및 장치
US20230298607A1 (en) System and method for voice unidentifiable morphing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination