CN112331200A - 一种车载语音控制方法 - Google Patents

一种车载语音控制方法 Download PDF

Info

Publication number
CN112331200A
CN112331200A CN202011177107.5A CN202011177107A CN112331200A CN 112331200 A CN112331200 A CN 112331200A CN 202011177107 A CN202011177107 A CN 202011177107A CN 112331200 A CN112331200 A CN 112331200A
Authority
CN
China
Prior art keywords
voice
vehicle
recognition
control
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011177107.5A
Other languages
English (en)
Inventor
张寅�
刘晓鹏
彭坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Effective Software Technology Shanghai Co ltd
Original Assignee
Effective Software Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Effective Software Technology Shanghai Co ltd filed Critical Effective Software Technology Shanghai Co ltd
Priority to CN202011177107.5A priority Critical patent/CN112331200A/zh
Publication of CN112331200A publication Critical patent/CN112331200A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Lock And Its Accessories (AREA)
  • Telephone Function (AREA)

Abstract

本发明的一种车载语音控制方法,接收用户发出的语音指令并对语音指令进行处理,处理后的语音同步进行语义识别、声纹识别并获取实时车载状态,当三种状态同时满足条件要求时,向车载控制系统发送相应元器件控制操作命令,从而完成车载控制操作。通过对用户语音信息的录入、保存后,在用户在此使用时,说出自己的命令短语,就可以进行相关的车载元器件控制,并且能够保证整个操作过程中的安全性,提升了用户用车使用体验。

Description

一种车载语音控制方法
技术领域
本发明属于语音识别技术领域,具体来说是一种车载语音控制方法。
背景技术
随着人们生活、工作节奏不断提升,对汽车需求也逐年增长。人们需要在车内进行的工作、活动越来越多,并且在娱乐、休闲、工作的同时寻求着更加方便、快捷、安全的方式。近年来,语音识别技术与车载系统的结合逐渐成为科研工作者及各大汽车生产商炙手可热的研究领域。传统的语音控制系统包含了以导航、无线网接入、DVD、电视、收音机为主的多媒体系统控制,此类语音控制系统对系统的要求并不高,但对于其他一些除多媒体控制系统外的汽车部件控制的操作,如车窗、车门、后备箱等,需要有较高的安全要求,因此在现有的语音识别基础上,增加声纹识别,从而使得此类安全性要求较高的系统更有保障。
声纹识别的研究始于20世纪30年代。早期的工作主要集中在人耳听辨试验和探讨听音识别的可能性方面。随着研究手段和工具的改进,研究工作逐渐脱离了单纯的人耳听辨。实验室的劳伦斯·科斯塔目视观察语谱图进行识别,提出了“声纹”的概念。之后,电子技术和计算机技术的发展,使通过机器自动识别人的声音成为可能。后来有学者提出了基于模式匹配和概率统计方差分析的声纹识别方法,而引起信号处理领域内许多学者的注意,形成了声纹识别研究的一个高潮,其间的工作主要集中在各种识别参数的提取、选择和试验上,并将倒频谱、线性预测分析和简称等方法应用于声纹识别。
语音识别技术起源于20世纪50年代,著名的Audry语音识别系统即第一个能够识别出十个英文数字的发明诞生于AT&TBell实验室,这个系统是基于共振峰提取技术实现的。随后,计算机的广泛使用对60年代正在逐步发展中的语音识别技术产生了深远影响。应用最为广泛的动态规划和线性预测分析两种技术正是这个时期的主要研究成果,线性预测技术在语音信号模型问题中的使用为以后技术的研究方向奠定了良好的基础。
车载语音技术早在2000年,国外通用公司就发布了世界首辆利用语音控制无线上网的汽车,由此开始了有关语音控制汽车的相关研究。在2001年国内也推出了车载手机,可以通过语音控制实现拨号功能,并且价格便宜。在2013年,比亚迪公司与Nuance公司合作,研发了Nuance车载语音系统。但是,我国自主研发的车载语音识别系统还没有全面问世,与西方发达国家之间存在一定的差距。在2013年,国内提出了“车联网”概念,开始了对车载语音识别领域的研究热潮。
目前,车载语音识别技术还停留在一些简单的、非关键性功能的元器件控制上,这些功能的实现也仅仅是为了保障驾驶员在驾驶过程中的安全,而在一些关键性功能上,如在汽车锁闭状态下,开启车门、车窗、后备箱等,因缺乏安全性保障,从而无法应用这些功能。而在车主、或车主家人在未带钥匙的过程中,想开启后备箱取一些遗落物品时,必须要折返获取钥匙,从而造成不必要的麻烦。
因此,一种具有高安全性、便捷性的、并且可以离线使用的车载语音加声纹识别的车载语音控制装置,使得汽车使用体检更加舒适,且保证安全。本发明提供了一种车载语音控制装置。该装置能够保证在离线状态下,完成用户的声纹信息录入、识别、反馈识别结果,最终实现控制汽车元器件。
发明内容
1.发明要解决的技术问题
本发明的目的在于解决现有的车载语音控制装置难以在离线状态下准确执行用户的语音指令的问题。
2.技术方案
为达到上述目的,本发明提供的技术方案为:
本发明的一种车载语音控制方法,接收用户发出的语音指令并对语音指令进行处理,处理后的语音同步进行语义识别、声纹识别并获取实时车载状态,当三种状态同时满足条件要求时,向车载控制系统发送相应元器件控制操作命令,从而完成车载控制操作。
优选的,具体包括如下步骤:
S100、接收待验证语音指令;
S200、对接收到的待验证语音指令进行语音信号处理;
S300、进行语义识别、声纹识别,以及车载状态识别;
S400、判断语义、声纹和车载状态是否符合要求,当符合时,发送指令到车载控制系统,完成车载控制流程。
优选的,所述步骤S100中,接收用户发出的语音指令后需要判断语音的SNR,当语音的SNR过低时,进行剔除。
优选的,所述步骤S200中,对语音指令进行处理具体为通过小波阈值去噪法进行信号增强。
优选的,所述步骤S300中,语义识别采用以字为单位进行建模,在系统的模型训练过程中选用Baum-Welch算法的HMM建模方式进行建模。
优选的,所述步骤S300中,声纹识别具体为将个人语音中携带的个性特征提取出来,并与数据库中事先训练好的模板进行匹配并给出识别结果。
优选的,所述方法采用如下系统进行实现,包括
语音接收模块,所述语音接收模块用于接受待验证语音;
语音处理模块,所述语音处理模块用于对语音接收模块接收的待验证语音进行信号处理;
语音识别模块,所述语音识别模块用于对语音处理模块处理后的语音进行识别判断并输出识别结果;
控制输出模块,所述控制输出模块用于将语音识别模块的识别结果转换成控制指令并输出;
车载控制模块,所述车载控制模块用于接收控制输出模块的控制指令并控制车辆执行操作。
优选的,所述语音识别模块包括语义识别单元、声纹识别单元和车况识别单元,所述语义识别单元用于对语音数据进行字和词汇识别,所述声纹识别单元用于判断语音来源是否正确,所述车况识别单元用于获取实时车载状态,当语义识别单元识别命令清楚正确、声纹识别单元识别语音来源正确和实时车载状态符合命令执行要求时,才将识别结果发送给控制输出模块。
优选的,所述语音接收模块为语音接收器,所述语音处理模块为音频处理器或音频放大器,所述车载控制模块为车辆控制器或车辆控制电脑。
优选的,所述语义识别单元还包括语义识别参考模板库,所述语义识别参考模板库包括日常车载操作所有涉及到的基本字特征,所述声纹识别单元还包括声纹识别模型库,所述声纹识别模型库包括车主及车主授权人的相关声纹特征信息、以及日常生活中的环境噪声模型。
3.有益效果
采用本发明提供的技术方案,与现有技术相比,具有如下有益效果:
本发明的一种车载语音控制方法,接收用户发出的语音指令并对语音指令进行处理,处理后的语音同步进行语义识别、声纹识别并获取实时车载状态,当三种状态同时满足条件要求时,向车载控制系统发送相应元器件控制操作命令,从而完成车载控制操作。通过对用户语音信息的录入、保存后,在用户在此使用时,说出自己的命令短语,就可以进行相关的车载元器件控制,并且能够保证整个操作过程中的安全性,提升了用户用车使用体验。
附图说明
图1为本发明的系统的结构示意图;
图2为本发明的工作流程图;
图3为本发明的语音信号处理流程图;
图4为本发明的语音信号降噪处理流程图;
图5为本发明的语音声纹识别流程图;
图6为本发明的语义识别流程图。
示意图中的标号说明:
100、语音接收模块;200、语音处理模块;300、语音识别模块;310、语义识别单元;320、声纹识别单元;330、车况识别单元;400、控制输出单元;500、车载控制单元。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述,附图中给出了本发明的若干实施例,但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例,相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件;当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件;本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同;本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明;本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例1
参照附图1-附图6,本实施例的一种车载语音控制方法,接收用户发出的语音指令并对语音指令进行处理,处理后的语音同步进行语义识别、声纹识别并获取实时车载状态,当三种状态同时满足条件要求时,向车载控制系统发送相应元器件控制操作命令,从而完成车载控制操作。
所述方法具体包括如下步骤:
S100、接收待验证语音指令;
S200、对接收到的待验证语音指令进行语音信号处理;
S300、进行语义识别、声纹识别,以及车载状态识别;
S400、判断语义、声纹和车载状态是否符合要求,当符合时,发送指令到车载控制系统,完成车载控制流程。
在步骤S100中,接收用户发出的语音指令后需要判断语音的SNR,当语音的SNR过低时,进行剔除。
在步骤S200中,对语音指令进行处理具体为通过小波阈值去噪法进行信号增强。
在步骤S300中,语义识别采用以字为单位进行建模,在系统的模型训练过程中选用Baum-Welch算法的HMM基于隐马尔科夫模型建模方式进行建模。
在步骤S300中,声纹识别具体为将个人语音中携带的个性特征提取出来,并与数据库中事先训练好的模板进行匹配并给出识别结果。
所述方法采用如下系统进行实现,包括
语音接收模块100,所述语音接收模块100用于接受待验证语音;
语音处理模块200,所述语音处理模块200用于对语音接收模块100接收的待验证语音进行信号处理;
语音识别模块300,所述语音识别模块300用于对语音处理模块200处理后的语音进行识别判断并输出识别结果;
控制输出模块400,所述控制输出模块400用于将语音识别模块300的识别结果转换成控制指令并输出;
车载控制模块500,所述车载控制模块500用于接收控制输出模块400的控制指令并控制车辆执行操作。
所述语音识别模块300包括语义识别单元310、声纹识别单元320和车况识别单元330,所述语义识别单元310用于对语音数据进行字和词汇识别,所述声纹识别单元320用于判断语音来源是否正确,所述车况识别单元330用于获取实时车载状态,当语义识别单元310识别命令清楚正确、声纹识别单元320识别语音来源正确和实时车载状态符合命令执行要求时,才将识别结果发送给控制输出模块400。使得车辆在满足指令执行要求时才被允许进行操作,可以有效的保证车辆的使用安全性。
所述语义识别单元310还包括语义识别参考模板库,所述语义识别参考模板库包括日常车载操作所有涉及到的基本字特征。所述声纹识别单元320还包括声纹识别模型库,所述声纹识别模型库包括车主及车主授权人的相关声纹特征信息、以及日常生活中的环境噪声模型。可以防止系统接收到不属于车主及车主授权人的语音控制指令,有效了杜绝了车辆控制系统误操作的情况,提高了车辆的使用安全性。
车况识别单元330与车辆控制器通信连接并获取车辆状态数据。
车载控制模块500为车辆控制器或车辆控制电脑。
本实施例的系统,通过对用户语音信息的录入、保存后,在用户在此使用时,说出自己的命令短语,就可以进行相关的车载元器件控制,并且能够保证整个操作过程中的安全性,提升了用户用车使用体验。
以上所述实施例仅表达了本发明的某种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制;应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围;因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种车载语音控制方法,其特征在于:接收用户发出的语音指令并对语音指令进行处理,处理后的语音同步进行语义识别、声纹识别并获取实时车载状态,当三种状态同时满足条件要求时,向车载控制系统发送相应元器件控制操作命令,从而完成车载控制操作。
2.根据权利要求1所述的一种车载语音控制方法,其特征在于,具体包括如下步骤:
S100、接收待验证语音指令;
S200、对接收到的待验证语音指令进行语音信号处理;
S300、进行语义识别、声纹识别,以及车载状态识别;
S400、判断语义、声纹和车载状态是否符合要求,当符合时,发送指令到车载控制系统,完成车载控制流程。
3.根据权利要求2所述的一种车载语音控制方法,其特征在于:所述步骤S100中,接收用户发出的语音指令后需要判断语音的SNR,当语音的SNR过低时,进行剔除。
4.根据权利要求2所述的一种车载语音控制方法,其特征在于:所述步骤S200中,对语音指令进行处理具体为通过小波阈值去噪法进行信号增强。
5.根据权利要求2所述的一种车载语音控制方法,其特征在于:所述步骤S300中,语义识别采用以字为单位进行建模,在系统的模型训练过程中选用Baum-Welch算法的HMM(基于隐马尔科夫模型)建模方式进行建模。
6.根据权利要求2所述的一种车载语音控制方法,其特征在于:所述步骤S300中,声纹识别具体为将个人语音中携带的个性特征提取出来,并与数据库中事先训练好的模板进行匹配并给出识别结果。
7.根据权利要求1-6任一项所述的一种车载语音控制方法,其特征在于:所述方法采用如下系统进行实现,包括
语音接收模块(100),所述语音接收模块(100)用于接受待验证语音;
语音处理模块(200),所述语音处理模块(200)用于对语音接收模块(100)接收的待验证语音进行信号处理;
语音识别模块(300),所述语音识别模块(300)用于对语音处理模块(200)处理后的语音进行识别判断并输出识别结果;
控制输出模块(400),所述控制输出模块(400)用于将语音识别模块(300)的识别结果转换成控制指令并输出;
车载控制模块(500),所述车载控制模块(500)用于接收控制输出模块(400)的控制指令并控制车辆执行操作。
8.根据权利要求7所述的一种车载语音控制方法,其特征在于:所述语音识别模块(300)包括语义识别单元(310)、声纹识别单元(320)和车况识别单元(330),所述语义识别单元(310)用于对语音数据进行字和词汇识别,所述声纹识别单元(320)用于判断语音来源是否正确,所述车况识别单元(330)用于获取实时车载状态,当语义识别单元(310)识别命令清楚正确、声纹识别单元(320)识别语音来源正确和实时车载状态符合命令执行要求时,才将识别结果发送给控制输出模块(400)。
9.根据权利要求7所述的一种车载语音控制方法,其特征在于:所述语音接收模块(100)为语音接收器,所述语音处理模块(200)为音频处理器或音频放大器,所述车载控制模块(500)为车辆控制器或车辆控制电脑。
10.根据权利要求8所述的一种车载语音控制方法,其特征在于:所述语义识别单元(310)还包括语义识别参考模板库,所述语义识别参考模板库包括日常车载操作所有涉及到的基本字特征,所述声纹识别单元(320)还包括声纹识别模型库,所述声纹识别模型库包括车主及车主授权人的相关声纹特征信息、以及日常生活中的环境噪声模型。
CN202011177107.5A 2020-10-29 2020-10-29 一种车载语音控制方法 Pending CN112331200A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011177107.5A CN112331200A (zh) 2020-10-29 2020-10-29 一种车载语音控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011177107.5A CN112331200A (zh) 2020-10-29 2020-10-29 一种车载语音控制方法

Publications (1)

Publication Number Publication Date
CN112331200A true CN112331200A (zh) 2021-02-05

Family

ID=74297103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011177107.5A Pending CN112331200A (zh) 2020-10-29 2020-10-29 一种车载语音控制方法

Country Status (1)

Country Link
CN (1) CN112331200A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114844980A (zh) * 2022-04-26 2022-08-02 重庆长安汽车股份有限公司 语音控制车辆的方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105501121A (zh) * 2016-01-08 2016-04-20 北京乐驾科技有限公司 一种智能唤醒方法及系统
CN111312238A (zh) * 2019-07-30 2020-06-19 中国第一汽车股份有限公司 一种车辆动作的控制方法及汽车

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105501121A (zh) * 2016-01-08 2016-04-20 北京乐驾科技有限公司 一种智能唤醒方法及系统
CN111312238A (zh) * 2019-07-30 2020-06-19 中国第一汽车股份有限公司 一种车辆动作的控制方法及汽车

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114844980A (zh) * 2022-04-26 2022-08-02 重庆长安汽车股份有限公司 语音控制车辆的方法及系统
CN114844980B (zh) * 2022-04-26 2023-06-27 重庆长安汽车股份有限公司 语音控制车辆的方法及系统

Similar Documents

Publication Publication Date Title
CN102298443B (zh) 结合视频通道的智能家居语音控制系统及其控制方法
US8639508B2 (en) User-specific confidence thresholds for speech recognition
US10854195B2 (en) Dialogue processing apparatus, a vehicle having same, and a dialogue processing method
US7881929B2 (en) Ambient noise injection for use in speech recognition
US7676363B2 (en) Automated speech recognition using normalized in-vehicle speech
CN202110564U (zh) 结合视频通道的智能家居语音控制系统
US8756062B2 (en) Male acoustic model adaptation based on language-independent female speech data
CN102097096B (zh) 在语音识别后处理过程中使用音调来改进识别精度
US20190311713A1 (en) System and method to fulfill a speech request
CN104575492A (zh) 一种声纹识别方法及装置和无钥匙车锁系统及实现方法
US8438030B2 (en) Automated distortion classification
US20160111090A1 (en) Hybridized automatic speech recognition
CN210489237U (zh) 一种车载智能终端语音控制系统
US20130211832A1 (en) Speech signal processing responsive to low noise levels
CN112331200A (zh) 一种车载语音控制方法
US20190379777A1 (en) Voice recognition apparatus, vehicle including the same, and control method thereof
Loh et al. Speech recognition interactive system for vehicle
US11996099B2 (en) Dialogue system, vehicle, and method of controlling dialogue system
CN112331199A (zh) 一种车载语音控制系统
CN111881691A (zh) 一种利用手势增强车载语义解析的系统及方法
KR20160122564A (ko) 음성 인식 장치 및 그 방법
US20230267923A1 (en) Natural language processing apparatus and natural language processing method
CN117995168A (zh) 一种用于ipa的语音处理方法和系统
US11955123B2 (en) Speech recognition system and method of controlling the same
CN115862644A (zh) 基于声纹识别设置车辆使用权限的系统、方法、介质及车载终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination