CN114678023A - 用于车辆环境的语音处理方法、装置、设备、介质和车辆 - Google Patents

用于车辆环境的语音处理方法、装置、设备、介质和车辆 Download PDF

Info

Publication number
CN114678023A
CN114678023A CN202210308840.9A CN202210308840A CN114678023A CN 114678023 A CN114678023 A CN 114678023A CN 202210308840 A CN202210308840 A CN 202210308840A CN 114678023 A CN114678023 A CN 114678023A
Authority
CN
China
Prior art keywords
vehicle
recognition
response
recognition probability
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210308840.9A
Other languages
English (en)
Inventor
张明哲
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Zhilian Beijing Technology Co Ltd
Original Assignee
Apollo Zhilian Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apollo Zhilian Beijing Technology Co Ltd filed Critical Apollo Zhilian Beijing Technology Co Ltd
Priority to CN202210308840.9A priority Critical patent/CN114678023A/zh
Publication of CN114678023A publication Critical patent/CN114678023A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)

Abstract

本公开提供了一种用于车辆环境的语音处理方法、装置、设备、介质、产品和车辆,涉及智能交通领域,具体为语音识别、机器学习、自动驾驶、车联网等技术领域。用于车辆环境的语音处理方法包括:对待识别语音进行识别,得到识别结果和针对识别结果的识别概率;基于车辆行驶场景数据,调整识别概率,得到调整后的识别概率;基于调整后的识别概率,控制车辆基于识别结果执行操作。

Description

用于车辆环境的语音处理方法、装置、设备、介质和车辆
技术领域
本公开涉及智能交通领域,具体为语音识别、机器学习、自动驾驶、车联网等技术领域,更具体地,涉及一种用于车辆环境的语音处理方法、装置、电子设备、介质、程序产品和车辆。
背景技术
随着车联网的智能化发展,车载语音系统在车辆上的应用越来越广泛。由于语音技术的局限和外部环境的影响,导致车载语音系统的语音识别效果不佳,存在车辆对语音进行误响应而影响驾驶安全的问题。
发明内容
本公开提供了一种用于车辆环境的语音处理方法、装置、电子设备、存储介质、程序产品和车辆。
根据本公开的一方面,提供了一种用于车辆环境的语音处理方法,包括:对待识别语音进行识别,得到识别结果和针对所述识别结果的识别概率;基于车辆行驶场景数据,调整所述识别概率,得到调整后的识别概率;基于所述调整后的识别概率,控制所述车辆基于识别结果执行操作。
根据本公开的另一方面,提供了一种用于车辆环境的语音处理装置,包括:识别模块、调整模块以及控制模块。识别模块,用于对待识别语音进行识别,得到识别结果和针对所述识别结果的识别概率;调整模块,用于基于车辆行驶场景数据,调整所述识别概率,得到调整后的识别概率;控制模块,用于基于所述调整后的识别概率,控制所述车辆基于识别结果执行操作。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器和与所述至少一个处理器通信连接的存储器。其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的用于车辆环境的语音处理方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述的用于车辆环境的语音处理方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现上述用于车辆环境的语音处理方法的步骤。
根据本公开的另一方面,提供了一种车辆,包括上述的电子设备。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示意性示出了用于车辆环境的语音处理的应用场景;
图2示意性示出了根据本公开一实施例的用于车辆环境的语音处理方法的流程图;
图3示意性示出了根据本公开一实施例的用于车辆环境的语音处理方法的原理图;
图4示意性示出了根据本公开另一实施例的用于车辆环境的语音处理方法的原理图;
图5示意性示出了根据本公开一实施例的用于车辆环境的语音处理装置的框图;以及
图6是用来实现本公开实施例的用于执行用于车辆环境的语音处理的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
图1示意性示出了用于车辆环境的语音处理的应用场景。需要注意的是,图1所示仅为可以应用本公开实施例的应用场景的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据本公开实施例的应用场景100包括车辆110。
示例性地,车辆110例如包括自动驾驶车辆。车辆110包括电子设备111,电子设备111包括但不仅限于车载语音系统、智能音箱等。电子设备111具有语音处理的功能。
示例性地,用户可以通过语音和车辆进行交互,例如通过语音控制车辆执行操作。例如,电子设备111接收到待处理语音之后,对待处理语音进行识别得到识别结果,根据识别结果确定是否进行唤醒或执行相关操作。
示例性地,电子设备111通过对待处理语音进行识别,得到识别结果和针对识别结果的识别概率,识别结果例如包括唤醒词或命令语句。当识别概率大于预设值时,车辆可以响应于唤醒词进行唤醒或基于命语句执行相关操作。
然而,由于语音识别技术的局限性或外部环境的影响,存在识别概率准确性较低的问题,如果基于识别概率进行响应,则存在误响应的问题,进而影响体验。
有鉴于此,本公开的实施例提出了一种用于车辆环境的语音处理方法,以下参考图2~图4来描述根据本公开示例性实施方式的用于车辆环境的语音处理方法。
图2示意性示出了根据本公开一实施例的用于车辆环境的语音处理方法的流程图。
如图2所示,本公开实施例的用于车辆环境的语音处理方法200例如可以包括操作S210~操作S230。
在操作S210,对待识别语音进行识别,得到识别结果和针对识别结果的识别概率。
在操作S220,基于车辆行驶场景数据,调整识别概率,得到调整后的识别概率。
在操作S230,基于调整后的识别概率,控制车辆基于识别结果执行操作。
示例性地,待识别语音例如可以用于控制车辆执行相关操作,相关操作包括但不仅限于唤醒操作、执行命令操作。通过语音识别技术对待识别语音进行识别,得到识别结果和针对识别结果的识别概率。
在一些情况下,存在由于语音识别技术的局限性或外部环境造成识别概率的准确性较低的问题,使得识别概率难以表征用户的真实意图,如果直接基于识别概率控制车辆进行响应,存在误响应的情况。因此,本公开的实施例基于车辆行驶场景数据来调整识别概率,使得调整后的识别概率更加接近用户的真实意图。基于调整后的识别概率控制车辆基于识别结果执行操作,降低了误操作的可能性,从而提高了语音识别的效果。
例如,待识别语音可以用于唤醒车辆的车载语音系统。对待识别语音进行识别得到识别结果和识别概率,在识别概率较高的情况下,表示识别结果用于唤醒车载语音系统的概率较高。如果基于车辆场景数据得知此时用户没有唤醒车辆的车载语音系统的意图,则表示可能存在误识别的问题,此时可以降低识别概率,并将降低后的识别概率与预设概率阈值进行比较。如果降低后的识别概率大于预设概率阈值,则进行唤醒,否则不唤醒。
在识别概率较低的情况下,表示识别结果用于唤醒车载语音系统的概率较低。如果基于车辆场景数据得知此时用户具有唤醒车辆的车载语音系统的意图,则表示可能存在误识别的问题,此时可以提高识别概率,并将提高后的识别概率与预设概率阈值进行比较。如果提高后的识别概率大于等于预设概率阈值,则进行唤醒,否则不唤醒。
根据本公开的实施例,基于车辆场景数据来调整识别概率,以便基于调整后的识别概率控制车辆执行相关操作,提高了语音识别的灵敏度。可见,通过本公开的实施例,能够较为准确地通过语音控制车辆,提高了语音交互的效率,降低了语音识别的错误率,保证车辆驾驶安全。
图3示意性示出了根据本公开一实施例的用于车辆环境的语音处理方法的原理图。
如图3所示,采集待识别语音,并将待识别语音输入语音识别模型中进行识别,得到识别结果和针对识别结果的识别概率。
采集当前的车辆行驶场景数据,将车辆行驶场景数据输入机器学习模型中,输出期望值,期望值表征了此时用户的用于车辆环境的语音控制意图。
接下来,基于期望值调整识别概率,得到调整后的识别概率。基于调整后的识别概率控制车辆基于识别结果生成控制指令,并基于控制指令执行相应的操作。
示例性地,车辆行驶场景数据包括车辆运行状态数据、车辆所处的环境数据等。车辆运行状态数据例如车辆的速度数据、车辆的启动状态数据等等。环境数据例如包括时间数据、地点数据等等。
示例性地,机器学习模型例如是通过以下方式得到的。
例如,获取车辆针对样本语音数据的响应结果,以及获取与样本语音数据相关联的样本行驶场景数据,将样本行驶场景数据输入机器学习模型,输出样本期望值。然后,基于样本期望值和响应结果,调整机器学习模型的模型参数,得到经训练的机器学习模型。
例如,采集历史数据,历史数据包括针对样本语音数据的响应结果和样本行驶场景数据。样本语音数据例如包括“请启动系统”,响应结果例如包括车辆基于样本语音数据启动了系统。样本行驶场景数据例如包括车辆刚启动、车辆位于家中的车库、当前时间为早上上班时间等等,该样本行驶场景数据表征了在该上班场景下用户启动车辆系统的概率较大。
针对采集的多个样本行驶场景数据,将采集的每个样本行驶场景数据输入机器学习模型中,输出用户需要启动系统的期望值,基于期望值和响应结果调整机器学习模型的模型参数,以得到经训练的机器学习模型。例如,当期望值表示用户具有启动系统的意图,但是响应结果表征了用户真实的意图是不需要启动系统时,调整模型参数,尽可能使得模型后续输出的期望值所表征的用户意图与响应结果所表征用户真实意图一致,以此实现模型收敛。
在训练得到机器学习模型之后,将实时采集的车辆行驶场景数据输入机器学习模型中。实时采集的车辆行驶场景数据例如包括当前的车辆速度数据、车辆启动状态、时间数据、地点数据等等。机器学习模型基于车辆行驶场景数据预测用户当前的语音意图得到期望值。基于期望值调整识别概率。
根据本公开的实施例,利用机器学习模型基于车辆行驶场景数据预测期望值,并基于期望值来调整识别概率,使得调整后的识别概率更加接近用户的真实意图,降低了误识别的可能性。另外,通过模型来预测期望值,提高了期望值的准确性,从而提高语音识别的智能化和灵敏度。
图4示意性示出了根据本公开另一实施例的用于车辆环境的语音处理方法的原理图。
如图4所示,第一语音识别模型例如包括唤醒模型。第一待识别语音例如包括用于唤醒系统的语音。利用第一语音识别模型识别第一待识别语音,得到的识别结果和第一识别概率,识别结果例如包括唤醒词。
采集当前的第一车辆行驶场景数据,利用第一机器学习模型处理第一车辆行驶场景数据得到第一期望值,基于第一期望值调整第一识别概率,得到调整后的第一识别概率。然后,基于调整后的第一识别概率生成唤醒指令,唤醒指令例如用于控制车辆基于唤醒词确定是否进行唤醒。
在车辆处于唤醒状态的情况下,采集当前的第二待识别语音,第二待识别语音例如包括用于命令系统执行相应操作的语音,相应操作例如包括开始导航的操作或播放音乐的操作。利用第二语音识别模型识别第二待识别语音,得到的识别结果和第二识别概率,识别结果例如包括命令语句,命令语句例如包括开启导航的命令或播放音乐的命令。
采集当前的第二车辆行驶场景数据,利用第二机器学习模型处理第二车辆行驶场景数据得到第二期望值,基于第二期望值调整第二识别概率,得到调整后的第二识别概率。然后,基于调整后的第二识别概率生成执行命令,执行命令用于控制车辆基于命令语句确定是否执行操作,例如确定是否开启导航或是否播放音乐。
示例性地,第一车辆行驶场景数据和第二车辆行驶场景数据例如相同,例如均在统一时间段内采集。或者,第一车辆行驶场景数据和第二车辆行驶场景数据不同,例如第二车辆行驶场景数据的采集时间段在第一车辆行驶场景数据的采集时间段之后。
根据本公开的实施例,在唤醒系统时,基于第一期望值调整第一识别概率,提高了唤醒准确性。在系统被唤醒之后,可以基于第二期望值调整第二识别概率,提高了语音命令的准确性,进而提高语音识别的智能化和灵敏度。
在本公开的一实施例中,在期望值大于等于预设阈值的情况下,表示用户控制车辆的意图较大,此时可以增大识别概率,以便提高响应成功率。或者,在期望值小于预设阈值的情况下,表示用户控制车辆的意图较小,此时可以减小识别概率,以便降低响应成功率,避免车辆系统的误响应。
在另一示例中,识别概率对应响应等级,期望值对应期望等级,可以基于期望等级和响应等级中的至少一个来调整响应等级,实现调整识别概率的效果。
如表1所示,识别概率例如包括A、B、C等等。A表示识别结果与预设的唤醒词或命令语句之间的匹配性程度较高,此时系统的响应等级为三级(高级别)。B表示识别结果与预设的唤醒词或命令语句之间的匹配性程度中等,此时系统的响应等级为二级(中级别)。C表示识别结果与预设的唤醒词或命令语句之间的匹配性程度较低,此时系统的响应等级为一级(低级别)。
如表2所示,期望值例如包括D、E、F等等。D表示期望等级较高(用户意图强烈),此时当响应等级为二级或三级时,可以基于期望值(期望等级)将响应等级提高为三级,以便提高响应成功率。E表示期望等级中等(用户意图一般),此时当响应等级为一级时,可以基于期望值(期望等级)将响应等级提高为二级,以便提高响应成功率。E表示期望等级较低(用户无意图),此时当响应等级为三级或二级时,可以基于期望值(期望等级)将响应等级降低为一级,以便降低响应成功率,避免误操作。
表1
识别概率 响应等级
A(匹配程度较高) 三级(高级别)
B(匹配程度中等) 二级(中级别)
C(匹配程度较低) 一级(低级别)
表2
期望值 调整响应等级
D(期望等级较高) 三级(高级别)
E(期望等级中等) 二级(中级别)
F(期望等级较低) 一级(低级别)
在另一示例中,可以基于识别概率确定响应等级,基于期望值确定期望等级。如果期望等级高于等于预设期望等级,表示用户的意图强烈,此时可以直接提高响应等级。或者,如果期望等级低于预设期望等级并且响应等级低于预设响应等级,表示用户的意图较低(无意图)并且识别概率也较低,为了避免在识别概率较低的情况下仍能触发响应(误响应),可以进一步降低响应等级,进一步降低误响应的可能性。
根据本公开的实施例,通过设置响应等级和期望等级,基于期望等级来调整响应等级,提高了识别概率的调整准确性和灵活性,从而提高语音识别的效果。
图5示意性示出了根据本公开一实施例的用于车辆环境的语音处理装置的框图。
如图5所示,本公开实施例的用于车辆环境的语音处理装置500例如包括识别模块510、调整模块520以及控制模块530。
识别模块510可以用于对待识别语音进行识别,得到识别结果和针对识别结果的识别概率。根据本公开实施例,识别模块510例如可以执行上文参考图2描述的操作S210,在此不再赘述。
调整模块520可以用于基于车辆行驶场景数据,调整识别概率,得到调整后的识别概率。根据本公开实施例,调整模块520例如可以执行上文参考图2描述的操作S220,在此不再赘述。
控制模块530可以用于基于调整后的识别概率,控制车辆基于识别结果执行操作。根据本公开实施例,控制模块530例如可以执行上文参考图2描述的操作S230,在此不再赘述。
根据本公开的实施例,调整模块520包括:确定子模块和调整子模块。确定子模块,用于基于车辆行驶场景数据,确定车辆响应识别结果的期望值;调整子模块,用于基于期望值,调整识别概率,得到调整后的识别概率。
根据本公开的实施例,调整子模块包括:增大单元和减小单元。增大单元,用于响应于期望值大于等于预设阈值,增大识别概率;减小单元,用于响应于期望值小于预设阈值,减小识别概率。
根据本公开的实施例,调整子模块包括:第一确定单元、第二确定单元、提高单元和降低单元。第一确定单元,用于基于识别概率确定响应等级;第二确定单元,用于基于期望值确定期望等级;提高单元,用于响应于期望等级高于等于预设期望等级,提高响应等级;降低单元,用于响应于期望等级低于预设期望等级,并且响应等级低于预设响应等级,降低响应等级。
根据本公开的实施例,确定子模块还用于:将车辆行驶场景数据输入机器学习模型中,输出期望值,其中,机器学习模型是通过以下方式得到的:获取车辆针对样本语音数据的响应结果,以及与样本语音数据相关联的样本行驶场景数据;将样本行驶场景数据输入机器学习模型,输出样本期望值;基于样本期望值和响应结果,调整机器学习模型的模型参数,得到经训练的机器学习模型。
根据本公开的实施例,识别结果包括唤醒词;控制模块530包括:第一控制子模块,用于基于调整后的识别概率,控制车辆基于唤醒词确定是否唤醒。
根据本公开的实施例,识别结果包括命令语句;控制模块530还包括:第二控制子模块,用于响应于车辆处于唤醒状态,基于调整后的识别概率,控制车辆基于命令语句确定是否执行操作。
根据本公开的实施例,车辆行驶场景数据包括以下至少一项:车辆运行状态数据、车辆所处的环境数据;其中,车辆运行状态数据包括以下至少一项:车辆的速度数据、车辆的启动状态数据;其中,环境数据包括以下至少一项:时间数据、地点数据。
在本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质、一种计算机程序产品和一种车辆。
根据本公开实施例,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行上文所描述的用于车辆环境的语音处理方法。
根据本公开实施例,提供了一种计算机程序产品,包括计算机程序/指令,计算机程序/指令被处理器执行时实现上文所描述的用于车辆环境的语音处理方法。
根据本公开实施例,提供了一种车辆,包括下文的电子设备。
图6是用来实现本公开实施例的用于执行用于车辆环境的语音处理的电子设备的框图。
图6示出了可以用来实施本公开实施例的示例电子设备600的示意性框图。电子设备600旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如用于车辆环境的语音处理方法。例如,在一些实施例中,用于车辆环境的语音处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的用于车辆环境的语音处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行用于车辆环境的语音处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程用于车辆环境的语音处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (20)

1.一种用于车辆环境的语音处理方法,包括:
对待识别语音进行识别,得到识别结果和针对所述识别结果的识别概率;
基于车辆行驶场景数据,调整所述识别概率,得到调整后的识别概率;以及
基于所述调整后的识别概率,控制所述车辆基于识别结果执行操作。
2.根据权利要求1所述的方法,其中,所述基于车辆行驶场景数据,调整所述识别概率,得到调整后的识别概率包括:
基于所述车辆行驶场景数据,确定所述车辆响应所述识别结果的期望值;以及
基于所述期望值,调整所述识别概率,得到调整后的识别概率。
3.根据权利要求2所述的方法,其中,所述基于所述期望值,调整所述识别概率,得到调整后的识别概率包括:
响应于所述期望值大于等于预设阈值,增大所述识别概率;以及
响应于所述期望值小于所述预设阈值,减小所述识别概率。
4.根据权利要求2所述的方法,其中,所述基于所述期望值,调整所述识别概率,得到调整后的识别概率包括:
基于所述识别概率确定响应等级;
基于所述期望值确定期望等级;
响应于所述期望等级高于等于预设期望等级,提高所述响应等级;以及
响应于所述期望等级低于所述预设期望等级,并且所述响应等级低于所述预设响应等级,降低所述响应等级。
5.根据权利要求2所述的方法,其中,所述基于所述车辆行驶场景数据,确定所述车辆响应所述识别结果的期望值包括:
将所述车辆行驶场景数据输入机器学习模型中,输出所述期望值,
其中,所述机器学习模型是通过以下方式得到的:
获取车辆针对样本语音数据的响应结果,以及与所述样本语音数据相关联的样本行驶场景数据;
将所述样本行驶场景数据输入所述机器学习模型,输出样本期望值;以及
基于所述样本期望值和所述响应结果,调整所述机器学习模型的模型参数,得到经训练的机器学习模型。
6.根据权利要求1所述的方法,其中,所述识别结果包括唤醒词;所述基于所述调整后的识别概率,控制所述车辆基于识别结果执行操作包括:
基于所述调整后的识别概率,控制所述车辆基于所述唤醒词确定是否唤醒。
7.根据权利要求6所述的方法,其中,所述识别结果包括命令语句;所述基于所述调整后的识别概率,控制所述车辆基于识别结果执行操作还包括:
响应于所述车辆处于唤醒状态,基于所述调整后的识别概率,控制所述车辆基于所述命令语句确定是否执行操作。
8.根据权利要求1-7中任意一项所述的方法,其中,所述车辆行驶场景数据包括以下至少一项:车辆运行状态数据、所述车辆所处的环境数据;
其中,所述车辆运行状态数据包括以下至少一项:车辆的速度数据、车辆的启动状态数据;
其中,所述环境数据包括以下至少一项:时间数据、地点数据。
9.一种用于车辆环境的语音处理装置,包括:
识别模块,用于对待识别语音进行识别,得到识别结果和针对所述识别结果的识别概率;
调整模块,用于基于车辆行驶场景数据,调整所述识别概率,得到调整后的识别概率;以及
控制模块,用于基于所述调整后的识别概率,控制所述车辆基于识别结果执行操作。
10.根据权利要求9所述的装置,其中,所述调整模块包括:
确定子模块,用于基于所述车辆行驶场景数据,确定所述车辆响应所述识别结果的期望值;以及
调整子模块,用于基于所述期望值,调整所述识别概率,得到调整后的识别概率。
11.根据权利要求10所述的装置,其中,所述调整子模块包括:
增大单元,用于响应于所述期望值大于等于预设阈值,增大所述识别概率;以及
减小单元,用于响应于所述期望值小于所述预设阈值,减小所述识别概率。
12.根据权利要求10所述的装置,其中,所述调整子模块包括:
第一确定单元,用于基于所述识别概率确定响应等级;
第二确定单元,用于基于所述期望值确定期望等级;
提高单元,用于响应于所述期望等级高于等于预设期望等级,提高所述响应等级;以及
降低单元,用于响应于所述期望等级低于所述预设期望等级,并且所述响应等级低于所述预设响应等级,降低所述响应等级。
13.根据权利要求10所述的装置,其中,所述确定子模块还用于:
将所述车辆行驶场景数据输入机器学习模型中,输出所述期望值,
其中,所述机器学习模型是通过以下方式得到的:
获取车辆针对样本语音数据的响应结果,以及与所述样本语音数据相关联的样本行驶场景数据;
将所述样本行驶场景数据输入所述机器学习模型,输出样本期望值;以及
基于所述样本期望值和所述响应结果,调整所述机器学习模型的模型参数,得到经训练的机器学习模型。
14.根据权利要求9所述的装置,其中,所述识别结果包括唤醒词;所述控制模块包括:
第一控制子模块,用于基于所述调整后的识别概率,控制所述车辆基于所述唤醒词确定是否唤醒。
15.根据权利要求14所述的装置,其中,所述识别结果包括命令语句;所述控制模块还包括:
第二控制子模块,用于响应于所述车辆处于唤醒状态,基于所述调整后的识别概率,控制所述车辆基于所述命令语句确定是否执行操作。
16.根据权利要求9-15中任意一项所述的装置,其中,所述车辆行驶场景数据包括以下至少一项:车辆运行状态数据、所述车辆所处的环境数据;
其中,所述车辆运行状态数据包括以下至少一项:车辆的速度数据、车辆的启动状态数据;
其中,所述环境数据包括以下至少一项:时间数据、地点数据。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现根据权利要求1-8中任一项所述方法的步骤。
20.一种车辆,包括根据权利要求17所述的电子设备。
CN202210308840.9A 2022-03-25 2022-03-25 用于车辆环境的语音处理方法、装置、设备、介质和车辆 Withdrawn CN114678023A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210308840.9A CN114678023A (zh) 2022-03-25 2022-03-25 用于车辆环境的语音处理方法、装置、设备、介质和车辆

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210308840.9A CN114678023A (zh) 2022-03-25 2022-03-25 用于车辆环境的语音处理方法、装置、设备、介质和车辆

Publications (1)

Publication Number Publication Date
CN114678023A true CN114678023A (zh) 2022-06-28

Family

ID=82076622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210308840.9A Withdrawn CN114678023A (zh) 2022-03-25 2022-03-25 用于车辆环境的语音处理方法、装置、设备、介质和车辆

Country Status (1)

Country Link
CN (1) CN114678023A (zh)

Similar Documents

Publication Publication Date Title
KR20210098880A (ko) 차량용 기기의 음성 처리 방법, 장치, 기기 및 저장 매체
KR102555801B1 (ko) 노이즈 제거 알고리즘 디버깅 방법, 장치 및 전자기기
CN111402877A (zh) 基于车载多音区的降噪方法、装置、设备和介质
CN112133307A (zh) 人机交互方法、装置、电子设备及存储介质
CN113157877A (zh) 多语义识别方法、装置、设备和介质
CN113415126A (zh) 控制车载空调的方法、装置、电子设备和介质
JP7383761B2 (ja) 車両に対する音声処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN114678023A (zh) 用于车辆环境的语音处理方法、装置、设备、介质和车辆
CN113554062B (zh) 多分类模型的训练方法、设备和存储介质
CN114399992A (zh) 语音指令响应方法、装置及存储介质
CN114120982A (zh) 语音识别方法、语音处理方法、装置和自动驾驶车辆
CN114842839A (zh) 车载人机交互方法、装置、设备、存储介质及程序产品
EP4068278A2 (en) Method and apparatus for voice recognition, electronic device and storage medium
CN113641639A (zh) 日志上报方法、装置、电子设备及存储介质
CN113380246A (zh) 指令执行方法、相关装置及计算机程序产品
CN117877470A (zh) 语音关联方法、装置、设备及存储介质
CN113918334A (zh) 一种设备性能优化方法、装置、电子设备及存储介质
CN115910025A (zh) 语音处理方法、装置、电子设备和介质
CN117249845A (zh) 语音播报方法、装置、电子设备与可读存储介质
CN116863926A (zh) 语音控制方法、装置、设备和存储介质
CN114495923A (zh) 智能控制系统实现方法、装置、电子设备及存储介质
CN117061944A (zh) 一种适配车辆行驶状况的音响设备控制方法及系统
CN116959431A (zh) 语音的识别方法、装置、车辆、电子设备和存储介质
CN117493639A (zh) 一种兴趣点处理方法、装置、电子设备和存储介质
CN114239687A (zh) 数据处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20220628