CN112102832B - 语音识别方法、装置、服务器和计算机可读存储介质 - Google Patents

语音识别方法、装置、服务器和计算机可读存储介质 Download PDF

Info

Publication number
CN112102832B
CN112102832B CN202010988968.5A CN202010988968A CN112102832B CN 112102832 B CN112102832 B CN 112102832B CN 202010988968 A CN202010988968 A CN 202010988968A CN 112102832 B CN112102832 B CN 112102832B
Authority
CN
China
Prior art keywords
understanding
input information
result
voice
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010988968.5A
Other languages
English (en)
Other versions
CN112102832A (zh
Inventor
赵耀
易晖
唐乾斌
翁志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202010988968.5A priority Critical patent/CN112102832B/zh
Publication of CN112102832A publication Critical patent/CN112102832A/zh
Application granted granted Critical
Publication of CN112102832B publication Critical patent/CN112102832B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开了一种语音识别方法。语音识别方法包括:判断输入信息的类别;若输入信息包括语音输入信息和用户图形界面信息,根据预存的模板对语音输入信息进行语言理解处理以得到第一理解结果;结合图形用户界面对语音输入信息进行语言理解处理以生成第二理解结果;对第一理解结果和第二理解结果进行融合处理以实现对输入信息的语音识别。本申请实施方式的语音识别方法中,在用户与车辆进行语音交互过程中,根据输入信息类别,对输入信息采用不同策略进行自然语言理解,并对基于不同策略进行语言理解的结果进行融合,不同策略之间的理解效果互相补充,对于输入信息的语音识别效果更佳。本申请还公开了一种语音识别装置、服务器及存储介质。

Description

语音识别方法、装置、服务器和计算机可读存储介质
技术领域
本申请涉及语音识别技术领域,特别涉及一种用于车辆的语音识别方法、语音识别装置、服务器和计算机可读存储介质。
背景技术
随着人工智能技术的发展,语音智能平台或者说语音助手因为能够在一定条件下识别用户的语音输入并生成相应的操作指令,为用户操作车辆设备,例如车辆的中控显示屏,提供了极大的便利,而被广泛应用。然而,相关技术中,通常采用单一的自然语言理解处理策略进行语音识别,无法兼顾识别的精度和召回,语音识别效果不佳,用户体验较差。
发明内容
有鉴于此,本申请的实施例提供了一种用于车辆的语音识别方法、语音识别装置、服务器和计算机可读存储介质。
本申请提供了一种用于车辆的语音识别方法,包括:
判断输入信息的类别,所述类别包括形式类别;
若所述输入信息包括语音输入信息和用户图形界面信息,根据预存的模板对所述语音输入信息进行语言理解处理以得到第一理解结果;
结合图形用户界面对所述语音输入信息进行语言理解处理以生成第二理解结果;
对所述第一理解结果和第二理解结果进行融合处理以实现对所述输入信息的语音识别。
在某些实施方式中,所述语音识别方法还包括:
若所述输入信息仅包括语音输入信息,根据预存的模板对所述语音输入信息进行语言理解处理以实现对所述输入信息的语音识别。
在某些实施方式中,所述根据预存的模板对所述语音输入信息进行语言理解处理以得到第一理解结果包括:
基于预定模板对所述语音输入信息进行语言理解以生成第一理解子结果;
基于预定的分类模型对输入的语音信息进行语言理解以生成第二理解子结果;
将所述第一理解子结果和所述第二理解子结果进行融合以得到所述第一理解结果。
在某些实施方式中,所述结合图形用户界面对所述语音输入信息进行语言理解处理以生成第二理解结果包括:
基于图形用户界面对所述语音输入信息进行语言理解以生成第三理解子结果;
基于知识推理对所述语音输入信息进行语言理解以生成第四理解子结果;
将所述第三理解子结果和所述第四理解子结果进行融合以得到所述第二理解结果。
在某些实施方式中,所述类别还包括场景类别,所述场景类别包括预定领域场景和通用领域场景,所述对所述第一理解结果和第二理解结果进行融合处理以实现对所述输入信息的语音识别包括:
若所述输入信息属于通用场景领域,根据预设的通用融合策略对所述第一理解结果和所述第二理解结果进行融合处理。
在某些实施方式中,所述对所述第一理解结果和第二理解结果进行融合处理以实现对所述输入信息的语音识别包括:
若所述输入信息属于预定场景领域,根据自定义融合策略对所述第一理解结果和所述第二理解结果进行融合处理。
在某些实施方式中,所述语音识别方法还包括:
根据用户输入对所述自定义融合策略进行动态热更新。
本申请提供了一种用于车辆的语音识别装置,所述语音识别装置包括:
判断模块,判断输入信息的类别,所述类别包括形式类别;
处理模块,若所述输入信息包括语音输入信息和用户图形界面信息,根据预存的模板对所述语音输入信息进行语言理解处理以得到第一理解结果;
所述处理模块还用于结合图形用户界面对所述语音输入信息进行语言理解处理以生成第二理解结果;
融合模块,用于对所述第一理解结果和第二理解结果进行融合处理以实现对所述输入信息的语音识别。
本申请提供了一种服务器,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现所述的语音识别方法。
本申请提供了一种包含计算机可执行指令的非易失性计算机可读存储介质,当所述计算机程序被一个或多个处理器执行时,实现所述的语音识别方法。
本申请实施方式的语音识别方法、语音识别装置、服务器和计算机可读存储介质中,在用户与车辆进行语音交互过程中,根据输入信息类别,对输入信息采用不同策略进行自然语言理解,并对基于不同策略进行语言理解的结果进行融合,不同策略之间的理解效果互相补充,对于输入信息的语音识别效果更佳。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请某些实施方式的语音识别方法的流程示意图。
图2是本申请某些实施方式的语音识别装置的模块示意图。
图3是本申请某些实施方式的语音识别方法的流程示意图。
图4是本申请某些实施方式的语音识别方法的流程示意图。
图5是本申请某些实施方式的语音识别方法的流程示意图。
图6是本申请某些实施方式的语音识别方法的流程示意图。
图7是本申请某些实施方式的语音识别方法的流程示意图。
图8是本申请某些实施方式的语音识别方法的交互示意图。
图9是本申请某些实施方式的语音识别方法的流程示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
请参阅图1,本申请提供了一种用于车辆的语音识别方法。包括:
S10:判断输入信息的类别;
S20:若输入信息包括语音输入信息和用户图形界面信息,根据预存的模板对语音输入信息进行语言理解处理以得到第一理解结果;
S30:结合图形用户界面对语音输入信息进行语言理解处理以生成第二理解结果;
S40:对第一理解结果和第二理解结果进行融合处理以实现对输入信息的语音识别。
本申请实施方式提供了一种服务器。服务器包括通信元件和处理器。通信元件用于接收车辆上传的输入信息。处理器用于判断输入信息的类别,及用于在输入信息包括语音输入信息和用户图形界面信息的情况下,根据预存的模板对语音输入信息进行语言理解处理以得到第一理解结果,及用于结合图形用户界面对语音输入信息进行语言理解处理以生成第二理解结果,以及用于对第一理解结果和第二理解结果进行融合处理以实现对输入信息的语音识别。
请参阅图2,本申请实施方式还提供了一种语音识别装置100,本申请实施方式的语音识别方法可以由本申请实施方式的语音识别装置100实现。
具体地,语音识别装置100包括判断模块102、处理模块104和融合模块106。S10可以由判断模块102实现,S20、S30可以由处理模块104实现,S40可以由融合模块106实现。或者说,判断模块102用于判断输入信息的类别。处理模块104用于在输入信息包括语音输入信息和用户图形界面信息的情况下,根据预存的模板对语音输入信息进行语言理解处理以得到第一理解结果,及用于结合图形用户界面对语音输入信息进行语言理解处理以生成第二理解结果。融合模块106用于对第一理解结果和第二理解结果进行融合处理以实现对输入信息的语音识别。
本申请实施方式的用于车辆的语音识别方法、语音识别装置100和服务器中,在用户与车辆进行交互过程中,根据输入信息类别,对输入信息采用不同策略进行自然语言理解,并对基于不同策略进行语言理解的结果进行融合,不同策略之间的理解效果互相补充,对于输入信息的语音识别效果更佳。
具体地,车辆包括显示区域、电声元件、通信元件和处理器等。车辆的显示区域可以包括仪表屏、车载显示区域屏幕以及车辆挡风玻璃上可以实现的抬头显示等。车辆上运行的车载系统使用图形用户界面(Graphical User Interface,GUI)为用户呈现展示的内容。显示区域包括诸多UI元素,不同的显示区域可以展示相同或不同的UI元素。其中,UI元素可以包括卡片对象、应用程序图标或界面、文件夹图标、多媒体文件图标以及用于进行交互可操作的控件等。其中,车辆的显示区域可以为用户提供控制车辆以及与车辆进行交互的便捷入口,在车载操作系统中添加语音助手,能够在一定条件下通过识别语音便捷地生成相应的控制指令,进一步地为用户与车辆的交互提供便利。然而,语音助手能够进行的语音交互有限,通常只能与预设定的操作目标进行交互,而对于非预定的操作目标无法理解用户的真实目的,用户仅能通过在图形用户界面中对操作目标进行输入,与操作目标进行交互,而无法通过语音实现交互。并且对于输入的不同的语音指令,在进行自然语言理解的过程中,通常不进行区分,采用单一的自然语言理解处理单元进行处理。然而如此,无法兼顾精度与召回率,语音识别效果不佳,用户体验较差。
在本实施方式中,在一些应用场景中,用户唤醒语音助手后,进行信息输入,例如用户通过当前图形用户界面进行车辆的相关控制而发出语音控制指令,如在空调控制界面中下达相关的空调控制指令,再如在多媒体图形用户界面中下达多媒体播放的相关播放控制指令等。在诸如上述应用场景中,在获取语音信息的同时,获取车辆系统当前正在运行的车载系统或应用程序的图形用户界面信息。图形用户界面信息包括当前图形用户界面中元素的布局信息,如当前图形用户界面中包含的控件、每个控件的类型、位置,不同控件之间的关联关系等。
具体地,图形用户界面信息,以图形用户界面中的控件为单位,信息包括控件的控件标识、控件类型、文本描述、控件支持的操作方式、操作参数、多个控件在界面中的位置、布局关系等相关属性。
其中,控件标识可用于标识当前图形用户界面中的每个元素,每个元素具有唯一的标识。元素也即是当前图形用户界面中呈现的内容,以信息点卡片界面为例,其中的元素包括信息点名称、地址、收藏、搜周边、导航路线等。
文本描述,也即是对该元素在图形用户界面中的表达方式,例如,对于收藏控件,其文本描述为“收藏”。
控件类型也即是该元素在图形用户界面中的元素呈现类型,例如按钮、滑块、状态按钮、文本输入框、复选框、单选按钮、群组按钮、开关按钮、视图、组、对话框等。
控件支持的操作方式,即对应类型的控件可以进行的操作,例如按钮可支持的操作包括点击及选中,滑块可支持的操作包括滑动及选中,状态按钮可支持的操作包括点击、滑动、选中、单选及多选,文本输入框可支持的操作包括点击、选中及输入文本复选框可支持的操作包括点击、多选及选中,单选按钮可支持的操作包括点击、单选及选中,群组按钮可支持的操作包括点击、方位滑动和选中,开关按钮可支持的操作包括点击、打开、关闭和选中,视图可支持的操作包括点击、方位滑动、单选和选中、组可支持的操作包括点击和选中、对话框的操作包括点击和方位滑动。
操作参数对应操作方式的程度,例如,点击对应的操作参数为短按、长按,方位滑动对应的操作参数为大中小等。
多个控件在界面中的位置以及布局关系反映了相关元素在图形用户界面中的布局信息,相当于为服务器提供了视觉信息,使得服务器能够获取到用户所见的图形用户界面。
进一步地,车辆将本地采集的语音输入信息和图形用户界面信息发送至云端的服务器,服务器判断上传的输入信息包括语音输入信息以及图形用户信息,在对语音输入信息进行自然语言理解的处理过程中,分为两路执行。具体而言,其中一路为根据预存的模板对语音输入信息进行自然语言理解处理。另一路为结合图形用户界面对语音输入信息进行自然语言理解处理。基于上述两种策略对语音输入信息分别进行语言理解处理从而得到第一理解结果和第二理解结果,进一步地,对第一理解结果和第二理解结果进行融合,从而得到最终的理解结果实现对输入信息的语音识别。
可以理解地,基于预存的模板对语音输入信息进行语言理解处理能够在一定程度上保证输入信息泛化的召回,结合图形用户界面信息可以保证语音交互与图形用户界面的一致从而提高精确度。如此,采用不同策略进行语言理解处理,实现了不同策略之间的优势互补,兼顾了召回率与准确率从而使得语音识别的效果更好。
在一个示例中,用户在车窗调节的图形用户界面,并发出打开车窗相关的语音指令,经过语音文本转换后,语音输入信息和车窗调节的图形用户界面信息共同上传至服务器,服务器根据预存的模板对语音输入信息进行语言理解处理得到第一理解结果,结合图形用户界面信息进行语言理解处理得到第二理解结果,例如,用户发出的语音指令为“打开”,根据预定的模板可能召回多个结果,例如召回系统内所有可开关的功能结果如车窗、车门、车灯等的第一理解结果。而结合当前图形用户界面信息,即车窗调节的图形用户界面信息,可以返回打开车窗的结果的第二理解结果。进一步地,对第一理解结果和第二理解结果进行融合处理得到最终的理解结果,从而实现对输入信息的语音识别。融合处理可以根据不同的业务需求,设定相关的融合规则,例如,对于输入信息中包含图形用户界面信息的业务,由于其在进行自然语言理解处理时,结合用户所见,准确度更高,因此,在融合处理时,第二理解结果优先作为最终的融合结果。
请参阅图3,在某些实施方式中,语音识别方法还包括:
S50:若输入信息仅包括语音输入信息,根据预存的模板对语音输入信息进行语言理解处理以实现对输入信息的语音识别。
在某些实施方式中,S50可以由处理模块104实现。也即是说,处理模块104用于在输入信息仅包括语音输入信息的情况下,根据预存的模板对语音输入信息进行语言理解处理以实现对输入信息的语音识别。
在某些实施方式中,处理器用于在输入信息仅包括语音输入信息的情况下,根据预存的模板对语音输入信息进行语言理解处理以实现对输入信息的语音识别。
具体地,在一些场景中,用户可能并没有在某一图形操作界面输入语音指令,或者在一连续对话中,输入的语音信息与当前的用户图形界面并不匹配,例如在导航界面用户希望播放歌曲,在这种状态下无法有效地结合用户图形用户界面信息,需要通过预存的模板进行语言理解处理。
请参阅图4,在某些实施方式中,S20包括:
S21:基于预定模板对语音输入信息进行语言理解以生成第一理解子结果;
S22:基于预定的分类模型对输入的语音信息进行语言理解以生成第二理解子结果;
S23:将第一理解子结果和第二理解子结果进行融合以得到第一理解结果。
在某些实施方式中,S21、S22可以由处理模块104实现,S23可以由融合模块106实现。或者说,处理模块104用于基于预定模板对语音输入信息进行语言理解以生成第一理解子结果,以及用于基于预定的分类模型对输入的语音信息进行语言理解以生成第二理解子结果。融合模块106用于将第一理解子结果和第二理解子结果进行融合以得到第一理解结果。
在某些实施方式中,处理器用于基于预定模板对语音输入信息进行语言理解以生成第一理解子结果,及用于基于预定的分类模型对输入的语音信息进行语言理解以生成第二理解子结果。以及用于将第一理解子结果和第二理解子结果进行融合以得到第一理解结果。
具体地,采用预存模板对语音输入信息进行语言理解处理分为两个组别。可以理解地,不同模板的处理侧重不同,有的模板侧重于理解结果的准确性,有的模板侧重于理解结果的召回率。而侧重性一致的不同模板对于不同领域的业务也各有互补。在本实施例中,其中一个分组以精度优先为侧重,其中的模板可包括AC自动机模板、句法树模板以及正则表达式模板等。另一个分组以召回优先为侧重,其中的模型可包括BERT分类模型、LSTM分类模型以及GBDT分类模型等。
在实际操作中,对于每一条语音输入信息,经过上述的预定模板进行语言理解处理,可以分别得到对应的第一理解子结果。相对应地,该条语音输入信息,还会经过上述预定的分类模型从而生成对应的第二理解子结果,进而将第一理解子结果和第二理解子结果经过相应的融合策略,实现对第一理解子结果和第二理解子结果的融合处理。
融合策略包括通用融合策略和自定义融合策略,通用融合策略适用于所有业务,自定义融合策略针对一些特定业务设定特定策略。
具体而言,通用融合策略,根据各个理解子结果的置信度调整相应理解子结果的权重和优先级,然后对各个理解子结果加权投票进行融合处理。
可以理解地,不同的语言理解擅长的领域有所不同,例如导航类指令的理解,跟音乐类指令理解可能会有不一样的融合策略。在自定义融合策略中,可考虑是否命中句式模板、上下文是否来自同一个领域,来调整相关理解子结果的优先级,在自定义融合策略中还可以直接选用多个理解子结果中的某一个作为最终的融合结果。
自定义融合策略支持热更新,服务器的维护人员可以通过对输入信息的自然语言理解的大数据信息,不断调整融合策略,增添新的特定业务场景。通过这种分层机制,保证了多个理解子结果的融合可以有足够的弹性,既有通用性,又可以适配特殊业务场景需要。
在一个示例中,例如对于一条语音输入信息“北京北京”,经过上述的预定模板和分类模型得到如播放音乐、导航到北京、查询地点等结果,上述结果分别对应的权重为70%、10%、20%,经过加权投票可以得到融合后的结果为播放音乐。
请参阅图5,在某些实施方式中,S30包括:
S31:基于图形用户界面对语音输入信息进行语言理解以生成第三理解子结果;
S32:基于知识推理对语音输入信息进行语言理解以生成第四理解子结果;
S33:将第三理解子结果和第四理解子结果进行融合以得到第二理解结果。
在某些实施方式中,S31、S32可以由处理模块104实现,S33可以由融合模块106实现。或者说,处理模块104用于基于图形用户界面对语音输入信息进行语言理解以生成第三理解子结果,以及用于基于知识推理对语音输入信息进行语言理解以生成第四理解子结果。融合模块106用于将第三理解子结果和第四理解子结果进行融合以得到第二理解结果。
在某些实施方式中,处理器用于基于图形用户界面对语音输入信息进行语言理解以生成第三理解子结果,及用于基于知识推理对语音输入信息进行语言理解以生成第四理解子结果,以及用于将第三理解子结果和第四理解子结果进行融合以得到第二理解结果。
相类似地,在结合图形用户界面信息对语音输入信息进行自然语言理解处理时,同样基于精度和召回率的不同侧重考虑,设置了不同的语言处理分组,从而通过不同的处理路径实现对同一语音输入信息进行语言理解处理,进而对基于不同策略得到的结果进行融合,从而得到第二语音理解结果。
具体地,本实施方式中,以精度优先为侧重可以是基于图形用户界面对语音输入信息进行语言理解,例如可采用包括GUI控件匹配、精准匹配、文本匹配、动词匹配、模糊匹配、拼音匹配等处理方式。以召回优先为侧重可以是基于推理知识对语音输入信息进行语言理解,例如,可采用基于动作词搭配推理,基于实体同义词推理,基于抽象归类推理等处理方式。
在实际操作中,对于每一条语音输入信息,基于图形用户界面进行语言理解,可以分别得到对应的第三理解子结果。相对应地,该条语音输入信息,还会经过知识推理从而生成对应的第四理解子结果,进而将第三理解子结果和第四理解子结果经过相应的融合策略,实现对第三理解子结果和第四理解子结果的融合处理。
融合策略包括通用融合策略和自定义融合策略,通用融合策略适用于所有业务,自定义融合策略针对一些特定业务设定特定策略。
具体而言,通用融合策略,可基于精度优先兼顾召回的原则,对各个理解子结果采用打分、投票等机制,如少数服从多数,加权投票机制,胜者树机制,以及机器学习模型融合中的相关策略例如Boosting和Bagging等,进行融合。
在一个示例中,融合策略可以是对经语言理解处理后输入信息的意图清晰度、字段的完整度进行打分,根据打分权重调整各个理解子结果在融合投票过程中的优先级。
可以理解地,不同的语言理解擅长的领域有所不同,例如导航类指令的理解,跟音乐类指令理解可能会有不一样的融合策略。在自定义融合策略中,可考虑动作词与实体搭配度、关键实体词是否精准匹配等条件,来调整相关理解子结果的优先级,在自定义融合策略中还可以直接选用多个理解子结果中的某一个作为最终的融合结果。
自定义融合策略支持热更新,服务器的维护人员可以通过对输入信息的自然语言理解的大数据信息,不断调整融合策略,增添新的特定业务场景。通过这种分层机制,保证了多个理解子结果的融合可以有足够的弹性,既有通用性,又可以适配特殊业务场景需要。
在一个示例中,例如对于一控件“导航音量”,该控件支持的操作方式为调大和调小。结合图形用户界面,采用不同匹配处理方式,对于不同表述的语音方式都可以最终匹配到该控件以及相关操作。例如语音输入信息“调大导航音量”可以通过精准匹配处理匹配到该控件以及动作。语音输入信息“导航音量”可以通过文本匹配处理匹配到该控件。语音输入信息“调大一些”可以通过动作词匹配处理匹配到控件的操作方式。语音输入信息“导航声音”可以通过模糊匹配处理匹配到该控件。语音输入信息“dao hang音量”可以通过拼音匹配处理匹配该控件。如此,上述的语言理解处理方式各自胜任一部分能力,最终结合起来可以具有较好的效果。
动作词搭配推理,是根据语音输入信息中与相关动词搭配的程度进行匹配结果的召回,例如语音输入信息“调小”,根据匹配程度,与调小可合理搭配的主体可以是灯光、音量等,而车门等搭配度较低,不进行召回。
实体同义词推理,是将语音输入信息中的实体词进行同义扩展,使得语音输入信息得以泛化,从而能够召回更多的结果。例如语音输入信息“主驾车窗”可扩展为“左前车窗”。
抽象归类推理,是将语音输入信息中的实体词进行上位归类,使得语音输入信息得以泛化,从而能够召回更多的结果。例如语音输入信息“近光灯”可扩展为“车灯”。
需要说明地,不同分组内的处理方式不限于本申请公开的方式,能够实现所需目的的自然语言理解处理方式都可以根据需求添加。
请参阅图6,在某些实施方式中,输入信息的类别还包括场景类别,场景类别包括预定领域场景和通用领域场景,S40包括:
S41:若输入信息属于通用场景领域,根据预设的通用融合策略对第一理解结果和所述第二理解结果进行融合处理。
在某些实施方式中,S41可以由融合模块106实现。或者说,融合模块106用于在在输入信息属于通用场景领域的情况下,根据预设的通用融合策略对第一理解结果和所述第二理解结果进行融合处理。
在某些实施方式中,处理器用于在输入信息属于通用场景领域的情况下,根据预设的通用融合策略对第一理解结果和所述第二理解结果进行融合处理。
具体地,对于每一条输入信息,根据其形式类别,经过语言理解处理可能得到第一理解结果和第二理解结果。上述实施方式解释了由理解子结果经过融合处理得到第一理解结果和第二理解结果的过程。可以理解地,在得到第一理解结果和第二理解结果后,需要再次进行融合处理,从而得到最终的融合结果,也即是对输入信息的语音识别。
相类似地,第一理解结果和第二理解结果的融合策略包括通用融合策略。通用融合策略适用于所有业务。
具体而言,通用融合策略,可基于图形用户信息匹配优先原则,然后对第一理解结果和第二理解结果采用打分、投票等机制,如少数服从多数,加权投票机制,胜者树机制,以及机器学习模型融合中的相关策略例如Boosting和Bagging等,进行融合。
在一个示例中,融合策略可以是对对话的上下文连贯性进行打分,根据打分权重调整第一理解结果和第二理解结果在融合投票过程中的优先级。
例如,对于一个连续的多轮对话,用户输入信息“播放一首音乐”,系统反馈“您想听什么歌曲”,用户回复“北京北京”。
对于“北京北京”这个语音输入信息,第一理解结果和第二理解结果可能分别为播放音乐或进行导航,但根据上下文连贯性,可以知道其应该与上文中提及的播放音乐属于同一领域,在融合过程中,会根据其上下文连贯性提升播放音乐这个结果的权重。
请参阅图7和8,在某些实施方式中,S40还包括:
S42:若输入信息属于预定场景领域,根据自定义融合策略对第一理解结果和第二理解结果进行融合处理。
在某些实施方式中,S42可以由融合模块106实现,也即是说,融合模块106用于在输入信息属于预定场景领域的情况下,根据自定义融合策略对第一理解结果和第二理解结果进行融合处理。
在某些实施方式中,处理器用于在输入信息属于预定场景领域的情况下,根据自定义融合策略对第一理解结果和第二理解结果进行融合处理。
具体地,对于第一理解结果和第二理解结果的融合策略还包括自定义融合策略,自定义融合策略针对一些特定业务设定特定策略。可以理解地,不同的语言理解擅长的领域有所不同,例如导航类指令的理解,跟音乐类指令理解可能会有不一样的融合策略。在自定义融合策略中,针对特定的业务领域可仅考虑上下文的连贯性,而直接采用第一理解结果或第二理解结果中的某一个作为最终的融合结果,或根据业务领域调整第一理解结果和第二理解的优先级。例如,对于导航领域的业务,可以不采用结合图形用户界面信息的第二理解结果,而直接将第一理解结果作为最终的融合结果。又如,对于车辆控制领域,结合图形用户界面信息的第二理解结果具有更高的优先级。
如此,通过这种分层机制,保证了多个理解子结果的融合可以有足够的弹性,既有通用性,又可以适配特殊业务场景需要。
请参阅图9,在某些实施方式中,语音识别方法还包括:
S60:根据用户输入对自定义融合策略进行动态热更新。
在某些实施方式中,语音识别装置100还包括更新模块108。S60可以由更新模块108实现。也即是说,更新模块108用于根据用户输入对自定义融合策略进行动态热更新。
在某些实施方式中,处理器用于根据用户输入对自定义融合策略进行动态热更新。
具体地,服务器的维护人员可以根据收集回的对输入信息的自然语言理解的大数据信息,不断调整融合策略,例如对投票机制、投票权重进行修订,以使得最终的融合结果更加贴近用户的真实意图,再如,增添新的特定业务场景,以及对于新增业务场景的融合策略的设置。热更新可以随时进行动态添加,无需对原有策略的架构进行修改,更加快捷方便并且易于维护。
本申请实施方式还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质,当计算机可执行指令被一个或多个处理器执行时,使得处理器执行上述任一实施方式的车辆的语音交互方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,程序可存储于一非易失性计算机可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种用于车辆的语音识别方法,其特征在于,包括:
判断输入信息的类别,所述类别包括形式类别;
若所述输入信息包括语音输入信息和用户图形界面信息,根据预存的模板对所述语音输入信息进行语言理解处理以得到第一理解结果,其中,所述语言理解处理基于对理解结果的不同侧重,分别采用预定模板和预定分类模型对所述语音输入信息进行;
结合图形用户界面对所述语音输入信息进行语言理解处理以生成第二理解结果;
对所述第一理解结果和第二理解结果进行融合处理以实现对所述输入信息的语音识别。
2.根据权利要求1所述的语音识别方法,其特征在于,所述语音识别方法还包括:
若所述输入信息仅包括语音输入信息,根据预存的模板对所述语音输入信息进行语言理解处理以实现对所述输入信息的语音识别。
3.根据权利要求1所述的语音识别方法,其特征在于,所述根据预存的模板对所述语音输入信息进行语言理解处理以得到第一理解结果包括:
基于预定模板对所述语音输入信息进行语言理解以生成第一理解子结果;
基于预定的分类模型对输入的语音信息进行语言理解以生成第二理解子结果;
将所述第一理解子结果和所述第二理解子结果进行融合以得到所述第一理解结果。
4.根据权利要求1所述的语音识别方法,其特征在于,所述结合图形用户界面对所述语音输入信息进行语言理解处理以生成第二理解结果包括:
基于图形用户界面对所述语音输入信息进行语言理解以生成第三理解子结果;
基于知识推理对所述语音输入信息进行语言理解以生成第四理解子结果;
将所述第三理解子结果和所述第四理解子结果进行融合以得到所述第二理解结果。
5.根据权利要求1所述的语音识别方法,其特征在于,所述类别还包括场景类别,所述场景类别包括预定领域场景和通用领域场景,所述对所述第一理解结果和第二理解结果进行融合处理以实现对所述输入信息的语音识别包括:
若所述输入信息属于通用场景领域,根据预设的通用融合策略对所述第一理解结果和所述第二理解结果进行融合处理。
6.根据权利要求5所述的语音识别方法,其特征在于,所述对所述第一理解结果和第二理解结果进行融合处理以实现对所述输入信息的语音识别包括:
若所述输入信息属于预定场景领域,根据自定义融合策略对所述第一理解结果和所述第二理解结果进行融合处理。
7.根据权利要求6所述的语音识别方法,其特征在于,所述语音识别方法还包括:
根据用户输入对所述自定义融合策略进行动态热更新。
8.一种用于车辆的语音识别装置,其特征在于,所述语音识别装置包括:
判断模块,判断输入信息的类别,所述类别包括形式类别;
处理模块,若所述输入信息包括语音输入信息和用户图形界面信息,根据预存的模板对所述语音输入信息进行语言理解处理以得到第一理解结果,其中,所述语言理解处理基于对理解结果的不同侧重,分别采用预定模板和预定分类模型对所述语音输入信息进行;
所述处理模块还用于结合图形用户界面对所述语音输入信息进行语言理解处理以生成第二理解结果;
融合模块,用于对所述第一理解结果和第二理解结果进行融合处理以实现对所述输入信息的语音识别。
9.一种服务器,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现权利要求1-7任一项所述的语音识别方法。
10.一种计算机程序的非易失性计算机可读存储介质,其特征在于,当所述计算机程序被一个或多个处理器执行时,实现权利要求1-7中任一项所述的语音识别方法。
CN202010988968.5A 2020-09-18 2020-09-18 语音识别方法、装置、服务器和计算机可读存储介质 Active CN112102832B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010988968.5A CN112102832B (zh) 2020-09-18 2020-09-18 语音识别方法、装置、服务器和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010988968.5A CN112102832B (zh) 2020-09-18 2020-09-18 语音识别方法、装置、服务器和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112102832A CN112102832A (zh) 2020-12-18
CN112102832B true CN112102832B (zh) 2021-12-28

Family

ID=73759535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010988968.5A Active CN112102832B (zh) 2020-09-18 2020-09-18 语音识别方法、装置、服务器和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112102832B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113223522B (zh) * 2021-04-26 2022-05-03 北京百度网讯科技有限公司 语音识别方法、装置、设备和存储介质
CN113571064B (zh) * 2021-07-07 2024-01-30 肇庆小鹏新能源投资有限公司 自然语言理解方法及装置、交通工具及介质
CN113689851B (zh) * 2021-07-27 2024-02-02 国家电网有限公司 调度专业语言理解系统及方法
CN113990301B (zh) * 2021-12-28 2022-05-13 广州小鹏汽车科技有限公司 语音交互方法及其装置、服务器和可读存储介质
CN115457951A (zh) * 2022-05-10 2022-12-09 北京罗克维尔斯科技有限公司 一种语音控制方法、装置、电子设备以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8255218B1 (en) * 2011-09-26 2012-08-28 Google Inc. Directing dictation into input fields
CN105161106A (zh) * 2015-08-20 2015-12-16 深圳Tcl数字技术有限公司 智能终端的语音控制方法、装置及电视机系统
CN109326290A (zh) * 2018-12-10 2019-02-12 苏州思必驰信息科技有限公司 语音识别方法及装置
CN109448727A (zh) * 2018-09-20 2019-03-08 李庆湧 语音交互方法以及装置
KR20200019522A (ko) * 2018-08-14 2020-02-24 주식회사 알티캐스트 Gui 음성제어 장치 및 방법
CN111309283A (zh) * 2020-03-25 2020-06-19 北京百度网讯科技有限公司 用户界面的语音控制方法、装置、电子设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9430186B2 (en) * 2014-03-17 2016-08-30 Google Inc Visual indication of a recognized voice-initiated action
CN108885870A (zh) * 2015-12-01 2018-11-23 流利说人工智能公司 用于通过将言语到文本系统与言语到意图系统组合来实现声音用户接口的系统和方法
US11074249B2 (en) * 2018-04-10 2021-07-27 Intel Corporation Dynamic adaptation of language understanding systems to acoustic environments
CN108920622B (zh) * 2018-06-29 2021-07-20 北京奇艺世纪科技有限公司 一种意图识别的训练方法、训练装置和识别装置
CN109671421B (zh) * 2018-12-25 2020-07-10 苏州思必驰信息科技有限公司 离线导航的定制和实现方法及装置
CN110442870B (zh) * 2019-08-02 2023-06-09 深圳市珍爱捷云信息技术有限公司 文本纠错方法、装置、计算机设备和存储介质
CN111429903B (zh) * 2020-03-19 2021-02-05 百度在线网络技术(北京)有限公司 音频信号识别方法、装置、系统、设备和可读介质
CN111462735B (zh) * 2020-04-10 2023-11-28 杭州网易智企科技有限公司 语音检测方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8255218B1 (en) * 2011-09-26 2012-08-28 Google Inc. Directing dictation into input fields
CN105161106A (zh) * 2015-08-20 2015-12-16 深圳Tcl数字技术有限公司 智能终端的语音控制方法、装置及电视机系统
KR20200019522A (ko) * 2018-08-14 2020-02-24 주식회사 알티캐스트 Gui 음성제어 장치 및 방법
CN109448727A (zh) * 2018-09-20 2019-03-08 李庆湧 语音交互方法以及装置
CN109326290A (zh) * 2018-12-10 2019-02-12 苏州思必驰信息科技有限公司 语音识别方法及装置
CN111309283A (zh) * 2020-03-25 2020-06-19 北京百度网讯科技有限公司 用户界面的语音控制方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Development of GUI for Text-to-Speech Recognition using Natural Language Processing;Partha Mukherj ee et al;《2018 2nd International Conference on Electronics, Materials Engineering & Nano-Technology (IEMENTech)》;20181231;全文 *
基于场景语义的3D交互体系结构;纪连恩等;《计算机辅助设计与图形学学报》;20060820(第08期);全文 *
基于智慧工厂的语音交互设计研究;桂宇晖等;《包装工程》;20200320(第06期);全文 *

Also Published As

Publication number Publication date
CN112102832A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN112102832B (zh) 语音识别方法、装置、服务器和计算机可读存储介质
WO2022057152A1 (zh) 语音交互方法、服务器和计算机可读存储介质
CN112164401B (zh) 语音交互方法、服务器和计算机可读存储介质
WO2021196981A1 (zh) 语音交互方法、装置和终端设备
US20210377355A1 (en) Message pushing method, storage medium, and server
CN108090177B (zh) 多轮问答系统的生成方法、设备、介质及多轮问答系统
EP3955244A1 (en) Speech control method, information processing method, vehicle, and server
US10978052B2 (en) Email-like user interface for training natural language systems
US10776715B2 (en) Artificial intelligent cognition threshold
CN112084315B (zh) 问答互动方法、装置、存储介质及设备
CN116628157A (zh) 对话系统中的参数收集和自动对话生成
CN111639168A (zh) 一种多轮对话的处理方法、装置、电子设备及存储介质
US20140028780A1 (en) Producing content to provide a conversational video experience
CN110008319A (zh) 基于对话模板的模型训练方法和装置
CN113239178A (zh) 意图生成方法、服务器、语音控制系统和可读存储介质
CN110096516B (zh) 自定义的数据库交互的对话生成方法及系统
KR20190095620A (ko) 전자 장치 및 그의 제어방법
CN113421561B (zh) 语音控制方法、语音控制装置、服务器和存储介质
WO2024099046A1 (zh) 语音交互方法、服务器及计算机可读存储介质
CN111399629B (zh) 一种终端设备的操作引导方法、终端设备及存储介质
WO2023124957A1 (zh) 语音交互方法及其装置、服务器和可读存储介质
DE112021003407T5 (de) Verarbeitung natürlicher sprache
CN113590769A (zh) 任务驱动型多轮对话系统中的状态追踪方法及装置
CN112559718B (zh) 对话处理的方法、装置、电子设备和存储介质
CN112837683B (zh) 语音服务方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant