CN115457951A - 一种语音控制方法、装置、电子设备以及存储介质 - Google Patents
一种语音控制方法、装置、电子设备以及存储介质 Download PDFInfo
- Publication number
- CN115457951A CN115457951A CN202210505936.4A CN202210505936A CN115457951A CN 115457951 A CN115457951 A CN 115457951A CN 202210505936 A CN202210505936 A CN 202210505936A CN 115457951 A CN115457951 A CN 115457951A
- Authority
- CN
- China
- Prior art keywords
- control
- recognition result
- control instruction
- voice
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012545 processing Methods 0.000 claims abstract description 93
- 238000003672 processing method Methods 0.000 abstract description 5
- 230000003068 static effect Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 16
- 230000011218 segmentation Effects 0.000 description 16
- 230000002452 interceptive effect Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 11
- 238000013518 transcription Methods 0.000 description 6
- 230000035897 transcription Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000004382 visual function Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本公开涉及一种语音控制方法、装置、电子设备以及存储介质,方法包括:获取用户控制语音;对用户控制语音进行可见即可说识别,形成识别结果;对用户控制语音进行自然语言理解处理,形成处理结果;基于识别结果和处理结果,确定目标控制指令;执行目标控制指令对应的控制操作。若用户控制语音被识别为当前车机屏幕所显示的界面中的某个控件的触发指令,执行该触发指令,若用户控制语音不是当前车机屏幕所显示的界面中的某个控件的触发指令,可以基于自然语言理解处理方法的处理结果确定用户意图,进行执行相应的控制操作。如此,无论用户说出的指令是否为当前车机屏幕所显示的界面中某个控件的触发指令,均能执行该指令。
Description
技术领域
本公开涉及语音控制技术领域,尤其涉及一种语音控制方法、装置、电子设备以及存储介质。
背景技术
随着技术不断进步,越来越多的场景引入了具有语音控制功能的电子设备,例如在车辆中引入具有语音控制功能的车载终端。
目前,有些车辆具备可见即可说功能。当车辆处于可见即可说模式下,不需要手动触控车机屏幕,只要是屏幕上可以显示出来的功能选项,均可通过语音交互实现控制,实现了“只动口,不动手”。例如,一个多媒体应用的界面上有一个播放控件,用户操作意图为播放音乐,只需要说出“播放音乐”,即可完成音乐的自动播放。
在实际中,车辆处于可见即可说模式下,若用户说出的指令不是针对当前车机屏幕显示的界面中某个控件的触发指令,车辆会直接丢弃该指令,并不执行。此种情况下,如何实现无论用户说出的指令是否为当前车机屏幕所显示的界面中某个控件的触发指令,均能执行该指令,是目前亟待解决的问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种语音控制方法、装置、电子设备以及存储介质。
第一方面,本公开提供了一种语音控制方法,包括:
获取用户控制语音;
对所述用户控制语音进行可见即可说识别,形成识别结果;
对所述用户控制语音进行自然语言理解处理,形成处理结果;
基于所述识别结果和所述处理结果,确定目标控制指令;
执行所述目标控制指令对应的控制操作。
第二方面,本公开还提供了一种语音控制装置,包括:
获取模块,用于获取用户控制语音;
识别模块,用于对所述用户控制语音进行可见即可说识别,形成识别结果;
处理模块,用于对所述用户控制语音进行自然语言理解处理,形成处理结果;
确定模块,用于基于所述识别结果和所述处理结果,确定目标控制指令;
执行模块,用于执行所述目标控制指令对应的控制操作。
第三方面,本公开还提供了一种电子设备,包括:处理器和存储器;
处理器通过调用存储器存储的程序或指令,用于执行上述任一方法的步骤。
第四方面,本公开还提供了一种计算机可读存储介质,计算机可读存储介质存储程序或指令,程序或指令使计算机执行上述任一方法的步骤。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例提供的技术方案通过对所述用户控制语音进行可见即可说识别,形成识别结果;对所述用户控制语音进行自然语言理解处理,形成处理结果;基于识别结果和处理结果,确定目标控制指令;执行目标控制指令对应的控制操作,实质是若用户控制语音被识别为当前车机屏幕所显示的界面中的某个控件的触发指令,执行该触发指令,若用户控制语音不是当前车机屏幕所显示的界面中的某个控件的触发指令,可以基于自然语言理解处理方法的处理结果确定用户意图,进行执行相应的控制操作。如此,无论用户说出的指令是否为当前车机屏幕所显示的界面中某个控件的触发指令,均能执行该指令。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种语音控制方法的流程图;
图2为本公开实施例提供的另一语音控制方法的流程图;
图3为本公开实施例提供的一种车辆内部布局的示意图;
图4为图3中车辆各部件的连接关系示意图;
图5为本公开实施例提出的语音控制装置的结构示意图;
图6为本公开实施例提供的电子设备的硬件结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
图1为本公开实施例提供的一种语音控制方法的流程图。参见图1,该方法包括:
S110、获取用户控制语音。
S120、对用户控制语音进行可见即可说识别,形成识别结果。
可见即可说是指不需要手动触控,只要是车机上可以显示出来的功能选项,均可通过语音交互实现控制,实现了“只动口,不动手”。例如,例如,一个多媒体应用,界面上有一个播放按钮,操作意图为播放音乐,只需要说出“播放音乐”,即可完成音乐的自动播放,实现可见即可说的功能。
本步骤的实现方法有多种,本申请对此不作限制。示例性地,本步骤的实现方法包括:加载当前车机所显示的应用程序对应的控制指令集;控制指令集包括根据应用程序界面的界面控件数据生成的标准控制指令;将控制指令集中与用户控制语音相匹配的标准控制指令作为用户控制语音的识别结果。
其中,控制指令集中的各个标准控制指令均为根据应用程序界面的界面控件数据所生成的,界面控件数据可以包含全部界面控件对应的控件数据,即交互界面内的全部界面控件分别具有相应的标准控制指令。
需要说明的是,在实际中,一个应用程序往往具有多个交互界面,响应于用户的操作,可以对应用程序的交互界面进行切换。在实际中,可以设置一个应用程序对应多个控制指令集,每个控制指令集包括一个交互界面中各界面控件对应的标准控制指令。可选地,在实际中,还可以设置一个应用程序对应一个控制指令集,该控制指令集包括该应用程序各界面中界面控件对应的标准控制指令。
“将控制指令集中与用户控制语音相匹配的标准控制指令作为用户控制语音的识别结果”具体可以包括:将用户控制语音转化为语音文本;在控制指令集中查询与语音文本相匹配的标准控制指令。
具体地,电子设备可以将用户控制语音输入离线设置的自动语音识别(AutomaticSpeech Recognition,ASR)引擎中,得到ASR引擎输出的语音文本。
用户控制语音和标准控制指令“相匹配”,是指用户控制语音的语音文本包含标准控制指令中的任一动词和任一控件文本分词,也可以为语音文本中的动词与标准控制指令中的任一动词相同且语音文本中的名词与标准控制指令中的任一控件文本分词的相似度大于或等于预设的相似度阈值。
因此,将控制指令集中与用户控制语音相匹配的标准控制指令作为用户控制语音的识别结果,实质是确定用户的语音控制意图为标准控制指令所代表的控制意图。
S130、对用户控制语音进行自然语言理解处理,形成处理结果。
本步骤实现方法有多种,示例性地,对用户控制语音中的文本进行文本预处理和文本归一化处理,然后提取句子主干;根据句子主干,理解用户控制语音的意图,并输出语义理解结果(即处理结果)。
对用户控制语音中的文本进行文本预处理,包括进行中文分词和去除语气用词(如,“嗯”、“吧”)等。文本归一化处理包括对数字和实体的归一化,例如“一点五秒”在进行归一化处理后变成“1.5秒”;“大屏亮度”在进行归一化处理后变成“中控亮度”。提取句子主干是提取句子中的实体词、动作词和数值,提取的句子主干主要用于后续的检索。利用提取的句子主干中的动作词可以理解用户的意图。
对用户控制语音进行自然语言理解处理,是本领域的常规技术手段,此处不再进行过多赘述。
S140、基于识别结果和处理结果,确定目标控制指令。
本步骤的实现方法有多种,示例性地,本步骤的实现方法包括:设置识别结果的优先级和处理结果的优先级,基于各自的优先级,在识别结果和处理结果中确定目标控制指令。
或者,本步骤的实现方法包括:在识别结果和处理结果中,确定目标控制指令。即从识别结果和处理结果中选择其中一个确定为目标控制指令。
进一步地,可以确定识别结果的置信度;基于识别结果的置信度,从识别结果和处理结果中选择其中一个确定为目标控制指令。置信度是反映识别结果准确与否的参数。示例性地,用户控制语音的语音文本和标准控制指令的相似度作为识别结果的置信度。或者,将识别结果和处理结果的相似度作为识别结果的置信度。
在一些实施例中,可以预先设置设定阈值,该设定阈值用于对置信度的高低进行评判。若识别结果的置信度大于设定阈值,将识别结果确定为目标控制指令。若识别结果的置信度小于或等于设定阈值,将处理结果确定为目标控制指令。
在另一些实施例中,若一个应用程序对应一个控制指令集,该控制指令集包括该应用程序各界面中界面控件对应的标准控制指令,有可能出现识别结果中的控件数据对应的控件未出现在当前车机屏幕所显示的画面中的情况。针对于这种情况,可选地,若识别结果的置信度大于设定阈值,且当前车机所显示的界面包括识别结果中的控件数据对应的控件;将识别结果确定为目标控制指令。若识别结果的置信度大于设定阈值,但当前车机所显示的界面不包括识别结果中的控件数据对应的控件;将处理结果确定为目标控制指令。若识别结果的置信度小于或等于设定阈值,将处理结果确定为目标控制指令。
S150、执行目标控制指令对应的控制操作。
若目标控制指令包括识别结果,由于每个标准控制指令(即识别结果)是根据对应界面控件的控件数据生成的,因此,每个标准控制指令能够用于触发对该标准控制指令所涉及的界面控件执行控制操作,即每个标准控制指令能够用于触发生成该标准控制指令的控件数据所属的界面控件执行控制操作。
若目标控制指令包括处理结果,由于处理结果即为用户意图,可以按照用户意图执行控制操作。
上述技术方案通过对用户控制语音进行可见即可说识别,形成识别结果;对用户控制语音进行自然语言理解处理,形成处理结果;基于识别结果和处理结果,确定目标控制指令;执行目标控制指令对应的控制操作,实质是若用户控制语音被识别为当前车机屏幕所显示的界面中的某个控件的触发指令,执行该触发指令,若用户控制语音不是当前车机屏幕所显示的界面中的某个控件的触发指令,可以基于自然语言理解处理方法的处理结果确定用户意图,进行执行相应的控制操作。如此,无论用户说出的指令是否为当前车机屏幕所显示的界面中某个控件的触发指令,均能执行该指令。
在上述各技术方案的基础上,进一步地,考虑到在实际中,可能存在多轮对话的情况。多轮对话是在人与车机对话中,车机在初步明确用户意图之后,获取必要信息以最终得到明确用户指令的方式。多轮对话与一件事情的处理相对应。多轮对话的模式通常表现为有问有答的模式,即在对话过程中,车机除了可以回应用户提出的问题外,也可以向用户发起提问。在多轮对话中用户控制语音并不是当前车机屏幕所显示的界面中的某个控件的触发指令。因此,设置若用户控制语音处于多轮对话中,将处理结果确定为目标控制指令。进一步地,还可以设置获取用户控制语音后,判断该用户控制语音是否处于多轮对话中,若是,对用户控制语音进行自然语言理解处理;不再对用户控制语音进行可见即可说识别。
“确定用户控制语音是否处于多轮对话中”的方式有多种,本申请对此不做限制。示例性地,车辆监听用户控制语音,当采集到用户控制语音后,对用户控制语音进行处理,判断该用户控制语音对应的用户意图的槽位组中各槽位是否缺少槽位信息。若存在至少一个槽位缺少槽位信息,则标记状态参数为当前进入多轮对话状态。重复执行补充步骤,直至补充后槽位组中各槽位不缺少槽位信息,标记状态参数为当前退出多轮对话状态。其中,补充步骤包括:继续监听用户控制语音,当再次采集到用户控制语音后,对用户控制语音进行处理,得到补充槽位信息;将补充槽位信息填充至待补充的槽位中,判断补充后槽位组中各槽位是否缺少槽位信息。“确定用户控制语音是否处于多轮对话中”的方法包括:在获取用户控制语音的同时,获取状态参数;若状态参数为当前进入多轮对话状态,则该用户控制语音处于多轮对话中。若状态参数为当前退出多轮对话状态,则该用户控制语音未处于多轮对话中。
在上述各技术方案的基础上,可选地,控制指令集中标准控制指令包括第一控制指令和/或第二控制指令。
第一控制指令是指根据界面控件数据中的静态控件数据生成的指令。即静态控件的控制指令。
其中,静态控件数据可以为交互界面中的静态控件对应的控件数据。静态控件可以为始终固定显示的界面控件,即静态控件不会随着用户喜好或者设置而改变。
例如,设置应用程序的主界面内固定设置有“我的设备”、“控制中心”和“更多设置”三个控件,基于这三个控件对应的控件数据生成的控制指令即为该设置应用程序的第一控制指令。
可选地,若控制指令集包括第一控制指令。“加载当前车机所显示的应用程序对应的控制指令集”包括:车辆接收服务器发送的控制指令集,或者,读取预先储于车辆中的控制指令集。在一些实施例中,针对每个应用程序,服务器可以接收开发者输入的该应用程序的各个交互界面所对应的全部静态控件的控制指令和每个控制指令对应的控制方式。其中,每个静态控件的控制指令均包含有动词集合和该静态控件对应的控件文本分词集合,该静态控件对应的控件文本分词集合为开发者从该静态控件的控件数据即静态控件数据内的静态控件文本中提取的分词集合,该静态控件文本可以为该静态控件能够被用户看见的控件名,该控制指令中的动词集合包含有多个语义近似的动词。
在另一些实施例中,针对每个应用程序的每个交互界面内的每个静态控件,服务器可以从该静态控件的控件数据即静态控件数据内的静态控件文本中提取控件文本分词集合,然后利用预先设置的不同动词集合与控件文本分词集合进行组合,得到该静态控件的多个控制指令,每个控制指令中的动词集合包含有多个语义近似的动词。针对每个静态控件的每个控制指令,服务器还可以利用该控制指令中的动词集合对应的控制指令和控件文本分词集合对应的静态控件的控件功能,确定该控制指令对应的控制方式。
其中,控件文本分词集合内的各个分词可以通过“|”进行连接,动词集合中的各个动词也可以通过“|”进行连接。
由此,在本公开实施例中,可以得到符合扩展巴科斯范式(Extended Backus–NaurForm,EBNF)语法范式的分词集合内容,使得第一控制指令可以加载到语法(Grammar)引擎的语言模型中。
以“音乐应用”图标对应的控制指令为例,如果一个控制指令用于打开音乐应用,则动词集合可以为“打开|开|进入|进|点|点击”,控件文本分词集合可以为“音乐|音乐应用|音乐的|音乐图标”。
第二控制指令是指根据界面控件数据中的动态控件数据生成的指令。动态控件为在动态内容预留字段内填充控件数据所形成的控件。第二控制指令即动态控件的控制指令。
其中,动态控件数据可以为交互界面中的动态控件对应的控件数据。动态控件可以为能够动态更新、或者随着用户喜好或设置而改变的界面控件。
示例性地,在音乐应用程序中,“歌单”选项的选项卡内所显示的各个歌单名称可以动态更新,因此,这些歌单名称对应的歌单链接属于音乐应用程序主界面的动态控件,基于各个歌单链接对应的控件数据生成的控制指令即为音乐应用程序主界面对应的第二控制指令。
若控制指令集包括第二控制指令。“加载当前车机所显示的应用程序对应的控制指令集”包括:对动态控件数据进行处理,生成第二控制指令。
“对动态控件数据进行处理,生成第二控制指令”的方法有多种,示例性地,一种对动态控件数据进行处理,生成第二控制指令的方法包括:
首先,在动态控件数据中,提取动态控件文本。
在本公开实施例中,动态控件数据包括控件的控件文本、控件显示参数等等。
具体地,电子设备可以从在交互界面对应的动态控件数据中提取该动态控件数据所属的动态控件的动态控件文本,该动态控件文本可以为该动态控件能够被用户看见的控件名。
例如,歌单链接属于应用主界面的动态控件,以“氛围钢琴曲当灵魂与无尽虚空对话”为名称的歌单链接为例,其动态控件文本为“氛围钢琴曲当灵魂与无尽虚空对话”。
其次、对动态控件文本进行分词处理,得到动态控件文本对应的分词集合。
在本公开实施例中,电子设备可以在提取到任一动态控件的动态控件文本之后,对该动态控件文本进行分词处理,得到动态控件文本对应的分词集合即动态控件的控件文本分词集合。
具体地,电子设备可以利用任意的分词处理算法,将动态控件文本拆分为多个控件文本分词,然后将任意多个相邻的控件文本分词进行组合,得到多个分词组合,最后得到包含多个控件文本分词和多个分词组合的动态控件文本对应的分词集合。
可选地,将多个控件文本分词和多个分词组合进行组合得到分词集合的方法可以包括多个控件文本分词和多个分词组合利用“|”进行连接,得到分词集合。
由此,在本公开实施例中,可以得到符合EBNF语法范式的分词集合内容,使得生成的第二控制指令可以加载到Grammar引擎的语言模型中。
最后、根据分词集合生成第二控制指令。
在本公开实施例中,电子设备在得到动态控件文本对应的分词集合之后,可以基于预设的控制指令生成方式,根据分词集合生成第二控制指令。
可选地,根据预设的动词集合和分词集合,生成第二控制指令。
电子设备可以利用预先设置的不同动词集合与分词集合进行组合,得到该动态控件的多个控制指令,每个控制指令中的动词集合包含有多个语义近似的动词。针对每个动态控件的每个控制指令,电子设备还可以利用该控制指令中的动词集合对应的控制指令和分词集合对应的动态控件的控件功能,确定该控制指令对应的控制方式。
在本公开一些实施例中,在“对动态控件文本进行分词处理,得到动态控件文本对应的分词集合”之前,该语音控制方法还可以包括:对动态控件文本进行预处理。
在本公开实施例中,电子设备在提取到动态控件文本之后,在对动态控件文本进行分词处理,得到动态控件文本对应的分词集合之前,还可以先对动态控件文本进行预处理,得到能够用于进行文本处理的动态控件文本。
可选地,预处理可以包括符号剔除处理、数字转换处理。
符号剔除处理可以用于剔除动态控件文本中的符号,例如标点符号、特殊符号、数学符号等任意不具有语义的符号。
数字转换处理可以用于将动态控件文本中的阿拉伯数字转换为中文数字。其中,如果阿拉伯数字有两位以上的数字,则可以将整个阿拉伯数字转换为一个中文数字,也可以将每个数字分别转换为一个数字。
具体地,电子设备在提取到动态控件文本之后,可以首先剔除动态控件文本中的符号,得到剔除符号后的动态控件文本。然后,电子设备可以将剔除符号后的动态控件文本中的阿拉伯数字转换为中文数字。以动态控件文本“语文课代表私藏小抄200首成语歌名”为例,阿拉伯数字“200”可以转换为中文数字“二百”,也可以转换为中文数字“二零零”,得到数字转换后的动态控件文本“语文课代表私藏小抄二百首成语歌名|语文课代表私藏小抄二零零首成语歌名”,电子设备可以对转换后的动态控件文本进行分词和分词组合,得到分词集合“语文课代表私藏小抄二百首成语歌名|语文课代表私藏小抄二零零首成语歌名|二百首成语歌名|二零零首成语歌名|成语歌名|语文课代表|私藏小抄”。
由此,在本公开实施例中,电子设备在显示交互界面之后,可以基于交互界面内的各个动态控件数据生成交互界面内的全部动态控件的控制指令即第二控制指令,进而将这些控制指令作为动态加载内容,实现对交互界面的第二控制指令的可靠、高效地加载。
图2为本公开实施例提供的另一语音控制方法的流程图。参见图2,该方法包括:
S201、获取用户控制语音。
S202、判断用户控制语音是否处于多轮对话中。若是,执行S203;若否,执行S205。
S203、对用户控制语音进行自然语言理解处理,形成处理结果。
S204、将处理结果确定为目标控制指令。
S205、对用户控制语音进行可见即可说识别,形成识别结果。
S206、对用户控制语音进行然语言理解处理,形成处理结果。
S207、判断用户控制语音的语音文本与识别结果的相似度是否大于第一设定阈值。若是,执行S208;若否,执行S210。
S208、判断当前车机所显示的界面是否包括识别结果中的控件数据对应的控件。若是,执行S209;若否,执行S210。
S209、丢弃处理结果,将识别结果确定为目标控制指令。
S210、判断识别结果与处理结果的相似度是否大于第二设定阈值。若是,执行S208;若否,执行S211。
S211、丢弃识别结果,将处理结果确定为目标控制指令。
上述技术方案中,S207的作用是初次判断识别结果是否准确。如果用户控制语音的语音文本与识别结果的相似度大于第一设定阈值,认定识别结果准确,将识别结果作为用户意图,对车辆进行控制,即使用可见即可说功能。如果用户控制语音与识别结果的相似度小于或等于第一设定阈值,认定识别结果可能不太准确,此种情况下执行S210,即进一步判断识别结果是否准确。如果识别结果与处理结果的相似度大于第二设定阈值,即通过两种不同处理方法得到的结果趋于一致,此种情况下认为识别结果准确。将识别结果作为用户意图,对车辆进行控制,即使用可见即可说功能。如果识别结果与处理结果的相似度小于或等于第二设定阈值,即通过两种不同处理方法得到的结果相差甚远,此种情况下认为识别结果不准确。将处理结果作为用户意图,对车辆进行控制,即不使用可见即可说功能。
上述技术方案的实质是通过两次判断,确定识别结果是否准确,如果识别结果准确将识别结果作为用户意图,对车辆进行控制,即使用可见即可说功能;如果识别结果不准确,将处理结果作为用户意图对车辆进行控制,即不使用可见即可说功能。这样设置可以确保当车辆处于可见即可说模式下,无论用户说出的指令是否为当前车机屏幕所显示的界面中的某个控件的触发指令,均能执行该指令。
图3为本公开实施例提供的一种车辆内部布局的示意图。图4为图3中车辆各部件的连接关系示意图。参见图3和图4,该车辆内部空间被划分为多个音区,各音区均与一个座椅对应。在各音区内均设置有麦克风,麦克风用于对其所处音区中乘客的语音信息进行采集。该车辆中还设置有摄像头,摄像头用于对车辆中的乘客进行图像采集。该车辆中还设置有多个影音设备(包括车机屏幕),各影音设备可以与对应音区中的乘客进行交互,以满足不同音区中乘客的使用需求。各影音设备通过与其关联的系统级芯片(System on Chip,SoC)与交互控制器直接或间接通讯连接。麦克风、摄像头以及系统级芯片通过总线连接。交互控制器能够基于采集到的语音信号的麦克风的位置以及摄像头采集到的图像数据,确定语音信号对应的指令由哪个座椅中乘客发出,以及由哪个屏幕执行显示。执行显示的影音设备的系统级芯片SOC执行语音数据对应的控制指令。
本申请上述技术方案可以由图3和图4中的任意影音设备的系统级芯片(Systemon Chip,SoC)执行。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
图5为本公开实施例提出的语音控制装置的结构示意图,如图5所示,该装置包括:
获取模块310,用于获取用户控制语音;
识别模块320,用于对所述用户控制语音进行可见即可说识别,形成识别结果;
处理模块330,用于对所述用户控制语音进行自然语言理解处理,形成处理结果;
确定模块340,用于基于所述识别结果和所述处理结果,确定目标控制指令;
执行模块350,用于执行所述目标控制指令对应的控制操作。
进一步地,确定模块340,用于:
从所述识别结果和所述处理结果中选择其中一个确定为目标控制指令。
进一步地,确定模块340,用于:
确定所述识别结果的置信度;
基于所述识别结果的置信度,从所述识别结果和所述处理结果中选择其中一个确定为目标控制指令。
进一步地,确定模块340,用于:
若识别结果的置信度大于设定阈值,将所述识别结果确定为目标控制指令;
若识别结果的置信度小于或等于设定阈值,将所述处理结果确定为目标控制指令。
进一步地,确定模块340,用于:
若识别结果的置信度大于设定阈值,且当前车机屏幕所显示的界面包括所述识别结果中的控件数据对应的控件;将所述识别结果确定为目标控制指令;
若识别结果的置信度大于设定阈值,且当前车机屏幕所显示的界面不包括所述识别结果中的控件数据对应的控件;将所述处理结果确定为目标控制指令;
若识别结果的置信度小于或等于设定阈值,将所述处理结果确定为目标控制指令。
进一步地,识别模块320,用于:
加载当前车机所显示的应用程序对应的控制指令集;所述控制指令集包括根据所述应用程序界面的界面控件数据生成的标准控制指令;
将所述控制指令集中与所述用户控制语音相匹配的标准控制指令作为所述用户控制语音的识别结果。
进一步地,确定模块340,用于:
若所述用户控制语音处于多轮对话中,将所述处理结果确定为目标控制指令。
以上实施例公开的装置能够实现以上各方法实施例公开的方法的流程,具有相同或相应的有益效果。为避免重复,在此不再赘述。
图6为本公开实施例提供的电子设备的硬件结构示意图,如图6所示,该电子设备可以包括手机、PAD、车载影音设备等智能终端,该电子设备包括:
一个或多个处理器301,图6中以一个处理器301为例;
存储器302;
所述电子设备还可以包括:输入装置303和输出装置304。
所述电子设备中的处理器301、存储器302、输入装置303和输出装置304可以通过总线或者其他方式连接,图6中以通过总线连接为例。
存储器302作为一种非暂态计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本公开实施例中的语音控制方法对应的程序指令/模块。处理器301通过运行存储在存储器302中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的语音控制方法。
存储器302可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非暂态性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中,存储器302可选包括相对于处理器301远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置303可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置304可包括显示屏等显示设备。
本公开实施例还提供一种包含计算机可读存储介质,该计算机可读存储介质存储程序或指令,该程序或指令使计算机执行行时用于执行一种语音控制方法,该方法包括:
获取用户控制语音;
对所述用户控制语音进行可见即可说识别,形成识别结果;
对所述用户控制语音进行自然语言理解处理,形成处理结果;
基于所述识别结果和所述处理结果,确定目标控制指令;
执行所述目标控制指令对应的控制操作。
可选的,该计算机可执行指令在由计算机处理器执行时还可以用于执行本公开任意实施例所提供的语音控制方法的技术方案。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本公开可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述的方法。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种语音控制方法,其特征在于,包括:
获取用户控制语音;
对所述用户控制语音进行可见即可说识别,形成识别结果;
对所述用户控制语音进行自然语言理解处理,形成处理结果;
基于所述识别结果和所述处理结果,确定目标控制指令;
执行所述目标控制指令对应的控制操作。
2.根据权利要求1所述的方法,其特征在于,所述基于所述识别结果和所述处理结果,确定目标控制指令,包括:
从所述识别结果和所述处理结果中选择其中一个确定为目标控制指令。
3.根据权利要求2所述的方法,其特征在于,还包括:
确定所述识别结果的置信度;
所述从所述识别结果和所述处理结果中选择其中一个确定为目标控制指令,包括:
基于所述识别结果的置信度,从所述识别结果和所述处理结果中选择其中一个确定为目标控制指令。
4.根据权利要求3所述的方法,其特征在于,所述基于所述识别结果的置信度,从所述识别结果和所述处理结果中选择其中一个确定为目标控制指令,还包括:
若识别结果的置信度大于设定阈值,将所述识别结果确定为目标控制指令;
若识别结果的置信度小于或等于设定阈值,将所述处理结果确定为目标控制指令。
5.根据权利要求3所述的方法,其特征在于,所述基于所述识别结果的置信度,从所述识别结果和所述处理结果中选择其中一个确定为目标控制指令,还包括:
若识别结果的置信度大于设定阈值,且当前车机屏幕所显示的界面包括所述识别结果中的控件数据对应的控件;将所述识别结果确定为目标控制指令;
若识别结果的置信度大于设定阈值,且当前车机屏幕所显示的界面不包括所述识别结果中的控件数据对应的控件;将所述处理结果确定为目标控制指令;
若识别结果的置信度小于或等于设定阈值,将所述处理结果确定为目标控制指令。
6.根据权利要求1所述的方法,其特征在于,所述对所述用户控制语音进行可见即可说识别,形成识别结果,包括:
加载当前车机所显示的应用程序对应的控制指令集;所述控制指令集包括根据所述应用程序界面的界面控件数据生成的标准控制指令;
将所述控制指令集中与所述用户控制语音相匹配的标准控制指令作为所述用户控制语音的识别结果。
7.根据权利要求1所述的方法,其特征在于,还包括:
若所述用户控制语音处于多轮对话中,将所述处理结果确定为目标控制指令。
8.一种语音控制装置,其特征在于,包括:
获取模块,用于获取用户控制语音;
识别模块,用于对所述用户控制语音进行可见即可说识别,形成识别结果;
处理模块,用于对所述用户控制语音进行自然语言理解处理,形成处理结果;
确定模块,用于基于所述识别结果和所述处理结果,确定目标控制指令;
执行模块,用于执行所述目标控制指令对应的控制操作。
9.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210505936.4A CN115457951A (zh) | 2022-05-10 | 2022-05-10 | 一种语音控制方法、装置、电子设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210505936.4A CN115457951A (zh) | 2022-05-10 | 2022-05-10 | 一种语音控制方法、装置、电子设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115457951A true CN115457951A (zh) | 2022-12-09 |
Family
ID=84296383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210505936.4A Pending CN115457951A (zh) | 2022-05-10 | 2022-05-10 | 一种语音控制方法、装置、电子设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115457951A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116932110A (zh) * | 2023-07-10 | 2023-10-24 | 时代云驰交通工具技术(苏州)有限公司 | 基于可定制化模型的车辆设备数据处理方法及系统 |
CN116955649A (zh) * | 2023-07-21 | 2023-10-27 | 重庆赛力斯新能源汽车设计院有限公司 | 意图识别方法、装置、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030212543A1 (en) * | 2002-05-07 | 2003-11-13 | International Business Machines Corporation | Integrated development tool for building a natural language understanding application |
US20170339175A1 (en) * | 2016-05-19 | 2017-11-23 | International Business Machines Corporation | Using natural language processing for detection of intended or unexpected application behavior |
CN109785840A (zh) * | 2019-03-05 | 2019-05-21 | 湖北亿咖通科技有限公司 | 自然语言识别的方法、装置及车载多媒体主机、计算机可读存储介质 |
CN111309283A (zh) * | 2020-03-25 | 2020-06-19 | 北京百度网讯科技有限公司 | 用户界面的语音控制方法、装置、电子设备及存储介质 |
CN112102832A (zh) * | 2020-09-18 | 2020-12-18 | 广州小鹏汽车科技有限公司 | 语音识别方法、装置、服务器和计算机可读存储介质 |
CN113031905A (zh) * | 2020-06-28 | 2021-06-25 | 广州小鹏汽车科技有限公司 | 语音交互方法、车辆、服务器、系统和存储介质 |
US20210312926A1 (en) * | 2020-10-22 | 2021-10-07 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, system, electronic device for processing information and storage medium |
CN114067790A (zh) * | 2020-07-29 | 2022-02-18 | 大众问问(北京)信息科技有限公司 | 语音信息处理方法、装置、设备及存储介质 |
WO2022052776A1 (zh) * | 2020-09-10 | 2022-03-17 | 华为技术有限公司 | 一种人机交互的方法、电子设备及系统 |
WO2022057152A1 (zh) * | 2020-09-18 | 2022-03-24 | 广州橙行智动汽车科技有限公司 | 语音交互方法、服务器和计算机可读存储介质 |
-
2022
- 2022-05-10 CN CN202210505936.4A patent/CN115457951A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030212543A1 (en) * | 2002-05-07 | 2003-11-13 | International Business Machines Corporation | Integrated development tool for building a natural language understanding application |
US20170339175A1 (en) * | 2016-05-19 | 2017-11-23 | International Business Machines Corporation | Using natural language processing for detection of intended or unexpected application behavior |
CN109785840A (zh) * | 2019-03-05 | 2019-05-21 | 湖北亿咖通科技有限公司 | 自然语言识别的方法、装置及车载多媒体主机、计算机可读存储介质 |
CN111309283A (zh) * | 2020-03-25 | 2020-06-19 | 北京百度网讯科技有限公司 | 用户界面的语音控制方法、装置、电子设备及存储介质 |
CN113031905A (zh) * | 2020-06-28 | 2021-06-25 | 广州小鹏汽车科技有限公司 | 语音交互方法、车辆、服务器、系统和存储介质 |
CN114067790A (zh) * | 2020-07-29 | 2022-02-18 | 大众问问(北京)信息科技有限公司 | 语音信息处理方法、装置、设备及存储介质 |
WO2022052776A1 (zh) * | 2020-09-10 | 2022-03-17 | 华为技术有限公司 | 一种人机交互的方法、电子设备及系统 |
CN112102832A (zh) * | 2020-09-18 | 2020-12-18 | 广州小鹏汽车科技有限公司 | 语音识别方法、装置、服务器和计算机可读存储介质 |
WO2022057152A1 (zh) * | 2020-09-18 | 2022-03-24 | 广州橙行智动汽车科技有限公司 | 语音交互方法、服务器和计算机可读存储介质 |
US20210312926A1 (en) * | 2020-10-22 | 2021-10-07 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, system, electronic device for processing information and storage medium |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116932110A (zh) * | 2023-07-10 | 2023-10-24 | 时代云驰交通工具技术(苏州)有限公司 | 基于可定制化模型的车辆设备数据处理方法及系统 |
CN116932110B (zh) * | 2023-07-10 | 2024-04-12 | 时代云驰交通工具技术(苏州)有限公司 | 基于可定制化模型的车辆设备数据处理方法及系统 |
CN116955649A (zh) * | 2023-07-21 | 2023-10-27 | 重庆赛力斯新能源汽车设计院有限公司 | 意图识别方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105931644B (zh) | 一种语音识别方法及移动终端 | |
CN108682420B (zh) | 一种音视频通话方言识别方法及终端设备 | |
CN115457951A (zh) | 一种语音控制方法、装置、电子设备以及存储介质 | |
JP5119055B2 (ja) | 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム | |
CN110910903B (zh) | 语音情绪识别方法、装置、设备及计算机可读存储介质 | |
CN109545183A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN108447471A (zh) | 语音识别方法及语音识别装置 | |
JP5195414B2 (ja) | 応答生成装置及びプログラム | |
CN113327620B (zh) | 声纹识别的方法和装置 | |
CN104795065A (zh) | 一种提高语音识别率的方法和电子设备 | |
CN109086276B (zh) | 数据翻译方法、装置、终端及存储介质 | |
CN108595406B (zh) | 一种用户状态的提醒方法、装置、电子设备及存储介质 | |
CN110826637A (zh) | 情绪识别方法、系统及计算机可读存储介质 | |
CN110956958A (zh) | 搜索方法、装置、终端设备及存储介质 | |
CN114708869A (zh) | 语音交互方法、装置及电器 | |
CN116013257A (zh) | 语音识别、语音识别模型训练方法、装置、介质及设备 | |
CN115101053A (zh) | 基于情绪识别的对话处理方法、装置、终端及存储介质 | |
US20180067928A1 (en) | Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system | |
JP2022043263A (ja) | 応対履歴作成支援装置、応対履歴作成支援方法、プログラム、及び表示装置 | |
JP5136512B2 (ja) | 応答生成装置及びプログラム | |
KR20160138613A (ko) | 이모티콘을 이용한 자동통역 방법 및 이를 이용한 장치 | |
CN114999482A (zh) | 基于视线的语音识别方法、装置、设备及存储介质 | |
JP2001318915A (ja) | フォント変換装置 | |
GB2596141A (en) | Driving companion | |
JP6538399B2 (ja) | 音声処理装置、音声処理方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |