CN114999482A - 基于视线的语音识别方法、装置、设备及存储介质 - Google Patents
基于视线的语音识别方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114999482A CN114999482A CN202210597788.3A CN202210597788A CN114999482A CN 114999482 A CN114999482 A CN 114999482A CN 202210597788 A CN202210597788 A CN 202210597788A CN 114999482 A CN114999482 A CN 114999482A
- Authority
- CN
- China
- Prior art keywords
- semantic
- semantics
- sight line
- voice
- sight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012546 transfer Methods 0.000 claims abstract description 59
- 238000012544 monitoring process Methods 0.000 claims abstract description 33
- 230000007704 transition Effects 0.000 claims description 39
- 230000011218 segmentation Effects 0.000 claims description 28
- 238000001514 detection method Methods 0.000 claims description 26
- 230000002776 aggregation Effects 0.000 claims description 12
- 238000012217 deletion Methods 0.000 claims description 12
- 230000037430 deletion Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 10
- 238000005054 agglomeration Methods 0.000 claims description 8
- 238000009833 condensation Methods 0.000 claims description 3
- 230000005494 condensation Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000004220 aggregation Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008030 elimination Effects 0.000 description 3
- 238000003379 elimination reaction Methods 0.000 description 3
- 239000000446 fuel Substances 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000002035 prolonged effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明涉及车辆控制技术领域,其公开了基于视线的语音识别方法、装置、设备及存储介质,通过获取语音监听时间内采集的驾驶员语音信息;根据所述驾驶员语音信息确定对应的初始语义是否完整;在所述初始语义不完整时,确定所述初始语义属于语义缺失或语义冗余;在所述初始语义属于语义缺失或语义冗余时,获取视线转移状态;根据所述视线转移状态确定目标识别语义,并基于所述目标识别语义进行车辆控制,从而将驾驶员的视线结合驾驶员的语音进行意图识别,提高驾驶员意图识别的准确性。
Description
技术领域
本发明涉及车辆控制技术领域,尤其涉及一种基于视线的语音识别方法、装置、设备及存储介质。
背景技术
在一般情况下,车辆内的语音识别是基于语音数据驾驶员说话意图识别,通过车内麦克风将实时接收到的声音信号输入给车机系统进行处理,先完成消噪和唤醒定位,然后对定位音区再进行消噪消回声得到驾驶员说话语音音频。通过对说话语音音频进行自动语音识别(Automatic Speech Recognition,ASR)识别得到所说文字内容,最后用自然语言理解(Natural Language Unde rstanding,NLU)引擎识别出具体的文字所包含的关键语义。
但是,这种识别方式存在诸多缺陷,缺少了人与人之间交流时伴随的辅助信息提示,导致语音识别获得的信息太少而难以判断驾驶员的全部意图。
发明内容
本发明的主要目的在于提出一种基于视线的语音识别方法、装置、设备及存储介质,旨在解决通过语音进行驾驶员意图识别不准确的技术问题。
为实现上述目的,本发明提供一种基于视线的语音识别方法,所述基于视线的语音识别方法包括以下步骤:
获取语音监听时间内采集的驾驶员语音信息;
根据所述驾驶员语音信息确定对应的初始语义是否完整;
在所述初始语义不完整时,确定所述初始语义属于语义缺失或语义冗余;
在所述初始语义属于语义缺失或语义冗余时,获取视线转移状态;
根据所述视线转移状态确定目标识别语义,并基于所述目标识别语义进行车辆控制。
可选地,所述根据所述视线转移状态确定目标识别语义,包括:
在所述初始语义属于语义冗余时,判断所述视线转移状态是否为视线转移;
在所述视线转移状态为视线转移时,获取视线转移前对应的语音时间;
根据所述视线转移前对应的语音时间从所述初始语义中进行语义抽取,得到目标识别语义。
可选地,所述在所述初始语义属于语义冗余时,判断所述视线转移状态是否为视线转移,包括:
在所述初始语义属于语义冗余时,获取所述初始语义中一段完整语义对应的语义冗余采集时间;
根据所述语义冗余采集时间确定语义冗余的视线转移状态检测时间;
在所述语义冗余的视线转移状态检测时间内判断所述视线转移状态是否为视线转移。
可选地,所述根据所述视线转移状态确定目标识别语义,包括:
在所述初始语义属于语义缺失时,判断所述视线转移状态是否为视线转移;
在所述视线转移状态为视线转移时,延长预设时长的语音监听时间;
获取所述预设时长的语音监听时间内的语音信息;
将所述初始语义与所述预设时长的语音监听时间内的语音信息对应的语义进行拼接,得到目标识别语义。
可选地,所述在所述初始语义属于语义缺失时,判断所述视线转移状态是否为视线转移,包括:
在所述初始语义属于语义缺失时,获取所述初始语义中结束语音对应的语义缺失采集时间;
根据所述语义缺失采集时间确定语义缺失的视线转移状态检测时间;
在所述语义缺失的视线转移状态检测时间内判断所述视线转移状态是否为视线转移。
可选地,所述根据所述驾驶员语音信息确定对应的初始语义是否完整,还包括:
对所述驾驶员语音信息对应的初始语义从左到右依次计算相邻文本片段的凝聚程度;
若所述凝聚程度未达到凝聚阈值,则将所述相邻文本片段进行切分,得到切分结果;
根据所述切分结果进行分词统计,得到语音分词集;
将所述语音分词集与词性数据库中的词语进行匹配,得到所述词性数据库中所述语音分词集对应的词性;
根据所述语音分词集对应的词性确定所述初始语义是否完整。
可选地,所述确定所述初始语义属于语义缺失或语义冗余,包括:
根据所述语音分词集对应的词性确定是否存在完整的语句;
在所述语音分词集对应的词性确定存在完整的语句时,确定所述初始语义属于语义冗余;
在所述语音分词集对应的词性确定不存在完整的语句时,确定所述初始语义属于语义缺失。
此外,为实现上述目的,本发明还提出一种基于视线的语音识别装置,所述基于视线的语音识别装置包括:
获取模块,用于获取语音监听时间内采集的驾驶员语音信息;
所述获取模块,还用于根据所述驾驶员语音信息确定对应的初始语义是否完整;
所述获取模块,还用于在所述初始语义不完整时,确定所述初始语义属于语义缺失或语义冗余;
视线检测模块,用于在所述初始语义属于语义缺失或语义冗余时,获取视线转移状态;
所述获取模块,还用于根据所述视线转移状态确定目标识别语义,并基于所述目标识别语义进行车辆控制。
此外,为实现上述目的,本发明还提出一种基于视线的语音识别设备,所述基于视线的语音识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于视线的语音识别程序,所述基于视线的语音识别程序配置为实现如上文所述的基于视线的语音识别方法。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有基于视线的语音识别程序,所述基于视线的语音识别程序被处理器执行时实现如上文所述的基于视线的语音识别方法。
本发明提出的基于视线的语音识别方法,通过获取语音监听时间内采集的驾驶员语音信息;根据所述驾驶员语音信息确定对应的初始语义是否完整;在所述初始语义不完整时,确定所述初始语义属于语义缺失或语义冗余;在所述初始语义属于语义缺失或语义冗余时,获取视线转移状态;根据所述视线转移状态确定目标识别语义,并基于所述目标识别语义进行车辆控制,从而将驾驶员的视线结合驾驶员的语音进行意图识别,提高驾驶员意图识别的准确性。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的基于视线的语音识别设备结构示意图;
图2为本发明基于视线的语音识别方法第一实施例的流程示意图;
图3为本发明基于视线的语音识别方法一实施例的驾驶员意图判断的整体示意图;
图4为本发明基于视线的语音识别方法第二实施例的流程示意图;
图5为本发明基于视线的语音识别方法一实施例的视线检测示意图;
图6为本发明基于视线的语音识别方法第三实施例的流程示意图;
图7为本发明基于视线的语音识别方法一实施例的基于视线的语音识别的整体流程示意图;
图8为本发明基于视线的语音识别装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
如图1所示,该设备可以包括:处理器1001,例如CPU,通信总线1002、驾驶员接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。驾驶员接口1003可以包括显示屏(Display)、输入单元比如按键,可选驾驶员接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的基于视线的语音识别设备结构并不构成对基于视线的语音识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、驾驶员接口模块以及基于视线的语音识别程序。
在图1所示的基于视线的语音识别设备中,网络接口1004主要用于连接服务器,与服务器进行数据通信;驾驶员接口1003主要用于连接驾驶员终端,与终端进行数据通信;本发明基于视线的语音识别设备通过处理器1001调用存储器1005中存储的基于视线的语音识别程序,并执行本发明实施例提供的基于视线的语音识别方法。
基于上述硬件结构,提出本发明基于视线的语音识别方法实施例。
参照图2,图2为本发明基于视线的语音识别方法第一实施例的流程示意图。
在第一实施例中,所述基于视线的语音识别方法包括以下步骤:
步骤S10,获取语音监听时间内采集的驾驶员语音信息。
需要说明的是,本实施例的执行主体为基于视线的语音识别设备,基于视线的语音识别设备可为车辆,以下以车辆为例进行说明,在车辆上设有基于视线的语音识别程序,通过基于视线的语音识别程序进行驾驶员语义的识别。
在本实施例中,车辆还具有免唤醒功能,免唤醒功能可通过语音或视线的方式进行唤醒,在通过语音的方式进行唤醒时,在显示的当前界面为预设显示界面时,在获取驾驶员的语音信息时,根据驾驶员的语音信息对当前界面进行相应的语音控制,其中,预设显示界面可为DA屏幕、仪表或HUD屏幕,在通过视线的方式进行唤醒时,在驾驶员的视线目标为预设显示界面时,根据驾驶员的语音信息对所述预设显示界面进行相应的语音控制,例如当驾驶员的视线目标为液晶仪表,并表达语句为显示油耗或显示行驶诊断时,则进行液晶仪表显示模式切换,当驾驶员的视线目标为DA设置界面,表达语句为滑到最下面,则进行DA设置界面翻动,当驾驶员的视线目标为DA音乐应用界面,表达语句为打开歌词,则进行DA音乐应用界面切换,从而通过结合视线实现语音控制,提高语音控制的准确性。
在本实施例中,车辆上设有拾音装置,通过拾音装置采集驾驶员的语音信息,并设定语音监听时间,对语音监听时间内的语音进行语义识别,语音监听时间可为10s,还可为其他参数,本实施例对此不做限制,语音监听时间可根据实际需求进行灵活调整,在一般情况下,在进行唤醒定位之后,根据语音监听时间采集驾驶员的语音信息,对驾驶员的语音信息进行语义理解,得到识别出的语义。
步骤S20,根据所述驾驶员语音信息确定对应的初始语义是否完整。
可以理解的是,初始语义为语音监听时间内采集的驾驶员的语音信息,并对语音信息进行语音识别,得到文字内容,并对文字内容进行理解,得到对应的语义,例如在驾驶员进行语音操作时,在语音唤醒后,在预设时间内判断是否采集到驾驶员的语音信息,在预设时间内未采集到驾驶员的语音信息,则结束录音,在预设时间内采集到驾驶员的语音信息,则根据用户说话时的停顿时间是否过预设停顿时间确定是否停止录音,例如4秒不说话才会结束录音,如果已经开始说话了,则根据用户说话时的停顿时间是否过800毫秒决定是否停止录音,在获取到语音信息后,例如驾驶员对着后视镜说“向上调”,则可将采集的驾驶员的语音信息转换为语义“向上调”,从而通过语音实现车辆的控制,提高车辆控制的便捷性以及效率。
在具体实现中,对所述驾驶员语音信息对应的初始语义从左到右依次计算相邻文本片段的凝聚程度;若所述凝聚程度未达到凝聚阈值,则将所述相邻文本片段进行切分,得到切分结果;根据所述切分结果进行分词统计,得到语音分词集;将所述语音分词集与词性数据库中的词语进行匹配,得到所述词性数据库中所述语音分词集对应的词性;根据所述语音分词集对应的词性确定所述初始语义是否完整。
在本实施例中,通过以下公式得到相邻文本片段的凝聚程度。
其中,PMI表示凝聚程度,A、B分别表示相邻文本片段,α表示A、B共现频率的权重,β1以及β2分别表示高频字的惩罚系数,P表示词出现的概率。
进一步地,根据相邻文本片段的凝聚程度进行切分,得到切分结果,词性数据库为每个词以及对应的词性,例如将语音信息“你好,我要导航去最近的加油站”进行切分,得到“你好”、“我”“要”“导航”“最近”“加油站”等,从而根据关键词进行划分,关键词为主语、谓语、宾语以及补语等,根据词性判断语义是否满足主语、谓语、宾语以及补语,在满足主语、谓语、宾语以及补语时,则说明对应的初始语义完整,在谓语以及宾语或者宾语和补语不同时满足时,则说明对应的初始语义不完整,从而提高语音识别的准确性。
步骤S30,在所述初始语义不完整时,确定所述初始语义属于语义缺失或语义冗余。
在具体实现中,为了确定所述初始语义属于语义缺失或语义冗余,根据所述语音分词集对应的词性确定是否存在完整的语句;在所述语音分词集对应的词性确定存在完整的语句时,确定所述初始语义属于语义冗余;在所述语音分词集对应的词性确定不存在完整的语句时,确定所述初始语义属于语义缺失。
在本实施例中,在语义不完整的情况下,存在两种情况,语义缺失和语义冗余,语义缺失是指并没有构成一个完整的语句,语义并没有包括完整的主语、谓语以及宾语,例如“你好,给我预约一下…”语义冗余是指在构成完整的语句时,还包括多余的语句,例如主驾:“你好,我要导航去最近的加油站…”,副驾“你带了加油卡吗?”,主驾:(看向副驾说)“已经带了。”,从而根据语境的不同情况进行语义识别,提高语音识别的准确性。
步骤S40,在所述初始语义属于语义缺失或语义冗余时,获取视线转移状态。
需要说明的是,在车辆上还设有面对驾驶员的视线采集装置,视线采集装置可为摄像头,还可为其他形式的视线捕捉设备,本实施例对此不做限制,在本实施例中,以摄像头为例进行说明,通过车辆上设置的摄像头获取驾驶员的视线状态,以通过抓取驾驶员的视线状态以及驾驶员的语音信息进行驾驶员的意图判断,相比较于仅通过语音进行意图识别,提高了驾驶员意图识别的准确性。
在本实施例中,视线转移状态可为视线出现转移,还可为其他状态,本实施例对此不做限制,在本实施例中,以视线转移为例进行说明,通过视线转移结合驾驶员语音对应的语义进行准确的语义识别。
步骤S50,根据所述视线转移状态确定目标识别语义,并基于所述目标识别语义进行车辆控制。
为了提高语义识别的准确性,根据视线转移状态结合语音信息对应的语义得到最终的目标识别语义,根据目标识别语义进行车辆控制,如图3所示的驾驶员意图判断的整体示意图,实时采集声音信息输入,唤醒识别及声源定位处理以及降噪处理,声源定位后降噪及消回声处理,声音端点检测ASR语音转文字,语义理解解析及上下文理解,并获取视线注视识别结果,根据语义结果以及视线注视识别结果综合得到意图判断,从而提高驾驶员意图识别的准确性。
在本实施例中,通过获取语音监听时间内采集的驾驶员语音信息;根据所述驾驶员语音信息确定对应的初始语义是否完整;在所述初始语义不完整时,确定所述初始语义属于语义缺失或语义冗余;在所述初始语义属于语义缺失或语义冗余时,获取视线转移状态;根据所述视线转移状态确定目标识别语义,并基于所述目标识别语义进行车辆控制,从而将驾驶员的视线结合驾驶员的语音进行意图识别,提高驾驶员意图识别的准确性。
参照图4,图4为本发明基于视线的语音识别方法第二实施例的流程示意图,基于第一实施例提出本发明的第二实施例,在第二实施例中,所述步骤S50,包括:
步骤S501,在所述初始语义属于语义冗余时,判断所述视线转移状态是否为视线转移。
在本实施例中,由于驾驶员说话时看向副驾或后排进行交流时,处于多方对话交流识别,在这种情况下,由于驾驶员存在多方对话,因此,造成语义冗余,如果对驾驶员的所有语音信息进行语义识别,会造成语义识别不准确的情况,由于存在驾驶员对车辆的语音控制,也存在驾驶员对副驾或后排,从而出现语义冗余,本实施例可在注视副驾及后排乘客的对话进行割离识别,抽取出驾驶员对车辆的语音对应的语义,而不对驾驶员对副驾及后排乘客的对话进行语义识别,从而提高语义识别的准确性。
步骤S502,在所述视线转移状态为视线转移时,获取视线转移前对应的语音时间。
在本实施例中,在所述视线转移状态为视线转移时,获取视线转移前对应的语音时间,通过视线转移前对应的语音时间确定驾驶员对车辆的语音控制的语义抽取。
步骤S503,根据所述视线转移前对应的语音时间从所述初始语义中进行语义抽取,得到目标识别语义。
在具体实现中,获取视线转移前对应的语音时间,根据所述视线转移前对应的语音时间从所述初始语义中进行语义抽取,得到目标识别语义,例如主驾:你好,我要导航去最近的加油站…,副驾:你带了加油卡吗?主驾:(看向副驾说)已经带了,最后得到的语义识别结果为语音助理输出:好的,为您搜索最近的加油站,从而通过驾驶员的视线转移状态确定抽取点,根据抽取点从冗余的语义中抽取出驾驶员对车辆的语音控制的语义,提高语义识别的准确性。
在一实施例中,所述步骤S501,包括:
在所述初始语义属于语义冗余时,获取所述初始语义中一段完整语义对应的语义冗余采集时间;根据所述语义冗余采集时间确定语义冗余的视线转移状态检测时间;在所述语义冗余的视线转移状态检测时间内判断所述视线转移状态是否为视线转移。
在本实施例中,语义冗余采集时间为驾驶人说话语义的一段完整语义结束时间点前后1秒内,还可为其他时间参数,可根据实际需求进行灵活调整,本实施例对此不做限制,在本实施例中以一段完整语义结束时间点前后1秒内作为视线转移状态检测时间为例进行说明。
在具体实现中,在多方对话视线转移的情况下,判断视线转移后的语义部分是否刚好是冗余语义的部分,如果符合,才判断是否要删除,例如出现语义冗余时,在驾驶人说话语义的一段完整语义结束时间点前后1秒内,判断是否存在视线目标切换,在出现视线转移时,根据所述视线转移前对应的语音时间从所述初始语义中进行语义抽取,得到目标识别语义,例如主驾:你好,我要导航去最近的加油站…,副驾:你带了加油卡吗?主驾:(看向副驾说)已经带了,通过主驾看向副驾,确定出现视线转移,如图5所示的视线检测示意图,因此,将视线转移的时间点最为分割点,将“已经带了”几个字将主驾说的话中剔除掉,不影响语音识别语义解析,将主驾看向副驾之前的语义作为最终的语义,即通过主驾说的:你好,我要导航去最近的加油站…,作为目标识别语义,从而解决语义冗余情况下的语义识别。
在本实施例中,在所述初始语义属于语义冗余时,获取所述初始语义中一段完整语义对应的语义冗余采集时间;根据所述语义冗余采集时间确定语义冗余的视线转移状态检测时间;在所述语义冗余的视线转移状态检测时间内判断所述视线转移状态是否为视线转移,在所述视线转移状态为视线转移时,获取视线转移前对应的语音时间;根据所述视线转移前对应的语音时间从所述初始语义中进行语义抽取,得到目标识别语义,从而根据视线转移对语音进行割离识别,根据割离后的语音进行语义识别,提高语义识别的准确性。
参照图6,图6为本发明基于视线的语音识别方法第三实施例的流程示意图,基于第一实施例提出本发明的第三实施例,在第三实施例中,所述步骤S50,包括:
步骤S504,在所述初始语义属于语义缺失时,判断所述视线转移状态是否为视线转移。
在本实施例基于的场景为主驾对着车机说:你好,给我预约一下…,然后转头看向导航屏幕显示的当前时间,然后接着说,晚上7点专营店的保养,在这种情况下,单人说话视线转移,因此,造成语义缺失,如果对驾驶员的语音信息进行语义识别,会造成语义识别不准确的情况,由于存在驾驶员对车辆的语音控制并没有表达完整,从而出现语义缺失,本实施例可在驾驶员说话中断时,监测到视线发生切换,对话结束VAD断句时间延长一定时间,此时间内如果驾驶员继续说话,语音可持续监听识别。
步骤S505,在所述视线转移状态为视线转移时,延长预设时长的语音监听时间。
在本实施例中,在所述视线转移状态为视线转移时,延长预设时长的VAD断句时间,预设时长可为2s,还可为其他时间参数,本实施例对此不做限制,可根据实际需求进行灵活调整,本实施例在语义缺失,将语音监听时间延迟2s继续监控,从而得到完整的语义,以解决语义缺失的情况。
步骤S506,获取所述预设时长的语音监听时间内的语音信息。
步骤S507,将所述初始语义与所述预设时长的语音监听时间内的语音信息对应的语义进行拼接,得到目标识别语义。
在具体实现中,录音等待智能识别,根据驾驶员视线变换灵活调整VAD等待时间,例如主驾说:你好,给我预约一下…,转头看向导航屏幕显示的当前时间,然后接着说晚上7点专营店的保养,在获取到转头看向导航屏幕的驾驶员视线转移状态时,继续监听,得到缺失的“晚上7点专营店的保养”,最后得到“你好,给我预约一下7点专营店的保养”,从而通过驾驶员的视线转移状态确定拼接点,根据拼接点得到驾驶员对车辆的语音控制的语义,提高语义识别的准确性。
在一实施例中,所述步骤S504,包括:
在所述初始语义属于语义缺失时,获取所述初始语义中结束语音对应的语义缺失采集时间;根据所述语义缺失采集时间确定语义缺失的视线转移状态检测时间;在所述语义缺失的视线转移状态检测时间内判断所述视线转移状态是否为视线转移。
需要说明的是,初始语义中结束语音对应的语义缺失采集时间为在说话时视线目标突然转换,单人说话视线转移,驾驶人说话结束时音点的前后1秒内,还可为其他时间参数,可根据实际需求进行灵活调整,本实施例对此不做限制,在本实施例中以驾驶人说话结束时音点的前后1秒内作为视线转移状态检测时间为例进行说明。
如图7所示的基于视线的语音识别的整体流程示意图,语音唤醒开始录音,语音断点停止时语义是否完整,在语义完整时,输出语义识别结果,语义不完整时,语义组成是缺失还是含有冗余结构,在存在多余结构时,是否满足多方对话视线逻辑,在满足多方对话视线逻辑时,将视线转移前的语义抽取,根据抽取语义进行答复,在语义缺失时,视线转移逻辑是否满足,在视线转移逻辑不满足时,未识别成功,并进行相应的答复,在视线转移逻辑满足时,语音录音等待时间延迟2s,第二轮循环无需延迟,即将延长时间删除。
在本实施例中,在所述初始语义属于语义缺失时,获取所述初始语义中结束语音对应的语义缺失采集时间;根据所述语义缺失采集时间确定语义缺失的视线转移状态检测时间;在所述语义缺失的视线转移状态检测时间内判断所述视线转移状态是否为视线转移;在所述视线转移状态为视线转移时,延长预设时长的语音监听时间;获取所述预设时长的语音监听时间内的语音信息;将所述初始语义与所述预设时长的语音监听时间内的语音信息对应的语义进行拼接,得到目标识别语义,从而根据视线转移进行监听语音的延迟,根据延长预设时间继续进行语音监听,并对语音进行拼接识别,根据识别后的语音进行语义识别,提高语义识别的准确性。
本发明进一步提供一种基于视线的语音识别装置。
参照图8,图8为本发明基于视线的语音识别装置第一实施例的功能模块示意图。
本发明基于视线的语音识别装置第一实施例中,该基于视线的语音识别装置包括:
获取模块10,用于获取语音监听时间内采集的驾驶员语音信息。
所述获取模块10,还用于根据所述驾驶员语音信息确定对应的初始语义是否完整。
所述获取模块10,还用于在所述初始语义不完整时,确定所述初始语义属于语义缺失或语义冗余。
视线检测模块20,用于在所述初始语义属于语义缺失或语义冗余时,获取视线转移状态。
所述获取模块10,还用于根据所述视线转移状态确定目标识别语义,并基于所述目标识别语义进行车辆控制。
在本实施例中,通过获取语音监听时间内采集的驾驶员语音信息;根据所述驾驶员语音信息确定对应的初始语义是否完整;在所述初始语义不完整时,确定所述初始语义属于语义缺失或语义冗余;在所述初始语义属于语义缺失或语义冗余时,获取视线转移状态;根据所述视线转移状态确定目标识别语义,并基于所述目标识别语义进行车辆控制,从而将驾驶员的视线结合驾驶员的语音进行意图识别,提高驾驶员意图识别的准确性。
可选地,所述获取模块10,还用于在所述初始语义属于语义冗余时,判断所述视线转移状态是否为视线转移;
在所述视线转移状态为视线转移时,获取视线转移前对应的语音时间;
根据所述视线转移前对应的语音时间从所述初始语义中进行语义抽取,得到目标识别语义。
可选地,所述获取模块10,还用于在所述初始语义属于语义冗余时,获取所述初始语义中一段完整语义对应的语义冗余采集时间;
根据所述语义冗余采集时间确定语义冗余的视线转移状态检测时间;
在所述语义冗余的视线转移状态检测时间内判断所述视线转移状态是否为视线转移。
可选地,所述获取模块10,还用于在所述初始语义属于语义缺失时,判断所述视线转移状态是否为视线转移;
在所述视线转移状态为视线转移时,延长预设时长的语音监听时间;
获取所述预设时长的语音监听时间内的语音信息;
将所述初始语义与所述预设时长的语音监听时间内的语音信息对应的语义进行拼接,得到目标识别语义。
可选地,所述获取模块10,还用于在所述初始语义属于语义缺失时,获取所述初始语义中结束语音对应的语义缺失采集时间;
根据所述语义缺失采集时间确定语义缺失的视线转移状态检测时间;
在所述语义缺失的视线转移状态检测时间内判断所述视线转移状态是否为视线转移。
可选地,所述获取模块10,还用于对所述驾驶员语音信息对应的初始语义从左到右依次计算相邻文本片段的凝聚程度;
若所述凝聚程度未达到凝聚阈值,则将所述相邻文本片段进行切分,得到切分结果;
根据所述切分结果进行分词统计,得到语音分词集;
将所述语音分词集与词性数据库中的词语进行匹配,得到所述词性数据库中所述语音分词集对应的词性;
根据所述语音分词集对应的词性确定所述初始语义是否完整。
可选地,所述获取模块10,还用于根据所述语音分词集对应的词性确定是否存在完整的语句;
在所述语音分词集对应的词性确定存在完整的语句时,确定所述初始语义属于语义冗余;
在所述语音分词集对应的词性确定不存在完整的语句时,确定所述初始语义属于语义缺失。
此外,为实现上述目的,本发明还提出一种基于视线的语音识别设备,所述基于视线的语音识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于视线的语音识别程序,所述基于视线的语音识别程序配置为实现如上文所述的基于视线的语音识别方法。
由于本基于视线的语音识别设备采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有基于视线的语音识别程序,所述基于视线的语音识别程序被处理器执行时实现如上文所述的基于视线的语音识别方法。
由于本存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台智能终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于视线的语音识别方法,其特征在于,所述基于视线的语音识别方法包括:
获取语音监听时间内采集的驾驶员语音信息;
根据所述驾驶员语音信息确定对应的初始语义是否完整;
在所述初始语义不完整时,确定所述初始语义属于语义缺失或语义冗余;
在所述初始语义属于语义缺失或语义冗余时,获取视线转移状态;
根据所述视线转移状态确定目标识别语义,并基于所述目标识别语义进行车辆控制。
2.如权利要求1所述的基于视线的语音识别方法,其特征在于,所述根据所述视线转移状态确定目标识别语义,包括:
在所述初始语义属于语义冗余时,判断所述视线转移状态是否为视线转移;
在所述视线转移状态为视线转移时,获取视线转移前对应的语音时间;
根据所述视线转移前对应的语音时间从所述初始语义中进行语义抽取,得到目标识别语义。
3.如权利要求2所述的基于视线的语音识别方法,其特征在于,所述在所述初始语义属于语义冗余时,判断所述视线转移状态是否为视线转移,包括:
在所述初始语义属于语义冗余时,获取所述初始语义中一段完整语义对应的语义冗余采集时间;
根据所述语义冗余采集时间确定语义冗余的视线转移状态检测时间;
在所述语义冗余的视线转移状态检测时间内判断所述视线转移状态是否为视线转移。
4.如权利要求1所述的基于视线的语音识别方法,其特征在于,所述根据所述视线转移状态确定目标识别语义,包括:
在所述初始语义属于语义缺失时,判断所述视线转移状态是否为视线转移;
在所述视线转移状态为视线转移时,延长预设时长的语音监听时间;
获取所述预设时长的语音监听时间内的语音信息;
将所述初始语义与所述预设时长的语音监听时间内的语音信息对应的语义进行拼接,得到目标识别语义。
5.如权利要求4所述的基于视线的语音识别方法,其特征在于,所述在所述初始语义属于语义缺失时,判断所述视线转移状态是否为视线转移,包括:
在所述初始语义属于语义缺失时,获取所述初始语义中结束语音对应的语义缺失采集时间;
根据所述语义缺失采集时间确定语义缺失的视线转移状态检测时间;
在所述语义缺失的视线转移状态检测时间内判断所述视线转移状态是否为视线转移。
6.如权利要求1至5中任一项所述的基于视线的语音识别方法,其特征在于,所述根据所述驾驶员语音信息确定对应的初始语义是否完整,还包括:
对所述驾驶员语音信息对应的初始语义从左到右依次计算相邻文本片段的凝聚程度;
若所述凝聚程度未达到凝聚阈值,则将所述相邻文本片段进行切分,得到切分结果;
根据所述切分结果进行分词统计,得到语音分词集;
将所述语音分词集与词性数据库中的词语进行匹配,得到所述词性数据库中所述语音分词集对应的词性;
根据所述语音分词集对应的词性确定所述初始语义是否完整。
7.如权利要求6所述的基于视线的语音识别方法,其特征在于,所述确定所述初始语义属于语义缺失或语义冗余,包括:
根据所述语音分词集对应的词性确定是否存在完整的语句;
在所述语音分词集对应的词性确定存在完整的语句时,确定所述初始语义属于语义冗余;
在所述语音分词集对应的词性确定不存在完整的语句时,确定所述初始语义属于语义缺失。
8.一种基于视线的语音识别装置,其特征在于,所述基于视线的语音识别装置包括:
获取模块,用于获取语音监听时间内采集的驾驶员语音信息;
所述获取模块,还用于根据所述驾驶员语音信息确定对应的初始语义是否完整;
所述获取模块,还用于在所述初始语义不完整时,确定所述初始语义属于语义缺失或语义冗余;
视线检测模块,用于在所述初始语义属于语义缺失或语义冗余时,获取视线转移状态;
所述获取模块,还用于根据所述视线转移状态确定目标识别语义,并基于所述目标识别语义进行车辆控制。
9.一种基于视线的语音识别设备,其特征在于,所述基于视线的语音识别设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于视线的语音识别程序,所述基于视线的语音识别程序配置为实现如权利要求1至7中任一项所述的基于视线的语音识别方法。
10.一种存储介质,其特征在于,所述存储介质上存储有基于视线的语音识别程序,所述基于视线的语音识别程序被处理器执行时实现如权利要求1至7中任一项所述的基于视线的语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210597788.3A CN114999482A (zh) | 2022-05-30 | 2022-05-30 | 基于视线的语音识别方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210597788.3A CN114999482A (zh) | 2022-05-30 | 2022-05-30 | 基于视线的语音识别方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114999482A true CN114999482A (zh) | 2022-09-02 |
Family
ID=83028659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210597788.3A Pending CN114999482A (zh) | 2022-05-30 | 2022-05-30 | 基于视线的语音识别方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114999482A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI832792B (zh) * | 2023-08-16 | 2024-02-11 | 中華電信股份有限公司 | 基於上下文情境與使用歷程的意圖評選系統及其方法 |
-
2022
- 2022-05-30 CN CN202210597788.3A patent/CN114999482A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI832792B (zh) * | 2023-08-16 | 2024-02-11 | 中華電信股份有限公司 | 基於上下文情境與使用歷程的意圖評選系統及其方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10867607B2 (en) | Voice dialog device and voice dialog method | |
KR102535338B1 (ko) | 화자 임베딩(들)과 트레이닝된 생성 모델을 이용한 화자 분리 | |
US11217230B2 (en) | Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user | |
US10755702B2 (en) | Multiple parallel dialogs in smart phone applications | |
CN113327609B (zh) | 用于语音识别的方法和装置 | |
JP2003308087A (ja) | 文法更新システム及び方法 | |
CN110880321B (zh) | 基于语音的智能刹车方法、装置、设备及存储介质 | |
CN110689877A (zh) | 一种语音结束端点检测方法及装置 | |
JP2000516754A (ja) | インテリジェント ヒューマン/コンピュータ インターフェース システム | |
CN109994106B (zh) | 一种语音处理方法及设备 | |
JP3523213B2 (ja) | コマンド処理装置、コマンド処理方法、及びコマンド処理プログラム | |
CN114999482A (zh) | 基于视线的语音识别方法、装置、设备及存储介质 | |
CN115457951A (zh) | 一种语音控制方法、装置、电子设备以及存储介质 | |
JP2002520681A (ja) | 自動音声認識方法 | |
CN113223527A (zh) | 一种用于电动车智能仪表的语音控制方法及电动车 | |
CN112333258A (zh) | 一种智能客服方法、存储介质及终端设备 | |
CN110956958A (zh) | 搜索方法、装置、终端设备及存储介质 | |
KR101368464B1 (ko) | 음성 데이터 전사용 음성 인식 장치 및 방법 | |
CN116246616A (zh) | 语音交互方法、语音交互装置、服务器以及可读存储介质 | |
CN114596842A (zh) | 一种语音交互的方法、装置、计算机设备和存储介质 | |
CN112367494A (zh) | 基于ai的在线会议通讯方法、装置及计算机设备 | |
US20050209850A1 (en) | Voice retrieval system | |
CN116483960B (zh) | 对话识别方法、装置、设备以及存储介质 | |
US20200321006A1 (en) | Agent apparatus, agent apparatus control method, and storage medium | |
US11756533B2 (en) | Hot-word free pre-emption of automated assistant response presentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |