CN115132226A - 语音交互方法、设备及存储介质 - Google Patents
语音交互方法、设备及存储介质 Download PDFInfo
- Publication number
- CN115132226A CN115132226A CN202210738888.3A CN202210738888A CN115132226A CN 115132226 A CN115132226 A CN 115132226A CN 202210738888 A CN202210738888 A CN 202210738888A CN 115132226 A CN115132226 A CN 115132226A
- Authority
- CN
- China
- Prior art keywords
- sound source
- audio data
- pose
- interaction
- target user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 112
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 238000009826 distribution Methods 0.000 claims description 12
- 239000004984 smart glass Substances 0.000 claims description 10
- 208000032041 Hearing impaired Diseases 0.000 abstract description 22
- 230000002452 interceptive effect Effects 0.000 abstract description 11
- 239000011521 glass Substances 0.000 description 20
- 238000012549 training Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000002093 peripheral effect Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 230000007613 environmental effect Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/20—Position of source determined by a plurality of spaced direction-finders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请属于语音交互技术领域,具体涉及一种语音交互方法、设备及存储介质,该方法包括:获取当前环境中可移动设备采集的由声源发出的音频数据,可移动设备适于供第一目标用户使用;基于音频数据确定声源相对于可移动设备的相对位置信息;基于相对位置信息输出位置提示,位置提示用于指示声源的位置;可以解决由于听障人士可能无法听到其他用户的呼唤导致语音交互失效的问题;通过获取声源发出的音频数据从而通过可移动设备输出位置提示,这样听障人士仅需根据可移动设备输出的提示即可找到语音交互的对象,因此一方面可以保证听障人士进行有效的语音交互,另一方面可以提高语音交互的效率。
Description
【技术领域】
本申请属于语音交互技术领域,具体涉及一种语音交互方法、设备及存储介质。
【背景技术】
语音交互是指用户通过语音与其他人进行交互的过程。
语音交互的过程一般为:其它用户呼唤当前用户后,当前用户面向其它用户后进行交流。
然而,由于听障人士可能无法听到其他用户的呼唤,因此,会导致语音交互失效的问题。
【发明内容】
本申请提供了一种语音交互方法、设备及存储介质,可以解决由于听障人士可能无法听到其他用户的呼唤导致语音交互失效的问题。本申请提供如下技术方案。
第一方面,提供了语音交互方法,所述方法包括:
获取当前环境中可移动设备采集的由声源发出的音频数据,所述可移动设备适于供第一目标用户使用;
基于所述音频数据确定所述声源相对于所述可移动设备的相对位置信息;
基于所述相对位置信息输出位置提示,所述位置提示用于指示所述声源的位置。
可选地,所述基于所述音频数据确定所述声源相对于所述可移动设备的相对位置信息,包括:
确定所述音频数据是否指示所述第一目标用户的身份标识;
在所述音频数据指示所述身份标识的情况下,基于所述音频数据确定所述声源相对于所述可移动设备的相对位置信息。
可选地,所述确定所述音频数据是否指示第一目标用户的身份标识,包括:
确定所述音频数据是否为语音数据;
在所述音频数据为语音数据的情况下,确定所述语音数据的语义信息是否与所述身份标识相匹配,在所述语义信息与所述身份标识匹配的情况下所述音频数据指示所述身份标识。
可选地,所述基于所述相对位置信息输出位置提示,包括:
基于所述相对位置信息确定所述可移动设备的期望交互位姿;
获取所述可移动设备的当前位姿数据;
基于所述当前位姿数据与所述期望交互位姿生成所述位置提示。
可选地,所述期望交互位姿包括期望交互方向,相应地,所述基于所述当前位姿数据与所述期望交互位姿生成所述位置提示,包括:
确定所述当前位姿数据指示的当前设备方向与所述期望交互方向之间的角度差;
使用所述角度差、以及所述期望交互方向相对于所述当前设备方向的方位,生成所述位置提示,所述位置提示包括所述角度差和所述方位。
可选地,所述位置提示通过预设图形显示,所述预设图形能够指示方位,且所述预设图像的偏转角度用于指示所述角度差。
可选地,所述期望交互位姿包括期望交互位置,相应地,所述基于所述当前位姿数据与所述期望交互位姿生成所述位置提示,包括:
确定所述当前位姿数据指示的当前设备位置与所述期望交互位置之间的距离差;
使用所述距离差生成所述位置提示,所述位置提示包括所述距离差。
可选地,所述可移动设备包括麦克风阵列,所述基于所述音频数据确定所述声源相对于所述可移动设备的相对位置信息,包括:
获取所述麦克风阵列采集的音频数据;
将所述音频数据与所述麦克风阵列形成的声源分布网格图进行匹配,确定所述声源相对于所述可移动设备的相对位置信息,所述麦克风阵列形成的声源分布网格图基于波束成形算法确定。
可选地,所述基于所述相对位置信息输出位置提示后,还包括:
确定是否到达与所述声源进行交互的期望交互位姿;
在到达所述期望交互位姿的情况下输出到达提示。
可选地,所述声源为第二目标用户,所述确定是否到达与所述声源进行交互的期望交互位姿,包括:
采集环境图像;
在所述环境图像包括人物图像、且所述可移动设备的当前位姿数据到达所述期望交互位姿时,确定到达与所述声源进行交互的期望交互位姿。
可选地,所述获取当前环境中可移动设备采集的声源发出的音频数据之前,还包括:
确定所述可移动设备是否正在被所述第一目标用户使用;
在所述可移动设备正在被所述第一目标用户使用的情况下,采集所述声源发出的音频数据。
第二方面,提供了一种电子设备,所述设备包括处理器和存储器;所述存储器中存储有程序,所述程序由所述处理器加载并执行以实现如第一方面所述的语音交互方法。
可选地,所述电子设备包括可移动设备,所述可移动设备包括:
音频采集组件,适于采集声源发出的音频数据;
显示组件,适于显示位置提示;
所述音频采集组件和所述显示组件分别与所述处理器相连。
可选地,所述可移动设备包括智能眼镜,所述显示组件通过所述智能眼镜的镜片实现。
第三方面,提供了一种计算机可读存储介质,所述存储介质中存储有程序,所述程序被处理器执行时用于实现如第一方面所述的语音交互方法。
本申请的有益效果在于:通过获取当前环境中可移动设备采集的声源发出的音频数据,可移动设备适用供第一目标用户使用;基于音频数据确定声源相对于可移动设备的相对位置信息;基于相对位置信息输出位置提示,位置提示用于指示声源的位置;可以解决由于听障人士可能无法听到其他用户的呼唤导致语音交互失效的问题;通过获取声源发出的音频数据从而通过可移动设备输出位置提示,这样听障人士仅需根据可移动设备输出的提示即可找到语音交互的对象,因此一方面可以保证听障人士进行有效的语音交互,另一方面可以提高语音交互的效率。
另外,由于可移动设备可能会在未由第一目标用户使用的情况下,持续采集声源发出的音频数据,这就会导致可移动设备浪费电量资源的问题。基于上述技术问题,本实施例中,在确定可移动设备正在被第一目标用户使用的情况下采集声源发出的音频数据,这样可以节省可移动设备的电量资源。
另外,由于可移动设备只要采集到音频数据,即确定声源相对于可移动设备的相对位置信息。但是,由于该音频数据可能无需第一目标用户进行响应,这就导致了第一目标用户进行无效交互的问题。基于此,在可移动设备采集到音频数据后,先确定该音频数据是否是需要第一目标用户响应的音频数据,在是需要第一目标用户响应的音频数据的情况下,才确定声源相对于可移动设备的相对位置信息。这样,可以保证该音频数据需要第一目标用户进行响应时用户进行响应,这样保证了第一目标用户可以进行有效语音交互。
另外,由于采用传统的声源方向到达(Direction of Arrival,DOA)估计的方式可能导致环境中的噪声影响声源定位的准确性,基于上述技术问题,本实施例中,通过采用波束成形算法确声源分布网格图定的方式,这样可以减少了环境噪声的影响,提高了声源定位的准确性。
另外,由于听障人士无法获取外界声音,因此,本实施例中通过预设图形配合文字提示显示的方式进行位置提示,可以保证听障人士实时获取到声源的具体位置方位,这样可以保证听障人士可以与他人进行有效交互。
【附图说明】
图1是本申请一个实施例提供的可移动设备的结构示意图;
图2是本申请一个实施例提供的AR眼镜的示意图;
图3是本申请一个实施例提供的语音交互方法的流程图;
图4是本申请一个实施例提供的位置提示的示意图;
图5是本申请另一个实施例提供的位置提示的示意图;
图6是本申请另一个实施例提供语音交互方法的流程图;
图7是本申请一个实施例提供的第一目标用户和第二目标用户交互的示意图;
图8是本申请另一个实施例提供的位置提示的示意图;
图9是本申请另一个实施例提供的多个位置提示的示意图;
图10是本申请另一个实施例提供的AR显示区域的示意图;
图11是本申请一个实施例提供的语音交互装置的框图;
图12是本申请一个实施例提供的电子设备的框图。
【具体实施方式】
下面将结合附图对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
在申请中,在未作相反说明的情况下,使用的方位词如“上、下、顶、底”通常是针对附图所示的方向而言的,或者是针对部件本身在竖直、垂直或重力方向上而言的;同样地,为便于理解和描述,“内、外”是指相对于各部件本身的轮廓的内、外,但上述方位词并不用于限制本申请。
如图1所示为本申请一个实施例提供的可移动设备的结构示意图,该可移动设备可以为智能眼镜、智能手环、智能手表等可以随用户移动的电子设备,可移动设备适于供第一目标用户使用,本实施例不对可移动设备的设备类型作限定。
其中,第一目标用户为使用可移动设备的用户。
根据图1可知,可移动设备至少包括:传感器110、提示组件120、处理器130、电池140和用户交互组件150。
传感器110与处理器130相连,用于采集传感数据。
可选地,传感器110包括但不限于:麦克风阵列、陀螺仪、加速度传感器和/或其它传感器,本实施例不对传感器110的类型作限定。
可选地,当传感器110包括麦克风阵列时,传感器110用于采集音频数据。
可选地,音频数据包括但不限于:音频编码、音频码流、音频声道数、音频量化位数、音频采样频率和码率等,本实施例不对音频数据的类型作限定。
可选地,当传感器110包括麦克风阵列时,麦克风阵列中的麦克风数量可以为至少两个,本实施例不对麦克风阵列中的麦克风数量作限定。
参考图2,以可移动设备为智能眼镜为例,当传感器110包括麦克风阵列时,且麦克风的数量为4个的情况下,每个麦克风以固定预设距离排布于智能眼镜内部。此时,4个麦克风组成的麦克风阵列对当前环境中声源发出的音频数据进行采集。
可选地,当传感器110包括陀螺仪或加速度传感器时,传感器110用于确定当前位姿数据指示的当前设备方向与期望交互方向之间的角度差。
可选地,为了确定当前可移动设备的位姿数据,传感器110还可以包括地磁传感器和/或距离传感器等。
可选地,当前位姿数据包括但不限于:可移动设备的当前设备方向、可移动设备的位置坐标等,本实施例不对可移动设备的当前位姿数据的类型作限定。
可选地,为了确定达到期望交互位姿情况下是否存在第二目标用户,传感器110还可以包括图像传感器,以采集环境图像。图像传感器可以为三原色光(Red Green Blue,RGB)摄像头、飞行时间(Time Of Flight,TOF)摄像头、激光雷达传感器等,本实施例不对图像传感器的类型作限定。
其中,第二目标用户发出的音频数据指示第一目标用户的身份标识,即第二目标用户为声源。
提示组件120用于发出目标提示。可选地,提示组件120包括但不限于:显示组件、指示灯、扬声器等,本实施例不对提示组件120的类型作限定。
可选地,当提示组件120包括显示组件时,提示组件120可以为发光二极管(Light-Emitting Diode,LED)显示屏、液晶显示器(Liquid Crystal Display,LCD)显示屏或者3D显示屏等,本实施例不对提示组件120的类型作限定。
可选地,当提示组件120包括显示组件时,目标提示为显示位置提示、显示当前设备电量或者显示当前工作模式等,本实施例不对显示组件显示的内容作限定。参考图2,以可移动设备为智能眼镜为例,显示组件可以为两片具有增强现实(Augmented Reality,AR)显示功能的LED镜片组成的AR显示模组。
音频采集组件110和提示组件120分别与处理器130相连。
可选地,处理器130可以实现为单片机或者微型计算机,本实施例不对处理器130的实现方式作限定。
本实施例中,处理器130用于:获取当前环境中可移动设备采集的声源发出的音频数据;基于音频数据确定声源相对于可移动设备的相对位置信息;基于相对位置信息输出位置提示,位置提示用于指示声源的位置。
可选地,处理器130与用户交互组件150相连,用于接收用户交互组件150发出的指令。
可选地,用户交互组件150发出指令的方式包括不限于:通过按键触发发出指令、通过触摸板触发发出指令、通过感应震动发出指令或者通过遥控器发出指令等。
可选地,可以通过用户交互组件150实现对可移动设备的控制,比如:对可移动设备进行开关操作、对可移动设备进行修改操作等。
电池组件140用于为可移动设备进行供电。
在实际实现时,可移动设备设备还可以包括其它组件,比如:无线传输模块、蓝牙模块等本实施例在此不对可移动设备包括的组件一一进行列举。
本实施例中,通过获取声源发出的音频数据从而通过可移动设备输出位置提示,这样听障人士仅需根据可移动设备输出的提示即可找到语音交互的对象,因此一方面可以保证听障人士进行有效的语音交互,另一方面可以提高语音交互的效率。
下面对本申请提供的语音交互方法进行详细介绍。
如图3所示,本申请的实施例提供的一个语音交互方法,本实施例以该方法用于可移动设备中为例进行说明,在实际实现时,该方法还可以用于其它设备,其它设备与可移动设备通信相连,其它设备可以是遥控器、手机、平板电脑或者可穿戴设备等具有处理能力的设备,本实施例不对其它设备的设备类型作限定。
该方法至少包括以下几个步骤:
步骤301,获取当前环境中可移动设备采集的由声源发出的音频数据。
可选地,声源可以为正在发声的用户或者正在发声的物体,本实施例不对声源的类型作限定。
可选地,声源发出的音频数据可以由可移动设备进行采集后获取得到,或者由其它设备采集后发送至可移动设备后获取得到,本实施例不对音频数据的获取方式作限定。
可选地,在获取当前环境中可移动设备采集的声源发出的音频数据之前,还包括:确定可移动设备是否正在被第一目标用户使用;在可移动设备正在被第一目标用户使用的情况下,采集声源发出的音频数据。
在一个示例中,确定可移动设备是否正在被第一目标用户使用,包括:获取可移动设备的工作状态;在可移动设备的工作状态指示为已使用的情况下,确定可移动设备正在被第一目标用户使用;在可移动设备的工作状态指示为未使用的情况下,确定可移动设备没有被第一目标用户使用。
可移动设备的工作状态包括:已使用状态和未使用状态。
在另一个示例中,确定可移动设备是否正在被第一目标用户使用,包括:获取可移动设备的工作状态;在可移动设备的工作状态指示为已使用状态的情况下,获取可移动设备采集的验证特征数据;将该验证特征数据与第一目标用户的用户特征数据进行比较;在该验证特征数据与第一目标用户的用户特征数据匹配的情况下,确定可移动设备由第一目标用户使用;在可移动设备的工作状态指示为未使用状态、或者验证特征数据与第一目标用户的用户特征数据不匹配的情况下,确定可移动设备没有被第一目标用户使用。
在又一个示例中,确定可移动设备是否正在被第一目标用户使用,包括:获取可移动设备的工作状态;在可移动设备的工作状态指示为已使用状态的情况下,获取可移动设备的用户登录信息;在该用户登录信息与第一目标用户的模板登录信息匹配的情况下,确定可移动设备被第一目标用户佩使用;在可移动设备的工作状态指示为未使用状态、或者用户登录信息与第一目标用户的模板登录信息不匹配的情况下,确定可移动设备没有被第一目标用户使用。
其中,获取可移动设备的工作状态的方式包括:获取可移动设备上心率传感器采集的心率数据;在检测到心率数据、且检测到心率数据的持续时长达到预设时长的情况下,确定可移动设备的工作状态为用户使用状态;在未检测到心率数据、或者检测到心率数据的持续时长未达到预设时长的情况下,确定可移动设备的工作状态为用户未使用状态。
由于可移动设备可能会在未由第一目标用户使用的情况下,持续采集声源发出的音频数据,这就会导致可移动设备浪费电量资源的问题。本实施例中,在确定可移动设备正在被第一目标用户使用的情况下采集声源发出的音频数据,这样可以节省可移动设备的电量资源。
步骤302,基于音频数据确定声源相对于可移动设备的相对位置信息。
在一个示例中,可移动设备只要采集到音频数据,即确定声源相对于可移动设备的相对位置信息。但是,由于该音频数据可能无需第一目标用户进行响应,这就导致了第一目标用户进行无效交互的问题。
基于此,在另一个示例中,可移动设备采集到音频数据后,先确定该音频数据是否是需要第一目标用户响应的音频数据,在是需要第一目标用户响应的音频数据的情况下,才确定声源相对于可移动设备的相对位置信息。这样,可以保证该音频数据需要第一目标用户进行响应时用户进行响应,这样保证了第一目标用户可以进行有效语音交互。
此时,基于音频数据确定声源相对于可移动设备的相对位置信息,至少包括以下步骤S11至S12:
步骤S11:确定音频数据是否指示第一目标用户的身份标识。
确定音频数据是否指示第一目标用户的身份标识,包括:
确定音频数据是否为语音数据;在音频数据为语音数据的情况下,确定语音数据的语义信息是否与身份标识相匹配,在语义信息与身份标识匹配的情况下音频数据指示身份标识。
其中,身份标识预存于可移动设备中,并用于指示第一目标用户身份。
可选地,身份标识可以为第一目标用户的姓名、第一目标用户的昵称等,本实施例不对身份标识的具体实现方式作限定。
可选地,身份标识的数量可以为一个或者至少两个,本实施例不对身份标识的数量作限定。
可选地,确定音频数据是否为语音数据包括:将音频数据输入预先训练的语音识别模型,得到语音识别结果。其中,语音识别模型使用训练数据对预设的第一神经网络模型训练得到的。
可选地,训练数据包括样本音频数据和样本音频数据对应的样本标签。
样本标签用于指示样本音频信息对应的音频类别。
可选地,在确定语音数据的语义信息是否与身份标识相匹配之前还包括:将语音数据输入至预先训练的语义识别模型,得到语音数据对应的语义信息。其中,语义识别模型使用训练数据对预设的第二神经网络模型训练得到的。
可选地,训练数据包括样本语音数据和样本语音数据对应的样本标签。样本标签用于指示样本语音数据对应的语义信息。
其中,语音识别模型和语义识别模型包括但不限于:深度神经网络(Deep NeuralNetwork,DNN)、循环神经网络(Recurrent Neural Network,RNN)或者卷积神经网络(Convolutional Neural Network,CNN)等,本实施例不对语音识别模型和语义识别模型的类型作限定。
步骤S12:在音频数据指示身份标识的情况下,基于音频数据确定声源相对于可移动设备的相对位置信息。
在一个示例中,可移动设备包括麦克风阵列,基于音频数据确定声源相对于可移动设备的相对位置信息,至少包括以下步骤S21至S24:
步骤S21:获取麦克风阵列采集的音频数据。
可选地,麦克风阵列可以为圆形的阵列、或者线性的阵列等,本实施例不对麦克风阵列的具体阵列形状做限定。
步骤S22:将音频数据与麦克风阵列形成的声源分布网格图进行匹配,确定声源相对于可移动设备的相对位置信息,麦克风阵列形成的声源分布网格图基于波束成形算法确定。
其中,声源分布网格图中的每一个网格对应一个测试音频。
将音频数据与麦克风阵列形成的声源分布网格图进行匹配,确定声源相对于可移动设备的相对位置信息,包括:将音频数据与声源分布网格图中的每个测试音频进行匹配;将匹配上的测试音频的网格位置作为声源相对于可移动设备的相对位置信息。
由于采用传统的声源方向到达(Direction of Arrival,DOA)估计的方式可能导致环境中的噪声影响声源定位的准确性,基于上述技术问题,本实施例中,通过采用波束成形算法确声源分布网格图定的方式,这样可以减少了环境噪声的影响,提高了声源定位的准确性。
在另一个示例中,可移动设备包括麦克风阵列,基于音频数据确定声源相对于可移动设备的相对位置信息,包括:
获取多个已知方向对音频数据进行波束增强以得到多路波束成形音频;将多路波束成形音频输入至唤醒引擎中,并获取唤醒引擎是否被唤醒的唤醒信息;若多路波束成形音频中至少一路唤醒引擎,基于多个已知方向和多路波束成形音频的唤醒信息确定声源范围估计值;将缓存的多个输入信号输入至波达方向估计算法并在声源范围估计值的范围内计算得到声源相对于可移动设备的相对位置信息。
可选地,在基于音频数据确定声源相对于可移动设备的相对位置信息之后,还包括:输出呼喊提示,呼喊提示用于指示当前音频数据与身份标识相匹配。
步骤303,基于相对位置信息输出位置提示,位置提示用于指示声源的位置。
可选地,基于相对位置信息输出位置提示,至少包括以下步骤S31至S33:
步骤S31:基于相对位置信息确定可移动设备的期望交互位姿。
可选地,期望交互位姿包括但不限于期望交互方向和/或期望交互位置。
在一个示例中,若相对位置信息为正右方,则可移动设备的期望交互位姿为正右方。
在另一个示例中,若相对位置信息为距离可移动设备10米,则可移动设备的期望交互位姿为距离可移动设备5米。
步骤S32:获取可移动设备的当前位姿数据。
可选地,当前位姿数据包括但不限于:可移动设备的当前设备方向、可移动设备的位置坐标等,本实施例不对可移动设备的当前位姿数据的类型作限定。
步骤S33:基于当前位姿数据与期望交互位姿生成位置提示。
在一个示例中,期望交互位姿包括期望交互方向,相应地,基于当前位姿数据与期望交互位姿生成位置提示,包括:确定当前位姿数据指示的当前设备方向与期望交互方向之间的角度差;使用角度差、以及期望交互方向相对于当前设备方向的方位,生成位置提示,位置提示包括角度差和方位。
其中,确定当前位姿数据指示的当前设备方向与期望交互方向之间的角度差,包括:确定可移动设备正视不同方向时的角度值;分别获取当前设备方向的角度值和期望交互方向的角度值;将期望交互方向的角度值与当前设备方向的角度值做差得到角度差。
其中,不同方向的角度值基于第三传感器得到。
可选地,位置提示通过预设图形显示,预设图形能够指示方位,且预设图像的偏转角度用于指示角度差。
可选地,位置提示还包括与预设图形同时显示的文字提示。
参考图4,此时位置提示通过预设图形401配合文字提示402显示,预设图形401指示期望交互方向为当前设备方向的正左方向,文字提示用于配合预设图形进行文字描述。
在另一个示例中,期望交互位姿包括期望交互位置,相应地,基于当前位姿数据与期望交互位姿生成位置提示,包括:确定当前位姿数据指示的当前设备位置与期望交互位置之间的距离差;使用距离差生成位置提示,位置提示包括距离差。
可选地,位置提示还包括与预设图形同时显示的文字提示。
参考图5,此时位置提示通过预设图形501配合文字提示502显示,预设图形501指示期望交互方向为当前设备方向的正前方向,文字提示502用于提示期望交互位姿与可移动设备的距离。
由于听障人士无法获取外界声音,因此,本实施例中通过预设图形配合文字提示显示的方式进行位置提示,可以保证听障人士实时获取到声源的具体位置方位,这样可以保证听障人士可以与他人进行有效交互。
可选地,基于相对位置信息输出位置提示后,还包括以下步骤S41至S42:
步骤S41:确定是否到达与声源进行交互的期望交互位姿。
可选地,当声源为第二目标用户时,确定是否到达与声源进行交互的期望交互位姿,包括:采集环境图像;在环境图像包括人物图像、且可移动设备的当前位姿数据到达期望交互位姿时,确定到达与声源进行交互的期望交互位姿。
可选地,确定环境图像包括人物图像包括:将环境图像输入预先训练的人物识别模型,得到人物识别结果。其中,人物识别模型使用训练数据对预设的第三神经网络模型训练得到的。
可选地,训练数据包括样本图像数据和样本图像数据对应的样本标签。样本标签用于指示样本图像数据对应的图像类别。
步骤S42:在到达期望交互位姿的情况下输出到达提示。
可选地,到达提示的输出方式可以为通过文字形式输出或者通过语音播报形式输出,本实施例不对到达提示的输出方式作限定。
综上所述,本实施例提供的语音交互方法,通过获取当前环境中可移动设备采集的声源发出的音频数据,可移动设备适用供第一目标用户使用;基于音频数据确定声源相对于可移动设备的相对位置信息;基于相对位置信息输出位置提示,位置提示用于指示声源的位置;可以解决由于听障人士可能无法听到其他用户的呼唤导致语音交互失效的问题;通过获取声源发出的音频数据从而通过可移动设备输出位置提示,这样听障人士仅需根据可移动设备输出的提示即可找到语音交互的对象,因此一方面可以保证听障人士进行有效的语音交互,另一方面可以提高语音交互的效率。
另外,由于可移动设备可能会在未由第一目标用户使用的情况下,持续采集声源发出的音频数据,这就会导致可移动设备浪费电量资源的问题。基于上述技术问题,本实施例中,在确定可移动设备正在被第一目标用户使用的情况下采集声源发出的音频数据,这样可以节省可移动设备的电量资源。
另外,由于可移动设备只要采集到音频数据,即确定声源相对于可移动设备的相对位置信息。但是,由于该音频数据可能无需第一目标用户进行响应,这就导致了第一目标用户进行无效交互的问题。基于此,在可移动设备采集到音频数据后,先确定该音频数据是否是需要第一目标用户响应的音频数据,在是需要第一目标用户响应的音频数据的情况下,才确定声源相对于可移动设备的相对位置信息。这样,可以保证该音频数据需要第一目标用户进行响应时用户进行响应,这样保证了第一目标用户可以进行有效语音交互。
另外,由于采用传统的声源方向到达(Direction of Arrival,DOA)估计的方式可能导致环境中的噪声影响声源定位的准确性,基于上述技术问题,本实施例中,通过采用波束成形算法确声源分布网格图定的方式,这样可以减少了环境噪声的影响,提高了声源定位的准确性。
另外,由于听障人士无法获取外界声音,因此,本实施例中通过预设图形配合文字提示显示的方式进行位置提示,可以保证听障人士实时获取到声源的具体位置方位,这样可以保证听障人士可以与他人进行有效交互。
为了更清楚地理解本申请提供的语音交互方法,本实施例对该方法举一个实例进行说明,本实例中以可移动设备为AR眼镜,佩戴者为第一目标用户,声源为第二目标用户为例,参考图6,该方法至少包括以下步骤:
步骤601,佩戴者设置语音唤醒词。
可选地,AR眼镜的佩戴者可以在AR眼镜上设置语音唤醒词,语音唤醒词可以为佩戴者的名字。
步骤602,佩戴者佩戴AR眼镜并开机。
步骤603,AR眼镜拾取音频信息。
步骤604,检测到呼叫名字,若是,则执行步骤605;若否,则执行步骤603。
参考图7和图8,图7中,第二目标用户701向第一目标用户702进行呼唤,呼喊词703为第一目标用户的名字(即第二目标用户为小明),此时第二目标用户佩戴的AR眼镜拾取音频信息后,并识别为相应的唤醒词(本实施例为佩戴者的名字)的情况下,在AR眼镜的屏幕中显示相应提示词。参考图8,图8以预设图形801配合文字提示802输出于AR眼镜的镜片上,以告知第二目标用户。
步骤605,计算呼叫者的声源相对位置。
步骤606,AR眼镜显示唤醒并指示方向。
AR眼镜通过麦克风阵列采集到的语音唤醒的语音信号,分析呼叫者的声源相对于眼镜佩戴者的方位,并指示眼镜佩戴者,根据不同方向可以显示如图9所示。
步骤607,AR眼镜朝向呼叫者,若是,则执行步骤608;若否,则执行步骤606。
步骤608,显示呼叫者“在这里”。
具体地,AR眼镜佩戴者通过提示的方向,旋转头部方向,AR眼镜通过内置的陀螺仪传感器,可以感知到旋转的方向,与呼叫者的方向的差异,动态调整AR眼镜的方向指示,直到匹配到呼叫者,这时会显示如下内容如图10所示,图10中呼叫者1001显示在AR显示区域中央并伴有文字提示1002,用于提示呼叫者1001的位置。
可选地,在找到呼叫者后,在显示一定时间后,呼叫者提示消失。若呼叫者再说其他内容时,AR眼镜可以将语音识别为文字,显示在AR眼镜上,方便AR眼镜佩戴者与呼叫者进行沟通。
图11是本申请一个实施例提供的语音交互装置的框图,本实施例以该装置应用于可移动设备中为例进行说明。该装置至少包括以下几个模块:数据获取模块1110、信息确定模块1120和提示输出模块1130。
数据获取模块1110,用于获取当前环境中可移动设备采集的声源发出的音频数据,可移动设备适用供第一目标用户使用。
信息确定模块1120,用于基于音频数据确定声源相对于可移动设备的相对位置信息。
提示输出模块1130,用于基于相对位置信息输出位置提示,位置提示用于指示声源的位置。
相关细节参考上述实施例。
需要说明的是:上述实施例中提供的语音交互装置在进行语音交互时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将语音交互装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语音交互装置与语音交互方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本实施例提供一种电子设备,如图12所示,该电子设备至少包括处理器1201和存储器1202。
处理器1201可以包括一个或多个处理核心,比如:4核心处理器、8核心处理器等。处理器1201可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1201可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1201还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1202可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1202中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1201所执行以实现本申请中方法实施例提供的语音交互方法。
在一些实施例中,电子设备还可选包括有:外围设备接口和至少一个外围设备。处理器1201、存储器1202和外围设备接口之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口相连。示意性地,外围设备包括但不限于:射频电路、触摸显示屏、音频电路、和电源等。
当然,电子设备还可以包括更少或更多的组件,本实施例对此不作限定。
在另一个实施例中,电子设备包括可移动设备,可移动设备包括:音频采集组件,适于采集声源发出的音频数据;显示组件,适于显示位置提示;音频采集组件和显示组件分别与处理器相连。
可选地,可移动设备包括智能眼镜,显示组件通过智能眼镜的镜片实现。
可选地,本申请还提供有一种计算机可读存储介质,计算机可读存储介质中存储有程序,程序由处理器加载并执行以实现上述方法实施例的语音交互方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种语音交互方法,其特征在于,所述方法包括:
获取当前环境中可移动设备采集的由声源发出的音频数据,所述可移动设备适于供第一目标用户使用;
基于所述音频数据确定所述声源相对于所述可移动设备的相对位置信息;
基于所述相对位置信息输出位置提示,所述位置提示用于指示所述声源的位置。
2.根据权利要求1所述的方法,其特征在于,所述基于所述音频数据确定所述声源相对于所述可移动设备的相对位置信息,包括:
确定所述音频数据是否指示所述第一目标用户的身份标识;
在所述音频数据指示所述身份标识的情况下,基于所述音频数据确定所述声源相对于所述可移动设备的相对位置信息。
3.根据权利要求2所述的方法,其特征在于,所述确定所述音频数据是否指示所述第一目标用户的身份标识,包括:
确定所述音频数据是否为语音数据;
在所述音频数据为所述语音数据的情况下,确定所述语音数据的语义信息是否与所述身份标识相匹配,在所述语义信息与所述身份标识匹配的情况下所述音频数据指示所述身份标识。
4.根据权利要求1所述的方法,其特征在于,所述基于所述相对位置信息输出位置提示,包括:
基于所述相对位置信息确定所述可移动设备的期望交互位姿;
获取所述可移动设备的当前位姿数据;
基于所述当前位姿数据与所述期望交互位姿生成所述位置提示。
5.根据权利要求4所述的方法,其特征在于,所述期望交互位姿包括期望交互方向,相应地,所述基于所述当前位姿数据与所述期望交互位姿生成所述位置提示,包括:
确定所述当前位姿数据指示的当前设备方向与所述期望交互方向之间的角度差;
使用所述角度差、以及所述期望交互方向相对于所述当前设备方向的方位,生成所述位置提示,所述位置提示包括所述角度差和所述方位。
6.根据权利要求5所述的方法,其特征在于,所述位置提示通过预设图形显示,所述预设图形能够指示方位,且所述预设图像的偏转角度用于指示所述角度差。
7.根据权利要求4所述的方法,其特征在于,所述期望交互位姿包括期望交互位置,相应地,所述基于所述当前位姿数据与所述期望交互位姿生成所述位置提示,包括:
确定所述当前位姿数据指示的当前设备位置与所述期望交互位置之间的距离差;
使用所述距离差生成所述位置提示,所述位置提示包括所述距离差。
8.根据权利要求1所述的方法,其特征在于,所述可移动设备包括麦克风阵列,所述基于所述音频数据确定所述声源相对于所述可移动设备的相对位置信息,包括:
获取所述麦克风阵列采集的音频数据;
将所述音频数据与所述麦克风阵列形成的声源分布网格图进行匹配,确定所述声源相对于所述可移动设备的相对位置信息,所述麦克风阵列形成的声源分布网格图基于波束成形算法确定。
9.根据权利要求1所述的方法,其特征在于,所述基于所述相对位置信息输出位置提示后,还包括:
确定是否到达与所述声源进行交互的期望交互位姿;
在到达所述期望交互位姿的情况下输出到达提示。
10.根据权利要求9所述的方法,其特征在于,所述声源为第二目标用户,所述确定是否到达与所述声源进行交互的期望交互位姿,包括:
采集环境图像;
在所述环境图像包括人物图像、且所述可移动设备的当前位姿数据到达所述期望交互位姿时,确定到达与所述声源进行交互的期望交互位姿。
11.根据权利要求1至10任一所述的方法,其特征在于,所述获取当前环境中可移动设备采集的声源发出的音频数据之前,还包括:
确定所述可移动设备是否正在被所述第一目标用户使用;
在所述可移动设备正在被所述第一目标用户使用的情况下,采集所述声源发出的音频数据。
12.一种电子设备,其特征在于,所述设备包括处理器和存储器;所述存储器中存储有程序,所述程序由所述处理器加载并执行以实现如权利要求1至11任一所述的语音交互方法。
13.根据权利要求12所述的电子设备,其特征在于,所述电子设备包括可移动设备,所述可移动设备包括:
音频采集组件,适于采集声源发出的音频数据;
显示组件,适于显示位置提示;
所述音频采集组件和所述显示组件分别与所述处理器相连。
14.根据权利要求12所述的电子设备,其特征在于,所述可移动设备包括智能眼镜,所述显示组件通过所述智能眼镜的镜片实现。
15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有程序,所述程序被处理器执行时用于实现如权利要求1至11任一所述的语音交互方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210738888.3A CN115132226A (zh) | 2022-06-27 | 2022-06-27 | 语音交互方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210738888.3A CN115132226A (zh) | 2022-06-27 | 2022-06-27 | 语音交互方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115132226A true CN115132226A (zh) | 2022-09-30 |
Family
ID=83379598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210738888.3A Pending CN115132226A (zh) | 2022-06-27 | 2022-06-27 | 语音交互方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115132226A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115988131A (zh) * | 2022-12-28 | 2023-04-18 | 维沃移动通信有限公司 | 提示方法、装置和电子设备 |
-
2022
- 2022-06-27 CN CN202210738888.3A patent/CN115132226A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115988131A (zh) * | 2022-12-28 | 2023-04-18 | 维沃移动通信有限公司 | 提示方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108615526B (zh) | 语音信号中关键词的检测方法、装置、终端及存储介质 | |
CN108735209A (zh) | 唤醒词绑定方法、智能设备及存储介质 | |
CN110556127B (zh) | 语音识别结果的检测方法、装置、设备及介质 | |
CN111739517B (zh) | 语音识别方法、装置、计算机设备及介质 | |
CN112331196A (zh) | 管理多个智能代理的电子设备及其操作方法 | |
CN110263131B (zh) | 回复信息生成方法、装置及存储介质 | |
CN113168227A (zh) | 执行电子装置的功能的方法以及使用该方法的电子装置 | |
CN110827820B (zh) | 语音唤醒方法、装置、设备、计算机存储介质及车辆 | |
KR20200052612A (ko) | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 | |
CN112912955B (zh) | 提供基于语音识别的服务的电子装置和系统 | |
CN112581358B (zh) | 图像处理模型的训练方法、图像处理方法及装置 | |
US20210383806A1 (en) | User input processing method and electronic device supporting same | |
WO2020057624A1 (zh) | 语音识别的方法和装置 | |
CN111681655A (zh) | 语音控制方法、装置、电子设备及存储介质 | |
CN114299933A (zh) | 语音识别模型训练方法、装置、设备、存储介质及产品 | |
CN111613213B (zh) | 音频分类的方法、装置、设备以及存储介质 | |
CN111683329B (zh) | 麦克风检测方法、装置、终端及存储介质 | |
KR20200099380A (ko) | 음성 인식 서비스를 제공하는 방법 및 그 전자 장치 | |
KR20200049020A (ko) | 음성 명령에 응답하여 컨텐츠를 표시하기 위한 방법 및 그 전자 장치 | |
CN115132226A (zh) | 语音交互方法、设备及存储介质 | |
CN111191018A (zh) | 对话系统的应答方法和装置、电子设备、智能设备 | |
KR20210044509A (ko) | 음성 인식의 향상을 지원하는 전자 장치 | |
CN114333774A (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN113409805B (zh) | 人机交互方法、装置、存储介质及终端设备 | |
CN111554314A (zh) | 噪声检测方法、装置、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |