CN111061451A - 一种信息处理方法及装置、系统 - Google Patents
一种信息处理方法及装置、系统 Download PDFInfo
- Publication number
- CN111061451A CN111061451A CN201911183257.4A CN201911183257A CN111061451A CN 111061451 A CN111061451 A CN 111061451A CN 201911183257 A CN201911183257 A CN 201911183257A CN 111061451 A CN111061451 A CN 111061451A
- Authority
- CN
- China
- Prior art keywords
- information
- voice
- user
- result
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 49
- 238000003672 processing method Methods 0.000 title claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 93
- 230000003993 interaction Effects 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 26
- 230000001815 facial effect Effects 0.000 claims abstract description 9
- 230000001960 triggered effect Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 10
- 238000012546 transfer Methods 0.000 description 8
- 239000003814 drug Substances 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006855 networking Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请公开了一种信息处理方法及装置、系统,其中方法包括:检测到针对第一按键的操作和/或识别到第一用户的面部信息,确定触发语音交互处理;其中,所述语音交互处理,包括:采集得到第一用户发出的语音信息,获取针对所述语音信息的识别内容以及所述语音信息的语义结果;其中,所述语义结果中至少包括有所述第一用户所请求的目标信息;基于所述语义结果中包含的所述第一用户所请求的目标信息,获取与所述目标信息匹配的目标对象。
Description
技术领域
本申请涉及信息处理领域,尤其涉及一种信息处理方法及装置、系统。
背景技术
随着通信技术的发展,人们可以通过终端设备选取并购买目标物品,通常都是采用手动交互的方法进行目标物品的选择,进而获取到最终所需物品。但是,这种用户采用手动与终端设备交互的方式,需要进行多次点击才能获得最终所需的物品,因此无法为用户提供更加便捷的处理。
发明内容
本申请提供一种信息处理方法及装置、系统,以解决现有技术中存在的上述问题。
本申请提供一种信息处理方法,所述方法包括:
检测到针对第一按键的操作和/或识别到第一用户的面部信息,确定触发语音交互处理;
其中,所述语音交互处理,包括:
采集得到第一用户发出的语音信息,获取针对所述语音信息的识别内容以及所述语音信息的语义结果;其中,所述语义结果中至少包括有所述第一用户所请求的目标信息;
基于所述语义结果中包含的所述第一用户所请求的目标信息,获取与所述目标信息匹配的目标对象。
本申请提供一种信息处理装置,其特征在于,所述装置包括:
上位部件,用于检测针对第一按键的操作;
下位部件,用于在所述上位部件检测到针对第一按键的操作,和/或识别到第一用户的面部信息时,确定触发语音交互处理;
其中,所述下位部件,还用于采集得到第一用户发出的语音信息,获取针对所述语音信息的识别内容以及所述语音信息的语义结果;其中,所述语义结果中至少包括有所述第一用户所请求的目标信息;
所述上位部件,还用于基于所述语义结果中包含的所述第一用户所请求的目标信息,获取与所述目标信息匹配的目标对象。
本申请提供一种信息处理系统,其特征在于,所述系统包括:
信息处理装置,用于检测到针对第一按键的操作,和/或识别到第一用户的面部信息时,确定触发语音交互处理;
其中,所述信息处理装置,还用于采集得到第一用户发出的语音信息,获取针对所述语音信息的识别内容以及所述语音信息的语义结果;其中,所述语义结果中至少包括有所述第一用户所请求的目标信息;以及,基于所述语义结果中包含的所述第一用户所请求的目标信息,获取与所述目标信息匹配的目标对象。
通过采用上述方案,使得能够通过人脸识别触发进行语音交互处理,在语音交互处理中,可以对用户的语音信息进行识别,得到最终的识别内容以及语义结果,最终确定与用户所请求的目标信息匹配的目标对象。从而,提供了一种人脸识别以及语音交互结合的处理方式,并且由于识别语音信息直接就能够根据语义结果来确定匹配的目标对象,能够减少人工处理所带来的多次点击的繁琐操作,还能够提升用户获取匹配的目标对象的效率。
附图说明
图1为本申请实施例提供的信息处理方法流程示意图一;
图2为本申请实施例提供的信息处理方法流程示意图二;
图3为本申请实施例提供的信息处理装置组成结构示意图一;
图4为本申请实施例提供的信息处理装置组成结构示意图二;
图5为本申请实施例提供的信息处理系统组成结构示意图;
图6为本申请实施例提供的信息处理系统组成架构示意图。
具体实施方式
为使本申请的目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种信息处理方法,如图1所示,包括:
S11:检测到针对第一按键的操作和/或识别到第一用户的面部信息,确定触发语音交互处理;
其中,所述语音交互处理,包括:
采集得到第一用户发出的语音信息,获取针对所述语音信息的识别内容以及所述语音信息的语义结果;其中,所述语义结果中至少包括有所述第一用户所请求的目标信息;
基于所述语义结果中包含的所述第一用户所请求的目标信息,获取与所述目标信息匹配的目标对象。
本申请实施例提供的方法可以应用于终端设备中,尤其是可以应用于用于地铁购票设备地铁中。其中,所述地铁购票设备中可以设置有TVM(地铁语音售票机)上位机,以及语音人脸下位机,其中上位机以及下位机可以理解为地铁购票设备中的两个功能模块,并且,TVM上位机为至少具备触控交互以及显示功能的功能模块,所述语音人脸下位机可以为能够连接摄像头、麦克风等硬件的、并且具备图像以及语音分析功能的模块。其中,所述麦克风可以为线性6麦,在嘈杂环境下能够提供更好的拾音效果。
在执行前述S11之前,所述方法还包括:基于初始化参数进行语音及人脸SDK(Software Development Kit,软件开发工具包)初始化。其中,所述初始化参数可以包括有语音处理相关参数,以及人脸识别处理的相关参数。
具体来说,当语音购票设备(也就是终端设备)具备TVM上位机以及语音人脸下位机的时候,进行初始化的处理。
进一步地,如果初始化失败,那么可以分析失败原因,基于失败原因重新进行语音及人脸SDK初始化。比如,失败原因为初始化参数接收不完整或者未接收到初始化参数,那么可以重新下完整版的人脸以及语音初始化参数;当然,还可能存在其他失败原因,可以结合具体的失败原因连接网络侧服务器,从网络服务器获取到初始化参数,然后再进行初始化处理等等处理方式,本实施例中不再进行穷举。
完成前述初始化处理后,针对触发语音交互处理的方式进行说明:
一种方式中,可以通过检测到第一按键的操作,确定触发语音交互处理。其中,第一按键可以为通过交互界面中展示的虚拟按键或物理按钮实现。其中,交互界面中可以有多个用于选择的虚拟按键,不同的虚拟按键上或者虚拟按键左侧、或者虚拟按键上方、或者虚拟按键右侧、或者虚拟按键下方,可以标示有虚拟按键对应的功能名称,当用户按下标示有“语音交互”的虚拟按键的时候,可以确定用户触发了语音交互处理。
这里,所述交互界面,可以为TVM上位机的UI(用户界面),第一按键可以为其上设置的虚拟按键。
又或者,又一种方式中,可以通过识别到第一用户的面部信息,确定触发语音交互处理。
本方式可以通过摄像头结合处理器(比如,前述语音人脸下位机中的处理器)来实现,比如,摄像头可以实时开启,一旦检测到用户的面部信息就与自身保存的人脸信息进行匹配,如果匹配到对应用户,比如确定为第一用户,可以确定触发语音交互处理。
还可以为,摄像头检测到包含有用户的面部的图像之后,将图像输入至人脸识别模型行,最终识别结果,只要表征识别到人脸(此时还可以不需要关心是否为某一个用户的面部信息,只需要确定识别到人脸即可),就可以触发语音交互处理。
再一种方式中,通过检测到针对第一按键的操作、以及识别到第一用户的面部信息的时候,确定触发语音交互处理。
与前两种方式不同在于,这种方式中,摄像头可以并不实时开启,可以为一旦检测到用户针对第一按键的操作的时候,控制开启摄像头,通过摄像头进行图像采集;然后对采集到的图像进行分析,判断是否识别到第一用户的面部信息,如果识别到,那么确定触发语音交互处理,否则,结束处理。
其中,对采集到的图像进行分析,判断是否识别到第一用户的面部信息的处理,可以包括有从图像中提取人脸图像,与保存的人脸进行匹配,如果匹配到对应的用户,就确定识别到第一用户的面部信息;又或者,可以将图像输入到人脸识别模型中,如果人脸识别模型输出结果表征正确识别到面部信息,那么可以确定触发语音交互处理;否则,结束处理。
完成前述初始化处理、以及确定触发语音交互处理之后,根据实际联网情况,可以进行两种处理,一种是离线语音服务,一种是在线语音服务,具体结合以下示例进行说明:
示例1、在线语音服务的处理,具体如下:
所述采集得到第一用户发出的语音信息时,所述方法还包括:
向语音服务器请求在线语音服务,并发送所述第一用户的所述语音信息。
由于此时与网络侧能够建立连接,因此,可以通过与网络建立的连接,向网络侧的语音服务器发送在线语音服务的请求,同时可以发送第一用户的语音信息。
具体来说,可以通过在所述在线语音服务的请求中,携带有所述第一用户的语音信息。
或者,可以先向语音服务器发送在线语音服务的请求,然后再发送第一用户的语音信息。
所述获取针对所述语音信息的识别内容以及所述语音信息的语义结果,包括:
接收语音服务器返回的语音信息的在线识别内容,展示所述识别内容;其中,所述识别内容中包含与所述第一用户的语音信息对应的文字信息,所述文字信息中包含有目标地址;
接收所述语音服务器返回的语音信息的在线语义结果;其中,所述在线语义结果中,包括有与所述第一用户请求的目标地址匹配的目的地信息。
也就是说,在线语音处理中,第一用户的语音信息中识别内容中包含的目标地址,与在线确定的语义结果中包含的目的地信息是可以不同的。举例来说,如果用户要去A地址,但是A地址并不是地铁站名称(或者不是公交站名称),那么通过语音服务器进行在线处理,可以分析得到与A地址临近的一个或多个地铁站或公交站的名称,可以将这第一或多个地铁站或公交站的名称作为语义结果中包含的目的地信息。也就是该目标地址与目的地信息之间的匹配处理由在线的语音服务器来提供。
或者,第一用户的语音信息中识别内容中包含的目标地址,与在线确定的语义结果中包含的目的地信息是相同的。举例来说,如果用户要去B地铁站,那么通过语音服务器进行在线处理,直接确定语音结果中包含的目的地信息为B地铁站。
所述基于所语义结果中包含的所述第一用户所请求的目标信息,获取与所述目标信息匹配的目标对象,还包括:
基于所述在线语义结果中包含的所述目的地信息,向网络服务器发送当前地点信息、以及目的地信息;
接收所述网络服务器返回的路径规划结果,展示所述路径规划结果。
其中,当前地点信息可以为在设备中预先保存好的,比如,在某一个地铁站安装售票机的时候,可以设置本售票机的地理位置及其对应的地铁站名称等等。当然,还可以为通过终端设备中设置的GPS装置得到的。对应的,所述当前地点信息可以为当前地铁站名称,或者可以为当前所在位置的GPS坐标信息。
相应的,向网络服务器发送当前地点信息以及目的地信息之后,所述网络服务器可以根据当前地点信息以及目的地信息,结合自身保存的包含有地铁(或者地铁加公交)的线路图的地图,为用户进行规划,得到路径规划结果。具体可以包括有,乘坐的地铁线路编号、公交编号、起点、换乘站、换乘地铁线路编号等等。
进一步地,前述展示所述路径规划结果,可以包括有在交互展示界面中采用地图的形式,将起始地铁站、起始乘坐的地铁线路编号,换乘地铁站,换乘的地铁线路编号,终点地铁站等等展示出来。
又或者,可以采用文字的形式,为用户展示将起始地铁站、起始乘坐的地铁线路编号,换乘地铁站,换乘的地铁线路编号,终点地铁站等等。
示例2、离线语音服务的处理,具体如下:
所述采集得到第一用户发出的语音信息,获取针对所述语音信息的识别内容以及所述语音信息的语义结果,包括:
采集得到第一用户发出的语音信息,对所述语音信息进行离线语音处理,得到针对所述语音信息的识别内容并且展示所述识别内容,以及得到针对所述语音信息的语义结果;
其中,所述识别内容中包含有与所述第一用户的语音信息对应的文字信息,所述文字信息中包含有目的地信息;所述语义结果中包含有第一用户请求的目的地信息。
由于此时与网络侧不能够建立连接,因此,由设备本身保存的地图或其他相关信息进行语音处理。
本示例中,由于无法提供在线的智能分析处理,因此第一用户的语音信息中识别内容中包含的目标地址,与在线确定的语义结果中包含的目的地信息是相同的。举例来说,如果用户要去B地铁站,那么通过语音服务器进行在线处理,直接确定语音结果中包含的目的地信息为B地铁站。
所述基于所语义结果中包含的所述第一用户所请求的目标信息,获取与所述目标信息匹配的目标对象,还包括:
基于所述语义结果中包含的所述目的地信息,以及当前地点信息、以及目的地信息确定路径规划结果,展示所述路径规划结果。
其中,当前地点信息可以为在设备中预先保存好的,比如,在某一个地铁站安装售票机的时候,可以设置本售票机的地理位置及其对应的地铁站名称等等。当然,还可以为通过终端设备中设置的GPS装置得到的。对应的,所述当前地点信息可以为当前地铁站名称,或者可以为当前所在位置的GPS坐标信息。
相应的,可以根据当前地点信息以及目的地信息,结合自身保存的包含有地铁(或者地铁加公交)的线路图的地图,为用户进行规划,得到路径规划结果。具体可以包括有,乘坐的地铁线路编号、公交编号、起点、换乘站、换乘地铁线路编号等等。
进一步地,前述展示所述路径规划结果,可以包括有在交互展示界面中采用地图的形式,将起始地铁站、起始乘坐的地铁线路编号,换乘地铁站,换乘的地铁线路编号,终点地铁站等等展示出来。
又或者,可以采用文字的形式,为用户展示将起始地铁站、起始乘坐的地铁线路编号,换乘地铁站,换乘的地铁线路编号,终点地铁站等等。
示例3,结合图2对本实施例提供的方案,应用于地铁购票设备的情况下进行详细说明:
S21中,TVM上位机与语音人脸下位机建立连接;S22,TVM上位机向语音人脸下位机下发初始化参数;S23,语音人脸下位机进行语音及人脸SDK初始化;S24,语音人脸下位机向TVM上位机上报初始化情况。其中,所述初始化情况可以包括:初始化完成,或者,初始化失败等。
S25,TVM上位机检测第一按键的操作,以及语音人脸下位机进行人脸检测,触发语音交互处理;
在这里,如图所示,如果用户通过触控按键选择返回主页,那么就可以返回主页,然后TVM上位机可以通知语音人脸下位机返回主页,此时,语音人脸下位机停止进行语音交互处理。
S26-1,语音人脸下位机进行离线语音服务,可以采集第一用户的语音信息,S27-1,语音人脸下位机针对所述语音信息进行离线识别内容,然后执行S28-S29,语音人脸下位机向TVM上报离线识别内容,由TVM上位机进行展示。S210-1语音人脸下位机进行离线语义分析得到离线语义结果;S211,向TVM上位机上报语义结果;S212-S214,TVM上位机向网络服务器发送当前地点、目的地信息,得到网络服务器反馈的路径规划结果,并进行展示。其中,网络服务器可以为指示设置有地图应用的服务器,比如,可以为高德地图。
另外,S26-2,语音人脸下位机向语音服务器请求进行在线语音服务,可以采集第一用户的语音信息,S27-2,语音人脸下位机接收语音服务器反馈的在线识别内容,然后执行S28-S29,语音人脸下位机向TVM上报识别内容,由TVM上位机进行展示。S210-2语音人脸下位机接收语音服务器返回的在线语义结果;S211,向TVM上位机上报语义结果;S212-S214,TVM上位机向网络服务器发送当前地点、目的地信息,得到网络服务器反馈的路径规划结果,并进行展示。其中,网络服务器可以为指示设置有地图应用的服务器,比如,可以为高德地图。
需要指出的是,前述实施例主要用地铁购票设备的处理为例进行的说明,在前述最终得到了路径规划信息之后,可以通过内部设备接口,与后续的购买流程挂钩,也就是说,在用户看到了路径规划结果的情况下,可以进一步进行确定、付款、最终得到地铁票等处理。后续的处理也可以基于语音处理结合人脸识别来执行,比如,语音发出确定的指令,然后可以结合人脸扫描来进行支付等处理,这里不再赘述。
最后还需要指出的是,本实施例前述方案除了可以应用在地铁购票设备的处理之外,还可以应用于其他购物设备中,比如,购药机、售卖机等等。在应用于购药机或者售卖机的场景下,语音识别结果中包含的文字信息中需要为最终的目标物品,该目标物品与语义结果相同。
通过采用上述方案,使得能够通过人脸识别触发进行语音交互处理,在语音交互处理中,可以对用户的语音信息进行识别,得到最终的识别内容以及语义结果,最终确定与用户所请求的目标信息匹配的目标对象。从而,提供了一种人脸识别以及语音交互结合的处理方式,并且由于识别语音信息直接就能够根据语义结果来确定匹配的目标对象,能够减少人工处理所带来的多次点击的繁琐操作,还能够提升用户获取匹配的目标对象的效率。
本申请实施例提供了一种信息处理装置,如图3所示,包括:
上位部件31,用于检测针对第一按键的操作;
下位部件32,用于在所述上位部件检测到针对第一按键的操作,和/或识别到第一用户的面部信息时,确定触发语音交互处理;
其中,所述下位部件32,还用于采集得到第一用户发出的语音信息,获取针对所述语音信息的识别内容以及所述语音信息的语义结果;其中,所述语义结果中至少包括有所述第一用户所请求的目标信息;
所述上位部件31,还用于基于所述语义结果中包含的所述第一用户所请求的目标信息,获取与所述目标信息匹配的目标对象。
本申请实施例提供的装置可以设置于终端设备中,尤其是可以应用于用于地铁购票设备地铁中。其中,所述地铁购票设备中可以设置有TVM(地铁语音售票机)上位机,以及语音人脸下位机;相应的,所述上位部件可以为TVM上位机,下位部件可以为语音人脸下位机。
所述下位部件32,还用于基于上位部件发来的初始化参数进行语音及人脸SDK(Software Development Kit,软件开发工具包)初始化。其中,所述初始化参数可以包括有语音处理相关参数,以及人脸识别处理的相关参数。
完成前述初始化处理后,针对触发语音交互处理的方式进行说明:
一种方式中,可以通过检测到第一按键的操作,确定触发语音交互处理。
又一种方式中,可以通过识别到第一用户的面部信息,确定触发语音交互处理。
再一种方式中,通过检测到针对第一按键的操作、以及识别到第一用户的面部信息的时候,确定触发语音交互处理。
完成前述初始化处理、以及确定触发语音交互处理之后,根据实际联网情况,可以进行两种处理,一种是离线语音服务,一种是在线语音服务,具体结合以下示例进行说明:
示例1、在线语音服务的处理,具体如下:
所述下位部件32,还用于向语音服务器请求在线语音服务,并发送所述第一用户的所述语音信息。
所述下位部件32,还用于接收语音服务器返回的语音信息的在线识别内容,展示所述识别内容;其中,所述识别内容中包含与所述第一用户的语音信息对应的文字信息,所述文字信息中包含有目标地址;
接收所述语音服务器返回的语音信息的在线语义结果;其中,所述在线语义结果中,包括有与所述第一用户请求的目标地址匹配的目的地信息。
所述上位部件31,基于所述在线语义结果中包含的所述目的地信息,向网络服务器发送当前地点信息、以及目的地信息;
接收所述网络服务器返回的路径规划结果,展示所述路径规划结果。
示例2、离线语音服务的处理,具体如下:
所述下位部件32,还用于采集得到第一用户发出的语音信息,对所述语音信息进行离线语音处理,得到针对所述语音信息的识别内容并且展示所述识别内容,以及得到针对所述语音信息的语义结果;
其中,所述识别内容中包含有与所述第一用户的语音信息对应的文字信息,所述文字信息中包含有目的地信息;所述语义结果中包含有第一用户请求的目的地信息。
由于此时与网络侧不能够建立连接,因此,由设备本身保存的地图或其他相关信息进行语音处理。
所述下位部件32,还用于基于所述语义结果中包含的所述目的地信息,以及当前地点信息、以及目的地信息确定路径规划结果,通过上位部件31展示所述路径规划结果。
结合图4对本实施例提供的装置进一步进行说明,上位部件具体可以理解为图2中的TVM上位机中,其中可以设置有界面交互以及应用模块。该界面交互以及应用模块的功能与前述上位部件的功能相同,这里不再赘述。
下位部件,可以为前述图2中的语音人脸下位机,或者可以为工控机,其中,可以设置有网络及UI接口模块,核心处理模块,音频模块以及视频模块;其中,音频模块可以连接麦克风阵列,视频模块可以连接摄像头。
进一步地,所述网络及UI接口模块的功能可以包括有与上位模块进行信息交互,比如,上报识别结果给上位部件,上传语义结果给上位部件等等;核心处理模块则可以包括有离线语音分析等功能;音频模块能够将麦克风阵列采集到的音频信息进行处理,比如去噪然后交给核心处理模块进行后续的语音识别等处理;视频模块可以与摄像头连接,获取到摄像头采集的图片,进而可以进行人脸识别,将人脸识别结果发给核心处理模块。
图4中示意出的各个功能模块的具体处理与前述方法以及装置实施例中的功能相同,这里不再进行赘述。
最后还需要指出的是,本实施例前述方案除了可以应用在地铁购票设备的处理之外,还可以应用于其他购物设备中,比如,购药机、售卖机等等。在应用于购药机或者售卖机的场景下,语音识别结果中包含的文字信息中需要为最终的目标物品,该目标物品与语义结果相同。
通过采用上述方案,使得能够通过人脸识别触发进行语音交互处理,在语音交互处理中,可以对用户的语音信息进行识别,得到最终的识别内容以及语义结果,最终确定与用户所请求的目标信息匹配的目标对象。从而,提供了一种人脸识别以及语音交互结合的处理方式,并且由于识别语音信息直接就能够根据语义结果来确定匹配的目标对象,能够减少人工处理所带来的多次点击的繁琐操作,还能够提升用户获取匹配的目标对象的效率。
本申请实施例提供了一种信息处理系统,如图5所示,包括:
信息处理装置51,用于检测到针对第一按键的操作,和/或识别到第一用户的面部信息时,确定触发语音交互处理;
其中,所述信息处理装置51,还用于采集得到第一用户发出的语音信息,获取针对所述语音信息的识别内容以及所述语音信息的语义结果;其中,所述语义结果中至少包括有所述第一用户所请求的目标信息;以及,基于所述语义结果中包含的所述第一用户所请求的目标信息,获取与所述目标信息匹配的目标对象。
本申请实施例提供的信息处理装置可以设置于终端设备中,尤其是可以应用于用于地铁购票设备地铁中。其中,所述地铁购票设备中可以设置有TVM(地铁语音售票机)上位机,以及语音人脸下位机;相应的,所述上位部件可以为TVM上位机,下位部件可以为语音人脸下位机。
完成前述初始化处理、以及确定触发语音交互处理之后,根据实际联网情况,可以进行两种处理,一种是离线语音服务,一种是在线语音服务,具体结合以下示例进行说明:
示例1、在线语音服务的处理,具体如下:
所述系统还包括:
语音服务器52,用于接收信息处理装置发来的在线语音服务请求,以及第一用户的语音信息;
所述信息处理装置51,还用于向语音服务器请求在线语音服务,并发送所述第一用户的所述语音信息。
所述语音服务器52,用于向信息处理装置返回语音信息的在线识别内容,以及向所述信息处理装置返回在线语义结果;其中,所述识别内容中包含与所述第一用户的语音信息对应的文字信息,所述文字信息中包含有目标地址;所述在线语义结果中,包括有与所述第一用户请求的目标地址匹配的目的地信息;
所述信息处理装置51,还用于展示所述识别内容。
所述系统,还包括:
网络服务器53,用于接收所述信息处理装置发来的当前地点信息以及目的地信息;基于所述当前地点信息以及所述目的地信息进行路径规划,得到路径规划结果;将所述路径规划结果发送给信息处理装置;
所述信息处理装置51,用于基于所述在线语义结果中包含的所述目的地信息,向网络服务器发送当前地点信息、以及目的地信息;以及,接收所述网络服务器返回的路径规划结果,展示所述路径规划结果。
示例2、离线语音服务的处理,具体如下:
所述信息处理装置51,还用于采集得到第一用户发出的语音信息,对所述语音信息进行离线语音处理,得到针对所述语音信息的识别内容并且展示所述识别内容,以及得到针对所述语音信息的语义结果;
其中,所述识别内容中包含有与所述第一用户的语音信息对应的文字信息,所述文字信息中包含有目的地信息;所述语义结果中包含有第一用户请求的目的地信息。
前述信息处理装置的具体组成结构与前述装置实施例相同,不再进行赘述。另外,语音服务器以及网络服务器的具体功能与前述方法实施例中描述相同,这里也不再进行重复说明。
结合图6对本实施例提供的系统进一步进行说明,信息处理装置可以包括有TVM上位机(也就是前述上位部件),工控机(也就是前述下位部件),两者之间可以通过RJ45网口或者其他串口进行连接。
架构1中,通过上位部件也就是TVM上位机与地铁专有云进行连接并通过地铁专有云连接外网,外网中可以包括有本实施例中所述的语音服务器以及网络服务器。
架构2中,TVM上位机以及工控机则通过RJ45网口均通过地铁专有云与外网进行通信,外网同样可以包括有本实施例中所述的语音服务器以及网络服务器。
架构1和架构2都采用USB连接线性6麦的MIC阵列,经调研USB的MIC阵列在地铁项目量产过,架构1工控领域常用,不用改动工控机硬件,更稳定。
架构1上位机通信和请求云端服务都用一个网口,架构2需要通过串口连接上位机,通过RJ45网口连接语音云服务。
图中各个功能模块的具体处理与前述方法以及装置实施例中的功能相同,这里不再进行赘述。
最后还需要指出的是,本实施例前述方案除了可以应用在地铁购票设备的处理之外,还可以应用于其他购物设备中,比如,购药机、售卖机等等。在应用于购药机或者售卖机的场景下,语音识别结果中包含的文字信息中需要为最终的目标物品,该目标物品与语义结果相同。
通过采用上述方案,使得能够通过人脸识别触发进行语音交互处理,在语音交互处理中,可以对用户的语音信息进行识别,得到最终的识别内容以及语义结果,最终确定与用户所请求的目标信息匹配的目标对象。从而,提供了一种人脸识别以及语音交互结合的处理方式,并且由于识别语音信息直接就能够根据语义结果来确定匹配的目标对象,能够减少人工处理所带来的多次点击的繁琐操作,还能够提升用户获取匹配的目标对象的效率。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (15)
1.一种信息处理方法,其特征在于,所述方法包括:
检测到针对第一按键的操作和/或识别到第一用户的面部信息,确定触发语音交互处理;
其中,所述语音交互处理,包括:
采集得到第一用户发出的语音信息,获取针对所述语音信息的识别内容以及所述语音信息的语义结果;其中,所述语义结果中至少包括有所述第一用户所请求的目标信息;
基于所述语义结果中包含的所述第一用户所请求的目标信息,获取与所述目标信息匹配的目标对象。
2.根据权利要求1所述的方法,其特征在于,所述采集得到第一用户发出的语音信息时,所述方法还包括:
向语音服务器请求在线语音服务,并发送所述第一用户的所述语音信息。
3.根据权利要求2所述的方法,其特征在于,所述获取针对所述语音信息的识别内容以及所述语音信息的语义结果,包括:
接收语音服务器返回的语音信息的在线识别内容,展示所述识别内容;其中,所述识别内容中包含与所述第一用户的语音信息对应的文字信息,所述文字信息中包含有目标地址;
接收所述语音服务器返回的语音信息的在线语义结果;其中,所述在线语义结果中,包括有与所述第一用户请求的目标地址匹配的目的地信息。
4.根据权利要求1所述的方法,其特征在于,所述采集得到第一用户发出的语音信息,获取针对所述语音信息的识别内容以及所述语音信息的语义结果,包括:
采集得到第一用户发出的语音信息,对所述语音信息进行离线语音处理,得到针对所述语音信息的识别内容并且展示所述识别内容,以及得到针对所述语音信息的语义结果;
其中,所述识别内容中包含有与所述第一用户的语音信息对应的文字信息,所述文字信息中包含有目的地信息;所述语义结果中包含有第一用户请求的目的地信息。
5.根据权利要求1所述的方法,其特征在于,所述基于所语义结果中包含的所述第一用户所请求的目标信息,获取与所述目标信息匹配的目标对象,还包括:
基于所述在线语义结果中包含的所述目的地信息,向网络服务器发送当前地点信息、以及目的地信息;
接收所述网络服务器返回的路径规划结果,展示所述路径规划结果。
6.一种信息处理装置,其特征在于,所述装置包括:
上位部件,用于检测针对第一按键的操作;
下位部件,用于在所述上位部件检测到针对第一按键的操作,和/或识别到第一用户的面部信息时,确定触发语音交互处理;
其中,所述下位部件,还用于采集得到第一用户发出的语音信息,获取针对所述语音信息的识别内容以及所述语音信息的语义结果;其中,所述语义结果中至少包括有所述第一用户所请求的目标信息;
所述上位部件,还用于基于所述语义结果中包含的所述第一用户所请求的目标信息,获取与所述目标信息匹配的目标对象。
7.根据权利要求6所述的装置,其特征在于,所述下位部件,还用于向语音服务器请求在线语音服务,并发送所述第一用户的所述语音信息。
8.根据权利要求7所述的装置,其特征在于,所述下位部件,还用于接收语音服务器返回的语音信息的在线识别内容,展示所述识别内容;其中,所述识别内容中包含与所述第一用户的语音信息对应的文字信息,所述文字信息中包含有目标地址;
接收所述语音服务器返回的语音信息的在线语义结果;其中,所述在线语义结果中,包括有与所述第一用户请求的目标地址匹配的目的地信息。
9.根据权利要求6所述的装置,其特征在于,所述下位部件,还用于采集得到第一用户发出的语音信息,对所述语音信息进行离线语音处理,得到针对所述语音信息的识别内容并且展示所述识别内容,以及得到针对所述语音信息的语义结果;
其中,所述识别内容中包含有与所述第一用户的语音信息对应的文字信息,所述文字信息中包含有目的地信息;所述语义结果中包含有第一用户请求的目的地信息。
10.根据权利要求6所述的装置,其特征在于,所述上位部件,还用于基于所述在线语义结果中包含的所述目的地信息,向网络服务器发送当前地点信息、以及目的地信息;以及,
接收所述网络服务器返回的路径规划结果,展示所述路径规划结果。
11.一种信息处理系统,其特征在于,所述系统包括:
信息处理装置,用于检测到针对第一按键的操作,和/或识别到第一用户的面部信息时,确定触发语音交互处理;
其中,所述信息处理装置,还用于采集得到第一用户发出的语音信息,获取针对所述语音信息的识别内容以及所述语音信息的语义结果;其中,所述语义结果中至少包括有所述第一用户所请求的目标信息;以及,基于所述语义结果中包含的所述第一用户所请求的目标信息,获取与所述目标信息匹配的目标对象。
12.根据权利要求11所述的系统,其特征在于,所述系统还包括:
语音服务器,用于接收信息处理装置发来的在线语音服务请求,以及第一用户的语音信息;
所述信息处理装置,还用于向语音服务器请求在线语音服务,并发送所述第一用户的所述语音信息。
13.根据权利要求12所述的系统,其特征在于,所述语音服务器,用于向信息处理装置返回语音信息的在线识别内容,以及向所述信息处理装置返回在线语义结果;其中,所述识别内容中包含与所述第一用户的语音信息对应的文字信息,所述文字信息中包含有目标地址;所述在线语义结果中,包括有与所述第一用户请求的目标地址匹配的目的地信息;
所述信息处理装置,还用于展示所述识别内容。
14.根据权利要求11所述的系统,其特征在于,所述信息处理装置,还用于采集得到第一用户发出的语音信息,对所述语音信息进行离线语音处理,得到针对所述语音信息的识别内容并且展示所述识别内容,以及得到针对所述语音信息的语义结果;
其中,所述识别内容中包含有与所述第一用户的语音信息对应的文字信息,所述文字信息中包含有目的地信息;所述语义结果中包含有第一用户请求的目的地信息。
15.根据权利要求11所述的系统,其特征在于,所述系统,还包括:
网络服务器,用于接收所述信息处理装置发来的当前地点信息以及目的地信息;基于所述当前地点信息以及所述目的地信息进行路径规划,得到路径规划结果;将所述路径规划结果发送给信息处理装置;
所述信息处理装置,用于基于所述在线语义结果中包含的所述目的地信息,向网络服务器发送当前地点信息、以及目的地信息;以及,接收所述网络服务器返回的路径规划结果,展示所述路径规划结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911183257.4A CN111061451A (zh) | 2019-11-27 | 2019-11-27 | 一种信息处理方法及装置、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911183257.4A CN111061451A (zh) | 2019-11-27 | 2019-11-27 | 一种信息处理方法及装置、系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111061451A true CN111061451A (zh) | 2020-04-24 |
Family
ID=70299007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911183257.4A Withdrawn CN111061451A (zh) | 2019-11-27 | 2019-11-27 | 一种信息处理方法及装置、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111061451A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111883160A (zh) * | 2020-08-07 | 2020-11-03 | 上海茂声智能科技有限公司 | 一种定向麦克风阵列拾音降噪方法及装置 |
-
2019
- 2019-11-27 CN CN201911183257.4A patent/CN111061451A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111883160A (zh) * | 2020-08-07 | 2020-11-03 | 上海茂声智能科技有限公司 | 一种定向麦克风阵列拾音降噪方法及装置 |
CN111883160B (zh) * | 2020-08-07 | 2024-04-16 | 上海茂声智能科技有限公司 | 一种定向麦克风阵列拾音降噪方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3550479A1 (en) | Augmented-reality-based offline interaction method and apparatus | |
CN108345907B (zh) | 识别方法、增强现实设备及存储介质 | |
CN107800765B (zh) | 一种信息处理方法、终端及系统 | |
EP3232633A1 (en) | Service processing method and apparatus, and service server | |
CN111338481B (zh) | 基于全身动态捕捉的数据交互系统及方法 | |
WO2022267795A1 (zh) | 区域地图的处理方法及装置、存储介质及电子装置 | |
CN104836926A (zh) | 商品售后服务通话建立方法及其系统 | |
CN110022399B (zh) | 消息展示方法、装置、用户终端及可读存储介质 | |
CN111723843B (zh) | 一种签到方法、装置、电子设备及存储介质 | |
CN108958634A (zh) | 快递信息获取方法、装置、移动终端以及存储介质 | |
CN112583799A (zh) | 注册账号的处理方法、相关装置、设备及介质 | |
CN108712583B (zh) | 一种基于机器人的人工服务方法及系统 | |
CN109086796A (zh) | 图像识别方法、装置、移动终端以及存储介质 | |
CN108881979A (zh) | 信息处理方法、装置、移动终端及存储介质 | |
CN111061451A (zh) | 一种信息处理方法及装置、系统 | |
US9888369B2 (en) | System for transmitting heterogeneous network-linked data and method therefor | |
CN114140089A (zh) | 一种便携式税务自助终端及业务办理方法 | |
CN114022256A (zh) | 基于线下购物的信息获取方法、终端、系统及介质 | |
CN111161732B (zh) | 语音采集方法、装置、电子设备及存储介质 | |
WO2017007149A1 (ko) | 결제 자동화 장치 및 그 동작 방법 | |
CN113961377A (zh) | 跨应用服务方法、装置、电子设备和存储介质 | |
CN114385898A (zh) | 服务人员推荐方法、终端设备、以及服务器 | |
CN112364219A (zh) | 内容发布方法、装置、电子设备及存储介质 | |
CN113469138A (zh) | 对象检测方法和装置、存储介质及电子设备 | |
CN111158551A (zh) | 语音采集方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Building 14, Tengfei Science Park, 388 Xinping street, Suzhou Industrial Park, Suzhou area, China (Jiangsu) pilot Free Trade Zone, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215024 building 14, Tengfei Innovation Park, No. 388, Xinping street, Suzhou Industrial Park, Jiangsu Province Applicant before: AI SPEECH Ltd. |
|
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200424 |