CN107820619B - 一种分级交互决策方法、交互终端以及云端服务器 - Google Patents

一种分级交互决策方法、交互终端以及云端服务器 Download PDF

Info

Publication number
CN107820619B
CN107820619B CN201780001795.XA CN201780001795A CN107820619B CN 107820619 B CN107820619 B CN 107820619B CN 201780001795 A CN201780001795 A CN 201780001795A CN 107820619 B CN107820619 B CN 107820619B
Authority
CN
China
Prior art keywords
attribute
module
target object
grading
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780001795.XA
Other languages
English (en)
Other versions
CN107820619A (zh
Inventor
廉士国
刘兆祥
王宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
As Science And Technology (beijing) Co Ltd
Original Assignee
As Science And Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by As Science And Technology (beijing) Co Ltd filed Critical As Science And Technology (beijing) Co Ltd
Publication of CN107820619A publication Critical patent/CN107820619A/zh
Application granted granted Critical
Publication of CN107820619B publication Critical patent/CN107820619B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/584Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种分级交互决策方法,包括以下步骤:获取目标对象信息,识别该目标对象特征;根据该目标对象特征获取对应的属性分级,对该属性分级进行优先排序;根据该属性分级的优先排序次序,对该目标对象特征进行逐级的属性判断,满足当前属性分级的分级标准时往优先级更高的属性分级迁移;不满足当前属性分级的分级标准时,输出当前属性分级及其以下优先级的属性分级的判断结果作为交互决策的依据。

Description

一种分级交互决策方法、交互终端以及云端服务器
技术领域
本发明涉及机器人交互领域,具体涉及一种分级交互决策方法、交互终端以及云端服务器。
背景技术
随着网络传输和大数据科技的发展以及硬件处理能力的提升,越来越多的机器人走进了人们的家庭生活。当前的人机交互方式基本都是人问机器答,尽管回答方式多种多样,且越来越智能,但大多是机器人被动接收用户的提问信息,进行筛选后直接答复用户。筛选信息之间缺乏关联。
随着智能设备的出现和普及,智能设备与人之间的交互变得越来越频繁,人机互动的自然体验问题需求越来越大。比如,智能导盲设备与盲人间的交互,或者迎宾机器人与客人间的交互。
例如在导盲场景中,导盲设备如果检测到人的信息,经过图像分析可以确定更多人物特征。根据不同的任务特征给盲人发出提醒语音,例如识别出姓名或者性别时语音提示“前面是你的朋友小明”,“前面有位女性”。在迎宾机器人场景中,迎宾机器人根据机器视觉识别来宾,主动通过语音打招呼,例如“您好!尊敬的VIP客户张小明”,“您好,女士!”。这样的互动能带给用户友好体验,提升服务品质。
但是,现有技术的交互终端,根据机器视觉识别的多种对象特征直接进行交互,使得某些场景下基于先进的机器视觉也会出现交互尴尬,比如,因为光线、角度或者遮挡的原因无法识别人物,无法确保男性和女性、无法检测出人的表情及年龄等机器智能无法判断的时候,如果交互用户是女性,而交互终端说“您好,先生!”会因为性别识别错误而带来尴尬。
如上所述,如何利用机器智能在用户友好体验和可靠性之间达到折衷,是急需解决的问题。
因此,现有技术的机器人交互技术还有待于改进。
发明内容
本发明提供一种分级交互决策方法、交互终端以及云端服务器,预先设置目标对象的属性分级,属性分级之间进行合理的优先级排序,形成多级分层神经网络。根据机器视觉和机器人语义理解识别的目标对象特征逐级进行属性判断,并输出针对当前目标对象信息多的交互决策依据,可尽量识别出人物和物体更细节的属性,使得交互终端更加智能和灵活,提升用户体验。
为解决上述技术问题,本发明提供以下技术方案。
第一方面,本发明实施例提供了一种分级交互决策方法,包括以下步骤:
获取目标对象信息,识别该目标对象特征;
根据该目标对象特征获取对应的属性分级,对该属性分级进行优先排序;
根据所述属性分级的优先排序次序,对该目标对象特征进行逐级的属性判断,该目标对象特征满足当前属性分级的分级标准时往优先级更高的属性分级迁移;
该目标对象特征不满足当前属性分级的分级标准时,输出当前属性分级及其以下优先级的属性分级的判断结果作为交互决策的依据。
第二方面,本发明实施例还提供了一种交互终端,包括信息获取模块、识别模块、属性模块、判断模块以及输出模块,
该信息获取模块用于获取目标对象信息,该识别模块用于识别该目标对象特征;
该属性模块用于根据该目标对象特征获取对应的属性分级,对该属性分级进行优先排序;
该判断模块用于根据所述属性分级的优先排序次序,对该目标对象特征进行逐级的属性判断,该目标对象特征满足当前属性分级的分级标准时往优先级更高的属性分级迁移;
该目标对象模块不满足当前属性分级的分级标准时,该输出模块用于输出当前属性分级以及下级属性分级的判断结果作为交互决策的依据。
第三方面,本发明实施例还提供了一种云端服务器,包括接收模块、属性模块、判断模块、输出模块以及发送模块,
该接收模块用于接收交互终端发送的根据获取的目标对象信息识别的目标对象特征;
该属性模块用于根据该目标对象特征获取对应的属性分级,对该属性分级进行优先排序;
该判断模块用于根据所述属性分级的优先排序次序,基于该目标对象特征进行逐级的属性判断,该目标对象模块满足当前属性分级的分级标准时往优先级更高的属性分级迁移;
该目标对象模块不满足当前属性分级的分级标准时,该输出模块用于输出当前属性分级以及下级属性分级的判断结果作为交互决策的依据;
该发送模块用于发送该依据。
第四方面,本发明实施例还提供了一种电子设备,包括:
至少一个处理器;以及,
与该至少一个处理器通信连接的存储器,通信组件、音频数据采集器以及视频数据采集器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行时调用音频数据采集器与视频数据采集器的数据,通过通信组件与云端服务器建立连接,以使该至少一个处理器能够执行如上所述的方法。
第五方面,本发明实施例还提供了一种非易失性计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上所述的方法。
第六方面,本发明实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行如上所述的方法。
本发明的有益效果在于,本发明实施例提供的分级交互决策方法、交互终端以及云端服务器,预先设置合理的目标对象的属性分级,属性分级之间进行优先级排序,形成多级分层神经网络,根据机器视觉和机器人语义理解识别的目标对象特征逐级进行属性判断,并输出针对当前目标对象信息最佳的交互决策依据,使得交互终端更加智能和灵活,提升用户体验。本实施例中,通过分级方式尽量确定目标对象,比如人物、物体的更多属性,为实际交互应用场景提供更多交互决策依据,从而提升用户深度交互体验。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本发明实施例提供的分级交互决策的系统架构图;
图2是本发明实施例提供的交互终端的模块图;
图3是本发明实施例提供的交互终端的分级交互决策主要流程图;
图4是本发明实施例提供的交互终端的分级交互决策整体流程图;
图5是本发明实施例提供的交互终端的人脸识别实施例的逐级判断流程图;
图6是本发明实施例提供的交互终端的多级分层神经网络图;
图7是本发明实施例提供的交互终端的车辆识别实施例的逐级判断流程图;
图8本发明实施例提供的交互终端的音频识别实施例的逐级判断流程图;
图9是本发明实施例提供的云端服务器模块图;
图10是本发明实施例提供的云端服务器一侧实现分级交互决策方法的流程图;以及
图11是本发明实施例提供的分级交互决策方法的电子设备的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明实施例提供的分级交互决策方法、交互终端以及云端服务器,预先设置目标对象的属性分级,属性分级之间进行优先级排序,形成多级分层神经网络,根据机器视觉和机器人语义理解识别的目标对象特征逐级进行属性判断,并输出针对当前目标对象信息最多的交互决策依据,使得交互终端更加智能和灵活,提升用户体验。
本发明的分级交互决策内容包括获取目标对象信息,识别该目标对象特征;根据该目标对象特征获取对应的属性分级,对该属性分级进行优先排序;根据该属性分级的优先排序次序,基于该目标对象特征进行逐级的属性判断,满足当前属性分级的分级标准时往优先级更高的属性分级迁移;不满足当前属性分级的分级标准时,输出当前属性分级及其以下优先级的属性分级的判断结果作为交互决策的依据。
对该属性分级进行优先排序可以是从初级属性开始往高级属性排序,从初级属性开始往高级属性基于该目标对象特征进行逐级的属性判断。可以理解是的,基于所述目标对象特征进行逐级的属性判断也可以是从高级属性到初级属性进行逐级判断,只要能识别出更深入的结果即可作为系统的结果输出,从而尽量识别出人物和物体更细节的属性,为深度交互提供支持。
本发明的分级交互决策方法、交互终端以及云端服务器为基于置信优先级的机器智能优化决策方法,实现对人物和物体的优化识别,尽量识别出人物和物体更细节的属性,从而实现终端与人之间的友好互动。
请参考图1,本发明的分级交互决策系统,每一交互设备均连接至云端服务器100。该交互终端100可以是智能眼镜110,可以是机器人120,可以是智能终端130也可以是智能头盔140等。
交互终端在工作时,交互终端采集对面目标对象信息,比如画面图像信息或声音音频信息等;从目标对象信息中分级自适应地识别目标对象以及目标对象特征;基于识别出的目标对象以及目标对象特征,交互终端设备向人发出相应的交互信息;用户对交互终端做出响应等。
为确保识别准确率,防止造成不必要的错误和尴尬,本发明中,在基于该目标对象特征进行逐级的属性判断时,对判断结果进行置信的优先级顺序以及进行置信度分析。例如,以识别人物为例,根据交互终端对人物的各种不同属性的识别难易程度,不同属性的属性分级的优先级顺序是:L0(人)>L1(性别)>L2(人名)>L3(表情)。亦即,首先判断确定是否能识别出人,则输出无人物目标对象,如果能则而进一步识别性别,如果能确认性别则再识别是否可识别姓名。其中,不同属性的识别难易程度,可以依据不同属性的识别算法在相同条件下,比如输入相同的图像数据的识别率来排序。例如,通常人名识别难于性别识别,性别识别难于人脸检测)或者依据属性间的相互包含关系来排序。例如,要识别性别需先检测到人脸的存在。其中,对每种属性的判别都依赖于相应的置信度,例如,L0识别人脸时只有置信度超过W0才认为识别出人物;L1识别性别时,只有置信度超过W1才认为可以识别出性别;L2识别人名时,只有置信度超过W2才认为人名识别成功。
实施例1
请参考图2,本实施例涉及交互终端。其中,用于实现分级交互决策的属性模块、判断模块以及置信模块设置在该交互终端中。
该交互终端包括信息获取模块20、识别模块22、属性模块30、判断模块40、置信模块42、输出模块50以及交互模块60。
该信息获取模块20获取目标对象信息,该识别模块22识别该目标对象特征。该属性模块30根据该目标对象特征获取对应的属性分级,该属性分级从初级属性到高级属性进行优先排序。
该判断模块40从该初级属性开始往高级属性,基于该目标对象特征进行逐级的属性判断,该目标对象特征满足当前属性分级的分级标准时往优先级更高的属性分级迁移。该目标对象特征不满足当前属性分级的分级标准时,该输出模块50输出当前属性分级以及下级属性分级的判断结果作为交互决策的依据。
该置信模块用于对每一属性分级的判断结果进行置信度分析。
该判断模块在上级属性分级判断时以所有下级属性分级的判断结果作为依据。
该目标对象信息包括图像信息以及音频信息。
该属性模块30对不同组别的属性进行分类处理。
请参考图5和图6,在一实施例中,该属性模块30为人脸属性模块。该信息获取模块20获取人脸的图像信息,该识别模块22根据该图像信息识别人脸特征。该人脸属性模块用于根据该人脸特征获取对应的属性分级,比如,该属性分级的优先排序次序为:人、性别、人名以及表情。
该判断模块40从该人属性开始往表情属性,基于该人脸特征进行逐级的属性判断,该置信模块42从该人属性开始往表情属性,基于该人脸特征进行逐级置信度判断,该人脸特征满足当前属性分级的分级标准时往优先级更高的属性分级迁移;
该人脸特征不满足当前属性分级的分级标准时,该输出模块50输出当前属性分级及其以下优先级的属性分级的所有判断结果作为交互决策的依据。
本实施例中,依据置信度分级从画面中识别人及其属性。针对人的属性识别,比如,人、姓名、性别、表情等。从置信度角度,交互终端的处理单元对画面做智能分析和决策:
在检测是否有人存在时,相当于检测此人是否在关注交互设备。通过人体检测/人脸检测技术,检测是否存在人;通过人脸姿态估计技术检测人脸的姿态,比如空间朝向,以度为单位。判断人脸姿态是否较长时间t>=T,T是阈值,可通过经验设定,例如T=2秒。朝向交互终端的角度差d<=D,D是阈值,可通过经验设定,例如D=20度。其中,T和D是检测阈值,可作为判别人脸存在的置信度。
检测人的其他属性,例如性别。通过属性检测算法,来识别人脸图像对应的人的性别等属性。后续以性别识别算法为例来介绍。考虑到属性识别算法的精确度不足,我们依据“男性”置信度Na、“女性”置信度Nv这两个参数做如下决策:如果Na-Nv≥R,则决策结果为男性;如果Nv-Na≥R,则决策结果为女性;否则,输出<0,Face>,表示没有识别出人脸。其中,R是衡量性别差异的阈值,可作为判别性别的置信度,可依据经验选取,例如R=20(Nv+Na=100)。
检测姓名是,通过人脸识别技术来判断检测到的人脸是否是预先存储或者注册的人脸,即人脸相似度S≥C,其中C是相似度阈值,可作为判别姓名的置信度。
请参考图6,用于判别“人脸”、“性别”和“人名”的特征可以从图片中迭代式地计算,例如基于多层神经网络原理。神经网络的底层计算出用于判别是否是人脸的人脸特征1,中间层从特征1计算出人脸特征2以及人脸特征3,上一层可以基于下一层的特征进行计算,例如,从人脸特征2计算出人脸特征3用于判别具体的“人名”。
基于识别出的人及其属性,终端设备向人发出相应的交互信号;
基于步骤2)的输出结果,智能机器做相应的响应。
以导盲头盔为例:
如果输出为<1,Face>,则智能头盔发出声音“前面有人”;
如果输出为<1,Male>,则智能头盔发出声音“前面有位男士”;
如果输出为<1,Female>,则智能头盔发出声音“前面有位女士”;
如果输出为<2,NameInfo>,则智能头盔发出声音“前面是NameInfo”;
以迎宾机器人为例:
如果输出为<1,Face>,则迎宾机器人发出声音“您好!有什么可以帮您?”;
如果输出为<1,Male>,则迎宾机器人发出声音“您好!先生!”;
如果输出为<1,Female>,则迎宾机器人发出声音“您好!女士!”;
如果输出为<2,NameInfo>,则迎宾机器人发出声音“您好!VIP客户NameInfo!”。
智能识别和决策过程可以在交互终端实现,也可以在云端服务器一侧实现,在云端服务器实现的具体方案参考实施例3,该实施例中,交互终端需要把采集到的对象信息,比如图像或者音频数据传输到云端服务器。
在另一实施例中,该属性模块30为车辆属性模块。
该信息获取模块20获取车辆的图像信息,该识别模块22根据该图像信息识别车辆特征。该车辆属性模块根据该车辆特征获取对应的属性分级。比如,该属性分级的优先排序次序为:车、颜色、车型、品牌以及款式。
该判断模块40从该车属性开始往款式属性,基于该车辆特征进行逐级的属性判断,该置信模块42从该车属性开始往款式属性,基于该车辆特征进行逐级置信度判断,该车辆特征满足当前属性分级的分级标准时往优先级更高的属性分级迁移;
该车辆特征不满足当前属性分级的分级标准时,该输出模块50输出当前属性分级及其以下优先级的属性分级的所有判断结果作为交互决策的依据。
请参考图7,例如,以车辆识别为例,依次判断是否存在车辆、车辆颜色、识别车辆车型、识别车辆品牌、识别车辆款式等。判断结果可以在考虑算法识别率的基础上做优化决策,并给出相应的交互输出。其决策顺序如图7所示。
本实施例交互终端采用分级决策方法可以依赖于不同的目标对象特征,从原始输入图像或者音频中提取出不同的特征用于不同级别的决策,具体分类分组可预先存储在交互终端。
该图像信息可以是多种多样,除了人脸识别,还可以是车辆识别、水果识别、动物识别等。
在又一实施例中,该属性模块30为声音属性模块。
该信息获取模块20获取目标对象音频信息,该识别模块22根据该音频信息识别目标对象的音频特征。该声音属性模块根据该目标对象的音频特征获取对应的属性分级。比如,该属性分级的优先排序次序为:人声、语种、关键词以及语义。
该判断模块40从该人声属性开始往语义属性,基于该目标对象的音频特征进行逐级的属性判断。该置信模块42从该人声属性开始往语义属性,基于该目标对象的音频特征进行逐级置信度判断,该音频特征满足当前属性分级的分级标准时往优先级更高的属性分级迁移。该音频特征不满足当前属性分级的分级标准时,该输出模块50输出当前属性分级及其以下优先级的属性分级的所有判断结果作为交互决策的依据。
请参考图8,例如,依次判断分析是否存在人声、人声语种、提取关键词、识别语义等。判断结果可以在考虑算法识别率的基础上做优化决策,并给出相应的交互输出。其决策顺序可以采用:人声、语种、关键词以及语义。比如,识别出人声,交互终端可以说“Hello!”;如果识别出语种,智交互终端可以用相应的语种说“您好!”;如果识别出关键词“理财”,智交互终端可以说“这里有中行最新的理财信息,不知您是否感兴趣”;如果识别出客户的用意“我想了解高利率理财”,交互终端可以说“高利率理财信息如下…”。
实施例2
如图2所示,本实施例涉及云端服务器100,其中,用于实现分级交互决策的属性模块、判断模块以及置信模块设置在该云端服务器100中。
请参考图9,该云端服务器包括接收模块102、发送模块104、属性模块130、判断模块140、输出模块150以及置信模块142。
该接收模块102接收交互终端发送的根据获取的目标对象信息识别的目标对象特征。该属性模块130根据该目标对象特征获取对应的属性分级,该属性分级从初级属性到高级属性进行优先排序。
该判断模块140从该初级属性开始往高级属性,基于该目标对象特征进行逐级的属性判断,该目标对象特征满足当前属性分级的分级标准时往优先级更高的属性分级迁移;该目标对象特征不满足当前属性分级的分级标准时,该输出模块150输出当前属性分级以及下级属性分级的所有判断结果作为交互决策的依据。
该发送模块104发送该依据至连接的交互终端,该交互终端基于收到的交互决策依据与用户进行一定深度的交互。
该置信模块142对每一属性分级的判断结果进行置信度分析。
该的云端服务器,该判断模块140在上级属性分级判断时以所有下级属性分级的判断结果作为依据。
请参考图10,所示为云端服务器100一侧实现分级交互决策方法的流程图。
步骤301:接收模块接收交互终端发送的根据获取的目标对象信息识别的目标对象特征;
步骤302:属性模块根据该目标对象特征获取对应的属性分级,该属性分级从初级属性到高级属性进行优先排序;
步骤303:该判断模块从该初级属性开始往高级属性,基于该目标对象特征进行逐级的属性判断;
步骤304:置信模块对每一属性分级的判断结果进行置信度分析;
步骤305:是否满足置信度阈值分级标准;
步骤306:是否满足当前属性分级的分级标准;
步骤307:该该目标对象特征满足当前属性分级的分级标准时往优先级更高的属性分级迁移;
步骤308:该该目标对象特征不满足当前属性分级的分级标准时,输出当前属性分级及其以下优先级的属性分级的判断结果作为交互决策的依据;
步骤309:该发送模块用于发送该依据。
实施例3
请参考图3,本实施例涉及分级交互决策方法,主要包括以下步骤:
步骤101:获取目标对象信息,其中该目标对象信息包括图像信息以及音频信息;
步骤102:识别该目标对象特征;
步骤103:根据该目标对象特征获取对应的属性分级,该属性分级从初级属性到高级属性进行优先排序;
步骤104:从该初级属性开始往高级属性,基于该目标对象特征进行逐级的属性判断,上级属性分级在判断时以所有下级属性分级的判断结果作为依据;
步骤105:该目标对象特征满足当前属性分级的分级标准时往优先级更高的属性分级迁移;
步骤106:该目标对象特征不满足当前属性分级的分级标准时,输出当前属性分级及其以下优先级的属性分级的判断结果作为交互决策的依据。
请参考图4,该分级交互决策方法,基于该目标对象特征进行逐级的属性判断时还包括置信度分析步骤。
步骤201:对每一属性分级的判断结果进行置信度分析以保证识别准确率;
步骤203:是否满足当前属性分级的分级标准,比如是否识别出人脸,如果识别出人脸则进一步判断是否可以人物性别等等;
步骤205:是否满足置信度阈值分级标准,比如,识别出人脸是否满足人脸图像数据的阈值分级标准,或者识别出性别是否满足设定图像特征阈值,比如头发长度等;
步骤207:该目标对象特征满足当前属性分级的分级标准时往优先级更高的属性分级迁移;
步骤209:该目标对象特征不满足当前属性分级的分级标准时,输出当前属性分级及其以下优先级的属性分级的判断结果作为交互决策的依据。
本实施例的分级交互决策方法、交互终端以及云端服务器,预先设置目标对象的属性分级,属性分级之间进行优先级排序,根据机器视觉和机器人语义理解识别的目标对象特征逐级进行属性判断,并输出针对当前目标对象信息最多的交互决策依据,使得交互终端更加智能和灵活,提升用户体验。并且基于交互决策依据,交互终端与用户之间的交互内容更加丰富有趣味性,以识别人为例:在光照好、距离近的条件下正对机器摄像头时,可以识别出人名;用手遮住半张脸,或侧对机器摄像头时,只能识别出人的性别;背对机器摄像头时,只能识别出是否是个人,或者以识别车辆为例:盲人带着导盲头盔在路边走,有时可以识别出车型和颜色,有时只能识别出颜色。交互内容更加丰富有趣味性。
实施例4
图11是本发明实施例提供的分级交互决策方法的电子设备600的硬件结构示意图,如图11所示,该电子设备600包括:
一个或多个处理器610、存储器620、音频数据采集器630、视频数据采集器640、通信组件650以及显示单元660,图11中以一个处理器610为例。该音频数据采集器的输出为音频识别模块的输入,该视频数据采集器的输出视频识别模块的输入。该存储器620存储有可被该至少一个处理器610执行的指令,该指令被该至少一个处理器执行时调用音频数据采集器与视频数据采集器的数据,通过通信组件650与云端服务器建立连接,以使该至少一个处理器能够执行该分级交互决策方法。
处理器610、存储器620、显示单元660以及人机交互单元630可以通过总线或者其他方式连接,图11中以通过总线连接为例。
存储器620作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的分级交互决策方法对应的程序指令/模块(例如,附图2所示的识别模块22、属性模块30、判断模块40、置信模块42和交互模块60)。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的分级交互决策方法。
存储器620可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据交互终端的使用所创建的数据等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器620可选包括相对于处理器610远程设置的存储器,这些远程存储器可以通过网络连接至机器人交互电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器620中,当被所述一个或者多个处理器610执行时,执行上述任意方法实施例中的分级交互决策方法,例如,执行以上描述的图3中的方法步骤101至步骤106,执行以上描述的图4中的方法步骤201至步骤209,实现图2中的识别模块22、属性模块30、判断模块40、置信模块42和交互模块60以及图9中属性模块130、判断模块140、置信模块142和发送模块104等的功能。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
本发明实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能。
(2)三维显示设备:这类设备可以显示和播放多媒体内容。该类设备包括:虚拟现实头盔、增强显示头盔,或者增强显示眼镜。
(3)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(4)机器人以及导盲装置等。
本发明实施例提供了一种非易失性计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,例如,执行以上描述的图3中的方法步骤101至步骤106,执行以上描述的图4中的方法步骤201至步骤209,实现图2中的识别模块22、属性模块30、判断模块40、置信模块42和交互模块60以及图9中属性模块130、判断模块140、置信模块142和发送模块104等的功能。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明,它们没有在细节中提供;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (16)

1.一种分级交互决策方法,其特征在于,包括以下步骤:
获取目标对象信息,识别目标对象特征;
根据所述目标对象特征获取对应的属性分级,对所述属性分级进行优先排序,其中所述属性分级的优先排序根据各种不同属性的识别难易程度确定;
根据所述属性分级的优先排序次序,对所述目标对象特征进行逐级的属性判断,其中,对该属性分级进行优先排序是从初级属性开始往高级属性排序,所述目标对象特征满足当前属性分级的分级标准时往优先级更高的属性分级迁移;
所述目标对象特征不满足当前属性分级的分级标准时,输出当前属性分级及其以下优先级的属性分级的判断结果作为交互决策的依据;
基于识别出的目标对象特征、目标对象特征的当前属性分级及当前属性分级以下优先级的属性分级的判断结果,向目标对象发出相应的交互信号。
2.根据权利要求1所述的方法,其特征在于,基于所述目标对象特征进行逐级的属性判断之后还包括:
对每一属性分级的判断结果进行置信度分析。
3.根据权利要求2所述的方法,其特征在于,上级属性分级在判断时以所有下级属性分级的判断结果作为依据。
4.根据权利要求3所述的方法,其特征在于,所述目标对象信息包括图像信息以及音频信息。
5.根据权利要求1-4任一项所述的方法,其特征在于,
获取人脸的图像信息,根据所述图像信息识别人脸特征;
根据所述人脸特征获取对应的属性分级,所述属性分级的优先排序次序为:人、性别、人名以及表情;
从所述人属性开始往表情属性,对所述人脸特征进行逐级的属性判断和置信度判断,所述人脸特征满足当前属性分级的分级标准时往优先级更高的属性分级迁移;
所述人脸特征不满足当前属性分级的分级标准时,输出当前属性分级及其以下优先级的属性分级的判断结果作为交互决策的依据。
6.根据权利要求1-4任一项所述的方法,其特征在于,
获取车辆的图像信息,根据所述图像信息识别车辆特征;
根据所述车辆特征获取对应的车辆属性分级,所述属性分级的优先排序次序为:车、颜色、车型、品牌以及款式;
从所述车属性开始往型号属性,对所述车辆特征进行逐级的属性判断和置信度判断,所述车辆特征满足当前属性分级的分级标准时往优先级更高的属性分级迁移;
所述车辆特征不满足当前属性分级的分级标准时,输出当前属性分级及其以下优先级的属性分级的判断结果作为交互决策的依据。
7.根据权利要求1-4任一项所述的方法,其特征在于,
获取目标对象音频信息,根据所述音频信息识别目标对象的音频特征;
根据所述目标对象的音频特征获取对应的属性分级,所述属性分级的优先排序次序为:人声、语种、关键词以及语义;
从所述人声属性开始往语义属性,对所述目标对象的特征进行逐级的属性判断和置信度判断,所述音频特征满足当前属性分级的分级标准时往优先级更高的属性分级迁移;
所述音频特征不满足当前属性分级的分级标准时,输出当前属性分级及其以下优先级的属性分级的判断结果作为交互决策的依据。
8.一种交互终端,其特征在于,包括信息获取模块、识别模块、属性模块、判断模块、输出模块以及交互模块,
所述信息获取模块用于获取目标对象信息,所述识别模块用于识别目标对象特征;
所述属性模块用于根据所述目标对象特征获取对应的属性分级,对所述属性分级进行优先排序,其中,其中所述属性分级的优先排序根据各种不同属性的识别难易程度确定,对该属性分级进行优先排序是从初级属性开始往高级属性排序;
所述判断模块用于根据所述属性分级的优先排序次序,对所述目标对象特征进行逐级的属性判断,所述目标对象特征满足当前属性分级的分级标准时往优先级更高的属性分级迁移;
所述目标对象特征不满足当前属性分级的分级标准时,所述输出模块用于输出当前属性分级及其以下优先级的属性分级的判断结果作为交互决策的依据;
所述交互模块用于基于识别出的目标对象特征、目标对象特征的当前属性分级及当前属性分级以下优先级的属性分级的判断结果,向目标对象发出相应的交互信号。
9.根据权利要求8所述的交互终端,其特征在于,所述判断模块还包括置信模块,所述置信模块用于对每一属性分级的判断结果进行置信度分析。
10.根据权利要求9所述的交互终端,其特征在于,所述判断模块在上级属性分级判断时以所有下级属性分级的判断结果作为依据。
11.根据权利要求10所述的交互终端,其特征在于,所述目标对象信息包括图像信息以及音频信息,所述交互终端为机器人或者可穿戴显示设备或者移动终端或者导盲装置。
12.根据权利要求8-11任一项所述的交互终端,其特征在于,所述属性模块为人脸属性模块;
所述信息获取模块用于获取人脸的图像信息,所述识别模块用于根据所述图像信息识别人脸特征;
所述人脸属性模块用于根据所述人脸特征获取对应的属性分级,所述属性分级的优先排序次序为:人、性别、人名以及表情;
所述判断模块包括置信模块,所述判断模块用于从所述人属性开始往表情属性,基于所述人脸特征进行逐级的属性判断,所述置信模块用于从所述人属性开始往表情属性,基于所述人脸特征进行逐级置信度判断,所述人脸特征满足当前属性分级的分级标准时往优先级更高的属性分级迁移;
所述人脸特征不满足当前属性分级的分级标准时,所述输出模块用于输出当前属性分级及其以下优先级的属性分级的判断结果作为交互决策的依据。
13.根据权利要求8-11任一项所述的交互终端,其特征在于,所述属性模块为车辆属性模块;
所述信息获取模块用于获取车辆的图像信息,所述识别模块用于根据所述图像信息识别车辆特征;
所述车辆属性模块用于根据所述车辆特征获取对应的属性分级,所述属性分级的优先排序次序为:车、颜色、车型、品牌以及款式;
所述判断模块包括置信模块,所述判断模块用于从所述车属性开始往款式属性,基于所述车辆特征进行逐级的属性判断,所述置信模块用于从所述车属性开始往款式属性,基于所述车辆特征进行逐级置信度判断,所述车辆特征满足当前属性分级的分级标准时往优先级更高的属性分级迁移;
所述车辆特征不满足当前属性分级的分级标准时,所述输出模块用于输出当前属性分级及其以下优先级的属性分级的判断结果作为交互决策的依据。
14.根据权利要求8-11任一项所述的交互终端,其特征在于,所述属性模块为声音属性模块;
所述信息获取模块用于获取目标对象音频信息,所述识别模块用于根据所述音频信息识别目标对象的音频特征;
所述声音属性模块用于根据所述目标对象的音频特征获取对应的属性分级,所述属性分级的优先排序次序为:人声、语种、关键词以及语义;
所述判断模块包括置信模块,所述判断模块用于从所述人声属性开始往语义属性,基于所述目标对象的音频特征进行逐级的属性判断,所述置信模块用于从所述人声属性开始往语义属性,基于所述目标对象的音频特征进行逐级置信度判断,所述音频特征满足当前属性分级的分级标准时往优先级更高的属性分级迁移;
所述音频特征不满足当前属性分级的分级标准时,所述输出模块用于输出当前属性分级及其以下优先级的属性分级的判断结果作为交互决策的依据。
15.一种电子设备,其中,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器,通信组件、音频数据采集器以及视频数据采集器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行时调用音频数据采集器与视频数据采集器的数据,通过通信组件与云端服务器建立连接,以使所述至少一个处理器能够执行权利要求1-7任一项所述的方法。
16.一种非易失性计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行权利要求1-7任一项所述的方法。
CN201780001795.XA 2017-09-21 2017-09-21 一种分级交互决策方法、交互终端以及云端服务器 Active CN107820619B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2017/102746 WO2019056267A1 (zh) 2017-09-21 2017-09-21 一种分级交互决策方法、交互终端以及云端服务器

Publications (2)

Publication Number Publication Date
CN107820619A CN107820619A (zh) 2018-03-20
CN107820619B true CN107820619B (zh) 2019-12-10

Family

ID=61606891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780001795.XA Active CN107820619B (zh) 2017-09-21 2017-09-21 一种分级交互决策方法、交互终端以及云端服务器

Country Status (2)

Country Link
CN (1) CN107820619B (zh)
WO (1) WO2019056267A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108762250A (zh) * 2018-04-27 2018-11-06 深圳市商汤科技有限公司 设备的控制方法和装置、设备、计算机程序和存储介质
CN109117819B (zh) * 2018-08-30 2021-03-02 Oppo广东移动通信有限公司 目标物识别方法、装置、存储介质及穿戴式设备
CN110175150B (zh) * 2019-05-15 2023-02-24 重庆大学 基于数据压缩的迎宾机器人数据存储监控系统
CN110349577B (zh) * 2019-06-19 2022-12-06 达闼机器人股份有限公司 人机交互方法、装置、存储介质及电子设备
CN110852785B (zh) * 2019-10-12 2023-11-21 中国平安人寿保险股份有限公司 用户分级方法、装置及计算机可读存储介质
CN110837326B (zh) * 2019-10-24 2021-08-10 浙江大学 一种基于物体属性递进式表达的三维目标选择方法
CN111783643B (zh) * 2020-06-30 2023-09-01 北京百度网讯科技有限公司 人脸识别的方法、装置、电子设备及存储介质
CN112035034B (zh) * 2020-08-27 2024-05-03 芜湖盟博科技有限公司 一种车载机器人交互方法
CN114612959A (zh) * 2022-01-28 2022-06-10 北京深睿博联科技有限责任公司 一种用于辅助盲人人际交流的人脸识别系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352389B1 (en) * 2012-08-20 2013-01-08 Insidesales.com Multiple output relaxation machine learning model
CN104769574A (zh) * 2012-08-20 2015-07-08 内部销售公司 基于分层的排序机器学习模型
CN105563484A (zh) * 2015-12-08 2016-05-11 深圳前海达闼云端智能科技有限公司 一种云机器人系统、机器人和机器人云平台
CN106372576A (zh) * 2016-08-23 2017-02-01 南京邮电大学 一种基于深度学习的智能室内入侵检测方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7415137B2 (en) * 2002-12-13 2008-08-19 Canon Kabushiki Kaisha Image processing method, apparatus and storage medium
US9129148B1 (en) * 2012-11-09 2015-09-08 Orbeus Inc. System, method and apparatus for scene recognition
CN104143079B (zh) * 2013-05-10 2016-08-17 腾讯科技(深圳)有限公司 人脸属性识别的方法和系统
CN105404877A (zh) * 2015-12-08 2016-03-16 商汤集团有限公司 基于深度学习和多任务学习的人脸属性预测方法及装置
CN106022254A (zh) * 2016-05-17 2016-10-12 上海民实文化传媒有限公司 图像识别技术
CN106796790B (zh) * 2016-11-16 2020-11-10 深圳达闼科技控股有限公司 机器人语音指令识别的方法及相关机器人装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352389B1 (en) * 2012-08-20 2013-01-08 Insidesales.com Multiple output relaxation machine learning model
CN104769574A (zh) * 2012-08-20 2015-07-08 内部销售公司 基于分层的排序机器学习模型
CN105563484A (zh) * 2015-12-08 2016-05-11 深圳前海达闼云端智能科技有限公司 一种云机器人系统、机器人和机器人云平台
CN106372576A (zh) * 2016-08-23 2017-02-01 南京邮电大学 一种基于深度学习的智能室内入侵检测方法及系统

Also Published As

Publication number Publication date
WO2019056267A1 (zh) 2019-03-28
CN107820619A (zh) 2018-03-20

Similar Documents

Publication Publication Date Title
CN107820619B (zh) 一种分级交互决策方法、交互终端以及云端服务器
US20210081650A1 (en) Command Processing Using Multimodal Signal Analysis
CN108235697B (zh) 一种机器人动态学习方法、系统、机器人以及云端服务器
US20200050842A1 (en) Artificial intelligence apparatus for recognizing user from image data and method for the same
CN109905593B (zh) 一种图像处理方法和装置
CN107507612A (zh) 一种声纹识别方法及装置
CN110956060A (zh) 动作识别、驾驶动作分析方法和装置及电子设备
CN106294774A (zh) 基于对话服务的用户个性化数据处理方法及装置
KR101887637B1 (ko) 로봇 시스템
WO2022041830A1 (zh) 行人重识别方法和装置
CN114238690A (zh) 视频分类的方法、装置及存储介质
CN108064389B (zh) 一种目标识别方法、装置和智能终端
WO2023178906A1 (zh) 活体检测方法及装置、电子设备、存储介质、计算机程序、计算机程序产品
CN113703585A (zh) 交互方法、装置、电子设备及存储介质
CN111127837A (zh) 一种报警方法、摄像机及报警系统
WO2024001539A1 (zh) 说话状态识别方法及模型训练方法、装置、车辆、介质、计算机程序及计算机程序产品
CN113516113A (zh) 一种图像内容识别方法、装置、设备及存储介质
CN116824278A (zh) 图像内容分析方法、装置、设备和介质
CN115205925A (zh) 表情系数确定方法、装置、电子设备及存储介质
KR20220098312A (ko) 이미지 내 관련 대상 검출 방법, 장치, 디바이스 및 기록 매체
CN112712051A (zh) 对象跟踪方法、装置、计算机设备及存储介质
CN115203393A (zh) 一种对话应答方法及其系统、电子设备、存储介质
CN109241893B (zh) 基于人工智能技术的道路选择方法、装置及可读存储介质
CN111571567A (zh) 机器人转译技能训练方法、装置及电子设备和存储介质
KR20210048271A (ko) 복수 객체에 대한 자동 오디오 포커싱 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant