CN105589742A - 一种信息处理方法和电子设备 - Google Patents

一种信息处理方法和电子设备 Download PDF

Info

Publication number
CN105589742A
CN105589742A CN201410645826.3A CN201410645826A CN105589742A CN 105589742 A CN105589742 A CN 105589742A CN 201410645826 A CN201410645826 A CN 201410645826A CN 105589742 A CN105589742 A CN 105589742A
Authority
CN
China
Prior art keywords
state
electronic equipment
dbjective
action
nothing operation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410645826.3A
Other languages
English (en)
Other versions
CN105589742B (zh
Inventor
张勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201410645826.3A priority Critical patent/CN105589742B/zh
Publication of CN105589742A publication Critical patent/CN105589742A/zh
Application granted granted Critical
Publication of CN105589742B publication Critical patent/CN105589742B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种信息处理方法和电子设备,其中,所述方法包括:检测所述电子设备的状态;当检测到所述电子设备的状态从第二状态st+n转移到第三状态st+n+1,且确定导致本次状态转移的第二动作at+n不是空操作时,从所述目标状态集合T中去除所述第二状态st+n,所述空操作是指用户没有对所述电子设备进行操作;当确定导致上次状态转移的第一动作at+n-1不是空操作时,从所述第二动作at+n向前寻找第一个空操作;当确定所述第三状态st+n+1是在寻找到的第一个空操作之后的状态中首次出现的状态时,在所述目标状态集合T中加入所述第三状态st+n+1;将所述目标状态集合T中的状态确定为目标状态。

Description

一种信息处理方法和电子设备
技术领域
本发明涉及计算机技术,尤其涉及一种信息处理方法和电子设备。
背景技术
在增强学习领域,存在一种被称为人工智能的强化学习的技术,例如Q-Learning技术,该技术是让电子设备在与环境的不断交互过程中进行学习,从而发现使电子设备从任意状态出发达到目标状态的最优操作序列。
这种技术首先将所要解决的问题形式化为马尔科夫决策问题(MarkovDecisionProblem,MDP)。MDP问题可以描述为:状态集合S、动作集合A、状态转移模型T。
状态集合S中每一个元素都是一个N维向量,用来表示一个特定状态,假设电子设备在时刻t的状态为st=(x1,x2,...,xN),st∈S,S也称为状态空间。
动作集合A是定义在状态空间上的集合,A(st)表示当处于状态st时电子设备可执行的所有动作的集合。
状态转移模型T是定义在状态空间和动作集合上的,T(st,at)表示在状态st下执行了动作at之后后继状态的概率分布。
如图1所示,该技术的特点是在已知目标状态的情况下,能够自动找到从任意状态出发抵达目标状态的最优操作序列。但是,目标状态并不总是提前预知的,当目标状态未知时,电子设备无法利用上述技术找到从任意状态出发抵达目标状态的最优操作序列。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种信息处理方法和电子设备。
本发明实施例提供的一种信息处理方法,应用于电子设备,所述电子设备设置有初始化为空集的目标状态集合T,所述方法包括:
检测所述电子设备的状态;
当检测到所述电子设备的状态从第二状态st+n转移到第三状态st+n+1,且确定导致本次状态转移的第二动作at+n不是空操作时,从所述目标状态集合T中去除所述第二状态st+n,所述空操作是指用户没有对所述电子设备进行操作;
当确定导致上次状态转移的第一动作at+n-1不是空操作时,从所述第二动作at+n向前寻找第一个空操作;
当确定所述第三状态st+n+1是在寻找到的第一个空操作之后的状态中首次出现的状态时,在所述目标状态集合T中加入所述第三状态st+n+1
将所述目标状态集合T中的状态确定为目标状态。
其中,所述方法还包括:
当确定所述第二动作at+n是空操作时,在所述目标状态集合T中加入所述第三状态st+n+1,并从所述目标状态集合T中去除所述第二状态st+n
其中,所述方法还包括:
当确定所述第一动作at+n-1是空操作时,在所述目标状态集合T中加入第一状态st+n-1
其中,所述方法还包括:
当确定所述第三状态st+n+1不是在寻找到的第一个空操作之后的状态中首次出现的状态时,保持所述目标状态集合T不变。
本发明实施例提供的一种电子设备,所述电子设备设置有初始化为空集的目标状态集合T,所述电子设备包括:
检测单元,用于检测所述电子设备的状态;
处理单元,用于当检测到所述电子设备的状态从第二状态st+n转移到第三状态st+n+1,且确定导致本次状态转移的第二动作at+n不是空操作时,从所述目标状态集合T中去除所述第二状态st+n,所述空操作是指用户没有对所述电子设备进行操作;当确定导致上一次状态转移的第一动作at+n-1不是空操作时,从所述第二动作at+n向前寻找第一个空操作;当确定所述第三状态st+n+1是在寻找到的第一个空操作之后的状态中首次出现的状态时,在所述目标状态集合T中加入所述第三状态st+n+1
确定单元,用于将所述目标状态集合T中的状态确定为目标状态。
其中,所述处理单元,还用于当确定所述第二动作at+n是空操作时,在所述目标状态集合T中加入所述第三状态st+n+1,并从所述目标状态集合T中去除所述第二状态st+n
其中,所述处理单元,还用于当确定所述第一动作at+n-1是空操作时,在所述目标状态集合T中加入第一状态st+n-1
其中,所述处理单元,还用于当确定所述第三状态st+n+1不是在寻找到的第一个空操作之后的状态中首次出现的状态时,保持所述目标状态集合T不变。
由上可知,本发明的技术方案包括:检测所述电子设备的状态;当检测到所述电子设备的状态从第二状态st+n转移到第三状态st+n+1,且确定导致本次状态转移的第二动作at+n不是空操作时,从所述目标状态集合T中去除所述第二状态st+n,所述空操作是指用户没有对所述电子设备进行操作;当确定导致上次状态转移的第一动作at+n-1不是空操作时,从所述第二动作at+n向前寻找第一个空操作;当确定所述第三状态st+n+1是在寻找到的第一个空操作之后的状态中首次出现的状态时,在所述目标状态集合T中加入所述第三状态st+n+1;将所述目标状态集合T中的状态确定为目标状态。本发明实施例能够让电子设备根据用户的操作动作确定哪些状态是目标状态,进一步得到电子设备所要达到的目标状态集合。从而,电子设备可以根据上述目标状态集合利用人工智能的强化学习技术找到从任意状态出发抵达目标状态的最优操作顺序。
附图说明
图1为现有技术利用强化学习技术得到最优操作序列的流程图;
图2为本发明提供的一种信息处理方法的实施例的流程图;
图3为本发明实施例提供的状态变迁的第一种情况的示意图;
图4为本发明实施例提供的状态变迁的第二种情况的示意图;
图5为本发明实施例提供的状态变迁的第三种情况的示意图;
图6为本发明实施例提供的状态变迁的第四种情况的示意图;
图7为本发明实施例提供的状态变迁的第五种情况的示意图;
图8为本发明实施例提供的状态变迁的第六种情况的示意图;
图9为利用本发明实施例提供的信息处理方法实现目标状态集合产生器的示意图;
图10为将本发明实施例提供的信息处理方法应用于软件智能体的示意图;
图11为本发明提供的一种电子设备的实施例的结构示意图。
具体实施方式
本发明提供的一种信息处理方法的实施例,应用于电子设备,所述电子设备设置有初始化为空集的目标状态集合T,如图2所示,所述方法包括:
步骤201、检测所述电子设备的状态;
步骤202、当检测到所述电子设备的状态从第二状态st+n转移到第三状态st+n+1,且确定导致本次状态转移的第二动作at+n不是空操作时,从所述目标状态集合T中去除所述第二状态st+n,所述空操作是指用户没有对所述电子设备进行操作;
步骤203、当确定导致上次状态转移的第一动作at+n-1不是空操作时,从所述第二动作at+n向前寻找第一个空操作;
步骤204、当确定所述第三状态st+n+1是在寻找到的第一个空操作之后的状态中首次出现的状态时,在所述目标状态集合T中加入所述第三状态st+n+1
步骤205、将所述目标状态集合T中的状态确定为目标状态。
在一实施例中,所述方法还包括:
当确定所述第二动作at+n是空操作时,在所述目标状态集合T中加入所述第三状态st+n+1,并从所述目标状态集合T中去除所述第二状态st+n
在一实施例中,所述方法还包括:
当确定所述第一动作at+n-1是空操作时,在所述目标状态集合T中加入第一状态st+n-1
在一实施例中,所述方法还包括:
当确定所述第三状态st+n+1不是在寻找到的第一个空操作之后的状态中首次出现的状态时,保持所述目标状态集合T不变。
下面对使用状态集合S、动作集合A、状态转移模型T来描述电子设备进行介绍。
状态集合S中每一个元素都是一个N维向量,用来表示电子设备的一个状态,假设电子设备在时刻t的状态为st=(x1,x2,...,xN),st∈S。
下面举例来说,家用空调是一个电子设备,描述家用空调的状态向量可以是这样的一个向量:(空调的开待机状态、空调所设定的目标温度、空调所集成的温度传感器的读数)。这样就用一个三维向量来描述了空调的状态,x1=0or1表示空调处于待机或开机状态,x2=target表示空调设定的目标温度,x3=temperature表示了空调的温度传感器的读数。
理论上电子设备的任何配置参数、传感器的读数都可以合在一起被表示为一个状态向量,但是把所有的东西都表示为这样一个状态向量是明显不合理的,如果将一个摄像头所感知到的图像点阵也表示为一个状态向量,那么这个状态向量就会变得非常庞大,而且它随时间的变化也会很快。这对于“告诉其他电子设备或用户本电子设备能做什么”、对于“告诉其他电子设备或用户本电子设备所处的状态”实际上没有多少帮助。所以对于一个特定的电子设备设计一个用来表征它的状态向量是一个需要设计者费心思考的问题。对于空调这样的电子设备来说,一个三维的向量也许就足够好了。如何设计一个特定电子设备所对应的状态向量不是本提案所要解决的问题,所以此处不予赘述。
动作集合A(s)是电子设备在状态s下所能远程执行或用户手动执行的所有动作的集合。例如空调在待机状态只能执行一个动作“开机”,那么在待机状态下空调的动作集合只有一个元素就是“开机”动作;在开机状态下,空调可以执行的动作包括:目标温度加1、目标温度减1、待机。这样在开机状态下空调的动作集合就包括三个元素。
为了方便,将电子设备在所有状态下可执行的所有动作的集合记为A={a1,a2,...,aM}。电子设备的动作集合实际上告诉了其它电子设备或用户该电子设备可以做什么,即可以执行哪些操作命令。
设计电子设备的动作和动作集合时有特殊要求,并不是随意设计的。
约束条件1:动作集合中任何一个动作的执行结果都必须导致电子设备状态向量中的至少一个元素发生状态迁移。即电子设备执行了动作a,电子设备的状态向量从st变为st+1,且st≠st+1
约束条件2:电子设备的动作集合必须是有限的,只能包含有限个动作元素。这意味着动作不能携带输入参数,如果动作a携带输入参数x,那么对于每一个不同x输入,a实际上都是不同的动作,如果x的可能取值是无穷多个,那么动作集合中的元素个数也就变成了无穷多个。
状态转移模型T(s,a)是定义在特定状态和特定动作下的函数,它表示在状态s下执行动作a所产生的后继状态,T(s,a)可以是随机的,即它描述了后继状态在状态空间中的一个分布,真正的后继状态是在该分布中的一个抽样实例。
需要特别说明的是,状态向量中的部分元素反映的是电子设备内部的状态,这些元素可以通过执行动作来改变,状态向量中的另一部分元素反映的是环境的状态(例如温度传感器的读数),这些元素不会因为电子设备执行了某个动作而发生直接的改变(电子设备的动作可能引起环境的变化,从而间接影响反映环境的状态元素,但是这种影响是间接的,直接的因素还是环境的变化)。我们将电子设备执行动作而引起的状态变迁称为状态动迁,将由环境变化引起的状态变迁称为状态漂移,状态漂移记为st+1=T(st,φ),这表示电子设备未执行任何动作,但是状态从st变为st+1。为了方便也可以在集合A中增加一个元素,则A={φ,a1,a2,...,aM}。
状态集合S、动作集合A、状态转移模型T实际上将电子设备描述为一个Markov状态转移模型。这样的模型描述方式增加了新的限制,但是它为任意两个具备此模型描述的电子设备之间建立关系提供了基础。
电子设备状态的变更被分为状态动迁和状态漂移两类。状态动迁是由操作动作a引发的状态变更,它由状态模型T(s,a)描述。状态漂移是由环境变化引发的状态变更,不是电子设备的操作动作所能直接控制的。状态动迁和状态漂移的概念不仅可以应用在一个电子设备上,它也可以被扩展到两个电子设备相互关注的情形。
假设有两个电子设备x和y,电子设备x的描述为Sx、Ax、Tx,电子设备y的描述为Sy、Ay、Ty。基于以上的模型描述,可以定义什么是“电子设备x订阅电子设备y的消息”,我们将这种订阅关系称为电子设备之间的关注关系,记为x→y。所谓电子设备x关注电子设备y,就是电子设备x能够获取电子设备y的状态向量当电子设备y的状态向量发生变迁时,电子设备x能够获取引发此变迁的动作或φ,和电子设备y的新状态所以建立两个电子设备之间的关注关系,就是关注者(电子设备)能够获取被关注者(电子设备)的:
1、状态向量和状态变迁;
2、引发变迁的动作或φ;
根据以上定义,当x→y时,电子设备x可以获得sy,电子设备x可以把sy当作是环境的一部分,于是电子设备x可以将状态向量扩展为(sx,sy),这是由电子设备x和电子设备y的状态向量合并后的联合状态向量。显然sy的状态变迁不是电子设备x所能直接控制的,所以对于电子设备x来说sy的变迁属于状态漂移。所以状态动迁和状态漂移的概念对于单个电子设备和有关注关系的多个电子设备的情况都适用。
下面对本发明要解决的技术问题进行描述。
用户操作电子设备x执行动作序列{at,at+1,at+2,...,at+n,...},其中at+i有可能是φ,电子设备x的状态向量或与其他电子设备的联合状态向量的序列为{st,st+1,st+2,...,st+n,...}。若at+i=φ,从st+i到st+i+1的状态变更就是状态漂移;若at+i≠φ,从st+i到st+i+1的状态变更就是状态动迁。问题是电子设备如何从动作序列{at,at+1,at+2,...,at+n,...}和状态序列{st,st+1,st+2,...,st+n,...}中学习,找到一个状态集合作为用户操作电子设备所期望达到目标状态的估计。
解决这个问题的价值在于,电子设备在已知目标状态的情况下可以利用强化学习的算法找到从任意初始状态抵达目标状态的最优操作序列(一般称为动态编程问题),Q-Learning就是这种算法的典型例子。
下面对产生目标状态集合的方法进行介绍。
首先,引入几个集合的定义:1.Action(s,any)为从状态s出发所有通过状态动迁可达的状态的集合(不包含s)。2.Action(any,s)为通过状态动迁可抵达状态s的所有状态的集合(不包含s)。3.Shift(s,any)为从状态s出发所有通过状态漂移可达的状态集合(不包含s)。4.Shift(any,s)为通过状态漂移可抵达状态s的所有状态的集合(不包含s)。显然有Action(s,any)∩Shift(s,any)=φ和Action(any,s)∩Shift(any,s)=φ。
考虑几种情形:
第一种:如图3所示,用户执行动作at,电子设备状态st动迁至st+1。这至少意味着st不是用户期望的目标状态。如果电子设备到达st是通过从st-n状态开始的一系列动迁而来,那么同理这条动迁链路上所有的状态节点都不是用户期望的目标状态。再向前考虑,电子设备到达st-n是通过从st-m状态开始的一系列漂移而来,那么st-n-1可以作为一个合理的对用户目标状态的估计。实际上用户期望的目标状态可能是集合Shift(st-m,any)中的任何一个状态,但是因为用户无法直接控制本电子设备在Shift(st-m,any)集合中进行状态转移,但是我们知道只要状态漂移到st-n用户就会操作电子设备离开状态st-n。所以以包含在Shift(any,st-n)集合中的状态序列的最后一个状态st-n-1作为对目标状态的估计最为合理。
第二种:如图4所示,如果电子设备到达st是通过从st-n开始的一系列漂移而来,那么st-1可以作为一个合理的对用户目标状态的估计。这和第一种情形是类似的。问题是再向前看动迁链,它的最后一环状态st-n是否也是一个合理的对用户目标状态的估计呢?可以但是不必要,因为已经有st-1作为估计了。从用户可控的角度来说,用户最多能直接控制电子设备抵达st-n状态,随后状态就会在集合Shift(st-n,any)中漂移而不受用户控制,所以以漂移开始的第一个状态作为对目标状态的估计不如以漂移结束的最后一个状态作为对目标状态的估计。
第三种:如图5所示,状态动迁形成闭环链路。这种情况下电子设备无法估计用户期望的目标状态是什么。那为什么不以用户操作序列对应的最后一个状态作为对目标状态的估计呢?困难在于很难判断到底哪个动作是用户的最后一个动作,也就是说电子设备无法预计用户是否还有后续动作,实际上不到电子设备被废弃的那一天,电子设备就不会知道上一个动作是否是最后一个动作,除非用户告诉电子设备这一点。那为什么不以用户停留时间最长的状态作为对目标状态的估计呢?首先模型并没有描述每个状态停留的时间,其次对于很多电子设备来说停留时间最长的状态也许是待机(或关机)状态,在用户不使用电子设备时,待机状态通常是用户期望的目标状态,但是当用户使用电子设备时,用户期望的肯定是另一个状态,所以待机状态不能作为唯一的一个对目标状态的估计。
第四种:如图6所示,状态动迁有终结状态。图6中就存在一个终结状态,用户操作让电子设备抵达状态s5,没有操作让电子设备离开状态s5,也没有任何漂移让状态离开s5,所以s5是一个终止状态。显然在用户执行的动作序列和状态序列中如果存在终止状态,那么将终止状态作为用户目标状态的估计是合理的。
第五种:如图7所示,用户对电子设备进行有限步操作之后,电子设备开始状态漂移,并且用户没有再对电子设备进行其他操作。这种情况下将漂移的最后一个状态作为对目标状态的估计是合理的。
第六种:如图8所示,用户没有对电子设备进行任何操作,电子设备的所有状态转移都是漂移。这种情况通常是纯传感器的情况。这种情况用户不存在特定的目标,所以也不必进行估计。
综合以上六种情况,根据用户操作序列{at,at+1,at+2,...,at+n,...}(这里at+i可能等于φ)和状态转移序列{st,st+1,st+2,...,st+n,...}产生估计的目标状态集合可以通过以下算法实现:
1、初始化目标状态集合T=φ;
2、执行动作at+n
如果at+n≠φ
则T←T-st+n(即从集合T中去掉状态st+n,如果集合T中本来就没有状态st+n,那么不需要做任何事);
如果at+n-1=φ
则T←T+st+n-1
从at+n向前寻找第一个φ操作,从这个空操作之后的状态开始算起,如果状态st+n+1是第一次出现,那么T←T+st+n+1,否则T保持不变。
如果at+n=φ
则T←T+st+n+1-st+n
3、n←n+1,重复步骤2直到序列结束。
上述算法可以采用以下文字进行描述:
步骤1:电子设备将目标状态集合T初始化为空集。
步骤2:电子设备状态发生了转移st+n-->st+n+1,该状态转移是因为执行了动作at+n(at+n也可能是空,表示用户没有执行任何动作,状态转移属于状态漂移)。
情况1:at+n不是空操作
即从st+n-->st+n+1的状态转移不是状态漂移,就从目标状态集合T中去掉st+n(如果T不包含st+n则不需要做任何事)。
追溯上一次状态转移,如果at+n-1是空操作,则在目标状态集合T中加入状态st+n-1
追溯上一次状态转移,如果at+n-1不是空操作,从at+n向前寻找第一个空操作,从这个空操作之后的状态开始算起,如果状态st+n+1是第一次出现,那么在目标状态集合T中加入st+n+1,否则T保持不变。
情况2:at+n是空操作
即事实上用户没有进行任何操作,但是电子设备状态发生了漂移,将st+n+1加入到目标状态集合T中,并从目标状态集合T中去掉st+n
步骤3:
当下一次状态转移发生时重复步骤2。
上述算法可以用于实现一个目标状态集合产生器。如图9所示,该目标状态集合产生器的输入为用户操作序列{at,at+1,at+2,...,at+n,...}(at+i可能等于φ表示状态漂移)和状态转移序列{st,st+1,st+2,...,st+n,...},输出为用户期望的电子设备目标状态。
如图10所示,该目标状态集合可以被用于控制电子设备的软件智能体(Agent)利用(这个Agent工作在用于控制电子设备的软件程序中),所以该算法应用的主体是电子设备的控制系统。
下面举例来说明本发明,假设存在一个用于控制空调的软件智能体Agent。刚开始该智能体并不知道用户希望它如何控制空调,此时该智能体工作于手动模式。用户进行手动操作,动作序列为:(开机、目标温度减1、目标温度减1、目标温度减1、目标温度减1、目标温度减1、目标温度减1、空操作、空操作、空操作)。对应的空调的状态序列为:(待机、目标温度=30、当前温度=30)-->(开机、目标温度=30、当前温度=30)-->(开机、目标温度=29、当前温度=30)-->(开机、目标温度=28、当前温度=30)-->(开机、目标温度=27、当前温度=30)-->(开机、目标温度=26、当前温度=30)-->(开机、目标温度=25、当前温度=30)-->(开机、目标温度=24、当前温度=30)-->(开机、目标温度=26、当前温度=29)-->(开机、目标温度=26、当前温度=28)-->(开机、目标温度=26、当前温度=26)。这时属于前述的第五种情况,利用本发明提供的算法得到目标状态集合包含一个元素:(开机、目标温度=26、当前温度=26)。当电子设备工作于自动模式时,Agent的最优控制算法将找到使电子设备达到该目标状态的最优控制序列以使电子设备达到该目标状态。
下面对本发明的一个应用实例进行描述。
假定存在一个窗控制器,该控制器能够感知屋内是否有人。窗户只有开关两个状态,屋内也只有有人和无人两个状态,窗户控制器有开关两个操作。窗户在开关之间变换属于状态动迁,人从无到有从有到无属于状态漂移。当用户进入屋内之后,用户在线操作控制器打开了窗户,从这个操作中,该控制器学习到在有人状态下开窗是用户期望的目标状态。当人离开屋子之后在线操作控制器关闭窗户,从这个操作中,该控制器学习到在无人状态下关窗是用户期望的目标状态。
本发明提供的一种电子设备的实施例,所述电子设备设置有初始化为空集的目标状态集合T,如图11所示,所述电子设备包括:
检测单元1101,用于检测所述电子设备的状态;
处理单元1102,用于当检测到所述电子设备的状态从第二状态st+n转移到第三状态st+n+1,且确定导致本次状态转移的第二动作at+n不是空操作时,从所述目标状态集合T中去除所述第二状态st+n,所述空操作是指用户没有对所述电子设备进行操作;当确定导致上一次状态转移的第一动作at+n-1不是空操作时,从所述第二动作at+n向前寻找第一个空操作;当确定所述第三状态st+n+1是在寻找到的第一个空操作之后的状态中首次出现的状态时,在所述目标状态集合T中加入所述第三状态st+n+1
确定单元1103,用于将所述目标状态集合T中的状态确定为目标状态。
在一实施例中,所述处理单元1102,还用于当确定所述第二动作at+n是空操作时,在所述目标状态集合T中加入所述第三状态st+n+1,并从所述目标状态集合T中去除所述第二状态st+n
在一实施例中,所述处理单元1102,还用于当确定所述第一动作at+n-1是空操作时,在所述目标状态集合T中加入第一状态st+n-1
在一实施例中,所述处理单元1102,还用于当确定所述第三状态st+n+1不是在寻找到的第一个空操作之后的状态中首次出现的状态时,保持所述目标状态集合T不变。
综上所述,本发明的技术方案包括:在后续有状态动迁的情况下,将状态漂移的倒数第2个状态作为对目标状态的一个估计。在后续无状态动迁的情况下,将状态漂移的倒数第1个状态作为对目标状态的一个估计。在后续无状态漂移的情况下,将状态动迁序列中第1次出现的最后一个状态作为对目标状态的一个估计。由此,电子设备可以从用户的操作过程中学习用户操作电子设备所希望达到的目标状态,从而为设计能够自动操作电子设备的智能算法提供了目标状态。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (8)

1.一种信息处理方法,应用于电子设备,所述电子设备设置有初始化为空集的目标状态集合T,其特征在于,所述方法包括:
检测所述电子设备的状态;
当检测到所述电子设备的状态从第二状态st+n转移到第三状态st+n+1,且确定导致本次状态转移的第二动作at+n不是空操作时,从所述目标状态集合T中去除所述第二状态st+n,所述空操作是指用户没有对所述电子设备进行操作;
当确定导致上次状态转移的第一动作at+n-1不是空操作时,从所述第二动作at+n向前寻找第一个空操作;
当确定所述第三状态st+n+1是在寻找到的第一个空操作之后的状态中首次出现的状态时,在所述目标状态集合T中加入所述第三状态st+n+1
将所述目标状态集合T中的状态确定为目标状态。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当确定所述第二动作at+n是空操作时,在所述目标状态集合T中加入所述第三状态st+n+1,并从所述目标状态集合T中去除所述第二状态st+n
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当确定所述第一动作at+n-1是空操作时,在所述目标状态集合T中加入第一状态st+n-1
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当确定所述第三状态st+n+1不是在寻找到的第一个空操作之后的状态中首次出现的状态时,保持所述目标状态集合T不变。
5.一种电子设备,其特征在于,所述电子设备设置有初始化为空集的目标状态集合T,所述电子设备包括:
检测单元,用于检测所述电子设备的状态;
处理单元,用于当检测到所述电子设备的状态从第二状态st+n转移到第三状态st+n+1,且确定导致本次状态转移的第二动作at+n不是空操作时,从所述目标状态集合T中去除所述第二状态st+n,所述空操作是指用户没有对所述电子设备进行操作;当确定导致上一次状态转移的第一动作at+n-1不是空操作时,从所述第二动作at+n向前寻找第一个空操作;当确定所述第三状态st+n+1是在寻找到的第一个空操作之后的状态中首次出现的状态时,在所述目标状态集合T中加入所述第三状态st+n+1
确定单元,用于将所述目标状态集合T中的状态确定为目标状态。
6.根据权利要求5所述的电子设备,其特征在于,所述处理单元,还用于当确定所述第二动作at+n是空操作时,在所述目标状态集合T中加入所述第三状态st+n+1,并从所述目标状态集合T中去除所述第二状态st+n
7.根据权利要求5所述的电子设备,其特征在于,所述处理单元,还用于当确定所述第一动作at+n-1是空操作时,在所述目标状态集合T中加入第一状态st+n-1
8.根据权利要求5所述的电子设备,其特征在于,所述处理单元,还用于当确定所述第三状态st+n+1不是在寻找到的第一个空操作之后的状态中首次出现的状态时,保持所述目标状态集合T不变。
CN201410645826.3A 2014-11-12 2014-11-12 一种信息处理方法和电子设备 Active CN105589742B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410645826.3A CN105589742B (zh) 2014-11-12 2014-11-12 一种信息处理方法和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410645826.3A CN105589742B (zh) 2014-11-12 2014-11-12 一种信息处理方法和电子设备

Publications (2)

Publication Number Publication Date
CN105589742A true CN105589742A (zh) 2016-05-18
CN105589742B CN105589742B (zh) 2019-03-26

Family

ID=55929344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410645826.3A Active CN105589742B (zh) 2014-11-12 2014-11-12 一种信息处理方法和电子设备

Country Status (1)

Country Link
CN (1) CN105589742B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113034165A (zh) * 2019-12-09 2021-06-25 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003187356A (ja) * 2001-12-21 2003-07-04 Daikin Ind Ltd 遠隔監視システム及びそれに用いられる遠隔監視用装置
CN102736649A (zh) * 2012-06-11 2012-10-17 清华大学 基于个性化人员冷热抱怨的环境温湿度控制方法及系统
CN104075402A (zh) * 2014-06-19 2014-10-01 珠海格力电器股份有限公司 智能空调控制方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003187356A (ja) * 2001-12-21 2003-07-04 Daikin Ind Ltd 遠隔監視システム及びそれに用いられる遠隔監視用装置
CN102736649A (zh) * 2012-06-11 2012-10-17 清华大学 基于个性化人员冷热抱怨的环境温湿度控制方法及系统
CN104075402A (zh) * 2014-06-19 2014-10-01 珠海格力电器股份有限公司 智能空调控制方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
廖冬,谷刚: "基于人脸识别技术的智能家电分类控制研究", 《工业控制计算机》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113034165A (zh) * 2019-12-09 2021-06-25 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置
CN113034165B (zh) * 2019-12-09 2023-10-31 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置

Also Published As

Publication number Publication date
CN105589742B (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
Li et al. Learning particle dynamics for manipulating rigid bodies, deformable objects, and fluids
Hafner et al. Learning latent dynamics for planning from pixels
Ebert et al. Self-Supervised Visual Planning with Temporal Skip Connections.
Stüber et al. Let's push things forward: A survey on robot pushing
CN106713083B (zh) 基于知识图谱的智能家居设备控制方法、装置及系统
CN113412177B (zh) 机器人控制装置、机器人系统以及机器人控制方法
Aqel et al. Intelligent maze solving robot based on image processing and graph theory algorithms
Bernstein et al. Reinforcement learning for computer vision and robot navigation
Raessa et al. Teaching a robot to use electric tools with regrasp planning
Wu et al. Learning and planning with a semantic model
WO2022217346A1 (en) Systems, devices, and methods for developing robot autonomy
CN105589742A (zh) 一种信息处理方法和电子设备
Wada et al. 3D object segmentation for shelf bin picking by humanoid with deep learning and occupancy voxel grid map
CN116852347A (zh) 一种面向非合作目标自主抓取的状态估计与决策控制方法
CN112922889B (zh) 风扇控制方法、风扇、设备、风扇控制系统及存储介质
Thompson et al. Cognitive Grasping and Manipulation of Unknown Object with Control Grip Force using Cyber Physical System Approach
Mishra et al. A stochastic optimization framework for source seeking with infotaxis-like algorithms
Felicioni et al. Goln: Graph object-based localization network
Zhang et al. Research on Robot Grasping Planning Method Based on Deep Reinforcement Learning
CN117828407B (zh) 双向跳跃存储的双阶段门控注意力时序分类方法及系统
Sefat et al. SingleDemoGrasp: Learning to Grasp From a Single Image Demonstration
McCourt et al. Passivity-Based Target Tracking Robust to Intermittent Measurements
Hu et al. Knolling bot 2.0: Enhancing Object Organization with Self-supervised Graspability Estimation
Zhang et al. Digital Twin enhanced reinforcement learning for integrated scheduling in automated container terminals
Coskun et al. Robotic Grasping in Simulation Using Deep Reinforcement Learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant