CN112425181B - 用于预测用户对泛在设备的动作的电子设备和方法 - Google Patents

用于预测用户对泛在设备的动作的电子设备和方法 Download PDF

Info

Publication number
CN112425181B
CN112425181B CN201980047058.2A CN201980047058A CN112425181B CN 112425181 B CN112425181 B CN 112425181B CN 201980047058 A CN201980047058 A CN 201980047058A CN 112425181 B CN112425181 B CN 112425181B
Authority
CN
China
Prior art keywords
model
time
sequence
electronic device
actions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980047058.2A
Other languages
English (en)
Other versions
CN112425181A (zh
Inventor
维贾雅·斯里尼瓦桑
金红霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN112425181A publication Critical patent/CN112425181A/zh
Application granted granted Critical
Publication of CN112425181B publication Critical patent/CN112425181B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种方法包括:对于来自多个模型的每个模型,基于在第一持续时间上的用户的数据集来评估模型预测精度。数据集包括具有基于电子设备交互的对应的环境的动作的序列。每个模型进行训练,以基于来自第一持续时间内的时间点之前的数据集的第一时间段上的第一行为序列、来自时间点之前的数据集的第二时间段上的第二行为序列以及时间点的环境来预测时间点的下一动作。基于模型的模型预测精度为用户基于域从多个模型中选择模型。在第二持续时间期间使用所选择的模型来推荐在稍后的时间将使用用户的电子设备发起的动作。

Description

用于预测用户对泛在设备的动作的电子设备和方法
技术领域
一个或多个实施例大体地涉及对泛在设备的动作,具体地,涉及基于环境感知循环模拟来预测对泛在设备的下一步动作。
背景技术
用户在诸如智能电话、智能扬声器和智能电视(TV)等泛在计算设备上执行诸如订购食物、观看电影和玩游戏等多种动作。泛在设备越来越多地收集详细的设备使用日志(诸如使用的应用或查看的内容)以及用户环境日志(诸如位置和体育活动);这些日志通常用于更好地使设备个性化,并向用户提供关于她的位置时间线、体育活动或设备使用模式的反馈,以提高她的数字幸福感。鉴于用于人口级别推荐系统的诸如GRU(门控循环单元)和LSTM(长-短期内存模型)的循环模型的最新进展,如何构建与环境特征恰当地相结合的个人循环模型来预测用户对泛在设备的动作是仍然未被探索的令人感到兴奋的方向。
发明内容
[问题的解决方案]
一个或多个实施例大体涉及基于多个模型的评估和环境感知循环模型的选择来预测对泛在设备的下一步动作。在一个实施例中,方法包括:对于来自多个模型的每个模型,基于在第一持续时间上的用户的数据集来评估模型预测精度。数据集包括具有基于电子设备交互的对应的环境的动作的序列。每个模型进行训练,以基于来自第一持续时间内的时间点之前的数据集的第一时间段上的第一行为序列、来自时间点之前的数据集的第二时间段上的第二行为序列以及时间点的环境来预测时间点的下一动作。基于模型的模型预测精度为用户基于域从多个模型中选择模型。在第二持续时间期间使用所选择的模型来推荐在稍后的时间将使用用户的电子设备发起的动作。
在一些实施例中,电子设备包括存储有指令的内存。至少一个处理器执行指令,指令包括过程,过程配置为:对于来自多个模型的每个模型,基于在第一持续时间上的用户的数据集来评估模型预测精度,其中:数据集包括具有基于电子设备交互的对应的环境的动作的序列,以及每个模型进行训练,以基于来自第一持续时间内的时间点之前的数据集的第一时间段上的第一行为序列、来自时间点之前的数据集的第二时间段上的第二行为序列以及时间点的环境来预测时间点的下一动作;基于模型的模型预测精度为用户基于域从多个模型中选择模型;以及在第二持续时间期间使用所选择的模型推荐在稍后的时间将使用电子设备发起的动作。
在一个或多个实施例中,一种包括程序的非暂时性处理器可读介质,程序在由处理器执行时执行一种方法,方法包括:对于来自多个模型的每个模型,基于在第一持续时间上的用户的数据集来评估模型预测精度。数据集包括具有基于电子设备交互的对应的环境的动作的序列。每个模型进行训练,以基于来自第一持续时间内的时间点之前的数据集的第一时间段上的第一行为序列、来自时间点之前的数据集的第二时间段上的第二行为序列以及时间点的环境来预测时间点的下一动作。基于模型的模型预测精度为用户基于域从多个模型中选择模型。在第二持续时间期间使用所选择的模型来推荐在稍后的时间将使用用户的电子设备发起的动作。
一个或多个实施例的这些和其它方面以及优点将从以下详细描述中变得显而易见,当结合附图给出时,详细描述通过示例的方式示出了一个或多个实施例的原理。
附图说明
为了更全面地理解实施例的性质和优点以及优选的使用模式,应该结合附图参考具体实施方式进行阅读,其中:
图1示出了根据一些实施例的通信系统的示意图;
图2示出了根据一些实施例的用于包括电子设备以及云或服务器环境的系统的架构的框图,该系统能够基于环境感知循环模拟处理单独地或组合地预测对泛在设备的下一步动作;
图3示出了根据一些实施例的用于个人环境感知循环模型和预测处理的选择的高级流程图;
图4示出了根据一些实施例的构成预测模型的基础的门控循环单元(GRU);
图5A示出了根据一些实施例的在输入处具有级联的环境GRU预测器;
图5B示出了根据一些实施例的在输出处具有级联的环境GRU预测器;
图5C示出了根据一些实施例的在输入和输出处具有级联的环境GRU预测器;
图6示出了根据一些实施例的将环境特征与最终GRU隐藏状态进行组合的联合训练网络架构;
图7示出了根据一些实施例的基于环境关注的循环预测器模型的架构;
图8示出了根据一些实施例的由基于环境关注的循环预测器模型通过GRU状态所捕获的最近和过去用户行为的杠杆化的短期行为和当前环境分配的关注权重的示例;
图9示出了根据一些实施例的用于基于环境感知循环模拟来预测对泛在设备的下一步动作的过程的框图;以及
图10是示出包括实现一个或多个实施例的计算系统的信息处理系统的高级框图。
具体实施方式
以下描述是出于说明一个或多个实施例的总的原理的目的而作出的,而不意味着限制本文所主张的发明概念。进一步地,本文所描述的特定特征可与各种可能的组合和排列中的每个中的其它所描述的特征组合使用。除非在本文中另有具体定义,否则所有的术语将被赋予包括说明书所暗示的含义以及本领域技术人员所理解的含义和/或在词典、论文等中所定义的含义的其可能的最广泛的解释。
应当注意的是,术语“中的至少一个”是指随后的元件中的一个或多个。例如,“a、b、c或其组合中的至少一个”可以单独地解释为“a”、“b”或“c”;或解释为“a”和“b”在一起的组合,解释为“b”和“c”在一起的组合,解释为“a”和“c”在一起的组合;或解释为“a”、“b”和“c”在一起的组合。
所提供的一个或多个实施例基于多个模型的评估和环境感知循环模型的选择来预测对泛在设备的下一步动作。在一些实施例中,方法包括:对于来自多个模型的每个模型,基于在第一持续时间上的用户的数据集来评估模型预测精度。该数据集包括具有基于电子设备交互的对应的环境的动作的顺序。每个模型进行训练,以基于来自第一持续时间内的时间点之前的数据集的第一时间段上的第一行为序列、来自时间点之前的数据集的第二时间段上的第二行为序列以及时间点的环境来预测时间点的下一动作。基于模型的模型预测精度为用户基于域从多个模型中选择模型。在第二持续时间期间使用所选择的模型推荐在稍后的时间将使用用户的电子设备发起的动作。
图1是根据一个实施例的通信系统10的示意图。通信系统10可以包括发起传出通信操作的通信设备(传送设备12)和通信网络110,该传送设备12可以用于发起和实施与通信网络110内的其它通信设备的通信操作。例如,通信系统10可以包括从传送设备12(接收设备11)接收通信操作的通信设备。尽管通信系统10可以包括多个传送设备12和接收设备11,但是为了简化附图,在图1中仅示出了传送设备12和接收设备11中的一个。
可以使用用于创建通信网络的任何合适的电路、设备、系统或其组合(例如,包括通信塔和电信服务器的无线通信基础设施)来创建通信网络110。通信网络110可以能够使用任何合适的通信协议来提供通信。在一些实施例中,通信网络110可以支持例如传统电话线、有线电视、Wi-Fi(例如,IEEE 802.11协议)、
Figure GDA0004126051390000041
高频系统(例如,900MHz、2.4GHz和5.6GHz通信系统)、红外、其它相对小范围的无线通信协议或其任意的组合。在一些实施例中,通信网络110可以支持无线电话和蜂窝电话以及个人电子邮件设备(例如,
Figure GDA0004126051390000051
)所使用的协议。这样的协议可以包括例如GSM、GSM加EDGE、CDMA、四频带和其它蜂窝协议。在另一示例中,长距离通信协议可以包括Wi-Fi和用于使用基于通信协议的VOIP、LAN、WAN或其它TCP-IP来进行或接收呼叫的协议。传送设备12和接收设备11当位于通信网络110内时,可以通过双向通信路径(诸如,路径13)或者通过两个单向通信路径进行通信。传送设备12和接收设备11都能够发起通信操作并接收发起的通信操作。
传送设备12和接收设备11可以包括用于发送和接收通信操作的任何合适的设备。例如,传送设备12和接收设备11可以包括但不限于包括语音助理(个人助理、虚拟助理等)的设备(诸如移动电话设备、电视(TV)系统、智能TV系统、相机、便携式摄像机、具有音频视频能力的设备、平板电脑、可佩戴设备、智能电器、智能相框以及能够无线地(借助于或不借助于无线使能附属系统)或经由有线路径(例如,使用传统的电话线)进行通信的任何其它设备)。通信操作可以包括任何适当形式的通信,包括例如语音通信(例如,电话呼叫)、数据通信(例如,数据和控制消息、电子邮件、文本消息、媒体消息)、视频通信或其组合(例如,视频会议)。
图2示出了用于系统100的架构的框图,该系统100能够基于使用电子设备120(例如,移动电话设备、TV系统、相机、便携式摄像机、具有音频视频能力的设备、平板电脑、平板设备、可佩戴设备、智能电器、智能相框、智能照明等)、云/服务器140或者电子设备120和云(例如,可配置计算系统资源和高层服务的共享池等)/服务器(例如,管理网络资源的计算机、设备或程序等)140的组合的环境感知循环模拟来执行对泛在设备的下一步动作的预测。传送设备12(图1)和接收设备11两者都可以包括电子设备120的一些或全部特征。在一些实施例中,电子设备120可以包括显示器121、麦克风122、音频输出123、输入机械装置124、通信电路125、控制电路126、相机128、处理和内存129、模型选择和动作处理130和/或131(用于在电子设备120上、在云/服务器140上、在电子设备120和云/服务器140的组合上进行处理;与通信电路125进行通信以利用云/服务器140来获得信息或提供其信息;并且可以包括对如下所描述的示例的任意处理但不限于如下所描述的示例的任意处理)以及任何其它合适的组件。提供应用1-N 127并且应用1-N 127可以从云/服务器140、通信网络110(图1)等中获得,其中N是等于或大于1的正整数。
在一些实施例中,音频输出123、显示器121、输入机械装置124、通信电路125和麦克风122所采用的所有应用可以互连并且由控制电路126进行管理。在一个示例中,能够向其他调谐设备传送音乐的手持音乐播放器可以结合到电子设备120中。
在一些实施例中,音频输出123可以包括用于向电子设备120的用户提供音频的任何合适的音频组件。例如,音频输出123可以包括内置到电子设备120中的一个或多个扬声器(例如,单声道或立体声扬声器)。在一些实施例中,音频输出123可以包括远程联接到电子设备120的音频组件。例如,音频输出123可以包括可以通过电线(例如,通过插孔联接到电子设备120)或无线地(例如,
Figure GDA0004126051390000061
头戴式耳机或
Figure GDA0004126051390000062
小型耳机)联接到通信设备的小型耳机、头戴式耳机或耳塞式耳机。
在一些实施例中,显示器121可以包括用于提供用户可见的显示的任何合适的屏幕或投影系统。例如,显示器121可以包括包含在电子设备120中的屏幕(例如,LCD屏幕、LED屏幕、OLED屏幕等)。作为另一示例,显示器121可以包括用于在远离电子设备120(例如,视频投影仪)的表面上提供内容的显示的可移动显示器或投影系统。显示器121可操作以在控制电路126的指导下显示内容(例如,关于通信操作的信息或关于可用媒体选择的信息)。
在一些实施例中,输入机械装置124可以是用于向电子设备120提供用户输入或指令的任何合适的机械装置或用户接口。输入机械装置124可以采用各种形式,诸如按钮、按键、刻度盘、点击轮、鼠标、可视指针、遥控器、一个或多个传感器(例如,相机或可视传感器,光传感器,接近传感器等)或触摸屏。输入机械装置124可以包括多触摸屏。
在一些实施例中,通信电路125可以是可操作以连接到通信网络(例如,图1的通信网络110)并将通信操作和媒体从电子设备120传送到通信网络内的其它设备的任何合适的通信电路。通信电路125可操作以与使用任何合适的通信协议(诸如例如Wi-Fi(例如IEEE802.11协议)、
Figure GDA0004126051390000071
高频系统(例如900MHz、2.4GHz和5.6GHz通信系统)、红外、GSM、GSM加EDGE、CDMA、四频带和其它蜂窝协议、VOIP、TCP-IP或任何其它合适的协议)的通信网络相接合。
在一些实施例中,通信电路125可操作以使用任何合适的通信协议来创建通信网络。例如,通信电路125可以使用短距离通信协议来创建短距离通信网络以连接到其它通信设备。例如,通信电路125可操作以使用
Figure GDA0004126051390000072
协议来创建本地通信网络,以将电子设备120与
Figure GDA0004126051390000073
小型耳机联接。
在一些实施例中,控制电路126可操作以控制电子设备120的操作和性能。控制电路126可以包括例如处理器、总线(例如,用于向电子设备120的其它组件发送指令)、内存、存储器或用于控制电子设备120的操作的任何其它合适的组件。在一些实施例中,一个或多个处理器(例如,在处理和内存129中)可以驱动从用户接口接收的显示和处理输入。内存和存储器可以包括例如高速缓存、闪存、ROM和/或RAM/DRAM。在一些实施例中,内存可以特别地专用于存储固件(例如,用于诸如操作系统、用户接口功能和处理器功能的设备应用)。在一些实施例中,内存可操作以存储与电子设备120执行通信操作(例如,保存与通信操作有关的联系信息或存储与用户选择的不同媒体类型和媒体项有关的信息)所利用的其它设备有关的信息。
在一些实施例中,控制电路126可操作以执行在电子设备120上实现的一个或多个应用的操作。可以实现任何适当数量或类型的应用。尽管下面的讨论将列举不同的应用,但是应当理解的是,应用中的一些或所有可以组合成一个或多个应用。例如,电子设备120可包括应用1-N 127,应用1-N 127包括但不限于:自动语音识别(ASR)应用、OCR应用、对话应用、地图应用、媒体应用(例如,QuickTime、MobileMusic.app或MobileVideo.app)、社交网络应用(例如,
Figure GDA0004126051390000081
等)、日历应用(例如,用于管理事件、约会等的日历)、互联网浏览应用、推荐系统应用等。在一些实施例中,电子设备120可以包括可操作以执行通信操作的一个或多个应用。例如,电子设备120可以包括消息传递应用、电子邮件应用、语音邮件应用、即时消息传递应用(例如,用于聊天)、视频会议应用、传真应用或用于执行任何合适的通信操作的任何其它合适的应用。
在一些实施例中,电子设备120可以包括麦克风122。例如,电子设备120可以包括麦克风122,以允许用户在通信操作期间或者作为建立通信操作的手段或者作为使用物理用户接口的替代来传送音频(例如,语音音频)以对应用1-N 127进行语音控制和导航。麦克风122可以结合在电子设备120中,或者可以远程地联接到电子设备120。例如,麦克风122可以结合在有线耳机中,麦克风122可以结合在无线小型耳机中,麦克风122可以结合在遥控设备中等。
在一些实施例中,相机128包括一个或多个相机设备,相机设备包括用于捕获静态和视频图像的功能、编辑功能、用于发送、共享(等)照片/视频等的通信互操作性。
在一些实施例中,电子设备120可以包括适于执行通信操作的任何其它组件。例如,电子设备120可以包括用于联接到主机设备的电源、端口或接口、辅助输入机械装置(例如,ON/OFF开关)或任何其它合适的组件。
在一些实施例中,提前预测用户任务具有多种强大的应用,应用包括更为与环境相关的目标广告、设备上的方便的任务快捷键以及内容或应用预加载以减少延迟。用户在诸如电子设备120(图2)的泛在设备上执行各种日常动作,电子设备120包括但不限于智能电话、智能TV、智能扬声器等。例如,人们使用智能电话用于多样的动作,诸如玩游戏、浏览信息、订购食物、获得方向以及在社交媒体上进行通信。类似地,人们使用智能TV来玩游戏和观看多样的内容(诸如每日新闻、惊悚电影、现场体育、每周的喜剧表演等)。泛在设备越来越多地收集详细的设备使用日志(诸如使用的应用或查看的内容)以及用户环境日志(诸如位置和体育活动);这些日志通常用于使设备个性化,并向用户提供关于她的位置时间线、体育活动或设备使用模式的反馈,以提高她的数字幸福感。
准确预测用户对泛在设备的下一动作是对于更为与环境相关的推荐和目标广告的优秀输入;例如,当用户可能观看动作电影时推荐最近的热门动作电影,或者当用户可能在不久的将来订购食物时推荐餐饮应用。基于对用户的下一动作的预测,可以执行应用、游戏和内容的预测性的预加载以减少延迟;例如,如果预测到用户可能玩特定游戏,则预加载特定游戏以减少几秒的加载时间。动作预测还可以用于基于对用户当前动作需要的预测而向最终用户显示方便的预测动作快捷键,从而减少在搜索和寻找相关动作快捷键时涉及的用户工作。上述应用的关键要求是个人环境感知循环模型和预测处理实现高预测精度。
对用户的下一动作的准确预测还可以帮助解决语音助理对用户的话语的歧义。例如,当用户询问到"Mike's"的方向时,动作预测可以帮助消除"Mike's"是指用户的朋友还是汉堡连锁餐厅的歧义。例如,基于用户过去的行为和当前的环境(例如,在星期六工作的下午两点),个人环境感知循环模型和预测处理预测用户可能在搜索到他的朋友Mike的家的方向,并解析"Mike"指的是用户的朋友。在不同的环境(例如,工作日下午8点)中,个人环境感知循环模型和预测处理预测用户可能在为晚餐搜索到"Mike's"汉堡餐厅的方向,并解析"Mike's"指的是汉堡餐厅。
图3示出了根据一些实施例的用于个人环境感知循环模型和预测处理300的选择的高级流程图。在一些实施例中,个人环境感知循环模型和预测处理300包括一系列三个主要类别的环境感知循环模型320:在每个循环步骤中结合环境的环境门控循环单元GRU模型510(也参见图5A)、525(也参见图5B)和530(也参见图5C),联合训练模型600(也参见图6)方法以及建立在联合训练模型600方法之上的基于环境关注的循环预测器700(也参见图7)。这三个类别的模型提供了需要与每个单独用户可得的行为复杂度和训练数据匹配的不同程度的模型复杂度和参数数量。因此,与旨在在人口数据集上设计单个最佳执行推荐模型的传统人口级别推荐系统不同,在一些实施例中,个人环境感知循环模型和预测处理300为每个用户和预测目标选择最佳个人环境感知循环模型。总的来说,基于环境关注的循环预测器700模型在多个预测目标和数据集上对于各个用户被最频繁地选择,并且还提高了预测模型的可解释性。与旨在设计单个最佳执行循环模型的传统的基于人口的推荐器算法不同,个人环境感知循环模型和预测处理300训练一系列三个类别的环境感知循环模型,并且模型选择器340(使用当前环境和过去动作350)为每个用户和预测目标(下一动作概率370)选择最佳个人(环境感知循环)模型360。在一个或多个实施例中,输入到个人环境感知循环模型和预测处理300的训练数据包括个人用户数据305、时间307上的环境信息310(例如,位置、活动、当前时间等)和动作(例如,使用智能电话应用,观看电视频道等)311。
在一些实施例中,环境感知循环模型320中的每个提供了组合短期顺序行为、长期顺序行为和当前环境以预测用户的下一动作的独特方法。例如,基于环境关注的循环预测器700使用当前环境来决定分配给短期和长期用户行为多少重要性。联合训练模型600将当前环境与用户的短期和长期顺序行为的表示相结合,以预测用户的下一动作。如另一示例,环境GRU模型510、525和530中的每个都将环境信息添加到模拟用户的短期和长期行为的循环网络的每个步骤。
在一些实施例中,对于每个用户,环境感知循环模型320中的每个基于其对每个用户的相互作用来调整第一行为序列(例如,对于第一时间窗口:环境信息310、动作311)、第二行为序列(例如,对于第二时间窗口:环境信息310、动作311)和时间点的环境之中的重要性。例如,对于用户A,用户的下一动作可以主要由当前环境来确定;因此,环境感知循环模型320在预测用户的下一动作时为当前环境分配高重要性。例如,对于另一用户B,可以基于环境X中的短期行为,基于环境Y中的长期行为,以及仅基于环境Z中的当前环境来确定用户的下一动作。环境感知循环模型320在环境X、Y和Z中的每个中分配适当的重要性,以精确地预测用户的下一动作。此外,不断地更新环境感知循环模型320以反映用户行为的变化。例如,对于用户A,在一些实施例中个人环境感知循环模型和预测处理300可以基于初始行为将高重要性分配给当前环境。随着时间的推移,为了反映用户A的行为的变化,在一些实施例中,个人环境感知循环模型和预测处理300可以将更高的重要性分配给短期行为。
在个人环境感知循环模型和预测处理300的一些实施例中,环境感知循环模型320的三个主要类别不是详尽的,并且替代实施例可以包括诸如模型类别4和5的附加的个人(预测)模型380,其可以训练并输入到模型选择器340。例如,在模型类别4中,代替使用GRU循环更新,可以使用LSTM模型来替代。如另一示例实施例,在模型类别5中,代替基于环境关注的循环预测器700模型(也参见图7)中的循环连接,可以采用最后S个用户动作嵌入上的环境关注优先级模型。在实践中,当在三个主要类别的环境感知循环模型320之间进行选择时,大大提高了预测精度。随着添加附加的预测模型,当考虑训练其它类似预测模型所需的附加的处理时,可以忽略在提高预测精度方面的附加益处。因此,一个或多个实施例集中于三个主要类别的环境感知循环模型320。
在一个或多个实施例中,个人环境感知循环模型和预测处理300显著提高了用于预测用户对泛在设备的动作的现有基准方法的预测精度。对于TV预测任务,尽管对于非平凡比例的用户来说环境GRU模型510、525和530效果最好,但是基于环境关注的循环预测器700模型是最平常优选的。对于智能电话预测任务,即使基于环境关注的循环预测器700模型通常是最优选的,但是对于多个用户,模型选择器340选择联合训练模型600和环境GRU模型510、525和530。在一些实施例中,使用对基本环境循环架构的几个简单修改来解决个人动作预测中的稀疏训练数据问题。在一个或多个实施例中,使用联合训练方法来克服环境GRU模型510、525和530对一些用户在处理用于动作预测的低容量个人训练数据和高维环境特征时的局限性。在一些实施例中,基于环境关注的循环预测器700基于下一动作概率370和数据集(例如,当前环境和过去动作350)在多个预测目标上实现了最佳精度,并且还提高了个人(环境感知循环)模型360的可解释性。
在一些实施例中,这三个主要类别的环境感知循环模型320提供了需要与每个单独用户可得的行为复杂度和训练数据匹配的不同程度的模型复杂度和参数数量。因此,与旨在在人口数据集上设计单个最佳执行推荐模型的传统人口级别推荐系统不同,个人环境感知循环模型和预测处理300基于下一动作概率370为每个用户和预测目标选择最佳个人(环境感知循环)模型360。在一个或多个实施例中,三个主要类别的环境感知循环模型320使用多个超参数(例如,来自基于环境关注的循环预测器700模型的GRU状态|ht|的维度(例如,50、100、150或200)、环境嵌入向量
Figure GDA0004126051390000121
的维度(例如,15、50或100)、会话长度S(例如,15、30、50或70)和潜在向量长度L(例如,50、100或150))。为每个超参数探索多个值,并且为每个模型和用户选择实现最高预测精度的超参数。
在一些实施例中,当在设备(例如,图2的电子设备120)上实现环境GRU模型510、525和530时,(环境信息310、动作311)对的连续流序列输入到所选择的环境GRU模型,其中动作311可指代用户使用智能电话应用或观看TV频道。例如,在智能电话应用预测应用中,随着连续的对流(环境信息310,动作311)输入到选择的环境GRU模型,环境GRU模型自动决定如何最好地使用短期应用使用序列(例如,最后3个应用)和长期应用使用行为(例如,最后使用的30个应用)来预测用户的下一个应用。由于选择的环境GRU模型自动处理如何组合短期和长期用户行为来预测下一动作,因此个人环境感知循环模型和预测处理300不需要明确地固定任何短期或长期窗口长度超参数。在一个或多个实施例中,对于联合训练模型600(也参见图6)和基于环境关注的循环预测器700模型(也参见图7),个人环境感知循环模型和预测处理300使用会话长度超参数S来确定在每个预测步骤输入到环境感知循环模型的对序列(环境信息310、动作311)的最大长度。在一个示例实施例中,将会话长度超参数S设置为50(即,最后50个动作)对于大多数用户和预测目标实现了高预测精度。例如,对于智能电话应用预测应用,环境感知循环模型(联合训练模型600和基于环境关注的循环预测器700模型)自动地决定如何使用短期用户行为(例如,最后3个应用等)和长期用户行为(例如,使用的最后40个应用等)来预测用户的下一个应用。与环境GRU模型510、525和530类似,对于循环模型为环境感知循环模型(联合训练模型600和基于环境关注的循环预测器700模型),由于循环模型为环境感知循环模型自动决定如何组合短期和长期用户行为来预测下一动作,因此不需要明确地固定任何短期或长期窗口超参数;对于联合训练模型600和基于环境关注的循环预测700模型,个人环境感知循环模型和预测处理300仅凭经验固定模型在每个预测步骤观察到的过去S个动作的最大长度。
图4示出了根据一些实施例的构成预测模型的基础的基础GRU400。在一个或多个实施例中,GRU 400的隐藏状态ht输入到softmax激活函数410,以计算序列中下一项的概率分布pt+1。输入是成对动作环境输入的时间有序序列A={(at,ct)},t=1...T。其中,at表示用户在时间t的独热编码动作类别,以及ct表示用户在时间t的独热编码环境特征向量。动作at的示例是发起食物递送应用,以及环境向量ct的示例是[在家,下午9至10点,工作日,星期一,连接到Wi-Fi网络'Orange']。在给定此输入的情况下,目标是模拟用户在任意时刻t的动作at的概率,给定的环境ct以及用户的当前环境和过去动作350{(a<t,c<t)}。因此,一个目标是使用三个主要类别的环境感知循环模型320来模拟条件概率分布P(at|ct,a<t,c<t)。
在一个或多个实施例中,GRU 400基于输入项的序列{xt},t=1…T输出隐藏状态的序列{ht},t=1...T。GRU门基本上学习什么时候以及花费多少来更新单元的隐藏状态。在一些实施例中,隐藏状态ht通常输入到softmax激活函数410,以在下一项xt+1上输出概率分布pt+1。作为参考,下面的等式1到4表示GRU 400如何从输入xt和之前的隐藏状态ht-1计算隐藏状态ht。复位门rt如下给定:
[数学式1]
rt=σ(Wrxt+Urht-1)
如下计算候选激活
Figure GDA0004126051390000141
[数学式2]
Figure GDA0004126051390000142
计算更新门为:
[数学式3]
zt=σ(Wzxt+Uzt-1)
最后,GRU 400的激活计算为之前的激活ht-1和候选激活
Figure GDA0004126051390000143
之间的线性内插:
[数学式4]
Figure GDA0004126051390000144
在一些实施例中,softmax激活函数410执行下面的等式5和等式6中所示的两个操作。首先,softmax激活函数410使用加权矩阵Wo∈RHХI将输入隐藏状态转换为期望的输出维度,其中H是隐藏状态的维度,而I表示不同的输入项的数量。其次,softmax激活函数410应用softmax激活函数来将输出变换为序列中下一预测项上的概率分布pt+1。
[数学式5]
Figure GDA0004126051390000145
[数学式6]
Figure GDA0004126051390000146
图5A示出了根据一些实施例的在输入处具有级联的环境GRU模型510。一种广泛使用的在诸如GRU的循环网络的每个步骤中结合环境的技术是将环境向量在输入到GRU之前级联到输入项向量。一般地,简单地将环境向量级联到输入项向量显著增加了到GRU的输入向量的大小;这种方法在给出大规模的训练数据的情况下工作良好。然而,对于个性化用户动作预测,各种用户环境和动作的训练数据覆盖是稀疏的。为了解决这个问题,在一些实施例中,对传统的环境循环模型进行几个修改,从而得到环境GRU模型510。首先,将时间t的输入动作at映射为低维嵌入向量
Figure GDA0004126051390000151
这比使用输入动作at的稀疏独热编码执行得更好。其次,代替直接级联独热编码稀疏环境向量ct+1,将ct+1输入到多层感知器MLP单元520,以将稀疏环境向量缩减为低维密集特征表示
Figure GDA0004126051390000152
ct+1的长度通常大于100,而效果最好的
Figure GDA0004126051390000153
的长度仅为15。在一个或多个实施例中,实现了没有任何隐藏层的简单MLP单元520,并且
Figure GDA0004126051390000154
如下计算:
[数学式7]
Figure GDA0004126051390000155
其中,ct+1∈RC是稀疏独热编码输入环境向量,
Figure GDA0004126051390000156
表示变换后的密集环境特征表示,Wc∈RnХC是加权矩阵,bc∈Rn是偏置向量。
在一些实施例中,设置f(.)为S形激活函数在预测精度方面表现最好。因此,输入到GRU 400的是输入动作嵌入和密集环境特征表示的级联
Figure GDA0004126051390000157
为了进一步解决用于个性化动作预测的稀疏训练数据问题,观察到将L2-正则化添加到用于GRU 400的损失函数显著地提高了预测精度。特别地,在一些实施例中,利用对于GRU加权矩阵添加的正则化项来实现下面示出的分类交叉熵损失函数。
[数学式8]
Figure GDA0004126051390000158
在一些实施例中,在等式8中,at+1是环境ct+1中的独热编码的地面真值用户动作向量,pt+1是由环境GRU模型510输出的预测的用户动作向量,K是训练示例的数目,l是可能的用户动作的数目,λ是正则化常数,以及θ表示来自等式1至等式4的GRU加权矩阵Wr、Wh和Wz的L2范数的和。通过上述修改观察到的是,与级联原始输入动作和环境独热编码向量的简单模型相比,环境GRU模型510显著地实现了更高的预测精度。此外,观察到的是,环境GRU模型510仅示出了通过将环境特征表示与输入到GRU 400的输入动作嵌入输入进行级联而在GRU400的每个步骤结合环境的一个示例。根据一些实施例,根据如何将环境结合到GRU 400中来实现两个附加的环境GRU模型(图5B中的环境GRU模型525和图5C中的环境GRU模型530)。
图5B示出了根据一些实施例的在输出处具有级联的环境GRU模型525。在一个或多个实施例中,考虑了这样的GRU模型,其中只有动作嵌入输入到GRU 400,并且环境特征表示与由GRU 400输出的隐藏状态ht级联;该级联的向量
Figure GDA0004126051390000161
然后输入到softmax激活函数410以输出动作预测向量pt+1
图5C示出了根据一些实施例的在输入和输出处具有级联的环境GRU预测器530。在一些实施例中,考虑了第三GRU模型(环境GRU预测器530),其中环境特征表示是级联到输入部分和级联到由GRU400输出的隐藏状态,组合了环境GRU模型510(图5A)和环境GRU模型525(图5B)的GRU架构。在一些实施例中,效果最好的环境GRU方法的变体取决于所考虑的用户和预测目标。对于一些用户和预测目标所观察到的是,将环境级联到GRU输入效果最好(环境GRU模型510);对于其它用户,将环境级联到输入和输出模块两者效果最好(环境GRU预测器530)。这种观察结果背后的直觉是,这些模型中的每个都提供了需要与在每个用户的个人数据集中观察到的用户行为的复杂度和变化匹配的不同级别的模型复杂度和模型参数的数目。
图6示出了根据一些实施例将环境特征与最终GRU隐藏状态进行组合的联合训练模型600。在一个或多个实施例中,最终GRU隐藏状态ht表示基于之前的S个动作的用户的顺序行为,其中S表示会话长度超参数。在给出大规模训练数据的情况下,在GRU网络的每一步骤将环境向量与输入动作向量级联效果很好。然而,对于个性化动作预测,不同用户动作和环境的训练数据覆盖是稀疏的。为了解决这个问题,在一些实施例中,动作和环境数据变换成低维特征嵌入,并将正则化添加到GRU 400加权矩阵。在一个或多个实施例中,为了解决稀疏数据问题,将联合训练模型600杠杆化。代替在GRU处理的每个步骤中将环境级联到独热编码动作向量,GRU 400进行训练,以仅在S个输入用户动作的序列上进行操作(其中S是会话长度超参数)。在处理S个输入动作的序列之后,GRU 400的最终隐藏状态ht用作用户的顺序行为的编码。这个最终隐藏状态ht然后与环境向量ct+1级联。级联的向量[ht;ct+1]然后输入到softmax激活函数410,以在时间t+1的用户动作上输出概率分布pt+1。必须注意的是,联合训练模型600与组合GRU的输出预测和环境预测器的整体方法不同。
与环境GRU模型510(图5A)、525(图5B)和530(图5C)不同,联合训练模型600不需要任何L2-正则化或者独热编码输入动作和环境向量到密集特征嵌入的变换来实现高预测精度。这是因为联合训练模型600固有地降低了环境GRU模型的复杂度,环境GRU模型在GRU400的每个步骤中级联环境。联合训练模型600方法的一个缺点是它仅使用环境向量ct+1,并且在进行预测pt+1时不结合先前的环境c<(t+1)。尽管存在这样的缺点,但联合训练模型600方法是移动用户的非平凡比例的最佳模型;这样的一个原因是:用于移动用户的环境向量更复杂和高维,包括不同的地点和活动特征。联合训练模型600方法有效地减轻了由这种高维环境输入特征和稀疏训练数据引起的过拟合问题。在一些实施例中,对于诸如电视内容类型或具有低维时间环境特征(诸如一天中的时间和一周中的一天)的频道预测的问题,在每个步骤中结合环境的GRU模型比联合训练模型600方法效果更好。
图7示出了根据一些实施例的基于环境关注的循环预测器700模型的架构。在一些实施例中,基于环境关注的循环预测器700模型构建在联合训练模型600(图6)方法之上,以进一步提高用于个性化动作预测的预测精度。在联合训练模型600方法中,由GRU 400产生的最终隐藏状态ht提供用户在过去的S个动作上的顺序行为的概括表示。在许多实际场景中,用户的下一动作at+1不必受最近的用户状态ht或状态的集合的影响;更确切地,下一动作可以基于用户状态根据当前环境和过去状态来早几个时间步骤确定。例如,考虑以下动作的序列:用户(例如,"Alice")在
Figure GDA0004126051390000171
上查找餐厅(例如,"Vito's"),执行其他智能电话动作(诸如给朋友发消息、浏览餐厅网站、检查电子邮件)以及然后在她开始驾驶之后在她的智能电话上开启指示Vito's的地图导航应用。在该示例中,地图导航动作最受Alice在几个较早的时间步骤在
Figure GDA0004126051390000172
上浏览Vito's的动作以及当前驾驶环境的影响。有效的动作预测过程应该能够基于用户的当前环境来考虑这样的长期动作依赖性。理论上,诸如GRU和LSTM的循环模型可以处理这样的长期环境动作依赖性。然而,在实践中,对于长的时间序列,关注模型已经被广泛和有效地用于提高循环模型的精确度。如在基于环境关注的循环预测器700模型中所看到的,一个关键新颖性是环境向量用作附加输入以确定用户过去的GRU状态上的关注权重。在上述示例中,基于环境关注的循环预测器700模型另外使用当前驾驶环境来将更高的关注权重分配给当Alice在
Figure GDA0004126051390000181
上查找Vito's时的Alice的状态。
在一些实施例中,基于环境关注的循环预测器700模型实现了最高的预测精度,并且是针对多个预测目标的在用户之间最广泛选择的预测模型。随着K(期望的前K个预测动作的数量)的增加,为用户更频繁地选择环境关注的循环预测器700模型;来自过去的多个时间步骤的对用户状态的环境关注提高了由基于环境关注的循环预测器700模型输出的预测动作的分级列表的多样性和准确性。除了提高精确度之外,基于环境关注的循环预测器700模型通过提供对用户过去状态最影响当前动作预测的更深入的见解,使得循环模型更加能够解释。
在一些实施例中,为了预测在时间步骤t+1的用户动作,基于环境关注的循环预测器700模型将过去/之前的S个用户动作(at-(s-1)至at)输入到GRU 400,其中S是会话长度超参数。GRU 400产生与过去的S个动作对应的隐藏状态ht-(s-1)到ht的序列。在一个或多个实施例中,作为第一步骤,为每个隐藏状态hj计算环境关注权重βt,j,其中j表示从t-(S-1)到t的时间步骤。为了计算βt,j,基于最终隐藏状态ht、在时间步骤j的隐藏状态hj以及当前环境ct+1如下计算第一qt,j
[数学式9]
qt,j=vTσ(D1hj+D2ht+D3ct+1)
在等式9中,加权矩阵D1∈RLХH、D2∈RLХH以及D3∈RLХC用于将隐藏状态向量hj、ht和环境向量ct+1变换为共同的维数为L的潜在空间,其中H表示GRU隐藏状态的维数,以及C表示环境向量输入的维数。矩阵v∈RL用于将长度为L的潜在向量变换为原始关注权重qt,j。通过对加权qt,j应用softmax激活函数410来计算最终关注权重βt,j,如下所示:
[数学式10]
Figure GDA0004126051390000191
在一些实施例中,使用β中的权重,基于环境关注的循环预测器700模型使用等式11计算用户顺序行为的关注加权隐藏表示
Figure GDA0004126051390000192
关注加权表示通过关注与用户的下一动作预测最相关的最近或过去的隐藏状态来改善动作预测。
[数学式11]
Figure GDA0004126051390000193
在一些实施例中,通过将最终隐藏状态ht、关注权重隐藏状态
Figure GDA0004126051390000194
以及环境向量ct和ct+1进行级联来计算级联的向量
Figure GDA0004126051390000195
最后将该级联向量输入到softmax激活函数410,以输出用户的下一动作的概率分布pt+1。注意到的是,除了级联ct+1之外,级联ct还通过添加由联合训练模型600(图6)方法忽略的附加的之前环境状态信息来显着地提高对一些用户的预测精度。由于级联向量
Figure GDA0004126051390000196
的高维数,在一个或多个实施例中,基于环境关注的循环预测器700模型的更简单的变体使用
Figure GDA0004126051390000197
和[ct;ct+1;ht]的级联向量来减轻过拟合。对于每个用户,基于为每个目标域(例如,TV内容域、机器设置域、语音辅助语言域、电子设备120应用域等)和用户选择最佳模型的总体方法来选择具有最佳预测精度的模型变体。
图8示出了根据一些实施例的由基于环境关注的循环预测器700模型(图7)通过GRU状态捕获的最近和过去用户行为(用户810在时间307上发起的最后20个应用)的杠杆化的短期行为和当前环境分配的关注权重820的示例800。由于环境关注模型在用户的过去状态上提供关注权重,因此这些关注权重(例如,示例800中的关注权重820)在解释所确定的预测背后的原因中是有用的。示例800示出了用于对样本用户进行预测的POKEMON
Figure GDA0004126051390000198
应用的示例关注权重820。可以观察到在较早的几个时间步骤中在消息传送动作上的高关注权重。该特定用户通常在玩POKEMON
Figure GDA0004126051390000199
之前进行协调以及给朋友发消息。
在一个或多个实施例中,可以采用环境感知循环模型320(图3),例如,向/为用户建议或执行诸如洗衣机快速设置的动作,而不是要求用户手动改变洗衣机设备中的多种设置(例如,手动选择多个(例如,多达六个)单独设置,诸如洗衣机温度、旋转循环、漂洗循环、以及进程设置)。因此,一些实施例基于每个用户的环境和短期/长期行为来预测优选的洗衣机设置。此外,为每个用户选择最佳模型和学习窗口。
在一些实施例中,为每个用户和预测域选择最佳模型。在替换实施例中,可以采用不同的整体方法来组合来自图3所示的、用于每个用户的各种个人动作预测模型的预测,诸如:(i)多数投票,或者(ii)使用附加神经网络层以基于来自每个个人动作预测模型的预测输出来预测下一动作的堆叠预测方法。
图9示出了根据一些实施例的用于基于环境感知循环模拟来预测对泛在设备的下一步动作的过程900的框图。在一些实施例中,过程900的框910为来自多个模型(例如,环境GRU模型510(图5A)、525(图5B)、530(图5C),联合训练模型600(图6),基于环境关注的循环预测器700模型(图7)等)的每个模型提供了基于用户在第一持续时间上的数据集来评估模型预测精度。数据集包括具有基于电子设备(例如,电子设备120,图2,系统1000,图10等)交互的对应的环境(例如,环境信息310,图3)的动作的序列(例如,动作311,图3)。每个模型进行训练,以基于来自第一持续时间内的时间点之前的数据集的第一时间段上的第一行为序列、来自时间点之前的数据集的第二时间段上的第二行为序列以及时间点的环境来预测时间点的下一动作。在框920中,过程900基于模型的模型预测精度为用户基于域从多个模型中选择模型。在框930中,过程900在第二持续时间期间使用所选择的模型推荐在稍后的时间将使用电子设备发起的动作。
在一些实施例中,过程900还可以包括评估模型预测精度,评估模型预测精度还包括观察在时间点发生的实际动作,并基于预测的下一动作与实际动作之间的差异来计算模型的模型预测精度。在一个或多个实施例中,基于用户的当前环境来确定域。在一些实施例中,多个模型中的每个模型提供组合第一行为序列、第二行为序列和时间点的环境的区别过程。
在一个或多个实施例中,在过程900中多个模型中的每个模型基于第一行为序列、第二行为序列和时间点的环境对每个用户的相互作用来调整第一行为序列、第二行为序列和时间点的环境之中的重要性。在一些实施例中,过程900可以包括基于下一动作来解决电子设备的语音助理对用户的话语的歧义。
在一些实施例中,在过程900中,该动作包括执行多个电子设备设置的选择(例如,设置六(6)个洗衣机设置、打开食物递送应用、放置和支付食物等)。在一个或多个实施例中,下一动作不同于具有与当前环境数据匹配的环境数据的时间段的任何行为。
图10是示出包括实现一个或多个实施例的计算系统的信息处理系统的示例性高级框图。系统1000包括一个或多个处理器1011(例如,ASIC、CPU等),并且还可以包括电子显示设备1012(用于显示图形、文本和其它数据)、主内存1013(例如,随机存取内存(RAM)、高速缓存设备等)、存储设备1014(例如,硬盘驱动器)、可移动存储设备1015(例如,可移动存储驱动器、可移动内存、磁带驱动器、光盘驱动器,其中存储有计算机软件和/或数据的计算机可读介质),用户接口设备1016(例如键盘、触摸屏、按键、定点设备)和通信接口1017(例如,调制解调器、无线收发器(例如Wi-Fi、蜂窝)、网络接口(例如,以太网卡)、通信端口或PCMCIA插槽和卡)。
通信接口1017允许通过互联网1050、移动电子设备1051、服务器1052、网络1053等在计算机系统和外部设备之间传送软件和数据。系统1000还包括通信基础设施1018(例如,通信总线、横杆或网络),上述设备1011至1017连接到通信基础设施1018。
经由通信接口1017传送的信息可以是能够由通信接口1017经由携带信号的通信链路接收的信号(诸如电子、电磁、光学或其它信号)的形式,以及可以使用有线或电缆、光纤、电话线、蜂窝电话链路、射频(RF)链路和/或其它通信信道来实现。
在电子设备(例如,图2的电子设备120)中的一个或多个实施例的一个实现中,系统1000还包括图像捕获设备1020(例如,相机128(图2))和音频捕获设备1019(例如,麦克风122(图2))。系统1000还可以包括应用处理或处理器,如MMS 1021、SMS 1022、电子邮件1023、社交网络接口(SNI)1024、音频/视频AV播放器1025、浏览器1026、图像捕获1027等。
在一些实施例中,系统1000包括模型选择和动作处理1030,其可以实现与所描述的关于如上所述的个人环境感知循环模型和预测处理300(图3)、GRU 400处理(图4)、环境GRU模型510(图5A)、525(图5B)、530(图5C)、联合训练模型600处理(图6)、基于环境关注的循环预测器700模型处理(图7)和过程900(图9)的选择类似的处理。在一个实施例中,模型选择和动作处理1030以及操作系统O/S 1029可以实现为存在于系统1000的内存中的可执行代码。在另一个实施例中,模型选择和动作处理1030可以设置在硬件、固件等中。
在一个实施例中,主内存1013、存储设备1014和可移动存储设备1015中的每个或以任何组合的形式可以存储可由一个或多个处理器1011执行的上述实施例的指令。
如本领域技术人员已知的,根据所说的架构的以上所描述的上述示例架构可以以多种方式实现,诸如用于由处理器执行的程序指令,如软件模块、微代码、如计算机可读介质上的计算机程序产品、如模拟/逻辑电路、如专用集成电路、如固件、如消费电子设备、AV设备、无线/有线发射机、无线/有线接收机、网络、多媒体设备等。此外,所说的架构的实施例可以采取完全硬件实施例、完全软件实施例或包含硬件和软件元件两者的实施例的形式。
已经参考根据一个或多个实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了一个或多个实施例。可以通过计算机程序指令来实现这种图示/图的每个块或其组合。在将计算机程序指令提供给处理器时产生机器,使得经由处理器执行的指令创建用于实现流程图和/或框图中指定的功能/操作的手段。流程图/框图中的每个块可以表示实现一个或多个实施例的硬件和/或软件模块或逻辑。在可替换的实现中,在块中标注的功能可以不按照在附图中标注的顺序同时发生等。
术语“计算机程序介质”、“计算机可用介质”、“计算机可读介质”和“计算机程序产品”通常用于指诸如主内存、辅助内存、可移动存储驱动器,安装在硬盘驱动器中的硬盘的介质。这些计算机程序产品是用于向计算机系统提供软件的手段。计算机可读介质允许计算机系统从计算机可读介质读取数据、指令、消息或消息分组以及其它计算机可读信息。例如,计算机可读介质可以包括非易失性内存,诸如软盘、ROM、闪存、磁盘驱动器内存、CD-ROM和其它永久存储器。例如,它可用于在计算机系统之间传输信息,诸如数据和计算机指令。计算机程序指令可以存储在计算机可读介质中,该计算机可读介质可以引导计算机、其它可编程数据处理装置或其它设备以特定方式运行,使得存储在计算机可读介质中的指令产生包括实现在流程图和/或框图的一个或多个块中指定的功能/动作的指令的制品。
可以将表示本文的框图和/或流程图的计算机程序指令加载到计算机、可编程数据处理装置或处理装置上,以引起在其上执行的一系列操作来产生计算机实现的过程。计算机程序(即,计算机控制逻辑)存储在主内存和/或辅助内存中。计算机程序也可以经由通信接口接收。当执行这样的计算机程序时使得计算机系统能够执行本文所讨论的实施例的特征。特别地,当执行该计算机程序时使得处理器和/或多核处理器能够执行计算机系统的特征。这种计算机程序代表计算机系统的控制器。计算机程序产品包括可由计算机系统读取并存储指令的有形存储介质,该指令由计算机系统执行以执行一个或多个实施例的方法。
尽管已经参考实施例的某些版本描述了实施例;然而,其它版本也是可能的。因此,所附权利要求的精神和范围不应限于本文所包含的优选版本的描述。

Claims (15)

1.一种电子设备基于环境感知循环模型预测下一步动作的方法,包括:
对于多个环境感知循环模型,基于在第一持续时间上的用户的数据集来评估模型预测精度,其中:
所述数据集包括具有基于所述电子设备交互的对应的环境的动作的序列,以及
所述多个环境感知循环模型中的每个模型进行训练,以基于来自所述第一持续时间内的时间点之前的所述数据集的第一时间段上的第一行为序列、来自所述时间点之前的所述数据集的第二时间段上的第二行为序列、所述时间点的环境以及所述时间点之前的用户状态来预测所述时间点的下一动作,其中,基于所述用户的当前环境向所述用户状态分配关注权重;
基于对于所述多个环境感知循环模型所评估的模型预测精度和目标域,从所述多个环境感知循环模型中确认至少一个模型;以及
在第二持续时间期间,基于所确认的至少一个模型,推荐在稍后的时间将发起的动作。
2.如权利要求1所述的方法,其中,评估所述模型预测精度还包括:
观察在所述时间点发生的实际动作;以及
基于所预测的下一动作与所述实际动作之间的差异来计算对于所述多个环境感知循环模型中的所述每个模型的所述模型预测精度。
3.如权利要求1所述的方法,其中,基于所述用户的所述当前环境来确定所述目标域。
4.如权利要求1所述的方法,其中,所述多个环境感知循环模型中的所述每个模型提供组合所述第一行为序列、所述第二行为序列和所述时间点的所述环境的区别过程。
5.如权利要求4所述的方法,其中,所述多个环境感知循环模型中的所述每个模型基于所述第一行为序列、所述第二行为序列和所述时间点的所述环境对每个用户的相互作用来调整所述第一行为序列、所述第二行为序列和所述时间点的所述环境之中的重要性。
6.如权利要求1所述的方法,其中,所述动作包括执行对多个电子设备设置的选择。
7.如权利要求1所述的方法,其中,所述下一动作不同于来自具有与当前环境的数据匹配的环境数据的时间段的任何行为。
8.一种电子设备,用于基于环境感知循环模型预测下一步动作,所述电子设备包括:
内存,存储有指令;以及
至少一个处理器,执行所述指令,所述指令包括过程,所述过程配置为:
对于多个环境感知循环模型,基于在第一持续时间上的用户的数据集来评估模型预测精度,其中:
所述数据集包括具有基于所述电子设备交互的对应的环境的动作的序列,以及
所述多个环境感知循环模型中的每个模型进行训练,以基于来自所述第一持续时间内的时间点之前的所述数据集的第一时间段上的第一行为序列、来自所述时间点之前的所述数据集的第二时间段上的第二行为序列、所述时间点的环境以及所述时间点的用户状态来预测所述时间点的下一动作,其中,基于所述用户的当前环境向所述用户状态分配关注权重;
基于对于所述多个环境感知循环模型所评估的模型预测精度和目标域,从所述多个环境感知循环模型中确认至少一个模型;以及
在第二持续时间期间,基于所确认的至少一个模型,推荐在稍后的时间将使用所述电子设备发起的动作。
9.如权利要求8所述的电子设备,其中,所述过程还配置为:
观察在所述时间点发生的实际动作;以及
基于所预测的下一动作与所述实际动作之间的差异来计算对于所述多个环境感知循环模型中的所述每个模型的所述模型预测精度。
10.如权利要求8所述的电子设备,其中,基于所述用户的当前环境来确定所述目标域。
11.如权利要求8所述的电子设备,其中,所述多个环境感知循环模型中的所述每个模型提供所述第一行为序列、所述第二行为序列和所述时间点的所述环境的区别相关性。
12.如权利要求8所述的电子设备,其中,所述多个模型中的所述每个模型基于所述第一行为序列、所述第二行为序列和所述时间点的所述环境的相互作用来调整所述第一行为序列、所述第二行为序列和所述时间点的所述环境之中的重要性。
13.如权利要求8所述的电子设备,其中,所述动作包括执行对多个电子设备设置的选择。
14.如权利要求8所述的电子设备,其中,所述下一动作不同于来自具有与当前环境的数据匹配的环境数据的时间段的任何行为。
15.一种包括程序的非暂时性处理器可读介质,所述程序在由用于基于环境感知循环模型预测下一步动作的电子设备的处理器执行时使得所述电子设备执行一种方法,所述方法包括:
对于多个环境感知循环模型,基于在第一持续时间上的用户的数据集来评估模型预测精度,其中:
所述数据集包括具有基于所述电子设备交互的对应的环境的动作的序列,以及
所述多个环境感知循环模型中的每个模型进行训练,以基于来自所述第一持续时间内的时间点之前的所述数据集的第一时间段上的第一行为序列、来自所述时间点之前的所述数据集的第二时间段上的第二行为序列、所述时间点的环境以及所述时间点的用户状态来预测所述时间点的下一动作,其中,基于所述用户的当前环境向所述用户状态分配关注权重;
基于对于所述多个环境感知循环模型所评估的模型预测精度和目标域,从所述多个环境感知循环模型中确认至少一个模型;以及
在第二持续时间期间,基于所确认的至少一个模型,推荐在稍后的时间将发起的动作。
CN201980047058.2A 2018-07-13 2019-07-09 用于预测用户对泛在设备的动作的电子设备和方法 Active CN112425181B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862697963P 2018-07-13 2018-07-13
US62/697,963 2018-07-13
US16/235,983 2018-12-28
US16/235,983 US10885905B2 (en) 2018-07-13 2018-12-28 Predicting user actions on ubiquitous devices
PCT/KR2019/008431 WO2020013577A1 (en) 2018-07-13 2019-07-09 Electronic device and method for predicting user actions on ubiquitous devices

Publications (2)

Publication Number Publication Date
CN112425181A CN112425181A (zh) 2021-02-26
CN112425181B true CN112425181B (zh) 2023-05-09

Family

ID=69138463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980047058.2A Active CN112425181B (zh) 2018-07-13 2019-07-09 用于预测用户对泛在设备的动作的电子设备和方法

Country Status (4)

Country Link
US (1) US10885905B2 (zh)
EP (1) EP3782376A4 (zh)
CN (1) CN112425181B (zh)
WO (1) WO2020013577A1 (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US11146933B2 (en) * 2016-09-20 2021-10-12 Samsung Electronics Co., Ltd. Activity driven smart home system
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11227035B2 (en) * 2018-11-15 2022-01-18 International Business Machines Corporation Intelligent pattern based application grouping and activating
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11030994B2 (en) * 2019-04-24 2021-06-08 Motorola Mobility Llc Selective activation of smaller resource footprint automatic speech recognition engines by predicting a domain topic based on a time since a previous communication
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11570404B2 (en) * 2020-05-12 2023-01-31 True Meeting Inc. Predicting behavior changes of a participant of a 3D video conference
US11102304B1 (en) 2020-05-22 2021-08-24 Vignet Incorporated Delivering information and value to participants in digital clinical trials
CN111506822B (zh) * 2020-05-28 2023-08-18 支付宝(杭州)信息技术有限公司 数据编码以及信息推荐方法、装置和设备
DK202070658A1 (en) * 2020-06-01 2022-01-13 Apple Inc Suggesting executable actions in response to detecting events
WO2021247258A1 (en) * 2020-06-01 2021-12-09 Apple Inc. Suggesting executable actions in response to detecting events
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
EP4075337A1 (en) * 2021-03-15 2022-10-19 Honeywell Limited Process controller with meta-reinforcement learning
CN113139140B (zh) * 2021-05-17 2024-01-16 辽宁工程技术大学 基于时空感知gru并结合用户关系偏好的旅游景点推荐方法
CN113256024B (zh) * 2021-06-17 2022-08-05 上海大学 一种融合群体行为的用户行为预测方法
US20230091581A1 (en) * 2021-09-21 2023-03-23 Bank Of America Corporation Personal Data Discovery
US20230113524A1 (en) * 2021-10-07 2023-04-13 International Business Machines Corporation Reactive voice device management
US11775869B1 (en) * 2022-10-27 2023-10-03 Intuit Inc. Validation of account identifier

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0574951B1 (en) * 1992-06-18 2000-04-05 Seiko Epson Corporation Speech recognition system
JP3159242B2 (ja) * 1997-03-13 2001-04-23 日本電気株式会社 感情生成装置およびその方法
US7778715B2 (en) * 2005-01-31 2010-08-17 Hewlett-Packard Development Company Methods and systems for a prediction model
US8364540B2 (en) * 2005-09-14 2013-01-29 Jumptap, Inc. Contextual targeting of content using a monetization platform
US8160977B2 (en) * 2006-12-11 2012-04-17 Poulin Christian D Collaborative predictive model building
US7937243B2 (en) * 2007-08-03 2011-05-03 Ailive, Inc. Method and apparatus for non-disruptive embedding of specialized elements
KR100979516B1 (ko) 2007-09-19 2010-09-01 한국전자통신연구원 네트워크 기반 로봇을 위한 서비스 추천 방법 및 서비스추천 장치
JP2010146276A (ja) 2008-12-18 2010-07-01 Nec Corp 行動予測システム、行動予測方法および行動予測用プログラム
KR20120045415A (ko) 2010-10-29 2012-05-09 삼성에스디에스 주식회사 지능형서비스제공 라이프로깅장치 및 방법
US9219668B2 (en) * 2012-10-19 2015-12-22 Facebook, Inc. Predicting the future state of a mobile device user
US9558452B2 (en) * 2013-11-08 2017-01-31 Microsoft Technology Licensing, Llc Hierarchical statistical model for behavior prediction and classification
US9519408B2 (en) * 2013-12-31 2016-12-13 Google Inc. Systems and methods for guided user actions
US9372898B2 (en) * 2014-07-17 2016-06-21 Google Inc. Enabling event prediction as an on-device service for mobile interaction
US10417225B2 (en) * 2015-09-18 2019-09-17 Splunk Inc. Entity detail monitoring console
US10193775B2 (en) * 2014-10-09 2019-01-29 Splunk Inc. Automatic event group action interface
WO2016130858A1 (en) * 2015-02-11 2016-08-18 Skytree, Inc. User interface for unified data science platform including management of models, experiments, data sets, projects, actions, reports and features
GB201511372D0 (en) * 2015-06-29 2015-08-12 Ixico Technologies Ltd Methods, systems and tools for selecting subjects suffering from neurodegerative disease
US10504029B2 (en) * 2015-06-30 2019-12-10 Microsoft Technology Licensing, Llc Personalized predictive models
US10769189B2 (en) * 2015-11-13 2020-09-08 Microsoft Technology Licensing, Llc Computer speech recognition and semantic understanding from activity patterns
CN107451694B (zh) * 2017-08-03 2020-10-02 重庆大学 一种用于移动系统中上下文感知与自适应的应用预测方法
CN107423442B (zh) * 2017-08-07 2020-09-25 火烈鸟网络(广州)股份有限公司 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备
CN108076224B (zh) * 2017-12-21 2021-06-29 Oppo广东移动通信有限公司 应用程序控制方法、装置及存储介质和移动终端
US11467590B2 (en) * 2018-04-09 2022-10-11 SafeAI, Inc. Techniques for considering uncertainty in use of artificial intelligence models
US10782986B2 (en) * 2018-04-20 2020-09-22 Facebook, Inc. Assisting users with personalized and contextual communication content

Also Published As

Publication number Publication date
US20200020326A1 (en) 2020-01-16
EP3782376A4 (en) 2021-06-23
US10885905B2 (en) 2021-01-05
WO2020013577A1 (en) 2020-01-16
CN112425181A (zh) 2021-02-26
EP3782376A1 (en) 2021-02-24

Similar Documents

Publication Publication Date Title
CN112425181B (zh) 用于预测用户对泛在设备的动作的电子设备和方法
CN110832533B (zh) 用于生成用户偏好内容的对抗式方法和系统
US10917485B2 (en) Implicit contacts in an online social network
CN111581488B (zh) 一种数据处理方法及装置、电子设备和存储介质
CN108156317B (zh) 通话语音控制方法、装置及存储介质和移动终端
JP2022512023A (ja) バッチ正規化データの処理方法及び装置、電子機器及び記憶媒体
CN110245757B (zh) 一种图像样本的处理方法及装置、电子设备和存储介质
CN111242303B (zh) 网络训练方法及装置、图像处理方法及装置
US10592558B2 (en) User-card interfaces
CN111782968B (zh) 内容推荐方法、装置、可读介质及电子设备
US10726087B2 (en) Machine learning system and method to identify and connect like-minded users
CN105554581A (zh) 弹幕显示方法及装置
CN111259967B (zh) 图像分类及神经网络训练方法、装置、设备及存储介质
CN109858614B (zh) 神经网络训练方法及装置、电子设备和存储介质
CN111898018B (zh) 一种虚拟资源的发送方法、装置、电子设备及存储介质
WO2018210131A1 (zh) 邀请行为预测方法、装置及存储介质
CN112001364A (zh) 图像识别方法及装置、电子设备和存储介质
US20220377156A1 (en) User interaction and task management using multiple devices
CN105872573A (zh) 一种视频播放方法及装置
CN115203543A (zh) 内容推荐方法、内容推荐模型的训练方法及装置
CN113994359A (zh) 用于数据的有效使用以用于个性化的系统
CN109447258B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
CN112445906A (zh) 一种生成回复消息的方法及装置
CN110297970B (zh) 信息推荐模型训练方法及装置
CN112115321A (zh) 内容推荐模型的训练方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant