CN114503133A - 信息处理设备、信息处理方法和程序 - Google Patents

信息处理设备、信息处理方法和程序 Download PDF

Info

Publication number
CN114503133A
CN114503133A CN202080069863.8A CN202080069863A CN114503133A CN 114503133 A CN114503133 A CN 114503133A CN 202080069863 A CN202080069863 A CN 202080069863A CN 114503133 A CN114503133 A CN 114503133A
Authority
CN
China
Prior art keywords
learning model
user
change
relearning
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080069863.8A
Other languages
English (en)
Inventor
青木卓
佐藤竜太
小川哲
清水至
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of CN114503133A publication Critical patent/CN114503133A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0265Vehicular advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Technology Law (AREA)
  • Operations Research (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本技术涉及使得能够在发生环境变化时进行重新学习的信息处理设备、信息处理方法和程序。包括基于预定学习模型,确定响应于输入信息的行动的确定单元;和当对于所述行动的奖励量的变化是超过预定标准的变化时,进行所述学习模型的重新学习的学习单元。所述学习模型是通过强化学习生成或更新的学习模型。本技术可以应用于例如进行预定的强化学习的信息处理设备。

Description

信息处理设备、信息处理方法和程序
技术领域
本技术涉及信息处理设备、信息处理方法和程序,更具体地,涉及例如当学习环境已经变化了时,实现适合于新环境的学习的信息处理设备、信息处理方法和程序。
背景技术
其中通过试错,学习用于达到使环境中的价值(利益)最大化的目标的控制方法的机器学习在广义上被称为强化学习。专利文献1公开了一种用于缩短强化学习所需的时间的技术。
引文列表
专利文献
专利文献1:日本专利申请公开No.2006-313512
发明内容
本发明要解决的问题
然而,按照惯例,一旦学习完成,当学习的环境已改成不同的环境时,重新学习可能需要时间来适应新的环境。
鉴于这样的状况产生了本技术,本技术用来检测环境的变化,并在环境已变化时尽可能快地应对新的环境。
问题的解决方案
按照本技术的一个方面的信息处理设备包括:确定单元,所述确定单元基于预定学习模型,确定响应于输入信息的行动;和学习单元,当对于所述行动的奖励量的变化是超过预定标准的变化时,所述学习单元进行所述学习模型的重新学习。
按照本技术的一个方面的信息处理方法包括:通过信息处理设备,基于预定学习模型,确定响应于输入信息的行动;和当对于所述行动的奖励量的变化是超过预定标准的变化时,进行所述学习模型的重新学习。
按照本技术的一个方面的程序使计算机执行包括以下步骤的处理:基于预定学习模型,确定响应于输入信息的行动;和当对于所述行动的奖励量的变化是超过预定标准的变化时,进行所述学习模型的重新学习。
在按照本技术的一个方面的信息处理设备、信息处理方法和程序中,基于预定学习模型,确定响应于输入信息的行动,并且当对于所述行动的奖励量的变化是超过预定标准的变化时,进行所述学习模型的重新学习。
注意,信息处理设备可以是独立的设备,或者可以是形成一个设备的内部部件。
此外,程序可以通过经由传输介质传输或通过记录在记录介质上来提供。
附图说明
图1是图解说明按照实施例的本技术应用于的信息处理设备的构成的示图。
图2是图解说明信息处理设备的功能构成例子的示图。
图3是用于说明强化学习的例子的示图。
图4是用于说明学习处理的流程图。
图5是用于说明另一个学习处理的流程图。
图6是用于说明存储多个学习模型的情况的示图。
图7是用于说明第一应用例的流程图。
图8是用于说明第二应用例的流程图。
图9是用于说明第三应用例的流程图。
图10是用于说明第四应用例的流程图。
图11是用于说明第五应用例的流程图。
图12是用于说明第六应用例的流程图。
图13是用于说明第七应用例的流程图。
图14是用于说明第八应用例的流程图。
图15是用于说明第九应用例的流程图。
图16是用于说明第十应用例的流程图。
具体实施方式
现在描述实现本技术的模式(以下称为实施例)。
本技术可以应用于进行强化学习的信息处理设备。作为强化学习,本技术可以应用于采用长短期记忆(LSTM)的学习方法。尽管这里描述了其中将本技术应用于LSTM的例子,不过,本技术也可以应用于基于其他方法的强化学习。
<信息处理设备的构成>
图1是图解说明按照实施例的本技术应用于的信息处理设备的构成的示图。信息处理设备10例如可以包括个人计算机。
信息处理设备10包括作为主要组件的CPU 21、ROM 22和RAM23。此外,信息处理设备10包括主总线24、桥接器25、外部总线26、接口27、输入设备28、输出设备29、存储设备30、驱动器31、连接端口32和通信设备33。
CPU 21起算术处理设备和控制设备的作用,并按照记录在ROM 22、RAM 23、存储设备30或可移动记录介质41中的各种程序,全部或部分地控制信息处理设备10中的操作。ROM22存储将由CPU 21使用的程序、操作参数等。RAM 23临时存储将由CPU 21使用的程序,在程序的执行期间中适当变化的参数等。这些组件通过包括诸如CPU总线之类的内部总线的主总线24相互连接。
主总线24经由桥接器25,连接到诸如外围组件互连(PCI)总线之类的外部总线26。此外,输入设备28、输出设备29、存储设备30、驱动器31、连接端口32和通信设备33经由接口27连接到外部总线26。
输入设备28是由用户操作的操作装置,比如例如鼠标、键盘、触摸面板、按钮、开关、控制杆、踏板等。此外,输入设备28例如可以是采用红外线或其他无线电波的远程控制装置(所谓的遥控器),或者可以是支持信息处理设备10的操作的外部连接设备,比如移动电话机、PDA等。此外,输入设备28例如包括,基于用户通过使用上述操作装置输入的信息来生成输入信号并将生成的输入信号输出到CPU 21的输入控制电路。通过操作输入设备28,信息处理设备10的用户可以将各种数据输入到信息处理设备10,并指示信息处理设备10进行处理操作。
另外,输入设备28可以是各种传感器。例如,输入设备28可以是诸如图像传感器、陀螺传感器、加速度传感器、温度传感器、气压传感器之类的传感器,或者可以是起接受来自这些传感器的输出的输入单元作用的设备。
输出设备29包括能够可视地或可听地向用户通知所获取的信息的设备。这种设备的例子包括诸如CRT显示设备、液晶显示设备、等离子体显示设备、EL显示设备和灯之类的显示设备,诸如扬声器和耳机之类的音频输出设备,打印机设备等。输出设备29例如输出通过信息处理设备10进行各种处理而获得的结果。具体地,显示设备以文本或图像的形式,显示通过信息处理设备10进行各种处理而获得的结果。另一方面,音频输出设备将包括再现的音频数据、声学数据等的音频信号变换成模拟信号,并输出所述模拟信号。
或者,在信息处理设备10起控制车辆或机器人的控制单元的一部分的作用的情况下,输出设备29可以是向各个单元输出用于移动控制的信息的设备,或者可以是进行移动控制的电动机、制动器等。
存储设备30是作为信息处理设备10中的存储单元的例子构成的数据存储设备。存储设备30例如包括诸如硬盘驱动器(HDD)之类的磁存储单元设备、半导体存储设备、光存储设备、磁光存储设备等。存储设备30存储由CPU 21执行的程序、各种数据等。
驱动器31是记录介质的读/写器,内置在信息处理设备10中或者外部附接到信息处理设备10。驱动器31读取记录在附接的可移动记录介质41(比如磁盘、光盘、磁光盘或半导体存储器)上的信息,并将所述信息输出到RAM 23。此外,驱动器31能够将记录写入到附接的可移动记录介质41(比如磁盘、光盘、磁光盘或半导体存储器)上。可移动记录介质41例如是DVD介质、HD-DVD介质或蓝光(注册商标)介质。此外,可移动记录介质41可以是紧凑式闪存(注册商标)(CF)、闪存、安全数字存储卡(SD存储卡)等。此外,可移动记录介质41例如可以是上面搭载非接触式IC芯片的集成电路卡(IC卡),或者电子设备。
连接端口32是用于直接连接到信息处理设备10的端口。连接端口32的例子包括通用串行总线(USB)端口、IEEE 1394端口、小型计算机系统接口(SCSI)端口等。连接端口32的其他例子包括RS-232C端口、音频光端机、高清晰度多媒体接口(HDMI(注册商标))端口等。通过将外部连接设备42连接到连接端口32,信息处理设备10直接从外部连接设备42获取各种数据,并向外部连接设备42提供各种数据。
通信设备33例如是包括用于连接到通信网络917的通信设备等的通信接口。通信设备33例如是有线或无线局域网(LAN)、蓝牙(注册商标)或无线USB(WUSB)用的通信卡等。或者,通信设备33可以是光通信用的路由器、非对称数字订户线路(ADSL)用的路由器、各种通信用的调制解调器等。通信设备33能够按照诸如TCP/IP之类的预定协议,往来于例如因特网或其他通信设备发送和接收信号等。此外,连接到通信设备33的通信网络43可以包括以有线或无线方式连接的网络等,例如可以是因特网、家庭LAN、红外通信、无线电波通信、卫星通信等。
<信息处理设备的功能>
图2是图解说明信息处理设备10的功能的方框图。信息处理设备10包括预先学习单元61、学习单元62、学习模型存储单元63、识别信息获取单元64、输出信息生成单元65、奖励量设定单元66、变化信息生成单元67和环境变化判定单元68。
预先学习单元61和学习单元62通过预定学习方法进行学习,以生成或更新学习模型。尽管这里作为例子描述了包括两个学习单元(即,预先学习单元61和学习单元62)的情况,不过,可以只包括一个学习单元。这里在假设如下的情况下进一步进行描述:用户开始使用信息处理设备10之前的学习(在设备使用之后的预定时段内的学习)由预先学习单元61进行,而用户开始使用信息处理设备10之后的学习由学习单元62进行。
在制造信息处理设备10的阶段,例如,在工厂出货阶段(在用户使用之前),预先学习单元61在模拟信息处理设备10的使用环境的拟态环境中进行学习,以生成学习模型(以下酌情称为初始学习模型)。生成的初始学习模型存储在学习模型存储单元63中。
在检测到后面说明的环境变化时,学习单元62通过进行重新学习,更新或新生成学习模型。学习模型存储单元63存储初始学习模型、更新的学习模型和新生成的学习模型。
识别信息获取单元64获取识别信息。作为要输入到信息处理设备10的输入信息的识别信息被用于生成要由信息处理设备10呈现的信息(要输出的信息)。识别信息包括关于用户的信息,和关于系统所涉及的环境的信息,比如用户的行动历史、天气信息和交通拥堵信息。
输出信息生成单元65基于识别信息和学习模型来确定行动。例如,在用于生成对话的系统的情况下,当作为识别信息,获取了关于天气的信息时,生成用于向用户提供关于天气的话题的行动的话语信息。
奖励量设定单元66设定奖励量。奖励量例如可以是从用户对信息处理设备10所呈现的信息的反应所获得的信息。
信息处理设备10进行基于强化学习的处理。强化学习是用来使给定环境中的价值(利益)最大化的学习,并且可被定义为如下这样的学习:其中评价由于施事者(行动主体)的行动而发生的环境变化,基于预定评价函数从所述变化导出奖励,并向学习模型给予用于使奖励量最大化的反馈的学习。
由奖励量设定单元66设定的奖励量表示作为施事者(在本实施例中为信息处理设备10)在某种状态下所采取的行动的结果而获得了多少奖励(它可以被称为评价函数)。另外,状态表示环境的当前特定状态。另外,行动表示施事者可以对环境采取的具体行动。
注意,本技术可以应用于的强化学习包括学习模型包括多个中间层的网络的情况。
在图2中所示的信息处理设备中,输出信息生成单元65生成输出信息,对于所述输出信息,将获得针对由识别信息获取单元64获取的识别信息的奖励。例如,在使用用户的反应作为奖励量的系统中,当生成的输出信息被呈现给用户,并且用户给出良好的反应时,则获得奖励。
从而,在使用用户的反应作为奖励的情况下,当用户的反应不是良好的反应时,会出现奖励量减少之类的变化。基于奖励量的这种变化,变化信息生成单元67生成变化信息。变化信息生成单元67生成指示是否已经发生奖励量的显著变化的标记。例如,当判定已经发生了奖励量的显著变化时,生成信息“1”作为变化信息,而当判定已经发生了奖励量的微小变化(没有变化)时,生成信息“0”作为变化信息。
尽管这里在假设当奖励量显著时生成“1”,而在奖励量微小时生成“0”的情况下进一步进行描述,不过当奖励量显著时可以生成“0”,而在奖励量微小时可以生成“1”。另外,尽管这里在假设变化信息是为0或1的标记的情况下进一步进行描述,不过,变化信息可以是其他信息。例如,变化信息可以是与奖励量的大小对应的值。例如,可以根据奖励量的大小来分配在0~10范围内的值。
环境变化判定单元68判定环境是否已变化。当变化信息为“0”(当奖励量的变化微小时),环境变化判定单元68判定环境没有变化,而当变化信息为“1”时(当奖励量的变化显著时),环境变化判定单元68判定环境已变化。当判定环境已变化时,环境变化判定单元68指示学习单元62开始重新学习。
如上所述,本技术应用于的信息处理设备10检测到环境已变化,并且当检测到环境变化时,信息处理设备10进行重新学习。
<应用LSTM的情况>
采用LSTM的学习方法可以于信息处理设备10进行的学习。LSTM是利用扩展的递归神经网络(RNN)的对于时序数据的模型。LSTM的特征是能够学习长期依赖。
图3表示了LSTM的示例结构。LSTM 81主要进行学习,而LSTM82主要检测环境变化。前一时刻t-1的变化信息(Volatility(t-1))、当前时刻t的识别信息(Perceptual Data(t))和前一时刻t-1的输出(Action(t-1))被输入到LSTM 81。
当前时间t的识别信息(Perceptual Data(t))、前一时刻t-1的输出(Action(t-1))和前一时刻t-1的奖励(Reward(t-1))被输入到LSTM 82。
LSTM 82基于识别信息(Perceptual Data(t))和奖励(Reward(t-1)),进行上次输出(Action(t-1))的评价(State Value(t))。另外,LSTM 82判定奖励量是否已显著变化。如果判定奖励量没有显著变化,则LSTM 82向LSTM 81输出变化信息“0”(Volatility(t-1)),而如果判定奖励量已显著变化,则LSTM 82向LSTM 81输出变化信息“1”(Volatility(t-1))。
LSTM 81基于识别信息(Perceptual Data(t)),确定本次(时刻t)的输出(Action(t))。在正在确定输出(Action(t))时,可以参考已基于一定条件下的奖励而学习的学习模型,或者可以参考除这种学习模型以外的任何学习模型。
另外,当变化信息(Volatility(t-1))为“0”,并判定没有发生环境变化的情况下,LSTM 81基于当前参考的学习模型确定输出(Action(t))。另一方面,当变化信息(Volatility(t-1))为“1”,并判定已经发生了环境变化的情况下,LSTM 81基于识别信息(Perceptual Data(t))和上次(时刻t-1)的输出(Action(t-1)),改变输出(Action(t))。即,当判定已经发生了环境变化时,通过使用变化信息(Volatility)作为奖励,基于环境变化后的条件进行重新学习。
这样,LSTM 82根据奖励量的变化检测环境变化,当检测到任何环境变化时,LSTM81开始重新学习。注意,尽管这里通过以LSTM为例,描述了检测环境变化,并开始重新学习的强化学习的例子,不过,信息处理设备10可以被配置成通过应用其他类型的强化学习来检测环境变化,并开始重新学习。
<关于信息处理设备进行的处理>
下面说明信息处理设备10对于这种学习所进行的处理。图4是用于说明信息处理设备10进行的处理的流程图。各个处理将在后面参考具体的应用例来描述。
在步骤S11,预先学习单元61(图2)进行预先学习。预先学习在用户开始使用信息处理设备10之前和/或在用户开始使用信息处理设备10之后的预定时段内进行。
例如,在制造信息处理设备10的阶段,例如,在工厂出货阶段,预先学习单元61在模拟信息处理设备10的使用环境的拟态环境中进行学习,以生成初始学习模型。生成的初始学习模型存储在学习模型存储单元63中。
或者,预先学习期可以被设定为在用户开始使用信息处理设备10之后的预定时段,可以在预先学习期内生成初始学习模型,并将其存储在学习模型存储单元63中。
另外,可以在用户开始使用信息处理设备10之前,比如在工厂出货阶段生成初始学习模型,然后可以在用户开始使用信息处理设备10之后的预定时段内,针对用户的使用模式进一步优化初始学习模型。
预先学习期的结束可以是在预定时段(比如一个月的时段,或者直到与用户交互的累计时间达到预定时间为止的时段)已经过去的时间点。或者,预先学习期的结束可以是在变化信息落在一定范围内的时间点,由于这里描述了其中变化信息为0或1的例子,因此例如这可以是当变化信息被设定为0之时。
在步骤S12,基于通过预先学习形成的学习模型(初始学习模型)进行行动。具体地,识别信息获取单元64(图2)获取识别信息,输出信息生成单元65基于获取的识别信息和存储在学习模型存储单元63中的学习模型,生成输出信息。
在步骤S13,奖励量设定单元66设定奖励量。奖励量是通过获取用户对输出信息的反应等来设定的。
在步骤S14,变化信息生成单元67生成变化信息。当已经发生了奖励量的急剧变化(奖励量的急剧增大或减少)时,变化信息生成单元67检测到环境已经发生了变化。
例如,当奖励量的变动等于或大于在信息处理设备10侧预先设定的阈值时,可以检测到环境变化。在这种情况下,奖励量的变动包括奖励量增大的变动和奖励量减小的变动,并判定变动量是否等于或大于阈值。
还可以基于用户提供的关于环境的信息,比如指示用户已被替换为新的用户或者安装位置已被更改为新的位置的信息,来检测环境变化。当然,可以组合这些信息,使得基于用户提供的信息并在信息处理设备10中预先设定的条件下检测环境变化。
当检测到环境变化时,变化信息生成单元67生成指示已经发生了变化的信息“1”,并将该信息提供给环境变化判定单元68,而当没有检测到环境变化时,变化信息生成单元67生成指示没有发生变化的信息“0”,并将该信息提供给环境变化判定单元68。
在步骤S15,环境变化判定单元68判定是否已经发生了环境变化。在步骤S15,如果从变化信息生成单元67提供的变化信息指示没有发生环境变化,则环境变化判定单元68判定不存在环境变化,处理返回步骤S12,并重复从S12开始的后续步骤。
另一方面,在步骤S15,如果从变化信息生成单元67提供的变化信息指示已经发生了环境变化,则环境变化判定单元68判定已经发生了环境变化,处理转到步骤S16。
在步骤S16,进行重新学习。当判定已经发生了环境变化时,环境变化判定单元68向学习单元62发出开始重新学习的指令。当发出这样的指令时,学习单元62开始学习。作为开始学习的结果,生成新的学习模型或者更新学习模型。
当作为学习单元62进行的重新学习的结果,生成新的学习模型或完成学习模型的更新时,处理返回步骤S12,重复从S12开始的后续步骤。
重新学习期的结束可以是在预定时段(比如一个月的时段,或者直到与用户交互的累计时间达到预定时间为止的时段)已经过去的时间点。或者,重新学习期的结束可以是在变化信息落在一定范围内的时间点,由于这里描述了其中变化信息为0或1的例子,因此例如这可以是当变化信息被设定为0之时。
信息处理设备10进行的学习的方式可以包括,在不更新学习模型的情况下继续进行处理,直到判定发生了环境变化为止。在这种情况下,当发出进行重新学习的指令时,开始学习模型的更新。在重新学习期间,可以更新当前使用的学习模型,或者可以生成新的学习模型。
信息处理设备10进行的学习的方式可包括继续进行学习,以使学习模型保持最佳化。在这种情况下,当发出进行重新学习的指令时,学习模型的更新本身是持续进行的,而学习是通过例如重新定义奖励的类型或评价函数的定义,以不同的方式开始的。或者,可生成新的学习模型。
注意,这里描述了其中如图2中所示,存在变化信息生成单元67和环境变化判定单元68的例子;不过,变化信息生成单元67和环境变化判定单元68可以被组合成一个功能。如参考图3所述,在其中LSTM 82生成变化信息(Volatility)并将变化信息提供给LSTM 81,并且LSTM 81判定是否已经发生了环境变化以便开始重新学习的构成中,LSTM 82对应于变化信息生成单元67,而LSTM 81对应于环境变化判定单元68。
如上所述,在分别设置变化信息生成单元67和环境变化判定单元68的情况下,图3中的例子表示使用相同的学习方法,即LSTM 81和LSTM82;不过,可以使用不同的学习方法。例如,可以应用如下方法:环境变化判定单元68对应于LSTM 81并进行基于LSTM的学习,而变化信息生成单元67例如进行由多个传感器提供的信息的分析以检测环境变化,或者从用户获得信息以检测环境变化。
变化信息生成单元67和环境变化判定单元68可以被组合成一个功能。按照上面的描述,变化信息生成单元67根据奖励量的变化来检测环境变化,并将为0或1的变化信息提供给环境变化判定单元68。这样,变化信息生成单元67根据奖励量的变化来检测环境变化,从而变化信息生成单元67进行与环境变化判定单元68进行的处理实质相同的处理。于是,在另一种可能的构成中,变化信息生成单元67检测环境变化,并且当检测到环境变化时,向学习单元62发出进行重新学习的指令,而不设置环境变化判定单元68。
<关于信息处理设备进行的其他处理>
如上所述,在当发生环境变化时,进行重新学习并生成新的学习模型的情况下,例如通过删除初始学习模型,可以代替被存储在学习模型存储单元63中的学习模型,而存储新生成的学习模型,或者可以在学习模型存储单元63中另外存储新生成的学习模型。
在又一种可能的构成中,可以将多个学习模型存储在学习模型存储单元63中。此外,在另一种可能的构成中,多个学习模型存储在学习模型存储单元63中,并在学习模型之间切换要使用的学习模型。作为由信息处理设备进行的其他处理,以下说明其中生成并追加学习模型,并且在学习模型之间切换要使用的学习模型的情况。
图5是用于说明信息处理设备进行的其他处理的流程图。步骤S31~S35的处理与步骤S11~S15(图4)的处理相同,从而省略其描述。
如果在步骤S35判定已经发生了环境变化,则处理转到步骤S36。在步骤S36,判定在学习模型存储单元63中是否存储了多个学习模型。这里如图6中的时刻t1所示,假设在学习模型存储单元63中只存储了学习模型91A。
此外,可以搜索存储在除学习模型存储单元63以外的任何地方的学习模型。例如,在步骤S35,可以判定是否可以获取在除信息处理设备10以外的设备中管理的学习模型。另外,作为所述判定的结果,如果判定可以获取学习模型,则该学习模型也可以用作以下的处理的对象。
在这种情况下,由于学习模型存储单元63只存储了学习模型91A,因此在步骤S36判定没有存储多个学习模型,处理转到步骤S37。在步骤S37,进行重新学习。步骤S37的处理可以以与步骤S16(图4)中的方式相似的方式进行,从而省略其描述。
不过,注意,在步骤S37中进行重新学习,其结果是新生成与已存储的学习模型(例如,学习模型91A)不同的学习模型。换句话说,不更新学习模型91A,或者即使学习模型91A应被更新,也会生成与学习模型91A不同的学习模型(学习模型91B),而学习模型91A本身保持原样。
在步骤S38,通过在步骤S37进行重新学习而新生成的学习模型被追加并存储在学习模型存储单元63中。例如,如图6中的时刻t2所示,作为步骤S38的处理的结果,在学习模型存储单元63中存储了学习模型91A和学习模型91B。
在步骤S38的处理之后,处理返回步骤S32,并重复从S32开始的后续处理。在目前情况下,执行基于学习模型91B的处理步骤。
另一方面,如果在步骤S36判定在学习模型存储单元63中存储了多个学习模型,则处理转到步骤S39。例如,如果如图6中的时刻t2所示,在学习模型存储单元63中存储了学习模型91A和学习模型91B,则在步骤S36的判定中,判定在学习模型存储单元63中存储了多个学习模型。
在步骤S39,判定是否存在适合于环境的学习模型。例如,假定针对环境A优化的学习模型是学习模型91A,而针对环境B优化的学习模型是学习模型91B。在判定已经发生了环境变化,并且可以判定变化后的环境是环境A的情况下,在步骤S39,认为适合于环境的学习模型存储在学习模型存储单元63中,处理转到步骤S40。
在步骤S40,参考的学习模型被切换成已被判定为适合于环境变化之后的环境的学习模型,处理返回步骤S32,从而开始基于该学习模型的处理。
另一方面,在判定已经发生了环境变化,并且判定变化后的环境是不同于环境A和B的环境C的情况下,在步骤S39,不认为适合于环境的学习模型存储在学习模型存储单元63中,处理转到步骤S37。
在步骤S37,进行重新学习。这种情况下,学习针对环境C优化的学习模型。然后在步骤S38的处理步骤中,新生成的学习模型91C被追加并存储在学习模型存储单元63中(达到在图6的时刻t3所示的状态)。
即,在已经发生了环境变化的情况下,如果存在适合于变化后的环境的学习模型,则处理被切换到基于该学习模型的处理,而如果不存在适合于变化后的环境的学习模型,则生成并追加适合于变化后的环境的学习模型。
例如,假定环境A是其中发生与用户A的交互的环境,并且学习模型91A是针对用户A优化的学习模型。此外,假定环境B是其中发生与用户B的交互的环境,并且学习模型91B是针对用户B优化的学习模型。
只要参考学习模型91A发生与用户A的交互,就判定不存在环境变化,从而继续参考学习模型91A的处理。当交互伙伴从用户A变成用户B时,存在用户B对参考学习模型91A进行的交互不满意,从而奖励量减少的可能性。一旦奖励量减少,就检测到已经发生了环境变化。
当检测到环境已变化时,则搜索学习模型存储单元63,以查明其中是否存储了适合于环境的学习模型。在目前情况下,存储了针对用户B优化的学习模型91B,于是,作为搜索的结果,判定存储了学习模型91B。从而,参考的学习模型被切换到学习模型91B。然后,开始参考学习模型91B与用户B的交互。于是,奖励量恢复到原始量,并且恢复判定发生了环境变化之前的状态。
这样,可以存储多个学习模型,以进行参考最佳学习模型的处理。
在步骤S39,判定是否存在适合于环境的学习模型。下面进一步描述这种判定。在一个例子中,可以基于传感器提供的信息来识别环境。在上述例子的情况下,通过捕捉用户的图像并分析捕捉的图像,可以识别用户。另外,通过获取并分析用户的语音,可以识别用户。
例如,当作为分析的结果,判定正在发生与用户B的交互时,参考的学习模型被切换成用于用户B的学习模型91B。此外,当作为分析图像或语音的结果,检测到没有登记的用户时,进行重新学习,以便生成用于该用户的学习模型。
在另一个例子中,通过在存储在学习模型存储单元63中的学习模型之间切换,并观察学习模型之间的奖励量的变化,判定学习模型是否适合于环境。如上述例子那样,假定例如由于交互伙伴从用户A变成用户B而检测到环境变化。
然后,当学习模型从学习模型91A切换到学习模型91B并进行交互时,恢复原来的奖励量,从而可以推断学习模型已切换到正确的学习模型。另一方面,当学习模型从学习模型91A切换到学习模型91C并进行交互时,奖励量仍然较低,从而可以推断学习模型没有切换到正确的学习模型。
这样,通过在存储在学习模型存储单元63中的学习模型之间切换,并观察奖励量的变化,可以判定学习模型是否已切换到正确的学习模型。
另外,为其切换学习模型的环境变化的例子可以包括时间段的变化、定时的变化、天气的变化、位置的变化等。例如,参考的学习模型可以随时间段而不同,当到了预定时间段时,这被视为环境变化,可以切换学习模型。
<第一应用例>
现在描述上述信息处理设备10的应用例。下面作为例子,主要描述进行图4中所示的流程图的处理的情况,即不切换学习模型的情况;不过,以下的描述可以应用于进行其中切换学习模型的图5中所示的流程图的处理的情况。
下面参考图7中所示的流程图描述第一应用例。在第一应用例中,作为应用,本技术被应用于生成对话和文本的系统,比如聊天机器人。聊天机器人是利用人工智能的自动对话程序,使结合人工智能的计算机可以代表人类进行对话。信息处理设备10可以应用于上面运行聊天机器人的计算机。
在进行涉及聊天机器人的强化学习的情况下,行动是生成对话(文本)并将生成的对话(文本)呈现给用户,而奖励量是用户对呈现的对话(文本)的反应。另外,重新学习是对用于生成对话(文本)的学习模型进行重新学习。
在步骤S101,进行预先学习。在应用是自动生成例如要发布到社交网络服务(SNS)的消息的应用的情况下,作为预先学习,一个或多个目标用户高度评价的消息被学习。例如,在测试环境中发布多个消息,以学习受到特定细分用户的好评的文本的生成。特定细分用户的例子包括属于预定年龄段(比如30多岁或40多岁)的用户,属于具有共同属性(比如偏好或行为倾向)的预定群体的用户,居住在预定区域的用户等。
通过预先学习,生成初始学习模型并将其存储在学习模型存储单元63中。当初始学习模型被存储在学习模型存储单元63中时,在步骤S102,参考初始学习模型生成并发布文本。即,实际进行参考该学习模型的处理。作为生成文本时输入的识别信息(PerceptualData),例如获取所发布消息的浏览量、对所发布消息添加的关注者数、对所发布消息的诸如好或坏之类的评价、以及所发布消息的转发量。另外,可以获取诸如浏览所发布消息的时间段之类的时间信息、评价或转发所发布消息的用户的概况等。
在步骤S103,当发布了文本时,获取所发布文本的评价,即在目前情况下对应于奖励量的信息。基于包括特定细分用户所进行的评价、转发、浏览量等的信息来设定奖励量。例如,当特定细分用户进行较高的评价、转发量较多、浏览量较多等时,设定较高的奖励量。相反,例如,当特定细分用户进行较低的评价、转发量减少、浏览量较低等时,设定较低的奖励量。
在步骤S104,通过观察奖励量的增/减,生成变化信息。当奖励量增加或减少时,生成指示已发生了变化的变化信息(在目前情况下,为1的信息)。注意,阈值可以预先设定,并且当奖励量增加或减少的量等于或大于预先设定的阈值时,可以判定已发生了变化。此外,奖励量的增/减可以局限于预定时段内的变动,并且其中观察奖励量的增/减的时段可以预先设定。
基本上,进行学习以致增大奖励量,从而只要进行适当的学习,奖励量就会增加。于是,在奖励量在预定时段内增加了预定量而不仅仅是奖励量已增加的条件下进行观察。例如,当奖励量在短时间段内增加时,可以判定奖励量已急剧增加,在这种情况下,可以推断环境已发生了某种变化。
在以下的描述中,急剧增加表示奖励量在预定时段内增加了预定量(阈值)的情况。换句话说,单位时间内奖励量的增加量或增加率等于或大于预定量被描述为急剧增加。
另外,急剧减少表示奖励量在预定时段(单位时间)内减少了预定量(阈值)的情况。换句话说,单位时间内奖励量的减少量或减少率等于或大于预定量被描述为急剧减少。在本实施例中,检测奖励量的这种急剧增加或急剧减少,但是不检测由学习的顺利进行而引起的奖励量的增加或减少。
在步骤S105,判定是否已发生了环境变化。如果变化信息是指示已发生了环境变化的信息(在目前情况下为1),则判定为“是”,而如果变化信息是指示没有发生环境变化的信息(在目前情况下为0),则判定为“否”。
在步骤S105,如果变化信息是指示没有发生环境变化的信息,则处理返回步骤S102,重复从S102开始的后续步骤。另一方面,在步骤S105,如果变化信息是指示发生了环境变化的信息,则处理转到步骤S106。
在步骤S106,进行重新学习。
关于奖励量已急剧增加的情况,可以推断存在一些原因,例如来自新的细分用户的越来越多的支持。例如,可以推断奖励量可能急剧增加,因为在目标特定细分用户内的认知扩散,并且由于某种契机,所述扩散到达非目标特定细分用户。在这种情况下,进行重新学习,使得目标被改变成新获取的特定细分用户群,或者可以发布新获取的特定细分用户群(更广的细分层)另外接受的消息。
关于奖励量已急剧减少的情况,可以推断存在一些原因,例如发布的不适当的消息。例如,可以推断来自特定细分用户的支持已经下降,从而导致奖励量的急剧减少,例如,发布了包含让目标特定细分用户感到不快的词语或者无法使用户赞同的词语的文本。在这种情况下,进行重新学习,使得针对可能成为原因的一组所发布消息(包括可能降低用户的支持的词语的多个所发布消息)和针对用于生成所发布消息的词语的奖励被设定为负面奖励。
这样,可以进行重新学习,使得按照关于环境变化的信息重新定义奖励,并且给予适当的奖励。
注意,尽管这里描述了其中以特定细分用户为目标发布消息的例子,不过,本技术可以应用于发布的不打算针对任何特定细分用户的消息。
例如,当奖励量急剧增加时,可以推断导致奖励量急剧增加的发布消息包含了让用户感到愉快的词语或表达,从而可以进行重新学习,使得进一步发布使用此类词语或表达的消息。另外,当奖励量急剧减少时,可以推断导致奖励量急剧减少的发布消息包含使用户不快的词语或表达,从而可以进行重新学习,使得重新定义针对包含此类词语或表达的发布消息的奖励。
如上所述,当奖励量急剧增加时进行重新学习。换句话说,只要奖励量没有急剧增加,就不开始重新学习。如果奖励量没有急剧增加,就继续进行旨在增加奖励量的学习。
这同样适用于以下的实施例。另外,在以下的一些实施例中,当奖励量急剧减少时进行重新学习,如果奖励量没有急剧减少,就继续进行旨在增加奖励量的学习。
通过重新学习,重新学习之前的学习模型被修正为适当的学习模型,或者生成新的学习模型。重新学习被定义为旨在显著改变重新学习之前的学习模型的学习。
在重新学习之后,通过重新学习产生的学习模型被用于继续进行旨在增加奖励量的学习。通过重新学习产生的学习模型是适合于当前环境的学习模型,于是,通过重新学习产生的学习模型是防止奖励量的急剧增加或减少的学习模型,换句话说,是在奖励量的变动落入预定范围内的状态下,逐渐增加奖励量的学习模型。按照本技术,当已发生了环境变化时,可以生成适合于环境的学习模型。
<第二应用例>
下面描述上述信息处理设备10的第二应用例。
下面参考图8中所示的流程图描述第二应用例。第二应用例与第一应用例的相同之处在于,本技术被应用于作为应用的、生成对话的聊天机器人,不过与第一应用例的不同之处在于,本技术应用于生成闲聊的情况。
在步骤S121,进行预先学习。在应用是实现家庭AI智能体(agent)的对话功能并且例如生成无伤大雅的闲聊的应用的情况下,作为预先学习,与用户进行拟态对话,并学习得到用户高度评价的特定对话。
例如,在测试环境中与虚拟用户进行对话,以生成话语,从而进行学习。作为虚拟用户,可以设定满足特定条件的用户,比如属于预定年龄段(比如30多岁或40多岁)的用户,属于预定群体的用户,或居住在预定区域的用户。或者,可以在不设定这样的特定条件的情况下,进行旨在建立一般对话的学习。
另外,可以设置预先学习期,预先学习期是在通过预先学习生成一般(常用)学习模型并且用户实际开始使用信息处理设备10之后的预定时段,并且可以在预先学习期内进行学习。
在步骤S122,参考该学习模型生成并说出对话。即,实际进行参考该学习模型的处理。生成对话时输入的识别信息(Perceptual Data)例如是诸如时间和温度之类的环境信息、用户的概况、用户给出的响应、用户的感情、事件信息等。
在步骤S123,当给出对话的话语时,获取用户对话语的反应。获取用户的反应作为奖励。用户的反应的例子包括情感、感情和具体响应。这里,用户的状况、情感和感情可以基于通过相机识别的面部表情、生物感测、语音韵律等来估计,情感包括压力程度、满意度等。
在步骤S124,通过观察奖励量的增/减,生成变化信息。例如,当用户的反应变得负面时,奖励量急剧减少。例如,当用户的笑容变少、或者对于提出的类似话题表现出异乎寻常的反应时,推断用户的反应变得负面,从而奖励量减少。当奖励量急剧增加或减少时,生成指示发生了变化的变化信息。可以预先设定阈值和一定的时段,并且当在所述时段内,奖励量增加或减少的量等于或大于预先设定的阈值时,可以判定已发生了变化。
在步骤S125,判定是否发生了环境变化。在步骤S125,如果变化信息是指示没有发生环境变化的信息,则处理返回步骤S122,重复从S122开始的后续步骤。另一方面,在步骤S125,如果变化信息是指示发生了环境变化的信息,则处理转到步骤S126。在步骤S126,进行重新学习。
关于奖励量急剧减少的情况,可以推断存在一些原因,例如提出的不适当的话题。例如,可以推断用户的反应变得负面,并且奖励量急剧减少,因为进行了使用户感到不舒服或悲伤的对话。
例如,在用户遭受丧亲之痛的情况下,可以推断当在丧失亲人之前提出关于亲人的话题时,用户会给出良好的反应,但是当在丧失亲人之后提出关于亲人的话题时,用户会给出负面的反应(没有笑容、悲伤的面部表情、降低的语音音调、希望不要提出该话题的响应等)。
在这种情况下,进行重新学习,以便不向用户提出关于亲人的话题。换句话说,为了应对用户的新事务,进行旨在适应用户的新环境的重新学习。在目前情况下,重新定义奖励,并进行重新学习,使得对于与亲人有关的话题的奖励量被减少。
另外,例如,在用户已从地区A迁居到地区B的情况下,推断在迁居之前向用户提出关于地区A的话题时,用户会给出良好的反应,但是当在迁居之后提出关于地区A的话题时,用户会给出显示不感兴趣的响应。在这种情况下,进行重新学习,使得不提出关于地区A的话题,而是提出关于地区B的话题。
关于奖励量急剧增加的情况,可以推断存在一些原因,例如,用户现在感觉更好,因为在用户的家庭成员或生活方式方面发生了对用户来说令人愉快的变化。例如,在用户的孩子出生的情况下,推断当在孩子出生之前提出关于孩子的话题时,用户会给出显示不感兴趣的反应,但是相反,当在孩子出生之后提出关于孩子的话题时,用户会给出显示感兴趣的反应。
在这种情况下,进行重新学习,以便向用户提出关于孩子的话题。在目前情况下,重新定义奖励,并进行重新学习,使得对于与孩子有关的话题的奖励量被增大。
这样,可以进行重新学习,使得按照关于环境变化的信息重新定义奖励,并给予适当的奖励。
<第三应用例>
下面描述上述信息处理设备10的第三应用例。
下面参考图9中所示的流程图描述第三应用例。在第三应用例中,本技术应用于向用户提供推荐的应用。另外,在第三应用例中,作为第三应用例描述了实现家庭自动化的应用,用于进行控制,以便例如打开用户要移动到的地方的灯,预测用户的行动而打开电视接收机的电源,或者将室温调整到用户感到舒适的温度。
注意,这里作为例子描述了控制家用电器的情况,家用电器例如包括用于开关窗户或窗帘的驱动设备。
在进行涉及推荐的强化学习的情况下,行动是向用户提供推荐,奖励量是用户对提供的推荐的反应等。另外,重新学习是重新学习用于根据用户的状况的变化而进行新的推荐的学习模型。
在步骤S141,进行预先学习。例如,在工厂的制造工序中通过预先学习生成学习模型。此外,在家庭自动化的情况下,灯的位置、用户的行动模式等因用户而异。于是,另外设定在用户开始使用信息处理设备10之后的预定时段作为预先学习期,并在用户实际使用信息处理设备10的状态下继续进行学习。
例如,在用户在住宅内移动的时候,通过传感器感测用户行动,估计用户将移动到的目的地,并打开在估计的目的地的灯来进行学习。另外,例如,通过学习用户回家的时间,并在用户将回家的时间打开进门处的灯来进行学习。此外,例如,通过学习用户起床时,在电视接收机上观看某个频道的电视节目的习惯,并在用户起床的时间打开电视接收机的电源的来进行学习。
这样,进行旨在支持用户行动的预先学习,以生成学习模型。
在步骤S142,参考学习模型提供对用户行动的支持。在目前情况下,控制家用电器,作为对用户行动的支持。为提供对行动的支持而输入的识别信息(Perceptual Data)例如是日常的用户行动、从家用电器获得的信息等。从家用电器获得的信息例如包括打开或关闭灯的时间、打开或关闭电视接收机的电源的时间、空调开机时的室温或预设温度等。
在步骤S143,当控制家用电器时,获取用户对所述控制的反应。获取用户的反应作为奖励。用户的反应例如包括通过感测用户而估计的应激量和满意度、用户取消控制的次数、推断为无用的用户行动的次数等。
用户取消控制的次数例如是,在灯被打开之后,用户立即关闭灯,或在灯被关闭之后,用户立即打开灯的次数,或者用户给出与控制的内容相反的指令的次数,即,用户给出旨在取消控制内容的指令的次数。
在步骤S144,通过观察奖励量的增/减,生成变化信息。例如,当用户多次取消控制时,奖励量急剧减少。
在步骤S145,判定是否发生了环境变化。在步骤S145,如果变化信息是指示没有发生环境变化的信息,则处理返回步骤S142,重复从S142开始的后续步骤。另一方面,在步骤S145,如果变化信息是指示已经发生了环境变化的信息,则处理转到步骤S146。在步骤S146,进行重新学习。
关于奖励量急剧减少的情况,可以推断例如在奖励量的急剧减少之前,家用电器的控制令用户满意,但是在所述急剧减少之后,家用电器的控制已变得让用户不满意。例如,可以推断奖励量已急剧减少,因为用户存在换工作、搬家、分心之事、家庭成员的变化等,从而行为模式不再与变化之前相同。
在这种情况下,进行重新学习,以适应用户的新的生活模式。此外,当在重新学习期间可以推断生活模式变化的可能原因时,可基于推断结果进行重新学习。例如,如果推断生活模式由于孩子数量的增加而发生了变化,则可以通过应用孩子数量增加的人的生活模式来进行重新学习。
生活模式已变化的推断可以通过观察当奖励量急剧减少时(当变化信息指示已经发生了变化时)的用户的行动模式来进行。例如,在由于孩子夜里哭闹,从而在夜里更频繁地打开灯的情况下,奖励量急剧减少,因为在孩子数量增加之前不开灯的时间段内打开了灯。基于奖励量的急剧减少和在夜里更频繁地打开灯的行动模式,可以推断孩子的数量增加了。
如上所述,根据奖励或者奖励和环境变量,可以推断发生了环境变化的状况。此外,为了进行这样的推断,奖励可以是向量值,而不是标量值。
<第四应用例>
下面描述上述信息处理设备10的第四应用例。
下面参考图10中所示的流程图描述第四应用例。在第四应用例中,本技术应用于向用户提供推荐的应用。另外,作为第四应用例,描述了向用户呈现(推荐)内容的应用。
在步骤S161,进行预先学习。在向用户呈现内容的情况下,由于偏好因用户而异,因此设定在用户开始使用信息处理设备10之后的预定时段作为预先学习期,以便学习用户的偏好,并在用户实际使用信息处理设备10的状态下继续进行学习(优化)。
在步骤S162,参考学习模型向用户进行推荐。为推荐内容而输入的识别信息(Perceptual Data)例如是用户细分信息、用户行动、社交图谱等。另外,用户行动不仅包括现实世界中的行动历史,而且包括在Web上的行动历史和视听历史。
在步骤S163,当推荐内容时,获取用户对推荐的反应。获取用户的反应作为奖励。例如,通过查明诸如观看或购买所推荐内容之类的目标行动的有无,或者通过用户感测来估计用户的满意度,获取用户的反应。
在步骤S164,通过观察奖励量的增/减,生成变化信息。例如,当估计的用户的满意度降低或者购买内容的次数减少时,奖励量急剧减少。
在步骤S165,判定是否发生了环境变化。在步骤S165,如果变化信息是指示没有发生环境变化的信息,则处理返回步骤S162,重复从S162开始的后续步骤。另一方面,在步骤S165,如果变化信息是指示发生了环境变化的信息,则处理转到步骤S166。在步骤S166,进行重新学习。
如果奖励量急剧减少,则进行重新学习,使得推荐属于与先前推荐的类型不同的类型的内容。另外,如果奖励量急剧增加,则在急剧增加期间推荐的内容所属的类型被认为深受用户欢迎,并进行重新学习,使得优先推荐属于该类型的内容。
此外,在内容推荐的情况下,当奖励量仅仅轻微增加或减少时,换句话说,当变化信息持续一段时间一直指示没有变化时,可以进行重新学习。当奖励量仅仅轻微增加或减少时,可以推断推荐是按照对用户来说最佳的学习模型进行的;不过,存在毫无惊喜地进行推荐的可能性。
于是,可以进行重新学习,使得进行意料不到的推荐。在这种情况下,可以在重置学习模型之后进行重新学习。在这种情况下,在重新学习之前的学习模型可以仍然存储在学习模型存储单元63中,以便与新创建的学习模型一起存储在学习模型存储单元63中。如参考图5和6所述,多个学习模型可以存储在学习模型存储单元63中,并且如果当按照新创建的学习模型进行推荐时,奖励量持续减少,则可以再次使用原来的模型。
如上所述,当奖励量的增减停滞不前时,换句话说,当在一段时间内连续生成指示没有变化的变化信息时,可以识别出做出类似推断的倾向,这意味着推荐似乎总是引起相同的用户反应。在这种情况下,为了确保意外性和意外发现,可以进行重新学习,以便改变学习模型。
这样的重新学习也是摆脱过度训练的状态的有效手段。
<第五应用例>
下面描述上述信息处理设备10的第五应用例。
下面参考图11中所示的流程图描述第五应用例。在第五应用例中,本技术应用于作为应用的、诸如车辆之类的移动体的控制。另外,作为第五应用例,例如描述了向用户(驾驶员)提供驾驶辅助的应用。驾驶辅助是辅助驾驶员舒适地驾驶车辆,比如车辆的制动控制、方向盘操作控制、设定车辆内部的环境等。
在进行涉及移动体的控制的强化学习的情况下,行动是控制移动体(车辆),并且奖励量是操作受控移动体的用户的感情、与移动体相关的环境信息等。另外,重新学习是重新学习用于控制移动体的学习模型。
在步骤S181,进行预先学习。在提供驾驶辅助的应用的情况下,由于关于诸如选择的驾驶路线、加速度和转向之类的驾驶的偏好,以及关于车内环境(比如车内的温度之类)的偏好因各个用户而异,因此预先学习期被设定为在用户开始使用信息处理设备10之后的预定时段,在所述时段内进行预先学习。
在步骤S182,参考学习模型提供驾驶辅助。即,实际进行参考该学习模型的处理。提供驾驶辅助时输入的识别信息(Perceptual Data)例如是在驾驶期间获取的各种数据。作为所述数据,可以使用控制器区域网络(CAN)内的数据。CAN是用于在汽车内部连接诸如电子控制单元(ECU:发动机控制单元)、发动机和制动器之类的组件,传递组件的状态,和发送控制信息的网络。来自这样的网络的信息可以用作识别信息。
在步骤S183,获取用户对驾驶辅助的满意度。获取用户的反应作为奖励。例如,可以定义表示驾驶员的舒适性的变量,并且基于所述定义的变量可以用作奖励量。另外,可以获取车辆的稳定性、用户的生物信息、以及从生物信息等估计的感情和情感信息,作为奖励量。
例如,当用户进行取消特定辅助的操作时,例如,当在通过驾驶辅助使车辆加速之后,用户使车辆减速时,或者当在进行升高车内温度的设定之后,用户降低车内的预设温度时,奖励量急剧减少。另外,当获取用户的生物信息,比如指示用户正在出汗的信息,并且推断用户的反应不佳,因为通过驾驶辅助预设的车内温度较高时,奖励量也急剧减少。
另一方面,例如,当判定通过驾驶辅助使行驶变得稳定,比如车辆的摇晃变小、突然加速或突然减速消失等时,奖励量急剧增加。
在步骤S184,通过观察奖励量的增/减,生成变化信息。例如,当行驶变得不太稳定或者用户的反应变得负面时,奖励量急剧减少。
在步骤S185,判定是否已发生了环境变化。在步骤S185,如果变化信息是指示没有发生环境变化的信息,则处理返回步骤S182,重复从S182开始的后续步骤。另一方面,在步骤S185,如果变化信息是指示已发生了环境变化的信息,则处理转到步骤S186。在步骤S186,进行重新学习。
例如,在驾驶员受伤,以与之前不同的方式进行驾驶,并且驾驶辅助不再适合于该驾驶员,从而导致奖励量的急剧减少的情况下,进行重新学习,以便生成适合于受伤的驾驶员的学习模型。
此外,例如,可能存在其他驾驶员驾驶该车辆,并且驾驶辅助不再合适,从而导致奖励量的急剧减少的情况。在这种情况下,进行重新学习,以便提供适合于新的驾驶员的驾驶辅助。
驾驶辅助用于车辆的安全驾驶。例如,基于是否安装(使用)了提供此类驾驶辅助的信息处理设备10,可以估计车辆的保险费。另外,驾驶辅助的细节,比如与当判定要进行重新学习时的环境变化相关的信息可以用于估计保险费。
<第六用例>
下面描述上述信息处理设备10的第六应用例。
下面参考图12中所示的流程图描述第六应用例。在第六应用例中,作为应用,本技术应用于多个车辆的管理(一组车辆的控制)。
例如,存在配备有时常连接到因特网的车辆(称为联网汽车)。这样的联网汽车被配置成能够经由因特网获取信息,从而例如能够进行按照交通信息的导航、移动控制、管理等。第六应用例中的应用(基于该应用进行操作的信息处理设备10)可以应用于在联网汽车中进行按照交通信息的导航、移动控制、管理等的情况。
另外,第六应用例中的应用(基于该应用进行操作的信息处理设备10)例如可以应用于包括公共汽车和出租车的公共交通工具的管理,集中管理的共享汽车的管理,与特定服务(例如,汽车租赁)关联的车辆的管理等。
在步骤S201,进行预先学习。作为预先学习,设定在开始运用之前可以在一定程度上被设定的管理方法等。此外,由于学习的细节因所管理的车辆、服务等而异,因此在开始运用之后继续进行学习。
在步骤S202,参考学习模型进行管理。即,实际进行参考学习模型的处理。管理车辆时输入的识别信息(Perceptual Data)例如包括日常的环境信息、交通信息、天气信息等。另外,可以获取关于活动的信息,作为识别信息,因为在有活动的日子等可能发生交通拥堵。
此外,可以获取关于所管理的各个车辆的位置信息、行驶信息等。此外,可以获取顾客信息。
在步骤S203,获取例如指示行驶是否最佳的信息。获取该信息作为奖励。例如,在获取交通拥堵信息,并且进行用于避开交通拥堵的导航的情况下,如果车辆在短时间内到达目的地而没有遇到交通堵塞,则可以推断进行了正确的预测。在这种情况下,奖励量急剧增加。相反,如果到达目的地用时太多,则奖励量急剧减少。
另外,在公共汽车等的情况下,如果公共汽车按照运行时间表行驶,则奖励量变得较高,而如果公共汽车没有按照运行时间表行驶,则奖励量变得较低。另外,当所管理的车辆行驶在的区域(称为对象区域)的交通拥堵量已降低时,可以推断通过所管理车辆的适当管理,各个车辆没有被卷入交通拥堵中,并且对象区域中的交通拥堵已减轻。在这种情况下,奖励量增加。相反,当对象区域中的交通拥堵加剧时,即使各个车辆没有被卷入交通拥堵中,也可以允许奖励量减少。
在步骤S204,通过观察奖励量的增/减,生成变化信息。
在步骤S205,判定是否已发生了环境变化。在步骤S205,如果变化信息是指示没有发生环境变化的信息,则处理返回步骤S202,重复从S202开始的后续步骤。另一方面,在步骤S205,如果变化信息是指示已发生了环境变化的信息,则处理转到步骤S206。在步骤S206,进行重新学习。
例如,在道路因施工而封闭,从而导致在其附近更可能发生交通拥堵的环境变化的情况下,存在按照施工前的学习模型管理的车辆被卷入交通拥堵中,结果奖励量减少的可能性。另外,在新建商业设施或办公大楼,从而导致在其附近存在大量的人并且更可能发生交通堵塞,或者大量的人乘坐公共交通工具在其附近移动的环境变化的情况下,存在如果按照在建造建筑物之前的学习模型管理车辆,则奖励量减少的可能性。
在这种情况下,进行重新学习,以便避开可能发生交通拥堵的拥堵道路和时间段。另外,在推断公共交通工具的用户数增加的情况下,进行重新学习,以便在用户数增加的路线中增加运输服务的数量。
通过临时强化基于奖励的反馈,可以便利适合于新环境的快速重新学习。继续进行学习,以便灵活地应对环境变化,同时进一步强化关于奖励量的巨大变化的反馈,从而可以便利更灵活且快速的重新学习。
注意,可以想到由施工引起的道路封闭是临时性的,在施工之后恢复原来的状态。为了应对这样的临时环境变化,环境变化之前的学习模型(重新学习之前的学习模型)可以仍然存储在学习模型存储单元63中,以便与新创建的学习模型一起存储在学习模型存储单元63中。如参考图5和6所述,多个学习模型可以存储在学习模型存储单元63中,并且如果当施工完成时环境已变化,则可以再次使用原来的模型。
<第七应用例>
下面描述上述信息处理设备10的第七应用例。
下面参考图13中所示的流程图描述第七应用例。在第七应用例中,作为应用,本技术应用于多个车辆的管理(一组车辆的控制)。另外,描述了其中应用在车辆中提供与移动性相关的内容的例子。注意,尽管这里的描述假设车辆主要是汽车,不过,车辆包括火车、轮船、飞机等。
例如,第七应用例中的应用(基于该应用操作的信息处理设备10)在诸如包括公共汽车和出租车的公共交通工具、共享汽车、或与特定服务(例如,汽车租赁)关联的车辆之类的车辆中,向车辆的用户提供某些内容,比如广告、使用车辆的折扣券、或者位于周边区域的商业设施的折扣券。
在步骤S221,进行预先学习。可以想到如果提供的内容符合目标年龄段、用户偏好等,则可以获得更多的提供内容的效果。作为预先学习,在开始运用之前,进行一般的学习,并在开始运用之后,进行针对车辆的用户进行优化的学习。
在步骤S222,参考学习模型提供内容。即,实际进行参考学习模型的处理。提供内容时输入的识别信息(Perceptual Data)例如包括日常的环境信息、交通信息、天气信息等。另外,可以获得活动信息,作为识别信息,因为在有活动的日子等可以提供与活动有关的信息。
此外,可以获取关于所管理的各个车辆的位置信息、行驶信息等。此外,可以获取顾客信息。顾客信息可以包括各种车辆(例如,诸如公共汽车和出租车之类的车辆)的利用状态,各种服务(可以是除车辆的利用以外的服务)的利用状态等。
在步骤S223,指示是否提供了针对用户优化的任何内容的信息。获取该信息作为奖励。假定提供广播作为所述内容,则获取与广告的广告效果有关的信息。
例如,获取包括在内容中呈现的服务的使用率和销售额,以及该服务的保留率(继续使用该服务的人的百分比)的信息,并且如果使用率、销售额和保留率提高,则可以推断呈现给用户的内容是优化的。在这种情况下,奖励量急剧增加。相反,如果使用率、销售额或保留率降低,则奖励量急剧减少。
另外,可以获取取决于内容的观看时间或对所提供内容的反应的奖励量。例如,如果内容的观看时间长,则可以推断已提供了适合于用户的内容。相反,如果内容的观看时间短,则可以推断未能提供适合于用户的内容。
此外,可以获取取决于一组车辆的运行效率的奖励量。例如,如果用户数因关于折扣的内容的提供而增加,则可以推断运行效率得到提高。在这种情况下,奖励量急剧增加。
在步骤S224,通过观察奖励量的增/减,生成变化信息。在步骤S225,判定是否已发生了环境变化。在步骤S225,如果变化信息是指示没有发生环境变化的信息,则处理返回步骤S222,重复从S222开始的后续步骤。另一方面,在步骤S225,如果变化信息是指示已发生了环境变化的信息,则处理转到步骤S226。在步骤S226,进行重新学习。
例如,在商业设施建成的情况下,为该商业设施做广告增加了附近区域的人数,从而可以推断广告产生了效果;不过,可推断当热潮一过,广告将产生较少的效果。当广告产生较少效果时,为了再次提高广告效果,进行重新学习,以便与其他广告相比,优先为该商业设施做广告。
通过临时强化基于奖励的反馈,可便利适合新环境的快速重新学习。
<第八应用例>
下面描述上述信息处理设备10的第八应用例。
下面参考图14中所示的流程图描述第八应用例。在第八应用例中,作为应用,本技术应用于机器人的控制。另外,描述了其中应用被应用于例如商业设施中的引导机器人的例子。
例如,第八应用例中的应用(基于该应用操作的信息处理设备10)在商业设施中通过回答用户的问题,和将用户引导到其目的地来支持用户(顾客)。
在进行涉及机器人控制的强化学习的情况下,行动是为用户提供某种支持,奖励量是用户对所提供的支持的反应等。另外,重新学习是重新学习用于提供适应环境变化的支持的学习模型。
在步骤S241,进行预先学习。预先学习是通过利用与将入住该商业设施的租户的安排有关的信息、与租户有关的信息等,在测试环境中进行模拟来进行的。另外,在开始运用之后,通过与用户的实际交互继续进行学习。此外,例如,学习响应于用户的提问的导航和不会引起用户的恐惧的距离感的保证。
在步骤S242,参考学习模型提供引导(支持)。即,实际进行参考学习模型的处理。提供引导时输入的识别信息(Perceptual Data)例如包括商业设施中所具备的各种环境条件、关于当前环境的信息等。例如,获取指示租户数减少或增加的信息、指示租户已被更换的信息、指示租户的面积已变化的信息等。另外,识别信息可以是从商业设施获得的信息,比如关于使用租户的顾客的信息,或者可以是从商业设施的用户获得的信息。
在步骤S243,获取用于判定引导是否产生了效果的信息。获取该信息作为奖励。例如,在引导用户的情况下,获取引导是否成功、顾客的满意度等。
例如,通过跟踪并监视用户,并判定用户是否到达期望的位置(租户),可以查明引导是否成功。另外,通过感测用户,并基于感测来判定反应,例如,用户是否理解(理解程度)和用户是否满意(满意度),可以查明顾客的满意度。或者,可以通过基于面部表情识别或生物感测的感情和情感估计,来估计应激量等。
此外,当通过引导,用户的满意度提高时,比如当用户到达了期望的租户,或者用户对引导的印象良好时,销售额可能上升。于是,销售额是否已提高可以用作奖励。当销售额上升时,奖励量增加,而当销售额下降时,奖励量减少。
在步骤S244,通过观察奖励量的增/减,生成变化信息。在步骤S245,判定是否已发生了环境变化。在步骤S245,如果变化信息是指示没有发生环境变化的信息时,处理返回步骤S242,重复从S242开始的后续步骤。另一方面,在步骤S245,如果变化信息是指示已发生了环境变化的信息时,处理转到步骤S246。在步骤S246,进行重新学习。
例如,当由于租户的变更或者基于租户的变更的顾客群的变化,顾客对传统的引导方法不满意,并且由此推断奖励量已急剧减少时,进行应对租户的变更的重新学习,或者应对顾客群的变化的重新学习。另外,例如,当销售额下降时,进行重新学习,以便提高销售额。
<第九应用例>
下面描述上述信息处理设备10的第九应用例。
下面参考图15中所示的流程图描述第九应用例。在第九应用例中,作为应用,本技术应用于金融系统。另外,这里描述了其中应用呈现例如关于投资的信息的例子。例如,第九应用例中的应用(基于该应用操作的信息处理设备10)监视诸如汇率趋势之类的各种经济指标,并计算最佳投资条件。
在步骤S261,进行预先学习。预先学习是通过使用呈现给用户的与商品有关的信息(比如股票价格和投资信托价格)来进行的。
在步骤S262,参考学习模型提供最佳投资条件。即,实际进行参考学习模型的处理。呈现投资条件时输入的识别信息(Perceptual Data)例如是诸如汇率趋势之类的各种经济指标、新闻、关于在市场上成为感兴趣话题的商品的信息等。
在步骤S263,获取投资结果。获取该信息作为奖励。例如,当通过基于所呈现的投资条件的投资,获得赢利时,奖励量增加,而当没有获得赢利时(当产生亏损时),奖励量减少。换句话说,如果如在呈现时所预测的那样,获得基于所呈现的投资条件的投资的回报,则奖励量增加,而如果回报与预测不符,则奖励量减少。
在步骤S264,通过观察奖励量的增/减,生成变化信息。在步骤S265,判定是否已发生了环境变化。在步骤S265,如果变化信息是指示没有发生环境变化的信息,则处理返回步骤S262,重复从S262开始的后续步骤。另一方面,在步骤S265,如果变化信息是指示已发生了环境变化的信息,则处理转到步骤S266。在步骤S266,进行重新学习。
例如,如果发生了影响经济趋势的事件,比如政策的变更或者影响经济的事情,则状况现在与呈现投资条件时的状况不同,从而获得的投资结果可能与预期回报不同。在这种情况下,由于结果与预测相反,因此奖励量急剧减少(结果低于预测),或者急剧增加(结果超过预测),并且检测到已发生了环境变化,从而随后进行重新学习。
在这种情况下,考虑到已发生的事件(新的环境)进行重新学习。如果结果低于预测,则进行重新学习,使得重新获得预测的结果,而如果结果超过预测,则进行重新学习,以便产生将进一步改善结果的预测。
按照本技术,可以灵活地应对短期变化,而不受诸如闪电崩盘之类的极短期变化的影响。即,按照本技术,可以进行稳定的呈现,同时防止呈现的投资条件因临时变化而急剧变化。另一方面,当出现可能在很长一段时间内产生影响的不利状况时,可以考虑到所述影响进行重新学习,并且可以采取对抗所述影响的行动。
<第十应用例>
下面描述上述信息处理设备10的第十应用例。
下面参考图16中所示的流程图描述第十应用例。在第十应用例中,作为应用,本技术应用于进行识别和/或认证的系统。另外,例如,这里描述了其中应用进行个人认证的例子。
例如,第十应用例中的应用(基于该应用操作的信息处理设备10)进行使用智能电话机中的相机的个人认证,使用公共设施、办公室等中的相机的个人认证,以及基于他/她平常的行为倾向(比如在Web上的行为和在真实世界中的行为)确认个人的身份的认证。
在进行涉及认证的强化学习的情况下,行动是对用户进行认证的尝试,奖励量是基于对用户进行认证的尝试结果的认证准确性的评价信息。另外,重新学习是重新学习适合于用户的状态的学习模型。
在步骤S281,进行预先学习。作为预先学习,进行学习,以便实现基于诸如待识别(认证)用户的面部和日常生活中的行为倾向之类的特征值信息的识别(认证)。
例如,在预期的认证基于包括用户的面部的特征值信息的情况下,通过从多个角度拍摄用户面部的图像,以提取特征值信息来进行学习。另外,在预期的认证基于包括日常生活中的行为倾向等的特征值信息的情况下,累积在初始学习期期间的用户的行为倾向。
在步骤S282,参考学习模型进行认证。即,实际进行参考学习模型的处理。认证期间输入的识别信息(Perceptual Data)例如是关于目标用户的外部特征值(特别地,多视点或动态累积信息)和行为信息。
在步骤S283,获取认证结果。获取该信息作为奖励。例如,当认证成功时,奖励量增加,而当认证不成功时,奖励量减少。即,获取基于进行认证的尝试结果的认证准确性的评价信息,作为奖励量。
成功认证表示认证所针对的用户(称为真正用户)被认证为真正用户的情况。成功的认证还包括不是真正用户的用户被认证为非真正用户的情况。如果认证成功,即,如果认证准确性高,则奖励量增加。
另一方面,不成功的认证表示尽管事实上进行认证的尝试所针对的是真正用户,但是该真正用户被认证为非真正用户的情况。不成功的认证还包括非真正用户被认证为真正用户的情况。如果认证不成功,即,如果认证准确性低,则奖励量减少。
在步骤S283,如果怀疑例如进行的面部认证的结果是否正确,换句话说,如果认证准确性低,并且奖励量低于预定值,则可以进行其他认证方法,比如通过输入密码进行认证。在基于密码的认证之后,可以判定基于密码的认证的结果是否与初始估计相同(初始估计是否正确)。
例如,当通过面部认证未确认但是表明用户可能是真正用户时,使用密码输入来进行认证。结果,如果确认用户是真正用户,则得出面部认证的结果正确的结论,于是推断面部认证的准确性没有降低。另一方面,如果确认用户不是真正用户,则得出面部认证的结果不正确的结论,于是推断面部认证的准确性降低。
如上所述,在可以推断认证的准确性已降低的状况下进行重新学习。即,当奖励量急剧降低时进行重新学习。
在步骤S284,通过观察奖励量的增/减,生成变化信息。在步骤S285,判定是否发生了环境变化。在步骤S285,如果变化信息是指示没有发生环境变化的信息,则处理返回步骤S282,重复从S282开始的后续步骤。另一方面,在步骤S285,如果变化信息是指示已发生了环境变化的信息,则处理转到步骤S286。在步骤S286,进行重新学习。
例如,如果用户的外观已变化,比如认证所针对的用户现在具有不同的发型、该用户现在戴着眼镜、该用户现有戴上眼罩、该用户现在已受伤、或者该用户已晒黑的情况,则如果继续使用现有的学习模型,那么认证准确性可能降低。在这种情况下,进行重新学习,以适应用户外观的变化。在这种情况下,用户外观的变化被视为环境变化。
另外,如果用户的生活方式已变化,比如认证所针对的用户换了工作、该用户已搬家、或者该用户现有具有不同的家庭成员的情况,并且已学习的包括日常生活中的行为倾向的特征值信息不再适合,则重新学习适合于变化后的生活方式的包括日常生活中的行为倾向的特征值信息。在这种情况下,用户的行为倾向等的变化被视为环境变化。
此外,为了应用其他认证方法,可以进行适合于这样的其他认证方法的重新学习。例如,当判定作为当前的认证方法的面部认证的准确性降低时,可以决定转移到基于行为倾向的认证,并且作为重新学习,可以进行用于进行基于行为倾向的认证的学习。
如上所述,在第十实施例中,在基于认证算法的认证不成功的情况下,换句话说,在基于认证算法的认证的准确性降低的情况下,通过设定适当的奖励量,可以检测准确性的这种降低。另外,认证算法的准确性的降低可以被视为用户发生了某种变化的情况。
这里,描述了具体的应用例,即第一到第十应用例;不过,本技术的范围不限于上述10个应用例。本技术也可以应用于除以上应用例以外的应用。
按照本技术,可以检测环境变化。另外,当检测到环境变化时,可以进行重新学习,使得更新当前使用的学习模型或者生成新的学习模型。
<关于记录介质>
上述一系列的处理步骤可以用硬件执行,或者可以用软件执行。在用软件执行所述一系列处理步骤的情况下,包含在所述软件中的程序安装在计算机中。这里,计算机的例子包括并入专用硬件中的计算机,通过安装各种程序,能够执行各种功能的通用个人计算机等。
至于硬件构成,可以如图1中图解所示的信息处理设备10一样地构成通过执行程序来进行上述一系列处理步骤的计算机。图1中图解所示的信息处理设备10中的CPU 21例如将存储在存储设备30中的程序载入RAM 23中,并执行该程序,从而进行上述一系列的处理步骤。
由计算机(CPU 21)执行的程序可以记录在可移动记录介质41中,以例如套装介质的形式提供。此外,程序可以经由有线或无线传输介质,比如局域网、因特网或数字卫星广播来提供。
在计算机中,通过将可移动记录介质41装入驱动器31中,程序可经由接口27安装在存储设备30中。此外,程序也可以经由有线或无线传输介质,由通信设备33接收,以便安装在存储设备30中。此外,程序可以预先安装在ROM 22或存储设备30中。
注意,由计算机执行的程序可以是按本文中所述的顺序,时序地进行处理步骤的程序,或者可以是并行地或者基于需要,例如当进行调用时进行处理步骤的程序。
另外,本文中的系统表示由多个设备组成的整个装置。
注意,本文中所述的效果只是例子,而不是限制性的,可以提供其他的效果。
注意,本技术的实施例不限于上述实施例,可以产生各种修改,而不脱离本技术的范围。
注意,本技术可以具有以下构成。
(1)一种信息处理设备,包括:
确定单元,所述确定单元基于预定学习模型,确定响应于输入信息的行动;和
学习单元,当对于所述行动的奖励量的变化是超过预定标准的变化时,所述学习单元进行所述学习模型的重新学习。
(2)按照(1)所述的信息处理设备,其中
所述学习模型是通过强化学习生成或更新的学习模型。
(3)按照(2)所述的信息处理设备,其中
所述强化学习是使用长短期记忆(LSTM)的强化学习。
(4)按照(1)-(3)任意之一所述的信息处理设备,其中
通过判定所述奖励量是否变动来判定是否已经发生了环境的变化。
(5)按照(1)-(4)任意之一所述的信息处理设备,其中
当对于所述行动的奖励量的变化是不超过所述预定标准的变化时,对于所述学习模型进行与所述重新学习不同的其他重新学习。
(6)按照(5)所述的信息处理设备,其中
所述重新学习比所述其他重新学习更大程度地改变所述学习模型。
(7)按照(1)-(6)任意之一所述的信息处理设备,其中
当对于所述行动的奖励量的变化是不超过所述预定标准的变化时,不进行所述学习模型的重新学习。
(8)按照(1)-(7)任意之一所述的信息处理设备,其中
基于所述预定学习模型,新生成作为所述重新学习的结果而获得的新的学习模型。
(9)按照(1)-(8)任意之一所述的信息处理设备,其中
当发生超过所述预定标准的变化时,所述预定学习模型被切换到与所述预定学习模型不同的其他学习模型,所述其他学习模型是包含在所述信息处理设备中的多个学习模型之一,或者能够由所述信息处理设备从外部获得。
(10)按照(1)-(9)任意之一所述的信息处理设备,其中
所述奖励量包括关于用户的反应的信息。
(11)按照(1)-(10)任意之一所述的信息处理设备,其中
所述行动包括生成文本并将文本呈现给用户,
所述奖励量包括文本被呈现给的用户的反应,和
所述重新学习包括用于生成所述文本的学习模型的重新学习。
(12)按照(1)-(10)任意之一所述的信息处理设备,其中
所述行动包括向用户进行推荐,
所述奖励量包括所述推荐被呈现给的用户的反应,和
所述重新学习包括用于根据用户的状态的变化而进行新的推荐的重新学习。
(13)按照(1)-(12)任意之一所述的信息处理设备,其中
当所述奖励量的变化是超过所述预定标准的变化时,推断所述变化的原因,并基于推断的原因进行重新学习。
(14)按照(1)-(13)任意之一所述的信息处理设备,其中
当所述奖励量不变动的时段持续预定时段时,进行用于生成新的学习模型的重新学习。
(15)按照(1)-(10)任意之一所述的信息处理设备,其中
所述行动包括移动体的控制,
所述奖励量包括与所述移动体相关的环境信息,和
所述重新学习包括用于控制所述移动体的学习模型的重新学习。
(16)按照(1)-(10)任意之一所述的信息处理设备,其中
所述行动包括对用户进行认证的尝试,
所述奖励量包括基于所述对用户进行认证的尝试的结果的认证准确性的评价信息,和
当所述奖励量的变化是超过预定标准的变化时,判定所述用户处于预定的特定状态,并进行适合于所述特定状态的重新学习。
(17)一种信息处理方法,包括:
通过信息处理设备
基于预定学习模型,确定响应于输入信息的行动;和
当对于所述行动的奖励量的变化是超过预定标准的变化时,进行所述学习模型的重新学习。
(18)一种程序,所述程序使计算机执行包括以下步骤的处理:
基于预定学习模型,确定响应于输入信息的行动;和
当对于所述行动的奖励量的变化是超过预定标准的变化时,进行所述学习模型的重新学习。
附图标记列表
10 信息处理设备
21 CPU
22 ROM
23 RAM
24 主总线
25 桥接器
26 外部总线
27 接口
28 输入设备
29 输出设备
30 存储设备
31 驱动器
32 连接端口
33 通信设备
41 可移动记录介质
42 外部连接设备
43 通信网络
61 预先学习单元
62 学习单元
63 学习模型存储单元
64 识别信息获取单元
65 输出信息生成单元
66 奖励量设定单元
67 变化信息生成单元
68 环境变化判定单元
91 学习模型。

Claims (18)

1.一种信息处理设备,包括:
确定单元,所述确定单元基于预定学习模型,确定响应于输入信息的行动;和
学习单元,当对于所述行动的奖励量的变化是超过预定标准的变化时,所述学习单元进行所述学习模型的重新学习。
2.按照权利要求1所述的信息处理设备,其中
所述学习模型是通过强化学习生成或更新的学习模型。
3.按照权利要求2所述的信息处理设备,其中
所述强化学习是使用长短期记忆(LSTM)的强化学习。
4.按照权利要求1所述的信息处理设备,其中
通过判定所述奖励量是否变动来判定是否已经发生了环境的变化。
5.按照权利要求1所述的信息处理设备,其中
当对于所述行动的奖励量的变化是不超过所述预定标准的变化时,对于所述学习模型进行与所述重新学习不同的其他重新学习。
6.按照权利要求5所述的信息处理设备,其中
所述重新学习比所述其他重新学习更大程度地改变所述学习模型。
7.按照权利要求1所述的信息处理设备,其中
当对于所述行动的奖励量的变化是不超过所述预定标准的变化时,不进行所述学习模型的重新学习。
8.按照权利要求1所述的信息处理设备,其中
基于所述预定学习模型,新生成作为所述重新学习的结果而获得的新的学习模型。
9.按照权利要求1所述的信息处理设备,其中
当发生超过所述预定标准的变化时,所述预定学习模型被切换到与所述预定学习模型不同的其他学习模型,所述其他学习模型是包含在所述信息处理设备中的多个学习模型之一,或者能够由所述信息处理设备从外部获得。
10.按照权利要求1所述的信息处理设备,其中
所述奖励量包括关于用户的反应的信息。
11.按照权利要求1所述的信息处理设备,其中
所述行动包括生成文本并将所述文本呈现给用户,
所述奖励量包括所述文本被呈现给的用户的反应,和
所述重新学习包括用于生成所述文本的学习模型的重新学习。
12.按照权利要求1所述的信息处理设备,其中
所述行动包括向用户进行推荐,
所述奖励量包括所述推荐被呈现给的用户的反应,和
所述重新学习包括用于根据用户的状态的变化而进行新的推荐的重新学习。
13.按照权利要求1所述的信息处理设备,其中
当所述奖励量的变化是超过所述预定标准的变化时,推断所述变化的原因,并基于推断的原因进行重新学习。
14.按照权利要求1所述的信息处理设备,其中
当所述奖励量不变动的时段持续预定时段时,进行用于生成新的学习模型的重新学习。
15.按照权利要求1所述的信息处理设备,其中
所述行动包括移动体的控制,
所述奖励量包括与所述移动体相关的环境信息,和
所述重新学习包括用于控制所述移动体的学习模型的重新学习。
16.按照权利要求1所述的信息处理设备,其中
所述行动包括对用户进行认证的尝试,
所述奖励量包括基于所述对用户进行认证的尝试的结果的认证准确性的评价信息,和
当所述奖励量的变化是超过预定标准的变化时,判定所述用户处于预定的特定状态,并进行适合于所述特定状态的重新学习。
17.一种信息处理方法,包括:
通过信息处理设备,
基于预定学习模型,确定响应于输入信息的行动;和
当对于所述行动的奖励量的变化是超过预定标准的变化时,进行所述学习模型的重新学习。
18.一种程序,所述程序使计算机执行包括以下步骤的处理:
基于预定学习模型,确定响应于输入信息的行动;和
当对于所述行动的奖励量的变化是超过预定标准的变化时,进行所述学习模型的重新学习。
CN202080069863.8A 2019-10-11 2020-10-01 信息处理设备、信息处理方法和程序 Pending CN114503133A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019-187424 2019-10-11
JP2019187424 2019-10-11
PCT/JP2020/037433 WO2021070732A1 (ja) 2019-10-11 2020-10-01 情報処理装置、情報処理方法、並びにプログラム

Publications (1)

Publication Number Publication Date
CN114503133A true CN114503133A (zh) 2022-05-13

Family

ID=75437934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080069863.8A Pending CN114503133A (zh) 2019-10-11 2020-10-01 信息处理设备、信息处理方法和程序

Country Status (4)

Country Link
US (1) US20220335292A1 (zh)
JP (1) JPWO2021070732A1 (zh)
CN (1) CN114503133A (zh)
WO (1) WO2021070732A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210370503A1 (en) * 2020-05-29 2021-12-02 Wipro Limited Method and system for providing dynamic cross-domain learning
US20230196487A1 (en) * 2021-12-21 2023-06-22 Nec Corporation Automated negotiation agent adaptation

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4699598B2 (ja) * 2000-11-20 2011-06-15 富士通株式会社 問題解決器として動作するデータ処理装置、及び記憶媒体
EP3435296A4 (en) * 2016-03-25 2019-07-03 Sony Corporation INFORMATION PROCESSING DEVICE
JP7130984B2 (ja) * 2018-03-01 2022-09-06 日本電気株式会社 画像判定システム、モデル更新方法およびモデル更新プログラム

Also Published As

Publication number Publication date
US20220335292A1 (en) 2022-10-20
JPWO2021070732A1 (zh) 2021-04-15
WO2021070732A1 (ja) 2021-04-15

Similar Documents

Publication Publication Date Title
TWI626615B (zh) 資訊提供裝置及儲存提供程式的資訊之非暫態電腦可讀媒體
US20200239002A1 (en) Automated emotion detection and environmental response
CN109416733B (zh) 便携式个性化
Vögel et al. Emotion-awareness for intelligent vehicle assistants: A research agenda
CN110877586B (zh) 用于操作机动车辆的虚拟助手的方法和相应的后端系统
Tan et al. Human–machine interaction in intelligent and connected vehicles: a review of status quo, issues, and opportunities
US11237565B2 (en) Optimal driving characteristic adjustment for autonomous vehicles
CN114503133A (zh) 信息处理设备、信息处理方法和程序
US20220360641A1 (en) Dynamic time-based playback of content in a vehicle
US20210349433A1 (en) System and method for modifying an initial policy of an input/output device
CN104914752A (zh) 将用户输入准确地变换为具体系统功能的装置和方法
Riener et al. User experience design in the era of automated driving
US20220402517A1 (en) Systems and methods for increasing the safety of voice conversations between drivers and remote parties
Antrobus et al. ‘Trust me–I’m AutoCAB’: Using natural language interfaces to improve the trust and acceptance of level 4/5 autonomous vehicles
Flad et al. Personalisation and control transition between automation and driver in highly automated cars
CN113386521A (zh) 一种定制化车载空调的控制方法、装置、定制化车载空调系统及计算机可读存储介质
JP7448502B2 (ja) 主体感推定モデル、装置及び方法、並びに行動変容促進モデル
Hua How to establish robotaxi trustworthiness through In-Vehicle interaction design
Du et al. Towards Proactive Interactions for In-Vehicle Conversational Assistants Utilizing Large Language Models
Krömker HCI in Mobility, Transport, and Automotive Systems. Automated Driving and In-Vehicle Experience Design: Second International Conference, MobiTAS 2020, Held as Part of the 22nd HCI International Conference, HCII 2020, Copenhagen, Denmark, July 19–24, 2020, Proceedings, Part I
Park et al. Effects of Autonomous Driving Context and Anthropomorphism of in-Vehicle Voice Agents on Intimacy, Trust, and Intention to Use
US20230206915A1 (en) Method and system for assisting a user
Barisic et al. Driver model for Take-Over-Request in autonomous vehicles
JP7331767B2 (ja) 情報処理装置、プログラム、及び情報処理方法
Vetter The adoption of smart systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination