CN114690896A - 信息处理装置、信息处理方法及存储介质 - Google Patents

信息处理装置、信息处理方法及存储介质 Download PDF

Info

Publication number
CN114690896A
CN114690896A CN202111575412.4A CN202111575412A CN114690896A CN 114690896 A CN114690896 A CN 114690896A CN 202111575412 A CN202111575412 A CN 202111575412A CN 114690896 A CN114690896 A CN 114690896A
Authority
CN
China
Prior art keywords
metadata
user
information
unit
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111575412.4A
Other languages
English (en)
Inventor
渡边和哉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of CN114690896A publication Critical patent/CN114690896A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3626Details of the output of route guidance instructions
    • G01C21/3658Lane guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/3453Special cost functions, i.e. other than distance or default speed limit of road segments
    • G01C21/3476Special cost functions, i.e. other than distance or default speed limit of road segments using point of interest [POI] information, e.g. a route passing visible POIs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/44Program or device authentication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

将经由声音用户接口向用户通知的信息调整为与各用户相适应的信息量的信息处理装置、信息处理方法及存储介质。实施方式的信息处理装置具备:决定部,其基于表示用户对多个条目分别重视的程度的重要度、以及所述多个条目上分别随附的元数据的信息量,来决定所述元数据的优先顺序;以及通知部,其基于由所述决定部决定的所述优先顺序,来向所述用户通知所述元数据。

Description

信息处理装置、信息处理方法及存储介质
技术领域
本发明涉及信息处理装置、信息处理方法及存储介质。
背景技术
已知有利用了声音辨识技术的声音用户接口、与之关联的技术(例如参照专利文献1-3)。
在先技术文献
专利文献
专利文献1:日本特开2020-80110号公报
专利文献2:日本特开2017-220238号公报
专利文献3:日本特开2020-30489号公报
发明内容
发明要解决的课题
然而,在以往的技术中,存在如下情况:经由声音用户接口而向用户通知的信息发生过剩或不足。
本发明的方案是考虑这样的情况而完成的,其目的之一在于,提供能够将经由声音用户接口向用户通知的信息调整为与各用户相适应的信息量的信息处理装置、信息处理方法及存储介质。
用于解决课题的方案
本发明的信息处理装置、信息处理方法及存储介质采用了以下的结构。
(1)本发明的第一方案涉及一种信息处理装置,其中,所述信息处理装置具备:决定部,其基于表示用户对多个条目分别重视的程度的重要度、以及所述多个条目上分别随附的元数据的信息量,来决定所述元数据的优先顺序;以及通知部,其基于由所述决定部决定的所述优先顺序,来向所述用户通知所述元数据。
(2)本发明的第二方案在第一方案的基础上,所述信息处理装置还具备:取得部,其取得基于所述用户的讲话产生的要求;以及提取部,其从满足由所述取得部取得的所述要求的一个以上的条目中提取所述元数据,所述决定部基于由所述提取部提取的所述元数据的信息量、以及针对由所述提取部提取的所述元数据所随附的条目的所述重要度,来决定所述元数据的优先顺序,所述通知部作为针对所述要求的响应而基于所述优先顺序来向所述用户通知所述元数据。
(3)本发明的第三方案在第二方案的基础上,所述信息处理装置还具备推定部,该推定部基于所述用户讲出所述要求时的所述用户的周边的环境,来推定所述重要度。
(4)本发明的第四方案在第三方案的基础上,所述推定部还基于被通知了所述元数据的所述用户的反馈的结果,来推定所述重要度。
(5)本发明的第五方案在第一至第四方案中任一方案的基础上,所述元数据中包含文本,所述通知部对所述元数据所包含的所述文本通过自动声音进行朗读,由此向所述用户通知所述元数据。
(6)本发明的第六方案在第五方案的基础上,所述决定部以在所述用户到达目的地之前的期间内完成所述文本的朗读的方式决定所述元数据的优先顺序。
(7)本发明的第七方案在第一至第六方案中任一方案的基础上,越是对随附目标的所述条目的所述重要度高、且所述信息量少的所述元数据,则所述决定部越提高所述优先顺序。
(8)本发明的第八方案在第一至第七方案中任一方案的基础上,所述用户是驾驶车辆的驾驶员,所述决定部还基于所述驾驶员的驾驶负荷,来决定所述元数据的优先顺序。
(9)本发明的第九方案在第八方案的基础上,所述驾驶员的驾驶负荷越大,则所述决定部越降低所述信息量多的所述元数据的优先顺序。
(10)本发明的第十方案在第八或第九方案的基础上,所述通知部在所述车辆处于自动驾驶模式下的情况下,与所述车辆处于手动驾驶模式下的情况相比,向所述用户通知更多数量的所述元数据。
(11)本发明的第十一方案在第八至第十方案中任一方案的基础上,所述通知部在所述车辆处于自动驾驶模式下的情况下,还向所述用户通知所述条目。
(12)本发明的第十二方案涉及一种信息处理方法,其中,所述信息处理方法使计算机执行如下处理:基于表示用户对多个条目分别重视的程度的重要度、以及所述多个条目上分别随附的元数据的信息量,来决定所述元数据的优先顺序;以及基于所述决定的优先顺序,来向所述用户通知所述元数据。
(13)本发明的第十三方案涉及一种存储介质,其存储有程序,其中,所述程序用于使计算机执行如下处理:基于表示用户对多个条目分别重视的程度的重要度、以及所述多个条目上分别随附的元数据的信息量,来决定所述元数据的优先顺序;以及基于所述决定的优先顺序,来向所述用户通知所述元数据。
发明效果
根据上述方案,能够将经由声音用户接口向用户通知的信息调整为与各用户相适应的信息量。
附图说明
图1是实施方式的信息提供系统1的结构图。
图2是用于说明用户认证信息132的内容的图。
图3是实施方式的通信终端300的结构图。
图4是表示搭载有实施方式的智能体装置500的车辆M的简要结构的一例的图。
图5是表示由实施方式的信息提供装置100进行的一系列处理的流程的流程图。
图6是表示观点列表134的一例的图。
图7是表示重要度列表的一例的图。
图8是表示POI信息136的一例的图。
图9是表示元数据(Metadata)列表的一例的图。
图10是表示附带重要度观点的列表的一例的图。
图11是表示各元数据的优先顺序的一例的图。
图12是表示响应文的一例的图。
图13是适用了本实施方式的技术的场景例。
图14是表示向用户U1提供的信息的一例的图。
图15是表示向用户U2提供的信息的一例的图。
图16是表示搭载有实施方式的智能体装置500的车辆M的简要结构的其他例子的图。
1…信息提供系统、100…信息提供装置、102…通信部、104…认证部、106…取得部、108…声音辨识部、110…自然语言处理部、112…元数据提取部、114…重要度推定部、116…优先顺序决定部、118…讲话信息生成部、120…通信控制部、130…存储部、300…通信终端、310…终端侧通信部、320…输入部、330…显示器、340、630…扬声器单元、350、610…话筒、355…位置取得部、360…相机、370…应用执行部、380…输出控制部、390…终端侧存储部、500…智能体装置、520…管理部、540…智能体功能部、560…车辆侧存储部、620…显示-操作装置、640…导航装置、650…MPU、660…车辆设备、670…车载通信装置、680…通用通信装置、690…乘员辨识装置、700…自动驾驶控制装置、M…车辆。
具体实施方式
以下,参照附图来说明本发明的信息处理装置、信息处理方法及存储介质的实施方式。
图1是实施方式的信息提供系统1的结构图。信息提供系统1例如具备信息提供装置100、信息提供系统1的用户U1所利用的通信终端300、以及信息提供系统1的用户U2所利用的车辆M。这些构成要素能够经由网络NW而互相通信。网络NW例如包括互联网、WAN(WideArea Network)、LAN(Local Area Network)、电话线路、公用线路、专用线路、供应商装置、无线基站等。也可以使通信终端300及车辆M中的一方或双方为多个而包含于信息提供系统1。车辆M例如具备智能体装置500。信息提供装置100是“信息处理装置”的一例。
信息提供装置100从通信终端300接受用户U1的询问、要求等,进行与接受到的询问、要求相应的处理,并将处理结果向通信终端300发送。另外,信息提供装置100从搭载于车辆M的智能体装置500接受用户U2的询问、要求等,进行与接受到的询问、要求相应的处理,并将处理结果向智能体装置500发送。信息提供装置100例如也可以作为与通信终端300及智能体装置500经由网络NW互相通信而收发各种数据的云服务器来发挥功能。
通信终端300例如是智能手机、平板终端等携带型终端。通信终端300接受来自用户U1的询问、要求等信息。通信终端300将从用户U1接受到的信息向信息提供装置100发送,并输出作为针对所发送的信息进行的回答而得到的信息。即,通信终端300作为声音用户接口而发挥功能。
搭载智能体装置500的车辆M例如是二轮、三轮、四轮等的车辆,其驱动源是柴油发动机、汽油发动机等内燃机、电动机、或者它们的组合。电动机使用由与内燃机连结的发电机发出的发电电力、或者二次电池、燃料电池的放电电力来进行动作。另外,车辆M也可以是自动驾驶车辆。自动驾驶例如是指自动地控制车辆的转向及速度中的一方或双方。在上述的车辆的驾驶控制中,例如可以包括ACC(Adaptive Cruise Control)、ALC(Auto LaneChanging)、LKAS(Lane Keeping Assistance System)这样的各种驾驶控制。自动驾驶车辆也可以通过乘员(驾驶员)的手动驾驶来进行驾驶控制。
智能体装置500与车辆M的乘员(例如用户U2)进行对话,或者提供针对来自乘员的询问、要求等作出的信息。智能体装置500例如接受来自用户U2的询问、要求等信息,将该接受到的信息向信息提供装置100发送,并输出作为针对所发送的信息进行的回答而得到的信息。智能体装置500与通信终端300同样地,作为声音用户接口而发挥功能。将声音用户接口(通信终端300或智能体装置500)与信息提供装置100合起来是“信息处理装置”的另一例。
[信息提供装置]
以下,说明信息提供装置100的结构。信息提供装置100例如具备通信部102、认证部104、取得部106、声音辨识部108、自然语言处理部110、元数据提取部112、重要度推定部114、优先顺序决定部116、讲话信息生成部118、通信控制部120及存储部130。将取得部106、声音辨识部108及自然语言处理部110合起来是“取得部”的一例。元数据提取部112为“提取部”的一例,重要度推定部114为“推定部”的一例,优先顺序决定部116为“决定部”的一例。将通信部102、讲话信息生成部118及通信控制部120合起来的部件、或将通信部102、讲话信息生成部118、通信控制部120及声音用户接口合起来的部件是“通知部”的一例。
认证部104、取得部106、声音辨识部108、自然语言处理部110、元数据提取部112、重要度推定部114、优先顺序决定部116、讲话信息生成部118及通信控制部120分别通过CPU(Central Processing Unit)等硬件处理器执行程序(软件)来实现。另外,这些构成要素中的一部分或全部可以由LSI(Large Scale Integration)、ASIC(Application SpecificIntegratedCircuit)、FPGA(Field-Programmable Gate Array)、GPU(GraphicsProcessingUnit)等硬件(包括电路部:circuitry)实现,也可以通过软件与硬件的协同配合来实现。程序可以预先保存于HDD(Hard Disk Drive)、闪存器等存储装置(具备非暂时性的存储介质的存储装置),也可以保存于DVD、CD-ROM等能够装卸的存储介质(非暂时性的存储介质),并通过存储介质装配于驱动装置等而安装于信息提供装置100的存储装置。
存储部130由上述的各种存储装置、或者EEPROM(Electrically ErasableProgrammable Read Only Memory)、ROM(Read Only Memory)、或RAM(Random AccessMemory)等实现。在存储部130中,除了保存供上述的处理器参照的程序以外,例如还保存用户认证信息132、观点列表134、POI(Point of Interest)信息136、讲话模板138等。
在用户认证信息132中,例如包括对利用信息提供装置100的用户进行识别的信息、由认证部104进行认证时使用的信息等。用户认证信息132例如是用户ID、口令、住所、姓名、年龄、性别、兴趣、特长、其他信息等。该其他信息包括用户的兴趣、特长、关心事项等。
观点列表134是用户可能寄予兴致或关心的多个观点被列表化得到的数据。该多个观点可以通过用户自已申报来决定,也可以通过从多个用户的申报结果中统计性地选出代表性的观点来得到。
POI信息136是与店铺、设施这样的特定的地点相关的信息。POI信息136包括与POI相关的条目(contents)、随附于该条目的元数据等。
讲话模板138是生成后述的响应文时的模板(文章固定格式)。
[构成要素的说明]
以下,说明信息提供装置100的各构成要素。通信部102是经由网络NW而与通信终端300、智能体装置500、其他外部装置通信的接口。例如,通信部102具备NIC(NetworkInterface Card)、无线通信用的天线等。
认证部104将与利用信息提供系统1的用户(例如用户U1、U2)相关的信息作为用户认证信息132而登记于存储部130。例如,认证部104在从声音用户接口(通信终端300或智能体装置500)接受到用户登记要求的情况下,使接受到登记要求的装置显示用于输入用户认证信息132所包含的各种信息的GUI(Graphical User Interface)。当用户向GUI输入各种信息时,认证部104从该装置取得与用户相关的信息。并且,认证部104将从声音用户接口(通信终端300或智能体装置500)取得的与用户相关的信息作为用户认证信息132而登记于存储部130。
图2是用于说明用户认证信息132的内容的图。在用户认证信息132中,例如相对于用户的认证信息,对应有该用户的住所、姓名、年龄、性别、联系方式、其他信息等。认证信息例如包括识别用户的识别信息即用户ID、口令等。另外,认证信息也可以包括指纹信息、虹膜信息等生物体认证信息。联系方式例如可以是用于与由该用户使用的声音用户接口(通信终端300或智能体装置500)通信的地址信息,也可以是用户的电话号码、邮箱地址、终端识别信息等。信息提供装置100基于联系方式的信息,来与各移动通信设备通信,提供各种信息。
认证部104基于预先登记的用户认证信息132,来认证信息提供系统1的服务的用户。例如,认证部104在从通信终端300或智能体装置500接受到服务的利用要求的时机认证用户。具体而言,认证部104在接受到利用要求的情况下,使得用于输入用户ID、口令等认证信息的GUI显示于产生有要求的终端装置,并且将输入到该GUI上的输入认证信息与用户认证信息132的认证信息进行比较。认证部104判定在用户认证信息132中是否保存有与输入认证信息吻合的认证信息,在保存有与输入认证信息吻合的认证信息的情况下,许可服务的利用。另一方面,在未保存有与输入认证信息吻合的认证信息的情况下,认证部104禁止服务的利用,或者执行用于进行新登记的处理。
取得部106经由通信部102(经由网络NW)而从通信终端300或智能体装置500取得一位或多位用户的讲话(utterance)。用户的讲话可以是声音数据(也称作声响数据、声响流),也可以是根据该声音数据而辨识出的文本数据。
声音辨识部108进行辨识用户的讲话声音的声音辨识(将声音文本化的处理)。例如,声音辨识部108针对由取得部106取得的表示用户的讲话的声音数据而进行声音辨识,生成将声音数据文本化的文本数据。文本数据包括将讲话的内容作为文字而表述的字符串。
例如,声音辨识部108可以使用声响模型和自动声音辨识用的词典(以下称作ASR词典),来将声音数据文本化。声响模型是以根据频率来将输入的声音分离、并将该分离后的各声音变换为音素(声谱)的方式预先进行了学习或调整而得到的模型,例如是神经网络、隐马尔可夫模型等。ASR词典是如下数据库,其中,相对于多个音素的组合而对应有字符串,而且根据文章结构而定义了对字符串进行划分的位置。ASR词典是所谓的模式匹配词典。例如,声音辨识部108将声音数据向声响模型输入,从ASR词典中搜寻由该声响模型输出的音素的集合,并取得与该音素的集合对应的字符串。声音辨识部108将这样取得的字符串的组合生成为文本数据。需要说明的是,声音辨识部108也可以代替使用ASR词典,而使用通过例如n-gram模型等而安装的语言模型,根据声响模型的输出结果来生成文本数据。
自然语言处理部110进行理解文本的构造、含义的自然语言理解。例如,自然语言处理部110一边参照为了解释含义而预先准备的词典(以下称作NLU词典),一边解释由声音辨识部108生成的文本数据的含义。NLU词典是相对于文本数据而对应有抽象化了的含义信息的数据库。NLU词典也可以包括同义词、近义词等。声音辨识和自然语言理解无需一定明确地划分阶段,可以是接受自然语言理解的结果而对声音辨识的结果进行修正等相互影响地进行。
元数据提取部112在由自然语言处理部110理解出的用户的讲话的含义为“要求”的情况下,从POI信息136提取满足该“要求”的一个或多个条目的元数据。例如,设为用户对声音用户接口讲出“搜寻附近的中华料理店”这样的“要求”,该“要求”被自然语言处理部110理解出。在该情况下,元数据提取部112从POI信息136中搜寻满足“距用户的当前位置近”这样的条件、以及“中华料理店”这样的条件的餐饮店所相关的条目,而且从POI信息136提取随附于该条目的元数据。条目是由POI的主页、点评(传闻)投稿站点、预约站点、WebGIS(Geographic Information System)等处理的条目。例如,与餐饮店相关的条目包括料理的菜单、价格、点评、照片、到访信息(例如停车场的有无)、营业时刻等。
元数据是包含能够将随附目标的条目确定出的程度的信息的数据,典型地是文件标签。文件标签是用于向网络爬虫等通知网页的信息的标签信息,例如可以是HTML(HyperText Markup Language)的meta标签这样的标签,也可以是该网页的标题、摘要。另外,元数据可以在文件标签的基础上或代替于此,是数码照片、动态图像的文档中附加的标签、标题,也可以是与条目相关的点评(传闻)文件。例如,在WebGIS中,除了地图上的POI的位置坐标以外,还有时一并提供向该POI到访的到访方法、营业时间、菜单、不特定多个用户的点评(传闻)等。在作为一个条目而捕捉到了对应有POI的位置的地图、航拍照片的情况下,该条目的元数据中会包括向POI到访的到访方法、营业时间、菜单、点评(传闻)等。
重要度推定部114推定用户对观点列表134所包含的多个观点分别给予的重要度。重要度是定量地表示用户以何种程度重视各观点这一情况的指标。换言之,重要度表示用户关于各观点而以何种程度寄予兴致、关心。例如,重要度推定部114可以基于讲出“要求”的用户的周边的环境,来推定该用户对各观点给予的重要度。而且,重要度推定部114也可以基于被通知了对“要求”作出的“响应”的用户的反馈的结果,来推定该用户对各观点给予的重要度。
优先顺序决定部116基于由元数据提取部112提取的各元数据的信息量和由重要度推定部114推定的用户对各观点给予的重要度,来决定各元数据的优先顺序。
讲话信息生成部118基于由优先顺序决定部116决定的元数据的优先顺序,从由元数据提取部112提取的各条目的元数据中,挑选应该优先地通知的元数据,并使用该挑选的元数据来生成讲话信息。讲话信息是作为对用户的“要求”作出的“响应”而使声音用户接口讲话的声音数据本身、或成为该声音数据的来源的文本数据。
通信控制部120经由通信部102向声音用户接口(通信终端300和智能体装置500中的接受到“要求”的一方的装置)发送由讲话信息生成部118生成的讲话信息。由此,元数据通过讲话这样的方法而被通知给用户。
另外,通信控制部120也可以除了用于讲出元数据的讲话信息以外,还经由通信部102将随附有该元数据的条目向声音用户接口发送。
[通信终端]
接着,说明通信终端300的结构。图3是实施方式的通信终端300的结构图。通信终端300例如具备终端侧通信部310、输入部320、显示器330、扬声器340、麦克风(以下称作话筒)350、位置取得部355、相机360、应用执行部370、输出控制部380及终端侧存储部390。位置取得部355、应用执行部370及输出控制部380例如通过由CPU等硬件处理器执行程序(软件)来实现。另外,这些构成要素中的一部分或全部可以由LSI、ASIC、FPGA、GPU等硬件(包含电路部:circuitry)实现,也可以通过软件与硬件的协同配合来实现。程序可以预先保存于HDD、闪存器等存储装置(具备非暂时性的存储介质的存储装置),也可以保存于DVD、CD-ROM等能够装卸的存储介质(非暂时性的存储介质),并通过存储介质装配于驱动装置、卡槽等而安装于通信终端300的存储装置。
终端侧存储部390也可以由上述的各种存储装置、或者EEPROM、ROM、RAM等实现。在终端侧存储部390中,例如保存上述的程序、信息提供应用程序392、其他各种信息。
终端侧通信部310例如利用网络NW,来与信息提供装置100、智能体装置500、其他外部装置进行通信。
输入部320例如接受用户U1基于各种按键、按钮等的操作进行的输入。显示器330例如是LCD(Liquid Crystal Display)、有机EL(Electro Luminescence)显示器等。输入部320也可以作为触摸面板而与显示器330一体构成。显示器330通过输出控制部380的控制来显示实施方式中的各种信息。扬声器340例如通过输出控制部380的控制来输出规定的声音。话筒350例如通过输出控制部380的控制来接受用户U1的声音的输入。
位置取得部355取得通信终端300的位置信息。例如,位置取得部355包括以GPS(Global Positioning System)等为代表的GNSS(GlobalNavigation Satellite System)接收机。位置信息例如可以是二维的地图坐标,也可以是经纬度信息。位置取得部355可以经由终端侧通信部310而将所取得的位置信息向信息提供装置100发送。
相机360例如是利用了CCD(Charge Coupled Device)、CMOS(ComplementaryMetal Oxide Semiconductor)等固体摄像元件(图像传感器)的数码相机。例如,在作为导航装置等的代用品而将通信终端300安装于车辆M的仪表板的情况下,该通信终端300的相机360可以自动地或根据用户U1的操作来对车辆M的车室内进行拍摄。
应用执行部370执行存储于终端侧存储部390的信息提供应用程序392。信息提供应用程序392是如下应用程序,其用于控制输出控制部380,以便使显示器330输出从信息提供装置100提供的图像(即条目),或者使与从信息提供装置100提供的信息(即讲话信息)对应的声音从扬声器340输出。另外,应用执行部370将通过输入部320输入的信息经由终端侧通信部310而向信息提供装置100发送。信息提供应用程序392例如可以经由网络NW从外部装置下载的程序安装到通信终端300中。
输出控制部380通过应用执行部370的控制而使显示器330显示图像,或者使扬声器340输出声音。此时,输出控制部380可以控制使显示器330显示的图像的内容、方式,或者控制使扬声器340输出的声音的内容、方式。
[车辆]
接着,说明搭载有智能体装置500的车辆M的简要结构。图4是表示搭载有实施方式的智能体装置500的车辆M的简要结构的一例的图。如图所示,在车辆M上,搭载智能体装置500、话筒610、显示-操作装置620、扬声器单元630、导航装置640、MPU(Map PositioningUnit)650、车辆设备660、车载通信装置670、乘员辨识装置690及自动驾驶控制装置700。另外,也存在智能手机等通用通信装置680被带入车室内而作为通信装置使用的情况。通用通信装置680例如是通信终端300。这些装置通过CAN(ControllerArea Network)通信线等多路通信线、串行通信线、无线通信网等而互相连接。
先说明智能体装置500以外的结构。话筒610收集在车室内发出的声音。显示-操作装置620是显示图像并且能够接受输入操作的装置(或装置群)。显示-操作装置620典型地是触摸面板。显示-操作装置620也可以还包括HUD(Head Up Display)、机械式的输入装置。扬声器单元630例如向车室内、车外输出声音、警报音等。显示-操作装置620也可以在智能体装置500与导航装置640中共用。
导航装置640具备导航HMI(Human machine Interface)、GPS等位置测定装置、存储有地图信息的存储装置、以及进行路径搜索等的控制装置(导航控制器)。话筒610、显示-操作装置620及扬声器单元630中的一部分或全部也可以用作导航HMI。导航装置640基于由位置测定装置确定的车辆M的位置来参照地图信息,从地图信息中搜索用于从车辆M的位置移动到由用户输入的目的地的路径(导航路径),为了车辆M能够沿着路径行驶,使用导航HMI来输出引导信息。路径搜索功能也可以处于能够经由网络NW而访问的信息提供装置100、导航服务器中。在该情况下,导航装置640从信息提供装置100、导航服务器取得路径而输出引导信息。需要说明的是,智能体装置500也可以将导航控制器作为基础而构建,在该情况下,导航控制器与智能体装置500在硬件上构成为一体。
MPU650例如将从导航装置640提供的地图上路径分割为多个区块(例如在车辆行进方向上按每100[m]进行分割),并针对每个区块而决定推荐车道。例如,MPU650进行在从左数第几个车道上行驶这样的决定。另外,MPU650也可以使用比存储于导航装置640的存储装置的地图信息高精度的地图信息(高精度地图)来决定推荐车道。高精度地图例如可以存储于MPU650的存储装置,也可以存储于导航装置640的存储装置、智能体装置500的车辆侧存储部560。高精度地图可以包括车道的中央的信息或车道的边界的信息、交通限制信息、住所信息(住所·邮政编码)、设施信息、电话号码信息等。
车辆设备660例如是相机、雷达装置、LIDAR(Light Detection andRanging)、物体辨识装置。相机例如是利用了CCD、CMOS等固体摄像元件的数码相机。相机安装于车辆M的任意部位。雷达装置向车辆M的周边放射毫米波等电波,并且检测由物体反射的电波(反射波)来至少检测物体的位置(距离及方位)。LIDAR向车辆M的周边照射光,并测定散射光。LIDAR基于从发光受光到的时间,来检测出到对象的距离。物体辨识装置对由相机、雷达装置及LIDAR中的一部分或全部检测的检测结果进行传感器融合处理,来辨识存在于车辆M的周边的物体的位置、种类、速度等。物体辨识装置将辨识结果向智能体装置500、自动驾驶控制装置700输出。
另外,车辆设备660例如包括驾驶操作件、行驶驱动力输出装置、制动装置、转向装置等。驾驶操作件例如包括油门踏板、制动踏板、换挡杆、转向盘、异形转向器、操纵杆、其他操作件。在驾驶操作件上,安装有检测操作量或操作的有无的传感器,其检测结果向智能体装置500、自动驾驶控制装置700、或者行驶驱动力输出装置、制动装置及转向装置中的一部分或全部输出。行驶驱动力输出装置将用于车辆M行驶的行驶驱动力(转矩)向驱动轮输出。制动装置例如具备制动钳、向制动钳传递液压的液压缸、使液压缸产生液压的电动马达、以及制动ECU。制动ECU按照从自动驾驶控制装置700输入的信息、或者从驾驶操作件输入的信息来控制电动马达,使得与制动操作相应的制动转矩向各车轮输出。转向装置例如具备转向ECU和电动马达。电动马达例如使力作用于齿条-小齿轮机构而变更转向轮的朝向。转向ECU按照从自动驾驶控制装置700输入的信息、或者从驾驶操作件输入的信息,来驱动电动马达,使转向轮的朝向变更。
另外,车辆设备660例如也可以包括车门锁定装置、车门开闭装置、车窗、车窗的开闭装置及车窗的开闭控制装置、座椅、座椅位置的控制装置、车室内后视镜及其角度位置控制装置、车辆内外的照明装置及其控制装置、刮水器、除雾器及它们各自的控制装置、方向指示灯及其控制装置、空调装置等车辆信息装置等。
车载通信装置670例如是能够利用蜂窝网、Wi-Fi网来访问网络NW的无线通信装置。
乘员辨识装置690例如包括就座传感器、车室内相机、图像辨识装置等。就座传感器包括设置于座位的下部的压力传感器、安装于座椅安全带的张力传感器等。车室内相机是设置于车室内的CCD相机、CMOS相机。图像辨识装置对车室内相机的图像进行解析,辨识每个座位上有无用户、用户的面部等而辨识用户的就座位置。另外,乘员辨识装置690也可以进行与预先登记的面部图像之间的匹配处理,由此确定图像所包含的就座于驾驶座、副驾驶座等的用户。
自动驾驶控制装置700例如通过CPU等硬件处理器执行程序(软件)来进行处理。自动驾驶控制装置700的构成要素中的一部分或全部可以由LSI、ASIC、FPGA、GPU等硬件(包括电路部:circuitry)实现,也可以通过软件与硬件的协同配合来实现。程序可以预先保存于自动驾驶控制装置700的HDD、闪存器等存储装置(具备非暂时性的存储介质的存储装置),也可以保存于DVD、CD-ROM等能够装卸的存储介质,并通过存储介质(非暂时性的存储介质)装配于驱动装置而安装于自动驾驶控制装置700的HDD、闪存器。
自动驾驶控制装置700基于经由车辆设备660的物体辨识装置而输入的信息,来辨识处于车辆M的周边的物体的位置、及速度、加速度等状态。自动驾驶控制装置700以原则上在由MPU650决定的推荐车道上行驶、而且能够应对车辆M的周边状况的方式,生成车辆M自动地(不依赖于驾驶员的操作)地将来行驶的目标轨道。目标轨道例如包含速度要素。例如,目标轨道表现为将车辆M应该到达的地点(轨道点)依次排列而成的轨道。
自动驾驶控制装置700在生成目标轨道时,可以设定自动驾驶的事件。在自动驾驶的事件中,存在定速行驶事件、低速追随行驶事件、车道变更事件、分支事件、汇合事件、接管事件、自动驻车事件等。自动驾驶控制装置700生成与启动了的事件相应的目标轨道。另外,自动驾驶控制装置700控制车辆设备660的行驶驱动力输出装置、制动装置及转向装置,以使车辆M按预定的时刻通过所生成的目标轨道。例如,自动驾驶控制装置700基于目标轨道(轨道点)所附带的速度要素,来控制行驶驱动力输出装置或制动装置,或者根据目标轨道的弯曲状况,来控制转向装置。
接着,说明智能体装置500。智能体装置500是与车辆M的乘员进行对话的装置。例如,智能体装置500将乘员的讲话向信息提供装置100发送,并从信息提供装置100接收针对该讲话而作出的回答。智能体装置500使用声音、图像来向乘员提示所接收到的回答。
智能体装置500例如具备管理部520、智能体功能部540及车辆侧存储部560。管理部520例如具备声响处理部522、显示控制部524及声音控制部526。在图4中,这些构成要素的配置为了说明而简易地示出,实际上例如也可以在智能体功能部540与车载通信装置60之间存在管理部520,其配置能够任意改变。
智能体装置500的除了车辆侧存储部560以外的各构成要素例如通过CPU等硬件处理器执行程序(软件)来实现。这些构成要素中的一部分或全部可以由LSI、ASIC、FPGA、GPU等硬件(包括电路部:circuitry)实现,也可以通过软件与硬件的协同配合来实现。程序可以预先保存于HDD(HardDiskDrive)、闪存器等存储装置(具备非暂时性的存储介质的存储装置),也可以保存于DVD、CD-ROM等能够装卸的存储介质(非暂时性的存储介质),且通过存储介质装配于驱动装置而安装。
车辆侧存储部560可以由上述的各种存储装置、或者EEPROM、ROM、或RAM等实现。在车辆侧存储部560中例如保存程序、其他各种信息。
管理部520通过执行OS(Operating System)、中间件等程序来发挥功能。
声响处理部522对输入的声音进行声响处理,以便成为适于辨识从车辆M的乘员(例如用户U2)接受到的各种声音中的与询问、要求等相关的信息的状态。具体而言,声响处理部522可以进行噪声除去等声响处理。
显示控制部524根据来自智能体功能部540的指示,来在显示-操作装置620等输出装置上生成与针对来自车辆M的乘员的询问、要求作出的回答结果相关的图像。与回答结果相关的图像是指,例如对表示针对询问、要求等作出的回答结果的店铺、设施的一览表予以示出的图像、与各店铺、设施相关的图像、表示到目的地的行驶路径的图像、其他表示建议信息、处理的开始或结束的图像等。另外,显示控制部524也可以根据来自智能体功能部540的指示,来生成与乘员进行交流的拟人化的形象图像(以下称作智能体图像)。智能体图像例如是对乘员搭话的形态的图像。智能体图像例如也可以包括至少由观看者(乘员)辨识到表情、面部朝向的程度的面部图像。显示控制部524使显示-操作装置620输出所生成的图像。
声音控制部526根据来自智能体功能部540的指示,来使扬声器单元630所包含的扬声器中的一部分或全部输出声音。声音例如包括用于智能体图像与乘员进行对话的声音、与由显示控制部524使图像向显示-操作装置620进行输出而得到的图像相对应的声音。另外,声音控制部526也可以使用多个扬声器单元630来进行使智能体声音的声像定位于与智能体图像的显示位置对应的位置的控制。与智能体图像的显示位置对应的位置例如是当智能体图像正讲话发出智能体声音时预测乘员感到的位置,具体而言,是智能体图像的显示位置附近(例如2~3[cm]以内)的位置。另外,声像定位例如是指,通过调节向用户的左右耳传递的声音的大小来设定乘员感到的声源的空间上的位置。
智能体功能部540基于由管理部520取得的各种信息,与信息提供装置100协同配合而使智能体图像等出现,根据车辆M的乘员的讲话来提供包含基于声音的响应在内的服务。例如,智能体功能部540基于由声响处理部522处理后的声音所包含的启动语来启动智能体,或者基于结束语来使智能体结束。另外,智能体功能部540将由声响处理部522处理后的声音数据经由车载通信装置670向信息提供装置100发送,或者将从信息提供装置100得到的信息向乘员提供。另外,智能体功能部540也可以具备与通用通信装置680协作而与信息提供装置100通信的功能。在该情况下,智能体功能部540例如通过Bluetooth(注册商标)而与通用通信装置680进行配对,使智能体功能部540与通用通信装置680连接。另外,智能体功能部540也可以通过利用了USB(Universal Serial Bus)等的有线通信来与通用通信装置680连接。
[信息提供装置的处理流程]
接着,使用流程图来说明由信息提供装置100进行的一系列处理的流程。图5是表示由实施方式的信息提供装置100进行的一系列处理的流程的流程图。
首先,取得部106经由通信部102而从声音用户接口(通信终端300或智能体装置500)取得某个用户(以下称作对象用户)的讲话(步骤S100)。设为对象用户乘坐车辆M而进行着移动。
接着,声音辨识部108对对象用户的讲话进行声音辨识,根据该对象用户的讲话来生成文本数据(步骤S102)。在通信终端300或智能体装置500中已经将讲话文本化了的情况、即由取得部106取得的对象用户的讲话已是文本数据的情况下,可以省略S102的处理。
接着,自然语言处理部110对根据对象用户的讲话而得到的文本数据进行自然语言理解,理解该文本数据的含义(步骤S104)。
接着,重要度推定部114推定对象用户对观点列表134所包含的多个观点分别给予的重要度(步骤S106)。
图6是表示观点列表134的一例的图。如图示那样,观点列表134可以包含“高评价点评”、“有人气”、“菜单”、“禁烟”、“时尚”、“停车场”这样的多个观点。
例如,重要度推定部114基于讲出“要求”的时间点的对象用户的周边环境,来推定该对象用户对各观点给予的重要度。具体而言,重要度推定部114可以基于在讲出“要求”的时间点对象用户是否处于会话中、对象用户驾驶的车辆M的速度、加速度为何种程度、车辆M是否停车、驻车了这样的当时的环境,来推定重要度。表示这样的在讲出“要求”的时间点对象用户处于何种环境下的信息可以存储于存储部130。
而且,重要度推定部114也可以在针对对象用户的“要求”而从声音用户接口讲出了“响应”时,基于对象用户针对该“响应”做出的反馈结果,来推定对象用户对各观点给予的重要度。具体而言,重要度推定部114也可以基于在从声音用户接口做出了某种“提案”等时,对象用户对该“提案”作出了“应允(选择)”还是“拒绝”、或者不做任何事而采取了“无视”这样的反馈结果,来推定重要度。这样的讲出“要求”的时间点的对象用户的反馈结果可以存储于存储部130。
而且,重要度推定部114也可以基于该总体中的对象用户的反馈的行动的倾向,来推定重要度。具体而言,重要度推定部114也可以基于对象用户作出的反馈结果相对于总体整体的统计学概率,来推定重要度。
重要度推定部114当推定出对象用户对各观点给予的重要度时,生成将其结果列表化得到的重要度列表(步骤S108)。
图7是表示重要度列表的一例的图。例如,重要度推定部114可以生成从多个观点中的对象用户的重要度高的观点起以升序排序得到的列表来作为重要度列表。在图示的例子中,重要度通过“最重要”、“重要”、“中等程度”这样的定性的表现来示出,但不限定于此,也可以如“1.0”、“0.8”、“0.5”这样通过定量的表现而示出。
返回图5的流程图的说明。接着,元数据提取部112在由自然语言处理部110理解出对象用户的讲话是“要求”的情况下,从POI信息136提取满足该“要求”的POI的元数据(步骤S110)。
图8是表示POI信息136的一例的图。POI信息136是相对于各POI而对应有标签、自由格式(free form)、点评、照片、地理信息等的信息。如上所述,标签中,可以包含表述为HTML来源的标签,也可以包含通过文本挖掘等而自动地赋予的标签。具体而言,在通过文本挖掘而在POI的点评中频繁地提取到“时尚”这样的关键词的情况下,对作为该点评对象的POI自动地赋予“时尚”这样的标签。
例如,元数据提取部112从该多个POI中选择满足对象用户的“要求”的POI,而且提取与该选择的POI建立了对应关系的标签等信息来作为元数据。
接着,元数据提取部112生成将提取到的元数据列表化的元数据列表(步骤S112)。
图9是表示元数据列表的一例的图。元数据提取部112关于观点列表134所包含的多个观点而分别提取元数据。例如,对于“时尚”这1个观点,存在“点评”及“照片标签”这2种元数据。在该情况下,元数据提取部112可以对于同一观点提取种类互不相同的多个元数据。
此时,元数据提取部112算出或推定元数据的信息量。元数据是表述为点评、标签的字符串。即,元数据中基本上包含文本数据。因此,元数据提取部112算出或推定将元数据所包含的文本数据通过自动声音朗读时所需的时间,来作为该元数据的信息量。点评、标签的字符串越长,则该信息量(时间)越大。
元数据提取部112当算出或推定各元数据的信息量后,生成对于各观点而对应有元数据的种类、其信息量的列表,来作为元数据列表。
返回图5的流程图的说明。接着,优先顺序决定部116生成将由重要度推定部114生成的重要度列表与由元数据提取部112生成的元数据列表结合得到的附带重要度观点的列表(步骤S114)。
图10是表示附带重要度观点的列表的一例的图。附带重要度观点的列表是对于各观点而对应有对象用户的重要度、元数据的种类、以及元数据的信息量的列表。
返回图5的流程图的说明。接着,优先顺序决定部116决定附带重要度观点的列表所包含的各元数据的优先顺序(步骤S116)。
例如,优先顺序决定部116对于满足对象用户的“要求”的POI,决定各元数据的优先顺序,以便在该对象用户到达满足要求的POI为止的期间内,各元数据所包含的文本数据的朗读完成。
例如,设为对象用户对声音用户接口讲出“搜寻附近的中华料理店”这样的“要求”,满足该“要求”的POI为“餐饮店B”。在该情况下,优先顺序决定部116假定为对象用户所乘坐的车辆M的速度恒定,算出在从讲出“要求”的位置到“餐饮店B”的所在地为止的区间行驶所需的时间(行驶时间)。在车辆M已经通过“餐饮店B”的情况下,优先顺序决定部116也可以算出到能够向“餐饮店B”折返的最近的掉头地点为止的行驶时间。然后,优先顺序决定部116从附带重要度观点的列表所包含的多个元数据中,提高能够在所算出的行驶时间以内使自动声音的朗读完成的元数据的优先顺序。
图11是表示各元数据的优先顺序的一例的图。如图示那样,优先顺序决定部116将对象用户的重要度为“最重要”的观点的元数据的优先级设为最高,将对象用户的重要度是与“最重要”相比次高的观点(即“重要”的观点)的元数据的优先级设为次高,将对象用户的重要度是与“重要”相比次高的观点(即“中等程度”的观点)的元数据的优先级设为进一步次高。
此时,优先顺序决定部116在同一观点对应有多个元数据的情况下,提高该多个元数据中信息量最少的元数据的优先顺序。在图10的附带重要度观点的列表中,对于对象用户的重要度是“最重要”的“时尚”这样的观点,对应有“点评”和“照片标签”这2种元数据,对于对象用户的重要度是“重要”的“禁烟”这样的观点,对应有“文件标签”和“点评”这2种元数据。在这样的情况下,优先顺序决定部116关于“时尚”这样的观点,提高信息量更少的“点评”的元数据的优先顺序,关于“禁烟”这样的观点,提高信息量更少的“文件标签”的元数据的优先顺序。信息量多的一方的“照片标签”的元数据、“文件标签”的元数据的优先顺序可以降低到最下位等,以免在同一观点中元数据重复。这样,优先顺序决定部116对于附带重要度观点的列表所包含的多个元数据中的越是用户的重要度高、且信息量少的元数据,则越提高优先顺序。
另外,优先顺序决定部116可以进行如下处理:对象用户的驾驶负荷越变小,则越提高信息量多的元数据的优先顺序,对象用户的驾驶负荷越变大,则越降低信息量多的元数据的优先顺序。更具体而言,优先顺序决定部116可以进行如下处理:即便是与对象用户的重要度高的观点建立了对应关系的元数据,在对象用户的驾驶负荷变大规定以上的情况下,也不依赖于重要度而将该元数据的优先顺序降低到最下位等。另外,优先顺序决定部116可以进行如下处理:在对象用户的驾驶负荷变小的自动驾驶模式下,与对象用户的驾驶负荷变大的手动驾驶模式下相比,提高信息量多的元数据的优先顺序。这样,考虑对象用户的驾驶负荷而决定元数据的优先顺序,由此能够在抑制发生驾驶员分心的同时,向对象用户通知有益的POI信息。
返回图5的流程图的说明。接着,讲话信息生成部118基于由优先顺序决定部116决定的元数据的优先顺序,从附带重要度观点的列表所包含的各元数据中,挑选应该优先向对象用户通知的元数据(步骤S118)。
例如,讲话信息生成部118以从优先顺序高的元数据起按顺序将元数据的信息量相加、且其总信息量(即总时间)不超过对象用户到达满足“要求”的POI为止的时间的方式挑选元数据。例如,在图11的例子中,在到达满足“要求”的POI为止的到达时间是10秒的情况下,选择从上起数至第3号为止的元数据,在到达满足“要求”的POI为止的到达时间是45秒的情况下,选择从上起数至第4号为止的元数据。
另外,讲话信息生成部118也可以算出在到达满足“要求”的POI(即暂时的目的地)为止的区间中对象用户容易领受信息的时间,以在该时间内各元数据所包含的文本数据的朗读完成的方式,挑选元数据。“对象用户容易领受信息的时间”例如是车辆M在信号机处停止的时间、因拥堵等的影响而车辆M在恒定的速度下行驶的时间等。即,讲话信息生成部118可以算出在手动驾驶下对象用户的驾驶负荷相对减少的时间,以在该时间内文本数据的朗读完成的方式挑选元数据。由此,例如,在即便到达满足“要求”的POI为止的到达时间是45秒但对象用户的驾驶负荷相对减少的时间只有10秒的情况下,在图11的例子中,也仅选择从上起数至第3号为止的元数据,将第4号以后的元数据除外。
另外,讲话信息生成部118可以在对象用户所乘坐着的车辆M处于自动驾驶模式下的情况下,与车辆M处于手动驾驶模式下的情况相比,选择更多数量的元数据。由此,在对象用户的驾驶负荷相对低的自动驾驶模式下,能够向对象用户通知更多有益的POI信息。
接着,讲话信息生成部118使用挑选的元数据来生成讲话信息(步骤S120)。例如,讲话信息生成部118可以基于讲话模板138,生成针对对象用户的“要求”作出的“响应文”。
图12是表示响应文的一例的图。如图示那样,相同的优先顺序的元数据归纳到一个响应文中。例如,设为选择了图11的全部的元数据。上述这些元数据中,“时尚”、“禁烟”、“停车场”这样的观点的元数据的优先顺序是第1位。在该情况下,若满足“要求”的POI是“餐饮店B”,则生成将该“餐饮店B”这一专有名词设为主体而形容为“时尚”这样的点评多、“禁烟”、存在“停车场”等这样的第一响应文。而且,在图11的例子中,“高评价点评”这样的观点的元数据的优先顺序是第2位。在该情况下,将“高评价点评”本身生成为第二响应文。而且,在图11的例子中,“有人气”、“菜单”这样的观点的元数据的优先顺序是第3位。在该情况下,作为将“餐饮店B”这样的专有名词设为主体来形容的文章,生成有“人气”、有“意面”、“披萨”的照片这样的第三响应文。该3个响应文按照元数据的优先顺序、即第一响应文、第二响应文、第三响应文的顺序来朗读。
而且,讲话信息生成部118也可以基于生成的响应文来合成人工声音。例如,讲话信息生成部118将响应文所包含的字符串变换为发音记号,利用波形拼接型声音合成(Concatenative synthesis)、共振峰合成(Formant synthesis)来合成朗读发音记号的声音。
返回图5的流程图的说明。接着,通信控制部120经由通信部102而向声音用户接口发送由讲话信息生成部118生成的讲话信息、即响应文或合成声音(步骤S122)。
此时,通信控制部120也可以在对象用户乘坐着的车辆M处于自动驾驶模式下的情况下,除了由讲话信息生成部118生成的响应文或合成声音以外,还将作为元数据的随附目标的条目(例如照片、地图等)向声音用户接口发送。由此本流程图的处理结束。
例如,声音用户接口在从信息提供装置100接收到响应文的情况下,合成朗读该响应文的声音,并将该合成的声音作为讲话而输出。在声音用户接口为通信终端300的情况下,应用执行部370合成朗读响应文的声音,输出控制部380使扬声器340输出由应用执行部370合成的声音。在声音用户接口为智能体装置500的情况下,智能体功能部540合成朗读响应文的声音,声音控制部526使扬声器单元630输出由智能体功能部540合成的声音。声音用户接口在代替从信息提供装置100接收响应文而接收到合成声音的情况下,将该合成声音作为讲话输出。
另外,声音用户接口可以在从信息提供装置100接收到响应文或合成声音时也一并接收到作为元数据的随附目标的条目的情况下,使该条目显示于显示器。
[场景例]
以下,说明适用本实施方式的技术的场景。图13是适用本实施方式的技术的场景例。图中的B为某餐饮店,M1是用户U1乘坐的车辆,M2是用户U2乘坐的车辆。在图示的场景中,与车辆M2相比车辆M1距餐饮店B较近。设为在这样的位置关系时,用户U1和用户U2均重视同一观点,而且对声音用户接口进行了与“餐饮店B”相关的询问(即与“餐饮店B”相关的信息的要求)。在该情况下,向用户U1提供的“餐饮店B”的信息量与向用户U2提供的“餐饮店B”的信息量相比变少。
图14是表示向用户U1提供的信息的一例的图,图15是表示向用户U2提供的信息的一例的图。例如,设为车辆M1到达餐饮店B为止的时间是10秒左右,车辆M2到达餐饮店B为止的时间是45秒左右。在该情况下,用户U1的声音用户接口仅对第一响应文通过自动声音来进行朗读,用户U2的声音用户接口对第一响应文、第二响应文及第三响应文通过自动声音来朗读。这样,针对每个用户而改变POI的信息量、其种类,由此能够提高用户的满足度,或者改善声音用户接口的使用性能。
根据以上说明的实施方式,信息提供装置100基于表示用户对多个POI(条目的一例)分别重视的程度的重要度、以及多个POI上分别随附的元数据的信息量,来决定元数据的优先顺序。并且,信息提供装置100基于所决定的元数据的优先顺序,生成将元数据组合得到的POI的说明文作为响应文,并将该响应文向声音用户接口发送。接受到该情况,声音用户接口对POI的说明文通过自动声音来进行朗读。这样,能够根据用户的重视度、元数据的信息量,针对每个用户而改变POI的信息量、其种类。其结果是,能够将经由声音用户接口向用户通知的信息调整为与各用户相适应的信息量。
而且,根据上述的实施方式,基于用户的驾驶负荷来决定元数据的优先顺序,因此用户能够没有心理负担地接受信息。心理负担例如是驾驶员对声音用户接口的讲话内容的认知、判断或操作(包含基于讲话的响应)等所涉及的负担。
[其他实施方式]
以下,说明其他实施方式。在上述的实施方式中,说明了重要度推定部114推定用户对观点列表134所包含的多个观点分别给予的重要度的情况,但不限定于此。例如,用户也可以使用通信终端300而事先输入重要度。
另外,在上述的实施方式中,说明了信息提供装置100和声音用户接口(通信终端300或智能体装置500)分别为不同的装置的情况,但不限定于此。例如,声音用户接口也可以具备信息提供装置100的功能构成要素。
图16是表示搭载有实施方式的智能体装置500的车辆M的简要结构的其他例子的图。如图示那样,智能体装置500的管理部520可以还具备声音辨识部108、自然语言处理部110、元数据提取部112、重要度推定部114、优先顺序决定部116及讲话信息生成部118这样的信息提供装置100的功能构成要素。另外,在车辆侧存储部560中,可以还保存观点列表134、POI信息136、讲话模板138等。在这样的结构的情况下,智能体装置500为“信息处理装置”的另一例。
上述说明的实施方式能够如以下这样表现。
一种信息处理装置,其构成为,其具备:
存储有程序的存储器;以及
处理器,
通过所述处理器执行所述程序而进行如下处理:
基于表示用户对多个条目分别重视的程度的重要度、以及所述多个条目上分别随附的元数据的信息量,来决定所述元数据的优先顺序;以及
基于所述决定的优先顺序,来向所述用户通知所述元数据。
以上使用实施方式说明了本发明的具体实施方式,但本发明丝毫不被这样的实施方式限定,在不脱离本发明的主旨的范围内能够施加各种变形及替换。

Claims (13)

1.一种信息处理装置,其中,
所述信息处理装置具备:
决定部,其基于表示用户对多个条目分别重视的程度的重要度、以及所述多个条目上分别随附的元数据的信息量,来决定所述元数据的优先顺序;以及
通知部,其基于由所述决定部决定的所述优先顺序,来向所述用户通知所述元数据。
2.根据权利要求1所述的信息处理装置,其中,
所述信息处理装置还具备:
取得部,其取得基于所述用户的讲话产生的要求;以及
提取部,其从满足由所述取得部取得的所述要求的一个以上的条目中提取所述元数据,
所述决定部基于由所述提取部提取的所述元数据的信息量、以及针对由所述提取部提取的所述元数据所随附的条目的所述重要度,来决定所述元数据的优先顺序,
所述通知部作为针对所述要求的响应而基于所述优先顺序来向所述用户通知所述元数据。
3.根据权利要求2所述的信息处理装置,其中,
所述信息处理装置还具备推定部,该推定部基于所述用户讲出所述要求时的所述用户的周边的环境,来推定所述重要度。
4.根据权利要求3所述的信息处理装置,其中,
所述推定部还基于被通知了所述元数据的所述用户的反馈的结果,来推定所述重要度。
5.根据权利要求1至4中任一项所述的信息处理装置,其中,
所述元数据中包含文本,
所述通知部对所述元数据所包含的所述文本通过自动声音进行朗读,由此向所述用户通知所述元数据。
6.根据权利要求5所述的信息处理装置,其中,
所述决定部以在所述用户到达目的地之前的期间内完成所述文本的朗读的方式决定所述元数据的优先顺序。
7.根据权利要求1至6中任一项所述的信息处理装置,其中,
越是对随附目标的所述条目的所述重要度高、且所述信息量少的所述元数据,则所述决定部越提高所述优先顺序。
8.根据权利要求1至7中任一项所述的信息处理装置,其中,
所述用户是驾驶车辆的驾驶员,
所述决定部还基于所述驾驶员的驾驶负荷,来决定所述元数据的优先顺序。
9.根据权利要求8所述的信息处理装置,其中,
所述驾驶员的驾驶负荷越大,则所述决定部越降低所述信息量多的所述元数据的优先顺序。
10.根据权利要求8或9所述的信息处理装置,其中,
所述通知部在所述车辆处于自动驾驶模式下的情况下,与所述车辆处于手动驾驶模式下的情况相比,向所述用户通知更多数量的所述元数据。
11.根据权利要求8至10中任一项所述的信息处理装置,其中,
所述通知部在所述车辆处于自动驾驶模式下的情况下,还向所述用户通知所述条目。
12.一种信息处理方法,其中,
所述信息处理方法使计算机执行如下处理:
基于表示用户对多个条目分别重视的程度的重要度、以及所述多个条目上分别随附的元数据的信息量,来决定所述元数据的优先顺序;以及
基于所述决定的优先顺序,来向所述用户通知所述元数据。
13.一种存储介质,其存储有程序,其中,
所述程序用于使计算机执行如下处理:
基于表示用户对多个条目分别重视的程度的重要度、以及所述多个条目上分别随附的元数据的信息量,来决定所述元数据的优先顺序;以及
基于所述决定的优先顺序,来向所述用户通知所述元数据。
CN202111575412.4A 2020-12-28 2021-12-21 信息处理装置、信息处理方法及存储介质 Pending CN114690896A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020218449A JP2022103675A (ja) 2020-12-28 2020-12-28 情報処理装置、情報処理方法、及びプログラム
JP2020-218449 2020-12-28

Publications (1)

Publication Number Publication Date
CN114690896A true CN114690896A (zh) 2022-07-01

Family

ID=82117739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111575412.4A Pending CN114690896A (zh) 2020-12-28 2021-12-21 信息处理装置、信息处理方法及存储介质

Country Status (3)

Country Link
US (1) US20220208187A1 (zh)
JP (1) JP2022103675A (zh)
CN (1) CN114690896A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2021448947A1 (en) * 2021-06-01 2023-12-21 Paymentus Corporation Methods, apparatuses, and systems for dynamically navigating interactive communication systems

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8688362B2 (en) * 2010-12-16 2014-04-01 Blackberry Limited Changing frequency of navigational notifications based on travel patterns
US9188459B2 (en) * 2011-10-21 2015-11-17 Telenav, Inc. Navigation system with location estimation mechanism and method of operation thereof
US9282286B2 (en) * 2014-03-06 2016-03-08 Citrix Systems, Inc. Participating in an online meeting while driving
US9381813B2 (en) * 2014-03-24 2016-07-05 Harman International Industries, Incorporated Selective message presentation by in-vehicle computing system
US10137902B2 (en) * 2015-02-12 2018-11-27 Harman International Industries, Incorporated Adaptive interactive voice system
US11227589B2 (en) * 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10425373B2 (en) * 2017-07-19 2019-09-24 Citrix Systems, Inc. Systems and methods for prioritizing messages for conversion from text to speech based on predictive user behavior
JP7000924B2 (ja) * 2018-03-06 2022-01-19 株式会社Jvcケンウッド 音声内容制御装置、音声内容制御方法、及び音声内容制御プログラム
WO2019173697A1 (en) * 2018-03-08 2019-09-12 Bose Corporation Prioritizing delivery of location-based personal audio

Also Published As

Publication number Publication date
US20220208187A1 (en) 2022-06-30
JP2022103675A (ja) 2022-07-08

Similar Documents

Publication Publication Date Title
US10269348B2 (en) Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system
US20210407225A1 (en) Method and system for vehicle-related driver characteristic determination
US9928833B2 (en) Voice interface for a vehicle
US9644985B2 (en) Navigation device that evaluates points of interest based on user utterance
CN111599356B (zh) 智能体系统、信息处理装置、信息处理方法及存储介质
KR102403355B1 (ko) 차량, 그와 통신하는 모바일 기기 및 차량의 제어 방법
CN114690896A (zh) 信息处理装置、信息处理方法及存储介质
CN114758653A (zh) 对话系统、具有对话系统的车辆以及控制对话系统的方法
US20220207447A1 (en) Information providing device, information providing method, and storage medium
CN110562260A (zh) 对话系统和对话处理方法
WO2021149594A1 (ja) 情報提供装置、情報提供方法、情報提供プログラム及び記憶媒体
JP7449852B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US20220208213A1 (en) Information processing device, information processing method, and storage medium
JP2017072874A (ja) 情報提供装置、情報提供システム及び情報提供方法
JP2022103553A (ja) 情報提供装置、情報提供方法、およびプログラム
CN112241677A (zh) 信息提供装置、信息提供方法及存储介质
JP2021162398A (ja) 情報提供装置、情報提供方法、情報提供プログラム及び記憶媒体
JP2024091702A (ja) 情報提供装置
JP2020166073A (ja) 音声インタフェイスシステム、制御方法及びプログラム
JP2020180950A (ja) ナビゲーションシステム、ナビゲーション方法、及び、ナビゲーションプログラム
JP2020184020A (ja) 報知制御装置、報知システム、報知制御方法、及び、制御プログラム
JP2020166074A (ja) 音声インタフェイスシステム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination