CN109643550A - 对话机器人及对话系统、以及对话程序 - Google Patents
对话机器人及对话系统、以及对话程序 Download PDFInfo
- Publication number
- CN109643550A CN109643550A CN201880001020.7A CN201880001020A CN109643550A CN 109643550 A CN109643550 A CN 109643550A CN 201880001020 A CN201880001020 A CN 201880001020A CN 109643550 A CN109643550 A CN 109643550A
- Authority
- CN
- China
- Prior art keywords
- user
- information
- server
- response sentence
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004044 response Effects 0.000 claims abstract description 153
- 230000001815 facial effect Effects 0.000 claims abstract description 32
- 238000004891 communication Methods 0.000 claims description 28
- 230000005540 biological transmission Effects 0.000 claims description 7
- 230000009118 appropriate response Effects 0.000 claims description 2
- 230000008859 change Effects 0.000 abstract description 12
- 230000006870 function Effects 0.000 description 31
- 238000000034 method Methods 0.000 description 14
- 230000010365 information processing Effects 0.000 description 11
- 230000000474 nursing effect Effects 0.000 description 9
- 239000000203 mixture Substances 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000036651 mood Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 239000011800 void material Substances 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 210000001015 abdomen Anatomy 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000002409 epiglottis Anatomy 0.000 description 1
- 210000000744 eyelid Anatomy 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/04—Electrically-operated educational appliances with audible presentation of the material to be studied
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Abstract
本发明提供一种能够实现与使用者之间自然对话的对话机器人及对话系统、以及对话程序。对话机器人是ⅰ)当基于使用者的脸部信息,指明所述使用者未登录在服务器的情形时,接收该服务器产生的回应句信息,所述响应句信息包含有询问所述使用者的姓名的姓名查询;ⅱ)当基于所述脸部信息,指明所述使用者有登录在所述服务器的情形时,接收该服务器产生的所述回应句信息,所述响应句信息包含有该使用者的姓名;发声部对应所述使用者是否已登录完毕而对该使用者进行所述姓名询问,或对该使用者进行包含所述使用者的姓名的开始说话。又,本发明的对话机器人是可任意变更与使用者的会话的级别,此外变更被设定的级别前,也可实行各种询问等事前处理。
Description
技术领域
本发明涉及使用对话型机器人的技术,更详细地是关于可观看使用者的表情同时主动地以各种模式的语音对话的对话机器人、对话系统、及对话程序。
背景技术
由于信息手段的进步,与外国人用外文交流的机会正在增加。又,由于交通手段的进步,已成为可轻松出国旅游的时代,而了解、讲出旅行目的地国家的语言的机会也正在增加。因此,以英文为首的外文的学习,特别是会话技巧的学习,无论哪个年代都相当重要。
近年来,随着以互联网为首的通信技术的发展,已经提出有各种通过网络进行仿真会话的技术。
例如,专利文献1提出了一种积累丰富的响应句的对话型机器人,以及通过此机器人连接到计算器而可与除机器人之外的角色对话的对话系统。
另一方面,例如,专利文献2公开了一种学习支持系统,其特征在于使用计算器的英文会话的学习支持系统中,具有管理用户(10)的信息的元代理(11)、对上述使用者(10)进行指导的各负责类别的教者代理(13)。
先行技术文献
专利文献1:日本发明专利第3958253号
专利文献2:日本特开2002-304114号公报
本发明所欲解决的问题:
然而,不只是上述专利文献1和2,以目前的技术而言,称不上能合适地满足市场的需求,而存在有如下所述的各种问题。
也就是说,当实现通过网络的仿真的会话系统时,要对话的对象是虚拟现实的人物,因此与活人不同而终究会出现不自然的氛围。
例如,在专利文献2具有的问题,由于仅与计算器的画面上的角色对话,因此缺乏真实感,特别是在使用者是小孩的情况下很难表现出兴趣等等。
另一方面,在专利文献1中,虽然在可与对话型机器人或其他角色对话此点是非常有趣且不容易厌倦,但主要是只通过语音与用户之间进行会话,因此无法否认其将是单调的会话的感觉。
原本所谓人与人之间的会话的行为,也可能因为对话自然发展而说话者之间的情绪变化等原因而改变。在此点若使例如专利文献2中提出的对话型机器人提升性能而拥有庞大的信息,虽然可以实现更类似人性的对话,但是恐怕处理操作会延迟,此外机器人本身的价格将非常昂贵。
如此在包含上述专利文献的在先技术中,无法不增加成本而实现与使用者之间的自然(彷佛人类之间彼此交谈般逼真)会话的水平,还有很大的改良空间。
而不限于上述的英语会话等的语言学习,在例如护理或娱乐等与用户之间进行对话的系统的需求,可预想将来会不断增加。
本发明是有鉴于上述问题为一范例所完成者,目的在于提供一种可实现与使用者之间自然对话的对话机器人及对话系统、以及对话程序。
发明内容
为解决上述问题,本发明的一实施型态相关的对话机器人是(1)经由通信线路连接网络上的服务器,与使用者之间进行英文会话的对话机器人,其包括:摄像部,拍摄使用者的脸部;语音识别部,辨识所述用户发出的说话语音;发声部,对所述使用者说话;使用者信息发送部,经由通信线路将所述脸部相关的脸部信息及所述语音识别部辨识出的语音信息向所述服务器发送;回应句信息接收部,从所述服务器接收回应句信息;所述使用者信息发送部将所述摄像部拍摄的所述脸部信息发送给所述服务器,ⅰ)当基于所述脸部信息,指明所述使用者未登录在所述服务器的情形时,所述回应句信息接收部接收该服务器产生的所述回应句信息,所述响应句信息包含有询问所述使用者的姓名的姓名查询;ⅱ)当基于所述脸部信息,指明所述使用者有登录在所述服务器的情形时,所述回应句信息接收部接收该服务器产生的所述回应句信息,所述响应句信息包含有该使用者的姓名;所述发声部对应所述使用者是否已登录完毕而对该使用者进行所述姓名查询,或对所述使用者进行包含所述使用者的姓名的开始说话;所述使用者信息发送部将所述语音识别部辨识后的对于所述开始说话的所述用户说话的语音信息,发送给所述服务器。
为了进一步解决上述问题,本发明的一实施型态相关的对话系统是(2)包含所述(1)所记载的对话机器人与所述服务器的对话系统,其特征在于所述服务器包含分每个所述用户单独管理的数据库,且关于与所述使用者之间的对话的信息被记录在所述数据库中。
又,在所述(2)所记载的对话系统中,较理想的是(3)所述服务器将从所述使用者信息发送部接收的发送单元接收的所述用户的语音信息文本化,进行该文本化的语音信息与数据库内的回应句信息的匹配,将包含基于该匹配的适当回应句的所述回应句信息,传送至所述回应句信息接收部,所述对话机器人基于包含接收的所述回应句的回应句信息,通过所述发声部对所述使用者说话。
又,在所述(3)所记载的对话系统中,较理想的是(4)所述摄像部拍摄正在答复所述响应句的所述使用者,并且所述使用者信息发送部将所述摄像部拍摄的所述正在答复的所述用户的图像信息,与对所述回应句说话的所述用户的语音信息,同时发送给所述服务器,所述服务器基于从所述使用者信息发送部接收的所述用户的图像信息,判定所述使用者的表情,将包含基于该表情的判定结果使内容改变的下一个回应句的所述回应句信息,发送到所述回应句信息接收部。
又,在所述(3)或(4)所记载的对话系统中,较理想的是(5)所述服务器将包含用于决定会话级别的级别决定用询问的回应句信息,向所述回应句信息接收部发送,所述对话机器人将包含接收的所述级别决定用询问的回应句,通过发声部对所述使用者说话,并基于所述使用者发出的对所述级别决定用询问的答复,决定所述会话级别,基于所述决定后的对话级别,在所述服务器选择所述数据库中的回应句,并且向所述回应句信息接收部发送。
为了进一步解决上述问题,本发明的一实施型态相关的对话程序是,其特征在于在对话机器人或服务器,使用摄像部拍摄使用者的脸部,将拍摄的所述使用者的脸部相关的信息,经由通信线路发送给服务器,基于所述脸部相关的信息,指明所述使用者是否为未登录,ⅰ)为未登录的情形时,产生包含询问所述使用者的姓名的姓名询问的响应句信息,同时ⅱ)为已登录完毕的情形时,产生包含所述使用者的姓名的响应句信息,使用发声部对所述使用者说出基于所述响应句信息的开始说话,使用语音识别部以语音识别相对于所述开始说话的所述使用者的说话,将所述语音识别后的所述使用者的说话,经由所述通信线路发送给所述服务器。
根据本发明,可以相对低的成本进行与对话机器人的对话,同时与此对话机器人进行首次对话的使用者可用自然的方式开始对话,而可提供使广泛年龄层感兴趣且不会厌倦的对话机会。
附图说明
图1是显示第一实施型态的对话系统100的整体构成的模式图。
图2是显示第一实施型态的对话机器人10的构成的功能方块图。
图3是显示第一实施型态的服务器20的构成的功能方块图。
图4是说明在第一实施型态的英文会话中的初始操作的流程图。
图5是决定在第一实施形态中的会话内容的流程图。
图6是显示第二实施型态的对话系统100′的整体构成的模式图。
图7是说明变形例中的级别设定的操作流程的流程图。
图8是说明变形例中的级别设定的操作流程的流程图。
附图标记说明:U-使用者;10-对话机器人;11-摄像部;12-语音识别部;13-发声部;14-通信接口;15-ROM/RAM部;16-电源;17-控制部;20-服务器;20′-虚拟服务器;30′-虚拟应用程序服务器;31-通信接口;32a-回应句匹配部;33-说话语音解析记录部;34-信息解析记录部;35-脸部信息匹配部;36-会话级别设定部;37-ROM/RAM部;38-集成控制部;40-数据库;41-回应句数据库;42-ID信息数据库;43-学习履历数据库;100-对话系统。
具体实施方式
以下,对用以实施本发明的实施型态,说明用户与经由网络N的服务器及对话机器人进行英文对话的范例。然而,本发明并不限于以下内容,例如不只是英文会话,也可以是使用其他语言的会话,也可以是使用多个对话机器人的范例。又,本实施型态不限于如下所述的语言学习,也可于护理或娱乐领域中应用作为对话机器人。
《第一实施型态》
<对话系统100>
图1是显示实施型态相关的对话系统100的整体构成的模式图。
本实施型态相关的对话系统100包含对话机器人10及服务器20所构成。而对话机器人10与服务器20是以经由互联网等的网络N而可彼此通信的方式连接。而用户U是以语言学习等为目的,对于可与服务器20通信而连接的对话机器人10进行英文会话。
如此,本实施型态的对话系统100发挥功能作为用于进行用户U的英文会话的英文会话系统。
虽然稍后将描述细节,但是在此对话系统100中,是如以下进行信息处理。也就是说,首先,用户U的说话语音经对话机器人10的语音识别部再经由互联网被送往服务器20。在此服务器20中,藉由语音转换引擎将说话语音文本化。之后,成为进行此文本化后的说话语音与会话句数据库的匹配,选择对此说话语音的最佳响应句,其选择的语句利用语音化引擎被语音化,并被送给对话机器人10而让对话机器人10说话的机构。
另外,如稍后所述,对话系统100可进一步包含信息处理终端50。在此情形时,例如,使用者U可实行与不仅是对话机器人10,还包含在信息处理终端50的屏幕上所显示的虚拟人物(个人计算机上的角色)的多个人对话。关于此个人计算机上的角色,请参照上述的日本发明专利第3958253号而在符合本实施型态的精神的形式下可适当合并。
以下,对本实施型态的对话系统100的各构成作详细说明。
<对话机器人10>
首先,使用图2详细说明本实施型态的对话机器人10的构成及功能。
本实施型态的对话机器人10是经由通信线路与网络N(例如互联网)上的服务器20连接,且与使用者U之间进行英文会话的机器人。而本实施型态的对话机器人10是例如可与使用者U以英文对话的小鸟的型态的机器人。
如同一图所示,此小鸟型的对话机器人10包含摄像部11、语音识别部12、发声部13、通信接口14(使用者信息发送部14a、响应句信息接收部14b)、ROM/RAM部15、及电源16所构成。
另外,对话机器人10也可将后述的服务器20中的集成控制部38的一部分功能作为控制部17而包含。作为在此情形下的控制部17的具体范例,可举例有公知的CPU等处理器。
摄像部11具有拍摄使用者U的脸部等的功能。作为成像单元11的具体范例,可举例有搭载CCD或CMOS等的图像传感器的相机。另外在本实施型态中,虽然照相机搭载在小鸟型的对话机器人10的前额周围,但也可是例如小鸟的眼睛是摄像部11。在小鸟的眼睛成为摄像部11的情形时,例如用可动式的眼睑将透镜表面在任意时机(例如作为拍摄使用者U的触发器)覆盖。
语音识别部12具有经由未图示的集音器(麦克风等)提取由用户U发出的说话语音(口语),并将此提取的说话语音转换作为计算器可辨识的字符串的功能。另外,关于语音识别部12进行的语音识别算法没有特别限制,可应用利用例如声学模型的统计技术或者基于隐马尔可夫模型等的公知算法。这种语音识别也可以应用公知的各种软件。此外,作为在语音识别的其他构成范例,也可以应用例如日本发明专利第3968133号、日本发明专利第3361732号等公知的语音识别技术。
发声部13具有对用户U说话的功能。在本实施型态中的发声部13为扬声器,搭载于例如小鸟型的对话机器人10的腹部附近。
如同稍后所述,基于在服务器20中所产生的回应句信息等的说话,是经由此该发声部13所进行。
通信接口14具有经由网络N(例如互联网)等的通信线路与其他终端发送接收各种数据的功能,在本实施型态中是包含用户信息发送部14a与回应句信息接收部14b。
其中,使用者信息发送部14a具备藉由所述通信线路发送关于用户U的信息的功能。另外,作为“关于使用者U的信息”是包含例如摄像部11取得的用以辨识使用者U的信息(脸部(表情)相关的图像信息或因身体造成的姿势等的图像信息等)或语音识别部12取得的使用者U的说话(发声)信息等。
另一方面,响应句信息接收部14b具备藉由通信线路接收后述的服务器20产生的响应句信息的功能。
ROM/RAM部15具备记录和保存各种信息的功能。另外,作为此“各种信息”是包含例如摄像部11或语音识别部12取得的信息,或经由通信接口14接收的信息等。作为本实施型态的ROM/RAM部15的具体范例,可列举有例如EEPROM、闪存等的非挥发性内存,SRAM或DRAM等的挥发性内存等。
电源16具有对包含上述构成的对话机器人10的运作提供所需要的电力的功能。另外,作为电源16可以是用于从公知的商用电源获得电力的插座插头,也可以是一次电池或二次电池等的电池。
<服务器20>
接着参考图3,同时对本实施型态的服务器20的详细构成作说明。
本实施型态的服务器20是发挥功能作为经由互联网等网络N与对话机器人10进行信息通信的计算器。
更具体而言,服务器20包含应用程序服务器30与存储服务器40而构成。若以功能上分类,这种服务器20是包含通信接口31、回应句匹配部32a、回应句语音转换部32b、回应句信息发送部32c、说话语音记录部33、信息解析记录部34、脸部信息匹配部35、会话级别设定部36、ROM/RAM部37、集成控制部38、及数据库40而构成。
通信接口31具有连接互联网等的网络N的功能。服务器20可以经由此通信接口31进行发送和接收各种信息。
回应句匹配部32a具有进行包含说话语音的文本化的内容解析的功能,同时从稍后所述的回应句数据库41中,选择此解析后的说话语音的含义内容相对应的回应句。此外,服务器20包含会话级别设定部36在构成要件的情形时,进一步基于会话级别设定部36所设定的会话级别,从回应句数据库41中选择对应使用者U的会话级别的响应句。
另外,回应句匹配部32a在当进行用户U的说话语音的内容解析后的结果,被判定该说话语音的含义内容并不是可选择回应句的含义内容的情形时,从响应句数据库41中选择对使用者U提醒再次说话发声的意旨的回应句,并向对话机器人10发送。
回应句语音转换部32b具有将藉由上述回应句匹配部32a所选择的回应句转换为语音数据的功能。另外,语音数据的文件格式不受特别限制,可以是WAV等的非压缩格式,也可以是MP3或AAC等的压缩格式。这种语音转换也可以应用公知的各种软件。又,在响应句语音转换部32b中是被转换为例如以该语言为母语者说出的语音数据。
响应句信息发送部32c具有的功能是,将藉由上述回应句语音转换部32b转换后的语音数据作为回应句信息经由网络N向对话机器人10发送。
说话语音记录部33具有将藉由回应句匹配部32a进行内容解析后的说话语音,记录在数据库40的功能。更具体而言,说话语音记录部33是将从对话机器人10经由网络N接收的用户U的说话语音,随时记录在学习履历数据库43中。如稍后所述,学习履历数据库43是分每个使用者管理,且与例如日期、会话时间、会话的内容(所使用的主题等)或者对询问的正确回答率等一起被单独记录在学习履历数据库43。如此在本实施型态中,服务器20包含分每个用户U单独管理的数据库40,并且在此数据库40中记录与用户U之间的英文会话相关的信息。
信息解析记录部34主要具有解析从对话机器人10的使用者信息发送部14a发送的摄像部11取得的图像信息的功能,和将该解析后的图像信息记录在数据库40中的功能。更具体而言,信息解析记录部34解析从使用者信息发送部14a接收的上述图像信息中是否包含人物,包含人物的情形时则将头部或上半身的图像等记录在ID信息数据库42。此时,将该人物首次登录在ID信息数据库42时,理想的是如稍后所述与其人物的姓名信息同时记录。
当解析所取得的图像信息中是否包含人物时,可以应用例如形态学处理等的公知的人物提取算法。又,在此人物提取算法,也可以容易指明所提取的人物的脸部,所以信息解析记录部34也可以将指明的脸部信息记录在ID信息数据库42。
脸部信息匹配部35具有将从对话机器人10的使用者信息发送部14a接收的使用者U的脸部信息,与已经记录在ID信息数据库42的脸部信息进行匹配的功能。换句话说,脸部信息匹配部35可说是具有将从使用者信息发送部14a接收的使用者U的脸部信息,判定是否被登录或未登录的功能。
对话级别设定部36具有的功能是,对应对用户U的询问的回答内容,设定回应句匹配部32a从回应句数据库41中选择的回应句的级别。本实施型态的会话级别设定部36可能依难易度高的顺序来设定多个阶段(在本实施型态为12阶段)的级别。作为具体的级别设定方法,对话级别设定部36可以设定是在例如初始值为中间阶段(若是12阶段的话为中央的级别6)。而在设定之后,来自对话机器人10的回应句是控制为用判定后的级别的英文回应。
又,作为其他具体的级别设定方法,可考虑例如使用中间阶段(级别6)的响应句,如果使用者U对此响应句作出适当的答复则级别上升一级,是错误答案的答复的情形时则下降一级等。此回应句与答复的内容是对应上述的级别而分别有多个英文范例被保存在回应句数据库41中。作为具体的询问与回答内容的文例,也可应用例如公知的英文问题集或公开英文考试的试题。
因此,会话级别设定部36控制回应句匹配部32a,使其从应答语句数据库41中提取对应设定的级别的回应句,另一方面判定从语音识别部12接收的使用者U的答复是否与保存在响应句数据库41中的答复范例一致即可。
另外,由于本实施型态的对话系统100是作为语言学习的英文会话系统,因此可以基于来自使用者U的说话内容的正确与否的级别设定,但是例如于护理领域应用本系统的情形等时,会话级别设定部36不总是必须的。
ROM/RAM部37具有保存在服务器20内运作的软件或在对话机器人10内运作的软件等的功能。作为此ROM/RAM部37的具体范例,可列举有例如硬盘或大容量内存等。
另外,在对话机器人10运作的软件的一部分或全部也可以是保存在对话机器人10本身的型态。在此情形时,在服务器20内运作的各种软件是保存在ROM/RAM部37。
集成控制部38是公知的CPU等的处理器,具有统一控制上述的服务器20的各构成要件的动作的功能。
数据库40具有记录而保持在对话系统100所使用的各种数据的功能。本实施型态的数据库40可举例有例如大容量的硬盘。如上所述,本实施型态的数据库40分别包含上述的回应句数据库41、ID信息数据库42、及学习履历数据库43。其中,至少学习履历数据库43是构成为使登录后的使用者的学习履历是每个该使用者单独管理。
其中,在响应句数据库41中积累的响应句具有例如“早上好(Good Morning)喂(Hi)”等。另外,作为积累的响应句的其他范例,可适当使用例如国际公开公报WO2005/076258号或日本特开2012-215645号公报等所公开的公知的各种文例或公知的数据构成。
另外,本实施型态是英文会话系统,所以如上述的例句被积累在响应句数据库41中,但是应用于例如护理领域的情形时,则是日常会话文例或爱好/娱乐话题等积累作为回应句范例。也就是说,在本实施型态的对话系统100的回应句数据库41中,根据其所应用的领域(语言学习、护理、娱乐、或者接待应对等的业务辅助等),而积累必要的例句。
<对话程序>
应用于上述的对话系统100的程序是于对话机器人10及服务器20的任一者,在对话机器人或服务器息,使用摄像部拍摄使用者的脸部,将拍摄的使用者的脸部相关的信息,经由通信线路发送给服务器,基于所述脸部相关的信息,指明所述使用者是否为未登录,i)为未登录的情形时,产生包含询问所述使用者的姓名的姓名询问的响应句信息,同时ⅱ)为已登录完毕的情形时,产生包含所述使用者的姓名的响应句信息,使用发声部对所述使用者说出基于所述响应句信息的开始说话,使用语音识别部以语音识别相对于所述开始说话的所述使用者的说话,将所述语音识别后的所述使用者的说话,经由所述通信线路发送给所述服务器。
<启动初始(用户指明)操作流程>
接着使用图4,对在本实施型态中的对话系统100在启动初始的使用者指明操作详细描述。另外,之后在图4~图6中说明的流程是在服务器20的集成控制部38与根据需要所设置的对话机器人10的控制部17的控制下执行。
首先,在步骤S10中,若期望与对话机器人10对话(在本例中为英文会话)的使用者U开启对话机器人10的电源开关(未图示)时,对话机器人10的系统启动,同时经由网络N(以下以互联网为范例说明)与服务器20进行连接请求。
接着,在步骤S 11中,服务器20基于来自对话机器人10的上述连接请求,经由互联网将ID信息请求发送给对话机器人10。另外,ID信息只要是可指定使用者U的信息,例如脸部信息或指纹信息等并没有特别限制,但是考虑指明的容易度,理想的是例如使用者U的脸部信息。因此,以下使用使用者的脸部相关的脸部信息作为这种ID信息的范例进行说明。
当对话机器人10接收此ID信息请求时,接着在步骤12中,摄像部11运作而取得使用者U的ID信息(以下称为脸部信息)。更具体而言,对话机器人10调整摄像部11(相机),以使正对的使用者U的脸部进入拍摄范围后拍摄。
而在步骤S13中,对话机器人10的使用者信息发送部14a将摄像部11拍摄的使用者U的脸部信息发送给服务器20。
接者在步骤S14中,服务器20判定接收的脸部信息是否已经登录或未登录。更具体而言,服务器20的脸部信息匹配部35检索本次接收的脸部信息是否与ID信息数据库42中的已登录完毕的脸部信息一致。另外,此时的脸部信息的匹配是藉由从脸部的图像提取显着的特征来识别,但也可以应用例如使用主成分分析的特征脸、线性判别分析、弹性束图匹配、动态连接匹配等公知的算法。
而在步骤S15中,i)基于接收到的脸部信息指明使用者U为未登录的情形时,产生包含询问使用者U的姓名的姓名询问的响应句信息(S15-1)。另外,例如“What is yourname?”等的例句被保存在回应句数据库41中作为此“姓名询问”,且集成控制部38读取回应句数据库41以产生包含姓名询问的回应句信息。之后,此产生的回应句信息经由互联网以对话机器人10的回应句信息接收部14b接收。
另一方面,ii)当基于接收的脸部信息而指明使用者U为登录的情形时,产生包含使用者U的姓名的响应句信息(S15-2)。另外,例如“Hello,(姓名)。”等的例句被保存在回应句数据库41中作为“包含姓名的回应句”,且集成控制部38读取回应句数据库41,同时产生与已登录完毕的用户U的姓名组合的回应句信息。之后,此产生的回应句信息经由互联网以对话机器人10的回应句信息接收部14b接收。
而在步骤S16中,以回应句信息接收部14b接收回应句信息的对话机器人10是经由发声部13(扬声器)将所接收的回应句作为开始说话而发出。
如此,在本实施型态中,发声部13对应使用者U是否已登录完毕,对该使用者U进行询问姓名的姓名询问,或对使用者U进行进行包含使用者U的姓名的开始说话。所述使用者信息发送部将所述语音识别部辨识后的对于所述开始说话的所述用户说话的语音信息,发送给所述服务器。
接着在步骤S17中,来自发声部13的开始说话所对应的回答是由使用者U所完成,所以语音识别此使用者U的说话内容(回答)。更具体而言,对话机器人10的语音识别部12对作为使用者U的回答的说话内容进行语音识别。
而语音识别后的使用者U的说话内容,在随后的步骤S18中经由互联网向服务器20发送。更具体而言,对话机器人10的使用者信息发送部14a将语音识别部12辨识的开始说话所相对的用户U说的语音信息,发送给服务器20。
而这次的使用者U为首次登录的情形时,在随后的步骤S19中,服务器20的信息解析记录部34将接收的使用者U的姓名信息与在步骤S14使用的ID信息一起记录在数据库40。更具体而言,在本实施型态中,姓名信息与使用者U的脸部信息一起被记录并保存在ID信息数据库42中。另外,与姓名信息一起被记录的ID信息在本范例中虽然是脸部信息,但是在步骤S14中所使用的信息为指纹信息等的其他辨识信息的情形时,也可以是该其他信息。
若以上的启动初始(用户指明)操作流程完成时,则与使用者U开始因对话机器人10所形成的会话。
另外在步骤S10中,也可在对话机器人10搭载LED等的显示设备,其显示进行系统启动或已完成上线。在此情形时,理想的是依照例如系统启动、上线的顺序使显示设备的显示颜色改变。
如上述所说明,如果对话机器人10的电源开关打开且连接到网络N时,对话机器人10的摄像部11运作而拍摄在对话机器人10前面的使用者U的脸部。而所拍摄的用户的图像信息经由网络N被发送往服务器20的信息解析记录部34与脸部信息匹配部35。而在脸部信息匹配部35则与已登录完毕的脸部图像进行匹配,并指明使用者是已登录完毕的谁。
而当与在脸部信息匹配部35已登录完毕的脸部图像一致的情形时,指明其人物而向对话机器人发送“Hello,(名字)”的说话。另一方面,若在已登录完毕的图像中没有可以判定为同一人物的脸部图像,则其用户U成为新登录者并保存图像,而向对话机器人10发送“What is your name?”的姓名询问。而当使用者U回答其询问并说出自己的名字时,将其名字与先前的图像一起登录。
<会话内容的决定操作流程>
接者使用图5,详细描述关于决定对话系统100与用户U的会话内容的操作。
首先,在步骤S30中,从服务器20经由互联网发送主题请求给对话机器人10,该主题请求是请求英文会话的主题为何。具体而言,服务器20的集成控制部38从回应句数据库41中提取与主题请求相关的回应句,并且将基于此回应句的语音信息经由通信接口31发送给对话机器人10。又,作为此主题请求的内容,可以是用例如使用者U的母语询问“要选择什么主题呢?”,也可以提示“要从运动、天气、餐饮,○○之中选择哪一项呢?”等以选项来询问。又,也可以将此主题请求本身用作为学习语言的英文来进行,而不是使用者U的母语。
接着在步骤S31中,对话机器人10从发声部13说出关于所接收的主题请求的语音信息,对用户U实行此次进行的英文会话的主题询问。
而在步骤S32中,语音识别部12将来自用户U的主题回答相关的说话作语音识别,同时使用者信息发送部14a将此语音识别部12辨识后的主题回答相关的语音信息发送给服务器20。
接着在步骤S33中,以服务器20的信息解析记录部34解析关于主题回答的语音信息,并决定此次要学习的主题。
而在步骤S33决定定学习主题后,在步骤S34判定是否存在有学习履历。更具体而言,服务器20的集成控制部38参考学习履历数据库43并检索关于此次的使用者U是否有过去学习的履历。而判定有过去的学习履历的情形时,在步骤S35中集成控制部38使此提取的学习履历的内容反映在此次的英文会话中。具体的反映内容可列举有例如继续过去进行的会话级别、有无已经学习完毕的主题等。
另一方面,此次的使用者U是新的情形时,由于学习履历数据库43内的履历还是零,所以此次以后的学习履历会逐次积累。
如此经过此步骤S34后,在集成控制部38的控制下根据说话语音记录部33等,进行以后的使用者U与对话机器人10之间的会话的记录、管理。又,以后的使用者U与对话机器人10之间的会话被记录在学习履历数据库,所以用户U的熟练度或会话级别等在学习履历数据库内将会随时更新。
接着,在确认有无学习履历及其反映完成之后,在步骤S36开始关于此次的主题的具体英文会话。也就是说,集成控制部38控制回应句匹配部32a而从响应句数据库41之中选择适合此次的主题的回应句。然后,将所选择的回应句根据回应句语音转换部32b转换成语音信息后,回应句信息发送部32c经由通信接口31将其作为回应句信息发送给对话机器人10。
而在步骤S37中,接收在步骤S36产生的回应句信息的对话机器人10运作摄像部11以拍摄正在回答上述的响应句的使用者U。此时,摄像部11可适当使用ROM/RAM部15以拍摄一或多个静止图像,也可只以预定时间(例如数秒~数分钟以内)拍摄回答时的动态影片。
另外此步骤S37也可总在使用者U答复响应句时进行,也可以是例如每5分钟或每10分钟等任意的时机实行的型态。在其情形时,在此步骤S37启动的时机实行稍后描述的步骤S40~S42即可。
在步骤S38中,基于在步骤36产生成的回应句信息,根据发声部13说出回应句。另外,上述的步骤S37与此步骤S38也可以颠倒其顺序。
接着在步骤S39中,语音识别部12将来自使用者U的对响应句的说话作语音识别,同时使用者信息发送部14a将此语音识别部12辨识的对回应句的说话(成为对回应句的回答的答复句)相关的语音信息发送给服务器20。
在与此步骤S39实质上在相同时间,在步骤S40中,在步骤S37中取得的用户U的图像信息(在回答时的用户U的静止图像或动态影片)经由互联网被发送给服务器20。另外,上述的步骤S39与此步骤S40可以是几乎同时实行,也可以是步骤S39在先或在后。
如此在本实施型态中,对话机器人10的使用者信息发送部14a将摄像部11拍摄的答复中的用户U的图像信息,与对回应句说话(答复)的用户U的语音信息同时发送给服务器20。
在步骤S41中,服务器20基于从使用者信息发送部14a接收的用户U的图像信息,判定该使用者U的表情。更具体而言,服务器20检测出例如可从使用者U的表情读取的情绪要素中的预定值以上的“愤怒”或“悲伤”的数值的情形时,判定使用者U的表情为困惑(换句话说,使用者U感觉无聊和厌倦)。
作为此情绪要素的数值化可应用例如微软公司所公开的利用脸部辨识技术的“情感应用程序编程接口”等,且在此技术中辨识包含在图像中的脸部,将八个主要的情绪要素“愤怒”、“蔑视”、“恐惧”、“厌恶”、“幸福”、“中等”、“悲伤”、“吃惊”数值化。另外,此数值越高,意指其情绪越强。
又,作为其他的判定方法,可应用例如日本特开平3-252775号公报、日本特开平8-249447号公报、日本特开平8-249453号公报、日本特开平10-255043号公报、日本特开2001-051338号公报等的辨识脸部表情的公知技术,而也可以从其表情中提取与“困惑”相关的表情(“愤怒”、“焦虑”、“憎恨”等)以作判定。
而在步骤S41判定使用者U的表情困惑时,则在步骤S42中,服务器20控制会话级别设定部36而改变设定级别。更具体而言,会话级别设定部36实行从目前设定的会话级别仅降低一个或多数个级别的处理。而之后基于此改变的会话级别,控制使回应句匹配部32a从回应句数据库41中选择适当的候补回应句。
另外,当在步骤S41判定使用者U的脸部表情未困惑时,在本实施型态中设定级别则不变,但并不限于此型态。例如在步骤S41检测出从使用者U的表情可读取的情绪要素中的预定值以上的“喜悦”或“快乐”的数值的情形时,也可控制会话级别设置部36而提高设定级别。又,在此情形时,在提高设定等级之前,集成控制部38也可以向对话机器人10发送建议提高设定等级的回应句。建议提高这样的设定等级的各种响应句也可以预先保存在响应句数据库41中。
如此在本实施型态,可说是对应在使用者U的表情的判定结果,不是用户U而是系统侧主动改变对话的内容(话题等)和级别。
接着在步骤S43中,包含基于使用者U的表情的判定结果而使内容改变的下一个回应句的回应句信息,经由互联网被发送给对话机器人10。更具体而言,回应句匹配部32a基于所设定的会话级别,从回应句数据库41中选择适当的候补回应句作为下一个回应句。而将此选择的下一个回应句已回应句语音转换部32b转换为语音信息之后,根据回应句信息发送部32c经由通信接口31将包含下一个回应句的回应句信息发送给回应句信息接收部14b。
另外,在步骤S43中,也可对于在步骤S39使用者U进行的说话的文法错误的指证、校正,或者是发音的矫正与训练,将催促其的回应句发送给对话机器人10
另外在步骤S43中,在服务器20中是实行以下处理。也就是,首先在步骤S39中从使用者信息发送部14a接收的使用者的说话(答复)相关的语音信息,以说话语音记录部33文本化。而该文本化后的语音信息与回应句数据库41的回应句信息的匹配,是由回应句匹配部32a进行。此外包含基于此匹配结果的适当的回应句的回应句信息,是经由回应句语音转换部32b及回应句信息发送部32c所产生且向对话机器人10的回应句信息接收部14b发送。
而在步骤S44中,对话机器人10基于包含接收的下一个回应句的回应句信息,经由发声部13对使用者U说话。
接着在步骤S45中,语音识别部12将被说出的下一个响应句所相对的使用者U的说话(答复)作语音识别,同时关于此被语音识别后的使用者U的说话内容的语音信息,经由用户信息发送部14a发送给服务器20。
而在步骤S46中,服务器20接收在步骤S45所发送的语音信息之后,判定目前进行的英文会话的主题学习是否已经结束。更具体而言,集成控制部38参考响应句数据库41等以检索是否存在下一个响应句,且当判定主题学习结束时则完成学习。此时,也可以将学习完成的意旨的通知经由互联网发送给对话机器人10,而以发声部13说话。又,集成控制部38也可以进行将主题学习完成的话更新会话级别等,更新学习履历数据库43的学习履历的控制。
另一方面,在步骤S46中集成控制部38判定主题学习尚未结束时,则回到步骤S36重复控制,即回应句匹配部32a参考响应句数据库41以选择对使用者U的上述答复的适当响应句。
如上所说明,在本实施型态中,当对话机器人10向使用者U抛出会话时,拍摄使用者U在答复中的脸部图像。而使用者U在答复当中的表情与用户U的说话语音同时经由互联网在服务器20接收,且基于其图像在服务器20判定使用者U的情绪。而判定的结果具有主要的特征为,对应用户U的表情分别改变适当级别的响应句此点等。
《第二实施型态》
以下,使用图6说明本发明的第二实施型态相关的对话系统100′。在上述的第一实施型态中,对话机器人10经由网络N与物理的服务器20连接以能够信息通信,但是在本实施型态中,具有活用云计算此点的差异。因此,在以下说明与第一实施型态的差异点,而发挥与已描述的构造相同功能、作用者被指派有相同的附图标记,并且适当地省略其描述。
如图6所示,本实施型态相关的对话系统100′是使用所谓的云计算的系统,且包含对话机器人10、逻辑虚拟服务器20′、及物理的数据中心60而构成。对话机器人10与虚拟服务器20′是经由互联网连接以便能够彼此通信。而用户U以语言学习等为目的,与以可通信方式连接虚拟服务器20′的对话机器人10进行英文会话。
又,此虚拟服务器20′经由网络N与配置物理各种的数据中心60连接。
而在虚拟服务器20′内,构成有逻辑虚拟应用程序服务器30′与虚拟存储服务器40′。另外,具体的虚拟服务器20′的功能与第一实施型态相同,所以省略其说明。
也就是说,在本实施型态中,对话机器人10是经由网络N(例如互联网)与云内的虚拟服务器20′进行信息通信。
如此本发明并不限于进行与物理的服务器20直接交换信息的情形,也活用云计算来实施。
上述的个实施型态,可以在不脱离本发明的主旨的范围内进行各种变更。以下,将对各实施型态可应用的变形例进行说明。
<会话级别的决定操作流程>
以下,使用图7说明变形例相关的会话级别操作流程。
另外,在图7中,除了作为级别决定例程的步骤R1~R7以外的步骤S30~S46,是与上述的第一实施型态的图5相同内容的处理,所以适当省略其说明。
也就是说,在步骤S34及S35适当实行学习履历的反映后,服务器20的集成控制部38在步骤R1中判定是否有发动级别决定例程。此级别决定例程是对话机器人10向使用者U抛出好几个询问,而根据使用者U对其询问是如何回答,将使用者U的会话级别以多阶段来判定者。而以级别决定例程决定对话级别之后的来自对话机器人10的回应句,是基于此判定的会话级别从回应句数据库41中所适当选择。
在本变形例中,对应上述的会话级别设定部36所设定的会话级别(12阶段的级别),实行因级别决定例程所造成的处理。
另外,级别决定例程的发动频率没有特别限制,也可以在任意时机发动,例如使用者U操作对话机器人10的未图示的开关而发动,每预定时间如10分钟等进行级别决定而发动,或者也可以对话机器人10在启动的初始仅发动一次。
若是在步骤R1发动级别决定例程,则服务器20的会话级别决定部36控制回应句匹配部32a从回应句数据库41中选择级别决定用询问后提取。接着回应句语音转换部32b将包含此级别决定询问的回应句转换为语音信息后,转换后的语音信息(回应句信息)藉由回应句信息发送部32c而经由通信接口31被发送给对话机器人10。
另外,作为用于决定此会话级别的级别决定用询问,可应用基于上述公知的英文问题集或公开英文考试的试题等的多个英文范例,而这种的级别决定用询问保存在回应句数据库41中。
接着在步骤R3中,对话机器人10基于包含接收的级别决定用询问的回应句信息,藉由发声部13说出询问句。
然后,接着在步骤R4中,语音识别部12将来自使用者U的对询问句的说话(答复)作语音识别,同时使用者信息发送部14a将语音识别部12所辨识的对询问句的说话(作为对询问句的回答的答复)相关的语音信息,发送给服务器20。
在步骤R5中,接收来自用户U的语音信息的服务器20,对照关于使用者U进行的答复的内容的对错。更具体而言,如上所述,判定从对话机器人10接收的使用者U的答复是否与保存在响应句数据库41中的答复范例一致。
接着在步骤R6中,判定服务器20是否已达到规定的询问数量,如果尚未达到,则实行回到步骤R2以重复询问的控制。另一方面,已达到规定的询问数量的情形时,则在步骤R7中基于对那之前进行的询问的对错的状况,设定合适的会话级别。
另外,规定的询问数量没有特别限制,但是也可以是将例如对应会话级别的层级数的数量的询问(例如级别到12则为12个询问),对使用者U进行而根据其正确回答率决定会话级别。
如此在第一实施型态中,解析用户U在答复时的表情而改变会话级别,但是在此变形例中,是进行除了上述表情之外,对应使用者U的实际回答内容而设定会话级别。
以上说明的内容是用于实施本发明的一范例,在不脱离本发明的主旨的范围内,也可以适当组合上述说明的各实施型态及变形例的要素。
例如在上述实施型态及变形例中,选择合适的回应句的信息处理等不是在对话机器人10一侧实行,而是经由网络N在服务器一侧进行,但是并不限于此方式。
也就是说,服务器一侧仅管理数据库40,也可以是以对话机器人10的控制部17进行上述的各种信息处理的型态。在此情形时,对话机器人10具有上述的回应句匹配部32a、回应句语音转换部32b、回应句信息发送部32c、说话语音记录部33、信息解析记录部34、脸部信息匹配部35、及会话级别设定部36的功能。或者,也可以是对话机器人10分担响应句匹配部32a、回应句语音转换部32b、回应句信息发送部32c、说话语音记录部33、信息解析记录部34、脸部信息匹配部35、及会话级别设定部36的至少一功能,而剩余的在服务器一侧处理。
又,在上述实施型态中,已说明用户U与对话机器人10二者进行会话的范例,但是如上所述,本发明不限于此型态,也可以是三者以上进行会话的型态。在此情形时,可考虑例如以下的会话形态。
(a)在护理领域的应用范例中,用户U、对话机器人10、及护理人员的三者对话的形态:
在此情形时,对对话机器人10添加两个人。而由对话机器人10的语音识别部12转换的语音信息,是由服务器20单独(以使用者U与护理人员区分)管理。而回应句匹配部32a对每个说话者从回应句数据库41中选择适当的回应句,并经由网络N发送给对话机器人10。
(b)在娱乐领域等的应用范例中,以用户U、对话机器人10、及信息处理终端50(也可以是智慧手机等的便携式信息设备)中的角色的三者对话的形态。
在此情形时,信息处理终端50经由网络N与服务器20连接,并且对使用者U一人将多个信息设备加入对话。而回应句匹配部32a接收来自信息处理终端50的回应句信息,也基于来自该信息处理终端50的回应句信息从回应句数据库41中选择适当的回应句,经由网络N发送给对话机器人10。
例如对话内容是英文会话学习的情形时,当用户U与显示于信息处理终端50的数字角色进行对话(英文会话)时,对话机器人10对使用者U提供响应内容的提示,或者也可以是对话机器人10代替用户U响应数字角色。换句话说,在这种情形时,对话机器人10是担任作为使用者U的辅助者的功能。
另外在上述(a)的情形时,也可以添加三位以上的人,且在此情形下,也可以是以服务器20对每个说话者辨识会话内容的型态。又,在上述(b)的情形时,除了对话机器人10以外也可以添加两台以上的信息终端。
此外,在上述(a)与(b)的情形中,服务器20可以对每个说话者辨识语音信息的情形时,也可以为每个说话者设定不同的会话内容(主题)。又,也可以从服务器20或信息处理终端50及上述信息设备积极提示与主题相关联的信息。
又,本发明的对话系统及对话机器人、以及对话程序并不限于包含在家庭中或教室等进行的上述英文会话的语言学习的领域,而可以广泛应用于例如护理领域或娱乐领域等与使用者之间需要某些对话的各种领域。
<设定级别变更前的事前处理>
另外在上述的第一实施型态中,当在步骤S41中判定使用者U的表情为困惑时,接着在步骤S42中立即控制会话级别设定部36而变更设定级别。
然而,本发明并不限于此方式,也可以实行如以下的设定级别变更前的事前处理。
也就是说,在以下的变形例中,事前对使用者U的表情辨识设定若干模式(例如“困惑”、“笑容”、“面无表情”等),以对应用服务器20判定的使用者U的表情使来自服务器20的响应内容改变。作为其一范例,例如在判定使用者U的表情之后,变更会话的设定级别前进行回答催促或事前预告等的各种事前通知。
更具体而言,例如图8的步骤S41a、S41b所示,基于使用者U的表情的辨识结果,进行对使用者U的回答的催促或设定级别变更的意图确认。
首先,在步骤S41中,与第一实施型态相同的方式判定使用者U的表情。而服务器20在使用者U的表情困惑的情形,没有接收到关于来自使用者U的响应句的语音信息时,在步骤S41a向使用者U发送催促回答的讯息。作为这种讯息的范例,可举例有例如“怎么了?”或“要再稍等一下吗?”等。
另外在步骤S41a发送讯息之后接收到来自使用者U的答复的情形时,例如预先保持来自用户U的预期回答模式(“是”、“不是”或者“没关系”等),对照实际来自使用者U的答复即可。当然,即使无法从使用者U得到有意义的答复,也可以在经过了规定时间的情形时进入随后的步骤S41b。
然后接着在步骤S41b中,对使用者U发送催促从目前的会话级别变更设定级别的讯息。作为这种讯息的范例,可举例有例如“请用更容易懂的方式说”或“改变一下话题吧”等的事前通知。
经过到此种步骤S41b为止的催促或事前通知之后,与上述第一实施型态相同,在步骤S42进行变更会话的设定级别的处理。另外步骤S41a与步骤S412b不需要共同实行,可以是实行其中至少一方的型态。
另一方面,服务器20在使用者U的表情没有困惑的情形时,在步骤S41c判定使用者U的表情是笑容。而服务器20在使用者U的表情为笑容时,在步骤S41d向使用者U发送问笑容的原因的讯息。作为这种讯息的范例可举例有例如“发生什么好事吗?”或“高兴吗?”等。另外本步骤即使是没有接收到来自使用者U的响应句相关的语音信息时也可以实行。
另外在步骤S35反映过去的学习履历的情形时,将其与来自过去的使用者U的答复内容(对过去进行的响应句的说话及其表情)相比较,该过去的答复内容与本次的变更内容(对步骤S38的响应句的说话及其表情)不同的情形时,则可构成为进行像“发生什么了吗?”等的背景询问。
<大数据的活用>
又,在本发明中,也可以设为服务器20将利用与其他使用者的交流所取得的响应句范例保持作为大数据,并活用此大数据而变更向用户U的从服务器20发送的讯息。
更具体而言,在图8中具有的特征为,对应来自使用U的答复(对步骤S38的回应句的说话)的内容,参考大数据而进行向用户U的下一个回应句选择此点。
也就是说,在步骤P1中,判定来自使用者U的答复(对步骤S38的响应句的说话)的内容是否为正确回答。
而来自用户U的答复是,例如是与预先保持的所假设答复内容偏差的内容的情形或文法上有错误的情形等并非正确回答的情形时,在步骤P2参照大数据。
在此,服务器20可以一边共有与其他使用者或使用者U的过去的交流,一边学习,例如按照回应句出现频率高的响应句的范例也存入数据库。
因此,服务器20在例如来自使用者U的答复中存在频繁的文法上的错误的情形时,也可以在随后的步骤S43中选择相关其文法的内容的响应句并向使用者U发送。又,服务器20在例如来自使用者U的答复内容不包含在假设的答复内容内的情形时,也可以在随后的步骤S43中选择降低设定级别的响应句并向使用者U发送。
另外,使用图8所说明的“步骤S41a~步骤S41d”与“步骤P1、P2”,也可以是至少其中一方被实施的型态。
又,在图8中,也可以构成为实行使用图7所说明的级别设定例程(步骤R1~R7)。
【产业上可利用的可能性】
如以上所述,本发明的对话机器人及对话系统、以及对话程序可适用于与用户之间建构自然的会话。
Claims (6)
1.一种对话机器人,是经由通信线路连接网络上的服务器,与使用者之间进行英文会话的对话机器人,其特征在于,包括:
摄像部,拍摄使用者的脸部;
语音识别部,辨识所述用户发出的说话语音;
发声部,对所述使用者说话;
使用者信息发送部,经由通信线路将所述脸部相关的脸部信息及所述语音识别部辨识出的语音信息向所述服务器发送;
回应句信息接收部,从所述服务器接收回应句信息;
所述使用者信息发送部将所述摄像部拍摄的所述脸部信息发送给所述服务器,
ⅰ)当基于所述脸部信息,指明所述使用者未登录在所述服务器的情形时,所述回应句信息接收部接收该服务器产生的所述回应句信息,所述响应句信息包含有询问所述使用者的姓名的姓名查询;
ⅱ)当基于所述脸部信息,指明所述使用者有登录在所述服务器的情形时,所述回应句信息接收部接收该服务器产生的所述回应句信息,所述响应句信息包含有该使用者的姓名;
所述发声部对应所述使用者是否已登录完毕而对该使用者进行所述姓名查询,或对所述使用者进行包含所述使用者的姓名的开始说话;
所述使用者信息发送部将所述语音识别部辨识后的对于所述开始说话的所述用户说话的语音信息,发送给所述服务器。
2.一种对话系统,是包含权利要求1所述的对话机器人与所述服务器的对话系统,其特征在于,所述服务器包含分给每个所述用户单独管理的数据库,且关于与所述使用者之间的对话的信息被记录在所述数据库中。
3.如权利要求2所述的对话系统,其特征在于,所述服务器将从所述使用者信息发送部接收的发送单元接收的所述用户的语音信息文本化,进行该文本化的语音信息与数据库内的回应句信息的匹配,将包含基于该匹配的适当回应句的所述回应句信息,传送至所述回应句信息接收部;
所述对话机器人基于包含接收的所述回应句的回应句信息,通过所述发声部对所述使用者说话。
4.如权利要求3所述的对话系统,其特征在于,所述摄像部拍摄正在答复所述响应句的所述使用者,并且所述使用者信息发送部将所述摄像部拍摄的所述正在答复的所述用户的图像信息,与对所述回应句说话的所述用户的语音信息,同时发送给所述服务器;
所述服务器基于从所述使用者信息发送部接收的所述用户的图像信息,判定所述使用者的表情,将包含基于该表情的判定结果使内容改变的下一个回应句的所述回应句信息,发送到所述回应句信息接收部。
5.如权利要求3或4所述的对话系统,其特征在于,所述服务器将包含用于决定会话级别的级别决定用询问的回应句信息,向所述回应句信息接收部发送,
所述对话机器人将包含接收的所述级别决定用询问的回应句,通过所述发声部对所述使用者说话,
并基于所述使用者发出的对所述级别决定用询问的答复,决定所述会话级别,
基于所述决定后的会话级别,在所述服务器选择所述数据库中的回应句,并且向所述回应句信息接收部发送。
6.一种对话程序,其特征在于,在对话机器人或服务器中,使用摄像部拍摄使用者的脸部,
将拍摄的所述使用者的脸部相关的信息,经由通信线路发送给服务器,基于所述脸部相关的信息,指明所述使用者是否为未登录,ⅰ)为未登录的情形时,产生包含询问所述使用者的姓名的姓名询问的响应句信息,同时ⅱ)为已登录完毕的情形时,产生包含所述使用者的姓名的响应句信息,
使用发声部对所述使用者说出基于所述响应句信息的开始说话,
使用语音识别部以语音识别相对于所述开始说话的所述使用者的说话,将所述语音识别后的所述使用者的说话,经由所述通信线路发送给所述服务器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017118012 | 2017-06-15 | ||
JP2017-118012 | 2017-06-15 | ||
PCT/JP2018/020735 WO2018230345A1 (ja) | 2017-06-15 | 2018-05-30 | 対話ロボットおよび対話システム、並びに対話プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109643550A true CN109643550A (zh) | 2019-04-16 |
Family
ID=64659733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880001020.7A Pending CN109643550A (zh) | 2017-06-15 | 2018-05-30 | 对话机器人及对话系统、以及对话程序 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP6633250B2 (zh) |
CN (1) | CN109643550A (zh) |
WO (1) | WO2018230345A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110689781A (zh) * | 2019-10-31 | 2020-01-14 | 北京光年无限科技有限公司 | 基于儿童教育的数据处理方法和系统 |
CN114461066A (zh) * | 2021-12-29 | 2022-05-10 | 上海盛付通电子支付服务有限公司 | 用于追忆已故对象的方法、设备、介质及程序产品 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102302137B1 (ko) * | 2019-10-31 | 2021-09-15 | 주식회사 엘지씨엔에스 | 외국어 학습장치 및 이를 이용하는 외국어 학습서비스 제공방법 |
US20230121148A1 (en) | 2020-03-13 | 2023-04-20 | Nippon Telegraph And Telephone Corporation | Dialog support apparatus, dialog support method and program |
JP2023142373A (ja) * | 2022-03-25 | 2023-10-05 | 学校法人早稲田大学 | 情報処理方法、情報処理プログラム及び情報処理装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003255989A (ja) * | 2002-03-06 | 2003-09-10 | Sony Corp | 学習装置及び学習方法並びにロボット装置 |
JP2004021121A (ja) * | 2002-06-19 | 2004-01-22 | Nec Corp | 音声対話制御装置 |
JP2004101901A (ja) * | 2002-09-10 | 2004-04-02 | Matsushita Electric Works Ltd | 音声対話装置及び音声対話プログラム |
CN101046957A (zh) * | 2006-03-30 | 2007-10-03 | 富士通株式会社 | 语音识别装置、语音识别方法及存储语音识别程序的记录介质 |
JP2012215645A (ja) * | 2011-03-31 | 2012-11-08 | Speakglobal Ltd | コンピュータを利用した外国語会話練習システム |
CN106060291A (zh) * | 2015-04-16 | 2016-10-26 | 丰田自动车株式会社 | 来电通知控制系统 |
WO2016194740A1 (ja) * | 2015-06-04 | 2016-12-08 | シャープ株式会社 | 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005106876A (ja) * | 2003-09-26 | 2005-04-21 | Cai Media Kyodo Kaihatsu:Kk | 語学学習用ロボット及び語学学習システム |
JP2006078802A (ja) * | 2004-09-09 | 2006-03-23 | Nisshinbo Ind Inc | 学習支援装置、学習支援方法及びプログラム |
JP2010282058A (ja) * | 2009-06-05 | 2010-12-16 | Tokyobay Communication Co Ltd | 外国語学習補助方法及び装置 |
KR101211796B1 (ko) * | 2009-12-16 | 2012-12-13 | 포항공과대학교 산학협력단 | 외국어 학습 장치 및 그 제공 방법 |
JP5701935B2 (ja) * | 2013-06-11 | 2015-04-15 | 富士ソフト株式会社 | 音声認識システムおよび音声認識システムの制御方法 |
JP2016080894A (ja) * | 2014-10-17 | 2016-05-16 | シャープ株式会社 | 電子機器、家電、制御システム、制御方法、および制御プログラム |
JP6583765B2 (ja) * | 2015-01-16 | 2019-10-02 | 国立大学法人大阪大学 | エージェント対話システムおよびプログラム |
-
2018
- 2018-05-30 JP JP2019521492A patent/JP6633250B2/ja active Active
- 2018-05-30 CN CN201880001020.7A patent/CN109643550A/zh active Pending
- 2018-05-30 WO PCT/JP2018/020735 patent/WO2018230345A1/ja active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003255989A (ja) * | 2002-03-06 | 2003-09-10 | Sony Corp | 学習装置及び学習方法並びにロボット装置 |
JP2004021121A (ja) * | 2002-06-19 | 2004-01-22 | Nec Corp | 音声対話制御装置 |
JP2004101901A (ja) * | 2002-09-10 | 2004-04-02 | Matsushita Electric Works Ltd | 音声対話装置及び音声対話プログラム |
CN101046957A (zh) * | 2006-03-30 | 2007-10-03 | 富士通株式会社 | 语音识别装置、语音识别方法及存储语音识别程序的记录介质 |
JP2012215645A (ja) * | 2011-03-31 | 2012-11-08 | Speakglobal Ltd | コンピュータを利用した外国語会話練習システム |
CN106060291A (zh) * | 2015-04-16 | 2016-10-26 | 丰田自动车株式会社 | 来电通知控制系统 |
WO2016194740A1 (ja) * | 2015-06-04 | 2016-12-08 | シャープ株式会社 | 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110689781A (zh) * | 2019-10-31 | 2020-01-14 | 北京光年无限科技有限公司 | 基于儿童教育的数据处理方法和系统 |
CN114461066A (zh) * | 2021-12-29 | 2022-05-10 | 上海盛付通电子支付服务有限公司 | 用于追忆已故对象的方法、设备、介质及程序产品 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2018230345A1 (ja) | 2019-11-07 |
JP6633250B2 (ja) | 2020-01-22 |
WO2018230345A1 (ja) | 2018-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11222632B2 (en) | System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs | |
US11468894B2 (en) | System and method for personalizing dialogue based on user's appearances | |
CN109643550A (zh) | 对话机器人及对话系统、以及对话程序 | |
US20240054117A1 (en) | Artificial intelligence platform with improved conversational ability and personality development | |
JP7396396B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US20190206402A1 (en) | System and Method for Artificial Intelligence Driven Automated Companion | |
US11003860B2 (en) | System and method for learning preferences in dialogue personalization | |
US11267121B2 (en) | Conversation output system, conversation output method, and non-transitory recording medium | |
CN110413841A (zh) | 多态交互方法、装置、系统、电子设备及存储介质 | |
US20190206406A1 (en) | Dialogue method, dialogue system, dialogue apparatus and program | |
JP2000187435A (ja) | 情報処理装置、携帯機器、電子ペット装置、情報処理手順を記録した記録媒体及び情報処理方法 | |
CN111542814A (zh) | 改变应答以提供表现丰富的自然语言对话的方法、计算机装置及计算机可读存储介质 | |
WO2017200076A1 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
US20190251716A1 (en) | System and method for visual scene construction based on user communication | |
WO2018003196A1 (ja) | 情報処理システム、記憶媒体、および情報処理方法 | |
EP3627304A1 (en) | Interactive responding method and computer system using the same | |
CN111063346A (zh) | 基于机器学习的跨媒体明星情感陪伴交互系统 | |
CN114048299A (zh) | 对话方法、装置、设备、计算机可读存储介质及程序产品 | |
WO2020070923A1 (ja) | 対話装置、その方法、およびプログラム | |
JP2003108362A (ja) | コミュニケーション支援装置およびコミュニケーション支援システム | |
CN111556999A (zh) | 通过即时提供实质性回答以提供自然语言对话的方法、计算机装置及计算机可读存储介质 | |
CN111557001A (zh) | 通过提供即时应答性语言应答以提供自然语言对话的方法、计算机装置及计算机可读存储介质 | |
CN112836098B (zh) | 基于多角色的对话辅助方法和装置 | |
JP7331349B2 (ja) | 会話出力システム、サーバ、会話出力方法及びプログラム | |
KR102388465B1 (ko) | 가상 콘텐츠 생성 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190416 |
|
WD01 | Invention patent application deemed withdrawn after publication |