CN105940446A - 例如为仿人机器人的机器与人类对话者之间的对话方法,实施这种方法的电脑程序产品和仿人机器人 - Google Patents

例如为仿人机器人的机器与人类对话者之间的对话方法,实施这种方法的电脑程序产品和仿人机器人 Download PDF

Info

Publication number
CN105940446A
CN105940446A CN201480054850.8A CN201480054850A CN105940446A CN 105940446 A CN105940446 A CN 105940446A CN 201480054850 A CN201480054850 A CN 201480054850A CN 105940446 A CN105940446 A CN 105940446A
Authority
CN
China
Prior art keywords
sentence
interlocutor
dialogue
data
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480054850.8A
Other languages
English (en)
Other versions
CN105940446B (zh
Inventor
M·帕特里
D·乌桑
J·蒙索
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Softbank Robotics SAS
Original Assignee
Aldebaran Robotics SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aldebaran Robotics SA filed Critical Aldebaran Robotics SA
Publication of CN105940446A publication Critical patent/CN105940446A/zh
Application granted granted Critical
Publication of CN105940446B publication Critical patent/CN105940446B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K7/00Methods or arrangements for sensing record carriers, e.g. for reading patterns
    • G06K7/10Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
    • G06K7/14Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation using light without selection of wavelength, e.g. sensing reflected white light
    • G06K7/1404Methods for optical code recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Robotics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Electromagnetism (AREA)
  • Toxicology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Machine Translation (AREA)
  • Manipulator (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明涉及机器(OE)、优选地仿人机器人(RI)与至少一个人类对话者(INT)之间的对话方法,所述对话方法包括由电脑实施的以下步骤:a)识别所述人类对话者;b)从数据库(BDD)中提取包括多个对话变量的对话者资料(INT_PR),至少一个值被分配给至少其中一个所述对话变量;c)接收和分析来自所述对话者的至少一句句子;以及d)至少根据在步骤c)中接收和编译的所述句子以及所述对话者资料的一个对话变量来提出和发送至少一句答句。

Description

例如为仿人机器人的机器与人类对话者之间的对话方法,实施这种方法的 电脑程序产品和仿人机器人
技术领域
本发明涉及机器和人类之间的对话方法。所述机器可为所有数据处理装置,例如电脑、“智能电话”处理器或机器人,尤其是包括至少一个被装载的处理器的仿人机器人,并且可口头执行所述对话。本发明还涉及用于实施所述方法的电脑程序产品和机器人,优选地仿人机器人。
背景技术
“仿人机器人”可被定义为具有一些人类外观属性和人类功能(例如躯体、头部、手臂、腿、利用辨认和语音合成方式与人类口头通信的能力等)的机器人。该类型的机器人用于减小人与机器之间的认知距离。仿人机器人的最重要的特征之一在于其支持与人类对话者尽可能自然地对话的能力。该能力对于“机器人伴侣”的开发是重要的,所述“机器人伴侣”用于帮助老年人、病人或仅简单的日常生活需要,并向这些人提供人类助理的可接受替代品。
现有技术中已知的仿人机器人的对话方法不令人满意,这是因为这些对话方法在任何情况下均不自然地重复刻板的对话。
在杂志《Dialogs with Robots:AAAI Fall Symposium(FS-10-05)》中的Rosenthal和M.Veloso的文章《Mixed-lnitiative Long-Term Interactions withan All-Day-Companion Robot》第97-102页中描述了在例如在大学的机器人部门的参观中能够引导人类的机器人。机器人被编程为避免在对话中重复;但两位不同的人类对话者会进行基本相同的对话。
文件US 7,539,656描述了一种方法,通过该方法,机器与人类对话者对话以获得其提供服务需要的信息(例如要求早餐服务)。这种对话是极其刻板的而且不会重复谈话。因此该方法不适合实施高性能的“机器人伴侣”。
文件US 7,987,091描述了一种方法,通过该方法,机器与一位或多位对话者进行“个性化”和“渐进式”的对话。对话被个性化,这是因为机器根据被存储在存储器中的不同对话者信息来操纵对话。对话是渐进式的,这是因为机器在对话中获得了新信息。然而,对话不太自然,这是因为获取和使用信息的阶段被明显分隔。
发明内容
本发明的目的在于克服前面描述的现有技术的缺点,提供一种与机器(尤其是机器人)对话的方法,更接近与其它人类的自然对话。更确切地,本发明旨在建立适合于对话者的(非刻板的)渐进式和自然的对话,这能够在人类对话者和机器人之间建立真正的情感联系。渐进式涉及与相同对话者在隔有相同时间间隔的两次连续对话之间的相同对话(或“对话段”)的内容。
为达到所述目的,本发明提供了一种机器与至少一个人类对话者之间的对话方法,所述对话方法包括由所述机器实施的以下步骤:
a)识别所述人类对话者;
b)从数据库中提取包括多个对话变量的对话者资料,至少一个值被分配给至少其中一个所述对话变量;
c)接收来自所述对话者的至少一句句子,分析来自所述对话者的所述句子中的每句以从中提取要分配给所述对话者资料的至少一个对话变量的至少一个值,并且将所述值或每个所述值记录在所述对话者资料中;以及
d)至少根据在步骤c)中接收和编译的所述句子以及所述对话者资料的一个所述对话变量来提出和发送至少一句答句。
用于提出答句的对话者识别和对话者资料的使用能够使对话个性化。词语“答句”应被广义地解释为涵盖响应激励而发送的所有句子,而非狭义地表示“回答问题”。
回答分析能够使机器在对话期间、或在连续对话中丰富对话者资料。可使该机器学习越来越好地理解对话者,并用该机器的认知来完善对话。
另外,对话不是刻板的,这是因为机器的回答同时取决于对话者资料以及该对话者刚说出的至少一句句子。与前述文件US 7,987,091的方法中发生的过程相反,在(信息)“获取对话”和(信息)“使用对话”之间没有分隔。根据本发明,在相同的对话期间,机器使用其已存储的对话者信息并获取新信息,所述新信息可被立即或之后使用。
对于来自所述对话者的所述句子或至少一句句子的分析和所述答句或至少一句答句的提出可借助于由相应的句法树表示的多个句型来执行。
有利地,所述句型中的至少一些包括指示所述对话者资料的对话变量的至少一个指示符。在提出回答时,机器用被存储在对话者资料中的对话变量值来代替指示符。相反,在分析接收到的句子时,机器编译所述句子的被确定的词(占据在句型中由指示符指出的位置)作为待存储在对话者资料中的值以及对应的对话变量值。
有利地,所述句型中的至少一些可包括指示句子中的至少一组可互换词语、即“概念”的指示符。
所述步骤d)可借助于与来自所述对话者的至少一个句型以及与至少一个答句句型相关联的多个规则来实施。这些规则本身可由“树”型结构表示。
在该情况下,在所述步骤d)中,至少一个所述规则可与来自所述对话者的相同句型相关联,多个句型可用作答句;另外,可在所述答句句型中排除包括指示对话变量的指示符的答句句型,在所述对话者资料中没有值被分配给所述对话变量。而且,机器可根据其知道(或不知道)来选择对其对话者的回答。
有利地,可由识别谈话主题的标签(“tag”)来标记至少一个所述规则,在所述步骤d)中,由识别经确定的谈话主题的至少一个标签来标记的一个或多个规则可根据至少一个对话参数(一个或多个对话变量、背景参数、对话历史等的值(或未提供))被激活或失效。这是实施对话渐进的技术方式。
所述对话者资料还可包括对话历史,并且在所述步骤d)中,所述答句或至少一句所述答句还可根据所述对话历史来提出。这确保了对话渐进并且避免了重复。
在所述步骤d)中,所述答句或至少一句所述答句还可根据由所述机器获得或确定的至少一个背景参数来提出。该参数尤其可为由时钟确定的时间:而且,例如接近中午,谈话可涉及午餐。该参数还可为由日历确定的日期、由传感器获得的环境温度或亮度等。
在所述步骤a)中,可借助于图像获取装置(例如摄像机)通过面部辨认或读取呈现在所述摄像机上的图形码来识别所述人类对话者。其它识别方式(生物统计、通过键盘输入编码、语音识别……)也是可能的;
在所述步骤b)中,所述机器可借助于通信网络来访问远程服务器,并且下载存储在所述远程服务器中的所述数据库的所述对话者资料。已借助于所述通信网络访问所述远程服务器的所述机器可在所述数据库中加载通过记录被分配给至少一个对话变量的至少一个值而更新的对话者资料,所述至少一个对话变量在所述步骤c)中从来自所述对话者的至少一句句子中提取。在变型中,数据库被本地存储。
优选地,所述机器包括被装载在仿人机器人中的处理器。而其它实施方式是可能的;例如所述机器可为办公桌电脑、“智能手机”、车载电脑等。
本发明的另一目的在于提供一种电脑程序产品(即存储在材料存储载体(例如永久或易失半导体存储器、或CD-ROM型存储盘或硬盘)中的可执行的电脑程序),所述电脑程序产品用于实施这种方法。
本发明的又一目的在于提供一种包括经编程的被装载的处理器的仿人机器人,所述仿人机器人用于实施这种方法。有利地,所述仿人机器人还可包括:
-与所述被装载的处理器配合的图像获取装置(例如摄像机),所述图像获取装置用于识别人类对话者;
-与所述被装载的处理器配合的声音获取装置(例如麦克风或麦克风网络),所述声音获取装置用于接收由所述人类对话者说出的至少一句句子;以及
-与所述被装载的处理器配合的声音发送装置(例如扬声器),所述声音发送装置用于发送所述答句。
附图说明
通过阅读以下详细说明和作为示例给出的附图,本发明的其它特征、细节和优点将更加清楚,在附图中:
-图1示出了根据本发明的实施方式的与人类对话者对话并且与远程服务器通信的仿人机器人;
-图2示出了根据本发明的实施方式的方法的流程图;以及
-图3A、3B、3C和3D示出了用于实施根据本发明的方法的树型结构。
具体实施方式
图1示出了与人类对话者INT对话的仿人机器人RT。除了复制人形的铰接式躯体,所述机器人还包括:
-例如位于机器人头部中的被装载的处理器或电脑OE,用于实施本发明的对话方法;所述处理器可为专用于该任务或还能完成其它任务并且受限于控制机器人本身的处理器;
-位于机器人头部上、例如在其嘴中以及/或者在其前额上的一个或多个图像获取装置(摄像机)DAI,以用于获取对话者INT的图像;
-例如位于机器人头部侧面上的声音发送装置(扬声器)DES,以能够使机器人“说话”;以及
-例如位于机器人头部上表面上的一个或多个声音获取装置(麦克风)DAS,以能够使机器人听到声音。
图像获取装置和声音获取装置向处理器OE提供输入数据,尤其是:
-由装置DAI获取的至少一个图像,以能够识别对话者;所述至少一个图像可为所述对话者的面部图像、或由该图像示出的图形码,以便于识别(例如由专用于“智能电话”上的应用程序得到的QR码);
-可表示由对话者发送的需被识别和分析的句子的声音。
处理器OE存储在存储器中并且执行图像识别软件和声音识别软件(本身已知),以处理这些输入数据。在变型中,如下面将解释的,这些软件或其中一些可被存储在外部数据库中。
由处理器OE来操控声音发送装置DES。
机器人RT借助于网络RC(例如经由WiFi访问互联网)与存储“对话者资料”数据库的远程服务器SVD通信。
机器人向服务器SVD传送对话者INT的识别数据INT_ID,所述识别数据通过对经由装置DAI得到的图像应用图像识别(面部识别或图形码)算法而得到。在一些情况下,该数据可直接为图像,在该情况下由远程服务器来实施识别步骤。例如,在特定实施方式中,用户借助于“智能电话”在服务器SVD上进行注册;服务器本身向所述智能电话发送QR码;用户将该码显示在智能电话屏幕上并且通过将该码呈现在其中一个摄像机之前来向机器人展示;机器人再将QR码的图像传送给服务器,所述服务器使所述图像与用户相关联(该用户为此成为识别到的对话者)。在其它实施方式中,根据对话者的面部图像通过识别其语音或仅根据对话开始时说出的自我介绍句(例如“您好,我是Jean”)来进行识别。
在接收到的识别数据库中,服务器SVD从BDD数据库中得到对话者资料INT_PR并且经由网络RC传送给机器人RT。对话者资料为包括变量列表的文件,取决于用户的一个(或多个)值与所述变量相关联。对话者“Jean Dupont”的资料提取信息例如可为以下个性化数据:
对话者识别码:00011
名字:Jean
年龄:35
职业:工程师
兴趣爱好:游泳;跑步;骑自行车
宠物:
母语:法语
其它语言:
所述提取信息包括8个变量:对话者识别码、“名字”、“姓”、“年龄”、“职业”、“兴趣爱好”、“宠物”、“母语”和“其它语言”。前四个变量采用实际分配的唯一值。变量“兴趣爱好”可同时采用多个值;在本例中为分配的“游泳”、“跑步”和“骑自行车”。变量“宠物”可采用多个值,但这里没有提供。后两个变量“母语”(唯一值:“法语”)和“其它语言”(可能有多个值,此处未提供)是特别重要的。事实上,在该方法的多语言版本中,处理器可使用这些变量的值以确定向对话者讲哪种语言(在机器人先说话时)或选择哪个语言参数来用于识别和分析所听到的句子。
如下面将详细描述的,机器人处理器OE使用分配给变量的值(或未被提供)来生成与对话者INT的对话。由此变量为所述“对话变量”。
如下面将详细描述的,处理器OE还可被设置成根据对话来改变对话者资料的内容。例如,该处理器可获知Jean Dupont还讲英语,并且将“英语”值分配给该对话者的资料中的“其它语言”变量。该学习通过分析由对话者说出的句子(通过在机器人发送非疑问句之后或自发地回答机器人的问题)来进行。在这种更新之后(之后立即、或对话结束时、或在有规律的间隔中……),该处理器向服务器SVD发送被记录在数据库BDD中的经改变版本的对话者资料。在变型中,数据库BDD可被本地存储,在该情况下与网络RC的连接不是必须的。
下面描述机器人使用包括在对话者资料中的信息并且丰富该资料的对话示例。对话者为“Jean”识别码(00011),上面已描述在对话开始时的资料。由机器人和人类对话者说出的句子为斜体的;对应于(使用或获取的)对话变量或对应于已进行的对话的历史数据(也被记录在对话者资料中)的词被加下划线。
机器人在其摄像机(或其中一个摄像机)的视觉范围内检测到人的进入并且将该人的面部识别为对话者“00011”的面部。该机器人在存储器中加载对应的对话者资料并且使用“姓”信息以使部分预写的问候语个性化。该机器人还使用与对话历史相关的信息:前一天与相同对话者已发生的另一对话。
·机器人:你好Jean!谢谢回来看我,我很高兴!昨天以来怎么样?
对话者回答问题:
·人类:我很好,你好吗?
对话者提出的问题(“你好吗?”)触发回答,该回答在本例中是刻板的:
·机器人:我很好,谢谢!
为了继续对话,机器人利用背景数据:日期(本例中为欧洲日5月9日(该信息被存储在机器人的存储器中)):
·机器人:告诉我,你知道今天是欧洲日吗?我觉得这是了不起的,这些具有不同语言和文化的国家组成联合体。而且,我讲多个欧洲语言!你呢,Jean,除了法语,你还讲其它语言吗?
下面会解释背景数据的使用。
为了上述句子(如下面将详细解释的,该句子的一般结构或“句型”被预写)个性化,机器人使用对话者资料的三个信息:对话者的姓(“Jean”)、变量(“母语”)的值(“法语”)和未提供的变量“其它语言”。对语者的回答使机器人可通过将值“英语”分配对该变量来丰富该对话者的资料:
·人:是的,我英语说得很流利。
机器人的回复使用该新存储的值、预先已被分配给变量“职业”的值(“工程师”)和(存储在其存储器中的)使变量“其它语言”的一些值与变量“职业”的一些值相关联的“规则”:
·机器人:哦,这很好,英语对于工程师职业确实很有用。
机器人还可向对话者提议用刚被记录在资料中的语言继续谈话:
·机器人:您想要讲一点英语吗?
·人:好,这能让我操练。
·机器人:太棒了,我们开始吧!
对话者肯定的回答触发了英语对话(建议对机器人编程以用该语言对话)。
在对话结束时,对话者资料被改变,这是由于值“英语”被分配给了其变量“其它语言”:
对话者识别码:00011
名字:Jean
年龄:35
职业:工程师
兴趣爱好:游泳;跑步;骑自行车
宠物:
母语:法语
其它语言:英语
图2的流程图更详细地示出根据本发明的实施方式的方法的实施。
人类对话者的识别步骤a)包括两个子步骤:
-获取图像的子步骤a1,如上面所解释的,该图像可为对话者的面部图像或识别图形码;
-通过识别所述图像来辨识对话者的子步骤a2;如上面所解释的,该步骤可被本地执行或由远程服务器执行。
其它识别方式也是可能的。
步骤b)包括从本地存储中或在存储在远程服务器上的数据库中提取对应于在步骤a)中识别的对话者的对话者资料INT_PR。
可选地,在步骤b)之后,机器人例如可通过问候对话者并且通过称呼其姓(如果该变量被记录在对话者资料中时,通常是这种情况)来开始对话。该步骤未被示出以避免附图过于复杂。
步骤c)包括四个子步骤:
-借助于一个或多个麦克风DAS来接收来自所述对话者的声音的子步骤c1;
-通过使用已知算法在子步骤c1中接收到的声音上进行声音识别以从中提取句子的子步骤c2;
-分析句子的子步骤c3;将利用图3A-3D更详细地描述该子步骤;
-如果在子步骤c3中执行的分析导致识别到要分配给资料变量的新值,步骤c还包括更新所述资料的子步骤c4。
在更简单的实施方式中,借助于键盘和屏幕写入对话,通过简单的文本获取来代替子步骤c1和c2。
回答步骤d)包括三个子步骤:
-可选的提取以下背景数据的子步骤d1:日期、时间、气象数据、其它人的存在……;
-提出答句的子步骤d2;将利用图3A-3D更详细地描述该子步骤;以及
-发送在子步骤d2中制定的答句的子步骤d3;通过使用已知的语音合成算法和一个或多个扬声器DES来实施该子步骤。
因此可从子步骤c1起重复该方法,机器人被设置成等待对话者的新句子。
该算法可在最长等待时间过去之后被终止。另外,在子步骤c3中执行的句子分析可向机器人指示对话者希望结束对话(例如,这种希望可从检测到句子“我得走了”;“再见”;“下次见”等等而被推断出)。而且,在对话者从摄像机DAI的视觉范围中消失的情况下(子步骤D1),机器人可决定结束对话。这些变型未被示出以避免附图过于复杂。
由机器人处理器进行的句子分析(子步骤c3)和提出(子步骤d2)使用“句型”或“句式”(英语为“patterns”)。由词、变量指示符、“概念”和“标签”、以及与一个或多个逻辑运算符相关联的动作指示符来构成句型。可用称为“句法树”的树型结构来表示句型。
图3A示出了对应于在实施该方法的子步骤c3时所使用的句型MDP的句法树第一示例AS1,以用于分析人类对话者说出的句子。通过为此目的而开发的脚本语言来描述该句型:
“我的姓是_~列表-名字”
包括三个词(“我的”、“姓”、“是”)和概念(“~列表-名字”)。波形号“~”表示概念,符号《_》指示需被存储的概念。
词和概念(附图标记CPT)形成句法树AS的树叶,由形成树根的逻辑运算符“与”来连接。
由句子中语义上接近并且可互换的多个词构成概念(此处为名字列表)。由其中树叶为可互换的词(“Jean”、“Pierre”、“Paul”、“Jacques”……)并且树根为逻辑运算符“或”的树(图3B)来表示概念“列表-名字”。如果例如对话者说“我的姓为Jean”,机器人处理器验证该句子是否对应于句式并且将值“Jean”存储在机器人存储器的临时变量中(命令#存储#在句式中对应于符号“_”;符号“井号”(#)表示不是需被说出的姓)。
图3C示出了对应于在实施子步骤c4(更新对话者资料)和d2(提出答句)时所使用的句型MDP的句法树另一示例。该句型写为:
“这是一个好听的姓$1!$INT/名字=$1”
将其理解为包括四个词(“这是”、“一个”、“好听的”、“姓”)、语调标志(“!”)和临时变量指示符,在该临时变量中存储有对话者名字(“$1”(符号“$”表示变量))。该句型还包括将包括在临时变量$1中的值赋予对话变量VD“$INT/名字”的赋值运算。同样由树(图3B的下部)表示赋值运算,该树借助于等于运算符“=”使变量“INT/名字”与指示符“$1”相关联。
规则能够使处理器将输入(由对话者说出的句子)与输出(由机器人发送的答句)相关联。图3D示出的树R表示这种规则。极简单的规则使由树AS1(输入)表示的句型与由树AS2(输出)表示的句型相关联。而且,通过应用该规则,当对话者说“我的姓是Jean”时,机器人回答“这是一个好听的姓,Jean!”(可用概念“列表-名字”中列出的所有其它名字来代替“Jean”)。另外,如前面所解释的,处理器通过记录名字为“Jean”的信息来更新对话者资料,并且可在之后的对话中使用该信息。
所述规则可更加复杂。例如,可根据分配给一些变量的值以及/或者根据背景数据(例如在前面示出的对话示例中的日期)在多个选项中选择输出。而且,可在输入端设置与一个或多个相同的输出相关联的多个可选句型。
规则树R还包括标签(英语为“tag”)TG:“#自我介绍#”。在这种情况下,该标签能够使该规则与“谈话主题”(英语为“topic”)连结,所述“谈话主题”重组语义上接近的规则(此处谈话主题由对话者的自我介绍构成)。根据一些变量的值、存储在对话者资料中的对话历史和/或背景数据,由一些标签标记的规则可被激活或失效。而且,例如,由标签“圣诞节”标记的规则仅在12月1日与1月15日(背景数据)之间被激活;如果资料指示对话者没有宠物,由标签“宠物”标记的规则失效;当一定数量的规则具有已被应用的标签时,可认为主题已被充分处理并且这些规则可在一定时间内失效。
前述对话历史包括带有日期的先前对话列表、由机器人说出的回答和问题列表(使已提出的问题失效以避免重复)、带有(激活/失效)状态的标签列表、和已被处理的主题列表(任选地带有每个主题的深入程度的估计)。该历史以关键字和值的列表形式呈现。
所有这些特征促进了对话的个性化和渐进性。

Claims (16)

1.一种机器(RT)与至少一个人类对话者(INT)之间的对话方法,所述对话方法包括由所述机器实施的以下步骤:
a)识别所述人类对话者;
b)从数据库(BDD)中提取包括多个对话变量(VD)的对话者资料(INT_PR),至少一个值被分配给至少其中一个所述对话变量;
c)接收来自所述对话者的至少一句句子,分析来自所述对话者的所述句子中的每句以从中提取要分配给所述对话者资料的至少一个对话变量的至少一个值,并且将所述值中的每个记录在所述对话者资料中;以及
d)至少根据在步骤c)中接收和编译的所述句子以及所述对话者资料的一个所述对话变量来提出和发送至少一句答句;
其特征在于,在步骤c)中接收和分析的所述句子或至少一句所述句子为由所述对话者自行说出的句子或在由所述机器发送的非疑问句之后的句子。
2.根据权利要求1所述的对话方法,其中,对于来自所述对话者的所述句子或至少一句句子的分析和所述答句或至少一句答句的提出借助于由相应的句法树(AS1,AS2)表示的多个句型(MDP)来执行。
3.根据权利要求2所述的对话方法,其中,所述句型中的至少一些包括指示所述对话者资料的对话变量的至少一个指示符。
4.根据权利要求2或3所述的对话方法,其中,所述句型中的至少一些包括指示句子中的至少一组可互换词语、即概念(CPT)的指示符。
5.根据权利要求2至4中任一项所述的对话方法,其中,所述步骤d)借助于与来自所述对话者的至少一个句型以及与至少一个答句句型相关联的多个规则(R)来实施。
6.根据权利要求5所述的对话方法,其中,在所述步骤d)中,至少一个所述规则与来自所述对话者的相同句型相关联,多个句型可用作答句;并且,在所述答句句型中排除包括指示对话变量的指示符的答句句型,在所述对话者资料中没有值被分配给所述对话变量。
7.根据权利要求5或6所述的对话方法,其中,
-由识别谈话主题的标签(TG)来标记至少一个所述规则;
-在所述步骤d)中,由识别经确定的谈话主题的至少一个标签来标记的一个或多个规则根据至少一个对话参数被激活或失效。
8.根据前述权利要求中任一项所述的对话方法,其中,所述对话者资料还包括对话历史,并且在所述步骤d)中,所述答句或至少一句所述答句还根据所述对话历史来提出。
9.根据前述权利要求中任一项所述的对话方法,其中,在所述步骤d)中,所述答句或至少一句所述答句还根据由所述机器获得或确定的至少一个背景参数来提出。
10.根据前述权利要求中任一项所述的对话方法,其中,在所述步骤a)中,借助于图像获取装置(DAI)通过面部辨认或读取呈现在所述图像获取装置上的图形码来识别所述人类对话者。
11.根据前述权利要求中任一项所述的对话方法,其中,在所述步骤b)中,所述机器借助于通信网络(RC)来访问远程服务器(SVD),并且下载存储在所述远程服务器中的所述数据库的所述对话者资料。
12.根据权利要求11所述的对话方法,其中,已借助于所述通信网络访问所述远程服务器的所述机器在所述数据库中加载通过记录被分配给至少一个对话变量的至少一个值而更新的对话者资料,所述至少一个对话变量在所述步骤c)中从来自所述对话者的至少一句句子中提取。
13.根据前述权利要求中任一项所述的对话方法,其中,所述机器包括被装载在仿人机器人(RT)中的处理器(OE)。
14.一种电脑程序产品,其用于当所述程序在处理器上被执行时实施根据前述权利要求中任一项所述的对话方法。
15.一种包括经编程的被装载的处理器(OE)的仿人机器人(RT),所述仿人机器人用于实施根据权利要求13所述的对话方法。
16.根据权利要求15所述的仿人机器人,所述仿人机器人还包括:
-与所述被装载的处理器配合的图像获取装置,所述图像获取装置用于识别人类对话者;
-与所述被装载的处理器配合的声音获取装置,所述声音获取装置用于接收由所述人类对话者说出的至少一句句子;以及
-与所述被装载的处理器配合的声音发送装置,所述声音发送装置用于发送所述答句。
CN201480054850.8A 2013-10-01 2014-09-29 机器与人类的对话方法、计算机存储介质和仿人机器人 Expired - Fee Related CN105940446B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1359514A FR3011375B1 (fr) 2013-10-01 2013-10-01 Procede de dialogue entre une machine, telle qu'un robot humanoide, et un interlocuteur humain, produit programme d'ordinateur et robot humanoide pour la mise en œuvre d'un tel procede
FR1359514 2013-10-01
PCT/EP2014/070782 WO2015049198A1 (fr) 2013-10-01 2014-09-29 Procede de dialogue entre une machine, telle qu'un robot humanoïde, et un interlocuteur humain, produit programme d'ordinateur et robot humanoïde pour la mise en œuvre d'un tel procede

Publications (2)

Publication Number Publication Date
CN105940446A true CN105940446A (zh) 2016-09-14
CN105940446B CN105940446B (zh) 2020-03-13

Family

ID=50069049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480054850.8A Expired - Fee Related CN105940446B (zh) 2013-10-01 2014-09-29 机器与人类的对话方法、计算机存储介质和仿人机器人

Country Status (11)

Country Link
US (1) US10127226B2 (zh)
EP (1) EP3053162B1 (zh)
JP (1) JP2016536630A (zh)
CN (1) CN105940446B (zh)
AU (1) AU2014331209B2 (zh)
BR (1) BR112016007199A8 (zh)
CA (1) CA2925930C (zh)
FR (1) FR3011375B1 (zh)
MX (1) MX2016004208A (zh)
RU (1) RU2653283C2 (zh)
WO (1) WO2015049198A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649280A (zh) * 2017-02-13 2017-05-10 长沙军鸽软件有限公司 一种创建共享语料库的方法

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6729571B2 (ja) * 2015-06-12 2020-07-22 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
CN106570443A (zh) * 2015-10-09 2017-04-19 芋头科技(杭州)有限公司 一种快速识别方法及家庭智能机器人
US9940929B2 (en) * 2015-12-09 2018-04-10 Lenovo (Singapore) Pte. Ltd. Extending the period of voice recognition
CN105427856B (zh) * 2016-01-12 2020-05-19 北京光年无限科技有限公司 一种面向智能机器人的约请数据处理方法和系统
JP2017205324A (ja) * 2016-05-19 2017-11-24 パナソニックIpマネジメント株式会社 ロボット
JP6719741B2 (ja) * 2016-05-20 2020-07-08 日本電信電話株式会社 対話方法、対話装置、及びプログラム
JP6719740B2 (ja) * 2016-05-20 2020-07-08 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
US20190237069A1 (en) * 2018-01-31 2019-08-01 GM Global Technology Operations LLC Multilingual voice assistance support
US10832118B2 (en) * 2018-02-23 2020-11-10 International Business Machines Corporation System and method for cognitive customer interaction
JP7263376B2 (ja) * 2018-03-05 2023-04-24 グーグル エルエルシー 自動化されたアシスタントによる以前の対話コンテキスト間の遷移
JP7044167B2 (ja) * 2018-09-28 2022-03-30 富士通株式会社 対話装置、対話方法及び対話プログラム
US11279036B2 (en) 2018-10-01 2022-03-22 Toyota Research Institute, Inc. Methods and systems for implementing customized motions based on individual profiles for identified users
CN109584858A (zh) * 2019-01-08 2019-04-05 武汉西山艺创文化有限公司 一种基于ai人工智能的虚拟配音方法及其装置
WO2020159395A1 (ru) * 2019-01-29 2020-08-06 Публичное Акционерное Общество "Сбербанк России" Способ создания модели анализа диалогов на базе искусственного интеллекта
WO2021131737A1 (ja) * 2019-12-27 2021-07-01 ソニーグループ株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010021909A1 (en) * 1999-12-28 2001-09-13 Hideki Shimomura Conversation processing apparatus and method, and recording medium therefor
CN1720520A (zh) * 2002-12-02 2006-01-11 索尼株式会社 对话控制设备和方法,以及机器人设备
CN1781140A (zh) * 2003-03-20 2006-05-31 索尼株式会社 语音对话设备、方法和机器人设备
CN101618280A (zh) * 2009-06-30 2010-01-06 哈尔滨工业大学 具有人机交互功能的仿人头像机器人装置及行为控制方法
CN103078867A (zh) * 2013-01-15 2013-05-01 深圳市紫光杰思谷科技有限公司 机器人间自动聊天方法及聊天系统

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3350293B2 (ja) * 1994-08-09 2002-11-25 株式会社東芝 対話処理装置及び対話処理方法
JP3797047B2 (ja) * 1999-12-08 2006-07-12 富士通株式会社 ロボット装置
AU2001245447A1 (en) 2000-03-06 2001-09-17 Kanisa Inc. A system and method for providing an intelligent multi-step dialog with a user
US6604094B1 (en) * 2000-05-25 2003-08-05 Symbionautics Corporation Simulating human intelligence in computers using natural language dialog
US6728679B1 (en) 2000-10-30 2004-04-27 Koninklijke Philips Electronics N.V. Self-updating user interface/entertainment device that simulates personal interaction
US20020133347A1 (en) 2000-12-29 2002-09-19 Eberhard Schoneburg Method and apparatus for natural language dialog interface
JP2003044088A (ja) * 2001-07-27 2003-02-14 Sony Corp プログラム、記録媒体、並びに音声対話装置および方法
ITTO20011035A1 (it) * 2001-10-30 2003-04-30 Loquendo Spa Metodo per la gestione di dialoghi persona-macchina ad iniziativa mista basato sull'interazione vocale.
BR0304830A (pt) 2002-05-14 2004-08-17 Koninkl Philips Electronics Nv Dispositivo, e, método de comunicação entre um usuário e um aparelho elétrico
JP2004195636A (ja) 2002-12-02 2004-07-15 Sony Corp 対話制御装置及び方法並びにロボット装置
JP4539149B2 (ja) * 2004-04-14 2010-09-08 ソニー株式会社 情報処理装置および情報処理方法、並びに、プログラム
US7382392B2 (en) 2004-07-20 2008-06-03 Samsung Electronics Co., Ltd. Method and apparatus for compensating for scanning skew
JP4629560B2 (ja) 2004-12-01 2011-02-09 本田技研工業株式会社 対話型情報システム
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
JP2009025658A (ja) * 2007-07-20 2009-02-05 Oki Electric Ind Co Ltd 音声合成装置、音声合成システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010021909A1 (en) * 1999-12-28 2001-09-13 Hideki Shimomura Conversation processing apparatus and method, and recording medium therefor
CN1720520A (zh) * 2002-12-02 2006-01-11 索尼株式会社 对话控制设备和方法,以及机器人设备
CN1781140A (zh) * 2003-03-20 2006-05-31 索尼株式会社 语音对话设备、方法和机器人设备
CN101618280A (zh) * 2009-06-30 2010-01-06 哈尔滨工业大学 具有人机交互功能的仿人头像机器人装置及行为控制方法
CN103078867A (zh) * 2013-01-15 2013-05-01 深圳市紫光杰思谷科技有限公司 机器人间自动聊天方法及聊天系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HARTWIG HOLZAPFEL: "Acquiring and Maintaining Knowledge by Natural Multimodal Dialog", 《KIT KARLSRUHE》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649280A (zh) * 2017-02-13 2017-05-10 长沙军鸽软件有限公司 一种创建共享语料库的方法
CN106649280B (zh) * 2017-02-13 2019-07-09 长沙军鸽软件有限公司 一种创建共享语料库的方法

Also Published As

Publication number Publication date
CA2925930A1 (fr) 2015-04-09
US10127226B2 (en) 2018-11-13
JP2016536630A (ja) 2016-11-24
US20160283465A1 (en) 2016-09-29
CA2925930C (fr) 2020-06-02
RU2653283C2 (ru) 2018-05-07
MX2016004208A (es) 2017-08-16
BR112016007199A8 (pt) 2020-03-10
BR112016007199A2 (pt) 2017-08-01
FR3011375B1 (fr) 2017-01-27
RU2016116893A (ru) 2017-11-13
AU2014331209B2 (en) 2017-11-30
WO2015049198A1 (fr) 2015-04-09
AU2014331209A1 (en) 2016-05-19
EP3053162B1 (fr) 2020-04-01
FR3011375A1 (fr) 2015-04-03
CN105940446B (zh) 2020-03-13
EP3053162A1 (fr) 2016-08-10

Similar Documents

Publication Publication Date Title
CN105940446A (zh) 例如为仿人机器人的机器与人类对话者之间的对话方法,实施这种方法的电脑程序产品和仿人机器人
CN110427472A (zh) 智能客服匹配的方法、装置、终端设备及存储介质
US8954328B2 (en) Systems and methods for document narration with multiple characters having multiple moods
CN108804698A (zh) 基于人物ip的人机交互方法、系统、介质及设备
US8972265B1 (en) Multiple voices in audio content
WO2023124933A1 (zh) 虚拟数字人的视频生成方法及装置、存储介质、终端
CN110413841A (zh) 多态交互方法、装置、系统、电子设备及存储介质
US20240070397A1 (en) Human-computer interaction method, apparatus and system, electronic device and computer medium
CN109102802A (zh) 用于处理用户话语的系统
ES2254664T3 (es) Procedimiento para permitir la interaccion por voz con una pagina web.
CN108470188B (zh) 基于图像分析的交互方法及电子设备
CN101861621A (zh) 自动同步解释系统
CN109300469A (zh) 基于机器学习的同声传译方法及装置
CN114401431A (zh) 一种虚拟人讲解视频生成方法及相关装置
CN116092472A (zh) 一种语音合成方法和合成系统
CN109074809A (zh) 信息处理设备、信息处理方法和程序
CN116129868A (zh) 一种结构化画本的生成方法和生成系统
KR20190070683A (ko) 강의 콘텐츠 구성 및 제공을 위한 장치 및 방법
Alqahtani et al. Interactive speech based games for autistic children with asperger syndrome
CN112233648A (zh) 结合rpa及ai的数据的处理方法、装置、设备及存储介质
JP2017167433A (ja) サマリ生成装置、サマリ生成方法及びサマリ生成プログラム
CN113836932A (zh) 交互方法、装置和系统,以及智能设备
Dewatri et al. Potential Tools to Support Learning: OpenAI and Elevenlabs Integration
KR20240040859A (ko) 심리지원 챗봇 서비스 제공 방법
CN116127107A (zh) 数据记录、展示方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200313

Termination date: 20200929

CF01 Termination of patent right due to non-payment of annual fee