CN108804518A - 交互式装置、交互式方法及交互式程序 - Google Patents

交互式装置、交互式方法及交互式程序 Download PDF

Info

Publication number
CN108804518A
CN108804518A CN201810387913.1A CN201810387913A CN108804518A CN 108804518 A CN108804518 A CN 108804518A CN 201810387913 A CN201810387913 A CN 201810387913A CN 108804518 A CN108804518 A CN 108804518A
Authority
CN
China
Prior art keywords
topic
speech
profile information
user
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810387913.1A
Other languages
English (en)
Inventor
舩造美奈
吉泽真太郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of CN108804518A publication Critical patent/CN108804518A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H80/00ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了交互式装置、交互式方法和交互式程序。交互式装置包括:获取构件,其用于获取用户讲话的话题与该讲话中包括的讲话词汇的预定部分的数量彼此相关联的简档信息;话题选择构件,其用于基于由获取构件获取的简档信息以如下方式来设置话题被选择的概率:从简档信息中设置的话题中以更高的概率选择讲话的预定部分的数量更多的话题,并且话题选择构件根据已经被设置的选择概率来选择话题;以及响应生成构件,其用于基于已经由话题选择构件选择的话题来生成对用户的响应。

Description

交互式装置、交互式方法及交互式程序
技术领域
本发明涉及与用户进行对话的交互式装置、交互式方法和交互式程序。
背景技术
被配置成从用户在预定时间段内的讲话中提取频繁出现的词汇作为重要词汇的装置(参见日本未审查专利申请公开No.2015-099289)。假设例如机器人等使用由该装置提取的重要词汇来讲话的情况。
顺便提及,根据用户说话的方式(例如,痴呆患者或老年人谈论的内容以及这些人的讲话的数量每天变化)提取重要词汇可能出现偏差。因此,交互式装置给出的讲话的话题可能出现偏差并且可能只提供用户不容易谈论的话题。
发明内容
为了解决上述问题并且为了提供能够主动提供用户容易谈论的话题的交互式装置、交互式方法和交互式程序,做出了本发明。
为了达到上述目的,本发明的一个方面是一种交互式装置,该交互式装置包括:获取构件,其用于获取用户讲话的话题与讲话中包括的讲话词汇的预定部分的相应数量彼此相关联的简档信息;话题选择构件,其用于基于由获取构件获取的简档信息以如下方式来设置话题被选择的概率:从其他话题中选择如下话题,该话题较之其他话题中的每个话题,讲话的预定部分的相应数量大于所述简档信息中设置的其他话题的讲话的预定部分的相应数量的概率更高,以及用于根据已设置的选择概率来选择话题;以及响应生成构件,其用于基于由话题选择构件已选择的话题来生成对用户的响应。
在该方面,讲话的各个预定部分可以包括名词、形容词、副词和动词中至少之一。
在该方面,讲话的各个预定部分是讲话的两个或更多个部分的组合,以及话题选择构件可以选择如下话题,该话题较之其他话题中的每个话题,讲话的部分的相应数量和讲话的部分的类型的相应数量大于其他话题的讲话的部分的相应数量和讲话的部分的类型的相应数量的概率更高。
在该方面,讲话的预定部分可以是名词和形容词。
在该方面,话题选择构件可以基于由获取构件获取的简档信息以如下方式来设置话题被选择的概率:从其他话题中选择如下话题,该话题较之其他话题中的每个话题,名词的数量和形容词的数量在简档信息中设置的话题中最大的概率程度更高,并且话题选择构件可以根据已设置的选择概率来选择话题。
在该方面,话题选择构件可以计算通过从讲话的预定部分的数量中减去讲话中包括的代词的数量而获得的讲话的部分的相应数量,基于由获取构件获取的简档信息以如下方式来设置话题被选择的概率:从其他话题中选择如下话题,该话题较之其他话题中的每个话题,已被计算的讲话的部分的相应数量大于简档信息中设置的其他话题的讲话的部分的相应数量的概率更高,并且该话题选择构件根据已设置的选择概率来选择话题。
在该方面,交互式装置还可以包括用于存储由获取构件获取的简档信息的存储构件,其中话题选择构件可以随机地选择话题,直到存储构件中存储的简档信息中累积的用户的讲话的数量是预定数量或更多。
为了达到上述目的,本发明的一个方面可以是一种交互式方法,该交互式方法包括以下步骤:获取用户讲话的话题与讲话中包括的讲话词汇的预定部分的数量彼此相关联的简档信息;基于已获取的简档信息以如下方式来设置话题被选择的概率:从简档信息中设置的话题中以更高的概率选择讲话的预定部分的数量更多的话题,并且根据已设置的选择概率来选择话题;以及基于已选择的话题来生成对用户的响应。
为了达到上述目的,本发明的一个方面可以是一种交互式程序,该交互式程序使计算机执行以下处理:获取用户讲话的话题与讲话中包括的讲话词汇的预定部分的数量彼此相关联的简档信息;基于已获取的简档信息以如下方式来设置话题被选择的概率:从简档信息中设置的话题中以更高的概率选择讲话的预定部分的数量更多的话题,并且根据已设置的选择概率来选择话题;以及基于已选择的话题来生成对用户的响应。
根据本发明,可以提供能够主动提供用户容易谈论的话题的交互式装置、交互式方法和交互式程序。
从下文给出的详细描述和附图,本发明的上述和其他目的、特征和优点将变得被更全面地理解,附图仅以示例的方式给出,因此不应被认为是限制本发明。
附图说明
图1是示出了根据本发明的一个实施方式的交互式装置的示意性系统配置的框图;
图2是示出了简档信息的一个示例的图;
图3A是示出了简档信息的一个示例的图;
图3B是示出了二维象限的一个示例的图;
图4是示出了交互式机器人的示意性配置的示意图;
图5是示出了外部服务器和交互式机器人的示意性配置的图;以及
图6是示出了根据本发明的一个实施方式的交互式方法的处理流程的一个示例的流程图。
具体实施方式
下面将参照附图来说明本发明的实施方式。
图1是示出了根据本发明的一个实施方式的交互式装置的示意性系统配置的框图。根据本实施方式的交互式装置1包括例如存储单元2,被配置成估计话题的话题估计单元3,被配置成获取用户的简档信息的信息获取单元4,被配置成确定是否呈现话题的话题呈现确定单元5、被配置成选择话题的话题选择单元6以及被配置成生成响应的响应生成单元7。根据本实施方式的交互式装置1为用户提供用户可以容易地谈论的话题并且与用户进行对话。
交互式装置1由硬件配置形成,并且主要包括微计算机,该微计算机包括例如执行操作处理等的中央处理单元(CPU),由只读存储器(ROM)和随机存取存储器(RAM)构成的存储由CPU执行的操作程序等的存储器,从外部装置接收信号或向外部装置输出信号的接口单元(I/F)等。CPU、存储器和接口单元经由数据总线等彼此连接。
存储单元2例如由上述存储器等形成。
话题估计单元3基于存储在存储单元2等中的用户的讲话历史等来估计当前话题。因此,交互式装置1能够根据所估计的话题进行响应。此外,可以针对已经估计的每个话题来分析用户讲话的内容的特性。
话题估计单元3例如使用词汇嵌入方法将包括在讲话中的词汇转换为语义表示向量,并且预先学习词汇与话题之间的层级关系(投影矩阵),从而从任意词汇估计话题。
上述方法的细节在以下非专利文献中公开:Ruiji Fu,Jiang Guo,Bing Qin,Wanxiang Che,Haifeng Wang,Ting Liu,"Learning Semantic Hierarchies:AContinuousVector Space Approach",IEEE/ACM Transactions on Audio,Speech,and LanguageProcessing,Vol.23,No.3,March,2015,p.461-471,其可以通过引用并入本文中。
话题估计单元3可以基于讲话的用户的属性信息(年龄、性别、爱好等)等从预先限定的话题缩小话题,并且从缩小的话题估计当前话题。例如,当用户是老年人时,该用户倾向于偏好诸如健康、家庭和电视的话题而不是诸如旅行的话题。另一方面,当用户是三十岁左右的男士时,该用户相对倾向于偏好诸如餐食、媒体和家庭的话题。如上所述,由于话题的趋向根据用户的属性信息而变化,因此根据用户的属性信息预先缩小讲话的话题。因此,可以根据讲话的用户的属性信息高度准确地估计话题,从而可以更有效地继续对话,如后面将描述的那样。注意,上述估计话题的方法仅仅是示例,并且可以应用除了上述方法以外的任何期望的估计方法。
信息获取单元4是获取构件的一个特定示例。信息获取单元4例如包括学习装置41,该学习装置41学习话题与已经由话题估计单元3用于估计话题的用户讲话中出现的讲话词汇的预定部分的数量之间的对应关系。通过使用学习装置41学习用户先前的讲话并且使用该学习的结果,可以估计用户对每个话题的偏好。
讲话的预定部分包括例如名词、形容词、副词和动词中至少之一。讲话的预定部分在学习装置41、存储单元2等中被预先设置,并且可以经由诸如终端装置的输入装置适当地被改变。
信息获取单元4的学习装置41基于由麦克风等获取的用户讲话来执行机械学习等,并且生成简档信息,在简档信息中讲话的话题与讲话中包括的讲话词汇的预定部分的数量彼此相关联。学习装置41对出现在用户讲话中的讲话词汇的预定部分的数量进行计数。学习装置41生成简档信息,在简档信息中讲话的用户、已经被计数的讲话的预定部分的数量以及由话题估计单元3基于用户的讲话所估计的话题彼此相关联,并且学习装置41将已经生成的简档信息存储在存储单元2中。
假设以下情况:例如用户讲话中的词汇是“今天天气不错”并且讲话的预定部分是名词和形容词。在这种情况下,话题估计单元3基于用户的讲话将当前话题估计为“天气”。对于用户讲话中出现的讲话词汇的预定部分的相应数量,信息获取单元4的学习装置41将名词的数量计数为两个(今天、天气),并且将形容词的数量计数为一个(不错)。
如图2所示,信息获取单元4的学习装置41例如生成其中用户(X先生/女士)、话题(天气)以及讲话的预定部分(名词和形容词)的相应数量彼此相关联的简档信息,并且将已经生成的简档信息存储在存储单元2中。简档信息可以预先存储在存储单元2中。信息获取单元4获取存储在存储单元2中的简档信息。此外,简档信息可以适当地经由输入装置等输入至信息获取单元4。
尽管话题估计单元3基于用户的一个先前讲话来估计话题并且信息获取单元4的学习装置41对出现在用户的一个先前讲话中的讲话词汇的预定部分的相应数量进行计数,但是该配置仅是示例。话题估计单元3可以基于用户先前讲话中的两个或更多个讲话来估计话题,并且学习装置41可以对出现在用户先前讲话中的两个或更多个讲话中的讲话词汇的预定部分的相应数量进行计数。因此,即使当用户的偏好改变时,也可以在用户的偏好改变的过程中学习讲话,并且使用学习的结果高度准确地估计话题。因此,可以生成具有更高准确性的简档信息。
此外,可以从存储单元2依次删除用户先前讲话中的N个或更多个讲话。因此,可以基于较新的用户讲话来估计话题并且生成简档信息。
话题呈现确定单元5确定是否向用户呈现话题。关于话题呈现的该确定被适当地执行,并且交互式装置1根据该确定进行讲话,从而可以避免例如当用户在交谈中或者用户很可能开始交谈时可能发生讲话的交叠。此外,可以使用户感到交互式装置1正在识别用户的故事。
当例如用户和交互式装置1二者都沉默时,话题呈现确定单元5确定应该向用户呈现话题。更具体地,当在交互式装置1的讲话单元向用户讲话之后其间用户和交互式装置1二者都不讲话的沉默时间已经超过预定等待时间时,话题呈现确定单元5确定应该向用户呈现话题。因此,可以抑制沉默时间的频繁出现以及对话的中断。
注意,确定话题呈现的方法仅仅是一个示例,并且还可以采用另一种方法。话题呈现确定单元5例如计算从讲话单元讲话的时间直到用户响应的时间的响应时间的均值和方差。话题呈现确定单元5使用已经计算的均值和方差来生成关于响应时间和讲话概率的伽马分布。话题呈现确定单元5使用已经生成的伽马分布来估计等待时间,该等待时间是可以确定人不愿意讲话的时间。话题呈现确定单元5在沉默时间已经超过估计的等待时间时确定应该向用户呈现话题。因此,可以根据每个用户的个人偏好使用等待时间来更适当地确定是否向用户呈现话题。
话题选择单元6是话题选择构件的一个具体示例。当由话题呈现确定单元5确定应该向用户呈现话题时,话题选择单元6主动选择用户可能容易谈论的话题。
话题选择单元6基于例如用户的讲话和由信息获取单元4获取的简档信息从简档信息中设置的多个话题中选择用户可能容易谈论的一个话题。以这种方式,通过从用户特有的简档信息中主动选择用户可能容易谈论的话题,可以根据每个用户的偏好来提供话题并且可以在更长的时间段内继续对话。
信息获取单元4的学习装置41使用存储在存储单元2中的多个用户的先前讲话来进行简档信息的学习。话题选择单元6使用由学习装置41学习的简档信息来选择用户可能容易谈论的一个话题。
当存储单元2中还没有累积足够数量的用户讲话时,信息获取单元4的学习装置41不能充分地进行对简档信息的学习。在这种情况下,由于话题选择单元6使用这种不足的简档信息来选择话题,因此可能它不能提供适当的话题。因此,在这种情况下,话题选择单元6可以随机选择话题,直到累积的用户讲话的数量是预定数量或更多(例如,S(约为10)或更多用户讲话)。因此,在随机选择话题并且向用户提供所选择的话题直到所累积的用户讲话的数量是预定数量或更多时,可以根据用户的反应来进行对简档信息的学习。因此,可以使用简档信息根据用户的反应来选择并提供用户可能容易谈论的适当话题。
顺便提及,诸如痴呆患者或老年人的用户的谈话内容以及这些用户的讲话的数量可能每天都不同,这可能使提取讲话中的重要词汇出现偏差。因此,当根据相关技术的交互式装置基于如此提取的重要词汇给出讲话时,讲话的话题可能有偏差,并且可以仅提供用户可能不容易谈论的话题。
另一方面,在根据本实施方式的交互式装置1中,话题选择单元6基于由信息获取单元4获取的简档信息以如下方式来设置话题的选择概率:从其他话题中选择如下话题,该话题较之其他话题中的每个话题,讲话的预定部分的相应数量大于简档信息中设置的其他话题的讲话的预定部分的相应数量的概率更高,并且根据选择的概率来选择话题。
例如,当用户已进行关于一个话题的讲话时,通常认识到,随着讲话中包括的名词数量增加,用户具有关于这个话题的很多知识。也认识到,随着讲话中包括的形容词的数量增加,这个话题对用户的感受有很大影响(他/她对这个话题有强烈的感受)。也认识到,随着讲话中包括的动词的数量增加,用户有关于这个话题的很多经历。也认识到,随着讲话中包括的副词的数量增加,这个话题对与用户体验相关联的感受有大的影响(他/她对这个话题有强烈的感受)。
因此,以如下方式设置话题的选择概率:从其他话题中选择如下话题,该话题较之其他话题中的每个话题,用户可能感兴趣的、讲话的诸如名词、形容词、副词和动词的预定部分的相应数量大于简档信息中的其他话题的语言的预定部分的相应数量的概率更高,并且根据该选择概率来选择话题。因此,可以主动选择用户可能容易谈论的话题并且提供所选择的话题。
话题选择单元6基于用户的讲话以及由信息获取单元4获取的简档信息从简档信息中设置的多个话题中选择用户可能容易谈论的一个话题。
话题选择单元6基于由信息获取单元4获取的简档信息将例如每个话题布置在t维象限中的一个象限中(t是等于或大于2的自然数)。在每个象限中,由话题选择单元6选择的概率被任意或自动设置。话题选择单元6根据在每个象限中设置的概率来选择每个象限,并且选择包括在每个象限中的话题。每个象限由穿过鲁棒值(中值、截尾均值等)的边界划分,根据该鲁棒值可以确定讲话的预定部分的相应数量是大还是小。以如下方式设置每个象限中的选择概率:与其他话题相比,从简档信息中设置的其他话题中更主动地选择讲话的预定部分的相应数量最大的话题。
例如,在二维象限中,作为“保留在用户的记忆中或者用户频繁说出的讲话的一部分”的名词的数量由横轴表示,而作为“表达情绪指标如情绪波动的讲话的一部分”的形容词的数量由纵轴表示。可替选地,可以在纵轴上设置名词的数量,并且可以在横轴上设置形容词的数量。名词的数量的边界穿过例如所有话题的名词的数量的中值,形容词的数量的边界穿过例如所有话题的形容词的数量的中值。
每当用户讲话时,存储单元2中的简档信息被更新。话题选择单元6基于已经被更新的简档信息来更新t维象限中的话题的布置和边界。
如图3A所示,例如,与在简档信息中设置的相应话题(烹饪、健康、天气)相关联的讲话的部分的相应数量(名词的数量、形容词的数量)被布置在如图3B所示的二维象限中。
话题“烹饪”布置在(3,3)中。话题“健康”布置在(1,2)中。话题“天气”布置在(2,1)中。名词的数量中的边界穿过所有话题的名词的数量的中值(2,0),并且形容词的数量中的边界穿过所有话题的形容词的数量的中值(0,2)。因此,话题“烹饪”布置在第一象限中。虽然在第二象限与第四象限之间的边界中布置了话题“健康”,但是假定它预先被布置在第二象限中。以类似的方式,虽然话题“天气”被布置在第三象限与第四象限之间的边界中,但是假定它预先被布置在第三象限中。如上所述,当话题被布置在一个象限与另一个象限之间的边界中时,可以预先设置该话题应该被布置的象限。
例如,在第一象限中设置概率50%,在第二象限中设置概率30%,并且在第三象限中设置概率20%。在该示例中,以如下方式将第一象限被选择的概率设置为最高:更主动地选择(形容词的数量+名词的数量)最大的话题“烹饪”。如上所述,当讲话的预定部分是名词和形容词的组合时,可以从上述讲话的部分的特性中以更高的概率选择用户具有许多知识和兴趣的话题。因此,可以主动选择用户可能容易谈论的话题并且提供该话题。
话题选择单元6按已经设置的概率来选择每个象限。话题选择单元6然后选择包括在已选择的每个象限中的话题。例如,当话题选择单元6已选择第一象限时,话题选择单元6选择包括在第一象限中的话题“烹饪”。当话题选择单元6已选择第二象限时,话题选择单元6选择包括在第二象限中的话题“健康”。当话题选择单元6已选择第三象限时,话题选择单元6选择包括在第三象限中的话题“天气”。也就是说,话题选择单元6以50%的概率选择话题“烹饪”,以30%的概率选择话题“健康”,并且以20%的概率选择话题“天气”。如上所述,通过在第一象限中设置最高概率,主动地选择名词数量和形容词数量最大的第一象限中的话题“烹饪”。上述选择话题的方法仅是一个示例,并且还可以采用另外的方法。
如上所述,在讲话的预定部分的数量的二维象限中推测地选择话题。因此,在以高概率主动选择用户可能容易谈论的话题的同时,存在选择除了用户可能容易谈论的话题以外的话题的特定概率,从而防止总是选择相同话题的情况。
响应生成单元7是响应生成构件的一个具体示例。响应生成单元7生成与话题选择单元6选择的话题相关联的响应。因此,可以输出与用户的偏好相关联的最佳响应。因此,可以将用户引导至用户可能容易谈论的话题并且继续对话。此外,与响应被随机选择并输出的情况相比,可以使用户感到交互式装置1正在根据用户的偏好进行响应。因此,用户可以感到与交互式装置1的对话的亲和感。
例如,在表格信息等中,在简档信息中设置的话题以及关于各个话题的最优响应可以彼此相关联。表格信息可以存储在存储单元2等中。响应生成单元7可以生成表格信息,该表格信息是其中从网络如因特网自动收集关于由话题选择单元6选择的话题的最佳响应的列表,并且响应生成单元7可以将该表格信息存储在存储单元2中。因此,可以自动且容易地生成表格信息,并且使用表格信息进行最佳的响应。
响应生成单元7例如生成与话题选择单元6选择的话题“天气”相关联的响应“最近冷,你没有感冒吗?”、“你喜欢哪种天气?”等。响应生成单元7生成与话题选择单元6选择的话题“烹饪”相关联的响应“你早餐吃了什么?”、“你最喜欢的食物是什么?”等。响应生成单元7生成与话题选择单元6选择的话题“健康”相关联的响应“你保持健康的秘诀是什么?”、“你感冒了,不是吗?”等。
响应生成单元7可以从表格信息中随机选择与该话题对应的响应,或者可以与另一种技术结合来选择与讲话的上下文匹配的响应。在经过预定时间段之后,响应生成单元7可以输出曾经被选择和输出的响应。因此,可以更自然地对用户进行响应,而无需在短时间段内重复同一响应。
响应生成单元7输出使用扬声器等生成的响应。
例如,根据该实施方式的交互式装置1安装在交互式机器人100等上。如图4所示,交互式机器人100设置有麦克风、扬声器、操作装置等。交互式装置1的存储单元2、话题估计单元3、信息获取单元4、话题呈现确定单元5和响应生成单元7中的一些或全部可以设置在交互式机器人100的外部(例如,外部服务器)101。在这种情况下,交互式机器人100和外部101可以经由诸如长期演进(LTE)的通信网络彼此连接,并且可以执行彼此的数据通信。
如图5所示,例如,存储单元2、话题估计单元3、信息获取单元4和话题呈现确定单元5可以设置在外部服务器101中,并且响应生成单元7可以设置在交互式机器人100中。
如上所述,外部服务器101和交互式机器人100执行彼此不同的处理,从而可以减少交互式机器人100中的处理并且减小交互式机器人100的尺寸和重量。此外,通过增强外部服务器101的处理能力,可以容易地提高交互式装置1的处理能力并且做出更复杂的响应。此外,如果在交互式机器人100中设置主要部件,则在执行交互式装置1的维护检查时,用户需要去交互式机器人100所在的地方。然而,通过在外部服务器101中设置主要部件,用户不需要去往该地,这减少了维护检查等所需的人员工作量。
通过在外部服务器101中设置存储简档信息的存储单元2,存储单元2可以存储大量数据。另一方面,通过在交互式机器人100中设置响应生成单元7,可以增加对话的即时性并且提高向用户讲话的响应速度。可以实现不依赖于与外部服务器101通信的速度的响应性。
例如,即使在无线电波状况差的环境中,也可以保持交互式性能。鉴于使用交互式装置1的上述优点和环境,交互式装置1的存储单元2、话题估计单元3、信息获取单元4、话题呈现确定单元5和响应生成单元7优选地布置在外部服务器101和交互式机器人100中。
尽管交互式装置1以被安装在交互式机器人100上的方式来配置,但这仅是示例。交互式装置1可以安装在包括诸如监视器、键盘等的输入/输出装置或者诸如智能电话的移动终端的期望的装置上。
图6是示出了根据本实施方式的交互式方法的处理流程的一个示例的流程图。注意,图6所示的处理流程可以例如在每个预定时间间隔被重复执行。
话题估计单元3使用词汇嵌入方法基于存储在存储单元2等中的用户讲话历史等来估计当前话题(步骤S101)。
信息获取单元4的学习装置41对出现在用户讲话中的讲话词汇的预定部分的相应数量进行计数。学习装置41生成简档信息,在简档信息中已经讲话的用户、已被计数的讲话的预定部分的相应数量以及由话题估计单元3基于用户的讲话估计的话题彼此相关联,并且学习装置41将已经生成的简档信息存储到存储单元2(步骤S102)。
话题呈现确定单元5基于沉默时间等来确定是否向用户呈现话题(步骤S103)。
当话题呈现确定单元5已经确定应该向用户呈现话题时(步骤S103中的“是”),话题选择单元6基于用户的讲话以及由信息获取单元4获取的简档信息、根据已经设置的选择概率从简档信息中设置的多个话题中选择用户可能容易谈论的一个话题(步骤S104)。
响应生成单元7生成与由话题选择单元6选择的话题相关联的响应,并且使用扬声器等输出已经生成的响应(步骤S105)。
如上所述,在根据本实施方式的交互式装置1中,话题选择单元6基于由信息获取单元4获取的简档信息以如下方式来设置话题的选择概率:从简档信息中设置的话题中以较高概率选择讲话的预定部分的数量较大的话题,并且根据选择概率来选择话题。
因此,以如下方式来设置话题的选择概率:以较高概率选择用户感兴趣的、诸如名词、形容词、副词和动词的讲话的预定部分的数量较大的话题,并且根据该选择概率来选择话题。因此,可以主动选择用户可能容易谈论的话题并且提供所选择的话题。
注意,本发明不限于上述实施方式,在不脱离本发明的精神的情况下,可以适当地改变本发明。
尽管在上述实施方式中,讲话的预定部分是名词和形容词的组合,但这仅仅是示例。当讲话的预定部分是名词和形容词的组合时,根据上述的讲话的部分的特性,可以主动选择用户具有很多知识并且用户感兴趣的话题并提供该话题。
讲话的预定部分可以是名词和动词的组合。当讲话的预定部分是名词和动词的组合时,根据上述的讲话的部分的特性,可以主动选择用户具有很多知识并且通过经历而具有许多记忆的话题并提供该话题。
讲话的预定部分可以是动词和副词的组合。当讲话的预定部分是动词和副词的组合时,根据上述的讲话的部分的特性,可以主动选择由于用户通过经历而具有许多记忆并且从而具有与之相关联的许多感受(这意味着用户对于该话题有许多事物要谈论)而导致用户可能容易谈论的话题并提供该话题。
通过如上所述改变讲话的预定部分的组合,可以主动选择并提供与用户偏好匹配的话题。
此外,讲话的预定部分不限于讲话的两个部分的组合,而且可以是讲话的三个或更多个部分的组合。讲话的预定部分可以是例如名词、动词和副词的组合。在这种情况下,话题选择单元6基于例如存储在存储单元2中的简档信息将每个话题布置在三维象限中的一个象限中。
此外,讲话的预定部分如名词、形容词、副词和动词可以与指示用户缺乏兴趣的讲话的部分进行组合(在下文中,将讲话的该部分称为讲话的消极部分)。指示用户缺乏兴趣的讲话的消极部分包括例如代词。
例如,当名词、代词和形容词相互组合时,话题选择单元6基于信息获取单元4获取的简档信息以如下方式设置话题的选择概率:从简档信息中设置的话题中以较高概率选择讲话的部分的数量(名词的数量-代词的数量+形容词的数量)更多的话题,并且根据该选择概率来选择话题。
如上所述,通过从指示用户感兴趣的讲话的预定部分中减去指示用户缺乏兴趣的代词的数量,获得了讲话的部分的相应数量(名词的数量和形容词的数量)。如此获得的讲话的部分的相应数量指示用户对该话题的最终兴趣。因此,不仅考虑指示用户感兴趣的讲话的预定部分而且考虑指示用户缺乏兴趣的代词的数量,可以高度准确地选择并提供用户可能容易谈论的话题。
本发明例如可以通过使CPU执行计算机程序来实现图6所示的处理。
可以使用任何类型的非暂态计算机可读介质来存储程序并将其提供给计算机。非暂态计算机可读介质包括任何类型的有形存储介质。非暂态计算机可读介质的示例包括磁存储介质(如软盘、磁带、硬盘驱动器等)、光磁存储介质(例如,磁光盘)、致密盘只读存储器(CD-ROM)、CD-R、CD-R/W和半导体存储器(如掩模ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、闪存ROM、随机存取存储器(RAM)等)。
可以使用任何类型的暂态计算机可读介质将程序提供给计算机。暂态计算机可读介质的示例包括电信号、光信号和电磁波。暂态计算机可读介质可以经由有线通信线路(例如,电线和光纤)或无线通信线路将程序提供给计算机。
从如此描述的发明中,显而易见的是,本发明的实施方式可以以许多方式变化。这样的变化不被视为背离本发明的精神和范围,并且如对本领域技术人员而言将显而易见的所有这样的修改都意在包含在所附权利要求的范围内。

Claims (10)

1.一种交互式装置,包括:
获取构件,用于获取简档信息,在所述简档信息中用户讲话的话题与所述讲话中包括的讲话词汇的预定部分的相应数量彼此相关联;
话题选择构件,用于基于由所述获取构件获取的简档信息以如下方式来设置话题被选择的概率:从其他话题中选择如下话题,该话题较之其他话题中的每个话题,讲话的预定部分的相应数量大于所述简档信息中设置的其他话题的讲话的预定部分的相应数量的概率更高;以及用于根据已设置的选择概率来选择话题;以及
响应生成构件,用于基于由所述话题选择构件已选择的话题来生成对用户的响应。
2.根据权利要求1所述的交互式装置,其中,讲话的各个预定部分包括名词、形容词、副词和动词中的至少之一。
3.根据权利要求1或2所述的交互式装置,其中,
讲话的各个预定部分是讲话的两个或更多个部分的组合,以及
所述话题选择构件选择如下话题,该话题较之其他话题中的每个话题,讲话的部分的相应数量和讲话的部分的类型的相应数量大于其他话题的讲话的部分的相应数量和讲话的部分的类型的相应数量的概率更高。
4.根据权利要求3所述的交互式装置,其中,讲话的预定部分是名词和形容词。
5.根据权利要求1至4中任一项所述的交互式装置,其中,所述话题选择构件基于由所述获取构件获取的简档信息以如下方式来设置话题被选择的概率:从其他话题中选择如下话题,该话题较之其他话题中的每个话题,名词的数量和形容词的数量在所述简档信息中设置的话题中最大的概率程度更高,并且所述话题选择构件根据已设置的选择概率来选择话题。
6.根据权利要求1至5中任一项所述的交互式装置,其中,
所述话题选择构件计算通过从讲话的预定部分的数量中减去所述讲话中包括的代词的数量而获得的讲话的部分的相应数量,以及
所述话题选择构件基于由所述获取构件获取的简档信息以如下方式来设置话题被选择的概率:从其他话题中选择如下话题,该话题较之其他话题中的每个话题,已被计算的讲话的部分的相应数量大于所述简档信息中设置的其他话题的讲话的部分的相应数量的概率更高,并且所述话题选择构件根据已设置的选择概率来选择话题。
7.根据权利要求1至6中任一项所述的交互式装置,还包括用于存储由所述获取构件获取的简档信息的存储构件,
其中,所述话题选择构件随机地选择话题,直到所述存储构件中存储的简档信息中累积的用户的讲话的数量是预定数量或更多。
8.一种交互式方法,包括以下步骤:
获取用户讲话的话题与所述讲话中包括的讲话词汇的预定部分的数量彼此相关联的简档信息;
基于已获取的简档信息以如下方式来设置话题被选择的概率:从所述简档信息中设置的话题中以更高的概率选择讲话的预定部分的数量更大的话题;并且根据已设置的选择概率来选择话题;以及
基于已选择的话题来生成对用户的响应。
9.一种交互式程序,所述交互式程序使计算机执行以下处理:
获取简档信息,在所述简档信息中用户讲话的话题与所述讲话中包括的讲话词汇的预定部分的数量彼此相关联;
基于已获取的简档信息以如下方式来设置话题被选择的概率:从所述简档信息中设置的话题中以更高的概率选择讲话的预定部分的数量更大的话题;并且根据已设置的选择概率来选择话题;以及
基于已选择的话题来生成对用户的响应。
10.一种非暂态计算机可读介质,其上存储有交互式程序,所述交互式程序使计算机执行以下处理:
获取简档信息,在所述简档信息中用户讲话的话题与所述讲话中包括的讲话词汇的预定部分的数量彼此相关联;
基于已获取的简档信息以如下方式来设置话题被选择的概率:从所述简档信息中设置的话题中以更高的概率选择讲话的预定部分的数量更大的话题;并且根据已设置的选择概率来选择话题;以及
基于已选择的话题来生成对用户的响应。
CN201810387913.1A 2017-04-27 2018-04-26 交互式装置、交互式方法及交互式程序 Pending CN108804518A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-088660 2017-04-27
JP2017088660A JP6777002B2 (ja) 2017-04-27 2017-04-27 対話装置、対話方法及び対話プログラム

Publications (1)

Publication Number Publication Date
CN108804518A true CN108804518A (zh) 2018-11-13

Family

ID=63917340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810387913.1A Pending CN108804518A (zh) 2017-04-27 2018-04-26 交互式装置、交互式方法及交互式程序

Country Status (3)

Country Link
US (1) US10861445B2 (zh)
JP (1) JP6777002B2 (zh)
CN (1) CN108804518A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109872254A (zh) * 2018-11-30 2019-06-11 广州富港万嘉智能科技有限公司 一种用餐方式提示方法、系统及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6777002B2 (ja) * 2017-04-27 2020-10-28 トヨタ自動車株式会社 対話装置、対話方法及び対話プログラム
EP3859568A4 (en) * 2018-09-28 2021-09-29 Fujitsu Limited DIALOGUE DEVICE, DIALOGUE PROCEDURE AND DIALOGUE PROGRAM

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7519529B1 (en) * 2001-06-29 2009-04-14 Microsoft Corporation System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service
US20140080110A1 (en) * 2012-09-19 2014-03-20 Google Inc. Automatically Generating Quiz Questions Based on Displayed Media Content
CN105260356A (zh) * 2015-10-10 2016-01-20 西安交通大学 基于多任务学习的中文交互文本情感与话题识别方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7177817B1 (en) * 2002-12-12 2007-02-13 Tuvox Incorporated Automatic generation of voice content for a voice response system
JP2010244498A (ja) * 2009-04-07 2010-10-28 Gengo Rikai Kenkyusho:Kk 自動応答文生成システム
JP5377430B2 (ja) * 2009-07-08 2013-12-25 本田技研工業株式会社 質問応答データベース拡張装置および質問応答データベース拡張方法
JP6347938B2 (ja) 2013-11-20 2018-06-27 日本電信電話株式会社 発話内重要語抽出装置とその装置を用いた発話内重要語抽出システムと、それらの方法とプログラム
JP2015219583A (ja) * 2014-05-14 2015-12-07 日本電信電話株式会社 話題決定装置、発話装置、方法、及びプログラム
JP5940135B2 (ja) 2014-12-02 2016-06-29 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 話題提示方法、装置及びコンピュータ・プログラム。
JP6601069B2 (ja) * 2015-09-01 2019-11-06 カシオ計算機株式会社 対話制御装置、対話制御方法及びプログラム
AU2017212396A1 (en) * 2016-01-25 2018-08-09 Wespeke, Inc. Digital media content extraction and natural language processing system
JP6777002B2 (ja) * 2017-04-27 2020-10-28 トヨタ自動車株式会社 対話装置、対話方法及び対話プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7519529B1 (en) * 2001-06-29 2009-04-14 Microsoft Corporation System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service
US20140080110A1 (en) * 2012-09-19 2014-03-20 Google Inc. Automatically Generating Quiz Questions Based on Displayed Media Content
CN105260356A (zh) * 2015-10-10 2016-01-20 西安交通大学 基于多任务学习的中文交互文本情感与话题识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109872254A (zh) * 2018-11-30 2019-06-11 广州富港万嘉智能科技有限公司 一种用餐方式提示方法、系统及存储介质

Also Published As

Publication number Publication date
US10861445B2 (en) 2020-12-08
US20180315419A1 (en) 2018-11-01
JP6777002B2 (ja) 2020-10-28
JP2018185751A (ja) 2018-11-22

Similar Documents

Publication Publication Date Title
JP6755304B2 (ja) 情報処理装置
US8909534B1 (en) Speech recognition training
US11392970B2 (en) Administering a digital survey over voice-capable devices
US10777199B2 (en) Information processing system, and information processing method
CN108986830B (zh) 一种音频语料筛选方法及装置
US20200110915A1 (en) Systems and methods for conducting multi-task oriented dialogues
US20120059652A1 (en) Methods and systems for obtaining language models for transcribing communications
US20140074470A1 (en) Phonetic pronunciation
CN108804518A (zh) 交互式装置、交互式方法及交互式程序
CN109215630B (zh) 实时语音识别方法、装置、设备及存储介质
CN111475714A (zh) 一种信息推荐的方法、装置、设备和介质
JP6213476B2 (ja) 不満会話判定装置及び不満会話判定方法
US11595331B2 (en) Communication system and communication control method
CN113314119A (zh) 语音识别智能家居控制方法及装置
JP6027476B2 (ja) 対話シナリオに動的対話ノードを挿入する対話プログラム、サーバ及び方法
CN106899486A (zh) 一种消息显示方法及装置
US11289099B2 (en) Information processing device and information processing method for determining a user type based on performed speech
JP6327252B2 (ja) 分析対象決定装置及び分析対象決定方法
JP6482703B1 (ja) 推定装置、推定方法および推定プログラム
DK202070796A1 (en) System with post-conversation representation, electronic device, and related methods
CN116578691A (zh) 一种智能养老机器人对话方法及其对话系统
CN113722532A (zh) 音频讨论引导方法、装置及计算机设备
CN117975966A (zh) 对话识别方法、装置、计算机设备及存储介质
CN115273242A (zh) 客户反馈信息处理方法及装置
JP2019101399A (ja) 好感度推定装置、好感度推定方法、プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181113

RJ01 Rejection of invention patent application after publication