CN111192577A - 交流装置及交流装置的控制程序 - Google Patents

交流装置及交流装置的控制程序 Download PDF

Info

Publication number
CN111192577A
CN111192577A CN201911016606.3A CN201911016606A CN111192577A CN 111192577 A CN111192577 A CN 111192577A CN 201911016606 A CN201911016606 A CN 201911016606A CN 111192577 A CN111192577 A CN 111192577A
Authority
CN
China
Prior art keywords
response
utterance
probability
category
response generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911016606.3A
Other languages
English (en)
Other versions
CN111192577B (zh
Inventor
中西亮辅
船造美奈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of CN111192577A publication Critical patent/CN111192577A/zh
Application granted granted Critical
Publication of CN111192577B publication Critical patent/CN111192577B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Robotics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mechanical Engineering (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Manipulator (AREA)

Abstract

本发明提供一种交流装置及交流装置的控制程序,交流装置具备:输入部,输入作为用户的发话的输入发话;运算部,运算类别概率,该类别概率是输入发话属于作为发话内容的种类而预先确定的多个分类类别的各个的概率;多个应答生成模块,针对每个应答的类型而设置,分别生成与类型对应的应答发话;决定部,基于针对多个应答生成模块的各个而设定的表示与多个分类类别的每个的关联程度的关联概率及运算部运算出的类别概率而从多个应答生成模块中选择一个,并将所选择出的应答生成模块所生成的应答发话决定为向用户发出的输出发话;以及输出部,输出输出发话。

Description

交流装置及交流装置的控制程序
技术领域
本公开涉及交流装置及交流装置的控制程序。
背景技术
已知有分析用户的发话来掌握语义内容,生成与其类型相应的应答发话并通过语音或者文本向用户提示的技术(例如,参照日本特开2010-140282号公报)。
发明内容
根据以往的发话应答装置,针对用户的发话的应答发话是统一的,用户随着使用装置而能够一定程度预测应答发话。即,用户有时会在发话应答装置中无法感受到作为说话对象的生命感或自由意志,会厌倦对话。
本公开提供通过生成多种多样的应答发话而能够被用户认定为说话对象的交流装置等。
本公开的第一形态中的交流装置具备:输入部,输入作为用户的发话的输入发话;运算部,运算类别概率,该类别概率是输入发话属于作为发话内容的种类而预先确定的多个分类类别的各个的概率;多个应答生成模块,针对每个应答的类型而设置,分别生成与类型对应的应答发话;决定部,基于针对多个应答生成模块中的各个而设定的表示与多个分类类别的每个的关联程度的关联概率及运算部运算出的类别概率而从多个应答生成模块中选择一个,并将所选择的应答生成模块所生成的应答发话决定为向用户发出的输出发话;以及输出部,输出输出发话。根据这样构成的交流装置,由于通过类别概率和关联概率的相乘来决定输出发话,因此针对输入发话的输出发话的选择变化增大,能够使对话具有多样性、意外性。
另外,上述交流装置也可以构成为,决定部从多个应答生成模块中的选择概率成为预先确定的基准值以上的值的应答生成模块中随机地选择一个,选择概率是将关联概率和类别概率相乘而得到的概率。通过这样构成,能够使对话具有意外性。
而且,也可以构成为,决定部将以以前选择过的应答生成模块被选择的概率降低的方式设定的过去系数与关联概率相乘,而从多个应答生成模块中选择一个。通过这样构成,能够避免输出相同的应答发话。
另外,在上述交流装置中,也可以是,在多个应答生成模块由决定部选择后,所选择的应答生成模块生成应答发话。如果在选择之后生成应答发话,则能够节省未被选择的应答生成模块生成应答发话的浪费。
本公开的第二形态中的交流装置的控制程序使计算机执行:输入步骤,输入作为用户的发话的输入发话;运算步骤,运算类别概率,该类别概率是输入发话属于作为发话内容的种类而预先确定的多个分类类别的各个的概率;决定步骤,基于针对多个应答生成模块的各个设定的表示与多个分类类别的每个的关联程度的关联概率及在运算步骤中运算出的类别概率而从多个应答生成模块中选择一个,并将所选择的应答生成模块所生成的应答发话决定为向用户发出的输出发话,多个应答生成模块针对每个应答的类型而设置,分别生成与类型对应的应答发话;以及输出步骤,输出输出发话。根据由这样的控制程序控制的交流装置,通过类别概率与关联概率的相乘来决定输出发话,因此,针对输入发话的输出发话的选择变化增大,能够使对话具有多样性、意外性。
根据本公开,能够提供通过生成多种多样的应答发话而能够被用户认定为说话对象的交流装置等。
根据下文给出的详细描述和附图,本公开的上述和其它目的、特征和优点将得以更充分地理解,附图仅作为说明而给出,并且因此不应被认为限制本公开。
附图说明
图1是示出第一实施例的机器人与用户的交流的例子的图。
图2是机器人的系统结构图。
图3是定义关联概率的参照表的一例。
图4是示出从接受用户的发话到应答为止的处理的流程图。
图5是示出应答生成模块的选择处理的流程图。
图6是示出第二实施例的机器人与用户的交流的例子的图。
图7是机器人和服务器的系统结构图。
图8是示出第三实施例的智能手机的图。
具体实施方式
图1是示出第一实施例的机器人100与用户的交流的例子的图。机器人100是与作为用户的人进行语音对话的交流装置。机器人100是将角色具体化的角色装置,也可以构成为与对话相应地使眼睛的表情、视线方向变化。
机器人100模仿动物作为外观,具有头部110和躯体部120。在头部110的任意位置,隐藏配置有麦克风101。麦克风101承担作为将用户的发话语音作为输入发话而输入的输入部的功能。在机器人100的嘴的位置,隐藏配置有扬声器102。另外,扬声器102承担作为发出机器人100所生成的语音的输出部的功能。用户对从嘴的位置输出的语音感到如机器人100讲话那样的感觉。如图所示,例如若用户对机器人100说出“今天的天气如何?”,则机器人100对该说话进行反应而发话“晴转多云哦。”等。
图2是机器人100的系统结构图。作为主要的系统结构,机器人100具备麦克风101、扬声器102、控制部200、发话数据库210、知识数据库220以及存储器230。控制部200例如由CPU构成,作为承担每个功能的执行的功能执行部而动作,主要作为发话分析部201、类别概率运算部202、生成模块决定部203、发话控制部204以及应答生成模块组205进行动作。
麦克风101对作为机器人100进行对话的对象的用户的发话语音进行收集作为主要的功能。麦克风101将收集到的用户的发话语音转换为语音信号,并作为来自用户的输入发话向发话分析部201移交。
发话分析部201分析从麦克风101接收到的输入发话并进行文本化,并且识别用户的发话内容。具体而言,发话分析部201使用一般的语音识别技术来识别用户的发话内容。例如,对文本化后的输入发话实施单词分析等,使用DNN模型、逻辑回归模型来识别发话内容。发话分析部201将识别出的发话内容移交到类别概率运算部202和应答生成模块组205。
类别概率运算部202运算从发话分析部201接收到的输入发话属于作为发话内容的种类而预先设定的多个分类类别的各个的概率即类别概率。在本实施例中,将输入发话的种类分类为“提问”、“信息提供”、“要求”、“非对话”这四种。然后,将这四个分类的各个称为分类类别,类别概率运算部202作为输入发话属于“提问类别”、“信息提供类别”、“要求类别”、“非对话类别”的推定概率而运算类别概率。
例如,提问类别的类别概率是输入发话的内容被推定为用户想要知道什么的概率。例如,如果输入发话是“今天的天气如何”,则推定用户想要知道今天的天气,因此提问类别的类别概率成为大的值。信息提供类别的类别概率是输入发话被推定为用户想要传达什么的概率。例如,如果输入发话是“我讨厌蔬菜哦”,则推定用户想要机器人100知道并收到自身的特征,因此信息提供类别的类别概率成为大的值。
要求类别的类别概率是输入发话的内容被推定为用户想要做些佘什么的概率。例如,如果输入发话是“点亮客厅的电灯”,则推定用户想要使机器人100发送点亮客厅的电灯的控制信号,因此要求类别的类别概率成为大的值。非对话类别的类别概率是输入发话的内容被推定为不是面向机器人100的概率。例如,如果输入发话是“啊,好困”,则推定为用户在自言自语,因此非对话类别的类别概率成为大的值。
类别概率运算部202参照知识数据库220来运算类别概率。知识数据库220例如由硬盘驱动器的记录介质构成,保存有大量的单词及其属性、定义单词间的修饰关系的分析语法等。知识数据库220也可以不内置于机器人100,例如也可以连接于机器人100能够连接的网络。类别概率运算部202例如决定输入发话所包含的多个单词中的、参照知识数据库220根据具有同一属性的单词的数量及其属性的种类、分析语法从考虑对象除外的单词等,并按照预先确定的运算式运算类别概率。例如,对于输入发话“今天的天气如何”,输出提问类别概率70%、信息提供类别概率5%、要求类别概率10%、非对话类别15%等结果。类别概率运算部202在输出输入发话属于各个分类类别的类别概率后,转移到生成模块决定部203。
此外,也可以不依赖于使用知识数据库220的分析运算方法,而采用使用了逻辑回归或DNN(Deep Neural Network,深度神经网络)的基于人工智能的运算方法。在该情况下,可以预先准备在提供输入发话时输出属于各个分类类别的类别概率的学习完成模型。每当从发话分析部201接收到输入发话时,类别概率运算部202使用学习完成模型来运算类别概率。
应答生成模块组205是生成与所设定的应答类型对应的应答发话的应答生成模块的集合体。在本实施例中,作为应答类型,预先设定有“提问应答”、“联想应答”、“实例应答”、“共感应答”、“模仿应答”这五个。并且,作为生成与各个应答类型一致的应答发话的应答生成模块,准备了提问应答生成模块205a、联想应答生成模块205b、实例应答生成模块205c、共感应答生成模块205d以及模仿应答生成模块205e。
应答提问是针对提问返回回答的应答类型。例如,在输入发话是“明天可能下雨吧”的情况下,提问应答生成模块205a生成“明天是晴转多云”这样的应答发话。联想应答是返回从输入文联想到的短语的应答类型。例如,在输入发话是“明天可能下雨吧”的情况下,联想应答生成模块205b生成“别感冒了”这样的应答发话。
实例应答是返回接近输入发话的短语的应答类型。例如,在输入发话是“明天可能下雨吧”的情况下,实例应答生成模块205c生成“今天是好天气”这样的应答发话。共感应答是返回贴近输入发话中包含的感情的短语的应答类型。例如,在输入发话是“明天可能雨天吧”的情况下,由于不包含具有感情的属性的单词,因此共感应答生成模块205d不生成应答发话。模仿应答是对输入发话的部分或整体进行模仿并进行鹦鹉学舌的应答类型。例如,在输入发话是“明天可能下雨吧”的情况下,模仿应答生成模块205e生成“明天吗?”这样的应答发话。
各个应答生成模块参照发话数据库210,生成与应答类型一致的应答发话。发话数据库210例如由硬盘驱动器的记录介质构成,作为语料库而体系化的各个用语伴随着能够再生的发话数据而被保存。发话数据库210也可以不内置于机器人100,例如也可以连接于机器人100能够连接的网络。
生成模块决定部203基于从类别概率运算部202接收的类别概率和从存储于存储器230的参考表221读取得到的关联概率,从应答生成模块组205中选择一个应答生成模块。具体的选择方法将在后面详细叙述。生成模块决定部203将所选择的应答生成模块生成的应答发话从该应答生成模块取得,并决定采用该应答发话作为输出发话。
发话控制部204将接收到的输出发话转换为语音信号并移交给扬声器102。扬声器102接收由发话控制部204转换后的语音信号,将输出发话作为语音而输出。此外,存储器230是闪存等非易失性存储介质,除了参照表231以外,还存储有用于控制机器人100的控制程序、用于控制和运算的各种参数值、函数、查找表等。
图3是定义关联概率的参照表231的一例。关联概率是针对应答生成模块的各个而设定的表示与上述分类类别的每个的关联程度的值。例如,对于提问应答生成模块205a,与提问类别的关联概率被定义为70%,与信息提供类别的关联概率被定义为15%,与要求类别的关联概率被定义为10%,与非对话类别的关联概率被定义为5%。同样地,对联想应答生成模块205b、实例应答生成模块205c、共感应答生成模块205d以及模仿应答生成模块205e中的各个也定义了与提问类别的关联概率、与信息提供类别的关联概率、与要求类别的关联概率、与非对话类别的关联概率。
生成模块决定部203算出将从类别概率运算部202接收到的每个分类类别的类别概率与参照表231的各关联概率相乘得到的选择概率。例如,对于与运算为提问类别概率50%、信息提供类别概率25%、要求类别概率10%、非对话类别15%的类别概率相对的提问应答生成模块205a的选择概率,若由P(应答生成模块|分类类别)来表现算出的概率得话,则
P(提问应答|提问)=70%×50%=35%
P(提问应答|信息提供)=15%×25%=3.75%
P(提问应答|要求)=10%×10%=1%
P(提问应答|非对话)=5%×15%=0.75%。同样地,联想应答生成模块205b的选择概率为,
P(联想应答|提问)=10%×50%=5%
P(联想应答|信息提供)=40%×25%=10%
P(联想应答|要求)=20%×10%=2%
P(联想应答|非对话)=30%×15%=4.5%。同样地计算实例应答生成模块205c的选择概率、共感应答生成模块205d的选择概率、以及模仿应答生成模块205e的选择概率。
生成模块决定部203探索这样计算出的选择概率中成为最大的值的选择概率(在上述例子中为P(提问应答|提问)=35%),并选择与该值对应的应答生成模块(在上述例子中为提问应答生成模块205a)。然后,生成模块决定部203取得所选择的应答生成模块生成的应答发话(例如,“明天是晴转多云”),将该应答发话作为输出发话。
此外,在所选择的应答生成模块不生成应答发话的情况下,选择选择概率表示下一大的值的应答生成模块,将该应答生成模块生成的应答发话作为输出发话。另外,在多个选择概率是相同值且成为最大值的情况下,可以从与这些最大值对应的应答生成模块随机地选择一个。
根据计算这样的选择概率来决定输出发话的方法,针对输入发话的输出发话的选择变化增大,能够使对话具有多样性、意外性。即,如果说话的表现稍有不同,则从机器人100返回来的语音也可能不同,因此减轻了用户对对话立刻厌烦的可能性。特别是,不是仅询问知识这样的单发的对话,在语言的传接反复进行的闲谈对话中,这样的多样性、意外性成为对话继续的中心要素,因此是有效的。
为了进一步发挥多样性、意外性,生成模块决定部203也可以从计算出的选择概率提取预先决定的基准值以上的选择概率,从与该选择概率对应的应答生成模块随机地选择一个。例如,在将选择概率的基准值设定为P0=35%的情况下,如果P>P0的选择概率出现在提问应答生成模块205a、实例应答生成模块205c及共感应答生成模块205d中,则从这三个中随机地选择一个。
另外,在持续进行对话的情况下,也可以算出为在一系列对话中已经选择的应答生成模块的选择概率变低。例如,将根据过去选择的频率或是否刚刚被选择而变化的过去系数(0以上且小于1的数)与关联概率相乘后,算出选择概率。这样,如果算出为已经选择的应答生成模块的选择概率变低,则能够避免输出相同的应答发话。
接着,对从接受控制部200进行的用户的发话起至应答为止的处理的流程进行说明。图4是表示从接受用户的发话到应答为止的处理的流程图。表示从用户说出一个短语到机器人100返回一个短语为止的处理。
控制部200在步骤S101中经由麦克风101取得用户发话时,作为功能块的发话分析部201在步骤S102中将该用户发话作为输入发话分析并识别。发话分析部201将识别出的发话内容移交到类别概率运算部202和应答生成模块组205。
类别概率运算部202在步骤S103中运算输入发话属于分类类别中的每一个的概率即类别概率。类别概率运算部202在运算出输入发话属于各个分类类别的类别概率后,将该值移交给生成模块决定部203。
生成模块决定部203在步骤S104中从存储器230读取参照表231,取得各应答生成模块的每个分类类别的关联概率。然后,在步骤S105中,从应答生成模块组205中决定一个应答生成模块。使用图5说明步骤S105的具体处理的流程。
图5是示出应答生成模块的选择处理的子流程图。在步骤S1051中,生成模块决定部203首先算出过去系数。针对各个应答生成模块算出过去系数,根据成为算出对象的应答生成模块过去被选择的频率或是否刚刚选择来增减过去系数。生成模块决定部203进入到步骤S1052,根据将过去系数、关联概率及类别概率相乘得到的选择概率P,探索比基准值P0大的值,提取与该选择概率对应的应答生成模块。
然后,在步骤S1053中,从所提取的多个应答生成模块中随机地选择一个。在仅存在一个大于基准值P0的选择概率P的情况下,选择与该选择概率对应的应答生成模块。另外,在不存在一个大于基准值P0的选择概率P的情况下,选择与最大值的选择概率对应的应答生成模块。
返回到图4的流程。应答生成模块组205的各应答生成模块在步骤S106中接收发话分析部201识别出的发话内容,生成与自己的应答类型一致的应答发话。此外,步骤S106既可以与步骤S103至步骤S105并行地执行,也可以在步骤S102之前或步骤S105之后执行。
生成模块决定部203进入到步骤S107,确认在步骤S105中选择的应答生成模块是否生成应答发话。在未生成应答发话的情况下(步骤S107:否),进入到步骤S108,再次选择应答生成模块。例如,如上所述,选择选择概率表示下一大的值的应答生成模块。或者,也可以从剩余的应答生成模块中随机地选择。
如果在步骤S105中选择的应答生成模块生成应答发话(步骤S107:是),进入到步骤S109,取得该应答发话并作为输出发话。在步骤S110中,发话控制部204将从生成模块决定部203接收的输出发话转换成语音信号,并且从扬声器102发声。由此,结束一系列的处理。如果再次有来自用户的发话,则同样地反复进行。
此外,在上述的处理流程中,对所有的应答生成模块分别生成应答发话的例子进行了说明,但也可以构成为仅由生成模块决定部203选择的应答生成模块接受该选择而生成应答发话。在该情况下,在步骤S105之后执行步骤S106的“应答发话的生成”。如果在选择后选择的应答生成模块生成应答发话,则能够节省未被选择的应答生成模块生成应答发话的浪费。另一方面,如果在生成模块决定部203的选择之前各个应答生成模块生成应答发话,则实现迅速的应答。这些规格可以根据机器人100所利用的环境等来决定。
接着,对第二实施例进行说明。图6是示出与第二实施例的机器人的交流的例子的图。在第一实施例中,是以机器人100能够单独地与用户取得交流的方式将主要的功能要素全部设置于主体的结构,但第二实施例中的机器人100’采用将与运算相关的功能要素委托给服务器300的结构。
例如若用户对机器人100’说出“今天的天气如何”,则机器人100’的麦克风取入该语音。机器人100’将取入的语音转换为语音信号,通过无线通信向服务器300发送。服务器300使用这些信息,选择应答语音(在图的例子中为“晴转多云哦。”)的语音数据,并向机器人100’发送。机器人100’从扬声器102发出与接收到的语音数据对应的语音。
图7是机器人100’和服务器300的系统结构图。对与第一实施例中说明的要素原则上承担相同功能的要素标注相同的名称,并省略其功能的说明。在本实施例中,服务器300作为执行各种运算等的交流装置的实体发挥功能。
机器人100’与机器人100同样地具备麦克风101、扬声器102。控制部190将从麦克风101接收到的语音信号转换为语音数据,并经由通信部191向服务器300发送。另外,控制部190将经由通信部191接收到的语音数据转换为语音信号,并从扬声器102发声。通信部191是用于经由网络与服务器300进行控制信号、语音数据的授受的通信接口,例如是无线LAN单元。
服务器300与机器人100同样地具备控制部200、发话数据库210、知识数据库220、存储器230。另外,具备作为用于经由网络与机器人100’进行控制信号、语音数据的授受的通信接口的通信部291。通信部290例如是无线LAN单元。
发话分析部201经由通信部291接收用户发话作为输入发话。此外,发话控制部204将从生成模块决定部203接收到的输出发话的语音数据传递给通信部291。
即使是这样的第二实施例的系统结构,也能够与第一实施例同样地实现与用户的交流。另外,通过将与运算相关的功能集中于服务器300,能够简化机器人100’的结构,即使不在机器人100’设置高性能的控制芯片,也能够实现顺畅的交流。另外,如果服务器300承担与运算相关的功能,则也能够按顺序地应答来自多个机器人100’的运算请求,因此也能够减轻作为系统整体的制造成本。
接着,对第三实施例进行说明。图8是示出第三实施例的智能手机700的图。在第一实施例以及第二实施例中,将具体化了角色的机器人100、100’作为用户对话的对象,但在第三实施例中,将显示于智能手机700的影像角色800作为对话对象。如果将角色实体化为机器人,则用户能够如宠物那样感受到,能够更具有喜爱,但也能够通过智能手机700来更简便地表现角色。
智能手机700的系统结构与使用图2说明的第一实施例中的机器人100的系统结构大致共通。对于共通的结构省略其说明,以下对不同的结构进行说明。
智能手机700具备显示面板710、麦克风711及扬声器712。显示面板710例如是液晶面板,显示影像角色800。麦克风711是与第一实施例中的麦克风101置换的要素,对用户的发话语音进行收集。扬声器712是与第一实施例中的扬声器102置换的要素,接收由发话控制部204转换后的语音信号,对输出发话进行语音输出。
另外,在显示面板710上显示用文字表示作为用户的发话的输入发话的输入文本窗口721。发话分析部201对输入发话进行文字转换并生成输入文本窗口721,并且将输入文本窗口721显示于显示面板710。而且,在显示面板上显示以文字表示所选择的应答发话即输出发话的输出文本窗口722。发话控制部204对输出发话进行文字转换而生成输出文本窗口722,并显示于显示面板710。
这样,如果将输入发话及输出发话显示为文字信息,则在视觉上也能够确认对话。另外,如果关闭语音输出,则用户即使在安静的环境下,也能够在不对周围造成麻烦的情况下享受交流。另外,输入发话也不作为语音,使用智能手机700的文字输入功能并以文字提供,则用户能够在不经由语音的情况下也享受交流。在该情况下,输入发话和输出发话均被处理为文字信息。
如果像这样使智能手机700作为交流装置发挥功能,则不需要作为交流装置的专用硬件,因此用户能够更轻松地享受与角色的对话。另外,只要构成为能够以与智能手机700的其他应用联动的方式与影像角色800进行对话,则能够应用于各种用途。此外,智能手机700也可以是如第二实施例那样服务器协作的系统。
可以使用任何类型的非暂时性计算机可读介质来存储(该)程序并将其提供给计算机。非暂时性计算机可读介质包括任何类型的有形存储介质。非暂时性计算机可读介质的示例包括磁存储介质(诸如软盘、磁带、硬盘驱动器等)、光磁存储介质(例如磁光盘)、CD-ROM(光盘只读存储器)、CD-R(可记录光盘)、CD-R/W(可重写光盘)、半导体存储器(如掩模ROM、PROM(可编程ROM)、EPROM(可擦除PROM)、闪存ROM、RAM(随机存取存储器)等)。可以使用任何类型的暂时性计算机可读介质将程序提供给计算机。暂时性计算机可读介质的示例包括电信号、光信号及电磁波。暂时性计算机可读介质可以经由有线通信线路(例如电线和光纤)或无线通信线路将程序提供给计算机。
根据上述的公开内容,显而易见的是,本公开的实施例可以以多种方式变化。不应将这些变化视为脱离本公开的精神和范围,并且对于本领域技术人员,显而易见,所有这些修改旨在包括在所附请求保护的范围内。

Claims (5)

1.一种交流装置,具备:
输入部,输入作为用户的发话的输入发话;
运算部,运算类别概率,该类别概率是所述输入发话属于作为发话内容的种类而预先确定的多个分类类别的各个的概率;
多个应答生成模块,针对每个应答的类型而设置,分别生成与所述类型对应的应答发话;
决定部,基于针对所述多个应答生成模块的各个而设定的表示与所述多个分类类别的每个的关联程度的关联概率及所述运算部运算出的所述类别概率,而从所述多个应答生成模块中选择一个,并将所选择的应答生成模块所生成的应答发话决定为向所述用户发出的输出发话;以及
输出部,输出所述输出发话。
2.根据权利要求1所述的交流装置,其中,
所述决定部从所述多个应答生成模块中的选择概率成为预先确定的基准值以上的值的应答生成模块中随机地选择一个,所述选择概率是将所述关联概率和所述类别概率相乘而得到的概率。
3.根据权利要求1或2所述的交流装置,其中,
所述决定部将以以前选择过的应答生成模块被选择的概率降低的方式设定的过去系数与所述关联概率相乘,而从所述多个应答生成模块中选择一个。
4.根据权利要求1~3中任一项所述的交流装置,其中,
在所述多个应答生成模块由所述决定部选择后,所选择出的应答生成模块生成所述应答发话。
5.一种存储介质,是存储有交流装置的控制程序的计算机能够读取的存储介质,所述控制程序使计算机执行:
输入步骤,输入作为用户的发话的输入发话;
运算步骤,运算类别概率,该类别概率是所述输入发话属于作为发话内容的种类而预先确定的多个分类类别的各个的概率;
决定步骤,基于针对多个应答生成模块的各个而设定的表示与所述多个分类类别的每个的关联程度的关联概率及在所述运算步骤中运算出的所述类别概率而从所述多个应答生成模块中选择一个,并将所选择的应答生成模块所生成的应答发话决定为向所述用户发出的输出发话,所述多个应答生成模块针对每个应答的类型而设置,分别生成与所述类型对应的应答发话;以及
输出步骤,输出所述输出发话。
CN201911016606.3A 2018-10-25 2019-10-24 交流装置及交流装置的控制程序 Active CN111192577B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-200832 2018-10-25
JP2018200832A JP7063230B2 (ja) 2018-10-25 2018-10-25 コミュニケーション装置およびコミュニケーション装置の制御プログラム

Publications (2)

Publication Number Publication Date
CN111192577A true CN111192577A (zh) 2020-05-22
CN111192577B CN111192577B (zh) 2023-10-13

Family

ID=70327099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911016606.3A Active CN111192577B (zh) 2018-10-25 2019-10-24 交流装置及交流装置的控制程序

Country Status (3)

Country Link
US (1) US11222638B2 (zh)
JP (1) JP7063230B2 (zh)
CN (1) CN111192577B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11443731B2 (en) 2020-04-09 2022-09-13 Rovi Guides, Inc. Systems and methods for generating synthesized speech responses to voice inputs by training a neural network model based on the voice input prosodic metrics and training voice inputs
US11568859B2 (en) * 2020-08-31 2023-01-31 Uniphore Software Systems, Inc. Method and apparatus for extracting key information from conversational voice data
JP7331025B2 (ja) * 2021-02-05 2023-08-22 Necパーソナルコンピュータ株式会社 学習支援システム、学習支援方法、及びプログラム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178175A (ja) * 2004-12-22 2006-07-06 Nec Corp 音声対話装置、支援装置、生成装置、音声対話方法、支援方法、生成方法およびプログラム
JP2007219149A (ja) * 2006-02-16 2007-08-30 Toyota Central Res & Dev Lab Inc 応答生成装置、方法及びプログラム
CN101399590A (zh) * 2007-09-27 2009-04-01 株式会社Ntt都科摩 一种多用户预编码系统中的反馈选择方法及反馈选择装置
JP2010140282A (ja) * 2008-12-11 2010-06-24 Nippon Telegr & Teleph Corp <Ntt> 対話装置、対話方法、対話プログラムおよび記録媒体
JP2016076117A (ja) * 2014-10-07 2016-05-12 株式会社Nttドコモ 情報処理装置及び発話内容出力方法
CN106055547A (zh) * 2015-04-02 2016-10-26 松下知识产权经营株式会社 对话方法、记录介质以及对话系统
CN106205611A (zh) * 2016-06-29 2016-12-07 北京智能管家科技有限公司 一种基于多模态历史响应结果的人机交互方法及系统
JP2017102247A (ja) * 2015-12-01 2017-06-08 国立研究開発法人産業技術総合研究所 音声対話システム、音声対話制御法およびプログラム
JP2018132704A (ja) * 2017-02-16 2018-08-23 トヨタ自動車株式会社 対話装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4980917A (en) * 1987-11-18 1990-12-25 Emerson & Stern Associates, Inc. Method and apparatus for determining articulatory parameters from speech data
US6224383B1 (en) * 1999-03-25 2001-05-01 Planetlingo, Inc. Method and system for computer assisted natural language instruction with distracters
US6883014B1 (en) * 2000-10-19 2005-04-19 Amacis Limited Electronic message distribution
JP4062591B2 (ja) 2002-03-06 2008-03-19 ソニー株式会社 対話処理装置及び方法並びにロボット装置
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
JP2004086001A (ja) * 2002-08-28 2004-03-18 Sony Corp 会話処理装置、および会話処理方法、並びにコンピュータ・プログラム
US20090209345A1 (en) * 2008-02-14 2009-08-20 Aruze Gaming America, Inc. Multiplayer participation type gaming system limiting dialogue voices outputted from gaming machine
US9576573B2 (en) * 2011-08-29 2017-02-21 Microsoft Technology Licensing, Llc Using multiple modality input to feedback context for natural language understanding
JP5611155B2 (ja) * 2011-09-01 2014-10-22 Kddi株式会社 コンテンツに対するタグ付けプログラム、サーバ及び端末
GB2513105A (en) * 2013-03-15 2014-10-22 Deepmind Technologies Ltd Signal processing systems
US20130326375A1 (en) * 2013-08-07 2013-12-05 Liveperson, Inc. Method and System for Engaging Real-Time-Human Interaction into Media Presented Online
US10262268B2 (en) * 2013-10-04 2019-04-16 Mattersight Corporation Predictive analytic systems and methods
US9547471B2 (en) 2014-07-03 2017-01-17 Microsoft Technology Licensing, Llc Generating computer responses to social conversational inputs
US9953648B2 (en) * 2015-05-11 2018-04-24 Samsung Electronics Co., Ltd. Electronic device and method for controlling the same
US20180060786A1 (en) * 2016-08-30 2018-03-01 Wipro Limited System and Method for Allocating Tickets
JP6849964B2 (ja) 2016-09-05 2021-03-31 株式会社Nextremer 対話制御装置、対話エンジン、管理端末、対話装置、対話制御方法、対話方法、およびプログラム
CN108153800B (zh) * 2016-12-06 2023-05-23 松下知识产权经营株式会社 信息处理方法、信息处理装置以及记录介质
EP4125029A1 (en) * 2017-03-23 2023-02-01 Samsung Electronics Co., Ltd. Electronic apparatus, controlling method of thereof and non-transitory computer readable recording medium
EP3577860B1 (en) * 2017-04-07 2023-07-26 Microsoft Technology Licensing, LLC Voice forwarding in automated chatting
US10878198B2 (en) * 2018-01-04 2020-12-29 Facebook, Inc. Intent arbitration for a virtual assistant

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178175A (ja) * 2004-12-22 2006-07-06 Nec Corp 音声対話装置、支援装置、生成装置、音声対話方法、支援方法、生成方法およびプログラム
JP2007219149A (ja) * 2006-02-16 2007-08-30 Toyota Central Res & Dev Lab Inc 応答生成装置、方法及びプログラム
CN101399590A (zh) * 2007-09-27 2009-04-01 株式会社Ntt都科摩 一种多用户预编码系统中的反馈选择方法及反馈选择装置
JP2010140282A (ja) * 2008-12-11 2010-06-24 Nippon Telegr & Teleph Corp <Ntt> 対話装置、対話方法、対話プログラムおよび記録媒体
JP2016076117A (ja) * 2014-10-07 2016-05-12 株式会社Nttドコモ 情報処理装置及び発話内容出力方法
CN106055547A (zh) * 2015-04-02 2016-10-26 松下知识产权经营株式会社 对话方法、记录介质以及对话系统
JP2017102247A (ja) * 2015-12-01 2017-06-08 国立研究開発法人産業技術総合研究所 音声対話システム、音声対話制御法およびプログラム
CN106205611A (zh) * 2016-06-29 2016-12-07 北京智能管家科技有限公司 一种基于多模态历史响应结果的人机交互方法及系统
JP2018132704A (ja) * 2017-02-16 2018-08-23 トヨタ自動車株式会社 対話装置

Also Published As

Publication number Publication date
US20200135197A1 (en) 2020-04-30
JP2020067585A (ja) 2020-04-30
JP7063230B2 (ja) 2022-05-09
CN111192577B (zh) 2023-10-13
US11222638B2 (en) 2022-01-11

Similar Documents

Publication Publication Date Title
US11790919B2 (en) Multiple classifications of audio data
CN108536802B (zh) 基于儿童情绪的交互方法及装置
EP3582119A1 (en) Spoken language understanding system and method using recurrent neural networks
US20240153489A1 (en) Data driven dialog management
US11545174B2 (en) Emotion detection using speaker baseline
US11887580B2 (en) Dynamic system response configuration
US11194973B1 (en) Dialog response generation
CN111192577B (zh) 交流装置及交流装置的控制程序
KR20210070213A (ko) 음성 사용자 인터페이스
KR20080023030A (ko) 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
US11132994B1 (en) Multi-domain dialog state tracking
US11393473B1 (en) Device arbitration using audio characteristics
KR101738142B1 (ko) 감성 기반의 대화가 가능한 디지털 생명체 생성 시스템 및 그 제어방법
CN116417003A (zh) 语音交互系统、方法、电子设备和存储介质
US11854538B1 (en) Sentiment detection in audio data
KR20210123545A (ko) 사용자 피드백 기반 대화 서비스 제공 방법 및 장치
JP3467556B2 (ja) 音声認識装置
US11430435B1 (en) Prompts for user feedback
US20200130195A1 (en) Dialogue apparatus and control program for dialogue apparatus
US11915690B1 (en) Automatic speech recognition
TWI833678B (zh) 真實多人應答情境下的生成式聊天機器人之系統及其方法
Muttaqin et al. Speech Emotion Detection Using Mel-Frequency Cepstral Coefficient and Hidden Markov Model
Wöllmer et al. Computational Assessment of Interest in Speech—Facing the Real-Life Challenge
Ultes User-centred adaptive spoken dialogue modelling
CN116050431A (zh) 人机交互方法、装置、机器人、智能设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant