CN110473533B - 语音对话系统、语音对话方法以及程序 - Google Patents

语音对话系统、语音对话方法以及程序 Download PDF

Info

Publication number
CN110473533B
CN110473533B CN201910354070.XA CN201910354070A CN110473533B CN 110473533 B CN110473533 B CN 110473533B CN 201910354070 A CN201910354070 A CN 201910354070A CN 110473533 B CN110473533 B CN 110473533B
Authority
CN
China
Prior art keywords
response
learning model
utterance
user
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910354070.XA
Other languages
English (en)
Other versions
CN110473533A (zh
Inventor
堀达朗
渡部生圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of CN110473533A publication Critical patent/CN110473533A/zh
Application granted granted Critical
Publication of CN110473533B publication Critical patent/CN110473533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Manipulator (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供语音对话系统、语音对话方法以及程序,能够以不产生响应错误的方式适当地进行应对。发声取得部(102)取得用户发声。特征提取部(104)提取用户发声的特征。响应决定部(120)使用多个学习模型中的任一个来决定与所提取出的特征对应的响应。响应执行部(130)进行用于执行所决定的响应的控制。响应错误判定部(140)判定所执行的响应是否是错误的。学习模型选择部(150)根据响应错误判定部(140)的判定结果,从存储于学习模型数据库(160)的多个学习模型中选择学习模型。响应决定部(120)使用所选择的学习模型来决定响应。

Description

语音对话系统、语音对话方法以及程序
技术领域
本发明涉及语音对话系统、语音对话方法以及程序,特别涉及能够与用户进行使用了声音的对话的语音对话系统、语音对话方法以及程序。
背景技术
用于供用户享受与语音对话机器人(语音对话系统)进行日常对话的技术正在普及。该技术所涉及的语音对话机器人对用户发出的声音的音韵信息等进行解析,来执行与解析结果对应的响应。这里,语音对话机器人使用学习模型来决定响应。
与上述的技术相关联,日本特开2005-352154号公报公开了一种根据用户发出的声音来判断该用户的感情状态并执行适当的对应动作的感情状态反应动作装置。日本特开2005-352154号公报所涉及的感情状态反应动作装置具有:音韵特征量提取单元,提取声音信息的音韵谱所涉及的特征量;状态判断单元,被输入音韵特征量,基于预先具备的状态判断表来判断声音信息的感情状态;以及对应动作选择单元,被输入感情状态,基于预先具备的对应动作选择表来决定对应动作处理。并且,日本特开2005-352154号公报所涉及的感情状态反应动作装置具备感情状态学习用表与感情状态学习单元,感情状态学习单元基于感情状态学习表并通过规定的机器学习模型来取得音韵特征量与感情状态的关联并将学习结果保存于状态判断表,状态判断单元基于状态判断表来进行利用上述机器学习模型的感情状态的判断。
根据用户的状态(用户的差异或者用户的感情等),存在机器学习模型不适当的担忧。该情况下,例如存在产生用户的发声与装置的发声冲突的发声冲突、或者用户的发声与装置的发声之间的时段为长时间的长期沉默之类的响应错误的担忧。另一方面,在日本特开2005-352154号公报所涉及的技术中,使用一个机器学习模型来决定对应动作处理。因此,在日本特开2005-352154号公报所涉及的技术中,即便是在因学习模型不适当而产生响应错误的情况下,也难以进行适当的应对以便不产生响应错误。
发明内容
本发明提供一种能够以不产生响应错误的方式适当地进行应对的语音对话系统、语音对话方法以及程序。
本发明所涉及的语音对话系统与用户进行使用了声音的对话,上述语音对话系统具有:发声取得部,取得上述用户的发声亦即用户发声;特征提取部,提取上述取得的用户发声的特征;响应决定部,使用预先通过机器学习生成的多个学习模型中的任一个,来决定与上述提取出的特征对应的响应;响应执行部,进行用于执行上述决定出的响应的控制;响应错误判定部,根据针对上述用户发声的上述执行的响应的时机或者针对上述执行的响应的上述用户发声的时机,来判定上述执行的响应是否是错误的;以及学习模型选择部,根据上述响应错误判定部的判定结果,从上述多个学习模型中选择上述学习模型,上述响应决定部使用由上述学习模型选择部选择出的学习模型来决定上述响应。
另外,本发明所涉及的语音对话方法使用语音对话系统来进行,该语音对话系统与用户进行使用了声音的对话,在上述语音对话方法中,取得上述用户的发声亦即用户发声,提取上述取得的用户发声的特征,使用预先通过机器学习而生成的多个学习模型中的任一个,来决定与上述提取出的特征对应的响应,进行用于执行上述决定出的响应的控制,根据针对上述用户发声的上述执行的响应的时机或者针对上述执行的响应的上述用户发声的时机,来判定上述执行的响应是否是错误的,根据上述判定的结果,从上述多个学习模型中选择上述学习模型,使用上述选择出的学习模型来决定上述响应。
另外,本发明所涉及的程序执行使用语音对话系统来进行的语音对话方法,该语音对话系统与用户进行使用了声音的对话,上述程序使计算机执行如下步骤:取得上述用户的发声亦即用户发声的步骤;提取上述取得的用户发声的特征的步骤;使用预先通过机器学习而生成的多个学习模型中的任一个,来决定与上述提取出的特征对应的响应的步骤;进行用于执行上述决定出的响应的控制的步骤;根据针对上述用户发声的上述执行的响应的时机或者针对上述执行的响应的上述用户发声的时机,来判定上述执行的响应是否是错误的步骤;根据上述判定的结果,从上述多个学习模型中选择上述学习模型的步骤;以及使用上述选择出的学习模型,来决定上述响应的步骤。
产生响应错误的原因大多在于学习模型不适当。由于本发明如上述那样构成,所以在产生了响应错误的情况下,能够将用于决定响应的学习模型切换为适当的学习模型。因此,本发明能够以不产生响应错误的方式适当地进行应对。
另外,优选上述学习模型选择部选择如下的学习模型:在输入了与被判定为是上述错误时的上述响应对应的特征的情况下,不选择被判定为是上述错误的响应的概率高。
本发明通过如此构成,能够选择响应的精度可进一步提高的学习模型。
另外,优选当在预先决定的第1时段的期间预先决定的多次以上地判定为上述响应是错误的时候,上述学习模型选择部选择如下的学习模型:在输入了与被判定为是上述错误时的上述响应对应的特征的情况下,不选择被判定为上述错误的响应的概率高。
本发明通过如此构成,由此构成为使用多个诱发了响应错误的用户发声的特征向量来选择新的学习模型。这样,通过使用多个特征向量来评价学习模型,能够进一步提高所选择的学习模型的精度。
另外,优选在上述用户发声的中途由上述响应执行部执行了发声响应的情况下、或者在由上述响应执行部执行发声响应的中途产生了上述用户发声的情况下,上述响应错误判定部判定为上述响应是发声冲突的错误,上述学习模型选择部选择如下的学习模型:在输入了与被判定为是上述发声冲突的错误时的上述响应对应的特征的情况下,不输出上述发声响应的概率高。
本发明通过如此构成,能够在产生了发声冲突的响应错误时,重新选择针对引起发声冲突的用户发声的特征不输出发声响应的学习模型。因此,本发明能够抑制发声冲突的产生。
另外,优选在从上述用户发声结束到由上述响应执行部执行发声响应为止的时段为预先决定的第2时段以上的情况下,上述响应错误判定部判定为上述响应是长期沉默的错误,上述学习模型选择部选择如下的学习模型:在输入了与被判定为是上述长期沉默的错误时的上述响应对应的特征的情况下,输出上述发声响应的概率高。
本发明通过如此构成,能够在产生了长期沉默的响应错误时,重新选择针对引起长期沉默的用户发声的特征输出发声响应那样的学习模型。因此,本发明能够抑制长期沉默的产生。
另外,优选还具有生成多个学习模型的学习模型生成部,上述学习模型生成部通过多个分类法对在上述学习模型的生成中使用的取样数据组进行分类,并通过对于上述多个分类法的每一个计算针对分类而得到的多个组的每一个进行机器学习所获得的学习模型的精度,来计算上述多个分类法各自的精度,使用通过上述精度最高的分类法分类而得到的上述多个组的每一个来生成多个学习模型。
本发明通过如此构成,能够预先生成多个精度高的学习模型。因此,在重新选择学习模型时,能够进行响应精度更高的对话。
另外,优选还具有数据取得部,该数据取得部取得用于生成上述学习模型的取样数据,在上述数据取得部取得上述取样数据时,上述发声取得部取得用于取得取样数据的上述用户发声,上述特征提取部提取上述取得的用户发声的特征,上述响应决定部使用预先通过机器学习而生成的判别模型,来决定与上述提取出的特征对应的响应,上述响应执行部进行用于执行上述决定出的响应的控制,上述响应错误判定部判定针对用于取得上述取样数据的用户发声执行了的响应是否是错误的,在针对用于取得上述取样数据的用户的发声执行了的响应是错误的情况下,上述数据取得部通过对与该用户发声对应的特征赋予不正确标签,来取得上述取样数据。
本发明通过如此构成,能够高效地生成学习模型。
根据本发明,可提供能够以不产生响应错误的方式适当地进行应对的语音对话系统、语音对话方法以及程序。
从以下给出的详细描述和附图中将会更全面地理解本公开的上述目的和其他目的、特征以及优点,附图仅以说明的方式给出,因此不应被视为限制本公开。
附图说明
图1是表示实施方式1所涉及的语音对话系统的硬件结构的图。
图2是表示实施方式1所涉及的语音对话系统的结构的框图。
图3是例示由实施方式1所涉及的特征提取部生成的特征向量的图。
图4是用于对实施方式1所涉及的学习模型的生成方法进行说明的图。
图5是用于对实施方式1所涉及的学习模型的生成方法进行说明的图。
图6是用于对实施方式1所涉及的学习模型的生成方法进行说明的图。
图7是表示通过实施方式1所涉及的语音对话系统进行的语音对话方法的流程图。
图8是表示通过实施方式1所涉及的语音对话系统进行的语音对话方法的流程图。
图9是例示发声冲突的图。
图10是例示发声冲突的图。
图11是例示发声冲突的图。
图12是表示产生了发声冲突时的学习模型选择部的处理的流程图。
图13是例示长期沉默的图。
图14是表示产生了长期沉默时的学习模型选择部的处理的流程图。
图15是表示实施方式2所涉及的语音对话系统的结构的框图。
图16是表示实施方式2所涉及的学习模型生成部的处理的流程图。
图17是例示取样数据组的图。
图18是表示取样数据被分类的例子的图。
图19是表示实施方式3所涉及的语音对话系统的结构的框图。
图20是表示通过实施方式3所涉及的语音对话系统进行的取样数据的取得方法的流程图。
图21是用于对通过实施方式3所涉及的语音对话系统进行的取样数据的取得方法进行说明的图。
图22是例示实施方式3所涉及的在学习模型的生成中使用的取样数据的图。
图23是例示实施方式3所涉及的在学习模型的生成中使用的取样数据的图。
具体实施方式
(实施方式1)
以下,参照附图对本发明的实施方式进行说明。其中,在各附图中,对于相同的要素标注相同的附图标记,并根据需要而省略重复说明。
图1是表示实施方式1所涉及的语音对话系统1的硬件结构的图。语音对话系统1使用声音与用户进行对话。具体而言,语音对话系统1通过根据来自用户的发声(用户发声)对用户执行声音等的响应,来与用户进行对话。语音对话系统1例如能够搭载于生活辅助机器人以及小型机器人等机器人、云系统以及智能手机等。在以下的说明中,示出了语音对话系统1被搭载于机器人的例子。
语音对话系统1具有收集周围的声音的麦克风2、发出声音的扬声器4、使机器人的头等动作的操纵装置8、以及控制装置10。此外,语音对话系统1也可以具有照相机等拍摄装置。控制装置10例如具有作为计算机的功能。控制装置10与麦克风2、扬声器4以及操纵装置8通过有线或者无线的方式连接。
控制装置10作为主要的硬件结构而具有CPU(Central Processing Unit)12、ROM(Read Only Memory)14、RAM(Random Access Memory)16、以及接口部(IF;Interface)18。CPU12、ROM14、RAM16以及接口部18经由数据总线等而相互连接。
CPU12具有作为进行控制处理以及运算处理等的运算装置的功能。ROM14具有用于对由CPU12执行的控制程序以及运算程序等进行存储的功能。RAM16具有用于暂时存储处理数据等的功能。接口部18经由有线或者无线来与外部进行信号的输入输出。另外,接口部18接受由用户进行的数据的输入的操作,并对用户显示信息。
控制装置10对由麦克风2收音而得到的用户发声进行解析,根据该用户发声来决定针对用户的响应并执行。这里,在本实施方式中,“响应”包括“沉默”、“点头”以及“发声”。“沉默”是语音对话系统1什么也不干的动作。“点头”是使机器人的头部纵向摇动的动作。另外,“发声”是语音对话系统1输出声音的动作。在所决定的响应是“点头”的情况下,控制装置10控制操纵装置8来使机器人的头部动作。另外,在所决定的响应是“发声”的情况下,控制装置10经由扬声器4输出与所生成的响应对应的声音(系统发声)。
图2是表示实施方式1所涉及的语音对话系统1的结构的框图。实施方式1所涉及的语音对话系统1具有发声取得部102、特征提取部104、特征储存部106、选择模型储存部108、响应数据库110(响应DB)、响应决定部120、响应执行部130、以及响应历史记录储存部132。并且,实施方式1所涉及的语音对话系统1具有响应错误判定部140、学习模型选择部150、以及学习模型数据库160(学习模型DB)。
图2所示的各构成要素能够由麦克风2、扬声器4、操纵装置8以及控制装置10的至少一个实现。另外,各构成要素的至少一个例如能够通过CPU12执行存储于ROM14的程序来实现。另外,也可以将需要的程序预先记录于任意的非易失性记录介质,并根据需要来安装。此外,各构成要素并不限定于如上述那样由软件实现,也可以由某些电路元件等硬件实现。并且,图2所示的构成要素无需全部设置于一个装置,图2所示的构成要素的一个以上构成要素也可以设置于与其他的构成要素在物理上分开的装置。例如,可以构成为学习模型数据库160被设置于服务器,其他的构成要素被设置于能够与服务器进行通信的语音对话机器人等。这些在后述的其他实施方式中也是相同的。
发声取得部102可包括麦克风2。发声取得部102取得用户发声(以及系统发声)。具体而言,发声取得部102收集用户的发声(以及语音对话系统1的发声)并将其转换成数字信号。而且,发声取得部102将用户发声的声音数据(用户声音数据)对于特征提取部104输出。另外,发声取得部102将用户声音数据与系统发声的声音数据(系统声音数据)对于响应错误判定部140输出。
特征提取部104提取用户发声的特征。具体而言,特征提取部104针对用户发声,进行与表示发声的具体含义内容的语言信息不同的非语言信息的解析。另外,特征提取部104生成后述的特征向量作为非语言信息的解析结果亦即非语言信息解析结果。而且,特征提取部104将非语言信息解析结果(特征向量)对于响应决定部120输出。另外,特征提取部104将所提取出的特征向量储存于特征储存部106。在特征储存部106中,每当发声取得部102取得用户发声时,就能储存与该用户发声对应的特征向量。
这里,非语言信息是与处理对象的用户发声的语言信息(字符串)不同的信息,包括用户发声的韵律信息以及响应历史记录信息的至少一方。韵律信息是表示用户发声的声音波形的特征的信息,例如是基本频率、声压、频率等的变化量、变动频带、振幅的最大值以及平均值等。另外,响应历史记录信息是由响应决定部120决定(生成)并表示与由响应执行部130执行的响应有关的过去的历史记录的信息。如果由响应执行部130执行响应,则响应历史记录储存部132对该响应历史记录信息进行储存(更新)。
具体而言,特征提取部104针对由发声取得部102取得的用户声音数据进行声音分析等,并根据声音波形而对韵律信息进行解析。而且,特征提取部104对表示特征量的值进行计算,其中上述特征量表示韵律信息。此外,特征提取部104针对用户声音数据,例如可以按照以32msec的间隔划分的每一个帧来计算基本频率等。另外,特征提取部104从响应历史记录储存部132提取响应历史记录信息来计算对响应历史记录的特征进行表示的特征量。
此外,使用了用户发声的语言信息的句法解析由于使用模式识别等,所以大多需要大量的时间。另一方面,关于非语言信息的解析(韵律信息的解析以及响应历史记录信息的解析),解析所使用的数据量比句法解析少,运算方法比句法解析简单。因此,非语言信息的解析所需的时间可比句法解析短得多。
选择模型储存部108对由后述的学习模型选择部150选择出的学习模型进行储存。这里,在本实施方式中,学习模型选择部150从储存于学习模型数据库160的多个学习模型中,通过后述的方法来选择适当的学习模型。此外,在开始语音对话之前等未通过学习模型选择部150进行学习模型的选择处理的情况下,选择模型储存部108也可以储存任意的一个学习模型。
响应数据库110储存语音对话系统1进行响应时所需的数据。例如,响应数据库110预选存储有表示响应为“发声”的情况下的系统发声的多个系统声音数据。
响应决定部120根据非语言信息解析结果(特征向量)来决定执行哪个响应。这里,在本实施方式中,响应决定部120使用预先通过有监督学习等的机器学习而生成的多个学习模型中的任意一个,来决定与所提取的特征(特征向量)对应的响应。详细的叙述将在后面进行。
在本实施方式中,响应决定部120将“沉默”、“点头”以及“发声”中的一个决定为响应。响应决定部120将表示所决定的响应的数据(响应数据)对于响应执行部130输出。此外,响应决定部120也可以在作为响应而决定为进行“发声”的情况下,从存储于响应数据库110的多个系统发声中依次或者随机地选择系统发声(系统声音数据)。响应决定部120将所选择的系统声音数据对于响应执行部130输出。
响应执行部130进行用于执行由响应决定部120决定的响应的控制。具体而言,在从响应决定部120输出的响应数据表示“沉默(沉默响应)”的情况下,响应执行部130以不使扬声器4以及操纵装置8动作的方式进行控制。另外,在从响应决定部120输出的响应数据表示“点头(点头响应)”的情况下,响应执行部130控制操纵装置8而使机器人的头部动作。另外,在从响应决定部120输出的响应数据表示“发声(发声响应)”的情况下,响应执行部130控制扬声器4,使其输出表示由响应决定部120选择的系统声音数据的声音。
响应历史记录储存部132将对由响应执行部130执行了的响应进行识别的数据作为响应历史记录信息而储存。并且,在作为响应历史记录信息而包含与对话有关的时间的情况下,响应历史记录储存部132可以对该时间进行计测,并将计测出的时间作为响应历史记录信息而储存。
图3是例示由实施方式1所涉及的特征提取部104生成的特征向量的图。其中,图3所例示的特征向量只是一个例子,可以是其他的各种特征向量。若将关于第i个用户发声的特征向量设为vi,则特征向量的n个成分被表示为vi=(vi1,vi2,…,vi(m-1),vim,vi(m+1),…,vin)。这里,i、n以及m为整数(其中n>m)。另外,vi1~vi(m-1)对应于与第i个用户发声信息有关的韵律信息的解析结果。另外,vim~vin对应于响应历史记录信息的解析结果。此外,对于vim~vin来说,也可以是储存于响应历史记录储存部132的信息本身。即,对于响应历史记录信息,特征提取部104可以仅从响应历史记录储存部132提取响应历史记录,也可以不进行特别的解析。
在图3所示的例子中,例如,vi1表示第i个用户发声的句末的T1msec(从自用户发声的结束时刻回溯了T1msec(T毫秒)的时间到结束时刻为止的时段)中的关于基本频率f0(f0T1)的参数。另外,vi7表示第i个用户发声的长度(用户发声长度)L1[sec]。其中,可使用SPTK(Speech Signal Processing Toolkit:语音信号处理工具包)的SWIPE(Saw-toothWaveform Inspired Pitch Estimation:锯齿波形激励的音高估计)的逻辑,针对每一帧计算基本频率f0。
另外,vim表示紧前的响应类型。紧前的响应类型是在紧前(第i个用户发声的紧前)由响应执行部130执行了的响应的类型(“沉默”、“点头”、以及“发声”的其中一个)。这里,关于vim那样的不是数值的成分的成分值(特征量),对各类型分配有数值。例如,在vim中,成分值“1”表示“沉默”,成分值“2”表示“点头”,成分值“3”表示“发声”。
响应错误判定部140(图2)根据针对用户发声由响应执行部130执行的响应的时机、或者针对由响应执行部130执行的响应的用户发声的时机,来判定所执行的响应是否发生错误。详细的叙述将在后面进行。这里,在实施方式1中,产生了“响应错误”的情况是产生了“发声冲突”或者“长期沉默”的情况。“发声冲突”是指用户发声与系统发声冲突。“发声冲突”的一个例子是在用户发声的中途(用户发声结束之前)响应执行部130执行了系统发声(发声响应)的情况。“发声冲突”的另一例子是在由响应执行部130执行发声响应的中途产生了用户的发声的情况。另外,“长期沉默”是指从用户发声结束到由响应执行部130执行发声响应为止的时段为预先决定的时段(Ts秒;第2时段)以上。这样,响应错误判定部140能够检测到由响应执行部130执行的响应是错误的。因此,响应错误判定部140能够检测为当前的学习模型是不适当的。
学习模型选择部150根据响应错误判定部140的判定结果,从存储于学习模型数据库160的多个学习模型中选择学习模型。在后面将进行详细的叙述。学习模型数据库160对预先通过机器学习而生成的多个学习模型进行存储。在后面将对多个学习模型的生成方法的具体例进行叙述。
产生响应错误的原因大多在于学习模型不适当。例如,存在对于某一用户来说是适当的学习模型但对于别的用户来说不适当的情况。另外,即便是相同的用户,由于该用户的感情等的变化,也存在适当的学习模型变得不适当的情况。这里,学习模型不适当意味着针对用户发声的响应的精度差。若学习模型的响应的精度差,则机器人在应该对某一用户发声执行“沉默响应”时而执行“发声响应”或者在应该对某一用户发声执行“发声响应”时而执行“沉默响应”。
对此,在本实施方式中,当产生了响应错误的情况下,能够将用于决定响应的学习模型切换为适当的学习模型。因此,本实施方式所涉及的语音对话系统1能够以不产生响应错误的方式适当地进行应对。即,本实施方式所涉及的语音对话系统1能够使响应的精度良好。
接下来,对学习模型的生成方法的概略进行说明。
图4~图6是用于对实施方式1所涉及的学习模型的生成方法进行说明的图。首先,取得用于生成学习模型的取样数据。如图4所示,通过机器人(语音对话系统1)针对用户A的发声进行响应之类的用户A与机器人的对话,来收集特征向量与正确标签建立了关联的取样数据。此时,操作者以使机器人针对用户A的发声执行适当的响应的方式,对机器人(语音对话系统1)进行操作。
在图4所示的例子中,正确标签“A”对应于“沉默响应”。正确标签“B”对应于“点头响应”。正确标签“C”对应于“发声响应”。操作者以在用户A的发声的中途执行沉默响应的方式,对机器人进行操作。此时,操作者可以什么都不干。另外,操作者以在用户A的发声的逗号级别的中断处执行点头响应的方式,对机器人进行操作。此时,机器人根据操作者的操作来进行点头的动作。另外,操作者以在用户A的发声的句号级别的中断处执行发声响应的方式,对机器人进行操作。此时,机器人根据操作者的操作来进行发声。
在图4的例子中,由于在用户A的发声“最终”与“我一个人听的。”之间没有中断,所以操作者判断为是用户A的发声的中途,以执行沉默响应的方式对机器人进行操作。另外,若用户A的发声“我一个人听的。”结束,则判断为存在句号级别的中断,以执行发声响应的方式对机器人进行操作。此时,机器人输出发声“真的吗”。
图5是例示作为通过图4的例子而取得的特征向量与正确标签的组的取样数据的图。由于用户发声“最终”的用户发声长度为0.5秒,所以向特征向量的成分(图3的vi7)输入“0.5”。另外,由于针对用户发声“最终”的响应为“沉默响应”,所以正确标签“A”与用户发声“最终”的特征向量相关联。
另外,由于用户发声“我一个人听的。”的用户发声长度为1.5秒,所以向特征向量的成分(图3的vi7)输入“1.5”。另外,由于针对用户发声“我一个人听的。”的响应为“发声响应”,所以正确标签“C”与用户发声“我一个人听的。”的特征向量相关联。
接下来,将如上述那样收集到的取样数据组分类为M个组。对于分类方法,例如能够通过k折交叉验证(k-fold Cross Validation)来进行。在后面将进行详细的叙述。此时,取样数据组以响应为正确的精度变好的方式被进行分类。换言之,取样数据组被进行分类,以使得使用将该取样数据组分类而得到的组来获得的学习模型下的响应与正确标签的一致度变高。此外,优选各被分类的组中包含用户发声长度的总计为15分钟以上的程度的数量的取样数据。由此,通过总计15分钟以上的取样数据生成一个学习模型。
图6是例示从所分类的取样数据组生成学习模型的方式的图。从组#1的取样数据组,例如通过有监督学习等的机器学习而生成学习模型#1。同样,从组#M的取样数据组,通过机器学习而生成学习模型#M。由于学习模型#1~#M的正确标签“A”、“B”、“C”的边界相互不同,所以即便在向学习模型#1~#M分别输入了相同的特征向量的情况下,所输出的响应也能不同。这样生成的多个学习模型被储存于学习模型数据库160。
图7以及图8是表示通过实施方式1所涉及的语音对话系统1进行的语音对话方法的流程图。首先,发声取得部102如上述那样取得用户发声(步骤S102)。特征提取部104如上述那样针对所取得的用户发声进行非语言信息(韵律信息以及响应历史记录信息)的解析,来提取用户发声的特征(特征向量)(步骤S104)。
接下来,响应决定部120使用当前的学习模型(储存于选择模型储存部108的学习模型),来决定与提取出的特征向量对应的针对用户发声的响应(步骤S110)。响应执行部130如上述那样执行在S110中决定的响应(步骤S120)。
图8是表示S110的处理的流程图。响应决定部120将提取出的特征向量向学习模型输入(步骤S112)。响应决定部120判定学习模型的输出(步骤S114)。
在输出为“沉默响应”的情况下(S114的“沉默”),响应决定部120决定为执行沉默响应(步骤S116A)。即,响应决定部120针对与该特征向量对应的用户发声,决定为什么也不干。另外,在输出为“点头响应”的情况下(S114的“点头”),响应决定部120决定为执行点头响应(步骤S116B)。即,响应决定部120针对与该特征向量对应的用户发声,决定为以机器人的头部纵向摇动的方式使操纵装置8动作。另外,在输出为“发声响应”的情况下(S114的“发声”),响应决定部120决定为执行发声响应(步骤S116C)。即,响应决定部120针对与该特征向量对应的用户发声,决定为以输出系统发声的方式使扬声器4动作。
接下来,响应错误判定部140如上所述那样判定响应是否是错误的(步骤S130)。在判定为响应不是错误的情况下(S130的否),处理返回至S102。另一方面,在判定为响应是错误的情况下(S130的是),响应错误判定部140将表示为检测到响应错误的错误检测触发输出至学习模型选择部150(步骤S132)。这里,错误检测触发可包括与错误的响应对应的特征向量、以及表示产生了哪个响应错误(“发声冲突”或者“长期沉默”)的数据。“与错误的响应对应的特征向量”是在从学习模型输出了被判定为错误的响应时输入至学习模型的特征向量。
学习模型选择部150判定是否在T秒内检测到N次以上的错误(步骤S134)。即,学习模型选择部150判定是否在预先决定的时段(第1时段)的期间中预先决定的多次以上判定为响应是错误。具体而言,学习模型选择部150判定表示为产生了相同种类的响应错误的错误检测触发是否在T秒内被输出N次以上。当在T秒内未检测到N次以上的错误的情况下(S134的否),处理返回至S102。另一方面,当在T秒内检测到N次以上的错误的情况下(S134的是),学习模型选择部150从储存于学习模型数据库160的多个学习模型中选择学习模型(步骤S140)。
此时,在输入了与被判定为响应错误时的响应对应的特征向量的情况下,学习模型选择部150选择如下的学习模型:不选择该被判定为响应错误的响应的概率高。例如,在输入了与被判定为“发声冲突”时的响应对应的特征向量的情况下,学习模型选择部150选择不输出发声响应的概率高的学习模型。另外,在输入了与被判定为“长期沉默”时的响应对应的特征向量的情况下,学习模型选择部150选择不输出沉默响应或者点头响应(即输出发声响应)的概率高的学习模型。这样,由于实施方式1所涉及的学习模型选择部150构成为使用与被判定为响应错误的响应对应的特征向量来选择新的学习模型,所以能够选择可进一步提高响应精度的学习模型。
另外,在输入了与在T秒内产生N次以上的响应错误对应的特征向量(N个以上的特征向量)的情况下,学习模型选择部150选择如下的学习模型:不选择发声响应的概率高。这里,在N为多个的情况下,学习模型选择部150构成为使用多个诱发响应错误的用户发声的特征向量,来选择新的学习模型。这样,通过使用多个特征向量来对学习模型进行评价,能够进一步提高所选择的学习模型的精度。
以下,针对响应错误为“发声冲突”的情况以及为“长期沉默”的情况进一步进行详细叙述。即,对在T秒内产生N次以上的“发声冲突”的情况以及在T秒内产生N次以上的“长期沉默”的情况进行说明。
图9~图11是例示发声冲突的图。在图9所示的例子中,用户发声“我一个人听的。”从对话开始的2.4秒后开始,在从对话开始起的3.9秒后结束。另外,系统发声“真的吗”在从对话开始起的3.1秒后开始,在从对话开始的4.3秒后结束。该情况下,由于在用户发声“我一个人听的。”结束之前开始了系统发声“真的吗”,所以响应错误判定部140检测到“发声冲突”。
另外,在图10所示的例子中,在用户发声“本周末,”之后紧接着用户发声“我将乘新干线去东京。”,并且系统发声“好呀”被执行为针对用户发声“本周末,”的响应。在该例中,由于在系统发声“好呀”结束之前开始了用户发声“我将乘新干线去东京。”,所以响应错误判定部140检测到“发声冲突”。其中,该发声冲突是因语音对话系统1未能判断为在用户发声“本周末,”之后进一步继续用户发声而没有句号级别的中断这一情况引起的。
另外,在图11所示的例子中,在用户发声“本周末我将乘新干线去东京。”的正当中执行了系统发声“好呀”。在该例中,由于在用户发声“本周末我将乘新干线去东京。”结束之前开始了系统发声“好呀”,所以响应错误判定部140检测到“发声冲突”。
图12是表示产生了发声冲突时的学习模型选择部150的处理(S140)的流程图。首先,学习模型选择部150从特征储存部106提取与产生了响应错误时的响应对应的特征向量(错误特征向量)(步骤S142A)。该情况下,可至少提取N个错误特征向量。例如,在图9所示的例子中,由于在特征提取部104提取了用户发声的一部分“我一个人”的特征向量时,响应决定部120决定为执行发声响应,所以用户发声“我一个人”的特征向量被提取。另外,在图10所示的例子中,用户发声“本周末,”的特征向量被提取。另外,在图11所示的例子中,由于在特征提取部104提取了用户发声的一部分“本周末”的特征向量时,响应决定部120决定为执行发声响应,所以用户发声“本周末”的特征向量被提取。
接下来,学习模型选择部150将通过S142A的处理提取出的错误特征向量分别向储存于学习模型数据库160的学习模型#1~#M输入(步骤S144A)。然后,学习模型选择部150选择不输出“发声响应”的概率高的学习模型(步骤S146A)。即,学习模型选择部150选择输出“沉默响应”或者“点头响应”的概率高的学习模型。
例如,设N=3、M=3。而且,假设在使用学习模型#1时产生了发声冲突。该情况下,将三个错误特征向量输入至学习模型#1时学习模型#1输出“发声响应”的次数为3次。该情况下,不输出“发声响应”的概率为0/3。另外,假设在将三个错误特征向量输入至学习模型#2时学习模型#2输出“发声响应”的次数为2次。该情况下,不输出“发声响应”的概率为1/3。另外,假设在将三个错误特征向量输入至学习模型#3时学习模型#3输出“发声响应”的次数为1次。该情况下,不输出“发声响应”的概率为2/3。该情况下,学习模型选择部150选择输出“发声响应”的次数最少的学习模型、即不输出“发声响应”的概率最高的学习模型#3。
此外,在能够检测到输出“发声响应”的次数为0次的学习模型、即不输出“发声响应”的概率为100%的学习模型时,学习模型选择部150也可以停止进行处理而省略针对其他学习模型的处理。另外,学习模型选择部150也可以选择输出“发声响应”的次数为预先决定的阈值以下的任意学习模型、即不输出“发声响应”的概率为预先决定的阈值以上的任意学习模型。
这样,在产生了发声冲突的响应错误时,实施方式1所涉及的语音对话系统1能够重新选择针对引发发声冲突的用户发声的特征向量不输出发声响应那样的学习模型。因此,实施方式1所涉及的语音对话系统1能够抑制发声冲突的产生。
图13是例示长期沉默的图。在该例中,假设在用户发声与系统发声之间存在Ts秒钟(第2时段)以上的沉默。而且,假设Ts=2.5(sec)。在图13所示的例子中,用户发声“我一个人听的。”在从对话开始起的2.4秒后开始,并在从对话开始的3.9秒后结束。另外,系统发声“真的吗”在从对话开始起的6.5秒后开始,并在从对话开始的7.3秒后结束。该情况下,由于在从用户发声“我一个人听的。”结束到系统发声“真的吗”开始为止的时段是2.6秒,沉默持续得比Ts秒钟长,所以响应错误判定部140检测到“长期沉默”。
图14是表示产生了长期沉默时的学习模型选择部150的处理(S140)的流程图。首先,学习模型选择部150从特征储存部106提取与产生了响应错误时的响应对应的特征向量(错误特征向量)(步骤S142B)。该情况下,可以提取至少N个错误特征向量。例如,在图13所示的例子中,由于在特征提取部104提取了用户发声的一部分“我一个人听的。”的特征向量时,响应决定部120决定为执行沉默响应,所以用户发声“我一个人听的。”的特征向量被提取。
接下来,学习模型选择部150将通过S142B的处理提取出的错误特征向量分别向储存于学习模型数据库160的学习模型#1~#M输入(步骤S144B)。然后,学习模型选择部150选择输出“发声响应”的概率高的学习模型(步骤S146B)。
例如,设N=3、M=3。而且,假设在使用学习模型#1时产生了长期沉默。该情况下,在将三个错误特征向量输入至学习模型#1时学习模型#1输出“发声响应”的次数为0次。该情况下,输出“发声响应”的概率为0/3。另外,假设在将三个错误特征向量输入至学习模型#2时学习模型#2输出“发声响应”的次数为1次。该情况下,输出“发声响应”的概率为1/3。另外,假设在将三个错误特征向量输入至学习模型#3时学习模型#3输出“发声响应”的次数为2次。该情况下,输出“发声响应”的概率为2/3。该情况下,学习模型选择部150选择输出“发声响应”的次数最多的学习模型、即输出“发声响应”的概率最高的学习模型#3。
此外,在能够检测到不输出“发声响应”的次数为0次的学习模型、即输出“发声响应”的概率为100%的学习模型时,学习模型选择部150也可以停止进行处理而省略针对其他学习模型的处理。另外,学习模型选择部150也可以选择不输出“发声响应”的次数为预先决定的阈值以下的任意学习模型、即输出“发声响应”的概率为预先决定的阈值以上的任意学习模型。
这样,在产生了长期沉默的响应错误时,实施方式1所涉及的语音对话系统1能够重新选择对于引发长期沉默的用户发声的特征向量输出发声响应那样的学习模型。因此,实施方式1所涉及的语音对话系统1能够抑制长期沉默的产生。
(实施方式2)
接下来,对实施方式2进行说明。在实施方式2中与实施方式1的不同点在于语音对话系统1生成多个学习模型。其中,关于实施方式2所涉及的语音对话系统1的硬件结构,由于与图1所示的实施方式1所涉及的语音对话系统1的硬件结构实质相同,因此省略说明。
图15是表示实施方式2所涉及的语音对话系统1的结构的框图。实施方式2所涉及的语音对话系统1具有发声取得部102、特征提取部104、特征储存部106、选择模型储存部108、响应数据库110、响应决定部120、响应执行部130、以及响应历史记录储存部132。并且,实施方式2所涉及的语音对话系统1具有响应错误判定部140、学习模型选择部150、学习模型数据库160、以及学习模型生成部210。对于学习模型生成部210以外的构成要素,由于具有与实施方式1所涉及的构成要素实质相同的功能,因此省略说明。
此外,学习模型生成部210不需要与其他的构成要素在物理上成为一体。即,设置有其他构成要素的装置(机器人等)与设置有学习模型生成部210的装置(计算机等)无需是相同的。以下,对学习模型生成部210的具体功能进行说明。其中,学习模型生成部210的处理(后述的图16的处理)对应于图4~图6,在与用户对话(图7的处理)的前阶段进行。
图16是表示实施方式2所涉及的学习模型生成部210的处理的流程图。首先,学习模型生成部210取得为了生成学习模型所需的取样数据(步骤S200)。这里,在实施方式2中,也可以通过如图4所示那样由操作者赋予正确标签,从而生成图5所例示那样的特征向量与正确标签建立了关联的取样数据组。
图17是例示取样数据组的图。假设图17所例示的取样数据组包含用户A~用户Z这26个人的取样数据。在各取样数据中,与用户A~用户Z各自的用户发声对应的特征向量和正确标签相关联。
接下来,学习模型生成部210通过Mc种的方法对取样数据进行分类(步骤S202)。这里,分类方法可以是随机的分类方法,可以是按每个用户的分类方法,也可以是按生成取样数据时的每个话题的分类方法。在以下所示的例子中,假设针对每个用户随机进行分类。即,假设关于某一用户的多个取样数据被集中分类(即关于某一用户的多个取样数据未被分开分类)。
图18是表示取样数据被分类的例子的图。在图18所示的例子中,通过10种(Mc=10)的分类法来对取样数据进行分类。因此,通过按分类法#1~分类法#10每一个不同的方法来对图17所例示的取样数据进行分类。另外,在图18所例示的方法中,通过各分类法将取样数据分类成2~5个组。例如,在分类法#1中,取样数据被分类成2个组。在分类法#10中,被分类成三个组。
接下来,学习模型生成部210计算分类法#1~#Mc各自的精度(步骤S204)。具体而言,学习模型生成部210计算分别使用分类法#1~#Mc而生成的学习模型的精度。更具体而言,关于各分类法,学习模型生成部210针对各组应用k折交叉验证而按每一组生成学习模型,并计算这些学习模型的精度。而且,学习模型生成部210将对于组的精度的平均后的值作为该分类法的精度。
例如,关于图18所示的例子,学习模型生成部210针对分类法#1计算组#1以及组#2的精度。此时,学习模型生成部210将组#1的取样数据组分割成K个子组。而且,学习模型生成部210通过将其中一个子组的取样数据使用为测试数据,并将剩下的K-1个子组的取样数据使用为训练数据,来通过机器学习生成验证用学习模型。学习模型生成部210利用作为测试数据的取样数据对所生成的验证用学习模型进行验证。即,学习模型生成部210向验证用学习模型输入测试数据,计算出可得到与正确标签一致的响应的概率(一致度)。学习模型生成部210在改变作为测试数据的子组的同时进行K次该处理。由此,学习模型生成部210计算出组#1的精度(成为正确标签的概率)。
学习模型生成部210对组#2也进行相同的处理。而且,学习模型生成部210将组#1的精度以及组#2的精度平均化来计算分类法#1的精度。例如,若组#1的精度为68%,组#2的精度为70%,则分类法#1的精度为69%。学习模型生成部210对其他的分类法#2~#10也进行相同的处理,来计算出各分类法的精度。
接下来,学习模型生成部210选择精度最高的分类法#j(步骤S206)。学习模型生成部210针对选择出的分类法#j的组分别生成学习模型(步骤S208)。例如,在图18所示的例子中,若分类法#10的精度为75%且为最高,则学习模型生成部210选择分类法#10。而且,学习模型生成部210分别使用分类法#10的组#1~#3来生成学习模型。即,使用组#1的取样数据来生成一个学习模型,使用组#2的取样数据来生成一个学习模型,并使用组#3的取样数据来生成一个学习模型。因此,在该例中,生成三个学习模型。这样,可生成多个学习模型。在实施方式2中,通过如此生成学习模型,能够预先生成多个精度高的学习模型。因此,在重新选择学习模型时,能够进行响应精度更高的对话。
(实施方式3)
接下来,对实施方式3进行说明。在实施方式3中与其他实施方式的不同点在于,语音对话系统1自主地收集取样数据。此外,对于实施方式3所涉及的语音对话系统1的硬件结构,由于与图1所示的实施方式1所涉及的语音对话系统1的结构实质相同,因此省略说明。在实施方式1以及实施方式2中,如图4所示,通过操作者的操作来向特征向量赋予了正确标签,但在实施方式3中,语音对话系统1自主地向用户发声的特征向量赋予正确标签。这里,在实施方式3中,语音对话系统1能够使用图2所示的构成要素来自主地收集取样数据。然而,与语音对话系统1不同的系统(自律型机器人)也可以自主地收集取样数据。
图19是表示实施方式3所涉及的语音对话系统1的结构的框图。实施方式3所涉及的语音对话系统1具有发声取得部102、特征提取部104、特征储存部106、选择模型储存部108、响应数据库110、响应决定部120、响应执行部130、以及响应历史记录储存部132。并且,实施方式3所涉及的语音对话系统1具有响应错误判定部140、学习模型选择部150、学习模型数据库160、以及数据取得部310。对于数据取得部310以外的构成要素,由于具有与实施方式1所涉及的构成要素实质相同的功能,所以省略说明。
图20是表示由实施方式3所涉及的语音对话系统1进行的取样数据的取得方法的流程图。首先,发声取得部102与图7的S102的处理相同地取得用户发声(步骤S302)。特征提取部104与图7的S104的处理相同地针对所取得的用户发声提取特征(特征向量)(步骤S304)。
接下来,与图7的S110的处理同样,响应决定部120使用某一判别模型来决定与提取出的特征向量对应的响应(步骤S310)。其中,S310中使用的判别模型可以是预先通过机器学习等生成的学习模型,但也可以不储存于学习模型数据库160。响应执行部130与图7的S120的处理相同地执行在S310中决定的响应(步骤S320)。
响应错误判定部140与图7的S130的处理相同地判定响应是否是错误的(步骤S330)。当判定为响应是错误的情况下(S330的是),数据取得部310取得对特征向量赋予了不正确标签而成的取样数据(步骤S332)。另一方面,在判定为响应不是错误的情况下(S330的否),数据取得部310取得对特征向量赋予了正确标签的取样数据(步骤S334)。而且,在用户发声未结束的情况下(步骤S336的否),处理返回至S302。
图21是用于对通过实施方式3所涉及的语音对话系统1执行的取样数据的取得方法进行说明的图。语音对话系统1使用一些判别模型,根据用户发声“最终”来输出作为发声响应的系统发声R1“真的吗”。而且,语音对话系统1的响应错误判定部140判定为该系统发声R1是响应错误(发声冲突)(S330的是)。因此,数据取得部310取得对用户发声“最终”的特征向量赋予了不正确标签的取样数据(S332)。另外,语音对话系统1使用一些判别模型,根据用户发声“我一个人听的。”来输出作为发声响应的系统发声R2“真的吗”。而且,语音对话系统1的响应错误判定部140判定为该系统发声R1不是响应错误(S330的否)。因此,数据取得部310取得对用户发声“我一个人听的。”的特征向量赋予了正确标签的取样数据(S334)。
图22以及图23是例示实施方式3所涉及的在学习模型的生成(图6、图16)中使用的取样数据的图。在图22所示的取样数据组中,将被赋予了不正确标签的关于用户发声“最终”的取样数据除去。另外,在图23所示的取样数据组中,对关于用户发声“最终”的取样数据赋予了不正确标签“not C”。在实施方式3中,使用图22所示的取样数据组或者图23所示的取样数据组来执行机器学习而生成学习模型。
这样,实施方式3所涉及的语音对话系统1能够自主地取得取样数据。因此,不需要操作者的操作就能够取得取样数据。并且,通过使用储存于学习模型数据库160的学习模型来自主地取得取样数据,能够对于该学习模型进行在线学习,从而对学习模型进行更新。因此,实施方式3所涉及的语音对话系统1能够高效地生成学习模型。
(变形例)
此外,本发明并不限定于上述实施方式,能够在不脱离主旨的范围内适当地进行变更。例如,在上述的流程图中,能够适当地变更多个处理的顺序。另外,在上述的流程图中,也可以省略多个处理中的一个。
另外,上述的实施方式能够相互进行应用。例如,实施方式3也能够应用于实施方式2。即,语音对话系统1也可以具有学习模型生成部210以及数据取得部310,学习模型生成部210可以使用由数据取得部310取得的取样数据来生成学习模型。
另外,在图7的S134的处理中,N次的响应错误无需是相同的种类。即,在S134的处理中,可以判定“发声冲突”的次数以及“长期沉默”的次数的总计是否为N次以上。例如,在N=3的情况下,可以在检测到2次“发声冲突”、1次“长期沉默”时,通过S140的处理来选择学习模型。该情况下,学习模型选择部150进行将图12的处理与图14的处理组合在一起的处理。具体而言,学习模型选择部150选择当输入了与已成为“发声冲突”的响应对应的特征向量时不输出“发声响应”、当输入了与已成为“长期沉默”的响应对应的特征向量时输出“发声响应”的概率高的学习模型。
例如,假设在N=3、M=3的情况下,检测到2次“发声冲突”、1次“长期沉默”。而且,假设在使用学习模型#1时产生了发声冲突。在该例中,假设将与2个“发声冲突”有关的错误特征向量输入至学习模型#2时学习模型#2不输出“发声响应”的次数为1次。而且,假设将与1个“长期沉默”有关的错误特征向量输入至学习模型#2时学习模型#2输出“发声响应”的次数为1次。该情况下,关于学习模型#2的不输出已成为响应错误的响应的概率为2/3。另外,假设在将与2个“发声冲突”有关的错误特征向量输入至学习模型#3时学习模型#3不输出“发声响应”的次数为0次。而且,假设在将与1个“长期沉默”有关的错误特征向量输入至学习模型#3时学习模型#3输出“发声响应”的次数为1次。该情况下,关于学习模型#3的不输出已成为响应错误的响应的概率为1/3。该情况下,学习模型选择部150选择输出已成为响应错误的响应的次数最少的学习模型、即不输出已成为响应错误的响应的概率最高的学习模型#2。
另外,在上述的实施方式中,仅根据非语言信息来决定针对用户发声的响应,但并不限定于这样的结构。也可以使用运用了用户发声的语言信息的句法解析来识别用户发声的含义内容,并执行与该含义内容对应的系统发声。然而,由于如上所述,句法解析所需的时间与非语言信息的解析所需的时间相比较长,所以通过仅使用非语言信息的解析,能够实现更加实时的对话。
另外,在上述的实施方式中,示出了语音对话系统1被搭载于机器人的例子,但不限定于这样的结构。语音对话系统1也能够搭载于智能手机或者平板终端等信息终端。该情况下,在进行“点头响应”时,可以代替使操纵装置8动作而在信息终端的显示画面显示人物、动物、或者机器人等点头那样的动画。
另外,在上述的例子中,使用各种类型的非暂时性的计算机可读介质(non-transitory computer readable medium)来储存程序,并能够向计算机供给程序。非暂时性的计算机可读介质包括各种类型的具有实体的记录介质(tangible storage medium)。非暂时性的计算机可读介质的例子包括磁记录介质(例如软盘、磁带、硬盘驱动器)、光磁记录介质(例如光磁盘)、CD-ROM、CD-R、CD-R/W、半导体存储器(例如,掩模ROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、闪存ROM、RAM)。另外,程序也可以通过各种类型的暂时性的计算机可读介质(transitory computer readable medium)提供给计算机。暂时性的计算机可读介质的例子包括电信号、光信号、以及电磁波。暂时性的计算机可读介质能够经由电线以及光纤等有线通信路或者无线通信路而将程序供给至计算机。
根据如此描述的公开内容,显而易见的是本公开的实施例可以以多种方式进行变更。这些变更不应被视为脱离本公开的精神和范围,并且对于本领域技术人员来说显而易见的是所有这些修改都包括在技术方案的范围内。

Claims (9)

1.一种语音对话系统,与用户进行使用了声音的对话,其中,具有:
发声取得部,取得所述用户的发声亦即用户发声;
特征提取部,提取所述取得的用户发声的特征;
响应决定部,使用预先通过机器学习而生成的多个学习模型中的任一个,来决定与所述提取出的特征对应的响应;
响应执行部,进行用于执行所述决定出的响应的控制;
响应错误判定部,根据针对所述用户发声的所述执行的响应的时机或者针对所述执行的响应的所述用户发声的时机,来判定所述执行的响应是否是错误的;以及
学习模型选择部,根据所述响应错误判定部的判定结果,从所述多个学习模型中选择所述学习模型,
所述响应决定部使用由所述学习模型选择部选择出的学习模型来决定所述响应。
2.根据权利要求1所述的语音对话系统,其中,
所述学习模型选择部选择如下的学习模型:在输入了与被判定为是所述错误时的所述响应对应的特征的情况下,不选择被判定为所述错误的响应的概率高的学习模型。
3.根据权利要求2所述的语音对话系统,其中,
当在预先决定的第1时段的期间预先决定的多次以上地判定为所述响应是错误的时候,所述学习模型选择部选择如下的学习模型:在输入了与被判定为是所述错误时的所述响应对应的特征的情况下,不选择被判定为所述错误的响应的概率高的学习模型。
4.根据权利要求3所述的语音对话系统,其中,
在所述用户发声的中途由所述响应执行部执行了发声响应的情况下、或者在由所述响应执行部执行发声响应的中途产生了所述用户发声的情况下,所述响应错误判定部判定为所述响应是发声冲突的错误,
所述学习模型选择部选择如下的学习模型:在输入了与被判定为是所述发声冲突的错误时的所述响应对应的特征的情况下,不输出所述发声响应的概率高的学习模型。
5.根据权利要求3或4所述的语音对话系统,其中,
在从所述用户发声结束到由所述响应执行部执行发声响应为止的时段为预先决定的第2时段以上的情况下,所述响应错误判定部判定为所述响应是长期沉默的错误,
所述学习模型选择部选择如下的学习模型:在输入了与被判定为是所述长期沉默的错误时的所述响应对应的特征的情况下,输出所述发声响应的概率高的学习模型。
6.根据权利要求1~5中任一项所述的语音对话系统,其中,
所述语音对话系统还具有生成多个学习模型的学习模型生成部,
所述学习模型生成部通过多个分类法对在所述学习模型的生成中使用的取样数据组进行分类,
所述学习模型生成部通过对于所述多个分类法的每一个计算出针对分类而得到的多个组的每一个进行机器学习所获得的学习模型的精度,来计算所述多个分类法各自的精度,并使用通过所述精度为最高的分类法分类而成的所述多个组的每一个来生成多个学习模型。
7.根据权利要求1~6中任一项所述的语音对话系统,其中,
所述语音对话系统还具有取得用于生成所述学习模型的取样数据的数据取得部,
在所述数据取得部取得所述取样数据时,
所述发声取得部取得用于取得取样数据的所述用户发声,
所述特征提取部提取所述取得的用户发声的特征,
所述响应决定部使用预先通过机器学习而生成的判别模型,来决定与所述提取出的特征对应的响应,
所述响应执行部进行用于执行所述决定出的响应的控制,
所述响应错误判定部判定针对用于取得所述取样数据的用户发声执行了的响应是否是错误的,
在针对用于取得所述取样数据的用户的发声执行了的响应是错误的情况下,所述数据取得部通过对与该用户发声对应的特征赋予不正确标签,来取得所述取样数据。
8.一种语音对话方法,使用语音对话系统来进行,该语音对话系统与用户进行使用了声音的对话,在所述语音对话方法中,
取得所述用户的发声亦即用户发声,
提取所述取得的用户发声的特征,
使用预先通过机器学习而生成的多个学习模型中的任一个,来决定与所述提取出的特征对应的响应,
进行用于执行所述决定出的响应的控制,
根据针对所述用户发声的所述执行的响应的时机或者针对所述执行的响应的所述用户发声的时机,来判定所述执行的响应是否是错误的,
根据所述判定的结果,从所述多个学习模型中选择所述学习模型,
使用所述选择出的学习模型来决定所述响应。
9.一种计算机可读介质,其中,储存有执行使用语音对话系统来进行的语音对话方法的程序,该语音对话系统与用户进行使用了声音的对话,
所述程序使计算机执行如下步骤:
取得所述用户的发声亦即用户发声的步骤;
提取所述取得的用户发声的特征的步骤;
使用预先通过机器学习而生成的多个学习模型中的任一个,来决定与所述提取出的特征对应的响应的步骤;
进行用于执行所述决定出的响应的控制的步骤;
根据针对所述用户发声的所述执行的响应的时机或者针对所述执行的响应的所述用户发声的时机,来判定所述执行的响应是否是错误的步骤;
根据所述判定的结果,从所述多个学习模型中选择所述学习模型的步骤;以及
使用所述选择出的学习模型来决定所述响应的步骤。
CN201910354070.XA 2018-05-11 2019-04-29 语音对话系统、语音对话方法以及程序 Active CN110473533B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018092139A JP6969491B2 (ja) 2018-05-11 2018-05-11 音声対話システム、音声対話方法及びプログラム
JP2018-092139 2018-05-11

Publications (2)

Publication Number Publication Date
CN110473533A CN110473533A (zh) 2019-11-19
CN110473533B true CN110473533B (zh) 2023-03-10

Family

ID=65991549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910354070.XA Active CN110473533B (zh) 2018-05-11 2019-04-29 语音对话系统、语音对话方法以及程序

Country Status (5)

Country Link
US (1) US10971149B2 (zh)
EP (1) EP3567586B1 (zh)
JP (1) JP6969491B2 (zh)
KR (1) KR102217917B1 (zh)
CN (1) CN110473533B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11568135B1 (en) * 2020-09-23 2023-01-31 Amazon Technologies, Inc. Identifying chat correction pairs for training models to automatically correct chat inputs
US11676593B2 (en) 2020-12-01 2023-06-13 International Business Machines Corporation Training an artificial intelligence of a voice response system based on non_verbal feedback
US11798551B2 (en) * 2021-03-25 2023-10-24 Bank Of America Corporation System and method for voice controlled automatic information access and retrieval
WO2022215104A1 (ja) * 2021-04-05 2022-10-13 三菱電機株式会社 音声対話装置および音声対話方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352154A (ja) * 2004-06-10 2005-12-22 National Institute Of Information & Communication Technology 感情状態反応動作装置
CN1731509A (zh) * 2005-09-02 2006-02-08 清华大学 移动语音合成方法
JP2007072331A (ja) * 2005-09-09 2007-03-22 Matsushita Electric Ind Co Ltd 音声対話方法および音声対話システム
JP2009003040A (ja) * 2007-06-20 2009-01-08 Univ Waseda 音声対話装置、音声対話方法及びロボット装置
CN106448670A (zh) * 2016-10-21 2017-02-22 竹间智能科技(上海)有限公司 基于深度学习和强化学习的自动回复对话系统
CN108010523A (zh) * 2016-11-02 2018-05-08 松下电器(美国)知识产权公司 信息处理方法以及记录介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004027685A2 (en) * 2002-09-19 2004-04-01 The Penn State Research Foundation Prosody based audio/visual co-analysis for co-verbal gesture recognition
JP2005221679A (ja) * 2004-02-04 2005-08-18 Advanced Telecommunication Research Institute International 発話スタイル評価装置及び発話スタイル分類装置
KR100612839B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 도메인 기반 대화 음성인식방법 및 장치
US7542903B2 (en) * 2004-02-18 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for determining predictive models of discourse functions
KR100622019B1 (ko) * 2004-12-08 2006-09-11 한국전자통신연구원 음성 인터페이스 시스템 및 방법
JP5119055B2 (ja) 2008-06-11 2013-01-16 日本システムウエア株式会社 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
JP5703491B2 (ja) * 2010-01-26 2015-04-22 国立大学法人山梨大学 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置
JP5431282B2 (ja) * 2010-09-28 2014-03-05 株式会社東芝 音声対話装置、方法、プログラム
JP2015087718A (ja) 2013-11-01 2015-05-07 トヨタ自動車株式会社 音声対話システム及び音声対話方法
JP2017102247A (ja) 2015-12-01 2017-06-08 国立研究開発法人産業技術総合研究所 音声対話システム、音声対話制御法およびプログラム
JP2017125921A (ja) 2016-01-13 2017-07-20 日本電信電話株式会社 発話選択装置、方法、及びプログラム
JP6461058B2 (ja) * 2016-09-06 2019-01-30 国立大学法人京都大学 音声対話装置および音声対話装置を用いた自動対話方法
JP6515897B2 (ja) * 2016-09-28 2019-05-22 トヨタ自動車株式会社 音声対話システムおよび発話意図理解方法
JP6731326B2 (ja) * 2016-10-31 2020-07-29 ファーハット ロボティクス エービー 音声対話装置及び音声対話方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352154A (ja) * 2004-06-10 2005-12-22 National Institute Of Information & Communication Technology 感情状態反応動作装置
CN1731509A (zh) * 2005-09-02 2006-02-08 清华大学 移动语音合成方法
JP2007072331A (ja) * 2005-09-09 2007-03-22 Matsushita Electric Ind Co Ltd 音声対話方法および音声対話システム
JP2009003040A (ja) * 2007-06-20 2009-01-08 Univ Waseda 音声対話装置、音声対話方法及びロボット装置
CN106448670A (zh) * 2016-10-21 2017-02-22 竹间智能科技(上海)有限公司 基于深度学习和强化学习的自动回复对话系统
CN108010523A (zh) * 2016-11-02 2018-05-08 松下电器(美国)知识产权公司 信息处理方法以及记录介质

Also Published As

Publication number Publication date
US20190348038A1 (en) 2019-11-14
KR102217917B1 (ko) 2021-02-19
EP3567586B1 (en) 2020-10-14
JP2019197182A (ja) 2019-11-14
CN110473533A (zh) 2019-11-19
EP3567586A1 (en) 2019-11-13
KR20190129731A (ko) 2019-11-20
US10971149B2 (en) 2021-04-06
JP6969491B2 (ja) 2021-11-24

Similar Documents

Publication Publication Date Title
CN110473533B (zh) 语音对话系统、语音对话方法以及程序
US10388279B2 (en) Voice interaction apparatus and voice interaction method
JP7063779B2 (ja) 音声対話システム、音声対話方法、プログラム、学習モデル生成装置及び学習モデル生成方法
JP6731326B2 (ja) 音声対話装置及び音声対話方法
KR970001165B1 (ko) 대화자 훈련의 음성 인식기 및 그 사용방법
JP4322785B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP6654611B2 (ja) 成長型対話装置
JP6436088B2 (ja) 音声検出装置、音声検出方法及びプログラム
US20210183362A1 (en) Information processing device, information processing method, and computer-readable storage medium
CN112002349B (zh) 一种语音端点检测方法及装置
KR20210130024A (ko) 대화 시스템 및 그 제어 방법
KR20190069992A (ko) 음성 발화 양식을 이용한 발화자 감정인식 방법 및 시스템
CN111326173B (zh) 语音信息处理方法、装置、电子设备以及可读存储介质
JP2018132623A (ja) 音声対話装置
JP2005128130A (ja) 音声認識装置、音声認識方法及びプログラム
CN111354358B (zh) 控制方法、语音交互装置、语音识别服务器、存储介质和控制系统
KR20160109942A (ko) 실시간 단어별 지속시간 모델링을 이용한 발화검증 장치 및 방법
JP2020008730A (ja) 感情推定システムおよびプログラム
JP2020091435A (ja) 音声認識システム、音声認識システムの通知方法、プログラム、及び移動体搭載機器
US11922927B2 (en) Learning data generation device, learning data generation method and non-transitory computer readable recording medium
JP5066668B2 (ja) 音声認識装置、およびプログラム
KR20230013826A (ko) 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 장치 및 방법
JP2000310998A (ja) 音声認識装置及び音声認識方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant