CN111354351A - 控制装置、语音交互装置、语音识别服务器以及存储介质 - Google Patents

控制装置、语音交互装置、语音识别服务器以及存储介质 Download PDF

Info

Publication number
CN111354351A
CN111354351A CN201911225321.0A CN201911225321A CN111354351A CN 111354351 A CN111354351 A CN 111354351A CN 201911225321 A CN201911225321 A CN 201911225321A CN 111354351 A CN111354351 A CN 111354351A
Authority
CN
China
Prior art keywords
voice recognition
voice
recognition model
speech
estimated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911225321.0A
Other languages
English (en)
Other versions
CN111354351B (zh
Inventor
渡部生圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of CN111354351A publication Critical patent/CN111354351A/zh
Application granted granted Critical
Publication of CN111354351B publication Critical patent/CN111354351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及控制装置、语音交互装置、语音识别服务器以及存储介质。一种控制装置,其包括:计算单元,该计算单元被配置成控制包括语音识别模型的语音交互装置,其中,当与对象者的会话开始时,计算单元指示语音交互装置以通过从语音识别模型中已经暂时选择的一个语音识别模型来首先执行语音识别和响应生成,基于对象者在语音识别服务器中的话语的语音识别结果来确定在语音交互装置中保持的语音识别模型中的被估计为最佳的语音识别模型,并且当被估计为最佳的语音识别模型和已经被暂时选择的一个语音识别模型彼此不同时,指示语音交互装置以将语音识别模型切换到被估计为最佳的语音识别模型并执行语音识别和响应生成。

Description

控制装置、语音交互装置、语音识别服务器以及存储介质
技术领域
本公开涉及一种控制装置、语音交互装置、语音识别服务器以及程序。
背景技术
已知一种语音交互系统,其用于分析作为会话伙伴的对象者(用户)发出的话语,掌握话语的含义和内容,根据话语的类型生成响应,并且通过语音或文本将响应呈现给语音对象识别对象者。日本未经审查的专利申请特开No.2018-109663和2018-045190公开语音交互系统,该语音交互系统被配置成通过语音识别的精度较高的服务器侧和响应速度较高的本地(终端设备)侧以划分方式执行会话处理。
发明内容
在日本未经审查的专利申请特开No.2018-109663和第2018-045190中公开的技术中,为了提高响应的准确性,需要在服务器侧执行语音识别和响应生成。然而,在这种情况下,存在由于终端设备与服务器之间的通信速率的限制而做出响应所花费的时间相对较长的问题。在日本未经审查的专利申请特开No.2018-045190中,在对象者已经发言之后发送服务器生成的响应所需的时间段(延迟时间段)中,语音交互系统通过以诸如做出令人满意的回应或重复对象者的话语的这种简单的方式响应来赢得时间。但是,当语音交互系统在每个延迟时间段做出响应以赢得时间时,会话变成不自然的会话,并且可能无法充分缓解对象者在延迟时间段内感到的压力。
鉴于上述情况做出本公开,并且本公开旨在提供一种语音交互装置的控制装置、语音交互装置、语音识别服务器以及程序,其能够减少响应所需时间并减少会话的不自然感。
根据本公开的一个实施例的控制装置包括:计算单元,该计算单元被配置成控制包括多个语音识别模型的语音交互装置,其中,当与对象者的会话开始时,计算单元指示语音交互装置通过从多个语音识别模型中已经暂时选择的一个语音识别模型来首先执行语音识别和响应生成,基于在语音识别服务器中的对象者发出的话语的语音识别结果来确定在语音交互装置中保持的多个语音识别模型中被估计为最佳的语音识别模型,并且当被估计为最佳的语音识别模型和已经被暂时选择的一个语音识别模型彼此不同时,指示语音交互装置以将语音识别模型切换到被估计为最佳的语音识别模型并执行语音识别和响应生成。
当与对象者的会话开始时,控制装置的计算单元指示语音交互装置以通过已经从被包括在语音交互装置中的多个语音识别模型中暂时选择的一个语音识别模型来首先执行语音识别和响应生成。根据该过程,可以减少语音交互装置的响应所需的时间。然后,计算单元基于关于在语音识别服务器中对象者的话语的语音识别的结果,确定在语音交互装置中保持的多个语音识别模型当中的被估计为最佳的语音识别模型。暂时选择的一个语音识别模型被切换为基于语音识别服务器的语音识别结果估计为最佳的确定的语音识别模型,其中语音识别的准确性很高,由此,可以减少响应的不自然。
此外,已经被暂时选择的语音识别模型优选地是基于过去的会话信息已经被确定为包括在语音交互装置中的多个语音识别模型当中的最频繁使用的语音识别模型。根据该技术,可以降低已经被暂时选择的一个语音识别模型的响应给予对象者陌生感的程度。
此外,当语音交互装置将语音识别模型切换到估计为最佳的语音识别模型时,计算单元优选使语音交互装置将语音识别模型从其与已经暂时选择的一个语音识别模型的相似度水平高的语音识别模型按阶段地切换成被估计为最佳的语音识别模型。根据该技术,与语音识别模型突然切换到被估计为最佳的模型的情况相比,可以减少对象者在会话中感觉到的陌生感。
此外,在确定被估计为最佳的语音识别模型时,计算单元优选地考虑关于对象者的语音以外的信息。当确定估计为最佳的语音识别模型时考虑该信息,从而可以增加所确定的语音识别模型为最佳的可能性。
根据本公开的一个实施例的语音交互装置包括:多个语音识别模型和控制器,其中,当与对象者的会话开始时,控制器通过从多个语音识别模型当中的已经暂时选择的一个语音识别模型来首先执行语音识别和响应生成,基于在语音识别服务器中的对象者发出的话语的语音识别结果来确定在多个语音识别模型中被估计最佳的语音识别模型,并且当被估计为最佳的语音识别模型和已经暂时选择的一个语音识别模型彼此不同时,将语音识别模型切换为被估计为最佳的语音识别模型并执行语音识别和响应生成。因此,可以减少响应所需的时间并减少会话的不自然感。
根据本公开的一个实施例的语音识别服务器包括:控制器,其中,当与对象者的会话开始时,该控制器指示包括多个语音识别模型的语音交互装置通过从多个语音识别模型中的已经暂时选择的一个语音识别模型来首先执行语音识别和响应生成,基于对象者发出的话语的语音识别的结果来确定在语音交互装置中保持的多个语音识别模型当中的被估计为最佳的语音识别模型,并且当被估计为最佳的语音识别模型与已经暂时选择的一个语音识别模型彼此不同时,指示语音交互装置以将语音识别模型切换到被估计为最佳的模型并且执行语音识别和响应生成。因此,可以减少响应所需的时间并减少会话的不自然感。
根据本公开的一个实施例的程序是用于使计算机执行用于控制包括多个语音识别模型的语音交互装置的处理过程的程序,该处理过程包括:用于当与对象者的会话开始时,指示语音交互装置通过从多个语音识别模型中的已经暂时选择的一个语音识别模型来首先执行语音识别和响应生成的处理过程;用于基于在语音识别服务器中的由对象者发出的话语的语音识别的结果来确定在语音交互装置中保持的多个语音识别模型当中的被估计为最佳的语音识别模型的处理过程;以及用于当被估计为最佳的语音识别模型与已经暂时选择的一个语音识别模型彼此不同时,指示语音交互装置以将语音识别模型切换到被估计为最佳的语音识别模型并且执行语音识别和响应生成。因此,可以减少响应所需的时间并减少会话的不自然感。
根据本公开,可以减少响应所需的时间并减少会话的不自然感。
通过以下给出的详细描述和仅以图示的方式给出的附图,本公开的上述和其他目的、特征和优点将变得被更加充分地理解,并且因此不应视为限制本公开。
附图说明
图1是用于描述包括根据第一实施例的控制装置的语音交互系统的配置的框图;
图2是示出包括被合并在其中的根据第一实施例的控制装置的语音交互机器人的外观的一个示例的示意图;
图3是示出存储在语音交互系统中包括的语音交互装置的存储单元中的数据库的一个示例的示意图;
图4是示出存储在语音交互系统中包括的语音识别服务器的存储单元中的数据库的一个示例的示意图;
图5是示出根据第一实施例的控制装置的处理流程的流程图;
图6是用于描述包括根据第二实施例的语音交互装置的语音交互系统的配置的框图;以及
图7是用于描述包括根据第三实施例的语音识别服务器的语音交互系统的配置的框图。
具体实施方式
在下文中,尽管将参考本公开的实施例描述本公开,但是根据权利要求的公开不限于以下实施例。此外,以下实施例中描述的所有组件对于解决问题的手段不一定是必不可少的。为了使描述清楚,以下描述和附图被适当地省略和简化。在附图中,相同的组件由相同的附图标记表示,并且根据需要省略重复的描述。
[第一实施例]
首先,将解释包括根据第一实施例的控制装置的语音交互系统的配置。
图1是用于描述包括根据第一实施例的控制装置30的语音交互系统1的配置的框图。如图1中所示,语音交互系统1包括语音交互机器人10和语音识别服务器40。
语音交互机器人10包括合并在其中的语音交互装置20和控制装置30。此外,语音交互机器人10包括麦克风11、扬声器12和通信单元13。
图2是示出包括被合并在其中的图1示出的语音交互装置20和控制装置30的语音交互机器人10的外观的一个示例的示意图。如图2中所示,模仿动物外观的语音交互机器人10包括头部10a和身体部10b。麦克风11以隐藏的方式布置在头部10a的期望位置。扬声器12以隐藏的方式布置在与语音交互机器人10的嘴相对应的位置。
麦克风11用作被配置成向语音交互装置20输入作为语音交互机器人10的会话伙伴的对象者的话语语音。具体地,麦克风11收集对象者的话语语音,将收集的语音转换成语音信号,并且将该语音信号传递给语音交互装置20。
扬声器12用作输出单元,该输出单元发出由语音交互装置20生成的语音。具体地,扬声器12接收由语音交互装置20生成的响应的语音信号,并且将接收到的语音信号作为语音输出。
再次参考图1,语音交互装置20包括控制器21和存储单元26。
控制器21由例如CPU构成,还用作进行每个功能的执行的功能执行单元。控制器21主要用作话语分析单元22、响应生成单元23、话语控制器24和话语分析请求单元25。
话语分析单元22使用存储在存储单元26中的语音识别模型执行语音识别和对话语内容的分析。具体而言,话语分析单元22对从麦克风11接收的语音信号执行语音识别,将该语音信号转换成文本,对获得的文本数据执行语音分析(诸如词素分析或修饰分析的自然语言处理),并使用存储在存储单元26中的语音识别模型来分析话语的内容。例如,存储单元26由硬盘驱动器的存储介质组成。
响应生成单元23在话语分析单元22中接收执行语音识别和对话语内容的分析的结果,并且使用存储在存储单元26中的响应生成模型生成对对象者的话语的响应(生成响应语句的文本)。话语控制器24将从响应生成单元23接收的响应语句的文本转换为语音信号,并将该语音信号传递给扬声器12。
图3是示出存储在语音交互装置20的存储单元26中的数据库的一个示例的示意图。如图3中所示,存储单元26存储多个语音识别模型(在图3所示的示例中,语音识别模型27a、27b、27c、27d、27e)作为数据库。多个不同的语音识别模型是已经按照例如性别、年龄、家乡和已经收集语音的地点(例如,室内或室外)进行分层的模型。
存储单元26还存储与多个不同的语音识别模型相对应的多个响应生成模型(在图3所示的示例中,响应生成模型28a、28b、28c、28d、28e)作为数据库。即,语音识别模型27a对应于响应生成模型28a。以类似的方式,语音识别模型27b对应于响应生成模型28b,语音识别模型27c对应于响应生成模型28c,语音识别模型27d对应于响应生成模型28d,并且语音识别模型27e对应于响应生成模型28e。响应生成单元23使用与已经用于在话语分析单元22中执行语音识别和对话语内容的分析的语音识别模型相对应的响应生成模型来执行响应生成。
再次参考图1,话语分析请求单元25请求语音识别服务器40以对对象者的话语执行语音识别,并执行对对象者的话语内容的分析。为了请求语音识别服务器40以执行语音识别和对话语内容的分析,需要在语音交互机器人10和语音识别服务器40之间执行通信。话语分析请求单元25经由通信单元13向语音识别服务器40发送用于请求语音识别服务器40以执行对对象者的话语的语音识别并且对对象者的话语内容和对象者的话语的语音数据的分析的命令。作为用于向和从稍后描述的语音识别服务器40的通信单元43发送和接收控制信号和语音数据的通信接口的通信单元13,例如,是无线LAN单元。
语音识别服务器40包括控制器41、存储单元42和通信单元43。作为用于向和从前述语音交互机器人10的通信单元13发送和接收控制信号或语音数据的通信接口的通信单元43,例如,是无线LAN单元。例如,控制器41由CPU构成,并且包括话语分析单元41a。当通信单元43已经接收到用于请求对象者的话语的语音识别以及对对象者的话语内容和对象者的话语的语音数据的分析的命令时,话语分析单元41a使用存储在存储单元42中的语音识别模型来执行对象者的话语的语音识别以及对对象者的话语内容的分析。语音识别服务器40的话语分析单元41a具有比语音交互装置20的话语分析单元22更高的计算处理能力。
图4是示出存储在语音识别服务器40的存储单元42中的数据库的一个示例的示意图。如图4中所示,存储单元42存储多个语音识别模型(在在图4所示的示例中,语音识别模型42a、42b、42c、42d、...、42z)作为数据库。多个不同的语音识别模型是已经按照例如性别、年龄、家乡和已经收集语音的地点(例如,室内或室外)进行分层的模型。存储单元42具有大于上述语音交互装置20的存储单元26的存储容量,并且存储其数目大于存储在语音交互装置20的存储单元26(参见图3)中的语音识别模型。
再次参考图1,语音识别服务器40的话语分析单元41a使用存储在存储单元42(见图4)中的多个语音识别模型中的每一个来执行对象者的话语的语音识别和对对象者的话语的内容的分析,并且针对语音识别模型中的每个输出语音识别的结果和语音识别的结果的可能性。如上所述,语音识别服务器40的话语分析单元41a具有比语音交互装置20的话语分析单元22更高的计算处理能力。因此,语音识别服务器40中的话语分析单元41a能够使用多个语音识别模型来执行对象者的话语的语音识别以及对对象者的话语内容的分析。由语音识别服务器40获得的用于语音识别模型中的每个的语音识别的结果和用于语音识别模型的每个的对应可能性的数据经由通信单元13被发送到控制装置30。
控制装置30包括计算单元31。当与对象者的会话开始时,计算单元31指示语音交互装置20的话语分析单元22通过从存储在存储单元26中的多个语音识别模型中已经暂时选择的一个语音识别模型来首先执行语音识别和响应生成。已经暂时选择的一个语音识别模型优选地是语音交互装置所保持的多个语音识别模型当中的基于过去的会话信息已经被确定为最频繁使用的语音识别模型。根据该技术,可以降低已经被暂时选择的一个语音识别模型的响应给予对象者带来陌生感的程度。
计算单元31基于在语音识别服务器中由对象者的话语的语音识别结果来确定在语音交互装置20中保持的多个语音识别模型中被估计为最佳的语音识别模型。具体地,计算单元31将由语音交互装置20保持的语音识别模型当中的与已经被用于在从语音识别服务器40发送的语音识别的结果当中其可能性最大的语音识别模型最相似的语音识别模型确定为被估计为最佳的语音识别模型。
当计算单元31确定被估计为最佳的语音识别模型时,计算单元31优选地考虑除了关于对象者的语音之外的信息。例如,除了关于对象者的语音以外的信息是,当在语音交互机器人10中安装相机时,从包括通过此相机捕获的对象者的图像中识别的诸如对象者的面部或该人所穿戴的物体的信息。从以上信息可以估计对象者的性别、年龄组等。因此,当确定被估计为最佳的语音识别模型时考虑该信息,从而可以增加所确定的语音识别模型为最佳的可能性。
当所确定的估计为最佳的语音识别模型与已经暂时选择的一个语音识别模型彼此不同时,控制装置30的计算单元31指示语音交互装置20的话语分析单元22以将语音识别模型切换到估计为最佳的模型,并执行语音识别和响应生成。当语音识别模型被切换到被估计为最佳的语音识别模型时,计算单元31优选地指示语音交互装置20以将语音识别模型从其与已经被暂时选择的一个语音识别模型的相似度水平高的语音识别模型按阶段地切换到被估计为最佳的语音识别模型。
例如,假设在图3中语音识别模型27a是其年龄组小于十岁的语音识别模型,语音识别模型27b是其年龄组在十至十九岁之间的语音识别模型,并且语音识别模型27c是其年龄组在二十多岁和三十多岁的语音识别模型。进一步假设语音识别模型27d是其年龄组为四十多岁和五十多岁的语音识别模型,并且语音识别模型27e是其年龄组在六十多岁以及以上的语音识别模型。进一步假设已经被暂时选择的一个语音识别模型是语音识别模型27b,并且语音识别模型27e已经被确定为被估计为最佳的语音识别模型。在这种情况下,以与作为被已经暂时选择的(按照年龄的紧密程度顺序)的一个语音识别模型的语音识别模型27b的相似度的降序从语音识别模型27c、语音识别模型27d和语音识别模型27e按阶段地切换语音识别模型。根据该技术,与语音识别模型突然切换到估计为最佳的语音识别模型的情况相比,可以减少对象者在会话中感觉到的陌生感。
接下来,将解释由控制装置30执行的用于控制语音交互装置20的处理流程。在下面的描述中,还适当地参考图1。
图5是示出控制装置30的处理流程的流程图。如图5中所示,当与对象者的会话开始时,控制装置30首先指示语音交互装置20以通过从存储在存储单元26中的多个语音识别模型中已经暂时选择的一个语音识别模型来执行语音识别和响应生成(步骤S101)。接下来,控制装置30基于关于语音识别服务器中的对象者的话语的语音识别结果从语音交互装置20中保持的多个语音识别模型中确定被估计为最佳的语音识别模型(步骤S102)。接下来,当被估计为最佳的语音识别模型与已经暂时选择的一个语音识别模型彼此不同时,控制装置30指示语音交互装置20将语音识别模型切换到被估计为最佳的语音识别模型并且执行语音识别和响应生成(步骤S103)。
根据以上讨论,当与对象者的会话开始时,根据本实施例的语音交互装置20的控制装置30首先指示语音交互装置20通过从被包括在语音交互装置20中的多个语音识别模型当中已经暂时选择的一个语音识别模型来执行语音识别和响应生成。然后,控制装置30在语音识别服务器中执行对象者的话语的语音识别,同时通过已经被暂时选择的一种语音识别模型来执行语音识别和响应生成。根据该技术,可以减少响应所需的时间。然后,控制装置30基于关于语音识别服务器中对象者的话语有关的语音识别的结果,确定来自于保持在语音交互装置20的多个语音识别模型当中的被估计为最佳的语音识别模型。根据此技术,能够减少会话的不自然。
[第二实施例]
在下文中,参考附图解释本公开的第二实施例。
图6是用于描述包括根据第二实施例的语音交互装置120的语音交互系统101的配置的框图。如图6中所示,语音交互系统101包括语音交互机器人110和语音识别服务器40。
语音交互机器人110的配置与参考第一实施例的图1描述的语音交互系统1中的语音交互机器人10的配置的不同之处在于,语音交互机器人110不包括控制装置。语音交互装置120的配置与参考第一实施例的图1描述的语音交互系统1的语音交互装置20的配置的不同之处在于,语音交互装置120还包括控制器121中的语音识别模型切换控制器125。控制器121例如由CPU构成。在语音交互系统101中,语音交互装置120的控制器21中的语音识别模型切换控制器125充当根据第一实施例的控制装置的角色。
即,当与对象者的会话开始时,语音识别模型切换控制器125首先通过来自于多个语音识别模型中的已经被暂时选择的一个语音识别模型来执行语音识别和响应生成。然后,语音识别模型切换控制器125基于语音识别服务器40中的对象者的话语的语音识别结果来确定来自于多个语音识别模型中的被估计为最佳的语音识别模型。此外,当被估计为最佳的语音识别模型和已经暂时选择的一个语音识别模型彼此不同时,语音识别模型切换控制器125指示话语分析单元22以将语音识别模型切换为被估计为最佳的语音识别模型,并且执行语音识别和响应生成。
如上所述,利用根据第二实施例的语音交互装置120,可以减少响应所需的时间并且可以减少会话的不自然感。
[第三实施例]
在下文中,将参考附图解释本公开的第三实施例。
图7是用于描述包括根据第三实施例的语音识别服务器240的语音交互系统201的配置的框图。如图7中所示,语音交互系统201包括语音交互机器人210和语音识别服务器240。
语音交互机器人210的配置与参照根据第一实施例的图1描述的语音交互系统1中的语音交互机器人10的配置的不同之处在于,语音交互机器人210不包括控制装置。语音识别服务器240的配置与参照根据第一实施例的图1描述的语音交互系统1中的配置的不同之处在于,语音识别服务器240还包括控制器241中的语音识别模型切换控制器241b。控制器241由例如CPU构成。在语音交互系统201中,语音识别服务器240的控制器241中的语音识别模型切换控制器241b充当根据第一实施例的控制装置的角色。
也就是说,当与对象者的会话开始时,语音识别模型切换控制器241b首先指示语音交互装置20的话语分析单元22以通过从多个语音识别模型中暂时选择的一个语音识别模型来执行语音识别和响应生成。然后,语音识别模型切换控制器241b基于对对象者的话语执行语音识别的结果来确定在语音交互装置20中保持的多个语音识别模型中的被估计为最佳的语音识别模型。此外,当估计为最佳的语音识别模型和已经暂时选择的一个语音识别模型彼此不同时,语音识别模型切换控制器241b指示语音交互装置20的话语分析单元22经由通信单元43和通信单元13将语音识别模型切换到被估计为最佳的语音识别模型,并执行语音识别和响应生成。
如上所述,利用根据第三实施例的语音识别服务器240,可以减少响应所需的时间并且可以减少会话的不自然感。
注意,本公开不限于前述实施例,并且可以在不脱离本公开的精神的情况下适当地改变。
可以通过使计算机等执行程序来实现通过本公开的处理。更具体地,在包括在控制装置、语音交互装置和语音识别服务器中的任何中的计算机中,将存储在程序存储器中的程序加载到主存储器单元,并且该程序通过CPU的控制来执行和实现。可以使用任何类型的非暂时性计算机可读介质来存储程序并将其提供给计算机。非暂时性计算机可读介质包括任何类型的有形存储介质。非暂时性计算机可读介质的示例包括磁存储介质(诸如软盘、磁带、硬盘驱动器等)、光磁存储介质(例如,磁光盘)、光盘只读存储器(CD-ROM)、CD-R、CD-R/W和半导体存储器(诸如掩码ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、闪存ROM、随机存取存储器(RAM)等)。可以使用任何类型的瞬态计算机可读介质将程序提供给计算机。瞬态计算机可读介质的示例包括电信号、光信号和电磁波。瞬态计算机可读介质可以经由有线通信线(例如,电线和光纤)或无线通信线将程序提供给计算机。
根据这样描述的公开,将会显然的是,可以以许多方式改变本公开的实施例。这样的变化不应被认为是背离本公开的精神和范围,并且对于本领域的技术人员来说是显而易见的所有这样的修改旨在包括在所附权利要求的范围内。

Claims (8)

1.一种控制装置,包括:
计算单元,所述计算单元被配置成控制包括多个语音识别模型的语音交互装置,
其中,
当与对象者的会话开始时,所述计算单元指示所述语音交互装置通过从所述多个语音识别模型当中已被暂时选择的一个语音识别模型来首先执行语音识别和响应生成,基于在语音识别服务器中的由所述对象者发出的话语的所述语音识别的结果来确定在所述语音交互装置中保持的所述多个语音识别模型当中的被估计为最佳的语音识别模型,并且当所述被估计为最佳的语音识别模型和已被暂时选择的所述一个语音识别模型彼此不同时,指示所述语音交互装置以将所述语音识别模型切换成所述被估计为最佳的语音识别模型并且执行语音识别和响应生成。
2.根据权利要求1所述的控制装置,其中,
已被暂时选择的所述一个语音识别模型是基于过去的会话信息而在所述语音交互装置中包括的所述多个语音识别模型当中的已经被确定为最频繁使用的语音识别模型。
3.根据权利要求2所述的控制装置,其中,
当所述语音交互装置将所述语音识别模型切换成所述被估计为最佳的语音识别模型时,所述计算单元使所述语音交互装置以将所述语音识别模型从与已被暂时选择的所述一个语音识别模型的相似度水平为高的语音识别模型按阶段地切换成所述被估计为最佳的语音识别模型。
4.根据权利要求1所述的控制装置,其中,
当所述计算单元确定所述被估计为最佳的语音识别模型时,所述计算单元考虑除了关于所述对象者的语音之外的信息。
5.一种语音交互装置,包括:
多个语音识别模型,以及
控制器,
其中,
当与对象者的会话开始时,所述控制器通过从所述多个语音识别模型当中的已被暂时选择的一个语音识别模型来首先执行语音识别和响应生成,基于在语音识别服务器中的由所述对象者发出在话语的所述语音识别的结果来确定所述多个语音识别模型当中的被估计为最佳的语音识别模型,并且当所述被估计为最佳的语音识别模型和已被暂时选择的所述一个语音识别模型彼此不同时,将所述语音识别模型切换成所述被估计为最佳的语音识别模型并且执行语音识别和响应生成。
6.一种语音识别服务器,包括:
控制器,
其中,当与对象者的会话开始时,所述控制器指示包括多个语音识别模型的语音交互装置通过从所述多个语音识别模型当中已被暂时选择的一个语音识别模型来首先执行语音识别和响应生成,基于由所述对象者发出的话语的所述语音识别的结果来确定在所述语音交互装置中保持的所述多个语音识别模型当中的被估计为最佳的语音识别模型,并且当所述被估计为最佳的语音识别模型和已被暂时选择的所述一个语音识别模型彼此不同时,指示所述语音交互装置以将所述语音识别模型切换成所述被估计为最佳的语音识别模型并且执行语音识别和响应生成。
7.一种计算机可读存储介质,其存储有用于控制包括多个语音识别模型的语音交互装置的控制程序,其中,
所述控制程序使计算机执行下述处理过程:
用于以下操作的处理过程:当与对象者的会话开始时,指示所述语音交互装置通过从所述多个语音识别模型当中已被暂时选择的一个语音识别模型来首先执行语音识别和响应生成;
用于以下操作的处理过程:基于在语音识别服务器中的由所述对象者发出的话语的所述语音识别的结果,来确定在所述语音交互装置中保持的所述多个语音识别模型当中的被估计为最佳的语音识别模型;以及
用于以下操作的处理过程:当所述被估计为最佳的语音识别模型和已被暂时选择的所述一个语音识别模型彼此不同时,指示所述语音交互装置以将所述语音识别模型切换成所述被估计为最佳的语音识别模型并且执行语音识别和响应生成。
8.一种控制包括多个语音识别模型的语音交互装置的方法,所述方法包括下述步骤:
当与对象者的会话开始时,指示所述语音交互装置以通过从所述多个语音识别模型当中已被暂时选择的一个语音识别模型来首先执行语音识别和响应生成;
基于在语音识别服务器中的由所述对象者发出的话语的所述语音识别的结果,来确定在所述语音交互装置中保持的所述多个语音识别模型当中的被估计为最佳的语音识别模型;以及
当所述被估计为最佳的语音识别模型和已被暂时选择的所述一个语音识别模型彼此不同时,指示所述语音交互装置以将所述语音识别模型切换成所述被估计为最佳的语音识别模型并且执行语音识别和响应生成。
CN201911225321.0A 2018-12-20 2019-12-04 控制装置、语音交互装置、语音识别服务器以及存储介质 Active CN111354351B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018238287A JP7020390B2 (ja) 2018-12-20 2018-12-20 制御装置、音声対話装置、音声認識サーバ及びプログラム
JP2018-238287 2018-12-20

Publications (2)

Publication Number Publication Date
CN111354351A true CN111354351A (zh) 2020-06-30
CN111354351B CN111354351B (zh) 2023-06-02

Family

ID=71098701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911225321.0A Active CN111354351B (zh) 2018-12-20 2019-12-04 控制装置、语音交互装置、语音识别服务器以及存储介质

Country Status (3)

Country Link
US (1) US11587554B2 (zh)
JP (1) JP7020390B2 (zh)
CN (1) CN111354351B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863913A (zh) * 2023-06-28 2023-10-10 上海仙视电子科技有限公司 一种语音控制的跨屏互动控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5865626A (en) * 1996-08-30 1999-02-02 Gte Internetworking Incorporated Multi-dialect speech recognition method and apparatus
CN104541325A (zh) * 2012-06-26 2015-04-22 谷歌公司 混合模型语音识别
US20150248884A1 (en) * 2009-09-16 2015-09-03 At&T Intellectual Property I, L.P. System and Method for Personalization of Acoustic Models for Automatic Speech Recognition
US9953634B1 (en) * 2013-12-17 2018-04-24 Knowles Electronics, Llc Passive training for automatic speech recognition

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4275353B2 (ja) * 2002-05-17 2009-06-10 パイオニア株式会社 音声認識装置及び音声認識方法
JP4295675B2 (ja) * 2004-06-03 2009-07-15 日本電信電話株式会社 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
US8762143B2 (en) * 2007-05-29 2014-06-24 At&T Intellectual Property Ii, L.P. Method and apparatus for identifying acoustic background environments based on time and speed to enhance automatic speech recognition
KR20150031984A (ko) * 2013-09-17 2015-03-25 한국전자통신연구원 디바이스 구분 음향모델 누적 적응을 이용한 음성인식 시스템 및 방법
JP6596376B2 (ja) * 2015-04-22 2019-10-23 パナソニック株式会社 話者識別方法及び話者識別装置
WO2017112813A1 (en) * 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
CN105957516B (zh) * 2016-06-16 2019-03-08 百度在线网络技术(北京)有限公司 多语音识别模型切换方法及装置
JP6614080B2 (ja) 2016-09-16 2019-12-04 トヨタ自動車株式会社 音声対話システムおよび音声対話方法
JP2018109663A (ja) 2016-12-28 2018-07-12 シャープ株式会社 音声処理装置、対話システム、端末装置、プログラム及び音声処理方法
JP6408080B1 (ja) * 2017-06-30 2018-10-17 ヤフー株式会社 生成装置、生成方法及び生成プログラム
KR102550932B1 (ko) * 2017-12-29 2023-07-04 삼성전자주식회사 음성 인식 모델의 개인화 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5865626A (en) * 1996-08-30 1999-02-02 Gte Internetworking Incorporated Multi-dialect speech recognition method and apparatus
US20150248884A1 (en) * 2009-09-16 2015-09-03 At&T Intellectual Property I, L.P. System and Method for Personalization of Acoustic Models for Automatic Speech Recognition
CN104541325A (zh) * 2012-06-26 2015-04-22 谷歌公司 混合模型语音识别
US9953634B1 (en) * 2013-12-17 2018-04-24 Knowles Electronics, Llc Passive training for automatic speech recognition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863913A (zh) * 2023-06-28 2023-10-10 上海仙视电子科技有限公司 一种语音控制的跨屏互动控制方法
CN116863913B (zh) * 2023-06-28 2024-03-29 上海仙视电子科技有限公司 一种语音控制的跨屏互动控制方法

Also Published As

Publication number Publication date
JP2020101610A (ja) 2020-07-02
US11587554B2 (en) 2023-02-21
CN111354351B (zh) 2023-06-02
JP7020390B2 (ja) 2022-02-16
US20200202842A1 (en) 2020-06-25

Similar Documents

Publication Publication Date Title
US9583102B2 (en) Method of controlling interactive system, method of controlling server, server, and interactive device
JP6328580B2 (ja) 行動制御システム及びプログラム
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6054283B2 (ja) 音声認識端末、サーバ、サーバの制御方法、音声認識システム、音声認識端末の制御プログラム、サーバの制御プログラムおよび音声認識端末の制御方法
CN108986826A (zh) 自动生成会议记录的方法、电子装置及可读存储介质
CN110661927A (zh) 语音交互方法、装置、计算机设备及存储介质
US20140036022A1 (en) Providing a conversational video experience
JP6391386B2 (ja) サーバ、サーバの制御方法およびサーバ制御プログラム
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
CN109697978B (zh) 用于生成模型的方法和装置
EP4273855A1 (en) Speech recognition method and apparatus, and storage medium
KR20200074690A (ko) 전자 장치 및 이의 제어 방법
CN113299312A (zh) 一种图像生成方法、装置、设备以及存储介质
US8868419B2 (en) Generalizing text content summary from speech content
CN111936964A (zh) 非中断性nui命令
CN115293132A (zh) 虚拟场景的对话处理方法、装置、电子设备及存储介质
CN109074809B (zh) 信息处理设备、信息处理方法和计算机可读存储介质
CN111354351B (zh) 控制装置、语音交互装置、语音识别服务器以及存储介质
KR20180089242A (ko) 챗봇에서의 출력 유형에 따라 대화 내용을 생성하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
JP2020160374A (ja) 言語識別装置及びそのためのコンピュータプログラム、並びに音声処理装置
JP2018081147A (ja) コミュニケーション装置、サーバ、制御方法、および情報処理プログラム
CN111354358B (zh) 控制方法、语音交互装置、语音识别服务器、存储介质和控制系统
CN111785277A (zh) 语音识别方法、装置、计算机可读存储介质以及处理器
CN113763921B (zh) 用于纠正文本的方法和装置
KR102364935B1 (ko) 5g 기반의 음성인식 반응속도 개선을 위한 데이터 전송 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant