CN111354358A - 控制方法、语音交互装置、语音识别服务器、存储介质和控制系统 - Google Patents
控制方法、语音交互装置、语音识别服务器、存储介质和控制系统 Download PDFInfo
- Publication number
- CN111354358A CN111354358A CN201911299430.7A CN201911299430A CN111354358A CN 111354358 A CN111354358 A CN 111354358A CN 201911299430 A CN201911299430 A CN 201911299430A CN 111354358 A CN111354358 A CN 111354358A
- Authority
- CN
- China
- Prior art keywords
- speech
- voice
- recognition
- acquired
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 98
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000001514 detection method Methods 0.000 claims abstract description 50
- 238000004891 communication Methods 0.000 claims abstract description 49
- 230000008859 change Effects 0.000 claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims 4
- 230000004044 response Effects 0.000 description 33
- 230000002452 interceptive effect Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及控制方法、语音交互装置、语音识别服务器、存储介质和控制系统。所述控制装置包括:计算单元,其被配置成控制包括话语区间检测器的语音交互装置,其被配置成通过设置的识别等级识别所获取的语音是否包括由对象者发出的话语,并且执行话语区间检测,其中,当从语音识别服务器中已经获取到指示对象者发出的话语很可能被包括在所获取的语音中的估计结果时,计算单元指令语音交互装置以使得降低话语区间检测器的识别等级的方式改变设置,并根据改变之后的识别等级通过话语区间检测与语音识别服务器执行通信。
Description
技术领域
本公开涉及一种控制装置、语音交互装置、语音识别服务器和存储介质。
背景技术
已知语音交互系统,其用于分析作为对话伙伴的对象者(用户)发出的话语,掌握话语的含义和内容,根据话语的类型生成响应,并且通过语音或文本将响应呈现给对象者。日本未经审查的专利申请特开No.2018-109663公开该语音交互系统中的技术,其中,包括对象者发出的话语在内的语音数据从本地侧发送到服务器侧,并且服务器侧执行语音识别并将语音识别的结果发回本地侧。
发明内容
为了在日本未审查专利申请特开No.2018-109663等中公开的语音交互系统中在服务器侧执行语音识别,需要在本地侧与服务器侧之间执行通信。当语音交互系统与处于诸如噪声很大的户外等环境中的对象者执行会话时,除了对象者发出的话语之外,大量的噪声也被收集。当收集到的语音数据不断地从本地发送到服务器端并且服务器端执行语音识别时,在对象者发出话语的情况下无意义的噪声被发送到服务器端,这导致通信成本和电力消耗被浪费地增加。
考虑到上述情况,用于在本地侧上执行话语区间的检测、发送收集的语音当中的其中估计对象者正在讲话的区间中的语音数据、并且在服务器端上对上面的区间中的语音执行语音识别的相应技术的开发已正在进步。但是,因为检测话语区间的精度不够高,所以如果噪声音量大,则有可能无法成功地执行对象者发出的话语和噪声的识别。因此,当执行话语区间的检测并且将语音发送到服务器侧的时间段受到限制时,由对象者的发出的话语中的一些可能缺少发送到服务器侧的语音数据或全部对象者发出的话语可能被错误地识别为噪音,并且因此可能被发送到服务器端。考虑到这些情况,当执行话语区间的检测并且限制在其期间将语音发送到服务器侧的时间段时,这引起语音识别的准确性降低的问题。
鉴于上述情况做出本公开,并且本公开旨在提供一种语音交互装置的控制装置、语音交互装置、语音识别服务器以及程序,其能够提高语音识别的准确性同时避免浪费地增加通信成本和电力消耗。
根据本公开的一个实施例的控制装置包括:计算单元,该计算单元被配置成控制包括话语区间检测器的语音交互装置,该话语区间检测器被配置成通过设置的识别等级识别所获取的语音是否包括由对象者发出的话语,并且执行话语区间检测,其中,当从语音识别服务器中已经获取到指示对象者发出的话语很可能被包括在所获取的语音中的估计结果时,计算单元指令语音交互装置以使得降低话语区间检测器的识别等级的方式改变设置,并根据改变之后的识别等级通过话语区间检测与语音识别服务器执行通信。
在对象者开始发出话语后,会话持续一段时间是正常的。即,当语音交互装置已经从语音识别服务器获取指示对象者发出的话语很可能被包括在获取的语音中的估计结果时,可以认为会话将继续一段时间。因此,如果当语音交互装置已经从语音识别服务器获取估计结果时将话语区间检测的识别等级设置为高,则有可能没有收集到对象者发出的话语。因此,当语音交互装置已经从语音识别服务器获取估计结果时,降低话语区间检测器的识别等级,以降低可能无法收集对象者发出的话语的可能性。根据此过程,可以提高语音识别服务器中语音识别的准确性。另一方面,当语音交互装置未从语音识别服务器获取估计结果时,话语区间检测器的识别等级的设置没有被改变。因此,可以在维持话语区间检测器中的原始识别等级的同时,防止话语区间检测继续进行,并且防止无意义的噪声被发送到语音识别服务器。因此,可以防止浪费地增加通信成本和电力消耗。
此外,计算单元根据混合在所获取的语音中的噪声的程度来优选地确定通过其降低话语区间检测器的识别等级的程度。当在所获取的语音中混合的噪声的程度高时,难以在话语区间检测器中准确地执行话语区间检测。在这种情况下,当从语音识别服务器获取到指示对象者发出的话语很可能包括在所获取的语音中的估计结果时,使识别等级降低的程度相对较大。例如,将识别等级改变为不执行话语区间检测的最低等级,并且始终保持语音交互装置与语音识别服务器之间的通信连接。另一方面,当在所获取的语音中混合的噪声的程度低时,可以在话语区间检测器中准确地执行话语区间检测。在这种情况下,使识别等级的降低程度相对小,并且在防止通信成本和电力消耗增加的同时,可以降低未收集对象者发出的话语的可能性。
此外,计算单元根据语音交互装置与对象者之间的距离来优选地确定通过其降低话语区间检测器的识别等级的程度。当语音交互装置与对象者之间的距离较大时,难以在话语区间检测器中准确地执行语音区间检测。在这种情况下,当已经从语音识别服务器获取指示对象者发出的话语很可能包括在所获取的语音中的估计结果时,使识别等级降低的程度相对大。例如,将识别等级改变为不执行话语区间检测的最低等级,并且语音交互装置与语音识别服务器之间的通信连接被恒定地保持。另一方面,当语音交互装置与对象者之间的距离小时,可以在话语区间检测器中准确地执行话语区间检测。在这种情况下,使降低识别等级的程度相对小,并且在防止通信成本和电力消耗增加的同时,可以降低未收集对象者发出的话语的可能性。
此外,优选地,当在识别等级的设置已经改变之后的预定时间段内未从语音识别服务器获取到指示对象者发出的话语很可能包括在所获取的语音中的估计结果的指示时,计算单元优选地指令语音交互装置使识别等级返回到改变之前的识别等级。根据此过程,可以防止在对象者不发出话语时将无意义的噪声发送到语音识别服务器。因此,可以防止浪费地增加通信成本和电力消耗。
根据本公开的一个实施例的语音交互装置包括:控制器,该控制器包括话语区间检测器,该话语区间检测器被配置成通过设置的识别等级来识别所获取的语音是否是对象者发出的话语并执行话语区间检测,其中,在控制器中,当从语音识别服务器已经获取到指示对象者发出的话语很可能被包括在所获取的语音中的估计结果时,语音交互装置以使得降低话语区间检测器的识别等级的这种方式改变设置,并根据改变后的识别等级通过话语区间检测执行与语音识别服务器的通信。因此,可以在防止浪费地增加通信成本和电力消耗的同时提高语音识别的准确性。
根据本公开的一个实施例的语音识别服务器是被配置成对由包括话语区间检测器的语音交互装置通过通信发送的获取的语音执行语音识别的语音识别服务器,该话语区间检测器被配置成通过设置的识别等级来识别所获取的语音是否包括对象者发出的话语,并执行话语区间检测,其中语音交互装置包括控制器,并且当已经获取指示很有可能由对象者发出的话语被包括在获取的语音中的估计结果时,控制器指令语音交互装置以降低话语区间检测器的识别等级的方式改变设置,并且根据改变后的识别等级通过话语区间检测执行与语音识别服务器的通信。因此,可以在防止浪费地增加通信成本和电力消耗的同时提高语音识别的准确性。
根据本公开的一个实施例的程序是用于使计算机执行用于控制包括话语区间检测器的语音交互装置的处理过程的程序,该话语区间检测器被配置成通过设置的识别等级识别所获取的语音是否包括由对象者发出的话语并执行话语区间检测,其中,该程序使计算机执行以下处理过程:当已经从语音识别服务器获取到指示对象者发出的话语很有可能被包括在从语音交互装置发送的语音中的估计结果时,指令语音交互装置以使得降低话语区间检测器的识别等级的方式改变设置并且根据改变之后的识别等级通过话语区间检测执行与语音识别服务器的通信。因此,可以在防止浪费地增加通信成本和电力消耗的同时提高语音识别的准确性。
根据本公开,可以在防止通信成本和电力消耗浪费地增加的同时提高语音识别的准确性。
通过以下给出的详细描述和仅以图示的方式给出的附图,本公开的上述和其他目的、特征和优点将变得更加充分地理解,并且因此不应视为限制本公开。
附图说明
图1是用于描述包括根据第一实施例的控制装置的语音交互系统的配置的框图;
图2是示出包括被合并在其中的根据第一实施例的控制装置的语音交互机器人的外观的一个示例的示意图;
图3是示出存储在语音交互系统中包括的语音交互装置的存储单元中的数据库的一个示例的示意图;
图4是用于描述话语区间检测器中的话语区间检测的识别等级的示意图。
图5是示出存储在语音交互系统中包括的语音识别服务器的存储单元中的数据库的一个示例的示意图;
图6是示出根据第一实施例的控制装置的处理流程的流程图;
图7是用于描述包括根据第二实施例的语音交互装置的语音交互系统的配置的框图;和
图8是用于描述包括根据第三实施例的语音识别服务器的语音交互系统的配置的框图。
具体实施方式
在下文中,尽管将参考本公开的实施例描述本公开,但是根据权利要求的公开不限于以下实施例。此外,以下实施例中描述的所有组件对于解决问题的手段不是必不可少的。为了使描述清楚,以下描述和附图被适当地省略和简化。在所有附图中,相同的组件由相同的附图标记表示,并且根据需要省略重复的描述。
[第一实施例]
首先,将解释包括根据第一实施例的控制装置(控制系统)的语音交互系统的配置。
图1是用于描述包括根据第一实施例的控制装置30的语音交互系统1的配置的框图。如图1中所示,语音交互系统1包括语音交互机器人10和语音识别服务器40。
语音交互机器人10包括合并在其中的语音交互装置20和控制装置30。此外,语音交互机器人10包括麦克风11、扬声器12和通信单元13。
图2是示出包括被合并在其中的图1示出的语音交互装置20和控制装置30的语音交互机器人10的外观的一个示例的示意图。如图2中所示,模仿动物外观的语音交互机器人10包括头部10a和身体部10b。麦克风11以隐藏的方式布置在头部10a的期望位置。扬声器12以隐藏的方式布置在与语音交互机器人10的嘴相对应的位置。
麦克风11用作被配置为向语音交互装置20输入话语的输入单元。具体地,麦克风11收集语音,将收集的语音转换成语音信号,并且将该语音信号传递给语音交互装置20。扬声器12用作输出单元,该输出单元发出由语音交互装置20生成的语音。具体地,扬声器12接收由语音交互装置20生成的响应的语音信号,并且将接收到的语音信号作为语音输出。
再次参考图1,语音交互装置20包括控制器21和存储单元26。
控制器21由例如CPU组成,还用作进行每个功能的执行的功能执行单元。控制器21主要用作语音分析单元22、响应生成单元23、语音控制器24和话语区间检测器25。
话语分析单元22使用存储在存储单元26中的语音识别模型执行语音识别和语音内容分析。具体而言,话语分析单元22对从麦克风11接收的语音信号执行语音识别,将该语音信号转换成文本,对获得的文本数据执行语音分析(数据挖掘),并使用存储在存储单元26中的语音识别模型来分析语音的内容。例如,存储单元26由硬盘驱动器的存储介质组成。
响应生成单元23在话语分析单元22中接收执行语音识别和语音内容分析的结果,并且使用存储在存储单元26中的响应生成模型生成对作为语音交互机器人10的对话伙伴的对象者发出的话语的响应(生成响应语句的文本)。
图3是示出存储在语音交互装置20的存储单元26中的数据库的一个示例的示意图。如图3中所示,存储单元26将语音识别模型27a存储为数据库。存储单元26还将与语音识别模型27a相对应的响应生成模型28a存储为数据库。例如,语音识别模型27a是有限语音识别模型,其能够仅识别特定年龄组的人或来自特定家乡的人的语音。此外,响应生成模型28a将生成简单的响应,诸如做出令人满意的响应或重复对象者发出的话语。因此,基本上,对由对象者发出的语音的语音识别由稍后将描述的语音识别服务器46执行,并且对对象者发出的话语的响应的生成也由语音识别服务器46执行。
再次参照图1,话语控制器24将从稍后将描述的响应生成单元23或语音识别服务器40接收到的响应语句的文本转换成语音信号,并将该语音信号传递给说话者12。
话语区间检测器25以设置的识别等级来识别所获取的语音是否包括对象者发出的话语,并且执行话语区间检测。话语区间检测是要通过使用诸如相对于语音信号的波形的信号强度、频率特性或时间变化的预先设定的特征量来识别对象者发出的话语,并检测在其期间对象者进行话语的区间。话语区间检测的识别等级是用于识别语音是否是对象者发出的话语的标准。当识别等级被设置为高时,与识别等级被设置为低的情况相比,更严格地检测话语区间。即,当将识别等级设置为高时,如果所获取的语音与在被设置的特征量中的预先获取的对象者发出的话语的一致的程度高于其中识别等级被设置为低的情况,则可以估计该语音是对象者发出的话语。
图4是用于描述话语区间检测器25中的话语区间检测的识别等级的示意图。如图4中所示,识别等级被设置为例如在“等级5”到“等级0”之间的任何一个。当识别等级被设置为最高等级的“等级5”时,最严格地执行话语区间检测。另一方面,当识别等级被设置为作为最低等级的“等级0”时,话语区间检测器25将由麦克风11收集的所有语音发送到语音识别服务器40(参见图1)而不检测话语区间。
再次参照图1,话语区间检测器25经由通信单元13将语音数据发送到语音识别服务器40。作为用于向稍后描述的语音识别服务器40的通信单元43发送控制信号和语音数据以及从稍后描述的语音识别服务器40的通信单元43接收控制信号和语音数据的通信接口的通信单元13,例如是无线LAN单元。
语音识别服务器40包括控制器41、存储单元42和通信单元43。作为用于向前述语音交互机器人10的通信单元13发送以及从前述语音交互机器人10的通信单元13接收控制信号或语音数据的通信接口的通信单元43是,例如是无线LAN单元。例如,控制器41由CPU构成,并且包括话语分析单元41a和响应生成单元41b。当通信单元43已经接收到用于请求对对象者发出的话语进行语音识别以及对对象者发出的话语的内容进行分析的命令以及接收到对象者发出的话语的语音数据时,语音分析单元41a使用存储在存储单元42中的语音识别模型对对象者发出的话语执行语音识别,并对对象者发出的话语内容执行分析。响应生成单元41b接收在语音分析单元41a中执行语音识别和话语的内容的分析的结果,并且使用存储在存储单元42中的响应生成模型,响应于对象者发出的话语,执行响应生成(响应语句的文本的生成)。语音识别服务器40中的话语分析单元41a和响应生成单元41b具有比语音交互装置20的话语分析单元22和响应生成单元23的计算处理能力更高的计算处理能力。
图5是示出存储在语音识别服务器40的存储单元42中的数据库的一个示例的示意图。如图5中所示,存储单元42存储多个语音识别模型(在在图4所示的示例中,语音识别模型43a、43b、43c、43d、...、43z)作为数据库。多个不同的语音识别模型是已经按照例如性别、年龄、家乡和已经收集语音的地点(例如,室内或室外)进行分层的模型。
此外,存储单元42存储与多个不同的语音识别模型相对应的多个响应生成模型(在图5所示的示例中,响应生成模型44a、44b、44c、44d、···、44z)作为数据库。即,响应生成模型44a对应于语音识别模型43a。以类似的方式,响应生成模型44b对应于语音识别模型43b,响应生成模型44c对应于语音识别模型43c,响应生成模型44d对应于语音识别模型43d,并且响应生成模型44z对应于语音识别模型43z。控制器41的响应生成单元41b(参见图1)使用与语音识别模型相对应的响应生成模型来执行响应生成。
再次参照图1,控制装置30包括计算单元31。在已经获取到指示很可能对象者发出的话语被包括在从语音识别服务器40获取的语音中的估计结果时,计算单元31指令语音交互装置20以使得降低话语区间检测器25的识别等级的方式改变设置以根据改变之后的识别等级在话语区间检测中执行与语音识别服务器40的通信。如以上示例中所述,假定可以将识别等级设置为从“等级5”到“等级0”的等级,并且当前识别等级例如是“等级5”。当已经获取到指示很有可能对象者发出的话语被包括在从语音识别服务器40获取的语音中的估计结果时,计算单元31指令语音交互装置20的话语区间检测器25将识别等级更改为“等级4”到“等级0”中的一个。
计算单元31可以根据混合在所获取的语音中的噪声的程度来确定降低话语区间检测器的识别等级的程度。当在获取的语音中混合的噪声的程度高(即,噪声量大)时,难以在话语区间检测器25中准确地执行话语区间检测。在这种情况下,当从语音识别服务器40已经获取到指示很有可能对象者发出的话语被包括在获取的语音中的估计结果时,识别等级变为“等级0”,并且话语区间检测器25中未执行话语区间检测。即,语音交互装置20和语音识别服务器40之间的通信连接被恒定地保持。另一方面,当在获取的语音中混合的噪声的程度低(即,噪声量很小)时,能够在话语区间检测器25中准确地执行话语区间检测。在这样的情况下,将识别等级改变为“等级4”或“等级3”,并且可以在防止增加通信成本和电力消耗的同时,降低未收集对象者发出的话语的可能性。
计算单元31可以根据语音交互装置20与对象者之间的距离来确定降低话语区间检测器25的识别等级的程度。当语音交互装置20与对象者之间的距离较大时,难以在话语区间检测器25中准确地执行话语区间检测。在这种情况下,当从语音识别服务器40已经获取指示对象者发出的话语被包括在获取的语音中的估计结果时,将识别等级改变为“等级0”,并且在话语区间检测器25中不执行话语区间检测。即,语音交互装置20和语音识别服务器40之间的通信连接被恒定地保持。另一方面,当语音交互装置20与对象者之间的距离较小时,可以在话语区间检测器25中准确地执行话语区间检测。在这种情况下,识别等级变为“等级4”或“等级3”,并且可以在防止通信成本和电力消耗增加的同时降低未收集对象者发出的话语的可能性。
当话语区间检测器25的识别等级的设置被改变之后的预定时间段内尚未从语音识别服务器40获取到指示对象者的话语很可能被包括在所获取的语音中的估计结果时,使识别等级回到改变之前的识别等级。根据该过程,可以防止在对象者不发出话语时将无意义的噪声发送到语音识别服务器40。因此,可以防止浪费地增加通信成本和电力消耗。基于过去的会话信息来确定预定时间段。
接下来,将解释由控制装置30执行的用于控制语音交互装置20的处理流程。在下面的描述中,适当地还参考图1。
图6是示出控制装置30的处理流程的流程图。如图6中所示,控制装置30监视是否从语音识别服务器40已经获取到指示很有可能对象者发出的话语被包括在所获取的语音中的估计结果(步骤S101)。当在步骤S101中从语音识别服务器40已经获取到指示对象者的话语很可能被包括在在从语音交互装置20发送的语音中的估计结果时,控制装置30指令语音交互装置20以降低话语区间检测器25的识别等级的方式改变设置(步骤S102)。接下来,控制装置30根据改变后的识别等级,指令语音交互装置20在话语区间检测中与语音识别服务器40执行通信(步骤S103)。
根据以上讨论,当计算单元31已经获取指示很有可能对象者发出的话语被包括在从语音识别服务器40获取的语音中的估计结果中时,根据本实施例的控制装置30指令语音交互装置20降低话语区间检测器25的识别等级。然后,计算单元31根据更改后的识别等级指令语音交互装置20以在话语区间检测中与语音识别服务器40执行通信。
通常,在对象者开始发出话语后会话会持续一段时间。即,当语音交互装置20已经从语音识别服务器40获取指示对象者发出的话语很可能被包括在获取的语音中的估计结果时,可以认为会话将继续一会儿。因此,如果在语音交互装置20已经从语音识别服务器40获取估计结果时将话语区间检测的识别等级设置为较高,则有可能没有收集到对象者发出的话语。因此,当语音交互装置20已经从语音识别服务器40获取此估计结果时,降低话语区间检测器25的识别等级以降低未收集到对象者发出的话语的可能性。因此,可以提高语音识别服务器40中语音识别的准确性。另一方面,当语音交互装置20尚未从语音识别服务器40获取此估计结果时,话语区间检测器25的识别等级的设置没有被改变。因此,在保持话语区间检测器25中的原始识别等级的同时继续话语区间检测,并且可以防止无意义的噪声被发送到语音识别服务器40。因此,可以防止通信成本和电力消耗被浪费地增加。
[第二实施例]
在下文中,将参照附图解释本公开的第二实施例。
图7是用于描述包括根据第二实施例的语音交互装置120的语音交互系统101的配置的框图。如图7中所示,语音交互系统101包括语音交互机器人110和语音识别服务器40。
语音交互机器人110的配置与参考第一实施例的图1描述的语音交互系统1中的语音交互机器人10的配置的不同之处在于,语音交互机器人110不包括控制装置。语音交互装置120的配置与参考第一实施例的图1描述的语音交互系统1的语音交互装置20的配置的不同之处在于,语音交互装置120还包括控制器121中的识别等级设置改变单元125。控制器121例如由CPU构成。在语音交互系统101中,语音交互装置120的控制器121中的识别等级设置改变单元125承担根据第一实施例的控制装置的作用。
即,当从语音识别服务器40获取到指示对象者发出的话语很可能被包括在所获取的语音中的估计结果时,识别等级设置改变单元125以使得降低话语区间检测器25中的识别等级的方式改变设置,以根据改变后的识别等级在话语区间检测中与语音识别服务器40执行通信。
如上所述,利用根据第二实施例的语音交互装置120,可以提高语音识别的准确性,同时防止浪费地增加通信成本和电力消耗。
[第三实施例]
在下文中,将参考附图解释本公开的第三实施例。
图8是用于描述包括根据第三实施例的语音识别服务器240的语音交互系统201的配置的框图。如图8中所示,语音交互系统201包括语音交互机器人210和语音识别服务器240。
语音交互机器人210的配置与参考根据第一实施例的图1描述的语音交互系统1中的语音交互机器人10的配置的不同之处在于,语音交互机器人210不包括控制装置。语音识别服务器240的配置与参考根据第一实施例的图1描述的语音交互系统1中的配置的不同之处在于,语音识别服务器240还包括控制器241中的识别等级设置改变单元241c。控制器241由例如CPU构成。在语音交互系统201中,语音识别服务器240的控制器241中的识别等级设置改变单元241c承担根据第一实施例的控制装置的作用。
即,当已经获取到指示对象者发出的话语很可能包括在所获取的语音中的估计结果时,识别等级设置改变单元241c指令语音交互装置20以使得降低话语区间检测器25的识别等级的方式改变设置并且根据改变之后的识别等级在话语区间检测中与语音识别服务器240执行通信。
如上所述,利用根据第三实施例的语音识别服务器240,可以在防止通信成本和电力消耗浪费地增加的同时提高语音识别的准确性。
注意,本公开不限于前述实施例,并且可以在不脱离本公开的精神的情况下适当地改变。
可以通过使计算机等执行程序来实现根据本公开的处理。更具体地,在包括在控制装置、语音交互装置和语音识别服务器中的任何一个中的计算机中,将存储在程序存储器中的程序加载到主存储器单元,并且该程序通过CPU的控制来执行和实现。可以使用任何类型的非暂时性计算机可读介质来存储程序并将其提供给计算机。非暂时性计算机可读介质包括任何类型的有形存储介质。非暂时性计算机可读介质的示例包括磁存储介质(诸如软盘、磁带、硬盘驱动器等)、光磁存储介质(例如,磁光盘)、光盘只读存储器(CD-ROM)、CD-R、CD-R/W和半导体存储器(诸如掩码ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、闪存ROM、随机存取存储器(RAM)等)。可以使用任何类型的瞬态计算机可读介质将程序提供给计算机。瞬态计算机可读介质的示例包括电信号、光信号和电磁波。瞬态计算机可读介质可以经由有线通信线(例如,电线和光纤)或无线通信线将程序提供给计算机。
根据由此描述的公开,可以以许多方式改变本公开的实施例将会是显而易见的。这样的变化不应被认为是背离本公开的精神和范围,并且作为对于本领域的技术人员来说显而易见的所有这样的修改旨在包括在所附权利要求的范围内。
Claims (8)
1.一种用于控制控制系统的方法,所述控制系统用于控制包括话语区间检测器的语音交互装置,所述话语区间检测器被配置成通过设置的识别等级来识别被获取的语音是否包括对象者发出的话语并且执行话语区间检测,所述方法包括:
当已经从语音识别服务器获取到指示出所述对象者发出的话语很有可能被包括在所述被获取的语音中的估计结果时,指令所述语音交互装置以使得降低所述话语区间检测器的所述识别等级的方式来改变设置,并且根据在所述改变之后的所述识别等级,通过所述话语区间检测来执行与所述语音识别服务器的通信。
2.根据权利要求1所述的方法,进一步包括:
根据混合在所述被获取的语音中的噪声的程度,来确定所述话语区间检测器的所述识别等级被降低的程度。
3.根据权利要求1所述的方法,进一步包括:
根据所述语音交互装置与所述对象者之间的距离,来确定所述话语区间检测器的所述识别等级被降低的程度。
4.根据权利要求1至3中的任意一项所述的方法,进一步包括:
当在所述识别等级的所述设置已经被改变之后的预定时间段内尚未从所述语音识别服务器中获取到指示出所述对象者发出的话语很有可能被包括在所述被获取的语音中的估计结果时,指令所述语音交互装置将所述识别等级返回到在其被改变之前的所述识别等级。
5.一种语音交互装置,包括:
控制器,所述控制器包括话语区间检测器,所述话语区间检测器被配置成通过设置的识别等级来识别被获取的语音是否为对象者发出的话语并且执行话语区间检测,
其中,
在所述控制器中,当已经从语音识别服务器获取到指示出所述对象者发出的话语很有可能被包括在所述被获取的语音中的估计结果时,所述语音交互装置以使得降低所述话语区间检测器的所述识别等级的方式来改变设置,并且根据所述改变之后的所述识别等级,通过话语区间检测来执行与所述语音识别服务器的通信。
6.一种语音识别服务器,所述语音识别服务器被配置成对由包括话语区间检测器的语音交互装置经由通过通信所发送的被获取的语音执行语音识别,所述话语区间检测器被配置成通过设置的识别等级来识别所述被获取的语音是否包括对象者发出的话语并且执行话语区间检测,
其中,
所述语音交互装置包括控制器,以及
当已经获取到指示出所述对象者发出的话语很有可能被包括在所述被获取的语音中的估计结果时,所述控制器指令所述语音交互装置以使得降低所述话语区间检测器的所述识别等级的方式来改变设置,并且根据所述改变后的所述识别等级,通过话语区间检测来执行与所述语音识别服务器的通信。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有用于控制包括话语区间检测器的语音交互装置的控制程序,所述话语区间检测器被配置成通过设置的识别等级来识别被获取的语音是否包括对象者发出的话语并且执行话语区间检测,
其中,
所述控制程序使计算机执行以下处理过程:当已经从语音识别服务器获取到指示出所述对象者发出的话语很有可能被包括在从所述语音交互装置发送的语音中的估计结果时,指令所述语音交互装置以使得降低所述话语区间检测器的所述识别等级的方式来改变设置,并且根据所述改变之后的所述识别等级,通过话语区间检测来执行与所述语音识别服务器的通信。
8.一种控制系统,包括:
计算单元,所述计算单元被配置成控制包括话语区间检测器的语音交互装置,所述话语区间检测器被配置成通过设置的识别等级来识别被获取的语音是否包括对象者发出的话语,并且执行话语区间检测,
其中,
当已经从语音识别服务器中获取到指示出所述对象者发出的话语很有可能被包括在所述被获取的语音中的估计结果时,所述计算单元指令所述语音交互装置以使得降低所述话语区间检测器的所述识别等级的方式来改变设置,并且根据所述改变之后的所述识别等级,通过话语区间检测来执行与所述语音识别服务器的通信。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018238093A JP7131362B2 (ja) | 2018-12-20 | 2018-12-20 | 制御装置、音声対話装置及びプログラム |
JP2018-238093 | 2018-12-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111354358A true CN111354358A (zh) | 2020-06-30 |
CN111354358B CN111354358B (zh) | 2023-04-25 |
Family
ID=71097152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911299430.7A Active CN111354358B (zh) | 2018-12-20 | 2019-12-17 | 控制方法、语音交互装置、语音识别服务器、存储介质和控制系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11081114B2 (zh) |
JP (1) | JP7131362B2 (zh) |
CN (1) | CN111354358B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1787073A (zh) * | 2004-12-07 | 2006-06-14 | 三星电子株式会社 | 自动控制输入等级的语音识别系统及语音识别方法 |
WO2007118030A2 (en) * | 2006-04-03 | 2007-10-18 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
CN105408958A (zh) * | 2013-06-27 | 2016-03-16 | 思杰系统有限公司 | 使用语音识别来检测非语音性音频的计算机系统 |
JP2018109663A (ja) * | 2016-12-28 | 2018-07-12 | シャープ株式会社 | 音声処理装置、対話システム、端末装置、プログラム及び音声処理方法 |
CN108630202A (zh) * | 2017-03-21 | 2018-10-09 | 株式会社东芝 | 语音识别装置、语音识别方法以及语音识别程序 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4869268B2 (ja) | 2008-03-04 | 2012-02-08 | 日本放送協会 | 音響モデル学習装置およびプログラム |
US10540979B2 (en) * | 2014-04-17 | 2020-01-21 | Qualcomm Incorporated | User interface for secure access to a device using speaker verification |
US10223696B2 (en) * | 2014-04-25 | 2019-03-05 | Avago Technologies International Sales Pte. Limited | Adaptive biometric and environmental authentication system |
JP6276132B2 (ja) | 2014-07-30 | 2018-02-07 | 株式会社東芝 | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム |
JP6203343B2 (ja) | 2015-11-19 | 2017-09-27 | パナソニック株式会社 | 音声認識方法及び音声認識装置 |
JP6614080B2 (ja) | 2016-09-16 | 2019-12-04 | トヨタ自動車株式会社 | 音声対話システムおよび音声対話方法 |
US20200349359A1 (en) * | 2018-01-04 | 2020-11-05 | Xinova, LLC | Dynamic workstation assignment |
-
2018
- 2018-12-20 JP JP2018238093A patent/JP7131362B2/ja active Active
-
2019
- 2019-12-17 US US16/717,229 patent/US11081114B2/en active Active
- 2019-12-17 CN CN201911299430.7A patent/CN111354358B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1787073A (zh) * | 2004-12-07 | 2006-06-14 | 三星电子株式会社 | 自动控制输入等级的语音识别系统及语音识别方法 |
WO2007118030A2 (en) * | 2006-04-03 | 2007-10-18 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
CN105408958A (zh) * | 2013-06-27 | 2016-03-16 | 思杰系统有限公司 | 使用语音识别来检测非语音性音频的计算机系统 |
JP2018109663A (ja) * | 2016-12-28 | 2018-07-12 | シャープ株式会社 | 音声処理装置、対話システム、端末装置、プログラム及び音声処理方法 |
CN108630202A (zh) * | 2017-03-21 | 2018-10-09 | 株式会社东芝 | 语音识别装置、语音识别方法以及语音识别程序 |
Also Published As
Publication number | Publication date |
---|---|
US11081114B2 (en) | 2021-08-03 |
JP7131362B2 (ja) | 2022-09-06 |
JP2020101603A (ja) | 2020-07-02 |
CN111354358B (zh) | 2023-04-25 |
US20200202865A1 (en) | 2020-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10699702B2 (en) | System and method for personalization of acoustic models for automatic speech recognition | |
CN107818798B (zh) | 客服服务质量评价方法、装置、设备及存储介质 | |
KR102293063B1 (ko) | 사용자 정의 가능한 웨이크업 음성 명령 | |
CN108320733B (zh) | 语音数据处理方法及装置、存储介质、电子设备 | |
CN102708855B (zh) | 利用话音识别器反馈来进行语音活动检测 | |
US6321197B1 (en) | Communication device and method for endpointing speech utterances | |
JP5576113B2 (ja) | 音声認識システムにモデルを適合させるための方法およびシステム | |
US20160071520A1 (en) | Speaker indexing device and speaker indexing method | |
CN111341325A (zh) | 声纹识别方法、装置、存储介质、电子装置 | |
KR20160060405A (ko) | 사용자 명령어 등록을 위한 디스플레이 장치 및 방법 | |
CN114051639A (zh) | 使用说话者基线进行情绪检测 | |
US20180308501A1 (en) | Multi speaker attribution using personal grammar detection | |
CN105405441B (zh) | 一种语音信息的反馈方法及装置 | |
CN110335593A (zh) | 语音端点检测方法、装置、设备及存储介质 | |
KR102217917B1 (ko) | 음성대화 시스템, 음성대화 방법 및 프로그램 | |
EP3739583B1 (en) | Dialog device, dialog method, and dialog computer program | |
KR20150145024A (ko) | 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법 | |
CN111370030A (zh) | 语音情感检测方法与装置、存储介质、电子设备 | |
KR20200025226A (ko) | 전자 장치 및 그 제어 방법 | |
KR102592613B1 (ko) | 자동 통역 서버 및 그 방법 | |
CN111354358B (zh) | 控制方法、语音交互装置、语音识别服务器、存储介质和控制系统 | |
CN111354351B (zh) | 控制装置、语音交互装置、语音识别服务器以及存储介质 | |
CN113990288B (zh) | 一种语音客服自动生成部署语音合成模型的方法 | |
KR20210098250A (ko) | 전자 장치 및 이의 제어 방법 | |
CN114509157A (zh) | 信息处理系统、信息处理方法以及程序 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |