CN1969315A - 基于声音的选择装置以及选择方法 - Google Patents

基于声音的选择装置以及选择方法 Download PDF

Info

Publication number
CN1969315A
CN1969315A CNA2005800194453A CN200580019445A CN1969315A CN 1969315 A CN1969315 A CN 1969315A CN A2005800194453 A CNA2005800194453 A CN A2005800194453A CN 200580019445 A CN200580019445 A CN 200580019445A CN 1969315 A CN1969315 A CN 1969315A
Authority
CN
China
Prior art keywords
output
sound
option
unit
guiding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005800194453A
Other languages
English (en)
Other versions
CN1969315B (zh
Inventor
野村和也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1969315A publication Critical patent/CN1969315A/zh
Application granted granted Critical
Publication of CN1969315B publication Critical patent/CN1969315B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

通过具有:输出单元(101),输出用于引导选择项目的引导声音;声音识别单元(106),识别在由输出单元(101)输出的引导声音的输出中或者其输出之后一定时间内发声的、用于选择选择项目的选择指示;以及对话控制/结果选择单元(107),在由声音识别单元(106)识别出选择指示的情况下,选择被选择指示的选择项目,通过在由输出单元(101)输出引导声音期间,或者其输出结束并经过一定时间前发出用于选择选择项目的声音,可以通过声音识别单元(106)选择该选择项目,即使在引导声音的输出中也可以选择选择项目。

Description

基于声音的选择装置以及选择方法
技术领域
本发明涉及用于通过声音选择由系统提示的项目的基于声音的选择装置、以及选择方法。
背景技术
以往,作为基于声音的选择装置,已知在通过声音指定了控制对象后依次用声音输出并选择控制内容的选择项目的技术(例如,特开平3-293400号公报)。
按照特开平3-293400号公报中记载的技术,可以控制开关而使声音控制系统成为可动作的状态,通过在该状态下将成为控制对象的设备的名称发声来识别该名称,该名称的设备的控制项目依次通过声音合成被发声,在发声了适当的控制项目的阶段通过发声为“是”,执行与该项目相应的控制。
而且,还已知以下技术(例如,特开平6-149534号公报):利用投影仪将个人计算机的画面设为大画面来显示,并基于该画面,通过发声在该画面上显示的项目来强调显示该项目,如果操作执行按钮,则显示该项目的细节,可以进行该项目的细节的监视、控制。
但是,在特开平3-293400号公报和特开平6-149534号公报中记载的技术中,没有提供具体地受理与系统提示的选择项目重叠的用户的声音的方法,因此,在通常的声音识别方法中,在通过合成声音输出选择项目中难以进行声音识别,同时从系统提示的选择项目的输出方法也被限定于声音,例如,存在不能通过声音直接进行音乐或图像等的选择的问题。
发明内容
本发明是处理这样的以往的问题而完成的,提供基于声音的选择装置和选择方法,即使在通过合成声音输出选择项目中,将音乐或图像等作为了选择项目的情况下也可以进行声音识别。
本发明的基于声音的选择装置具有以下结构,即包括:输出单元,输出用于引导选择项目的引导声音;声音识别单元,对在由所述输出单元输出的所述引导声音的输出中或者在其输出结束后一定时间内发声的、用于选择所述选择项目的选择指示进行识别;以及对话控制/结果选择单元,在由所述声音识别单元识别出所述选择指示的情况下,选择所述被选择指示的选择项目。
通过该结构,可以通过在由输出单元输出引导声音期间、该输出结束并经过一定时间前发出用于选择选择项目的声音,由声音识别单元选择该选择项目,即使在引导声音的输出中也可以选择选择项目。
而且,本发明的基于声音的选择装置具有以下结构,即在由所述输出单元输出的所述引导声音的输出中或者在其输出结束后一定时间内选择指示未被发声的情况下,所述对话控制/结果选择单元进行控制,以便将用于引导所述选择项目的下一个选择项目的引导声音输出到所述输出单元。
通过该结构,可以在未发出用于选择选择项目的声音的情况下,不断地在一定时间后输出用于引导下一个选择项目的引导声音,在喜好的选择项目中任意地发出选择指示,并选择该选择项目。
而且,本发明的基于声音的选择装置具有以下结构,即所述声音识别单元包括:声音去除单元,从被输入到所述声音识别单元的声音中减去由所述输出单元输出的所述引导声音。
通过该结构,由输出单元输出的引导声音被输入声音识别单元,可以尽量排除对声音识别单元进行的选择指示的声音识别产生障碍,即使在引导声音输出中也可以正确地识别选择指示。
而且,本发明的基于声音的选择装置具有以下结构,即其中还包括:乐曲再现单元,再现对应于所述引导声音的乐曲的一部分或者全部,所述声音识别单元对在由所述乐曲再现单元再现所述乐曲期间或者再现结束后一定时间内被输入的选择指示进行声音识别。
通过该结构,仅通过在用于引导声音的乐曲的再现中,或者在其之后一定时间内发出用于选择指示选择项目的声音,就可以选择并听取该乐曲。
而且,本发明的基于声音的选择装置具有以下结构,即其中还包括:生成对应于所述引导声音的图像的图像生成单元,所述图像识别单元对在由所述图像生成单元生成所述图像期间或者生成后一定时间内被输入的选择指示进行声音识别。
通过该结构,仅通过在生成并显示对应于引导声音的图像期间,或者在其之后一定时间内发出用于选择指示选择项目的声音,就可以选择该图像,例如,如果为静止图像,则可以原样继续观看静止图像,如果是活动图像,则可以继续该活动画面并观看。
而且,本发明的基于声音的选择装置具有以下结构,即其中还包括:输入等待时间设定单元,在由所述输出单元输出的所述引导声音的输出中或者在其输出结束后设定一定时间,所述声音识别单元对在由所述输入等待时间设定单元设定的所述一定时间内被发声的、用于选择所述选择项目的选择指示进行识别。
通过该结构,可以通过在由输出单元输出引导声音期间、或该输出结束并经过被设置的一定时间的输入等待时间前发出用于选择选择项目的声音,由声音识别单元选择该选择项目,即使在引导声音的输出中也可以更确实地选择选择项目。
进而,本发明的基于声音的选择方法具有以下结构,即包括:输出步骤,输出用于引导选择项目的引导声音;声音识别步骤,对在所述输出步骤中输出的所述引导声音的输出中或者在其输出结束后一定时间内发声的、用于选择所述选择项目的选择指示进行识别;以及对话控制/结果选择步骤,在由所述声音识别步骤识别出所述选择指示的情况下,选择所述被选择指示的选择项目。
通过该结构,通过在输出步骤中引导声音被输出期间、其输出结束并在经过一定期间之前发出用于选择选择项目的声音,可以通过声音识别步骤选择该选择项目,即使在引导声音输出中也可以选择选择项目。
如上所述,本发明的基于声音的选择装置包括:输出单元,输出用于引导选择项目的引导声音;声音识别单元,对在由所述输出单元输出的所述引导声音的输出中或者在其输出结束后一定时间内发声的、用于选择所述选择项目的选择指示进行识别;以及对话控制/结果选择单元,在由所述声音识别单元识别出所述选择指示的情况下,选择所述被选择指示的选择项目,通过在由输出单元输出引导声音期间、该输出结束并经过一定时间前发出用于选择选择项目的声音,由声音识别单元选择该选择项目,即使在引导声音的输出中也可以选择选择项目。
而且,本发明的基于声音的选择方法具有以下步骤,即包括:输出步骤,输出用于引导选择项目的引导声音;声音识别步骤,对在所述输出步骤中输出的所述引导声音的输出中或者在其输出结束后一定时间内发声的、用于选择所述选择项目的选择指示进行识别;以及对话控制/结果选择步骤,在由所述声音识别步骤识别出所述选择指示的情况下,选择所述被选择指示的选择项目,通过在输出步骤中引导声音被输出期间、其输出结束并在经过一定期间之前发出用于选择选择项目的声音,可以通过声音识别步骤选择该选择项目,即使在引导声音输出中也可以选择选择项目。
本发明的基于声音的选择装置包括:输出单元,输出用于引导选择项目的引导声音;输入等待时间设定单元,在由所述输出单元输出的所述引导声音的输出中或者在其输出结束后设定一定时间;声音识别单元,对在由所述输入等待时间设定单元设定的所述一定时间内被发声的、用于选择所述选择项目的选择指示进行识别;以及对话控制/结果选择单元,在由所述声音识别单元识别出所述选择指示的情况下,选择所述被选择指示的选择项目,通过在由输出单元输出引导声音期间、该输出结束并经过一定时间前发出用于选择选择项目的声音,由声音识别单元选择该选择项目,即使在引导声音的输出中也可以选择选择项目。
附图说明
图1是表示本发明的实施方式1中的基于声音的选择装置的概略结构的方框图。
图2是表示本发明的实施方式1中的基于声音的选择装置的动作的流程图。
图3是表示本发明的实施方式1中的基于声音的选择装置的动作的时序图。
图4是表示本发明的实施方式2中的基于声音的选择装置的概略结构的方框图。
图5是表示本发明的实施方式2中的基于声音的选择装置的动作的流程图。
图6是表示本发明的实施方式2中的基于声音的选择装置的动作的时序图。
图7是表示本发明的实施方式3中的基于声音的选择装置的概略结构的方框图。
图8是表示本发明的实施方式3中的基于声音的选择装置的动作的流程图。
图9是表示本发明的实施方式3中的基于声音的选择装置的动作的时序图。
图10是表示本发明的实施方式4中的基于声音的选择装置的概略结构的方框图。
图11是表示本发明的实施方式4中的基于声音的选择装置的动作的流程图。
图12是表示本发明的实施方式4中的基于声音的选择装置的动作的时序图。
标号说明
101 扬声器
102 麦克风
103 系统声音去除单元
104 滤波器系数学习单元
105 自自适应滤波器单元
106 声音识别单元
107,1007对话控制/结果选择单元
108,1008响应生成单元
109 响应声音数据库
110 减法器
411 音乐再现单元
412 音乐数据库
413 混频器单元
700 显示器
711 图像生成单元
712 图像/活动画面数据库
1011 输入等待时间设定单元
具体实施方式
以下,参照附图对本发明的实施方式进行说明。
(实施方式1)
图1是表示本发明的实施方式1中的基于声音的选择装置的概略结构的方框图。
如图1所示,本发明的实施方式1中的基于声音的选择装置包括:作为对用户输出作为引导的声音或声音响应的系统侧的声音的输出单元的扬声器(声音输出单元)101;将用户发出的声音变换为声音信号的麦克风102;作为将与扬声器101输出的引导声相当的输出相当信号从由麦克风102输出的声音信号中去除的声音去除单元的系统声音去除单元103;根据从麦克风102输出的、通过系统声音去除单元103去除重叠信号部分而得到的声音信号,识别用户声音的发话内容的声音识别单元106;根据由声音识别单元106得到的用户声音的内容选择对应的响应声音而控制与用户的对话,同时选择结果的对话控制/结果选择单元107;存储了响应声音数据的响应声音数据库109;根据对话控制/结果选择单元107的输出,利用响应声音数据库109的数据来生成用于输出到扬声器101或系统声音去除单元103的声音响应信号的响应生成单元108。
系统声音去除单元103包括:滤波器系数学习单元104,根据从麦克风102输出的声音信号和从响应生成单元108输出的响应声音信号,例如一边学习利用LMS(Least Mean Square)/牛顿算法得到的滤波器系数(脉冲响应),一边调整为最佳;自自适应滤波器单元105,根据作为来自滤波器系数学习单元104的输出的脉冲响应校正并输出响应声音信号;以及减法器110,从麦克风102输出的声音信号中减去由自适应滤波器单元105输出的输出信号。
声音识别单元106包括:音响处理单元,对从麦克风102输出的、由系统声音去除单元103减去了声音响应的相当重叠部分的声音信号进行音响处理;音素识别单元,根据由音响处理单元得到的声音的最小单位选出并识别最相似的音素候选;辞典数据库,存储与声音对话系统的利用目的关联的单词等;语言处理单元,根据在音素识别单元得到的音素和来自辞典数据库的声音数据选定单词的候选,并执行用于利用句子结构、含义、文理等的语言信息得到正确的文章的语言处理。
而且,音响处理单元例如构成为:利用LPC倒频谱(Linear PredictorCoefficient Cepstrum:线性预测系数化倒频谱)等,将从麦克风102输出的声音信号变换为所谓特征量向量的时间系列的向量,并推测声音频谱的大概形状(频谱包络)。
而且,音素识别部例如构成为:利用HMM(Hidden Markov Model:隐藏马尔可夫模型)法等,根据输入的声音,利用由音响处理单元提取的音响参数,进行声音信号的音素记号化,与预先准备的标准音素模型比较,选出与其最相似的音素的候选。
另一方面,对话控制/结果选择单元107根据由声音识别单元106识别的声音信号的内容,选择控制响应内容并将其输出到响应生成单元108,同时选择输出结果。
响应生成单元108根据由对话控制/结果选择单元107决定的内容,利用来自响应声音数据库109的数据来生成响应声音信号,输出到扬声器101。
接着,利用图2、图3详细地说明本发明的实施方式1中的基于声音的选择装置的动作。
而且,图2是说明本发明的实施方式1中的基于声音的选择装置的动作的流程图,图3是时序图。
首先,在进入选择开始动作时,基于对话控制/结果选择单元107的控制,选择项目的计数器N被设为1(步骤201)。在选择项目的计数器N被设为1时,接着响应生成单元108根据来自对话控制/结果选择单元107的指令将引导声音从响应声音数据库109输出到扬声器101(步骤202)。
例如,如图3的时序图所示那样,将“请从下面中选择希望的曲名。”那样的引导声音(301)输出到扬声器101。
如果引导声音从扬声器101输出,则接着进行声音识别的起动,以便可以对来自用户的选择指示进行声音识别(步骤203)。由此,声音识别单元106如图3所示那样起动(302)。
如果声音识别单元106起动,则接着根据对话控制/结果选择单元107的控制,响应生成单元108访问响应声音数据库109,输出对应于第一个选择项目的声音数据(步骤204)。
即,由此,例如如图3所示那样,将“青鳉的学校。”的引导声音(303)输出到扬声器101。于是,“青鳉的学校。”的引导声音(303)被输出的期间308A,以及在该输出结束后的一定期间(输入等待时间)308B成为可以选择第一个选择项目的“青鳉的学校”的时间308。隐藏,如果在该期间308用户发出了指示选择的语言,例如“就是它!”的语言,则可以选择“青鳉的学校”。
在可以选择“青鳉的学校”的期间308,如果用户没有发出进行选择指示的语言,例如“就是它!”的语言的情况下,选择项目的计数器N中加1,成为输出对应于下一个选择项目的引导声音的状态。
即,在输出对应于选择项目的声音时(步骤204),对话控制/结果选择单元107执行在该选择项目的提示中或者提示结束后一定时间内用户是否发出了指示选择的语言的声音的判定(步骤205)。
在用户进行了选择指示的情况下(步骤205中“是”的情况),此时,例如虽然选择了“青鳉的学校”,但是未进行选择指示的情况下(步骤205中“否”的情况下),对选择项目的计数器N加1(步骤206),成为输出对应于下一个选择项目的声音,即对应于第二个选择项目的引导声音的状态(步骤204)。
由此,响应生成单元108访问响应声音数据库109,将第二个引导声音的例如“扫晴娘。”的引导声音(304)输出到扬声器101。
这时,在输出“扫晴娘。”的引导声音(304)的期间309A,以及该输出结束之后的一定时间(输入等待时间)309B也成为可选择第二个选择项目的“扫晴娘”的期间309,在该期间309中如果用户发出了选择指示的语言,例如“就是它!”的语言的声音,则可以选择作为第二个选择项目的“扫晴娘”。
在选择项目提示中,或者在提示结束后一定时间内,用户未发出指示选择的语言,例如“就是它!”的声音的情况下,该情况被对话控制/结果选择单元107判定(步骤205),在该判定后,分支到“否”的路径,与以前一样,对选择项目的计数器N加1(步骤206),输出对应于下面的第三个选择项目的引导声音(步骤204)。
然后,由此响应生成单元108访问响应声音数据库109,作为第三个引导声音,例如将“闪闪的星。”的引导声音(305)输出到扬声器101。
在第三个引导声音“闪闪的星。”(305)被输出期间310A,以及输出结束后的一定期间(输入等待时间)310B,为可以选择作为第三个选择项目的“闪闪的星”的时间310,在该期间310中,如果用户发出了选择指示的语言,例如“就是它!”的语言的声音,则可以选择作为第三个选择项目的“闪闪的星”。
在图3中,用户为了对作为第三个选择项目的“闪闪的星”进行选择指示,在第三个引导声音“闪闪的星。”(305)被输出期间,或者在其后的一定期间,发出用于选择它的声音,例如“就是它!”的指示声音(306)。
这里,如果在输出引导声音“闪闪的星。”(305)期间,用户发出了“就是它!”的指示声音(306),则引导声音“闪闪的星”(305)和“就是它!”(306)的指示声音重叠地被输入到麦克风102,但是通过系统声音去除单元103将与引导声音相当部分的信号,即“闪闪的星”(305)的声音相当的部分的信号从输入到麦克风102的信号中去除,在声音识别单元106中可以正确地识别用户发声的指示声音“就是它!”(306)。
在图2中,在选择项目提示中,或者在提示结束后一定时间内用户发出了选择指示的语言,例如“就是它!”的语言的声音的情况下,它被声音识别单元106识别,在对话控制/结果选择单元107被判定(步骤205),分支到“是”的路径。
在分支到“是”的路径时,进行声音识别从而结束该声音识别(步骤207),选择这时的选择项目(步骤208),以后,根据被选择的结果,例如“闪闪的星”,对话控制/结果选择单元107进行对话控制。
而且,虽然未图示,但是构成为在最后的选择项目被提示的阶段,在虽然经过一定时间,但未从用户发出选择指示的语言的声音的情况下,从扬声器101进行超时的警告,结束声音识别而中止选择。
如上所述,按照本发明的实施方式1,在系统基于声音提示选择项目的期间,或者提示结束后被设置的输入等待时间内,用户发出了进行选择指示的语言的声音的情况下,可以选择发出了该选择指示的语言的阶段的选择项目。
(实施方式2)
图4是表示本发明的实施方式2中的基于声音的选择装置的概略结构的方框图,图5是说明该装置的动作的流程图,图6是说明该装置的动作的时序图。
而且,在图4~图6中,赋予与图1~图3所示的实施方式1相同标号、号码等的部分表示与图1~图3所示的实施方式1相同的结构、相同的内容的部分,这里省略其详细的说明。
在本实施方式中,除了实施方式1的结构,还具有由对话控制/结果选择单元107的指令控制的音乐再现单元411;以及存储多个音乐的音乐数据库412。
音乐再现单元411被构成为通过来自对话控制/结果选择单元107的指令访问音乐数据库412,并且再现在对话控制/结果选择单元107中指示的音乐。然后,由音乐再现单元411再现的音乐经由混频器单元413与来自响应生成单元108的输出一起输出到扬声器101。
在图6中,基于音乐输出的引导音乐603~605分别对应于图3的引导声音303~305。
因此,按照本实施方式,如图5、图6所示,不仅输出作为选择项目的引导声音,而且还同时输出对应于该选择项目的音乐及其本身,在选择音乐的情况下更方便。
即,按照本实施方式,在实施方式1中,输出对应于第N个选择项目的引导声音的步骤204变为输出对应于第N个选择项目的音乐的步骤504,在该步骤504中,如果依次输出对应于第N个选择项目的引导声音和对应于第N个选择项目的音乐两者,则首先曲名被输出,接着音乐被输出,所以在选择音乐的情况下变得更方便。
而且,这里,为选择而输出的音乐也可以不是音乐全部(一个乐曲全体),例如,仅序曲或者副曲(サビ)部分就足够。于是,不论为选择而输出的音乐全部或者仅序曲或副曲部分,在为选择而输出的音乐已被选择的情况下,通过音乐再现单元411,可以原样继续并输出该音乐,也可以暂时返回音乐的最初后输出。
这样,按照本实施方式,将音乐作为选择项目提示,并且如果在该期间,或者提示结束后一定时间内用户发出选择指示的语言的声音,则可以容易地选择该用户希望的音乐。
(实施方式3)
图7是表示本发明的实施方式2中的基于声音的选择装置的概略结构的方框图,图8是说明该装置的动作的流程图,图9是说明该装置的动作的时序图。
而且,在图7~图9中,赋予与图1~图3所示的实施方式1相同标号、号码等的部分表示与图1~图3所示的实施方式1相同的结构、相同的内容的部分,这里省略其详细的说明。
在本实施方式中,除了实施方式1的结构,还包括:由对话控制/结果选择单元107的指令控制的图像生成单元711;存储多个静止画面、活动画面等的图像的图像/活动画面数据库712;以及显示由图像生成单元711生成的图像的显示器700。
图像生成单元711被构成为通过来自对话控制/结果选择单元107的指示访问图像/活动画面数据库712,并输出在对话控制/结果选择单元107中指示的静止画面、活动画面等图像数据,并且生成图像。然后,图像生成单元711生成的图像被显示在显示器700中。
在图9中,基于声音输出的引导声音901、基于对显示器的显示的引导图像903~905分别对应于图3的引导声音301、303~305。
因此,按照本实施方式,如图8、图9所示,不仅输出成为选择项目的引导声音,而且还同时在显示器700上显示对应于该选择项目的图像,在选择选择项目时更方便。
即,按照本实施方式,在实施方式1中,输出对应于第N个选择项目的引导声音的步骤204变为输出对应于第N个选择项目的图像的步骤804,在该步骤804中,输出对应于第N个选择项目的引导声音和对应于第N个选择项目的图像两者,前者从扬声器101作为声音,后者在显示器700中作为图像或者活动画面被显示。因此,以它们为基础,可以更容易地选择选择项目。
而且,在为选择而输出的图像为活动画面时,也可以不是该活动画面的全部,例如,仅最初的或者子画面的一定时间就足够。于是,无论为选择而输出的图像的全部还是仅一定时间,在为选择而输出的图像已被选择的情况下,都可以通过图像生成单元711原样继续并显示该图像,也可以暂时返回活动画面的最初后显示。
这样,按照本实施方式,除了选择项目的引导声音,还将与其对应的图像也作为选择项目进行提示,并且如果在该提示的时间或者提示结束后一定时间内用户发出了选择指示的语言的声音,则可以选择该用户希望的选择项目,所以,例如具有绘画或电影等图像本身很好,在音乐的情况下,通过提示护封(jacket)的图像,也可以更容易地选择音乐的效果。
(实施方式4)
在上述各实施方式中,例如如图3所示,没有积极地设置用于选择的时间308B、309B等的结构,但是利用图10至图12对具有设置用于该选择的时间308B、309B等的输入等待时间设定单元的基于声音的选择装置进行说明。
通过具有该输入等待时间设定单元,可以更确实地进行声音识别。
图10是表示本发明的实施方式4中的基于声音的选择装置的概略结构的方框图,图11是说明该装置的动作的流程图,图12是说明该装置的动作的时序图。
在图10中,由于本实施方式的基本的结构与上述实施方式1记载的基于声音的选择装置的结构图一样,所以这里仅对两者的不同点进行说明,并且对于其他的基本的结构、动作加以省略。
本实施方式的对话控制/结果选择单元1007和响应生成单元1008与实施方式1的对应部分具有不同的功能,而且,在本实施方式中,具有与对话控制/结果选择单元1007和响应生成单元1008连接的输入等待时间设定单元1011。
与实施方式1一样,在对话控制/结果选择单元1007的控制下声音识别单元106起动时,响应生成单元1008访问响应声音数据库109,并且输出对应于选择项目的声音数据。
进而,在对话控制/结果选择单元1007中,判定对应于选择项目的声音数据是否完成输出。
对话控制/结果选择单元1007的判定的结果,在确认了声音数据已被输出时,通过设定用户用于响应的期间的输入等待时间设定单元1011设定输入等待时间。
在响应生成单元1008中,在该输入等待时间的期间,通过对话控制/结果选择单元1007禁止其动作。
接着,利用图11和图12对本实施方式的基于声音的选择装置的动作进行说明,但是由于到声音识别的起动为止(步骤201~步骤203)与实施方式1的动作一样,所以这里省略。
在步骤203中声音识别单元106起动时,接着,根据对话控制/结果选择单元1007的控制,响应生成单元1008访问响应声音数据库109,并且输出与第一个选择项目对应的声音数据(步骤204)。
即,由此,例如如图12所示,将“青鳉的学校。”的引导声音(303)输出到扬声器101。
接着,对话控制/结果选择单元1007进行“青鳉的学校。”的引导声音(303)的输出是否已结束的判定。
判定的结果,引导声音(303)的输出结束的情况下,输入等待时间设定单元1011在对话控制/结果选择单元1007的控制下设定输入等待时间1208B(步骤1109)。
于是,“青鳉的学校。”的引导声音(303)被输出的期间308A,以及该输出结束后的一定时间1208B成为可选择作为第一个选择项目的“青鳉的学校”的时间1208。因此,如果在该期间1208用户发出了指示选择的语言,例如“就是它!”的语言的声音,则可以选择“青鳉的学校”。
对话控制/结果选择单元1007在由输入等待时间设定单元1011设定的输入时间期间,禁止响应生成单元1008的动作,以便不通过响应生成单元1008产生下一个引导声音或者由于误动作产生引导声音等。
是否禁止响应生成单元1008的动作,通过是否经过了输入等待时间设定单元1011设定的时间的判定来进行。
接着,在可以选择“青鳉的学校”的期间1208,用户未发出选择指示的语言,例如:“就是它!”的语言的声音的情况下,对选择项目的计数器N加1,成为输出对应于下一个选择项目的引导声音的状态。
即,在步骤204中输出对应于选择项目的声音时,在该选择项目的提示中,或者提示结束以后,对话控制/结果选择单元1007进行在由步骤S1109设定的输入等待时间的一定时间内用户是否发出了指示选择的语言的声音的判定(步骤1105)。
接着,在输入等待时间中用户发出了指示选择的语言的声音的情况下(步骤1105中的“是”的情况),这里,例如虽然选择了“青鳉的学校”,但是没有发出指示选择的语言的声音的情况下(步骤1105中的“否”的情况),对选择项目的计数器N加1(步骤1106),成为输出与下一个选择项目对应的声音,即与第二个选择项目对应的引导声音的状态(步骤204)。
这时,在图12中,对应第二个或者第三个选择项目,引导声音(304或者305)输出的期间309A或者310A,以及各个输出结束后的各个一定时间1209B或者1210B成为可以选择第二个或者第三个选择项目的时间1209或1210。
这之后的处理与实施方式1的图2所示的动作一样。
如上所述,在本实施方式中,通过具有输入等待时间设定单元1011,可以等待用户的响应,并且积极地设定等待时间。
通过这样积极地设定等待时间,下一个引导声音不会在输入等待时间内被误输出,从而侵占输入等待时间,可以一定确实地设置用户的可响应的期间。
本实施方式的具有输入等待时间设定单元1011的结构也可以应用于上述实施方式2或实施方式3的结构,不用说也可以得到与本实施方式一样的动作和效果。
而且,本发明也可以适当地组合上述各实施方式,例如,除了选择项目的引导声音,也可以通过将与其对应的图像和乐曲也作为选择项目提示,通过在该提示的时间,或者提示结束后被设置的一定时间的输入等待时间内用户发出选择指示的语言的声音,该用户可以选择希望的选择项目。
产业上的可利用性
本发明的基于声音的选择装置具有以下结构,即包括:输出单元,输出用于引导选择项目的引导声音;声音识别单元,对在由输出单元输出的引导声音的输出中或者在其输出结束后一定时间内发声的、用于选择选择项目的选择指示进行识别;以及对话控制/结果选择单元,在由声音识别单元识别出选择指示的情况下,选择被选择指示的选择项目,可以广泛地用于汽车音响、汽车空调等车载用电子设备,或者电子黑板、投影仪等电子事务设备、残疾人用的家庭用电子设备等。

Claims (7)

1、一种基于声音的选择装置,包括:
输出单元,输出用于引导选择项目的引导声音;
声音识别单元,对在由所述输出单元输出的所述引导声音的输出中或者在其输出结束后一定时间内发声的、用于选择所述选择项目的选择指示进行识别;以及
对话控制/结果选择单元,在由所述声音识别单元识别出所述选择指示的情况下,选择所述被选择指示的选择项目。
2、如权利要求1所述的基于声音的选择装置,其特征在于,
在由所述输出单元输出的所述引导声音的输出中或者在其输出结束后一定时间内选择指示未被发声的情况下,所述对话控制/结果选择单元进行控制,以便将用于引导所述选择项目的下一个选择项目的引导声音输出到所述输出单元。
3、如权利要求1所述的基于声音的选择装置,其特征在于,
所述声音识别单元包括:声音去除单元,从被输入到所述声音识别单元的声音中减去由所述输出单元输出的所述引导声音。
4、如权利要求1所述的基于声音的选择装置,其特征在于,
其中还包括:乐曲再现单元,再现对应于所述引导声音的乐曲的一部分或者全部,
所述声音识别单元对在由所述乐曲再现单元再现所述乐曲期间或者再现结束后一定时间内被输入的选择指示进行声音识别。
5、如权利要求1所述的基于声音的选择装置,其特征在于,
其中还包括:生成对应于所述引导声音的图像的图像生成单元,
所述图像识别单元对在由所述图像生成单元生成所述图像期间或者生成后一定时间内被输入的选择指示进行声音识别。
6、如权利要求1所述的基于声音的选择装置,其特征在于,
其中还包括:输入等待时间设定单元,在由所述输出单元输出的所述引导声音的输出中或者在其输出结束后设定一定时间,
所述声音识别单元对在由所述输入等待时间设定单元设定的所述一定时间内被发声的、用于选择所述选择项目的选择指示进行识别。
7、一种基于声音的选择方法,包括:
输出步骤,输出用于引导选择项目的引导声音;
声音识别步骤,对在所述输出步骤中输出的所述引导声音的输出中或者在其输出结束后一定时间内发声的、用于选择所述选择项目的选择指示进行识别;以及
对话控制/结果选择步骤,在由所述声音识别步骤识别出所述选择指示的情况下,选择所述被选择指示的选择项目。
CN2005800194453A 2004-12-21 2005-12-20 基于声音的选择装置以及选择方法 Active CN1969315B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2004368807 2004-12-21
JP368807/2004 2004-12-21
JP347641/2005 2005-12-01
JP2005347641A JP2006201749A (ja) 2004-12-21 2005-12-01 音声による選択装置、及び選択方法
PCT/JP2005/023336 WO2006068123A1 (ja) 2004-12-21 2005-12-20 音声による選択装置、及び選択方法

Publications (2)

Publication Number Publication Date
CN1969315A true CN1969315A (zh) 2007-05-23
CN1969315B CN1969315B (zh) 2012-06-20

Family

ID=36601723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800194453A Active CN1969315B (zh) 2004-12-21 2005-12-20 基于声音的选择装置以及选择方法

Country Status (5)

Country Link
US (1) US7698134B2 (zh)
EP (1) EP1768103B1 (zh)
JP (1) JP2006201749A (zh)
CN (1) CN1969315B (zh)
WO (1) WO2006068123A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516449A (zh) * 2013-09-27 2015-04-15 歌乐株式会社 车辆用装置、服务器和信息处理方法
CN111369972A (zh) * 2018-12-06 2020-07-03 阿尔派株式会社 引导声音输出控制系统及引导声音输出控制方法

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
JP4131978B2 (ja) * 2006-02-24 2008-08-13 本田技研工業株式会社 音声認識機器制御装置
JP2008065789A (ja) * 2006-09-11 2008-03-21 Canon Inc 入力操作支援装置およびその制御方法
US20100250253A1 (en) * 2009-03-27 2010-09-30 Yangmin Shen Context aware, speech-controlled interface and system
US8700405B2 (en) * 2010-02-16 2014-04-15 Honeywell International Inc Audio system and method for coordinating tasks
JP5431282B2 (ja) * 2010-09-28 2014-03-05 株式会社東芝 音声対話装置、方法、プログラム
US9432611B1 (en) 2011-09-29 2016-08-30 Rockwell Collins, Inc. Voice radio tuning
US9922651B1 (en) * 2014-08-13 2018-03-20 Rockwell Collins, Inc. Avionics text entry, cursor control, and display format selection via voice recognition
KR102081925B1 (ko) 2012-08-29 2020-02-26 엘지전자 주식회사 디스플레이 디바이스 및 스피치 검색 방법
WO2014057704A1 (ja) * 2012-10-12 2014-04-17 Kaneko Kazuo 商品情報提供システム、商品情報提供装置、及び商品情報出力装置
US8977555B2 (en) * 2012-12-20 2015-03-10 Amazon Technologies, Inc. Identification of utterance subjects
US10255038B2 (en) * 2013-04-26 2019-04-09 Microsoft Technology Licensing, Llc Techniques to present a user interface for the visually impaired
KR102158315B1 (ko) * 2013-10-14 2020-09-21 삼성전자주식회사 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
JP2016061970A (ja) * 2014-09-18 2016-04-25 株式会社東芝 音声対話装置、方法およびプログラム
US11314215B2 (en) 2017-09-15 2022-04-26 Kohler Co. Apparatus controlling bathroom appliance lighting based on user identity
US11099540B2 (en) 2017-09-15 2021-08-24 Kohler Co. User identity in household appliances
US10448762B2 (en) 2017-09-15 2019-10-22 Kohler Co. Mirror
US11093554B2 (en) 2017-09-15 2021-08-17 Kohler Co. Feedback for water consuming appliance
US10887125B2 (en) 2017-09-15 2021-01-05 Kohler Co. Bathroom speaker
CN108156497B (zh) * 2018-01-02 2020-12-18 联想(北京)有限公司 一种控制方法、控制设备及控制系统

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63240598A (ja) 1987-03-27 1988-10-06 日本電気株式会社 音声応答認識装置
JPH03293400A (ja) 1990-04-10 1991-12-25 Oki Electric Ind Co Ltd 音声制御方法
JPH04301697A (ja) 1991-03-29 1992-10-26 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置
JPH06149534A (ja) 1992-11-13 1994-05-27 Toshiba Corp 音声画面操作装置
US7509270B1 (en) * 1992-12-09 2009-03-24 Discovery Communications, Inc. Electronic Book having electronic commerce features
US5918213A (en) * 1995-12-22 1999-06-29 Mci Communications Corporation System and method for automated remote previewing and purchasing of music, video, software, and other multimedia products
JPH11224265A (ja) * 1998-02-06 1999-08-17 Pioneer Electron Corp 情報検索装置及び情報検索方法並びに情報検索プログラムを記録した記録媒体
JP3178426B2 (ja) * 1998-07-29 2001-06-18 日本電気株式会社 自然言語対話システム及び自然言語対話プログラム記録媒体
US7209892B1 (en) * 1998-12-24 2007-04-24 Universal Music Group, Inc. Electronic music/media distribution system
JP3629384B2 (ja) * 1999-06-29 2005-03-16 シャープ株式会社 情報選択装置及び記録媒体
JP2000338992A (ja) 1999-05-26 2000-12-08 Fujitsu Ten Ltd 音声認識装置
US6693236B1 (en) * 1999-12-28 2004-02-17 Monkeymedia, Inc. User interface for simultaneous management of owned and unowned inventory
US7173177B1 (en) * 1999-12-28 2007-02-06 Blue Dolphin Solutions Llc User interface for simultaneous management of owned and unowned inventory
GB2360106B (en) * 2000-02-21 2004-09-22 Ac Properties Bv Ordering playable works
JP4543294B2 (ja) * 2000-03-14 2010-09-15 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
WO2001071608A2 (en) * 2000-03-17 2001-09-27 Mark Nair System, method and apparatus for controlling the dissemination of digital works
US6510417B1 (en) * 2000-03-21 2003-01-21 America Online, Inc. System and method for voice access to internet-based information
US7526450B2 (en) * 2000-04-19 2009-04-28 Sony Corporation Interface for presenting downloadable digital data content format options
US7043447B2 (en) * 2000-04-19 2006-05-09 Sony Corporation Method for facilitating a transaction for purchasable content over an electronic network
US7437286B2 (en) * 2000-12-27 2008-10-14 Intel Corporation Voice barge-in in telephony speech recognition
US6885735B2 (en) * 2001-03-29 2005-04-26 Intellisist, Llc System and method for transmitting voice input from a remote location over a wireless data channel
US6555738B2 (en) * 2001-04-20 2003-04-29 Sony Corporation Automatic music clipping for super distribution
JP2002366187A (ja) * 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
US6941268B2 (en) * 2001-06-21 2005-09-06 Tellme Networks, Inc. Handling of speech recognition in a declarative markup language
CA2457198A1 (en) * 2001-08-16 2003-02-27 Trans World New York Llc User-personalized media sampling, recommendation and purchasing system using real-time inventory database
JP2003177788A (ja) 2001-12-12 2003-06-27 Fujitsu Ltd 音声対話システムおよびその方法
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
JP3892302B2 (ja) 2002-01-11 2007-03-14 松下電器産業株式会社 音声対話方法および装置
JP2004191705A (ja) * 2002-12-12 2004-07-08 Renesas Technology Corp 音声認識装置
KR100668297B1 (ko) 2002-12-31 2007-01-12 삼성전자주식회사 음성인식방법 및 장치
JP2005071522A (ja) * 2003-08-27 2005-03-17 Sony Corp コンテンツ再生方法、コンテンツ再生装置およびコンテンツ配信方法
US7624016B2 (en) * 2004-07-23 2009-11-24 Microsoft Corporation Method and apparatus for robustly locating user barge-ins in voice-activated command systems

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516449A (zh) * 2013-09-27 2015-04-15 歌乐株式会社 车辆用装置、服务器和信息处理方法
CN104516449B (zh) * 2013-09-27 2018-06-08 歌乐株式会社 车辆用装置、服务器和信息处理方法
CN111369972A (zh) * 2018-12-06 2020-07-03 阿尔派株式会社 引导声音输出控制系统及引导声音输出控制方法
CN111369972B (zh) * 2018-12-06 2024-06-07 阿尔派株式会社 引导声音输出控制系统及引导声音输出控制方法

Also Published As

Publication number Publication date
CN1969315B (zh) 2012-06-20
EP1768103A4 (en) 2008-02-27
EP1768103A1 (en) 2007-03-28
US20070219805A1 (en) 2007-09-20
US7698134B2 (en) 2010-04-13
WO2006068123A1 (ja) 2006-06-29
JP2006201749A (ja) 2006-08-03
EP1768103B1 (en) 2014-06-11

Similar Documents

Publication Publication Date Title
CN1969315A (zh) 基于声音的选择装置以及选择方法
CN1183510C (zh) 根据基音信息识别声调语言的方法与设备
CN1311422C (zh) 语音识别评价装置和语音识别评价方法
CN1229773C (zh) 语音识别对话装置
CN1187734C (zh) 机器人控制设备
CN1213401C (zh) 声音交互设备和声音交互方法
CN1221942C (zh) 人物动画
CN1750120A (zh) 索引设备和索引方法
JP2003022087A (ja) 音声認識方法
CN1894740A (zh) 信息处理系统、信息处理方法以及信息处理用程序
CN1752897A (zh) 把图形数据输入图形输入区的系统和方法
CN1461463A (zh) 语音合成设备
CN1460050A (zh) 对于机器人装置的动作教学装置和方法以及存储介质
CN1856065A (zh) 动画处理装置
JPH08146991A (ja) 情報処理装置及びその制御方法
JP2009122667A (ja) 台詞音声作成装置、発話音声収録装置、及びコンピュータプログラム
CN110996163A (zh) 用于自动字幕显示的系统和方法
CN1461464A (zh) 语言处理装置
CN1902682A (zh) 口语系统
CN111429882B (zh) 播放语音的方法、装置及电子设备
JP2005056170A (ja) 対話型操作支援システム
CN116403583A (zh) 语音数据处理方法和装置、非易失性存储介质及车辆
CN114734942A (zh) 调节车载音响音效的方法及装置
CN111627417B (zh) 播放语音的方法、装置及电子设备
JP2010134681A (ja) 講演資料作成支援システム、講演資料作成支援方法及び講演資料作成支援プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140716

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140716

Address after: California, USA

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Patentee before: Matsushita Electric Industrial Co.,Ltd.