CN110612569A - 信息处理装置、电子设备、控制方法及控制程序 - Google Patents

信息处理装置、电子设备、控制方法及控制程序 Download PDF

Info

Publication number
CN110612569A
CN110612569A CN201880030304.9A CN201880030304A CN110612569A CN 110612569 A CN110612569 A CN 110612569A CN 201880030304 A CN201880030304 A CN 201880030304A CN 110612569 A CN110612569 A CN 110612569A
Authority
CN
China
Prior art keywords
voice
noise
detected
unit
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880030304.9A
Other languages
English (en)
Inventor
佐藤义雄
石川善朗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of CN110612569A publication Critical patent/CN110612569A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/01Noise reduction using microphones having different directional characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Manipulator (AREA)
  • Toys (AREA)

Abstract

防止由误动作引起的响应。控制部(10)具备:语音获取部(11),其分别区别并获取来自多个麦克风(30)的检测语音;噪音判断部(14),其分别针对所述检测语音,当无法从所述检测语音识别出发话内容时,判断检测语音为噪音;检测控制部(17),当所述检测语音被所述噪音判断部判断为噪音时,使一个以上的麦克风(30)的语音检测停止。

Description

信息处理装置、电子设备、控制方法及控制程序
技术领域
本发明关于一种识别发话内容,使输出部输出与该发话内容对应的响应的信息处理装置。
背景技术
近年来,各种信息处理装置被开发,所述信息处理装置通过传感器或麦克风等检测出发话,并输出与该发话内容对应的响应(例如,规定动作或信息)。
作为这种信息处理装置所涉及的技术,公开了一种用于防止除了用户发话以外的误动作的技术。例如,专利文献1中公开了一种操作装置,当检测出来自使用者的规定信号时,开始接收语音输入,并且当被语音输入的语音的意思与预先所登录的命令一致时,进行操作空调等规定的动作。
现有技术文献
专利文献
专利文献1:日本国公开专利公报“特开2007-121579号公报(公开日:2007年5月17日)”
发明内容
发明要解决的问题
但是,在使用专利文献1所记载的操作装置的技术并且接收到更多的语音的命令时,可能会产生意外的误动作。
例如,在与用户对话的对话机器人等中,成为针对非常多种类的发话内容,将返回多种响应。如此,越是根据发话内容返回更详细的响应,越是增加了例如将电视节目的声音等环境音当作用户的发话而误检测出的可能性。
本发明的一实施方式鉴于上述问题点而成,其目的在于,实现一种能够防止由误动作引起的响应的信息处理装置等。
用于解决问题的方案
为解决所述问题,本发明一实施方式所涉及的信息处理装置是一种识别发话内容,并使输出部输出与该发话内容相对应的响应的信息处理装置,其特征在于,具备:语音获取部,其分别区别并获取来自多个麦克风的检测语音;噪音判断部,其分别针对所述检测语音,当无法从所述检测语音识别出发话内容时,判断所述检测语音为噪音;检测控制部,当所述检测语音被所述噪音判断部判断为噪音时,使一个以上的麦克风的语音检测停止。
为解决所述问题,本发明一实施方式所涉及的信息处理装置的控制方法是一种识别发话内容,并使输出部输出与该发话内容相对应的响应的信息处理装置的控制方法,其特征在于,包括:语音获取步骤,分别区别并获取来自多个麦克风的检测语音;噪音判断步骤,分别针对所述检测语音,当无法从所述检测语音识别发话内容时,判断所述检测语音为噪音;检测控制步骤,在所述噪音判断步骤中判断所述检测语音为噪音时,使所述多个麦克风中的一个以上的麦克风的语音检测停止。
发明效果
根据本发明的一实施方式,能够防止由误动作引起的响应。
附图简单说明
图1是表示本发明的第一实施方式所涉及的对话机器人的主要部分的构成的框图。
图2是表示所述对话机器人的动作例子的图。
图3是表示所述对话机器人的处理流程的一个例子的流程图。
图4是表示根据本发明的第二实施方式所涉及的对话机器人的主要部分的构成的框图。
图5是表示所述对话机器人的动作例子的图。
图6是表示所述对话机器人的处理流程的一个例子的流程图。
具体实施方式
〔第一实施方式〕
使用图1~3说明本公开的第一实施方式。图1是表示本实施方式所涉及的对话机器人1的主要部分的构成的框图。对话机器人1是识别用户的发话内容,输出与该发话内容相对应的响应的电子设备。在此,“响应”的意思是通过将语音、动作、光或者是这些的组合来表示的、对话机器人1的、针对发话的反应。作为在本实施方式中的一个例子,说明了有关对话机器人1从扬声器40(稍后描述)语音输出针对发话内容的响应的情况。对话机器人1如图所示,具备:存储部20、麦克风30、扬声器(输出部)40、控制部(信息处理装置)10。
存储部20是保存控制部10执行处理所需的数据的存储器。另外,存储部20至少包含响应语句表格21。响应语句表格21是将规定的语句或关键字与响应内容相对应而被存储的数据表格。在本实施方式中,作为响应内容设定为存储有成为针对所述语句或关键字的回答的信息的字符列。
麦克风30是检测语音的输入装置。不管麦克风30的种类如何,通过稍后描述的方向确定部12,具有能够确定检测语音的方向的程度的检测精度及指向性,麦克风30被稍后描述的检测控制部17控制语音检测的开始及停止。对话机器人1具备有多个麦克风30。进一步而言,期望多个麦克风30配置为在对话机器人1上朝向各方向。由此,能够提高稍后描述的方向确定部12的确定检测语音的方向的精确度。
扬声器40根据稍后描述的输出控制部16的控制,语音输出作为响应内容的信息。对话机器人1也可以具备有多个扬声器40。
控制部10是用于综合控制对话机器人1的CPU(Central Processing Unit:中央处理器)。控制部10作为功能模块,包含语音获取部11、噪音判断部14、响应确定部15、输出控制部16以及检测控制部17。
语音获取部11获取麦克风30的检测语音。语音获取部11区别并获取来自多个麦克风30的各种检测语音。另外,语音获取部11将各麦克风30的检测语音分割为任意长度,持续多次来获取。语音获取部11包括方向确定部12及字符列转换部13。
方向确定部12确定麦克风30的检测语音发出的方向。方向确定部12也可以从多个麦克风30的检测语音综合确定检测语音的发出方向。方向确定部12将表示确定的检测语音的方向的信息传送至噪音判断部14。
字符列转换部13将麦克风30的检测语音转换为字符列。字符列转换部13将转换的字符列传送至响应确定部15。此外,例如在检测语音是非语言等情况下,字符列转换部13在无法将检测语音转换为字符列时,将不能转换的意思通知噪音判断部14。
字符列转换部13判断各检测语音能否分别转换为字符列。然后,针对能够转换为字符列的检测语音,将该字符列发送至响应确定部15,并且针对无法转换为字符列的检测语音,将无法转换的意思的通知发送至噪音判断部14。或者,字符列转换部13也可以针对多个检测语音的任意一个(例如,输入最大的检测语音),判断能否转换为字符列,并且在能够转换的情况下将字符列发送至响应确定部15,在无法转换的情况下将无法转换的意思的通知发送至噪音判断部14。
噪音判断部14判断麦克风30的检测语音是否为噪音。噪音判断部14在获取到来自字符列转换部13的无法转换的意思的通知时,即,当在字符列转换部13中无法识别发话内容时,判断为麦克风30的检测语音是噪音。在判断检测语音为噪音的情况下,噪音判断部14将停止由一个以上的麦克风30的语音检测的意思的指示(关闭指示)发送至检测控制部17。
此外,当噪音判断部14判断检测语音为噪音时,也可以由表示从方向确定部12获取到的检测语音的方向的信息和对话机器人1的麦克风30的配置及指向性,确定一个以上使语音的检测停止的麦克风30。该情况下,噪音判断部14也可以指定在关闭指示中停止的麦克风30。
此外,当噪音判断部14在规定期间内收到连续规定次数(例如,2次)无法转换的意思的通知时,也可以判断麦克风30的检测语音为噪音。该情况下,噪音判断部14在最初无法识别发话内容的时间点也可以不发送关闭指示。
响应确定部15根据响应指示,确定与字符列相对应的响应。当响应确定部15从字符列转换部13收到字符列时,参考存储部20的响应语句表格21,检索与包含在该字符列的语句或关键词相对应的响应内容(信息)。应答确定部15从由检测结果所得到的信息中确定一条以上的信息作为输出信息,并传送至输出控制部16
输出控制部16使扬声器40输出从响应确定部15收到的输出信息。
检测控制部17根据来自噪音判断部14的关闭指示,通过该指示停止噪音判断部指定的麦克风30的语音检测。此外,检测控制部17在经过规定的时间后,或者从噪音判断部14收到使麦克风30的语音检测开始的指示(开始指示)时,也可以使麦克风30的语音检测重新开始。
接下来,使用图2说明关于对话器人1的具体动作。图2是表示对话机器人1的动作的例子的图。在图2中作为一个例子,说明了有关在对话机器人1的壳体的左右方向分别配置有一个麦克风30,并且右侧的麦克风30检测出电视的噪音或背景音乐的情况。另外,在以下的说明中,设定为在连续两次无法识别发话内容时,噪音判断部14将检测语音判断为噪音。
当对话机器人1的右侧的麦克风30检测出是电视节目的噪音或背景音乐时(图2的(a)),控制部10的语音获取部11将它们获取,并且字符列转换部13尝试进行检测语音的字符列转换。由于无法将噪音或背景音乐作为语言来识别,所以字符列转换部13将无法转换的意思通知噪音判断部14。该情况下,响应确定部15由于未获取到字符列所以不确定响应,因此,对话机器人1不响应(图2的(b))
接下来,设定右侧的麦克风30重新检测出电视的噪音或背景音乐(图2的(c))。该情况下,语音获取部11的字符列转换部13将无法转换的意思重新通知噪音判断部14及响应确定部15。噪音判断部14针对来自相同的麦克风的检测语音,由于连续两次无法识别发话内容,所以判断检测语音为噪音。噪音判断部14基于表示从方向确定部12收到的方向的信息,确定朝向检测语音的发出方向的麦克风30(在本实施方式为右侧的麦克风30)。噪音判断部14指定确定的右侧麦克风30并发送关闭指示至检测控制部17。检测控制部17使右侧的麦克风30停止(图2的(d))。
以下,由于检测出电视的某个方向的语音的右侧麦克风30停止,所以对话机器人1变成不检测来自电视机的语音本身的状态(图2的(e))。
此外,噪音判断部14根据左侧麦克风30的检测语音发送响应指示至响应确定部15时,或者当距离发送关闭指示经过规定时间时,也可以解除该关闭指示。或者,噪音判断部14在根据左侧麦克风30的检测语音向响应确定部15传送响应指示时,或者距离发送关闭指示经过规定时间时,也可以发送用于重新打开在关闭指示中停止的右侧的麦克风30的语音检测的打开指示。然后,检测控制部17的根据关闭指示的解除或打开指示,也可以使右侧的麦克风30的语音检测重新打开。
最后,使用图3说明关于对话机器人1的处理流程。图3是表示对话机器人1的处理流程的一个例子的流程图。当多个麦克风30检测出语音时,语音获取部11分别区别并获取检测语音(S10,语音获取步骤)。语音获取部11在方向确定部12中,确定各检测语音发出的方向(S12),并将表示该方向的信息发送至噪音判断部14。另外,字符列转换部13将各检测语音转换为字符列(S14)。
在此,当字符列转换部13的字符列转换成功时(在S16为“是”),响应确定部15从字符列转换部13获取字符列,并确定与该字符列对应的响应(S18)。输出控制部16指示扬声器40以输出被确定的响应,扬声器40语音输出该响应(S20)。
另一方面,当字符列转换部13的字符列转换失败时(在S16为“否”),字符列转换部13向噪音判断部14通知无法转换的意思。噪音判断部14在收到该通知时,针对来自相同麦克风30的检测语音,判断是否连续两次收到该通知(S22)。在第一次通知的情况下(在S22为“否”),噪音判断部14不发送关闭指示而待机。另一方面,在连续的第二次通知的情况下(在S22为“是”),噪音判断部14判断检测语音为噪音(S24,噪音判断步骤),并且基于从方向确定部12收到的表示方向的信息,确定一个以上的朝向该噪音的发出方向的麦克风30。然后,噪音判断部14指示检测控制部17使确定的麦克风30停止,并且检测控制部17使该麦克风30停止(S26、检测控制步骤)。
此外,S12的处理和S14的处理的顺序也可以相反,也可以同时进行。另外,S22的处理不是必须的。即,当噪音判断部14被通知了来自字符列转换部13的无法转换的意思时,即便这是第一次通知也可以进行S24和S26的处理。
根据以上的处理,对话机器人1能够判断各麦克风30的检测语音是否为噪音。具体而言,各麦克风30的检测语音根据是否是能够作为语言识别的语音,能够判断该检测语音是否为噪音。由此,由于对话机器人1能够判断检测语音是否为用户有意图的发话,所以能够防止对噪音进行错误响应的误动作。
另外,对话机器人1确定噪音的发出方向,使朝向该方向的麦克风30停止,因此能够降低以后的噪音检测。因此,在检测出作为检测语音的噪音时,能够省略执行的判断处理、动作等的无意义的处理。由此,能够降低对话机器人1的负荷并能够减少无意义的耗电。因此,能够延长对话机器人1的运转时间。
〔第二实施方式〕
以下,使用图4~6说明本公开的第二实施方式。此外,为了便于说明,对与在第一实施方式中说明的部件具有相同功能的部件,标注相同的附图标记,省略其说明。
图4是表示第二实施方式涉及的对话机器人2的主要部分构成的框图。对话机器人2在存储部20保存有回答语句表格22的这一点,与第一实施方式涉及的对话机器人1不同。
回答语句表格22是针对响应的、与表示用户的回应内容的字符列相关联的信息。此外,回答语句表格22的响应与存储在响应语句表格22中的响应是相同的。
本实施方式所涉及的字符列转换部13将从检测语音转换出的字符列也发送至噪音判断部14。另外,本实施方式所涉及的响应确定部15将确定的响应传达至噪音判断部14。
本实施方式所涉及的噪音判断部14存储从响应确定部15收到的响应。此外,当噪音判断部14经过规定时间时,也可以将存储的响应删除。当噪音判断部14从字符列转换部13获取到字符列时,参考回答语句表格22,判断该字符列的至少一部分是否与回答语句表格22中的表示用户的回答内容的字符列一致。即,噪音判断部14在回答语句表格22中判断从字符列转换部13获取的字符列的至少一部分是否与从响应确定部15所得到的响应相关联。换言之,噪音判断部14判断获取到的字符列、即检测语音表示的发话内容是否是作为针对从扬声器40输出的响应内容的回答所期待的内容。
在回答语句表格22中,当获取到的字符列的至少一部分与响应相对应时,即,发话内容是期待的回答的情况下,噪音判断部14向响应确定部15发送允许响应的意思的指示。响应确定部15接收到该指示后,进行响应的确定。
另一方面,在回答语句表格22中,获取到的字符列的任意部分都不和响应相对应的情况下,即,发话内容不是期待的回答的情况下,噪音判断部14向检测控制部17发送关闭指示。该情况下,噪音判断部14也可以不向响应确定部15发送允许响应的意思的指示。其结果,对话机器人2不进行响应。
此外,噪音判断部14在未存储有来自响应确定部15的响应的状态下获取到字符列时,也可以向响应确定部15发送允许响应的意思的指示。
接下来,使用图5说明关于对话机器人2的具体动作。图5是表示对话机器人2的动作的例子的图。在图5中作为一个例子,说明了有关在对话机器人2的壳体的左右方向分别配置有一个麦克风30,并且右侧的麦克风30检测出是电视节目的语音的情况。
当右侧的麦克风30检测出是电视节目语音“您好”时(图5的(a)),控制部10的语音获取部11将它们获取,并在字符列转换部13中尝试进行字符列转换。与图2的例子不同,由于电视节目的语音“您好”作为语言是可识别的,所以字符列转换部13将该语音转换为字符列。字符列转换部13将转换的字符列通知噪音判断部14及响应确定部15。当噪音判断部14在未存储有来自响应确定部15的响应的状态下收到字符列时,也可以向响应确定部15发送允许响应的意思的指示。由此,响应确定部15确定响应,并且输出控制部16使扬声器40输出响应(图5的(b))(图示的例子为“今天去哪里呢?”的信息)。然后,噪音判断部14从响应确定部15被传达了所输出的响应。
接下来,将右侧的麦克风30设定为重新检测出电视的语音“您好”(图5的(c))。该情况下字符列转换部13也将字符列发送至噪音判断部14及响应确定部15。
噪音判断部14判断收到的字符列的至少一部分在回答语句表格22中是否与存储的响应相对应。收到的字符列的至少一部分与响应相对应的情况下,噪音判断部14和上一次相同,对响应确定部15发送允许响应的意思的指示。另一方面,当收到的字符列的任意部分都不与响应相对应的情况下,噪音判断部14判断为收到的字符列未表示所期待的用户的回答内容。该情况下,噪音判断部14将该字符列即检测语音判断为噪音。该情况下,与第一实施方式所示的对话机器人1相同,噪音判断部14指定右侧的麦克风30发送关闭指示至检测控制部17。另外,该情况下,由于未向响应确定部15发送允许响应的意思的指示,所以对话机器人2不响应(图5的(d))。
以下,由于检测电视的某个方向的语音的右侧麦克风30停止,所以对话机器人2变成不检测来自电视的语音本身的状态(图5的(e))。
最后,使用图6说明关于对话机器人2的处理流程。图6是表示对话机器人2的处理流程的一个例子的流程图。
对话机器人2主动的、或者是针对用户的发话输出响应(S40)。此时,响应确定部15将自身确定的响应(或者自动信息)传达至噪音判断部14。此外,此处的响应输出流程在图3的S10~S14、S16中为“是”,并且与S18~S20的流程相同。
之后,对话机器人2与图3的S10~S14相同,按照每个检测语音执行检测语音的获取(S42、语音获取步骤)、确定检测语音发出的方向(S44)、以及检测语音的字符列转换(S46)。当字符列转换成功时,(在S18为“是”),字符列转换部13向噪音判断部14及响应确定部15发送字符列。噪音判断部14由从响应确定部15所传达的响应、从字符列转换部13收到的字符列、以及回答语句表格22来判断字符列所表示的发话内容是否是从对话机器人2的响应或自动信息的所期待的回答(S50)。
当字符列所表示的发话内容是所期待的回答的情况下(在S50为“是”),噪音判断部14对响应确定部15发送允许响应的意思的指示。响应确定部15与图3的S18及S20相同,确定响应(S52),并且扬声器40根据输出控制部16的控制输出该响应(S54)。
另一方面,字符列表示的发话内容并非是所期待的回答时(在S50为“否”),噪音判断部14判断为转换为该字符列的检测语音是噪音(S56、噪音判断步骤)。噪音判断部14在该情况下,与图3的S26相同,指示检测控制部17使麦克风30停止,并且检测控制部17使该麦克风30停止(S58、检测控制步骤)。
此外,在本实施方式中,也可以将图3的S22的处理在S48的处理和S56的处理之间、S50的处理和S56的处理之间进行。即,当噪音判断部14被通知了连续两次无法转换来自相同的麦克风30的检测语音的意思时,也可以将该检测语音判断为噪音。另外噪音判断部14连续两次未得到期待的回答时,也可以将该检测语音判断为噪音。
根据以上的处理,对话机器人2能够判断麦克风30的检测语音是否为噪音。具体而言,根据麦克风30的检测语音是否为针对本机发出的响应(或自动信息)的反应的判断,来判断该检测语音是否为噪音。由此,由于对话机器人2能够判断检测语音是否为用户有意图的发话,所以能够防止对噪音进行错误响应的误动作。
另外,对话机器人2确定噪音的发出方向,并使朝向该方向的麦克风30停止,所以能够降低以下噪音检测。因此,在检测出作为检测语音的噪音时,能够省略执行的判断处理、动作等的无意义的处理。由此,能够降低对话机器人2的负荷并能够减少无意义的耗电。因此,能够延长对话机器人2的运转时间。
〔变形例〕
各实施方式中,控制部10在对话机器人1及2中,存储部20、麦克风30及扬声器40为一体构成。但是,控制部10和存储部20、麦克风30以及扬声器40也可以是分别的不同的装置。然后,这些装置可以是通过有线或者无线通信连接。
例如,对话机器人1及2具备麦克风30和扬声器40,也可以具备有对话机器人1及2的另一个的服务器的控制部10及存储部20。该情况下,对话机器人1及2将麦克风30的检测语音发送至服务器,并且在停止及开始来自服务器的麦克风30的语音检测时,也可以一并接受扬声器40的输出所涉及的指示控制。
另外,本公开除了对话机器人1及2以外也可以适用。例如,也可以将本公开涉及的各种构成实现在手机、家电产品以及个人计算机中。
另外,对话机器人1及2也可以将响应通过语音输出之外的方法表示。例如,在响应语句表格21也可以预先存储有作为响应指定的对话机器人1及2的规定动作(手势等)的信息。然后,响应确定部15将通过该信息被指定的动作确定作为响应,输出控制部16通过控制对话机器人1及2的发动机等,也可以向用户表示该动作、即响应。
〔软件的实现例〕
10的控制模块可以由形成在集成电路(IC芯片)等中的逻辑电路(硬件)来实现,或者可以通过使用CPU(Central Processing Unit:中央处理单元)的软件来实现。
在后者的情况下,控制部10包括:CPU,其执行作为实现各功能的软件的程序的命令;ROM(Read Only Memory:只读存储器)或者存储装置(这些被称为“存储介质”),其储存所述程序和各种数据以供计算机(或CPU)能够读取;RAM(Random Access:随机存取存储器),其用于展开所述程序等。然后,通过计算机(或CPU)从所述存储介质读取并执行所述程序来实现本发明的目的。作为所述存储介质,可以使用例如磁带、磁盘、卡、半导体存储器、可编程逻辑电路等的“非暂时性有形介质”。此外,所述程序也可以经由能够发送该程序的任意传输介质(通信网络,广播波等)提供给所述计算机。并且,本发明的一个方式也可以以所述程序通过电子传输来具体化、并嵌入在载波中的数据信号的形式来实现。
〔总结〕
本发明第一实施方式所涉及的信息处理装置(控制部10)是一种识别发话内容,并使输出部(扬声器40)输出与该发话内容相对应的响应的信息处理装置,其特征在于,具备:语音获取部(语音获取部11),其分别区别并获取来自多个麦克风(麦克风30)的检测语音;噪音判断部(噪音判断部14),其分别针对所述检测语音,当无法从所述检测语音识别出发话内容时,判断所述检测语音为噪音;检测控制部(检测控制部17),当所述检测语音被所述噪音判断部判断为噪音时,使一个以上的麦克风的语音检测停止。
根据所述构成,信息处理装置能够判断各麦克风的检测语音是否为噪音。由此,由于信息处理装置能够判断检测语音是否为用户有意图的发话,所以能够防止对噪音进行错误响应的所谓误动作。
另外,根据所述构成,信息处理装置能够使风包含检测被判断为所述噪音的检测语音的麦克风的部分麦克风停止。因此,降低在麦克风检测出噪音的可能性的同时,在未检测出噪音的麦克风中能够继续尝试检测来自用户的发话语音。因此,能够同时实现误动作的防止和实用性。
另外,通过使检测被判断为噪音的检测语音的麦克风停止,能够省略在检测出噪音的情况下执行的判断处理、动作等的无意义的处理。由此,能够降低本装置的负荷的同时还能够降低无意义的耗电。因此,能够延长本装置的运转时间。
本发明第二实施方式所涉及的信息处理装置中,在所述第一实施方式,所述语音获取部多次获取各麦克风的检测语音,针对来自相同的麦克风的检测语音,当所述噪音判断部在连续规定次数无法识别发话内容时,也可以判断所述检测语音为噪音。
当重复地检测出无法识别发话内容的检测语音时,可以说该检测语音为噪音的可能性高。因此,根据所述构成,能够以更高的精确度判断检测语音是否为噪音。
本发明第三实施方式所涉及的信息处理装置中,在所述第一实施方式和第二实施方式,所述多个麦克风是具有指向性的麦克风,具备从所述多个麦克风检测语音中确定该检测语音的发出方向的方向确定部(方向确定部12),当所述噪音判断部判断任意一个麦克风的检测语音为噪音时,所述检测控制部使朝向该检测语音的发出方向的一个以上的麦克风的语音检测停止。
根据所述构成,信息处理装置确定噪音的发出方向,并使一个以上的朝向该方向的麦克风停止。由此,之后能够进一步降低在麦克风检测出噪音的可能性。
本发明第四实施方式所涉及的信息处理装置中,在所述第一至第三实施方式,当所述噪音判断部无法从所述检测语音识别发话内容时,所述发话内容未与来自本装置的响应内容相对应时,也可以判断所述检测语音为噪音。
根据所述构成,信息处理装置中,根据各麦克风30的检测语音是否是对应本装置的响应的发话内容,判断该检测语音是否为噪音。由此,由于信息处理装置能够判断检测语音是否为用户有意图的发话,所以能够防止对噪音进行错误响应的所谓误动作。
本发明的第五实施方式所涉及的电子设备(对话机器人1或2)中,具备第一至第四实施方式的任意实施方式所记载的信息处理装置(控制部10)、所述麦克风(麦克风30)和所述输出部(输出部40)。根据所述的结构,可起到与所述第一至第四实施方式的任意实施方式所记载的信息处理装置同样的效果。
本发明的第六实施方式所涉及的信息处理装置的控制方法是识别发话内容,并使输出部输出与该发话内容相对应的响应的信息处理装置的控制方法,包括:语音获取步骤(S10及S42),分别区别并获取来自多个麦克风的检测语音;噪音判断步骤(S24及S56),分别针对所述检测语音,当无法从所述检测语音识别发话内容时,判断所述检测语音为噪音;检测控制步骤(S26及S58),当所述检测语音在所述噪音判断步骤中被判断为噪音时,使所述多个麦克风中的一个以上的麦克风的语音检测停止。根据所述的处理,可起到与所述第一实施方式所记载的信息处理装置相同的效果。
本发明的各方式的信息处理装置也可以由计算机实现,该情况下,通过使计算机作为具备上述信息处理装置的各部(软件要素)进行动作从而利用计算机实现上述信息处理装置的控制程序以及存储有该程序的计算机可读取的记录介质也包含于本发明的范畴。
本发明不限于上述各实施方式,能在权利要求所示的范围中进行各种变更,将不同的实施方式中分别公开的技术手段适当组合得到的实施方式也包含于本发明的技术范围。而且,能够通过组合各实施方式分别公开的技术方法来形成新的技术特征。
附图标记说明
1、2 对话机器人(电子设备)
10 控制部(信息处理装置)
11 语音获取部
12 方向确定部
13 字符列转换部
14 噪音判断部
15 响应确定部
16 输出控制部
17 检测控制部
20 存储部
21 响应语句表格
22 回答语句表格
30 麦克风
40 扬声器(输出部)

Claims (7)

1.一种识别发话内容,使输出部输出与所述发话内容对应的响应的信息处理装置,其特征在于,具备:
语音获取部,其分别区别并获取来自多个麦克风的检测语音;
噪音判断部,其分别针对所述检测语音,当无法从所述检测语音识别发话内容时,判断所述检测语音为噪音;
检测控制部,当所述检测语音被所述噪音判断部判断为噪音时,使所述多个麦克风中的一个以上的麦克风的语音检测停止。
2.如权利要求1所记载的信息处理装置,其特征在于,所述语音获取部多次获取各麦克风的检测语音,
针对来自相同的麦克风的检测语音,当所述噪音判断部在连续规定次数无法识别发话内容时,判断所述检测语音为噪音。
3.如权利要求1或2所记载的信息处理装置,其特征在于,所述多个麦克风是具有指向性的麦克风,
所述信息处理装置具备从所述多个麦克风的检测语音确定该检测语音的发出方向的方向确定部,
当所述噪音判断部判断任意一个麦克风的检测语音是噪音时,所述检测控制部使朝向该检测语音的发出方向的一个以上的麦克风的语音检测停止。
4.如权利要求1~3的任意一项所记载的信息处理装置,其特征在于,当所述噪音判断部无法从所述检测语音识别发话内容时,所述发话内容未与来自本装置的响应内容对应时,判断所述检测语音为噪音。
5.一种电子设备,其特征在于,具备:
权利要求1至4中任一项所记载的信息处理装置、
所述麦克风
及所述输出部。
6.一种识别发话内容,并使输出部输出与所述发话内容相对应的响应的信息处理装置的控制方法,其特征在于,包括:
语音获取步骤,从多个麦克风分别区别并获取检测语音;
噪音判断步骤,分别针对所述检测语音,当无法从所述检测语音识别出发话内容时,判断所述检测语音为噪音;
检测控制步骤,在所述噪音判断步骤中判断所述检测语音为噪音时,使所述多个麦克风中的一个以上的麦克风的语音检测停止。
7.一种控制程序,其用于使计算机作为权利要求1所记载的信息处理装置而发挥功能,其特征在于,所述控制程序用于使所述计算机作为所述语音获取部、所述噪音判断部及所述检测控制部而发挥功能。
CN201880030304.9A 2017-05-11 2018-03-27 信息处理装置、电子设备、控制方法及控制程序 Pending CN110612569A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017-094942 2017-05-11
JP2017094942 2017-05-11
PCT/JP2018/012384 WO2018207483A1 (ja) 2017-05-11 2018-03-27 情報処理装置、電子機器、制御方法、および制御プログラム

Publications (1)

Publication Number Publication Date
CN110612569A true CN110612569A (zh) 2019-12-24

Family

ID=64102760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880030304.9A Pending CN110612569A (zh) 2017-05-11 2018-03-27 信息处理装置、电子设备、控制方法及控制程序

Country Status (4)

Country Link
US (1) US20200058319A1 (zh)
JP (1) JPWO2018207483A1 (zh)
CN (1) CN110612569A (zh)
WO (1) WO2018207483A1 (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1748250A (zh) * 2002-12-11 2006-03-15 索夫塔马克斯公司 在稳定性约束下使用独立分量分析的语音处理系统和方法
US20120078622A1 (en) * 2010-09-28 2012-03-29 Kabushiki Kaisha Toshiba Spoken dialogue apparatus, spoken dialogue method and computer program product for spoken dialogue
US20120232891A1 (en) * 2003-07-03 2012-09-13 Sony Corporation Speech communication system and method, and robot apparatus
US20140278394A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and Method for Beamforming to Obtain Voice and Noise Signals
CN105719645A (zh) * 2014-12-17 2016-06-29 现代自动车株式会社 语音识别装置、包括其的车辆和控制语音识别装置的方法
US20160189716A1 (en) * 2013-10-11 2016-06-30 Apple Inc. Speech recognition wake-up of a handheld portable electronic device
US20160314801A1 (en) * 2015-04-23 2016-10-27 Fujitsu Limited Content reproduction device, content reproduction program, and content reproduction method

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0792988A (ja) * 1993-09-27 1995-04-07 Matsushita Electric Ind Co Ltd 音声検出装置と映像切り替え装置
JP6171511B2 (ja) * 2013-04-09 2017-08-02 コニカミノルタ株式会社 制御装置、画像形成装置、携帯端末装置、制御方法、および制御プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1748250A (zh) * 2002-12-11 2006-03-15 索夫塔马克斯公司 在稳定性约束下使用独立分量分析的语音处理系统和方法
US20120232891A1 (en) * 2003-07-03 2012-09-13 Sony Corporation Speech communication system and method, and robot apparatus
US20120078622A1 (en) * 2010-09-28 2012-03-29 Kabushiki Kaisha Toshiba Spoken dialogue apparatus, spoken dialogue method and computer program product for spoken dialogue
US20140278394A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and Method for Beamforming to Obtain Voice and Noise Signals
US20160189716A1 (en) * 2013-10-11 2016-06-30 Apple Inc. Speech recognition wake-up of a handheld portable electronic device
CN105719645A (zh) * 2014-12-17 2016-06-29 现代自动车株式会社 语音识别装置、包括其的车辆和控制语音识别装置的方法
US20160314801A1 (en) * 2015-04-23 2016-10-27 Fujitsu Limited Content reproduction device, content reproduction program, and content reproduction method

Also Published As

Publication number Publication date
WO2018207483A1 (ja) 2018-11-15
JPWO2018207483A1 (ja) 2020-01-23
US20200058319A1 (en) 2020-02-20

Similar Documents

Publication Publication Date Title
US5657425A (en) Location dependent verbal command execution in a computer based control system
US10916244B2 (en) Electronic device and controlling method thereof
US20160125883A1 (en) Speech recognition client apparatus performing local speech recognition
CN100508029C (zh) 语音控制单元、方法及其控制的设备和消费类电子系统
CN112201246B (zh) 基于语音的智能控制方法、装置、电子设备及存储介质
US7689424B2 (en) Distributed speech recognition method
KR20220027251A (ko) 오디오 워터 마킹을 이용한 키 구문 검출
KR102029820B1 (ko) 음성 인식을 이용하여 전원을 제어하는 전자 장치 및 이의 전원 제어 방법
US20180285068A1 (en) Processing method of audio control and electronic device thereof
JP2006505003A (ja) 音声認識システムの動作方法
JP2014191029A (ja) 音声認識システムおよび音声認識システムの制御方法
CN111656437A (zh) 信息处理装置、信息处理方法、程序和信息处理系统
KR20200013173A (ko) 전자 장치 및 그의 동작 방법
CN109785830B (zh) 信息处理装置
CN111968643A (zh) 智能识别方法、机器人及计算机可读存储介质
CN110612569A (zh) 信息处理装置、电子设备、控制方法及控制程序
US20200090663A1 (en) Information processing apparatus and electronic device
KR102417899B1 (ko) 차량의 음성인식 시스템 및 방법
KR20200081274A (ko) 음성을 인식하는 장치 및 방법
JP2006172110A (ja) 応答データ出力装置、応答データ出力方法およびプログラム
WO2019175960A1 (ja) 音声処理装置および音声処理方法
JP7303091B2 (ja) 制御装置、電子機器、制御装置の制御方法および制御プログラム
KR20190065199A (ko) 음성 인식을 위한 음성 입출력 장치 및 그 방법
US20240212681A1 (en) Voice recognition device having barge-in function and method thereof
US11594220B2 (en) Electronic apparatus and controlling method thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191224

WD01 Invention patent application deemed withdrawn after publication