CN114730562A - 信息处理系统、信息处理设备、信息处理方法及程序 - Google Patents

信息处理系统、信息处理设备、信息处理方法及程序 Download PDF

Info

Publication number
CN114730562A
CN114730562A CN202080079054.5A CN202080079054A CN114730562A CN 114730562 A CN114730562 A CN 114730562A CN 202080079054 A CN202080079054 A CN 202080079054A CN 114730562 A CN114730562 A CN 114730562A
Authority
CN
China
Prior art keywords
sound
information processing
unit
predetermined
playback device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080079054.5A
Other languages
English (en)
Inventor
粟井昌一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of CN114730562A publication Critical patent/CN114730562A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

提供了一种信息处理系统,包括:信息处理设备(20)和回放设备(10)。该信息处理设备包括:第一检测单元(204),其从收集的声音中检测由回放设备叠加在声音上的音频处理;指定单元(206),其基于已检测的音频处理来指定声音的发声主体;以及判定单元(208),其基于指定的结果来判定是否执行包括在声音中的命令。

Description

信息处理系统、信息处理设备、信息处理方法及程序
技术领域
本公开涉及信息处理系统、信息处理设备、信息处理方法及程序。
背景技术
近年来,语音识别技术已经发展,并且识别包括由用户发出的预定命令的发出的语音并根据识别结果执行预定操作的信息处理设备得到普及。例如,这种信息处理设备的示例包括以下专利文献1中公开的技术。
引文列表
专利文献
专利文献1:JP 2002-182679 A
发明内容
技术问题
但是,存在诸如电视(下文中称为TV)之类的音频回放设备可以存在于信息处理设备周围的情况。在这种情况下,存在信息处理设备识别从音频回放设备输出的再现音频而不是用户发出的语音并造成不是用户预期的错误操作的情况,诸如根据再现音频的识别结果执行预定操作。
因此,本公开提出了能够避免通过语音识别的错误操作的信息处理系统、信息处理设备、信息处理方法及程序。
问题的解决方案
根据本公开,提供了一种信息处理系统。该信息处理系统包括信息处理设备和回放设备。在该信息处理系统中,信息处理设备包括:第一检测单元,其从收集的声音中检测由回放设备叠加在声音上的音频处理;指定单元,其基于已检测的音频处理来指定声音的发声主体;以及判定单元,其基于指定的结果来判定是否执行包括在声音中的命令。
而且,根据本公开,提供了一种信息处理设备。该信息处理设备包括:第一检测单元,其从已收集的声音中检测叠加在声音上的回声的数量或回声的延迟时间作为音频处理;指定单元,其基于已检测的音频处理来指定声音的发声主体;以及判定单元,其基于指定的结果来判定是否执行包括在声音中的命令。并且,该信息处理设备安装在预定用户存在的声学闭合空间中。
而且,根据本公开,提供了一种信息处理方法。该信息处理方法包括以下步骤:由信息处理设备从收集的声音中检测由回放设备叠加在声音上的音频处理;基于已检测的音频处理来指定声音的发声主体;以及基于指定的结果来判定是否执行包括在声音中的命令。
而且,根据本公开,提供了一种程序。该程序使计算机实现如下功能:从收集的声音中检测由回放设备叠加在声音上的音频处理;基于已检测的音频处理来指定声音的发声主体;以及基于指定的结果来判定是否执行包括在声音中的命令。
附图说明
图1是解释根据本公开的实施例的信息处理系统的配置示例的解释图。
图2是用于解释实施例的解释图。
图3是图示根据本公开的第一实施例的回放设备的配置示例的框图。
图4是图示根据实施例的智能扬声器的配置示例的框图。
图5是解释根据实施例的信息处理方法的示例的序列图。
图6是图示根据本公开的第二实施例的回放设备的配置示例的框图。
图7是图示根据本公开的第三实施例的回放设备的配置示例的框图。
图8是解释根据实施例的信息处理方法的示例的序列图。
图9是用于解释本公开的第四实施例的解释图。
图10是用于解释根据实施例的麦克风的外观的示例的解释图。
图11是图示根据实施例的回放设备的配置示例的框图。
图12是图示根据实施例的智能扬声器的配置示例的框图。
图13是用于解释图12中的合成单元中的处理的示例的解释图。
图14是解释根据实施例的信息处理方法的示例的序列图。
图15是用于解释本公开的第五实施例的解释图。
图16是解释根据实施例的信息处理方法的示例的序列图。
图17是用于解释图15中的空间的示例的解释图。
图18是图示实现智能扬声器的功能的计算机的示例的硬件配置图。
具体实施方式
在下文中,将参考附图详细描述本公开的优选实施例。注意的是,在本说明书和附图中,具有基本相同的功能配置的组件用相同的符号表示,并且省略冗余的描述。同时,在本说明书和附图中,具有基本相同或相似功能配置的多个组件可以通过在相同符号后面附上不同字母来区分。但是,在不必特别区分具有基本相同或相似功能配置的多个组件中的每一个的情况下,仅附上相同的符号。
在本说明书中,除非另有说明,否则触发词(预定词)是在通过人或特定人(预定用户)的话语对信息处理设备的语音输入时使诸如智能扬声器之类的信息处理设备执行预定操作(诸如激活信息处理设备)的命令。具体而言,触发词也是用于使信息处理设备对跟随触发词的语音执行语音识别的命令。通过已经执行的语音识别,从触发词之后的语音中提取预定词,并且执行与该词相关的处理。因此,诸如用于激活信息处理设备的预定寻址词之类的唤醒词也包括在触发词中。注意的是,在以下描述的实施例中,基于在信息处理设备侧预先设置要成为触发词的词的前提。
注意的是,将以以下词序给出描述。
1.本公开的实施例的创建的背景
2.第一实施例
2.1 信息处理系统
2.2 回放设备
2.3 智能扬声器
2.4 信息处理方法
3.第二实施例
3.1 信息处理系统
3.2 回放设备
3.3 智能扬声器
3.4 信息处理方法
4.第三实施例
4.1 信息处理系统
4.2 回放设备
4.3 智能扬声器
4.4 信息处理方法
5.第四实施例
5.1 信息处理系统
5.2 回放设备
5.3 智能扬声器
5.4 信息处理方法
6.第五实施例
6.1 信息处理系统
6.2 智能扬声器
6.3信息处理方法
7.示例
7.1 第一示例
7.2 第二个示例
8.综述
9.硬件配置
10.补充
<<1.本发明的实施例的创建的背景>>
首先,在描述本公开的实施例的细节之前,将参考图1和2描述导致本发明人创建本公开的实施例的背景。图1是解释根据本公开的实施例的信息处理系统的配置示例的解释图,图2是用于解释本公开的实施例的解释图。
如上所述,语音识别技术已经发展,并且识别包括用户发出的触发词的发出的语音并根据识别结果执行预定操作的智能扬声器正在普及。例如,如图1中所示,它基于信息处理系统包括TV(回放设备)10和智能扬声器(信息处理设备)20的前提。注意的是,稍后将描述根据本公开的实施例的信息处理系统的细节。
在这种情况下,如上所述,存在智能扬声器20识别从TV 10输出的再现音频而不是用户40发出的语音并造成不是用户40预期的错误操作的情况,诸如根据再现音频的识别结果执行预定操作。例如,在智能扬声器20被设置为通过触发词被激活的情况下,智能扬声器20可以响应于包括在由TV 10输出的再现音频中的触发词而被激活。即,智能扬声器20可能难以区分用户40的语音与从TV 10输出的音频。此外,在这种情况下,由于智能扬声器20响应于包括在从TV 10输出的再现音频中的触发词而不是用户40的语音,因此智能扬声器20造成不是用户40预期的错误操作。特别地,在智能扬声器20结合在例如执行汽车的自主驾驶的自主驾驶系统中的情况下,可以想到这种错误操作会发展为严重的问题。
因此,为了避免如上所述的错误操作,在相关技术中使用以下方法。例如,作为此类方法之一,在用户40周围安装多个麦克风(在下文中称为麦克风)(未图示)。然后,在该方法中,智能扬声器20执行从由多个麦克风收集的声音中消除周围环境声音的噪声的音频处理,从而提高用户40发出的语音的信噪比(S/N)。因此,在该方法中,提高了用户40发出的语音的S/N比,因此智能扬声器20可以通过语音识别容易地区分用户40发出的语音与从TV 10输出的再现音频并可以避免错误操作。此外,在该方法中,还可以提高智能扬声器20的语音识别准确性,从而使得能够识别特定用户40发出的语音,从而提高区分特定用户40发出的语音与由TV 10输出的再现音频的准确性。
此外,作为另一种方法,有可以应用于诸如电视广播之类的同时广播的情况的方法。在同时广播的情况下,相同的音频在同一定时从多个TV 10输出。因此,在这种方法中,由云服务器(未图示)等检测在同一定时输出的同一音频,并将检测结果输出到智能扬声器20。然后,由于智能扬声器20可以基于来自云服务器的检测结果来区分用户40发出的语音与由TV 10输出的再现音频,因此有可能避免错误操作。
但是,在采用上述方法的情况下,由于有必要安装多个麦克风或者有必要进一步提高智能扬声器20的语音识别准确性,因此难以避免系统构造成本的增加。而且,在采用上述消除周围环境声音的噪声的噪声消除处理的情况下,在已经经过这种处理的声音也输出给用户的情况下,用户有可能感觉到疲劳、头晕或头痛。此外,在点播流类型分发而不是同时广播中,不可能通过云服务器等检测在同一定时相同音频的输出,因此不可能通过上述方法区分用户40发出的语音与从TV 10输出的再现音频。
因此,本发明人已经详细阐述了将在下文描述的本公开的实施例,以便确保智能扬声器20不响应于TV 10的再现音频而仅响应于用户发出的语音40存在于智能扬声器20附近并且不会造成不是用户40预期的错误操作。
在本发明人详细阐述的本公开的实施例中,智能扬声器20可以通过检测叠加在由TV 10再现的再现音频上的人类声线不能发出的预定噪声来区分用户40发出的语音与由TV10输出的再现音频。此外,在本实施例中,智能扬声器20还可以通过检测叠加在用户40发出的语音上的回声来区分用户40发出的语音与由TV 10输出的再现音频。因此,在本实施例中,智能扬声器20仅响应于用户40发出的语音,而不响应于TV 10的再现音频,因此不会发生不是用户40预期的错误操作。
更具体而言,在预定噪声叠加在TV 10的再现音频上的示例中,即使在智能扬声器20具有高级语音识别功能的情况下,语音识别的准确性也会由于预定噪声的叠加而劣化。例如,通过图2左下部分中所示的噪声叠加在图2左上部分中所示的原始声音信号的声音波形上的合成获得的波形在图2的中央部分中图示。在由智能扬声器20收集这种合成波形的情况下,智能扬声器20执行分离声音波形的处理以用于语音识别;但是,难以以高准确性分离声音波形。此外,即使在声音波形可以被分离的情况下,智能扬声器20也获取包括错误的声音波形,而不是与原始声音信号完全相同的声音波形,如图2右侧所示。因此,智能扬声器20分析包括错误的声音波形,因此语音识别的准确性劣化。即,即使在智能扬声器20具有先进语音识别功能的情况下,由于预定噪声的叠加,语音识别的准确性也会劣化,从而变得难以执行语音识别。这使得智能扬声器20有可能检测到由于语音识别变得困难而在收集的声音上叠加了预定噪声,因此,智能扬声器20可以识别出其上叠加了预定噪声的声音是来自诸如TV 10之类的回放设备的再现音频并且可以区分用户40发出的语音与由TV 10输出的再现音频。
同时,在人类听觉的情况下,即使当预定噪声叠加在再现音频上时,由于与智能扬声器20中的机械语音识别不同,扬声器识别的功能高,因此可以识别再现音频。详细地说,由于人类听力具有即使在嘈杂的环境中也只能集中听到交谈对方发出的语音的鸡尾酒会效果,因此即使在叠加了预定噪声的情况下也有可能识别再现音频。在下文中,将按次序描述由本发明人阐述的本公开的实施例的细节。
<<2.第一实施例>>
首先,将描述在回放设备10侧将预定噪声叠加在再现音频上的本公开的第一实施例。
<2.1信息处理系统>
首先,将参考图1和2描述根据本公开的第一实施例的信息处理系统的配置示例。如图1中所示,根据本实施例的信息处理系统可以包括例如能够再现诸如电视视频之类的内容的回放设备10和响应于来自用户40的语音输入而执行各种任务的智能扬声器(信息处理设备)20。注意的是,回放设备10和智能扬声器20可以经由各种有线或无线通信网络彼此通信。此外,根据本实施例的信息处理系统中包括的回放设备10和智能扬声器20的数量不限于图1中所示的数量,并且可以更多。在下文中,将描述包括在根据本实施例的信息处理系统中的每个设备的概要。
(回放设备10)
回放设备10可以再现至少包括声音的内容(诸如移动图像或音乐),并将该内容输出给用户40等。例如,回放设备10可以是TV、投影仪、扬声器、音乐播放器、车载视听(AV)设备、智能电话等。在本实施例中,回放设备10可以执行将预定噪声叠加在要作为内容再现的声音上的音频处理,并向用户40等输出已经进行了音频处理的再现音频。注意的是,稍后将描述回放设备10的详细配置。
(智能扬声器20)
智能扬声器20可以基于例如包括在来自用户40发出的语音中的触发词和触发词之后的命令来执行各种任务。在本实施例中,智能扬声器20没有特别限制,只要可以基于语音输入的指令执行各种任务即可。例如,智能扬声器20可以是通用个人计算机(PC)、平板终端、游戏机、移动电话(诸如智能电话)、便携式音乐播放器、扬声器、投影仪、可穿戴设备(诸如头戴式显示器(HMD)或智能手表)、车载设备(自主驾驶导航设备等)、机器人(例如,人形机器人或自主驾驶汽车)等。注意的是,在图1中,作为示例,图示了智能扬声器20,该智能扬声器20是可以安装在家里等的扬声器类型的家庭代理。
此外,在本实施例中,智能扬声器20从收集的声音中检测由回放设备10叠加在声音上的音频处理,并基于已经检测到的音频处理来指定声音的发声主体。此外,智能扬声器20可以基于指定结果来判定语音中包括的命令是否可以被执行。注意的是,稍后将描述智能扬声器20的详细配置。
<2.2回放设备>
接下来,将参考图3描述本实施例的回放设备10的详细配置。图3是图示本实施例的回放设备10的配置示例的框图。具体而言,如图3中所示,回放设备10主要包括控制单元100、内容获取单元102、解码单元104、处理单元106、数模转换器(DAC)-驱动器-放大器单元108、音频输出单元(输出单元)110,以及显示单元112。在下文中,将按次序描述回放设备10的每个功能块。
(控制单元100)
控制单元100可以一体地控制回放设备10的操作,并由诸如中央处理器(CPU)或图形处理器(GPU)之类的处理电路等来实现。
(内容获取单元102)
内容获取单元102可以经由例如通信单元(未图示)等获取与移动图像等相关的内容数据,并且可以将已经获取的内容数据输出到稍后将描述的解码单元104。注意的是,内容数据可以预先存储在回放设备10中包括的存储单元(未图示)中。在这种情况下,存储单元可以包括在回放设备10中以便固定在其中,或者可以可分离地提供给回放设备10。
(解码单元104)
解码单元104对从内容获取单元102获取的内容数据进行解码,获取移动图像等,并将获取的移动图像等输出到后述的处理单元106。
(处理单元106)
处理单元106可以对由解码单元104解码的移动图像所包括的再现音频执行叠加诸如白噪声之类的预定噪声(用于音频信号的数字水印)的音频处理。在本实施例中,预定噪声不限于白噪声,并且可以是具有高频的蚊子声(高频声音)、具有低频的低频声音、诸如哔哔声之类的简单声音、与再现音频无关的另一种声音(例如,“a、i、u、e、o”的发声)等。由于人类听觉难以识别这些噪声,因此,即使这些噪声叠加在再现音频上,人类听觉也可以识别再现音频而不会受这些噪声的干扰。注意的是,在本实施例中,由于预定噪声当中的高频声音在被空气传输时很可能大大衰减,因此优选的是稍后将描述的检测单元204的高频声音的检测性能(参见图4)在智能扬声器20中设置为高。
(DAC-驱动器-放大器单元108)
DAC-驱动器-放大器单元108包括数模转换器、驱动器、放大器等,并且可以将从处理单元106获取的移动图像转换成模拟格式,放大移动图像,并向稍后将描述的音频输出单元110和显示单元112输出移动图像。
(音频输出单元110)
音频输出单元110包括例如扬声器、头戴式耳机等,并且可以将已经经历了已经从DAC-驱动器-放大器单元108获取的音频处理的再现音频输出到外部。注意的是,音频输出单元110可以包括在回放设备10中以便固定在其中,或者可以可分离地提供给回放设备10.
(显示单元112)
显示单元112包括例如液晶显示器(LCD)、有机电致发光(EL)显示器等,并且可以输出从DAC-驱动器-放大器单元108获取的再现图像。注意的是,在本实施例中,可以不包括显示单元112。同时,显示单元112可以包括在回放设备10中以便固定在其中,或者可以可分离地提供给回放设备10。
<2.3智能扬声器>
接下来,将参考图4描述根据本实施例的智能扬声器20的详细配置。图4是图示根据本实施例的智能扬声器20的配置示例的框图。具体而言,如图4中所示,智能扬声器20主要包括控制单元200、声音收集单元202、检测单元(第一检测单元)204、指定单元206、判定单元208和命令提取单元210。在下文中,将按次序描述智能扬声器20的每个功能块。
(控制单元200)
控制单元200可以整体控制智能扬声器20的操作,并且由例如诸如CPU或GPU之类的处理电路实现。
(声音收集单元202)
声音收集单元202是能够获取用户40发出的语音和用户40周围的环境声音(例如,来自回放设备10的再现音频)的麦克风。例如,声音收集单元202可以通过获取包括在用户40发出的语音中的命令来接收从用户40输入到智能扬声器20的命令。注意的是,声音收集单元202可以包括在智能扬声器20中以便固定在其中,或者可以可分离地提供给智能扬声器20。
(检测单元204)
检测单元204可以从由声音收集单元202收集的声音中检测诸如由回放设备10叠加在声音上的预定噪声之类的音频处理。具体而言,检测单元204可以直接检测预定噪声,或者可以对由声音收集单元202收集的声音执行声音分析,并且在无法执行语音识别时间接地检测到叠加了预定噪声。
(指定单元206)
指定单元206可以基于由检测单元204检测到的音频处理来指定语音的发声主体。即,指定单元206基于检测单元204中预定噪声的叠加的存在或不存在的检测结果来区分用户40发出的语音与由回放设备10输出的再现声音。
(判定单元208)
判定单元208可以基于指定单元206的指定结果来判定是否执行包括在语音中的命令。具体而言,基于指定单元206的指定结果,判定单元208执行判定以便仅响应于包括在用户40发出的语音中的命令,而不响应于包括在回放设备的再现音频中的命令。因此,在本实施例中,智能扬声器20不造成不是用户40预期的错误操作。
更具体而言,在作为音频处理检测单元204检测到预定噪声叠加在声音上的情况下,指定单元206指定声音的发声主体是回放设备10,即,回放设备10已经再现了声音,并且判定单元208基于指定结果判定不执行声音中包括的指令。另一方面,在作为音频处理检测单元204检测到预定噪声不叠加在声音上的情况下,指定单元206指定声音的发声主体是用户(预定用户)40,即,用户40已经发出声音,并且判定单元208基于指定结果判定执行包括在声音中的命令。
(命令提取单元210)
在判定单元208判定执行命令的情况下,命令提取单元210对由声音收集单元202收集的声音执行语音识别并提取与例如触发词和后续命令相关的词。此外,控制单元200根据已提取出的命令控制智能扬声器20的操作并执行与命令相关的任务。注意的是,在本实施例中,执行上述语音识别并不限于智能扬声器20的指令提取单元210,并且可以由互联网上的云服务器(未图示)执行,只要智能扬声器20可以连接到互联网即可。
<2.4信息处理方法>
接下来,将参考图5描述根据本公开的第一实施例的信息处理方法。图5是图示本实施例的信息处理方法的示例的序列图。具体而言,如图5中所示,根据本实施例的信息处理方法可以包括步骤S101至步骤S107的步骤。下面将描述根据本实施例的这些步骤的细节。
回放设备10获取要再现的诸如移动图像之类的内容数据(步骤S101)。接下来,回放设备10执行在步骤S101中获取的内容数据中包括的再现音频上叠加预定噪声的处理(步骤S102)。然后,回放设备10向用户40输出其上叠加有预定噪声的再现音频、图像等(步骤S103)。
智能扬声器20收集从回放设备10输出的再现音频(步骤S104)。接下来,智能扬声器20判定是否已经从在步骤S104中收集的声音中检测到预定噪声(步骤S105)。如果未检测到预定噪声(步骤S105:是),那么智能扬声器20前进到步骤S106,并且如果检测到预定噪声(步骤S105:否),那么返回到上述步骤S104。然后,智能扬声器20判定预定命令是否包括在已经收集的再现音频中(步骤S106)。如果包括预定命令(步骤S106:是),那么智能扬声器20前进到步骤S107,如果不包括(步骤S106:否),那么处理返回到上述步骤S104。
智能扬声器20执行与在步骤S106中被判定为包括的命令相关的任务并且结束处理(步骤S107)。
如上所述,在本实施例中,在预定噪声叠加在回放设备10侧的再现音频上的情况下,即使当再现音频中包括命令时,智能扬声器20也不响应于检测到预定噪声而响应命令。
如上所述,根据本实施例,智能扬声器20可以通过检测叠加在再现音频上的预定噪声来区分用户40发出的语音与由回放设备10输出的再现音频。因此,在本实施例中,智能扬声器20仅响应于用户40发出的语音,而不响应于回放设备10的再现音频,因此不会发生不是用户40预期的错误操作。
此外,根据本实施例,由于即使当预定噪声叠加在再现音频上时,用户40的听觉也可以识别再现音频,因此不会妨碍用户40对再现音频的欣赏。
<<3.第二实施例>>
同时,在上述第一实施例中,即使在附近不存在智能扬声器20的情况下,回放设备10也执行将预定噪声叠加在再现音频上的处理。因此,在第一实施例中,回放设备10中的处理负荷可能增加。因此,在以下描述的本公开的第二实施例中,仅在智能扬声器20存在于回放设备10附近的情况下,回放设备10才执行将预定噪声叠加在再现音频上的处理。根据这种配置,在本实施例中,有可能抑制回放设备10的处理负荷的增加。在下文中,将描述本实施例的细节。
<3.1信息处理系统>
由于根据本实施例的信息处理系统的配置示例与第一实施例的信息处理系统的配置示例是共用的,因此可以参考在解释和描述根据第一实施例的信息处理系统的配置时使用的图1。因此,这里省略对根据本实施例的信息处理系统的描述。
<3.2回放设备>
接下来,将参考图6描述本实施例的回放设备10a的详细配置。图6是图示本实施例的回放设备10a的结构例的框图。具体而言,如图6中所示,回放设备10a主要包括控制单元100、内容获取单元102、解码单元104、处理单元106、DAC-驱动-放大器单元108、音频输出单元(输出单元)110、显示单元112,以及传感器单元(第三检测单元)114。在下文中,依次描述回放设备10a的每个功能单元。但是,由于传感器单元114以外的组件与根据第一实施例的回放设备10的功能单元是共用的,因此将省略传感器单元114以外的组件的描述,并且下面将仅描述传感器单元114。
(传感器单元114)
传感器单元114检测到智能扬声器20存在于距回放设备10a的预定距离内。在本实施例中,基于预定距离是例如从网络拓扑的角度看回放设备10a与智能扬声器20在同一网络中可以无线连接的距离或者可能经由若干中继站彼此无线连接的距离的前提。具体而言,传感器单元144可以使用诸如通用即插即用(UPnP)或Bonjour之类技术的零配置联网(Zeroconf)等来检测智能扬声器20的存在。在本实施例中,在传感器单元144检测到智能扬声器20存在于预定距离内的情况下,上述处理单元106执行在再现音频上叠加预定噪声的音频处理。注意的是,传感器单元144在预定距离内检测到智能扬声器20的存在不限于上述方法。例如,可以将诸如全球导航卫星系统(GNSS)接收器之类的定位设备提供给回放设备10a和智能扬声器20,并且可以通过定位信息来执行检测。
<3.3智能扬声器>
由于根据本实施例的智能扬声器20的配置示例与第一实施例的智能扬声器20是共用的,因此有可能参考根据第一实施例的智能扬声器20的配置的描述和描述中使用的图4。因此,在此省略对根据本实施例的智能扬声器20的描述。
<3.4信息处理方法>
除了当回放设备10a检测到智能扬声器20存在于距回放设备10a的预定距离内时对再现音频执行叠加预定噪声的音频处理之外,根据本实施例的信息处理方法与第一实施例的信息处理方法是共用的,因此可以参考第一实施例的信息处理方法的描述和描述中使用的图5。因此,在此省略对根据本实施例的信息处理方法的描述。
如上所述,在本实施例中,仅在智能扬声器20存在于回放设备10a附近的情况下,回放设备10a才执行将预定噪声叠加在再现音频上的处理,因此有可能抑制回放设备10a的处理负荷的增加。
<<4.第三实施例>>
同时,智能扬声器20的任务是在智能扬声器20从收集的声音中检测到触发词和触发词之后的命令的情况下执行的。即,除非检测到触发词和触发词之后的命令,否则智能扬声器20不执行任何任务。因此,在要避免错误操作的情况下,只要求智能扬声器20不能对来自回放设备10的再现音频中的触发词之后的命令进行语音识别即可。因此,在下面描述的本公开的第三实施例中,回放设备10通过使用从再现音频中检测到触发词作为触发来执行将预定噪声叠加在跟随触发词的再现音频上的处理。因此,智能扬声器20无法识别触发词之后的再现音频,因为预定噪声被叠加,因此即使在再现音频中包括命令时也不响应命令。利用这种配置,在本实施例中,在检测到触发词时执行叠加预定噪声的音频处理,因此有可能抑制回放设备10中的音频处理的负荷增加。在下文中,将按次序描述本实施例的细节。
<4.1信息处理系统>
由于根据本实施例的信息处理系统的配置示例与第一实施例的信息处理系统的配置示例是共用的,因此可以参考在解释和描述根据第一实施例的信息处理系统的配置时使用的图1。因此,在此省略对根据本实施例的信息处理系统的描述。
<4.2回放设备>
接下来,将参考图7描述根据本实施例的回放设备10b的详细配置。图7是图示根据本实施例的回放设备10b的配置示例的框图。具体而言,如图7中所示,回放设备10b主要包括控制单元100、内容获取单元102、解码单元104、处理单元106、DAC-驱动器-放大器单元108、音频输出单元(输出单元)110、显示单元112,此外还有检测单元(第二检测单元)116、存储单元118和通信单元120。在下文中,将按次序描述回放设备10b的每个功能单元。但是,由于检测单元116、存储单元118和通信单元120以外的组件与根据第一实施例的回放设备10的功能单元是共用的,因此下面将省略检测单元116、存储单元118和通信单元120以外的组件的描述。
(检测单元116)
检测单元116可以检测到触发词(预定词)被包括在再现音频中。换句话说,检测单元116可以不断地监视触发词是否包括在要再现的再现音频中。更具体而言,检测单元116可以通过对再现音频执行声音分析并且根据是否可以从再现音频中提取与触发词相关的词来执行检测。注意的是,在本实施例中,基于触发词被预先存储在稍后描述的存储单元118中的前提。而且,在本实施例中,在检测单元116检测到触发词包括在再现音频中的情况下,处理单元106执行在触发词之后再现的再现音频上叠加预定噪声的音频处理。注意的是,在本实施例中,处理单元106可以对再现音频执行音频处理,例如,在触发词之后到再现音频的暂停(静音);但是,不限于此。例如,在本实施例中,处理单元106可以对触发词之后的再现音频执行音频处理,直到经过预定时间。
此外,在本实施例中,上述声音分析不限于由回放设备10b的检测单元116执行,并且可以由互联网上的云服务器(未示出)执行,只要回放设备10b可以连接到互联网即可。
(存储单元118)
存储单元118存储用于控制单元100执行各种类型的处理的程序、信息等以及通过该处理获得的信息。存储单元118还存储例如由上述检测单元116使用的触发词的信息(例如,词数据文本)。注意的是,存储单元118例如由诸如硬盘驱动器(HDD)之类的存储设备实现。
(通信单元120)
通信单元120可以向诸如智能扬声器20之类的外部设备传输和从外部设备接收信息。换句话说,通信单元120可以被称为具有传输和接收数据的功能的通信接口。在本实施例中,通信单元120从智能扬声器20接收触发词的信息,并将接收到的信息输出到上述存储单元118。注意的是,通信单元120由诸如通信天线、传输和接收电路或端口之类的通信设备实现。
注意的是,在本实施例中,在回放设备10b不包括通信单元120的情况下,触发词可以通过手动输入等预先输入到存储单元118。
<4.3智能扬声器>
由于根据本实施例的智能扬声器20的配置示例与第一实施例的智能扬声器20是共用的,因此有可能参考第一实施例的智能扬声器20的配置的描述和描述中使用的图4。因此,在此省略对根据本实施例的智能扬声器20的描述。
<4.4信息处理方法>
接下来,将参考图8描述根据本公开的第三实施例的信息处理方法。图8是图示根据本实施例的信息处理方法的示例的时序图。具体而言,如图8中所示,根据本实施例的信息处理方法主要可以包括步骤S201至步骤S208的步骤。下面将描述根据本实施例的这些步骤的细节。
首先,回放设备10b与图5中所示的第一实施例的步骤S101类似地获取要再现的移动图像之类的内容数据(步骤S201)。接下来,回放设备10b检测在步骤S101中获取的内容数据中所包括的再现音频中是否包括触发词(预定词)(步骤S202)。如果检测到(步骤S202:是),那么回放设备10b前进到步骤S203,而如果没有检测到(步骤S202:否),那么回放设备10b前进到步骤S204.
然后,回放设备10b执行在步骤S201中获取的内容数据中包括的再现声音的触发词之后的声音上叠加预定噪声的处理(步骤S203)。然后,回放设备10b向用户40输出其上叠加了预定噪声的再现声音或未叠加预定噪声的再现声音、图像等(步骤S204)。
此外,由于图8中所示的步骤S205至S208与根据图5中所示的第一实施例的信息处理的步骤S104至S107是共用的,因此在此省略对步骤S205至S208的描述。
而且在本实施例中,即使在触发词之后的命令包括在再现音频中的情况下,智能扬声器20也不响应于检测到叠加在命令上的预定噪声而响应命令。
如上所述,根据本实施例,有可能区分用户40发出的语音与由回放设备10b输出的再现声音。因此,在本实施例中,智能扬声器20不响应包括在来自回放设备10b的再现音频中的触发词之后的命令,而是仅响应包括在用户40发出的语音中的触发词之后的命令,因此不会发生不是用户40预期的错误操作。
此外,在本实施例中,回放设备10b在检测到触发词时执行叠加预定噪声的音频处理,因此有可能抑制回放设备10中的音频处理的负荷增加。
<<5.第四实施例>>
在上述第一至第三实施例中,已经描述了在回放设备10的再现音频上叠加预定噪声的示例。但是,本公开不限于此类示例,并且具有与用户40发出的语音相似的声音波形的声音可以作为回声叠加在发出的语音上。在这种情况下,通过预先判定叠加在用户40发出的语音上的回声的数量、回声延迟时间等,智能扬声器20可以基于叠加在已检测到的语音上的回声的数量和回声延迟时间识别出发声主体是用户40。在下文中,将参考图9描述使用此类回声的第四实施例。
具体而言,在本实施例中,回放设备10获取用户40发出的语音作为主声音,并且如图9中所示,通过顺序输出移位预定延迟时间t的获取的主声音来生成预定数量的回声。智能扬声器20通过在主声音之后检测具有预定延迟时间t的回声或预定数量的回声来检测声音是用户40发出的语音。注意的是,在本实施例中,延迟时间t可以不是恒定的,并且主声音与后续回声1之间的延迟时间t、回声1与后续回声2之间的延迟时间以及回声2与后面的回声3之间的延迟时间可以不同并且没有特别限制。
注意的是,在本实施例中,回声的延迟时间t优选地具有人的听觉不能识别出的长度,即,优选的是该长度使人的听觉听到一种声音,其中主声音和回声是重叠的。具体而言,例如,回声的延迟时间t优选地大约为几毫秒至十毫秒,与后述的日常生活中可以发生的延迟时间大致相同。利用这种设置,有可能避免人类听觉的不适。
具体而言,室温附近的空气中的声速V(m/s)由以下等式(1)表达。
V=331.5+0.6a...(1)
符号a表示室温。
因此,根据上述等式(1),当室温为15℃时,声速V近似为340m/s。
此外,在室温为15℃的情况下,空气中的声音传输距离L(m)与延迟时间T(s)之间的关系由以下等式(2)表达。
T=L/340...(2)
例如,根据上述等式(2),在与典型房屋的房间尺寸对应的大约十米的距离处,延迟时间T大约为30毫秒,在与面对面交谈的人之间的距离对应的大约一米的距离处,延迟时间T大约为3毫秒,而在与嘴巴和靠近嘴巴的麦克风之间的距离对应的大约10厘米的距离处,延迟时间T大约为0.3毫秒。
即,如从上述数值示例可以看出的,在日常生活中会出现大约几毫秒的延迟,但是这种延迟不会造成人类听觉的不适感。因此,在本实施例中,例如,在叠加10个延迟时间t为0.3毫秒的回声的情况下,最长延迟时间为3毫秒。但是,由于这在日常生活中经历的延迟时间的范围内,因此人类听觉不会产生不适感。
此外,在本实施例中,通过为每个人设置不同的延迟时间t或要叠加的回声的不同数量,智能扬声器20可以从被收集的多个人发出的语音中指定每个人发出的语音。
<5.1信息处理系统>
根据本实施例的信息处理系统的配置示例包括回放设备10c(参见图11)和智能扬声器20a(参见图11),类似于第一实施例的信息处理系统。此外,在本实施例中,回放设备10c例如可以是具有如图10中所示的外观的麦克风50、用户穿戴的麦克风40。注意的是,图10是用于解释根据本实施例的麦克风50的外观的示例的解释图。具体而言,在本实施例中,麦克风50安装在用户40的嘴附近,用户40发出的语音被麦克风50收集,并且基于已被收集的发出的语音生成并输出回声。注意的是,根据本实施例的回放设备10c不限于具有如图10中所示的外观的麦克风50,并且可以具有另一种配置和外观,只要该配置能够收集用户40发出的语音即可。
<5.2回放设备>
接下来,将参考图11描述根据本实施例的回放设备10c的详细配置。图11是图示根据本实施例的回放设备10c的配置示例的框图。具体而言,如图11中所示,回放设备10c主要包括控制单元100、DAC-驱动器-放大器单元108、音频输出单元(输出单元)110,此外,还包括声音收集单元122,以及生成单元124。在下文中,将按次序描述回放设备10c的每个功能单元。但是,由于声音收集单元122和生成单元124以外的组件与根据第一实施例的回放设备10的功能单元是共用的,因此以下将省略描述声音收集单元122和生成单元124以外的组件。
(声音收集单元122)
声音收集单元122可以由用户40穿戴,收集用户40发出的语音,并将发出的语音输出到稍后描述的生成单元124。注意的是,声音收集单元122可以是麦克风,并且可以包括在回放设备10c中以便固定在其中,或者可以可分离地提供给回放设备10c。
(生成单元124)
生成单元124通过将由声音收集单元122收集的发出的语音声延迟预定延迟时间t或通过延迟预定次数来生成回声,并将(一个或多个)回声输出到DAC-驱动器-放大器单元108。已生成的回声由音频输出单元110输出。
<5.3智能扬声器>
接下来,将参考图12和13描述根据本实施例的智能扬声器20a的详细配置。图12是图示根据本实施例的智能扬声器20a的配置示例的框图。图13是用于解释图12中的合成单元212中的处理的示例的解释图。
具体而言,如图12中所示,智能扬声器20a主要包括控制单元200、声音收集单元202、检测单元(第一检测单元)204a、指定单元206、判定单元208、命令提取单元210,此外,还包括存储单元218和合成单元212。在下文中,将按次序描述智能扬声器20a的每个功能块。但是,由于检测单元204a、存储单元218和合成单元212以外的组件与根据第一实施例的智能扬声器20的功能单元是共用的,因此下面将省略检测单元204a、存储单元218和合成单元212之外的组件的描述。
(检测单元204a)
检测单元204a对由声音收集单元202收集的声音执行声音分析,并分离在声音中最先出现的预定声音波形和作为回声出现的预定声音波形。此外,检测单元204a可以检测叠加在由声音收集单元202收集的声音上的回声的数量或回声的延迟时间t。在本实施例中,在检测单元204a通过参考存储在稍后描述的存储单元218中的数据检测到叠加在声音上的回声的数量是预定数量或者回声的延迟时间t是预定时间t的情况下,指定单元206指定声音的发声主体是用户40。此外,与第一实施例中相同,在本实施例中,判定单元208基于指定结果判定执行包括在声音中的命令。注意的是,在本实施例中,执行上述声音分析并不限于智能扬声器20a的检测单元204a,并且可以由互联网上的云服务器(未图示)执行,只要智能扬声器20a可以连接到互联网即可。
(存储单元218)
存储单元218存储用于控制单元200执行各种类型的处理的程序、信息等以及通过该处理获得的信息。此外,存储单元218例如存储上述检测单元204a使用的数据(与用户40相关的回声的数量、回声的延迟时间t等)。注意的是,存储单元218例如由诸如HDD之类的存储设备实现。
(合成单元212)
合成单元212对已经收集的声音执行声音分析并提取在图13的左上部分中所示的声音中首先出现的主声音的预定声音波形(图13中的声音)。此外,合成单元212对已经收集到的声音执行声音分析,并分离作为图13的左中和左下部分中所示的回声出现的预定的声音波形(图13中的回声1和2)。然后,合成单元212将已提取的主声音和已分离的回声的声音波形重叠并合成,并将图13右侧所示的合成波形(图13中的合成声音)输出到命令提取单元210。在本实施例中,由于叠加的回声可以由合成单元212分离和合成,因此可以提高合成波形中用户40发出的语音的S/N比。因此,根据本实施例,可以提高智能扬声器20a中的语音识别的准确性。注意的是,在本实施例中,随着叠加的回声的数量越大,语音识别的准确性越高。注意的是,在本实施例中,执行上述声音分析并不限于智能扬声器20a的合成单元212,并且可以由互联网上的云服务器(未图示)执行,只要智能扬声器20a可以接到互联网即可。
<5.4信息处理方法>
接下来,将参考图14描述根据本公开的第四实施例的信息处理方法。图14是图示本实施例的信息处理方法的示例的序列图。具体而言,如图14中所示,根据本实施例的信息处理方法主要可以包括步骤S301至步骤S308的步骤。下面将描述根据本实施例的这些步骤的细节。
回放设备10c获取(收集)用户40发出的语音(步骤S301)。接下来,回放设备10c将在步骤S101中获取的发出的语音延迟预定时间(延迟时间)t或预定次数,从而生成(一个或多个)回声并将(一个或多个)回声叠加在发出的语音上(步骤S302)。然后,回放设备10c输出(一个或多个)回声(步骤S303)。
智能扬声器20a直接收集用户40发出的语音,并进一步收集由回放设备10c输出的音频(步骤S304)。接下来,智能扬声器20a判定是否已经从已收集的声音中检测到预定数量的回声或具有预定延迟时间t的回声(步骤S305)。如果检测到(步骤S305:是),那么智能扬声器20a前进到步骤S306,如果没有检测到(步骤S305:否),那么智能扬声器20a返回到上述步骤S304。
接下来,智能扬声器20a对在上述步骤S304中收集的声音执行合成处理(步骤S306)。然后,智能扬声器20a判定预定命令是否包括在上述步骤S306中合成的合成声音中(步骤S307)。如果包括预定命令(步骤S307:是),那么智能扬声器20a前进到步骤S308,否则(步骤S307:否),智能扬声器20a返回到上述步骤S304。
智能扬声器20a执行与在步骤S307中被判定为包括的命令相关的任务并且结束处理(步骤S308)。
即,在本实施例中,在预定回声叠加在用户40发出的语音上的情况下,智能扬声器20a响应用户40发出的语音中包括的命令。
如上所述,在本实施例中,智能扬声器20a可以通过检测叠加在用户40发出的语音上的回声基于叠加的回声的数量或回声的延迟时间t来识别用户40是发声主体。因此,根据本实施例,即使在智能扬声器20a附近存在诸如TV之类的回放设备10的情况下,智能扬声器20a也可以区分用户40发出的语音与由诸如TV之类的回放设备10输出的再现音频。因此,在本实施例中,智能扬声器20a仅响应包括用户40发出的语音的命令,而不响应诸如TV之类的回放设备10的再现音频,从而不会发生不是用户40期望的错误操作。此外,在本实施例中,通过为每个人设置不同的延迟时间t或要叠加的回声的不同数量,智能扬声器20a可以从已收集的多个人发出的语音中识别每个人发出的语音并且仅响应特定人发出的语音中包括的命令。
<<6.第五实施例>>
在上述第四实施例中,用户40穿戴图10中所示的麦克风50。但是,在以下描述的本公开的第五实施例中,通过将根据本实施例的信息处理系统应用于声学闭合空间,可以避免使用麦克风50。因此,在本实施例中,有可能避免系统配置的成本的增加。在下文中,将参考图15描述本实施例。图15是用于描述本实施例的解释图。
如图15中所示,根据本实施例的信息处理系统用在预定用户40a存在于其中的声学闭合空间60中。在这种空间60中,用户40a发出的语音被空间60的墙壁反射并通过多条路径传输到智能扬声器20a。而且,如果用户40a在空间60中的位置是已知的,那么可以预先计算用户40a发出的语音中的主声音与通过不同于主声音的传输路径的传输路径传输的回声之间的延迟时间t。因此,在本实施例中,智能扬声器20a可以通过参考预先计算的延迟时间t来检测用户40a发出的语音,在该语音上叠加了包括在已收集的声音中的具有预定延迟时间t的回声。
因此,根据本实施例,由于没有安装麦克风50等,因此有可能避免系统构造的成本的增加。注意的是,在本实施例中,类似于用户40a,如果用户40b和40c在空间60中的位置各自已知,那么用户40b和40c发出的语音中的主声音与回声之间的延迟时间t可以预先计算。因此,在本实施例中,智能扬声器20a也可以通过参考预先计算的延迟时间t来检测用户40b和40c发出的语音,在该语音上叠加了包括在已收集的声音中的具有预定延迟时间t的回声。
<6.1信息处理系统>
根据本实施例的信息处理系统的配置示例仅包括安装在空间60中的智能扬声器20a,并且智能扬声器20a的轮廓与第一实施例的轮廓相似,因此在此省略对其的描述。
<6.2智能扬声器>
由于根据本实施例的智能扬声器20与第四实施例的智能扬声器20a是共用的,因此在此省略根据本实施例的智能扬声器20a的描述。
<6.3信息处理方法>
接下来,将参考图16描述根据本公开的第五实施例的信息处理方法。图16是图示根据本实施例的信息处理方法的示例的流程图。具体而言,如图16中所示,根据本实施例的信息处理方法主要可以包括步骤S401至步骤S405的步骤。下面将描述根据本实施例的这些步骤的细节。
智能扬声器20a收集叠其上加了回声的用户40a发出的语音(步骤S401)。接下来,智能扬声器20a判定是否已经从已收集的声音中检测到具有预定延迟时间t的回声(或预定数量的回声)(步骤S402)。如果检测到(步骤S402:是),那么智能扬声器20a前进到步骤S403,如果没有检测到(步骤S402:否),那么智能扬声器20a返回到上述步骤S401。
接下来,智能扬声器20a对在上述步骤S401中收集的声音执行合成处理(步骤S403)。然后,智能扬声器20a判定在步骤S403中合成的合成声音中是否包括预定命令(步骤S404)。如果包括预定命令(步骤S404:是),那么智能扬声器20a前进到步骤S405,如果不包括(步骤S404:否),那么智能扬声器20a返回到上述步骤S401。
智能扬声器20a执行与在步骤S404中判定为包括的命令相关的任务并且结束处理(步骤S405)。
如上所述,根据本实施例,由于没有安装麦克风50等,因此有可能避免系统构造的成本的增加。
接下来,将参考图17描述根据本实施例的空间60的示例。图17是用于解释图15中的空间60的示例的解释图。具体而言,在图17中所示的示例中,空间60是车辆中的乘客舱。
具体而言,在声学闭合空间60是车辆中的乘客车厢的情况下,空间60例如被诸如挡风玻璃、侧玻璃或后玻璃之类的玻璃包围。由于玻璃具有对声音的高反射系数,因此可以预期会因反射而生成回声。
此外,在声学闭合空间60是车辆的乘客车厢的情况下,有可能检测驾驶员40a就座的座位的位置(沿着车辆的前后方向的位置、座椅面的高度等)和提供给座椅的头枕的位置(高度等)。而且,可以从座椅或头枕的位置检测驾驶室中的驾驶员40a的嘴的位置。此外,在本实施例中,由于可以预先获取驾驶员40a的嘴到每个玻璃的距离,因此如果智能扬声器20a的位置固定,那么与驾驶员40a发出的语音相关的回声的延迟时间t可以被预先计算。此外,在本实施例中,智能扬声器20a可以通过检测其上叠加了具有预先计算出的延迟时间t的回声的发出的语音来检测驾驶员(预定用户)40a发出的语音。因此,根据本实施例,无需安装用于生成回声的麦克风50等就有可能检测驾驶员40a发出的语音中包括的指令(例如,用于激活安装在车辆上的自主驾驶系统的指令)。此外,在本实施例中,与驾驶员40a类似地,也有可能检测坐在副驾驶座椅和后座上的人40b和40c发出的语音。
注意的是,在本实施例中,即使在车辆是敞篷车的情况下,由于存在挡风玻璃,因此也可以预期由于挡风玻璃的反射而生成回声。此外,在本实施例中,为了准确地计算延迟时间t,优选的是作为行驶前的校准操作等收集就座者发出的语音和回声,并校正基于声音收集结果计算出的延迟时间t。
如上所述,根据本实施例,由于没有安装麦克风50等,因此有可能避免系统构造的成本的增加。
<<7.示例>>
上面已经描述了本公开的实施例的信息处理方法的细节。接下来,将参考具体示例更具体地描述根据本实施例的信息处理方法的示例。注意的是,以下示例仅仅是根据本公开的实施例的信息处理方法的示例,根据本公开实施例的信息处理方法不限于以下示例。
<7.1第一示例>
首先,将与比较示例进行比较来描述应用于自主驾驶的第一示例。
(比较示例)
用户40将智能电话(回放设备10的示例)带入自主汽车并乘坐自主汽车。当已乘坐的用户40在“我的车”之后对自主汽车的自主驾驶系统(智能扬声器20的示例)发出“去公司”(命令的示例)(这是系统的触发词)时,自主汽车开始朝着用户40的公司自主行驶。
由于是自主驾驶,因此用户40在不握住方向盘的情况下在智能电话10上观看流传输的视频的同时入睡。在行驶期间,从智能电话10输出流传输视频的一个场景中的“我的车,目的地是东京站”的再现音频。
自主驾驶系统20识别从智能电话10输出的“我的车,目的地是东京站”的语音,并且自主汽车开始朝着东京站自主行驶。
然后,当用户40以导航系统的“到达”的语音醒来时,到达地点不是公司而是东京站。
(示例)
接下来,将描述在上述比较示例的情况下将本公开的上述实施例应用于智能电话10的情况。
而且在本示例中,类似于比较示例,从智能电话10输出流传输视频的一个场景中的“我的车,目的地是东京站”的再现音频。但是,在本示例中,由于预定噪声叠加在再现音频上,因此自主驾驶系统20不能识别从智能电话10输出的语音“我的车,目的地是东京站”。因此,自主汽车继续朝着用户40的公司自主行驶。
注意的是,在本示例中,应用上述第二实施例使得有可能检测到智能电话10与自主驾驶系统20处于预定距离,因此有可能通过使用该检测作为触发器将预定噪声叠加在再现音频上。
<7.2第二示例>
接下来,将给出关于具有在检测到紧急车辆的警告音时停止的功能的自主驾驶的应用的第二示例的解释。在本示例中,基于在由车载AV系统(回放设备10的示例)再现的紧急车辆的警告声音上叠加预定声音的前提。例如,让我们设置存在根据用于内容制作的指导方针等在内容中将预定声音叠加在紧急车辆的警告声音上的规则的前提。在这种情况下,由于预定噪声叠加在车载AV系统10的再现音频上,因此自主驾驶系统20不识别从车载AV系统10输出的紧急车辆的警告声音,因此自主汽车不会停下来。
<<8.综述>>
如上所述,在本公开的实施例中,有可能避免通过语音识别的错误操作。
<<9.硬件配置>>
根据上述实施例的诸如智能扬声器20之类的信息处理设备例如由具有如图18中所示的配置的计算机1000实现。在下文中,将描述根据本公开的实施例的智能扬声器20作为示例。图18是图示实现智能扬声器20的功能的计算机1000的示例的硬件配置图。计算机1000包括CPU 1100、RAM 1200、只读存储器(ROM)1300、硬盘驱动器(HDD)1400、通信接口1500,以及输入和输出接口1600。计算机1000的单元通过总线1050连接。
CPU 1100根据存储在ROM 1300或HDD 1400中的程序操作并且控制每个单元。例如,CPU 1100将存储在ROM 1300或HDD 1400中的程序加载到RAM 1200中,并执行与各种程序对应的处理。
ROM 1300存储引导程序,诸如当计算机1000被激活时由CPU1100执行的基本输入输出系统(BIOS)、依赖于计算机1000的硬件的程序等。
HDD 1400是计算机可读记录介质,其非暂态地记录要由CPU1100执行的程序、由这种程序使用的数据等。具体而言,HDD 1400是记录根据本公开的信息处理程序(其是程序数据1450的示例)的记录介质。
通信接口1500是用于让计算机1000与外部网络1550(例如,互联网)连接的接口。例如,CPU 1100经由通信接口1500从另一个设备接收数据或者将由CPU 1100生成的数据传输到另一个设备。
输入和输出接口1600是用于连接输入和输出设备1650与计算机1000的接口。例如,CPU 1100经由输入和输出接口1600从诸如键盘、鼠标和麦克风之类的输入和输出设备1650接收数据。此外,CPU 1100经由输入和输出接口1600将数据传输到诸如显示器、扬声器或打印机之类的输出设备。此外,输入和输出接口1600可以用作读取记录在预定记录介质中的程序等的介质接口。介质是指例如诸如数字通用盘(DVD)或相变可重写盘(PD)之类的光记录介质、诸如磁光盘(MO)之类的磁光记录介质、带介质、磁记录介质、半导体存储器等。
例如,在计算机1000用作根据本公开的实施例的智能扬声器20的情况下,计算机1000的CPU 1100通过执行存储在RAM 1200中的程序来实现控制单元200或其它单元的功能。此外,HDD 1400存储根据本公开的信息处理程序等。注意的是,虽然CPU 1100从HDD1400读取程序数据1450并执行程序数据1450,但是作为另一个示例,CPU 1100可以经由外部网络1550从另一个设备获取这些程序。
此外,根据本实施例的信息处理设备可以应用于基于连接到网络(或设备之间的通信)的前提的包括多个设备的系统,诸如云计算。即,上述根据本实施例的信息处理设备例如可以由多个设备实现为根据本实施例的信息处理系统。
上面已经描述了信息处理设备900的硬件配置的示例。上述组件中的每一个可以使用通用构件构成,或者可以由每个组件中的功能专用的硬件构成。这种配置可以根据实现时的技术水平进行适当修改。
<<10.补充>>
注意的是,上述本公开的实施例可以包括例如由如上所述的信息处理设备或信息处理系统执行的信息处理方法、用于使信息处理设备起作用的程序以及其中记录程序的非暂态物理介质。可替代地,也可以经由诸如互联网之类的通信线路(包括无线通信)来分发程序。
而且,上述根据本公开的实施例的信息处理方法中的每个步骤可以不必按照所描述的次序进行处理。例如,可以以适当修改的次序处理每个步骤。此外,每个步骤可以部分地并行或单独处理,而不是按时间序列处理。此外,每个步骤的处理可以不必根据上述方法执行,例如也可以由另一个功能单元通过另一种方法执行。
虽然已经参考附图详细描述了本公开的优选实施例,但是本公开的技术范围不限于这些示例。显然,在本发明的技术领域具有普通知识的人可以在权利要求中描述的技术构思的范围内进行各种修改或变化,当然这些也属于本公开的技术范围。
此外,本说明书中描述的效果仅仅是说明性的或示例性的,而不是限制性的。即,根据本公开的技术可以实现与上述效果一起或代替上述效果从本说明书的描述对本领域技术人员显而易见的其它效果。
注意的是,以下配置也属于本公开的技术范围。
(1)一种信息处理系统,包括:
信息处理设备和回放设备,
其中信息处理设备包括:
第一检测单元,其从收集的声音中检测由回放设备叠加在声音上的音频处理;
指定单元,其基于已检测的音频处理来指定声音的发声主体;以及
判定单元,其基于指定的结果来判定是否执行包括在声音中的命令。
(2)根据(1)所述的信息处理系统,
其中,在第一检测单元检测到预定噪声叠加在声音上作为音频处理的情况下,
指定单元指定声音的发声主体是回放设备,以及
判定单元基于指定的结果,判定不执行包括在声音中的命令。
(3)根据(1)或(2)所述的信息处理系统,
其中,在第一检测单元检测到预定噪声没有叠加在声音上作为音频处理的情况下,
指定单元指定声音的发声主体是预定用户,以及
判定单元基于指定的结果,判定执行包括在声音中的命令。
(4)根据(3)所述的信息处理系统,
其中回放设备包括:
处理单元,其对再现音频执行叠加预定噪声的音频处理;以及
输出单元,其输出经过音频处理的再现音频。
(5)根据(4)所述的信息处理系统,
其中回放设备还包括第二检测单元,其检测再现音频包括预定词,以及
在第二检测单元检测到包括预定词的情况下,处理单元对在预定词之后再现的再现音频执行叠加预定噪声的音频处理。
(6)根据(5)所述的信息处理系统,
其中回放设备还包括存储单元,其存储预定词的信息,以及
预定词是当通过预定用户的话语而被输入到信息处理设备时使信息处理设备执行预定操作的命令。
(7)根据(4)所述的信息处理系统,
其中回放设备还包括第三检测单元,其检测信息处理设备存在于距回放设备的预定距离内,以及
在第三检测单元检测到信息处理设备存在于预定距离内的情况下,处理单元对再现音频执行叠加预定噪声的音频处理。
(8)根据(2)至(7)中的任一项所述的信息处理系统,
其中预定噪声是白噪声。
(9)根据(1)所述的信息处理系统,
其中第一检测单元检测叠加在声音上的回声的数量或回声的延迟时间作为音频处理。
(10)根据(9)所述的信息处理系统,
其中,在第一检测单元检测到叠加在声音上的回声的数量是预定数量或者回声的延迟时间是预定时间作为音频处理的情况下,
指定单元指定声音的发声主体是预定用户,以及
判定单元基于指定的结果判定执行包括在声音中的命令。
(11)根据(10)所述的信息处理系统,
其中信息处理设备还包括合成单元,其合成已收集的声音和回声的波形。
(12)根据(10)或(11)所述的信息处理系统,
其中回放设备包括:
声音收集单元,其由预定用户穿戴并收集预定用户发出的语音;
生成单元,其通过将已收集的发出的语音延迟预定时间来生成回声;以及
输出单元,其输出已生成的回声。
(13)根据(12)所述的信息处理系统,
其中生成单元通过将已收集的发出的语音顺序地延迟预定时间来生成预定数量的回声。
(14)根据(1)至(13)中的任一项所述的信息处理系统,
其中信息处理设备是智能扬声器。
(15)一种信息处理设备,包括:
第一检测单元,其从已收集的声音中检测叠加在声音上的回声的数量或回声的延迟时间作为音频处理;
指定单元,其基于已检测的音频处理来指定声音的发声主体;以及
判定单元,其基于指定的结果来判定是否执行包括在声音中的命令,
其中信息处理设备安装在预定用户存在的声学闭合空间中。
(16)根据(15)所述的信息处理设备,
其中,在第一检测单元检测到叠加在声音上的回声的数量是预定数量或者回声的延迟时间是预定时间作为音频处理的情况下,
指定单元指定声音的发声主体是预定用户,以及
判定单元基于指定的结果判定执行包括在声音中的命令。
(17)根据(15)或(16)所述的信息处理设备,其中空间是车辆的乘客车厢。
(18)一种信息处理方法,包括以下步骤:
由信息处理设备,
从收集的声音中检测由回放设备叠加在声音上的音频处理;
基于已检测的音频处理来指定声音的发声主体;以及
基于指定的结果来判定是否执行包括在声音中的命令。
(19)一种使计算机执行以下功能的程序:
从收集的声音中检测由回放设备叠加在声音上的音频处理;
基于已检测的音频处理来指定声音的发声主体;以及
基于指定的结果来判定是否执行包括在声音中的命令。
附图标记列表
10、10a、10b、10c 回放设备
20,20a 智能扬声器
40 用户
50 麦克风
60 空间
100、200 控制单元
102 内容获取单元
104 解码单元
106 处理单元
108 DAC-驱动器-放大器单元
110 音频输出单元
112 显示单元
114 传感器单元
116、204 检测单元
118,218 存储单元
120 通信单元
122、202 声音收集单元
124 生成单元
206 指定单元
208 判定单元
210 命令提取单元
212 合成单元

Claims (19)

1.一种信息处理系统,包括:
信息处理设备和回放设备,
其中所述信息处理设备包括:
第一检测单元,所述第一检测单元从收集的声音中检测由所述回放设备叠加在所述声音上的音频处理;
指定单元,所述指定单元基于已检测的所述音频处理来指定所述声音的发声主体;以及
判定单元,所述判定单元基于指定的结果来判定是否执行包括在所述声音中的命令。
2.根据权利要求1所述的信息处理系统,
其中,在所述第一检测单元检测到预定噪声叠加在所述声音上作为所述音频处理的情况下,
所述指定单元指定所述声音的发声主体是所述回放设备,以及
所述判定单元基于所述指定的结果,判定不执行包括在所述声音中的命令。
3.根据权利要求1所述的信息处理系统,
其中,在所述第一检测单元检测到预定噪声没有叠加在所述声音上作为所述音频处理的情况下,
所述指定单元指定所述声音的发声主体是预定用户,以及
所述判定单元基于所述指定的结果,判定执行包括在所述声音中的命令。
4.根据权利要求3所述的信息处理系统,
其中所述回放设备包括:
处理单元,所述处理单元对再现音频执行叠加所述预定噪声的音频处理;以及
输出单元,所述输出单元输出经过所述音频处理的所述再现音频。
5.根据权利要求4所述的信息处理系统,
其中所述回放设备还包括第二检测单元,所述第二检测单元检测所述再现音频包括预定词,以及
在所述第二检测单元检测到包括所述预定词的情况下,所述处理单元对在所述预定词之后再现的所述再现音频执行叠加所述预定噪声的音频处理。
6.根据权利要求5所述的信息处理系统,
其中所述回放设备还包括存储单元,所述存储单元存储所述预定词的信息,以及
所述预定词是当通过所述预定用户的话语而被输入到所述信息处理设备时使所述信息处理设备执行预定操作的命令。
7.根据权利要求4所述的信息处理系统,
其中所述回放设备还包括第三检测单元,所述第三检测单元检测所述信息处理设备存在于距所述回放设备的预定距离内,以及
在所述第三检测单元检测到所述信息处理设备存在于所述预定距离内的情况下,所述处理单元对所述再现音频执行叠加所述预定噪声的音频处理。
8.根据权利要求2所述的信息处理系统,
其中所述预定噪声是白噪声。
9.根据权利要求1所述的信息处理系统,
其中所述第一检测单元检测叠加在所述声音上的回声的数量或回声的延迟时间作为所述音频处理。
10.根据权利要求9所述的信息处理系统,
其中,在所述第一检测单元检测到叠加在所述声音上的回声的数量是预定数量或者所述回声的延迟时间是预定时间作为所述音频处理的情况下,
所述指定单元指定所述声音的发声主体是预定用户,以及
所述判定单元基于所述指定的结果判定执行包括在所述声音中的命令。
11.根据权利要求10所述的信息处理系统,
其中所述信息处理设备还包括合成单元,所述合成单元合成已收集的所述声音和所述回声的波形。
12.根据权利要求10所述的信息处理系统,
其中所述回放设备包括:
声音收集单元,所述声音收集单元由所述预定用户穿戴并收集所述预定用户发出的语音;
生成单元,所述生成单元通过将已收集的所述发出的语音延迟预定时间来生成所述回声;以及
输出单元,所述输出单元输出已生成的所述回声。
13.根据权利要求12所述的信息处理系统,
其中所述生成单元通过将已收集的所述发出的语音顺序地延迟预定时间来生成预定数量的所述回声。
14.根据权利要求1所述的信息处理系统,
其中所述信息处理设备是智能扬声器。
15.一种信息处理设备,包括:
第一检测单元,所述第一检测单元从已收集的声音中检测叠加在所述声音上的回声的数量或回声的延迟时间作为音频处理;
指定单元,所述指定单元基于已检测的所述音频处理来指定所述声音的发声主体;以及
判定单元,所述判定单元基于指定的结果来判定是否执行包括在所述声音中的命令,
其中所述信息处理设备安装在预定用户存在的声学闭合空间中。
16.根据权利要求15所述的信息处理设备,
其中,在所述第一检测单元检测到叠加在所述声音上的回声的数量是预定数量或者所述回声的延迟时间是预定时间作为所述音频处理的情况下,
所述指定单元指定所述声音的发声主体是所述预定用户,以及
所述判定单元基于所述指定的结果,判定执行包括在所述声音中的命令。
17.根据权利要求15所述的信息处理设备,其中所述空间是车辆的乘客车厢。
18.一种信息处理方法,包括以下步骤:
由信息处理设备,
从收集的声音中检测由回放设备叠加在所述声音上的音频处理;
基于已检测的所述音频处理来指定所述声音的发声主体;以及
基于指定的结果来判定是否执行包括在所述声音中的命令。
19.一种使计算机执行以下功能的程序:
从收集的声音中检测由回放设备叠加在所述声音上的音频处理;
基于已检测的所述音频处理来指定所述声音的发声主体;以及
基于指定的结果来判定是否执行包括在所述声音中的命令。
CN202080079054.5A 2019-11-21 2020-11-10 信息处理系统、信息处理设备、信息处理方法及程序 Pending CN114730562A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019210747 2019-11-21
JP2019-210747 2019-11-21
PCT/JP2020/041906 WO2021100555A1 (ja) 2019-11-21 2020-11-10 情報処理システム、情報処理装置、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
CN114730562A true CN114730562A (zh) 2022-07-08

Family

ID=75981250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080079054.5A Pending CN114730562A (zh) 2019-11-21 2020-11-10 信息处理系统、信息处理设备、信息处理方法及程序

Country Status (3)

Country Link
US (1) US20220406306A1 (zh)
CN (1) CN114730562A (zh)
WO (1) WO2021100555A1 (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3023365B2 (ja) * 1999-09-13 2000-03-21 富士通株式会社 音声認識制御装置
KR100552468B1 (ko) * 2001-07-19 2006-02-15 삼성전자주식회사 음성인식에 따른 오동작을 방지 및 음성인식율을 향상 할수 있는 전자기기 및 방법
JP2005338454A (ja) * 2004-05-27 2005-12-08 Toshiba Tec Corp 音声対話装置
KR102501083B1 (ko) * 2016-02-05 2023-02-17 삼성전자 주식회사 음성 인식 방법 및 이를 사용하는 전자 장치
JP6531776B2 (ja) * 2017-04-25 2019-06-19 トヨタ自動車株式会社 音声対話システムおよび音声対話方法
US10395650B2 (en) * 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
KR102607192B1 (ko) * 2017-09-15 2023-11-29 소니그룹주식회사 정보 처리 장치, 및 정보 처리 방법

Also Published As

Publication number Publication date
US20220406306A1 (en) 2022-12-22
WO2021100555A1 (ja) 2021-05-27

Similar Documents

Publication Publication Date Title
CN108141696B (zh) 用于空间音频调节的系统和方法
US9743213B2 (en) Enhanced auditory experience in shared acoustic space
CN107004423A (zh) 用于共享声学空间中的增强型交谈式通信的反馈消除
CN107004425A (zh) 共享声学空间中的增强型对话通信
CN104303177A (zh) 即时翻译系统
JP2008042390A (ja) 車内会話支援システム
WO2015086895A1 (en) Spatial audio processing apparatus
EP3495942B1 (en) Head-mounted display and control method thereof
KR20150018727A (ko) 청각 기기의 저전력 운용 방법 및 장치
CN110696756A (zh) 一种车辆的音量控制方法及装置、汽车、存储介质
CN104115430A (zh) 在交通工具上执行通告的方法
JP2023536270A (ja) 拡張現実におけるバイノーラル再生のためのヘッドホン等化および室内適応のためのシステムおよび方法
US11647334B2 (en) Information processing apparatus, information processing method, and video sound output system
US20220406306A1 (en) Information processing system, information processing device, information processing method, and program
JP2016206646A (ja) 音声再生方法、音声対話装置及び音声対話プログラム
JP7065353B2 (ja) ヘッドマウントディスプレイ及びその制御方法
JP7131550B2 (ja) 情報処理装置および情報処理方法
JP2010047093A (ja) 音声認識処理装置および音声認識処理方法
US20230035531A1 (en) Audio event data processing
US20220386059A1 (en) Directional audio generation with multiple arrangements of sound sources
US20240087597A1 (en) Source speech modification based on an input speech characteristic
US20230007432A1 (en) Acoustic reproduction method, acoustic reproduction device, and recording medium
JP7105320B2 (ja) 音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム
EP4378175A1 (en) Audio event data processing
EP4378173A1 (en) Processing of audio signals from multiple microphones

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination