CN113168834A - 声音识别装置、声音识别装置的控制方法、内容播放装置以及内容发送接收系统 - Google Patents
声音识别装置、声音识别装置的控制方法、内容播放装置以及内容发送接收系统 Download PDFInfo
- Publication number
- CN113168834A CN113168834A CN201880100051.8A CN201880100051A CN113168834A CN 113168834 A CN113168834 A CN 113168834A CN 201880100051 A CN201880100051 A CN 201880100051A CN 113168834 A CN113168834 A CN 113168834A
- Authority
- CN
- China
- Prior art keywords
- unit
- voice
- content
- signal
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 34
- 230000005540 biological transmission Effects 0.000 title claims description 10
- 230000004044 response Effects 0.000 claims abstract description 48
- 238000012545 processing Methods 0.000 claims abstract description 34
- 230000005236 sound signal Effects 0.000 claims description 41
- 238000012937 correction Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 22
- 238000001514 detection method Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 28
- 230000003287 optical effect Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/81—Detection of presence or absence of voice signals for discriminating voice from music
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
声音解析部(221)解析被输入到声音输入部(21)的声音信号中是否包含特定的特征成分。声音识别部(222)识别被输入到声音输入部(21)的声音信号所表示的声音。应答指示部(223)指示对声音识别部(222)识别出的声音做出应答而进行动作的应答动作部(23、24)做出应答。在由声音解析部(221)解析为声音信号中包含特定的特征成分时,控制部(224)控制声音识别部(222),使得声音识别部(222)不执行声音识别处理,或者控制应答指示部(223),使得不对应答动作部(23、24)指示基于声音识别部(222)识别出的声音的指示内容。
Description
技术领域
本公开涉及一种声音识别装置、声音识别装置的控制方法、内容播放装置以及内容发送接收系统。
背景技术
近年来,识别人发出的用于执行规定的指示的声音并对所识别出的指示内容做出应答的声音识别装置已开始普及。这种声音识别装置被称作智能扬声器。
现有技术文献
专利文献
专利文献1:日本特开平8-107375号公报
发明内容
发明要解决的问题
已经报告过声音识别装置不是对人发出的声音而是对电视广播或无线电广播等的声音错误地做出应答的事例。因此,谋求防止声音识别装置对除了人发出的声音以外的声音错误地做出应答。此外,专利文献1记载了在麦克风收集声音时利用回声消除器消除从扬声器发出的声音。
实施方式的目的在于提供一种能够防止对除了人发出的声音以外的声音错误地做出应答的声音识别装置、声音识别装置的控制方法、内容播放装置以及内容发送接收系统。
用于解决问题的方案
根据实施方式的一个方式,当在声音信号中叠加有特定的特征成分时,声音识别装置的控制部控制声音识别部,使得声音识别部不执行声音识别处理,或者控制应答指示部,使得不对应答动作部指示基于声音识别部识别出的声音的指示内容。
发明的效果
根据实施方式的声音识别装置、声音识别装置的控制方法、内容播放装置以及内容发送接收系统,能够防止对除了人发出的声音以外的声音错误地做出应答。
附图说明
图1是示出第一实施方式的框图。
图2是示出图1所示的内容信号校正部120的具体结构例的框图。
图3是示意性地示出对内容信号的声音波形进行离散傅里叶变换所得到的第一变换信号的波形图。
图4是示意性地示出对第一变换信号进行对数变换后进一步进行离散傅里叶变换所得到的第二变换信号的波形图。
图5是示意性地示出第二变换信号的在各时刻的波形的例子的波形图。
图6是示意性地示出由图2所示的卷积运算部124对一个频率的波形进行的卷积运算处理的波形图。
图7是示意性地示出由图2所示的卷积运算部124对整体的频率进行的卷积运算处理的波形图。
图8是示出在声音识别装置中不允许对包含特定单词的指示内容做出应答的声音识别装置的结构例的框图。
图9是示出内容播放装置中执行的处理的流程图。
图10是示出声音识别装置中执行的处理、即声音识别装置的控制方法的流程图。
图11是示出第二实施方式的框图。
图12是示出第三实施方式的框图。
图13是示出第四实施方式的框图。
具体实施方式
以下,参照附图说明各实施方式的声音识别装置、声音识别装置的控制方法、内容播放装置以及内容发送接收系统。
<第一实施方式>
在图1中,车辆100具备用于播放乘员30收听的音乐等内容的信息娱乐系统10。信息娱乐系统10是内容播放装置或内容输出装置的一例。在车辆100内配置有被称作智能扬声器的声音识别装置20。
信息娱乐系统10具备内容输入部11、数字信号处理器(以下为DSP)12、内容播放部13、声音输出部14以及近距离通信部15。内容输入部11例如是接收电视广播的电视接收机、接收无线电广播的无线电接收机、接收互联网广播的互联网接收机中的任一者。内容输入部11也可以是播放光盘中记录的内容的光盘播放装置、播放半导体存储器中存储的内容的存储器播放装置。近距离通信部15是探测是否存在声音识别装置20的声音识别装置探测部的一例。近距离通信部15例如是无线通信部,可以是遵照蓝牙(注册商标)等具有通信连接对方设备能够确定的规格的通信标准的通信。
从内容输入部11输入的内容信号被输入到DSP 12。如果内容信号是模拟信号,则由未图示的A/D转换器变换成数字信号后输入到DSP 12。DSP 12通过执行软件(计算机程序)来作为内容信号校正部120进行动作。
在近距离通信部15与声音识别装置20进行通信从而识别出存在声音识别装置20时,内容信号校正部120对内容信号进行校正。作为校正对象的内容信号是声音信号,内容信号至少包含声音信号。在此,设为内容信号是声音信号。
内容信号校正部120以使内容信号中叠加特定的特征成分的方式来对内容信号进行校正。关于内容信号校正部120对内容信号具体如何进行校正,在后面详述。此外,信息娱乐系统10也可以是不具备近距离通信部15的结构。
内容播放部13具备声音信号处理电路以及放大器,用于播放从DSP 12提供的内容信号。声音输出部14是扬声器,用于输出内容信号的声音V14。
声音识别装置20具备声音输入部21、中央处理装置(以下为CPU)22、声音发生部23、通信部24以及近距离通信部25。CPU 22具备声音解析部221、声音识别部222、应答指示部223以及控制部224作为功能性结构。
声音输入部21是麦克风,在乘员30发出声音V30以使声音识别装置20执行规定的指示时,声音输入部21收集声音V30。从声音输入部21输出的声音信号由未图示的A/D转换器变换成数字信号后输入到CPU 22。
有时向声音输入部21输入由信息娱乐系统10播放的内容信号的声音V14。声音解析部221解析从声音输入部21输出的声音信号中是否叠加有特征成分。如果声音信号中未叠加特征成分,则被输入到声音输入部21的声音是乘员30发出的声音V30。如果声音信号中叠加有特征成分,则被输入到声音输入部21的声音是从信息娱乐系统10输出的声音V14。
声音解析部221得到的解析结果被提供给控制部224。在解析为声音信号中未叠加特征成分时,控制部224控制声音识别部222,使其执行声音识别处理。应答指示部223指示声音发生部23或通信部24响应于基于声音识别部222识别出的乘员30的指示内容做出应答。也可以是,在近距离通信部25未识别出存在信息娱乐系统10时,无论声音解析部221得到的解析结果如何,控制部224都控制声音识别部222,使其执行声音识别处理。
在近距离通信部25与信息娱乐系统10进行通信从而识别出存在信息娱乐系统10、并且解析为声音信号中叠加有特征成分时,控制部224控制声音识别部222,使其不执行声音识别处理。
在由声音解析部221解析为声音信号中叠加有特征成分时,被输入到声音输入部21的声音信号不是乘员30发出的声音V30,而是内容信号的声音V14。由于声音识别部222不执行声识别处理,因此即使假设声音V14中包含声音识别装置20做出应答那样的语言,声音识别部222也不识别该语言。因此,应答指示部223不会错误地指示声音发生部23或通信部24做出应答。
在解析为声音信号中叠加有特征成分时,控制部224也可以控制应答指示部223,使得不对从声音识别部222提供的指示内容做出应答,来代替控制声音识别部222使其不执行声音识别处理。
近距离通信部25是探测是否存在信息娱乐系统10(内容播放装置)的播放装置探测部的一例。也可以是,在由近距离通信部25探测到存在信息娱乐系统10时,声音解析部221解析被输入到声音输入部21的声音信号中是否包含特定的特征成分。
声音识别装置20也可以具备用于探测信息娱乐系统10(内容播放装置)是否正在播放内容的播放装置探测部。在该情况下,近距离通信部15构成为发送由内容播放部13播放的内容,如果近距离通信部25接收到内容,则能够探测到信息娱乐系统10正在播放内容。也可以是,在由播放装置探测部探测到信息娱乐系统10正在播放内容时,声音解析部221解析被输入到声音输入部21的声音信号中是否包含特定的特征成分。
声音识别装置20也可以是不具备近距离通信部25的结构。在该情况下,控制部224仅基于声音解析部221得到的解析结果来控制声音识别部222或应答指示部223即可。
声音发生部23和通信部24是对声音识别部222识别出的声音做出应答而进行动作的应答动作部的例子。声音发生部23响应于应答指示部223发出的指示内容而发出规定的声音。声音发生部23包括声音合成器和扬声器。通信部24响应于应答指示部223发出的指示内容而与未图示的外部的服务器等进行通信。
如图2所示,内容信号校正部120具备离散傅里叶变换部121、对数变换部122、离散傅里叶变换部123以及卷积运算部124。典型地,离散傅里叶变换部121和123使用能够高速计算离散傅里叶变换(DFT)的算法即高速傅里叶变换(FFT),来对输入信号进行傅里叶变换。
参照图3~图7说明内容信号校正部120的动作。如图3所示,设为向内容信号校正部120输入的内容信号是信号强度随着时间的进展而变化的声音波形V0。当离散傅里叶变换部121对声音波形V0进行傅里叶变换时,得到如图3所示的由频率和信号强度表示的波形Vf1和Vf2等第一变换信号。在图3中,为了简化,仅示出了两个时刻的波形Vf1和Vf2。
对数变换部122将从离散傅里叶变换部121输出的第一变换信号变换成自然对数,离散傅里叶变换部123对被变换成对数的第一变换信号进一步进行离散傅里叶变换。于是,各时刻的第一变换信号被变换成如图4所示的信号强度的成分被去除而仅具有频谱包络的第二变换信号。图4示出了作为与波形Vf1对应的频谱包络的波形Vf10。
利用离散傅里叶变换部121、对数变换部122以及离散傅里叶变换部123求出频谱包络的处理被称为倒谱分析。离散傅里叶变换部121、对数变换部122以及离散傅里叶变换部123是用于求出声音信号的频谱包络的倒谱分析部。
图5示出了从离散傅里叶变换部123输出的第二变换信号的在各时刻的波形的例子。图5所示的波形Vft表示某一个频率下的第二变换信号的变化。为了使卷积运算部124中的卷积运算处理的说明简单化,使用一个频率下的波形Vft来说明卷积运算处理。
如图6所示,卷积运算部124以对波形Vft叠加规定的卷积波形fc的方式执行卷积运算。例如,卷积运算部124对波形Vft卷积比规定值短的例如4ms的卷积波形fc,以避免对音素有影响。在图6所示的例子中,每当经过相比于规定值而言十分长的16ms时,卷积运算部124卷积4ms的卷积波形。在此,16ms仅仅是例示,也可以是其它的值。
卷积运算部124执行的卷积运算也可以是卷积波形fc与波形Vft的相乘、相加以及相减中的任一者。关于图6所示的对波形Vft卷积了卷积波形fc所得到的波形Vftc,示意性地示出了对波形Vft卷积了卷积波形fc后的状态。
当像这样对波形Vft卷积了卷积波形fc时,波形Vft局部变为在自然界中不可能存在的状态的人工波形。优选的是,对内容信号叠加的特征成分是自然界中不可能存在的被人工编入的波形成分。
图7示意性地示出对从离散傅里叶变换部123输出的第二变换信号的全部频率卷积卷积波形fc的状态。如图7所示,每当第二变换信号经过16ms时,卷积运算部124卷积4ms的卷积波形fc。卷积运算部124既可以对所选择的频带卷积卷积波形fc,也可以对整个频带卷积卷积波形fc。
像这样,内容信号校正部120以规定的时间间隔对声音信号的一部分频带或全部频带叠加特定的特征成分。叠加特征成分的时间设为相比于人识别音素的时间而言十分短的时间为宜,叠加特征成分的间隔设为相比于人识别音素的时间而言十分长的时间为宜。时间间隔可以不是等间隔,但设为等间隔较好。如果以规定的时间间隔叠加特征成分,则人在听到声音信号时不易感到不自然,声音解析部221进行的解析也变得容易。
在图1中,从声音输出部14输出的声音V14成为如图6和图7所示那样被以规定的时间间隔卷积了卷积波形fc从而叠加有作为特征成分的人工波形成分的声音。
声音解析部221对从声音输入部21输出的声音信号进行解析,如果声音信号中没有叠加自然界中不可能存在的人工的波形成分,则解析为该声音信号是从信息娱乐系统10输出的声音V14。
另外,声音识别部222使用被称为隐马尔可夫模型的最大似然估计的处理来识别被输入到声音输入部21的声音。如上所述,乘员30即使听到叠加有上述的特征成分的声音V14也几乎不会感觉到不自然。然而,如果声音识别部222短暂地识别出声音V14,则未必正确地识别声音V14,有时不正确地识别声音V14。
因此,在声音解析部221解析为声音信号中叠加有特征成分时,控制部224控制声音识别部222使其不执行声音识别处理为宜。但是,如上所述,也可以是,声音识别部222执行声音识别处理,控制部224控制应答指示部223,使得不对所识别出的声音表示的指示内容做出应答。控制部224在控制应答指示部223使得不对从声音识别部222提供的指示内容做出应答的情况下,也可以控制应答指示部223使得仅不对一部分的语言做出应答。
此外,在图1中,将声音解析部221、声音识别部222、应答指示部223以及控制部224记载为独立结构,但是只要至少具有声音解析功能、声音识别功能以及应答指示功能即可,既可以使一个硬件具有这些多个功能,也可以使多个硬件具有这些多个功能。另外,声音解析功能、声音识别功能以及应答指示功能能够通过软件程序实现。
控制部224在控制应答指示部223使得仅不对一部分的语音做出应答的情况下,如图8所示那样构成即可。如图8所示,CPU 22连接了存储有不可应答单词的存储部26。存储部26能够由非易失性存储器构成。
存储部26中存储有例如“购买”、“下单”、“订货”以及其它通过通信部24与外部的服务器等进行通信来向第三方指示的单词作为不可应答单词。由于控制部224允许针对不产生费用的指示内容做出应答,不允许针对产生费用的指示内容做出应答,因此可以仅将与产生费用的可能性高的指示内容关联的单词(“购买”、“下单”、“订货”)设为不可应答单词。
控制部224也可以允许还针对单纯地使声音发生部23发出声音的指示内容做出应答。在声音识别装置20构成为能够对信息娱乐系统10指示播放的内容的情况下,控制部224还可以允许针对指示信息娱乐系统10播放内容的指示内容做出应答。
使用图9中示出的流程图来说明信息娱乐系统10中执行的处理。当车辆100通电时,向信息娱乐系统10供给电力,从而信息娱乐系统10开始进行动作。DSP 12在步骤S1中判定是否已选择作为播放对象的内容。如果未选择内容(“否”),则DSP 12重复进行步骤S1的处理。
如果在步骤S1中已选择内容,则DSP 12在步骤S2中判定所选择的内容是否是包含人发出的声音的内容。DSP 12也可以将电视广播、无线电广播、光盘或半导体存储器中记录或存储的乐曲视作包含人的音声的内容。DSP 12还可以将仅由影像构成的内容从包含人类的声音的内容中排除。另外,DSP 12也可以通过规定的算法来分析内容的声音数据,由此判定是否包含人的声音。
在此,关于包含人的声音的内容,既可以判定是否实际上包含人的声音,也可以判定是否是有可能包含人的声音的内容,例如,根据媒体的类别判定是否是光盘、电视广播、无线电广播等可能包含人的声音的媒体。
如果在步骤S2中所选择的内容是包含人的声音的内容(“是”),则DSP 12使处理转移到步骤S3。如果所选择的内容不是包含人的声音的内容(“否”),则DSP 12使处理转移到步骤S5。DSP 12在步骤S3中判定周围是否存在声音识别装置20。如果周围存在声音识别装置20(“是”),则DSP 12使处理转移到步骤S4。如果周围不存在声音识别装置20(“否”),则DSP 12使处理转移到步骤S5。步骤S3的处理能够被省略。
DSP 12在步骤S4中对内容信号叠加特征成分来对内容信号进行校正。在从步骤S4转移到步骤S5的情况下,内容播放部13在步骤5中播放被叠加了特征成分的内容信号。在从步骤S2或S3转移到步骤S5的情况下,内容播放部13在步骤5中播放未叠加特征成分的内容信号。
DSP 12在步骤S6中判定是否由于车辆100的断电而停止了对信息娱乐系统10供给电力。如果对信息娱乐系统10的电力供给未停止(“否”),则DSP 12重复进行步骤S1~S6的处理,如果停止了电力供给(“是”),则DSP 12结束处理。
使用图10所示的流程图来说明声音识别装置20中执行的处理。当车辆100通电时,向声音识别装置20供给电力,声音识别装置20开始进行动作。也可以是,在声音识别装置20中设置有电源开关,声音识别装置20根据声音识别装置20的电源开关被按下而开始进行动作。
在图10中,CPU 22在步骤S21中判定是否检测到声音。CPU 22在步骤S22中判定周围是否存在内容播放装置(信息娱乐系统10)。如果周围存在信息娱乐系统10(“是”),则CPU22使处理转移到步骤S23。如果周围不存在信息娱乐系统10(“否”),则CPU 22使处理转移到步骤S25。步骤S22的处理能够被省略。
另外,也可以是,当在步骤S22判定为周围存在内容播放装置的情况下,进一步判定内容播放装置是否正在播放包含声音信号的内容,仅在内容播放装置正在播放包含声音信号的内容的情况下,CPU 22使处理转移到步骤S23。在该情况下,也可以是,内容播放装置从近距离通信部15发送表示正在播放包含声音信号的内容的意思的数据,声音识别装置20根据由近距离通信部25接收到该数据而判定出内容播放装置正在播放包含声音信号的内容。
CPU 22在步骤S23中判定所检测到的声音信号中是否包含特征成分。如果声音信号中包含特征成分(“是”),则CPU 22在步骤S24中控制声音识别部222,使其不执行声音识别处理,使处理转移到步骤S26。如果声音信号中不包含特征成分(“否”),则CPU 22使处理转移到步骤S25。CPU 22在步骤S25中控制声音识别部222,使其执行声音识别处理,使处理转移到步骤S26。
此外,还能够是将步骤S23和步骤S24的顺序进行了调换的处理。也就是说,还能够设为:在对所有的声音信号执行声音识别处理之后,判定声音信号中是否包含特征成分,并且不执行通过对包含特征成分的声音信号进行的声音识别处理所检测出的指示内容。
此外,在图10中,关于应答动作部响应于基于所识别出的声音的指示内容而进行动作的处理,省略了图示。
CPU 22在步骤S26中判定是否由于车辆100的断电或者声音识别装置20的电源开关被按下而停止了对声音识别装置20供给电力。如果对声音识别装置20的电力供给未停止(“否”),则CPU 22重复进行步骤S21~S26的处理,如果停止了电力供给(“是”),则CPU 22结束处理。
在图1所示的第一实施方式中,信息娱乐系统10和声音识别装置20配置在车辆100内,但是信息娱乐系统10和声音识别装置20也可以被配置在车辆100以外的例如房屋内。另外,声音识别装置20还能够构成为包含在信息娱乐系统10中。
根据第一实施方式,信息娱乐系统10能够对播放的内容信号叠加用于与人发出的声音区别开的特征成分。根据第一实施方式,声音识别装置20能够防止对人发出的声音以外的声音错误地进行应答。
<第二实施方式>
在图11中,对与图1相同的部分标记相同的附图标记,并省略其说明。在图11中,在房屋102内配置有内容播放装置10B和声音识别装置20。内容发布者40是电视广播台、无线电广播台或者流服务器。内容发布者40是发送内容信号的发送部。内容发布者40具备与图1所示的内容信号校正部120相同的内容信号校正部400。
内容播放装置10B具备内容输入部11、内容播放部13以及声音输出部14。内容播放装置10B是接收由内容发布者40发布的内容信号的接收部。声音识别装置20是与图1中的声音识别装置20相同的结构。
内容信号校正部400与第一实施方式相同地对内容信号叠加包含自然界中不可能存在的人工的波形成分的特征成分。内容播放装置10B的内容输入部11接收被叠加了特征成分的内容信号。内容播放装置10B的声音输出部14输出被叠加了特征成分的声音V14。
在用户31发出的声音V31被输入到声音输入部21的情况下,声音识别装置20执行声音识别处理,对所识别出的指示内容作出应答。在从内容播放装置10B输出的声音V14被输入到声音输入部21的情况下,声音识别装置20不执行声音识别处理,或者即使执行声音识别处理也不对指示内容做出应答。
在图11中,内容发布者40和内容播放装置10B构成了具备发送部和接收部的内容发送接收系统,其中,发送部发送被以在声音信号中叠加特定的特征成分的方式进行校正所得到的内容信号,接收部接收内容信号。
在图11所示的第二实施方式中,内容播放装置10B和声音识别装置20配置在房屋102内,但是内容播放装置10B和声音识别装置20也可以配置在车辆内。
根据第二实施方式,内容发布者40发送被叠加了特征成分的内容信号,因此内容播放装置10B无须具备内容信号校正部120。根据第二实施方式,声音识别装置20能够防止对人发出的声音以外的声音错误地做出应答。
<第三实施方式>
在图12中,对与图1或图11相同的部分标记相同的附图标记,并省略其说明。内容播放装置10C具备光盘播放部11c、内容播放部13以及声音输出部14。光盘播放部11c相当于内容输入部。内容播放装置10C与图1同样地配置在车辆100内,或者与图11同样地配置在房屋102内。在图12中,省略了声音识别装置20的图示。
此外,在图12中,关于内容播放装置10C,例示了光盘介质的播放,但是不限于此,也可以是播放半导体存储器存储介质、磁带存储介质等除光盘介质以外的存储介质中存储的内容的内容播放装置,还可以是具备接收部、并播放经由有线或无线网络发送来的包含声音信号的内容的内容播放装置。
蓝光盘(BD)、DVD、或压缩光盘(CD)等光盘50中记录有被叠加了特征成分的内容信号。光盘播放部11c播放光盘50。
第三实施方式中,在乘员30发出的声音V30或者用户31发出的声音V31被输入到声音输入部21的情况下,声音识别装置20执行声音识别处理,对所识别出的指示内容作出应答。在从内容播放装置10C输出的声音V14被输入到声音输入部21的情况下,声音识别装置20不执行声音识别处理,或者即使执行声音识别处理也不对指示内容做出应答,其中,该声音V14是光盘50的播放声音。
根据第三实施方式,在光盘50中预先记录有被叠加了特征成分的内容信号,因此内容播放装置10C无须具备内容信号校正部120。在第三实施方式中,声音识别装置20也能够防止对人发出的声音以外的声音错误地做出应答。
<第四实施方式>
在图1所示的第一实施方式中,有时乘员30发出的声音V30和从信息娱乐系统10输出的声音V14混在一起地输入到声音输入部21。在图13所示的第四实施方式中,向声音识别部222供给从内容输入部11输入的内容信号。声音识别部222从由声音输入部21收集声音V30所得到的声音信号中排除内容信号来识别声音。
根据第四实施方式,即使是声音V30和声音V14混在一起地被输入到声音输入部21的情况下,也能够正确地识别声音V30。也可以是,代替将内容信号供给到声音识别部222,而将表示是否存在由信息娱乐系统10播放的内容信号(或声音V14)的标志供给到声音识别部222。
在图11所示的第二实施方式、图12所示的第三实施方式中,也可以将内容信号供给到声音识别部222,或者将标识供给到声音识别部222。
在第四实施方式中,也可以构成为,采用专利文献1中记载的回声消除器的技术,在向声音输入部21输入声音V30时,利用回声消除器消除声音V14。
本发明不限定于以上说明的第一~第四实施方式,能够在不脱离本发明的主旨的范围内进行各种变更。内容信号校正部120也可以由DSP 12以外的CPU等处理器构成,还可以由硬件的电路构成。硬件与软件的区分使用是任意的。处理器也可以通过执行非暂态的存储介质中存储的计算机程序来作为内容信号校正部120进行动作。
在第一~第四实施方式中,将声音解析部221、声音识别部222、应答指示部223以及控制部224实现为利用CPU 22实现的功能性结构,但是也可以至少一部分由硬件的电路构成,硬件与软件的区分使用是任意的。处理器也可以通过执行非暂态的存储介质中存储的计算机程序来作为声音解析部221、声音识别部222、应答指示部223以及控制部224进行动作。
除了通过有无特征成分来将声音V14与声音V30(或者V31)区别开,还可以通过其它方法来进行区别。作为其它区别方法,也可以基于声音V14进入声音输入部21的方向与声音V30(或者V31)进入声音输入部21的方向之间的差异来将两者区别开。如果将声音输入部21设为立体声麦克风或者两个以上的单声道麦克风,则能够识别出声音进入的方向。作为其它的区别方法,还可以识别连续的波形部分与不连续的波形部分之间的差异。
在第一~第四实施方式中,内容信号校正部120是信息娱乐系统10具有的,但是也可以在与车辆100进行通信来对车辆100发布内容的内容发布服务器中设置内容信号校正部120。在该情况下,例如,在内容发布服务器中,针对包含人的声音的内容,通过内容信号校正部120在内容的声音信号中叠加特定的特征成分,并对车辆发布内容。内容发布服务器也可以是电视广播服务器、无线电广播服务器等。
附图标记说明
10:信息娱乐系统;10B、10C:内容播放装置;11:内容输入部;11c:光盘播放部;12:数字信号处理器;13:内容播放部;14:声音输出部;15、25:近距离通信部;20:声音识别装置;21:声音输入部;22:中央处理装置;23:声音发生部;24:通信部;26:存储部;30:乘员;31:用户;40内容发布者;50:光盘;120、400:内容信号校正部;121、123:离散傅里叶变换部;122:对数变换部;124:卷积运算部;221:声音解析部;222:声音识别部;223:应答指示部;224:控制部;V14、V30、V31:声音。
Claims (11)
1.一种声音识别装置,具备:
声音输入部,其被输入声音信号;
声音解析部,其解析被输入到所述声音输入部的声音信号中是否包含特定的特征成分;
声音识别部,其识别被输入到所述声音输入部的声音信号所表示的声音;
应答指示部,其指示对所述声音识别部识别出的声音做出应答而进行动作的应答动作部做出应答;以及
控制部,在由所述声音解析部解析为所述声音信号中包含特定的特征成分时,所述控制部控制所述声音识别部,使得所述声音识别部不执行声音识别处理,或者控制所述应答指示部,使得不对所述应答动作部指示基于所述声音识别部识别出的声音的指示内容。
2.根据权利要求1所述的声音识别装置,其中,
所述特定的特征成分是以规定的时间间隔叠加于所述声音信号中的人工波形成分。
3.根据权利要求1所述的声音识别装置,其中,
还具有播放装置探测部,该播放装置探测部探测是否存在包括声音输出部的内容播放装置,
在由所述播放装置探测部探测到存在所述内容播放装置时,所述声音解析部解析被输入到所述声音输入部的声音信号中是否包含特定的特征成分。
4.根据权利要求1所述的声音识别装置,其中,
还具有播放装置探测部,该播放装置探测部探测包括声音输出部的内容播放装置是否正在播放内容;
在由所述播放装置探测部探测到所述内容播放装置正在播放内容时,所述声音解析部解析被输入到所述声音输入部的声音信号中是否包含特定的特征成分。
5.根据权利要求1所述的声音识别装置,其中,
所述声音信号是电视广播、无线电广播或者互联网广播的内容中包含的声音信号。
6.一种声音识别装置的控制方法,由处理器执行以下处理:
解析被输入到声音输入部的声音信号中是否包含特定的特征成分;
在解析为所述声音信号中不包含特定的特征成分时,对被输入到所述声音输入部的声音信号所表示的声音执行声音识别处理来识别声音;
指示对所识别出的声音做出应答而进行动作的应答动作部做出应答;以及
在解析为所述声音信号中包含所述特定的特征成分时,进行控制使得不对被输入到所述声音输入部的声音信号所表示的声音执行声音识别处理,或者进行控制使得不对所述应答动作部指示基于执行声音识别处理所识别出的声音的指示内容。
7.根据权利要求6所述的声音识别装置的控制方法,其中,
所述特定的特征成分是以规定的时间间隔叠加于所述声音信号中的人工波形成分。
8.一种内容播放装置,具备:
内容输入部,其被输入至少包含声音信号的内容信号;
内容播放部,其播放所述内容信号;
声音输出部,其输出所述内容信号的声音;以及
内容信号校正部,为了声音识别装置将由所述声音输出部输出的声音与人发出的声音区别开,所述内容信号校正部以使所述声音信号中包含特定的特征成分的方式来对所述声音信号进行校正。
9.根据权利要求8所述的内容播放装置,其特征在于,
还具有声音识别装置探测部,该声音识别装置探测部探测是否存在声音识别装置;
在由所述声音识别装置探测部探测到存在所述声音识别装置的情况下,所述内容信号校正部以使所述声音信号中包含特定的特征成分的方式来对所述声音信号进行校正。
10.根据权利要求8所述的内容播放装置,其特征在于,
所述内容信号校正部是如下处理器:该处理器求出所述声音信号的频率的频谱包络,并以规定的时间间隔将人工波形成分作为所述特定的特征成分与所述频谱包络进行卷积。
11.一种内容发送接收系统,具备:
内容输出装置,其输出内容信号,该内容信号是以使至少包含人发出的声音信号的内容信号中的所述声音信号包含特定的特征成分的方式进行校正所得到的;以及
声音识别装置,在至少被输入了进行所述校正所得到的内容信号且所述内容信号中包含特定的特征成分的情况下,所述声音识别装置进行控制使得声音识别部不执行声音识别处理,或者进行控制使得不对基于进行声音识别所得到的声音的指示内容做出应答。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/IB2018/001565 WO2020128552A1 (ja) | 2018-12-18 | 2018-12-18 | 音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113168834A true CN113168834A (zh) | 2021-07-23 |
Family
ID=71101782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880100051.8A Pending CN113168834A (zh) | 2018-12-18 | 2018-12-18 | 声音识别装置、声音识别装置的控制方法、内容播放装置以及内容发送接收系统 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11922953B2 (zh) |
EP (1) | EP3901946B1 (zh) |
JP (1) | JP7105320B2 (zh) |
CN (1) | CN113168834A (zh) |
WO (1) | WO2020128552A1 (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03160499A (ja) * | 1989-11-20 | 1991-07-10 | Sanyo Electric Co Ltd | 音声認識装置 |
JP2003044069A (ja) * | 2001-07-19 | 2003-02-14 | Samsung Electronics Co Ltd | 音声認識による誤動作の防止及び音声認識率の向上が可能な電子機器及び方法 |
JP2005338454A (ja) * | 2004-05-27 | 2005-12-08 | Toshiba Tec Corp | 音声対話装置 |
US20140003629A1 (en) * | 2012-06-28 | 2014-01-02 | Sonos, Inc. | Modification of audio responsive to proximity detection |
JP2015148648A (ja) * | 2014-02-04 | 2015-08-20 | シャープ株式会社 | 対話システム、発話制御装置、対話装置、発話制御方法、発話制御装置の制御プログラム、および、対話装置の制御プログラム |
US20170357637A1 (en) * | 2016-06-09 | 2017-12-14 | Apple Inc. | Intelligent automated assistant in a home environment |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3180936A (en) * | 1960-12-01 | 1965-04-27 | Bell Telephone Labor Inc | Apparatus for suppressing noise and distortion in communication signals |
JPH0423400U (zh) * | 1990-06-20 | 1992-02-26 | ||
JP2602342Y2 (ja) | 1993-09-30 | 2000-01-11 | 日本コロムビア株式会社 | オーディオ装置 |
JPH08107375A (ja) | 1994-10-06 | 1996-04-23 | Hitachi Ltd | 音響信号記録再生装置 |
JP3160499B2 (ja) | 1995-08-29 | 2001-04-25 | 松下電工株式会社 | 分電盤 |
JP3757638B2 (ja) * | 1998-09-03 | 2006-03-22 | セイコーエプソン株式会社 | 音声認識方法及び音声認識装置並びに音声認識処理プログラムを記録した記録媒体 |
JP4023400B2 (ja) | 2003-06-27 | 2007-12-19 | 日産自動車株式会社 | 待ち合わせ場所算出装置 |
US20080300866A1 (en) * | 2006-05-31 | 2008-12-04 | Motorola, Inc. | Method and system for creation and use of a wideband vocoder database for bandwidth extension of voice |
JP2012163692A (ja) * | 2011-02-04 | 2012-08-30 | Nec Corp | 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム |
WO2014103099A1 (ja) | 2012-12-28 | 2014-07-03 | パナソニック株式会社 | 音声認識付き機器及び音声認識方法 |
US10325591B1 (en) * | 2014-09-05 | 2019-06-18 | Amazon Technologies, Inc. | Identifying and suppressing interfering audio content |
US11600270B2 (en) | 2017-09-15 | 2023-03-07 | Saturn Licensing Llc | Information processing apparatus and information processing method |
US10692496B2 (en) * | 2018-05-22 | 2020-06-23 | Google Llc | Hotword suppression |
-
2018
- 2018-12-18 EP EP18943362.6A patent/EP3901946B1/en active Active
- 2018-12-18 WO PCT/IB2018/001565 patent/WO2020128552A1/ja unknown
- 2018-12-18 CN CN201880100051.8A patent/CN113168834A/zh active Pending
- 2018-12-18 US US17/414,194 patent/US11922953B2/en active Active
- 2018-12-18 JP JP2020560616A patent/JP7105320B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03160499A (ja) * | 1989-11-20 | 1991-07-10 | Sanyo Electric Co Ltd | 音声認識装置 |
JP2003044069A (ja) * | 2001-07-19 | 2003-02-14 | Samsung Electronics Co Ltd | 音声認識による誤動作の防止及び音声認識率の向上が可能な電子機器及び方法 |
JP2005338454A (ja) * | 2004-05-27 | 2005-12-08 | Toshiba Tec Corp | 音声対話装置 |
US20140003629A1 (en) * | 2012-06-28 | 2014-01-02 | Sonos, Inc. | Modification of audio responsive to proximity detection |
JP2015148648A (ja) * | 2014-02-04 | 2015-08-20 | シャープ株式会社 | 対話システム、発話制御装置、対話装置、発話制御方法、発話制御装置の制御プログラム、および、対話装置の制御プログラム |
US20170357637A1 (en) * | 2016-06-09 | 2017-12-14 | Apple Inc. | Intelligent automated assistant in a home environment |
Also Published As
Publication number | Publication date |
---|---|
EP3901946B1 (en) | 2023-12-27 |
WO2020128552A1 (ja) | 2020-06-25 |
US11922953B2 (en) | 2024-03-05 |
EP3901946A1 (en) | 2021-10-27 |
JP7105320B2 (ja) | 2022-07-22 |
JPWO2020128552A1 (ja) | 2021-11-18 |
EP3901946A4 (en) | 2021-12-29 |
US20220044691A1 (en) | 2022-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10484813B2 (en) | Systems and methods for delivery of personalized audio | |
JP4591557B2 (ja) | 音声信号処理装置、音声信号処理方法および音声信号処理プログラム | |
JP6572894B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
US9479883B2 (en) | Audio signal processing apparatus, audio signal processing method, and program | |
US8436241B2 (en) | Beat enhancement device, sound output device, electronic apparatus and method of outputting beats | |
US20090034750A1 (en) | System and method to evaluate an audio configuration | |
US10325591B1 (en) | Identifying and suppressing interfering audio content | |
JP4554044B2 (ja) | Av機器用音声認識装置 | |
CN110827863A (zh) | 智能调整音量的方法、装置、终端及可读存储介质 | |
US20120271630A1 (en) | Speech signal processing system, speech signal processing method and speech signal processing method program | |
CN113270082A (zh) | 一种车载ktv控制方法及装置、以及车载智能网联终端 | |
CN113168834A (zh) | 声音识别装置、声音识别装置的控制方法、内容播放装置以及内容发送接收系统 | |
EP2849341A1 (en) | Loudness control at audio rendering of an audio signal | |
JP2016206646A (ja) | 音声再生方法、音声対話装置及び音声対話プログラム | |
US20230101944A1 (en) | Multi-channel audio system, multi-channel audio device, program, and multi-channel audio playback method | |
KR102196519B1 (ko) | 소리 제거 시스템 및 이를 이용한 소리 제거 방법 | |
KR102113572B1 (ko) | 소리 제거 시스템 및 이를 이용한 소리 제거 방법 | |
CN108632439B (zh) | 一种移动终端和音频接收设备的通信方法和装置 | |
WO2009125466A1 (ja) | コンテンツ再生システム及びコンテンツ再生方法 | |
US20240132002A1 (en) | Vehicle-mounted audio playing method and apparatus, multimedia host, and storage medium | |
WO2022137806A1 (ja) | 耳装着型デバイス、及び、再生方法 | |
US20190281388A1 (en) | Connection state determination system for speakers, acoustic device, and connection state determination method for speakers | |
JP2004235979A (ja) | 音入出力装置および音入出力方法 | |
JP2016072797A (ja) | 楽曲再生装置、および楽曲再生装置のプログラム | |
JP2010016739A (ja) | 送信機、携帯端末およびコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |