CN114080641A - 麦克风单元 - Google Patents
麦克风单元 Download PDFInfo
- Publication number
- CN114080641A CN114080641A CN202080051540.6A CN202080051540A CN114080641A CN 114080641 A CN114080641 A CN 114080641A CN 202080051540 A CN202080051540 A CN 202080051540A CN 114080641 A CN114080641 A CN 114080641A
- Authority
- CN
- China
- Prior art keywords
- microphone
- sound
- comparison
- unit
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 claims abstract description 88
- 238000012360 testing method Methods 0.000 claims description 32
- 238000004891 communication Methods 0.000 claims description 21
- 238000012937 correction Methods 0.000 claims description 14
- 238000000034 method Methods 0.000 claims description 10
- 230000003321 amplification Effects 0.000 claims description 5
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 3
- 239000008358 core component Substances 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R19/00—Electrostatic transducers
- H04R19/01—Electrostatic transducers characterised by the use of electrets
- H04R19/016—Electrostatic transducers characterised by the use of electrets for microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R19/00—Electrostatic transducers
- H04R19/04—Microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/003—Mems transducers or their use
Abstract
麦克风单元(1)具备:声音数据获取部(11),获取声音作为声音数据;声音数据注册部(12),注册从声音数据提取了特征点的对照用声音数据;评价用声音数据获取部(13),获取输入到第一麦克风(10)的声音作为评价用声音数据;对照部(14),基于对照用声音数据和从评价用声音数据提取的特征点,进行基于评价用声音数据的声音的发声者是否是基于对照用声音数据的声音的发声者的对照;对照结果输出部(15),输出对照部(14)的对照结果。
Description
技术领域
本发明涉及能够判定输入到第一麦克风的声音是否是预期的发声者的声音的麦克风单元。
背景技术
以往,例如利用声音进行针对电器产品的指示的技术被利用。在这样的技术中进行声音识别。作为涉及声音识别的技术,例如存在下述示出来源的专利文献1所记载的技术。
在专利文献1中记载了声音对话系统。该声音对话系统由声音对话装置和声音识别服务器构成。声音对话装置识别被输入到声音输入单元的声音,将输入到声音输入单元的声音发送至声音识别服务器。声音识别服务器识别从声音对话装置接收的声音。声音对话装置以如下的方式构成:在输出基于该声音对话装置的识别结果的响应后,输出基于声音对话装置的识别结果和声音识别服务器的识别结果的差异的响应。
现有技术文献
专利文献
专利文献1:日本特开2018-45190号公报。
发明内容
发明要解决的课题
在专利文献1所记载的技术中,不仅进行声音对话装置中的声音识别处理,在声音识别服务器中也进行声音识别处理。因此,在进行声音识别时需要进行通信,在不配备通信基础设施的状况下不能利用。另外,专利文献1所记载的技术是进行声音识别的技术,未设想到识别声音的发声者。
因此,要求在识别处理中不需要网络就能够识别声音的发声者的麦克风单元。
用于解决课题的方案
本发明的麦克风单元的特征结构在于如下方面,一种麦克风单元,能够判定输入到第一麦克风的声音是否是预期的发声者的声音,所述麦克风单元具备:声音数据获取部,获取声音作为声音数据;声音数据注册部,注册从所述声音数据提取了特征点的对照用声音数据;评价用声音数据获取部,获取输入到所述第一麦克风的声音作为评价用声音数据;对照部,基于所述对照用声音数据和从所述评价用声音数据提取的特征点,进行基于所述评价用声音数据的声音的发声者是否是基于所述对照用声音数据的声音的发声者的对照;以及对照结果输出部,输出所述对照部的对照结果,所述对照用声音数据由与搭载有所述第一麦克风的装置不同的装置制作,搭载有所述第一麦克风的装置和所述不同的装置利用无线通信进行所述对照用声音数据的交接。
如果作成这样的特征结构,那么能够在不具备对照用的服务器的情况下进行对照。即,由于是所谓局域型识别处理,因此,在安全方面,能够安全地进行对照。另外,能够容易地特别指定预先注册的声音的发声者。
另外,优选的是,在所述对照部为睡眠状态的情况下,将所述评价用声音数据获取部进行的所述评价用声音数据的获取作为触发,结束所述睡眠状态。
如果作成这样的结构,那么能够降低功耗。
另外,优选的是,所述声音数据获取部获取的声音数据是输入到设置于与搭载有所述第一麦克风的装置不同的装置的第二麦克风的声音,还具备:评价部,在向所述第一麦克风及所述第二麦克风这二者输入声音之前,评价所述第一麦克风的频率特性及所述第二麦克风的频率特性;以及校正部,以使所述第一麦克风及所述第二麦克风之中的一方的频率特性与另一方的频率特性一致的方式进行校正。
如果作成这样的结构,那么通过使第一麦克风的频率特性和第二麦克风的频率特性相同,从而能够提高相同的用户以第一麦克风和第二麦克风输入声音的情况下的对照率。
另外,优选的是,还具备:试验用声音数据获取部,在注册所述对照用声音数据之后且获取所述评价用声音数据之前,获取由所述第一麦克风发出所述对照用声音数据的声音的发声者的声音作为试验用声音数据;以及计算部,一边基于所述试验用声音数据和所述对照用声音数据变更在所述对照中使用的对照用参数,一边计算基于所述试验用声音数据的所述发声者的对照率,所述对照部基于由所述计算部计算的所述对照率中的最高的对照率时的所述对照用参数进行所述对照。
一般而言,当降低误认率时,对照率也下降,但在其中也存在仅误认率降低而对照率不降低的对照用参数。因此,如本结构那样,通过一边计算对照率一边寻找对照用参数,从而能够设定适当的对照用参数。
另外,优选的是,所述对照用参数是将所述试验用声音数据及所述对照用声音数据之中的至少任意一方放大的放大率。
如果作成这样的结构,那么例如通过变更第一麦克风及第二麦克风之中的至少任意一方的输入范围,从而能够提高对照率。
另外,优选的是,还具备参数变更部,该参数变更部在基于所述评价用声音数据的声音对所述第一麦克风的输入时,基于所述对照用参数自动变更该第一麦克风的参数。
如果作成这样的结构,那么能够自动地抑制从第一麦克风输入的声音的声音电平,能够变更成提高对照率的电平。因此,能够自动地提高对照率。另外,也能够构成为,例如记录一定的时间,基于该时间内的平均的声音电平,自动变更声音电平。
另外,优选的是,所述麦克风单元基于所述对照部的对照结果,识别输入到所述第一麦克风的声音的发声者。
如果作成这样的结构,那么能够识别对由多个用户利用的麦克风单元输入的声音的发声者,因此,能够提高便利性。
另外,优选的是,推定输入到所述第一麦克风的声音的发声内容,基于推定的内容对搭载有所述第一麦克风的装置进行操作指令。
如果作成这样的结构,那么能够基于操作指令,控制搭载有第一麦克风的装置的动作。因此,例如能够利用免提控制搭载有第一麦克风的装置的动作,因此,能够提高便利性。
附图说明
图1是示出第一实施方式的麦克风单元的结构的图。
图2是示出第二实施方式的麦克风单元的结构的图。
图3是示出第三实施方式的麦克风单元的结构的图。
图4是示出麦克风单元的应用例的图。
具体实施方式
1.第一实施方式
本发明的麦克风单元被构成为能够进行输入的声音是否是预期的发声者的声音的判定。以下,对本实施方式的麦克风单元1进行说明。
图1是示意性地示出本实施方式的麦克风单元1的结构的框图。如图1所示,麦克风单元1具备第一麦克风10、声音数据获取部11、声音数据注册部12、评价用声音数据获取部13、对照部14、对照结果输出部15的各功能部。这些各功能部为了进行上述的判定的处理,以CPU为核心部件由硬件或软件或者这二者构建。
第一麦克风10被输入声音。第一麦克风10是麦克风元件,结构没有特别限定。例如可以使用驻极体电容器麦克风(ECM)、模拟MEMS(Micro-Electro-Mechanical System:微机电系统)麦克风、数字MEMS(Micro-Electro-Mechanical System:微机电系统)麦克风等中的至少一种构成。输入到第一麦克风10的声音由第一麦克风10转换成作为电信号的声音数据。
声音数据获取部11获取声音作为声音数据。在本实施方式中,声音数据获取部11获取的声音数据是输入到第二麦克风2A的声音,该第二麦克风2A设置于与搭载有第一麦克风10的装置不同的装置2。搭载有第一麦克风10的装置在本实施方式中为麦克风单元1。因此,第二麦克风2A与麦克风单元1分开地(分体)设置。第二麦克风2A也与第一麦克风10同样地,例如也可以使用驻极体电容器麦克风(ECM)、模拟MEMS(Micro-Electro-MechanicalSystem:微机电系统)麦克风、数字MEMS(Micro-Electro-Mechanical System:微机电系统)麦克风等中的至少一种构成。输入到第二麦克风2A的声音由第二麦克风2A转换成作为电信号的声音数据。声音数据获取部11获取第二麦克风2A转换而生成的声音数据。
声音数据注册部12注册从第二麦克风2A生成的声音数据提取了特征点的对照用声音数据。第二麦克风2A生成的声音数据是如上述那样对输入到第二麦克风2A的声音进行转换(数据化)而生成的数据。特征点是电信号(声音数据)的特征,例如相当于周期、峰值、半高宽等。因此,对照用声音数据相当于提取了将输入到第二麦克风2A的声音进行转换而生成的电信号的特征的数据。这样的对照用声音数据为本麦克风单元1用于实现判定输入到第一麦克风10的声音是否是预期的发声者的声音的功能的主声音数据时,在声音数据注册部12中记录这样的对照用声音数据。
对照用声音数据由与搭载有第一麦克风10的装置(麦克风单元1)不同的装置制作。与搭载有第一麦克风10的装置不同的装置是与麦克风单元1不同的装置。具体而言,相当于搭载有第二麦克风2A的装置2或麦克风单元1及装置2以外的装置3。在本实施方式中,对照用声音数据由设置于装置3的对照用声音数据生成部3A生成。和与搭载有第一麦克风10的装置不同的装置利用无线通信来进行对照用声音数据的交接。无线通信相当于例如Wi-Fi(注册商标)那样的LAN通信或Bluetooth(注册商标)那样的近距离无线通信。因此,在本实施方式中,麦克风单元1经由这样的无线通信从装置3(装置3的对照用声音数据生成部3A)传递对照用声音数据。此外,在搭载有第二麦克风2A的装置2中,在生成对照用声音数据的情况下,可以构成为将对照用声音数据生成部3A包含于装置2中。
在麦克风单元1及装置2以外的装置3生成对照用声音数据的情况下,可以构成为声音数据获取部11利用无线通信向该麦克风单元1及装置2以外的装置3传递声音数据,声音数据注册部12利用无线通信获取在麦克风单元1及装置2以外的装置3中制作的对照用声音数据。
另外,在装置2生成对照用声音数据的情况下,也可以构成为声音数据获取部11利用无线通信向装置2传递声音数据,声音数据注册部12利用无线通信获取在装置2中制作的对照用声音数据,也可以构成为在装置2中具备声音数据获取部11,声音数据注册部12利用无线通信获取在装置2中基于由声音数据获取部11获取的声音数据制作的对照用声音数据。
例如,在众所周知的所谓智能扬声器那样的设备中,将输入到麦克风的声音电子化,电子化了的声音数据通过因特网线路被发送至外部设备(服务器)。另一方面,在本实施方式的麦克风单元1中,如上述那样,由对照用声音数据生成部3A从声音数据提取特征点而生成的对照用声音数据经由无线通信被发送至配对的设备。
评价用声音数据获取部13获取输入到第一麦克风10的声音作为评价用声音数据。如上述那样,输入到第一麦克风10的声音由第一麦克风10转换成作为电信号的声音数据。该声音数据相当于评价用声音数据。因此,评价用声音数据获取部13获取将输入到第一麦克风10的声音由该第一麦克风10转换成作为电信号的声音数据而生成的评价用声音数据。
对照部14基于对照用声音数据和从评价用声音数据提取的特征点,进行基于评价用声音数据的声音的发声者是否是基于对照用声音数据的声音的发声者的对照。对照用声音数据被注册并记录于声音数据注册部12。评价用声音数据由评价用声音数据获取部13获取。从评价用声音数据提取的特征点是作为电信号的评价用声音数据的特征,例如相当于周期、峰值、半高宽等。这样的特征点与对照用声音数据同样地,能够构成为由与麦克风单元1不同的装置生成并且经由无线通信进行传递。当然,也能够构成为对照部14提取特征点。基于评价用声音数据的声音是输入到第一麦克风10的声音即由第一麦克风10转换成评价用声音数据的声音。在本实施方式中,基于对照用声音数据的声音是输入到第二麦克风2A的声音即由第二麦克风2A转换成对照用声音数据的声音。
因此,对照部14基于记录于声音数据注册部12的对照用声音数据和从由评价用声音数据获取部13获取的评价用声音数据提取的特征点,进行输入到第一麦克风10的声音即由第一麦克风10转换成评价用声音数据的声音的发声者与输入到第二麦克风2A的声音即由第二麦克风2A转换成对照用声音数据的声音的发声者是否是同一人的对照。
例如也可以比较评价用声音数据和对照用声音数据的特征部分(相当于上述“特征点”),提取一致点和不同点,基于根据一致点和不同点的比例计算的一致度来进行这样的对照。具体而言,能够在一致度比预先设定的值大的情况下,判定为转换成评价用声音数据的声音的发声者与转换成对照用声音数据的声音的发声者为同一人,在一致度为预先设定的值以下的情况下,判定为转换成评价用声音数据的声音的发声者与转换成对照用声音数据的声音的发声者不是同一人。当然,也能够利用与这样的方法不同的方法(例如,公知的声纹分析等)来进行。
在此,对照部14进行的对照需要运算处理,因此,在总是将对照部14设为工作状态的情况下功耗增大。因此,优选对照部14仅在进行对照的情况下设为工作状态,在不进行对照的情况下设为睡眠状态。在上述的情况下,在对照部14为睡眠状态的情况下,例如也可以将评价用声音数据获取部13进行的评价用声音数据的获取作为触发而结束睡眠状态。评价用声音数据获取部13进行的获取了评价用声音数据可以通过将示出评价用声音数据获取部13进行的获取了评价用声音数据的信息传递至对照部14来示出,也可以通过将评价用声音数据传递至对照部14来示出。另外,也能够构成为将示出第一麦克风10检测(VoiceActive Detection:语音活性检测)出声音的信息经由评价用声音数据获取部13向对照部14传递而示出。
由此,仅在对照部14进行对照的情况下将对照部14设为工作状态,因此,在其它的状态下能够降低功耗。这样的结构能够通过将睡眠时的对照部14的动作频率设定得比工作时的动作频率低而实现。另外,为了实现这样的相互不同的动作频率,例如能够在睡眠时根据来自对照部14的外部的时钟(外部时钟)进行动作,在工作时根据由对照部14生成的时钟(内部时钟)进行动作。
或者,也能够代替上述结构而构成为对照部14根据用户的按钮操作(开关操作)而解除睡眠状态。
对照结果输出部15输出对照部14的对照结果。对照部14的对照结果是转换成评价用声音数据的声音的发声者与转换成对照用声音数据的声音的发声者是否是同一人的判定结果。即,是输入到第一麦克风10的声音的发声者与输入到第二麦克风2A的声音的发声者是否是同一人的判定结果。对照结果输出部15将这样的判定结果输出至显示装置并且该显示装置进行显示也可以。或者,将这样的判定结果输出至扬声器并且该扬声器进行报知也可以。另外,将判定结果输出至其它的控制装置并且该其它的控制装置利用于控制也可以。
例如也能够构成为基于对照部14的对照结果来识别输入到第一麦克风10的声音的发声者。在上述的情况下,也可以构成为由扬声器或显示装置输出发声者的识别结果。另外,将识别结果输出至其它的控制装置并且该其它的控制装置利用于控制也可以。
2.第二实施方式
接着,对第二实施方式进行说明。第二实施方式的麦克风单元1在上述第一实施方式的麦克风单元1中具备评价部20及校正部21这方面是不同的。这方面以外与第一实施方式相同,因此,在此主要以不同的的方面为中心进行说明。
图2是示意性地示出本实施方式的麦克风单元1的结构的框图。如图2所示,本实施方式的麦克风单元1具备第一麦克风10、声音数据获取部11、声音数据注册部12、评价用声音数据获取部13、对照部14、对照结果输出部15、评价部20、校正部21的各功能部。评价部20及校正部21也与在第一实施方式中说明的其它的各功能部同样地,为了进行上述的判定的处理,以CPU为核心部件由硬件或软件或者这二者构建。
评价部20在声音输入至第一麦克风10及第二麦克风2A这二者之前,评价第一麦克风10的频率特性及第二麦克风2A的频率特性。声音输入至第一麦克风10及第二麦克风2A这二者之前是声音针对第一麦克风10及第二麦克风2A这二者的输入完成之前。
即,声音输入至第一麦克风10及第二麦克风2A这二者之前相当于对第一麦克风10及第二麦克风2A这二者未输入声音的状态、仅对第一麦克风10输入声音的状态、仅对第二麦克风2A输入声音的状态,是对第一麦克风10及第二麦克风2A之中的至少任意一方未输入声音的状态。
第一麦克风10的频率特性及第二麦克风2A的频率特性对于各个麦克风被预先规定,因此,可以是将这样的频率特性存储于存储部(未图示)并由评价部20获取,也可以是评价部20实际对第一麦克风10或第二麦克风2A通电来进行频率解析而获取。评价部20计算获取的第一麦克风10的频率特性及第二麦克风2A的频率特性的差异。
校正部21以使第一麦克风10及第二麦克风2A中的一方的频率特性与另一方的频率特性一致的方式进行校正。如上述那样,第一麦克风10的频率特性及第二麦克风2A的频率特性由评价部20评价。另外,评价部20进行的评价在对第一麦克风10及第二麦克风2A中的至少任意一方未输入声音的状态下进行。
在处于对第一麦克风10及第二麦克风2A这二者未输入声音的状态下,未输入声音的状态下的第一麦克风10及第二麦克风2A中的一方相当于第一麦克风10及第二麦克风2A的一方,在处于对第一麦克风10及第二麦克风2A中的一方未输入声音的状态下,未输入声音的状态下的第一麦克风10及第二麦克风2A中的一方相当于对第一麦克风10及第二麦克风2A中的未输入声音的麦克风。
另外,在处于对第一麦克风10及第二麦克风2A这二者未输入声音的状态下,未输入声音的状态下的第一麦克风10及第二麦克风2A中的另一方相当于第一麦克风10及第二麦克风2A的另一方,在处于对第一麦克风10及第二麦克风2A中的一方未输入声音的状态下,未输入声音的状态下的第一麦克风10及第二麦克风2A中的另一方相当于第一麦克风10及第二麦克风2A中的输入了声音的麦克风。
因此,在对第一麦克风10及第二麦克风2A这二者未输入声音的状态下,校正部21以使第一麦克风10及第二麦克风2A的一方的频率特性与第一麦克风10及第二麦克风2A的另一方的频率特性一致的方式进行校正,在对第一麦克风10及第二麦克风2A中的一方未输入声音的状态下,校正部21以使第一麦克风10及第二麦克风2A中的未输入声音的麦克风的频率特性与第一麦克风10及第二麦克风2A中的输入了声音的麦克风的频率特性一致的方式进行校正。
通过如以上那样构成,从而能够使第一麦克风10及第二麦克风2A中的至少后输入声音的麦克风与先输入的麦克风的频率特性一致,因此,能够降低麦克风的频率特性的差异引起的对照的错误。
3.第三实施方式
接着,对第三实施方式进行说明。第三实施方式的麦克风单元1在上述第一实施方式的麦克风单元1中具备试验用声音数据获取部30、计算部31及参数变更部40这方面是不同的。这方面以外与第一实施方式是相同的,因此,在此主要以不同的方面为中心进行说明。
图3是示意性地示出本实施方式的麦克风单元1的结构的框图。如图3所示,本实施方式的麦克风单元1具备第一麦克风10、声音数据获取部11、声音数据注册部12、评价用声音数据获取部13、对照部14、对照结果输出部15、试验用声音数据获取部30、计算部31及参数变更部40的各功能部。试验用声音数据获取部30、计算部31及参数变更部40也与在第一实施方式中说明的其它的各功能部同样地,为了进行上述的判定的处理,以CPU为核心部件由硬件或软件或者这二者构建。
试验用声音数据获取部30在注册对照用声音数据后且从第一麦克风10获取评价用声音数据之前,获取由第一麦克风10发出对照用声音数据的声音的发声者的声音作为试验用声音数据。注册对照用声音数据之后是将输入到第二麦克风2A的声音进行转换而生成的对照用声音数据被注册于声音数据注册部12之后。获取评价用声音数据之前是由评价用声音数据获取部13获取将输入到第一麦克风10的声音进行转换而生成的评价用声音数据之前。由第一麦克风10发出对照用声音数据的声音的发声者的声音是与发出成为注册于声音数据注册部12的对照用声音数据的基础的声音的发声者相同的发声者的声音即从第一麦克风10获取的声音。
因此,试验用声音数据获取部30在从向声音数据注册部12注册将输入到第二麦克风2A的声音进行转换而生成的对照用声音数据到由评价用声音数据获取部13获取将输入到第一麦克风10的声音进行转换而生成的评价用声音数据的期间,将由与发出成为注册于声音数据注册部12的对照用声音数据的基础的声音的发声者相同的发声者输入的声音从第一麦克风10转换成试验用声音数据并获取。
计算部31基于试验用声音数据和对照用声音数据,一边对在对照中使用的对照用参数进行变更,一边计算基于试验用声音数据的发声者的对照率。计算部31从试验用声音数据获取部30获取试验用声音数据,从声音数据注册部12获取对照用声音数据。在对照中使用的参数是以对照为成为试验用声音数据的基础的声音的发声者是成为对照用声音数据的基础的声音的发声者的方式对试验用声音数据及对照用声音数据的至少任意一方进行校正的参数。
在本实施方式中,对照用参数相当于将试验用声音数据及对照用声音数据中的至少任意一方进行放大的放大率。例如,可以以使试验用声音数据和对照用声音数据的振幅相互相等的方式将第一麦克风10中的试验用声音数据及第二麦克风2A中的对照用声音数据的至少一方放大。此时的放大率相当于对照用参数。
计算部31一边依次变更放大率,一边对输入的试验用声音数据及对照用声音数据的一方或这二者进行放大,计算是否被对照为成为试验用声音数据的基础的声音的发声者和成为对照用声音数据的基础的声音的发声者是同一发声者。计算部31存储这样的计算结果。
向参数变更部40传递由计算部31计算的对照率中的最高的对照率时的对照用参数(放大率),将该对照参数设定于第一麦克风10及第二麦克风2A的至少任意一方。然后,对照部14基于应用了由计算部31计算的对照率中的由参数变更部40设定的最高的对照率时的对照用参数的试验用声音数据和对照用声音数据进行对照。通过这样的结构,能够降低尽管基于评价用声音数据的声音的发声者是基于对照用声音数据的声音的发声者可是判定为不是相同的发声者的错误对照。
在本实施方式中,上述的对照用参数的变更被构成为参数变更部40在基于评价用声音数据的声音对第一麦克风10输入时,基于对照用参数自动变更该第一麦克风10的参数。由此,能够容易地变更对照用参数,另外,能够使用能够降低尽管基于评价用声音数据的声音的发声者是基于对照用声音数据的声音的发声者可是判定为不是相同的发声者的错误对照的评价用声音数据进行对照。
4.对照处理
接着,关于麦克风单元1的具体的应用例,举出图4所示的门的锁定解除为例进行说明。首先,用户100向智能手机等移动终端(装置2的一例)所具备的第二麦克风2A输入发声出规定的单词的声音(#1)。这样经由智能手机的声音的输入能够通过预先在智能手机中安装应用程序来进行。
输入到第二麦克风2A的声音被转换成声音数据,经由智能手机的通信功能(例如无线通信)被传递至麦克风单元1。这样的向声音数据的转换也优选利用智能手机的应用程序来进行。麦克风单元1的声音数据获取部11获取该声音数据,由对照用声音数据生成部3A从声音数据提取了特征点的对照用声音数据作为对照用声音数据由声音数据注册部12注册(#2)。
在这样的状态下,由用户100向麦克风单元1的第一麦克风10输入声音(#3)。此时,可以通过发声出上述的特定的单词而输入声音。此外,在该时间点,麦克风单元1也可以不特别指定声音的输入者是否是用户100。输入的声音由第一麦克风10转换成评价用声音数据,评价用声音数据获取部13进行获取。对照部14将从评价用声音数据提取的特征点与对照用声音数据进行对照(#5)。
当由对照部14判定为基于评价用声音数据的声音的发声者是基于对照用声音数据的声音的发声者时,对照结果输出部15向锁定单元输出示出两个声音的发声者为同一人的信号,即,向锁定单元输出示出基于评价用声音数据的声音的发声者是基于对照用声音数据的声音的发声者即用户100的信号。由此,锁定被解除(#6)。
另一方面,在#2的状态下,由与用户100不同的人即用户150向麦克风单元1的第一麦克风10输入声音(#7)。此外,在该时间点,麦克风单元1也可以不特别指定声音的输入者是否是用户150。输入的声音由第一麦克风10转换成评价用声音数据,评价用声音数据获取部13进行获取。对照部14将评价用声音数据与对照用声音数据进行对照(#8)。
当由对照部14判定为基于评价用声音数据的声音的发声者不是基于对照用声音数据的声音的发声者时,对照结果输出部15向锁定单元输出示出两个声音的发声者不是同一人的信号,即,向锁定单元输出示出基于评价用声音数据的声音的发声者不是基于对照用声音数据的声音的发声者即用户100的信号。在该情况下,锁定不被解除,维持锁定状态(#9)。此外,在上述的情况下,也能够构成为向报知部(未图示)输出示出基于评价用声音数据的声音的发声者不是基于对照用声音数据的声音的发声者即用户100的信号,报知部输出示出发声者不同的声音或光来进行报知。
此外,如果输入的声音的单词与对照用声音数据的声音的单词不同,那么也能够判定为此次的发声的用户150不是用户100。
5.其它的实施方式
在上述第一实施方式中,设为在对照部14为睡眠状态的情况下将评价用声音数据获取部13进行的评价用声音数据的获取作为触发而结束睡眠状态进行了说明,但也能够构成为对照部14不成为睡眠状态。
在上述第二实施方式中,设为麦克风单元1具备第一麦克风10、声音数据获取部11、声音数据注册部12、评价用声音数据获取部13、对照部14、对照结果输出部15、评价部20、校正部21的各功能部进行了说明,但也可以具备试验用声音数据获取部30及计算部31而构成,进而,也可以除了试验用声音数据获取部30及计算部31之外,还具备参数变更部40而构成。
在上述第三实施方式中,设为麦克风单元1具备参数变更部40进行了说明,但麦克风单元1也能够不具备参数变更部40而构成。
在上述实施方式中,举出第一麦克风10为一个的情况的例子进行了说明,但也能够具备多个第一麦克风10而构成。在上述的情况下,优选构成为仅来自预期的方向的声音能够输入到第一麦克风中的每一个。由此,能够仅识别特别指定的声音,容易对照发声者。
在上述第二实施方式中,设为评价第一麦克风10和第二麦克风2A的频率特性并且校正部21以使第一麦克风10及第二麦克风2A中的一方的频率特性与另一方的频率特性一致的方式校正进行了说明。取而代之,首先,用户100对第一麦克风10输入声音,麦克风单元1将输入到第一麦克风10的声音利用无线通信转送至装置2。接着,装置2的第二麦克风2A也能够构成为基于从麦克风单元1转送的声音,作为声音数据进行获取,将声音数据作为对照用声音数据进行注册。如果是这样的结构,那么能够直接使用输入到第一麦克风10的声音生成对照用声音数据,因此,能够不需要使频率特性一致那样的校正。另外,即使是上述的结构,也能够防止基于第一麦克风10和第二麦克风2A的频率特性的差异的错误的对照。另外,能够在不使第一麦克风10具有向声音数据获取部11的传递功能的情况下有效地利用具有第二麦克风2A的装置2中的功能(向声音数据获取部11的传递功能),并且,不需要预先校正频率特性,因此,是有效的。
在上述实施方式中,举出将麦克风单元1利用于门锁的解锁的情况的例子进行了说明,但也能够利用于例如车辆的门锁、或车辆的动力装置(例如发动机或马达等)的起动、或设置于车辆的设备(免提麦克风、或扬声器麦克风一体型盒、或车外声音识别麦克风、车内声音识别麦克风)。另外,不限于车辆,也能够利用于智能扬声器、或住房组装用麦克风、监视摄像头、对讲机、家用电器(电视、冰箱、电饭煲、微波炉等)、浴缸遥控器等。即,换言之,可以说麦克风单元1推定输入到第一麦克风10的声音的发声内容,对搭载有推定的第一麦克风10的装置(麦克风单元1)进行操作指令。
在上述实施方式中,举出第一麦克风10和第二麦克风2A为相互不同的麦克风的情况的例子进行了说明,但第一麦克风10和第二麦克风2A也可以是相同的麦克风。
在上述实施方式中,在“4.对照处理”中,设为“用户100向智能手机等移动终端(装置2的一例)所具备的第二麦克风2A输入发声出规定的单词的声音(#1)”进行了说明,但能够构成为用户100向第一麦克风10输入发声出规定的单词的声音,将输入到第一麦克风10的声音经由无线通信向第二麦克风2A传递,生成对照用声音数据。另外,设为“对照部14将从评价用声音数据提取的特征点与对照用声音数据进行对照(#5)”进行了说明,但也能够构成为从评价用声音数据的特征点的提取也由第二麦克风2A进行。即使在哪种情况下,均能够构成为各数据或特征点经由无线通信进行传递。
产业上的可利用性
本发明能够用于能够判定输入到第一麦克风的声音是否是预期的发声者的声音的麦克风单元。
附图标记说明
1:麦克风单元
2:不同的装置
2A:第二麦克风
10:第一麦克风
11:声音数据获取部
12:声音数据注册部
13:评价用声音数据获取部
14:对照部
15:对照结果输出部
20:评价部
21:校正部
30:试验用声音数据获取部
31:计算部
40:参数变更部。
Claims (8)
1.一种麦克风单元,能够判定输入到第一麦克风的声音是否是预期的发声者的声音,所述麦克风单元具备:
声音数据获取部,获取声音作为声音数据;
声音数据注册部,注册从所述声音数据提取了特征点的对照用声音数据;
评价用声音数据获取部,获取输入到所述第一麦克风的声音作为评价用声音数据;
对照部,基于所述对照用声音数据和从所述评价用声音数据提取的特征点,进行基于所述评价用声音数据的声音的发声者是否是基于所述对照用声音数据的声音的发声者的对照;以及
对照结果输出部,输出所述对照部的对照结果,
所述对照用声音数据由与搭载有所述第一麦克风的装置不同的装置制作,搭载有所述第一麦克风的装置和所述不同的装置利用无线通信进行所述对照用声音数据的交接。
2.根据权利要求1所述的麦克风单元,其中,
在所述对照部为睡眠状态的情况下,将所述评价用声音数据获取部进行的所述评价用声音数据的获取作为触发,结束所述睡眠状态。
3.根据权利要求1或2所述的麦克风单元,其中,
所述声音数据获取部获取的声音数据是输入到设置于与搭载有所述第一麦克风的装置不同的装置的第二麦克风的声音,
还具备:
评价部,在向所述第一麦克风及所述第二麦克风这二者输入声音之前,评价所述第一麦克风的频率特性及所述第二麦克风的频率特性;以及
校正部,以使所述第一麦克风及所述第二麦克风之中的一方的频率特性与另一方的频率特性一致的方式进行校正。
4.根据权利要求1~3中的任意一项所述的麦克风单元,其中,还具备:
试验用声音数据获取部,在注册所述对照用声音数据之后且获取所述评价用声音数据之前,获取由所述第一麦克风发出所述对照用声音数据的声音的发声者的声音作为试验用声音数据;以及
计算部,一边基于所述试验用声音数据和所述对照用声音数据变更在所述对照中使用的对照用参数,一边计算基于所述试验用声音数据的所述发声者的对照率,
所述对照部基于由所述计算部计算的所述对照率中的最高的对照率时的所述对照用参数进行所述对照。
5.根据权利要求4所述的麦克风单元,其中,
所述对照用参数是将所述试验用声音数据及所述对照用声音数据之中的至少任意一方放大的放大率。
6.根据权利要求4或5所述的麦克风单元,其中,
还具备参数变更部,该参数变更部在基于所述评价用声音数据的声音对所述第一麦克风的输入时,基于所述对照用参数自动变更该第一麦克风的参数。
7.根据权利要求1~6中的任意一项所述的麦克风单元,其中,
基于所述对照部的对照结果,识别输入到所述第一麦克风的声音的发声者。
8.根据权利要求1~7中的任意一项所述的麦克风单元,其中,
推定输入到所述第一麦克风的声音的发声内容,基于推定的内容对搭载有所述第一麦克风的装置进行操作指令。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019-131930 | 2019-07-17 | ||
JP2019131930 | 2019-07-17 | ||
PCT/JP2020/022616 WO2021010056A1 (ja) | 2019-07-17 | 2020-06-09 | マイクユニット |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114080641A true CN114080641A (zh) | 2022-02-22 |
Family
ID=74210556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080051540.6A Pending CN114080641A (zh) | 2019-07-17 | 2020-06-09 | 麦克风单元 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220415330A1 (zh) |
EP (1) | EP4002356A4 (zh) |
JP (1) | JP7462634B2 (zh) |
CN (1) | CN114080641A (zh) |
WO (1) | WO2021010056A1 (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63223965A (ja) * | 1987-03-13 | 1988-09-19 | Toshiba Corp | 知的ワ−クステ−シヨン |
JPH08223281A (ja) * | 1995-02-10 | 1996-08-30 | Kokusai Electric Co Ltd | 携帯電話機 |
JP2003066985A (ja) * | 2001-08-22 | 2003-03-05 | Nec Corp | 携帯型通信機器の使用者認証方式 |
RU2002123509A (ru) * | 2002-09-03 | 2004-03-20 | Общество с ограниченной ответственностью "Центр речевых технологий" | Метод распознавания диктора и устройство для его осуществления |
JP2004219728A (ja) * | 2003-01-15 | 2004-08-05 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP2005241215A (ja) * | 2004-02-27 | 2005-09-08 | Mitsubishi Electric Corp | 電気機器、冷蔵庫、冷蔵庫の操作方法 |
JP2006003451A (ja) * | 2004-06-15 | 2006-01-05 | Brother Ind Ltd | 対象者特定装置,催事動向分析装置及び催事動向分析システム |
JP2006126558A (ja) * | 2004-10-29 | 2006-05-18 | Asahi Kasei Corp | 音声話者認証システム |
JP2007057805A (ja) * | 2005-08-24 | 2007-03-08 | Denso Corp | 車両用情報処理装置 |
CN102204233A (zh) * | 2008-10-17 | 2011-09-28 | 美国丰田汽车销售有限公司 | 车辆生物测定系统和方法 |
WO2014112375A1 (ja) * | 2013-01-17 | 2014-07-24 | 日本電気株式会社 | 話者識別装置、話者識別方法、および話者識別用プログラム |
JP2016024589A (ja) * | 2014-07-18 | 2016-02-08 | キャンバスマップル株式会社 | 情報検索装置、情報検索プログラム、および情報検索システム |
US20180040323A1 (en) * | 2016-08-03 | 2018-02-08 | Cirrus Logic International Semiconductor Ltd. | Speaker recognition |
CN108735207A (zh) * | 2017-04-25 | 2018-11-02 | 丰田自动车株式会社 | 声音对话系统、声音对话方法及计算机可读存储介质 |
CN108926111A (zh) * | 2018-07-23 | 2018-12-04 | 广州维纳斯家居股份有限公司 | 智能升降桌声音控制方法、装置、智能升降桌及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9257120B1 (en) * | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
JP6614080B2 (ja) | 2016-09-16 | 2019-12-04 | トヨタ自動車株式会社 | 音声対話システムおよび音声対話方法 |
-
2020
- 2020-06-09 JP JP2021532725A patent/JP7462634B2/ja active Active
- 2020-06-09 WO PCT/JP2020/022616 patent/WO2021010056A1/ja unknown
- 2020-06-09 US US17/626,982 patent/US20220415330A1/en active Pending
- 2020-06-09 EP EP20840120.8A patent/EP4002356A4/en active Pending
- 2020-06-09 CN CN202080051540.6A patent/CN114080641A/zh active Pending
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63223965A (ja) * | 1987-03-13 | 1988-09-19 | Toshiba Corp | 知的ワ−クステ−シヨン |
JPH08223281A (ja) * | 1995-02-10 | 1996-08-30 | Kokusai Electric Co Ltd | 携帯電話機 |
JP2003066985A (ja) * | 2001-08-22 | 2003-03-05 | Nec Corp | 携帯型通信機器の使用者認証方式 |
RU2002123509A (ru) * | 2002-09-03 | 2004-03-20 | Общество с ограниченной ответственностью "Центр речевых технологий" | Метод распознавания диктора и устройство для его осуществления |
JP2004219728A (ja) * | 2003-01-15 | 2004-08-05 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP2005241215A (ja) * | 2004-02-27 | 2005-09-08 | Mitsubishi Electric Corp | 電気機器、冷蔵庫、冷蔵庫の操作方法 |
JP2006003451A (ja) * | 2004-06-15 | 2006-01-05 | Brother Ind Ltd | 対象者特定装置,催事動向分析装置及び催事動向分析システム |
JP2006126558A (ja) * | 2004-10-29 | 2006-05-18 | Asahi Kasei Corp | 音声話者認証システム |
JP2007057805A (ja) * | 2005-08-24 | 2007-03-08 | Denso Corp | 車両用情報処理装置 |
CN102204233A (zh) * | 2008-10-17 | 2011-09-28 | 美国丰田汽车销售有限公司 | 车辆生物测定系统和方法 |
WO2014112375A1 (ja) * | 2013-01-17 | 2014-07-24 | 日本電気株式会社 | 話者識別装置、話者識別方法、および話者識別用プログラム |
JP2016024589A (ja) * | 2014-07-18 | 2016-02-08 | キャンバスマップル株式会社 | 情報検索装置、情報検索プログラム、および情報検索システム |
US20180040323A1 (en) * | 2016-08-03 | 2018-02-08 | Cirrus Logic International Semiconductor Ltd. | Speaker recognition |
CN109564759A (zh) * | 2016-08-03 | 2019-04-02 | 思睿逻辑国际半导体有限公司 | 说话人识别 |
CN108735207A (zh) * | 2017-04-25 | 2018-11-02 | 丰田自动车株式会社 | 声音对话系统、声音对话方法及计算机可读存储介质 |
CN108926111A (zh) * | 2018-07-23 | 2018-12-04 | 广州维纳斯家居股份有限公司 | 智能升降桌声音控制方法、装置、智能升降桌及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20220415330A1 (en) | 2022-12-29 |
WO2021010056A1 (ja) | 2021-01-21 |
EP4002356A4 (en) | 2023-05-24 |
EP4002356A1 (en) | 2022-05-25 |
JP7462634B2 (ja) | 2024-04-05 |
JPWO2021010056A1 (zh) | 2021-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10721661B2 (en) | Wireless device connection handover | |
US9060074B2 (en) | Method and system for communication | |
US9601107B2 (en) | Speech recognition system, recognition dictionary registration system, and acoustic model identifier series generation apparatus | |
US8364486B2 (en) | Speech understanding method and system | |
JP6402748B2 (ja) | 音声対話装置および発話制御方法 | |
US11605372B2 (en) | Time-based frequency tuning of analog-to-information feature extraction | |
US11292432B2 (en) | Vehicle control system | |
KR20200109954A (ko) | IoT 기기의 위치 추론 방법, 이를 지원하는 서버 및 전자 장치 | |
US11516599B2 (en) | Personal hearing device, external acoustic processing device and associated computer program product | |
KR20140058127A (ko) | 음성인식장치 및 음성인식방법 | |
US10425746B2 (en) | Method for operating a hearing apparatus, and hearing apparatus | |
JP2019035258A (ja) | 車両用制御システム | |
JP2019184809A (ja) | 音声認識装置、音声認識方法 | |
JP2006025079A (ja) | ヘッドセット及び無線通信システム | |
CN114080641A (zh) | 麦克风单元 | |
KR20190016851A (ko) | 음성 인식 방법 및 이에 사용되는 장치 | |
JP2015055835A (ja) | 話者認識装置、話者認識方法及び話者認識プログラム | |
JP6226911B2 (ja) | サーバ装置、システム、音声認識機能を管理するための方法、および、情報通信端末を制御するためのプログラム | |
KR102495028B1 (ko) | 휘파람소리 인식 기능이 구비된 사운드장치 | |
JP5929810B2 (ja) | 音声解析システム、音声端末装置およびプログラム | |
KR102208496B1 (ko) | 연속 음성 명령에 기반하여 서비스를 제공하는 인공지능 음성단말장치 및 음성서비스시스템 | |
US20210035577A1 (en) | Control system and control method | |
JP6680125B2 (ja) | ロボットおよび音声対話方法 | |
KR20140136642A (ko) | 휴대전화의 dtmf 신호음을 이용한 근거리 무선제어방법 | |
WO2020117403A1 (en) | Wireless device connection handover |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |