CN111048067A - 一种麦克风响应方法及装置 - Google Patents

一种麦克风响应方法及装置 Download PDF

Info

Publication number
CN111048067A
CN111048067A CN201911097140.4A CN201911097140A CN111048067A CN 111048067 A CN111048067 A CN 111048067A CN 201911097140 A CN201911097140 A CN 201911097140A CN 111048067 A CN111048067 A CN 111048067A
Authority
CN
China
Prior art keywords
score
microphone device
microphone
angle
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911097140.4A
Other languages
English (en)
Inventor
陈晓松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN201911097140.4A priority Critical patent/CN111048067A/zh
Publication of CN111048067A publication Critical patent/CN111048067A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开一种麦克风响应方法及装置,包括以下步骤:当用户发出声音之后,获取每个麦克风设备的语音识别置信度和发音角度;利用选举算法分别为语音识别置信度和发音角度进行打分;结合每个麦克风设备和用户之间的发音距离计算每个麦克风设备的最终得分;激活得分最高的麦克风设备。通过获取每个麦克风的语音识别置信度和发音角度进而结合距离进行打分解决了现有技术中只针对距离判断交互对象的问题,同时获取的语音识别置信度和发音角度受外界噪声影响较小,解决了现有技术中基于能量的距离比较算法,受外界噪声影响较大,以致于选举算法无法正常工作的问题,提高了响应的准确度。

Description

一种麦克风响应方法及装置
技术领域
本发明涉及通信技术领域,尤其涉及一种麦克风响应方法及装置。
背景技术
随着人工智能技术的发展,推动了认知能力、感知能力以及自然语音输出能力这三个维度上的进步。其中,针对认知能力,基于用户行为的画像,将人机交互从“单向”关系带入了“双向关系”;针对感知能力,由触摸输入到以语音输入、图像识别为核心的全自然交互;针对自然语音输出能力,其带来了新的“语音”设计材料。同时,在一定程度上也丰富了终端设备的使用方式,如麦克风。
分布式麦克风“单一唤醒响应”功能,要求同一空间内多台设备,在用户说出唤醒词后,选举出一个最适合与用户交互的设备进行应答和完成后续交互。其核心在于选举算法,选举算法基于设备端上传的信息,决策哪台设备应该被选中来响应客户。现有技术中通过声音在空气中传播,其能量随传播距离逐渐衰减的原理,通过比较不同设备上采集的唤醒词音频的平均能量来比较说话人距离不同设备的距离,选择距离最近的设备进行交互。这种方法存在着以下问题:1、在设备差异较大的使用场景中,难以选出最优的交互设备,因为距离无法完全代表设备的交互能力;2、基于能量的距离比较算法,受外界噪声影响较大,以致于上述算法无法正常工作。
发明内容
针对上述所显示出来的问题,本方法基于获取麦克风设备的语音识别置信度和发音角度并结合麦克风设备和用户之间的发音距离通过选举算法进行打分选取得分最高的麦克风设备来响应用户。
一种麦克风响应方法,包括以下步骤:
当用户发出声音之后,获取每个麦克风设备的语音识别置信度和发音角度;
分别为语音识别置信度和发音角度进行打分;
结合每个麦克风设备和用户之间的发音距离计算每个麦克风设备的最终得分;
激活得分最高的麦克风设备响应所述语音。
优选的,当用户发出声音之后,获取每个麦克风设备的语音识别置信度和发音角度,包括:
接收用户对每个麦克风设备说出预设唤醒词;
根据DSP算法输出每个麦克风设备采集的预设唤醒词的发音角度信息;
利用唤醒引擎输出每个麦克风设备对预设唤醒词的语音识别置信度。
优选的,分别为语音识别置信度和发音角度进行打分,包括:
利用下列公式为每个麦克风设备的语音识别置信度信息进行打分:
wuwscore=(conf-thresh)*α
其中,conf为语音识别置信度,thresh为预设语音识别置信度,conf大于thresh,α为一个预设系数,wuwscore为每个麦克风设备的语音识别置信度得分。
优选的,分别为语音识别置信度和发音角度进行打分,还包括:
利用下列公式为每个麦克风设备的发音角度信息进行打分:
Figure BDA0002268677440000021
其中,δ为每个麦克风设备的预设偏移角度,angle为麦克风设备相对于预设法线的角度,anglestore为每个麦克风设备的发音角度得分。
优选的,结合每个麦克风设备和用户之间的发音距离计算每个麦克风设备的最终得分,包括:
获取所述每个麦克风设备和所述用户之间的发音距离;
根据下列公式计算所述每个麦克风设备的最终得分:
score=distancescore+wuwscore+anglescore
其中,所述score为所述每个麦克风设备的总得分,所述distancescore为所述每个麦克风设备的距离得分,所述wuwscore为所述每个麦克风设备的语音识别置信度得分,所述anglescore为所述每个麦克风设备的发音角度得分;
输出最终得分最高的麦克风设备。
一种麦克风响应装置,该装置包括:
获取模块,用于当用户发出声音之后,获取每个麦克风设备的语音识别置信度和发音角度;
打分模块,用于分别为所述语音识别置信度和所述发音角度进行打分;
计算模块,用于结合所述每个麦克风设备和所述用户之间的发音距离计算所述每个麦克风设备的最终得分;
激活模块,用于激活得分最高的麦克风设备响应所述语音。
优选的,获取模块,包括:
接收子模块,用于接收所述用户对每个麦克风设备说出预设唤醒词的信息;
第一输出子模块,用于根据DSP算法输出所述每个麦克风设备采集的所述预设唤醒词的发音角度信息;
第二输出子模块,用于利用唤醒引擎输出所述每个麦克风设备对所述预设唤醒词的语音识别置信度。
优选的,打分模块,包括:
第一打分子模块,用于利用下列公式为每个麦克风设备的语音识别置信度信息进行打分:
wuwscore=(conf-thresh)*α
其中,conf为语音识别置信度,thresh为预设语音识别置信度,conf大于thresh,α为一个预设系数,wuwscore为每个麦克风设备的语音识别置信度得分。
优选的,打分模块,还包括:
第二打分子模块,用于利用下列公式为每个麦克风设备的发音角度信息进行打分:
Figure BDA0002268677440000041
其中,δ为每个麦克风设备的预设偏移角度,angle为麦克风设备相对于预设法线的角度,anglestore为每个麦克风设备的发音角度得分。
优选的,计算模块,包括:
获取子模块,用于获取每个麦克风设备和用户之间的发音距离;
计算子模块,用于根据下列公式计算所述每个麦克风设备的最终得分:
score=distancescore+wuwscore+anglescore
其中,所述score为所述每个麦克风设备的总得分,所述distancescore为所述每个麦克风设备的距离得分,所述wuwscore为所述每个麦克风设备的语音识别置信度得分,所述anglescore为所述每个麦克风设备的发音角度得分;
输出子模块,用于输出最终得分最高的麦克风设备。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明所提供的一种麦克风响应方法的工作流程图;
图2为本发明所提供的一种麦克风响应方法的另一工作流程图;
图3为本发明所提供的一种麦克风响应装置的结构图;
图4为本发明所提供的一种麦克风响应装置的另一结构图;
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
随着人工智能技术的发展,推动了认知能力、感知能力以及自然语音输出能力这三个维度上的进步。其中,针对认知能力,基于用户行为的画像,将人机交互从“单向”关系带入了“双向关系”;针对感知能力,由触摸输入到以语音输入、图像识别为核心的全自然交互;针对自然语音输出能力,其带来了新的“语音”设计材料。同时,在一定程度上也丰富了终端设备的使用方式,如麦克风。
分布式麦克风“单一唤醒响应”功能,要求同一空间内多台设备,在用户说出唤醒词后,选举出一个最适合与用户交互的设备进行应答和完成后续交互。其核心在于选举算法,选举算法基于设备端上传的信息,决策哪台设备应该被选中来响应客户。现有技术中通过声音在空气中传播,其能量随传播距离逐渐衰减的原理,通过比较不同设备上采集的唤醒词音频的平均能量来比较说话人距离不同设备的距离,选择距离最近的设备进行交互。这种方法存在着以下问题:1、在设备差异较大的使用场景中,难以选出最优的交互设备;2、距离无法完全代表设备的交互能力;3、基于能量的距离比较算法,受外界噪声影响较大,以致于上述算法无法正常工作;4、没有考虑用户的交互习惯,即用户倾向于跟视线正对的设备进行交互而不是背对设备进行交互。为了解决上述问题,本实施例公开了一种麦克风响应方法及装置。
一种麦克风响应方法,如图1所示,包括以下步骤:
步骤S101、当用户发出声音之后,获取每个麦克风设备的语音识别置信度和发音角度;
步骤S102、分别为语音识别置信度和发音角度进行打分;
步骤S103、结合每个麦克风设备和用户之间的发音距离计算每个麦克风设备的最终得分;
步骤S104、激活得分最高的麦克风设备响应所述语音。
上述技术方案的工作原理为:在用户发出声音之后,获取每个麦克风设备的语音识别置信度和发音角度并分别对语音置信度和发音角度进行打分,然后结合每个麦克风设备和用户发音的距离计算每个麦克风设备的最终得分,然后激活得分最高的麦克风设备来响应用户发出的语音。
上述技术方案的有益效果为:通过获取每个麦克风的语音识别置信度和发音角度进而结合距离进行打分解决了现有技术中只针对距离判断交互对象的问题,同时获取的语音识别置信度和发音角度受外界噪声影响较小,解决了现有技术中基于能量的距离比较算法,受外界噪声影响较大,以致于选举算法无法正常工作的问题,提高了响应的准确度。
特别的,上述噪声可以为电视机、洗衣机等大型家电的工作噪声。
在一个实施例中,当用户发出声音之后,获取每个麦克风设备的语音识别置信度和发音角度,如图2所示,包括:
S201、接收用户对每个麦克风设备说出预设唤醒词;
S202、根据DSP算法输出每个麦克风设备采集的预设唤醒词的发音角度信息;
S203、利用唤醒引擎输出每个麦克风设备对预设唤醒词的语音识别置信度;
特别的,上述DSP算法为数字信号处理通用算法。
上述技术方案的有益效果为:利用DSP算法和唤醒引擎获取每个麦克风设备的发音角度信息和语音识别置信度信息,获取的发音角度信息和语音识别置信度信息不受麦克风设备硬件设备差异的影响,避免了现有技术中在设备差异较大的使用场景中,难以选出最优的交互设备的问题,使得响应的概率更高。
特别的,上述硬件设备差异可以为腔体结构、麦克风阵列、麦克风灵敏度等。
在一个实施例中,分别为语音识别置信度和发音角度进行打分,包括:
利用下列公式为每个麦克风设备的语音识别置信度信息进行打分:
wuwscore=(conf-thresh)*α
其中,conf为语音识别置信度,thresh为预设语音识别置信度,conf大于thresh,α为一个预设系数,wuwscore为每个麦克风设备的语音识别置信度得分。
上述技术方案的有益效果为:语音识别置信度和麦克风设备的交互能力是直接相关的,即针对一次正常的设备响应操作,理论上设备的语音识别置信度越高,其拾音质量越高,交互能力越强。
在一个实施例中,分别为语音识别置信度和发音角度进行打分,还包括:
利用下列公式为每个麦克风设备的发音角度信息进行打分:
Figure BDA0002268677440000071
其中,δ为每个麦克风设备的预设偏移角度,angle为麦克风设备相对于预设法线的角度,anglestore为每个麦克风设备的发音角度得分;
特别的,上述法线可以为用户身体正前方一条直线,该直线与用户身体所在平面垂直,如果麦克风设备的角度在90°±δ的范围内时,则输出β;或者上述法线还可以为用户身体所在平面的一条水平直线,如果麦克风设备的角度在90°±δ的范围内时,则输出β,值得说明的是,法线为水平方向或者与用户身体所在平面垂直时,β值是不一样的,β根据实际情况制定。
上述技术方案的有益效果为:发音角度信息的引入可以使得用户正面相对的设备更容易和用户进行交互,解决了现有技术中没有考虑用户的交互习惯,即用户倾向于跟视线正对的设备进行交互而不是背对设备进行交互的问题,提高了用户的产品体验。
在一个实施例中,结合每个麦克风设备和用户之间的发音距离计算每个麦克风设备的最终得分,包括:
获取所述每个麦克风设备和所述用户之间的发音距离;
根据下列公式计算所述每个麦克风设备的最终得分:
score=distancescore+wuwscore+anglescore
其中,所述score为所述每个麦克风设备的总得分,所述distancescore为所述每个麦克风设备的距离得分,所述wuwscore为所述每个麦克风设备的语音识别置信度得分,所述anglescore为所述每个麦克风设备的发音角度得分;
输出最终得分最高的麦克风设备。
上述技术方案的有益效果为:结合每个麦克风设备到用户发音的距离、语音识别置信度和发音角度三个维度进行打分,可以选出最优的交互设备来进行交互,降低了用户匹配到差的交互对象的情况。
在一个实施例中,包括:
第1步:在终端获取唤醒词识别置信度和人声角度这两个信息。因为选举发生在唤醒阶段,此时前端DSP算法和唤醒引擎可以分别输出说话人的角度信息和本次唤醒词识别的置信度;
第2步:在选举算法中考虑唤醒词识别置信度,方法是:将置信度减去唤醒的参考阈值(高于此阈值才能被唤醒),乘以一个系数,得到总分中唤醒打分的相关部分,即:
wuwscore=(conf-thresh)*α
其中α依据实测确定;
第3步:在选举算法中考虑人声角度,方法是:只针对麦克风线性阵列,奖励人声角度落在法线(90°)附近的设备,即:
Figure BDA0002268677440000091
其中β和δ依据实测确定;特别考虑法线附近的情况,一方面是刻意区分“正对”设备和“非正对”设备这两种情况,另一方面也是因为算法对法线附近的角度判断最准确;
第4步:计算每台设备的最终得分:
score=distancescore+wuwscore+anglescore
选取得分最高的设备作为输出结果。
上述技术方案的工作原理和有益效果为:从距离、唤醒词识别置信度和角度,三个维度进行单一唤醒决策,具有以下优势:1,唤醒词识别的置信度和设备的交互能力是直接相关的,即综合考虑,针对一次正常的唤醒操作,理论上设备唤醒的置信度越高,其拾音质量越高,交互能力越强;2,角度信息的引入使得用户正对的设备更容易被选中和用户交互,更符合用户的交互习惯;3,置信度和角度这两个信息,受噪声影响较小,在噪声场景下能显著提高决策的准确率和用户体验。
一种麦克风响应装置,如图3所示,该装置包括:
获取模块301,用于当用户发出声音之后,获取每个麦克风设备的语音识别置信度和发音角度;
打分模块302,用于分别为所述语音识别置信度和所述发音角度进行打分;
计算模块303,用于结合所述每个麦克风设备和所述用户之间的发音距离计算所述每个麦克风设备的最终得分;
激活模块304,用于激活得分最高的麦克风设备响应所述语音。
在一个实施例中,获取模块,如图4所示,包括:
接收子模块401,用于接收所述用户对每个麦克风设备说出预设唤醒词的信息;
第一输出子模块402,用于根据DSP算法输出每个麦克风设备采集的预设唤醒词的发音角度信息;
第二输出子模块403,用于利用唤醒引擎输出每个麦克风设备对预设唤醒词的语音识别置信度。
在一个实施例中,打分模块,包括:
第一打分子模块,用于利用下列公式为每个麦克风设备的语音识别置信度信息进行打分:
wuwscore=(conf-thresh)*α
其中,conf为语音识别置信度,thresh为预设语音识别置信度,conf大于thresh,α为一个预设系数,wuwscore为每个麦克风设备的语音识别置信度得分。
在一个实施例中,打分模块,还包括:
第二打分子模块,用于利用下列公式为每个麦克风设备的发音角度信息进行打分:
Figure BDA0002268677440000101
其中,δ为每个麦克风设备的预设偏移角度,angle为麦克风设备相对于预设法线的角度,anglestore为每个麦克风设备的发音角度得分。
在一个实施例中,计算模块,包括:
获取子模块,用于获取每个麦克风设备和用户之间的发音距离;
计算子模块,用于根据下列公式计算所述每个麦克风设备的最终得分:
score=distancescore+wuwscore+anglescore
其中,所述score为所述每个麦克风设备的总得分,所述distancescore为所述每个麦克风设备的距离得分,所述wuwscore为所述每个麦克风设备的语音识别置信度得分,所述anglescore为所述每个麦克风设备的发音角度得分;
输出子模块,用于输出最终得分最高的麦克风设备。
本领域技术人员应当理解的是,本发明中的第一、第二指的是不同应用阶段而已。
本领域技术用户员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种麦克风响应方法,其特征在于,包括以下步骤:
当用户发出声音之后,获取每个麦克风设备的语音识别置信度和发音角度;
分别为所述语音识别置信度和所述发音角度进行打分;
结合所述每个麦克风设备和所述用户之间的发音距离计算所述每个麦克风设备的最终得分;
激活得分最高的麦克风设备响应所述语音。
2.根据权利要求1所述麦克风响应方法,其特征在于,所述当用户发出声音之后,获取所述每个麦克风设备的语音识别置信度和发音角度,包括:
接收所述用户对所述每个麦克风设备说出预设唤醒词;
根据DSP算法输出所每个麦克风设备采集的所述预设唤醒词的发音角度信息;
利用唤醒引擎输出所述每个麦克风设备对所述预设唤醒词的语音识别置信度。
3.根据权利要求2所述麦克风响应方法,其特征在于,所述分别为所述语音识别置信度和所述发音角度进行打分,包括:
利用下列公式为所述每个麦克风设备的语音识别置信度信息进行打分:
wuwscore=(conf-thresh)*α
其中,conf为所述语音识别置信度,所述thresh为预设语音识别置信度,所述conf大于所述thresh,α为一个预设系数;所述wuwscore为每个麦克风设备的语音识别置信度得分。
4.根据权利要求3所述麦克风响应方法,其特征在于,所述分别为所述语音识别置信度和所述发音角度进行打分,还包括:
利用下列公式为所述每个麦克风设备的发音角度信息进行打分:
Figure FDA0002268677430000021
其中,所述δ为所述每个麦克风设备的预设偏移角度,所述angle为麦克风设备相对于预设法线的角度,所述anglestore为每个麦克风设备的发音角度得分。
5.根据权利要求1至4所述麦克风响应方法,其特征在于,所述结合每个麦克风设备和所述用户之间的发音距离计算所述每个麦克风设备的最终得分,包括:
获取所述每个麦克风设备和所述用户之间的发音距离;
根据下列公式计算所述每个麦克风设备的最终得分:
score=distancescore+wuwscore+anglescore
其中,所述score为所述每个麦克风设备的总得分,所述distancescore为所述每个麦克风设备的距离得分,所述wuwscore为所述每个麦克风设备的语音识别置信度得分,所述anglescore为所述每个麦克风设备的发音角度得分;
输出最终得分最高的麦克风设备。
6.一种麦克风响应装置,其特征在于,该装置包括:
获取模块,用于当用户发出声音之后,获取每个麦克风设备的语音识别置信度和发音角度;
打分模块,用于分别为所述语音识别置信度和所述发音角度进行打分;
计算模块,用于结合所述每个麦克风设备和所述用户之间的发音距离计算所述每个麦克风设备的最终得分;
激活模块,用于激活得分最高的麦克风设备响应所述语音。
7.根据权利要求6所述麦克风响应装置,其特征在于,所述获取模块,包括:
接收子模块,用于接收所述用户对所述每个麦克风设备说出预设唤醒词;
第一输出子模块,用于根据DSP算法输出所述每个麦克风设备采集的所述预设唤醒词的发音角度信息;
第二输出子模块,用于利用唤醒引擎输出所述每个麦克风设备对所述预设唤醒词的语音识别置信度。
8.根据权利要求7所述麦克风响应装置,其特征在于,所述打分模块,包括:
第一打分子模块,用于利用下列公式为所述每个麦克风设备的语音识别置信度信息进行打分:
wuwscore=(conf-thresh)*α
其中,conf为所述语音识别置信度,所述thresh为预设语音识别置信度,所述conf大于所述thresh,α为一个预设系数,所述wuwscore为每个麦克风设备的语音识别置信度得分。
9.根据权利要求8所述麦克风响应装置,其特征在于,所述打分模块,还包括:
第二打分子模块,用于利用下列公式为所述每个麦克风设备的发音角度信息进行打分:
Figure FDA0002268677430000031
其中,所述δ为所述每个麦克风设备的预设偏移角度,所述angle为麦克风设备相对于预设法线的角度,所述anglestore为每个麦克风设备的发音角度得分。
10.根据权利要求6至9所述麦克风响应装置,其特征在于,所述计算模块,包括:
获取子模块,用于获取所述每个麦克风设备和所述用户之间的发音距离;
计算子模块,用于根据下列公式计算所述每个麦克风设备的最终得分:
score=distancescore+wuwscore+anglescore
其中,所述score为所述每个麦克风设备的总得分,所述distancescore为所述每个麦克风设备的距离得分,所述wuwscore为所述每个麦克风设备的语音识别置信度得分,所述anglescore为所述每个麦克风设备的发音角度得分;
输出子模块,用于输出最终得分最高的麦克风设备。
CN201911097140.4A 2019-11-11 2019-11-11 一种麦克风响应方法及装置 Pending CN111048067A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911097140.4A CN111048067A (zh) 2019-11-11 2019-11-11 一种麦克风响应方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911097140.4A CN111048067A (zh) 2019-11-11 2019-11-11 一种麦克风响应方法及装置

Publications (1)

Publication Number Publication Date
CN111048067A true CN111048067A (zh) 2020-04-21

Family

ID=70232366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911097140.4A Pending CN111048067A (zh) 2019-11-11 2019-11-11 一种麦克风响应方法及装置

Country Status (1)

Country Link
CN (1) CN111048067A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634872A (zh) * 2020-12-21 2021-04-09 北京声智科技有限公司 语音设备唤醒方法及装置
CN114879527A (zh) * 2022-05-31 2022-08-09 四川虹美智能科技有限公司 基于智能分组和技能匹配的智能家电控制方法及装置
CN114898750A (zh) * 2022-05-31 2022-08-12 四川虹美智能科技有限公司 基于协同响应的智能家电控制方法、装置及系统、设备
CN115001890A (zh) * 2022-05-31 2022-09-02 四川虹美智能科技有限公司 基于免应答的智能家电控制方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120113224A1 (en) * 2010-11-09 2012-05-10 Andy Nguyen Determining Loudspeaker Layout Using Visual Markers
US20140046464A1 (en) * 2012-08-07 2014-02-13 Sonos, Inc Acoustic Signatures in a Playback System
US20150235637A1 (en) * 2014-02-14 2015-08-20 Google Inc. Recognizing speech in the presence of additional audio
CN105556592A (zh) * 2013-06-27 2016-05-04 亚马逊技术股份有限公司 检测自我生成的唤醒声调
CN109155130A (zh) * 2016-05-13 2019-01-04 伯斯有限公司 处理来自分布式麦克风的语音
CN110121744A (zh) * 2017-09-25 2019-08-13 伯斯有限公司 处理来自分布式麦克风的语音

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120113224A1 (en) * 2010-11-09 2012-05-10 Andy Nguyen Determining Loudspeaker Layout Using Visual Markers
US20140046464A1 (en) * 2012-08-07 2014-02-13 Sonos, Inc Acoustic Signatures in a Playback System
CN105556592A (zh) * 2013-06-27 2016-05-04 亚马逊技术股份有限公司 检测自我生成的唤醒声调
US20150235637A1 (en) * 2014-02-14 2015-08-20 Google Inc. Recognizing speech in the presence of additional audio
CN109155130A (zh) * 2016-05-13 2019-01-04 伯斯有限公司 处理来自分布式麦克风的语音
CN110121744A (zh) * 2017-09-25 2019-08-13 伯斯有限公司 处理来自分布式麦克风的语音

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634872A (zh) * 2020-12-21 2021-04-09 北京声智科技有限公司 语音设备唤醒方法及装置
CN114879527A (zh) * 2022-05-31 2022-08-09 四川虹美智能科技有限公司 基于智能分组和技能匹配的智能家电控制方法及装置
CN114898750A (zh) * 2022-05-31 2022-08-12 四川虹美智能科技有限公司 基于协同响应的智能家电控制方法、装置及系统、设备
CN115001890A (zh) * 2022-05-31 2022-09-02 四川虹美智能科技有限公司 基于免应答的智能家电控制方法及装置
CN114898750B (zh) * 2022-05-31 2023-05-16 四川虹美智能科技有限公司 基于协同响应的智能家电控制方法、装置及系统、设备
CN114879527B (zh) * 2022-05-31 2023-06-27 四川虹美智能科技有限公司 基于智能分组和技能匹配的智能家电控制方法及装置
CN115001890B (zh) * 2022-05-31 2023-10-31 四川虹美智能科技有限公司 基于免应答的智能家电控制方法及装置

Similar Documents

Publication Publication Date Title
US11423904B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
CN111048067A (zh) 一种麦克风响应方法及装置
US10818296B2 (en) Method and system of robust speaker recognition activation
CN110767226B (zh) 具有高准确度的声源定位方法、装置、语音识别方法、系统、存储设备及终端
US11043231B2 (en) Speech enhancement method and apparatus for same
US10073521B2 (en) Audio user interaction recognition and application interface
US11138977B1 (en) Determining device groups
CN110634507A (zh) 用于语音唤醒的音频的语音分类
US20200335128A1 (en) Identifying input for speech recognition engine
US11587563B2 (en) Determining input for speech processing engine
KR20180113516A (ko) 키 프레이즈 검출을 개선하기 위한 중간 스코어링 및 거부 루프백
WO2021022094A1 (en) Per-epoch data augmentation for training acoustic models
JP2021517992A (ja) 音声認識方法、音声区切り方法並びにその装置及びコンピュータプログラム
CN107871499B (zh) 语音识别方法、系统、计算机设备及计算机可读存储介质
US20230164477A1 (en) Noise cancellation processing method, device and apparatus
CN113450802A (zh) 具有高效解码的自动语音识别方法及系统
CN108665907A (zh) 声音识别装置、声音识别方法、记录介质以及机器人
CN107274892A (zh) 说话人识别方法及装置
CN114121024A (zh) 一种唤醒识别方法、音频装置以及音频装置组
CN114464184B (zh) 语音识别的方法、设备和存储介质
CN110415718B (zh) 信号生成的方法、基于人工智能的语音识别方法及装置
EP3288035B1 (en) Personal audio analytics and behavior modification feedback
CN110875034A (zh) 用于语音识别的模板训练方法、语音识别方法及其系统
US12125483B1 (en) Determining device groups
Omologo Front-end processing of a distant-talking speech interface for control of an interactive TV system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200421