CN111601198B - 应用麦克风跟踪说话人的方法、装置及计算设备 - Google Patents

应用麦克风跟踪说话人的方法、装置及计算设备 Download PDF

Info

Publication number
CN111601198B
CN111601198B CN202010333691.2A CN202010333691A CN111601198B CN 111601198 B CN111601198 B CN 111601198B CN 202010333691 A CN202010333691 A CN 202010333691A CN 111601198 B CN111601198 B CN 111601198B
Authority
CN
China
Prior art keywords
speaker
microphone
mouth
acquiring
coordinates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010333691.2A
Other languages
English (en)
Other versions
CN111601198A (zh
Inventor
李宏浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudminds Shanghai Robotics Co Ltd
Original Assignee
Cloudminds Robotics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudminds Robotics Co Ltd filed Critical Cloudminds Robotics Co Ltd
Priority to CN202010333691.2A priority Critical patent/CN111601198B/zh
Publication of CN111601198A publication Critical patent/CN111601198A/zh
Application granted granted Critical
Publication of CN111601198B publication Critical patent/CN111601198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明实施例涉及通信技术领域,公开了一种应用麦克风跟踪说话人的方法、装置及计算设备,方法包括:通过声呐成像识别说话人;获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离;通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对,动态跟踪所述说话人,本发明实施例能够从声呐获取到说话人准确位置,通过动态调整麦克风与说话者之间的角度,使麦克风前端算法开发更集中于一定幅度角度的开发,能够节约开发时间,达到更好的语音效果。

Description

应用麦克风跟踪说话人的方法、装置及计算设备
技术领域
本发明实施例涉及通信技术领域,具体涉及一种应用麦克风跟踪说话人的方法、装置及计算设备。
背景技术
目前语音识别需要前端麦克风采集数据进行处理,但是在复杂环境中,麦克风采集的有效语音数据存在误采集和失真,不同角度、不通距离,说话人的有效语音数据采集效果差距明显。
现有技术中,传统麦克风的位置是固定不变的,而各个角度和距离调试开发都需要考虑全面,由此带来的开发成本和时间成本非常高,而且为了兼容各个角度语音采集识别,可能会牺牲掉更多性能或者算力、或者识别效果,最终效果并不是研发过程中最理想的状态。
发明内容
鉴于上述问题,本发明实施例提供了一种应用麦克风跟踪说话人的方法、装置及计算设备,克服了上述问题或者至少部分地解决了上述问题。
根据本发明实施例的一个方面,提供了一种应用麦克风跟踪说话人的方法,所述方法包括:通过声呐成像识别说话人;获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离;通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对,动态跟踪所述说话人。
在一种可选的方式中,所述通过声呐成像识别说话人,包括:在第二预设范围内应用声呐成像集合图形学对人型物体建模识别所述说话人;所述获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离,包括:结合大数据等身高人类嘴巴坐标分布,获取所述说话人的所述嘴部坐标以及所述麦克风至所述嘴部坐标的距离。
在一种可选的方式中,所述第二预设范围为与所述麦克风距离0.5米、1米或者2米的范围内。
在一种可选的方式中,所述通过机械臂实时控制麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对,包括:通过机械臂实时控制麦克风在与所述嘴部坐标正对,或者左右摇摆30度的范围内。
在一种可选的方式中,所述方法还包括:获取所述麦克风采集的所述说话人的语音数据;获取所述麦克风与所述嘴部坐标的夹角以及所述麦克风至所述嘴部坐标的距离;对所述语音数据进行回声消除、降噪以及语音能量转换处理以进行语音识别。
在一种可选的方式中,所述通过机械臂实时控制麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对,包括:通过多个机械臂实时控制对应的多个所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对;所述获取所述麦克风采集的所述说话人的语音数据,包括:获取多个所述麦克风同时采集的所述说话人的语音数据。
在一种可选的方式中,所述通过机械臂实时控制麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对,包括:通过预设数量个机械臂实时控制对应的所述预设数量个所述麦克风在第一预设范围内分别与所述预设数量个所述说话人的所述嘴部坐标正对;所述获取所述麦克风采集的所述说话人的语音数据,包括:获取所述预设数量个所述麦克风同时对应采集的所述预设数量个所述说话人的语音数据。
根据本发明实施例的另一方面,提供了一种应用麦克风跟踪说话人的装置,所述应用麦克风跟踪说话人的装置包括:识别单元,通过声呐成像识别说话人;坐标获取单元,获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离;动态跟踪单元,用于通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对,动态跟踪所述说话人。
根据本发明实施例的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述应用麦克风跟踪说话人的方法的步骤。
根据本发明实施例的又一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行上述应用麦克风跟踪说话人的方法的步骤。
本发明实施例的应用麦克风跟踪说话人的方法包括:通过声呐成像识别说话人;获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离;通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对,动态跟踪所述说话人,能够从声呐获取到说话人准确位置,通过动态调整麦克风与说话者之间的角度,使麦克风前端算法开发更集中于一定幅度角度的开发,能够节约开发时间,达到更好的语音效果。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的应用麦克风跟踪说话人的方法的流程示意图;
图2示出了本发明实施例提供的应用麦克风跟踪说话人的装置的结构示意图;
图3示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的应用麦克风跟踪说话人的方法的流程示意图,如图1所示,该应用麦克风跟踪说话人的方法应用于服务端,包括:
步骤S11:通过声呐成像识别说话人。
在本发明实施例中,使用声呐成像,对有效范围内进行不间断检测,频率为10到20HZ。声呐成像的具体实现与现有技术相同,在此不再赘述。
针对声呐成像得到的人像进行人像确认分析,具体地,在第二预设范围内应用声呐成像集合图形学对人型物体建模识别所述说话人。如果不是人,则结束;如果是人,则进行后续的步骤。其中,第二预设范围为与所述麦克风距离0.5米、1米或者2米的范围内,再远距离则不做反馈。
步骤S12:获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离。
在本发明实施例中,在步骤S12中,结合大数据等身高人类嘴巴坐标分布,获取所述说话人的所述嘴部坐标以及所述麦克风至所述嘴部坐标的距离。具体通过大数据得知等身高人类的嘴部坐标分布,得出嘴部坐标的合理取值,嘴部坐标记录为msg1,麦克风至所述嘴部坐标的距离记录为msg2。
步骤S13:通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对,动态跟踪所述说话人。
具体地,通过机械臂实时控制麦克风在与所述嘴部坐标正对,或者左右摇摆30度的范围内。通过嘴部坐标,通过通信电路启动机械臂动态跟踪麦克风,控制麦克风尽量朝向嘴部坐标msg1。其中通信电路可以是现有技术中能实现与机械臂进行通信的任一电路,在此不作详述。机械臂可以采用环形运转进行简单左右调节位置,也可以做万向支持精准定位到嘴部坐标,可以将麦克风集成到机械臂。
在本发明实施例中,不间断重复以上步骤,就能动态跟踪到说话人,将距离参数记录到麦克风,以后续回声消除(Acoustic Echo Cancellation,AEC)、降噪、以及能力转变做参数化处理。将上述应用麦克风跟踪说话人的方法集成到机器人设备上,可以用于动态跟踪行人,也可用于进行安防检测,语音识别,机器人跟踪服务等。其中机器人设备可以是扫地机器人、安防机器人等各类人形机器人。本发明实施例通过动态调整麦克风与说话者之间的角度,以及声呐获得的距离,使开发更集中于一定幅度角度的开发,能够节约开发时间。
将上述应用麦克风跟踪说话人的方法应用于语音识别时,进一步获取所述麦克风采集的所述说话人的语音数据;获取所述麦克风与所述嘴部坐标的夹角以及所述麦克风至所述嘴部坐标的距离;对所述语音数据进行回声消除、降噪以及语音能量转换处理以进行语音识别。通过以上动态定位嘴部坐标,以及距离确认,在做麦克风降噪、能量转变、以及AEC等功能时,就可以主要以正对麦克风做开发优化,能节约更多的开发时间,而且语音效果也能做到最优的状态。
在本发明实施例中,可以应用多个麦克风同时采集说话人的语音数据,例如应用2个或3个麦克风同时采集说话人的语音数据。具体地,通过多个机械臂实时控制对应的多个所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对;获取多个所述麦克风同时采集的所述说话人的语音数据。
在本发明实施例中,当有多人对话场景时,通过预设数量个机械臂实时控制对应的所述预设数量个所述麦克风在第一预设范围内分别与所述预设数量个所述说话人的所述嘴部坐标正对;获取所述预设数量个所述麦克风同时对应采集的所述预设数量个所述说话人的语音数据。优选地,应用6到8个麦克风,以便覆盖到6到8个人同时说话时的语音采集需求。对于有多人对话场景,固定麦克风不能有效跟踪多人,保证其语音识别在合理均衡范围,而本发明实施例通过动态麦克风跟踪,可以同时跟踪多个说话人,从而实现多人讯息接受处理,更符合人与人讨论交流场景。
本发明实施例的应用麦克风跟踪说话人的方法包括:通过声呐成像识别说话人;获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离;通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对,动态跟踪所述说话人,能够从声呐获取到说话人准确位置,通过动态调整麦克风与说话者之间的角度,使麦克风前端算法开发更集中于一定幅度角度的开发,能够节约开发时间,达到更好的语音效果。
图2示出了本发明实施例的应用麦克风跟踪说话人的装置的结构示意图,如图2所示,该应用麦克风跟踪说话人的装置包括:识别单元201、坐标获取单元202、动态跟踪单元203以及语音识别单元304。
识别单元201通过声呐成像识别说话人;坐标获取单元202获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离;动态跟踪单元203用于通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对,动态跟踪所述说话人。
在一种可选的方式中,识别单元201用于:在第二预设范围内应用声呐成像集合图形学对人型物体建模识别所述说话人;坐标获取单元202用于结合大数据等身高人类嘴巴坐标分布,获取所述说话人的所述嘴部坐标以及所述麦克风至所述嘴部坐标的距离。
在一种可选的方式中,所述第二预设范围为与所述麦克风距离0.5米、1米或者2米的范围内。
在一种可选的方式中,动态跟踪单元203用于:通过机械臂实时控制麦克风在与所述嘴部坐标正对,或者左右摇摆30度的范围内。
在一种可选的方式中,语音识别单元304用于:获取所述麦克风采集的所述说话人的语音数据;获取所述麦克风与所述嘴部坐标的夹角以及所述麦克风至所述嘴部坐标的距离;对所述语音数据进行回声消除、降噪以及语音能量转换处理以进行语音识别。
在一种可选的方式中,动态跟踪单元203用于:通过多个机械臂实时控制对应的多个所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对;语音识别单元304用于:获取多个所述麦克风同时采集的所述说话人的语音数据。
在一种可选的方式中,动态跟踪单元203用于:通过预设数量个机械臂实时控制对应的所述预设数量个所述麦克风在第一预设范围内分别与所述预设数量个所述说话人的所述嘴部坐标正对;语音识别单元304用于:获取所述预设数量个所述麦克风同时对应采集的所述预设数量个所述说话人的语音数据。
本发明实施例的应用麦克风跟踪说话人的方法包括:通过声呐成像识别说话人;获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离;通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对,动态跟踪所述说话人,能够从声呐获取到说话人准确位置,通过动态调整麦克风与说话者之间的角度,使麦克风前端算法开发更集中于一定幅度角度的开发,能够节约开发时间,达到更好的语音效果。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的应用麦克风跟踪说话人的方法。
可执行指令具体可以用于使得处理器执行以下操作:
通过声呐成像识别说话人;
获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离;
通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对,动态跟踪所述说话人。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
在第二预设范围内应用声呐成像集合图形学对人型物体建模识别所述说话人;
结合大数据等身高人类嘴巴坐标分布,获取所述说话人的所述嘴部坐标以及所述麦克风至所述嘴部坐标的距离。
在一种可选的方式中,所述第二预设范围为与所述麦克风距离0.5米、1米或者2米的范围内。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
通过机械臂实时控制麦克风在与所述嘴部坐标正对,或者左右摇摆30度的范围内。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
获取所述麦克风采集的所述说话人的语音数据;
获取所述麦克风与所述嘴部坐标的夹角以及所述麦克风至所述嘴部坐标的距离;
对所述语音数据进行回声消除、降噪以及语音能量转换处理以进行语音识别。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
通过多个机械臂实时控制对应的多个所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对;
获取多个所述麦克风同时采集的所述说话人的语音数据。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
通过预设数量个机械臂实时控制对应的所述预设数量个所述麦克风在第一预设范围内分别与所述预设数量个所述说话人的所述嘴部坐标正对;
获取所述预设数量个所述麦克风同时对应采集的所述预设数量个所述说话人的语音数据。
本发明实施例的应用麦克风跟踪说话人的方法包括:通过声呐成像识别说话人;获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离;通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对,动态跟踪所述说话人,能够从声呐获取到说话人准确位置,通过动态调整麦克风与说话者之间的角度,使麦克风前端算法开发更集中于一定幅度角度的开发,能够节约开发时间,达到更好的语音效果。
图3示出了本发明设备实施例的结构示意图,本发明具体实施例并不对设备的具体实现做限定。
如图3所示,该设备可以包括:处理器(processor)302、通信接口(CommunicationsInterface)304、存储器(memory)306、以及通信总线308。
其中:处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。处理器302,用于执行程序310,具体可以执行上述应用麦克风跟踪说话人的方法实施例中的相关步骤。
具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序310具体可以用于使得处理器302执行以下操作:
通过声呐成像识别说话人;
获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离;
通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对,动态跟踪所述说话人。
在一种可选的方式中,所述程序310使所述处理器执行以下操作:
在第二预设范围内应用声呐成像集合图形学对人型物体建模识别所述说话人;
结合大数据等身高人类嘴巴坐标分布,获取所述说话人的所述嘴部坐标以及所述麦克风至所述嘴部坐标的距离。
在一种可选的方式中,所述第二预设范围为与所述麦克风距离0.5米、1米或者2米的范围内。
在一种可选的方式中,所述程序310使所述处理器执行以下操作:
通过机械臂实时控制麦克风在与所述嘴部坐标正对,或者左右摇摆30度的范围内。
在一种可选的方式中,所述程序310使所述处理器执行以下操作:
获取所述麦克风采集的所述说话人的语音数据;
获取所述麦克风与所述嘴部坐标的夹角以及所述麦克风至所述嘴部坐标的距离;
对所述语音数据进行回声消除、降噪以及语音能量转换处理以进行语音识别。
在一种可选的方式中,所述程序310使所述处理器执行以下操作:
通过多个机械臂实时控制对应的多个所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对;
获取多个所述麦克风同时采集的所述说话人的语音数据。
在一种可选的方式中,所述程序310使所述处理器执行以下操作:
通过预设数量个机械臂实时控制对应的所述预设数量个所述麦克风在第一预设范围内分别与所述预设数量个所述说话人的所述嘴部坐标正对;
获取所述预设数量个所述麦克风同时对应采集的所述预设数量个所述说话人的语音数据。
本发明实施例的应用麦克风跟踪说话人的方法包括:通过声呐成像识别说话人;获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离;通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对,动态跟踪所述说话人,能够从声呐获取到说话人准确位置,通过动态调整麦克风与说话者之间的角度,使麦克风前端算法开发更集中于一定幅度角度的开发,能够节约开发时间,达到更好的语音效果。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (7)

1.一种应用麦克风跟踪说话人的方法,其特征在于,所述方法包括:
通过声呐成像识别说话人;
结合大数据等身高人类嘴巴坐标分布,获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离;
通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对,动态跟踪所述说话人;
所述通过声呐成像识别说话人,包括:在第二预设范围内应用声呐成像集合图形学对人型物体建模识别所述说话人;所述方法还包括:获取所述麦克风采集的所述说话人的语音数据;通过动态定位所述说话人的嘴部坐标以及确认所述麦克风至所述嘴部坐标的距离,在所述麦克风与所述说话人的所述嘴部坐标正对时对所述语音数据进行回声消除、降噪以及语音能量转换处理以进行语音识别;
所述通过机械臂实时控制麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对,包括:通过多个机械臂实时控制对应的多个所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对;
所述获取所述麦克风采集的所述说话人的语音数据,包括:获取多个所述麦克风同时采集的所述说话人的语音数据。
2.如权利要求1所述的应用麦克风跟踪说话人的方法,其特征在于,所述第二预设范围为与所述麦克风距离0.5米、1米或者2米的范围内。
3.如权利要求1所述的应用麦克风跟踪说话人的方法,其特征在于,所述通过机械臂实时控制麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对,包括:
通过机械臂实时控制麦克风在与所述嘴部坐标正对,或者左右摇摆30度的范围内。
4.如权利要求1所述的应用麦克风跟踪说话人的方法,其特征在于,所述通过机械臂实时控制麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对,包括:通过预设数量个机械臂实时控制对应的所述预设数量个所述麦克风在第一预设范围内分别与所述预设数量个所述说话人的所述嘴部坐标正对;
所述获取所述麦克风采集的所述说话人的语音数据,包括:获取所述预设数量个所述麦克风同时对应采集的所述预设数量个所述说话人的语音数据。
5.一种应用麦克风跟踪说话人的装置,其特征在于,所述装置包括:
识别单元,通过声呐成像识别说话人;
坐标获取单元,结合大数据等身高人类嘴巴坐标分布,获取所述说话人的嘴部坐标以及麦克风至所述嘴部坐标的距离;
动态跟踪单元,用于通过机械臂实时控制所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对,动态跟踪所述说话人;
语音识别单元,用于获取所述麦克风采集的所述说话人的语音数据;通过动态定位所述说话人的嘴部坐标以及确认所述麦克风至所述嘴部坐标的距离,在所述麦克风与所述说话人的所述嘴部坐标正对时对所述语音数据进行回声消除、降噪以及语音能量转换处理以进行语音识别;
所述动态跟踪单元还用于通过多个机械臂实时控制对应的多个所述麦克风在第一预设范围内与所述说话人的所述嘴部坐标正对;
所述语音识别单元还用于获取多个所述麦克风同时采集的所述说话人的语音数据。
6.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行根据权利要求1-4任一项所述应用麦克风跟踪说话人的方法的步骤。
7.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行根据权利要求1-4任一项所述应用麦克风跟踪说话人的方法的步骤。
CN202010333691.2A 2020-04-24 2020-04-24 应用麦克风跟踪说话人的方法、装置及计算设备 Active CN111601198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010333691.2A CN111601198B (zh) 2020-04-24 2020-04-24 应用麦克风跟踪说话人的方法、装置及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010333691.2A CN111601198B (zh) 2020-04-24 2020-04-24 应用麦克风跟踪说话人的方法、装置及计算设备

Publications (2)

Publication Number Publication Date
CN111601198A CN111601198A (zh) 2020-08-28
CN111601198B true CN111601198B (zh) 2022-03-11

Family

ID=72190545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010333691.2A Active CN111601198B (zh) 2020-04-24 2020-04-24 应用麦克风跟踪说话人的方法、装置及计算设备

Country Status (1)

Country Link
CN (1) CN111601198B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN207968871U (zh) * 2018-01-16 2018-10-12 昆山塔米机器人有限公司 一种基于麦克风阵列的机器人

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010010749A (ja) * 2008-06-24 2010-01-14 Panasonic Corp マイクロホン装置
CN102223594B (zh) * 2010-04-19 2014-02-19 鸿富锦精密工业(深圳)有限公司 麦克风控制装置及方法
KR101323386B1 (ko) * 2012-08-13 2013-10-29 한국 한의학 연구원 발성 크기 정보 획득을 위한 음성 녹음 장치 및 그 방법
US9747917B2 (en) * 2013-06-14 2017-08-29 GM Global Technology Operations LLC Position directed acoustic array and beamforming methods
KR101888391B1 (ko) * 2014-09-01 2018-08-14 삼성전자 주식회사 음성 신호 관리 방법 및 이를 제공하는 전자 장치
CN105681939A (zh) * 2014-11-18 2016-06-15 中兴通讯股份有限公司 一种终端拾音控制方法、终端及终端拾音控制系统
CN105825862A (zh) * 2015-01-05 2016-08-03 沈阳新松机器人自动化股份有限公司 一种机器人人机对话回声消除系统
CN107534725B (zh) * 2015-05-19 2020-06-16 华为技术有限公司 一种语音信号处理方法及装置
CN205430536U (zh) * 2015-12-16 2016-08-03 王海雷 具有实时定位追踪功能的会议话筒
CN105632493A (zh) * 2016-02-05 2016-06-01 深圳前海勇艺达机器人有限公司 一种通过语音控制和唤醒机器人的方法
KR102549465B1 (ko) * 2016-11-25 2023-06-30 삼성전자주식회사 마이크 파라미터를 조절하는 전자 장치
CN108471561A (zh) * 2018-03-30 2018-08-31 上海摩软通讯技术有限公司 拾音控制方法、装置以及音箱
CN108650571B (zh) * 2018-05-25 2020-06-02 四川音创伟业科技有限公司 一种麦克风支架调节方法、装置、终端及可读介质
CN109104667A (zh) * 2018-06-25 2018-12-28 福来宝电子(深圳)有限公司 一种智能音响的控制方法、系统及智能音响
CN109192214B (zh) * 2018-08-21 2023-03-03 平安科技(深圳)有限公司 一种语音取号方法、存储介质和机器人

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN207968871U (zh) * 2018-01-16 2018-10-12 昆山塔米机器人有限公司 一种基于麦克风阵列的机器人

Also Published As

Publication number Publication date
CN111601198A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN109506568B (zh) 一种基于图像识别和语音识别的声源定位方法及装置
US11398235B2 (en) Methods, apparatuses, systems, devices, and computer-readable storage media for processing speech signals based on horizontal and pitch angles and distance of a sound source relative to a microphone array
US9517559B2 (en) Robot control system, robot control method and output control method
ES2953525T3 (es) Método y dispositivo de reconocimiento de voz, medio de almacenamiento y acondicionador de aire
US10438588B2 (en) Simultaneous multi-user audio signal recognition and processing for far field audio
US11854566B2 (en) Wearable system speech processing
WO2016183791A1 (zh) 一种语音信号处理方法及装置
US11331806B2 (en) Robot control method and apparatus and robot using the same
US10582117B1 (en) Automatic camera control in a video conference system
US20130129224A1 (en) Combined depth filtering and super resolution
US20160094812A1 (en) Method And System For Mobile Surveillance And Mobile Infant Surveillance Platform
CN108877787A (zh) 语音识别方法、装置、服务器及存储介质
CN111432115A (zh) 基于声音辅助定位的人脸追踪方法、终端及存储装置
CN113352338A (zh) 机械臂控制方法、装置、电子设备以及拉花系统
CN112925235A (zh) 交互时的声源定位方法、设备和计算机可读存储介质
CN109031201A (zh) 基于行为识别的语音定位方法以及装置
JP2019176332A (ja) 音声抽出装置及び音声抽出方法
CN111601198B (zh) 应用麦克风跟踪说话人的方法、装置及计算设备
CN110364159B (zh) 一种语音指令的执行方法、装置及电子设备
CN110188179A (zh) 语音定向识别交互方法、装置、设备及介质
CN109333527B (zh) 一种与机器人的交互方法、装置、电子设备及存储介质
CN111103807A (zh) 一种家用终端设备的控制方法及装置
CN110842924A (zh) 一种用于协作化机器人的单芯异构控制系统
JP6881267B2 (ja) 制御装置、変換装置、制御方法、変換方法、およびプログラム
CN113099160B (zh) 基于麦克风阵列的视频会议方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210708

Address after: 200000 second floor, building 2, no.1508, Kunyang Road, Minhang District, Shanghai

Applicant after: Dalu Robot Co.,Ltd.

Address before: 610094 West Section of Fucheng Avenue, Chengdu High-tech District, Sichuan Province

Applicant before: CLOUDMINDS (CHENGDU) TECHNOLOGIES Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 201111 Building 8, No. 207, Zhongqing Road, Minhang District, Shanghai

Patentee after: Dayu robot Co.,Ltd.

Address before: 200000 second floor, building 2, no.1508, Kunyang Road, Minhang District, Shanghai

Patentee before: Dalu Robot Co.,Ltd.

CP03 Change of name, title or address