CN113096665A - 一种智能麦克风阵列 - Google Patents

一种智能麦克风阵列 Download PDF

Info

Publication number
CN113096665A
CN113096665A CN201911336378.8A CN201911336378A CN113096665A CN 113096665 A CN113096665 A CN 113096665A CN 201911336378 A CN201911336378 A CN 201911336378A CN 113096665 A CN113096665 A CN 113096665A
Authority
CN
China
Prior art keywords
microphone array
audio
intelligent
artificial intelligence
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911336378.8A
Other languages
English (en)
Inventor
周著华
汪松
宗升亚
廖新刚
阕海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Haoyi Information Technology Co ltd
Original Assignee
Shanghai Haoyi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Haoyi Information Technology Co ltd filed Critical Shanghai Haoyi Information Technology Co ltd
Priority to CN201911336378.8A priority Critical patent/CN113096665A/zh
Publication of CN113096665A publication Critical patent/CN113096665A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及一种智能麦克风阵列,其中,包括:麦克风阵列模块,负责采集音频和降噪音频,将降噪后的音频传送给人工智能平台模块;人工智能平台模块接收到音频后,将音频通过语音识别能力处理模块处理得到识别文本,将文本通过语义理解能力处理模块处理得到语义结果,将文本通过语音合成能力处理模块处理得到合成音频,四麦环形麦克风阵列由四个麦克风环形间隔排列。本发明中集成了离线的人工智能平台,提供了离线的语音识别、语音合成和语义理解的能力。可以在不联网的情况下提供高效快速的人工智能能力,配合高速处理芯片,让人工智能能力进一步提升。

Description

一种智能麦克风阵列
技术领域
本发明涉及人工智能、音频降噪领域,尤其是一种带人工智能能力的智能麦克风阵列。
背景技术
麦克风阵列(Microphone Array)是一个特指应用于语音处理的系统,是一组位于空间不同位置的全向麦克风按一定的形状规则布置形成的阵列,是对空间传播声音信号进行空间采样的一种装置,主要解决在特定场景语音识别的问题,以保证真实场景下的语音识别率。
语音识别(Auto Speech Recognize,ASR)技术,是让机器通过识别和理解过程使之听懂人类语言的技术。语音识别技术是信息技术中人机交互的关键技术,目前已经在呼叫中心、电信增值业务、企业信息化系统中有了广泛的应用。随着语音识别在语音搜索、语音控制等全新应用领域的深入应用,语音识别技术被业界权威人士誉为有可能引发人机界面领域革命的关键技术。自动语音识别技术所要解决的问题是让计算机能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来。ASR技术在“能听会说”的智能计算机系统中扮演着重要角色,相当于给计算机系统安装上“耳朵”,使其具备“能听”的功能,进而实现信息时代利用“语音”这一最自然、最便捷的手段进行人机通信和交互。
语音合成(Text To Speech,TTS)技术能够自动将任意文字实时转换为连续的自然语音,是一种能够在任何时间、任何地点,向任何人提供语音信息服务的高效便捷手段,非常符合信息时代海量数据、动态更新和个生化查询的需求。
语义理解(Natural Language Processing,NLP)自然语言处理,即实现人机间自然语言通信,或实现自然语言理解和自然语言生成是十分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性(ambiguity)。
目前的麦克风产品存在以下缺点:
不能有效的提供特定场景下的降噪需求,目前的麦克风产品不管是双麦降噪还是多麦降噪、线形排列还是环形排列,都只能针对单一场景的降噪需求。因为降噪算法只有一种,无法变更。
市场对麦克风降噪需求的同时,一般也需求语音识别等的人工智能服务的需求。但是如果只是通过降噪麦克风采集音频,并且通过私有云或者公有云进行语音识别,都会存在网络延时、数据安全、并发需求大服务器性能无法满足等的问题。
因此,设计一种智能麦克风阵列(即将人工智能平台集成进麦克风阵列产品)应对当前的音频采集和降噪、语音识别等的人工智能服务就很有必要了。
发明内容
本发明的目的是提供一种智能麦克风阵列,解决当下网络延时、数据安全、高并发下服务器性能不足的问题。
本发明是一种智能麦克风阵列,其中,包括:麦克风阵列模块,负责采集音频和降噪音频,将降噪后的音频传送给人工智能平台模块;人工智能平台模块接收到音频后,将音频通过语音识别能力处理模块处理得到识别文本,将文本通过语义理解能力处理模块处理得到语义结果,将文本通过语音合成能力处理模块处理得到合成音频,四麦环形麦克风阵列由四个麦克风环形间隔排列。
根据本发明的智能麦克风阵列的一实施例,其中,还包括:降噪芯片,用于接麦克风阵列的音频降噪,得到单声道音频。
根据本发明的智能麦克风阵列的一实施例,其中,智能麦克风阵列和PC以及智能银行柜员机之间通过USB连接,并且通过USB供电。
根据本发明的智能麦克风阵列的一实施例,其中,PC和智能银行柜员机将指令通过USB发给智能麦克风阵列,智能麦克风阵列将处理结果再返回给PC以及智能银行柜员机。
根据本发明的智能麦克风阵列的一实施例,其中,人工智能平台模块负责提供语音识别、语音合成以及语义理解的能力。
本发明是一种智能麦克风阵列,主要解决了音频采集降噪和离线情况下对语音识别、语音合成和语义理解的问题,在本发明中集成了离线的人工智能平台,提供了离线的语音识别、语音合成和语义理解的能力。可以在不联网的情况下提供高效快速的人工智能能力,配合高速处理芯片,让人工智能能力进一步提升。
附图说明
图1为一种智能麦克风阵列产品工作原理图;
图2为四麦环形麦克风阵列(麦克风阵列模块)示意图;
图3为智能麦克风阵列产品和智能设备连接示意图。
附图标记
标号说明:
100 麦克风阵列模块;200 人工智能平台模块;201 语音识别能力;202 语音合成能力;203 语义理解能力;300 四麦环形麦克风阵列;301 麦克风1;302 麦克风2;303 麦克风3;304 麦克风4;401 降噪芯片;500 PC、智能银行柜员机等智能设备;600 USB;700 智能麦克风阵列产品
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
图1为一种智能麦克风阵列产品工作原理图;图2为四麦环形麦克风阵列(麦克风阵列模块)示意图;图3为智能麦克风阵列产品和智能设备连接示意图,如图1至图3所示,一种智能麦克风阵列产品包括,麦克风阵列模块100负责采集音频和降噪音频,然后将降噪后的音频传送给人工智能平台模块200。人工智能平台模块200接收到音频后,可以将音频通过语音识别能力201处理得到识别文本,将文本通过语义理解能力203处理得到语义结果,将文本通过语音合成能力202处理得到合成音频。如图2,四麦环形麦克风阵列300由四个麦克风(301麦克风1、302麦克风2、303麦克风3、304麦克风4)环形间隔排列,四麦环形麦克风阵列300可以采集四声道的音频,经过降噪芯片401处理后,可以得到降噪后的单声道音频。
如图3,智能麦克风阵列产品700和PC、智能银行柜员机等智能设备500之间通过USB 600连接,并且通过USB 600供电。PC、智能银行柜员机等智能设备500将指令通过USB600发给智能麦克风阵列产品700,智能麦克风阵列产品700将处理结果再返回给PC、智能银行柜员机等智能设备500。
如图1至图3所示,本发明是一种智能麦克风阵列产品,尺寸不超过70*70*10mm,并且可以进行外观个性化定制,通过USB接口和PC、智能银行柜员机等智能设备进行连接,傻瓜式操作,没有学习成本。
如图1至图3所示,本发明是一种智能麦克风阵列产品,采用了一体化和集成化的设计,将麦克风阵列和人工智能平台集成在一起,同时实现了音频降噪和人工智能服务的能力。可以实现对降噪算法的设计,以应对多种需求场景。可以实现对语音识别、语音合成和语义理解的支持,并且可以定制化对专有词汇、特定交互环境做优化改善,来提供个性化人工智能服务。
对比现有的麦克风降噪产品,我们产品具有以下优势和区别:
麦克风阵列模块含有定制芯片,可以应对不同的降噪需求场景设计不同的降噪算法,解决了不同场景下对音频降噪的需求。
集成了人工智能平台,可以在不联网的情况下提供人工智能的服务,包括语音识别、语音合成和语义理解。并且没有网络延时、数据安全隐患、服务器性能不足等的担忧。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (5)

1.一种智能麦克风阵列,其特征在于,包括:麦克风阵列模块,负责采集音频和降噪音频,将降噪后的音频传送给人工智能平台模块;人工智能平台模块接收到音频后,将音频通过语音识别能力处理模块处理得到识别文本,将文本通过语义理解能力处理模块处理得到语义结果,将文本通过语音合成能力处理模块处理得到合成音频,四麦环形麦克风阵列由四个麦克风环形间隔排列。
2.如权利要求1所述的智能麦克风阵列,其特征在于,还包括:降噪芯片,用于接麦克风阵列的音频降噪,得到单声道音频。
3.如权利要求1所述的智能麦克风阵列,其特征在于,智能麦克风阵列和PC以及智能银行柜员机之间通过USB连接,并且通过USB供电。
4.如权利要求3所述的智能麦克风阵列,其特征在于,PC和智能银行柜员机将指令通过USB发给智能麦克风阵列,智能麦克风阵列将处理结果再返回给PC以及智能银行柜员机。
5.如权利要求1所述的智能麦克风阵列,其特征在于,人工智能平台模块负责提供语音识别、语音合成以及语义理解的能力。
CN201911336378.8A 2019-12-23 2019-12-23 一种智能麦克风阵列 Pending CN113096665A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911336378.8A CN113096665A (zh) 2019-12-23 2019-12-23 一种智能麦克风阵列

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911336378.8A CN113096665A (zh) 2019-12-23 2019-12-23 一种智能麦克风阵列

Publications (1)

Publication Number Publication Date
CN113096665A true CN113096665A (zh) 2021-07-09

Family

ID=76662945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911336378.8A Pending CN113096665A (zh) 2019-12-23 2019-12-23 一种智能麦克风阵列

Country Status (1)

Country Link
CN (1) CN113096665A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919059A (zh) * 2016-06-28 2017-07-04 广州零号软件科技有限公司 带独立麦克风阵列的服务机器人双语音识别方法
CN108200492A (zh) * 2017-07-12 2018-06-22 北京金锐德路科技有限公司 语音控制优化方法、装置以及集成入耳式麦克风的耳机和穿戴设备
CN207867895U (zh) * 2018-02-07 2018-09-14 深圳矽递科技股份有限公司 具有麦克风阵列的智能音频输入设备
WO2018182163A1 (ko) * 2017-03-28 2018-10-04 삼성전자 주식회사 사용자 발화를 처리하는 전자 장치 및 그 동작 방법
CN208094741U (zh) * 2018-03-21 2018-11-13 安徽咪鼠科技有限公司 一种基于语音识别技术的智能麦克风
KR20190101325A (ko) * 2019-08-12 2019-08-30 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919059A (zh) * 2016-06-28 2017-07-04 广州零号软件科技有限公司 带独立麦克风阵列的服务机器人双语音识别方法
WO2018182163A1 (ko) * 2017-03-28 2018-10-04 삼성전자 주식회사 사용자 발화를 처리하는 전자 장치 및 그 동작 방법
CN108200492A (zh) * 2017-07-12 2018-06-22 北京金锐德路科技有限公司 语音控制优化方法、装置以及集成入耳式麦克风的耳机和穿戴设备
CN207867895U (zh) * 2018-02-07 2018-09-14 深圳矽递科技股份有限公司 具有麦克风阵列的智能音频输入设备
CN208094741U (zh) * 2018-03-21 2018-11-13 安徽咪鼠科技有限公司 一种基于语音识别技术的智能麦克风
KR20190101325A (ko) * 2019-08-12 2019-08-30 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭斌等: "人工智能电视远场语音设计", 《电子产品世界》 *

Similar Documents

Publication Publication Date Title
US20220139393A1 (en) Driver interface with voice and gesture control
WO2020238209A1 (zh) 音频处理的方法、系统及相关设备
CN110214351A (zh) 记录的媒体热词触发抑制
CN102209143B (zh) 电话服务交互管理
AU2001250975A1 (en) Phonetic data processing system and method
CN106919059A (zh) 带独立麦克风阵列的服务机器人双语音识别方法
CN102760431A (zh) 智能化的语音识别系统
WO2017128775A1 (zh) 一种语音控制系统、语音处理方法及终端设备
CN111739553A (zh) 会议声音采集、会议记录以及会议记录呈现方法和装置
CN105912725A (zh) 一种通过自然语言交互调用海量智慧应用的系统
CN110415684A (zh) 一种人工智能语音识别系统
US20120046952A1 (en) Remote control system and method
CN111354350B (zh) 语音处理方法及装置、语音处理设备、电子设备
CN113096665A (zh) 一种智能麦克风阵列
CN109300478A (zh) 一种听力障碍者的辅助对话装置
CN101950564A (zh) 一种远程数字化语音采集分析识别系统
CN113393842A (zh) 一种语音数据处理方法、装置、设备以及介质
CN111312243A (zh) 设备交互方法和装置
US11917092B2 (en) Systems and methods for detecting voice commands to generate a peer-to-peer communication link
CN103824560A (zh) 中文语音识别系统
CN110534084B (zh) 一种基于FreeSWITCH的智能语音控制方法及系统
CN106920551A (zh) 共用一套麦克风阵列的服务机器人双语音识别方法
US20230106550A1 (en) Method of processing speech, electronic device, and storage medium
CN111048084B (zh) 在智能语音交互过程中推送信息的方法及系统
CN110956964B (zh) 提供语音服务的方法、装置、存储介质和终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210709

RJ01 Rejection of invention patent application after publication