CN113096665A

CN113096665A - 一种智能麦克风阵列

Info

Publication number: CN113096665A
Application number: CN201911336378.8A
Authority: CN
Inventors: 周著华; 汪松; 宗升亚; 廖新刚; 阕海燕
Original assignee: Shanghai Haoyi Information Technology Co ltd
Current assignee: Shanghai Haoyi Information Technology Co ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2021-07-09

Abstract

本发明涉及一种智能麦克风阵列，其中，包括：麦克风阵列模块，负责采集音频和降噪音频，将降噪后的音频传送给人工智能平台模块；人工智能平台模块接收到音频后，将音频通过语音识别能力处理模块处理得到识别文本，将文本通过语义理解能力处理模块处理得到语义结果，将文本通过语音合成能力处理模块处理得到合成音频，四麦环形麦克风阵列由四个麦克风环形间隔排列。本发明中集成了离线的人工智能平台，提供了离线的语音识别、语音合成和语义理解的能力。可以在不联网的情况下提供高效快速的人工智能能力，配合高速处理芯片，让人工智能能力进一步提升。

Description

一种智能麦克风阵列

技术领域

本发明涉及人工智能、音频降噪领域，尤其是一种带人工智能能力的智能麦克风阵列。

背景技术

麦克风阵列(Microphone Array)是一个特指应用于语音处理的系统，是一组位于空间不同位置的全向麦克风按一定的形状规则布置形成的阵列，是对空间传播声音信号进行空间采样的一种装置，主要解决在特定场景语音识别的问题，以保证真实场景下的语音识别率。

语音识别(Auto Speech Recognize，ASR)技术，是让机器通过识别和理解过程使之听懂人类语言的技术。语音识别技术是信息技术中人机交互的关键技术，目前已经在呼叫中心、电信增值业务、企业信息化系统中有了广泛的应用。随着语音识别在语音搜索、语音控制等全新应用领域的深入应用，语音识别技术被业界权威人士誉为有可能引发人机界面领域革命的关键技术。自动语音识别技术所要解决的问题是让计算机能够“听懂”人类的语音，将语音中包含的文字信息“提取”出来。ASR技术在“能听会说”的智能计算机系统中扮演着重要角色，相当于给计算机系统安装上“耳朵”，使其具备“能听”的功能，进而实现信息时代利用“语音”这一最自然、最便捷的手段进行人机通信和交互。

语音合成(Text To Speech，TTS)技术能够自动将任意文字实时转换为连续的自然语音，是一种能够在任何时间、任何地点，向任何人提供语音信息服务的高效便捷手段，非常符合信息时代海量数据、动态更新和个生化查询的需求。

语义理解(Natural Language Processing，NLP)自然语言处理，即实现人机间自然语言通信，或实现自然语言理解和自然语言生成是十分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性(ambiguity)。

目前的麦克风产品存在以下缺点：

不能有效的提供特定场景下的降噪需求，目前的麦克风产品不管是双麦降噪还是多麦降噪、线形排列还是环形排列，都只能针对单一场景的降噪需求。因为降噪算法只有一种，无法变更。

市场对麦克风降噪需求的同时，一般也需求语音识别等的人工智能服务的需求。但是如果只是通过降噪麦克风采集音频，并且通过私有云或者公有云进行语音识别，都会存在网络延时、数据安全、并发需求大服务器性能无法满足等的问题。

因此，设计一种智能麦克风阵列(即将人工智能平台集成进麦克风阵列产品)应对当前的音频采集和降噪、语音识别等的人工智能服务就很有必要了。

发明内容

本发明的目的是提供一种智能麦克风阵列，解决当下网络延时、数据安全、高并发下服务器性能不足的问题。

本发明是一种智能麦克风阵列，其中，包括：麦克风阵列模块，负责采集音频和降噪音频，将降噪后的音频传送给人工智能平台模块；人工智能平台模块接收到音频后，将音频通过语音识别能力处理模块处理得到识别文本，将文本通过语义理解能力处理模块处理得到语义结果，将文本通过语音合成能力处理模块处理得到合成音频，四麦环形麦克风阵列由四个麦克风环形间隔排列。

根据本发明的智能麦克风阵列的一实施例，其中，还包括：降噪芯片，用于接麦克风阵列的音频降噪，得到单声道音频。

根据本发明的智能麦克风阵列的一实施例，其中，智能麦克风阵列和PC以及智能银行柜员机之间通过USB连接，并且通过USB供电。

根据本发明的智能麦克风阵列的一实施例，其中，PC和智能银行柜员机将指令通过USB发给智能麦克风阵列，智能麦克风阵列将处理结果再返回给PC以及智能银行柜员机。

根据本发明的智能麦克风阵列的一实施例，其中，人工智能平台模块负责提供语音识别、语音合成以及语义理解的能力。

本发明是一种智能麦克风阵列，主要解决了音频采集降噪和离线情况下对语音识别、语音合成和语义理解的问题，在本发明中集成了离线的人工智能平台，提供了离线的语音识别、语音合成和语义理解的能力。可以在不联网的情况下提供高效快速的人工智能能力，配合高速处理芯片，让人工智能能力进一步提升。

附图说明

图1为一种智能麦克风阵列产品工作原理图；

图2为四麦环形麦克风阵列(麦克风阵列模块)示意图；

图3为智能麦克风阵列产品和智能设备连接示意图。

附图标记

标号说明：

100 麦克风阵列模块；200 人工智能平台模块；201 语音识别能力；202 语音合成能力；203 语义理解能力；300 四麦环形麦克风阵列；301 麦克风1；302 麦克风2；303 麦克风3；304 麦克风4；401 降噪芯片；500 PC、智能银行柜员机等智能设备；600 USB；700 智能麦克风阵列产品

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

图1为一种智能麦克风阵列产品工作原理图；图2为四麦环形麦克风阵列(麦克风阵列模块)示意图；图3为智能麦克风阵列产品和智能设备连接示意图，如图1至图3所示，一种智能麦克风阵列产品包括，麦克风阵列模块100负责采集音频和降噪音频，然后将降噪后的音频传送给人工智能平台模块200。人工智能平台模块200接收到音频后，可以将音频通过语音识别能力201处理得到识别文本，将文本通过语义理解能力203处理得到语义结果，将文本通过语音合成能力202处理得到合成音频。如图2，四麦环形麦克风阵列300由四个麦克风(301麦克风1、302麦克风2、303麦克风3、304麦克风4)环形间隔排列，四麦环形麦克风阵列300可以采集四声道的音频，经过降噪芯片401处理后，可以得到降噪后的单声道音频。

如图3，智能麦克风阵列产品700和PC、智能银行柜员机等智能设备500之间通过USB 600连接，并且通过USB 600供电。PC、智能银行柜员机等智能设备500将指令通过USB600发给智能麦克风阵列产品700，智能麦克风阵列产品700将处理结果再返回给PC、智能银行柜员机等智能设备500。

如图1至图3所示，本发明是一种智能麦克风阵列产品，尺寸不超过70*70*10mm，并且可以进行外观个性化定制，通过USB接口和PC、智能银行柜员机等智能设备进行连接，傻瓜式操作，没有学习成本。

如图1至图3所示，本发明是一种智能麦克风阵列产品，采用了一体化和集成化的设计，将麦克风阵列和人工智能平台集成在一起，同时实现了音频降噪和人工智能服务的能力。可以实现对降噪算法的设计，以应对多种需求场景。可以实现对语音识别、语音合成和语义理解的支持，并且可以定制化对专有词汇、特定交互环境做优化改善，来提供个性化人工智能服务。

对比现有的麦克风降噪产品，我们产品具有以下优势和区别：

麦克风阵列模块含有定制芯片，可以应对不同的降噪需求场景设计不同的降噪算法，解决了不同场景下对音频降噪的需求。

集成了人工智能平台，可以在不联网的情况下提供人工智能的服务，包括语音识别、语音合成和语义理解。并且没有网络延时、数据安全隐患、服务器性能不足等的担忧。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种智能麦克风阵列，其特征在于，包括：麦克风阵列模块，负责采集音频和降噪音频，将降噪后的音频传送给人工智能平台模块；人工智能平台模块接收到音频后，将音频通过语音识别能力处理模块处理得到识别文本，将文本通过语义理解能力处理模块处理得到语义结果，将文本通过语音合成能力处理模块处理得到合成音频，四麦环形麦克风阵列由四个麦克风环形间隔排列。

2.如权利要求1所述的智能麦克风阵列，其特征在于，还包括：降噪芯片，用于接麦克风阵列的音频降噪，得到单声道音频。

3.如权利要求1所述的智能麦克风阵列，其特征在于，智能麦克风阵列和PC以及智能银行柜员机之间通过USB连接，并且通过USB供电。

4.如权利要求3所述的智能麦克风阵列，其特征在于，PC和智能银行柜员机将指令通过USB发给智能麦克风阵列，智能麦克风阵列将处理结果再返回给PC以及智能银行柜员机。

5.如权利要求1所述的智能麦克风阵列，其特征在于，人工智能平台模块负责提供语音识别、语音合成以及语义理解的能力。