CN105391837A

CN105391837A - 管理音频信号的方法和设备

Info

Publication number: CN105391837A
Application number: CN201510550176.9A
Authority: CN
Inventors: 孙伯权; 金冈烈; 李南日; 黄镐哲; 琴钟谟; 裵珉浩
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-09-01
Filing date: 2015-09-01
Publication date: 2016-03-09
Also published as: US20180166091A1; US9947339B2; US9601132B2; KR20160026457A; US20160066083A1; US20160163329A1; EP3361749A1; KR101888391B1; CN105764003A; EP2991372A1; EP2991372B1

Abstract

本申请涉及一种方法，包括：通过使用麦克风阵列检测第一声信号；检测与第一声信号的第一入射方向相关联的第一角度；和在存储器中存储第一声信号的表示和第一角度的表示。

Description

管理音频信号的方法和设备

技术领域

本申请涉及电子装置，更具体而言，涉及管理音频信号的方法和设备。

背景技术

最近，电子装置已向用户提供在普通时间或在打电话期间记录另一方的语音的功能，以及诸如电话或发送消息的基本功能。

该电子装置包括用于语音记录的麦克风。为了完全记录音频信号，该电子装置包括多个麦克风。多个麦克风识别说话者的方向，并实现在该方向上的波束，从而完全记录来自说话者的方向的语音。可以通过对麦克风应用权重值以便增大音频信号的幅度来实现该波束。

发明内容

根据本公开一个方面，提供了一种方法，包括：通过使用麦克风阵列检测第一声信号；检测与所述第一声信号的第一入射方向相关联的第一角度；和在存储器中存储所述第一声信号的表示和所述第一角度的表示。

根据本公开另一方面，提供了一种电子装置，包括：麦克风阵列；存储器；扬声器；和至少一个处理器，其配置成：通过使用麦克风阵列检测第一声信号；检测与第一声信号的第一入射方向相关联的第一角度；和在存储器中存储第一声信号的表示和第一角度的表示。

附图说明

根据以下联系附图所做的详细描述，本申请的以上特征和优点将变得更加明显，在附图中：

图1是根据本公开的各实施例的电子装置的示例的框图；

图2是根据本公开的实施例的处理的示例的流程图；

图3是根据本公开的各实施例的处理的示例的流程图；

图4是根据本公开的各实施例的实现图3中的处理的系统的示例的框图；

图5是根据本公开的各实施例的存储的音频信号的示例的框图；

图6是根据本公开的各实施例的用于呈现音频的系统的示例的框图；

图7是示出了根据本公开的各实施例的被呈现的音频信号的示例的图；

图8是根据本公开的各实施例的处理的示例的流程图；

图9是根据本公开的各实施例的实施图8中的处理的系统的示例的图；

图10是根据本公开的各实施例的被存储的音频信号的示例的图；

图11是根据本公开的各实施例的用于呈现被存储的音频信号的系统的图；

图12是根据本公开的各实施例的处理的示例的流程图；

图13是根据本公开的各实施例的实现图12中的处理的系统的示例的图；

图14是根据本公开的各实施例的被存储的音频信号的图；

图15是根据本公开的各实施例的用于呈现被存储的音频信号的系统的示例的图；

图16是示出了根据本公开的各实施例的用于记录音频的处理的示例的图；

图17是根据本公开的各实施例的用于呈现音频的用户界面的示例的图；

图18是根据本公开的各实施例的用于呈现音频的用户界面的示例的图；

图19是根据本公开的各实施例的用于呈现音频的用户界面的示例的图；

图20是示出根据本公开的各实施例的用于记录音频的处理的示例的图；以及

图21是是根据本公开的各实施例的用于呈现音频的用户界面的示例的图。

具体实施方式

以下，将参考附图描述本公开的实施例。本领域技术人员将很容易体会到在本文中公开的实施例中可以有不同的修改、添加和替换，本公开的范围不应受限于以下实施例。提供本公开的实施例是为了使本领域技术人员能够透彻地理解本公开。附图中，相同或类似的元件即使是在不同图中示出，也用相同的参考标号标注。

在本公开中可能用到的诸如“包括”和“可以包括”这样的措辞，表示公开的功能、操作和组成元件的存在性，而并不限制一个或多个附加功能、操作和组成元件。在本公开中，诸如“包括”和/或“具有”这样的术语可以解释成表示某个特性、数目、步骤、操作、构成元件、部件或上述的组合，但是不可以解释成排除了一个或多个其他特性、数目、步骤、操作、构成元件、部件或其组合的存在性或添加的可能性。

在本公开中，措辞“和/或”包括相关列举出的词语的任意或所有组合。例如，措辞“A和/或B”可以包括A，可以包括B，还可以包括A和B两者。

在本公开中，包括序数的措辞，诸如“第一”和“第二，”等等，和/或类似词语，可以修饰不同元素。然而，这样的元素不受以上措辞的限制。例如，以上措辞并不限制元素的顺序和/或重要性。以上措辞仅仅用来将一个元素和其他元素区分开。例如，第一用户装置和第二用户装置指示不同的用户装置，尽管对于这二者而言，第一用户装置和第二用户装置均为用户装置。例如，第一元素可以被称作第二元素，类似地，第二元素也可以被称作第一元素，而不会脱离本公开的范围。

当部件被称为“连接到”另一个部件或由另一个部件“接入”时，应理解为不仅该部件直接连接到或接入到另一个部件，而且在该部件和该另一个部件之间可以存在其他部件。同时，当部件被称为“直接连接”或“直接接入”到其他部件时，应理解为这两个部件之间不存在部件。

本公开中使用的术语仅仅用于描述特定的不同实施例，而并不旨在限制本公开。除非上下文中另外做出明确的指示，否则单数形式旨在包括复数形式。

除非另作限定，否则在本文中所用到的包括技术术语和/或科学术语的所有术语具有的意义与本申请所属的技术领域中的普通技术人员通常理解的意义相同。此外，除非另作限定，否则在常用词典中限定的所有术语不会被过度诠释。

例如，电子装置对应于以下项中的至少一项的组合：智能手机、平板个人电脑(PC)、移动电话、视频电话、电子书阅读器、台式电脑、膝上型电脑、上网本、个人数字助理(PDA)、便携式多媒体播放器(PMP)、数字音频播放器(例如，MP3播放器)、移动医疗设备、照像机或穿戴式装置。穿戴式装置的示例为头盔式装置(HMD)(例如，电子眼镜)、电子服装、电子手环、电子项圈、智慧配件、电子纹身、智能手表等等。

根据本申请实施例的电子装置可以是智能家电。智能家电的示例为：电视(TV)、数字化视频光盘(DVD)播放器、音频系统、冰箱、空调、清洗装置、烤箱、微波炉、洗衣机、空气净化器、机顶盒、电视盒(例如，SamsungHomeSync^TM、AppleTV^TM或GoogleTV^TM)、游戏机、电子词典、电子钥匙、便携式摄像机、电子相册，或类似物。

根据本申请实施例的电子装置可以包括以下项中的至少一项：医疗设备(例如，磁共振血管造影(MRA)、磁共振成像(MRI)、计算机断层扫描(CT)、扫描机、超声波扫描装置，等等)，导航装置、全球定位系统(GPS)接收器、事件数据记录器(EDR)、飞行数据记录器(FDR)、汽车信息娱乐装置、轮船的电子设备(例如，导航设备、回转罗盘，等等)、航空电子设备、安全装置、汽车的主机单元、工业或家用机器人、自动出纳机(ATM)、售货机(POS)系统，等等。

根据本公开实施例的电子装置可以分别包括以下项中的至少一项：家具或房屋/建筑物的一部分、电子板、电子签名接收装置、投影仪、各种测量仪器(例如，水表、电表、燃气表和波长表)，等等。根据本公开实施例的电子装置还可以包括以上列举出的装置的组合。此外，根据本公开实施例的电子装置可以是弹性装置。对于本领域技术人员来说很明显的是，根据本公开实施例的电子装置并不局限于上述装置。

下文中，将参考附图具体描述根据本申请实施例的电子装置。在描述中，术语“用户”可以指使用电子装置的人或装置，例如人工智能电子装置。

图1是根据本公开的不同实施例的电子装置的示例的框图。参考图1，电子装置100可以包括控制器110、麦克风单元130、扬声器140、存储器160和通信单元180。控制器110可以控制电子装置100的全部操作和电子装置100内部元件之间的信号业务，并且可以执行数据处理功能。例如，控制器110可以为中央处理单元(CPU)或应用处理器(AP)的形式。此外，控制器110可以为单核处理器或多核处理器的形式。

控制器110可以包括至少一个处理器。处理器中的每一个可以包括以下项的任意组合：一个或多个通用处理器(例如，基于ARM的处理器、多核处理器，等等)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、数字信号处理器(DSP)、可编程逻辑装置(PLD)，和/或任意其他适宜类型的处理电路。附加地或可替换地，控制器110可以包括说话者位置检测单元111、波束成形器113、脉冲编码调制(PCM)文件生成单元117、编码器121、解码器123和用户角度选择单元127。

说话者位置检测单元111可以从多个麦克风130所接收的音频信号当中找到具有最高能量水平的音频信号的方向。此处，方向可以是角度信息。说话者位置检测单元111可以通过使用能量信息、相位信息或麦克风之间的相关性信息，识别出当前说话者说话时所对着的方向。当多个说话者同时说话时，说话者位置检测单元111可以按照说话者生成的音频信号的能量的强度的顺序来识别出角度信息。

波束成形器113可以给予说话者权重值以增大音频信号的幅度，使得当音频信号的方向与噪声的方向彼此不同时波束能够在空间上降低相关噪声。

在波束的成形方面，在音源中生成的声波行进过不同的距离后到达每个麦克风。由于声波的速度有限，声波会在不同的时间点到达各个麦克风。然而，除了时间差之外，在每个麦克风处从同一个声源生成的声波可以被识别为相同的声波。因此，如果给出了声源的位置，就可以计算声波的到达时间差异，以用于声波校正从而使声波彼此匹配。

PCM文件生成单元117可以将来自多个麦克风130的音频信号输入转换成PCM文件。此处，PCM文件指的是被存储为从模拟信号(即，音频信号)转换成的数字信号的文件。如果模拟信号没有经过转换就被存储起来，则其可能会被噪声影响，因此将模拟信号转换成数字信号然后再存储起来。可以将生成的PCM文件发送到D/A转换器。D/A转换器可以将数字信号转换成模拟信号。通过D/A转换器可以将PCM文件转换成模拟文件，转换成的音频信号可以最终被发送给扬声器140，由此输出给用户。

编码器121可以通过使用编解码器将记录的音频信号存储为压缩文件，以便降低已经转换成数字信号的音频信号的存储容量。编码器121可以从说话者位置检测单元111接收对应于说话者的角度信息，并且可以将该角度信息与对应的记录的音频信号一起存储起来。

解码器123可以将通过编码器121压缩的文件解压缩。用户角度选择单元127可以识别用户的角度选择。用户角度选择单元127可以识别用户的说话者选择以及角度选择。如果用户希望听到说话者“B”的音频信号，或映射为说话者“B”的90°的音频信号，则用户角度选择单元127可以选择说话者“B”或90°。用户可以在列表中或通过特定用户界面(UI)做出选择。

麦克风单元130可以包括多个麦克风。一个或多个麦克风可以接收音频信号。接收的音频信号可以由控制器110记录下来，并且可以用于计算说话者的位置。

扬声器140可以再现通过至少一个麦克风接收的音频信号。可以根据用户的选择通过控制器110的指令再现音频信号。

触摸屏150可以从控制器110的用户角度选择单元127接收角度信息，并且可以显示该信息。此处，角度信息与对应的音频信号一起作为文件存储在存储器160中。触摸屏150可以检测用户对于显示的角度中的一者或多者的选择，并且可以将选择的角度传递给用户角度选择单元127。

此外，触摸屏150可以从控制器110接收被记录的音频信号列表。触摸屏150可以显示接收到的被记录的音频信号列表。触摸屏150可以接收基于与特定说话者相关联的音频信号生成的文本。该文本可以由控制器110通过使用文字转语音(TTS)来产生。被记录的音频信号列表可以使用户能知道每个音频信号的内容。

存储器160可以包括内部存储器或外部存储器中的至少一种。内部存储器，例如，可以包括以下项中的至少一种：易失性存储器(例如，DRAM(动态随机存取存储器)、SRAM(静态随机存取存储器)、SDRAM(同步动态随机存取存储器或类似物)、非易失性存储器(例如，OTPROM(单次可编程只读存储器)、PROM(可编程只读存储器)、EPROM(可擦写且可编程的只读存储器)、EEPROM(可电气擦写且可编程的只读存储器)、掩膜只读存储器、闪存只读存储器，或类似物)、HDD(硬盘驱动)，或固态驱动(SSD)。外部存储器可以包括以下项中的至少一个：CF(紧凑式闪存)、SD(安全数字)、微型SD(微型安全数字)、迷你SD(迷你安全数字)、xD(极速数字)、存储棒、可接入网络的存储器(NAS)、云存储或类似物。存储器160可以存储由编码器121压缩的音频文件。

通信单元180可以使电子装置100与外部电子装置相连。例如，通信单元180可以通过无线或有线通信连接到网络，从而与外部电子装置通信。无线通信可以包括Wi-Fi、BT(蓝牙)、NFC(近场通讯)或类似通信。此外，无线通信可以包括从蜂窝式通信网络(例如，LTE、LTE-A、CDMA、WCDMA、UMTS、WiBro、GSM或类似网络)当中选出的至少一种。例如，有线通信可以包括以下项中的至少一种：USB(通用串行总线)、HDMI(高清晰度多媒体界面)、RS-232(推荐性标准232)或POTS(普通老式电话业务)。

图2是根据本公开的实施例的处理的示例的流程图。参考图2，控制器110可以识别用户的请求以开始音频记录。在操作203中，控制器110可以辨认多个角度。例如，该多个角度可以是要被接收的音频信号的角度。在一些实施方式中，控制器110可以将每一个接收到的音频信号以90度的间隔映射至多个角(即，角度为0°、90°、180°和270°的角)中不同的一个角，从而将其存储起来。例如，控制器110可以从四个麦克风接收音频信号，以通过使用能量信息、相位信息或麦克风之间的相关信息检测说话者的位置。在控制器110识别出说话者的位置是80°的实例中，控制器110可以将说话者的位置配置为90°，该角度与其他角度相比是相对接近的值。

在操作205中，控制器110可以通过麦克风单元130的多个麦克风接收多个音频信号。

在操作207中，控制器110可以从多个麦克风所接收的多个音频信号中提取出具有最高能量水平的音频信号，从而检测音频信号的角度。在操作207中，控制器110可以将检测的角度映射成在操作203中辨认的多个角度中的一个角度。例如，如果控制器110确定具有最高能量水平的音频信号是在160°的角度处接收到的，控制器110可以使音频信号映射为180°，该角度与其他角度相比是接近的值。

在操作209中，控制器110可以确定在操作203中辨认的多个角度中的角度是否仍有没被处理的。例如，由于在操作203中控制器110配置成要接收成90°的间隔的四个音频信号，已经在操作207中接收了一个音频信号的控制器110可以确定还有三个音频信号仍没有被检测到。如果确定存在仍没有处理的角度，控制器110可以进行操作211。在操作211中，控制器110可以从剩余的音频信号(而不是检测到的音频信号)当中检测具有最高能量水平的音频信号的角度。例如，如果检测到的音频信号的角度是90°，则音频信号可以与90°相映射。

在操作211中从剩余的音频信号当中检测到具有最高能量水平的音频信号的角度之后，控制器110可以返回到操作209。

控制器110可以重复以上操作，如果所有被配置的角度均被检测到，即，如果确定不存在没有被检测到的角度，则控制器110可以终止操作。

图3是根据本公开的不同实施例的处理的示例的流程图。图4是根据本公开的不同实施例的实施图3中的处理的系统的示例的图。

将与图4中的信号流相关联的描述图3中的操作。在操作301中，控制器110可以开始记录音频。例如，控制器110可以识别用户的请求，从而开始音频记录。使用了图4中所示的麦克风单元130的三个麦克风。三个A/D转换器410可以将从多个麦克风接收到的音频信号转换成数字文件。三个A/D转换器410可以将已经被转换成数字文件的音频信号传递给控制器110。

在操作303中，控制器110可以检测说话者的位置。即，当音频信号被接收到时，控制器110可以识别对应于音频信号的角度。在操作305中，控制器110可以选择三个麦克风中的一个。此处，麦克风可以是全向麦克风。在操作307中，控制器110可以通过使用选定的麦克风记录音频信号。在操作309中，PCM文件生成单元117和说话者位置检测单元可以从A/D转换器410接收已经被转换成数字信号的音频信号。控制器110的编码器121可以将从说话者位置检测单元111接收的角度信息编码成包含音频信号的PCM文件。此外，控制器110的编码器121还可以将时间信息编码到PCM文件中。该时间信息可以包括用于记录音频信号的时间段，或者记录的开始时间和结束时间。控制器110的编码器121可以将压缩的音频文件传递给存储器160，从而将音频文件存储在存储器160中。

图5是根据本公开的不同实施例的被存储的音频信号的示例的图。

图5示出了由于执行图3中的处理而记录的文件，图5中的水平轴表示时间，可以以秒为单位。此外，图5的纵轴表示音频信号的幅度，可以以分贝(dB)为单位。图5示出了将对应于几个角度的音频信号存储为单个文件的示例。图5显示了将音频信号和音频信号被接收时所处的角度存储在一起。此外，还示出，还存储了每个音频信号的记录时间。该记录时间可以表达为在文件中对于每个说话者的音频信号的分段长度。

参考记录文件，音频信号A(510a)出现在0°的角度处(520a)。音频信号B(510b)出现在90°的角度处(520b)。音频信号C(510c)出现在180°度的角处(520c)。音频信号D(510d)出现在270°的角度处(520d)。将音频信号A的分段与音频信号B的分段相比较，音频信号A(510a)的分段短于音频信号B(510b)的分段。这意味着音频信号A(510a)的记录时间短于音频信号B(510b)的记录时间。

图6是根据本公开的不同实施例的用于呈现音频的系统的示例的图。

参考图6，控制器110可以从存储器160接收被压缩和存储的音频文件。控制器110可以将压缩的音频文件传递给解码器123。此外，控制器110可以将对应于压缩音频文件的角度信息传递给用户角度选择单元127。用户角度选择单元127可以将角度信息传递给触摸屏150。触摸屏150可以显示通过角度信息辨认的所有角度，以允许用户选择其中至少一个。触摸屏150可以将用户选择的角度传递给用户角度选择单元127。用户角度选择单元127可以将用户选择的角度传递给PCM文件生成单元117。PCM文件生成单元117可以仅仅将对应于选定角度的音频信号转换到PCM文件中，并且可以将该PCM文件传递给D/A转换器。

D/A转换器610可以将PCM文件转换成模拟信号并将该模拟信号馈送至扬声器140。D/A转换器610可以将经转换的音频信号传递给扬声器140，扬声器140可以输出音频信号。

图7是示出根据本公开的不同实施例的被呈现的音频信号的示例的图。

图7示出了再现的音频信号，并且水平轴表示时间，其可以以秒为单位。此外，纵轴表示音频信号的幅度，可以以分贝(dB)为单位。当用户希望仅听到处于90°的角度处的音频信号时(520b)，在所有音频信号当中对应于90°的角度的音频信号510b被再现。即，对应于非90°的角度的音频信号不会被再现。如果控制器110识别出用户选择为180°的音频信号，控制器110可以在所有文件当中仅仅再现对应于180°的角度的音频信号。

图8是根据本公开的不同实施例的处理的示例的流程图。图9是根据本公开的不同实施例的实现图8中的处理的系统的示例的流程图。

将与图9中的信号流相关联地描述图8中的操作。在操作801中，控制器110可以执行音频记录。控制器110可以识别用户的请求，从而开始音频记录。如图9中所示，控制器110可以使用三个麦克风来接收音频信号。三个A/D转换器910可以将从多个麦克风接收到的音频信号转换成数字文件。三个A/D转换器910可以将已经被转换成数字文件的音频信号传递给控制器110。

在操作803中，控制器110可以检测说话者的位置。例如，控制器110可以识别对应于接收到的音频信号的角度。如图9中所示，通过A/D转换器910将麦克风接收到的音频信号转换成数字信号，然后将该数字信号传递给说话者位置检测单元111。说话者位置检测单元111可以识别对应于接收到的音频信号的角度，并且可以将对应于该角度的信息传递给波束成形器113。

在操作805中，控制器110的波束成形器113可以以检测的说话者角度形成波束。在通过麦克风在不同角度处接收到几个音频信号的实例中，波束成形器113可以形成处于具有最高能量水平的音频信号角度的波束。在操作807中，控制器110可以将通过形成波束记录的音频信号、与该音频信号对应的角度信息和时间信息存储起来。

在操作809中，控制器110可以确定是否说话者的位置已经改变。说话者位置检测单元111可以识别接收到的音频信号的角度，从而确定说话者的位置是否已经改变。如果控制器110的说话者位置检测单元111确定接收到的音频信号的角度(即说话者的角度)被改变，则控制器可以返回到操作803。如果控制器110的说话者位置检测单元111确定说话者的角度没有改变，则控制器可以返回到操作805。

如图9中所示，控制器110的波束成形器113可以将通过实现波束所获得的音频信号传递给PCM文件生成单元117。控制器110的PCM文件生成单元117可以将从波束成形器113接收到的音频信号生成为PCM文件，以将该PCM文件传递给编码器121。在操作809中，编码器121可以压缩PCM文件和从说话者位置检测单元111接收到的角度信息，从而产生音频文件。此外，控制器110的编码器121可以还将接收到的音频信号的时间信息也压缩到音频文件中。编码器121可以将压缩的音频文件存储在存储器160中。

图10是根据本公开的不同实施例的被存储的音频信号的示例的图。图10示出了通过图8的操作记录的文件，其中水平轴表示时间，可以以秒为单位。此外，图10的纵轴表示音频信号的幅度，可以以分贝(dB)为单位。图10示出了将对应于几个角度的音频信号存储为单个文件的示例。在此示例中，将通过波束成形接收到的音频信号和音频信号被接收时所处的角度存储在一起。此外，每个音频信号的记录时间也可以存储在文件中。该记录时间可以表达为在文件中对于每个说话者的音频信号的分段长度。

参考记录文件，音频信号A(1010a)出现在0°的角度处(1020a)。音频信号B(1010b)出现在90°的角度处(1020b)。音频信号C(1010c)出现在180°的角度处(1020c)。音频信号D(1010d)出现在270°的角度处(1020d)。将音频信号A(1010a)的分段与音频信号B(1010b)的分段相比较，音频信号A(1010a)的分段短于音频信号B(1010b)的分段。这意味着音频信号A(1010a)的记录时间短于音频信号B(1010b)的记录时间。

图11是根据本公开的不同实施例的用于呈现音频的系统的图。

参考图11，控制器110的用户角度选择单元127可以从存储器160接收与每个音频信号对应的角度信息。控制器110的解码器123可以从存储器160接收压缩音频文件，并可以将其解压缩。控制器110的PCM文件生成单元117可以从解码器123接收音频信号，并可以将其转换到PCM文件中。由PCM文件生成单元117转换的音频信号可以被传递给D/A转换器1110，使得从用户角度选择单元127接收到角度信息，并且将仅仅再现对应于该角度的音频信号。

D/A转换器1110可以将数字信号的PCM文件转换成模拟信号，并将该模拟信号馈送给扬声器140。D/A转换器1110可以将转换的音频信号传递给扬声器140，并且扬声器140可以输出音频信号。

图12是根据本公开的不同实施例的处理的示例的流程图。图13是根据本公开的不同实施例的用于实施图12中的处理的系统的示例的图。

将与图13中的信号流相关联地描述图12中的操作。在操作1201中，控制器110可以开始记录音频。例如，控制器110可以识别用户的请求，从而开始音频记录。如图13中所示，控制器110使用三个麦克风来接收音频信号。多个A/D转换器1310可以将从三个麦克风接收到的音频信号转换成数字文件。三个A/D转换器1310可以将已经被转换成数字文件的音频信号传递给控制器110。

在操作1203中，控制器110可以检测多个说话者的位置。即，当接收到多个音频信号时，控制器110可以识别对应于音频信号的角度。如图13中所示，通过A/D转换器1310将三个麦克风接收到的音频信号转换成数字信号，然后将该数字信号传递给说话者位置检测单元111。说话者位置检测单元111可以识别对应于接收到的音频信号的角度，并且可以将每个角度的指示传递给波束成形器113a至113c。

在操作1205中，控制器110的波束成形器113a至113c可以形成分别在全部检测到的角度中的每个角度上的波束。此外，控制器110的波束成形器113a至113c可以形成仅仅在具有的能量大于预定值的音频信号的角度上的波束。如图13中所示，控制器110的波束成形器113a至113c可以将通过实施波束所获得的音频信号传递给PCM文件生成单元117a至117c。控制器110的PCM文件生成单元117a至117c可以将从波束成形器113a至113c接收到的音频信号转换到PCM文件中，以将该PCM文件传递给编码器121。在操作1207中，编码器121可以通过将PCM文件与从说话者位置检测单元111接收到的多条角度信息关联起来从而将其压缩，来生成音频文件。此外，控制器110的编码器121可以将接收到的音频信号的时间信息也压缩到音频文件中。编码器121可以将压缩的音频文件存储在存储器160中。

图14是根据本公开的不同实施例的被存储的音频信号的图。

图14示出了通过图12的操作记录的文件，其中水平轴表示时间，可以以秒为单位。此外，图14的纵轴表示音频信号的幅度，可以以分贝(dB)为单位。图14示出了将对应于几个角度的音频信号存储为各自的文件的示例。此外，在图14中假设文件的音频信号是按时间的顺序记录的。在图14的示例中，通过波束成形接收到的音频信号和音频被接收信号时所处的角度可以被存储在一起。此外，该图还显示每个音频信号的记录时间也可以被存储起来。该记录时间可以表达为在文件中对于每个说话者的音频信号的分段长度。

参考记录文件，存储在文件1中的音频信号A(1410a)出现在0°的角度处(1420a)。存储在文件2中的音频信号B(1410b)出现在90°的角度处(1420b)。存储在文件3中的音频信号C(1410c)出现在180°的角度处(1420c)。存储在文件4中的音频信号D(1410d)出现在270°的角度处(1420d)。

此外，尽管附图中未示出，所有音频信号的各个表示(representation)可以被封装在同一个文件中。例如，当在0°的角度出现另一个音频信号(1420a)时，另一个音频信号1410a可以被存储在文件1中。如果在音频信号1410d被存储之后额外地出现另一个音频信号，该额外地生成的音频信号可以在音频信号1410d之后存储在文件1中。此外，如果在存储音频信号1410c的中途额外地出现另一个音频信号，则该额外生成的音频信号可以与说话者C(1401c)的音频信号1410c同时被存储在文件1中。

图15是根据本公开的不同实施例的用于呈现被存储的音频信号的系统的示例的图。

参考图15，控制器110的用户角度选择单元127可以从存储器160接收位置信息，即，与说话者对应的角度信息。用户角度选择单元127可以将接收到的角度信息传递给触摸屏150，触摸屏150可以显示与接收到的角度信息对应的角度。用户角度选择单元127可以识别用户在触摸屏150上选择的角度。用户角度选择单元127可以将选定的角度传递给解码器123，解码器123可以仅从存储器160接收与选定角度对应的文件。解码器123可以将接收到的文件解压缩，并且可以执行关于与用户角度选择单元127选择的角度对应的文件的缓冲和混合处理1570。控制器110可以将处理过的文件传递给PCM文件生成单元117，PCM文件生成单元117可以将传递的文件转换成PCM文件。由PCM文件生成单元117生成的文件可以被传递给D/A转换器1510。D/A转换器1510可以将数字信号的PCM文件转换成模拟信号，并将该模拟信号馈送给扬声器140。D/A转换器1510可将转换出的音频信号传递给扬声器140，而扬声器140可以输出该音频信号。

图16是示出根据本公开的不同实施例的用于记录音频的处理的示例的图。三个麦克风可以布置在彼此不同的方向上。通过三个麦克风的组合形成一个或多个波束。

如图中所示，三个麦克风1641、1642和1643设置在彼此不同的方向上，通过三个麦克风1641、1642和1643可以形成四个波束1611、1612、1613和1614。波束1611、1612、1613和1614中的每一个可以仅以其自己形成的角度接收音频信号。接收到的音频信号可以与对应于自身的角度信息存储在一起。

图17是根据本公开的不同实施例的用于呈现音频的用户界面的示例的图。

参考图17，控制器110可以在触摸屏150上显示UI，其允许用户再现与期望方向相关联的音频信号。在实施例中，UI可以包括标识符，该标识符指示说话者相对于麦克风阵列的位置，该麦克风阵列用于记录由说话者产生的声音。标识符可以显示在一个圆上，以与说话者的角度相对应。如图中所示，标识符A(1701a)、标识符B(1701b)、标识符C(1701c)和标识符D(1701d)被显示在与0°、90°、180°和270°对应的位置处，其可以是说话者相对于麦克风阵列的接近位置。

如果用户选择标识符中的至少一个，控制器110可以再现与该标识符对应的角度相关联的音频文件。此外，如果用户选择全部播放的按钮1750，控制器110可以通过扬声器再现全部音频文件。全部音频文件可以是包括在所有角度处的音频信号的文件。

图18是根据本公开的不同实施例的用于呈现音频的用户界面的示例的图。

参考图18，控制器110可以显示允许用户选择与期望方向相关联的音频信号的列表。该列表可以包括指示说话者的标识符、播放按钮1850、停止按钮1860和记录按钮1870。如果用户选择标识符1801a至1801d中的一个，控制器110可以通过扬声器140再现与选定的标识符对应的被存储的音频文件。例如，当用户为了听标识符A(1801a)的音频信号而选择播放按钮1850时，控制器110可以再现与标识符1801a相关联的被存储的3分40秒的音频文件。

此外，当用户选择其中一个标识符时，控制器110可以提供与选定的标识符对应的分段信息。该分段信息可以是在整个记录时间当中与选定标识符对应的说话者的记录音频信号的开始时间和结束时间的信息。控制器110可以将分段信息表达为图像或数字。

例如，当用户选择标识符A(1801a)时，控制器110可以提供与选定的标识符A(1801a)相对应的分段信息。标识符A(1801a)的分段信息可以是表明以下内容的信息：音频信号是在27分钟35秒的整个记录时间中从第3分钟的时刻到第6分钟40秒的时刻这段时间记录的。控制器110可以在用户选择标识符A(1801a)时提供分段信息，或者可以在记录时间被选择时或在音频文件被再现的同时在列表中或在再现的图像中显示分段信息。

图19是根据本公开的不同实施例的用于呈现音频的用户界面的示例的图。

控制器110可以根据角度辨认被记录的音频信号的说话者(speaker)以及音频信号。为了这个目的，控制器110可以在执行音频记录之前通过使用声音快照(sound-shot)功能预先存储说话者识别信息。说话者识别信息可以包括音频信号的波和说话者的相片。声音快照功能指的是将拍摄相片时记录的音频信号与照片一起存储的功能。

例如，如果用户通过使用声音快照功能为说话者A(1900a)的脸拍照和记录说话者的音频信号1910a，控制器110可以将照片与音频信号映射，从而将照片与音频信号作为单个音频文件1901a存储在存储器160中。如图19中所示，说话者A(1900a)、说话者B(1900b)、说话者C(1900c)、和说话者D(1900d)的照片可以分别与说话者A(1900a)的音频信号波1910a、说话者B(1900b)的音频信号波1910b、说话者C(1900c)的音频信号波1910c、和说话者D(1900d)的音频信号波1910d一起存储为文件1901a至1901d。取决于人的声音的特征，音频信号波可能彼此不同，所以音频信号波可用于辨认说话者。

在另一个实施例中，为了识别说话者，用户可以在音频信号的记录之前预先存储说话者的声音作为说话者识别信息。根据这点，控制器110可以记录说话者的语音以将其存储在存储器160中，并利用该语音在稍后进行比较。额外地或可替换地，当存储说话者的语音时，用户还可以存储说话者的名字和/或可用于指示说话者的身份的其他信息。

在另一个实施例中，在与联系信息中存储的人打电话期间，控制器110可以将说话者的语音存储在存储器160中，以使用该语音作为说话者识别信息。

图20是根据本公开的不同实施例的用于记录音频的处理的示例的图。

如图19中提到的，控制器110可以为说话者拍照片，并可以通过使用声音快照功能将相片和音频信号预先存储在存储器160中，以便根据角度辨认被记录的音频信号的说话者。参考图20，控制器110可以将以所述角度存储的音频信号的波与存储器160中存储的声音快照文件的音频信号波进行比较。如果控制器110发现具有与在每个角度存储的音频信号的波匹配的音频信号波的声音快照文件，控制器110可以将声音快照文件的照片与在每个角度存储的音频信号相映射，从而将其存储起来。例如，如图20中所示，说话者A(2001a)、说话者B(2001b)、说话者C(2001c)和说话者D(2001d)可以分别形成波束2011至2014，以接收说话者的音频信号。存储器160可以具有说话者2001a至2001d的相片和音频信号。控制器110可以将说话者的被接收到的音频信号波与存储器160中存储的音频信号波进行比较，从而将其映射以匹配彼此，然后再将其存储起来。

在另一个实施例中，控制器110可以将说话者的被接收到的音频信号波与为了比较而预先记录和预先存储的音频信号波进行比较。控制器110可以将说话者的被接收到的音频信号波与存储器160中存储的音频信号波进行比较以确定说话者各自的身份。

在另一个实施例中，控制器110可以将说话者的被接收到的音频信号波与在联系信息中表示的用户的音频信号波进行比较。控制器110可以将说话者的被接收到的音频信号波与存储器160中存储的音频信号波进行比较以确定说话者的身份。

参考根据以上不同实施例记录的文件，存储在文件1中的音频信号A(2010a)是由说话者A(2001a)在0°的角度(2020a)处发出的。存储在文件2中的音频信号B(2010b)是由说话者B(2001b)在90°的角度(2020b)处发出的。存储在文件3中的音频信号C(2010c)是由说话者C(2001c)在180°的角度(2020c)处发出的。存储在文件4中的音频信号D(2010d)是由说话者D(2001d)在270°的角度(2020d)处发出的。

图21是根据本公开的不同实施例的用于呈现音频的用户界面的示例的图。

如图20中提到的，通过说话者识别可以根据说话者来存储音频文件。控制器110可以通过使用语音-文本转换(STT)功能生成关于跟据说话者存储的文件的文档。

如图21中所示，控制器110可以生成会议记录2100作为文档中的一个。会议记录2100可以包括用于辨认说话者的说话者的标识符2101或照片、STT转换文本2103、音频文件的记录时间2105和用于再现音频文件的播放按钮2107。例如，控制器110可以将被首先记录的说话者A(2101a)的音频文件转换成文本，并可以将该文本记录在按时间排序的会议记录2100中。控制器110可以包括播放按钮2107，用于再现会议记录2100中与“00:00:00～00:00:34”的记录时间相对应的音频文件。

图1-图21提供来仅仅作为示例。相对于这些图讨论的步骤中的至少一些步骤可以被同时执行，以不同的顺序执行，和/或一起被省略。将理解的是，本文中描述的示例的规定，以及像“诸如”、“例如”、“包括”、“在一些方面”、“在一些实施方式中”等等这样的子句短语，不应解释为将要求保护的内容限制到特定示例。

本公开的上述方面可以硬件、固件的形式实施，或通过对存储在记录介质中的软件和计算机代码的执行来实施，该记录介质诸如CD-ROM、数码化通用磁盘(DVD)、磁带、RAM、软盘、硬盘或磁光盘这样的记录介质中，或者通过对最初存储在远程记录介质或永久性机器可读介质上通过网络下载并且将存储在本地记录介质上的计算机代码的执行来实施，使得本文描述的方法可以经由存储在记录介质上的软件通过使用通用计算机，或专用处理器或以可编程或专用硬件(诸如ASIC或FPGA)的形式来呈现。如在本领域中将被理解的，处理器、微处理器控制器或可编程硬件包括存储器部件，例如RAM、ROM、闪存，等等，该存储部件可以存储或接收软件或计算机代码，该软件或计算机代码在被计算机、处理或硬件访问并执行时会实施本文描述的处理方法。此外，应认识到，当通用计算机访问用于实施本网站所示的处理时，对代码的执行会将通用计算机转换成用于执行本文中所示的处理的专用计算机。附图中提供的任意功能和步骤可以在硬件、软件或二者的组合中实施，并且可以整个或部分地在计算机的编程指令内执行。本文中要求保护的元件除非是通过使用短语“用于……的装置”来明确陈述的，否则该元件不应依据35U.S.C.112第6段来解释。

尽管已经通过参考本文提供的示例具体示出和描述了本公开，但本领域的技术人员将理解在本文中可以在形式和细节方面做出各种改变，而不会脱离本公开的由所附权利要求限定的精神和范围。

Claims

1.一种方法，包括：

通过使用麦克风阵列检测第一声信号；

检测与所述第一声信号的第一入射方向相关联的第一角度；和

在存储器中存储所述第一声信号的表示和所述第一角度的表示。

2.如权利要求1所述的方法，其中，检测所述第一角度包括：

辨认多个角度；和

基于对应的音频信号的能量水平，使所述多个角度中的每一个与对应的音频信号匹配。

3.如权利要求1所述的方法，进一步包括：形成具有所述第一角度的波束，其中所述第一声信号的表示是通过使用所述波束而被产生的。

4.如权利要求1所述的方法，其中，存储所述第一声信号的表示包括存储由所述麦克风阵列中的麦克风中的一个产生的音频信号；并且

其中，存储所述音频信号包括存储所述音频信号的时间信息。

5.如权利要求1所述的方法，其中，所述存储器被进一步配置成存储说话者识别信息，并且所述方法进一步包括：

辨认作为所述第一声信号的声源的第一说话者和作为第二声信号的声源的第二说话者，其中，所述第一说话者和所述第二说话者是基于所述说话者识别信息被辨认的；和

在所述存储器中存储所述第一说话者是所述第一声信号的声源的指示，以及所述第二说话者是所述第二声信号的声源的指示。

6.如权利要求5所述的方法，其中，所述说话者识别信息是通过使用声音快照功能创建的。

7.如权利要求5所述的方法，进一步包括：

输出所述第一角度的第一指示和所述第二角度的第二指示；

响应于对所述第一角度的选择，再现所述第一声信号；和

响应于对所述第二角度的选择，再现所述第二声信号。

8.如权利要求5所述的方法，进一步包括：

输出第一说话者的第一指示和第二说话者的第二指示；

响应于对所述第一说话者的选择，再现所述第一声信号；和

响应于对所述第二说话者的选择，再现所述第二声信号。

9.一种电子装置，包括：

麦克风阵列；

存储器；

扬声器；和

至少一个处理器，其被配置成：

通过使用麦克风阵列检测第一声信号；

10.如权利要求9所述的电子装置，其中，所述至少一个处理器被配置成：

辨认多个角度；和

11.如权利要求10所述的电子装置，其中，所述至少一个处理器被进一步配置成形成具有所述第一角度的波束，其中所述第一声信号的表示是通过使用所述波束产生的。

12.如权利要求9所述的电子装置，其中，所述至少一个处理器被配置成存储由所述麦克风阵列中的多个麦克风中的一个产生的音频信号；并且

其中，所述至少一个处理器被配置成存储所述音频信号的时间信息。

13.如权利要求9所述的电子装置，其中，所述存储器被进一步配置成存储说话者识别信息，并且所述至少一个处理器被进一步配置成：

14.如权利要求13所述的电子装置，其中，所述至少一个处理器被进一步配置成：