CN109756825B - 智能个人助理的位置分类 - Google Patents

智能个人助理的位置分类 Download PDF

Info

Publication number
CN109756825B
CN109756825B CN201811307034.XA CN201811307034A CN109756825B CN 109756825 B CN109756825 B CN 109756825B CN 201811307034 A CN201811307034 A CN 201811307034A CN 109756825 B CN109756825 B CN 109756825B
Authority
CN
China
Prior art keywords
room
sample
stored
response
impulse response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811307034.XA
Other languages
English (en)
Other versions
CN109756825A (zh
Inventor
M.巴加蒂亚
J.M.基尔希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harman International Industries Inc
Original Assignee
Harman International Industries Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harman International Industries Inc filed Critical Harman International Industries Inc
Publication of CN109756825A publication Critical patent/CN109756825A/zh
Application granted granted Critical
Publication of CN109756825B publication Critical patent/CN109756825B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H7/00Measuring reverberation time ; room acoustic measurements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

一种个人助理装置,所述个人助理装置被配置为确定所述个人助理装置的位置并且应用特定于所述位置的设置,可以包括:至少一个扬声器,其被配置为发出刺激噪声;至少一个麦克风,其被配置为获取基于所述刺激噪声的房间样本,所述房间样本包括样本房间脉冲响应;和存储器,其被配置为维持多个房间配置文件,每个房间配置文件都包括房间位置、存储的房间脉冲响应和房间特定响应。处理器可以被配置为接收所述房间样本,将所述样本房间脉冲响应与所述存储的房间脉冲响应中的至少一个进行比较,确定所述样本房间脉冲响应是否与所述存储的房间脉冲响应中的一个匹配,应用与所述匹配的存储的房间脉冲响应的所述房间配置文件相关联的所述房间特定响应。

Description

智能个人助理的位置分类
技术领域
本公开的各方面总体上涉及一种用于执行具有多个不同步骤的连续活动的个人助理。
背景技术
个人助理装置和语音代理装置正变得越来越流行。这些装置可以包括受语音控制的个人助理,其实施人工智能以响应用户音频命令。语音代理装置的一些实例可以包括Amazon Echo和Echo Dot、Google At Home等。这样的语音代理可以使用语音命令作为与其处理器的主接口。可以在装置内的一个或多个麦克风处接收音频命令。然后可以将音频命令传输到处理器以用于实施命令。
发明内容
一种个人助理装置,所述个人助理装置被配置为确定所述个人助理装置的位置并且应用特定于所述位置的设置,可以包括:至少一个扬声器,其被配置为发出刺激;至少一个麦克风,其被配置为获取基于所述刺激的房间样本,所述房间样本包括样本房间脉冲响应;和存储器,其被配置为维持多个房间配置文件,每个房间配置文件包括房间位置、存储的房间脉冲响应和房间特定响应。处理器可以被配置为接收所述房间样本,将所述样本房间脉冲响应与所述存储的房间脉冲响应中的至少一个进行比较,确定所述样本房间脉冲响应是否与所述存储的房间脉冲响应中的一个匹配,应用与所述匹配的存储的房间脉冲响应的所述房间配置文件相关联的所述房间特定响应。
一种个人助理装置,所述个人助理装置被配置为确定所述个人助理装置的位置并且应用特定于所述位置的设置,可以包括:至少一个扬声器,其被配置为发出刺激噪声;至少一个麦克风,其被配置为获取基于所述刺激噪声并且包括样本房间属性的房间样本;和存储器,其被配置为维持多个房间配置文件,每个房间配置文件包括房间位置、存储的房间属性和房间特定响应。处理器可以被配置为接收所述房间样本,将所述样本房间属性与所述存储的房间属性中的至少一个进行比较,确定所述样本房间属性是否与所述存储的房间属性中的一个匹配,并且应用与所述存储的房间属性的所述房间配置文件相关联的所述房间特定响应。
一种用于确定个人助理装置的位置并且应用特定于所述位置的设置的方法可以包括:接收具有样本房间脉冲响应的房间样本;将所述样本房间脉冲响应与先前存储的房间脉冲响应中的至少一个进行比较;确定所述样本房间脉冲响应是否与所述存储的房间脉冲响应中的一个匹配;以及应用与所述匹配的存储的房间脉冲响应相关联的房间特定响应。
附图说明
在所附权利要求中特定地指出了本公开的实施方案。然而,通过结合附图参考以下具体实施方式,各种实施方案的其他特征将变得更显而易见,并且将得到最好的理解,在附图中:
图1示出了根据一个或多个实施方案的包括示例性智能个人助理装置的系统;
图2示出了包括多个房间的示例性家庭;
图3示出了房间配置文件的示例性图表;
图4示出了示例性RIR的示例性图表;和
图5示出了个人助理装置使用分类机制和房间配置文件进行分类或识别的示例性过程。
具体实施方式
根据要求,本文中公开了本发明的详细实施方案;然而应当理解的是,所公开的实施方案仅仅示例性说明可以体现为不同和可选形式的本发明。附图不一定按比例绘制;一些特征可能会被放大或最小化以示出特定部件的细节。因此,本文中公开的具体结构细节和功能细节不应当被解释为是限制性的,而是仅仅作为教导所属领域技术人员以不同方式采用本发明的代表性基础。
个人助理装置可以包括受语音控制的个人助理,其实施人工智能以响应用户音频命令。语音代理装置的一些实例可以包括Amazon Echo和Echo Dot、Google At Home等。这样的语音代理可以使用语音命令作为与其处理器的主接口。可以在装置内的麦克风处接收音频命令。然后可以将音频命令传输到处理器以用于实施命令。在一些实例中,音频命令可以在外部传输到基于云的处理器,诸如Amazon Echo和Dot、Google At Home等使用的那些处理器。
通常,这些个人助理装置是便携式的,并且可以在家中从一个房间移动到另一个房间。个人助理装置的位置可以给出有价值的情境并且使得该装置能够更好地定制其提供的信息。例如,人的音乐偏好可以基于该装置是位于卧室还是家庭健身房而改变。另外地,个人助理装置可以基于装置的位置来不同地解译由用户接收的命令。当装置在后院时接收到命令“让我们做披萨”可以被解译为“让我们订购披萨”。另一方面,当装置在厨房时接收到相同命令可以被解译为“让我们拿出食谱做披萨”。这种基于位置的信息和服务可以为用户提供更好的用户体验。
本文描述了一种系统,该系统被配置为基于在麦克风处获取的房间样本来确定个人助理装置的位置或房间。房间样本包括可以与已知房间响应相当的属性和房间响应。如果房间响应与已知响应匹配,则该装置可以基于与已知响应相关联的房间来认识到其位置。可以使用已知响应将装置分类在相同类别中。这种相对无缝、不难处理的方法允许个人助理装置在整个家中移动并且基于该位置应用基于情境的设置。与使用相机确定房间位置的方法相反,本文公开的系统遭遇较少侵入,允许有更多隐私,并且由于数据量较少而对于计算机来说更容易。此外,通过使用房间响应来识别房间,没有视线的限制。
图1示出了包括示例性智能个人助理装置102的系统100。个人助理装置102通过麦克风104接收音频或其他音频输入,并且通过模数(A/D)转换器106传递音频以由音频处理器108识别或以其他方式处理。音频处理器108还生成语音或其他音频输出,其可以传递通过数模(D/A)转换器112和放大器114以由一个或多个扬声器116再现。个人助理装置102还包括控制器118,该控制器连接到音频处理器108并且被配置为管理各种房间配置文件132。
控制器118还与无线收发器124对接以促进个人助理装置102与通信网络126的通信。在许多实例中,控制器118还连接到一个或多个人机界面(HMI)控件128以接收用户输入,以及连接到显示屏130以提供视觉输出。应当注意的是,说明性系统100仅仅为实例,并且可以使用更多、更少和/或不同位置的元件。
A/D转换器106从麦克风104接收音频输入信号。A/D转换器106将接收到的模拟格式的信号转换为数字格式的数字信号以由音频处理器108进一步处理。
虽然仅示出了一个,但是个人助理装置102中可以包括一个或多个音频处理器108。音频处理器108可以是能够处理音频和/或视频信号的一个或多个计算装置,诸如计算机处理器、微处理器、数字信号处理器或任何其他装置、一系列装置或能够执行逻辑操作的其他机制。音频处理器108可以与存储器110结合地操作以执行存储在存储器110中的指令。指令可以是软件、固件、计算机代码或者它们的某种组合的形式,并且当由音频处理器108执行时,可以提供个人助理装置102的音频识别和音频生成功能。指令还可以在辨识/分类处理接收到的音频之前提供音频清理(例如降噪、滤波等)。存储器110可以是一个或多个数据存储装置的任何形式,诸如易失性存储器、非易失性存储器、电子存储器、磁存储器、光存储器或任何其他形式的数据存储装置。除了指令之外,操作参数和数据也可以存储在存储器110中,诸如用于从文本数据创建语音的语音词汇表。
D/A转换器112从音频处理器108接收数字输出信号,并且将该数字输出信号从数字格式转换为模拟格式的输出信号。然后可以使输出信号可供放大器114或其他模拟部件使用以进行进一步处理。
放大器114可以是接收相对较小幅度的音频输入信号并且输出相对较大幅度的类似音频信号的任何电路或独立装置。音频输入信号可以由放大器114接收并且在到扬声器116的一个或多个连接上输出。除了放大音频信号的振幅之外,放大器114还可以包括移相、调整频率均衡、调整延迟或执行任何其他形式的音频信号操纵或调整以准备提供给扬声器116的信号处理能力。例如,当装置102没有显示屏130或者用户希望进行不涉及观看该装置的交互时,扬声器116可以是主指令介质。信号处理功能可以另外地或可选地在音频处理器108的域内发生。而且,放大器114可以包括调整被提供给扬声器116的音频信号的音量、平衡和/或衰减的能力。控制器118可以基于房间配置文件132来调整被提供给扬声器116的这种音频信号。
在可选实例中,诸如当扬声器116为一组耳机形式时,或者当音频输出通道用作另一个音频装置(诸如音频存储装置或另一音频处理器装置)的输入时,可以省略放大器114。在又其他实例中,扬声器116可以包括放大器114使得扬声器116自供电。
扬声器116可以具有各种尺寸,并且可以在各种频率范围内操作。扬声器116中的每一个可以包括单个换能器,或者在其他情况下可以包括多个换能器。扬声器116还可以在不同的频率范围内操作,诸如超低音扬声器、低音扬声器、中音扬声器和高音扬声器。多个扬声器116可以包括在个人助理装置102中。
控制器118可以包括支持执行本文描述的个人辅助装置102的功能的各种类型的计算设备。在实例中,控制器118可以包括被配置为执行计算机指令的一个或多个处理器120,和可以在其上维护计算机可执行指令和/或数据的存储介质122(或存储装置122)。计算机可读存储介质(也称为处理器可读介质或存储装置122)包括参与提供可以由计算机(例如,由一个或多个计算机120)读取的数据(例如,指令)的任何非暂时性的(例如,有形的)介质。通常,处理器120接收指令和/或数据,例如从存储装置122等接收指令和/或数据到存储器并且使用该数据来执行指令,由此执行一个或多个过程,包括本文描述的过程中的一个或多个。可以根据使用多种编程语言和/或技术创建的计算机程序来编译或解译计算机可执行指令,该多种编程语言和/或技术包括但不限于以下的单一形式或组合形式:Java、C、C++、C#、Assembly、Fortran、Pascal、Visual Basic、Python、Java Script、Perl、PL/SQL等。
如图所示,控制器118可以包括无线收发器124或被配置为促进控制器118与其他联网装置之间通过通信网络126进行的通信的其他网络硬件。作为一种可能性,无线收发器124可以是被配置为通过蜂窝电话网络传送数据的蜂窝网络收发器。作为另一种可能性,无线收发器124可以是Wi-Fi收发器,其被配置为连接到局域无线网络以访问通信网络126。
控制器118可以从人机界面(HMI)控件128接收输入以提供用户与个人助理装置102的交互。例如,控制器118可以与被配置为调用控制器118的功能的一个或多个按钮或其他HMI控制128对接。控制器118还可以驱动被配置为例如通过视频控制器向用户提供视觉输出的一个或多个显示器130或以其他方式与其进行通信。在一些情况下,显示器130(本文也称为显示屏130)可以是还被配置为经由视频控制器接收用户触摸输入的触摸屏,而在其他情况下,显示器130仅仅可以是没有触摸输入能力的显示器。
房间配置文件132包括虚拟助理可能所处的多个位置。例如,房间配置文件132可以包括用于房屋的每个房间(包括厨房、卧室、办公室、家庭健身房、室外空间、客厅等)的配置文件。每个房间都可以与装置102位于该位置处时应用于音频信号的某些音频设置相关联。即,音频设置可以特定于每个位置。例如,与室外空间相关联的起始音乐风格和音量可能比与家庭办公室相关联的起始音乐风格和音量更大。诸如均衡、滤波等其他音频处理属性可以特定于每个位置并且在该位置的房间配置文件内定义。
装置102可以提供各种默认房间响应,诸如模拟厨房或客厅。当用户在他或她的家中启用装置102时,装置102可以粗略地将房间分类为卧室、厨房、客厅等。装置102可以在训练模式下操作并且慢慢地从接收到的房间响应、音频命令中更多地了解房间。另外地或可选地,用户可以通过说“这是我的客厅”来对房间进行分类。
可以通过从个人助理装置的麦克风104收集的房间样本来识别每个房间。可以在装置102启动时收集房间样本。可以从扬声器116发出刺激噪声,并且随后可以记录房间样本。房间样本可以包括大约20秒的记录音频信号,并且可以被传输到处理器120。房间样本可以是20Hz至20kHz的对数频率扫描、宽带随机噪声刺激和/或合成音乐。
在一个实例中,房间样本可以包括独特的房间脉冲响应(RIR)。这些脉冲响应对于每个房间可以是唯一的,因此当装置在各个位置之间移动时用于识别房间。RIR可以包括振幅包络(即,振幅随着时间变化)。房间的RIR可以取决于装置102在房间内的确切位置而略微变化。然而,两个不同房间的RIR可能会有很大差异。因此,由房间样本获取的RIR可以用于分类或识别装置102的房间或位置。例如,可以将房间样本的样本RIR与存储的RIR进行比较。如果样本响应的一定数量的振幅与和已知房间相关联的存储响应的振幅对齐或匹配,则可以基于存储的响应来识别房间。这在本文中更详细地讨论。
在其他示例中,房间样本可以包括房间的显式标识,其中用户说明装置102位于哪个房间,例如在“厨房”。在另一个实例中,可以分析房间样本以确定房间大小,以及识别通常与房间相关联的环境噪声,诸如水流、在办公室打字、在卧室打鼾,或者冰箱运行。
而且,可以具有带多个扬声器的多个麦克风可以用来形成多个麦克风-扬声器对RIR的增强数据集/输入样本。这些RIR中的每一个都可以被馈送到处理器120处的集合分类系统,其中每个分类器得到关于装置102所处的房间202的投票。最终决定通常是这些个别投票的加权结果。可选地,输入样本空间维度可以从N增加到N*M,其中N是单个RIR中的点数(即,单个RIR的维数),而M是麦克风-扬声器对的数量。然后分类器作用于该N*M-D输入空间。这是可能的,因为这些装置102通常具有多个麦克风和扬声器(高音扬声器、超低音扬声器、立体声声道)。
图2示出了包括多个房间202的示例性家庭200。房间202可以包括例如卧室202-1、家庭办公室202-2、厨房202-3、客厅202-4和室外空间或庭院202-5。可以明白并包括各种其他房间和位置。例如,家庭健身房、地下室等也可以包括在家庭200中。
个人助理装置102可以在整个家庭200中从一个房间移动到另一个房间。在图2中所示的实例中,装置102位于家庭办公室202-2内。如上面解释,每个房间202都可以与房间配置文件132相关联。每个房间202都可以具有唯一的RIR。RIR可能受房间布局、大小、窗户数量、天花板高度、通常存在于该特定房间中的各种背景噪声等的影响。处理器120可以通过分析由麦克风104获取的房间样本来导出RIR。
图3示出了房间配置文件132的示例性图表300。每个房间202都可以具有与其相关联的一种或多种分类机制302(或属性302)。例如,一种分类机制302可以包括特定于该房间的存储的RIR 312。分类机制302还可以包括存储的环境噪声314、存储的房间大小316,和用户对存储的房间的专用标识310。这些分类机制302中的每一种都可以用于识别装置102的当前位置。
在个人助理装置启用或通电时,扬声器116可以发出刺激噪声。刺激噪声可以是短的和高频啁啾,或其他爆声。麦克风104可以随后捕获音频响应(即,捕获房间样本)。房间样本可以包括一段时间内的环境噪声。例如,房间样本可以在启用或启动之后记录环境噪声20秒。处理器120可以使用环境噪声来对房间进行分类。处理器120可以基于分类机制302中的一种或多种来对房间进行分类。例如,处理器120可以将房间样本的RIR与房间配置文件132之一的类似房间配置文件匹配。通过对齐RIR,处理器120可以确定装置102最可能在该房间中并且随后应用房间特定响应320。可以连续地或周期性地收集环境噪声。
房间特定响应320可以包括各种响应,其可以具有取决于装置102的位置的不同情境,诸如音频设置322、照明响应324和情境音频输出响应326。音频设置322可以包括音乐变量,诸如音乐的优选风格、起始音量等。音频设置322还可以包括特定于房间的降噪和压缩设置。如上面解释,一种风格的音乐可能是优选的并且通常在家庭办公室202-2中播放,而另一种风格可能在厨房202-3中是优选的。
特定照明响应324还可以与每个房间202相关联。用户可以指示房间中的灯关闭、打开、调暗等。在接收到这样的指令时,个人助理装置102可以向各种灯传输指令以执行接收到的命令。这些照明响应可以限于调整个人助理装置102所处的房间内的灯。例如,当确定个人助理装置102在家庭办公室202-2中时,从用户接收的任何照明命令都可以仅归属于家庭办公室202-2中的灯。
个人助理装置102可以从用户接收其他命令,并且基于特定房间而提供情境音频输出响应326。例如,用户可以说“让我们做披萨”。对该示例性命令的房间特定响应可以取决于个人助理装置102所处的房间202而变化。例如,在厨房中,个人助理装置102可以将该命令解译为表示用户希望制作披萨。装置102进而可以通过规定披萨配方来作出响应。另一方面,如果装置102位于庭院202-5上,则装置102可以提供允许用户订购披萨的响应。例如,装置102可以发出本地披萨外送餐馆的电话号码。
图4示出了用于各种房间202的示例性RIR的示例性图表400。从图表中可以看出,RIR在不同房间之间有所不同,每个房间都具有不同振幅的独特响应。测量可以在略微不同的位置进行,每个位置都在两英尺直径的圆内。例如,厨房测量1、2和3都在彼此两英尺之内。基于由麦克风获取的房间样本,处理器120可以基于接收到的房间样本来识别房间。例如,可以将房间样本的样本RIR的振幅与存储的RIR的振幅进行比较。如果样本响应的一定数量的振幅与和已知房间相关联的存储响应的振幅对齐或匹配,则可以基于存储的响应来识别房间。在一个示例中,如果样本响应与存储的响应匹配的振幅比不匹配更多(即,大多数振幅匹配),则处理器120可以确定响应是类似的,因此可以基于房间配置文件132将房间分类为分配有存储的响应的房间。在另一个实例中,匹配脉冲响应所需的样本的预定义数量可以是有限数,诸如10。在又一实例中,可以基于存储的响应对房间进行分类,该响应与样本响应具有最多振幅匹配。
此外,可以使用采用原始测量RIR的不同频率的振幅的简单k最近邻分类算法。在该实例中,最近的测量RIR与其最近邻之间的欧几里德距离可以用于确定RIR对应于哪个房间标签。此外,处理器120可以仅使用看起来与分类相关的频率,即,在房间之间变化但在房间内没有显著变化的频率。处理器120可以排除高于1kHz的较高频率,因为该区域中的响应可以随着微小的变化而变化。
除了对齐各种存储的RIR的振幅之外,处理器120还可以实施诸如K均值聚类等聚类算法,以及诸如支持向量机(SVM)、神经网络等高级机器学习算法以便对装置102的位置进行分类。
值得注意的是,取决于装置102的放置,RIR可以在房间周围变化。例如,装置102可以放置在墙壁附近以及房间202的中心。RIR匹配算法可以是位置不敏感的以将RIR与存储的响应相关联。使用诸如房间大小316和环境噪声314等附加机制可以帮助对RIR进行分类。处理器120可以学习为同一房间内的不同位置寻找相同的标签。处理器120可以使用(深度神经网络)DNN,房间大小316可能不那么重要,因为预计DNN会了解房间大小。多个存储的响应可以与单个房间相关联,因此每个响应都能够捕获该房间的不同位置。
房间大小316可以由房间中与房间周围的墙壁对应并且与房间的大小相关联的离散回波来确定。在考虑房间大小316之后,回响尾部的持续时间可以指示空间的平滑度和声反射率(例如,塞满家具的房间将具有比其中没有家具的房间更短的回响尾部。同样地,由硬木制成的房间的尾部比地板和墙壁都铺有地毯和窗帘的房间更长)。
图5示出了个人助理装置102使用分类机制302和房间配置文件132进行分类或识别的示例性过程500。
过程500开始于框502。在框502处,处理器120从麦克风104接收房间样本。如上面解释,房间样本可以是在装置102通电时由麦克风104捕获的音频信号。麦克风104可以捕获房间样本持续预定时间量。在一个实例中,预定时间量可以是大约三秒。处理器120可以从麦克风104接收房间样本。
在框504处,处理器120可以基于接收到的房间样本来识别房间。如上面关于图3所解释的若干属性或分类机制302可以用于识别房间。以下关于框510、520、530和540更详细地描述这些属性302。通常,处理器120可以将经由来自麦克风的房间样本接收的样本属性与存储的属性302进行比较。在将样本属性与存储的属性中的一个匹配时,处理器120然后可以应用房间配置文件132和与匹配的属性相关联的相关房间特定响应320。
在框504内,处理器120在框510处可以确定房间样本是否包括房间的专用标识。专用标识可以包括用户所说的房间名称。例如,在启动时,用户可以说“在厨房中”或“办公室”。处理器120可以将用户的这种专用标识辨识为家中的房间或位置的典型名称。如果处理器120辨识专用标识,则过程500前进到框512。如果否,则过程500进行到框520。
在框512处,处理器120可以确定专用标识是否与图表300内的房间配置文件132内的存储的标识中的一个匹配。例如,处理器120可以在辨识命令“厨房”时辨识并识别厨房202-3的房间配置文件。另一方面,如果专用标识包括诸如“地下室”等短语或名称,则处理器120可能无法辨识房间配置文件,因为该专用标识与存储的标识中的一个不匹配。如果处理器120辨识或匹配专用标识与房间配置文件132内的房间的专用标识,则过程500前进到框514。如果否,则过程500进行到框520。
在框514处,响应于将专用标识与房间配置文件132之一的存储的标识匹配,处理器120可以基于该房间配置文件来识别或分类房间。
在框516处,处理器120可以应用与匹配的房间配置文件132相关联的房间特定响应320。因此,在上面的实例中,可以应用与厨房相关联的房间响应320以提供情境的、特定于房间的信息和响应。
在框520处,处理器120可以分析房间样本的RIR。这可以包括确定房间样本的对数扫描的某些振幅。
在框522处,处理器120可以确定房间样本的RIR是否与房间配置文件132的存储的RIR匹配。如上面解释,这可以基于样本RIR和存储的RIR的振幅。如果样本RIR与存储的RIR中的一个匹配,则过程500前进到框524。如果否,则过程500进行到框530。
在框524处,响应于将RIR与房间配置文件132的存储的RIR匹配,处理器120可以基于存储的RIR的房间配置文件来识别房间。
在框530处,处理器120可以分析房间样本的环境噪声。如所解释的,可以识别某些环境噪声,诸如冰箱运行、水流等。如果处理器120确定房间样本包括可辨识的环境噪声,则过程500前进到框532。如果否,则过程进行到框540。
在框532处,处理器120可以确定房间配置文件中的任一个是否包括这样的环境噪声或与这样的环境噪声相关联。例如,处理器120可以确定房间样本包括类似于冰箱运行的噪声。因此,环境噪声可以与厨房202-3相关联。如果处理器120将所识别的环境噪声与房间配置文件132之一匹配,则过程500前进到框534。如果否,则过程500进行到框540。
在框534处,响应于将环境噪声与存储的环境噪声匹配,处理器120可以基于匹配的环境噪声的房间配置文件132来识别房间。
在框540处,处理器120可以基于房间样本来确定房间的大小。如上面解释,可以从初始反射的定时推断出房间的大小。反射越早,房间就越小。
在框542处,处理器120可以确定房间大小是否与存储的房间大小匹配。如果是,则过程500进行到框544。如果否,则过程进行到框518。
在框544处,响应于将房间大小与存储的房间大小匹配,处理器120可以基于匹配的房间大小的房间配置文件132来识别房间。
在框518处,响应于未能基于房间样本识别房间,处理器120可以基于房间样本创建新的房间配置文件。即,可以创建新房间202,并且房间响应320可以是由房间样本获取的那些房间响应。
在参考框504以及框510、520、530和540的机制302时,可以使用这些机制302中的一种或多种来确定装置102的位置。虽然过程500示出了在一种机制不能用于识别房间之后使用另一种机制(例如参见框512、522和524),但是也可以同时或几乎同时使用两种或两种以上机制302来验证房间标识并提高准确性。使用一种以上机制302允许处理器120增加分类的确定性。
在另一个实例中并且类似于图5中所示的实例,可以在存储装置中定义和维护机制302的层级。例如,处理器120可以首先查看专用标识以识别房间。接下来,处理器120可以查看RIR,然后查看环境噪声,然后查看房间大小。
处理器120还可以形成推导分析。即,通过消除过程,处理器120可以估计或推导装置102所处的房间。例如,如果经由房间样本接收的环境噪声不包括冰箱运行,则可以排除厨房等。虽然上面描述的房间样本是在房间分类之前获取的,但是房间样本可以是持续或定期获取的。环境噪声可能会随时间而变化。例如,冰箱可能不连续运行,因此冰箱运行的声音可能不包括在初始房间样本中。然而,在几分钟之后,冰箱可能会运行,因此随后的房间样本可以识别该环境噪声以用于分类目的。
因此,虚拟助理装置可以给出房间特定的和高度针对性的响应。通过分析房间样本,该装置可以确定可能的位置或房间并且调整其响应,包括对命令、音频设置等的可听答案。
虽然上文描述了示例性实施方案,但是并不意图这些实施方案描述本发明的所有可能形式。相反,本说明书中所使用的字词为描述性而非限制性的字词,并且应当理解的是,可以在不脱离本发明的精神和范围的情况下做出各种改变。另外地,可以组合各种实现实施方案的特征以形成本发明的另外实施方案。

Claims (17)

1.一种个人助理装置,所述个人助理装置被配置为确定所述个人助理装置的位置并且应用特定于所述位置的设置,所述个人助理装置包括:
至少一个扬声器,其被配置为发出刺激噪声;
至少一个麦克风,其被配置为获取基于所述刺激噪声的房间样本,所述房间样本包括样本房间脉冲响应;
存储器,其被配置为维持多个房间配置文件,每个房间配置文件包括房间位置、存储的房间脉冲响应和房间特定响应;
处理器,其被配置为:
接收所述房间样本;
将所述样本房间脉冲响应与所述存储的房间脉冲响应中的至少一个进行比较;
确定所述样本房间脉冲响应是否与所述存储的房间脉冲响应中的一个匹配, 其中所述房间特定响应包括基于所匹配的存储的房间脉冲响应的所述房间配置文件在所述麦克风处的情境音频输出响应;
基于所匹配的存储的房间脉冲响应确定所述个人助理装置的位置;以及
将与所匹配的存储的房间脉冲响应的所述房间配置文件相关联的所述房间特定响应应用于用户命令,以便生成所述情境音频输出响应中的一个,其中所述个人助理装置基于所述个人助理装置的位置,结合取决于所述位置的所述情境音频输出响应,来不同地解释用户命令。
2.如权利要求1所述的装置,其中所述房间样本包括预定时间量的对数频率扫描。
3.如权利要求1所述的装置,其中所述样本房间脉冲响应包括随时间变化的多个振幅。
4.如权利要求3所述的装置,其中所述处理器还被配置为响应于所述样本房间脉冲响应的预定义量的振幅与所存储的房间脉冲响应的振幅匹配而确定所述样本房间脉冲响应与所存储的房间脉冲响应中的一个匹配。
5.如权利要求3所述的装置,其中所述处理器还被配置为响应于所述样本房间脉冲响应的大多数振幅与所存储的房间脉冲响应的振幅匹配而确定所述样本房间脉冲响应与所存储的房间脉冲响应中的一个匹配。
6.如权利要求1所述的装置,其中所述房间特定响应包括特定于所匹配的存储的房间脉冲响应的所述房间配置文件的音频设置。
7.一种个人助理装置,所述个人助理装置被配置为确定所述个人助理装置的位置并且应用特定于所述位置的设置,所述个人助理装置包括:
至少一个扬声器,其被配置为发出刺激噪声;
至少一个麦克风,其被配置为获取基于所述刺激噪声并且包括样本房间属性的房间样本;
存储器,其被配置为维持多个房间配置文件,每个房间配置文件包括房间位置、存储的房间属性和房间特定响应;
处理器,其被配置为:
接收所述房间样本;
将所述样本房间属性与所述存储的房间属性中的至少一个进行比较;
确定所述样本房间属性是否与所述存储的房间属性中的一个匹配,其中所述房间特定响应包括基于所匹配的存储的样本房间属性的所述房间配置文件在所述麦克风处的情境音频输出响应;
基于所匹配的存储的样本房间属性确定所述个人助理装置的位置;以及
将与所匹配的存储的样本房间属性的所述房间配置文件相关联的所述房间特定响应应用于用户命令,以便生成所述情境音频输出响应中的一个,其中所述个人助理装置基于所述个人助理装置的位置,结合取决于所述位置的所述情境音频输出响应,来不同地解释用户命令。
8.如权利要求7所述的装置,其中所述房间样本包括预定时间量的对数频率扫描。
9.如权利要求7所述的装置,其中所述样本房间属性包括样本房间脉冲响应。
10.如权利要求9所述的装置,其中所述样本房间脉冲响应包括随时间变化的多个振幅。
11.如权利要求10所述的装置,其中所述处理器还被配置为响应于所述样本房间脉冲响应的预定义量的振幅与所存储的样本房间属性的振幅匹配而确定所述样本房间属性与所存储的样本房间属性之一匹配。
12.如权利要求10所述的装置,其中所述处理器还被配置为响应于所述样本房间脉冲响应的大多数振幅与所存储的样本房间属性的振幅匹配而确定所述样本房间属性与所存储的样本房间属性之一匹配。
13.如权利要求7所述的装置,其中所述房间特定响应包括特定于所匹配的存储的样本房间属性的所述房间配置文件的音频设置。
14.一种用于确定个人助理装置的位置并且应用特定于所述位置的设置的方法,包括:
配置维持多个房间配置文件,每个房间配置文件包括房间位置、存储的房间脉冲响应和房间特定响应;
接收具有样本房间脉冲响应的房间样本;
将所述样本房间脉冲响应与先前存储的房间脉冲响应中的至少一个进行比较;
确定所述样本房间脉冲响应是否与所述存储的房间脉冲响应中的一个匹配,其中所述房间特定响应包括基于所匹配的存储的房间脉冲响应在麦克风处的情境音频输出响应;
基于所匹配的存储的房间脉冲响应确定所述个人助理装置的位置;以及
将与匹配的存储的房间脉冲响应相关联的房间特定响应应用于用户命令,以便生成所述情境音频输出响应中的一个,其中所述个人助理装置基于所述个人助理装置的位置,结合取决于所述位置的所述情境音频输出响应,来不同地解释用户命令。
15.如权利要求14所述的方法,其中所述样本房间脉冲响应包括随时间变化的多个振幅。
16.如权利要求15所述的方法,其中确定所述样本房间脉冲响应是否与所存储的房间脉冲响应中的一个匹配包括确定所述样本房间脉冲响应的预定义量的振幅是否与所存储的房间脉冲响应的振幅匹配。
17.如权利要求15所述的方法,其中确定所述样本房间脉冲响应是否与所述存储的房间脉冲响应中的一个匹配包括确定所述样本房间脉冲响应的大多数振幅是否与所存储的房间脉冲响应的振幅匹配。
CN201811307034.XA 2017-11-08 2018-11-05 智能个人助理的位置分类 Active CN109756825B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/807,137 2017-11-08
US15/807,137 US10458840B2 (en) 2017-11-08 2017-11-08 Location classification for intelligent personal assistant

Publications (2)

Publication Number Publication Date
CN109756825A CN109756825A (zh) 2019-05-14
CN109756825B true CN109756825B (zh) 2022-04-26

Family

ID=64267471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811307034.XA Active CN109756825B (zh) 2017-11-08 2018-11-05 智能个人助理的位置分类

Country Status (4)

Country Link
US (1) US10458840B2 (zh)
EP (1) EP3484183B1 (zh)
KR (1) KR20190052628A (zh)
CN (1) CN109756825B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10602276B1 (en) * 2019-02-06 2020-03-24 Harman International Industries, Incorporated Intelligent personal assistant
CN110853657B (zh) * 2019-11-18 2022-05-13 北京小米智能科技有限公司 空间划分方法、装置及存储介质
US11769090B2 (en) * 2020-08-13 2023-09-26 Marco Rayburn Arms Electronic project management system
WO2022234871A1 (ko) * 2021-05-04 2022-11-10 엘지전자 주식회사 음장 제어 장치 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1711802A (zh) * 2002-11-21 2005-12-21 德商弗朗霍夫应用研究促进学会 脉冲响应决定装置及方法和音件呈现装置及方法
CN103596265A (zh) * 2013-11-19 2014-02-19 无锡赛睿科技有限公司 一种基于声音测距和移动向量的多用户室内定位方法
CN105223547A (zh) * 2015-10-13 2016-01-06 四川星网云联科技有限公司 一种IOS设备的集中式Wifi室内定位方法
CN105792090A (zh) * 2016-04-27 2016-07-20 华为技术有限公司 一种增加混响的方法与装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8126172B2 (en) 2007-12-06 2012-02-28 Harman International Industries, Incorporated Spatial processing stereo system
US9031268B2 (en) 2011-05-09 2015-05-12 Dts, Inc. Room characterization and correction for multi-channel audio
US9332363B2 (en) 2011-12-30 2016-05-03 The Nielsen Company (Us), Llc System and method for determining meter presence utilizing ambient fingerprints
US9449613B2 (en) * 2012-12-06 2016-09-20 Audeme Llc Room identification using acoustic features in a recording
CN104936651B (zh) * 2013-01-30 2018-01-26 领先仿生公司 对用于使耳蜗植入系统适应患者的定制声学场景进行渲染的系统和方法
US9633671B2 (en) * 2013-10-18 2017-04-25 Apple Inc. Voice quality enhancement techniques, speech recognition techniques, and related systems
WO2015182956A1 (en) * 2014-05-29 2015-12-03 Samsung Electronics Co., Ltd. Method and device for generating data representing structure of room
US9772817B2 (en) * 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
EP3337186A1 (en) * 2016-12-16 2018-06-20 GN Hearing A/S Binaural hearing device system with a binaural impulse environment classifier

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1711802A (zh) * 2002-11-21 2005-12-21 德商弗朗霍夫应用研究促进学会 脉冲响应决定装置及方法和音件呈现装置及方法
CN103596265A (zh) * 2013-11-19 2014-02-19 无锡赛睿科技有限公司 一种基于声音测距和移动向量的多用户室内定位方法
CN105223547A (zh) * 2015-10-13 2016-01-06 四川星网云联科技有限公司 一种IOS设备的集中式Wifi室内定位方法
CN105792090A (zh) * 2016-04-27 2016-07-20 华为技术有限公司 一种增加混响的方法与装置

Also Published As

Publication number Publication date
EP3484183B1 (en) 2021-08-11
EP3484183A1 (en) 2019-05-15
CN109756825A (zh) 2019-05-14
US20190141449A1 (en) 2019-05-09
US10458840B2 (en) 2019-10-29
KR20190052628A (ko) 2019-05-16

Similar Documents

Publication Publication Date Title
CN109756825B (zh) 智能个人助理的位置分类
US11551669B2 (en) Locally distributed keyword detection
US11138975B2 (en) Locally distributed keyword detection
CN110268470B (zh) 音频设备滤波器修改
US11809775B2 (en) Conversation assistance audio device personalization
JP2021516790A (ja) ニューラルネットワークモデルを用いた選択的ウェイクワード検出のシステム及び方法
US20170055075A1 (en) Dynamic calibration of an audio system
US11721337B2 (en) Proximity aware voice agent
US11096005B2 (en) Sound reproduction
US20230319190A1 (en) Acoustic echo cancellation control for distributed audio devices
US11771866B2 (en) Locally distributed keyword detection
US10602276B1 (en) Intelligent personal assistant
JP2022544066A (ja) マルチモーダルスマートオーディオデバイスシステムのアテンティブネス表現
WO2020105466A1 (ja) 情報処理装置、及び情報処理方法
RU2818982C2 (ru) Управление акустической эхокомпенсацией для распределенных аудиоустройств
JP2021510048A (ja) 音声制御マルチメディアデバイス
EP4149120A1 (en) Method, hearing system, and computer program for improving a listening experience of a user wearing a hearing device, and computer-readable medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant