CN117806518A - 源自触摸的声音配置文件感测系统和方法 - Google Patents

源自触摸的声音配置文件感测系统和方法 Download PDF

Info

Publication number
CN117806518A
CN117806518A CN202311285558.4A CN202311285558A CN117806518A CN 117806518 A CN117806518 A CN 117806518A CN 202311285558 A CN202311285558 A CN 202311285558A CN 117806518 A CN117806518 A CN 117806518A
Authority
CN
China
Prior art keywords
sound
spectrogram
touch input
touch
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311285558.4A
Other languages
English (en)
Inventor
凯文·诺比·安德森
巴勃罗·马丁内斯-努埃沃
米克卢·西尔万托
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ban Anou
Original Assignee
Ban Anou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ban Anou filed Critical Ban Anou
Publication of CN117806518A publication Critical patent/CN117806518A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/043Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means using propagating acoustic waves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/1633Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
    • G06F1/1684Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/1633Constructional details or arrangements of portable computers not specific to the type of enclosures covered by groups G06F1/1615 - G06F1/1626
    • G06F1/1684Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675
    • G06F1/1694Constructional details or arrangements related to integrated I/O peripherals not covered by groups G06F1/1635 - G06F1/1675 the I/O peripheral being a single or a set of motion sensors for pointer control or gesture input obtained by sensing movements of the portable computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/041Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
    • G06F3/0416Control or interface arrangements specially adapted for digitisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2200/00Indexing scheme relating to G06F1/04 - G06F1/32
    • G06F2200/16Indexing scheme relating to G06F1/16 - G06F1/18
    • G06F2200/163Indexing scheme relating to constructional details of the computer
    • G06F2200/1636Sensing arrangement for detection of a tap gesture on the housing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种用于检测一个或更多个声音配置文件的设备兼容系统,一个或更多个声音配置文件中的每一个包括根据与触摸输入相关联的声音产生的至少一个声谱图并且被映射至设备的控制操作,该系统包括换能器和处理器。换能器可以检测由触摸表面产生的声音,并且根据检测到的声音产生电信号。处理器被配置成从换能器接收电信号,将接收到的电信号转换成声谱图,使用图像识别来确定声谱图满足或超过对于一个或更多个声音配置文件中的一个声音配置文件的相似性阈值,以及基于所确定的声音配置文件所映射至的控制操作来改变设备的至少一个特性。

Description

源自触摸的声音配置文件感测系统和方法
技术领域
本公开内容的实施方式总体涉及声波感测的领域。特别地,本公开内容涉及用于识别由触摸输入产生的声音配置文件的系统和方法,该系统和方法随后可以用于控制设备。
背景技术
存在各种各样的用于捕捉用户输入的设备,包括按钮、滑块键盘、鼠标、触摸屏等。这些设备通常允许用户提供输入以执行各种操作,并且经常与用户接口(UI)结合使用。因此,这些设备通常要求用户直接与设备交互或保持与显示设备的视线联系。
触摸屏通常结合了输入设备和显示设备的功能。传统上,触摸屏使用电容和电阻触摸检测技术来记录输入。为了采用电容式触摸技术,玻璃面板通常涂覆有能够保持对人类手指/皮肤或触控笔或类似设备敏感的电荷的材料。通过对由触摸引起的电荷变化进行检测,可以检测触摸位置。在一些电容型触摸感测系统中,用于检测触摸的边缘电场可以延伸超过显示器的表面,并且可以在不实际触摸表面的情况下检测接近表面的对象。然而,由于导电的、电漂浮的对象(例如,水滴)与触敏表面接触,这样的电容型触摸系统通常经受降低的性能。为了采用电阻式触摸技术,玻璃面板经常涂覆有多个导电层,当物理压力施加到面板上时,这些导电层基于导电层的触摸来记录输入。电阻式触摸技术的缺点包括无法支持多点触摸手势、在阳光直射下能见度低、成本、以及耐用性差。
其他类型的触摸检测技术包括声波脉冲识别和表面声波技术。声波脉冲识别系统包括附接至触摸屏玻璃边缘的换能器,换能器记录由于触摸而在玻璃上发出的声音。这样的系统的一个已知问题是,表面玻璃可能会拾取其他外部声音和振动,这会降低系统的准确性和有效性。表面声波技术的功能是以引导模式发送超声波,以使用反射器检测触摸屏上的触摸。实现这样的超声波引导模式可能是昂贵且困难的。此外,使用这些输入方法检测诸如多点触摸输入的特定输入类型,可能是困难的,甚至是不可能的。
最终,触摸输入的传统方法通常依赖于用户与通信地耦接至系统或设备的特定表面或触摸屏进行交互。这些触摸检测技术通常需要被专门配置成交互式的大量的表面区域,这对于诸如耳塞式耳机的小型设备来说是不切实际的。此外,触摸屏可以显著增加生产设备的成本,特别是当包含相对复杂的方法(例如表面声波技术)时。
发明内容
因此,需要不依赖于活动表面的检测触摸输入的系统和方法。
在一个方面,本公开内容提供用于检测一个或更多个声音配置文件的设备兼容系统,一个或更多个声音配置文件中的每一个包括根据与触摸输入相关联的声音产生的至少一个声谱图并且被映射至设备的控制操作,该系统包括至少一个换能器和至少一个处理器。至少一个换能器可以检测由触摸表面产生的声音,并且根据检测到的声音产生电信号。至少一个处理器被配置成从至少一个换能器接收电信号,将所接收到的电信号转换成声谱图,使用图像识别来确定声谱图满足或超过对于一个或更多个声音配置文件中的一个声音配置文件的相似性阈值,并且基于所确定的声音配置文件所映射至的控制操作来改变设备的至少一个特性。
在实施方式中,至少一个换能器被设置在具有壳体的收听设备中或靠近收听设备,壳体包括如本文所定义的一个或更多个活动表面和一个或更多个非活动表面,其中非活动表面不具有电容或压力感测能力。在一些实施方式中,一个或更多个非活动表面位于壳体的外部,并且被雕刻、被标识或被纹理化,并且该确定可以部分地基于一个或更多个非活动表面。在实施方式中,至少一个换能器的位置相对于壳体是已知的,并且该确定部分地基于该位置。
在实施方式中,该确定部分地基于收听设备的一个或更多个设备特性。
根据实施方式,至少一个换能器可以被配置成仅在接收到主动收听指令时对声音进行检测。
在实施方式中,该确定基于如下阶段中的一个或更多个:表示用户在触摸输入期间与表面进行接触的接触阶段、表示用户在触摸输入期间持续与表面接触的移动阶段和表示用户在触摸输入期间停止与表面接触的离开阶段。该确定还可以部分地基于来自先前检测到的声音的前述声谱图是否没能满足或超过一个或更多个声音配置文件中的所有声音配置文件的相似性阈值。
在实施方式中,至少一个处理器还被配置成更新所确定的声音配置文件以包括声谱图。
在第二方面,本公开内容提供了一种用于检测一个或更多个声音配置文件的设备兼容方法,一个或更多个声音配置文件中的每一个包括根据与触摸输入相关联的声音产生的至少一个声谱图并且被映射至设备的控制操作。该方法包括检测由触摸表面产生的声音,根据检测到的声音产生电信号,以及将电信号发送至处理器。该方法还包括,将接收到的电信号在处理器处转换成声谱图,使用图像识别来确定声谱图满足或超过对于一个或更多个声音配置文件中的一个声音配置文件的相似性阈值,以及基于所确定的声音配置文件所映射至的控制操作来改变设备的至少一个特性。
在实施方式中,表面是收听设备的非活动壳体的一部分,非活动壳体不具有电容或压力感测表面。表面可以是被雕刻、被标识或被纹理化的非活动壳体的外表面。
在实施方式中,该确定可以部分地基于表面的类型或纹理。该确定还可以部分地基于收听设备的类型。
在实施方式中,该方法还包括在对声音进行检测之前接收主动收听指令。
上面的发明内容并非旨在对本文主题的每个示出的实施方式或每个实现方式进行描述。下面的附图和详细描述更具体地举例说明了各种实施方式。
附图说明
结合附图考虑以下各种实施方式的详细描述,可以更全面地理解其主题,在附图中:
图1是根据实施方式的对使用声音的触摸输入进行处理的系统的框图。
图2是根据实施方式的使用声音的触摸输入的方法的流程图。
图3A是根据实施方式的“轻击”的触摸输入的声谱图。
图3B是根据实施方式的“滑动”的触摸输入的声谱图。
图4是根据实施方式的包括六个并发麦克风信号的声谱图的图。
虽然各种实施方式可修改为各种变型和替选形式,但是其细节已经在附图中通过示例的方式示出,并且将被详细描述。然而,应当理解,意图并非是将所要求保护的发明限制于所描述的特定实施方式。相反,意图是涵盖落入权利要求书所限定的主题的精神和范围内的所有修改、等同物和替代方案。
具体实施方式
本公开内容涉及一种系统和方法,用于识别由触摸输入所生成的声音,该声音然后可以用于控制设备。这是通过应用图像识别来将所检测到的声音的声谱图与关联于特定触摸输入或触摸输入的类型的声音配置文件进行匹配来实现的。在实施方式中,可以通过将机器学习算法(MLA)应用于图像识别处理来完成匹配处理。
本公开内容的实施方式可操作以对与触摸输入相关联的声音配置文件进行检测和分类,而不依赖于诸如电容触摸检测、电阻触摸检测、声波脉冲识别和表面声波技术的传统触摸检测手段。因此,本公开内容可操作用于非活动表面或设备壳体。如本文中所使用的,术语“活动”被定义为被配置成检测人类触摸的表面,而术语“非活动”被定义为不是电容式、压敏式或以其他方式被布置成通过传递信号来检测触摸的表面。
参照图1,根据实施方式,描绘了用于对使用声音的触摸输入进行接收和处理的系统100的框图。系统100可以用于接收对一个或更多个设备的用户输入,并且通常包括用户设备102、网络104和至少一个数据源106。
用户设备102通常包括处理器108、存储器110和至少一个换能器112。用户设备102的示例包括扬声器、头戴式耳机、耳塞式耳机、智能手机、平板电脑、膝上型计算机、可穿戴设备、其他消费电子设备或用户设备(UE)等。为了方便起见,术语“用户设备”将遍及本文使用,但是对于可以实施用户设备102的设备或任何设备的实际特征、特性或组成没有限制。
用户设备102可以包括具有活动表面和非活动表面中的一者或二者的壳体。值得注意的是,不论用户设备102的壳体如何,都可以实现与本公开内容的触摸输入相关联的声音配置文件的检测和分类。也就是说,用户设备102的壳体可以是完全非活动的。用户设备102的壳体也可以是活动表面与非活动表面的组合。因此,通过本公开内容的实施方式实现的一个益处是相对于用户设备102的至少壳体的结构和/或材料自由。由于声音配置文件不依赖于电容或信号的传递,因此可以将可能对电容产生干扰的金属和其他材料结合到用户设备的壳体中。结合非活动表面以用于触摸识别的其他益处包括系统简化和成本降低。与诸如将活动表面加装至现有产品的替选方案相比,使用非活动表面来扩展用户可以控制现有产品和与现有产品交互的方式,可以显著节省成本。本公开内容的实施方式可以利用现有换能器112而无需任何另外的重新配置。
处理器108可以是接受数字数据作为输入的任何可编程设备,处理器108被配置成根据指令或算法处理输入并提供结果作为输出。在实施方式中,处理器108可以是被配置成执行计算机程序的指令的中央处理单元(CPU)或微控制器或微处理器。处理器108因此被配置成至少执行基本的算术、逻辑和输入/输出操作。
存储器110可以包括如耦接的处理器108所要求的易失性或非易失性存储器,以便不仅提供空间来执行指令或算法,而且提供空间来存储指令本身。在实施方式中,易失性存储器可以包括例如随机存取存储器(RAM)、动态随机存取存储器(DRAM)或静态随机存取存储器(SRAM)。在实施方式中,非易失性存储器可以包括例如只读存储器、闪存、铁电RAM、硬盘或光盘存储器。上述列表决不限制可使用的存储器的类型,因为这些实施方式仅以示例方式给出且不旨在限制本公开内容的范围。
换能器112是指能够感测、检测或记录声音以产生电信号的任何装置。换能器112可以是心型、全向或双向麦克风。在实施方式中,换能器112可以是单个麦克风或包括多个麦克风的麦克风阵列。在一些实施方式中,换能器112可以是压电换能器。在又一些实施方式中,换能器112可以组合其他类型的声波传感器或者传感器或设备的组合,这些传感器或设备一起可以感测声音、压力或与从表面上的触摸产生的可听见或不可听见(相对于人类听觉的灵敏度)的声音相关的其他特性。这样的不可听见的声音可以包括超声。换能器112可以被配置成记录和存储数字声音或从捕获的声音导出的数据。由换能器112产生的任何信号都可以被发送至处理器108用于分析。
尽管在一些实施方式中将换能器112布置在相对于壳体或壳体的一部分的已知位置是有益的,但系统100可以与换能器112的数量或类型无关地被实现。在实施方式中,换能器112可以在活动壳体的内部或外部,或者在独立于期望控制操作的用户设备的壳体中存储。例如,换能器112可以位于耳塞式耳机容器内,并且被配置成根据用户向耳塞式耳机容器提供触摸输入来估计声音配置文件,以便控制接近但物理上解耦的一对耳塞式耳机。因为来自设备布置的感知声音的差异可以被降低或以其他方式减少,所以换能器112相对于壳体的位置可以实现更准确的跨设备声音配置文件。在实施方式中,换能器112可以被配置成检测范围从20Hz到100kHz的声音频率。在实施方式中,换能器112可以被配置成检测范围从20Hz到20kHz的声音频率。在实施方式中,换能器112可以被配置成检测范围从20kHz到100kHz的超声频率。在实施方式中,检测到的频率可以跨可听见的范围和超声范围,并且可以大得多。
用户设备102可以包括其他特征、设备和子系统,例如包括各种引擎或工具的输入/输出引擎或声音处理引擎,引擎或工具中的每一个都经过构造、编程、配置或其他调整,以自主执行功能或功能集。本文使用的术语“引擎”被限定为使用硬件例如通过专用集成电路(ASIC)或现场可编程门阵列(FPGA)实现的真实设备、组件或组件的布置,或者被限定为例如通过微处理器系统和将引擎适应为实现特定功能的程序指令组实现的硬件和软件的组合,该程序指令组(在被执行时)将微处理器系统转换为专用设备。引擎也可以被实现为具有由硬件单独促进的某些功能以及由硬件和软件的组合促进的其他功能的两者的组合。在某些实现方式中,并且在一些情况下,引擎的至少一部分、全部可以在由执行操作系统的硬件(例如,一个或更多个处理器、诸如存储器或驱动器存储器的数据存储设备、诸如网络接口设备、视频设备、键盘、鼠标或触摸屏设备等的输入/输出设备)、系统程序和应用程序所组成的一个或更多个计算平台的处理器上执行,同时也在适当时使用多任务、多线程、分布式(例如,集群、对等体、云等)处理或其他此类技术来实现引擎。因此,处理器108的一些或全部功能可以在各种物理上可实现的配置中跨引擎执行,并且不应限于本文中例示的任何特定实现,除非明确指出了这样的限制。
用户设备102被配置成经由有线或无线连接提供与网络104的双向数据通信。处理器108的输入/输出引擎的具体设计和实现可以取决于用户设备102要在其上进行操作的通信网络。用户设备102可以经由网络104访问来自至少一个数据源106的存储数据。
数据源106可以是通用数据库管理存储系统(DBMS)或关系型DBMS,其由例如Oracle、IBM DB2、Microsoft SQL Server、PostgreSQL、MySQL、SQLite、Linux或Unix解决方案来实现,这些数据库管理存储系统被训练成解释与触摸输入的声音配置文件相对应的声谱图。数据源106可以存储一个或更多个训练数据集,该训练数据集被配置成方便未来对捕获的声谱图中的声音配置文件进行图像识别。在实施方式中,数据源106可以基于检测到的声音配置文件的阶段(例如触摸输入的接触、移动和离开)来对训练数据集进行排序或实现训练数据集。在实施方式中,数据源106可以是用户设备102本地的,使得不需要连接至网络104。
数据源106的一个目的是存储多个声谱图,这些声谱图是表示随着时间的推移在特定波形中呈现的各种频率下信号的信号强度或“响度”的视觉方式。声谱图提供了更多或更少的能量的存在的视觉表示以及能量水平如何随着时间的推移而变化的视觉表示。这些视觉表示可以是对检测到的声音进行比较和分析的有效方式。声谱图可以被描述为热图,即通过改变颜色或亮度来显示强度的图像。
用户触摸表面可以产生声谱图。用户触摸可以以可识别的图案或触摸输入(例如,“滑动”、“双击”、“画圈”)进行,这些触摸会产生不同的声音。随后可以将这些声音转换成声谱图,并将其保存在与特定触摸输入相关联的声音配置文件中。可以通过稳健的样本大小来学习特定的声音配置文件内所检测到的声音的变化,例如由于不同的表面材料和换能器与表面之间的距离引起的变化。
本公开内容的发明人已经认识到,随着时间的推移,触摸输入通常具有类似的能级。例如,通常,表面上的横向“滑动”触摸会产生声音,当这些声音被转换成声谱图时,它们都具有共同的视觉特征。在实施方式中,通过对这些视觉特征进行图像识别人,工智能(AI)或MLA可以被训练成识别触摸输入的声谱图。
与特定触摸输入相关联的声谱图的视觉特征可以通过机器学习方法(诸如,例如神经网络)手动地或自动地提取,以产生声音配置文件的声谱。随后,可以将每个都包含与特定触摸输入相关联的一系列视觉特征的声音配置文件存储在数据源106中,用于将来与被检测到的声音的声谱图进行图像识别比较。这样的比较可以通过使用相关性或机器学习回归算法计算相似性度量来实现。例如,如果声谱图与声音配置文件的相似性高于某个阈值(例如,75%、90%、95%或99%的相似性),则匹配处理可以确定声谱图表示与声音配置文件相关联的触摸输入。
在实施方式中,MLA可以从声谱图的特定部分提取视觉特征以更好地比较触摸输入的阶段。例如,触摸输入可以分为接触、移动和离开的触摸表面的三个不同的阶段,并且可以使用图像识别将这些阶段中的每一个阶段与训练的声音配置文件进行单独地比较。通过对外围数据(例如,用户的手指在运动阶段期间无意中滑动)的影响进行限制,在一些情况下将图像识别分析进行划分可以提高准确性。
MLA技术可以应用于有标记的(有监督的)或未标记的(未监督的)声谱图数据。此外,分类器可以接收诸如设备的类型(例如,扬声器和头戴式耳机可以具有不同的参数或声音检测能力)和产生触摸输入的表面的类型的参数。采用这样的分类器的原因包括识别换能器相对于用户设备的壳体的位置或存在的换能器的数量。
在操作中,产生的电信号或声谱图可以由MLA来处理,以从检测到的声音的上下文信息中受益。换言之,MLA可以通过随着时间推移而维持状态信息来允许处理可变长度的输入和输出。在一个示例中,如果在之前的尝试中没有检测到声音配置文件,则用户可以重复触摸输入。MLA可以考虑先前的尝试,并相应地改变第二声谱图的后续分析,例如降低考虑匹配特定声音配置文件所需的阈值。类似地,如果在短的时间窗口内产生多个声谱图,则可以在会话期间识别并解释诸如背景噪声增强的共性。因此,所检测到的声音的周围的上下文可以有助于个性化的AI洞察,这解释了用户之间执行触摸输入的广泛差异。
可以训练MLA,以识别所生成的频谱图包括触摸输入之前或之后的多余时间的情况。在实施方式中,训练数据可以包括多个声谱图,这些声谱图具有在声谱图内的不同时间段发生的触摸输入。通过对这些示例进行充分的训练,MLA可以更好地识别在声谱图中观察到的频率何时可能属于背景噪声。这样的分析可以在操作期间通过包括针对触摸输入的完成时间的反馈回路来改进。随着声谱图与声音配置文件之间进行更多的比较,可以跟踪完成时间数据(即,接触、移动和离开阶段之间的总时间),以更好地识别相关联的触摸输入的开始点和结束点。
在一些实施方式中,来自特定纹理或三维特征表面的训练数据可以用于改进MLA的声音配置文件识别。纹理化表面可以包括雕刻、蚀刻和标识部分中的一个或更多个。由于不规则的触摸,在这样的纹理表面上的触摸输入所生成的声谱图可以提供更可识别的图案。在一些实施方式中,这些图案可以有效地用作MLA的校准元件。例如,如果已经将已知的非对称纹理应用于表面,则MLA可以区分与从不同方向来滑动表面相关联的视觉特征。随后,可以将与每个定向滑动相关联的声音配置文件映射至不同的设备指令上。此外,纹理表面可以帮助识别物体可能部分地覆盖用于生成触摸输入的表面的情况,例如耳塞式耳机上的头发。
在操作中,纹理表面可以被并入到用户设备102、与用户设备102相关联的单独设备中,或者位于独立于用户设备102的表面上。当被并入到用户设备102中时,纹理表面可以应用于用户设备102的壳体的一个或更多个活动或非活动表面。活动表面通常是光滑的以适应触摸识别技术,例如表面声波技术,因此非活动表面可能是有利的。
参照图2,根据实施方式,描绘了用于使用声音处理触摸输入的方法200。方法200可以通过诸如用户设备102的用户设备来实现。
在202处,用户设备可以可选地接收活动收听指令,以提示用户设备开始收听。活动收听指令可以通过用户设备的UI来传达,或者由不同的声音提示来提示。例如,用户设备可以被动地收听不同诸如口语短语的声音提示,该声音提示随后可以提示用户设备处理与触摸输入相关联的声音配置文件的后续声音。涉及活动收听指令的布置可以延长用户设备的电池寿命,这可能是由于连续地或周期性地对检测到的声音进行处理而引起的。在一些实施方式中,声音配置文件的一部分,例如接触阶段,可以用作活动收听指令。在实施方式中,与用户设备或与用户设备相关联的设备的任何用户交互都可以用作活动收听指令。一旦用户设备已经接收到活动收听指令,就可以向用户传达提示或警报以指示活动收听时段已经开始。可以基于用户偏好或用户设备的考虑来定制这样的活动收听时段的持续时间。
在204处,由用户设备的换能器来检测声音。在实施方式中,可以基于已知的声音配置文件来缩短或延长声音检测的时段。例如,如果没有声音配置文件具有5秒的持续时间,则用户设备可以在5秒之后停止收听或者在足以考虑用户在开始触摸输入时的延迟或错误的时间段之后停止收听。
在不依赖于主动收听指令的实施方式中,在204处,用户设备可以被动地收听声音。声音隔离或解释技术可以使得用户设备能够选择性地处理检测到的声音。例如,用户设备可以仅处理被计算出的在用户设备的特定距离内生成的声音。可以被用来有效地用作主动收听指令的参数可以包括声音的音量、声音的方向、声音的估计位置、声音的特性等。声音特性可以包括可以进行触摸输入的表面的指示,例如特定材料(例如,铝、玻璃、塑料)。
根据实施方式,在检测到声音配置文件时,可以可选地向用户呈现确认警报或ping,以防止不想要的设备控制。在这样的实施方式中,用户随后可以通过对原始触摸输入、与确认操作相关联的触摸输入、语音指令等进行重复来确认触摸输入。
在一些实施方式中,声音配置文件可以用作实时的指令操作。在一个示例中,用户可以通过直接输入(例如通过UI)或通过不同的触摸输入来指示想要改变设备的音量水平。该指示随后可以触发设备开始对检测到的声音进行持续的图像识别,从而允许用户通过长时间的触摸输入来改变音量水平。在操作中,这可以通过表示增加音量的指令操作的“向上滑动”声音配置文件以及表示减小音量的指令操作的“向下滑动”声音配置文件来实现。这样的实时分析可以促进对设备设置和用户偏好的精确控制。在实施方式中,可以通过频繁地、周期性地对触摸输入进行采样来模拟实时声音分析。
在206处,换能器将检测到的声音转换为电信号,该电信号被发送至声音处理引擎。在实施方式中,声音处理引擎可以是用户设备的处理器,或者存在于用户设备外部,例如在经由网络通信地耦接至用户设备的服务器处。
在208处,由声音处理引擎将电信号转换成声谱图。在实施方式中,可以对所产生的声谱图进行处理,以增强声音配置文件匹配的可区分特性,或者移除潜在的触摸输入之前或之后的多余时间。例如,可以对某些音调或频率进行变换,以简化与所训练的声音曲线的比较处理,或以其他方式提高匹配准确度。
在210处,将图像识别MLA应用于所产生的声谱图,以在212处确定声音配置文件是否匹配。这样的比较是通过在与触摸输入相关联的声音配置文件的数据集上训练图像识别MLA来实现的。在实施方式中,MLA可以在有监督的数据上进行训练,使得训练声谱图被标记为具有相关联的触摸输入。有监督的数据可以通过对源自类似用户触摸的视觉特征进行标记来提高比较的准确度。例如,与用户在非活动表面上做出两次横向“滑动”相关联的声音配置文件可能不同于与用户在非活动表面做出“Z”图案相关联的声音配置文件;然而,鉴于这两个触摸输入共享触摸特性(即,两次横向滑动),如果用户在“Z”形的对角滑动过程中未能与表面保持持续的触摸,则这两个声音配置文件之间的图像识别可能是不准确的。通过对MLA的训练数据进行标记,可以在共享触摸输入特性的声音配置文件之间建立关联,以提高图像识别准确度。触摸输入的阶段,例如接触、移动和离开,也可以被标记为训练数据。值得注意的是,随着时间的推移,MLA可以使用未监督的数据在声音配置文件之间建立类似的关系,但这样的训练可能效率较低。
在214处,如果检测到声音配置文件,则执行用户设备的控制操作。声音配置文件和相关联的触摸输入可以被映射至用户设备的不同控制操作。控制操作可以是媒体控制(例如,播放、暂停或跳过)、音量控制、电源控制和改变用户设备的操作模式中的一个或更多个。在实施方式中,控制操作可以用于与检测到声音的设备分离的用户设备。
在216处,可以可选地实现改进措施以对未来声音配置文件检测的处理进行改善。改进措施可以包括一个或更多个反馈回路,以改善未来的声音配置文件识别或针对用户的图像识别MLA的个性化。
在实施方式中,改进措施可以基于检测到的声音的上下文。例如,如果生成的声谱图与声音配置文件不匹配,则可以升起临时标志来指示最近的失败匹配。在方法200的后续迭代中,如果在失败匹配标志存在时检测到另一声音,则可以改变被认为匹配声音配置文件所需要的声音配置文件的阈值。在用户试图产生足够地可识别的触摸输入但又重复失败的情况下,这样的布置可以减少用户的受挫感。在实施方式中,一个或更多个反馈回路可以改变图像识别MLA的参数,以为每个用户个性化声音配置文件匹配体验。参数可以包括以下中的一个或更多个:每个实例的失败匹配标志的持续时间、响应于失败匹配标志升起的匹配阈值改变的强度、匹配阈值是普遍改变还是仅针对被识别为与之前失败的尝试最相似的一个或者更多个声音配置文件而改变,以及向用户发出声音配置文件未被识别的警告或提示。在一些实施方式中,未能匹配声音配置文件的影响可以在失败的尝试中被放大,或者被设置成仅在发生一定数量的失败尝试时激活。
在实施方式中,改进措施可以为用户个性化声音配置文件。例如,如果用户持续地执行特定触摸输入,使得声音配置文件的一个或更多个视觉特性被修改,则可以更新声音配置文件以反映视觉特性的差异。该更新过程可以应用于所有设备,或者仅限于检测到重复差异的一个或更多个设备。个性化也可以基于一个或更多个用户简档。在不同的实施方式中,更新的实现也可以不同。更新可以完全替换先前的声音配置文件,或者将被识别为声音配置文件的视觉特征进行简单地扩展。因此,随着时间的推移,可以通过改进措施来改善MLA图像识别。
应当理解,在本教导的方法中使用的单独操作可以以任何顺序和/或同时执行,只要教导保持可操作。此外,应当理解,本教导的装置和方法可以包括任何数量或全部所描述的实施方式,只要教导保持可操作。
如先前所讨论的,声音配置文件(即,与特定触摸输入相关联的声谱图)可以被映射至不同的设备指令操作。在操作中,可以向用户呈现一组已知的触摸输入,随后基于偏好将每个触摸输入映射至不同的指令操作。
在一些实施方式中,用户可以通过向用户设备102提供期望的触摸输入的样本来引入自定义声音配置文件。通过创建一组训练数据,用户可以生成稳健的自定义声音配置文件。如果特定用户的自定义声音配置文件与其他用户的自定义声音配置文件有很大的相似性,则可以将训练集进行聚合。该聚合在跟踪触摸输入的阶段的实施方式中是特别有利的,因为可以独立地训练类似的阶段。通过基于阶段训练图像识别MLA,由于仅需要每个阶段之间的相似性,可以开发出更稳健的训练集。因此,可以在不需要来自一个特定用户的大的训练数据集的情况下实现定制声音配置文件。
在操作中,将触摸输入分离成阶段可以提高查找效率。通过将声音配置文件视为两个或更多个阶段的组合,一旦由图像识别MLA发现单个阶段不同,就可以消除潜在的声音配置文件匹配。该技术可以通过减少在图像识别处理中从每次查找操作中提取的数据的大小来提高效率。与传统的图像识别技术相比,这样的增强表现出特别的优势,由于需要更大的计算资源,传统的图像识别技术无法应用于诸如耳塞式耳机的小型设备。
图3A至图3B描绘了声音配置文件的声谱图。图3A是“轻击”的声谱图,而图3B是“滑动”运动的声谱。从图中可以看出,通过观察触摸输入随着时间推移所产生的声音的频率,可以做出明显的区分。
在实施方式中,可以布置换能器的阵列使得可以在被触摸的表面上检测X-Y坐标。这样的阵列的实现基本上可以提供触摸板功能,因为可以确定触摸在表面上的位置。在这样的实施方式中,在确定声音配置文件时可以考虑触摸输入的位置。例如,可以区分在单一位置的两次轻击与在第一位置轻击随后在第二位置轻击的情况。声音配置文件的这样的描绘可以允许将更多的控制操作映射至更明显(并且因此更容易识别)的触摸输入。
参照图4,根据一个实施方式描绘了声谱图302的图300。该图描绘了六个声谱图302,每个声谱图表示六个并发麦克风信号中的一个。为了清楚起见,声谱图被垂直堆叠并且由细水平线304分隔。可以在麦克风阵列上识别频率(Y轴)随着时间推移(X轴)的变化,以检测在某个方向上移动的触摸输入。因此,可以从麦克风阵列中提取X/Y坐标。在实施方式中,箭头306可以被转置以强调可提取的X/Y坐标。
本公开内容的实施方式可以在不需要硬件修改的情况下扩展现有设备的用户输入功能。声音配置文件识别的实现可以通过根据实施方式的软件升级来实现。随着时间的推移,另外的功能,例如更多的控制操作以及改善的声音配置文件识别,还可以被打包为更新。因此,与涉及活动表面或触摸屏的输入方式相比,声音配置文件识别的实现可以显著降低生产成本。此外,本公开内容的声音配置文件识别使得用户能够在未看到或操纵设备本身的情况下控制设备。
即使不包括换能器或不依赖换能器来检测声音的设备也可以使用所公开的方法来控制或操纵,只要另一设备可以检测声音。例如,智能手机可以通信地耦接至扬声器,例如通过蓝牙,并且用于检测可以与扬声器的控制操作相关的声音配置文件。
在本文中已经描述了系统、设备和方法的各种实施方式。这些实施方式仅作为示例给出,并不旨在限制所要求保护的发明的范围。此外,应当理解,已经描述的实施方式的各种特征可以以各种方式进行组合以产生许多另外的实施方式。此外,虽然已经描述了各种材料、尺寸、形状、构造和位置等以用于所公开的实施方式,但是在不超出所要求保护的发明的范围的情况下,可以利用除了所公开的那些之外的其它的材料、尺寸、形状、构造和位置等。
相关领域的普通技术人员将认识到,本文的主题可以包括比上述任何单独实施方式中所示出的特征更少的特征。本文所描述的实施方式并非意指是对本发明的主题的各种特征可以组合的方式的穷举性呈现。因此,实施方式是特征的非互斥组合;相反,如本领域普通技术人员所理解的,各种实施方式可以包括从不同的各个实施方式中选择的不同的各个特征的组合。此外,除非另有说明,否则关于一个实施方式所描述的元素可以在其他实施方式中被实现,即使在这样的实施方式中没有描述所述元素。
尽管从属权利要求在权利要求中可能指的是与一个或更多个其他权利要求的特定组合,但是其他实施方式也可以包括从属权利要求与每个其他从属权利要求的主题的组合,或者一个或更多个特征与其他从属或独立权利要求的组合。除非指出并非意在特定的组合,否则本文提出了这样的组合。
通过引用上述文献的任何并入都是有限的,使得不会并入与本文中的明确公开内容相反的主题。通过引用上述文献的任何并入被进一步限制,使得文献中包括的任何权利要求都不通过引用并入本文。除非明确地包括在本文中,否则上文通过参引文献的任何合并还被限制成使得在文献中提供的任何限定不通过参引并入本文中。
出于解释权利要求的目的,明确意图的是,除非在权利要求中叙述了特定术语“用于......的装置”或“用于......的步骤”,否则不援引35U.S.C.§112(f)的规定。

Claims (20)

1.一种用于检测一个或更多个声音配置文件的系统,所述一个或更多个声音配置文件中的每一个包括根据与触摸输入相关联的声音产生的至少一个声谱图并且被映射以实现设备的控制操作,所述系统包括:
至少一个换能器,被配置成:
检测由触摸表面所产生的声音;以及
根据检测到的所述声音产生电信号;以及
至少一个处理器,被配置成:
从所述至少一个换能器接收所述电信号;
将接收的所述电信号转换成声谱图;
使用图像识别来确定所述声谱图满足或超过对于所述一个或更多个声音配置文件中的一个声音配置文件的相似性阈值;以及
基于所确定的所述声音配置文件所映射至的所述控制操作来改变所述设备的至少一个特性。
2.根据权利要求1所述的系统,其中,所述至少一个换能器被设置成在具有非活动壳体的收听设备中或邻近所述收听设备。
3.根据权利要求2所述的系统,其中,所述至少一个换能器相对于所述非活动壳体的位置是已知的,并且所述确定部分地基于所述位置。
4.根据权利要求1所述的系统,其中,所述表面是非活动表面。
5.根据权利要求4所述的系统,其中,所述非活动表面被雕刻、被标识或被纹理化,并且所述确定部分地基于所述非活动表面。
6.根据权利要求1所述的系统,其中,所述至少一个换能器被配置成仅在接收到主动收听指令时对所述声音进行检测。
7.根据权利要求1所述的系统,其中,所述声谱图包括与检测到的所述声音相关联的一个或更多个视觉特征。
8.根据权利要求1所述的系统,其中,所述确定基于如下阶段中的一个或更多个:表示用户在所述触摸输入期间与所述表面进行接触的接触阶段、表示用户在所述触摸输入期间持续与所述表面接触的移动阶段、以及表示用户在所述触摸输入期间停止与所述表面接触的离开阶段。
9.根据权利要求1所述的系统,其中,所述一个或更多个声音配置文件由所述设备的用户生成。
10.根据权利要求1所述的系统,其中,所述至少一个处理器还被配置成更新所确定的所述声音配置文件以包括所述声谱图。
11.根据权利要求1所述的系统,其中,所述确定部分地基于先前检测到的声音的前述声谱图是否没能满足或超过所述一个或更多个声音配置文件中的所有声音配置文件的所述相似性阈值。
12.一种用于检测一个或更多个声音配置文件的方法,所述一个或更多个声音配置文件中的每一个包括根据与触摸输入相关联的声音产生的至少一个声谱图并且被映射至设备的控制操作,所述方法包括:
检测由触摸表面所产生的声音;
根据检测到的所述声音产生电信号;
将所述电信号发送至处理器;
在所述处理器处将接收的所述电信号转换成声谱图;
使用图像识别来确定所述声谱图满足或超过对于所述一个或更多个声音配置文件中的一个声音配置文件的相似性阈值;以及
基于所确定的所述声音配置文件所映射至的所述控制操作来改变所述设备的至少一个特性。
13.根据权利要求12所述的方法,其中,所述表面是收听设备的非活动壳体。
14.根据权利要求13所述的方法,其中,所述确定部分地基于收听设备的类型。
15.根据权利要求13所述的方法,其中,所述表面是所述非活动壳体的外表面,所述表面被雕刻、被标识或被纹理化,并且所述确定部分地基于所述表面。
16.根据权利要求12所述的方法,还包括在对所述声音进行检测之前接收主动收听指令。
17.根据权利要求12所述的方法,其中,所述声谱图包括与检测到的所述声音相关联的一个或更多个视觉特征。
18.根据权利要求12所述的方法,其中,所述确定基于如下阶段中的一个或更多个:表示用户所述触摸输入期间与所述表面进行接触的接触阶段、表示用户在所述触摸输入期间持续与所述表面接触的移动阶段、以及表示用户在所述触摸输入期间停止与所述表面接触的离开阶段。
19.根据权利要求12所述的方法,还包括更新所确定的所述声音配置文件以包括所述声谱图。
20.根据权利要求19所述的方法,其中,所述确定部分地基于先前检测到的声音的前述声谱图是否没能满足或超过所述一个或更多个声音配置文件中的所有声音配置文件的所述相似性阈值。
CN202311285558.4A 2022-09-30 2023-09-28 源自触摸的声音配置文件感测系统和方法 Pending CN117806518A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202263377884P 2022-09-30 2022-09-30
US63/377,884 2022-09-30

Publications (1)

Publication Number Publication Date
CN117806518A true CN117806518A (zh) 2024-04-02

Family

ID=88236557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311285558.4A Pending CN117806518A (zh) 2022-09-30 2023-09-28 源自触摸的声音配置文件感测系统和方法

Country Status (3)

Country Link
US (1) US20240111384A1 (zh)
EP (1) EP4345588A1 (zh)
CN (1) CN117806518A (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60335424D1 (de) * 2002-02-06 2011-01-27 Soundtouch Ltd Verfahren für ein Touch pad
US10453460B1 (en) * 2016-02-02 2019-10-22 Amazon Technologies, Inc. Post-speech recognition request surplus detection and prevention
US10241583B2 (en) * 2016-08-30 2019-03-26 Intel Corporation User command determination based on a vibration pattern

Also Published As

Publication number Publication date
US20240111384A1 (en) 2024-04-04
EP4345588A1 (en) 2024-04-03

Similar Documents

Publication Publication Date Title
JP6709261B2 (ja) スペクトログラムの視覚処理をして触覚効果を生成するためのシステム及び方法
US10712858B2 (en) Method and apparatus for classifying contacts with a touch sensitive device
CN107077242B (zh) 通过使用时空触摸图案来提高触摸屏事件分析的准确性的方法
WO2019154442A1 (zh) 一种动态或准动态力度检测装置及方法
KR20150028736A (ko) 오디오 신호의 전이와 연관된 햅틱 효과를 생성하기 위한 시스템 및 방법
KR20150092065A (ko) 터치 입력을 감지하기 위한 방법 및 장치
KR20150028725A (ko) 오디오 신호에서의 엔벨로프와 연관된 햅틱 효과를 생성하는 시스템 및 방법
JP2011028555A (ja) 情報処理装置および情報処理方法
EP3443448B1 (en) Selective attenuation of sound for display devices
CN109756818B (zh) 双麦克风降噪方法、装置、存储介质及电子设备
EP3582101A1 (en) Systems and methods for designing haptics using speech commands
EP3929695A1 (en) Touch control surfaces for electronic user devices and related methods
CN117806518A (zh) 源自触摸的声音配置文件感测系统和方法
KR101463450B1 (ko) 사용자 인터페이스 인식 장치 및 방법
US11928278B2 (en) System and method of predicting multi-finger force in touch screens using artificial intelligence
EP4351162A1 (en) Acoustic speaker cover material detection systems and methods
JP2014099073A (ja) 電子機器、その制御方法及びプログラム
Augstein et al. Measuring physical pressure in smart phone interaction for people with impairments
US11237266B2 (en) Multi-tone ultrasonic proximity detection
TW202416734A (zh) 非接觸式手勢辨識的方法及其設備
WO2022075976A1 (en) Touch sensitive audio surface
WO2023044156A1 (en) System and method for discerning human input on a sensing device
CA2727672A1 (en) A deformable user interface integrated into a speaker shroud

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication