CN115379330A - 用于生成目标声音的方法和装置 - Google Patents

用于生成目标声音的方法和装置 Download PDF

Info

Publication number
CN115379330A
CN115379330A CN202210521590.7A CN202210521590A CN115379330A CN 115379330 A CN115379330 A CN 115379330A CN 202210521590 A CN202210521590 A CN 202210521590A CN 115379330 A CN115379330 A CN 115379330A
Authority
CN
China
Prior art keywords
binary data
target sound
sequence
sound
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210521590.7A
Other languages
English (en)
Inventor
C·卡萨里尼
I·M·费思齐
J·玛泽尔
M·R·勒纳
P·D·布雷泽尔鲁伊斯
S·W·小赖纳
T·T·陈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Inc filed Critical Apple Inc
Publication of CN115379330A publication Critical patent/CN115379330A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1041Mechanical or electronic switches, or control elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本公开涉及用于生成目标声音的方法和装置。公开了一种用于目标声音的耳机回放的方法,访问声音文件的一些二进制数据,其中该声音文件具有若干二进制数据,每个二进制数据存储多个音频片段。从所访问的二进制数据中选择音频片段并在交叉淡入淡出的同时混合,以形成目标声音序列。用该目标声音序列驱动耳机扬声器。也描述了其他方面并要求对其他方面进行保护。

Description

用于生成目标声音的方法和装置
本非临时性美国专利申请要求于2021年5月19日提交的美国临时申请号63/190,680的较早申请日期的权益。
技术领域
本公开的一方面涉及用于改善耳机佩戴者体验的数字音频处理技术。还描述了其他方面。
背景技术
耳机不仅用于听音乐和打电话,还用于例如在乘坐飞机、火车或公共汽车时使用声学噪声消除为佩戴者创造安静的听觉体验。随着设计越来越舒适、有吸引力但不显眼,一些耳机也可佩戴更长时间。人们经常看到佩戴者不仅在从事其他脑力或体力活动时佩戴着耳机,而且在只是放松时也佩戴着耳机。
发明内容
本公开的一个方面是一种用于由可集成在耳机内的扬声器生成目标声音的方法,该方法有助于避免在任何给定时刻被听者(例如,耳机的佩戴者)可能听见的内部声源和外部声源干扰。目标声音可掩盖或减小听者可能听见的和让人分心的其他声音的感知响度。其他声音可能是外部声音,诸如环境声音的被动泄漏(例如,串音、振颤、机器噪声),或者它可以是内部声音(除了听者听见的环境声音的泄漏之外的一些东西,其可包括遮挡效应、环境声音的主动实时再现、声学噪声消除伪影、媒体回放和电话呼叫)。结果是听者能够集中于他们所从事的如阅读或书写/打字的特定活动,听者只是放松,因为可能不希望的其他声音被目标声音掩盖,目标声音帮助听者入睡,或目标声音填充播客或电话呼叫期间没有语音的时间间隔(例如,如背景)。这些可增强听者的耳机收听体验,尤其是在数小时的较长时间间隔内或对于一整天的大部分时间而言。
以上概述不包括本公开的所有方面的详尽列表。可预期的是,本公开包括可由上文概述的各个方面以及在下文的具体实施方式中公开并且在权利要求书部分特别指出的各个方面的所有合适的组合来实践的所有系统和方法。此类组合可具有未在上述发明内容中具体阐述的特定优点。
附图说明
本公开的各方面以举例的方式进行说明,而不仅限于各个附图的图示,在附图中类似的附图标号指示类似的元件。应当指出的是,在本公开中提到“一”或“一个”方面未必是同一方面,并且其意指至少一个。另外,为了简洁以及减少附图的总数,可使用给定附图示出本公开的不止一个方面的特征部,并且对于给定方面,可能并非需要该附图中的所有元件。
图1示出了用于生成目标声音的示例性装置。
图2示出了呈现目标声音用户设置的示例性图形用户界面。
图3示出了由声音文件的片段形成的目标声音序列。
图4是用于生成目标声音序列的示例性方法的流程图。
图5是用于管理目标声音序列的回放的示例性方法的流程图。
图6示出了对包括作为各种变量的函数的目标声音序列的静音进行调整的决策处理器。
图7是用于在回放期间对目标声音序列进行调整的示例性方法的流程图。
图8是用于在回放期间对目标声音序列进行调整的另一个示例性方法的流程图。
具体实施方式
现在将参考所附附图来解释本公开的各方面。每当所描述的部件的形状、相对位置和其它方面未明确限定时,本发明的范围并不仅局限于所示出的部件,所示出的部件仅用于例证的目的。另外,虽然阐述了许多细节,但应当理解,本公开的一些方面可在没有这些细节的情况下被实施。在其他情况下,未详细示出熟知的电路、结构和技术,以免模糊对该描述的理解。
日常的声音可能让人分心、感到不适或令人不知所措。本公开的一方面是由电子控制设备执行的用于通过扬声器(例如,集成在耳机外壳中的耳机扬声器)生成目标声音的方法。目标声音可帮助减少分心并帮助听者集中精神、保持平静或休息。参见图1,该方法可由电子控制设备2执行,该电子控制设备可以是例如智能电话、智能手表、膝上型计算机、平板计算机或台式计算机。控制设备2可以是通过无线通信链路(例如,蓝牙链路)与一个或多个耳机(左右耳机3)配对的伴随设备(例如,音频源用户计算设备),或者它可通过有线或无线链路(例如,USB电缆链路)通信地耦接到耳机3。在这两种情况下,控制设备2将目标声音序列作为音频信号驱动到耳机3中的扬声器的输入端。为了驱动耳机扬声器,控制设备2中的处理器7或其他硬件调节并准备(格式化以用于传输或传递到耳机扬声器)包含目标声音序列的音频信号。取决于控制设备2的操作模式,正在驱动扬声器的音频信号还可包含其他音频内容,诸如来自声学噪声消除子系统(ANC)的抗噪声、媒体回放(例如,来自音乐应用、电影应用或播客应用)、电话呼叫或通知音频信号形式的系统声音(诸如传入消息警报、日历提醒或铃声)。音频信号被传送到耳机3中的音频电路。取决于耳机3的能力,耳机3中可具有不同类型的音频电路,范围从无源模拟有线耳机扬声器到具有内置无线收发器的全功能无线耳机、ANC、用于主动再现周围环境声音的外部麦克风、数模转换,以及负载为耳机扬声器的音频放大器。当音频电路将音频信号馈送到耳机扬声器的输入端以生成目标声音和任选地包含在音频信号中的其他声音时,发生回放。尽管图中示出的耳机3是耳塞,但它们也可以是其他类型,诸如在耳罩式耳机或头戴式耳机。
在图1中,控制设备2的显示屏4已由处理器7根据存储在存储器6中的指令配置,例如作为控制设备2的操作系统(OS)的一部分,以显示一个或多个目标声音用户设置。存储器6是具有将处理器配置为执行本公开中所述的方法操作中的大多数(如果不是全部的话)的指令的非暂态计算机可读介质的示例。在所示的示例中,处理器用呈现若干目标声音用户设置的图形用户界面(GUI)屏幕来配置显示屏4。显示屏4可以是触摸屏,其中处理器7例如在控制设备2的锁屏状态期间或主屏幕状态期间响应于触摸屏上的单个手指轻扫而呈现GUI屏幕。在此类“快速查看”中,触摸屏被配置为直接显示多个常用控件,包括目标声音用户设置和一个或多个典型设置,诸如无线局域网开关、屏幕亮度、音量、计算器、纵向锁定开关、手电筒和相机。
用户设置允许用户(例如,可能佩戴耳机3并且还拥有或管理控制设备2的听者)手动控制目标声音回放特征。存在目标声音启用设置10,其可以是启用和禁用该特征的如图所示的拨动开关。还可存在声音类型设置12,其是设置要回放的声音类型的选择器开关(从许多可用类型的声音文件进行设置),参见图2(例如,波涛或海洋声、雨声,溪流声、森林声、鸟声、以及为诸如粉红噪声或白噪声的噪声类型的合成声音)。还存在诸如第一选择器13和任选的第二选择器14的目标声音用户设置,其设置存储在存储器6中的目标声级参数16。处理器7根据这些用户设置(以及对应于用户设置的所存储目标声级参数16)中的一者或多者来生成目标声音序列,然后用所生成的目标声音序列来驱动耳机3的扬声器。
第一选择器13是可变声级设置,其例如在用户通过他们佩戴的耳机3收听目标声音回放时允许用户将所存储目标声级参数16中的第一个设置成如图所示的介于低设置和高设置之间。另外或作为第一选择器13的另选形式,第二选择器14是可变声级设置,其设置所存储目标声级参数16中的第二个(设置成介于低设置和高设置之间);可提供第二选择器14以在媒体回放期间设置不同目标声级(与没有媒体回放期间相比)。换句话讲,如果启用了目标声音,则在媒体回放期间根据参数16中的第二个来设置其声级,而在没有媒体回放期间根据参数16中的第一个来设置其声级。第二选择器14可:i)将其声级指示为相对于媒体回放声级,或ii)指示其声级供在媒体回放期间使用。在本公开的另一方面,目标声音用户设置包括在一天的某些时间或在一周的某些天播放目标声音序列的时间表设置。
目标声音设计
现在参见图3,该图示出了如何使用以N个(两个或更多个)二进制数据(bin)和每个二进制数据中的若干片段的形式存储的声音文件来形成目标声音序列。如上所述,组成声音文件的片段可以是录制的自然声音(例如,雨声、溪流声、波涛声、鸟声),或者它们可以是合成的(生成的)声音,诸如各种类型的噪声。在一个方面,组成文件的二进制数据从云中下载并存储在“本地”存储器中、耳机外壳内的存储器中或控制设备2内(参见图1)。文件可从远程服务器(例如云)更新,以便例如使用所记录或生成的声音的更有利的或不同的版本。在一个方面,每个二进制数据中的所有片段可具有相同长度,或者可存在具有不同长度的一些片段(例如就以毫秒ms为单位的持续时间而言)。
处理器7可执行算法,该算法组织或定义一个二进制数据序列,从该二进制数据序列中选择片段,然后如图所示那样将这些片段连接起来以形成目标声音序列。包括预定义的二进制数据序列的算法可在实验室中预创作,然后下载到控制设备中供执行。这些片段被混合或链接,同时根据需要交叉淡入淡出以形成连续的回放序列。一旦二进制数据序列被组织,处理器7随时间推移而从服务器选择性地拉出或下载二进制数据(在二进制数据序列中调用的二进制数据),以生成目标声音序列。这有助于适应计算资源受限的情况,例如控制设备2或耳机外壳内的存储器受限的情况。换句话讲,目标声音序列的小预览存储在控制设备或耳机上,但较大的情节保留在服务器中,直到生成目标声音序列的用于回放的该部分的时间。
图4示出了用于生成目标声音序列的示例性方法的流程图。该过程可首先访问(20)声音文件的至少一部分,例如,通过学习存储器6中存储构成给定声音文件的二进制数据中的一些而非全部二进制数据的位置。需注意,这可通过将这些二进制数据从云下载到存储器6中来进行。然后从所访问的二进制数据中选择音频片段并在交叉淡入淡出的同时混合(22),以形成目标声音序列(参见图3)。在操作20和22中,在所访问的声音文件是录制的自然声音的情况下,从每个二进制数据中随机地选择音频片段。在所访问的声音文件是合成生成的声音(例如,噪声)的情况下,在操作22中,所选择的音频片段可以更长(时间间隔),诸如每个15秒,并且可遵循确定性序列,例如重复循环。可随后调整目标声音序列的声级以匹配所存储目标声级参数(16),然后用目标声音序列来驱动耳机扬声器(23)。
在一个方面,在二进制数据中录制的自然声音是雨声,并且对于任何给定的二进制数据,该二进制数据中的所有片段听起来不同但具有相似的降雨强度。换句话讲,选择多个降雨二进制数据,其中每个具有不同的降雨强度。这使得算法从低强度二进制数据(少量降雨)中选择片段,然后随时间推移从较高强度二进制数据(倾盆大雨)中选择片段,以创建降雨情节。例如,目标声音序列从低强度降雨开始进展,然后随时间推移增强为高强度降雨,并且其中每次目标声音序列开始回放时,从低强度降雨到高强度降雨的这种进展具有不同的速度。在这个方面,算法是“动态的”,因为它创建了一个情节,在该情节中,下雨开始为雨滴,然后随时间推移而增强,每次目标声音特征开始播放时该情节中具有变化。例如,当第一次启用目标声音特征时,算法链接所选择的二进制数据以在例如15分钟内形成增强的雨。第二次启用目标声音特征(或如下文进一步描述的在暂停之后重新开始),从缓慢降雨到暴雨的进展花费例如5分钟。
仍然参见图4,在所示的一个方面,根据从中进行音频选择的预创作或预定义的二进制数据序列(24),从二进制数据中选择音频片段。一旦预定义的二进制数据序列已结束或完成(25),则在操作22中,可重新开始预定义的二进制数据序列(24),使得可继续不间断地形成目标声音序列。当二进制数据中的每个片段已被随机选择至少一次(26)时,该二进制数据的片段被混洗(27),之后才能在操作22中再次使用该二进制数据。换句话讲,预定义的二进制数据序列24可重复,但在操作22中每个二进制数据的选择被随机化,并且每个二进制数据被如此频繁地混洗。
因此,作为整体,即使经过数周、数月或数年的时间,(目标声音序列的)所得回放也不会让听者记住。例如,听者将不会在同一位置听到相同的鸟声,或者将不会一再地听到相同的波涛声。这与洗衣机声音的随机但仍然重复的性质相反。
在另一个方面,其也恰好在图4的同一流程图中描述,该方法还包括在驱动左右耳机扬声器(23)之前对目标声音序列进行立体声扩展(28)。这样做有助于确保目标声音被听者感知为扩展的或具有增强的立体声效果,使得听者不太可能专注于它。这可通过对目标声音序列的左版本和右版本进行加扰或去相关来实现。
用于管理目标声音回放的控制设备操作系统(OS)基础设施
如前所述,控制设备2可具有用于通过呈现用于控制目标声音的用户设置的GUI来管理目标声音回放的OS基础设施。这些设置可包括允许听者手动地启用和禁用目标声音序列的回放的启用设置10(参见图1)。OS基础设施可将处理器7配置为执行图5所示的方法,其中访问启用设置10(31)以确定是否启用目标声音回放(33)。如果未启用目标声音回放,则处理器在媒体回放开始时自动提示控制设备2的用户(35)设置目标声级。然而,如果启用了目标声音回放,则处理器响应于i)检测到用户佩戴着耳机(37)或ii)检测到媒体回放已开始(39),以根据目标声音用户设置(36)的声级自动地淡入目标声音序列。
图5中的流程图还用于举例说明暂停目标声音回放(40)时的某些情况。为了降低功耗,在这种情况下也可能暂停生成目标声音序列的算法(例如,图4中的方法的一部分)。在一个方面,响应于检测到听者已从其头部取下一个或两个耳机3(41)而暂停回放。在另一方面,响应于检测到耳机3正被用于电话呼叫(42)(例如,音频或视频呼叫)而暂停回放。在这两种情况下,一旦耳机返回听者的头部或电话呼叫已结束,目标声音序列的回放可恢复(通过循环回到如图所示的操作36,其还可包括重新开始图4中的方法)。
目标声音与其他音频内容的动态混合
在一个方面,目标声音在耳机3被佩戴时连续播放,并且可掩盖已泄漏到用户耳中的不想要的环境或外部噪声(尽管通过佩戴耳机3提供了被动隔离)。此外,处理器7可被配置为将目标声音序列混合并压制(duck)在由耳机再现并将被听者听到的其他同时发生的声音“之下”。压制在之下是指例如减小目标声音序列的宽带增益,使得它相对于其他同时播放的音频内容从听者的角度来看并不突出。其他音频内容可以是媒体回放、系统声音(例如,消息或日历通知)或耳机对周围环境声音的主动再现。具体地,处理器7可根据同时发生的环境声音的主动再现或声学噪声消除对目标声音进行增益调整。例如,可定制(频谱整形)并添加目标声音以掩盖声学噪声消除过程的任何剩余或残余可听效果。
图6是可如何在与其他音频信号内容组合之前定制目标声音序列以驱动耳机扬声器的框图。该特征在本文中也被称为动态目标音频。决策处理器(例如,执行存储在存储器6中的指令或由该指令配置的处理器7)可基于其可接收的以下输入中的一个或多个输入来调整目标声音序列的宽带增益:检测到的周围环境声级;检测到的用户情景是认真聆听、跑步或慢跑或者如汽车或公共汽车中的交通方式中的一者;检测到听者的环境是在办公室中、在家中或在公共交通工具中;当前用户音量设置(直接基于例如智能手机上的物理音量控制按钮的总音量的手动设置);检测媒体回放已开始或停止(例如,媒体回放可来自游戏应用、音乐应用、电影应用、播客应用或web浏览器);以及检测电话呼叫已开始或结束。例如,目标声音序列的宽带增益响应于媒体回放开始而减小,并且在媒体回放停止时增大回到先前值(基于所存储目标声级参数)。在另一种情况下,响应于呼叫开始,目标声音序列的增益被减小或目标声音序列被静音,并且在呼叫结束时被增大或不被静音。在又一种情况下,目标声音的增益基于个性化听觉/音频配置文件进行调整,该个性化听觉/音频配置文件可例如通过其中用户经由用户的控制设备2和耳机来参与(通过响应关于通过用户所戴耳机回放的声音刺激的问题)的个性化登记过程来获得。更一般地,目标声音序列可被视为代替听者的可听本底噪声,但不干扰听者听见媒体回放(例如,在媒体回放期间或在电话呼叫期间保持言语可懂度)。
在另一方面,决策处理器以使得尽管其他音频内容存在变化仍减小耳机扬声器输出的短期响度测量结果的变化的方式调整目标声音序列的增益。短期响度测量结果是在过去三秒内进行的耳机扬声器输出的测量结果。换句话讲,决策处理器保持扬声器输出的总响度一致或相对恒定,而不论目标声音序列的变化和其他用户音频内容的变化(即同时回放)。
在另一方面,处理器7被配置为响应于正被启动或运行的某些类型的应用(诸如游戏应用、音乐应用和电影应用)而自动压制目标回放,但在正被路由到耳机扬声器的用户音频内容来自播客应用或web浏览器时继续目标回放而不压制(或较少压制)。现在参见图7的流程图,用于回放目标声音的这种方法可如下进行。根据用户设置生成目标声音序列(43),并且利用目标声音序列驱动耳机扬声器(44)。当检测到来自第一应用类型或来自第二应用类型的回放请求时(45),处理器7继续用目标声音序列驱动耳机扬声器,同时将目标声音序列与来自第一应用类型(48)或来自第二应用类型(47)的回放组合。当与来自第一应用的回放组合时,处理器自动压制目标声音序列(50),但当与来自第二应用的回放组合时,处理器将i)不压制目标增益序列,或者ii)相比于在第一种应用类型的回放期间进行压制,较少压制目标增益序列(51)。
在另一方面,当正在播放目标声音并且没有来自应用的其他用户音频被路由到耳机扬声器时,处理器可在播客应用开始播放时自动降低目标声音序列的增益,但随后在播客应用停止播放时升高增益(回到根据所存储目标声级参数16的声级)。
现在参见图8,这是用于目标声音的动态耳机回放的另一种方法的流程图,其中目标声音序列如上根据用户设置(43)生成并驱动耳机扬声器(44)。在这样做的同时,处理器根据当天时间或根据周围环境光线水平(53)自动调整目标声音序列(55)。此类调整不限于宽带增益调整,而是替代地或另外可包括频谱整形或其他数字音频DSP调整,参见例如图6。例如,可调整目标声音序列以在早晨或白天生成比在晚上或夜间更嘹亮的声音。
还可关于上文所公开的各方面作出以下陈述。
用于控制目标声音回放的操作系统基础设施
1.一种用于控制目标声音回放的方法,该方法包括:配置控制设备的显示屏以显示用于控制目标声音回放的目标声音用户设置,其中目标声音用户设置控制存储在控制设备的存储器内的所存储目标声级参数;根据用户设置生成目标声音序列;以及用目标声音序列驱动扬声器。
1a.根据陈述1所述的方法,其中目标声音序列的目标声音回放使听者能够避免被听者与目标声音回放同时听见的内部声源或外部声源干扰。
1b.根据陈述1所述的方法,其中目标声音序列的目标声音回放掩盖或减小听者听见的其他声音的感知响度。
1c.根据陈述1所述的方法,其中目标声音序列的目标声音回放使听者能够专注于听者所从事的特定活动。
2.根据陈述1所述的方法,其中目标声音用户设置包括与控制设备的用户音量设置分开的用于设置所存储目标声级参数的可变声级设置。
3.根据陈述2所述的方法,其中可变声级设置指示i)相对于媒体回放声级的声级或ii)在媒体回放期间使用的声级。
4.根据陈述2所述的方法,还包括配置显示屏以显示具有另一可变声级设置的另一目标声音用户设置,该另一可变声级设置用于设置仅在媒体回放期间或在电话呼叫期间使用的另一个所存储目标声级参数。
5.根据陈述1至4中任一项所述的方法,其中目标声音用户设置包括在一天的某些时间或在一周的某些天播放目标声音序列的时间表设置。
6.根据陈述1至5中任一项所述的方法,其中目标声音用户设置包括声音类型设置。
7.根据陈述6所述的方法,其中声音类型设置指示以下项中的至少一者:波涛或海洋声、雨声、溪流声、森林声、鸟声,以及为一种类型的噪声的合成声音,诸如粉红噪声或白噪声。
8.根据陈述1至7中任一项所述的方法,其中显示屏是触摸屏,并且配置显示屏以显示用户设置包括通过直接显示多个常用控件来响应于锁屏状态期间或主屏幕状态期间触摸屏上的单个手指轻扫,该多个常用控件包括目标声音用户设置和以下项中的一者或多者:无线局域网开关、屏幕亮度、音量、计算器、纵向锁定开关、手电筒和相机。
9.根据陈述1至8中任一项所述的方法,还包括如果目标声音回放未被启用,则在媒体回放开始时经由控制设备或经由耳机自动呈现提示,以设置目标声级。
10.根据陈述1至9中任一项所述的方法,还包括如果启用了目标声音回放,则以根据目标声音用户设置的声级并且响应于检测到i)用户佩戴着一个或多个耳机或ii)媒体回放已开始而自动地淡入目标声音序列。
11.根据陈述1至10中任一项所述的方法,还包括用目标声音序列连续地驱动扬声器,直到i)检测到具有扬声器的耳机已从用户的耳朵取下或ii)检测到具有扬声器的耳机正用于电话呼叫,并且作为响应而减小目标声音序列的增益或暂停目标声音序列的回放。
11a.根据陈述1至10中任一项所述的方法,其中目标声音序列在没有任何增益减小的情况下连续地驱动扬声器,同时诸如消息警报、日历提醒或铃声的系统通知音频信号也同时驱动扬声器。
11b.根据陈述11a所述的方法,其中目标声音序列增益减小但不被静音,同时系统通知音频信号也驱动扬声器。
12.根据陈述11所述的方法,其中驱动扬声器的目标声音序列的增益在电话呼叫期间减小,然后在电话呼叫结束时根据目标声音用户设置而升高。
13.一种包括指令的非暂态计算机可读介质,该指令将处理器配置为:配置控制设备的显示屏以显示用于控制目标声音回放的目标声音用户设置,其中目标声音用户设置控制存储在控制设备的存储器内的所存储目标声级参数;以及根据用户设置生成目标声音序列,其中目标声音序列用于驱动扬声器。
14.根据陈述13所述的计算机可读介质,其中目标声音用户设置包括用于设置所存储目标声级参数的可变声级设置。
15.根据陈述14所述的计算机可读介质,其中可变声级设置指示i)相对于媒体回放声级的声级或ii)在媒体回放期间使用的声级。
16.根据陈述14所述的计算机可读介质,其中处理器被进一步配置为配置显示屏以显示具有另一可变声级设置的另一目标声音用户设置,该另一可变声级设置用于设置仅在媒体回放期间或在电话呼叫期间使用的另一个所存储目标声级参数。
17.根据陈述13所述的计算机可读介质,其中目标声音用户设置包括在一天的某些时间或在一周的某些天指定目标声音序列的回放的时间表设置。
18.根据陈述13至17中任一项所述的计算机可读介质,其中显示屏是触摸屏,并且配置显示屏以显示用户设置包括通过直接显示多个常用控件来响应于锁屏状态期间或主屏幕状态期间触摸屏上的单个手指轻扫,该多个常用控件包括目标声音用户设置和以下项中的一者或多者:无线局域网开关、屏幕亮度、音量、计算器、纵向锁定开关、手电筒和相机。
19.根据陈述13至18中任一项所述的计算机可读介质,其中处理器被配置为如果目标声音回放未被启用,则在媒体回放开始时经由控制设备或经由其中集成有扬声器的耳机自动提示,以设置目标声级。
20.根据陈述13至19中任一项所述的计算机可读介质,其与处理器一起集成在控制设备中。
21.根据陈述20所述的计算机可读介质,其中控制设备是智能电话、智能手表、膝上型计算机、平板计算机或台式计算机。
还可关于上文所公开的各方面作出以下陈述。
动态目标音频
1.一种用于动态回放目标声音的方法,该方法包括:根据用户设置生成目标声音序列;用目标声音序列驱动扬声器;以及基于以下项中的一者或多者来调整目标声音序列的增益:检测周围环境声级;检测用户情景是认真聆听、跑步或慢跑或者如汽车或公共汽车中的交通方式中的一者;检测听者的环境是在办公室中、在家中或在公共交通工具中;检测用户音量设置;以及检测媒体回放已开始或停止。
1a.根据陈述1所述的方法,其中目标声音序列使听者能够避免被听者在回放目标声音序列的同时听见的内部声源或外部声源干扰。
1b.根据陈述1所述的方法,其中目标声音序列掩盖或减小听者听见的其他声音的感知响度。
1c.根据陈述1所述的方法,其中目标声音序列使听者能够专注于听者所从事的特定活动。
2.根据陈述1所述的方法,其中基于检测用户音量设置来调整目标声音序列的增益,其中增益响应于用户音量设置升高而增大,并且
在用户音量设置降低时减小。
3.根据陈述1至2中任一项所述的方法,还包括用与目标声音序列组合的其他音频内容来驱动扬声器。
4.根据陈述3所述的方法,其中其他音频内容来自媒体回放,其中
基于检测到媒体回放已开始来调整目标声音序列的增益,其中增益响应于媒体回放开始而减小,并且在媒体回放停止时增大。
5.根据陈述4所述的方法,其中媒体回放来自以下项中的一者:游戏应用、音乐应用、电影应用、播客应用或web浏览器。
6.根据陈述4至5中任一项所述的方法,其中增益减小但不被静音。
7.根据陈述3所述的方法,其中其他音频内容来自电话呼叫,其中
基于检测到电话呼叫已开始来调整目标声音序列的增益,其中响应于电话呼叫开始,增益被减小或目标声音序列被静音,并且在电话呼叫结束时被增大或不被静音。
8.根据陈述3所述的方法,其中调整目标声音序列的增益减小了扬声器输出的短期响度测量结果的变化,尽管其他音频内容存在变化。
9.根据陈述8所述的方法,其中短期响度测量结果是过去三秒内的测量结果。
10.一种用于回放目标声音的方法,该方法包括:根据用户设置生成目标声音序列;用目标声音序列驱动扬声器;以及当检测到来自第一应用类型或来自第二应用类型的回放请求时,继续用与来自第一应用类型或来自第二应用类型的回放组合的目标声音序列来驱动扬声器,当与来自第一应用的回放组合时,自动压制目标声音序列,并且当与来自第二应用的回放组合时,i)不压制目标增益序列,或者ii)相比于在第一种应用类型的回放期间进行压制,较少压制目标增益序列。
11.根据陈述10所述的方法,其中第一应用类型包括游戏、音乐或电影。
12.根据陈述10所述的方法,其中第二应用类型包括播客应用或web浏览器。
13.一种用于动态回放目标声音的方法,该方法包括:根据用户设置生成目标声音序列;用目标声音序列驱动扬声器;以及根据当天时间或根据周围环境光线水平自动调整目标声音序列。
14.根据陈述13所述的方法,其中进行自动调整包括将目标声音序列调整成在早晨或白天生成比在晚上或夜间更嘹亮的声音。
15.一种包括指令的非暂态计算机可读介质,该指令将处理器配置为执行根据陈述1至14中任一项所述的方法。
16.根据陈述15所述的计算机可读介质,其被集成在智能电话、智能手表、膝上型计算机、平板计算机或台式计算机中。
17.根据陈述13至16中任一项所述的计算机可读介质,其中扬声器被集成在耳机的外壳中。
18.根据陈述17中任一项所述的计算机可读介质,其被集成在耳机的外壳中。
虽然已上文描述了并在附图中示出了某些方面,但是应当理解,这些方面仅仅是对本发明的说明而非限制,并且本发明不限于所示出和所述的具体结构和布置,因为本领域的普通技术人员可以想到各种其他修改型式。例如,尽管上文的描述涉及其操作可由可与存储器6一起集成在控制设备2内的处理器7执行的方法,但这些方法操作中的一些(如果不是全部的话)可另选地由集成在耳机3内的处理器执行(假设耳机具有足够的数字计算和通信资源来这样做)。因此,要将描述视为示例性的而非限制性的。

Claims (19)

1.一种用于回放目标声音的方法,所述方法包括:
访问为多个二进制数据的声音文件的至少一部分,每个二进制数据存储多个音频片段;
从所述多个二进制数据中选择多个选定音频片段并在交叉淡入淡出的同时混合选定音频片段以形成目标声音序列;以及
用所述目标声音序列驱动扬声器。
2.根据权利要求1所述的方法,其中所述多个音频片段是录制的自然声音,并且选定音频片段被从每个二进制数据中随机地选择。
3.根据权利要求2所述的方法,其中所述录制的自然声音是雨声,并且对于任何给定的二进制数据,所述给定的二进制数据中的所有片段听起来不同但具有相似的降雨强度。
4.根据权利要求2所述的方法,其中所述录制的自然声音是雨声,并且二进制数据中的第一二进制数据中的所有片段具有的降雨强度低于二进制数据中的第二二进制数据中的所有片段的降雨强度。
5.根据权利要求3所述的方法,其中所述目标声音序列从低强度降雨开始进展,然后随时间推移增强为高强度降雨,并且其中每次所述目标声音序列开始回放时,从低强度降雨到高强度降雨的进展具有不同的速度。
6.根据权利要求1所述的方法,其中根据从中进行音频选择的预定义的二进制数据序列从二进制数据中选择音频片段,所述预定义的二进制数据序列重复以便连续地形成所述目标声音序列,并且当二进制数据中的每个片段已被随机选择至少一次时,所述二进制数据的片段在所述预定义的二进制数据序列中被再次使用之前被混洗。
7.根据权利要求1所述的方法,还包括:
将所述目标声音序列立体声扩展为左耳机驱动器信号和右耳机驱动器信号。
8.根据权利要求1所述的方法,还包括将所述声音文件的所述多个二进制数据从云服务器下载到其中集成有所述扬声器的耳机中,或下载到通信地耦接到所述耳机的控制设备中。
9.一种包括指令的非暂态计算机可读介质,所述指令将处理器配置为:
访问为多个二进制数据的声音文件的至少一部分,每个二进制数据存储多个音频片段;以及
从所述多个二进制数据中选择音频片段并在交叉淡入淡出的同时混合所选择的音频片段以形成目标声音序列,其中所述目标声音序列随后驱动扬声器。
10.根据权利要求9所述的计算机可读介质,其中所述多个音频片段是录制的自然声音,并且所选择的音频片段被从每个二进制数据中随机地选择。
11.根据权利要求10所述的计算机可读介质,其中所述录制的自然声音是雨声,并且对于任何给定的二进制数据,所述给定的二进制数据中的所有片段听起来不同但具有相似的降雨强度。
12.根据权利要求10所述的计算机可读介质,其中所述录制的自然声音是雨声,并且二进制数据中的第一二进制数据中的所有片段具有的降雨强度低于二进制数据中的第二二进制数据中的所有片段的降雨强度。
13.根据权利要求12所述的计算机可读介质,其中所述目标声音序列从低强度降雨开始进展,然后随时间推移增强为高强度降雨,并且其中每次所述目标声音序列开始回放时,从低强度降雨到高强度降雨的进展具有不同的速度。
14.根据权利要求9所述的计算机可读介质,其中根据从中进行音频选择的预定义的二进制数据序列从二进制数据中选择音频片段,所述预定义的二进制数据序列重复以便连续地形成所述目标声音序列,并且当二进制数据中的每个片段已被随机选择至少一次时,所述二进制数据的片段在所述预定义的二进制数据序列中被再次使用之前被混洗。
15.根据权利要求9所述的计算机可读介质,其中所述处理器被进一步配置为将所述目标声音序列立体声扩展为左耳机驱动器信号和右耳机驱动器信号。
16.根据权利要求9所述的计算机可读介质,其中所述处理器被进一步配置为将所述声音文件的所述多个二进制数据从云服务器下载到其中集成有所述扬声器的耳机中,或下载到通信地耦接到所述耳机的控制设备中。
17.根据权利要求16所述的计算机可读介质,其与所述处理器一起集成在所述控制设备中。
18.根据权利要求17所述的计算机可读介质,其中所述控制设备是智能电话、智能手表、膝上型计算机、平板计算机或台式计算机。
19.根据权利要求16所述的计算机可读介质,其与所述处理器一起集成在所述耳机的外壳中。
CN202210521590.7A 2021-05-19 2022-05-13 用于生成目标声音的方法和装置 Pending CN115379330A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202163190680P 2021-05-19 2021-05-19
US63/190,680 2021-05-19
US17/339,724 2021-06-04
US17/339,724 US20220374193A1 (en) 2021-05-19 2021-06-04 Method and apparatus for generating target sounds

Publications (1)

Publication Number Publication Date
CN115379330A true CN115379330A (zh) 2022-11-22

Family

ID=84060746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210521590.7A Pending CN115379330A (zh) 2021-05-19 2022-05-13 用于生成目标声音的方法和装置

Country Status (2)

Country Link
US (1) US20220374193A1 (zh)
CN (1) CN115379330A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240005751A1 (en) * 2022-06-29 2024-01-04 Microsoft Technology Licensing, Llc Modified sound data generation from stored sound data

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5832431A (en) * 1990-09-26 1998-11-03 Severson; Frederick E. Non-looped continuous sound by random sequencing of digital sound records
US6359549B1 (en) * 2000-09-25 2002-03-19 Sharper Image Corporation Electronic sound generator with enhanced sound
FI118370B (fi) * 2002-11-22 2007-10-15 Nokia Corp Stereolaajennusverkon ulostulon ekvalisointi
US10021438B2 (en) * 2015-12-09 2018-07-10 Comcast Cable Communications, Llc Synchronizing playback of segmented video content across multiple video playback devices
US10303422B1 (en) * 2016-01-05 2019-05-28 Sonos, Inc. Multiple-device setup
AU2018320712A1 (en) * 2017-08-25 2020-02-27 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. Method and device for controlling acoustic feedback during a physical exercise
US10827265B2 (en) * 2018-01-25 2020-11-03 Cirrus Logic, Inc. Psychoacoustics for improved audio reproduction, power reduction, and speaker protection
US10665265B2 (en) * 2018-02-02 2020-05-26 Sony Interactive Entertainment America Llc Event reel generator for video content
US10848849B2 (en) * 2019-03-29 2020-11-24 Bose Corporation Personally attributed audio
US11857880B2 (en) * 2019-12-11 2024-01-02 Synapticats, Inc. Systems for generating unique non-looping sound streams from audio clips and audio tracks
US20210304736A1 (en) * 2020-03-30 2021-09-30 Nvidia Corporation Media engagement through deep learning

Also Published As

Publication number Publication date
US20220374193A1 (en) 2022-11-24

Similar Documents

Publication Publication Date Title
KR102240898B1 (ko) 사용자 제어가능 청각 환경 맞춤화 시스템 및 방법
US10325585B2 (en) Real-time audio processing of ambient sound
JP6374529B2 (ja) ヘッドセットと音源との間のオーディオの協調的処理
JP6325686B2 (ja) ヘッドセットと音源との間のオーディオの協調的処理
US20170345406A1 (en) Method, system and item
US9208766B2 (en) Computer program product for adaptive audio signal shaping for improved playback in a noisy environment
US20240176577A1 (en) Dynamic Target Sound Playback
US20150348530A1 (en) Noise Masking in Headsets
KR20230004754A (ko) 공유된 청취 환경에서 청각 장애인을 위한 오디오 향상
CN115379330A (zh) 用于生成目标声音的方法和装置
WO2020008931A1 (ja) 情報処理装置、情報処理方法及びプログラム
KR102497425B1 (ko) 오디오 신호의 개별 적응을 위한 파라미터들을 설정하기 위한 방법
JP7496433B2 (ja) 変化する環境でオーディオを向上するシステム及び方法
CN115362499A (zh) 用于在各种环境中增强音频的系统和方法
GB2521552A (en) Apparatus
JP2017143479A (ja) 音声信号送信装置、音声信号送信方法、制御プログラム、およびコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination