CN111615833B - 听力假体中的个性化自身语音检测 - Google Patents

听力假体中的个性化自身语音检测 Download PDF

Info

Publication number
CN111615833B
CN111615833B CN201980008770.1A CN201980008770A CN111615833B CN 111615833 B CN111615833 B CN 111615833B CN 201980008770 A CN201980008770 A CN 201980008770A CN 111615833 B CN111615833 B CN 111615833B
Authority
CN
China
Prior art keywords
time
decision tree
speech
hearing prosthesis
input audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980008770.1A
Other languages
English (en)
Other versions
CN111615833A (zh
Inventor
M·布罗恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cochlear Ltd
Original Assignee
Cochlear Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cochlear Ltd filed Critical Cochlear Ltd
Publication of CN111615833A publication Critical patent/CN111615833A/zh
Application granted granted Critical
Publication of CN111615833B publication Critical patent/CN111615833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/55Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired
    • H04R25/554Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired using a wireless connection, e.g. between microphone and amplifier or using Tcoils
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61NELECTROTHERAPY; MAGNETOTHERAPY; RADIATION THERAPY; ULTRASOUND THERAPY
    • A61N1/00Electrotherapy; Circuits therefor
    • A61N1/18Applying electric currents by contact electrodes
    • A61N1/32Applying electric currents by contact electrodes alternating or intermittent currents
    • A61N1/36Applying electric currents by contact electrodes alternating or intermittent currents for stimulation
    • A61N1/36036Applying electric currents by contact electrodes alternating or intermittent currents for stimulation of the outer, middle or inner ear
    • A61N1/36038Cochlear stimulation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/50Customised settings for obtaining desired overall acoustical characteristics
    • H04R25/505Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
    • H04R25/507Customised settings for obtaining desired overall acoustical characteristics using digital signal processing implemented by neural network or fuzzy logic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/60Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles
    • H04R25/604Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles of acoustic or vibrational transducers
    • H04R25/606Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles of acoustic or vibrational transducers acting directly on the eardrum, the ossicles or the skull, e.g. mastoid, tooth, maxillary or mandibular bone, or mechanically stimulating the cochlea, e.g. at the oval window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/41Detection or adaptation of hearing aid parameters or programs to listening situation, e.g. pub, forest
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Neurosurgery (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Artificial Intelligence (AREA)
  • Radiology & Medical Imaging (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Biomedical Technology (AREA)
  • Automation & Control Theory (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Prostheses (AREA)

Abstract

本文所呈现的是用于训练听力假体以将接收到的声音信号分类/归类为包括接受者的自身语音(即,听力假体的接受者的语音或话音)或外部语音(即,接受者以外的一个或多个人的语音或话音)的技术。本文所呈现的技术使用接受者捕获的语音(话音)来训练听力假体,以执行将声音信号分类为包括接受者的自身语音或外部语音。

Description

听力假体中的个性化自身语音检测
技术领域
本发明总体上涉及听力假体中的个性化自身语音检测。
背景技术
可能由于多种不同原因引起的听力损失通常为传导性和/或感觉神经性两种类型。当外耳和/或中耳的正常机械通路受到阻碍(例如,对听小骨链或耳道的损坏)时,发生传导性听力损失。当内耳或从内耳到大脑的神经通路受损时,发生感觉神经性听力损失。
患有传导性听力损失的个体通常会有某种形式的残余听力,因为耳蜗中的毛细胞未受损。这样,患有传导性听力损失的个体通常接纳生成耳蜗液的运动的听觉假体。这样的听觉假体包括例如声学助听器、骨传导设备和直接声学刺激器。
然而,在许多严重耳聋的人员中,他们耳聋的原因是感觉神经性听力损失。那些患有某种形式的感觉神经性听力损失的人员不能从生成耳蜗液的机械运动的听觉假体中获得适当的益处。这样的个体可以从植入性听觉假体中受益,植入性听力假体以其他方式(例如,电学、光学等)刺激接受者的听觉系统的神经细胞。当感觉神经性听力损失是由于耳蜗毛细胞的缺失或破坏而引起的,通常会建议耳蜗植入体,其将声音信号转化为神经冲动。听觉脑干刺激器是另一类型的刺激听觉假体,当接受者由于听觉神经受损而遭受感觉神经性听力损失时也可能建议听觉脑干刺激器。
某些个体仅患有部分感觉神经性听力损失,并且因此至少保留了一些残余听力。这些个体可能是针对电声听力假体的候选人。
发明内容
在一方面,提供了一种方法。该方法包括:在听力假体的一个或多个麦克风处,捕获包括听力假体的接受者的语音的输入音频信号;在听力假体上从输入音频信号计算时变特征;并且基于对多个时变特征的分析,更新听力假体的自身语音检测决策树的操作。
在另一方面,提供了一种方法。该方法包括:在听力假体处接收输入音频信号,其中输入音频信号包括听力假体的接受者的话音;在听力假体上从输入音频信号计算时变特征;在听力假体上利用自身语音检测决策树分析多个时变特征;接收与输入音频信号相关联的标签数据,其中标签数据指示输入音频信号的哪些时间分段包括接受者的语音;分析多个时变特征和标签数据,以针对自身语音检测决策树生成更新后的权重;并且利用更新后的权重来更新自身语音检测决策树。
在另一方面,提供了一种方法。该方法包括:接收输入音频信号生成的时变特征,该输入音频信号从在听力假体的一个或多个麦克风处被捕获,其中输入音频信号包括听力假体的接受者的语音;接收与输入音频信号相关联的标签数据,其中标签数据指示输入音频信号的多个时间分段中的哪些时间分段包括接受者的语音;分析多个时变特征和标签数据,以针对听力假体上的自身语音检测决策树生成更新后的权重;利用更新后的权重来更新自身语音检测决策树,以生成更新后的自身语音检测决策树。
附图说明
在本文中结合附图描述本发明的实施例,其中:
图1A是图示了根据本文所呈现的某些实施例的耳蜗植入体的示意图;
图1B是图1A的耳蜗植入体的框图;
图2是根据本文所呈现的某些实施例的完全可植入的耳蜗植入体的框图;
图3是图示了根据本文所呈现的某些实施例的环境分类器和个性化自身语音检测器的操作的示意框图;
图4A是图示了根据本文所呈现的某些实施例的更新个性化自身语音检测决策树的示意框图。
图4B是图示了图4A的布置的一种实现的进一步细节的示意框图;
图5是图示了根据本文所呈现的某些实施例的用于动态更新听力假体上的环境分类决策树的技术的示意框图;
图6是图示了根据本文所呈现的某些实施例的用于动态更新听力假体上的环境分类决策树和自身语音检测树的技术的示意框图;
图7是图示了根据本文所呈现的某些实施例的在环境分类中的补充信号特征的使用的示意框图;
图8是图示了根据本文所呈现的某些实施例的用于动态更新自身语音检测树的基于云的布置的框图;
图9是用于实现本文所呈现的某些技术的适配系统的框图;
图10是根据本文所呈现的实施例的方法的流程图;
图11是根据本文所呈现的实施例的另一方法的流程图;并且
图12是根据本文所呈现的实施例的另一方法的流程图。
具体实施方式
本文所呈现的是用于训练听力假体以将被捕获/接收的输入音频信号分类/归类为包括接受者的自身语音(即,听力假体的接受者的语音或话音)或外部语音(即,接受者以外的一个或多个人的语音或话音)。本文所呈现的技术使用接受者的被捕获的语音(话音)来训练听力假体,以执行将输入音频信号分类为包括接受者的自身语音或外部语音。
存在着在其中可以实现本发明的实施例的多种不同类型的听力假体。然而,仅为了易于说明的目的,参考一种类型的听力假体即耳蜗植入体来主要描述本文所呈现的技术。应当认识到,本文所呈现的技术可以与其他听力假体一起使用或在其他听力假体上或由其实现,其他听力假体诸如听觉脑干刺激器、助听器、电声听力假体、双峰听力假体、双侧听力假体等。
图1A是示例性耳蜗植入体100的示意图,示例性耳蜗植入体100被配置为实现本文所呈现的技术的各方面。图1B是耳蜗植入体100的框图。为了易于说明,将一起描述图1A和图1B。
耳蜗植入体100包括外部组件102和内部/可植入组件104。外部组件102直接或间接地被附接到接受者的身体,并且通常包括外部线圈106以及通常相对于外部线圈106固定的磁体(在图1中未被示出)。外部组件102还包括一个或多个输入元件/设备113,用于在声音处理单元112处接收输入信号。在该示例中,一个或多个输入设备113包括被配置为捕获/接收输入信号的声音输入设备108(例如,通过接受者的耳廓110所定位的麦克风、电话线圈等等)、一个或多个辅助输入设备109(例如,诸如直接音频输入(DAI)之类的音频端口、诸如通用串行总线(USB)端口之类的数据端口、电缆端口等)、以及无线发射器/接收器(收发器)111,它们各自位于声音处理单元112中、上或附近。
声音处理单元112还包括例如至少一个电池107、射频(RF)收发器121、和处理模块125。处理模块125包括多个元件,包括环境分类器131、声音处理器135、和个性化自身语音检测器135。环境分类器131、声音处理器135、和个性化自身语音检测器135中的每个可以由被布置为执行本文所述操作的一个或多个处理器(例如,一个或多个数字信号处理器(DSP)、一个或多个uC核心等)、固件、软件等等形成。也就是说,环境分类器131、声音处理器135、和个性化自身语音检测器135可以各自被实现为固件元件、利用一个或多个专用集成电路(ASIC)中的数字逻辑门来部分地或全部地被实现、或者以软件来部分地或全部地被实现,等等。
如下面进一步描述的,个性化自身语音检测器135包括可以被训练/更新的决策树,该决策树有时在本文中被称为自身语音检测决策树。类似地,环境分类器131包括决策树,该决策树有时被称为在某些实施例中也可以被训练/更新的环境分类器决策树。为了提供训练/更新自身语音检测决策树和/或环境分类器决策树的能力,将决策树存储在易失性存储器中,并暴露于例如用于对其进行更新的其他过程。这样,环境分类器131和个性化自身语音检测器135至少部分地被实现在易失性存储器中。
在图1A和图1B的示例中,声音处理单元112是耳后(BTE)声音处理单元,其被配置为被附接到接受者的耳朵并邻近接受者的耳朵被佩戴。然而,应当认识到,本发明的实施例可以通过具有其他布置的声音处理单元来实现,诸如通过按钮声音处理单元(即,具有大体上圆柱形形状的并且被配置为磁耦合到接受者头部的组件)等等、迷你或微型BTE单元、被配置为位于接受者的耳道中的耳道中单元、体戴式声音处理单元等。
返回到图1A和图1B的示例实施例,可植入组件104包括植入主体(主模块)114、引导区域116和耳蜗内刺激配件118,它们全被配置为被植入在接受者的皮肤/组织(组织)105下方。植入主体114通常包括气密的壳体115,RF接口电路124和刺激器单元120被安置在气密的壳体115中。植入主体114还包括内部/可植入线圈122,该内部/可植入线圈122通常在壳体115的外部,但是经由密封的馈通部(图1B中未被示出)而连接至RF接口电路124。
如上所指出,刺激配件118被配置为至少部分地被植入在接受者的耳蜗137中。刺激配件118包括多个纵向间隔开的耳蜗内电刺激接触(电极)126,其共同形成接触或电极阵列128,以用于将电刺激(电流)递送至接受者的耳蜗。刺激配件118延伸穿过接受者的耳蜗中的开口(例如,耳蜗造口、圆形窗口等),并且具有近端,该近端经由引导区域116和密封的馈通部(图1B中未被示出)而被连接至刺激器单元120。引线区域116包括将电极126电耦合到刺激器单元120的多个导体(导线)。
如上所指出,耳蜗植入体100包括外部线圈106和可植入线圈122。线圈106和122通常是线状天线线圈,每个线圈由多匝电绝缘单股或多股铂或金线组成。通常,磁体相对于外部线圈106和可植入线圈122中的每个线圈被固定。相对于外部线圈106和可植入线圈122被固定的磁体促进外部线圈与可植入线圈的可操作的对齐。线圈106和122的这种可操作的对齐使得外部组件102能够经由在外部线圈106与可植入线圈122之间形成的紧密耦合的无线链路将数据以及可能地将功率发射到可植入组件104。在某些示例中,紧密耦合的无线链路是射频(RF)链路。但是,可以使用诸如红外(IR)、电磁性、电容性和感应性转移之类的各种其他类型的能量转移来将功率和/或数据从外部组件转移到可植入组件,并且因此图1B仅图示出了一种示例布置。
如上所指出,声音处理单元112包括处理模块125。处理模块125被配置为将输入音频信号转换为刺激控制信号136,以用于在刺激接受者的第一耳朵时使用(即,处理模块125被配置为对在声音处理单元112处接收到的输入音频信号执行声音处理)。换句话说,声音处理器133(例如,实现固件、软件等的一个或多个处理元件)被配置为将被捕获的输入音频信号转换为刺激控制信号136,其表示用于递送给接受者的电刺激。被处理并转换为刺激控制信号的输入音频信号可以是经由声音输入设备108接收到的音频信号、经由辅助输入设备109接收到的信号和/或经由无线收发器111接收到的信号。
在图1B的实施例中,刺激控制信号136被提供给RF收发器121,RF收发器121经由外部线圈106和可植入线圈122将刺激控制信号136(例如,以编码的方式)经皮传送至可植入组件104。也就是说,刺激控制信号136经由可植入线圈122在RF接口电路124处被接收并被提供给刺激器单元120。刺激器单元120被配置为利用刺激控制信号136来生成电刺激信号(例如,电流信号)以用于经由一个或多个刺激接触126而递送至接受者的耳蜗。以这种方式,耳蜗植入体100以使接受者感知到输入音频信号的一个或多个分量的方式来对接受者的听觉神经细胞进行电刺激,绕过通常将声波振动转化为神经活动的不存在或有缺陷的毛细胞。
如上所指出,除了声音处理器133之外,处理模块125还包括环境分类器131。如下文进一步描述的,环境分类器131(例如,实现固件、软件等的一个或多个处理元件)被配置为确定与在耳蜗植入体100处接收到的输入音频信号相关联的声音环境的环境分类(即,确定声音环境的“分类”或“类别”)。此外,还如下文进一步所述,处理模块125包括被配置为执行个性化自身语音检测(OVD)的个性化自身语音检测器135(例如,实现固件、软件等的一个或多个处理元件)。如本文所使用的,自身语音检测(OVD)通常是指将在听力假体处接收到的话音信号分类为包括听力假体的接受者的话音(在本文中被称为接受者的自身语音或简称为自身语音)或包括由接受者以外的一个或多个其他人所生成的话音(在本文中被称为外部语音)的过程。同样如本文所使用的,个性化自身语音检测(或个性化OVD)是指特定于接受者的自身语音检测,这意味着自身语音检测至少部分地使用(基于)听力假体的接受者的特定语音(话音),如由听力假体本身所捕获的语音,被训练以执行自身语音检测。结果,个性化自身语音检测是特定于/定制给听力假体的接受者以及听力假体本身的。
图1A和图1B图示了在其中耳蜗植入体100包括外部组件的布置。然而,应当认识到,本发明的实施例可以在具有备选布置的耳蜗植入体中被实现。例如,图2是被配置为实现本发明的实施例的示例性完全可植入的耳蜗植入体200的功能框图。由于耳蜗植入体200是完全可植入的,因此耳蜗植入体200的所有组件被配置为被植入在接受者的皮肤/组织205下方。因为所有组件都是可植入的,所以耳蜗植入体200至少在有限的时间段内操作而无需外部设备。外部设备202可以被用来例如对内部电源(电池)207充电。外部设备202可以是专用充电器或常规的耳蜗植入体声音处理器。
耳蜗植入体200包括植入主体(主要可植入组件)214、用于捕获/接收输入音频信号的一个或多个输入元件213(例如,一个或多个可植入麦克风208和无线收发器211)、可植入线圈222、以及细长的耳蜗内刺激配件118,如上文参考图1A和图1B所述。麦克风208和/或可植入线圈222可以被定位在植入主体214中或电连接到植入主体214。植入主体214还包括电池207、RF接口电路224、处理模块225、和刺激器单元220(其类似于图1A和图1B的刺激器单元120)。处理模块225可以类似于图1A和图1B的处理模块125,并且包括环境分类器231、声音处理器233、和个性化自身声音检测器235,它们分别类似于参考图1B所述的环境分类器131、声音处理器133、个性化自身声音检测器135。
在图2的实施例中,一个或多个可植入麦克风208被配置为接收输入音频信号。处理模块225被配置为将接收到的信号转换为刺激控制信号236,以用于在刺激接受者的第一耳朵时使用。换句话说,声音处理器233被配置为将输入音频信号转换为表示用于递送给接受者的电刺激的刺激控制信号236。
如上所述指出,图1A和图1B图示了在其中外部组件102包括处理模块125的实施例。这样,在图1A和图1B的图示布置中,刺激控制信号136经由外部线圈106与内部线圈122之间的RF链路而被提供给经植入的刺激器单元120。然而,在图2的实施例中,处理模块225被植入在接受者中。这样,在图2的实施例中,刺激控制信号236不穿越RF链路,而是相反被直接提供给刺激器单元220。刺激器单元220被配置为利用刺激控制信号236来生成电刺激信号,该电刺激信号经由一个或多个刺激通道而被递送到接受者的耳蜗。
除了声音处理操作之外,如下文进一步所述,环境分类器231被配置为确定与输入音频信号相关联的声音环境的环境分类,并且个性化个性化自身语音检测器235被配置为执行个性化自身语音检测(OVD)。
如上所指出,本文所呈现的技术可以在多个不同类型的听力假体中被实现。然而,为了易于描述,通常将参照图1A-图1B的耳蜗植入体100来描述本文所呈现的技术的其他细节。
如上所指出,自身语音检测(OVD)通常是指将在听力假体处接收到的话音信号分类为包括听力假体的接受者的“语音”或“话音”(在本文中被称为接受者自身声音或简称为“自身语音”)或者包括接受者以外的一个或多个人的话音(在本文中被称为“外部语音”)的过程。将接收到的话音信号分类为自身语音或外部语音可以有助于例如提供有关接受者利用听觉假体执行得如何的信息(即,通过指示接受者讲话多少并因此提供接受者使用假体有多“积极”的信息)。如果接受者讲话的时间百分比很大,那么接受者是积极的,并且因此接受者可以理解其他人的话音(即接受者听力良好),并且听力假体正在旨在改善接受者的生活而操作。自身语音检测可以使得能够确定检测到个人自身语音的时间百分比、检测到外部语音的时间百分比、以及其他时间的百分比(例如,安静或噪声)。
然而,区分自身语音和外部语音并非易事,并且常规的自身语音检测技术试图利用通用算法/过程来做到这一点。这些通用算法/过程可能不准确且不可靠(例如,当接受者讲话时,通用的自身语音检测过程可能会错误地判定外部讲话者正在讲话)。为了解决这些问题,本文所呈现的技术使用“特定于接受者的”或“个性化的”自身语音检测器,其使用特定于听力假体的接受者的话音来进行训练/更新。也就是说,如下文进一步所述,接受者的自身语音被用来训练以及潜在地动态地更新个性化自身语音检测器。结果,个性化自身语音检测器是特定于/定制给听力假体的接受者和听力假体的。由于自身语音检测被专门定制给接受者的话音(以及特定的听觉假体),因此可以改进将输入音频信号分类为自身语音或外部语音的准确性。反过来,这种经改进的分类准确性使得能够从设备记载更准确的数据,这是重要的,以使得临床医生具有用于接受者的处方/疗法的可靠数据。不正确的数据可能导致接受者理解话音/对话/在生活中能够听到/参与生活的错误证据。
在描述个性化自身语音检测器的训练之前,参考图3描述个性化自身语音检测器的一般操作。更具体地说,图3是图示了耳蜗植入体100的声音处理模块125的其他细节的功能框图,其包括环境分类器131和个性化自身语音检测器135。为了易于说明,从图3中省略了与环境分类和自身语音检测无关的元件。
如所指出的,耳蜗植入体100包括一个或多个输入设备113。在图3的示例中,输入元件113包括第一麦克风108A、第二麦克风108B和至少一个辅助输入109(例如,音频输入端口、电缆端口、电话线圈等)。如果还不是以电气的形式,则输入设备113将接收到的/输入的音频信号转换成电信号153,在本文中被称为电输入信号,其表示输入音频信号。如图3中所示,电输入信号153包括来自麦克风108A的电输入信号153A、来自麦克风108B的电输入信号153B、以及来自辅助输入115的电输入信号153C。
电输入信号153被提供给环境分类器131。环境分类器131被配置为评估/分析(由电输入信号153表示的)输入音频信号的属性,并基于分析,确定与输入音频信号相关联的声音环境的“分类”或“类别”。环境分类器131可以被配置为将声音环境归类为多个分类/类别。在一个说明性示例中,环境分类器131被配置为将声音环境归类为五(5)个类别之一,五(5)个类别包括“话音”、“噪声中的话音”、“安静”、“噪声”和“音乐”,尽管其他类别也是可能的。
在某些实施例中,环境分类器131操作为通过从输入音频信号实时计算多个时变特征并使用一种类型的决策结构树来分析所计算的时变特征来为输入音频信号的集合确定类别。作为分析的结果,环境分类器131为输入音频信号的集合确定最可能的类别。换句话说,环境分类器131包括从输入音频信号计算时变特征的多个过程/算法。环境分类器131还包括决策树,该决策树使用这些时变特征中的全部或一些作为输入。决策树包括多个分层/链接的分支/节点,每个分支/节点使用时变特征中的至少一个时变特征来执行评估/比较/检查,以确定分支端(叶子)处的分类。
如上所指出,自身语音检测是这样的过程,其中在诸如耳蜗植入体100之类的听力假体处接收到的话音信号被分类为包括接受者的语音/话音或包括由接受者以外的一个或多个人所生成的话音。这样,自身语音检测仅与正如由环境分类器131所确定的、包括话音的输入音频信号的类别相关,即“话音”和“噪声中的话音”类别(有时在本文中统称为话音分类或类别)。换句话说,如图3中所示,当环境分类器131确定输入音频信号与话音分类(例如,“话音”或“噪声中的话音”)相关联时,则输入音频信号由个性化自身语音检测器135进一步分类为自身语音(即,听力假体接受者在输入音频信号的集合内讲话)或分类为外部语音(即,听力假体接受者以外的某人在输入音频信号的集合内讲话)。
个性化自身语音检测器135通过从(正如由电输入信号153表示的)输入音频信号实时计算多个时变特征并使用一种类型的决策树来分析所计算的时变特征来进行操作。作为分析的结果,个性化自身语音检测器135为输入音频信号的集合确定最可能的类别(即,自身语音或外部语音)。换句话说,个性化自身语音检测器135包括从输入音频信号计算时变特征的多个过程/算法。个性化自身语音检测器135还包括决策树,该决策树使用这些时变特征中的全部或一些作为输入。决策树包括多个分层/链接的分支/节点,每个分支/节点使用时变特征中的至少一个时变特征来执行评估/比较/检查,以确定分支端(叶子)处的分类(即,自身语音或外部语音)。也就是说,决策树遍历其“分支”,直到它到达“叶子”并判定“自身”或“外部”。
根据本文所呈现的实施例,个性化自身语音检测器135可以从输入音频信号计算多个不同的时变特征,并且特定特征可以针对不同的实现而变化。例如,自身语音检测器135可以计算诸如幅度调制、频谱分布、谐波、幅度起始点等等之类的时变特征。
通常,自身语音检测器135的决策树检查不同时变特征的值以及相对于预定条件(权重)的各种时变特征的值的组合,以确定结果。例如,在一种说明性布置中,自身语音检测器135可以利用五(5)个时变特征,并且这些特征中的三(3)个需要具有0.5或更大的值,并且这些特征中的两个需要具有0.7或更大的值,以便生成自身语音的确定,否则所得出的确定是外部语音。
为了创建准确的决策树,决策树需要合适的权重以用于评估每个相关的时变特征(即,需要正确设置针对节点的(多个)评估条件)。为了创建这些权重(节点的一个或多个评估条件),根据本文所呈现的实施例,首先在机器学习过程中使用听力假体的接受者的语音(话音)预先初始地训练决策树。结果,在根据本文所呈现的实施例的自身语音决策树的节点中所使用的权重是针对特定接受者专门地个性化/个体化的。
如所指出,环境分类器131和个性化自身语音检测器135各自使用决策树。为了易于说明和描述,将环境分类器131和个性化自身语音检测器135以及对应的决策树描述为单独的功能实体。然而,应当认识到,环境分类器131和个性化自身语音检测器135可以被实现为单个元件,该元件使用以父/子关系操作的两个决策树或决策树分段以生成不同分类(即,环境分类和自身语音分类)。
图4A是图示了根据本文所呈现的实施例的训练个性化自身语音检测器的示意图。为了易于说明,将参照图1A、图1B和图3的耳蜗植入体100来描述图4A。
图4A图示了临床设置,在其中耳蜗植入体100与诸如适配系统之类的计算设备150进行通信(例如,有线或无线通信)。在该示例中,指导耳蜗植入体100的接受者(通常被表示在图4A中的140处)讲话。可以多种不同的方式引出接受者的话音。例如,可以指导接受者140提供自由形式的话音、描述图片或其他项目、阅读一个或多个句子、段落等。在某些示例中,引出接受者的话音以便包括问题、陈述、唱歌和正常对话。
接受者的话音导致“接受者自身语音波形”的生成,其通常被表示在图4A中的142处。当接受者140在讲话时(即,在接受者自身语音波形142的生成期间),接受者、临床医生或其他用户在耳蜗植入体100、计算设备150或另一设备处提供用户输入以生成“话音标签”144。在一个示例中,由接受者、临床医生或其他用户通过在接受者140实际讲话时按下并按住按钮而在接受者140没有讲话时释放按钮来创建话音标签144。结果是被实时生成并提供给计算设备150的时变(例如,方波)话音标签144。如下文进一步描述的,时变标签144与接受者的话音时间同步。
在图4A中,接受者自身语音波形142(即接受者的话音)与临床环境中的任何其他环境声音一起也被耳蜗植入体100的一个或多个声音输入设备108捕获/接收。包括接受者自身语音波形142的输入音频信号(以电气形式)被提供给环境分类器131。环境分类器131操作为将针对给定时间段的输入音频信号分类在预定类别(例如“话音”、“噪声中的话音”、“噪声”、“安静”、“音乐”等)之一内。
如果环境分类器131确定输入音频信号与话音分类相关联(例如,被分类为“话音”或“噪声中的话音”信号),那么输入音频信号被提供给个性化自身语音检测器135。个性化自身语音检测器135包括多个特征计算器143(即,过程/算法),其针对给定的时间段从输入音频信号计算多个不同的时变特征。时变特征随时间变化,但不一定与输入呈线性关系(例如,如果音频信号很大,然后非常轻柔,则一个时变特征可能完全不改变,而另一个时变特征可能快速改变)。通常,每个时变特征都是经过专门设计的特征计算算法的输出,该算法盲操作且独立于其他特征计算算法,并且时变特征包括被决策树用来确定输入音频信号是否包括自身语音的数据。这些时变特征可以包括例如音量水平、接近水平、调制深度等。
在某些实施例中,连续生成时变特征,并且在离散间隔处(例如,每100个值、每10毫秒等)对特征计算器143的输出进行采样,并且如下所述,随后在训练过程中和/或由环境分类器131使用这些采样。
环境分类器131包括自身语音检测决策树148,其使用(如由多个特征计算器143计算出并在其输出处采样的)时变特征以将预定时间段/分段内的输入音频信号分类为自身语音或外部语音。在不同的实施例中,时间分段可以具有不同的长度(例如,100毫秒、一秒、若干秒等)。
应当认识到,在临床适配过程的开始,个性化自身语音检测器135尚未针对接受者而被“个性化”或“个体化”。相反,自身语音检测决策树148初始被编程为通用(即,非个性化)决策树,该通用决策树操作为基于(使用)标准(特定于非接受者的)语音采样在适配过程的一开始时进行初始自身语音或外部语音分类。使用标准语音采样对自身语音检测决策树148进行初始编程简单地为在门诊内接收到输入音频信号时的决策树的操作提供基线。因此,在临床适配过程的开始处,自身语音检测决策树148可以被称为“通用”或“标准”自身语音检测。然而,如下所述,随着训练过程的继续,自身语音检测决策树148变得对接受者和听力假体是个性化的。
返回到图4A的示例,如上所指出,对于被分析的时间段/分段中的每个时间段/分段,个性化自身语音检测器135(即,自身语音检测决策树148)生成将相关联的段内的信号的分类为自身语音或外部语音。在个性化自身语音检测器135生成一个或多个这些分类之后,个性化自身语音检测器135将由特征计算器143生成的所计算的时变特征发送给计算设备135。在图4A中,所计算的时变特征通常由箭头152表示。
在图4A的布置中,计算设备150包括决策树更新模块154。决策树更新模块154被配置为使用从耳蜗植入体100接收的时变特征152和话音标签144来执行机器学习,以训练/更新自身语音检测决策树。换句话说,计算设备150执行机器学习以实时生成更新后的自身语音决策树权重156(即,对用于评估自身语音检测决策树148的节点处的时变特征的条件的更新)。下文进一步描述决策树更新模块154处的机器学习过程的其他细节。
如图4A中所示,更新后的决策树权重156(即,更新后的评估条件)然后被提供回个性化自身语音检测器135。个性化自身语音检测器135然后利用从计算设备150接收到的更新后的权重156来更新自身语音检测决策树148的当前实现(即,更新后的决策树权重被发送回处理模块,并且正在运行的决策树被实时地更新接收到的权重)。通常,更新后的决策树的更新权重包括例如针对节点中或跨节点的时变特征设置检查的层级和/或设置针对特征的值以触发一个或多个节点处的不同决策。
图4A中所示的过程可以被重复多次,其中伴随每次迭代相同或不同的接受者话音被分析。通常,伴随每次迭代,自身语音决策树148被进一步针对接受者进行定制。
如上所指出,决策树更新模块154被配置为使用从耳蜗植入体100接收到的时变特征152和话音标签144来执行机器学习,以训练/更新自身语音检测决策树权重。图4B是图示了决策树更新模块154的一个示例实现的其他细节的示意图。应当认识到,可以以多种不同的方式来实现在决策树更新模块154处的机器学习,并且因此图4B的实现仅是说明性的。
如图4B中所示,决策树更新模块154包括自身语音决策树160和损失函数162。如上所指出,决策树更新模块154接收由自身语音检测树148生成的时变特征152,以及时变话音标签144。时变特征152和话音标签144是时间同步的(即链接/关联的),以使得形成针对给定的时间段的数据标签对163。也就是说,数据标签对163由针对一个时间段所确定的时变特征152(即,数据)和针对同一对应时间段的时变话音标签144(即,标签)组成。如所指出的,时变特征152是从输入音频信号计算出并由自身语音检测决策树148分析的特征,并且因此通常说明由自身语音检测决策树148做出的针对对应时间段的输入音频信号的“分类”。话音标签144是在同一时间段处例如由接受者、临床医生或其他用户按钮按下所生成的对输入音频信号的权威性(实际)分类。
在图4B的示例中,自身语音决策树160使用从耳蜗植入体100接收到的时变特征152以生成针对给定时间段的预测分类164。损失函数162然后使用预测分类164和与同一时间段相关联的话音标签144来计算“损失”。所生成的损失表示由自身语音机器学习模型160(即,使用数据标签对中的数据)所生成的预测分类164与相关联的话音标签144(数据标签对中的标签)之间的误差/差异。然后,将所确定的损失165反馈给自身语音决策树160,并用于调节决策树权重,直到预测分类164与话音标签144相匹配为止(即,系统通过使损失/误差最小化来训练自身)。
最终,在使用一个或多个数据标签对163进行更新之后,将自身语音决策树160的权重(即,图4A的更新的决策树权重156)发送给耳蜗植入体100以用于实例化为自身语音检测决策树148(即,自身语音检测决策树148的先前实例的替换)。在这个时刻,自身语音检测决策树148通常与已经在计算设备150处被更新的自身语音决策树160相匹配。然而,通过后续的机器学习训练,至少直到使用从计算设备150接收到的进一步更新后的权重来更新/替换自身语音检测决策树148为止,自身语音决策树160最终将进化并开始与自身语音检测决策树148不同地操作。
总体上已经参照一种实现描述了图4A和图4B,在该实现中,接受者的话音被捕获、被标记并被用来更新自身语音检测决策树148。然而,应该认识到,可以利用其他类型的输入来执行图4A和/或图4B的过程。例如,在一种备选布置中,外部话音(例如,临床医生或护理人员的话音)可以被捕获、被标记(如上所述)并被用来更新自身语音检测决策树148。在这样的示例中,在决策树更新模块154处接收到的数据标签对将仍然包括时变参数152,但是标签将指示在对应的时间段处的外部语音,而不是如在图4A和图4B的布置中那样指示自身语音。在其他示例中,可以在出现或不出现背景噪声的情况下捕获接受者或外部话音,以训练自身语音检测决策树148以在不同的环境中操作。在其他示例中,可以使用先前记录的“外部话音”、“噪声中的自身话音”和“噪声中的外部嘈杂话音”(即,记录的音频样本)来更新自身语音检测决策树148,以至少初始化决策树。
总而言之,图4A和图4B总体上图示了在其中使用接受者的自身语音/话音来训练个性化自身语音检测器135以及更具体地自身语音检测决策树148的布置。图4A和图4B图示了监督式学习方法,其中被标记的输入数据被用来训练(多个)算法。通过图4A和图4B的训练,自身语音检测决策树148(即,决策树权重)被针对接受者的语音(话音)的特性专门定制。
此外,应指出,耳蜗植入体100包括多个电气组件(例如,麦克风、处理器等),其具有与其他设备上的电气组件不同的相关联的操作特性/性质。在图4A和图4B的实施例中,这些电气组件以及因此的相关联的操作特性在训练过程中被隐式地使用,例如通过接收输入音频信号、生成环境和自身声音分类等。结果,上述训练过程将固有地考虑单独的声音处理器的电性质,从而通过从实时操作分析中去除电气特质来改进决策树相对于通用自身语音检测的准确性。
在个性化自身语音检测器135的初始训练之后,诸如参考图4A和图4B所描述的,接受者被送回家,并且个性化自身语音检测器135操作为将输入音频信号分类为自身语音或外部语音。然而,根据本文所呈现的其他实施例,自身语音检测决策树148的操作也可以在临床设置之外被更新。图5是图示了用于通过动态更新环境分类器131的操作来更新自身语音检测决策树148的操作的一种示例布置的示意图。
更具体地,图5图示了环境分类器131,其包括环境分类器决策树166和环境分类器分析模块167。在该示例中,接受者讲话并且话音被(多个)声音输入设备108捕获。当接受者正在讲话时,接受者或其他用户提供用户输入(例如,有意地按下按钮)以覆写环境分类器决策树166的操作。在图5中通常由箭头168表示的该按钮按下指示在该时间段期间(即,当按钮被按下时)接收到的信号应被分类为话音(例如,“话音”或“噪声中的话音”信号)。也就是说,在该时间段期间接收到的输入音频信号被用户标签为话音,并且因此,环境分类器131有机会基于输入音频信号的内容来更新环境分类器决策树166。
当用户覆写环境分类器决策树166的操作时,在覆写时间段期间,由环境分类器决策树166分析的时变特征被提供给环境分类器分析模块167。类似于上述示例,在图5中由箭头169表示的这些时变特征由对输入音频信号进行操作的特征提取器173(例如,过程/算法)进行计算。在覆写时间段期间由环境分类器决策树166分析的时变特征的值在本文中有时被称为“手动”特征值,因为它们是当用户手动将分类设置为话音分类(例如,“话音”或“噪声中的话音”)时的时变特征的值。环境分类器分析模块167通过分析覆写时间段期间的时变特征的值、以及由决策树166鉴于所谓的“自动”时变特征值和自动决策树操作所得到的分类(即,自身语音或外部语音)来进行操作。也就是说,将由环境分类器决策树166对现有特征的检查(即,被称为自动特征值)与手动特征检查进行了比较。由于用户已经将环境分类器决策树手动设置为话音分类,因此系统确定所有传入信号都将是话音。这样,分析模块167检查以确定在该覆写(手动)时间段中由环境分类器决策树166提供的时变特征值是否不同于由决策树进行的现有检查中的那些特征值(即,自动)。如果它们显著相差某个阈值或其他可限定的度量(例如相差原始设置的50%以上),那么环境分类器决策树166的操作可以被调节。在图5中通常由箭头172表示环境分类器决策树166的调节。
图5图示了在其中环境分类器决策树166的操作而不是自身语音检测决策树148(图4A)被调节的布置。然而,图5的示例改进了自身语音检测决策树148的性能,因为当在个性化自身语音检测器135处接收到输入音频信号时话音的确定性更高。在另一实施例中,自身语音检测决策树148也可以连同环境分类树166一起被更新。这种布置在图6中被图示出。
更具体地,图6首先图示了如上述参考图5所实现的环境分类器131。如以上参考图5所述,可以响应于用户输入168(例如,按钮按下)在耳蜗植入体100上调节环境分类器决策树166。
但是,图6还图示了个性化自身语音检测器135,其在该示例中包括自身语音检测决策树148和自身语音检测器分析模块176。如上文参考图5所指出的,接受者讲话并且话音被(多个)声音输入设备108捕获。当接受者正在讲话时,接受者或其他用户提供用户输入168(例如,有意地按下按钮)。在图6的示例中,该用户输入168覆写环境分类器决策树166和自身语音检测决策树148。
如上所指示,该用户输入168指示在该时间段期间(即,在按钮被按下时)接收到的信号是话音信号。然而,在图6的具体布置中,用户输入168还指示信号是自身语音,这意味着所指示的话音是接受者的自身话音。结果,个性化自身语音检测器135有机会基于输入音频信号的内容来更新自身语音检测决策树148。
当用户(经由用户输入168)覆写自身语音检测决策树148的操作时,在图6中由箭头152表示的计算出的时变特征被提供给自身语音检测器分析模块176。在覆写时间段期间的自身语音检测决策树148的特征值在本文中有时被称为“手动”特征值,因为它们是当用户手动地将分类设置为包括自身语音的分类时的特征值。自身语音检测器分析模块176通过将自身语音检测决策树148的“手动”特征值与所谓的“自动”特征值进行比较来进行操作。也就是说,对由自身语音检测决策树148对现有特征的检查(即,称为自动特征值)与手动特征值(即,覆写(手动)时间段计算出的特征值)进行了比较。因为用户已经将自身语音检测决策树148手动设置为自身语音分类,所以系统确定所有传入信号都将是自身语音。这样,分析模块176检查以确定在该覆写(手动)时间段中由自身语音检测决策树148提供的特征值是否不同于由决策树进行的现有检查中的那些特征值(即自动)。如果它们显著相差某个阈值或可限定的度量(例如,相差原始设置的50%以上),那么自身语音检测决策树148的操作可以被调节。在图5中通常由箭头180表示自身语音检测决策树148的调节。
如所指出的,图5大体上图示了在其中基于用户输入来动态更新环境分类器131的操作的实施例。图7图示了另一实施例,在其中基于从输入音频信号计算出的一个或多个时变特征来动态地更新环境分类器131的操作。
更具体地说,在设备上计算出的某个值与可以在环境分类器中使用的(多个)输入信号有关系。在图7的示例中,提供了补充特征递送模块181。补充特征递送181被配置为接收输入音频信号(由上述电输入信号153表示),并且被配置为实现过程以计算和向环境分类器131递送时变特征(例如,基频(F0)、谐波信号功率与总功率之比(STR)的估计等等),以提供关于信号为“话音”的概率的其他信息。这样,在这些示例中,对与输入音频信号相关联的当前声音环境的分类至少部分地基于一个或多个补充时变特征,诸如与输入音频信号相关联的谐波信号功率与总功率之比(STR)的这种估计、与输入音频信号相关联的基频(F0)的估计等。在某些布置中,可以将这些时变特征包括在上述实施例中的一个或多个实施例中,以改进在门诊中或动态地在门诊之后的映射时间处的决策树。因为当在个性化自身语音检测器135处接收到输入音频信号时话音的确定性更高,所以图7的示例改进了自身语音检测决策树148的性能。
图8是图示了在某些实施例中可以使用远程或基于云的布置来动态地更新个性化自身语音检测器135的示意图。例如,接受者的话音182可以被记录(例如,在适配会话期间、离线等)并且被存储在例如云中,并且在门诊之后,可以使用所记录的话音进一步训练个性化自身语音检测器135。例如,如果已经挖掘出改进“外部话音”检测的新数据183,则基于云的机器学习决策树计算器184可以采取现有/所记录的话音182(例如,来自接受者的临床会话)并将其与新的外部话音数据183组合以生成新的自身语音检测决策树185。这个新的自身语音检测决策树185可以被提供给个性化自身语音检测器135,并于其处被实例化。在此示例中,基于云的机器学习决策树计算器184可以是基于因特网的,或者可以被实现在具有本地数据库的本地服务器上。
如上所指出,根据本文所呈现的实施例,自身语音检测决策树和/或环境分类决策树可以在诸如耳蜗植入体100之类的听力假体本身上/由其动态地更新,或者使用诸如以上参考图4A和图4B描述的外部计算设备150之类的外部计算设备来更新。图9是图示了用于被配置为执行根据本文所呈现的某些实施例的一个或多个操作的外部计算设备150的一种示例布置的框图。
外部计算设备150包括多个接口/端口192(1)-192(N)、存储器193、处理器194和用户接口195。接口192(1)-192(N)可以包括例如网络端口(例如以太网端口)、无线网络接口、通用串行总线(USB)端口、电气和电子工程师协会(IEEE)1394接口、PS/2端口等等的任意组合。在图9的示例中,接口192(1)连接到具有被植入在接受者140中的组件的耳蜗植入体100。接口192(1)可以直接连接至耳蜗植入体100或连接至与耳蜗植入体100通信的外部设备。接口192(1)可以被配置为经由有线或无线连接来与耳蜗植入体100通信。
用户接口195包括诸如液晶显示器(LCD)和扬声器之类的一个或多个输出设备,以用于向临床医生、听觉医师或其他用户呈现视觉或听觉信息。用户接口195还可以包括一个或多个输入设备,其包括例如可以接受用户输入的小键盘、键盘、鼠标、触摸屏等。
存储器193包括决策树更新196,可以执行该决策树更新196以生成或更新自身语音检测决策树(即,生成更新后的决策树权重),如本文其他地方所述。应当认识到,存储器193可以包括其他逻辑元件,为了易于说明,已经从图9中省略了这些逻辑元件。
存储器193可以包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质设备、光存储介质设备、闪存设备、电、光或其他物理/有形存储器存储设备。处理器194例如是执行用于顶端保护逻辑196的指令的微处理器或微控制器。因此,一般来说,存储器193可以包括一个或多个有形(非瞬时性)计算机可读存储介质(例如,存储器设备),其被编码有包括计算机可执行指令的软件,并且当(由处理器194)执行该软件时,其可操作为执行本文所述的操作。
应当认识到,图9中所示的用于外部计算设备150的布置是说明性的,并且根据本文所呈现的实施例的外部计算设备150可以包括被配置为执行本文所描述的功能的硬件、软件和固件的任何组合。例如,外部计算设备150可以是个人计算机、手持设备(例如,平板计算机)、移动设备(例如,移动电话)和/或具有执行在本文其他地方描述的相关联的操作的能力的任何其他电子设备。
图10是根据本文所呈现的实施例的方法1000的流程图。方法1000开始于1002,在这里,听力假体的一个或多个麦克风捕获包括听力假体的接受者的语音的输入音频信号。在1004处,听力假体从输入音频信号计算时变特征。在1006处,基于对多个时变特征的分析,听力假体的自身语音检测决策树的操作被更新。
图11是根据本文所呈现的实施例的另一方法1100的流程图。方法1100开始于1102,在这里,听力假体接收包括听力假体的接受者的语音的输入音频信号。在1104处,听力假体从输入音频信号计算时变特征。在1106处,利用听力假体上的自身语音检测决策树来分析多个时变特征。在1108处,接收与输入音频信号相关联的标签数据,其中标签数据指示输入音频信号的哪些时间分段包括接受者的语音。在1110处,分析多个时变特征和标签数据以针对自身语音检测决策树生成更新后的权重。在1112处,利用更新后的权重来更新自身语音检测决策树。
图12是根据本文所呈现的实施例的另一方法1200的流程图。方法1200开始于1202,在这里,接收从在听力假体的一个或多个麦克风处捕获的输入音频信号生成的时变特征。输入音频信号包括听力假体的接受者的语音。在1204处,接收与输入音频信号相关联的标签数据,其中标签数据指示输入音频信号的多个时间分段中的哪些时间分段包括接受者的语音。在1206处,分析多个时变特征和标签数据以针对听力假体上的自身语音检测决策树生成更新后的权重。在1208处,利用更新后的权重来更新自身语音检测决策树,以生成更新后的自身语音检测决策树。
应当认识到,上述实施例不是互相排斥的,并且各种实施例可以以各种方式和布置进行组合。
本文所描述和要求保护的发明在范围上不受本文所公开的特定优选实施例的限制,因为这些实施例旨在作为本发明的若干方面的说明而不是限制。任何等同的实施例都旨在本发明的范围内。实际上,除了本文中所示出和描述的那些之外,根据前述描述,本发明的各种修改对于本领域技术人员将变得明显。这样的修改也旨在落入所附权利要求的范围内。

Claims (33)

1.一种语音检测的方法,包括:
在听力假体的一个或多个麦克风处,捕获包括所述听力假体的接受者的语音的输入音频信号;
在所述听力假体上从所述输入音频信号计算时变特征;以及
基于对多个所述时变特征的分析,更新所述听力假体的自身语音检测决策树,所述自身语音检测决策树包括多个层级式节点,每个节点使用所述时变特征中的至少一个时变特征执行评估,更新后的自身语音检测决策树具有针对所述接受者的更新后的决策树权重。
2.根据权利要求1所述的方法,其中所述自身语音检测决策树被配置用于将由所述听力假体的所述一个或多个麦克风捕获的输入音频信号的一个或多个时间分段分类为包括所述接受者的所述语音或包括外部语音。
3.根据权利要求1所述的方法,其中基于对所述多个所述时变特征的分析,更新自身语音检测决策树包括:
获得与在所述听力假体上计算的所述多个所述时变特征时间同步的时变标签;以及
分析所述多个所述时变特征和所述时变标签,以针对所述自身语音检测决策树生成所述更新后的决策树权重。
4.根据权利要求3所述的方法,其中分析所述多个时变特征和所述时变标签以针对所述自身语音检测决策树生成更新后的决策树权重包括:
执行机器学习过程,以相对于对应时间处的值分析表示所述接受者的语音的所述多个时变特征。
5.根据权利要求3所述的方法,其中所述更新后的决策树权重在与所述听力假体进行通信的计算设备处被生成,并且其中所述方法还包括:
在所述听力假体处接收所述更新后的决策树权重;以及
在所述听力假体的所述自身语音检测决策树中实例化所述更新后的决策树权重。
6.根据权利要求5所述的方法,还包括:
利用包括实例化的所述更新后的决策树权重的所述决策树分析由所述听力假体的所述一个或多个麦克风捕获的一个或多个输入音频信号,以将在所述听力假体处被捕获的所述一个或多个输入音频信号的时间分段分类为包括所述接受者的所述语音或包括外部语音。
7.根据权利要求3所述的方法,其中分析所述多个时变特征和所述时变标签包括:
在所述听力假体上分析所述多个时变特征和所述时变标签;以及
基于在所述听力假体上对所述多个时变特征和所述时变标签的所述分析,调节所述决策树权重。
8.根据权利要求3所述的方法,其中获得与所述多个时变特征时间同步的时变标签包括:
接收用户输入,所述用户输入指示由所述听力假体的所述一个或多个麦克风捕获的所述输入音频信号的哪些时间分段包括所述接受者的所述语音。
9.根据权利要求8所述的方法,其中接收用户输入包括:
从所述听力假体的所述接受者接收输入。
10.根据权利要求8所述的方法,其中接收用户输入包括:
从所述听力假体的所述接受者以外的其他个体接收输入。
11.根据权利要求1所述的方法,其中在计算所述多个时变特征之前,所述方法包括:
从所述输入音频信号,在所述听力假体上确定与所述输入音频信号相关联的当前声音环境的主分类,其中所述主分类指示所述当前声音环境包括话音信号。
12.根据权利要求11所述的方法,其中确定与所述输入音频信号相关联的当前声音环境的所述主分类包括:
部分地基于与所述输入音频信号相关联的谐波信号功率与总功率之比(STR)的估计,确定所述当前声音环境的所述主分类。
13.根据权利要求11所述的方法,其中确定与所述输入音频信号相关联的当前声音环境的所述主分类包括:
部分地基于与所述输入音频信号相关联的基本频率(F0)的估计,确定所述当前声音环境的所述主分类。
14.一种语音检测的方法,包括:
在听力假体处接收输入音频信号,其中所述输入音频信号包括所述听力假体的接受者的话音;
在所述听力假体上从所述输入音频信号计算时变特征;
在所述听力假体上利用自身语音检测决策树分析多个所述时变特征,所述自身语音检测决策树包括多个层级式节点,每个节点使用所述时变特征中的至少一个时变特征执行评估;
接收与所述输入音频信号相关联的标签数据,其中所述标签数据指示所述输入音频信号的哪些时间分段包括所述接受者的所述语音;
分析所述多个所述时变特征和所述标签数据,以针对所述自身语音检测决策树生成针对所述接受者的更新后的权重;以及
利用所述更新后的权重来更新所述自身语音检测决策树。
15.根据权利要求14所述的方法,其中所述自身语音检测决策树被配置用于将在所述听力假体处接收到的输入音频信号的一个或多个时间分段分类为包括所述接受者的所述语音或包括外部语音。
16.根据权利要求14所述的方法,其中所述标签数据是时变的并且与所述多个时变特征时间同步。
17.根据权利要求14所述的方法,其中分析所述多个所述时变特征和所述标签数据以针对所述自身语音检测决策树生成更新后的权重包括:
执行机器学习过程,以基于所述多个所述时变特征和所述标签数据针对所述自身语音检测决策树生成所述更新后的权重。
18.根据权利要求14所述的方法,其中所述更新后的决策树权重在与所述听力假体通信的计算设备处被生成,并且其中利用所述更新后的权重来更新所述自身语音检测决策树包括:
在所述听力假体处接收所述更新后的决策树权重;以及
在所述听力假体的所述自身语音检测决策树中实例化所述更新后的决策树权重。
19.根据权利要求14所述的方法,还包括:
利用已经利用所述更新后的权重被更新的所述自身语音检测决策树,分析在所述听力假体处接收到的一个或多个输入音频信号,以将在所述听力假体处接收到的所述输入音频信号的时间分段分类为包括所述接受者的所述语音或包括外部语音。
20.根据权利要求14所述的方法,其中分析所述多个时变特征和所述标签数据以针对所述自身语音检测决策树生成更新后的权重包括:
在所述听力假体上分析所述多个时变特征和所述标签数据以生成所述更新后的权重。
21.根据权利要求14所述的方法,其中接收与所述输入音频信号相关联的标签数据包括:
接收用户输入,所述用户输入指示在所述听力假体处接收到的所述输入音频信号的哪些时间分段包括所述接受者的所述语音。
22.根据权利要求21所述的方法,其中接收用户输入包括:
从所述听力假体的所述接受者接收输入。
23.根据权利要求21所述的方法,其中接收用户输入包括:
从所述听力假体的所述接受者以外的其他个体接收输入。
24.根据权利要求14所述的方法,其中在所述听力假体上利用自身语音检测决策树来分析多个所述时变特征之前,所述方法包括:
从所述输入音频信号,在所述听力假体上确定与所述输入音频信号相关联的当前声音环境的主分类,其中所述主分类指示所述当前声音环境包括话音信号。
25.根据权利要求24所述的方法,其中确定与所述输入音频信号相关联的当前声音环境的所述主分类包括:
部分地基于与所述输入音频信号相关联的谐波信号功率与总功率之比(STR)的估计,确定所述当前声音环境的所述主分类。
26.根据权利要求24所述的方法,其中确定与所述输入音频信号相关联的当前声音环境的所述主分类包括:
部分地基于与所述输入音频信号相关联的基本频率(F0)的估计,确定所述当前声音环境的所述主分类。
27.一种语音检测的方法,包括:
接收从输入音频信号生成的多个时变特征,所述输入音频信号在听力假体的一个或多个麦克风处被捕获,其中所述输入音频信号包括所述听力假体的接受者的语音;
接收与所述输入音频信号相关联的标签数据,其中所述标签数据指示所述输入音频信号的多个时间分段中的哪些时间分段包括所述接受者的所述语音;
分析所述多个时变特征和所述标签数据,以针对所述听力假体上的自身语音检测决策树生成针对所述接受者的更新后的权重,所述自身语音检测决策树包括多个层级式节点,每个节点使用所述多个时变特征中的至少一个时变特征执行评估;以及
利用所述更新后的权重来更新所述自身语音检测决策树,以生成更新后的自身语音检测决策树。
28.根据权利要求27所述的方法,其中所述自身语音检测决策树被配置为:将在所述听力假体处接收到的输入音频信号的一个或多个时间分段分类为包括所述接受者的所述语音或包括外部语音。
29.根据权利要求27所述的方法,其中所述标签数据是时变的并且与所述多个时变特征时间同步。
30.根据权利要求27所述的方法,其中分析所述多个时变特征和所述标签数据以针对所述听力假体上的自身语音检测决策树生成更新后的权重包括:
执行机器学习过程,以基于所述多个时变特征和所述标签数据针对所述自身语音检测决策树生成所述更新后的权重。
31.根据权利要求27所述的方法,其中所述更新后的决策树权重在与所述听力假体通信的计算设备处被生成,并且其中利用所述更新后的权重来更新所述自身语音检测决策树包括:
将所述更新后的决策树权重发送给所述听力假体。
32.根据权利要求27所述的方法,其中分析所述多个时变特征和所述标签数据以针对所述听力假体上的自身语音检测决策树生成更新后的权重包括:
在所述听力假体上分析所述多个时变特征和所述标签数据,以生成所述更新后的权重。
33.根据权利要求27所述的方法,其中接收与所述输入音频信号相关联的标签数据包括:
接收用户输入,所述用户输入指示在所述听力假体处接收到的所述输入音频信号的哪些时间分段包括所述接受者的所述语音。
CN201980008770.1A 2018-01-16 2019-01-09 听力假体中的个性化自身语音检测 Active CN111615833B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862617750P 2018-01-16 2018-01-16
US62/617,750 2018-01-16
PCT/IB2019/050164 WO2019142072A1 (en) 2018-01-16 2019-01-09 Individualized own voice detection in a hearing prosthesis

Publications (2)

Publication Number Publication Date
CN111615833A CN111615833A (zh) 2020-09-01
CN111615833B true CN111615833B (zh) 2022-03-18

Family

ID=67301376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980008770.1A Active CN111615833B (zh) 2018-01-16 2019-01-09 听力假体中的个性化自身语音检测

Country Status (4)

Country Link
US (2) US11477587B2 (zh)
EP (1) EP3741137A4 (zh)
CN (1) CN111615833B (zh)
WO (1) WO2019142072A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7404664B2 (ja) * 2019-06-07 2023-12-26 ヤマハ株式会社 音声処理装置及び音声処理方法
US11433236B2 (en) * 2019-07-30 2022-09-06 Advanced Bionics Ag Systems and methods for optimizing spectral resolution for a hearing system
WO2022243778A1 (en) * 2021-05-18 2022-11-24 Cochlear Limited System and method for smart broadcast management

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103874002A (zh) * 2012-12-18 2014-06-18 奥迪康有限公司 包括非自然信号减少的音频处理装置
CN105898651A (zh) * 2015-02-13 2016-08-24 奥迪康有限公司 包括用于拾取用户自我话音的分立传声器单元的听力系统
CN106062746A (zh) * 2014-01-06 2016-10-26 哈曼国际工业有限公司 用于用户可控制的听觉环境定制的系统和方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003032681A1 (en) 2001-10-05 2003-04-17 Oticon A/S Method of programming a communication device and a programmable communication device
DK2986033T3 (da) 2005-03-29 2020-11-23 Oticon As Høreapparat til registrering af data og læring der fra
DE102005032274B4 (de) 2005-07-11 2007-05-10 Siemens Audiologische Technik Gmbh Hörvorrichtung und entsprechendes Verfahren zur Eigenstimmendetektion
US8068627B2 (en) 2006-03-14 2011-11-29 Starkey Laboratories, Inc. System for automatic reception enhancement of hearing assistance devices
US8611560B2 (en) 2007-04-13 2013-12-17 Navisense Method and device for voice operated control
US9219964B2 (en) * 2009-04-01 2015-12-22 Starkey Laboratories, Inc. Hearing assistance system with own voice detection
US8477973B2 (en) * 2009-04-01 2013-07-02 Starkey Laboratories, Inc. Hearing assistance system with own voice detection
DK2352312T3 (da) * 2009-12-03 2013-10-21 Oticon As Fremgangsmåde til dynamisk undertrykkelse af omgivende akustisk støj, når der lyttes til elektriske input
US8462969B2 (en) 2010-04-22 2013-06-11 Siemens Audiologische Technik Gmbh Systems and methods for own voice recognition with adaptations for noise robustness
DE102011087984A1 (de) 2011-12-08 2013-06-13 Siemens Medical Instruments Pte. Ltd. Hörvorrichtung mit Sprecheraktivitätserkennung und Verfahren zum Betreiben einer Hörvorrichtung
WO2013138633A1 (en) 2012-03-15 2013-09-19 Regents Of The University Of Minnesota Automated verbal fluency assessment
US9814879B2 (en) 2013-05-13 2017-11-14 Cochlear Limited Method and system for use of hearing prosthesis for linguistic evaluation
EP2849462B1 (en) * 2013-09-17 2017-04-12 Oticon A/s A hearing assistance device comprising an input transducer system
US10433076B2 (en) * 2016-05-30 2019-10-01 Oticon A/S Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
US10631101B2 (en) * 2016-06-09 2020-04-21 Cochlear Limited Advanced scene classification for prosthesis
EP3588981B1 (en) * 2018-06-22 2021-11-24 Oticon A/s A hearing device comprising an acoustic event detector
US11330366B2 (en) * 2020-04-22 2022-05-10 Oticon A/S Portable device comprising a directional system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103874002A (zh) * 2012-12-18 2014-06-18 奥迪康有限公司 包括非自然信号减少的音频处理装置
CN106062746A (zh) * 2014-01-06 2016-10-26 哈曼国际工业有限公司 用于用户可控制的听觉环境定制的系统和方法
CN105898651A (zh) * 2015-02-13 2016-08-24 奥迪康有限公司 包括用于拾取用户自我话音的分立传声器单元的听力系统

Also Published As

Publication number Publication date
EP3741137A1 (en) 2020-11-25
US11477587B2 (en) 2022-10-18
US20210058720A1 (en) 2021-02-25
CN111615833A (zh) 2020-09-01
EP3741137A4 (en) 2021-10-13
WO2019142072A1 (en) 2019-07-25
US20230007415A1 (en) 2023-01-05

Similar Documents

Publication Publication Date Title
US20220240842A1 (en) Utilization of vocal acoustic biomarkers for assistive listening device utilization
US20210030371A1 (en) Speech production and the management/prediction of hearing loss
US20230007415A1 (en) Individualized own voice detection in a hearing prosthesis
US20200269048A1 (en) Implantable cochlear system with integrated components and lead characterization
US10198964B2 (en) Individualized rehabilitation training of a hearing prosthesis recipient
US20230292060A1 (en) Hierarchical environmental classification in a hearing prosthesis
US20230352165A1 (en) Dynamic virtual hearing modelling
US9775998B2 (en) Systems and methods for detecting degradation of a microphone included in an auditory prosthesis system
US20210321208A1 (en) Passive fitting techniques
US11979715B2 (en) Multiple sound source encoding in hearing prostheses
US11632634B2 (en) Feature extraction in hearing prostheses
US10091591B2 (en) Electro-acoustic adaption in a hearing prosthesis
US20220076663A1 (en) Prediction and identification techniques used with a hearing prosthesis
US11877123B2 (en) Audio training
US20220312130A1 (en) Hierarchical environmental classification in a hearing prosthesis
US12022262B2 (en) Feature extraction in hearing prostheses
US20180376257A1 (en) Impulse-aware sound processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant