CN108573708A - 用于促进可靠样式检测的方法和系统 - Google Patents
用于促进可靠样式检测的方法和系统 Download PDFInfo
- Publication number
- CN108573708A CN108573708A CN201810192277.7A CN201810192277A CN108573708A CN 108573708 A CN108573708 A CN 108573708A CN 201810192277 A CN201810192277 A CN 201810192277A CN 108573708 A CN108573708 A CN 108573708A
- Authority
- CN
- China
- Prior art keywords
- artificial neural
- neural network
- output
- reliability
- decision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000001737 promoting effect Effects 0.000 title claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims abstract description 132
- 238000004590 computer program Methods 0.000 claims abstract description 10
- 238000012795 verification Methods 0.000 claims description 9
- 230000003416 augmentation Effects 0.000 claims description 4
- 230000001537 neural effect Effects 0.000 claims description 4
- 238000007689 inspection Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010429 evolutionary process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000005389 magnetism Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 210000003733 optic disk Anatomy 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/086—Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Signal Processing (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Physiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Image Analysis (AREA)
- Telephonic Communication Services (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
根据本公开的第一方面,构想一种用于促进一个或多个时间序列样式的检测的方法,包括构建一个或多个人工神经网络,其中,对于待检测的至少一个时间序列样式,构建所述人工神经网络中的特定一个人工神经网络,所述人工神经网络中的所述特定一个人工神经网络被配置成产生决策输出和可靠性输出,其中所述可靠性输出指示所述决策输出的可靠性。根据本公开的第二方面,提供一种对应计算机程序。根据本公开的第三方面,提供一种用于促进一个或多个时间序列样式的检测的对应系统。
Description
技术领域
本公开涉及一种用于促进一个或多个时间序列样式的检测的方法。此外,本公开涉及一种对应计算机程序和一种对应系统。
背景技术
时间序列样式是遍及连续时间间隔从跨越所述间隔的连续测量当中产生的数据点的样式,所述产生是使用每两个相继测量之间的相等间距而进行且其中所述时间间隔内的每个时间单位具有至多一个数据点。时间序列样式的例子是音频样式,例如声音样式和人类语音样式。可有用的是检测特定时间序列样式,例如以便辨识特定事件或情境(例如,启动汽车或存在于运行的汽车中)且区分和识别不同的说话者。此外,可有用的是使此类检测较容易且较可靠。
发明内容
根据本公开的第一方面,构想一种用于促进一个或多个时间序列样式的检测的方法,所述方法包括构建一个或多个人工神经网络,其中,对于待检测的至少一个时间序列样式,构建所述人工神经网络中的特定一个人工神经网络,所述人工神经网络中的所述特定一个人工神经网络被配置成产生决策输出和可靠性输出,其中所述可靠性输出指示所述决策输出的可靠性。
在一个或多个实施例中,所述人工神经网络中的所述特定一个人工神经网络包括决策输出单元和可靠性输出单元,其中所述决策输出单元被配置成产生所述决策输出,且其中所述可靠性输出单元被配置成产生所述可靠性输出。
在一个或多个实施例中,所述人工神经网络中的所述特定一个人工神经网络被配置成基于所述可靠性输出而向所述决策输出指派权重。
在一个或多个实施例中,所述人工神经网络中的所述特定一个人工神经网络被配置成基于所述可靠性输出而忽略所述决策输出。
在一个或多个实施例中,构建所述人工神经网络包括采用增广拓扑神经进化。
在一个或多个实施例中,存储所述人工神经网络以用于检测任务中的后续使用。
在一个或多个实施例中,待检测的每个时间序列样式表示所述检测任务的类别。
在一个或多个实施例中,所述时间序列样式是音频样式。
在一个或多个实施例中,提供原始时间序列信号作为对所构建的每个人工神经网络的输入。
在一个或多个实施例中,所述音频样式包括以下各项的群组中的至少一个:有声语音、无声语音、用户特定语音、情境声音、声音事件。
在一个或多个实施例中,所述时间序列样式的所述检测形成说话者认证功能的部分。
在一个或多个实施例中,对于待认证的每个说话者,构建至少一个人工神经网络以用于检测所述说话者的语音片段。
在一个或多个实施例中,对于待认证的每个说话者,构建人工神经网络以用于检测所述说话者的有声语音片段,且构建另一人工神经网络以用于检测所述说话者的无声语音片段。
根据本公开的第二方面,提供一种计算机程序,所述计算机程序包括非暂时性指令,所述非暂时性指令在执行时实行或控制所阐述的种类的方法。
根据本公开的第三方面,提供一种用于促进一个或多个时间序列样式的检测的系统,所述系统包括网络构建单元,所述网络构建单元被配置成构建一个或多个人工神经网络,其中,对于待检测的至少一个时间序列样式,所述网络构建单元被配置成构建所述人工神经网络中的特定一个人工神经网络,所述人工神经网络中的所述特定一个人工神经网络被配置成产生决策输出和可靠性输出,其中所述可靠性输出指示所述决策输出的可靠性。
附图说明
将参考附图来更详细地描述实施例,在附图中:
图1示出样式检测促进方法的说明性实施例;
图2示出样式检测促进方法的另一说明性实施例;
图3示出样式检测促进系统的说明性实施例;
图4示出样式检测系统的说明性实施例;
图5(A)到(C)示出人工神经网络的说明性实施例;
图6示出人工神经网络的另一说明性实施例;
图7示出人工神经网络的另外说明性实施例。
具体实施方式
如上文所提及,可有用的是使时间序列样式的检测较容易且较可靠。举例来说,为了辨识特定音频事件或情境且区分和识别不同的说话者,可能有必要检测音频信号中的特定时间序列样式。这应以可靠方式而完成以避免错误识别。
在例子中,在对输入信号分类之前根据输入信号计算一组特征。所谓的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient;MFCC)是此类特征的例子。接着,将所提取的特征提供到执行分类任务的分类器。特征的提取会减少输入维数,这又会促进分类任务。然而,减少输入维数也可能会负面地影响样式检测过程。举例来说,在说话者认证任务的状况下,无论目标说话者是谁,都提取同一组特征。这会妨碍捕获对于给定说话者极为特定的特性,这又可能会引起错误识别。根据本公开,构建对于对应于目标说话者的时间序列样式为特定的人工神经网络(ANN)会促进捕获对于所述说话者为特定的特性。具体地说,随后可将特定ANN用作分类器,分类器可接收输入信号(例如,尚未由特征提取器预处理的原始输入信号),且可检测所述信号内的对应于目标说话者的时间序列样式。应注意,可至少部分地由计算机程序以如本文中作为例子而描述的方式构建ANN。本发明人已发现,本发明所公开的方法和对应系统尤其适合于促进音频样式的检测;然而,它们的应用并不限于此情形。
此外,根据本公开,使ANN进化,使得其产生决策输出和可靠性输出,其中可靠性输出指示决策输出的可靠性。在实用且高效的实施方案中,ANN包括决策输出单元和可靠性输出单元。在那种状况下,决策输出单元被配置成产生决策输出,且可靠性输出单元被配置成产生可靠性输出。决策输出表示检测决策,例如指示当前时间序列输入与目标样式匹配的程度或范围的值。可靠性输出指示决策输出的可靠度。换句话说,可靠性输出指示决策输出对于检测任务中的实际使用的合适度。因此,可靠性输出可被称为可靠性指示符。
举例来说,可以设想,音频样式的一些样本相比于其它样本更适合用于说话者认证任务。举例来说,包含有声片段的输入样本-即,像元音一样的-很可能是合适的,这是因为不同的说话者以极其不同的方式说出这些声音。与此对比,包含静默时段的输入样本很可能较不适合用于说话者认证任务。根据本公开,使ANN进化,其目的是指示输出样本的可靠性的不同程度。在此例子中,进化的ANN将在有声输入和静默两者期间输出检测决策和可靠性指示符。在有声输入期间,ANN可输出具有高值的可靠性指示符,这是因为ANN的输出在那一时刻可能高度地可靠。在静默期间,ANN可输出具有低值的可靠性指示符,这是因为ANN的输出在那一时刻可能不可靠。举例来说,这些可靠性指示符可用以向相应检测决策指派权重。因此,在一个或多个实施例中,ANN被配置成基于可靠性输出而向决策输出指派权重。而且,可靠性指示符可用于忽略不合适的输出样本。因此,在一个或多个实施例中,ANN被配置成基于可靠性输出而忽略决策输出。这些可靠性输出允许使始终无需输出可靠决策的网络进化。应强调,留待进化过程来构建可靠性输出的行为。以上例子仅是此行为对于说话者认证任务可以是什么的设想。
图1示出样式检测促进方法100的说明性实施例。方法100包括:在102处,选择待检测的时间序列样式。举例来说,选定时间序列样式可以是音频样式,尤其是用户特定语音、有声语音(元音)、无声语音(辅音)、情境声音(例如,运行的汽车)或声音事件(例如,启动汽车)。此外,方法100包括:在104处,对于选定时间序列样式构建ANN。如上文所提及,ANN被配置成产生至少两个输出;可靠性输出指示决策输出的可靠性。接着,在106处,检查是否应检测更多时间序列样式。如果是,那么方法100对于待检测的每个另外时间序列样式重复步骤102和104。如果没有待检测的更多样式,那么方法100结束。
在一个或多个实施例中,构建ANN包括采用增广拓扑神经进化(NEAT)。以此方式较易于找到选定时间序列样式的特异性且所得ANN可具有最小拓扑,使得可节省计算资源。神经进化是指用于使用遗传算法人工地使神经网络进化的方法。在应用此类方法时获得的产品被称为人工神经网络(ANN);本文中参考图5(A)到(C)来描述简单的例子ANN。此外,NEAT是指神经进化方法,其中使进化的神经网络的结构递增地生长,使得可最小化网络的拓扑。更具体地说,可使网络节点的数目和网络节点之间的连接保持为最小值,而网络仍执行所需任务。NEAT方法已尤其在US 2008/0267419 A1以及Kenneth O.Stanley和RistoMiikkulainen在2002年夏季的期刊《进化计算(Evolutionary Computation)》第10卷第2期第99到127页中的论文“通过增广拓扑使神经网络进化(Evolving Neural Networksthrough Augmenting Topologies)”中予以描述。
图2示出样式检测促进方法200的另一说明性实施例。除了图1中已经示出的步骤102、104、106之外,方法200还包括:在202处,存储在步骤104中构建的每个ANN以用于后续使用。由此,可促进在样式检测任务中使用一个ANN或多个ANN。一个ANN或多个ANN可例如存储在执行所述样式检测任务的样式检测系统或样式检测装置的存储器中。
在一个或多个实施例中,待检测的每个时间序列样式表示样式检测任务的类别。因此,更具体地说对于检测任务的每个类别可使单独ANN进化;ANN因此有效地构成所述类别的模型。通常,对于给定任务,样式检测器针对所有类别提取同一组特征。换句话说,取决于给定特征向量在固定空间中的坐标,给定特征向量将被分类为属于类别C。这意味着:举例来说,在音频情境辨识任务中,在同一特征空间内区分类别“汽车”与类别“办公室”。在说话者认证任务中,在同一特征空间内认证说话者A和说话者B。也就是说,在对于说话者B是同一个的空间内区分说话者A与任何其它说话者。在这两个例子中,对于所有类别使用同一特征空间会减少利用每个类别的特异性的能力。通过对于检测任务的每个类别或每个说话者使单独ANN进化,可避免此情形。此外,在一个或多个实施例中,提供原始时间序列信号作为对所构建的每个人工神经网络的输入。在那种状况下,留待网络来提取用于待检测的样式的相关特征,且更可能的是捕获所述样式的特定特性。也就是说,可省略前述常用的特征提取器。
图3示出样式检测促进系统300的说明性实施例。系统300包括以操作方式耦合到存储单元304的网络构建单元302。网络构建单元302被配置成构建一个或多个ANN。具体地说,网络构建单元302被配置成对于待检测的每个选定时间序列样式构建特定ANN。此外,网络构建单元302可被配置成将一个ANN或多个ANN存储在存储单元304中。存储单元304可以是适合于集成到系统300中的任何存储器。
图4示出样式检测系统400的说明性实施例。样式检测系统400包括图3所示出的样式检测促进系统300。样式检测促进系统300可构建和存储对于待检测的选定时间序列样式为特定的一个或多个ANN;这可例如在样式检测系统400的训练或登记模式中完成。此外,样式检测系统400包括以操作方式耦合到存储单元304的样式检测单元402。样式检测单元402可在提供到所述样式检测单元402的输入信号中检测一个或多个时间序列样式,且输出一个或多个对应检测决策。这可例如在样式检测系统400的操作模式中完成。在实用且高效的实施方案中,检测决策可由简单的布尔变量(Boolean variable)表示:一个值可表示“检测到样式”决策,而另一值可表示“未检测到样式”决策。检测决策还可由多个值表示,其中每个值指示当前时间序列输入与目标样式匹配的程度或范围。
图5(A)到(C)示出人工神经网络的说明性实施例。具体地说,它们示出可根据本公开而进化的ANN的例子。每个网络节点N1到N5表示形成样式检测任务的部分的处理元件。每个处理元件对其所接收的输入执行功能。在ANN的领域中,图5(B)中的网络节点N4以及图5(C)中的N4和N5常常被称为隐藏节点。此外,网络节点N1到N5通过具有某一权重w12、w13、w14、w42、w43、w15、w52、w53的连接而彼此连接。根据ANN的原理,将对处理元件的输入乘以接收到所述输入所通过的连接的权重。根据NEAT的原理,使进化的ANN递增地生长。举例来说,最初可选择简单的ANN,如图5(A)所示出,且可借助于拟合性函数来测试此简单的ANN是否将正确地检测选定样式。如果拟合性函数具有低于某一阈值的输出,那么可例如通过在遵循进化试探法的情况下添加一个或多个网络节点和/或连接而扩展开发中的ANN。举例来说,可将图5(A)的简单的ANN扩展到图5(B)所示出的ANN。再次,可借助于所述拟合性函数来测试ANN是否将正确地检测选定样式。如果为否,那么可将开发中的ANN再次扩展到例如图5(C)所示出的ANN。最终,此迭代过程可得到正确地检测选定样式的另一ANN(未示出)。应注意,图5(A)到(C)所示出的过程是简化过程。实际上,举例来说,隐藏节点未必被“平行地”(即,跨越单个层)添加,但它们可遵循任何拓扑。此外,连接未必是正向连接,但它们也可为反复出现的。
在以下阐释中,术语“单元”是指ANN中的节点。具体地说,术语“输入单元”是指接收用于整个ANN的输入的节点,例如图5(A)到(C)中的节点N1。此输入不应与如上文所论述的ANN的个别节点的(加权)输入混淆。此外,术语“输出单元”是指产生ANN的输出的节点,例如图5(A)到(C)中的节点N2和N3。应注意,ANN可具有多个输入和/或多个输出。根据本公开,可靠性输出(由输出单元N3产生)指示决策输出(由输出单元N2产生)的可靠性。
一般来说,NEAT需要指定优化设置。具体地说,应指定以下各项:
-将进化的ANN的输入单元的数目;
-将进化的ANN的输出单元的数目;
-拟合性函数,其用以评估和识别进化的个别ANN的群体之中的最佳解。
在简单的实施方案中,本发明所公开的方法和系统可使用NEAT以使采取以下各项的ANN进化:单个输入,即,时间序列输入信号的一个样本;以及两个输出,即,检测决策和可靠性指示符。对于给定的一代,将使用拟合性函数来评估解候选者的群体中的每个个体。因此,此拟合性函数应反映打算实际上使用ANN的方式。
说话者认证问题可被视为例子。拟合性函数可将长度N的测试语音信号馈送到考虑中的个别ANN中且评估其输出。为了这样做,在ANN的输入处一个接一个地放置测试语音信号的每个样本(即,每个输入样本),且将执行一个单激活步骤。激活步骤由以下各项组成:将每个单元的输出(包括输入单元的输出和偏置单元的输出)传播到与它们连接的单元,且接着更新所有单元的输出(包括输出单元的输出)。偏置单元是具有通常为1的常数值的输入单元。其准许通过从偏置单元创建连接而将任何常数值与网络中的任何单元的输入相加。
通过重复此操作直到已将整个输入信号馈送到网络中且在每个步骤处从输出单元N2和N3当中读取值,会获得输出信号。假设input[i]是输入信号的第i个样本以及outputD[i]是来自输出单元N2的决策输出且outputR[i]是来自用于同一样本的输出单元N3的可靠性输出。让我们首先遍及K个样本的滑动窗口计算平均加权决策outputW[i]:
假定输出单元N2和N3借助于例如无符号S形激活函数分别得到在[0,1]范围内的outputD和outputR值,且因此outputW具有在所述同一范围内的值,那么最简单的拟合性值可被表达为:
其中truth[i]在input[i]对应于目标说话者时等于1且在input[i]对应于另一(非目标)说话者时等于0,且不以其它方式予以限定(例如在静默期间或在仅存在非口声时)。返回此值作为评估中的个体的拟合性。
所提议的评估算法可被概括为:
0.以指针i=0开始
1.放置input[i]作为ANN的输入单元的输出
2.执行ANN的一个激活步骤
3.存储输出单元N2和N3的输出分别作为outputD[i]和outputR[i]
4.如果i<N-1,那么将i增加1且转到步骤1
5.计算平均加权决策outputW
6.计算和返回用于此个体的拟合性
一旦已评估当前一代的群体的所有个体,就保持具有较高拟合性的那些个体以产生下一代的群体。在当前一代的冠军给出令人满意的结果时(例如,在冠军的拟合性值超过预定义阈值时),优化过程已结束。在此例子中,此冠军是被存储以用于样式检测任务中的后续使用的进化的ANN。
根据本公开,对于待检测的每个类别可执行此优化过程。在采取说话者认证任务的例子的情况下,对于待认证的每个说话者可使ANN进化。测试输入信号是语音信号,其中每个样本是由目标说话者或由非目标(顶替者)说话者组群中的一个说话者说出的语音片段的部分。为了改善关于说话者认证任务的性能,对于每个说话者可使两个ANN进化:一个ANN用以在有声片段上认证,且一个ANN用以在无声片段上认证。
图6示出人工神经网络600的另一说明性实施例。ANN 600包括多个网络节点:偏置节点、输入节点、多个中间节点(未示出)、决策输出节点(输出单元)和可靠性输出节点(输出单元)。决策输出节点产生表示检测决策的决策输出(输出1)。可靠性输出节点产生表示可靠性指示符的可靠性输出(输出2)。在此例子中,加权相当于取决于可靠性输出(输出2)的值而向检测决策指派权重。由于时间序列输入包括一系列样本且ANN针对此时间序列输入的每个样本输出检测决策和可靠性指示符,故检测系统的最终输出可以是随时间的加权检测决策的平均值。
图7示出人工神经网络700的另外说明性实施例。ANN 700包括多个网络节点:偏置节点、输入节点、多个中间节点(未示出)、决策输出节点(输出单元)和可靠性输出节点(输出单元)。决策输出节点产生表示检测决策的决策输出(输出1)。可靠性输出节点产生表示可靠性指示符或门控的可靠性输出(输出2)。在此例子中,门控相当于比较可靠性输出的值与阈值τ。如果可靠性输出的值超过阈值τ,那么保持决策输出;否则忽略决策输出。检测系统的最终输出可以是随时间而保持的检测决策的平均值。
在本发明所公开的方法和系统的更复杂的应用中,将进化的ANN可尤其在使用比如HyperNEAT的NEAT变体时具有多个输入,和/或具有多个决策输出。在ANN被预期为不输出决策值而是输出意欲馈送到例如支持向量机(SVM)的后续分类器中的特征向量时,多个决策输出是尤其有用的。接着可将此分类器的训练和测试包括在拟合性函数中。
应注意,在一些应用中,可能存在若干决策输出。举例来说,可训练网络以辨识家中家族成员中的任一个成员的话音。接着,可将网络设置成具有每成员一个决策输出加上一个可靠性输出。一般来说,可将网络设置为具有每类别一个决策输出加上一个可靠性输出。所检测的类别是平均加权决策具有最高值的类别。应注意,在二进制问题的特定状况下,类似于说话者认证,网络可被设置成具有单个决策输出加上可靠性输出,或其可被设置为具有两个决策输出(一个决策输出用于目标类别且一个决策输出用于非目标类别)和一个可靠性输出。
如上文所提及,本发明所公开的方法和系统尤其有用于促进音频样式的检测。举例来说,设想本发明所公开的方法和系统的以下使用状况:音频情境辨识(例如,汽车、办公室、公园)、预定义音频样式辨识(例如,婴儿啼声、玻璃破碎、火警)、说话者认证/辨识、话音活动检测(即,信号中的语音存在的检测),以及发声概率(即,语音信号中的元音/辅音差别)。
本文中所描述的系统和方法可至少部分地由一个计算机程序或多个计算机程序体现,所述计算机程序可在单个计算机系统中或跨越多个计算机系统以活动和非活动两种状态呈多种形式而存在。举例来说,它们可作为包括程序指令的软件程序以源代码、目标代码、可执行代码或用于执行一些步骤的其它格式而存在。以上格式中的任一个格式可以压缩或未压缩形式体现在计算机可读媒体上,所述计算机可读媒体可包括存储装置和信号。
如本文中所使用,术语“移动装置”是指任何类型的便携式电子装置,包括蜂窝式电话、个人数字助理(PDA)、智能手机、平板电脑等等。此外,术语“计算机”是指包括例如通用中央处理单元(CPU)、专用处理器或微控制器的处理器的任何电子装置。计算机能够接收数据(输入),能够对数据执行一系列预定操作,且能够由此产生呈信息或信号形式的结果(输出)。取决于上下文,术语“计算机”将意指尤其是处理器或更一般地是与单个机箱或壳体内包含的相关元件的组装件相关联的处理器。
术语“处理器”或“处理单元”是指数据处理电路,所述数据处理电路可以是微处理器、协处理器、微控制器、微型计算机、中央处理单元、现场可编程门阵列(FPGA)、可编程逻辑电路和/或基于存储在存储器中的操作指令来操纵信号(模拟或数字)的任何电路。术语“存储器”是指一个存储电路或多个存储电路,例如只读存储器、随机存取存储器、易失性存储器、非易失性存储器、静态存储器、动态存储器、闪速存储器、高速缓冲存储器和/或存储数字信息的任何电路。
如本文中所使用,“计算机可读媒体”或“存储媒体”可以是能够包含、存储、传达、传播或输送计算机程序以供指令执行系统、设备或装置使用或结合指令执行系统、设备或装置而使用的任何构件。计算机可读媒体可以是例如但不限于电子、磁性、光学、电磁、红外或半导体系统、设备、装置或传播媒体。计算机可读媒体的更特定的例子(非穷尽性列表)可包括以下各项:具有一个或多个导线的电连接、便携式计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CDROM)、数字多功能光盘(DVD)、蓝光光盘(BD)以及存储卡。
应注意,以上实施例已参考不同主题予以描述。具体地说,一些实施例可能已参考方法型权利要求予以描述,而其它实施例可能已参考设备型权利要求予以描述。然而,本领域的技术人员将从上述内容了解到,除非另有指示,否则除了属于一种类型的主题的特征的任何组合之外,与不同主题相关的特征的任何组合,尤其是方法型权利要求的特征和设备型权利要求的特征的组合,也被视为与此文档一起公开。
此外,应注意,图式是示意性的。在不同图式中,相似或相同的元件具有相同的附图标记。此外,应注意,为了提供对说明性实施例的简洁描述,可能尚未描述属于本领域的技术人员的惯例的实施细节。应了解,在任何此类实施方案的开发中,如在任何工程或设计项目中,必须制定大量实施方案特定决策以便实现开发者的特定目标,例如遵守系统相关和商业相关约束,所述约束可随不同实施方案而变化。此外,应了解,此类开发工作可能是复杂且耗时的,但仍然是本领域的技术人员进行设计、制作和制造的例行任务。
最后,应注意,本领域的技术人员将能够在不脱离所附权利要求书的范围的情况下设计许多可替换的实施例。在权利要求书中,置于圆括号之间的任何附图标记不应被认作限制权利要求。词语“包括”并不排除除了在权利要求中列出的那些元件或步骤之外的元件或步骤的存在。在元件之前的词语“一”并不排除多个此类元件的存在。权利要求书中叙述的措施可借助于包括若干相异元件的硬件和/或借助于经合适编程的处理器实施。在列举若干构件的装置权利要求中,可由硬件的同一个物件体现若干这些构件。在相互不同的从属权利要求中叙述某些措施的纯粹事实并不指示不能有利地使用这些措施的组合。
附图标记列表
100 样式检测促进方法
102 选择待检测的时间序列样式
104 对于待检测的时间序列样式构建人工神经网络
106 将检测更多样式?
200 样式检测促进方法
202 存储人工神经网络以用于后续使用
300 样式检测促进系统
302 网络构建单元
304 存储单元
400 样式检测系统
402 样式检测单元
N1-N5 网络节点
w12 连接权重
w13 连接权重
w14 连接权重
w42 连接权重
w43 连接权重
w15 连接权重
w52 连接权重
W53 连接权重
600 人工神经网络
700 人工神经网络
Claims (10)
1.一种用于促进一个或多个时间序列样式的检测的方法,其特征在于,包括构建一个或多个人工神经网络,其中,对于待检测的至少一个时间序列样式,构建所述人工神经网络中的特定一个人工神经网络,所述人工神经网络中的所述特定一个人工神经网络被配置成产生决策输出和可靠性输出,其中所述可靠性输出指示所述决策输出的可靠性。
2.根据权利要求1所述的方法,其特征在于,所述人工神经网络中的所述特定一个人工神经网络包括决策输出单元和可靠性输出单元,其中所述决策输出单元被配置成产生所述决策输出,且其中所述可靠性输出单元被配置成产生所述可靠性输出。
3.根据权利要求1或2所述的方法,其特征在于,所述人工神经网络中的所述特定一个人工神经网络被配置成基于所述可靠性输出而向所述决策输出指派权重。
4.根据在前的任一项权利要求所述的方法,其特征在于,所述人工神经网络中的所述特定一个人工神经网络被配置成基于所述可靠性输出而忽略所述决策输出。
5.根据在前的任一项权利要求所述的方法,其特征在于,构建所述人工神经网络包括采用增广拓扑神经进化。
6.根据在前的任一项权利要求所述的方法,其特征在于,提供原始时间序列信号作为对所构建的每个人工神经网络的输入。
7.根据在前的任一项权利要求所述的方法,其特征在于,所述时间序列样式的所述检测形成说话者认证功能的部分。
8.根据权利要求7所述的方法,其特征在于,对于待认证的每个说话者,构建至少一个人工神经网络以用于检测所述说话者的语音片段。
9.一种计算机程序,其特征在于,包括非暂时性指令,所述非暂时性指令在执行时实行或控制根据在前的任一项权利要求所述的方法。
10.一种用于促进一个或多个时间序列样式的检测的系统,其特征在于,包括网络构建单元,所述网络构建单元被配置成构建一个或多个人工神经网络,其中,对于待检测的至少一个时间序列样式,所述网络构建单元被配置成构建所述人工神经网络中的特定一个人工神经网络,所述人工神经网络中的所述特定一个人工神经网络被配置成产生决策输出和可靠性输出,其中所述可靠性输出指示所述决策输出的可靠性。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17305247.3A EP3373208A1 (en) | 2017-03-08 | 2017-03-08 | Method and system for facilitating reliable pattern detection |
EP17305247.3 | 2017-03-08 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108573708A true CN108573708A (zh) | 2018-09-25 |
Family
ID=58360943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810192277.7A Withdrawn CN108573708A (zh) | 2017-03-08 | 2018-03-08 | 用于促进可靠样式检测的方法和系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10529339B2 (zh) |
EP (1) | EP3373208A1 (zh) |
CN (1) | CN108573708A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070867A (zh) * | 2019-04-26 | 2019-07-30 | 珠海普林芯驰科技有限公司 | 语音指令识别方法、计算机装置及计算机可读存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109801094B (zh) * | 2018-12-07 | 2021-06-08 | 珠海中科先进技术研究院有限公司 | 一种商业分析管理推荐预测模型的方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01138597A (ja) * | 1987-11-25 | 1989-05-31 | Nec Corp | 連続音声認識方式 |
CN1192309A (zh) * | 1995-07-27 | 1998-09-02 | 英国电讯公司 | 信号质量的评估 |
WO1998054694A1 (en) * | 1997-05-27 | 1998-12-03 | Ameritech, Inc. | Speaker verification method using multiple class groups |
US20140201126A1 (en) * | 2012-09-15 | 2014-07-17 | Lotfi A. Zadeh | Methods and Systems for Applications for Z-numbers |
US20150106310A1 (en) * | 2013-10-16 | 2015-04-16 | University Of Tennessee Research Foundation | Method and apparatus for constructing a neuroscience-inspired artificial neural network |
CN104903954A (zh) * | 2013-01-10 | 2015-09-09 | 感官公司 | 使用基于人工神经网络的亚语音单位区分的说话人验证及识别 |
CN106157972A (zh) * | 2015-05-12 | 2016-11-23 | 恩智浦有限公司 | 使用局部二进制模式进行声学情境辨识的方法和设备 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05346915A (ja) * | 1992-01-30 | 1993-12-27 | Ricoh Co Ltd | 学習機械並びにニューラルネットワークおよびデータ分析装置並びにデータ分析方法 |
KR100762596B1 (ko) * | 2006-04-05 | 2007-10-01 | 삼성전자주식회사 | 음성 신호 전처리 시스템 및 음성 신호 특징 정보 추출방법 |
US8600068B2 (en) | 2007-04-30 | 2013-12-03 | University Of Central Florida Research Foundation, Inc. | Systems and methods for inducing effects in a signal |
EP2691861A4 (en) * | 2011-03-30 | 2015-01-14 | Irdeto Bv | PROCEDURE FOR SAFEGUARDING A MEMORY FROM POOR ATTACK |
US10453479B2 (en) * | 2011-09-23 | 2019-10-22 | Lessac Technologies, Inc. | Methods for aligning expressive speech utterances with text and systems therefor |
US9953661B2 (en) * | 2014-09-26 | 2018-04-24 | Cirrus Logic Inc. | Neural network voice activity detection employing running range normalization |
WO2017035380A1 (en) * | 2015-08-25 | 2017-03-02 | Ryskamp Innovations, LLC | Systems and methods for machine learning |
US10157629B2 (en) * | 2016-02-05 | 2018-12-18 | Brainchip Inc. | Low power neuromorphic voice activation system and method |
EP3267438B1 (en) | 2016-07-05 | 2020-11-25 | Nxp B.V. | Speaker authentication with artificial neural networks |
US10943148B2 (en) * | 2016-12-02 | 2021-03-09 | Apple Inc. | Inspection neural network for assessing neural network reliability |
US10497382B2 (en) * | 2016-12-16 | 2019-12-03 | Google Llc | Associating faces with voices for speaker diarization within videos |
-
2017
- 2017-03-08 EP EP17305247.3A patent/EP3373208A1/en not_active Ceased
-
2018
- 2018-02-28 US US15/908,382 patent/US10529339B2/en active Active
- 2018-03-08 CN CN201810192277.7A patent/CN108573708A/zh not_active Withdrawn
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01138597A (ja) * | 1987-11-25 | 1989-05-31 | Nec Corp | 連続音声認識方式 |
CN1192309A (zh) * | 1995-07-27 | 1998-09-02 | 英国电讯公司 | 信号质量的评估 |
WO1998054694A1 (en) * | 1997-05-27 | 1998-12-03 | Ameritech, Inc. | Speaker verification method using multiple class groups |
US6076055A (en) * | 1997-05-27 | 2000-06-13 | Ameritech | Speaker verification method |
US20140201126A1 (en) * | 2012-09-15 | 2014-07-17 | Lotfi A. Zadeh | Methods and Systems for Applications for Z-numbers |
CN104903954A (zh) * | 2013-01-10 | 2015-09-09 | 感官公司 | 使用基于人工神经网络的亚语音单位区分的说话人验证及识别 |
US20150106310A1 (en) * | 2013-10-16 | 2015-04-16 | University Of Tennessee Research Foundation | Method and apparatus for constructing a neuroscience-inspired artificial neural network |
US20150106311A1 (en) * | 2013-10-16 | 2015-04-16 | University Of Tennessee Research Foundation | Method and apparatus for constructing, using and reusing components and structures of an artifical neural network |
CN106157972A (zh) * | 2015-05-12 | 2016-11-23 | 恩智浦有限公司 | 使用局部二进制模式进行声学情境辨识的方法和设备 |
Non-Patent Citations (2)
Title |
---|
JUAN XU ETAL: "Speaker Identification with Whispered Speech", 《2012 INTERNATIONAL CONFERENCE ON IMAGE ANALYSIS AND SIGNAL PROCESSING》 * |
KENNETH O. STANLEY ETAL: "Evolving Neural Networks through Augmenting Topologies", 《THE JOURNAL EVOLUTIONRY COMPUTATION》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070867A (zh) * | 2019-04-26 | 2019-07-30 | 珠海普林芯驰科技有限公司 | 语音指令识别方法、计算机装置及计算机可读存储介质 |
CN110070867B (zh) * | 2019-04-26 | 2022-03-11 | 珠海普林芯驰科技有限公司 | 语音指令识别方法、计算机装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20180261228A1 (en) | 2018-09-13 |
US10529339B2 (en) | 2020-01-07 |
EP3373208A1 (en) | 2018-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7110292B2 (ja) | 話者検証のためのニューラルネットワーク | |
JP6980119B2 (ja) | 音声認識方法、並びにその装置、デバイス、記憶媒体及びプログラム | |
CN111292728B (zh) | 语音识别方法和设备 | |
JP7173758B2 (ja) | 個人化された音声認識方法及びこれを行うユーザ端末及びサーバ | |
JP6464650B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
Sun et al. | Ensemble softmax regression model for speech emotion recognition | |
US9595261B2 (en) | Pattern recognition device, pattern recognition method, and computer program product | |
US20200020327A1 (en) | Method and apparatus for recognizing a voice | |
JP2017059205A (ja) | 主題推定システム、主題推定方法およびプログラム | |
US11455998B1 (en) | Sensitive data control | |
CN110544468B (zh) | 应用唤醒方法、装置、存储介质及电子设备 | |
KR20210050884A (ko) | 화자 인식을 위한 등록 방법 및 장치 | |
CN107578774A (zh) | 用于促进对时间序列模式的检测的方法和系统 | |
JP5996152B2 (ja) | 音声認識システム及び音声認識方法 | |
GB2576960A (en) | Speaker recognition | |
CN108573708A (zh) | 用于促进可靠样式检测的方法和系统 | |
CN110580897B (zh) | 音频校验方法、装置、存储介质及电子设备 | |
CN111243604A (zh) | 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统 | |
CN112037772B (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
JP4143541B2 (ja) | 動作モデルを使用して非煩雑的に話者を検証するための方法及びシステム | |
KR20230108894A (ko) | 비대면 상담에서의 신원을 확인하기 위한 방법 | |
Rajasekhar et al. | A novel speech emotion recognition model using mean update of particle swarm and whale optimization-based deep belief network | |
CN116529812A (zh) | 用于针对由自动语音识别系统处理的语音命令检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质 | |
US10950231B1 (en) | Skill enablement | |
KR102429891B1 (ko) | 음성 인식 장치 및 그것의 동작 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180925 |
|
WW01 | Invention patent application withdrawn after publication |