CN102308307B - 用于模式发现和识别的方法 - Google Patents
用于模式发现和识别的方法 Download PDFInfo
- Publication number
- CN102308307B CN102308307B CN200980156251.6A CN200980156251A CN102308307B CN 102308307 B CN102308307 B CN 102308307B CN 200980156251 A CN200980156251 A CN 200980156251A CN 102308307 B CN102308307 B CN 102308307B
- Authority
- CN
- China
- Prior art keywords
- label
- matrix
- probability
- processor
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000007704 transition Effects 0.000 claims abstract description 49
- 239000011159 matrix material Substances 0.000 claims description 72
- 238000012546 transfer Methods 0.000 claims description 29
- 238000011002 quantification Methods 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims 2
- 230000004913 activation Effects 0.000 abstract description 19
- 238000004590 computer program Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 24
- 230000006870 function Effects 0.000 description 13
- 238000012549 training Methods 0.000 description 12
- 230000003213 activating effect Effects 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 238000003909 pattern recognition Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 4
- 238000013179 statistical model Methods 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- UPLPHRJJTCUQAY-WIRWPRASSA-N 2,3-thioepoxy madol Chemical compound C([C@@H]1CC2)[C@@H]3S[C@@H]3C[C@]1(C)[C@@H]1[C@@H]2[C@@H]2CC[C@](C)(O)[C@@]2(C)CC1 UPLPHRJJTCUQAY-WIRWPRASSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/196—Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
- G06V30/1983—Syntactic or structural pattern recognition, e.g. symbolic string recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及用于模式发现和识别的方法,其中接收包括与概念相关的第一序列符号的第一序列和与第一序列相关联的标签,从表示第一序列中不同距离的第一序列符号之间的转移出现的频率数据的转移频率矩阵中获得转移概率矩阵,并且学习每个标签和每个距离的转移概率矩阵以便获得确定出现在第二序列中的概念的激活函数。本发明还涉及计算机程序产品和执行所述模式发现和识别方法的设备。
Description
技术领域
本发明涉及一种用于模式发现和识别的方法。本发明还涉及用于模式发现和识别的计算机程序产品。而且,本发明涉及一种用于模式发现和识别的设备。
背景技术
所有模式发现方法中的基本思想都是模型化统计规则性并将模型与实际表示相比较以便度量所创建(学习)的模型与在分析中的当前模式之间的相似性。
用于模型化和识别序列中模式的已知方法和技术之一是马尔可夫模型,其假设要模型化的序列具有马尔可夫性质。具有马尔可夫性质意味着,给定当前状态,将来状态就独立于过去状态。换句话说,仅有当前状态的描述就完全获取了可能影响过程的将来演化的所有信息。将通过概率过程而不是确定性过程到达将来状态。
在每个步骤,系统可根据某一概率分布将其状态从当前状态改变为另一状态,或保持在同一状态。状态的改变称为转移,并且与各种状态改变相关联的概率称为转移概率。
许多物理过程和由物理过程创建的对应可观察序列具有强结构,诸如可通过高阶相关系数度量的时间结构。因此,根据所用的时间分辨率,所创建的序列可能具有宽结构(在时间或空间上),其不能由将来状态独立于过去状态的马尔可夫链准确地模型化。
发明内容
本发明的一个目的是提供用于模式发现和识别的方法、用于模式发现和识别的计算机程序产品和用于模式发现和识别的设备。
本发明的目的通过提供一种方法实现,其中接收包括与概念相关的第一序列符号的第一序列和与第一序列相关联的标签,从表示第一序列中不同距离的第一序列符号之间的转移出现的频率数据的转移频率矩阵中获得转移概率矩阵,并且学习每个标签和每个距离的转移概率矩阵以便获得确定出现在第二序列中的概念的激活函数。
本发明的目的还通过提供一种计算机程序产品实现,其接收包括与概念相关的第一序列符号的第一序列和与第一序列相关联的标签,从表示第一序列中不同距离的第一序列符号之间的转移出现的频率数据的转移频率矩阵中获得转移概率矩阵,并且学习每个标签和每个距离的转移概率矩阵以便获得确定出现在第二序列中的概念的激活函数。
此外,本发明的目的通过提供一种设备实现,其接收包括与概念相关的第一序列符号的第一序列和与第一序列相关联的标签,从表示第一序列中不同距离的第一序列符号之间的转移出现的频率数据的转移频率矩阵中获得转移概率矩阵,并且学习每个标签和每个距离的转移概率矩阵以便获得确定出现在第二序列中的概念的激活函数。
本发明的实施例涉及根据独立权利要求1的方法。
此外,本发明的实施例涉及根据独立权利要求10的计算机程序产品。
还有,本发明的实施例涉及根据独立权利要求11的设备。
在从属权利要求中定义了另外的实施例。
根据本发明的实施例,一种方法包括接收包括与概念相关的第一序列符号的第一序列和与第一序列相关联的标签,从表示第一序列中不同距离的第一序列符号之间的转移出现的频率数据的转移频率矩阵中获得转移概率矩阵,并且学习每个标签和每个距离的转移概率矩阵以便获得确定出现在第二序列中的概念的激活函数。
根据本发明实施例的方法可在设备中执行,该设备例如可以是计算机系统、便携机或移动电话机,其中软件执行模式发现和识别过程。其次,模式发现和识别过程可由处理器(例如数字信号处理器(DSP)芯片)执行,该处理器已经适合于执行模式发现和识别过程。
术语“概念”(模式)是指序列中(或两个不同序列之间)某种类型的统计规则性,其不同于其它概念(其它规则性)并形成与所有类似噪声的不规则性的清楚对照。
术语“标签”是指一个指示,其与序列相关联,或者几个标签与同一序列相关联,并且这些关联被称为概念。
术语“转移”是指序列符号(索引,标记)对。序列符号是序列的基本元素,并且序列符号对在一对内部在序列符号之间具有距离(换句话说,每个符号对在序列中具有一定位置和相互距离(位置中的差))。
根据本发明的实施例,在前一实施例中公开的方法包括接收包括概念的第一信息。第一信息例如可以是语音或图像。
根据本发明的实施例,在前面任一实施例中公开的方法包括将标签与第一序列相关联。
根据本发明的实施例,在前面任一实施例中公开的方法包括离散化和量化包括概念的第一信息,并以一维(1D)第一序列形式表示第一信息。还有,可用不同方式对视觉(空间)2D信息采样以形成1D序列。出于这个原因,具体实施方式仅限于顺序(1D)信息。在更复杂的情况下,可以处理这些序列之间的一组1D序列还有关联性(例如音频和视觉表示之间的关联性)。
根据本发明的实施例,在前面任一实施例中公开的方法包括收集第一序列中序列符号之间的转移出现的频率数据。构想出包括至少一个矩阵的一组矩阵,对于每个标签,其由频率数据构成。该组中的矩阵数取决于从序列中收集的不同距离的符号对数和与概念相关联的标签数(例如矩阵M(a.bldistance.tag),其中a*b定义矩阵的大小,并且矩阵数等于距离乘以标签)。
根据本发明的实施例,在前面任一实施例中公开的方法包括将第一序列中转移出现的频率数据存储到转移频率矩阵。
根据本发明的实施例,在前面任一实施例中公开的方法包括根据随后表示的公式(1)-(3)将转移频率矩阵规格化成转移概率矩阵。
根据本发明的实施例,在前面任一实施例中公开的方法,其中通过离散化和量化第二信息来从包括概念的第二实际信息处理第二序列,以便以第二序列形式表示第二信息。
根据本发明的实施例,在前面任一实施例中公开的方法用于例如与语音识别或图像识别相关的模式识别。执行方法所用的算法采取以离散量化形式给出的信息流。信息可通过任何时变过程例如音频视觉信号创建,或者它可以只是空间变化的,例如静止图片。
根据本发明实施例的方法可在设备例如计算机系统、便携机或移动电话机中执行,其中软件执行模式发现和识别过程。
其次,模式发现和识别过程可由编程处理器(例如数字信号处理器(DSP)芯片)执行,该处理器适合于执行模式发现和识别过程。
执行根据本发明实施例的方法的算法通过从实际序列中收集证据来学习统计,构建这些序列的统计模型,并将它们应用于模式发现和分类中。
统计基于在空间情况下的不同空间距离或在时间情况下的滞后中找到的序列符号对的频率。在时间序列的情况下,序列符号对可解释为状态转移,并且它们的对应相对频率可被规格化以产生对应的转移概率。可收集不同序列符号对的出现次数以形成频率矩阵或表格。每个空间或时间距离(滞后)将创建其自己的矩阵或表格。相应地,可以在两个不同序列之间创建相关联统计。
转移统计必定存在多模型输入(标签),使得每个标签指示与其相关联的时间序列中的一个概念(模式)。在训练模型之后,可以从新序列中识别出是早前学习的那些之一的未知概念。该算法特别设计用于在序列用高级失真和噪声破坏的条件下和事件依赖性分布在时间或空间上的条件下的模式识别,使得相邻事件不能可靠地视为彼此依赖。
根据本发明实施例的方法与马尔可夫链之间的一个差异是,根据本发明实施例的方法从首次计数在不同距离找到的所有标记对数的序列中收集统计证据,并且然后执行两次不同的规格化(具体实施方式中的公式(1)和(2)),将这两个统计表示组合,之后进行第三次规格化以导出最后那组激活矩阵。
所导出的表示中只有一个,滞后1的状态转移矩阵,与马尔可夫链方法已知的表示是等效的。在导出激活矩阵时所用的其它两个表示中,统计证据的处理与先前已知的那些有很大不同。
另一个差异是,马尔可夫链通常不利用大于1的滞后上的统计,并且当它使用时,可通过简单的矩阵相乘(Chapman-Kolmogorov公式)从滞后1转移矩阵中导出统计。在根据本发明实施例的方法中,通过矩阵相乘直接从序列中获取而不是近似(估计)更大滞后上的统计。
根据本发明实施例的方法与马尔可夫链之间的这个差异是,根据本发明实施例的方法并行利用每个概念的两个不同表示(公式(2))和对于不同距离的标记对获得的所有激活矩阵(公式(4))。由此,组合的激活模式不仅取决于当前或早前的状态,而且取决于那组激活矩阵描述的序列中的所有那些早前事件。
根据本发明实施例的方法的优点出现在干扰已经完全损坏或严重破坏在有限时间或空间窗口中原始信息的情况下处理数据时。仅当模型能够利用在邻居中可用的信息时,并且甚至还当模型能够基于附近未被破坏的信息进行正确关联时,才能恢复(校正)原始信息。
附图说明
接下来,将根据附图参考示范实施例更详细地描述本发明的各方面,附图中:
图1例示了根据本发明的有利实施例用于模式发现和识别的方法的示范性总流程图;
图2A例示了根据本发明的有利实施例用于模式发现的方法的示范性流程图;
图2B例示了根据本发明的有利实施例用于模式识别的方法的示范性流程图;
图3例示了作为时间的函数的话语中词表示的激活在没有对激活进行中值过滤的情况下的视图;
图4例示了作为时间的函数的话语中词表示的激活在对激活进行了中值过滤的情况下的视图;以及
图5例示了算法的特征学习曲线的视图。
具体实施方式
图1表示描述根据本发明实施例的模式发现和识别方法100的总流程图。
首先在步骤110收集数据,例如语音识别过程中的包括几个词的话语。
在步骤120处理收集的数据,使得可以从处理的数据中找到统计规则性(模式),并且创建所找到的模式的统计模型。在学习阶段,同时的外部标签指示该组模式中的哪一个(随后要识别的)存在于实际序列中某处。
最后,在步骤130,模式的统计模型与新的先前未见的实际数据进行比较以便发现所创建的模式的统计模型与实际模式之间的相似性。
图2A仅通过示例公开了更详细描述根据本发明实施例的发现方法200的流程图。
在步骤205方法开始期间,执行该方法的计算机和/或应用程序开启,并且提供在模式学习过程、发现和识别之前的必要级,诸如应用程序设置定义以及不同变量和参数初始化。
在这种情况下,用户考虑到模式学习、发现和识别而定义设置、变量和参数。
接下来,在步骤210,在学习(训练)过程中所用的信息,诸如包括人说出的一个或多个词的话语,通过诸如话筒的接收器以及信号处理单元被引入模式发现和识别软件,该信号处理单元能够将接收的音频信号修改成适合于模式发现和识别软件的形式。
在步骤215,离散化和量化所接收的信息(样本),然后在步骤220,以1D序列形式表示离散和量化的信息。
然后在步骤225,用标签指定与该序列相关联的某事件(模式),该标签可以是例如数字或字母。
因此,到系统的输入包括离散元素的时间序列或空间信息,它们被采样以形成1D序列,并且在训练阶段,标签指定与该序列相关联的某事件或模式。在一些情况下,一种信息模态可为另一模态提供标签。序列的基本元素称为标记,并且在最简单的情况下,它们可以指矢量量化码书中的项目,或者它们可通过时间序列或图像的任何种类的离散化而被产生。在更复杂的情况下,它们可以指信息的某种更高级表示,例如,可能反映清楚定性性质的事件或项目。一种示例可以是模型化股票市场和复杂的计量经济过程。其它信息源(可能的另一种模态源)由一组所谓的概念标签c表示。
标签通常是表示另一过程的与时间序列输入相关联的不变输出(例如,在语音识别情况下在另一种模态如视觉或触觉中执行的分类过程,或者需要与时间序列相关联的人工定义的事件的某种其它组合)的整数值。
这种机制也可以反方向工作;听觉事件可充当用来学习视觉模式的标签。一种模态可形成对其它模态的标签以帮助学习。更一般地说,这种方法允许构造不同模态之间的统计关联。这是模型化和理解意义的形成和学习(由代理和人)过程中的关键问题之一。
在步骤230,当激活概念(标签)并且表示序列时,算法开始收集在序列中距离为l的标记对(转移)出现的频率数据。
在步骤235,算法将所收集的标记对出现的频率数据存储到直方图表格或矩阵T(转移频率矩阵)。当需要对应标记对的出现次数时,原始标记可用作到T的指针。
在随后步骤240,在T中收集的直方图然后用于产生另一个表示P。
算法的主干是大小为Nq×Nq的矩阵Pl,c,其中Nq是码书的大小,矩阵Pl,c类似转移概率矩阵,但不含有良好定义的概率,而有些含有累积概率和。它保持记录在同时存在概念c的情况下从标记a[t-l]到标记a[t]的规格化转移概率,其中l,c,t∈Z,l是集合l={l1,l2,l3,...,ln}的元素,且c是集合c={1,2,3,...,Nc}的元素。换句话说,Nc是引入系统的概念的总数。如果定义Nl=||l||,则存在总共NP=Nl*Nc个P矩阵实例,一个实例对应于在特定滞后的一个概念。矩阵Tl,c类似于Pl,c,只是它保持记录在存在概念c的情况下的转移频率而不是从标记a[t-l]到标记a[t]的规格化转移概率。
由于P的值由于三级规格化过程而不是0与1之间范围内的经典概率,因此P的值将称为激活值,并且P将称为激活矩阵。将通过使用存储在T中的频率信息计算存储在P中的激活值。
接下来,描述在方法中如何提供训练。为了简化符号表示,以形式P(ai,aj|l,c)和T(ai,aj|l,c)表示矩阵Pl,c和Tl,c的元素,其中前两个变量ai和aj定义标记的矩阵元素索引(从ai转移到aj或同时出现ai和aj),而l定义滞后,c定义概念。
输入包括训练序列S={s1,s2,...,sn}和序列相关概念V={v1,v2,...,vn},其中每个vi={c1,c2,...,cn},v∈c。在序列si中以滞后l出现的所有转移都被更新到转移频率矩阵Tl,c,其中c是与si相关联的vi的元素。对于训练材料中的所有S重复这个过程。
以下伪码示例例示了转移频率的收集过程:
在步骤240,由于出现在训练材料的所有转移都被加到并存储到转移频率矩阵T,因此通过下式规格化从每个标记到所有其它标记的转移概率∑xPr(ai,ax)=1,将矩阵T规格化成转移概率矩阵P′:
其中Nq是码书的大小,即,时间序列中的唯一元素的数量。
在存在标签期间特定转移而不是所有其它转移出现的概率被累加到P′l,c:
这增强了在存在该概念的情况下很常见的那些转移的值。应该注意,在随后状态概率之和未到1的意义上,该矩阵现在不再是良好定义的转移概率矩阵了。因此,P的值从现在开始称为(概念特定)激活值,并且识别过程的结果称为概念激活。
最后,在存在概念Ck而不是任何其它概念期间转移出现的概率通过下式被结合到最终激活矩阵P:
换句话说,在标签c的情况下从ai到aj的转移的累积概率除以在所有可能标签c期间出现的相同转移的概率之和。如果转移变得对于所有概念都是等概率的,从而不含有信息值,则它将具有1/Nc的概率。因此,所有矩阵中的每个元素都从其值减去1/Nc,以对于完全随机情况具有0激活,而对于在其它概念期间更经常出现的转移具有负值。上述减去1/Nc不是必要步骤,但是它使过程更方便。
当完成训练时,方法在步骤245结束。
图2B仅通过示例例示了描述根据本发明实施例的模式识别方法260的流程图。
步骤265中识别过程的开始类似于发现过程的开始。
在步骤270,向系统引入第二信息,即实际输入数据,并且在步骤275和280期间通过离散化和量化处理第二信息,以便以具有模式的序列的形式呈现实际输入数据。
接下来,在步骤285,通过研究序列的转移来确定来自实际输入数据的概念。转移具有与每个距离和每个标签相关的转移概率P。在学习阶段估计这些概率。这些概率被组合以创建激活函数A,并将识别具有最高激活级别的概念。
因此,当仅包含输入序列的反向历史时,给定实际输入序列,在时间t的概念ci的激活级别可表示为:
当完成模式识别时,方法在步骤290结束。
如果序列中直到最大滞后max(l)的随后标记是预先已知的,则还可以通过将P(s[t],s[t+l]|ld,ci)激活值包含在公式(4)中的和中而具有双向识别过程。这增强了对所识别事件的定位,这是因为激活曲线的峰值变成以存在对特定概念的最统计性支持的点为中心,按照转移概率对称分布在该点周围。
公式(4)提供了对每个概念候选的局部激活估计,但在许多应用中,有用的是检查更大时间窗口中的激活输出,这是因为正在被识别的事件分散在几个随后时间帧上。这样做的一种可能性是首先低通或中值过滤更大时间窗口中的激活曲线。然后,搜索这些概念相关时间激活曲线中的每一个,以寻找具有激活值的最大累积和的长度为Li∈[Lmin,Lmax]的子序列。在对于每个概念模型c找到这些子序列之后,具有最高累积和的子序列i定义概念假设ci。
Lmin设置对于包含在识别判定过程中的信息的最小时间极限,并且应该至少与正被识别的最短可能事件一样长。类似地,Lmax定义对于信息集成的时间上限,并且应该至少与正被识别的最长可能事件一样长。然而,在几种情形下具有Lmax的甚至更大值可能是有益的,这是因为事件的上下文经常含有对事件本身的提示,并且嵌入在转移概率矩阵中的统计考虑了此信息。
通过具有值1的加权因数来执行上面给出的公式(2)和(4)中的求和(线性组合)。然而,可以使用具有不同于1的值的加权因数α。可根据某种附加标准,例如迭代地基于模式识别成功,确定这些值。
此外,还可以对于几个同步量化的输入流并行运行整个算法,以便合并几个信息源。这将频率和激活矩阵变换成形式TΨ(ai,aj|l,c)和PΨ(ai,aj|l,c),其中Ψ表示正在被处理的输入流的数量。类似于单个流情况执行训练,以便对于在每个滞后的每个概念并对于每个流构建单独的概念矩阵。在测试阶段,组合来自所有流的概率输出以具有如下在时间t的概念ci的概率:
其中ωΨ是为每个输入流定义的加权因数。
在图3和4中,示出了与描述的模式识别方法相关的结果示例。
概念矩阵算法被应用于无监督的词学习实验。目的是学习来自含有由四个说话者用英式英语说出的4000句话(两男和两女,每人1000句话)的语料库的11个不同关键词。每句话含有一个或两个关键词,并且伴有以另一模态模拟这些关键词存在的元标签。当大约3000句话专用于训练而其余1000句用于测试时,达到100%的识别准确度。
用k均值聚类算法将语音材料量化成矢量量化(VQ)索引的一个流(帧长10ms,码书的大小Nc=150)。静态MFCC矢量的欧几里德距离用作距离量度。一次对具有其相关联概念标签的一句话执行训练。在测试阶段,只有话语的VQ流用作输入,并且系统必须识别哪个关键词(概念标签)被嵌入该话语中。用150ms窗口对激活曲线进行中值过滤,并且Lmin被设置成350ms,而Lmax被设置成450ms。
图3演示了作为时间的函数的话语“爸爸靠近一点”中内部概念(或词)表示的激活,其中没有对激活进行中值过滤。在图3的上部示出了作为时间的函数的每个概念的活动,示出了具有概率值的单独曲线,而下部是为每个概念找到的子序列的最佳累积和。用箭头指示了获胜概念的子序列的边界。
图4示出了具有中值过滤的同一过程。从图4中可以看到,用到其它词候选的清楚边缘识别出了正确的关键词“爸爸”。此外,中值过滤集成了更大时间窗口上的信息,并因此增强了从输入收到连续支持的概念与仅在其中随机找到有点熟悉的结构的概念之间的差异。在上部是作为时间的函数的每个概念的活动,示出了具有概率值的单独曲线,而在下部示出了为每个概念找到的子序列的最佳累积和。用箭头指示了获胜概念的子序列的边界。
图5显示了作为训练话语的数量的函数的算法的特征学习曲线。该学习曲线揭示,识别率在仅几个记号之后增大非常快,并且在3000句话达到100%准确度。在右下方详细示出了前500句话。
上面已经参考上述实施例说明了本发明,并且已经演示了本发明的几个优点。显然,本发明不是仅限于这些实施例,而是包括在本发明思想和所附专利权利要求书的精神和范围内的所有可能实施例。
Claims (14)
1.一种用于由处理器从信号中识别模式的方法(200),该方法包括:
由处理器接收(210)第一信号,第一信号形成包括模式的第一信息;
由处理器从接收的第一信号形成(215,220,225)第一离散化的一维符号序列并通过标签指定第一序列中的模式;
由处理器通过在第一序列在与标签相关的滞后处具有符号序列的转移时通过把频率数据累加到与关于所述标签的第一序列的每个所述滞后对应的矩阵元素而获得(230,235)转移频率矩阵;
由处理器根据所有可能的转移对转移频率矩阵进行规格化而获得(240)转移概率矩阵,其中每个转移概率矩阵中的每个元素表示标签在每个滞后处的概率,并且从转移概率矩阵获得标签概率矩阵,该标签概率矩阵表示第一序列中每个标签在每个转移以及在每个滞后处的概率;
由处理器接收(270)形成第二信息的第二信号;以及
由处理器通过从第二序列中不同滞后处的符号序列的所有转移的每个标签概率矩阵确定标签的概率并将每个标签的不同滞后的所有转移的概率求和以检测具有最大值的标签,来识别(280,285)从接收的第二信号形成的第二符号序列中的模式。
2.根据权利要求1所述的方法,还包括在具有与要识别的模式的预期持续时间对应的长度的时间窗口中对获得的和概率求和来检测最大值标签。
3.根据权利要求1或2所述的方法,其中识别的结果通过低通或中值过滤进行处理。
4.根据权利要求1或2所述的方法,其中低通或中值滤波器的长度根据所述模式的长度来估计。
5.根据权利要求1或2所述的方法,还包括将所收集的第一序列中所述转移出现的频率数据存储(235)到所述转移频率矩阵。
6.根据权利要求1或2所述的方法,其中第二信号被离散化和量化(275)以便以第二序列的形式表示它。
7.根据权利要求1或2所述的方法,其用于语音识别或图像识别。
8.一种用于由处理器从信号中识别模式的设备,该设备包括:
用于由处理器接收(210)第一信号的装置,第一信号形成包括模式的第一信息;
用于由处理器从接收的第一信号形成(215,220,225)第一离散化的一维符号序列并通过标签指定第一序列中的模式的装置;
用于由处理器通过在第一序列在与标签相关的滞后处具有符号序列的转移时通过把频率数据累加到与关于所述标签的第一序列的每个所述滞后对应的矩阵元素而获得(230,235)转移频率矩阵的装置;
用于由处理器根据所有可能的转移对转移频率矩阵进行规格化而获得(240)转移概率矩阵的装置,其中每个转移概率矩阵中的每个元素表示标签在每个滞后处的概率,并且从转移概率矩阵获得标签概率矩阵,该标签概率矩阵表示第一序列中每个标签在每个转移以及在每个滞后处的概率;
用于由处理器接收(270)形成第二信息的第二信号的装置;以及
用于由处理器通过从第二序列中不同滞后处的符号序列的所有转移的每个标签概率矩阵确定标签的概率并将每个标签的不同滞后的所有转移的概率求和以检测具有最大值的标签,来识别(280,285)从接收的第二信号形成的第二符号序列中的模式的装置。
9.根据权利要求8所述的设备,还包括用于在具有与要识别的模式的预期持续时间对应的长度的时间窗口中对获得的和概率求和来检测最大值标签的装置。
10.根据权利要求8或9所述的设备,其中识别的结果通过低通或中值过滤进行处理。
11.根据权利要求8或9所述的设备,其中低通或中值滤波器的长度根据所述模式的长度来估计。
12.根据权利要求8或9所述的设备,还包括用于将所收集的第一序列中所述转移出现的频率数据存储(235)到所述转移频率矩阵的装置。
13.根据权利要求8或9所述的设备,其中第二信号被离散化和量化(275)以便以第二序列的形式表示它。
14.根据权利要求8或9所述的设备,其用于语音识别或图像识别。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FI20086260A FI20086260A (fi) | 2008-12-31 | 2008-12-31 | Menetelmä hahmon löytämiseksi ja tunnistamiseksi |
FI20086260 | 2008-12-31 | ||
PCT/FI2009/051041 WO2010076386A2 (en) | 2008-12-31 | 2009-12-28 | Method for a pattern discovery and recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102308307A CN102308307A (zh) | 2012-01-04 |
CN102308307B true CN102308307B (zh) | 2014-03-12 |
Family
ID=40240655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980156251.6A Active CN102308307B (zh) | 2008-12-31 | 2009-12-28 | 用于模式发现和识别的方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US8560469B2 (zh) |
EP (1) | EP2382587B1 (zh) |
JP (1) | JP5611232B2 (zh) |
CN (1) | CN102308307B (zh) |
ES (1) | ES2536560T3 (zh) |
FI (1) | FI20086260A (zh) |
WO (1) | WO2010076386A2 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10068050B2 (en) * | 2013-10-30 | 2018-09-04 | Vahagn Gurzadyan | Revealing somatic sequences in human genome via Kolmogorov-Arnold technique |
CN111126103B (zh) * | 2018-10-30 | 2023-09-26 | 百度在线网络技术(北京)有限公司 | 用户人生阶段状态的判断方法和装置 |
CN116340723B (zh) * | 2023-05-22 | 2023-08-01 | 安徽中科大国祯信息科技有限责任公司 | 基于大数据的乡村水污染快速溯源方法及系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2081406C (en) | 1991-12-23 | 1997-09-16 | Chinmoy Bhusan Bose | Method and apparatus for connected and degraded text recognition |
WO1996027872A1 (en) * | 1995-03-07 | 1996-09-12 | British Telecommunications Public Limited Company | Speech recognition |
US5617509A (en) | 1995-03-29 | 1997-04-01 | Motorola, Inc. | Method, apparatus, and radio optimizing Hidden Markov Model speech recognition |
US5924066A (en) | 1997-09-26 | 1999-07-13 | U S West, Inc. | System and method for classifying a speech signal |
US6006186A (en) * | 1997-10-16 | 1999-12-21 | Sony Corporation | Method and apparatus for a parameter sharing speech recognition system |
US20010044719A1 (en) * | 1999-07-02 | 2001-11-22 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for recognizing, indexing, and searching acoustic signals |
US6681207B2 (en) * | 2001-01-12 | 2004-01-20 | Qualcomm Incorporated | System and method for lossy compression of voice recognition models |
WO2003085638A1 (en) * | 2002-03-27 | 2003-10-16 | Nokia Corporation | Pattern recognition |
US20030212535A1 (en) * | 2002-05-09 | 2003-11-13 | Nagendra Goel | Method and apparatus for simulating network jitter and packet loss |
US7873185B2 (en) | 2005-08-03 | 2011-01-18 | Siemens Medical Solutions Usa, Inc. | Method for detection and tracking of deformable objects |
-
2008
- 2008-12-31 FI FI20086260A patent/FI20086260A/fi not_active Application Discontinuation
-
2009
- 2009-12-28 CN CN200980156251.6A patent/CN102308307B/zh active Active
- 2009-12-28 WO PCT/FI2009/051041 patent/WO2010076386A2/en active Application Filing
- 2009-12-28 ES ES09799660.7T patent/ES2536560T3/es active Active
- 2009-12-28 US US13/142,532 patent/US8560469B2/en active Active
- 2009-12-28 EP EP09799660.7A patent/EP2382587B1/en active Active
- 2009-12-28 JP JP2011544065A patent/JP5611232B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
FI20086260A (fi) | 2010-09-02 |
FI20086260A0 (fi) | 2008-12-31 |
EP2382587A2 (en) | 2011-11-02 |
JP2012514228A (ja) | 2012-06-21 |
JP5611232B2 (ja) | 2014-10-22 |
WO2010076386A3 (en) | 2010-09-16 |
US8560469B2 (en) | 2013-10-15 |
US20120023047A1 (en) | 2012-01-26 |
EP2382587B1 (en) | 2015-02-18 |
WO2010076386A2 (en) | 2010-07-08 |
ES2536560T3 (es) | 2015-05-26 |
CN102308307A (zh) | 2012-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108846077B (zh) | 问答文本的语义匹配方法、装置、介质及电子设备 | |
CN109710744B (zh) | 一种数据匹配方法、装置、设备及存储介质 | |
EP2657884B1 (en) | Identifying multimedia objects based on multimedia fingerprint | |
JP5214760B2 (ja) | 学習装置、方法及びプログラム | |
WO2016205286A1 (en) | Automatic entity resolution with rules detection and generation system | |
US20180260735A1 (en) | Training a hidden markov model | |
CN111428511B (zh) | 一种事件检测方法和装置 | |
CN111666416A (zh) | 用于生成语义匹配模型的方法和装置 | |
CN115312033A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
CN102308307B (zh) | 用于模式发现和识别的方法 | |
CN114818864A (zh) | 一种基于小样本的手势识别方法 | |
CN112766368A (zh) | 一种数据分类方法、设备和可读存储介质 | |
CN117033956A (zh) | 基于数据驱动的数据处理方法、系统、电子设备及介质 | |
TW202125323A (zh) | 利用人工智慧模組學習臉部辨識的處理方法 | |
CN113111855B (zh) | 一种多模态情感识别方法、装置、电子设备及存储介质 | |
CN113139561B (zh) | 一种垃圾分类方法、装置、终端设备及存储介质 | |
CN111382247B (zh) | 一种内容推送优化方法、内容推送优化装置及电子设备 | |
CN113488027A (zh) | 一种层级分类的生成音频溯源方法及存储介质、计算机设备 | |
CN115512693A (zh) | 音频识别方法、声学模型训练方法、装置和存储介质 | |
CN113515945A (zh) | 一种获取文本信息的方法、装置、设备及存储介质 | |
Tralie et al. | Multi-scale geometric summaries for similarity-based sensor fusion | |
Altınçay et al. | An information theoretic framework for weight estimation in the combination of probabilistic classifiers for speaker identification | |
Susyanto et al. | Semiparametric likelihood‐ratio‐based biometric score‐level fusion via parametric copula | |
CN111540363B (zh) | 关键词模型及解码网络构建方法、检测方法及相关设备 | |
CN116052725B (zh) | 一种基于深度神经网络的细粒度肠鸣音识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |