CN1407456A

CN1407456A - 数据错误检测方法、装置、软件和媒体

Info

Publication number: CN1407456A
Application number: CN02127889A
Authority: CN
Inventors: 马青; 吕宝糧
Original assignee: INDEPENDENT ADMINISTRATIVE LEGAL PERSON COMMUNICATION GENERAL INST
Current assignee: INDEPENDENT ADMINISTRATIVE LEGAL PERSON COMMUNICATION GENERAL INST
Priority date: 2001-08-15
Filing date: 2002-08-14
Publication date: 2003-04-02
Anticipated expiration: 2022-08-14
Also published as: CN1257458C; JP2003058861A; US20040078730A1

Abstract

本发明提供一种快速、高效以及高精确性地对数据库中的数据进行错误检测方法，其中在该数据库中包含至少两种类型的数据并且可以用一种类型的数据对另一种类型的数据进行分类。该数据库中的分类被当作神经网络中的类来处理，提供多个模块，而将原始分类问题分解为更小的2－类子问题，并且进行计算，检查所述每个模块在神经网络的训练过程中是不是都收敛的。模块不收敛，则该模块将被判定视为具有模式分类错误，并将其提取出来。

Description

数据错误检测方法、装置、软件和媒体

技术领域

本发明涉及一种用于数据库的数据错误检测方法，装置，软件以及存储媒体，或者尤其涉及一种在高速的情况下能够高效、精确的对错误进行检测的技术。

背景技术

一般来说，一个数据库包括两种或者更多种类型的数据，并且使用某一种类型的数据对另一种不同类型的数据进行分类。

不可避免的就是一个人工数据库中必然会包含错误，并且很难进行错误检测，尤其是在大型数据库中。

虽然已经提出了很多种检测错误的方法，但是快速、高效以及高精确性的方法在数量上还是有限的。尤其是，几乎没有一种错误检测方法能够应用于一个范围较宽的领域。

语言处理系统的训练处理过程中所使用的文本集合就是一个大型数据库的例子。由于很多文本集合都是人工构建的，因此其中包含很多错误，并且这些错误会经常阻止研究的继续进行，并减小了语言处理的准确性。因此，对文本集合中的错误进行检测以及纠正是一项具有重大意义的挑战。

一种常用的在文本集合中检测错误的方法就是采用基于实例的方法和判定列表方法，这能够从用于错误检测的目标集合中计算出出现错误的概率。(参见：村田真树，内山将夫，内元清贵，马清，以及井佐原均所著的“采用基于实例方法及决定列表方法，检测及修正集合错误”Corpus Error Detection and Correction Using theDecision-List and Example-Based Methods，2000-NL-136，第49-56页，2000)

但是对于这些最常用的方法来说，必须为每一个目标文本集合开发出一种适用于它的错误检测方法，并且错误检测方法必须能够接着用于所有的数据库。这种方法非常浪费时间，并且也并不是总能获得较高的精确度。

另外，错误检测只能在构建完数据库之后才能进行，并且不可能根据在线原理在采用常用技术构建数据库期间进行错误检测。

因此需要开发出一种用于数据库的错误检测方法，使得该方法能够快速、高效以及精确的对错误进行检测。

发明内容

本发明下面提供的这个数据错误检测方法就是为了解决上述的问题以及其它的常见问题。

首先，作为本发明的检测目标的数据库包括至少两种数据，并且包含可使用某种类型的分类目标数据对另一种不同类型的分类源数据进行分类的对应关系。

在本发明中，分类被作为神经网络中的类进行处理，并且被分成相对来说比较小的2-类问题以便于能提供多个模块。接着进行计算来检查是否各个模块在神经网络的学习过程中是收敛的。除非收敛，否则判定该模块含有模式分类错误(对应关系有误)，并且接着将该模块提取出来。

本发明可以检测出数据错误的位置，并且还提供一个数据错误检测装置。尤其是，该数据错误检测装置包括：

(1)存储装置，用于存储所述的数据库；

(2)计算装置，用来将分类作为神经网络中的类来进行处理，将该分类分成相对来说更小的2-类问题以便于能提供多个模块，并接着进行计算来检查是否各个模块在神经网络的学习过程中是收敛的；以及

(3)错误提取装置，用来在不收敛的情况下将该模块判定为含有模式分类错误，并接着将该模块取出。

进一步，本发明还提供了以下的软件程序。该软件程序包括以下步骤：将分类作为神经网络中的类来进行处理，将该分类问题分成相对来说更小的2-类问题以提供多个模块，并接着进行计算来检查是否各个模块在神经网络的学习过程中是收敛的，以及在不收敛的情况下判定该模块中含有该对应关系错误，并接着将该模块取出。

还有，本发明也提供了一种用来存储上述错误检测软件程序的存储媒体。

附图说明

图1说明了实施例1中所使用的M³网络：图1(a)说明了它的全部结构，图1(b)说明了模块M_7，26的详细结构；

图2为对根据本发明的实施例1的结果进行错误检测的实例；

图3为非平均单一试用EEG信号；

图4说明了训练和测试数据的数据分配情况；

图5说明了4个EEG信号的时间-频率等值线图。

具体实施方式

<实施例1>

实施例1为将本发明的错误检测方法用于文本集的错误检测系统。

虽然在接下来的描述中采用日文集来作为文本的一个实例，但是本发明的实施例适用于多种语言，例如英语、汉语以及韩语，这不包括极少的几种在逻辑上无法应用的情况。作为本发明对象的文集可以是包括有任何单词信息例如词类和词素的文本集合。本发明的错误检测方法可以检测出和这些单词信息相关的错误。

当使用机器来处理各种自然语言的文章时，事先对所有必须的知识进行编码几乎是不可能的。解决这一问题的方法就是文集(corpus)，也就是对该机器系统所需要的知识，从自然语言句子的大型数据库中直接进行编译，其中的句子附加有多种标识例如词类(POS)(part ofspeech)和句法相关性，而不是使用简单句子构成的数据库。

经常使用文集(corpora)来构成各种基本自然语言处理系统，这包括复合词分析和语法分析。这种系统可以用于多种信息处理领域，例如语音合成的预处理、OCR的后续处理、声音识别、机器翻译、信息检索以及文章摘要。

可是大型文集的人工标识是一项复杂以及高成本的工作，例如Penn Tree Bank就包括不止450万个单词和135种POS。

因此到目前为止已经有多种采用不同机器训练技术的自动POS标识系统(例如可以参见参考文献[1，2])。

参考文献[1]：Merialda，B.：Tagging English text with aprobabilistic model，Computational Linguistics，第21卷第2号，155-171页，1994。

参考文献[2]：Brill，E.：Transformation-based error-drivenlearning and natural language：a case study in part-of-speech tagging，Computational Linguistics，第21卷第4号，543-565页，1994。

在从前的研究中，我们开发出了一种神经/基于规则的混合标识。由于其精确的标识添加和比其它方法少的训练数据，这个标识系统已经能够在实际中被采用(参见参考文献[3])。

参考文献[3]：Ma，Q.，Uchimoto，K.，Murata，M.，以及Isahara，H.：Hybird neuro and rule-based part of speech taggers，Proc.COLING’2000，Saarbrucken，509-515页，2000。

在这个标识系统中有两种方法来改进标识的准确性。一个就是增加训练数据的数量，另一个就是改进用来进行训练的文集的质量。

第一种方法由于在加标识器(tagger)中使用了多层感知器，因此出现了非收敛问题。为了克服这个固有的问题，我们开发出了一种最小-最大模块(M³)神经网络(参见参考文献[4])。

参考文献[4]：Lu，B.L.以及Ito，M.：Task decomposition and modulecombination based on class relation；a modular neural network forpattern classification，IEEE Trans.Neual Networks，第10卷第5号，1244-1256页，1999。

该网络是用于将大型、复杂的问题分解为多个相对来说小一些和简单一些的子问题(参见参考文献[5])的网络。

参考文献[5]：Lu，B.L.，Ma，Q.，Isahara，H.以及Ichikawa，M.：Efficient part-of-speech tagging with a min-max module neuralnetwork model，to appear in Applied Intelligence，2001。

作为第二种在文集中检测错误的方法，可以采用POS错误检测方法。本发明提供了一种作为这种方法的错误检测方法，接下来将详细描述如何实现该方法。

由于就POS来说单词经常是不明确的，所以必须参照上下文对这些单词进行解释(标识)。无论这采用自动或者手工的方法，该标识工作通常都会包含错误。

在人工标识文集POS中主要有以下三种类型的错误：简单错误(例如，POS“Verb”被输入为“Varb”)；不准确的知识错误(例如，单词“fly”经常被标识为“动词”)；以及不一致错误(例如“like”在句子“Time flies like an arrow”中被正确的标识为“介词”，而在句子“The one like him is welcome”却被标识为“动词”)。

简单错误通过参照字典就可以被很容易的检测出来。一方面，采用自动的方法几乎不可能检测出不准确的知识错误。如果用正确POS标识的单词被认作是一个分类问题或者一个基于上下文POS输入/输出单词映射问题，则该不一致错误可以被视为一个相同输入/不同输出(类)数据的集合。因此，可以采用本发明提出的神经网络技术来处理这种错误。

该M³网络由用来处理非常简单的小问题的模块构成。这些模块可以由非常简单的极少使用或不使用隐藏单元的多层感知器构成。

这就意味着在这种模块中基本不会涉及非收敛问题。换句话说，除非是一个模块收敛，否则就认为该正在进行数据学习的模块包括有不一致(矛盾)类型的错误。

因此，当一边学习一边进行检测，或者将非收敛数据提取出来，确定学习对象数据集合中的不一致数据时，这种有标识的文集中的错误是可以被在线检测出的。当使用高质量文集时，非收敛模块的数量比收敛模块的数量更有限，并且每个模块所学习的数据集合(组)非常小。结果，该在线错误检测方法具有很大的效益，尤其是对于大型文集来说。

通过使用这种在线错误检测方法，只需在学习期间进行简单的人工操作就可以大大的改进文集质量，并且纠正后的新数据可以再用来对其它非收敛模块的进行训练。

M³网络的要点包括：采用了将大型、复杂的K-类问题分解成多个相对来说更简单、更小的子问题的技术，这其中的子问题通过使用各自独立的模块来解决，并且还采用了将这些模块组合在一块以便提供最终解决方法的技术。

令T为K类分类问题的训练集合，式1：

T = {(X_{1}, Y_{1})}_{l = 1}^{Li},

其中X_lRⁿ为输入向量，Y_lR^k为期望的输出，并且L为训练数据的个数。一般的，K-类问题可以被分成(K/2)个2-类问题。

式2：

T_{ij} = {({X_{1}}^{(i)}, 1 - ϵ)}_{l = 1}^{Li} U {{X_{1}}^{(j)}, ϵ}_{l = 1}^{Lj}

i＝1，…，K，j＝i+1，…，K

其中ε为小的正实数，并且X_l ⁽ⁱ⁾和Y_l ⁽ⁱ⁾分别为类Ci和Cj的输入向量。

被分解后的(K/2)个2-类问题中的一个问题如果仍旧是复杂的，则该问题还可以被进一步分解。属于每个类的一大组输入向量，例如X_l ⁽ⁱ⁾(参见式2)，可以被随机的分成Ni(1≤N_i≤L_i)个子集χ_ij。也就是，

式3：

χ_{ij} = {{X_{1}}^{(ij)}}_{l = 1}^{Li (j)}

，j＝1，…，N_i，

其中L_i ^(j)为子集χ_ij中输入向量的个数。使用该子集，如等式2中所定义的2-类问题可以被分解成N_i×N_j个相对来说更小、更简单的2-类子问题。

式4：

{T_{ij}}^{(u, v)} = {({X_{1}}^{(iu)}, 1 - ϵ)}_{l = 1}^{Li (j)} U {{X_{1}}^{(jv)}, ϵ}_{l = 1}^{Lj (j)}

，u＝1，…，N_i，v＝1，…，N_j，

其中X_l ^(iu)χ_iu和X_l ^(jv)χ_jv分别为类C_i、C_j的元素

因此，如果如等式2所定义的2-类问题可以被分解成如等式4所定义2-类子问题，则最原始的K类问题可以被分成2-类问题的个数为：

Σ_{i = 1}^{K} Σ_{j = i + 1}^{K} N_{i} \times N_{j}

如果将要被训练的数据组中包括两个元素即L_i＝1^(u)和L_j ^(v)＝1，则如式4所定义2-类问题就很明显是一个线性可分离问题。

在对被各个模块分解的子问题进行训练之后，可以将通过将它们集成在一块来获得对原始问题的最终解决方法。下面的描述将着重于如何将这些模块集成在一起。(使用模块集成技术来解决该问题的细节可以参见参考文献[4])

为了对模块进行集成，我们使用了3个单元：MIN、MAX和INV。解决小训练问题的模块T_ij(式2)和T_ij ^(u，v)(式4)分别用M_ij和M_ij ^(u，v)来表示。

当通过将其分解为(K/2)个2-类问题T_ij(等式2)来解决K-类问题T(等式1)时，首先使用MIN单元将它们组合在一块儿，每个MIN单元都能够从它的多个输入中选出最小值，可如下表示：

式5：MIN_i＝min(M_i1，…，M_ij，…，M_ik)，i＝1，…，K(i≠j)

为便于描述，用MIN单元来表示输出。以MIN单元形式来表示的K个输出值就是最终结果，如下：

式6：C＝arg max{MIN_i}，i＝1，…，K，

i

其中C为输入数据所属的类。当进一步将2-类问题T_ij分解为T_ij ^(u，v)，(式4)时，模块M_ij ^(u，v)和训练T_ij ^(u，v)被MIN单元迅速组合在一块，如下：

式7：

{MIN}_{ij}^{(u)} = \min (M_{ij}^{(u 1)}, . . ., M_{ij}^{(uNj)})

，u＝1，…N_i，

模块M_ij由MAX单元组成，其中这些MAX单元都能够从它的多个输入中选出最大值，可如下表示：

式8：Mij＝max(MIN⁽¹⁾ _ij，MIN⁽²⁾ _ij，…，MIN^(Ni) _ij)。

以上述方式生成的M_ij被加入到式5中。由于2-类问题T_ij和T_ji一样，所以M_ji也是由用来转换M_ij的INV单元和输入构成的。

根据本发明的错误检测可以在POS标识问题的训练期间通过在线的形式来实现。这样，在对错误检测方法进行详细描述之前，应该首先对于POS标识问题本身进行说明，也就是如何分解POS标识问题和M³网络如何训练该问题。

可以假设存在一个字典V＝{ω¹，ω²，…，ω^v}和一个POS组Γ＝{τ¹，τ²，…，τ^v}，其中列出了各个单词都能使用的POS。接着POS标识问题就转变为在给出一个句子W＝ω1，ω2，…，ωs(ω_iV，i＝1，…，s)时通过一个操作来查找POS符号组T＝τ1τ2…τs(τ_iΓ，i＝1，…，s)的问题。

式9：：W^p→r_p，

其中p为集合中将要被标识目标单词的位置，并且w^p为一个单词序列，其中(1，r)表示目标单词ωp左右两侧的单词。

式10：W^p＝w_p-l…w_p…w_p+r，

其中p-1≥S_s，p+r≤S_s+s，S_s为一个句子中最上边的单词的位置。

通过用类代替POS，标识就转换为一个分类和映射问题，并且可以通过监视神经网络来处理，其中的神经网络在标识的集合中进行训练。

本发明的错误检测方法已经过试验来评估它的性能。

在试验中使用的京都大学(Kyoto University)文本集中包括19956个日文句子中的487691个单词，其中包括30674的不同的单词。

参考文献[6]：Kurohashi，S.和Nagao，M.：Kyoto University textcorpus project，Proc.3^rd Annual Meeting of the Association forNational Language Processing，115-118页，1997。

根据文集中所使用的175种POS，至少有一半的单词是不明确的。需要确定的是在训练POS标识问题期间M³网络是否能够在线检测错误，为了这一目的准备了217个日文句子，其中每个句子至少含有一个错误。

这些句子包括6816个单词，其中的2410个是不同的，还包括97种POS标识。该POS标识问题就转换为用类代替POS的一个97-类分类问题。

接下来说明先前提到的计算方法，该97-类问题被分解为(K/2)＝4565个各不相同2-类问题。虽然主要问题还存在，但是它们还可以采用先前说明的任意方法来进行进一步的分解。结果，一个2-类问题例如T_1，2被分成8个子问题，而T_5，10却不再分。

用这种方法，原始的97-类问题被分解成23231个更小的2-类问题。

根据本发明的对POS标识问题进行训练的M³网络是将模块集成在一块构成的，如图1所示。如果相应的问题T_ij被进一步分解，则各个模块M_ij如图1B所示。

在如图1B所示的例子中，问题T_7，26被进一步分解为更小的N₇×N₂₆＝25×10＝250个子问题。这样，M_7，26就由250个模块构成，M_7，26 ^(u，v)(u＝1，…，25，v＝1，…，10)，并且M_ij(j＞1)由M_i，j和INV单元构成。

处于训练状态的输入向量(例如等式1中的x₁)由单词序列w^p(式10)构成，如下：

式11：X＝(x_p-l…x_p…x_p+r)。

其中元素x_p是一个对目标单词进行编码的ω维二进制编码向量。

式12：x_p＝(e_w1，…，e_wω)

相应于上下文中各个单词的元素x_t(t≠p)是一个对标识于单词上的POS进行编码的τ维二进制编码向量。

式13：x_t＝(e_τ1，…，e_ττ)

需要的输出应该是一个对标识于目标单词上的POS进行编码的τ维二进制编码向量，如下：

式14：Y＝(y₁，y₂，…，y_τ)

由于M³网络中应该训练的各个模块是非常小和简单的2-类问题，所以极少使用或不使用隐藏单元，可以由例如非常简单的多层感知器构成。因此，只要训练数据是正确的，在各个模块中基本就不会出现非收敛的问题。换句话说，除非一个模块收敛，否则该模块可被认为是在对含有一些矛盾数据的数据集合

T_{M} = {(X_{1}, Y_{1})}_{l = 1}^{LM}

进行训练的。

这就意味着在该数据集中至少存在一对数据(X_i，Y_i)和(X_j，Y_j)能够满足下面的关系。

式15：X_i＝X_j，Y_i≠Y_j(i≠j)

其中T_M表示T_ij(式2)或者T_ij ^(u，v)(式4)。

用这种方法，可以通过提取非收敛模块和检测数据是否相互矛盾来在线检测出目标标识文集中的错误，也就是，通过由模块进行训练并符合式15的数据组中的一个简单程序对(X_i，Y_i)和(X_j，Y_j)来确定。

当使用一个具有高质量标识的文集时，非收敛模块的数量比收敛模块的数量更有限，每个模块训练的数据组非常小。这样，该在线错误检测方法就具有很大的效益并且它的效率随着集合大小的增长而得到了增强。通过在错误检测过程中采用这种有效的方法，在训练中只需简单的人工操作就能改进该集合的质量，并且该更新后的数据还可以接着用于非收敛模块的其它部分。

实施例1是按照上述的配置来实现的。实验后的结果将在下面描述。

总共，该集合具有30674个不同的单词和175种POS。用于单词和POS的维数和二进制编码向量的τ分别被设置为16和8。给予M³网络的单词序列(1，r)的长度为(2，2)，因此在所有模块中输入层单元就有[(1+r)xτ]+[1×ω]＝48个。大体上，所有的模块基本上都有3层感应器构成，其中的输入、隐藏和输出层分别有48、2和1个单元。当均方差达到0.05或者计算重复了5000次时模块就会停止1个循环训练。每个循环都会将隐藏层的两个单元加到还没有达到错误容限的模块，直到达到了目的或者已经完成了5次循环训练为止。

在试验过程中，总共的23231个模块中有82个没有收敛。对于这82个模块，81个模块具有97对不一致训练数据。这97对训练数据经过了对于日文语法和京都大学文本集合有着深刻理解的专家的检查。

结果发现，在97个训练数据对中有94个含有POS错误，并且错误检测准确率达到了97％。图2为一个非收敛模块，M_7，26 ^(1，6)，也就是如图1B所示的从M_7，26中检测出的一对训练数据。在左栏(21)中列出的是句子和根据指定给单词的数字的单词的位置。在右栏(22)中示出的单词序列由语素(最小的语言单位)构成，其中该语素是用符号“、”划界的。每个语素的的格式都为“日文单词：POS”。带有下划线的日文单词为将要被检测的目标单词。位于单词序列开始部分的符号“*”表示指定给该目标单词的标识是错误的。

其它的三对相互矛盾的数据也被检测并被纠正。它们都被标识为“て”，在上下文中用作后置词或者连接词。由于日文介词“て”的用法非常特殊，所以很难仅仅根据n语法单词(名词连接词)和POS信息来确定它的正确POS。必须考虑到整个句子的上下文才能确定正确的POS标识。

实验表明，根据本发明的方法检测POS错误的准确率几乎达到100％。

一般说来，非收敛问题的出现导致了我们在处理神经网络时非常的困难。但是根据本发明的技术却将这一问题转换为一种效益。当在人工标识集合中使用时，该在线错误检测方法显示出了巨大的优点。通过这种方式已经证明，根据本发明的错误检测方法在作为大型数据库的一个例子的文集中检测错误的是具有很高效率的。

根据本发明，在该大型数据库例如一个文本集中，只对被预测到可能会有错误的模块进行检测。因此就没有必要检测所有的数据，并且能够进行高速、高效率的错误检测。还有，如上所示检测错误的准确率也非常高。

虽然本发明错误检测方法采用了常用的神经网络技术，但是它的应用领域并不仅仅限于上述的文本集。

<实施例2>

实施例2为本发明在一个数据库中进行错误处理的一个应用，其中数据库是通过对大量并行EEG(脑电图描记)信号进行分类来构成的。

在神经生理学的研究中，生成了大量的时间序列的数据例如EEG数据来记录大脑的电活动。为了对该数据进行分析，可以采用一种使用神经网络的信号分类技术来构建一个大型数据库。对大脑进行研究，最重要的就是数据库的精确性，因此需要建立一种高速、高精确度的数据库构建方法。

对含有多维EEG数据的大型网络进行训练是非常困难的，这是因为还没有一种能够很有效的对大型网络进行训练的算法。而且提高训练的精确度也会花费很长的时间。

为了解决这个问题，常用的方法就是将从EEG数据中提取出来的少量的特征作为输入数据。但是，如果可用特征的数量减少了，则该EEG信号会失去原始的有用信息并且作为结果的分类也会不准确。

本发明提出了一个根据min-max模块(M³)神经网络的大型并行EEG信号分类方法(参见参考文献[7])。

参考文献[7]：Lu，U.L.，Ito，M.：Task decomposition and modulecombination based on class relation：a modular neural network forpattern classification，IEEE Tran.Neural Network，第19卷第5号，16-21页，2000。

该方法具有以下优点：

a)大型复杂的EEG分类问题可以根据用户的需求而被分解成多个相互独立的子问题。

b)各个小网络模块可以很容易的对子问题进行并行训练，这样就可以很容易的对大型多维EEG数据组进行训练。

c)该分类系统加快了在硬件中的运算速度，这样该系统就可以用作大脑-机器混合接口。

该开发出的方法依赖于实时采样和用于控制人工设备的大量大脑活动。

众所周知，脑内的海马状突起EEG信号同人类的识别和行为相关，例如注意力、学习以及任意行为。本发明接下来的实施例已经被用于实际的研究过程中。

在该研究中，我们记录了体重达到300-400克的8个雄性白鼠脑内的海马状突起EEG信号。这些白鼠在进行行为训练之前被关在各个笼子中，并给它们食物和水。在进行海马状突起电极植入手术一周之后，不再给白鼠水喝并在一个容器内以古怪示例进行训练。在不断重复的非目标刺激中包括较少的目标刺激，白鼠只有对目标刺激有反应才能得到水。

该目标刺激为低频声音(异常声音)，而非目标刺激为高频声音(常见声音)。白鼠在每次成功的对目标声音作出反应和横切水管中的光束时将通过水管给它一点水来作为奖励。

从白鼠中总共抽取了2127个非收敛简单试验海马状突起EEG信号为样本。各个EEG信号都持续了6秒钟，这些信号均属于FR类、FW类、OR类或者OW类，其中FR表示对于常见声音的正确行为(nogo)，FW表示对于常见声音的非正确行为(go)，OR表示对于异常声音的正确行为(go)，OW表示对于异常声音的非正确行为(no go)。

图3示出了属于FR、FW、OR以及OW类的非收敛简单试验海马状突起EEG信号。在刺激中，有1491个EEG信号用作训练而其余的636个信号用作测试。图4示出了对训练和测试数据的分配情况。

为了能从数量上估算出简单试验海马状突起EEG信号在振幅和频率上的变化，采用了小波转变技术(参见参考文献[8])并从EEG信号中提取出了这些特征。通过使用高斯莫利(Gaussian Morley)小波ω(t，ωp)，原始的EEG信号在时间和频率区域中围绕着它的中心频率ω0上下浮动。

式16：

W (t, ω_{0}) = \exp ({jω}_{0} t - \frac{t^{2}}{2})

参考文献[8]：Torrence，C.，Compoo，C.P：practical guide towavelet analysis，Bulletin of the American Meteorogical Society，第79卷，61-78页，1998。

该小波可以以压缩率a进行压缩，并且沿着时间轴随着参数b的变化而变化。当该信号摆动时，该变化并且放大了的小波变成了一个新的信号。等式17：

Sa (b) = \frac{1}{\sqrt{a}} &Integral; W (\frac{t - b}{a}) x (t) dt

其中W为复杂小波的共轭，x(t)为海马状突起EEG信号。

通过对多个压缩率a进行计算来获得新信号Sa(b)。为了绘出海马状突起的θ活动，则需要从时间-频率映像图中提取出5-12Hz的EEG信号的特征。

通过变化在时间区内采样的数量，以及使用在θ频带内的5个相同的小波系数，我们准备了两组数据。在前一组中有200个特征，在第二组中有2000个特征。图5示出了图3中4个EEG信号的2000个特征的时间-频率概略图。

通过我们在参考文献[7]中所提出的任务分离方法，一个K-类分类问题可以被分成如下所示的(K/2)个2-类子问题：

式18：T_ij＝{(X_l ⁽ⁱ⁾，1-ε)}^Li _l＝1U{(X_l ^(j)，ε)}^Lj _l＝1

其中I＝1，…，K，j＝i+1，…，K，ε为足够小的正实数，X_l ⁽ⁱ⁾*χi和X_l ^(j)*χj分别为类Ci和Cj的训练输入。χi为一组属于类Ci的训练输入，L_i为χi中所包含的数据的数目，Σi＝1/KL_i＝L，并且L为训练数据的总数。

如果由等式18定义的2-类问题对于训练来说还是大，则该问题还可以根据用户的要求被进一步的分解为多个更小的2-类问题。假设χi被分解为具有以下形式的子集Ni(1≤Ni≤Li)：

式19：

χ_{ij} = {{X_{1}}^{(ij)}}_{l = 1}^{Li (j)}

，j＝1，…，N_i

其中J＝1，…，Ni，i＝1，…，K，并且Uj＝1/Niχij＝χi。通过上述的χi分解，由等式18定义的2-类问题τij还可以被进一步的被分解为(Ni×Nj)个如下所述的更小、更简单的2-类子问题：

式20：

{T_{ij}}^{(u, v)} = {({X_{l}}^{(iu)}, 1 - ϵ)}_{l = 1}^{Li (u)} U {({X_{1}}^{(jv)}, ϵ)}_{l = 1}^{Lj (v)},

其中u＝1，…，Ni；i＝1，…，Nj；i＝1，…，K；j＝i+1，…，K；X_l ^(iu)*χiu和X_l ^(jv)*χjv分别为类Ci和Cj的训练输入。

从等式18和20中可以看出K-类问题可以自上而下的被进一步的被分解为∑i＝1/K∑j＝i+1/KNi×NJj个2-类子问题。

从等式18中可以看出4-类EEG分类问题可以被分解成(4/2)＝6个2-类子问题，也就是τ1，2，τ1，3，τ1，4，τ2，3，τ2，4，τ3，4。图4示出了在最小2-类子问题τ2，4中有157个训练数据项，而在在最大2-类子问题τ1，3中有1334项。

为了加速训练，相对来说大一些的子问题还可以被进一步的分解成更小、更简单的子问题。使用等式19，属于类FR，FW和OR的3个大型输入数据组分别被分解为49、6和15个子组。

结果，该原始的4-类问题被分解为∑i＝1/4ΣJ＝i+1/4Ni×Nj＝1189个平衡的2-类子问题，其中N1＝49，N2＝6，N3＝15，N4＝1。在每个问题中有大约40个训练数据项。

这个被提出来的任务分解方法的一个重要特性就是各个2-类子问题可以在训练期间被当作完全独立的、非沟通子问题来处理。因此，所有的子问题都可以并行进行训练。

同常用的方法相比，该大量的并行训练方法的优点就是，它不光可以很容易的用于普通的并行计算机还可以用于各个串行的机器例如互联网中的分布式应用。

在对各个模块进行训练之后，所有的网络模块可以通过使用根据最小化及最大化模块组合原理的MIN、MAX或/和INV单元而被很容易的集成为M³网络。

用这种方法，这种大型的数据库例如海马状突起EEG信号也可以被集成为M³网络。接着也就可以在训练的过程中采用本发明的错误检测方法。

由于对M³网络中的各个模块进行训练的问题是非常小和简单的2-类问题，所以它们可以由非常简单的具有极少隐藏单元的多层感知器来构建。因此，只要训练数据是正确的，基本上不会出现有模块不收敛的情况。

利用这一特性，就可以象在上述的文本集合中检测错误一样在训练数据的同时能够高精度的检测错误和分析EEG信号，因此，能够对神经生理学的发展研究作出一定的贡献。

本发明的使用神经网络的在线错误检测方法可以应用于任何领域，并且该方法的操作快速的特性是常用的方法中所没有的。

本发明的有益效果

具有上述配置的本发明具有以下的有益效果：

根据权利要求1的在线数据错误检测方法，通过对非收敛模块的检测可以在训练期间高效的检测出包含在一个人工数据库中的错误。因此，在一个神经网络中经常碰到的非收敛问题就会转变为一种效益。

这样就可以实现一种快速、高精度以及低损耗的错误检测装置。

根据权利要求2的在线数据错误检测装置可以以一个在常用的系统中很少能获得的较高的速度来在数据库中检测错误。该装置可以被安装在一个数据库系统中。例如训练数据库和进行在线错误检测。

根据权利要求3的在线数据错误检测软件，可以通过对非收敛模块的检测来在训练期间高效的检测出包含在一个人工数据库中的错误。这样，在一个神经网络中经常碰到的非收敛问题就会转变为一种效益。此外，由于本发明是以软件的形式提供的，所以很容易使用。

如果采用存储有如权利要求4的在线数据错误检测软件的存储媒体，则就可以很容易的在很广的范围内分配这个软件程序。还有，含有该错误检测软件程序的媒体对于构建一个便宜的存储单元很有好处。

Claims

1.一种检测数据错误的检测的方法，用于对包含至少两种类型数据的数据库进行数据错误检测，在该数据库中包含有可以用一种类型的数据对另一种类型的数据进行分类的对应关系，该检测方法包括以下步骤：

将该分类当作神经网络中的类来处理；

将该分类分解为更小的2-类问题，构成多个模块；

进行计算，检查在神经网络的学习过程中是不是所述的每个模块都是收敛的；以及

在模块不收敛的情况下，将该模块中的该对应关系判定为有错误，并将该模块提取出来。

2.一种检测数据错误的检测装置，用于对包含至少两种类型数据的数据库进行数据错误检测，其中在该数据库中包含有可以用一种类型的数据对另一种类型的数据进行分类的对应关系，该装置包括：

存储装置，用于存储数据库；

计算装置，用于进行演算，将分类当作神经网络中的类来处理，将该分类分解为更小的2-类问题，构成多个模块，检查所述的每个模块在神经网络的学习过程中是不是收敛的；以及

错误提取装置，用于在所述模块不收敛的情况下，将该模块中的该对应关系判定为有错误，并将该模块提取出来。

3.一种用于数据库的数据错误检测软件程序，该数据库包含至少两种类型数据并且可以用一种类型的数据对另一种类型的数据进行分类，该检测程序包括以下步骤：

将分类当作神经网络中的类来处理，并且将该分类问题分解为更小的2-类问题，构成多个模块；

进行计算，检查所述的每个模块在神经网络的学习过程中是不是收敛的；以及

在所述模块不收敛的情况下，将该模块中的该对应关系判定为有错误，并将该模块提取出来。

4.一种用于存储对数据库中的数据进行错误检测的软件程序的存储媒体，该数据库包含至少两种类型数据并且可以用一种类型的数据对另一种类型的数据进行分类，该媒体包括：

存储部，用于存储将该分类当作神经网络中的类来处理，并且将该分类分解为更小的2-类问题，构成多个模块步骤；

存储部，用于存储进行计算，检查所述的每个模块在神经网络的学习过程中是不是收敛的步骤；以及

存储部，用于存储在所述模块不收敛的情况下，将该模块中的该对应关系判定为有错误，并将该模块提取出来的步骤。