CN1407456A - 数据错误检测方法、装置、软件和媒体 - Google Patents

数据错误检测方法、装置、软件和媒体 Download PDF

Info

Publication number
CN1407456A
CN1407456A CN02127889A CN02127889A CN1407456A CN 1407456 A CN1407456 A CN 1407456A CN 02127889 A CN02127889 A CN 02127889A CN 02127889 A CN02127889 A CN 02127889A CN 1407456 A CN1407456 A CN 1407456A
Authority
CN
China
Prior art keywords
data
module
class
error
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN02127889A
Other languages
English (en)
Other versions
CN1257458C (zh
Inventor
马青
吕宝糧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INDEPENDENT ADMINISTRATIVE LEGAL PERSON COMMUNICATION GENERAL INST
Original Assignee
INDEPENDENT ADMINISTRATIVE LEGAL PERSON COMMUNICATION GENERAL INST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INDEPENDENT ADMINISTRATIVE LEGAL PERSON COMMUNICATION GENERAL INST filed Critical INDEPENDENT ADMINISTRATIVE LEGAL PERSON COMMUNICATION GENERAL INST
Publication of CN1407456A publication Critical patent/CN1407456A/zh
Application granted granted Critical
Publication of CN1257458C publication Critical patent/CN1257458C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种快速、高效以及高精确性地对数据库中的数据进行错误检测方法,其中在该数据库中包含至少两种类型的数据并且可以用一种类型的数据对另一种类型的数据进行分类。该数据库中的分类被当作神经网络中的类来处理,提供多个模块,而将原始分类问题分解为更小的2-类子问题,并且进行计算,检查所述每个模块在神经网络的训练过程中是不是都收敛的。模块不收敛,则该模块将被判定视为具有模式分类错误,并将其提取出来。

Description

数据错误检测方法、装置、软件和媒体
技术领域
本发明涉及一种用于数据库的数据错误检测方法,装置,软件以及存储媒体,或者尤其涉及一种在高速的情况下能够高效、精确的对错误进行检测的技术。
背景技术
一般来说,一个数据库包括两种或者更多种类型的数据,并且使用某一种类型的数据对另一种不同类型的数据进行分类。
不可避免的就是一个人工数据库中必然会包含错误,并且很难进行错误检测,尤其是在大型数据库中。
虽然已经提出了很多种检测错误的方法,但是快速、高效以及高精确性的方法在数量上还是有限的。尤其是,几乎没有一种错误检测方法能够应用于一个范围较宽的领域。
语言处理系统的训练处理过程中所使用的文本集合就是一个大型数据库的例子。由于很多文本集合都是人工构建的,因此其中包含很多错误,并且这些错误会经常阻止研究的继续进行,并减小了语言处理的准确性。因此,对文本集合中的错误进行检测以及纠正是一项具有重大意义的挑战。
一种常用的在文本集合中检测错误的方法就是采用基于实例的方法和判定列表方法,这能够从用于错误检测的目标集合中计算出出现错误的概率。(参见:村田真树,内山将夫,内元清贵,马清,以及井佐原均所著的“采用基于实例方法及决定列表方法,检测及修正集合错误”Corpus Error Detection and Correction Using theDecision-List and Example-Based Methods,2000-NL-136,第49-56页,2000)
但是对于这些最常用的方法来说,必须为每一个目标文本集合开发出一种适用于它的错误检测方法,并且错误检测方法必须能够接着用于所有的数据库。这种方法非常浪费时间,并且也并不是总能获得较高的精确度。
另外,错误检测只能在构建完数据库之后才能进行,并且不可能根据在线原理在采用常用技术构建数据库期间进行错误检测。
因此需要开发出一种用于数据库的错误检测方法,使得该方法能够快速、高效以及精确的对错误进行检测。
发明内容
本发明下面提供的这个数据错误检测方法就是为了解决上述的问题以及其它的常见问题。
首先,作为本发明的检测目标的数据库包括至少两种数据,并且包含可使用某种类型的分类目标数据对另一种不同类型的分类源数据进行分类的对应关系。
在本发明中,分类被作为神经网络中的类进行处理,并且被分成相对来说比较小的2-类问题以便于能提供多个模块。接着进行计算来检查是否各个模块在神经网络的学习过程中是收敛的。除非收敛,否则判定该模块含有模式分类错误(对应关系有误),并且接着将该模块提取出来。
本发明可以检测出数据错误的位置,并且还提供一个数据错误检测装置。尤其是,该数据错误检测装置包括:
(1)存储装置,用于存储所述的数据库;
(2)计算装置,用来将分类作为神经网络中的类来进行处理,将该分类分成相对来说更小的2-类问题以便于能提供多个模块,并接着进行计算来检查是否各个模块在神经网络的学习过程中是收敛的;以及
(3)错误提取装置,用来在不收敛的情况下将该模块判定为含有模式分类错误,并接着将该模块取出。
进一步,本发明还提供了以下的软件程序。该软件程序包括以下步骤:将分类作为神经网络中的类来进行处理,将该分类问题分成相对来说更小的2-类问题以提供多个模块,并接着进行计算来检查是否各个模块在神经网络的学习过程中是收敛的,以及在不收敛的情况下判定该模块中含有该对应关系错误,并接着将该模块取出。
还有,本发明也提供了一种用来存储上述错误检测软件程序的存储媒体。
附图说明
图1说明了实施例1中所使用的M3网络:图1(a)说明了它的全部结构,图1(b)说明了模块M7,26的详细结构;
图2为对根据本发明的实施例1的结果进行错误检测的实例;
图3为非平均单一试用EEG信号;
图4说明了训练和测试数据的数据分配情况;
图5说明了4个EEG信号的时间-频率等值线图。
具体实施方式
<实施例1>
实施例1为将本发明的错误检测方法用于文本集的错误检测系统。
虽然在接下来的描述中采用日文集来作为文本的一个实例,但是本发明的实施例适用于多种语言,例如英语、汉语以及韩语,这不包括极少的几种在逻辑上无法应用的情况。作为本发明对象的文集可以是包括有任何单词信息例如词类和词素的文本集合。本发明的错误检测方法可以检测出和这些单词信息相关的错误。
当使用机器来处理各种自然语言的文章时,事先对所有必须的知识进行编码几乎是不可能的。解决这一问题的方法就是文集(corpus),也就是对该机器系统所需要的知识,从自然语言句子的大型数据库中直接进行编译,其中的句子附加有多种标识例如词类(POS)(part ofspeech)和句法相关性,而不是使用简单句子构成的数据库。
经常使用文集(corpora)来构成各种基本自然语言处理系统,这包括复合词分析和语法分析。这种系统可以用于多种信息处理领域,例如语音合成的预处理、OCR的后续处理、声音识别、机器翻译、信息检索以及文章摘要。
可是大型文集的人工标识是一项复杂以及高成本的工作,例如Penn Tree Bank就包括不止450万个单词和135种POS。
因此到目前为止已经有多种采用不同机器训练技术的自动POS标识系统(例如可以参见参考文献[1,2])。
参考文献[1]:Merialda,B.:Tagging English text with aprobabilistic model,Computational Linguistics,第21卷第2号,155-171页,1994。
参考文献[2]:Brill,E.:Transformation-based error-drivenlearning and natural language:a case study in part-of-speech tagging,Computational Linguistics,第21卷第4号,543-565页,1994。
在从前的研究中,我们开发出了一种神经/基于规则的混合标识。由于其精确的标识添加和比其它方法少的训练数据,这个标识系统已经能够在实际中被采用(参见参考文献[3])。
参考文献[3]:Ma,Q.,Uchimoto,K.,Murata,M.,以及Isahara,H.:Hybird neuro and rule-based part of speech taggers,Proc.COLING’2000,Saarbrucken,509-515页,2000。
在这个标识系统中有两种方法来改进标识的准确性。一个就是增加训练数据的数量,另一个就是改进用来进行训练的文集的质量。
第一种方法由于在加标识器(tagger)中使用了多层感知器,因此出现了非收敛问题。为了克服这个固有的问题,我们开发出了一种最小-最大模块(M3)神经网络(参见参考文献[4])。
参考文献[4]:Lu,B.L.以及Ito,M.:Task decomposition and modulecombination based on class relation;a modular neural network forpattern classification,IEEE Trans.Neual Networks,第10卷第5号,1244-1256页,1999。
该网络是用于将大型、复杂的问题分解为多个相对来说小一些和简单一些的子问题(参见参考文献[5])的网络。
参考文献[5]:Lu,B.L.,Ma,Q.,Isahara,H.以及Ichikawa,M.:Efficient part-of-speech tagging with a min-max module neuralnetwork model,to appear in Applied Intelligence,2001。
作为第二种在文集中检测错误的方法,可以采用POS错误检测方法。本发明提供了一种作为这种方法的错误检测方法,接下来将详细描述如何实现该方法。
由于就POS来说单词经常是不明确的,所以必须参照上下文对这些单词进行解释(标识)。无论这采用自动或者手工的方法,该标识工作通常都会包含错误。
在人工标识文集POS中主要有以下三种类型的错误:简单错误(例如,POS“Verb”被输入为“Varb”);不准确的知识错误(例如,单词“fly”经常被标识为“动词”);以及不一致错误(例如“like”在句子“Time flies like an arrow”中被正确的标识为“介词”,而在句子“The one like him is welcome”却被标识为“动词”)。
简单错误通过参照字典就可以被很容易的检测出来。一方面,采用自动的方法几乎不可能检测出不准确的知识错误。如果用正确POS标识的单词被认作是一个分类问题或者一个基于上下文POS输入/输出单词映射问题,则该不一致错误可以被视为一个相同输入/不同输出(类)数据的集合。因此,可以采用本发明提出的神经网络技术来处理这种错误。
该M3网络由用来处理非常简单的小问题的模块构成。这些模块可以由非常简单的极少使用或不使用隐藏单元的多层感知器构成。
这就意味着在这种模块中基本不会涉及非收敛问题。换句话说,除非是一个模块收敛,否则就认为该正在进行数据学习的模块包括有不一致(矛盾)类型的错误。
因此,当一边学习一边进行检测,或者将非收敛数据提取出来,确定学习对象数据集合中的不一致数据时,这种有标识的文集中的错误是可以被在线检测出的。当使用高质量文集时,非收敛模块的数量比收敛模块的数量更有限,并且每个模块所学习的数据集合(组)非常小。结果,该在线错误检测方法具有很大的效益,尤其是对于大型文集来说。
通过使用这种在线错误检测方法,只需在学习期间进行简单的人工操作就可以大大的改进文集质量,并且纠正后的新数据可以再用来对其它非收敛模块的进行训练。
M3网络的要点包括:采用了将大型、复杂的K-类问题分解成多个相对来说更简单、更小的子问题的技术,这其中的子问题通过使用各自独立的模块来解决,并且还采用了将这些模块组合在一块以便提供最终解决方法的技术。
令T为K类分类问题的训练集合,式1: T = { ( X 1 , Y 1 ) } l = 1 Li ,
其中XlRn为输入向量,YlRk为期望的输出,并且L为训练数据的个数。一般的,K-类问题可以被分成(K/2)个2-类问题。
式2: T ij = { ( X 1 ( i ) , 1 - &epsiv; ) } l = 1 Li U { X 1 ( j ) , &epsiv; } l = 1 Lj i=1,…,K,j=i+1,…,K
其中ε为小的正实数,并且Xl (i)和Yl (i)分别为类Ci和Cj的输入向量。
被分解后的(K/2)个2-类问题中的一个问题如果仍旧是复杂的,则该问题还可以被进一步分解。属于每个类的一大组输入向量,例如Xl (i)(参见式2),可以被随机的分成Ni(1≤Ni≤Li)个子集χij。也就是,
式3: &chi; ij = { X 1 ( ij ) } l = 1 Li ( j ) ,j=1,…,Ni
其中Li (j)为子集χij中输入向量的个数。使用该子集,如等式2中所定义的2-类问题可以被分解成Ni×Nj个相对来说更小、更简单的2-类子问题。
式4: T ij ( u , v ) = { ( X 1 ( iu ) , 1 - &epsiv; ) } l = 1 Li ( j ) U { X 1 ( jv ) , &epsiv; } l = 1 Lj ( j ) ,u=1,…,Ni,v=1,…,Nj
其中Xl (iu)χiu和Xl (jv)χjv分别为类Ci、Cj的元素
因此,如果如等式2所定义的2-类问题可以被分解成如等式4所定义2-类子问题,则最原始的K类问题可以被分成2-类问题的个数为: &Sigma; i = 1 K &Sigma; j = i + 1 K N i &times; N j
如果将要被训练的数据组中包括两个元素即Li=1(u)和Lj (v)=1,则如式4所定义2-类问题就很明显是一个线性可分离问题。
在对被各个模块分解的子问题进行训练之后,可以将通过将它们集成在一块来获得对原始问题的最终解决方法。下面的描述将着重于如何将这些模块集成在一起。(使用模块集成技术来解决该问题的细节可以参见参考文献[4])
为了对模块进行集成,我们使用了3个单元:MIN、MAX和INV。解决小训练问题的模块Tij(式2)和Tij (u,v)(式4)分别用Mij和Mij (u,v)来表示。
当通过将其分解为(K/2)个2-类问题Tij(等式2)来解决K-类问题T(等式1)时,首先使用MIN单元将它们组合在一块儿,每个MIN单元都能够从它的多个输入中选出最小值,可如下表示:
式5:MINi=min(Mi1,…,Mij,…,Mik),i=1,…,K(i≠j)
为便于描述,用MIN单元来表示输出。以MIN单元形式来表示的K个输出值就是最终结果,如下:
式6:C=arg max{MINi},i=1,…,K,
             i
其中C为输入数据所属的类。当进一步将2-类问题Tij分解为Tij (u,v),(式4)时,模块Mij (u,v)和训练Tij (u,v)被MIN单元迅速组合在一块,如下:
式7: MIN ij ( u ) = min ( M ij ( u 1 ) , . . . , M ij ( uNj ) ) ,u=1,…Ni
模块Mij由MAX单元组成,其中这些MAX单元都能够从它的多个输入中选出最大值,可如下表示:
式8:Mij=max(MIN(1) ij,MIN(2) ij,…,MIN(Ni) ij)。
以上述方式生成的Mij被加入到式5中。由于2-类问题Tij和Tji一样,所以Mji也是由用来转换Mij的INV单元和输入构成的。
根据本发明的错误检测可以在POS标识问题的训练期间通过在线的形式来实现。这样,在对错误检测方法进行详细描述之前,应该首先对于POS标识问题本身进行说明,也就是如何分解POS标识问题和M3网络如何训练该问题。
可以假设存在一个字典V={ω1,ω2,…,ωv}和一个POS组Γ={τ1,τ2,…,τv},其中列出了各个单词都能使用的POS。接着POS标识问题就转变为在给出一个句子W=ω1,ω2,…,ωs(ωiV,i=1,…,s)时通过一个操作来查找POS符号组T=τ1τ2…τs(τiΓ,i=1,…,s)的问题。
式9::Wp→rp
其中p为集合中将要被标识目标单词的位置,并且wp为一个单词序列,其中(1,r)表示目标单词ωp左右两侧的单词。
式10:Wp=wp-l…wp…wp+r
其中p-1≥Ss,p+r≤Ss+s,Ss为一个句子中最上边的单词的位置。
通过用类代替POS,标识就转换为一个分类和映射问题,并且可以通过监视神经网络来处理,其中的神经网络在标识的集合中进行训练。
本发明的错误检测方法已经过试验来评估它的性能。
在试验中使用的京都大学(Kyoto University)文本集中包括19956个日文句子中的487691个单词,其中包括30674的不同的单词。
参考文献[6]:Kurohashi,S.和Nagao,M.:Kyoto University textcorpus project,Proc.3rd Annual Meeting of the Association forNational Language Processing,115-118页,1997。
根据文集中所使用的175种POS,至少有一半的单词是不明确的。需要确定的是在训练POS标识问题期间M3网络是否能够在线检测错误,为了这一目的准备了217个日文句子,其中每个句子至少含有一个错误。
这些句子包括6816个单词,其中的2410个是不同的,还包括97种POS标识。该POS标识问题就转换为用类代替POS的一个97-类分类问题。
接下来说明先前提到的计算方法,该97-类问题被分解为(K/2)=4565个各不相同2-类问题。虽然主要问题还存在,但是它们还可以采用先前说明的任意方法来进行进一步的分解。结果,一个2-类问题例如T1,2被分成8个子问题,而T5,10却不再分。
用这种方法,原始的97-类问题被分解成23231个更小的2-类问题。
根据本发明的对POS标识问题进行训练的M3网络是将模块集成在一块构成的,如图1所示。如果相应的问题Tij被进一步分解,则各个模块Mij如图1B所示。
在如图1B所示的例子中,问题T7,26被进一步分解为更小的N7×N26=25×10=250个子问题。这样,M7,26就由250个模块构成,M7,26 (u,v)(u=1,…,25,v=1,…,10),并且Mij(j>1)由Mi,j和INV单元构成。
处于训练状态的输入向量(例如等式1中的x1)由单词序列wp(式10)构成,如下:
式11:X=(xp-l…xp…xp+r)。
其中元素xp是一个对目标单词进行编码的ω维二进制编码向量。
式12:xp=(ew1,…,e)
相应于上下文中各个单词的元素xt(t≠p)是一个对标识于单词上的POS进行编码的τ维二进制编码向量。
式13:xt=(eτ1,…,eττ)
需要的输出应该是一个对标识于目标单词上的POS进行编码的τ维二进制编码向量,如下:
式14:Y=(y1,y2,…,yτ)
由于M3网络中应该训练的各个模块是非常小和简单的2-类问题,所以极少使用或不使用隐藏单元,可以由例如非常简单的多层感知器构成。因此,只要训练数据是正确的,在各个模块中基本就不会出现非收敛的问题。换句话说,除非一个模块收敛,否则该模块可被认为是在对含有一些矛盾数据的数据集合 T M = ( X 1 , Y 1 ) l = 1 LM 进行训练的。
这就意味着在该数据集中至少存在一对数据(Xi,Yi)和(Xj,Yj)能够满足下面的关系。
式15:Xi=Xj,Yi≠Yj(i≠j)
其中TM表示Tij(式2)或者Tij (u,v)(式4)。
用这种方法,可以通过提取非收敛模块和检测数据是否相互矛盾来在线检测出目标标识文集中的错误,也就是,通过由模块进行训练并符合式15的数据组中的一个简单程序对(Xi,Yi)和(Xj,Yj)来确定。
当使用一个具有高质量标识的文集时,非收敛模块的数量比收敛模块的数量更有限,每个模块训练的数据组非常小。这样,该在线错误检测方法就具有很大的效益并且它的效率随着集合大小的增长而得到了增强。通过在错误检测过程中采用这种有效的方法,在训练中只需简单的人工操作就能改进该集合的质量,并且该更新后的数据还可以接着用于非收敛模块的其它部分。
实施例1是按照上述的配置来实现的。实验后的结果将在下面描述。
总共,该集合具有30674个不同的单词和175种POS。用于单词和POS的维数和二进制编码向量的τ分别被设置为16和8。给予M3网络的单词序列(1,r)的长度为(2,2),因此在所有模块中输入层单元就有[(1+r)xτ]+[1×ω]=48个。大体上,所有的模块基本上都有3层感应器构成,其中的输入、隐藏和输出层分别有48、2和1个单元。当均方差达到0.05或者计算重复了5000次时模块就会停止1个循环训练。每个循环都会将隐藏层的两个单元加到还没有达到错误容限的模块,直到达到了目的或者已经完成了5次循环训练为止。
在试验过程中,总共的23231个模块中有82个没有收敛。对于这82个模块,81个模块具有97对不一致训练数据。这97对训练数据经过了对于日文语法和京都大学文本集合有着深刻理解的专家的检查。
结果发现,在97个训练数据对中有94个含有POS错误,并且错误检测准确率达到了97%。图2为一个非收敛模块,M7,26 (1,6),也就是如图1B所示的从M7,26中检测出的一对训练数据。在左栏(21)中列出的是句子和根据指定给单词的数字的单词的位置。在右栏(22)中示出的单词序列由语素(最小的语言单位)构成,其中该语素是用符号“、”划界的。每个语素的的格式都为“日文单词:POS”。带有下划线的日文单词为将要被检测的目标单词。位于单词序列开始部分的符号“*”表示指定给该目标单词的标识是错误的。
其它的三对相互矛盾的数据也被检测并被纠正。它们都被标识为“て”,在上下文中用作后置词或者连接词。由于日文介词“て”的用法非常特殊,所以很难仅仅根据n语法单词(名词连接词)和POS信息来确定它的正确POS。必须考虑到整个句子的上下文才能确定正确的POS标识。
实验表明,根据本发明的方法检测POS错误的准确率几乎达到100%。
一般说来,非收敛问题的出现导致了我们在处理神经网络时非常的困难。但是根据本发明的技术却将这一问题转换为一种效益。当在人工标识集合中使用时,该在线错误检测方法显示出了巨大的优点。通过这种方式已经证明,根据本发明的错误检测方法在作为大型数据库的一个例子的文集中检测错误的是具有很高效率的。
根据本发明,在该大型数据库例如一个文本集中,只对被预测到可能会有错误的模块进行检测。因此就没有必要检测所有的数据,并且能够进行高速、高效率的错误检测。还有,如上所示检测错误的准确率也非常高。
虽然本发明错误检测方法采用了常用的神经网络技术,但是它的应用领域并不仅仅限于上述的文本集。
<实施例2>
实施例2为本发明在一个数据库中进行错误处理的一个应用,其中数据库是通过对大量并行EEG(脑电图描记)信号进行分类来构成的。
在神经生理学的研究中,生成了大量的时间序列的数据例如EEG数据来记录大脑的电活动。为了对该数据进行分析,可以采用一种使用神经网络的信号分类技术来构建一个大型数据库。对大脑进行研究,最重要的就是数据库的精确性,因此需要建立一种高速、高精确度的数据库构建方法。
对含有多维EEG数据的大型网络进行训练是非常困难的,这是因为还没有一种能够很有效的对大型网络进行训练的算法。而且提高训练的精确度也会花费很长的时间。
为了解决这个问题,常用的方法就是将从EEG数据中提取出来的少量的特征作为输入数据。但是,如果可用特征的数量减少了,则该EEG信号会失去原始的有用信息并且作为结果的分类也会不准确。
本发明提出了一个根据min-max模块(M3)神经网络的大型并行EEG信号分类方法(参见参考文献[7])。
参考文献[7]:Lu,U.L.,Ito,M.:Task decomposition and modulecombination based on class relation:a modular neural network forpattern classification,IEEE Tran.Neural Network,第19卷第5号,16-21页,2000。
该方法具有以下优点:
a)大型复杂的EEG分类问题可以根据用户的需求而被分解成多个相互独立的子问题。
b)各个小网络模块可以很容易的对子问题进行并行训练,这样就可以很容易的对大型多维EEG数据组进行训练。
c)该分类系统加快了在硬件中的运算速度,这样该系统就可以用作大脑-机器混合接口。
该开发出的方法依赖于实时采样和用于控制人工设备的大量大脑活动。
众所周知,脑内的海马状突起EEG信号同人类的识别和行为相关,例如注意力、学习以及任意行为。本发明接下来的实施例已经被用于实际的研究过程中。
在该研究中,我们记录了体重达到300-400克的8个雄性白鼠脑内的海马状突起EEG信号。这些白鼠在进行行为训练之前被关在各个笼子中,并给它们食物和水。在进行海马状突起电极植入手术一周之后,不再给白鼠水喝并在一个容器内以古怪示例进行训练。在不断重复的非目标刺激中包括较少的目标刺激,白鼠只有对目标刺激有反应才能得到水。
该目标刺激为低频声音(异常声音),而非目标刺激为高频声音(常见声音)。白鼠在每次成功的对目标声音作出反应和横切水管中的光束时将通过水管给它一点水来作为奖励。
从白鼠中总共抽取了2127个非收敛简单试验海马状突起EEG信号为样本。各个EEG信号都持续了6秒钟,这些信号均属于FR类、FW类、OR类或者OW类,其中FR表示对于常见声音的正确行为(nogo),FW表示对于常见声音的非正确行为(go),OR表示对于异常声音的正确行为(go),OW表示对于异常声音的非正确行为(no go)。
图3示出了属于FR、FW、OR以及OW类的非收敛简单试验海马状突起EEG信号。在刺激中,有1491个EEG信号用作训练而其余的636个信号用作测试。图4示出了对训练和测试数据的分配情况。
为了能从数量上估算出简单试验海马状突起EEG信号在振幅和频率上的变化,采用了小波转变技术(参见参考文献[8])并从EEG信号中提取出了这些特征。通过使用高斯莫利(Gaussian Morley)小波ω(t,ωp),原始的EEG信号在时间和频率区域中围绕着它的中心频率ω0上下浮动。
式16: W ( t , &omega; 0 ) = exp ( j&omega; 0 t - t 2 2 )
参考文献[8]:Torrence,C.,Compoo,C.P:practical guide towavelet analysis,Bulletin of the American Meteorogical Society,第79卷,61-78页,1998。
该小波可以以压缩率a进行压缩,并且沿着时间轴随着参数b的变化而变化。当该信号摆动时,该变化并且放大了的小波变成了一个新的信号。等式17: Sa ( b ) = 1 a &Integral; W ( t - b a ) x ( t ) dt
其中W为复杂小波的共轭,x(t)为海马状突起EEG信号。
通过对多个压缩率a进行计算来获得新信号Sa(b)。为了绘出海马状突起的θ活动,则需要从时间-频率映像图中提取出5-12Hz的EEG信号的特征。
通过变化在时间区内采样的数量,以及使用在θ频带内的5个相同的小波系数,我们准备了两组数据。在前一组中有200个特征,在第二组中有2000个特征。图5示出了图3中4个EEG信号的2000个特征的时间-频率概略图。
通过我们在参考文献[7]中所提出的任务分离方法,一个K-类分类问题可以被分成如下所示的(K/2)个2-类子问题:
式18:Tij={(Xl (i),1-ε)}Li l=1U{(Xl (j),ε)}Lj l=1
其中I=1,…,K,j=i+1,…,K,ε为足够小的正实数,Xl (i)*χi和Xl (j)*χj分别为类Ci和Cj的训练输入。χi为一组属于类Ci的训练输入,Li为χi中所包含的数据的数目,Σi=1/KLi=L,并且L为训练数据的总数。
如果由等式18定义的2-类问题对于训练来说还是大,则该问题还可以根据用户的要求被进一步的分解为多个更小的2-类问题。假设χi被分解为具有以下形式的子集Ni(1≤Ni≤Li):
式19: &chi; ij = { X 1 ( ij ) } l = 1 Li ( j ) ,j=1,…,Ni
其中J=1,…,Ni,i=1,…,K,并且Uj=1/Niχij=χi。通过上述的χi分解,由等式18定义的2-类问题τij还可以被进一步的被分解为(Ni×Nj)个如下所述的更小、更简单的2-类子问题:
式20: T ij ( u , v ) = { ( X l ( iu ) , 1 - &epsiv; ) } l = 1 Li ( u ) U { ( X 1 ( jv ) , &epsiv; ) } l = 1 Lj ( v ) ,
其中u=1,…,Ni;i=1,…,Nj;i=1,…,K;j=i+1,…,K;Xl (iu)*χiu和Xl (jv)*χjv分别为类Ci和Cj的训练输入。
从等式18和20中可以看出K-类问题可以自上而下的被进一步的被分解为∑i=1/K∑j=i+1/KNi×NJj个2-类子问题。
从等式18中可以看出4-类EEG分类问题可以被分解成(4/2)=6个2-类子问题,也就是τ1,2,τ1,3,τ1,4,τ2,3,τ2,4,τ3,4。图4示出了在最小2-类子问题τ2,4中有157个训练数据项,而在在最大2-类子问题τ1,3中有1334项。
为了加速训练,相对来说大一些的子问题还可以被进一步的分解成更小、更简单的子问题。使用等式19,属于类FR,FW和OR的3个大型输入数据组分别被分解为49、6和15个子组。
结果,该原始的4-类问题被分解为∑i=1/4ΣJ=i+1/4Ni×Nj=1189个平衡的2-类子问题,其中N1=49,N2=6,N3=15,N4=1。在每个问题中有大约40个训练数据项。
这个被提出来的任务分解方法的一个重要特性就是各个2-类子问题可以在训练期间被当作完全独立的、非沟通子问题来处理。因此,所有的子问题都可以并行进行训练。
同常用的方法相比,该大量的并行训练方法的优点就是,它不光可以很容易的用于普通的并行计算机还可以用于各个串行的机器例如互联网中的分布式应用。
在对各个模块进行训练之后,所有的网络模块可以通过使用根据最小化及最大化模块组合原理的MIN、MAX或/和INV单元而被很容易的集成为M3网络。
用这种方法,这种大型的数据库例如海马状突起EEG信号也可以被集成为M3网络。接着也就可以在训练的过程中采用本发明的错误检测方法。
由于对M3网络中的各个模块进行训练的问题是非常小和简单的2-类问题,所以它们可以由非常简单的具有极少隐藏单元的多层感知器来构建。因此,只要训练数据是正确的,基本上不会出现有模块不收敛的情况。
利用这一特性,就可以象在上述的文本集合中检测错误一样在训练数据的同时能够高精度的检测错误和分析EEG信号,因此,能够对神经生理学的发展研究作出一定的贡献。
本发明的使用神经网络的在线错误检测方法可以应用于任何领域,并且该方法的操作快速的特性是常用的方法中所没有的。
本发明的有益效果
具有上述配置的本发明具有以下的有益效果:
根据权利要求1的在线数据错误检测方法,通过对非收敛模块的检测可以在训练期间高效的检测出包含在一个人工数据库中的错误。因此,在一个神经网络中经常碰到的非收敛问题就会转变为一种效益。
这样就可以实现一种快速、高精度以及低损耗的错误检测装置。
根据权利要求2的在线数据错误检测装置可以以一个在常用的系统中很少能获得的较高的速度来在数据库中检测错误。该装置可以被安装在一个数据库系统中。例如训练数据库和进行在线错误检测。
这样就可以实现一种快速、高精度以及低损耗的错误检测装置。
根据权利要求3的在线数据错误检测软件,可以通过对非收敛模块的检测来在训练期间高效的检测出包含在一个人工数据库中的错误。这样,在一个神经网络中经常碰到的非收敛问题就会转变为一种效益。此外,由于本发明是以软件的形式提供的,所以很容易使用。
如果采用存储有如权利要求4的在线数据错误检测软件的存储媒体,则就可以很容易的在很广的范围内分配这个软件程序。还有,含有该错误检测软件程序的媒体对于构建一个便宜的存储单元很有好处。

Claims (4)

1.一种检测数据错误的检测的方法,用于对包含至少两种类型数据的数据库进行数据错误检测,在该数据库中包含有可以用一种类型的数据对另一种类型的数据进行分类的对应关系,该检测方法包括以下步骤:
将该分类当作神经网络中的类来处理;
将该分类分解为更小的2-类问题,构成多个模块;
进行计算,检查在神经网络的学习过程中是不是所述的每个模块都是收敛的;以及
在模块不收敛的情况下,将该模块中的该对应关系判定为有错误,并将该模块提取出来。
2.一种检测数据错误的检测装置,用于对包含至少两种类型数据的数据库进行数据错误检测,其中在该数据库中包含有可以用一种类型的数据对另一种类型的数据进行分类的对应关系,该装置包括:
存储装置,用于存储数据库;
计算装置,用于进行演算,将分类当作神经网络中的类来处理,将该分类分解为更小的2-类问题,构成多个模块,检查所述的每个模块在神经网络的学习过程中是不是收敛的;以及
错误提取装置,用于在所述模块不收敛的情况下,将该模块中的该对应关系判定为有错误,并将该模块提取出来。
3.一种用于数据库的数据错误检测软件程序,该数据库包含至少两种类型数据并且可以用一种类型的数据对另一种类型的数据进行分类,该检测程序包括以下步骤:
将分类当作神经网络中的类来处理,并且将该分类问题分解为更小的2-类问题,构成多个模块;
进行计算,检查所述的每个模块在神经网络的学习过程中是不是收敛的;以及
在所述模块不收敛的情况下,将该模块中的该对应关系判定为有错误,并将该模块提取出来。
4.一种用于存储对数据库中的数据进行错误检测的软件程序的存储媒体,该数据库包含至少两种类型数据并且可以用一种类型的数据对另一种类型的数据进行分类,该媒体包括:
存储部,用于存储将该分类当作神经网络中的类来处理,并且将该分类分解为更小的2-类问题,构成多个模块步骤;
存储部,用于存储进行计算,检查所述的每个模块在神经网络的学习过程中是不是收敛的步骤;以及
存储部,用于存储在所述模块不收敛的情况下,将该模块中的该对应关系判定为有错误,并将该模块提取出来的步骤。
CNB02127889XA 2001-08-15 2002-08-14 数据错误检测方法和装置 Expired - Fee Related CN1257458C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001246642A JP2003058861A (ja) 2001-08-15 2001-08-15 データエラーの検出方法及び装置、ソフトウェア並びにその記憶媒体
JP246642/2001 2001-08-15

Publications (2)

Publication Number Publication Date
CN1407456A true CN1407456A (zh) 2003-04-02
CN1257458C CN1257458C (zh) 2006-05-24

Family

ID=19076146

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB02127889XA Expired - Fee Related CN1257458C (zh) 2001-08-15 2002-08-14 数据错误检测方法和装置

Country Status (3)

Country Link
US (1) US20040078730A1 (zh)
JP (1) JP2003058861A (zh)
CN (1) CN1257458C (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604408B (zh) * 2009-04-03 2011-11-16 江苏大学 一种检测器的生成和检测方法
CN105830036A (zh) * 2013-12-23 2016-08-03 高通股份有限公司 神经看门狗
CN101965729B (zh) * 2008-03-03 2017-01-11 威智伦分析公司 动态物件分类
CN111274158A (zh) * 2020-02-27 2020-06-12 北京首汽智行科技有限公司 一种数据验证方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7574429B1 (en) 2006-06-26 2009-08-11 At&T Intellectual Property Ii, L.P. Method for indexed-field based difference detection and correction
US8458520B2 (en) * 2008-12-01 2013-06-04 Electronics And Telecommunications Research Institute Apparatus and method for verifying training data using machine learning
KR101482430B1 (ko) * 2013-08-13 2015-01-15 포항공과대학교 산학협력단 전치사 교정 방법 및 이를 수행하는 장치
RU2638634C2 (ru) * 2014-01-23 2017-12-14 Общество с ограниченной ответственностью "Аби Продакшн" Автоматическое обучение программы синтаксического и семантического анализа с использованием генетического алгоритма
US10409667B2 (en) * 2017-06-15 2019-09-10 Salesforce.Com, Inc. Error assignment for computer programs

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4674066A (en) * 1983-02-18 1987-06-16 Houghton Mifflin Company Textual database system using skeletonization and phonetic replacement to retrieve words matching or similar to query words
JPH0492955A (ja) * 1990-08-06 1992-03-25 Nippon Telegr & Teleph Corp <Ntt> ニューラルネットワークの学習方式
US6170073B1 (en) * 1996-03-29 2001-01-02 Nokia Mobile Phones (Uk) Limited Method and apparatus for error detection in digital communications
US6438535B1 (en) * 1999-03-18 2002-08-20 Lockheed Martin Corporation Relational database method for accessing information useful for the manufacture of, to interconnect nodes in, to repair and to maintain product and system units
US6606629B1 (en) * 2000-05-17 2003-08-12 Lsi Logic Corporation Data structures containing sequence and revision number metadata used in mass storage data integrity-assuring technique
US6633772B2 (en) * 2000-08-18 2003-10-14 Cygnus, Inc. Formulation and manipulation of databases of analyte and associated values

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101965729B (zh) * 2008-03-03 2017-01-11 威智伦分析公司 动态物件分类
CN101604408B (zh) * 2009-04-03 2011-11-16 江苏大学 一种检测器的生成和检测方法
CN105830036A (zh) * 2013-12-23 2016-08-03 高通股份有限公司 神经看门狗
CN111274158A (zh) * 2020-02-27 2020-06-12 北京首汽智行科技有限公司 一种数据验证方法

Also Published As

Publication number Publication date
CN1257458C (zh) 2006-05-24
JP2003058861A (ja) 2003-02-28
US20040078730A1 (en) 2004-04-22

Similar Documents

Publication Publication Date Title
CN1790332A (zh) 一种问题答案的阅读浏览显示方法及其系统
CN111949759A (zh) 病历文本相似度的检索方法、系统及计算机设备
CN1906608A (zh) 确认技术文档内容的方法和系统
CN1426561A (zh) 带有跨语言阅读向导的计算机辅助阅读系统和方法
CN104820694B (zh) 基于多知识库和整数线性规划ilp的自动问答方法和系统
CN1257458C (zh) 数据错误检测方法和装置
Nishino et al. Reinforcement learning with imbalanced dataset for data-to-text medical report generation
CN1571977A (zh) 字符识别
CN112364132A (zh) 基于依存句法的相似度计算模型和系统及搭建系统的方法
Wu et al. Sentiment word aware multimodal refinement for multimodal sentiment analysis with ASR errors
US11403304B2 (en) Automatically curating existing machine learning projects into a corpus adaptable for use in new machine learning projects
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
Li et al. " What Do You Mean by That?" A Parser-Independent Interactive Approach for Enhancing Text-to-SQL
CN114757178A (zh) 核心产品词提取方法、装置、设备及介质
CN1158621C (zh) 信息处理装置、信息处理方法
Kessler et al. Extraction of terminology in the field of construction
KR102642488B1 (ko) 인공지능 기술을 이용하여 질문에 대한 답변을 생성하는 데이터 제공 장치, 방법 및 컴퓨터 프로그램
Anick et al. Identification of Technology Terms in Patents.
Li et al. Tracing requirements as a problem of machine learning
CN1056933C (zh) 中文错别字自动订正方法及装置
EP3965024A1 (en) Automatically labeling functional blocks in pipelines of existing machine learning projects in a corpus adaptable for use in new machine learning projects
CN114741512A (zh) 一种文本自动分类方法及系统
Wellner Weakly supervised learning methods for improving the quality of gene name normalization data
CN110765783A (zh) 一种基于迁移学习的多语种互译方法及系统
CN113642321B (zh) 面向金融领域的因果关系提取方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee