CN104391836B - 处理用于句法分析的特征模板的方法及装置 - Google Patents
处理用于句法分析的特征模板的方法及装置 Download PDFInfo
- Publication number
- CN104391836B CN104391836B CN201410643330.2A CN201410643330A CN104391836B CN 104391836 B CN104391836 B CN 104391836B CN 201410643330 A CN201410643330 A CN 201410643330A CN 104391836 B CN104391836 B CN 104391836B
- Authority
- CN
- China
- Prior art keywords
- templates
- basic templates
- basic
- feature
- feature template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种处理用于句法分析的特征模板的方法及装置。所述方法包括:获取第一特征模板的集合,其中,所述第一特征模板的集合包含基本模板和组合模板,每个所述组合模板包含至少两个基本模板;从所述第一特征模板的集合提取至少一个基本模板;分别使用所述至少一个基本模板对训练语料进行解码,并且分别为每个所述基本模板统计从所述训练语料抽取的第一特征值的数量;从所述第一特征模板的集合删除仅抽取出单个第一特征值的所述基本模板以及组合模板中包含的所述基本模板。通过从特征模板的集合中删除不影响测试精度的特征模板,自动地进行特征模板的筛选,获得通用性好的特征模板的集合。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种处理用于句法分析的特征模板的方法及装置。
背景技术
依存分析是目前应用最广泛的一种句法分析的方法,两个词之间的句法关系用依存关系表示,如图1所示,为一个句子在句法分析中句子依存关系示例图,如图中所示的句子“天龙八部的男主角是谁”,其中,“是”的主语(SBV)和宾语(VOB)分别为“男主角”和“谁”,“天龙八部”依存于“的”,同时这两个词构成的子句又以修饰语(ATT)的关系依存于“男主角”,“是”是这个句子的核心词(HED),“ROOT”是虚拟节点,表示句法树的根,表示句法树的根,每个句子都会加入这个节点,具体的依存分析方法可以参考现有技术中的内容,在此不再详述。
此外,移近归约是依存分析的一种经典实现方式,采用移近归约依存分析进行句法分析具有精度高速度快的优点,如图2所示,为使用移近归约依存分析的方法分析过程示意图,在图2中的栈用于保存正在分析的词,栈顶表示最近正在分析的词,以图1中所示的句子“天龙八部的男主角是谁”为例,其中“天龙八部”是已经分析完的词,则不出现在栈中,而队列用户保存待分析的词,队顶表示最近待分析的词。在移近归约依存分析方法,每次分析时判断队顶词与栈顶词之间的关系,如果队顶词与栈顶词没有依存关系,则将队顶词压入栈里,如果队顶词依存于栈顶词,则在两个词之间建立关系弧(如图3所示),并直接归约栈顶词(栈顶词出栈),而这种判断队顶词和栈顶词的关系,即是使用特征模板抽取上下文特征进行判断的。
然而,在移近归约依存分析中句子的特征是通过人工设定特征模板集合来采集的,特征模板集合的大小直接决定了最终产生的特征模板。一般地,依存分析的特征筛选是指特征模板的筛选,现有的特征筛选方法采用迭代增加使准确率提升的特征模板方法,都有以下缺点:1)速度慢,判断一个特征模板是否保留需至少一次以上的实验,而一般依存分析系统的特征模板数量都比较多,就需要大量的实验去进行筛选;2)通用性差,在一个语料上筛选出的特征模板无法直接移植到新的语料上。
发明内容
本发明的目的在于,提供一种处理用于句法分析的特征模板的方法及装置,通过从特征模板的集合中删除不影响测试精度的特征模板,自动地进行特征模板的筛选,获得通用性好的特征模板的集合。
根据本发明的一方面,提供一种处理用于句法分析的特征模板的方法,包括:获取第一特征模板的集合,其中,所述第一特征模板的集合包含基本模板和组合模板,每个所述组合模板包含至少两个基本模板;从所述第一特征模板的集合提取至少一个基本模板;分别使用所述至少一个基本模板对训练语料进行解码,并且分别为每个所述基本模板统计从所述训练语料抽取的第一特征值的数量;从所述第一特征模板的集合删除仅抽取出单个第一特征值的所述基本模板以及组合模板中包含的所述基本模板。
根据本发明的另一方面,提供一种处理用于句法分析的特征模板的装置,包括:第一特征模板集合获取单元,用于获取第一特征模板的集合,其中,所述第一特征模板的集合包含基本模板和组合模板,每个所述组合模板包含至少两个基本模板;基本模板提取单元,用于从所述第一特征模板的集合提取至少一个基本模板;第一特征值统计单元,用于分别使用所述至少一个基本模板对训练语料进行解码,并且分别为每个所述基本模板统计从所述训练语料抽取的第一特征值的数量;第一基本模板删除单元,用于从所述第一特征模板的集合删除仅抽取出单个第一特征值的所述基本模板以及组合模板中包含的所述基本模板。
本发明实施例提供的一种处理用于句法分析的特征模板的方法及装置,通过从特征模板的集合中删除不影响测试精度的特征模板,自动地进行特征模板的筛选,获得通用性好的特征模板的集合。
在此基础上,通过对删除后得到的特征模板进行迭代筛除测试,直到所述特征模板筛除测试所得的测试精度低于所述测试精度阈值为止,从而使得进行迭代筛除测试得到的特征模板的测试精度在测试精度阈值之上,如此,获得通用性好、测试精度高的特征模板的集合,减少筛选成本。
附图说明
图1是示出句法分析中的词与词间依存关系示意图。
图2是示出采用移近归约依存分析的进行句法分析的方法示意图。
图3是示出通过移近归约依存分析后在有依存关系的词之间建立的关系弧示意图。
图4是示出本发明一示例性实施例的一种处理用于句法分析的特征模板的方法流程图。
图5是示出本发明另一示例性实施例的一种处理用于句法分析的特征模板的方法流程图。
图6是示出本发明示例性实施例的特征模板的集合的示意图。
图7是示出本发明示例性实施例的特征模板产生的特征值的示意图。
图8是示出本发明示例性实施例的基本模板提取的特征值的示意图。
图9是示出本发明一示例性实施例的一种处理用于句法分析的特征模板的装置的结构框图。
图10是示出本发明另一示例性实施例的一种处理用于句法分析的特征模板的装置的结构框图。
具体实施方式
本发明的基本构思是,从特征模板的集合中提取出基本模板,并采用该基本模板对训练语料进行解码,获得特征值,再从特征模板的集合中将只能产生单个特征值的基本模板删除。
在此基础上,可以再对删除得到的特征模板迭代地执行模板筛选测试,最终获得通用性好、测试精度高的特征模板的集合。
下面结合附图对本发明示例性实施例的一种处理用于句法分析的特征模板的方法及装置进行详细描述。
图4是示出本发明示例性实施例的一种处理用于句法分析的特征模板的方法流程图。
参照图4,在步骤S101,获取第一特征模板的集合,其中,所示第一特征模板的集合包含基本模板和组合模板,每个所述组合模板包含至少两个基本模板,优选地,基本模板是用于规定从指定位置抽取特征值(例如,句子中的词的词性或词形,或者依存分析中依存父节点的位置)信息的规则,本领域技术人员可以理解的是,词形、词性或依存父节点的位置只是特征值的一种,在实际操作中,不限于这三个方面,可以根据实际应用情况进行定义。
具体地,如图6所示,示出本发明示例性实施例的特征模板的集合的示意图。从图6中可以看出,图中的特征模板的集合包括多个特征模板,所述每个多个特征模板包括多个基本模板,多个基本模板又形成一个组合模板,特征模板也可以是一个组合模板,例如,特征模板BUFFER[0]_POSTAG+BUFFER[2]_POSTAG+BUFFER[3]_POSTAG包括3个基本模板,分别为BUFFER[0]_POSTAG、BUFFER[2]_POSTAG和BUFFER[3]_POSTAG,其中,如BUFFER[0]、BUFFER[2]以及BUFFER[3]可以用以表示抽取特征的位置,POSTAG可以用以表示抽取的特征的类型(例如,词形或词性等),例如,在移近归约依存分析中,BUFFER[0]_POSTAG可以是表示队顶(最近待分析)的词的词性。
此外,如图7中所示,示出本发明示例性实施例的特征模板产生的特征值的示意图,特征模板BUFFER[0]_FORM+BUFFER[2]_FORM+BUFFER[3]_FORM,从句子“我很爱百度”中提取出的特征值为“我爱百度”。
在步骤S102,从所述第一特征模板的集合提取至少一个基本模板。
在此,也结合图6中来进行说明,例如,图6中所示的特征模板BUFFER[0]_POSTAG+STACK[0]_FORM包含2个基本模板,即BUFFER[0]_POSTAG和STACK[0]_FORM,其中,STACK[0]_FORM可以是表示栈顶(最近正在进行分析)的词的词性,通过步骤S120便可以从该特征模板中提取出这两个基本模板。
在步骤S103,分别使用步骤S102中提取的至少一个基本模板对训练语料进行解码,并且分别为每个所述基本模板统计从所述训练语料抽取的第一特征值的数量,其中,训练语料可以是大量句子的集合,且每一个句子的句法关系已知。
具体地,如图8所示,示出本发明示例性实施例的基本模板提取的特征值的示意图。图8中的BUFFER[0]_FORM及BUFFER[0]_POSTAG表示抽取第一个词的词形和词性,例如,图中的语料1“我爱祖国”通这两个基本模板抽取的所述第一特征即为“我”以及其词性代词,和语料2中的“北京很美丽”通过这两个模块抽取的所述第一特征即为“北京”以及其词性名词,以此类推,同理,BUFFER[1]_FORM、BUFFER[1]_POSTAG和BUFFER[2]_FORM、BUFFER[2]_POSTAG分别表示抽取的第二个词的词形和词性(例如,语料1中的“爱”以及其词性动词)和第三个词的词形和词性(例如,语料2中的“美丽”及其词性形容词)。
本领域技术人员可以理解的是,同一个基本模板在不同语料中抽取到的所示第一特征值可能是不一样的,亦即同一基本模板可能抽取多种第一特征值。根据本发明一实施例,通过如图8所示的对第一特征值的提取后,分别为每个所述基本模板统计从训练语料抽取的第一特征值的数量。
在步骤S104,从所述第一特征模板的集合删除仅抽取出单个第一特征值的所述基本模板以及组合模板中包含的所述基本模板。
其中,所述单个第一特征值,可以是基本模板从训练语料中仅仅能抽取到的同一个第一特征值,例如,训练语料中所有的句子都是以“我”自开头的,如果通过基本模板BUFFER[0]_FORM对该训练语料进行解码,抽取到的第一特征值均为“我”字,此时,确定该基本模板为仅抽取出单个第一特征值的基本模板,“我”字即为所述单个第一特征值。
在此,进一步举例对步骤S104进行示例性说明,例如,第一特征模板为BUFFER[0]_FORM+BUFFER[2]_FORM+BUFFER[3]_FORM,即为“第一个词的词性+第三个词的词性+第四个词的词性”,如果BUFFER[2]_FORM(第三个词的词性)为仅抽取出单个第一特征值的基本模板,从第一特征模板中删除该基本模板后,得到删除后的第一特征模板为BUFFER[0]_FORM+BUFFER[3]_FORM,即为“第一个词的词性+第四个词的词性”。
根据本发明的优选实施例,在步骤S104中,还可以根据为每个所述基本模板统计的从所述训练语料抽取的第一特征值的数量由少到多的顺序对所述至少一个基本模板进行排序,并从经过排序的所述至少一个基本模板当中,自前向后删除仅抽取出单个第一特征值的基本模板。
本领域技术人员可以理解的是,仅能抽取出单个第一特征值的基本模板不具有区分度,可以被认为是无效模板,可以直接从原始的特征模板中删除,且删除后对特征模板的精度无任何影响。
本发明实施例提供的一种处理用于句法分析的特征模板的方法,通过从特征模板的集合中删除不影响测试精度的特征模板,自动地进行特征模板的筛选,获得通用性好的特征模板的集合。
图5是示出本发明另一示例性实施例的一种处理用于句法分析的特征模板的方法流程图。图5中的步骤S101~步骤S103的处理与图4中所示的相应步骤的处理一致,在此不再详述。
根据所述实施例,通过步骤S103、S105~S114的处理,在删除仅能抽取出单个第一特征值的基本模板的基础上,还对从104删除得到的第一特征模板迭代地执行特征模板筛除测试,直到所述特征模板筛除测试所得的测试精度低于所述测试精度阈值为止,由此进一步进行特征模板的筛选。以下详细描述所述步骤的具体处理。
根据所述实施例,在步骤S105,根据在步骤S103为每个所述基本模板统计的从所述训练语料抽取的第一特征值的数量由少到多的顺序对所述至少一个基本模板进行排序。
例如,从第一特征模板中抽取如下10个基本模板,BUFFER[0]_FORM、BUFFER[2]_FORM、BUFFER[3]_FORM、BUFFER[5]_FORM、BUFFER[6]_FORM、BUFFER[7]_FORM、BUFFER[9]_FORM、BUFFER[13]_FORM、BUFFER[14]_FORM、BUFFER[20]_FORM,它们分别从训练语料抽取的特征值的数量为5、2、1、2、4、1、8、3、6、1,根据上述抽取的特征值数量排序后可能为BUFFER[3]_FORM、BUFFER[7]_FORM、BUFFER[20]_FORM、BUFFER[2]_FORM、BUFFER[5]_FORM、BUFFER[13]_FORM、BUFFER[6]_FORM、BUFFER[0]_FORM、BUFFER[14]_FORM、BUFFER[9]_FORM。
在步骤S106,从经过步骤S105排序的所述至少一个基本模板当中,自前向后删除仅抽取出单个第一特征值的基本模板。例如,在步骤S104中的BUFFER[3]_FORM、BUFFER[7]_FORM、BUFFER[20]_FORM即为仅抽取出单个第一特征值的基本模板,从上述10个基本模板中将其删除。
在步骤S107,从经过删除得到的基本模板当中选出前预定个数(X个)的基本模板,其中,X小于当前所述基本模板的个数。
优选地,可将X初始化为经过删除仅抽取出单个第一特征值的基本模板后剩余的基本模板的个数的10%,例如,从一个第一特征模板集合中提取到55个基本模板,其中,有5个为仅抽取出单个第一特征值的基本模板,从55个基本模板中删除仅抽取出单个第一特征值的基本模板后,剩余50个基本模板,此时,X=50×10%=5,即首次筛除测试中,X的初始值为5。
在步骤S108,通过从经过删除得到的各第一特征模板依次删除所述前X个基本模板以及其组合模板中包含的所述基本模板获得第二特征模板的集合。
例如,第一特征模板删除仅抽取出单个第一特征值的基本模板后为BUFFER[0]_FORM+BUFFER[3]_FORM+BUFFER[4]_FORM+BUFFER[5]_FORM+BUFFER[6]_FORM+BUFFER[7]_FORM+BUFFER[8]_FORM+BUFFER[9]_FORM+BUFFER[10]_FORM,其中的基本模板按提取的第一特征值的数量由少到多进行排序后,得到排序前5的基本模板分别为BUFFER[3]_FORM、BUFFER[6]_FORM、BUFFER[7]_FORM、BUFFER[9]_FORM和BUFFER[10]_FORM,从第一特征模板中删除该5个基本模板后得到的第二特征模板为BUFFER[0]_FORM+BUFFER[4]_FORM+BUFFER[5]_FORM+BUFFER[7]_FORM+BUFFER[8]_FORM。
在步骤S109,使用步骤S108中得到的第二特征模板通过训练语料进行训练,通过测试语料对所述第二特征模板进行测试,并计算测试精度。
其中,训练语料中的句子的句法关系是已知的,通过举例对步骤S108进行说明,例如,如果训练语料的第一个词的词性特征是动词,第二个词的词性特征是名词,那么第一个词和第二个词的句法关系是动宾关系,那么,将第二特征模板通过该训练语料进行模型训练后,就会得到一条规则是“动词+名词——>动宾”,将第二特征模板的集合通过该训练语料进行训练后得到大量的这种规则集合。
进一步地,通过测试语料对所述第二特征模板进行测试,并计算测试精度。
具体地,统计测试结果中的句法关系与正确句法关系的一致性,其中,这个一致性可以用公开的精度评测指标F1值来衡量,然后计算被正确判断句法关系的个数与第二特征模板中包含的所有句法关系的个数的比值,即为测试精度。例如,第二特征模板包含的所有句法关系的个数为100个,其中,测试结果中的句法关系与正确句法关系的一致的为65个,测试精度则为65÷100=0.65。
在步骤S110,确定计算的测试精度是否高于或者等于测试精度阈值。如果是,则说明所述X个基本模板的删除没有影响特征模板的精度,因此执行步骤S111;如果否,则执行步骤S112,通过删除较少的基本模板进一步进行测试。
在步骤S111,从基本模板当中删除所述前X个基本模板,且将第二特征模板的集合作为第一特征模板的集合,继续下一轮迭代处理,即执行步骤S107。
例如,计算得到的测试精度为0.80,测试精度阈值为0.65,测试精度高于测试精度阈值,此时,从前述第一特征模板的集合中提取得到的基本模板中删除前X个基本模板(例如前述5个基本模板BUFFER[3]_FORM、BUFFER[6]_FORM、BUFFER[7]_FORM、BUFFER[9]_FORM和BUFFER[10]_FORM),并将第二特征模板的集合作为第一特征模板的集合,进行下一轮的迭代筛选处理,亦即执行步骤S107及之后的步骤。
在步骤S112,减少X的值,并执行步骤S113。优选地,将X值减半取整,例如当前X为5,减半取整后X取值为2,以合理地掌握X的减值幅度。
在步骤S113,确定减少后的X的值是否大于0。如果是,继续执行下一轮迭代,即执行步骤S107,如果否,执行步骤S114。步骤S114,以筛选得到的特征模板的集合为最终特征模板的集合。
本发明实施例提供的一种处理用于句法分析的特征模板的方法,在从特征模板中删除仅能抽取出单个特征值的基本模板的基础上,通过对删除后得到的特征模板进行迭代筛除测试,直到所述特征模板筛除测试所得的测试精度低于所述测试精度阈值为止,从而使得进行迭代筛除测试得到的特征模板的测试精度在测试精度阈值之上,如此,获得通用性好、测试精度高的特征模板的集合,减少筛选成本。
图9是示出本发明示例性实施例的一种处理用于句法分析的特征模板的装置的结构框图,参照图9,该装置包括:第一特征模板集合获取单元210、基本模板提取单元220、第一特征值统计单元230、第一基本模板删除单元240。
第一特征模板集合获取单元210用于获取第一特征模板的集合,其中,所述第一特征模板的集合包含基本模板和组合模板,每个所述组合模板包含至少两个基本模板。
基本模板提取单元220用于从所述第一特征模板的集合提取至少一个基本模板。
第一特征值统计单元230用于分别使用所述至少一个基本模板对训练语料进行解码,并且分别为每个所述基本模板统计从所述训练语料抽取的第一特征值的数量。
第一基本模板删除单元240用于从所述第一特征模板的集合删除仅抽取出单个第一特征值的所述基本模板以及组合模板中包含的所述基本模板。
本发明实施例提供的一种处理用于句法分析的特征模板的装置,通过从特征模板的集合中删除不影响测试精度的特征模板,自动地进行特征模板的筛选,获得通用性好的特征模板的集合。
图10是示出本发明另一示例性实施例的一种处理用于句法分析的特征模板的装置的结构框图,参照图10,该装置包括:第一特征模板集合获取单元210、基本模板提取单元220、第一特征值统计单元230、基本模板排序单元250、第二基本模板删除单元260以及特征模板筛除测试单元270。
其中,第一特征模板集合获取单元210、基本模板提取单元220、第一特征值统计单元230与图9中所示的一致,在此不再详述。
基本模板排序单元250用于根据为每个所述基本模板统计的从所述训练语料抽取的第一特征值的数量由少到多的顺序对所述至少一个基本模板进行排序。
第二基本模板删除单元260用于从经过排序的所述至少一个基本模板当中,自前向后删除仅抽取出单个第一特征值的基本模板。
特征模板筛除测试单元270用于对删除得到的第一特征模板迭代地执行特征模板筛除测试,直到所述特征模板筛除测试所得的测试精度低于所述测试精度阈值为止。
具体地,特征模板筛除测试单元270用于从经过删除得到的基本模板当中选出前X个基本模板,其中,X小于当前所述基本模板的个数,通过从经过删除得到的各第一特征模板依次删除所述前X个基本模板以及其组合模板中包含的所述基本模板获得第二特征模板的集合,使用所述第二特征模板通过训练语料进行训练,通过测试预料对所述第二特征模板进行测试,并计算测试精度,如果计算得到的测试精度高于或等于所述测试精度阈值,则从所述基本模板当中删除所述前X个基本模板,将所述第二特征模板的集合作为第一特征模板的集合,并且继续下一轮迭代处理,如果计算得到的测试精度低于所述测试精度阈值,则减少X的值,继续下一轮迭代处理,直到X的值变为0为止。
优选地,X初始为经过删除仅抽取出单个第一特征值的基本模板后剩余的基本模板的个数的10%,并且所述减少X的值的处理包括:将X减半后向下取整。
本发明实施例提供的一种处理用于句法分析的特征模板的装置,通过对删除后得到的特征模板进行迭代筛除测试,直到所述特征模板筛除测试所得的测试精度低于所述测试精度阈值为止,从而使得进行迭代筛除测试得到的特征模板的测试精度在测试精度阈值之上,如此,获得通用性好、测试精度高的特征模板的集合,减少筛选成本。
需要指出,根据实施的需要,可将本申请中描述的各个步骤拆分为更多步骤,也可将两个或多个步骤或者步骤的部分操作组合成新的步骤,以实现本发明的目的。
上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种处理用于句法分析的特征模板的方法,其特征在于,所述方法包括:
获取第一特征模板的集合,其中,所述第一特征模板的集合包含基本模板和组合模板,每个所述组合模板包含至少两个基本模板;
从所述第一特征模板的集合提取至少一个基本模板;
分别使用所述至少一个基本模板对训练语料进行解码,并且分别为每个所述基本模板统计从所述训练语料抽取的第一特征值的数量;
删除仅抽取出单个第一特征值的所述基本模板以及组合模板中包含的所述基本模板,包括:从所述第一特征模板的集合删除仅抽取出单个第一特征值的所述基本模板以及组合模板中包含的所述基本模板。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对删除得到的第一特征模板迭代地执行特征模板筛除测试,直到所述特征模板筛除测试所得的测试精度低于所述测试精度阈值为止。
3.根据权利要求2所述的方法,其特征在于,所述删除仅抽取出单个第一特征值的所述基本模板以及组合模板中包含的所述基本模板,包括:
根据为每个所述基本模板统计的从所述训练语料抽取的第一特征值的数量由少到多的顺序对所述至少一个基本模板进行排序,
从经过排序的所述至少一个基本模板当中,自前向后删除仅抽取出单个第一特征值的基本模板。
4.根据权利要求3所述的方法,其特征在于,所述对删除得到的第一特征模板迭代地执行特征模板筛除测试,直到所述特征模板筛除测试所得的测试精度低于所述测试精度阈值为止的处理包括:
从经过删除得到的基本模板当中选出前X个基本模板,其中,X小于当前所述基本模板的个数,
通过从经过删除得到的各第一特征模板依次删除所述前X个基本模板以及其组合模板中包含的所述基本模板获得第二特征模板的集合,
使用所述第二特征模板通过训练语料进行训练,
通过测试语料对所述第二特征模板进行测试,并计算测试精度,
如果计算得到的测试精度高于或等于所述测试精度阈值,则从所述基本模板当中删除所述前X个基本模板,将所述第二特征模板的集合作为第一特征模板的集合,并且继续下一轮迭代处理,
如果计算得到的测试精度低于所述测试精度阈值,则减少X的值,继续下一轮迭代处理,直到X的值变为0为止。
5.根据权利要求4所述的方法,其特征在于,所述X初始为经过删除仅抽取出单个第一特征值的基本模板后剩余的基本模板的个数的10%,并且所述减少X的值的处理包括:将X减半后向下取整。
6.一种处理用于句法分析的特征模板的装置,其特征在于,所述装置包括:
第一特征模板集合获取单元,用于获取第一特征模板的集合,其中,所述第一特征模板的集合包含基本模板和组合模板,每个所述组合模板包含至少两个基本模板;
基本模板提取单元,用于从所述第一特征模板的集合提取至少一个基本模板;
第一特征值统计单元,用于分别使用所述至少一个基本模板对训练语料进行解码,并且分别为每个所述基本模板统计从所述训练语料抽取的第一特征值的数量;
第一基本模板删除单元,用于从所述第一特征模板的集合删除仅抽取出单个第一特征值的所述基本模板以及组合模板中包含的所述基本模板。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
特征模板筛除测试单元,用于对删除得到的第一特征模板迭代地执行特征模板筛除测试,直到所述特征模板筛除测试所得的测试精度低于所述测试精度阈值为止。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
基本模板排序单元,用于根据为每个所述基本模板统计的从所述训练语料抽取的第一特征值的数量由少到多的顺序对所述至少一个基本模板进行排序;
第二基本模板删除单元,用于从经过排序的所述至少一个基本模板当中,自前向后删除仅抽取出单个第一特征值的基本模板。
9.根据权利要求8所述的装置,其特征在于,所述特征模板筛除测试单元用于从经过删除得到的基本模板当中选出前X个基本模板,其中,X小于当前所述基本模板的个数,用于通过从经过删除得到的各第一特征模板依次删除所述前X个基本模板以及其组合模板中包含的所述基本模板获得第二特征模板的集合,用于使用所述第二特征模板通过训练语料进行训练,并通过测试语料对所述第二特征模板进行测试,并计算测试精度,如果计算得到的测试精度高于或等于所述测试精度阈值,则从所述基本模板当中删除所述前X个基本模板,将所述第二特征模板的集合作为第一特征模板的集合,并且继续下一轮迭代处理,如果计算得到的测试精度低于所述测试精度阈值,则减少X的值,继续下一轮迭代处理,直到X的值变为0为止。
10.根据权利要求9所述的装置,其特征在于,所述X初始为经过删除仅抽取出单个第一特征值的基本模板后剩余的基本模板的个数的10%,并且所述减少X的值的处理包括:将X减半后向下取整。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410643330.2A CN104391836B (zh) | 2014-11-07 | 2014-11-07 | 处理用于句法分析的特征模板的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410643330.2A CN104391836B (zh) | 2014-11-07 | 2014-11-07 | 处理用于句法分析的特征模板的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104391836A CN104391836A (zh) | 2015-03-04 |
CN104391836B true CN104391836B (zh) | 2017-07-21 |
Family
ID=52609742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410643330.2A Active CN104391836B (zh) | 2014-11-07 | 2014-11-07 | 处理用于句法分析的特征模板的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104391836B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1696933A (zh) * | 2005-05-27 | 2005-11-16 | 清华大学 | 基于动态规划的文本概念关系自动提取方法 |
CN101866337A (zh) * | 2009-04-14 | 2010-10-20 | 日电(中国)有限公司 | 词性标注系统、用于训练词性标注模型的装置及其方法 |
CN103617280A (zh) * | 2013-12-09 | 2014-03-05 | 苏州大学 | 一种中文事件信息挖掘方法和系统 |
CN103631772A (zh) * | 2012-08-29 | 2014-03-12 | 阿里巴巴集团控股有限公司 | 机器翻译方法及装置 |
CN104156352A (zh) * | 2014-08-15 | 2014-11-19 | 苏州大学 | 一种中文事件的处理方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4236055B2 (ja) * | 2005-12-27 | 2009-03-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 構造化文書処理装置、方法、プログラム |
-
2014
- 2014-11-07 CN CN201410643330.2A patent/CN104391836B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1696933A (zh) * | 2005-05-27 | 2005-11-16 | 清华大学 | 基于动态规划的文本概念关系自动提取方法 |
CN101866337A (zh) * | 2009-04-14 | 2010-10-20 | 日电(中国)有限公司 | 词性标注系统、用于训练词性标注模型的装置及其方法 |
CN103631772A (zh) * | 2012-08-29 | 2014-03-12 | 阿里巴巴集团控股有限公司 | 机器翻译方法及装置 |
CN103617280A (zh) * | 2013-12-09 | 2014-03-05 | 苏州大学 | 一种中文事件信息挖掘方法和系统 |
CN104156352A (zh) * | 2014-08-15 | 2014-11-19 | 苏州大学 | 一种中文事件的处理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104391836A (zh) | 2015-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Benjamini et al. | The mixing time of the giant component of a random graph | |
CN107220261B (zh) | 一种基于分布式数据的实时挖掘方法及装置 | |
CN106843941B (zh) | 信息处理方法、装置和计算机设备 | |
CN108304328B (zh) | 一种众包测试报告的文本描述生成方法、系统及装置 | |
CN107004141A (zh) | 对大样本组的高效标注 | |
CN108021545A (zh) | 一种司法文书的案由提取方法及装置 | |
CN109800309A (zh) | 课堂话语类型分类方法及装置 | |
CN110019779A (zh) | 一种文本分类方法、模型训练方法及装置 | |
CN106649276A (zh) | 标题中核心产品词的识别方法以及装置 | |
CN110968802B (zh) | 一种用户特征的分析方法、分析装置及可读存储介质 | |
CN110363248A (zh) | 基于图像的移动众包测试报告的计算机识别装置及方法 | |
CN110309513A (zh) | 一种文本依存分析的方法和装置 | |
JP4143234B2 (ja) | 文書分類装置、文書分類方法及び記憶媒体 | |
Huisman et al. | StOCNET: Software for the statistical analysis of social networks | |
CN104391836B (zh) | 处理用于句法分析的特征模板的方法及装置 | |
CN114281983A (zh) | 分层结构的文本分类方法、系统、电子设备和存储介质 | |
CN105335459A (zh) | 基于xbrl智能报告平台的合并报表数据抽取方法 | |
CN103034657B (zh) | 文档摘要生成方法和装置 | |
CN107957944B (zh) | 面向用户数据覆盖率的测试用例自动生成方法 | |
Andrade et al. | Hipsometric relationship modeling using data sampled in tree scaling and inventory plots | |
CN103530294B (zh) | 一种文件分类方法和装置 | |
JP5727415B2 (ja) | 文書検索用関連語発見装置及び方法及びプログラム | |
CN105786929A (zh) | 一种信息监测方法及装置 | |
Viruel et al. | A bioinformatic pipeline to estimate ploidy level from target capture sequence data obtained from herbarium specimens | |
JP2004220236A (ja) | データ分析方法、装置、プログラム及び該プログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |