CN103365835B - 包含松散结构的汉语多词表达敏感特征的抽取方法 - Google Patents
包含松散结构的汉语多词表达敏感特征的抽取方法 Download PDFInfo
- Publication number
- CN103365835B CN103365835B CN201310206429.1A CN201310206429A CN103365835B CN 103365835 B CN103365835 B CN 103365835B CN 201310206429 A CN201310206429 A CN 201310206429A CN 103365835 B CN103365835 B CN 103365835B
- Authority
- CN
- China
- Prior art keywords
- feature
- sensitive
- features
- feature set
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 230000011218 segmentation Effects 0.000 claims description 14
- 230000000694 effects Effects 0.000 claims description 7
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 101100042271 Mus musculus Sema3b gene Proteins 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 230000004807 localization Effects 0.000 claims 1
- 239000004576 sand Substances 0.000 claims 1
- 238000010276 construction Methods 0.000 abstract 1
- 238000011160 research Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003287 bathing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 206010070834 Sensitisation Diseases 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000013016 learning Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000008313 sensitization Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种包含松散结构的汉语多词表达敏感特征的抽取方法,其步骤如下:1)、紧凑结构多词表达的敏感特征集,只要某个特征能提升该多词表达抽取的结果,就认为它是该多词表达的特征集,特征集用表示;2)、松散结构多词表达的敏感特征集,将采用统计信息和人工总结的词表、规则、模版以及语义特征相结合的多种特征作为松散结构的特征集,特征集用
Description
技术领域
本发明涉及计算机领域,特别是涉及一种包含松散结构的汉语多词表达敏感特征的抽取方法。
背景技术
多词表达抽取过程中使用的特征对抽取结果有重大影响,汉语多词表达类型比较繁多,不同类型多词表达的敏感特征也不尽相同。
由于汉语语言现象比较复杂,汉语多词表达短语结构繁多(如表1所示),本项目研究最重要和典型的多词表达类型。
表1:本项目拟抽取的紧凑结构和松散结构多词表达类型
所谓“敏感特征”是指对语块识别起到决定性作用的特征。在大量的特征中,有可能只有几个特征对多词表达的抽取起到决定性的作用,而其它特征是多余的,这些多余的特征不仅占据内存空间,而且还影响查询的效率。所以特征数量多并不一定会取得好的效果,关键是该特征是否是敏感特征,因此,敏感特征的选择是影响高效多词表达抽取的关键问题。紧凑结构的多词抽取过程中,需要关联性、共现信息、可替代性、分布相似性等统计特征,在大量的特征中找出对抽取效果有重要影响的敏感特征需要设计适宜的算法并进行大量的计算。
紧凑结构和松散结构的多词表达在结构上和语义上都存在很大差别,它们的敏感特征也会存在差异。 松散结构的多词表达抽取比紧凑结构的要难,主要是因为松散结构中存在很多不确定和灵活的因素。
现有算法中,具有代表性的距离-权重最近邻算法(Sriram Venkatapathy等2005)。[Sriram Venkatapathy等]指出:在使用的多种特征中,可能只有几种特征对识别某种类型的多词表达有效,而其他不相关特征不仅对抽取正确率的提升没有作用,还会增加计算的复杂度和降低效率,为了避免这种情况的发生,他采用了给每种特征加上权重信息的方法,当识别不同类型的多词表达时根据不同特征对要抽取的多词表达类型的作用灵活调整特征的权重信息。带有权重信息的距离函数如下:
其中d(xi,xj)是两个矢量xi 和 xj的距离,Zr是第r个特征的权重,ar(xi)是第r个特征的值。
以上算法存在一个问题,那就是即使某一个属性在抽取某一多词表达没有作用(权重为0),也要计算该特征的值,这样势必造成计算效率的下降和复杂性的增加。
发明内容
本发明主要解决的技术问题是提供一种包含松散结构的汉语多词表达敏感特征的抽取方法,能够采用统计信息和人工总结的词表、规则、模版以及语义特征相结合的多种特征结合的策略,并将对紧凑结构和松散结构多词表达的敏感特征分别研究,进而得到适合不同结构的敏感特征集,提高计算效率和降低复杂性。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种包含松散结构的汉语多词表达敏感特征的抽取方法,其步骤如下:
1)、紧凑结构多词表达的敏感特征集,只要某个特征能提升该多词表达抽取的结果,就认为它是该多词表达的特征集,特征集用Φ(gi)表示;
2)、松散结构多词表达的敏感特征集,将采用统计信息和人工总结的词表、规则、模版以及语义特征相结合的多种特征作为松散结构的特征集,特征集用Φs(gi)表示;
3)、敏感特征选择算法,敏感特征选择是从所有特征中选择出一组最有效、对分类效果影响最大的特征子集。
优选的是,所述步骤1)中的紧凑结构的Φ(gi)共包含9种特征,分别是:共现频率(fi)、互信息(MIi)、最大似然值(LHi)、可替代性(Subi)、χ2函数(pxi)、分布相似性(dfi)、是否作为动词出现(asvi)、组成多词表达的词性串(ps)和多词表达的边界概率(pb)。
优选的是,所述步骤2)中松散结构多词表达的敏感特征集将采用统计信息和人工总结的词表、规则、模版以及语义特征相结合的多种特征作为松散结构的特征集,松散结构多词表达的敏感特征集增加了一个子特征集Φs(gi),它包含以下6种特征:动词词表(vpd)、方位词词表(loation)、处所词词表(place)、规则(rules)、模版(model)和语义(sema),松散结构的多词表达的总特征集Φtotal=Φ(gi)+Φs(gi)。
优选的是,所述步骤3)中敏感特征选择算法,收集被分词程序错分的分词结果,并提取其特征包括词性、上下文信息等,把这部分错分的分词结果作为多词表达的候选,通过代价函数计算错分代价,并把该值加入多词表达敏感特征选择的考量中;为减少所选特征的个数, 提高所选特征子集的有效性,采用后向添加特征逐个添加方法筛选特征。。
本发明的有益效果是:本发明包含松散结构的汉语多词表达敏感特征的抽取方法,能够采用统计信息和人工总结的词表、规则、模版以及语义特征相结合的多种特征结合的策略,并将对紧凑结构和松散结构多词表达的敏感特征分别研究,进而得到适合不同结构的敏感特征集,提高计算效率和降低复杂性。
具体实施方式
下面对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
本发明实施例包括:
一种包含松散结构的汉语多词表达敏感特征的抽取方法,其步骤如下:
(1)紧凑结构多词表达的敏感特征集
研究者们对紧凑结构已经进行了较充分的研究,本项目综合前人研究中使用的紧凑结构特征来确定紧凑结构的敏感特征集,然后再从这个特征集中选出对紧凑结构抽取敏感的特征。特征集用Φ(gi)表示。当前词性已经默认为是多词表达敏感特征,本项目中紧凑结构的Φ(gi)共包含9种特征,分别是:共现频率(fi)、互信息(MIi)、最大似然值(LHi)、可替代性(Subi)、χ2函数(pxi)、分布相似性(dfi)、是否作为动词出现(asvi)、组成多词表达的词性串(ps)和多词表达的边界概率(pb)。即Φ(gi)={fi,MIi,LHi,subi,pxi,dfi,asvi,ps,pb}。一般情况下,使用较多的特征会取得较好的效果,所以本文敏感特征选择宗旨是:只要某个特征能提升该多词表达抽取的结果,就认为它是该多词表达的敏感特征。
(2)松散结构多词表达的敏感特征集
松散结构比较灵活,而且松散结构的动词短语中,是和某些固定的动词(如,看、洗,睡等)有关,如:
●动宾结构:洗了个澡,洗不洗澡、洗过澡、洗洗澡、洗了两次澡、见了几次面
●述补结构:动趋式(动+趋势):进来,出去,下来
动结式(动+结果):看见、听懂、看准
●述补式复合词:看得很准,看不准,进得来,进不来
介宾结构的松散结构与处所词和方位词都有关联。如:为人民服务,从北京出发,跟他去,来自新加坡。涉及的处所词和方位词如下:
●处所词:在……,到……去;方位词:在……上等。
●单纯方位词:上、下、前、后、左、右、里、外、东、南、西、北
●合成方位词:在单纯方位词前加上“之”,“以”,后者在后面加上“面”,“边”,“头”, “方”,“部”等,或者,单纯方位词对举,就构成复合方位词,如“以上”,“之前”,“里面”。“外边”,“后头”,“前面”。“西部”,“左右”,“内外”。
通过以上分析我们发现,单纯使用和紧凑结构相同的统计信息对抽取松散结构的多词表达是不够的,它还需要像“看、洗、睡”等这些动词和处所词以及方位词的词表。对一些有固定组成的松散结构(如“睡了一觉”)还需要总结一些规则和模版(如“睡+了+数词+名词宾语”),另外,还将通过查询语义知识库(Hownet)获取语义信息来辅助松散结构的多词表达抽取。因此,本项目将采用统计信息和人工总结的词表、规则、模版以及语义特征相结合的多种特征作为松散结构的特征集。故而,我们在包含紧凑结构特征集Φ(gi)外,另外增加了一个子特征集Φs(gi),它包含以下6种特征:动词词表(vpd)、方位词词表(loation)、处所词词表(place)、规则(rules)、模版(model)和语义(sema)。这样,抽取松散结构的多词表达的总特征集Φtotal=Φ(gi)+Φs(gi)。
(3)敏感特征选择算法
特征选择是从所有特征中选择出一组最有效、对分类效果影响最大的特征子集。在多词表达抽取过程中,我们发现很多的多词表达在分词过程中都被错分,如果把这些错分的部分作为多词表达的候选,并分析它们错分的代价和周围的特征,将对多词表达的特征选择和抽取提供有益的借鉴。为此,本项目提出基于代价反馈的后向添加特征的敏感特征选择方法,其基本思想是:收集被分词程序错分的分词结果,并提取其特征(包括词性、上下文信息等),把这部分错分的分词结果作为多词表达的候选,通过代价函数计算错分代价,并把该值加入多词表达敏感特征选择的考量中。为减少所选特征的个数, 提高所选特征子集的有效性,采用后向添加特征(逐个添加)方法筛选特征。本项目中,紧凑结构和松散结构敏感特征的抽取算法一致,只是使用的特征集不同而已。
假设包含N个特征,F={F1,F2,…,Fn},验证集包含n个训练样本,其对应的期望输出为T=[t1,t2,…,tn],其中ti∈{-1,1}(i=1,2,3,…,n)。设由第i个特征所学的分类器为Gi,fi表示分类器Gi的实际输出,fi=[fi1,fi2,…,fin],其中, fij∈{-1,1}(i-1,2,…N,j=1,2,…n)表示在第j个样本上的实际输出。显然,若第i个分类器在第j个样本上的输出是正确的,则有fijtj=1,否则fijtj=-1。假设第j个样本错分的代价为Cj,则第i个分类器在整个样本集上的错分代价为
其中Error(x)定义为:
定义
假设Ω为选择所得特征的下标集合,定义,向量Sum={sum1,sum2,…,sumn}T,其中sumj代表所选特征所对应的学习器在第j个样本上的实际输出之和,即,则在第第j个样本上的集成输出为,其中。如果在j个样本上的实际集成输出与期望输出一致,则,如果不一致,则,如果无法判别,则,即在第j个样本上各个特征所设计的分类器结果上出现了平局。因此,在整个验证样本集上的错分代价为。假设在选择的特征子集中加入第k个特征,这时的泛化误差就变成
其中,。显然要求特征子集加入第k个特征后推广误差要小于原来的推广误差, 即要求, 以保证得到更小的泛化误差
由Error(x)和Sgn(x)的定义,可得如下性质:
其中,x∈{-1,0,1},y∈{-1,1}。则相应地,选择的特征子集中加入特征Fk所要满足的约束条件(7)可简化为:
当|sumi|>1时,在选择的特征子集中添加第k个特征不会影响第i个样本上的输出, 因此式(8)修改为:
通过分析可以看出, 通过代价敏感分析可得到特征的优化。为了控制特征的个数,获得最小的错分代价,我们引入错分代价阈值θ。
通过前期半指导学习算法构建一定规模的汉语多词表达标注语料的前提下,对汉语紧凑结构(复合名词和习语)和松散结构(动词短语和介宾结构)多词表达类型进行分析,以事先确定不同类型多词表达敏感特征,在识别不同类型的多词表达时只使用对它敏感的特征,减少无关特征的计算,提高效率和准确率。在抽取多词表达过程中需要动态选择各自的敏感特征。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (3)
1.一种包含松散结构的汉语多词表达敏感特征的抽取方法,其特征在于:其步骤如下:
1)、紧凑结构多词表达的敏感特征集,只要某个特征能提升该多词表达抽取的结果,就认为该特征应当加入该多词表达的特征集,特征集用Φ(gi)表示;
2)、松散结构多词表达的敏感特征集,将采用统计信息和人工总结的词表、规则、模版以及语义特征相结合的多种特征作为松散结构的特征集,特征集用Φs(gi)表示;
3)、敏感特征选择算法,敏感特征选择是从上述步骤1)和步骤2)的所有特征集中选择出一组最有效、对分类效果影响最大的特征子集;所述步骤3)中敏感特征选择算法,收集被分词程序错分的分词结果,并提取其特征包括词性、上下文信息,把这部分错分的分词结果作为多词表达的候选,通过代价函数计算错分代价,并把该错分代价加入多词表达敏感特征选择的考量中;为减少所选特征的个数,提高所选特征子集的有效性,采用后向添加特征逐个添加方法筛选特征。
2.根据权利要求1所述的包含松散结构的汉语多词表达敏感特征的抽取方法,其特征在于:所述步骤1)中的紧凑结构的Φ(gi)共包含9种特征,分别是:共现频率fi、互信息MIi、最大似然值LHi、可替代性Subi、χ2函数pxi、分布相似性dfi、是否作为动词出现asvi、组成多词表达的词性串ps和多词表达的边界概率pb。
3.根据权利要求1所述的包含松散结构的汉语多词表达敏感特征的抽取方法,其特征在于:所述步骤2)中松散结构多词表达的敏感特征集将采用统计信息和人工总结的词表、规则、模版以及语义特征相结合的多种特征作为松散结构的特征集,松散结构多词表达的敏感特征集增加了一个子特征集Φs(gi),它包含以下6种特征:动词词表vpd、方位词词表loation、处所词词表place、规则rules、模版model和语义sema,松散结构的多词表达的总特征集Φtotal=Φ(gi)+Φs(gi)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310206429.1A CN103365835B (zh) | 2013-05-29 | 2013-05-29 | 包含松散结构的汉语多词表达敏感特征的抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310206429.1A CN103365835B (zh) | 2013-05-29 | 2013-05-29 | 包含松散结构的汉语多词表达敏感特征的抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103365835A CN103365835A (zh) | 2013-10-23 |
CN103365835B true CN103365835B (zh) | 2018-02-09 |
Family
ID=49367215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310206429.1A Active CN103365835B (zh) | 2013-05-29 | 2013-05-29 | 包含松散结构的汉语多词表达敏感特征的抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103365835B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101908041A (zh) * | 2010-05-06 | 2010-12-08 | 江苏省现代企业信息化应用支撑软件工程技术研发中心 | 一种基于多代理机制的多词表达抽取系统及方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4999938B2 (ja) * | 2010-01-07 | 2012-08-15 | シャープ株式会社 | 文書画像生成装置、文書画像生成方法及びコンピュータプログラム |
US20110295864A1 (en) * | 2010-05-29 | 2011-12-01 | Martin Betz | Iterative fact-extraction |
-
2013
- 2013-05-29 CN CN201310206429.1A patent/CN103365835B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101908041A (zh) * | 2010-05-06 | 2010-12-08 | 江苏省现代企业信息化应用支撑软件工程技术研发中心 | 一种基于多代理机制的多词表达抽取系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103365835A (zh) | 2013-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN111046179B (zh) | 一种面向特定领域开放网络问句的文本分类方法 | |
WO2019080863A1 (zh) | 文本情感分类方法、存储介质及计算机 | |
Yu et al. | Sequential labeling using deep-structured conditional random fields | |
CN106847288A (zh) | 语音识别文本的纠错方法与装置 | |
CN111241294A (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
WO2015149533A1 (zh) | 一种基于网页内容分类进行分词处理的方法和装置 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN106502994A (zh) | 一种文本的关键词提取的方法和装置 | |
CN113987104A (zh) | 一种基于本体指导的生成式事件抽取方法 | |
CN112818118B (zh) | 基于反向翻译的中文幽默分类模型的构建方法 | |
CN112163425A (zh) | 基于多特征信息增强的文本实体关系抽取方法 | |
CN112948543A (zh) | 基于加权TextRank的多语言多文档摘要抽取方法 | |
CN112347761B (zh) | 基于bert的药物关系抽取方法 | |
Freitag | Trained named entity recognition using distributional clusters | |
Hong et al. | Understanding blooming human groups in social networks | |
CN110727765A (zh) | 基于多注意力机制的问题分类方法、系统及存储介质 | |
Massung et al. | Structural parse tree features for text representation | |
Bhutada et al. | Semantic latent dirichlet allocation for automatic topic extraction | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN115017884B (zh) | 基于图文多模态门控增强的文本平行句对抽取方法 | |
Ekbal et al. | Classifier ensemble selection using genetic algorithm for named entity recognition | |
Wang et al. | A joint chinese named entity recognition and disambiguation system | |
CN107562907A (zh) | 一种智能律师专家系统及案件应答装置 | |
CN111581960A (zh) | 一种获取医学文本语义相似度的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |