CN106776560A - 一种柬埔寨语组织机构名识别方法 - Google Patents
一种柬埔寨语组织机构名识别方法 Download PDFInfo
- Publication number
- CN106776560A CN106776560A CN201611157511.XA CN201611157511A CN106776560A CN 106776560 A CN106776560 A CN 106776560A CN 201611157511 A CN201611157511 A CN 201611157511A CN 106776560 A CN106776560 A CN 106776560A
- Authority
- CN
- China
- Prior art keywords
- kampuchean
- name
- institution term
- language material
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000008520 organization Effects 0.000 title claims abstract description 19
- 239000000463 material Substances 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000005520 cutting process Methods 0.000 claims abstract description 11
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 230000013016 learning Effects 0.000 claims abstract description 7
- 238000010276 construction Methods 0.000 claims abstract description 4
- 238000012937 correction Methods 0.000 claims abstract description 4
- 150000001875 compounds Chemical class 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 8
- 230000009193 crawling Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 5
- 230000000712 assembly Effects 0.000 claims description 3
- 238000000429 assembly Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 9
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000013519 translation Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种柬埔寨语组织机构名识别方法,属于自然语言处理技术领域。本发明首先对抽取的柬埔寨语篇章进行切分,切分后的句子进行分词和词性标注,通过人工校对,然后标注柬埔寨语命名实体,得到相当规模的柬埔寨语组织机构名语料;通过标注的语料提取命名实体指示词,构建指示词库,构建特征模板,通过改进的Tri‑training算法学习得到组织机构名识别模型;对选取的测试语料通过组织机构名识别模型进行训练得到组织机构名的标注结果。本发明对柬埔寨语组织机构名进行有效的识别,为信息抽取和机器翻译等工作提供强有力的支撑;目前没有发现柬埔寨语做相关的组织机构名识别的报告,本发明取得了很好的效果。
Description
技术领域
本发明涉及一种柬埔寨语组织机构名识别方法,特别是一种基于Tri-training算法的柬埔寨语组织机构名识别方法,属于自然语言处理技术领域。
背景技术
柬埔寨语又称高棉语,属南亚语系孟高棉语族高棉语支语言,是柬埔寨现今的官方语言。由于我国与柬埔寨国家在各个领域之间的交流日趋频繁,而目前,有关柬语文本的词法分析工作比较匮乏,因此进行柬埔寨语的命名实体识别研究对柬埔寨的政治经济分析、舆情把握等具有非常重要的意义。针对柬语的词法分析工作,特别是柬语的命名实体识别更是需要投入大量精力进行研究。命名实体识别是信息处理中最为基础的关键技术之一,其中,组织机构名识别是命名实体识别研究的重点,也是难点。组织机构名是泛指机关、团体等实体的名称。虽然组织机构名没有人名、地名那样明确的特点和固定的用词,但也有一定的组成特点。完整的组织机构名通常由一个或一个以上的机构名前部词加上一个机构名后缀词(如大学、协会等)组成。因此本发明只讨论柬埔寨语组织机构名识别问题。
发明内容
本发明要解决的技术问题是提供一种柬埔寨语组织机构名识别方法,用于解决柬埔寨语组织机构名的识别、提高柬埔寨语组织机构名识别的准确率等问题。
本发明的技术方案是:一种柬埔寨语组织机构名识别方法,具体步骤如下:
Step1、首先对抽取的柬埔寨语篇章进行切分,切分后的句子进行分词和词性标注,通过人工校对,然后标注柬埔寨语命名实体,得到相当规模的柬埔寨语组织机构名语料;
Step2、通过标注的语料提取命名实体指示词,构建指示词库,构建特征模板,通过改进的Tri-training算法学习得到组织机构名识别模型;
Step3、对选取的测试语料通过组织机构名识别模型进行训练得到组织机构名的标注结果。
所述步骤Step1中组织机构名标注语料获取的具体步骤如下:
Step1.1、首先利用爬虫程序,从柬埔寨新闻网上爬取出网页信息;
Step1.2、把爬取出的网页信息,经过过滤处理,构建出柬埔寨语篇章语料库;
Step1.3、通过柬埔寨语的句子结束符等将篇章切分为句子,形成柬埔寨语句子级语料库,并把柬埔寨语句子级语料库的语料存放到数据库中;
Step1.4、从数据库中取出柬埔寨语句子级的语料,通过柬埔寨语分词和词性标注系统进行分词和词性标注,并进行人工校对,得到含有正确结果的柬埔寨语词性标注分词库,并把柬埔寨语词性标注分词库的词语存放到数据库中;
Step1.5、根据柬埔寨语命名实体特点和标注规则,从数据库中取出柬埔寨语词性标注分词库的语料,通过人工标注柬埔寨语命名实体,得到含有正确标注结果的柬埔寨语命名实体语料库,并把柬埔寨语命名实体标注语料库的结果存放在数据库中。
所述步骤Step2组织机构名识别模型构建的具体步骤:
Step2.1、从存放柬埔寨语命名实体标注语料库的数据库中取出已标注好的柬埔寨语命名实体的语料;
Step2.2、对Step2.1中的语料提取命名实体指示词,构建命名实体指示词库,其中提取的命名实体包括人名、地名和组织机构名;
Step2.3、通过组织机构名的词和词性特种构建基本特征模板,基本特征模板描述了当前词及其上下文中若干个词的词性;
Step2.4、通过Step2.3构建的基本特征模板进行特征组合构建复合特征模板,复合特征能够利用远距离的依存关系和丰富的上下文信息;
Step2.5、柬埔寨语组织机构名具有非常复杂的构成特点,这些复杂的特点为柬埔寨语组织机构名识别提供非常丰富的外部信息,因此基于这个特点,结合Step2.2构建的命名实体指示词库,构建实体特征模板;
Step2.6、根据分类器的特点,选取条件随机场、支持向量机和最大熵模型三个不同的分类器作为Tri-training算法中的三个基分类器;
Step2.7、通过三个基分类器和Step2.3、Step2.4、Step2.5构建的特征模板,利用已标注语料和未标注语料通过改进的Tri-training算法学习得到组织机构名识别模型。
所述步骤Step1.2的具体步骤为:
Step1.2.1、对爬取的网页信息进行有效的过滤,去除无效网页;
Step1.2.2、对得到的有效网页进行去重、去噪音的预处理操作。
所述步骤Step2.7的具体步骤为:
Step2.7.1、对原始的Tri-training算法中对于基分类器的选择进行改进,将原始算法中的单个分类器通过对已标注语料的可重复采样来训练出三个不同的分类器模型,改进为通过三个不同的分类器对已标注语料进行可重复采样来训练出三个不同的分类器模型;
Step2.7.2、通过Step2.7.1得到的三个分类器模型对未标注语料进行标注,并按照最优化样本选择策略选择样本子集,生成三个分类器的新训练集,并重新训练模型,直到未标注语料为空;
Step2.7.3、通过Step2.7.2得到联合分类器生成的模型按投票规则对测试语料进行分类标注,最终生成组织机构名标注结果。
所述步骤Step2.4中由两个基本特征模板组合构成的复合特征模板。
本发明的有益效果是:
1、本发明的柬埔寨语组织机构名识别方法,对柬埔寨语组织机构名识别的问题做了前所未有的工作,目前没有发现柬埔寨语做相关的组织机构名识别的报告,本发明取得了很好的效果;
2、本发明的柬埔寨语组织机构名识别方法,对柬埔寨语组织机构名进行有效的识别,为信息抽取和机器翻译等工作提供强有力的支撑。
附图说明
图1为本发明中的总流程图;
图2为本发明中的建模流程图;
图3为本发明中的组织机构名识别方法应用的流程图。
具体实施方式
实施例1:如图1-3所示,一种柬埔寨语组织机构名识别方法,具体步骤如下:
Step1、首先对抽取的柬埔寨语篇章进行切分,切分后的句子进行分词和词性标注,通过人工校对,然后标注柬埔寨语命名实体,得到相当规模的柬埔寨语组织机构名语料;
Step2、通过标注的语料提取命名实体指示词,构建指示词库,构建特征模板,通过改进的Tri-training算法学习得到组织机构名识别模型;
Step3、对选取的测试语料通过组织机构名识别模型进行训练得到组织机构名的标注结果。
进一步地,所述步骤Step1中组织机构名标注语料获取的具体步骤如下:
Step1.1、首先利用爬虫程序,从柬埔寨新闻网上爬取出网页信息;
Step1.2、把爬取出的网页信息,经过过滤处理,构建出柬埔寨语篇章语料库;
Step1.3、通过柬埔寨语的句子结束符等将篇章切分为句子,形成柬埔寨语句子级语料库,并把柬埔寨语句子级语料库的语料存放到数据库中;
Step1.4、从数据库中取出柬埔寨语句子级的语料,通过柬埔寨语分词和词性标注系统进行分词和词性标注,并进行人工校对,得到含有正确结果的柬埔寨语词性标注分词库,并把柬埔寨语词性标注分词库的词语存放到数据库中;
Step1.5、根据柬埔寨语命名实体特点和标注规则,从数据库中取出柬埔寨语词性标注分词库的语料,通过人工标注柬埔寨语命名实体,得到含有正确标注结果的柬埔寨语命名实体语料库,并把柬埔寨语命名实体标注语料库的结果存放在数据库中。
其中得到的语料规模为5000句,含有2863个组织机构名,通过人工标注获得2000句的标注语料,1000句用于训练语料和1000句用于测试语料,其余3000句为未标注语料用于Tri-training训练中。
进一步地,所述步骤Step2组织机构名识别模型构建的具体步骤:
Step2.1、从存放柬埔寨语命名实体标注语料库的数据库中取出已标注好的柬埔寨语命名实体的语料;
Step2.2、对Step2.1中的语料提取命名实体指示词,构建命名实体指示词库,其中提取的命名实体包括人名、地名和组织机构名;
Step2.3、通过组织机构名的词和词性特种构建基本特征模板,基本特征模板描述了当前词及其上下文中若干个词的词性;
Step2.4、通过Step2.3构建的基本特征模板进行特征组合构建复合特征模板,复合特征能够利用远距离的依存关系和丰富的上下文信息;
Step2.5、柬埔寨语组织机构名具有非常复杂的构成特点,这些复杂的特点为柬埔寨语组织机构名识别提供非常丰富的外部信息,因此基于这个特点,结合Step2.2构建的命名实体指示词库,构建实体特征模板;
Step2.6、根据分类器的特点,选取条件随机场、支持向量机和最大熵模型三个不同的分类器作为Tri-training算法中的三个基分类器;
Step2.7、通过三个基分类器和Step2.3、Step2.4、Step2.5构建的特征模板,利用已标注语料和未标注语料通过改进的Tri-training算法学习得到组织机构名识别模型。
进一步地,所述步骤Step1.2的具体步骤为:
Step1.2.1、对爬取的网页信息进行有效的过滤,去除无效网页;
Step1.2.2、对得到的有效网页进行去重、去噪音的预处理操作。
所述步骤Step2.7的具体步骤为:
Step2.7.1、对原始的Tri-training算法中对于基分类器的选择进行改进,将原始算法中的单个分类器通过对已标注语料的可重复采样来训练出三个不同的分类器模型,改进为通过三个不同的分类器对已标注语料进行可重复采样来训练出三个不同的分类器模型;
Step2.7.2、通过Step2.7.1得到的三个分类器模型对未标注语料进行标注,并按照最优化样本选择策略选择样本子集,生成三个分类器的新训练集,并重新训练模型,直到未标注语料为空;
Step2.7.3、通过Step2.7.2得到联合分类器生成的模型按投票规则对测试语料进行分类标注,最终生成组织机构名标注结果。
进一步地,所述步骤Step2.4中由两个基本特征模板组合构成的复合特征模板。
所述步骤Step2.2中:
构建的命名实体指示词库:
针对柬埔寨语人名、地名、组织机构名所具有的实体特性,人工收集命名实体指示词并构建命名实体指示词库如表1所示。
表1 命名实体指示词库
所述步骤Step2中:
1)支持向量机的特征选择
对于支持向量机的特征选择,本发明主要考虑词本身的词形或词性特征和词相邻的上下文特征,以及组织机构名的BISO标注等特征,上下文窗口大小定为[-2,2]。最终的样本特征为X={pi-2,ti-2,pi-1,ti-1,pi,pi+1,pi+2,},其中pi表示该词的词性标注,pi-k、ti-k(k=1、2)表示前k个位置的词的词性标注及BISO标注;pi+k(k=1、2)表示后k个位置的词的词性标注。
2)构建基本特征模板
根据条件随机场和最大熵模型依据对特征模板的构建来进行实验,其中基本特征模板描述了当前词及其上下文中若干个词的词性如下表2所示。
表2 基本特征模板
序号 | 模板形式 | 模板含义 |
1 | Word(0) | 当前词 |
2 | Word(-1) | 当前词左边第一个词 |
3 | Word(-2) | 当前词左边第二个词 |
4 | Word(1) | 当前词右边第一个词 |
5 | Word(2) | 当前词右边第二个词 |
6 | POS(0) | 当前词的词性 |
7 | POS(-1) | 当前词左边第一个词的词性 |
8 | POS(-2) | 当前词左边第二个词的词性 |
9 | POS(1) | 当前词右边第一个词的词性 |
10 | POS(2) | 当前词右边第二个词的词性 |
3)构建的复合特征模板
复合特征模板就是将基本特征模板中的特征进行组合,能够利用依存关系和丰富的上下文信息,本文采用由两个基本特征模板所构成的复合特征模板,复合特征模板如下表3所示。
表3 复合特征模板
4)构建的实体特征模板:
柬埔寨语组织机构名具有非常复杂的构成特点,这些复杂的特点为柬埔寨语组织机构名识别提供非常丰富的外部信息,柬埔寨语中组织机构名的书写顺序与汉语相反,如“昆明理工大学”对应的柬语为“大学理工昆明”。柬埔寨语的组织机构名一般是定中结构,且定语为后置,前缀表明组织机构所属类型,绝大多数的机构名指示词均以前缀的形式出现在机构名中。结合构建的命名实体指示词库,构建实体特征模板如表4所示。
表4 实体特征模板
所述步骤Step2.7中:改进的Tri-training算法流程
输入:初始已标注样本集L,未标注样本集U,测试集T,分类器H1、H2、H3;
输出对测试集T的标注结果S;
步骤1初始化:选取初始已标注样本集L中的样本放入样本集中,将样本加入分类器H1、H2、H3中进行第一次训练得到模型
步骤2:对已标注样本集L进行重复采样即Bootstrap sampling,并由三个分类器H1、H2、H3训练得到模型。
步骤3:由对未标注样本集U进行标注,并按照最优化样本选择策略选择样本子集{P1}、{P2}、{P3}。
步骤4:将样本子集{P1}、{P2}、{P3}分别加入到样本集生成三个分类器的新训练集并重新进行训练得到模型
步骤5:判断未标注样本集U是否为空,若不为空,则转步骤2;若为空,则转步骤6。
步骤6:联合分类器生成的模型{Model1、Model2、Model3},按投票规则对测试集T进行分类标注,最终生成标注结果S。
所述步骤Step2.7.2中:
最优化样本选择策略:
对于任意给定的数据序列X={x1,x2,...,xn},通过三个分类器{H1,H2,H3}训练生成三个模型{Model1,Model2,Model3},以此来对U进行标注,得到三个标注序列S1={s11,s21,s31,....,sn1},S2={s12,s22,s32,....,sn2},S3={s13,s23,s33,....,sn3},那么定义Hi和Hj(其中i、j取1、2、3,且i≠j)之间的一致性评价函数F为:
其中:
当F(Hi,Hj)值越大,说明两者差异性越小。
采用的原则是:若H1和H2对某一样本U标注结果一致,则认为该标注正确;若H1对U的标注与其他两个分类器不一致,则认为该样本U可以改善H1的分类效果。因此对由三个分类器{Hi,Hj,Hk}每轮迭代后标注的结果{Si,Sj,Sk}进行如下选择:
a)计算Si和Sj的样本一致性,按30%的比例选择出一致性评价函数F值最低的样本子集;
b)计算Sj和Sk的样本一致性,按30%的比例选择出一致性评价函数F值最高的样本子集;
c)取这两个子集的交集,交给分类器Hj重新标注,生成样本集添加到分类器Hi的训练集中;
采用同样的方法对另外两个分类器扩充训练集,因此采用这个策略来对每次迭代后样本集的扩充进行样本选择。
所述步骤Step2.7.3中:
投票规则:
由于考虑到基分类器的差异性,投票规则采用少数服从多数投票与加权投票相结合的投票规则。
对于分类器H1、H2、H3,如果三个分类器的标注结果相同,则选择该标注结果;如果两个分类器的标注结果相同,与第三个分类器的标注结果不同,则按照少数服从多数原则选择标注结果;对于三个分类器标注结果不同的情况,采用加权投票规则进行标注结果的选择。
加权投票规则采用公式(2)对训练所得联合分类器进行类别标记,在集成时考虑每个分类器的性能权重,权重H(1,2,3)由三个分类器在初始已标注语料L上的分类准确率Pi(L)所决定,其中y代表B、I、S、O标记,Hi(x)表示在Hi分类器中第x个样本的标注结果。
其中:
衡量命名实体识别系统性能的主要性能指标包括准确率P、召回率R以及综合反映两者的综合指标F值。
具体定义为:
为了证明改进的Tri-training算法对组织机构名识别模型的识别效果更好,我们进行了三个基分类器的识别结果与Co-training算法和Tri-training算法通过10轮迭代后的识别结果的比较,如表5所示。
表5 三个基分类器与Co-training算法、Tri-training算法的识别结果
识别模型 | P | R | F |
条件随机场 | 60.56% | 62.23% | 61.38% |
支持向量机 | 55.68% | 57.35% | 56.50% |
最大熵模型 | 57.25% | 55.83% | 56.53% |
Co-training | 62.43% | 64.59% | 63.49% |
Tri-training | 65.68% | 67.83% | 66.74% |
从表5可以看出,利用Tri-training算法的识别结果相比三个基分类器的效果有明显的提升,相比Co-training算法识别效果也有一定的提升,因此证明采用该方法进行柬埔寨语组织机构名的识别达到了更好的效果。其中三个基分类器的识别效果中,条件随机场的准确率和召回率最高,因此F值最高的是条件随机场模型。由于三个基分类器的识别效果不同,表明特征模板对三个基分类器的影响各不同。
为了进一步观察Tri-training算法对于每一轮迭代后的识别效果,我们列举了10轮Tri-training算法迭代后的识别结果。实验结果如表6所示。
表6 Tri-training算法每轮迭代结果
迭代次数 | P | R | F |
1 | 68.69% | 60.27% | 64.24% |
2 | 67.53% | 62.95% | 65.17% |
3 | 66.85% | 64.56% | 65.69% |
4 | 66.20% | 65.83% | 66.01% |
5 | 65.98% | 66.67% | 66.32% |
6 | 65.83% | 67.13% | 66.47% |
7 | 65.75% | 67.41% | 66.57% |
8 | 65.71% | 67.63% | 66.66% |
9 | 65.68% | 67.79% | 66.72% |
10 | 65.68% | 67.83% | 66.74% |
从表6中可以看出,在第一轮训练结束后,准确率最高,与基分类器的准确率较高有关,召回率相对较低,通过多轮的训练,准确率有所下降,召回率逐渐提升,F值一直在增加,但随着迭代次数的增加,F值增加的幅度逐渐减小,趋于一致。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (6)
1.一种柬埔寨语组织机构名识别方法,其特征在于:具体步骤如下:
Step1、首先对抽取的柬埔寨语篇章进行切分,切分后的句子进行分词和词性标注,通过人工校对,然后标注柬埔寨语命名实体,得到相当规模的柬埔寨语组织机构名语料;
Step2、通过标注的语料提取命名实体指示词,构建指示词库,构建特征模板,通过改进的Tri-training算法学习得到组织机构名识别模型;
Step3、对选取的测试语料通过组织机构名识别模型进行训练得到组织机构名的标注结果。
2.根据权利要求1所述的柬埔寨语组织机构名识别方法,其特征在于:所述步骤Step1中组织机构名标注语料获取的具体步骤如下:
Step1.1、首先利用爬虫程序,从柬埔寨新闻网上爬取出网页信息;
Step1.2、把爬取出的网页信息,经过过滤处理,构建出柬埔寨语篇章语料库;
Step1.3、通过柬埔寨语的句子结束符将篇章切分为句子,形成柬埔寨语句子级语料库,并把柬埔寨语句子级语料库的语料存放到数据库中;
Step1.4、从数据库中取出柬埔寨语句子级的语料,通过柬埔寨语分词和词性标注系统进行分词和词性标注,并进行人工校对,得到含有正确结果的柬埔寨语词性标注分词库,并把柬埔寨语词性标注分词库的词语存放到数据库中;
Step1.5、根据柬埔寨语命名实体特点和标注规则,从数据库中取出柬埔寨语词性标注分词库的语料,通过人工标注柬埔寨语命名实体,得到含有正确标注结果的柬埔寨语命名实体语料库,并把柬埔寨语命名实体标注语料库的结果存放在数据库中。
3.根据权利要求1所述的柬埔寨语组织机构名识别方法,其特征在于:所述步骤Step2组织机构名识别模型构建的具体步骤:
Step2.1、从存放柬埔寨语命名实体标注语料库的数据库中取出已标注好的柬埔寨语命名实体的语料;
Step2.2、对Step2.1中的语料提取命名实体指示词,构建命名实体指示词库,其中提取的命名实体包括人名、地名和组织机构名;
Step2.3、通过组织机构名的词和词性特种构建基本特征模板,基本特征模板描述了当前词及其上下文中若干个词的词性;
Step2.4、通过Step2.3构建的基本特征模板进行特征组合构建复合特征模板,复合特征能够利用远距离的依存关系和丰富的上下文信息;
Step2.5、柬埔寨语组织机构名具有非常复杂的构成特点,这些复杂的特点为柬埔寨语组织机构名识别提供非常丰富的外部信息,因此基于这个特点,结合Step2.2构建的命名实体指示词库,构建实体特征模板;
Step2.6、根据分类器的特点,选取条件随机场、支持向量机和最大熵模型三个不同的分类器作为Tri-training算法中的三个基分类器;
Step2.7、通过三个基分类器和Step2.3、Step2.4、Step2.5构建的特征模板,利用已标注语料和未标注语料通过改进的Tri-training算法学习得到组织机构名识别模型。
4.根据权利要求2所述的柬埔寨语组织机构名识别方法,其特征在于:所述步骤Step1.2的具体步骤为:
Step1.2.1、对爬取的网页信息进行有效的过滤,去除无效网页;
Step1.2.2、对得到的有效网页进行去重、去噪音的预处理操作。
5.根据权利要求3所述的柬埔寨语组织机构名识别方法,其特征在于:所述步骤Step2.7的具体步骤为:
Step2.7.1、对原始的Tri-training算法中对于基分类器的选择进行改进,将原始算法中的单个分类器通过对已标注语料的可重复采样来训练出三个不同的分类器模型,改进为通过三个不同的分类器对已标注语料进行可重复采样来训练出三个不同的分类器模型;
Step2.7.2、通过Step2.7.1得到的三个分类器模型对未标注语料进行标注,并按照最优化样本选择策略选择样本子集,生成三个分类器的新训练集,并重新训练模型,直到未标注语料为空;
Step2.7.3、通过Step2.7.2得到联合分类器生成的模型按投票规则对测试语料进行分类标注,最终生成组织机构名标注结果。
6.根据权利要求3所述的柬埔寨语组织机构名识别方法,其特征在于:所述步骤Step2.4中由两个基本特征模板组合构成的复合特征模板。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611157511.XA CN106776560A (zh) | 2016-12-15 | 2016-12-15 | 一种柬埔寨语组织机构名识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611157511.XA CN106776560A (zh) | 2016-12-15 | 2016-12-15 | 一种柬埔寨语组织机构名识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106776560A true CN106776560A (zh) | 2017-05-31 |
Family
ID=58888301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611157511.XA Pending CN106776560A (zh) | 2016-12-15 | 2016-12-15 | 一种柬埔寨语组织机构名识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106776560A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423264A (zh) * | 2017-07-10 | 2017-12-01 | 广东华联建设投资管理股份有限公司 | 一种工程材料专业特征提取方法 |
CN107423292A (zh) * | 2017-06-23 | 2017-12-01 | 昆明理工大学 | 基于分层狄利克雷过程的柬‑汉双语人名音节对齐方法 |
CN107480197A (zh) * | 2017-07-17 | 2017-12-15 | 广州特道信息科技有限公司 | 实体词识别方法及装置 |
CN107608959A (zh) * | 2017-09-08 | 2018-01-19 | 电子科技大学 | 一种英文社交媒体短文本地名识别方法 |
CN107832296A (zh) * | 2017-11-09 | 2018-03-23 | 南京邮电大学 | 一种基于条件随机场的电信领域命名实体识别方法 |
CN108255816A (zh) * | 2018-03-12 | 2018-07-06 | 北京神州泰岳软件股份有限公司 | 一种命名实体识别方法、装置及系统 |
CN108733658A (zh) * | 2017-09-01 | 2018-11-02 | 安徽广播电视大学 | 组织机构名汉英翻译方法 |
CN108763195A (zh) * | 2018-05-02 | 2018-11-06 | 武汉烽火普天信息技术有限公司 | 一种基于依存句法和模式规则的非限定型关系挖掘方法 |
CN109783803A (zh) * | 2018-12-14 | 2019-05-21 | 昆明理工大学 | 一种基于svm和hmm的老挝语机构名称识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033950A (zh) * | 2010-12-23 | 2011-04-27 | 哈尔滨工业大学 | 电子产品命名实体自动识别系统的构建方法及识别方法 |
US20120150531A1 (en) * | 2010-12-08 | 2012-06-14 | At&T Intellectual Property I, L.P. | System and method for learning latent representations for natural language tasks |
US20130179151A1 (en) * | 2012-01-06 | 2013-07-11 | Yactraq Online Inc. | Method and system for constructing a language model |
CN103473280A (zh) * | 2013-08-28 | 2013-12-25 | 中国科学院合肥物质科学研究院 | 一种网络可比语料的挖掘方法及装置 |
CN104794500A (zh) * | 2015-05-11 | 2015-07-22 | 苏州大学 | 一种tri-training半监督学习方法及装置 |
CN106202255A (zh) * | 2016-06-30 | 2016-12-07 | 昆明理工大学 | 融合实体特性的越南语命名实体识别方法 |
-
2016
- 2016-12-15 CN CN201611157511.XA patent/CN106776560A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120150531A1 (en) * | 2010-12-08 | 2012-06-14 | At&T Intellectual Property I, L.P. | System and method for learning latent representations for natural language tasks |
CN102033950A (zh) * | 2010-12-23 | 2011-04-27 | 哈尔滨工业大学 | 电子产品命名实体自动识别系统的构建方法及识别方法 |
US20130179151A1 (en) * | 2012-01-06 | 2013-07-11 | Yactraq Online Inc. | Method and system for constructing a language model |
CN103473280A (zh) * | 2013-08-28 | 2013-12-25 | 中国科学院合肥物质科学研究院 | 一种网络可比语料的挖掘方法及装置 |
CN104794500A (zh) * | 2015-05-11 | 2015-07-22 | 苏州大学 | 一种tri-training半监督学习方法及装置 |
CN106202255A (zh) * | 2016-06-30 | 2016-12-07 | 昆明理工大学 | 融合实体特性的越南语命名实体识别方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423292A (zh) * | 2017-06-23 | 2017-12-01 | 昆明理工大学 | 基于分层狄利克雷过程的柬‑汉双语人名音节对齐方法 |
CN107423264A (zh) * | 2017-07-10 | 2017-12-01 | 广东华联建设投资管理股份有限公司 | 一种工程材料专业特征提取方法 |
CN107480197A (zh) * | 2017-07-17 | 2017-12-15 | 广州特道信息科技有限公司 | 实体词识别方法及装置 |
CN107480197B (zh) * | 2017-07-17 | 2020-12-18 | 云润大数据服务有限公司 | 实体词识别方法及装置 |
CN108733658A (zh) * | 2017-09-01 | 2018-11-02 | 安徽广播电视大学 | 组织机构名汉英翻译方法 |
CN107608959A (zh) * | 2017-09-08 | 2018-01-19 | 电子科技大学 | 一种英文社交媒体短文本地名识别方法 |
CN107832296A (zh) * | 2017-11-09 | 2018-03-23 | 南京邮电大学 | 一种基于条件随机场的电信领域命名实体识别方法 |
CN108255816A (zh) * | 2018-03-12 | 2018-07-06 | 北京神州泰岳软件股份有限公司 | 一种命名实体识别方法、装置及系统 |
CN108763195A (zh) * | 2018-05-02 | 2018-11-06 | 武汉烽火普天信息技术有限公司 | 一种基于依存句法和模式规则的非限定型关系挖掘方法 |
CN108763195B (zh) * | 2018-05-02 | 2022-01-18 | 武汉烽火普天信息技术有限公司 | 一种基于依存句法和模式规则的非限定型关系挖掘方法 |
CN109783803A (zh) * | 2018-12-14 | 2019-05-21 | 昆明理工大学 | 一种基于svm和hmm的老挝语机构名称识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106776560A (zh) | 一种柬埔寨语组织机构名识别方法 | |
CN107463607B (zh) | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 | |
CN112417880B (zh) | 一种面向法院电子卷宗的案情信息自动抽取方法 | |
CN106570148A (zh) | 一种基于卷积神经网络的属性抽取方法 | |
CN107861939A (zh) | 一种融合词向量和主题模型的领域实体消歧方法 | |
CN107273355A (zh) | 一种基于字词联合训练的中文词向量生成方法 | |
CN108984745A (zh) | 一种融合多知识图谱的神经网络文本分类方法 | |
CN101093478B (zh) | 一种根据实体的汉语简称识别汉语全称的方法及系统 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN106777274A (zh) | 一种中文旅游领域知识图谱构建方法及系统 | |
CN105868184A (zh) | 一种基于循环神经网络的中文人名识别方法 | |
CN104268197A (zh) | 一种行业评论数据细粒度情感分析方法 | |
CN107391486A (zh) | 一种基于统计信息和序列标注的领域新词识别方法 | |
CN103473217B (zh) | 从文本中抽取关键词的方法和装置 | |
CN110502742A (zh) | 一种复杂实体抽取方法、装置、介质及系统 | |
CN109344263A (zh) | 一种地址匹配方法 | |
CN106547733A (zh) | 一种面向特定文本的命名实体识别方法 | |
CN104391885A (zh) | 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法 | |
CN105975475A (zh) | 基于中文短语串的细粒度主题信息抽取方法 | |
CN108287911A (zh) | 一种基于约束化远程监督的关系抽取方法 | |
CN102629272A (zh) | 一种基于聚类的考试系统试题库优化方法 | |
CN107943786A (zh) | 一种中文命名实体识别方法及系统 | |
CN106202039B (zh) | 基于条件随机场的越南语组合词消歧方法 | |
CN111144119A (zh) | 一种改进知识迁移的实体识别方法 | |
CN105609116A (zh) | 一种语音情感维度区域的自动识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170531 |