CN105653519A

CN105653519A - 一种领域专有词的挖掘方法

Info

Publication number: CN105653519A
Application number: CN201511006779.9A
Authority: CN
Inventors: 贺惠新
Original assignee: Individual
Current assignee: Individual
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2016-06-08

Abstract

本发明涉及一种领域专有词汇的挖掘构建的方法，属于自然语言处理的计算机技术应用领域。本发明的优点是：本发明基于语料的领域相关性，提出了结合领域主题词典和统计模型的专有词挖掘方法，算法设置了高效的特征的生成和组合方式，可充分降低计算的复杂度，并最终有效生成高准确率的专有词挖掘模型；而应用时可方便的在新的词典中有针对的加入相关的词，有效提高算法的在不同场景下的适用性。本发明有效实现了计算机自动在自然语言的广泛语料中提取出领域相关的专有词，而提取后的词汇形成的领域专有词可补充进领域专业词典中，进一步供给计算机做后续的各种分析。

Description

一种领域专有词的挖掘方法

技术领域

本发明涉及一种领域专有词汇的挖掘构建的方法，属于自然语言处理的计算机技术应用领域。

背景技术

自然语言是人类在长期生活中形成的一种承载信息的交流符号，这种符号语言的含义由人们的生活环境、领域分工以及工作经验所影响造就。而字作为语言信息表达的基本元素，有共同的经历人员会为表达特定领域的一种实体或者行为，而将字拼接起来形成专用词汇。

随着社会分工的不断分化，人们从事的领域类型不断增多，各领域中产生的专用词汇的数量也变得庞大，不同领域之间的词汇的意思也不尽相同，而对领域中语言涉及的领域专有词的认知，更需要通过在领域中的经验，而无法由字的拼接规律来推理表达。领域专有词的认识问题成为了自然语言语义理解的基本问题。

通过计算机自动挖掘领域专有词语是很现实的应用需求。当前计算机的记忆功能强，而推理技能不足，在对领域专有词的认知上，基于人工规则的方法，重点在于从语法结构上分析构建构词规则，并在分析语料时完全利用规则发现词语，这种方法对参与人员的语言及领域的专业知识要求都很高，而人思考设计的遗漏必然导致词汇总结的缺失量更大，而且这种系统不便于迁移到不同领域上；基于统计的方法从自然语言文本中分析词汇组成的概率，由于对领域的训练数据的体量足够大，这对人工标注的劳动要求很高，当前的主要处理方式多是在不分领域的熟语料上进行统一的训练学习生成模型，并最终用在不同领域上，这造成了准确率降低。挖掘出领域专有词汇并形成专有词汇字典，是为了后续的应用任务，而由于通用方法的针对性不足，加入了不同领域的专有词的会造成后续任务的失效。

为解决各专有领域的专有词汇的挖掘问题，本发明提出一种自适应的领域专有词的挖掘方法，可结合一般语料进行建模分析，并在不同领域上进行变通应用，可有效提高专有词挖掘的准确性和全面性。

发明内容

训练步骤一：获取模型训练阶段的依赖资源：获取已做好标记（各句子中的字符有确定的是否被标注为专有词的标准答案）的NS个句子的集合S={S(i)}为训练语料，各句子记为S(i)，其中1≤i≤NS，要求NS≥10000；领域主题词典Dz；

训练步骤二：对训练语料S的所有字符进行特征化表示，得到每个字符的抽取后的特征表示结果，记s(i,j_i)为句子S(i)的第j_i个字，其中1≤j_i≤句子S(i)的总字符数，则s(i,j_i)对应的特征化结果为：

；

其中各特征的提取细节步骤为：

训练步骤二一：对各个句子S(i)中的每个序位上的字符s(i,j_i)，建立各序位的字符对应的5个字符型特征，分别表示为f₁(i,j_i),f₂(i,j_i),f₃(i,j_i),f₄(i,j_i),f₅(i,j_i):

训练步骤二二：对各个句子S(i)中的每个序位上的字符，建立各字符对应的4个用字符或字符串表示的特征，分别表示为f₆,f₇,f₈：

训练步骤二三：对各个句子S(i)中的每个序位上的字符，建立各字符对应的3个类型相关特征，分别表示为f₁₀,f₁₁,f₁₂：

训练步骤三：在一个指定的可加入自定义词典的分词器中，加入对应的领域词典Dz中的所有词，把这个加入分词器记为Seg，对训练语料S的各个句子用Seg做分词处理，标出各个字符被分词处理后的结果,并对分词结果进行数字化表示，对应得到各句子S(i)的每个序位上的字符s(i,j_i)的分词类别表示结果q(i,j_i)；

训练步骤四：对训练语料S的各个句子用一个指定的词性标注器做词性处理,此标注器记为Pes，标出各个字符被标注器处理后的结果，对应即得到各句子S(i)的每个序位上的字符s(i,j_i)的词性标注结果,记为p(i,j_i)；

训练步骤五：对训练语料S的各个句子的字符,根据是否是一个专有词的判断标记,进行数字化表示，对应得到各句子S(i)的每个序位上的字符s(i,j_i)的专有词标记表示结果g(i,j_i)；

训练步骤六：基于条件随机场模型，将训练语料中所有字符的表达结果{F(s(i,j_i)),q(i,j_i),p(i,j_i)}作为高级训练特征，对应的类别表示结果g(i,j_i)作为类别判定数据，进行训练，得到训练后的专有词挖掘模型M。

应用阶段

对于一个要做专有词提取处理的语料AG={G₁,G₂,…,G_Nm},AG中包含Nm篇长文本，对每篇长文本G做以下处理：

应用步骤一：对G的所有句子，基于训练过程涉及的分词器Seg，在Seg中加入额外的领域相关词汇（0个或多个），形成新的分词器Sep，应用Sep对G的所有句子做分词处理,并将分词后的所有词记为SG；

应用步骤二：统计SG和领域主题词典Dz中相同词的个数Ngz，并判断Ngz是否大于3,当Ngz不大于3时，中止在此文本G中的专有词的提取处理；若是Ngz大于等于3，则继续进行应用步骤三；

应用步骤三：G中的句子总数记为t,对G中各个句子

R_t={c(t,1),c(t,2),…,c(t,m),…,c(t,t_y)}，其中c(t,m)为对应的第t句中的依序排列的各个字符，t_y为第t句的字符总数，先对句子中的每个字符c(t,m)提取特征F(c(t,m))，其中1≤m≤y，而

，

其中各特征的提取细节步骤为：

应用步骤三一：对各个句子R_t中的每个序位上的字符c(t,m)，建立各序位的字符对应的5个字符型特征，分别表示为f₁(t,m),f₂(t,m),f₃(t,m),f₄(t,m),f₅(t,m):

应用步骤三二：对各个句子R_t中的每个序位上的字符c(t,m)，建立各字符对应的4个用字符或字符串表示的特征，分别表示为f₆,f₇,f₈：

应用步骤三三：对各个句子R_t中的每个序位上的字符c(t,m)，建立各字符对应的3个类型相关特征，分别表示为f₁₀,f₁₁,f₁₂：

应用步骤四：应用Seg对长文本G的各句子R_t做分词处理，标出各个字符被分词处理后的结果,并对分词结果进行数字化表示，对应得到各句子R_t中的每个序位上的字符c(t,m)的分词类别表示结果q(t,m)；

应用步骤五：对长文本G的各句子R_t，用词性标注器Pes做词性处理,标出各个字符被标注器处理后的结果，对应即得到各句子R_t中的每个序位上的字符c(t,m)的词性标注结果,记为p(i,j_i)；

应用步骤六：将句子R_t中的中所有字符的表达结果{F(c(t,m)),q(t,m),p(t,m_i)}作为高级训练特征，输入已训练好的模型M中，并由模型M进行分类评判，输出各字符对应的分类结果g(c_(t,m))；

应用步骤七：输出所有g(c(t,m))值为1或3的字符c_m的序位，在同一个句子R_t中，由g(c(t,m))值为1的位置和g(c(t,m))值为3的位置之间的字符组成的词汇，即做为提取出的此领域的专有词。

本发明的优点是：本发明基于语料的领域相关性，提出了结合领域主题词典和统计模型的专有词挖掘方法，处理中把领域专有词典信息作为一个度量领域语料相关性的资源，并全面考虑模型学习时原始训练语料对词典的影响，而算法设置了高效的特征的生成和组合方式，可充分降低计算的复杂度，并最终有效生成高准确率的专有词挖掘模型；而应用时可方便的在新的词典中有针对的加入相关的词，有效提高算法的在不同场景下的适用性。

本发明有效实现了计算机自动在自然语言的广泛语料中提取出领域相关的专有词，并方便在不同领域下进行扩展应用，而提取后的词汇形成的领域专有词可补充进领域专业词典中，进一步供给计算机做后续的各种分析。

附图说明

图1为本发明的模型训练的方法的流程图，图2为应用的方法的流程图。

具体实施方式

下面结合附图图1和图2说明本实施方式。

本发明设计的方法由训练模型和应用模型两个阶段组成,它包括以下步骤：

训练阶段

；

其中各特征的提取细节步骤为：

应用阶段

应用步骤三：G中的句子总数记为t,对G中各个句子

，

其中各特征的提取细节步骤为：

Claims

1.一种领域专有词的挖掘方法，其特征是：它由训练模型和应用模型两个阶段组成,，其中训练阶段包括：

；

2.根据权利要求1所述的方法，其特征在于所述应用阶段的包括：

应用步骤三：G中的句子总数记为t,对G中各个句子R_t={c(t,1),c(t,2),…,c(t,m),…,c(t,t_y)}，其中c(t,m)为对应的第t句中的依序排列的各个字符，t_y为第t句的字符总数，先对句子中的每个字符c(t,m)提取特征F(c(t,m))，其中1≤m≤y，而

3.根据权利要求1或权利要求2所述的方法，其特征在于所述训练阶段的步骤二具体包括：

。