CN108363691A

CN108363691A - 一种用于电力95598工单的领域术语识别系统及方法

Info

Publication number: CN108363691A
Application number: CN201810132551.1A
Authority: CN
Inventors: 嵇友浪; 朱君; 俞阳; 赵洪莹; 李辰刚
Original assignee: Nanjing Cloud Network Technology Co Ltd; State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Nanjing Cloud Network Technology Co Ltd; State Grid Corp of China SGCC; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2018-08-03
Anticipated expiration: 2038-02-09
Also published as: CN108363691B

Abstract

本发明公开了一种用于电力95598工单的领域术语识别系统及方法，文本获取模块通过文本预处理模块与候选串抽取模块相连接，候选串抽取模块分别通过内部统计分析模块、领域特征分析模块与术语特征样本库识别模块相连接，术语特征样本库识别模块分别通过第一术语筛选模块、第二术语筛选模块与人工审核模块相连接，人工审核模块通过术语特征样本库与第二术语筛选模块相连接，人工审核模块还与启发式推荐模块相连接。本发明能有效提高后续使用中领域术语识别的精确程度，同时，系引入的启发式模块可以减少人工审核术语的工作量并发现术语的变体，保证于电力95598工单的领域术语识别效率和准确性，具有良好的应用前景。

Description

一种用于电力95598工单的领域术语识别系统及方法

技术领域

本发明涉及一种用于电力95598工单的领域术语识别系统及方法，属于术语识别技术领域。

背景技术

术语是指在特定专业领域中一般概念的词语指称(参见GB/T15237.1- 2000《中华人民共和国国家标准术语工作-词汇》)。术语在文献中作为一个完整的语言单位出现，必须结合稳定，出现频繁并且使用自由。其次，术语作为专业领域中的一般概念，本身还应该有很强的领域性。

与英语等西方语言不同，汉语书面语书写时词语之间没有的明显的边界符号。而在对文本语义的理解中，汉语的语义又是以词为单位的。因此，准确识别出汉语词语是汉语的自然语言处理中重要的一步。专业领域文献、文本中包含有大量的领域术语。将自然语言处理技术运用于专业领域时，需要补充大量专业领域术语的知识。整理术语时通常会采用人工录入整理或者匹配现有领域词典的方法，然而人工整理术语费时费力，采用词典匹配时，大量的术语的变体很难识别，这两种方法都很难得到很高的覆盖率。因此，需要引入领域术语识别技术。

领域术语识别技术在自然语言处理中有着广泛的应用。对于提高领域文本在信息检索、信息抽取、本体构建、文本分类聚类等应用中的精度都有着重要的作用。目前、从批量文本中识别领域术语的系统主要有以下两类，均存在不同的缺点，具体如下：

(1)基于统计信息的领域术语识别系统，这类系统主要根据领域术语本身的特征识别领域术语，一般采用统计学以及信息论中的相关方法。通常的流程是：用统计学中的方法建立起文本的统计信息，根据统计结果对候选的文本串进行筛选，得到一批候选短语并进行人工检验。常用的统计方法有假设检验中的卡方检验、T检验、对数似然比以及信息论中的点互信息方法等等，该基于统计的方法不依赖外部资源，不局限于某一领域，通用性较强。但是，基于统计的方法通常将领域术语出现的频率作为评判的显式或者隐式条件，因此这类算法识别的效果依赖于语料的规模和候选领域术语的频繁出现。因此低频率的领域术语识别效果不理想。也造成领域术语识别精确率和召回率很难取得满意的平衡。

(2)基于有监督机器学习的领域术语识别系统，这类系统采用人工或半自动标注小批量的训练语料，将领域术语的特征表示为字词分布的特征，用某种机器学习模型学习这些特征，再利用该模型预测领域文本中未发现的术语，目前用于领域术语识别的机器学习模型主要包括最大熵模型、支持向量机、隐马尔科夫模型、最大熵马尔科夫模型和条件随机场模型(CRF)等，这种基于有监督机器学习的领域术语识别系统的识别准确率较高，且不受到词语出现频率的限制。然而，该系统需要用户参与标注训练预料，人工工作量大，导致最终标注语料和实验量不够大，制约了其的实用性。

95598电力工单是电力行业的领域术语，是用电客户通过电力客服热线 95598反映的业务咨询、用电诉求等所形成的文本，由客服代表根据用电客户描述的问题现象，以及该问题给用电客户带来的影响程度选择对应的业务类型。如何克服现有技术的识别问题，针对电力95598工单完成更好的领域术语识别，是当前需要解决的问题。

发明内容

本发明目的是为了克服现有的针对电力95598工单完成更好的领域术语识别，所存在的问题。本发明的用于电力95598工单的领域术语识别系统及方法，分别采用评分公式和分类算法筛选术语，通过将电力领域专家审核术语的过程作为术语标注的过程集成到系统中，能有效提高后续使用中领域术语识别的精确程度。同时，系引入的启发式模块可以减少人工审核术语的工作量并发现术语的变体，保证于电力95598工单的领域术语识别效率和准确性，具有良好的应用前景。

为了达到上述目的，本发明所采用的技术方案是：

一种用于电力95598工单的领域术语识别系统，包括

文本获取模块，用于从电力95598工单系统中获取电力95598工单文本；

文本预处理模块，对电力95598工单文本分句，并根据背景语料库包含的词语对电力95598工单文本分词；

候选串抽取模块，根据术语钩词规则抽取候选串及候选串上、下文；

内部统计分析模块，生成各个候选串上、下文的特征向量；

领域特征分析模块，根据背景语料库，计算各个候选串中各个术语部件的领域相关度；

第一术语筛选模块，采用评分公式，计算候选串的成词评分，选取大于预设阈值T1的候选串作为候选术语；

人工审核模块，用户标注候选术语是否为正确术语；

术语特征样本库，用于保存候选术语和垃圾串的相关特征；

术语特征样本库识别模块，用于判断术语特征样本库是否为空；

第二术语筛选模块，采用有监督学习算法，根据候选串的特征选取候选术语；

启发式推荐模块，根据用户标注的正确术语，识别上、下文相关的术语，作为该正确术语的变体提供给用户确认；

所述文本获取模块通过文本预处理模块与候选串抽取模块相连接，所述候选串抽取模块分别通过内部统计分析模块、领域特征分析模块与术语特征样本库识别模块相连接，所述术语特征样本库识别模块分别通过第一术语筛选模块、第二术语筛选模块与人工审核模块相连接，所述人工审核模块通过术语特征样本库与第二术语筛选模块相连接，所述人工审核模块还与启发式推荐模块相连接。

前述的用于电力95598工单的领域术语识别系统，所述候选串抽取模块，根据术语钩词规则抽取候选串及候选串上、下文，所述术语钩词规则，具体如下，

(1)候选串是经过文本预处理模块处理后的，以汉字为开始或结束的连续分词单位串；或者是经过文本预处理模块处理后的由英文字母、数字、连字符中任意两种或两种以上组成的连续分词单位串；

(2)若候选串含有单字分词碎片，则候选串长度为2-4个分词单位且含有至少一个长度为1的分词单位；否则，候选串长度为2-3个分词单位，且最后一个词为名词或动词；

(3)候选串不含有停用词和标点符号；

(4)候选串上、下文包含候选串在句子中的前后2个词。

前述的用于电力95598工单的领域术语识别系统，所述内部统计分析模块，生成各个候选串上、下文的特征向量，该特征向量包含候选串的频率，候选串的内聚程度，候选串的使用自由程度，候选串第一个分词单位，候选串最后一个分词单位，

候选串的内聚程度采用候选串各种划分间改进互信息C-PMI的最小值，具体为，分词单位s1、s2、…、si、si+1、…、sn组成的候选串S，其的内聚程度计算公式为：

其中C-PMI(S)是候选串S的内聚程度，P(S)为候选串S出现在待分析文本中的概率；s0、s1、…、si、si+1、…、sn为候选串S的一种划分；P(s0s1…si)为字串s0、s1、…、si出现在待分析文本中的概率，n为候选串S划分字串的数量；

候选串的使用自由程度，采用最小左右邻词边界熵和归一化的邻接变化数计算，候选串S的最小左右邻词边界熵MinBE(S)计算方式为，

其中，MinBE(S)是候选串S的最小左右邻词边界熵，V为待分析文本中的词语集合，x是在训练文本中出现在候选串S左侧(或右侧)的词语，p(xS|S) 为候选串S出现时，词语x出现在候选串S左侧的条件概率，p(Sx|S)为候选串 S出现时词语，x出现在候选串S右侧的条件概率；

候选串S的归一化的邻接变化数计算方式为，

其中，NAV(S)是候选串S的归一化的邻接变化数，LAV(S)是候选串S的左邻接变化数，定义为候选串的不同前驱字符的数目，加上候选串在句首出现的次数；RAV(S)为候选串S的右邻接变化数，定义为候选串S的不同后继字符的数目，加上候选串S在句尾出现的次数，Count(S)为候选串S出现的次数；

候选串S上、下文的特征向量用以下方式表示：上、下文空间每个词语作为一个维度，上、下文词语w所在维度的取值采用正点互信息PMI(S，w)表示，计算公式为：

其中，P(S)为候选串S出现的概率，P(w)为词w出现的概率，PMI(S，w)为w 出现在候选串S上、下文中的概率。

前述的用于电力95598工单的领域术语识别系统，所述领域特征分析模块，根据背景语料库，计算各个候选串中各个术语部件的领域相关度F(S)，采用如下的公式计算，

其中，F(S)为候选串S的领域相关度，P_F(S)为候选串S在背景语料库中出现的概率，P_BC(S)为候选串S在背景语料库中的中出现的概率。

前述的用于电力95598工单的领域术语识别系统，所述第一术语筛选模块，采用的评分公式为：

其中，C-PMI(S)是候选串S的内聚程度，MinBE(S)是候选串S的最小左右邻词熵，NAV(S)是候选串S的使用自由程度，F(S)为候选串S的领域相关度，μ为经验参数，取值范围在0到1之间。

前述的用于电力95598工单的领域术语识别系统，所述人工审核模块中用户为领域专家；所述术语特征样本库，同时包含正例样本库和负例样本库；所述第二术语筛选模块，采用有监督学习算法为随机森林算法；所述启发式推荐模块，识别上、下文相关的术语，包括内部结构相似度和外部相似度，所述内部结构相似度采用编辑距离衡量，所述外部相似度采用候选串上、下文的特征向量的余弦夹角计算。

一种用于电力95598工单的领域术语识别方法，包括以下步骤，

步骤(A)，用于从电力95598工单系统中获取电力95598工单文本；

步骤(B)，对电力95598工单文本分句，并根据背景语料库包含的词语对电力95598工单文本分词，得到分词后的分句文本；

步骤(C)，将步骤(B)的分句文本，根据术语钩词规则抽取候选串及候选串上、下文；

步骤(D)，根据抽取候选串及候选串上、下文，生成各个候选串上、下文的特征向量，该特征向量包含候选串的频率，候选串的内聚程度，候选串的使用自由程度，候选串第一个分词单位，候选串最后一个分词单位；同时，根据背景语料库，计算各个候选串中各个术语部件的领域相关度，两者结合，综合生成候选串的特征；

步骤(E)，用于判断术语特征样本库是否为空，若为空，则采用评分公式计算候选串的成词评分，将成词评分大于预设阈值T1的结果作为候选新词集合；若不为空，且采用有监督学习算法，根据候选串的特征选取候选术语；

步骤(F)，用户标注候选术语是否为正确术语，所述用户为领域专家；

步骤(G)，根据标注的正确术语，识别上、下文相关的术语，作为该正确术语的变体提供给用户确认。

前述的用于电力95598工单的领域术语识别方法，步骤(E)，采用有监督学习算法为随机森林算法。

前述的用于电力95598工单的领域术语识别方法，步骤(G)，所述识别上、下文相关的术语包括内部结构相似度和外部相似度，所述内部结构相似度采用编辑距离衡量，所述外部相似度采用候选串上、下文的特征向量的余弦夹角计算。

本发明的有益效果是：本发明的用于电力95598工单的领域术语识别系统及方法，分别采用评分公式和分类算法筛选术语，通过将电力领域专家审核术语的过程作为术语标注的过程集成到系统中，能有效提高后续使用中领域术语识别的精确程度。同时，系引入的启发式模块可以减少人工审核术语的工作量并发现术语的变体，保证于电力95598工单的领域术语识别效率和准确性，具有良好的应用前景。

附图说明

图1是本发明的用于电力95598工单的领域术语识别方法的流程示意图；

图2是本发明的一实施例的具体流程示意图。

具体实施方式

下面将结合说明书附图，对本发明做进一步说明。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

95598电力服务工单分别由多位客户服务人员记录，他们虽然经过专业的培训，但由于工作繁重，在填写工单时难免会使用不同的术语变体(例如简称) 描述同一概念。传统方法仅采用已知术语的特征进行识别，可能无法识别到这些术语的变体，影响后续文本挖掘我分析的准确性。

本发明的用于电力95598工单的领域术语识别系统，以95598电力服务工单作为输入，针对95598电力服务工单中的文本进行术语识别，输出识别出的术语，如图1所示，具体包括

内部统计分析模块，生成各个候选串上、下文的特征向量；

人工审核模块，用户标注候选术语是否为正确术语；

术语特征样本库，用于保存候选术语和垃圾串的相关特征；

优选的，所述候选串抽取模块，根据术语钩词规则抽取候选串及候选串上、下文，所述术语钩词规则，具体如下，

(3)候选串不含有停用词和标点符号；

(4)候选串上、下文包含候选串在句子中的前后2个词。

优选的，所述内部统计分析模块，生成各个候选串上、下文的特征向量，该特征向量包含候选串的频率，候选串的内聚程度，候选串的使用自由程度，候选串第一个分词单位，候选串最后一个分词单位，

候选串S的归一化的邻接变化数计算方式为，

优选的，所述领域特征分析模块，根据背景语料库，计算各个候选串中各个术语部件的领域相关度F(S)，采用如下的公式计算，

优选的，所述人工审核模块中用户为领域专家；所述术语特征样本库，同时包含正例样本库和负例样本库；所述第二术语筛选模块，采用有监督学习算法为随机森林算法；所述启发式推荐模块，识别上、下文相关的术语，包括内部结构相似度和外部相似度，所述内部结构相似度采用编辑距离衡量，所述外部相似度采用候选串上、下文的特征向量的余弦夹角计算。

如图1所示，本发吗的用于电力95598工单的领域术语识别方法，包括以下步骤，

步骤(A)，用于从电力95598工单系统中获取电力95598工单文本；

步骤(E)，用于判断术语特征样本库是否为空，若为空，则采用评分公式计算候选串的成词评分，将成词评分大于预设阈值T1的结果作为候选新词集合；若不为空，且采用有监督学习算法，算法为随机森林算法，根据候选串的特征选取候选术语；

步骤(G)，根据标注的正确术语，识别上、下文相关的术语，作为该正确术语的变体提供给用户确认，所述识别上、下文相关的术语包括内部结构相似度和外部相似度，所述内部结构相似度采用编辑距离衡量，所述外部相似度采用候选串上、下文的特征向量的余弦夹角计算。

下面根据本发明的用于电力95598工单的领域术语识别系统及方法，介绍一具体实施例，如图2所示，用于术语识别系统的文本是涉及特定领域的，并且有待处理术语出现的文本。本发明中″待分析分本″是用户提供的，用于提取领域术语的领域相关文本，以电力服务95598热线工单为例，工单中″受理内容″和″处理内容″字段均为相关人员填写的文本，下文称为待分析文本。

文本获取模块用于从电力95598工单系统采样获取工单文本，系统会根据预定的采样规则选取工单文本，本系统的待分析文本通过文本获取模块获取，可选的的采样规则为：选取文本长度大于10的文本；选取所有可供访问的工单文本其中的一种，文本获取模块获取的待分析文本送入文本预处理模块，文本预处理模块按照以下的步骤对文本进行处理：

步骤201，对分析文本进行分句处理，得到分句文本。

分句处理是按照句尾标点划分句子，如在句号、逗号、感叹号等标点处分句。

步骤202，依照背景语料库包含的词语，采用中文分词方法对分句文本进行分词处理，得到分词处理后文本。

其中，本步骤中″分词处理后文本″是待分析文本分词处理后生成的分词单位串的集合。待分析文本中每个句子经过分词处理后变为一个分词单位串。

本发明实施例中″分词单位″指文本字符串经过分词处理后得到的一系列短字符串，每个短字符串都是分词装置所认为的词语。为了与本发明中″词″的概念作区分，称为分词单位。

中文分词算法可以采用任何有词典的方法，如逆向最大匹配法、最大概率法，N元语法等方法中的一种或者多种。但是要求所使用的词典来源于背景语料库，以保证所有切分出的分词单位都是基本词语。具体实施时，可采用 Jieba分词(对应最大概率法)、ICTCLAS分词(对应N元语法)或MMSeg分词(对应逆向最大匹配法)，并采用背景语料的词典作为分词词典。

较优地，在具体实施时，经过分词处理后，为了进一步提升分词识别的效果，可以进行以下后处理操作：

步骤203，将分词处理后文本中连续的英文字母、数字、下划线或连字符中的任意两种及以上的连续分词单位串合并为一个分词单位。例如：连续的分词单位串为″E/R/R/-/04/″，则将E/R/R/-/04/合并为一个分词单位：″ERR-04″。

将分词处理后文本中含有中文数字时间的连续分词单位串合并为一个分词单位，并标注类型。例如连续的分词单位串为″六/月″，合并为一个分词单位：＂六月＂。

文本预处理模块产生的分词结果输入到候选串抽取模块，候选串抽取模块负责根据特定规则抽取候选串及候选串上下文，对应图2中的步骤204。

本发明分词处理后文本中″分词碎片″指在分词过程中，由于不能正确识别新词而将新词当作字符串，按词典切分后形成的分词单位序列。长度为1的分词碎片称为单字分词碎片。新词不存在于分词工具的词典中。因此在分词处理过后会变为分词碎片。本方法认为经过分词处理后新词不会以完整的形式存在，并至少会出现1个单字分词碎片。如″客户为负控购电用户，″经过分词处理后。″客户/为/负/控/购/电/用户/，/″，其中产生了单字分词碎片″负″″控″″购″″电″，本步骤提取所得的字串称为候选串。其中包含了候选术语；除术语外的候选串称为垃圾串。候选串是一个分词单位串，由连续的分词单位组成。若对所有相邻词语组合进行筛选，则计算量过于庞大，因此需要对可能的词语组合进行筛选。根据汉语的规律和本方法的适应性，候选串需要同时满足以下要求：

条件204-1：候选串为经过步骤202处理后的，以汉字为开始或结束的连续分词单位串；或者为经过步骤202处理后的由英文字母、数字、连字符中任意两种或两种以上组成的连续分词单位串。在电力服务领域，术语的长度一般不超过6，因此更进一步地，在本实施例中，候选串长度不超过6。

条件204-2：若候选串含有单字分词碎片，则候选串为经过步骤202处理后长度为2-4个分词单位且含有至少一个长度为1的分词单位的包含汉字的连续分词单位串。否则，候选串长度为2-3个分词单位，且最后一个词为名词或动词。

条件204-3：候选串不含有停用词和标点符号，一般地，可以认为停用词、数字、字母和标点符号是中文词语之间断开的自然标记。如果扩展的过程中遇到停用词、数字、字母或者标点符号则停止，停用词可以包括以下几种：

1、常用助词，包括结构助词、时态助词和语气助词，结构助词如″的、地、得、所″，时态助词如″着、了、过″，语气助词如″呢、吗、吧、啊″。

2、介词，用在名词、代词、或名词性词组的前边，合起来表示方向、对象的词，如从、自、往、朝、在、当(方向、处所或时间)，把、对、同、为 (对象或目的)，以、按照(方式)以、跟、同(比较)，被、叫、让(被动)；

3、多字助动词，如：能够、可以、应该、应当；

4、疑问代词，如：什么、为什么、如何、怎么；

5、含有数字的时间词，如：一月、二月、一小时、十分钟；

6、以及其他在实践中认为有必要加入的停用词。

停用词可以由用户设置，方法开始时从外部数据源读入，在提取候选串时，需要同时提取候选串的上下文。候选串的上下文包含句子中前、后2个分词单位，例如″客户/为/负/控/购/电/用户/，/″，可以提取出如下候选串，

在抽取候选串时，候选串抽取模块需要同时抽取候选串的上下文。较忧地，在本实施例中，上下文词语窗口宽度定为2，即候选串的上下文包含候选串在句子中的前2个词和后2个词，若候选串上下文不足2个词，则采用特殊符号补足。

候选串抽取模块输出的候选串输入到内部统计分析模块，内部统计分析模块用于统计各个候选串的内部信息，包括候选串的频率、内聚程度，使用自由程度三个值；同时，负责生成各个候选串上下文的特征向量，对应图2中的步骤205-207。

内聚程度用以表示该候选串是更倾向于以一个整体出现，亦或者它们共同出现只是随机组合的结果。使用自由程度表示一个字串是否能和其他不同的词语在句子中组合出现，内聚程度采用改进的互信息公式互信息作为计算方法，分词单位x，y的改进的互信息C-PMI(x，y)计算公式为：

其中，P(x)为分词单位x的出现概率，P(y)为分词单位y的出现概率， P(x，y)为x，y共同出现的概率，Count(x，y)为分词单位x、y在文本中出现的频次；

分词单位s₁ s₂…s_is_i+1…s_n组成的候选串S的内聚程度为该字串各种划分 (s₁s₂…s_i，s_i+1…s_n，0≤i＜n)中，改进的互信息的最小值，计算方法为：

例如含有三个分词单位的候选串S’＝″负/控/购/″，存在两种划分，分别为：(″负″，″控购″)、(″负控″，″购″)。则S’的内聚程度C- PMI(″负/控/购/″)为C-PMI(″负/″，″控/购/″)与C-PMI(″负控″，″购″)的最小值。

使用自由程度分别采用最小左右邻词边界熵和归一化的邻接变化数计算，最小左右邻词边界熵MinBE(S)为

MinBE(S)＝min(LBE(S)，RBE(S))

其中，LBE(S)为候选串S的左邻词边界熵，RBE(S)为候选串S的右邻词边界熵，其中候选串S的左邻词边界熵LBE(S)定义为：

其中，V为待分析文本中的词语集合，x是在训练文本中出现在候选串S 左侧的词语。同理可以定义右邻词边界熵RBE(S)

候选串S的归一化的邻接变化数NAV(S)计算方式为，

其中，LAV(S)是候选串S的左邻接变化数，定义为候选串S的不同前驱字符的数目，加上候选串S在句首出现的次数；RAV(S)为候选串S的右邻接变化数，定义为候选串S的不同后继字符的数目，加上候选串S在句尾出现的次数， Count(S)为候选串S出现的次数。

以字符串″客户为负控购电用户。″中产生的部分候选串为例，在待分析文本中，候选串″负/控/购/电/″出现了20次，″控/购/″出现了20次，″负/控/购/″出现了20次，″控/购/电/″出现了20次。同时在待分析文本中，候选串″控/购/″的左边只出现了″负″字，右边只出现了″电″字，因此NAV(″控购″)为0.05；候选串″负/控/购/″的左边出现了11种不同的分词片段，右边只出现了″电″字，因此NAV(″负控购″)为0.05；候选串″控/购/电″的左边只出现了″负″字，右边出现了15种不同的分词片段。 NAV(″控购电″)为0.05；候选串″负/控/购/电/″左边出现了11种不同的分词片段，右边出现了15种不同的分词片段。NAV(″负控购电″)为 6.05。

相比传统的方法采用的左邻字熵和右邻字熵的方法，邻接变化数可以更加准确地判断可以独立运用的词语，候选串S的上下文特征向量用稀疏方式表示：其中上下文空间每个词语作为一个维度，上下文词语w所在维度的取值采用正点互信息PMI(S，w)表示，计算公式为：

其中，P(S)为候选串S出现的概率，P(w)为词w出现的概率，P(S，w)为w出现在候选串S上，下文中的概率。对于上下文统计结果。系统分别生成上文向量和下文向量，为每个候选串S输出四个数值——频率、C-PMI(S)、MinBE(S)、 NAV(S)，以及两个特征向量。

领域特征分析模块通过统计候选串的领域相关度，判断一个候选串是否具有所在领域的典型性，对应图2中的步骤208。

候选串S的领域相关度F(S)采用如下的公式计算。

公式中P_F(S)表示S在领域语料库中出现的概率，P_BC(S)表示S在背景语料库中的中出现的概率，该公式是一个经验公式。当候选串的所含的分词单位数量大于3时，候选串S在在背景语料中出现的概率P_BC(S)可以通过n元语言模型估算。估算采用的方法为带有插值的概率，采用的公式如下：

其中，P(s_i)为分词单位s_i出现的概率，P(s_i-n+1…s_i-1)为s_i的前n-1个分词单位出现的概率。n为n元语言模型的阶数，本方法中取2，λ为加权参数，0<λ<1，l为候选串S的长度，实验表明，背景语料中λ取0.95可得到较优的结果。

另外，本步骤中的背景语料为经过分词处理并通过人工校对的，并与训练待分析文本领域不同的语料。领域术语在其中很少出现甚至不出现，在本实施例中，背景语料库使用国家语委现代汉语平衡语料库。

如图2所示，步骤210中，将每个候选串经由内部统计分析模块得到的特征和经由领域特征分析模块获得的特征合并为统一的特征向量，该特征向量将作为候选串的特征，用于第一术语筛选模块、第二术语筛选模块和术语特征样本库。

第一术语筛选模块用于综合统计内部统计分析模块(和领域特征分析模块获得的特征筛选新词，对应图2中的步骤212，

第一术语筛选模块采用评分公式计算候选串的成词评分，将成词评分大于预设阈值T1的结果作为候选新词集合，采用如下的公式计算得分：

其中，C-PMI(S)是候选串S的内聚程度，MInBE(S)是串S的最小左右邻词熵，NAV(S)是候选串S的归一邻接变化数，F(S)为S的领域相关度。μ为经验参数，取值范围0-1，T1的取值范围在2.4～4.8。在具体实施中，μ取值为0.6 可取的较优的结果。

得分阈值大于T1的候选串称为候选新词，候选新词集合中包含每个候选新词的词形，包含的分词单位串，以及候选新词的在内部统计分析模块和领域特征分析模块中得到的特征数据，

人工审核模块是一个交互处理模块，以第一术语筛选模块和第二术语筛选模块输出的结果为输入，通过电力领域专家操作本模块，对候选术语进行人工审核，将结果保存在术语特征样本库中，对应图2中步骤213。在步骤213中无论专家认定一个词是否为术语，候选串及标记都会保存到术语特征样本库中，人工审核模块中，屏幕显示候选术语和候选术语的上下文信息，专家通过点选，确定候选术语是否为电力领域的术语。在本实施例中，候选术语分为多页。专家每次操作一页，通过点选选取一个或多个确认的术语，完成术语和垃圾串的判断。点击保存按钮后结果生效，会为每个候选术语添加一个标签。如果该候选术语经专家判断为术语。则将该术语和对应的特征加入术语特征样本库的正例列表，否则为垃圾串，加入术语特征样本库的反例列表。

在图2中步骤211中，会判断术语特征样本库是否满足第二术语筛选模块启用的条件，当不满足第二术语筛选模块启用的条件的时候，仅仅使用第一术语筛选模块，否则综合第一术语筛选模块和第二术语筛选模块的结果。

第二术语筛选模块基于内部统计分析模块和领域特征分析模块的特征，采用的方法为有监督机器学习算法，在术语特征样本库满足第二术语筛选模块启用的条件时才会使用，对应图2中的步骤214。在本实施例中，采用随机森林方法作为术语识别方法，第二术语筛选模块启用的条件为术语特征样本库中必须存在100条术语特征数据，且正例列表和负例列表均不少于20条，根据电力领域专家过往对候选串的评价训练分类模型。采用分类模型评判一个词语是否为领域术语。本模块输出的结果为候选新词列表，输入到人工审核模块中。

根据电力领域专家对候选术语标注的结果，启发式推荐模块对未被分析的候选串进行启发式分析，尝试寻找术语变体，根据生成的上下文特征向量和候选串内部结构启发式地寻找术语，其中内部结构相似度采用编辑距离衡量，外部相似度采用上下文特征向量的余弦夹角计算。在本实施例中，启发式推荐模块推荐编辑距离不大于2，且上下文向量相似度大于0.2的候选串，作为当前候选串的术语变体。

综上所述，本发明的用于电力95598工单的领域术语识别系统及方法，分别采用评分公式和分类算法筛选术语，通过将电力领域专家审核术语的过程作为术语标注的过程集成到系统中，能有效提高后续使用中领域术语识别的精确程度。同时，系引入的启发式模块可以减少人工审核术语的工作量并发现术语的变体，保证于电力95598工单的领域术语识别效率和准确性，具有良好的应用前景。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种用于电力95598工单的领域术语识别系统，其特征在于：包括

内部统计分析模块，生成各个候选串上、下文的特征向量；

人工审核模块，用户标注候选术语是否为正确术语；

术语特征样本库，用于保存候选术语和垃圾串的相关特征；

2.根据权利要求1所述的用于电力95598工单的领域术语识别系统，其特征在于：所述候选串抽取模块，根据术语钩词规则抽取候选串及候选串上、下文，所述术语钩词规则，具体如下，

(3)候选串不含有停用词和标点符号；

(4)候选串上、下文包含候选串在句子中的前后2个词。

3.根据权利要求1所述的用于电力95598工单的领域术语识别系统，其特征在于：所述内部统计分析模块，生成各个候选串上、下文的特征向量，该特征向量包含候选串的频率，候选串的内聚程度，候选串的使用自由程度，候选串第一个分词单位，候选串最后一个分词单位，

候选串的内聚程度采用候选串各种划分间改进互信息C-PMI的最小值，具体为，分词单位s1、s2、...、si、si+1、...、sn组成的候选串S，其的内聚程度计算公式为：

其中C-PMI(S)是候选串S的内聚程度，P(S)为候选串S出现在待分析文本中的概率；s0、s1、...、si、si+1、...、sn为候选串S的一种划分；P(s0s1...si)为字串s0、s1、...、si出现在待分析文本中的概率，n为候选串S划分字串的数量；

其中，MinBE(S)是候选串S的最小左右邻词边界熵，V为待分析文本中的词语集合，x是在训练文本中出现在候选串S左侧(或右侧)的词语，p(xS|S)为候选串S出现时，词语x出现在候选串S左侧的条件概率，p(Sx|S)为候选串S出现时词语，x出现在候选串S右侧的条件概率；

候选串S的归一化的邻接变化数计算方式为，

其中，P(S)为候选串S出现的概率，P(w)为词w出现的概率，PMI(S，w)为w出现在候选串S上、下文中的概率。

4.根据权利要求1所述的用于电力95598工单的领域术语识别系统，其特征在于：所述领域特征分析模块，根据背景语料库，计算各个候选串中各个术语部件的领域相关度F(S)，采用如下的公式计算，

5.根据权利要求1所述的用于电力95598工单的领域术语识别系统，其特征在于：所述第一术语筛选模块，采用的评分公式为：

6.根据权利要求1所述的用于电力95598工单的领域术语识别系统，其特征在于：所述人工审核模块中用户为领域专家；所述术语特征样本库，同时包含正例样本库和负例样本库；所述第二术语筛选模块，采用有监督学习算法为随机森林算法；所述启发式推荐模块，识别上、下文相关的术语，包括内部结构相似度和外部相似度，所述内部结构相似度采用编辑距离衡量，所述外部相似度采用候选串上、下文的特征向量的余弦夹角计算。

7.一种用于电力95598工单的领域术语识别方法，其特征在于：包括以下步骤，

步骤(A)，用于从电力95598工单系统中获取电力95598工单文本；

8.根据权利要求7所述的用于电力95598工单的领域术语识别方法，其特征在于：步骤(E)，采用有监督学习算法为随机森林算法。

9.根据权利要求7所述的用于电力95598工单的领域术语识别方法，其特征在于：步骤(G)，所述识别上、下文相关的术语包括内部结构相似度和外部相似度，所述内部结构相似度采用编辑距离衡量，所述外部相似度采用候选串上、下文的特征向量的余弦夹角计算。