CN106095753A

CN106095753A - 一种基于信息熵和术语可信度的金融领域术语识别方法

Info

Publication number: CN106095753A
Application number: CN201610404892.0A
Authority: CN
Inventors: 黄德根; 梁晨
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2016-06-07
Filing date: 2016-06-07
Publication date: 2016-11-09
Anticipated expiration: 2036-06-07
Also published as: CN106095753B

Abstract

本发明提出了一种基于信息熵和术语可信度的金融领域术语识别方法。本发明仅选择简单的特征，用CRF模型识别金融术语；在识别结果中根据基于边缘概率的信息熵公式，通过设定阈值筛选出属于特定错误类型的候选术语，对候选术语的处理更有针对性；过滤候选术语时将词转换为蕴含丰富语义信息的词向量，通过计算相似度与传统的互信息方法互为补充，可过滤得到大量的金融领域术语。利用本发明能有效避免现有机器学习模型过于繁琐的特征选择过程，后处理部分灵活而不局限于特定语料，不但有利于提高召回率，还能够提高术语结构的完整性，可作为通用的术语识别方法。

Description

一种基于信息熵和术语可信度的金融领域术语识别方法

技术领域

本发明涉及自然语言领域处理、文本挖掘、信息处理及命名实体识别等领域，专注于术语识别的问题，提出一种基于信息熵和术语可信度的金融领域术语识别方法。该方法有效地提高了召回率和术语结构的完整性，可作为通用的术语识别方法。

背景技术

随着市场经济的深入发展，金融在社会生活中的地位日益突出，金融已然成为经济运行最重要的战略资源和区域经济发展的强力助推器。金融领域相比于其他领域术语更替速度更快，快速识别金融术语对金融领域的文本挖掘、信息抽取、舆情分析等任务有很高的应用价值。

术语是表达特定领域学科的基本概念的语言单元，是相对固定的词或词组。术语具有相对完整的结构和语义。术语识别是命名实体研究的一个子领域，是信息处理领域的基础研究任务之一，国内外许多研究学者都对领域术语识别进行了深入研究。主要的方法有三类：基于语言学规则的方法、基于统计的方法和统计与规则相结合的方法。

基于语言学规则的方法主要是根据现有的语言学知识和特定领域的术语构词特点制定规则模板，与之匹配的即为术语，这种方法便于理解且计算量少，可以获得较高的准确率，但过于局限于特定文本导致领域适应性差，近年来很少单独使用。

基于统计的方法通常是通过计算词组在文本中的分布统计属性来度量其领域性，根据统计量的组合变化完成术语抽取，常用的统计量有词频、信息熵、TF-IDF、互信息、对数似然比，C-value等。基于统计的方法的优点是可移植性强，不局限于某一领域，但由于这种方法大多是无监督的学习方法，所以抽取的精度不高。另外，这种方法需要大规模且高质量的语料库作支撑，语料规模过小或数据过于稀疏不足以获取高可信度的统计信息。

现在主流的方法是将统计与规则相结合，互相弥补不足，效果较好。这种方法一般将术语识别任务分为两个步骤：利用统计模型(或规则库)的方法从领域语料中获取候选术语；利用另一种方法过滤候选术语。常用的机器学习模型有隐马尔科夫模型、最大熵模型、条件随机场模型和神经网络模型等。这类模型将术语识别问题转化为序列标注问题，通常需要人工添加特征来拟合训练数据，而这些特征的选取和组合耗时耗力，过多特征还会使模型复杂度变高，导致过拟合现象。目前，采用这种方法的研究者们多数的重点都在对统计模型的运用上，后处理的规则选取不灵活，规则库多局限于领域语料，不具有通用性，因此如何减少人工干预并设计出具有通用性的规则库是目前术语识别亟待解决的问题。

发明内容

鉴于上述问题，本发明提出了一种基于信息熵和术语可信度的金融领域术语识别方法。该方法有两个优点：一是通过融合边缘概率与信息熵的筛选，获取了大量潜在的属于特定错误类型的候选术语，对候选术语的处理更有针对性；二是引入了基于词向量的相似度过滤候选术语，与传统的互信息方法互为补充，有利于提高召回率，并提高术语结构的完整性。

本发明的技术方案：

一种基于信息熵和术语可信度的金融领域术语识别方法，步骤如下：

(1)首先使用CRF模型初步识别出金融语料中的金融领域术语，选取的特征如下：

1)词和词性：由金融领域术语的特点可知，词和词性包含了术语本身的最大信息。

2)点式互信息：表示两个词的关联程度，是增加术语上下文信息的一种方式。pmi_f和pmi_r分别为当前词与左词、右词的点式互信息，其中w_i代表当前词，w_i-1代表w_i的左词，w_i+1代表w_i的右词。为降低数据稀疏，对计算得到的浮点数取整处理。

{pmi}_{f} (w_{i - 1}, w_{i}) = \log_{2} \frac{p (w_{i - 1}, w_{i})}{p (w_{i - 1}) \times p (w_{i})} - - - (1)

{pmi}_{r} (w_{i}, w_{i + 1}) = \log_{2} \frac{p (w_{i}, w_{i + 1})}{p (w_{i}) \times p (w_{i + 1})} - - - (2)

(2)采用基于信息熵的术语可信度模型处理CRF的识别结果

1)根据识别结果中标签的边缘概率求信息熵，筛选出候选术语。

为方便查看序列标注的结果，采用BIO标记方法，即B为术语的首词，I为术语的中间和尾部，O为非术语。通过分析CRF的标注结果，得出6类术语标注错误：尾部缺失(术语尾部未识别)、尾部多余(术语尾部冗余)、头部缺失(术语头部未识别)、头部多余(术语头部未冗余)、整体缺失(术语整体未识别)和整体多余(术语整体冗余)。

在CRF的识别结果中，每个词均有为B、I、O三种标记以其对应的边缘概率，CRF将概率最大的标记作为最终的标注结果。如果某个词的边缘概率不具有明显的区分性，即该词的标记具有很大的不确定性，那么该词极有可能被错误标注。为了定量地观察这种标记的不确定性，提出了token标记信息熵。

某一个词W有3种可能的标记T₁＝B，T₂＝I，T₃＝O，对应的边缘概率为P_B，P_I，P_O，且P_B+P_I+P_O＝1，W的token标记信息熵为H(W)，如式(3)所示：

H (W) = \underset{i = B, I, O}{Σ} (- p_{i} \log_{2} p_{i}) - - - (3)

由信息熵原理可知，H(W)越大，则这个标记的不确定性越大。当H(W)≥α时，即认为这个词的标记是不确定的，应该作为候选术语进一步判断。其中α是H(W)的阈值，针对不确定的强度，分别有α₁、α₂、α₃三个阈值，α₁＝0.92，α₂＝0.6，α₃＝0.5。

下面介绍token标记信息熵筛选算法(筛选“整体缺失”型的候选术语)：

2)根据基于互信息和词向量相似度的术语可信度对候选术语进行过滤。

上述由token标记信息熵得到的候选术语集合中包含了一部分噪音(即本来标注正确的序列被列入待处理的候选术语集合)，进一步过滤噪音是必要的，本发明利用术语可信度过滤候选术语。首先介绍术语可信度，根据候选术语词长的不同，分为以下两种情况：

ⅰ.当词长≥2时，设有候选术语片段A₁A₂，统计训练语料中以A₁开始的术语片段A₁C_i(i＝1,2,3…)、以A₂结尾的术语片段B_jA₂(j＝1,2,3…)，若A₁A₂满足以下任一条件，则称A₁A₂具有术语可信度。

①反向术语度：

②正向术语度：

③术语相似度：

其中pmi是求两个词的点式互信息，具体公式参考式(1)或(2)；avg是求数据集合的平均值；max是求数据集合的最大值；cos是求两个词所对应的词向量的余弦距离，它反应了两个词的相似程度，余弦距离公式见式(4)(X，Y是单位化向量)：

c o s (X, Y) = Σ_{i = 1}^{n} X_{i} Y_{i} - - - (4)

上述条件①和②分别从反向和正向计算术语词对之间的关联程度，判断是否大于或等于已知术语搭配的互信息平均值；而条件③则将词转换为词向量，具体考察了候选词与已知搭配词的相似度是否大于或等于已知搭配词之间的整体相似度。

ⅱ.当词长＝1时，设有候选术语A，统计训练语料中词长为1的术语D_k(k＝1,2,3…)，如果满足式(5)，则认为A具有术语可信度，其中β为阈值。

\underset{k = 1, 2, ...}{m a x} {c o s (A, D_{k})} &GreaterEqual; β - - - (5)

下面介绍基于术语可信度的候选术语过滤算法：

本发明的有益效果：本发明的金融领域术语识别方法能有效避免现有机器学习模型过于繁琐的特征选择过程，后处理部分灵活而不局限于特定语料，不但有利于提高召回率，还能够提高术语结构的完整性，可作为通用的术语识别方法。

附图说明

图1是金融领域术语的识别过程。

图2是阈值折线图。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

1.选取CRF模型对金融语料进行序列标注，本发明选用的2014-2016年的1600篇新浪财经新闻，共有2百余万字，共提取到67152个金融术语(含重复)，将这些语料以4:1进行训练和测试，采用五倍交叉实验的方法，使用分词工具Nihao进行分词和词性标注。词向量的训练工具是word2vec，选用Skip-Gram模型，训练语料为2014-2016年各大门户网站的财经新闻和金融报刊文本，共计8百余万词，令向量维度为100，词窗口大小为5。

2.通过分析CRF的标注结果，得出6类术语标注错误，下面举例说明：

3.针对术语可信度的条件“术语相似度”，对条件右侧的计算函数进行了探索，分别测试了取中位数(mid)、平均数(avg)和最大值(max)的不同情况，有关术语可信度3个条件的实验结果见下表，采取的评价指标有准确率、召回率和F值。

Claims

1.一种基于信息熵和术语可信度的金融领域术语识别方法，其特征在于，步骤如下：

(1)使用CRF模型初步识别出金融语料中的金融领域术语，选取的特征如下：

1)词和词性；

2)点式互信息：表示两个词的关联程度，pmi_f和pmi_r分别为当前词与前一词、后一词的点式互信息，其中，w_i代表当前词，w_i-1代表w_i的前一词，w_i+1代表w_i的后一词；为降低数据稀疏，对得到的浮点数取整；

{pmi}_{f} (w_{i - 1}, w_{i}) = \log_{2} \frac{p (w_{i - 1}, w_{i})}{p (w_{i - 1}) \times p (w_{i})} - - - (1)

{pmi}_{r} (w_{i}, w_{i + 1}) = \log_{2} \frac{p (w_{i}, w_{i + 1})}{p (w_{i}) \times p (w_{i + 1})} - - - (2)

(2)采用基于信息熵的术语可信度模型处理CRF的识别结果

1)根据识别结果中标签的边缘概率求信息熵，筛选出候选术语

采用BIO标记方法对步骤(1)识别结果进行标记，即B为术语的首词，I为术语的中间和尾部，O为非术语；将CRF识别结果分为6类术语标注错误：尾部缺失即术语尾部未识别、尾部多余即术语尾部冗余、头部缺失即术语头部未识别、头部多余即术语头部未冗余、整体缺失即术语整体未识别和整体多余即术语整体冗余；

在CRF识别结果中，每个词均有为B、I、O三种标记以其对应的边缘概率，CRF将概率最大的标记作为最终的标注结果；如果某个词的边缘概率不具有明显的区分性，即该词的标记具有很大的不确定性，那么该词极有可能被标注错误；通过token标记信息熵定量观察标记的不确定性；

H (W) = \underset{i = B, I, O}{Σ} (- p_{i} \log_{2} p_{i}) - - - (3)

由信息熵原理可知，H(W)越大，则这个标记的不确定性越大；当H(W)≥α时，即该词的标记是不确定的，作为候选术语进一步判断；其中α是H(W)的阈值，针对不确定的强度，分别有α₁、α₂、α₃三个阈值，α₁＝0.92，α₂＝0.6，α₃＝0.5；

token标记信息熵筛选算法，筛选“整体缺失”型的候选术语：

输入：CRF识别结果；

输出：候选术语集合；

wordList：CRF识别结果的词表，包含特征、标记和边缘概率信息；

secMaxP：第二大边缘概率；

termStart:候选术语的开始位置；

termEnd:候选术语的结束位置；

L1：将CRF识别结果存入wordList中；

L2：如果当前词wordList[i]的标记不为‘O’，则当前词不属于“整体缺失”型，退出返回；

L3：如果当前词wordList[i]的标记为‘O’，满足条件⑴:H(wordList[i])≥α₁且wordlist[i]的secMaxP是‘B’，记录此位置为termStart；

L4：如果下一个词wordList[++i]的标记为‘O’，满足条件⑵：H(wordList[i])≥α₂且wordlist[i]的secMaxP是‘I’，重复步骤L4；若该词标记不为‘O’，就跳到L5；若不满足条件⑵，就记录此位置为termEnd，跳到L6；

L5：当前词的标记不为‘O’，若满足条件⑶:H(wordList[i])＜min{α₁，α₂，α₃}，记录此位置为termEnd，跳到L6；

L6：提取wordlist中下标[term_start，term_end]内的候选术语，放入候选术语集合中；

2)根据基于互信息和词向量相似度的术语可信度对候选术语进行过滤；

根据候选术语词长的不同，过滤由token标记信息熵得到的候选术语集合，分为以下两种情况：

ⅰ.当词长≥2时，设有候选术语片段A₁A₂，统计训练语料中以A₁开始的术语片段A₁C_i，i＝1,2,3…，以A₂结尾的术语片段B_jA₂，j＝1,2,3…，若A₁A₂满足以下任一条件，则称A₁A₂具有术语可信度；

①反向术语度：

②正向术语度：

③术语相似度：

其中，pmi是求两个词的点式互信息，具体公式参考式(1)或(2)；avg是求数据集合的平均值；max是求数据集合的最大值；cos是求两个词所对应的词向量的余弦距离，反应了两个词的相似程度；X，Y是单位化向量；余弦距离公式见式(4)：

c o s (X, Y) = Σ_{i = 1}^{n} X_{i} Y_{i} - - - (4)

上述条件①和②分别从反向和正向计算术语词对之间的关联程度，判断是否大于或等于已知术语搭配的互信息平均值；而条件③则将词转换为词向量，考察了候选词与已知搭配词的相似度是否大于或等于已知搭配词之间的整体相似度；

ⅱ.当词长＝1时，设有候选术语A，统计训练语料中词长为1的术语D_k，k＝1,2,3…，如果满足式(5)，则认为候选术语A具有术语可信度，其中β为阈值；

\underset{k = 1, 2, ...}{m a x} {c o s (A, D_{k})} &GreaterEqual; β - - - (5)

基于术语可信度的候选术语过滤方法：

输入：候选术语集合；

输出：修正后的序列标注文件；

L1：判断候选术语所属错误类型，若它属于“头部缺失”的类型跳到L2，“尾部缺失”的类型跳到L3，“整体缺失”的类型跳到L4，“头部多余”的类型跳到L5，“尾部多余”的类型跳到L6，“整体多余”的类型跳到L7；

L2：如果候选术语A₁A₂…A_n的缺失部分为A₁A₂…A_i，1≤i≤n-1，若A₁A₂…A_i+1中每两个相邻词对A_jA_j+1，1≤j≤i，都具有术语可信度，则跳到L8；

L3：如果候选术语A₁A₂…A_n的缺失部分为A_iA_i+1…A_n，1＜i≤n，若A_i-1A_i…A_n中每两个相邻词对A_jA_j+1，i-1≤j≤n-1，都具有术语可信度，则跳到L8；

L4：如果候选术语词长为1，仅当该词具有术语可信度时跳到L8；否则为A₁A₂…A_n，若每两个相邻词对A_jA_j+1，1≤j≤n-1，都具有术语可信度，则跳到L8；

L5：如果候选术语A₁A₂…A_n的多余部分为A₁A₂…A_i，1≤i≤n-1，若A_iA_i+1不具有术语可信度，则将多余子串A₁A₂…A_i输入到L7；

L6：如果候选术语为A₁A₂…A_n的多余部分为A_iA_i+1…A_n，1＜i≤n，若A_i-1A_i不具有术语可信度，则将多余子串A_iA_i+1…A_n输入到L7；

L7：如果候选术语词长为1，仅当该词不具有术语可信度时跳到L8；否则候选术语为A₁A₂…A_n，若每两个相邻词对A_jA_j+1，1≤j≤n-1，都不具有术语可信度，再分别判断每个词是否具有术语可信度，跳到L8；

L8：修正候选术语，填补缺失的词或删去多余的词，写入序列标注文件。