CN109086274A

CN109086274A - 基于约束模型的英文社交媒体短文本时间表达式识别方法

Info

Publication number: CN109086274A
Application number: CN201810964873.2A
Authority: CN
Inventors: 费高雷; 亓克娜; 胡光岷
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-08-23
Filing date: 2018-08-23
Publication date: 2018-12-25
Anticipated expiration: 2038-08-23
Also published as: CN109086274B

Abstract

本发明提供了一种基于约束模型的英文社交媒体短文本时间表达式识别方法，属于文本时间信息提取领域。本发明针对现有识别方法的特征对于时间表达式没有针对性，且数量较少的问题，从词结构、语法结构、组合特征3个方面构建了特征集合，使得机器学习模型对于时间表达式的精度大大提高；本发明针对条件随机场在求解过程中共用转移特征，导致对时间表达式的边界识别不准确的问题，在求解过程中利用提取的当前位置的特征集合对当前位置的转移特征进行修正，提出采用约束条件随机场的方法进行求解，从而提高了识别出的时间表达式的准确率，使得对时间表达式的边界识别更准确。

Description

基于约束模型的英文社交媒体短文本时间表达式识别方法

技术领域

本发明属于文本时间信息提取领域，特别涉及一种基于约束模型的英文社交媒体短文本时间表达式识别方法。

背景技术

随着互联网与智能移动终端的飞速发展，社交媒体这一新兴产物也同时快速发展起来，越来越多的人习惯于在社交媒体上发布各种文本信息，而文本中的时间信息是非常重要的一部分，文本中的时间信息也常常被称为时间表达式。时间表达式能够表示人们发送文本内容与时间的关系，从而可以判断人们发送的文本内容的时效性，在事件检测，自动问答，信息提取等方面的应用有着非常重要的作用。如何从社交媒体短文本中提取出时间表达式也成为研究的热点与难点。

时间表达式的识别也是属于命名实体识别的一部分，所以命名实体识别技术是识别时间表达式的重要手段。主要方法为基于规则以及基于统计的方法，由于基于规则的方法实现成本高，缺乏适应性，所以现在主要的方法都是基于统计的方法，即运用机器学习方法提取实体。但是首先，传统的命名实体方法针对的类别很多，包括人名，组织名，地名等，为了满足识别多种实体的需要，其特征提取具有一定的普遍性，并没有针对时间表达式的特征，导致其对时间表达式的识别效果不佳。其次，传统命名实体识别方法大多针对正规文本，但实际网络文本是由用户随意产生，文本长度一般较短，大多都属于非正规的文本，其噪音较大且结构模式不规范，导致传统的命名实体方法识别网络文本的实体时效果较差。

发明内容

为了解决上述问题，本发明提出了一种基于约束模型的英文社交媒体短文本时间表达式识别方法，首先针对现有识别方法的特征对于时间表达式没有针对性，且数量较少的问题，从词结构、语法结构、组合特征3个方面构建了特征集合，其次针对传统条件随机场由于现有语料库标注以及转移特征共用导致对时间表达式的边界识别超出问题，采用有约束的条件随机场的标注模型进行识别，提升了时间表达式的识别效果。

一种基于约束模型的英文社交媒体短文本时间表达式识别方法，包括以下步骤：

S1，输入预处理后的短文本；

S2，针对性构造特征集；

S3，训练条件随机场模型；

S4，训练约束模型并进行分类；

S5，输出时间实体识别结果。

进一步地，所述S1中预处理后的短文本为分词，词性识别之后的英文社交媒体短文本词序列。

进一步地，所述S2中构造的特征集中新增的特征包括：

数字特征；介词特征；修饰词特征；增强介词与修饰词特征比重；时间表达式触发词特征；增加触发词特征比重；时间表达式后缀词特征；词的形状特征；组合特征。

进一步地，所述S3包括以下流程：

设定X＝(X₁,X₂,...,X_n)，Y＝(Y₁,Y₂,...Y_n)均为线性链表示的随机变量序列，给定X的条件下，Y的条件分布P(Y|X)构成的条件随机场如下，满足马尔科夫性

P(Y_i|X,Y₁,...,Y_i-1,Y_i+1,...,Y_n)＝P(Y_i|X,Y_i-1,Y_i+1)

其中，i＝1,2,...,n；P(Y|X)为线性链条件随机场，在X＝x的条件下，Y＝y的条件概率为

其中，Z(x)为归一化因子，t_k(y_i-1,y_i,x,i)表示为在观察序列的两个相邻标记位置上的转移特征函数，λ_k为其对应特征权重，s_l(y_i,x,i)为定义在观察序列的标记位置i上的状态特征函数，μ_l为对应的特征权重；在条件随机场中求解最大的条件概率模型，即

通过训练预料和特征模板对条件随机场进行训练，得到训练好的条件随机场的模型、各特征的权重，其中，特征包括转移特征和状态特征。

进一步地，所述S4包括以下流程：

构造的约束条件随机场标注模型如下，P(Y|X)为线性链条件随机场，给定X的条件下，Y的条件概率如下

其中，ω_k为对应的特征权重，其为s_l(y_i,x,i)状态特征函数加权后的sigmoid函数，ε_l为第l个状态特征的权重；

已知训练数据集，可得经验概率分布P(X,Y)，通过极大化训练数据的对数似然函数来求模型参数；训练数据的对数似然函数为

当P_ε为有约束的条件条件随机场模型时，对数似然函数为

其中，

采取迭代的方法求解参数ε_l，求解参数的过程即为最大化似然函数的问题；

得到训练好的参数后，应用构造的有约束的条件随机场模型进行结果标注，应用维特比算法，求解整体最大概率出现的标注序列，即

本发明的有益效果：本发明提供了一种基于约束模型的英文社交媒体短文本时间表达式识别方法，针对现有识别方法的特征对于时间表达式没有针对性，且数量较少的问题，从词结构、语法结构、组合特征3个方面构建了特征集合，使得机器学习模型对于时间表达式的精度大大提高；本发明针对条件随机场在求解过程中共用转移特征，导致对时间表达式的边界识别不准确的问题，在求解过程中利用提取的当前位置的特征集合对当前位置的转移特征进行修正，提出采用约束条件随机场的方法进行求解，从而提高了识别出的时间表达式的准确率，使得对时间表达式的边界识别更准确。

附图说明

图1为本发明实施例的流程图。

图2为线性链条件随机场图。

具体实施方式

下面结合附图对本发明的实施例做进一步的说明。

识别时间表达式能够提取人们发送文本内容中的时间信息，在事件检测，自动问答，信息提取等方面有非常重要的应用。传统命名实体识别方法是解决社交网络文本中时间实体识别的主要方法，由于命名实体识别需要识别的实体类别很多，因此在特征制定上不具有针对性，并且不同类别实体之间存在干扰，导致对每一类的实体的识别精度都不高，所以提取的时间实体也不准确。另一方面，在社交网络中，由于文本信息通常以短文本形式存在，且格式不规范，文本中噪音较多，传统的特征制定规则对其适用度不够。在求解方法方面，传统方法主要采用条件随机场进行识别，所有的输入使用的同一个转移特征，当转移特征比重过大时，可能导致错误的识别结果，进一步降低了现有方法对时间实体进行识别的精度。

针对以上问题，本发明一种基于约束模型的英文社交媒体短文本时间表达式识别方法，请参阅图1，本发明通过以下步骤实现：

S1，输入预处理后的短文本。

本实施例中，预处理后的短文本为分词，词性识别之后的英文社交媒体短文本词序列。

S2，针对性构造特征集。

本实施例中，由于命名实体识别需要识别的实体种类过多，所以一般其选择的特征规则都不具有针对性，如果针对某一实体种类进行专门的特征提取，那么就会导致对其它实体识别的干扰或者产生过拟合的问题。而现在主要的工作是进行社交媒体短文本中时间实体的识别，所以问题由以前的多分类问题变成了二分类问题，这时候的特征选取规则就需要很有针对性的制定，根据文本中时间表达式的语法特征进行识别，虽然需要制定与时间表达式相关的新的特征，但之前命名实体识别所使用的特征依然保留，因为这些特征依然能为区分实体词和非实体词提供有用的信息。通过对社交媒体短文本中的时间表达式的词和短语进行观察与分析，新增了如下的特征：

一、数字特征

根据人们的语法习惯等，在文本中描述时间实体时，往往会涉及到数字，特别是在准确的描述日期时，这些数字不仅仅是普通的阿拉伯数字(如0，12等)还有一些英文中的数字的常见的表达形式(six，fourth等)，都属于构成时间表达式的一部分,其具体的形式表达如下：

one，two，three，four，five，six，seven，eight，nine，ten，eleven，twelve，thirteen，fourteen，fifteen，sixteen，seventeen，eighteen，nineteen，twenty，thirty，forty，fourty，fifty，sixty，seventy，eighty，ninety，10th，11th，11st，12nd，12th，13rd，13th，14th，15th，16th，17th，18th，19th，1st，20th，21st，21th，22nd，22th，23rd，23th，24th，25th，26th，27th，28th，29th，2nd，30th，31st，3rd，4th，5th，6th，7th，8th，9th

该特征的选取规则为比较当前词是否为阿拉伯数字或者英文中数字的表达形式集合，如果是则为true，不是，则为false。

二、介词特征

通过观察大量的英文社交媒体短文本发现，在很多时间实体词或者短语的前面会出现一些介词，有两种形式，一种是只出现在时间实体之前，如“at ten oclock”，“tenoclock”为时间表达式，“at”为其之前出现的一个介词；还有一种是包含在时间实体之中，“this year”，该时间表达式为一个整体，共同表达“今年”的含义，总结如下：

出现在时间表达式之前的介词集合：just,in,at,for,of,until,til,by,before,after,since,around,between,over,through

包含在时间表达式之中的介词集合：a,an,this,the,than,to

而介词特征选取时的规则是对于出现在时间表达式之前的介词集合，判断当前位置词(不包含本词)的前4个词中是否含有该介词，如果有的话将此特征设为1，否则设为0。这里有一个距离设为4的解释，因为介词词不一定只出现在当前词的前一个位置上，比如“just ten years ago”，其中“ten years ago”就为时间表达式，而对于“ago”这个单词，介词出现的位置距离当前词为4，同时发现距离为4以上的情况在文本中出现的情况非常少，所以最大距离考虑为4。同时，对于可以包含在时间表达式中的介词集合，判断判断当前位置词(包含本词)的前4个词中是否含有该介词，有的话将此特征设为1，否则设为0。

三、修饰词特征

同样通过观察大量社交媒体短文本发现，时间实体词前面也会经常出现修饰词，比如文本中出现的“next year”，其中“next year”为时间表达式，而“next”为修饰“year”的单词，且其与“year”共同构成时间表达式。通过观察分析社交媒体短文本，收集了如下出现在时间表达式前的高频修饰词：

next,coming,upcoming,last,past,previous,current,recent,recently,currently,early,begining,mid,middle,all,every,each,eariler

修饰词特征的选取规则与介词特征选取规则类似，为判断当前位置词(包含本词)的前4个词中是否含有修饰词，如果有的话将此特征设为1，否则设为0。同样由于不一定只有前一个词为修饰词原因，所以位置距离设定为4。

四、增强介词与修饰词特征比重

通过观察发现，对于介词与修饰词特征来说，其在短文本中出现的频率非常高，这就说明了介词与修饰词特征对于时间表达式识别相对于其它特征来说可能更加有用，所以可以通过增加介词与修饰词特征的比重来反映这种情况，因此建议将介词与修饰词特征的次数变为2，但是需要说明的是不适合将其次数设为比2更大的数，因为这样会过分的弱化其它特征对时间表达式识别的影响。

五、时间表达式触发词特征

时间表达式是由词或者词组组成，其中，有很多标志性词汇，我们称之为触发词，通过检测触发词，可以很好的确定文本中的时间实体的大致位置，从而提高时间实体的识别准确性。时间表达式的触发词整理如下：

构建触发词特征的方法是检测当前词是否在触发词表中，如果该特征的值为true，否则为false。

六、增加触发词特征比重

可以肯定的是触发词典里包含的词都是时间表达式的一部分词，即使有些时间表达式的词不在触发词典中，但其中包含了大部分常见的触发词，所以触发词典特征的可信都是非常高的，因此为了达到触发词典可信度高的条件，可以将触发词字典特征的权重设为2，与增强介词特征比重的原因一样，不宜将其权重设为更高，否则会过分弱化其它特征对时间表达式识别的影响。

七、时间表达式后缀词特征

在英文社交媒体短文本中，很多的时间表达式后面接的是特定的词，来表达文本中的内容发生时间的前后关系，比如“ten years ago”,，其中的“ago”就是时间表达式的后缀词特征特征，表达的是“十年前”，通过对大量的文本观察收集了如下的后缀词：

end,ago,period,later,eariler

时间实体后缀词特征的构造规则为，如果当前词的后一个词或者后两个词的组合出现在上述的后缀词中，就把该特征设为True。

八、词的形状特征

在传统的命名实体识别中，词的形状特征一般只包括词的大小写情况，是否为数字，是否为标点符号。但是在时间表达式中，在表达日期信息时，经常会出现例如Nov.11这种数字与字母混杂的情况或者1993-11-27这种标点与数字混杂的情况，所以在构造词的形状特征时，增加识别是否有数字与字母，数字与标点符号的情况，提高对时间表达式的复杂形式的特征的提取的准确性，从而提高对时间表达式识别的准确性。

词的形状特征构造规则为判断当前词是否在以下情况中：全部为数字，标记为“number”，单词与数字均存在，标记为“word+number”，数字与标点符号共存，标记为“dot+number”，标点符号的情况，标记为“punct”，单词首字母大写，标记为“upcase”，单词为全部小写，标记为“downcase”，单词中大小写形式混杂，标记为“mixcase”，其他情况，标记为“other”。

九、组合特征

以上的新增特征为单独的特征，有时会包含非时间表达式的内容，比如介词特征后面也会有地名实体，这时候需要利用组合特征，相当于给单独的特征一些约束，提高时间表达式的特征提取的准确性以及去除一部分噪音特征。本发明根据时间表达式特征，构建的组合特征如下描述：

1、修饰词特征+当前词的触发词特征

该特征是一个组合特征，由修饰词特征和当前词的触发词特征组成，修饰词是第(3)和(2)点中的介词和形容词修饰词，虽然修饰词后面接的时间表达式实体很多，但同样也有不少的非时间表达式词前有介词或者形容词修饰，所以这时需要添加额外的一个触发词字典特征，添加的理由为：如果当前词的前面出现了修饰词那么当前词很有可能为时间表达式词的一部分，但其为非时间表达式词的可能性也是存在的，但如果当前词同样出现在触发词字典中，那么当前词成为时间表达式词的可能性将会大大增加。该特征的添加规则为，当前词满足第(3)或者(2)点的特征并且当前词存在于触发词中，那么该特征设为True。

2、前后词的触发词特征当前词的触发词特征

触发词中有很多是时间表达式的一部分，比如current day两个词都在触发词表里，共同构成一个时间表达式，所以在构建组合特征时考虑当前词为触发词时，前后词是否也有触发词，如果有的话，则当前词更有可能为时间表达式的一部分。该特征的添加规则为，当前词和前一个词为触发词时，设为true，当前词和后一个词为触发词时设为true。

3、修饰词特征+数字特征

考虑时间表达式中可能会出现以下情况：“next ten years”为一个时间表达式，表示下一个十年，那么修饰词的后面就出现了数字的表达形式，由于数字也可以修饰一些名词表示数量，所以单独的数字特征的确信度不高，而修饰词后面是数字的时候大部分情况都是在时间表达式中才会出现，所以添加这个特征可以增加识别的准确性。该组合特征的构建规则为当前单词满足数字特征以及前面的单词满足修饰词特征，则将此特征设为true。

4、介词特征+当前词的触发词特征+当前词的词性特征

该特征同样是一个组合特征，但是与(8)号特征不一样的是其由3个特征组成，由于触发词中的词不一定只包含时间实体的含义，且介词相对于动词短语来说更容易的出现在文本中，因此介词后面词出现的频率也更高，其存在于触发词字典中但不是时间表达式的概率也变得更高，所以需要添加额外的一个特征来进行可信度的提高，这个特征就是词性，通过对社交媒体短文本的分析发现，时间表达式中词的词性一般为NNP专有名词或者NNPS专有名词复数或者CD数字，因此添加词性特征使得整个组合特征对于时间表达式识别来说更有针对性，使识别的效果达到更好。该特征的添加规则为，使用第(2)点的特征加上当前词是否存在于触发词字典中再加上当前词的词性。

S3，训练条件随机场模型。

之前的命名实体识别工作都是多分类问题，由于实体种类过多，导致每个实体识别精度都不高，而现在是二分类问题，使用机器学习算法结合自定义的特征能有效的提高识别的精度。

本发明使用的机器学习算法为条件随机场模型算法，条件随机场模型是一种广泛英语与自然语言处理中的序列标注方法，它能够根据上下文信息对文本序列进行标注，不仅仅考虑当前词的特征，还会考虑前后实体的转移概率。对文本分类、数据挖掘、词性标注等许多问题的处理结果都取得了很好的结果。条件随机场的原理如下：

条件随机场(conditional random field,CRF)是给定随机变量X条件下，随机变量Y的马尔可夫随机场，一般使用的较多的为定义在线性链上的特殊条件随机场，称为线性链条件随机场，并且其常用于标注问题。

线性链条件随机场如图2所示。

P(Y_i|X,Y₁,...,Y_i-1,Y_i+1,...,Y_n)＝P(Y_i|X,Y_i-1,Y_i+1)

其中，i＝1,2,...,n；通常将线性条件随机场用其参数化形式来表示，设P(Y|X)为线性链条件随机场，在X＝x的条件下，Y＝y的条件概率为

该问题就转换为求非规范化概率最大的最优路径问题，可用维特比算法解决。

需要注意的是条件随机场模型需要由自己进行训练，训练模型需要有对应的训练语料，一般来说在不同的领域使用分类模型，就应该有该领域对应的训练语料。本发明建议使用的训练语料为ACE TREN语料库中标注的8047个TIMEX2实体，测试语料为TimeBank语料库中中标注的1423个Timex3实体。

同时条件随机场模型的训练输入是训练语料转化而成的特征集，该特征集的特征模板为之前传统的命名实体识别特征模板再加上上一步由本发明针对时间表达式设计的特征。通过这样的训练语料和特征模板，训练好的条件随机场的模型，可以得到各个特征的权重，包含转移特征和状态特征。

S4，训练约束模型并进行分类。

原条件随机场模型中，特征分为两个部分，一部分是转移特征，一部分是状态特征。条件随机场的转移特征可以考虑上下文标注之间的关系，可以提高标注的准确性，但是在标注过程中，所有的输入使用的同一个转移特征，当转移特征比重过大时，可能会导致错误的识别结果。在本发明所使用的语料中，其标注形式为TIMEX,O两种标注形式，转移特征就只有TIMEX-TIMEX，O-O，TIMEX-O，O-TIMEX，由于标注时是以单词为单位的，时间表达式往往由多个单词构成且转移特征最后是共用的，导致TIMEX-TIMEX转移特征的权重过高，削弱了状态特征的重要性，所以本发明创新性的提出了根据当前位置的状态特征，对当前位置的转移特征进行约束，使得每个位置的转移特征用当前位置的状态特征来进行约束，增加模型的准确性。

本发明构造的约束条件随机场标注模型如下，P(Y|X)为线性链条件随机场，给定X的条件下，Y的条件概率如下

其中，ω_k为对应的特征权重，其为s_l(y_i,x,i)状态特征函数加权后的sigmoid函数；ε_l为第l个状态特征的权重，为约束条件随机场模型中需要学习的参数。

已知训练数据集，可得经验概率分布P(X,Y)，通过极大化训练数据的对数似然函数来求模型参数。

训练数据的对数似然函数为

当P_ε为有约束的条件条件随机场模型时，对数似然函数为

其中，

求解参数的过程即为最大化似然函数的问题，其中Z(x)，t_k(y_i-1,y_i,x,i)，s_l(y_i,x,i)，μ_l，λ_k以上参数都是由S3中的原条件随机场模型训练的得出的。可以采取迭代的方法求解参数ε_l，涉及到训练算法的选择问题，通常使用的迭代算法为GIS和IIS。

与传统条件随机场不同的地方是，输入当前词的状态特征集合，根据训练计算出的权重ε_l重新计算出当前位置的转移特征权重ω_kλ_k，而不是采用统一的转移位置权重λ_k，这就是根据当前词的状态特征给予了当前位置的转移特征约束，能够使得时间表达式的提取精度提高。

S5，输出时间实体识别结果。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于约束模型的英文社交媒体短文本时间表达式识别方法，其特征在于，包括以下步骤：

S1，输入预处理后的短文本；

S2，针对性构造特征集；

S3，训练条件随机场模型；

S4，训练约束模型并进行分类；

S5，输出时间实体识别结果。

2.如权利要求1所述的基于约束模型的英文社交媒体短文本时间表达式识别方法，其特征在于，所述S1中预处理后的短文本为分词，词性识别之后的英文社交媒体短文本词序列。

3.如权利要求1所述的基于约束模型的英文社交媒体短文本时间表达式识别方法，其特征在于，所述S2中构造的特征集中新增的特征包括：

4.如权利要求1所述的基于约束模型的英文社交媒体短文本时间表达式识别方法，其特征在于，所述S3包括以下流程：

P(Y_i|X,Y₁,...,Y_i-1,Y_i+1,...,Y_n)＝P(Y_i|X,Y_i-1,Y_i+1)

5.如权利要求4所述的基于约束模型的英文社交媒体短文本时间表达式识别方法，其特征在于，所述S4包括以下流程：

当P_ε为有约束的条件条件随机场模型时，对数似然函数为

其中，