CN107608959A

CN107608959A - 一种英文社交媒体短文本地名识别方法

Info

Publication number: CN107608959A
Application number: CN201710804552.1A
Authority: CN
Inventors: 费高雷; 谢星辰; 陈坦; 胡光岷; 于富财
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2018-01-19

Abstract

本发明提供了一种英文社交媒体短文本地名识别方法，包括以下步骤：S1、输入待识别短文本；S2、针对性构建特征集；S3、使用最大熵模型进行二分类；S4、使用地名字典修正；S5、输出地名识别结果。本发明对于地名词，有针对性的选取机器学习方法中符合地名词的特征，使得机器学习模型对于地名识别的精度大大提高；使用英文社交媒体短文本语料加上普通短文本语料训练最大熵模型，提高模型对于英文社交媒体短文本识别的泛化性，同时由以前的命名实体多分类转化为只对地名识别的二分类问题，去除了以前多个识别实体间的干扰，提升了识别精度；使用大型的地名字典对机器学习方法识别的结果进行修正，进一步提高了地名识别的精度。

Description

一种英文社交媒体短文本地名识别方法

技术领域

本发明涉及一种英文社交媒体短文本地名识别方法。

背景技术

随着互联网与智能移动终端的飞速发展，社交媒体这一新兴产物也同时快速发展起来，据eMarketer公司的报告称到2017年世界上有近23.3亿人使用社交媒体，越来越多的人习惯于在社交媒体上发布各种文本信息，而文本中的地名信息是非常重要的一部分，地名信息对于地理位置预测，自然灾害定位等方面的应用有着非常重要的作用。如何从社交媒体短文本中提取出地名也成为研究的热点与难点。

地名识别属于命名实体识别中的一个子任务，命名实体是文本中基本的信息元素，是正确理解文本的基础。狭义地讲，命名实体是指现实世界中的具体的或抽象的实体，如人、组织、公司、地点等，通常用唯一的标志符(专有名称)表示，如人名、组织名、公司名、地名等。广义地讲，命名实体还可以包含时间、数量表达式等。至于命名实体的确切含义，只能根据具体应用来确定。比如，在具体应用中，可能需要把住址、电子信箱地址、电话号码、舰船编号、会议名称等作为命名实体。

目前地名识别使用的主要方法包括：基于规则和词典的方法、基于统计的方法、二者混合的方法。

(1)基于规则和词典的方法

依赖于手工构造的规则模板，进行规则匹配，对于每个规则赋予一个权重，当规则冲突时选择权重最高的来判别地名实体类型。规则系统的识别效果在很大程度上要取决于规则的完备性和合理性，因此，规则编写人员往往需要有丰富的语言知识和深厚的计算语言学背景，这样的人力资源是非常昂贵和稀缺的。基于规则的地名实体识别系统的另一个缺点是系统缺乏适应性，规则的制订往往要依赖于具体的语言、领域和文本格式，系统若要进行移植，则需要做很大的改动。

(2)基于统计的方法

基于统计的方法利用人工标注的语料进行训练，产生训练模型来进行预测，是目前的主流方法。标注语料时不需要广博的语言学知识，并且可以在较短时间内完成，因此这类系统在移植到新的领域时可以不做或少做改动。此外，基于统计的系统要移植到其他自然语言文本也相对容易一些。基于统计机器学习的方法主要包括：隐马尔可夫模型(HiddenMarkov Model，HMM)、最大熵(Maximum Entropy，ME)、条件随机场(Conditional RandomFields，CRF)等。

(3)混合的方法

将基于统计的方法与基于词典的方法结合起来，在基于统计的学习方法中引入部分规则,将机器学习和人工知识结合起来，采用规则与统计相结合的方法，一方面通过概率计算来减少规则方法的复杂性与盲目性，另一方面通过规则的复用来降低统计方法对语料库规模的要求。如可将命名实体识别分为两阶段，第一阶段使用统计的方法进行识别，第二阶段使用基于词典和规则的方法进行改进。

社交媒体短文本中的地名信息是非常重要的信息，其应用十分的广泛，在各种基于文本的地理相关应用中占有非常重要的地位。但所做工作大多数是命名实体识别工作，虽然命名实体识别可以包含地名实体，但是由于命名实体识别需要识别的实体过多，实体间的互相干扰严重，特征选取规则(“特征”是指机器学习模型中的特征)不能有针对性的制定，导致每一类的实体的识别精度都不高，所以获取的地名信息也不够准确。另外由于社交媒体短文本格式很不规范，文本中词的缩写与错写很多，传统的特征制定规则对其适用度不够。

发明内容

本发明的目的在于克服现有技术的不足，提供一种有针对性的选取机器学习方法中符合地名词的特征，使得机器学习模型对于地名识别的精度大大提高的英文社交媒体短文本地名识别方法。

本发明的目的是通过以下技术方案来实现的：一种英文社交媒体短文本地名识别方法，包括以下步骤：

S1、输入待识别短文本；

S2、针对性构建特征集；

S3、使用最大熵模型进行二分类；

S4、使用地名字典修正；

S5、输出地名识别结果。

进一步地，所述步骤S2包括以下子步骤：

S21、增加方位词特征，判断当前位置词的前4个词中是否含有以下方位词：north、south、east、west、central、northern、southern、eastern、western；如果有则将方位词特征设为1，否则设为0；

S22、增加介词特征，判断当前位置词的前4个词中是否含有以下介词：in、to、from、across、near、at；如果有则将介词特征设为1，否则设为0；

S23、增强介词特征比重，将介词特征的次数变为2，用以增加介词特征的比重；

S24、使用地名字典特征，包括以下两个步骤：

S241、查看当前位置词是否存在于地名字典中，若存在则将地名字典特征设为1，否则设为0；

S242、查看与当前位置词组合而成的联合词是否存在于字典中，若存在则将地名字典特征设为1，否则设为0；

S25、增加地名字典特征的比重，将地名字典特征的权重设为2；

S26、取当前位置词前4个字母或者后四个字母作为词性特征；

S27、增加动词短语特征，判断当前位置词的前一个词或者前两个词的组合中是否出现动词或者动词短语，若是则将动词短语特征设为1，否则设为0；

S28、新增动词短语+地名字典特征，判断当前位置词是否满足步骤S26中的特征并且当前词存在于地名字典中，若是则将动词短语+当前词的地名字典特征设为1，否则设为0；

S29、新增介词特征+地名字典特征+词性特征，判断当前位置词是否同时满足步骤S22、S24和S26中的特征，若是则将介词特征+地名字典特征+词性特征设为1，否则设为0。

进一步地，所述步骤S242中所述联合词的长度不超过6个单词。

进一步地，所述步骤S4包括以下子步骤：

S41、输入最大熵模型识别结果，令当前位置词的位置下标i＝0；

S42、判断i是否大于短文本的长度，若是则结束操作，否则执行步骤S43；

S43、取短文本中位置为i的单词，将窗口初始化为Size＝6；

S44、将当前位置词与其后面的单词组成长度为窗口大小的联合词；

S45、判断联合词大小是否等于2，若是则执行步骤47，否则执行步骤S46；

S46、判断联合词是否存在于地名字典中，若是则将该当前位置词对应的联合词标记为地名词，然后令i＝i+1，返回步骤S42；否则令Size＝Size-1，返回步骤S44；

S47、判断联合词中是否包含有停止词，若是则结束操作，否则将该当前位置词对应的联合词标记为地名词，然后令i＝i+Size，返回步骤S42。

本发明的有益效果是：

(1)对于地名词，有针对性的选取机器学习方法中符合地名词的特征，使得机器学习模型对于地名识别的精度大大提高；

(2)使用英文社交媒体短文本语料加上普通短文本语料训练最大熵模型，提高模型对于英文社交媒体短文本识别的泛化性，同时由以前的命名实体多分类转化为只对地名识别的二分类问题，去除了以前多个识别实体间的干扰，提升了识别精度；

(3)使用大型的地名字典对机器学习方法识别的结果进行修正，进一步提高了地名识别的精度。

附图说明

图1为本发明的英文社交媒体短文本地名识别方法流程图；

图2为本发明的使用地名字典修正步骤的流程图。

具体实施方式

本发明首先根据社交媒体短文本特征有针对性设计了特征选取规则，然后使用机器学习方法进行地名二分类模型的训练，并使用大地名字典进行结果的修正，最终使得英文社交媒体短文本中的地名识别精度得到了大幅度的提升。

下面结合附图进一步说明本发明的技术方案。

如图1所示，一种英文社交媒体短文本地名识别方法，包括以下步骤：

S1、输入待识别短文本；

S2、针对性构建特征集；由于命名实体识别需要识别的实体种类过多，所以一般其选择的特征规则都不具有针对性，如果针对某一实体种类进行专门的特征提取，那么就会导致对其它实体识别的干扰或者产生过拟合的问题。而现在主要的工作是进行社交媒体短文本中地名的识别，所以问题由以前的多分类问题变成了二分类问题，这时候的特征选取规则就需要很有针对性的制定，使得地名与非地名词之间的划分更加明显，虽然需要制定与地名相关的新的特征，但之前命名实体识别所使用的特征依然保留，因为这些特征依然能为区分实体词和非实体词提供有用的信息。通过对社交媒体短文本中的地名词进行观察与分析，增加新的特征。具体包括以下子步骤：

S21、增加方位词特征，通过观察大量的英文社交媒体短文本发现，在很多地名词的前面会出现一些方位指示词，比如说north korea，其中korea就为一个地名词，而其前面的north就为方位指示词。通过大量短文本观察与分析后收集的方位指示词如下：north、south、east、west、central、northern、southern、eastern、western；

而方位词特征选取时的规则是：判断当前位置词(包含本词)的前4个词中是否含有上述，如果有则将方位词特征设为1，否则设为0；距离设为4是因为方位词不一定只出现在当前词的前一个位置上，比如east of the Baja，其中Baja就为地名词，而它前面的方位词出现的位置距离当前词为4，同时发现距离为4以上的情况在文本中出现的情况非常少，所以最大距离考虑为4。

S22、增加介词特征，同样通过观察大量社交媒体短文本发现，地名词前面也会经常出现介词，比如文本中出现的from Haiti，其中Haiti为地名词，而from为介词。通过观察分析社交媒体短文本，收集了如下出现在地名前的高频介词：in、to、from、across、near、at；

介词特征的选取规则与方位词特征选取规则类似，判断当前位置词的前4个词中是否含有上述介词：如果有则将介词特征设为1，否则设为0；同样由于不一定只有前一个词为介词原因，比如at the Brooklyn Airport，其中Brooklyn就为地名词，所以位置距离设定为4。

S23、增强介词特征比重，通过观察发现，对于介词特征来说，其在短文本中出现的频率非常高，这就说明了介词特征对于地名识别相对于其它特征来说可能更加有用，所以可以通过增加介词特征的比重来反应这种情况，因此将介词特征的次数变为2，用以增加介词特征的比重；但是需要说明的是不适合将其次数设为比2更大的数，因为这样会过分的弱化其它特征对地名识别的影响。

S24、使用地名字典特征，地名字典里包含的是世界各地的地名，该地名字典是由github相关开源程序提供的字典组合而成，其包含的地名达到50W个，覆盖了世界上大多数国家和地区，所以地名字典是一个非常有用的外部信息。但是不能将短文本中的词与字典中的词直接比较来找出地名，因为地名字典过于庞大，其中很多词有多个含义，比如Hilton，既可以是地名也可以是人名，所以直接比较会产生误判，因此不直接使用地名字典，而是将其作为特征来使用；

具体操作包括以下两个步骤：

S242、查看与当前位置词组合而成的联合词是否存在于字典中，若存在则将地名字典特征设为1，否则设为0；比如说Santa María de las Hoyas就为一个联合词，所述联合词的长度不超过6个单词。

S25、增加地名字典特征的比重，可以肯定的是地名字典里包含的词都是地名，即使有些词有其他的含义，但至少也有地名的含义，所以地名字典特征的可信都是非常高的，因此为了达到地名字典可信度高的条件，将地名字典特征的权重设为2；与增强介词特征比重的原因一样，不宜将其权重设为更高，否则会过分弱化其它特征对地名识别的影响。

S26、取当前位置词前4个字母或者后四个字母作为词性特征；对于地名词来说，其单词长度一般都是大于4的，并且很多的地名单词具有一定的规律性，比如Maryland，England，Scotland，其后缀都为land，同时对于其它语种的地名单词用字母表示，如Sieradowo等，其前4个字母或者后4个字母都具有很强的特征性。

S27、增加动词短语特征，在英文社交媒体短文本中，很多的地名前面是接的有动词或者动词短语，比如went Kingston，located at Brgy，其中的went和located at就为动词短语和动词特征，通过对大量的文本观察收集了如下的动词短语以及它们的各种时态：

come from，comes from，came from，go to，go 2，went to，went 2，goes to，goes2，going to，going 2，located in，located on，located at，leave for，leaving for，left for，leaves for，head to，head 2，heads to，heads 2，heading to，heading 2，headed to，headed 2，went，go，leave，left，leaving，leaves；

需要注意的是上述动词短语中出现的2是英文单词to的简写，这样的简写在英文社交媒体短文本这类的非书面语中经常出现，还有比如you简写为u，thanks简写为thx等；

动词短语特征的构造规则为：判断当前位置词的前一个词或者前两个词的组合中是否出现动词或者动词短语，若是则将动词短语特征设为1，否则设为0；

S28、新增动词短语+地名字典特征，该特征是一个组合特征，由动词短语特征和当前词的地名字典特征组成，动词短语是S26点中的动词短语，虽然动词短语后接的地名词很多，但同样也有不少的非地名词前有动词短语，比如went home，所以这时需要添加额外的一个地名字典特征，添加的理由为：如果当前词的前面出现了动词短语那么当前词很有可能为地名词，但其为非地名词的可能性也是存在的，但如果当前词同样出现在地名词字典中，那么当前词成为地名词的可能性将会大大增加。该特征的添加规则为：判断当前位置词是否满足步骤S26中的特征并且当前词存在于地名字典中，若是则将动词短语+当前词的地名字典特征设为1，否则设为0；

S29、新增介词特征+地名字典特征+词性特征，该特征同样是一个组合特征，但是与(8)号特征不一样的是其由3个特征组成，由于地名字典中的词不一定只包含地名的含义，且介词相对于动词短语来说更容易的出现在文本中，因此介词后面词出现的频率也更高，其存在于地名字典中但不是地名的概率也变得更高，所以需要添加额外的一个特征来进行可信度的提高，这个特征就是词性，通过对社交媒体短文本的分析发现，地名词的词性一般为NNP专有名词或者NNPS专有名词复数，因此添加词性特征使得整个组合特征对于地名识别来说更有针对性，使识别的效果达到更好。判断当前位置词是否同时满足步骤S22、S24和S26中的特征，若是则将介词特征+地名字典特征+词性特征设为1，否则设为0。

S3、使用最大熵模型进行二分类；之前的命名实体识别工作都是多分类问题，由于实体种类过多，导致每个实体识别精度都不高，而现在是二分类问题，使用机器学习算法结合自定义的特征能有效的提高识别的精度。

本发明使用的机器学习算法为最大熵模型算法，最大熵模型是一种广泛应用于自然语言处理中的概率估计方法。它可以综合观察到的各种相关或不相关的概率知识，具有较强的知识表达能力，对文本分类、数据挖掘、词性标注等许多问题的处理结果都取得了很好的结果。

本发明使用的训练语料为英文社交媒体短文本加上普通短文本，英文社交媒体训练语料为本发明适用领域对应的语料，而使用普通短文本的原因是因为标注好的社交媒体短文本的数量过少，使用普通短文本能有效的增加语料的丰富性，使得训练好的模型能对各种不同的社交媒体短文本有更好的泛化性。同时最大熵模型的训练输入是训练语料转化而成的特征集，该特征集的特征模板为之前传统的命名实体识别特征模板再加上步骤S1得到的特征。最大熵模型的训练为本领域惯用技术手段，不再赘述。

训练好了最大熵模型后，便可以使用其来进行社交媒体短文本的地名识别，首先输入需要进行识别的短文本，然后通过特征模板将短文本转化为对应的特征集，最大熵模型根据特征集和每个特征所占的权重，计算当前词为地名的概率，如果地名的概率大于非地名概率则该词被识别为地名。

S4、使用地名字典修正；该地名字典即为特征制定里面的地名字典，在步骤S1的特征制定中提到对于很多词在地名字典中可能有歧义，比如有的词可以表示人名也可以表示地名，但这都是基于单个词来说的，对于组合词(词数量大于或等于2)来说，这种出现歧义的情况几乎没有，比如组合词Alcala del Jucar出现在地名字典中，那么可以很确定其就为地名词，但是有些特殊情况，比如单词the Country，the World也出现在了地名字典中，它可能是某个地名的指代，但通常意义下其不为地名词，但是又由于这种单词组合在短文本中容易同时出现，直接使用地名字典可能产生误判，通过分析发现这一类词中经常会出现停止词比如the，a等，所以本发明对此类情况做了特殊处理，判断两个词的组合词中是否存在停止词，所以整个使用地名字典修正流程图如图2所示；具体包括以下子步骤：

S42、判断i是否大于短文本(即社交媒体输入的推文)的长度，若是则结束操作，否则执行步骤S43；

S43、取短文本中位置为i的单词，将窗口初始化为Size＝6；

S5、输出地名识别结果。

本发明首先对针对性构建的每个特征都进行了效果的测试，然后使用地名字典进行修正。识别效果的好坏是依照机器学习的3个评测标准来进行评估的，这3个值为准确率(Precision)，召回率(Recall)和F值，其定义如下：

表1评测参数表

	识别为正例	识别为负例
			实际为正例	TP	FN
实际为负例	FP	TN

准确率p和召回率r定义如下：

F值是准确率和召回率的调和平均值。

一般而言，F值更能代表这个模型的综合表现，实际测得的结果如下表所示，需要说明的是每一个特征都在上一个特征的基础上进行添加：

表2新增各个特征的地名识别结果

特征	准确率	召回率	F值
				未添加任何新特征	0.896	0.770	0.828
增加方位词特征	0.910	0.761	0.829
				增加介词特征	0.921	0.765	0.836
增强介词特征比重	0.913	0.789	0.846
				增加地名字典特征	0.930	0.808	0.864
增加单词前后缀为4的特征	0.950	0.807	0.872
				增加动词短语和动词特征	0.950	0.811	0.875
增加动词短语特征+当前词地名字典特征	0.956	0.811	0.878
				增加介词特征+当前词地名字典特征+词性特征	0.951	0.825	0.884
增强地名字典特征比重	0.962	0.825	0.888

以上是使用针对性的特征得到的结果，下表是使用上述所有特征的最大熵识别结果后，再使用地名字典进行修正后得到的结果。

表3使用地名字典进行修正后的结果

	准确率	召回率	F值
				使用地名字典进行最大熵模型识别结果修正	0.968	0.849	0.905

通过测试结果可以看到代表综合表现的F值从最初的0.828提升到0.905，说明本发明使得对于英文社交媒体短文本的地名识别精度得到了很大的提高。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种英文社交媒体短文本地名识别方法，其特征在于，包括以下步骤：

S1、输入待识别短文本；

S2、针对性构建特征集；

S3、使用最大熵模型进行二分类；

S4、使用地名字典修正；

S5、输出地名识别结果。

2.根据权利要求1所述的一种英文社交媒体短文本地名识别方法，其特征在于，所述步骤S2包括以下子步骤：

S24、使用地名字典特征，包括以下两个步骤：

S26、取当前位置词前4个字母或者后四个字母作为词性特征；

3.根据权利要求2所述的一种英文社交媒体短文本地名识别方法，其特征在于，所述步骤S242中所述联合词的长度不超过6个单词。

4.根据权利要求2所述的一种英文社交媒体短文本地名识别方法，其特征在于，所述步骤S4包括以下子步骤：

S43、取短文本中位置为i的单词，将窗口初始化为Size＝6；