CN106168954A

CN106168954A - 一种基于编辑距离的负面信息模式模糊匹配方法

Info

Publication number: CN106168954A
Application number: CN201610395661.8A
Authority: CN
Inventors: 张鑫; 李越洋; 李沛; 丁兆云; 王晖; 蒋薇薇; 程佳军; 乔凤才; 何速; 李韬伟
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2016-06-07
Filing date: 2016-06-07
Publication date: 2016-11-30
Anticipated expiration: 2036-06-07
Also published as: CN106168954B

Abstract

本发明公开了一种基于编辑距离的负面信息模式模糊匹配方法，包括：通过基于汉字的编辑距离计算方法计算两个字符串的汉字距离；通过基于拼音的编辑距离计算方法计算两个相应字符串的拼音字符串间的拼音距离；采用将汉字距离与拼音距离相结合的模式模糊匹配方法，来进行负面信息检测，在模式匹配的过程中先计算推文中所有的词语与Trigger(触发词)类关键词的距离，当值小于设定的编辑距离阈值时再与Entity(实体词)类关键词进行匹配。通过本发明的技术方案，能够有效的提高模式匹配的查全率，同时，在保证查准率的情况下提高模式匹配的F‑score。

Description

一种基于编辑距离的负面信息模式模糊匹配方法

技术领域

本发明属于自然语言处理领域，特别涉及一种基于编辑距离的信息模式模糊匹配方法。

背景技术

近几年来，社交网络的迅猛发展格外的引人注目。同时，社交网络平台的自身特点使得人们传统的沟通方式发生了巨大的改变。也使得用户在使用社交网络平台时忽略了很多传统意义上对文字的严格要求。因此，在中文编辑是会出现如下问题：第一，中文输入法带来的同音字替换或由个人习惯带来的近音字替换。中文用户大部分使用中文输入法，而在使用中文输入法时很容易造成一些同音不同字的错误，或是由于地域问题对同一个词会有不同的表达方式。第二，文字使用更加简洁，出现很多组合词。由于推文对内容字数的严格要求，使得用户在文字使用上更加简洁，出现了很多组合词。但是在信息检索时我们并不能穷举出所有的词。这使得对社交网络中的信息进行筛选与匹配变得比以前更加困难。因此，需要有更高效的方法对社交网络中的信息进行处理。

编辑距离是俄罗斯科学家Vladimir Levenshtein在1965年提出的一个概念，所以又称为Levenshtein距离。最经典的编辑距离定义为：两个字符串之间，由一个转换成另外一个所需要的最少的操作次数。在Levenshtein的定义体系中有三种原子操作包括：替换、插入、删除等。

发明内容

本发明的目的在于，为了解决上述问题，提出了一种基于编辑距离的负面信息模式模糊匹配方法，能够有效的提高模式匹配的查全率，同时，在保证查准率的情况下提高模式匹配的F-score。

为实现上述发明目的，本发明采用的基本技术方案包括如下内容：针对具体背景情况，通过基于汉字的编辑距离计算方法计算两个字符串的汉字距离；通过基于拼音的编辑距离计算方法计算两个相应汉字的拼音字符串间的拼音距离；采用将汉字距离与拼音距离相结合的模式模糊匹配方法，来进行负面信息检测，在模式匹配的过程中先计算推文中所有的词语与Trigger(触发词)类关键词的距离，当存在的值小于设定的编辑距离阈值时再与Entity(实体词)类关键词进行匹配。

进一步地，基于汉字的编辑距离计算方法如下所述。

基于汉字的编辑距离计算方法主要是研究在进行汉字字符串匹配时，两个字符串之间的编辑距离。在本发明中模式是由Entity和Trigger组成，Trigger为模式串的核心组成部分，它是连接上下文的关键。

综上所述，本发明在计算编辑距离的时候，只考虑Trigger表中的词语与待匹配词语之间的距离。因此，本发明定义:设Μ为数据库中定义的负面信息类型的集合，E为负面信息类型，t为代表每个负面信息类型的Trigger词，即：

Μ＝{E_i|i＝1,2}；E_i＝{t_ij|j＝1,2...n}，

设Φ为待匹配的目标串，x为目标串中的元素，即：Φ＝{x_i|i＝1,2...n}，

设Dist₁为模式串与目标串之间的最小编辑距离，则：

在本发明中，由于目标串是按模式串长度进行连续字符串匹配，所以定义：

其中|t_ij∩x_i|为目标串与模式串集合的交集，实际意义为目标串与模式串的最大匹配长度。例如：“痛批”与“痛骂”的最大匹配长度为1。|t_ij|为模式串的长度，如“痛骂”的长度为2。

在本发明中，由于模式串中Trigger词多数是由两个或三个汉字组成，则在匹配的过程中，会有不同的模式串与目标串匹配距离相同。在这种情况下，本发明认为匹配到的次数越多，与模式串之间的距离越小。

进一步地，基于拼音的编辑距离计算方法如下所述。

在社交网络平台的实际应用中，大量用户由于使用拼音输入法会经常产生同音字、近音字的错误。同音字是现代汉语里语音相同但字形和意义不同的字。例如，在我国不同地区由于地域文化差异，在一些发音上也有自己的不同习惯，最常见的有：前后鼻音混用(ing/in,ang/an,eng/en)，平卷舌混用(z/zh,c/ch,s/sh)，(l/n)混用。在计算模式串与目标串的距离时，本发明给同音字/近音字之间的距离赋予较小的权重。

定义：设Μ′为数据库中定义的负面信息类型的集合，E′为负面信息类型，t′为代表每个负面信息类型的Trigger词，即：

Μ′＝{E′_m|m＝1,2}，E′_m＝{t′_mk|k＝1,2...n}，

设Φ为待匹配的目标串，x为目标串中的元素，即：Φ′＝{x_i′|i＝1,2...n}，

设Dist₂为模式串与目标串之间的最小编辑距离，则：

在本发明中，由于目标串是先按汉字进行匹配后，再计算拼音的编辑距离，所以定义：

其中，|t′_mk∩x_i′|为模式串与目标串集合的交集，实际意义为模式串和目标串的最大匹配长度。例如：当t′_mk为“tongpi”,x_i′为“tongma”,则它们的最大匹配长度为4。|t′_mk∪x_i′|为模式串与目标串集合的并集，实际意义是模式串与目标串中包含所有字符的最小长度和，“tongpi”和“tongma”的最小长度和为8。Dif(||x_i′|-|t′_mk||)为模式串与目标串的字符长度差，考虑到用户使用拼音输入法时的习惯，本发明设定当有多个目标串与模式串匹配时，目标串与模式串之间的长度差越小，则认为两者之间的距离越近。同时本发明参照字母在电脑键盘上的位置，设定一个单字母距离矩阵。即在键盘上的位置越相近，两者之间的距离越小，从而确定β的值。

当两个字符串的长度不同时计算字符串中的字符在键盘上的距离是没有意义的，因此只有当Dif(||x_i′|-|t′_mk||)的值等于零时才会计算β的值。因此对公式进行改进得到：

其中：

在计算键盘上字母之间的距离时参考用户在使用键盘时的标准手势，在标准的键盘手势使用规则中左手小拇指负责的字母为“Q,A,Z”，左手无名指负责的字母为“W,S,X”，左手中指负责的字母为“E,D,C”，左手食指负责的为“R,F,V,T,G,B”,对应的右手小拇指负责的字母为“P”，右手无名指负责的字母“O,L”，右手中指负责的为“I,K”，右手大拇指负责的字母为“U,J,M,Y,H,N”。因为键盘上的字母组成的并不是一个完整的矩阵，本发明在充分考虑用户使用标准的键盘手势情况下，根据同一个手指负责的字母之间的距离更小的原则，将第二行和第三行的字母向左靠齐，同时对右边的位置进行填充处理。定义β的取值公式如下：

在上述公式中，字母在键盘中的位置越近，它们之间的距离越小，例如：“Q”与“A”的距离为1，“Q”与“W”的距离为1，“W”与“A”的距离为2。在考虑键盘距离的影响不会弱化其他距离的作用情况下，根据键盘中两字母的最大距离对公式进行改进得到：

其中，为键盘中两个字母的最大距离，根据本发明定义的键盘中任意两个字母之间的距离计算公式：得到：

进而得到：

最终，得到基于拼音的编辑距离计算公式为：

其中：

进一步地，基于编辑距离的模式模糊匹配方法如下所述。

本发明在针对所研究问题的具体背景情况，采用基于汉字距离和拼音距离相结合的模式模糊匹配方法，定义：Dist＝αminDist₁+(1-α)minDist₂，其中，Dist为最后汉字距离和拼音距离的加权和，minDist₁为汉字的最小编辑距离，minDist₂为拼音的最小编辑距离。α为加权系数。

基于编辑距离的模式模糊匹配方法来进行负面信息检测主要是在模式匹配的过程中先计算推文中所有的词语与Trigger类关键词的距离Dist，当存在Dist的值小于设定的编辑距离阈值时再与Entity类关键词进行匹配。匹配到Entity后输出结果即为负面信息。

综上所述，通过本发明的技术方案，能够有效的提高模式匹配的查全率，同时，在保证查准率的情况下提高模式匹配的F-score。

附图说明

参考附图详细描述了本发明，应当理解，附图以及相应的描述应当被理解为是说明性的而非限制性的，其中：

图1示出了基于编辑距离的负面信息模式模糊匹配方法的具体流程；

图2示出了基于编辑距离的负面信息模式模糊匹配方法的查准率；

图3示出了基于编辑距离的负面信息模式模糊匹配方法的查全率；

图4示出了基于编辑距离的负面信息模式模糊匹配方法的F-score。

具体实施方式

下面结合附图以台湾地区领导人选举作为示例来对本发明的优选实施方式进行详细说明。

近几年来，社交网络的迅猛发展格外的引人注目。同时，社交网络平台的自身特点使得人们传统的沟通方式发生了巨大的改变。也使得用户在使用社交网络平台时忽略了很多传统意义上对文字的严格要求。

(1)中文输入法带来的同音字替换或由个人习惯带来的近音字替换。

中文用户大部分使用中文输入法，而在使用中文输入法时很容易造成一些同音不同字的错误，或是由于地域问题对同一个词会有不同的表达方式。如在关于台湾地区的推文中会出现“MG149转侦字案柯文哲首被人告罚，早经调查局彻查，2014台湾地区领导人选举跳针N次的MG149再被翻出，改成侦字案，有无政治因素？”其中“告罚”和“告发”同音。

(2)文字使用更加简洁，出现很多组合词。

由于推文对内容字数的严格要求，使得用户在文字使用上更加简洁，出现了很多组合词。但是在信息检索时我们并不能穷举出所有的词。如在关于台湾地区领导人选举的推文中，会经常出现“状告”、“控告”、“提告”、“申告”等词。不难发现它们之间有着相同的组合结构。

针对以上情况，本发明提出一种基于编辑距离的负面信息模式模糊匹配方法。

编辑距离是俄罗斯科学家Vladimir Levenshtein在1965年提出的一个概念，所以又称为Levenshtein距离。最经典的编辑距离定义为：两个字符串之间，由一个转换成另外一个所需要的最少的操作次数。在Levenshtein的定义体系中有三种原子操作包括：替换、插入、删除等。在Damerau的定义体系中有四种原子操作包括：插入、删除、替换、相邻交换。Levenshtein距离可以处理多重编辑错误，而Damerau距离只能处理单一的编辑错误。本发明重点介绍Levenshtein距离。

基于汉字的编辑距离计算方法如下。

基于汉字的编辑距离计算方法主要是研究在进行汉字字符串匹配时，两个字符串之间的编辑距离。在本发明中模式是由Entity和Trigger组成，Trigger为模式串的核心组成部分，它是连接上下文的关键。同时，在针对台湾地区领导人选举具体背景情况下，Entity中关键人物或党政组织不会出现大的变化，截止本发明撰写时，重要人物都在本发明的Entity表中。在对相关推文进行具体统计分析后，推文中有很多对Entity表中的人物的简称为别称，但是出现非别称但是意指同一个人的只有“蔡依林”与“蔡英文”。如“民进党主席蔡依林表示...党主席换人了？-政治-自由时报电子报”，这里的蔡依林其实指的是蔡英文。这类推文通常是一些网名发表的无意义的垃圾推文。

Μ＝{E_i|i＝1,2}，

E_i＝{t_ij|j＝1,2...n}，

设Dist₁为模式串与目标串之间的最小编辑距离，则：

基于拼音的编辑距离计算方法如下。

定义：设Μ′为数据库中定义的负面信息类型的集合，E′为负面信息类型，t′为代表每个负面信息类型的Trigger词，即：Μ′＝{E′_m|m＝1,2}，E′_m＝{t′_mk|k＝1,2...n}。

设Φ为待匹配的目标串，x为目标串中的元素，即：Φ′＝{x_i′|i＝1,2...n}。

设Dist₂为模式串与目标串之间的最小编辑距离，则：

其中，|t′_mk∩x_i′|为模式串与目标串集合的交集，实际意义为模式串和目标串的最大匹配长度。例如：当t′_mk为“tongpi”,x_i′为“tongma”,则它们的最大匹配长度为4。|t′_mk∪x_i′|为模式串与目标串集合的并集，实际意义是模式串与目标串中包含所有字符的最小长度和，“tongpi”和“tongma”的最小长度和为8。Dif(||x_i′|-|t′_mk||)为模式串与目标串的字符长度差，考虑到用户使用拼音输入法时的习惯，本发明设定当有多个目标串与模式串匹配时，目标串与模式串之间的长度差越小，则认为两者之间的距离越近。同时本发明参照字母在电脑键盘上的位置，设定一个单字母距离矩阵。即在键盘上的位置越相近，两者之间的距离越小，从而确定|β|的值。

当两个字符串的长度不同时计算字符串中的字符在键盘上的距离是没有意义的，因此只有当Dif(||x_i′|-|t′_mk||)的值等于零时才会计算β的值。因此进行改进得到：

其中：

在计算键盘上字母之间的距离时参考用户在使用键盘时的标准手势。

在标准的键盘手势使用规则中左手小拇指负责的字母为“Q,A,Z”，左手无名指负责的字母为“W,S,X”，左手中指负责的字母为“E,D,C”，左手食指负责的为“R,F,V,T,G,B”,对应的右手小拇指负责的字母为“P”，右手无名指负责的字母“O,L”，右手中指负责的为“I,K”，右手大拇指负责的字母为“U,J,M,Y,H,N”。因为键盘上的字母组成的并不是一个完整的矩阵，本发明在充分考虑用户使用标准的键盘手势情况下，根据同一个手指负责的字母之间的距离更小的原则，将第二行和第三行的字母向左靠齐，同时对右边的位置进行填充处理。定义β的取值公式如下：

其中，为键盘中两个字母的最大距离，根据本发明定义的键盘中任意两个字母之间的距离计算公式：得到：进而得到：

最终，得到基于拼音的编辑距离计算公式为：

其中：

基于编辑距离的模式模糊匹配方法如下。

本发明在针对所研究问题的具体背景情况，采用基于汉字距离和拼音距离相结合的模式模糊匹配方法。定义：Dist＝αminDist₁+(1-α)minDist₂，其中，Dist为最后汉字距离和拼音距离的加权和，minDist₁为汉字的最小编辑距离，minDist₂为拼音的最小编辑距离。α为加权系数。

基于编辑距离的负面信息模式模糊匹配方法流程如图1所示。

其中，编辑距离指的是汉字距离和拼音距离的加权和；数据库中的Trigger表和Entity表指的关键词扩展方法扩展后的表。方法步骤如下所示：

输入：Trigger类关键词集合M＝{t_ij}，Entity类关键词集合O＝{e_mn}，标注数据集D＝{d_i}，编辑距离阈值α；

输出：负面推文集合D′＝{d_i′}；

实验结果分析

在本发明的实验中，由于Trigger词多由两个字组成，所以计算汉字的编辑距离时，要么是0.5，要么是1，要么是0,。即拼音的编辑距离对最后编辑距离的贡献比较大。因此，本发明在最后取加权系数时尽量最小化α的值。如果完全忽略汉字的距离即α得值取为0的话，当遇到同音不同字的问题时无法很好的区分与原来精确匹配的差距，如上文提到的“告发”与“告罚”。同时在最终处理的过程中，拼音的编辑距离是在汉字的编辑距离的基础上提出的，即当汉字的编辑距离为0.5时才会计算拼音的编辑距离。所以本发明最终取α的值为0.01。实验数据集为第二章中人工标注的5000条推文数据。评价指标选用第三章描述的查准率、查全率和F-score。图2、3、4分别示出了基于编辑距离的负面信息模式模糊匹配方法的查准率、查全率、F-score。

图2中横坐标表示的是编辑距离的阈值。纵坐标为在加权系数α的取值为0.01，取阈值步长为0.01得出的本发明的基于编辑距离的负面信息模式模糊匹配方法的查准率。从图中可以看出，随着编辑距离的增加，查准率成下降趋势。当编辑距离为0即为模式精确匹配时查准率最高。当编辑距离大于0.46时，查准率下降到0.65以下，基本上已经没有实际使用价值了。分析原因主要是随着编辑距离的增加，与原始关键词的“相似度”越小，所匹配出的词的负面性也可能越小。最极端的情况是：如果设定的编辑距离的阈值为1，即只要所匹配的推文中含有原始关键词表中的任意一个字都会输出匹配结果。例如原始词表中的“告发”会跟所有含有“告”和“发”的推文匹配出结果，如“发现”、“发烧”、“告诉”、“告别”等，而这些词几乎不带有任何负面性。

图3横坐标表示的是编辑距离的阈值。纵坐标为在加权系数α的取值为0.01，取阈值步长为0.01得出的本发明的基于编辑距离的负面信息模式模糊匹配方法的查全率。从图中可以看出，随着编辑距离的增加，查准率成上升趋势。当编辑距离为0即为模式精确匹配时查准率最低。当编辑距离为0.46时，查全率上升到0.7以上。分析原因主要是随着编辑距离的增加，匹配出的不相关内容也越多，同时匹配到的原始关键词中没有的负面性词语的几率也越大。

图4横坐标表示的是编辑距离的阈值。纵坐标为在加权系数α的取值为0.01，取阈值步长为0.01得出的本发明的基于编辑距离的负面信息模式模糊匹配方法的F-score。从图中可以看出当编辑距离为0即为模式精确匹配时F-score为0.708。当编辑距离为0-0.39之间时，F-score为0.718。当编辑距离为0.39-0.42之间时，F-score为0.710。当编辑距离为0.46时，F-score的值最大为0.743。当编辑距离大于0.5时，F-score成下降趋势。当编辑距离为0.6时F-score下降到0.35以下，此时已经没有太大的实际意义了。当阈值在0-0.39之间时，查准率、查全率和F-score都是比较稳定的值。主要是，此时拼音的编辑距离主要为“同音不同字”时的距离，即编辑距离为0.005。

综合分析，本发明所提出的基于编辑距离的负面信息模式模糊匹配方法在一定程度上提高了负面信息检测的F-score，证明了这种方法的可行性和实用性。提高的程度不高的主要原因是：从Trigger类关键词来看，本发明所定义的Trigger词大多由两个字组成，造成在计算汉字编辑距离时出现只有“0”、“0.5”和“1”三种情况，从而使得汉字的距离无效化。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。以上所述仅是本发明的优选实施方式，应当指出，由于文字表达的有限性，而客观上存在无限的具体结构，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进、润饰或变化，也可以将上述技术特征以适当的方式进行组合；这些改进润饰、变化或组合，或未经改进将发明的构思和技术方案直接应用于其它场合的，均应视为本发明的保护范围。

Claims

1.一种基于编辑距离的负面信息模式模糊匹配方法，其特征在于,包括：通过基于汉字的编辑距离计算方法计算两个字符串的汉字距离；通过基于拼音的编辑距离计算方法计算两个相应字符串的拼音字符串间的拼音距离；采用将汉字距离与拼音距离相结合的模式模糊匹配方法，来进行负面信息检测，在模式匹配的过程中先计算推文中所有的词语与Trigger(触发词)类关键词的距离Dist，当存在Dist的值小于设定的编辑距离阈值时再与Entity(实体词)类关键词进行匹配。

2.如权利要求1所述的基于编辑距离的负面信息模式模糊匹配方法，其特征在于：所述基于汉字的编辑距离计算过程中，只考虑Trigger表中的词语与待匹配词语之间的距离，目标串按模式串长度进行连续字符串匹配，汉字的编辑距离Dist₁计算公式为：

\underset{j}{m i n} {Dist}_{1} (t_{i j}, x_{i}) = 1 - \frac{| t_{i j} \cap x_{i} |}{| t_{i j} |},

其中|t_ij∩x_i|为目标串与模式串集合的交集，实际意义为目标串与模式串的最大匹配长度，|t_ij|为模式串的长度。

3.如权利要求1所述的基于编辑距离的负面信息模式模糊匹配方法，其特征在于：所述基于拼音的编辑距离计算过程中，通过比较待匹配的词语的拼音与Trigger表中的词语的拼音，计算编辑距离，拼音的编辑距离Dist₂计算公式为：

\underset{k}{m i n} {Dist}_{2} (t_{m k}^{'}, {x_{i}}^{'}) = 1 - \frac{| t_{m k}^{'} \cap {x_{i}}^{'} |}{| t_{m k}^{'} \cup {x_{i}}^{'} | + f (d)},

其中，|t′_mk∩x′_i|为模式串与目标串集合的交集，实际意义为模式串和目标串的最大匹配长度，|t′_mk∪x′_i|为模式串与目标串集合的并集，实际意义是模式串与目标串中包含所有字符的最小长度和，Dif(||x′_i|-|t′_mk||)为模式串与目标串的字符长度差，|β|为键盘中两字母的距离。

4.如权利要求3所述的基于编辑距离的负面信息模式模糊匹配方法，其特征在于：在标准的键盘手势使用规则中，根据同一个手指负责的字母之间的距离更小的原则，将第二行和第三行的字母向左靠齐，同时对右边的位置进行填充处理，定义β的取值公式如下：

β = [\begin{matrix} (0, 0) & (0, 1) & (0, 2) & ... & (0, 9) \\ (1, 0) & (1, 1) & ... & (1, 8) & n u l l \\ (2, 0) & ... & (2, 6) & n u l l & n u l l \end{matrix}],

在考虑键盘距离的影响不会弱化其他距离的作用情况下，得到：

f (d) = \{\begin{matrix} D i f (| | x_{i}^{'} | - | t_{m k}^{'} | |) & | x_{i}^{'} | &NotEqual; | t_{m k}^{'} | \\ \frac{| β |}{\max (β_{i_{1} j_{1}}, β_{i_{2} j_{2}}) \times | x_{i}^{'} |} & | x_{i}^{'} | = | t_{m k}^{'} | \end{matrix},

键盘中任意两个字母之间的距离计算公式为：得到键盘中两个字母的最大距离进而得到：

f (d) = \{\begin{matrix} D i f (| | x_{i}^{'} | - | t_{m k}^{'} | |) & | x_{i}^{'} | &NotEqual; | t_{m k}^{'} | \\ \frac{| β |}{11 \times | x_{i}^{'} |} & | x_{i}^{'} | = | t_{m k}^{'} | \end{matrix} .

5.如权利要求1-4任一所述的基于编辑距离的负面信息模式模糊匹配方法，其特征在于：所述基于编辑距离的模式模糊匹配方法，在模式匹配的过程中先计算推文中所有的词语与Trigger类关键词的距离Dist，Dist＝αmin Dist₁+(1-α)min Dist₂，其中，Dist为最后汉字距离和拼音距离的加权和，min Dist₁为汉字的最小编辑距离，min Dist₂为拼音的最小编辑距离，α为加权系数；当存在Dist的值小于设定的编辑距离阈值时再与Entity类关键词进行匹配，匹配到Entity后输出结果即为负面信息。