CN106168954A - 一种基于编辑距离的负面信息模式模糊匹配方法 - Google Patents
一种基于编辑距离的负面信息模式模糊匹配方法 Download PDFInfo
- Publication number
- CN106168954A CN106168954A CN201610395661.8A CN201610395661A CN106168954A CN 106168954 A CN106168954 A CN 106168954A CN 201610395661 A CN201610395661 A CN 201610395661A CN 106168954 A CN106168954 A CN 106168954A
- Authority
- CN
- China
- Prior art keywords
- distance
- prime
- editing distance
- pattern
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000000203 mixture Substances 0.000 claims abstract description 20
- 238000000205 computational method Methods 0.000 claims abstract description 11
- 238000001514 detection method Methods 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 2
- 210000003811 finger Anatomy 0.000 description 12
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 210000004932 little finger Anatomy 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 206010037660 Pyrexia Diseases 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2468—Fuzzy queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Automation & Control Theory (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于编辑距离的负面信息模式模糊匹配方法,包括:通过基于汉字的编辑距离计算方法计算两个字符串的汉字距离;通过基于拼音的编辑距离计算方法计算两个相应字符串的拼音字符串间的拼音距离;采用将汉字距离与拼音距离相结合的模式模糊匹配方法,来进行负面信息检测,在模式匹配的过程中先计算推文中所有的词语与Trigger(触发词)类关键词的距离,当值小于设定的编辑距离阈值时再与Entity(实体词)类关键词进行匹配。通过本发明的技术方案,能够有效的提高模式匹配的查全率,同时,在保证查准率的情况下提高模式匹配的F‑score。
Description
技术领域
本发明属于自然语言处理领域,特别涉及一种基于编辑距离的信息模式模糊匹配方法。
背景技术
近几年来,社交网络的迅猛发展格外的引人注目。同时,社交网络平台的自身特点使得人们传统的沟通方式发生了巨大的改变。也使得用户在使用社交网络平台时忽略了很多传统意义上对文字的严格要求。因此,在中文编辑是会出现如下问题:第一,中文输入法带来的同音字替换或由个人习惯带来的近音字替换。中文用户大部分使用中文输入法,而在使用中文输入法时很容易造成一些同音不同字的错误,或是由于地域问题对同一个词会有不同的表达方式。第二,文字使用更加简洁,出现很多组合词。由于推文对内容字数的严格要求,使得用户在文字使用上更加简洁,出现了很多组合词。但是在信息检索时我们并不能穷举出所有的词。这使得对社交网络中的信息进行筛选与匹配变得比以前更加困难。因此,需要有更高效的方法对社交网络中的信息进行处理。
编辑距离是俄罗斯科学家Vladimir Levenshtein在1965年提出的一个概念,所以又称为Levenshtein距离。最经典的编辑距离定义为:两个字符串之间,由一个转换成另外一个所需要的最少的操作次数。在Levenshtein的定义体系中有三种原子操作包括:替换、插入、删除等。
发明内容
本发明的目的在于,为了解决上述问题,提出了一种基于编辑距离的负面信息模式模糊匹配方法,能够有效的提高模式匹配的查全率,同时,在保证查准率的情况下提高模式匹配的F-score。
为实现上述发明目的,本发明采用的基本技术方案包括如下内容:针对具体背景情况,通过基于汉字的编辑距离计算方法计算两个字符串的汉字距离;通过基于拼音的编辑距离计算方法计算两个相应汉字的拼音字符串间的拼音距离;采用将汉字距离与拼音距离相结合的模式模糊匹配方法,来进行负面信息检测,在模式匹配的过程中先计算推文中所有的词语与Trigger(触发词)类关键词的距离,当存在的值小于设定的编辑距离阈值时再与Entity(实体词)类关键词进行匹配。
进一步地,基于汉字的编辑距离计算方法如下所述。
基于汉字的编辑距离计算方法主要是研究在进行汉字字符串匹配时,两个字符串之间的 编辑距离。在本发明中模式是由Entity和Trigger组成,Trigger为模式串的核心组成部分,它是连接上下文的关键。
综上所述,本发明在计算编辑距离的时候,只考虑Trigger表中的词语与待匹配词语之间的距离。因此,本发明定义:设Μ为数据库中定义的负面信息类型的集合,E为负面信息类型,t为代表每个负面信息类型的Trigger词,即:
Μ={Ei|i=1,2};Ei={tij|j=1,2...n},
设Φ为待匹配的目标串,x为目标串中的元素,即:Φ={xi|i=1,2...n},
设Dist1为模式串与目标串之间的最小编辑距离,则:
在本发明中,由于目标串是按模式串长度进行连续字符串匹配,所以定义:
其中|tij∩xi|为目标串与模式串集合的交集,实际意义为目标串与模式串的最大匹配长度。例如:“痛批”与“痛骂”的最大匹配长度为1。|tij|为模式串的长度,如“痛骂”的长度为2。
在本发明中,由于模式串中Trigger词多数是由两个或三个汉字组成,则在匹配的过程中,会有不同的模式串与目标串匹配距离相同。在这种情况下,本发明认为匹配到的次数越多,与模式串之间的距离越小。
进一步地,基于拼音的编辑距离计算方法如下所述。
在社交网络平台的实际应用中,大量用户由于使用拼音输入法会经常产生同音字、近音字的错误。同音字是现代汉语里语音相同但字形和意义不同的字。例如,在我国不同地区由于地域文化差异,在一些发音上也有自己的不同习惯,最常见的有:前后鼻音混用(ing/in,ang/an,eng/en),平卷舌混用(z/zh,c/ch,s/sh),(l/n)混用。在计算模式串与目标串的距离时,本发明给同音字/近音字之间的距离赋予较小的权重。
定义:设Μ′为数据库中定义的负面信息类型的集合,E′为负面信息类型,t′为代表每个负面信息类型的Trigger词,即:
Μ′={E′m|m=1,2},E′m={t′mk|k=1,2...n},
设Φ为待匹配的目标串,x为目标串中的元素,即:Φ′={xi′|i=1,2...n},
设Dist2为模式串与目标串之间的最小编辑距离,则:
在本发明中,由于目标串是先按汉字进行匹配后,再计算拼音的编辑距离,所以定义:
其中,|t′mk∩xi′|为模式串与目标串集合的交集,实际意义为模式串和目标串的最大匹配长度。例如:当t′mk为“tongpi”,xi′为“tongma”,则它们的最大匹配长度为4。|t′mk∪xi′|为模式串与目标串集合的并集,实际意义是模式串与目标串中包含所有字符的最小长度和,“tongpi”和“tongma”的最小长度和为8。Dif(||xi′|-|t′mk||)为模式串与目标串的字符长度差,考虑到用户使用拼音输入法时的习惯,本发明设定当有多个目标串与模式串匹配时,目标串与模式串之间的长度差越小,则认为两者之间的距离越近。同时本发明参照字母在电脑键盘上的位置,设定一个单字母距离矩阵。即在键盘上的位置越相近,两者之间的距离越小,从而确定β的值。
当两个字符串的长度不同时计算字符串中的字符在键盘上的距离是没有意义的,因此只有当Dif(||xi′|-|t′mk||)的值等于零时才会计算β的值。因此对公式进行改进得到:
其中:
在计算键盘上字母之间的距离时参考用户在使用键盘时的标准手势,在标准的键盘手势使用规则中左手小拇指负责的字母为“Q,A,Z”,左手无名指负责的字母为“W,S,X”,左手中指负责的字母为“E,D,C”,左手食指负责的为“R,F,V,T,G,B”,对应的右手小拇指负责的字母为“P”,右手无名指负责的字母“O,L”,右手中指负责的为“I,K”,右手大拇指负责的字母为“U,J,M,Y,H,N”。因为键盘上的字母组成的并不是一个完整的矩阵,本发明在充分考虑用户使用标准的键盘手势情况下,根据同一个手指负责的字母之间的距离更小的原则,将第二行和第三行的字母向左靠齐,同时对右边的位置进行填充处理。定义β的取值公式如下:
在上述公式中,字母在键盘中的位置越近,它们之间的距离越小,例如:“Q”与“A”的距 离为1,“Q”与“W”的距离为1,“W”与“A”的距离为2。在考虑键盘距离的影响不会弱化其他距离的作用情况下,根据键盘中两字母的最大距离对公式进行改进得到:
其中,为键盘中两个字母的最大距离,根据本发明定义的键盘中任意两个字母之间的距离计算公式:得到:
进而得到:
最终,得到基于拼音的编辑距离计算公式为:
其中:
进一步地,基于编辑距离的模式模糊匹配方法如下所述。
本发明在针对所研究问题的具体背景情况,采用基于汉字距离和拼音距离相结合的模式模糊匹配方法,定义:Dist=αminDist1+(1-α)minDist2,其中,Dist为最后汉字距离和拼音距离的加权和,minDist1为汉字的最小编辑距离,minDist2为拼音的最小编辑距离。α为加权系数。
基于编辑距离的模式模糊匹配方法来进行负面信息检测主要是在模式匹配的过程中先计算推文中所有的词语与Trigger类关键词的距离Dist,当存在Dist的值小于设定的编辑距离阈值时再与Entity类关键词进行匹配。匹配到Entity后输出结果即为负面信息。
综上所述,通过本发明的技术方案,能够有效的提高模式匹配的查全率,同时,在保证查准率的情况下提高模式匹配的F-score。
附图说明
参考附图详细描述了本发明,应当理解,附图以及相应的描述应当被理解为是说明性的而非限制性的,其中:
图1示出了基于编辑距离的负面信息模式模糊匹配方法的具体流程;
图2示出了基于编辑距离的负面信息模式模糊匹配方法的查准率;
图3示出了基于编辑距离的负面信息模式模糊匹配方法的查全率;
图4示出了基于编辑距离的负面信息模式模糊匹配方法的F-score。
具体实施方式
下面结合附图以台湾地区领导人选举作为示例来对本发明的优选实施方式进行详细说明。
近几年来,社交网络的迅猛发展格外的引人注目。同时,社交网络平台的自身特点使得人们传统的沟通方式发生了巨大的改变。也使得用户在使用社交网络平台时忽略了很多传统意义上对文字的严格要求。
(1)中文输入法带来的同音字替换或由个人习惯带来的近音字替换。
中文用户大部分使用中文输入法,而在使用中文输入法时很容易造成一些同音不同字的错误,或是由于地域问题对同一个词会有不同的表达方式。如在关于台湾地区的推文中会出现“MG149转侦字案柯文哲首被人告罚,早经调查局彻查,2014台湾地区领导人选举跳针N次的MG149再被翻出,改成侦字案,有无政治因素?”其中“告罚”和“告发”同音。
(2)文字使用更加简洁,出现很多组合词。
由于推文对内容字数的严格要求,使得用户在文字使用上更加简洁,出现了很多组合词。但是在信息检索时我们并不能穷举出所有的词。如在关于台湾地区领导人选举的推文中,会经常出现“状告”、“控告”、“提告”、“申告”等词。不难发现它们之间有着相同的组合结构。
针对以上情况,本发明提出一种基于编辑距离的负面信息模式模糊匹配方法。
编辑距离是俄罗斯科学家Vladimir Levenshtein在1965年提出的一个概念,所以又称为Levenshtein距离。最经典的编辑距离定义为:两个字符串之间,由一个转换成另外一个所需要的最少的操作次数。在Levenshtein的定义体系中有三种原子操作包括:替换、插入、删除等。在Damerau的定义体系中有四种原子操作包括:插入、删除、替换、相邻交换。Levenshtein距离可以处理多重编辑错误,而Damerau距离只能处理单一的编辑错误。本发明重点介绍Levenshtein距离。
基于汉字的编辑距离计算方法如下。
基于汉字的编辑距离计算方法主要是研究在进行汉字字符串匹配时,两个字符串之间的 编辑距离。在本发明中模式是由Entity和Trigger组成,Trigger为模式串的核心组成部分,它是连接上下文的关键。同时,在针对台湾地区领导人选举具体背景情况下,Entity中关键人物或党政组织不会出现大的变化,截止本发明撰写时,重要人物都在本发明的Entity表中。在对相关推文进行具体统计分析后,推文中有很多对Entity表中的人物的简称为别称,但是出现非别称但是意指同一个人的只有“蔡依林”与“蔡英文”。如“民进党主席蔡依林表示...党主席换人了?-政治-自由时报电子报”,这里的蔡依林其实指的是蔡英文。这类推文通常是一些网名发表的无意义的垃圾推文。
综上所述,本发明在计算编辑距离的时候,只考虑Trigger表中的词语与待匹配词语之间的距离。因此,本发明定义:设Μ为数据库中定义的负面信息类型的集合,E为负面信息类型,t为代表每个负面信息类型的Trigger词,即:
Μ={Ei|i=1,2},
Ei={tij|j=1,2...n},
设Φ为待匹配的目标串,x为目标串中的元素,即:Φ={xi|i=1,2...n},
设Dist1为模式串与目标串之间的最小编辑距离,则:
在本发明中,由于目标串是按模式串长度进行连续字符串匹配,所以定义:
其中|tij∩xi|为目标串与模式串集合的交集,实际意义为目标串与模式串的最大匹配长度。例如:“痛批”与“痛骂”的最大匹配长度为1。|tij|为模式串的长度,如“痛骂”的长度为2。
在本发明中,由于模式串中Trigger词多数是由两个或三个汉字组成,则在匹配的过程中,会有不同的模式串与目标串匹配距离相同。在这种情况下,本发明认为匹配到的次数越多,与模式串之间的距离越小。
基于拼音的编辑距离计算方法如下。
在社交网络平台的实际应用中,大量用户由于使用拼音输入法会经常产生同音字、近音字的错误。同音字是现代汉语里语音相同但字形和意义不同的字。例如,在我国不同地区由于地域文化差异,在一些发音上也有自己的不同习惯,最常见的有:前后鼻音混用(ing/in,ang/an,eng/en),平卷舌混用(z/zh,c/ch,s/sh),(l/n)混用。在计算模式串与目标串的距离时,本发明给同音字/近音字之间的距离赋予较小的权重。
定义:设Μ′为数据库中定义的负面信息类型的集合,E′为负面信息类型,t′为代表每个 负面信息类型的Trigger词,即:Μ′={E′m|m=1,2},E′m={t′mk|k=1,2...n}。
设Φ为待匹配的目标串,x为目标串中的元素,即:Φ′={xi′|i=1,2...n}。
设Dist2为模式串与目标串之间的最小编辑距离,则:
在本发明中,由于目标串是先按汉字进行匹配后,再计算拼音的编辑距离,所以定义:
其中,|t′mk∩xi′|为模式串与目标串集合的交集,实际意义为模式串和目标串的最大匹配长度。例如:当t′mk为“tongpi”,xi′为“tongma”,则它们的最大匹配长度为4。|t′mk∪xi′|为模式串与目标串集合的并集,实际意义是模式串与目标串中包含所有字符的最小长度和,“tongpi”和“tongma”的最小长度和为8。Dif(||xi′|-|t′mk||)为模式串与目标串的字符长度差,考虑到用户使用拼音输入法时的习惯,本发明设定当有多个目标串与模式串匹配时,目标串与模式串之间的长度差越小,则认为两者之间的距离越近。同时本发明参照字母在电脑键盘上的位置,设定一个单字母距离矩阵。即在键盘上的位置越相近,两者之间的距离越小,从而确定|β|的值。
当两个字符串的长度不同时计算字符串中的字符在键盘上的距离是没有意义的,因此只有当Dif(||xi′|-|t′mk||)的值等于零时才会计算β的值。因此进行改进得到:
其中:
在计算键盘上字母之间的距离时参考用户在使用键盘时的标准手势。
在标准的键盘手势使用规则中左手小拇指负责的字母为“Q,A,Z”,左手无名指负责的字母为“W,S,X”,左手中指负责的字母为“E,D,C”,左手食指负责的为“R,F,V,T,G,B”,对应的右手小拇指负责的字母为“P”,右手无名指负责的字母“O,L”,右手中指负责的为“I,K”,右手大拇指负责的字母为“U,J,M,Y,H,N”。因为键盘上的字母组成的并不是一个完整的矩阵,本发明在充分考虑用户使用标准的键盘手势情况下,根据同一个手指负责的字母之间的 距离更小的原则,将第二行和第三行的字母向左靠齐,同时对右边的位置进行填充处理。定义β的取值公式如下:
在上述公式中,字母在键盘中的位置越近,它们之间的距离越小,例如:“Q”与“A”的距离为1,“Q”与“W”的距离为1,“W”与“A”的距离为2。在考虑键盘距离的影响不会弱化其他距离的作用情况下,根据键盘中两字母的最大距离对公式进行改进得到:
其中,为键盘中两个字母的最大距离,根据本发明定义的键盘中任意两个字母之间的距离计算公式:得到:进而得到:
最终,得到基于拼音的编辑距离计算公式为:
其中:
基于编辑距离的模式模糊匹配方法如下。
本发明在针对所研究问题的具体背景情况,采用基于汉字距离和拼音距离相结合的模式模糊匹配方法。定义:Dist=αminDist1+(1-α)minDist2,其中,Dist为最后汉字距离和拼音距离的加权和,minDist1为汉字的最小编辑距离,minDist2为拼音的最小编辑距离。α为加权系数。
基于编辑距离的模式模糊匹配方法来进行负面信息检测主要是在模式匹配的过程中先计 算推文中所有的词语与Trigger类关键词的距离Dist,当存在Dist的值小于设定的编辑距离阈值时再与Entity类关键词进行匹配。匹配到Entity后输出结果即为负面信息。
基于编辑距离的负面信息模式模糊匹配方法流程如图1所示。
其中,编辑距离指的是汉字距离和拼音距离的加权和;数据库中的Trigger表和Entity表指的关键词扩展方法扩展后的表。方法步骤如下所示:
输入:Trigger类关键词集合M={tij},Entity类关键词集合O={emn},标注数据集D={di},编辑距离阈值α;
输出:负面推文集合D′={di′};
实验结果分析
在本发明的实验中,由于Trigger词多由两个字组成,所以计算汉字的编辑距离时,要么是0.5,要么是1,要么是0,。即拼音的编辑距离对最后编辑距离的贡献比较大。因此,本发明在最后取加权系数时尽量最小化α的值。如果完全忽略汉字的距离即α得值取为0的话,当遇到同音不同字的问题时无法很好的区分与原来精确匹配的差距,如上文提到的“告发”与“告罚”。同时在最终处理的过程中,拼音的编辑距离是在汉字的编辑距离的基础上提出的,即当汉字的编辑距离为0.5时才会计算拼音的编辑距离。所以本发明最终取α的值为0.01。实验数据集为第二章中人工标注的5000条推文数据。评价指标选用第三章描述的查准率、查全率和F-score。图2、3、4分别示出了基于编辑距离的负面信息模式模糊匹配方法的查准率、 查全率、F-score。
图2中横坐标表示的是编辑距离的阈值。纵坐标为在加权系数α的取值为0.01,取阈值步长为0.01得出的本发明的基于编辑距离的负面信息模式模糊匹配方法的查准率。从图中可以看出,随着编辑距离的增加,查准率成下降趋势。当编辑距离为0即为模式精确匹配时查准率最高。当编辑距离大于0.46时,查准率下降到0.65以下,基本上已经没有实际使用价值了。分析原因主要是随着编辑距离的增加,与原始关键词的“相似度”越小,所匹配出的词的负面性也可能越小。最极端的情况是:如果设定的编辑距离的阈值为1,即只要所匹配的推文中含有原始关键词表中的任意一个字都会输出匹配结果。例如原始词表中的“告发”会跟所有含有“告”和“发”的推文匹配出结果,如“发现”、“发烧”、“告诉”、“告别”等,而这些词几乎不带有任何负面性。
图3横坐标表示的是编辑距离的阈值。纵坐标为在加权系数α的取值为0.01,取阈值步长为0.01得出的本发明的基于编辑距离的负面信息模式模糊匹配方法的查全率。从图中可以看出,随着编辑距离的增加,查准率成上升趋势。当编辑距离为0即为模式精确匹配时查准率最低。当编辑距离为0.46时,查全率上升到0.7以上。分析原因主要是随着编辑距离的增加,匹配出的不相关内容也越多,同时匹配到的原始关键词中没有的负面性词语的几率也越大。
图4横坐标表示的是编辑距离的阈值。纵坐标为在加权系数α的取值为0.01,取阈值步长为0.01得出的本发明的基于编辑距离的负面信息模式模糊匹配方法的F-score。从图中可以看出当编辑距离为0即为模式精确匹配时F-score为0.708。当编辑距离为0-0.39之间时,F-score为0.718。当编辑距离为0.39-0.42之间时,F-score为0.710。当编辑距离为0.46时,F-score的值最大为0.743。当编辑距离大于0.5时,F-score成下降趋势。当编辑距离为0.6时F-score下降到0.35以下,此时已经没有太大的实际意义了。当阈值在0-0.39之间时,查准率、查全率和F-score都是比较稳定的值。主要是,此时拼音的编辑距离主要为“同音不同字”时的距离,即编辑距离为0.005。
综合分析,本发明所提出的基于编辑距离的负面信息模式模糊匹配方法在一定程度上提高了负面信息检测的F-score,证明了这种方法的可行性和实用性。提高的程度不高的主要原因是:从Trigger类关键词来看,本发明所定义的Trigger词大多由两个字组成,造成在计算汉字编辑距离时出现只有“0”、“0.5”和“1”三种情况,从而使得汉字的距离无效化。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。以上所述仅是本发明的优选实施方式,应当 指出,由于文字表达的有限性,而客观上存在无限的具体结构,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进、润饰或变化,也可以将上述技术特征以适当的方式进行组合;这些改进润饰、变化或组合,或未经改进将发明的构思和技术方案直接应用于其它场合的,均应视为本发明的保护范围。
Claims (5)
1.一种基于编辑距离的负面信息模式模糊匹配方法,其特征在于,包括:通过基于汉字的编辑距离计算方法计算两个字符串的汉字距离;通过基于拼音的编辑距离计算方法计算两个相应字符串的拼音字符串间的拼音距离;采用将汉字距离与拼音距离相结合的模式模糊匹配方法,来进行负面信息检测,在模式匹配的过程中先计算推文中所有的词语与Trigger(触发词)类关键词的距离Dist,当存在Dist的值小于设定的编辑距离阈值时再与Entity(实体词)类关键词进行匹配。
2.如权利要求1所述的基于编辑距离的负面信息模式模糊匹配方法,其特征在于:所述基于汉字的编辑距离计算过程中,只考虑Trigger表中的词语与待匹配词语之间的距离,目标串按模式串长度进行连续字符串匹配,汉字的编辑距离Dist1计算公式为:
其中|tij∩xi|为目标串与模式串集合的交集,实际意义为目标串与模式串的最大匹配长度,|tij|为模式串的长度。
3.如权利要求1所述的基于编辑距离的负面信息模式模糊匹配方法,其特征在于:所述基于拼音的编辑距离计算过程中,通过比较待匹配的词语的拼音与Trigger表中的词语的拼音,计算编辑距离,拼音的编辑距离Dist2计算公式为:
其中,|t′mk∩x′i|为模式串与目标串集合的交集,实际意义为模式串和目标串的最大匹配长度,|t′mk∪x′i|为模式串与目标串集合的并集,实际意义是模式串与目标串中包含所有字符的最小长度和,Dif(||x′i|-|t′mk||)为模式串与目标串的字符长度差,|β|为键盘中两字母的距离。
4.如权利要求3所述的基于编辑距离的负面信息模式模糊匹配方法,其特征在于:在标准的键盘手势使用规则中,根据同一个手指负责的字母之间的距离更小的原则,将第二行和第三行的字母向左靠齐,同时对右边的位置进行填充处理,定义β的取值公式如下:
在考虑键盘距离的影响不会弱化其他距离的作用情况下,得到:
键盘中任意两个字母之间的距离计算公式为:得到键盘中两个字母的最大距离进而得到:
5.如权利要求1-4任一所述的基于编辑距离的负面信息模式模糊匹配方法,其特征在于:所述基于编辑距离的模式模糊匹配方法,在模式匹配的过程中先计算推文中所有的词语与Trigger类关键词的距离Dist,Dist=αmin Dist1+(1-α)min Dist2,其中,Dist为最后汉字距离和拼音距离的加权和,min Dist1为汉字的最小编辑距离,min Dist2为拼音的最小编辑距离,α为加权系数;当存在Dist的值小于设定的编辑距离阈值时再与Entity类关键词进行匹配,匹配到Entity后输出结果即为负面信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610395661.8A CN106168954B (zh) | 2016-06-07 | 2016-06-07 | 一种基于编辑距离的负面信息模式模糊匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610395661.8A CN106168954B (zh) | 2016-06-07 | 2016-06-07 | 一种基于编辑距离的负面信息模式模糊匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106168954A true CN106168954A (zh) | 2016-11-30 |
CN106168954B CN106168954B (zh) | 2019-09-13 |
Family
ID=57359132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610395661.8A Active CN106168954B (zh) | 2016-06-07 | 2016-06-07 | 一种基于编辑距离的负面信息模式模糊匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106168954B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108984695A (zh) * | 2018-07-04 | 2018-12-11 | 科大讯飞股份有限公司 | 一种字符串匹配方法及装置 |
CN109840316A (zh) * | 2018-12-21 | 2019-06-04 | 上海诺悦智能科技有限公司 | 一种客户信息制裁名单匹配系统 |
CN106168954B (zh) * | 2016-06-07 | 2019-09-13 | 中国人民解放军国防科学技术大学 | 一种基于编辑距离的负面信息模式模糊匹配方法 |
CN110457423A (zh) * | 2019-06-24 | 2019-11-15 | 平安科技(深圳)有限公司 | 一种知识图谱实体链接方法、装置、计算机设备及存储介质 |
CN110955806A (zh) * | 2019-11-29 | 2020-04-03 | 国家电网有限公司客户服务中心 | 一种针对中文文本的字符串匹配方法 |
CN112069374A (zh) * | 2020-09-18 | 2020-12-11 | 中国工商银行股份有限公司 | 一种银行多个客户编号的识别方法及装置 |
CN114049894A (zh) * | 2022-01-11 | 2022-02-15 | 广州小鹏汽车科技有限公司 | 语音交互方法及其装置、车辆和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101206672A (zh) * | 2007-12-25 | 2008-06-25 | 北京科文书业信息技术有限公司 | 商品搜索无结果智能处理系统及方法 |
CN102214238A (zh) * | 2011-07-01 | 2011-10-12 | 临沂大学 | 一种汉语词语相近性匹配装置及方法 |
CN105487684A (zh) * | 2014-09-28 | 2016-04-13 | 北大方正集团有限公司 | 拼音汉字字符的输出方法和拼音汉字字符的输出装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106168954B (zh) * | 2016-06-07 | 2019-09-13 | 中国人民解放军国防科学技术大学 | 一种基于编辑距离的负面信息模式模糊匹配方法 |
-
2016
- 2016-06-07 CN CN201610395661.8A patent/CN106168954B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101206672A (zh) * | 2007-12-25 | 2008-06-25 | 北京科文书业信息技术有限公司 | 商品搜索无结果智能处理系统及方法 |
CN102214238A (zh) * | 2011-07-01 | 2011-10-12 | 临沂大学 | 一种汉语词语相近性匹配装置及方法 |
CN105487684A (zh) * | 2014-09-28 | 2016-04-13 | 北大方正集团有限公司 | 拼音汉字字符的输出方法和拼音汉字字符的输出装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106168954B (zh) * | 2016-06-07 | 2019-09-13 | 中国人民解放军国防科学技术大学 | 一种基于编辑距离的负面信息模式模糊匹配方法 |
CN108984695A (zh) * | 2018-07-04 | 2018-12-11 | 科大讯飞股份有限公司 | 一种字符串匹配方法及装置 |
CN108984695B (zh) * | 2018-07-04 | 2021-04-06 | 科大讯飞股份有限公司 | 一种字符串匹配方法及装置 |
CN109840316A (zh) * | 2018-12-21 | 2019-06-04 | 上海诺悦智能科技有限公司 | 一种客户信息制裁名单匹配系统 |
CN110457423A (zh) * | 2019-06-24 | 2019-11-15 | 平安科技(深圳)有限公司 | 一种知识图谱实体链接方法、装置、计算机设备及存储介质 |
CN110955806A (zh) * | 2019-11-29 | 2020-04-03 | 国家电网有限公司客户服务中心 | 一种针对中文文本的字符串匹配方法 |
CN112069374A (zh) * | 2020-09-18 | 2020-12-11 | 中国工商银行股份有限公司 | 一种银行多个客户编号的识别方法及装置 |
CN112069374B (zh) * | 2020-09-18 | 2024-04-30 | 中国工商银行股份有限公司 | 一种银行多个客户编号的识别方法及装置 |
CN114049894A (zh) * | 2022-01-11 | 2022-02-15 | 广州小鹏汽车科技有限公司 | 语音交互方法及其装置、车辆和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106168954B (zh) | 2019-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106168954A (zh) | 一种基于编辑距离的负面信息模式模糊匹配方法 | |
CN108492200B (zh) | 一种基于卷积神经网络的用户属性推断方法和装置 | |
CN108984745B (zh) | 一种融合多知识图谱的神经网络文本分类方法 | |
CN110287494A (zh) | 一种基于深度学习bert算法的短文本相似匹配的方法 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN104794169B (zh) | 一种基于序列标注模型的学科术语抽取方法及系统 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN106844741A (zh) | 一种面向特定领域的问题解答方法 | |
CN109657054A (zh) | 摘要生成方法、装置、服务器及存储介质 | |
CN106055658A (zh) | 一种针对Twitter文本事件抽取的方法 | |
CN103869998B (zh) | 一种对输入法所产生的候选项进行排序的方法及装置 | |
CN111027309B (zh) | 一种基于双向长短期记忆网络的实体属性值的抽取方法 | |
CN113032552B (zh) | 一种基于文本摘要的政策要点抽取方法与提取系统 | |
CN105404621A (zh) | 一种用于盲人读取汉字的方法及系统 | |
CN111489746B (zh) | 一种基于bert的电网调度语音识别语言模型构建方法 | |
CN102915122B (zh) | 基于语言模型的智能移动平台拼音输入法 | |
CN113946685B (zh) | 一种融合规则和深度学习的渔业标准知识图谱构建方法 | |
CN114036933A (zh) | 基于法律文书的信息抽取方法 | |
CN108520038B (zh) | 一种基于排序学习算法的生物医学文献检索方法 | |
CN108319584A (zh) | 一种基于改进FP-Growth算法的微博类短文本的新词发现方法 | |
Nishimura et al. | Automatic n-gram language model creation from web resources | |
CN107784123B (zh) | 一种基于主题的搜索优化方法 | |
CN103020046B (zh) | 基于人名起源分类的人名音译方法 | |
CN116932736A (zh) | 一种基于用户需求结合倒排表的专利推荐方法 | |
CN116662643A (zh) | 法条推荐方法、法条推荐系统、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |