CN106127222A - 一种基于视觉的字符串相似度计算方法及相似性判断方法 - Google Patents

一种基于视觉的字符串相似度计算方法及相似性判断方法 Download PDF

Info

Publication number
CN106127222A
CN106127222A CN201610420846.XA CN201610420846A CN106127222A CN 106127222 A CN106127222 A CN 106127222A CN 201610420846 A CN201610420846 A CN 201610420846A CN 106127222 A CN106127222 A CN 106127222A
Authority
CN
China
Prior art keywords
character
similarity
character string
compared
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610420846.XA
Other languages
English (en)
Other versions
CN106127222B (zh
Inventor
柳厅文
张洋
亚静
李全刚
时金桥
郭莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201610420846.XA priority Critical patent/CN106127222B/zh
Publication of CN106127222A publication Critical patent/CN106127222A/zh
Application granted granted Critical
Publication of CN106127222B publication Critical patent/CN106127222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于视觉的字符串相似度计算方法及相似性判断方法。本发明的字符串相似度计算方法为:1)将两待比较字符串中的每一字符分别转化为一对应灰度图片;2)将步骤1)得到的图片的每一行灰度值进行拼接,得到对应图片的一维向量;3)对两待比较字符串中任意两不同字符,计算这两个字符对应的两一维向量的相似度,根据该相似度确定所选两字符的字符相似度;4)基于上述得到的字符相似度和字符位置计算两待比较字符串的视觉相似度。该方法考虑到了不同的字符在人的视觉方法所呈现的不同差异,所计算得到的字符串相似度更加符合人的主观感受。

Description

一种基于视觉的字符串相似度计算方法及相似性判断方法
技术领域
本发明涉及字符串匹配领域,尤其涉及基于视觉的字符串相似度计算方法,该发明考虑了字符串相似度在人的视觉方面所呈现的差异,可以基于人的视觉特点计算字符串的相似度。
背景技术
长期以来,由于相似重复记录存在的普遍性、表现的复杂性,以及对后续数据处理和辅助决策影响的严重性,如何检测和消除相似字符串的重复记录一直是数据清洗研究的重要主题之一。此外,字符串相似度的计算在恶意域名检测系统、抄袭检测系统、自动评分系统、防代码剽窃系统、网页搜索等领域都有着重要的应用。
目前,字符串相似度计算方法有很多,如编辑距离算法(Levenshtein Distance),最长公共子串算法(Longest Common Subsequences,LCS)等。
例如,使用两个字符串的编辑距离来计算其相似度,即考虑转换成目标字符串所操作的个数,包括替换、增加、删除等。编辑距离可以反映出个字符串的绝对差异。但是,这些字符串相似度的计算方法只考虑的操作的次数,却没有考虑其在人们视觉方面所产生的差异。比如,“g00gle”与谷歌“google”的相似度在人的视觉方面所呈现的差异要远小于“goqqgle”与谷歌“google”的相似度。
所以,基于人的视觉特点,可以更好的呈现字符串的相似度。
目前的各种字符串匹配方法,更多的是从字符串角度考虑其相似度,并没有很好地考虑到字符所呈现出的视觉特点。本发明,基于视觉的字符串相似度计算方法,考虑了字符串相似度在人的视觉方面所呈现的差异,可以基于人的视觉特点计算字符串的相似度。
发明内容
本发明的目的在于提供一种基于视觉的字符串相似度计算方法,该方法考虑到了不同的字符在人的视觉方法所呈现的不同差异,所计算得到的字符串相似度更加符合人的主观感受。
本发明的技术关键点在于:
1.字符格栅化
将待处理字符格栅化为图片,为了便于后续的向量化,只存储其灰度特征,所以使用灰度图片存储。
2.字符向量化
以行为单位,将图片的每一行灰度值进行拼接,最终得到一维向量。
对于一个字符,转换之后只有一行,但是有多个值。比如,字符“1”转成灰度以后如图1所示,是一个大矩阵,但是我们将每一行都首尾相接起来,最终只有一行。所以,一个字符对应一个图片,一个图片对应一个向量。
3.字符相似度计算
计算两待比较域名中可以使用的所有字符两两之间的相似度,如果字符串是域名的情况,则可以使用的字符有38个:26个英文小写字母(a-z)、10个数字(0-9)、英文句号(.)、英文横线(-)。具体使用的字集合根据使用场景来确定。该步骤主要用于事先计算并存储的任意两个字符的相似度,以便后续字符串相似度时使用。
对任意两个字符计算其所得向量的余弦距离,示意图如图2所示(其中,上面是数字1,下面是字符L的小写,相似度是0.0332,已经很相似了,仔细看图片还是会发现有些许不同)。其中:
V1=[...,1,...1,...1,...]
Vl=[...,0,...0,...0,...]
C [ V 1 , V l ] = 1 - S C [ V 1 , V l ] = 1 - V 1 · V l | | V 1 | | · | | V l | | = 1 - 43 46 43 = 0.0332
C表示字符相似度,Sc表示余弦相似度。其中,余弦相似度为公知技术。
4.字符串相似度计算
基于上述得到的字符相似度,改进了编辑距离(Levenshtein Distance)公式,使其加入字符的视觉度量,更好的呈现字符串的视觉相似度。其中,未改进之前的计算方式del、ins、sub为固定值1。改进之后,del、ins、sub的计算方式则根据字符串动态变化,del、ins、sub分别代表删除、插入、替换操作对字符串相似度的影响。
D(i,j)表示字符串的视觉相似度,i和j为字符串中字符的位置信息,si为字符串s的第i个字符,tj为字符串t的第j个字符。C[si,tj]为si和tj的字符相似度。编辑距离为公知方法。C为上述计算得到的字符相似矩阵,α为经验参数。
D ( i , j ) = m i n D ( i - 1 , j ) + d e l ( i , j , s i ) D ( i , j - 1 ) + i n s ( i , j , t j ) D ( i - 1 , j - 1 ) + s u b ( i , j , s i , t j )
d e l ( i , j ) = i n s ( i , j ) = α m i n ( i , j ) s u b ( i , j ) = α min ( i , j ) × C [ s i , t j ] , α ≤ 1
对于给定的字符串s和t,字符串长度分别是M和N,则字符串s和t的视觉相似度为:D(M,N)。通过公式:
D ( i , j ) = m i n D ( i - 1 , j ) + d e l ( i , j , s i ) D ( i , j - 1 ) + i n s ( i , j , t j ) D ( i - 1 , j - 1 ) + s u b ( i , j , s i , t j )
可以递推求解出所有的D(i,j),其中i∈[0,M],j∈[0,N]。当i=M,j=N时,可以得到D(M,N)即“字符串s的前M个字符构成的字符串”和“字符串t的前N个字符构成的字符串”的相似度,即我们要求解的目标。需要说明的是,D(i,j)的计算过程是一个递推的过程,递推的边界是D(0,0),D(1,0),D(0,1)。而D(i,j)是两个字符串相似度,表示“字符串s的前i个字符构成的字符串”和“字符串t的前j个字符串构成的字符串”的相似度。
在具体的每一轮递推计算时,D(i,j)的值需要从D(i-1,j)+del(i,j,si)、D(i,j-1)+ins(i,j,tj)、D(i-1,j-1)+sub(i,j,si,tj)中选取最小的值。而我们求解的视觉相似度,实质是在求解两个字串之间,由一个转成另一个所需的最少操作次数。根据公式,我们定义了3种操作,分别是将一个字符替换成另一个字符,插入一个字符,删除一个字符。求解视觉相似度,即把一个字符串s最少经过多少步操作变成字符串t。这也是编辑距离的思想,我们提出的视觉相似度方法主要修改了编辑距离的一些参数,加入了对字符的视觉相似度考量。
本发明提供的基于视觉的字符串相似度计算方法,如图3,该方法的主要步骤包括:
1.字符格栅化,首先将字符转换成灰度图片,即格栅化处理;
2.字符向量化,将每一个格栅化后的图片都映射成一个向量,该向量的每一个维度值都代表着图片每一个像素的灰度值;
3.字符相似度计算,对任意两个字符计算其所得向量的余弦距离,最终得到字符相似度矩阵;
4.字符串相似度计算,改进了编辑距离(Levenshtein Distance),并加入了字符视觉相似矩阵,使得计算得到的字符串相似度更加符合人的视觉感受。
与现有技术相比,本发明的积极效果为:
1.该方法考虑到了不同的字符在人的视觉方法所呈现的不同差异,所计算得到的字符串相似度更加符合人的主观感受;
2.该方法可以进行简单的配置,使其适用于各类字符串视觉相似度计算场景,例如,可以修改字体、修改字符格栅大小,配置经验参数等;
3.该方法不仅可以用于英文字符串的相似度计算,可以基于中文字体来进行中文字符串的相似度计算;
4.该方法基于编辑距离,模型简单,易实现,且容易扩展到其他的应用场景。
附图说明
图1为字符“1”转成灰度以后的示意图;
图2为字符的视觉相似度;
图3为本发明基于视觉的字符串相似性计算方法流程图;
图4为将字符转换为向量的示意图。
具体实施方式
下面结合附图和实施例对本发明进行进一步详细描述。
实例1基于视觉的字符串相似度计算方法
以计算“g00gle”与谷歌“google”为例,计算其视觉相似度:
1.首先,通过配置字体、格栅化大小等参数,得到格栅化的字体图片,如图1,示例字符为字符“L”的小写字符:
2.然后,将所有的字符转换为向量,示意图过程如图4。
3.字符相似度计算
对任意两个字符计算其所得向量的余弦距离,计算公式如下:
1 - c o s θ = 1 - V i · V j | V i | × | V j |
最终结果如下表:(表示字符两两之间的字符相似度)
4.字符串相似度计算,使用改进的编辑距离(Levenshtein Distance)公式计算,公式如下:
D ( i , j ) = m i n D ( i - 1 , j ) + d e l ( i , j , s i ) D ( i , j - 1 ) + i n s ( i , j , t j ) D ( i - 1 , j - 1 ) + s u b ( i , j , s i , t j )
d e l ( i , j ) = i n s ( i , j ) = α m i n ( i , j ) s u b ( i , j ) = α min ( i , j ) × C [ s i , t j ] , α ≤ 1
改进的编辑距离伪代码如下:
编辑距离为公知技术。改进的编辑距离方法并没有改变算法的流程,只是修改了其中的3个函数,即del、ins、sub。其中,对于del,代表删除操作对于字符串相似度的影响,对于ins,代表插入操作对于字符串相似度的影响,对于sub,代表替换操作对于字符串相似度的影响。未改进之前,del、ins、sub都为固定数值,即1。改进之后,数值动态变化,与要操作的字符相关,更能够反应其视觉距离。
令α=0.99997(经验参数值),经过计算,可以得到所有D(i,j):
其中,表中的格式为i j D(i,j),D(6,6)即为最终要求解的“g00gle”与谷歌“google”的视觉相似度:0.0778253628782。

Claims (7)

1.一种基于视觉的字符串相似度计算方法,其步骤为:
1)将两待比较字符串中的每一字符分别转化为一对应灰度图片;
2)将步骤1)得到的图片的每一行灰度值进行拼接,得到对应图片的一维向量;
3)对两待比较字符串中任意两不同字符,计算这两个字符对应的两一维向量的相似度,根据该相似度确定所选两字符的字符相似度;
4)基于上述得到的字符相似度和字符位置计算两待比较字符串的视觉相似度。
2.如权利要求1所述的方法,其特征在于,计算该视觉相似度的方法为:首先利用公式计算两待比较字符串中两字符串的视觉相似度D(i,j);然后根据递推关系可以求解出D(M,N),其中,M和N分别表示两个字符串的长度,D(M,N)即两待比较字符串的视觉相似度;其中,del()、ins()、sub()分别代表删除、插入、替换操作对字符串相似度的影响,si为字符串s的第i个字符,tj为字符串t的第j个字符,i和j为两待比较字符串中字符的位置信息;α≤1,C为所述字符相似度构成的字符相似矩阵,α为经验参数,C[si,tj]为si和tj的字符相似度。
3.如权利要求2所述的方法,其特征在于,根据公式计算字符串s的第i个字符与字符串t的第j个字符的字符相似度;其中,Vi为字符串s的第i个字符对应的一维向量,Vj为字符串t的第j个字符对应的一维向量。
4.如权利要求2所述的方法,其特征在于,α≤1。
5.如权利要求1所述的方法,其特征在于,对字符进行格栅化,将该字符转化为一对应灰度图片。
6.如权利要求1所述的方法,其特征在于,以行为单位,将图片的每一行灰度值进行拼接,,得到对应图片的一维向量。
7.一种基于视觉的字符串相似性判断方法,其步骤为:
1)将两待比较字符串中的每一字符分别转化为一对应灰度图片;
2)将步骤1)得到的图片的每一行灰度值进行拼接,得到对应图片的一维向量;
3)对两待比较字符串中任意两不同字符;计算这两个字符对应的两一维向量的相似度,根据该相似度确定所选两字符的字符相似度;
4)基于上述得到的字符相似度和字符位置计算两待比较字符串的视觉相似度;
5)根据该视觉相似度确定两待比较字符串是否相似。
CN201610420846.XA 2016-06-13 2016-06-13 一种基于视觉的字符串相似度计算方法及相似性判断方法 Active CN106127222B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610420846.XA CN106127222B (zh) 2016-06-13 2016-06-13 一种基于视觉的字符串相似度计算方法及相似性判断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610420846.XA CN106127222B (zh) 2016-06-13 2016-06-13 一种基于视觉的字符串相似度计算方法及相似性判断方法

Publications (2)

Publication Number Publication Date
CN106127222A true CN106127222A (zh) 2016-11-16
CN106127222B CN106127222B (zh) 2019-06-04

Family

ID=57270837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610420846.XA Active CN106127222B (zh) 2016-06-13 2016-06-13 一种基于视觉的字符串相似度计算方法及相似性判断方法

Country Status (1)

Country Link
CN (1) CN106127222B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107909054A (zh) * 2017-11-30 2018-04-13 任艳 图片文本的相似度评价方法及装置
WO2018177071A1 (zh) * 2017-03-31 2018-10-04 杭州海康威视数字技术股份有限公司 车牌号码匹配方法及装置、字符信息匹配方法及装置
CN110781876A (zh) * 2019-10-15 2020-02-11 北京工业大学 一种基于视觉特征的仿冒域名轻量级检测方法及系统
CN111478877A (zh) * 2019-01-24 2020-07-31 安碁资讯股份有限公司 网域名称识别方法及网域名称识别装置
CN113535887A (zh) * 2020-04-15 2021-10-22 北京金山数字娱乐科技有限公司 一种公式相似度检测方法及装置
CN113807087A (zh) * 2020-06-16 2021-12-17 中国电信股份有限公司 网站域名相似度检测方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184169A (zh) * 2011-04-20 2011-09-14 北京百度网讯科技有限公司 用于确定字符串信息间相似度信息的方法、装置和设备
CN103870828A (zh) * 2012-12-17 2014-06-18 富泰华工业(深圳)有限公司 图像相似度判断系统及方法
CN104008166A (zh) * 2014-05-30 2014-08-27 华东师范大学 一种基于形态和语义相似度的对话短文本聚类方法
CN104375982A (zh) * 2014-10-21 2015-02-25 中国科学院信息工程研究所 一种确定文本视觉相似度的方法
CN106056111A (zh) * 2015-04-08 2016-10-26 东芝泰格有限公司 图像处理装置及图像处理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184169A (zh) * 2011-04-20 2011-09-14 北京百度网讯科技有限公司 用于确定字符串信息间相似度信息的方法、装置和设备
CN103870828A (zh) * 2012-12-17 2014-06-18 富泰华工业(深圳)有限公司 图像相似度判断系统及方法
CN104008166A (zh) * 2014-05-30 2014-08-27 华东师范大学 一种基于形态和语义相似度的对话短文本聚类方法
CN104375982A (zh) * 2014-10-21 2015-02-25 中国科学院信息工程研究所 一种确定文本视觉相似度的方法
CN106056111A (zh) * 2015-04-08 2016-10-26 东芝泰格有限公司 图像处理装置及图像处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
肖雨 等: "一种融合位置信息的字符串相似度度量方法", 《计算机应用研究》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11093782B2 (en) * 2017-03-31 2021-08-17 Hangzhou Hikvision Digital Technology Co., Ltd. Method for matching license plate number, and method and electronic device for matching character information
WO2018177071A1 (zh) * 2017-03-31 2018-10-04 杭州海康威视数字技术股份有限公司 车牌号码匹配方法及装置、字符信息匹配方法及装置
CN108664957A (zh) * 2017-03-31 2018-10-16 杭州海康威视数字技术股份有限公司 车牌号码匹配方法及装置、字符信息匹配方法及装置
CN108664957B (zh) * 2017-03-31 2021-08-24 杭州海康威视数字技术股份有限公司 车牌号码匹配方法及装置、字符信息匹配方法及装置
CN107909054A (zh) * 2017-11-30 2018-04-13 任艳 图片文本的相似度评价方法及装置
CN111478877B (zh) * 2019-01-24 2022-08-02 安碁资讯股份有限公司 网域名称识别方法及网域名称识别装置
CN111478877A (zh) * 2019-01-24 2020-07-31 安碁资讯股份有限公司 网域名称识别方法及网域名称识别装置
CN110781876A (zh) * 2019-10-15 2020-02-11 北京工业大学 一种基于视觉特征的仿冒域名轻量级检测方法及系统
CN110781876B (zh) * 2019-10-15 2023-11-24 北京工业大学 一种基于视觉特征的仿冒域名轻量级检测方法及系统
CN113535887A (zh) * 2020-04-15 2021-10-22 北京金山数字娱乐科技有限公司 一种公式相似度检测方法及装置
CN113535887B (zh) * 2020-04-15 2024-04-02 北京金山数字娱乐科技有限公司 一种公式相似度检测方法及装置
CN113807087A (zh) * 2020-06-16 2021-12-17 中国电信股份有限公司 网站域名相似度检测方法和装置
CN113807087B (zh) * 2020-06-16 2023-11-28 中国电信股份有限公司 网站域名相似度检测方法和装置

Also Published As

Publication number Publication date
CN106127222B (zh) 2019-06-04

Similar Documents

Publication Publication Date Title
CN106127222A (zh) 一种基于视觉的字符串相似度计算方法及相似性判断方法
CN110909548B (zh) 中文命名实体识别方法、装置及计算机可读存储介质
EP3518122A1 (en) Keyword extraction method, computer device, and storage medium
CN110443239A (zh) 文字图像的识别方法及其装置
CN111143536B (zh) 基于人工智能的信息抽取方法及存储介质和相关装置
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
CN102750552B (zh) 一种手写识别方法、系统及手写识别终端
CN112418216A (zh) 一种复杂自然场景图像中的文字检测方法
CN110532381A (zh) 一种文本向量获取方法、装置、计算机设备及存储介质
CN109559363A (zh) 图像的风格化处理方法、装置、介质和电子设备
CN113657274B (zh) 表格生成方法、装置、电子设备及存储介质
CN112966685B (zh) 用于场景文本识别的攻击网络训练方法、装置及相关设备
CN106682092A (zh) 一种目标检索方法及终端
EP2973212A1 (en) Leveraging previous instances of handwriting for handwriting beautification and other applications
JP2023527615A (ja) 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム
CN115618371A (zh) 一种非文本数据的脱敏方法、装置及存储介质
US20220335073A1 (en) Fuzzy searching using word shapes for big data applications
CN111260428A (zh) 一种商品推荐方法和装置
CN107463624B (zh) 一种基于社交媒体数据进行城市兴趣域识别的方法及系统
CN117078942B (zh) 上下文感知的指称图像分割方法、系统、设备及存储介质
CN114282258A (zh) 截屏数据脱敏方法、装置、计算机设备及存储介质
CN114092948A (zh) 一种票据识别方法、装置、设备以及存储介质
CN116662583B (zh) 一种文本生成方法、地点检索方法及相关装置
CN106778568B (zh) 基于web页面的验证码的处理方法
CN113536751B (zh) 表格数据的处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant