CN110909161B - 基于密度聚类和视觉相似度的英文单词分类方法 - Google Patents

基于密度聚类和视觉相似度的英文单词分类方法 Download PDF

Info

Publication number
CN110909161B
CN110909161B CN201911097973.0A CN201911097973A CN110909161B CN 110909161 B CN110909161 B CN 110909161B CN 201911097973 A CN201911097973 A CN 201911097973A CN 110909161 B CN110909161 B CN 110909161B
Authority
CN
China
Prior art keywords
english
letter
word
words
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911097973.0A
Other languages
English (en)
Other versions
CN110909161A (zh
Inventor
毛莎莎
齐梦男
杨谨瑗
缑水平
焦李成
石光辉
路凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201911097973.0A priority Critical patent/CN110909161B/zh
Publication of CN110909161A publication Critical patent/CN110909161A/zh
Application granted granted Critical
Publication of CN110909161B publication Critical patent/CN110909161B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Abstract

一种基于密度聚类和视觉相似度的英文单词分类方法,其步骤为:英文单词预处理;计算所选英文单词与每个英文单词的视觉相似度和距离;若邻域集中单词个数大于或等于2,则将所选单词加入空簇后选择未分类英文单词;处理未访问的未分类英文单词;对已访问的未分类英文单词,直接将其加入簇;判断是否有未分类英文单词,若有则选择未分类英文单词,否则将簇作为新一类单词标记为已访问;若单词均已访问,输出各类。本发明通过计算英文单词之间的视觉相似度与距离,并利用距离进行密度聚类,可以将视觉相似的英文单词分别组成一类,以提高对英文单词的记忆。

Description

基于密度聚类和视觉相似度的英文单词分类方法
技术领域
本发明属于物理技术领域,更进一步涉及文本分类技术领域中的一种基于密度聚类和视觉相似度的英文单词分类方法。本发明通过将视觉上相似的英文单词划分为一类,摒弃不可归入任一类的英文单词,从而方便英文单词记忆,用以解决单词记忆困难、单词容易混淆的问题。
背景技术
英语是一种拼写文字,其单词组成过程是由字母构成音素,再由音素构成词素,最后由词素构成单词,但是人们在面对拼写相似的单词时,从视觉上往往容易混淆,从而造成了记忆困难的问题。
中国科学院信息工程研究所拥有的专利技术“一种基于视觉的字符串相似度计算方法及相似性判断方法”(专利申请号201610410846.X,公开号CN 106127222 A,授权公告号CN 106127222 B)中公开了一种基于视觉的字符串相似度计算的可用于英语单词分类的方法。该方法的实施步骤是:步骤1,将两个待比较英文单词中的每一字符分别转化为一对应灰度图片;步骤2,将灰度图片中的每一行灰度值进行拼接后得到一维向量;步骤3,通过计算两一维向量的相似度来确定英文单词中任意两个字符的相似度;步骤4,通过字符相似度和字符位置计算两个待比较英文单词的视觉相似度。该方法虽然能够衡量英文单词视觉上相似度,并用于分类,从而提高单词的学习速度和记忆速度,但是,该方法仍然存在的不足之处是,由于该方法在计算英文单词相似度之前需要计算待比较英文单词中任意两个字符的字符相似度,使得计算量变大,从而出现计算速度慢的问题。
王洪全在其申请的专利文献“按英语单词长度分类便于记忆管理的词汇系列表”(专利申请号201010599160.4,公开号CN 102054382 A)中公开了一种按英语单词长度分类后构造词汇系列表的方法。该构造词汇系列表中使用的分类方法的实施步骤是:步骤1,获取所有的英语单词;步骤2,设计各个类别的长度;步骤3,按照设计好的长度将单词进行分类。该方法虽然能够根据单词的长度进行划分,从而提高单词的记忆速度,但是,该分类方法仍然存在的不足之处是,由于该方法只是根据单词的长度进行分类,分类后单词之间的区别特征不明显,因此不能更好的提高记忆单词的效率。
发明内容
本发明的目的在于针对上述已有技术的不足,提出一种基于密度聚类和视觉相似度的英文单词分类方法,用于解决对含有至少两个英文单词的集合中将视觉上相似的英文单词分为一类,并摒弃不属于任何一类的英文单词的问题。
实现本发明目的的思路是,将本发明中的英文单词预处理方法,视觉相似度公式以及距离公式应用到已有的密度聚类DBSCAN方法中,实现将含有至少两个英文单词的集合中将视觉上相似的英文单词分为一类,并摒弃不属于任何一类的英文单词的目的;所述预处理、视觉相似度公式和距离公式的原理分别为:对视觉上易混淆的相似字母进行替换处理、基于最长公共子序列长度与出现位置不同来计算相似度和根据反比例函数将视觉相似度公式变换得到距离公式。
本发明的具体实现步骤如下:
(1)构建原始待分类单词集合:
将读入n个拼写互不相同的待分类的小写英文单词组成一个原始待分类单词集合,并将集合中所有的英文单词标记为未访问,其中,n≥2;
(2)选一个未访问的英文单词:
在原始待分类单词集合中任意选一个未访问的英文单词,并将其标记为已访问;
(3)对每个英文单词与所选英文单词进行预处理:
(3a)对于原始待分类单词集合所有英文单词中的每一个字母,按字母在单词中的顺序排列组成该英文单词的字母串;
(3b)对于所选英文单词中的每一个字母,按字母在单词中的顺序排列组成所选英文单词的字母串;
(3c)寻找原始待分类单词集合中每个英文单词的字母串与所选英文单词的字母串相同位置的相似字母;
(3d)用每一个相似字母的对应字母替换所有的相似字母;
(4)利用下述视觉相似度公式,计算所选英文单词与原始待分类单词集合中的每个英文单词的视觉相似度:
Figure GDA0003469498620000031
其中,S(W,Vj)表示所选英文单词W与原始待分类单词集合中的第j个英文单词Vj的视觉相似度;Yj与Xj分别表示原始待分类单词集合中的第j个英文单词与所选英文单词由步骤(3d)对两单词的字母串的相似字母进行相同替换得到的字母串,j=1,2,3,…,n;l表示求字母串中字母个数的操作,|·|表示取绝对值操作,C表示求最长公共子序列操作,d表示根据偏差计算方法计算出的最长公共子序列首字母位置偏移所导致的偏差,a表示一个实数参数,取值范围为[0,1],max表示取最大值操作;
所述求最长公共子序列操作是指:字母串Yj和字母串Xj中的每一个字母作为一个字符,得到由每个字母串组成的字符串,求出这两个字符串的最长公共子序列,将最长公共子序列中的每一个字符作为一个字母组成字母串,为字母串Yj和字母串Xj的最长公共子序列;
(5)利用下述的距离公式,计算所选英文单词与原始待分类单词集合中的每个英文单词的距离:
Figure GDA0003469498620000032
其中,J(W,Vj)表示所选英文单词W与原始待分类单词集合中的第j个英文单词Vj的距离,m表示一个正实数参数,其取值范围为(0,0.1];
(6)生成邻域集和空簇:
依次从原始待分类单词集合中选择所有与所选英文单词的距离小于等于e的英文单词组成所选英文单词的邻域集;
生成一个用于存储分类后英文单词的空簇;
(7)判断所选英文单词的邻域集中英文单词个数是否大于或等于2,若是,将所选英文单词加入簇后执行步骤(8),否则,执行步骤(12);
(8)从所选英文单词的邻域集中随机选一个未分类英文单词;
(9)判断所选的未分类英文单词在原始待分类英文单词集合中是否被标记为已访问,若是,将所选的未分类英文单词加入簇后执行步骤(11);否则,执行步骤(10);
(10)处理所选的未分类英文单词:
(10a)利用与步骤(3)至步骤(6)相同的方法,依次对所选的未分类英文单词与原始待分类单词集合中的每个英文单词进行预处理、计算所选的未分类英文单词与原始待分类单词集合中的每个英文单词的视觉相似度、再计算所选的未分类英文单词与原始待分类单词集合中的每个英文单词的距离、最后依次从原始待分类单词集合中选择所有与所选的未分类英文单词的距离小于等于e的英文单词组成所选的未分类英文单词的邻域集;
(10b)判断所选的未分类英文单词的邻域集中英文单词个数是否大于或等于2;若是,则执行步骤(10c),否则,执行步骤(10d);
(10c)将所选英文单词的邻域集与所选的未分类英文单词的邻域集中所有单词组成新的所选英文单词的邻域集后执行步骤(10d);
(10d)将所选的未分类英文单词加入簇后执行步骤(11);
(11)判断所选英文单词的邻域集中是否有未分类英文单词,若是,则执行步骤(8);否则,将簇中的所有的英文单词组成一个英文单词集合作为新的一类单词,并将这些英文单词标记为已访问后执行步骤(12);
(12)判断原始待分类英文单词集合中是否有标记为未访问的英文单词,若是,则执行步骤(2),否则执行步骤(13);
(13)输出分好类的单词
本发明与现有技术相比有以下优点:
本发明利用对所选英文单词与原始待分类单词集合中的每个英文单词进行预处理,计算所选英文单词与原始待分类单词集合中的每个英文单词的视觉相似度,计算所选英文单词与原始待分类单词集合中的每个英文单词的距离,克服了在计算英文单词相似度之前需要计算待比较英文单词中任意两个字符的字符相似度,使得计算量变大,从而出现计算速度慢的问题和分类后单词之间的区别特征不明显,因此不能更好地提高记忆单词的效率的问题,使得本发明具有相似度计算速度快,利用视觉上的相似性很好地衡量了英文单词之间的区别特征以精准分类从而利于记忆的优点。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图1对本发明做进一步描述。
(1)构建原始待分类单词集合:
将读入的n个拼写互不相同的待分类的小写英文单词组成一个原始待分类单词集合,且后续操作对该集合本身均无更改,并将集合中所有的英文单词标记为未访问,其中,n≥2。
(2)选一个未访问的英文单词。
在原始待分类单词集合中任意选一个未访问的英文单词,并将其标记为已访问。
(3)对每个英文单词与所选英文单词进行预处理。
(3a)对于原始待分类单词集合所有英文单词中的每一个字母,按字母在单词中的顺序排列组成该英文单词的字母串。
(3b)对于所选英文单词中的每一个字母,按字母在单词中的顺序排列组成所选英文单词的字母串。
(3c)寻找原始待分类单词集合中每个英文单词的字母串与所选英文单词的字母串相同位置的相似字母。
(3d)用每一个相似字母的对应字母替换所有的相似字母。
所述的相似字母是指:“u”与“v”,“a”与“o”,“p”与“q”,“b”与“d”。
所述的相似字母的对应字母是指:“u”与“v”的对应字母为“u”,“a”与“o”的对应字母为“a”,“p”与“q”的对应字母为“p”,“b”与“d”的对应字母为“b”。
所述用每一个相似字母的对应字母替换所有的相似字母,是指对于原始待分类单词集合中每个英文单词的字母串,分别构建一个所选英文单词的字母串,对于两个字母串的所有相同位置的相似字母,用每个相似字母的对应字母去替代。
利用相似字母的对应字母来替代相似字母的操作,是为了让两个在相同位置具有视觉上相似字母的英文单词在衡量视觉相似度时更为相似,即符合了人眼的视觉效果。
(4)利用下述视觉相似度公式,计算所选英文单词与原始待分类单词集合中的每个英文单词的视觉相似度。
Figure GDA0003469498620000061
其中,S(W,Vj)表示所选英文单词W与原始待分类单词集合中的第j个英文单词Vj的视觉相似度;Yj与Xj分别表示原始待分类单词集合中的第j个英文单词与所选英文单词由步骤(3d)对两单词的字母串的相似字母进行相同替换得到的字母串,j=1,2,3,…,n;l表示求字母串中字母个数的操作,|·|表示取绝对值操作,C
表示求最长公共子序列操作,d表示根据偏差计算方法计算出的最长公共子序列首字母位置偏移所导致的偏差,a表示一个实数参数,取值范围为[0,1],max表示取最大值操作。
所述求最长公共子序列操作是指:字母串Yj和字母串Xj中的每一个字母作为一个字符,得到由每个字母串组成的字符串,求出这两个字符串的最长公共子序列,将最长公共子序列中的每一个字符作为一个字母组成字母串,为字母串Yj和字母串Xj的最长公共子序列。
上述数据相似度公式中,|l(Yj)-l(Xj)|>3代表了字母串Yj与字母串Xj中字母个数相差大于3,l(C(Xj,Yj))=0代表了字母串Yj与字母串Xj没有最长公共子序列,d>l(C(Xj,Yj))代表了最长公共子序列首字母位置偏移所导致的偏差比最长公共子序列所含字母个数大,显然以上三种情况字母串Yj与字母串Xj视觉上十分不相似,则将利用这两个字母串计算视觉相似度的两个英文单词的视觉相似度设置为0。
所述的偏差计算方法的步骤如下:
第一步:找出字母串Yj和字母串Xj的每一个最长公共子序列的首字母,将所有首字母组成一个首字母集合;首字母集合中对相同的首字母只存在一个。
第二步:从左往右依次查找字母串Yj与字母串Xj中属于首字母集合的字母,以每个查找到的字母为中心,记录该字母左边字母的个数,将字母串Yj中记录的最少的字母个数记为m1;将字母串Xj中记录的最少的字母个数记为m2
第三步:对比m1与m2的大小:
当m1<m2时,从左往右依次查找字母串Xj中与字母串Yj中从左往右数第m1+1个字母相同的字母,以每个相同字母为中心,记录该字母左边的字母个数,将记录的最少的字母个数记为t1,将|t1-m1|的值作为最长公共子序列首字母位置偏移所导致的偏差。
当m1>m2时,从左往右依次查找字母串Yj中与字母串Xj中从左往右数第m2+1个字母相同的字母,以每个相同字母为中心,记录该字母左边的字母个数,将记录的最少的字母个数记为t2,将|t2-m2|的值作为最长公共子序列首字母位置偏移所导致的偏差。
当m1=m2时,利用与m1<m2时所采用的相同方法,计算出|t1-m1|的值,利用与m1>m2时所采用的相同的方法,计算出|t2-m2|的值。
判断|t1-m1|是否大于|t2-m2|,若是,则将|t2-m2|的值作为最长公共子序列首字母位置偏移所导致的偏差,否则,将|t1-m1|的值作为最长公共子序列首字母位置偏移所导致的偏差。
计算最长公共子序列首字母位置偏移所导致的偏差,是为了迎合人从左往右看的视觉习惯,使在两个字母串中从左往右最早出现最长公共子序列字首母的位置偏差越大,惩罚就越大,两字母串所代表的单词在视觉上就越不相似。
(5)利用下述的距离公式,计算所选英文单词与原始待分类单词集合中的每个英文单词的距离:
Figure GDA0003469498620000071
其中,J(W,Vj)表示所选英文单词W与原始待分类单词集合中的第j个英文单词Vj的距离,m表示一个正实数参数,其取值范围为(0,0.1]。
因为需要将视觉相似度由区间[0,1]映射到某一个闭区间上作为距离以便于分类中使用,且视觉相似度为1时,距离为0,随着视觉相似度增大距离减小,所以在此条件下,利用反比例函数及其平移变换,可得到上述距离公式。
(6)生成邻域集和空簇:
依次从原始待分类单词集合中选择所有与所选英文单词的距离小于等于e的英文单词组成所选英文单词的邻域集。
所述的e为一个正实数参数,取值范围为(0,1]。
生成一个用于存储分类后英文单词的空簇。
(7)判断所选英文单词的邻域集中英文单词个数是否大于或等于2,若是,将所选英文单词加入簇后执行步骤(8),否则,执行步骤(12)。
(8)从所选英文单词的邻域集中随机选一个未分类英文单词。
(9)判断所选的未分类英文单词在原始待分类英文单词集合中是否被标记为已访问,若是,将所选的未分类英文单词加入簇后执行步骤(11);否则,执行步骤(10)。
(10)处理所选的未分类英文单词:
(10a)利用与步骤(3)至步骤(6)相同的方法,依次对所选的未分类英文单词与原始待分类单词集合中的每个英文单词进行预处理、计算所选的未分类英文单词与原始待分类单词集合中的每个英文单词的视觉相似度、再计算所选的未分类英文单词与原始待分类单词集合中的每个英文单词的距离、最后依次从原始待分类单词集合中选择所有与所选的未分类英文单词的距离小于等于e的英文单词组成所选的未分类英文单词的邻域集。
(10b)判断所选的未分类英文单词的邻域集中英文单词个数是否大于或等于2;若是,则执行步骤(10c),否则,执行步骤(10d)。
(10c)将所选英文单词的邻域集与所选的未分类英文单词的邻域集中所有单词组成新的所选英文单词的邻域集后执行步骤(10d)。
(10d)将所选的未分类英文单词加入簇后执行步骤(11)。
(11)判断所选英文单词的邻域集中是否有未分类英文单词,若是,则执行步骤(8);否则,将簇中的所有的英文单词组成一个英文单词集合作为新的一类单词,并将这些英文单词标记为已访问后执行步骤(12)。
(12)判断原始待分类英文单词集合中是否有标记为未访问的英文单词,若是,则执行步骤(2),否则,执行步骤(13)。
(13)输出分好类的单词。
下面以3个英文单词为例对本发明实现的具体步骤做进一步的详细描述。
第一步,构建原始待分类单词集合为{“disorder”,“disaster”,“issue”},将集合中的每一个单词标记为未访问。
第二步,选一个未访问的英文单词为“disorder”,并且将这个单词标记为已访问。
第三步,将原始待分类单词集合{“disorder”,“disaster”,“issue”}中每一个英文单词与“disorder”进行预处理:
首先,得到原始待分类单词集合{“disorder”,“disaster”,“issue”}中每一个英文单词的字母串“disorder”,“disaster”和“issue”,得到所选英文单词的字母串“disorder”。
其次,寻找原始待分类单词集合{“disorder”,“disaster”,“issue”}中每一个英文单词的字母串与所选英文单词的字母串“disorder”相同位置的相似字母,未发现“disorder”与“disorder”的所有相同位置有相似字母,“disorder”与“disaster”的从左往右数第四个字母构成了相似字母“o”与“a”,未发现“disorder”与“issue”的所有相同位置有相似字母。
最后,用每一个相似字母的对应字母替换所有的相似字母,对于“disorder”与“disorder”,由于不存在相似字母,故不进行替换操作;对于“disorder”与“disaster”,则将找到的相似字母“o”与“a”,均替换为相似字母的对应字母“a”;对于“disorder”与“issue”,由于不存在相似字母,故不进行替换操作。
最终经过预处理后,分别得到字母串为“disorder”与“disorder”、“disarder”与“disaster”和“disorder”与“issue”。
第四步,分别计算“disorder”与原始待分类单词集合{“disorder”,“disaster”,“issue”}中每个英文单词的视觉相似度。
对于英文单词“disorder”与英文单词“disorder”,经预处理后的字母串为“disorder”与“disorder”。两个字母串字母个数相差小于3。存在最长公共子序列且长度为8。最长公共子序列首字母集合为{“d”},首字母在两个字母串中记录的最少字母个数m1与m2均为0,且可得t1=0,t2=0,所以最长公共子序列首字母位置偏移所导致的偏差d=0,小于两个字母串最长公共子序列中的字母个数。两个字母串均包含字母8个字母,其中最大值取8。
令参数a=0.05,按照下式计算英文单词“disorder”与英文单词“disorder”的视觉相似度:
Figure GDA0003469498620000101
对于英文单词“disorder”与英文单词“disaster”,经预处理后的字母串为“disarder”与“disaster”。两个字母串字母个数相差小于3。存在最长公共子序列且长度为6。最长公共子序列首字母集合为{“d”},首字母在两个字母串中记录的最少字母个数m1与m2均为0,且可得t1=0,t2=0,所以最长公共子序列首字母位置偏移所导致的偏差d=0,小于两个字母串最长公共子序列中的字母个数。两个字母串均包含字母8个字母,其中最大值取8。
令参数a=0.05,按照下式,计算英文单词“disorder”与英文单词“disorder”的视觉相似度:
Figure GDA0003469498620000102
对于英文单词“disorder”与英文单词“issue”,经预处理后的字母串为“disorder”与“issue”。两个字母串字母个数相差等于3。存在最长公共子序列且长度为3。最长公共子序列首字母集合为{“i”},首字母在两个字母串中记录的最少字母个数m1与m2为0与1,且可得t1=1,所以最长公共子序列首字母位置偏移所导致的偏差d=|0-1|,小于两个字母串最长公共子序列中的字母个数。两个字母串所含字母个数分别为8与5,其中最大值为8。
令参数a=0.05,按照下式计算英文单词“disorder”与英文单词“issue”的视觉相似度:
Figure GDA0003469498620000103
第五步,令参数m=0.001,按照下式,分别计算“disorder”与原始待分类单词集合{“disorder”,“disaster”,“issue”}中每个英文单词的距离:
Figure GDA0003469498620000111
Figure GDA0003469498620000112
Figure GDA0003469498620000113
第六步,依次选取原始待分类单词集合{“disorder”,“disaster”,“issue”}中选择所有与所选英文单词“disorder”的距离小于等于e的英文单词组成所选英文单词的邻域集,参数e=0.34,得到所选英文单词“disorder”的邻域集为{“disorder”,“disaster”}。建立储存已分类单词的簇,得到簇为{}
第七步,判断发现所选英文单词“disorder”的邻域集{“disorder”,“disaster”}中英文单词的个数大于等于2,所以将英文单词“disorder”加入储存已分类单词的簇,得到簇为{“disorder”}。
第八步,从所选英文单词“disorder”的邻域集{“disorder”,“disaster”}中随机选取一个未分类英文单词“disaster”。
第九步,判断所选的未分类英文单词“disaster”,发现为未访问,则执行第十步。
第十步,处理所选的标记为未访问的未分类英文单词“disaster”:
首先,利用与第三步至第六步相同的方法,得到所选的未分类英文单词“disaster”的邻域集为{“disorder”,“disaster”};
之后,判断发现所选的未分类英文单词“disaster”的邻域集{“disorder”,“disaster”}中英文单词个数大于等于2,此时更新得到新的所选英文单词“disorder”的邻域集为{“disorder”,“disaster”},并将所选的未分类英文单词“disaster”加入簇,则簇为{“disorder”,“disaster”},执行第十一步
第十一步,判断发现所选英文单词“disorder”的邻域集中的单词均已分类,则将此时的簇{“disorder”,“disaster”}作为新的一类单词,并将这些单词标记为已访问后执行第十二步。
第十二步,判断发现原始待分类英文单词集合中还有未访问单词“issue”,则将“issue”作为所选英文单词并标记为已访问。
第十三步,利用与第三步至第六步相同的方法,得到所选英文单词“issue”的邻域集为{“issue”},由于其邻域集中单词个数小于2,故执行第十四步
第十四步,判断发现原始待分类英文单词集合中“disorder”、“disaster”与“issue”均已访问,故分类结束,输出得到的一类单词{“disorder”,“disaster”}。

Claims (4)

1.一种基于密度聚类和视觉相似度的英文单词分类方法,其特征在于,对所选英文单词与原始待分类单词集合中的每个英文单词进行预处理,计算所选英文单词与原始待分类单词集合中的每个英文单词的视觉相似度,计算所选英文单词与原始待分类单词集合中的每个英文单词的距离;该方法的步骤包括如下:
(1)构建原始待分类单词集合:
将读入的n个拼写互不相同的待分类小写英文单词组成一个原始待分类单词集合,并将集合中所有的英文单词标记为未访问,其中,n≥2;
(2)选一个未访问的英文单词:
在原始待分类单词集合中任意选一个未访问的英文单词,并将其标记为已访问;
(3)对每个英文单词与所选英文单词进行预处理:
(3a)对于原始待分类单词集合所有英文单词中的每一个字母,按字母在单词中的顺序排列组成该英文单词的字母串;
(3b)对于所选英文单词中的每一个字母,按字母在单词中的顺序排列组成所选英文单词的字母串;
(3c)寻找原始待分类单词集合中每个英文单词的字母串与所选英文单词的字母串相同位置的相似字母;
(3d)用每一个相似字母的对应字母替换所有的相似字母;所述的相似字母的对应字母是指:“u”与“v”的对应字母为“u”,“a”与“o”的对应字母为“a”,“p”与“q”的对应字母为“p”,“b”与“d”的对应字母为“b”;
(4)利用下述视觉相似度公式,计算所选英文单词与原始待分类单词集合中的每个英文单词的视觉相似度:
Figure FDA0003469498610000021
其中,S(W,Vj)表示所选英文单词W与原始待分类单词集合中的第j个英文单词Vj的视觉相似度;Yj与Xj分别表示原始待分类单词集合中的第j个英文单词与所选英文单词由步骤(3d)对两单词的字母串的相似字母进行相同替换得到的字母串,j=1,2,3,…,n;l表示求字母串中字母个数的操作,|·|表示取绝对值操作,C表示求最长公共子序列操作,d表示根据偏差计算方法计算出的最长公共子序列首字母位置偏移所导致的偏差,a表示一个实数参数,取值范围为[0,1],max表示取最大值操作;
所述求最长公共子序列操作是指:字母串Yj和字母串Xj中的每一个字母作为一个字符,得到由每个字母串组成的字符串,求出这两个字符串的最长公共子序列,将最长公共子序列中的每一个字符作为一个字母组成字母串,为字母串Yj和字母串Xj的最长公共子序列;
(5)利用下述的距离公式,计算所选英文单词与原始待分类单词集合中的每个英文单词的距离:
Figure FDA0003469498610000022
其中,J(W,Vj)表示所选英文单词W与原始待分类单词集合中的第j个英文单词Vj的距离,m表示一个正实数参数,其取值范围为(0,0.1];
(6)生成邻域集和空簇:
依次从原始待分类单词集合中选择所有与所选英文单词的距离小于等于e的英文单词组成所选的英文单词的邻域集;
生成一个用于存储分类后英文单词的空簇;
(7)判断所选英文单词的邻域集中英文单词个数是否大于或等于2,若是,将所选英文单词加入簇后执行步骤(8),否则,执行步骤(12);
(8)从所选英文单词的邻域集中随机选一个未分类英文单词;
(9)判断所选的未分类英文单词在原始待分类英文单词集合中是否被标记为已访问,若是,将所选的未分类英文单词加入簇后执行步骤(11);否则,执行步骤(10);
(10)处理所选的未分类英文单词:
(10a)利用与步骤(3)至步骤(6)相同的方法,依次对所选的未分类英文单词与原始待分类单词集合中的每个英文单词进行预处理、计算所选的未分类英文单词与原始待分类单词集合中的每个英文单词的视觉相似度、再计算所选的未分类英文单词与原始待分类单词集合中的每个英文单词的距离、最后依次从原始待分类单词集合中选择所有与所选的未分类英文单词的距离小于等于e的英文单词组成所选的未分类英文单词的邻域集;
(10b)判断所选的未分类英文单词的邻域集中英文单词个数是否大于或等于2;若是,则执行步骤(10c),否则,执行步骤(10d);
(10c)将所选英文单词的邻域集与所选的未分类英文单词的邻域集中所有单词组成新的所选英文单词的邻域集后执行步骤(10d);
(10d)将所选的未分类英文单词加入簇后执行步骤(11);
(11)判断所选英文单词的邻域集中是否有未分类英文单词,若是,则执行步骤(8);否则,将簇中的所有的英文单词组成一个英文单词集合作为新的一类单词,并将这些英文单词标记为已访问后执行步骤(12);
(12)判断原始待分类英文单词集合中是否还存在未访问的英文单词,若是,则执行步骤(2),否则执行步骤(13);
(13)输出分好类的单词。
2.根据权利要求1所述的基于密度聚类和视觉相似度的英文单词分类方法,其特征在于,步骤(3c)中所述的相似字母是指:“u”与“v”,“a”与“o”,“p”与“q”,“b”与“d”。
3.根据权利要求1所述的基于密度聚类和视觉相似度的英文单词分类方法,其特征在于,步骤(4)中所述偏差计算方法的步骤如下:
第一步:找出字母串Yj和字母串Xj的每一个最长公共子序列的首字母,将所有首字母组成一个首字母集合;首字母集合中对相同的首字母只存在一个;
第二步:从左往右依次查找字母串Yj和字母串Xj中属于首字母集合的字母,以每个查找到的字母为中心,记录该字母左边字母的个数,将字母串Yj中记录的最少的字母个数记为m1;将字母串Xj中记录的最少的字母个数记为m2
第三步:对比m1与m2的大小:
当m1<m2时,从左往右依次查找字母串Xj中与字母串Yj中从左往右数第m1+1个字母相同的字母,以每个相同字母为中心,记录该字母左边的字母个数,将记录的最少的字母个数记为t1,将|t1-m1|的值作为最长公共子序列首字母位置偏移所导致的偏差;
当m1>m2时,从左往右依次查找字母串Yj中与字母串Xj中从左往右数第m2+1个字母相同的字母,以每个相同字母为中心,记录该字母左边的字母个数,将记录的最少的字母个数记为t2,将|t2-m2|的值作为最长公共子序列首字母位置偏移所导致的偏差;
当m1=m2时,利用与m1<m2时所采用的相同方法,计算出|t1-m1|的值,利用与m1>m2时所采用的相同的方法,计算出|t2-m2|的值;
判断|t1-m1|是否大于|t2-m2|,若是,则将|t2-m2|的值作为最长公共子序列首字母位置偏移所导致的偏差,否则,将|t1-m1|的值作为最长公共子序列首字母位置偏移所导致的偏差。
4.根据权利要求1所述基于密度聚类和视觉相似度的英文单词分类方法,其特征在于,步骤(6)中所述的e为一个正实数参数,取值范围为
Figure FDA0003469498610000041
CN201911097973.0A 2019-11-12 2019-11-12 基于密度聚类和视觉相似度的英文单词分类方法 Active CN110909161B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911097973.0A CN110909161B (zh) 2019-11-12 2019-11-12 基于密度聚类和视觉相似度的英文单词分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911097973.0A CN110909161B (zh) 2019-11-12 2019-11-12 基于密度聚类和视觉相似度的英文单词分类方法

Publications (2)

Publication Number Publication Date
CN110909161A CN110909161A (zh) 2020-03-24
CN110909161B true CN110909161B (zh) 2022-04-08

Family

ID=69817205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911097973.0A Active CN110909161B (zh) 2019-11-12 2019-11-12 基于密度聚类和视觉相似度的英文单词分类方法

Country Status (1)

Country Link
CN (1) CN110909161B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268972B (zh) * 2021-05-14 2022-01-11 东莞理工学院城市学院 两英语单词外观相似度的智能计算方法、系统、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077389A (zh) * 2013-01-07 2013-05-01 华中科技大学 一种结合字符级分类和字符串级分类的文本检测和识别方法
CN103218405A (zh) * 2013-03-20 2013-07-24 西安电子科技大学 基于维数约简的集成迁移文本分类方法
CN103257957A (zh) * 2012-02-15 2013-08-21 深圳市腾讯计算机系统有限公司 一种基于中文分词的文本相似性识别方法及装置
CN103902527A (zh) * 2014-03-31 2014-07-02 大连大学 结合词性的英语近形词干扰项生成方法
CN105446957A (zh) * 2015-12-03 2016-03-30 小米科技有限责任公司 相似性确定方法、装置及终端

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI396184B (zh) * 2009-09-17 2013-05-11 Tze Fen Li 一種語音辨認所有語言及用語音輸入單字的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103257957A (zh) * 2012-02-15 2013-08-21 深圳市腾讯计算机系统有限公司 一种基于中文分词的文本相似性识别方法及装置
CN103077389A (zh) * 2013-01-07 2013-05-01 华中科技大学 一种结合字符级分类和字符串级分类的文本检测和识别方法
CN103218405A (zh) * 2013-03-20 2013-07-24 西安电子科技大学 基于维数约简的集成迁移文本分类方法
CN103902527A (zh) * 2014-03-31 2014-07-02 大连大学 结合词性的英语近形词干扰项生成方法
CN105446957A (zh) * 2015-12-03 2016-03-30 小米科技有限责任公司 相似性确定方法、装置及终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于上下文语义信息的图像块视觉单词生成算法;刘硕研;《电子学报》;20101231;全文 *

Also Published As

Publication number Publication date
CN110909161A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
Wilkinson et al. Semantic and verbatim word spotting using deep neural networks
Naz et al. Offline cursive Urdu-Nastaliq script recognition using multidimensional recurrent neural networks
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN111985369A (zh) 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN111126404B (zh) 一种基于改进YOLO v3的古文字及字体识别方法
CN109492666A (zh) 图像识别模型训练方法、装置及存储介质
CN109800437A (zh) 一种基于特征融合的命名实体识别方法
CN110390363A (zh) 一种图像描述方法
CN107871158A (zh) 一种结合序列文本信息的知识图谱表示学习方法及装置
CN110196945B (zh) 一种基于LSTM与LeNet融合的微博用户年龄预测方法
CN107491729B (zh) 基于余弦相似度激活的卷积神经网络的手写数字识别方法
CN111488931A (zh) 文章质量评估方法、文章推荐方法及其对应的装置
Shirbhate et al. Sign language recognition using machine learning algorithm
CN112633431A (zh) 一种基于crnn和ctc的藏汉双语场景文字识别方法
CN108427723A (zh) 一种基于聚类算法和局部感知重构模型的作者推荐方法和系统
CN113948217A (zh) 一种基于局部特征整合的医学嵌套命名实体识别方法
KR102403330B1 (ko) 텍스트 데이터를 표현하는 가상 핑거프린트를 생성 및 활용하기 위한 기법
Romero et al. Modern vs diplomatic transcripts for historical handwritten text recognition
CN110909161B (zh) 基于密度聚类和视觉相似度的英文单词分类方法
Rabby et al. Borno: Bangla handwritten character recognition using a multiclass convolutional neural network
CN109446334A (zh) 一种实现英文文本分类的方法及相关设备
Sen et al. Face recognition using deep convolutional network and one-shot learning
CN111078874A (zh) 基于随机子空间的决策树分类的对外汉语难度评估方法
CN116561272A (zh) 开放域视觉语言问答方法、装置、电子设备及存储介质
CN113723111B (zh) 一种小样本意图识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant