CN103902527B - 结合词性的英语近形词干扰项生成方法 - Google Patents

结合词性的英语近形词干扰项生成方法 Download PDF

Info

Publication number
CN103902527B
CN103902527B CN201410126836.6A CN201410126836A CN103902527B CN 103902527 B CN103902527 B CN 103902527B CN 201410126836 A CN201410126836 A CN 201410126836A CN 103902527 B CN103902527 B CN 103902527B
Authority
CN
China
Prior art keywords
character string
similarity
str2
str1
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410126836.6A
Other languages
English (en)
Other versions
CN103902527A (zh
Inventor
盖荣丽
汪祖民
孙晓辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University
Original Assignee
Dalian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University filed Critical Dalian University
Priority to CN201410126836.6A priority Critical patent/CN103902527B/zh
Publication of CN103902527A publication Critical patent/CN103902527A/zh
Application granted granted Critical
Publication of CN103902527B publication Critical patent/CN103902527B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种结合词性的英语近形词干扰项生成方法,包括以下步骤:从词库中选取源单词作为源单词字符串,其他单词作为目标单词字符串,遍历单词库中的所有单词,根据归一化融合相似度算法求出源单词字符串和目标字符串的相似度;把相似度阈值控制在0.6~1.0之间,满足上述阈值范围的单词为候选词;对上步中输出的候选词和源单词进行结合词性的相似度计算,把相似度a阈值控制在0.6~1.0之间,即得到源单词的干扰项;结束一次处理过程。本发明引入了LCS算法进行归一化融合,改变了单纯依赖一种相似度算法计算英语单词相似度的盲目性,提高了生成英语近形词干扰项的可靠性和准确性,解决了相同词义但是不同词性重复出现的问题。

Description

结合词性的英语近形词干扰项生成方法
技术领域
本发明涉及一种自然语言的处理方法,具体的说是一种结合词性的英语近形词干扰项生成方法。
背景技术
英语学习的过程中,经常会遇到一些易混淆的单词。易混词主要包括近义词和近形词等,其中近形词就是具有相似词形的词。例如:形容词sensitive的意思是“敏感的”,而形容词sensible的意思却是“理智的”。尽管sensitive和sensible有共同的词根,词性也相同,但这两个词却不是近义词,而是近形词。在英语测试题或其他英语学习资源的设计中,近形词经常会作为正确词选项的干扰项出现,以此增加选择的难度并且提高学习者对单词的掌握程度。
传统的近形词干扰项生成算法主要采用编辑距离算法计算单词相似度,而编辑距离算法本身存在一些缺陷,导致生成近形词的准确性和合理性上存在不足,干扰项相似度低,设计不合理的问题。
发明内容
针对现有技术中英语单词学习中出现的干扰项相似度低,设计不合理等不足,本发明要解决的技术问题是提供一种能够提高英语单词相似度计算的准确性的结合词性的英语近形词干扰项生成方法。
为解决上述技术问题,本发明采用的技术方案是:
本发明结合词性的英语近形词干扰项生成方法包括以下步骤:
从词库中选取源单词作为源单词字符串str1,其他单词作为目标单词字符串str2,遍历单词库中的所有单词,根据归一化融合相似度算法求出源单词字符串str1和目标字符串str2的相似度a(str1,str2);
把相似度阈值控制在0.6~1.0之间,即相似度0.6≤a(str1,str2)<1.0,满足上述阈值范围的单词输出,作为候选词;
对上步中输出的候选词和源单词进行结合词性的相似度计算,把结合词性的相似度α阈值控制在0.6~1.0之间,即相似度0.6≤α<1.0,输出单词,即得到源单词的干扰项;
结束一次处理过程;
结合词性的相似度计算公式为:
&alpha; = 8 - 8 D ( s t r 1 , s t r 2 ) 25 m a x ( l e n g t h 1 , l e n g t h 2 ) + 24 L C S ( s t r 1 , s t r 2 ) 25 ( l e n g t h 1 + l e n g t h 2 ) + 0.2 b ( s t r 1 , s t r 2 ) - - - ( 8 )
式中,str1为源单词字符串、str2为目标单词字符串,length1、length2分别为源单词字符串和目标单词字符串的长度,D(str1,str2)为源单词字符串和目标单词字符串的编辑距离,LCS(str1,str2)为源单词字符串和目标单词字符串的最长公共子序列的长度,b(str1,str2)为源单词字符串和目标单词字符串代表的两个单词词性的相似度。
所述归一化融合相似度算法包括以下步骤:
通过计算从源单词字符串str1转换到目标单词字符串str2所需要的最少的插入、删除和替换的次数得到编辑距离,依此求出编辑距离相似度;
通过LCS算法得到源单词字符串str1和目标单词字符串str2中最长公共子序列,并根据得到的最长公共子序列的长度求出LCS相似度;
通过对编辑距离相似度和LCS相似度进行归一化融合得到源单词字符串str1和目标单词字符串str2的相似度a(str1,str2)。
通过对编辑距离相似度和LCS相似度进行归一化融合得到源单词字符串str1和目标单词字符串str2的相似度a(str1,str2)公式如下:
a ( s t r 1 , s t r 2 ) = &lambda; 1 - &lambda; 1 &times; D ( s t r 1 , s t r 2 ) m a x ( l e n g t h 1 , l e n g t h 2 ) + 2 &lambda; 2 &times; L C S ( s t r 1 , s t r 2 ) l e n g t h 1 + l e n g t h 2 - - - ( 5 )
式中,str1为源单词字符串、str2为目标单词字符串,length1、length2分别为源单词字符串和目标单词字符串的长度,a(str1,str2)为所求源单词字符串和目标单词字符串的相似度,D(str1,str2)为源单词字符串和目标单词字符串的编辑距离,LCS(str1,str2)为源单词字符串和目标单词字符串的最长公共子序列的长度;λ1、λ2为系数,λ1=0.3~0.5,λ2=0.5~0.7,且λ11=1。
通过计算从源单词字符串str1转换到目标单词字符串str2所需要的最少的插入、删除和替换的次数得到编辑距离步骤为:
如果字符串str1或str2的长度为0,则返回另一个字符串的长度;
构造并初始化一个(m+1)×(n+1)的矩阵D,使第一行和第一列的值从0开始增长;
扫描两字符串,用cost记录结果,若str1[i]=str2[j]则cost=0,否则cost=1;
在矩阵Dij处赋值Di-1,j+1、Di,j-1+1和Di-1,j-1+cost三个中的最小值;
扫描完后,返回矩阵的最后一个值即Dmn即编辑距离D(str1,str2)。
编辑距离算法相似度计算公式:
编辑距离相似度
式中,str1为源单词字符串、str2为目标单词字符串,length1、length2分别为源单词字符串和目标单词字符串的长度,length1=m,length2=n。
通过LCS算法求源单词字符串str1和目标字符串str2中最长公共子序列,并根据得到的最长公共子序列的长度求出LCS相似度步骤为;
如果字符串str1或str2的长度为0,则返回0;
构造并初始化一个(m+1)×(n+1)的矩阵L,使第一行和第一列的值都为0,即L0j=Li0=0,若str1[i]=str2[j]则Lij=1,否则Lij=0;
按公式(3)刷新矩阵L,最后得到矩阵L中的最大值即最长公共子序列长度LCS(str1,str2):
L i j = L i - 1 , j - 1 + 1 , s t r 1 &lsqb; i &rsqb; = s t r 2 &lsqb; j &rsqb; max ( L i - 1 , j , L i , j - 1 ) , s t r 1 &lsqb; i &rsqb; &NotEqual; s t r 2 &lsqb; j &rsqb; - - - ( 3 )
LCS算法相似度计算公式:
LCS相似度
式中,str1为源单词字符串、str2为目标单词字符串,length1、length2分别为源单词字符串和目标单词字符串的长度,LCS(str1,str2)代表源单词字符串和目标单词字符串的最长公共子序列的长度;Lij代表矩阵L中的第i行第j列的元素,length1=m,length2=n。
本发明具有以下有益效果及优点:
1.本发明提出一种改进的计算英语单词相似度的算法。同时结合了单词自身词性进行干扰项设计,提高了英语单词相似度计算的准确性,并能生成更合理的单词干扰项。
2.本发明提出了结合词性的英语近形词干扰项生成方法,在原有的基于编辑距离算法的基础上引入了LCS算法进行归一化融合,改变了单纯依赖一种相似度算法计算英语单词相似度的盲目性,提高了生成英语近形词干扰项的可靠性和准确性。
3.本发明方法在干扰项生成中引入单词词性作为限制条件,很好的解决了相同词义但是不同词性重复出现的问题。
4.本发明方法通过实验验证了干扰项生成算法在准确性和可靠性上的提高,并且能生成效果良好的英语近形词干扰项。
附图说明
图1为本发明方法流程图。
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
本发明在编辑距离算法的基础上引入了LCS算法,并对两者归一化融合,提高了单词的相似度计算的准确性和可靠性。然后在此基础上结合了英语单词本身的词性最为筛选条件,生成更合理的单词干扰项。最后通过实验比较,证明了该算法较传统的基于编辑距离的干扰项生成算法更加准确合理。
如图1所示,本发明一种结合词性的英语近形词干扰项生成方法包括以下步骤:
从词库中选取源单词作为源单词字符串str1,其他单词作为目标单词字符串str2,遍历单词库中的所有单词,根据归一化融合相似度算法求出源单词字符串str1和目标字符串str2的相似度a(str1,str2);
把相似度阈值控制在0.6~1.0之间,即相似度0.6≤a(str1,str2)<1.0,满足上述阈值范围的单词输出,作为候选词;
对上步中输出的候选词和源单词进行结合词性的相似度计算,把相似度α阈值控制在0.6到1.0之间,即相似度0.6≤α<1.0,输出单词,即得到源单词的干扰项;
结束一次处理过程。
所述归一化融合相似度算法包括以下步骤:
通过计算从源单词字符串str1转换到目标单词字符串str2所需要的最少的插入、删除和替换的次数得到编辑距离,依此求出编辑距离相似度;
通过LCS算法得到源字符串str1和目标单词字符串str2中最长公共子序列,并根据得到的最长公共子序列的长度求出LCS相似度;
通过对编辑距离相似度和LCS相似度进行归一化融合得到源单词字符串str1和目标单词字符串str2的相似度a(str1,str2)。
为了减小编辑距离算法本身存在一些缺陷对相似度的影响,在对编辑距离算法和LCS算法求相似度进行归一化融合时,分别把编辑距离算法和LCS算法的系数设置为0.4和0.6,即得到源单词字符串str1和目标单词字符串str2的相似度为a(str1,str2)=0.4α1+0.6α2
编辑距离(Edit Distance)是通过计算由一个字符串转成另一个所需的最少编辑操作次数来衡量两个字符串的相似度,即计算从原字符串S(str1)转换到目标字符串T(str2)所需要的最少的插入、删除和替换的数目。此算法首先由俄国科学家Levenshtein提出的,故又叫Levenshtein距离。例如:S=kitten,T=sitting,转换需要三步:k替换成s,e替换成i,最后插入一个g,那么编辑距离D(str1,str2)=3。
对于字符串str1=[s1,s2…si,…sm],str2=[t1,t2…tj…tn],长度分别为length1=m和length2=n。构造(m+1)×(n+1)的矩阵D(Dij表示从s1…si到t1…tj的编辑距离),计算公式(1)如下:
算法描述:
1)字符串str1或str2的长度为0,则返回另一个字符串的长度。
2)构造并初始化一个(m+1)×(n+1)的矩阵D,使第一行和第一列的值从0开始增长。
3)扫描两字符串,用cost记录结果,若str1[i]=str2[j]则cost=0,否则cost=1。然后在矩阵Dij处赋值Di-1,j+1、Di,j-1+1和Di-1,j-1+cost三个中的最小值。
4)扫描完后,返回矩阵的最后一个值即Dmn即编辑距离D(str1,str2)。
编辑距离算法相似度计算公式:
编辑距离相似度
式中,str1为源单词字符串、str2为目标单词字符串,length1、length2分别为源单词字符串和目标单词字符串的长度。
编辑距离算法中的插入和删除操作都会引起字符串长度的变化,如此便忽略了字符串的长度对于编辑距离的影响。例如,长度不一的两个相似单词,会有较大的编辑距离,从而使相似度降低。同时,编辑距离算法对于插入、删除、替换三种基本操作的代价值的确定没有统一的、合理的方法,这也会使得计算结果受到一定影响。通过LCS算法的引入进行归一化融合可以降低这种影响,改变了单一依赖编辑距离算法的盲目性,更适合英语单词近形词的设计。
LCS(Longest Common Subsequence)即一个序列中最长的子序列。LCS算法是通过求两个字符串中最长的相同子序列来衡量两个字符串相似度的。例如对于字符串“abcdefgijkmnl”与字符串“ijkhabclmndefgq”的最长公共子序列LCString=“abcdefg”,长度LCS(str1,str2)=7。
算法描述:
1)字符串str1或str2的长度为0,则返回0。
2)构造并初始化一个(m+1)×(n+1)的矩阵L,使第一行和第一列的值都为0(即L0j=Li0=0),若str1[i]=str2[j]则Lij=1,否则Lij=0。
3)按公式(3)刷新矩阵L,最后得到矩阵L中的最大值即最长公共子序列,长度LCS(str1,str2)。
L i j = L i - 1 , j - 1 + 1 , s t r 1 &lsqb; i &rsqb; = s t r 2 &lsqb; j &rsqb; max ( L i - 1 , j , L i , j - 1 ) , s t r 1 &lsqb; i &rsqb; &NotEqual; s t r 2 &lsqb; j &rsqb; - - - ( 3 )
LCS算法相似度计算公式:
LCS相似度
式中,str1为源单词字符串、str2为目标单词字符串,length1、length2分别为源单词字符串和目标单词字符串的长度,LCS(str1,str2)代表源单词字符串和目标单词字符串的最长公共子序列的长度;Lij代表矩阵L中的第i行第j列的元素。
为了减小编辑距离算法本身存在一些缺陷对相似度的影响,在对编辑距离算法和LCS算法求相似度进行归一化融合时,分别把编辑距离算法和LCS算法的系数设置为λ1和λ2,即得到源单词字符串str1和目标单词字符串str2的相似度为a(str1,str2)=λ1×α12×α2,最终得到归一化融合后的公式(5)如下:
a ( s t r 1 , s t r 2 ) = &lambda; 1 - &lambda; 1 &times; D ( s t r 1 , s t r 2 ) m a x ( l e n g t h 1 , l e n g t h 2 ) + 2 &lambda; 2 &times; L C S ( s t r 1 , s t r 2 ) l e n g t h 1 + l e n g t h 2 - - - ( 5 )
式中,str1为源单词字符串、str2为目标单词字符串,length1、length2分别为源单词字符串和目标单词字符串的长度,a(str1,str2)为所求源单词字符串和目标单词字符串的相似度,D(str1,str2)为源单词字符串和目标单词字符串的编辑距离,LCS(str1,str2)为源单词字符串和目标单词字符串的最长公共子序列的长度;λ1、λ2为系数,λ1=0.3~0.5,λ2=0.5~0.7,且λ12=1。
本实施例中λ1取0.4,λ2取0.6,即λ12=1,代入公式(5),得到:
a ( s t r 1 , s t r 2 ) = 0.4 - 0.4 D ( s t r 1 , s t r 2 ) max ( l e n g t h 1 , l e n g t h 2 ) + 1.2 L C S ( s t r 1 , s t r 2 ) l e n g t h 1 + l e n g t h 2 - - - ( 6 )
归一化融合的相似度算法给出了英语单词在形态方面的相似程度,但是每个英语单词都有词性包括动词、名词、形容词和副词等。在设计相似单词干扰项的设计上存在这样一个问题,两个同义的(或者带有相同词根的)但是词性不同的单词会有很高的相似度,这样也会出现在干扰项中。例如:accelerate(v.加速,促进)和acceleration(n.加速,加速度)意思基本相同而且有相同词根但词性不同,但是学者会很容易区分哪个是动词哪个是名词,故在单词记忆中仅需要记忆其中一个即可。
所以相似度计算中引入单词的词性能很好的解决这方面的问题,即排除干扰项中同时出现相同词义不同词性单词的情况。记词性的相似度为b(str1,str2)=1或0,词性相同记为1,否则为0。在公式(6)的基础上引入词性,同时为公式(6)得到的相似度和词性设置不同的系数μ1和μ2再次进行归一化融合,即得到源单词字符串str1和目标单词字符串str2的相似度为a=μ1×a(str1,str2)+μ2×b(str1,str2),得相似度公式如下:
&alpha; = 0.4 &mu; 1 - 0.4 &mu; 1 &times; D ( s t r 1 , s t r 2 ) m a x ( l e n g t h 1 , l e n g t h 2 ) + 1.2 &mu; 1 &times; L C S ( s t r 1 , s t r 2 ) l e n g t h 1 + l e n g t h 2 + &mu; 2 &times; b ( s t r 1 , s t r 2 ) - - - ( 7 )
本实施例中μ1取0.8,μ2取0.2,即μ12=1,代入公式(7),得到:
&alpha; = 8 - 8 D ( s t r 1 , s t r 2 ) 25 max ( l e n g t h 1 , l e n g t h 2 ) + 24 L C S ( s t r 1 , s t r 2 ) 25 ( l e n g t h 1 , l e n g t h 2 ) + 0.2 b ( s t r 1 , s t r 2 ) - - - ( 8 )
式中,str1为源单词字符串、str2为目标单词字符串,length1、length2分别为源单词字符串和目标单词字符串的长度,D(str1,str2)为源单词字符串和目标单词字符串的编辑距离,LCS(str1,str2)为源单词字符串和目标单词字符串的最长公共子序列的长度,b(str1,str2)为源单词字符串和目标单词字符串代表的两个单词词性的相似度(词性相同为1,不同为0)。
实验结果与分析
实验在Eclipse平台上用Java语言设计完成,选取CET4+CET6词库中的单词作为实验对象,进行了两组实验。
第一组实验分别采用公式(2)和公式(6)输出干扰项,对传统的基于编辑距离的相似度算法和基于归一化融合的相似度算法生成的干扰项进行相似度分析比较。对随机单词instruct的近形词干扰项(相似度0.6≤a<1.0,输出8个干扰项)按相似度由大到小顺序输出,括号中数字表示他们的相似度,结果如表1:
表1.两种算法输出干扰项的对比
从表1可以看出,两种算法输出的干扰项有一定的区别。前四个干扰项基本相同,但是在后四个干扰项相差很明显。采用基于归一化融合相似度算法输出的干扰项有更高的相似度和易混淆性,更符合人们对近形词的理解,更加准确。
实验二,采用公式(8)输出干扰项,即以实验一中基于归一化融合的干扰项作为候选词,结合词性后重新输出(相似度a≥0.6,输出7个干扰项),结果如表2:
表2.结合词性的干扰项
实验二中输出的前四个干扰项都属于及物动词(vt),而实验一中基于归一化融合的前四个干扰项没有相同的词性。显然实验二中的干扰项在保留高相似度的基础上,拥有更高的易混淆性,更符合近形词干扰项设计的合理性。
结合两组实验,证明了相对于传统的基于编辑距离生成干扰项的算法,结合词性的英语近形词干扰项生成算法提高了单词相似度计算的准确性和单词干扰项的合理性。

Claims (5)

1.一种结合词性的英语近形词干扰项生成方法,其特征在于包括以下步骤:
从词库中选取源单词作为源单词字符串str1,其他单词作为目标单词字符串str2,遍历单词库中的所有单词,根据归一化融合相似度算法求出源单词字符串str1和目标字符串str2的相似度a(str1,str2);
把相似度阈值控制在0.6~1.0之间,即相似度0.6≤a(str1,str2)<1.0,满足上述阈值范围的单词输出,作为候选词;
对上步中输出的候选词和源单词进行结合词性的相似度计算,把结合词性的相似度α阈值控制在0.6~1.0之间,即相似度0.6≤α<1.0,输出单词,即得到源单词的干扰项;
结束一次处理过程;
结合词性的相似度计算公式为:
式中,str1为源单词字符串、str2为目标单词字符串,length1、length2分别为源单词字符串和目标单词字符串的长度,D(str1,str2)为源单词字符串和目标单词字符串的编辑距离,LCS(str1,str2)为源单词字符串和目标单词字符串的最长公共子序列的长度,b(str1,str2)为源单词字符串和目标单词字符串代表的两个单词词性的相似度。
2.按权利要求1所述的结合词性的英语近形词干扰项生成方法,其特征在于所述归一化融合相似度算法包括以下步骤:
通过计算从源单词字符串str1转换到目标单词字符串str2所需要的最少的插入、删除和替换的次数得到编辑距离,依此求出编辑距离相似度;
通过LCS算法得到源单词字符串str1和目标单词字符串str2中最长公共子序列,并根据得到的最长公共子序列的长度求出LCS相似度;
通过对编辑距离相似度和LCS相似度进行归一化融合得到源单词字符串str1和目标单词字符串str2的相似度a(str1,str2)。
3.按权利要求2所述的结合词性的英语近形词干扰项生成方法,其特征在于:
通过对编辑距离相似度和LCS相似度进行归一化融合得到源单词字符串str1和目标单词字符串str2的相似度a(str1,str2)公式如下:
式中,str1为源单词字符串、str2为目标单词字符串,length1、length2分别为源单词字符串和目标单词字符串的长度,a(str1,str2)为所求源单词字符串和目标单词字符串的相似度,D(str1,str2)为源单词字符串和 目标单词字符串的编辑距离,LCS(str1,str2)为源单词字符串和目标单词字符串的最长公共子序列的长度;λ1、λ2为系数,λ1=0.3~0.5,λ2=0.5~0.7,且λ12=1。
4.按权利要求2所述的结合词性的英语近形词干扰项生成方法,其特征在于:通过计算从源单词字符串str1转换到目标单词字符串str2所需要的最少的插入、删除和替换的次数得到编辑距离步骤为:
如果字符串str1或str2的长度为0,则返回另一个字符串的长度;
构造并初始化一个(m+1)×(n+1)的矩阵D,使第一行和第一列的值从0开始增长;
扫描两字符串,用cost记录结果,若str1[i]=str2[j]则cost=0,否则cost=1;
在矩阵Dij处赋值Di-1,j+1、Di,j-1+1和Di-1,j-1+cost三个中的最小值;
扫描完后,返回矩阵的最后一个值即Dmn即编辑距离D(str1,str2);
编辑距离算法相似度计算公式:
式中,str1为源单词字符串、str2为目标单词字符串,length1、length2分别为源单词字符串和目标单词字符串的长度,length1=m,length2=n。
5.按权利要求2所述的结合词性的英语近形词干扰项生成方法,其特征在于:
通过LCS算法求源单词字符串str1和目标字符串str2中最长公共子序列,并根据得到的最长公共子序列的长度求出LCS相似度步骤为;
如果字符串str1或str2的长度为0,则返回0;
构造并初始化一个(m+1)×(n+1)的矩阵L,使第一行和第一列的值都为0,即L0j=Li0=0,若str1[i]=str2[j]则Lij=1,否则Lij=0;
按公式(3)刷新矩阵L,最后得到矩阵L中的最大值即最长公共子序列长度LCS(str1,str2):
LCS算法相似度计算公式:
式中,str1为源单词字符串、str2为目标单词字符串,length1、length2分别为源单词字符串和目标单词字符串的长度,LCS(str1,str2)代表源单词字符串和目标单词字符串的最长公共子序列的长度;Lij代表矩阵L中的第i行第j列的元素,length1=m,length2=n。
CN201410126836.6A 2014-03-31 2014-03-31 结合词性的英语近形词干扰项生成方法 Expired - Fee Related CN103902527B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410126836.6A CN103902527B (zh) 2014-03-31 2014-03-31 结合词性的英语近形词干扰项生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410126836.6A CN103902527B (zh) 2014-03-31 2014-03-31 结合词性的英语近形词干扰项生成方法

Publications (2)

Publication Number Publication Date
CN103902527A CN103902527A (zh) 2014-07-02
CN103902527B true CN103902527B (zh) 2017-01-25

Family

ID=50993857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410126836.6A Expired - Fee Related CN103902527B (zh) 2014-03-31 2014-03-31 结合词性的英语近形词干扰项生成方法

Country Status (1)

Country Link
CN (1) CN103902527B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117464B (zh) * 2018-03-02 2023-12-22 南京邮电大学 一种基于编辑距离的数据相似度检测方法
CN108733646B (zh) * 2018-04-11 2022-09-06 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN109508458B (zh) * 2018-10-31 2023-05-26 北京国双科技有限公司 法律实体的识别方法及装置
CN110196848B (zh) * 2019-04-09 2022-04-12 广联达科技股份有限公司 一种面向公共资源交易数据的清洗去重方法及其系统
CN110909161B (zh) * 2019-11-12 2022-04-08 西安电子科技大学 基于密度聚类和视觉相似度的英文单词分类方法
CN112579646A (zh) * 2020-12-15 2021-03-30 中国建设银行股份有限公司 筛选清单的方法和装置
CN112559559A (zh) * 2020-12-24 2021-03-26 中国建设银行股份有限公司 清单相似度的计算方法、装置、计算机设备和存储介质
CN113268972B (zh) * 2021-05-14 2022-01-11 东莞理工学院城市学院 两英语单词外观相似度的智能计算方法、系统、设备和介质
CN113705221B (zh) * 2021-08-27 2023-11-10 北京百度网讯科技有限公司 一种单词推送方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102354354A (zh) * 2011-09-28 2012-02-15 辽宁国兴科技有限公司 一种基于信息指纹技术的图片密码生成认证方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7653621B2 (en) * 2003-07-30 2010-01-26 Oracle International Corporation Method of determining the similarity of two strings

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102354354A (zh) * 2011-09-28 2012-02-15 辽宁国兴科技有限公司 一种基于信息指纹技术的图片密码生成认证方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Transposition invariant string matching;Veli Makinen,Gonzalo Navarro,Ecko Ukkonen;《Journal of Algorithms》;20040718;第56卷(第2期);全文 *
基于改进编辑距离的字符串相似度求解算法;姜华等;《计算机工程》;20140131;第40卷(第1期);全文 *
基于编辑距离结合词性的词相似度算法;梅筱,刘海鹏;《中国科技论文在线》;20101210;第3.2.2节 *
多种字符串相似度算法的比较研究;牛永洁,张成;《计算机与数字工程》;20120626;第40卷(第3期);第3.1节,3.2节 *
编辑距离算法及其在英语易混词自动抽取中的应用;马立东;《智能计算机与应用》;20130228;第3卷(第1期);第2节,第4节,图4 *

Also Published As

Publication number Publication date
CN103902527A (zh) 2014-07-02

Similar Documents

Publication Publication Date Title
CN103902527B (zh) 结合词性的英语近形词干扰项生成方法
CN110489538B (zh) 基于人工智能的语句应答方法、装置及电子设备
CN102568475B (zh) 用于普通话水平测评的系统和方法
US9443193B2 (en) Systems and methods for generating automated evaluation models
Deacon et al. Assessing direct contributions of morphological awareness and prosodic sensitivity to children’s word reading and reading comprehension
US11327971B2 (en) Assertion-based question answering
US7912722B2 (en) Method and system for text retrieval for computer-assisted item creation
KR100853173B1 (ko) 통계적 자동 번역 방식에 기반한 음성 자동 통역 시스템 및그에 적용되는 번역 처리 방법 및 그 훈련방법
CN111738002A (zh) 基于Lattice LSTM的古文领域命名实体识别方法和系统
CN107978315A (zh) 基于语音识别的对话式放射治疗计划系统及制定方法
Gomaa et al. Arabic short answer scoring with effective feedback for students
Walker 20 Variation analysis
CN110489554A (zh) 基于位置感知互注意力网络模型的属性级情感分类方法
Wankerl et al. An Analysis of Perplexity to Reveal the Effects of Alzheimer's Disease on Language
CN116484837A (zh) 表格数据的文本描述生成方法及系统
Škraba et al. DEVELOPMENT OF ALGORITHM FOR COMBINATION OF CLOUD SERVICES FOR SPEECH CONTROL OF CYBER-PHYSICAL SYSTEMS.
JP2021131557A (ja) 学習支援装置及び出題方法
Dikici et al. Performance Comparison of Training Algorithms for Semi-Supervised Discriminative Language Modeling.
Wang An English listening and speaking ability training system based on binary decision tree
Sung et al. Analysis on Vowel and Consonant Sounds of Patent's Speech with Velopharyngeal Insufficiency (VPI) and Simulated Speech
Qiu et al. Artificial error generation with fluency filtering
KR102721100B1 (ko) 적대적 학습을 통한 질의응답 학습모델의 생성 방법 및 장치
Soiffer A flexible design for accessible spoken math
Dobre A comparison between bleu and meteor metrics used for assessing students within an informatics discipline course
Levenbach Phon Times: Improving Dutch phoneme recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170125