CN113268972A

CN113268972A - 两英语单词外观相似度的智能计算方法、系统、设备和介质

Info

Publication number: CN113268972A
Application number: CN202110527707.8A
Authority: CN
Inventors: 阮春颜; 熊绍丽; 骆剑锋
Original assignee: CITY COLLEGE OF DONGGUAN UNIVERSITY OF TECHNOLOGY; Dongguan Polytechnic
Current assignee: CITY COLLEGE OF DONGGUAN UNIVERSITY OF TECHNOLOGY; Dongguan Polytechnic
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2021-08-17
Anticipated expiration: 2041-05-14
Also published as: CN113268972B

Abstract

本发明涉及一种两英语单词外观相似度的智能计算方法、系统、设备和介质，包括以下步骤：(1)对26个英语字母进行重新排序，并给出每个字母的编码及代表符号；(2)根据编码，得两英语单词的编码序列；(3)依据排码组合公式，得两英语单词的排码序列；(4)根据排码序列及编码序列，计算两英语单词的相关系数值p；(5)计算两英语单词的相差系数x；(6)计算两英语单词的外观相似度s＝p+x，基于外观相似度计算数值，判断两个英语单词的相似程度。本发明的优点是：基于对字母数量一样多的两个英语单词进行外观相似度进行计算，得出一个客观的相似度值，不用需要神经网络训练方法；同时无需存储相似单词，并且步骤简短并有限，所以方便和有效。

Description

两英语单词外观相似度的智能计算方法、系统、设备和介质

技术领域

本发明涉及一种两英语单词外观相似度的智能计算方法、系统、设备和介质，涉及人工智能、英语、计算机、数学、大数据、教学认知领域。

背景技术

外观相似的英语单词(样子相似的单词)会影响人的记忆、阅读和理解，因此计算出两单词间外观相似度的方法非常重要。有了这个方法，除了在英语教学和学习中有帮助外，在人工智能中，对英语单词的智能纠错、智能提示、自然语言理解等十分有用，在大数据中，对大量英语单词进行分类也是一个重要的方法。

现有技术所存在的弊端为：

(1)现在对外观相近英语单词的判断，大部分是主观的判断，包括现在一些关于这方面的信息和材料都是经过长时间的人为的发掘，这种人为的发掘不客观，并且只发掘相似的单词，没有提供单词间的相似度。

(2)也有一些公开的算法，是通过模糊神经网络的方法来存储相似单词匹配对，不是我们直接使用数学的方法，我们直接使用数学的方法效率是比较高的，因为模糊神经需要训练，而训练并不是几分钟就能解决的问题。

(3)还有一些公开的方法，他们是针对汉字的方法。

发明内容

为克服现有技术的缺陷，本发明提供一种两英语单词外观相似度的智能计算方法、系统、设备和介质，本发明的技术方案是：

一种两英语单词相似度的智能计算方法，包括以下步骤：

(1)对26个英语字母进行重新排序，并给出每个字母的编码及代表符号；

(2)根据编码，得两英语单词的编码序列，分别为DS1和DS2；

(3)依据排码组合公式，得两英语单词的排码序列，分别为PM1和PM2；

(4)根据排码序列及编码序列，使用位置变化相关系数公式计算两英语单词的相关系数值p；

(5)计算两英语单词的相差系数x；

(6)计算两英语单词的外观相似度s＝p+x，基于外观相似度计算数值，判断两个英语单词的相似程度。

所计算的两个英语单词，分别为第一英语单词和第二英语单词，且第一英语单词和第二英语单词的字母数量相同，字母数量大于等于5个，均为小写字母。

所述的步骤(1)具体为：对26个英语字母进行重新排序，并给出每个字母的编码及代表符号，其中，所述的排序表格如下：

其中，设集合C的代表符号如下：C＝{c1，c2，c3……cm……c26}；cm代表第m个字母的编码；

所述的步骤(3)具体为：依据排码组合公式，得第一英语单词的排码序列PM1，第二英语单词的排码序列PM2，所述的排码组合公式如下：

N＝COUNT(DSk)

PMk[0]＝MAX(DSk)

所述的步骤(4)具体为：根据排码序列及编码序列，使用位置变化相关系数公式计算两单词的相关系数值p，位置变化相关系数p公式如下：

公式中，di表示排码位置差，n为第一英语单词或第二英语单词的字母数量。

所述的步骤(5)具体为：计算第一单词和第二单词的相差系数x，

该相差系数公式中，n′为第一单词或第二单词的字母数量；第一个英语单词的第1个字母的编码表示为c1₁，第二个英语单词的第1个字母的编码表示为c2₁，同理ci₁和ci₂分别表示为第一个英语单词第i个字母的编码和第二个英语单词第i个字母的编码。

所述的步骤(6)具体为：计算第一英语单词和第二英语单词的外观相似度数值s＝p+x，基于外观相似度计算数值，判断第一英语单词和第二英语单词的相似度。

一种两英语单词外观相似度的智能计算系统，包括

排序模块，用于对26个英语字母进行重新排序，并给出每个字母的编码及代表符号；

编码序列生成模块，用于根据编码，得两英语单词的编码序列，分别为DS1和DS2；

排码序列生成模块，用于依据排码组合公式，得两英语单词的排码序列，分别为PM1和PM2；

相关系数值计算模块，用于根据排码序列及编码序列，使用位置变化相关系数公式计算两英语单词的相关系数值p；

相差系数计算模块，用于计算两英语单词的相差系数x；

相似度计算模块，用于计算两英语单词的外观相似度s＝p+x，基于外观相似度计算数值，判断两个英语单词的相似程度。

一种电子设备，包括存储器以及一个或多个处理器；其中，所述存储器与所述一个或多个处理器通信连接，所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行时，所述电子设备用于实现两英语单词相似度的智能计算方法。

一种计算机可读存储介质，其上存储有计算机可执行指令，当所述计算机可执行指令被计算装置执行时，可用来实现两英语单词相似度的智能计算方法。

本发明的优点是：基于对字母数量一样多的两个英语单词进行外观相似度进行计算，得出一个客观的相似度值(具体的一个数值)，这个方法直接用数学方法，不用需要神经网络训练方法；同时无需存储相似单词，并且步骤简短并有限，所以方便和有效。

附图说明

图1是本发明的智能计算系统的结构框图。

图2是本发明实施例第一英语单词daily的排码位置数据图。

图3是本发明实施例第二英语单词diary的排码位置数据图。

图4是本发明实施例第一英语单词daily和第二英语单词diary的排码位置差数据图。

图5是本发明实施例第一英语单词daily和第二英语单词diary相差系数计算数据图。

具体实施方式

下面结合具体实施例来进一步描述本发明，本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的，并不对本发明的范围构成任何限制。本领域技术人员应该理解的是，在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进行修改或替换，但这些修改和替换均落入本发明的保护范围内。

参见图1，本发明涉及一种两英语单词相似度的智能计算方法，包括以下步骤：

(2)根据编码，得两英语单词的编码序列，分别为DS1和DS2；

(5)计算两英语单词的相差系数x；

所计算的两个英语单词，分别为第一英语单词和第二英语单词，且第一英语单词和第二英语单词的字母数量相同，字母数量大于等于5个，均为小写字母，在本实施例中以daily和diary这两个单词为例，第一英语单词为daily，第二英语单词为diary；

其中，设集合C的代表符号如下：C＝{c1，c2，c3……cm……c26}；cm代表第m个字母的编码；比如c3代表了第3个字母的编码，也就是说它代表了字母k的编码0.4，简单的来说c3就代表0.4。

依据排序表格，得到第一英语单词daily的编码序列DS1＝{0.6，5.0，21.0，0.8，25.8}，即d对应0.6，a对应5.0，i对应21.0，1对应0.8，y对应25.8；同理，得到第二英语单词diary编码序列DS2＝{0.6，21.0，5.0，20.0，25.8}。

N＝COUNT(DSk)

PMk[0]＝MAX(DSk)

基于上述排码组合公式，得到第一英语单词daily的排码序列PM1＝{25.8，21.0，5.0，0.8，0.6}；第二英语单词diary的排码序列PM2＝{25.8，21.0，20.0，5.0，0.6}。

对于第一英语单词daily的排码位置如图2所示；对于第二英语单词diary的排码位置如图3所示，第一英语单词daily和第二英语单词diary的排码位置差如图4所示。从图2至图4的数据中，代入p公式得

即相关系统p为1.25*10^-3。

该相差系数公式中，n'为第一单词或第二单词的字母数量；对于相同位置字母的编码，第一英语单词daily用ci₁表示，第二英语单词diary用ci₂表示，基于图5中的数据，代入公式得：

所述的步骤(6)具体为：计算第一英语单词daily和第二英语单词diary的外观相似度数值s＝p+x，基于外观相似度计算数值，判断第一英语单词daily和第二英语单词diary的相似度，代入两英语单词外观相似度公式得s＝(1.25*10^-3+6.06153*10^-1)＝0.60699，通过上面的值，也就是说daily和diary这两个单词的外观相似度为0.60699(换个说法：有60.699％的相似)。

本发明还涉及一种两英语单词外观相似度的智能计算系统1，包括

排序模块11，用于对26个英语字母进行重新排序，并给出每个字母的编码及代表符号；

编码序列生成模块12，用于根据编码，得两英语单词的编码序列，分别为DS1和DS2；

排码序列生成模块13，用于依据排码组合公式，得两英语单词的排码序列，分别为PM1和PM2；

相关系数值计算模块14，用于根据排码序列及编码序列，使用位置变化相关系数公式计算两英语单词的相关系数值p；

相差系数计算模块15，用于计算两英语单词的相差系数x；

相似度计算模块16，用于计算两英语单词的外观相似度s＝p+x，基于外观相似度计算数值，判断两个英语单词的相似程度。

本发明还涉及一种电子设备，包括存储器以及一个或多个处理器；其中，所述存储器与所述一个或多个处理器通信连接，所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行时，所述电子设备用于实现两英语单词相似度的智能计算方法。

本发明还涉及一种计算机可读存储介质，其上存储有计算机可执行指令，当所述计算机可执行指令被计算装置执行时，可用来实现两英语单词相似度的智能计算方法。

本发明的基于对字母数量一样多的两个英语单词进行外观相似度进行计算，得出一个具体的一个数值，不用需要神经网络训练方法；同时无需存储相似单词，并且步骤简短并有限，方便和有效。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种两英语单词相似度的智能计算方法，其特征在于，包括以下步骤：

(2)根据编码，得两英语单词的编码序列，分别为DS1和DS2；

(5)计算两英语单词的相差系数x；

2.根据权利要求1所述的一种两英语单词相似度的智能计算方法，其特征在于，所计算的两个英语单词，分别为第一英语单词和第二英语单词，且第一英语单词和第二英语单词的字母数量相同，字母数量大于等于5个，均为小写字母。

3.根据权利要求1或2所述的一种两英语单词相似度的智能计算方法，其特征在于，所述的步骤(1)具体为：对26个英语字母进行重新排序，并给出每个字母的编码及代表符号，其中，所述的排序表格如下：

其中，设集合C的代表符号如下：C＝{c1,c2,c3……cm……c26}；cm代表第m个字母的编码；

4.根据权利要求1或2所述的一种两英语单词相似度的智能计算方法，其特征在于，所述的步骤(3)具体为：依据排码组合公式，得第一英语单词的排码序列PM1，第二英语单词的排码序列PM2，所述的排码组合公式如下：

N＝COUNT(DSk)

PMk[0]＝MAX(DSk)

5.根据权利要求1或2所述的一种两英语单词相似度的智能计算方法，其特征在于，所述的步骤(4)具体为：根据排码序列及编码序列，使用位置变化相关系数公式计算两单词的相关系数值p，位置变化相关系数p公式如下：

6.根据权利要求1或2所述的一种两英语单词相似度的智能计算方法，其特征在于，所述的步骤(5)具体为：计算第一单词和第二单词的相差系数x，

该相差系数公式中，n'为第一单词或第二单词的字母数量；第一个英语单词的第1个字母的编码表示为c1₁,第二个英语单词的第1个字母的编码表示为c2₁，同理ci₁和ci₂分别表示为第一个英语单词第i个字母的编码和第二个英语单词第i个字母的编码。

7.根据权利要求1或2所述的一种两英语单词相似度的智能计算方法，其特征在于，所述的步骤(6)具体为：计算第一英语单词和第二英语单词的外观相似度数值s＝p+x，基于外观相似度计算数值，判断第一英语单词和第二英语单词的相似度。

8.一种两英语单词外观相似度的智能计算系统，其特征在于，包括

相差系数计算模块，用于计算两英语单词的相差系数x；

9.一种电子设备，其特征在于，包括存储器以及一个或多个处理器；其中，所述存储器与所述一个或多个处理器通信连接，所述存储器中存储有可被所述一个或多个处理器执行的指令，所述指令被所述一个或多个处理器执行时，所述电子设备用于实现如权利要求1-7任意一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机可执行指令，当所述计算机可执行指令被计算装置执行时，可用来实现如权利要求1-7任意一项所述的方法。