CN113268972A - 两英语单词外观相似度的智能计算方法、系统、设备和介质 - Google Patents
两英语单词外观相似度的智能计算方法、系统、设备和介质 Download PDFInfo
- Publication number
- CN113268972A CN113268972A CN202110527707.8A CN202110527707A CN113268972A CN 113268972 A CN113268972 A CN 113268972A CN 202110527707 A CN202110527707 A CN 202110527707A CN 113268972 A CN113268972 A CN 113268972A
- Authority
- CN
- China
- Prior art keywords
- english
- similarity
- english words
- word
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种两英语单词外观相似度的智能计算方法、系统、设备和介质,包括以下步骤:(1)对26个英语字母进行重新排序,并给出每个字母的编码及代表符号;(2)根据编码,得两英语单词的编码序列;(3)依据排码组合公式,得两英语单词的排码序列;(4)根据排码序列及编码序列,计算两英语单词的相关系数值p;(5)计算两英语单词的相差系数x;(6)计算两英语单词的外观相似度s=p+x,基于外观相似度计算数值,判断两个英语单词的相似程度。本发明的优点是:基于对字母数量一样多的两个英语单词进行外观相似度进行计算,得出一个客观的相似度值,不用需要神经网络训练方法;同时无需存储相似单词,并且步骤简短并有限,所以方便和有效。
Description
技术领域
本发明涉及一种两英语单词外观相似度的智能计算方法、系统、设备和介质,涉及人工智能、英语、计算机、数学、大数据、教学认知领域。
背景技术
外观相似的英语单词(样子相似的单词)会影响人的记忆、阅读和理解,因此计算出两单词间外观相似度的方法非常重要。有了这个方法,除了在英语教学和学习中有帮助外,在人工智能中,对英语单词的智能纠错、智能提示、自然语言理解等十分有用,在大数据中,对大量英语单词进行分类也是一个重要的方法。
现有技术所存在的弊端为:
(1)现在对外观相近英语单词的判断,大部分是主观的判断,包括现在一些关于这方面的信息和材料都是经过长时间的人为的发掘,这种人为的发掘不客观,并且只发掘相似的单词,没有提供单词间的相似度。
(2)也有一些公开的算法,是通过模糊神经网络的方法来存储相似单词匹配对,不是我们直接使用数学的方法,我们直接使用数学的方法效率是比较高的,因为模糊神经需要训练,而训练并不是几分钟就能解决的问题。
(3)还有一些公开的方法,他们是针对汉字的方法。
发明内容
为克服现有技术的缺陷,本发明提供一种两英语单词外观相似度的智能计算方法、系统、设备和介质,本发明的技术方案是:
一种两英语单词相似度的智能计算方法,包括以下步骤:
(1)对26个英语字母进行重新排序,并给出每个字母的编码及代表符号;
(2)根据编码,得两英语单词的编码序列,分别为DS1和DS2;
(3)依据排码组合公式,得两英语单词的排码序列,分别为PM1和PM2;
(4)根据排码序列及编码序列,使用位置变化相关系数公式计算两英语单词的相关系数值p;
(5)计算两英语单词的相差系数x;
(6)计算两英语单词的外观相似度s=p+x,基于外观相似度计算数值,判断两个英语单词的相似程度。
所计算的两个英语单词,分别为第一英语单词和第二英语单词,且第一英语单词和第二英语单词的字母数量相同,字母数量大于等于5个,均为小写字母。
所述的步骤(1)具体为:对26个英语字母进行重新排序,并给出每个字母的编码及代表符号,其中,所述的排序表格如下:
其中,设集合C的代表符号如下:C={c1,c2,c3……cm……c26};cm代表第m个字母的编码;
所述的步骤(3)具体为:依据排码组合公式,得第一英语单词的排码序列PM1,第二英语单词的排码序列PM2,所述的排码组合公式如下:
N=COUNT(DSk)
PMk[0]=MAX(DSk)
所述的步骤(5)具体为:计算第一单词和第二单词的相差系数x,该相差系数公式中,n′为第一单词或第二单词的字母数量;第一个英语单词的第1个字母的编码表示为c11,第二个英语单词的第1个字母的编码表示为c21,同理ci1和ci2分别表示为第一个英语单词第i个字母的编码和第二个英语单词第i个字母的编码。
所述的步骤(6)具体为:计算第一英语单词和第二英语单词的外观相似度数值s=p+x,基于外观相似度计算数值,判断第一英语单词和第二英语单词的相似度。
一种两英语单词外观相似度的智能计算系统,包括
排序模块,用于对26个英语字母进行重新排序,并给出每个字母的编码及代表符号;
编码序列生成模块,用于根据编码,得两英语单词的编码序列,分别为DS1和DS2;
排码序列生成模块,用于依据排码组合公式,得两英语单词的排码序列,分别为PM1和PM2;
相关系数值计算模块,用于根据排码序列及编码序列,使用位置变化相关系数公式计算两英语单词的相关系数值p;
相差系数计算模块,用于计算两英语单词的相差系数x;
相似度计算模块,用于计算两英语单词的外观相似度s=p+x,基于外观相似度计算数值,判断两个英语单词的相似程度。
一种电子设备,包括存储器以及一个或多个处理器;其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行时,所述电子设备用于实现两英语单词相似度的智能计算方法。
一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现两英语单词相似度的智能计算方法。
本发明的优点是:基于对字母数量一样多的两个英语单词进行外观相似度进行计算,得出一个客观的相似度值(具体的一个数值),这个方法直接用数学方法,不用需要神经网络训练方法;同时无需存储相似单词,并且步骤简短并有限,所以方便和有效。
附图说明
图1是本发明的智能计算系统的结构框图。
图2是本发明实施例第一英语单词daily的排码位置数据图。
图3是本发明实施例第二英语单词diary的排码位置数据图。
图4是本发明实施例第一英语单词daily和第二英语单词diary的排码位置差数据图。
图5是本发明实施例第一英语单词daily和第二英语单词diary相差系数计算数据图。
具体实施方式
下面结合具体实施例来进一步描述本发明,本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的,并不对本发明的范围构成任何限制。本领域技术人员应该理解的是,在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进行修改或替换,但这些修改和替换均落入本发明的保护范围内。
参见图1,本发明涉及一种两英语单词相似度的智能计算方法,包括以下步骤:
(1)对26个英语字母进行重新排序,并给出每个字母的编码及代表符号;
(2)根据编码,得两英语单词的编码序列,分别为DS1和DS2;
(3)依据排码组合公式,得两英语单词的排码序列,分别为PM1和PM2;
(4)根据排码序列及编码序列,使用位置变化相关系数公式计算两英语单词的相关系数值p;
(5)计算两英语单词的相差系数x;
(6)计算两英语单词的外观相似度s=p+x,基于外观相似度计算数值,判断两个英语单词的相似程度。
所计算的两个英语单词,分别为第一英语单词和第二英语单词,且第一英语单词和第二英语单词的字母数量相同,字母数量大于等于5个,均为小写字母,在本实施例中以daily和diary这两个单词为例,第一英语单词为daily,第二英语单词为diary;
所述的步骤(1)具体为:对26个英语字母进行重新排序,并给出每个字母的编码及代表符号,其中,所述的排序表格如下:
其中,设集合C的代表符号如下:C={c1,c2,c3……cm……c26};cm代表第m个字母的编码;比如c3代表了第3个字母的编码,也就是说它代表了字母k的编码0.4,简单的来说c3就代表0.4。
依据排序表格,得到第一英语单词daily的编码序列DS1={0.6,5.0,21.0,0.8,25.8},即d对应0.6,a对应5.0,i对应21.0,1对应0.8,y对应25.8;同理,得到第二英语单词diary编码序列DS2={0.6,21.0,5.0,20.0,25.8}。
所述的步骤(3)具体为:依据排码组合公式,得第一英语单词的排码序列PM1,第二英语单词的排码序列PM2,所述的排码组合公式如下:
N=COUNT(DSk)
PMk[0]=MAX(DSk)
基于上述排码组合公式,得到第一英语单词daily的排码序列PM1={25.8,21.0,5.0,0.8,0.6};第二英语单词diary的排码序列PM2={25.8,21.0,20.0,5.0,0.6}。
对于第一英语单词daily的排码位置如图2所示;对于第二英语单词diary的排码位置如图3所示,第一英语单词daily和第二英语单词diary的排码位置差如图4所示。从图2至图4的数据中,代入p公式得即相关系统p为1.25*10-3。
所述的步骤(5)具体为:计算第一单词和第二单词的相差系数x,该相差系数公式中,n'为第一单词或第二单词的字母数量;对于相同位置字母的编码,第一英语单词daily用ci1表示,第二英语单词diary用ci2表示,基于图5中的数据,代入公式得:
所述的步骤(6)具体为:计算第一英语单词daily和第二英语单词diary的外观相似度数值s=p+x,基于外观相似度计算数值,判断第一英语单词daily和第二英语单词diary的相似度,代入两英语单词外观相似度公式得s=(1.25*10-3+6.06153*10-1)=0.60699,通过上面的值,也就是说daily和diary这两个单词的外观相似度为0.60699(换个说法:有60.699%的相似)。
本发明还涉及一种两英语单词外观相似度的智能计算系统1,包括
排序模块11,用于对26个英语字母进行重新排序,并给出每个字母的编码及代表符号;
编码序列生成模块12,用于根据编码,得两英语单词的编码序列,分别为DS1和DS2;
排码序列生成模块13,用于依据排码组合公式,得两英语单词的排码序列,分别为PM1和PM2;
相关系数值计算模块14,用于根据排码序列及编码序列,使用位置变化相关系数公式计算两英语单词的相关系数值p;
相差系数计算模块15,用于计算两英语单词的相差系数x;
相似度计算模块16,用于计算两英语单词的外观相似度s=p+x,基于外观相似度计算数值,判断两个英语单词的相似程度。
本发明还涉及一种电子设备,包括存储器以及一个或多个处理器;其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行时,所述电子设备用于实现两英语单词相似度的智能计算方法。
本发明还涉及一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现两英语单词相似度的智能计算方法。
本发明的基于对字母数量一样多的两个英语单词进行外观相似度进行计算,得出一个具体的一个数值,不用需要神经网络训练方法;同时无需存储相似单词,并且步骤简短并有限,方便和有效。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种两英语单词相似度的智能计算方法,其特征在于,包括以下步骤:
(1)对26个英语字母进行重新排序,并给出每个字母的编码及代表符号;
(2)根据编码,得两英语单词的编码序列,分别为DS1和DS2;
(3)依据排码组合公式,得两英语单词的排码序列,分别为PM1和PM2;
(4)根据排码序列及编码序列,使用位置变化相关系数公式计算两英语单词的相关系数值p;
(5)计算两英语单词的相差系数x;
(6)计算两英语单词的外观相似度s=p+x,基于外观相似度计算数值,判断两个英语单词的相似程度。
2.根据权利要求1所述的一种两英语单词相似度的智能计算方法,其特征在于,所计算的两个英语单词,分别为第一英语单词和第二英语单词,且第一英语单词和第二英语单词的字母数量相同,字母数量大于等于5个,均为小写字母。
7.根据权利要求1或2所述的一种两英语单词相似度的智能计算方法,其特征在于,所述的步骤(6)具体为:计算第一英语单词和第二英语单词的外观相似度数值s=p+x,基于外观相似度计算数值,判断第一英语单词和第二英语单词的相似度。
8.一种两英语单词外观相似度的智能计算系统,其特征在于,包括
排序模块,用于对26个英语字母进行重新排序,并给出每个字母的编码及代表符号;
编码序列生成模块,用于根据编码,得两英语单词的编码序列,分别为DS1和DS2;
排码序列生成模块,用于依据排码组合公式,得两英语单词的排码序列,分别为PM1和PM2;
相关系数值计算模块,用于根据排码序列及编码序列,使用位置变化相关系数公式计算两英语单词的相关系数值p;
相差系数计算模块,用于计算两英语单词的相差系数x;
相似度计算模块,用于计算两英语单词的外观相似度s=p+x,基于外观相似度计算数值,判断两个英语单词的相似程度。
9.一种电子设备,其特征在于,包括存储器以及一个或多个处理器;其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行时,所述电子设备用于实现如权利要求1-7任意一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现如权利要求1-7任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110527707.8A CN113268972B (zh) | 2021-05-14 | 2021-05-14 | 两英语单词外观相似度的智能计算方法、系统、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110527707.8A CN113268972B (zh) | 2021-05-14 | 2021-05-14 | 两英语单词外观相似度的智能计算方法、系统、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113268972A true CN113268972A (zh) | 2021-08-17 |
CN113268972B CN113268972B (zh) | 2022-01-11 |
Family
ID=77230961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110527707.8A Active CN113268972B (zh) | 2021-05-14 | 2021-05-14 | 两英语单词外观相似度的智能计算方法、系统、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113268972B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115544965A (zh) * | 2022-10-25 | 2022-12-30 | 东莞城市学院 | 一种简单的英语单词外观特征码的计算方法 |
CN117351497A (zh) * | 2023-10-27 | 2024-01-05 | 东莞城市学院 | 基于矩阵的针对英语单词外观特征码的编码方法及其应用 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1996041333A1 (en) * | 1995-06-07 | 1996-12-19 | Dragon Systems, Inc. | Systems and methods for word recognition |
CN103902527A (zh) * | 2014-03-31 | 2014-07-02 | 大连大学 | 结合词性的英语近形词干扰项生成方法 |
WO2016118792A1 (en) * | 2015-01-22 | 2016-07-28 | Microsoft Technology Licensing, Llc | Text classification using bi-directional similarity |
CN105912514A (zh) * | 2016-04-28 | 2016-08-31 | 吴国华 | 基于指纹特征的文本复制检测系统及方法 |
US20160294852A1 (en) * | 2015-04-06 | 2016-10-06 | Trend Micro Incorporated | Determining string similarity using syntactic edit distance |
CN108256587A (zh) * | 2018-02-05 | 2018-07-06 | 武汉斗鱼网络科技有限公司 | 一种字符串相似度的确定方法、装置、计算机及存储介质 |
CN109165331A (zh) * | 2018-08-20 | 2019-01-08 | 南京师范大学 | 一种英文地名的索引建立方法及其查询方法和装置 |
WO2019136993A1 (zh) * | 2018-01-12 | 2019-07-18 | 深圳壹账通智能科技有限公司 | 文本相似度计算方法、装置、计算机设备和存储介质 |
CN110909161A (zh) * | 2019-11-12 | 2020-03-24 | 西安电子科技大学 | 基于密度聚类和视觉相似度的英文单词分类方法 |
CN110929477A (zh) * | 2018-09-03 | 2020-03-27 | 阿里巴巴集团控股有限公司 | 关键词变体的确定方法和装置 |
-
2021
- 2021-05-14 CN CN202110527707.8A patent/CN113268972B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1996041333A1 (en) * | 1995-06-07 | 1996-12-19 | Dragon Systems, Inc. | Systems and methods for word recognition |
CN103902527A (zh) * | 2014-03-31 | 2014-07-02 | 大连大学 | 结合词性的英语近形词干扰项生成方法 |
WO2016118792A1 (en) * | 2015-01-22 | 2016-07-28 | Microsoft Technology Licensing, Llc | Text classification using bi-directional similarity |
US20160294852A1 (en) * | 2015-04-06 | 2016-10-06 | Trend Micro Incorporated | Determining string similarity using syntactic edit distance |
CN105912514A (zh) * | 2016-04-28 | 2016-08-31 | 吴国华 | 基于指纹特征的文本复制检测系统及方法 |
WO2019136993A1 (zh) * | 2018-01-12 | 2019-07-18 | 深圳壹账通智能科技有限公司 | 文本相似度计算方法、装置、计算机设备和存储介质 |
CN108256587A (zh) * | 2018-02-05 | 2018-07-06 | 武汉斗鱼网络科技有限公司 | 一种字符串相似度的确定方法、装置、计算机及存储介质 |
CN109165331A (zh) * | 2018-08-20 | 2019-01-08 | 南京师范大学 | 一种英文地名的索引建立方法及其查询方法和装置 |
CN110929477A (zh) * | 2018-09-03 | 2020-03-27 | 阿里巴巴集团控股有限公司 | 关键词变体的确定方法和装置 |
CN110909161A (zh) * | 2019-11-12 | 2020-03-24 | 西安电子科技大学 | 基于密度聚类和视觉相似度的英文单词分类方法 |
Non-Patent Citations (3)
Title |
---|
JOAO PAULO CARVALHO 等: "Introducing UWS – A Fuzzy Based Word Similarity Function with Good Discrimination Capability:Preliminary results", 《2013 IEEE INTERNATIONAL CONFERENCE ON FUZZY SYSTEMS》 * |
熊应 等: "英文单词形近字的判断", 《暨南大学学报(自然科学版)》 * |
编辑距离算法及其在英语易混词自动抽取中的应用: "马立东", 《智能计算机与应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115544965A (zh) * | 2022-10-25 | 2022-12-30 | 东莞城市学院 | 一种简单的英语单词外观特征码的计算方法 |
CN117351497A (zh) * | 2023-10-27 | 2024-01-05 | 东莞城市学院 | 基于矩阵的针对英语单词外观特征码的编码方法及其应用 |
Also Published As
Publication number | Publication date |
---|---|
CN113268972B (zh) | 2022-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241536B (zh) | 一种基于深度学习自注意力机制的句子排序方法 | |
CN108920460B (zh) | 一种多类型实体识别的多任务深度学习模型的训练方法 | |
CN113268972B (zh) | 两英语单词外观相似度的智能计算方法、系统、设备和介质 | |
CN111814466A (zh) | 基于机器阅读理解的信息抽取方法、及其相关设备 | |
US20230244704A1 (en) | Sequenced data processing method and device, and text processing method and device | |
CN111881677A (zh) | 基于深度学习模型的地址匹配算法 | |
CN109492202A (zh) | 一种基于拼音的编码与解码模型的中文纠错方法 | |
CN110163181B (zh) | 手语识别方法及装置 | |
CN112257449B (zh) | 命名实体识别方法、装置、计算机设备和存储介质 | |
CN106909537B (zh) | 一种基于主题模型和向量空间的一词多义分析方法 | |
CN113190602B (zh) | 融合字词特征与深度学习的事件联合抽取方法 | |
CN110825857A (zh) | 多轮问答识别方法、装置、计算机设备及存储介质 | |
CN111428727B (zh) | 基于序列变换纠正及注意力机制的自然场景文本识别方法 | |
CN110990596B (zh) | 一种基于自适应量化多模态哈希检索方法及系统 | |
CN111767697B (zh) | 文本处理方法、装置、计算机设备以及存储介质 | |
CN110263304B (zh) | 语句编码方法、语句解码方法、装置、存储介质及设备 | |
CN113946684A (zh) | 电力基建知识图谱构建方法 | |
CN112329390A (zh) | 一种基于音形义的中文词相似度检测算法 | |
CN115329766B (zh) | 一种基于动态词信息融合的命名实体识别方法 | |
CN114529900A (zh) | 基于特征原型的半监督域适应语义分割方法和系统 | |
CN114445832A (zh) | 基于全局语义的文字图像识别方法、装置及计算机设备 | |
CN111597815A (zh) | 一种多嵌入命名实体识别方法、装置、设备及存储介质 | |
CN114420107A (zh) | 基于非自回归模型的语音识别方法及相关设备 | |
CN110175330B (zh) | 一种基于注意力机制的命名实体识别方法 | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |