CN117371439A - 一种基于aigc的相似词判断方法 - Google Patents
一种基于aigc的相似词判断方法 Download PDFInfo
- Publication number
- CN117371439A CN117371439A CN202311638879.8A CN202311638879A CN117371439A CN 117371439 A CN117371439 A CN 117371439A CN 202311638879 A CN202311638879 A CN 202311638879A CN 117371439 A CN117371439 A CN 117371439A
- Authority
- CN
- China
- Prior art keywords
- word
- words
- text
- similarity
- judgment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000011156 evaluation Methods 0.000 claims abstract description 24
- 238000004891 communication Methods 0.000 claims abstract description 22
- 238000004458 analytical method Methods 0.000 claims description 62
- 238000005516 engineering process Methods 0.000 claims description 33
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 abstract description 11
- 241000892865 Heros Species 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及相似词判断方法的技术领域,具体涉及一种基于AIGC的相似词判断方法,包括以下步骤:控制模块根据文本和文本之间的余弦相似度得出词语和词语之间的余弦相似度,根据相关信息计算第一次判断词语相似因子,根据第一次判断词语相似因子得出第一次判断词语相似信息并传输至通信模块;通信模块将第一次判断词语相似信息传输至用户端。计算第一次判断词语相似信息时考虑到检索得到的文本的误差、文本的解释以及用户的评价指数,从而能提高计算第一次判断词语相似信息的计算精度,提高判断的准确性。
Description
技术领域
本发明涉及相似词判断方法的技术领域,具体涉及一种基于AIGC的相似词判断方法。
背景技术
AIGC是英文Artificial Intelligent Generation Committee的缩写,中文意思是人工智能生成内容。它代表一个由人工智能技术驱动内容创作的全新领域。这个领域汇集了海量的训练数据、深度学习的先驱算法以及尖端自然语言处理(NLP)知识。AIGC聚焦于大数据、人工智能和区块链技术的融合应用,在金融、科技、互联网、媒体和制造业等领域实现快速的数据资源变现和价值挖掘。
相似词是指两个或两个以上的词,意义相近或相同,即这些词互为相似词。在自然语言处理中,相似词的判断通常基于词义的相似度计算,可以采用余弦相似度、Jaccard相似度、编辑距离等算法进行计算。相似词的判断对于文本分类、信息检索、语义理解等任务具有重要的意义和应用价值。
经过我们大量的检索与参考发现现在已经开发出了很多相似词判断方法,例如现有技术的有如公开号为CN112364620A所公开的相似词判断方法,包括:获取需要判断相似度的第一文本和第二文本;根据所述第一文本和第二文本获取对应的关键词库;基于所述关键词库提取文本的各关键词,并根据各关键词对应各权重值生成文本权重向量;根据相似度计算公式计算所述第一文本权重向量和所述第二文本权重向量的相似度值;根据所述相似度值判断所述第一文本与所述第二文本是否相似。
上述获取文本时没有考虑到获取误差,影响判断的准确性。
发明内容
本发明的目的在于提高判断的准确性,针对上述存在的不足,提出一种基于AIGC的相似词判断方法。
本发明采用如下技术方案:
一种基于AIGC的相似词判断方法,包括以下步骤:
S1:分析模块基于AIGC技术分析得出词语和词语/>之间的语义关联度参考指数、文本/>和文本/>之间的余弦相似度、文本/>被使用的总次数、文本/>第/>次使用时用户的评价指数、用户得到文本/>对应网站的使用年限、文本/>被使用的总次数、文本/>第/>次使用时用户的评价指数、用户得到文本/>对应网站的使用年限、词语/>和词语/>之间的字数重复指数的信息,并传输至控制模块;
S2:控制模块根据文本和文本/>之间的余弦相似度得出词语/>和词语/>之间的余弦相似度,根据相关信息计算第一次判断词语相似因子,根据第一次判断词语相似因子得出第一次判断词语相似信息并传输至通信模块;
S3:通信模块将第一次判断词语相似信息传输至用户端。
可选的,所述分析模块包括字数重复分析子模块、关联度分析子模块、文本转换子模块、文本相关信息分析子模块和余弦相似度分析子模块,所述字数重复分析子模块、关联度分析子模块、文本相关信息分析子模块、余弦相似度分析子模块均与控制模块通信连接,所述文本相关信息分析子模块、余弦相似度分析子模块均与文本转换子模块通信连接;
所述字数重复分析子模块基于AIGC技术分析且得出词语和词语/>之间的字数重复指数的信息,并传输至控制模块;
所述关联度分析子模块基于AIGC技术分析词语关联度且得出词语和词语/>之间的语义关联度参考指数的信息,并传输至控制模块;
所述文本转换子模块基于AIGC技术将词语转换为对应的文本,且传输至文本相关信息分析子模块、余弦相似度分析子模块;
所述文本相关信息分析子模块基于AIGC技术分析且得出文本被使用的总次数、文本/>第/>次使用时用户的评价指数、用户得到文本/>对应网站的使用年限、文本/>被使用的总次数、文本/>第/>次使用时用户的评价指数和用户得到文本/>对应网站的使用年限的信息,并传输至控制模块;
所述余弦相似度分析子模块基于AIGC技术分析且得出文本和文本/>之间的余弦相似度的信息,并传输至控制模块。
可选的,所述余弦相似度分析子模块基于AIGC技术对转换的文本进行分词、列词、编码、向量化和计算的操作且得出文本和文本/>之间的余弦相似度的信息,并传输至控制模块。
可选的,所述控制模块计算第一次判断词语相似因子时,满足以下式子:
;
;
其中,为第一次判断词语相似因子,/>为词语/>和词语/>之间的语义关联度参考指数,/>为词语/>和词语/>之间的余弦相似度,/>为文本/>被使用的总次数,/>为文本/>第/>次使用时用户的评价指数,/>为用户得到文本/>对应网站的使用年限,/>为文本/>被使用的总次数,/>为文本/>第/>次使用时用户的评价指数,/>为用户得到文本/>对应网站的使用年限,/>为词语/>和词语/>之间的字数重复指数;
为文本/>和文本/>之间的余弦相似度。
可选的,所述控制模块计算第一次判断词语相似信息时,满足以下式子:
;
其中,为第一次判断词语相似信息,/>为第一次判断词语相似因子的选择阈值,当/>时为第一次判断词语相似度低,当/>时为第一次判断词语相似度高。
可选的,在步骤S1中,分析模块基于AIGC技术分析得出检索词语的相似词时词语/>出现的参考指数、第一常数、检索词语/>的相似词时词语/>的排位、检索词语/>的相似词时词语/>出现的参考指数和检索词语/>的相似词时词语/>的排位、第二常数的信息,并传输至控制模块;
在步骤S2中,控制模块根据相关信息计算第二次判断词语相似因子,根据第二次判断词语相似因子得出第二次判断词语相似信息并传输至通信模块;
在步骤S3中,通信模块将第二次判断词语相似信息传输至用户端。
可选的,所述分析模块还包括词语分析子模块,所述词语分析子模块与控制模块通信连接;
所述词语分析子模块基于AIGC技术分析词语得出检索词语的相似词时词语/>出现的参考指数、第一常数、检索词语/>的相似词时词语/>的排位、检索词语/>的相似词时词语出现的参考指数和检索词语/>的相似词时词语/>的排位、第二常数的信息,并传输至控制模块。
可选的,所述控制模块计算第二次判断词语相似因子时,满足以下式子:
;
其中,为第二次判断词语相似因子,/>为检索词语/>的相似词时词语出现的参考指数,/>为检索词语/>的相似词时词语/>的排位,/>为第一常数,第一常数的取值范围大于检索词语/>的相似词的总个数,/>为检索词语/>的相似词时词语/>出现的参考指数,/>为检索词语/>的相似词时词语/>的排位,/>为第二常数,第二常数的取值范围大于检索词语/>的相似词的总个数。
可选的,所述控制模块计算第二次判断词语相似信息时,满足以下式子:
;
其中,为第二次判断词语相似信息,/>为第二次判断词语相似因子的选择阈值,当/>时为第二次判断词语相似度高,当/>时为第二次判断词语相似度低。
本发明所取得的有益效果是:
1、计算第一次判断词语相似信息时考虑到检索得到的文本的误差、文本的解释以及用户的评价指数,从而能提高计算第一次判断词语相似信息的计算精度,提高判断的准确性;
2、对于需要判断的同一组词语,控制模块还需要进行第二次判断,通过控制模块计算第二次判断词语相似信息,提高判断的准确性。
为使能更进一步了解本发明的特征及技术内容,请参阅以下有关本发明的详细说明与附图,然而所提供的附图仅用于提供参考与说明,并非用来对本发明加以限制。
附图说明
图1为本发明的方法流程图;
图2为本发明的整体结构示意图;
图3为本发明实施例二的方法流程图;
图4为本发明实施例二的整体结构示意图。
具体实施方式
以下是通过特定的具体实施例来说明本发明的实施方式,本领域技术人员可由本说明书所公开的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用,本说明书中的各项细节也可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。另外,本发明的附图仅为简单示意说明,并非依实际尺寸描绘,事先声明。以下实施方式将进一步详细说明本发明的相关技术内容,但所公开的内容并非用以限制本发明的保护范围。
实施例一:本实施例提供了一种基于AIGC的相似词判断方法。结合图1和图2所示。
一种基于AIGC的相似词判断方法,包括以下步骤:
S1:分析模块基于AIGC技术分析得出词语和词语/>之间的语义关联度参考指数、文本/>和文本/>之间的余弦相似度、文本/>被使用的总次数、文本/>第/>次使用时用户的评价指数、用户得到文本/>对应网站的使用年限、文本/>被使用的总次数、文本/>第/>次使用时用户的评价指数、用户得到文本/>对应网站的使用年限、词语/>和词语/>之间的字数重复指数的信息,并传输至控制模块;
S2:控制模块根据文本和文本/>之间的余弦相似度得出词语/>和词语/>之间的余弦相似度,根据相关信息计算第一次判断词语相似因子,根据第一次判断词语相似因子得出第一次判断词语相似信息并传输至通信模块;
S3:通信模块将第一次判断词语相似信息传输至用户端。
可选的,所述分析模块包括字数重复分析子模块、关联度分析子模块、文本转换子模块、文本相关信息分析子模块和余弦相似度分析子模块,所述字数重复分析子模块、关联度分析子模块、文本相关信息分析子模块、余弦相似度分析子模块均与控制模块通信连接,所述文本相关信息分析子模块、余弦相似度分析子模块均与文本转换子模块通信连接;
所述字数重复分析子模块基于AIGC技术分析且得出词语和词语/>之间的字数重复指数的信息,并传输至控制模块;
所述关联度分析子模块基于AIGC技术分析词语关联度且得出词语和词语/>之间的语义关联度参考指数的信息,并传输至控制模块;
所述文本转换子模块基于AIGC技术将词语转换为对应的文本,且传输至文本相关信息分析子模块、余弦相似度分析子模块;
所述文本相关信息分析子模块基于AIGC技术分析且得出文本被使用的总次数、文本/>第/>次使用时用户的评价指数、用户得到文本/>对应网站的使用年限、文本/>被使用的总次数、文本/>第/>次使用时用户的评价指数和用户得到文本/>对应网站的使用年限的信息,并传输至控制模块;
所述余弦相似度分析子模块基于AIGC技术分析且得出文本和文本/>之间的余弦相似度的信息,并传输至控制模块。
可选的,所述余弦相似度分析子模块基于AIGC技术对转换的文本进行分词、列词、编码、向量化和计算的操作且得出文本和文本/>之间的余弦相似度的信息,并传输至控制模块。
可选的,所述控制模块计算第一次判断词语相似因子时,满足以下式子:
;
;
其中,为第一次判断词语相似因子,/>为词语/>和词语/>之间的语义关联度参考指数,/>为词语/>和词语/>之间的余弦相似度,/>为文本/>被使用的总次数,/>为文本/>第/>次使用时用户的评价指数,/>为用户得到文本/>对应网站的使用年限,/>为文本/>被使用的总次数,/>为文本/>第/>次使用时用户的评价指数,/>为用户得到文本/>对应网站的使用年限,/>为词语/>和词语/>之间的字数重复指数;
为文本/>和文本/>之间的余弦相似度。
具体的,计算词语和词语/>之间的语义关联度参考指数时需要注意以下事项,通过AIGC技术查找词语在不同领域或者背景下的意义,在相同的一个领域中的意义相似或者相同,则设定词语/>和词语/>之间的语义关联度参考指数为2,在相同的两个领域中的意义相似或者相同,则设定词语/>和词语/>之间的语义关联度参考指数为3,在相同的三个或者大于三个领域中的意义相似或者相同,则设定词语/>和词语/>之间的语义关联度参考指数为4;例如:设定词语/>为“英雄”,设定词语/>为“英杰”,通过AIGC技术查找“英雄”在不同领域或者背景下的意义,通过AIGC技术查找“英杰”在不同领域或者背景下的意义,当“英雄”和“英杰”在相同的一个领域中的意义相似或者相同,则设定词语/>和词语/>之间的语义关联度参考指数为2,当“英雄”和“英杰”在相同的两个领域中的意义相似或者相同,则设定词语/>和词语/>之间的语义关联度参考指数为3,当“英雄”和“英杰”在相同的三个或者大于三个领域中的意义相似或者相同,则设定词语/>和词语/>之间的语义关联度参考指数为4,例如,查找得到“英雄”在不同的领域和背景下可能有不同的意义和内涵,以下是一些不同领域中“英雄”的含义:1、历史领域:在历史领域中,英雄通常指那些为了国家、民族或社会的利益而奋斗,具有英勇品质和卓越能力的人;他们可能是在战争中表现出英勇和牺牲精神的战士,也可能是为了追求真理和正义而奋斗的先知和思想家;2、文化领域:在文化领域中,英雄通常被视为一种象征,代表着人们的信仰、价值观和文化传统。他们可能是神话传说中的超凡脱俗的人物,也可能是文学作品中的虚构人物,他们拥有着非凡的勇气和智慧,激励着人们追求自己的理想和信仰;3、体育领域:在体育领域中,英雄通常指那些在竞技场上表现出色,具有卓越才能和拼搏精神的人;他们可能是获得世界冠军的运动员,也可能是为国家争光的国脚或车手等;4、社会领域:在社会领域中,英雄可能指的是那些为社会做出重要贡献的人,如社会活动家、慈善家、志愿者等;他们可能是一个群体的领袖,也可能是一个地区的守护者或一个时代的代表人物。查找得到“英杰”在不同领域或者背景下的意义,例如,以下是一些不同领域中“英杰”的含义:1、科学领域:在科学领域中,英杰通常指那些具有卓越才能和智慧,能够创造出重大科学成就的科学家。他们可能发现新的科学原理或技术,推动人类社会的发展,改变人们的生活方式;2、艺术领域:在艺术领域中,英杰通常指那些在文学、绘画、音乐等方面具有卓越才能和创造力的艺术家。他们可能创造出具有重要影响力的艺术作品,推动艺术的发展和进步;3、体育领域:在体育领域中,英杰通常指那些具有非凡才能和拼搏精神,在竞技场上取得重大成就的运动员。他们可能获得世界冠军或重要奖项,为国家或地区争光;4、社会领域:在社会领域中,英杰可能指的是那些具有卓越才能和品质,为社会做出重要贡献的人物。他们可能是一个国家的领袖,也可能是一个社区的领袖或一个时代的代表人物。从上述可以得出“英雄”、“英杰”在“体育领域”、“社会领域”的意义相似,则对应的词语/>和词语/>之间的语义关联度参考指数为3。
计算文本和文本/>之间的余弦相似度时需要注意以下事项,文本/>指的是词语/>经过AIGC技术解释得到的文本,文本/>指的是词语/>经过AIGC技术解释得到的文本,例如,词语/>对应的文本/>为“有英勇品质的人”,词语/>对应的文本/>为“有突出成就的人”,以下对计算文本/>和文本/>之间的余弦相似度进行详细举例:
首先进行分词的操作,利用结巴分词方法对文本和文本/>进行分词的操作,此时分别得到两个列表如下:
;
;
然后列出所有的词语,将和/>放在同一个/>中,得到如下式子:
;
且将上述转成/>,/>为/>中的词,/>为/>中词出现的位置,比如记录为这样的形式;
,可以看出/>这个词在/>中排第一,但是下标为0。
再进行分词编码,即对和/>进行编码,将每个字转换为出现在中的位置,转化后得到如下式子:
;
;
继而进行词频向量化,对和/>进行OneHot编码,就是计算set中每一个分词分别在/>和/>中出现的次数,得到如下式子:
;
;
最后计算文本和文本/>之间的余弦相似度,通过/>和计算/>,其中,分子为/>中每一个子集乘以中每一个子集,分母为/>的每一个子集的平方和再开根号加上/>的每一个子集的平方和再开根号,得出以下式子:
。
计算文本被使用的总次数时需要注意以下事项,用户使用某一个指定网站(比如百度),且从指定网站使用以来,通过指定网站搜索“英雄”的相关解释,用户采纳了“英雄”可以解释为“有英勇品质的人”的文本,例如,用户A采纳了“英雄”解释为“有聪明才智的人”的文本,用户B采纳了“英雄”解释为“有英勇品质的人”的文本,用户C采纳了“英雄”解释为“有英勇品质的人”的文本,则对应的文本/>被使用的总次数为2次,特别的,当同一个用户多次采纳时仅计算为1次。
计算文本第/>次使用时用户的评价指数需要注意以下事项,评价指数由对应使用的用户输出,设定评价指数的取值范围大于0且小于等于5,当用户认为解释的文本与对应的词语相似度最高则取值为5。
在计算用户得到文本对应网站的使用年限中,使用年限指的是从第一个用户开始使用的时间至今,不足一年计算为一年。
文本被使用的总次数与文本/>被使用的总次数的计算原理相同,文本/>第/>次使用时用户的评价指数与文本/>第/>次使用时用户的评价指数的计算原理相同,用户得到文本/>对应网站的使用年限与用户得到文本/>对应网站的使用年限的计算原理相同。
计算词语和词语/>之间的字数重复指数时需要注意以下事项,以词语/>和词语/>组成的所有字相加的总个数为词语/>和词语/>之间的字数重复指数的分母,以词语/>和词语/>组成的所有字中相同的字的数量为词语/>和词语/>之间的字数重复指数的分子,例如,设定词语/>为“英雄”,设定词语/>为“英杰”,对应的词语/>的字数为2,对应的词语/>中“英”重复了因此其字数为1,则词语/>和词语/>之间的字数重复指数的分母为3,词语/>中有“英”,词语/>中也有“英”,则词语/>和词语/>之间的字数重复指数的分母为1,即词语/>和词语/>之间的字数重复指数为/>。
可选的,所述控制模块计算第一次判断词语相似信息时,满足以下式子:
;
其中,为第一次判断词语相似信息,/>为第一次判断词语相似因子的选择阈值,当/>时为第一次判断词语相似度低,当/>时为第一次判断词语相似度高。
可选的,在步骤S1中,分析模块基于AIGC技术分析得出检索词语的相似词时词语/>出现的参考指数、第一常数、检索词语/>的相似词时词语/>的排位、检索词语/>的相似词时词语/>出现的参考指数和检索词语/>的相似词时词语/>的排位、第二常数的信息,并传输至控制模块;
在步骤S2中,控制模块根据相关信息计算第二次判断词语相似因子,根据第二次判断词语相似因子得出第二次判断词语相似信息并传输至通信模块;
在步骤S3中,通信模块将第二次判断词语相似信息传输至用户端。
可选的,所述分析模块还包括词语分析子模块,所述词语分析子模块与控制模块通信连接;
所述词语分析子模块基于AIGC技术分析词语得出检索词语的相似词时词语/>出现的参考指数、第一常数、检索词语/>的相似词时词语/>的排位、检索词语/>的相似词时词语出现的参考指数和检索词语/>的相似词时词语/>的排位、第二常数的信息,并传输至控制模块。
可选的,所述控制模块计算第二次判断词语相似因子时,满足以下式子:
;
其中,为第二次判断词语相似因子,/>为检索词语/>的相似词时词语出现的参考指数,/>为检索词语/>的相似词时词语/>的排位,/>为第一常数,第一常数的取值范围大于检索词语/>的相似词的总个数,/>为检索词语/>的相似词时词语/>出现的参考指数,/>为检索词语/>的相似词时词语/>的排位,/>为第二常数,第二常数的取值范围大于检索词语/>的相似词的总个数。
具体的,计算检索词语的相似词时词语/>出现的参考指数时需要注意以下事项,检索时会以统计的相似词统计文本作为检索范本,检索范本由本领域技术人员预先制定且根据统计结果将认为相似度最高的词语放在所有相似词的首位,然后对比检索得到的所有相似词是否出现检索词语A,如果有就设定检索词语/>的相似词时词语/>出现的参考指数为1,如果没有就设定检索词语/>的相似词时词语/>出现的参考指数为2,根据检索词语A在多个相似词中的排名设置检索词语/>的相似词时词语/>的排位;例如:设定词语/>为“英雄”,设定词语/>为“英杰”,通过检索范本得到“英雄”相似词分别有以下“豪杰、英豪、英杰、好汉、志士、英雄好汉、英雄豪杰、民族英雄”,然后对比检索得到的所有相似词是否出现“英杰”,如果有就设定检索词语/>的相似词时词语/>出现的参考指数为1,如果没有就设定检索词语的相似词时词语/>出现的参考指数为2,则根据上述要求判断“英杰”有出现在相似词内,则得到检索词语/>的相似词时词语/>出现的参考指数为1;计算/>为检索词语/>的相似词时词语/>的排位时需要注意以下事项,设定词语/>为“英雄”,设定词语/>为“英杰”,通过检索范本得到“英雄”相似词分别有以下“豪杰、英豪、英杰、好汉、志士、英雄好汉、英雄豪杰、民族英雄”,由于“英杰”在多个相似词中排名第三,则对应的检索词语/>的相似词时词语/>的排位为3;第一常数的取值范围大于检索词语/>的相似词的总个数,根据上述例子,“英雄”相似词分别有以下“豪杰、英豪、英杰、好汉、志士、英雄好汉、英雄豪杰、民族英雄”,则“英雄”相似词的总个数为8个,对应的第一常数的取值范围大于8;第二常数的取值范围大于检索词语/>的相似词的总个数,第二常数的数值的设定规则与第一常数的数值的设定规则相同。
可选的,所述控制模块计算第二次判断词语相似信息时,满足以下式子:
;
其中,为第二次判断词语相似信息,/>为第二次判断词语相似因子的选择阈值,当/>时为第二次判断词语相似度高,当/>时为第二次判断词语相似度低。
具体的,第二次判断词语相似因子的选择阈值由工作人员根据具体情况和需求作出响应调整。
以上公式在本实施例中虽然没有提供具体的单位,但是本领域技术人员必然会根据实际应用的需要,设定合适的单位。
本实施例解决了传统的判断方法判断准确性较差的问题,具体的,本实施例计算第一次判断词语相似信息时考虑到检索得到的文本的误差、文本的解释以及用户的评价指数,从而能提高计算第一次判断词语相似信息的计算精度,提高判断的准确性。
另外,对于需要判断的同一组词语,控制模块还需要进行第二次判断,通过控制模块计算第二次判断词语相似信息,提高判断的准确性。
实施例二:本实施例包含了实施例一的全部内容,提供了一种基于AIGC的相似词判断方法,结合图3和图4所示。
一种基于AIGC的相似词判断方法,包括以下步骤:
S1:分析模块基于AIGC技术分析得出词语和词语/>之间的语义关联度参考指数、文本/>和文本/>之间的余弦相似度、文本/>被使用的总次数、文本/>第/>次使用时用户的评价指数、用户得到文本/>对应网站的使用年限、文本/>被使用的总次数、文本/>第/>次使用时用户的评价指数、用户得到文本/>对应网站的使用年限、词语/>和词语/>之间的字数重复指数、分析模块基于AIGC技术分析得出检索词语/>的相似词时词语/>出现的参考指数、第一常数、检索词语/>的相似词时词语/>的排位、检索词语/>的相似词时词语/>出现的参考指数、检索词语/>的相似词时词语/>的排位、第二常数的信息,并传输至控制模块;
S2:控制模块根据文本和文本/>之间的余弦相似度得出词语/>和词语/>之间的余弦相似度,根据相关信息计算第一次判断词语相似因子和第二次判断词语相似因子,根据第一次判断词语相似因子得出第一次判断词语相似信息并传输至对比模块,根据第二次判断词语相似因子得出第二次判断词语相似信息并传输至对比模块;
S3:对比模块对比第一次判断词语相似信息、第二次判断词语相似信息,当出现第二次判断词语相似信息的数值大于第一次判断词语相似信息的数值的情形,或者,当出现第二次判断词语相似信息的数值小于第一次判断词语相似信息的数值的情形,对比模块判定计算第一次判断词语相似信息出现误差,重复步骤S1的操作;当出现出现第二次判断词语相似信息的数值等于第一次判断词语相似信息的数值的情形,对比模块将第一次判断词语相似信息、第二次判断词语相似信息传输至通信模块;
S4:通信模块将第一次判断词语相似信息、第二次判断词语相似信息传输至用户端。
本实施例解决了传统的判断方法判断准确性较差的问题,具体的,本实施例通过对比模块比对第一次判断词语相似信息、第二次判断词语相似信息,对第一次判断词语相似信息起到较强的验证效果,降低计算误差的情形。
以上所公开的内容仅为本发明的优选可行实施例,并非因此局限本发明的保护范围,所以凡是运用本发明说明书及附图内容所做的等效技术变化,均包含于本发明的保护范围内,此外,随着技术发展其中的元素是可以更新的。
Claims (4)
1.一种基于AIGC的相似词判断方法,其特征在于,包括以下步骤:
S1:分析模块基于AIGC技术分析得出词语和词语/>之间的语义关联度参考指数、文本和文本/>之间的余弦相似度、文本/>被使用的总次数、文本/>第/>次使用时用户的评价指数、用户得到文本/>对应网站的使用年限、文本/>被使用的总次数、文本/>第/>次使用时用户的评价指数、用户得到文本/>对应网站的使用年限、词语/>和词语/>之间的字数重复指数的信息,并传输至控制模块;其中,文本/>指的是词语/>经过AIGC技术解释得到的文本,文本/>指的是词语/>经过AIGC技术解释得到的文本;
S2:控制模块根据文本和文本/>之间的余弦相似度得出词语/>和词语/>之间的余弦相似度,根据上述步骤S1中的相关信息计算第一次判断词语相似因子,根据第一次判断词语相似因子得出第一次判断词语相似信息并传输至通信模块;
S3:通信模块将第一次判断词语相似信息传输至用户端;
所述控制模块计算第一次判断词语相似因子时,满足以下式子:
;
;
其中,为第一次判断词语相似因子,/>为词语/>和词语/>之间的语义关联度参考指数,/>为词语/>和词语/>之间的余弦相似度,/>为文本/>被使用的总次数,/>为文本/>第/>次使用时用户的评价指数,/>为用户得到文本/>对应网站的使用年限,/>为文本/>被使用的总次数,/>为文本/>第/>次使用时用户的评价指数,/>为用户得到文本/>对应网站的使用年限,/>为词语/>和词语/>之间的字数重复指数;
为文本/>和文本/>之间的余弦相似度;
所述控制模块计算第一次判断词语相似信息时,满足以下式子:
;
其中,为第一次判断词语相似信息,/>为第一次判断词语相似因子的选择阈值,当时为第一次判断词语相似度低,当/>时为第一次判断词语相似度高;
在步骤S1中,分析模块基于AIGC技术分析得出检索词语的相似词时词语/>出现的参考指数、第一常数、检索词语/>的相似词时词语/>的排位、检索词语/>的相似词时词语/>出现的参考指数、检索词语/>的相似词时词语/>的排位、第二常数的信息,并传输至控制模块;
在步骤S2中,控制模块根据上述检索词语的相似词时词语/>出现的参考指数、第一常数、检索词语/>的相似词时词语/>的排位、检索词语/>的相似词时词语/>出现的参考指数、检索词语/>的相似词时词语/>的排位、第二常数的信息计算第二次判断词语相似因子,根据第二次判断词语相似因子得出第二次判断词语相似信息并传输至通信模块;
在步骤S3中,通信模块将第二次判断词语相似信息传输至用户端;
所述控制模块计算第二次判断词语相似因子时,满足以下式子:
;
其中,为第二次判断词语相似因子,/>为检索词语/>的相似词时词语/>出现的参考指数,/>为检索词语/>的相似词时词语/>的排位,/>为第一常数,第一常数的取值范围大于检索词语/>的相似词的总个数,/>为检索词语/>的相似词时词语/>出现的参考指数,/>为检索词语/>的相似词时词语/>的排位,/>为第二常数,第二常数的取值范围大于检索词语/>的相似词的总个数;
所述控制模块计算第二次判断词语相似信息时,满足以下式子:
;
其中,为第二次判断词语相似信息,/>为第二次判断词语相似因子的选择阈值,当时为第二次判断词语相似度高,当/>时为第二次判断词语相似度低。
2.如权利要求1所述的一种基于AIGC的相似词判断方法,其特征在于,所述分析模块包括字数重复分析子模块、关联度分析子模块、文本转换子模块、文本相关信息分析子模块和余弦相似度分析子模块,所述字数重复分析子模块、关联度分析子模块、文本相关信息分析子模块、余弦相似度分析子模块均与控制模块通信连接,所述文本相关信息分析子模块、余弦相似度分析子模块均与文本转换子模块通信连接;
所述字数重复分析子模块基于AIGC技术分析且得出词语和词语/>之间的字数重复指数的信息,并传输至控制模块;
所述关联度分析子模块基于AIGC技术分析词语关联度且得出词语和词语/>之间的语义关联度参考指数的信息,并传输至控制模块;
所述文本转换子模块基于AIGC技术将词语转换为对应的文本,且传输至文本相关信息分析子模块、余弦相似度分析子模块;
所述文本相关信息分析子模块基于AIGC技术分析且得出文本被使用的总次数、文本/>第/>次使用时用户的评价指数、用户得到文本/>对应网站的使用年限、文本/>被使用的总次数、文本/>第/>次使用时用户的评价指数和用户得到文本/>对应网站的使用年限的信息,并传输至控制模块;
所述余弦相似度分析子模块基于AIGC技术分析且得出文本和文本/>之间的余弦相似度的信息,并传输至控制模块。
3.如权利要求2所述的一种基于AIGC的相似词判断方法,其特征在于,所述余弦相似度分析子模块基于AIGC技术对转换的文本进行分词、列词、编码、向量化和计算的操作且得出文本和文本/>之间的余弦相似度的信息,并传输至控制模块。
4.如权利要求2所述的一种基于AIGC的相似词判断方法,其特征在于,所述分析模块还包括词语分析子模块,所述词语分析子模块与控制模块通信连接;
所述词语分析子模块基于AIGC技术分析词语得出检索词语的相似词时词语/>出现的参考指数、第一常数、检索词语/>的相似词时词语/>的排位、检索词语/>的相似词时词语/>出现的参考指数和检索词语/>的相似词时词语/>的排位、第二常数的信息,并传输至控制模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311638879.8A CN117371439B (zh) | 2023-12-04 | 2023-12-04 | 一种基于aigc的相似词判断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311638879.8A CN117371439B (zh) | 2023-12-04 | 2023-12-04 | 一种基于aigc的相似词判断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117371439A true CN117371439A (zh) | 2024-01-09 |
CN117371439B CN117371439B (zh) | 2024-03-08 |
Family
ID=89389544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311638879.8A Active CN117371439B (zh) | 2023-12-04 | 2023-12-04 | 一种基于aigc的相似词判断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117371439B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107436864A (zh) * | 2017-08-04 | 2017-12-05 | 逸途(北京)科技有限公司 | 一种基于Word2Vec的中文问答语义相似度计算方法 |
CN109858028A (zh) * | 2019-01-30 | 2019-06-07 | 神思电子技术股份有限公司 | 一种基于概率模型的短文本相似度计算方法 |
CN113011194A (zh) * | 2021-04-15 | 2021-06-22 | 电子科技大学 | 融合关键词特征和多粒度语义特征的文本相似度计算方法 |
KR102517661B1 (ko) * | 2022-07-15 | 2023-04-04 | 주식회사 액션파워 | 텍스트 정보에서 타겟 단어에 대응하는 단어를 식별하는 방법 |
CN116304356A (zh) * | 2023-05-11 | 2023-06-23 | 环球数科集团有限公司 | 一种基于aigc的景区多场景内容创作及应用系统 |
-
2023
- 2023-12-04 CN CN202311638879.8A patent/CN117371439B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107436864A (zh) * | 2017-08-04 | 2017-12-05 | 逸途(北京)科技有限公司 | 一种基于Word2Vec的中文问答语义相似度计算方法 |
CN109858028A (zh) * | 2019-01-30 | 2019-06-07 | 神思电子技术股份有限公司 | 一种基于概率模型的短文本相似度计算方法 |
CN113011194A (zh) * | 2021-04-15 | 2021-06-22 | 电子科技大学 | 融合关键词特征和多粒度语义特征的文本相似度计算方法 |
KR102517661B1 (ko) * | 2022-07-15 | 2023-04-04 | 주식회사 액션파워 | 텍스트 정보에서 타겟 단어에 대응하는 단어를 식별하는 방법 |
CN116304356A (zh) * | 2023-05-11 | 2023-06-23 | 环球数科集团有限公司 | 一种基于aigc的景区多场景内容创作及应用系统 |
Non-Patent Citations (1)
Title |
---|
邹汉斌等: "基于正例的多类文本分类方法", 《计算机工程与设计》, 31 December 2006 (2006-12-31), pages 1072 - 1076 * |
Also Published As
Publication number | Publication date |
---|---|
CN117371439B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
Guan et al. | Knowledge graph embedding with concepts | |
Zhang et al. | Chinese medical question answer matching using end-to-end character-level multi-scale CNNs | |
Hu et al. | Twitter100k: A real-world dataset for weakly supervised cross-media retrieval | |
CN109960763B (zh) | 基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法 | |
CN112966091B (zh) | 一种融合实体信息与热度的知识图谱推荐系统 | |
CN111143672B (zh) | 基于知识图谱的专业特长学者推荐方法 | |
Li et al. | TagDC: A tag recommendation method for software information sites with a combination of deep learning and collaborative filtering | |
Huang et al. | Expert as a service: Software expert recommendation via knowledge domain embeddings in stack overflow | |
Sadr et al. | Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms | |
CN112256866A (zh) | 一种基于深度学习的文本细粒度情感分析方法 | |
CN113239159A (zh) | 基于关系推理网络的视频和文本的跨模态检索方法 | |
CN117648984A (zh) | 一种基于领域知识图谱的智能问答方法及系统 | |
Henk et al. | Metaresearch recommendations using knowledge graph embeddings | |
Luo et al. | Self-supervised learning for semi-supervised temporal language grounding | |
Wankerl et al. | f2tag—Can Tags be Predicted Using Formulas? | |
Jiang et al. | Let knowledge make recommendations for you | |
CN110737837A (zh) | ResearchGate平台下基于多维特征的科研合作者推荐方法 | |
Wu et al. | Answer category-aware answer selection for question answering | |
CN117371439B (zh) | 一种基于aigc的相似词判断方法 | |
CN116720519A (zh) | 一种苗医药命名实体识别方法 | |
CN116628192A (zh) | 基于Seq2Seq-Attention的文本主题表示方法 | |
Sun et al. | A hybrid network model for Tibetan question answering | |
Ranjbar-Khadivi et al. | Persian topic detection based on Human Word association and graph embedding | |
Jin et al. | Unraveling Scientific Evolutionary Paths: An Embedding-Based Topic Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |