CN116805044B - 一种标签的获取方法、电子设备及存储介质 - Google Patents
一种标签的获取方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116805044B CN116805044B CN202311036720.9A CN202311036720A CN116805044B CN 116805044 B CN116805044 B CN 116805044B CN 202311036720 A CN202311036720 A CN 202311036720A CN 116805044 B CN116805044 B CN 116805044B
- Authority
- CN
- China
- Prior art keywords
- text
- target
- label
- priority
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种标签的获取方法,包括如下步骤:获取目标文本对应的第二文本标签集EE和EE对应的第二文本标签优先级集CC,基于所述目标文本对应的初始结果文本列表,获取目标结果文本对应的第三文本标签集F和F对应第三文本标签优先级集FF,所述目标结果文本是所述初始结果文本列表中的任一文本,获取EE和F对应的相似度集GG,根据CC、FF和GG,获取所述目标文本与所述目标结果文本的相关度值G0。本发明提供了一种新的标签的获取方法,根据目标文本和结果文本对应的标签以及标签的优先值,能够计算得到结果文本与目标文本的相关度,提高了用户的搜索效率与质量。
Description
技术领域
本发明涉及文本处理领域,特别是涉及一种标签的获取方法、电子设备及存储介质。
背景技术
在计算机网络中存在大量的数据访问,当用户输入目标文本时,搜索引擎通常按照管理员预设的文字信息逐一执行各条相关性策略,并将最后一条相关性策略执行后获得的结果作为搜索结果,然而搜索引擎通常具有局限性,搜索到的结果可能并不满足用户的需求,需要多次更改关键词进行搜索,或者用户设置自定义标签存储在数据库中以供搜索模块查询调用,但上述现有技术还存在以下问题:
一方面,按照管理员预设的文字信息执行各条相关性策略,只能根据表面的文字信息找到对应的搜索结果,并按照相关度对搜索结果排序,未考虑到文本中各个关键词的重要程度,会导致搜索结果的质量和准确率较低。
另一方面,用户在数据库中对数据文本添加自定义标签,在搜索时只能根据预设的标签找到与目标文本对应的搜索结果,而不能根据用户的点击情况,对搜索结果的标签进行及时更改,影响后续搜索结果的准确度。
发明内容
针对上述技术问题,本发明采用的技术方案为:
一种标签的获取方法,所述方法包括如下步骤:
S100,获取目标文本对应的第二文本标签集EE和EE对应的第二文本标签优先级集CC;所述目标文本是指目标用户输入的文本且所述目标文本中包括第二类关键词,所述第二类关键词是指具体某一特性的量词;所述EE是根据所述第二类关键词得到的文本标签集;所述CC是根据所述第二类关键词和EE得到的文本标签优先级集。
S200,基于所述目标文本对应的初始结果文本列表,获取目标结果文本对应的第三文本标签集F和F对应的第三文本标签优先级集FF;所述目标结果文本是所述初始结果文本列表中的任一文本。
S300,获取EE和F对应的相似度集GG;所述相似度集为EE中的每个第二文本标签分别与F中的第三文本标签计算相似度所得到的集合。
S400,根据CC、FF和GG,获取所述目标文本与所述目标结果文本的相关度值G0。
本发明至少具有以下有益效果:
本发明提供了一种标签的获取方法,所述方法包括如下步骤:获取目标文本对应的第二文本标签集EE和EE对应的第二文本标签优先级集CC;所述目标文本是指目标用户输入的文本且所述目标文本中包括第二类关键词,所述第二类关键词是指具体某一特性的量词,基于所述目标文本对应的初始结果文本列表,获取目标结果文本对应的第三文本标签集F和F对应的第三文本标签优先级集FF;所述目标结果文本是所述初始结果文本列表中的任一文本,获取EE和F对应的相似度集GG;所述相似度集为EE中的每个第二文本标签分别与F中的第三文本标签计算相似度所得到的集合,根据CC、FF和GG,获取所述目标文本与所述目标结果文本的相关度值G0。本发明提供了一种新的标签的获取方法,一方面,本发明通过目标文本和目标结果文本对应的标签以及标签优先级,计算得到目标结果文本与目标文本的相关度,并通过相同方法能够得到所有的初始结果文本与目标文本的相关度,按相关度从高到低对初始结果文本排序,能够提高用户的搜索效率与质量;另一方面,通过获取用户点击的初始结果文本,能够获取到所点击的文本对应的标签和标签优先级,即获取到有效的文本标签,以对有效的文本标签的优先值以及其对应的目标关键模型的优先值进行更新,提高后续搜索的准确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种标签的获取方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明提供了一种标签的获取方法,所述方法包括如下步骤:
S100,获取目标文本对应的第二文本标签集EE和EE对应的第二文本标签优先级集CC;所述目标文本是指目标用户输入的文本且所述目标文本中包括第二类关键词。
具体的,所述第二类关键词是指具体某一特性的量词,例如,50岁、30米等。
具体的,EE中的第二文本标签均为字符串。
具体的,EE是根据所述第二类关键词得到的文本标签集,CC是根据所述第二类关键词和EE得到的文本标签优先级集。
在一个具体的实施例中,在S100中还通过如下步骤获取CC:
S101,获取所述目标文本对应的第一文本标签优先级集AA。
具体的,所述目标文本是指目标用户输入的文本且所述目标文本中包括第二类关键词或者第一类关键词和第二类关键词,其中,所述第一类关键词是指用于表征不能确定含义的词,例如,大约、预估、估计等。
在一个具体的实施例中,在S101中还通过如下步骤获取AA:
S1011,获取所述目标文本中第二类关键词对应的量值D0,本领域技术人员可以知晓现有技术中任意一种从词中提取量值的方法均落入到本发明的保护范围,在此不再赘述。
S1012,根据D0,获取D0对应的第一中间量值列表B={B1,……,Bi,……,Bm}和第二中间量值列表B0={B0 1,……,B0 i,……,B0 m},Bi为D0对应的第i个第一中间量值,B0 i为D0对应的第i个第二中间量值,i=1……m,m为第一中间量值和第二中间量值的预设数量,本领域技术人员根据实际需求设置第一中间量值和第二中间量值的数量。
具体的,Bi+1-Bi=△D且B1<……<Bi<……<Bm<D0。
具体的,B0 i+1-B0 i=△D且D0<B0 1<……<B0 i<……<B0 m。
进一步的,D0-Bm=B0 1-D0=△D,其中,△D为量值差值,本领域技术人员根据实际需求设置量值差值,在此不再赘述。
S1013,根据B和B0,获取所述目标文本对应的第一中间标签优先级集A={A1,……,Ai,……,Am}和第二中间标签优先级集A0={A0 1,……,A0 i,……,A0 m},Ai为Bi对应的第一中间标签优先级,A0 i为B0 i对应的第二中间标签优先级;可以理解为:将第一中间量值作为第一中间标签,将第二中间量值作为第二中间标签,即,Ai表示第i个第一中间标签对应的优先值,A0 i表示第i个第二中间标签对应的优先值,优先值越大表示优先级别越高。
具体的,Ai符合如下条件:
具体的,A0 j符合如下条件:
。
S1014,将A和A0合并成第一文本标签优先级集AA={A1,……,Ai,……,Am,A0 1……,A0 i,……,A0 m};可以理解为:第一文本标签是第一中间标签和第二中间标签中任一标签。
具体的,所述第一文本标签为字符串。
上述,通过获取包括第二类关键词的目标文本,并确定该关键词对应的量值,能够获取到目标文本对应的第一文本标签,根据第一文本标签确定目标文本对应的搜索范围,使搜索结果更满足于用户需求。
S102,获取AA对应的中间点击次数列表AAB,所述AAB为预设时间段内AA对应的所有标签被点击的次数组成的列表。
在一个具体的实施例中,在S102中还通过如下步骤获取AAB:
S1021,获取A对应的第一点击次数列表AB={AB1,……,ABi,……,ABm}和A0对应的第二点击次数列表AB0={AB0 1,……,AB0 i,……,AB0 m},ABi为Ai对应的第一点击次数,AB0 i为A0 i对应的第二点击次数。
具体的,ABi符合如下条件:
ABi=(∑f e=1ABe i)/f,ABe i是指在预设时间段内第e个第一非目标用户对Ai对应的标签进行点击的次数,e=1……f,f为第一非目标用户的数量;其中,本领域技术人员根据实际需求设置预设时间段,在此不在赘述。
具体的,所述第一非目标用户为在预设时间段内对Ai对应的标签进行点击的任一用户,可以理解为:若所述目标用户在该预设时间段内对Ai对应的标签进行了点击,则所述第一非目标用户也包括目标用户。
具体的,AB0 i符合如下条件:
AB0 i=(∑f e=1AB0e i)/f,AB0e i是指在预设时间段内第e个第二非目标用户对A0 i对应的标签进行点击的次数,e=1……f,f为第二非目标用户的数量。
具体的,所述第二非目标用户为在预设时间段内对A0 i对应的标签进行点击的任一用户,可以理解为:若所述目标用户和所述第一非目标用户在该预设时间段内对A0 i对应的标签进行了点击,则所述第二非目标用户也包括所述目标用户和所述第一非目标用户。
上述,通过统计预设时间段内每个第一文本标签的总点击次数,并根据执行点击的非目标用户的人数计算出该标签的平均点击次数,使统计的第一文本标签的中间点击次数更加准确和符合实际。
S1022,将AB和AB0合并成中间点击次数列表AAB={AB1,……,ABi,……,ABm,AB0 1,……,AB0 i,……,AB0 m};可以理解为:所述中间点击次数是第一点击次数和第二点击次数中任一点击次数。
上述,通过统计各个标签对应的点击次数,能够获取到最多点击次数所对应的标签,进而获取到用户的搜索需求,以根据用户的搜索需求对搜索范围进行调整,使搜索范围和搜索结果更加符合用户的需求。
S103,根据AAB,获取所述目标文本对应的第二文本标签优先级集CC,所述CC是基于更新后的第二类关键词得到的,所述更新后的第二类关键词为AAB中数值最大的点击次数。
在一个具体的实施例中,在S103中还通过如下步骤获取CC:
S1031,从AAB中获取数值最大的点击次数对应的标签作为所述目标文本中第二类关键词对应的量值D1。
S1032,根据D1,获取D1对应的第三中间量值列表E={E1,……,Ej,……,En}和第四中间量值列表E0={E0 1,……,E0 j,……,E0 n},Ej为D1对应的第j个第三中间量值,E0 j为D1对应的第j个第四中间量值,j=1……n,n为第三中间量值和第四中间量值的数量,第四中间量值的数量与第三中间量值的数量一致。
具体的,n符合如下条件:
。
具体的,Ej+1-Ej=△D且E1<……<Ej<……<En<D1。
具体的,E0 j+1-E0 j=△D且D1<E0 1<……<E0 j<……<E0 n。
进一步的,D1-En=E0 1-D1=△D。
S1033,根据E和E0,获取所述目标文本对应的第三中间标签优先级集C={C1,……,Cj,……,Cn}和第四中间标签优先级集C0={C0 1,……,C0 j,……,C0 n},Cj为Ej对应的第三中间标签优先级,C0 j为E0 j对应的第四中间标签优先级;可以理解为:将第三中间量值作为第三中间标签,将第四中间量值作为第四中间标签,即,Cj表示第j个第三中间标签对应的优先值,C0 j表示第j个第四中间标签对应的优先值。
具体的,Cj符合如下条件:
。
具体的,C0 j符合如下条件:
。
S1034,将C和C0合并成第二文本标签优先级集CC={C1,……,Cj,……,Cn,C0 1,……,C0 j,……,C0 n};可以理解为:第二文本标签是第三中间标签和第四中间标签中的任一标签。
上述,通过获取对第一文本标签点击的最多点击次数,能够根据用户的点击需求,更改目标文本的第二关键词对应的量值,进而更新目标文本的第一文本标签优先级,使搜索范围和搜索结果更加符合用户的需求,提高了搜索结果的准确性。
在一个具体的实施例中,所述方法还包括如下步骤:
S110,根据E和E0,合并成CC对应的第二文本标签集EE={E1,……,Ej,……,En,E0 1,……,E0 j,……,E0 n}。
S120,根据CC和EE,获取所述目标文本对应的关键结果文本列表。
具体的,所述关键结果文本列表包括若干个关键结果文本,任一关键结果文本为根据目标用户在搜索引擎上输入的目标文本所得到的与目标文本的第二文本标签匹配的文本。
具体的,所述搜索引擎为本领域技术人员根据实际搜索需求所应用的搜索工具,在此不再赘述。
上述,根据目标文本对应的第二文本标签优先级集,使搜索到的关键结果文本是与目标文本的第二文本标签相关的结果文本,符合用户的搜索需求。
S200,基于所述目标文本对应的初始结果文本列表,获取目标结果文本对应的第三文本标签集F和F对应第三文本标签优先级集FF;所述目标结果文本是所述结果文本列表中的任一文本。
在一个具体的实施例中,在S200中还通过如下步骤获取FF:
S201,获取所述目标结果文本对应的第三文本标签集F={F1,……,Fr,……,Ft},Fr为所述目标结果文本对应的第r个第三文本标签,t为所述目标结果文本对应的第三文本标签的数量。
具体的,所述第三文本标签是通过预设的关键模型集H中的关键模型对所述目标结果文本进行处理获取的任一文本标签,所述关键模型用于根据所述目标结果文本的目标关键词对所述目标结果文本添加对应的第三文本标签,本领域技术人员知晓所述目标关键词和对应的关键模型,在此不再赘述。
S202,根据F和H,获取第三文本标签优先级集FF={FF1,……,FFr,……,FFd},FFr为Fr对应的目标优先值。
具体的,FFr符合如下条件:
FFr=Wrε×1/φr,其中,Wrε是预先设置的F0 r的模型优先值,F0 r为Fr对应的关键模型,φr是指F0 r对初始结果文本添加的第三文本标签的数量。
上述,通过关键模型的优先值和根据关键模型对初始结果文本添加的第三文本标签的数量,能够得到每个第三文本标签的优先值,以用于后续计算目标文本与结果文本的相关度。
S300,获取EE和F对应的相似度集GG;所述相似度集为EE中的每个第二文本标签分别与F中的第三文本标签计算相似度所得到的集合。
在一个具体的实施例中,在 S330中还通过如下步骤获取GG:
S301,将EE中的每个第二文本标签分别与F中第三文本标签组合,获取到文本标签对集EEF={EF1,……,EFc,……,EFb×2n},EFc为第c个文本标签对,b×2n为文本标签对的数量,其中,2n为EE中的第二文本标签的数量,b为F中的第三文本标签的数量。
S302,获取EEF对应的编辑距离集GG={G1,……,Gc,……,Gb×2n},Gc为第c个文本标签对对应的编辑距离,可以理解为:编辑距离用于表征两个标签之间的相似度。
具体的,编辑距离是指两个字符串之间,由一个字符串转成另一个字符串所需的最少编辑操作次数,编辑距离越小,两个字符串的相似度越大,由于编辑距离的计算为本领域技术人员所熟知,在此不再赘述。
S303,确定GG为EE和F对应的相似度集。
S400,根据CC、FF和GG,获取所述目标文本与所述目标结果文本的相关度值G0。
具体的,G0符合如下条件:
G0=∑b×2n c=1EF0 c,其中,EF0 c符合如下条件:
EF0 c=1/Gc×Wc1×Wc2,Wc1为第c个文本标签对中的第二文本标签的优先值,Wc2为第c个文本标签对中的第三文本标签的优先值。
上述,通过获取目标文本中的每个第二文本标签与目标结果文本中的每个第三文本标签的相似度,能够计算出目标文本与目标结果文本的相关度,同理,能够得到每个初始结果文本与目标文本对应的相关度,并按照相关度从高到低的顺序对所有初始结果文本进行排序,使用户易于搜索到符合要求的结果。
在一个具体的实施例中,所述方法还包括如下步骤:
S500,根据所述目标文本与所述初始结果文本列表中每个初始结果文本的相关度,按照相关度从高到低对结果文本列表中的所有初始结果文本排序,得到目标结果文本列表。
在一个具体的实施例中,在S500之后还包括如下步骤:
S501,根据所述目标结果文本列表,获取点击文本列表P={P1,……,Pα,……,Pβ},Pα为第α个点击文本,α=1……β,β为点击文本的数量,点击文本是目标用户在所述目标结果文本列表中点击的任一文本。
上述,由于在对关键模型的优先值进行更新时,只对用户点击了的结果文本对应的关键模型的优先值进行更新,因此需要从结果文本列表中获取点击文本。
S502,获取P对应的第四文本标签集Q={Q1,……,Qδ,……,Qβ},Qδ={Qδ1,……,Qδθ,……,Qδβ(δ)},其中,Qδθ是指第δ个点击文本对应的第三文本标签集中的第θ个第三文本标签,β(δ)为第δ个点击文本对应的第三文本标签集中的第三文本标签的数量。
S503,获取Q对应的目标关键模型集K={K1,……,Kv,……,Ks},其中,Kv是指第v个目标关键模型,v=1……s,s为目标关键模型的数量;具体的,K为Q中的每个标签对应的关键模型的集合。
S504,获取K对应的第一模型优先级集Wk1={W11,……,Wv1,……,Ws1},其中,Wv1为第v个目标关键模型对应的第一模型优先级,第一模型优先级是预先设置的对应的目标关键模型的优先值,Wk1中的每个第一模型优先级的初始值为W0=1。
S505,根据P、Q和Wk1,获取K对应的第二模型优先级集Wk2={W12,……,Wv2,……,Ws2},其中,Wv2为第v个目标关键模型对应的第二模型优先级。
具体的,Wv2符合如下条件:
Wv2=Wv1+∑β y=1∑Ty t=1log(y×Wyt),其中,Ty为第y条点击文本对应的第三文本标签的数量,Wyt为第y条点击文本的第t个第三文本标签的优先值。
具体的,Wyt符合如下条件:
Wyt=Wyt0×1/zt,其中,Wyt0为第y条点击文本的第t个第三文本标签所对应的目标关键模型的优先值,zt表示该目标关键模型中的第三文本标签的数量。
S506,根据Wk2,获取第三模型优先级Wk3={W13,……,Wv3,……,Ws3},以使0<Wv3<1,并将Wv1的值替换为Wv3的值。
具体的,Wv3符合如下条件:
Wv3=Wv2/∑s h=1Wh2,其中,Wh2为K中的第h个目标关键模型的第二模型优先级。
上述,由于计算出来的Wv2是在原来的基础上进行的叠加,因此其数值会越来越大,为了将其数值限制在0和1之间,需要对其进行归一化处理,得到符合要求的Wv3。
综上,本发明提供了一种标签的获取方法,所述方法包括如下步骤:获取目标文本对应的第二文本标签集EE和EE对应的第二文本标签优先级集CC;所述目标文本是指目标用户输入的文本且所述目标文本中包括第二类关键词,所述第二类关键词是指具体某一特性的量词,基于所述目标文本对应的初始结果文本列表,获取目标结果文本对应的第三文本标签集F和F对应的第三文本标签优先级集FF;所述目标结果文本是所述初始结果文本列表中的任一文本,获取EE和F对应的相似度集GG;所述相似度集为EE中的每个第二文本标签分别与F中的第三文本标签计算相似度所得到的集合,根据CC、FF和GG,获取所述目标文本与所述目标结果文本的相关度值G0。本发明提供了一种新的标签的获取方法,一方面,本发明通过目标文本和目标结果文本对应的标签以及标签优先级,计算得到目标结果文本与目标文本的相关度,并通过相同方法能够得到所有的初始结果文本与目标文本的相关度,按相关度从高到低对初始结果文本排序,能够提高用户的搜索效率与质量;另一方面,通过获取用户点击的初始结果文本,能够获取到所点击的文本对应的标签和标签优先级,即获取到有效的文本标签,以对有效的文本标签的优先值以及其对应的目标关键模型的优先值进行更新,提高后续搜索的准确度。
本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。
Claims (7)
1.一种标签的获取方法,其特征在于,所述方法包括如下步骤:
S100,获取目标文本对应的第二文本标签集EE和EE对应的第二文本标签优先级集CC;所述目标文本是指目标用户输入的文本且所述目标文本中包括第二类关键词,所述第二类关键词是指量词;所述EE是根据所述第二类关键词得到的文本标签集;所述CC是根据所述第二类关键词和EE得到的文本标签优先级集;
S200,基于所述目标文本对应的初始结果文本列表,获取目标结果文本对应的第三文本标签集F和F对应的第三文本标签优先级集FF;所述目标结果文本是所述初始结果文本列表中的任一文本;
S300,获取EE和F对应的相似度集GG;所述相似度集为EE中的每个第二文本标签分别与F中的第三文本标签计算相似度所得到的集合;
S400,根据CC、FF和GG,获取所述目标文本与所述目标结果文本的相关度值G0;
所述方法还包括如下步骤:
S500,根据所述目标文本与所述初始结果文本列表中每个初始结果文本的相关度,按照相关度从高到低对结果文本列表中的所有初始结果文本排序,得到目标结果文本列表;
在S500之后还包括如下步骤:
S501,根据所述目标结果文本列表,获取点击文本列表P={P1,……,Pα,……,Pβ},Pα为第α个点击文本,α=1……β,β为点击文本的数量,点击文本是目标用户在所述目标结果文本列表中点击的任一文本;
S502,获取P对应的第四文本标签集Q={Q1,……,Qδ,……,Qβ},Qδ={Qδ1,……,Qδθ,……,Qδβ(δ)},其中,Qδθ是指第δ个点击文本对应的第三文本标签集中的第θ个第三文本标签,β(δ)为第δ个点击文本对应的第三文本标签集中的第三文本标签的数量;
S503,获取Q对应的目标关键模型集K={K1,……,Kv,……,Ks},其中,Kv是指第v个目标关键模型,v=1……s,s为目标关键模型的数量;
S504,获取K对应的第一模型优先级集Wk1={W11,……,Wv1,……,Ws1},其中,Wv1为第v个目标关键模型对应的第一模型优先级,第一模型优先级是预先设置的对应的目标关键模型的优先值,Wk1中的每个第一模型优先级的初始值为W0=1;
S505,根据P、Q和Wk1,获取K对应的第二模型优先级集Wk2={W12,……,Wv2,……,Ws2},其中,Wv2为第v个目标关键模型对应的第二模型优先级;
Wv2符合如下条件:
Wv2=Wv1+∑β y=1∑Ty t=1 log(y×Wyt),其中,Ty为第y条点击文本对应的第三文本标签的数量,Wyt为第y条点击文本的第t个第三文本标签的优先值;
具体的,Wyt符合如下条件:
Wyt=Wyt0×1/zt,其中,Wyt0为第y条点击文本的第t个第三文本标签所对应的目标关键模型的优先值,zt表示该目标关键模型中的第三文本标签的数量;
S506,根据Wk2,获取第三模型优先级Wk3={W13,……,Wv3,……,Ws3},以使0<Wv3<1,并将Wv1的值替换为Wv3的值;
Wv3符合如下条件:
Wv3=Wv2/∑s h=1 Wh2,其中,Wh2为K中的第h个目标关键模型的第二模型优先级。
2.根据权利要求1所述的方法,其特征在于,在S200中,FF通过如下步骤获取:
S201,获取所述目标结果文本对应的第三文本标签集F={F1,……,Fr,……,Ft},Fr为所述目标结果文本对应的第r个第三文本标签,t为所述目标结果文本对应的第三文本标签的数量,其中,所述第三文本标签是通过预设的关键模型集H中的关键模型对所述目标结果文本进行处理后获取的任一文本标签;
S202,根据F和H,获取第三文本标签优先级集FF={FF1,……,FFr,……,FFd},FFr为Fr对应的目标优先值。
3.根据权利要求2所述的方法,其特征在于,FFr符合如下条件:
FFr=Wrε×1/φr,其中,Wrε是预先设置的F0 r的模型优先值,F0 r为Fr对应的关键模型,φr是指F0 r对目标结果文本添加的第三文本标签的数量。
4.根据权利要求1所述的方法,其特征在于,在S300中还通过如下步骤获取GG:
S301,将EE中的每个第二文本标签分别与F中第三文本标签组合,获取到文本标签对集EEF={EF1,……,EFc,……,EFb×2n},EFc为第c个文本标签对,b×2n为文本标签对的数量,其中,2n为EE中的第二文本标签的数量,b为F中的第三文本标签的数量;
S302,获取EEF对应的编辑距离集GG={G1,……,Gc,……,Gb×2n},Gc为第c个文本标签对对应的编辑距离;
S303,确定GG为EE和F对应的相似度集。
5.根据权利要求4所述的方法,其特征在于,在S400中,G0符合如下条件:
G0=∑b×2n c=1 EF0 c,其中,EF0 c符合如下条件:
EF0 c=1/Gc×Wc1×Wc2,Wc1为第c个文本标签对中的第二文本标签的优先值,Wc2为第c个文本标签对中的第三文本标签的优先值。
6.一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-5中任意一项的所述方法。
7.一种电子设备,其特征在于,包括处理器和权利要求6中所述的非瞬时性计算机可读存储介质。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311036720.9A CN116805044B (zh) | 2023-08-17 | 2023-08-17 | 一种标签的获取方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311036720.9A CN116805044B (zh) | 2023-08-17 | 2023-08-17 | 一种标签的获取方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116805044A CN116805044A (zh) | 2023-09-26 |
CN116805044B true CN116805044B (zh) | 2023-11-17 |
Family
ID=88079607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311036720.9A Active CN116805044B (zh) | 2023-08-17 | 2023-08-17 | 一种标签的获取方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116805044B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117708439B (zh) * | 2024-02-06 | 2024-05-31 | 每日互动股份有限公司 | 一种目标文本的推送方法、装置、介质及设备 |
CN117708340B (zh) * | 2024-02-06 | 2024-05-24 | 阿里健康科技(杭州)有限公司 | 标签文本的确定方法、模型训练及调整方法、设备和介质 |
CN118503795B (zh) * | 2024-07-18 | 2024-09-20 | 北京睿企信息科技有限公司 | 一种文本标签验证方法、电子设备及存储介质 |
CN118503796B (zh) * | 2024-07-18 | 2024-09-20 | 北京睿企信息科技有限公司 | 一种标签体系构建方法、装置、设备及介质 |
CN118503434B (zh) * | 2024-07-18 | 2024-09-20 | 北京睿企信息科技有限公司 | 一种目标文本标签的获取方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959431A (zh) * | 2018-06-11 | 2018-12-07 | 中国科学院上海高等研究院 | 标签自动生成方法、系统、计算机可读存储介质及设备 |
WO2020019562A1 (zh) * | 2018-07-27 | 2020-01-30 | 天津字节跳动科技有限公司 | 搜索排序方法、装置、电子设备和存储介质 |
CN112364947A (zh) * | 2021-01-14 | 2021-02-12 | 北京崔玉涛儿童健康管理中心有限公司 | 一种文本相似度计算方法和装置 |
CN113987161A (zh) * | 2021-10-27 | 2022-01-28 | 建信金融科技有限责任公司 | 一种文本排序方法及装置 |
CN114021577A (zh) * | 2021-11-02 | 2022-02-08 | 山东库睿科技有限公司 | 内容标签的生成方法、装置、电子设备及存储介质 |
CN114298007A (zh) * | 2021-12-24 | 2022-04-08 | 北京字节跳动网络技术有限公司 | 一种文本相似度确定方法、装置、设备及介质 |
-
2023
- 2023-08-17 CN CN202311036720.9A patent/CN116805044B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959431A (zh) * | 2018-06-11 | 2018-12-07 | 中国科学院上海高等研究院 | 标签自动生成方法、系统、计算机可读存储介质及设备 |
WO2020019562A1 (zh) * | 2018-07-27 | 2020-01-30 | 天津字节跳动科技有限公司 | 搜索排序方法、装置、电子设备和存储介质 |
CN112364947A (zh) * | 2021-01-14 | 2021-02-12 | 北京崔玉涛儿童健康管理中心有限公司 | 一种文本相似度计算方法和装置 |
CN113987161A (zh) * | 2021-10-27 | 2022-01-28 | 建信金融科技有限责任公司 | 一种文本排序方法及装置 |
CN114021577A (zh) * | 2021-11-02 | 2022-02-08 | 山东库睿科技有限公司 | 内容标签的生成方法、装置、电子设备及存储介质 |
CN114298007A (zh) * | 2021-12-24 | 2022-04-08 | 北京字节跳动网络技术有限公司 | 一种文本相似度确定方法、装置、设备及介质 |
Non-Patent Citations (2)
Title |
---|
Label-Aware Text Representation for Multi-Label Text Classification;Hao Guo 等;ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP);全文 * |
一种面向自然语言需求的安全需求获取方法研究;李咣龙 等;小型微型计算机系统;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116805044A (zh) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116805044B (zh) | 一种标签的获取方法、电子设备及存储介质 | |
CN111125334B (zh) | 一种基于预训练的搜索问答系统 | |
Ding et al. | Entity discovery and assignment for opinion mining applications | |
JP5350472B2 (ja) | トピックに関する複数の製品にランクを付ける製品ランク付け方法及び製品ランク付けシステム | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN109299383B (zh) | 生成推荐词的方法、装置、电子设备及存储介质 | |
CN106383836B (zh) | 将可操作属性归于描述个人身份的数据 | |
CN109582852B (zh) | 一种全文检索结果的排序方法及系统 | |
CN111475617A (zh) | 事件主体抽取方法、装置及存储介质 | |
CN112948556B (zh) | 相似病例文本检索系统 | |
WO2022141876A1 (zh) | 基于词向量的搜索方法、装置、设备及存储介质 | |
CN113343101B (zh) | 一种对象排序方法及系统 | |
CN112100470B (zh) | 基于论文数据分析的专家推荐方法、装置、设备及存储介质 | |
CN116561388A (zh) | 一种获取标签的数据处理系统 | |
CN111708942B (zh) | 多媒体资源推送方法、装置、服务器及存储介质 | |
WO2023151576A1 (zh) | 搜索推荐方法、搜索推荐系统、计算机设备及存储介质 | |
CN112069783A (zh) | 一种病历输入法及其输入系统 | |
CN116756325B (zh) | 一种获取标签的数据处理系统 | |
WO2023130687A1 (zh) | 一种自然语言处理方法、装置、设备及可读存储介质 | |
US20100211569A1 (en) | System and Method for Generating Queries | |
CN114201598B (zh) | 文本推荐方法及文本推荐装置 | |
CN117149804A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN110309278B (zh) | 关键词检索方法、装置、介质及电子设备 | |
CN113032556A (zh) | 一种基于自然语言处理形成用户画像的方法 | |
WO2023130688A1 (zh) | 一种自然语言处理方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |