CN116881437A - 一种获取文本集的数据处理系统 - Google Patents
一种获取文本集的数据处理系统 Download PDFInfo
- Publication number
- CN116881437A CN116881437A CN202311155178.9A CN202311155178A CN116881437A CN 116881437 A CN116881437 A CN 116881437A CN 202311155178 A CN202311155178 A CN 202311155178A CN 116881437 A CN116881437 A CN 116881437A
- Authority
- CN
- China
- Prior art keywords
- target
- obtaining
- text
- word
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 claims abstract description 110
- 239000003086 colorant Substances 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000000034 method Methods 0.000 abstract description 17
- 238000012163 sequencing technique Methods 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 235000021018 plums Nutrition 0.000 description 2
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请涉及文本处理技术领域,特别是涉及一种获取文本集的数据处理系统,所述系统包括:若干个初始文本、处理器和存储有计算机程序的存储器,计算机程序被处理器执行时,实现以下步骤:获取关键词向量集,根据任一关键词向量,获取任一初始文本中的目标词向量集,获取目标词向量集对应的目标权重集,根据目标词向量集和目标权重集,获取所述任一初始文本对应的优先值,根据任一优先值,获取到关键词向量集对应的排序文本集。可知,本发明首先根据相似度获取若干个目标词向量,使搜索到的排序文本集更符合用户的需求;还能够根据不同的权重对不同的目标词和目标字符标示出不同深浅程度的颜色,便于用户在对文本进行进一步分析。
Description
技术领域
本发明涉及文本处理技术领域,特别是涉及一种获取文本集的数据处理系统。
背景技术
随着大数据和信息处理设备的发展,搜索工具层出不穷,用户通过在搜索工具的搜索框内输入相关的关键词,会从文本存储库中获取到与关键词相关的若干个文本。目前获取文本的方式通常是,根据用户输入的关键词,从文本数据库中的若干个文本中查找与关键词一致的词,并计算该词占文本的权重,根据权重的大小来确定与关键词相关的文本,但是,这种方式还存在以下问题:
一方面,若用户对所需要的关键词的信息了解不全面,例如在警情系统中查找警情文本时,不清楚目标人的全名,将关键词输入后,这时只查找与关键词一致的词,不能获取到更全面的文本。
另一方面,现有技术中根据用户输入的多个关键词,仅在搜索的文本中对与关键词一致的字符添加统一颜色,不能得知该字符在文本中的重要程度,不利于用户对文本的分析。
发明内容
针对上述技术问题,本发明采用的技术方案为:
一种获取文本集的数据处理系统,所述系统包括:若干个初始文本、处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:
S100,获取关键词向量集A={A1,……,Ai,……,Am},Ai为第i个关键词向量,i=1……m,m为关键词向量的数量;所述关键词向量是通过词向量构建模型对关键用户输入的关键词进行处理后得到的向量。
S200,根据任一Ai,获取任一初始文本中的目标词向量集B={B1,……,Bj,……,Bn},其中,Bj为第j个目标词向量,j=1……n,n为目标词向量的数量。
S300,获取B对应的目标权重集B0={B0 1,……,B0 j,……,B0 n},其中,B0 j为Bj对应的目标权重,其中,B0 j符合如下条件:
B0 j=LTj,d/∑R λ=1 Lλ,d×log(D/(1+θTj)),
其中,Tj为Bj对应的目标词,d为Tj对应的初始文本,LTj,d为Tj在d中出现的次数,R为d中的不同词条的总数,Lλ,d为第λ个词条在d中出现的总次数,D为所述初始文本的总数,θTj为包含有Tj的初始文本的数目。
S400,根据B和B0,获取所述任一初始文本对应的优先值S。
S500,根据任一S,获取到A对应的排序文本集。
本发明与现有技术相比具有明显的有益效果,借由上述技术方案,本发明提供的一种获取文本集的数据处理系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有以下有益效果:
本发明提供了一种获取文本集的数据处理系统,所述系统包括:若干个初始文本、处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:获取关键词向量集,根据关键词向量集中的任一关键词向量,获取任一初始文本中的目标词向量集,进而获取目标词向量集对应的目标权重集,根据目标词向量集和目标权重集,获取所述任一初始文本对应的优先值,根据每个初始文本的优先值,对若干个初始文本进行排序,最终获取到关键词向量集对应的排序文本集。本发明提供了一种新的获取文本集的数据处理系统,一方面,通过查找与关键词向量的相似度大于相似度阈值的目标词向量,使查找的与关键词相关的目标词更加全面,并根据若干个目标词向量的加权和获得所需的排序文本集,使搜索到的排序文本集更符合用户的需求;另一方面,通过获取若干个目标词向量对应的目标权重和目标字符向量所对应的最终权重,能够根据不同的权重对不同的目标词和目标字符标示出不同深浅程度的颜色,使用户能够快速得知不同目标词的重要程度,并快速定位到所需要的文本,便于用户在该文本中根据不同目标词的不同字体颜色对文本进行进一步分析。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种获取文本集的数据处理系统执行计算机程序的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明提供了一种获取文本集的数据处理系统,所述系统包括:若干个初始文本、处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤,如图1所示:
S100,获取关键词向量集A={A1,……,Ai,……,Am},Ai为第i个关键词向量,i=1……m,m为关键词向量的数量。
具体的,所述关键词向量是通过词向量构建模型对关键用户输入的关键词进行处理后得到的向量。
具体的,所述词向量构建模型可以是Word2Vec模型,本领域技术人员知晓所述Word2Vec模型的具体实施过程,在此不再赘述。
上述,通过词向量构建模型将每个关键词映射到一个固定长度的实数向量,便于根据词语之间的语义和语法关系来确定初始文本中的每个词语,便于根据关键词锁定初始文本中的对应词,以实现若干个目标词的获取。
S200,根据任一Ai,获取任一初始文本中的目标词向量集B={B1,……,Bj,……,Bn},其中,Bj为第j个目标词向量,j=1……n,n为目标词向量的数量。
在一个具体的实施例中,在S200中通过如下步骤获取Bj:
S201,从所述初始文本中获取初始词集E={E1,……,Ep,……,Eq},Ep为第p个初始词,p=1……q,q为初始词的数量;本领域技术人员可以知晓现有技术中任意一种从文本中获取词的方法均落入到本发明的保护范围,在此不再赘述。
S202,根据任一Ai和任一Ep,获取Ai和E0 p的相似度K。
具体的,K符合如下条件:
K=(Ai·E0 p)/(||Ai||×||E0 p||),其中,E0 p为Ep对应的初始词向量。
具体的,所述初始词向量的获取方式与所述关键词向量的获取方式一致。
S203,若K>K0,将E0 p确定为Bj,其中,K0为相似度阈值。
具体的,所述相似度阈值为本领域技术人员根据实际需求设置的值,例如:80%、85%等。
上述,根据计算的初始文本中的每个初始词向量和关键词向量的相似度,能够得知K越大时,对应的初始词向量和关键词向量的相似度越大,进而得到与关键词向量的相似度大于相似度阈值的若干个目标词向量。
S300,获取B对应的目标权重集B0={B0 1,……,B0 j,……,B0 n},其中,B0 j为Bj对应的目标权重。
具体的,B0 j符合如下条件:
B0 j=LTj,d/∑R λ=1 Lλ,d×log(D/(1+θTj))。
其中,Tj为Bj对应的目标词,d为Tj对应的初始文本,LTj,d为Tj在d中出现的次数,R为d中的不同词条的总数,Lλ,d为第λ个词条在d中出现的总次数,可以理解为:在统计R时,相同的词条记为一个词条;D为所述初始文本的总数,θTj为包含有Tj的初始文本的数目。
上述,在计算每个目标词向量在某一初始文本中的目标权重时,首先统计该目标词向量所对应的目标词在该初始文本中出现的频率,再对含有该目标词的初始文本的个数进行统计,使得最终计算到的目标词向量的目标权重更加准确。
S400,根据B和B0,获取所述任一初始文本对应的优先值S。
具体的,S符合如下条件:
S=∑n j=1 Bj×B0 j。
上述,通过将关键词向量与每个初始文本对应的若干个目标词向量进行加权和,能够得到每个初始文本关于关键词的优先值,从而得到每个初始文本与关键词的相关程度,使搜索到的文本更加准确。
S500,根据任一S,获取到A对应的排序文本集。
具体的,所述排序文本集是根据若干个初始文本分别对应的S按照从大到小的顺序,对若干个初始文本进行排序后得到文本集。
上述,通过根据每个初始文本的优先值,对所以的初始文本进行排序,能够将优先值越高的初始文本排在越前边,便于用户快速找到与所输入的关键词相关的初始文本,提高了用户的使用效率,同时提高了搜索的准确度。
在一个具体的实施例中,在S500中还通过如下步骤获取排序文本集:
S501,根据B和B对应的n个目标词,获取中间词向量集C={C1,……,Ce,……,Cf},Ce为第e个中间词向量,g=1……h,h为中间词向量的数量。
在一个具体的实施例中,在S501中通过如下步骤获取Ce:
S5011,根据任一目标词,若其他n-1个目标词中存在有与该目标词相同的字符,将该目标词作为中间词;可以理解为:中间词既是目标词,又是其他目标词中的单个或多个字符。例如,目标词有:李、李小江,则中间词为:李。
S5012,根据B,获取所述中间词对应的中间词向量Ce。
上述,通过获取中间词,便于后续对中间词进行处理,以使用户对若干个初始文本中出现的中间词和目标词进行区别,有利于用户了解到与输入的关键词相关的词语信息。
S502,根据B0,获取目标字符向量的最终权重W,其中,W符合如下条件:
W=W1+W2,其中,W1为从B0中获取的任一Ce对应的第一中间权重,W2为从B0中获取的中间目标词向量对应的第二中间权重。
具体的,所述目标字符向量为目标字符对应的向量。
具体的,所述目标字符为目标词中与中间词相同的单个或多个字符;可以理解为:若中间词为单个字符,所述目标词中包含有与中间词相同的字符,若中间词为多个字符,所述目标词中包含有与中间词相同的多个字符。
上述,通过在获取目标词向量的权重的基础上,再次获取中间词向量的权重,以对目标字符向量进行权重计算,从而能够表示出重叠词的权重区别。
在一个具体的实施例中,在S502中通过如下步骤获取所述中间目标词向量:
S5021,获取任一Ce对应的中间词。
S5022,从B对应的n个目标词中获取包含中间词的若干个中间目标词;任一所述中间目标词与所述中间词不一致;可以理解为:所述中间目标词为将从所述目标词集获取的若干个中间目标词中去除与中间词一致的词后得到的任一目标词。
S5023,根据B,获取所述中间目标词对应的中间目标词向量。
具体的,所述中间目标词向量为根据中间目标词对应的目标词,从B中查找到的该目标词对应的向量。
S503,根据B0和W,分别对若干个目标词和目标字符向量对应的目标字符添加对应的字体颜色。
在一个具体的实施例中,在S503中还包括如下步骤:
S5031,根据B0和若干个目标字符向量分别对应的最终权重W,获取任一目标词和任一目标字符分别对应的RGB值。
具体的,RGB1=(Wmax-Wmin)/256×W0,其中,RGB1为任一目标词对应的RGB值,Wmax为B0和若干个目标字符向量分别对应的最终权重W中的最大值,Wmin为B0和若干个目标字符向量分别对应的最终权重W中的最小值,W0为从B0中获取的任一目标词向量对应的目标权重。
具体的,RGB2=(Wmax-Wmin)/256×W,其中,RGB2为任一目标字符对应的RGB值。
S5032,根据每个目标词和目标字符对应的RGB值,分别对若干个目标词和目标字符添加对应的字体颜色;可以理解为:若目标词中包含有目标字符,则目标字符的颜色是以目标字符对应的RGB值为标准添加的颜色。
上述,通过根据不同词的权重添加不同的字体颜色,能够根据用户输入的关键词将若干个初始文本中与关键词相关的词表示出不同的重要程度,使初始文本中的目标词一目了然,从而使得用户能够根据不同的字体颜色快速定位到所需要的文本。
S504,根据添加的字体颜色和若干个初始文本分别对应的优先值,获取所述排序文本集对应的最终文本集;可以理解为:所述最终文本集是在排序文本集的基础上,对若干个排序文本中的目标词分别添加对应的字体颜色后得到的若干个最终文本所组成的集合。
上述,通过根据初始文本的优先值进行排序,并在排序的基础上对初始文本的目标词添加了不同颜色,能够为用户优先推荐与搜索的关键词相关度高的文本,并便于用户在该文本中根据不同目标词的不同字体颜色对文本进行进一步分析。
综上,本发明提供了一种获取文本集的数据处理系统,所述系统包括:若干个初始文本、处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:获取关键词向量集,根据关键词向量集中的任一关键词向量,获取任一初始文本中的目标词向量集,进而获取目标词向量集对应的目标权重集,根据目标词向量集和目标权重集,获取所述任一初始文本对应的优先值,根据每个初始文本的优先值,对若干个初始文本进行排序,最终获取到关键词向量集对应的排序文本集。本发明提供了一种新的获取文本集的数据处理系统,一方面,通过查找与关键词向量的相似度大于相似度阈值的目标词向量,使查找的与关键词相关的目标词更加全面,并根据若干个目标词向量的加权和获得所需的排序文本集,使搜索到的排序文本集更符合用户的需求;另一方面,通过获取若干个目标词向量对应的目标权重和目标字符向量所对应的最终权重,能够根据不同的权重对不同的目标词和目标字符标示出不同深浅程度的颜色,使用户能够快速得知不同目标词的重要程度,并快速定位到所需要的文本,便于用户在该文本中根据不同目标词的不同字体颜色对文本进行进一步分析。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。
Claims (8)
1.一种获取文本集的数据处理系统,其特征在于,所述系统包括:若干个初始文本、处理器和存储有计算机程序的存储器,当所述计算机程序被处理器执行时,实现以下步骤:
S100,获取关键词向量集A={A1,……,Ai,……,Am},Ai为第i个关键词向量,i=1……m,m为关键词向量的数量;所述关键词向量是通过词向量构建模型对关键用户输入的关键词进行处理后得到的向量;
S200,根据任一Ai,获取任一初始文本中的目标词向量集B={B1,……,Bj,……,Bn},其中,Bj为第j个目标词向量,j=1……n,n为目标词向量的数量;
S300,获取B对应的目标权重集B0={B0 1,……,B0 j,……,B0 n},其中,B0 j为Bj对应的目标权重,其中,B0 j符合如下条件:
B0 j=LTj,d/∑R λ=1 Lλ,d×log(D/(1+θTj)),
其中,Tj为Bj对应的目标词,d为Tj对应的初始文本,LTj,d为Tj在d中出现的次数,R为d中的不同词条的总数,Lλ,d为第λ个词条在d中出现的总次数,D为所述初始文本的总数,θTj为包含有Tj的初始文本的数目;
S400,根据B和B0,获取所述任一初始文本对应的优先值S;
S500,根据任一S,获取到A对应的排序文本集。
2.根据权利要求1所述的获取文本集的数据处理系统,其特征在于,在S200中通过如下步骤获取Bj:
S201,从所述初始文本中获取初始词集E={E1,……,Ep,……,Eq},Ep为第p个初始词,p=1……q,q为初始词的数量;
S202,根据任一Ai和任一Ep,获取Ai和E0 p的相似度K,其中,K符合如下条件:
K=(Ai·E0 p)/(||Ai||×||E0 p||),其中,E0 p为Ep对应的初始词向量;
S203,若K>K0,将E0 p确定为Bj,其中,K0为相似度阈值。
3.根据权利要求2所述的获取文本集的数据处理系统,其特征在于,所述初始词向量的获取方式与所述关键词向量的获取方式一致。
4.根据权利要求1所述的获取文本集的数据处理系统,其特征在于,在S400中,S符合如下条件:
S=∑n j=1 Bj×B0 j。
5.根据权利要求1所述的获取文本集的数据处理系统,其特征在于,在S500中还通过如下步骤获取排序文本集:
S501,根据B和B对应的n个目标词,获取中间词向量集C={C1,……,Ce,……,Cf},Ce为第e个中间词向量,g=1……h,h为中间词向量的数量;
S502,根据B0,获取目标字符向量的最终权重W,其中,W符合如下条件:
W=W1+W2,其中,W1为从B0中获取的任一Ce对应的第一中间权重,W2为从B0中获取的中间目标词向量对应的第二中间权重;
S503,根据B0和W,分别对若干个目标词和目标字符向量对应的目标字符添加对应的字体颜色;
S504,根据添加的字体颜色和若干个初始文本分别对应的优先值,获取所述排序文本集对应的最终文本集。
6.根据权利要求5所述的获取文本集的数据处理系统,其特征在于,在S501中通过如下步骤获取Ce:
S5011,根据任一目标词,若其他n-1个目标词中存在有与该目标词相同的字符,将该目标词作为中间词;
S5012,根据B,获取所述中间词对应的中间词向量Ce。
7.根据权利要求5所述的获取文本集的数据处理系统,其特征在于,在S502中通过如下步骤获取所述中间目标词向量:
S5021,获取任一Ce对应的中间词;
S5022,从B对应的n个目标词中获取包含中间词的若干个中间目标词;任一所述中间目标词与所述中间词不一致;
S5023,根据B,获取所述中间目标词对应的中间目标词向量。
8.根据权利要求5所述的获取文本集的数据处理系统,其特征在于,在S503中还包括如下步骤:
S5031,根据B0和若干个目标字符向量分别对应的最终权重W,获取任一目标词和任一目标字符分别对应的RGB值;
其中,RGB1=(Wmax-Wmin)/256×W0,RGB1为任一目标词对应的RGB值,Wmax为B0和若干个目标字符向量分别对应的最终权重W中的最大值,Wmin为B0和若干个目标字符向量分别对应的最终权重W中的最小值,W0为从B0中获取的任一目标词向量对应的目标权重;
RGB2=(Wmax-Wmin)/256×W,其中,RGB2为任一目标字符对应的RGB值;
S5032,根据每个目标词和目标字符对应的RGB值,分别对若干个目标词和目标字符添加对应的字体颜色。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311155178.9A CN116881437B (zh) | 2023-09-08 | 2023-09-08 | 一种获取文本集的数据处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311155178.9A CN116881437B (zh) | 2023-09-08 | 2023-09-08 | 一种获取文本集的数据处理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116881437A true CN116881437A (zh) | 2023-10-13 |
CN116881437B CN116881437B (zh) | 2023-12-01 |
Family
ID=88264846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311155178.9A Active CN116881437B (zh) | 2023-09-08 | 2023-09-08 | 一种获取文本集的数据处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116881437B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207905A (zh) * | 2013-03-28 | 2013-07-17 | 大连理工大学 | 一种基于目标文本的计算文本相似度的方法 |
KR101505546B1 (ko) * | 2014-04-11 | 2015-03-26 | 고려대학교 산학협력단 | 텍스트 마이닝을 이용한 키워드 도출 방법 |
WO2019136993A1 (zh) * | 2018-01-12 | 2019-07-18 | 深圳壹账通智能科技有限公司 | 文本相似度计算方法、装置、计算机设备和存储介质 |
CN112507109A (zh) * | 2020-12-11 | 2021-03-16 | 重庆知识产权大数据研究院有限公司 | 一种基于语义分析与关键词识别的检索方法和装置 |
KR20220081009A (ko) * | 2020-12-08 | 2022-06-15 | 주식회사 카카오엔터프라이즈 | 주요 키워드 추출 장치, 그것의 제어 방법 및 주요 키워드 추출 프로그램 |
-
2023
- 2023-09-08 CN CN202311155178.9A patent/CN116881437B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103207905A (zh) * | 2013-03-28 | 2013-07-17 | 大连理工大学 | 一种基于目标文本的计算文本相似度的方法 |
KR101505546B1 (ko) * | 2014-04-11 | 2015-03-26 | 고려대학교 산학협력단 | 텍스트 마이닝을 이용한 키워드 도출 방법 |
WO2019136993A1 (zh) * | 2018-01-12 | 2019-07-18 | 深圳壹账通智能科技有限公司 | 文本相似度计算方法、装置、计算机设备和存储介质 |
KR20220081009A (ko) * | 2020-12-08 | 2022-06-15 | 주식회사 카카오엔터프라이즈 | 주요 키워드 추출 장치, 그것의 제어 방법 및 주요 키워드 추출 프로그램 |
CN112507109A (zh) * | 2020-12-11 | 2021-03-16 | 重庆知识产权大数据研究院有限公司 | 一种基于语义分析与关键词识别的检索方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116881437B (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106599278B (zh) | 应用搜索意图的识别方法及装置 | |
CN110222160B (zh) | 智能语义文档推荐方法、装置及计算机可读存储介质 | |
CN109408743B (zh) | 文本链接嵌入方法 | |
CN112100529B (zh) | 搜索内容排序方法、装置、存储介质和电子设备 | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN109241319B (zh) | 一种图片检索方法、装置、服务器和存储介质 | |
CN110990533B (zh) | 确定查询文本所对应标准文本的方法及装置 | |
CN111475603A (zh) | 企业标识识别方法、装置、计算机设备及存储介质 | |
WO2021112984A1 (en) | Feature and context based search result generation | |
CN111078835A (zh) | 简历评估方法、装置、计算机设备及存储介质 | |
CN114329225A (zh) | 基于搜索语句的搜索方法、装置、设备及存储介质 | |
CN112182145A (zh) | 文本相似度确定方法、装置、设备和存储介质 | |
CN111813888A (zh) | 训练目标模型 | |
CN113988157A (zh) | 语义检索网络训练方法、装置、电子设备及存储介质 | |
CN112380421A (zh) | 简历的搜索方法、装置、电子设备及计算机存储介质 | |
CN105653553B (zh) | 词权重生成方法和装置 | |
CN116401464B (zh) | 一种职业用户画像的构建方法、装置、设备及存储介质 | |
CN115827990B (zh) | 搜索方法及装置 | |
CN116881437B (zh) | 一种获取文本集的数据处理系统 | |
CN115563515A (zh) | 文本相似性检测方法、装置、设备及存储介质 | |
JP7121819B2 (ja) | 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム | |
CN111985217B (zh) | 一种关键词提取方法、计算设备及可读存储介质 | |
CN114780601A (zh) | 一种数据查询方法、装置、电子设备和存储介质 | |
CN110262906B (zh) | 接口标签推荐方法、装置、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |