CN111639496A - 一种基于智能加权分词技术的文本相似度计算方法和系统 - Google Patents
一种基于智能加权分词技术的文本相似度计算方法和系统 Download PDFInfo
- Publication number
- CN111639496A CN111639496A CN202010399606.2A CN202010399606A CN111639496A CN 111639496 A CN111639496 A CN 111639496A CN 202010399606 A CN202010399606 A CN 202010399606A CN 111639496 A CN111639496 A CN 111639496A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- word segmentation
- weighted
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 87
- 238000004364 calculation method Methods 0.000 title claims abstract description 63
- 238000005516 engineering process Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 2
- 238000004088 simulation Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种基于智能加权分词技术的文本相似度计算方法,其中该方法包括:获取第一文本和第二文本;根据所述第一文本和所述第二文本所在领域构建加权词库;对所述第一文本和所述第二文本分别进行分词获得第一分词列表和第二分词列表;将所述加权词库中包含的词从所述第一分词列表和所述第二分词列表中分别剔除以获取第一核心文本和第二核心文本;将所述第一核心文本和所述第二核心文本输入相似度计算模型,以计算所述第一核心文本和所述第二核心文本之间的相似度。
Description
技术领域
本申请涉及计算机技术领域,具体而言,本申请涉及一种基于智能加权分词技术的文本相似度计算方法和系统。
背景技术
文本相似度可以用来衡量文本间的共性或差异,数据挖掘、信息检索、摘要生成等多个领域具有重要应用。目前已经有大量计算文本相似度的研究,并且取得了显著的成果。
最初的文本相似度由基于纯数学计算方法获取,如基于余弦相似性的相似度计算技术和基于词移距离的相似度计算技术。
随着计算机技术的发展,文本相似度的计算方法转向基于空间向量模型的方法,此类方法中使用词权重计算方法如Smooth Inverse Frequency、tfidf词频权重法、领域关联因子计算法、bootstarpping算法,计算每个词语的权重,但是对每个词嵌入赋予不同的权重,在基于词权重的文本相似度计算技术中,词语的权重越大,其在文本相似度分析中的重要性越大。
目前已有文本相似度计算方法的技术方案归纳如下:
基于余弦相似性的相似度计算技术:在平均词嵌入之间求余弦相似性的基准方法;
基于词移距离的相似度计算技术:使用两文本间的词嵌入,测量其中一文本中的单词在语义空间中移动到另一文本单词所需要的最短距离;
基于语料库相似度匹配算法:主要是基于神经网络的方法,经过有监督学习的算法得到训练分类器,利用此分类器计算短文本之间的相似度分数。
基于词权重的相似度计算技术:目前在词权重的计算方法上已经提出了很多有效的方,如Smooth Inverse Frequency、tfidf词频权重法、领域关联因子计算法、bootstarpping算法,计算每个词语的权重,但是对每个词嵌入赋予不同的权重。
但是,针对特定领域,在每个文本中都会出现一些重复词语,相似度比较如果是对文本的全部内容进行,则这些大量存在的重复词语会导致文本相似度计算的准确率下降。而现有的文本相似度算法中,正是因为同时考虑了大量重复词语,导致了计算效率低、准确度低的技术问题。
发明内容
本申请提供了一种基于智能加权分词技术的文本相似度计算方法,对特定领域的待对比文本,通过剔除本领域中所有文本都会出现的重复词语,来获取文本核心内容并进行文本相似度计算,从而可提高文本相似度计算的准确率。本申请采用的技术方案如下:
第一方面,提供了一种基于智能加权分词技术的文本相似度计算方法,该方法包括:
获取第一文本和第二文本;
根据所述第一文本和所述第二文本所在领域构建加权词库;
对所述第一文本和所述第二文本分别进行分词获得第一分词列表和第二分词列表;
将所述加权词库中包含的词从所述第一分词列表和所述第二分词列表中分别剔除以获取第一核心文本和第二核心文本;
将所述第一核心文本和所述第二核心文本输入相似度计算模型,以计算所述第一核心文本和所述第二核心文本之间的相似度。
优选地,在上述基于智能加权分词技术的文本相似度计算方法中,还包括:
根据所述第一文本和所述第二文本所在领域选取文本库;
按照指定分词算法,基于标准词库对所述文本库中的文本分词,获取样本词库;
计算所述样本词库各个词语的频率及概率密度函数;
将各个所述词语的频率分别与预设的词频阈值比较,如果所述词语的频率大于预设的词频阈值,则将所述词语添加至加权词库。
第二方面,提供了一种基于智能加权分词技术的文本相似度计算系统,所述基于智能加权分词技术的文本相似度计算系统包括:获取模块、加权词库模块、分词模块、核心文本模块,计算模块,其中:
所述获取模块,用于获取第一文本和第二文本;
所述加权词库模块,用于根据所述第一文本和所述第二文本所在领域构建加权词库;
所述分词模块,用于对所述第一文本和所述第二文本分别进行分词获得第一分词列表和第二分词列表;
所述核心文本模块,用于将所述加权词库中包含的词从所述第一分词列表和所述第二分词列表中分别剔除以获取第一核心文本和第二核心文本;
所述计算模块,用于将所述第一核心文本和所述第二核心文本输入相似度计算模型,以计算所述第一核心文本和所述第二核心文本之间的相似度。
优选地,在上述基于智能加权分词技术的文本相似度计算系统中,所述基于智能加权分词技术的文本相似度计算系统还包括文本库模块、样本词库模块、样本词库计算模块、比较模块,其中:
所述文本库模块,用于根据所述第一文本和所述第二文本所在领域选取文本库;
所述样本词库模块,用于按照指定分词算法,基于标准词库对所述文本库中的文本分词,获取样本词库;
所述样本词库计算模块,用于计算所述样本词库各个词语的频率及概率密度函数;
所述比较模块,用于将各个所述词语的频率分别与预设的词频阈值比较,如果所述词语的频率大于预设的词频阈值,则将所述词语添加至加权词库。
第三方面,提供了一种基于智能加权分词技术的文本相似度计算设备,其包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述服务模拟设备运行时,所述处理器与所述存储介质之间通过所述总线通信,所述处理器执行所述机器可读指令,以执行前述的基于智能加权分词技术的文本相似度计算方法的步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行前述的基于智能加权分词技术的文本相似度计算方法的步骤。
本申请提供了一种基于智能加权分词技术的文本相似度计算方法和系统,与现有技术中,现有的文本相似度算法因为同时考虑了大量重复词语,导致了计算效率低、准确度低的技术问题相比,本申请中,提供了一种基于智能加权分词技术的文本相似度计算方法,对特定领域的待对比文本,通过剔除本领域中所有文本都会出现的重复词语,来获取文本核心内容并进行文本相似度计算,从而可提高文本相似度计算的准确率。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例的一种基于智能加权分词技术的文本相似度计算方法的业务流程图;
图2为本申请实施例的一种基于智能加权分词技术的文本相似度计算方法系统的结构图。
具体实施方式
下面详细描述本申请的实施例,各实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
实施例一
如图1所示,本申请实施例提供了一种基于智能加权分词技术的文本相似度计算方法,该方法可以包括以下步骤:
步骤一,获取第一文本和第二文本。
具体地,第一文本和第二文本为相同领域的文本,具体为中文文本片段,字数可限制在一定范围内。
步骤二,根据所述第一文本和所述第二文本所在领域构建加权词库。
具体地,构建加权词库的方式如下:
根据所述第一文本和所述第二文本所在领域选取文本库Libtxt。
按照指定分词算法,基于标准词库Dic对所述文本库中的文本分词,获取样本词库,该过程可表示为Dics=F(Libtxt,Dic)。其中所述标准词库为特定领域内文本描述集合,并且可根据实际应用情况,对该标准词库添加专业词语。
计算样本词库词频及概率密度函数:对于样本词库Dics中的词语,采用指定词频计算方法,依次计算各词语出现的频率:μi=P{wordi|Dics},以及词语概率密度函数:fi(μi)。
计算加权词库:比较上述词语频率μi与设定频率阈值μ,如果将μi大于μ,则将对应词语添加至加权词库Dicp。其中,所述设定阈值μ受到Libtxt准确性和容量的影响。
步骤三,对所述第一文本和所述第二文本分别进行分词获得第一分词列表和第二分词列表。
具体地,对于每个文本,将目标文本T,基于标准词库Dic,使用指定分词算法进行分词,得到分词列表ListT。
步骤四,将所述加权词库中包含的词从所述第一分词列表和所述第二分词列表中分别剔除以获取第一核心文本和第二核心文本。
具体地,依次遍历所属分词列表ListT中的词语ListT[i],将包含在加权词库Dicp中的ListT[i]从列表ListT中剔除。将处理后的ListT连接成新的文本,即为核心文本内容。
步骤五,将所述第一核心文本和所述第二核心文本输入相似度计算模型,以计算所述第一核心文本和所述第二核心文本之间的相似度。
例如,以中信银行股份有限公司机构名称相似度计算为例,实施方式如下。
构建加权词库,具体步骤如下:
选取文本库Libtxt为中信银行股份有限公司机构名称,累计12723条文本数据。选取jieba中文分词词库作为准词库Dic,因涉及专有词汇,为提高针对性,将词语“中信银行”、“股份”、“有限公司”加入标准词库;
对文本词库分词:基于python的jieba分词算法,基于标准词库对文本库中所有文本进行分词,获取样本词库。
计算样本词库词频及概率密度函数:对于样本词库Dics中的词语,通过计算该词语在样本词库中出现的次数与样本库中词语总数的比例,得到其出现的频率。
计算加权词库:如果上述词语频率μi大于设定频率阈值90%,将所述词语添加到加权词库Dicp,最终得到的加权词库为:[“中信银行”,“股份”,“有限公司”,“分行”,“支行”,“银行”,“公司”]。
获取第一文本和第二文本,本实施例中,分多组实验:
对第一文本和第二文本分别进行相同规则的加权分词处理,获取对应的核心文本内容:
获取分词列表:将目标文本T,基于标准词库Dic,使用指定分词算法进行分词,得到分词列表ListT。
进行加权分词:依次遍历所属分词列表ListT中的词语ListT[i],将包含在加权词库Dicp中的ListT[i]从列表ListT中剔除。
将处理后的ListT连接成新的文本,即为核心文本内容,对不同的组的实验,获取的核心文本信息如下表所示:
序号 | 第一文本核心文本信息 | 第二文本核心文本信息 |
1 | 杭州萧山 | 绍兴 |
2 | 杭州萧山 | 杭州萧山 |
3 | 中信杭州萧山 | 杭州萧山 |
将第一核心文本和第二核心文本输入相似度计算模型,使用所述模型计算二者之间的相似度ζi。不同组实验最终对比相似度如下:
实施例二
如图2所示,提供了一种基于智能加权分词技术的文本相似度计算系统,该基于智能加权分词技术的文本相似度计算系统包括:获取模块、加权词库模块、分词模块、核心文本模块,计算模块,其中:
所述获取模块,用于获取第一文本和第二文本。具体地,具体地,第一文本和第二文本为相同领域的文本,具体为中文文本片段,字数可限制在一定范围内。
所述加权词库模块,用于根据所述第一文本和所述第二文本所在领域构建加权词库。具体地,构建加权词库的方式如下:
根据所述第一文本和所述第二文本所在领域选取文本库Libtxt。
按照指定分词算法,基于标准词库Dic对所述文本库中的文本分词,获取样本词库,该过程可表示为Dics=F(Libtxt,Dic)。其中所述标准词库为特定领域内文本描述集合,并且可根据实际应用情况,对该标准词库添加专业词语。
计算样本词库词频及概率密度函数:对于样本词库Dics中的词语,采用指定词频计算方法,依次计算各词语出现的频率:μi=P{wordi|Dics},以及词语概率密度函数:fi(μi)。
计算加权词库:比较上述词语频率μi与设定频率阈值μ,如果将μi大于μ,则将对应词语添加至加权词库Dicp。其中,所述设定阈值μ受到Libtxt准确性和容量的影响。
所述分词模块,用于对所述第一文本和所述第二文本分别进行分词获得第一分词列表和第二分词列表。具体地,对于每个文本,将目标文本T,基于标准词库Dic,使用指定分词算法进行分词,得到分词列表ListT。
所述核心文本模块,用于将所述加权词库中包含的词从所述第一分词列表和所述第二分词列表中分别剔除以获取第一核心文本和第二核心文本。具体地,依次遍历所属分词列表ListT中的词语ListT[i],将包含在加权词库Dicp中的ListT[i]从列表ListT中剔除。将处理后的ListT连接成新的文本,即为核心文本内容。
所述计算模块,用于将所述第一核心文本和所述第二核心文本输入相似度计算模型,以计算所述第一核心文本和所述第二核心文本之间的相似度。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (6)
1.一种基于智能加权分词技术的文本相似度计算方法,其特征在于,包括:
获取第一文本和第二文本;
根据所述第一文本和所述第二文本所在领域构建加权词库;
对所述第一文本和所述第二文本分别进行分词获得第一分词列表和第二分词列表;
将所述加权词库中包含的词从所述第一分词列表和所述第二分词列表中分别剔除以获取第一核心文本和第二核心文本;
将所述第一核心文本和所述第二核心文本输入相似度计算模型,以计算所述第一核心文本和所述第二核心文本之间的相似度。
2.根据权利要求1所述的一种基于智能加权分词技术的文本相似度计算方法,其特征在于,根据所述第一文本和所述第二文本所在领域构建加权词库的步骤中包括:
根据所述第一文本和所述第二文本所在领域选取文本库;
按照指定分词算法,基于标准词库对所述文本库中的文本分词,获取样本词库;
计算所述样本词库各个词语的频率及概率密度函数;
将各个所述词语的频率分别与预设的词频阈值比较,如果所述词语的频率大于预设的词频阈值,则将所述词语添加至加权词库。
3.一种基于智能加权分词技术的文本相似度计算系统,其特征在于,所述基于智能加权分词技术的文本相似度计算系统包括:获取模块、加权词库模块、分词模块、核心文本模块,计算模块,其中:
所述获取模块,用于获取第一文本和第二文本;
所述加权词库模块,用于根据所述第一文本和所述第二文本所在领域构建加权词库;
所述分词模块,用于对所述第一文本和所述第二文本分别进行分词获得第一分词列表和第二分词列表;
所述核心文本模块,用于将所述加权词库中包含的词从所述第一分词列表和所述第二分词列表中分别剔除以获取第一核心文本和第二核心文本;
所述计算模块,用于将所述第一核心文本和所述第二核心文本输入相似度计算模型,以计算所述第一核心文本和所述第二核心文本之间的相似度。
4.根据权利要求3所述的一种基于智能加权分词技术的文本相似度计算系统,其特征在于,所述加权词库模块还包括文本库模块、样本词库模块、样本词库计算模块、比较模块,其中:
所述文本库模块,用于根据所述第一文本和所述第二文本所在领域选取文本库;
所述样本词库模块,用于按照指定分词算法,基于标准词库对所述文本库中的文本分词,获取样本词库;
所述样本词库计算模块,用于计算所述样本词库各个词语的频率及概率密度函数;
所述比较模块,用于将各个所述词语的频率分别与预设的词频阈值比较,如果所述词语的频率大于预设的词频阈值,则将所述词语添加至加权词库。
5.一种基于智能加权分词技术的文本相似度计算设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述服务模拟设备运行时,所述处理器与所述存储介质之间通过所述总线通信,所述处理器执行所述机器可读指令,以执行权利要求1或2所述的基于智能加权分词技术的文本相似度计算方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行权利要求1或2所述的基于智能加权分词技术的文本相似度计算方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010399606.2A CN111639496A (zh) | 2020-05-12 | 2020-05-12 | 一种基于智能加权分词技术的文本相似度计算方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010399606.2A CN111639496A (zh) | 2020-05-12 | 2020-05-12 | 一种基于智能加权分词技术的文本相似度计算方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111639496A true CN111639496A (zh) | 2020-09-08 |
Family
ID=72332724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010399606.2A Pending CN111639496A (zh) | 2020-05-12 | 2020-05-12 | 一种基于智能加权分词技术的文本相似度计算方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111639496A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114564913A (zh) * | 2022-02-25 | 2022-05-31 | 盟浪可持续数字科技(深圳)有限责任公司 | 目标对象文本段落划分方法 |
CN116127942A (zh) * | 2023-02-17 | 2023-05-16 | 北京思前软件有限公司 | 文本比对方法、装置、设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955774A (zh) * | 2012-05-30 | 2013-03-06 | 华东师范大学 | 一种计算中文词语语义相似度的控制方法以及装置 |
CN103885937A (zh) * | 2014-04-14 | 2014-06-25 | 焦点科技股份有限公司 | 基于核心词相似度判断企业中文名称重复的方法 |
CN104679728A (zh) * | 2015-02-06 | 2015-06-03 | 中国农业大学 | 一种文本相似度检测方法 |
-
2020
- 2020-05-12 CN CN202010399606.2A patent/CN111639496A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955774A (zh) * | 2012-05-30 | 2013-03-06 | 华东师范大学 | 一种计算中文词语语义相似度的控制方法以及装置 |
CN103885937A (zh) * | 2014-04-14 | 2014-06-25 | 焦点科技股份有限公司 | 基于核心词相似度判断企业中文名称重复的方法 |
CN104679728A (zh) * | 2015-02-06 | 2015-06-03 | 中国农业大学 | 一种文本相似度检测方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114564913A (zh) * | 2022-02-25 | 2022-05-31 | 盟浪可持续数字科技(深圳)有限责任公司 | 目标对象文本段落划分方法 |
CN116127942A (zh) * | 2023-02-17 | 2023-05-16 | 北京思前软件有限公司 | 文本比对方法、装置、设备和存储介质 |
CN116127942B (zh) * | 2023-02-17 | 2024-02-13 | 北京思前软件有限公司 | 文本比对方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102019194B1 (ko) | 문서 내 핵심 키워드 추출 시스템 및 방법 | |
CN107122352B (zh) | 一种基于k-means、word2vec的抽取关键词的方法 | |
US10346257B2 (en) | Method and device for deduplicating web page | |
CN109766950B (zh) | 一种基于形态聚类和LightGBM的工业用户短期负荷预测方法 | |
CN105426426A (zh) | 一种基于改进的K-Medoids的KNN文本分类方法 | |
CN112368697A (zh) | 经由对偶分解评估损失函数或损失函数的梯度的系统和方法 | |
CN111243601B (zh) | 声纹聚类方法、装置、电子设备和计算机可读存储介质 | |
CN109214004B (zh) | 基于机器学习的大数据处理方法 | |
CN109299263B (zh) | 文本分类方法、电子设备 | |
CN110032650B (zh) | 一种训练样本数据的生成方法、装置及电子设备 | |
CN107357895B (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN111639496A (zh) | 一种基于智能加权分词技术的文本相似度计算方法和系统 | |
CN109271614A (zh) | 一种数据查重方法 | |
JP2024518458A (ja) | テキスト内の自動トピック検出のシステム及び方法 | |
CN114332500A (zh) | 图像处理模型训练方法、装置、计算机设备和存储介质 | |
CN111125329B (zh) | 一种文本信息筛选方法、装置及设备 | |
CN111339778B (zh) | 文本处理方法、装置、存储介质和处理器 | |
CN110209895B (zh) | 向量检索方法、装置和设备 | |
CN116245139A (zh) | 图神经网络模型训练方法和装置、事件检测方法和装置 | |
CN111190994B (zh) | 一种为提案委员会推荐提案承办单位的方法 | |
CN105373521B (zh) | 一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法 | |
CN109299260B (zh) | 数据分类方法、装置以及计算机可读存储介质 | |
CN110413956B (zh) | 一种基于bootstrapping的文本相似度计算方法 | |
CN108733824B (zh) | 考虑专家知识的交互式主题建模方法及装置 | |
CN112434174A (zh) | 多媒体信息的发布账号的识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200908 |