CN109918488A - 用于相似文档检索的方法与设备 - Google Patents
用于相似文档检索的方法与设备 Download PDFInfo
- Publication number
- CN109918488A CN109918488A CN201910107303.6A CN201910107303A CN109918488A CN 109918488 A CN109918488 A CN 109918488A CN 201910107303 A CN201910107303 A CN 201910107303A CN 109918488 A CN109918488 A CN 109918488A
- Authority
- CN
- China
- Prior art keywords
- document
- destination document
- similar
- destination
- data comparison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000011524 similarity measure Methods 0.000 claims description 15
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请的目的是提供一种用于相似文档检索的方法与设备。与现有技术相比,本申请通过基于目标文档确定所述目标文档的相似文档,并为所述目标文档添加与所述相似文档相同的指纹信息,然后基于所述目标文档对应的索引以及所述指纹信息实现对所述目标文档的相似检索。通过这种方式,能够将相似文档通过指纹信息的方式进行区分,从而能够更快地实现相似检索,提高了检索效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种用于相似文档检索的技术。
背景技术
对于相似文档的检索,传统的做法是基于Lucene相似文档查询组件MoreLikeThis实现。各种搜索引擎如:solr、elasticsearch等都是通过Lucene的API接口MoreLikeThis进行相似文章计算,然后将文章及相似文档数量返回。
MoreLikeThis进行相似检索的原理为:1)根据选定的域,从索引中获取此域中的值和频率并封装成Map<word,int>;2)对Map<word,int>中int来确定哪些键封装成TermQuery;3)将所有的TermQuery用BooleanQuery封装起来,然后通过BooleanQuery检索后获取到相似数量和对应的文档。
这种实现方式的优点是根据索引中数据动态、实时计算相似文档及数量。缺点是随着数据量的增加,即使是大内存、高性能的服务器集群也无法商业应用的效率要求,因此,现有的相似检索效率低下的问题亟待解决。
发明内容
本申请的目的是提供一种用于相似文档检索的方法与设备。
根据本申请的一个方面,提供了一种用于相似文档检索的方法,其中,该方法包括:
基于目标文档确定所述目标文档的相似文档;
为所述目标文档添加与所述相似文档相同的指纹信息;
基于所述目标文档对应的索引以及所述指纹信息实现对所述目标文档的相似检索。
进一步地,其中,所述基于目标文档确定所述目标文档的相似文档包括:
建立数据对比库,其中,所述数据对比库中的文档两两不相似;
将所述目标文档与所述数据对比库中的文档逐一进行相似性计算,在所述数据对比库中确定所述目标文档的相似文档。
进一步地,其中,所述将所述目标文档与所述数据对比库中的文档逐一进行相似性计算,在所述数据对比库中确定所述目标文档的相似文档包括:
对所述目标文档进行预处理并确定所述目标文档的主题核心词;
基于所述目标文档的主题核心词与所述数据对比库中的文档逐一进行相似性计算,在所述数据对比库中确定所述目标文档的相似文档。
进一步地,其中,所述基于所述目标文档的主题核心词与所述数据对比库中的文档逐一进行相似性计算,在所述数据对比库中确定所述目标文档的相似文档包括:
基于所述目标文档的主题核心词与所述数据对比库中的文档逐一进行相似性计算,确定相似度分值;
在所述数据对比库中将相似度分值达到预设阈值的文档确定为所述目标文档的相似文档。
进一步地,其中,所述方法还包括:
若所述数据对比库中不存在所述目标文档的相似文档,将所述目标文档添加至所述数据对比库中,并为所述目标文档添加对应的指纹信息。
进一步地,其中,所述为所述目标文档添加对应的指纹信息包括:
将所述目标文档的主题核心词对应的字符信息作为所述目标文档的指纹信息。
进一步地,其中,所述方法还包括:
建立所述目标文档对应的索引,其中,所述索引基于所述目标文档对应的主题核心词建立。
进一步地,其中,所述方法还包括:
基于预设的时间间隔清理所述数据对比库,以使所述数据对比库中存储预设时间段内的文档。
进一步地,其中,所述方法还包括:
基于对应的检索请求,呈现所述目标文档对应的相似检索结果,其中,所述检索请求包括相似结果合并请求或者相似结果不合并请求。
根据本申请的另一方面,还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现前述方法。
根据本申请的再一方面,还提供了一种用于相似文档检索的设备,其中,该设备包括:一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行。
与现有技术相比,在本申请中,基于目标文档确定所述目标文档的相似文档,并为所述目标文档添加与所述相似文档相同的指纹信息,然后基于所述目标文档对应的索引以及所述指纹信息实现对所述目标文档的相似检索。通过这种方式,能够将相似文档通过指纹信息的方式进行区分,从而能够更快地实现相似检索,提高了检索效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个方面的一种用于相似文档检索的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
为更进一步阐述本申请所采取的技术手段及取得的效果,下面结合附图及较佳实施例,对本申请的技术方案,进行清楚和完整的描述。
图1示出本申请一个方面提供的一种用于相似文档检索的方法流程图。所述方法在设备1执行,该方法包括以下步骤:
S11基于目标文档确定所述目标文档的相似文档;
S12为所述目标文档添加与所述相似文档相同的指纹信息;
S13基于所述目标文档对应的索引以及所述指纹信息实现对所述目标文档的相似检索。
在本申请中,所述设备1包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。在此,具体的设备1在本申请中不做任何限定。在本申请中所述步骤S11、S12相当于在检索之前的预处理阶段,通过本申请中的预处理阶段之后,再进行相似检索能够提高相似检索的检索效率。
在该实施例中,在所述步骤S11中,设备1基于目标文档确定所述目标文档的相似文档,在此,所述目标文档为需要进行相似处理的文档,例如,对于源数据库中的文档需要预先对每个文档进行相似性判断,也即在未检索之前会对源数据库中的文档进行相似的预处理,对于当前每一条需要进行相似性处理的文档都可称为目标文档,通过这种方式能够提高在需要相似检索时的检索效率。
具体地,可以通过将目标文档与其他的文档进行对比,例如,通过将目标文档与其他文档的文档内容分别进行关键词过滤,然后比较他们的匹配度,当匹配度达到一定的阈值时,可以确定两个文档是匹配的。优选地,该匹配过程可以在源数据库中直接进行比对。在此,基于目标文档确定所述目标文档的相似文档的方式仅为举例,其他现有的或者今后可能出现的确定方式如适用于本申请也应包含在本申请的保护范围内,在此,以引用的方式包含于此。
继续在该实施例中,在所述步骤S12中,设备1为所述目标文档添加与所述相似文档相同的指纹信息。在此,所述目标文档的相似文档是指已经做过相似处理的文档,所述相似文档已赋值指纹信息,例如,设备1首先对一批文档进行处理,为不相似的文档分别赋值不同的指纹信息,该指纹信息用以区分不相似的各个文档,例如,该指纹信息可以通过编号的形式呈现或者根据时间进行编码或者还可以根据文档的主题词进行确定等等,在此,对于指纹信息的具体形式不做限定,进一步地,基于所述目标文档在已赋值指纹信息的文档中进行匹配,确定是否存在相似文档,当存在相似文档,为所述目标文档添加与所述相似文档相同的指纹信息,通过这种方式能够将相似文档都赋值相同的指纹信息,从而在检索时能够快速将相似文档检索出来。
优选地,其中,所述步骤S11包括:S111(未示出)建立数据对比库,其中,所述数据对比库中的文档两两不相似;S112(未示出)将所述目标文档与所述数据对比库中的文档逐一进行相似性计算,在所述数据对比库中确定所述目标文档的相似文档。
在该实施例中,通过建立数据对比库的方式来实现相似文档的处理,具体地,在初始建立数据对比库时,可以将数据对比库中存储基于历史经验选择出来的文档,且其中的文档是两两不相似的,另外,还可以根据实际的需求在数据对比库中存储跟实际需求相关的文档,或者通过将源数据库中的所有文档或者预设时间段内的文档一条一条的导出或者复制到数据对比库中,当导入第二条文档后,然后该第二条文档与导入的第一条文档进行对比确定是否与第一条文档相似,具体地,判断是否相似的方式可以通过多层级的方式,例如,若标题完全不一样则判断不相似,进一步的当标题具备一定的相似性,然后进一步过滤具体内容的关键词来进行相似性判断,最后若不相似则将该第二条文档添加到该数据对比库中,进一步地,继续将其他不相似的文档添加进来,通过这种方式,可以建立数据对比库,且该数据对比库中的文档两两不相似。另外,该数据对比库中的不同文档携带不同的指纹信息,所述指纹信息用以区分不相似的各个文档,在本申请中对于指纹信息的具体形式不做限定。
进一步地,当有新的文档进来,可以将该新的文档作为目标文档,然后将所述目标文档与所述数据对比库中的文档逐一进行相似性计算,以确定在该数据对比库中是否存在相似的文档。
优选地,其中,所述步骤S112包括:S1121(未示出)对所述目标文档进行预处理并确定所述目标文档的主题核心词;S1122(未示出)基于所述目标文档的主题核心词与所述数据对比库中的文档逐一进行相似性计算,在所述数据对比库中确定所述目标文档的相似文档。
在该实施例中,在所述步骤S1121中,假设目标文档为文档d,其中d的标题为title,内容为content。对d的title和content进行预处理,去掉一些特殊符号,还要去掉干扰词语、停词等等,并对title和content利用分词器进行切词,例如,利用IK分词器生成新的一条文档数据d1,也即对文档d预处理后获得文档d1,然后进一步地,对d1的标题和内容提取主题核心词keywords,具体地,在此可以基于td-idf算法对d1的标题和内容提取主题核心词,具体提取主题核心词的方式在本申请中不做限定。
进一步地,确定出目标文档的主题核心词后,将所述目标文档的主题核心词与所述数据对比库中的文档逐一进行相似性计算,优选地,可以通过空间向量模型进行相似性计算,在此,对于具体的相似性计算方式在本申请中不做限定。
优选地,其中,所述步骤S1122包括:基于所述目标文档的主题核心词与所述数据对比库中的文档逐一进行相似性计算,确定相似度分值;在所述数据对比库中将相似度分值达到预设阈值的文档确定为所述目标文档的相似文档。
在该实施例中,对目标文档与数据库中的文档进行相似性计算的时候会确定出相似度分值,根据相似度分值的大小来确定是否相似,具体地,可以基于经验值确定预设阈值,当相似度分值达到预设阈值时,确定目标文档与数据对比库中的对应文档相似。
优选地,其中,所述方法还包括:S14(未示出)若所述数据对比库中不存在所述目标文档的相似文档,将所述目标文档添加至所述数据对比库中,并为所述目标文档添加对应的指纹信息。
在该实施例中,若所述目标文档通过相似性计算后,在所述数据对比库中为发现该目标文档的相似文档,将所述目标文档添加至所述数据对比库中去,进而可以作为其他目标文档对比的数据,其中,还会将该目标文档添加上与数据对比库中的其他文档不同的指纹信息,以区分不相似的文档。在此,所述指纹信息可以通过编号的形式呈现或者通过关键词的方式呈现等等,在本申请中不做具体的限定。
优选地,其中,所述为所述目标文档添加对应的指纹信息包括:将所述目标文档的主题核心词对应的字符信息作为所述目标文档的指纹信息。具体地,可以将主题核心词keywords转换为MD5字符串,并赋值给目标文档的指纹信息,在此,所述目标文档可以为经过预处理之后的目标文档,将指纹信息赋值给该处理之后的目标文档,然后存储进数据对比库中,以供后面新的目标文档进行相似性对比。
优选地,其中,所述方法还包括:S15(未示出)基于预设的时间间隔清理所述数据对比库,以使所述数据对比库中存储预设时间段内的文档。
在该实施例中,为了提高数据对比库的利用效率,要对所述数据对比库进行清理。例如,可以根据实际的需要设定一定的时间间隔,例如,可以设定所述数据对比库中保存三天的数据等等,那么三天之前的数据可以清除掉,或者还可以将目标文档替换掉所述数据对比库中的相似文档,以保证所述数据对比库中存储有最近时间段内的数据,这种方式,能够提高数据对比库的存储效率。在此,所述清理所述数据对比库的方式仅为举例,其他现有的或者今后可能出现的清理方式,如适用于本申请也应包含在本申请的保护范围内,在此,以引用的方式包含于此。
优选地,其中,所述方法还包括:S16(未示出)建立所述目标文档对应的索引,其中,所述索引基于所述目标文档对应的主题核心词建立。
在该实施例中,由于前期阶段的相似性处理是用于实现对数据的快速相似检索,因此,在相似性处理之后会建立用于检索的索引,具体地,所述索引基于所述目标文档对应的主题核心词来建立,其中,所述主题核心词也可以是指对目标文档进行预处理之后的文档数据。
优选地,当数据对比库中没有所述目标文档的相似文档时,会建立该目标文档对应的索引。例如,对于基于Lucene进行相似查询的情况,可以利用lucene API将所述目标文档对应的主题关键词写入到lucene索引Index中,以供检索使用。
优选地,其中,所述方法还包括:S17(未示出)基于对应的检索请求,呈现所述目标文档对应的相似检索结果,其中,所述检索请求包括相似结果合并请求或者相似结果不合并请求。
在该实施例中,当用户进行检索时,会向设备1发送对应的检索请求,在此,所述检索请求包括相似结果合并请求,是指基于该请求会将检索的相似文档的指纹信息以及相似文档的数量信息进行返回而不会直接返回对应的文档;对于检索请求包括相似结果不合并请求,是指会将检索出的所有相似文档直接列表呈现出来。
例如,对于利用搜索引擎Lucene API进行检索,令其中是否合并的请求参数为isMerge,isMerge=true表示将相似数据合并展示,isMerge=false表示不合并相似数据展示。
在检索过程中,如果isMerge=true,通过lucene的grouping对指纹信息token进行分组统计计算,然后返回指纹信息和相似数量的键值对集合List。另外,如果isMerge=false,则根据检索条件进行常规检索,检索结果集合为List,呈现出所有相似的文档。然后将List在前端进行展示。
与现有技术相比,在本申请中,基于目标文档确定所述目标文档的相似文档,并为所述目标文档添加与所述相似文档相同的指纹信息,然后基于所述目标文档对应的索引以及所述指纹信息实现对所述目标文档的相似检索。通过这种方式,能够将相似文档通过指纹信息的方式进行区分,从而能够更快地实现相似检索,提高了检索效率。
此外,本申请实施例还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现前述方法。
本申请实施例还提供了一种用于相似文档检索的设备,其中,该设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行前述方法的操作。
例如,计算机可读指令在被执行时使所述一个或多个处理器:基于目标文档确定所述目标文档的相似文档;为所述目标文档添加与所述相似文档相同的指纹信息;基于所述目标文档对应的索引以及所述指纹信息实现对所述目标文档的相似检索。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (11)
1.一种用于相似文档检索的方法,其中,该方法包括:
基于目标文档确定所述目标文档的相似文档;
为所述目标文档添加与所述相似文档相同的指纹信息;
基于所述目标文档对应的索引以及所述指纹信息实现对所述目标文档的相似检索。
2.根据权利要求1所述的方法,其中,所述基于目标文档确定所述目标文档的相似文档包括:
建立数据对比库,其中,所述数据对比库中的文档两两不相似;
将所述目标文档与所述数据对比库中的文档逐一进行相似性计算,在所述数据对比库中确定所述目标文档的相似文档。
3.根据权利要求2所述的方法,其中,所述将所述目标文档与所述数据对比库中的文档逐一进行相似性计算,在所述数据对比库中确定所述目标文档的相似文档包括:
对所述目标文档进行预处理并确定所述目标文档的主题核心词;
基于所述目标文档的主题核心词与所述数据对比库中的文档逐一进行相似性计算,在所述数据对比库中确定所述目标文档的相似文档。
4.根据权利要求3所述的方法,其中,所述基于所述目标文档的主题核心词与所述数据对比库中的文档逐一进行相似性计算,在所述数据对比库中确定所述目标文档的相似文档包括:
基于所述目标文档的主题核心词与所述数据对比库中的文档逐一进行相似性计算,确定相似度分值;
在所述数据对比库中将相似度分值达到预设阈值的文档确定为所述目标文档的相似文档。
5.根据权利要求2至4中任一项所述的方法,其中,所述方法还包括:
若所述数据对比库中不存在所述目标文档的相似文档,将所述目标文档添加至所述数据对比库中,并为所述目标文档添加对应的指纹信息。
6.根据权利要求5所述的方法,其中,所述为所述目标文档添加对应的指纹信息包括:
将所述目标文档的主题核心词对应的字符信息作为所述目标文档的指纹信息。
7.根据权利要求1至6中任一项所述的方法,其中,所述方法还包括:
建立所述目标文档对应的索引,其中,所述索引基于所述目标文档对应的主题核心词建立。
8.根据权利要求2至7中任一项所述的方法,其中,所述方法还包括:
基于预设的时间间隔清理所述数据对比库,以使所述数据对比库中存储预设时间段内的文档。
9.根据权利要求1至8中任一项所述的方法,其中,所述方法还包括:
基于对应的检索请求,呈现所述目标文档对应的相似检索结果,其中,所述检索请求包括相似结果合并请求或者相似结果不合并请求。
10.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1至9中任一项所述的方法。
11.一种用于相似文档检索的设备,其中,该设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如权利要求1至9中任一项所述方法的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910107303.6A CN109918488A (zh) | 2019-02-02 | 2019-02-02 | 用于相似文档检索的方法与设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910107303.6A CN109918488A (zh) | 2019-02-02 | 2019-02-02 | 用于相似文档检索的方法与设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109918488A true CN109918488A (zh) | 2019-06-21 |
Family
ID=66961447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910107303.6A Pending CN109918488A (zh) | 2019-02-02 | 2019-02-02 | 用于相似文档检索的方法与设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109918488A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866088A (zh) * | 2019-08-22 | 2020-03-06 | 中国人民解放军军事科学院评估论证研究中心 | 一种语料库之间的快速全文检索方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281679A (zh) * | 2014-09-30 | 2015-01-14 | 东软集团股份有限公司 | 基于图像特征的商品分类方法及装置 |
CN105677873A (zh) * | 2016-01-11 | 2016-06-15 | 中国电子科技集团公司第十研究所 | 基于领域知识模型的文本情报关联聚类汇集处理方法 |
CN106951511A (zh) * | 2017-03-17 | 2017-07-14 | 福建中金在线信息科技有限公司 | 一种文本聚类方法及装置 |
CN107766426A (zh) * | 2017-09-14 | 2018-03-06 | 北京百分点信息科技有限公司 | 一种文本分类方法、装置及电子设备 |
-
2019
- 2019-02-02 CN CN201910107303.6A patent/CN109918488A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104281679A (zh) * | 2014-09-30 | 2015-01-14 | 东软集团股份有限公司 | 基于图像特征的商品分类方法及装置 |
CN105677873A (zh) * | 2016-01-11 | 2016-06-15 | 中国电子科技集团公司第十研究所 | 基于领域知识模型的文本情报关联聚类汇集处理方法 |
CN106951511A (zh) * | 2017-03-17 | 2017-07-14 | 福建中金在线信息科技有限公司 | 一种文本聚类方法及装置 |
CN107766426A (zh) * | 2017-09-14 | 2018-03-06 | 北京百分点信息科技有限公司 | 一种文本分类方法、装置及电子设备 |
Non-Patent Citations (3)
Title |
---|
李村合 等: "《一种改进的KNN网页分类算法》", 《微计算机应用》 * |
杜尔斌: "《基于改进KNN的文本分类算法的设计与实现》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
郭剑飞: "《基于LDA多模型中文短文本主题分类体系构建与分类》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866088A (zh) * | 2019-08-22 | 2020-03-06 | 中国人民解放军军事科学院评估论证研究中心 | 一种语料库之间的快速全文检索方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10452691B2 (en) | Method and apparatus for generating search results using inverted index | |
US11269834B2 (en) | Detecting quasi-identifiers in datasets | |
Zhang et al. | Processing spatial keyword query as a top-k aggregation query | |
US10540606B2 (en) | Consistent filtering of machine learning data | |
US10402427B2 (en) | System and method for analyzing result of clustering massive data | |
US10679055B2 (en) | Anomaly detection using non-target clustering | |
US8468146B2 (en) | System and method for creating search index on cloud database | |
US20180004751A1 (en) | Methods and apparatus for subgraph matching in big data analysis | |
US7895210B2 (en) | Methods and apparatuses for information analysis on shared and distributed computing systems | |
US11347891B2 (en) | Detecting and obfuscating sensitive data in unstructured text | |
US10956469B2 (en) | System and method for metadata correlation using natural language processing | |
CN110569213A (zh) | 文件存取方法、装置和设备 | |
JP2013156881A (ja) | ファイルリスト生成方法及びシステム、ファイルリスト生成装置並びにプログラム | |
US20130325847A1 (en) | Graph-based searching | |
US11074266B2 (en) | Semantic concept discovery over event databases | |
AU2021261643B2 (en) | Dynamically generating facets using graph partitioning | |
CN113568940B (zh) | 数据查询的方法、装置、设备以及存储介质 | |
Lin | Large-scale network embedding in apache spark | |
JP6079270B2 (ja) | 情報提供装置 | |
CN105117489B (zh) | 一种数据库管理方法、装置及电子设备 | |
EP3301603A1 (en) | Improved search for data loss prevention | |
CN105550308B (zh) | 一种信息处理方法,检索方法及电子设备 | |
CN109213972B (zh) | 确定文档相似度的方法、装置、设备和计算机存储介质 | |
CN109918488A (zh) | 用于相似文档检索的方法与设备 | |
CN111625615B (zh) | 用于处理文本数据的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190621 |
|
RJ01 | Rejection of invention patent application after publication |