CN113377946A - 一种文档推送方法、装置、存储介质及电子设备 - Google Patents

一种文档推送方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN113377946A
CN113377946A CN202110704694.7A CN202110704694A CN113377946A CN 113377946 A CN113377946 A CN 113377946A CN 202110704694 A CN202110704694 A CN 202110704694A CN 113377946 A CN113377946 A CN 113377946A
Authority
CN
China
Prior art keywords
document
documents
target
pushing
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110704694.7A
Other languages
English (en)
Inventor
张琛
陈嘉真
接钧靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Miaozhen Information Technology Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202110704694.7A priority Critical patent/CN113377946A/zh
Publication of CN113377946A publication Critical patent/CN113377946A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种文档推送方法、装置、存储介质及电子设备,其中,文档推送方法包括:获取用户的文档推送请求;基于文档推送请求从文档数据库中选取候选文档;基于字符串编辑距离,从候选文档中筛选目标文档推送给用户。本申请在基于文档推送请求从文档数据库中选取候选文档之后,基于候选文档的字符串编辑距离,从候选文档中筛选目标文档推送给用户,无需人工对文档另外进行类别标签的标注,大大提高了推荐效率和推荐的准确性和推荐的准确性;并且,本申请利用字符串编辑距离进行文档的去重,确保推送给用户的目标文档中不存在重复的文档,节约了服务器资源,提高了用户的感受度。

Description

一种文档推送方法、装置、存储介质及电子设备
技术领域
本申请涉及文档推送技术领域,特别涉及一种文档推送方法、装置、存储介质及电子设备。
背景技术
在文档推荐系统中,需要根据用户的需求从海量的文档中找到用户感兴趣的文档给出推荐结果。其中,词频-逆文本频率指数(term frequency–inverse documentfrequency,TF-IDF)是常用的召回方法,具体为利用关键词以及每个文档对应的类别标签来搜索目标文档以进行推荐。
通常,文档的类别标签为文档的作者或其他工作人员进行人工标注的,其类别标签细粒度不充分的情况下,需要另外的专业人员对文档进行分析重新标注类别标签等,才能够确保文档推荐的准确性,该过程耗时较长,导致文档推荐效率较低;并且,有很多文档相互之间只有少量区别的,比如《xxx操作手册》、《xxx用户手册》等,内容大致相同,在基于文档的类别标签查找到多个文档之后,基于类别标签所属的类别利用去重的方法去除重复的文档,但仅基于类别标签进行去重之后得到的最终推荐的文档仍存在重复的文档。
发明内容
有鉴于此,本申请实施例提出了一种文档推送方法、装置、存储介质及电子设备,用以解决现有技术中推荐效率较低以及最终推荐的文档中存在重复文档的问题。
第一方面,本申请实施例提供了一种文档推送方法,其中,包括:
获取用户的文档推送请求;
基于所述文档推送请求从文档数据库中选取候选文档;
基于字符串编辑距离,从所述候选文档中筛选目标文档推送给用户。
在一种可能的实施方式中,所述基于所述文档推送请求从文档数据库中选取候选文档,包括:
提取所述文档推送请求中的类别标签、用户权限以及请求时间;
基于所述类别标签、所述用户权限和所述请求时间,从文档数据库中选取候选文档。
在一种可能的实施方式中,在所述候选文档为多个的情况下,所述基于字符串编辑距离,从所述候选文档中筛选目标文档推送给用户,包括:
提取所述文档推送请求中的关键词;
计算每个所述候选文档与所述关键词之间的匹配度;
选取所述匹配度最高的候选文档作为第一目标文档;
基于所述第一目标文档与所述字符串编辑距离,从所述候选文档除所述第一目标文档之外的其他文档中筛选第二目标文档;
将所述第一目标文档和所述第二目标文档推送给所述用户。
在一种可能的实施方式中,所述基于所述第一目标文档与所述字符串编辑距离,从所述候选文档除所述第一目标文档之外的其他文档中筛选第二目标文档,包括:
基于所述字符串编辑距离,分别计算所述第一目标文档与每个所述其他文档之间的相似度;
在所述相似度小于预设阈值的情况下,将小于所述预设阈值的相似度对应的其他文档作为第二目标文档。
在一种可能的实施方式中,所述文档推送方法还包括:
在所述相似度大于或等于所述预设阈值的情况下,将大于或等于所述预设阈值的相似度对应的其他文档作为冗余文档;其中,所述冗余文档不会被推送给所述用户。
在一种可能的实施方式中,所述将所述第一目标文档和所述第二目标文档推送给所述用户,包括:
判断所述第一目标文档和所述第二目标文档的总数量是否达到预设推送数量;
若达到,则将所述第一目标文档和所述第二目标文档推送给所述用户;
若未达到,则再次基于所述文档推送请求从文档数据库中选取候选文档,基于字符串编辑距离,从所述候选文档中筛选第一目标文档和第二目标文档,直至所述第一目标文档和所述第二目标文档总数量达到所述预设推送数量。
第二方面,本申请实施例还提供了一种文档推送装置,其中,包括:
获取模块,其配置地获取用户的文档推送请求;
选取模块,其配置地基于所述文档推送请求从文档数据库中选取候选文档;
筛选模块,其配置地基于字符串编辑距离,从所述候选文档中筛选目标文档推送给用户。
在一种可能的实施方式中,所述选取模块具体配置为:
提取所述文档推送请求中的类别标签、用户权限以及请求时间;
基于所述类别标签、所述用户权限和所述请求时间,从文档数据库中选取候选文档。
第三方面,本申请还提供了一种存储介质,其中,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如下步骤:
获取用户的文档推送请求;
基于所述文档推送请求从文档数据库中选取候选文档;
基于字符串编辑距离,从所述候选文档中筛选目标文档推送给用户。
第四方面,本申请还提供了一种电子设备,其中,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如下步骤:
获取用户的文档推送请求;
基于所述文档推送请求从文档数据库中选取候选文档;
基于字符串编辑距离,从所述候选文档中筛选目标文档推送给用户。
本申请实施例在基于文档推送请求从文档数据库中选取候选文档之后,基于候选文档的字符串编辑距离,从候选文档中筛选目标文档推送给用户,无需人工对文档另外进行类别标签的标注,大大提高了推荐效率和推荐的准确性;并且,本申请实施例利用字符串编辑距离进行文档的去重,确保推送给用户的目标文档中不存在重复的文档,节约了服务器资源,提高了用户的感受度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请所提供的一种文档推送方法的流程图;
图2示出了本申请所提供的一种文档推送方法中基于文档推送请求从文档数据库中选取候选文档的流程图;
图3示出了本申请所提供的一种文档推送方法中基于字符串编辑距离,从候选文档中筛选目标文档推送给用户的流程图;
图4示出了本申请所提供的一种文档推送方法中基于第一目标文档与字符串编辑距离,从候选文档除第一目标文档之外的其他文档中筛选第二目标文档的流程图;
图5示出了本申请所提供的一种文档推送方法中将第一目标文档和第二目标文档推送给用户的流程图;
图6示出了本申请所提供的一种文档推送装置的结构示意图;
图7示出了本申请所提供的一种电子设备的结构示意图。
具体实施方式
为了使得本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例的附图,对本申请实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于所描述的本申请的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另外定义,本申请使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
为了保持本申请实施例的以下说明清楚且简明,本申请省略了已知功能和已知部件的详细说明。
如图1所示,为本申请第一方面提供的文档推送方法的流程图,其中,具体步骤包括S101-S103。
S101,获取用户的文档推送请求。
在具体实施中,用户可以在电子设备的特定位置处输入关键字、关键词等,之后点击对应的虚拟按键或按下对应的实体按键以发送文档推送请求给服务器,以使服务器接收并响应该文档推送请求。
S102,基于文档推送请求从文档数据库中选取候选文档。
在接收到文档推送请求之后,分析该文档推送请求,并响应该文档推送请求,也即根据文档推送请求从文档数据库中选取候选文档。其中,该候选文档可以为一个,也可以为多个。
具体地,图2示出了基于文档推送请求从文档数据库中选取候选文档的具体方法步骤,包括S201和S202。
S201,提取文档推送请求中的类别标签、用户权限以及请求时间。
S202,基于类别标签、用户权限和请求时间,从文档数据库中选取候选文档。
这里,文档推送请求包括类别标签、用户权限以及请求时间,其中,类别标签为一个或多个;用户权限为根据用户的账户信息确定的,不同账户信息的查阅权限不同,例如会员账户能够查阅的文档数量大于普通账户能够查阅的文档数量;请求时间为用户想要查阅的文档的发布时间等。当然,文档推送请求中还可以包括其他信息,本申请实施例对此不做具体限定。
在提取到类别标签、用户权限以及请求时间之后,基于类别标签、用户权限和请求时间,从文档数据库中选取符合类别标签、用户权限和请求时间的文档作为候选文档,其中,可以采用词频-逆文本频率指数(term frequency–inverse document frequency,TF-IDF)等其他匹配方式来选取候选文档。
这里,文档数据库内存储有能够被查阅的所有文档。
S103,基于字符串编辑距离,从候选文档中筛选目标文档推送给用户。
在选取出候选文档之后,计算每个候选文档的字符串编辑距离,并根据字符串编辑距离从候选文档中筛选目标文档,进而将目标文档推送给用户。其中,字符串的长度可以根据实际需求进行设定,可以为一个词组的长度,也可以为一个句子的长度,还可以为一个段落的长度等,本申请实施例对此不做具体限定。
在具体实施中,候选文档为一个的情况下,直接将该候选文档作为目标文档推送给用户;在候选文档为多个的情况下,按照图3示出的方法步骤来基于字符串编辑距离,从候选文档中筛选目标文档推送给用户,具体包括S301-S305。
S301,提取文档推送请求中的关键词。
S302,计算每个候选文档与关键词之间的匹配度。
S303,选取匹配度最高的候选文档作为第一目标文档。
S304,基于第一目标文档与字符串编辑距离,从候选文档除第一目标文档之外的其他文档中筛选第二目标文档。
S305,将第一目标文档和第二目标文档推送给用户。
这里,文档推送请求中还包括关键词,该关键词为用户确定的,并且,关键词为一个或多个。从文档推送请求中提取出关键词,针对每个候选文档,计算该候选文档与关键词之间的匹配度,匹配度越高,则表示该候选文档越符合用户的文档推送请求。
在计算出每个候选文档与关键词之间的匹配度之后,选取匹配度最高的候选文档作为第一目标文档,也即,将最符合用户的文档推送请求的候选文档作为第一目标文档。
之后,基于第一目标文档与字符串编辑距离,从候选文档除第一目标文档之外的其他文档中筛选第二目标文档。本申请实施例无需人工对文档另外进行类别标签的标注,其利用文档的字符串编辑距离也即文档的具体内容来去除重复的文档,不仅省时省力,还大大提高了推荐效率以及推荐的准确性。
在得到第一目标文档和第二目标文档之后,将第一目标文档和第二目标文档推送给用户,该第一目标文档和第二目标文档即为目标文档,其符合用户的文档推送请求。
具体地,图4示出了基于第一目标文档与字符串编辑距离,从候选文档除第一目标文档之外的其他文档中筛选第二目标文档的具体方法步骤,包括S401和S402。
S401,基于字符串编辑距离,分别计算第一目标文档与每个其他文档之间的相似度。
S402,在相似度小于预设阈值的情况下,将小于预设阈值的相似度对应的其他文档作为第二目标文档。
S403,在相似度大于或等于预设阈值的情况下,将大于或等于预设阈值的相似度对应的其他文档作为冗余文档;其中,冗余文档不会被推送给用户。
在具体实施中,分别计算第一目标文档以及每个其他文档中的字符串编辑距离,将第一目标文档的字符串编辑距离与每个其他文档的字符串编辑距离进行计算,得到第一目标文档与每个其他文档之间的相似度。其中,还可以通过杰卡德距离(JaccardDistance)计算第一目标文档与每个其他文档之间的相似度。
将第一目标文档与每个其他文档之间的相似度与预设阈值进行对比,若相似度小于预设阈值,则将小于预设阈值的相似度对应的其他文档作为第二目标文档,该第二目标文档表示其符合用户的文档推送请求并且其与第一目标文档不重复;若相似度大于或等于预设阈值,则将大于或等于预设阈值的相似度对应的其他文档作为冗余文档,该冗余文档表示其符合用户的文档推送请求但其与第一目标文档重复,因此,冗余文档不会被推送给用户;进而避免了将内容重复的文档推送给用户,节约了服务器资源,提高了用户的感受度。
进一步地,图5示出了将第一目标文档和第二目标文档推送给用户的方法步骤,包括S501-S503。
S501,判断第一目标文档和第二目标文档的总数量是否达到预设推送数量。
S502,若达到,则将第一目标文档和第二目标文档推送给用户。
S503,若未达到,则再次基于文档推送请求从文档数据库中选取候选文档,基于字符串编辑距离,从候选文档中筛选第一目标文档和第二目标文档,直至第一目标文档和第二目标文档总数量达到预设推送数量。
这里,用户还可以预先设置期望服务器推送的文档的预设推送数量,当然,也可以是服务器默认的数量。
在得到第一目标文档和第二目标文档之后,统计第一目标文档和第二目标文档的总数量,并判断第一目标文档和第二目标文档的总数量是否达到预设推送数量。
在第一目标文档和第二目标文档的总数量达到预设推送数量的情况下,将第一目标文档和第二目标文档推送给用户;在第一目标文档和第二目标文档的总数量未达到预设推送数量的情况下,再次基于文档推送请求从文档数据库中选取候选文档,基于字符串编辑距离,从候选文档中筛选第一目标文档和第二目标文档,直至第一目标文档和第二目标文档总数量达到预设推送数量,值得说明的是,每轮筛选得到的冗余文档均不参与下一轮的筛选,以避免不同轮次筛选得到的目标文档之间存在重复的文档。
其中,在第一目标文档和第二目标文档的总数量超过预设推送数量的情况下,可以将第一目标文档和第二目标文档之间的相似度由低到高的顺序进行排列,之后从相似度低的第二目标文档开始计数,直至第一目标文档和第二目标文档总数量达到预设推送数量,剩余的第二目标文档将不被推送给用户,进而能够避免将内容重复文档推荐给用户,用户感受度较高。
本申请实施例在基于文档推送请求从文档数据库中选取候选文档之后,基于候选文档的字符串编辑距离,从候选文档中筛选目标文档推送给用户,无需人工对文档另外进行类别标签的标注,大大提高了推荐效率和推荐的准确性;并且,本申请实施例利用字符串编辑距离进行文档的去重,确保推送给用户的目标文档中不存在重复的文档,节约了服务器资源,提高了用户的感受度。
基于同一发明构思,本申请的第二方面还提供了一种文档推送方法对应的文档推送装置,由于本申请中的文档推送装置解决问题的原理与本申请上述文档推送方法相似,因此文档推送装置的实施可以参见方法的实施,重复之处不再赘述。
图6示出了本申请实施例提供的文档推送装置的示意图,具体包括:
获取模块601,其配置地获取用户的文档推送请求;
选取模块602,其配置地基于所述文档推送请求从文档数据库中选取候选文档;
筛选模块603,其配置地基于字符串编辑距离,从所述候选文档中筛选目标文档推送给用户。
在又一实施例中,所述选取模块602具体配置为:
提取所述文档推送请求中的类别标签、用户权限以及请求时间;
基于所述类别标签、所述用户权限和所述请求时间,从文档数据库中选取候选文档。
在又一实施例中,在所述候选文档为多个的情况下,所述筛选模块603包括:
提取单元,其配置地提取所述文档推送请求中的关键词;
计算单元,其配置地计算每个所述候选文档与所述关键词之间的匹配度;
选取单元,其配置地选取所述匹配度最高的候选文档作为第一目标文档;
筛选单元,其配置地基于所述第一目标文档与所述字符串编辑距离,从所述候选文档除所述第一目标文档之外的其他文档中筛选第二目标文档;
推送单元,其配置地将所述第一目标文档和所述第二目标文档推送给所述用户。
在又一实施例中,所述筛选单元具体配置为:
基于所述字符串编辑距离,分别计算所述第一目标文档与每个所述其他文档之间的相似度;
在所述相似度小于预设阈值的情况下,将小于所述预设阈值的相似度对应的其他文档作为第二目标文档。
在又一实施例中,所述筛选单元还配置地:
在所述相似度大于或等于所述预设阈值的情况下,将大于或等于所述预设阈值的相似度对应的其他文档作为冗余文档;其中,所述冗余文档不会被推送给所述用户。
在又一实施例中,所述推送单元具体配置为:
判断所述第一目标文档和所述第二目标文档的总数量是否达到预设推送数量;
若达到,则将所述第一目标文档和所述第二目标文档推送给所述用户;
若未达到,则再次基于所述文档推送请求从文档数据库中选取候选文档,基于字符串编辑距离,从所述候选文档中筛选第一目标文档和第二目标文档,直至所述第一目标文档和所述第二目标文档总数量达到所述预设推送数量。
本申请实施例在基于文档推送请求从文档数据库中选取候选文档之后,基于候选文档的字符串编辑距离,从候选文档中筛选目标文档推送给用户,无需人工对文档另外进行类别标签的标注,大大提高了推荐效率和推荐的准确性;并且,本申请实施例利用字符串编辑距离进行文档的去重,确保推送给用户的目标文档中不存在重复的文档,节约了服务器资源,提高了用户的感受度。
本申请实施例提供了一种存储介质,该存储介质为计算机可读介质,存储有计算机程序,该计算机程序被处理器执行时实现本申请任意实施例提供的方法,包括如下步骤S11至S13:
S11,获取用户的文档推送请求;
S12,基于所述文档推送请求从文档数据库中选取候选文档;
S13,基于字符串编辑距离,从所述候选文档中筛选目标文档推送给用户。
计算机程序被处理器执行基于所述文档推送请求从文档数据库中选取候选文档时,具体被处理器执行如下步骤:提取所述文档推送请求中的类别标签、用户权限以及请求时间;基于所述类别标签、所述用户权限和所述请求时间,从文档数据库中选取候选文档。
在所述候选文档为多个的情况下,计算机程序被处理器执行基于字符串编辑距离,从所述候选文档中筛选目标文档推送给用户时,具体被处理器执行如下步骤:提取所述文档推送请求中的关键词;计算每个所述候选文档与所述关键词之间的匹配度;选取所述匹配度最高的候选文档作为第一目标文档;基于所述第一目标文档与所述字符串编辑距离,从所述候选文档除所述第一目标文档之外的其他文档中筛选第二目标文档;将所述第一目标文档和所述第二目标文档推送给所述用户。
计算机程序被处理器执行基于所述第一目标文档与所述字符串编辑距离,从所述候选文档除所述第一目标文档之外的其他文档中筛选第二目标文档时,还被处理器执行如下步骤:基于所述字符串编辑距离,分别计算所述第一目标文档与每个所述其他文档之间的相似度;在所述相似度小于预设阈值的情况下,将小于所述预设阈值的相似度对应的其他文档作为第二目标文档。
计算机程序被处理器执行文档推送方法时,还被处理器执行如下步骤:在所述相似度大于或等于所述预设阈值的情况下,将大于或等于所述预设阈值的相似度对应的其他文档作为冗余文档;其中,所述冗余文档不会被推送给所述用户。
计算机程序被处理器执行将所述第一目标文档和所述第二目标文档推送给所述用户时,还被处理器执行如下步骤:判断所述第一目标文档和所述第二目标文档的总数量是否达到预设推送数量;若达到,则将所述第一目标文档和所述第二目标文档推送给所述用户;若未达到,则再次基于所述文档推送请求从文档数据库中选取候选文档,基于字符串编辑距离,从所述候选文档中筛选第一目标文档和第二目标文档,直至所述第一目标文档和所述第二目标文档总数量达到所述预设推送数量。
本申请实施例在基于文档推送请求从文档数据库中选取候选文档之后,基于候选文档的字符串编辑距离,从候选文档中筛选目标文档推送给用户,无需人工对文档另外进行类别标签的标注,大大提高了推荐效率和推荐的准确性;并且,本申请实施例利用字符串编辑距离进行文档的去重,确保推送给用户的目标文档中不存在重复的文档,节约了服务器资源,提高了用户的感受度。
本申请实施例提供了一种电子设备,该电子设备的结构示意图可以如图7所示,至少包括存储器701和处理器702,存储器701上存储有计算机程序,处理器702在执行存储器701上的计算机程序时实现本申请任意实施例提供的方法。示例性的,电子设备计算机程序步骤如下S21至S23:
S21,获取用户的文档推送请求;
S22,基于所述文档推送请求从文档数据库中选取候选文档;
S23,基于字符串编辑距离,从所述候选文档中筛选目标文档推送给用户。
处理器在执行存储器上存储的基于所述文档推送请求从文档数据库中选取候选文档时,还执行如下计算机程序:提取所述文档推送请求中的类别标签、用户权限以及请求时间;基于所述类别标签、所述用户权限和所述请求时间,从文档数据库中选取候选文档。
在所述候选文档为多个的情况下,处理器在执行存储器上存储的基于字符串编辑距离,从所述候选文档中筛选目标文档推送给用户时,还执行如下计算机程序:提取所述文档推送请求中的关键词;计算每个所述候选文档与所述关键词之间的匹配度;选取所述匹配度最高的候选文档作为第一目标文档;基于所述第一目标文档与所述字符串编辑距离,从所述候选文档除所述第一目标文档之外的其他文档中筛选第二目标文档;将所述第一目标文档和所述第二目标文档推送给所述用户。
处理器在执行存储器上存储的基于所述第一目标文档与所述字符串编辑距离,从所述候选文档除所述第一目标文档之外的其他文档中筛选第二目标文档时,还执行如下计算机程序:基于所述字符串编辑距离,分别计算所述第一目标文档与每个所述其他文档之间的相似度;在所述相似度小于预设阈值的情况下,将小于所述预设阈值的相似度对应的其他文档作为第二目标文档。
处理器在执行存储器上存储的文档推送方法时,还执行如下计算机程序:在所述相似度大于或等于所述预设阈值的情况下,将大于或等于所述预设阈值的相似度对应的其他文档作为冗余文档;其中,所述冗余文档不会被推送给所述用户。
处理器在执行存储器上存储的将所述第一目标文档和所述第二目标文档推送给所述用户时,还执行如下计算机程序:判断所述第一目标文档和所述第二目标文档的总数量是否达到预设推送数量;若达到,则将所述第一目标文档和所述第二目标文档推送给所述用户;若未达到,则再次基于所述文档推送请求从文档数据库中选取候选文档,基于字符串编辑距离,从所述候选文档中筛选第一目标文档和第二目标文档,直至所述第一目标文档和所述第二目标文档总数量达到所述预设推送数量。
本申请实施例在基于文档推送请求从文档数据库中选取候选文档之后,基于候选文档的字符串编辑距离,从候选文档中筛选目标文档推送给用户,无需人工对文档另外进行类别标签的标注,大大提高了推荐效率和推荐的准确性;并且,本申请实施例利用字符串编辑距离进行文档的去重,确保推送给用户的目标文档中不存在重复的文档,节约了服务器资源,提高了用户的感受度。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行上述实施例记载的方法步骤。可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
此外,尽管已经在本文中描述了示例性实施例,其范围包括任何和所有基于本申请的具有等同元件、修改、省略、组合(例如,各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释,并不限于在本说明书中或本申请的实施期间所描述的示例,其示例将被解释为非排他性的。因此,本说明书和示例旨在仅被认为是示例,真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。
以上描述旨在是说明性的而不是限制性的。例如,上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外,在上述具体实施方式中,各种特征可以被分组在一起以简单化本申请。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反,本申请的主题可以少于特定的公开的实施例的全部特征。从而,以下权利要求书作为示例或实施例在此并入具体实施方式中,其中每个权利要求独立地作为单独的实施例,并且考虑这些实施例可以以各种组合或排列彼此组合。本申请的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。
以上对本申请多个实施例进行了详细说明,但本申请不限于这些具体的实施例,本领域技术人员在本申请构思的基础上,能够做出多种变型和修改实施例,这些变型和修改都应落入本申请所要求保护的范围之内。

Claims (10)

1.一种文档推送方法,其特征在于,包括:
获取用户的文档推送请求;
基于所述文档推送请求从文档数据库中选取候选文档;
基于字符串编辑距离,从所述候选文档中筛选目标文档推送给用户。
2.根据权利要求1所述的文档推送方法,其特征在于,所述基于所述文档推送请求从文档数据库中选取候选文档,包括:
提取所述文档推送请求中的类别标签、用户权限以及请求时间;
基于所述类别标签、所述用户权限和所述请求时间,从文档数据库中选取候选文档。
3.根据权利要求2所述的文档推送方法,其特征在于,在所述候选文档为多个的情况下,所述基于字符串编辑距离,从所述候选文档中筛选目标文档推送给用户,包括:
提取所述文档推送请求中的关键词;
计算每个所述候选文档与所述关键词之间的匹配度;
选取所述匹配度最高的候选文档作为第一目标文档;
基于所述第一目标文档与所述字符串编辑距离,从所述候选文档除所述第一目标文档之外的其他文档中筛选第二目标文档;
将所述第一目标文档和所述第二目标文档推送给所述用户。
4.根据权利要求3所述的文档推送方法,其特征在于,所述基于所述第一目标文档与所述字符串编辑距离,从所述候选文档除所述第一目标文档之外的其他文档中筛选第二目标文档,包括:
基于所述字符串编辑距离,分别计算所述第一目标文档与每个所述其他文档之间的相似度;
在所述相似度小于预设阈值的情况下,将小于所述预设阈值的相似度对应的其他文档作为第二目标文档。
5.根据权利要求4所述的文档推送方法,其特征在于,还包括:
在所述相似度大于或等于所述预设阈值的情况下,将大于或等于所述预设阈值的相似度对应的其他文档作为冗余文档;其中,所述冗余文档不会被推送给所述用户。
6.根据权利要求4所述的文档推送方法,其特征在于,所述将所述第一目标文档和所述第二目标文档推送给所述用户,包括:
判断所述第一目标文档和所述第二目标文档的总数量是否达到预设推送数量;
若达到,则将所述第一目标文档和所述第二目标文档推送给所述用户;
若未达到,则再次基于所述文档推送请求从文档数据库中选取候选文档,基于字符串编辑距离,从所述候选文档中筛选第一目标文档和第二目标文档,直至所述第一目标文档和所述第二目标文档总数量达到所述预设推送数量。
7.一种文档推送装置,其特征在于,包括:
获取模块,其配置地获取用户的文档推送请求;
选取模块,其配置地基于所述文档推送请求从文档数据库中选取候选文档;
筛选模块,其配置地基于字符串编辑距离,从所述候选文档中筛选目标文档推送给用户。
8.根据权利要求7所述的文档推送装置,其特征在于,所述选取模块具体配置为:
提取所述文档推送请求中的类别标签、用户权限以及请求时间;
基于所述类别标签、所述用户权限和所述请求时间,从文档数据库中选取候选文档。
9.一种存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如下步骤:
获取用户的文档推送请求;
基于所述文档推送请求从文档数据库中选取候选文档;
基于字符串编辑距离,从所述候选文档中筛选目标文档推送给用户。
10.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如下步骤:
获取用户的文档推送请求;
基于所述文档推送请求从文档数据库中选取候选文档;
基于字符串编辑距离,从所述候选文档中筛选目标文档推送给用户。
CN202110704694.7A 2021-06-24 2021-06-24 一种文档推送方法、装置、存储介质及电子设备 Pending CN113377946A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110704694.7A CN113377946A (zh) 2021-06-24 2021-06-24 一种文档推送方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110704694.7A CN113377946A (zh) 2021-06-24 2021-06-24 一种文档推送方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN113377946A true CN113377946A (zh) 2021-09-10

Family

ID=77578905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110704694.7A Pending CN113377946A (zh) 2021-06-24 2021-06-24 一种文档推送方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN113377946A (zh)

Similar Documents

Publication Publication Date Title
CN108334533B (zh) 关键词提取方法和装置、存储介质及电子装置
JP5353148B2 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
US9390176B2 (en) System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data
US9025890B2 (en) Information classification device, information classification method, and information classification program
EP2509024A1 (en) Forensic system, method and program
JP2010073114A6 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
CN111125343A (zh) 适用于人岗匹配推荐系统的文本解析方法及装置
WO2018188378A1 (zh) 一种给应用标注标签的方法、装置、终端及计算机可读存储介质
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
CN110515951B (zh) 一种bom标准化方法、系统及电子设备和存储介质
CN111353014B (zh) 职位关键词提取、岗位需求更新的方法和装置
CN111797594B (zh) 基于人工智能的字符串处理方法及相关设备
CN110874530A (zh) 关键词提取方法、装置、终端设备及存储介质
CN110929125A (zh) 搜索召回方法、装置、设备及其存储介质
CN111563382A (zh) 文本信息的获取方法、装置、存储介质及计算机设备
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
US20220019742A1 (en) Situational awareness by fusing multi-modal data with semantic model
CN112732893A (zh) 文本信息的提取方法和装置、存储介质和电子设备
US9613012B2 (en) System and method for automatically generating keywords
US20240095289A1 (en) Data enrichment systems and methods for abbreviated domain name classification
US20140172874A1 (en) Intelligent analysis queue construction
CN112148841A (zh) 一种对象分类以及分类模型构建方法和装置
CN115640376A (zh) 文本标注方法、装置、电子设备和计算机可读存储介质
CN113377946A (zh) 一种文档推送方法、装置、存储介质及电子设备
CN116050404A (zh) 一种用于电子档案智能分类鉴定的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20211224

Address after: A111, 1f, building 3, No. 1, zone 1, Lize Zhongyuan, Wangjing emerging industrial zone, Chaoyang District, Beijing 100020

Applicant after: MIAOZHEN INFORMATION TECHNOLOGY Co.,Ltd.

Address before: Floor 29, 30, 31, 32, No. 701, Yunjin Road, Xuhui District, Shanghai, 200030

Applicant before: Shanghai minglue artificial intelligence (Group) Co.,Ltd.

TA01 Transfer of patent application right