CN115795023A - 文档推荐方法、装置、设备以及存储介质 - Google Patents
文档推荐方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN115795023A CN115795023A CN202211488740.5A CN202211488740A CN115795023A CN 115795023 A CN115795023 A CN 115795023A CN 202211488740 A CN202211488740 A CN 202211488740A CN 115795023 A CN115795023 A CN 115795023A
- Authority
- CN
- China
- Prior art keywords
- document
- label
- frequency
- semantic
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 239000013598 vector Substances 0.000 claims description 51
- 230000008707 rearrangement Effects 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 10
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000011218 segmentation Effects 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000032683 aging Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000002650 habitual effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000003442 weekly effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了文档推荐方法、装置、设备以及存储介质,人能智能技术领域,尤其涉及自然语言处理、智能搜索、深度学习。具体实现方案为:对客户端发布的目标文档,获取目标文档的目标标签,在标签池所包含的多个标签聚簇中,确定与目标标签语义匹配的目标聚簇。从文档集合中选取与目标聚簇中的至少一个标签匹配的第一候选文档,基于第一候选文档,对客户端进行文档推荐。由于针对客户端发布的目标文档的目标标签,查询了属于同一聚簇的语义匹配的标签,并据此查询第一候选文档进行文档推荐,从而在目标标签的基础上,扩展了搜索的标签范围,将属于相同目标聚簇的标签进行文档查询,避免了在搜索过程中的文档遗漏,实现了推荐相关文档。
Description
技术领域
本公开涉及人能智能技术领域,尤其涉及自然语言处理、智能搜索、深度学习,可应用于文档推荐等场景,尤其涉及文档推荐方法、装置、设备以及存储介质。
背景技术
办公场景下,用户需要定期进行工作总结(例如周报、日报等)。工作总结一般以文本的形式,记录正在开展哪方面的调研,或者工作中遇到了什么问题、困难,这些调研或者问题通常涉及到某个具体的关键词。如果可以根据这些关键词推荐与之相关的文档,可以有效地帮助用户解决工作遇到的实际问题,大大缩短用户的知识获取路径,提高员工的办公效率。
发明内容
本公开提供了一种文档推荐方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种文档推荐方法,包括:
对客户端发布的目标文档,获取所述目标文档的目标标签;
在标签池所包含的多个标签聚簇中,确定与所述目标标签语义匹配的目标聚簇;
从文档集合中选取与所述目标聚簇中的至少一个标签匹配的第一候选文档;
基于所述第一候选文档,对所述客户端进行文档推荐。
根据本公开的另一方面,提供了一种文档推荐装置,包括:
获取模块,用于对客户端发布的目标文档,获取所述目标文档的目标标签;
确定模块,用于在标签池所包含的多个标签聚簇中,确定与所述目标标签语义匹配的目标聚簇;
第一选取模块,用于从文档集合中选取与所述目标聚簇中的至少一个标签匹配的第一候选文档;
推荐模块,用于基于所述第一候选文档,对所述客户端进行文档推荐。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开第一方面实施例所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行本公开第一方面实施例所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开第一方面实施例所述的方法。
本公开提供的文档推荐方法、装置、设备以及存储介质,通过对客户端发布的目标文档,获取目标文档的目标标签,在标签池所包含的多个标签聚簇中,确定与目标标签语义匹配的目标聚簇。从文档集合中选取与目标聚簇中的至少一个标签匹配的第一候选文档,基于第一候选文档,对客户端进行文档推荐。由于针对客户端发布的目标文档的目标标签,查询了属于同一聚簇的语义匹配的标签,并据此查询第一候选文档进行文档推荐,从而在目标标签的基础上,扩展了搜索的标签范围,将属于相同目标聚簇的标签进行文档查询,实现了推荐相关文档。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例提供的一种文档推荐方法的流程示意图;
图2为本公开实施例提供的另一种文档推荐方法的流程示意图;
图3为本公开实施例提供的另一种文档推荐方法的流程示意图;
图4为标签-文档双塔语义匹配模型的结构示意图;
图5为文档重排模型的结构示意图;
图6是本公开实施例所示出的文档推荐装置的结构示意图;
图7是用来实现本公开实施例的文档推荐方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
办公场景下,用户需要定期进行工作总结(例如周报、日报),一般以文本的形式,记录正在开展哪方面的调研或者工作中遇到了什么问题/困难,这些调研或者问题通常涉及到某个具体的关键词。如果可以根据这些关键词推荐与之相关的文档,可以有效地帮助用户解决工作遇到的实际问题,大大缩短用户的知识获取路径,提高员工的办公效率。
相关技术中,可以采用基于规则的文档推荐方法,具体通过对文档的标题和内容进行切词,在切词得到的多个语料片段中包含标签,且文档主题关键词包含标签的情况下,确定推荐该文档。但这种方式无法基于语义进行推荐,会遗漏相关文档。
相关技术中,还可以采用将标签和文档标题语义匹配的方式,确定是否推荐该文档。但这种方式仅考虑了标签和标题之间的语义相关性,导致相关性判断不是很准确。
本申请方案中,通过针对工作总结等客户端发布的目标文档,获取目标文档的目标标签,通过标签池基于离线的标签聚类所建立的多个标签聚簇,确定与目标标签语义匹配的目标聚簇。从文档集合中选取与目标聚簇中至少一个标签匹配的文档进行推荐。
和相关技术相比,由于针对客户端发布的目标文档的目标标签,查询了属于同一聚簇的语义匹配的标签,并据此查询第一候选文档进行文档推荐,从而在目标标签的基础上,扩展了搜索的标签范围,将属于相同目标聚簇的标签进行文档查询,避免了在搜索过程中的文档遗漏,实现了推荐相关文档。
图1为本公开实施例提供的一种文档推荐方法的流程示意图,如图1所示,该方法包括:
步骤101,对客户端发布的目标文档,获取目标文档的目标标签。
在一些场景下,客户端会通过企业管理系统定期或不定期发布工作总结、研究报告等文档,本实施例中将客户端发布的这些文档称为目标文档。在这些目标文档中,通常会提及客户端的使用者近期工作所涉及到的知识点。本实施例中,为了能够为客户端的使用者推荐更多与其工作相关的文档,作为一种可能的实现方式,可以将这些目标文档中所提及的知识点作为目标文档的目标标签。
作为一种可能的实现方式,利用预先建立的知识图谱,与目标文档中的字符或语义进行匹配,以便从中提取出目标标签。需要说明的是,知识图谱是预先建立的对海量知识点根据知识点之间的逻辑关系建立起来的图谱。知识图谱中包括多个节点,每个节点对应一个知识点,用于存储对应知识点的描述信息。知识图谱中的多个节点之间所具有的关联关系,是根据节点所对应的知识点之间的逻辑关系确定的。
作为另一种可能的实现方式,对目标文档进行切词,基于切词得到的文本片段统计词频,将词频较高的作为该目标文档的目标标签。
作为又一种可能的实现方式,在客户端发布的目标文档中携带有目标标签。该目标标签,是客户端响应于使用者的选择或者输入操作生成的。目标标签携带于目标文档中被一同进行发布。
需要说明的是,本实施例中,对于目标文档提取目标标签的方式不作限定。
步骤102,在标签池所包含的多个标签聚簇中,确定与目标标签语义匹配的目标聚簇。
标签池所包含的多个标签聚簇,是预先对标签池中的标签基于语义进行聚类得到的。将目标标签采用语义匹配或者是字符匹配的方式,在标签池所包含的多个标签聚簇中,确定与目标标签语义匹配的目标聚簇。
其中,目标聚簇中的聚簇中心与目标标签之间的语义相似度或者字符相似度应当大于设定阈值,才可确定目标聚簇与目标标签匹配。
步骤103,从文档集合中选取与目标聚簇中的至少一个标签匹配的第一候选文档。
文档集合中各文档可以预先已进行了标签识别,也就是说,文档集合中的各文档标识有对应的标签。作为一种可能的实现方式,该标签的标识过程如前述步骤,可利用预先建立的知识图谱,与文档集合中各文档中的字符或语义进行匹配,以便从中提取出文档集合中各文档对应的标签。作为另一种可能的实现方式,对文档集合中的各文档进行切词,基于切词得到的文本片段统计词频,将词频较高的作为该文档的标签。作为又一种可能的实现方式,文档集合中的各文档在发布之时便已携带有标签,是手动选择或者手动输入的。
可选地,将文档集合中各文档的标签,与目标聚簇中的至少一个标签进行匹配,将标签匹配的文档作为第一候选文档。
需要说明的是,目标聚簇中,用于与文档集合中文档的标签进行标签匹配的至少一个标签可以是目标聚簇中的全部标签,也可以是部分标签。本实施例中对此不作限定。
步骤104,基于第一候选文档,对客户端进行文档推荐。
作为一种可能的实现方式,从第一候选文档中选取至少部分文档推送至客户端,以对客户端进行文档推荐。选取的方式可以采用基于匹配度排序,或者,基于客户端所关联使用者的用户相关信息与第一候选文档之间的相关性排序,本实施例中对此不作限定。
作为另一种可能的实现方式,向客户端推荐的文档中,至少包括了第一候选文档,本实施例中不限定仅基于第一候选文档对客户端进行文档推荐,还可以基于其他方式选取出候选文档与第一候选文档一起或者先后发送至客户端,以对客户端进行文档推荐。
本实施例中,对客户端发布的目标文档,获取目标文档的目标标签,在标签池所包含的多个标签聚簇中,确定与目标标签语义匹配的目标聚簇。从文档集合中选取与目标聚簇中的至少一个标签匹配的第一候选文档,基于第一候选文档,对客户端进行文档推荐。由于针对客户端发布的目标文档的目标标签,查询了属于同一聚簇的语义匹配的标签,并据此查询第一候选文档进行文档推荐,从而在目标标签的基础上,扩展了搜索的标签范围,将属于相同目标聚簇的标签进行文档查询,避免了在搜索过程中的文档遗漏,实现了推荐相关文档。
图2为本公开实施例提供的另一种文档推荐方法的流程示意图,如图2所示,该方法包括:
步骤201,对多个客户端已发送的历史文档集合进行统计,以从历史文档集合内的历史文档中提取多个历史标签作为标签池。
步骤202,根据多个历史标签在历史文档集合中的出现频次,划分为多个高频标签,以及多个低频标签。
其中,任一高频标签的所述出现频次高于任一低频标签的所述出现频次。例如可以基于设定的频次划分高频标签和低频标签,或者,可以基于设定比例划分高频标签和低频标签。本实施例中对划分方式不作限定。
步骤203,针对每个高频标签分别生成一个聚簇。
其中,各所述高频标签为所属聚簇的聚簇中心,各聚簇还包括与所述聚簇中心的高频标签语义相似的低频标签。
可选地,将每个高频标签分别作为聚簇中心,针对任一聚簇中心,查询语义相似度大于阈值的低频标签,和/或语义相似程度排序为前若干个的低频标签,以将查询到的低频标签添加到对应的聚簇中。
作为一种可能的实现方式,将N个高频标签和M个低频标签(或者,称为非高频标签)组合成N*M个标签对。将这些标签对,以篇章为维度,计算共现次数,即一篇文档内容同时出现标签对中标签则记一次。由于共现频率体现了标签的惯用程度,后续基于共现频率排序的方式选取匹配的第一候选文档,有助于选择的第一候选文档更采用惯常表述,或者,被引用的次数更多,提高了客户端的用户从第一候选文档中获取到有用知识的可能性。
在进行聚类时,作为一种可能的实现方式,利用预训练语言模型获取所有标签的词向量,以N个高频标签为聚簇中心,利用近似最近邻检索技术(ANN)等方式,计算出相似度按照从高到底排序为前K个的低频标签作为与该聚簇中心属于同一聚簇的标签。可选地,为了使得同一聚簇内的标签相似度更高,还可以设置阈值,仅将相似度满足阈值的标签保留,而将其余标签清洗掉。
发明人经过测试,高频标签占标签池中标签的比例为15%-20%时,效果较高。基于此方式,通过预先对标签聚类,并将高频标签作为聚簇中心,实现了针对每个高频标签的标签扩展。以便在文档池中查询时,能够利用标签池中扩展的标签,查询到更多的文档。
步骤204,响应于获取到客户端发布的目标文档,获取所述目标文档的目标标签。
步骤205,在标签池所包含的多个标签聚簇中,确定与所述目标标签语义匹配的目标聚簇。
步骤206,从所述目标聚簇中,确定处于所述目标聚簇中心的高频标签,以及未处于所述中心的多个低频标签。
步骤207,根据所述多个低频标签与所述高频标签在所述文档集合中的共现频率排序,从所述文档集合中选取与所述目标聚簇中的至少一个标签匹配的第一候选文档。
作为第一种可能的实现方式,根据所述多个低频标签与所述高频标签在所述文档集合中的共现频率排序,将排序在前n个的低频标签,以及所述高频标签确定待匹配标签,其中,n取值为大于零的整数;基于所述待匹配标签,从所述文档集合中,选取匹配的第一候选文档。由于共现频率体现了标签的惯用程度,基于共现频率排序的方式选取匹配的第一候选文档,有助于选择的第一候选文档更采用惯常表述,或者,被引用的次数更多,提高了客户端的用户从第一候选文档中获取到有用知识的可能性。
作为第二种可能的实现方式,从所述文档集合中选取与所述高频标签匹配的文档;根据所述多个低频标签与所述高频标签在所述文档集合中的共现频率排序,将所述多个低频标签顺序与所述文档集合中的文档进行匹配,直至从所述文档集合中选取出的与至少一个低频标签匹配的文档数量符合设定数量,则停止匹配;将与所述高频标签匹配的文档,以及与所述至少一个低频标签匹配的文档,均作为所述第一候选文档。一方面,避免了第一候选文档的匹配过程占用过多的计算资源,从所述文档集合中选取出的与至少一个低频标签匹配的文档数量符合设定数量则停止匹配;另一方面,通过基于共现频率排序的方式选取匹配的第一候选文档,有助于优先匹配出采用惯常表述,或者,被引用的次数更多的文档。从而确保的资源占用和推荐准确度之间的平衡。
步骤208,基于所述第一候选文档,对所述客户端进行文档推荐。
前述步骤204-206以及步骤208,可参考相关实施例中的相关描述,本实施例中对此不再赘述。
本实施例中,对客户端发布的目标文档,获取目标文档的目标标签,在标签池所包含的多个标签聚簇中,确定与目标标签语义匹配的目标聚簇。从文档集合中选取与目标聚簇中的至少一个标签匹配的第一候选文档,基于第一候选文档,对客户端进行文档推荐。由于针对客户端发布的目标文档的目标标签,查询了属于同一聚簇的语义匹配的标签,并据此查询第一候选文档进行文档推荐,从而在目标标签的基础上,扩展了搜索的标签范围,将属于相同目标聚簇的标签进行文档查询,避免了在搜索过程中的文档遗漏,实现了推荐相关文档。
图3为本公开实施例提供的另一种文档推荐方法的流程示意图,如图3所示,该方法包括:
步骤310,对客户端发布的目标文档,获取目标文档的目标标签。
步骤311,在标签池所包含的多个标签聚簇中,确定与目标标签语义匹配的目标聚簇,以及从文档集合中选取与目标聚簇中的至少一个标签匹配的第一候选文档。
如图3中,采用了标签聚合索引的方式对标签池中包含的多个标签聚簇进行存储。
步骤312,查询目标标签对应的标签释义文本。
步骤313,基于目标标签和标签释义文本,采用标签-文档双塔语义匹配模型从文档集合中选取语义匹配的第二候选文档。
可选地,针对所述文本集合中任意的一篇文档,将所述文档的标题和文档的摘要组合,以得到文档描述文本。将所述目标标签与所述标签释义文本组合,以得到标签描述文本。将所述文档描述文本和所述标签描述文本分别输入到标签-文档双塔语义匹配模型中,得到所述文档描述文本的第一语义编码,以及得到所述标签描述文本的第二语义编码。根据所述第一语义编码与所述第二语义编码之间的相似度,确定所述目标标签与所述第一语义编码所对应文档之间的匹配程度。根据所述匹配程度,从所述文档集合中选取所述第二候选文档。
本实施例中,将所述文档描述文本和所述标签描述文本分别输入到标签-文档双塔语义匹配模型中,以得到文档描述文本的第一语义编码,以及得到所述标签描述文本的第二语义编码,如图3中,在存储层采用了预存文档描述文本的第一语义编码和标签描述文本的第二语义编码。从而基于第一语义编码和第二语义编码之间的相似度选取所述第二候选文档,提高了选取的准确性。
根据所述第一语义编码与所述第二语义编码之间的相似度,确定所述目标标签与所述第一语义编码所对应文档之间的匹配程度
步骤314,将所述第一候选文档和所述第二候选文档添加到推荐文档集合中,采用文档重排模型进行在线重排,基于所述推荐文档集合中推荐文档的排序对所述客户端进行文档推荐。
本实施例中,不仅基于第一候选文档,对客户端进行文档推荐,还采用了基于目标标签和标签释义文本的方式匹配第二候选文档,从而使得客户端获取到的推荐文档维度更加丰富,覆盖更多用户可能需要到文档。
可选地,根据客户端对应的用户特征,以及所述推荐文档集合中候选推荐文档对应的文档特征,采用文档重排模型从所述推荐文档集合中选取至少一推荐文档发送至所述客户端。
通过根据所述客户端对应的用户特征,以及所述推荐文档集合中候选推荐文档对应的文档特征,进行文档重排,从而据此选择和用户特征契合度较好的推荐文档发送至客户端,能够提高推荐的准确性。
作为一种可能的实现方式,用户特征中的属性特征包括员工职级和入职年限中的至少一个;和/或,文档特征中的属性特征包括来源、内容丰富程度、热度、时效和阅读人群中的至少一个。
其中,用户特征可以包括用户兴趣偏好和属性特征。用户兴趣偏好主要是描述对标签的倾向性,比如员工A对搜索引擎更感兴趣,而员工B对推荐算法更感兴趣。
用户特征中的属性特征包括下列中的至少一种。
员工职级:企业员工一般大致分为产品、技术、管理等人群,不同的人群对于文档的阅读偏好是不一样的,据此可以筛选适合的文档。
入职年限:不同入职年限人群对企业级内部文档需求不一样,比如新人更倾向于打开标题带有某某入门的文档。
其中,文档特征包括文档标题和关键词,以及文档特征的属性特征。关键词是文档的描述重点,也是与用户的兴趣偏好强相关。文档标题一般包含整篇文档的主题。
文档特征的属性特征包括下列中的至少一种。
来源:指示文档的来源,官方来源文档对比个人来源文档,应具有更高的置信度,基于来源推荐有助于提高推荐文档的质量。
内容丰富程度,或者说质量分特征:指示文档篇幅、是否包含图表等。文档质量越高,用户的阅读兴趣越高。分桶处理后可得到多个内容丰富程度等级。
热度:用于指示浏览量、点击量。浏览量、点击量越高的文档应排在前面。分桶处理后可得到多个热度等级。
时效:用于指示文档的发布时间,文档越新,排序就越靠前。分桶处理后可得到多个时效等级。
阅读人群:标识文档适用人群,比如技术人群、管理人群等。
进一步地,如图3所示,在执行步骤310之前,还需要执行以下步骤:
步骤301,基于标签池进行语义聚类,以确定标签池所包含的多个标签聚簇,并对指示多个标签聚簇的标签聚合索引进行存储。
步骤302,对标签-文档双塔语义匹配模型进行训练。
步骤303,对文档重排模型进行训练。
需要说明的是,以上步骤301、302和303仅作为步骤标号,标号的大小不表示步骤之间的执行顺序。本实施例中,对以上步骤301、302和303的执行顺序不作限定。
标签-文档双塔语义匹配模型,在本实施例中,作为一种可能的实现方式,可以采用如图4所示的模型结构,图4为标签-文档双塔语义匹配模型的结构示意图。
标签-文档双塔语义匹配模型为双塔结构,左右两侧双塔结构相同。以一侧为例进行介绍,包括:输入层、编码器、池化层和全连接层。双塔结构的全连接层与损失层连接。其中,损失层采用余弦函数计算双塔结构所输出的向量之间的相似度得分,并在训练时采用该相似度得分与期望之间的交叉熵作为损失函数。
可选地,针对所述文本集合中任意的一篇文档,将所述文档的标题和文档的摘要组合,以得到文档描述文本。将所述目标标签与所述标签释义文本组合,以得到标签描述文本。将所述文档描述文本和所述标签描述文本分别作为输入文本输入到所述标签-文档双塔语义匹配模型的编码层进行语义编码,以得到所述输入文本中多个字符的语义编码向量。将所述多个字符的语义编码向量输入到所述标签-文档双塔语义匹配模型的池化层,以得到融合语义编码向量,其中,所述融合语义编码向量包含的向量维度与所述语义编码向量包含的向量维度相同,所述融合语义编码向量中的各维度取值是对所述多个字符的语义编码向量在对应向量维度上的取值进行融合得到。将所述融合语义编码向量输入到所述标签-文档双塔语义匹配模型的全连接层以映射得到所述输入文本对应的第一语义编码或所述第二语义编码,以使损失层计算第一语义编码和第二语义编码之间的相似度。通过以上标签-文档双塔语义匹配模型的结构,通过池化层池化后降低了维度数量,简化了运算。
文档重排模型,在本实施例中,作为一种可能的实现方式,可以采用如图5所示的模型结构,图5为文档重排模型的结构示意图。
如图5所示,包括预训练语言子模型、词向量子模型、堆叠(Stacking)层、全连接层、激活层(基于softmax函数)、损失层。
可选地,将所述客户端对应的用户特征中的用户兴趣偏好,以及任意的一篇候选推荐文档的所述文档特征中的文档标题和关键词,输入到所述文档重排模型的预训练语言子模型中,得到第三语义编码。对所述用户特征中的属性特征和所述文档特征中的属性特征,输入到所述文档重排模型的词向量子模型中,以得到字符编码。通过堆叠层,将字符编码和第三语义编码维度对齐。并将字符编码和第三语义编码分别顺序经过全连接层的分类和激活层的映射后,在损失层计算相关性。其中,损失层在训练时,可采用BCE损失函数或者交叉熵损失函数,本实施例中对此不作限定。另外需要说明的是,在预训练子模型与堆叠层之间还可以设置全连接层等结构本实施例中对此不作限定。
基于所述第三语义编码与所述字符编码之间的相似度,确定是否选取所述候选推荐文档发送至所述客户端。
针对文档特征中的文档标题和关键词,以及针对用户特征中的属性特征和所述文档特征中的属性特征分别采用了不同的编码方式,针对文档特征中的文档标题和关键词语义编码,避免了编码后较为稀疏。
本实施例中,对客户端发布的目标文档,获取目标文档的目标标签,在标签池所包含的多个标签聚簇中,确定与目标标签语义匹配的目标聚簇。从文档集合中选取与目标聚簇中的至少一个标签匹配的第一候选文档,基于第一候选文档,对客户端进行文档推荐。由于针对客户端发布的目标文档的目标标签,查询了属于同一聚簇的语义匹配的标签,并据此查询第一候选文档进行文档推荐,从而在目标标签的基础上,扩展了搜索的标签范围,将属于相同目标聚簇的标签进行文档查询,避免了在搜索过程中的文档遗漏,实现了推荐相关文档。
与上述图1至图3实施例提供的文档推荐方法相对应,本公开还提供一种文档推荐装置,由于本公开实施例提供的文档推荐装置与上述图1至图3实施例提供的文档推荐方法相对应,因此在文档推荐方法的实施方式也适用于本公开实施例提供的文档推荐装置,在本公开实施例中不再详细描述。图6是本公开实施例所示出的文档推荐装置600的结构示意图。
如图6所示,文档推荐装置600包括获取模块601、确定模块602、第一选取模块603、推荐模块604。
获取模块601,用于对客户端发布的目标文档,获取所述目标文档的目标标签。
确定模块602,用于在标签池所包含的多个标签聚簇中,确定与所述目标标签语义匹配的目标聚簇。
第一选取模块603,用于从文档集合中选取与所述目标聚簇中的至少一个标签匹配的第一候选文档。
推荐模块604,用于基于所述第一候选文档,对所述客户端进行文档推荐。
在本实施例一种可能的实现方式中,第一选取模块603,包括:
第一确定单元,用于从所述目标聚簇中,确定处于所述目标聚簇中心的高频标签,以及未处于所述中心的多个低频标签;
选取单元,用于根据所述多个低频标签与所述高频标签在设定文档集合中的共现频率排序,从所述文档集合中选取与所述目标聚簇中的至少一个标签匹配的第一候选文档。
在本实施例第一种可能的实现方式中,选取单元,用于:
根据所述多个低频标签与所述高频标签在设定文档集合中的共现频率排序,将排序在前n个的低频标签,以及所述高频标签确定待匹配标签,其中,n取值为大于零的整数;
基于所述待匹配标签,从所述文档集合中,选取匹配的第一候选文档。
在本实施例第二种可能的实现方式中,选取单元,用于:
从所述文档集合中选取与所述高频标签匹配的文档;
根据所述多个低频标签与所述高频标签在设定文档集合中的共现频率排序,将所述多个低频标签顺序与所述文档集合中的文档进行匹配,直至从所述文档集合中选取出的与至少一个低频标签匹配的文档数量符合设定数量,则停止匹配;
将与所述高频标签匹配的文档,以及与所述至少一个低频标签匹配的文档,均作为所述第一候选文档。
本实施例所提供的文档推荐装置还包括预处理模块,用于:
对多个客户端已发送的历史文档集合进行统计,以从所述历史文档集合内的历史文档中提取多个历史标签;
根据所述多个历史标签在所述历史文档集合中的出现频次,划分为多个高频标签,以及多个低频标签;其中,任一高频标签的所述出现频次高于任一低频标签的所述出现频次;
针对每个所述高频标签分别生成一个聚簇,其中,各所述高频标签为所属聚簇的聚簇中心,各聚簇还包括与所述聚簇中心的高频标签语义相似的低频标签。
可选地,预处理模块,具体用于:
将每个所述高频标签分别作为聚簇中心;
针对任一聚簇中心,查询语义相似度大于阈值的低频标签,和/或语义相似程度排序为前若干个的低频标签,以将查询到的低频标签添加到对应的聚簇中。
在本实施例一种可能的实现方式中,文档推荐模块还包括第二选取模块,用于:查询所述目标标签对应的标签释义文本;基于所述目标标签和所述标签释义文本,从所述文档集合中选取语义匹配的第二候选文档。
基于此,推荐模块64,具体用于:
将所述第一候选文档和所述第二候选文档添加到推荐文档集合中,基于所述推荐文档集合对所述客户端进行文档推荐。可选地,推荐模块,根据所述客户端对应的用户特征,以及所述推荐文档集合中候选推荐文档对应的文档特征,采用文档重排模型从所述推荐文档集合中选取至少一推荐文档发送至所述客户端。
在一些实施例中,推荐模块,具体用于:
将所述客户端对应的用户特征中的用户兴趣偏好,以及任意的一篇候选推荐文档的所述文档特征中的文档标题和关键词,输入到所述文档重排模型的预训练语言子模型中,得到第三语义编码;
对所述用户特征中的属性特征和所述文档特征中的属性特征,输入到所述文档重排模型的词向量子模型中,以得到字符编码;
基于所述第三语义编码与所述字符编码之间的相似度,确定是否选取所述候选推荐文档发送至所述客户端。
需要说明的是,所述用户特征中的属性特征包括员工职级和入职年限中的至少一个;和/或,所述文档特征中的属性特征包括来源、内容丰富程度、热度、时效和阅读人群中的至少一个。
在本实施例一种可能的实现方式中,第二选取模块,包括:
处理单元,用于针对所述文本集合中任意的一篇文档,将所述文档的标题和文档的摘要组合,以得到文档描述文本;将所述目标标签与所述标签释义文本组合,以得到标签描述文本;
编码单元,用于将所述文档描述文本和所述标签描述文本分别输入到标签-文档双塔语义匹配模型中,得到所述文档描述文本的第一语义编码,以及得到所述标签描述文本的第二语义编码;
第二确定单元,用于根据所述第一语义编码与所述第二语义编码之间的相似度,确定所述目标标签与所述第一语义编码所对应文档之间的匹配程度;根据所述匹配程度,从所述文档集合中选取所述第二候选文档。
可选地,编码单元,具体用于:
将所述文档描述文本和所述标签描述文本分别作为输入文本输入到所述标签-文档双塔语义匹配模型的编码层进行语义编码,以得到所述输入文本中多个字符的语义编码向量;
将所述多个字符的语义编码向量输入到所述标签-文档双塔语义匹配模型的池化层,以得到融合语义编码向量,其中,所述融合语义编码向量包含的向量维度与所述语义编码向量包含的向量维度相同,所述融合语义编码向量中的各维度取值是对所述多个字符的语义编码向量在对应向量维度上的取值进行融合得到;
将所述融合语义编码向量输入到所述标签-文档双塔语义匹配模型的全连接层以映射得到所述输入文本对应的第一语义编码或所述第二语义编码。
本实施例所提供的装置,通过对客户端发布的目标文档,获取目标文档的目标标签,在标签池所包含的多个标签聚簇中,确定与目标标签语义匹配的目标聚簇。从文档集合中选取与目标聚簇中的至少一个标签匹配的第一候选文档,基于第一候选文档,对客户端进行文档推荐。由于针对客户端发布的目标文档的目标标签,查询了属于同一聚簇的语义匹配的标签,并据此查询第一候选文档进行文档推荐,从而在目标标签的基础上,扩展了搜索的标签范围,将属于相同目标聚簇的标签进行文档查询,避免了在搜索过程中的文档遗漏,实现了推荐相关文档。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在ROM(Read-OnlyMemory,只读存储器)702中的计算机程序或者从存储单元708加载到RAM(Random AccessMemory,随机访问/存取存储器)703中的计算机程序,来执行各种适当的动作和处理。在RAM703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM702以及RAM 703通过总线704彼此相连。I/O(Input/Output,输入/输出)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于CPU(Central Processing Unit,中央处理单元)、GPU(Graphic Processing Units,图形处理单元)、各种专用的AI(Artificial Intelligence,人工智能)计算芯片、各种运行机器学习模型算法的计算单元、DSP(Digital SignalProcessor,数字信号处理器)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如文档推荐方法。例如,在一些实施例中,文档推荐方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的文档推荐方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文档推荐方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA(Field Programmable Gate Array,现场可编程门阵列)、ASIC(Application-Specific Integrated Circuit,专用集成电路)、ASSP(Application Specific StandardProduct,专用标准产品)、SOC(System On Chip,芯片上系统的系统)、CPLD(ComplexProgrammable Logic Device,复杂可编程逻辑设备)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM(Electrically Programmable Read-Only-Memory,可擦除可编程只读存储器)或快闪存储器、光纤、CD-ROM(Compact Disc Read-Only Memory,便捷式紧凑盘只读存储器)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(Cathode-Ray Tube,阴极射线管)或者LCD(Liquid Crystal Display,液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:LAN(LocalArea Network,局域网)、WAN(Wide Area Network,广域网)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
其中,需要说明的是,人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (27)
1.一种文档推荐方法,包括:
对客户端发布的目标文档,获取所述目标文档的目标标签;
在标签池所包含的多个标签聚簇中,确定与所述目标标签语义匹配的目标聚簇;
从文档集合中选取与所述目标聚簇中的至少一个标签匹配的第一候选文档;
基于所述第一候选文档,对所述客户端进行文档推荐。
2.根据权利要求1所述的方法,其中,所述从文档集合中选取与所述目标聚簇中的至少一个标签匹配的第一候选文档,包括:
从所述目标聚簇中,确定处于所述目标聚簇中心的高频标签,以及未处于所述中心的多个低频标签;
根据所述多个低频标签与所述高频标签在所述文档集合中的共现频率排序,从所述文档集合中选取与所述目标聚簇中的至少一个标签匹配的第一候选文档。
3.根据权利要求2所述的方法,其中,所述根据所述多个低频标签与所述高频标签在所述文档集合中的共现频率排序,从所述文档集合中选取与所述目标聚簇中的至少一个标签匹配的第一候选文档,包括:
根据所述多个低频标签与所述高频标签在所述文档集合中的共现频率排序,将排序在前n个的低频标签,以及所述高频标签确定待匹配标签,其中,n取值为大于零的整数;
基于所述待匹配标签,从所述文档集合中,选取匹配的第一候选文档。
4.根据权利要求2所述的方法,其中,所述根据所述多个低频标签与所述高频标签在所述文档集合中的共现频率排序,从所述文档集合中选取与所述目标聚簇中的至少一个标签匹配的第一候选文档,包括:
从所述文档集合中选取与所述高频标签匹配的文档;
根据所述多个低频标签与所述高频标签在所述文档集合中的共现频率排序,将所述多个低频标签顺序与所述文档集合中的文档进行匹配,直至从所述文档集合中选取出的与至少一个低频标签匹配的文档数量符合设定数量,则停止匹配;
将与所述高频标签匹配的文档,以及与所述至少一个低频标签匹配的文档,均作为所述第一候选文档。
5.根据权利要求1-4任一项所述的方法,其中,所述方法还包括:
对多个客户端已发送的历史文档集合进行统计,以从所述历史文档集合内的历史文档中提取多个历史标签;
根据所述多个历史标签在所述历史文档集合中的出现频次,划分为多个高频标签,以及多个低频标签;其中,任一高频标签的所述出现频次高于任一低频标签的所述出现频次;
针对每个所述高频标签分别生成一个聚簇,其中,各所述高频标签为所属聚簇的聚簇中心,各聚簇还包括与所述聚簇中心的高频标签语义相似的低频标签。
6.根据权利要求5所述的方法,其中,所述针对每个所述高频标签分别生成一个聚簇,包括:
将每个所述高频标签分别作为聚簇中心;
针对任一聚簇中心,查询语义相似度大于阈值的低频标签,和/或语义相似程度排序为前若干个的低频标签,以将查询到的低频标签添加到对应的聚簇中。
7.根据权利要求1-4任一项所述的方法,其中,所述方法还包括:
查询所述目标标签对应的标签释义文本;
基于所述目标标签和所述标签释义文本,从所述文档集合中选取语义匹配的第二候选文档;
所述基于所述第一候选文档,对所述客户端进行文档推荐,包括:
将所述第一候选文档和所述第二候选文档添加到推荐文档集合中,基于所述推荐文档集合对所述客户端进行文档推荐。
8.根据权利要求7所述的方法,其中,所述基于所述目标标签和所述标签释义文本,从所述文档集合中选取语义匹配的第二候选文档,包括:
针对所述文本集合中任意的一篇文档,将所述文档的标题和文档的摘要组合,以得到文档描述文本;
将所述目标标签与所述标签释义文本组合,以得到标签描述文本;
将所述文档描述文本和所述标签描述文本分别输入到标签-文档双塔语义匹配模型中,得到所述文档描述文本的第一语义编码,以及得到所述标签描述文本的第二语义编码;
根据所述第一语义编码与所述第二语义编码之间的相似度,确定所述目标标签与所述第一语义编码所对应文档之间的匹配程度;
根据所述匹配程度,从所述文档集合中选取所述第二候选文档。
9.根据权利要求8所述的方法,其中,所述将所述文档描述文本和所述标签描述文本分别输入到标签-文档双塔语义匹配模型中,得到所述文档描述文本的第一语义编码,以及得到所述标签描述文本的第二语义编码,包括:
将所述文档描述文本和所述标签描述文本分别作为输入文本输入到所述标签-文档双塔语义匹配模型的编码层进行语义编码,以得到所述输入文本中多个字符的语义编码向量;
将所述多个字符的语义编码向量输入到所述标签-文档双塔语义匹配模型的池化层,以得到融合语义编码向量,其中,所述融合语义编码向量包含的向量维度与所述语义编码向量包含的向量维度相同,所述融合语义编码向量中的各维度取值是对所述多个字符的语义编码向量在对应向量维度上的取值进行融合得到;
将所述融合语义编码向量输入到所述标签-文档双塔语义匹配模型的全连接层以映射得到所述输入文本对应的第一语义编码或所述第二语义编码。
10.根据权利要求7所述的方法,其中,所述基于所述推荐文档集合对所述客户端进行文档推荐,包括:
根据所述客户端对应的用户特征,以及所述推荐文档集合中候选推荐文档对应的文档特征,采用文档重排模型从所述推荐文档集合中选取至少一推荐文档发送至所述客户端。
11.根据权利要求10所述的方法,其中,所述根据所述客户端对应的用户特征,以及所述推荐文档集合中候选推荐文档对应的文档特征,采用文档重排模型从所述推荐文档集合中选取至少一推荐文档发送至所述客户端,包括:
将所述客户端对应的用户特征中的用户兴趣偏好,以及任意的一篇候选推荐文档的所述文档特征中的文档标题和关键词,输入到所述文档重排模型的预训练语言子模型中,得到第三语义编码;
对所述用户特征中的属性特征和所述文档特征中的属性特征,输入到所述文档重排模型的词向量子模型中,以得到字符编码;
基于所述第三语义编码与所述字符编码之间的相似度,确定是否选取所述候选推荐文档发送至所述客户端。
12.根据权利要求11所述的方法,其中,
所述用户特征中的属性特征包括员工职级和入职年限中的至少一个;和/或,
所述文档特征中的属性特征包括来源、内容丰富程度、热度、时效和阅读人群中的至少一个。
13.一种文档推荐装置,包括:
获取模块,用于对客户端发布的目标文档,获取所述目标文档的目标标签;
确定模块,用于在标签池所包含的多个标签聚簇中,确定与所述目标标签语义匹配的目标聚簇;
第一选取模块,用于从文档集合中选取与所述目标聚簇中的至少一个标签匹配的第一候选文档;
推荐模块,用于基于所述第一候选文档,对所述客户端进行文档推荐。
14.根据权利要求13所述的装置,其中,所述第一选取模块,包括:
第一确定单元,用于从所述目标聚簇中,确定处于所述目标聚簇中心的高频标签,以及未处于所述中心的多个低频标签;
选取单元,用于根据所述多个低频标签与所述高频标签在设定文档集合中的共现频率排序,从所述文档集合中选取与所述目标聚簇中的至少一个标签匹配的第一候选文档。
15.根据权利要求14所述的装置,其中,所述选取单元,用于:
根据所述多个低频标签与所述高频标签在设定文档集合中的共现频率排序,将排序在前n个的低频标签,以及所述高频标签确定待匹配标签,其中,n取值为大于零的整数;
基于所述待匹配标签,从所述文档集合中,选取匹配的第一候选文档。
16.根据权利要求14所述的装置,其中,所述选取单元,用于:
从所述文档集合中选取与所述高频标签匹配的文档;
根据所述多个低频标签与所述高频标签在设定文档集合中的共现频率排序,将所述多个低频标签顺序与所述文档集合中的文档进行匹配,直至从所述文档集合中选取出的与至少一个低频标签匹配的文档数量符合设定数量,则停止匹配;
将与所述高频标签匹配的文档,以及与所述至少一个低频标签匹配的文档,均作为所述第一候选文档。
17.根据权利要求13-16任一项所述的装置,其中,还包括预处理模块,用于:
对多个客户端已发送的历史文档集合进行统计,以从所述历史文档集合内的历史文档中提取多个历史标签;
根据所述多个历史标签在所述历史文档集合中的出现频次,划分为多个高频标签,以及多个低频标签;其中,任一高频标签的所述出现频次高于任一低频标签的所述出现频次;
针对每个所述高频标签分别生成一个聚簇,其中,各所述高频标签为所属聚簇的聚簇中心,各聚簇还包括与所述聚簇中心的高频标签语义相似的低频标签。
18.根据权利要求17所述的装置,其中,所述预处理模块,用于:
将每个所述高频标签分别作为聚簇中心;
针对任一聚簇中心,查询语义相似度大于阈值的低频标签,和/或语义相似程度排序为前若干个的低频标签,以将查询到的低频标签添加到对应的聚簇中。
19.根据权利要求13-16任一项所述的装置,其中,所述装置还包括第二选取模块,用于:查询所述目标标签对应的标签释义文本;基于所述目标标签和所述标签释义文本,从所述文档集合中选取语义匹配的第二候选文档;
所述推荐模块,用于:
将所述第一候选文档和所述第二候选文档添加到推荐文档集合中,基于所述推荐文档集合对所述客户端进行文档推荐。
20.根据权利要求19所述的装置,其中,所述第二选取模块,包括:
处理单元,用于针对所述文本集合中任意的一篇文档,将所述文档的标题和文档的摘要组合,以得到文档描述文本;将所述目标标签与所述标签释义文本组合,以得到标签描述文本;
编码单元,用于将所述文档描述文本和所述标签描述文本分别输入到标签-文档双塔语义匹配模型中,得到所述文档描述文本的第一语义编码,以及得到所述标签描述文本的第二语义编码;
第二确定单元,用于根据所述第一语义编码与所述第二语义编码之间的相似度,确定所述目标标签与所述第一语义编码所对应文档之间的匹配程度;根据所述匹配程度,从所述文档集合中选取所述第二候选文档。
21.根据权利要求20所述的装置,其中,所述编码单元,用于:
将所述文档描述文本和所述标签描述文本分别作为输入文本输入到所述标签-文档双塔语义匹配模型的编码层进行语义编码,以得到所述输入文本中多个字符的语义编码向量;
将所述多个字符的语义编码向量输入到所述标签-文档双塔语义匹配模型的池化层,以得到融合语义编码向量,其中,所述融合语义编码向量包含的向量维度与所述语义编码向量包含的向量维度相同,所述融合语义编码向量中的各维度取值是对所述多个字符的语义编码向量在对应向量维度上的取值进行融合得到;
将所述融合语义编码向量输入到所述标签-文档双塔语义匹配模型的全连接层以映射得到所述输入文本对应的第一语义编码或所述第二语义编码。
22.根据权利要求19所述的装置,其中,所述推荐模块,用于:
根据所述客户端对应的用户特征,以及所述推荐文档集合中候选推荐文档对应的文档特征,采用文档重排模型从所述推荐文档集合中选取至少一推荐文档发送至所述客户端。
23.根据权利要求22所述的装置,其中,所述推荐模块,用于:
将所述客户端对应的用户特征中的用户兴趣偏好,以及任意的一篇候选推荐文档的所述文档特征中的文档标题和关键词,输入到所述文档重排模型的预训练语言子模型中,得到第三语义编码;
对所述用户特征中的属性特征和所述文档特征中的属性特征,输入到所述文档重排模型的词向量子模型中,以得到字符编码;
基于所述第三语义编码与所述字符编码之间的相似度,确定是否选取所述候选推荐文档发送至所述客户端。
24.根据权利要求23所述的装置,其中,
所述用户特征中的属性特征包括员工职级和入职年限中的至少一个;和/或,
所述文档特征中的属性特征包括来源、内容丰富程度、热度、时效和阅读人群中的至少一个。
25.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-12中任一项所述的方法。
26.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的方法。
27.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211488740.5A CN115795023B (zh) | 2022-11-22 | 2022-11-22 | 文档推荐方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211488740.5A CN115795023B (zh) | 2022-11-22 | 2022-11-22 | 文档推荐方法、装置、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115795023A true CN115795023A (zh) | 2023-03-14 |
CN115795023B CN115795023B (zh) | 2024-01-05 |
Family
ID=85441408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211488740.5A Active CN115795023B (zh) | 2022-11-22 | 2022-11-22 | 文档推荐方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115795023B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081642A (zh) * | 2010-10-28 | 2011-06-01 | 华南理工大学 | 搜索引擎检索结果聚类的中文标签提取方法 |
CN102955849A (zh) * | 2012-10-29 | 2013-03-06 | 新浪技术(中国)有限公司 | 基于标签推荐文档的方法及文档推荐装置 |
US20160203130A1 (en) * | 2013-08-30 | 2016-07-14 | Unsilo A/S | Method and system for identifying and evaluating semantic patterns in written language |
CN109063163A (zh) * | 2018-08-14 | 2018-12-21 | 腾讯科技(深圳)有限公司 | 一种音乐推荐的方法、装置、终端设备和介质 |
CN109376309A (zh) * | 2018-12-28 | 2019-02-22 | 北京百度网讯科技有限公司 | 基于语义标签的文档推荐方法和装置 |
CN112905786A (zh) * | 2019-12-04 | 2021-06-04 | 北京沃东天骏信息技术有限公司 | 一种标签推荐方法和装置 |
CN115062621A (zh) * | 2022-05-20 | 2022-09-16 | 讯飞智元信息科技有限公司 | 标签提取方法、装置、电子设备和存储介质 |
-
2022
- 2022-11-22 CN CN202211488740.5A patent/CN115795023B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081642A (zh) * | 2010-10-28 | 2011-06-01 | 华南理工大学 | 搜索引擎检索结果聚类的中文标签提取方法 |
CN102955849A (zh) * | 2012-10-29 | 2013-03-06 | 新浪技术(中国)有限公司 | 基于标签推荐文档的方法及文档推荐装置 |
US20160203130A1 (en) * | 2013-08-30 | 2016-07-14 | Unsilo A/S | Method and system for identifying and evaluating semantic patterns in written language |
CN109063163A (zh) * | 2018-08-14 | 2018-12-21 | 腾讯科技(深圳)有限公司 | 一种音乐推荐的方法、装置、终端设备和介质 |
CN109376309A (zh) * | 2018-12-28 | 2019-02-22 | 北京百度网讯科技有限公司 | 基于语义标签的文档推荐方法和装置 |
CN112905786A (zh) * | 2019-12-04 | 2021-06-04 | 北京沃东天骏信息技术有限公司 | 一种标签推荐方法和装置 |
CN115062621A (zh) * | 2022-05-20 | 2022-09-16 | 讯飞智元信息科技有限公司 | 标签提取方法、装置、电子设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
钟敏娟;万常选;刘德喜;廖述梅;: "基于检索结果聚类的XML伪相关文档查找", 计算机科学, no. 10 * |
Also Published As
Publication number | Publication date |
---|---|
CN115795023B (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188168B (zh) | 语义关系识别方法和装置 | |
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN109947909B (zh) | 智能客服应答方法、设备、存储介质及装置 | |
WO2021093755A1 (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
US11663254B2 (en) | System and engine for seeded clustering of news events | |
CN107862027A (zh) | 检索意图识别方法、装置、电子设备及可读存储介质 | |
US20220114186A1 (en) | System and method for automatic persona generation using small text components | |
CN111105209A (zh) | 适用于人岗匹配推荐系统的职位简历匹配方法及装置 | |
CN111832290A (zh) | 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质 | |
CN111444304A (zh) | 搜索排序的方法和装置 | |
CN107767273B (zh) | 基于社交数据的资产配置方法、电子装置及介质 | |
CN112925912B (zh) | 文本处理方法、同义文本召回方法及装置 | |
CN118210908B (zh) | 一种检索增强方法、装置、电子设备及存储介质 | |
CN116028618B (zh) | 文本处理、文本检索方法、装置、电子设备及存储介质 | |
CN115827956A (zh) | 一种数据信息检索方法、装置、电子设备及存储介质 | |
CN115248839A (zh) | 一种基于知识体系的长文本检索方法以及装置 | |
CN115168537A (zh) | 语义检索模型的训练方法、装置、电子设备及存储介质 | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
CN113076758B (zh) | 一种面向任务型对话的多域请求式意图识别方法 | |
CN114328800A (zh) | 文本处理方法、装置、电子设备和计算机可读存储介质 | |
CN114461783A (zh) | 关键词生成方法、装置、计算机设备、存储介质和产品 | |
CN112699237B (zh) | 标签确定方法、设备和存储介质 | |
CN114169418A (zh) | 标签推荐模型训练方法及装置、标签获取方法及装置 | |
US20220050884A1 (en) | Utilizing machine learning models to automatically generate a summary or visualization of data | |
CN114491232B (zh) | 信息查询方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |