CN111476029A

CN111476029A - 资源推荐方法和装置

Info

Publication number: CN111476029A
Application number: CN202010283809.5A
Authority: CN
Inventors: 何海洋
Original assignee: Wuhan United Imaging Healthcare Co Ltd
Current assignee: Wuhan United Imaging Healthcare Co Ltd
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2020-07-31

Abstract

本申请涉及一种资源推荐方法、装置、计算机设备和存储介质。该方法包括：获取各待推荐文本对应的第一文本向量，第一文本向量包括第一关键词向量和第一关键词对应的第一权重向量；第一关键词向量用于表征第一关键词的语义特征；获取待匹配文本对应的第二文本向量，第二文本向量包括第二关键词向量和第二关键词对应的第二权重向量；第二关键词向量用于表征第二关键词的语义特征；根据第一文本向量和第二文本向量的余弦相似度，将各第一文本向量和第二文本向量进行匹配，并从各第一文本向量中，将与第二文本向量的余弦相似度最高的第一文本向量确定为匹配的目标文本向量。该方法可以提高待推荐会诊医生的推荐准确率。

Description

资源推荐方法和装置

技术领域

本申请涉及计算机应用技术领域，特别是涉及一种资源推荐方法和装置。

背景技术

随着互联网技术的不断发展，越来越多的用户选择通过互联网技术分享资源，比如远程会诊、远程教育培训及远程监护等，为用户实时共享资源提供了较多的方便。以远程会诊为例，医疗条件基层医生对病情的诊断和治疗方案等问题有疑问需要联系上级医院的专家时，上级医院的专家可以通过远程会诊的方式为基层医生提供诊断意见和治疗建议。但是，基层医生对上级医院的专家的治疗细分领域并不一定了解，即使是同一个科室，专家的擅长治疗领域也可能有所不同。因此，在基层医生申请上级医院的专家会诊时，需要为基层医生推荐合适的上级医院的专家。

传统技术中，主要基于内容的推荐方法为基层医生推荐合适的上级医院的专家，该推荐方法首先利用分别从基层医生提供的患者待匹配文本和专家待推荐文本中提取关键词，然后分别计算患者待匹配文本和专家待推荐文本中各个关键词对应的权重，最后计算患者待匹配文本中各个关键词对应的权重组成的向量和专家待推荐文本中各个关键词对应的权重组成的向量的相似度，并基于计算的相似度进行专家资源的推荐，比如，患者待匹配文本中的关键词为“牙疼”，根据上述基于内容的推荐方法，仅会推荐与“牙疼”相似度最高的专家待推荐文本对应的专家。

但是，传统的基于内容的资源推荐方法，准确率较低。

发明内容

基于此，有必要针对传统的基于内容的资源推荐方法的问题，提供一种资源推荐方法、装置、计算机设备和存储介质。

第一方面，本申请提供一种资源推荐方法，该方法包括：

获取各待推荐文本对应的第一文本向量，第一文本向量包括第一关键词向量和第一关键词对应的第一权重向量；第一关键词向量用于表征第一关键词的语义特征；

获取待匹配文本对应的第二文本向量，第二文本向量包括第二关键词向量和第二关键词对应的第二权重向量；第二关键词向量用于表征第二关键词的语义特征；

根据第一文本向量和第二文本向量的余弦相似度，将各第一文本向量和第二文本向量进行匹配，并从各第一文本向量中，将与第二文本向量的余弦相似度最高的第一文本向量确定为匹配的目标文本向量。

第二方面，本申请提供一种资源推荐装置，该装置包括：

第一文本向量获取模块，用于获取各待推荐文本对应的第一文本向量，第一文本向量包括第一关键词向量和第一关键词对应的第一权重向量；第一关键词向量用于表征第一关键词的语义特征；

第二文本向量获取模块，用于获取待匹配文本对应的第二文本向量，第二文本向量包括第二关键词向量和第二关键词对应的第二权重向量；第二关键词向量用于表征第二关键词的语义特征；

目标推荐资源确定模块，用于根据第一文本向量和第二文本向量的余弦相似度，将各第一文本向量和第二文本向量进行匹配，并从各第一文本向量中，将与第二文本向量的余弦相似度最高的第一文本向量确定为匹配的目标文本向量。

第三方面，本申请提供一种计算机设备，计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现如下步骤：

第四方面，本申请提供一种可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如下步骤：

本实施例提供的资源推荐方法、装置、计算机设备和存储介质，计算机设备可以获取各待推荐文本对应的包括第一关键词向量和第一关键词对应的第一权重向量的第一文本向量，其中，第一关键词向量用于表征第一关键词的语义特征；还可以获取待匹配文本对应的包括第二关键词向量和第二关键词对应的第二权重向量的第二文本向量，其中，第二关键词向量用于表征第二关键词的语义特征；根据第一文本向量和第二文本向量的余弦相似度，将各第一文本向量和第二文本向量进行匹配，并从各第一文本向量中，将与第二文本向量的余弦相似度最高的第一文本向量确定为匹配的目标文本向量。由于第一关键词向量和第二关键词向量可以用于表征关键词的语义特征，当待推荐文本中的第一关键词与待匹配文本中的第二关键词有较多关键词语义相同或比较接近时，计算出的第一文本向量与第二文本向量的余弦相似度也会比较高，因此，利用本实施例提供的资源方法向患者推荐的会诊医生也会比较合适，提高了待推荐会诊医生的推荐准确率。

附图说明

图1为一个实施例提供的计算机设备结构示意图；

图2为一个实施例提供的资源推荐方法流程示意图；

图3为另一个实施例提供的资源推荐方法流程示意图；

图4为另一个实施例提供的资源推荐方法流程示意图；

图5为一个实施例提供的资源推荐装置结构示意图；

图6为另一个实施例提供的资源推荐装置结构示意图；

图7为另一个实施例提供的资源推荐装置结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本实施例提供的资源推荐方法，可以应用于如图1所示的计算机设备，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。可选的，该计算机设备可以为手机、平板电脑、个人数字助理等，本实施例对计算机设备的具体形式并不做限定。

需要说明的是，本申请实施例提供的资源推荐方法，其执行主体可以是资源推荐装置，该资源推荐装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部。下述方法实施例中，均以执行主体是计算机设备为例来进行说明。

图2为一个实施例提供的资源推荐方法流程示意图。本实施例涉及的是计算机设备根据获取的各待推荐文本对应的第一文本向量和待匹配文本对应的第二文本向量的余弦相似度确定匹配的目标文本向量的实现过程。如图2所示，该方法可以包括：

S201，获取各待推荐文本对应的第一文本向量，第一文本向量包括第一关键词向量和第一关键词对应的第一权重向量；第一关键词向量用于表征第一关键词的语义特征。

具体的，当需要向患者推荐合适的医生时，上述待推荐文本可以为会诊医生的擅长治疗领域文本，当需要向某个用户推荐合适的书时，上述待推荐文本可以为各个书的简介文本，本实施例对待推荐文本的类型并不做限定。可选的，上述待推荐文本的数量可以为一个或多个。进一步的，上述第一关键词为从待推荐文本中提取的关键词。上述第一关键词向量可以为一个或多个数值组成的向量，该第一关键词向量中的每一维可以用于表征对应的关键词的语义特征。需要说明的是，语义相近的关键词的数值也会比较接近，比如，关键词“牙疼”对应的词向量可以为0.12，与“牙疼”语义相近的关键词“牙龈肿痛”对应的词向量可以为0.14。上述第一关键词对应的第一权重向量可以为待推荐文本中各个关键词中在待推荐文本中占的权重组成的向量，也可以为待推荐文本中各个关键词在待推荐文本中提取的所有关键词的占的权重组成的向量。

S202，获取待匹配文本对应的第二文本向量，第二文本向量包括第二关键词向量和第二关键词对应的第二权重向量；第二关键词向量用于表征第二关键词的语义特征。

具体的，当需要向患者推荐合适的医生时，上述待匹配文本可以为患者的病历文本，当需要向某个用户推荐合适的书时，上述待匹配文本可以为用户经常阅读的书目文本，本实施例对待匹配文本的类型并不做限定。进一步的，上述第二关键词为从待匹配文本中提取的关键词。上述第二关键词向量可以为一个或多个数值组成的向量，该第二关键词向量中的每一维可以用于表征对应的关键词的语义特征。上述第二关键词对应的第二权重向量可以为待匹配文本中各个关键词中在待匹配文本中占的权重组成的向量，也可以为待匹配文本中各个关键词在待匹配文本中提取的所有关键词的占的权重组成的向量。

S203，根据第一文本向量和第二文本向量的余弦相似度，将各第一文本向量和第二文本向量进行匹配，并从各第一文本向量中，将与第二文本向量的余弦相似度最高的第一文本向量确定为匹配的目标文本向量。

具体的，计算机设备在获取各待推荐文本对应的第一文本向量和待匹配文本对应的第二文本向量后，可以根据第一文本向量中第一关键词向量与第二文本向量中第二关键词向量的第一余弦相似度，和，第一文本向量中第一权重向量与第二文本向量中第二权重向量的第二余弦相似度，并根据第一余弦相似度和第二余弦相似度的和确定第一文本向量和第二文本向量的余弦相似度；也可以根据第一文本向量中第一关键词向量与第二文本向量中第二关键词向量的余弦相似度和预设的关键词权重的第一乘积值，和，第一文本向量中第一权重向量与第二文本向量中第二权重向量的余弦相似度和预设的权重向量的权重的第二乘积值，并根据第一乘积值和第二乘积值的各和确定第一文本向量和第二文本向量的余弦相似度；还可以根据第一关键词向量与第一权重向量组成的第一文本向量，和，第二关键词向量与第二权重向量组成的第二文本向量确定余弦相似度，本实施例对此并不做限定。进一步的，计算机设备可以根据上述确定第一文本向量和第二文本向量的余弦相似度的方式确定第一文本向量中各个第一文本向量与第二文本向量的余弦相似度。

确定上述各个第一文本向量和第二文本向量的余弦相似度后，计算机设备可以从各第一文本向量中，将与第二文本向量的余弦相似度最高的第一文本向量确定为匹配的目标文本向量，当需要向患者推荐合适的医生时，即可以将匹配的目标文本向量对应的医生推荐给患者。可选的，也可以从各第一文本向量中将与第二文本向量的余弦相似度大于预设阈值的第一文本向量确定为匹配的目标文本向量，此时目标文本向量可以为一个或多个，当目标文本向量为多个时，患者可以从匹配的多个医生中选择所需的医生。可选的，也可以将与第二文本向量的余弦相似度按照从大到小的顺序将第一文本向量对应的医生信息显示给用户，以为用户提供更多的选择，提高用户选择的灵活性。进一步，也可以按照预设类型和每个类型对应的预设顺序将匹配的多个医生显示给用户，预设类型可以包括按照医生好评率、医生的合作案例数、所需等待医生的时间、医生当前任务量中的至少一个，预设顺序可以为从高到低的顺序、从多到少的顺序、从长到短的顺序中的至少一种，以方便用户根据实际所需做出选择。

需要说明的是，当第一文本向量中的某个关键词与第二文本中的某个关键词的语义比较接近时，这两个关键词的词向量也会比较接近，这样计算出的两个词的余弦相似度也会比较高，比如第一文本向量中的关键词“牙疼”与第二文本中的关键词“牙齿肿痛”的语义比较接近，“牙疼”与“牙齿肿痛”对应的词向量的余弦相似度也会比较高。当待推荐文本中的第一关键词与待匹配文本中的第二关键词有较多关键词语义相同或比较接近时，计算出的第一文本向量与第二文本向量的余弦相似度也会比较高，因此，可以利用本实施例提供的资源方法向患者推荐合适的会诊医生。

本实施例提供的资源推荐方法，计算机设备可以获取各待推荐文本对应的包括第一关键词向量和第一关键词对应的第一权重向量的第一文本向量，其中，第一关键词向量用于表征第一关键词的语义特征；还可以获取待匹配文本对应的包括第二关键词向量和第二关键词对应的第二权重向量的第二文本向量，其中，第二关键词向量用于表征第二关键词的语义特征；根据第一文本向量和第二文本向量的余弦相似度，将各第一文本向量和第二文本向量进行匹配，并从各第一文本向量中，将与第二文本向量的余弦相似度最高的第一文本向量确定为匹配的目标文本向量。由于第一关键词向量和第二关键词向量可以用于表征关键词的语义特征，当待推荐文本中的第一关键词与待匹配文本中的第二关键词有较多关键词语义相同或比较接近时，计算出的第一文本向量与第二文本向量的余弦相似度也会比较高，因此，利用本实施例提供的资源方法向患者推荐的会诊医生也会比较合适，提高了待推荐会诊医生的推荐准确率。

图3为另一个实施例提供的资源推荐方法流程示意图。本实施例涉及的是计算机设备对各待推荐文本进行预处理操作得到第一关键词集合并根据第一关键词集合确定第一权重向量和第一关键词向量，并根据第一权重向量和第一关键词向量确定第一文本向量的实现过程。如图3所示，在上述图2所示实施例的基础上，在上述S201之前，该方法还可以包括：

S301，对各待推荐文本进行预处理操作，得到各待推荐文本的第一关键词集合。

具体的，计算机设备可以按照预设的预处理操作对各个待推荐文本进行关键词提取，以得到各个待推荐文本的关键词集合，所有待推荐文本对应的关键词集合构成第一关键词集合。可选的，预处理操作可以包括分词操作和去除停用词操作，此时，上述对各待推荐文本进行预处理操作，得到各待推荐文本的第一关键词集合，可以包括：根据预设的分词工具对各待推荐文本进行分词操作，得到第一基础关键词集合；对第一基础关键词集合进行去除停用词操作，得到第一初始关键词集合；获取第一初始关键词集合中各个关键词的权重，并根据第一初始关键词集合中各个关键词的权重，选取权重大于第一预设阈值的关键词组成第一关键词集合。

可选的，上述分词工具可以为jieba中文分词工具，也可以为盘古分词工具，本实施例对分词工具并不做限定。可选的，可以利用jieba中文分词工具中的全模式或精确模式或搜索引擎模式对各待推荐文本进行分词操作，以得到第一基础关键词集合。在对待文本利用分词工具进行分词操作后，可以得到多个关键词组成第一基础关键词集合。由于第一基础关键词集合中可能会有对待推荐文本影响较小的字或词，可以利用预设的信用词表去除第一基础关键词集合中部分关键词，得到去除停用词的第一初始关键词集合；其中，停用词表可以为哈尔滨工业大学的停用词表、百度的停用词表和四川大学的停用词表，或其它停用词表，也可以将多个停用词表进行整合和去重处理得到新的停用词表。

可选的，可以选取第一初始关键词集合中的所有关键词组成上述第一关键词集合，也可以获取第一初始关键词集合中各个关键词的权重，并根据第一初始关键词集合中各个关键词的权重，选取权重大于第一预设阈值的关键词组成第一关键词集合。其中，第一初始关键词集合中关键词t_i,j的权重tfidf(t_i,j)可以根据公式

或包含

的公式确定，其中，i表示关键词的标号，j表示待推荐文本中总的关键词数目，f(t_i,d_m)表示关键词t_i在待推荐文本d_m中出现的次数，m表示待推荐文本的标号，N表示所有待推荐文本和待匹配文本中总的关键词数量，cf_ti表示关键词t_i在所有待推荐文本和待匹配文本中出现的次数。上述需要说明的是，第一关键词集合中各个关键词的权重是根据第一待计算关键词在所有待推荐文本和待匹配文本中出现的次数、和所有待推荐文本与待匹配文本中总的关键词的数量确定的，都是直接根据关键词进行计算的，相较于现有技术中根据文本计算第一权重向量的方式，统计粒度较为细，因此，计算出的各个关键词的权重更精确。

S302，根据第一关键词集合中第一待计算关键词在待推荐文本中出现的次数、第一待计算关键词在各待推荐文本和待匹配文本中出现的次数，和，各待推荐文本和待匹配文本中所有的关键词的数量，确定第一权重向量。

具体的，可以利用S301中确定第一初始关键词集合中关键词的权重的方式确定第一关键词集合中各个关键词的权重，组成上述第一权重向量。

可选的，计算机设备可以根据如下步骤确定第一权重向量：根据第一待计算关键词在待推荐文本中出现的次数，及，待推荐文本中所有关键词出现的次数之和，确定待推荐文本中各个关键词的第一词频值(Term Frequency，TF)，根据第一待计算关键词在各待推荐文本和待匹配文本中出现的次数，和，各待推荐文本和待匹配文本中所有的关键词的数量，确定待推荐文本中各个关键词的第一逆文本频率指数值(Inverse DocumentFrequency，IDF)，根据第一词频值与第一逆文本频率指数值的乘积，确定第一权重向量。其中，第一词频值为S301中的公式

中的

部分，第一逆文本频率指数值为

中的

部分，其中，f(t_i,d_m)表示关键词t_i在待推荐文本d_m中出现的次数，m表示待推荐文本的标号，N表示所有待推荐文本和待匹配文本中总的关键词数量，

表示关键词t_i在所有待推荐文本和待匹配文本中出现的次数。

S303，根据第一关键词集合和预设的目标神经网络模型，确定第一关键词向量；预设的目标神经网络模型为根据预设的语料库对初始神经网络进行训练后得到的模型。

具体的，上述初始神经网络模型可以为word2vec模型，将第一关键词集合中的各个关键词输入目标神经网络模型，以得到各个关键词对应的向量，所有关键词对应的向量组成上述第一关键词向量。可选的，计算机设备还可以根据如下步骤确定第一关键词向量：在对初始神经网络模型进行训练时，根据预设的语料库对初始神经网络模型进行训练，得到目标神经网络模型；将第一关键词集合输入目标神经网络模型，得到第一初始关键词向量；根据第一初始关键词向量和第一权重向量的乘积，确定第一关键词向量。

可选的，可以利用与待推荐文本和待匹配文本相关的语料库进行训练，以进一步提高资源推荐的准确率。其中，训练模型可以为word2vec模型中的Skip-gram模型或连续词袋模型(Bag-of-words model，CBOW)进行关键词的训练，以得到上述目标神经网络模型。进一步的，可以将第一关键词集合中的各个关键词输入训练好的目标神经模型，以得到各个关键词对应的向量，所有关键词对应的向量组成上述第一初始关键词向量，并根据第一初始关键词向量与第一权重向量的乘积，确定上述第一关键词向量。可选的，可以根据各个待推荐文本对应的第一初始关键词向量与对应的第一权重向量的乘积确定第一关键词向量，可选的，可以根据公式v(c_m)＝∑_mv(d_m)*tfidf(d_m)或包含∑_mv(d_m)*tfidf(d_m)的公式确定上述第一关键词向量，其中，v(d_m)表示第一初始关键词向量，v(c_m)表示待推荐文本d_m的第一关键词向量，tfidf(d_m)表示待推荐文本d_m的第一权重向量，m表示待推荐文本的标号。

S304，根据第一权重向量和第一关键词向量，确定第一文本向量。

具体的，计算机设备可以将第一权重向量和第一关键词向量扩充组成的新的向量作为第一文本向量，也可以按照第一权重向量与第一关键词向量的和确定第一文本向量，还可以按照图4所示实施例的方式确定第一文本向量，本实施例对此并不做限定。

本实施例提供的资源推荐的方法中，计算机设备可以对各待推荐文本进行预处理操作，得到各待推荐文本的第一关键词集合；并根据第一关键词集合中第一待计算关键词在待推荐文本中出现的次数、第一待计算关键词在各待推荐文本和待匹配文本中出现的次数，和，各待推荐文本和待匹配文本中所有的关键词的数量，确定第一权重向量；且根据第一关键词集合和和预设的目标神经网络模型确定第一关键词向量；进而根据第一权重向量和第一关键词向量确定第一文本向量。由于第一权重向量中各个的权重是根据第一待计算关键词在所有待推荐文本和待匹配文本中出现的次数、和所有待推荐文本与待匹配文本中总的关键词的数量确定的，都是直接根据关键词进行计算的，相较于现有技术中根据文本计算第一权重向量的方式，统计粒度较为细，因此，计算出的第一权重向量更能体现待推荐文本中各个关键词的权重，进而根据第一权重向量和第一关键词向量确定的第一文本向量也更能准确地表达待推荐文本，提高了利用第一文本向量描述待推荐文本的准确度。

在另一个实施例提供的资源推荐方法中，本实施例涉及的是计算机设备根据第一权重向量和第一关键词向量确定第一文本向量的实现过程。在上述实施例的基础上，可选的，上述S304可以包括：根据第一权重向量与预设的第一权重系数的乘积，和，第一关键词向量与预设的第一词向量系数的乘积，确定第一文本向量。

具体的，计算机设备可以利用第一权重向量与预设的第一权重系数获得的第一乘积向量，和，第一关键词向量与预设的第一向量系数获得的第二乘积向量，并利用第一乘积向量和第二乘积向量的和确定第一文本向量，也可以按照如下方式确定第一文本向量：根据公式

确定第一文本向量U(d_m)；其中，α₁表示第一词向量系数，v(c_m)表示待推荐文本d_m的第一关键词向量，tfidf(d_m)表示待推荐文本d_m的第一权重向量，β₁表示第一权重系数，m表示待推荐文本的标号，

和

分别表示对第一关键词向量和第一权重向量进行标准化。可选的，上述α₁+β₁＝1，α₁和β₁的取值可以根据预设次数的实验，将较能描述第一文本向量的α₁和β₁的取值确定为最终取值，可选的，α₁和β₁的取值可以分别取0.7和0.3。进一步的，上述公式

是将上述第一乘积向量和第二乘积向量扩充的新的向量确定为第一文本向量，在后续计算第一文本向量和第二文本向量的余弦相似度时，不用分别计算第一文本向量中第一关键词向量与第二文本向量中第二关键词向量之间的余弦相似度，和，第一文本向量中第二权重向量与第二文本向量中第二权重向量之间的余弦相似度，减少了计算量，提高了计算速度。

本实施例提供的资源推荐方法，计算机设备可以利用根据第一权重向量与预设的第一权重系数的乘积，和，第一关键词向量与预设的第一词向量系数的乘积，扩充为新的向量，并将扩充的新的向量作为第一文本向量，不用分别计算第一文本向量中第一关键词向量与第二文本向量中第二关键词向量之间的余弦相似度，和，第一文本向量中第二权重向量与第二文本向量中第二权重向量之间的余弦相似度，减少了计算量，提高了计算速度。

图4为另一个实施例提供的资源推荐方法流程示意图。在上述实施例的基础上，可选的，上述S202可以包括：

S401，对待匹配文本进行预处理操作，得到待匹配文本的第二关键词集合。

其中，预处理操作可以包括分词操作和去除停用词操作，此时，上述对待匹配文本进行预处理操作，得到匹配文本的第一关键词集合，可以包括：根据预设的分词工具对待匹配文本进行分词操作，得到第二基础关键词集合；对第二基础关键词集合进行去除停用词操作，得到第二初始关键词集合；获取第二初始关键词集合中各个关键词的权重，并根据第二初始关键词集合中各个关键词的权重，选取权重大于第二预设阈值的关键词组成第二关键词集合。

S402，根据第二关键词集合中第二待计算关键词在待匹配文本中出现的次数、第二待计算关键词在各待推荐文本和待匹配文本中出现的次数，和，各待推荐文本和待匹配文本中所有的关键词的数量，确定第二权重向量。

其中，计算机设备可以根据如下步骤确定第二权重向量：根据第二待计算关键词在待匹配文本中出现的次数，及，待匹配文本中所有关键词出现的次数之和，确定待匹配文本中各个关键词的第二词频值；根据第二待计算关键词在各待推荐文本和待匹配文本中出现的次数，和，各待推荐文本和待匹配文本中所有的关键词的数量，确定待推荐文本中各个关键词的第二逆文本频率指数值；根据第二词频值与第二逆文本频率指数值的乘积，确定第二权重向量。

S403，根据第二关键词集合和和预设的目标神经网络模型，确定第二关键词向量；预设的目标神经网络模型为根据预设的语料库对初始神经网络进行训练后得到的模型。

其中，计算机设备可以根据预设的语料库对初始神经网络模型进行训练，得到目标神经网络模型；将第二关键词集合输入目标神经网络模型，得到第二关键词向量。

S404，根据第二权重向量和第二关键词向量，确定第二文本向量。

其中，计算机设备可以根据第二权重向量与预设的第二权重系数的乘积，和，第二关键词向量与预设的第二词向量系数的乘积，确定第二文本向量。进一步的，计算机设备可以根据公式

确定第二文本向量U(d_匹配)；其中，α₂表示第二词向量系数，v(c_匹配)表示待匹配文本的第一关键词向量，tfidf(d_匹配)表示待匹配文本的第一权重向量，β₂表示第一权重系数。可选的，α₂与上述实施例中的α₁可以相等，也可以不相等，β₂与上述实施例中的β₁可以相等，也可以不相等，本实施例对此并不做限定，可选的，上述α₂+β₂＝1。

本实施例提供的资源推荐方法的工作原理和技术效果如上述图3所示实施例提供的资源推荐方法类似，在此不再赘述。

应该理解的是，虽然图2至图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2至图4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图5为一个实施例提供的资源推荐装置结构示意图。如图5所示，该装置可以包括第一文本向量获取模块501、第二文本向量获取模块502和目标推荐资源确定模块503。

具体的，第一文本向量获取模块501，用于获取各待推荐文本对应的第一文本向量，第一文本向量包括第一关键词向量和第一关键词对应的第一权重向量；第一关键词向量用于表征第一关键词的语义特征；

第二文本向量获取模块502，用于获取待匹配文本对应的第二文本向量，第二文本向量包括第二关键词向量和第二关键词对应的第二权重向量；第二关键词向量用于表征第二关键词的语义特征；

目标推荐资源确定模块503，用于根据第一文本向量和第二文本向量的余弦相似度，将各第一文本向量和第二文本向量进行匹配，并从各第一文本向量中，将与第二文本向量的余弦相似度最高的第一文本向量确定为匹配的目标文本向量。

本实施例提供的资源推荐装置，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

图6为另一个实施例提供的资源推荐装置中，在上述图5所示实施例的基础上，如图6所示，上述装置还可以包括：第一关键词集合获取模块504、第一权重向量确定模块505、第一关键词向量确定模块506和第一文本向量确定模块507。

具体的，第一关键词集合获取模块504，用于对各待推荐文本进行预处理操作，得到各待推荐文本的第一关键词集合。

第一权重向量确定模块505，用于根据第一关键词集合中第一待计算关键词在待推荐文本中出现的次数、第一待计算关键词在各待推荐文本和待匹配文本中出现的次数，和，各待推荐文本和待匹配文本中所有的关键词的数量，确定第一权重向量。

第一关键词向量确定模块506，用于根据第一关键词集合和和预设的目标神经网络模型，确定第一关键词向量；预设的目标神经网络模型为根据预设的语料库对初始神经网络进行训练后得到的模型。

第一文本向量确定模块507，用于根据第一权重向量和第一关键词向量，确定第一文本向量。

在一个实施例中，在上述实施例的基础上，上述第一文本向量确定模块507可以包括第一文本向量确定单元，用于根据第一权重向量与预设的第一权重系数的乘积，和，第一关键词向量与预设的第一词向量系数的乘积，确定第一文本向量。

可选的，第一文本向量确定单元具体用于根据公式

确定第一文本向量U(d_m)；其中，α₁表示第一词向量系数，v(c_m)表示待推荐文本d_m的第一关键词向量，tfidf(d_m)表示待推荐文本d_m的第一权重向量，β₁表示第一权重系数，m表示待推荐文本的标号。

在一个实施例中，在上述实施例的基础上，上述预处理操作包括分词操作和去除停用词操作，上述第一关键词集合获取模块504可以包括：

第一基础关键词集合确定单元，用于根据预设的分词工具对各待推荐文本进行分词操作，得到第一基础关键词集合；

第一初始关键词集合确定单元，用于对第一基础关键词集合进行去除停用词操作，得到第一初始关键词集合；

第一关键词集合确定单元，用于获取第一初始关键词集合中各个关键词的权重，并根据第一初始关键词集合中各个关键词的权重，选取权重大于第一预设阈值的关键词组成第一关键词集合。

在一个实施例中，在上述实施例的基础上，上述第一权重向量确定模块505可以包括：

第一词频值确定单元，用于根据第一待计算关键词在待推荐文本中出现的次数，及，待推荐文本中所有关键词出现的次数之和，确定待推荐文本中各个关键词的第一词频值；

第一逆文本频率指数值确定单元，用于根据第一待计算关键词在各待推荐文本和待匹配文本中出现的次数，和，各待推荐文本和待匹配文本中所有的关键词的数量，确定待推荐文本中各个关键词的第一逆文本频率指数值；

第一权重向量确定单元，用于根据第一词频值与第一逆文本频率指数值的乘积，确定第一权重向量。

在一个实施例中，在上述实施例的基础上，上述第一关键词向量确定模块506，可以包括：

目标神经网络模型确定单元，用于根据预设的语料库对初始神经网络模型进行训练，得到目标神经网络模型；

第一初始关键词向量确定单元，用于将第一关键词集合输入目标神经网络模型，得到第一初始关键词向量。

第一关键词向量确定单元，用于根据第一初始关键词向量和第一权重向量的乘积，确定第一关键词向量。

图7为另一个实施例提供的资源推荐装置结构示意图。在上述实施例的基础上，上述装置还可以包括：

第二关键词集合确定模块508，用于对待匹配文本进行预处理操作，得到待匹配文本的第二关键词集合；

第二权重向量确定模块509，用于根据第二关键词集合中第二待计算关键词在待匹配文本中出现的次数、第二待计算关键词在各待推荐文本和待匹配文本中出现的次数，和，各待推荐文本和待匹配文本中所有的关键词的数量，确定第二权重向量；

第二关键词向量确定模块510，用于根据第二关键词集合和和预设的目标神经网络模型，确定第二关键词向量；预设的目标神经网络模型为根据预设的语料库对初始神经网络进行训练后得到的模型；

第二文本向量确定模块11，用于根据第二权重向量和第二关键词向量，确定第二文本向量。

在一个实施例中，在上述实施例的基础上，上述第二文本向量确定模块11包括第二文本向量确定单元，用于根据第二权重向量与预设的第二权重系数的乘积，和，第二关键词向量与预设的第二词向量系数的乘积，确定第二文本向量。

可选的，第二文本向量确定单元，具体用于根据公式

确定第二文本向量U(d_匹配)；其中，α₂表示第二词向量系数，v(c_匹配)表示待匹配文本的第一关键词向量，tfidf(d_匹配)表示待匹配文本的第一权重向量，β₂表示第一权重系数。

在一个实施例中，在上述实施例的基础上，上述第二关键词集合确定模块508可以包括：

第二基础关键词集合确定单元，用于根据预设的分词工具对待匹配文本进行分词操作，得到第二基础关键词集合；

第二初始关键词集合确定单元，用于对第二基础关键词集合进行去除停用词操作，得到第二初始关键词集合；

第二关键词集合确定单元，用于获取第二初始关键词集合中各个关键词的权重，并根据第二初始关键词集合中各个关键词的权重，选取权重大于第二预设阈值的关键词组成第二关键词集合。

在一个实施例中，在上述实施例的基础上，上述第二权重向量确定模块509可以包括：

第二词频值确定单元，用于根据第二待计算关键词在待匹配文本文本中出现的次数，及，待匹配文本中所有关键词出现的次数之和，确定待匹配文本中各个关键词的第二词频值；

第二逆文本频率指数值确定单元，用于根据第二待计算关键词在各待推荐文本和待匹配文本中出现的次数，和，各待推荐文本和待匹配文本中所有的关键词的数量，确定待推荐文本中各个关键词的第二逆文本频率指数值；

第二权重向量确定单元，用于根据第二词频值与第二逆文本频率指数值的乘积，确定第二权重向量。

在一个实施例中，在上述实施例的基础上，上述第二关键词向量510可以包括：

第二关键词向量确定单元，用于将第二关键词集合输入目标神经网络模型，得到第二初始关键词向量。

第二关键词向量确定单元，用于根据第二初始关键词向量和第二权重向量的乘积，确定第二关键词向量。

关于资源推荐装置的具体限定可以参见上文中对于资源推荐方法的限定，在此不再赘述。上述资源推荐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种资源推荐方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

上述实施例提供的计算机设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

根据第一文本向量和第二文本向量的余弦相似度，将各第一文本向量和第二文本向量进行匹配，并从各第一文本向量中，将与第二文本向量的余弦相似度最高的第一文本向量确定为匹配的目标文本向量

上述实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种资源推荐方法，其特征在于，所述方法包括：

获取各待推荐文本对应的第一文本向量，所述第一文本向量包括第一关键词向量和所述第一关键词对应的第一权重向量；所述第一关键词向量用于表征所述第一关键词的语义特征；

获取待匹配文本对应的第二文本向量，所述第二文本向量包括第二关键词向量和所述第二关键词对应的第二权重向量；所述第二关键词向量用于表征所述第二关键词的语义特征；

根据所述第一文本向量和所述第二文本向量的余弦相似度，将各第一文本向量和所述第二文本向量进行匹配，并从各第一文本向量中，将与第二文本向量的余弦相似度最高的所述第一文本向量确定为匹配的目标文本向量。

2.根据权利要求1所述的方法，其特征在于，在所述获取各待推荐文本对应的第一文本向量之前，所述方法还包括：

对所述各待推荐文本进行预处理操作，得到所述各待推荐文本的第一关键词集合；

根据所述第一关键词集合中第一待计算关键词在所述待推荐文本中出现的次数、所述第一待计算关键词在所述各待推荐文本和所述待匹配文本中出现的次数，和，所述各待推荐文本和所述待匹配文本中所有的关键词的数量，确定所述第一权重向量；

根据所述第一关键词集合和和预设的目标神经网络模型，确定所述第一关键词向量；所述预设的目标神经网络模型为根据预设的语料库对初始神经网络进行训练后得到的模型；

根据所述第一权重向量和所述第一关键词向量，确定所述第一文本向量。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一权重向量和所述第一关键词向量，确定所述第一文本向量，包括：

根据所述第一权重向量与预设的第一权重系数的乘积，和，所述第一关键词向量与预设的第一词向量系数的乘积，确定所述第一文本向量。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一权重向量与预设的第一权重系数的乘积，和，所述第一关键词向量与预设的第一词向量系数的乘积，确定所述第一文本向量，包括：

根据公式

确定所述第一文本向量U(d_m)；其中，α₁表示第一词向量系数，v(c_m)表示所述待推荐文本d_m的第一关键词向量，tfidf(d_m)表示所述待推荐文本d_m的第一权重向量，β₁表示第一权重系数，m表示待推荐文本的标号。

5.根据权利要求2所述的方法，其特征在于，所述根据所述第一关键词集合中第一待计算关键词在所述待推荐文本中出现的次数、所述第一待计算关键词在所述各待推荐文本和所述待匹配文本中出现的次数，和，所述各待推荐文本和所述待匹配文本中所有的关键词的数量，确定所述第一权重向量，包括：

根据所述第一待计算关键词在所述待推荐文本中出现的次数，及，所述待推荐文本中所有关键词出现的次数之和，确定所述待推荐文本中各个关键词的第一词频值；

根据所述第一待计算关键词在所述各待推荐文本和所述待匹配文本中出现的次数，和，所述各待推荐文本和所述待匹配文本中所有的关键词的数量，确定所述待推荐文本中各个关键词的第一逆文本频率指数值；

根据所述第一词频值与所述第一逆文本频率指数值的乘积，确定所述第一权重向量。

6.根据权利要求1所述的方法，其特征在于，在所述获取待匹配文本对应的第二文本向量之前，所述方法还包括：

对所述待匹配文本进行预处理操作，得到所述待匹配文本的第二关键词集合；

根据所述第二关键词集合中第二待计算关键词在所述待匹配文本中出现的次数、所述第二待计算关键词在所述各待推荐文本和所述待匹配文本中出现的次数，和，所述各待推荐文本和所述待匹配文本中所有的关键词的数量，确定所述第二权重向量；

根据所述第二关键词集合和和预设的目标神经网络模型，确定所述第二关键词向量；所述预设的目标神经网络模型为根据预设的语料库对初始神经网络进行训练后得到的模型；

根据所述第二权重向量和所述第二关键词向量，确定所述第二文本向量。

7.根据权利要求6所述的方法，其特征在于，所述根据所述第二权重向量和所述第二关键词向量，确定所述第二文本向量，包括：

根据所述第二权重向量与预设的第二权重系数的乘积，和，所述第二关键词向量与预设的第二词向量系数的乘积，确定所述第二文本向量。

8.根据权利要求7所述的方法，其特征在于，所述根据所述第二权重向量与预设的第二权重系数的乘积，和，所述第二关键词向量与预设的第二词向量系数的乘积，确定所述第二文本向量，包括：

根据公式

确定所述第二文本向量U(d_匹配)；其中，α₂表示第二词向量系数，v(c_匹配)表示所述待匹配文本的第一关键词向量，tfidf(d_匹配)表示所述待匹配文本的第一权重向量，β₂表示第一权重系数。

9.根据权利要求6所述的方法，其特征在于，所述根据所述第二关键词集合中第二待计算关键词在所述待匹配文本中出现的次数、所述第二待计算关键词在所述各待推荐文本和所述待匹配文本中出现的次数，和，所述各待推荐文本和所述待匹配文本中所有的关键词的数量，确定所述第二权重向量，包括：

根据所述第二待计算关键词在所述待匹配文本文本中出现的次数，及，所述待匹配文本中所有关键词出现的次数之和，确定所述待匹配文本中各个关键词的第二词频值；

根据所述第二待计算关键词在所述各待推荐文本和所述待匹配文本中出现的次数，和，所述各待推荐文本和所述待匹配文本中所有的关键词的数量，确定所述待推荐文本中各个关键词的第二逆文本频率指数值；

根据所述第二词频值与所述第二逆文本频率指数值的乘积，确定所述第二权重向量。

10.一种资源推荐装置，其特征在于，所述装置包括：

第一文本向量获取模块，用于获取各待推荐文本对应的第一文本向量，所述第一文本向量包括第一关键词向量和所述第一关键词对应的第一权重向量；所述第一关键词向量用于表征所述第一关键词的语义特征；

第二文本向量获取模块，用于获取待匹配文本对应的第二文本向量，所述第二文本向量包括所述第二关键词向量和第二关键词对应的第二权重向量；所述第二关键词向量用于表征所述第二关键词的语义特征；

目标推荐资源确定模块，用于根据所述第一文本向量和所述第二文本向量的余弦相似度，将各第一文本向量和所述第二文本向量进行匹配，并从各第一文本向量中，将与第二文本向量的余弦相似度最高的所述第一文本向量确定为匹配的目标文本向量。