CN111368034A - 双向语义特征匹配方法及供给内容推荐装置 - Google Patents

双向语义特征匹配方法及供给内容推荐装置 Download PDF

Info

Publication number
CN111368034A
CN111368034A CN202010135628.8A CN202010135628A CN111368034A CN 111368034 A CN111368034 A CN 111368034A CN 202010135628 A CN202010135628 A CN 202010135628A CN 111368034 A CN111368034 A CN 111368034A
Authority
CN
China
Prior art keywords
user
supply
content
keywords
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010135628.8A
Other languages
English (en)
Inventor
刘天弼
冯瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202010135628.8A priority Critical patent/CN111368034A/zh
Publication of CN111368034A publication Critical patent/CN111368034A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的在于实现考虑到用户属性因素且兼顾用户需求的供给内容推荐,具体提供了一种基于深度神经网络的双向语义特征匹配方法,包括如下步骤:步骤S1,形成供给信息向量;步骤S2,形成用户信息向量;步骤S3,提取用户需求的关键词以及供给内容的关键词;步骤S4,建立神经网络模型;步骤S5,进行训练得到训练好的神经网络模型作为双向语义特征匹配模型;步骤S6,根据用户新输入的用户需求,采用双向语义特征匹配模型进行供给内容的匹配。步骤S4包括:将用户信息向量以及提取出的用户需求的关键词融合形成用户需求矩阵;将供给信息模型以及提取出的供给内容的关键词融合形成供给内容矩阵。本发明还提供了对应的供给内容推荐装置。

Description

双向语义特征匹配方法及供给内容推荐装置
技术领域
本发明属于机器学习领域,涉及一种神经网络融合自然语言处理的方法,具体涉及一种基于神经网络的双向语义特征匹配方法及供给内容推荐装置。
背景技术
搜索与推荐技术在当今互联网中发挥着重要作用,因此推荐算法具有非常多的应用场景和重要的商业价值。
推荐算法最早在1992年就已经提出来,近年来随着互联网的爆发,需要处理的数据量与日俱增,推荐算法就有了更大的用武之地。概括来说,现有技术的推荐算法可以分为以下5种:
1)基于内容的推荐:这一类一般依赖于自然语言处理(以下简称NLP)的一些知识,通过挖掘文本的TF-IDF特征向量,来得到用户的偏好,进而做推荐。这类推荐算法可以找到用户独特的小众喜好,而且还有较好的解释性。
2)协调过滤推荐:协调过滤是推荐算法中目前最主流的种类,具体实现方式繁多,在工业界已经有了很多广泛的应用。它的优点是不需要太多特定领域的知识,可以通过基于统计的机器学习算法来得到较好的推荐效果。最大的优点是工程上容易实现,可以方便应用到产品中。目前,绝大多数实际应用的推荐算法都是协同过滤推荐算法。
3)混合推荐:这个类似机器学习中的集成学习,基于博才众长的技术思想,通过多个推荐算法的结合来得到一个更好的推荐算法。比如通过建立多个推荐算法的模型,最后用投票法决定最终的推荐结果。混合推荐理论上不会比单一任何一种推荐算法差,但是使用混合推荐,算法复杂度就提高了,在实际应用中有使用,但是其应用并没有单一的协调过滤推荐算法,比如逻辑回归之类的二分类推荐算法广泛。
4)基于规则的推荐:这类算法常见的比如基于最多用户点击,最多用户浏览等,属于大众型的推荐方法,由于针对性相对较差,在目前的大数据时代并不主流。
5)基于人口统计信息的推荐:这一类是最简单的推荐算法,其工作过程是简单地根据系统用户的基本信息发现用户的相关程度,然后进行推荐,目前在大型系统中已经较少使用。
当今的互联网市场竞争越发激烈,吸引用户、提升产品核心竞争力是互联网企业在市场能够站稳脚跟的重中之重。基于互联网的产品项目中,一方面,企业常常通过各种手段尽可能吸引大量用户,也就拥有了大量用户的信息数据;另一方面,企业还需要通过各种营销手段推进商业行为,推荐算法自然占有极为重要的地位。
然而,上述的推荐算法都难以做到对特定用户的精准推荐。现有推荐算法应用的实际场景通常是,用户获取信息的过程被动、获取的信息模糊,甚至答非所问。推荐算法需要尊重用户个性,而用户个体具有“千人千面”的特点,现有的推荐算法难以综合考虑到用户的背景、职业、家庭、健康、兴趣等因素,难以针对性地对用户的迫切需要和亟待解决的问题推送最准确的内容或最能解决问题的办法。
发明内容
为解决上述问题,能够实现考虑到用户属性因素且兼顾用户需求的供给内容推荐,本发明提了一种基于深度神经网络的双向语义特征匹配方法及供给内容推荐装置,具体采用了如下技术方案:
作为一种实施方式,本发明提供了一种基于深度神经网络的双向语义特征匹配方法,其特征在于,根据用户信息以及用户需求匹配供给内容,包括如下步骤:
步骤S1,根据供给内容建立含有供给属性的供给信息模型,并基于该供给信息模型为所有的供给内容标注属性标签从而形成对应的供给信息向量;
步骤S2,根据用户信息建立用户信息模型,并基于该用户信息模型为所有的用户信息标注属性标签从而形成对应的用户信息向量;
步骤S3,分别对用户需求以及供给内容进行自然语言分析,从而分别提取预定数量的用户需求的关键词以及供给内容的关键词;
步骤S4,根据用户信息向量、用户需求的关键词、供给信息模型以及供给内容的关键词建立神经网络模型;
步骤S5,对步骤S4建立的神经网络模型进行训练,得到训练好的神经网络模型作为双向语义特征匹配模型;
步骤S6,根据用户新输入的用户需求,采用双向语义特征匹配模型进行供给内容的匹配,
其中,步骤S4包括如下步骤:
步骤S4-1,将用户信息向量以及提取出的用户需求的关键词融合形成用户需求矩阵;
步骤S4-2,将供给信息模型以及提取出的供给内容的关键词融合形成供给内容矩阵;
步骤S4-3,基于用户需求矩阵和供给内容矩阵的数据结构建立能够进行特征向量提取神经网络模型作为神经网络模型。
本发明提供的基于深度神经网络的双向语义特征匹配方法,还可以具有这样的技术特征,其中,供给信息模型的形式是以one-hot向量表示各个供给内容的不同供给属性。
本发明提供的基于深度神经网络的双向语义特征匹配方法,还可以具有这样的技术特征,其中,用户信息具有不同的用户属性,用户属性包括内容可穷举的用户属性以及内容不可穷举的用户属性,步骤S2中,对于内容可穷举的用户属性,直接进行one-hot编码从而以one-hot形式表示;对于内容不可穷举的用户属性,根据该用户属性的内容进行人为定义从而划分为多个内容范围,再进行one-hot编码从而以one-hot形式表示。
本发明提供的基于深度神经网络的双向语义特征匹配方法,还可以具有这样的技术特征,其中,步骤S3中,供给内容的关键词提取采用XGBoost算法,用户需求的关键词提取采用Bi-LSTM算法。
本发明提供的基于深度神经网络的双向语义特征匹配方法,还可以具有这样的技术特征,其中,步骤S3中,供给内容的关键词以及用户需求的关键词均设有提取的最大数量,供给内容的关键词的最大数量为大于用户需求的关键词的最大数量。
本发明提供的基于深度神经网络的双向语义特征匹配方法,还可以具有这样的技术特征,其中,步骤S5包括如下步骤:
步骤S5-1,构建训练数据集;
步骤S5-2,采用步骤S5-1得到的训练数据集对步骤S4中建立的特征向量提取神经网络模型进行训练,得到双向语义特征匹配模型。
本发明提供的基于深度神经网络的双向语义特征匹配方法,还可以具有这样的技术特征,其中,步骤S5-1的过程为:先选取一个具体的用户并选定该用户的一个用户需求,然后根据用户的实际情况分析对用户需求进行分析,从而在供给内容中查找语义、语境完全匹配的n个供给内容,然后将用户的用户属性与选定的用户需求形成用户需求矩阵,将n个供给内容分别形成n个供给内容矩阵,并将用户需求矩阵与n个供给内容矩阵一一对应从而形成n条训练数据录入训练数据集。
作为另一种实施方式,本发明还提供了一种供给内容推荐装置,其特征在于,根据用户信息以及用户需求匹配供给内容,包括:用户信息存储部,用于存储各个用户的用户信息以及对应的用户信息向量;供给内容存储部,用于存储各个供给内容以及对应的供给内容向量;当前需求矩阵获取部,用于获取当前的用户需求并形成对应的当前需求矩阵;供给预定向量获取部,用于根据当前的用户需求以及该用户的用户信息获取一个供给预定向量;推荐结果获取部,用于计算供给内容存储部中各个供给内容向量与供给预定向量之间的相似度,并将相似度按照从高到低进行排序,然后获取排在前列的预定个数的供给内容向量所对应的供给内容作为待输出的供给内容;输出部,用于对待输出的供给内容进行输出,其中,供给预定向量获取部含有一个双向语义特征匹配模型,该双向语义特征匹配模型采用如下方法获得:步骤S1,根据供给内容建立含有供给属性的供给信息模型,并基于该供给信息模型为所有的供给内容标注属性标签从而形成对应的供给信息向量;步骤S2,根据用户信息建立用户信息模型,并基于该用户信息模型为所有的用户信息标注属性标签从而形成对应的用户信息向量;步骤S3,分别对用户需求以及供给内容进行自然语言分析,从而分别提取预定数量的用户需求的关键词以及供给内容的关键词;步骤S4,根据用户信息向量、用户需求的关键词、供给信息模型以及供给内容的关键词建立神经网络模型;步骤S5,对步骤S4建立的神经网络模型进行训练,得到训练好的神经网络模型作为双向语义特征匹配模型,步骤S4包括如下步骤:步骤S4-1,将用户信息向量以及提取出的用户需求的关键词融合形成用户需求矩阵;步骤S4-2,将供给信息模型以及提取出的供给内容的关键词融合形成供给内容矩阵;步骤S4-3,基于用户需求矩阵和供给内容矩阵的数据结构建立能够进行特征向量提取神经网络模型作为神经网络模型。
发明作用与效果
根据本发明提供的基于神经网络的双向语义特征匹配方法以及供给内容推荐装置,由于供给内容向量根据含有供给属性的供给信息模型和自然语言分析提取得到的供给内容的关键词形成,用户需求矩阵融合了用户信息向量以及自然语言分析提取得到的用户需求的关键词,因此不仅分析了需求和供给内容的语义,让二者匹配更精确,还充分考虑了用户的个性化信息,使供给内容更准确地适合用户的客观情况。所以,本实施例的方法及供给内容推荐装置特别适合在搜索和推荐服务中使用。进一步,使用本方法,可以顾及到每个用户不同的个性需求,解决了机械统计、排序等手段带来的模糊、答非所问等问题,能够做到针对需求及内容的精准匹配。
附图说明
图1是本发明实施例双向语义特征匹配方法实施过程的流程图。
图2是本发明实施例案例中双向语义特征匹配模型的工作原理示意图。
图3是本发明实施例的供给内容推荐装置的构成框图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明进行阐述。
本实施例实现的平台,操作系统为ubuntu16.04,使用Python 3.7语言实现,神经网络框架使用pytorch 1.3版本,CUDA版本为10.0,计算加速单元使用NVIDIA 1080Ti GPU。
本实施例所描述的案例为在线政务平台中的一个服务项。出于对隐私信息的保护,本实施例描述不出现真实数据,仅就工作原理做必要说明。具体地,该服务项的用户是普通市民,供给内容为以文本形式呈现的政务相关文件,包括政策、政府通知、办理办法、法律法规等。服务项的目的是对用户提出或搜索的问题做精准的内容回复,即当用户提出问题(撰写文字形式的问题描述)或搜索问题(在搜索栏内输入需要搜索的内容)时,给与能够回答用户问题或匹配用户搜索内容的政务相关文件。
本实施例的双向语义特征匹配方法中,首先根据上述服务项已有的内容进行预先处理,包括:
选取73个用户属性,如性别、年龄、籍贯、住址、职业、婚姻状况等,并获得各个用户的用户属性的具体属性内容,其集合构成了用户信息。
选取17个供给属性(即供给内容的属性),如发表时间、地域范围、学科领域、体裁性质等,并获得各个供给内容的供给属性的具体属性内容。
根据初期的供给内容数据集(系统建立时已有的政务相关文件所构成的数据集),筛选出336个关键词,对每个关键词做词嵌入处理,为保证短期内的可扩展性,词嵌入的维度定为500。
图1是本发明实施例双向语义特征匹配方法实施过程的流程图。
如图1所示,本实施例的基于神经网络的双向语义特征匹配方法实施过程包括如下步骤:
步骤S1,根据供给内容的信息结构特点建立含有供给属性的供给信息模型,并基于该供给信息模型为所有的供给内容标注属性标签从而形成对应的供给信息向量,具体操作如下。
根据本发明的方法所应用的具体业务场景,从不同领域、不同角度为供给内容定义供给属性。每种属性为预先定义,采用枚举的形式列出供给内容的多个供给属性,并为各个供给内容的供给属性打上one-hot向量形式的标签。也就是说,本发明的供给信息模型的形式是以one-hot向量表示各个供给内容的不同供给属性,相当于对供给内容进行了一种分类。另外,以前述供给信息模型为某一具体的供给内容进行描述时,实际形式是该供给内容的完整多标签集合。
以本实施例的案例为例,上述操作过程为:选取17个供给属性,如发表时间、地域范围、学科领域、体裁性质等,然后为每个供给内容的17个属性打上准确的标签,其中,标签使用one-hot向量的形式。
步骤S2,根据用户信息的信息结构特点建立用户信息模型,并基于该用户信息模型为所有的用户信息标注属性标签从而形成对应的用户信息向量,具体操作如下。
先对用户信息进行相关性筛选,保留全部与业务场景相关的信息属性。本发明的方法的应用场景中,用户信息一般为结构化数据,包含用户各方面的信息,这些信息也具有不同的属性,即用户属性。对于内容可穷举的用户属性,直接进行one-hot编码从而以one-hot形式表示;对于内容不可穷举的用户属性,根据该用户属性可能的内容,进行人为定义,将内容划分为多个内容范围,使其能够穷举(即对应到相应的内容范围),再进行one-hot编码从而以one-hot形式表示。每一种信息或属性均可视作用户的一种分类方式。使用用户信息模型对用户进行描述,即该用户的完整多标签集合。
以本实施例的案例为例,由于用户的性别、年龄、籍贯、住址、职业、婚姻状况等用户属性的具体内容都是可以穷举的,因此可以直接为所有的用户信息标注多类标签,即给每个用户的73个用户属性打上准确的标签,同样的,这里的标签使用one-hot向量的形式。
步骤S3,分别对用户需求以及供给内容进行自然语言分析(即NLP分析),从而分别提取预定数量的用户需求关键词以及供给内容关键词。其中,用户需求就是用户所撰写的文字形式的问题描述或在搜索栏内输入的搜索内容,该用户需求与供给内容均为文本形式。提取用户需求或供给内容的文本中的关键词时,可以根据具体的文本特点选择适当的不同方法。同时,用户需求的关键词以及供给内容的关键词均分别控制在预定的数量。
本实施例的案例中,对于供给侧来说,由于供给内容包含了所有的政务相关文件,其文本的文字量较大,所采用的关键词提取方法是提取TF-IDF特征,使用了XGBoost算法;对于用户侧来说,由于其需求内容文字量较少,关键词从提问和搜索的语句中来,关键词提取使用了Bi-LSTM算法。提取时关键词可设置最大数量,即,用户需求的关键词最多保留5个,供给内容的关键词最多保留15个。当然,实际提取后也可能出现数量少于该最大数量的情况。
在其他案例中,也可以根据供给内容的文字量、用户需求内容的文字量选择其他合适的关键词提取算法。
本实施例案例中的XGBoost算法和Bi-LSTM算法均为基于机器学习的算法,因此需要进行提取算法模型的训练。XGBoost算法训练时所用的训练数据集为以往的用户需求的集合(即以往用户所输入的问题描述和搜索内容,这里的搜索内容视为一般文本,而不视为搜索词),Bi-LSTM算法训练时所用的训练数据集为全部的供给内容(即政务相关文件的文本的集合)。
另外,本发明的方法有可能应用在基于关键词搜索进行语音特征匹配的业务场景中。例如,用户搜索时仅输入几个搜索词,此时,由于这几个搜索词就相当于关键词,因此不需要对用户需求进行NLP分析。一些业务场景中,基于关键词的搜索、一般文本搜索以及问题描述有可能混合使用,此时,对一般文本搜索和问题描述的用户需求建立NLP分析的算法模型并进行训练,对搜索词则直接作为关键词即可。
步骤S4,根据用户信息向量、用户需求的关键词、供给信息模型以及供给内容的关键词建立神经网络模型。具体过程为:
步骤S4-1,将用户信息向量以及提取出的用户需求的关键词融合形成用户需求矩阵;
步骤S4-2,将供给信息模型以及提取出的供给内容的关键词融合形成供给内容矩阵;
步骤S4-3,基于用户需求矩阵和供给内容矩阵的数据结构建立能够进行特征向量提取的神经网络模型。
本实施例案例的步骤S3中,用户需求所提取的关键词最多5个,供给内容所提取的关键词最多15个,实际上会有比这个数量少的情况。
对于用户侧来说,已有73个属性数据,再加上提取得到的5个关键词,共78个向量。由于词嵌入空间维度设置为500,可确定来源于用户需求侧的数据结构为78×500的用户需求矩阵。
供给内容有17个供给属性,加上提取得到的15个关键词,共32个数据。供给侧提供的数据作为标签,但记录形式不能以稀疏矩阵的形式记载进标签文件里,可以简化为一个32维的向量,即供给内容向量。这个供给内容向量对应的是一个32×500的供给内容矩阵,其中的行向量均是one-hot向量的形式。
根据以上用户需求矩阵以及供给内容矩阵的数据结构特点,建立一个用于进行回归计算的神经网络模型,该神经网络模型的具体结构如下表所示:
表1本发明实施例案例所用的神经网络模型的结构
Figure BDA0002397203500000121
Figure BDA0002397203500000131
参见上表1,首先,神经网络模型的input数据78×500矩阵整理为1×78×500形状的tensor(对应于用户需求矩阵),此时tensor的通道数为500。做3次1×1卷积之后,tensor形状不变,转置第2、3维度,成为1×500×78形状的tensor;再做两次1×1的卷积,通道数由78变为32;再度tensor的维度,成为32×500×1形状的tensor。最终输出的数据形状为32×500(对应于供给内容矩阵)。
步骤S5,对步骤S4建立的神经网络模型进行训练,得到训练好的神经网络模型作为双向语义特征匹配模型,具体过程如下。
步骤S5-1,构建训练数据集。
本实施例的案例中,首先选取一个具体用户并选定该用户的一个用户需求,然后根据用户的实际情况分析对用户需求进行分析,从而在供给内容中查找语义、语境完全匹配的项。其中,具体用户和用户需求均可以基于在线政务平台服务项的以往数据获取,查找过程可以人工进行,也可以用人工结合已有的查找/检索或匹配方法进行。
针对具体用户的一个用户需求,查找得到的供给内容可能不止一项,例如找到n条匹配的供给内容。查找结束后,将该用户的用户属性与前述选定的用户需求按照步骤S3的方式形成用户需求矩阵,与之匹配的n个供给内容分别按照步骤S3的方式形成n个供给内容矩阵,并将用户需求矩阵与n个供给内容矩阵一一对应从而形成n条训练数据录入训练数据集。数据集保存格式符合步骤S4的神经网络模型的结构要求。
步骤S5-2,采用步骤S5-1得到的训练数据集对步骤S4中建立的神经网络模型进行训练,得到双向语义特征匹配模型。
本实施例的案例以用户均具有用户信息(即用户均填写了相关信息)为前提进行。但在一些其他业务场景中,可能收集不到用户信息,这种情况下将用户信息模型数据设为空,再进行训练即可。相应地,训练完成的双向语义特征匹配模型在使用时,用户信息模型数据需同样设置为空。
步骤S6,根据用户新输入的用户需求,采用双向语义特征匹配模型进行供给内容的匹配。
图2是本发明实施例案例中双向语义特征匹配模型的工作原理示意图。
如图2所示,双向语义特征匹配模型构建完成以后,即可基于用户需求进行供给内容的匹配,基于该匹配还可以进行供给内容的推荐。
上述供给内容推荐的主要过程包括:获取用户信息向量、获取用户需求;对用户需求进行语义分析提取关键词;基于用户信息向量和用户需求的关键词进行融合得到用户需求向量;通过双向语义特征匹配模型获得与该用户需求向量对应的特征向量作为供给预定向量;基于供给内容的供给属性以及该供给内容进行语义分析提取到的关键词获取供给内容向量;基于供给内容向量与供给预定向量的相似度进行供给内容推荐。
也就是说,基于上述构建过程可以进行供给内容推荐,即,可以建立一种供给内容推荐装置。以下结合附图说明本发明基于上述过程所建立的供给内容推荐装置的构成以及工作过程。
图3是本发明实施例的供给内容推荐装置的构成框图。
如图3所示,供给内容推荐装置100包括用户信息存储部1、供给内容存储部2、当前需求向量获取部3、供给预定向量获取部4、推荐结果获取部5、输出部6以及控制部7。
用户信息存储部1用于存储各个用户的用户信息以及对应的用户信息向量。其中,用户信息向量为步骤S2中获取的用户信息向量。
供给内容存储部2用于存储各个供给内容以及对应的供给内容向量。其中,供给内容向量为基于供给信息模型和供给内容关键词形成的向量,即步骤S4中所形成的32维向量。
另外,本实施例中,供给内容存储部2还包含一个供给向量形成单元,一旦新供给内容产生(例如新发布了政府通知)并被存储至数据库中,则控制部7控制供给向量形成单元按照步骤S1获取新供给内容的供给信息向量,按照步骤S3提取新供给内容的关键词,并将供给信息向量和提取得到的关键词形成对应的32维向量,让供给内容存储部2将其作为供给内容向量与新供给内容进行对应存储。
当前需求矩阵获取部3用于获取当前的用户需求并形成对应的当前需求矩阵。例如,用户通过用户终端(例如计算机或手机)访问在线政务平台时,输入了文字形式的问题描述或在搜索栏内输入了需要搜索的文字形式的内容,该输入的内容就是当前的用户需求。获取该用户需求后,当前需求矩阵获取部3进一步提取该用户需求的关键词,并与对应的用户信息向量融合而形成对应的当前需求矩阵。
其中,当前用户需求的关键词提取所用的NLP分析方法与步骤S3中用户需求关键词提取相同,当前需求矩阵的形成过程与步骤S4中的用户需求矩阵的形成过程相同,在此不再赘述。
供给预定向量获取部4用于根据当前的用户需求以及该用户的用户信息获取一个供给预定向量。
供给预定向量获取部4含有上述步骤S5所获得的双向语义特征匹配模型。将当前需求矩阵输入该双向语义特征匹配模型,即可得到一个32×500的矩阵。该矩阵的形式与供给内容向量相同,其作为供给预定向量,代表了最符合当前用户需求的供给内容,但这样的供给内容有可能是不存在的。
推荐结果获取部5用于计算供给内容存储部2中各个供给内容向量与供给预定向量之间的相似度,并将相似度按照从高到低进行排序,然后获取排在前列的预定个数的供给内容向量所对应的供给内容,作为待输出的供给内容。其中,相似度运算可以使用但不局限于计算欧氏距离。
输出部6用于对待输出的供给内容进行输出。例如,将对应的各个供给内容发送给用户终端。
控制部7用于对上述各部的工作进行控制。
实施例作用与效果
根据本实施例提供的基于神经网络的双向语义特征匹配方法,由于供给内容向量根据含有供给属性的供给信息模型和NLP分析提取得到的供给内容的关键词形成,用户需求矩阵融合了用户信息向量以及NLP分析提取得到的用户需求的关键词,因此不仅分析了需求和供给内容的语义,让二者匹配更精确,还充分考虑了用户的个性化信息,使供给内容更准确地适合用户的客观情况。所以,本实施例的方法及供给内容推荐装置特别适合在搜索和推荐服务中使用。
本实施例中,由于特征向量提取神经网络模型基于用户需求矩阵和供给内容矩阵(即供给内容向量)建立,因此其结构适合二者分别作为输入输出。这种情况下,由于将供给内容向量作为双向语义特征匹配模型的输出,不仅大大简化了内容或关键字的搜索运算,且向量运算更适合在加速计算单元上做并行计算。本实施例的方法不仅在精度上有大幅提高,更在计算效率上做了独到的改进。
实施例中,对于内容可穷举的用户属性直接进行one-hot编码,对于不可穷举的则先人为定义划分范围,然后再进行one-hot编码,由此,无论是何种类型的用户属性都适用,应用范围更广。
实施例中,供给内容的关键词以及用户需求的关键词均设有关键词提取的最大数量,供给内容的关键词的最大数量为大于用户需求的关键词的最大数量,其能够符合通常情况下供给内容文字量大于用户需求的特点,既能够保证关键词提取的准确性,又能够减小运算量。

Claims (8)

1.一种基于深度神经网络的双向语义特征匹配方法,其特征在于,根据用户信息以及用户需求匹配供给内容,包括如下步骤:
步骤S1,根据所述供给内容建立含有供给属性的供给信息模型,并基于该供给信息模型为所有的所述供给内容标注属性标签从而形成对应的供给信息向量;
步骤S2,根据所述用户信息建立用户信息模型,并基于该用户信息模型为所有的所述用户信息标注属性标签从而形成对应的用户信息向量;
步骤S3,分别对所述用户需求以及所述供给内容进行自然语言分析,从而分别提取预定数量的所述用户需求的关键词以及所述供给内容的关键词;
步骤S4,根据用户信息向量、用户需求的关键词、供给信息模型以及供给内容的关键词建立神经网络模型;
步骤S5,对步骤S4建立的所述神经网络模型进行训练,得到训练好的所述神经网络模型作为双向语义特征匹配模型;
步骤S6,根据用户新输入的用户需求,采用所述双向语义特征匹配模型进行所述供给内容的匹配,
其中,步骤S4包括如下步骤:
步骤S4-1,将所述用户信息向量以及提取出的所述用户需求的所述关键词融合形成用户需求矩阵;
步骤S4-2,将所述供给信息模型以及提取出的所述供给内容的所述关键词融合形成供给内容矩阵;
步骤S4-3,基于所述用户需求矩阵和所述供给内容矩阵的数据结构建立能够进行特征向量提取神经网络模型作为所述神经网络模型。
2.根据权利要求1所述的基于深度神经网络的双向语义特征匹配方法,其特征在于:
其中,所述供给信息模型的形式是以one-hot向量表示各个所述供给内容的不同供给属性。
3.根据权利要求1所述的基于深度神经网络的双向语义特征匹配方法,其特征在于:
其中,所述用户信息具有不同的用户属性,
所述用户属性包括内容可穷举的用户属性以及内容不可穷举的用户属性,
步骤S2中,对于内容可穷举的所述用户属性,直接进行one-hot编码从而以one-hot形式表示;对于内容不可穷举的用户属性,根据该用户属性的内容进行人为定义从而划分为多个内容范围,再进行one-hot编码从而以one-hot形式表示。
4.根据权利要求1所述的基于深度神经网络的双向语义特征匹配方法,其特征在于:
其中,步骤S3中,所述供给内容的关键词提取采用XGBoost算法,所述用户需求的关键词提取采用Bi-LSTM算法。
5.根据权利要求1或4所述的基于深度神经网络的双向语义特征匹配方法,其特征在于:
其中,步骤S3中,所述供给内容的关键词以及所述用户需求的关键词均设有提取的最大数量,
所述供给内容的关键词的所述最大数量为大于所述用户需求的关键词的所述最大数量。
6.根据权利要求1所述的基于深度神经网络的双向语义特征匹配方法,其特征在于:
其中,步骤S5包括如下步骤:
步骤S5-1,构建训练数据集;
步骤S5-2,采用步骤S5-1得到的所述训练数据集对步骤S4中建立的所述特征向量提取神经网络模型进行训练,得到所述双向语义特征匹配模型。
7.根据权利要求6所述的基于深度神经网络的双向语义特征匹配方法,其特征在于:
其中,步骤S5-1的过程为:
先选取一个具体的所述用户并选定该用户的一个用户需求,然后根据所述用户的实际情况分析对所述用户需求进行分析,从而在所述供给内容中查找语义、语境完全匹配的n个供给内容,然后将所述用户的所述用户属性与选定的所述用户需求形成所述用户需求矩阵,将所述n个供给内容分别形成n个供给内容矩阵,并将所述用户需求矩阵与所述n个供给内容矩阵一一对应从而形成n条训练数据录入所述训练数据集。
8.一种供给内容推荐装置,其特征在于,根据用户信息以及用户需求匹配供给内容,包括:
用户信息存储部,用于存储各个用户的用户信息以及对应的用户信息向量;
供给内容存储部,用于存储各个所述供给内容以及对应的供给内容向量;
当前需求矩阵获取部,用于获取当前的用户需求并形成对应的当前需求矩阵;
供给预定向量获取部,用于根据当前的用户需求以及该用户的用户信息获取一个供给预定向量;
推荐结果获取部,用于计算所述供给内容存储部中各个所述供给内容向量与所述供给预定向量之间的相似度,并将所述相似度按照从高到低进行排序,然后获取排在前列的预定个数的所述供给内容向量所对应的所述供给内容作为待输出的供给内容;
输出部,用于对待输出的供给内容进行输出,
其中,所述供给预定向量获取部含有一个双向语义特征匹配模型,该双向语义特征匹配模型采用如下方法获得:
步骤S1,根据所述供给内容建立供给信息模型,并基于该供给信息模型为所有的所述供给内容标注属性标签从而形成对应的供给信息向量;
步骤S2,根据所述用户信息建立用户信息模型,并基于该用户信息模型为所有的所述用户信息标注属性标签从而形成对应的用户信息向量;
步骤S3,分别对所述用户需求以及所述供给内容进行自然语言分析,从而分别提取预定数量的所述用户需求的关键词以及所述供给内容的关键词;
步骤S4,根据用户信息向量、用户需求的关键词、供给信息模型以及供给内容的关键词建立神经网络模型;
步骤S5,对步骤S4建立的所述神经网络模型进行训练,得到训练好的所述神经网络模型作为所述双向语义特征匹配模型,
步骤S4包括如下步骤:
步骤S4-1,将所述用户信息向量以及提取出的所述用户需求的所述关键词融合形成用户需求矩阵;
步骤S4-2,将所述供给信息模型以及提取出的所述供给内容的所述关键词融合形成供给内容矩阵;
步骤S4-3,基于所述用户需求矩阵和所述供给内容矩阵的数据结构建立能够进行特征向量提取神经网络模型作为所述神经网络模型。
CN202010135628.8A 2020-03-02 2020-03-02 双向语义特征匹配方法及供给内容推荐装置 Pending CN111368034A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010135628.8A CN111368034A (zh) 2020-03-02 2020-03-02 双向语义特征匹配方法及供给内容推荐装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010135628.8A CN111368034A (zh) 2020-03-02 2020-03-02 双向语义特征匹配方法及供给内容推荐装置

Publications (1)

Publication Number Publication Date
CN111368034A true CN111368034A (zh) 2020-07-03

Family

ID=71206520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010135628.8A Pending CN111368034A (zh) 2020-03-02 2020-03-02 双向语义特征匹配方法及供给内容推荐装置

Country Status (1)

Country Link
CN (1) CN111368034A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115994668A (zh) * 2023-02-16 2023-04-21 浙江非线数联科技股份有限公司 智慧社区资源管理系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271505A (zh) * 2018-11-12 2019-01-25 深圳智能思创科技有限公司 一种基于问题答案对的问答系统实现方法
CN109740077A (zh) * 2018-12-29 2019-05-10 北京百度网讯科技有限公司 基于语义索引的答案搜索方法、装置及其相关设备
CN110162700A (zh) * 2019-04-23 2019-08-23 腾讯科技(深圳)有限公司 信息推荐及模型的训练方法、装置、设备以及存储介质
CN110232152A (zh) * 2019-05-27 2019-09-13 腾讯科技(深圳)有限公司 内容推荐方法、装置、服务器以及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271505A (zh) * 2018-11-12 2019-01-25 深圳智能思创科技有限公司 一种基于问题答案对的问答系统实现方法
CN109740077A (zh) * 2018-12-29 2019-05-10 北京百度网讯科技有限公司 基于语义索引的答案搜索方法、装置及其相关设备
CN110162700A (zh) * 2019-04-23 2019-08-23 腾讯科技(深圳)有限公司 信息推荐及模型的训练方法、装置、设备以及存储介质
CN110232152A (zh) * 2019-05-27 2019-09-13 腾讯科技(深圳)有限公司 内容推荐方法、装置、服务器以及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115994668A (zh) * 2023-02-16 2023-04-21 浙江非线数联科技股份有限公司 智慧社区资源管理系统
CN115994668B (zh) * 2023-02-16 2023-06-20 浙江非线数联科技股份有限公司 智慧社区资源管理系统

Similar Documents

Publication Publication Date Title
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN112711937B (zh) 一种模板推荐方法、装置、设备及存储介质
CN110633373B (zh) 一种基于知识图谱和深度学习的汽车舆情分析方法
Kaushik et al. A comprehensive study of text mining approach
CN105608477B (zh) 一种人物画像与职位匹配的方法及系统
CN107578292B (zh) 一种用户画像构建系统
CN109871446A (zh) 意图识别中的拒识方法、电子装置及存储介质
CN111859160B (zh) 一种基于图神经网络会话序列推荐方法及系统
CN109766438A (zh) 简历信息提取方法、装置、计算机设备和存储介质
CN108874992A (zh) 舆情分析方法、系统、计算机设备和存储介质
CN112131472B (zh) 信息推荐方法、装置、电子设备和存储介质
CN111222305A (zh) 一种信息结构化方法和装置
CN110309114B (zh) 媒体信息的处理方法、装置、存储介质和电子装置
CN110968684A (zh) 一种信息处理方法、装置、设备及存储介质
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN112395410A (zh) 一种基于实体抽取的产业舆情推荐方法、装置及电子设备
CN108363748B (zh) 基于知乎的话题画像系统及话题画像方法
CN112148702B (zh) 一种文件检索的方法及设备
US20220358552A1 (en) Methods and systems for hair-service based digital image searching and ranking
CN112231563A (zh) 一种内容推荐方法、装置及存储介质
CN110909768B (zh) 一种标注数据获取方法及装置
CN115455151A (zh) 一种ai情绪可视化识别方法、系统及云平台
CN113868419B (zh) 基于人工智能的文本分类方法、装置、设备及介质
CN112579666A (zh) 智能问答系统和方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200703