发明内容
本发明的目的是提出一种主题知识图谱构建方法及装置,利用遗传算法、向量空间模型和多维尺度分析构建用户的知识图谱,以提高用户知识图谱画像构建准确率和组织效率。
为了实现上述目的,本申请技术方案如下:
一种主题知识图谱构建方法,包括:
收集用户相关数据信息,构建语料库,将语料库中的每一个词记做一个用户特征,通过线性判别分析提取主题;
采用遗传算法,以每个染色体代表一个主题选择,基于向量空间模型计算主题与用户特征之间的合适度,构建用户知识结构;
采用多维定标法将用户知识结构变换为坐标矩阵,利用遗传算法对变换坐标矩阵进行加权处理,得到每个坐标矩阵中各主题对应权重,计算各个用户知识结构之间的亲疏关系,构建知识图谱。
进一步的,所述基于向量空间模型计算主题与用户特征之间的合适度,其合适度目标函数如下:
其中
用来检测主题与用户特征之间的相似度,
是主题o
i的向量,
是用户特征q
j的向量,
是向量
的欧氏模,
是向量
的欧氏模;
χ2用来检测主题之间的独立卡方值,其中oih表示第i个主题oi与第h个用户之间观察到的关联频率,eih表示第i个主题oi与第h个用户之间的期望关联频率,I表示所观察到的总主题数,H表示总用户数。
进一步的,所述采用遗传算法,以每个染色体代表一个主题选择,基于向量空间模型计算主题与用户特征之间的合适度,构建用户知识结构,其中,遗传算法对交叉概率做自适应更新,其中交叉概率P计算公式如下:
公式中i代表当前迭代次数,N为预设的迭代次数,p为原始给定交叉概率,e为自然常数。
进一步的,所述采用遗传算法,以每个染色体代表一个主题选择,基于向量空间模型计算主题与用户特征之间的合适度,构建用户知识结构,其中,遗传算法对变异概率做自适应更新,其中变异概率Q的计算公式为:
其中i代表当前迭代次数,N为预设的迭代次数,q为原始给定变异概率,e为自然常数。
进一步的,所述采用多维定标法将用户知识结构变换为坐标矩阵,利用遗传算法对变换坐标矩阵进行加权处理,得到每个坐标矩阵中各主题对应权重,计算各个用户知识结构之间的亲疏关系,构建知识图谱,包括:
通过多维标定法将M个用户的用户知识结构变换为坐标矩阵X=[x1,x2,...,xk]M,其中X是一个K*M阶矩阵,表示K个主题的M维坐标;
利用遗传算法对变换坐标矩阵进行加权处理,将每个用户的坐标矩阵作为输入,利用如下适应度函数进行迭代:
其中K为用户知识结构中的总主题数,pk为第k个主题属于该用户的概率,重复迭代不断调整权重大小,直至将遗传算法执行到满足终止准则为止,迭代后可得到每个用户坐标矩阵中各主题对应权重W=[w1,w2,...,wK]T;
再利用如下公式对不同用户之间的亲疏关系进行计算,完善知识图谱中不同用户之间的关系链:
其中duv表示用户u与用户v的距离亲疏,k表示第k个主题,wuk表示用户u的第k个主题对应权重,xuk表示用户u的第k个主题对应坐标值。
本申请还提出了一种主题知识图谱构建装置,包括处理器以及存储有若干计算机指令的非易失性存储器,其特征在于,所述计算机指令被处理器执行时实现上述一种主题知识图谱构建的步骤。
本申请提出的一种主题知识图谱构建方法及装置,利用遗传算法、向量空间模型和多维尺度分析构建用户的知识图谱,实现了对用户信息的有效利用。在主题知识图中,以主要主题及其相关方法为对象,主要探究用户特征、主题、行为频次之间的关系,有效帮助理解空间中用户对象之间的复杂关系。实现了用户海量信息的相关整合,可视化程度高,可解释性好,能够帮助相关领域企业增强沟通和共享公共实践,提高组织效率。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请的总体思路是提出一种主题知识图谱构建方法,确保能够有效地解决传统方法中用户信息利用率不高,由高维数据造成的知识图谱构建准确率低下和可解释性差问题。
本申请的一个实施例,如图1、图2所示,一种主题知识图谱构建方法,包括:
步骤S1、收集用户相关数据信息,构建语料库,将语料库中的每一个词记做一个用户特征,通过线性判别分析提取主题。
本实施例中,企业数据库中包含的自有数据,包括用户个人信息、业务数据和用户行为数据等。还可以从合作方处获得数据,或通过网络爬虫爬取到的互联网上用户相关数据信息。本申请从相关领域获取用户数据信息,不限于具体的获取方法。
在收集了各种用户相关数据信息后,以用户身份证ID为索引构建数据集,利用词袋模型对数据集进行统计形成语料库,并将语料库中每一个词记做一个用户特征,同时通过线性判别分析(Linear Discriminant Analysis,简称LDA)算法对语料库中的数据进行主题提取。
例如,收集的用户相关数据信息如下:身份证ID、姓名、性别、年龄、职业、教育状况、家庭构成、爱好等。
根据上述数据信息,以用户身份证ID为索引构建数据集,由于数据集多为非结构化数据,故收集到的数据很可能是如下一段文字:姓名是张三,有一个哥哥和一个妹妹,他爱运动。
利用词袋模型对数据集中的非结构化数据进行分词处理,并过滤掉如一些如:的,是,他,嗯等无意义词,可以得到语料库:{姓名,张三,一个,哥哥,妹妹,爱,运动}。
将语料库集合中每一个词记做一个用户特征,同时通过LDA算法对语料库中的数据进行主题提取,如对上述文字提取的主题可能为身份、亲属关系、爱好,同时统计所提取主题与用户之间相关联的概率。
步骤S2、采用遗传算法,以每个染色体代表一个主题选择,基于向量空间模型计算主题与用户特征之间的合适度,构建用户知识结构。
本申请采用遗传算法(GA),初始化染色体中主题数量,并对主题进行选择,第一代主题选择是随机初始化的,以每个染色体代表一个主题选择。染色体中一个基因的值可以是1或0,如果选定一个主题,其对应基因值为1。
本申请利用合适度函数用于遗传算法来搜索具有代表性的由多个主题组成的主题选择,即构建成知识结构。在遗传算法中,将步骤S1得到的主题与用户特征词作为参数输入到遗传算法中,并对交叉和变异概率做自适应更新。
其中本实施例交叉概率P计算公式如下:
公式中i代表当前迭代次数,N为预设的迭代次数,本实施例N取50,p为原始给定交叉概率,本实施例等于0.6,e为自然常数。
本实施例变异概率Q的计算公式为:
其中i代表当前迭代次数,N取50,q为原始给定变异概率,在一个实施例中,q等于0.09。
需要说明的是,遗传算法中交叉概率P和变异概率Q也可以采用设定的数值进行计算,这里不再赘述。本申请自适应更新上述交叉概率P和变异概率Q能够有效避免遗传算法在迭代时陷入局部最优,提高了算法的普适度与运行效率。
本申请基于向量空间模型(VSM)计算主题与用户特征之间的合适度,本申请采用的是多目标遗传算法,在标准遗传算法基础上引入相似度和独立性判断,具体适应度目标函数设置如下:
其中
用来检测主题与用户特征之间的相似度,
是主题o
i的向量,
是用户特征q
j的向量,
是向量
的欧氏模,
是向量
的欧氏模。
为空间向量的夹角计算公式。当
接近1时相似度较高,染色体被选择的几率较大,
接近0时相似度较低,染色体被选择的几率较小。
χ2用来检测主题之间的独立卡方值,其中oih表示第i个主题oi与第h个用户之间观察到的关联频率,eih表示第i个主题oi与第h个用户之间的期望关联频率,I表示所观察到的总主题数,H表示总用户数。oih由上文LDA算法可得。
如步骤1中张三形成的用户特征为[哥哥,妹妹,运动],提取的主题为[爱好,亲属关系],通过计算主题与用户特征之间的关系易得运动和爱好的相似度是较高的,而哥哥妹妹与亲属关系之间的相似度较高,且各主题间相互独立,互不影响,使得结果准确度较高。
不同于传统遗传算法,为了减少算法在执行过程中存在优秀染色体和较差染色体结合而降低优秀染色体性能的可能,在传统遗传算法基础上进行了改进处理。根据适应度的值引将染色体分为适应度高的良性组和适应度较差的恶性组两类,使之各占总染色体数量的1/2,对于良性组和恶性组采取不同的遗传策略。由于良性组中存在较好的适应性因此对其采取交叉操作,自适应交叉概率公式如上,帮助其产生更好的后代。而对于恶性组虽然其适应度较低但并不将其直接遗弃,而是进行变异操作以保留种群多样性,变异概率公式如上,在交叉和变异完成后重新评估适应度。通过适应度函数计算将良性组中适应度低的染色体迁移到恶性组中,恶性组中适应度高的染色体也可以迁移至良性组中。
重复迭代以上操作将遗传算法执行到满足终止准则为止,本发明设置最大遗传代数为50,当迭代次数达到最大或函数趋于收敛时完成迭代。将迭代完成后的主题保留下来,形成用户知识结构,保留的主题总数记为K。
结合上面的实施例,本申请可以得到用户知识结构,例如最终可以得到诸如爱好、亲属关系、工作单位等一些主题词,作为最优主题选择。
步骤S3、采用多维定标法将用户知识结构变换为坐标矩阵,利用遗传算法对变换坐标矩阵进行加权处理,得到每个坐标矩阵中各主题对应权重,计算各个用户知识结构之间的亲疏关系,构建知识图谱。
本实施例知识图谱,在构造过程中,在构造过程中,将遗传算法和多维定标法(MDS)相结合,生成主题知识图谱。首先通过MDS对变换坐标矩阵的用户知识结构进行初始化,接着利用遗传算法计算各主题权重,用以识别用户知识结构并表示用户知识结构之间的关系,其中每个用户知识结构代表一个变换坐标矩阵。
本申请通过多维标定法将M个用户的用户知识结构变换为坐标矩阵X=[x1,x2,...,xK]M,其中X是一个K*M阶矩阵,表示K个主题的M维坐标。
具体的,将用户知识结构表示为[x1,x2,...,xK],x1,x2,...,xK为上一步骤得到的主题,K为主题数量。将M个用户的知识结构通过多维定标法(MDS)表示为X=[x1,x2,...,xK]M,其中X是一个K*M阶矩阵,表示K个主题的M维坐标,x1,x2,...,xk为上一步骤得到的主题,M为用户数量。
更进一步利用遗传算法对变换坐标矩阵进行加权处理,将每个用户的坐标矩阵作为输入,设置交叉概率为0.7,变异概率为0.1,适应度函数公式如下:
其中K为用户知识结构中的总主题数,pk为第k个主题属于该用户的概率。重复迭代以上操作不断调整权重大小,直至将遗传算法执行到满足终止准则为止,本发明设置最大遗传代数为20,迭代后可得到每个用户坐标矩阵中各主题对应权重W=[w1,w2,...,wK]T。
利用如下公式对不同用户知识结构之间的亲疏关系进行计算,完善知识图谱中不同用户之间的关系链。
其中duv表示用户u与用户v的距离亲疏,k表示第k个主题,wuk表示用户u的第k个主题对应权重,xuk表示用户u的第k个主题对应坐标值。即用户u的第k个主题对应用户u的坐标矩阵中的坐标值。
例如,对于一些用户,他们的爱好相差很多,那么这一主题对应距离就较远,有理由猜测在知识图谱中的亲疏关系也较远。最后采用上述计算的到的亲疏关系表示用户知识结构之间的关系,构建知识图谱。
以上所描述的系统实施案例仅仅是示意性的,其中所述作为分离模块说明的单元可以是或者也可以不是物理上分开的,作为单元显示的模块可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个子系统上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
在一个实施例中,还提供了一种主题知识图谱构建装置,包括处理器以及存储有若干计算机指令的非易失性存储器,所述计算机指令被处理器执行时实现上述一种主题知识图谱构建的步骤。
关于主题知识图谱构建装置的具体限定可以参见上文中对于主题知识图谱构建方法的限定,在此不再赘述。
存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件互相之间可以通过一条或多条通讯总线或信号线实现电性连接。存储器中存储有可在处理器上运行的计算机程序,所述处理器通过运行存储在存储器内的计算机程序,从而实现本发明实施例中的网络拓扑布局方法。
其中,所述存储器可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器用于存储程序,所述处理器在接收到执行指令后,执行所述程序。
所述处理器可能是一种集成电路芯片,具有数据的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等。可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。