CN112765367A - 一种主题知识图谱构建方法及装置 - Google Patents

一种主题知识图谱构建方法及装置 Download PDF

Info

Publication number
CN112765367A
CN112765367A CN202110117684.3A CN202110117684A CN112765367A CN 112765367 A CN112765367 A CN 112765367A CN 202110117684 A CN202110117684 A CN 202110117684A CN 112765367 A CN112765367 A CN 112765367A
Authority
CN
China
Prior art keywords
user
theme
knowledge
topic
genetic algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110117684.3A
Other languages
English (en)
Other versions
CN112765367B (zh
Inventor
江有归
姜可平
周军
贾莉芳
江璐
陈春云
陈红军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Furun Digital Chain Technology Co Ltd
Hangzhou Adtime Technology Co ltd
Original Assignee
Zhejiang Furun Digital Chain Technology Co Ltd
Hangzhou Adtime Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Furun Digital Chain Technology Co Ltd, Hangzhou Adtime Technology Co ltd filed Critical Zhejiang Furun Digital Chain Technology Co Ltd
Priority to CN202110117684.3A priority Critical patent/CN112765367B/zh
Publication of CN112765367A publication Critical patent/CN112765367A/zh
Application granted granted Critical
Publication of CN112765367B publication Critical patent/CN112765367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Physiology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种主题知识图谱构建方法及装置,通过收集用户相关数据信息,构建语料库,将语料库中的每一个词记做一个用户特征,通过线性判别分析提取主题;然后采用遗传算法,以每个染色体代表一个主题选择,基于向量空间模型计算主题与用户特征之间的合适度,构建用户知识结构;最后采用多维定标法将用户知识结构变换为坐标矩阵,利用遗传算法对变换坐标矩阵进行加权处理,得到每个坐标矩阵中各主题对应权重,计算各个用户知识结构之间的亲疏关系,构建知识图谱。本发明有效帮助理解空间中用户对象之间的复杂关系,实现了用户海量信息的相关整合,可视化程度高,可解释性好,能够帮助相关领域企业增强沟通和共享公共实践,提高组织效率。

Description

一种主题知识图谱构建方法及装置
技术领域
本发明属于知识图谱技术领域,特别涉及一种主题知识图谱构建方法及装置,更具体的说,是提出了一种基于遗传算法和MDS的主题知识图谱构建方法。
背景技术
随着信息时代的快速发展,企业获得到的用户相关信息是巨大的,这使得企业获取用户知识变得困难和费时。知识图谱作为知识管理的一个重要子领域,它有助于描述在组织中什么、如何以及在哪里可以找到有用的知识。因此,构建知识图谱的重点是帮助企业从海量的用户信息数据库中获取到对其有用的相关用户知识。
目前,对知识图谱的研究还处于初级阶段,研究主要集中在网络分析、信息可视化和文本挖掘等几个方面。然而,目前涉及到用户特征主题的知识图谱较少,尤其是在具有大量特征维的大型数据集上。为了有效地构建符合用户特征主题的知识图谱,知识图谱必须在有效性高和可解释性之间寻求良好的平衡。目前传统算法中知识图谱有效率不高、模型可解释程度低。
发明内容
本发明的目的是提出一种主题知识图谱构建方法及装置,利用遗传算法、向量空间模型和多维尺度分析构建用户的知识图谱,以提高用户知识图谱画像构建准确率和组织效率。
为了实现上述目的,本申请技术方案如下:
一种主题知识图谱构建方法,包括:
收集用户相关数据信息,构建语料库,将语料库中的每一个词记做一个用户特征,通过线性判别分析提取主题;
采用遗传算法,以每个染色体代表一个主题选择,基于向量空间模型计算主题与用户特征之间的合适度,构建用户知识结构;
采用多维定标法将用户知识结构变换为坐标矩阵,利用遗传算法对变换坐标矩阵进行加权处理,得到每个坐标矩阵中各主题对应权重,计算各个用户知识结构之间的亲疏关系,构建知识图谱。
进一步的,所述基于向量空间模型计算主题与用户特征之间的合适度,其合适度目标函数如下:
Figure BDA0002921341040000021
Figure BDA0002921341040000022
其中
Figure BDA0002921341040000023
用来检测主题与用户特征之间的相似度,
Figure BDA0002921341040000024
是主题oi的向量,
Figure BDA0002921341040000025
是用户特征qj的向量,
Figure BDA0002921341040000026
是向量
Figure BDA0002921341040000027
的欧氏模,
Figure BDA0002921341040000028
是向量
Figure BDA0002921341040000029
的欧氏模;
χ2用来检测主题之间的独立卡方值,其中oih表示第i个主题oi与第h个用户之间观察到的关联频率,eih表示第i个主题oi与第h个用户之间的期望关联频率,I表示所观察到的总主题数,H表示总用户数。
进一步的,所述采用遗传算法,以每个染色体代表一个主题选择,基于向量空间模型计算主题与用户特征之间的合适度,构建用户知识结构,其中,遗传算法对交叉概率做自适应更新,其中交叉概率P计算公式如下:
Figure BDA00029213410400000210
公式中i代表当前迭代次数,N为预设的迭代次数,p为原始给定交叉概率,e为自然常数。
进一步的,所述采用遗传算法,以每个染色体代表一个主题选择,基于向量空间模型计算主题与用户特征之间的合适度,构建用户知识结构,其中,遗传算法对变异概率做自适应更新,其中变异概率Q的计算公式为:
Figure BDA00029213410400000211
其中i代表当前迭代次数,N为预设的迭代次数,q为原始给定变异概率,e为自然常数。
进一步的,所述采用多维定标法将用户知识结构变换为坐标矩阵,利用遗传算法对变换坐标矩阵进行加权处理,得到每个坐标矩阵中各主题对应权重,计算各个用户知识结构之间的亲疏关系,构建知识图谱,包括:
通过多维标定法将M个用户的用户知识结构变换为坐标矩阵X=[x1,x2,...,xk]M,其中X是一个K*M阶矩阵,表示K个主题的M维坐标;
利用遗传算法对变换坐标矩阵进行加权处理,将每个用户的坐标矩阵作为输入,利用如下适应度函数进行迭代:
Figure BDA0002921341040000031
其中K为用户知识结构中的总主题数,pk为第k个主题属于该用户的概率,重复迭代不断调整权重大小,直至将遗传算法执行到满足终止准则为止,迭代后可得到每个用户坐标矩阵中各主题对应权重W=[w1,w2,...,wK]T
再利用如下公式对不同用户之间的亲疏关系进行计算,完善知识图谱中不同用户之间的关系链:
Figure BDA0002921341040000032
其中duv表示用户u与用户v的距离亲疏,k表示第k个主题,wuk表示用户u的第k个主题对应权重,xuk表示用户u的第k个主题对应坐标值。
本申请还提出了一种主题知识图谱构建装置,包括处理器以及存储有若干计算机指令的非易失性存储器,其特征在于,所述计算机指令被处理器执行时实现上述一种主题知识图谱构建的步骤。
本申请提出的一种主题知识图谱构建方法及装置,利用遗传算法、向量空间模型和多维尺度分析构建用户的知识图谱,实现了对用户信息的有效利用。在主题知识图中,以主要主题及其相关方法为对象,主要探究用户特征、主题、行为频次之间的关系,有效帮助理解空间中用户对象之间的复杂关系。实现了用户海量信息的相关整合,可视化程度高,可解释性好,能够帮助相关领域企业增强沟通和共享公共实践,提高组织效率。
附图说明
图1为本发明主题知识图谱构建方法框图;
图2为本发明实施例主题知识图谱构建方法流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请的总体思路是提出一种主题知识图谱构建方法,确保能够有效地解决传统方法中用户信息利用率不高,由高维数据造成的知识图谱构建准确率低下和可解释性差问题。
本申请的一个实施例,如图1、图2所示,一种主题知识图谱构建方法,包括:
步骤S1、收集用户相关数据信息,构建语料库,将语料库中的每一个词记做一个用户特征,通过线性判别分析提取主题。
本实施例中,企业数据库中包含的自有数据,包括用户个人信息、业务数据和用户行为数据等。还可以从合作方处获得数据,或通过网络爬虫爬取到的互联网上用户相关数据信息。本申请从相关领域获取用户数据信息,不限于具体的获取方法。
在收集了各种用户相关数据信息后,以用户身份证ID为索引构建数据集,利用词袋模型对数据集进行统计形成语料库,并将语料库中每一个词记做一个用户特征,同时通过线性判别分析(Linear Discriminant Analysis,简称LDA)算法对语料库中的数据进行主题提取。
例如,收集的用户相关数据信息如下:身份证ID、姓名、性别、年龄、职业、教育状况、家庭构成、爱好等。
根据上述数据信息,以用户身份证ID为索引构建数据集,由于数据集多为非结构化数据,故收集到的数据很可能是如下一段文字:姓名是张三,有一个哥哥和一个妹妹,他爱运动。
利用词袋模型对数据集中的非结构化数据进行分词处理,并过滤掉如一些如:的,是,他,嗯等无意义词,可以得到语料库:{姓名,张三,一个,哥哥,妹妹,爱,运动}。
将语料库集合中每一个词记做一个用户特征,同时通过LDA算法对语料库中的数据进行主题提取,如对上述文字提取的主题可能为身份、亲属关系、爱好,同时统计所提取主题与用户之间相关联的概率。
步骤S2、采用遗传算法,以每个染色体代表一个主题选择,基于向量空间模型计算主题与用户特征之间的合适度,构建用户知识结构。
本申请采用遗传算法(GA),初始化染色体中主题数量,并对主题进行选择,第一代主题选择是随机初始化的,以每个染色体代表一个主题选择。染色体中一个基因的值可以是1或0,如果选定一个主题,其对应基因值为1。
本申请利用合适度函数用于遗传算法来搜索具有代表性的由多个主题组成的主题选择,即构建成知识结构。在遗传算法中,将步骤S1得到的主题与用户特征词作为参数输入到遗传算法中,并对交叉和变异概率做自适应更新。
其中本实施例交叉概率P计算公式如下:
Figure BDA0002921341040000051
公式中i代表当前迭代次数,N为预设的迭代次数,本实施例N取50,p为原始给定交叉概率,本实施例等于0.6,e为自然常数。
本实施例变异概率Q的计算公式为:
Figure BDA0002921341040000052
其中i代表当前迭代次数,N取50,q为原始给定变异概率,在一个实施例中,q等于0.09。
需要说明的是,遗传算法中交叉概率P和变异概率Q也可以采用设定的数值进行计算,这里不再赘述。本申请自适应更新上述交叉概率P和变异概率Q能够有效避免遗传算法在迭代时陷入局部最优,提高了算法的普适度与运行效率。
本申请基于向量空间模型(VSM)计算主题与用户特征之间的合适度,本申请采用的是多目标遗传算法,在标准遗传算法基础上引入相似度和独立性判断,具体适应度目标函数设置如下:
Figure BDA0002921341040000053
Figure BDA0002921341040000061
其中
Figure BDA0002921341040000062
用来检测主题与用户特征之间的相似度,
Figure BDA0002921341040000063
是主题oi的向量,
Figure BDA0002921341040000064
是用户特征qj的向量,
Figure BDA0002921341040000065
是向量
Figure BDA0002921341040000066
的欧氏模,
Figure BDA0002921341040000067
是向量
Figure BDA0002921341040000068
的欧氏模。
Figure BDA0002921341040000069
为空间向量的夹角计算公式。当
Figure BDA00029213410400000610
接近1时相似度较高,染色体被选择的几率较大,
Figure BDA00029213410400000611
接近0时相似度较低,染色体被选择的几率较小。
χ2用来检测主题之间的独立卡方值,其中oih表示第i个主题oi与第h个用户之间观察到的关联频率,eih表示第i个主题oi与第h个用户之间的期望关联频率,I表示所观察到的总主题数,H表示总用户数。oih由上文LDA算法可得。
如步骤1中张三形成的用户特征为[哥哥,妹妹,运动],提取的主题为[爱好,亲属关系],通过计算主题与用户特征之间的关系易得运动和爱好的相似度是较高的,而哥哥妹妹与亲属关系之间的相似度较高,且各主题间相互独立,互不影响,使得结果准确度较高。
不同于传统遗传算法,为了减少算法在执行过程中存在优秀染色体和较差染色体结合而降低优秀染色体性能的可能,在传统遗传算法基础上进行了改进处理。根据适应度的值引将染色体分为适应度高的良性组和适应度较差的恶性组两类,使之各占总染色体数量的1/2,对于良性组和恶性组采取不同的遗传策略。由于良性组中存在较好的适应性因此对其采取交叉操作,自适应交叉概率公式如上,帮助其产生更好的后代。而对于恶性组虽然其适应度较低但并不将其直接遗弃,而是进行变异操作以保留种群多样性,变异概率公式如上,在交叉和变异完成后重新评估适应度。通过适应度函数计算将良性组中适应度低的染色体迁移到恶性组中,恶性组中适应度高的染色体也可以迁移至良性组中。
重复迭代以上操作将遗传算法执行到满足终止准则为止,本发明设置最大遗传代数为50,当迭代次数达到最大或函数趋于收敛时完成迭代。将迭代完成后的主题保留下来,形成用户知识结构,保留的主题总数记为K。
结合上面的实施例,本申请可以得到用户知识结构,例如最终可以得到诸如爱好、亲属关系、工作单位等一些主题词,作为最优主题选择。
步骤S3、采用多维定标法将用户知识结构变换为坐标矩阵,利用遗传算法对变换坐标矩阵进行加权处理,得到每个坐标矩阵中各主题对应权重,计算各个用户知识结构之间的亲疏关系,构建知识图谱。
本实施例知识图谱,在构造过程中,在构造过程中,将遗传算法和多维定标法(MDS)相结合,生成主题知识图谱。首先通过MDS对变换坐标矩阵的用户知识结构进行初始化,接着利用遗传算法计算各主题权重,用以识别用户知识结构并表示用户知识结构之间的关系,其中每个用户知识结构代表一个变换坐标矩阵。
本申请通过多维标定法将M个用户的用户知识结构变换为坐标矩阵X=[x1,x2,...,xK]M,其中X是一个K*M阶矩阵,表示K个主题的M维坐标。
具体的,将用户知识结构表示为[x1,x2,...,xK],x1,x2,...,xK为上一步骤得到的主题,K为主题数量。将M个用户的知识结构通过多维定标法(MDS)表示为X=[x1,x2,...,xK]M,其中X是一个K*M阶矩阵,表示K个主题的M维坐标,x1,x2,...,xk为上一步骤得到的主题,M为用户数量。
更进一步利用遗传算法对变换坐标矩阵进行加权处理,将每个用户的坐标矩阵作为输入,设置交叉概率为0.7,变异概率为0.1,适应度函数公式如下:
Figure BDA0002921341040000071
其中K为用户知识结构中的总主题数,pk为第k个主题属于该用户的概率。重复迭代以上操作不断调整权重大小,直至将遗传算法执行到满足终止准则为止,本发明设置最大遗传代数为20,迭代后可得到每个用户坐标矩阵中各主题对应权重W=[w1,w2,...,wK]T
利用如下公式对不同用户知识结构之间的亲疏关系进行计算,完善知识图谱中不同用户之间的关系链。
Figure BDA0002921341040000072
其中duv表示用户u与用户v的距离亲疏,k表示第k个主题,wuk表示用户u的第k个主题对应权重,xuk表示用户u的第k个主题对应坐标值。即用户u的第k个主题对应用户u的坐标矩阵中的坐标值。
例如,对于一些用户,他们的爱好相差很多,那么这一主题对应距离就较远,有理由猜测在知识图谱中的亲疏关系也较远。最后采用上述计算的到的亲疏关系表示用户知识结构之间的关系,构建知识图谱。
以上所描述的系统实施案例仅仅是示意性的,其中所述作为分离模块说明的单元可以是或者也可以不是物理上分开的,作为单元显示的模块可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个子系统上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
在一个实施例中,还提供了一种主题知识图谱构建装置,包括处理器以及存储有若干计算机指令的非易失性存储器,所述计算机指令被处理器执行时实现上述一种主题知识图谱构建的步骤。
关于主题知识图谱构建装置的具体限定可以参见上文中对于主题知识图谱构建方法的限定,在此不再赘述。
存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件互相之间可以通过一条或多条通讯总线或信号线实现电性连接。存储器中存储有可在处理器上运行的计算机程序,所述处理器通过运行存储在存储器内的计算机程序,从而实现本发明实施例中的网络拓扑布局方法。
其中,所述存储器可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器用于存储程序,所述处理器在接收到执行指令后,执行所述程序。
所述处理器可能是一种集成电路芯片,具有数据的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等。可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种主题知识图谱构建方法,其特征在于,所述主题知识图谱构建方法,包括:
收集用户相关数据信息,构建语料库,将语料库中的每一个词记做一个用户特征,通过线性判别分析提取主题;
采用遗传算法,以每个染色体代表一个主题选择,基于向量空间模型计算主题与用户特征之间的合适度,构建用户知识结构;
采用多维定标法将用户知识结构变换为坐标矩阵,利用遗传算法对变换坐标矩阵进行加权处理,得到每个坐标矩阵中各主题对应权重,计算各个用户知识结构之间的亲疏关系,构建知识图谱。
2.根据权利要求1所述的主题知识图谱构建方法,其特征在于,所述基于向量空间模型计算主题与用户特征之间的合适度,其合适度目标函数如下:
Figure FDA0002921341030000011
Figure FDA0002921341030000012
其中
Figure FDA0002921341030000013
用来检测主题与用户特征之间的相似度,
Figure FDA0002921341030000014
是主题oi的向量,
Figure FDA0002921341030000015
是用户特征qj的向量,
Figure FDA0002921341030000016
是向量
Figure FDA0002921341030000017
的欧氏模,
Figure FDA0002921341030000018
是向量
Figure FDA0002921341030000019
的欧氏模;
χ2用来检测主题之间的独立卡方值,其中oih表示第i个主题oi与第h个用户之间观察到的关联频率,eih表示第i个主题oi与第h个用户之间的期望关联频率,I表示所观察到的总主题数,H表示总用户数。
3.根据权利要求1所述的主题知识图谱构建方法,其特征在于,所述采用遗传算法,以每个染色体代表一个主题选择,基于向量空间模型计算主题与用户特征之间的合适度,构建用户知识结构,其中遗传算法对交叉概率做自适应更新,其中交叉概率P计算公式如下:
Figure FDA00029213410300000110
公式中i代表当前迭代次数,N为预设的迭代次数,p为原始给定交叉概率,e为自然常数。
4.根据权利要求1所述的主题知识图谱构建方法,其特征在于,所述采用遗传算法,以每个染色体代表一个主题选择,基于向量空间模型计算主题与用户特征之间的合适度,构建用户知识结构,其中遗传算法对变异概率做自适应更新,其中变异概率Q的计算公式为:
Figure FDA0002921341030000021
其中i代表当前迭代次数,N为预设的迭代次数,q为原始给定变异概率,e为自然常数。
5.根据权利要求1所述的主题知识图谱构建方法,其特征在于,所述采用多维定标法将用户知识结构变换为坐标矩阵,利用遗传算法对变换坐标矩阵进行加权处理,得到每个坐标矩阵中各主题对应权重,计算各个用户知识结构之间的亲疏关系,构建知识图谱,包括:
通过多维标定法将M个用户的用户知识结构变换为坐标矩阵X=[x1,x2,...,xk]M,其中X是一个K*M阶矩阵,表示K个主题的M维坐标;
利用遗传算法对变换坐标矩阵进行加权处理,将每个用户的坐标矩阵作为输入,利用如下适应度函数进行迭代:
Figure FDA0002921341030000022
其中K为用户知识结构中的总主题数,pk为第k个主题属于该用户的概率,重复迭代不断调整权重大小,直至将遗传算法执行到满足终止准则为止,迭代后可得到每个用户坐标矩阵中各主题对应权重W=[w1,w2,...,wK]T
再利用如下公式对不同用户之间的亲疏关系进行计算,完善知识图谱中不同用户之间的关系链:
Figure FDA0002921341030000023
其中duv表示用户u与用户v的距离亲疏,k表示第k个主题,wuk表示用户u的第k个主题对应权重,xuk表示用户u的第k个主题对应坐标值。
6.一种主题知识图谱构建装置,包括处理器以及存储有若干计算机指令的非易失性存储器,其特征在于,所述计算机指令被处理器执行时实现权利要求1至权利要求5中任意一项所述方法的步骤。
CN202110117684.3A 2021-01-28 2021-01-28 一种主题知识图谱构建方法及装置 Active CN112765367B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110117684.3A CN112765367B (zh) 2021-01-28 2021-01-28 一种主题知识图谱构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110117684.3A CN112765367B (zh) 2021-01-28 2021-01-28 一种主题知识图谱构建方法及装置

Publications (2)

Publication Number Publication Date
CN112765367A true CN112765367A (zh) 2021-05-07
CN112765367B CN112765367B (zh) 2023-06-30

Family

ID=75706404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110117684.3A Active CN112765367B (zh) 2021-01-28 2021-01-28 一种主题知识图谱构建方法及装置

Country Status (1)

Country Link
CN (1) CN112765367B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988981A (zh) * 2021-05-14 2021-06-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于遗传算法的自动标注方法
CN115081435A (zh) * 2022-06-27 2022-09-20 上海海事大学 一种基于用户评论的交通出行软件创新机会识别方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003090714A (ja) * 2001-09-18 2003-03-28 Shigenori Tanaka 画像処理装置、及び画像処理プログラム
US20040077065A1 (en) * 2002-09-25 2004-04-22 The Procter & Gamble Company Three dimensional coordinates of HPTPbeta
CN105651457A (zh) * 2016-04-14 2016-06-08 东南大学 基于遗传算法的多维力传感器标定实验数据拟合方法
US20180173699A1 (en) * 2016-12-15 2018-06-21 Quid, Inc. Topic-influenced document relationship graphs
EP3399280A1 (en) * 2017-05-04 2018-11-07 Koninklijke Philips N.V. Evidence based personalized health advice for polluted air
US10191951B1 (en) * 2017-08-25 2019-01-29 Fuze, Inc. System and method for determining user knowledge scores based on topic analysis of mapped content
CN109684483A (zh) * 2018-12-11 2019-04-26 平安科技(深圳)有限公司 知识图谱的构建方法、装置、计算机设备及存储介质
CN109857872A (zh) * 2019-02-18 2019-06-07 浪潮软件集团有限公司 基于知识图谱的信息推荐方法和装置
CN110688456A (zh) * 2019-09-25 2020-01-14 北京计算机技术及应用研究所 一种基于知识图谱的漏洞知识库构建方法
CN110716171A (zh) * 2019-08-28 2020-01-21 上海无线电设备研究所 一种基于遗传算法的极化doa联合估计方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003090714A (ja) * 2001-09-18 2003-03-28 Shigenori Tanaka 画像処理装置、及び画像処理プログラム
US20040077065A1 (en) * 2002-09-25 2004-04-22 The Procter & Gamble Company Three dimensional coordinates of HPTPbeta
CN105651457A (zh) * 2016-04-14 2016-06-08 东南大学 基于遗传算法的多维力传感器标定实验数据拟合方法
US20180173699A1 (en) * 2016-12-15 2018-06-21 Quid, Inc. Topic-influenced document relationship graphs
EP3399280A1 (en) * 2017-05-04 2018-11-07 Koninklijke Philips N.V. Evidence based personalized health advice for polluted air
US10191951B1 (en) * 2017-08-25 2019-01-29 Fuze, Inc. System and method for determining user knowledge scores based on topic analysis of mapped content
CN109684483A (zh) * 2018-12-11 2019-04-26 平安科技(深圳)有限公司 知识图谱的构建方法、装置、计算机设备及存储介质
CN109857872A (zh) * 2019-02-18 2019-06-07 浪潮软件集团有限公司 基于知识图谱的信息推荐方法和装置
CN110716171A (zh) * 2019-08-28 2020-01-21 上海无线电设备研究所 一种基于遗传算法的极化doa联合估计方法
CN110688456A (zh) * 2019-09-25 2020-01-14 北京计算机技术及应用研究所 一种基于知识图谱的漏洞知识库构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
胡文韬: "基于知识图谱的学习路径图生成技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
郑烨,胡春萍: "我国公务员"凡进必考"研究的热点与趋势:基于可视化知识图谱的文献计量分析", 《天津行政学院学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988981A (zh) * 2021-05-14 2021-06-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于遗传算法的自动标注方法
CN115081435A (zh) * 2022-06-27 2022-09-20 上海海事大学 一种基于用户评论的交通出行软件创新机会识别方法

Also Published As

Publication number Publication date
CN112765367B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
Fawagreh et al. Random forests: from early developments to recent advancements
Hruschka et al. A genetic algorithm for cluster analysis
CN112464638B (zh) 一种基于改进谱聚类算法的文本聚类方法
CN108363821A (zh) 一种信息推送方法、装置、终端设备及存储介质
Sheng et al. A niching memetic algorithm for simultaneous clustering and feature selection
CN109886334B (zh) 一种隐私保护的共享近邻密度峰聚类方法
CN109242002A (zh) 高维数据分类方法、装置及终端设备
CN111400603A (zh) 一种信息推送方法、装置、设备及计算机可读存储介质
CN112765367A (zh) 一种主题知识图谱构建方法及装置
Mehmanpazir et al. Development of an evolutionary fuzzy expert system for estimating future behavior of stock price
CN115293919B (zh) 面向社交网络分布外泛化的图神经网络预测方法及系统
Salappa et al. Feature selection algorithms in classification problems: an experimental evaluation
CN112380344A (zh) 文本分类的方法、话题生成的方法、装置、设备及介质
Vivekanandan et al. An intelligent genetic algorithm for mining classification rules in large datasets
Kadlec et al. Particle swarm optimization for problems with variable number of dimensions
Giudici et al. Association models for web mining
Kumar et al. Gene expression data clustering using variance-based harmony search algorithm
CN117034046A (zh) 一种基于isodata聚类的柔性负荷可调潜力评估方法
Dhoot et al. Efficient Dimensionality Reduction for Big Data Using Clustering Technique
Saha et al. Improved differential evolution for microarray analysis
CN112948552B (zh) 一种事理图谱在线扩展方法及装置
Altinok et al. Learning to rank by using multivariate adaptive regression splines and conic multivariate adaptive regression splines
Laishram et al. Bi-clustering of gene expression microarray using coarse grained parallel genetic algorithm (cgpga) with migration
CN113205185A (zh) 网络模型优化方法、装置、计算机设备和存储介质
Hruschka et al. Applying a clustering genetic algorithm for extracting rules from a supervised neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 1806, 18th Floor, Building A, No. 482 Qianmo Road, Xixing Street, Binjiang District, Hangzhou City, Zhejiang Province, 310051

Applicant after: Zhejiang Furun digital chain Technology Co.,Ltd.

Applicant after: HANGZHOU ADTIME TECHNOLOGY Co.,Ltd.

Address before: 310051 room 1601, 16 / F, block a, 482 Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant before: HANGZHOU ADTIME TECHNOLOGY Co.,Ltd.

Applicant before: Zhejiang Furun digital chain Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant