CN117094387A - 基于大数据的知识图谱构建方法及系统 - Google Patents
基于大数据的知识图谱构建方法及系统 Download PDFInfo
- Publication number
- CN117094387A CN117094387A CN202311353570.4A CN202311353570A CN117094387A CN 117094387 A CN117094387 A CN 117094387A CN 202311353570 A CN202311353570 A CN 202311353570A CN 117094387 A CN117094387 A CN 117094387A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- session
- data
- target
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 257
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims description 83
- 238000005457 optimization Methods 0.000 claims description 24
- 238000000354 decomposition reaction Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 16
- 238000013507 mapping Methods 0.000 description 53
- 230000011218 segmentation Effects 0.000 description 19
- 238000001228 spectrum Methods 0.000 description 16
- 208000024891 symptom Diseases 0.000 description 13
- 229940079593 drug Drugs 0.000 description 12
- 239000003814 drug Substances 0.000 description 12
- 208000024714 major depressive disease Diseases 0.000 description 12
- 230000037213 diet Effects 0.000 description 10
- 235000005911 diet Nutrition 0.000 description 10
- 201000010099 disease Diseases 0.000 description 8
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 8
- 238000009225 cognitive behavioral therapy Methods 0.000 description 7
- 239000000935 antidepressant agent Substances 0.000 description 6
- 230000036651 mood Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000011282 treatment Methods 0.000 description 6
- 208000020401 Depressive disease Diseases 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000001430 anti-depressive effect Effects 0.000 description 2
- 229940005513 antidepressants Drugs 0.000 description 2
- 230000036528 appetite Effects 0.000 description 2
- 235000019789 appetite Nutrition 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000994 depressogenic effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002483 medication Methods 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010012374 Depressed mood Diseases 0.000 description 1
- 206010027951 Mood swings Diseases 0.000 description 1
- 208000013738 Sleep Initiation and Maintenance disease Diseases 0.000 description 1
- 230000004594 appetite change Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013542 behavioral therapy Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003001 depressive effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000014490 good eating habits Nutrition 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 206010022437 insomnia Diseases 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000001671 psychotherapy Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供一种基于大数据的知识图谱构建方法及系统,根据样例学习价值,确定出当前样例项目会话数据,并将其对应的目标会话关联矢量加载至初始化神经网络进行知识学习,生成了第一知识关系估计网络,利用第一知识关系估计网络对各样例项目会话数据的学习价值进行优化,形成一个自我学习和改进的循环过程,提高网络估计准确性。当第一知识关系估计网络收敛时,生成第二知识关系估计网络,可以估计加载的会话文本段与加载的项目关注节点信息对应的知识关系属性特征,并进行知识图谱构建。通过构建知识图谱,可以更好地理解和处理项目会话数据的内容,从而提升了知识图谱构建的效率。
Description
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种基于大数据的知识图谱构建方法及系统。
背景技术
当前的知识图谱构建主要依赖于人工输入或预设模板,以及基于统计的方法从大规模文本中抽取实体和关系。这些方法在处理结构化和半结构化数据时表现良好,但在面对非结构化的会话文本数据时,其性能往往难以满足要求。尤其是当涉及到复杂的对话场景和语义理解时,现有的方法往往力不从心。
例如,现有的知识图谱构建技术主要针对结构化和半结构化数据,对于非结构化的会话文本数据,其处理能力较弱,无法有效抽取其中的知识信息,并且通常只进行浅层次的匹配和提取,难以实现对复杂对话内容和用户意图的深度理解,并且缺乏自我学习和改进的过程,导致知识图谱构建过程通常耗时较长,且构建出的知识图谱准确性有待提高。
发明内容
为了至少克服现有技术中的上述不足,本申请的目的在于提供一种基于大数据的知识图谱构建方法及系统。
第一方面,本申请提供一种基于大数据的知识图谱构建方法,应用于大数据服务器系统,所述方法包括:
获取样例项目会话数据序列,所述样例项目会话数据序列包括多个样例项目会话数据、所述多个样例项目会话数据对应的样例学习价值和所述多个样例项目会话数据对应的目标会话关联矢量,所述样例项目会话数据包括自然会话文本段、扩展会话文本段和项目关注节点信息,所述目标会话关联矢量依据自然会话关联矢量和扩展会话关联矢量得到,所述自然会话关联矢量是依据所述自然会话文本段和所述项目关注节点信息进行联动会话关联矢量解析生成的,所述扩展会话关联矢量是依据所述扩展会话文本段和所述项目关注节点信息进行联动会话关联矢量解析生成的,所述样例项目会话数据序列来源于目标用户的会话文本大数据中的指定对话场景的会话文本数据;
依据所述样例学习价值从所述样例项目会话数据序列中确定当前样例项目会话数据;
将所述当前样例项目会话数据对应的当前目标会话关联矢量加载至初始化神经网络中进行初始化知识学习,当初始化知识学习结束时,生成第一知识关系估计网络;
依据所述第一知识关系估计网络优化所述多个样例项目会话数据对应的样例学习价值,并返回依据样例学习价值从所述样例项目会话数据序列中确定当前样例项目会话数据的操作,当检测到所述第一知识关系估计网络收敛时,生成第二知识关系估计网络,所述第二知识关系估计网络用于估计加载的会话文本段与加载的项目关注节点信息对应的知识关系属性特征,并基于各个会话文本段与加载的项目关注节点信息对应的知识关系属性特征进行知识图谱构建。
譬如,在第一方面的一种可能的实施方式中,所述方法还包括:
获取构建的各个知识图谱,并根据构建的各个知识图谱进行聚类形成各个类别的知识图谱组团,在接收到针对候选查询对话文本的知识查询指令时,获取所述候选查询对话文本的对话文本分词向量,并对所述候选查询对话文本的对话文本分词向量进行语义映射得到所述候选查询对话文本的语义映射向量;
依据语义映射向量,从各个类别的知识图谱组团中确定所述候选查询对话文本的语义映射向量对应的目标知识图谱组团;
获取所述目标知识图谱组团中的各知识图谱数据的对话文本分词向量,并依据各所述知识图谱数据的对话文本分词向量,确定各所述知识图谱数据所对应的知识标签信息、及各所述知识图谱数据与所述候选查询对话文本的查询关联度信息;
依据所述查询关联度信息,对各所述知识图谱数据进行整理,生成第一知识图谱数据集合;
依据所述知识图谱数据所对应的知识标签信息,对所述第一知识图谱数据集合中的各知识图谱数据的次序进行更新,生成第二知识图谱数据集合;其中,所述知识图谱数据所对应的知识标签信息表征所述知识图谱数据归属各知识标签的可能性;
依据所述第二知识图谱数据集合,确定针对所述候选查询对话文本的知识图谱数据查询结果,并基于所述知识图谱数据查询结果对所述候选查询对话文本生成对应的推送知识内容。
譬如,在第一方面的一种可能的实施方式中,每个所述知识图谱组团对应一个对比语义映射向量,所述从各个类别的知识图谱组团中确定所述候选查询对话文本的语义映射向量对应的目标知识图谱组团,包括:
分别确定所述候选查询对话文本的语义映射向量与各所述知识图谱组团对应的对比语义映射向量之间的特征偏离度;
获取与所述语义映射向量的特征偏离度最小的对比语义映射向量所对应的聚类关注点,作为目标聚类关注点;
从各个类别的知识图谱组团中确定所述目标聚类关注点对应的知识图谱组团,作为所述候选查询对话文本的语义映射向量对应的目标知识图谱组团。
譬如,在第一方面的一种可能的实施方式中,在所述依据所述知识图谱数据所对应的知识标签信息,对所述第一知识图谱数据集合中的各知识图谱数据的次序进行更新,生成第二知识图谱数据集合之后,所述方法还包括:
获取所述目标知识图谱组团中的各知识图谱数据的语义映射向量;
确定所述候选查询对话文本的语义映射向量与各所述知识图谱数据的语义映射向量之间的特征偏离度;
依据所述特征偏离度,从所述目标知识图谱组团包括的各知识图谱数据中选取目标数量的知识图谱数据,生成第三知识图谱数据集合;
所述依据所述第二知识图谱数据集合,确定针对所述候选查询对话文本的知识图谱数据查询结果,包括:
依据所述第三知识图谱数据集合,确定针对所述候选查询对话文本的知识图谱数据查询结果。
譬如,在第一方面的一种可能的实施方式中,所述依据各所述知识图谱数据的对话文本分词向量,确定各所述知识图谱数据与所述候选查询对话文本的查询关联度信息,包括:
基于所述候选查询对话文本的对话文本分词向量与各所述知识图谱数据的对话文本分词向量的特征偏离度,确定所述知识图谱数据和所述候选查询对话文本的查询关联度信息;
所述依据所述查询关联度信息,对各所述知识图谱数据进行整理,生成第一知识图谱数据集合,包括:
依据所述知识图谱数据和所述候选查询对话文本的查询关联度信息,对所述目标知识图谱组团中的知识图谱数据进行整理,生成第一知识图谱数据集合。
譬如,在第一方面的一种可能的实施方式中,所述依据所述知识图谱数据所对应的知识标签信息,对所述第一知识图谱数据集合中的知识图谱数据进行调整,生成第二知识图谱数据集合,包括:
对所述候选查询对话文本进行文本内容标签预测,生成所述候选查询对话文本的目标知识标签;
依据所述目标知识标签及所述知识图谱数据所对应的知识标签信息,确定所述第一知识图谱数据集合中知识图谱数据的标签相关度;
依据所述知识图谱数据所对应的知识标签信息、以及所述第一知识图谱数据集合中知识图谱数据的标签相关度,对所述第一知识图谱数据集合中的知识图谱数据进行更新,生成第二知识图谱数据集合。
譬如,在第一方面的一种可能的实施方式中,所述方法依据知识查询网络实现,所述知识查询网络包括语义编码子网络、引用子网络、次序整理子网络及查询子网络;
所述获取所述候选查询对话文本的语义映射向量,包括:
依据所述语义编码子网络,获取所述候选查询对话文本的语义映射向量;
所述从各个类别的知识图谱组团中确定所述候选查询对话文本的语义映射向量对应的目标知识图谱组团,包括:
依据所述引用子网络,依据所述语义映射向量,从各个类别的知识图谱组团中确定所述候选查询对话文本的语义映射向量对应的目标知识图谱组团;
所述依据所述知识图谱数据所对应的知识标签信息,对所述第一知识图谱数据集合中的各知识图谱数据的次序进行更新,生成第二知识图谱数据集合,包括:
依据所述次序整理子网络,获取所述目标知识图谱组团中的各知识图谱数据的对话文本分词向量,并依据所述次序整理子网络,依据各所述知识图谱数据的对话文本分词向量,确定各所述知识图谱数据所对应的知识标签信息、及各所述知识图谱数据与候选查询对话文本的查询关联度信息,依据所述查询关联度信息,对各所述知识图谱数据进行整理,生成第一知识图谱数据集合;
依据所述知识图谱数据所对应的知识标签信息,对所述第一知识图谱数据集合中的各知识图谱数据的次序进行更新,生成第二知识图谱数据集合,所述知识图谱数据所对应的知识标签信息表征所述知识图谱数据归属各知识标签的可能性;
所述确定针对所述候选查询对话文本的知识图谱数据查询结果,包括:
依据所述查询子网络,依据所述第二知识图谱数据集合,确定针对所述候选查询对话文本的知识图谱数据查询结果。
譬如,在第一方面的一种可能的实施方式中,所述次序整理子网络包括第一标签预测单元、第二标签预测单元、标签比较单元及排列单元,所述依据所述次序整理子网络,依据所述知识图谱数据所对应的知识标签信息,对所述第一知识图谱数据集合中的知识图谱数据进行更新,生成第二知识图谱数据集合,包括:
依据所述第一标签预测单元,获取所述目标知识图谱组团中各知识图谱数据所对应的知识标签信息;
依据所述第二标签预测单元,对所述候选查询对话文本的基础知识图谱数据特征进行标签预测,生成所述候选查询对话文本对应的目标知识标签;
依据所述标签比较单元,依据所述目标知识标签及所述知识图谱数据所对应的知识标签信息,确定所述第一知识图谱数据集合中的知识图谱数据的标签相关度;
依据所述排列单元,依据所述标签相关度以及所述知识图谱数据所对应的知识标签信息,对所述第一知识图谱数据集合中的各知识图谱数据进行整理,生成第二知识图谱数据集合。
譬如,在第一方面的一种可能的实施方式中,所述依据所述语义编码子网络,获取所述候选查询对话文本的语义映射向量之前,所述方法还包括:
获取待训练文本数据序列以及初始化权重参数的所述知识查询网络,所述待训练文本数据包括靶向训练文本数据、积极训练文本数据及消极训练文本数据,所述靶向训练文本数据与所述积极训练文本数据为相同文本数据,所述靶向训练文本数据与所述消极训练文本数据为不相同文本数据;
依据所述知识查询网络的语义编码子网络,分别对所述待训练文本数据序列进行语义编码,生成所述待训练文本数据序列的语义映射向量;
依据所述知识查询网络的引用子网络,依据所述待训练文本数据序列的语义映射向量,从各个类别的知识图谱组团中确定所述待训练文本数据序列的语义映射向量对应的目标知识图谱组团;
依据所述知识查询网络的次序整理子网络,获取所述目标知识图谱组团中各知识图谱数据的次序整理信息,并依据所述次序整理信息对所述目标知识图谱组团中的知识图谱数据进行整理,生成预测第二知识图谱数据集合,所述次序整理信息包括以下至少之一:所述知识图谱数据和所述待训练文本数据序列的语义相关性参数、所述知识图谱数据所对应的知识标签信息;
依据所述知识查询网络的查询子网络,依据所述预测第二知识图谱数据集合,确定针对所述待训练文本数据序列的知识图谱数据查询结果;
获取与所述待训练文本数据序列的语义映射向量对应的训练误差值,并依据所述待训练文本数据序列与所述预测第二知识图谱数据集合中各知识图谱数据之间的偏离度,确定所述待训练文本数据序列的查询误差值;
依据所述训练误差值以及所述查询误差值,更新所述知识查询网络的网络权重信息。
譬如,在第一方面的一种可能的实施方式中,所述依据所述第二知识图谱数据集合,确定针对所述候选查询对话文本的知识图谱数据查询结果,包括:
从所述第二知识图谱数据集合中的首个知识图谱数据开始,依次进行知识图谱数据选取,直至选取目标数量的所述知识图谱数据,确定为针对所述候选查询对话文本的知识图谱数据查询结果。
第二方面,本申请实施例还提供一种大数据服务器系统,所述大数据服务器系统包括处理器和机器可读存储介质,所述机器可读存储介质中存储有计算机程序,所述计算机程序结合该处理器加载并执行以实现以上第一方面的基于大数据的知识图谱构建方法。
采用以上任意方面的技术方案,首先获取样例项目会话数据序列,其中包括多个样例项目会话数据、对应的学习价值以及目标会话关联矢量,然后根据这些样例学习价值,确定出当前样例项目会话数据,并将其对应的目标会话关联矢量加载至初始化神经网络进行知识学习,生成了第一知识关系估计网络,接着,利用第一知识关系估计网络对各样例项目会话数据的学习价值进行优化,形成了一个自我学习和改进的循环过程,提高了网络估计准确性。当第一知识关系估计网络收敛时,生成第二知识关系估计网络。这个网络可以估计加载的会话文本段与加载的项目关注节点信息对应的知识关系属性特征,并基于各个会话文本段与加载的项目关注节点信息对应的知识关系属性特征进行知识图谱构建。通过构建知识图谱,可以更好地理解和处理项目会话数据的内容,从而提升了知识图谱构建的效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要启用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以结合这些附图获得其它相关的附图。
图1为本申请实施例提供的基于大数据的知识图谱构建方法的流程示意图;
图2为本申请实施例提供的用于实现上述的基于大数据的知识图谱构建方法的大数据服务器系统的功能结构示意框图。
具体实施方式
以下描述是为了使本领域的普通技术人员能够实施和结合本申请,并且该描述是在特定的应用场景及其要求的环境下提供的。对于本领域的普通技术人员来讲,显然可以对所公开的实施例作出各种改变,并且在不偏离本申请的原则和范围时,本申请中所定义的普遍原则可以适用于其它实施例和应用场景。因此,本申请并不限于所描述的实施例,而应该被给予与权利要求一致的最广泛的范围。
参见图1所示,本申请提供一种基于大数据的知识图谱构建方法,包括以下步骤。
步骤S110,获取样例项目会话数据序列。
本实施例中,所述样例项目会话数据序列包括多个样例项目会话数据、所述多个样例项目会话数据对应的样例学习价值和所述多个样例项目会话数据对应的目标会话关联矢量,所述样例项目会话数据包括自然会话文本段、扩展会话文本段和项目关注节点信息,所述目标会话关联矢量依据自然会话关联矢量和扩展会话关联矢量得到,所述自然会话关联矢量是依据所述自然会话文本段和所述项目关注节点信息进行联动会话关联矢量解析生成的,所述扩展会话关联矢量是依据所述扩展会话文本段和所述项目关注节点信息进行联动会话关联矢量解析生成的,所述样例项目会话数据序列来源于目标用户的会话文本大数据中的指定对话场景的会话文本数据。
例如,假设当前正在进行一项关于抑郁症治疗的研究,目标用户是精神科医生和患者。在这种情况下,指定的对话场景可能就是精神科诊室中医生与患者之间的交谈。首先,需要从医生与患者的会话文本大数据中选择特定的对话场景。例如,可以选取那些涉及到抑郁症诊断、治疗方法、药物使用等内容的对话。在选取了这些对话后,就得到了样例项目会话数据序列。示例性地,一个样例项目会话数据序列可能包含以下内容:
自然会话文本段:例如,患者说:“我最近总是觉得心情低落,失去了对生活的兴趣。”医生回答:“你可能有轻度抑郁症,建议你试试认知行为疗法,并服用一些抗抑郁药物。”
扩展会话文本段:例如,医生可能还会补充说:“记住,药物并不能立即见效,你可能需要几周的时间才能感到改善。同时,保持规律的锻炼和良好的饮食习惯也非常重要。”
项目关注节点信息:在这个例子中,可能是“抑郁症”、“认知行为疗法”、“抗抑郁药物”、“锻炼”和“饮食”。
本实施例可以依据所述自然会话文本段和所述项目关注节点信息进行联动会话关联矢量编码,生成所述自然会话关联矢量,依据所述扩展会话文本段和所述项目关注节点信息进行联动会话关联矢量编码,生成所述扩展会话关联矢量,然后计算所述自然会话关联矢量和所述扩展会话关联矢量之间的汇总矢量,生成目标会话关联矢量。其中,所述自然会话关联矢量包括第一自然会话关联矢量和第二自然会话关联矢量,例如依据所述自然会话文本段和所述项目关注节点信息依据图表示学习模型进行联动会话关联矢量编码,生成第一自然会话关联矢量,依据所述自然会话文本段和所述项目关注节点信息依据双向长短时记忆网络进行联动会话关联矢量编码,生成第二自然会话关联矢量,依据所述第一自然会话关联矢量和所述第二自然会话关联矢量进行融合,生成所述自然会话关联矢量。
仍旧以前述示例为例,在确定自然会话关联矢量时,可以将自然会话文本段预处理,包括删除停用词,进行词干提取和词性标注等。例如:"患者:我[最近, time] [总是,adverb][觉得, verb] [心情低落, adjective],[失去, verb]了[对生活的兴趣, noun]。医生:你可能[有, verb] [轻度抑郁症, noun],建议你[试试, verb] [认知行为疗法,noun],并[服用, verb] 一些[抗抑郁药物, noun]。"
然后,根据项目关注节点信息,从中选出相关的词汇或词组,如"轻度抑郁症"、"认知行为疗法"和"抗抑郁药物"。这些词汇或词组就形成了联动节点。
接下来,使用某种编码技术(例如one-hot encoding、word2vec、BERT等)对这些联动节点进行编码,生成它们的向量表示。例如,“轻度抑郁症”可能被编码为[1, 0, 0, 0,0],“认知行为疗法”被编码为[0, 1, 0, 0, 0],“抗抑郁药物”被编码为[0, 0, 1, 0, 0]。
最后,将这些联动节点的向量表示进行聚合,形成第一自然会话关联矢量。例如,可以简单地通过相加得到[1, 1, 1, 0, 0]。
以上就是依据所述自然会话文本段和所述项目关注节点信息进行联动会话关联矢量编码,生成自然会话关联矢量的具体示例。
同样地,扩展会话文本段经过预处理后可能得到以下的关键词:["药物", "立即", "见效", "需要", "几周", "时间", "感到", "改善", "保持", "规律", "锻炼","良好", "饮食", "习惯"]。
接着,以项目关注节点信息作为关注点,从这些关键词中找出与之相关的词。在这个例子中,找到了"药物"、"锻炼"和"饮食"三个词。
下一步,将找到的关注点词汇进行编码,生成相应的关联矢量。这个编码过程是基于项目关注节点信息的,也就是说,“药物”、“锻炼”和“饮食”的编码值会反映它们在项目关注节点信息中的重要性。例如,“药物”可能被编码为[1, 0, 0, 0, 0], “锻炼”可能被编码为[0, 0, 0, 1, 0],“饮食”可能被编码为[0, 0, 0, 0, 1]。
最后,将所有关注点词汇的关联矢量进行汇总,生成第一扩展会话关联矢量。在这个例子中,扩展会话关联矢量可能是[1, 0, 0, 1, 1]。
需要注意的是,这只是一个示例,实际操作中,还需要考虑词频、TF-IDF等因素,来更精确地生成前述的会话关联矢量。
由此,自然会话文本段和项目关注节点信息是相互影响,共同决定了自然会话关联矢量的内容。同样地,扩展会话关联矢量是在自然会话关联矢量的基础上,进一步引入更深层次、更全面的信息和关联性。这通常涉及到对自然会话文本段进行扩展或丰富,以便获取更多的知识点。这样,扩展会话关联矢量不仅包含了自然会话关联矢量的内容,还增加了从扩展会话文本中获取的新的关联信息。总的来说,扩展会话关联矢量的目标是提供更丰富、更全面的关于项目关注节点的信息和关联性,以便更好地进行知识图谱的构建。
步骤S120,依据所述样例学习价值从所述样例项目会话数据序列中确定当前样例项目会话数据。
例如,假设有一系列与抑郁症相关的样例项目会话数据序列,每个样例都包含了医生和患者的对话内容。目标是从这些样例中选出那些具有高学习价值的样例。
学习价值可以由多种因素决定,比如对话中涉及的主题深度、疾病相关信息的丰富程度、会话的逻辑连贯性等。例如,一个详细描述了抑郁症症状、诊断过程、治疗方案,并且逻辑清晰的样例,可能就有很高的学习价值。
一种示例性的场景可以是这样:在样例项目会话数据序列中有以下两个样例:
样例1:患者说:“我最近经常感到疲惫,没有任何活力,我觉得我可能有抑郁症。”医生回答:“你的情况可能需要进一步评估,我建议你接受专业的心理咨询。”
样例2:患者说:“我最近不仅感到疲惫,而且经常失眠,对以前喜欢的事情也失去了兴趣,我担心我可能得了抑郁症。”医生回答:“你的症状确实符合抑郁症的一些典型表现,但需要进行更多的评估来确定。此外,抑郁症是可以治疗的,可以通过药物和心理疗法帮助你改善症状。”
在这两个样例中,样例2包含了更多的关于抑郁症的信息(如更详细的症状描述,提及了治疗方法等),并且对话逻辑更加连贯。因此,可能会判断样例2具有更高的学习价值,选择它作为当前的样例项目会话数据。
步骤S120,将所述当前样例项目会话数据对应的当前目标会话关联矢量加载至初始化神经网络中进行初始化知识学习,当初始化知识学习结束时,生成第一知识关系估计网络。
例如,可以将所述当前样例项目会话数据对应的当前目标会话关联矢量输入到一个预先训练好的神经网络模型中,由此能够从所述当前样例项目会话数据对应的当前目标会话关联矢量中学习和提取有价值的特征。
在结束时,生成第一知识关系估计网络,该第一知识关系估计网络可以基于学习到的特征来估计各个节点之间的关系强度。例如,它可能推断出"抑郁症"与"心情低落"、"失去生活兴趣"以及"无活力"之间存在较强的关系,而与"锻炼"和"饮食"之间的关系相对较弱。
步骤S140,依据所述第一知识关系估计网络优化所述多个样例项目会话数据对应的样例学习价值,并返回依据样例学习价值从所述样例项目会话数据序列中确定当前样例项目会话数据的操作,当检测到所述第一知识关系估计网络收敛时,生成第二知识关系估计网络,所述第二知识关系估计网络用于估计加载的会话文本段与加载的项目关注节点信息对应的知识关系属性特征,并基于各个会话文本段与加载的项目关注节点信息对应的知识关系属性特征进行知识图谱构建。
例如,可以根据据所述第一知识关系估计网络优化样例学习价值,并重新调整据所述第一知识关系估计网络中节点和关系的权重,使得这个据所述第一知识关系估计网络更好地反映实际的关系。由此生成第二知识关系估计网络,通过第二知识关系估计网络就可以得到一张反映"抑郁症"相关知识的知识图谱,其中包括了"抑郁症"与其相关因素和治疗方法之间的关系。
以“抑郁症”为例,加载的会话文本段包括患者的自述症状和医生的建议,同时加载的项目关注节点信息包括“抑郁症”、“认知行为疗法”、“抗抑郁药物”、“锻炼”和“饮食”。在第二知识关系估计网络中,这些会话文本段和项目关注节点信息被用来估计知识关系属性特征。例如,通过知识学习,可能发现"心情低落"、"失去生活兴趣"与"抑郁症"有较强的相关性,因此它们的知识关系属性特征值较高;而"锻炼"和"饮食"与"抑郁症"的关联性相对较弱,所以它们的知识关系属性特征值较低。接着,基于各个会话文本段与加载的项目关注节点信息对应的知识关系属性特征,可以构建知识图谱。在知识图谱中,节点表示不同的实体,如“抑郁症”、“认知行为疗法”等,边则表示这些实体之间的关系,边的权重则由知识关系属性特征决定。比如,“心情低落”与“抑郁症”的关系边可能权重较高,反映了它们之间的紧密关联;而"锻炼"与"抑郁症"之间的关系边权重较低,说明它们之间的关联性较弱。
通过这样的方式,就能根据从会话文本段和项目关注节点信息中提取出的知识关系属性特征,构建出反映"抑郁症"相关知识的知识图谱。
基于以上步骤,首先获取样例项目会话数据序列,其中包括多个样例项目会话数据、对应的学习价值以及目标会话关联矢量,然后根据这些样例学习价值,确定出当前样例项目会话数据,并将其对应的目标会话关联矢量加载至初始化神经网络进行知识学习,生成了第一知识关系估计网络,接着,利用第一知识关系估计网络对各样例项目会话数据的学习价值进行优化,形成了一个自我学习和改进的循环过程,提高了网络估计准确性。当第一知识关系估计网络收敛时,生成第二知识关系估计网络。这个网络可以估计加载的会话文本段与加载的项目关注节点信息对应的知识关系属性特征,并基于各个会话文本段与加载的项目关注节点信息对应的知识关系属性特征进行知识图谱构建。通过构建知识图谱,可以更好地理解和处理项目会话数据的内容,从而提升了知识图谱构建的效率。
进一步地,一种可替代的实施方式中,在步骤S110之前,还可以包括以下步骤:
步骤S101,获取所述多个样例项目会话数据,所述样例项目会话数据包括自然会话文本段、扩展会话文本段和项目关注节点信息。
步骤S102,依据所述自然会话文本段和所述项目关注节点信息进行联动会话关联矢量编码,生成第一自然会话关联矢量。
步骤S103,依据所述扩展会话文本段和所述项目关注节点信息进行联动会话关联矢量编码,生成第一扩展会话关联矢量,并依据所述第一自然会话关联矢量和第一扩展会话关联矢量确定所述多个样例项目会话数据对应的第一目标会话关联矢量。
本实施例中,步骤S102和步骤S103可参照前述步骤S110中对应的示例性描述的实施方式即可。
步骤S104,将所述多个样例项目会话数据对应的第一目标会话关联矢量加载至先验知识关系估计网络中进行估计,生成所述多个样例项目会话数据对应的第一知识关系属性特征。
生成了第一目标会话关联矢量后,需要将第一目标会话关联矢量加载到一个先验知识关系估计网络中进行处理,这个网络的目的是通过学习和理解样例项目会话数据的第一目标会话关联矢量,来预测或者估计这些会话中的知识关系。
先验知识关系估计网络可以是一种深度学习模型,例如卷积神经网络(CNN)、循环神经网络(RNN)或者自注意力机制模型(如Transformer)。该网络通常由训练过程进行参数优化,在训练过程中,网络会根据输入的会话关联矢量和预期输出(比如手工标注的知识关系标签)调整其内部权重,以便在未来对新的会话关联矢量进行更准确的知识关系预测。
举个例子,假设选择使用RNN作为的先验知识关系估计网络。首先需要初始化网络,并设置好相关参数(如隐藏层大小、学习率等)。然后,将前面生成的第一目标会话关联矢量作为输入,送入RNN进行训练。在训练过程中,RNN会尝试找出输入矢量中的模式和规律,并根据这些模式和规律预测知识关系。
经过训练后,RNN能够生成每个样例项目会话数据对应的知识关系属性特征。这些特征反映了每个会话数据在知识关系上的特点,例如所述多个样例项目会话数据对应的第一知识关系属性特征。
步骤S105,依据所述多个样例项目会话数据对应的第一知识关系属性特征和多个样例项目会话数据对应的标注知识关系属性特征进行训练代价值确定,生成所述多个样例项目会话数据对应的第一训练代价值。
生成第一训练代价值的过程中,将使用先验知识关系估计网络生成的第一知识关系属性特征(即预测值)与标注知识关系属性特征(即实际值)进行比较,通过计算两者之间的差异来确定训练代价值。
训练代价值通常被定义为预测值和实际值之间的误差。这种误差可以通过多种方式来计算,例如均方误差(Mean Squared Error, MSE)、交叉熵损失(Cross-Entropy Loss)等。以均方误差为例,对于每一个样例项目会话数据,计算其预测的第一知识关系属性特征与标注知识关系属性特征之间的差值,然后将这个差值平方,最后,对所有样例项目会话数据的平方误差求和并求平均,得到的就是第一训练代价值。
步骤S106,依据所述第一训练代价值优化所述先验知识关系估计网络,并返回将所述多个样例项目会话数据对应的目标会话关联矢量加载至先验知识关系估计网络中进行估计的操作,直到所述第一训练代价值不再继续下降时,生成初始化神经网络和所述第一目标会话关联矢量对应的显著性系数。
在确定了训练代价值后,可以使用梯度下降等优化算法来调整模型参数,使得训练代价值最小,这个过程会不断重复,直到模型参数收敛或达到预设的训练轮数。最终,会得到一个能够较好地预测知识关系属性特征的初始化神经网络。
本实施例中,显著性系数是一个用来衡量模型中各个特征对预测结果影响力大小的指标。在神经网络中,显著性系数通常通过计算每个第一目标会话关联矢量对输出结果的偏导数(梯度)来确定。如果某个第一目标会话关联矢量的偏导数绝对值大,那么就说明这个第一目标会话关联矢量对预测结果的影响力大,其显著性系数也大。
在上述过程中,可以通过反向传播算法和梯度下降等优化方法,根据训练代价值来调整先验知识关系估计网络的参数,使得训练代价值最小。在这个过程中,网络会学习到每个第一目标会话关联矢量对预测结果的贡献大小,也就是显著性系数。
例如,对于目标会话关联矢量中的“药物”、“锻炼”和“饮食”三个特征,经过训练后,可能发现“药物”的显著性系数最大,说明在抑郁症的治疗过程中,“药物”的作用最为重要;而“锻炼”和“饮食”的显著性系数较小,但仍然不可忽视,说明它们也对治疗抑郁症有一定的帮助。
需要注意的是,这只是一个简单的例子,在实际操作中,可能还需要考虑其它因素,比如特征之间的相互作用、特征的非线性关系等。
步骤S107,依据所述先验知识关系估计网络优化结束时所述多个样例项目会话数据对应的训练代价值确定所述多个样例项目会话数据对应的样例学习价值,并依据所述显著性系数从所述第一目标会话关联矢量中选取目标会话关联矢量。
在确定了训练代价值之后,就可以计算样例学习价值。这个样例学习价值反映了模型从每个样例项目会话数据中获取知识的能力。具体来说,如果一个样例项目会话数据的训练代价值较高,那么这个样例项目会话数据的学习价值也会较低,因为模型需要更多地从这个样例项目会话数据中学习,以便减少预测误差。例如,可以将所述先验知识关系估计网络优化结束时所述多个样例项目会话数据对应的训练代价值的倒数作为所述多个样例项目会话数据对应的样例学习价值。
然后,需要根据显著性系数从第一目标会话关联矢量中选取目标会话关联矢量。显著性系数表示了一个会话关联矢量在所有关联矢量中的重要程度。具体来说,显著性系数越高的会话关联矢量,在知识图谱构建中的影响力越大。例如,对于上述的会话关联矢量,如果其显著性系数很高,如大于设定系数阈值,那么它就可能被选为目标会话关联矢量,用于知识图谱的构建。
一种可替代的实施方式中,在步骤S104中,可以将所述多个样例项目会话数据对应的第一目标会话关联矢量加载至先验知识关系估计网络中。在此基础上,所述先验知识关系估计网络将所述多个样例项目会话数据对应的第一目标会话关联矢量作为候选矢量序列,并计算所述第一目标会话关联矢量对应的目标显著性系数,依据所述目标显著性系数从所述第一目标会话关联矢量中确定目标分解矢量,依据所述目标分解矢量将所述多个样例项目会话数据对应的第一目标会话关联矢量进行分解,生成各个分解信息,所述分解信息中包括各个分解项目会话数据对应的第一目标会话关联矢量,将所述各个分解信息作为候选矢量序列,并返回计算所述第一目标会话关联矢量对应的目标显著性系数的步骤迭代,直到分解结束时,生成所述多个样例项目会话数据对应的第一知识关系属性特征。
例如,首先将会话关联矢量,例如{“问题”: “情绪状态询问”, “回答”: “可能有抑郁症”},输入到先验知识关系估计网络中,将上述关联矢量视为候选矢量序列。然后,先验知识关系估计网络会计算这个关联矢量的显著性系数,该显著性系数可能基于关联矢量在数据集中的出现频率、其在解决问题上的重要性等因素确定,例如可以是基于关联矢量在数据集中的出现频率、其在解决问题上的重要性的加权数值确定。假设“可能有抑郁症”的显著性系数较高,那么它就可能被选为目标分解矢量。然后,将原始的关联矢量分解为多个子矢量,例如{“问题”: “情绪状态询问”, “回答”: “感到压抑”}和{“问题”: “情绪状态询问”, “回答”: “感到无助”}。分解后的子矢量构成新的候选矢量序列,用于下一轮的显著性系数计算和进一步的分解。这个过程持续进行,直到分解结束。分解结束后,再对所有的子矢量及其对应的显著性系数进行学习和预测,生成所述多个样例项目会话数据对应的第一知识关系属性特征。
一种可替代的实施方式中,对于步骤S120中,依据所述样例学习价值从所述样例项目会话数据序列中确定当前样例项目会话数据,包括:
步骤S121,获取对话项目族谱信息,依据所述对话项目族谱信息将所述样例项目会话数据序列进行数据分配,生成多个样例项目会话数据簇。
例如,在这个阶段,首先获取对话项目的族谱信息。例如,可以将所有的对话记录根据相关的疾病类型(如轻度抑郁、中度抑郁和重度抑郁)进行分类。然后,依据这些信息将样例项目会话数据序列进行数据分配,生成多个样例项目会话数据簇。例如,所有涉及轻度抑郁的对话记录将被分配到一个数据簇中,所有涉及中度抑郁的对话记录被分配到另一个数据簇中,以此类推。
步骤S122,获取当前训练指导信息,依据所述当前训练指导信息确定选取项目会话数据量和项目会话数据分布。
获取当前训练指导信息通常取决于具体需求和目标。例如,如果目标是优化对某种特定疾病(如重度抑郁)的识别率,那么训练指导信息可能就是关于这种疾病的相关数据。确定选取项目会话数据量和项目会话数据分布则涉及到一些实际操作。通常情况下,需要根据数据集大小、训练资源以及训练目标来决定。
举个例子,假设大量的医疗对话数据,并且想优化模型对于重度抑郁的识别率。首先可以查看数据集中关于重度抑郁的数据量,然后根据训练资源(如计算能力、存储空间等)以及训练目标(在这个例子中是优化对重度抑郁的识别率)来决定从中选取多少数据进行训练。
至于数据分布,可能希望保证训练数据在各个类别(如轻度、中度和重度抑郁)之间的分布是均衡的,以避免模型在训练过程中产生偏见。但如果目标是优化对重度抑郁的识别率,可能会选择更多的重度抑郁的数据进行训练。
所以,获取当前训练指导信息并确定选取项目会话数据量和项目会话数据分布的过程实际上是一个基于具体需求和资源来进行的决策过程。
例如,如果数据集中有10000条轻度抑郁、5000条中度抑郁和2000条重度抑郁的对话记录,而目标是提高模型对重度抑郁的识别能力,那么可能会选择更多的与重度抑郁相关的对话数据进行训练。
具体来说,可以选择从轻度抑郁的对话数据中随机抽取3000条,从中度抑郁的对话数据中抽取2000条,而从重度抑郁的对话数据中则抽取所有的2000条。这样,就能够保证在训练过程中,模型可以接触到更多的与重度抑郁相关的数据,从而提高其识别能力。
步骤S123,依据所述项目会话数据量和所述项目会话数据分布基于所述样例学习价值从所述多个样例项目会话数据簇中选取当前样例项目会话数据,生成目标当前样例项目会话数据序列。
例如,可以选择数据量充足且分布均匀的样例项目会话数据簇。如果某些类型的对话情境在训练数据中过于稀少,模型可能无法从中学习到有效的信息。反之,如果某类对话情境过于常见,也可能导致模型偏向于这种情境,而忽略其他情境。在了解了所有样例项目会话数据簇的学习价值后,可以将它们按照学习价值进行排序,并优先考虑学习价值高的数据簇。然后,从学习价值最高的数据簇中选取一部分作为当前样例项目会话数据。具体选取多少数据,需要根据模型的需求和计算资源来确定。最终,将选取的数据整理成适合模型训练的格式,例如,可以将其整理成序列化的对话数据,其中包含每次交互的输入和预期输出。
一种可替代的实施方式中,步骤S130中,可以将当前样例项目会话数据对应的当前目标会话关联矢量加载至初始化神经网络中进行估计,生成当前知识关系属性特征,计算所述当前知识关系属性特征与所述当前样例项目会话数据对应的标注知识关系属性特征之间的损失函数值,生成当前训练代价值,依据所述当前训练代价值优化所述初始化神经网络,并返回将当前样例项目会话数据对应的当前目标会话关联矢量加载至初始化神经网络中进行估计,生成当前知识关系属性特征的步骤执行,直到达到优化收敛要求时,生成第一知识关系估计网络。
计算预测知识关系属性特征值与实际知识关系属性特征值之间的差距,即损失函数值。常用的方法包括均方误差(Mean Squared Error, MSE)和交叉熵损失(Cross-Entropy Loss)等。如果使用MSE作为损失函数,那么损失函数值将被计算为每个预测知识关系属性特征值与其对应的实际知识关系属性特征值之差的平方和的平均值。
比如,在上述示例中,如果会预测"心情低落"与"抑郁症"的知识关系属性特征值为0.8,而"锻炼"与"抑郁症"的知识关系属性特征值为0.3,实际的知识关系属性特征值是"心情低落"与"抑郁症"为0.9,"锻炼"与"抑郁症"为0.4,那么MSE损失函数值将被计算为:
[(0.8-0.9)² + (0.3-0.4)²] / 2 = 0.005
这就是预测知识关系属性特征和实际知识关系属性特征之间的差距的计算方式。神经网络的目标就是通过调整其参数,使得这个损失函数值最小化,从而更准确地估计知识关系属性特征。
一种可替代的实施方式中,依据所述第一知识关系估计网络优化所述多个样例项目会话数据对应的样例学习价值,具体可以是:将所述多个样例项目会话数据对应的目标会话关联矢量加载至所述第一知识关系估计网络中,生成所述多个样例项目会话数据对应的基础知识关系属性特征,计算所述多个样例项目会话数据对应的基础知识关系属性特征与所述多个样例项目会话数据对应的标注知识关系属性特征之间的损失函数值,生成第二训练代价值,获取当前训练指导信息,依据所述当前训练指导信息计算优化指导参数,将所述优化指导参数与所述多个样例项目会话数据对应的第二训练代价值进行对比,生成所述多个样例项目会话数据对应的对比结果,基于所述多个样例项目会话数据对应的对比结果确定所述多个样例项目会话数据对应的优化学习价值。
其中,训练指导信息通常可以来自于第一知识关系估计网络的反馈,例如,可以通过查看第一知识关系估计网络的损失函数值的变化、验证集上的准确率等指标,了解第一知识关系估计网络在当前的训练轮次(epoch)中的表现。另外,某些更高级的方法,如梯度检查或者可视化工具,也能帮助理解模型的学习情况。优化指导参数是指用于更新模型权重的参数。在深度学习中,最常见的优化算法是梯度下降法,其优化指导参数就是梯度。梯度是损失函数对模型权重的偏导数,表示了改变权重会怎样影响损失函数值。计算这个梯度需要使用反向传播算法。优化指导参数(即梯度)和训练代价值(即损失函数值)都是评估模型性能的重要指标。一般来说,如果梯度很大,说明模型的权重需要调整的幅度较大,此时的训练代价值可能也较高;反之,如果梯度很小,说明模型接近收敛,此时的训练代价值可能也较低。由此,根据上一步的对比,可以了解第一知识关系估计网络是否还需要继续优化,以及哪些方向的优化可能更有效。例如,如果发现某些特定的样例项目会话数据对应的优化指导参数(即对应的梯度)特别大,说明这些数据对模型的训练影响较大,可能是第一知识关系估计网络需要重点优化的部分。优化学习价值是对样例项目会话数据的一种评价,它反映了该样例对模型优化的贡献大小。例如,如果某个样例项目会话数据对应的优化指导参数特别大,那么可能会认为这个样例的学习价值较高,因为它能在较大程度上推动模型的优化。由此,根据每个样例项目会话数据的优化贡献大小,为其分配相应的优化学习价值。优化学习价值越高的样例项目会话数据,在后续的训练过程中将被赋予更高的优先级。例如,优化学习价值 = 1 / (损失函数值 + 训练代价值)。
由此,在前述的基础上,在应用层面,可以包括以下步骤。
步骤S150,获取输入项目会话数据,所述输入项目会话数据包括输入自然会话文本段、输入扩展会话文本段和输入项目关注节点信息;
步骤S160,依据所述输入自然会话文本段和所述输入项目关注节点信息进行联动会话关联矢量编码,生成目标自然会话关联矢量,依据所述输入扩展会话文本段和所述输入项目关注节点信息进行联动会话关联矢量编码,生成目标扩展会话关联矢量;
步骤S170,依据所述目标自然会话关联矢量和所述目标扩展会话关联矢量确定估计目标会话关联矢量;
步骤S180,将所述估计目标会话关联矢量输入第二知识关系估计网络中进行估计,生成知识关系属性特征,并基于各个所述知识关系属性特征进行知识图谱构建。例如,知识关系属性特征可能表示用户可能存在抑郁症的概率是多少,或者他的症状与哪些抑郁症类型最为相符等,由此可以构建对应的知识图谱,其中节点表示不同的实体,如“抑郁症”、“认知行为疗法”等,边则表示这些实体之间的关系,边的权重则由知识关系属性特征决定。比如,“心情低落”与“抑郁症”的关系边可能权重较高,反映了它们之间的紧密关联;而"锻炼"与"抑郁症"之间的关系边权重较低,说明它们之间的关联性较弱。
譬如,在可能的实施方式中,在前述实施例的基础上,本申请实施例的方法还可以包括:
步骤S210,获取构建的各个知识图谱,并根据构建的各个知识图谱进行聚类形成各个类别的知识图谱组团,在接收到针对候选查询对话文本的知识查询指令时,获取所述候选查询对话文本的对话文本分词向量,并对所述候选查询对话文本的对话文本分词向量进行语义映射得到所述候选查询对话文本的语义映射向量。例如,可以根据预先定义的规则或者模型,对所有知识图谱进行聚类。例如,可以有三个知识图谱组团:疾病、药品和医生。
步骤S220,依据语义映射向量,从各个类别的知识图谱组团中确定所述候选查询对话文本的语义映射向量对应的目标知识图谱组团。
例如,将接收到的用户查询("抑郁症的常见症状是什么?")进行分词处理,得到["抑郁症", "常见症状"]。然后,通过预训练的语义映射模型,例如word2vec或BERT,将这些词转换为语义映射向量,然后根据语义映射向量,从疾病、药品和医生这三个知识图谱组团中,选择与查询最相关的组团。因为“抑郁症”与疾病相关度最高,所以系统选择疾病知识图谱组团作为目标。
步骤S230,获取所述目标知识图谱组团中的各知识图谱数据的对话文本分词向量,并依据各所述知识图谱数据的对话文本分词向量,确定各所述知识图谱数据所对应的知识标签信息、及各所述知识图谱数据与所述候选查询对话文本的查询关联度信息。
例如,在疾病知识图谱组团中搜索包含“抑郁症”的知识图谱数据,并计算每个数据与查询的关联度。例如,找到一条数据:“抑郁症的常见症状包括持续的悲观、失去活力、食欲改变等”,这条数据与查询的关联度非常高。
步骤S240,依据所述查询关联度信息,对各所述知识图谱数据进行整理,生成第一知识图谱数据集合。
例如,可以按照查询关联度对找到的知识图谱数据进行排序,生成第一知识图谱数据集合。
步骤S250,依据所述知识图谱数据所对应的知识标签信息,对所述第一知识图谱数据集合中的各知识图谱数据的次序进行更新,生成第二知识图谱数据集合;其中,所述知识图谱数据所对应的知识标签信息表征所述知识图谱数据归属各知识标签的可能性。
例如,依据知识标签信息,例如实体类型标签、关系类型标签,可能会进一步调整数据的次序。例如,如果用户更关心严重的症状,可以优先展示严重症状的信息。
步骤S250,依据所述第二知识图谱数据集合,确定针对所述候选查询对话文本的知识图谱数据查询结果,并基于所述知识图谱数据查询结果对所述候选查询对话文本生成对应的推送知识内容。
例如,可以从第二知识图谱数据集合中选择关联度最高的数据作为查询结果。例如,如果“抑郁症的常见症状包括持续的悲观、失去活力、食欲改变等”这条数据的关联度最高,那么它就被确定为查询结果。然后会根据查询结果来生成对应的推送知识内容。这通常涉及到自然语言生成(NLG)技术,将查询结果转换为人类可以理解的自然语言文本。例如,系统可能会生成这样的回答:"根据我们的知识图谱,抑郁症的常见症状包括持续的悲观、失去活力、食欲改变等。"在实际应用中,系统还需要考虑如何提供更好的用户体验。例如,如果查询结果非常多,系统可能需要分批次展示;或者,如果用户对某一特定领域有深入的查询需求,系统可能需要进一步询问用户以精确查询结果。
基于以上步骤,通过对用户查询文本进行分词处理并进行语义映射,能够理解查询意图并选择最相关的知识图谱组团,在该知识图谱组团中获取知识图谱数据,并计算每个知识图谱数据与查询的关联度,以此生成有序的知识图谱数据集合,进一步提高了查询结果的准确性和相关性。通过根据知识图谱数据所对应的知识标签信息,对知识图谱数据集合中的各数据次序进行更新,使得查询结果能更好地满足用户的个性化需求,实现了知识查询的精细化管理,基于查询结果,系统能自动生成对应的推送知识内容,有效提升了服务效率。
也即,采用以上步骤,通过文本处理和语义映射技术,以及精细的知识图谱数据管理,查询结果更贴近用户实际需求。并且实现了知识查询的个性化和精细化:不同用户、不同场景、不同需求下,系统都能提供精准的查询服务。在此基础上,也提高了服务效率:自动化的查询处理和推送知识内容生成,大大节省了时间成本,提高了服务效率。同事,增强了系统的智能程度:全面利用知识图谱的优势,使得系统具备更高级别的智能化处理能力。
譬如,在一种可能的实施方式中,每个所述知识图谱组团对应一个对比语义映射向量,所述从各个类别的知识图谱组团中确定所述候选查询对话文本的语义映射向量对应的目标知识图谱组团,包括:分别确定所述候选查询对话文本的语义映射向量与各所述知识图谱组团对应的对比语义映射向量之间的特征偏离度;获取与所述语义映射向量的特征偏离度最小的对比语义映射向量所对应的聚类关注点,作为目标聚类关注点;从各个类别的知识图谱组团中确定所述目标聚类关注点对应的知识图谱组团,作为所述候选查询对话文本的语义映射向量对应的目标知识图谱组团。
譬如,一种可能的实施方式中,在所述依据所述知识图谱数据所对应的知识标签信息,对所述第一知识图谱数据集合中的各知识图谱数据的次序进行更新,生成第二知识图谱数据集合之后,所述方法还包括:获取所述目标知识图谱组团中的各知识图谱数据的语义映射向量;确定所述候选查询对话文本的语义映射向量与各所述知识图谱数据的语义映射向量之间的特征偏离度;依据所述特征偏离度,从所述目标知识图谱组团包括的各知识图谱数据中选取目标数量的知识图谱数据,生成第三知识图谱数据集合。
所述依据所述第二知识图谱数据集合,确定针对所述候选查询对话文本的知识图谱数据查询结果,包括:依据所述第三知识图谱数据集合,确定针对所述候选查询对话文本的知识图谱数据查询结果。
譬如,一种可能的实施方式中,依据各所述知识图谱数据的对话文本分词向量,确定各所述知识图谱数据与所述候选查询对话文本的查询关联度信息,包括:基于所述候选查询对话文本的对话文本分词向量与各所述知识图谱数据的对话文本分词向量的特征偏离度,确定所述知识图谱数据和所述候选查询对话文本的查询关联度信息。依据所述查询关联度信息,对各所述知识图谱数据进行整理,生成第一知识图谱数据集合,包括:依据所述知识图谱数据和所述候选查询对话文本的查询关联度信息,对所述目标知识图谱组团中的知识图谱数据进行整理,生成第一知识图谱数据集合。
譬如,一种可能的实施方式中,所述依据所述知识图谱数据所对应的知识标签信息,对所述第一知识图谱数据集合中的知识图谱数据进行调整,生成第二知识图谱数据集合,包括:对所述候选查询对话文本进行文本内容标签预测,生成所述候选查询对话文本的目标知识标签;依据所述目标知识标签及所述知识图谱数据所对应的知识标签信息,确定所述第一知识图谱数据集合中知识图谱数据的标签相关度;依据所述知识图谱数据所对应的知识标签信息、以及所述第一知识图谱数据集合中知识图谱数据的标签相关度,对所述第一知识图谱数据集合中的知识图谱数据进行更新,生成第二知识图谱数据集合。
譬如,一种可能的实施方式中,所述方法依据知识查询网络实现,所述知识查询网络包括语义编码子网络、引用子网络、次序整理子网络及查询子网络。所述获取所述候选查询对话文本的语义映射向量,包括:依据所述语义编码子网络,获取所述候选查询对话文本的语义映射向量。所述从各个类别的知识图谱组团中确定所述候选查询对话文本的语义映射向量对应的目标知识图谱组团,包括:依据所述引用子网络,依据所述语义映射向量,从各个类别的知识图谱组团中确定所述候选查询对话文本的语义映射向量对应的目标知识图谱组团。所述依据所述知识图谱数据所对应的知识标签信息,对所述第一知识图谱数据集合中的各知识图谱数据的次序进行更新,生成第二知识图谱数据集合,包括:依据所述次序整理子网络,获取所述目标知识图谱组团中的各知识图谱数据的对话文本分词向量,并依据所述次序整理子网络,依据各所述知识图谱数据的对话文本分词向量,确定各所述知识图谱数据所对应的知识标签信息、及各所述知识图谱数据与候选查询对话文本的查询关联度信息,依据所述查询关联度信息,对各所述知识图谱数据进行整理,生成第一知识图谱数据集合,依据所述知识图谱数据所对应的知识标签信息,对所述第一知识图谱数据集合中的各知识图谱数据的次序进行更新,生成第二知识图谱数据集合,所述知识图谱数据所对应的知识标签信息表征所述知识图谱数据归属各知识标签的可能性。所述确定针对所述候选查询对话文本的知识图谱数据查询结果,包括:依据所述查询子网络,依据所述第二知识图谱数据集合,确定针对所述候选查询对话文本的知识图谱数据查询结果。
譬如,一种可能的实施方式中,所述次序整理子网络包括第一标签预测单元、第二标签预测单元、标签比较单元及排列单元,所述依据所述次序整理子网络,依据所述知识图谱数据所对应的知识标签信息,对所述第一知识图谱数据集合中的知识图谱数据进行更新,生成第二知识图谱数据集合,包括:依据所述第一标签预测单元,获取所述目标知识图谱组团中各知识图谱数据所对应的知识标签信息;依据所述第二标签预测单元,对所述候选查询对话文本的基础知识图谱数据特征进行标签预测,生成所述候选查询对话文本对应的目标知识标签;依据所述标签比较单元,依据所述目标知识标签及所述知识图谱数据所对应的知识标签信息,确定所述第一知识图谱数据集合中的知识图谱数据的标签相关度;依据所述排列单元,依据所述标签相关度以及所述知识图谱数据所对应的知识标签信息,对所述第一知识图谱数据集合中的各知识图谱数据进行整理,生成第二知识图谱数据集合。
譬如,一种可能的实施方式中,所述依据所述语义编码子网络,获取所述候选查询对话文本的语义映射向量之前,所述方法还包括:
1、获取待训练文本数据序列以及初始化权重参数的所述知识查询网络,所述待训练文本数据包括靶向训练文本数据、积极训练文本数据及消极训练文本数据,所述靶向训练文本数据与所述积极训练文本数据为相同文本数据,所述靶向训练文本数据与所述消极训练文本数据为不相同文本数据;
2、依据所述知识查询网络的语义编码子网络,分别对所述待训练文本数据序列进行语义编码,生成所述待训练文本数据序列的语义映射向量;
3、依据所述知识查询网络的引用子网络,依据所述待训练文本数据序列的语义映射向量,从各个类别的知识图谱组团中确定所述待训练文本数据序列的语义映射向量对应的目标知识图谱组团;
4、依据所述知识查询网络的次序整理子网络,获取所述目标知识图谱组团中各知识图谱数据的次序整理信息,并依据所述次序整理信息对所述目标知识图谱组团中的知识图谱数据进行整理,生成预测第二知识图谱数据集合,所述次序整理信息包括以下至少之一:所述知识图谱数据和所述待训练文本数据序列的语义相关性参数、所述知识图谱数据所对应的知识标签信息;
5、依据所述知识查询网络的查询子网络,依据所述预测第二知识图谱数据集合,确定针对所述待训练文本数据序列的知识图谱数据查询结果;
6、获取与所述待训练文本数据序列的语义映射向量对应的训练误差值,并依据所述待训练文本数据序列与所述预测第二知识图谱数据集合中各知识图谱数据之间的偏离度,确定所述待训练文本数据序列的查询误差值;
7、依据所述训练误差值以及所述查询误差值,更新所述知识查询网络的网络权重信息。
譬如,一种可能的实施方式中,所述依据所述第二知识图谱数据集合,确定针对所述候选查询对话文本的知识图谱数据查询结果,包括:从所述第二知识图谱数据集合中的首个知识图谱数据开始,依次进行知识图谱数据选取,直至选取目标数量的所述知识图谱数据,确定为针对所述候选查询对话文本的知识图谱数据查询结果。
图2示意性地示出了可被用于实现本申请中所述的各个实施例的大数据服务器系统100。
对于一个实施例,图2示出了大数据服务器系统100,该大数据服务器系统100具有多个处理器102、被耦合到(多个)处理器102中的一个或多个的控制模块(芯片组)104、被耦合到控制模块104的存储器106、被耦合到控制模块104的非易失性存储器(NVM)/存储设备108、被耦合到控制模块104的多个输入/输出设备110,和被耦合到控制模块106的网络接口112。
处理器102可包括多个单核或多核处理器,处理器102可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。一些可替代的实施方式中,大数据服务器系统100能够作为本申请实施例中所述网关等服务器设备。
一些可替代的实施方式中,大数据服务器系统100可包括具有指令114的多个计算机可读介质(例如,存储器106或NVM/存储设备108)和与该多个计算机可读介质相合并被配置为执行指令114以实现模块从而执行本公开中所述的动作的多个处理器102。
对于一个实施例,控制模块104可包括任意适当的接口控制器,以向(多个)处理器102中的一个或多个和/或与控制模块104通信的任意适当的设备或组件提供任意适当的接口。
控制模块104可包括存储器控制器模块,以向存储器106提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
存储器106可被用于例如为大数据服务器系统100加载和存储数据和/或指令114。对于一个实施例,存储器106可包括任意适当的易失性存储器,例如,适当的DRAM。一些可替代的实施方式中,存储器106可包括双倍数据速率类型四同步动态随机存取存储器。
对于一个实施例,控制模块104可包括多个输入/输出控制器,以向NVM/存储设备108及(多个)输入/输出设备110提供接口。
例如,NVM/存储设备108可被用于存储数据和/或指令114。NVM/存储设备108可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(多个)非易失性存储设备。
NVM/存储设备108可包括在物理上作为大数据服务器系统100被安装在其上的设备的一部分的存储资源,或者其可被该设备访问可不必作为该设备的一部分。例如,NVM/存储设备108可结合网络经由(多个)输入/输出设备110进行访问。
(多个)输入/输出设备110可为大数据服务器系统100提供接口以与任意其它适当的设备通信,输入/输出设备110可以包括通信组件、拼音组件、传感器组件等。网络接口112可为大数据服务器系统100提供接口以依据多个网络通信,大数据服务器系统100可依据多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的多个组件进行无线通信,例如接入依据通信标准的无线网络,如WiFi、2G、3G、4G、5G等,或它们的组合进行无线通信。
对于一个实施例,(多个)处理器102中的一个或多个可与控制模块104的多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(多个)处理器102中的一个或多个可与控制模块104的多个控制器的逻辑封装在一起以形成系统级封装。对于一个实施例,(多个)处理器102中的一个或多个可与控制模块104的多个控制器的逻辑集成在同一模具上。对于一个实施例,(多个)处理器102中的一个或多个可与控制模块104的多个控制器的逻辑集成在同一模具上以形成片上系统。
在各个实施例中,大数据服务器系统100可以但不限于是:台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中,大数据服务器系统100可具有更多或更少的组件和/或不同的架构。例如,一些可替代的实施方式中,大数据服务器系统100包括多个摄像机、键盘、液晶显示器屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路和扬声器。
以上对本申请进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种基于大数据的知识图谱构建方法,其特征在于,应用于大数据服务器系统,所述方法包括:
获取样例项目会话数据序列,所述样例项目会话数据序列包括多个样例项目会话数据、所述多个样例项目会话数据对应的样例学习价值和所述多个样例项目会话数据对应的目标会话关联矢量,所述样例项目会话数据包括自然会话文本段、扩展会话文本段和项目关注节点信息,所述目标会话关联矢量依据自然会话关联矢量和扩展会话关联矢量得到,所述自然会话关联矢量是依据所述自然会话文本段和所述项目关注节点信息进行联动会话关联矢量解析生成的,所述扩展会话关联矢量是依据所述扩展会话文本段和所述项目关注节点信息进行联动会话关联矢量解析生成的,所述样例项目会话数据序列来源于目标用户的会话文本大数据中的指定对话场景的会话文本数据;
依据所述样例学习价值从所述样例项目会话数据序列中确定当前样例项目会话数据;
将所述当前样例项目会话数据对应的当前目标会话关联矢量加载至初始化神经网络中进行初始化知识学习,当初始化知识学习结束时,生成第一知识关系估计网络;
依据所述第一知识关系估计网络优化所述多个样例项目会话数据对应的样例学习价值,并返回依据样例学习价值从所述样例项目会话数据序列中确定当前样例项目会话数据的操作,当检测到所述第一知识关系估计网络收敛时,生成第二知识关系估计网络,所述第二知识关系估计网络用于估计加载的会话文本段与加载的项目关注节点信息对应的知识关系属性特征,并基于各个会话文本段与加载的项目关注节点信息对应的知识关系属性特征进行知识图谱构建。
2.根据权利要求1所述的基于大数据的知识图谱构建方法,其特征在于,在所述获取样例项目会话数据序列之前,还包括:
获取所述多个样例项目会话数据,所述样例项目会话数据包括自然会话文本段、扩展会话文本段和项目关注节点信息;
依据所述自然会话文本段和所述项目关注节点信息进行联动会话关联矢量编码,生成第一自然会话关联矢量;
依据所述扩展会话文本段和所述项目关注节点信息进行联动会话关联矢量编码,生成第一扩展会话关联矢量,并依据所述第一自然会话关联矢量和第一扩展会话关联矢量确定所述多个样例项目会话数据对应的第一目标会话关联矢量;
将所述多个样例项目会话数据对应的第一目标会话关联矢量加载至先验知识关系估计网络中进行估计,生成所述多个样例项目会话数据对应的第一知识关系属性特征;
依据所述多个样例项目会话数据对应的第一知识关系属性特征和多个样例项目会话数据对应的标注知识关系属性特征进行训练代价值确定,生成所述多个样例项目会话数据对应的第一训练代价值;
依据所述第一训练代价值优化所述先验知识关系估计网络,并返回将所述多个样例项目会话数据对应的目标会话关联矢量加载至先验知识关系估计网络中进行估计的操作,直到所述第一训练代价值不再继续下降时,生成初始化神经网络和所述第一目标会话关联矢量对应的显著性系数;
依据所述先验知识关系估计网络优化结束时所述多个样例项目会话数据对应的训练代价值确定所述多个样例项目会话数据对应的样例学习价值,并依据所述显著性系数从所述第一目标会话关联矢量中选取目标会话关联矢量。
3.根据权利要求2所述的基于大数据的知识图谱构建方法,其特征在于,将所述多个样例项目会话数据对应的第一目标会话关联矢量加载至先验知识关系估计网络中进行估计,生成所述多个样例项目会话数据对应的第一知识关系属性特征,包括:
将所述多个样例项目会话数据对应的第一目标会话关联矢量加载至先验知识关系估计网络中;
所述先验知识关系估计网络将所述多个样例项目会话数据对应的第一目标会话关联矢量作为候选矢量序列,并计算所述第一目标会话关联矢量对应的目标显著性系数,依据所述目标显著性系数从所述第一目标会话关联矢量中确定目标分解矢量,依据所述目标分解矢量将所述多个样例项目会话数据对应的第一目标会话关联矢量进行分解,生成各个分解信息,所述分解信息中包括各个分解项目会话数据对应的第一目标会话关联矢量,将所述各个分解信息作为候选矢量序列,并返回计算所述第一目标会话关联矢量对应的目标显著性系数的步骤迭代,直到分解结束时,生成所述多个样例项目会话数据对应的第一知识关系属性特征。
4.根据权利要求1所述的基于大数据的知识图谱构建方法,其特征在于,所述获取样例项目会话数据序列,所述样例项目会话数据序列包括所述多个样例项目会话数据对应的目标会话关联矢量,包括:
依据所述自然会话文本段和所述项目关注节点信息进行联动会话关联矢量编码,生成所述自然会话关联矢量;
依据所述扩展会话文本段和所述项目关注节点信息进行联动会话关联矢量编码,生成所述扩展会话关联矢量;
计算所述自然会话关联矢量和所述扩展会话关联矢量之间的融合矢量,生成目标会话关联矢量。
5.根据权利要求4所述的基于大数据的知识图谱构建方法,其特征在于,所述自然会话关联矢量包括第一自然会话关联矢量和第二自然会话关联矢量;
所述依据所述自然会话文本段和所述项目关注节点信息进行联动会话关联矢量编码,生成所述自然会话关联矢量,包括:
依据所述自然会话文本段和所述项目关注节点信息依据图表示学习模型进行联动会话关联矢量编码,生成第一自然会话关联矢量;
依据所述自然会话文本段和所述项目关注节点信息依据双向长短时记忆网络进行联动会话关联矢量编码,生成第二自然会话关联矢量;
依据所述第一自然会话关联矢量和所述第二自然会话关联矢量进行融合,生成所述自然会话关联矢量。
6.根据权利要求1所述的基于大数据的知识图谱构建方法,其特征在于,所述依据所述样例学习价值从所述样例项目会话数据序列中确定当前样例项目会话数据,包括:
获取对话项目族谱信息,依据所述对话项目族谱信息将所述样例项目会话数据序列进行数据分配,生成多个样例项目会话数据簇;
获取当前训练指导信息,依据所述当前训练指导信息确定选取项目会话数据量和项目会话数据分布;
依据所述项目会话数据量和所述项目会话数据分布基于所述样例学习价值从所述多个样例项目会话数据簇中选取当前样例项目会话数据,生成目标当前样例项目会话数据序列。
7.根据权利要求1所述的基于大数据的知识图谱构建方法,其特征在于,所述将所述当前样例项目会话数据对应的当前目标会话关联矢量加载至初始化神经网络中进行初始化知识学习,当初始化知识学习结束时,生成第一知识关系估计网络,包括:
将当前样例项目会话数据对应的当前目标会话关联矢量加载至初始化神经网络中进行估计,生成当前知识关系属性特征;
计算所述当前知识关系属性特征与所述当前样例项目会话数据对应的标注知识关系属性特征之间的损失函数值,生成当前训练代价值;
依据所述当前训练代价值优化所述初始化神经网络,并返回将当前样例项目会话数据对应的当前目标会话关联矢量加载至初始化神经网络中进行估计,生成当前知识关系属性特征的步骤执行,直到达到优化收敛要求时,生成第一知识关系估计网络。
8.根据权利要求1所述的基于大数据的知识图谱构建方法,其特征在于,所述依据所述第一知识关系估计网络优化所述多个样例项目会话数据对应的样例学习价值,包括:
将所述多个样例项目会话数据对应的目标会话关联矢量加载至所述第一知识关系估计网络中,生成所述多个样例项目会话数据对应的基础知识关系属性特征;
计算所述多个样例项目会话数据对应的基础知识关系属性特征与所述多个样例项目会话数据对应的标注知识关系属性特征之间的损失函数值,生成第二训练代价值;
获取当前训练指导信息,依据所述当前训练指导信息计算优化指导参数;
将所述优化指导参数与所述多个样例项目会话数据对应的第二训练代价值进行对比,生成所述多个样例项目会话数据对应的对比结果;
基于所述多个样例项目会话数据对应的对比结果确定所述多个样例项目会话数据对应的优化学习价值。
9.根据权利要求1所述的基于大数据的知识图谱构建方法,其特征在于,所述方法包括:
获取输入项目会话数据,所述输入项目会话数据包括输入自然会话文本段、输入扩展会话文本段和输入项目关注节点信息;
依据所述输入自然会话文本段和所述输入项目关注节点信息进行联动会话关联矢量编码,生成目标自然会话关联矢量,依据所述输入扩展会话文本段和所述输入项目关注节点信息进行联动会话关联矢量编码,生成目标扩展会话关联矢量;
依据所述目标自然会话关联矢量和所述目标扩展会话关联矢量确定估计目标会话关联矢量;
将所述估计目标会话关联矢量输入第二知识关系估计网络中进行估计,生成知识关系属性特征,并基于各个所述知识关系属性特征进行知识图谱构建。
10.一种基于大数据的知识图谱构建系统,其特征在于,所述基于大数据的知识图谱构建系统包括处理器和机器可读存储介质,该机器可读存储介质中存储有机器可执行指令,该机器可执行指令由该处理器加载并执行以实现权利要求1-9中任意一项所述的基于大数据的知识图谱构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311353570.4A CN117094387B (zh) | 2023-10-19 | 2023-10-19 | 基于大数据的知识图谱构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311353570.4A CN117094387B (zh) | 2023-10-19 | 2023-10-19 | 基于大数据的知识图谱构建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117094387A true CN117094387A (zh) | 2023-11-21 |
CN117094387B CN117094387B (zh) | 2023-12-19 |
Family
ID=88781563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311353570.4A Active CN117094387B (zh) | 2023-10-19 | 2023-10-19 | 基于大数据的知识图谱构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117094387B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200142959A1 (en) * | 2018-11-05 | 2020-05-07 | International Business Machines Corporation | Driving intent expansion via anomaly detection in a modular conversational system |
CN111797321A (zh) * | 2020-07-07 | 2020-10-20 | 山东大学 | 一种面向不同场景的个性化知识推荐方法及系统 |
CN112101984A (zh) * | 2020-08-16 | 2020-12-18 | 复旦大学 | 一种融合用户微观行为和知识图谱的会话推荐模型 |
CN113590900A (zh) * | 2021-07-29 | 2021-11-02 | 南京工业大学 | 一种融合动态知识图谱的序列推荐方法 |
CN113596131A (zh) * | 2020-12-21 | 2021-11-02 | 刚倩 | 基于深度学习的页面词条提取模型训练方法及系统 |
CN113961691A (zh) * | 2021-11-10 | 2022-01-21 | 河海大学 | 基于图神经网络的动态推理对话生成方法 |
CN114416941A (zh) * | 2021-12-28 | 2022-04-29 | 北京百度网讯科技有限公司 | 融合知识图谱的对话知识点确定模型的生成方法及装置 |
US20220230628A1 (en) * | 2021-01-20 | 2022-07-21 | Microsoft Technology Licensing, Llc | Generation of optimized spoken language understanding model through joint training with integrated knowledge-language module |
CN114969275A (zh) * | 2021-02-19 | 2022-08-30 | 深圳市奥拓电子股份有限公司 | 一种基于银行知识图谱的对话方法及其系统 |
-
2023
- 2023-10-19 CN CN202311353570.4A patent/CN117094387B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200142959A1 (en) * | 2018-11-05 | 2020-05-07 | International Business Machines Corporation | Driving intent expansion via anomaly detection in a modular conversational system |
CN111797321A (zh) * | 2020-07-07 | 2020-10-20 | 山东大学 | 一种面向不同场景的个性化知识推荐方法及系统 |
CN112101984A (zh) * | 2020-08-16 | 2020-12-18 | 复旦大学 | 一种融合用户微观行为和知识图谱的会话推荐模型 |
CN113596131A (zh) * | 2020-12-21 | 2021-11-02 | 刚倩 | 基于深度学习的页面词条提取模型训练方法及系统 |
US20220230628A1 (en) * | 2021-01-20 | 2022-07-21 | Microsoft Technology Licensing, Llc | Generation of optimized spoken language understanding model through joint training with integrated knowledge-language module |
CN114969275A (zh) * | 2021-02-19 | 2022-08-30 | 深圳市奥拓电子股份有限公司 | 一种基于银行知识图谱的对话方法及其系统 |
CN113590900A (zh) * | 2021-07-29 | 2021-11-02 | 南京工业大学 | 一种融合动态知识图谱的序列推荐方法 |
CN113961691A (zh) * | 2021-11-10 | 2022-01-21 | 河海大学 | 基于图神经网络的动态推理对话生成方法 |
CN114416941A (zh) * | 2021-12-28 | 2022-04-29 | 北京百度网讯科技有限公司 | 融合知识图谱的对话知识点确定模型的生成方法及装置 |
Non-Patent Citations (3)
Title |
---|
MURASE Y等: "Associative knowledge feature vector inferred on external knowledge base for dialog state tracking", 《COMPUTER SPEECH & LANGUAGE》, vol. 54, pages 1 - 16 * |
金宇等: "基于知识图谱的兴趣捕捉推荐算法", 《计算机科学》, pages 1 - 14 * |
黄震华等: "会话场景下基于特征增强的图神经推荐方法", 《计算机学报》, vol. 45, no. 4, pages 766 - 780 * |
Also Published As
Publication number | Publication date |
---|---|
CN117094387B (zh) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10963794B2 (en) | Concept analysis operations utilizing accelerators | |
RU2693184C2 (ru) | Моделирование контекста сеанса для систем понимания разговорной речи | |
WO2020056621A1 (zh) | 一种意图识别模型的学习方法、装置及设备 | |
WO2020228732A1 (zh) | 训练对话状态跟踪分类器的方法和计算机设备 | |
CN112328891B (zh) | 训练搜索模型的方法、搜索目标对象的方法及其装置 | |
CN111737426B (zh) | 问答模型的训练方法、计算机设备以及可读存储介质 | |
WO2010045375A1 (en) | Improving dialog coherence using semantic features | |
JP2021507350A (ja) | 複雑な回答の補強証拠取り出し | |
CN111563158B (zh) | 文本排序方法、排序装置、服务器和计算机可读存储介质 | |
US20220351634A1 (en) | Question answering systems | |
CN112052318A (zh) | 一种语义识别方法、装置、计算机设备和存储介质 | |
KR20230008685A (ko) | 문답 처리 방법과 장치, 문답 모델의 훈련 방법과 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 | |
Saha et al. | Towards sentiment-aware multi-modal dialogue policy learning | |
CN111651579B (zh) | 信息查询方法、装置、计算机设备和存储介质 | |
EP4298556A1 (en) | Granular neural network architecture search over low-level primitives | |
CN110941962B (zh) | 基于图网络的答案句选择方法及装置 | |
Hou et al. | A corpus-free state2seq user simulator for task-oriented dialogue | |
CN117094387B (zh) | 基于大数据的知识图谱构建方法及系统 | |
CN114676237A (zh) | 语句相似度确定方法、装置、计算机设备和存储介质 | |
CN116226320A (zh) | 一种预测下文信息的方法、装置、电子设备及存储介质 | |
CN115269844B (zh) | 模型的处理方法、装置、电子设备和存储介质 | |
Gonzalez et al. | Exploring Augmentation and Cognitive Strategies for AI based Synthetic Personae | |
CN117217858A (zh) | 基于人工智能的物品推荐方法、装置、设备及存储介质 | |
CN117574992A (zh) | 嵌入维度的分配方法、装置、设备及存储介质 | |
Fan et al. | Zero-Shot Event Detection Based on Prompt and Deep Prototype Clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |