CN116628219A - 一种基于知识图谱的问答方法 - Google Patents
一种基于知识图谱的问答方法 Download PDFInfo
- Publication number
- CN116628219A CN116628219A CN202310521713.1A CN202310521713A CN116628219A CN 116628219 A CN116628219 A CN 116628219A CN 202310521713 A CN202310521713 A CN 202310521713A CN 116628219 A CN116628219 A CN 116628219A
- Authority
- CN
- China
- Prior art keywords
- question
- knowledge
- reasoning
- answer
- hop
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 239000013598 vector Substances 0.000 claims abstract description 78
- 230000004927 fusion Effects 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 230000007246 mechanism Effects 0.000 claims description 13
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 239000010410 layer Substances 0.000 claims description 9
- 239000002356 single layer Substances 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000011282 treatment Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims 2
- 239000003814 drug Substances 0.000 description 7
- 208000010201 Exanthema Diseases 0.000 description 4
- 208000003251 Pruritus Diseases 0.000 description 4
- 201000005884 exanthem Diseases 0.000 description 4
- 206010037844 rash Diseases 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 201000004624 Dermatitis Diseases 0.000 description 3
- 206010020751 Hypersensitivity Diseases 0.000 description 3
- 208000010668 atopic eczema Diseases 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007803 itching Effects 0.000 description 3
- 235000008694 Humulus lupulus Nutrition 0.000 description 2
- 208000024780 Urticaria Diseases 0.000 description 2
- 230000007815 allergy Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000003449 preventive effect Effects 0.000 description 2
- 230000005180 public health Effects 0.000 description 2
- 241001104043 Syringa Species 0.000 description 1
- 235000004338 Syringa vulgaris Nutrition 0.000 description 1
- 208000026935 allergic disease Diseases 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000002483 medication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 231100000046 skin rash Toxicity 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于知识图谱的问答方法,包括以下步骤:采集相关领域的问答语料和领域知识,进行预处理,构建好知识库和问答训练库;利用训练库进行特征融合训练,捕捉问题特征,识别出提问问题中的关键实体;基于识别出的关键实体进行知识推理,在知识推理过程中为了处理可能会遇到的较为复杂的提问,提出一种基于卷积推理的多跳知识图谱问答算法,在问答系统最终的答案推理部分利用一种全新的组合嵌入向量提取方法,通过组合嵌入向量和候选实体嵌入向量之间的相似度计算作为答案推理的评分依据来构建评分函数最终确定问题的答案。本发明依据知识库中已有的实体关系进行延伸,能够回答较为复杂的自然语言问题。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于知识图谱的问答方法。
背景技术
知识图谱问答算法是一种基于人工智能和自然语言处理技术的智能问答系统,旨在帮助用户在知识图谱上提出问题,并给出准确的答案。多跳知识图谱问答算法是一种能够回答关于实体之间复杂关系的自然语言问题的算法。知识图谱问答是利用整理在知识图谱中的领域数据作为问答库进行智能问答的技术,它通过在知识图谱中整理好的知识的基础上进行推理来回答给定的问题,并利用知识图谱中的三元组来获取答案。传统的问答系统一般基于检索或基于模板,其缺点是对于复杂问题的处理能力弱。
发明内容
本发明要克服现有技术的上述缺点,提供一种基于知识图谱的问答方法。本发明利用多跳知识图谱问答算法能够自动推理并获取多个实体之间的关系,从而回答复杂的自然语言问题。
一种基于知识图谱的问答方法,包括以下步骤:
S1.采集相关领域的问答语料和领域知识,进行预处理,构建好知识库和问答训练库。
S2.利用训练库进行特征融合训练,捕捉问题特征,识别出提问问题中的关键实体。
S3.基于识别出的关键实体进行知识推理,在知识推理过程中为了处理可能会遇到的较为复杂的提问,提出一种基于卷积推理的多跳知识图谱问答算法,在问答系统最终的答案推理部分利用一种全新的组合嵌入向量提取方法,通过组合嵌入向量和候选实体嵌入向量之间的相似度计算作为答案推理的评分依据来构建评分函数最终确定问题的答案。
进一步,步骤S1具体包括:
S1.1从领域专业网站获取数据获取问答数据;
将依据从相关领域的专业网站上获取咨询对话作为训练语料帮助理解提问的问题。数据包括即为一组键值对,QS={<Q1,A1>,<Q2,A2>,<Q3,A3>...<Qn,An>},其中<Qi,Ai>就是一组相对应的问题和回答,将采集到的数据进行清洗,接着对用户提出的问题进行分类和标注,以便更好地理解和回答这些问题。
S1.2数据预处理;
对所获取的数据进行预处理,使用N-gram模型得到获取的领域问答数据的字符级特征向量表示,通过Word2Vec将每个单词转换为低维向量,然后将这些向量组合成句子向量或段落向量,获取问题的语义级向量特征。
S1.3构建领域知识图谱;
从各种渠道收集领域相关的数据,对收集到的数据进行清洗、去重、标注等处理,使其符合建模要求。进行知识抽取,将相关的信息以三元组的形式存储。确定好知识图谱的构建规则,将知识存入数据库中。
进一步,步骤S2具体包括:
明确提问者的问题并提取出关键的信息;为了获取的问题中信息的质量所提出的问题信息模型,结合了单词的语义和字符特征,从而更好地描述了问题的特征。提取出问题中的关键实体。下面是详细步骤:
S2.1特征融合
问题中的单词与知识图谱中的关系词存在的语义相似性,准确地学习问题中与知识图谱相似的关系信息对于获得正确答案至关重要。因此,将步骤S1.2中获得的问题语义级特征和字符级特征进行融合,然后输入到LSTM语言模型中,此处所用向量需要进行归一化处理,以获得问题中单词的嵌入向量。
使用两个LSTM模型,一个用于处理字符级输入,另一个用于处理语义级输入。这两个模型的输出将被连接起来,然后输入到一个全连接层中,以产生最终的融合表示。
hz=LSTMh(qy)+LSTMc(qz)⑴
hi=hzi/(hz1+hz2+…+hzn)*100%⑵
其中中,hz代表问题q中每个单词z的语义级特征qy和字符级特征qz输入后将输出全连接的结果。并且对于问题中的n个单词,每个单词得到的嵌入向量都进行归一化处理得到嵌入向量hi。
S2.2用全局注意力机制计算嵌入向量;
为了更好地捕捉问题的关键特征实体,采用一种全局注意力机制来计算问题的嵌入向量。具体地说,这种机制利用前面得到的每个单词的嵌入向量hi作为基础,能够有效地捕捉关键信息并产生更为准确的嵌入向量。
α=Softmax(hz*uv)⑶
α代表问题中每个单词的重要性权重,u和v则代表两个不同的权重矩阵。使用α对hz进行加权,并将加权后的结果累加,以计算问题嵌入向量he。
S2.3问题实体识别基于步骤S1.1得到的问答训练语料,帮助识别出提问中的实体。在步骤s1.1中已经把训练问题进行了分类标注,按照该领域的常用分类进行划分。通过对已有的训练数据集进行词性标注,更准确地识别和回答用户的提问。通过卷积神经网络融合步骤s2.2全局注意力机制的嵌入向量计算方法,提取出问题中的特征。也就是识别出问题中的实体与关系。
进一步,步骤S3具体包括:
利用多跳推理探索与知识库中的实体关系相关的更深层次的信息,推理得出新的关系。这个过程需要使用多个三元组进行推理。
多个实体和关系之间的复杂信息通过多次跳跃来获取。步骤S2中已经识别出问题中的特征也就是知识图谱中的实体,接下来就要通过实体与关系进行推理并得到答案。下面是详细步骤。
S3.1单跳查询;
利用知识图谱进行单跳查询。如此可以通过查询某个节点的所有邻居节点来实现,单跳查询即可满足查询需要。
S3.2多跳推理;
如果遇到相对复杂的问题,无法通过单跳查询解决时候,就要使用多跳推理进行答案推理,具体包括:
S3.2.1实体关系向量化表示;
进行多跳推理之前,针对每个实体e和关系r,先使用知识图谱嵌入模型将映射到低维空间转化为低维的向量表示。
S3.2.2多跳知识推理;
根据步骤S3.2.1中映射的低维向量表示,通过一个单层卷积神经网络计算每个三元组的得分,构建答案评分函数,计算候选答案各自的评分。
其公式如下所示。
score=σ(MLP(f([hs;hq]z))·hc)⑸
公式中有三个向量:主题实体s、问题q和候选答案实体c各自的嵌入向量。步骤s3.2.1中得到的向量被输入到一个单层卷积神经网络中进行处理,以获取更深层次的特征嵌入。将主题实体和问题嵌入向量连接在一起,并使用卷积神经网络和多层神经网络来获得这些特征。最后通过全连接层与候选答案实体c的嵌入向量进行相乘,来得到各个答案实体的得分。选取其中得分最高的候选答案作为多跳知识推理的答案。
S3.3推理结果汇总;
将单跳查询和多跳推理得到的结果进行汇总,得到最终的答案。
本发明结合卷积推理技术尝试提出了一种基于知识图谱的问答模型构建方法帮助处理复杂提问,采用字符特征和语义特征相结合的方式进行实体识别,从而更好地理解问题。而在答案推理模型中,本发明采用基于卷积神经网络的策略辅以新的评分函数来帮助推理,以获得更好的多跳接推理能力。
本发明的优点是:利用多跳知识图谱算法,推理并获取多个实体之间的关系,通过全局注意力机制极大地加强了对于多跳复杂问题的推理能力。从而依据知识库中已有的实体关系进行延伸,能够回答较为复杂的自然语言问题。
附图说明
图1是本发明方法的流程图。
具体实施方式
下面结合附图,进一步说明本发明的技术方案。
本发明以医疗知识图谱的问答系统为例,说明本发明方法。为此,需要将医疗专业网站为信息源得到的信息为例整理成知识图谱。
本实施例的一种基于知识图谱的问答方法,包括以下步骤:
步骤一、数据采集和预处理;
使用知识图谱进行知识库构建,将构建问答模型。将医疗专业网站为信息源得到的信息为例整理成知识图谱。具体包括:
S1.1从医疗网站获取数据获取问答数据;
将依据从丁香园等专业网站上获取的医生与患者之间的对话作为训练语料帮助理解提问的问题。数据包括即为一组键值对,QS={<Q1,A1>,<Q2,A2>,<Q3,A3>...<Qn,An>},其中<Qi,Ai>就是一组相对应的问题和回答,将采集到的数据进行清洗,接着对用户提出的问题进行分类和标注,以便更好地理解和回答这些问题。
S1.2数据预处理;
对所获取的数据进行预处理,使用N-gram模型得到获取的医疗问答数据的字符级特征向量表示,通过Word2Vec将每个单词转换为低维向量,然后将这些向量组合成句子向量或段落向量,获取问题的语义级向量特征。
S1.3构建医疗知识图谱;
从各种渠道收集医疗相关的数据,如医疗网站、论文、书籍、医院数据等。这些数据包括病例、症状、药品、手术等信息。对收集到的数据进行清洗、去重、标注等处理,使其符合建模要求。进行知识抽取,将相关的信息以三元组的形式存储。确定好知识图谱的构建规则,将知识存入数据库中,涉及基础医学类、临床医学类、口腔医学类、公共卫生与预防医学类等方向。
步骤二、捕捉问题特征;
明确提问者的问题并提取出关键的信息;为了获取的问题中信息的质量所提出的问题信息模型,结合了单词的语义和字符特征,从而更好地描述了问题的特征。提取出问题中的关键实体。下面是详细步骤:
S2.1特征融合
问题中的单词与知识图谱中的关系词存在的语义相似性,准确地学习问题中与知识图谱相似的关系信息对于获得正确答案至关重要。因此,将步骤S1.2中获得的问题语义级特征和字符级特征进行融合,然后输入到LSTM语言模型中,此处所用向量需要进行归一化处理,以获得问题中单词的嵌入向量。
使用两个LSTM模型,一个用于处理字符级输入,另一个用于处理语义级输入。这两个模型的输出将被连接起来,然后输入到一个全连接层中,以产生最终的融合表示。
hz=LSTMh(qy)+LSTMc(qz)⑴
hi=hzi/(hz1+hz2+…+hzn)*100%⑵
其中中,hz代表问题q中每个单词z的语义级特征qy和字符级特征qz输入后将输出全连接的结果。并且对于问题中的n个单词,每个单词得到的嵌入向量都进行归一化处理得到嵌入向量hi。
S2.2用全局注意力机制计算嵌入向量;
为了更好地捕捉问题的关键特征实体,采用一种全局注意力机制来计算问题的嵌入向量。具体地说,这种机制利用前面得到的每个单词的嵌入向量hi作为基础,能够有效地捕捉关键信息并产生更为准确的嵌入向量。
α=Softmax(hz*uv)⑶
α代表问题中每个单词的重要性权重,u和v则代表两个不同的权重矩阵。使用α对hz进行加权,并将加权后的结果累加,以计算问题嵌入向量he。
S2.3问题实体识别基于步骤S1.1得到的问答训练语料,帮助识别出提问中的实体。在步骤s1.1中已经把训练问题进行了分类标注,例如基础医学类、临床医学类、口腔医学类、公共卫生与预防医学类等。通过对已有的训练数据集进行词性标注,更准确地识别和回答用户的提问。通过卷积神经网络融合步骤s2.2全局注意力机制的嵌入向量计算方法,提取出问题中的特征。也就是识别出问题中的实体与关系。
步骤三、基于问题实体进行知识推理;
多跳知识推理可以用来推导出更加深入的关联信息。比如病人提出问题“我手臂上的皮肤有红疹和瘙痒,是什么原因?”,根据用户提供的症状(红疹和瘙痒),系统可以查询知识库,找到可能的疾病,例如湿疹、荨麻疹等。然后,系统可以利用知识库中的医学知识来进一步推断疾病的原因。例如,湿疹可能由于过敏、环境因素或基因遗传等因素引起,而荨麻疹则通常是过敏反应导致。从而得到正确的答案。接下来,利用多跳推理探索与症状相关的更深层次的信息,例如,系统可以利用知识库中的医学知识,找到与红疹和瘙痒相关的更深层次的症状,如皮疹的形状、疼痛程度等等。通过这些信息,得出更加准确的诊断和解释。这个过程需要使用多个三元组进行推理。
在知识图谱中,每个实体都可以看作是一个节点,每个关系都可以看作是节点之间的边。但是,在实际应用中,通常需要获取的是多个实体和关系之间的复杂信息通过多次跳跃来获取。步骤二中已经识别出问题中的特征也就是知识图谱中的实体,接下来就要通过实体与关系进行推理并得到答案。下面是详细步骤。
S3.1单跳查询;
利用知识图谱进行单跳查询,如前述例子中即查询实体“湿疹”与属性“瘙痒”的相关节点。如此可以通过查询某个节点的所有邻居节点来实现,单跳查询即可满足查询需要。
S3.2多跳推理;
遇到如题例中的复杂医疗问题,无法通过单跳查询解决时候,就要使用多跳推理进行答案推理,具体包括:
S3.2.1实体关系向量化表示;
进行多跳推理之前,针对每个实体e和关系r,先使用知识图谱嵌入模型将映射到低维空间转化为低维的向量表示。
S3.2.2多跳知识推理;
根据步骤s3.2.1中映射的低维向量表示,通过一个单层卷积神经网络计算每个三元组的得分,构建答案评分函数,计算候选答案各自的评分,其公式如下:
score=σ(MLP(f([hs;hq]z))·hc)⑸
公式中有三个向量:主题实体s、问题q和候选答案实体c各自的嵌入向量。步骤s3.2.1中得到的向量被输入到一个单层卷积神经网络中进行处理,以获取更深层次的特征嵌入。将主题实体和问题嵌入向量连接在一起,并使用卷积神经网络和多层神经网络来获得这些特征。最后通过全连接层与候选答案实体c的嵌入向量进行相乘,来得到各个答案实体的得分。选取其中得分最高的候选答案作为多跳知识推理的答案。
S3.3推理结果汇总;
将单跳查询和多跳推理得到的结果进行汇总,得到最终的答案。对于该问题,汇总得到的答案可能包括“过敏、环境因素或基因遗传等因素引起”。
Claims (4)
1.一种基于知识图谱的问答方法,包括以下步骤:
S1.采集相关领域的问答语料和领域知识,进行预处理,构建好知识库和问答训练库;
S2.利用训练库进行特征融合训练,捕捉问题特征,识别出提问问题中的关键实体;
S3.基于识别出的关键实体进行知识推理,在知识推理过程中为了处理可能会遇到的较为复杂的提问,提出一种基于卷积推理的多跳知识图谱问答算法,在问答系统最终的答案推理部分利用一种全新的组合嵌入向量提取方法,通过组合嵌入向量和候选实体嵌入向量之间的相似度计算作为答案推理的评分依据来构建评分函数最终确定问题的答案。
2.如权利要求1所述的一种基于知识图谱的问答方法,其特征在于:步骤S1具体包括:
S1.1从领域专业网站获取数据获取问答数据;
将依据从相关领域的专业网站上获取咨询对话作为训练语料帮助理解提问的问题;数据包括即为一组键值对,QS={<Q1,A1>,<Q2,A2>,<Q3,A3>...<Qn,An>},其中<Qi,Ai>就是一组相对应的问题和回答,将采集到的数据进行清洗,接着对用户提出的问题进行分类和标注,以便更好地理解和回答这些问题;
S1.2数据预处理;
对所获取的数据进行预处理,使用N-gram模型得到获取的领域问答数据的字符级特征向量表示,通过Word2Vec将每个单词转换为低维向量,然后将这些向量组合成句子向量或段落向量,获取问题的语义级向量特征;
S1.3构建领域知识图谱;
从各种渠道收集领域相关的数据,对收集到的数据进行清洗、去重、标注等处理,使其符合建模要求;进行知识抽取,将相关的信息以三元组的形式存储;确定好知识图谱的构建规则,将知识存入数据库中。
3.如权利要求1所述的一种基于知识图谱的问答方法,其特征在于:步骤S2具体包括:
明确提问者的问题并提取出关键的信息;为了获取的问题中信息的质量所提出的问题信息模型,结合了单词的语义和字符特征,从而更好地描述了问题的特征,提取出问题中的关键实体;下面是详细步骤:
S2.1特征融合
问题中的单词与知识图谱中的关系词存在的语义相似性,准确地学习问题中与知识图谱相似的关系信息对于获得正确答案至关重要;因此,将步骤S1.2中获得的问题语义级特征和字符级特征进行融合,然后输入到LSTM语言模型中,此处所用向量需要进行归一化处理,以获得问题中单词的嵌入向量;
使用两个LSTM模型,一个用于处理字符级输入,另一个用于处理语义级输入;这两个模型的输出将被连接起来,然后输入到一个全连接层中,以产生最终的融合表示;
hz=LSTMh(qy)+LSTMc(qz)⑴
hi=hzi/(hz1+hz2+…+hzn)*100%⑵
其中中,hz代表问题q中每个单词z的语义级特征qy和字符级特征qz输入后将输出全连接的结果;并且对于问题中的n个单词,每个单词得到的嵌入向量都进行归一化处理得到嵌入向量hi;
S2.2用全局注意力机制计算嵌入向量;
为了更好地捕捉问题的关键特征实体,采用一种全局注意力机制来计算问题的嵌入向量;具体地说,这种机制利用前面得到的每个单词的嵌入向量hi作为基础,能够有效地捕捉关键信息并产生更为准确的嵌入向量;
α=Softmax(hz*uv)⑶
α代表问题中每个单词的重要性权重,u和v则代表两个不同的权重矩阵;使用α对hz进行加权,并将加权后的结果累加,以计算问题嵌入向量he;
S2.3问题实体识别基于步骤S1.1得到的问答训练语料,帮助识别出提问中的实体;在步骤s1.1中已经把训练问题进行了分类标注,按照该领域的常用分类进行划分;通过对已有的训练数据集进行词性标注,更准确地识别和回答用户的提问;通过卷积神经网络融合步骤s2.2全局注意力机制的嵌入向量计算方法,提取出问题中的特征;也就是识别出问题中的实体与关系。
4.如权利要求1所述的一种基于知识图谱的问答方法,其特征在于:步骤S3具体包括:
S3.1单跳查询;
利用知识图谱进行单跳查询;如此可以通过查询某个节点的所有邻居节点来实现,单跳查询即可满足查询需要;
S3.2多跳推理;
如果遇到相对复杂的问题,无法通过单跳查询解决时候,就要使用多跳推理进行答案推理,具体包括:
S3.2.1实体关系向量化表示;
进行多跳推理之前,针对每个实体e和关系r,先使用知识图谱嵌入模型将映射到低维空间转化为低维的向量表示;
S3.2.2多跳知识推理;
根据步骤S3.2.1中映射的低维向量表示,通过一个单层卷积神经网络计算每个三元组的得分,构建答案评分函数,计算候选答案各自的评分;
其公式如下所示;
score=σ(MLP(f([hs;hq]z))·hc)⑸
公式中有三个向量:主题实体s、问题q和候选答案实体c各自的嵌入向量;步骤s3.2.1中得到的向量被输入到一个单层卷积神经网络中进行处理,以获取更深层次的特征嵌入;将主题实体和问题嵌入向量连接在一起,并使用卷积神经网络和多层神经网络来获得这些特征;最后通过全连接层与候选答案实体c的嵌入向量进行相乘,来得到各个答案实体的得分;选取其中得分最高的候选答案作为多跳知识推理的答案;
S3.3推理结果汇总;将单跳查询和多跳推理得到的结果进行汇总,得到最终的答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310521713.1A CN116628219A (zh) | 2023-05-10 | 2023-05-10 | 一种基于知识图谱的问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310521713.1A CN116628219A (zh) | 2023-05-10 | 2023-05-10 | 一种基于知识图谱的问答方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116628219A true CN116628219A (zh) | 2023-08-22 |
Family
ID=87609152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310521713.1A Pending CN116628219A (zh) | 2023-05-10 | 2023-05-10 | 一种基于知识图谱的问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116628219A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117194682A (zh) * | 2023-11-07 | 2023-12-08 | 国网浙江省电力有限公司营销服务中心 | 构建基于电网相关文件的知识图谱的方法、装置及介质 |
CN118093847A (zh) * | 2024-04-28 | 2024-05-28 | 浪潮电子信息产业股份有限公司 | 应答信息生成方法、系统、装置、设备、介质及程序产品 |
-
2023
- 2023-05-10 CN CN202310521713.1A patent/CN116628219A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117194682A (zh) * | 2023-11-07 | 2023-12-08 | 国网浙江省电力有限公司营销服务中心 | 构建基于电网相关文件的知识图谱的方法、装置及介质 |
CN117194682B (zh) * | 2023-11-07 | 2024-03-01 | 国网浙江省电力有限公司营销服务中心 | 构建基于电网相关文件的知识图谱的方法、装置及介质 |
CN118093847A (zh) * | 2024-04-28 | 2024-05-28 | 浪潮电子信息产业股份有限公司 | 应答信息生成方法、系统、装置、设备、介质及程序产品 |
CN118093847B (zh) * | 2024-04-28 | 2024-07-19 | 浪潮电子信息产业股份有限公司 | 应答信息生成方法、系统、装置、设备、介质及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111414393B (zh) | 一种基于医学知识图谱的语义相似病例检索方法及设备 | |
CN107391906B (zh) | 基于神经网络和图谱结构的健康饮食知识网络构建方法 | |
CN111292848B (zh) | 一种基于贝叶斯估计的医疗知识图谱辅助推理方法 | |
CN112863630A (zh) | 基于数据和知识的个性化精准医疗问答系统 | |
CN116628219A (zh) | 一种基于知识图谱的问答方法 | |
CN111191048B (zh) | 基于知识图谱的急诊问答系统构建方法 | |
WO2023029506A1 (zh) | 病情分析方法、装置、电子设备及存储介质 | |
CN113360671B (zh) | 一种基于知识图谱的医保医疗单据审核方法及其系统 | |
CN108182262A (zh) | 基于深度学习和知识图谱的智能问答系统构建方法和系统 | |
CN111768869B (zh) | 面向智能问答系统的医学指南图谱化构建搜索系统及方法 | |
CN110838368A (zh) | 一种基于中医临床知识图谱的机器人主动问诊方法 | |
CN112598563B (zh) | 一种基于知识图谱的智慧城市数据构建方法 | |
CN110706807A (zh) | 一种基于本体语义相似度的医学问答方法 | |
CN116682553A (zh) | 一种融合知识与患者表示的诊断推荐系统 | |
CN112420151A (zh) | 一种超声报告后结构化解析方法、系统、设备和介质 | |
CN113764112A (zh) | 一种在线医疗问答方法 | |
CN114628008B (zh) | 一种基于异质图注意力网络的社交用户抑郁倾向检测方法 | |
CN117316466B (zh) | 一种基于知识图谱与自然语言处理技术的临床决策方法、系统及设备 | |
CN115083599A (zh) | 一种基于知识图谱的病状初步诊断及治疗方法 | |
CN111339252B (zh) | 一种搜索方法、装置及存储介质 | |
CN115080710A (zh) | 一种自适应不同领域知识图谱的智能问答系统及其构建方法 | |
CN116737911A (zh) | 基于深度学习的高血压问答方法及系统 | |
CN118245580A (zh) | 基于知识图谱搜索输出问诊建议策略的方法、介质和设备 | |
Saranya et al. | Intelligent medical data storage system using machine learning approach | |
CN116612843B (zh) | 一种心理测评掩饰性行为识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |