CN109033374B - 基于贝叶斯分类器的知识图谱检索方法 - Google Patents

基于贝叶斯分类器的知识图谱检索方法 Download PDF

Info

Publication number
CN109033374B
CN109033374B CN201810843311.2A CN201810843311A CN109033374B CN 109033374 B CN109033374 B CN 109033374B CN 201810843311 A CN201810843311 A CN 201810843311A CN 109033374 B CN109033374 B CN 109033374B
Authority
CN
China
Prior art keywords
query
label
semantic
structure chart
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810843311.2A
Other languages
English (en)
Other versions
CN109033374A (zh
Inventor
杨兰
王欣
展华益
孙锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201810843311.2A priority Critical patent/CN109033374B/zh
Publication of CN109033374A publication Critical patent/CN109033374A/zh
Application granted granted Critical
Publication of CN109033374B publication Critical patent/CN109033374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks

Abstract

本发明涉及信息检索领域,本发明是要解决现有知识图谱检索不够便捷的问题,提出了一种基于贝叶斯分类器的知识图谱检索方法,通过建立查询问句与查询结构图的对应关系,将查询问句转换成对应的语义标签序列,再通过贝叶斯分类模型计算查询问句映射到对应的每类查询结构图的概率,选取最大概率值的查询结构图作为查询模式图,进行知识图谱检索。在灵活的自然语言查询和知识图谱语义检索之间,搭建起桥梁,使普通用户更加方便进行信息检索,适用于影视检索或其他知识图谱检索。

Description

基于贝叶斯分类器的知识图谱检索方法
技术领域
本发明涉及信息检索技术领域,具体来说涉及一种知识图谱检索方法。
背景技术
知识图谱将海量信息用结构化的方式组织起来,为用户提供高效的信息检索途径,检索计算主要采用结构匹配的方式,具体来说就是,构造一个查询模式图,在知识图谱中检索与查询模式图相匹配的信息,完成信息的检索,然而,构造查询模式图需要一定的专业知识,对于普通用户来说,他们习惯采用自然语言查询问句进行检索,然而现有技术中不能采用自然语言查询问句直接进行知识图谱检索,需要根据查询需要构造查询模式图,再进行信息检索,给知识图谱检索带来很大的不便。
发明内容
本发明的目的是要解决现有知识图谱检索不够便捷的问题,提出一种基于贝叶斯分类器的知识图谱检索方法。
本发明解决上述技术问题所采用的技术方案是:基于贝叶斯分类器的知识图谱检索方法,包括以下步骤:
S1.根据查询日志选取训练样本,对训练样本进行处理,建立查询问句与查询结构图之间的对应关系,根据所述对应关系训练得到语义识别模型,构建贝叶斯分类器;
S2.通过语义识别模型及贝叶斯分类器将用户输入的自然语言查询问句映射到最大概率的查询结构图上,并将所述此查询结构图作为查询模式图进行知识图谱检索。
进一步的,为节约研发成本,所述步骤S1中,包括:
S11.命名实体识别并实体标注所述训练样本中的查询问句,得到实体标签,根据所述实体标签挖掘对应的查询结构图,采用查询结构图对应的ID标注所述查询问句,得到实体标签对应的查询结构图标签;
S12.语义标注所述步骤S11中完成实体标注的查询问句,将查询问句的实体标签转换成对应的语义标签,建立语义标签和查询结构图标签之间的对应关系;
S13.将包含语义标签的查询问句作为训练数据,采用训练工具进行训练,得到语义识别模型;
S14.将包含语义标签和查询结构图标签的查询问句作为训练数据进行训练,得到贝叶斯分类器模型参数,构建贝叶斯分类器;
进一步的,为节约研发成本,所述步骤S11中,还包括:
S111.命名实体识别并实体标注所述训练样本中的查询问句,得到实体标签组合;
S112.将具有相同实体标签组合的查询问句归类,根据所述实体标签组合挖掘查询结构图,并采用查询结构图对应的ID标注该类对应的查询问句。
具体的,为解决联合标注的问题,所述语义标注采用BIO标注,所述语义标签包括:Entity,Type,Value,Relation和Attribute。
进一步的,为节约研发成本,所述步骤S2中,包括:
S21.将用户输入的自然语言查询问句通过所述语义识别模型转换成对应的语义标签;
S22.通过贝叶斯分类器计算所述查询问句映射到对应的每类查询结构图的概率,选取最大概率值的查询结构图作为查询模式图,进行知识图谱检索。
进一步的,为节约研发成本,本发明提供一种计算并选取最大概率的查询结构图的具体方法,所述步骤S22中,包括:
S221.计算语义标签序列AS映射到对应的每类查询结构图Q的概率,即后验概率P(Q/AS),计算公式如下:
Figure BDA0001746092610000021
式中,AS为语义标签序列,P(Q)为先验概率,P(AS)为全概率,sum为训练样本大小,
Figure BDA0001746092610000022
Qpi为每类查询结构图的数据大小,Qpij为一类查询结构图Qpi中语义标签序列为AS的数据大小;
S222.选取最大概率值的查询结构图作为查询模式图,选取计算公式如下:
Figure BDA0001746092610000023
具体的,步骤S13中,所述训练工具为CRF++,CRF++工具简单,可定制。
进一步的,为节约研发成本,本发明提供一种生成语义识别模型的具体方法,所述步骤S13中,包括:
S131.设计CRF++的特征模板template;
S132.根据包含语义标签的训练样本和特征模板,通过CRF++进行语义识别模型训练,生成CRF++语义识别模型,训练指令如下:
crf_learn template train.txt model。
进一步的,为节约研发成本,本发明提供一种将查询问句转换为语义标签的具体方法,所述步骤S21中,包括:
S211.将查询问句转换成CRF++数据格式,并写入文本文档;
S212.根据CRF++语义识别模型语义识别CRF++数据,生成查询问句的语义标签序列,识别指令如下:
crf_test-m model test.txt>output.txt。
本发明的有益效果是:本发明所述的基于贝叶斯分类器的知识图谱检索方法,根据查询问句对应的查询结构图的ID标注查询问句,建立查询问句与查询结构图的对应关系,此外,对查询问句进行语义标注,并据此训练出语义识别模型,同时,建立起查询结构图和语义标签的对应关系,再利用朴素贝叶斯方法训练贝叶斯分类模型参数,构建贝叶斯分类模型,当输入自然语言查询问句进行信息检索时,语义识别模型将查询问句转换成对应的语义标签序列,通过贝叶斯分类模型计算查询问句映射到对应的每类查询结构图的概率,选取最大概率值的查询结构图作为查询模式图,进行知识图谱检索。由于用户对自然语言问句更便于理解,通过上述方法,信息检索过程中可以更加准确地理解用户的查询意图,提高检索的准确率,普通用户在知识图谱检索过程中也更加便捷。
具体实施方式
下面对本发明的实施方式进行详细描述。
本发明所述的基于贝叶斯分类器的知识图谱检索方法,首先,通过命名实体标注建立查询问句与查询结构图之间的对应关系,接着,将查询问句的实体标注标签转换成语义标签,将带有语义标签的查询问句作为训练数据,训练得到语义识别模型,同时,构建语义标签和查询结构图之间的对应关系,然后训练出贝叶斯分类模型。语义识别模型可将用户输入自然语言查询问句转换成语义标签,然后通过贝叶斯分类模型计算查询问句映射到对应的每类查询结构图的概率,选取最大概率值的查询结构图作为查询模式图,进行知识图谱检索。
实施例
本发明实施例所述的基于贝叶斯分类器的知识图谱检索方法,包括以下步骤:
步骤S1.根据查询日志选取训练样本,对训练样本进行处理,建立查询问句与查询结构图之间的对应关系,根据所述对应关系训练得到语义识别模型,构建贝叶斯分类器;
步骤S2.通过语义识别模型及贝叶斯分类器将用户输入的自然语言查询问句映射到最大概率的查询结构图上,并将所述查询结构图作为查询模式图进行知识图谱检索。
通过建立的查询问句与查询结构图之间的对应关系,进行对查询问句转换,通过贝叶斯分类器进行选取查询问句映射到最大概率的查询结构图作为查询模式图进行知识图谱检索。
本发明实施例提供一种建立查询问句语义标签与查询结构图之间的对应关系,并训练出语义识别模型及贝叶斯分类器的具体方法:
步骤S11.命名实体识别并实体标注所述训练样本中的查询问句,得到实体标签,根据所述实体标签挖掘对应的查询结构图,采用查询结构图对应的ID标注所述查询问句,得到实体标签对应的查询结构图标签;
S12.语义标注所述步骤S11中完成实体标注的查询问句,将查询问句的实体标签转换成对应的语义标签,建立语义标签和查询结构图标签之间的对应关系;
步骤S13.将完成语义标注的查询问句作为训练数据,采用训练工具进行训练,得到语义识别模型;
S14.将包含语义标签和查询结构图标签的查询问句作为训练数据进行训练,得到贝叶斯分类器模型参数,构建贝叶斯分类器;
上述步骤S11中,还包括:
步骤S111.命名实体识别并实体标注所述训练样本中的查询问句,得到实体标签组合;
步骤S112.将具有相同实体标签组合的查询问句归类,根据所述实体标签组合挖掘查询结构图,并采用查询结构图对应的ID标注该类对应的查询问句;
利用现有命名实体识别模型对训练样本数据进行实体标注后,可以产生实体标签组合,具有相同实体标签组合的数据具有相同的查询结构图,采用查询结构图对应的ID标注该类对应的查询问句。
上述步骤S12中,将查询问句的实体标注标签转换为语义标签。语义标签包括:Entity,Type,Value,Relation和Attribute。其中,Entity,Type,Value表征的是实体类语义,Relation,Attribute表征的是关系类语义。例如:在实体标签组合为Person(人)+Category(类型)+Movie(电影名)这类的查询语句中,Person对应的实体的语义标签为Entity,Category对应的实体的语义标签为Type,Movie对应的实体的语义标签为Attribute,基于这种方法,将查询问句的实体标签转换成语义标签。
本实施例中,语义标注采用BIO标注格式,例如:采用BIO标注格式进行语义标注,具体格式举例如下:
Figure BDA0001746092610000041
Figure BDA0001746092610000051
为节约研发成本,本发明实施例提供一种用户输入查询问句进行知识图谱检索的具体方法,上述步骤S2中,包括:
步骤S21.将用户输入的自然语言查询问句通过所述语义识别模型转换成对应的语义标签;
步骤S22.通过贝叶斯分类器计算所述查询问句映射到对应的每类查询结构图的概率,选取最大概率值的查询结构图作为查询模式图,进行知识图谱检索。
为节约研发成本,本发明实施例提供一种根据贝叶斯分类器计算并选取最大概率的查询结构图的具体方法,上述步骤S22中,包括:
步骤S221.计算语义标签序列AS映射到对应的每类查询结构图Q的概率,即后验概率P(Q/AS),计算公式如下:
Figure BDA0001746092610000052
式中,AS为语义标签序列,P(Q)为先验概率,P(AS)为全概率,sum为训练样本大小,
Figure BDA0001746092610000053
Qpi为每类查询结构图的数据大小,Qpij为一类查询结构图Qpi中语义标签序列为AS的数据大小;
在贝叶斯分类器中,P(AS)可忽略不计;在语义标签序列和结构图模式的对应关系中,不同的语义标签序列可以映射到相同的查询结构图上,相同的语义标签序列也可以映射到不同的查询结构图上,基于这个规则,本实施例采用似然函数P(AS/Q)来进行贝叶斯分类器计算。
步骤S222.选取最大概率值的查询结构图作为查询模式图,选取计算公式如下:
Figure BDA0001746092610000054
本实施例所述的基于贝叶斯分类器的知识图谱检索方法,训练工具可以采用CRF++,CRF++是为了通用目的设计定制,可用于分词、连续数据标注的条件随机场工具,较为简单。
为节约研发成本,本发明实施例提供一种生成语义识别模型的具体方法,上述步骤S13中,包括:
步骤S131.设计CRF++的特征模板template;
步骤S132.根据包含语义标签的训练样本和特征模板,通过CRF++进行语义识别模型训练,生成CRF++语义识别模型,训练指令如下:
crf_learn template train.txt model;
执行上述命令后生成model文件,该文件为CRF++语义识别模型。
本发明实施例提供一种将查询问句转换为语义标签的具体方法,上述步骤S21中,包括:
步骤S211.将查询问句转换成CRF++数据格式,并写入文本文档;
具体格式举例如下:
Figure BDA0001746092610000061
步骤S212.根据CRF++语义识别模型语义识别CRF++数据,生成查询问句的语义标签,识别指令如下:
crf_test-m model test.txt>output.txt;
执行上述命令后生成output.txt文件,该文件记录了查询问句的语义识别标签序列。
综上所述,通过建立每条查询问句语义标签与查询结构图之间的对应关系,整理得到问句语料中所有查询问句的语义标签序列与查询结构图之间的对应关系,通过语义识别模型将用户输入自然语言查询问句转换成对应语义标签,通过贝叶斯分类器计算并选取最大概率的查询结构图作为查询模式图进行知识图谱检索,在灵活的自然语言查询和知识图谱语义检索之间,搭建起桥梁,实现用户较为便捷的进行知识图谱检索。

Claims (7)

1.基于贝叶斯分类器的知识图谱检索方法,其特征在于,包括以下步骤:
S1.根据查询日志选取训练样本,对训练样本进行处理,建立查询问句与查询结构图之间的对应关系,根据所述对应关系训练得到语义识别模型,构建贝叶斯分类器;
所述步骤S1中,包括:
S11.命名实体识别并实体标注所述训练样本中的查询问句,得到实体标签,根据所述实体标签挖掘对应的查询结构图,采用查询结构图对应的ID标注所述查询问句,得到实体标签对应的查询结构图标签;
所述步骤S11中,还包括:
S111.命名实体识别并实体标注所述训练样本中的查询问句,得到实体标签组合;
S112.将具有相同实体标签组合的查询问句归类,根据所述实体标签组合挖掘查询结构图,并采用查询结构图对应的ID标注该类对应的查询问句;
S12.语义标注所述步骤S11中完成实体标注的查询问句,将查询问句的实体标签转换成对应的语义标签,建立语义标签和查询结构图标签之间的对应关系;
S13.将包含语义标签的查询问句作为训练数据,采用训练工具进行训练,得到语义识别模型;
S14.将包含语义标签和查询结构图标签的查询问句作为训练数据进行训练,得到贝叶斯分类器模型参数,构建贝叶斯分类器;
S2.通过语义识别模型及贝叶斯分类器将用户输入的自然语言查询问句映射到最大概率的查询结构图上,并将所述查询结构图作为查询模式图进行知识图谱检索。
2.如权利要求1所述的基于贝叶斯分类器的知识图谱检索方法,其特征在于,所述语义标注采用BIO标注格式,所述语义标签包括:Entity,Type,Value,Relation和Attribute。
3.如权利要求1所述的基于贝叶斯分类器的知识图谱检索方法,其特征在于,所述步骤S2中,包括:
S21.将用户输入的自然语言查询问句通过所述语义识别模型转换成对应的语义标签;
S22.通过贝叶斯分类器计算所述查询问句映射到对应的每类查询结构图的概率,选取最大概率值的查询结构图作为查询模式图,进行知识图谱检索。
4.如权利要求3所述的基于贝叶斯分类器的知识图谱检索方法,其特征在于,步骤S22中,包括:
S221.计算语义标签序列AS映射到对应的每类查询结构图Q的概率,即后验概率P(Q/AS),计算公式如下:
Figure FDA0003470171960000021
式中,AS为语义标签序列,P(Q)为先验概率,P(AS)为全概率,sum为训练样本大小,
Figure FDA0003470171960000022
Qpi为每类查询结构图的数据大小,Qpij为一类查询结构图Qpi中语义标签序列为AS的数据大小;
S222.选取最大概率值的查询结构图作为查询模式图,选取计算公式如下:
Figure FDA0003470171960000023
5.如权利要求1至4任一项所述的基于贝叶斯分类器的知识图谱检索方法,其特征在于,步骤S13中,所述训练工具为CRF++。
6.如权利要求5所述的基于贝叶斯分类器的知识图谱检索方法,其特征在于,所述步骤S13中,包括:
S131.设计CRF++的特征模板template;
S132.根据包含语义标签的训练样本和特征模板,通过CRF++进行语义识别模型训练,生成CRF++语义识别模型。
7.如权利要求5所述的基于贝叶斯分类器的知识图谱检索方法,其特征在于,所述步骤S21中,包括:
S211.将查询问句转换成CRF++数据格式,并写入文本文档;
S212.根据CRF++语义识别模型语义识别CRF++数据,生成查询问句的语义标签序列。
CN201810843311.2A 2018-07-27 2018-07-27 基于贝叶斯分类器的知识图谱检索方法 Active CN109033374B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810843311.2A CN109033374B (zh) 2018-07-27 2018-07-27 基于贝叶斯分类器的知识图谱检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810843311.2A CN109033374B (zh) 2018-07-27 2018-07-27 基于贝叶斯分类器的知识图谱检索方法

Publications (2)

Publication Number Publication Date
CN109033374A CN109033374A (zh) 2018-12-18
CN109033374B true CN109033374B (zh) 2022-03-15

Family

ID=64647033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810843311.2A Active CN109033374B (zh) 2018-07-27 2018-07-27 基于贝叶斯分类器的知识图谱检索方法

Country Status (1)

Country Link
CN (1) CN109033374B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059196A (zh) * 2019-04-12 2019-07-26 张晓红 一种医学健康领域知识图谱的关系抽取方法及系统
CN110175227B (zh) * 2019-05-10 2021-03-02 神思电子技术股份有限公司 一种基于组队学习和层级推理的对话辅助系统
CN110188202B (zh) * 2019-06-06 2021-07-20 北京百度网讯科技有限公司 语义关系识别模型的训练方法、装置及终端
CN110298042A (zh) * 2019-06-26 2019-10-01 四川长虹电器股份有限公司 基于Bilstm-crf与知识图谱影视实体识别方法
US11521078B2 (en) * 2019-07-10 2022-12-06 International Business Machines Corporation Leveraging entity relations to discover answers using a knowledge graph
CN110781284A (zh) * 2019-09-18 2020-02-11 平安科技(深圳)有限公司 基于知识图谱的问答方法、装置和存储介质
CN110633476B (zh) * 2019-09-27 2024-04-05 北京百度网讯科技有限公司 用于获取知识标注信息的方法及装置
CN111046190B (zh) * 2019-11-28 2021-03-26 佰聆数据股份有限公司 一种基于语义图谱的大数据标签冲突检测方法、系统、存储介质及计算机设备
CN111414556B (zh) * 2020-02-10 2023-11-21 华北电力大学 一种基于知识图谱的服务发现方法
CN111488441B (zh) * 2020-04-08 2023-08-01 北京百度网讯科技有限公司 问题解析方法、装置、知识图谱问答系统和电子设备
CN111522910B (zh) * 2020-04-14 2022-05-31 浙江大学 一种基于文物知识图谱的智能语义检索方法
CN112597272A (zh) * 2020-11-17 2021-04-02 北京计算机技术及应用研究所 一种基于自然语言问句的专家领域知识图谱查询方法
CN112328773A (zh) * 2020-11-26 2021-02-05 四川长虹电器股份有限公司 基于知识图谱的问答实现方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866593A (zh) * 2015-05-29 2015-08-26 中国电子科技集团公司第二十八研究所 一种基于知识图谱的数据库搜索方法
CN107766483A (zh) * 2017-10-13 2018-03-06 华中科技大学 一种基于知识图谱的交互式问答方法及系统
CN108241649A (zh) * 2016-12-23 2018-07-03 北京奇虎科技有限公司 基于知识图谱的搜索方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10423631B2 (en) * 2017-01-13 2019-09-24 International Business Machines Corporation Automated data exploration and validation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866593A (zh) * 2015-05-29 2015-08-26 中国电子科技集团公司第二十八研究所 一种基于知识图谱的数据库搜索方法
CN108241649A (zh) * 2016-12-23 2018-07-03 北京奇虎科技有限公司 基于知识图谱的搜索方法及装置
CN107766483A (zh) * 2017-10-13 2018-03-06 华中科技大学 一种基于知识图谱的交互式问答方法及系统

Also Published As

Publication number Publication date
CN109033374A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN109033374B (zh) 基于贝叶斯分类器的知识图谱检索方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110298033B (zh) 关键词语料标注训练提取系统
CN111666427B (zh) 一种实体关系联合抽取方法、装置、设备及介质
CN109508459B (zh) 一种从新闻中提取主题和关键信息的方法
CN109002473B (zh) 一种基于词向量与词性的情感分析方法
CN111046656B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN110175334B (zh) 基于自定义的知识槽结构的文本知识抽取系统和方法
CN111144119B (zh) 一种改进知识迁移的实体识别方法
CN111400455A (zh) 基于知识图谱的问答系统的关系检测方法
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN111444704B (zh) 基于深度神经网络的网络安全关键词抽取方法
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
CN110675962A (zh) 一种基于机器学习和文本规则的中药药理作用识别方法及系统
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN111291168A (zh) 图书检索方法、装置及可读存储介质
Gong et al. A semantic similarity language model to improve automatic image annotation
CN111325036A (zh) 一种面向新兴技术预测的佐证事实的抽取方法及系统
CN112036186A (zh) 语料标注方法、装置、计算机存储介质及电子设备
CN111597330A (zh) 一种基于支持向量机的面向智能专家推荐的用户画像方法
CN112328773A (zh) 基于知识图谱的问答实现方法和系统
CN116306653A (zh) 一种正则化领域知识辅助的命名实体识别方法
CN115033689B (zh) 一种基于小样本文本分类原型网络欧氏距离计算方法
CN110472032A (zh) 医疗自定义实体词词性标签的多分类智能问答检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant