CN114880480A - 一种基于知识图谱的问答方法及装置 - Google Patents

一种基于知识图谱的问答方法及装置 Download PDF

Info

Publication number
CN114880480A
CN114880480A CN202210371151.2A CN202210371151A CN114880480A CN 114880480 A CN114880480 A CN 114880480A CN 202210371151 A CN202210371151 A CN 202210371151A CN 114880480 A CN114880480 A CN 114880480A
Authority
CN
China
Prior art keywords
entity
candidate
question
target
intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210371151.2A
Other languages
English (en)
Inventor
李天阳
李健
陈明
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sinovoice Technology Co Ltd
Original Assignee
Beijing Sinovoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sinovoice Technology Co Ltd filed Critical Beijing Sinovoice Technology Co Ltd
Priority to CN202210371151.2A priority Critical patent/CN114880480A/zh
Publication of CN114880480A publication Critical patent/CN114880480A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

在本发明提供了一种基于知识图谱的问答方法及装置,包括:获取输入的问答语句,对问答语句进行分词,得到分词结果;将分词结果与预设的实体词典进行匹配,得到分词结果对应的第一候选实体和第一候选实体对应的候选意图;将问答语句和第一候选实体输入预设的语言处理模型进行实体识别,得到目标实体;将问答语句和候选意图输入语言处理模型进行意图识别,得到目标意图,根据目标实体和目标意图,确定针对问答语句的答复内容。本发明通过第一候选实体与实体识别得到的语料片段进行相似度计算确定目标实体,提高了实体匹配的准确度,根据候选意图与问句进行相似度计算确定目标意图,提高了意图识别的准确度,可以快速且准确的得到答复内容。

Description

一种基于知识图谱的问答方法及装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于知识图谱的问答方法、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
知识图谱技术是以结构化的形式描述客观世界中的实体及其关系,以知识图谱为基础构建的对话系统通常为了解决某一领域的问题,如产品咨询或百科问答。
目前,基于知识图谱的问答方法,通常采用基于模板规则匹配的方法,通过查找字典确定问句的实体以及问句的意图,或采用基于语义分析的方法,即通过分析问句的句法确定问句的实体和意图。
然而,若采用模板匹配的方法难以概括问答语句所表达的全部意图,导致查询不准确,采用语义分析的方法匹配速度较慢,难以满足目前的问答需求。
发明内容
本发明实施例提供一种基于知识图谱的问答方法、电子设备、计算机可读存储介质及计算机程序产品,以解决现有技术中采用模板匹配或基于语义分析造成的图谱缺失查询不准确、匹配速度慢,问答效率低下的问题。
第一方面,本发明实施例提供了一种基于知识图谱的问答方法,包括:
获取输入的问答语句,对所述问答语句进行分词,得到分词结果;
将所述分词结果与预设的实体词典进行匹配,得到所述分词结果对应的第一候选实体和所述第一候选实体对应的候选意图;所述实体词典包括关键词、实体、意图的对应关系;所述实体用于表征具有预设意图含义的对象;
将所述问答语句和所述第一候选实体输入预设的语言处理模型进行实体识别,得到目标实体,所述目标实体是基于所述第一候选实体和所述问答语句中包含实体的语料之间的文本相似度所确定;
将所述问答语句和所述候选意图输入所述语言处理模型进行意图识别,得到目标意图,所述目标意图是基于所述问答语句和所述候选意图之间的文本相似度所确定;
根据所述目标实体和所述目标意图,确定针对所述问答语句的答复内容。
第二方面,本发明实施例提供了一种基于知识图谱的问答装置,该装置包括:
分词模块,用于获取输入的问答语句,对所述问答语句进行分词,得到分词结果;
第一确定模块,用于将所述分词结果与预设的实体词典进行匹配,得到所述分词结果对应的第一候选实体和所述第一候选实体对应的候选意图;所述实体词典包括关键词与实体的对应关系;所述实体用于表征具有预设意图含义的对象;
第二确定模块,用于将所述问答语句和所述第一候选实体输入预设的语言处理模型进行实体识别,得到目标实体,所述目标实体是基于所述第一候选实体和所述问答语句中包含实体的语料之间的文本相似度所确定;
第三确定模块,用于将所述问答语句和所述第一候选实体输入预设的语言处理模型进行实体识别,得到目标实体,所述目标实体是基于所述第一候选实体和所述问答语句中包含实体的语料之间的文本相似度所确定;
答复生成模块,用于根据所述目标实体和所述目标意图,确定针对所述问答语句的答复内容。
第三方面,本发明实施例还提供了一种电子设备,其特征在于,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现上述基于知识图谱的问答方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如本发明提供的基于知识图谱的问答方法。
第五方面,本发明实施例还提供了一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现所述基于知识图谱的问答方法。
在本发明实施例中,通过获取输入的问答语句,对问答语句进行分词,得到分词结果;将分词结果与预设的实体词典进行匹配,得到分词结果对应的第一候选实体和第一候选实体对应的候选意图;实体词典包括关键词、实体、意图的对应关系;实体用于表征具有预设意图含义的对象;将问答语句和第一候选实体输入预设的语言处理模型进行实体识别,得到目标实体,目标实体是基于第一候选实体和问答语句中包含实体的语料之间的文本相似度所确定;将问答语句和候选意图输入语言处理模型进行意图识别,得到目标意图,目标意图是基于问答语句和候选意图之间的文本相似度所确定;根据目标实体和目标意图,确定针对所述问答语句的答复内容。本发明通过分词得到的第一候选实体与通过语言模型进行实体识别得到的语料片段进行相似度计算确定目标实体,提高了实体匹配的准确度,根据分词得到的候选意图与问句进行相似度计算确定目标意图,提高了意图识别的准确度,通过确定的目标实体和目标意图确定基于知识图谱的问答语句的答复内容,使得通过查询知识图谱可以快速且准确的得到问答语句的答复内容。
附图说明
图1是本发明实施例提供的一种知识图谱示意图;
图2是本发明实施例提供的一种基于知识图谱的问答方法的步骤流程图;
图3是本发明实施例提供的一种基于知识图谱的问答方法的执行流程图;
图4是本发明实施例提供的另一种基于知识图谱的问答方法的步骤流程图;
图5是本发明实施例提供的一种终端的框图;
图6是本发明实施例提供的一种电子设备的框图;
图7是本发明实施例提供的另一种电子设备的框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
知识图谱是结构化的语义知识库,用于迅速描述物理世界中的概念及相互关系。知识图谱通过对错综复杂的文档数据进行加工、处理、整合,将其转化为简单、清晰的“实体-关系-实体”或“实体-属性-属性值”的三元组,最后通过聚合大量的指示,实现知识的快速响应和推理。
参考图1,图1示出了一种知识图谱的组成结构,在图中,如果两个圆形节点之间存在关系,则这两个节点之间便通过一条无向边连接在一起,这个节点即为实体,连接两个实体的边即表示实体之间的关系。如图中“A国”和“A市”即表示两个实体,“A国”与“A市”之间的关系为A国的首都是A市,这种结构即为“实体-关系-实体”的三元组结构,再如实体“A市”具有面积属性与人口属性,根据示出的知识图谱可知,A市的面积为16140平方公里,A市的人口为2000万,即“A市、面积、16140平方公里”或“A市、人口、2000万”的结构即为“实体-属性-属性值”的三元组结构,本发明的知识图谱即由这两种三元组关系所构建,根据不同领域的数据与关系构建不同的知识图谱以满足不同的使用需求。
图2是本发明实施例提供的一种基于知识图谱的问答方法的步骤流程图,该方法可以包括:
步骤101、获取输入的问答语句,对所述问答语句进行分词,得到分词结果。
在本发明实施例中,问答语句可以为问句的形式,具体可以为用户输入的文本信息,如用户输入提问语句:“国博门票多少钱”,经过处理后得到的分词结果为“国博/门票/多少/钱”,若用户输入的提问语句为“明天天气怎么样”,得到的分词结果为“明天/天气/怎么样”,获取的问答语句还可以为用户输入的语音信息,比如若用户通过语音的方式向智能机器人提问“”,经过分词得到的结果为“明天/可以/发货/吗”,具体的,获取到用户的输入的问答语句后,可以采用自然语言处理技术对语句进行解析,得到问答语句中包含的分词。
进一步的对问句进行分词的方法可以通过基于词典的分词算法,即按照一定的策略将待匹配的字符串(问答语句)和一个已建立好的“充分大的”词典中的词进行匹配,若找到某个词条,则说明匹配成功,识别了该词,该词即作为一个分词结果。或者通过基于统计的分词方法,在已给定大量已经分词的文本的前提下,利用统计机器学习模型学习词语切分的规律,实现对未知文本的切分。具体的,实现分词还可以基于深度学习方法等途径,本发明实施例在此不再赘述。
步骤102、将所述分词结果与预设的实体词典进行匹配,得到所述分词结果对应的第一候选实体和所述第一候选实体对应的候选意图;所述实体词典包括关键词、实体、意图的对应关系;所述实体用于表征具有预设意图含义的对象。
在本发明实施例中,在得到问答语句的分词结果后,可以将分词结果与预设的实体词典进行匹配,通过将分词结果与实体词典中的关键词进行匹配确定候选实体,若分词结果与实体词典中的关键词匹配成功,则将该分词结果确定为第一候选实体,通过对候选实体的分析,可得到候选实体相关的实体的领域信息,实体的领域信息包括了实体的属性或实体之间的关系,例如,若匹配后将“A市”作为了第一候选实体,则通过分析“A市”的属性如人口、面积,则可以将询问“A市有多少人口”或“A市有多大面积”作为问答语句的候选意图,若查找到“A市”与“A国”存在关系,则可以将询问“A市是哪个国家的首都”作为候选意图。
步骤103、将所述问答语句和所述第一候选实体输入预设的语言处理模型进行实体识别,得到目标实体,所述目标实体是基于所述第一候选实体和所述问答语句中包含实体的语料之间的文本相似度所确定。
在本发明实施例中,通过实体识别的方式提取问答语句中关于实体的语料片段,本发明所述语言处理模型可以从非结构化的输入文本中提取出实体语料片段,实体识别识别的为问答语句的文本中具有特定意义或指代性强的实体,可以包括:人名、地名、组织机构名、日期时间、专有名词等类型的实体,例如若输入文本“小明早上八点去学校上课”,经过实体识别后可以提取到的信息为:人名:小明、时间:早上八点、地点:学校。
进一步的,将根据实体识别得到的语料片段与步骤102得到的候选实体进行字词相似度的计算,则可以确定问答语句的目标实体,本发明实施例将利用词典匹配获得的候选实体,与通过语言处理模型获得的实体语料片段进行比较得到目标实体,采用了词典匹配结合深度学习模型确定目标实体的方法,使得确定目标实体的过程更加快捷、准确。
步骤104、将所述问答语句和所述候选意图输入所述语言处理模型进行意图识别,得到目标意图,所述目标意图是基于所述问答语句和所述候选意图之间的文本相似度所确定。
在本发明实施例中,在步骤102中得到候选意图之后,将问答语句与得到的候选意图输入语言处理模型,语言处理模型可以输出问答语句与候选意图各自对应的向量,通过计算问答语句与得到的每一个候选意图的文本相似度,确定问答语句的目标意图。例如:参考步骤102,若问答语句为“A市人口数量是多少”,经过分析得到的候选意图为:“A市有多少人口”、“A市有多大面积”等,通过计算问答语句与每一个候选意图之间的相似度,确定多个候选意图中的一个候选意图作为问答语句的目标意图。
步骤105、根据所述目标实体和所述目标意图,确定针对所述问答语句的答复内容。
在本发明实施例中,在得到目标实体与目标意图之后,根据得到的实体与意图参照知识图谱中的三元组进行匹配,得到确定针对问答语句的答复内容。例如:若得到的目标实体为“A市”、目标意图为“人口”,通过查询知识图谱可知,在知识图谱中存在三元组:A市-人口-2000万,则2000万即为问答语句的答案。
综上,本发明实施例提供一种基于知识图谱的问答方法,包括:获取输入的问答语句,对问答语句进行分词,得到分词结果;将分词结果与预设的实体词典进行匹配,得到分词结果对应的第一候选实体和第一候选实体对应的候选意图;实体词典包括关键词、实体、意图的对应关系;实体用于表征具有预设意图含义的对象;将问答语句和第一候选实体输入预设的语言处理模型进行实体识别,得到目标实体,目标实体是基于第一候选实体和问答语句中包含实体的语料之间的文本相似度所确定;将问答语句和候选意图输入语言处理模型进行意图识别,得到目标意图,目标意图是基于问答语句和候选意图之间的文本相似度所确定;根据目标实体和目标意图,确定针对所述问答语句的答复内容。本发明通过分词得到的第一候选实体与通过语言模型进行实体识别得到的语料片段进行相似度计算确定目标实体,提高了实体匹配的准确度,根据分词得到的候选意图与问句进行相似度计算确定目标意图,提高了意图识别的准确度,通过确定的目标实体和目标意图确定基于知识图谱的问答语句的答复内容,使得通过查询知识图谱可以快速且准确的得到问答语句的答复内容。
图3是本发明实施例提供的一种基于知识图谱的问答方法的执行流程图,图4是本发明实施例提供的另一种基于知识图谱的问答方法的步骤流程图。参考图3可以对图4所示的实施例进行补充说明,图4实施例示出的方法可以包括:
步骤201、获取输入的问答语句,对所述问答语句进行分词,得到分词结果。
该步骤可以参照上述步骤101,此处不再赘述。
步骤202、将所述分词结果与预设的实体词典进行匹配,得到所述分词结果对应的第一候选实体和所述第一候选实体对应的候选意图。
该步骤可以参照上述步骤102,此处不再赘述。
可选的,在本发明实施例的一种实现方式中,步骤202具体可以包括:
子步骤2021、所述实体词典包括:具有子词和所述实体的对应关系的第一词典,所述子词为所述实体分词后得到的词;将所述分词结果中的分词与所述第一词典中的子词进行匹配,并将与所述分词匹配的子词对应的实体确定为所述第一候选实体,以及确定所述第一候选实体对应的候选意图。
在本发明实施例中,第一词典可以是子词-实体词典,子词-实体词典的构建方式为:把图谱中的各个实体进行分词得到子词,然后把子词当做字典中的键,原实体词当做值,若对问句进行分词后,得到的分词结果中出现了子词-实体字典中的子词,则把子词对应的实体当做候选实体。例如,若子词-实体词典中存在“票-火车票”,在对问答语句进行分词后,得到的分词结果中包含有“票”,则可以将子词-实体词典中子词“票”对应的实体“火车票”作为问答语句的候选实体。
可选的,在本发明实施例的另一种实现方式中,步骤202具体可以包括:
子步骤2022、所述实体词典还包括:具有别称和实体的对应关系的第二词典,所述别称为所述实体的别名;将分词结果中的分词与所述第二词典中的别称进行匹配,并将与所述分词匹配的所述别称对应的实体确定为所述第一候选实体,以及确定所述第一候选实体对应的候选意图。
在本发明实施例中,第二词典可以是实体别称词典典,实体别称词典的构建方式为:把别称当做字典中的键,把实体当做值,若对问句进行分词后,得到的分词结果中出现了实体别称字典中的别称,则把别称对应的实体当做候选实体。例如,若实体别称词典存在“国博-国家博物馆”的对应关系,若问答语句为“国博门票多少钱”,分词后得到的分词结果有“国博”,在将分词结果与实体别称词典进行匹配时,分词“国博”与实体别称字典中的别称“国博”匹配成功,此时即可以将别称“国博”对应的实体“国家博物馆”确定为候选实体。
步骤203、所述语言处理模型包括语料识别模块和对齐模块;将所述问答语句输入所述语料识别模块,得到所述问答语句中包含的所述第二候选实体的实体语料片段。
在本发明实施例中,采用了一个语言处理模型去处理不同的任务,将问答语句输入语言处理模型后,语言处理模型可以对问答语句进行过实体识别,得到关于实体的语料片段。
具体的,通过语料识别模块得到关于实体的语料片段之前,通过获取已经标注过类型的实体语料作为训练语料对语言处理模型进行训练,使得语言处理模型在进行实体识别时可以准确的识别出问句中包含的关于实体的语料片段,而无需对问句进行句法分析,节约了实体识别的时间,提升了确定目标实体的效率。通过将实体识别的结果与词典匹配的结果相结合确定目标实体,提升了确定目标实体的效率与准确性。
步骤204、将由所述实体语料片段和所述第一候选实体构成的第一组合输入所述对齐模块,确定所述第一组合中的所述第一候选实体和所述实体语料片段的文本相似度,并从文本相似度最大的所述第一组合中确定所述目标实体。
在本发明实施例中,在得到第一候选实体以及实体语料片段后,通过语言处理模型对二者之间相似度的计算可以确定目标实体,如采用计算第一候选实体转化后的向量与实体语料片段转化后的向量的余弦相似度来确定。
进一步的,余弦相似度通过测量两个向量的夹角的余弦值来度量它们之间的相似性。在余弦函数中度数为零的角的余弦值为1,其余角度的余弦值均小于1,余弦函数的取值范围为[-1,1]。从而通过两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。当两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。通过判断第一候选实体转化后的向量与实体语料片段转化后的向量之间的余弦相似度的值即可以确定文本相似度最大的第一组合。
例如:若输入问句为“国博门票多少钱”,经过分词后得到的结果为“国博/门票/多少/钱”,将分词结果与实体别称字典匹配后得到第一候选实体为“国家博物馆”,将问句输入语言处理模型进行实体识别,得到的实体语料片段包含有“国博”,此时,便可以通过计算“国博”与“国家博物馆”的相似度确定“国家博物馆”是否是问答语句的目标实体。
可选的,步骤204具体可以包括:
子步骤2041、将文本相似度最大的所述第一组合中的所述第一候选实体确定为目标实体。
在本发明实施例中,在判断所有的第一组合的文本相似度之后,选取文本相似度最高的第一组合中的第一候选实体作为目标实体。
步骤205、将由所述问答语句和所述候选意图构成的第二组合输入所述语言处理模型,确定所述第二组合中所述问答语句和所述候选意图的文本相似度,并将文本相似度最大的所述第二组合中的所述候选意图确定为目标意图。
在本发明实施例中,多个候选意图与问答语句可以组合为多个第二组合,通过语言处理模型的计算,将候选意图与问答语句转换为向量,可以通过计算两个向量之间的余弦相似度的方式确定目标意图。具体实现方式见上述步骤204,进一步的,判断候选意图与问答语句之间相似度的方法还可以为:计算向量之间的欧氏距离、汉明距离或最小编辑距离等方式,本发明实施例对此不做限定。
进一步的,参考步骤204,在确定“国家博物馆”为候选实体后,通过对“国家博物馆”的分析,得到跟国家博物馆有关的属性如:门票价格、地理位置等,此时就可以将“国家博物馆门票价格”、“国家博物馆地理位置”作为候选意图,通过分别计算问句“国博门票多少钱”与候选意图“国家博物馆门票价格”以及“国家博物馆地理位置”之间的相似度确定相似度最高的意图为目标意图,如计算后得到相似度最高的候选意图为“国家博物馆门票价格”,则将“国家博物馆门票价格”作为目标意图。
步骤206、基于所述目标实体和所述目标意图生成图谱查询语句。
在本发明实施例中,当得到目标实体与目标意图之后,可以结合目标实体与目标意图生成查询知识图谱数据库的查询语句。
步骤207、采用所述图谱查询语句查询所述知识图谱,得到查询结果。
在本发明实施例中,将目标实体与目标意图与知识图谱中存储的三元组进行检索与比较,根据计算得到查询语句的答案,此答案即作为问答语句的答案,参考步骤105。
步骤208、根据所述查询结构构建答复内容。
在本发明实施例中,查询语句通过查询知识图谱数据库得到答案,但是得到的答案可能为一个词,使得问答对话不自然,因此,本发明在将答复内容呈现给用户之前,需对答案进行加工,使答复内容为针对问答语句的完整的答复,使其更符合对话语境,提升用户体验。将答案构建为完整答复内容使用的文本生成方法可以为:基于规则模板匹配的方法,根据预先构建的句子生成的模板将答案填充在模板的句子成分的合适位置,然后输出。例如:若输入的问答语句为“A国的首都是哪里”,经过查询图谱得到的答案为“A城市”,此时,结合问句以及规则模板对答案进行加工后生成的答复内容为“A国的首都是A市”。文本生成还可以采用语义分析或基于模型生成的方法,本发明实施例对此不做限定。
综上,结合图3对方案整体实现过程的数据输入输出进行进一步解释:首先,在获取到问答语句后,对问答语句进行分词处理,从得到的分词结果可以确定问答语句的候选意图以及候选实体,同时将问答语句输入语言处理模型进行实体识别,得到关于实体的语料片段;之后,一条分支为将问答语句与候选意图输入语言处理模型进行意图匹配确定目标意图,另一条分支为将得到的候选实体与实体语料片段进行实体对齐操作,确定目标实体;进一步,通过得到的目标实体与目标意图生成查询语句,查询知识图谱,最后得到问答语句的答复内容。
综上所述,本发明实施例提供的另一种基于知识图谱的问答方法,包括:获取输入的问答语句,对问答语句进行分词,得到分词结果;将分词结果与预设的实体词典进行匹配,得到分词结果对应的第一候选实体和第一候选实体对应的候选意图;实体词典包括关键词、实体、意图的对应关系;实体用于表征具有预设意图含义的对象;将问答语句和第一候选实体输入预设的语言处理模型进行实体识别,得到目标实体,目标实体是基于第一候选实体和问答语句中包含实体的语料之间的文本相似度所确定;将问答语句和候选意图输入语言处理模型进行意图识别,得到目标意图,目标意图是基于问答语句和候选意图之间的文本相似度所确定;根据目标实体和目标意图,确定针对所述问答语句的答复内容。本发明通过分词得到的第一候选实体与通过语言模型进行实体识别得到的语料片段进行相似度计算确定目标实体,提高了实体匹配的准确度,根据分词得到的候选意图与问句进行相似度计算确定目标意图,提高了意图识别的准确度,通过确定的目标实体和目标意图确定基于知识图谱的问答语句的答复内容,使得通过查询知识图谱可以快速且准确的得到问答语句的答复内容。
图5是本发明实施例提供的一种终端的框图,如图5所示,该终端包括:
分词模块,用于获取输入的问答语句,对所述问答语句进行分词,得到分词结果;
第一确定模块,用于将所述分词结果与预设的实体词典进行匹配,得到所述分词结果对应的第一候选实体和所述第一候选实体对应的候选意图;所述实体词典包括关键词与实体的对应关系;所述实体用于表征具有预设意图含义的对象;
第二确定模块,用于将所述问答语句和所述第一候选实体输入预设的语言处理模型进行实体识别,得到目标实体,所述目标实体是基于所述第一候选实体和所述问答语句中包含实体的语料之间的文本相似度所确定;
第三确定模块,用于将所述问答语句和所述第一候选实体输入预设的语言处理模型进行实体识别,得到目标实体,所述目标实体是基于所述第一候选实体和所述问答语句中包含实体的语料之间的文本相似度所确定;
答复生成模块,用于根据所述目标实体和所述目标意图,确定针对所述问答语句的答复内容。
可选的,所述语言处理模型包括语料识别模块和对齐模块,所述第二确定模块还包括:
第二识别子模块,用于将所述问答语句输入所述语料识别模块,得到所述问答语句中包含的所述第二候选实体的实体语料片段;
第二确定子模块,用于将由所述实体语料片段和所述第一候选实体构成的第一组合输入所述对齐模块,确定所述第一组合中的所述第一候选实体和所述实体语料片段的文本相似度,并从文本相似度最大的所述第一组合中确定所述目标实体。
可选的,所述第二确定子模块,包括:
将文本相似度最大的所述第一组合中的所述第一候选实体确定为目标实体。
可选的,所述第三确定模块包括:
第三确定子模块:用于将由所述问答语句和所述候选意图构成的第二组合输入所述语言处理模型,确定所述第二组合中所述问答语句和所述候选意图的文本相似度,并将文本相似度最大的所述第二组合中的所述候选意图确定为目标意图。
可选的,所述实体词典包括:具有子词和所述实体的对应关系的第一词典,所述子词为所述实体分词后得到的词;所述第一确定模块包括:
第一匹配子模块:用于将所述分词结果中的分词与所述第一词典中的子词进行匹配,并将与所述分词匹配的子词对应的实体确定为所述第一候选实体,以及确定所述第一候选实体对应的候选意图。
可选的,所述实体词典还包括:具有别称和实体的对应关系的第二词典,所述别称为所述实体的别名;所述第一确定模块还包括:
第二匹配子模块:用于将所述分词结果中的分词与所述第二词典中的别称进行匹配,并将与所述分词匹配的别称对应的实体确定为所述第一候选实体,以及确定所述第一候选实体对应的候选意图。
可选的,所述答复确定模块包括:
语句生成子模块:用于基于所述目标实体和所述目标意图生成图谱查询语句;
查询结果子模块:用于采用所述图谱查询语句查询所述知识图谱,得到查询结果;
内容生成子模块:用于根据所述查询结果构建答复内容。
综上所述,本发明实施例提供的一种基于知识图谱的问答方法、电子设备、计算机可读存储介质及计算机程序产品,包括获取输入的问答语句,对问答语句进行分词,得到分词结果;将分词结果与预设的实体词典进行匹配,得到分词结果对应的第一候选实体和第一候选实体对应的候选意图;实体词典包括关键词、实体、意图的对应关系;实体用于表征具有预设意图含义的对象;将问答语句和第一候选实体输入预设的语言处理模型进行实体识别,得到目标实体,目标实体是基于第一候选实体和问答语句中包含实体的语料之间的文本相似度所确定;将问答语句和候选意图输入语言处理模型进行意图识别,得到目标意图,目标意图是基于问答语句和候选意图之间的文本相似度所确定;根据目标实体和目标意图,确定针对所述问答语句的答复内容。本发明通过分词得到的第一候选实体与通过语言模型进行实体识别得到的语料片段进行相似度计算确定目标实体,提高了实体匹配的准确度,根据分词得到的候选意图与问句进行相似度计算确定目标意图,提高了意图识别的准确度,通过确定的目标实体和目标意图确定基于知识图谱的问答语句的答复内容,使得通过查询知识图谱可以快速且准确的得到问答语句的答复内容。
图6是根据一示例性实施例示出的一种电子设备600的框图。例如,电子设备600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,电子设备600可以包括以下一个或多个组件:处理组件602,存储器604,电源组件606,多媒体组件608,音频组件610,输入/输出(I/O)的接口612,传感器组件614,以及通信组件616。
处理组件602通常控制电子设备600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理组件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
存储器604用于存储各种类型的数据以支持在电子设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,多媒体等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件606为电子设备600的各种组件提供电力。电源组件606可以包括电源管理系统,一个或多个电源,及其他与为电子设备600生成、管理和分配电力相关联的组件。
多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的分界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600处于操作模式,如拍摄模式或多媒体模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件610用于输出和/或输入音频信号。例如,音频组件610包括一个麦克风(MIC),当电子设备600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
I/O接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件614包括一个或多个传感器,用于为电子设备600提供各个方面的状态评估。例如,传感器组件614可以检测到电子设备600的打开/关闭状态,组件的相对定位,例如所述组件为电子设备600的显示器和小键盘,传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变,用户与电子设备600接触的存在或不存在,电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件616用于便于电子设备600和其他设备之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于实现本公开实施例提供的一种基于知识图谱的问答方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由电子设备600的处理器620执行以完成上述方法。例如,所述非临时性存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图7是根据一示例性实施例示出的一种电子设备700的框图。例如,电子设备700可以被提供为一服务器。参照图5,电子设备700包括处理组件722,其进一步包括一个或多个处理器,以及由存储器732所代表的存储器资源,用于存储可由处理组件722的执行的指令,例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件722被配置为执行指令,以执行本公开实施例提供的一种基于知识图谱的问答方法。
电子设备700还可以包括一个电源组件726被配置为执行电子设备700的电源管理,一个有线或无线网络接口750被配置为将电子设备700连接到网络,和一个输入输出(I/O)接口758。电子设备700可以操作基于存储在存储器732的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本公开实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现所述基于知识图谱的问答方法。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (11)

1.一种基于知识图谱的问答方法,其特征在于,包括:
获取输入的问答语句,对所述问答语句进行分词,得到分词结果;
将所述分词结果与预设的实体词典进行匹配,得到所述分词结果对应的第一候选实体和所述第一候选实体对应的候选意图;所述实体词典包括关键词、实体、意图的对应关系;所述实体用于表征具有预设意图含义的对象;
将所述问答语句和所述第一候选实体输入预设的语言处理模型进行实体识别,得到目标实体,所述目标实体是基于所述第一候选实体和所述问答语句中包含实体的语料之间的文本相似度所确定;
将所述问答语句和所述候选意图输入所述语言处理模型进行意图识别,得到目标意图,所述目标意图是基于所述问答语句和所述候选意图之间的文本相似度所确定;
根据所述目标实体和所述目标意图,确定针对所述问答语句的答复内容。
2.根据权利要求1所述的方法,其特征在于,所述语言处理模型包括语料识别模块和对齐模块;
所述将所述问答语句和第一候选实体输入预设的语言处理模型进行实体识别,得到目标实体,包括:
将所述问答语句输入所述语料识别模块,得到所述问答语句中包含的所述第二候选实体的实体语料片段;
将由所述实体语料片段和所述第一候选实体构成的第一组合输入所述对齐模块,确定所述第一组合中的所述第一候选实体和所述实体语料片段的文本相似度,并从文本相似度最大的所述第一组合中确定所述目标实体。
3.根据权利要求2所述的方法,其特征在于,所述从文本相似度最大的第一组合中确定所述目标实体,包括:
将文本相似度最大的所述第一组合中的所述第一候选实体确定为目标实体。
4.根据权利要求1所述的方法,其特征在于,所述将所述问答语句和所述候选意图输入所述语言处理模型进行意图识别,得到目标意图,包括:
将由所述问答语句和所述候选意图构成的第二组合输入所述语言处理模型,确定所述第二组合中所述问答语句和所述候选意图的文本相似度,并将文本相似度最大的所述第二组合中的所述候选意图确定为目标意图。
5.根据权利要求1所述的方法,其特征在于,所述实体词典包括:具有子词和所述实体的对应关系的第一词典,所述子词为所述实体分词后得到的词;
所述将所述分词结果与预设的实体词典进行匹配,得到所述分词结果对应的第一候选实体和所述第一候选实体对应的候选意图,包括:
将所述分词结果中的分词与所述第一词典中的子词进行匹配,并将与所述分词匹配的子词对应的实体确定为所述第一候选实体,以及确定所述第一候选实体对应的候选意图。
6.根据权利要求1所述的方法,其特征在于,所述实体词典还包括:具有别称和实体的对应关系的第二词典,所述别称为所述实体的别名;
所述将所述分词结果与预设的实体词典进行匹配,得到所述分词结果对应的第一候选实体和所述第一候选实体包含的候选意图,包括:
将所述分词结果中的分词与所述第二词典中的别称进行匹配,并将与所述分词匹配的别称对应的实体确定为所述第一候选实体,以及确定所述第一候选实体对应的候选意图。
7.根据权利要求1所述的方法,其特征在于,根据所述目标实体和所述目标意图,确定针对所述问答语句的答复内容,包括:
基于所述目标实体和所述目标意图生成图谱查询语句;
采用所述图谱查询语句查询所述知识图谱,得到查询结果;
根据所述查询结果构建答复内容。
8.一种基于知识图谱的问答装置,其特征在于,所述装置包括:
分词模块,用于获取输入的问答语句,对所述问答语句进行分词,得到分词结果;
第一确定模块,用于将所述分词结果与预设的实体词典进行匹配,得到所述分词结果对应的第一候选实体和所述第一候选实体对应的候选意图;所述实体词典包括关键词与实体的对应关系;所述实体用于表征具有预设意图含义的对象;
第二确定模块,用于将所述问答语句和所述第一候选实体输入预设的语言处理模型进行实体识别,得到目标实体,所述目标实体是基于所述第一候选实体和所述问答语句中包含实体的语料之间的文本相似度所确定;
第三确定模块,用于将所述问答语句和所述第一候选实体输入预设的语言处理模型进行实体识别,得到目标实体,所述目标实体是基于所述第一候选实体和所述问答语句中包含实体的语料之间的文本相似度所确定;
答复生成模块,用于根据所述目标实体和所述目标意图,确定针对所述问答语句的答复内容。
9.一种电子设备,其特征在于,包括:处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至7中任一项所述的方法。
11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的方法。
CN202210371151.2A 2022-04-08 2022-04-08 一种基于知识图谱的问答方法及装置 Pending CN114880480A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210371151.2A CN114880480A (zh) 2022-04-08 2022-04-08 一种基于知识图谱的问答方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210371151.2A CN114880480A (zh) 2022-04-08 2022-04-08 一种基于知识图谱的问答方法及装置

Publications (1)

Publication Number Publication Date
CN114880480A true CN114880480A (zh) 2022-08-09

Family

ID=82669017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210371151.2A Pending CN114880480A (zh) 2022-04-08 2022-04-08 一种基于知识图谱的问答方法及装置

Country Status (1)

Country Link
CN (1) CN114880480A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116860949A (zh) * 2023-08-21 2023-10-10 人民网股份有限公司 问答处理方法、装置、系统、计算设备及计算机存储介质
CN116933800A (zh) * 2023-09-12 2023-10-24 深圳须弥云图空间科技有限公司 一种基于模版的生成式意图识别方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116860949A (zh) * 2023-08-21 2023-10-10 人民网股份有限公司 问答处理方法、装置、系统、计算设备及计算机存储介质
CN116860949B (zh) * 2023-08-21 2024-04-05 人民网股份有限公司 问答处理方法、装置、系统、计算设备及计算机存储介质
CN116933800A (zh) * 2023-09-12 2023-10-24 深圳须弥云图空间科技有限公司 一种基于模版的生成式意图识别方法及装置
CN116933800B (zh) * 2023-09-12 2024-01-05 深圳须弥云图空间科技有限公司 一种基于模版的生成式意图识别方法及装置

Similar Documents

Publication Publication Date Title
TWI728564B (zh) 圖像的描述語句定位方法及電子設備和儲存介質
CN110781305B (zh) 基于分类模型的文本分类方法及装置,以及模型训练方法
CN109145213B (zh) 基于历史信息的查询推荐方法及装置
US20170154104A1 (en) Real-time recommendation of reference documents
CN114880480A (zh) 一种基于知识图谱的问答方法及装置
CN109558599B (zh) 一种转换方法、装置和电子设备
CN110069624B (zh) 文本处理方法及装置
CN107564526B (zh) 处理方法、装置和机器可读介质
CN111368541A (zh) 命名实体识别方法及装置
CN116166843B (zh) 基于细粒度感知的文本视频跨模态检索方法和装置
CN111538830B (zh) 法条检索方法、装置、计算机设备及存储介质
CN112528671A (zh) 语义分析方法、装置以及存储介质
CN110929176A (zh) 一种信息推荐方法、装置及电子设备
CN110674246A (zh) 问答模型训练方法、自动问答方法及装置
CN111538998B (zh) 文本定密方法和装置、电子设备及计算机可读存储介质
CN111984765B (zh) 知识库问答过程关系检测方法及装置
CN112036195A (zh) 机器翻译方法、装置及存储介质
CN111222316A (zh) 文本检测方法、装置及存储介质
CN110609880A (zh) 一种信息查询方法、装置及电子设备
CN111400443B (zh) 信息处理方法、装置及存储介质
CN113971218A (zh) 位置编码方法、装置及存储介质
CN115130456A (zh) 语句解析、匹配模型的训练方法、装置、设备及存储介质
CN112836026B (zh) 基于对话的问诊方法及装置
CN104699668B (zh) 确定词语相似度的方法及装置
CN109976548B (zh) 一种输入方法及输入装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination