CN111177345B - 基于知识图谱的智能问答方法、装置和计算机设备 - Google Patents
基于知识图谱的智能问答方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN111177345B CN111177345B CN201911318249.6A CN201911318249A CN111177345B CN 111177345 B CN111177345 B CN 111177345B CN 201911318249 A CN201911318249 A CN 201911318249A CN 111177345 B CN111177345 B CN 111177345B
- Authority
- CN
- China
- Prior art keywords
- sequence
- entity
- word
- preset
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请揭示了一种基于知识图谱的智能问答方法、装置、计算机设备和存储介质,所述方法包括:获取问句,并对问句进行预处理,从而得到关键词序列;计算关键词序列与预设的知识图谱索引的相似度值;若相似度值不大于预设的相似度阈值,则判断是否存在可拆分的指定名词;若存在可拆分的指定名词,则将所述关键词序列中的指定名词拆为分多个逻辑分词;判断所述知识图谱中是否存在指定网络结构,所述指定网络结构指第一实体‑第一实体关系‑第二实体‑第二实体关系‑……‑第n‑1实体关系‑第n实体的网络结构;若知识图谱中存在指定网络结构,则将第n实体关系作为答案,或者将第n+1实体作为答案;并输出所述答案。从而提高了问题回答的准确率。
Description
技术领域
本申请涉及到计算机领域,特别是涉及到一种基于知识图谱的智能问答方法、装置、计算机设备和存储介质。
背景技术
传统的基于faq(常见问题解答)对的问答方法,是基于问答对的一问一答,通过客户的输入语句,进行相似度计算后匹配最相似语句,然后获取该语句对应的答案。但是这种问答仅限于已有答案的faq(常见问题解答)对,对于存在逻辑问答类的提问将会回答错误。因此传统的问答方法的准确度有待提高。
发明内容
本申请的主要目的为提供一种基于知识图谱的智能问答方法、装置、计算机设备和存储介质,旨在提高了问题回答的准确率。
为了实现上述发明目的,本申请提出一种基于知识图谱的智能问答方法,包括以下步骤:
获取问句,并对所述问句进行预处理,从而得到关键词序列,其中所述预处理至少包括词性标注,所述关键词序列至少包括通过所述词性标注得到的名词;
根据预设的相似度计算方法,计算所述关键词序列与预设的知识图谱索引的相似度值,并判断所述相似度值是否大于预设的相似度阈值,其中所述知识图谱索引包括主语、谓语和宾语三者中的二者,所述主语、谓语和宾语均记载于所述知识图谱中;
若所述相似度值不大于预设的相似度阈值,则通过查询预设的可拆分名词库,从而判断所述关键词序列中是否存在可拆分的指定名词;
若所述关键词序列中存在可拆分的指定名词,则根据预设的名词拆分方法,将所述关键词序列中的指定名词拆为分多个逻辑分词,并将所述指定名词从属的名词记为主名词;
判断所述知识图谱中是否存在指定网络结构,所述指定网络结构指第一实体-第一实体关系-第二实体-第二实体关系-…-第n-1实体关系-第n实体的网络结构,其中,所述第一实体关系、第二实体关系、…、第n-1实体关系与所述多个逻辑分词一一对应,并且所述第一实体与所述主名词相同;
若所述知识图谱中存在指定网络结构,则根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n实体关系作为答案,或者将所述第n+1实体作为答案;并输出所述答案。
进一步地,所述对所述问句进行预处理,从而得到关键词序列,其中所述预处理至少包括词性标注,所述关键词序列至少包括通过所述词性标注得到的名词的步骤,包括:
采用预设的词语划分方法,从而将所述问句划分为多个词语,得到由多个词语构成的初始词语序列;
将所述初始词语序列输入经过训练的词性标注模型中的双向编码器架构中进行计算,从而获取双向编码器架构输出的参照序列标注,以及获取双向编码器架构中最后一层转换单元的隐藏状态向量集合,其中,所述词性标注模型包括双向编码器架构和支持向量机架构,双向编码器架构包括多层转换单元,所述参照序列标注至少包括被标注为名词的词语;
将所述隐藏状态向量集合输入所述支持向量机架构中计算,得到所述初始词语序列中的每个词语对应的标注,并组合成暂时标注序列,所述暂时标注序列至少包括被标注为名词的词语;
根据预设的标注相似度值计算方法,计算所述参照序列标注与所述暂时标注序列的标注相似度值,并判断所述标注相似度值是否大于预设的标注相似度阈值;
若所述标注相似度值大于预设的标注相似度阈值,则将所述暂时标注序列作为所述关键词序列,并获取所述关键词序列。
进一步地,所述双向编码器架构由多层嵌入层、多层转换单元和全连接层顺序连接构成,所述将所述初始词语序列输入经过训练的词性标注模型中的双向编码器架构中进行计算,从而获取双向编码器架构输出的参照序列标注,以及获取双向编码器架构中最后一层转换单元的隐藏状态向量集合的步骤,包括:
利用所述双向编码器架构的多层嵌入层对所述初始词语序列进行嵌入操作,从而获得中间特征序列;
将所述中间特征序列输入所述双向编码器架构的多层转换单元中进行计算,并获取最后一层转换单元的隐藏状态向量集合;
将所述最后一层转换单元的隐藏状态向量集合输入所述全连接层中进行计算,从而得到双向编码器架构输出的参照序列标注。
进一步地,所述根据预设的相似度计算方法,计算所述关键词序列与预设的知识图谱索引的相似度值,并判断所述相似度值是否大于预设的相似度阈值,其中所述知识图谱索引包括主语、谓语和宾语三者中的二者,所述主语、谓语和宾语均记载于所述知识图谱中的步骤之前,包括:
采用预设的知识图谱搭建工具对预存的指定信息执行实体识别操作,从而得到多个初步实体;
判断所述多个初步实体中是否存在属于同一个同义词组的多个同义实体;
若所述多个初步实体中存在属于同一个同义词组的多个同义实体,则对所述多个初步实体执行同义词替换操作,从而得到多个最终实体,其中所述同义词替换操作指将所述多个同义实体替换为所述同义词组中的一个词语;
获取所述指定信息中所述多个最终实体之间的实体关系,形成最终实体-实体关系-最终实体结构的三元组,并依据所述三元组形成所述知识图谱。
进一步地,所述根据预设的相似度计算方法,计算所述关键词序列与预设的知识图谱索引的相似度值的步骤,包括:
通过查询预设的词向量库,从而获取与所述关键词序列对应的第一词向量序列I,以及获取与所述知识图谱索引对应的第二词向量序列R;
根据公式:
计算所述关键词序列与预设的知识图谱索引的相似度值D(I,R);其中Tij为第一词向量序列I中第i个词至第二词向量序列R中的第j个词的权重转移量;di为第i个词在第一词向量序列I中的词频;d’j为第j个词在第二词向量序列R中的词频;c(i,j)为第一词向量序列I中的第i个词与第二词向量序列R中第j个词的欧氏距离;m为第一词向量序列I中的词语数量;n为第二词向量序列R中的词语数量。
进一步地,所述根据预设的相似度计算方法,计算所述关键词序列与预设的知识图谱索引的相似度值,并判断所述相似度值是否大于预设的相似度阈值,其中所述知识图谱索引包括主语、谓语和宾语三者中的二者,所述主语、谓语和宾语均记载于所述知识图谱中的步骤之后,包括:
若所述相似度值大于预设的相似度阈值,则判断所述知识图谱索引是否包括指定主语和指定宾语;
若所述知识图谱索引包括指定主语和指定宾语,则从所述知识图谱中获取第一节点、第二节点和所述第一节点与所述第二节点之间的节点关系,其中所述第一节点等于所述指定主语,所述第二节点等于所述指定宾语;
将所述节点关系作为答案,并输出所述答案。
进一步地,所述根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n实体关系作为答案,或者将所述第n+1实体作为答案的步骤,包括:
判断所述关键词序列中是否缺失主语、谓语和宾语三者中的一者,或者判断所述关键词序列中的疑问词语是主语、谓语还是宾语;
若所述关键词序列中缺失谓语,或者若所述关键词序列中的疑问词语是谓语,则根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n实体关系作为答案,其中所述第n+1实体与主语或者宾语相同;
若所述关键词序列中缺失主语或者宾语中的一者,或者所述关键词序列中的疑问词语是主语或者宾语中的一者,则根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n+1实体作为答案,其中所述关键词序列记载有所述第n实体关系。
本申请提供一种基于知识图谱的智能问答装置,包括:
关键词序列获取单元,用于获取问句,并对所述问句进行预处理,从而得到关键词序列,其中所述预处理至少包括词性标注,所述关键词序列至少包括通过所述词性标注得到的名词;
相似度值判断单元,用于根据预设的相似度计算方法,计算所述关键词序列与预设的知识图谱索引的相似度值,并判断所述相似度值是否大于预设的相似度阈值,其中所述知识图谱索引包括主语、谓语和宾语三者中的二者,所述主语、谓语和宾语均记载于所述知识图谱中;
指定名词判断单元,用于若所述相似度值不大于预设的相似度阈值,则通过查询预设的可拆分名词库,从而判断所述关键词序列中是否存在可拆分的指定名词;
指定名词拆分单元,用于若所述关键词序列中存在可拆分的指定名词,则根据预设的名词拆分方法,将所述关键词序列中的指定名词拆为分多个逻辑分词,并将所述指定名词从属的名词记为主名词;
指定网络结构判断单元,用于判断所述知识图谱中是否存在指定网络结构,所述指定网络结构指第一实体-第一实体关系-第二实体-第二实体关系-…-第n-1实体关系-第n实体的网络结构,其中,所述第一实体关系、第二实体关系、…、第n-1实体关系与所述多个逻辑分词一一对应,并且所述第一实体与所述主名词相同;
答案输出单元,用于若所述知识图谱中存在指定网络结构,则根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n实体关系作为答案,或者将所述第n+1实体作为答案;并输出所述答案。
本申请提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的基于知识图谱的智能问答方法、装置、计算机设备和存储介质,获取问句,并对所述问句进行预处理,从而得到关键词序列;计算所述关键词序列与预设的知识图谱索引的相似度值;若所述相似度值不大于预设的相似度阈值,则判断所述关键词序列中是否存在可拆分的指定名词;若所述关键词序列中存在可拆分的指定名词,则将所述关键词序列中的指定名词拆为分多个逻辑分词;判断所述知识图谱中是否存在指定网络结构,所述指定网络结构指第一实体-第一实体关系-第二实体-第二实体关系-…-第n-1实体关系-第n实体的网络结构;若所述知识图谱中存在指定网络结构,则根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n实体关系作为答案,或者将所述第n+1实体作为答案;并输出所述答案。从而提高了问题回答的准确率。
附图说明
图1为本申请一实施例的基于知识图谱的智能问答方法的流程示意图;
图2为本申请一实施例的基于知识图谱的智能问答装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种基于知识图谱的智能问答方法,包括以下步骤:
S1、获取问句,并对所述问句进行预处理,从而得到关键词序列,其中所述预处理至少包括词性标注,所述关键词序列至少包括通过所述词性标注得到的名词;
S2、根据预设的相似度计算方法,计算所述关键词序列与预设的知识图谱索引的相似度值,并判断所述相似度值是否大于预设的相似度阈值,其中所述知识图谱索引包括主语、谓语和宾语三者中的二者,所述主语、谓语和宾语均记载于所述知识图谱中;
S3、若所述相似度值不大于预设的相似度阈值,则通过查询预设的可拆分名词库,从而判断所述关键词序列中是否存在可拆分的指定名词;
S4、若所述关键词序列中存在可拆分的指定名词,则根据预设的名词拆分方法,将所述关键词序列中的指定名词拆为分多个逻辑分词,并将所述指定名词从属的名词记为主名词;
S5、判断所述知识图谱中是否存在指定网络结构,所述指定网络结构指第一实体-第一实体关系-第二实体-第二实体关系-…-第n-1实体关系-第n实体的网络结构,其中,所述第一实体关系、第二实体关系、…、第n-1实体关系与所述多个逻辑分词一一对应,并且所述第一实体与所述主名词相同;
S6、若所述知识图谱中存在指定网络结构,则根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n实体关系作为答案,或者将所述第n+1实体作为答案;并输出所述答案。
如上述步骤S1所述,获取问句,并对所述问句进行预处理,从而得到关键词序列,其中所述预处理至少包括词性标注,所述关键词序列至少包括通过所述词性标注得到的名词。其中问句用于提问,因此问句中对于想要知道的内容会使用疑问词(谁、WHO等)代替,或者采用词语缺失的方式代替(例如姚明的身高?)。其中所述预处理至少包括词性标注,所述关键词序列至少包括通过所述词性标注得到的名词。由于本申请的问答方法是基于知识图谱的,而知识图谱中的节点为实体名词,因此预先进行词性标注得到名词便于找出准确答案;并且本申请还利用逻辑分词实现对逻辑问答类的提问的准确回答,也需要对名词进行拆分。进一步地,所述预处理还可以包括
如上述步骤S2所述,根据预设的相似度计算方法,计算所述关键词序列与预设的知识图谱索引的相似度值,并判断所述相似度值是否大于预设的相似度阈值,其中所述知识图谱索引包括主语、谓语和宾语三者中的二者,所述主语、谓语和宾语均记载于所述知识图谱中。其中相似度计算方法可为任意方法,例如为:通过查询预设的词向量库,从而获取与所述关键词序列对应的第一词向量序列I,以及获取与所述知识图谱索引对应的第二词向量序列R;根据公式:
计算所述关键词序列与预设的知识图谱索引的相似度值D(I,R);其中D(I,R)为第一词向量序列I与第二词向量序列R的相似度值;Tij为第一词向量序列I中第i个词至第二词向量序列R中的第j个词的权重转移量;di为第i个词在第一词向量序列I中的词频;d’j为第j个词在第二词向量序列R中的词频;c(i,j)为第一词向量序列I中的第i个词与第二词向量序列R中第j个词的欧氏距离;m为第一词向量序列I中的词语数量;n为第二词向量序列R中的词语数量。所述知识图谱索引包括主语、谓语和宾语三者中的二者,所述主语、谓语和宾语均记载于所述知识图谱中,即是指知识图谱索引以(A,B,N),(A,N,C),(N,B,C)的形式呈现,其中A为主语,B为谓语,C为宾语,N为缺失位(或者记为空)。
如上述步骤S3所述,若所述相似度值不大于预设的相似度阈值,则通过查询预设的可拆分名词库,从而判断所述关键词序列中是否存在可拆分的指定名词。若所述相似度值不大于预设的相似度阈值,表明所述知识图谱的直接三元组中不存在与所述问句对应的答案,按传统的问答方法,将无法给出答案。本申请还通过查询预设的可拆分名词库,从而判断所述关键词序列中是否存在可拆分的指定名词,即获知所述问句是否为逻辑问答类的提问(存在指定句词的问句),以便后续步骤找出准确的答案。
如上述步骤S4所述,若所述关键词序列中存在可拆分的指定名词,则根据预设的名词拆分方法,将所述关键词序列中的指定名词拆为分多个逻辑分词,并将所述指定名词从属的名词记为主名词。在此对可拆分的名词试举一例:爷爷;其中爷爷可拆分为父亲的父亲。若问句为小明的爷爷的职业是什么?而当前的知识图谱的直接三元组中只有小明的父亲是小刚,小刚的父亲是小猛,而没有小明的爷爷是小猛这样的关系,那么传统的问答方法将无法给出答案,而本申请的问答方法将给出准确的答案。其中,上例的主名词即为小明。
如上述步骤S5所述,判断所述知识图谱中是否存在指定网络结构,所述指定网络结构指第一实体-第一实体关系-第二实体-第二实体关系-…-第n-1实体关系-第n实体的网络结构,其中,所述第一实体关系、第二实体关系、…、第n-1实体关系与所述多个逻辑分词一一对应,并且所述第一实体与所述主名词相同。其中,判断所述知识图谱中是否存在指定网络结构的目的在于,确定知识图谱是否能给出准确答案。以问句为小明的爷爷的职业是什么举例,则指定网络结构为小明-父亲-小刚-父亲-小猛,从而得到第n实体为小猛,并且第一实体关系为父亲、第二实体关系为父亲。
如上述步骤S6所述,若所述知识图谱中存在指定网络结构,则根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n实体关系作为答案,或者将所述第n+1实体作为答案;并输出所述答案。以问句为小明的爷爷的职业是什么举例,若第n实体-第n实体关系-第n+1实体的连接关系为:小猛-职业-医生,则以第n+1实体作为答案,从而得到小明的爷爷的职业是医生的准确回答。以问句为小明的爷爷与医生的关系是什么举例,,若第n实体-第n实体关系-第n+1实体的连接关系为:小猛-职业-医生,则以所述第n实体关系作为答案,从而得到小明的爷爷与医生的关系是职业关系的准确回答。
在一个实施方式中,所述对所述问句进行预处理,从而得到关键词序列,其中所述预处理至少包括词性标注,所述关键词序列至少包括通过所述词性标注得到的名词的步骤S1,包括:
S101、采用预设的词语划分方法,从而将所述问句划分为多个词语,得到由多个词语构成的初始词语序列;
S102、将所述初始词语序列输入经过训练的词性标注模型中的双向编码器架构中进行计算,从而获取双向编码器架构输出的参照序列标注,以及获取双向编码器架构中最后一层转换单元的隐藏状态向量集合,其中,所述词性标注模型包括双向编码器架构和支持向量机架构,双向编码器架构包括多层转换单元,所述参照序列标注至少包括被标注为名词的词语;
S103、将所述隐藏状态向量集合输入所述支持向量机架构中计算,得到所述初始词语序列中的每个词语对应的标注,并组合成暂时标注序列,所述暂时标注序列至少包括被标注为名词的词语;
S104、根据预设的标注相似度值计算方法,计算所述参照序列标注与所述暂时标注序列的标注相似度值,并判断所述标注相似度值是否大于预设的标注相似度阈值;
S105、若所述标注相似度值大于预设的标注相似度阈值,则将所述暂时标注序列作为所述关键词序列,并获取所述关键词序列。
如上所述,实现了对所述问句进行预处理,从而得到关键词序列。本申请采用包括双向编码器架构和支持向量机架构的词性标注模型进行词性标注,相对于传统的仅利用支持向量机,词性标注更准确。其中词语划分方法可为任意方法,例如采用开源的分词工具,例如jieba、NLPIR等进行分词,例如采用基于字符串匹配的分词方法或者基于统计的分词方法。其中双向编码器架构还包括输出层,用于输出参照序列标注。所述双向编码器架构中最后一层转换单元的隐藏状态向量集合反应了输入的序列,作为支持向量机架构的输入能有效地改善支持向量机架构。其中,转换单元由多个编码器和解码器堆叠形成。所述支持向量机架构中计算的方法例如为:根据函数:计算出标注值,/>为第i个词语对应的标注值,wyi为第i个词语对应的参数向量,wyi与hi具有相同维度,yi为第i个词语对应的标注,hi为第i个词语对应的隐藏状态向量。预设的标注相似度值计算方法可为任意方法,例如采用余弦距离作为相似度的算法。如上述步骤S6所述,若所述相似度值大于预设的相似度阈值,则将所述初始序列标注作为最终序列标注。若所述标注相似度值大于预设的标注相似度阈值,表明所述支持向量机架构与双向编码器架构都做出了同样的标注,因此可将所述暂时标注序列作为所述关键词序列。由于采用的词性标注模型综合考虑了双向编码器架构和支持向量机架构,因此标注更准确。
在一个实施方式中,所述双向编码器架构由多层嵌入层、多层转换单元和全连接层顺序连接构成,所述将所述初始词语序列输入经过训练的词性标注模型中的双向编码器架构中进行计算,从而获取双向编码器架构输出的参照序列标注,以及获取双向编码器架构中最后一层转换单元的隐藏状态向量集合的步骤S102,包括:
S1021、利用所述双向编码器架构的多层嵌入层对所述初始词语序列进行嵌入操作,从而获得中间特征序列;
S1022、将所述中间特征序列输入所述双向编码器架构的多层转换单元中进行计算,并获取最后一层转换单元的隐藏状态向量集合;
S1023、将所述最后一层转换单元的隐藏状态向量集合输入所述全连接层中进行计算,从而得到双向编码器架构输出的参照序列标注。
如上所述,实现了获取双向编码器架构输出的参照序列标注,以及获取隐藏状态向量集合。双向编码器架构由多层嵌入层、多层转换单元和全连接层顺序连接构成,其中的多层嵌入层可以为三层嵌入层,分别为表征嵌入层、分割嵌入层和位置嵌入层,对应用于将词语转换成向量形式、用于区分两个句子(例如以O或1的形式)、将词语的位置信息编码成特征向量,再对三层嵌入层的输出的向量进行叠加处理得到中间特征序列,作为多层转换单元的输入。所述多层转换单元用于反应上下文的关系,其中最后一层转换单元的隐藏状态向量集合即反应了所述初始词语序列。所述双向编码器架构的全连接层输出的参照序列标注,用于与后续的支持向量机架构生成的暂时标注序列进行比对,以提高标注的准确性。
在一个实施方式中,所述根据预设的相似度计算方法,计算所述关键词序列与预设的知识图谱索引的相似度值,并判断所述相似度值是否大于预设的相似度阈值,其中所述知识图谱索引包括主语、谓语和宾语三者中的二者,所述主语、谓语和宾语均记载于所述知识图谱中的步骤S2之前,包括:
S11、采用预设的知识图谱搭建工具对预存的指定信息执行实体识别操作,从而得到多个初步实体;
S12、判断所述多个初步实体中是否存在属于同一个同义词组的多个同义实体;
S13、若所述多个初步实体中存在属于同一个同义词组的多个同义实体,则对所述多个初步实体执行同义词替换操作,从而得到多个最终实体,其中所述同义词替换操作指将所述多个同义实体替换为所述同义词组中的一个词语;
S14、获取所述指定信息中所述多个最终实体之间的实体关系,形成最终实体-实体关系-最终实体结构的三元组,并依据所述三元组形成所述知识图谱。
如上所述,实现了生成知识图谱。其中知识图谱构建工具例如为开源的SPSS、Ucinet NetDraw、VOSviewer等。其中知识图谱的基本结构是实体-实体关系-实体,因此所述实体即是知识图谱中的节点,实体关系在知识图谱中也被称为关系边。识别出初始实体的过程例如为:对指定信息进行分词处理,从而获得由多个词构成的词序列,将所述词序列输入预设的语句结构模型,从而在所述词序列中获取初始实体。获取所述指定信息中所述多个最终实体之间的实体关系,形成最终实体-实体关系-最终实体结构的三元组,并依据所述三元组形成所述知识图谱。其中三元组由两个实体以及两个实体之间的关系构成,因此获取了足够量的三元组,并将三元组以知识图谱网络结构的方式呈现,即能得到所述知识图谱。其中,获取所述指定信息中所述多个最终实体之间的实体关系的方式例如为:将所述指定信息套入预设的语句结构,从而通过所述语句结构将表述多个实体间的关系的词汇提取出来。
在一个实施方式中,所述根据预设的相似度计算方法,计算所述关键词序列与预设的知识图谱索引的相似度值的步骤S2,包括:
S201、通过查询预设的词向量库,从而获取与所述关键词序列对应的第一词向量序列I,以及获取与所述知识图谱索引对应的第二词向量序列R;
S202、根据公式:
计算所述关键词序列与预设的知识图谱索引的相似度值D(I,R);其中Tij为第一词向量序列I中第i个词至第二词向量序列R中的第j个词的权重转移量;di为第i个词在第一词向量序列I中的词频;d’j为第j个词在第二词向量序列R中的词频;c(i,j)为第一词向量序列I中的第i个词与第二词向量序列R中第j个词的欧氏距离;m为第一词向量序列I中的词语数量;n为第二词向量序列R中的词语数量。
如上所述,实现了计算所述关键词序列与预设的知识图谱索引的相似度值。其中,词向量库可以采用现成的数据库,也可以采用词向量训练工具word2vec对预先收集的语料进行训练,从而得到词向量库。其中,公式:
是利用了词向量的欧氏距离。所述欧氏距离的计算公式为:
其中d(x,y)为两个词向量x与y之间的欧氏距离,两个词向量x与y的分向量的数量均为n。将欧氏距离计算公式代入相似度计算方法的计算公式中,即可算出所述关键词序列与预设的知识图谱索引的相似度值。
在一个实施方式中,所述根据预设的相似度计算方法,计算所述关键词序列与预设的知识图谱索引的相似度值,并判断所述相似度值是否大于预设的相似度阈值,其中所述知识图谱索引包括主语、谓语和宾语三者中的二者,所述主语、谓语和宾语均记载于所述知识图谱中的步骤S2之后,包括:
S21、若所述相似度值大于预设的相似度阈值,则判断所述知识图谱索引是否包括指定主语和指定宾语;
S22、若所述知识图谱索引包括指定主语和指定宾语,则从所述知识图谱中获取第一节点、第二节点和所述第一节点与所述第二节点之间的节点关系,其中所述第一节点等于所述指定主语,所述第二节点等于所述指定宾语;
S23、将所述节点关系作为答案,并输出所述答案。
如上所述,实现了将所述节点关系作为答案,并输出所述答案。若所述相似度值大于预设的相似度阈值,表明所述知识图谱的直接三元组即可给出直接答案,因此直接利用知识图谱索引获取答案即可,无需进行逻辑分词。若所述知识图谱索引包括指定主语和指定宾语,即知识图谱索引缺少谓语,相应的,问句也是缺少谓语,实际上相得到的是主语与宾语之间的关系。因此从所述知识图谱中获取第一节点、第二节点和所述第一节点与所述第二节点之间的节点关系,其中所述第一节点等于所述指定主语,所述第二节点等于所述指定宾语;将所述节点关系作为答案,并输出所述答案即可。例如问句为:杨颖和黄晓明的关系为?此问句经过前述的标注处理之后,可知其实际上存在主语和宾语:杨颖、黄晓明,缺少的是主语和宾语之间的连接关系。而知识图谱中存在杨颖-夫妻-黄晓明的三元组,那么则将节点关系:夫妻作为答案进行输出。
在一个实施方式中,所述根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n实体关系作为答案,或者将所述第n+1实体作为答案的步骤S6,包括:
S601、判断所述关键词序列中是否缺失主语、谓语和宾语三者中的一者,或者判断所述关键词序列中的疑问词语是主语、谓语还是宾语;
S602、若所述关键词序列中缺失谓语,或者若所述关键词序列中的疑问词语是谓语,则根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n实体关系作为答案,其中所述第n+1实体与主语或者宾语相同;
S603、若所述关键词序列中缺失主语或者宾语中的一者,或者所述关键词序列中的疑问词语是主语或者宾语中的一者,则根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n+1实体作为答案,其中所述关键词序列记载有所述第n实体关系。
如上所述,实现了根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n实体关系作为答案,或者将所述第n+1实体作为答案。关键词序列缺失的部分,或者疑问词语代替的部分即是问句实际上想要得到的答案,因此通过判断所述关键词序列中是否缺失主语、谓语和宾语三者中的一者,或者判断所述关键词序列中的疑问词语是主语、谓语还是宾语,即可得知问句的意图,再从知识图谱中获取准确的答案。其中,若所述关键词序列中缺失谓语,或者若所述关键词序列中的疑问词语是谓语,则根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n实体关系作为答案,其中所述第n+1实体与主语或者宾语相同。若所述关键词序列中缺失主语或者宾语中的一者,或者所述关键词序列中的疑问词语是主语或者宾语中的一者,则根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n+1实体作为答案,其中所述关键词序列记载有所述第n实体关系。本申请解决了传统的问答方法无法处理逻辑类问答问题的缺陷,提高了问题回答的准确率的同时,也拓宽了问题回答的适用范围。
本申请的基于知识图谱的智能问答方法,获取问句,并对所述问句进行预处理,从而得到关键词序列;计算所述关键词序列与预设的知识图谱索引的相似度值;若所述相似度值不大于预设的相似度阈值,则判断所述关键词序列中是否存在可拆分的指定名词;若所述关键词序列中存在可拆分的指定名词,则将所述关键词序列中的指定名词拆为分多个逻辑分词;判断所述知识图谱中是否存在指定网络结构,所述指定网络结构指第一实体-第一实体关系-第二实体-第二实体关系-…-第n-1实体关系-第n实体的网络结构;若所述知识图谱中存在指定网络结构,则根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n实体关系作为答案,或者将所述第n+1实体作为答案;并输出所述答案。从而提高了问题回答的准确率。
参照图2,本申请实施例提供一种基于知识图谱的智能问答装置,包括:
关键词序列获取单元10,用于获取问句,并对所述问句进行预处理,从而得到关键词序列,其中所述预处理至少包括词性标注,所述关键词序列至少包括通过所述词性标注得到的名词;
相似度值判断单元20,用于根据预设的相似度计算方法,计算所述关键词序列与预设的知识图谱索引的相似度值,并判断所述相似度值是否大于预设的相似度阈值,其中所述知识图谱索引包括主语、谓语和宾语三者中的二者,所述主语、谓语和宾语均记载于所述知识图谱中;
指定名词判断单元30,用于若所述相似度值不大于预设的相似度阈值,则通过查询预设的可拆分名词库,从而判断所述关键词序列中是否存在可拆分的指定名词;
指定名词拆分单元40,用于若所述关键词序列中存在可拆分的指定名词,则根据预设的名词拆分方法,将所述关键词序列中的指定名词拆为分多个逻辑分词,并将所述指定名词从属的名词记为主名词;
指定网络结构判断单元50,用于判断所述知识图谱中是否存在指定网络结构,所述指定网络结构指第一实体-第一实体关系-第二实体-第二实体关系-…-第n-1实体关系-第n实体的网络结构,其中,所述第一实体关系、第二实体关系、…、第n-1实体关系与所述多个逻辑分词一一对应,并且所述第一实体与所述主名词相同;
答案输出单元60,用于若所述知识图谱中存在指定网络结构,则根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n实体关系作为答案,或者将所述第n+1实体作为答案;并输出所述答案。
其中上述单元分别用于执行的操作与前述实施方式的基于知识图谱的智能问答方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述关键词序列获取单元10,包括:
词语划分子单元,用于采用预设的词语划分方法,从而将所述问句划分为多个词语,得到由多个词语构成的初始词语序列;
参照序列标注获取子单元,用于将所述初始词语序列输入经过训练的词性标注模型中的双向编码器架构中进行计算,从而获取双向编码器架构输出的参照序列标注,以及获取双向编码器架构中最后一层转换单元的隐藏状态向量集合,其中,所述词性标注模型包括双向编码器架构和支持向量机架构,双向编码器架构包括多层转换单元,所述参照序列标注至少包括被标注为名词的词语;
暂时标注序列获取子单元,用于将所述隐藏状态向量集合输入所述支持向量机架构中计算,得到所述初始词语序列中的每个词语对应的标注,并组合成暂时标注序列,所述暂时标注序列至少包括被标注为名词的词语;
标注相似度值计算子单元,用于根据预设的标注相似度值计算方法,计算所述参照序列标注与所述暂时标注序列的标注相似度值,并判断所述标注相似度值是否大于预设的标注相似度阈值;
关键词序列获取子单元,用于若所述标注相似度值大于预设的标注相似度阈值,则将所述暂时标注序列作为所述关键词序列,并获取所述关键词序列。
其中上述子单元分别用于执行的操作与前述实施方式的基于知识图谱的智能问答方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述双向编码器架构由多层嵌入层、多层转换单元和全连接层顺序连接构成,所述参照序列标注获取子单元,包括:
中间特征序列获取模块,用于利用所述双向编码器架构的多层嵌入层对所述初始词语序列进行嵌入操作,从而获得中间特征序列;
隐藏状态向量集合获取模块,用于将所述中间特征序列输入所述双向编码器架构的多层转换单元中进行计算,并获取最后一层转换单元的隐藏状态向量集合;
参照序列标注获取模块,用于将所述最后一层转换单元的隐藏状态向量集合输入所述全连接层中进行计算,从而得到双向编码器架构输出的参照序列标注。
其中上述模块分别用于执行的操作与前述实施方式的基于知识图谱的智能问答方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
多个初步实体获取单元,用于采用预设的知识图谱搭建工具对预存的指定信息执行实体识别操作,从而得到多个初步实体;
同义实体判断单元,用于判断所述多个初步实体中是否存在属于同一个同义词组的多个同义实体;
多个最终实体获取单元,用于若所述多个初步实体中存在属于同一个同义词组的多个同义实体,则对所述多个初步实体执行同义词替换操作,从而得到多个最终实体,其中所述同义词替换操作指将所述多个同义实体替换为所述同义词组中的一个词语;
知识图谱生成单元,用于获取所述指定信息中所述多个最终实体之间的实体关系,形成最终实体-实体关系-最终实体结构的三元组,并依据所述三元组形成所述知识图谱。
其中上述单元分别用于执行的操作与前述实施方式的基于知识图谱的智能问答方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述相似度值判断单元20,包括:
词向量序列获取子单元,用于通过查询预设的词向量库,从而获取与所述关键词序列对应的第一词向量序列I,以及获取与所述知识图谱索引对应的第二词向量序列R;
相似度值D(I,R)计算子单元,用于根据公式:
计算所述关键词序列与预设的知识图谱索引的相似度值D(I,R);其中Tij为第一词向量序列I中第i个词至第二词向量序列R中的第j个词的权重转移量;di为第i个词在第一词向量序列I中的词频;d’j为第j个词在第二词向量序列R中的词频;c(i,j)为第一词向量序列I中的第i个词与第二词向量序列R中第j个词的欧氏距离;m为第一词向量序列I中的词语数量;n为第二词向量序列R中的词语数量。
其中上述子单元分别用于执行的操作与前述实施方式的基于知识图谱的智能问答方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
知识图谱索引判断单元,用于若所述相似度值大于预设的相似度阈值,则判断所述知识图谱索引是否包括指定主语和指定宾语;
节点关系获取单元,用于若所述知识图谱索引包括指定主语和指定宾语,则从所述知识图谱中获取第一节点、第二节点和所述第一节点与所述第二节点之间的节点关系,其中所述第一节点等于所述指定主语,所述第二节点等于所述指定宾语;
节点关系输出单元,用于将所述节点关系作为答案,并输出所述答案。
其中上述单元分别用于执行的操作与前述实施方式的基于知识图谱的智能问答方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述答案输出单元60,包括:
关键词序列判断子单元,用于判断所述关键词序列中是否缺失主语、谓语和宾语三者中的一者,或者判断所述关键词序列中的疑问词语是主语、谓语还是宾语;
第一答案生成子单元,用于若所述关键词序列中缺失谓语,或者若所述关键词序列中的疑问词语是谓语,则根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n实体关系作为答案,其中所述第n+1实体与主语或者宾语相同;
第二答案生成子单元,用于若所述关键词序列中缺失主语或者宾语中的一者,或者所述关键词序列中的疑问词语是主语或者宾语中的一者,则根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n+1实体作为答案,其中所述关键词序列记载有所述第n实体关系。
其中上述子单元分别用于执行的操作与前述实施方式的基于知识图谱的智能问答方法的步骤一一对应,在此不再赘述。
本申请的基于知识图谱的智能问答装置,获取问句,并对所述问句进行预处理,从而得到关键词序列;计算所述关键词序列与预设的知识图谱索引的相似度值;若所述相似度值不大于预设的相似度阈值,则判断所述关键词序列中是否存在可拆分的指定名词;若所述关键词序列中存在可拆分的指定名词,则将所述关键词序列中的指定名词拆为分多个逻辑分词;判断所述知识图谱中是否存在指定网络结构,所述指定网络结构指第一实体-第一实体关系-第二实体-第二实体关系-…-第n-1实体关系-第n实体的网络结构;若所述知识图谱中存在指定网络结构,则根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n实体关系作为答案,或者将所述第n+1实体作为答案;并输出所述答案。从而提高了问题回答的准确率。
参照图3,本发明实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于知识图谱的智能问答方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于知识图谱的智能问答方法。
上述处理器执行上述基于知识图谱的智能问答方法,其中所述方法包括的步骤分别与执行前述实施方式的基于知识图谱的智能问答方法的步骤一一对应,在此不再赘述。
本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请的计算机设备,获取问句,并对所述问句进行预处理,从而得到关键词序列;计算所述关键词序列与预设的知识图谱索引的相似度值;若所述相似度值不大于预设的相似度阈值,则判断所述关键词序列中是否存在可拆分的指定名词;若所述关键词序列中存在可拆分的指定名词,则将所述关键词序列中的指定名词拆为分多个逻辑分词;判断所述知识图谱中是否存在指定网络结构,所述指定网络结构指第一实体-第一实体关系-第二实体-第二实体关系-…-第n-1实体关系-第n实体的网络结构;若所述知识图谱中存在指定网络结构,则根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n实体关系作为答案,或者将所述第n+1实体作为答案;并输出所述答案。从而提高了问题回答的准确率。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现基于知识图谱的智能问答方法,其中所述方法包括的步骤分别与执行前述实施方式的基于知识图谱的智能问答方法的步骤一一对应,在此不再赘述。
本申请的计算机可读存储介质,获取问句,并对所述问句进行预处理,从而得到关键词序列;计算所述关键词序列与预设的知识图谱索引的相似度值;若所述相似度值不大于预设的相似度阈值,则判断所述关键词序列中是否存在可拆分的指定名词;若所述关键词序列中存在可拆分的指定名词,则将所述关键词序列中的指定名词拆为分多个逻辑分词;判断所述知识图谱中是否存在指定网络结构,所述指定网络结构指第一实体-第一实体关系-第二实体-第二实体关系-…-第n-1实体关系-第n实体的网络结构;若所述知识图谱中存在指定网络结构,则根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n实体关系作为答案,或者将所述第n+1实体作为答案;并输出所述答案。从而提高了问题回答的准确率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (9)
1.一种基于知识图谱的智能问答方法,其特征在于,包括:
获取问句,并采用预设的词语划分方法,从而将所述问句划分为多个词语,得到由多个词语构成的初始词语序列;
将所述初始词语序列输入经过训练的词性标注模型中的双向编码器架构中进行计算,从而获取双向编码器架构输出的参照序列标注,以及获取双向编码器架构中最后一层转换单元的隐藏状态向量集合,其中,所述词性标注模型包括双向编码器架构和支持向量机架构,双向编码器架构包括多层转换单元,所述参照序列标注至少包括被标注为名词的词语;
将所述隐藏状态向量集合输入所述支持向量机架构中计算,得到所述初始词语序列中的每个词语对应的标注,并组合成暂时标注序列,所述暂时标注序列至少包括被标注为名词的词语;
根据预设的标注相似度值计算方法,计算所述参照序列标注与所述暂时标注序列的标注相似度值,并判断所述标注相似度值是否大于预设的标注相似度阈值;
若所述标注相似度值大于预设的标注相似度阈值,则将所述暂时标注序列作为关键词序列,并获取所述关键词序列;
根据预设的相似度计算方法,计算所述关键词序列与预设的知识图谱索引的相似度值,并判断所述相似度值是否大于预设的相似度阈值,其中所述知识图谱索引包括主语、谓语和宾语三者中的二者,所述主语、谓语和宾语均记载于所述知识图谱中;
若所述相似度值不大于预设的相似度阈值,则通过查询预设的可拆分名词库,从而判断所述关键词序列中是否存在可拆分的指定名词;
若所述关键词序列中存在可拆分的指定名词,则根据预设的名词拆分方法,将所述关键词序列中的指定名词拆为分多个逻辑分词,并将所述指定名词从属的名词记为主名词;
判断所述知识图谱中是否存在指定网络结构,所述指定网络结构指第一实体-第一实体关系-第二实体-第二实体关系-…-第n-1实体关系-第n实体的网络结构,其中,所述第一实体关系、第二实体关系、…、第n-1实体关系与所述多个逻辑分词一一对应,并且所述第一实体与所述主名词相同;
若所述知识图谱中存在指定网络结构,则根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n实体关系作为答案,或者将所述第n+1实体作为答案;并输出所述答案。
2.根据权利要求1所述的基于知识图谱的智能问答方法,其特征在于,所述双向编码器架构由多层嵌入层、多层转换单元和全连接层顺序连接构成,所述将所述初始词语序列输入经过训练的词性标注模型中的双向编码器架构中进行计算,从而获取双向编码器架构输出的参照序列标注,以及获取双向编码器架构中最后一层转换单元的隐藏状态向量集合的步骤,包括:
利用所述双向编码器架构的多层嵌入层对所述初始词语序列进行嵌入操作,从而获得中间特征序列;
将所述中间特征序列输入所述双向编码器架构的多层转换单元中进行计算,并获取最后一层转换单元的隐藏状态向量集合;
将所述最后一层转换单元的隐藏状态向量集合输入所述全连接层中进行计算,从而得到双向编码器架构输出的参照序列标注。
3.根据权利要求1所述的基于知识图谱的智能问答方法,其特征在于,所述根据预设的相似度计算方法,计算所述关键词序列与预设的知识图谱索引的相似度值,并判断所述相似度值是否大于预设的相似度阈值,其中所述知识图谱索引包括主语、谓语和宾语三者中的二者,所述主语、谓语和宾语均记载于所述知识图谱中的步骤之前,包括:
采用预设的知识图谱搭建工具对预存的指定信息执行实体识别操作,从而得到多个初步实体;
判断所述多个初步实体中是否存在属于同一个同义词组的多个同义实体;
若所述多个初步实体中存在属于同一个同义词组的多个同义实体,则对所述多个初步实体执行同义词替换操作,从而得到多个最终实体,其中所述同义词替换操作指将所述多个同义实体替换为所述同义词组中的一个词语;
获取所述指定信息中所述多个最终实体之间的实体关系,形成最终实体-实体关系-最终实体结构的三元组,并依据所述三元组形成所述知识图谱。
4.根据权利要求1所述的基于知识图谱的智能问答方法,其特征在于,所述根据预设的相似度计算方法,计算所述关键词序列与预设的知识图谱索引的相似度值的步骤,包括:
通过查询预设的词向量库,从而获取与所述关键词序列对应的第一词向量序列I,以及获取与所述知识图谱索引对应的第二词向量序列R;
根据公式:
计算所述关键词序列与预设的知识图谱索引的相似度值D(I,R);其中Tij为第一词向量序列I中第i个词至第二词向量序列R中的第j个词的权重转移量;di为第i个词在第一词向量序列I中的词频;d’j为第j个词在第二词向量序列R中的词频;c(i,j)为第一词向量序列I中的第i个词与第二词向量序列R中第j个词的欧氏距离;m为第一词向量序列I中的词语数量;n为第二词向量序列R中的词语数量。
5.根据权利要求1所述的基于知识图谱的智能问答方法,其特征在于,所述根据预设的相似度计算方法,计算所述关键词序列与预设的知识图谱索引的相似度值,并判断所述相似度值是否大于预设的相似度阈值,其中所述知识图谱索引包括主语、谓语和宾语三者中的二者,所述主语、谓语和宾语均记载于所述知识图谱中的步骤之后,包括:
若所述相似度值大于预设的相似度阈值,则判断所述知识图谱索引是否包括指定主语和指定宾语;
若所述知识图谱索引包括指定主语和指定宾语,则从所述知识图谱中获取第一节点、第二节点和所述第一节点与所述第二节点之间的节点关系,其中所述第一节点等于所述指定主语,所述第二节点等于所述指定宾语;
将所述节点关系作为答案,并输出所述答案。
6.根据权利要求1所述的基于知识图谱的智能问答方法,其特征在于,所述根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n实体关系作为答案,或者将所述第n+1实体作为答案的步骤,包括:
判断所述关键词序列中是否缺失主语、谓语和宾语三者中的一者,或者判断所述关键词序列中的疑问词语是主语、谓语还是宾语;
若所述关键词序列中缺失谓语,或者若所述关键词序列中的疑问词语是谓语,则根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n实体关系作为答案,其中所述第n+1实体与主语或者宾语相同;
若所述关键词序列中缺失主语或者宾语中的一者,或者所述关键词序列中的疑问词语是主语或者宾语中的一者,则根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n+1实体作为答案,其中所述关键词序列记载有所述第n实体关系。
7.一种基于知识图谱的智能问答装置,其特征在于,包括:
关键词序列获取单元,用于获取问句,并采用预设的词语划分方法,从而将所述问句划分为多个词语,得到由多个词语构成的初始词语序列;
将所述初始词语序列输入经过训练的词性标注模型中的双向编码器架构中进行计算,从而获取双向编码器架构输出的参照序列标注,以及获取双向编码器架构中最后一层转换单元的隐藏状态向量集合,其中,所述词性标注模型包括双向编码器架构和支持向量机架构,双向编码器架构包括多层转换单元,所述参照序列标注至少包括被标注为名词的词语;
将所述隐藏状态向量集合输入所述支持向量机架构中计算,得到所述初始词语序列中的每个词语对应的标注,并组合成暂时标注序列,所述暂时标注序列至少包括被标注为名词的词语;
根据预设的标注相似度值计算方法,计算所述参照序列标注与所述暂时标注序列的标注相似度值,并判断所述标注相似度值是否大于预设的标注相似度阈值;
若所述标注相似度值大于预设的标注相似度阈值,则将所述暂时标注序列作为关键词序列,并获取所述关键词序列;
相似度值判断单元,用于根据预设的相似度计算方法,计算所述关键词序列与预设的知识图谱索引的相似度值,并判断所述相似度值是否大于预设的相似度阈值,其中所述知识图谱索引包括主语、谓语和宾语三者中的二者,所述主语、谓语和宾语均记载于所述知识图谱中;
指定名词判断单元,用于若所述相似度值不大于预设的相似度阈值,则通过查询预设的可拆分名词库,从而判断所述关键词序列中是否存在可拆分的指定名词;
指定名词拆分单元,用于若所述关键词序列中存在可拆分的指定名词,则根据预设的名词拆分方法,将所述关键词序列中的指定名词拆为分多个逻辑分词,并将所述指定名词从属的名词记为主名词;
指定网络结构判断单元,用于判断所述知识图谱中是否存在指定网络结构,所述指定网络结构指第一实体-第一实体关系-第二实体-第二实体关系-…-第n-1实体关系-第n实体的网络结构,其中,所述第一实体关系、第二实体关系、…、第n-1实体关系与所述多个逻辑分词一一对应,并且所述第一实体与所述主名词相同;
答案输出单元,用于若所述知识图谱中存在指定网络结构,则根据第n实体-第n实体关系-第n+1实体的连接关系,将所述第n实体关系作为答案,或者将所述第n+1实体作为答案;并输出所述答案。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911318249.6A CN111177345B (zh) | 2019-12-19 | 2019-12-19 | 基于知识图谱的智能问答方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911318249.6A CN111177345B (zh) | 2019-12-19 | 2019-12-19 | 基于知识图谱的智能问答方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111177345A CN111177345A (zh) | 2020-05-19 |
CN111177345B true CN111177345B (zh) | 2023-06-20 |
Family
ID=70653949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911318249.6A Active CN111177345B (zh) | 2019-12-19 | 2019-12-19 | 基于知识图谱的智能问答方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111177345B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111506722B (zh) * | 2020-06-16 | 2024-03-08 | 平安科技(深圳)有限公司 | 基于深度学习技术的知识图谱问答方法、装置及设备 |
CN111813920B (zh) * | 2020-07-06 | 2021-04-13 | 龙马智芯(珠海横琴)科技有限公司 | 一种学习策略生成方法、装置、生成设备及可读存储介质 |
CN111914568B (zh) * | 2020-07-31 | 2024-02-06 | 平安科技(深圳)有限公司 | 文本修辞句的生成方法、装置、设备及可读存储介质 |
CN112507085B (zh) * | 2020-12-18 | 2022-06-03 | 四川长虹电器股份有限公司 | 一种知识嵌入的领域识别方法、计算机设备及存储介质 |
CN113239163A (zh) * | 2021-05-12 | 2021-08-10 | 同方知网数字出版技术股份有限公司 | 一种基于交通大数据的智能问答方法及系统 |
CN113742447B (zh) * | 2021-07-19 | 2024-04-02 | 暨南大学 | 基于查询路径生成的知识图谱问答方法、介质和设备 |
CN114817512B (zh) * | 2022-06-28 | 2023-03-14 | 清华大学 | 问答推理方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569486A (zh) * | 2019-07-30 | 2019-12-13 | 平安科技(深圳)有限公司 | 基于双架构的序列标注方法、装置和计算机设备 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425640A (zh) * | 2012-05-14 | 2013-12-04 | 华为技术有限公司 | 一种多媒体问答系统及方法 |
CN104850539B (zh) * | 2015-05-28 | 2017-08-25 | 宁波薄言信息技术有限公司 | 一种自然语言理解方法及基于该方法的旅游问答系统 |
US20170076222A1 (en) * | 2015-09-14 | 2017-03-16 | International Business Machines Corporation | System and method to cognitively process and answer questions regarding content in images |
CN106844368B (zh) * | 2015-12-03 | 2020-06-16 | 华为技术有限公司 | 用于人机对话的方法、神经网络系统和用户设备 |
CN106372118B (zh) * | 2016-08-24 | 2019-05-03 | 武汉烽火普天信息技术有限公司 | 面向大规模媒体文本数据的在线语义理解搜索系统及方法 |
CN108345690B (zh) * | 2018-03-09 | 2020-11-13 | 广州杰赛科技股份有限公司 | 智能问答方法与系统 |
CN108804521B (zh) * | 2018-04-27 | 2021-05-14 | 南京柯基数据科技有限公司 | 一种基于知识图谱的问答方法及农业百科问答系统 |
CN109062939A (zh) * | 2018-06-20 | 2018-12-21 | 广东外语外贸大学 | 一种面向汉语国际教育的智能导学方法 |
CN110457484B (zh) * | 2019-06-26 | 2022-02-22 | 重庆兆光科技股份有限公司 | 一种基于图的逻辑表达方法、系统、介质和设备 |
-
2019
- 2019-12-19 CN CN201911318249.6A patent/CN111177345B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569486A (zh) * | 2019-07-30 | 2019-12-13 | 平安科技(深圳)有限公司 | 基于双架构的序列标注方法、装置和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111177345A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111177345B (zh) | 基于知识图谱的智能问答方法、装置和计算机设备 | |
CN111160017A (zh) | 关键词抽取方法、话术评分方法以及话术推荐方法 | |
CN111062215B (zh) | 基于半监督学习训练的命名实体识别方法和装置 | |
CN111581229B (zh) | Sql语句的生成方法、装置、计算机设备及存储介质 | |
CA2788670C (en) | Semantic object characterization and search | |
CN108932342A (zh) | 一种语义匹配的方法、模型的学习方法及服务器 | |
CN111475617B (zh) | 事件主体抽取方法、装置及存储介质 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN110569486B (zh) | 基于双架构的序列标注方法、装置和计算机设备 | |
WO2021073119A1 (zh) | 基于意图识别模型的实体消歧方法、装置和计算机设备 | |
CN111259113B (zh) | 文本匹配方法、装置、计算机可读存储介质和计算机设备 | |
CN109857846B (zh) | 用户问句与知识点的匹配方法和装置 | |
CN111476038B (zh) | 长文本生成方法、装置、计算机设备和存储介质 | |
WO2020233131A1 (zh) | 问答处理方法、装置、计算机设备和存储介质 | |
CN113449489B (zh) | 标点符号标注方法、装置、计算机设备和存储介质 | |
CN112395412B (zh) | 文本分类的方法、装置以及计算机可读介质 | |
CN110688853A (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
US20210174161A1 (en) | Method and apparatus for multi-document question answering | |
CN114298035A (zh) | 一种文本识别脱敏方法及其系统 | |
CN111274829A (zh) | 一种利用跨语言信息的序列标注方法 | |
CN112632258A (zh) | 文本数据处理方法、装置、计算机设备和存储介质 | |
CN111241310A (zh) | 一种深度跨模态哈希检索方法、设备及介质 | |
CN110737751B (zh) | 基于相似度值的搜索方法、装置、计算机设备和存储介质 | |
CN112948601A (zh) | 一种基于受控语义嵌入的跨模态哈希检索方法 | |
CN111400340B (zh) | 一种自然语言处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |