CN112052311A

CN112052311A - 一种基于词向量技术和知识图谱检索的短文本问答方法及装置

Info

Publication number: CN112052311A
Application number: CN201910438018.2A
Authority: CN
Inventors: 王嫄; 徐涛; 胡文帅; 吴帅; 丁文强; 赵婷婷; 孔娜
Original assignee: Tianjin University of Science and Technology
Current assignee: Tianjin University of Science and Technology
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2020-12-08

Abstract

本发明涉及一种基于词向量技术和知识图谱检索的短文本问答方法及装置，包括：对输入的自然语言短文本问题进行分词，得到分词后的文本；对该文本进行命名实体识别和词性标注，识别出实体以及关键词；知识图谱检索实体返回其对应的全部属性并与关键词一同进行向量化；对全部向量进行余弦相似度计算，找出与关键词最为相近的某属性，并进行替换；组成三元组进行知识图谱的检索，并输出答案。如何快速准确的在知识图谱中进行短文本问题答案的检索是实际应用中的关键问题，本发明提出一种基于词向量技术和知识图谱检索的短文本问答方法及装置，该方法基于词向量技术，使得生成的三元组更加精确，从而提高在知识图谱中进行问题答案检索的效率。

Description

一种基于词向量技术和知识图谱检索的短文本问答方法及装置

技术领域

本发明涉及自然语言处理领域，更具体说是涉及一种基于词向量技术和知识图谱检索的短文本问答方法及装置。

背景技术

人工智能近年来的发展迅速，特别是在深度学习等方面有了极大的进展，目前在感知研究方向的研究已经取得了不错的成果，而下一个十年，人工智能的突破在于自然语言的理解，自然语言处理成为当前备受关注的研究热点。迄今为止，自然语言处理和知识图谱之间的结合已被成功应用到诸多领域：如机器翻译、文本分类、垃圾邮件过滤、信息提取、自动摘要、对话系统、医疗、问答系统等。

自然语言处理和知识图谱的紧密结合中，其中重要的应用就是问答系统。面对问答系统，从分词、实体识别等技术对问题进行精准提取到知识图谱的精确检索，国内如北京大学语言计算与机器学习研究组所设计的多领域中文分词工具包pkuseg对于中文预料的分词测试平均结果可达91.29，国外如经典的自然语言处理工具NLTK的应用也是极为广泛。上述任务是自然语言处理中的一些手段，分析其任务本质发现它们的处理目标即为了使其在知识图谱中的检索更加精确。然而，对于实际应用中的复杂的智能问答系统来说，仅仅通过分词、实体识别等技术对短文本问题进行处理后所得到的三元组，往往与知识图谱所实际需要的三元组是不匹配的。可见，通过词向量技术使问题关键词与实际知识图谱中实体所对应的属性进行匹配是实际应用中的一个重要问题。

因此，本发明提出一种基于词向量技术和知识图谱检索的短文本问答方法及装置，通过引入词向量技术，来更加精确的生成三元组进行知识图谱的问答检索。

发明内容

为了让计算机快速、准确地识别出短文本问题中的关键字句，通常通过分词工具、命名实体识别工具对输入的短文本问题进行初步的自然语言处理，从而能够快速输出一些简单的短文本问题的答案。为了提高对于短文本问答方法的准确度，同时提高答案输出的效率，对于短文本问题的进一步处理是至关重要的过程。

本发明实施例公开了一种基于词向量技术和知识图谱检索的短文本问答方法及装置，主要包括：自然语言处理、词向量化、知识图谱检索。

具体过程为：

步骤1：对输入的自然语言短文本问题进行分词，得到分词后的文本。

步骤2：从步骤1中得到的分词后的文本，对该文本进行命名实体识别和词性标注，识别出实体以及关键词。

步骤3：从步骤2中获得的实体，将该实体放入三元组中进行知识图谱检索提取，得到该实体对应的全部属性。

步骤4：从步骤3中获得的实体对应的全部属性，将其与步骤2中获得的关键词，均进行向量化操作，得到全部属性和关键词的向量。

步骤5：从步骤4中获得的全部属性和关键词的向量，对其进行余弦相似度计算，找出与关键词最为相近的某属性，将该属性与关键词进行替换，得到被替换后的属性。

步骤6：从步骤5中获得的被替换后的属性与从步骤2中获得的实体，将两者组成三元组的形式，即实体-属性对。

步骤7：从步骤6中获得的实体-属性对即三元组，将该三元组输入至知识图谱检索工具，从而获得自然语言短文本问题的答案。

步骤8：重复回到步骤1进行执行，继续进行自然语言短文本问题的输入。

进一步，所述步骤1的具体实现方法为：选择最优的分词工具，同时辅助使用字典，从而可以快速搭建完成初步模型，分词的准确性是整个短文本问答方法的基础。其中，分词后的文本，包含有关键词、实体等部分，但在此步骤中仍未进行区分。其中，短文本问题指方法问题的输入一般由一句问句组成，文本长度较短，自然语言处理起来相对容易。

进一步，所述步骤2的具体实现方法为：选择最优的命名实体识别工具，必要时，可对某些与知识图谱中实体名称不完全匹配的实体，进行单独实体名称补充，从而得到可在知识图谱中被检索到的实体，实体的获得是整个短文本问答方法的关键。本步骤中的关键词在此具体描述为，除去实体，下列词性可视为关键词：idiom、general noun、personname、organization name、location noun、geographical name、temporal noun、otherproper noun、verb、foreign words。

进一步，所述步骤3的具体实现方法为：在本步骤中，可得到包含大量属性和对应实体的JSON格式文本，可对文本中的所有属性内容进行提取。

进一步，所述步骤4的具体实现方法为：可使用向量化工具，对全部属性和关键词进行向量化操作。

进一步，所述步骤5的具体实现方法为：在本步骤中，两种情况可能会发生，一是关键词与属性本身具有一致性，那么可以不作替换；二是关键词与某属性相似，将关键词替换为该属性即可。这里使用的余弦相似度计算公式为：

其中，x_i为关键词向量化后所得到的向量，y_i为属性向量化后所得到的向量。

可通过两两比较其余弦相似度从而最终确定与关键词最为相近的属性。

进一步，所述步骤6的具体实现方法为：在本步骤中，即将下一步骤中要使用的知识图谱检索工具，其工具使用SPARQL语言，需要输入三元组进行知识图谱查询，所以构建本步骤中的三元组。此外，面对多个实体、多个关键词的情况，可使用依存句法分析工具进行实体与属性的匹配，从而组成一个个实体-属性对。

本发明采用词向量技术在知识图谱中进行三元组的检索，可进一步提高检索速度、提高准确性。通过词向量技术在知识图谱中进行短文本问题答案的检索，提升问答的速度、效率、准确度。

附图说明

图1为本发明的处理流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

具体过程为：

在本步骤中，选择最优的分词工具，同时辅助使用字典，从而可以快速搭建完成初步模型，分词的准确性是整个短文本问答方法的基础。其中，分词后的文本，包含有关键词、实体等部分，但在此步骤中仍未进行区分。其中，短文本问题指方法问题的输入一般由一句问句组成，文本长度较短，自然语言处理起来相对容易。

在本步骤中，选择最优的命名实体识别工具，必要时，可对某些与知识图谱中实体名称不完全匹配的实体，进行单独实体名称补充，从而得到可在知识图谱中被检索到的实体，实体的获得是整个短文本问答方法的关键。本步骤中的关键词在此具体描述为，除去实体，下列词性可视为关键词：idiom、general noun、person name、organization name、location noun、geographical name、temporal noun、other proper noun、verb、foreignwords。

在本步骤中，可得到包含大量属性和对应实体的JSON格式文本，可对文本中的所有属性内容进行提取。

在本步骤中，可使用向量化工具，对全部属性和关键词进行向量化操作。

在本步骤中，两种情况可能会发生，一是关键词与属性本身具有一致性，那么可以不作替换；二是关键词与某属性相似，将关键词替换为该属性即可。这里使用的余弦相似度计算公式为：

在本步骤中，即将下一步骤中要使用的知识图谱检索工具，其工具使用SPARQL语言，需要输入三元组进行知识图谱查询，所以构建本步骤中的三元组。此外，面对多个实体、多个关键词的情况，可使用依存句法分析工具进行实体与属性的匹配，从而组成一个个实体-属性对。

Claims

1.一种基于词向量技术和知识图谱检索的短文本问答方法及装置，其特征在于包括以下步骤：

2.根据权利要求1所述的一种基于词向量技术和知识图谱检索的短文本问答方法及装置，其特征在于：所述步骤1的具体实现方法为：选择最优的分词工具，同时辅助使用字典，从而可以快速搭建完成初步模型，分词的准确性是整个短文本问答方法的基础。其中，分词后的文本，包含有关键词、实体等部分，但在此步骤中仍未进行区分。其中，短文本问题指方法问题的输入一般由一句问句组成，文本长度较短，自然语言处理起来相对容易。

3.根据权利要求1所述的一种基于词向量技术和知识图谱检索的短文本问答方法及装置，其特征在于：所述步骤2的具体实现方法为：选择最优的命名实体识别工具，必要时，可对某些与知识图谱中实体名称不完全匹配的实体，进行单独实体名称补充，从而得到可在知识图谱中被检索到的实体，实体的获得是整个短文本问答方法的关键。本步骤中的关键词在此具体描述为，除去实体，下列词性可视为关键词：idiom、general noun、personname、organization name、location noun、geographical name、temporal noun、otherproper noun、verb、foreign words。

4.根据权利要求1所述的一种基于词向量技术和知识图谱检索的短文本问答方法及装置，其特征在于：所述步骤3的具体实现方法为：在本步骤中，可得到包含大量属性和对应实体的JSON格式文本，可对文本中的所有属性内容进行提取。

5.根据权利要求1所述的一种基于词向量技术和知识图谱检索的短文本问答方法及装置，其特征在于：所述步骤4的具体实现方法为：可使用向量化工具，对全部属性和关键词进行向量化操作。

6.根据权利要求1所述的一种基于词向量技术和知识图谱检索的短文本问答方法及装置，其特征在于：所述步骤5的具体实现方法为：在本步骤中，两种情况可能会发生，一是关键词与属性本身具有一致性，那么可以不作替换；二是关键词与某属性相似，将关键词替换为该属性即可。这里使用的余弦相似度计算公式为：

7.根据权利要求1所述的一种基于词向量技术和知识图谱检索的短文本问答方法及装置，其特征在于：所述步骤6的具体实现方法为：在本步骤中，即将下一步骤中要使用的知识图谱检索工具，其工具使用SPARQL语言，需要输入三元组进行知识图谱查询，所以构建本步骤中的三元组。此外，面对多个实体、多个关键词的情况，可使用依存句法分析工具进行实体与属性的匹配，从而组成一个个实体-属性对。