CN112052311A - 一种基于词向量技术和知识图谱检索的短文本问答方法及装置 - Google Patents

一种基于词向量技术和知识图谱检索的短文本问答方法及装置 Download PDF

Info

Publication number
CN112052311A
CN112052311A CN201910438018.2A CN201910438018A CN112052311A CN 112052311 A CN112052311 A CN 112052311A CN 201910438018 A CN201910438018 A CN 201910438018A CN 112052311 A CN112052311 A CN 112052311A
Authority
CN
China
Prior art keywords
knowledge graph
short text
keywords
question
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910438018.2A
Other languages
English (en)
Inventor
王嫄
徐涛
胡文帅
吴帅
丁文强
赵婷婷
孔娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University of Science and Technology
Original Assignee
Tianjin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University of Science and Technology filed Critical Tianjin University of Science and Technology
Priority to CN201910438018.2A priority Critical patent/CN112052311A/zh
Publication of CN112052311A publication Critical patent/CN112052311A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于词向量技术和知识图谱检索的短文本问答方法及装置,包括:对输入的自然语言短文本问题进行分词,得到分词后的文本;对该文本进行命名实体识别和词性标注,识别出实体以及关键词;知识图谱检索实体返回其对应的全部属性并与关键词一同进行向量化;对全部向量进行余弦相似度计算,找出与关键词最为相近的某属性,并进行替换;组成三元组进行知识图谱的检索,并输出答案。如何快速准确的在知识图谱中进行短文本问题答案的检索是实际应用中的关键问题,本发明提出一种基于词向量技术和知识图谱检索的短文本问答方法及装置,该方法基于词向量技术,使得生成的三元组更加精确,从而提高在知识图谱中进行问题答案检索的效率。

Description

一种基于词向量技术和知识图谱检索的短文本问答方法及 装置
技术领域
本发明涉及自然语言处理领域,更具体说是涉及一种基于词向量技术和知识图谱检索的短文本问答方法及装置。
背景技术
人工智能近年来的发展迅速,特别是在深度学习等方面有了极大的进展,目前在感知研究方向的研究已经取得了不错的成果,而下一个十年,人工智能的突破在于自然语言的理解,自然语言处理成为当前备受关注的研究热点。迄今为止,自然语言处理和知识图谱之间的结合已被成功应用到诸多领域:如机器翻译、文本分类、垃圾邮件过滤、信息提取、自动摘要、对话系统、医疗、问答系统等。
自然语言处理和知识图谱的紧密结合中,其中重要的应用就是问答系统。面对问答系统,从分词、实体识别等技术对问题进行精准提取到知识图谱的精确检索,国内如北京大学语言计算与机器学习研究组所设计的多领域中文分词工具包pkuseg对于中文预料的分词测试平均结果可达91.29,国外如经典的自然语言处理工具NLTK的应用也是极为广泛。上述任务是自然语言处理中的一些手段,分析其任务本质发现它们的处理目标即为了使其在知识图谱中的检索更加精确。然而,对于实际应用中的复杂的智能问答系统来说,仅仅通过分词、实体识别等技术对短文本问题进行处理后所得到的三元组,往往与知识图谱所实际需要的三元组是不匹配的。可见,通过词向量技术使问题关键词与实际知识图谱中实体所对应的属性进行匹配是实际应用中的一个重要问题。
因此,本发明提出一种基于词向量技术和知识图谱检索的短文本问答方法及装置,通过引入词向量技术,来更加精确的生成三元组进行知识图谱的问答检索。
发明内容
为了让计算机快速、准确地识别出短文本问题中的关键字句,通常通过分词工具、命名实体识别工具对输入的短文本问题进行初步的自然语言处理,从而能够快速输出一些简单的短文本问题的答案。为了提高对于短文本问答方法的准确度,同时提高答案输出的效率,对于短文本问题的进一步处理是至关重要的过程。
本发明实施例公开了一种基于词向量技术和知识图谱检索的短文本问答方法及装置,主要包括:自然语言处理、词向量化、知识图谱检索。
具体过程为:
步骤1:对输入的自然语言短文本问题进行分词,得到分词后的文本。
步骤2:从步骤1中得到的分词后的文本,对该文本进行命名实体识别和词性标注,识别出实体以及关键词。
步骤3:从步骤2中获得的实体,将该实体放入三元组中进行知识图谱检索提取,得到该实体对应的全部属性。
步骤4:从步骤3中获得的实体对应的全部属性,将其与步骤2中获得的关键词,均进行向量化操作,得到全部属性和关键词的向量。
步骤5:从步骤4中获得的全部属性和关键词的向量,对其进行余弦相似度计算,找出与关键词最为相近的某属性,将该属性与关键词进行替换,得到被替换后的属性。
步骤6:从步骤5中获得的被替换后的属性与从步骤2中获得的实体,将两者组成三元组的形式,即实体-属性对。
步骤7:从步骤6中获得的实体-属性对即三元组,将该三元组输入至知识图谱检索工具,从而获得自然语言短文本问题的答案。
步骤8:重复回到步骤1进行执行,继续进行自然语言短文本问题的输入。
进一步,所述步骤1的具体实现方法为:选择最优的分词工具,同时辅助使用字典,从而可以快速搭建完成初步模型,分词的准确性是整个短文本问答方法的基础。其中,分词后的文本,包含有关键词、实体等部分,但在此步骤中仍未进行区分。其中,短文本问题指方法问题的输入一般由一句问句组成,文本长度较短,自然语言处理起来相对容易。
进一步,所述步骤2的具体实现方法为:选择最优的命名实体识别工具,必要时,可对某些与知识图谱中实体名称不完全匹配的实体,进行单独实体名称补充,从而得到可在知识图谱中被检索到的实体,实体的获得是整个短文本问答方法的关键。本步骤中的关键词在此具体描述为,除去实体,下列词性可视为关键词:idiom、general noun、personname、organization name、location noun、geographical name、temporal noun、otherproper noun、verb、foreign words。
进一步,所述步骤3的具体实现方法为:在本步骤中,可得到包含大量属性和对应实体的JSON格式文本,可对文本中的所有属性内容进行提取。
进一步,所述步骤4的具体实现方法为:可使用向量化工具,对全部属性和关键词进行向量化操作。
进一步,所述步骤5的具体实现方法为:在本步骤中,两种情况可能会发生,一是关键词与属性本身具有一致性,那么可以不作替换;二是关键词与某属性相似,将关键词替换为该属性即可。这里使用的余弦相似度计算公式为:
Figure BSA0000183600410000021
其中,xi为关键词向量化后所得到的向量,yi为属性向量化后所得到的向量。
可通过两两比较其余弦相似度从而最终确定与关键词最为相近的属性。
进一步,所述步骤6的具体实现方法为:在本步骤中,即将下一步骤中要使用的知识图谱检索工具,其工具使用SPARQL语言,需要输入三元组进行知识图谱查询,所以构建本步骤中的三元组。此外,面对多个实体、多个关键词的情况,可使用依存句法分析工具进行实体与属性的匹配,从而组成一个个实体-属性对。
本发明采用词向量技术在知识图谱中进行三元组的检索,可进一步提高检索速度、提高准确性。通过词向量技术在知识图谱中进行短文本问题答案的检索,提升问答的速度、效率、准确度。
附图说明
图1为本发明的处理流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于词向量技术和知识图谱检索的短文本问答方法及装置,主要包括:自然语言处理、词向量化、知识图谱检索。
具体过程为:
步骤1:对输入的自然语言短文本问题进行分词,得到分词后的文本。
在本步骤中,选择最优的分词工具,同时辅助使用字典,从而可以快速搭建完成初步模型,分词的准确性是整个短文本问答方法的基础。其中,分词后的文本,包含有关键词、实体等部分,但在此步骤中仍未进行区分。其中,短文本问题指方法问题的输入一般由一句问句组成,文本长度较短,自然语言处理起来相对容易。
步骤2:从步骤1中得到的分词后的文本,对该文本进行命名实体识别和词性标注,识别出实体以及关键词。
在本步骤中,选择最优的命名实体识别工具,必要时,可对某些与知识图谱中实体名称不完全匹配的实体,进行单独实体名称补充,从而得到可在知识图谱中被检索到的实体,实体的获得是整个短文本问答方法的关键。本步骤中的关键词在此具体描述为,除去实体,下列词性可视为关键词:idiom、general noun、person name、organization name、location noun、geographical name、temporal noun、other proper noun、verb、foreignwords。
步骤3:从步骤2中获得的实体,将该实体放入三元组中进行知识图谱检索提取,得到该实体对应的全部属性。
在本步骤中,可得到包含大量属性和对应实体的JSON格式文本,可对文本中的所有属性内容进行提取。
步骤4:从步骤3中获得的实体对应的全部属性,将其与步骤2中获得的关键词,均进行向量化操作,得到全部属性和关键词的向量。
在本步骤中,可使用向量化工具,对全部属性和关键词进行向量化操作。
步骤5:从步骤4中获得的全部属性和关键词的向量,对其进行余弦相似度计算,找出与关键词最为相近的某属性,将该属性与关键词进行替换,得到被替换后的属性。
在本步骤中,两种情况可能会发生,一是关键词与属性本身具有一致性,那么可以不作替换;二是关键词与某属性相似,将关键词替换为该属性即可。这里使用的余弦相似度计算公式为:
Figure BSA0000183600410000041
其中,xi为关键词向量化后所得到的向量,yi为属性向量化后所得到的向量。
可通过两两比较其余弦相似度从而最终确定与关键词最为相近的属性。
步骤6:从步骤5中获得的被替换后的属性与从步骤2中获得的实体,将两者组成三元组的形式,即实体-属性对。
在本步骤中,即将下一步骤中要使用的知识图谱检索工具,其工具使用SPARQL语言,需要输入三元组进行知识图谱查询,所以构建本步骤中的三元组。此外,面对多个实体、多个关键词的情况,可使用依存句法分析工具进行实体与属性的匹配,从而组成一个个实体-属性对。
步骤7:从步骤6中获得的实体-属性对即三元组,将该三元组输入至知识图谱检索工具,从而获得自然语言短文本问题的答案。
步骤8:重复回到步骤1进行执行,继续进行自然语言短文本问题的输入。

Claims (7)

1.一种基于词向量技术和知识图谱检索的短文本问答方法及装置,其特征在于包括以下步骤:
步骤1:对输入的自然语言短文本问题进行分词,得到分词后的文本。
步骤2:从步骤1中得到的分词后的文本,对该文本进行命名实体识别和词性标注,识别出实体以及关键词。
步骤3:从步骤2中获得的实体,将该实体放入三元组中进行知识图谱检索提取,得到该实体对应的全部属性。
步骤4:从步骤3中获得的实体对应的全部属性,将其与步骤2中获得的关键词,均进行向量化操作,得到全部属性和关键词的向量。
步骤5:从步骤4中获得的全部属性和关键词的向量,对其进行余弦相似度计算,找出与关键词最为相近的某属性,将该属性与关键词进行替换,得到被替换后的属性。
步骤6:从步骤5中获得的被替换后的属性与从步骤2中获得的实体,将两者组成三元组的形式,即实体-属性对。
步骤7:从步骤6中获得的实体-属性对即三元组,将该三元组输入至知识图谱检索工具,从而获得自然语言短文本问题的答案。
步骤8:重复回到步骤1进行执行,继续进行自然语言短文本问题的输入。
2.根据权利要求1所述的一种基于词向量技术和知识图谱检索的短文本问答方法及装置,其特征在于:所述步骤1的具体实现方法为:选择最优的分词工具,同时辅助使用字典,从而可以快速搭建完成初步模型,分词的准确性是整个短文本问答方法的基础。其中,分词后的文本,包含有关键词、实体等部分,但在此步骤中仍未进行区分。其中,短文本问题指方法问题的输入一般由一句问句组成,文本长度较短,自然语言处理起来相对容易。
3.根据权利要求1所述的一种基于词向量技术和知识图谱检索的短文本问答方法及装置,其特征在于:所述步骤2的具体实现方法为:选择最优的命名实体识别工具,必要时,可对某些与知识图谱中实体名称不完全匹配的实体,进行单独实体名称补充,从而得到可在知识图谱中被检索到的实体,实体的获得是整个短文本问答方法的关键。本步骤中的关键词在此具体描述为,除去实体,下列词性可视为关键词:idiom、general noun、personname、organization name、location noun、geographical name、temporal noun、otherproper noun、verb、foreign words。
4.根据权利要求1所述的一种基于词向量技术和知识图谱检索的短文本问答方法及装置,其特征在于:所述步骤3的具体实现方法为:在本步骤中,可得到包含大量属性和对应实体的JSON格式文本,可对文本中的所有属性内容进行提取。
5.根据权利要求1所述的一种基于词向量技术和知识图谱检索的短文本问答方法及装置,其特征在于:所述步骤4的具体实现方法为:可使用向量化工具,对全部属性和关键词进行向量化操作。
6.根据权利要求1所述的一种基于词向量技术和知识图谱检索的短文本问答方法及装置,其特征在于:所述步骤5的具体实现方法为:在本步骤中,两种情况可能会发生,一是关键词与属性本身具有一致性,那么可以不作替换;二是关键词与某属性相似,将关键词替换为该属性即可。这里使用的余弦相似度计算公式为:
Figure FSA0000183600400000021
其中,xi为关键词向量化后所得到的向量,yi为属性向量化后所得到的向量。
可通过两两比较其余弦相似度从而最终确定与关键词最为相近的属性。
7.根据权利要求1所述的一种基于词向量技术和知识图谱检索的短文本问答方法及装置,其特征在于:所述步骤6的具体实现方法为:在本步骤中,即将下一步骤中要使用的知识图谱检索工具,其工具使用SPARQL语言,需要输入三元组进行知识图谱查询,所以构建本步骤中的三元组。此外,面对多个实体、多个关键词的情况,可使用依存句法分析工具进行实体与属性的匹配,从而组成一个个实体-属性对。
CN201910438018.2A 2019-05-20 2019-05-20 一种基于词向量技术和知识图谱检索的短文本问答方法及装置 Pending CN112052311A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910438018.2A CN112052311A (zh) 2019-05-20 2019-05-20 一种基于词向量技术和知识图谱检索的短文本问答方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910438018.2A CN112052311A (zh) 2019-05-20 2019-05-20 一种基于词向量技术和知识图谱检索的短文本问答方法及装置

Publications (1)

Publication Number Publication Date
CN112052311A true CN112052311A (zh) 2020-12-08

Family

ID=73608515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910438018.2A Pending CN112052311A (zh) 2019-05-20 2019-05-20 一种基于词向量技术和知识图谱检索的短文本问答方法及装置

Country Status (1)

Country Link
CN (1) CN112052311A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101662450B1 (ko) * 2015-05-29 2016-10-05 포항공과대학교 산학협력단 다중 소스 하이브리드 질의응답 방법 및 시스템
CN106874378A (zh) * 2017-01-05 2017-06-20 北京工商大学 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
WO2018149326A1 (zh) * 2017-02-16 2018-08-23 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN108804521A (zh) * 2018-04-27 2018-11-13 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN109408743A (zh) * 2018-08-21 2019-03-01 中国科学院自动化研究所 文本链接嵌入方法
CN109657037A (zh) * 2018-12-21 2019-04-19 焦点科技股份有限公司 一种基于实体类型和语义相似度的知识图谱问答方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101662450B1 (ko) * 2015-05-29 2016-10-05 포항공과대학교 산학협력단 다중 소스 하이브리드 질의응답 방법 및 시스템
CN106874378A (zh) * 2017-01-05 2017-06-20 北京工商大学 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
WO2018149326A1 (zh) * 2017-02-16 2018-08-23 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN108804521A (zh) * 2018-04-27 2018-11-13 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统
CN109408743A (zh) * 2018-08-21 2019-03-01 中国科学院自动化研究所 文本链接嵌入方法
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN109657037A (zh) * 2018-12-21 2019-04-19 焦点科技股份有限公司 一种基于实体类型和语义相似度的知识图谱问答方法及系统

Similar Documents

Publication Publication Date Title
CN110399457B (zh) 一种智能问答方法和系统
CN107436864B (zh) 一种基于Word2Vec的中文问答语义相似度计算方法
CN107291699B (zh) 一种句子语义相似度计算方法
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
CN111177591A (zh) 面向可视化需求的基于知识图谱的Web数据优化方法
CN110895559A (zh) 模型训练、文本处理方法、装置以及设备
CN112883165B (zh) 一种基于语义理解的智能全文检索方法及系统
CN115470338B (zh) 一种基于多路召回的多场景智能问答方法和系统
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN108763192B (zh) 用于文本处理的实体关系抽取方法及装置
CN114860942B (zh) 文本意图分类方法、装置、设备及存储介质
CN111488429A (zh) 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法
CN110442730A (zh) 一种基于deepdive的知识图谱构建方法
CN111814476A (zh) 一种实体关系的抽取方法和装置
CN113609847B (zh) 信息抽取方法、装置、电子设备及存储介质
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
US20220156611A1 (en) Method and apparatus for entering information, electronic device, computer readable storage medium
CN114417008A (zh) 一种面向建设工程领域的知识图谱构建方法及系统
CN112052311A (zh) 一种基于词向量技术和知识图谱检索的短文本问答方法及装置
CN114265924A (zh) 一种根据问句检索关联表格的方法与装置
CN114117069A (zh) 一种用于知识图谱智能问答的语义理解方法及系统
CN106844329A (zh) 一种基于邮件列表的开源软件问答信息抽取方法
CN113761919A (zh) 一种口语化短文本的实体属性提取方法及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination