CN108090167A - 数据检索的方法、系统、计算设备及存储介质 - Google Patents

数据检索的方法、系统、计算设备及存储介质 Download PDF

Info

Publication number
CN108090167A
CN108090167A CN201711336167.5A CN201711336167A CN108090167A CN 108090167 A CN108090167 A CN 108090167A CN 201711336167 A CN201711336167 A CN 201711336167A CN 108090167 A CN108090167 A CN 108090167A
Authority
CN
China
Prior art keywords
data
model
retrieval
information
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711336167.5A
Other languages
English (en)
Other versions
CN108090167B (zh
Inventor
尹明君
徐铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHANJET INFORMATION TECHNOLOGY Co Ltd
Original Assignee
CHANJET INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHANJET INFORMATION TECHNOLOGY Co Ltd filed Critical CHANJET INFORMATION TECHNOLOGY Co Ltd
Priority to CN201711336167.5A priority Critical patent/CN108090167B/zh
Publication of CN108090167A publication Critical patent/CN108090167A/zh
Application granted granted Critical
Publication of CN108090167B publication Critical patent/CN108090167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种数据检索的方法、系统、一种计算机设备以及计算机可读存储介质。其中方法包括:获取数据模型,并对数据模型进行分析,得到模型定义信息;获取数据信息并对数据信息进行分析,得到数据关联关系;根据模型定义信息、数据信息和数据关联关系建立知识图谱;获取自然语言对话信息,对自然语言对话信息进行意图检测,得到检测结果;根据知识图谱对检测结果进行检索,得到知识图谱检索结果。通过本方案摆脱了现阶段无法对检索对象给出跨功能节点的数据检索和数据关系导航,此外,实现了可以根据自然语言对话信息完成对数据的检索,在扩展和提高传统检索能力的同时,还提高用户使用体验。

Description

数据检索的方法、系统、计算设备及存储介质
技术领域
本发明涉及数据检索领域,具体而言,涉及一种数据检索的方法、系统、一种计算机设备以及一种计算机可读存储介质。
背景技术
数据库作为常见和主要的数据存储和维护的载体,一般地,数据库的维护主要是面向功能点层面的数据维护,因此,在对数据库中的存储的数据进行检索时,只能得到被检索对象的单一检索结果,对于与其数据相关联的关联关系和数据无法被检索出来,不能深度挖掘被检索对象的数据关联价值;此外,目前对于数据库的检索不存在元数据层面的支持,无法对自然语言交互方式的提供支持,无法对基于自然语言的搜索请求进行检索,数据检索的搜索能力较弱,无法满足人们对数据检索的需求。
因此,需要一种数据库检索方法来解决上述技术问题,从而挖掘数据检索关联价值,并提高数据检索能力,满足人们对数据的检索需求。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的一个方面在于提出了一种数据检索的方法。
本发明的另一个方面在于提出了一种数据检索的系统。
本发明的再一个方面在于提出了一种计算机设备。
本发明的又一个方面在于提出了一种计算机可读存储介质。
有鉴于此,根据本发明的一个方面,提出了一种数据检索的方法。
本发明提供的数据检索的方法包括:获取数据模型,并对数据模型进行分析,得到模型定义信息;获取数据信息并对数据信息进行分析,得到数据关联关系;根据模型定义信息、数据信息和数据关联关系建立知识图谱;获取自然语言对话信息,对自然语言对话信息进行意图检测,得到检测结果;根据知识图谱对检测结果进行检索,得到知识图谱检索结果。
本发明提供的数据检索的方法,获取数据模型,并对数据模型进行分析,得到用来建立知识图谱的模型结构;对获取到的数据信息进行分析,得到数据关联关系,根据数据关联关系将数据信息添加到模型定义信息中,并利用数据关联关系将模型定义信息中具有关联关系的数据关联起来,得到知识图谱,在获取到自然语言对话信息后,对该对话信息进行意图检测,确定对话内容中想要找到的目标以及得到目标的关联关系,将此关联关系通过知识图谱进行检索,即可得到需要检索的内容。在此过程中,用户可以根据关联关系进行检索,从而深度挖掘被检索对象的数据关联价值。此外,本申请提出的技术方案能够完成对通用数据库的关联关系的检索,从而摆脱了现阶段无法对检索对象给出跨功能节点的数据检索和数据关系导航,并且可以根据自然语言对话信息完成对数据的检索,在扩展和提高传统检索能力的同时,还提高用户使用体验。
当然,在获取自然语言对话信息,对自然语言对话信息进行意图检测,得到检测结果之后,还可以对自然语言对话信息中上下文进行处理,提取自然语言对话信息的关键词以及关联关系;根据知识图谱对关键词以及关联关系进行检索,得到知识图谱检索结果。
根据本发明的上述数据检索的方法,还可以具有以下技术特征:
在上述技术方案中,优选地,获取数据模型,并对数据模型进行分析,得到模型定义信息包括:通过获取数据库中数据对象的集合生成模型定义信息;和/或获取应用程序的元数据描述信息生成模型定义信息;和/或通过使用机器学习对领域设计模型数据知识进行提取来生成模型定义信息;和/或对数据库中任意两个基础数据表中存储的数据进行相关性分析,对存在关联关系的基础数据表进行提取并生成模型定义信息。
在该技术方案中,生成模型定义信息时,可以根据数据库中存储的数据对象的集合(schema)来生成模型定义信息,从而实现在建立知识图谱时对普通数据库的支持,从而得到在普通数据库进行检索时得到被检索对象的关联关系;也可以通过获取应用程序的元数据描述信息来生成模型定义信息,实现在软件层面上对数据表的提取,从而建立知识图谱;还可以通过使用机器学习对领域设计模型数据知识进行提取并生成模型定义信息,即通过机器学习对专业领域内的设计模型数据知识进行学习,如:领域设计产品的概念,从而生成模型定义信息,通过使用元数据完成对自然语言的进行处理,使得自然语言处理过程比较准确和高效,在对知识图谱进行检测时更为准确的得到检索结果,从而保证了生成的知识图谱中各数据表之间的关系更加准确;此外还可以对数据库中任意两个基础数据表中存储的数据进行相关性分析,对存在关联关系的基础数据表进行提取并生成模型定义信息。通过上述几种方式得到的模型定义信息,生成的知识图谱具有多样来源,并以此建立知识图谱在对自然语言进行检索得到的知识图谱检索结果更准确。
在上述技术方案中,优选地,模型定义信息包括:数据表模型、数据表列模型、数据表模型与数据表列模型的关联关系以及数据表列模型与其他数据表列模型的关联关系。
在该技术方案中,生成的模型定义信息中包括:数据表模型、数据表列模型、数据表模型与数据表列模型的关联关系以及数据表列模型与其他数据表列模型的关联关系,其中数据表模型与数据表列模型是拥有关系、数据表列模型与其他数据表列模型的根据数值建立关联关系,从而得到模型定义信息,通过建立模型定义信息,可以在建立知识图谱中数据表模型、数据表列模型、数据表模型与数据表列模型的关联关系以及数据表列模型与其他数据表列模型的关联关系任意两个给出一个关联关系,即对填充的数据信息一个关系表述角度,从而实现将有关联的数据关联起来,以此达到用户可以根据关联关系进行检索,从而深度挖掘被检索对象的数据关联价值,在扩展和提高传统检索能力的同时,还提高用户使用体验。
在上述技术方案中,优选地,根据模型定义信息、数据信息和数据关联关系建立知识图谱具体包括:根据数据关联关系、数据表模型生成实例行,以及根据数据关联关系、数据表列模型生成实例行数据单元;以及对数据表模型和实例行建立实例关联关系、对数据表列模型和实例行数据单元建立实例关联关系、对实例行和实例行数据单元建立拥有关联关系、对实例行数据单元和其他实例行数据单元建立数值关联关系,得到知识图谱。
在该技术方案中,根据数据关联关系,将与数据表模型具有实例相关的实例行以及根据数据关联关系、数据表列模型生成实例行数据单元,根据生成的具有实例关系的实例行以及实例行数据单元,将模型定义信息中的数据表模型和数据表列模型联系起来,通过为数据表模型和实例行建立实例关联关系、对数据表列模型和实例行数据单元建立实例关联关系、对实例行和实例行数据单元建立拥有关联关系、对实例行数据单元和其他实例行数据单元建立数值关联关系,从而将模型定义信息中各部分之间的关系以及通过数据分析出来的关联关系建立起来,即得到数据表模型、数据表列模型、实例行、实例行数据单元、不同数据表列模型的关联关系以及具有关联关系的不同数据行和/或不同数据表模型的实例行数据单元的实例关联关系。通过该过程,实现用户可以根据关联关系进行检索,得到与被检索对象相关联的数据信息,从而深度挖掘被检索对象的数据关联价值。在摆脱了现阶段无法对检索对象给出跨功能节点的数据检索和数据关系导航,并且可以根据自然语言对话信息完成对数据的检索,在扩展和提高传统检索能力的同时,还提高用户使用体验。
在上述技术方案中,优选地,在获取数据模型,并对数据模型进行分析,生成模型定义信息之后,在获取数据信息并对并对数据信息进行分析,得到数据关联关系之前,还包括:对模型定义信息进行修订。
在该技术方案中,在对生成的模型定义信息之后,还需要专业人员对生成的模型定义信息进行修改,通过专业人员对其中的模型定义信息进行添加无法获取得到的关联关系,以及对出现错误的关联关系进行删除,以此来保证生成的知识图谱的准确性,从而保证通过知识图谱检索得到的知识图谱检索结果的准确性。
在上述技术方案中,优选地,在建立知识图谱之后,在获取自然语言对话信息之前,还包括:建立全文检索模型,建立全文检索模型包括:获取实例行数据单元;对实例行数据单元的数据类型进行筛查以及对实例行数据单元进行哈希分布分析;根据数据类型筛查结果和哈希分布结果确定数据筛查结果;根据实例行数据单元和数据筛查结果建立全文检索模型。
在该技术方案中,在生成模型定义信息的同时,还需要并对实例行数据单元的数据类型进行筛查,判断实例行数据单元的数据类型是否值得建立全文检索,并且对于实例行数据单元的进行哈希分布分析,通过哈希分布分析判断数据本身是否值得建立全文检索,根据数据表以及筛查结果建立全文检索。在此过程中,对实例行数据单元进行筛查,将不值得建立全文检索的数据类型以及根据哈希分布分析确定不值得检索的实例行数据单元筛查出去,使得建立全文检索时,减少了过多不值得建立全文检索的数据,建立得到的全文检索整体数据结构精简,在进行全文检索时,速度更快,减少用户等待时间。
在上述技术方案中,优选地,在根据知识图谱对检测结果进行检索,得到知识图谱检索结果之后,还包括:通过全文检索模型对检测结果进行检索,得到全文检索结果;以及对知识图谱检索结果和全文检索结果进行关系补齐,并发送补齐后的知识图谱检索结果和全文检索结果。
在该技术方案中,在根据知识图谱对检测结果进行检索,得到知识图谱检索结果之后,还要通过全文检索模型对检测结果进行检测,并将知识图谱检测结果和全文检索结果进行关系补齐,并发送补齐后的知识图谱检测结果和全文检索结果。在此过程中,发送的知识图谱检测结果和全文检索结果是经过关系补齐的,即用户在收到的是包括全文检索和知识图谱合并在一起的反馈结果,用户可以直接通过全文检索的检索结果得到与之关联的其他数据,或者用户可以通过知识图谱查找到对应的全文检索结果,从而使得用户只需通过输入自然语言对话信息即可得到与对话信息有价值的关联信息。
根据本发明的另一个方面,提出了一种数据检索的系统。
本发明提供的数据检索的系统包括:提取单元,用于获取数据模型,并对数据模型进行分析,得到模型定义信息;分析单元,用于获取数据信息并对数据信息进行分析,得到数据关联关系;建立单元,用于根据模型定义信息、数据信息和数据关联关系建立知识图谱;检测单元,用于获取自然语言对话信息,对自然语言对话信息进行意图检测,得到检测结果;检索单元,用于根据知识图谱对检测结果进行检索,得到知识图谱检索结果。
在该技术方案中,提取单元获取数据模型,并对数据模型进行分析,得到用来建立知识图谱的模型结构;分析单元对获取到的数据信息进行分析,得到数据关联关系,建立单元根据数据关联关系将数据信息添加到模型定义信息中,并利用数据关联关系将模型定义信息中具有关联关系的数据关联起来,得到知识图谱,检索单元在检测单元在获取到自然语言对话信息后,对该对话信息进行意图检测,确定对话内容中想要找到的目标以及得到目标的关联关系,将此关联关系通过知识图谱进行检索,即可得到需要检索的内容,在此过程中,用户可以根据关联关系进行检索,从而深度挖掘被检索对象的数据关联价值。此外,本申请提出的技术方案能够完成对通用数据库的关联关系的检索,从而摆脱了现阶段无法对检索对象给出跨功能节点的数据检索和数据关系导航,并且可以根据自然语言对话信息完成对数据的检索,在扩展和提高传统检索能力的同时,还提高用户使用体验。
当然,在获取自然语言对话信息,对自然语言对话信息进行意图检测,得到检测结果之后,还可以对自然语言对话信息中上下文进行处理,提取自然语言对话信息的关键词以及关联关系;根据知识图谱对关键词以及关联关系进行检索,得到知识图谱检索结果。
在上述技术方案中,优选地,提取单元通过获取数据库中数据对象的集合生成模型定义信息;和/或获取应用程序的元数据描述信息来生成模型定义信息;和/或通过使用机器学习对领域设计模型数据知识进行提取来生成模型定义信息;和/或对数据库中任意两个基础数据表中存储的数据进行相关性分析,对存在关联关系的基础数据表进行提取并生成模型定义信息。
在该技术方案中,生成模型定义信息时,可以根据数据库中存储的数据对象的集合(schema)来生成模型定义信息,从而实现在建立知识图谱时对普通数据库的支持,从而实现对普通数据库进行检索时得到被检索对象的关联关系;也可以通过获取应用程序的元数据描述信息来生成模型定义信息,实现在软件层面上对数据表的提取,从而建立知识图谱;还可以通过使用机器学习对领域设计模型数据知识进行提取并生成模型定义信息,即通过机器学习对专业领域内的设计模型数据知识进行学习,如:领域设计产品的概念,从而生成模型定义信息,通过使用元数据完成对自然语言的进行处理,使得自然语言处理过程比较准确和高效,在对知识图谱进行检测时更为准确的得到检索结果,从而保证了生成的知识图谱中各数据表之间的关系更加准确;此外还可以对数据库中任意两个基础数据表中存储的数据进行相关性分析,对存在关联关系的基础数据表进行提取并生成模型定义信息。通过上述几种方式得到的模型定义信息,生成的知识图谱具有多样来源,并以此建立知识图谱在对自然语言进行检索得到的知识图谱检索结果更准确。
在上述技术方案中,优选地,建立单元包括:生成单元,用于根据数据关联关系、数据表模型生成实例行,以及根据数据关联关系、数据表列模型生成实例行数据单元;关系建立单元,用于对数据表模型和实例行建立实例关联关系、对数据表列模型和实例行数据单元建立实例关联关系、对实例行和实例行数据单元建立拥有关联关系、对实例行数据单元和其他实例行数据单元建立数值关联关系,得到知识图谱。
在该技术方案中,生成单元根据数据关联关系,将与数据表模型具有实例相关的实例行以及根据数据关联关系、数据表列模型生成实例行数据单元,根据生成的具有实例关系的实例行以及实例行数据单元,将模型定义信息中的数据表模型和数据表列模型联系起来,通过关系建立单元为数据表模型和实例行建立实例关联关系、对数据表列模型和实例行数据单元建立实例关联关系、对实例行和实例行数据单元建立拥有关联关系、对实例行数据单元和其他实例行数据单元建立数值关联关系,从而将模型定义信息中各部分之间的关系以及通过数据分析出来的关联关系建立起来,即得到数据表模型、数据表列模型、实例行、实例行数据单元、不同数据表列模型的关联关系以及具有关联关系的不同数据行和/或不同数据表模型的实例行数据单元的实例关联关系,通过该过程,实现用户可以根据关联关系进行检索,得到与被检索对象相关联的数据信息,从而深度挖掘被检索对象的数据关联价值。在摆脱了现阶段无法对检索对象给出跨功能节点的数据检索和数据关系导航,并且可以根据自然语言对话信息完成对数据的检索,在扩展和提高传统检索能力的同时,还提高用户使用体验。
在上述技术方案中,优选地,还包括:修订单元,用于对模型定义信息进行修订。
在该技术方案中,在对生成的模型定义信息之后,还需要专业人员对生成的模型定义信息进行修改,通过专业人员对其中的模型定义信息进行添加无法获取得到的关联关系,以及对出现错误的关联关系进行删除,以此来保证生成的知识图谱的准确性,从而保证通过知识图谱检索得到的知识图谱检索结果的准确性。
在上述技术方案中,优选地,还包括:第一建立单元,用于建立全文检索模型,第一建立单元包括:筛查单元,用于获取实例行数据单元;对实例行数据单元的数据类型进行筛查以及对实例行数据单元进行哈希分布分析;根据数据类型筛查结果和哈希分布结果确定数据筛查结果;第一建立子单元,用于根据实例行数据单元和数据筛查结果建立全文检索模型。
在该技术方案中,在生成模型定义信息的同时,还需要通过筛查单元从所述数据模型中提取实例行数据单元,并对实例行数据单元的数据类型进行筛查,判断实例行数据单元的数据类型是否值得建立全文检索,并且对于实例行数据单元的进行哈希分布分析,通过哈希分布分析判断数据本身是否值得建立全文检索,第一建立子单元根据数据表以及筛查结果建立全文检索。在此过程中,对数据表中的数据进行筛查,将不值得建立全文检索的数据类型以及根据哈希分布分析确定不值得检索的实例行数据单元筛查出去,使得建立全文检索时,减少了过多不值得建立全文检索的数据,建立得到的全文检索整体数据结构精简,在进行全文检索时,速度更快,减少用户等待时间。
在上述技术方案中,优选地,检索单元还用于通过全文检索模型对检测结果进行检索,得到全文检索结果;以及对知识图谱检索结果和全文检索结果进行关系补齐,并发送补齐后的知识图谱检索结果和全文检索结果。
在该技术方案中,检索单元在根据知识图谱对检测结果进行检索,得到知识图谱检索结果之后,还要通过全文检索模型对检测结果进行检测,并将知识图谱检测结果和全文检索结果进行关系补齐,并发送补齐后的知识图谱检测结果和全文检索结果。在此过程中,发送的知识图谱检测结果和全文检索结果是经过关系补齐的,即用户在收到的是包括全文检索和知识图谱合并在一起的反馈结果,用户可以直接通过全文检索的检索结果得到与之关联的其他数据,或者用户可以通过知识图谱查找到对应的全文检索结果,从而使得用户只需通过输入自然语言对话信息即可得到与对话信息有价值的关联信息。
根据本发明的又一个方面,提出了一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述任一项的数据检索的方法的步骤。
本发明提供的计算机装置,处理器执行计算机程序时实现通过获取数据模型,并对数据模型进行分析,得到用来建立知识图谱的模型结构;对获取到的数据信息进行分析,得到数据关联关系,根据数据关联关系将数据信息添加到模型定义信息中,并利用数据关联关系将模型定义信息中具有关联关系的数据关联起来,得到知识图谱,在获取到自然语言对话信息后,对该对话信息进行意图检测,确定对话内容中想要找到的目标以及得到目标的关联关系,将此关联关系通过知识图谱进行检索,即可得到需要检索的内容,在此过程中,用户可以根据关联关系进行检索,从而深度挖掘被检索对象的数据关联价值。此外,本申请提出的技术方案能够完成对通用数据库的关联关系的检索,从而摆脱了现阶段无法对检索对象给出跨功能节点的数据检索和数据关系导航,并且可以根据自然语言对话信息完成对数据的检索,在扩展和提高传统检索能力的同时,还提高用户使用体验。
根据本发明的又一个方面,提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一项的数据检索的方法的步骤。
本发明提供的计算机可读存储介质,计算机程序被处理器执行时实现通过获取数据模型,并对数据模型进行分析,得到用来建立知识图谱的模型结构;对获取到的数据信息进行分析,得到数据关联关系,根据数据关联关系将数据信息添加到模型定义信息中,并利用数据关联关系将模型定义信息中具有关联关系的数据关联起来,得到知识图谱,在获取到自然语言对话信息后,对该对话信息进行意图检测,确定对话内容中想要找到的目标以及得到目标的关联关系,将此关联关系通过知识图谱进行检索,即可得到需要检索的内容,在此过程中,用户可以根据关联关系进行检索,从而深度挖掘被检索对象的数据关联价值。此外,本申请提出的技术方案能够完成对通用数据库的关联关系的检索,从而摆脱了现阶段无法对检索对象给出跨功能节点的数据检索和数据关系导航,并且可以根据自然语言对话信息完成对数据的检索,在扩展和提高传统检索能力的同时,还提高用户使用体验。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本发明的一个实施例中数据检索的方法的流程示意图;
图2示出了本发明的一个实施例中数据检索的方法的流程示意图;
图3示出了本发明的一个实施例中数据检索的方法的流程示意图;
图4示出了本发明的一个实施例中数据检索的方法的流程示意图;
图5示出了本发明的一个实施例中数据检索的方法的流程示意图;
图6示出了本发明的一个实施例中数据检索的方法的流程示意图;
图7示出了本发明中数据检索的系统的示意框图;
图8示出了本发明的一个实施例的计算机装置的示意框图;
图9示出知识图谱中存储的数据表的关系;
图10示出经过四种方式生成模型定义信息示意图;
图11示出获取数据信息并对数据信息进行分析并得到数据关联关系的示意框图;
图12示出建立知识图谱和全文检索模型的示意框图;
图13示出本申请的方案使用的场景的流程示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不限于下面公开的具体实施例的限制。
本发明第一方面的实施例,提出一种数据检索的方法,图1示出了本发明的一个实施例中数据检索的方法的流程示意图。其中,该方法包括:
S102,获取数据模型,并对数据模型进行分析,得到模型定义信息;
S104,获取数据信息并对数据信息进行分析,得到数据关联关系;
S106,根据模型定义信息、数据信息和数据关联关系建立知识图谱;
S108,获取自然语言对话信息,对自然语言对话信息进行意图检测,得到检测结果;
S110,根据知识图谱对检测结果进行检索,得到知识图谱检索结果。
在该实施例中,获取数据模型,并对数据模型进行分析,得到用来建立知识图谱的模型结构;对获取到的数据信息进行分析,得到数据关联关系,根据数据关联关系将数据信息添加到模型定义信息中,并利用数据关联关系将模型定义信息中具有关联关系的数据关联起来,得到知识图谱,在获取到自然语言对话信息后,对该对话信息进行意图检测,确定对话内容中想要找到的目标以及得到目标的关联关系,将此关联关系通过知识图谱进行检索,即可得到需要检索的内容,在此过程中,用户可以根据关联关系进行检索,从而深度挖掘被检索对象的数据关联价值。此外,本申请提出的技术方案能够完成对通用数据库的关联关系的检索,从而摆脱了现阶段无法对检索对象给出跨功能节点的数据检索和数据关系导航,并且可以根据自然语言对话信息完成对数据的检索,在扩展和提高传统检索能力的同时,还提高用户使用体验。如:现有李某的员工表和销售人员表,现阶段在对李某的销售人员进行查找是,第一步找到李某,第二步找到李某的员工表,第三部找到李某的销售人员表,从而找到李某想要找的销售人员,而本申请的技术方案,通过使用知识图谱可以直接检索李某的销售人员,通过李某和销售人员的关联关系得到检索结果,如果存在订单表,也能直接找到对应的订单。如找到李某某个销售人员的订单,同样的通过李某的关联关系就可以检索得到。
当然,在获取自然语言对话信息,对自然语言对话信息进行意图检测,得到检测结果之后,还可以对自然语言对话信息中上下文进行处理,提取自然语言对话信息的关键词以及关联关系;根据知识图谱对关键词以及关联关系进行检索,得到知识图谱检索结果。
图2示出了本发明的一个实施例中数据检索的方法的流程示意图。
在本发明的一个实施例中,优选地,数据检索方法包括:
S202,通过获取数据库中数据对象的集合生成模型定义信息;和/或获取应用程序的元数据描述信息生成模型定义信息;和/或通过使用机器学习对领域设计模型数据知识进行提取来生成模型定义信息;和/或对数据库中任意两个基础数据表中存储的数据进行相关性分析,对存在关联关系的基础数据表进行提取并生成模型定义信息;
S204,获取数据信息并对数据信息进行分析,得到数据关联关系;
S206,根据模型定义信息、数据信息和数据关联关系建立知识图谱;
S208,获取自然语言对话信息,对自然语言对话信息进行意图检测,得到检测结果;
S210,根据知识图谱对检测结果进行检索,得到知识图谱检索结果。
在该实施例中,生成模型定义信息时,可以根据数据库中存储的数据对象的集合(schema)来生成模型定义信息,从而实现在建立知识图谱时对普通数据库的支持,从而实现对普通数据库进行检索时得到被检索对象的关联关系;也可以通过获取应用程序的元数据描述信息来生成模型定义信息,实现在软件层面上对数据表的提取,从而建立知识图谱;还可以通过使用机器学习对领域设计模型数据知识进行提取并生成模型定义信息,即通过机器学习对专业领域内的设计模型数据知识进行学习,从而生成模型定义信息,通过使用有元数据完成对自然语言的进行处理,使得自然语言处理过程比较准确和高效,在对知识图谱进行检测时更为准确的得到检索结果,从而保证了生成的知识图谱中各数据表之间的关系更加准确;此外还可以对数据库中任意两个基础数据表中存储的数据进行相关性分析,对存在关联关系的基础数据表进行提取并生成模型定义信息。通过上述几种方式得到的模型定义信息,生成的知识图谱具有多样来源,并以此建立知识图谱在对自然语言进行检索得到的知识图谱检索结果更准确。
图3示出了本发明的一个实施例中数据检索的方法的流程示意图。
在本发明的一个实施例中,优选地,数据检索方法包括:
S302,通过获取数据库中数据对象的集合生成模型定义信息;和/或获取应用程序的元数据描述信息生成模型定义信息;和/或通过使用机器学习对领域设计模型数据知识进行提取来生成模型定义信息;和/或对数据库中任意两个基础数据表中存储的数据进行相关性分析,对存在关联关系的基础数据表进行提取并生成模型定义信息;
S304,获取数据信息并对数据信息进行分析,得到数据关联关系;
S306,根据数据关联关系、数据表模型生成实例行,以及根据数据关联关系、数据表列模型生成实例行数据单元;以及
S308,对数据表模型和实例行建立实例关联关系、对数据表列模型和实例行数据单元建立实例关联关系、对实例行和实例行数据单元建立拥有关联关系、对实例行数据单元和其他实例行数据单元建立数值关联关系,得到知识图谱;
S310,获取自然语言对话信息,对自然语言对话信息进行意图检测,得到检测结果;
S312,根据知识图谱对检测结果进行检索,得到知识图谱检索结果。
其中模型定义信息包括:数据表模型、数据表列模型、数据表模型与数据表列模型的关联关系以及数据表列模型与其他数据表列模型的关联关系。
在该实施例中,根据数据关联关系,将与数据表模型具有实例相关的实例行以及根据数据关联关系、数据表列模型生成实例行数据单元,根据生成的具有实例关系的实例行以及实例行数据单元,将模型定义信息中的数据表模型和数据表列模型联系起来,通过为数据表模型和实例行建立实例关联关系、对数据表列模型和实例行数据单元建立实例关联关系、对实例行和实例行数据单元建立拥有关联关系、对实例行数据单元和其他实例行数据单元建立数值关联关系,从而将模型定义信息中各部分之间的关系以及通过数据分析出来的关联关系建立起来,即得到数据表模型、数据表列模型、实例行、实例行数据单元、不同数据表列模型的关联关系以及具有关联关系的不同数据行和/或不同数据表模型的实例行数据单元的实例关联关系。通过该过程,实现用户可以根据关联关系进行检索,得到与被检索对象相关联的数据信息,从而深度挖掘被检索对象的数据关联价值。在摆脱了现阶段无法对检索对象给出跨功能节点的数据检索和数据关系导航,并且可以根据自然语言对话信息完成对数据的检索,在扩展和提高传统检索能力的同时,还提高用户使用体验。
图4示出了本发明的一个实施例中数据检索的方法的流程示意图。
在本发明的一个实施例中,优选地,数据检索方法包括:
S402,通过获取数据库中数据对象的集合生成模型定义信息;和/或获取应用程序的元数据描述信息生成模型定义信息;和/或通过使用机器学习对领域设计模型数据知识进行提取来生成模型定义信息;和/或对数据库中任意两个基础数据表中存储的数据进行相关性分析,对存在关联关系的基础数据表进行提取并生成模型定义信息;
S404,对模型定义信息进行修订;
S406,获取数据信息并对数据信息进行分析,得到数据关联关系;
S408,根据数据关联关系、数据表模型生成实例行,以及根据数据关联关系、数据表列模型生成实例行数据单元;以及
S410,对数据表模型和实例行建立实例关联关系、对数据表列模型和实例行数据单元建立实例关联关系、对实例行和实例行数据单元建立拥有关联关系、对实例行数据单元和其他实例行数据单元建立数值关联关系,得到知识图谱;
S412,获取自然语言对话信息,对自然语言对话信息进行意图检测,得到检测结果;
S414,根据知识图谱对检测结果进行检索,得到知识图谱检索结果。
其中模型定义信息包括:数据表模型、数据表列模型、数据表模型与数据表列模型的关联关系以及数据表列模型与其他数据表列模型的关联关系。
在该实施例中,在对生成的模型定义信息之后,还需要专业人员对生成的模型定义信息进行修改,通过专业人员对其中的模型定义信息进行添加无法获取得到的关联关系,以及对出现错误的关联关系进行删除,以此来保证生成的知识图谱的准确性,从而保证通过知识图谱检索得到的知识图谱检索结果的准确性。
图5示出了本发明的一个实施例中数据检索的方法的流程示意图。
在本发明的一个实施例中,优选地,数据检索的方法包括:
S502,通过获取数据库中数据对象的集合生成模型定义信息;和/或获取应用程序的元数据描述信息生成模型定义信息;和/或通过使用机器学习对领域设计模型数据知识进行提取来生成模型定义信息;和/或对数据库中任意两个基础数据表中存储的数据进行相关性分析,对存在关联关系的基础数据表进行提取并生成模型定义信息;
S504,对模型定义信息进行修订;
S506,获取数据信息并对数据信息进行分析,得到数据关联关系;
S508,根据数据关联关系、数据表模型生成实例行,以及根据数据关联关系、数据表列模型生成实例行数据单元;以及
S510,对数据表模型和实例行建立实例关联关系、对数据表列模型和实例行数据单元建立实例关联关系、对实例行和实例行数据单元建立拥有关联关系、对实例行数据单元和其他实例行数据单元建立数值关联关系,得到知识图谱;
S512,获取实例行数据单元;对实例行数据单元的数据类型进行筛查以及对实例行数据单元进行哈希分布分析;根据数据类型筛查结果和哈希分布结果确定数据筛查结果;
S514,根据实例行数据单元和数据筛查结果建立全文检索模型;
S516,获取自然语言对话信息,对自然语言对话信息进行意图检测,得到检测结果;
S518,根据知识图谱对检测结果进行检索,得到知识图谱检索结果。
其中模型定义信息包括:数据表模型、数据表列模型、数据表模型与数据表列模型的关联关系以及数据表列模型与其他数据表列模型的关联关系。
在该实施例中,在生成模型定义信息的同时,还需要对实例行数据单元的数据类型进行筛查,判断实例行数据单元的数据类型是否值得建立全文检索,如:对于给定的128位的默认信息,没有建立全文检索的价值,因此,将此筛查出去。并且对于实例行数据单元的进行哈希分布分析,如:哈希分布分析的结果特别集中,不具备分布波动的特性,因而,将此筛查出去。通过哈希分布分析判断数据本身是否值得建立全文检索,根据数据表以及筛查结果建立全文检索。在此过程中,对实例行数据单元进行筛查,将不值得建立全文检索的数据类型以及根据哈希分布分析确定不值得检索的实例行数据单元筛查出去,使得建立全文检索时,减少了过多不值得建立全文检索的数据,建立得到的全文检索整体数据结构精简,在进行全文检索时,速度更快,减少用户等待时间。
图6示出了本发明的一个实施例中数据检索的方法的流程示意图。
在本发明的一个实施例中,优选地,数据检索的方法包括:
S602,通过获取数据库中数据对象的集合生成模型定义信息;和/或获取应用程序的元数据描述信息生成模型定义信息;和/或通过使用机器学习对领域设计模型数据知识进行提取来生成模型定义信息;和/或对数据库中任意两个基础数据表中存储的数据进行相关性分析,对存在关联关系的基础数据表进行提取并生成模型定义信息;
S604,对模型定义信息进行修订;
S606,获取数据信息并对数据信息进行分析,得到数据关联关系;
S608,根据数据关联关系、数据表模型生成实例行,以及根据数据关联关系、数据表列模型生成实例行数据单元;以及
S610,对数据表模型和实例行建立实例关联关系、对数据表列模型和实例行数据单元建立实例关联关系、对实例行和实例行数据单元建立拥有关联关系、对实例行数据单元和其他实例行数据单元建立数值关联关系,得到知识图谱;
S612,获取实例行数据单元;对实例行数据单元的数据类型进行筛查以及对实例行数据单元进行哈希分布分析;根据数据类型筛查结果和哈希分布结果确定数据筛查结果;
S614,根据实例行数据单元和数据筛查结果建立全文检索模型;
S616,获取自然语言对话信息,对自然语言对话信息进行意图检测,得到检测结果;
S618,根据知识图谱对检测结果进行检索,得到知识图谱检索结果;
S620,通过全文检索模型对检测结果进行检索,得到全文检索结果;以及对知识图谱检索结果和全文检索结果进行关系补齐,并发送补齐后的知识图谱检索结果和全文检索结果。
其中模型定义信息包括:数据表模型、数据表列模型、数据表模型与数据表列模型的关联关系以及数据表列模型与其他数据表列模型的关联关系。
在该实施例中,在根据知识图谱对检测结果进行检索,得到知识图谱检索结果之后,还要通过全文检索模型对检测结果进行检测,并将知识图谱检测结果和全文检索结果进行关系补齐,并发送补齐后的知识图谱检测结果和全文检索结果。在此过程中,发送的知识图谱检测结果和全文检索结果是经过关系补齐的,即用户在收到的是包括全文检索和知识图谱合并在一起的反馈结果,用户可以直接通过全文检索的检索结果得到与之关联的其他数据,或者用户可以通过知识图谱查找到对应的全文检索结果,从而使得用户只需通过输入自然语言对话信息即可得到与对话信息有价值的关联信息。
本发明第二方面的实施例,提出了一种数据检索的系统。图7示出了本发明中数据检索的系统的示意框图。其中数据检索的系统包括:提取单元702,用于获取数据模型,并对数据模型进行分析,得到模型定义信息;分析单元704,用于获取数据信息并对数据信息进行分析,得到数据关联关系;建立单元706,用于根据模型定义信息、数据信息和数据关联关系建立知识图谱;检测单元708,用于获取自然语言对话信息,对自然语言对话信息进行意图检测,得到检测结果;检索单元710,用于根据知识图谱对检测结果进行检索,得到知识图谱检索结果。
在该实施例中,提取单元702获取数据模型,并对数据模型进行分析,得到用来建立知识图谱的模型结构;分析单元704对获取到的数据信息进行分析,得到数据关联关系,建立单元706根据数据关联关系将数据信息添加到模型定义信息中,并利用数据关联关系将模型定义信息中具有关联关系的数据关联起来,得到知识图谱,检索单元710在检测单元708在获取到自然语言对话信息后,对该对话信息进行意图检测,确定对话内容中想要找到的目标以及得到目标的关联关系,将此关联关系通过知识图谱进行检索,即可得到需要检索的内容,在此过程中,用户可以根据关联关系进行检索,从而深度挖掘被检索对象的数据关联价值。此外,本申请提出的技术方案能够完成对通用数据库的关联关系的检索,从而摆脱了现阶段无法对检索对象给出跨功能节点的数据检索和数据关系导航,并且可以根据自然语言对话信息完成对数据的检索,在扩展和提高传统检索能力的同时,还提高用户使用体验。如:现有李某的员工表和销售人员表,现阶段在对李某的销售人员进行查找是,第一步找到李某,第二步找到李某的员工表,第三部找到李某的销售人员表,从而找到李某想要找的销售人员,而本申请的技术方案,通过使用知识图谱可以直接检索李某的销售人员,通过李某和销售人员的关联关系得到检索结果,如果存在订单表,也能直接找到对应的订单。如找到李某某个销售人员的订单,同样的通过李某的关联关系就可以检索得到。
当然,在获取自然语言对话信息,对自然语言对话信息进行意图检测,得到检测结果之后,还可以对自然语言对话信息中上下文进行处理,提取自然语言对话信息的关键词以及关联关系;根据知识图谱对关键词以及关联关系进行检索,得到知识图谱检索结果。
在本发明的一个实施例中,优选地,提取单元702通过获取数据库中数据对象的集合生成模型定义信息;和/或获取应用程序的元数据描述信息来生成模型定义信息;和/或通过使用机器学习对领域设计模型数据知识进行提取来生成模型定义信息;和/或对数据库中任意两个基础数据表中存储的数据进行相关性分析,对存在关联关系的基础数据表进行提取并生成模型定义信息。
在该实施例中,通过提取单元702生成模型定义信息时,可以根据数据库中存储的数据对象的集合(schema)来生成模型定义信息,从而实现在建立知识图谱时对普通数据库的支持,从而实现对普通数据库进行检索时得到被检索对象的关联关系;也可以通过获取应用程序的元数据描述信息来生成模型定义信息,实现在软件层面上对数据表的提取,从而建立知识图谱;还可以通过使用机器学习对领域设计模型数据知识进行提取并生成模型定义信息,即通过机器学习对专业领域内的设计模型数据知识进行学习,从而生成模型定义信息,通过使用有元数据完成对自然语言的进行处理,使得自然语言处理过程比较准确和高效,在对知识图谱进行检测时更为准确的得到检索结果,从而保证了生成的知识图谱中各数据表之间的关系更加准确;此外还可以对数据库中任意两个基础数据表中存储的数据进行相关性分析,对存在关联关系的基础数据表进行提取并生成模型定义信息。通过上述几种方式得到的模型定义信息,生成的知识图谱具有多样来源,并以此建立知识图谱在对自然语言进行检索得到的知识图谱检索结果更准确。
在本发明的一个实施例中,优选地,建立单元706包括:生成单元712,用于根据数据关联关系、数据表模型生成实例行,以及根据数据关联关系、数据表列模型生成实例行数据单元;关系建立单元714,用于对数据表模型和实例行建立实例关联关系、对数据表列模型和实例行数据单元建立实例关联关系、对实例行和实例行数据单元建立拥有关联关系、对实例行数据单元和其他实例行数据单元建立数值关联关系,得到知识图谱。
在该实施例中,生成单元712根据数据关联关系,将与数据表模型具有实例相关的实例行以及根据数据关联关系、数据表列模型生成实例行数据单元,根据生成的具有实例关系的实例行以及实例行数据单元,将模型定义信息中的数据表模型和数据表列模型联系起来,通过关系建立单元714为数据表模型和实例行建立实例关联关系、对数据表列模型和实例行数据单元建立实例关联关系、对实例行和实例行数据单元建立拥有关联关系、对实例行数据单元和其他实例行数据单元建立数值关联关系,从而将模型定义信息中各部分之间的关系以及通过数据分析出来的关联关系建立起来,即得到数据表模型、数据表列模型、实例行、实例行数据单元、不同数据表列模型的关联关系以及具有关联关系的不同数据行和/或不同数据表模型的实例行数据单元的实例关联关系,通过该过程,实现用户可以根据关联关系进行检索,得到与被检索对象相关联的数据信息,从而深度挖掘被检索对象的数据关联价值。在摆脱了现阶段无法对检索对象给出跨功能节点的数据检索和数据关系导航,并且可以根据自然语言对话信息完成对数据的检索,在扩展和提高传统检索能力的同时,还提高用户使用体验。
在本发明的一个实施例中,优选地,还包括:修订单元716,用于对模型定义信息进行修订。
在该实施例中,在提取单元702生成的模型定义信息之后,还需要专业人员对生成的模型定义信息进行修改,通过专业人员对其中的模型定义信息进行添加无法获取得到的关联关系,以及对出现错误的关联关系进行删除,以此来保证生成的知识图谱的准确性,从而保证通过知识图谱检索得到的知识图谱检索结果的准确性。
在本发明的一个实施例中,优选地,还包括:第一建立单元718,用于建立全文检索模型,第一建立单元718包括:筛查单元720,用于获取实例行数据单元;对实例行数据单元的数据类型进行筛查以及对实例行数据单元进行哈希分布分析;根据数据类型筛查结果和哈希分布结果确定数据筛查结果;第一建立子单元722,用于根据实例行数据单元和数据筛查结果建立全文检索模型。
在该实施例中,在提取单元702生成模型定义信息的同时,还需要通过筛查单元720从所述数据模型中提取实例行数据单元,并对实例行数据单元的数据类型进行筛查,判断实例行数据单元的数据类型是否值得建立全文检索,如:对于给定的128位的默认信息,没有建立全文检索的价值,因此,将此筛查出去。并且对于实例行数据单元的进行哈希分布分析,如:哈希分布分析的结果特别集中,不具备分布波动的特性,因而,将此筛查出去。通过哈希分布分析判断数据本身是否值得建立全文检索,第一建立子单元722根据数据表以及筛查结果建立全文检索。在此过程中,对数据表中的数据进行筛查,将不值得建立全文检索的数据类型以及根据哈希分布分析确定不值得检索的实例行数据单元筛查出去,使得建立全文检索时,减少了过多不值得建立全文检索的数据,建立得到的全文检索整体数据结构精简,在进行全文检索时,速度更快,减少用户等待时间。
在本发明的一个实施例中,优选地,检索单元710还用于通过全文检索模型对检测结果进行检索,得到全文检索结果;以及对知识图谱检索结果和全文检索结果进行关系补齐,并发送补齐后的知识图谱检索结果和全文检索结果。
在该实施例中,检索单元710在根据知识图谱对检测结果进行检索,得到知识图谱检索结果之后,还要通过全文检索模型对检测结果进行检测,并将知识图谱检测结果和全文检索结果进行关系补齐,并发送补齐后的知识图谱检测结果和全文检索结果。在此过程中,发送的知识图谱检测结果和全文检索结果是经过关系补齐的,即用户在收到的是包括全文检索和知识图谱合并在一起的反馈结果,用户可以直接通过全文检索的检索结果得到与之关联的其他数据,或者用户可以通过知识图谱查找到对应的全文检索结果,从而使得用户只需通过输入自然语言对话信息即可得到与对话信息有价值的关联信息。
本发明第三方面的实施例,提出了一种计算机装置,图8示出了本发明的一个实施例的计算机装置800的示意框图。包括存储器802、处理器804及存储在存储器802上并可在处理器上运行的计算机程序,处理器804执行计算机程序时实现如上述任一项的数据检索的方法的步骤。
本发明提供的计算机装置800,处理器804执行计算机程序时实现通过获取数据模型,并对数据模型进行分析,得到用来建立知识图谱的模型结构;对获取到的数据信息进行分析,得到数据关联关系,根据数据关联关系将数据信息添加到模型定义信息中,并利用数据关联关系将模型定义信息中具有关联关系的数据关联起来,得到知识图谱,在获取到自然语言对话信息后,对该对话信息进行意图检测,确定对话内容中想要找到的目标以及得到目标的关联关系,将此关联关系通过知识图谱进行检索,即可得到需要检索的内容,在此过程中,用户可以根据关联关系进行检索,从而深度挖掘被检索对象的数据关联价值。此外,本申请提出的技术方案能够完成对通用数据库的关联关系的检索,从而摆脱了现阶段无法对检索对象给出跨功能节点的数据检索和数据关系导航,并且可以根据自然语言对话信息完成对数据的检索,在扩展和提高传统检索能力的同时,还提高用户使用体验。
本发明第四方面的实施例,提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一项的数据检索的方法的步骤。
本发明提供的计算机可读存储介质,计算机程序被处理器执行时实现通过获取数据模型,并对数据模型进行分析,得到用来建立知识图谱的模型结构;对获取到的数据信息进行分析,得到数据关联关系,根据数据关联关系将数据信息添加到模型定义信息中,并利用数据关联关系将模型定义信息中具有关联关系的数据关联起来,得到知识图谱,在获取到自然语言对话信息后,对该对话信息进行意图检测,确定对话内容中想要找到的目标以及得到目标的关联关系,将此关联关系通过知识图谱进行检索,即可得到需要检索的内容,在此过程中,用户可以根据关联关系进行检索,从而深度挖掘被检索对象的数据关联价值。此外,本申请提出的技术方案能够完成对通用数据库的关联关系的检索,从而摆脱了现阶段无法对检索对象给出跨功能节点的数据检索和数据关系导航,并且可以根据自然语言对话信息完成对数据的检索,在扩展和提高传统检索能力的同时,还提高用户使用体验。
图9示出知识图谱中存储的数据表的关系。其中T_ENTITY是实体,即数据表模型、T_FIELD是表字段,即数据表列模型、T_ROW是行,即生成的实例行、T_COL(T_COLUMN)是实例行数据单元,其中ER_INSTANCE是T_ENTITY与T_ROW的实例关联关系;EF_OWN是T_ENTITY与T_FIELD的拥有关系;FC_INSTANCE是T_FIELD与T_COL的实例关联关系;RC_OWN是T_ROW与T_COL的拥有关系;FF_REL是不同实体之间T_FIELD的实例关联关系;CC_REL是不同数据表模型(实体)之间T_COL的实例关联关系。图10示出经过四种方式生成模型定义信息示意图,其中模型定义信息中entity表示数据表模型(实体)、fieid表示数据表列模型(列名)、name表示对应实体和列名的名称、label是对应实体和列名的标签、id_field是实体中field的唯一标识、data_type是对应field的数据类型、relation是关系、其中relation中src_entity是entity的来源、src_field是field的来源、dst_entity是entity的目标、dst_field是field的目标。图11示出获取数据信息并对数据信息进行分析并得到数据关联关系的示意框图。其中column的数据类型筛查和分析column数据的哈希分布即用于获取实例行数据单元;对实例行数据单元的数据类型进行筛查以及对实例行数据单元进行哈希分布分析;根据数据类型筛查结果和哈希分布结果确定数据筛查结果。图12示出建立知识图谱和全文检索模型的示意框图。其中模型描述文件是应用程序的元数据描述信息来生成模型定义信息、领域设计模型数据知识(机器学习)是通过使用机器学习对领域设计模型数据知识进行提取并生成模型定义信息、schema和数据是根据数据库中schema提取多个数据表并生成模型定义信息和对数据库中任意两个基础数据表中存储的数据进行相关性分析,对存在关联关系的基础数据表进行提取并生成模型定义信息,对于生成的模型定义信息还可以由专业人员进行修订;通过获取数据信息并对数据信息分析得到数据关联关系,通过模型定义信息和数据关联关系生成知识图谱;此外在获取到数据信息后还对数据信息进行数据类型筛查以及哈希分布分析,得到数据筛查结果,根据数据筛查结果和数据信息建立全文检索模型。图13示出本申请的方案使用的场景的流程示意图。其中在获取到自然语言对话信息,对其进行意图检测,并结合上下文处理,提取到关键词和关联关系,对于关键词在全文检索模型进行检索,关联关系在知识图谱中检索,并将全文检索结果和知识图谱检索结果进行关系补齐,并对补齐后的全文检索结果和知识图谱检索结果进行包装处理,并返回处理结果。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种数据检索的方法,其特征在于,
获取数据模型,并对所述数据模型进行分析,得到模型定义信息;
获取数据信息并对所述数据信息进行分析,得到数据关联关系;
根据所述模型定义信息、所述数据信息和所述数据关联关系建立知识图谱;
获取自然语言对话信息,对所述自然语言对话信息进行意图检测,得到检测结果;
根据所述知识图谱对所述检测结果进行检索,得到知识图谱检索结果。
2.根据权利要求1所述的数据检索的方法,其特征在于,
所述获取数据模型,并对所述数据模型进行分析,得到模型定义信息包括:
通过获取数据库中数据对象的集合生成所述模型定义信息;和/或
获取应用程序的元数据描述信息生成所述模型定义信息;和/或
通过使用机器学习对领域设计模型数据知识进行提取来生成所述模型定义信息;和/或
对数据库中任意两个基础数据表中存储的数据进行相关性分析,对存在关联关系的所述基础数据表进行提取并生成所述模型定义信息。
3.根据权利要求1或2所述的数据检索方法,其特征在于,
所述模型定义信息包括:数据表模型、数据表列模型、所述数据表模型与所述数据表列模型的关联关系以及所述数据表列模型与其他数据表列模型的关联关系。
4.根据权利要求3所述的数据检索方法,其特征在于,
所述根据所述模型定义信息、所述数据信息和所述数据关联关系建立知识图谱具体包括:
根据所述数据关联关系、所述数据表模型生成实例行,以及根据所述数据关联关系、所述数据表列模型生成实例行数据单元;以及
对所述数据表模型和所述实例行建立实例关联关系、对所述数据表列模型和所述实例行数据单元建立实例关联关系、对所述实例行和所述实例行数据单元建立拥有关联关系、对所述实例行数据单元和其他实例行数据单元建立数值关联关系,得到所述知识图谱。
5.根据权利要求4所述的数据检索的方法,其特征在于,
在获取数据模型,并对所述数据模型进行分析,生成模型定义信息之后,在获取数据信息并对所述并对所述数据信息进行分析,得到数据关联关系之前,还包括:对所述模型定义信息进行修订。
6.根据权利要求4或5所述的数据检索的方法,其特征在于,
在所述建立知识图谱之后,在获取自然语言对话信息之前,还包括:建立全文检索模型,所述建立全文检索模型包括:
获取所述实例行数据单元;
对所述实例行数据单元的数据类型进行筛查以及对所述实例行数据单元进行哈希分布分析;
根据数据类型筛查结果和哈希分布结果确定数据筛查结果;
根据所述实例行数据单元和所述数据筛查结果建立全文检索模型。
7.根据权利要求6所述的数据检索的方法,其特征在于,
在根据所述知识图谱对所述检测结果进行检索,得到知识图谱检索结果之后,还包括:通过所述全文检索模型对所述检测结果进行检索,得到所述全文检索结果;以及
对所述知识图谱检索结果和所述全文检索结果进行关系补齐,并发送补齐后的知识图谱检索结果和所述全文检索结果。
8.一种数据检索的系统,其特征在于,
提取单元,用于获取数据模型,并对所述数据模型进行分析,得到模型定义信息;
分析单元,用于获取数据信息并对所述数据信息进行分析,得到数据关联关系;
建立单元,用于根据所述模型定义信息、所述数据信息和所述数据关联关系建立知识图谱;
检测单元,用于获取自然语言对话信息,对所述自然语言对话信息进行意图检测,得到检测结果;
检索单元,用于根据所述知识图谱对所述检测结果进行检索,得到知识图谱检索结果。
9.根据权利要求8所述的数据检索的系统,其特征在于,
所述提取单元通过获取数据库中数据对象的集合生成所述模型定义信息;和/或
获取应用程序的元数据描述信息来生成所述模型定义信息;和/或
通过使用机器学习对领域设计模型数据知识进行提取来生成所述模型定义信息;和/或
对数据库中任意两个基础数据表中存储的数据进行相关性分析,对存在关联关系的所述基础数据表进行提取并生成所述模型定义信息。
10.根据权利要求8或9所述的数据检索的系统,其特征在于,所述建立单元包括:
生成单元,用于根据所述数据关联关系、所述数据表模型生成实例行,以及根据所述数据关联关系、所述数据表列模型生成实例行数据单元;
关系建立单元,用于对所述数据表模型和所述实例行建立实例关联关系、对所述数据表列模型和所述实例行数据单元建立实例关联关系、对所述实例行和所述实例行数据单元建立拥有关联关系、对所述实例行数据单元和其他实例行数据单元建立数值关联关系,得到所述知识图谱。
11.根据权利要求10所述的数据检索的系统,其特征在于,还包括:
修订单元,用于对所述模型定义信息进行修订。
12.根据权利要求10或11所述的数据检索的系统,其特征在于,还包括:
第一建立单元,用于建立全文检索模型,所述第一建立单元包括:
筛查单元,用于获取所述实例行数据单元;对所述实例行数据单元的数据类型进行筛查以及对所述实例行数据单元进行哈希分布分析;根据数据类型筛查结果和哈希分布结果确定数据筛查结果;
第一建立子单元,用于根据所述实例行数据单元和所述数据筛查结果建立全文检索模型。
13.根据权利要求12所述的数据检索的系统,其特征在于,
所述检索单元还用于通过所述全文检索模型对所述检测结果进行检索,得到所述全文检索结果;以及
对所述知识图谱检索结果和所述全文检索结果进行关系补齐,并发送补齐后的知识图谱检索结果和所述全文检索结果。
14.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的数据检索的方法的步骤。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的数据检索的方法的步骤。
CN201711336167.5A 2017-12-14 2017-12-14 数据检索的方法、系统、计算设备及存储介质 Active CN108090167B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711336167.5A CN108090167B (zh) 2017-12-14 2017-12-14 数据检索的方法、系统、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711336167.5A CN108090167B (zh) 2017-12-14 2017-12-14 数据检索的方法、系统、计算设备及存储介质

Publications (2)

Publication Number Publication Date
CN108090167A true CN108090167A (zh) 2018-05-29
CN108090167B CN108090167B (zh) 2020-11-10

Family

ID=62174332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711336167.5A Active CN108090167B (zh) 2017-12-14 2017-12-14 数据检索的方法、系统、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN108090167B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763565A (zh) * 2018-06-04 2018-11-06 广东京信软件科技有限公司 一种基于深度学习的数据自动关联匹配的构建方法
CN109033132A (zh) * 2018-06-05 2018-12-18 中证征信(深圳)有限公司 利用知识图谱计算文本和主体相关度的方法以及装置
CN109120436A (zh) * 2018-08-01 2019-01-01 郑州云海信息技术有限公司 一种信息处理方法、装置及计算机可读存储介质
CN109947949A (zh) * 2019-03-12 2019-06-28 国家电网有限公司 知识信息智能管理方法、装置及服务器
CN110008306A (zh) * 2019-04-04 2019-07-12 北京易华录信息技术股份有限公司 一种数据关系分析方法、装置及数据服务系统
CN110134796A (zh) * 2019-04-19 2019-08-16 平安科技(深圳)有限公司 基于知识图谱的临床试验检索方法、装置、计算机设备及存储介质
CN110287223A (zh) * 2019-06-24 2019-09-27 北京明略软件系统有限公司 信息存储方法及装置、电子装置以及存储介质
CN110941702A (zh) * 2019-11-26 2020-03-31 北京明略软件系统有限公司 一种法律法规和法条的检索方法及装置、可读存储介质
CN112836067A (zh) * 2021-03-16 2021-05-25 上海适享文化传播有限公司 基于知识图谱的智能搜索方法
CN113590845A (zh) * 2021-08-09 2021-11-02 平安国际智慧城市科技股份有限公司 基于知识图谱的文献检索方法、装置、电子设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866593A (zh) * 2015-05-29 2015-08-26 中国电子科技集团公司第二十八研究所 一种基于知识图谱的数据库搜索方法
CN105051761A (zh) * 2013-03-15 2015-11-11 谷歌公司 用于扩增知识库的问题回答
CN105550190A (zh) * 2015-06-26 2016-05-04 许昌学院 面向知识图谱的跨媒体检索系统
CN106021281A (zh) * 2016-04-29 2016-10-12 京东方科技集团股份有限公司 医学知识图谱的构建方法、其装置及其查询方法
US20160328443A1 (en) * 2015-05-06 2016-11-10 Vero Analytics, Inc. Knowledge Graph Based Query Generation
CN106355627A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 一种用于生成知识图谱的方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105051761A (zh) * 2013-03-15 2015-11-11 谷歌公司 用于扩增知识库的问题回答
US20160328443A1 (en) * 2015-05-06 2016-11-10 Vero Analytics, Inc. Knowledge Graph Based Query Generation
CN104866593A (zh) * 2015-05-29 2015-08-26 中国电子科技集团公司第二十八研究所 一种基于知识图谱的数据库搜索方法
CN105550190A (zh) * 2015-06-26 2016-05-04 许昌学院 面向知识图谱的跨媒体检索系统
CN106355627A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 一种用于生成知识图谱的方法及系统
CN106021281A (zh) * 2016-04-29 2016-10-12 京东方科技集团股份有限公司 医学知识图谱的构建方法、其装置及其查询方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763565A (zh) * 2018-06-04 2018-11-06 广东京信软件科技有限公司 一种基于深度学习的数据自动关联匹配的构建方法
CN109033132A (zh) * 2018-06-05 2018-12-18 中证征信(深圳)有限公司 利用知识图谱计算文本和主体相关度的方法以及装置
CN109033132B (zh) * 2018-06-05 2020-12-11 中证征信(深圳)有限公司 利用知识图谱计算文本和主体相关度的方法以及装置
CN109120436B (zh) * 2018-08-01 2022-09-20 郑州云海信息技术有限公司 一种信息处理方法、装置及计算机可读存储介质
CN109120436A (zh) * 2018-08-01 2019-01-01 郑州云海信息技术有限公司 一种信息处理方法、装置及计算机可读存储介质
CN109947949A (zh) * 2019-03-12 2019-06-28 国家电网有限公司 知识信息智能管理方法、装置及服务器
CN110008306A (zh) * 2019-04-04 2019-07-12 北京易华录信息技术股份有限公司 一种数据关系分析方法、装置及数据服务系统
CN110134796A (zh) * 2019-04-19 2019-08-16 平安科技(深圳)有限公司 基于知识图谱的临床试验检索方法、装置、计算机设备及存储介质
CN110134796B (zh) * 2019-04-19 2023-06-02 平安科技(深圳)有限公司 基于知识图谱的临床试验检索方法、装置、计算机设备及存储介质
CN110287223A (zh) * 2019-06-24 2019-09-27 北京明略软件系统有限公司 信息存储方法及装置、电子装置以及存储介质
CN110941702A (zh) * 2019-11-26 2020-03-31 北京明略软件系统有限公司 一种法律法规和法条的检索方法及装置、可读存储介质
CN112836067A (zh) * 2021-03-16 2021-05-25 上海适享文化传播有限公司 基于知识图谱的智能搜索方法
CN112836067B (zh) * 2021-03-16 2023-12-12 上海适享文化传播有限公司 基于知识图谱的智能搜索方法
CN113590845A (zh) * 2021-08-09 2021-11-02 平安国际智慧城市科技股份有限公司 基于知识图谱的文献检索方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN108090167B (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN108090167A (zh) 数据检索的方法、系统、计算设备及存储介质
CN107609052B (zh) 一种基于语义三角的领域知识图谱的生成方法及装置
JP5212610B2 (ja) 代表画像又は代表画像群の表示システム、その方法、およびそのプログラム並びに、代表画像又は代表画像群の選択システム、その方法およびそのプログラム
CN107562939B (zh) 垂直领域新闻推荐方法、装置及可读储存介质
CN112738556B (zh) 视频处理方法及装置
JP7103496B2 (ja) 関連スコア算出システム、方法およびプログラム
JP2011018178A (ja) 情報処理装置、情報処理方法およびプログラム
US10650814B2 (en) Interactive question-answering apparatus and method thereof
KR20150067899A (ko) 시각언어 기반의 영상주석 자동 생성 장치 및 방법
KR20150116929A (ko) 텍스트에 기반한 동영상 생성장치 및 그 생성방법
KR20000023961A (ko) 정보 모델링방법 및 데이터베이스 검색시스템
TW201415402A (zh) 取證系統、取證方法及取證程式
JPWO2010013472A1 (ja) データ分類システム、データ分類方法、及びデータ分類プログラム
Nguyen et al. Affordance-based robot object retrieval
JPH11250106A (ja) 内容基盤の映像情報を利用した登録商標の自動検索方法
CN103034657B (zh) 文档摘要生成方法和装置
CN109791797A (zh) 在大数据库中根据化学结构相似性搜索和显示可用信息的系统、装置和方法
JP2014102625A (ja) 情報検索システム、プログラム、および方法
KR102122918B1 (ko) 대화형 질의응답 장치 및 그 방법
KR100919757B1 (ko) 문서분석을 위한 사용자 인터페이스 시스템
JP2012037936A (ja) 文書分析装置およびプログラム
EP2573692A1 (en) Method and system for providing research relation service
KR20190043965A (ko) 검색 필드 설정을 위한 시각적 ui 제공 시스템 및 방법과 이를 저장한 기록매체
Nasiripour et al. Study of psychological empowerment in hospitals of Qom Province, Iran.
Canale et al. From teaching books to educational videos and vice versa: a cross-media content retrieval experience

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant