CN117807191A - 一种基于知识图谱的非结构化数据检索方法及系统 - Google Patents

一种基于知识图谱的非结构化数据检索方法及系统 Download PDF

Info

Publication number
CN117807191A
CN117807191A CN202410224168.4A CN202410224168A CN117807191A CN 117807191 A CN117807191 A CN 117807191A CN 202410224168 A CN202410224168 A CN 202410224168A CN 117807191 A CN117807191 A CN 117807191A
Authority
CN
China
Prior art keywords
data
word
retrieval
words
minimum unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410224168.4A
Other languages
English (en)
Other versions
CN117807191B (zh
Inventor
蔡磊
孟宪波
韩冬梅
尹凡
王岚
耿威
张鹏龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ship Information Research Center 714th Research Institute Of China Shipbuilding Corp
Original Assignee
Ship Information Research Center 714th Research Institute Of China Shipbuilding Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ship Information Research Center 714th Research Institute Of China Shipbuilding Corp filed Critical Ship Information Research Center 714th Research Institute Of China Shipbuilding Corp
Priority to CN202410224168.4A priority Critical patent/CN117807191B/zh
Publication of CN117807191A publication Critical patent/CN117807191A/zh
Application granted granted Critical
Publication of CN117807191B publication Critical patent/CN117807191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据检索技术领域,并具体公开了一种基于知识图谱的非结构化数据检索方法及系统,其方法包括:对非结构化数据进行预处理和数据评估,并基于数据评估结果在所有分段数据中筛选出所有合格分段数据;基于数据预测模型对所有合格分段数据进行数据补全,获得目标检索范围内的预选择数据;基于预选择数据中的所有编码向量,对预选择数据进行实体识别,获得所有实体词,并确定出每对实体词之间的关系数据的二进制编码向量;基于所有实体词以及每对实体词之间的关系数据的二进制编码向量,搭建出非结构化数据知识图谱;基于用户输入的检索命令和非结构化数据知识图谱,获得非结构化数据检索结果;用以提高非结构化数据的检索精度和效率。

Description

一种基于知识图谱的非结构化数据检索方法及系统
技术领域
本发明涉及数据检索技术领域,特别涉及一种基于知识图谱的非结构化数据检索方法及系统。
背景技术
目前,在非结构化数据的检索和应用中,针对非结构化数据资料的检索,传统方式主要是通过有限的条件进行,只能收集到大致的概况,难以获取深度而全面的数据信息,知识的发现比较浅显。而要想真正收集到需要的专业性数据信息,就要全面地阅读案卷内容,然后实施提炼,既浪费了读者大量的时间,更因为长时间占用非结构化数据馆的服务资源而降低了服务效率。而将非结构化数据与知识图谱结合可以大大提高非结构化数据的检索效率和检索准确度。知识图谱的构建一般包括命名实体识别、关系抽取、实体对齐、知识推理等部分。
但是,现有技术主要是侧重成果结构化后图谱构建,且基于非结构化数据构建知识图谱需要预先对文本数据进行结构化处理才可使用上述公开技术,而文本数据结构化工作往往较为复杂,处理不同类型文本时,状态大相径庭,需要大量人工参与,准确率较低,影响后续图谱构建成功率,进而还是会影响非结构化数据的检索效率和检索准确度。例如,专利申请号为CN201910982408 .6的中国专利,该专利申请的“一种基于科技成果的知识图谱构建方法及生成装置”,主要是通过了一种基于科技成果的知识图谱构建方法及生成装置,包括:制定科技成果的知识图谱的基本框架,基本框架包括第一实体区间和多个与第一实体区间关联的第二实体区间;基于成果的描述信息及基本特征,获取成果的元数据,并根据元数据,确定实体数据以及实体数据的属性,并将实体数据填入基本框架中,形成基于科技成果的成果画像;根据成果画像,提取科技成果的关键词,并根据关键词,关联得到与科技成果相关的其他的科技成果,实现知识的关联,将关键词与相关的科技成果填入基本框架,实现知识图谱的构建。通过上述步骤,汇集相关技术成果,对相关成果进行技术解析,揭示本项成果的技术价值与先进性。但是,上述公开专利主要是侧重成果结构化后图谱构建,且基于非结构化数据构建知识图谱需要预先对文本数据进行结构化处理才可使用上述公开技术,而文本数据结构化工作往往较为复杂,处理不同类型文本时,状态大相径庭,需要大量人工参与,准确率较低,影响后续图谱构建成功率,进而还是会影响非结构化数据的检索效率和检索准确度。
因此,本发明提出一种基于知识图谱的非结构化数据检索方法及系统。
发明内容
本发明提供一种基于知识图谱的非结构化数据检索方法及系统,用以将知识图谱技术与非结构化数据管理服务深度融合,通过对非结构化数据的预处理、数据评估、数据补全、实体识别及知识图谱的搭建,将非结构化数据通过新的方式进行组织表示,并利用搭建出的非结构化数据知识图谱进行关联索引,大大提高了非结构化数据的检索效率和检索准确度。
本发明提供一种基于知识图谱的非结构化数据检索方法,包括:
S1:对目标检索范围内的非结构化数据进行预处理和数据评估,并基于数据评估结果在所有分段数据中筛选出所有合格分段数据;
S2:基于数据预测模型对所有合格分段数据进行数据补全,获得目标检索范围内的预选择数据;
S3:基于预选择数据中的所有编码向量,对预选择数据进行实体识别,获得所有实体词,并确定出每对实体词之间的关系数据的二进制编码向量;
S4:基于所有实体词以及每对实体词之间的关系数据的二进制编码向量,搭建出非结构化数据知识图谱;
S5:基于用户输入的检索命令和非结构化数据知识图谱,获得非结构化数据检索结果。
优选的,基于知识图谱的非结构化数据检索方法,S1:对目标检索范围内的非结构化数据进行预处理和数据评估,并基于数据评估结果在所有分段数据中筛选出所有合格分段数据,包括:
S101:对目标检索范围内的非结构化数据进行清洗和分段,获得目标检索范围内的所有分段数据;
S102:基于预设数据评估模型,对目标检索范围内的所有分段数据进行数据评估,获得每个分段数据的评估值;
S103:在所有分段数据中筛选出评估值不小于评估阈值的所有分段数据,作为所有合格分段数据。
优选的,基于知识图谱的非结构化数据检索方法,S101:对目标检索范围内的非结构化数据进行清洗和分段,获得目标检索范围内的所有分段数据,包括:
对目标检索范围内的非结构化数据进行文本转换,获得目标检索范围内的所有文本内容;
基于预设词典对目标检索范围内的文本内容进行最细划分,获得目标检索范围内的所有最小单位词;
基于每个最小单位词的词性的预设权重和词义的预设权重,计算出每个最小单位词的自身评估值,包括:
式中,为最小单位词的自身评估值,/>为最小单位词的词性的预设权重,/>为最小单位词的词义的预设权重,/>为自然对数,且自然常数/>的取值为2.718;
基于目标检索范围内的所有最小单位词的自身评估值,对目标检索范围内的所有最小单位词进行筛选,获得词筛选结果;
对词筛选结果进行分段,获得目标检索范围内的所有分段数据。
优选的,基于知识图谱的非结构化数据检索方法,基于目标检索范围内的所有最小单位词的自身评估值,对目标检索范围内的所有最小单位词进行筛选,获得词筛选结果,包括:
按照自身评估值从小到大的顺序,对目标检索范围内的所有最小单位词进行排序,获得词序列和每个最小单位词的词排序值;
基于每个最小单位词的词排序值和自身评估值,计算出每个最小单位词的筛选权重,包括:
式中,为最小单位词的筛选权重,/>为最小单位词的词排序值,/>为词序列中的最大词排序值,/>为最小单位词的自身评估值,/>为最小单位词在词序列中的相邻前一最小单位词的自身评估值,/>为最小单位词在词序列中的相邻后一最小单位词的自身评估值,其中,若当前计算的最小单位词为词序列中的第一个最小单位词,则将/>的取值设为0,若当前计算的最小单位词为词序列中的最后一个最小单位词,则将/>的取值设为1;
将目标检索范围内的所有最小单位词中,筛选权重不小于权重阈值的最小单位词汇总,当作词筛选结果。
优选的,基于知识图谱的非结构化数据检索方法,对词筛选结果进行分段,获得目标检索范围内的所有分段数据,包括:
基于出现顺序对目标检索范围内的所有最小单位词进行排序,获得完整词序列,并在完整词序列中标记出词筛选结果中包含的所有最小单位词,获得词筛选标记线程;
将词筛选标记线程输入至预设分段模型,获得目标检索范围内的所有分段数据。
优选的,基于知识图谱的非结构化数据检索方法,S2:基于数据预测模型对所有合格分段数据进行数据补全,获得目标检索范围内的预选择数据,包括:
在完整词序列中标记出所有合格分段数据中包含的最小单位词,获得合格分段数据标记线程;
将合格分段数据标记线程输入至预设缺失数据位置识别模型,获得合格分段数据标记线程中的缺失数据位置;
将与每个缺失数据位置相邻的合格分段数据,输入至数据预测模型,获得每个缺失数据位置的补充数据;
基于合格分段数据标记线程中的所有缺失数据位置,将所有补充数据补充至所有合格分段数据中,获得目标检索范围内的预选择数据。
优选的,基于知识图谱的非结构化数据检索方法,S3:基于预选择数据中的所有编码向量,对预选择数据进行实体识别,获得所有实体词,并确定出每对实体词之间的关系数据的二进制编码向量,包括:
对预选择数据进行分词处理,获得预选择数据中的所有词;
基于BERT,生成预选择数据中所有词的词向量,作为预选择数据中的所有编码向量;
将预选择数据和对应的的所有编码向量输入至预设实体识别模型,获得所有实体词;
确定出所有实体词之间的关系数据,并对每对实体词之间的关系数据进行独热编码,获得每对实体词之间的关系数据的二进制编码向量。
优选的,基于知识图谱的非结构化数据检索方法,S4:基于所有实体词以及每对实体词之间的关系数据的二进制编码向量,搭建出非结构化数据知识图谱,包括:
将所有实体词映射至知识图谱中的实体节点中,并将每对实体词之间的关系数据的二进制编码向量标记至对应对实体词之间的连接线,获得非结构化数据知识图谱。
优选的,基于知识图谱的非结构化数据检索方法,S5:基于用户输入的检索命令和非结构化数据知识图谱,获得非结构化数据检索结果,包括:
对用户输入的检索命令进行语义解析,并基于预设检索机制,确定出直接检索结果;
基于直接检索结果,在非结构化数据知识图谱中确定出至少一个直接检索实体词;
基于检索广度,在非结构化数据知识图谱中确定出每个直接检索目标实体词的关联检索实体词,并确定出所有直接检索实体词和对应的所有关联检索实体词之间的关系数据,在非结构化数据知识图谱中对应的二进制编码向量,作为目标检索二进制编码向量;
基于所有直接检索实体词和所有关联检索实体词以及所有目标检索二进制编码向量,获得非结构化数据检索结果。
本发明提供一种基于知识图谱的非结构化数据检索系统,用于执行实施例1至9中任一一种所述的基于知识图谱的非结构化数据检索方法,包括:
评估及筛选模块,用于对目标检索范围内的非结构化数据进行预处理和数据评估,并基于数据评估结果在所有分段数据中筛选出所有合格分段数据;
数据补全模块,用于基于数据预测模型对所有合格分段数据进行数据补全,获得目标检索范围内的预选择数据;
实体及关系识别模块,用于基于预选择数据中的所有编码向量,对预选择数据进行实体识别,获得所有实体词,并确定出每对实体词之间的关系数据的二进制编码向量;
知识图谱搭建模块,用于基于所有实体词以及每对实体词之间的关系数据的二进制编码向量,搭建出非结构化数据知识图谱;
数据检索模块,用于基于用户输入的检索命令和非结构化数据知识图谱,获得非结构化数据检索结果。
本发明相对于现有技术产生的有益效果为:将知识图谱技术与非结构化数据管理服务深度融合,通过对非结构化数据的预处理、数据评估、数据补全、实体识别及知识图谱的搭建,将非结构化数据通过新的方式进行组织表示,并利用搭建出的非结构化数据知识图谱进行关联索引,大大提高了非结构化数据的检索效率和检索准确度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在本申请文件中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中的基于知识图谱的非结构化数据检索方法流程图;
图2为本发明实施例中的基于知识图谱的非结构化数据检索系统示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
本发明提供了一种基于知识图谱的非结构化数据检索方法,参考图1,包括:
S1:对目标检索范围内的非结构化数据进行预处理和数据评估,并基于数据评估结果在所有分段数据中筛选出所有合格分段数据;
S2:基于数据预测模型对所有合格分段数据进行数据补全,获得目标检索范围内的预选择数据;
S3:基于预选择数据中的所有编码向量,对预选择数据进行实体识别,获得所有实体词,并确定出每对实体词之间的关系数据的二进制编码向量;
S4:基于所有实体词以及每对实体词之间的关系数据的二进制编码向量,搭建出非结构化数据知识图谱;
S5:基于用户输入的检索命令和非结构化数据知识图谱,获得非结构化数据检索结果。
该实施例中,目标检索范围为用户设定的非结构化数据的检索范围,例如:知网数据库,或者邮件引擎中的所有邮件数据。
该实施例中,非结构化数据,例如为目标检索范围内的电子邮件、演示文稿、日志等。
该实施例中,预处理包括清洗和分段。
该实施例中,数据评估采用预设数据评估模型实现,目的是为了评估数据的类别、主题的复杂性和均衡性等。
该实施例中,数据评估结果为每个分段数据的评估值。
该实施例中,分段数据为对目标检索范围内的非结构化数据进行清洗和分段后获得的数据段。
该实施例中,合格分段数据为评估值不小于评估阈值的分段数据。
该实施例中,数据预测模型为预先利用包含与每个缺失数据位置相邻的合格分段数据和对应缺失数据位置的补充数据的大量训练样本,训练获得的模型,在训练过程中将与每个缺失数据位置相邻的合格分段数据作为模型输入量,并将对应缺失数据位置的补充数据作为模型输出量进行训练的,且该数据预测模型可以基于输入的与每个缺失数据位置向量的合格分段数据,确定出对应缺失数据位置的补充数据。
该实施例中,编码向量为利用BERT(Bidirectional Encoder Representationsfrom Transformers,预训练的语言表征模型)生成的预选择数据中的所有词的词向量。
该实施例中,实体识别为识别出预选择数据中的所有实体对象(即实体词)的过程。
该实施例中,实体词为预选择数据中为实体对象的词。
该实施例中,关系数据为表示实体词之间的关系的数据,例如两个人的名字都属于发件人名字。
该实施例中,二进制编码向量为对关系数据进行独热编码后获得的二进制的向量。
该实施例中,非结构化数据知识图谱用于表示非结构化数据(中的实体对象及其之间的关系数据)的知识图谱。
该实施例中,检索命令为用户输入的表示用户检索目的的语义命令。
该实施例中,非结构化数据检索结果为利用该实施例中的基于知识图谱的非结构化数据检索方法检索出的包含非结构化数据的结果。
以上技术的有益效果为:将知识图谱技术与非结构化数据管理服务深度融合,通过对非结构化数据的预处理、数据评估、数据补全、实体识别及知识图谱的搭建,将非结构化数据通过新的方式进行组织表示,并利用搭建出的非结构化数据知识图谱进行关联索引,大大提高了非结构化数据的检索效率和检索准确度。
实施例2:
在实施例1的基础上,基于知识图谱的非结构化数据检索方法,S1:对目标检索范围内的非结构化数据进行预处理和数据评估,并基于数据评估结果在所有分段数据中筛选出所有合格分段数据,包括:
S101:对目标检索范围内的非结构化数据进行清洗和分段,获得目标检索范围内的所有分段数据;
S102:基于预设数据评估模型,对目标检索范围内的所有分段数据进行数据评估,获得每个分段数据的评估值;
S103:在所有分段数据中筛选出评估值不小于评估阈值的所有分段数据,作为所有合格分段数据。
该实施例中,预设数据评估模型为预先利用不同分段数据和对应的人工评估值作为训练样本训练获得的模型,在训练过程中将分段数据作为模型输入量,并将人工评估值作为模型输出量,且该预设数据评估模型可以对输入的分段数据进行数据评估,获得近似于或相等于人工评估值的评估值。
该实施例中,基于预设数据评估模型,对目标检索范围内的所有分段数据进行数据评估,获得每个分段数据的评估值,为:
将目标检索范围内的所有分段数据输入至预设数据评估模型,获得每个分段数据的评估值。
该实施例中,评估值基于预设数据评估模型获得的近似于或相等于人工评估值的评估值,人工评估值为人工对该分段数据进行评估获得的评估值。
该实施例中,评估阈值为预设的用于筛选出合格分段数据的评估值的阈值。
以上技术的有益效果为:细化了实现对非结构化数据的预处理包括清洗和分段,并基于预设数据评估模型实现对分段数据的评估,并基于评估结果筛选出合格分段数据。
实施例3:
在实施例2的基础上,基于知识图谱的非结构化数据检索方法,S101:对目标检索范围内的非结构化数据进行清洗和分段,获得目标检索范围内的所有分段数据,包括:
对目标检索范围内的非结构化数据进行文本转换,获得目标检索范围内的所有文本内容;
基于预设词典对目标检索范围内的文本内容进行最细划分,获得目标检索范围内的所有最小单位词;
基于每个最小单位词的词性的预设权重和词义的预设权重,计算出每个最小单位词的自身评估值,包括:
式中,为最小单位词的自身评估值,/>为最小单位词的词性的预设权重,/>为最小单位词的词义的预设权重,/>为自然对数,且自然常数/>的取值为2.718;
基于目标检索范围内的所有最小单位词的自身评估值,对目标检索范围内的所有最小单位词进行筛选,获得词筛选结果;
对词筛选结果进行分段,获得目标检索范围内的所有分段数据。
该实施例中,文本转换为将可进行文本转换的数据转换为预设格式,例如将阿拉伯数字转换为中文写法的数字,例如将“21”转换为“二十一”。
该实施例中,预设词典为预先准备的包含不同划分细度的词的词典。
该实施例中,最细划分为:将文本内容中包含的预设词典中包含的最小划分细度的词的前后作为划分界限,基于划分界限对目标检索范围内的文本内容进行最细划分,获得目标检索范围内的所有最小单位词。
该实施例中,最小单位词为对文本内容进行最细划分后获得的词。
该实施例中,不同词性对应有不同的预设权重,且名词、动词、形容词、副词的预设权重依次减小。
该实施例中,不同词义对应有不同的预设权重,该预设权重依据词义重要性确定,词义越重要,则对应的预设权重越大,也可人为设定不同词义的预设权重。
该实施例中,自身评估值是对最小单位词从词性和词义的重要程度的角度评估出的表示对应最小单位词的重要程度的数值。
该实施例中,词筛选结果中包含多个最小单位词。
以上技术的有益效果为:实现对非结构化数据的文本转换和最细划分,并基于公式实现对目标检索范围内最细划分获得的最小单位词的精准评估,并基于评估获得的自身评估值,实现对最小单位词的筛选,实现了对非结构化数据的精准去噪,并进一步地完成了对词筛选结果的分段。
实施例4:
在实施例3的基础上,基于知识图谱的非结构化数据检索方法,基于目标检索范围内的所有最小单位词的自身评估值,对目标检索范围内的所有最小单位词进行筛选,获得词筛选结果,包括:
按照自身评估值从小到大的顺序,对目标检索范围内的所有最小单位词进行排序,获得词序列和每个最小单位词的词排序值;
基于每个最小单位词的词排序值和自身评估值,计算出每个最小单位词的筛选权重,包括:
式中,为最小单位词的筛选权重,/>为最小单位词的词排序值,/>为词序列中的最大词排序值,/>为最小单位词的自身评估值,/>为最小单位词在词序列中的相邻前一最小单位词的自身评估值,/>为最小单位词在词序列中的相邻后一最小单位词的自身评估值,其中,若当前计算的最小单位词为词序列中的第一个最小单位词,则将/>的取值设为0,若当前计算的最小单位词为词序列中的最后一个最小单位词,则将/>的取值设为1;
将目标检索范围内的所有最小单位词中,筛选权重不小于权重阈值的最小单位词汇总,当作词筛选结果。
该实施例中,词排序值为最小单位词在词序列中的排序序数。
该实施例中,筛选权重是从最小单位词的自身评估值的角度,计算出的表示单个最小单位词在目标检索范围内的所有最小单位词中的相对重要程度的数值。
该实施例中,权重阈值为预设的用于筛选出最后参与分段过程的最小单位词时所参考的筛选权重的阈值,也是为了对非结构化数据的去噪。
以上技术的有益效果为:利用基于自身评估值对目标检索范围内的所有最小单位词的排序以及自身评估值,精准计算出最小单位词的筛选权重,并结合权重阈值,实现对非结构化数据的精准去噪。
实施例5:
在实施例3的基础上,基于知识图谱的非结构化数据检索方法,对词筛选结果进行分段,获得目标检索范围内的所有分段数据,包括:
基于出现顺序对目标检索范围内的所有最小单位词进行排序,获得完整词序列,并在完整词序列中标记出词筛选结果中包含的所有最小单位词,获得词筛选标记线程;
将词筛选标记线程输入至预设分段模型,获得目标检索范围内的所有分段数据。
该实施例中,每个最小单位词在词筛选标记线程中的线程段长度都相同。
该实施例中,预设分段模型为预先利用包含词筛选标记线程和对应的人工分段数据的训练样本训练获得的模型,在训练过程中将词筛选标记线程当作模型输入量,并将对应的人工分段数据当作模型输出量进行训练,该预设分段模型可以基于输入的词筛选标记线程,获得对应完整词序列的类似于或相等于人工分段结果的所有分段数据,其中,人工分段结果为人工基于词筛选标记线程划分出的所有分段数据。
以上技术的有益效果为:通过将词筛选结果在目标检索范围内的最小单位词的完整词序列中进行标记,并结合预设分段模型,实现对词筛选结果的精准分段。
实施例6:
在实施例1的基础上,基于知识图谱的非结构化数据检索方法,S2:基于数据预测模型对所有合格分段数据进行数据补全,获得目标检索范围内的预选择数据,包括:
在完整词序列中标记出所有合格分段数据中包含的最小单位词,获得合格分段数据标记线程;
将合格分段数据标记线程输入至预设缺失数据位置识别模型,获得合格分段数据标记线程中的缺失数据位置;
将与每个缺失数据位置相邻的合格分段数据,输入至数据预测模型,获得每个缺失数据位置的补充数据;
基于合格分段数据标记线程中的所有缺失数据位置,将所有补充数据补充至所有合格分段数据中,获得目标检索范围内的预选择数据。
该实施例中,每个最小单位词在合格分段数据标记线程中的线程段长度都相同。
该实施例中,预设缺失数据位置识别模型为预先利用包含合格分段数据标记线程和人工标记出的对应的缺失数据位置的训练样本,训练获得的模型,在训练过程中将合格分段数据标记线程当作模型输入量,并将人工标记出的对应的缺失数据位置当作模型输出量进行训练,该预设缺失数据位置识别模型可以识别出输入的合格分段数据标记线程中的(近似于或相等于人工标记的)缺失数据位置。
该实施例中,缺失数据位置为合格分段数据中需要进行数据补充的数据间位置,例如邮件正文中的缺失文本内容。
该实施例中,补充数据为需要补充至对应缺失数据位置的数据。
以上技术的有益效果为:将所有合格分段数据标记在完整词序列中,获得合格分段数据标记线程,并进一步结合预设缺失数据位置识别模型,实现对所有合格分段数据中的缺失数据位置的精准识别,再进一步地,基于数据预测模型实现对待补充数据的精准预测,基于上述过程实现对所有合格分段数据的数据补充。
实施例7:
在实施例1的基础上,基于知识图谱的非结构化数据检索方法,S3:基于预选择数据中的所有编码向量,对预选择数据进行实体识别,获得所有实体词,并确定出每对实体词之间的关系数据的二进制编码向量,包括:
对预选择数据进行分词处理,获得预选择数据中的所有词;
基于BERT,生成预选择数据中所有词的词向量,作为预选择数据中的所有编码向量;
将预选择数据和对应的的所有编码向量输入至预设实体识别模型,获得所有实体词;
确定出所有实体词之间的关系数据,并对每对实体词之间的关系数据进行独热编码,获得每对实体词之间的关系数据的二进制编码向量。
该实施例中,分词处理例如可以采用NLP分词算法完成。
该实施例中,预设实体识别模型为预先利用包含被人工标记出所有包含的实体词的数据片段和该数据片段的所有编码向量的训练样本进行模型训练后,获得的模型,在训练过程中将该数据片段和对应的所有编码向量当作模型输入量,并将人工标记出的该数据片段中的实体词当作模型输出量进行训练的,该预设实体识别模型可以利用输入的数据片段和对应的所有编码向量,确定出该数据片段中的所有实体词。
该实施例中,确定出所有实体词之间的关系数据可以利用现有的共现分析,对同时出现该两个实体词的所有数据片段中进行共性分析,获得其二者关系的共性信息。
该实施例中,对每对实体词之间的关系数据进行独热编码,获得每对实体词之间的关系数据的二进制编码向量。
以上技术的有益效果为:利用预设实体识别模型和独热编码方法实现对预选择数据中包含的所有实体词的精准识别 ,并实现对实体词之间的关系数据的编码。
实施例8:
在实施例1的基础上,基于知识图谱的非结构化数据检索方法,S4:基于所有实体词以及每对实体词之间的关系数据的二进制编码向量,搭建出非结构化数据知识图谱,包括:
将所有实体词映射至知识图谱中的实体节点中,并将每对实体词之间的关系数据的二进制编码向量标记至对应对实体词之间的连接线,获得非结构化数据知识图谱。
以上技术的有益效果为:完成了非结构化数据知识图谱的搭建。
实施例9:
在实施例1的基础上,基于知识图谱的非结构化数据检索方法,S5:基于用户输入的检索命令和非结构化数据知识图谱,获得非结构化数据检索结果,包括:
对用户输入的检索命令进行语义解析,并基于预设检索机制,确定出直接检索结果;
基于直接检索结果,在非结构化数据知识图谱中确定出至少一个直接检索实体词;
基于检索广度,在非结构化数据知识图谱中确定出每个直接检索目标实体词的关联检索实体词,并确定出所有直接检索实体词和对应的所有关联检索实体词之间的关系数据,在非结构化数据知识图谱中对应的二进制编码向量,作为目标检索二进制编码向量;
基于所有直接检索实体词和所有关联检索实体词以及所有目标检索二进制编码向量,获得非结构化数据检索结果。
该实施例中,语义解析可以采用现有技术中的基于上下文的语义解析算法。
该实施例中,预设检索机制可以采用现有的搜索引擎,例如谷歌搜索引擎中的搜索极值。
该实施例中,直接检索结果为利用预设检索机制筛选出的预设范围内的结果,例如基于谷歌搜索引擎检索出的第一条检索结果。
该实施例中,直接检索实体词为非结构化知识图谱和直接检索结果中都包含的词。
该实施例中,检索广度即为在非结构化数据知识图谱中关联检索时的关联次数,当检索广度为2,则将与直接检索实体词直接相连的实体词L1、以及与直接检索实体词直接相连的实体词L1直接连接的实体词L2都当作该直接检索实体词的关联检索实体词。
该实施例中,关联检索实体词为基于检索广度在非结构化数据知识图谱中确定出的与直接检索实体词直接相连(和间接相连)的实体词。
该实施例中,基于所有直接检索实体词和所有关联检索实体词以及所有目标检索二进制编码向量,获得非结构化数据检索结果;
将包含任一直接检索实体词、关联检索实体词、目标检索二进制编码向量对应的关系数据的数据片段,都当作非结构化数据检索结果。
以上技术的有益效果为:实现了对用户输入的检索命令的语义机械,并限定了基于预设检索机制和检索广度,确定出符合用户检索要求的检索体系,为用户的检索过程提供了不同精细程度的选择,也给出了一种基于非结构化数据知识图谱检索出符合用户要求的数据的方法。
实施例10:
本发明提供了一种基于知识图谱的非结构化数据检索系统,用于执行实施例1至9中任一一种所述的基于知识图谱的非结构化数据检索方法,参考图2,包括:
评估及筛选模块,用于对目标检索范围内的非结构化数据进行预处理和数据评估,并基于数据评估结果在所有分段数据中筛选出所有合格分段数据;
数据补全模块,用于基于数据预测模型对所有合格分段数据进行数据补全,获得目标检索范围内的预选择数据;
实体及关系识别模块,用于基于预选择数据中的所有编码向量,对预选择数据进行实体识别,获得所有实体词,并确定出每对实体词之间的关系数据的二进制编码向量;
知识图谱搭建模块,用于基于所有实体词以及每对实体词之间的关系数据的二进制编码向量,搭建出非结构化数据知识图谱;
数据检索模块,用于基于用户输入的检索命令和非结构化数据知识图谱,获得非结构化数据检索结果。
以上技术的有益效果为:将知识图谱技术与非结构化数据管理服务深度融合,通过对非结构化数据的预处理、数据评估、数据补全、实体识别及知识图谱的搭建,将非结构化数据通过新的方式进行组织表示,并利用搭建出的非结构化数据知识图谱进行关联索引,大大提高了非结构化数据的检索效率和检索准确度。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于知识图谱的非结构化数据检索方法,其特征在于,包括:
S1:对目标检索范围内的非结构化数据进行预处理和数据评估,并基于数据评估结果在所有分段数据中筛选出所有合格分段数据;
S2:基于数据预测模型对所有合格分段数据进行数据补全,获得目标检索范围内的预选择数据;
S3:基于预选择数据中的所有编码向量,对预选择数据进行实体识别,获得所有实体词,并确定出每对实体词之间的关系数据的二进制编码向量;
S4:基于所有实体词以及每对实体词之间的关系数据的二进制编码向量,搭建出非结构化数据知识图谱;
S5:基于用户输入的检索命令和非结构化数据知识图谱,获得非结构化数据检索结果。
2.根据权利要求1所述的基于知识图谱的非结构化数据检索方法,其特征在于,S1:对目标检索范围内的非结构化数据进行预处理和数据评估,并基于数据评估结果在所有分段数据中筛选出所有合格分段数据,包括:
S101:对目标检索范围内的非结构化数据进行清洗和分段,获得目标检索范围内的所有分段数据;
S102:基于预设数据评估模型,对目标检索范围内的所有分段数据进行数据评估,获得每个分段数据的评估值;
S103:在所有分段数据中筛选出评估值不小于评估阈值的所有分段数据,作为所有合格分段数据。
3.根据权利要求2所述的基于知识图谱的非结构化数据检索方法,其特征在于,S101:对目标检索范围内的非结构化数据进行清洗和分段,获得目标检索范围内的所有分段数据,包括:
对目标检索范围内的非结构化数据进行文本转换,获得目标检索范围内的所有文本内容;
基于预设词典对目标检索范围内的文本内容进行最细划分,获得目标检索范围内的所有最小单位词;
基于每个最小单位词的词性的预设权重和词义的预设权重,计算出每个最小单位词的自身评估值,包括:
式中,为最小单位词的自身评估值,/>为最小单位词的词性的预设权重,/>为最小单位词的词义的预设权重,/>为自然对数,且自然常数e的取值为2.718;
基于目标检索范围内的所有最小单位词的自身评估值,对目标检索范围内的所有最小单位词进行筛选,获得词筛选结果;
对词筛选结果进行分段,获得目标检索范围内的所有分段数据。
4.根据权利要求3所述的基于知识图谱的非结构化数据检索方法,其特征在于,基于目标检索范围内的所有最小单位词的自身评估值,对目标检索范围内的所有最小单位词进行筛选,获得词筛选结果,包括:
按照自身评估值从小到大的顺序,对目标检索范围内的所有最小单位词进行排序,获得词序列和每个最小单位词的词排序值;
基于每个最小单位词的词排序值和自身评估值,计算出每个最小单位词的筛选权重,包括:
式中,为最小单位词的筛选权重,/>为最小单位词的词排序值,/>为词序列中的最大词排序值,/>为最小单位词的自身评估值,/>为最小单位词在词序列中的相邻前一最小单位词的自身评估值,/>为最小单位词在词序列中的相邻后一最小单位词的自身评估值,其中,若当前计算的最小单位词为词序列中的第一个最小单位词,则将/>的取值设为0,若当前计算的最小单位词为词序列中的最后一个最小单位词,则将/>的取值设为1;
将目标检索范围内的所有最小单位词中,筛选权重不小于权重阈值的最小单位词汇总,当作词筛选结果。
5.根据权利要求3所述的基于知识图谱的非结构化数据检索方法,其特征在于,对词筛选结果进行分段,获得目标检索范围内的所有分段数据,包括:
基于出现顺序对目标检索范围内的所有最小单位词进行排序,获得完整词序列,并在完整词序列中标记出词筛选结果中包含的所有最小单位词,获得词筛选标记线程;
将词筛选标记线程输入至预设分段模型,获得目标检索范围内的所有分段数据。
6.根据权利要求1所述的基于知识图谱的非结构化数据检索方法,其特征在于,S2:基于数据预测模型对所有合格分段数据进行数据补全,获得目标检索范围内的预选择数据,包括:
在完整词序列中标记出所有合格分段数据中包含的最小单位词,获得合格分段数据标记线程;
将合格分段数据标记线程输入至预设缺失数据位置识别模型,获得合格分段数据标记线程中的缺失数据位置;
将与每个缺失数据位置相邻的合格分段数据,输入至数据预测模型,获得每个缺失数据位置的补充数据;
基于合格分段数据标记线程中的所有缺失数据位置,将所有补充数据补充至所有合格分段数据中,获得目标检索范围内的预选择数据。
7.根据权利要求1所述的基于知识图谱的非结构化数据检索方法,其特征在于,S3:基于预选择数据中的所有编码向量,对预选择数据进行实体识别,获得所有实体词,并确定出每对实体词之间的关系数据的二进制编码向量,包括:
对预选择数据进行分词处理,获得预选择数据中的所有词;
基于BERT,生成预选择数据中所有词的词向量,作为预选择数据中的所有编码向量;
将预选择数据和对应的的所有编码向量输入至预设实体识别模型,获得所有实体词;
确定出所有实体词之间的关系数据,并对每对实体词之间的关系数据进行独热编码,获得每对实体词之间的关系数据的二进制编码向量。
8.根据权利要求1所述的基于知识图谱的非结构化数据检索方法,其特征在于,S4:基于所有实体词以及每对实体词之间的关系数据的二进制编码向量,搭建出非结构化数据知识图谱,包括:
将所有实体词映射至知识图谱中的实体节点中,并将每对实体词之间的关系数据的二进制编码向量标记至对应对实体词之间的连接线,获得非结构化数据知识图谱。
9.根据权利要求1所述的基于知识图谱的非结构化数据检索方法,其特征在于,S5:基于用户输入的检索命令和非结构化数据知识图谱,获得非结构化数据检索结果,包括:
对用户输入的检索命令进行语义解析,并基于预设检索机制,确定出直接检索结果;
基于直接检索结果,在非结构化数据知识图谱中确定出至少一个直接检索实体词;
基于检索广度,在非结构化数据知识图谱中确定出每个直接检索目标实体词的关联检索实体词,并确定出所有直接检索实体词和对应的所有关联检索实体词之间的关系数据,在非结构化数据知识图谱中对应的二进制编码向量,作为目标检索二进制编码向量;
基于所有直接检索实体词和所有关联检索实体词以及所有目标检索二进制编码向量,获得非结构化数据检索结果。
10.一种基于知识图谱的非结构化数据检索系统,其特征在于,用于执行权利要求1至9中任一一种所述的基于知识图谱的非结构化数据检索方法,包括:
评估及筛选模块,用于对目标检索范围内的非结构化数据进行预处理和数据评估,并基于数据评估结果在所有分段数据中筛选出所有合格分段数据;
数据补全模块,用于基于数据预测模型对所有合格分段数据进行数据补全,获得目标检索范围内的预选择数据;
实体及关系识别模块,用于基于预选择数据中的所有编码向量,对预选择数据进行实体识别,获得所有实体词,并确定出每对实体词之间的关系数据的二进制编码向量;
知识图谱搭建模块,用于基于所有实体词以及每对实体词之间的关系数据的二进制编码向量,搭建出非结构化数据知识图谱;
数据检索模块,用于基于用户输入的检索命令和非结构化数据知识图谱,获得非结构化数据检索结果。
CN202410224168.4A 2024-02-29 2024-02-29 一种基于知识图谱的非结构化数据检索方法及系统 Active CN117807191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410224168.4A CN117807191B (zh) 2024-02-29 2024-02-29 一种基于知识图谱的非结构化数据检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410224168.4A CN117807191B (zh) 2024-02-29 2024-02-29 一种基于知识图谱的非结构化数据检索方法及系统

Publications (2)

Publication Number Publication Date
CN117807191A true CN117807191A (zh) 2024-04-02
CN117807191B CN117807191B (zh) 2024-05-24

Family

ID=90431891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410224168.4A Active CN117807191B (zh) 2024-02-29 2024-02-29 一种基于知识图谱的非结构化数据检索方法及系统

Country Status (1)

Country Link
CN (1) CN117807191B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800244A (zh) * 2021-02-06 2021-05-14 成都中医药大学 一种中医药及民族医药知识图谱的构建方法
CN113407660A (zh) * 2021-08-16 2021-09-17 中国科学院自动化研究所 非结构化文本事件抽取方法
WO2021184311A1 (zh) * 2020-03-19 2021-09-23 中山大学 一种自动生成可推理问答的方法和装置
KR20220074576A (ko) * 2020-11-27 2022-06-03 주식회사 데이터마케팅코리아 마케팅 지식 그래프 구축을 위한 딥러닝 기반 신조어 추출 방법 및 그 장치
WO2022142027A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 基于知识图谱的模糊匹配方法、装置、计算机设备和存储介质
US20220292262A1 (en) * 2021-03-10 2022-09-15 At&T Intellectual Property I, L.P. System and method for hybrid question answering over knowledge graph
CN115640378A (zh) * 2022-09-27 2023-01-24 中国建设银行股份有限公司 工单检索方法、服务器、介质及产品
CN116049422A (zh) * 2022-12-07 2023-05-02 安徽大学 基于联合抽取模型的包虫病知识图谱构建方法及其应用

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021184311A1 (zh) * 2020-03-19 2021-09-23 中山大学 一种自动生成可推理问答的方法和装置
KR20220074576A (ko) * 2020-11-27 2022-06-03 주식회사 데이터마케팅코리아 마케팅 지식 그래프 구축을 위한 딥러닝 기반 신조어 추출 방법 및 그 장치
WO2022142027A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 基于知识图谱的模糊匹配方法、装置、计算机设备和存储介质
CN112800244A (zh) * 2021-02-06 2021-05-14 成都中医药大学 一种中医药及民族医药知识图谱的构建方法
US20220292262A1 (en) * 2021-03-10 2022-09-15 At&T Intellectual Property I, L.P. System and method for hybrid question answering over knowledge graph
CN113407660A (zh) * 2021-08-16 2021-09-17 中国科学院自动化研究所 非结构化文本事件抽取方法
CN115640378A (zh) * 2022-09-27 2023-01-24 中国建设银行股份有限公司 工单检索方法、服务器、介质及产品
CN116049422A (zh) * 2022-12-07 2023-05-02 安徽大学 基于联合抽取模型的包虫病知识图谱构建方法及其应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨荣;翟社平;王志文;: "基于知识图谱的信息查询系统设计与实现", 计算机与数字工程, no. 04, 20 April 2020 (2020-04-20), pages 867 - 871 *

Also Published As

Publication number Publication date
CN117807191B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
CN110059311B (zh) 一种面向司法文本数据的关键词提取方法及系统
CN109145260B (zh) 一种文本信息自动提取方法
CN109960724A (zh) 一种基于tf-idf的文本摘要方法
CN107102993B (zh) 一种用户诉求分析方法和装置
CN105426514A (zh) 个性化的移动应用app推荐方法
CN112015721A (zh) 一种基于大数据的电商平台存储数据库的优化方法
CN111241410B (zh) 一种行业新闻推荐方法及终端
CN110741376A (zh) 用于不同自然语言的自动文档分析
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN105389303B (zh) 一种异源语料自动融合方法
CN109446393B (zh) 一种网络社区话题分类方法及装置
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
CN109062895A (zh) 一种智能语义处理方法
CN110688863A (zh) 一种文档翻译系统及文档翻译方法
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN112818110A (zh) 文本过滤方法、设备及计算机存储介质
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
Hase Automated content analysis
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
CN117216275A (zh) 一种文本处理方法、装置、设备以及存储介质
CN113032573A (zh) 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统
CN112861956A (zh) 基于数据分析的水污染模型构建方法
CN117807191B (zh) 一种基于知识图谱的非结构化数据检索方法及系统
CN103019924B (zh) 输入法智能性评测系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant