CN115169322A - 基于知识图谱的自然语言数据挖掘语句求解方法及装置 - Google Patents

基于知识图谱的自然语言数据挖掘语句求解方法及装置 Download PDF

Info

Publication number
CN115169322A
CN115169322A CN202210850091.2A CN202210850091A CN115169322A CN 115169322 A CN115169322 A CN 115169322A CN 202210850091 A CN202210850091 A CN 202210850091A CN 115169322 A CN115169322 A CN 115169322A
Authority
CN
China
Prior art keywords
data mining
solving
graph
matched
subgraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210850091.2A
Other languages
English (en)
Inventor
温凯雯
吕仲琪
顾正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huayun Zhongsheng Technology Co ltd
Original Assignee
Shenzhen Huayun Zhongsheng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huayun Zhongsheng Technology Co ltd filed Critical Shenzhen Huayun Zhongsheng Technology Co ltd
Priority to CN202210850091.2A priority Critical patent/CN115169322A/zh
Publication of CN115169322A publication Critical patent/CN115169322A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种基于知识图谱的自然语言数据挖掘语句求解方法及装置,方法包括:构建数据挖掘流程知识图谱;对接收到的自然语言描述的数据挖掘语句进行自然语言处理,以提取出问题本体和问题本体关系;对问题本体和问题本体关系进行标准化处理,以得到标准化的待匹配子图;将待匹配子图与构建的数据挖掘流程知识图谱进行相似子图匹配,以得到求解子图和待匹配子图与求解子图之间的问题本体映射关系;根据求解子图获取其关联的数据挖掘求解抽象流程;将待匹配子图中标准化后的问题本体节点对应的内容映射为数据挖掘求解抽象流程的输入参数,并执行求解流程,以得到输出结果。本发明大大降低了大数据挖掘技术的使用口槛。

Description

基于知识图谱的自然语言数据挖掘语句求解方法及装置
技术领域
本发明涉及数据挖掘技术领域,更具体地说是一种基于知识图谱的自然语言数据挖掘语句求解方法及装置。
背景技术
在技术研发上,数据挖掘是从数据中发现有用知识的过程。它广泛应用于银行、金融、保险、零售、物流、电子商务、科学研究、生物、医学、农业等行业的决策分析中。信息化时代,数据的规模不断增大,对海量数据进行挖掘的需求会越來越普遍,准确、高效地从中蹄选出有用的知识已成为急需解决的问题,同时数据的异构性也使海量数据处理的难度增大。
目前市场上数据挖掘方式主要包括:1、传统数据挖掘平台:由了解数据和业务情况的业务人员提出数据挖掘需求,技术人员在理解需求后,编程实现数据挖掘,输出挖掘结果。技术人员由于不了解业务,实现的功能可能实用性不强。另外业务人员每次有新的想法,需要交给技术人员实现,无法快速试验和获得结果。2、可视化BI工具:侧重于可视化,且需要学习BI工具编程的语法或操作方法,要求使用者了解大数据挖掘领域专业知识。但无法解决复杂问题,对于维度较多的数据无法分析。
发明内容
本发明的目的在于克服现有技术的不足,提供基于知识图谱的自然语言数据挖掘语句求解方法及装置,实现了为服务使用者屏蔽大数据挖掘领域高深的专业知识、简化复杂的领域服务流程建模,大大降低了大数据挖掘技术的使用口槛,推动了大挖掘技术在各行业决策处理方面的应用。
为实现上述目的,本发明采用以下技术方案:
第一方面,基于知识图谱的自然语言数据挖掘语句求解方法,包括:
构建数据挖掘流程知识图谱;
对接收到的自然语言描述的数据挖掘语句进行自然语言处理,以提取出问题本体和问题本体关系;
对问题本体和问题本体关系进行标准化处理,以得到标准化的待匹配子图;
将待匹配子图与构建的数据挖掘流程知识图谱进行相似子图匹配,以得到求解子图和待匹配子图与求解子图之间的问题本体映射关系;
根据求解子图获取其关联的数据挖掘求解抽象流程;
将待匹配子图中标准化后的问题本体节点对应的内容映射为数据挖掘求解抽象流程的输入参数,并执行求解流程,以得到输出结果。
其进一步技术方案为:所述构建数据挖掘流程知识图谱,包括:
将数据挖掘方法抽象成单个求解函数或多个求解函数的求解流程扭转。
其进一步技术方案为:所述对问题本体和问题本体关系进行标准化处理,以得到标准化的待匹配子图,包括:
通过语言模型将问题本体映射为表示矩阵;
将表示矩阵与数据挖掘流程知识图谱中的问题本体表示矩阵做相似度计算,以得到相似度结果;
将相似度结果中高于设定阈值的问题本体设定为标准化后的问题本体;
以标准化后的问题本体为节点和问题本体关系为边构造成标准化的待匹配子图。
其进一步技术方案为:所述将待匹配子图中标准化后的问题本体节点对应的内容映射为数据挖掘求解抽象流程的输入参数,并执行求解流程,以得到输出结果之前,还包括:
判断求解子图中的问题本体是否未全部匹配成功;
若全部匹配成功,则执行所述将待匹配子图中标准化后的问题本体节点对应的内容映射为数据挖掘求解抽象流程的输入参数,并执行求解流程,以得到输出结果。
第二方面,基于知识图谱的自然语言数据挖掘语句求解装置,包括构建单元、提取单元、标准化处理单元、匹配单元、获取单元以及执行单元;
所述构建单元,用于构建数据挖掘流程知识图谱;
所述提取单元,用于对接收到的自然语言描述的数据挖掘语句进行自然语言处理,以提取出问题本体和问题本体关系;
所述标准化处理单元,用于对问题本体和问题本体关系进行标准化处理,以得到标准化的待匹配子图;
所述匹配单元,用于将待匹配子图与构建的数据挖掘流程知识图谱进行相似子图匹配,以得到求解子图和待匹配子图与求解子图之间的问题本体映射关系;
所述获取单元,用于根据求解子图获取其关联的数据挖掘求解抽象流程;
所述执行单元,用于将待匹配子图中标准化后的问题本体节点对应的内容映射为数据挖掘求解抽象流程的输入参数,并执行求解流程,以得到输出结果。
其进一步技术方案为:所述构建单元包括抽象处理模块;
所述抽象处理模块,用于将数据挖掘方法抽象成单个求解函数或多个求解函数的求解流程扭转。
其进一步技术方案为:所述标准化处理单元包括映射模块、计算模块、设定模块以及构造模块;
所述映射模块,用于通过语言模型将问题本体映射为表示矩阵;
所述计算模块,用于将表示矩阵与数据挖掘流程知识图谱中的问题本体表示矩阵做相似度计算,以得到相似度结果;
所述设定模块,用于将相似度结果中高于设定阈值的问题本体设定为标准化后的问题本体;
所述构造模块,用于以标准化后的问题本体为节点和问题本体关系为边构造成标准化的待匹配子图。
其进一步技术方案为:还包括判断单元;
所述判断单元,用于判断求解子图中的问题本体是否未全部匹配成功;若全部匹配成功,则执行所述将待匹配子图中标准化后的问题本体节点对应的内容映射为数据挖掘求解抽象流程的输入参数,并执行求解流程,以得到输出结果。
第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的基于知识图谱的自然语言数据挖掘语句求解方法步骤。
第四方面,一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,使得所述处理器执行如上述的基于知识图谱的自然语言数据挖掘语句求解方法步骤。
本发明与现有技术相比的有益效果是:本发明对自然语言描述的数据挖掘语句进行自然语言处理,以提取出问题本体和问题本体关系,然后对问题本体和问题本体关系进行标准化处理,以得到标准化的待匹配子图;将待匹配子图与构建的数据挖掘流程知识图谱进行相似子图匹配,以得到求解子图和待匹配子图与求解子图之间的问题本体映射关系;根据求解子图获取其关联的数据挖掘求解抽象流程;将待匹配子图中标准化后的问题本体节点对应的内容映射为数据挖掘求解抽象流程的输入参数,并执行求解流程,以得到输出结果。实现了为服务使用者屏蔽大数据挖掘领域高深的专业知识、简化复杂的领域服务流程建模,大大降低了大数据挖掘技术的使用口槛,推动了大挖掘技术在各行业决策处理方面的应用。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明技术手段,可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征及优点能够更明显易懂,以下特举较佳实施例,详细说明如下。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明具体实施例提供的基于知识图谱的自然语言数据挖掘语句求解方法的流程图;
图2为本发明具体实施例提供的基于知识图谱的自然语言数据挖掘语句求解装置的示意性框图;
图3为本发明具体实施例提供的一种计算机设备的示意性框图;
图4为本发明具体实施例提供的数据挖掘流程知识图谱构建的示意图;
图5为本发明具体实施例提供的房价预测数据挖掘流程知识图谱;
图6为本发明具体实施例提供的标准化待匹配子图构建的示意图;
图7为本发明具体实施例提供的标准化待匹配子图;
图8为本发明具体实施例提供的匹配到的求解子图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本发明实施例提供了一种基于知识图谱的自然语言数据挖掘语句求解方法,该方法应用在自然语言数据挖掘的场景中,以实现为服务使用者屏蔽大数据挖掘领域高深的专业知识、简化复杂的领域服务流程建模,降低大数据挖掘技术的使用口槛,推动了大挖掘技术在各行业决策处理方面的应用。下面通过具体实施例来介绍本发明。
一种基于知识图谱的自然语言数据挖掘语句求解方法,如图1所示,包括以下步骤:S10-S60。
S10、构建数据挖掘流程知识图谱。
在一实施例中,步骤S10具体包括以下步骤:S11。
S11、将数据挖掘方法抽象成单个求解函数或多个求解函数的求解流程扭转。
数据挖掘流程知识图谱是通过数据挖掘方法来构建的,常用的数据挖掘方法有相关性分析法、回归分析法、决策树法等,均可以抽象成单个求解函数或多个求解函数的求解流程扭转,其中多个函数求解扭转可以使用流程引擎配置扭转关系。因此一个数据挖掘方法,可以形成一个数据挖掘求解抽象流程。
其中每个求解流程有对应的输入参数和输出结果,我们将输入参数和输出结果作为问题本体;求解抽象流程,实际上是从求解参数流向输出结果的有向图,即问题本体关系。问题本和问题本体关系,可以形成有向无环图,命名为求解子图。
为了方便后续的标准化处理,提前将每个问题本体经过语言模型计算,映射成一个多维表示矩阵,存储在知识图谱里。
如图4所示,图4为数据挖掘流程知识图谱构建的示意图。
在本实施例中,如图5所示,图5为房价预测数据挖掘流程知识图谱。房屋价格计算属于连续数字预测,适合采用回归分析数据挖掘方法解决。回归分析方法可以拆解为特征构建和回归分析函数计算两部分,特征构建包括S_1、S_2、S_3三个求解函数;回归分析函数计算包括regression一个求解函数。
S20、对接收到的自然语言描述的数据挖掘语句进行自然语言处理,以提取出问题本体和问题本体关系。
问题本体提取属于命名实体识别任务,问题本体关系识别属于实体之间的关系分类问题。问题本体和问题本体关系的提取采用自然语言处理文本信息提取模型来处理,使用到自然语言处理文本信息提取模型可以是任意实体识别与关系提取模型,如类BERT等语言模型、CasRel等联合实体识别与关系提取模型。通过标注自然语言描述的数据挖掘语句中的问题本体和问题本体关系,训练模型,得到可识别问题本体和问题本体关系的自然语言处理文本信息提取模型。对于新输入的自然语言描述的数据挖掘语句,通过自然语言处理文本信息提取模型识别得到多个问题本体,及对应的问题本体关系。
在本实施例中,输入的自然语言描述的数据挖掘语句为:“房子坐落在深圳市软件园附近,建筑面积75平方米,两室一厅一卫,建于2005年,并在2019年重新装修,房子采用北欧风软装,采光好、生活便利想要售卖,房价可以定在多少钱”。
经过自然语言处理文本信息提取模型提取到问题本体如下:
房屋位置信息:深圳市软件园;房屋大小:75;卧室数量:两;卫生间数量:一;房屋修建时间:2005年;房屋翻修时间:2019年;房屋外观:北欧风;输出结果:房屋价格。
经过自然语言处理文本信息提取模型提取到问题本体关系如下:
房屋位置信息+房屋大小+卧室数量+卫生间数量+房屋修建时间+房屋翻修时间+房屋外观->输出结果。
S30、对问题本体和问题本体关系进行标准化处理,以得到标准化的待匹配子图。
由于问题本体是从自然语言描述的数据挖掘语句中提取出来,所以需要映射为数据挖掘流程知识图谱中的问题本体后,才能做子图匹配。
在一实施例中,步骤S30具体包括以下步骤:S301-S304。
S301、通过语言模型将问题本体映射为表示矩阵。
S302、将表示矩阵与数据挖掘流程知识图谱中的问题本体表示矩阵做相似度计算,以得到相似度结果。
S303、将相似度结果中高于设定阈值的问题本体设定为标准化后的问题本体。
S304、以标准化后的问题本体为节点和问题本体关系为边构造成标准化的待匹配子图。
对于步骤S301-S304,如图6所示,图6为标准化待匹配子图构建的示意图。使用通用领域或专业领域的语言模型进行语义关联,可以采用类BERT等各种语言模型,经过语言模型计算,将提取出来的问题本体映射为多维表示矩阵,并与数据挖掘流程知识图谱中的问题本体多维表示矩阵做相似度计算,可以采用各种相似度计算方法。相似度最高且高于设定阈值的问题本体则为标准化后的问题本体。最后以标准化后的问题本体为节点,提取得到的问题本体关系为边,得到标准化后的待匹配子图。
在本实施例中,如图7所示,图7示意的是标准化处理后的标准化待匹配子图。
S40、将待匹配子图与构建的数据挖掘流程知识图谱进行相似子图匹配,以得到求解子图和待匹配子图与求解子图之间的问题本体映射关系。
将得到的待匹配子图与数据挖掘流程知识图谱进行相似子图匹配,得到匹配相似度最高且高于设定阈值的求解子图和待匹配子图与求解子图之间的问题本体映射关系。相似子图匹配可采用如基于深度搜索加回溯的方式(Backtracking Search),或是基于广度优先的Multi-way Join方法来实现。其中匹配子图时,忽略数据挖掘流程知识图谱中的数据挖掘求解抽象流程节点。
在本实施例中,使用基于深度搜索加回溯的方式UllmannAlgorithm算法,得到了如图8所示的匹配子图。
S50、根据求解子图获取其关联的数据挖掘求解抽象流程。
得到匹配的求解子图后,可以获取到其关联的数据挖掘求解抽象流程。
S60、将待匹配子图中标准化后的问题本体节点对应的内容映射为数据挖掘求解抽象流程的输入参数,并执行求解流程,以得到输出结果。
待匹配子图和求解子图之间问题本体映射关系,而求解子图由数据挖掘求解抽象流程的输入参数和输出结果组成,由此可以将待匹配子图中问题本体节点对应的内容映射为数据挖掘求解抽象流程的输入参数,可以根据求解函数与多函数的流程扭转关系,执行求解流程,并得到输出结果。
在本实施例中,执行求解流程如下:
S_1=linear_distance(房屋位置,市中心)=linear_distance(“深圳市软件园”,“深圳市”)=11.9。其中linear_distance函数可以使用地图软件接口提供,本实施例中使用的是百度地图api接口。S_2=max(房屋修葺时间)-当前日期)=max(2005,2019)-2022=-3。S_3=norm(房屋容量)=norm(75)+norm(2)+norm(1)=0.8769+0+0=0.8769。其中norm函数为正态分布函数,其均值和标准差根据数据库中历史房屋数据计算,在本实验中均值为88.36,标准差为34.79。输出结果=regression(S_1,S_2,S_3),其中regression函数为线性回归,其计算公式为:
h(w)=w1x1+w2x2+w3x3...+b=wTx+b,其中,x是输入参数,即S_1、S_2、S_3;w和b是函数预训练参数。在构建数据挖掘流程知识图谱阶段,从房屋售卖查询网站获取深圳市房屋信息和二手房销售数据。由于S_2中当前年份的变化会影响房价结果,因此对于每个房屋,从2015-2018年分别形成样本,并取该房屋的当年平均价格作为输出结果,训练线性回归函数得到参数。
执行线性回归函数计算,得到输出结果为7823925,即预测房价为7823925元。
在一实施例中,在执行求解流程之前,还需要判断匹配求解子图过程中问题本体是否完全匹配。因此,步骤S60之前还包括以下步骤:S55。
S55、判断求解子图中的问题本体是否未全部匹配成功;若全部匹配成功,则执行将待匹配子图中标准化后的问题本体节点对应的内容映射为数据挖掘求解抽象流程的输入参数,并执行求解流程,以得到输出结果。
若问题本体未全部匹配,则无法执行求解流程,即编译失败。若问题本体全部匹配,则可执行后续的求解流程。
本发明实现了为服务使用者屏蔽大数据挖掘领域高深的专业知识、简化复杂的领域服务流程建模,大大降低了大数据挖掘技术的使用口槛,推动了大挖掘技术在各行业决策处理方面的应用。
图2为本发明实施例提供的基于知识图谱的自然语言数据挖掘语句求解装置;对应于上述的基于知识图谱的自然语言数据挖掘语句求解方法,本发明实施例还提供了一种基于知识图谱的自然语言数据挖掘语句求解装置100。
如图2所示,基于知识图谱的自然语言数据挖掘语句求解装置100,包括构建单元110、提取单元120、标准化处理单元130、匹配单元140、获取单元150以及执行单元160。
构建单元110,用于构建数据挖掘流程知识图谱。
在一实施例中,构建单元110包括抽象处理模块。
抽象处理模块,用于将数据挖掘方法抽象成单个求解函数或多个求解函数的求解流程扭转。
数据挖掘流程知识图谱是通过数据挖掘方法来构建的,常用的数据挖掘方法有相关性分析法、回归分析法、决策树法等,均可以抽象成单个求解函数或多个求解函数的求解流程扭转,其中多个函数求解扭转可以使用流程引擎配置扭转关系。因此一个数据挖掘方法,可以形成一个数据挖掘求解抽象流程。
其中每个求解流程有对应的输入参数和输出结果,我们将输入参数和输出结果作为问题本体;求解抽象流程,实际上是从求解参数流向输出结果的有向图,即问题本体关系。问题本和问题本体关系,可以形成有向无环图,命名为求解子图。
为了方便后续的标准化处理,提前将每个问题本体经过语言模型计算,映射成一个多维表示矩阵,存储在知识图谱里。
如图4所示,图4为数据挖掘流程知识图谱构建的示意图。
在本实施例中,如图5所示,图5为房价预测数据挖掘流程知识图谱。房屋价格计算属于连续数字预测,适合采用回归分析数据挖掘方法解决。回归分析方法可以拆解为特征构建和回归分析函数计算两部分,特征构建包括S_1、S_2、S_3三个求解函数;回归分析函数计算包括regression一个求解函数。
提取单元120,用于对接收到的自然语言描述的数据挖掘语句进行自然语言处理,以提取出问题本体和问题本体关系。
问题本体提取属于命名实体识别任务,问题本体关系识别属于实体之间的关系分类问题。问题本体和问题本体关系的提取采用自然语言处理文本信息提取模型来处理,使用到自然语言处理文本信息提取模型可以是任意实体识别与关系提取模型,如类BERT等语言模型、CasRel等联合实体识别与关系提取模型。通过标注自然语言描述的数据挖掘语句中的问题本体和问题本体关系,训练模型,得到可识别问题本体和问题本体关系的自然语言处理文本信息提取模型。对于新输入的自然语言描述的数据挖掘语句,通过自然语言处理文本信息提取模型识别得到多个问题本体,及对应的问题本体关系。
在本实施例中,输入的自然语言描述的数据挖掘语句为:“房子坐落在深圳市软件园附近,建筑面积75平方米,两室一厅一卫,建于2005年,并在2019年重新装修,房子采用北欧风软装,采光好、生活便利想要售卖,房价可以定在多少钱”。
经过自然语言处理文本信息提取模型提取到问题本体如下:
房屋位置信息:深圳市软件园;房屋大小:75;卧室数量:两;卫生间数量:一;房屋修建时间:2005年;房屋翻修时间:2019年;房屋外观:北欧风;输出结果:房屋价格。
经过自然语言处理文本信息提取模型提取到问题本体关系如下:
房屋位置信息+房屋大小+卧室数量+卫生间数量+房屋修建时间+房屋翻修时间+房屋外观->输出结果。
标准化处理单元130,用于对问题本体和问题本体关系进行标准化处理,以得到标准化的待匹配子图。
由于问题本体是从自然语言描述的数据挖掘语句中提取出来,所以需要映射为数据挖掘流程知识图谱中的问题本体后,才能做子图匹配。
在一实施例中,标准化处理单元130包括映射模块、计算模块、设定模块以及构造模块。
映射模块,用于通过语言模型将问题本体映射为表示矩阵。
计算模块,用于将表示矩阵与数据挖掘流程知识图谱中的问题本体表示矩阵做相似度计算,以得到相似度结果。
设定模块,用于将相似度结果中高于设定阈值的问题本体设定为标准化后的问题本体。
构造模块,用于以标准化后的问题本体为节点和问题本体关系为边构造成标准化的待匹配子图。
如图6所示,图6为标准化待匹配子图构建的示意图。使用通用领域或专业领域的语言模型进行语义关联,可以采用类BERT等各种语言模型,经过语言模型计算,将提取出来的问题本体映射为多维表示矩阵,并与数据挖掘流程知识图谱中的问题本体多维表示矩阵做相似度计算,可以采用各种相似度计算方法。相似度最高且高于设定阈值的问题本体则为标准化后的问题本体。最后以标准化后的问题本体为节点,提取得到的问题本体关系为边,得到标准化后的待匹配子图。
在本实施例中,如图7所示,图7示意的是标准化处理后的标准化待匹配子图。
匹配单元140,用于将待匹配子图与构建的数据挖掘流程知识图谱进行相似子图匹配,以得到求解子图和待匹配子图与求解子图之间的问题本体映射关系。
将得到的待匹配子图与数据挖掘流程知识图谱进行相似子图匹配,得到匹配相似度最高且高于设定阈值的求解子图和待匹配子图与求解子图之间的问题本体映射关系。相似子图匹配可采用如基于深度搜索加回溯的方式(Backtracking Search),或是基于广度优先的Multi-way Join方法来实现。其中匹配子图时,忽略数据挖掘流程知识图谱中的数据挖掘求解抽象流程节点。
在本实施例中,使用基于深度搜索加回溯的方式UllmannAlgorithm算法,得到了如图8所示的匹配子图。
获取单元150,用于根据求解子图获取其关联的数据挖掘求解抽象流程。
得到匹配的求解子图后,可以获取到其关联的数据挖掘求解抽象流程。
执行单元160,用于将待匹配子图中标准化后的问题本体节点对应的内容映射为数据挖掘求解抽象流程的输入参数,并执行求解流程,以得到输出结果。
待匹配子图和求解子图之间问题本体映射关系,而求解子图由数据挖掘求解抽象流程的输入参数和输出结果组成,由此可以将待匹配子图中问题本体节点对应的内容映射为数据挖掘求解抽象流程的输入参数,可以根据求解函数与多函数的流程扭转关系,执行求解流程,并得到输出结果。
在本实施例中,执行求解流程如下:
S_1=linear_distance(房屋位置,市中心)=linear_distance(“深圳市软件园”,“深圳市”)=11.9。其中linear_distance函数可以使用地图软件接口提供,本实施例中使用的是百度地图api接口。S_2=max(房屋修葺时间)-当前日期)=max(2005,2019)-2022=-3。S_3=norm(房屋容量)=norm(75)+norm(2)+norm(1)=0.8769+0+0=0.8769。其中norm函数为正态分布函数,其均值和标准差根据数据库中历史房屋数据计算,在本实验中均值为88.36,标准差为34.79。输出结果=regression(S_1,S_2,S_3),其中regression函数为线性回归,其计算公式为:
h(w)=w1x1+w2x2+w3x3...+b=wTx+b,其中,x是输入参数,即S_1、S_2、S_3;w和b是函数预训练参数。在构建数据挖掘流程知识图谱阶段,从房屋售卖查询网站获取深圳市房屋信息和二手房销售数据。由于S_2中当前年份的变化会影响房价结果,因此对于每个房屋,从2015-2018年分别形成样本,并取该房屋的当年平均价格作为输出结果,训练线性回归函数得到参数。
执行线性回归函数计算,得到输出结果为7823925,即预测房价为7823925元。
在一实施例中,在执行求解流程之前,还需要判断匹配求解子图过程中问题本体是否完全匹配。因此,步骤S60之前还包括以下步骤:S55。
在一实施例中,基于知识图谱的自然语言数据挖掘语句求解装置还包括判断单元。
判断单元,用于判断求解子图中的问题本体是否未全部匹配成功;若全部匹配成功,则执行将待匹配子图中标准化后的问题本体节点对应的内容映射为数据挖掘求解抽象流程的输入参数,并执行求解流程,以得到输出结果。
若问题本体未全部匹配,则无法执行求解流程,即编译失败。若问题本体全部匹配,则可执行后续的求解流程。
本发明实现了为服务使用者屏蔽大数据挖掘领域高深的专业知识、简化复杂的领域服务流程建模,大大降低了大数据挖掘技术的使用口槛,推动了大挖掘技术在各行业决策处理方面的应用。
上述基于知识图谱的自然语言数据挖掘语句求解装置可以实现为计算机程序的形式,该计算机程序可以在如图3所示的计算机设备上运行。
请参阅图3,图3是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是服务器,其中,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
如图3所示,该计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述的基于知识图谱的自然语言数据挖掘语句求解方法步骤。
该计算机设备700可以是终端或服务器。该计算机设备700包括通过系统总线710连接的处理器720、存储器和网络接口750,其中,存储器可以包括非易失性存储介质730和内存储器740。
该非易失性存储介质730可存储操作系统731和计算机程序732。该计算机程序732被执行时,可使得处理器720执行任意一种基于知识图谱的自然语言数据挖掘语句求解方法。
该处理器720用于提供计算和控制能力,支撑整个计算机设备700的运行。
该内存储器740为非易失性存储介质730中的计算机程序732的运行提供环境,该计算机程序732被处理器720执行时,可使得处理器720执行任意一种基于知识图谱的自然语言数据挖掘语句求解方法。
该网络接口750用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备700的限定,具体的计算机设备700可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。其中,所述处理器720用于运行存储在存储器中的程序代码,以实现以下步骤:
基于知识图谱的自然语言数据挖掘语句求解方法,包括:
构建数据挖掘流程知识图谱;
对接收到的自然语言描述的数据挖掘语句进行自然语言处理,以提取出问题本体和问题本体关系;
对问题本体和问题本体关系进行标准化处理,以得到标准化的待匹配子图;
将待匹配子图与构建的数据挖掘流程知识图谱进行相似子图匹配,以得到求解子图和待匹配子图与求解子图之间的问题本体映射关系;
根据求解子图获取其关联的数据挖掘求解抽象流程;
将待匹配子图中标准化后的问题本体节点对应的内容映射为数据挖掘求解抽象流程的输入参数,并执行求解流程,以得到输出结果。
在一实施例中:所述构建数据挖掘流程知识图谱,包括:
将数据挖掘方法抽象成单个求解函数或多个求解函数的求解流程扭转。
在一实施例中:所述对问题本体和问题本体关系进行标准化处理,以得到标准化的待匹配子图,包括:
通过语言模型将问题本体映射为表示矩阵;
将表示矩阵与数据挖掘流程知识图谱中的问题本体表示矩阵做相似度计算,以得到相似度结果;
将相似度结果中高于设定阈值的问题本体设定为标准化后的问题本体;
以标准化后的问题本体为节点和问题本体关系为边构造成标准化的待匹配子图。
在一实施例中:所述将待匹配子图中标准化后的问题本体节点对应的内容映射为数据挖掘求解抽象流程的输入参数,并执行求解流程,以得到输出结果之前,还包括:
判断求解子图中的问题本体是否未全部匹配成功;
若全部匹配成功,则执行所述将待匹配子图中标准化后的问题本体节点对应的内容映射为数据挖掘求解抽象流程的输入参数,并执行求解流程,以得到输出结果。
应当理解,在本申请实施例中,处理器720可以是中央处理单元(CentralProcessingUnit,CPU),该处理器720还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域技术人员可以理解,图3中示出的计算机设备700结构并不构成对计算机设备700的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
在本发明的另一实施例中提供了一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的基于知识图谱的自然语言数据挖掘语句求解方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.基于知识图谱的自然语言数据挖掘语句求解方法,其特征在于,包括:
构建数据挖掘流程知识图谱;
对接收到的自然语言描述的数据挖掘语句进行自然语言处理,以提取出问题本体和问题本体关系;
对问题本体和问题本体关系进行标准化处理,以得到标准化的待匹配子图;
将待匹配子图与构建的数据挖掘流程知识图谱进行相似子图匹配,以得到求解子图和待匹配子图与求解子图之间的问题本体映射关系;
根据求解子图获取其关联的数据挖掘求解抽象流程;
将待匹配子图中标准化后的问题本体节点对应的内容映射为数据挖掘求解抽象流程的输入参数,并执行求解流程,以得到输出结果。
2.根据权利要求1所述的基于知识图谱的自然语言数据挖掘语句求解方法,其特征在于,所述构建数据挖掘流程知识图谱,包括:
将数据挖掘方法抽象成单个求解函数或多个求解函数的求解流程扭转。
3.根据权利要求1所述的基于知识图谱的自然语言数据挖掘语句求解方法,其特征在于,所述对问题本体和问题本体关系进行标准化处理,以得到标准化的待匹配子图,包括:
通过语言模型将问题本体映射为表示矩阵;
将表示矩阵与数据挖掘流程知识图谱中的问题本体表示矩阵做相似度计算,以得到相似度结果;
将相似度结果中高于设定阈值的问题本体设定为标准化后的问题本体;
以标准化后的问题本体为节点和问题本体关系为边构造成标准化的待匹配子图。
4.根据权利要求1所述的基于知识图谱的自然语言数据挖掘语句求解方法,其特征在于,所述将待匹配子图中标准化后的问题本体节点对应的内容映射为数据挖掘求解抽象流程的输入参数,并执行求解流程,以得到输出结果之前,还包括:
判断求解子图中的问题本体是否未全部匹配成功;
若全部匹配成功,则执行所述将待匹配子图中标准化后的问题本体节点对应的内容映射为数据挖掘求解抽象流程的输入参数,并执行求解流程,以得到输出结果。
5.基于知识图谱的自然语言数据挖掘语句求解装置,其特征在于,包括构建单元、提取单元、标准化处理单元、匹配单元、获取单元以及执行单元;
所述构建单元,用于构建数据挖掘流程知识图谱;
所述提取单元,用于对接收到的自然语言描述的数据挖掘语句进行自然语言处理,以提取出问题本体和问题本体关系;
所述标准化处理单元,用于对问题本体和问题本体关系进行标准化处理,以得到标准化的待匹配子图;
所述匹配单元,用于将待匹配子图与构建的数据挖掘流程知识图谱进行相似子图匹配,以得到求解子图和待匹配子图与求解子图之间的问题本体映射关系;
所述获取单元,用于根据求解子图获取其关联的数据挖掘求解抽象流程;
所述执行单元,用于将待匹配子图中标准化后的问题本体节点对应的内容映射为数据挖掘求解抽象流程的输入参数,并执行求解流程,以得到输出结果。
6.根据权利要求5所述的基于知识图谱的自然语言数据挖掘语句求解装置,其特征在于,所述构建单元包括抽象处理模块;
所述抽象处理模块,用于将数据挖掘方法抽象成单个求解函数或多个求解函数的求解流程扭转。
7.根据权利要求5所述的基于知识图谱的自然语言数据挖掘语句求解装置,其特征在于,所述标准化处理单元包括映射模块、计算模块、设定模块以及构造模块;
所述映射模块,用于通过语言模型将问题本体映射为表示矩阵;
所述计算模块,用于将表示矩阵与数据挖掘流程知识图谱中的问题本体表示矩阵做相似度计算,以得到相似度结果;
所述设定模块,用于将相似度结果中高于设定阈值的问题本体设定为标准化后的问题本体;
所述构造模块,用于以标准化后的问题本体为节点和问题本体关系为边构造成标准化的待匹配子图。
8.根据权利要求5所述的基于知识图谱的自然语言数据挖掘语句求解装置,其特征在于,还包括判断单元;
所述判断单元,用于判断求解子图中的问题本体是否未全部匹配成功;若全部匹配成功,则执行所述将待匹配子图中标准化后的问题本体节点对应的内容映射为数据挖掘求解抽象流程的输入参数,并执行求解流程,以得到输出结果。
9.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~4中任意一项所述的基于知识图谱的自然语言数据挖掘语句求解方法步骤。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,使得所述处理器执行如权利要求1~4任意一项所述的基于知识图谱的自然语言数据挖掘语句求解方法步骤。
CN202210850091.2A 2022-07-19 2022-07-19 基于知识图谱的自然语言数据挖掘语句求解方法及装置 Pending CN115169322A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210850091.2A CN115169322A (zh) 2022-07-19 2022-07-19 基于知识图谱的自然语言数据挖掘语句求解方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210850091.2A CN115169322A (zh) 2022-07-19 2022-07-19 基于知识图谱的自然语言数据挖掘语句求解方法及装置

Publications (1)

Publication Number Publication Date
CN115169322A true CN115169322A (zh) 2022-10-11

Family

ID=83494541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210850091.2A Pending CN115169322A (zh) 2022-07-19 2022-07-19 基于知识图谱的自然语言数据挖掘语句求解方法及装置

Country Status (1)

Country Link
CN (1) CN115169322A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117891958A (zh) * 2024-03-14 2024-04-16 中国标准化研究院 一种基于知识图谱的标准数据处理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117891958A (zh) * 2024-03-14 2024-04-16 中国标准化研究院 一种基于知识图谱的标准数据处理方法
CN117891958B (zh) * 2024-03-14 2024-05-24 中国标准化研究院 一种基于知识图谱的标准数据处理方法

Similar Documents

Publication Publication Date Title
CA2940760C (en) Intelligent data munging
CN109657238B (zh) 基于知识图谱的上下文识别补全方法、系统、终端及介质
CN111125343B (zh) 适用于人岗匹配推荐系统的文本解析方法及装置
WO2021169842A1 (zh) 数据更新方法、装置、电子设备及计算机可读存储介质
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
JP7432801B2 (ja) デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム
CN112199512B (zh) 面向科技服务的事理图谱构建方法、装置、设备及存储介质
CN113449046A (zh) 基于企业知识图谱的模型训练方法、系统及相关装置
AU2019204444A1 (en) System and method for enrichment of ocr-extracted data
CN113051362A (zh) 数据的查询方法、装置和服务器
CN113204967B (zh) 简历命名实体识别方法及系统
CN115587597B (zh) 基于子句级关系图的方面词的情感分析方法以及装置
CN112183030A (zh) 基于预设神经网络的事件抽取方法、装置、计算机设备及存储介质
CN112907358A (zh) 贷款用户信用评分方法、装置、计算机设备和存储介质
CN115169322A (zh) 基于知识图谱的自然语言数据挖掘语句求解方法及装置
CN112307337A (zh) 基于标签知识图谱的关联推荐方法、装置及计算机设备
CN113297852B (zh) 一种医学实体词的识别方法和装置
Kamp et al. SeSaMe: A data set of semantically similar Java methods
CN116776881A (zh) 一种基于主动学习的领域实体识别系统及识别方法
CN114840657A (zh) 一种基于混合模式的api知识图谱自适应构建及智能问答方法
CN114969467A (zh) 数据分析分类方法、装置、计算机设备及存储介质
CN113792726A (zh) 一种基于视觉图像快速生成poi的方法及系统
CN110458383B (zh) 需求处理服务化的实现方法、装置及计算机设备、存储介质
CN109787784B (zh) 群组推荐方法、装置、存储介质和计算机设备
CN111782781A (zh) 一种语义分析方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination