CN111737400B - 一种基于知识推理的大数据业务标签的扩展方法及系统 - Google Patents
一种基于知识推理的大数据业务标签的扩展方法及系统 Download PDFInfo
- Publication number
- CN111737400B CN111737400B CN202010543081.5A CN202010543081A CN111737400B CN 111737400 B CN111737400 B CN 111737400B CN 202010543081 A CN202010543081 A CN 202010543081A CN 111737400 B CN111737400 B CN 111737400B
- Authority
- CN
- China
- Prior art keywords
- semantic
- knowledge graph
- attribute
- keyword
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于知识推理的大数据业务标签的扩展方法及系统,该方法包括:步骤S1,从预设的业务标签树中选中待扩展标签及标签下属关键词集合K,搜索每一关键词,获得结果相关URL集合C;步骤S2,对每一关键词,遍历集合C中对应URL,从每个网页获取文本内容,对文本进行语义分析,抽取与关键词有关联的语义对象和语义关系,构建语义关系知识图谱;步骤S3,利用知识图谱,结合本体规则模型,以待扩展标签为依据,对知识图谱中实体进行校验和筛选,将通过校验的实体属性内容以关键字形式加入结果集合;步骤S4,判断结果集合规模是否达到预设扩展规模,若达到则结束,否则将结果集合中关键词作为集合K,并返回到步骤S1。
Description
技术领域
本发明涉及智能机器技术领域,特别是涉及一种基于知识推理的大数据业务标签的扩展方法及系统。
背景技术
在以业务为中心的企业中,由于各种业务的类型、目的和范围都不相同,如何获取、管理和扩展各种不同的业务标签已成为一个紧迫的问题,具有非常巨大的意义,其中,获取业务标签主要通过简单的关键词提取工具和人工标记,而管理业务标签则主要通过标签分类体系来完成,对于每个体系的标签都各自以标签树的形式进行管理。
扩展业务标签,即扩展业务标签下属的实体(关键词和URL)则是当前最重要的一个任务,目前尚未有成熟的方法,一般采用人工扩展或使用程序进行自动化扩展的方式,但是采取人工扩展的形式,不仅需要消耗巨大的人力资源,而且扩展结果还可能带有较大的主观性;而使用程序进行自动化扩展则面临着扩展逻辑适应性的问题,很多情况下为了适应大量不同的应用场景会导致扩展逻辑会变得极其复杂。
因此,为了使得扩展逻辑通用化,同时避免构建规则时带来的主观性,本发明欲采用结合行业知识图谱进行智能化扩展的方式,利用知识图谱提供的知识与逻辑推理分析能力来解决自动化扩展逻辑中的问题。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于知识推理的大数据业务标签的扩展方法及系统,以实现智能的通用化标签扩展能力,从而大大提高了生产效率,满足各种业务发展的需求。
为达上述目的,本发明提出一种基于知识推理的大数据业务标签的扩展方法,包括如下步骤:
步骤S1,从预设的业务标签树中选中待扩展标签X以及标签下属关键词集合K,并利用搜索引擎搜索每一个关键词,获得结果相关URL集合C;
步骤S2,对每一个关键词kn,遍历集合C中其对应的URL,从每个URL的网页获取文本内容,对文本进行语义分析,抽取与该关键词有关联的语义对象和语义关系,利用预设的知识图谱框架对所有关键词构建语义关系知识图谱;
步骤S3,利用步骤S2构建的语义关系知识图谱,结合预制的本体规则模型,以选中的待扩展标签X为依据,对所述语义关系知识图谱中的实体对象进行校验和筛选,并于完成所有实体的校验后,将通过校验的实体的属性内容以关键字的形式加入到结果集合中;
步骤S4,判断所述结果集合的规模是否达到预设的扩展规模Nmax,若已达到则结束所有步骤,否则将所述结果集合中已有的关键词作为集合K,并返回到步骤S1继续进行。
优选地,于步骤S2中,将文本的每一句单句进行分词和语义标注,构建语法依存树;定位重点词,对所述语法依存树中重点词所在的节点根据词性与语义关联,匹配事件模板进行筛选,将结果导入所述知识图谱框架,得到所述语义关系知识图谱。
优选地,将筛选结果作为“对象-关系-对象/值”形式的候选三元组保存,并导入所述知识图谱框架,得到所述语义关系知识图谱。
优选地,所述知识图谱框架具备业务本体规则模型和同义词库,所述本体规则模型由业务专家构建,框架内的同义词库来自于实际业务知识。
优选地,步骤S3进一步包括:
S301,校验实体名称,检查是否有重名或同义词等,若存在,则进行属性合并;
S302,校验属性定义域,检查属性值是否在本体限定的值域内,若不满足则筛除该属性;
S303,校验关键词与实体对象属性值的逻辑关联,通过图谱路径计算得到属性值与标签之间的联通路径与权重,剔除不满足本体规则的联通路径,其余关联保留;
S304,将通过校验的实体属性加入结果集合,并按照权重排序。
优选地,于步骤S303中,利用图谱路径计算检查实体属性与业务知识的关联性;通过图谱路径计算,获取关联组合,再把路径组合的途经点输入推理机,使用向量化K中心距算法计算路径与本体规则模型的关联权重。
优选地,所述向量化K中心距算法将若干条最优路径组合成一个语义的有向无环图,遍历本体规则模型中的关系规则;计算每一条规则的语义元素在当前路径组合中按照语义顺序出现的重合以及联通的频度综合计算权重,从而计算出整条规则的关联权重。
优选地,所述图谱路径计算采用前向排序算法,于每两个相邻途径点之间找出若干条最优路径,然后将每一步的最优路径组合联通对权重进行排序,从而得到全局的最优路径。
为达到上述目的,本发明还提供一种基于知识推理的大数据业务标签的扩展系统,包括:
标签选取及关键词搜索单元,用于从预设的业务标签树中选中待扩展标签X以及标签下属关键词集合K,并利用搜索引擎搜索每一个关键词,获得结果相关URL集合C;
知识图谱构建单元,对每一个关键词kn,遍历集合C中其对应的URL,从每个URL的网页获取文本内容,对文本进行语义分析,抽取与该关键词有关联的语义对象和语义关系,利用预设的知识图谱框架构建语义关系知识图谱;
校验单元,利用所述知识图谱构建单元构建的语义关系知识图谱,结合预制的本体规则模型,以选中的待扩展标签X为依据,对所述语义关系知识图谱中的实体对象进行校验和筛选,并于完成所有实体的校验后,将通过校验的实体的属性内容以关键字的形式加入到结果集合中;
循环判断处理单元,用于判断所述结果集合的规模是否达到预设的扩展规模Nmax,若已达到则结束所有步骤,否则将所述结果集合中已有的关键词作为集合K,并返回到所述标签选取及关键词搜索单元继续进行。
优选地,所述校验单元包括:
实体名称校验模块,用于校验实体名称,检查是否有重名或同义词等,若存在,则进行属性合并;
属性定义域校验模块,用于校验属性定义域,检查属性值是否在本体限定的值域内,若不满足则筛除该属性;
逻辑关联校验模块,用于校验属性值的逻辑关联,通过图谱路径计算得到属性值与标签之间的联通路径与权重,剔除不满足本体规则的联通路径,其余关联保留;
结果集合形成模块,用于将通过校验的实体属性加入结果集合,并按照权重排序。
与现有技术相比,本发明一种基于知识推理的大数据业务标签的扩展方法及系统通过利用从互联网获得的文本信息抽取生成知识图谱,利用根据业务构建的规则模型,结合知识推理的关系计算能力筛选出准确的结果,实现了智能的通用化标签扩展能力,从而大大提高了生产效率,满足各种业务发展的需求,本发明比基于规则的标签扩展更加通用灵活,比人工操作更加准确高效,能够适应业务的发展,大大地简化业务人员的工作流程。
附图说明
图1为本发明一种基于知识推理的大数据业务标签的扩展方法的步骤流程图;
图2为本发明具体实施例中路径推理的结构示意图;
图3为本发明一种基于知识推理的大数据业务标签的扩展系统的系统架构图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种基于知识推理的大数据业务标签的扩展方法的步骤流程图。如图1所示,本发明一种基于知识推理的大数据业务标签的扩展方法,包括如下步骤:
步骤S1,根据业务需要,预设扩展规模Nmax,从预设的业务标签树中选中待扩展标签X以及标签下属关键词集合K[k1、k2、……、kn],并使用搜索引擎搜索每一个关键词,获得结果相关URL集合C(k1-[URL1,URL2,…,URLNmax],…,kn-[URL1,URL2,…,URLNmax])。
具体地,系统中预先内置业务标签树和知识图谱框架,所述知识图谱框架具备业务本体规则模型和同义词库。也就是说,本发明中的标签以业务标签树的形式管理,每一个扩展任务都从一个特定标签开始,到扩展结果达到指定规模为止,扩展的目的在于增加标签下属的关键字以及相关URL。本体规则模型由业务专家构建,框架内的同义词库则来自于实际业务知识,均预先建立并设置于系统中。在本发明中,所述业务标签树为大数据业务中的标签组织形式,关键字和标签之间是业务逻辑关系,并非语义逻辑,可以理解为,关键字是标签的业务特征内容细化,例如标签“新能源汽车”下属关键字“汽车”“电池”“补贴”等。
于步骤S1中,从业务标签树中选择一个目标标签,例如用户有深度了解与新能源汽车相关的实际业务需求,那么选取目标标签X=“新能源汽车”,N-max=50,标签下属关键词集合K[汽车,新能源],并利用搜索引擎搜索每一个关键词,所述搜索引擎可使用百度搜索和360搜索,也可以使用必应、谷歌或搜狗等引擎搜索,搜索引擎的调用工具可采用Chrome内核的浏览器爬虫,本发明不以此为限,获得结果相关URL集合C(汽车-[URL1,URL2,…,URL50],新能源-[URL1,URL2,…,URL50])。
步骤S2,对集合C中的每一个关键词kn,遍历其对应的URL,从每个URL的网页获取文本内容,对文本进行语义分析,抽取与该关键词有关联的语义对象和语义关系,最后构建语义关系知识图谱。当所有关键词的语义关系抽取完成后,合并在一个语义关系知识图谱中。
在本发明具体实施例中,与该关键词有关联的语义对象和语义关系抽取的核心思想是:将原始文本的每一句单句进行分词和语义标注,然后构建语法依存树;利用TextRank算法定位重点词,对语法依存树中重点词所在的节点根据词性与语义关联,匹配预先建立的事件模板进行筛选,将结果作为“对象-关系-对象/值”形式的候选三元组保存至下一个步骤。
例如,对于关键词“新能源”,假设通过关键词“新能源”获取的一段网页文本:“纯电动汽车是一种采用单一蓄电池作为储能动力源的汽车,它利用蓄电池作为储能动力源,通过电池向电动机提供电能,驱动电动机运转,从而推动汽车行驶。”
首先将该原始文本的每一句单句进行分词和语义标注,并构建语法依存树,由于这里的分词及语义标注采用的是现有成熟技术,在此不予赘述的,当进行分词与语义标注后,构建语法依存树,例如,分析句子“大众生产汽车”,得到:
[大众|名词|机构]
[生产|动词]
[汽车|名词]
大众<---(SBV)-生产—(VOB)→汽车
其次,利用TextRank算法定位重点词(重点词通过权重打分,取排名靠前的若干个,权重为计算出的词向量距离),在本发明具体实施例中,利用TextRank算法定位到的重点词为:
名称 | 储能 | 动力源 | 蓄电池 | 电动机 | 汽车 | 电能 | …… |
权重 | 47 | 46 | 42 | 40 | 24 | 19 | …… |
于是,从重点词出发,根据语法依存树中的语义关联,抽取到的三元组有:
“纯电动汽车-是-汽车”,“电池-作为-动力源”,“蓄电池-作为-动力源”,“电池-作为-储能动力源”,“汽车-采用-蓄电池”,“电动机-提供-电能”等。在本发明中,三元组为一种语义连接,由“主-谓-宾”三个语义对象组成。
将三元组导入预设的知识图谱框架,得到标签元素(关键词)语义对象的知识图谱。在本发明中,知识图谱框架为预设的,预设的知识图谱框架具备业务本体规则模型和同义词库,该本体规则模型由业务专家构建,框架内的同义词库则来自于实际业务知识。
步骤S3,利用步骤S2构建的语义关系知识图谱,结合预制的本体规则模型,以选中的待扩展标签X为依据,对知识图谱中的实体对象进行校验和筛选,并于完成所有实体的校验后,将通过校验的实体的属性内容以关键字的形式加入到结果集合中。需说明的是,实体为一个逻辑对象,指一个现实中实际存在的个体。一个实体对象通常由多条三元组进行描述,并在这些三元组中作为主语。语义对象仅作为语义描述,单独使用时不包含逻辑内容。例如:名词“帕萨特”是一个语义对象,可以通过知识图谱映射到“帕萨特”这个实体,而“帕萨特-是-车”这个三元组定义了实体“帕萨特”的类型。
具体地,步骤S3进一步包括:
S301,校验实体名称,检查是否有重名或同义词等,如果存在,则进行属性合并,具体地,如果确认两个实体为同义词,则将第二个实体的名称作为第一个的别名保存,并将第二个实体非重复的属性添加到第一个实体中,更新第一个实体,丢弃第二个实体;
S302,校验属性定义域,检查属性值是否在本体限定的值域内,如果不满足则筛除该属性;这里的属性定义域指在知识图谱中三元组的一个谓语,能够接受哪些类型的主语(定义域)和哪些类型的宾语(值域)。
例如:定义“生产”的属性定义域是“机构”,值域是“产品”。那么“大众-生产-汽车”就符合逻辑,“发动机-生产-汽车”和“大众-生产-数学”则不符合逻辑。
S303,校验关键词与实体对象属性值的逻辑关联,通过图谱路径计算得到属性值与标签之间的联通路径与权重,剔除不满足本体规则的联通路径,其余关联保留(即从本体重选取与X相关的规则);
S304,将通过校验的实体属性加入结果集合,并按照权重排序。在本发明中,未通过校验的内容会被剔除,完成所有实体的校验后,将通过校验的实体的属性内容以关键字的形式加入到结果集合中。
本发明知识图谱所起的作用是:通过融合消除冗余和歧义的部分,进行逻辑关联关系挖掘,对关键字的逻辑关联进行优化与补充,利用图谱路径的计算来检查实体属性与业务知识的关联性;通过图谱路径计算,获取关联组合,再把路径组合的途经点输入推理机,使用向量化K中心距算法计算路径与规则模型的关联权重。
其中,向量化K中心距算法的核心思想是:把若干条最优路径组合成一个语义的有向无环图,遍历规则模型中的关系规则;计算每一条规则的语义元素在当前路径组合中按照语义顺序出现的重合以及联通的频度综合计算权重,从而计算出整条规则的关联权重。
上述图谱路径计算的核心思想是:知识图谱可以作为一个有向图,使用图谱路径算法来检索实体之间的关系。图谱路径计算是在给定路径的起点、途径条件的情况下,找出合适的终点或者联通路径来达到目的,途径条件可以是指定特定实体或关系,也可以是满足某条本体规则的关系组合。在这个过程中采用前向排序算法,即每两个相邻途径点之间找出若干条最优路径,然后将每一步的最优路径组合联通对权重进行排序,从而得到全局的最优路径。
例如,在关键词“新能源补贴”的逻辑校验中,遇到了实体对象“荣威ei6”,在校验了实体名称和属性定义域后,此处需要检查两者之间的逻辑关联。根据业务需要,在本体规则模型中定义有:
[新能源汽车][享受][新能源补贴]
[新能源汽车]–是–[车]&&[燃料形式has some纯电动||插电式混动]
这样两条规则,于是调用推理机展开规则实体,进行路径推理,路径推理结果如图2所示。例如需要检查“荣威ei6”和“新能源补贴”之间的关联,首先检索业务内容是否有现成答案,如果没有则进行推理;检查本体规则中是否有涉及两者的逻辑定义,发现有“新能源汽车-享受-新能源补贴”的规则,于是进行第一层展开,将关联转化为“荣威ei6-(?)-新能源汽车-(享受)-新能源补贴”。
由于本体规则中有“新能源汽车”的逻辑定义,于是再次展开为图2最下排形式,此时实体“荣威ei6”拥有的属性满足“新能源汽车”这个类型,所有路径均可直接联通,验证为关联存在。
因此,“荣威ei6”和“新能源补贴”有一条直接的联通路径(权重1.0)。当然,如果这一步推理验证失败,例如“荣威ei6”与“进口汽车”之间无法构成关联,在这一步就需要将实体从关键字联通中剔除。
在本次扩展任务中,新增关键词超过Nmax 200后任务停止。权重排序如下表1所示:
表1
相关关键词 | 权重 |
补贴 | 237 |
国补政策 | 235 |
新能源革命 | 232 |
电动汽车 | 229 |
新能源汽车网 | 224 |
锂电池 | 222 |
电动汽车 | 219 |
北汽新能源 | 219 |
比亚迪 | 217 |
电车之家 | 216 |
表1为整个任务完成后的结果,按权重降序展示,其中上述例子中的荣威ei6由于权重较低没有在该表中体现出来。
步骤S4,判断结果集合的规模是否达到预设的扩展规模Nmax,若该结果集合的规模满足要求则结束所有步骤,否则根据结果集合中已有的关键词作为输入集合K,并返回到S1继续进行。
图3为本发明一种基于知识推理的大数据业务标签的扩展系统的系统架构图。如图3所示,本发明一种基于知识推理的大数据业务标签的扩展系统,包括:
标签选取及关键词搜索单元30,用于预设扩展规模Nmax,从预设的业务标签树中选中待扩展标签X以及标签下属关键词集合K[k1、k2、......、kn],并使用搜索引擎搜索每一个关键词,获得结果相关URL集合C(k1-[URL1,URL2,...,URLNmax],...)。
具体地,系统中预先内置业务标签树和知识图谱框架,所述知识图谱框架具备业务本体规则模型和同义词库。也就是说,本发明中的标签以业务标签树的形式管理,每一个扩展任务都从一个特定标签开始,到扩展结果达到指定规模为止,扩展的目的在于增加标签下属的关键字以及相关URL。本体规则模型由业务专家构建,框架内的同义词库则来自于实际业务知识,均预先建立并设置于系统中。
标签选取及关键词搜索单元30从业务标签树中选择一个目标标签,例如用户有深度了解与新能源汽车相关的实际业务需求,那么选取目标标签X=“新能源汽车”,N-max=50,标签下属关键词集合K[汽车,新能源],并利用搜索引擎搜索每一个关键词,所述搜索引擎可使用百度搜索和360搜索,也可以使用必应、谷歌或搜狗等引擎搜索,搜索引擎的调用工具可采用Chrome内核的浏览器爬虫,本发明不以此为限,获得结果相关URL集合C(汽车-[URL1,URL2,…,URL50],新能源-[URL1,URL2,…,URL50])。
知识图谱构建单元31,对集合C中的每一个关键词kn,遍历其对应的URL,从每个URL的网页获取文本内容,对文本进行语义分析,抽取与该关键词有关联的语义对象和语义关系,最后构建语义关系知识图谱。在本发明具体实施例中,当所有关键词的语义关系抽取完成后,合并在一个语义关系知识图谱中。
在本发明具体实施例中,知识图谱构建单元31对与该关键词有关联的语义对象和语义关系抽取的核心思想是:将原始文本的每一句单句进行分词和语义标注,然后构建语法依存树;利用TextRank算法定位重点词,对语法依存树中重点词所在的节点根据词性与语义关联,匹配事件模板进行筛选,将结果作为“对象-关系-对象/值”形式的候选三元组保存至下一个步骤。
例如,对于关键词“新能源”,假设通过关键词“新能源”获取的一段网页文本:“纯电动汽车是一种采用单一蓄电池作为储能动力源的汽车,它利用蓄电池作为储能动力源,通过电池向电动机提供电能,驱动电动机运转,从而推动汽车行驶。”
首先将该原始文本的每一句单句进行分词和语义标注,并构建语法依存树;其次利用TextRank算法定位到的重点词为:
名称 | 储能 | 动力源 | 蓄电池 | 电动机 | 汽车 | 电能 | …… |
权重 | 47 | 46 | 42 | 40 | 24 | 19 | …… |
于是,从重点词出发,根据语法依存树中的语义关联,抽取到的三元组有:
“纯电动汽车-是-汽车”,“电池-作为-动力源”,“蓄电池-作为-动力源”,“电池-作为-储能动力源”,“汽车-采用-蓄电池”,“电动机-提供-电能”等。
将三元组导入预设的知识图谱框架,得到标签元素(关键词)语义对象的知识图谱。在本发明中,知识图谱框架为预设的,预设的知识图谱框架具备业务本体规则模型和同义词库,该本体规则模型由业务专家构建,框架内的同义词库则来自于实际业务知识。
校验单元32,用于利用知识图谱构建单元31构建的语义关系知识图谱,结合预制的本体规则模型,以选中的待扩展标签X为依据,对知识图谱中的实体对象进行校验和筛选,并于完成所有实体的校验后,将通过校验的实体的属性内容以关键字的形式加入到结果集合中。
具体地,校验单元32进一步包括:
实体名称校验模块,用于校验实体名称,检查是否有重名或同义词等,如果存在,则进行属性合并,具体地,如果确认两个实体为同义词,则将第二个实体的名称作为第一个的别名保存,并将第二个实体非重复的属性添加到第一个实体中,更新第一个实体,丢弃第二个实体;
属性定义域校验模块,用于校验属性定义域,检查属性值是否在本体限定的值域内,如果不满足则筛除该属性,所述属性定义域指在知识图谱中三元组的一个谓语,能够接受哪些类型的主语(定义域)和哪些类型的宾语(值域);
逻辑关联校验模块,用于校验关键词与实体对象属性值的逻辑关联,通过路径算法得到属性值与标签之间的联通路径与权重,剔除不满足本体规则的联通路径,其余关联保留(即从本体重选取与X相关的规则);
结果集合形成模块,用于将通过校验的实体属性加入结果集合,并按照权重排序。在本发明中,未通过校验的内容会被剔除,完成所有实体的校验后,将通过校验的实体的属性内容以关键字的形式加入到结果集合中。
本发明知识图谱所起的作用是:通过融合消除冗余和歧义的部分,进行逻辑关联关系挖掘,对关键字的逻辑关联进行优化与补充,利用图谱路径的计算来检查实体属性与业务知识的关联性;通过图谱路径计算,获取关联组合,再把路径组合的途经点输入推理机,使用向量化K中心距算法计算路径与规则模型的关联权重。
其中,向量化K中心距算法的核心思想是:把若干条最优路径组合成一个语义的有向无环图,遍历规则模型中的关系规则;计算每一条规则的语义元素在当前路径组合中按照语义顺序出现的重合以及联通的频度综合计算权重,从而计算出整条规则的关联权重。
上述图谱路径计算的核心思想是:知识图谱可以作为一个有向图,使用图谱路径算法来检索实体之间的关系。图谱路径计算是在给定路径的起点、途径条件的情况下,找出合适的终点或者联通路径来达到目的,途径条件可以是指定特定实体或关系,也可以是满足某条本体规则的关系组合。在这个过程中采用前向排序算法,即每两个相邻途径点之间找出若干条最优路径,然后将每一步的最优路径组合联通对权重进行排序,从而得到全局的最优路径。
循环判断处理单元33,用于判断结果集合的规模是否达到预设的扩展规模Nmax,若该结果集合的规模满足要求则结束所有步骤,否则根据结果集合中已有的关键词作为输入集合K,并返回到标签选取及关键词搜索单元30继续进行。
综上所述,本发明一种基于知识推理的大数据业务标签的扩展方法及系统通过利用从互联网获得的文本信息抽取生成知识图谱,利用根据业务构建的规则模型,结合知识推理的关系计算能力筛选出准确的结果,实现了智能的通用化标签扩展能力,从而大大提高了生产效率,满足各种业务发展的需求,本发明比基于规则的标签扩展更加通用灵活,比人工操作更加准确高效,能够适应业务的发展,大大地简化业务人员的工作流程。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。
Claims (8)
1.一种基于知识推理的大数据业务标签的扩展方法,包括如下步骤:
步骤S1,从预设的业务标签树中选中待扩展标签X以及标签下属关键词集合K,并利用搜索引擎搜索每一个关键词,获得结果相关URL集合C;
步骤S2,对每一个关键词kn,遍历集合C中其对应的URL,从每个URL的网页获取文本内容,对文本进行语义分析,抽取与该关键词有关联的语义对象和语义关系,利用预设的知识图谱框架对所有关键词构建语义关系知识图谱;
步骤S3,利用步骤S2构建的语义关系知识图谱,结合预制的本体规则模型,以选中的待扩展标签X为依据,对所述语义关系知识图谱中的实体对象进行校验和筛选,并于完成所有实体的校验后,将通过校验的实体的属性内容以关键字的形式加入到结果集合中;步骤S3进一步包括:
S301,校验实体名称,检查是否有重名或同义词,若存在,则进行属性合并;
S302,校验属性定义域,检查属性值是否在本体限定的值域内,若不满足则筛除该属性;
S303,校验关键词与实体对象属性值的逻辑关联,通过图谱路径计算得到属性值与标签之间的联通路径与权重,剔除不满足本体规则的联通路径,其余关联保留;
S304,将通过校验的实体属性加入结果集合,并按照权重排序;
步骤S4,判断所述结果集合的规模是否达到预设的扩展规模Nmax,若已达到则结束所有步骤,否则将所述结果集合中已有的关键词作为集合K,并返回到步骤S1继续进行。
2.如权利要求1所述的一种基于知识推理的大数据业务标签的扩展方法,其特征在于:于步骤S2中,将文本的每一句单句进行分词和语义标注,构建语法依存树;定位重点词,对所述语法依存树中重点词所在的节点根据词性与语义关联,匹配事件模板进行筛选,将结果导入所述知识图谱框架,得到所述语义关系知识图谱。
3.如权利要求2所述的一种基于知识推理的大数据业务标签的扩展方法,其特征在于:将筛选结果作为“对象-关系-对象/值”形式的候选三元组保存,并导入所述知识图谱框架,得到所述语义关系知识图谱。
4.如权利要求3所述的一种基于知识推理的大数据业务标签的扩展方法,其特征在于:所述知识图谱框架具备业务本体规则模型和同义词库,所述本体规则模型由业务专家构建,框架内的同义词库来自于实际业务知识。
5.如权利要求1所述的一种基于知识推理的大数据业务标签的扩展方法,其特征在于:于步骤S303中,利用图谱路径计算检查实体属性与业务知识的关联性;通过图谱路径计算,获取关联组合,再把路径组合的途经点输入推理机,使用向量化K中心距算法计算路径与本体规则模型的关联权重。
6.如权利要求5所述的一种基于知识推理的大数据业务标签的扩展方法,其特征在于:所述向量化K中心距算法将若干条最优路径组合成一个语义的有向无环图,遍历本体规则模型中的关系规则;计算每一条规则的语义元素在当前路径组合中按照语义顺序出现的重合以及联通的频度综合计算权重,从而计算出整条规则的关联权重。
7.如权利要求6所述的一种基于知识推理的大数据业务标签的扩展方法,其特征在于:所述图谱路径计算采用前向排序算法,于每两个相邻途径点之间找出若干条最优路径,然后将每一步的最优路径组合联通对权重进行排序,从而得到全局的最优路径。
8.一种基于知识推理的大数据业务标签的扩展系统,包括:
标签选取及关键词搜索单元,用于从预设的业务标签树中选中待扩展标签X以及标签下属关键词集合K,并利用搜索引擎搜索每一个关键词,获得结果相关URL集合C;
知识图谱构建单元,对每一个关键词kn,遍历集合C中其对应的URL,从每个URL的网页获取文本内容,对文本进行语义分析,抽取与该关键词有关联的语义对象和语义关系,利用预设的知识图谱框架构建语义关系知识图谱;
校验单元,利用所述知识图谱构建单元构建的语义关系知识图谱,结合预制的本体规则模型,以选中的待扩展标签X为依据,对所述语义关系知识图谱中的实体对象进行校验和筛选,并于完成所有实体的校验后,将通过校验的实体的属性内容以关键字的形式加入到结果集合中;所述校验单元包括:
实体名称校验模块,用于校验实体名称,检查是否有重名或同义词,若存在,则进行属性合并;
属性定义域校验模块,用于校验属性定义域,检查属性值是否在本体限定的值域内,若不满足则筛除该属性;
逻辑关联校验模块,用于校验关键词与实体对象属性值的逻辑关联,通过图谱路径计算得到属性值与标签之间的联通路径与权重,剔除不满足本体规则的联通路径,其余关联保留;
结果集合形成模块,用于将通过校验的实体属性加入结果集合,并按照权重排序;
循环判断处理单元,用于判断所述结果集合的规模是否达到预设的扩展规模Nmax,若已达到则结束所有步骤,否则将所述结果集合中已有的关键词作为集合K,并返回到所述标签选取及关键词搜索单元继续进行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010543081.5A CN111737400B (zh) | 2020-06-15 | 2020-06-15 | 一种基于知识推理的大数据业务标签的扩展方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010543081.5A CN111737400B (zh) | 2020-06-15 | 2020-06-15 | 一种基于知识推理的大数据业务标签的扩展方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111737400A CN111737400A (zh) | 2020-10-02 |
CN111737400B true CN111737400B (zh) | 2023-06-20 |
Family
ID=72649213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010543081.5A Active CN111737400B (zh) | 2020-06-15 | 2020-06-15 | 一种基于知识推理的大数据业务标签的扩展方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737400B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111930967B (zh) * | 2020-10-13 | 2021-02-09 | 北京泰迪熊移动科技有限公司 | 一种基于知识图谱的数据查询方法、装置及存储介质 |
CN112364180A (zh) * | 2020-11-26 | 2021-02-12 | 上海天旦网络科技发展有限公司 | 基于知识图谱的标签定义和计算的方法及系统 |
CN112580810A (zh) * | 2020-12-22 | 2021-03-30 | 济南中科成水质净化有限公司 | 一种基于有向无环图的污水处理工艺分析诊断方法 |
CN113469732A (zh) * | 2021-06-11 | 2021-10-01 | 北京百度网讯科技有限公司 | 基于内容理解的审核方法、装置及电子设备 |
CN113590839B (zh) * | 2021-07-30 | 2024-06-18 | 支付宝(杭州)信息技术有限公司 | 知识图谱的构建方法、目标业务的执行方法及装置 |
CN113361979B (zh) * | 2021-08-10 | 2021-11-16 | 湖南高至科技有限公司 | 面向剖面本体建模方法、装置、计算机设备和存储介质 |
CN114996507B (zh) * | 2022-06-10 | 2024-08-06 | 北京达佳互联信息技术有限公司 | 视频推荐方法及装置 |
CN114996319B (zh) * | 2022-08-01 | 2022-11-04 | 税友软件集团股份有限公司 | 基于规则引擎的数据处理方法、装置、设备及存储介质 |
CN115470705B (zh) * | 2022-09-19 | 2023-08-08 | 贵州航天云网科技有限公司 | 基于ai算法的智能业务建模方法 |
CN116383412B (zh) * | 2023-06-05 | 2023-09-15 | 中国电子科技集团公司信息科学研究院 | 基于知识图谱的功能点扩增方法和系统 |
CN116826933B (zh) * | 2023-08-30 | 2023-12-01 | 深圳科力远数智能源技术有限公司 | 一种基于知识图谱混合储能电池供电反步控制方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101604324A (zh) * | 2009-07-15 | 2009-12-16 | 中国科学技术大学 | 一种基于元搜索的视频服务网站的搜索方法及系统 |
CN103577549A (zh) * | 2013-10-16 | 2014-02-12 | 复旦大学 | 一种基于微博标签的人群画像系统和方法 |
CN104699851A (zh) * | 2015-04-08 | 2015-06-10 | 上海理想信息产业(集团)有限公司 | 一种大数据环境下业务标签的扩展方法 |
CN105205699A (zh) * | 2015-09-17 | 2015-12-30 | 北京众荟信息技术有限公司 | 基于酒店点评的用户标签和酒店标签匹配方法及装置 |
CN109710621A (zh) * | 2019-01-16 | 2019-05-03 | 福州大学 | 结合语义类节点与边权重的关键词搜索ksanew算法 |
CN109948150A (zh) * | 2019-03-01 | 2019-06-28 | 北京航空航天大学 | 一种多域环境中基于知识图谱的高性能服务语境发现方法 |
CN110390022A (zh) * | 2019-06-21 | 2019-10-29 | 厦门美域中央信息科技有限公司 | 一种自动化的专业知识图谱构建方法 |
CN110659301A (zh) * | 2014-03-11 | 2020-01-07 | 谷歌有限责任公司 | 用于本机应用内容验证的方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10534863B2 (en) * | 2017-02-06 | 2020-01-14 | Thomson Reuters Global Resources Unlimited Company | Systems and methods for automatic semantic token tagging |
-
2020
- 2020-06-15 CN CN202010543081.5A patent/CN111737400B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101604324A (zh) * | 2009-07-15 | 2009-12-16 | 中国科学技术大学 | 一种基于元搜索的视频服务网站的搜索方法及系统 |
CN103577549A (zh) * | 2013-10-16 | 2014-02-12 | 复旦大学 | 一种基于微博标签的人群画像系统和方法 |
CN110659301A (zh) * | 2014-03-11 | 2020-01-07 | 谷歌有限责任公司 | 用于本机应用内容验证的方法和系统 |
CN104699851A (zh) * | 2015-04-08 | 2015-06-10 | 上海理想信息产业(集团)有限公司 | 一种大数据环境下业务标签的扩展方法 |
CN105205699A (zh) * | 2015-09-17 | 2015-12-30 | 北京众荟信息技术有限公司 | 基于酒店点评的用户标签和酒店标签匹配方法及装置 |
CN109710621A (zh) * | 2019-01-16 | 2019-05-03 | 福州大学 | 结合语义类节点与边权重的关键词搜索ksanew算法 |
CN109948150A (zh) * | 2019-03-01 | 2019-06-28 | 北京航空航天大学 | 一种多域环境中基于知识图谱的高性能服务语境发现方法 |
CN110390022A (zh) * | 2019-06-21 | 2019-10-29 | 厦门美域中央信息科技有限公司 | 一种自动化的专业知识图谱构建方法 |
Non-Patent Citations (4)
Title |
---|
learning entity and relation embeddings for knowledge graph completion;YanKai Lin等;proceedings of the AAAI conference on artificial intelligence;第29卷(第1期);2181-2187 * |
基于多源数据融合的Java代码知识图谱构建方法研究;苏佳;苏小红;王甜甜;;智能计算机与应用;第10卷(第05期);9-13 * |
基于标签本体的MARC元数据扩展机制研究;魏来等;数字图书馆论坛(第2期);37-42 * |
自动化构建的中文知识图谱系统;鄂世嘉;林培裕;向阳;;计算机应用;第36卷(第04期);992-996+1001 * |
Also Published As
Publication number | Publication date |
---|---|
CN111737400A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737400B (zh) | 一种基于知识推理的大数据业务标签的扩展方法及系统 | |
CN108959433B (zh) | 一种从软件项目数据中提取知识图谱并问答的方法与系统 | |
US8910120B2 (en) | Software debugging recommendations | |
CN113822067A (zh) | 关键信息提取方法、装置、计算机设备及存储介质 | |
US20140163959A1 (en) | Multi-Domain Natural Language Processing Architecture | |
CN103440314A (zh) | 一种基于Ontology的语义检索方法 | |
Du et al. | An approach for selecting seed URLs of focused crawler based on user-interest ontology | |
CN111859969B (zh) | 数据分析方法及装置、电子设备、存储介质 | |
CN114218472A (zh) | 基于知识图谱的智能搜索系统 | |
CN103425740A (zh) | 一种面向物联网的基于语义聚类的物资信息检索方法 | |
CN103226601B (zh) | 一种图片搜索的方法和装置 | |
Schorlemmer et al. | Institutionalising ontology-based semantic integration | |
CN105335510A (zh) | 文本数据高效搜索方法 | |
Cheng et al. | A similarity integration method based information retrieval and word embedding in bug localization | |
CN116795859A (zh) | 数据分析方法、装置、计算机设备和存储介质 | |
CN115130601A (zh) | 基于多维特征融合的二阶段学术数据网页分类方法及系统 | |
Embley et al. | Theoretical foundations for enabling a web of knowledge | |
CN114637766B (zh) | 基于自然资源产业链知识图谱的智能问答方法及系统 | |
Liu et al. | MVDLite: A fast validation algorithm for Model View Definition rules | |
CN110309258A (zh) | 一种输入检查方法、服务器和计算机可读存储介质 | |
Chen et al. | A semantic based information retrieval model for blog | |
Tang et al. | Ontology-based semantic retrieval for education management systems | |
CN112632237A (zh) | 一种基于知识图谱的问答模板自动生成方法及装置 | |
Feng et al. | Intelligent question answering system based on knowledge graph | |
Kumar et al. | A Semantic Query Transformation Approach Based on Ontology for Search Engine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |