CN113505600A

CN113505600A - 一种基于语义概念空间的工业产业链的分布式索引方法

Info

Publication number: CN113505600A
Application number: CN202110687741.1A
Authority: CN
Inventors: 李攀硕; 邓作林; 鲁仁全; 徐雍
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2021-10-15
Anticipated expiration: 2041-06-21
Also published as: CN113505600B

Abstract

本发明公开了一种基于语义概念空间的工业产业链的分布式索引方法，包括：建立基于工业大数据和网络特征分析的语义概念空间模型，语义概念空间是一个由数据集、关键词层语义链网络tSLN以及概念层语义链网络cSLN共同构成的一个开放系统；tSLN为关键词语义链网络，由所有关键词集合T与所有关键词之间的语义关系集合构成，cSLN为概念层语义链网络，由概念集合C与概念及其语义关系构成。对语义概念空间中进行预处理，然后对预处理之后的数据进行分布式构建并储存在各个分布式节点上；获取用户的检索要求，并分发到各个节点上，节点获得请求后，开始检索语义概念空间并返回检索结果，对节点返回的数据进行合并排序，返回给用户。

Description

一种基于语义概念空间的工业产业链的分布式索引方法

技术领域

本发明涉及语义概念空间与分布式索引技术领域，特别涉及一种基于语义概念空间的工业产业链的分布式索引方法。

背景技术

依据《新一代人工智能发展规划》，新一代人工智能技术将围绕大数据智能、群体智能、工业自主智能系统等方向持续攻关，并从基础理论、支撑体系、关键技术、创新应用等层面构筑知识群、技术群和产品群的生态环境。本发明针对工业产业链领域的语义概念空间的构建、语义分析、筛选与更新等，借助深度学习、人工智能、并行关联规则增量更新算法等技术，旨在构建概念引导的语义空间分布式索引方法。

工业产业链系统中存在大量需要语义识别的环节。传统的语义概念空间构建已有了一些应用，然而其大多面向单一的工业领域，针对来源广、数据量大且类型多样的工业大数据还存在一些不足。因此，针对工业数据来源广、数据量大且类型多样，造成的检索效率低、更新速度慢等问题。

现有技术的一些方法中，利用跨模态数据库，计算查询样例和查询目标的相似性，根据相似性得到目标模态数据的相关结果列表。然而，上述专利通过根据语义关系进行跨数据库进行相似性搜索，在数据量庞大的工业产业链领域，搜索准确率不高。

发明内容

本发明的目的是提供一种基于语义概念空间的工业产业链的分布式索引方法，通过对产业链的工业语义数据进行建模，建立语义分析，以对差异化工业大数据的快速多样访问需求。

为了实现上述任务，本发明采用以下技术方案：

一种基于语义概念空间的工业产业链的分布式索引方法，包括：

步骤1，建立基于工业大数据和网络特征分析的语义概念空间模型

语义概念空间是一个由数据集、关键词层语义链网络tSLN以及概念层语义链网络cSLN共同构成的一个开放系统；

首先通过对工业领域中从客户需求到销售、订单、计划、研发、设计、工艺、制造、采购、供应、库存、发货和交付、售后服务、运维、报废或回收再制造整个产品全生命周期各个环节所产生的各类数据，包括生产经营相关业务数据，设备物联数据，外部数据，进行归一化与标准化处理并构建数据集；然后针对数据集进行语义信息挖掘，文本分词，关键词提取和关联规则获取，得到关键词集合和概念集合；

关键词层语义链网络tSLN是由关键词及其语义关系集合R^T构成的网络，表示为：

tSLN＝<T,R^T>＝<T,R^T＝{t_it_j,[w_a,w_s],1<t_i,t_j<T}>

其中T为网络的顶点集合或称为关键词集合，每个顶点表示一个关键词；R^T表示网络中边的集合，关键词之间可以同时存在多种语义关系，其中t_i,t_j为边的两个顶点，w_a边表示两个顶点t_i,t_j之间的关联语义关系的权值，w_s表示两个顶点t_i,t_j之间的相似语义关系的权值；

采用关联语义关系的关键词语义链网络的构建算法为：

获取数据集中的关键词集合，利用关联规则集合算法获取关键词集合中任意两个关键词的关联规则；

以关键词集合T作为tALN的顶点集合，顶点集合中的每个顶点为一个关键词；

为每两个关键词(A，B)之间设置一个关联语义关系的权值，设置规则是：

如果AR_AB存在，则WAR_AB＝weight_AB，否则WAR_AB＝0；AR_AB表示从关键词A到关键词B的关联规则，weight_AB表示AR_AB的权值，初始权值由使用者自行设定；

根据关键词语义链网络中关联规则的使用情况不断更新关键词之间的关联语义关系的权值；

通过设置不同的关键词对的关系权值，建立关键词之间的连接，形成关键词层语义链网络；

概念层语义链网络cSLN是由概念集合C所有的概念及其语义关系R^C构成的网络，表示为：

cSLN＝<C,R^C>＝<c,R^C＝{c_ic_j,[w_a,w_s],1<i,j<|C|,0<[w_a,w_s]<1}>

其中C是网络的顶点集合，每个顶点表示一个概念；R^C是网络中边的集合，概念之间存在着多种语义关系，每条边描述为一个三元组(c_ic_j,[w_a,w_s]),其中c_ic_j为两个边的顶点，w_a表示c_ic_j之间的关联语义关系的权值，而w_s表示c_ic_j之间相的似语义关系的权值；

所述概念层语义链网络cSLN的构建方法为：

选取概念集合的中心节点概念作为候选概念，通过度分步法，绘制顶点度分布曲线，虚线为度，而实线为对应顶点数量曲线，二条线的交点即为所求的度阈值，设定节点度的阈值，度大于阈值的概念作为候选概念；

为每一个概念选择属性词及属性词的语义关系对概念进行语义表示，构建概念的小粒度语义空间：首先，构造概念的候选属性集，从概念集合中，依次选取概念节点的一阶邻居节点概念、二阶邻居节点概念、……作为候选属性形成概念的候选属性集；然后，从候选属性集中筛选概念的属性；从候选属性集中不断选择概念加入概念的语义空间，直到空间进入稳定状态为止；

步骤2，分布式索引构建

首先，对语义概念空间中的关键词语义链网络tSLN和概念层语义链网络cSLN进行预处理，然后对预处理之后的数据进行分布式构建并储存在各个分布式节点上；获取用户的检索要求，并分发到各个节点上，节点获得请求后，开始检索语义概念空间并返回检索结果，对节点返回的数据进行合并排序，返回给用户。

进一步地，所述根据关键词语义链网络中关联规则的使用情况不断更新关键词之间的关联语义关系的权值，包括：

使用关联规则ARC的贡献率来代表AR_AB的重要程度，其中p是此关联规则AR_AB的已使用数量，q是所有关联规则的已使用总数；

定义关联规则贡献率为ARC＝p/q；当用户查询过程中，同时关联了关键词A和关键词B，则增加了关联规则AR_AB的使用次数；

关键词A和B之间的关系受以上两个因素影响，对关键词对(A，B)的关联规则AR_AB的权值weight_AB更新为：

kaw_AB＝α*weight_AB+β*weight_AB*ARC，α+β＝1，要求α＞β。

进一步地，如某关键词对的关联规则在用户查询过程中没有用到，则该关键词对的关联规则的权值采用初始权值不进行修正。

进一步地，所述关键词包括单个的词以及各种短语、词组。

进一步地，当只使用其中的某一种语义的时候，将另一种语义关系权值设置为0。

进一步地，所述初始权值在0.4-0.6之间。

进一步地，所述对语义概念空间中的关键词语义链网络tSLN和概念层语义链网络cSLN进行预处理，然后对预处理之后的数据进行分布式构建并储存在各个分布式节点上，包括：

基于建立的语义概念空间，进行聚类去重处理，采用Lucene分词处理语义概念空间的数据，进行封装处理，并形成文件块；

Hadoop分布式文件系统将文件块划分为数据块，通过Map-Reduce进行语义数据分解处理，建立多个由关键词/概念及文件名列表相关的索引文件；

将所得索引文件上传到分布式系统上，根据关键字/概念的不同，以及文件内容属性存放在不同的位置，进行数据分块并将索引文件分别储存到个分布式系统中的各个节点。

与现有技术相比，本发明具有以下技术特点：

1.本发明采用关联语义词方法对语义数据进行建模，解决了数据量庞大，差异化明显的工业大数据分布式索引存储难的问题，相较于传统的针对单一文本语义数据建模，可以获得应用范围更广，覆盖多个产业流程的工业语义概念空间模型。

2.实际工业语义数据中存在着数据量大、动态约束复杂、语义关系混乱等复杂情况，本发明采用主成分分析法，通过对工业大数据进行分析，确定不同语义数据之间的关系和影响权值，并根据分析结果建立不同的权值比；结合网络特征分析的语义概念空间模型，分析了不同语义的相互关系，对知识库中符合条件的语义数据的进行有效提取，提高了语义搜索的准确性。

3.采用了基于Hadoop的分布式框架进行最终的索引构建，提高了索引效率。

附图说明

图1为语义概念空间模型的构建示意图；

图2为分布式索引构建的示意图。

具体实施方式

本发明提供一种基于语义概念空间的工业产业链的分布式索引方法，通过对高维工业语义空间的增量更新与分布式混合索引技术的研究，在所提供的知识库与知识模型的基础上，对知识进行有效提取与补充，基于所提取知识构建语义空间模型，最后实现分布式混合索引。

参见附图，本发明的一种基于语义概念空间的工业产业链的分布式索引方法，包括以下步骤：

语义概念空间：语义概念空间(Concept Semantic Space,TCSS)是一个由数据集、关键词层语义链网络(关键词及其语义关系集合)、以及概念层语义链网络(概念及其语义关系集合)共同构成的一个开放系统，是概念语义运动的空间；TCSS表示为TCSS＝<D,tSLN:(T,R^T),cSLN:(c,R^C)>,其中D是进入TCSS的文本集合，tSLN为关键词语义链网络，由所有关键词集合T(TCSS的关键词集合)与T中所有关键词之间的语义关系集合R^T构成，cSLN为概念层语义链网络，由概念集合C与概念及其语义关系R^C构成。

步骤1.1，建立关键词语义链网络

首先通过对工业大数据互联网(即在工业领域中从客户需求到销售、订单、计划、研发、设计、工艺、制造、采购、供应、库存、发货和交付、售后服务、运维、报废或回收再制造等整个产品全生命周期各个环节所产生的各类数据及相关技术和应用，包括生产经营相关业务数据，设备物联数据，外部数据)，进行归一化与标准化处理并构建数据集；然后针对数据集进行语义信息挖掘，文本分词，关键词提取、关联规则获取，得到关键词集合和概念集合。

tSLN是由关键词及其语义关系集合R^T构成的网络，关键词层语义网络表示为：

tSLN＝<T,R^T>＝<T,R^T＝{t_it_j,[w_a,w_s],1<t_i,t_j<T}>

其中T为网络的顶点集合或称为关键词集合，即从工业大数据互联网获取的原始数据，每个顶点表示一个关键词；R^T表示网络中边的集合，关键词之间可以同时存在多种语义关系，其中t_i,t_j为边的两个顶点，w_a边表示两个顶点之间的关联语义关系的权值，w_s表示两个顶点之间的相似语义关系的权值，当只使用其中的某一种语义的时候，将另一种语义关系权值设置为0；其中tALN的顶点为关键词，边为关键词之前的关联语义关系/相似语义关系的权值；采用关联语义关系的关键词语义链网络的构建算法为：

(1)输入：数据集中的关键词集合T和关联规则算法，例如采用关联规则集合Apriori算法，该算法用于搜索两个关键词的关联规则，包括同时出现的次数或概率设置权值。

(2)输出：关键词层关联语义链网络tALN；

(3)算法描述：根据关键词和关联规则构建tALN；

(4)以关键词集合T(关键词不仅包含单个的词，同时也包含各种短语和词组)，作为tALN的顶点集合(每个顶点表示一个关键词)；

(5)确定关键词顶点及关键词集合的初始权值，每两个关键词(A，B)之间设置一个关联规则的初始权值，即所述的关联语义关系的权值：

如果AR_AB存在，则WAR_AB＝weight_AB，否则WAR_AB＝0；AR_AB表示从关键词A到关键词B的关联规则，weight_AB表示AR_AB的权值，由使用者自行设定；初始权值在0.4-0.6之间。

(6)修正顶点边tALN权值：

尽管关联规则AR_AB的权值WAR_AB可能很大，但是不确定关键词A和关键词B之间的关系是否牢固；通常，连续使用的AR_AB应比不经常使用的AR_AB更重要。根据关键词语义链网络中关键词的使用情况不断更新关键词之间的关联语义关系的权值，即在网络使用过程中，根据用户对关联规则的使用情况，进行权值的修正，具体如下：

本方案中使用关联规则(ARC)的贡献率来代表AR_AB的重要程度，其中p是此关联规则AR_AB的已使用数量，q是所有关联规则的已使用总数。

通过分析tALN的构造和使用情况可以得出p和q：

定义关联规则贡献率为ARC＝p/q，其中p为某关联规则AR_AB的使用的次数，q为所有关联规则使用的总次数；当用户查询过程中，同时关联了关键词A和关键词B，则增加了关联规则AR_AB的使用次数，后续用来修改关键词之间的关系权值。如某关键词对的关联规则在用户查询过程中没有用到，则该关键词对的关联规则的权值采用初始权值不进行修正。

kaw_AB＝α*weight_AB+β*weight_AB*ARC，α+β＝1，要求α＞β；本实施例中，设置α＝0.65andβ＝0.35。

(7)通过设置不同的关键词对的关系权值，建立关键词之间的连接，形成关键词层语义链网络；

(8)最终建立关键词层语义网络，然后基于关键词层语义链网络，进行概念提取。

步骤1.2，建立概念层语义网络

概念层语义网络：概念层语义链网络cSLN是由数据集的中概念集合C所有的概念及其语义关系R^c构成的网络，表示为cSLN＝<C,R^C>＝<c,R^C＝{c_ic_j,[w_a,w_s],1<i,j<|C|,0<[w_a,w_s]<1}>,其中C是网络的顶点集合，每个顶点表示一个概念；R^C是网络中边的集合，同理，概念之间存在着多种语义关系，本方案只考虑关联和相似两种类型的语义关系，所以每条边描述为一个三元组(c_ic_j,[w_a,w_s]),其中c_ic_j为两个边的顶点，w_a表示c_ic_j之间的关联语义关系的权值，而w_s表示c_ic_j之间相的似语义关系的权值。当只使用其中一种语义关系时，可以将另一种语义关系的权值设0。

选取概念集合的中心节点概念作为候选概念，通过度分步法，绘制顶点度分布曲线，虚线为度，而实线为对应顶点数量曲线，二条线的交点即为所求的度阈值，设定节点度的阈值，度大于阈值的概念作为候选概念。然后，为每一个概念选择属性词及属性词的语义关系对概念进行语义表示，构建概念的小粒度语义空间，首先，构造概念的候选属性集，从概念集合中，依次选取概念节点的一阶邻居节点概念、二阶邻居节点概念、……作为候选属性形成概念的候选属性集；然后，从候选属性集中筛选概念的属性。从候选属性集中不断选择概念加入概念的语义空间，直到空间进入稳定状态为止，稳定状态例如可以为语义空间中已有5个以上概念；由此生成概念空间网络。

步骤2，分布式索引构建

基于Hadoop的语义快速索引构建和分布式检索

Hadoop是一个分布式系统基础架构，其包括Hadoop分布式文件(HDFS)系统和MapReduce编程模型，HDFS能为应用程序提供高吞吐量的数据访问，能简化数据一致性问题，

MapReduce主要用于大规模数据集的并行运算，通过把数据集的大规模操作分发给网络上的每个节点实现可靠性。基本思路为将语义数据分块由HDFS负责，HDFS自动将数据划分为数据块，在数据分块时MapReduce将数据块处理成一个个的Map任务，在Map函数中执行文档的解析及索引，生成中间文件，然后在Reduce函数中通过合并这些中间文件来创建索引。

首先预对语义概念空间中的关键词语义链网络tSLN或概念层语义链网络cSLN进行预处理，包括去重，聚类，为索引模块提供有效的原数据，然后，对预处理之后的语义数据进行分布式构建并储存在各个分布式节点上，将MapReduce集合到索引构建中，提高了构建索引效率。获取用户的检索要求，并分发到各个节点上，节点获得请求后，检索系统开始检索语义概念空间(本地索引文件)并将检索结果返回给系统，并对节点返回的数据进行合并排序，返回给用户；其中，MapReduce集合在数据分块时将数据块处理成一个个的Map任务，在Map函数中执行文档的解析及索引，生成中间文件，具体如下：

基于步骤1所建立的语义概念空间，进行聚类去重处理，采用Lucene分词处理语义概念空间的海量语义数据，进行封装处理，并形成文件块；

HDFS自动将文件块划分为数据块，通过Map-Reduce进行语义数据分解处理，建立多个由关键词/概念及文件名列表相关的索引文件；

将所得索引文件上传到分布式系统上，根据关键字/概念的不同，以及文件内容属性存放在不同的位置；进行数据分块并将索引文件分别储存到个分布式系统中的各个节点；根据检索要求，分发到各个节点，用户检索的时候，各个节点根据请求识别检索内容，返回检索结果并进行排序与合并，之后返回给用户。

读写功能模块：将语义概念空间中的海量数据进行封装，并且继承了可存放数据的接口，用于Hadoop节点之间的数据传输。

输出类的创建：格式化输出类FileOutputFormat的一个类，可以定义特有的输出格式，即索引的输出格式。

索引类的创建：基于上述输出类的创建，实际生成索引文件的类，它封装了开源框架Lucene的IndexWriter类和hadoop中的FileSystem类，可以方便进行分布式索引构建。

通过函数map读取语义概念空间的数据(即原始文件)，通过正则提取有效信息进行封装，之后将封装好的数据传输到Reduce节点。

函数Reduce读取从map封装好的数据，并进行合并，最后调用输出类初始化索引构建资源，最后调用索引类函数将合并后的语义数据写入索引文件。

最后通过函数IndexWriter生成索引文件，将Reduce中传输过来的数据进行解析，然后封装，最后写入索引文件。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种基于语义概念空间的工业产业链的分布式索引方法，其特征在于，包括：

tSLN＝<T,R^T>＝<T,R^T＝{t_it_j,[w_a,w_s],1<t_i,t_j<T}>

采用关联语义关系的关键词语义链网络的构建算法为：

cSLN＝<C,R^C>＝<c,R^C＝{c_ic_j,[w_a,w_s],1<i,j<|C|,0<[w_a,w_s]<1}>

所述概念层语义链网络cSLN的构建方法为：

步骤2，分布式索引构建

对语义概念空间中的关键词语义链网络tSLN和概念层语义链网络cSLN进行预处理，然后对预处理之后的数据进行分布式构建并储存在各个分布式节点上；获取用户的检索要求，并分发到各个节点上，节点获得请求后，开始检索语义概念空间并返回检索结果，对节点返回的数据进行合并排序，返回给用户。

2.根据权利要求1所述的基于语义概念空间的工业产业链的分布式索引方法，其特征在于，所述根据关键词语义链网络中关联规则的使用情况不断更新关键词之间的关联语义关系的权值，包括：

kaw_AB＝α*weight_AB+β*weight_AB*ARC，α+β＝1，要求α＞β。

3.根据权利要求2所述的基于语义概念空间的工业产业链的分布式索引方法，其特征在于，如某关键词对的关联规则在用户查询过程中没有用到，则该关键词对的关联规则的权值采用初始权值不进行修正。

4.根据权利要求1所述的基于语义概念空间的工业产业链的分布式索引方法，其特征在于，所述关键词包括单个的词以及各种短语、词组。

5.根据权利要求1所述的基于语义概念空间的工业产业链的分布式索引方法，其特征在于，当只使用其中的某一种语义的时候，将另一种语义关系权值设置为0。

6.根据权利要求1所述的基于语义概念空间的工业产业链的分布式索引方法，其特征在于，所述初始权值在0.4-0.6之间。

7.根据权利要求1所述的基于语义概念空间的工业产业链的分布式索引方法，其特征在于，所述对语义概念空间中的关键词语义链网络tSLN和概念层语义链网络cSLN进行预处理，然后对预处理之后的数据进行分布式构建并储存在各个分布式节点上，包括：