CN103425740B

CN103425740B - 一种面向物联网的基于语义聚类的物资信息检索方法

Info

Publication number: CN103425740B
Application number: CN201310290805.XA
Authority: CN
Inventors: 叶宁; 赵婷婷; 王汝传; 林巧民; 王忠勤
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2013-07-11
Filing date: 2013-07-11
Publication date: 2016-06-22
Anticipated expiration: 2033-07-11
Also published as: CN103425740A

Abstract

本发明是一种面向物联网的基于语义聚类的物资信息检索方法，基于语义分析及PML，结合分层聚类技术，对大规模存在于EPCIS中的物资信息实现有效且快速的信息检索。本发明提供一种基于Web平台的适用于新兴物联网领域的RFID和EPC物资管理系统的信息检索方法。目前已研究的检索方法与EPC系统的简单结合，并不能满足该系统存储量的规模，本方法基于用户的Web查询意向，将聚类算法运用到EPCIS中的信息检索中，通过使用本发明提出的方法可以在一定程度上提高物联网信息检索的便捷性，以及更加有利于用户选择符合自己需求的检索信息，从而进一步提高了用户查找物资的效率和准确性。

Description

一种面向物联网的基于语义聚类的物资信息检索方法

技术领域

本发明是一种用于物联网中物资管理领域的物资信息检索方法，基于语义分析及PML，结合分层聚类技术，对大规模存在于EPCIS中的物资信息实现有效且快速的信息检索。本技术属于在物联网中物资信息检索的应用领域。

背景技术

物联网是新一代信息技术的重要组成部分，是在计算机互联网的基础上，利用RFID、无线数据通信等技术，构造一个覆盖世界上万事万物的“InternetofThings”，在这个网络中，物资可以实现彼此“交流”，且无需人为干预。实质是利用无线射频识别（RFID）技术，通过计算机互联网实现物资的自动识别和信息的互联与分享，其中RFID是一种能够使物资“开口说话”的技术，RFID标签存储着规范而具有互用性的信息，通过无线数据通信网络，把它们自动采集到中央信息系统，实现物资的识别，进一步通过开放性的计算机网络实现信息交换和共享，以及对物资的“透明”管理，从而实现各行各业的智能化。通过智能感知、识别技术和普适计算、泛在网络的融合应用，物联网被称为继计算机、互联网之后的世界信息产业发展的第三次浪潮。

信息革命推动了物资管理系统的发展，计算机等信息设备日益成为出库管理的主要应用设备。传统的物资管理系统已经存在多年，在经济社会转型时代，RFID的出现以及其自身的优势对物资管理系统的发展必将带来一次很大的变革，也必然对文化服务行业注入新的血液。射频识别标签具有资料容量大、内容可自动修改、读取范围大和经久耐用等特点，同时还有穿透性和耐污染等功能，高频读写器使得标签读取的效率大大提高。物资管理系统引进RFID技术可协助寻找与定位，加快物资流通速度，降低错架、乱架率，提高盘点效率，准确计算借用率，克服了其他物资管理系统的诸多功能局限，大大扩展了系统的功能和竞争力，提高了系统可视信息化水平，成为该领域发展的一个新的选择。同时，信息技术的迅速发展和其成本的不断降低，使得物资管理能够不断采用新型的信息技术来完成上述目标，极大地提高了物资管理的运作效率与效益。

语义分析是根据人的联觉和联想建立起来的，是编译过程的一个重要的逻辑阶段，主要任务是对结构上正确的源程序进行上下文有关性质的审查以及类型的审查。在一个社会网络中常有节点之间的信息交流，可以对这种网络进行分析以获得和理解文本信息的这种强大的技术被称为语义网消息传输分析，即语义分析。它为知识推理和语言提供了一个结构和过程，是一种广泛应用在人工智能和计算语言学的方法。

聚类方法是将物理或抽象对象的集合组成为由类似的对象组成的多个类的过程，由聚类所组成的簇是一组数据对象的集合，它们与同一簇中的对象彼此类似，却和其他簇中的对象相异。聚类是研究数据逻辑上或物理上的相互关系的技术，分析结果可以揭示数据间的内在联系和区别，还可以为进一步的数据分析和知识发现提供重要依据。层次聚类是对给定的数据集进行层次的分解，直到满足条件为止，是将所有的样本点自底向上合并成一棵树或者自顶向下分类成一颗树的过程，即凝聚或分裂，本发明采用的是凝聚层次算法，即初始阶段将每个样本点分别作为其类簇，然后合并这些原子类簇，直至达到预期的类簇数或者其他终止条件，这是一种快速而有效的层次聚类算法，大大提高了我们信息检索的速度，而且采用的算法更加重视检索信息的用户的需求。

EPC码识别单品，但是所有关于产品的有用信息都是用一种新型的标准的计算机语言---实体标记语言（PML）所书写，这是一种基于为人们广为接受的可扩展标记语言（XML）发展而来。PML语言提供一种通用的标准化词汇来表示EPC网络所能识别物体的相关信息，这是一个广泛的层次结构，且使用共同的命名和设计原则。除了不会更改的产品信息（物质成分等），PML还包括动态数据和时序数据，其中动态数据包括船运水果的温度或者一个机器震动的级别等，而时序数据在整个物资的生命周期中，离散且间歇地变化，如物资所处的地点等。PML不是取代现有的商务交易词汇或任何其它的XML应用库，而是通过定义一个新的关于EPC网络系统中相关数据的数据库来弥补原有系统的不足。

发明内容

技术问题：本发明的目的是提供一种基于Web平台的适用于新兴物联网领域的RFID和EPC物资管理系统的信息检索方法。目前已研究的检索方法与EPC系统的简单结合，并不能满足该系统存储量的规模，本方法基于用户的Web查询意向，将聚类算法运用到EPCIS中的信息检索中，通过使用本发明提出的方法可以在一定程度上提高物联网信息检索的便捷性，以及更加有利于用户选择符合自己需求的检索信息，从而进一步提高了用户查找物资的效率和准确性。

技术方案：本发明的方法是一种启发性方法，采用语义分析方法，解析用户在Web平台上的查询意向，分析提取出关键词，依次按照词频的高低赋予每个关键词一个优先数，按照优先数的等级顺序将关键词归一化为PML文件，再使用凝聚层次算法自底向上地将EPCIS管理下的EPC物资管理系统数据库中数据进行聚类，得到符合用户需求的物资信息，这里所返回的结果是一种以文件夹与子文件夹的格式展现的，用户可以从中选择最适合自己需求的物资。

一、体系结构

在面向物联网的基于语义聚类的物资信息检索方法中，针对EPC物资管理系统的查询，用户在Web页面上输入自己的查询意向。通常用户的查询意向中或多或少地包含以下信息：

(1)所需查询物资的生产厂家或品牌信息，一般为厂家名称或者品牌名称等；

(2)所需查询物资的信息，如物资名称，材料，颜色，形状等特征信息；

(3)物资发行或者上市的时间区间；

使用语义分析方法提取用户输入的查询意向中的关键信息。

根据已有的词频表，为每个关键词分配一个优先数，作为聚类的先后依据。

基于物联网拥有适用于自身系统的标记语言，所以我们要将所有的关键词归一化成PML的形式，图1说明了PML的主要功能。直接从基层设备中可采集的信息作为PML的一部分，对于标准的PML语言信息模型定义如下：

（1）单个物资的物理属性，如质量，材质，形状等；

（2）一群物体的环境属性，如温度等；

（3）位置信息，比如曾位于X位置；

（4）各种信息的组合等。

根据归一化的顺序，依次对EPCIS管理下的数据库信息进行凝聚层次聚类，

此处的凝聚层次算法定义如下：

初始阶段，将每个样本点分别作为自身的类簇，然后根据当前优先数最高的关键词合并这些原子类簇，将相似度划分为两个区间：0--50%、51%--100%，将所有相似度在每个区间的原子簇分别合并到两个文件夹，下一步都是对上一步产生的51%--100%文件夹进行新的聚类，直达聚类过程将所有的关键词都用完为止。

最终的结果就是将符合条件的数据以文件夹和子文件夹的层次形式展现在

用户检索的页面上，其中文件夹是以当前的特征关键词及相似度区间命名的。

在此基础上，用户根据自己的需求在层次分布的文件夹中查找确切符合自身需求的物资信息。

二、方法流程

物联网环境下，数据存储的规模变得越来越大，存储容量从以前的TB级上升到PB级甚至EB级，并且随着存储系统规模的不断增大，相比于互联网环境下查找信息而言，用户从这种与时间、空间有关的海量的流数据中查找满足需求的信息变得异常困难。

本发明面向物联网的基于语义聚类的物资信息检索方法包括语义分析、关键词提取、优先数分配、PML归一化、层次聚类模块，具体步骤为：

步骤1）用户在Web应用平台上输入所要检索物资的相关信息；

步骤2）语义分析的任务就是自动地、批量地对Web页面进行分析，并自动

提取领域的语义信息，采用先对Web内容进行预处理，去除网页内的噪音的方法，以提高语义分析提取信息的速度和精度，具体的语义分析过程如下：

步骤21：对Web页面输入的文本进行噪音清洗处理，就是去除与网页主题无关的内容；

步骤22：对经过噪音清洗的Web页面进行预处理，把相关的内容文本进行短句、词性划分；

步骤23：从经过预处理后的文本中识别出重点词，即文本中基本的信息元素，这些重点词识别依据是现存的人工参与制定的规则；

步骤24：在整个文本中找出个体事实之间的引用和关联关系，通过分析同一事实在文本中不同部分的不同描述，合并相同的实体，整合出更大粒度的信息点，即下一步需要的关键词：；

步骤3）为了减少不必要的重复聚类，进一步提高检索效率，根据现有的词频统计资料，经过相互比较，为词频最低的关键词分配优先数为1，然后依次确定各个层级的关键词的优先数，假设关键词个数为n，具体过程如下:

步骤31：根据已有资料统计各关键词的词频；

步骤32：采用冒泡排序的第一趟算法，两两比较相邻关键词的词频，从而

得到词频的最小值，对该关键词赋予优先数1；

步骤33：重复步骤32，为剩下的关键词分别分配优先数2，3，…,n；

步骤4）根据得到的优先数，按照优先数由大到小的顺序依次将各关键词归一化为PML格式的文件，作为与电子产品代码信息服务EPCIS管理下的数据库进行数据通信的基础；

步骤5）在数据库中采用凝聚层次聚类的方式对数据进行聚类，相似度区间划分为51%--100%、0—50%；最终结果以文件夹和子文件夹的形式展现在用户检索的页面上，文件夹以可变长度的句子命名，具体算法如下：

步骤51：按照上述归一化的顺序，第一个生成的PML描述的关键词作为第一层聚类的特征值，将各原子簇的属性和关键词进行比较，根据相似度分别将它们合并到同一相似度区间的簇中；

步骤52：将得到结果中的每个簇作为整体放入对应的文件夹中，文件夹以聚类采用的关键词及相似度区间共同命名，即“关键词+相似度区间”，所有文件以并列的形式存在；

步骤53：将第二个生成的PML描述的关键词作为第二层聚类的特征值，将步骤52所得的文件名为“关键词+51%--100%”文件夹中的各数据作为原子簇，重复步骤51中聚类过程；

步骤54：将步骤53所得的结果放入按照步骤52的命名原则得到的相应新文件夹中；

步骤55：按照顺序依次对上一步生成的文件进行聚类，每次都是对文件名为“关键词+51%--100%”的文件夹进行新的聚类，直到最后一个关键词聚类完为止。

有益效果：本发明方法提出了利用语义分析方法，采用层次聚类方法实现物联网环境下的EPC物资系统的物资信息检索。通过语义分析提取关键词的方法，在一定程度上提高了用户检索的效率，而通过PML归一化及层次聚类算法，可以进一步提高检索结果的快捷性和精确性。最终以层次排列的文件夹形式返回的检索结果，更是进一步关注了提出需求的用户，而不是他们提出的检索意向。

附图说明

图1PML语言功能主要：充当基层设备中不同部分的接口，

图2面向物联网的基于语义聚类的物资信息检索方法的系统流程图，

图3Web页面语义分析提取关键词过程模型，

图4关键词分配优先数流程图，

图5凝聚层次聚类算法流程图：优先数为n的关键词作为聚类特征值，

图6返回的检索结果的层次结构。

具体实施方式

面向物联网的基于语义聚类的物资信息检索方法的流程图如图2所示：

（1）用户在Web应用平台上输入所要检索物资的相关信息；

（2）语义分析的任务就是自动地、批量地对Web页面进行分析，并自动提取领

域的语义信息。为了进一步提高语义分析提取信息的速度和精度，本发明采用了先对Web内容进行预处理，去除网页内的噪音的方法，具体的语义分析过程如下：

步骤1：对Web页面输入的文本进行噪音清洗处理，就是去除与网页主题无关的内容；

步骤2：对经过噪音清洗的Web页面进行预处理，把相关的内容文本进行短句、词性划分；

步骤3：从经过预处理后的文本中识别出重点词，即文本中基本的信息元素，这些重点词识别依据是现存的人工参与制定的规则；

步骤4：在整个文本中找出个体事实之间的引用和关联关系，通过分析同一事实在文本中不同部分的不同描述，合并相同的实体，整合出更大粒度的信息点，即下一步需要的关键词：。

语义分析提取关键词具体流程如图3所示。

（3）为了减少不必要的重复聚类，进一步提高检索效率，根据现有的词频统计

资料，本发明先为每个关键词分配一个优先数，作为后面操作的参考。经过相互比较，为词频最低的关键词分配优先数为1，然后依次确定各个层级的关键词的优先数，假设关键词个数为n，具体过程如下:

步骤1：根据已有资料统计各关键词的词频；

步骤2：采用冒泡算法的第一趟算法，两两比较相邻关键词的词频，从中得到词频的最小值，对该关键词赋予优先数1；

步骤3：重复步骤2，为剩下的关键词分别分配优先数2，3，…,n（关键词个数）。

关键词分配优先数的流程图如图4所示。

（4）由于物联网拥有使用于自身系统的标记语言，所以我们要将所有的关键词

归一化成PML的形式。根据（3）中得到的优先数，我们按照优先数由大到小的顺序依次将各关键词生成为PML格式的文件，作为与EPCIS(电子产品代码信息服务)管理下的数据库进行数据通信的基础。

（5）物联网中EPCIS管理下的大规模数据库存储的是从传感器获得的海量数

据，从这些数据中检索有用的信息不仅耗时，而且准确性也不高，为了进一步提高检索的速度和精确，本发明在数据库中采用凝聚层次聚类的方式，相似度区间划分为51%--100%、0—50%，最终结果以文件夹和子文件夹的形式展现在用户检索的页面上，这些文件夹以可变长度的句子命名，具体算法如下：

步骤1：按照（4）中归一化的顺序，将第一个生成的PML描述的关键词作为第一层聚类的特征值，将各原子簇的属性和关键词进行比较，根据相似度分别将它们合并到同一相似度区间的簇中；

步骤2：将步骤1所得结果中的每个簇作为整体放入对应的文件夹中，文件夹以聚类采用的关键词以及相似度区间共同命名，即“关键词+相似度区间”，所有文件以并列的形式存在；

步骤3：将第二个生成的PML描述的关键词作为第二层聚类的特征值，将步骤2所得的文件名为“关键词+51%--100%”的文件夹中的各数据作为原子簇，重复步骤1中聚类过程；

步骤4：将步骤3所得的结果放入按照步骤2的命名原则得到新文件夹中；

步骤5：按照顺序依次对上一步生成的文件进行聚类，每次都是对相似度在51%--100%的文件夹进行新的聚类，直到最后一个关键词聚类完为止。

凝聚层次聚类流程图如图5所示。

将（5）所得的最终结果作为用户检索结果返回到页面，用户根据自己的需求进行查找。这种以层次文件夹形式反映的结果弥补了现有的搜索引擎返回的平铺式列表结果的缺陷，用户可以根据自己的搜索需求浏览层次排列的各标签命名的文件夹。

为了方便描述，我们假定一个应用实例：从EPCIS管理下的基于RFID的物资管理系统数据库物资信息中检索一本书的位置信息，用户已知信息有：蓝色、电子工业出版社、出版于2011年、书名为新编计算机网络。利用本发明的思想，从这个大型的数据库中找出符合条件的所有物资信息，结果以各关键词加相似度的文件夹形式返回给用户，供用户进一步进行精确的判断和查找。具体实例描述如下：

（1）：用户在基于RFID的物资管理系统的Web平台上输入查询意向，即已知的检索信息：一本蓝色的由电子工业出版社于2011年出版的书名为新编计算机网络的一本书。

（2）：语义分析提取出检索文本中的关键词：

步骤1：利用噪音清洗模块，去除文本中多余部分，最终剩下蓝色电子工业出版社2011年新编计算机网络书；

步骤2：预处理模块，进行词性划分蓝色、电子工业出版社、2011、新编、计算机网络、书；

步骤3：分析得到重点词，蓝色、电子工业出版社、2011、新编、计算机网络、书；

步骤4：从上述重点词中提炼出关键词，蓝色、电子工业出版社、2011、计算机网络、书，n=5。

（3）：统计词频分配关键词优先数：书的优先数为5,2011的优先数为4，蓝色的优先数为3，电子工业出版社的优先数为2，计算机网络的优先数为1。

注：这里采用人为的优先数分配方式。

（4）：按照优先数为5，4，3，2，1的顺序将所有的关键词蓝色、电子工业出版社、2011、计算机网络、书转换成PML格式的文件。

（5）：使用凝聚层次聚类方法从EPCIS管理下的基于RFID的物资管理系统数据库的物资信息中聚类出符合需求的物资信息，步骤如下：

步骤1：以书作为特征值对基于RFID的物资管理系统数据库进行第一次层次聚类，通过与特征值的比较，计算各个物资信息的相似度，将

的，的物资信息聚类成一个类簇；

步骤2：将所有物资信息聚类成的类簇，存放到一个文件夹中，将所有物资信息聚类成的类簇，存放到另一个文件夹中；

步骤3：并列放置这两个文件夹，前一个文件夹命名为“书+”，后一个文件夹命名为“书+”；

步骤4：依次将优先数为4的2011，优先数为3的蓝色，优先数为2的电子工业出版社，优先数为1的计算机网络作为聚类特征值进行聚类，每一步的聚类都是对上一步生成的文件名为“关键词+”的文件夹内容进行的。

将最终的结果返回到用户检索的页面，以供用户进一步查找符合查询意向：一本蓝色的由电子工业出版社于2011年出版的书名为新编计算机网络的一本书的物资信息，可以具体到位置信息。

最终的结果形式如图6所示。

Claims

1.一种面向物联网的基于语义聚类的物资信息检索方法，其特征在于该检索方法包括语义分析、关键词提取、优先数分配、PML归一化、层次聚类模块，具体步骤为：

步骤1)用户在Web应用平台上输入所要检索物资的相关信息；

步骤2)语义分析的任务就是自动地、批量地对Web页面进行分析，并自动提取领域的语义信息，采用先对Web内容进行预处理，去除网页内的噪音的方法，以提高语义分析提取信息的速度和精度，具体的语义分析过程如下：

步骤24：在整个文本中找出个体事实之间的引用和关联关系，通过分析同一事实在文本中不同部分的不同描述，合并相同的实体，整合出更大粒度的信息点，即下一步需要的关键词：k₁,k₂,...,k_n；

步骤3)为了减少不必要的重复聚类，进一步提高检索效率，根据现有的词频统计资料，经过相互比较，为词频最低的关键词分配优先数为1，然后依次确定各个层级的关键词的优先数，关键词个数为n，具体过程如下:

步骤31：根据已有资料统计各关键词的词频；

步骤32：采用冒泡排序的第一趟算法，两两比较相邻关键词的词频，从而得到词频的最小值，对该词频的最小值对应的关键词赋予优先数1；

步骤33：重复步骤32，为剩下的关键词分别从词频次最小值对应的关键词到词频最大值对应的关键词顺序分配优先数2，3，…,n；

步骤4)根据得到的优先数，按照优先数由大到小的顺序依次将各关键词归一化为PML格式的文件，作为与电子产品代码信息服务EPCIS管理下的数据库进行数据通信的基础；

步骤5)在数据库中采用凝聚层次聚类的方式对数据进行聚类，相似度区间划分为51％-100％、0-50％；最终结果以文件夹和子文件夹的形式展现在用户检索的页面上，文件夹以可变长度的句子命名，具体算法如下：

步骤51：按照上述归一化的顺序，第一个生成的PML描述的关键词k_i作为第一层聚类的特征值，将各原子簇的属性和关键词进行比较，根据相似度分别将它们合并到同一相似度区间的簇中；

步骤53：将第二个生成的PML描述的关键词作为第二层聚类的特征值，将步骤52所得的文件名为“关键词+51％-100％”文件夹中的各数据作为原子簇，重复步骤51中聚类过程；

步骤55：按照顺序依次对上一步生成的文件进行聚类，每次都是对文件名为“关键词+51％-100％”的文件夹进行新的聚类，直到最后一个关键词聚类完为止。