CN110347820A

CN110347820A - 一种电网文本信息匹配的方法、系统和存储介质

Info

Publication number: CN110347820A
Application number: CN201910430119.5A
Authority: CN
Inventors: 单克; 代江; 王宁; 陈恩黔; 赵倩; 田年杰
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-10-18

Abstract

本发明公开了一种电网文本信息匹配方法、系统和介质，其中方法包括：采集数据构建原始电网文本信息库；将原始电网文本信息库的文档的主题切词和关联，计算得到关联表和权重表，基于关联表进行相似度计算和聚类计算得到每一文档的聚类结果并分类存储电网文本信息数据库；对输入检索的文本校验后分词和权重计算；计算输入检索文本与各聚类中心的距离，分别计算输入的检索文本与相似度最大的类中文本的相似度并排序，将相似度度序列的top‑n对应的文本组成文本序列作为匹配结果返回。本发明通过基于电网文本信息构建数据仓库，提高了信息匹配的效率，降低使用成本；利用垂直搜索，提高信息检索匹配的精确度和工作效率。

Description

一种电网文本信息匹配的方法、系统和存储介质

技术领域

本发明属于计算机软件技术领域，尤其涉及一种基于数据仓库与垂直搜索的电网文本信息匹配的方法、系统和存储介质。

背景技术

随着计算机和信息时代的到来，人们收集、存储和访问的数据急剧增加，对这些快速增长的海量数据进行分析和知识理解已经远远超出了人的能力。大量的数据被描述为“数据丰富，但信息贫乏”。数据库规模日益扩大，仅依靠数据库管理系统的查询检索机制和统计分析方法，已经远远不能满足现实的需要。而大量激增的数据中往往又隐藏着许多重要的信息，如果能把这些信息从数据库中提取出来，就能为用户创造很多潜在的利润。因此，对大量历史数据进行分析处理，挖掘出有用的知识就显得非常迫切。特别是在电力系统中，存在巨量的运行文本数据信息，如何将其与设备信息进行匹配，也是现阶段研究的重点。

同时，为满足电力部门工作人员对于信息查找的需求，快速地为其提供准确的信息，减少查找工作时间，节省人力成本，不再需要人工到各个系统查询并分析原始信息，所以亟需一个统一的信息一体化管理平台，为电网设备事故风险匹配关联提供检索服务。

发明内容

为了解决上述至少一个技术问题，本发明提出了一种基于数据仓库与垂直搜索的电网文本信息匹配的方法、系统和存储介质。

为了实现上述目的，本发明第一方面提供了一种基于数据仓库与垂直搜索的电网文本信息匹配的方法，包括：

采集电网文本信息数据进行预处理，得到原始电网文本信息库；

将原始电网文本信息库的每一份文档的主题进行切词，将切出词与文档进行关联后分别进行关联规则计算和权重计算，得到关联表和权重表，基于关联表进行相似度计算和聚类计算得到每一文档的聚类结果并分类存储电网文本信息数据库；

输入待检索的文本，对输入的检索文本校验后进行分词和权重计算；

根据预设的关联表和权重表得到输入的检索文本与当前电网文本信息数据库中各聚类中心的距离，分别计算输入的检索文本与相似度最大的类中文本的相似度并排序，将相似度度序列的top-n对应的文本组成文本序列作为匹配结果返回。

本方案中，所述电网文本信息数据进行预处理包括：数据的析取、数据的剔除、数据的过滤。

本方案中，将切出词与文档进行关联后分别进行关联规则计算和权重计算，后得到得到文档中每个词语的权重值和基于关键词的关联规则，将关联规则中的前件后件写到关联表中，基于小文本的相似度计算，计算出电网信息文本的相似度，然后执行聚类算法，将所有电网信息文本根据聚类结果分类存储于电网文本信息数据库。

本方案中，所述电网文本信息数据库中的文本信息的结构包括：文本编号ID、设备编号Setid、句子Sentence、若干文本关键词。

本方案中，对输入的文本的校验通过预设的检索违禁字典库完成，所述检索违禁字典库由禁止检索主题的关键词组成。

本方案中，对输入的检索文本校验后进行分词得到若干个检索词，分别对若干检索词进行权重计算。

本方案中，待检索文本的每一个检索词均得到一个文本序列，每个文本序列中的文本均对应一个文本编号ID，由所述文本序列组成索引记录表，提取索引记录表中检索词关对应文本编号的交集编号，并将交集编号对应的的文本信息作为最终的匹配结果反返回给用户。

本方案中，当根据预设的关联表和权重表得到的输入检索文本与当前电网文本信息数据库中各聚类中心的距离大于预设值时，表示电网文本信息数据库无相关文本信息，将当前的输入的检索文本信息作为无解问题，存放到无解问题库，等待信息扩充更新后解答。

本方案第二方面还提供了一种基于数据仓库与垂直搜索的电网文本信息匹配的系统，该系统包括：存储器、处理器，所述存储器中包括基于数据仓库与垂直搜索的电网文本信息匹配的方法程序，所述基于数据仓库与垂直搜索的电网文本信息匹配的方法程序被所述处理器执行时实现如下步骤：

根据预设的关联表和权重表得到输入的检索文本与当前电网文本信息数据库中各聚类中心的距离，分别计算输入的检索文本与相似度最大的文本信息类中文本的相似度并排序，将相似度度序列的top-n对应的文本组成文本序列作为匹配结果返回。

本方案第三方面还提供了一种计算机可读存储介质，所述计算机可读存储介质中包括基于数据仓库与垂直搜索的电网文本信息匹配的方法程序，所述基于数据仓库与垂直搜索的电网文本信息匹配的方法程序被处理器执行时，实现如上述任一项所述的基于数据仓库与垂直搜索的电网文本信息匹配的方法的步骤。

本发明通过基于电网文本信息构建数据仓库用于数据挖掘和搜索，克服传统数据库操作型处理的局限性，提高了信息匹配的效率，降低使用成本；基于数据仓库构建的垂直搜索，提高信息检索匹配的精确度，从而为调度中信息的查询节省了时间，提高了工作效率。

附图说明

图1示出了电网文本信息匹配方法流程图。

图2示出了基于数据仓库与垂直搜索的电网文本信息匹配系统框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

名词及关键术语解释

数据仓库系统由数据仓库、仓库管理和分析工具三部分组成，数据仓库的数据来源于多个数据源。一般源数据包括企业内部数据、市场调查报告以及各种文档之类的外部数据。

传统数据库用于事务处理，也叫操作型处理，是指对数据库联机进行日常操作，即对一个或一组记录的查询和修改，主要是为企业特定的应用服务的。数据仓库用于决策分析，也称分析型处理，是建立在决策支持系统(DSS)基础上。

(1)数据获取：本部分负责从外部数据源获取数据，数据被区分出来，进行拷贝或重新定义格式等处理后，准备装入数据仓库。

(2)数据存储和管理：本部分负责数据仓库的内部维护和管理，提供的服务包括数据存储的组织、数据的维护、数据的分发及数据仓库的例行维护等，这些工作需要利用数据库管理系统(DBMS)的功能。

(3)信息访问：本部分属于数据仓库的前端，面向不向种类的最终用户。主要由查询生成工具、多维分析工具和数据挖掘工具等工具集组成，以实现决策支持系统的各种要求。

从数据仓库的细化结构解释具体包括：

(1)数据定义：完成数据仓库的结构和环境的定义，包括：定义数据仓库中数据库的模式、数据仓库的数据源和从数据源提取数据时的一组规则或模型。

(2)数据提取：数据提取部分负责从数据源提取数据，并对获得的源数据(SourceData)进行必要的加工处理，使其成为数据仓库可以管理的数据格式和语义规范，所以也称为“数据泵”(Data Pump)。

(3)数据管理：数据管理由一组系统服务工具组成，负责数据的分配和维护，支持数据应用。数据分配完成获取数据的存储分布及分发到多台数据库服务器，维护服务完成数据的转储和恢复、安全性定义和检测等。另外，用户直接输入系统的数据也由该部分完成。

(4)信息日录：数据仓库管理的数据是描述系统状态变化的综合性数据，提供各级管理分析与决策的应用，满足数据仓库的开发人员和维护人员进行数据维护的需要。信息目录描述系统数据的定义和组织，通过它用户或开发人员可以了解数据仓库中存放的数据，以及如何访问、使用和管理。按数据仓库数据管理与应用要求，其信息目录可以设计为3个子部分：技术目录、业务目录和信息导航目录。

(5)数据应用：数据仓库的数据应用除了一般的直接检索性使用外，还应当能够完成比较常用的数据表示和分析，如图表表示、统计分析、结构分析、相关分析和时间序列分析等。对于涉及到众多数据的综合性较强的分析，可以借助专业数据分析上具。在客户机/服务器体系结构下，这部分功能可以放在客户端来完成，以便充分利用目前微机上丰富的数据分析软件。数据分析与报表是从大量的数据中提取出原来未知的数据间相互关系，找出数据间潜在的模式，发现经营者可能忽略的信息，并为企业做出基于知识的决策。它包括报表生成工具、OLAP、数据挖掘、决策支持工具，其中比较重要的是0LAP和数据挖掘。

图1示出了本发明一种基于数据仓库与垂直搜索的电网文本信息匹配的方法，包括：

S102：采集电网文本信息数据进行预处理，得到原始电网文本信息库；

需要说明的是，数据源的确立实际上是数据仓库的源数据的来源问题，也是整个组织的业务处理系统或整个组织能够提供的构建数据仓库的基础，数据仓库的建立就是要通过数据源的确定和采集开始的。电网文本信息包括但不限于设备检修单信息，运行操作的用户信息，进行预处理是为了剔除无用信息，同时使电网文本信息符合预设的规范。

S104：将原始电网文本信息库的每一份文档的主题进行切词，将切出词与文档进行关联后分别进行关联规则计算和权重计算，得到关联表和权重表，基于关联表进行相似度计算和聚类计算得到每一文档的聚类结果并分类存储电网文本信息数据库；

S106：输入检索的文本，对输入的检索文本校验后进行分词和权重计算；需要说明的是输入的检索信息为自然语言描述的信息，所述检索文本为句子、词语、或词组等。

S108：根据预设的关联表和权重表得出输入的检索文本与当前电网文本信息数据库中各聚类中心的距离，分别计算输入的检索文本与相似度最大的类中文本的相似度并排序，将相似度度序列的top-n对应的文本组成文本序列作为匹配结果返回。

需要说明的是，在根据预设的关联表和权重表得出输入的检索文本与当前电网文本信息数据库中各聚类中心的距离时，一般选取相似度最大和次最大的类中，保留次最大的结果是为了使返回的相关信息更全面。

需要说明的是，相似度序列的的长度根据具体的检索匹配原则确定。

本方案中，将切出词与文档进行关联后分别进行关联规则计算和权重计算，后得到文档中每个词语的权重值和基于关键词的关联规则，将关联规则中的前件后件写到关联表中，基于小文本的相似度计算，计算出电网信息文本的相似度，然后执行聚类算法，将所有电网信息文本根据聚类结果分类存储于电网文本信息数据库。

需要说明的是，本实施例使用K-means算法进行聚类。

本方案中，所述电网文本信息数据库中的文本信息的结构包括：文本编号ID、设备编号Setid、句子Sentence、若干文本关键词。如表1所示为文本信息的结构。

表1

本方案中，对输入的检索文本的校验通过预设的检索违禁字典库完成，所述检索违禁字典库由禁止检索主题的关键词组成。

本方案中，输入的检索文本的每一个检索词均得到一个文本序列，每个文本序列中的文本均对应一个文本编号ID，由所述文本序列组成索引记录表，提取索引记录表中检索词关对应文本编号的交集编号，并将交集编号对应的文本信息作为最终的匹配结果反返回给用户。

下面举例予以说明匹配结果的返回，需要说明的是本发明分词使用的词库为电力系统专业词库和ICTCLAS进行分词，若输入的检索文本信息为“变电工作票**乙线”，经过分词后分别得到检索词为“变电工作票”和“**乙线”；电网信息文本数据库返回的索引表如表2所示，变电工作票对应的文本编号有12、21、24、38、39、45、97、128，**乙线对应的文本编号为21、24、38、39、41、45、96、97，应文本编号的交集编号为21、24、38、39、97，则检索返回的即为21、24、38、39、97对应的电网文本信息数据库中对应的文本。

表2

本方案中，当根据预设的关联表和权重表得出输入的检索文本与当前电网文本信息数据库中各聚类中心的距离大于预设值时，表示电网文本信息数据库无相关文本信息，将当前的输入的检索文本信息作为无解问题，存放到无解问题库，等待信息扩充更新后解答。

如图2所示，本方案第二方面还提供了一种基于数据仓库与垂直搜索的电网文本信息匹配的系统，该系统包括：存储器21、处理器22，所述存储器中包括基于数据仓库与垂直搜索的电网文本信息匹配的方法程序，所述基于数据仓库与垂直搜索的电网文本信息匹配的方法程序被所述处理器执行时实现如下步骤：

S106：输入检索的文本，对输入的检索文本校验后进行分词和权重计算；需要说明的是输入的检索信息为自然语言描述的信息。

S108：根据预设的关联表和权重表得出输入的检索文本与当前电网文本信息数据库中各聚类中心的距离，分别计算输入的检索文本与相似度最大的中文本的相似度并排序，将相似度度序列的top-n对应的文本组成文本序列作为匹配结果返回。

需要说明的是，本实施例使用K-means算法进行聚类。

表1

下面举例予以说明匹配结果的返回，需要说明的是本发明分词使用的词库为电力系统专业词库和ICTCLAS进行分词，若输入的检索文本信息为“变电工作票**乙线”，经过分词后分别得到检索词为“变电工作票”和“**乙线”；电网信息文本数据库返回的索引表如表21所示，变电工作票对应的文本编号有12、21、24、38、39、45、97、128，**乙线对应的文本编号为21、24、38、39、41、45、96、97，应文本编号的交集编号为21、24、38、39、97，则检索返回的即为21、24、38、39、97对应的电网文本信息数据库中对应的文本。

表2

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种电网文本信息匹配方法，其特征在于，包括：

2.根据权利要求1所的一种电网文本信息匹配方法，其特征在于，所述电网文本信息数据进行预处理包括：数据的析取、数据的剔除、数据的过滤。

3.根据权利要求1所的一种电网文本信息匹配方法，其特征在于，将切出词与文档进行关联后分别进行关联规则计算和权重计算，后得到得到文档中每个词语的权重值和基于关键词的关联规则，将关联规则中的前件后件写到关联表中，基于小文本的相似度计算，计算出电网信息文本的相似度，然后执行聚类算法，将所有电网信息文本根据聚类结果分类存储于电网文本信息数据库。

4.根据权利要求1所的一种电网文本信息匹配方法，其特征在于，所述电网文本信息数据库中的文本信息的结构包括：文本编号ID、设备编号Setid、句子Sentence、若干文本关键词。

5.根据权利要求1所的一种电网文本信息匹配方法，其特征在于，对待输入文本的校验通过预设的检索违禁字典库完成，所述检索违禁字典库由禁止检索主题的关键词组成。

6.根据权利要求1所的一种电网文本信息匹配方法，其特征在于，对输入的检索文本校验后进行分词得到若干个检索词，分别对若干检索词进行权重计算。

7.根据权利要求6所的一种电网文本信息匹配方法，其特征在于，输入的检索文本的每一个检索词均得到一个文本序列，每个文本序列中的文本均对应一个文本编号ID，由所述文本序列组成索引记录表，提取索引记录表中检索词关对应文本编号的交集编号，并将交集编号对应的的文本信息作为最终的匹配结果反返回给用户。

8.根据权利要求1所的一种电网文本信息匹配方法，其特征在于，当根据预设的关联表和权重表得出待检索文本与当前电网文本信息数据库中各聚类中心的距离大于预设值时，表示电网文本信息数据库无相关文本信息，将当前输入的待检索文本信息作为无解问题，存放到无解问题库，等待信息扩充更新后解答。

9.一种基于数据仓库与垂直搜索的电网文本信息匹配的系统，其特征在于，该系统包括：存储器、处理器，所述存储器中包括电网文本信息匹配方法程序，所述电网文本信息匹配方法程序被所述处理器执行时实现如下步骤：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括电网文本信息匹配方法程序，所述电网文本信息匹配方法程序被处理器执行时，实现如权利要求1至8中任一项所述的电网文本信息匹配方法的步骤。