CN113065340A

CN113065340A - 基于相近词挖掘的相近资产提示方法及装置

Info

Publication number: CN113065340A
Application number: CN202110266286.8A
Authority: CN
Inventors: 刘义江
Original assignee: Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co; State Grid Hebei Electric Power Co Ltd
Current assignee: Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co; State Grid Hebei Electric Power Co Ltd
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-07-02

Abstract

本发明公开了基于相近词挖掘的相近资产提示方法及装置，涉及自然语言处理技术领域；方法包括S1相近词词库构建，处理器构建并获得相近词词库；S2资产库构建，处理器构建并获得资产库；S3资产分析，处理器从存储器获取费用明细表，拆分出其中的每项资产，以每项资产的资产名称为关键字在相近词词库中查找并获得该项资产的相近名称，将资产名称及其相应的相近名称排序、按照首字的拼音首字母分类并获得排序分类表，以排序分类表在资产库中检索，若存在相近资产名称，则标记后返回结果；装置包括相近词词库构建模块、资产库构建模块和资产分析模块共三个程序模块；其通过步骤S1至步骤S3等，实现了获得资产提示。

Description

基于相近词挖掘的相近资产提示方法及装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于相近词挖掘的相近资产提示方法及装置。

背景技术

自然语言处理是人工智能领域中的一个重要方向，结合了计算机科学、语言学和数学，主要研究利用人类交流的自然语言与机器进行交互的相关理论与方法。通过人为的处理人类日常交流所使用的语言，使得计算机对其能够可读并理解。自然语言处理以语言为对象，借助计算机进行分析、研究、理解并进行处理，最终实现计算机能够自然语言文本的意义，也能够通过自然语言表达特定的意图和思想。

同义词挖掘是自然语言处理领域中较为基础的一个问题，一般有三种实现方式：借助已有知识库、使用词向量以及文本相似度。现有的知识库，如哈工大提出的同义词词林以及HowNet，包含了许多人工编辑的同义词，还可以利用百科词条获取同义词以补充知识库。词向量挖掘同义词主要是基于上下文相关性，若两个词的上下文相似，则两个词也越可能成为同义词，可采用Word2Vec或者DPE模型训练词语得到词向量，之后利用欧几里得距离或者余弦相似度提取指定个数的相似词语作为同义词。此外还可以用编辑距离计算两个词之间的相似性，如“北京大学”与“北大”，当两个词的文本相似度大于指定阈值时，即认为具有同义词的关系。

目前，无法对一些成本性费用明细的内容进行核实，无法将资产性的设备内容挑出，或者无法对一些相近的物品进行提示。无法得出资产分析结果。

本申请中的相近词包括相同词、同义词和近义词，相近是指相同、同义或者近义。

现有技术问题及思考：

如何解决获得资产提示的技术问题。

发明内容

本发明所要解决的技术问题是提供一种基于相近词挖掘的相近资产提示方法及装置，其通过步骤S1至步骤S3等，实现了获得资产提示。

为解决上述技术问题，本发明所采取的技术方案是：一种基于相近词挖掘的相近资产提示方法包括如下步骤，S1相近词词库构建，处理器构建并获得相近词词库；S2资产库构建，处理器构建并获得资产库；S3资产分析，处理器从存储器获取费用明细表，拆分出其中的每项资产，以每项资产的资产名称为关键字在相近词词库中查找并获得该项资产的相近名称，将资产名称及其相应的相近名称排序、按照首字的拼音首字母分类并获得排序分类表，以排序分类表在资产库中检索，若存在相近资产名称，则标记后返回结果。

进一步的技术方案在于：在步骤S1中，所述相近词词库包括现有知识库、百科词条库和相近词组库。

进一步的技术方案在于：在步骤S2中，资产库为采用树形结构并借助Redis数据库进行存储的数据库。

进一步的技术方案在于：在步骤S3中，若存在相近资产名称则给出提示。

一种基于相近词挖掘的相近资产提示装置包括相近词词库构建模块、资产库构建模块和资产分析模块共三个程序模块，相近词词库构建模块，用于处理器构建并获得相近词词库；资产库构建模块，用于处理器构建并获得资产库；资产分析模块，用于处理器从存储器获取费用明细表，拆分出其中的每项资产，以每项资产的资产名称为关键字在相近词词库中查找并获得该项资产的相近名称，将资产名称及其相应的相近名称排序、按照首字的拼音首字母分类并获得排序分类表，以排序分类表在资产库中检索，若存在相近资产名称，则标记后返回结果。

进一步的技术方案在于：在相近词词库构建模块中，所述相近词词库包括现有知识库、百科词条库和相近词组库。

进一步的技术方案在于：在资产库构建模块中，资产库为采用树形结构并借助Redis数据库进行存储的数据库。

进一步的技术方案在于：在资产分析模块中，若存在相近资产名称则给出提示。

一种基于相近词挖掘的相近资产提示装置包括存储器、处理器以及存储在存储器中并可在处理器上运行的上述程序模块，所述处理器执行程序模块时实现上述基于相近词挖掘的相近资产提示方法的步骤。

一种基于相近词挖掘的相近资产提示装置为计算机可读存储介质，所述计算机可读存储介质存储有上述程序模块，所述程序模块被处理器执行时实现上述基于相近词挖掘的相近资产提示方法的步骤。

采用上述技术方案所产生的有益效果在于：

一种基于相近词挖掘的相近资产提示方法包括如下步骤，S1相近词词库构建，处理器构建并获得相近词词库；S2资产库构建，处理器构建并获得资产库；S3资产分析，处理器从存储器获取费用明细表，拆分出其中的每项资产，以每项资产的资产名称为关键字在相近词词库中查找并获得该项资产的相近名称，将资产名称及其相应的相近名称排序、按照首字的拼音首字母分类并获得排序分类表，以排序分类表在资产库中检索，若存在相近资产名称，则标记后返回结果。其通过步骤S1至步骤S3等，实现了获得资产提示。

一种基于相近词挖掘的相近资产提示装置包括相近词词库构建模块、资产库构建模块和资产分析模块共三个程序模块，相近词词库构建模块，用于处理器构建并获得相近词词库；资产库构建模块，用于处理器构建并获得资产库；资产分析模块，用于处理器从存储器获取费用明细表，拆分出其中的每项资产，以每项资产的资产名称为关键字在相近词词库中查找并获得该项资产的相近名称，将资产名称及其相应的相近名称排序、按照首字的拼音首字母分类并获得排序分类表，以排序分类表在资产库中检索，若存在相近资产名称，则标记后返回结果。其通过相近词词库构建模块、资产库构建模块和资产分析模块等，实现了获得资产提示。

一种基于相近词挖掘的相近资产提示装置包括存储器、处理器以及存储在存储器中并可在处理器上运行的上述程序模块，所述处理器执行程序模块时实现上述基于相近词挖掘的相近资产提示方法的步骤。其通过该装置，实现了获得资产提示。

一种基于相近词挖掘的相近资产提示装置为计算机可读存储介质，所述计算机可读存储介质存储有上述程序模块，所述程序模块被处理器执行时实现上述基于相近词挖掘的相近资产提示方法的步骤。其通过该装置，实现了获得资产提示。

详见具体实施方式部分描述。

附图说明

图1是本发明实施例1的流程图；

图2是本发明实施例2的原理框图；

图3是本发明中的数据流图；

图4是本发明中词条的数据分布图；

图5是本发明中相近词挖掘模型库的数据流图；

图6是本发明中资产库的树状分布图；

图7是本发明中数据实施例的数据流图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，但是本申请还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施例的限制。

实施例1：

如图1所示，本发明公开了一种基于相近词挖掘的相近资产提示方法包括如下步骤：

S1相近词词库构建

处理器构建并获得相近词词库，所述相近词词库包括现有知识库、百科词条库和相近词组库，相近词组库由相近词挖掘模型DPE挖掘出的相近词组组成。

S2资产库构建

处理器构建并获得资产库，资产库为采用树形结构并借助Redis数据库进行存储的数据库。

S3资产分析

处理器从存储器获取费用明细表，拆分出其中的每项资产，以每项资产的资产名称为关键字在相近词词库中查找并获得该项资产的相近名称，将资产名称及其相应的相近名称排序、按照首字的拼音首字母分类并获得排序分类表，以排序分类表在资产库中检索，若存在相近资产名称，则标记后返回结果；若不存在相同资产名称但存在相近资产名称则给出提示；若相近资产名称也不存在，则不做任何处理。

实施例2：

如图2所示，本发明公开了一种基于相近词挖掘的相近资产提示装置包括相近词词库构建模块、资产库构建模块和资产分析模块，共三个程序模块。

相近词词库构建模块，用于处理器构建并获得相近词词库，所述相近词词库包括现有知识库、百科词条库和相近词组库，相近词组库由相近词挖掘模型DPE挖掘出的相近词组组成。

资产库构建模块，用于处理器构建并获得资产库，资产库为采用树形结构并借助Redis数据库进行存储的数据库。

资产分析模块，用于处理器从存储器获取费用明细表，拆分出其中的每项资产，以每项资产的资产名称为关键字在相近词词库中查找并获得该项资产的相近名称，将资产名称及其相应的相近名称排序、按照首字的拼音首字母分类并获得排序分类表，以排序分类表在资产库中检索，若存在相近资产名称，则标记后返回结果；若不存在相同资产名称但存在相近资产名称则给出提示；若相近资产名称也不存在，则不做任何处理。

实施例3：

本发明公开了一种基于相近词挖掘的相近资产提示装置包括存储器、处理器以及存储在存储器中并可在处理器上运行的实施例2中的计算机程序，所述处理器执行计算机程序时实现实施例1的步骤。

实施例4：

本发明公开了一种计算机可读存储介质，所述计算机可读存储介质存储有实施例2中的计算机程序，所述计算机程序被处理器执行时实现实施例1中的步骤。

本申请的构思：

现有需求为已存在一个固定资产列表，需要对一些成本性费用明细的内容进行核实，将资产性的设备内容挑出，或者对一些相近的物品进行提示。本专利主要用于解决该问题，得出资产分析结果。

本申请的技术贡献：

为了解决上述问题，本发明提供了一种借助现有知识库并利用词向量进行相近词扩展的资产名称核实方法，能够高效且准确的得出资产分析结果。

本发明的技术方案主要模块包括如下：该系统包括两个部分，

第一部分是基于非关系型数据库利用现有知识库以及词向量的相近词词库构建。

在第一部分中，我们先使用哈工大信息检索研究室提供的同义词词林构建初始词库，由于该词林仅由人工编辑而成，数量有限，因此借助爬虫技术对百度百科等词条抓取相近词进行补充，此外还采用了基于词向量的方法在中文语料库中获取相近词，进一步填充词库。

第二部分为利用树形结构组织的现有固定资产列表。

在第二部分中，为了加快检索效率，我们依据每项资产的拼音构建了树形的资产列表存储结构(资产库)。最后，对提交的资产明细中每项资产先在相近词词库中获取相近词，之后在资产库中进行检索，并根据检索结果给出结论。

如图1所示，该资产分析方法包含以下主要步骤：

S1相近词词库构建

如图3所示，相近词词库的来源有三部分：现有知识库、百科词条以及对语料库训练词向量后得到的相近词。

在本方法中，现有知识库主要指哈工大提出的相近词词林扩展版以及HowNet，其中词林扩展版给出的数据格式为：Aa01A01＝人士人物人士人选，Aa01A02＝人类生人全人类...。为了便于检索，我们将所有的数据读出排序后存入非关系型数据库MongoDB中。

以上知识库主要由人工编辑，因此数量有限。可借助百度百科词条等进一步扩充。

如图4所示，在百度百科中搜索“计算机”后，可以在返回结果中有一个属性为“别名”，别名中的结果即为计算机的相近词。除此之外，在百科词条的开头描述中，存在“又称”、“俗称”等描述，均为对应词语的相近词，可利用爬虫技术获取该类相近词。

利用知识库挖掘相近词的优点是简单易得，且准确率也高，缺点是知识库覆盖率有限，对于一些特定领域如金融、医疗、娱乐等需要各自的知识库。因此，本专利还利用词向量挖掘相近词。词向量的方式主要基于上下文相关性，即两个词的上下文越相似则这两个词为相近词的概率就越大。常用的产生词向量的方式是利用Word2Vec训练，Word2Vec本质上是一个语言模型，词向量只是它的副产品，并不是直接用来挖掘相近词。因此本方法最终使用基于弱监督的相近词挖掘模型DPE。其流程图如下：

S2资产库构建

为了加快资产库中资产的检索操作，本方法按照每种资产的拼音构建树状资产图并存入Redis数据库中。所定义的树状结构如下：

该树状资产图由26个子树构成，每个子树的根结点对应26个拼音字母并进行排序。对于已有的固定资产取出每个资产名称按照每个字的拼音填入该树状图，最后存入Redis数据库以进一步提高检索效率。

S3资产分析

输入成本性费用明细后，依次取出其中的每项费用，并在步骤S1所搭建的相近词词库中查询对应的相近词。之后对费用名称及其相近词按照首字的拼音进行分类，最后按照分类的拼音在资产图中进行检索，根据检索的结果得出费用分析结论。

技术方案说明：

本发明提供了一个基于相近词挖掘模型DPE构建相近词词库基于树形图及Redis构建资产库的资产分析方法，具体过程如下：

S1相近词词库构建

完整的相近词词库由三部分组成：现有知识库、百科词条以及DPE模型挖掘的相近词。

现有知识库处理。主要借助于《哈工大信息检索研究室同义词词林扩展版》和HowNet得到需要的相近词。《词林》将一组相近词组织为一条数据，如“Aa01A03＝人手人员人口人丁口食指”，然而每组相近词内部是无序的，为了便于对相近词进行查找，因此需要对相近词词组做排序预处理，即先按照每个词首字拼音的首字母排序，若首字拼音的首字母相同，则按照第二字的拼音首字母排序，若相同则继续向后迭代。最后将排序后的相近词词组存入非关系型数据库MongoDB中。

百科词条内容抓取。现有的知识库主要由人工完成，数量有限，并且内容较为陈旧缺乏新出现的词语。而一些百科词条，如百度百科和维基百科，则包含了大量最新的词语，并且词条中的“别称”、“又称”以及“俗称”等描述的均为相近词。因此可采用爬虫技术抓取该类相近词以补充相近词词库。本方法中基于Python3利用Scrapy框架获取网页内容后，使用Beautifulsoup解析html数据，之后对解析结果查找“别称”属性，并检索词条描述中的“又称”等字段，最后更新相近词词库。

DPE模型挖掘相近词挖掘。

如图5所示，DPE模型的主要流程，作为弱监督的相近词挖掘模型可分为两个阶段，第一阶段与Word2Vec相似，但是是基于图嵌入的方式训练词向量，首先从语料库中构建语义共现网络，该语料库主要指搜狗实验室的搜狗新闻语料库，之后对网络的进行采样同时训练词向量。第二阶段通过弱监督的方式训练一个评分函数，对输入的一对词判断属于相近词的概率。最后依据概率选出最可能的k个词语(本方法中k设置为8，若同义词个数小于8，则按照实际取出的个数)作为其同义词。

相近词词库更新。在本方法中，百科词条以及DPE模型生成相近词并不是直接存入MongoDB中，而是先遍历词库，找到是否已经有词语存在词库中，若存在则更新该相近词词组，不存在则插入。该方法相对比较耗时，但考虑到词库是在使用之前创建，并且创建完成之后不需要任何修改，因此依然采用此种更新方法。

S2资产库构建

资产库构建的主要目的是为了满足高效检索，因此采用树形结构并借助Redis数据库进行存储。

如图6所示，资产库的结构，由26个节点构成，每个节点表示了一种拼音字母开头的资产类，之后依据资产名称中每个字的拼音首字母构建后续节点。

S3资产分析

如图7所示，输入费用明细后先拆分出其中的每项资产，之后在相近词词库中查找该项资产的相近名称，之后资产名称及其同义名称排序，并按照首字的拼音首字母分类，之后在资产库中检索，若存在相近资产名称，则标记后返回结果；若不存在相同资产名称但存在相近的资产名称则给出提示；若相近资产名称也不存在，则不做任何处理。

本申请保密运行一段时间后，现场技术人员反馈的有益之处在于：

本发明属于自然语言处理领域在工程实际项目中的应用，具体提出为采用知识库并基于弱监督DPE模型进行相近词挖掘的资产核实方法。整个系统先利用所构建的相近词知识库以及训练好的词向量模型获取相应的相近词，之后对已有资产列表构建树形结构并检索相应关键词，最后给出资产分析结果。

本发明主要针已有固定资产列表对现有成本性费用进行分析。首先利用现有知识库搭建基本相近词词库，之后利用百科词条以及词向量方式进一步挖掘相近词以提高精度，之后对现有资产存储方式重新设计，利用树状结构减少检索时间。本方法能够有效的解决费用明细对评估问题，极大的提高效率。

Claims

1.一种基于相近词挖掘的相近资产提示方法，其特征在于：包括如下步骤，S1相近词词库构建，处理器构建并获得相近词词库；S2资产库构建，处理器构建并获得资产库；S3资产分析，处理器从存储器获取费用明细表，拆分出其中的每项资产，以每项资产的资产名称为关键字在相近词词库中查找并获得该项资产的相近名称，将资产名称及其相应的相近名称排序、按照首字的拼音首字母分类并获得排序分类表，以排序分类表在资产库中检索，若存在相近资产名称，则标记后返回结果。

2.根据权利要求1所述的基于相近词挖掘的相近资产提示方法，其特征在于：在步骤S1中，所述相近词词库包括现有知识库、百科词条库和相近词组库。

3.根据权利要求1所述的基于相近词挖掘的相近资产提示方法，其特征在于：在步骤S2中，资产库为采用树形结构并借助Redis数据库进行存储的数据库。

4.根据权利要求1所述的基于相近词挖掘的相近资产提示方法，其特征在于：在步骤S3中，若存在相近资产名称则给出提示。

5.一种基于相近词挖掘的相近资产提示装置，其特征在于：包括相近词词库构建模块、资产库构建模块和资产分析模块共三个程序模块，相近词词库构建模块，用于处理器构建并获得相近词词库；资产库构建模块，用于处理器构建并获得资产库；资产分析模块，用于处理器从存储器获取费用明细表，拆分出其中的每项资产，以每项资产的资产名称为关键字在相近词词库中查找并获得该项资产的相近名称，将资产名称及其相应的相近名称排序、按照首字的拼音首字母分类并获得排序分类表，以排序分类表在资产库中检索，若存在相近资产名称，则标记后返回结果。

6.根据权利要求5所述的基于相近词挖掘的相近资产提示装置，其特征在于：在相近词词库构建模块中，所述相近词词库包括现有知识库、百科词条库和相近词组库。

7.根据权利要求5所述的基于相近词挖掘的相近资产提示装置，其特征在于：在资产库构建模块中，资产库为采用树形结构并借助Redis数据库进行存储的数据库。

8.根据权利要求5所述的基于相近词挖掘的相近资产提示装置，其特征在于：在资产分析模块中，若存在相近资产名称则给出提示。

9.一种基于相近词挖掘的相近资产提示装置，其特征在于：包括存储器、处理器以及存储在存储器中并可在处理器上运行的权利要求5～权利要求8中的程序模块，所述处理器执行程序模块时实现权利要求1～权利要求4中任意一项基于相近词挖掘的相近资产提示方法的步骤。

10.一种基于相近词挖掘的相近资产提示装置，其特征在于：为计算机可读存储介质，所述计算机可读存储介质存储有权利要求5～权利要求8中的程序模块，所述程序模块被处理器执行时实现权利要求1～权利要求4中任意一项基于相近词挖掘的相近资产提示方法的步骤。