CN110955751A - 工作票文本去重方法、装置、系统及计算机存储介质 - Google Patents

工作票文本去重方法、装置、系统及计算机存储介质 Download PDF

Info

Publication number
CN110955751A
CN110955751A CN201911105613.0A CN201911105613A CN110955751A CN 110955751 A CN110955751 A CN 110955751A CN 201911105613 A CN201911105613 A CN 201911105613A CN 110955751 A CN110955751 A CN 110955751A
Authority
CN
China
Prior art keywords
ticket data
working
detected
work
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911105613.0A
Other languages
English (en)
Inventor
黎颖
刘晶
黄宇
黄薇蓉
易满成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangzhou Power Supply Bureau Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Power Supply Bureau Co Ltd filed Critical Guangzhou Power Supply Bureau Co Ltd
Priority to CN201911105613.0A priority Critical patent/CN110955751A/zh
Publication of CN110955751A publication Critical patent/CN110955751A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种工作票文本去重方法、装置、系统及计算机存储介质,其中,所述方法包括以下步骤:依次获取工作票数据库中的第一待检测工作票数据;依次将各第一待检测工作票数据与第一剩余的工作票数据进行比对;根据比对的结果,删除重复的工作票数据,得到第二剩余的工作票数据;依次获取工作票数据库中的第二待检测工作票数据;依次将各第二待检测工作票数据与第二剩余的工作票数据进行相似度匹配;根据匹配的结果,删除第二剩余的工作票数据中与第二待检测工作票数据的相似度大于预设阈值的工作票数据,进而实现对工作票数据库的工作票文本去重。本申请能够在去重过程中,有效地剔除重复文本,提高去重效率,以及提高数据库的使用效率。

Description

工作票文本去重方法、装置、系统及计算机存储介质
技术领域
本申请涉及文本信息处理技术领域,特别是涉及一种工作票文本去重方法、装置、系统及计算机存储介质。
背景技术
工作票是国标中明确要求在电气设备或线路上工作的重要组织措施;是明确安全职责、履行工作许可手续和实施安全技术措施的书面依据;是电力系统保障人身安全、电网安全和设备安全的手段之一。目前,工作票已经建立了庞大的数据库。长期以来的数量积累使得大量的数据堆积在数据库中,没有得到进一步的处理以及深度数据发掘,尤其是工作票数据中,同样的工作任务可能会持续地出现,使得数据库中有大量的数据是重复出现的,使得对数据库的利用效率有所下降。
在实现过程中,发明人发现传统技术中至少存在如下问题:传统的工作票数据库中,通常任由数据进行重复累积,导致数据库的高相似度文本内容大量堆积,降低了数据库的使用效率。
发明内容
基于此,有必要传统的工作票数据库中,通常任由数据进行重复累积,导致数据库的高相似度文本内容大量堆积,降低了数据库的使用效率的问题,提供一种工作票文本去重方法、装置、系统及计算机存储介质。
为了实现上述目的,本发明实施例提供了一种工作票文本去重方法,包括以下步骤:
依次获取工作票数据库中的第一待检测工作票数据;
依次将各第一待检测工作票数据与工作票数据库中第一剩余的工作票数据进行比对;
根据比对的结果,删除第一剩余的工作票数据中与待检测工作票数据相同的工作票数据,得到工作票数据库中第二剩余的工作票数据;
依次获取工作票数据库中的第二待检测工作票数据;第二待检测工作票数据为第二剩余的工作票数据中的工作票数据;
依次将各第二待检测工作票数据与第二剩余的工作票数据进行相似度匹配;
根据匹配的结果,删除第二剩余的工作票数据中与第二待检测工作票数据的相似度大于预设阈值的工作票数据。
在其中一个实施例中,根据匹配的结果,删除第二剩余的工作票数据中与第二待检测工作票数据的相似度大于预设阈值的工作票数据的步骤包括:
获取对应相似度大于预设阈值的工作票数据的索引号;
根据索引号,删除相似度大于预设阈值的工作票数据。
在其中一个实施例中,根据匹配的结果,删除第二剩余的工作票数据中与第二待检测工作票数据的相似度大于预设阈值的工作票数据的步骤包括:
基于TF-IDF算法处理第二待检测工作票数据和第二剩余的工作票数据,得到相似度。
在其中一个实施例中,基于TF-IDF算法处理第二待检测工作票数据和第二剩余的工作票数据,得到相似度的步骤包括:
对第二待检测工作票数据进行分词,得到工作票分词信息;
将工作票分词信息输入TF-IDF模型进行处理,得到对应第二待检测工作票数据的次数;
基于TF-IDF算法处理次数,得到相似度。
在其中一个实施例中,依次获取工作票数据库中的第二待检测工作票数据的步骤之前还包括:
将第二待检测工作票数据与工作票数据库的典型工作票数据进行匹配;
依次获取工作票数据库中的第二待检测工作票数据的步骤包括:
在第二待检测工作票数据与典型工作票之间的相似度小于相似工作票阈值时,获取第二待检测工作票数据。
在其中一个实施例中,将第二待检测工作票数据与工作票数据库的典型工作票数据进行匹配的步骤之后还包括:
在第二待检测工作票数据与典型工作票之间的相似度大于或等于相似工作票阈值时,删除第二待检测工作票数据。
在其中一个实施例中,依次将各第一待检测工作票数据与工作票数据库中第一剩余的工作票数据进行比对的步骤包括:
分别对各第一待检测工作票数据进行数据预处理,得到各预处理后的第一待检测工作票数据;
依次将各预处理后的第一待检测工作票数据与工作票数据库中第一剩余的工作票数据进行比对。
另一方面,本发明实施例还提供了一种工作票文本去重装置,包括:
第一数据获取单元,用于依次获取工作票数据库中的第一待检测工作票数据;
工作票比对单元,用于依次将各第一待检测工作票数据与工作票数据库中第一剩余的工作票数据进行比对;
第一删除处理单元,用于根据比对的结果,删除第一剩余的工作票数据中与待检测工作票数据相同的工作票数据,得到工作票数据库中第二剩余的工作票数据;
第二数据获取单元,用于依次获取工作票数据库中的第二待检测工作票数据;第二待检测工作票数据为第二剩余的工作票数据中的工作票数据;
相似度匹配单元,用于依次将各第二待检测工作票数据与第二剩余的工作票数据进行相似度匹配;
第二删除处理单元,用于根据匹配的结果,删除第二剩余的工作票数据中与第二待检测工作票数据的相似度大于预设阈值的工作票数据。
另一方面,本发明实施例还提供了一种工作票文本去重系统,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述任一项工作票文本去重方法的步骤。
另一方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一项的工作票文本去重方法的步骤。
上述技术方案中的一个技术方案具有如下优点和有益效果:
上述的工作票文本去重方法的各实施例中,依次获取工作票数据库中的第一待检测工作票数据;依次将各第一待检测工作票数据与工作票数据库中第一剩余的工作票数据进行比对;根据比对的结果,删除第一剩余的工作票数据中与待检测工作票数据相同的工作票数据,得到工作票数据库中第二剩余的工作票数据;依次获取工作票数据库中的第二待检测工作票数据;依次将各第二待检测工作票数据与第二剩余的工作票数据进行相似度匹配;根据匹配的结果,删除第二剩余的工作票数据中与第二待检测工作票数据的相似度大于预设阈值的工作票数据,进而实现对工作票数据库的工作票文本去重。本申请能够在很大程度上节省了数据库上大量相同或相似数据的堆积,使后续的数据分析过程更为准确和有效,提高数据库的使用效率;在去重过程中,能够有效地剔除重复文本,提高去重效率。
附图说明
图1为一个实施例中工作票文本去重方法的应用环境示意图;
图2为一个实施例中工作票文本去重方法的第一流程示意图;
图3为一个实施例中工作票文本去重方法的第二流程示意图;
图4为一个实施例中工作票文本去重方法的第三流程示意图;
图5为一个实施例中工作票文本去重处理的工作流程示意图;
图6为一个实施例中工作票文本比对处理的工作过程示意图;
图7为一个实施例中工作票文本相似度匹配处理的工作过程示意图;
图8为一个实施例中TF-IDF模型计算相似度处理的工作过程示意图;
图9为一个实施例中工作票文本去重装置的结构示意图;
图10为一个实施例中工作票文本去重系统的结构示意图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的首选实施例。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本申请的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
本申请提供的工作票文本去重方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种工作票文本去重方法,以该方法应用于图1中的终端102为例进行说明,包括以下步骤:
步骤S210,依次获取工作票数据库中的第一待检测工作票数据。
其中,工作票是准许在电气设备及系统软件上工作的书面命令,也是执行保证安全技术措施的书面依据;工作票数据库可用来存储工作票。第一待检测工作票数据指的是工作票数据库中的工作票数据。
需要说明的是,工作票的内容可以但不限于是工作票编号、工作负责人、工作班成员、工作地点和工作内容,计划工作时间、工作终结时间,停电范围、安全措施,工作许可人、工作票签发人、工作票审批人、送电后评语等。
步骤S220,依次将各第一待检测工作票数据与工作票数据库中第一剩余的工作票数据进行比对。
其中,第一剩余的工作票数据指的是工作票数据库中除去取出的一个第一待检测工作票数据后剩余的工作票数据。
具体地,每次从工作票数据库中获取一个第一待检测工作票数据,并将获取的第一待检测工作票数据与工作票数据库中第一剩余的工作票数据(及工作票数据库中剩余的工作票数据)进行比对。
步骤S230,根据比对的结果,删除第一剩余的工作票数据中与待检测工作票数据相同的工作票数据,得到工作票数据库中第二剩余的工作票数据。
其中,第二剩余的工作票数据指的是经过对工作票数据库中重复的工作票数据删除,所剩余的工作票数据。
具体地,根据第一待检测工作票数据与工作票数据库中第一剩余的工作票数据之间的比对结果,若第一剩余的工作票数据存在与待检测工作票数据相同的工作票数据,则删除第一剩余的工作票数据中重复的工作票数据,直至对各个第一待检测工作票数据比对完成。
进一步的,根据第一待检测工作票数据与工作票数据库中第一剩余的工作票数据之间的比对结果,若第一剩余的工作票数据不存在与待检测工作票数据相同的工作票数据,则保留第一剩余的工作票数据。
步骤S240,依次获取工作票数据库中的第二待检测工作票数据;第二待检测工作票数据为第二剩余的工作票数据中的工作票数据。
具体地,在对工作票数据库中的工作票数据进行比对处理后,可依次获取比对处理后的工作票数据库中的工作票数据,进而可获取得到第二待检测工作票数据。
步骤S250,依次将各第二待检测工作票数据与第二剩余的工作票数据进行相似度匹配。
其中,第二剩余的工作票数据指的是工作票数据库中除去取出的一个第二待检测工作票数据后剩余的工作票数据。
具体地,每次从工作票数据库中获取一个第二待检测工作票数据,并将获取的第二待检测工作票数据与工作票数据库中第二剩余的工作票数据(及工作票数据库中剩余的工作票数据)进行相似度匹配。
步骤S260,根据匹配的结果,删除第二剩余的工作票数据中与第二待检测工作票数据的相似度大于预设阈值的工作票数据。
其中,预设阈值指的是预先设置的相似度阈值。
具体地,根据第二待检测工作票数据与工作票数据库中第二剩余的工作票数据之间的匹配结果,若第二剩余的工作票数据存在工作票数据与待检测工作票数据之间的相似度大于预设阈值,则删除第二剩余的工作票数据中与第二待检测工作票数据的相似度大于预设阈值的工作票数据,直至完成对各个第二待检测工作票数据相似度匹配处理。
进一步的,根据第二待检测工作票数据与工作票数据库中第二剩余的工作票数据之间的匹配结果,若第二剩余的工作票数据存在工作票数据与待检测工作票数据之间的相似度小于预设阈值,则保留第二剩余的工作票数据。
上述的工作票文本去重方法实施例中,通过依次获取工作票数据库中的第一待检测工作票数据;依次将各第一待检测工作票数据与工作票数据库中第一剩余的工作票数据进行比对;根据比对的结果,删除第一剩余的工作票数据中与待检测工作票数据相同的工作票数据,得到工作票数据库中第二剩余的工作票数据;依次获取工作票数据库中的第二待检测工作票数据;依次将各第二待检测工作票数据与第二剩余的工作票数据进行相似度匹配;根据匹配的结果,删除第二剩余的工作票数据中与第二待检测工作票数据的相似度大于预设阈值的工作票数据,进而实现对工作票数据库的工作票文本去重。从而能够在很大程度上节省了数据库上大量相同或相似数据的堆积,使后续的数据分析过程更为准确和有效,提高数据库的使用效率;在去重过程中,能够有效地剔除重复文本,提高去重效率。
在一个具体地实施例中,根据匹配的结果,删除第二剩余的工作票数据中与第二待检测工作票数据的相似度大于预设阈值的工作票数据的步骤包括:
获取对应相似度大于预设阈值的工作票数据的索引号;
根据索引号,删除相似度大于预设阈值的工作票数据。
其中,索引指的是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构,它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引号可以是用于指定工作票数据库中工作票数据的指针。
具体地,根据第二待检测工作票数据与工作票数据库中第二剩余的工作票数据之间的匹配结果,若第二剩余的工作票数据存在工作票数据与待检测工作票数据之间的相似度大于预设阈值,则获取该工作票数据的索引号;并根据该索引号,删除在工作票数据库中相应的工作票数据。通过对工作票数据库中的工作票数据设置索引,并通过索引号指向需删除的工作票数据,进一步能够提高工作票数据去重效率。
在一个示例中,根据比对的结果,删除第一剩余的工作票数据中与待检测工作票数据相同的工作票数据,得到工作票数据库中第二剩余的工作票数据的步骤之后还包括:
工作票数据库中第二剩余的工作票数据重置索引。
具体而言,通过对工作票数据库中第二剩余的工作票数据重置索引,进而对第二剩余的工作票数据的索引号重新排序,便于在工作票数据相似度匹配处理时,能够通过获取相应工作票数据的索引号进行开始删除操作。
在一个具体的实施例中,根据匹配的结果,删除第二剩余的工作票数据中与第二待检测工作票数据的相似度大于预设阈值的工作票数据的步骤包括:
基于TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆文本频率指数)算法处理第二待检测工作票数据和第二剩余的工作票数据,得到相似度。
其中,TF-IDF算法指的是一种用于信息检索与数据挖掘的常用加权算法;TF-IDF算法可用来通过某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力。
具体而言,可通过TF-IDF算法计算处理第二待检测工作票数据与工作票数据库中第二剩余的工作票数据,进而得到相应的相似度。若第二剩余的工作票数据存在工作票数据与待检测工作票数据之间的相似度大于预设阈值(例如90%的相似度),则删除在工作票数据库中相应的工作票数据。
在一个具体的实施例中,基于TF-IDF算法处理第二待检测工作票数据和第二剩余的工作票数据,得到相似度的步骤包括:
对第二待检测工作票数据进行分词,得到工作票分词信息;
将工作票分词信息输入TF-IDF模型进行处理,得到对应第二待检测工作票数据的次数;
基于TF-IDF算法处理次数,得到相似度。
具体而言,可对获取到的第二待检测工作票数据进行分词处理,得到工作票分词信息;将工作票分词信息输入TF-IDF模型进行处理,通过TF-IDF模型处理统计工作票分词信息出现的次数,进而可得到对应第二待检测工作票数据的次数;基于TF-IDF算法处理工作票分词信息的次数,进而得到第二待检测工作票数据与第二剩余的工作票数据之间的相似度。
进一步的,可对获取到的第二待检测工作票数据进行分词处理,可根据分词处理得到的工作票分词信息,建立语料库,并把该语料库作为参数传递给TF-IDF模型,通过TF-IDF模型统计相应工作票分词信息出现的次数,进而可计算得到TF-IDF的值,从而获得相应的相似度。
在一个实施例中,如图3所示,提供了一种工作票文本去重方法,以该方法应用于图1中的终端102为例进行说明,包括以下步骤:
步骤S310,依次获取工作票数据库中的第一待检测工作票数据。
步骤S320,依次将各第一待检测工作票数据与工作票数据库中第一剩余的工作票数据进行比对。
步骤S330,根据比对的结果,删除第一剩余的工作票数据中与待检测工作票数据相同的工作票数据,得到工作票数据库中第二剩余的工作票数据。
步骤S340,将第二待检测工作票数据与工作票数据库的典型工作票数据进行匹配;第二待检测工作票数据为第二剩余的工作票数据中的工作票数据。
其中,典型工作票数据可以是系统默认为用户常用的工作票。典型工作票可以但不限于是电力线路工作票、电力线路带电作业工作票和电力电缆工作票。
步骤S350,在第二待检测工作票数据与典型工作票之间的相似度小于相似工作票阈值时,获取第二待检测工作票数据。
具体地,可基于TF-IDF模型计算得到第二待检测工作票数据与典型工作票之间的相似度。
步骤S360,依次将各第二待检测工作票数据与第二剩余的工作票数据进行相似度匹配。
步骤S370,根据匹配的结果,删除第二剩余的工作票数据中与第二待检测工作票数据的相似度大于预设阈值的工作票数据。
其中,上述步骤S310、步骤S320、步骤S330、步骤S360和步骤S370的具体内容过程可参考上文内容,此处不再赘述。
具体而言,基于比对处理删除工作票数据库中存在重复的工作票数据,得到第二剩余的工作票数据。将第二待检测工作票数据(即第二剩余的工作票数据中的工作票数据)与工作票数据库的典型工作票数据进行匹配;在第二待检测工作票数据与典型工作票之间的相似度小于相似工作票阈值时,获取第二待检测工作票数据;依次获取工作票数据库中的第二待检测工作票数据;依次将各第二待检测工作票数据与第二剩余的工作票数据进行相似度匹配;根据匹配的结果,删除第二剩余的工作票数据中与第二待检测工作票数据的相似度大于预设阈值的工作票数据,进而实现对工作票数据库的工作票文本去重。能够实现在很大程度上节省了数据库上大量相同或相似数据的堆积,使后续的数据分析过程更为准确和有效,进而形成以工作票为核心的无重复数据库,能够进一步地提高数据库的使用效率;在去重过程中,能够有效地剔除重复文本,提高去重效率。
在一个具体的实施例中,将第二待检测工作票数据与工作票数据库的典型工作票数据进行匹配的步骤之后还包括:
在第二待检测工作票数据与典型工作票之间的相似度大于或等于相似工作票阈值时,删除第二待检测工作票数据。
其中,相似工作票阈值指的是系统预设的阈值,例如相似工作票阈值可以设置为90%相似度。
具体而言,基于TF-IDF模型计算得到第二待检测工作票数据与典型工作票之间的相似度大于或等于相似工作票阈值时,删除第二待检测工作票数据,可以精确地对数据库中的工作票数据进行判重处理,计算响应速度快,且判重精准。
在一个实施例中,如图4所示,提供了一种工作票文本去重方法,以该方法应用于图1中的终端102为例进行说明,包括以下步骤:
步骤S410,依次获取工作票数据库中的第一待检测工作票数据。
步骤S420,分别对各第一待检测工作票数据进行数据预处理,得到各预处理后的第一待检测工作票数据。
其中,数据预处理可用来处理第一待检测工作票数据中存在的缺失值和重复值等。数据预处理可以但不限于是去除唯一属性、处理缺失值、属性编码、数据标准化正则化和特征选择等。
步骤S430,依次将各预处理后的第一待检测工作票数据与工作票数据库中第一剩余的工作票数据进行比对。
步骤S440,根据比对的结果,删除第一剩余的工作票数据中与待检测工作票数据相同的工作票数据,得到工作票数据库中第二剩余的工作票数据。
步骤S450,依次获取工作票数据库中的第二待检测工作票数据;第二待检测工作票数据为第二剩余的工作票数据中的工作票数据。
步骤S460,依次将各第二待检测工作票数据与第二剩余的工作票数据进行相似度匹配。
步骤S470,根据匹配的结果,删除第二剩余的工作票数据中与第二待检测工作票数据的相似度大于预设阈值的工作票数据。
其中,上述步骤S410、步骤S440、步骤S450、步骤S460和步骤S470的具体内容过程可参考上文内容,此处不再赘述。
具体而言,可对获取到的工作票数据库中的第一待检测工作票数据进行数据预处理,得到预处理后的第一待检测工作票数据,进而为对工作票数据的判重处理(包括比对处理和相似度匹配处理)提高了精确度。
在一个示例中,如图5所示,具体说明对工作票文本去重处理的工作流程。首先对工作票数据进行预处理;通过对工作票数据库中的工作票数据文本对比,判断是否存在完全一样的工作票内容,若是则进行剔除;然后再采用TF-IDF算法,计算工作票数据的相似程度,将相似度超过90%的工作票数据进行二次剔除,使得剩余的文本数据中不存在高重复的工作票数据。通过对数据库中的工作票数据的去重处理,进一步降低数据库中工作票数据的重复,提升数据库的使用能效。
进一步的,如图6所示,具体说明工作票文本比对处理过程。对预处理后的工作票数据,每次取一条工作票数据和剩余的工作票数据进行对比,若重复,则删除剩余的工作票数据中的这些重复数据,保留取出的工作票数据,直到剩余的工作票数据全部取完后,重置取出的工作票数据的索引。
进一步的,如图7所示,具体说明工作票文本相似度匹配处理过程。对于一万条待去重的工作票数据,每次取一条工作票数据,根据TF-IDF模型计算相似度,对于相似度大于阈值(90%)的数据,获取其对应工作票数据的索引;相似度小于阈值(90%)的数据,不做任何处理,直到1万条数据全部取完,最后根据索引删除相似度大于阈值的工作票数据。待所有批次的数据都处理完之后,合并分割数据,并保存数据。
进一步的,如图8所示,具体说明TF-IDF模型计算相似度的处理过程。对预处理后的工作票数据,建立语料库,并把该语料库作为参数传递给TF-IDF模型,统计语料库中各个分词出现的次数,计算出相应的TF-IDF的值,进而获得对应工作票数据的相似度。
本实施例中,能够针对工作票数据的个性特征,进行个性化的分词,提高去重效率。在去重过程中,能够有效地剔除重复文本,同时确保剔除的文本数量控制在一定的范围;通过对电子工作票数据库的文本数据进行去重处理,进而形成以工作票为核心的无重复知识库,能够进一步地提高数据库的使用效率。
需要说明的是,本申请各实施例可适用于电力工作人员施工安全行为信息数据库的去重,包括相似度极高的工作地点、停电线路、安全措施等内容。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种工作票文本去重装置,包括:
第一数据获取单元910,用于依次获取工作票数据库中的第一待检测工作票数据。
工作票比对单元920,用于依次将各第一待检测工作票数据与工作票数据库中第一剩余的工作票数据进行比对。
第一删除处理单元930,用于根据比对的结果,删除第一剩余的工作票数据中与待检测工作票数据相同的工作票数据,得到工作票数据库中第二剩余的工作票数据。
第二数据获取单元940,用于依次获取工作票数据库中的第二待检测工作票数据;第二待检测工作票数据为第二剩余的工作票数据中的工作票数据。
相似度匹配单元950,用于依次将各第二待检测工作票数据与第二剩余的工作票数据进行相似度匹配。
第二删除处理单元960,用于根据匹配的结果,删除第二剩余的工作票数据中与第二待检测工作票数据的相似度大于预设阈值的工作票数据。
关于工作票文本去重装置的具体限定可以参见上文中对于工作票文本去重方法的限定,在此不再赘述。上述工作票文本去重装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于工作票文本去重系统中的处理器中,也可以以软件形式存储于工作票文本去重系统中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,如图10所示,提供了一种工作票文本去重系统,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述任一项工作票文本去重方法的步骤。
其中,处理器可用于执行以下步骤:
依次获取工作票数据库中的第一待检测工作票数据;
依次将各第一待检测工作票数据与工作票数据库中第一剩余的工作票数据进行比对;
根据比对的结果,删除第一剩余的工作票数据中与待检测工作票数据相同的工作票数据,得到工作票数据库中第二剩余的工作票数据;
依次获取工作票数据库中的第二待检测工作票数据;第二待检测工作票数据为第二剩余的工作票数据中的工作票数据;
依次将各第二待检测工作票数据与第二剩余的工作票数据进行相似度匹配;
根据匹配的结果,删除第二剩余的工作票数据中与第二待检测工作票数据的相似度大于预设阈值的工作票数据。
在一个实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一项的工作票文本去重方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各除法运算方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种工作票文本去重方法,其特征在于,包括以下步骤:
依次获取工作票数据库中的第一待检测工作票数据;
依次将各所述第一待检测工作票数据与所述工作票数据库中第一剩余的工作票数据进行比对;
根据比对的结果,删除所述第一剩余的工作票数据中与所述待检测工作票数据相同的工作票数据,得到所述工作票数据库中第二剩余的工作票数据;
依次获取所述工作票数据库中的第二待检测工作票数据;所述第二待检测工作票数据为所述第二剩余的工作票数据中的工作票数据;
依次将各所述第二待检测工作票数据与所述第二剩余的工作票数据进行相似度匹配;
根据匹配的结果,删除所述第二剩余的工作票数据中与所述第二待检测工作票数据的相似度大于预设阈值的工作票数据。
2.根据权利要求1所述的工作票文本去重方法,其特征在于,所述根据匹配的结果,删除所述第二剩余的工作票数据中与所述第二待检测工作票数据的相似度大于预设阈值的工作票数据的步骤包括:
获取对应所述相似度大于预设阈值的工作票数据的索引号;
根据所述索引号,删除所述相似度大于预设阈值的工作票数据。
3.根据权利要求1所述的工作票文本去重方法,其特征在于,所述根据匹配的结果,删除所述第二剩余的工作票数据中与所述第二待检测工作票数据的相似度大于预设阈值的工作票数据的步骤包括:
基于TF-IDF算法处理所述第二待检测工作票数据和所述第二剩余的工作票数据,得到所述相似度。
4.根据权利要求3所述的工作票文本去重方法,其特征在于,所述基于TF-IDF算法处理所述第二待检测工作票数据和所述第二剩余的工作票数据,得到所述相似度的步骤包括:
对所述第二待检测工作票数据进行分词,得到工作票分词信息;
将所述工作票分词信息输入TF-IDF模型进行处理,得到对应所述第二待检测工作票数据的次数;
基于TF-IDF算法处理所述次数,得到所述相似度。
5.根据权利要求1所述的工作票文本去重方法,其特征在于,依次获取所述工作票数据库中的第二待检测工作票数据的步骤之前还包括:
将所述第二待检测工作票数据与所述工作票数据库的典型工作票数据进行匹配;
依次获取所述工作票数据库中的第二待检测工作票数据的步骤包括:
在所述第二待检测工作票数据与所述典型工作票之间的相似度小于相似工作票阈值时,获取所述第二待检测工作票数据。
6.根据权利要求5所述的工作票文本去重方法,其特征在于,所述将所述第二待检测工作票数据与所述工作票数据库的典型工作票数据进行匹配的步骤之后还包括:
在所述第二待检测工作票数据与所述典型工作票之间的相似度大于或等于相似工作票阈值时,删除所述第二待检测工作票数据。
7.根据权利要求1所述的工作票文本去重方法,其特征在于,所述依次将各所述第一待检测工作票数据与所述工作票数据库中第一剩余的工作票数据进行比对的步骤包括:
分别对各所述第一待检测工作票数据进行数据预处理,得到各预处理后的第一待检测工作票数据;
依次将各所述预处理后的第一待检测工作票数据与所述工作票数据库中第一剩余的工作票数据进行比对。
8.一种工作票文本去重装置,其特征在于,包括:
第一数据获取单元,用于依次获取工作票数据库中的第一待检测工作票数据;
工作票比对单元,用于依次将各所述第一待检测工作票数据与所述工作票数据库中第一剩余的工作票数据进行比对;
第一删除处理单元,用于根据比对的结果,删除所述第一剩余的工作票数据中与所述待检测工作票数据相同的工作票数据,得到所述工作票数据库中第二剩余的工作票数据;
第二数据获取单元,用于依次获取所述工作票数据库中的第二待检测工作票数据;所述第二待检测工作票数据为所述第二剩余的工作票数据中的工作票数据;
相似度匹配单元,用于依次将各所述第二待检测工作票数据与所述第二剩余的工作票数据进行相似度匹配;
第二删除处理单元,用于根据匹配的结果,删除所述第二剩余的工作票数据中与所述第二待检测工作票数据的相似度大于预设阈值的工作票数据。
9.一种工作票文本去重系统,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述工作票文本去重方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的工作票文本去重方法的步骤。
CN201911105613.0A 2019-11-13 2019-11-13 工作票文本去重方法、装置、系统及计算机存储介质 Pending CN110955751A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911105613.0A CN110955751A (zh) 2019-11-13 2019-11-13 工作票文本去重方法、装置、系统及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911105613.0A CN110955751A (zh) 2019-11-13 2019-11-13 工作票文本去重方法、装置、系统及计算机存储介质

Publications (1)

Publication Number Publication Date
CN110955751A true CN110955751A (zh) 2020-04-03

Family

ID=69977404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911105613.0A Pending CN110955751A (zh) 2019-11-13 2019-11-13 工作票文本去重方法、装置、系统及计算机存储介质

Country Status (1)

Country Link
CN (1) CN110955751A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642746A (zh) * 2021-08-13 2021-11-12 西安热工研究院有限公司 基于工作票计算风场定检维护台数或计划停机台数的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170087139A1 (en) * 2015-09-08 2017-03-30 The Children's Hospital Of Philadelphia Methods of diagnosing and treating tourette syndrome
CN107977347A (zh) * 2017-12-04 2018-05-01 海南云江科技有限公司 一种题目去重方法和计算设备
CN108846117A (zh) * 2018-06-26 2018-11-20 北京金堤科技有限公司 商业快讯的去重筛选方法及装置
CN209248549U (zh) * 2018-11-23 2019-08-13 广东电网有限责任公司 变电站工作票的智能审查装置和系统
CN110134768A (zh) * 2019-05-13 2019-08-16 腾讯科技(深圳)有限公司 文本的处理方法、装置、设备及存储介质
CN110309446A (zh) * 2019-04-26 2019-10-08 深圳市赛为智能股份有限公司 文本内容快速去重方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170087139A1 (en) * 2015-09-08 2017-03-30 The Children's Hospital Of Philadelphia Methods of diagnosing and treating tourette syndrome
CN107977347A (zh) * 2017-12-04 2018-05-01 海南云江科技有限公司 一种题目去重方法和计算设备
CN108846117A (zh) * 2018-06-26 2018-11-20 北京金堤科技有限公司 商业快讯的去重筛选方法及装置
CN209248549U (zh) * 2018-11-23 2019-08-13 广东电网有限责任公司 变电站工作票的智能审查装置和系统
CN110309446A (zh) * 2019-04-26 2019-10-08 深圳市赛为智能股份有限公司 文本内容快速去重方法、装置、计算机设备及存储介质
CN110134768A (zh) * 2019-05-13 2019-08-16 腾讯科技(深圳)有限公司 文本的处理方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642746A (zh) * 2021-08-13 2021-11-12 西安热工研究院有限公司 基于工作票计算风场定检维护台数或计划停机台数的方法

Similar Documents

Publication Publication Date Title
CN108632097B (zh) 异常行为对象的识别方法、终端设备及介质
CN110851598B (zh) 文本分类方法、装置、终端设备及存储介质
CN110874530A (zh) 关键词提取方法、装置、终端设备及存储介质
US9754023B2 (en) Stochastic document clustering using rare features
CN110377558A (zh) 文档查询方法、装置、计算机设备和存储介质
CN110888981B (zh) 基于标题的文档聚类方法、装置、终端设备及介质
CN112328805B (zh) 基于nlp的漏洞描述信息与数据库表的实体映射方法
CN111914294A (zh) 一种数据库敏感数据识别方法及系统
CN112613271A (zh) 数据分页方法、装置、计算机设备及存储介质
CN110956031A (zh) 文本相似度匹配的方法、装置及系统
CN112199937A (zh) 一种短文本相似度分析方法及其系统、计算机设备、介质
CN110555165B (zh) 信息识别方法、装置、计算机设备和存储介质
CN115098440A (zh) 电子档案查询方法、装置、存储介质和设备
CN109656474B (zh) 数据存储方法、装置、计算机设备和存储介质
CN110955751A (zh) 工作票文本去重方法、装置、系统及计算机存储介质
CN110750710A (zh) 风控协议预警方法、装置、计算机设备和存储介质
CN117744652A (zh) 一种基于大语言模型的领域特征词挖掘方法和装置
CN110399464B (zh) 一种相似新闻判别方法、系统及电子设备
CN110851709B (zh) 资讯推送方法、装置、计算机设备和存储介质
CN112612810A (zh) 慢sql语句识别方法及系统
CN111858581A (zh) 一种分页查询的方法、装置、存储介质和电子设备
CN110728585A (zh) 核保方法、装置、设备及存储介质
US11709798B2 (en) Hash suppression
CN114691835A (zh) 基于文本挖掘的审计计划数据生成方法、装置和设备
CN112559775A (zh) 一种专利信息管理方法及其系统、计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200923

Address after: 510620 Tianhe District, Guangzhou, Tianhe South Road, No. two, No. 2, No.

Applicant after: Guangzhou Power Supply Bureau of Guangdong Power Grid Co.,Ltd.

Address before: 510620 Tianhe District, Guangzhou, Tianhe South Road, No. two, No. 2, No.

Applicant before: GUANGZHOU POWER SUPPLY Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20200403

RJ01 Rejection of invention patent application after publication