CN110196848B - 一种面向公共资源交易数据的清洗去重方法及其系统 - Google Patents
一种面向公共资源交易数据的清洗去重方法及其系统 Download PDFInfo
- Publication number
- CN110196848B CN110196848B CN201910278683.XA CN201910278683A CN110196848B CN 110196848 B CN110196848 B CN 110196848B CN 201910278683 A CN201910278683 A CN 201910278683A CN 110196848 B CN110196848 B CN 110196848B
- Authority
- CN
- China
- Prior art keywords
- data
- text data
- text
- data records
- records
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种面向公共资源交易数据的清洗去重方法及其系统,该公共资源交易数据所对应的文本以文本数据记录形式存储在数据集中;其中,按照预设规则对数据集进行分组,控制每个分组内的文本数据记录数量;基于最长公共子序列计算每一分组内各个文本数据记录之间的数据相似度;当两条文本数据记录之间的数据相似度大于预定阈值时,进一步对比这两条文本数据记录的命名实体信息,当这两条文本数据记录的命名实体信息相同时,判断属于重复数据,否则判断属于非重复数据。通过多维度的交叉验证方式来确定来自公共资源交易数据中的重复信息,能够在提高文本处理性能的基础上进一步防止误判重复数据。
Description
技术领域
本发明涉及一种数据处理技术,尤其涉及一种交易数据清洗方法和系统,具体涉及一种面向公共资源交易数据的数据清洗去重方法和系统,特别适用于对建筑工程大数据,即海量招投标公告等信息,进行数据处理和交易之前的数据去重清洗。
背景技术
公共资源交易是指市政公用事业特许经营权、行政事业单位后勤社会化服务经营权、户外广告牌经营权、缉私罚没公物拍卖、房产及办公楼等物业租赁、出租小汽车营运牌照、汽车吉祥号牌、行政事业单位废旧物资处理等由公共资源管理部门所掌控的公益性、垄断性、专有性的社会公共资源进行交易和提供咨询、服务等业务。
对公共资源交易数据进行挖掘、分析和处理有助于提高交易效率,有助于降低制度性交易成本、提高资源配置效率、推动政府职能转变上不断取得成果,从而助力供给侧结构性改革。
应国家政策要求,凡符合《招标投标法》和相关部门或行业规定的项目,均要进行招投标公示公告。面对成千上万的招投标公告发布渠道,以及各式各样的数据发布形式(如文本、图片、PDF等),在互联网上产生了海量的招投标公告数据。这些公告数据规范不统一,主要是一些非结构化、半结构化数据,如图1所示。
并且目前全国各级和各地的公共资源交易数据发布渠道不统一,数据格式混乱,导致对相关数据的管理十分困难,更缺乏对相关数据进一步分析的结构化数据支撑。例如图2-3分别示例了两个不同招投标公告发布渠道对同一数据的描述和展示信息,不同渠道展示同一数据的格式、顺序并不一致,当从多个渠道获取数据时需要能够识别重复数据,由于网页排版的原因被插入了多余的格式控制符,如直接进行文本比对,则将被识别是不同的数据记录。目前数据处理和分析行业缺少针对公共资源交易数据特点的数据清洗技术,急需此类技术对后续构建相关大数据平台工作进行支撑。
因此,对于这种海量招投标公告数据,如何根据其实际内容进行准确识别并去重处理,即无论招投标公告来自何处,内容结构如何变换,都能够通过其文本所代表的意义进行去重处理,在公共资源交易大数据平台中只保留或者映射到唯一的项目信息(也包括项目生命周期中的各个阶段信息),是公共资源交易和建筑工程信息服务行业的现实需求。
发明内容
为了解决上述技术问题,本发明提供了一种面向公共资源交易数据的数据清洗去重方法,该公共资源交易数据所对应的文本以文本数据记录形式存储在数据集中,其中:
按照预设规则对数据集进行分组,控制每个分组内的文本数据记录数量;
基于最长公共子序列计算每一分组内各个文本数据记录之间的数据相似度;
当两条文本数据记录之间的数据相似度大于预定阈值时,进一步对比这两条文本数据记录的命名实体信息,当这两条文本数据记录的命名实体信息相同时,判断这两条文本数据记录所对应的公共资源交易数据属于重复数据,否则判断这两条文本数据记录所对应的公共资源交易数据属于非重复数据。
在上述技术方案中,计算文本数据记录之间的数据相似度的方法具体为:
式中,x和y分别表示两条文本数据记录所对应的字符串,LCS表示两条文本数据记录的最长公共子序列;Lenth(LCS)为两条文本数据记录之间最长公共子序列的长度,Avg(x,y)为两条文本数据记录的长度平均值,Distance(x,y)为两条文本数据记录的长度偏离距离。
本发明还提供了一种基于语义理解的标讯数据文本去重处理方法,其中:
S100,从输入数据集的数据流中提取待进入数据集的文本数据记录;
S110,对所述待进入数据集的文本数据记录按照预定的规则进行分组;
S120,在该文本数据记录所属分组内,对该文本数据记录与其他已在该分组内文本数据记录进行最长公共子序列计算,得到该文本数据记录与该分组内其他各条文本数据记录之间的数据相似度;
数据相似度计算公式为:
式中,x和y分别表示两条文本数据记录所对应的字符串,LCS表示两条文本数据记录的最长公共子序列;Lenth(LCS)为两条文本数据记录之间最长公共子序列的长度,Avg(x,y)为两条文本数据记录的长度平均值,Distance(x,y)为两条文本数据记录的长度偏离距离;
S130,将步骤S120得到的数据相似度进行归一化得到相似度分值,当两条文本数据记录之间的相似度分值大于预定阈值时进入步骤S140,否则进入步骤S160;
S140,进行命名实体识别处理,获取两条文本数据记录的语义信息;
S150,判断两条文本数据记录的语义信息是否相同,不同则进入步骤S160;相同则判断待进入数据集的文本数据记录属于重复数据,返回步骤S100;
S160,判断该两条文本数据记录属于非重复数据;进入步骤S120,遍历该待进入数据集的文本数据记录与所属分组内已有的全部文本数据记录,当该待进入数据集的文本数据记录与所属分组内已有的全部文本数据记录均非重复数据时,将待进入数据集的文本数据记录加入到数据集的该分组内,返回步骤S100。
在上述技术方案中,该预定的规则可以是地区、日期或招投标公告标题中的一项或多项。
在上述技术方案中,所述命名实体识别是识别文本数据记录中具有特定意义的词汇,包括标讯类型、项目编号、项目名称、工程类型、招标单位、招标代理、中标单位、工程所在地区、中标金额中的多项。
在上述技术方案中,通过命名实体识别所识别出来的实体信息通过无序匹配或循环匹配方式进行对比,如果实体信息完全匹配,则说明两条文本数据记录的语义信息是相同的,属于重复数据,否则不属于重复数据。
在上述技术方案中,所述进行匹配的实体信息至少包括人名、地名和组织机构。
在上述技术方案中,所述进行匹配的实体信息至少包括招投标公告名称、工程金额、标讯类型(招标或中标)、工程所在省、工程所在市。
本发明还提供一种面向公共资源交易数据的数据清洗去重系统,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时执行上述技术方案中的方法步骤。
本发明还提供一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述技术方案中的方法步骤。
本发明取得了以下技术效果:
1、首先通过对招投标内容按照地区、发布日期或标题等信息进行分组,在组内进行基于语义理解的招投标公告内容,有效减少了参与计算的数据量,极大地提高了算法性能,并保证了较好的去重效果。
2、通过LCS算法预估分组内招投标内容的近似度,仅对具有较高相似度的招投标内容进行NER算法处理判断其实体信息的相似程度,即仅对存在重复数据可能性的招投标内容进行算法复杂度更高的识别处理,以有效提高算法性能。
3、对每一条招投标公告内容进行事件要素抽取,通过多维度的交叉验证进而保障识别重复的公告数据,提高招投标公告内容重复识别的准确率。
附图说明
图1为公共资源交易数据中的某招投标公告示意图(对项目的具体名称进行了模糊化处理);
图2为某一网站所呈现的某招投标公告示意图;
图3为另一网站所呈现的某招投标公告示意图;
图4为网络爬虫从某网站爬取的带标签文本数据的局部示意图;
图5为图4中带标签文本数据去除标签后所得文本数据的局部示意图;
图6为基于语义理解的文本去重处理的方法流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及具体实施方式对本发明作进一步的详细描述。
通常可以采用网页爬虫技术从相关的数据平台或信息发布网站获得公共资源交易数据,从相关网站的网页处所获得的一般是带有相应网页标签的文本,即带HTML标签的文本信息,如图4所示的是从某政府网站(http://www.longhui.gov.cn)爬取的某政府采购招标公告信息,其呈现为带HTML标签的文本数据,经过去除HTML标签后得到该招标公告信息的文本数据如图5所示,当需要将其加入公共资源交易数据的数据集时,这是对其进行数据清洗处理的基础,即原始数据信息所对应的文本数据记录。
为了应对行业中对公共资源交易数据进行数据清洗时需要对其进行去重处理的现实需求,需要引入自然语言处理(NLP)中的文本语义度量技术。
对于从不同数据平台(或信息发布网站)获得文本数据进行去重处理的技术,在本质上属于文本相似度计算技术。传统的文本相似度计算方法,大多是将文本分词之后,转化为特征向量距离的度量,比如常见的余弦夹角算法、欧氏距离计算、海明距离计算、Jaccard相似度计算等,以及还有最长公共子串、编辑距离、MD5等方法。但是这些方法的算法复杂度较高,当需要对大量招投标公告数据进行去重处理时(例如,大于3万条/天),这些方法的性能并不能满足需求。
为了提升文本相似度计算性能,本发明引入了自然语言处理技术,实现了基于语义理解的文本去重处理,如图6所示,其包括步骤:
S100,从输入数据集的数据流中提取待进入数据集的文本数据记录;
对于输入的数据集,可以以网络爬虫或者特定的网络服务或者API方式获得,不需要区分是否是结构化的数据集合,统一以字符流形式输入成为文本数据记录。
S110,对所述待进入数据集的文本数据记录按照预定的规则进行分组;
该预定的规则可以是地区、日期或招投标公告标题中的一项或多项。
预定的分组规则决定了整个数据集划分的粒度,当数据集内的数据量达到一定规模时,需要通过分组规则来控制每个分组内的数据记录数目。本领域技术人员应当可以理解,当待进入数据集的数据数量记录为n,数据集内已有数据记录数量m时,判断是否重复时其对比次数最多为n×m次,通过分组,将数据集分为i个分组,则各个分组内的记录数量为ki,可知∑iki=n;通过控制分组的方式可使得ki<n,这样通过仅在分组内进行对比,可将对比次数控制为最多为n×ki次。由此可知,当数据集中的数据记录为100万条时,通过按省级行政区划分地区的规则,可将每组内的数据量控制在10万条以下,此时对比次数至少能缩减10倍,当数据集中的数据记录超过1000万条时,通过按地市级行政区划分地区的规则,或者按省级行政区划分地区结合年份划分日期的规则,可继续将每组内的数据量控制在10万条以下,此时对比次数至少能缩减100倍,从而极大提高计算性能。
为了最大程度地提高对文本数据记录的处理性能,在进行分组时不采用自然语言处理中的分词技术,而采用更加轻量的处理方式来实现,具体来说,文本数据记录对应的地区可以通过匹配全国城市列表并进一步统计分析获得,文本数据记录对应的日期可以通过正则表达式匹配获得,文本数据记录对应的招投标公告标题可以通过相应的数据流中的特定的HTML页签来确定。
S120,在该文本数据记录所属分组内,对该文本数据记录与其他已在该分组内文本数据记录进行LCS最长公共子序列计算(Longest Common Subsequence),得到该文本数据记录与该分组内其他各条文本数据记录之间的数据相似度;
数据相似度计算公式为:
式中,LCS表示两条文本数据记录(即x和y)的最长公共子序列;Lenth(LCS)为该最长公共子序列的长度,Avg(x,y)为两条文本数据记录(字符串x和y)长度的平均值,计算如下:
Distance(x,y)表示两条文本数据记录(字符串x和y)长度的偏离距离,计算如下:
Distance(x,y)=|Lenth(x)-Lenth(y)|
S130,将步骤S120得到的数据相似度进行归一化得到相似度分值,当两条文本数据记录之间的相似度分值大于预定阈值时进入步骤S140,否则进入步骤S160;
预定阈值通过大量数据进行识别归类后,以一定置信区间进行统计后予以确定。例如,以95%以上的准确率要求,将文本数据记录之间的数据相似度分值的预定阈值设定为0.6,大于0.6表示这两条文本数据记录较为相似,存在这两条文本数据记录是重复记录的可能性;而小于等于0.6表示这两条文本数据记录不够相似,这两条文本数据记录是重复记录的可能性较低。
S140,进行命名实体识别(NER,Named Entity Recognition)处理,获取两条文本数据记录的语义信息;
其中,命名实体识别是识别文本数据记录中具有特定意义的单词,包括标讯类型、项目编号、项目名称、工程类型、招标单位、招标代理、中标单位、工程所在地区、中标金额等实体信息,可以是人员名称、地名、机构名、专有名词等。重复的招投标内容对应的(中介机构或发布平台赋予的)项目编号有可能相同或者不同,但是往往具备相同招标单位、招标代理、中标单位等实体信息,因此根据这些实体信息可准确识别重复的招投标公告内容。
数据集内相应分组内已有的文本数据记录的命名实体识别结果,可以是预先处理好,并对应存储在数据集或者其他地方的,待进入数据集的文本数据记录的命名实体识别结果在进行第一次处理后就被存储或记录,这样在对整个分组进行遍历对比时,无需多次进行文本数据记录的命名实体识别处理,从而提高比对算法的效率。
S150,判断两条文本数据记录的语义信息是否相同,不同则进入步骤S160;相同则判断待进入数据集的文本数据记录(与数据集内相应分组内已有的、与之对比的文本数据记录)属于重复数据,返回步骤S100;
其中,根据待进入数据集的文本数据记录的类型(标讯类型或标讯类别)选择需要进行比对的实体信息;例如:当待进入数据集的文本数据记录的类型是国内招标时,需要对比文本数据记录的项目名称、工程类型、招标单位、招标代理、工程所在地区等信息。
具体来说,可以采用语言技术平台(LTP工具包)来具体实现,通过输入文本数据记录中的字符串来直接获得文本数据记录中的人名、地名、组织机构名这三类信息的输出。然后通过对两条文本数据记录的这三类信息进行无序匹配,即对字符串x和y中所包含的人名、地名、组织机构这三类信息进行循环匹配。如果信息完全匹配,则说明字符串x和y是重复的,即两条文本数据记录的语义信息是相同的,属于重复数据,否则是不同的,不属于重复数据。
S160,判断该两条文本数据记录(即待进入数据集的文本数据记录与数据集内相应分组内已有的、与之对比的文本数据记录)属于非重复数据;进入步骤S120,遍历该待进入数据集的文本数据记录与所属分组内已有的全部文本数据记录,当该待进入数据集的文本数据记录与所属分组内已有的全部文本数据记录均非重复数据时,将待进入数据集的文本数据记录加入数据集的该分组内,返回步骤S100。
在上述实施例中,数据集中已经存储的文本数据记录是以按照预定的规则分组进行组织或存储的,相应地,已经存储的文本数据记录所对应的NER处理结果是预先处理/提取好的。
示例1:
通过本发明提供的数据处理方法,如图2-3所示,从河南招标网(http://www.hnzbw.cn/newshow1.asp?id=1920507&l=1)和从许昌市政府采购网(http://www.hngp.gov.cn/henan/content?infoId=1540448944097797&channelCod e=H710202&bz=0)分别提取到标题涉及“许昌市曹魏古城开发建设有限公司“许昌曹魏古城南城门、南大街中轴无线wifi和街区安防”项目成交结果公告”的两条招投标公告内容作为文本数据记录。
将上述两条文本数据记录(招投标公告内容)作为上述步骤S120-S130的输入,得到该文本数据记录的相似度数值为0.81,大于预设阈值0.6,经过步骤S140中的NER处理后分别输出“人名:王强秦振锋陈东杰刘道文李晶李志月张良;组织机构名:魏都区政府采购中心河南继元智能科技股份有限公司许昌市曹魏古城开发建设有限公司许昌市天宝路魏都区政府;地名:许昌市北京许昌市新兴路蓝湾河南许昌河南省许昌市劳动路”等实体信息,经无序匹配,上述两条文本数据记录输出的实体信息是相同的,从而可知该两条文本数据记录所包含的招标公告是重复的。
示例2:
通过本发明提供的数据处理方法,从北京市建设工程信息网(http://www.bcactc.com/home/gcxx/zbjggs_show.aspx?gcbh=230F0SG201800046)和北京市建设工程信息网(http://www.bcactc.com/home/gcxx/zbjggs_show.aspx?gcbh=230F0JL201800020)提取到标题涉及“北京经济技术开发区南部新区特勤消防站工程”项目的两条数据记录作为文本数据记录。
将上述两条文本数据记录(中标公示内容)作为上述步骤S120-S130的输入,其相似度数值为0.875,大于预设阈值0.6,经过步骤S140中的NER处理后分别输出“人名:;组织机构名:北京经济技术开发区基建办公室北京经济技术开发区北京方正建设工程管理有限公司;地名:”和“人名:;组织机构名:北京经济技术开发区基建办公室北京经济技术开发区北京天恒建设集团有限公司;地名:”等实体信息,经无序匹配,该两条实体信息并不匹配,从而可知该两条文本数据记录所包含的中标公示内容并不重复。
本文中招投标公告事件要素包括:招投标公告名称、工程金额、招标人、招标代理、中标人、标讯类型(招标或中标)、工程所在省、工程所在市几方面信息,这些信息的提取技术可采用现有技术,例如哈尔滨工业大小的LTP工具包来实现,其具体实现方式不在本文描述范围内。
通过上述描述可知,本发明提供了一种基于语义理解的面向公共资源交易数据的数据清洗方法,提供了通过基于预设规则的分组后先进行数据相似度计算再进行命名实体识别的实体信息对比,通过多维度的交叉验证方式来确定来自公共资源交易数据中的重复信息,能够在提高文本处理性能的基础上进一步防止误判重复数据。这里的多维度的交叉验证具体是指通过招投标公告名称、工程金额、标讯类型(招标或中标)、工程所在省、工程所在市等至少五方面信息的对比,从而判定招投标公告是否重复的。
具体来说,NER(Named Entity Recognition,命名实体识别)又称作专名识别,是自然语言处理中常见的一项任务。命名实体通常指的是文本中具有特别意义或者指代性非常强的实体,通常包括人名、地名、机构名、时间、专有名词等。NER系统就是从非结构化的文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如项目名称、各参与方的角色和名称、价格等。因此实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体。
本发明所采用的最长公共子序列(Longest Common Subsequence,LCS)和最长公共子串(Longest Common Substring)的区别:子串(Substring)是串的一个连续的部分,子序列(Subsequence)则是从不改变序列的顺序,而从序列中去掉任意的元素而获得的新序列;更简略地说,前者(子串)的字符的位置必须连续,后者(子序列LCS)则不必。比如字符串acdfg同akdfc的最长公共子串为df,而他们的最长公共子序列是adf。最长公共子序列LCS可以使用动态规划法来具体实现。
从以上描述可以看出,本发明提供了一种面向公共资源交易数据的数据清洗方法,实现该方法的计算机系统,应用该计算机系统可以对面向公共资源交易数据,尤其是涉及建筑工程的招投标数据,进行数据清洗,去除从各种数据平台和信息发布网站等不同渠道获得的海量招投标数据中的重复数据,为相关的公共资源交易数据平台提供了准确的数据基础,解决了现有技术所存在的性能不高、不适用于对海量数据进行去重分析的技术问题。
为了实现上述目的,根据本申请的另一方面,还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述面向公共资源交易数据的数据清洗方法中的步骤。
处理器可以为中央处理器(Central Processing Unit,CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及单元,如本发明上述方法实施例中对应的程序单元。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及作品数据处理,即实现上述方法实施例中的方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个单元存储在所述存储器中,当被所述处理器执行时,执行上述实施例中的方法。
上述计算机设备具体细节可以对应参阅上述实施例中对应的相关描述和效果进行理解,此处不再赘述。
为了实现上述目的,根据本申请的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在计算机处理器中执行时实现上述面向公共资源交易数据的数据清洗方法中的步骤。本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种面向公共资源交易数据的数据清洗去重方法,该公共资源交易数据所对应的文本以文本数据记录形式存储在数据集中,其特征在于:
按照预设规则对数据集进行分组,控制每个分组内的文本数据记录数量;
基于最长公共子序列计算每一分组内各个文本数据记录之间的数据相似度;
当两条文本数据记录之间的数据相似度大于预定阈值时,进一步对比这两条文本数据记录的命名实体信息,当这两条文本数据记录的命名实体信息相同时,判断这两条文本数据记录所对应的公共资源交易数据属于重复数据,否则判断这两条文本数据记录所对应的公共资源交易数据属于非重复数据;
具体的,计算文本数据记录之间的数据相似度的方法具体为:
式中,x和y分别表示两条文本数据记录所对应的字符串,LCS表示两条文本数据记录的最长公共子序列;Lenth(LCS)为两条文本数据记录之间最长公共子序列的长度,Avg(x,y)为两条文本数据记录的长度平均值,Distance(x,y)为两条文本数据记录的长度偏离距离;
2.一种基于语义理解的标讯数据文本去重处理方法,其特征在于包括步骤:
S100,从输入数据集的数据流中提取待进入数据集的文本数据记录;
S110,对所述待进入数据集的文本数据记录按照预定的规则进行分组;
S120,在该文本数据记录所属分组内,对该文本数据记录与其他已在该分组内文本数据记录进行最长公共子序列计算,得到该文本数据记录与该分组内其他各条文本数据记录之间的数据相似度;
数据相似度计算公式为:
式中,x和y分别表示两条文本数据记录所对应的字符串,LCS表示两条文本数据记录的最长公共子序列;Lenth(LCS)为两条文本数据记录之间最长公共子序列的长度,Avg(x,y)为两条文本数据记录的长度平均值,Distance(x,y)为两条文本数据记录的长度偏离距离;
S130,将步骤S120得到的数据相似度进行归一化得到相似度分值,当两条文本数据记录之间的相似度分值大于预定阈值时进入步骤S140,否则进入步骤S160;
S140,进行命名实体识别处理,获取两条文本数据记录的语义信息;
S150,判断两条文本数据记录的语义信息是否相同,不同则进入步骤S160;相同则判断待进入数据集的文本数据记录属于重复数据,返回步骤S100;
S160,判断该两条文本数据记录属于非重复数据;进入步骤S120,遍历该待进入数据集的文本数据记录与所属分组内已有的全部文本数据记录,当该待进入数据集的文本数据记录与所属分组内已有的全部文本数据记录均非重复数据时,将待进入数据集的文本数据记录加入到数据集的该分组内,返回步骤S100。
3.如权利要求2所述的一种基于语义理解的标讯数据文本去重处理方法,其特征在于:该预定的规则可以是地区、日期或招投标公告标题中的一项或多项。
4.如权利要求3所述的一种基于语义理解的标讯数据文本去重处理方法,其特征在于:所述命名实体识别是识别文本数据记录中具有特定意义的词汇,包括标讯类型、项目编号、项目名称、工程类型、招标单位、招标代理、中标单位、工程所在地区、中标金额中的多项。
5.如权利要求4所述的一种基于语义理解的标讯数据文本去重处理方法,其特征在于:通过命名实体识别所识别出来的实体信息通过无序匹配或循环匹配方式进行对比,如果实体信息完全匹配,则说明两条文本数据记录的语义信息是相同的,属于重复数据,否则不属于重复数据。
6.如权利要求5所述的一种基于语义理解的标讯数据文本去重处理方法,其特征在于:所述进行匹配的实体信息至少包括人名、地名和组织机构。
7.如权利要求5所述的一种基于语义理解的标讯数据文本去重处理方法,其特征在于:所述进行匹配的实体信息至少包括招投标公告名称、工程金额、标讯类型、工程所在省、工程所在市。
8.一种面向公共资源交易数据的数据清洗去重系统,包括存储器、处理器、以及存储在所述存储器上的计算机程序,其特征在于,所述计算机程序被所述处理器运行时执行如权利要求1-7中任一项所述的方法步骤。
9.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910278683.XA CN110196848B (zh) | 2019-04-09 | 2019-04-09 | 一种面向公共资源交易数据的清洗去重方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910278683.XA CN110196848B (zh) | 2019-04-09 | 2019-04-09 | 一种面向公共资源交易数据的清洗去重方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110196848A CN110196848A (zh) | 2019-09-03 |
CN110196848B true CN110196848B (zh) | 2022-04-12 |
Family
ID=67751867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910278683.XA Active CN110196848B (zh) | 2019-04-09 | 2019-04-09 | 一种面向公共资源交易数据的清洗去重方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110196848B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113918544A (zh) * | 2020-07-09 | 2022-01-11 | 华为技术有限公司 | 一种数据缩减方法和装置 |
CN112463774B (zh) * | 2020-10-23 | 2021-10-12 | 完美世界控股集团有限公司 | 文本数据的去重方法、设备及存储介质 |
CN113609853A (zh) * | 2021-07-30 | 2021-11-05 | 支付宝(杭州)信息技术有限公司 | 一种企业主体属性识别方法、装置及设备 |
CN113627132B (zh) * | 2021-08-27 | 2024-04-02 | 智慧星光(安徽)科技有限公司 | 数据去重标记码生成方法、系统、电子设备及存储介质 |
CN114896363B (zh) * | 2022-04-19 | 2023-03-28 | 北京月新时代科技股份有限公司 | 一种数据管理方法、装置、设备及介质 |
CN115357690B (zh) * | 2022-10-19 | 2023-04-07 | 有米科技股份有限公司 | 基于文本模态自监督的文本去重方法及装置 |
CN116303406B (zh) * | 2023-05-16 | 2023-08-04 | 河北中废通网络技术有限公司 | 废旧物数据的清洗方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103281581A (zh) * | 2013-05-31 | 2013-09-04 | 成都三零凯天通信实业有限公司 | 通过智能手机语音控制ip机顶盒的人机交互系统及方法 |
CN103473228A (zh) * | 2012-06-06 | 2013-12-25 | 深圳市世纪光速信息技术有限公司 | 相关关键词的显示方法及装置 |
CN105022790A (zh) * | 2015-06-19 | 2015-11-04 | 中国科学院遥感与数字地球研究所 | 一种面向对象的城市实体地理编码整合方法 |
CN106484915A (zh) * | 2016-11-03 | 2017-03-08 | 国家电网公司信息通信分公司 | 一种海量数据的清洗方法和系统 |
CN107665252A (zh) * | 2017-09-27 | 2018-02-06 | 深圳证券信息有限公司 | 一种创建知识图谱的方法及装置 |
CN108717425A (zh) * | 2018-04-26 | 2018-10-30 | 国家电网公司 | 一种基于多数据源的知识图谱人物实体对齐方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8024127B2 (en) * | 2003-02-27 | 2011-09-20 | Lawrence Livermore National Security, Llc | Local-global alignment for finding 3D similarities in protein structures |
TWI419003B (zh) * | 2010-11-12 | 2013-12-11 | Univ Nat Chiao Tung | 自動化分析與分類惡意程式之方法及系統 |
CN103902527B (zh) * | 2014-03-31 | 2017-01-25 | 大连大学 | 结合词性的英语近形词干扰项生成方法 |
US11593405B2 (en) * | 2015-04-21 | 2023-02-28 | International Business Machines Corporation | Custodian disambiguation and data matching |
CN106767812B (zh) * | 2016-11-25 | 2017-12-08 | 郭得科 | 一种基于语义信息提取的室内语义地图更新方法与系统 |
CN107273359A (zh) * | 2017-06-20 | 2017-10-20 | 北京四海心通科技有限公司 | 一种文本相似度确定方法 |
CN109271641B (zh) * | 2018-11-20 | 2023-09-08 | 广西三方大供应链技术服务有限公司 | 一种文本相似度计算方法、装置及电子设备 |
-
2019
- 2019-04-09 CN CN201910278683.XA patent/CN110196848B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103473228A (zh) * | 2012-06-06 | 2013-12-25 | 深圳市世纪光速信息技术有限公司 | 相关关键词的显示方法及装置 |
CN103281581A (zh) * | 2013-05-31 | 2013-09-04 | 成都三零凯天通信实业有限公司 | 通过智能手机语音控制ip机顶盒的人机交互系统及方法 |
CN105022790A (zh) * | 2015-06-19 | 2015-11-04 | 中国科学院遥感与数字地球研究所 | 一种面向对象的城市实体地理编码整合方法 |
CN106484915A (zh) * | 2016-11-03 | 2017-03-08 | 国家电网公司信息通信分公司 | 一种海量数据的清洗方法和系统 |
CN107665252A (zh) * | 2017-09-27 | 2018-02-06 | 深圳证券信息有限公司 | 一种创建知识图谱的方法及装置 |
CN108717425A (zh) * | 2018-04-26 | 2018-10-30 | 国家电网公司 | 一种基于多数据源的知识图谱人物实体对齐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110196848A (zh) | 2019-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110196848B (zh) | 一种面向公共资源交易数据的清洗去重方法及其系统 | |
CN111309759B (zh) | 企业科技项目智能匹配平台 | |
Fu et al. | WASTK: A weighted abstract syntax tree kernel method for source code plagiarism detection | |
US20240152558A1 (en) | Search activity prediction | |
WO2022048363A1 (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN112183091A (zh) | 问答对生成方法、装置、电子设备及可读存储介质 | |
CN111899089A (zh) | 基于知识图谱的企业风险预警方法及系统 | |
CN112613917A (zh) | 基于用户画像的信息推送方法、装置、设备及存储介质 | |
CN112182246A (zh) | 通过大数据分析建立企业画像的方法、系统、介质及应用 | |
CN111552800A (zh) | 摘要生成方法、装置、电子设备及介质 | |
CN113032403B (zh) | 数据洞察方法、装置、电子设备及存储介质 | |
CN110555713A (zh) | 一种确定销量预测模型的方法和装置 | |
WO2021244639A1 (zh) | 利用机器学习模型进行线上预测的辅助实现方法及装置 | |
CN114612194A (zh) | 产品推荐方法、装置、电子设备及存储介质 | |
CN110222139B (zh) | 道路实体数据去重方法、装置、计算设备和介质 | |
CN106355450B (zh) | 用户行为分析系统和方法 | |
CN111444368B (zh) | 构建用户画像的方法、装置、计算机设备及存储介质 | |
CN112989791A (zh) | 一种基于文本信息抽取结果的去重方法、系统以及介质 | |
CN112395401A (zh) | 自适应负样本对采样方法、装置、电子设备及存储介质 | |
CN104133913A (zh) | 一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统及方法 | |
CN107329956B (zh) | 一种项目信息标准化方法及装置 | |
CN104778163A (zh) | 一种事件触发词识别方法及系统 | |
CN109033133A (zh) | 基于特征项权重增长趋势的事件检测与跟踪方法 | |
CN114862246A (zh) | 政策匹配方法及相关装置 | |
CN114490667A (zh) | 多维度的数据分析方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |