CN114490929A - 一种招投标信息采集方法、装置、存储介质及终端设备 - Google Patents
一种招投标信息采集方法、装置、存储介质及终端设备 Download PDFInfo
- Publication number
- CN114490929A CN114490929A CN202111683455.4A CN202111683455A CN114490929A CN 114490929 A CN114490929 A CN 114490929A CN 202111683455 A CN202111683455 A CN 202111683455A CN 114490929 A CN114490929 A CN 114490929A
- Authority
- CN
- China
- Prior art keywords
- data
- rule
- bidding
- bidding data
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/08—Auctions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种招投标信息采集方法、装置、存储介质及终端设备,通过对采集到的招投标数据进行通用规则的分析,获得通用规则相关的正则匹配方式,并通过正则匹配方式获取相应的通配符号,从而根据通配符号提取输入文本信息中的招投标数据,有利于提高采集招投标数据的效率,同时降低了采集招投标数据的难度。
Description
技术领域
本发明涉及信息技术服务领域,尤其涉及一种招投标信息采集方法、装置、存储介质及终端设备。
背景技术
招标单位通过招标投标这一方式能够寻找到高质量、高效率、高性价比的优质投标单位,而招标投标作为一种成熟的交易方式,不仅提升了企业竞争力,也促使企业进行科技改革。招标投标提高了社会的经济效益和社会效益,为市场经济的建设提供了极其重要的帮助。随着互联网技术的不断发展,通过互联网进行招标投标公告的分布以及数据的公开已是十分常见的情况。但互联网上公开的招标投标数据存在来源不统一、数据重复以及结构种类杂乱的缺点,因此,对于互联网上的招标投标信息进行采集并统计成为了需要解决的问题。
现有技术中,存在短文本语义理解与精准匹配这一处理技术,通过对行业标签进行语义理解后,与数据库中的特定文本进行匹配,从而找到最相似的预设文本集,并以此来获取所采集标签的数据标签和属性。但由于招标投标数据的来源广泛,在对招标投标数据进行采集时,难以在短时间内检索出大量的招标投标数据。在对收集到的数据进行匹配时,由于文本格式不统一、没有知识支撑,招标投标信息的提取精准度较低。
因此,目前市面上亟需一种招投标信息采集策略,解决对招投标数据进行采集时出行的搜索效率低和文本提取精准度不够的缺点。
发明内容
本发明实施例提供一种招投标信息采集方法、装置、存储介质及终端设备,以提高招标投标数据在互联网中的提取效率。
为了解决上述问题,本发明一实施例提供一种招投标信息采集方法,包括:
采集第一招投标数据,分析所述第一招标数据获得多个第一招投标数据的第一属性特征的通用规则;其中,所述第一属性特征的通用规则包括文本位置规则、文本结束规则、换页规则和地址跳转规则;
根据所述第一属性特征的通用规则,获得用于采集招投标数据的通配符号;
根据所述通配符号,通过识别输入的所述通配符号对应的文本信息,从而采集第二招投标数据;
根据所述第二招投标数据所在网站的原始数据,对所述第二招投标数据进行测试验证,当验证率小于第一预设值时,根据所述第二招投标数据以及所述原始数据,调整所述通配符号对应的正则匹配规则,并重新提取第二招投标数据,对重新提取的第二招投标数据与所述原始数据进行测试验证;当验证率大于等于第一预设值时,输出采集的第二招投标数据。
作为优选方案,在所述采集第二招投标数据之后,还包括:获取所述第二招投标数据的第一属性特征,分析所述第二招投标数据的第一属性特征在原始数据中的通用规则,将获得的通用规则储存于数据库中,以更新数据库中的通用规则类型。
作为优选方案,所述采集第一招投标数据,分析所述第一招标数据获得多个第一招投标数据的第一属性特征的通用规则,具体为:
在招投标网站中采集所述第一招投标数据;
在所述第一招投标数据中获取多个第一招投标数据的第一属性特征,分别分析所述多个第一招投标数据的第一属性特征在原始数据中的出现规律;
根据所述多个第一招投标数据的第一属性特征的出现规律,获得所述多个第一招投标数据的第一属性特征的通用规则。
作为优选方案,所述根据所述第一属性特征的通用规则,获得用于采集招投标数据的通配符号,具体为:
将所述第一属性特征的通用规则转化为正则匹配规则,并对所述正则匹配规则进行验证;
根据验证通过的正则匹配规则,将正则表达式转换为通配符号,从而获得所述采集招投标数据的通配符号。
作为优选方案,所述对所述正则匹配规则进行验证,具体为:
根据所述正则匹配规则,对所述第一招投标数据所在的网站进行数据提取,获得第三招投标数据;
随机抽取所述第三招投标数据,并与所述第一招投标数据进行对比,获得准确率;
当所述准确率大于等于第二预设值时,通过正则匹配规则的验证,并在通过验证后将所述正则匹配规则、所述第一属性特征和所述第一属性特征的通用规则储存于数据库中,同时对所述正则匹配规则、所述第一属性特征和所述第一属性特征的通用规则进行数据清洗。
作为优选方案,所述根据所述通配符号,通过识别输入的所述通配符号对应的文本信息,从而采集第二招投标数据,具体为:
根据非技术人员确定的所述通配符号对应的文本信息所在的位置,识别并提取所述文本信息的第一属性特征,从而获得第二招标数据。
作为优选方案,还包括:
将获得的招投标数据进行行业知识图谱的匹配,获得第二属性特征;其中,所述第二属性特征包括:属性词特征、字符串特征、以及知识图谱中候选实体的知识组合特征;
根据所述第二属性特征,训练并获得行业匹配模型;
根据所述行业匹配模型,获得招投标数据的行业属性。
相应的,本发明还提供了一种招投标信息采集装置,包括:规则提取模块、规则转换模块、数据采集模块和测试验证模块;
所述规则提取模块用于采集第一招投标数据,分析所述第一招标数据获得多个第一招投标数据的第一属性特征的通用规则;其中,所述第一属性特征的通用规则包括文本位置规则、文本结束规则、换页规则和地址跳转规则;
所述规则转换模块用于根据所述第一属性特征的通用规则,获得用于采集招投标数据的通配符号;
所述数据采集模块用于根据所述通配符号,通过识别输入的所述通配符号对应的文本信息,从而采集第二招投标数据;
所述测试验证模块用于根据所述第二招投标数据所在网站的原始数据,对所述第二招投标数据进行测试验证,当验证率小于第一预设值时,根据所述第二招投标数据以及所述原始数据,调整所述通配符号对应的正则匹配规则,并重新提取第二招投标数据,对重新提取的第二招投标数据与所述原始数据进行测试验证;当验证率大于等于第一预设值时,输出采集的第二招投标数据。
作为优选方案,在所述采集第二招投标数据之后,还包括:获取所述第二招投标数据的第一属性特征,分析所述第二招投标数据的第一属性特征在原始数据中的通用规则,将获得的通用规则储存于数据库中,以更新数据库中的通用规则类型。
作为优选方案,所述根据所述通配符号,通过识别输入的所述通配符号对应的文本信息,从而采集第二招投标数据,具体为:根据非技术人员确定的所述通配符号对应的文本信息所在的位置,识别并提取所述文本信息的第一属性特征,从而获得第二招标数据。
作为优选方案,还包括:将获得的招投标数据进行行业知识图谱的匹配,获得第二属性特征;其中,所述第二属性特征包括:属性词特征、字符串特征、以及知识图谱中候选实体的知识组合特征;根据所述第二属性特征,训练并获得行业匹配模型;根据所述行业匹配模型,获得招投标数据的行业属性。
作为优选方案,所述规则提取模块,包括:采集单元、分析单元和输出单元;
所述采集单元用于在招投标网站中采集所述第一招投标数据;
所述分析单元用于在所述第一招投标数据中获取多个第一招投标数据的第一属性特征,分别分析所述多个第一招投标数据的第一属性特征在原始数据中的出现规律;
所述输出单元用于根据所述多个第一招投标数据的第一属性特征的出现规律,获得所述多个第一招投标数据的第一属性特征的通用规则。
作为优选方案,所述规则转换模块,包括:正则匹配单元和通配符号单元;
所述正则匹配单元用于将所述第一属性特征的通用规则转化为正则匹配规则,并对所述正则匹配规则进行验证;
所述通配符号单元用于根据验证通过的正则匹配规则,将正则表达式转换为通配符号,从而获得所述采集招投标数据的通配符号。
作为优选方案,所述对所述正则匹配规则进行验证,具体为:根据所述正则匹配规则,对所述第一招投标数据所在的网站进行数据提取,获得第三招投标数据;随机抽取所述第三招投标数据,并与所述第一招投标数据进行对比,获得准确率;当所述准确率大于等于第二预设值时,通过正则匹配规则的验证,并在通过验证后将所述正则匹配规则、所述第一属性特征和所述第一属性特征的通用规则储存于数据库中,同时对所述正则匹配规则、所述第一属性特征和所述第一属性特征的通用规则进行数据清洗。
相应的,本发明还提供了一种计算机终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如本发明所述的一种招投标信息采集方法。
相应的,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如本发明所述的一种招投标信息采集方法。
由上可见,本发明具有如下有益效果:
本发明提供了一种招投标信息采集方法、装置、存储介质及终端设备,通过对采集到的招投标数据进行通用规则的分析,获得通用规则相关的正则匹配方式,并通过正则匹配方式获取相应的通配符号,从而根据通配符号提取输入文本信息中的招投标数据,有利于提高采集招投标数据的效率,同时降低了采集招投标数据的难度。
进一步的,本发明结合了知识图谱技术,对招投标数据的属性特征进行更加详细的扩充,从而提高了采集招投标数据的精准度,同时降低了采集招投标数据的成本。
附图说明
图1是本发明一实施例提供的招投标信息采集方法的流程示意图;
图2是本发明一实施例提供的招投标信息采集装置的结构示意图;
图3是本发明一实施例提供的一种终端设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参见图1,图1是本发明一实施例提供的一种招投标信息采集方法的流程示意图,如图1所示,本实施例包括步骤101至步骤104,各步骤具体如下:
步骤101:采集第一招投标数据,分析所述第一招标数据获得多个第一招投标数据的第一属性特征的通用规则;其中,所述第一属性特征的通用规则包括文本位置规则、文本结束规则、换页规则和地址跳转规则。
在本实施例中,步骤101具体为:从大量的招投标网站中采集第一投标数据,筛选出第一投标数据中对应的第一属性特征,如:招标中标金额、编码、标的物等20多个基本属性特征,并分析每个第一属性特征的通用规则,如:标的物在招投标网站公告中出现的位置、名称结束的规则等。
作为优选方案,在招投标网站中采集所述第一招投标数据;在所述第一招投标数据中获取多个第一招投标数据的第一属性特征,分别分析所述多个第一招投标数据的第一属性特征在原始数据中的出现规律;根据所述多个第一招投标数据的第一属性特征的出现规律,获得所述多个第一招投标数据的第一属性特征的通用规则。
作为优选方案,第一招标数据可由爬虫规则系统在投标网站上进行采集。
步骤102:根据所述第一属性特征的通用规则,获得用于采集招投标数据的通配符号。
在本实施例中,步骤102具体为:由技术人员将获取到的通用规则转化为通配符号,例如:鼠标标记某个表格的列表。
作为优选方案,将所述第一属性特征的通用规则转化为正则匹配规则,并对所述正则匹配规则进行验证;根据验证通过的正则匹配规则,将正则表达式转换为通配符号,从而获得所述采集招投标数据的通配符号。
作为优选方案,根据所述正则匹配规则,对所述第一招投标数据所在的网站进行数据提取,获得第三招投标数据;随机抽取所述第三招投标数据,并与所述第一招投标数据进行对比,获得准确率;当所述准确率大于等于第二预设值时,通过正则匹配规则的验证,并在通过验证后将所述正则匹配规则、所述第一属性特征和所述第一属性特征的通用规则储存于数据库中,同时对所述正则匹配规则、所述第一属性特征和所述第一属性特征的通用规则进行数据清洗。
作为优选方案,所述第二预设值为90%。
步骤103:根据所述通配符号,通过识别输入的所述通配符号对应的文本信息,从而采集第二招投标数据。
在本实施例中,步骤103具体为:非技术人员根据通配符号输入对应的文本信息,从而获取招投标信息标题等第二招投标数据。
作为优选方案,根据非技术人员确定的所述通配符号对应的文本信息所在的位置,识别并提取所述文本信息的第一属性特征,从而获得第二招标数据。
作为优选方案,在所述采集第二招投标数据之后,还包括:获取所述第二招投标数据的第一属性特征,分析所述第二招投标数据的第一属性特征在原始数据中的通用规则,将获得的通用规则储存于数据库中,以更新数据库中的通用规则类型。
步骤104:根据所述第二招投标数据所在网站的原始数据,对所述第二招投标数据进行测试验证,当验证率小于第一预设值时,根据所述第二招投标数据以及所述原始数据,调整所述通配符号对应的正则匹配规则,并重新提取第二招投标数据,对重新提取的第二招投标数据与所述原始数据进行测试验证;当验证率大于等于第一预设值时,输出采集的第二招投标数据。
在本实施例中,步骤104具体为:采集一部分的第二投标数据,与原始数据进行对比测试,以获得内容的验证率,如果验证率小于第一预设值,则调整正则匹配规则,重新获得新的通配符号再次提取第二投标数据,然后将重新提取的第二投标数据与原始数据进行对比测试,直到验证率大于等于第一预设值,则输出第二招投标数据。
作为优选方案,第一预设值为95%。
作为优选方案,在步骤101至步骤104中任意一项招投标信息采集方法,还包括:得的招投标数据进行行业知识图谱的匹配,获得第二属性特征;其中,所述第二属性特征包括:属性词特征、字符串特征、以及知识图谱中候选实体的知识组合特征;根据所述第二属性特征,训练并获得行业匹配模型;根据所述行业匹配模型,获得招投标数据的行业属性。
作为优选方案,行业匹配模型是以人工标记目标信息,并由机器优化算法学习目标信息的属性特征的特点。
作为优选的,将采集到的所有招投标数据都储存于数据库中。
在本实施例中,本方法通过对采集到的招投标数据进行分析,根据分析获得的通用规则转化为通配符号,使得非技术人员可以根据通配符号进行新的招投标数据的采集,能够提高招投标数据采集的效率,大大提升了数据采集的速度。本方法还通过知识图谱对采集到的招投标数据收集更多的属性特征,从而提高了招投标数据的采集准确度。
实施例二
参见图2,图2是本发明一实施例提供的招投标信息采集装置的结构示意图,包括:规则提取模块201、规则转换模块202、数据采集模块203和测试验证模块204;
所述规则提取模块201用于采集第一招投标数据,分析所述第一招标数据获得多个第一招投标数据的第一属性特征的通用规则;其中,所述第一属性特征的通用规则包括文本位置规则、文本结束规则、换页规则和地址跳转规则;
所述规则转换模块202用于根据所述第一属性特征的通用规则,获得用于采集招投标数据的通配符号;
所述数据采集模块203用于根据所述通配符号,通过识别输入的所述通配符号对应的文本信息,从而采集第二招投标数据;
所述测试验证模块204用于根据所述第二招投标数据所在网站的原始数据,对所述第二招投标数据进行测试验证,当验证率小于第一预设值时,根据所述第二招投标数据以及所述原始数据,调整所述通配符号对应的正则匹配规则,并重新提取第二招投标数据,对重新提取的第二招投标数据与所述原始数据进行测试验证;当验证率大于等于第一预设值时,输出采集的第二招投标数据。
作为优选方案,在所述采集第二招投标数据之后,还包括:获取所述第二招投标数据的第一属性特征,分析所述第二招投标数据的第一属性特征在原始数据中的通用规则,将获得的通用规则储存于数据库中,以更新数据库中的通用规则类型。
作为优选方案,所述根据所述通配符号,通过识别输入的所述通配符号对应的文本信息,从而采集第二招投标数据,具体为:根据非技术人员确定的所述通配符号对应的文本信息所在的位置,识别并提取所述文本信息的第一属性特征,从而获得第二招标数据。
作为优选方案,还包括:将获得的招投标数据进行行业知识图谱的匹配,获得第二属性特征;其中,所述第二属性特征包括:属性词特征、字符串特征、以及知识图谱中候选实体的知识组合特征;根据所述第二属性特征,训练并获得行业匹配模型;根据所述行业匹配模型,获得招投标数据的行业属性。
作为优选方案,所述规则提取模块201,包括:采集单元、分析单元和输出单元;
所述采集单元用于在招投标网站中采集所述第一招投标数据;
所述分析单元用于在所述第一招投标数据中获取多个第一招投标数据的第一属性特征,分别分析所述多个第一招投标数据的第一属性特征在原始数据中的出现规律;
所述输出单元用于根据所述多个第一招投标数据的第一属性特征的出现规律,获得所述多个第一招投标数据的第一属性特征的通用规则。
作为优选方案,所述规则转换模块202,包括:正则匹配单元和通配符号单元;
所述正则匹配单元用于将所述第一属性特征的通用规则转化为正则匹配规则,并对所述正则匹配规则进行验证;
所述通配符号单元用于根据验证通过的正则匹配规则,将正则表达式转换为通配符号,从而获得所述采集招投标数据的通配符号。
作为优选方案,所述对所述正则匹配规则进行验证,具体为:根据所述正则匹配规则,对所述第一招投标数据所在的网站进行数据提取,获得第三招投标数据;随机抽取所述第三招投标数据,并与所述第一招投标数据进行对比,获得准确率;当所述准确率大于等于第二预设值时,通过正则匹配规则的验证,并在通过验证后将所述正则匹配规则、所述第一属性特征和所述第一属性特征的通用规则储存于数据库中,同时对所述正则匹配规则、所述第一属性特征和所述第一属性特征的通用规则进行数据清洗。
在本实施例中,通过规则提取模块提取采集到的招投标数据中每个属性特征对应的通用规则,并由规则转换模块将通用规则转化为通配符号,使得数据采集模块根据通配符号进行数据采集,最后在测试验证模块中根据招投标数据的验证率对招投标数据进行规则调整或数据输出,本实施例能够提高招投标数据采集的范围,大大提高采集招投标数据的效率。
实施例三
参见图3,图3是本发明一实施例提供的终端设备结构示意图。
该实施例的一种终端设备包括:处理器301、存储器302以及存储在所述存储器302中并可在所述处理器301上运行的计算机程序。所述处理器301执行所述计算机程序时实现上述各个招投标信息采集方法在实施例中的步骤,例如图1所示的招投标信息采集方法的所有步骤。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块的功能,例如:图2所示的招投标信息采集装置的所有模块。
另外,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任一实施例所述的招投标信息采集方法。
本领域技术人员可以理解,所述示意图仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器301可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器301是所述终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分。
所述存储器302可用于存储所述计算机程序和/或模块,所述处理器301通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器302内的数据,实现所述终端设备的各种功能。所述存储器302可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种招投标信息采集方法,其特征在于,包括:
采集第一招投标数据,分析所述第一招标数据获得多个第一招投标数据的第一属性特征的通用规则;其中,所述第一属性特征的通用规则包括文本位置规则、文本结束规则、换页规则和地址跳转规则;
根据所述第一属性特征的通用规则,获得用于采集招投标数据的通配符号;
根据所述通配符号,通过识别输入的所述通配符号对应的文本信息,从而采集第二招投标数据;
根据所述第二招投标数据所在网站的原始数据,对所述第二招投标数据进行测试验证,当验证率小于第一预设值时,根据所述第二招投标数据以及所述原始数据,调整所述通配符号对应的正则匹配规则,并重新提取第二招投标数据,对重新提取的第二招投标数据与所述原始数据进行测试验证;当验证率大于等于第一预设值时,输出采集的第二招投标数据。
2.根据权利要求1所述的招投标信息采集方法,其特征在于,在所述采集第二招投标数据之后,还包括:获取所述第二招投标数据的第一属性特征,分析所述第二招投标数据的第一属性特征在原始数据中的通用规则,将获得的通用规则储存于数据库中,以更新数据库中的通用规则类型。
3.根据权利要求1所述的招投标信息采集方法,其特征在于,所述采集第一招投标数据,分析所述第一招标数据获得多个第一招投标数据的第一属性特征的通用规则,具体为:
在招投标网站中采集所述第一招投标数据;
在所述第一招投标数据中获取多个第一招投标数据的第一属性特征,分别分析所述多个第一招投标数据的第一属性特征在原始数据中的出现规律;
根据所述多个第一招投标数据的第一属性特征的出现规律,获得所述多个第一招投标数据的第一属性特征的通用规则。
4.根据权利要求1所述的招投标信息采集方法,其特征在于,所述根据所述第一属性特征的通用规则,获得用于采集招投标数据的通配符号,具体为:
将所述第一属性特征的通用规则转化为正则匹配规则,并对所述正则匹配规则进行验证;
根据验证通过的正则匹配规则,将正则表达式转换为通配符号,从而获得所述采集招投标数据的通配符号。
5.根据权利要求4所述的招投标信息采集方法,其特征在于,所述对所述正则匹配规则进行验证,具体为:
根据所述正则匹配规则,对所述第一招投标数据所在的网站进行数据提取,获得第三招投标数据;
随机抽取所述第三招投标数据,并与所述第一招投标数据进行对比,获得准确率;
当所述准确率大于等于第二预设值时,通过正则匹配规则的验证,并在通过验证后将所述正则匹配规则、所述第一属性特征和所述第一属性特征的通用规则储存于数据库中,同时对所述正则匹配规则、所述第一属性特征和所述第一属性特征的通用规则进行数据清洗。
6.根据权利要求1所述的招投标信息采集方法,其特征在于,所述根据所述通配符号,通过识别输入的所述通配符号对应的文本信息,从而采集第二招投标数据,具体为:
根据非技术人员确定的所述通配符号对应的文本信息所在的位置,识别并提取所述文本信息的第一属性特征,从而获得第二招标数据。
7.根据权利要求1至6任意一项所述的招投标信息采集方法,其特征在于,还包括:
将获得的招投标数据进行行业知识图谱的匹配,获得第二属性特征;其中,所述第二属性特征包括:属性词特征、字符串特征、以及知识图谱中候选实体的知识组合特征;
根据所述第二属性特征,训练并获得行业匹配模型;
根据所述行业匹配模型,获得招投标数据的行业属性。
8.一种招投标信息采集装置,其特征在于,包括:规则提取模块、规则转换模块、数据采集模块和测试验证模块;
所述规则提取模块用于采集第一招投标数据,分析所述第一招标数据获得多个第一招投标数据的第一属性特征的通用规则;其中,所述第一属性特征的通用规则包括文本位置规则、文本结束规则、换页规则和地址跳转规则;
所述规则转换模块用于根据所述第一属性特征的通用规则,获得用于采集招投标数据的通配符号;
所述数据采集模块用于根据所述通配符号,通过识别输入的所述通配符号对应的文本信息,从而采集第二招投标数据;
所述测试验证模块用于根据所述第二招投标数据所在网站的原始数据,对所述第二招投标数据进行测试验证,当验证率小于第一预设值时,根据所述第二招投标数据以及所述原始数据,调整所述通配符号对应的正则匹配规则,并重新提取第二招投标数据,对重新提取的第二招投标数据与所述原始数据进行测试验证;当验证率大于等于第一预设值时,输出采集的第二招投标数据。
9.一种计算机终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的一种招投标信息采集方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的一种招投标信息采集方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111683455.4A CN114490929A (zh) | 2021-12-31 | 2021-12-31 | 一种招投标信息采集方法、装置、存储介质及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111683455.4A CN114490929A (zh) | 2021-12-31 | 2021-12-31 | 一种招投标信息采集方法、装置、存储介质及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114490929A true CN114490929A (zh) | 2022-05-13 |
Family
ID=81509700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111683455.4A Pending CN114490929A (zh) | 2021-12-31 | 2021-12-31 | 一种招投标信息采集方法、装置、存储介质及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114490929A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114648393A (zh) * | 2022-05-19 | 2022-06-21 | 四川隧唐科技股份有限公司 | 一种应用于招投标的数据挖掘方法、系统及设备 |
-
2021
- 2021-12-31 CN CN202111683455.4A patent/CN114490929A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114648393A (zh) * | 2022-05-19 | 2022-06-21 | 四川隧唐科技股份有限公司 | 一种应用于招投标的数据挖掘方法、系统及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108108426B (zh) | 自然语言提问的理解方法、装置及电子设备 | |
CN109684476B (zh) | 一种文本分类方法、文本分类装置及终端设备 | |
CN112163553B (zh) | 物料价格核算方法、装置、存储介质和计算机设备 | |
CN112015721A (zh) | 一种基于大数据的电商平台存储数据库的优化方法 | |
CN108629047B (zh) | 一种歌曲清单生成方法及终端设备 | |
CN117520503A (zh) | 基于llm模型的金融客服对话生成方法、装置、设备及介质 | |
CN114490929A (zh) | 一种招投标信息采集方法、装置、存储介质及终端设备 | |
CN111611781B (zh) | 数据标注方法、问答方法、装置及电子设备 | |
CN111898378B (zh) | 政企客户的行业分类方法和装置、电子设备、存储介质 | |
CN111949793B (zh) | 用户意图识别方法、装置及终端设备 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
CN111046632A (zh) | 一种数据提取转换方法、系统、存储介质及电子设备 | |
CN112328812B (zh) | 基于自调参数的领域知识抽取方法与系统、电子设备 | |
CN112434965A (zh) | 一种基于词频的专家标签产生方法、装置、终端 | |
CN115587244A (zh) | 一种用户兴趣维度采集与推荐方法、装置、设备及存储介质 | |
CN107729476A (zh) | 一种机器数据在线处理方法及系统 | |
CN105868271B (zh) | 一种姓名统计方法及装置 | |
CN114064873A (zh) | 保险领域faq知识库构建方法、装置及电子设备 | |
CN113282837A (zh) | 事件分析方法、装置、计算机设备及存储介质 | |
CN112488557A (zh) | 一种基于评分标准客观分的自动计算方法、装置、终端 | |
CN112632926A (zh) | 票据的数据处理方法、装置、电子设备及存储介质 | |
CN113093967A (zh) | 数据生成方法、装置、计算机装置及存储介质 | |
CN116187299B (zh) | 一种科技项目文本数据检定评价方法、系统及介质 | |
CN116758565B (zh) | 一种基于决策树的ocr文本还原方法、设备及存储介质 | |
CN117591951A (zh) | 一种商品编码获取方法、系统、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |