CN105718580A - 一种提供招投标信息搜索服务的方法和装置 - Google Patents
一种提供招投标信息搜索服务的方法和装置 Download PDFInfo
- Publication number
- CN105718580A CN105718580A CN201610046482.3A CN201610046482A CN105718580A CN 105718580 A CN105718580 A CN 105718580A CN 201610046482 A CN201610046482 A CN 201610046482A CN 105718580 A CN105718580 A CN 105718580A
- Authority
- CN
- China
- Prior art keywords
- key metadata
- logic
- character string
- propositions
- data base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0611—Request for offers or quotes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Databases & Information Systems (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种提供招投标信息搜索服务的方法和装置。其中所述方法包括:从互联网中爬取招投标信息源数据保存到第一数据库中;从第一数据库中的源数据中提取关键数据保存到第二数据库中;接收招投标信息查询请求,根据查询请求中的关键字查询所述第二数据库,如果存在匹配项,根据该匹配从第二数据库中获取相应的一个或多个关键数据进行展示。该技术方案通过分析算法,对招投标的网页信息进行数据挖掘,大大提高了搜索的召回率和准确率,解决了投标人在寻找项目机会中费时费力,效率较差的问题,通过抓取关键数据信息提供搜索选项,提高了搜索质量,大大提高了投标人的工作效率。
Description
技术领域
本发明涉及招投标领域,特别涉及一种提供招投标信息搜索服务的方法和装置。
背景技术
信息化的发展带来了招投标领域的新局面,原来投标人主要通过期刊杂志获取项目招投标信息的方式转变成了通过互联网网站来获取适合自己投标的信息。投标人的一种做法是登录各地的各个招投标网站来获取信息,然后通过人工的方式一个个检索并排查需要的信息。另外一种更加高效的做法是登录一些大型的招投标信息网站,通过全文检索的方式去搜索需要的招投标信息。
然而,这种方式耗时耗力,同时招投标网站的自带搜索也不能保证质量,这就造成了错误或者遗漏了重要信息。而通过登录大型的招投标信息网站,通过全文检索的方式去搜索需要的招投标信息,也由于采用了模糊匹配算法,匹配的质量不高,造成的搜索出的无效数据大于有效数据,更可怕的是遗漏了更多的有价值信息。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种提供招投标信息搜索服务的方法和装置。
依据本发明的一个方面,提供了一种提供招投标信息搜索服务的方法,包括:
从互联网中爬取招投标信息源数据保存到第一数据库中;
从第一数据库中的源数据中提取关键数据保存到第二数据库中;
接收招投标信息查询请求,根据查询请求中的关键字查询所述第二数据库,如果存在匹配项,根据该匹配从第二数据库中获取相应的一个或多个关键数据进行展示。
可选地,所述招投标信息源数据为网页源代码。
可选地,所述从第一数据库中的源数据中提取关键数据保存到第二数据库中包括如下中的一种或多种:
从第一数据库中的网页源代码中,提取符合第一预设逻辑的字符串作为发布日期关键元数据;其中第一预设逻辑为:字符串位于网页源代码中内容content部分的尾部,和/或字符串匹配/前缀匹配第一指定字符或第一指定字符串;
从第一数据库中的网页源代码中,提取符合第二预设逻辑的字符串作为招标人关键元数据;其中第二预设逻辑为:字符串前缀匹配第二指定字符或第二指定字符串;
从第一数据库中的网页源代码中,提取符合第三预设逻辑的字符串作为招标代理关键元数据;其中第三预设逻辑为:字符串前缀匹配第三指定字符或第三指定字符串;
从第一数据库中的网页源代码中,提取符合第四预设逻辑的字符串作为投资金额关键元数据;其中第四预设逻辑为:字符串前缀匹配第四指定字符或第四指定字符串,和/或,字符串位于网页源代码中content部分中的表格table部分且该table部分的表头部分的字符串匹配第五指定字符或第五指定字符串;
从第一数据库中的网页源代码中,提取符合第五预设逻辑的字符串作为第一/二/三中标候选人关键元数据;其中第五预设逻辑为:字符串位于网页源代码中内容部分中的table部分,且字符串对应的表格的行/列名称匹配第六指定字符或第六指定字符串;
从第一数据库中的网页源代码中,提取符合第六预设逻辑的字符串作为第一/二/三中标价关键元数据;其中第六预设逻辑为:字符串位于网页源代码中内容部分中的table部分,且字符串对应的表格的行/列名称匹配第七指定字符或第七指定字符串;
从第一数据库中的网页源代码中,提取符合第七预设逻辑的字符串作为中标人关键元数据;其中第七预设逻辑为:字符串前缀匹配第八指定字符或第八指定字符串;
从第一数据库中的网页源代码中,提取符合第八预设逻辑的字符串作为中标价关键元数据;其中第八预设逻辑为:字符串前缀匹配第九指定字符或第九指定字符串;
从第一数据库中的网页源代码中,提取符合第九预设逻辑的字符串作为企业名称关键元数据;其中第九预设逻辑为:字符串前缀匹配第十指定字符或第十指定字符串。
可选地,所述从第一数据库中的源数据中提取关键数据保存到第二数据库中进一步包括:
对提取的关键元数据进行校验,将通过校验的关键元数据保存到第二数据库中;每种关键元数据使用对应的校验逻辑进行校验;
当提取的关键元数据为发布日期关键元数据时,采用的校验逻辑为:提取的关键元数据不大于当前日期;
当提取的关键元数据为招标人关键元数据时,采用的校验逻辑为:提取的关键元数据的后缀字符在第一指定集合中;
当提取的关键元数据为招标代理关键元数据时,和/或当提取的关键元数据为企业名称关键元数据时,采用的校验逻辑为:提取的关键元数据的后缀字符为“公司”;
当提取的关键元数据为投资金额关键元数据时,和/或当提取的关键元数据为第一/二/三中标价关键元数据时,和/或当提取的关键元数据为中标价关键元数据时,采用的校验逻辑为:提取的关键元数据为数字;
当提取的关键元数据为第一/二/三中标候选人时,和/或当提取的关键元数据为中标人关键元数据时,采用的校验逻辑为:提取的关键元数据的后缀字符在第二指定集合中。
可选地,所述方法进一步包括:
将源数据所在的原始网址对应保存到第一数据库中;
当用接收用户的跳转到原始网址的请求时,跳转到对应的原始网址对应的页面。
依据本发明的另一方面,提供了一种提供招投标信息搜索服务的装置,包括:
源数据爬取单元,适于从互联网中爬取招投标信息源数据保存到第一数据库中;
关键数据提取单元,适于从第一数据库中的源数据中提取关键数据保存到第二数据库中;
查询单元,适于接收招投标信息查询请求,根据查询请求中的关键字查询所述第二数据库;
展示单元,适于在存在匹配项时,根据该匹配从第二数据库中获取相应的一个或多个关键数据进行展示。
可选地,所述招投标信息源数据为网页源代码。
可选地,所述关键数据提取单元,适于执行如下中的一种或多种从第一数据库中的源数据中提取关键数据保存到第二数据库中的步骤:
从第一数据库中的网页源代码中,提取符合第一预设逻辑的字符串作为发布日期关键元数据;其中第一预设逻辑为:字符串位于网页源代码中内容content部分的尾部,和/或字符串前缀匹配第一指定字符或第一指定字符串;
从第一数据库中的网页源代码中,提取符合第二预设逻辑的字符串作为招标人关键元数据;其中第二预设逻辑为:字符串前缀匹配第二指定字符或第二指定字符串;
从第一数据库中的网页源代码中,提取符合第三预设逻辑的字符串作为招标代理关键元数据;其中第三预设逻辑为:字符串前缀匹配第三指定字符或第三指定字符串;
从第一数据库中的网页源代码中,提取符合第四预设逻辑的字符串作为投资金额关键元数据;其中第四预设逻辑为:字符串前缀匹配第四指定字符或第四指定字符串,和/或,字符串位于网页源代码中content部分中的表格table部分且该table部分的表头部分的字符串匹配第五指定字符或第五指定字符串;
从第一数据库中的网页源代码中,提取符合第五预设逻辑的字符串作为第一/二/三中标候选人关键元数据;其中第五预设逻辑为:字符串位于网页源代码中内容部分中的table部分,且字符串对应的表格的行/列名称匹配第六指定字符或第六指定字符串;
从第一数据库中的网页源代码中,提取符合第六预设逻辑的字符串作为第一/二/三中标价关键元数据;其中第六预设逻辑为:字符串位于网页源代码中内容部分中的table部分,且字符串对应的表格的行/列名称匹配第七指定字符或第七指定字符串;
从第一数据库中的网页源代码中,提取符合第七预设逻辑的字符串作为中标人关键元数据;其中第七预设逻辑为:字符串前缀匹配第八指定字符或第八指定字符串;
从第一数据库中的网页源代码中,提取符合第八预设逻辑的字符串作为中标价关键元数据;其中第八预设逻辑为:字符串前缀匹配第九指定字符或第九指定字符串;
从第一数据库中的网页源代码中,提取符合第九预设逻辑的字符串作为企业名称关键元数据;其中第九预设逻辑为:字符串前缀匹配第十指定字符或第十指定字符串。
可选地,该装置进一步包括:
校验单元,适于对提取的关键元数据进行校验,将通过校验的关键元数据保存到第二数据库中;每种关键元数据使用对应的校验逻辑进行校验;
当提取的关键元数据为发布日期关键元数据时,采用的校验逻辑为:提取的关键元数据不大于当前日期;
当提取的关键元数据为招标人关键元数据时,采用的校验逻辑为:提取的关键元数据的后缀字符在第一指定集合中;
当提取的关键元数据为招标代理关键元数据,以及提取的关键元数据为企业名称关键元数据时,采用的校验逻辑为:提取的关键元数据的后缀字符为“公司”;
当提取的关键元数据为投资金额关键元数据,以及当提取的关键元数据为第一/二/三中标价关键元数据,以及提取的关键元数据为中标价关键元数据时,采用的校验逻辑为:提取的关键元数据为数字;
当提取的关键元数据为第一/二/三中标候选人,以及提取的关键元数据为中标人关键元数据时,采用的校验逻辑为:提取的关键元数据的后缀字符在第二指定集合中。
可选地,所述源数据爬取单元,进一步适于将源数据所在的原始网址对应保存到第一数据库中;
所述展示单元,进一步适于当用接收用户的跳转到原始网址的请求时,跳转到对应的原始网址对应的页面。
由上述可知,本发明的技术方案,通过使用网络爬虫技术从互联网中爬取招投标信息源数据保存到第一数据库中,并从中提取出关键数据保存到第二数据库中,通过该数据库为用户提供查询服务,当接收到用户发送的招投标信息查询请求时,根据查询请求中的关键字查询第二数据库,如果存在匹配项,根据该匹配从第二数据库中获取相应的一个或多个关键数据进行展示。该技术方案通过分析算法,对招投标的网页信息进行数据挖掘,大大提高了搜索的召回率和准确率,解决了投标人在寻找项目机会中费时费力,效率较差的问题,通过抓取关键数据信息提供搜索选项,提高了搜索质量,大大提高了投标人的工作效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种提供招投标信息搜索服务的方法的流程图;
图2示出了根据本发明一个实施例的一种提供招投标信息搜索服务的装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的一种提供招投标信息搜索服务的方法的流程图,如图1所示,该方法包括:
步骤S110,从互联网中爬取招投标信息源数据保存到第一数据库中。
如前文述及,许多招投标网站和大型招投标网站上都存在大量的招投标信息,可以重点对这些网站进行爬取。
步骤S120,从第一数据库中的源数据中提取关键数据保存到第二数据库。
关键数据可以为招投标过程中投标人重点关注的信息,如招标方、招标代理等等。
步骤S130,接收招投标信息查询请求,根据查询请求中的关键字查询第二数据库,如果存在匹配项,根据该匹配从第二数据库中获取相应的一个或多个关键数据进行展示。
例如,通过网页等方式为用户提供招投标信息查询页面,在该页面上可以根据提取的关键数据的种类设置多个供用户填选的项,例如,为用户提供立项信息的发布日期的选项,用户可以勾选希望查询的区间,如2015年1月至2015年7月。这样,根据用户提交的招投标信息查询请求,根据查询请求中的关键字查询第二数据库,如果存在匹配项则将相应的关键数据进行展示,如果不存在匹配项可以向用户返回查询结果不存在的说明信息。
可见,图1所示的方法,通过使用网络爬虫技术从互联网中爬取招投标信息源数据保存到第一数据库中,并从中提取出关键数据保存到第二数据库中,通过该数据库为用户提供查询服务,当接收到用户发送的招投标信息查询请求时,根据查询请求中的关键字查询第二数据库,如果存在匹配项,根据该匹配从第二数据库中获取相应的一个或多个关键数据进行展示。该技术方案通过分析算法,对招投标的网页信息进行数据挖掘,大大提高了搜索的召回率和准确率,解决了投标人在寻找项目机会中费时费力,效率较差的问题,通过抓取关键数据信息提供搜索选项,提高了搜索质量,大大提高了投标人的工作效率。
优选地,在本发明的一个实施例中,图1所示的方法中,招投标信息源数据为网页源代码。网页页面是以HTML(HyperTextMarkupLanguage,超文本标记语言)语言编写的,因此通过爬取网页源代码可以更易于从网页页面中提取关键性信息作为关键数据。
具体地,招投标信息可以分为项目立项信息、招标信息、中标候选人信息、中标信息和不良行为信息这几类,其中每类信息还可以通过一种或多种关键元数据进行描述。元数据是描述数据的数据,可以描述数据的属性。例如,立项信息包括发布日期关键元数据;招标信息包括发布日期关键元数据、招标人关键元数据、招标代理关键元数据、投资金额关键元数据;中标候选人信息包括发布日期关键元数据、第一中标候选人关键元数据、第一中标价关键元数据、第二中标候选人关键元数据、第二中标价关键元数据、第三中标候选人关键元数据、第三中标价关键元数据;中标信息包括发布日期关键元数据、中标人关键元数据、中标价关键元数据;不良行为包括发布日期关键元数据、企业名称关键元数据。因此,在本发明的一个实施例中,上述方法中,从第一数据库中的源数据中提取关键数据保存到第二数据库中包括如下中的一种或多种:
一、从第一数据库中的网页源代码中,提取符合第一预设逻辑的字符串作为发布日期关键元数据;其中第一预设逻辑为:字符串位于网页源代码中内容content部分的尾部,和/或字符串前缀匹配第一指定字符或第一指定字符串。
通过对大量招投标信息进行分析,发现发布日期关键元数据通常出现在招投标网站中的各类立项信息发布、招标信息发布的文章的尾部,而且经常采用类似“发布日期:2014年1月1日”这样的格式进行陈述。因此,在本实施例中给出了以正则表达式对发布日期关键元数据进行提取的示例:
“(?<date>[2贰二]\s*[0零]\s*[一二三四五六七八九壹贰叁肆伍陆柒捌玖零\d]\s*[一二三四五六七八九壹贰叁肆伍陆柒捌玖零\d]\s*[\.年/\\-]\s*[0零十拾1]\s*[元一二三四五六七八九十壹贰叁肆伍陆柒捌玖拾\d]\s*[\.月/\\-]\s*[一二三壹贰叁1230零]\s*[一二三四五六七八九十壹贰叁肆伍陆柒捌玖拾\d]\s*日)”
由该正则表达式可以看出,该示例对招投标信息中出现的发布日期关键元数据的不同表达的规范和不规范字符都做了适配(例如,数字大小写、“0”的多种不规范字符),在具体实施中,可以使用不限于该示例中的第一指定字符或第一指定字符串进行匹配。
二、从第一数据库中的网页源代码中,提取符合第二预设逻辑的字符串作为招标人关键元数据;其中第二预设逻辑为:字符串前缀匹配第二指定字符或第二指定字符串。
通过对大量招投标信息进行分析,发现招标人关键元数据的表达格式也具有一定的规律,例如“招标人:XX公司”或“受XX公司的委托”。因此同样给出了以正则表达式对招标人关键元数据进行提取的示例:
正则表达式一:“[(()]\s*招\s*标\s*(?:人|单\s*位)?((公|盖)章)[])]?\s*(?:名\s*称)?\s*[::为是\s、]”
正则表达式二:“[(()]\s*建\s*设\s*(?:人|单\s*位)\s*[))]?\s*(?:名\s*称)?\s*[::为是\s、]”
正则表达式三:“[(()]\s*项\s*目\s*业\s*主)\s*[))]?\s*(?:名\s*称)?\s*[::为是\s、]”
正则表达式四:“受(?<danwei>[w\W]{1,30})(?的)?(?委托|授权)”
由上述正则表达式可以看出,上述示例对招投标信息中出现的多种招标人关键元数据的不同表达的字符都做了适配,在具体实施中,可以使用不限于该示例中的第二指定字符或第二指定字符串进行匹配。
三、从第一数据库中的网页源代码中,提取符合第三预设逻辑的字符串作为招标代理关键元数据;其中第三预设逻辑为:字符串前缀匹配第三指定字符或第三指定字符串。
同样地,通过对大量招投标信息进行分析,发现招标代理关键元数据的表达格式也具有一定的规律,例如“代理机构:XX公司”或“XX公司受招标人的委托”等。因此同样给出了以正则表达式对招标代理元数据进行提取的示例:
正则表达式一:“招\s*标\s*代\s*理\s*(?:机\s*构\s*|人|)[::为是\s、]”
正则表达式二:“代\s*理\s*机\s*构(?:名\s*称)[::为是\s、]”
正则表达式三:“(?<danwei>[w\W]{1,30})受招标人(?的)?(?委托|授权)”
由上述正则表达式可以看出,上述示例对招投标信息中出现的多种招标代理关键元数据的不同表达的字符都做了适配,在具体实施中,可以使用不限于该示例中的第三指定字符或第三指定字符串进行匹配。
四、从第一数据库中的网页源代码中,提取符合第四预设逻辑的字符串作为投资金额关键元数据;其中第四预设逻辑为:字符串前缀匹配第四指定字符或第四指定字符串,和/或,字符串位于网页源代码中content部分中的表格table部分且该table部分的表头部分的字符串匹配第五指定字符或第五指定字符串。
同样地,通过对大量招投标信息进行分析,发现投资金额关键元数据的表达格式也具有一定的规律,例如“合同估算值:XX万元”或表格形式的表头单元格字是“合同发包价”等。在具体实施中同样可以以不限于正则表达式的多种字符串匹配方法,对应定义第四、五指定字符或第四五指定字符串。
五、从第一数据库中的网页源代码中,提取符合第五预设逻辑的字符串作为第一/二/三中标候选人关键元数据;其中第五预设逻辑为:字符串位于网页源代码中内容部分中的table部分,且字符串对应的表格的行/列名称匹配第六指定字符或第六指定字符串。
六、从第一数据库中的网页源代码中,提取符合第六预设逻辑的字符串作为第一/二/三中标价关键元数据;其中第六预设逻辑为:字符串位于网页源代码中内容部分中的table部分,且字符串对应的表格的行/列名称匹配第七指定字符或第七指定字符串;
同样地,通过对大量招投标信息进行分析,发现第一/二/三中标候选人关键元数据和第一/二/三中标价关键元数据的表达格式通常以表格的方式进行呈现,例如,下面示出了两种包含第一/二/三中标候选人关键元数据和第一/二/三中标价关键元数据的表格的示例:
表1
第一中标候选人 | 第二中标候选人 | 第三中标候选人 | |
中标人 | |||
中标价 |
表2
中标人 | 中标价 | |
第一中标候选人 | ||
第二中标候选人 | ||
第三中标候选人 |
在具体实施中同样可以以不限于正则表达式的多种字符串匹配方法,对应定义第六、七指定字符或第六、七指定字符串。
七、从第一数据库中的网页源代码中,提取符合第七预设逻辑的字符串作为中标人关键元数据;其中第七预设逻辑为:字符串前缀匹配第八指定字符或第八指定字符串;
同样地,通过对大量招投标信息进行分析,发现中标人关键元数据的表达格式也具有一定的规律,例如“成交单位:XX公司”或“中标人:XX公司”等。在具体实施中同样可以以不限于正则表达式的多种字符串匹配方法,对应定义第八指定字符或第八指定字符串。
八、从第一数据库中的网页源代码中,提取符合第八预设逻辑的字符串作为中标价关键元数据;其中第八预设逻辑为:字符串前缀匹配第九指定字符或第九指定字符串;
同样地,通过对大量招投标信息进行分析,发现中标价关键元数据的表达格式也具有一定的规律,例如“成交金额:XX万元”或“中标价:XX万元”等。在具体实施中同样可以以不限于正则表达式的多种字符串匹配方法,对应定义第九指定字符或第九指定字符串。
九、从第一数据库中的网页源代码中,提取符合第九预设逻辑的字符串作为企业名称关键元数据;其中第九预设逻辑为:字符串前缀匹配第十指定字符或第十指定字符串。
同样地,通过对大量招投标信息进行分析,发现企业名称关键元数据的表达格式也具有一定的规律,由于企业名称关键元数据通常是不良行为这一招投标信息的关键元数据,因此,通常使用前缀匹配的方式,将第十指定字符或第十指定字符串定义为类似“被处罚单位”、“处罚对象”、“注销”、“企业名称”、“单位名称”等类似的表达方式。
在本发明的一个实施例中,上述方法中,从第一数据库中的源数据中提取关键数据保存到第二数据库中进一步包括:对提取的关键元数据进行校验,将通过校验的关键元数据保存到第二数据库中;每种关键元数据使用对应的校验逻辑进行校验;
当提取的关键元数据为发布日期关键元数据时,采用的校验逻辑为:提取的关键元数据不大于当前日期;
当提取的关键元数据为招标人关键元数据时,采用的校验逻辑为:提取的关键元数据的后缀字符在第一指定集合中;第一指定集合中的字符可以为“公司”、“商行”、“集团”、“院”、“所”、“部”、“厅”、“厂”、“馆”、“室”、“站”、“处”、“中心”、“场”、“店”、“园”、“队”、“社”、“大学”、“小学”、“附中”、“附小”、“区”、“机关”、“基地”、“政府”、“办”、“会”、“矿”、“台”、“校”、“库”、“寺”、“监狱”、“海关”、“剧团”、“残联”、“苗圃”、“文联”、“苑”、“署”中的一种或多种。
当提取的关键元数据为招标代理关键元数据时,和/或当提取的关键元数据为企业名称关键元数据时,采用的校验逻辑为:提取的关键元数据的后缀字符为“公司”;
当提取的关键元数据为投资金额关键元数据时,和/或当提取的关键元数据为第一/二/三中标价关键元数据时,和/或当提取的关键元数据为中标价关键元数据时,采用的校验逻辑为:提取的关键元数据为数字;
当提取的关键元数据为第一/二/三中标候选人时,和/或当提取的关键元数据为中标人关键元数据时,采用的校验逻辑为:提取的关键元数据的后缀字符在第二指定集合中,第二指定集合中的字符可以为“公司”、“商行”、“集团”、“院”、“所”、“部”、“厂”、“室”、“站”、“场”、“社”、“店”、“管理处”中的一种或多种。
在本发明的一个实施例中,上述方法中,方法进一步包括:将源数据所在的原始网址对应保存到第一数据库中;当用接收用户的跳转到原始网址的请求时,跳转到对应的原始网址对应的页面。
在本实施例中,可以根据用户的请求将源数据所在的原始网址进行展现,进一步满足了用户的需求。
图2示出了根据本发明一个实施例的一种提供招投标信息搜索服务的装置的结构示意图,如图2所示,提供招投标信息搜索服务的装置200包括:
源数据爬取单元210,适于从互联网中爬取招投标信息源数据保存到第一数据库中。
关键数据提取单元220,适于从第一数据库中的源数据中提取关键数据保存到第二数据库中。
查询单元230,适于接收招投标信息查询请求,根据查询请求中的关键字查询第二数据库。
展示单元240,适于在存在匹配项时,根据该匹配从第二数据库中获取相应的一个或多个关键数据进行展示。
可见,图2所示的装置,通过各单元的相互配合,使用网络爬虫技术从互联网中爬取招投标信息源数据保存到第一数据库中,并从中提取出关键数据保存到第二数据库中,通过该数据库为用户提供查询服务,当接收到用户发送的招投标信息查询请求时,根据查询请求中的关键字查询第二数据库,如果存在匹配项,根据该匹配从第二数据库中获取相应的一个或多个关键数据进行展示。该技术方案通过分析算法,对招投标的网页信息进行数据挖掘,大大提高了搜索的召回率和准确率,解决了投标人在寻找项目机会中费时费力,效率较差的问题,通过抓取关键数据信息提供搜索选项,提高了搜索质量,大大提高了投标人的工作效率。
在本发明的一个实施例中,图2所示的装置中,招投标信息源数据为网页源代码。
在本发明的一个实施例中,上述装置中,关键数据提取单元220,适于执行如下中的一种或多种从第一数据库中的源数据中提取关键数据保存到第二数据库中的步骤:从第一数据库中的网页源代码中,提取符合第一预设逻辑的字符串作为发布日期关键元数据;其中第一预设逻辑为:字符串位于网页源代码中内容content部分的尾部,和/或字符串前缀匹配第一指定字符或第一指定字符串;从第一数据库中的网页源代码中,提取符合第二预设逻辑的字符串作为招标人关键元数据;其中第二预设逻辑为:字符串前缀匹配第二指定字符或第二指定字符串;从第一数据库中的网页源代码中,提取符合第三预设逻辑的字符串作为招标代理关键元数据;其中第三预设逻辑为:字符串前缀匹配第三指定字符或第三指定字符串;从第一数据库中的网页源代码中,提取符合第四预设逻辑的字符串作为投资金额关键元数据;其中第四预设逻辑为:字符串前缀匹配第四指定字符或第四指定字符串,和/或,字符串位于网页源代码中content部分中的表格table部分且该table部分的表头部分的字符串匹配第五指定字符或第五指定字符串;从第一数据库中的网页源代码中,提取符合第五预设逻辑的字符串作为第一/二/三中标候选人关键元数据;其中第五预设逻辑为:字符串位于网页源代码中内容部分中的table部分,且字符串对应的表格的行/列名称匹配第六指定字符或第六指定字符串;从第一数据库中的网页源代码中,提取符合第六预设逻辑的字符串作为第一/二/三中标价关键元数据;其中第六预设逻辑为:字符串位于网页源代码中内容部分中的table部分,且字符串对应的表格的行/列名称匹配第七指定字符或第七指定字符串;从第一数据库中的网页源代码中,提取符合第七预设逻辑的字符串作为中标人关键元数据;其中第七预设逻辑为:字符串前缀匹配第八指定字符或第八指定字符串;从第一数据库中的网页源代码中,提取符合第八预设逻辑的字符串作为中标价关键元数据;其中第八预设逻辑为:字符串前缀匹配第九指定字符或第九指定字符串;从第一数据库中的网页源代码中,提取符合第九预设逻辑的字符串作为企业名称关键元数据;其中第九预设逻辑为:字符串前缀匹配第十指定字符或第十指定字符串。
在本发明的一个实施例中,上述装置进一步包括:校验单元250,适于对提取的关键元数据进行校验,将通过校验的关键元数据保存到第二数据库中;每种关键元数据使用对应的校验逻辑进行校验;当提取的关键元数据为发布日期关键元数据时,采用的校验逻辑为:提取的关键元数据不大于当前日期;当提取的关键元数据为招标人关键元数据时,采用的校验逻辑为:提取的关键元数据的后缀字符在第一指定集合中;当提取的关键元数据为招标代理关键元数据,以及提取的关键元数据为企业名称关键元数据时,采用的校验逻辑为:提取的关键元数据的后缀字符为“公司”;当提取的关键元数据为投资金额关键元数据,以及当提取的关键元数据为第一/二/三中标价关键元数据,以及提取的关键元数据为中标价关键元数据时,采用的校验逻辑为:提取的关键元数据为数字;当提取的关键元数据为第一/二/三中标候选人,以及提取的关键元数据为中标人关键元数据时,采用的校验逻辑为:提取的关键元数据的后缀字符在第二指定集合中。
在本发明的一个实施例中,上述装置中,源数据爬取单元210,进一步适于将源数据所在的原始网址对应保存到第一数据库中;展示单元240,进一步适于当用接收用户的跳转到原始网址的请求时,跳转到对应的原始网址对应的页面。
需要说明的是,上述各装置实施例的具体实施方式与前述对应方法实施例的具体实施方式相同,在此不再赘述。
综上所述,本发明的技术方案,通过使用网络爬虫技术从互联网中爬取招投标信息源数据保存到第一数据库中,并从中提取出关键数据保存到第二数据库中,通过该数据库为用户提供查询服务,当接收到用户发送的招投标信息查询请求时,根据查询请求中的关键字查询第二数据库,如果存在匹配项,根据该匹配从第二数据库中获取相应的一个或多个关键数据进行展示。该技术方案通过分析算法,对招投标的网页信息进行数据挖掘,大大提高了搜索的召回率和准确率,解决了投标人在寻找项目机会中费时费力,效率较差的问题,通过抓取关键数据信息提供搜索选项,提高了搜索质量,大大提高了投标人的工作效率。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的提供招投标信息搜索服务的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种提供招投标信息搜索服务的方法,其特征在于,所述方法包括:
从互联网中爬取招投标信息源数据保存到第一数据库中;
从第一数据库中的源数据中提取关键数据保存到第二数据库中;
接收招投标信息查询请求,根据查询请求中的关键字查询所述第二数据库,如果存在匹配项,根据该匹配从第二数据库中获取相应的一个或多个关键数据进行展示。
2.如权利要求1所述的方法,其特征在于,所述招投标信息源数据为网页源代码。
3.如权利要求2所述的方法,其特征在于,所述从第一数据库中的源数据中提取关键数据保存到第二数据库中包括如下中的一种或多种:
从第一数据库中的网页源代码中,提取符合第一预设逻辑的字符串作为发布日期关键元数据;其中第一预设逻辑为:字符串位于网页源代码中内容content部分的尾部,和/或字符串匹配/前缀匹配第一指定字符或第一指定字符串;
从第一数据库中的网页源代码中,提取符合第二预设逻辑的字符串作为招标人关键元数据;其中第二预设逻辑为:字符串前缀匹配第二指定字符或第二指定字符串;
从第一数据库中的网页源代码中,提取符合第三预设逻辑的字符串作为招标代理关键元数据;其中第三预设逻辑为:字符串前缀匹配第三指定字符或第三指定字符串;
从第一数据库中的网页源代码中,提取符合第四预设逻辑的字符串作为投资金额关键元数据;其中第四预设逻辑为:字符串前缀匹配第四指定字符或第四指定字符串,和/或,字符串位于网页源代码中content部分中的表格table部分且该table部分的表头部分的字符串匹配第五指定字符或第五指定字符串;
从第一数据库中的网页源代码中,提取符合第五预设逻辑的字符串作为第一/二/三中标候选人关键元数据;其中第五预设逻辑为:字符串位于网页源代码中内容部分中的table部分,且字符串对应的表格的行/列名称匹配第六指定字符或第六指定字符串;
从第一数据库中的网页源代码中,提取符合第六预设逻辑的字符串作为第一/二/三中标价关键元数据;其中第六预设逻辑为:字符串位于网页源代码中内容部分中的table部分,且字符串对应的表格的行/列名称匹配第七指定字符或第七指定字符串;
从第一数据库中的网页源代码中,提取符合第七预设逻辑的字符串作为中标人关键元数据;其中第七预设逻辑为:字符串前缀匹配第八指定字符或第八指定字符串;
从第一数据库中的网页源代码中,提取符合第八预设逻辑的字符串作为中标价关键元数据;其中第八预设逻辑为:字符串前缀匹配第九指定字符或第九指定字符串;
从第一数据库中的网页源代码中,提取符合第九预设逻辑的字符串作为企业名称关键元数据;其中第九预设逻辑为:字符串前缀匹配第十指定字符或第十指定字符串。
4.如权利要求3所述的方法,其特征在于,所述从第一数据库中的源数据中提取关键数据保存到第二数据库中进一步包括:
对提取的关键元数据进行校验,将通过校验的关键元数据保存到第二数据库中;每种关键元数据使用对应的校验逻辑进行校验;
当提取的关键元数据为发布日期关键元数据时,采用的校验逻辑为:提取的关键元数据不大于当前日期;
当提取的关键元数据为招标人关键元数据时,采用的校验逻辑为:提取的关键元数据的后缀字符在第一指定集合中;
当提取的关键元数据为招标代理关键元数据时,和/或当提取的关键元数据为企业名称关键元数据时,采用的校验逻辑为:提取的关键元数据的后缀字符为“公司”;
当提取的关键元数据为投资金额关键元数据时,和/或当提取的关键元数据为第一/二/三中标价关键元数据时,和/或当提取的关键元数据为中标价关键元数据时,采用的校验逻辑为:提取的关键元数据为数字;
当提取的关键元数据为第一/二/三中标候选人时,和/或当提取的关键元数据为中标人关键元数据时,采用的校验逻辑为:提取的关键元数据的后缀字符在第二指定集合中。
5.如权利要求1-4中任一项所述的方法,其特征在于,所述方法进一步包括:
将源数据所在的原始网址对应保存到第一数据库中;
当用接收用户的跳转到原始网址的请求时,跳转到对应的原始网址对应的页面。
6.一种提供招投标信息搜索服务的装置,其特征在于,所述装置包括:
源数据爬取单元,适于从互联网中爬取招投标信息源数据保存到第一数据库中;
关键数据提取单元,适于从第一数据库中的源数据中提取关键数据保存到第二数据库中;
查询单元,适于接收招投标信息查询请求,根据查询请求中的关键字查询所述第二数据库;
展示单元,适于在存在匹配项时,根据该匹配从第二数据库中获取相应的一个或多个关键数据进行展示。
7.如权利要求6所述的装置,其特征在于,所述招投标信息源数据为网页源代码。
8.如权利要求7所述的装置,其特征在于,所述关键数据提取单元,适于执行如下中的一种或多种从第一数据库中的源数据中提取关键数据保存到第二数据库中的步骤:
从第一数据库中的网页源代码中,提取符合第一预设逻辑的字符串作为发布日期关键元数据;其中第一预设逻辑为:字符串位于网页源代码中内容content部分的尾部,和/或字符串匹配/前缀匹配第一指定字符或第一指定字符串;
从第一数据库中的网页源代码中,提取符合第二预设逻辑的字符串作为招标人关键元数据;其中第二预设逻辑为:字符串前缀匹配第二指定字符或第二指定字符串;
从第一数据库中的网页源代码中,提取符合第三预设逻辑的字符串作为招标代理关键元数据;其中第三预设逻辑为:字符串前缀匹配第三指定字符或第三指定字符串;
从第一数据库中的网页源代码中,提取符合第四预设逻辑的字符串作为投资金额关键元数据;其中第四预设逻辑为:字符串前缀匹配第四指定字符或第四指定字符串,和/或,字符串位于网页源代码中content部分中的表格table部分且该table部分的表头部分的字符串匹配第五指定字符或第五指定字符串;
从第一数据库中的网页源代码中,提取符合第五预设逻辑的字符串作为第一/二/三中标候选人关键元数据;其中第五预设逻辑为:字符串位于网页源代码中内容部分中的table部分,且字符串对应的表格的行/列名称匹配第六指定字符或第六指定字符串;
从第一数据库中的网页源代码中,提取符合第六预设逻辑的字符串作为第一/二/三中标价关键元数据;其中第六预设逻辑为:字符串位于网页源代码中内容部分中的table部分,且字符串对应的表格的行/列名称匹配第七指定字符或第七指定字符串;
从第一数据库中的网页源代码中,提取符合第七预设逻辑的字符串作为中标人关键元数据;其中第七预设逻辑为:字符串前缀匹配第八指定字符或第八指定字符串;
从第一数据库中的网页源代码中,提取符合第八预设逻辑的字符串作为中标价关键元数据;其中第八预设逻辑为:字符串前缀匹配第九指定字符或第九指定字符串;
从第一数据库中的网页源代码中,提取符合第九预设逻辑的字符串作为企业名称关键元数据;其中第九预设逻辑为:字符串前缀匹配第十指定字符或第十指定字符串。
9.如权利要求8所述的装置,其特征在于,该装置进一步包括:
校验单元,适于对提取的关键元数据进行校验,将通过校验的关键元数据保存到第二数据库中;每种关键元数据使用对应的校验逻辑进行校验;
当提取的关键元数据为发布日期关键元数据时,采用的校验逻辑为:提取的关键元数据不大于当前日期;
当提取的关键元数据为招标人关键元数据时,采用的校验逻辑为:提取的关键元数据的后缀字符在第一指定集合中;
当提取的关键元数据为招标代理关键元数据,以及提取的关键元数据为企业名称关键元数据时,采用的校验逻辑为:提取的关键元数据的后缀字符为“公司”;
当提取的关键元数据为投资金额关键元数据,以及当提取的关键元数据为第一/二/三中标价关键元数据,以及提取的关键元数据为中标价关键元数据时,采用的校验逻辑为:提取的关键元数据为数字;
当提取的关键元数据为第一/二/三中标候选人,以及提取的关键元数据为中标人关键元数据时,采用的校验逻辑为:提取的关键元数据的后缀字符在第二指定集合中。
10.如权利要求6-9中任一项所述的装置,其特征在于,
所述源数据爬取单元,进一步适于将源数据所在的原始网址对应保存到第一数据库中;
所述展示单元,进一步适于当用接收用户的跳转到原始网址的请求时,跳转到对应的原始网址对应的页面。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610046482.3A CN105718580A (zh) | 2016-01-25 | 2016-01-25 | 一种提供招投标信息搜索服务的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610046482.3A CN105718580A (zh) | 2016-01-25 | 2016-01-25 | 一种提供招投标信息搜索服务的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105718580A true CN105718580A (zh) | 2016-06-29 |
Family
ID=56153978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610046482.3A Pending CN105718580A (zh) | 2016-01-25 | 2016-01-25 | 一种提供招投标信息搜索服务的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105718580A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844601A (zh) * | 2017-11-23 | 2018-03-27 | 四川长虹电器股份有限公司 | 基于网络爬虫的招投标信息筛选系统与方法 |
CN108415969A (zh) * | 2018-02-08 | 2018-08-17 | 湖南慧集网络科技有限责任公司 | 一种招标信息检索分析方法及系统 |
CN108460109A (zh) * | 2018-02-08 | 2018-08-28 | 湖南慧集网络科技有限责任公司 | 一种基于大数据的招标信息分析方法 |
CN108959561A (zh) * | 2018-07-03 | 2018-12-07 | 龙马智芯(珠海横琴)科技有限公司 | 服务端及系统、信息推荐方法 |
CN110020191A (zh) * | 2018-07-19 | 2019-07-16 | 平安科技(深圳)有限公司 | 电子装置、招商引资的目标对象确定方法及存储介质 |
CN111506795A (zh) * | 2020-04-20 | 2020-08-07 | 北京中电普华信息技术有限公司 | 一种招标信息获取方法及装置 |
CN113704667A (zh) * | 2021-08-31 | 2021-11-26 | 北京百炼智能科技有限公司 | 一种招标公告的自动提取处理方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101561802A (zh) * | 2008-04-18 | 2009-10-21 | 上海复旦光华信息科技股份有限公司 | 网页结构化数据提取方法与系统 |
CN102043862A (zh) * | 2010-12-29 | 2011-05-04 | 重庆新媒农信科技有限公司 | 网页数据定向抓取方法 |
CN104915334A (zh) * | 2015-05-29 | 2015-09-16 | 浪潮软件集团有限公司 | 一种基于语义分析的招投标项目关键信息自动化提取方法 |
-
2016
- 2016-01-25 CN CN201610046482.3A patent/CN105718580A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101561802A (zh) * | 2008-04-18 | 2009-10-21 | 上海复旦光华信息科技股份有限公司 | 网页结构化数据提取方法与系统 |
CN102043862A (zh) * | 2010-12-29 | 2011-05-04 | 重庆新媒农信科技有限公司 | 网页数据定向抓取方法 |
CN104915334A (zh) * | 2015-05-29 | 2015-09-16 | 浪潮软件集团有限公司 | 一种基于语义分析的招投标项目关键信息自动化提取方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844601A (zh) * | 2017-11-23 | 2018-03-27 | 四川长虹电器股份有限公司 | 基于网络爬虫的招投标信息筛选系统与方法 |
CN108415969A (zh) * | 2018-02-08 | 2018-08-17 | 湖南慧集网络科技有限责任公司 | 一种招标信息检索分析方法及系统 |
CN108460109A (zh) * | 2018-02-08 | 2018-08-28 | 湖南慧集网络科技有限责任公司 | 一种基于大数据的招标信息分析方法 |
CN108959561A (zh) * | 2018-07-03 | 2018-12-07 | 龙马智芯(珠海横琴)科技有限公司 | 服务端及系统、信息推荐方法 |
CN110020191A (zh) * | 2018-07-19 | 2019-07-16 | 平安科技(深圳)有限公司 | 电子装置、招商引资的目标对象确定方法及存储介质 |
CN111506795A (zh) * | 2020-04-20 | 2020-08-07 | 北京中电普华信息技术有限公司 | 一种招标信息获取方法及装置 |
CN111506795B (zh) * | 2020-04-20 | 2023-09-15 | 北京中电普华信息技术有限公司 | 一种招标信息获取方法及装置 |
CN113704667A (zh) * | 2021-08-31 | 2021-11-26 | 北京百炼智能科技有限公司 | 一种招标公告的自动提取处理方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105718580A (zh) | 一种提供招投标信息搜索服务的方法和装置 | |
Chen et al. | Websrc: A dataset for web-based structural reading comprehension | |
CN103294781B (zh) | 一种用于处理页面数据的方法与设备 | |
Kejriwal et al. | Knowledge graphs: Fundamentals, techniques, and applications | |
Zhu et al. | Intelligent learning for knowledge graph towards geological data | |
US7409393B2 (en) | Data gathering and distribution system | |
CN107145496A (zh) | 基于关键词将图像与内容项目匹配的方法 | |
CN105164710A (zh) | 实体投标 | |
KR20170021227A (ko) | 온톨로지 매핑 방법 및 장치 | |
US20090240670A1 (en) | Uniform resource identifier alignment | |
Nesi et al. | Ge (o) Lo (cator): Geographic information extraction from unstructured text data and Web documents | |
CN107145497A (zh) | 基于图像和内容的元数据选择与内容匹配的图像的方法 | |
Jeffrey et al. | The Archaeotools project: faceted classification and natural language processing in an archaeological context | |
Alvarez-Rodríguez et al. | Empowering the access to public procurement opportunities by means of linking controlled vocabularies. A case study of Product Scheme Classifications in the European e-Procurement sector | |
Chen et al. | Finding keywords in blogs: Efficient keyword extraction in blog mining via user behaviors | |
CN100470549C (zh) | 一种表格定位的数据挖掘方法 | |
CN115168401A (zh) | 数据分级处理方法及装置、电子设备及计算机可读介质 | |
Rippa et al. | Pre-conditions of ontological approaches application for knowledge management in accounting | |
US20140164342A1 (en) | Human threading search engine | |
Stavrakantonakis et al. | Linked Open Vocabulary ranking and terms discovery | |
WO2019108740A1 (en) | Systems and methods for crawling web pages and parsing relevant information stored in web pages | |
CN101901427A (zh) | 合作伙伴匹配共享平台的实现方法 | |
CN104881501A (zh) | 互联网信息的自动获取与推送方法 | |
Sharma et al. | Search engine: a backbone for information extraction in ICT scenario | |
Tang et al. | Ontology-based semantic retrieval for education management systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160629 |
|
RJ01 | Rejection of invention patent application after publication |