CN107368464B - 一种获取招标产品信息的方法及装置 - Google Patents

一种获取招标产品信息的方法及装置 Download PDF

Info

Publication number
CN107368464B
CN107368464B CN201710629756.6A CN201710629756A CN107368464B CN 107368464 B CN107368464 B CN 107368464B CN 201710629756 A CN201710629756 A CN 201710629756A CN 107368464 B CN107368464 B CN 107368464B
Authority
CN
China
Prior art keywords
bidding
sentence
sentences
training
sentence set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710629756.6A
Other languages
English (en)
Other versions
CN107368464A (zh
Inventor
赵勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xuanlong Technology Co ltd
Original Assignee
Shenzhen Shuzhong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shuzhong Technology Co ltd filed Critical Shenzhen Shuzhong Technology Co ltd
Priority to CN201710629756.6A priority Critical patent/CN107368464B/zh
Publication of CN107368464A publication Critical patent/CN107368464A/zh
Application granted granted Critical
Publication of CN107368464B publication Critical patent/CN107368464B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种获取招标产品信息的方法及装置,其中的方法包括:基于预设招标公告页面的文档对象模型树结构,获取招标公告文本;将所述招标公告文本分解为多个语句;根据预设规则,将所述语句分为第一语句集合和第二语句集合;根据所述第一语句集合,获得第一训练集合,根据所述第二语句集合,获得第二训练集合;基于所述第一训练集合和所述第二训练集合,训练获得贝叶斯分类模型的分类器;根据所述分类器,从待处理的招标公告文本中,获取目标招标产品信息。本发明解决了现有技术中获取的招标产品信息存在准确性不高的技术问题。

Description

一种获取招标产品信息的方法及装置
技术领域
本发明属于计算机技术领域,尤其涉及一种获取招标产品信息的方法及装置。
背景技术
随着互联网技术的快速发展,互联网已经成为招标公告中招标产品信息发布的重要手段载体。
现有方法中,当需要从互联网招标公告网页中获取待招标产品的信息时,一般通过人工定期查看相关的网页,并逐一阅读每个网页来判断是否发布了相关的招标产品信息。然而,通过人工定期查看网页并阅读网页来判断是否为相关的招标产品信息的方法,需要耗费大量的人力成本和时间成本,并且查找效率和准确率不高。
为了解决上述问题,有些方法将招标公告页面视为一个整体,然后通过关键词匹配的方式从招标公告页面获取相关的信息,但是这种方法限制了招标公告信息的使用。例如,以关键词“电话”进行匹配,如果招标公告页面中包含词汇“电话”则认为是相关的招标产品信息,但是上述关键词很有可能是其他的干扰信息,例如电话为招标方的联系电话,因此,现有技术中的方法,获取的招标产品信息存在准确性不高的技术问题。
发明内容
本发明提供一种获取招标产品信息的方法及装置,用以解决现有技术中获取的招标产品信息存在准确性不高的技术问题。
第一方面,本发明实施例提供了一种获取招标产品信息的方法,所述方法包括:
基于预设招标公告页面的文档对象模型树结构,获取招标公告文本;
将所述招标公告文本分解为多个语句;
根据预设规则,将所述语句分为第一语句集合和第二语句集合,其中,所述第一语句集合为包含与招标产品信息相关的语句的集合,所述第二语句集合为不包含与招标产品信息相关的语句的集合;
根据所述第一语句集合,获得第一训练集合,根据所述第二语句集合,获得第二训练集合;
基于所述第一训练集合和所述第二训练集合,训练获得贝叶斯分类模型的分类器;
根据所述分类器,从待处理的招标公告文本中,获取目标招标产品信息。
本发明提供的方法中,所述将所述招标公告文本分解为多个语句,包括:
根据边界标志,对所述招标文本进行划分,所述边界标志包括句号、分段符、换行符;
根据划分的结果,将所述招标公告文本分解为多个语句。
本发明提供的方法中,所述根据所述第一语句集合,获得第一训练集合,根据所述第二语句集合,获得第二训练集合,包括:
对所述第一语句集合进行分词处理,并去除分词处理后的第一语句集合中的语句的停用词,获得第一目标语句集合,将所述第一目标语句集合作为所述第一训练集合;
对所述第二语句集合进行分词处理,并去除分词处理后的第二语句集合中的语句的停用词,获得第二目标语句集合,将所述第二目标语句集合作为所述第二训练集合。
本发明提供的方法,在所述基于所述第一训练集合和所述第二训练集合,训练获得贝叶斯分类模型的分类器之后,所述方法还包括:
根据用户的反馈信息,扩充所述第一训练集合和所述第二训练集合;
根据扩充后的第一训练集合和第二训练集合,获得训练后的第一分类器。
本发明提供的方法中,所述用户的反馈信息包括用户的点击次数。
基于同样的发明构思,本发明第二方面提供了一种获取招标产品信息的装置,所述装置包括:
第一获取模块,用于基于预设招标公告页面的文档对象模型树结构,获取招标公告文本;
分解模块,用于将所述招标公告文本分解为多个语句;
划分模块,用于根据预设规则,将所述语句分为第一语句集合和第二语句集合,其中,所述第一语句集合为包含与招标产品信息相关的语句的集合,所述第二语句集合为不包含与招标产品信息相关的语句的集合;
第一获得模块,用于根据所述第一语句集合,获得第一训练集合,根据所述第二语句集合,获得第二训练集合;
第二获得模块,用于基于所述第一训练集合和所述第二训练集合,训练获得贝叶斯分类模型的分类器;
第二获取模块,用于根据所述分类器,从待处理的招标公告文本中,获取目标招标产品信息。
本发明提供的装置中,所述分解模块,还用于:
根据边界标志,对所述招标文本进行划分,所述边界标志包括句号、分段符、换行符;
根据划分的结果,将所述招标公告文本分解为多个语句。
本发明提供的装置中,所述第一获得模块,还用于:
对所述第一语句集合进行分词处理,并去除分词处理后的第一语句集合中的语句的停用词,获得第一目标语句集合,将所述第一目标语句集合作为所述第一训练集合;
对所述第二语句集合进行分词处理,并去除分词处理后的第二语句集合中的语句的停用词,获得第二目标语句集合,将所述第二目标语句集合作为所述第二训练集合。
本发明提供的装置还包括处理模块,用于在所述基于所述第一训练集合和所述第二训练集合,训练获得贝叶斯分类模型的分类器之后,所述方法还包括:
根据用户的反馈信息,扩充所述第一训练集合和所述第二训练集合;
根据扩充后的第一训练集合和第二训练集合,获得训练后的第一分类器。
本发明提供的装置中,所述用户的反馈信息包括用户的点击次数。
基于同样的发明构思,本发明第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
基于预设招标公告页面的文档对象模型树结构,获取招标公告文本;
将所述招标公告文本分解为多个语句;
根据预设规则,将所述语句分为第一语句集合和第二语句集合,其中,所述第一语句集合为包含与招标产品信息相关的语句的集合,所述第二语句集合为不包含与招标产品信息相关的语句的集合;
根据所述第一语句集合,获得第一训练集合,根据所述第二语句集合,获得第二训练集合;
基于所述第一训练集合和所述第二训练集合,训练获得贝叶斯分类模型的分类器;
根据所述分类器,从待处理的招标公告文本中,获取目标招标产品信息。
基于同样的发明构思,本发明第四方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
基于预设招标公告页面的文档对象模型树结构,获取招标公告文本;
将所述招标公告文本分解为多个语句;
根据预设规则,将所述语句分为第一语句集合和第二语句集合,其中,所述第一语句集合为包含与招标产品信息相关的语句的集合,所述第二语句集合为不包含与招标产品信息相关的语句的集合;
根据所述第一语句集合,获得第一训练集合,根据所述第二语句集合,获得第二训练集合;
基于所述第一训练集合和所述第二训练集合,训练获得贝叶斯分类模型的分类器;
根据所述分类器,从待处理的招标公告文本中,获取目标招标产品信息。
本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明提供的获取招标产品信息的方法,首先基于预设招标公告页面的文档对象模型树结构获取了招标公告文本,并将所述招标公告文本分解为多个语句;然后根据预设规则,将所述语句分为第一语句集合和第二语句集合,其中,所述第一语句集合为包含与招标产品信息相关的语句的集合,所述第二语句集合为不包含与招标产品信息相关的语句的集合;,并以此为基础,训练获得贝叶斯分类模型的分类器;再根据所述分类器,从待处理的招标公告文本中,获取目标招标产品信息,首先将招标公告文本分为了第一语句集合和第二语句集合,这样可以减少无效的查询信息,并且,以第一语句集合第二语句集合为基础,构建了贝叶斯分类模型的分类器,从而判断待处理的招标公告文本中是否包含招标产品信息,可以提高获取相关信息的准确性,解决了现有技术中获取的招标产品信息存在准确性不高的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种获取招标产品信息的方法的流程图;
图2为本发明实施例中一种获取招标产品信息的装置的结构图;
图3为本发明实施例中计算机可读存储介质的结构图;
图4为本发明实施例中计算机设备的结构图。
具体实施方式
本发明提供一种获取招标产品信息的方法及装置,用以解决现有技术中获取的招标产品信息存在准确性不高的技术问题。
本申请实施例中的技术方案,总体思路如下:
一种获取招标产品信息的方法,所述方法包括:首先基于预设招标公告页面的文档对象模型树结构,获取招标公告文本;并将所述招标公告文本分解为多个语句;然后根据预设规则,将所述语句分为第一语句集合和第二语句集合,其中,所述第一语句集合为包含与招标产品信息相关的语句的集合,所述第二语句集合为不包含与招标产品信息相关的语句的集合;再根据所述第一语句集合,获得第一训练集合,根据所述第二语句集合,获得第二训练集合;然后基于所述第一训练集合和所述第二训练集合,训练获得贝叶斯分类模型的分类器;最后根据所述分类器,从待处理的招标公告文本中,获取目标招标产品信息。
在上述方法中,首先基于预设招标公告页面的文档对象模型树结构获取了招标公告文本,并将所述招标公告文本分解为多个语句;然后根据预设规则,将所述语句分为包含与招标产品信息相关的语句的第一语句集合和与招标产品信息不相关的语句第二语句集合,并以此为基础,训练获得贝叶斯分类模型的分类器;再根据所述分类器,从待处理的招标公告文本中,获取目标招标产品信息,首先将招标公告文本分为了第一语句集合和第二语句集合,这样可以减少无效的查询信息,并且,以第一语句集合第二语句集合为基础,构建了贝叶斯分类模型的分类器,从而判断待处理的招标公告文本中是否包含招标产品信息,可以提高获取相关信息的准确性,解决了现有技术中获取的招标产品信息存在准确性不高的技术问题。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例提供了一种获取招标产品信息的方法,请参考图1,所述方法包括:
步骤S101:基于预设招标公告页面的文档对象模型树结构,获取招标公告文本;
步骤S102:将所述招标公告文本分解为多个语句;
步骤S103:根据预设规则,将所述语句分为第一语句集合和第二语句集合,其中,所述第一语句集合为包含与招标产品信息相关的语句的集合,所述第二语句集合为不包含与招标产品信息相关的语句的集合;
步骤S104:根据所述第一语句集合,获得第一训练集合,根据所述第二语句集合,获得第二训练集合;
步骤S105:基于所述第一训练集合和所述第二训练集合,训练获得贝叶斯分类模型的分类器;
步骤S106:根据所述分类器,从待处理的招标公告文本中,获取目标招标产品信息。
需要说明的是,文档对象模型(Document Object Model,DOM),是W3C组织推荐的处理可扩展标志语言的标准编程接口。在网页上,组织页面(或文档)的对象被组织在一个树形结构中,这种树形结构称为文档对象模型树结构。
下面,结合图1,对本实施例提供的一种获取招标产品信息的方法进行详细描述:
首先,执行步骤S101,基于预设招标公告页面的文档对象模型树结构,获取招标公告文本。
具体来说,预设招标公告页面是根据已有的经验获取的一定量的招标页面,这些招标页面包括的网页数据,可以构成招标公告页面数据集合,然后根据预设招标公告页面的文档对象模型树结构,从中可以抽取相应的招标公告文本。
在获取了招标公告文本后,然后执行步骤S102:将所述招标公告文本分解为多个语句;
具体来说,所述将所述招标公告文本分解为多个语句,包括:
根据边界标志,对所述招标文本进行划分,所述边界标志包括句号、分段符、换行符;
根据划分的结果,将所述招标公告文本分解为多个语句。
在具体的实施过程中,可以根据边界标志将招标文本划分成更小的单元,即分解成语句,这些边界标志包括但不限于句号、分段符、换行符。
接下来执行步骤S103:根据预设规则,将所述语句分为第一语句集合和第二语句集合,其中,所述第一语句集合为包含与招标产品信息相关的语句的集合,所述第二语句集合为不包含与招标产品信息相关的语句的集合;
在具体的实施过程中,预设规则可以是根据已有的经验设定的,例如,如果语句中包含描述产品名称、产品型号、产品品牌或者其他有关信息,则认为是与招标产品信息相关的语句,在根据预设规则将语句分为第一语句集合和第二语句集合时,可以通过人工检视也可以通过系统自动完成的方式来实现。
然后执行步骤S104:根据所述第一语句集合,获得第一训练集合,根据所述第二语句集合,获得第二训练集合。
具体地,所述根据所述第一语句集合,获得第一训练集合,根据所述第二语句集合,获得第二训练集合,包括:
对所述第一语句集合进行分词处理,并去除分词处理后的第一语句集合中的语句的停用词,获得第一目标语句集合,将所述第一目标语句集合作为所述第一训练集合;
对所述第二语句集合进行分词处理,并去除分词处理后的第二语句集合中的语句的停用词,获得第二目标语句集合,将所述第二目标语句集合作为所述第二训练集合。
在具体的实施过程中,对于第一语句集合和第二语句集合,对于上述集合中的每条语句进行中文分词处理,得到分词处理后的第一目标语句集合和第二目标语句集合,然后将第一目标语句集合和第二目标语句集合中的停用词去除,具体来说,停用词去除环节可以通过中文停用词表来实现,中文停用词表中包括“的、了、吧、……”等词汇。由此可以得到第一训练集合和第二训练集合,将这两个中文词汇集合作为训练集合,以供下一步训练分类器使用。
然后执行步骤S105:基于所述第一训练集合和所述第二训练集合,训练获得贝叶斯分类模型的分类器。
在具体的实施过程中,在训练获得分类器的过程中,可以采用朴素贝叶斯文本分类模型来实现,通过朴素贝叶斯文本分类模型对表示为向量的待处理语句S(t1,t2,...,ti)归类到与其关联最紧密的类别集合C={C1,C2}中的某一类中。其中类别C1为与待招标产品相关信息的类别,类别C2为与待招标产品不相关信息的类别,S(t1,t2,...,ti)则为待处理语句S的中文分词结果处理停用词后的结果,将其作为S的特征向量。则语句S属于类别Ck的概率为:
Figure BDA0001363613610000091
然后执行步骤S106:根据所述分类器,从待处理的招标公告文本中,获取目标招标产品信息。
具体来说,由于前述步骤中,得到了基于所述第一训练集合和所述第二训练集合训练获得的贝叶斯分类模型的分类器,通过该分类器,则可以对待处理的招标公告文本进行分类,并根据分类结果,可以获取待处理的招标公告文本中的目标招标产品信息。
为了进一步提高分类的准确性,在所述基于所述第一训练集合和所述第二训练集合,训练获得贝叶斯分类模型的分类器之后,所述方法还包括:
根据用户的反馈信息,扩充所述第一训练集合和所述第二训练集合;
根据扩充后的第一训练集合和第二训练集合,获得训练后的第一分类器。
其中,所述用户的反馈信息包括用户的点击次数。
具体来说,由于步骤S101中获取的招标公告页面的网页数据是根据已有的经验获得的,其招标页面的数据规模受到一定的限制,从而导致后续第一训练集合和第二训练集合的数据规模受限,因而为了确保分类的精度,进一步提高分类的准确性,可以通过使用过程中用户的反馈信息,来扩充第一训练集合和所述第二训练集合,并对第一训练集合和所述第二训练集合重新训练得到新的分类器,即第一分类器。优选地,为了充分利用系统使用过程中用户的反馈信息,第一训练集合和所述第二训练集合的扩充和分类器的重新训练定期进行,例如可以每隔30分钟、一个小时,一天等等,并在每次重新训练得到分类器之后,对已有的招标公告页面按语句分解并进行分词处理后的结果,采用新训练出的分类器重新对其分类,并判断其是否为描述与待招标产品相关信息的语句。具体流程包括:采用第一训练集合和所述第二训练集合训练得到分类器,对获取到的招标公告页面中的语句进行分词处理并去除停用词,并使用训练好的分类器,对该步骤处理好的结果进行分类,判断获取到的招标公告页面中的各语句是否为描述与待招标产品相关信息的语句。对于被分类为未描述与待招标产品相关信息的语句,不加以存储;而对于被分类为描述与待招标产品相关信息的语句,对其加以存储、索引等处理。当用户使用特定词汇对招标公告数据进行查询时,从被存储和索引的被分类为描述与待招标产品相关信息的语句中寻找包含用户查询词汇的结果,并将寻找到的结果展示给用户,供用户点击以进一步查看完整的公告信息。
优选地,所述用户的反馈信息包括用户的点击次数。
具体来说,由于在将结果展示给用户时,会显示招标公告中包含用户查询词汇的语句片段的上下文,以供用户参考,以决定该结果是否为用户需要的结果。一般来说,用户提交的查询词为产品的名称,其查询目的在于寻找包含该查询词的招标公告,并认为该招标公告的内容就是在针对该查询词所对应的产品进行招标。因此如果结果展示的语句并不是描述与待招标产品相关信息的语句,则一般不会引起用户的兴趣。因此可以通过用户的点击次数辅助判断待判断的招标文本中的语句是否为与招标产品信息相关的语句,在具体的实施过程中,可以通过系统后台记录用户对各结果的点击次数情况。并将用户点击次数较多的结果作为有较大的概率为描述与待招标产品相关信息的语句;而用户点击次数较少的结果作为有较小的概率为描述与待招标产品相关信息的语句。
优选地,本发明实施例不是通过点击次数判断被点击的搜索结果中的语句是否为描述与待招标产品相关信息的语句。而是以点击次数为所有搜索结果排序,按照次数从大到小排列。并对于排序后的搜索结果列表,可以选取点击次数最多的前50%的招标页面结果,认为其包含的语句为描述与待招标产品相关信息的语句,并选取点击次数最少的前5%的结果,认为其包含的语句为未描述与待招标产品相关信息的语句。在此基础上,可以根据用户的点击行为,筛选出描述与待招标产品相关信息的语句集合A1,以及未描述与待招标产品相关信息的语句集合B1。并将语句集合A1和语句集合B1与之前分解得到的招标公告文本得到的第一语句集合A和第二语句集合B分别合并,从而得到新的描述与待招标产品相关信息的语句集合A’,以及未描述与待招标产品相关信息的语句集合B’,接下来,对于语句集合A’和语句集合B’,对其中的每条语句按照步骤S104和步骤S105的方法进行处理,最终将第一语句集合A’和第二语句集合B”分别转换为新的中文词汇集合A”和中文词汇集合B”,将这两个中文词汇集合作为训练集合,对朴素贝叶斯分类器重新训练。
根据用户的反馈信息,扩充所述第一训练集合和所述第二训练集合的操作循环执行,从而形成用户使用行为与训练集之间的反馈。即通过将判断待处理的招标公告文本的结果,并根据用户的反馈信息,不断地更新和扩充训练集,从而提高训练集的规模和精度,进而提高分类的准确性。
基于与实施例一同样的发明构思,本发明还提供了一种与获取招标产品信息的方法相对应的装置,具体参见实施例二。
实施例二
本实施例提供了一种获取招标产品信息的装置,请参见图2,所述装置包括:
第一获取模块201,用于基于预设招标公告页面的文档对象模型树结构,获取招标公告文本;
分解模块202,用于将所述招标公告文本分解为多个语句;
划分模块203,用于根据预设规则,将所述语句分为第一语句集合和第二语句集合,其中,所述第一语句集合为包含与招标产品信息相关的语句的集合,所述第二语句集合为不包含与招标产品信息相关的语句的集合;
第一获得模块204,用于根据所述第一语句集合,获得第一训练集合,根据所述第二语句集合,获得第二训练集合;
第二获得模块205,用于基于所述第一训练集合和所述第二训练集合,训练获得贝叶斯分类模型的分类器;
第二获取模块206,用于根据所述分类器,从待处理的招标公告文本中,获取目标招标产品信息。
本实施例提供的获取招标产品信息的装置中,所述分解模块202,还用于:
根据边界标志,对所述招标文本进行划分,所述边界标志包括句号、分段符、换行符;
根据划分的结果,将所述招标公告文本分解为多个语句。
本实施例提供的获取招标产品信息的装置中,所述第一获得模块204,还用于:
对所述第一语句集合进行分词处理,并去除分词处理后的第一语句集合中的语句的停用词,获得第一目标语句集合,将所述第一目标语句集合作为所述第一训练集合;
对所述第二语句集合进行分词处理,并去除分词处理后的第二语句集合中的语句的停用词,获得第二目标语句集合,将所述第二目标语句集合作为所述第二训练集合。
本实施例提供的获取招标产品信息的装置,还包括处理模块,用于在所述基于所述第一训练集合和所述第二训练集合,训练获得贝叶斯分类模型的分类器之后:
根据用户的反馈信息,扩充所述第一训练集合和所述第二训练集合;
根据扩充后的第一训练集合和第二训练集合,获得训练后的第一分类器。
本实施例提供的获取招标产品信息的装置中,所述用户的反馈信息包括用户的点击次数。
实施例二中所述的一种获取招标产品信息的装置与实施例一具有相同的发明构思,前述对获取招标产品信息的方法的描述及各种变形均适用于本实施例。
基于与实施例一同样的发明构思,本发明还提供了一种与获取招标产品信息的方法相对应的计算机可读存储介质,具体参见实施例三。
实施例三
本发明实施例提供了一种计算机可读存储介质,请参图3,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
基于预设招标公告页面的文档对象模型树结构,获取招标公告文本;
将所述招标公告文本分解为多个语句;
根据预设规则,将所述语句分为第一语句集合和第二语句集合,其中,所述第一语句集合为包含与招标产品信息相关的语句的集合,所述第二语句集合为不包含与招标产品信息相关的语句的集合;
根据所述第一语句集合,获得第一训练集合,根据所述第二语句集合,获得第二训练集合;
基于所述第一训练集合和所述第二训练集合,训练获得贝叶斯分类模型的分类器;
根据所述分类器,从待处理的招标公告文本中,获取目标招标产品信息。
基于与实施例一同样的发明构思,本发明还提供了一种与获取招标产品信息的方法相对应的计算机设备,具体参见实施例四。
实施例四
本发明实施例提供了一种计算机设备,请参图4,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
基于预设招标公告页面的文档对象模型树结构,获取招标公告文本;
将所述招标公告文本分解为多个语句;
根据预设规则,将所述语句分为第一语句集合和第二语句集合,其中,所述第一语句集合为包含与招标产品信息相关的语句的集合,所述第二语句集合为不包含与招标产品信息相关的语句的集合;
根据所述第一语句集合,获得第一训练集合,根据所述第二语句集合,获得第二训练集合;
基于所述第一训练集合和所述第二训练集合,训练获得贝叶斯分类模型的分类器;
根据所述分类器,从待处理的招标公告文本中,获取目标招标产品信息。
为了便于说明,图4仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。其中,存储器401可用于存储软件程序以及模块,处理器402通过运行执行存储在存储器401的软件程序以及模块,从而执行移动终端的各种功能应用以及数据处理。
存储器401可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据计算机设备的使用所创建的数据等。处理器402移动通信终端的控制中心,利用各种接口和线路连接整个移动通信终端的各个部分,通过运行或执行存储在存储器401内的软件程序和/或模块,以及调用存储在存储器401内的数据,执行移动终端机的各种功能和处理数据,从而对移动终端机进行整体监控。可选的,处理器402可包括一个或多个处理单元。
实施例一中的获取招标产品信息的方法的各种变化方式和具体实例同样适用于本实施例的计算机设备,通过前述对获取招标产品信息的方法详细描述,本领域技术人员可以清楚的知道本实施例中的计算机设备,所以为了说明书的简洁,在此不再详述。
本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明提供的获取招标产品信息的方法,首先基于预设招标公告页面的文档对象模型树结构获取了招标公告文本,并将所述招标公告文本分解为多个语句;然后根据预设规则,将所述语句分为第一语句集合和第二语句集合,其中,所述第一语句集合为包含与招标产品信息相关的语句的集合,所述第二语句集合为不包含与招标产品信息相关的语句的集合;,并以此为基础,训练获得贝叶斯分类模型的分类器;再根据所述分类器,从待处理的招标公告文本中,获取目标招标产品信息,首先将招标公告文本分为了第一语句集合和第二语句集合,这样可以减少无效的查询信息,并且,以第一语句集合第二语句集合为基础,构建了贝叶斯分类模型的分类器,从而判断待处理的招标公告文本中是否包含招标产品信息,可以提高获取相关信息的准确性,解决了现有技术中获取的招标产品信息存在准确性不高的技术问题。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (3)

1.一种获取招标产品信息的方法,其特征在于,所述方法包括:
基于预设招标公告页面的文档对象模型树结构,获取招标公告文本;
将所述招标公告文本分解为多个语句;所述将所述招标公告文本分解为多个语句,包括:根据边界标志,对所述招标公告文本进行划分,所述边界标志包括句号、分段符、换行符;根据划分的结果,将所述招标公告文本分解为多个语句;
根据预设规则,将所述语句分为第一语句集合和第二语句集合,其中,所述第一语句集合为包含与招标产品信息相关的语句的集合,所述第二语句集合为不包含与招标产品信息相关的语句的集合;
根据所述第一语句集合,获得第一训练集合,根据所述第二语句集合,获得第二训练集合;所述根据所述第一语句集合,获得第一训练集合,根据所述第二语句集合,获得第二训练集合,包括:对所述第一语句集合进行分词处理,并去除分词处理后的第一语句集合中的语句的停用词,获得第一目标语句集合,将所述第一目标语句集合作为所述第一训练集合;对所述第二语句集合进行分词处理,并去除分词处理后的第二语句集合中的语句的停用词,获得第二目标语句集合,将所述第二目标语句集合作为所述第二训练集合;
基于所述第一训练集合和所述第二训练集合,训练获得贝叶斯分类模型的分类器;
根据所述分类器,从待处理的招标公告文本中,获取目标招标产品信息;
在所述基于所述第一训练集合和所述第二训练集合,训练获得贝叶斯分类模型的分类器之后,所述方法还包括:
通过系统后台记录用户对各结果的点击次数;
通过所述点击次数为所有搜索结果按照次数从大到小进行排序,获得搜索结果列表;
选取点击次数最多的前50%的招标页面结果,作为描述与待招标产品相关信息的语句,获得描述与待招标产品相关信息的语句集合A1
选取点击次数最少的前5%的结果,作为未描述与待招标产品相关信息的语句;获得未描述与待招标产品相关信息的语句集合B1
将语句集合A1和所述第一语句集合合并,获得语句集合A’;
将语句集合B1和所述第一语句集合合并,获得语句集合B’;
将所述语句集合A’和所述语句集合B’分别转换为新的中文词汇集合A’’和中文词汇集合B’’,将这两个中文词汇集合作为训练集合,对朴素贝叶斯分类器重新训练;
获得训练后的分类器;
依据所述获得训练后的分类器,对获取到的招标公告页面中的语句进行分词处理并去除停用词,并使用所述分类器,对该步骤处理好的结果进行分类,判断获取到的招标公告页面中的各语句是否为描述与待招标产品相关信息的语句;对于被分类为未描述与待招标产品相关信息的语句,不加以存储;而对于被分类为描述与待招标产品相关信息的语句,对其加以存储、索引处理;
当用户使用特定词汇对招标公告数据进行查询时,从被存储和索引的被分类为描述与待招标产品相关信息的语句中寻找包含用户查询词汇的结果,并将寻找到的结果展示给用户。
2.一种获取招标产品信息的装置,其特征在于,包括:
第一获取模块,用于基于预设招标公告页面的文档对象模型树结构,获取招标公告文本;
分解模块,用于将所述招标公告文本分解为多个语句;所述将所述招标公告文本分解为多个语句,包括:根据边界标志,对所述招标公告文本进行划分,所述边界标志包括句号、分段符、换行符;根据划分的结果,将所述招标公告文本分解为多个语句;
划分模块,用于根据预设规则,将所述语句分为第一语句集合和第二语句集合,其中,所述第一语句集合为包含与招标产品信息相关的语句的集合,所述第二语句集合为不包含与招标产品信息相关的语句的集合;
第一获得模块,用于根据所述第一语句集合,获得第一训练集合,根据所述第二语句集合,获得第二训练集合;所述根据所述第一语句集合,获得第一训练集合,根据所述第二语句集合,获得第二训练集合,包括:对所述第一语句集合进行分词处理,并去除分词处理后的第一语句集合中的语句的停用词,获得第一目标语句集合,将所述第一目标语句集合作为所述第一训练集合;对所述第二语句集合进行分词处理,并去除分词处理后的第二语句集合中的语句的停用词,获得第二目标语句集合,将所述第二目标语句集合作为所述第二训练集合;
第二获得模块,用于基于所述第一训练集合和所述第二训练集合,训练获得贝叶斯分类模型的分类器;
第二获取模块,用于根据所述分类器,从待处理的招标公告文本中,获取目标招标产品信息;
所述分解模块,还用于:
根据边界标志,对所述招标公告文本进行划分,所述边界标志包括句号、分段符、换行符;
根据划分的结果,将所述招标公告文本分解为多个语句;
所述第一获得模块,还用于:
对所述第一语句集合进行分词处理,并去除分词处理后的第一语句集合中的语句的停用词,获得第一目标语句集合,将所述第一目标语句集合作为所述第一训练集合;
对所述第二语句集合进行分词处理,并去除分词处理后的第二语句集合中的语句的停用词,获得第二目标语句集合,将所述第二目标语句集合作为所述第二训练集合;
在所述基于所述第一训练集合和所述第二训练集合,训练获得贝叶斯分类模型的分类器之后,还包括:
通过系统后台记录用户对各结果的点击次数;
通过所述点击次数为所有搜索结果按照次数从大到小进行排序,获得搜索结果列表;
选取点击次数最多的前50%的招标页面结果,作为描述与待招标产品相关信息的语句,获得描述与待招标产品相关信息的语句集合A1
选取点击次数最少的前5%的结果,作为未描述与待招标产品相关信息的语句;获得未描述与待招标产品相关信息的语句集合B1
将语句集合A1和所述第一语句集合合并,获得语句集合A’;
将语句集合B1和所述第一语句集合合并,获得语句集合B’;
将所述语句集合A’和所述语句集合B’分别转换为新的中文词汇集合A’’和中文词汇集合B’’,将这两个中文词汇集合作为训练集合,对朴素贝叶斯分类器重新训练;
获得训练后的分类器;
依据所述获得训练后的分类器,对获取到的招标公告页面中的语句进行分词处理并去除停用词,并使用所述分类器,对该步骤处理好的结果进行分类,判断获取到的招标公告页面中的各语句是否为描述与待招标产品相关信息的语句;对于被分类为未描述与待招标产品相关信息的语句,不加以存储;而对于被分类为描述与待招标产品相关信息的语句,对其加以存储、索引处理;
当用户使用特定词汇对招标公告数据进行查询时,从被存储和索引的被分类为描述与待招标产品相关信息的语句中寻找包含用户查询词汇的结果,并将寻找到的结果展示给用户。
3.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1所述的步骤。
CN201710629756.6A 2017-07-28 2017-07-28 一种获取招标产品信息的方法及装置 Expired - Fee Related CN107368464B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710629756.6A CN107368464B (zh) 2017-07-28 2017-07-28 一种获取招标产品信息的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710629756.6A CN107368464B (zh) 2017-07-28 2017-07-28 一种获取招标产品信息的方法及装置

Publications (2)

Publication Number Publication Date
CN107368464A CN107368464A (zh) 2017-11-21
CN107368464B true CN107368464B (zh) 2020-07-10

Family

ID=60308574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710629756.6A Expired - Fee Related CN107368464B (zh) 2017-07-28 2017-07-28 一种获取招标产品信息的方法及装置

Country Status (1)

Country Link
CN (1) CN107368464B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415969A (zh) * 2018-02-08 2018-08-17 湖南慧集网络科技有限责任公司 一种招标信息检索分析方法及系统
CN114254109B (zh) * 2021-12-15 2023-09-19 北京金堤科技有限公司 用于确定行业类别的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104735549A (zh) * 2012-06-29 2015-06-24 北京奇虎科技有限公司 一种网页中文本字幕信息的显示方法和装置
US9298824B1 (en) * 2010-07-07 2016-03-29 Symantec Corporation Focused crawling to identify potentially malicious sites using Bayesian URL classification and adaptive priority calculation
CN106446230A (zh) * 2016-10-08 2017-02-22 国云科技股份有限公司 一种优化机器学习文本中词语分类的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8156116B2 (en) * 2006-07-31 2012-04-10 Ricoh Co., Ltd Dynamic presentation of targeted information in a mixed media reality recognition system
CN106021461A (zh) * 2016-05-17 2016-10-12 深圳市中润四方信息技术有限公司 一种文本分类的方法及文本分类系统
CN106156357A (zh) * 2016-07-27 2016-11-23 成都四象联创科技有限公司 文本数据定向搜索方法
CN106021626A (zh) * 2016-07-27 2016-10-12 成都四象联创科技有限公司 基于数据挖掘的数据搜索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9298824B1 (en) * 2010-07-07 2016-03-29 Symantec Corporation Focused crawling to identify potentially malicious sites using Bayesian URL classification and adaptive priority calculation
CN104735549A (zh) * 2012-06-29 2015-06-24 北京奇虎科技有限公司 一种网页中文本字幕信息的显示方法和装置
CN106446230A (zh) * 2016-10-08 2017-02-22 国云科技股份有限公司 一种优化机器学习文本中词语分类的方法

Also Published As

Publication number Publication date
CN107368464A (zh) 2017-11-21

Similar Documents

Publication Publication Date Title
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN108182175B (zh) 一种文本质量指标获取方法及装置
US11783132B2 (en) Technologies for dynamically creating representations for regulations
CN112749284B (zh) 知识图谱构建方法、装置、设备及存储介质
CN111125086B (zh) 获取数据资源的方法、装置、存储介质及处理器
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
US11551151B2 (en) Automatically generating a pipeline of a new machine learning project from pipelines of existing machine learning projects stored in a corpus
EP3968244A1 (en) Automatically curating existing machine learning projects into a corpus adaptable for use in new machine learning projects
CN111914159A (zh) 一种信息推荐方法及终端
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN112528030A (zh) 一种用于文本分类的半监督学习方法和系统
CN110019784B (zh) 一种文本分类方法及装置
CN107368464B (zh) 一种获取招标产品信息的方法及装置
CN109299007A (zh) 一种缺陷修复者自动推荐方法
CN111104422B (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN112560463A (zh) 文本多标注方法、装置、设备及存储介质
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
EP3965024A1 (en) Automatically labeling functional blocks in pipelines of existing machine learning projects in a corpus adaptable for use in new machine learning projects
CN110674283A (zh) 文本摘要的智能抽取方法、装置、计算机设备及存储介质
CN113495964A (zh) 三元组的筛选方法、装置、设备及可读存储介质
CN110019771B (zh) 文本处理的方法及装置
CN105528441A (zh) 基于自动标注的中心词提取方法和装置
CN110717008A (zh) 基于语意识别的搜索结果排序方法及相关装置
CN110727767B (zh) 一种扩展文本样本的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210113

Address after: 518000 416, phase II, Huiheng building, No.12, Gaoxin South 7th Road, high tech Zone community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen Xuanlong Technology Co.,Ltd.

Address before: 518000 Room 201, building A, 1 front Bay Road, Shenzhen Qianhai cooperation zone, Shenzhen, Guangdong

Patentee before: SHENZHEN SHUZHONG TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200710

CF01 Termination of patent right due to non-payment of annual fee