CN107368464A

CN107368464A - 一种获取招标产品信息的方法及装置

Info

Publication number: CN107368464A
Application number: CN201710629756.6A
Authority: CN
Inventors: 赵勇
Original assignee: Shenzhen Public Technology Co Ltd
Current assignee: Shenzhen Xuanlong Technology Co ltd
Priority date: 2017-07-28
Filing date: 2017-07-28
Publication date: 2017-11-21
Anticipated expiration: 2037-07-28
Also published as: CN107368464B

Abstract

本发明公开了一种获取招标产品信息的方法及装置，其中的方法包括：基于预设招标公告页面的文档对象模型树结构，获取招标公告文本；将所述招标公告文本分解为多个语句；根据预设规则，将所述语句分为第一语句集合和第二语句集合；根据所述第一语句集合，获得第一训练集合，根据所述第二语句集合，获得第二训练集合；基于所述第一训练集合和所述第二训练集合，训练获得贝叶斯分类模型的分类器；根据所述分类器，从待处理的招标公告文本中，获取目标招标产品信息。本发明解决了现有技术中获取的招标产品信息存在准确性不高的技术问题。

Description

一种获取招标产品信息的方法及装置

技术领域

本发明属于计算机技术领域，尤其涉及一种获取招标产品信息的方法及装置。

背景技术

随着互联网技术的快速发展，互联网已经成为招标公告中招标产品信息发布的重要手段载体。

现有方法中，当需要从互联网招标公告网页中获取待招标产品的信息时，一般通过人工定期查看相关的网页，并逐一阅读每个网页来判断是否发布了相关的招标产品信息。然而，通过人工定期查看网页并阅读网页来判断是否为相关的招标产品信息的方法，需要耗费大量的人力成本和时间成本，并且查找效率和准确率不高。

为了解决上述问题，有些方法将招标公告页面视为一个整体，然后通过关键词匹配的方式从招标公告页面获取相关的信息，但是这种方法限制了招标公告信息的使用。例如，以关键词“电话”进行匹配，如果招标公告页面中包含词汇“电话”则认为是相关的招标产品信息，但是上述关键词很有可能是其他的干扰信息，例如电话为招标方的联系电话，因此，现有技术中的方法，获取的招标产品信息存在准确性不高的技术问题。

发明内容

本发明提供一种获取招标产品信息的方法及装置，用以解决现有技术中获取的招标产品信息存在准确性不高的技术问题。

第一方面，本发明实施例提供了一种获取招标产品信息的方法，所述方法包括：

基于预设招标公告页面的文档对象模型树结构，获取招标公告文本；

将所述招标公告文本分解为多个语句；

根据预设规则，将所述语句分为第一语句集合和第二语句集合，其中，所述第一语句集合为包含与招标产品信息相关的语句的集合，所述第二语句集合为不包含与招标产品信息相关的语句的集合；

根据所述第一语句集合，获得第一训练集合，根据所述第二语句集合，获得第二训练集合；

基于所述第一训练集合和所述第二训练集合，训练获得贝叶斯分类模型的分类器；

根据所述分类器，从待处理的招标公告文本中，获取目标招标产品信息。

本发明提供的方法中，所述将所述招标公告文本分解为多个语句，包括：

根据边界标志，对所述招标文本进行划分，所述边界标志包括句号、分段符、换行符；

根据划分的结果，将所述招标公告文本分解为多个语句。

本发明提供的方法中，所述根据所述第一语句集合，获得第一训练集合，根据所述第二语句集合，获得第二训练集合，包括：

对所述第一语句集合进行分词处理，并去除分词处理后的第一语句集合中的语句的停用词，获得第一目标语句集合，将所述第一目标语句集合作为所述第一训练集合；

对所述第二语句集合进行分词处理，并去除分词处理后的第二语句集合中的语句的停用词，获得第二目标语句集合，将所述第二目标语句集合作为所述第二训练集合。

本发明提供的方法，在所述基于所述第一训练集合和所述第二训练集合，训练获得贝叶斯分类模型的分类器之后，所述方法还包括：

根据用户的反馈信息，扩充所述第一训练集合和所述第二训练集合；

根据扩充后的第一训练集合和第二训练集合，获得训练后的第一分类器。

本发明提供的方法中，所述用户的反馈信息包括用户的点击次数。

基于同样的发明构思，本发明第二方面提供了一种获取招标产品信息的装置，所述装置包括：

第一获取模块，用于基于预设招标公告页面的文档对象模型树结构，获取招标公告文本；

分解模块，用于将所述招标公告文本分解为多个语句；

划分模块，用于根据预设规则，将所述语句分为第一语句集合和第二语句集合，其中，所述第一语句集合为包含与招标产品信息相关的语句的集合，所述第二语句集合为不包含与招标产品信息相关的语句的集合；

第一获得模块，用于根据所述第一语句集合，获得第一训练集合，根据所述第二语句集合，获得第二训练集合；

第二获得模块，用于基于所述第一训练集合和所述第二训练集合，训练获得贝叶斯分类模型的分类器；

第二获取模块，用于根据所述分类器，从待处理的招标公告文本中，获取目标招标产品信息。

本发明提供的装置中，所述分解模块，还用于：

根据划分的结果，将所述招标公告文本分解为多个语句。

本发明提供的装置中，所述第一获得模块，还用于：

本发明提供的装置还包括处理模块，用于在所述基于所述第一训练集合和所述第二训练集合，训练获得贝叶斯分类模型的分类器之后，所述方法还包括：

本发明提供的装置中，所述用户的反馈信息包括用户的点击次数。

基于同样的发明构思，本发明第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：

将所述招标公告文本分解为多个语句；

基于同样的发明构思，本发明第四方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

将所述招标公告文本分解为多个语句；

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本发明提供的获取招标产品信息的方法，首先基于预设招标公告页面的文档对象模型树结构获取了招标公告文本，并将所述招标公告文本分解为多个语句；然后根据预设规则，将所述语句分为第一语句集合和第二语句集合，其中，所述第一语句集合为包含与招标产品信息相关的语句的集合，所述第二语句集合为不包含与招标产品信息相关的语句的集合；，并以此为基础，训练获得贝叶斯分类模型的分类器；再根据所述分类器，从待处理的招标公告文本中，获取目标招标产品信息，首先将招标公告文本分为了第一语句集合和第二语句集合，这样可以减少无效的查询信息，并且，以第一语句集合第二语句集合为基础，构建了贝叶斯分类模型的分类器，从而判断待处理的招标公告文本中是否包含招标产品信息，可以提高获取相关信息的准确性，解决了现有技术中获取的招标产品信息存在准确性不高的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种获取招标产品信息的方法的流程图；

图2为本发明实施例中一种获取招标产品信息的装置的结构图；

图3为本发明实施例中计算机可读存储介质的结构图；

图4为本发明实施例中计算机设备的结构图。

具体实施方式

本申请实施例中的技术方案，总体思路如下：

一种获取招标产品信息的方法，所述方法包括：首先基于预设招标公告页面的文档对象模型树结构，获取招标公告文本；并将所述招标公告文本分解为多个语句；然后根据预设规则，将所述语句分为第一语句集合和第二语句集合，其中，所述第一语句集合为包含与招标产品信息相关的语句的集合，所述第二语句集合为不包含与招标产品信息相关的语句的集合；再根据所述第一语句集合，获得第一训练集合，根据所述第二语句集合，获得第二训练集合；然后基于所述第一训练集合和所述第二训练集合，训练获得贝叶斯分类模型的分类器；最后根据所述分类器，从待处理的招标公告文本中，获取目标招标产品信息。

在上述方法中，首先基于预设招标公告页面的文档对象模型树结构获取了招标公告文本，并将所述招标公告文本分解为多个语句；然后根据预设规则，将所述语句分为包含与招标产品信息相关的语句的第一语句集合和与招标产品信息不相关的语句第二语句集合，并以此为基础，训练获得贝叶斯分类模型的分类器；再根据所述分类器，从待处理的招标公告文本中，获取目标招标产品信息，首先将招标公告文本分为了第一语句集合和第二语句集合，这样可以减少无效的查询信息，并且，以第一语句集合第二语句集合为基础，构建了贝叶斯分类模型的分类器，从而判断待处理的招标公告文本中是否包含招标产品信息，可以提高获取相关信息的准确性，解决了现有技术中获取的招标产品信息存在准确性不高的技术问题。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本实施例提供了一种获取招标产品信息的方法，请参考图1，所述方法包括：

步骤S101：基于预设招标公告页面的文档对象模型树结构，获取招标公告文本；

步骤S102：将所述招标公告文本分解为多个语句；

步骤S103：根据预设规则，将所述语句分为第一语句集合和第二语句集合，其中，所述第一语句集合为包含与招标产品信息相关的语句的集合，所述第二语句集合为不包含与招标产品信息相关的语句的集合；

步骤S104：根据所述第一语句集合，获得第一训练集合，根据所述第二语句集合，获得第二训练集合；

步骤S105：基于所述第一训练集合和所述第二训练集合，训练获得贝叶斯分类模型的分类器；

步骤S106：根据所述分类器，从待处理的招标公告文本中，获取目标招标产品信息。

需要说明的是，文档对象模型(Document Object Model，DOM)，是W3C组织推荐的处理可扩展标志语言的标准编程接口。在网页上，组织页面(或文档)的对象被组织在一个树形结构中，这种树形结构称为文档对象模型树结构。

下面，结合图1，对本实施例提供的一种获取招标产品信息的方法进行详细描述：

首先，执行步骤S101，基于预设招标公告页面的文档对象模型树结构，获取招标公告文本。

具体来说，预设招标公告页面是根据已有的经验获取的一定量的招标页面，这些招标页面包括的网页数据，可以构成招标公告页面数据集合，然后根据预设招标公告页面的文档对象模型树结构，从中可以抽取相应的招标公告文本。

在获取了招标公告文本后，然后执行步骤S102：将所述招标公告文本分解为多个语句；

具体来说，所述将所述招标公告文本分解为多个语句，包括：

根据划分的结果，将所述招标公告文本分解为多个语句。

在具体的实施过程中，可以根据边界标志将招标文本划分成更小的单元，即分解成语句，这些边界标志包括但不限于句号、分段符、换行符。

接下来执行步骤S103：根据预设规则，将所述语句分为第一语句集合和第二语句集合，其中，所述第一语句集合为包含与招标产品信息相关的语句的集合，所述第二语句集合为不包含与招标产品信息相关的语句的集合；

在具体的实施过程中，预设规则可以是根据已有的经验设定的，例如，如果语句中包含描述产品名称、产品型号、产品品牌或者其他有关信息，则认为是与招标产品信息相关的语句，在根据预设规则将语句分为第一语句集合和第二语句集合时，可以通过人工检视也可以通过系统自动完成的方式来实现。

然后执行步骤S104：根据所述第一语句集合，获得第一训练集合，根据所述第二语句集合，获得第二训练集合。

具体地，所述根据所述第一语句集合，获得第一训练集合，根据所述第二语句集合，获得第二训练集合，包括：

在具体的实施过程中，对于第一语句集合和第二语句集合，对于上述集合中的每条语句进行中文分词处理，得到分词处理后的第一目标语句集合和第二目标语句集合，然后将第一目标语句集合和第二目标语句集合中的停用词去除，具体来说，停用词去除环节可以通过中文停用词表来实现，中文停用词表中包括“的、了、吧、……”等词汇。由此可以得到第一训练集合和第二训练集合，将这两个中文词汇集合作为训练集合，以供下一步训练分类器使用。

然后执行步骤S105：基于所述第一训练集合和所述第二训练集合，训练获得贝叶斯分类模型的分类器。

在具体的实施过程中，在训练获得分类器的过程中，可以采用朴素贝叶斯文本分类模型来实现，通过朴素贝叶斯文本分类模型对表示为向量的待处理语句S(t₁,t₂,...,t_i)归类到与其关联最紧密的类别集合C＝{C₁,C₂}中的某一类中。其中类别C₁为与待招标产品相关信息的类别，类别C₂为与待招标产品不相关信息的类别，S(t₁,t₂,...,t_i)则为待处理语句S的中文分词结果处理停用词后的结果，将其作为S的特征向量。则语句S属于类别C_k的概率为：

然后执行步骤S106：根据所述分类器，从待处理的招标公告文本中，获取目标招标产品信息。

具体来说，由于前述步骤中，得到了基于所述第一训练集合和所述第二训练集合训练获得的贝叶斯分类模型的分类器，通过该分类器，则可以对待处理的招标公告文本进行分类，并根据分类结果，可以获取待处理的招标公告文本中的目标招标产品信息。

为了进一步提高分类的准确性，在所述基于所述第一训练集合和所述第二训练集合，训练获得贝叶斯分类模型的分类器之后，所述方法还包括：

其中，所述用户的反馈信息包括用户的点击次数。

具体来说，由于步骤S101中获取的招标公告页面的网页数据是根据已有的经验获得的，其招标页面的数据规模受到一定的限制，从而导致后续第一训练集合和第二训练集合的数据规模受限，因而为了确保分类的精度，进一步提高分类的准确性，可以通过使用过程中用户的反馈信息，来扩充第一训练集合和所述第二训练集合，并对第一训练集合和所述第二训练集合重新训练得到新的分类器，即第一分类器。优选地，为了充分利用系统使用过程中用户的反馈信息，第一训练集合和所述第二训练集合的扩充和分类器的重新训练定期进行，例如可以每隔30分钟、一个小时，一天等等，并在每次重新训练得到分类器之后，对已有的招标公告页面按语句分解并进行分词处理后的结果，采用新训练出的分类器重新对其分类，并判断其是否为描述与待招标产品相关信息的语句。具体流程包括：采用第一训练集合和所述第二训练集合训练得到分类器，对获取到的招标公告页面中的语句进行分词处理并去除停用词，并使用训练好的分类器，对该步骤处理好的结果进行分类，判断获取到的招标公告页面中的各语句是否为描述与待招标产品相关信息的语句。对于被分类为未描述与待招标产品相关信息的语句，不加以存储；而对于被分类为描述与待招标产品相关信息的语句，对其加以存储、索引等处理。当用户使用特定词汇对招标公告数据进行查询时，从被存储和索引的被分类为描述与待招标产品相关信息的语句中寻找包含用户查询词汇的结果，并将寻找到的结果展示给用户，供用户点击以进一步查看完整的公告信息。

优选地，所述用户的反馈信息包括用户的点击次数。

具体来说，由于在将结果展示给用户时，会显示招标公告中包含用户查询词汇的语句片段的上下文，以供用户参考，以决定该结果是否为用户需要的结果。一般来说，用户提交的查询词为产品的名称，其查询目的在于寻找包含该查询词的招标公告，并认为该招标公告的内容就是在针对该查询词所对应的产品进行招标。因此如果结果展示的语句并不是描述与待招标产品相关信息的语句，则一般不会引起用户的兴趣。因此可以通过用户的点击次数辅助判断待判断的招标文本中的语句是否为与招标产品信息相关的语句，在具体的实施过程中，可以通过系统后台记录用户对各结果的点击次数情况。并将用户点击次数较多的结果作为有较大的概率为描述与待招标产品相关信息的语句；而用户点击次数较少的结果作为有较小的概率为描述与待招标产品相关信息的语句。

优选地，本发明实施例不是通过点击次数判断被点击的搜索结果中的语句是否为描述与待招标产品相关信息的语句。而是以点击次数为所有搜索结果排序，按照次数从大到小排列。并对于排序后的搜索结果列表，可以选取点击次数最多的前50％的招标页面结果，认为其包含的语句为描述与待招标产品相关信息的语句，并选取点击次数最少的前5％的结果，认为其包含的语句为未描述与待招标产品相关信息的语句。在此基础上，可以根据用户的点击行为，筛选出描述与待招标产品相关信息的语句集合A₁，以及未描述与待招标产品相关信息的语句集合B₁。并将语句集合A₁和语句集合B₁与之前分解得到的招标公告文本得到的第一语句集合A和第二语句集合B分别合并，从而得到新的描述与待招标产品相关信息的语句集合A’，以及未描述与待招标产品相关信息的语句集合B’，接下来，对于语句集合A’和语句集合B’，对其中的每条语句按照步骤S104和步骤S105的方法进行处理，最终将第一语句集合A’和第二语句集合B”分别转换为新的中文词汇集合A”和中文词汇集合B”,将这两个中文词汇集合作为训练集合，对朴素贝叶斯分类器重新训练。

根据用户的反馈信息，扩充所述第一训练集合和所述第二训练集合的操作循环执行，从而形成用户使用行为与训练集之间的反馈。即通过将判断待处理的招标公告文本的结果，并根据用户的反馈信息，不断地更新和扩充训练集，从而提高训练集的规模和精度，进而提高分类的准确性。

基于与实施例一同样的发明构思，本发明还提供了一种与获取招标产品信息的方法相对应的装置，具体参见实施例二。

实施例二

本实施例提供了一种获取招标产品信息的装置，请参见图2，所述装置包括：

第一获取模块201，用于基于预设招标公告页面的文档对象模型树结构，获取招标公告文本；

分解模块202，用于将所述招标公告文本分解为多个语句；

划分模块203，用于根据预设规则，将所述语句分为第一语句集合和第二语句集合，其中，所述第一语句集合为包含与招标产品信息相关的语句的集合，所述第二语句集合为不包含与招标产品信息相关的语句的集合；

第一获得模块204，用于根据所述第一语句集合，获得第一训练集合，根据所述第二语句集合，获得第二训练集合；

第二获得模块205，用于基于所述第一训练集合和所述第二训练集合，训练获得贝叶斯分类模型的分类器；

第二获取模块206，用于根据所述分类器，从待处理的招标公告文本中，获取目标招标产品信息。

本实施例提供的获取招标产品信息的装置中，所述分解模块202，还用于：

根据划分的结果，将所述招标公告文本分解为多个语句。

本实施例提供的获取招标产品信息的装置中，所述第一获得模块204，还用于：

本实施例提供的获取招标产品信息的装置，还包括处理模块，用于在所述基于所述第一训练集合和所述第二训练集合，训练获得贝叶斯分类模型的分类器之后：

本实施例提供的获取招标产品信息的装置中，所述用户的反馈信息包括用户的点击次数。

实施例二中所述的一种获取招标产品信息的装置与实施例一具有相同的发明构思，前述对获取招标产品信息的方法的描述及各种变形均适用于本实施例。

基于与实施例一同样的发明构思，本发明还提供了一种与获取招标产品信息的方法相对应的计算机可读存储介质，具体参见实施例三。

实施例三

本发明实施例提供了一种计算机可读存储介质，请参图3，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：

将所述招标公告文本分解为多个语句；

基于与实施例一同样的发明构思，本发明还提供了一种与获取招标产品信息的方法相对应的计算机设备，具体参见实施例四。

实施例四

本发明实施例提供了一种计算机设备，请参图4，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

将所述招标公告文本分解为多个语句；

为了便于说明，图4仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。其中，存储器401可用于存储软件程序以及模块，处理器402通过运行执行存储在存储器401的软件程序以及模块，从而执行移动终端的各种功能应用以及数据处理。

存储器401可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据计算机设备的使用所创建的数据等。处理器402移动通信终端的控制中心，利用各种接口和线路连接整个移动通信终端的各个部分，通过运行或执行存储在存储器401内的软件程序和/或模块，以及调用存储在存储器401内的数据，执行移动终端机的各种功能和处理数据，从而对移动终端机进行整体监控。可选的，处理器402可包括一个或多个处理单元。

实施例一中的获取招标产品信息的方法的各种变化方式和具体实例同样适用于本实施例的计算机设备，通过前述对获取招标产品信息的方法详细描述，本领域技术人员可以清楚的知道本实施例中的计算机设备，所以为了说明书的简洁，在此不再详述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种获取招标产品信息的方法，其特征在于，所述方法包括：

将所述招标公告文本分解为多个语句；

2.如权利要求1所述的方法，其特征在于，所述将所述招标公告文本分解为多个语句，包括：

根据划分的结果，将所述招标公告文本分解为多个语句。

3.如权利要求2所述的方法，其特征在于，所述根据所述第一语句集合，获得第一训练集合，根据所述第二语句集合，获得第二训练集合，包括：

4.如权利要求1所述的方法，其特征在于，在所述基于所述第一训练集合和所述第二训练集合，训练获得贝叶斯分类模型的分类器之后，所述方法还包括：

5.如权利要求1所述的方法，其特征在于，所述用户的反馈信息包括用户的点击次数。

6.一种获取招标产品信息的装置，其特征在于，包括：

分解模块，用于将所述招标公告文本分解为多个语句；

7.如权利要求6所述的装置，其特征在于，所述分解模块，还用于：

根据划分的结果，将所述招标公告文本分解为多个语句。

8.如权利要求6所述的装置，其特征在于，所述第一获得模块，还用于：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现以下步骤：

将所述招标公告文本分解为多个语句；

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：

将所述招标公告文本分解为多个语句；