CN109063744A

CN109063744A - 神经网络模型训练方法和商业文件相似度确定方法及系统

Info

Publication number: CN109063744A
Application number: CN201810739518.5A
Authority: CN
Inventors: 郑权; 张峰; 聂颖
Original assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Current assignee: Dragon Horse Zhixin (zhuhai Hengqin) Technology Co Ltd
Priority date: 2018-07-06
Filing date: 2018-07-06
Publication date: 2018-12-21
Anticipated expiration: 2038-07-06
Also published as: CN109063744B

Abstract

本发明涉及神经网络模型训练方法和商业文件相似度确定方法及系统。在一方面，提供一种用于确定商业文件之间的相似度的神经网络模型的训练方法。该方法包括：采集m个商业文件数据样本；建立商业文件的关联矩阵Matrix，以确定商业文件i与商业文件j的关联度Matrix[i][j]，其中i＝1,2,…,m而j＝1,2,…,m；对关联矩阵Matrix进行降维处理，以获得降维后的数据作为标签Label；分别地提取m个商业文件的一项或多项内容；对所提取的一项或多项内容进行向量化，以获得相应的内容向量；对所获得的内容向量进行合并，以获得与m个商业文件中的每一个商业文件相对应的向量Information；通过将向量Information作为输入而标签Label作为输出来训练神经网络模型。根据本发明，能够有效地和可靠地确定例如招标文件之间的相似度。

Description

神经网络模型训练方法和商业文件相似度确定方法及系统

技术领域

本发明涉及确定文本间相似度的领域，特别地，涉及利用神经网络模型来有效地和可靠地确定商业文件例如招标文件之间的相似度的确定方法及系统。

背景技术

现阶段，为了提高工作效率以及实现利益最大化，招投标是工程建设中普遍采用的一种竞争性的采购方式。在传统的招投标中，招标单位制作招标文件，招标文件披露招标的信息，然后投标方获得信息后，根据招标的要求制作投标文件，投标文件披露投标信息，投标信息包括投标主体、投标价格等。

在此过程中，投标单位需要自己去发现招标单位的标书，进而投标。在招标单位众多并且相应地招标文件众多的情况下，通过传统方式(例如人工查找及识别方式)，投标方难以快速地和适当地去识别出各个标书之间的相似度，进而难以快速地和适当地查找到适合于投标方的标书。

这里，应当指出的是，本部分中所提供的技术内容旨在有助于本领域技术人员对本发明的理解，而不一定构成现有技术。

发明内容

为了解决或缓解相关技术中所存在的上述问题中的至少一个问题，本发明提供一种神经网络模型训练方法以及相关联的商业文件相似度确定方法及系统，使得能够有效地和可靠地确定商业文件之间的相似度。

根据本发明的一个方面，提供一种神经网络模型的训练方法。所述神经网络模型用于确定商业文件之间的相似度。所述训练方法包括下述步骤：

样本采集步骤：采集m个商业文件数据样本；

关联矩阵建立步骤：建立商业文件的关联矩阵Matrix，以确定商业文件i与商业文件j的关联度Matrix[i][j]，其中i＝1,2,…,m而j＝1,2,…,m；

降维处理步骤：对关联矩阵Matrix进行降维处理，以获得降维后的数据作为标签Label；

内容提取步骤：分别地提取m个商业文件的一项或多项内容；

内容向量化步骤：对所提取的一项或多项内容进行向量化，以获得相应的内容向量；

训练步骤：通过将所获得的内容向量作为输入而标签Label作为输出来训练神经网络模型，或者，首先对所获得的内容向量进行合并以获得与m个商业文件中的每一个商业文件相对应的向量Information，然后通过将向量Information作为输入而标签Label作为输出来训练神经网络模型。

优选地，在上述训练方法中，所述商业文件为招标文件，所述一项或多项内容包括：品目、资质要求、和/或项目描述。

优选地，在上述训练方法中：

在所述一项或多项内容包括品目的情况下，所述内容向量化步骤包括下述品目向量化步骤：

将品目信息以树的方式展现，以获得图录树Catalog Tree；

提取第ki个招标文件的品目信息，根据第ki个招标文件的品目信息所在的位置而获得向量Position[ki]，存储第ki个招标文件的品目信息在图录树Catalog Tree中的位置，

在所述一项或多项内容包括资质要求的情况下，所述内容向量化步骤包括下述资质要求向量化步骤：

对资质要求进行划项，以确立划项数量Number；

提取第ki个招标文件的资质要求信息，根据第ki个招标文件的资质要求信息获得Number维向量Qualifications[ki]，

在所述一项或多项内容包括项目描述的情况下，所述内容向量化步骤包括下述项目描述向量化步骤：

根据m个招标文件的项目描述文本获得停词列表；

选择分词工具并且导入停词列表；

提取第ki个招标文件的项目描述文本，利用处理好的分词工具提取第ki个招标文件的项目描述文本的预定数目的关键词Keyword并且进行向量化，以获得向量Keyword[ki]。

优选地，在上述训练方法中，在所述品目向量化步骤中，根据第ki个招标文件的品目信息所在的宽度和深度获得二维向量Position[ki]。

优选地，在上述训练方法中，在所述资质要求向量化步骤中，对资质要求进行划项涉及是否有违纪、纳税、接受类型、和/或营业执照。

优选地，在上述训练方法中，在所述资质要求向量化步骤中，所获得的Number维向量Qualifications[ki]被表示为：

Qualifications[ki]＝{Qf₁,Qf₂,...Qf_j,...,Qf_Number}

其中，Qf_j∈{0,1}，下标j＝1,2,…,Number，Qf_j表示第ki个招标文件的资质要求信息是否存在与所涉及的划项相对应的第j个划项，存在则Qf_j＝1，否则Qf_j＝0。

优选地，在上述训练方法中：

在所述品目向量化步骤中，逐个地提取m个招标文件中的每一个招标文件的品目信息，根据该招标文件的品目信息所在的位置而获得相应的向量Position，相应地存储该招标文件的品目信息在图录树Catalog Tree中的位置；

在所述资质要求向量化步骤中，逐个地提取m个招标文件中的每一个招标文件的资质要求信息，根据该招标文件的资质要求信息获得相应的Number维向量Qualifications；

在所述项目描述向量化步骤中，逐个地提取m个招标文件中的每一个招标文件的项目描述文本，相应地利用处理好的分词工具提取该招标文件的项目描述文本的预定数目的关键词Keyword并且进行向量化，以获得相应的向量Keyword。

根据本发明的另一方面，提供一种利用神经网络模型确定商业文件之间的相似度的确定方法。所述神经网络模型为基于如上文所描述的训练方法进行训练的神经网络模型。

优选地，在上述确定方法中，所述商业文件为招标文件，所述确定方法包括下述步骤：

采集待对比的两个招标文件的品目、资质要求、和/或项目描述；

对所采集的品目、资质要求、和/或项目描述进行向量化，以获得相应的向量；

将经过合并或未经过合并的所获得的相应的向量输入经过训练的神经网络模型而获得对应的输出参数；

根据输出参数计算两个招标文件的数据组的距离而获得两个招标文件的相似度。

根据本发明的另一方面，提供一种利用神经网络模型确定商业文件之间的相似度的确定系统。所述确定系统包括计算机程序模块，所述计算机程序模块适于执行如上文所描述的训练方法中的步骤和/或如上文所描述的确定方法中的步骤。

根据本发明的神经网络模型训练方法以及相关联的商业文件相似度确定方法及系统，例如，使投标方能够有效地和可靠地去识别出各个标书之间的相似度，进而使投标方能够快速地和适当地查找到适合于投标方的标书。

附图说明

通过以下参照附图对本发明实施方式的详细描述，本发明的上述以及其它的目的、特征和优点将更为清楚，在附图中：

图1为示出根据本发明示例性实施方式的神经网络模型的训练方法的流程图。

具体实施方式

下面参照附图、借助示例性实施方式对本发明进行详细描述。对本发明的以下详细描述仅仅是出于说明目的，而绝不是对本发明及其应用或用途的限制。

参照图1(图1为示出根据本发明示例性实施方式的神经网络模型的训练方法的流程图)，根据本发明示例性实施方式的神经网络模型(该神经网络模型可以用于确定招标文件之间的相似度)的训练方法可以包括：样本采集步骤、关联矩阵建立步骤、降维处理步骤、内容提取步骤、内容向量化步骤、内容向量合并步骤、以及训练步骤。这里，需要指出的是，尽管在此以招标文件作为示例对根据本发明的神经网络模型的训练方法进行描述，然而可以理解，根据本发明的神经网络模型的训练方法也可以适用于其它合适类型的商业文件(例如投标文件、合同文件等)。

在样本采集步骤中，可以采集m个招标文件数据样本。在优选的示例中，采集大量(足够大)的招标文件数据样本。

这里，需要说明的是，可以在样本采集步骤之前使参数初始化，这包括对关键词个数topkey进行初始化。

在关联矩阵建立步骤中，可以建立招标文件的关联矩阵Matrix，以确定招标文件i与招标文件j的关联度Matrix[i][j]，其中下标i＝1,2,…,m而下标j＝1,2,…,m。特别地，可以建立一个m*m的方阵的关联矩阵，在该关联矩阵中，每一个元素是一个关联值。

在一个示例中，招标文件的关联矩阵中值的计算方式可以为：

matrix[i][j]＝count(i,j)

其中，Matrix[i][j]表示招标文件i与招标文件j的关联度，而count函数的意义为计算招标文件i与招标文件j的关联关系度量值。

在降维处理步骤中，可以对关联矩阵Matrix进行降维处理，以获得降维后的数据作为标签Label。

在内容提取步骤中，可以分别地提取m个招标文件的一项或多项内容。

在一个示例中，一项或多项内容包括可以包括：品目、资质要求、和/或项目描述。然而，可以理解，根据具体的招标文件，招标文件信息也可以包括其它合适的招标文件信息。

在内容向量化步骤中，可以对所提取的一项或多项内容进行向量化，以获得相应的内容向量。

在一项或多项内容包括品目的情况下，内容向量化步骤可以包括下述品目向量化步骤：将品目信息以树的方式展现，以获得图录树Catalog Tree；提取第ki个招标文件的品目信息，根据第ki个招标文件的品目信息所在的位置而获得向量Position[ki]，存储第ki个招标文件的品目信息在图录树Catalog Tree中的位置。这里，作为示例，在品目向量化步骤中，可以根据第ki个招标文件的品目信息所在的宽度和深度而获得二维向量Position[ki]。

特别地，在品目向量化步骤中，可以逐个地提取m个招标文件中的每一个招标文件的品目信息，根据该招标文件的品目信息所在的位置而获得相应的向量Position，相应地存储该招标文件的品目信息在图录树Catalog Tree中的位置。例如：可以首先令计数器ki＝1，然后针对第1个招标文件进行相应的处理；接下来令计数器ki＝2，然后判断ki(即2)是否大于m，如果ki大于m则品目向量化步骤结束，否则针对第2个招标文件进行相应的处理；以此类推。

在一项或多项内容包括资质要求的情况下，内容向量化步骤可以包括下述资质要求向量化步骤：对资质要求进行划项，以确立划项数量Number；提取第ki个招标文件的资质要求信息，根据第ki个招标文件的资质要求信息获得Number维向量Qualifications[ki]。

这里，作为示例，在资质要求向量化步骤中，对资质要求进行划项可以涉及是否有违纪、纳税、接受类型、和/或营业执照。其中的接受类型例如可以为是否为高新企业等。然而，可以理解，根据具体的招标文件，对资质要求进行划项也可以涉及其它合适的划项。

特别地，在资质要求向量化步骤中，所获得的Number维向量Qualifications[ki]可以被表示为：

Qualifications[ki]＝{Qf₁,Qf₂,...Qf_j,...,Qf_Number}

另外，类似地，在资质要求向量化步骤中，可以逐个地提取m个招标文件中的每一个招标文件的资质要求信息，根据该招标文件的资质要求信息获得相应的Number维向量Qualifications。

在一项或多项内容包括项目描述的情况下，内容向量化步骤可以包括下述项目描述向量化步骤：根据m个招标文件的项目描述文本获得停词列表；选择分词工具并且导入停词(stop word)列表(算法IF-IDF)；提取第ki个招标文件的项目描述文本，利用处理好的分词工具(分词工具箱)提取第ki个招标文件的项目描述文本的预定数目的关键词Keyword并且进行向量化，以获得向量Keyword[ki]。

另外，类似地，在项目描述向量化步骤中，可以逐个地提取m个招标文件中的每一个招标文件的项目描述文本，相应地利用处理好的分词工具提取该招标文件的项目描述文本的预定数目的关键词Keyword并且进行向量化，以获得相应的向量Keyword。

在内容向量合并步骤中，可以对所获得的内容向量进行合并，以获得与m个招标文件中的每一个招标文件相对应的向量Information。例如，对于m个招标文件中的某一招标文件(即第ki个招标文件)，在该招标文件的信息包括品目、资质要求和项目描述这三者的情况下，可以将如上所获得的向量Position[ki]、向量Qualifications[ki]和向量Keyword[ki]合并而获得与该招标文件相对应的合并向量information[ki]，如下：

information[i]＝[position[i],qualifications[i],Keyword[i]]。

在训练步骤中，可以通过将向量Information作为输入而标签Label作为输出来训练神经网络模型。

这里，需要说明的是，也可以不对内容向量进行合并，并且相应地也可以不以合并的向量Information作为输入来训练神经网络模型而替代性地以未合并的各单个向量Position[ki]、向量Qualifications[ki]和向量Keyword[ki]作为输入来训练神经网络模型。

另外，根据本发明，还提供一种利用基于如上文所描述的训练方法进行训练的神经网络模型来确定招标文件之间的相似度的确定方法。

在该确定方法中，可以包括下述步骤：

另外，根据本发明，还提供一种利用神经网络模型确定招标文件之间的相似度的确定系统。该确定系统可以包括计算机程序模块，该计算机程序模块可以适于执行如上文描述的训练方法中的步骤和/或如上文所描述的确定方法中的步骤。

总之，根据本发明的神经网络模型训练方法以及相关联的商业文件相似度确定方法及系统，例如，使投标方能够有效地和可靠地去识别出各个标书之间的相似度，进而使投标方能够快速地和适当地查找到适合于投标方的标书。

应当说明的是，在本申请文件中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还可以包括没有明确列出的其它要素，或者是还可以包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：显然，上述实施方式/示例仅仅是为清楚地说明本发明所作的举例，而并非对本发明的限制。对于本领域技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式/示例予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围之中。

Claims

1.一种神经网络模型的训练方法，所述神经网络模型用于确定商业文件之间的相似度，所述训练方法包括下述步骤：

样本采集步骤：采集m个商业文件数据样本；

内容提取步骤：分别地提取m个商业文件的一项或多项内容；

2.根据权利要求1所述的训练方法，其中，所述商业文件为招标文件，所述一项或多项内容包括：品目、资质要求、和/或项目描述。

3.根据权利要求2所述的训练方法，其中：

将品目信息以树的方式展现，以获得图录树Catalog Tree；

对资质要求进行划项，以确立划项数量Number；

根据m个招标文件的项目描述文本获得停词列表；

选择分词工具并且导入停词列表；

4.根据权利要求3所述的训练方法，其中，在所述品目向量化步骤中，根据第ki个招标文件的品目信息所在的宽度和深度而获得二维向量Position[ki]。

5.根据权利要求3所述的训练方法，其中，在所述资质要求向量化步骤中，对资质要求进行划项涉及是否有违纪、纳税、接受类型、和/或营业执照。

6.根据权利要求5所述的训练方法，其中，在所述资质要求向量化步骤中，所获得的Number维向量Qualifications[ki]被表示为：

Qualifications[ki]＝{Qf₁,Qf₂,...Qf_j,...,Qf_Number}

7.根据权利要求3所述的训练方法，其中：

8.一种利用神经网络模型确定商业文件之间的相似度的确定方法，其中，所述神经网络模型为基于如权利要求1至7中任一项所述的训练方法进行训练的神经网络模型。

9.根据权利要求8所述的确定方法，其中，所述商业文件为招标文件，所述确定方法包括下述步骤：

10.一种利用神经网络模型确定商业文件之间的相似度的确定系统，其中，所述确定系统包括计算机程序模块，所述计算机程序模块适于执行如权利要求1至7中任一项所述的训练方法中的步骤和/或如权利要求8至9中任一项所述的确定方法中的步骤。