CN113836906B - 标书生成方法、装置及服务器 - Google Patents
标书生成方法、装置及服务器 Download PDFInfo
- Publication number
- CN113836906B CN113836906B CN202111130383.0A CN202111130383A CN113836906B CN 113836906 B CN113836906 B CN 113836906B CN 202111130383 A CN202111130383 A CN 202111130383A CN 113836906 B CN113836906 B CN 113836906B
- Authority
- CN
- China
- Prior art keywords
- title
- target
- titles
- similarity
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种标书生成方法、装置及服务器,该方法包括:根据标书生成请求中包含待生成标书的N个目标标题、N个目标标题的顺序以及目标标签,从预存标书数据库获取每个目标标题对应的若干个待选标题、以及每个待选标题对应的正文和标签,预存标书数据库中存储有通用标题集、非通用标题集以及标签集合,确定每个目标标题与对应的所有待选标题与之间的相似度以及获得所有目标标题的有序待选标题集合;根据预存标书数据库对每个待选标题进行筛选,并根据每个待选标题的相似度确定每个目标标题的正文;将所有目标标题的正文按照N个目标标题的顺序生成标书,并将生成后的标书发送至终端,实现了提高生成标书效率的目的。
Description
技术领域
本发明涉及标书制作领域,尤其涉及一种标书生成方法、装置及服务器。
背景技术
标书是由发标单位编制或委托设计单位编制,向投标者提供对该工程的主要技术、质量、工期等要求的文件,要求用语精炼、简短。
目前,通常是由一个工作人员逐个录入标书的内容以及格式制作标书,不仅率低,还容易出现错误。因此,制作相同的行业或产品的标书同一类型的标书时,可复用重复的内容,节省撰写标书的时间。
然而,由于标书的编写者来自不同部门以及众多的标书编写者有着不同的专业背景,表述相同的内容时差别较大,导致生成标书的效率较低。
发明内容
本发明的目的在于提供一种标书生成方法、装置及服务器,以提高生成标书的效率。
第一方面,本发明提供一种标书生成方法,包括:
接收终端发送的标书生成请求,所述标书生成请求中包含待生成标书的N个目标标题、所述N个目标标题的顺序以及目标标签,其中N为正整数;
响应于所述标书生成请求,从预存标书数据库获取每个目标标题对应的若干个待选标题、以及每个待选标题对应的正文和标签,所述预存标书数据库中存储有通用标题集、非通用标题集以及标签集合;
确定每个目标标题与对应的所有待选标题与之间的相似度,并对获得的所有相似度进行排序,获得所述目标标题对应的有序待选标题集合,由此获得所有目标标题的有序待选标题集合,根据预存标书数据库中的通用标题集、非通用标题集、标签集合以及目标标签对每个待选标题进行筛选,并根据每个待选标题的相似度确定每个目标标题的正文;
将所有目标标题的正文按照N个目标标题的顺序生成标书,并将生成后的标书发送至所述终端。
在一种可能的设计中,所述预存标书数据库的获得过程,包括:
对数据库中存储的所有标书进行数据清洗,获得所有标书的关键内容,并对所述所有标书的关键内容进行结构化处理,获得M个标题以及每个标题对应的正文和标签,M为正整数;
根据类别数对所述M个标题进行文本聚类,其中所述类别数为预设关键字属性集合的个数,所述预设关键词属性集合包含标签关键词和标书关键字;
接收终端发送的X个同类别标题集合,以及每个同类别标题集合对应的标签集合,将包含的标题数量大于或者等于预设阈值的同类别标题集合设定为待选通用标题集合,并将所述通用标题集合中包含的所有标题设定为通用标题,将包含的标题数量小于预设阈值的同类别标题集合设定为非通用标题集合,并将所述非通用标题集合中包含的所有标题设定为非通用标题,X为正整数;
根据同类别标题集合对应的标签集合确定所有通用标题的标签,并根据同类别标题集合对应的标签集合确定所有非通用标题的标签,将所有通用标题、每个通用标题对应的正文以及标签进行存储,以及将所有非通用标题、每个非通用标题对应的正文以及标签进行存储获得预存标书数据库。
在一种可能的设计中,所述根据预存标书数据库中的通用标题集、非通用标题集、标签集合以及目标标签对每个待选标题进行筛选,并根据每个待选标题的相似度确定每个目标标题的正文,包括:
当所述待选标题为通用标题且所述待选标题是没有标签的,若相似度大于第一预设阈值时,则将所述待选标题作为所述目标标题的选定标题;
对所述目标标题对应的所有选定标题的正文进行融合处理,获得所述目标标题对应的正文。
在一种可能的设计中,所述根据预存标书数据库中的通用标题集、非通用标题集、标签集合以及目标标签对每个待选标题进行筛选,并根据每个待选标题的相似度确定每个目标标题的正文,包括:
当所述待选标题为通用标题且所述待选标题是没有标签的,若相似度大于第一预设阈值时,则将所述待选标题作为所述目标标题的选定标题;
计算所述目标标题对应的所有暂定标题对应的标签与目标标签之间的相似度,根据所有暂定标题的相似度进行排序获得第一有序选定标题集合,并根据所述第一有序选定标题集合中所有待选标题对应的正文,对所述目标标题对应的所有待选标题的正文进行融合处理。
在一种可能的设计中,所述根据预存标书数据库中的通用标题集、非通用标题集、标签集合以及目标标签对每个待选标题进行筛选,并根据每个待选标题的相似度确定每个目标标题的正文,包括:
若所述待选标题为非通用标题且所述待选标题的相似度大于第三预设阈值时,计算每个待选标题与每个目标标题之间的字面相似度,并将每个待选标题的字面相似度和语义相似度按照权重进行融合,确定每个待选标题的融合相似度;
将所述融合相似度大于第四预设阈值的所有待选标题作为第二选定标题集合,并将所述第二选定标题集合中的所有待选标题按照融合相似度进行排序获得第二有序选定标题集合,并根据所述第二有序选定标题集合中最优待选标题对应的正文、按顺序生成所述目标标题对应的正文,其中所述最优待选标题为所有待选标题中的第一顺位标题。
在一种可能的设计中,所述对所述目标标题对应的所有选定标题的正文进行融合处理,获得所述目标标题对应的正文,包括:
将所有选定标题的正文进行罗列,获得所述目标标题对应的正文;
或,
将所有选定标题的正文以句子进行分解后去重,并根据去重后的文本获得所述目标标题对应的正文;
或,
将字数最多的选定标题的正文作为所述目标标题对应的正文。
第二方面,本发明提供一种标书生成装置,包括:
接收模块,用于接收终端发送的标书生成请求,所述标书生成请求中包含待生成标书的N个目标标题、所述N个目标标题的顺序以及目标标签,其中N为正整数;
获取模块,用于响应于所述标书生成请求,从预存标书数据库获取每个目标标题对应的若干个待选标题、以及每个待选标题对应的正文和标签,所述预存标书数据库中存储有通用标题集、非通用标题集以及标签集合;
确定模块,用于确定每个目标标题与对应的所有待选标题与之间的相似度,并对获得的所有相似度进行排序,获得所述目标标题对应的有序待选标题集合,由此获得所有目标标题的有序待选标题集合,根据预存标书数据库中的通用标题集、非通用标题集、标签集合以及目标标签对每个待选标题进行筛选,并根据每个待选标题的相似度确定每个目标标题的正文;
生成模块,用于将所有目标标题的正文按照N个目标标题的顺序生成标书,并将生成后的标书发送至所述终端。
在一种可能的设计中,所述确定模块还用于:
若所述待选标题为通用标题、所述待选标题对应的标签为无关标签标签且所述待选标题的相似度大于第一预设阈值时,将所述待选标题作为所述目标标题的选定标题;对所述目标标题对应的所有选定标题的正文进行去重处理,获得所述目标标题对应的正文。
第三方面,本发明提供一种服务器,包括存储器和至少一个处理器;所述存储器用于存储计算机执行指令;至少一个处理器,用于执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行实现如第一方面以及第一方面的任一方面所述的标书生成方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面以及第一方面的任一方面所述的标书生成方法。
第五方面,本发明提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现如第一方面以及第一方面的任一方面所述的标书生成方法。
本发明提供的标书生成方法、装置及服务器,通过利对历史标书进行处理获得预存标书数据库,并根据标书生成请求中包含待生成标书的N个目标标题、所述N个目标标题的顺序以及目标标签对预存标书数据库进行检索,获得目标标题对应的若干个待选标题以及正文和标签,通过计算有待选标题与目标标题之间的相似度,并根据标书数据库依次对待选标题、待选标题的标签以及待选标题的相似度进行筛选,并根据筛选的结果获得目标标题的正文,并将所有目标标题的正文按照目标标题的顺序生成标书,实现了自动化制作标书的目的,提高了生成标书的效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本发明实施例提供的标书生成方法的应用场景示意图;
图2为本发明实施例提供的标书生成方法流程图一;
图3为本发明实施例提供的标书生成方法流程图二;
图4为本发明实施例提供的标书生成装置的结构示意图;
图5为本发明实施例提供的服务器的硬件结构示意图。
具体实施方式
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
标书是由发标单位编制或委托设计单位编制,向投标者提供对该工程的主要技术、质量、工期等要求的文件。标书是招标工作时采购当事人都要遵守的具有法律效应且可执行的投标行为标准文件。它的逻辑性要强,不能前后矛盾,模棱两可;用语要精炼、简短。
目前,通常是由人工制作标书。在制作相同的行业或产品的标书同一类型的标书时,可复用重复的内容,节省撰写标书的时间。然而,由于标书的编写者来自不同部门以及众多的标书编写者有着不同的专业背景,表述相同的内容时差别较大,对相同产品的表述出现多种不同版本,描述杂乱,存在难复用的问题,导致生成标书的效率较低。
为了解决上述技术问题,本发明实施例通过对历史标书进行处理获得预存标书数据库,根据目标标题和目标标签对预存标书数据库进行检索,获得目标标题对应的若干个待选标题以及正文和标签,并根据待选标题以及正文生成标书,实现了自动化制作标书的目的,提高了生成标书的效率。
图1为本发明实施例提供的标书生成方法的应用场景示意图,如图1所示,本发明实施例提供的标书生成方法的应用场景中包括终端10和服务器20。具体的,终端10可以为平板电脑、计算机、笔记本电脑等,其可以通过本地网、广域网、无线局域网或其他网络与显示服务器20之间进行数据通信,终端10用于接收用户输入的待生成标书的关键信息,根据关键信息生成标书生成请求,并将标书生成请求发送至服务器20,使得服务器20可执行本发明实施例提供的标书生成方法,根据预存的标书数据库生成标书,实现了自动化获得标书的目的吗,提高了生成标书的效率。
图2为本发明实施例提供的标书生成方法流程图一。其中,本实施例的执行主体可以为图1的服务器。如图2所示,本实施例提供的标书生成方法包括以下步骤:
S201:接收终端发送的标书生成请求,标书生成请求中包含待生成标书的N个目标标题、N个目标标题的顺序以及目标标签,其中N为正整数。
在本发明实施例中,用户通过终端输入生成标书的N个目标标题、N个目标标题的顺序以及目标标签,终端根据N个目标标题、N个目标标题的顺序以及目标标签生成标书生成请求,并将标书生成请求发送至服务器。其中,终端根据用户输入的目标标题的顺序确定待生成标书的N个目标标题的顺序,N个目标标题顺序用于调整待生成标书的正文顺序。
S202:响应于所述标书生成请求,从预存标书数据库获取每个目标标题对应的若干个待选标题、以及每个待选标题对应的正文和标签,所述预存标书数据库中存储有通用标题集、非通用标题集以及标签集合。
在本发明实施例中,服务器在生成标书之前,已经根据数据库中存储的历史标书生成了预存标书数据库其中,预存标书数据库中存储有通用标题集、非通用标题集以及标签集合。服务器根据多个目标标题和目标标签对预存标书数据库进行检索,获得每个目标标题对应的若干个待选标题以及每个待选标题对应的正文和标签。示例性的,待生成的标书为施工单位的采购标书,则目标标题可以为采购行业名称、项目名称、采购产品名称等与标书的应用相关的关键标题,目标标签可以为采购产品名称等与标书的具体内容相关的名称和关键字。
S203:确定每个目标标题与对应的所有待选标题与之间的相似度,并对获得的所有相似度进行排序,获得所述目标标题对应的有序待选标题集合,由此获得所有目标标题的有序待选标题集合,根据预存标书数据库中的通用标题集、非通用标题集、标签集合以及目标标签对每个待选标题进行筛选,并根据每个待选标题的相似度确定每个目标标题的正文。
在本发明实施例中,计算所有待选标题与对应的目标标题之间的相似度具体的,计算每个待选标题对应的词向量以及目标标题的词向量,分别计算每个待选标题的词向量与目标标题的词向量的余弦相似度,并根据词向量的最大余弦相似度计算每个待选标题与对应的目标标题之间的相似度。根据每个待选标题与对应的目标标题之间的相似度进行排序,从高到低获得该目标标题对应的有序待选标题集合,由此可获得所有的目标标题的有序待选标题集合。通过对有序待选标题集合中每个待选标题对应的正文进行筛选和排序,则可生成标书。根据标书数据库依次对每个待选标题、每个待选标题对应的标签以及每个待选标题的相似度进行筛选,确定每个目标标题的正文。具体的,首先根据预存标书数据库筛选通用标题和非通用标题,再根据相似度确定所有待选标题对应的正文的顺序。
示例性的,当所述待选标题为通用标题且所述待选标题是没有标签的,若相似度大于第一预设阈值时,则将所述待选标题作为所述目标标题的选定标题;对所述目标标题对应的所有选定标题的正文进行融合处理,获得所述目标标题对应的正文。
在本发明实施例中,若待选标题为通用标题,则说明当前待选标题为预存标书数据库中出现频率较高的标题,应用范围较广。若该待选标题是没有标签的、且待选标题的相似度大于第一预设阈值时,则该待选标题对应的正文可作为对应的目标标题的正文来源,将待选标题作为目标标题的选定标题,可将目标标题对应的所有选定标题的正文进行融合获得章节正文。具体的,可将所有选定标题的正文进行罗列,或者文本以句子进行分解后去重获得章节正文,示例性的,还可以选用内容最完整的选定标题的正文作为目标标题的正文来源。
示例性的,当所述待选标题为通用标题且所述待选标题带有标签,相似度大于第二预设阈值时,则将所述待选标题作为所述目标标题的暂定标题;计算所述目标标题对应的所有暂定标题对应的标签与目标标签之间的相似度,根据所有暂定标题的相似度进行排序获得第一有序选定标题集合,并根据所述第一有序选定标题集合中所有待选标题对应的正文,对所述目标标题对应的所有待选标题的正文进行融合处理。
在本发明实施例中,若待选标题为通用标题,则说明当前待选标题为预存标书数据库中出现频率较高的标题,应用范围较广。若该待选标题带有标签时,将所述待选标题作为所述目标标题的暂定标题。计算目标标题对应的所有暂定标题对应的标签与目标标签之间的相似度,具体的,计算每个暂定标题对应的标签对应的词向量以及目标标签的词向量,分别计算每个暂定标题对应的标签的词向量与目标标签的词向量的余弦相似度,并根据词向量的最大余弦相似度计算每个暂定标题对应的标签与对应的目标标签之间的相似度。根据所有暂定标题的相似度进行排序获得第一有序选定标题集合,并根据第一有序选定标题集合中所有待选标题对应的正文、按顺序生成目标标题对应的正文。
示例性的,若待选标题为非通用标题且待选标题的相似度大于第三预设阈值时,计算每个待选标题与每个目标标题之间的字面相似度和语义相似度,并将每个待选标题的字面相似度和语义相似度按照权重进行融合,确定每个待选标题的融合相似度;将融合相似度大于第四预设阈值的所有待选标题作为第二选定标题集合,并将第二选定标题集合中的所有待选标题按照融合相似度进行排序获得第二有序选定标题集合,并根据第二有序选定标题集合中所有待选标题对应的正文、按顺序生成目标标题对应的正文。
在本发明实施例中,若待选标题为非通用标题,且待选标题的相似度大于第三预设阈值时。说明当前的待选标题与目标标题之间的差别较大。计算每个待选标题与每个目标标题之间的字面相似度和语义相似度,并将每个待选标题的字面相似度和语义相似度按照权重进行融合,确定每个待选标题的融合相似度。将融合相似度大于第四预设阈值的所有待选标题作为第二选定标题集合,并将第二选定标题集合中的所有待选标题按照融合相似度进行排序获得第二有序选定标题集合,并根据第二有序选定标题集合中所有待选标题对应的正文、按顺序生成目标标题对应的正文。
S204:将所有目标标题的正文按照N个目标标题的顺序生成标书,并将生成后的标书发送至终端。
从上述实施例可知,通过利用目标标题和目标标签对预存标书数据库进行检索,获得目标标题对应的若干个待选标题以及正文和标签,并根据待选标题以及正文生成标书,实现了自动化制作标书的目的,提高了生成标书的效率。
图3为本发明实施例提供的标书生成方法流程图二。如图3所示,在本发明实施例中预存标书数据库的获得过程包括以下步骤:
S301:对数据库中存储的所有标书进行数据清洗,获得所有标书的关键内容,并对所有标书的关键内容进行结构化处理,获得M个标题以及每个标题对应的正文和标签,M为正整数。
在本步骤中,首先对数据库中存储的所有标书进行数据清洗。具体的,过滤掉历史标书中的如,的、地、得等虚词,以及组织名、地点名、人名、网站名等无关名称,获得所有标书的关键内容。通过对所有标书的关键内容进行结构化处理,获得标书中的多个文本,并对文本的标题和标签进行处理,h获得多个标题以及每个标题对应的正文和标签。其中,标签是通过收集历史标书中使用到的高频关键字,例如用户词典信息等,将所有的高频关键字作为标签,通过标签可实现对历史标书中的内容进行初步识别,还可根据标签对历史标书中的内容进行分词和归类。
S302:根据类别数对所述M个标题进行文本聚类,其中所述类别数为预设关键字属性集合的个数,所述预设关键词属性集合包含标签关键词和标书关键字。
在本发明实施例中,将包含的标题数量大于或者等于预设阈值的同类别标题集合设定为待选通用标题集合。将包含的标题数量大于或者等于预设阈值的同类别标题集合设定为待选通用标题集合R={r1,r2,...,rn},提取每个r标题对应正文的摘要信息,进行在集合R中进行语义相似度计算,当r与集合中K个元素的正文摘要相似度都大于阈值T时,认为r可以放入最终集合R’中,否则将r剔除。最终得到一个标题和内容都有相同语义的集合R’,选中其中最短的标题作为R’的归一化标题。
S303:接收终端发送的X个同类别标题集合,以及每个同类别标题集合对应的标签集合,将包含的标题数量大于或者等于预设阈值的同类别标题集合设定为待选通用标题集合,并将所述通用标题集合中包含的所有标题设定为通用标题,将包含的标题数量小于预设阈值的同类别标题集合设定为非通用标题集合,并将所述非通用标题集合中包含的所有标题设定为非通用标题,X为正整数。
在本发明实施例中,服务器接收终端返回的多个同类别标题集合,还包括每个同类别标题集合对应的标签集合。将包含的标题数量大于或者等于预设阈值的同类别标题集合设定为待选通用标题集合,并将所述通用标题集合中包含的所有标题设定为通用标题,将包含的标题数量小于预设阈值的同类别标题集合设定为非通用标题集合,并将所述非通用标题集合中包含的所有标题设定为非通用标题,X为正整数。具体的,通过将包含的标题数量大于或者等于预设阈值的同类别标题集合设定为通用标题集合,并将通用标题集合中包含的所有标题设定为通用标题。还将包含的标题数量小于预设阈值的同类别标题集合设定为非通用标题集合,并将非通用标题集合中包含的所有标题设定为非通用标题。
S304:根据同类别标题集合对应的标签集合确定所有通用标题的标签,并根据同类别标题集合对应的标签集合确定所有非通用标题的标签,将所有通用标题、每个通用标题对应的正文以及标签进行存储,以及将所有非通用标题、每个非通用标题对应的正文以及标签进行存储获得预存标书数据库。
从上述实施例可知,通过对数据库中存储的历史标书进行处理,获得了存储了所有通用标题以及每个通用标题对应的标签,以及所有非通用标题以及每个非通用标题对应的标签,通过利用预存标书数据库筛选通用标题和非通用标题,再根据相似度确定所有待选标题对应的正文的顺序,并将所有目标标题的正文按照N个目标标题的顺序生成标书,实现了自动生成标书的目的,提高了生成标书的效率。
图4为本发明实施例提供的标书生成装置的结构示意图。如图4所示,该标书生成装置包括:接收模块401,用于接收终端发送的标书生成请求,所述标书生成请求中包含待生成标书的N个目标标题、所述N个目标标题的顺序以及目标标签,其中N为正整数;获取模块402,用于响应于所述标书生成请求,从预存标书数据库获取每个目标标题对应的若干个待选标题、以及每个待选标题对应的正文和标签,所述预存标书数据库中存储有通用标题集、非通用标题集以及标签集合;确定模块403,用于确定每个目标标题与对应的所有待选标题与之间的相似度,并对获得的所有相似度进行排序,获得所述目标标题对应的有序待选标题集合,由此获得所有目标标题的有序待选标题集合,根据预存标书数据库中的通用标题集、非通用标题集、标签集合以及目标标签对每个待选标题进行筛选,并根据每个待选标题的相似度确定每个目标标题的正文;生成模块404,用于将所有目标标题的正文按照N个目标标题的顺序生成标书,并将生成后的标书发送至所述终端。
在本实施例中,该标书生成装置可以采用上述实施例所述的方法,其技术方案及其技术效果相类似,此处不在赘述。
图5为本发明实施例提供的服务器的硬件结构示意图。如图5所示,本实施例的服务器包括:处理器501以及存储器502;其中
存储器502,用于存储计算机执行指令;
处理器501,用于执行存储器存储的计算机执行指令,以实现上述实施例中服务器所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。
可选地,存储器502既可以是独立的,也可以跟处理器501集成在一起。
当存储器502独立设置时,该服务器还包括总线503,用于连接所述存储器502和处理器501。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的标书生成方法。
本发明实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现如上所述的标书生成方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案。另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(Central Processing Unit,简称CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,简称ISA)总线、外部设备互连(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (9)
1.一种标书生成方法,其特征在于,包括:
接收终端发送的标书生成请求,所述标书生成请求中包含待生成标书的N个目标标题、所述N个目标标题的顺序以及目标标签,其中N为正整数;
响应于所述标书生成请求,从预存标书数据库获取每个目标标题对应的若干个待选标题、以及每个待选标题对应的正文和标签,所述预存标书数据库中存储有通用标题集、非通用标题集以及标签集合;
确定每个目标标题与对应的所有待选标题与之间的相似度,并对获得的所有相似度进行排序,获得所述目标标题对应的有序待选标题集合,由此获得所有目标标题的有序待选标题集合,根据预存标书数据库中的通用标题集、非通用标题集、标签集合以及目标标签对每个待选标题进行筛选,并根据每个待选标题的相似度确定每个目标标题的正文;
将所有目标标题的正文按照N个目标标题的顺序生成标书,并将生成后的标书发送至所述终端。
2.根据权利要求1所述的方法,其特征在于,所述预存标书数据库的获得过程,包括:
对数据库中存储的所有标书进行数据清洗,获得所有标书的关键内容,并对所述所有标书的关键内容进行结构化处理,获得M个标题以及每个标题对应的正文和标签,M为正整数;
根据类别数对所述M个标题进行文本聚类,其中所述类别数为预设关键字属性集合的个数,所述预设关键字属性集合包含标签关键词和标书关键字;
接收终端发送的X个同类别标题集合,以及每个同类别标题集合对应的标签集合,将包含的标题数量大于或者等于预设阈值的同类别标题集合设定为通用标题集合,并将所述通用标题集合中包含的所有标题设定为通用标题,将包含的标题数量小于预设阈值的同类别标题集合设定为非通用标题集合,并将所述非通用标题集合中包含的所有标题设定为非通用标题,X为正整数;
根据同类别标题集合对应的标签集合确定所有通用标题的标签,并根据同类别标题集合对应的标签集合确定所有非通用标题的标签,将所有通用标题、每个通用标题对应的正文以及标签进行存储,以及将所有非通用标题、每个非通用标题对应的正文以及标签进行存储获得预存标书数据库。
3.根据权利要求1所述的方法,其特征在于,所述根据预存标书数据库中的通用标题集、非通用标题集、标签集合以及目标标签对每个待选标题进行筛选,并根据每个待选标题的相似度确定每个目标标题的正文,包括:
当所述待选标题为通用标题且所述待选标题是没有标签的,若相似度大于第一预设阈值时,则将所述待选标题作为所述目标标题的选定标题;
对所述目标标题对应的所有选定标题的正文进行融合处理,获得所述目标标题对应的正文。
4.根据权利要求1所述的方法,其特征在于,所述根据预存标书数据库中的通用标题集、非通用标题集、标签集合以及目标标签对每个待选标题进行筛选,并根据每个待选标题的相似度确定每个目标标题的正文,包括:
当所述待选标题为通用标题且所述待选标题带有标签,相似度大于第二预设阈值时,则将所述待选标题作为所述目标标题的暂定标题;
计算所述目标标题对应的所有暂定标题对应的标签与目标标签之间的相似度,根据所有暂定标题的相似度进行排序获得第一有序选定标题集合,并根据所述第一有序选定标题集合中所有待选标题对应的正文,对所述目标标题对应的所有待选标题的正文进行融合处理。
5.根据权利要求1所述的方法,其特征在于,所述根据预存标书数据库中的通用标题集、非通用标题集、标签集合以及目标标签对每个待选标题进行筛选,并根据每个待选标题的相似度确定每个目标标题的正文,包括:
若所述待选标题为非通用标题且所述待选标题的相似度大于第三预设阈值时,计算每个待选标题与每个目标标题之间的字面相似度,并将每个待选标题的字面相似度和语义相似度按照权重进行融合,确定每个待选标题的融合相似度;
将所述融合相似度大于第四预设阈值的所有待选标题作为第二选定标题集合,并将所述第二选定标题集合中的所有待选标题按照融合相似度进行排序获得第二有序选定标题集合,并根据所述第二有序选定标题集合中最优待选标题对应的正文、按顺序生成所述目标标题对应的正文,其中所述最优待选标题为所有待选标题中的第一顺位标题。
6.根据权利要求3所述的方法,其特征在于,所述对所述目标标题对应的所有选定标题的正文进行融合处理,获得所述目标标题对应的正文,包括:
将所有选定标题的正文进行罗列,获得所述目标标题对应的正文;
或,
将所有选定标题的正文以句子进行分解后去重,并根据去重后的文本获得所述目标标题对应的正文;
或,
将字数最多的选定标题的正文作为所述目标标题对应的正文。
7.一种标书生成装置,其特征在于,包括:
接收模块,用于接收终端发送的标书生成请求,所述标书生成请求中包含待生成标书的N个目标标题、所述N个目标标题的顺序以及目标标签,其中N为正整数;
获取模块,用于响应于所述标书生成请求,从预存标书数据库获取每个目标标题对应的若干个待选标题、以及每个待选标题对应的正文和标签,所述预存标书数据库中存储有通用标题集、非通用标题集以及标签集合;
确定模块,用于确定每个目标标题与对应的所有待选标题与之间的相似度,并对获得的所有相似度进行排序,获得所述目标标题对应的有序待选标题集合,由此获得所有目标标题的有序待选标题集合,根据预存标书数据库中的通用标题集、非通用标题集、标签集合以及目标标签对每个待选标题进行筛选,并根据每个待选标题的相似度确定每个目标标题的正文;
生成模块,用于将所有目标标题的正文按照N个目标标题的顺序生成标书,并将生成后的标书发送至所述终端。
8.一种服务器,其特征在于,包括存储器和至少一个处理器;
所述存储器用于存储计算机执行指令;
至少一个处理器,用于执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至6任一项所述的标书生成方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至6任一项所述的标书生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111130383.0A CN113836906B (zh) | 2021-09-26 | 2021-09-26 | 标书生成方法、装置及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111130383.0A CN113836906B (zh) | 2021-09-26 | 2021-09-26 | 标书生成方法、装置及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113836906A CN113836906A (zh) | 2021-12-24 |
CN113836906B true CN113836906B (zh) | 2023-06-06 |
Family
ID=78970477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111130383.0A Active CN113836906B (zh) | 2021-09-26 | 2021-09-26 | 标书生成方法、装置及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113836906B (zh) |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1940981A (zh) * | 2006-08-14 | 2007-04-04 | 北京金润方舟软件科技有限公司 | 电子标书的制作装置和方法、应用系统和方法 |
CN108491371A (zh) * | 2018-03-27 | 2018-09-04 | 四川国际招标有限责任公司 | 一种招标文件编制管理系统 |
WO2018201199A1 (en) * | 2017-05-05 | 2018-11-08 | Bizcaps Pty Ltd | Tender management system |
CN108984508A (zh) * | 2018-08-27 | 2018-12-11 | 成都行行行科技有限公司 | 标书生成方法与装置 |
CN109062881A (zh) * | 2018-07-11 | 2018-12-21 | 政采云有限公司 | 采购招标文件制作方法和系统 |
CN109635262A (zh) * | 2018-11-19 | 2019-04-16 | 广州普邦园林股份有限公司 | 标书自动生成管理方法及系统 |
CN110008458A (zh) * | 2019-04-11 | 2019-07-12 | 国网河北省电力有限公司物资分公司 | 电力招投标文件的结构化编制方法 |
CN110232177A (zh) * | 2019-05-23 | 2019-09-13 | 广东鼎义互联科技股份有限公司 | 一种政务领域的标书生成系统及方法 |
CN110516037A (zh) * | 2019-07-29 | 2019-11-29 | 广东鼎义互联科技股份有限公司 | 一种政务领域的招标文件分析系统 |
CN112328555A (zh) * | 2020-11-25 | 2021-02-05 | 国网重庆招标有限公司 | 一种招标文件的快速生成方法 |
CN112488593A (zh) * | 2020-12-24 | 2021-03-12 | 深圳供电局有限公司 | 一种用于招标的辅助评标系统及方法 |
CN112560444A (zh) * | 2019-09-26 | 2021-03-26 | 北京国双科技有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN112613285A (zh) * | 2020-12-21 | 2021-04-06 | 红塔烟草(集团)有限责任公司 | 一种基于分区域处理的招标文件审查分析方法 |
CN112632228A (zh) * | 2020-12-30 | 2021-04-09 | 深圳供电局有限公司 | 一种基于文本挖掘的辅助评标方法及系统 |
CN112651218A (zh) * | 2020-12-31 | 2021-04-13 | 盘锦丙衡商务服务有限公司 | 一种标书自动生成方法、管理方法、介质以及计算机 |
CN112988393A (zh) * | 2021-04-12 | 2021-06-18 | 政采云有限公司 | 一种标书解析方法、系统、装置、设备及存储介质 |
CN113158946A (zh) * | 2021-04-29 | 2021-07-23 | 南方电网深圳数字电网研究院有限公司 | 一种标书结构化处理方法及系统 |
CN113312893A (zh) * | 2021-06-17 | 2021-08-27 | 中冶地集团西北岩土工程有限公司 | 一种企业标书制作辅助方法、装置、设备及系统 |
CN113326413A (zh) * | 2021-05-11 | 2021-08-31 | 世舶科技(武汉)有限公司 | 一种网页信息提取方法、系统、服务器及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080270214A1 (en) * | 2004-06-18 | 2008-10-30 | Bid Management International Pty Ltd. | System and Process for Managing the Preparation of a Bid Document in Response to a Tender |
-
2021
- 2021-09-26 CN CN202111130383.0A patent/CN113836906B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1940981A (zh) * | 2006-08-14 | 2007-04-04 | 北京金润方舟软件科技有限公司 | 电子标书的制作装置和方法、应用系统和方法 |
WO2018201199A1 (en) * | 2017-05-05 | 2018-11-08 | Bizcaps Pty Ltd | Tender management system |
CN108491371A (zh) * | 2018-03-27 | 2018-09-04 | 四川国际招标有限责任公司 | 一种招标文件编制管理系统 |
CN109062881A (zh) * | 2018-07-11 | 2018-12-21 | 政采云有限公司 | 采购招标文件制作方法和系统 |
CN108984508A (zh) * | 2018-08-27 | 2018-12-11 | 成都行行行科技有限公司 | 标书生成方法与装置 |
CN109635262A (zh) * | 2018-11-19 | 2019-04-16 | 广州普邦园林股份有限公司 | 标书自动生成管理方法及系统 |
CN110008458A (zh) * | 2019-04-11 | 2019-07-12 | 国网河北省电力有限公司物资分公司 | 电力招投标文件的结构化编制方法 |
CN110232177A (zh) * | 2019-05-23 | 2019-09-13 | 广东鼎义互联科技股份有限公司 | 一种政务领域的标书生成系统及方法 |
CN110516037A (zh) * | 2019-07-29 | 2019-11-29 | 广东鼎义互联科技股份有限公司 | 一种政务领域的招标文件分析系统 |
CN112560444A (zh) * | 2019-09-26 | 2021-03-26 | 北京国双科技有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN112328555A (zh) * | 2020-11-25 | 2021-02-05 | 国网重庆招标有限公司 | 一种招标文件的快速生成方法 |
CN112613285A (zh) * | 2020-12-21 | 2021-04-06 | 红塔烟草(集团)有限责任公司 | 一种基于分区域处理的招标文件审查分析方法 |
CN112488593A (zh) * | 2020-12-24 | 2021-03-12 | 深圳供电局有限公司 | 一种用于招标的辅助评标系统及方法 |
CN112632228A (zh) * | 2020-12-30 | 2021-04-09 | 深圳供电局有限公司 | 一种基于文本挖掘的辅助评标方法及系统 |
CN112651218A (zh) * | 2020-12-31 | 2021-04-13 | 盘锦丙衡商务服务有限公司 | 一种标书自动生成方法、管理方法、介质以及计算机 |
CN112988393A (zh) * | 2021-04-12 | 2021-06-18 | 政采云有限公司 | 一种标书解析方法、系统、装置、设备及存储介质 |
CN113158946A (zh) * | 2021-04-29 | 2021-07-23 | 南方电网深圳数字电网研究院有限公司 | 一种标书结构化处理方法及系统 |
CN113326413A (zh) * | 2021-05-11 | 2021-08-31 | 世舶科技(武汉)有限公司 | 一种网页信息提取方法、系统、服务器及存储介质 |
CN113312893A (zh) * | 2021-06-17 | 2021-08-27 | 中冶地集团西北岩土工程有限公司 | 一种企业标书制作辅助方法、装置、设备及系统 |
Non-Patent Citations (3)
Title |
---|
基于B/S工程项目投标自动生成系统;孟丽君;《中国优秀硕士学位论文全文数据库信息科技辑》(第3期);I138-410 * |
基于分类分级管控的建筑项目标书编制方法研究;范桂玲;《铁道建筑技术》(第7期);178-182 * |
技术标书辅助生成软件研究;刘东辉 等;《中国石油和化工标准与质量》;第40卷(第5期);3-6 * |
Also Published As
Publication number | Publication date |
---|---|
CN113836906A (zh) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108399228B (zh) | 文章分类方法、装置、计算机设备及存储介质 | |
CN107704512B (zh) | 基于社交数据的金融产品推荐方法、电子装置及介质 | |
RU2613846C2 (ru) | Метод и система извлечения данных из изображений слабоструктурированных документов | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CN108776901B (zh) | 基于搜索词的广告推荐方法及系统 | |
US20220342950A1 (en) | System and method for searching based on text blocks and associated search operators | |
CN109902090B (zh) | 字段名称获取方法和装置 | |
CN111046221A (zh) | 歌曲推荐方法、装置、终端设备以及存储介质 | |
CN104636429A (zh) | 商标类别检索方法和装置 | |
CN113449187A (zh) | 基于双画像的产品推荐方法、装置、设备及存储介质 | |
CN112988784B (zh) | 数据查询方法、查询语句生成方法及其装置 | |
CN114911917A (zh) | 资产元信息搜索方法、装置、计算机设备及可读存储介质 | |
CN111191454A (zh) | 一种实体匹配的方法及装置 | |
CN116719997A (zh) | 政策信息推送方法、装置及电子设备 | |
CN115858773A (zh) | 适用于长文档的关键词挖掘方法、装置及介质 | |
CN111898378B (zh) | 政企客户的行业分类方法和装置、电子设备、存储介质 | |
CN113836906B (zh) | 标书生成方法、装置及服务器 | |
CN112748811A (zh) | 一种英文单词输入方法及装置 | |
CN108595498B (zh) | 问题反馈方法及装置 | |
CN111401056A (zh) | 一种从多类文本中提取关键词的方法 | |
CN116450664A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN112487181A (zh) | 关键词确定方法和相关设备 | |
CN115292478A (zh) | 一种推荐搜索内容的方法、装置、设备和存储介质 | |
CN107577667B (zh) | 一种实体词处理方法和装置 | |
CN115687756A (zh) | 一种搜索推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |