CN112182148B

CN112182148B - 一种基于全文检索的标准辅助编写方法

Info

Publication number: CN112182148B
Application number: CN202010957820.5A
Authority: CN
Inventors: 段文华; 耿兴雨; 王艳; 胡刚; 杨前伟
Original assignee: Shanxi Heyao Technology Co ltd
Current assignee: Shanxi Heyao Technology Co ltd
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2023-08-25
Anticipated expiration: 2040-09-14
Also published as: CN112182148A

Abstract

本发明提供了一种基于全文检索的标准辅助编写方法，包括：基于标准信息库，构建搜索引擎；输入关键词条，并基于搜索引擎对标准信息库进行全文检索，获得与关键词条相关的关联集合；将关联集合解析到辅助编辑工具中，并按照标准生成规则，检索与关联集合中的关键词条相关的标准信息；基于标准信息，编写标准草案。用以通过集成标准信息库、全文检索技术、标准草案辅助编写于一体，可有效提高编写效率，保证编写的准确性和完整性。

Description

一种基于全文检索的标准辅助编写方法

技术领域

本发明涉及计算机技术领域，特别涉及一种基于全文检索的标准辅助编写方法。

背景技术

在起草文件的过程中，很多时候都是通过人为对以前编写的文书进行参考，提取其中的关键信息，或者是从其他地方获取关键信息等构成起草文件，但是，根据人为提取的关键信息来起草文件，无疑会浪费大量的时间，而且，在提取过程中，由于严重依赖人为判断，不能保证提取的信息的准确性和完整性，虽然也存在一些可以检索的平台，但是在检索过程中，一般只出现与关键词条相关的文件，后续需要人为去一篇篇筛选，降低起草效率。

因此，本发明提供了一种基于全文检索的标准辅助编写方法。

发明内容

本发明提供一种基于全文检索的标准辅助编写方法，用以通过集成标准信息库、全文检索技术、标准草案辅助编写于一体，可有效提高编写效率，保证编写的准确性和完整性。

本发明提供一种基于全文检索的标准辅助编写方法，包括：

基于标准信息库，构建搜索引擎；

输入关键词条，并基于所述搜索引擎对所述标准信息库进行全文检索，获得与所述关键词条相关的关联集合；

将所述关联集合解析到辅助编辑工具中，并按照标准生成规则，检索与所述关联集合中的关键词条相关的标准信息；

基于所述标准信息，编写标准草案。

在一种可能实现的方式中，

基于标准信息库，构建搜索引擎的过程中包括：

从目标数据源中搜索并获取符合预设标准条件的原始文档；

将所述原始文档从当前格式统一转换为标准格式；

采用集成分词器，对转换为标准格式的原始文档的预设字段进行分词，建立对应所述原始文档的索引，进而构建成搜索引擎。

在一种可能实现的方式中，

将所述原始文档从当前格式统一转换为标准格式的过程中包括：

判断所述原始文档的当前格式；

若所述当前格式为第一类格式，基于文档转换技术将所述第一类格式转换为标准格式；

若所述当前格式为第二类格式，基于智能识别技术将所述第二类格式转换为标准格式。

在一种可能实现的方式中，

所述预设字段包括但不限于文档名称、文档标准号、文档摘要、文档正文、文档所属类别中的任一项或多项。

在一种可能实现的方式中，

基于所述搜索引擎对所述标准信息库进行全文检索，获得与所述关键词条相关的关联集合的过程中包括：

基于所述搜索引擎，从标准信息库中检索与所述关键词条相关的匹配信息，并将检索出的所有匹配信息进行关联度排名；

根据关联度排名结果，筛选前N个匹配信息，构成关联集合。

在一种可能实现的方式中，

按照标准生成规则，检索与所述关联集合中的关键词条相关的标准信息的过程中包括：

基于所述辅助编辑工具，并按照文件的结构和起草规则，对待编写草案进行标准要素的设置；

建立所述标准要素与所述关键词条之间的检索关系；

基于所述检索关系，检索到与所述关键词条相关的标准信息；

同时，所述待编写草案基于检索到的标准信息，形成标准草案。

在一种可能实现的方式中，

基于所述搜索引擎检索与所述关键词条相关的关联集合的过程中还包括：对所述关键词条的进行优化处理，其优化处理过程包括：

确定待编写草案的草案类型，并根据所述草案类型分析所述待编写草案的待编写信息，同时，根据所述待编写信息，获得目标类词；

获取用户输入的关键词条，并确定所述关键词条的词条数目；

当所述词条数目为一个时，建立所述关键词条与目标类词之间的第一关联关系；

同时，爬取历史搜索记录数据库，并建立所述关键词条与历史搜索词条之间的第二关联关系；

基于所述第一关联关系和第二关联关系，判断是否需要对所述关键词条进行替换修改；

若需要，基于预先构建的关键词结构树，获得第一替换词条，比较所述第一替换词条与所述关键词条之间的文字相似个数，若文字相似个数大于文字不相似个数，则修改所述关键词条中的待替换文字，获得新的关键词条，同时，检索与所述新的关键词条相关的匹配信息；

若文字相似个数小于或等于文字不相似个数，则替换所述关键词条为第一替换词条，此时，检索与所述第一替换词条相关的匹配信息；

否则，保留所述关键词条，并检索与所述关键词条相关的匹配信息；

当所述词条数目为多个时，建立每个关键词条分别与目标类词之间的第三关联关系、每个关键词条与每个关键词条之间的第四关联关系、所有关键词条与目标类词之间的第五关联关系；

根据所述第三关联关系、第四关联关系、第五关联关系，是否需要对输入的关键词条进行修改；

若需要，从输入的多个关键词条中抽取需要替换的关键词条和不需要替换的关键词条，并从预先构建的关键词结构树中，获取与不需要替换的词条以及目标类词相关的第二替换词条；

并将所述需要替换的关键词条替换为对应的第二替换词条，并检索与所述第二替换词条相关的匹配信息；

否则，保留所述关键词条，并检索与所述关键词条相关的匹配信息。

在一种可能实现的方式中，

按照标准生成规则，检索与所述关联集合中的关键词条相关的标准信息的过程中，还包括：按照标准生成规则，生成标准文档框架，其生成过程包括：

采集用户的目标信息；

对所述目标信息进行拆分解析，构建所述用户的意图集合W＝{w_j,j＝1,2,3,...,m}，其中，m表示所述用户的意图数量；w_j表示所述用户的第j个意图的意图值；

根据所述用户的意图集合，从预先建立的框架数据库中，调取与所述意图集合相关的文档框架模型；

获取所述关键词条，并提取所述关键词条的词条属性，且所述关键词条的词条数目为n个，且n大于或等于1；

将所述词条属性一一输入到所述文档框架模型中，并计算所述词条属性与所述文档框架模型的契合度F1；

其中，s_i表示第i个词条属性对应的属性值；g_iid表示第i个词条属性对应的词条在所述文档框架模型中的所处位置id处时，与所述文档框架模型的契合因子，且取值范围为[-0.15,0.21]；e表示常数，取值为2.72；

当所述契合度F1大于或等于预设度时，保留所述文档框架模型；

当所述契合度F1低于预设度时，从所述词条属性中筛选对应的待调整词条，通过对所述待调整词条进行词条分析，获得已调整词条；

计算所述已调整词条与所述文档框架模型的契合度F2；

其中，s′表示所述已调整词条的对应的词条属性的属性值；g_id表示所述已调整词条在所述文档框架模型中的所处位置id处时，与所述文档框架模型的契合因子，且取值范围为[-0.10,0.18]；δ′表示所述已调整词条在所述文档框架模型中的所处位置id的位置权重值；

若所述契合度F2仍小于预设度，获取所述待调整词条在所述文档框架模型中的原始模型层，并对所述文档框架模型中的原始模型层中的可调整参数进行调整处理，获得新的模型层；

当所有待调整词条对应的原始模型层都调整处理后，获得新的文档框架模型，并保留。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于全文检索的标准辅助编写方法的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供一种集成标准信息库、全文检索技术、标准草案辅助编写于一体的系统建设方法。技术采用solr(独立的企业级搜索应用服务器)实现全文检索，快速匹配与关键词条相关度较高的标准文本，抓取关键内容，通过标准辅助编写系统，可以人为筛选检索结果或自动筛选检索结果，并按照GB/T 1.1-2020《标准化工作导则第1部分：标准化文件的结构和起草规则》，辅助生成标准草案，并标明规范性引用或参考文献。

本发明提供一种基于全文检索的标准辅助编写方法，如图1所示，包括：

步骤1：基于标准信息库，构建搜索引擎；

步骤2：输入关键词条，并基于所述搜索引擎对所述标准信息库进行全文检索，获得与所述关键词条相关的关联集合；

步骤3：将所述关联集合解析到辅助编辑工具中，并按照标准生成规则，检索与所述关联集合中的关键词条相关的标准信息；

步骤4：基于所述标准信息，编写标准草案。

该实施例中，构建一个基于标准信息库的搜索引擎包括：

信息采集：从数据库、文件系统等数据源获取需要搜索的标准的原始文档。

文档转换：通过POI、iText等技术将pdf、xls、doc、图片等格式的原始文档转换成文本格式，用于建立索引文档。

图像识别：通过OCR技术将标准文档的图形文档转换成文本格式。

创建索引：采用集成IK分词器，对原始文档的名称、标准号、摘要、正文、所属类别等字段进行分词，建立索引。

该实施例中，基于标准信息库全文检索包括：

在搜索框输入关键词条进行全文检索，将数据库中与关键词匹配程度较高的内容计算出排名等级，按顺序将信息返回，并将关联度较高的内容解析到辅助编辑工具中。

该实施例中，辅助编辑工具用于：

标准辅助编辑工具采用C#及Java开发技术，按照GB/T 1.1-2020《标准化工作导则第1部分：标准化文件的结构和起草规则》对标准要素进行设置，采用word或wps编辑器，对标准文档的结构、格式进行预生成。每个标准要素下对应关键词条检索功能，检索到与关键词条匹配度较高的标准信息，可查看标准文本的全部内容，通过人为筛选引用或自动筛选，形成标准草案。

上述技术方案的有益效果是：用以通过集成标准信息库、全文检索技术、标准草案辅助编写于一体，可有效提高编写效率，保证编写的准确性和完整性。

本发明提供一种基于全文检索的标准辅助编写方法，基于标准信息库，构建搜索引擎的过程中包括：

从目标数据源中搜索并获取符合预设标准条件的原始文档；

将所述原始文档从当前格式统一转换为标准格式；

该实施例中，原始文档是从数据库、文件系统等数据源获取到的。

该实施例中，从当前格式同一转化为标准格式，例如，是从图片格式转换为文本格式等。

该实施例中，预设字段包括但不限于文档名称、文档标准号、文档摘要、文档正文、文档所属类别中的任一项或多项。

该实施例中，预设标准条件，例如是编写与法律相关的文件，则预设标准条件为搜索的文档隶属于法律方面。

上述技术方案的有益效果是：通过获取符合预设标准条件的原始文档，便于为后续进行筛选，提高可靠基础，通过将格式统一转换，提高后续分词效率，通过分词，提高构建搜索引擎的功能完整性，且为后续编写标准草案提供基础。

本发明提供一种基于全文检索的标准辅助编写方法，将所述原始文档从当前格式统一转换为标准格式的过程中包括：

判断所述原始文档的当前格式；

该实施例中，当前格式，例如为pdf、xls、doc、图片等第一类格式，此时，通过文档转换技术，如通过POI、iText等技术将pdf、xls、doc、图片等格式的原始文档转换成文本格式，用于建立索引文档。

当前格式，例如为图像文档格式第二类格式，此时，通过智能识别技术，如OCR技术将标准文档的图形文档转换成文本格式，用于建立索引文档。

上述技术方案的有益效果是：通过对当前格式的判断，可以有效的按照对应的技术将其进行转换，提高转换效率，提高后续编写草案的效率。

本发明提供一种基于全文检索的标准辅助编写方法，基于所述搜索引擎对所述标准信息库进行全文检索，获得与所述关键词条相关的关联集合的过程中包括：

根据关联度排名结果，筛选前N个匹配信息，构成关联集合。

上述技术方案的有益效果是：通过对检索出的匹配信息进行筛选，可以提高编写效率。

本发明提供一种基于全文检索的标准辅助编写方法，按照标准生成规则，检索与所述关联集合中的关键词条相关的标准信息的过程中包括：

建立所述标准要素与所述关键词条之间的检索关系；

该实施例中，待编写草案即为要编写的标准草案。

该实施例中，对待编写草案进行标准要素的设置，例如，标准前言涉及到有关专利的说明。如果标准编制过程中已经识别出标准的某些技术内容涉及专利，标准的引言中应有如下内容“请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任”等的相关设置。

该实施例中，例如，输入的关键词条为“智能机器”，建立前沿与“智能机器”之间的检索关系，然后检索到的标准信息中，是前言中包括有“智能机器”相关信息的等。

上述技术方案的有益效果是：通过建立检索关系，便于更加精准的获取需要的内容信息，提高后续编写草案的效率。

本发明提供一种基于全文检索的标准辅助编写方法，基于所述搜索引擎检索与所述关键词条相关的关联集合的过程中还包括：对所述关键词条的进行优化处理，其优化处理过程包括：

该实施例中，草案类型，包括如，法律文件、专利文件、智能化论文文件等，待编写信息，如法律文件对应的待编写信息，包括：法条等信息，且获取的对应的目标类词是与法律相关的。

该实施例中，建立的第一关联关系、第二关联关系、第三关联关系、第四关联关系、第五关联关系是为了确定关键词条与其他词条之间的关联度，为了方便确定是否需要对关键词条进行修改替换。

上述技术方案的有益效果是：通过确定关键词条的词条数目，便于进行不同方式的自动检索，当词条数目为1时，通过建立第一关联关系以及第二关联关系，对关键词条进行替换修改，且通过对文字相似度的判断，便于提高对词条的修改效率，当词条数目为多个时，通过建立第三关联关系、第四关联关系以及第五关联关系，便于获取替换词条对其进行直接替换，保证关键词条的有效性，便于后续文件检索的高效性和准确性。

本发明提供一种基于全文检索的标准辅助编写方法，按照标准生成规则，检索与所述关联集合中的关键词条相关的标准信息的过程中，还包括：按照标准生成规则，生成标准文档框架，其生成过程包括：

采集用户的目标信息；

计算所述已调整词条与所述文档框架模型的契合度F2；

该实施例中，用户的目标信息，是用户的意图，比如，用户指定要获取与财产纠纷等相关的法律文件，此时，财产纠纷、法律文件即为用户意图。

该实施例中，文档框架模型可以是由多个模型层构成。

该实施例中，可调整参数，是指，模型层中设置的相关变量。

上述技术方案的有益效果是：由于不同的起草文件具有不同的文档框架，因此，首先通过用户意图，调取文档框架模型，其次，根据关键词条以及词条属性，确定与文档框架模型的契合度，当契合度小于预设度时，初次对对应的关键词条进行调整，通过再次计算调整后的词条的契合度，当契合度仍然小于预设度时，对待调整词条所在的原始模型层中的参数进行调整，获取新的模型，进而获取新的文本框架，便于为后续编写草案，提供匹配框架，提高效率。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于全文检索的标准辅助编写方法，其特征在于，包括：

基于标准信息库，构建搜索引擎；

基于所述标准信息，编写标准草案；

采集用户的目标信息；

计算所述已调整词条与所述文档框架模型的契合度F2；

2.如权利要求1所述的标准辅助编写方法，其特征在于，基于标准信息库，构建搜索引擎的过程中包括：

从目标数据源中搜索并获取符合预设标准条件的原始文档；

将所述原始文档从当前格式统一转换为标准格式；

3.如权利要求2所述的标准辅助编写方法，其特征在于，将所述原始文档从当前格式统一转换为标准格式的过程中包括：

判断所述原始文档的当前格式；

4.如权利要求2所述的标准辅助编写方法，其特征在于，所述预设字段包括但不限于文档名称、文档标准号、文档摘要、文档正文、文档所属类别中的任一项或多项。

5.如权利要求1所述的标准辅助编写方法，其特征在于，基于所述搜索引擎对所述标准信息库进行全文检索，获得与所述关键词条相关的关联集合的过程中包括：

根据关联度排名结果，筛选前N个匹配信息，构成关联集合。

6.如权利要求1所述的标准辅助编写方法，其特征在于，按照标准生成规则，检索与所述关联集合中的关键词条相关的标准信息的过程中包括：

建立所述标准要素与所述关键词条之间的检索关系；

7.如权利要求1所述的标准辅助编写方法，其特征在于，基于所述搜索引擎检索与所述关键词条相关的关联集合的过程中还包括：对所述关键词条的进行优化处理，其优化处理过程包括：