CN115293114B

CN115293114B - 一种基于目标期刊智能格式修订方法及装置

Info

Publication number: CN115293114B
Application number: CN202211219892.5A
Authority: CN
Inventors: 李志勇; 李可; 周凡吟; 吉方云
Original assignee: Chengdu Random Forest Technology Co ltd; Chengdu Southwest University Of Finance And Economics Jiaozi Financial Technology Innovation Institute Co ltd
Current assignee: Chengdu Random Forest Technology Co ltd; Chengdu Southwest University Of Finance And Economics Jiaozi Financial Technology Innovation Institute Co ltd
Priority date: 2022-10-08
Filing date: 2022-10-08
Publication date: 2023-01-10
Anticipated expiration: 2042-10-08
Also published as: CN115293114A

Abstract

本发明公开了一种基于目标期刊智能格式修订方法及装置，具体包括以下步骤：S1、获取用户上传的论文以及对应于论文的元信息；S2、将所述元信息输入最优期刊模型，获得最优期刊；S3、获取最优期刊的格式信息；S4、根据所述最优期刊的格式信息修订用户上传的论文格式。本发明采用bm25算法根据用户输入的关键字/摘要/文章标题为用户椎荐与其文章相似度最高的期刊，收集库存内已有的每本期刊的官方投稿格式要求；根据向用户所推荐的期刊的官方要求，自动化修正用户的论文格式，从而节省了用户在不了解推荐的期刊格式的情况下，人工调整反复修订格式的过程，从而加快了用户论文的发表时间，提高了用户的工作效率，增加投稿成功率。

Description

一种基于目标期刊智能格式修订方法及装置

技术领域

本发明涉及数据分析领域，具体涉及一种基于目标期刊智能格式修订方法及装置。

背景技术

随着对于各类研究的细分，针对细分研究领域的学术期刊也随之增多，研究人员在进行学术论文的投稿时，往往需要从海量的学术期刊选择符合研究人员需求的学术期刊进行学术论文投稿，现有技术中研究人员通过选择学术领域，给出该学术领域的所有学术期刊，而具体的选择要靠研究人员的主观判断，若投递了一个不合适的学术期刊，可能会造成发表难度增加、发表时间延误、或影响力不足等后果。并且在获取到最优期刊的时候，还需要根据最优期刊的格式修订用户的论文格式，在自动化测试系统中，一般用内置的文本式的测试脚本来描述测试逻辑和预期结果。在上传论文的过程中，触发相应的软件动作，产生信号或条件，在特定的条件下获取系统反馈，与预期结果相比较，判断论文反馈是否符合预期，从而判定论文格式是否符合设计要求。但是手动修改格式且上传，需要用户的目的期刊的熟悉度比较高，难度大，且来回上传修订格式的人工检查的耗时较长，从而降低了工作的效率。

发明内容

本发明的目的在于提供一种基于目标期刊智能格式修订方法及装置，不同现有技术中的固定枚举计算相似度进而获得最优期刊格式，对输入的论文元信息进行加权计算相似度进而获得最优期刊格式用于自动化修正用户的论文格式，加权依赖于输入的字段长度，使得当输入给定的数据为空的时候，该条数据的权重占比为0，因此当实际应用中摘要通常长于标题，而通过对过往的人为论文推荐来看，摘要本身也需要更高的权重，因此用这种方式可以更贴近现实和实际场景。

一种基于目标期刊智能格式修订方法，具体包括以下步骤：

S1、获取用户上传的论文以及对应于论文的元信息；

S2、将所述元信息输入最优期刊模型，获得最优期刊；

S3、获取最优期刊的格式信息；

S4、根据所述最优期刊的格式信息修订用户上传的论文格式。

进一步地，所述元信息为用户上传的论文的摘要、标题、关键字信息中的一种，所述最优期刊模型，具体包括以下步骤：

根据所述元信息，匹配数据库期刊，计算待匹配期刊的与用户上传的论文的对应元信息的相似度；

将相似度最高的期刊最为最优期刊模型。

进一步地，所述元信息包括以下至少一项：用户上传的论文的摘要、标题、关键字信息，所述最优期刊模型，具体包括以下步骤：

分别计算元信息中各项的权重；

根据所述元信息，匹配数据库期刊，计算待匹配期刊与用户上传的论文的元信息中各项的相似度；

计算所述的待匹配期刊的总相似度，所述总相似度为所述元信息中各项的相似度根据所述各自对应的权重进行加权求和的值；

将总相似度最高的期刊最为最优期刊模型。

进一步地，所述元信息包括：用户上传的论文的摘要、标题、关键字信息，计算摘要、标题、关键字信息的权重，具体包括以下步骤：

获得摘要、标题、关键字信息的总字段长度；

分别计算所述摘要、标题、关键字信息的字段长度与总字段长度的比值；

所述摘要、标题、关键字信息的比值为各自对应的权重。

进一步地，当所述最优期刊为两个或两个以上时，执行以下步骤：

获得最优期刊列表；

将所述最优期刊列表中的各个期刊分别输入期刊综合评价模型，获得每个期刊的评分；

将评分最高的期刊确定为最优期刊。

进一步地，所述期刊综合评价模型，具体包括以下步骤：

获得所述期刊的收录机构列表；

获得所述收录机构列表中每个机构对应的收录率；

根据所述每个机构对应的收录率，获得对应于每个机构的权重；

获得所述收录机构列表中每个机构对应的评分；

根据所每个机构的权重、评分进行加权求和，获得所述期刊的评分。

进一步地，在匹配数据库期刊之前，还包括停用词剔除，所述停用词剔除包括：

获取待匹配期刊，针对所述待匹配期刊的摘要、标题、关键字信息分别生成不同的剔除词集合；

通过所述停用词集合分别剔除待匹配期刊中的冗余信息。

进一步地，所述摘要的剔除词集合包括：标点符号，冗余的词汇，文章重复使用率最高的词汇，中英文常用的助词代词。

进一步地，所述最优期刊模型，具体包括以下步骤：

将用户上传的论文的标题和摘要输入论文特征向量模型中，得到所述用户上传的论文的特征向量；

根据现有论文的特征向量和所述用户上传的论文的特征向量进行聚类分析，得到所述用户上传的论文的类别；

根据所述用户上传的论文的类别下的现有论文与用户上传的论文的相似度，以及各现有论文的知识图谱，确定最优候选期刊集；

根据所述最优候选期刊集中各候选期刊对应的期刊特征向量，计算用户设定的查询因子权重与所述最优候选期刊集中各候选期刊的相关度，将相关度最高的候选期刊作为最优期刊；所述查询因子权重包括期刊影响因子、发表难度、审稿时长和录用时长。

一种基于目标期刊智能格式修订装置，包括：

一个或多个处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现所述的一种基于目标期刊智能格式修订方法。

本发明具有的有益效果：

1、采用bm25算法根据用户输入的关键字/摘要/文章标题为用户椎荐与其文章相似度最高的期刊，收集库存内已有的每本期刊的官方投稿格式要求；整理所有规则入库储存，根据向用户所推荐的期刊的官方要求，自动化修正用户的论文格式，从而节省了用户在不了解推荐的期刊格式的情况下，人工调整反复修订格式的过程，从而加快了用户论文的发表时间，提高了用户的工作效率，增加投稿成功率。

2、字段长度作为权重的优势在于，避免出现极端的情况，比如输入描述了很长的标题，但是摘要很少，这时候需要参考摘要的信息就很有限，此时给到标题更高的权重就更为合理，而当其中一个提供信息字段为空的时候，若计算出对应的相似度为最小值，但其权重为0，就不影响加权后的整体相似度排序。

附图说明

图1为本发明的基于目标期刊智能格式修订方法流程示意图；

图2为本发明的期刊综合评价模型示意图；

图3为本发明的最优期刊模型输入示例示意图；

图4为本发明的最优期刊模型输出示例示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

另外，为了清楚和简洁起见，可能省略了对公知的结构、功能和配置的描述。本领域普通技术人员将认识到，在不脱离本公开的精神和范围的情况下，可以对本文描述的示例进行各种改变和修改。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

实施例1

采用最优期刊模型(bm25算法)根据用户输入的关键字/摘要/文章标题为用户椎荐与其文章相似度最高的期刊，收集库存内已有的每本期刊的官方投稿格式要求，包括但不限于(根据每本期刊官网网站要求收集)：

Title page text；

Scientific style；

reference；

整理所有规则入库储存，根据向用户所推荐的期刊的官方要求(上述)，自动化修正用户的论文格式。，若用户上传的所有内容为图片，采用OpenCV文字检测与识别将图片中的文字提取，根据用户的全文自动生成符合官方要求的摘要；

根据用户官网要求通过上传列表的形式让用户填写表单并生成符合官网格式的论文；

如果用户已经有现成完整格式的论文，则直接根据官网要求在用户现有的论文上进行格式修改；

采集论文的通用格式，制作规则，用正式匹配定位相应的文字内容并按照官方要求进行修改。

其中：最优期刊模型，具体包括以下步骤：

1、数据获取

包含字段：收录期刊明，刊号，论文英文标题，标题中文翻译，作者，年份，发行日期，关键字，摘要，期刊刊号。

时间维度：近3年论文信息。

数据数量：剔除重复和无效数据共计123114篇论文摘要，平均每个期刊下对应收集论文篇幅为100篇。

2、数据清洗

通过质量检测、论文统计、缺失值处理等对数据进行预处理。

3、模型训练

A、停用词分类剔除

和常见停用词剔除不同点在于根据不同字段采用不同的停用词，而不是一味的使用标准库进行直接删除，在对于模型的优化上，这一点有比较关键。

停用词数据包的制作和生成，根据算法需求进行选择，在短文本例如关键字和标题这样的数据，用尽量少的停用词集，避免误删和误除。而在摘要这样的长文本的词汇统计过沉重，停用词的剔除可以减少噪音，剔除部分包括有标点符号，冗余的词汇，每篇文章重复使用率较高的词汇，中英文常用的助词代词等等。

B、语料库保存

语料库在保存的时候采用文本形式，易于再次编辑和修改以及再次调用。

C、模型保存

模型的再次使用是部署上线的重要环节。模型分为三大类，关键字模型，摘要模型，标题模型，用到的模型为TF-IDF。

D、字典保存

在实际业务场景中，事先备份字典可以达到快速检索词频的作用。

4、模型选择

A、精准模型

推荐期刊的相似度计算比较精确，对所有期刊论文的关键字，摘要和标题进行相似度的计算。论文标题响应时间为6.654秒，摘要响应时长10.623秒，关键字响应时长6.568秒，得到结果为精确的推荐度。

B、高效模型

不同以往的固定枚举计算相似度，现在可以实现将算法保存为模型可重复使用。将corpus(语料)，model(模型)，dict(数据字典)预加载到线上服务器，预计每次启动线上项目时间从原来的10秒增加到了50秒。标题相似度首次计算时间统计，缩短到了0.64秒，再次计算时间为0.004秒，响应时长0.006秒，关键字响应时长0.004秒。每次调用接口可以重复使用加载后的字典，随着样本数据的增加，可以不断地更新和优化原来的模型。

C、综合模型

关键技术：对输入的信息进行加权计算相似度，加权依据于输入的字段长度，以字段长度作为权重好处在于，当输入给定的数据为空的时候，该条数据的权重占比为0，实际应用中摘要通常长于标题，而通过对过往的人为论文推荐来看，摘要本身也需要更高的权重，因此用这种方式可以更贴近现实和实际场景。

字段长度作为权重的优势在于，避免出现极端的情况，比如输入描述了很长的标题，但是摘要很少，这时候我们需要参考摘要的信息就很有限，此时给到标题更高的权重就更为合理，而当其中一个提供信息字段为空的时候，即便计算出的相似度就均为最小值，但其权重为0，就不影响加权后的整体相似度排序。

5、模型服务器线上部署

A、提前缓冲语料库，模型，数据字典。

B、预加载模型计算相似度。

C、数据交互

输入：摘要，标题，关键字信息。输出：按照相似度排序的期刊信息，包括期刊相似度，期刊等级，期刊审稿时长，录用率等。

6、语料库，模型，数据字典自动化更新技术

在数据获取方面，采用定时任务定期检测是否有最新论文信息，对最近数据自动化提取，将最新论文摘要，关键字，标题信息入库。

定期调用模型生成代码进行更新模型，对于模型的信息保存，采用增量式更新，历史模型备份，这样既可以保证模型的时效性，也可以避免最优模型的缺失。

一种基于目标期刊智能格式修订方法，具体包括以下步骤：

S1、获取用户上传的论文以及对应于论文的元信息；

S2、将所述元信息输入最优期刊模型，获得最优期刊；

S3、获取最优期刊的格式信息；

在一种实施例中，所述元信息包括以下至少一项：用户上传的论文的摘要、标题、关键字信息，所述最优期刊模型，具体包括以下步骤：

计算元信息中各项的权重；

将总相似度最高的期刊最为最优期刊模型。

在一种实施例中，所述元信息包括：用户上传的论文的摘要、标题、关键字信息，计算摘要、标题、关键字信息的权重，具体包括以下步骤：

获得摘要、标题、关键字信息的总字段长度；

所述摘要、标题、关键字信息的比值为各自对应的权重。

在匹配数据库期刊之前，还包括停用词剔除，所述停用词剔除包括：

通过所述停用词集合分别剔除待匹配期刊中的冗余信息。

具体地，所述摘要的剔除词集合包括：标点符号，冗余的词汇，文章重复使用率最高的词汇，中英文常用的助词代词。

示例性的，待匹配期刊与用户上传的论文的摘要、标题、关键字信息相似度分别为80％，86％，90％，其中，用户上传的论文的摘要的字段长度为200，标题的字段长度为20，关键字信息的字段长度为15，则用户上传的论文的摘要的权重为200/235＝0.85，用户上传的论文的标题的权重为20/235＝0.09，用户上传的论文的标题的权重为15/235＝0.06，则总相似度值为＝0.85*0.8+0.86*0.09+0.9*0.06＝0.8114。

具体地，当所述最优期刊为两个或两个以上时，执行以下步骤：

获得最优期刊列表；

将评分最高的期刊确定为最优期刊。

具体地，所述期刊综合评价模型，具体包括以下步骤：

获得所述期刊的收录机构列表；

获得所述收录机构列表中每个机构对应的收录率；

获得所述收录机构列表中每个机构对应的评分；

示例性的，所述待匹配期刊被x1，x2，x3，x4机构收录，这些机构收录率分别y1＝0.5，y2＝0.6，y3＝0.3，y4＝0.8

x1，x2，x3，x4机构的各个类型评分分别为：(1，2)，(1，2，3)，(1，2，3，4)，(1，2，3)，其中类型评分包括：FMS等级、光华等级、JCR等级、ABDC等级、AJG等级、复旦等级、厦大等级、西财等级、上财等级、外经贸等级、央财等级等等。

x1，x2，x3，x4机构的实际评分分别为：2，2，3，2

x1机构的权重w1＝y1/(y1+y2+y3+y4)＝0.5/2.2＝0.2272，类推得出四家机构权重，w1＝0.227，w2＝0.273，w3＝0.136，w4＝0.364

x1，x2，x3，x4机构的评分进行字符串转数字，再进行归一处理，得出X1归一分数g1＝(2-1)/(2-1)＝100，g2＝(2-1)/(3-1)＝50，g3＝(3-1)/(4-1)＝75，g4＝(2-1)/(3-1)＝50；

实际分数：

r＝g1w1+g2w2+g3w3+g4w4＝100*0.227+50*0.273+75*0.136+50*0.364＝22.7+13.65+10.2+18.2＝64.75

在一种实施例中，所述最优期刊模型，具体包括以下步骤：

具体的，在将用户上传的论文的标题和摘要输入论文特征向量模型中，得到所述目标论文的论文特征向量之前，还包括：

从期刊数据库中获取现有论文，并建立所述现有论文的标识与所述现有论文的标题及摘要的对应关系，以及所述现有论文的标识与所属期刊的映射关系；

将所述现有论文的标题和摘要输入论文特征向量模型中，得到各现有论文的论文特征向量。

实施例2

一种基于目标期刊智能格式修订装置，其特征在于，包括：

一个或多个处理器；

实施例3，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时能实现所述的一种基于目标期刊智能格式修订方法。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.一种基于目标期刊智能格式修订方法，其特征在于，具体包括以下步骤：

S1、获取用户上传的论文以及对应于论文的元信息；

S2、将所述元信息输入最优期刊模型，获得最优期刊；

S3、获取最优期刊的格式信息；

S4、根据所述最优期刊的格式信息修订用户上传的论文格式；

所述最优期刊模型，具体包括以下步骤：

分别计算元信息中各项的权重；

计算所述的待匹配期刊的总相似度，所述总相似度为元信息中各项的相似度根据各自对应的权重进行加权求和的值；

将总相似度最高的期刊最为最优期刊模型；

所述元信息包括：用户上传的论文的摘要、标题、关键字信息，计算摘要、标题、关键字信息的权重，具体包括以下步骤：

获得摘要、标题、关键字信息的总字段长度；

所述摘要、标题、关键字信息的比值为各自对应的权重。

2.根据权利要求1所述的一种基于目标期刊智能格式修订方法，其特征在于，当所述最优期刊为两个或两个以上时，执行以下步骤：

获得最优期刊列表；

将评分最高的期刊确定为最优期刊。

3.根据权利要求2所述的一种基于目标期刊智能格式修订方法，其特征在于，所述期刊综合评价模型，具体包括以下步骤：

获得所述期刊的收录机构列表；

获得所述收录机构列表中每个机构对应的收录率；

获得所述收录机构列表中每个机构对应的评分；

4.根据权利要求1所述的一种基于目标期刊智能格式修订方法，其特征在于，在匹配数据库期刊之前，还包括停用词剔除，所述停用词剔除包括：

通过所述停用词集合分别剔除待匹配期刊中的冗余信息。

5.根据权利要求4所述的一种基于目标期刊智能格式修订方法，其特征在于，摘要的剔除词集合包括：标点符号，冗余的词汇，文章重复使用率最高的词汇，中英文常用的助词代词。

6.一种基于目标期刊智能格式修订装置，其特征在于，包括：

一个或多个处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现根据权利要求1至5中任意一项所述的一种基于目标期刊智能格式修订方法。