CN109815196B

CN109815196B - 一种基于模式串匹配的学术论文快速智能筛选方法

Info

Publication number: CN109815196B
Application number: CN201910005042.7A
Authority: CN
Inventors: 赵晓; 何立风; 陈弘颖; 魏婧雪; 闫晨; 杨楠
Original assignee: Shaanxi University of Science and Technology
Current assignee: Shaanxi University of Science and Technology
Priority date: 2019-01-03
Filing date: 2019-01-03
Publication date: 2022-11-04
Anticipated expiration: 2039-01-03
Also published as: CN109815196A

Abstract

本发明公开了一种基于模式串匹配的学术论文快速智能筛选方法，首先转换用户输入的论文集合为统一的文件格式；建立基于用户输入的用于筛选条件的关键词分析的状态转换图；建立基于关键词的跳跃前移预测表；然后执行模式匹配算法，计算各论文与关键词的匹配度，根据统计的匹配度，返回筛选结果。最后通过筛选结果查看筛选后的论文，进而查看每一篇论文与关键词的详细匹配情况。本发明解决了现有技术中存在的对收集到的论文进行整理需要大量人力、精力的问题。

Description

一种基于模式串匹配的学术论文快速智能筛选方法

技术领域

本发明属于论文智能检索技术领域，具体涉及一种基于模式串匹配的学术论文快速智能筛选方法。

背景技术

阅读大量的文献是获取学科领域的研究成果、发展现状必不可少的途径。现有的网站知网、百度学术、google学术等为用户提取了查阅、下载学术论文的平台，用户下载海量论文后，需要投入大量的人力、精力对收集到的论文进行整理获取对个人、团队研究有用的论文，此过程需要反复的浏览论文，进而筛选出最终有用的论文。随着论文信息量的增加，这样的筛选过程将耗费用户更多的时间和精力。另一方面，因为论文数据量大，难免因为人工疲劳、疏忽大意等人为因素漏掉有用的论文。为解决面对大量的论文筛选带来的难题，提高工作效率，提出依据用户给定的关键词与论文集合中的每篇论文执行模式串匹配处理，计算给定关键词与每篇论文的匹配度，从而筛选出有用论文。

发明内容

本发明的目的是提供一种基于模式串匹配的学术论文快速智能筛选方法，解决了现有技术中存在的对收集到的论文进行整理需要大量人力、精力的问题。

本发明所采用的技术方案是，一种基于模式串匹配的学术论文快速智能筛选方法，具体按照以下步骤实施：

步骤1、转换用户输入的论文集合为统一的文件格式；

步骤2、建立基于用户输入的用于筛选条件的关键词分析的状态转换图；

步骤3、建立基于关键词的跳跃前移预测表；

步骤4、执行模式匹配算法，计算各论文与关键词的匹配度，根据统计的匹配度，返回筛选结果。

步骤5、通过步骤4的筛选结果查看筛选后的论文，进而查看每一篇论文与关键词的详细匹配情况。

本发明的特点还在于，

步骤1中用户输入的论文集合文件格式包括.ord、.pdf、.caj，转换后的统一的文件格式为.txt。

步骤2中用户输入的用于筛选条件的关键词有三种方式供用户选择，如下：

方式一：用户手动输入关键词，最多输入8个；

方式二：用户在系统中自动选取研究领域及选定领域的专业方向的关键词；

方式三：将方式一和方式二混合使用辅助用户确定用于论文筛选的关键词。

步骤2中状态转换图由圆圈和箭头构成，其中圆圈表示状态，圆圈中的数字表示第几个状态，箭头及箭头上的字符表示在箭尾的状态下遇到箭头上的字符时转到的下一个由箭头表示的状态，在建立状态转换图时，开始状态用状态0表示，从关键词的最右边的字符开始从右向左依次建立，一个状态下每向左扫描一个字符时便进入下一个状态，其中状态的编号从0开始每增减一个状态，状态的编号自动增加1，当多个关键词存在公共的最右字符串时，这些关键词放在一起构造状态转换图，形成一个共有的状态转换图。

步骤2具体如下：当两个或者两个以上的关键词之间存在最右公共的字符串时，根据各个关键词的构词规则，建立状态与扫描字符间的转换关系图，具有公共字符串的关键词的状态转换图是同一个状态转换图，从而简化关键词匹配操作执行的过程。

步骤3中跳跃前移预测表用于匹配不成功时，对关键词向前跳跃距离进行预测，根据关键词中字符在关键词中出现的位置计算向前跳跃的距离，出现文本字符和关键词的字符不匹配时，关键词前移距离分两种情况计算：

如果当前扫描到的文本字符不属于关键词中的字符，则前移的距离为关键词长度的最小值；

如果当前扫描到的文本字符属于关键词中的字符，依据状态转换图中当前字符的弧头距离开始状态的长度计算得到。

步骤4具体如下：

对论文集合中的每一篇论文执行如下的操作：

步骤4.1、从左向右扫描论文T_i，当扫描到除空格、逗号、分号、句号这些标点符号外的有效字符C_t时，根据状态图的引导实现与关键词中字符C_k的匹配。当有关键词K_j被匹配成功时，将所有关键词向前跳跃K_j长度l_j的距离；当所有关键词匹配均不成功时，查找跳跃前移预测表中字符C_t对应的移动距离l，将关键词向前移动l个字符的距离；

步骤4.2、从新的位置开始重新进行关键词的匹配处理，直到扫描到论文的末尾；

步骤4.3、在匹配的过程中记录各个关键词匹配成功的次数t_j，对每一篇论文重复步骤4.1～步骤4.3，直到用户上传的所有论文均被匹配后结束；

步骤4.4、按照公式(1)计算给定关键词在一篇论文中的匹配度d_i：

d_i＝(∑v_j×t_j)/w_i

其中，v_j代表第j个关键词的权值，t_j表示第j个关键词在论文文本中匹配成功的次数，w_i表示论文的字符长度；

步骤4.5、根据统计的匹配度，返回筛选结果：依据步骤4.4统计的匹配度d_i值的大小，对论文进行排序，返回筛选结果。

本发明的有益效果是，一种基于模式串匹配的学术论文快速智能筛选方法，利用文本转换技术、状态转换图、模式串匹配处理技术，建立模式串跳跃前移预测分析表，实现基于科学研究领域的关键词的匹配处理，借助各关键词权值及匹配成功的次数计算匹配度的方法，实现以用户专业背景或者研究方向量身定制的智能快速学术论文筛选平台。为计算机模式串匹配处理在其他工程中的应用提供理论和技术参考。

附图说明

图1是本发明一种基于模式串匹配的学术论文快速智能筛选方法各功能模块协同工作流图；

图2是本发明一种基于模式串匹配的学术论文快速智能筛选方法工作流示意图；

图3是本发明一种基于模式串匹配的学术论文快速智能筛选方法中实施例的状态转换图；

图4(a)是本发明一种基于模式串匹配的学术论文快速智能筛选方法中实施例中与字符串“本专利介绍”匹配的状态转换图；

图4(b)是本发明一种基于模式串匹配的学术论文快速智能筛选方法中实施例中字符串“是一种模式”匹配状态转换图；

图4(c)是本发明一种基于模式串匹配的学术论文快速智能筛选方法中实施例中字符串“模式串匹配”匹配成功状态转换图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于模式串匹配的学术论文快速智能筛选方法，具体按照以下步骤实施：

步骤1、转换用户输入的论文集合为统一的文件格式，其中，用户输入的论文集合文件格式包括.ord、.pdf、.caj，转换后的统一的文件格式为.txt；

步骤2、建立基于用户输入的用于筛选条件的关键词分析的状态转换图，其中，用户输入的用于筛选条件的关键词有三种方式供用户选择，如下：

方式一：用户手动输入关键词，最多输入8个；

方式三：将方式一和方式二混合使用辅助用户确定用于论文筛选的关键词；

步骤3、建立基于关键词的跳跃前移预测表，其中，跳跃前移预测表用于匹配不成功时，对关键词向前跳跃距离进行预测，根据关键词中字符在关键词中出现的位置计算向前跳跃的距离，出现文本字符和关键词的字符不匹配时，关键词前移距离分两种情况计算：

步骤4、执行模式匹配算法，计算各论文与关键词的匹配度，根据统计的匹配度，返回筛选结果，具体如下：

对论文集合中的每一篇论文执行如下的操作：

d_i＝(∑v_j×t_j)/w_i

实施例

用户批量上传本地的论文，建立用于筛选的关键词后，依据图2的工作流程，在系统端，将论文集合中不同的论文格式统一转换为.txt一种格式。比如，用户上传了pdf的论文，系统调用格式转换接口实现.pdf到.txt文档的转换处理。对于关键词表，如：模式串匹配、关键词匹配，建立状态转换图和模式串跳跃移动预测表。建立关键词的状态转换图和模式串跳跃前移距离预测表如图3和表1所示。启用模式匹配器，对论文从左向右进行扫描，利用状态转换图实现关键词的匹配处理，当匹配成功时，将关键词向前移动关键词长度l个字符。当发生匹配错误时，检查模式串跳跃移动距离预测表，将关键词向前移动确定长度的距离。如图4所示，图4(a)文本串“本专利介绍”与模式串“模式串匹配”中的字符“配”发生失配，查看文本串“绍”的下一个字符为“的”，字符“的”不存在于关键词中，属于其他字符，查看模式串跳跃前移距离预测表后，将模式串向前跳跃6个字符的距离。之后与文本串“是一种模式”进行匹配，如图4(b)所示，字符“配”失配，查看文本串“式”的下一个字符为“串”，查看模式串跳跃前移距离预测表后，将模式串向前跳跃3个字符；利用从右向左逐个字符匹配，字符串“模式串匹配”匹配成功，如图4(c)所示。反复使用上述过程实现整篇论文的匹配处理，匹配过程中统计的各个关键词匹配成功的次数t_j。当一篇论文匹配处理结束后，按照公式d_i＝(∑v_j×t_j)/w_i计算论文与关键词的匹配度。重复上述处理过程直到所有论文都被匹配处理后结束。

表1实施例中各字符及其它字符的跳跃距离

当前字	模	式	串	关	键	词	匹	配	其它
										跳跃距离	5	4	3	5	4	3	2	1	6

Claims

1.一种基于模式串匹配的学术论文快速智能筛选方法，其特征在于，具体按照以下步骤实施：

步骤1、转换用户输入的论文集合为统一的文件格式；

所述步骤2中用户输入的用于筛选条件的关键词有三种方式供用户选择，如下：

方式一：用户手动输入关键词，最多输入8个；

所述步骤2中状态转换图由圆圈和箭头构成，其中圆圈表示状态，圆圈中的数字表示第几个状态，箭头及箭头上的字符表示在箭尾的状态下遇到箭头上的字符时转到的下一个由箭头表示的状态，在建立状态转换图时，开始状态用状态0表示，从关键词的最右边的字符开始从右向左依次建立，一个状态下每向左扫描一个字符时便进入下一个状态，其中状态的编号从0开始每增减一个状态，状态的编号自动增加1，当多个关键词存在公共的最右字符串时，这些关键词放在一起构造状态转换图，形成一个共有的状态转换图；

所述步骤2具体如下：当两个或者两个以上的关键词之间存在最右公共的字符串时，根据各个关键词的构词规则，建立状态与扫描字符间的转换关系图，具有公共字符串的关键词的状态转换图是同一个状态转换图，从而简化关键词匹配操作执行的过程；

步骤3、建立基于关键词的跳跃前移预测表；

所述步骤3中跳跃前移预测表用于匹配不成功时，对关键词向前跳跃距离进行预测，根据关键词中字符在关键词中出现的位置计算向前跳跃的距离，出现文本字符和关键词的字符不匹配时，关键词前移距离分两种情况计算：

如果当前扫描到的文本字符属于关键词中的字符，依据状态转换图中当前字符的弧头距离开始状态的长度计算得到；

步骤4、执行模式匹配算法，计算各论文与关键词的匹配度，根据统计的匹配度，返回筛选结果；

2.根据权利要求1所述的一种基于模式串匹配的学术论文快速智能筛选方法，其特征在于，所述步骤1中用户输入的论文集合文件格式包括.ord、.pdf、.caj，转换后的统一的文件格式为.txt。

3.根据权利要求1所述的一种基于模式串匹配的学术论文快速智能筛选方法，其特征在于，所述步骤4具体如下：

对论文集合中的每一篇论文执行如下的操作：

步骤4.1、从左向右扫描论文T_i，当扫描到除空格、逗号、分号、句号这些标点符号外的有效字符C_t时，根据状态图的引导实现与关键词中字符C_k的匹配；当有关键词K_j被匹配成功时，将所有关键词向前跳跃K_j长度l_j的距离；当所有关键词匹配均不成功时，查找跳跃前移预测表中字符C_t对应的移动距离l，将关键词向前移动l个字符的距离；

d_i＝(∑v_j×t_j)/w_i