CN109815196B - 一种基于模式串匹配的学术论文快速智能筛选方法 - Google Patents
一种基于模式串匹配的学术论文快速智能筛选方法 Download PDFInfo
- Publication number
- CN109815196B CN109815196B CN201910005042.7A CN201910005042A CN109815196B CN 109815196 B CN109815196 B CN 109815196B CN 201910005042 A CN201910005042 A CN 201910005042A CN 109815196 B CN109815196 B CN 109815196B
- Authority
- CN
- China
- Prior art keywords
- keywords
- matching
- state
- keyword
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于模式串匹配的学术论文快速智能筛选方法,首先转换用户输入的论文集合为统一的文件格式;建立基于用户输入的用于筛选条件的关键词分析的状态转换图;建立基于关键词的跳跃前移预测表;然后执行模式匹配算法,计算各论文与关键词的匹配度,根据统计的匹配度,返回筛选结果。最后通过筛选结果查看筛选后的论文,进而查看每一篇论文与关键词的详细匹配情况。本发明解决了现有技术中存在的对收集到的论文进行整理需要大量人力、精力的问题。
Description
技术领域
本发明属于论文智能检索技术领域,具体涉及一种基于模式串匹配的学术论文快速智能筛选方法。
背景技术
阅读大量的文献是获取学科领域的研究成果、发展现状必不可少的途径。现有的网站知网、百度学术、google学术等为用户提取了查阅、下载学术论文的平台,用户下载海量论文后,需要投入大量的人力、精力对收集到的论文进行整理获取对个人、团队研究有用的论文,此过程需要反复的浏览论文,进而筛选出最终有用的论文。随着论文信息量的增加,这样的筛选过程将耗费用户更多的时间和精力。另一方面,因为论文数据量大,难免因为人工疲劳、疏忽大意等人为因素漏掉有用的论文。为解决面对大量的论文筛选带来的难题,提高工作效率,提出依据用户给定的关键词与论文集合中的每篇论文执行模式串匹配处理,计算给定关键词与每篇论文的匹配度,从而筛选出有用论文。
发明内容
本发明的目的是提供一种基于模式串匹配的学术论文快速智能筛选方法,解决了现有技术中存在的对收集到的论文进行整理需要大量人力、精力的问题。
本发明所采用的技术方案是,一种基于模式串匹配的学术论文快速智能筛选方法,具体按照以下步骤实施:
步骤1、转换用户输入的论文集合为统一的文件格式;
步骤2、建立基于用户输入的用于筛选条件的关键词分析的状态转换图;
步骤3、建立基于关键词的跳跃前移预测表;
步骤4、执行模式匹配算法,计算各论文与关键词的匹配度,根据统计的匹配度,返回筛选结果。
步骤5、通过步骤4的筛选结果查看筛选后的论文,进而查看每一篇论文与关键词的详细匹配情况。
本发明的特点还在于,
步骤1中用户输入的论文集合文件格式包括.ord、.pdf、.caj,转换后的统一的文件格式为.txt。
步骤2中用户输入的用于筛选条件的关键词有三种方式供用户选择,如下:
方式一:用户手动输入关键词,最多输入8个;
方式二:用户在系统中自动选取研究领域及选定领域的专业方向的关键词;
方式三:将方式一和方式二混合使用辅助用户确定用于论文筛选的关键词。
步骤2中状态转换图由圆圈和箭头构成,其中圆圈表示状态,圆圈中的数字表示第几个状态,箭头及箭头上的字符表示在箭尾的状态下遇到箭头上的字符时转到的下一个由箭头表示的状态,在建立状态转换图时,开始状态用状态0表示,从关键词的最右边的字符开始从右向左依次建立,一个状态下每向左扫描一个字符时便进入下一个状态,其中状态的编号从0开始每增减一个状态,状态的编号自动增加1,当多个关键词存在公共的最右字符串时,这些关键词放在一起构造状态转换图,形成一个共有的状态转换图。
步骤2具体如下:当两个或者两个以上的关键词之间存在最右公共的字符串时,根据各个关键词的构词规则,建立状态与扫描字符间的转换关系图,具有公共字符串的关键词的状态转换图是同一个状态转换图,从而简化关键词匹配操作执行的过程。
步骤3中跳跃前移预测表用于匹配不成功时,对关键词向前跳跃距离进行预测,根据关键词中字符在关键词中出现的位置计算向前跳跃的距离,出现文本字符和关键词的字符不匹配时,关键词前移距离分两种情况计算:
如果当前扫描到的文本字符不属于关键词中的字符,则前移的距离为关键词长度的最小值;
如果当前扫描到的文本字符属于关键词中的字符,依据状态转换图中当前字符的弧头距离开始状态的长度计算得到。
步骤4具体如下:
对论文集合中的每一篇论文执行如下的操作:
步骤4.1、从左向右扫描论文Ti,当扫描到除空格、逗号、分号、句号这些标点符号外的有效字符Ct时,根据状态图的引导实现与关键词中字符Ck的匹配。当有关键词Kj被匹配成功时,将所有关键词向前跳跃Kj长度lj的距离;当所有关键词匹配均不成功时,查找跳跃前移预测表中字符Ct对应的移动距离l,将关键词向前移动l个字符的距离;
步骤4.2、从新的位置开始重新进行关键词的匹配处理,直到扫描到论文的末尾;
步骤4.3、在匹配的过程中记录各个关键词匹配成功的次数tj,对每一篇论文重复步骤4.1~步骤4.3,直到用户上传的所有论文均被匹配后结束;
步骤4.4、按照公式(1)计算给定关键词在一篇论文中的匹配度di:
di=(∑vj×tj)/wi
其中,vj代表第j个关键词的权值,tj表示第j个关键词在论文文本中匹配成功的次数,wi表示论文的字符长度;
步骤4.5、根据统计的匹配度,返回筛选结果:依据步骤4.4统计的匹配度di值的大小,对论文进行排序,返回筛选结果。
本发明的有益效果是,一种基于模式串匹配的学术论文快速智能筛选方法,利用文本转换技术、状态转换图、模式串匹配处理技术,建立模式串跳跃前移预测分析表,实现基于科学研究领域的关键词的匹配处理,借助各关键词权值及匹配成功的次数计算匹配度的方法,实现以用户专业背景或者研究方向量身定制的智能快速学术论文筛选平台。为计算机模式串匹配处理在其他工程中的应用提供理论和技术参考。
附图说明
图1是本发明一种基于模式串匹配的学术论文快速智能筛选方法各功能模块协同工作流图;
图2是本发明一种基于模式串匹配的学术论文快速智能筛选方法工作流示意图;
图3是本发明一种基于模式串匹配的学术论文快速智能筛选方法中实施例的状态转换图;
图4(a)是本发明一种基于模式串匹配的学术论文快速智能筛选方法中实施例中与字符串“本专利介绍”匹配的状态转换图;
图4(b)是本发明一种基于模式串匹配的学术论文快速智能筛选方法中实施例中字符串“是一种模式”匹配状态转换图;
图4(c)是本发明一种基于模式串匹配的学术论文快速智能筛选方法中实施例中字符串“模式串匹配”匹配成功状态转换图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于模式串匹配的学术论文快速智能筛选方法,具体按照以下步骤实施:
步骤1、转换用户输入的论文集合为统一的文件格式,其中,用户输入的论文集合文件格式包括.ord、.pdf、.caj,转换后的统一的文件格式为.txt;
步骤2、建立基于用户输入的用于筛选条件的关键词分析的状态转换图,其中,用户输入的用于筛选条件的关键词有三种方式供用户选择,如下:
方式一:用户手动输入关键词,最多输入8个;
方式二:用户在系统中自动选取研究领域及选定领域的专业方向的关键词;
方式三:将方式一和方式二混合使用辅助用户确定用于论文筛选的关键词;
步骤2中状态转换图由圆圈和箭头构成,其中圆圈表示状态,圆圈中的数字表示第几个状态,箭头及箭头上的字符表示在箭尾的状态下遇到箭头上的字符时转到的下一个由箭头表示的状态,在建立状态转换图时,开始状态用状态0表示,从关键词的最右边的字符开始从右向左依次建立,一个状态下每向左扫描一个字符时便进入下一个状态,其中状态的编号从0开始每增减一个状态,状态的编号自动增加1,当多个关键词存在公共的最右字符串时,这些关键词放在一起构造状态转换图,形成一个共有的状态转换图。
步骤2具体如下:当两个或者两个以上的关键词之间存在最右公共的字符串时,根据各个关键词的构词规则,建立状态与扫描字符间的转换关系图,具有公共字符串的关键词的状态转换图是同一个状态转换图,从而简化关键词匹配操作执行的过程。
步骤3、建立基于关键词的跳跃前移预测表,其中,跳跃前移预测表用于匹配不成功时,对关键词向前跳跃距离进行预测,根据关键词中字符在关键词中出现的位置计算向前跳跃的距离,出现文本字符和关键词的字符不匹配时,关键词前移距离分两种情况计算:
如果当前扫描到的文本字符不属于关键词中的字符,则前移的距离为关键词长度的最小值;
如果当前扫描到的文本字符属于关键词中的字符,依据状态转换图中当前字符的弧头距离开始状态的长度计算得到。
步骤4、执行模式匹配算法,计算各论文与关键词的匹配度,根据统计的匹配度,返回筛选结果,具体如下:
对论文集合中的每一篇论文执行如下的操作:
步骤4.1、从左向右扫描论文Ti,当扫描到除空格、逗号、分号、句号这些标点符号外的有效字符Ct时,根据状态图的引导实现与关键词中字符Ck的匹配。当有关键词Kj被匹配成功时,将所有关键词向前跳跃Kj长度lj的距离;当所有关键词匹配均不成功时,查找跳跃前移预测表中字符Ct对应的移动距离l,将关键词向前移动l个字符的距离;
步骤4.2、从新的位置开始重新进行关键词的匹配处理,直到扫描到论文的末尾;
步骤4.3、在匹配的过程中记录各个关键词匹配成功的次数tj,对每一篇论文重复步骤4.1~步骤4.3,直到用户上传的所有论文均被匹配后结束;
步骤4.4、按照公式(1)计算给定关键词在一篇论文中的匹配度di:
di=(∑vj×tj)/wi
其中,vj代表第j个关键词的权值,tj表示第j个关键词在论文文本中匹配成功的次数,wi表示论文的字符长度;
步骤4.5、根据统计的匹配度,返回筛选结果:依据步骤4.4统计的匹配度di值的大小,对论文进行排序,返回筛选结果。
步骤5、通过步骤4的筛选结果查看筛选后的论文,进而查看每一篇论文与关键词的详细匹配情况。
实施例
用户批量上传本地的论文,建立用于筛选的关键词后,依据图2的工作流程,在系统端,将论文集合中不同的论文格式统一转换为.txt一种格式。比如,用户上传了pdf的论文,系统调用格式转换接口实现.pdf到.txt文档的转换处理。对于关键词表,如:模式串匹配、关键词匹配,建立状态转换图和模式串跳跃移动预测表。建立关键词的状态转换图和模式串跳跃前移距离预测表如图3和表1所示。启用模式匹配器,对论文从左向右进行扫描,利用状态转换图实现关键词的匹配处理,当匹配成功时,将关键词向前移动关键词长度l个字符。当发生匹配错误时,检查模式串跳跃移动距离预测表,将关键词向前移动确定长度的距离。如图4所示,图4(a)文本串“本专利介绍”与模式串“模式串匹配”中的字符“配”发生失配,查看文本串“绍”的下一个字符为“的”,字符“的”不存在于关键词中,属于其他字符,查看模式串跳跃前移距离预测表后,将模式串向前跳跃6个字符的距离。之后与文本串“是一种模式”进行匹配,如图4(b)所示,字符“配”失配,查看文本串“式”的下一个字符为“串”,查看模式串跳跃前移距离预测表后,将模式串向前跳跃3个字符;利用从右向左逐个字符匹配,字符串“模式串匹配”匹配成功,如图4(c)所示。反复使用上述过程实现整篇论文的匹配处理,匹配过程中统计的各个关键词匹配成功的次数tj。当一篇论文匹配处理结束后,按照公式di=(∑vj×tj)/wi计算论文与关键词的匹配度。重复上述处理过程直到所有论文都被匹配处理后结束。
表1实施例中各字符及其它字符的跳跃距离
当前字 | 模 | 式 | 串 | 关 | 键 | 词 | 匹 | 配 | 其它 |
跳跃距离 | 5 | 4 | 3 | 5 | 4 | 3 | 2 | 1 | 6 |
Claims (3)
1.一种基于模式串匹配的学术论文快速智能筛选方法,其特征在于,具体按照以下步骤实施:
步骤1、转换用户输入的论文集合为统一的文件格式;
步骤2、建立基于用户输入的用于筛选条件的关键词分析的状态转换图;
所述步骤2中用户输入的用于筛选条件的关键词有三种方式供用户选择,如下:
方式一:用户手动输入关键词,最多输入8个;
方式二:用户在系统中自动选取研究领域及选定领域的专业方向的关键词;
方式三:将方式一和方式二混合使用辅助用户确定用于论文筛选的关键词;
所述步骤2中状态转换图由圆圈和箭头构成,其中圆圈表示状态,圆圈中的数字表示第几个状态,箭头及箭头上的字符表示在箭尾的状态下遇到箭头上的字符时转到的下一个由箭头表示的状态,在建立状态转换图时,开始状态用状态0表示,从关键词的最右边的字符开始从右向左依次建立,一个状态下每向左扫描一个字符时便进入下一个状态,其中状态的编号从0开始每增减一个状态,状态的编号自动增加1,当多个关键词存在公共的最右字符串时,这些关键词放在一起构造状态转换图,形成一个共有的状态转换图;
所述步骤2具体如下:当两个或者两个以上的关键词之间存在最右公共的字符串时,根据各个关键词的构词规则,建立状态与扫描字符间的转换关系图,具有公共字符串的关键词的状态转换图是同一个状态转换图,从而简化关键词匹配操作执行的过程;
步骤3、建立基于关键词的跳跃前移预测表;
所述步骤3中跳跃前移预测表用于匹配不成功时,对关键词向前跳跃距离进行预测,根据关键词中字符在关键词中出现的位置计算向前跳跃的距离,出现文本字符和关键词的字符不匹配时,关键词前移距离分两种情况计算:
如果当前扫描到的文本字符不属于关键词中的字符,则前移的距离为关键词长度的最小值;
如果当前扫描到的文本字符属于关键词中的字符,依据状态转换图中当前字符的弧头距离开始状态的长度计算得到;
步骤4、执行模式匹配算法,计算各论文与关键词的匹配度,根据统计的匹配度,返回筛选结果;
步骤5、通过步骤4的筛选结果查看筛选后的论文,进而查看每一篇论文与关键词的详细匹配情况。
2.根据权利要求1所述的一种基于模式串匹配的学术论文快速智能筛选方法,其特征在于,所述步骤1中用户输入的论文集合文件格式包括.ord、.pdf、.caj,转换后的统一的文件格式为.txt。
3.根据权利要求1所述的一种基于模式串匹配的学术论文快速智能筛选方法,其特征在于,所述步骤4具体如下:
对论文集合中的每一篇论文执行如下的操作:
步骤4.1、从左向右扫描论文Ti,当扫描到除空格、逗号、分号、句号这些标点符号外的有效字符Ct时,根据状态图的引导实现与关键词中字符Ck的匹配;当有关键词Kj被匹配成功时,将所有关键词向前跳跃Kj长度lj的距离;当所有关键词匹配均不成功时,查找跳跃前移预测表中字符Ct对应的移动距离l,将关键词向前移动l个字符的距离;
步骤4.2、从新的位置开始重新进行关键词的匹配处理,直到扫描到论文的末尾;
步骤4.3、在匹配的过程中记录各个关键词匹配成功的次数tj,对每一篇论文重复步骤4.1~步骤4.3,直到用户上传的所有论文均被匹配后结束;
步骤4.4、按照公式(1)计算给定关键词在一篇论文中的匹配度di:
di=(∑vj×tj)/wi
其中,vj代表第j个关键词的权值,tj表示第j个关键词在论文文本中匹配成功的次数,wi表示论文的字符长度;
步骤4.5、根据统计的匹配度,返回筛选结果:依据步骤4.4统计的匹配度di值的大小,对论文进行排序,返回筛选结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910005042.7A CN109815196B (zh) | 2019-01-03 | 2019-01-03 | 一种基于模式串匹配的学术论文快速智能筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910005042.7A CN109815196B (zh) | 2019-01-03 | 2019-01-03 | 一种基于模式串匹配的学术论文快速智能筛选方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109815196A CN109815196A (zh) | 2019-05-28 |
CN109815196B true CN109815196B (zh) | 2022-11-04 |
Family
ID=66603876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910005042.7A Active CN109815196B (zh) | 2019-01-03 | 2019-01-03 | 一种基于模式串匹配的学术论文快速智能筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109815196B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6018735A (en) * | 1997-08-22 | 2000-01-25 | Canon Kabushiki Kaisha | Non-literal textual search using fuzzy finite-state linear non-deterministic automata |
CN106528599A (zh) * | 2016-09-23 | 2017-03-22 | 深圳凡豆信息科技有限公司 | 一种海量音频数据中的字符串快速模糊匹配算法 |
-
2019
- 2019-01-03 CN CN201910005042.7A patent/CN109815196B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6018735A (en) * | 1997-08-22 | 2000-01-25 | Canon Kabushiki Kaisha | Non-literal textual search using fuzzy finite-state linear non-deterministic automata |
CN106528599A (zh) * | 2016-09-23 | 2017-03-22 | 深圳凡豆信息科技有限公司 | 一种海量音频数据中的字符串快速模糊匹配算法 |
Non-Patent Citations (1)
Title |
---|
学术社交平台论文推荐方法;汤志康等;《计算机与数字工程》;20170220(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109815196A (zh) | 2019-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104199965B (zh) | 一种语义信息检索方法 | |
CN111310438A (zh) | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 | |
CN110175224B (zh) | 基于语义链接异构信息网络嵌入的专利推荐方法及装置 | |
CN1629838A (zh) | 电子文档的处理、浏览以及信息提取的方法、装置及系统 | |
CN108628906A (zh) | 短文本模板挖掘方法、装置、电子设备和可读存储介质 | |
CN110516057B (zh) | 一种信访问题答复方法及装置 | |
CN111652468A (zh) | 业务流程的生成方法、装置、存储介质及计算机设备 | |
CN108647729B (zh) | 一种用户画像获取方法 | |
CN110334214A (zh) | 一种自动识别案件中虚假诉讼的方法 | |
CN100470547C (zh) | 实现数据挖掘模型转换和应用的方法、系统及装置 | |
CN115878003B (zh) | 一种基于Transformer的RPA网页操作自动化方法及系统 | |
CN108595411A (zh) | 一种同主题文本集合中多文本摘要获取方法 | |
CN117634867B (zh) | 结合大语言模型与强化学习的rpa流程自动构建方法及系统 | |
CN109815196B (zh) | 一种基于模式串匹配的学术论文快速智能筛选方法 | |
CN113378024A (zh) | 一种基于深度学习面向公检法领域的相关事件识别方法 | |
CN107492036B (zh) | 一种保险保单托管系统 | |
CN116341059A (zh) | 基于相似度的隧道智能设计方法 | |
CN112307200A (zh) | 情感属性获取方法、装置、设备、及存储介质 | |
CN112800219B (zh) | 客服日志反馈回流数据库的方法及系统 | |
CN113032653A (zh) | 一种基于大数据的舆情监测平台 | |
CN114756617A (zh) | 一种工程档案结构化数据提取方法、系统、设备和存介质 | |
CN115617790A (zh) | 数据仓库创建方法、电子设备及存储介质 | |
CN103106308B (zh) | 一种个性化创意拐点识别方法及系统 | |
CN106951434A (zh) | 一种用于搜索引擎的搜索方法、装置及可编程设备 | |
CN117193889B (zh) | 代码示例库的构建方法及代码示例库的使用方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |