CN109635275A - 文献内容检索与识别方法及装置 - Google Patents
文献内容检索与识别方法及装置 Download PDFInfo
- Publication number
- CN109635275A CN109635275A CN201811312375.6A CN201811312375A CN109635275A CN 109635275 A CN109635275 A CN 109635275A CN 201811312375 A CN201811312375 A CN 201811312375A CN 109635275 A CN109635275 A CN 109635275A
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- dictionary
- content
- target
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000004458 analytical method Methods 0.000 claims abstract description 45
- 238000007477 logistic regression Methods 0.000 claims abstract description 26
- 239000000284 extract Substances 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 11
- 230000008520 organization Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 3
- 230000001052 transient effect Effects 0.000 claims description 2
- 241000208340 Araliaceae Species 0.000 claims 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims 1
- 235000003140 Panax quinquefolius Nutrition 0.000 claims 1
- 235000008434 ginseng Nutrition 0.000 claims 1
- 230000008569 process Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000004069 differentiation Effects 0.000 description 5
- 235000013399 edible fruits Nutrition 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010835 comparative analysis Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000005194 fractionation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种文献内容检索与识别方法及装置,方法包括:利用分布式计算引擎架构,存储并读取目标文章,对目标文章进行拆分,获得目标文章的语句和词汇;利用停词库去除目标文章的语句和词汇中的无效词汇;将去除无效词汇后的语句和词汇依次输入预先生成的相似度分析模型中,提取出目标文章中与目标语句库的内容相似的所有语句和目标文章中与目标词库的内容相似的所有词汇;其中,目标词库、停词库和目标语句库是针对预期获得的具体内容预先进行词库划分而获得的;预先生成的相似度分析模型是基于目标语句库和目标词库中的内容利用逻辑回归算法而生成的。能实现文献内容自动获取,应对大量的文献阅读工作,避免了重复阅读,降低工作量。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种文献内容检索与识别方法及装置。
背景技术
随着各行业内技术文献的增多,阅读某一技术方向的文献并获取核心知识内容成为了专业技术人员的重要工作之一。
在进行文献阅读过程中,文献内容是最重要的部分,也是阅读人员的最终目标。目前,面对大量的文献内容,通常做法是采用的方法包括:精细搜索法、逆读法、目录法和其他自动化的方式。其中,精细搜索法是通过搜索时添加多个关键词来减少命中目标,对阅读文献进行结果筛选;逆读法是通过摘要和关键词,直接寻找文章结果,然后倒寻文章细节;目录法是对于长篇文献,根据目录来锁定所需的文章内容;其他自动化的方式,如通过爬虫技术实现参考文献关联法,是通过建立参考文献网络图,通过软件将目标文献的引用文献全部导出,得到一定目标范围内的文献,进而对某类技术细节进行扩充。
但是,以上几类方法,均未实现自动化的内容获取,人力消耗大,通篇阅读消耗大量时间;很难实现大量文献的横向对比,无法解决文献相似度区分的问题,存在重复阅读的情况;在只阅读摘要和关键词时,文章提供的有效信息量过小;利用爬虫等自动化方法未实现文章内容和文章类型的区分,获取的内容数量大但质量低下;无法统计文章内的关键词词频,在通读文章前很难判断该文章对阅读人员的价值。
发明内容
针对现有技术存在的问题,本发明实施例提供一种文献内容检索与识别方法及装置。
本发明实施例提供一种文献内容检索与识别方法,包括:
利用分布式计算引擎架构,存储并读取目标文章;
利用分布式计算引擎架构,对所述目标文章进行拆分,获得所述目标文章的语句和所述目标文章的词汇;
利用停词库,去除所述目标文章的语句和所述目标文章的词汇中的无效词汇;
将去除无效词汇后的语句和词汇依次输入预先生成的相似度分析模型中,获得去除无效词汇后的各语句与目标语句库的内容是否相似以及去除无效词汇后的各词汇与目标词库的内容是否相似的结果,进而提取出所述目标文章中与目标语句库的内容相似的所有语句和所述目标文章中与目标词库的内容相似的所有词汇;
其中,所述目标词库、停词库和目标语句库是针对预期获得的具体内容预先进行词库划分而获得的;所述预先生成的相似度分析模型是基于目标语句库和目标词库中的内容,利用逻辑回归算法而生成的。
本发明实施例提供一种文献内容检索与识别装置,包括:
读取模块,用于利用分布式计算引擎架构,存储并读取目标文章;
拆分模块,用于利用分布式计算引擎架构,对所述目标文章进行拆分,获得所述目标文章的语句和所述目标文章的词汇;
去除模块,用于利用停词库,去除所述目标文章的语句和所述目标文章的词汇中的无效词汇;
提取模块,用于将去除无效词汇后的语句和词汇依次输入预先生成的相似度分析模型中,获得去除无效词汇后的各语句与目标语句库的内容是否相似以及去除无效词汇后的各词汇与目标词库的内容是否相似的结果,进而提取出所述目标文章中与目标语句库的内容相似的所有语句和所述目标文章中与目标词库的内容相似的所有词汇;
其中,所述目标词库、停词库和目标语句库是针对预期获得的具体内容预先进行词库划分而获得的;所述预先生成的相似度分析模型是基于目标语句库和目标词库中的内容,利用逻辑回归算法而生成的。
本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述方法的步骤。
本发明实施例提供的文献内容检索与识别方法及装置,通过利用分布式计算引擎架构,存储并读取目标文章,对所述目标文章进行拆分,获得所述目标文章的语句和所述目标文章的词汇,利用停词库,去除所述目标文章的语句和所述目标文章的词汇中的无效词汇,将去除无效词汇后的语句和词汇依次输入预先生成的相似度分析模型中,获得去除无效词汇后的各语句与目标语句库的内容是否相似以及去除无效词汇后的各词汇与目标词库的内容是否相似的结果,进而提取出所述目标文章中与目标语句库的内容相似的所有语句和所述目标文章中与目标词库的内容相似的所有词汇,其中,目标词库、停词库和目标语句库是针对预期获得的具体内容预先进行词库划分而获得的,预先生成的相似度分析模型是基于目标语句库和目标词库中的内容,利用逻辑回归算法而生成的,由此,实现了文献内容自动获取,能够应对大量的文献阅读工作,实现了文献核心语义的相似度判断,避免了重复阅读,降低了文献内容获取的工作量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种文献内容检索与识别方法的流程示意图;
图2为本发明实施例提供的Spark架构的存储方式的示意图;
图3为本发明一实施例提供的一种文献内容检索与识别装置的结构示意图;
图4为本发明一实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明一实施例提供的一种文献内容检索与识别方法的流程示意图,如图1所示,本实施例的文献内容检索与识别方法,包括:
S1、利用分布式计算引擎架构,存储并读取目标文章。
S2、利用分布式计算引擎架构,对所述目标文章进行拆分,获得所述目标文章的语句和所述目标文章的词汇。
S3、利用停词库,去除所述目标文章的语句和所述目标文章的词汇中的无效词汇。
S4、将去除无效词汇后的语句和词汇依次输入预先生成的相似度分析模型中,获得去除无效词汇后的各语句与目标语句库的内容是否相似以及去除无效词汇后的各词汇与目标词库的内容是否相似的结果,进而提取出所述目标文章中与目标语句库的内容相似的所有语句和所述目标文章中与目标词库的内容相似的所有词汇。
其中,所述目标词库、停词库和目标语句库是针对预期获得的具体内容预先进行词库划分而获得的;所述预先生成的相似度分析模型是基于目标语句库和目标词库中的内容,利用逻辑回归算法而生成的。
可以理解的是,本实施例依托一种分布式存储技术,实现文献源的分布式读取和处理。
可以理解的是,本实施例可以预先设定一次读取的目标文章的数量,可以一次读取一篇,也可以同时读取多篇。
本发明实施例提供的文献内容检索与识别方法,通过利用分布式计算引擎架构,存储并读取目标文章,对所述目标文章进行拆分,获得所述目标文章的语句和所述目标文章的词汇,利用停词库,去除所述目标文章的语句和所述目标文章的词汇中的无效词汇,将去除无效词汇后的语句和词汇依次输入预先生成的相似度分析模型中,获得去除无效词汇后的各语句与目标语句库的内容是否相似以及去除无效词汇后的各词汇与目标词库的内容是否相似的结果,进而提取出所述目标文章中与目标语句库的内容相似的所有语句和所述目标文章中与目标词库的内容相似的所有词汇,其中,目标词库、停词库和目标语句库是针对预期获得的具体内容预先进行词库划分而获得的,预先生成的相似度分析模型是基于目标语句库和目标词库中的内容,利用逻辑回归算法而生成的,由此,实现了文献内容自动获取,能够应对大量的文献阅读工作,实现了文献核心语义的相似度判断,避免了重复阅读,降低了文献内容获取的工作量。
进一步地,在上述实施例的基础上,在所述步骤S1之前,本实施例所述方法还可以包括图中未示出的步骤S0:
S0、针对预期获得的具体内容预先进行词库划分,分为目标词库、停词库和目标语句库。
其中,所述目标词库(targetwords)预置了内容提取的一个或多个关键词,只有符合这些关键词的内容会被提取出来,用于比对输入文献与本次分析方向的相似性,如本次预期提取与轨道交通行业相关的文献,那么所述目标词库将围绕轨道、列控等词汇进行预置。
其中,所述停词库(stopwords)中预置了不希望出现在内容提取结果中的词汇或字,在内容提取中若出现与停词库中的内容相同的词汇或字,将这些词汇或字去除,使这些字词不会出现在最终的内容提取结果里面。在具体应用中,所述停词库中预置的词汇或字,可以包括:虚词和一般性技术词汇,如中文里面的“了”、“地”、“和”以及“计算机”、“模型”、“数学公式”等,英文里面的“is”、“a”、“and”、“in”、“on”、“be”等。
其中,所述目标语句库(targetsentences)预置了内容提取的一个或多个句子,这些句子用来比对输入的文献与既有文献内容的相似性。
进一步地,所述目标词库、停词库和目标语句库的格式可以参考表1,表1为目标词库、停词库和目标语句库的格式表。
表1
进一步地,在上述实施例的基础上,所述分布式计算引擎架构,可以包括:计算引擎Spark架构;
相应地,所述步骤S2,可以包括:
利用flatMap函数,对所述目标文章进行拆分,获得两个RDD(弹性分布式数据集)存储结构,其中,一个RDD存储结构存储所述目标文章的语句,另一个RDD存储结构存储所述目标文章的词汇。
可以理解的是,Spark是专为大规模分布式数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP所开源的类Hadoop MapReduce的通用并行框架,中间输出结果可以保存在内存中,从而不再需要读写HDFS(Hadoop分布式文件系统),Spark能很好地适用于数据挖掘与机器学习。Spark架构的存储方式可参考图2,平时,数据分布存储于多个存储主机中,当计算主机需要数据时,存储主机会将自己的数据发送给Spark环境,由Spark将这些数据顺序传送给计算主机的内存,然后计算主机只需要访问内存即可获取数据。
可以理解的是,RDD结构是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。通过RDD结构的使用,可以降低数据处理过程中的计算资源消耗,并将读取到的数据以行的形式存储下来,同时可指定多个列作为该行数据的属性。flatMap函数将目标文章内容映射为一个大的集合,并根据停词库来剔除集合中影响阅读的无效内容。
可以理解的是,本实施例分布式存储技术进行文献源的分布式读取和处理,实现了文献内容自动获取,能够应对大量的文献阅读工作。
进一步地,在上述实施例的基础上,在所述步骤S4将去除无效词汇后的语句和词汇依次输入预先生成的相似度分析模型中之前,本实施例所述方法还可以包括图中未示出的步骤P1:
P1、基于目标语句库和目标词库中的内容,利用逻辑回归算法,预先生成相似度分析模型。
进一步地,所述步骤P1可以具体包括:
使用tokenizer(标记解析器)将目标语句库或目标词库的文本向量化,将自然语言转变为计算机可读懂的数学符号,并将转变后的文本向量转换为hash(哈希)值;
利用逻辑回归函数,对目标语句库或目标词库内的hash值进行学习,得到预测模型参数并生成一个相似度分析模型。
可以理解的是,本实施例是将去除无效词汇后的语句与目标语句库的内容的语句对比、以及去除无效词汇后的词汇与目标词库的内容的关键词对比分析过程转化为机器学习的二分类过程,分析过程使用逻辑回归算法(logistic回归分析),通过与最大似然估计方法的集成使用,逻辑回归算法可给出分析结果为相似或不相似并给出判断成功的概率。
进一步地,所述步骤S4中的“将去除无效词汇后的语句和词汇依次输入预先生成的相似度分析模型中,获得去除无效词汇后的各语句与目标语句库的内容是否相似以及去除无效词汇后的各词汇与目标词库的内容是否相似的结果”,可以包括:
依次选取去除无效词汇后的语句中的一条语句,判断本次选取的语句是否为最后一条语句,若否,则提取本次选取的语句的内容摘要,并将本次选取的语句输入预先生成的相似度分析模型中,获得本次选取的语句与目标语句库的内容是否相似的结果;
依次选取去除无效词汇后的词汇中的一个词汇,判断本次选取的词汇是否为最后一个词汇,若否,则对本次选取的词汇进行词频统计,并将本次选取的词汇输入预先生成的相似度分析模型中,获得本次选取的词汇与目标词库的内容是否相似的结果。
这样,本实施例能够自动获取目标文章内容并能够实现内容区分,实现目标文章内关键词词频的自动化统计,可基于此判断文献的侧重点,让阅读人员能够快速判断该文献的价值。
下面以一个具体例子对本实施例的部分步骤进行更具体的说明。
当使用者将某一pdf文件存入计算机硬盘后启动本实施例所述方法,本实施例会将此pdf文件中的内容进行读取并存储于RDD_1中,假设该pdf文件利用上述步骤S2进行拆分后包含如表2所示三个句子,表2为目标文件(即所述pdf文件)拆分后得到的句子表。
表2
对于RDD_1中的某个句子,经过flatMap的切分操作后,存储词汇的RDD_2中形成如表3所示内容(以句子3为例),表3为表2中的句子3经过flatMap的切分操作后形成的单词表。
表3
序号(Id) | 词汇(Content) |
1 | Apache |
2 | Storm |
3 | is |
4 | a |
5 | free |
6 | and |
7 | open |
8 | source |
9 | distributed |
10 | realtime |
11 | computation |
12 | system |
此时,RDD_2中含有影响我们阅读的“is”、“a”、“and”等单词,故本实施例步骤S3使用停词库(stopwords)进行比对,假设此时的停词库如下表4所示(表4为举例的一种停词库),因为停词库中含有“is”、“a”、“and”等单词,故flatmap会自动将RDD_2中的“is”、“a”、“and”删除,此时的RDD_2变为表5所示的形式(表5为经过表4所示停词库分析后的RDD_2内容表)。
表4
表5
序号(Id) | 词汇(Content) |
1 | Apache |
2 | Storm |
3 | free |
4 | open |
5 | source |
6 | distributed |
7 | realtime |
8 | computation |
9 | system |
当文章中所有句子都被分析成词汇后,可得到如表6所示的目标文章词汇统计表(此时的内容依然存储于RDD_2中,具体词频将根据文章内容的不同而变化)。
表6
序号(Id) | 词汇(Content) | 词频 |
1 | Apache | 2 |
2 | Storm | 1 |
3 | free | 1 |
4 | open | 1 |
5 | source | 1 |
6 | distributed | 1 |
7 | realtime | 1 |
8 | computation | 1 |
9 | system | 1 |
10 | Hadoop | 1 |
… | … | … |
通过本实施例步骤S4将此时的RDD_2同目标词库中的词汇进行简单的循环式一对一对比,就可以分析出本篇文章同已有文章内容的相似程度或主题相似程度了,即查看词频相似度。
对于RDD_1中的语句和目标语句库的对比则相对复杂,语句由不同数量的词汇组成,语义表达复杂,不能进行一对一对比,因此本实施例将引入逻辑回归算法。
以语句1和语句3这两条语句为例:
语句1:“The Apache Hadoop software library is a framework that allowsfor the distributed processing of large data sets”;
语句3:“Apache Storm is a free and open source distributed realtimecomputation system”。
①将两条语句向量化,得到如下内容:
语句1:“0.0,1.1,0.1,2.0,2.5,3.1,3.0,2.1,1.7,2.9,4.0,5.1”;
语句3:“0.5,1.1,0.8,3.0,2.5,3.1,4.0,0.1,1.9”。
②再将已经向量化的语句转换为哈希值(hash):
语句1:“2.0,-1.0,1.0,-1.0,4.0,3.0,2.0,1.0,-3.0,1.0,-2.0,-3.0”;
语句3:“1.0,-1.0,4.0,-1.0,-4.0,3.0,3.0,1.0,3.0”。
至此,这两条语句(语句1和语句3)在数学上的差异已经完全体现出来,完成了自然语言向数学语言的转换。
③这时,使用逻辑回归算法,将语句1和语句3的哈希值输入,通过数学拟合来判断语句1和语句3的差异度,最后的结果如下表7所示(表7为语句1和语句3的相似度判断结果),因为语句1的预测结果为1.0,语句3的预测结果为0.0,故语句1和语句3不相似,即两个语句不具有描述相同内容的趋势。
表7
本发明实施例提供的文献内容检索与识别方法,基于分布式计算引擎架构和机器学习,实现了文献内容自动获取,能够应对大量的文献阅读工作,实现了文献核心语义的相似度判断,避免了重复阅读,降低了文献内容获取的工作量,能够自动获取目标文章内容并能够实现内容区分,实现目标文章内关键词词频的自动化统计,可基于此判断文献的侧重点,让阅读人员能够快速判断该文献的价值。
图3示出了本发明一实施例提供的一种文献内容检索与识别装置的结构示意图,如图3所示,本实施例的文献内容检索与识别装置,包括:读取模块31、拆分模块32、去除模块33和提取模块34;其中:
所述读取模块31,用于利用分布式计算引擎架构,存储并读取目标文章;
所述拆分模块32,用于利用分布式计算引擎架构,对所述目标文章进行拆分,获得所述目标文章的语句和所述目标文章的词汇;
所述去除模块33,用于利用停词库,去除所述目标文章的语句和所述目标文章的词汇中的无效词汇;
所述提取模块34,用于将去除无效词汇后的语句和词汇依次输入预先生成的相似度分析模型中,获得去除无效词汇后的各语句与目标语句库的内容是否相似以及去除无效词汇后的各词汇与目标词库的内容是否相似的结果,进而提取出所述目标文章中与目标语句库的内容相似的所有语句和所述目标文章中与目标词库的内容相似的所有词汇;
其中,所述目标词库、停词库和目标语句库是针对预期获得的具体内容预先进行词库划分而获得的;所述预先生成的相似度分析模型是基于目标语句库和目标词库中的内容,利用逻辑回归算法而生成的。
具体地,所述读取模块31利用分布式计算引擎架构,存储并读取目标文章;所述拆分模块32利用分布式计算引擎架构,对所述目标文章进行拆分,获得所述目标文章的语句和所述目标文章的词汇;所述去除模块33利用停词库,去除所述目标文章的语句和所述目标文章的词汇中的无效词汇;所述提取模块34将去除无效词汇后的语句和词汇依次输入预先生成的相似度分析模型中,获得去除无效词汇后的各语句与目标语句库的内容是否相似以及去除无效词汇后的各词汇与目标词库的内容是否相似的结果,进而提取出所述目标文章中与目标语句库的内容相似的所有语句和所述目标文章中与目标词库的内容相似的所有词汇。
可以理解的是,本实施例依托一种分布式存储技术,实现文献源的分布式读取和处理。
可以理解的是,本实施例可以预先设定一次读取的目标文章的数量,可以一次读取一篇,也可以同时读取多篇。
本发明实施例提供的文献内容检索与识别装置,基于分布式计算引擎架构和机器学习,实现了文献内容自动获取,能够应对大量的文献阅读工作,实现了文献核心语义的相似度判断,避免了重复阅读,降低了文献内容获取的工作量。
进一步地,在上述实施例的基础上,本实施例所述装置还可以包括图中未示出的:
词库划分模块,用于针对预期获得的具体内容预先进行词库划分,分为目标词库、停词库和目标语句库。
其中,所述目标词库(targetwords)预置了内容提取的一个或多个关键词,只有符合这些关键词的内容会被提取出来,用于比对输入文献与本次分析方向的相似性,如本次预期提取与轨道交通行业相关的文献,那么所述目标词库将围绕轨道、列控等词汇进行预置。
其中,所述停词库(stopwords)中预置了不希望出现在内容提取结果中的词汇或字,在内容提取中若出现与停词库中的内容相同的词汇或字,将这些词汇或字去除,使这些字词不会出现在最终的内容提取结果里面。在具体应用中,所述停词库中预置的词汇或字,可以包括:虚词和一般性技术词汇,如中文里面的“了”、“地”、“和”以及“计算机”、“模型”、“数学公式”等,英文里面的“is”、“a”、“and”、“in”、“on”、“be”等。
其中,所述目标语句库(targetsentences)预置了内容提取的一个或多个句子,这些句子用来比对输入的文献与既有文献内容的相似性。
进一步地,在上述实施例的基础上,所述分布式计算引擎架构,可以包括:计算引擎Spark架构;
相应地,所述所述拆分模块32可具体用于
利用flatMap函数,对所述目标文章进行拆分,获得两个RDD(弹性分布式数据集)存储结构,其中,一个RDD存储结构存储所述目标文章的语句,另一个RDD存储结构存储所述目标文章的词汇。
可以理解的是,Spark是专为大规模分布式数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP所开源的类Hadoop MapReduce的通用并行框架,中间输出结果可以保存在内存中,从而不再需要读写HDFS(Hadoop分布式文件系统),Spark能很好地适用于数据挖掘与机器学习。Spark架构的存储方式可参考图2,平时,数据分布存储于多个存储主机中,当计算主机需要数据时,存储主机会将自己的数据发送给Spark环境,由Spark将这些数据顺序传送给计算主机的内存,然后计算主机只需要访问内存即可获取数据。
可以理解的是,RDD结构是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。通过RDD结构的使用,可以降低数据处理过程中的计算资源消耗,并将读取到的数据以行的形式存储下来,同时可指定多个列作为该行数据的属性。flatMap函数将目标文章内容映射为一个大的集合,并根据停词库来剔除集合中影响阅读的无效内容。
可以理解的是,本实施例分布式存储技术进行文献源的分布式读取和处理,实现了文献内容自动获取,能够应对大量的文献阅读工作。
进一步地,在上述实施例的基础上,本实施例所述装置还可以包括图中未示出的:
生成模块,用于基于目标语句库和目标词库中的内容,利用逻辑回归算法,预先生成相似度分析模型。
进一步地,所述生成模块,可具体用于
使用tokenizer(标记解析器)将目标语句库或目标词库的文本向量化,将自然语言转变为计算机可读懂的数学符号,并将转变后的文本向量转换为hash(哈希)值;
利用逻辑回归函数,对目标语句库或目标词库内的hash值进行学习,得到预测模型参数并生成一个相似度分析模型。
可以理解的是,本实施例是将去除无效词汇后的语句与目标语句库的内容的语句对比、以及去除无效词汇后的词汇与目标词库的内容的关键词对比分析过程转化为机器学习的二分类过程,分析过程使用逻辑回归算法(logistic回归分析),通过与最大似然估计方法的集成使用,逻辑回归算法可给出分析结果为相似或不相似并给出判断成功的概率。
进一步地,所述提取模块34可通过依次选取去除无效词汇后的语句中的一条语句,判断本次选取的语句是否为最后一条语句,若否,则提取本次选取的语句的内容摘要,并将本次选取的语句输入预先生成的相似度分析模型中,获得本次选取的语句与目标语句库的内容是否相似的结果;通过依次选取去除无效词汇后的词汇中的一个词汇,判断本次选取的词汇是否为最后一个词汇,若否,则对本次选取的词汇进行词频统计,并将本次选取的词汇输入预先生成的相似度分析模型中,获得本次选取的词汇与目标词库的内容是否相似的结果。
这样,本实施例能够自动获取目标文章内容并能够实现内容区分,实现目标文章内关键词词频的自动化统计,可基于此判断文献的侧重点,让阅读人员能够快速判断该文献的价值。
本发明实施例提供的文献内容检索与识别装置,基于分布式计算引擎架构和机器学习,实现了文献内容自动获取,能够应对大量的文献阅读工作,实现了文献核心语义的相似度判断,避免了重复阅读,降低了文献内容获取的工作量,能够自动获取目标文章内容并能够实现内容区分,实现目标文章内关键词词频的自动化统计,可基于此判断文献的侧重点,让阅读人员能够快速判断该文献的价值。
本发明实施例提供的文献内容检索与识别装置,可以用于执行前述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图4示出了本发明一实施例提供的一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括存储器402、处理器401及存储在存储器402上并可在处理器401上运行的计算机程序,所述处理器401执行所述程序时实现上述方法的步骤,例如包括:利用分布式计算引擎架构,存储并读取目标文章;利用分布式计算引擎架构,对所述目标文章进行拆分,获得所述目标文章的语句和所述目标文章的词汇;利用停词库,去除所述目标文章的语句和所述目标文章的词汇中的无效词汇;将去除无效词汇后的语句和词汇依次输入预先生成的相似度分析模型中,获得去除无效词汇后的各语句与目标语句库的内容是否相似以及去除无效词汇后的各词汇与目标词库的内容是否相似的结果,进而提取出所述目标文章中与目标语句库的内容相似的所有语句和所述目标文章中与目标词库的内容相似的所有词汇;其中,所述目标词库、停词库和目标语句库是针对预期获得的具体内容预先进行词库划分而获得的;所述预先生成的相似度分析模型是基于目标语句库和目标词库中的内容,利用逻辑回归算法而生成的。
本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤,例如包括:利用分布式计算引擎架构,存储并读取目标文章;利用分布式计算引擎架构,对所述目标文章进行拆分,获得所述目标文章的语句和所述目标文章的词汇;利用停词库,去除所述目标文章的语句和所述目标文章的词汇中的无效词汇;将去除无效词汇后的语句和词汇依次输入预先生成的相似度分析模型中,获得去除无效词汇后的各语句与目标语句库的内容是否相似以及去除无效词汇后的各词汇与目标词库的内容是否相似的结果,进而提取出所述目标文章中与目标语句库的内容相似的所有语句和所述目标文章中与目标词库的内容相似的所有词汇;其中,所述目标词库、停词库和目标语句库是针对预期获得的具体内容预先进行词库划分而获得的;所述预先生成的相似度分析模型是基于目标语句库和目标词库中的内容,利用逻辑回归算法而生成的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种文献内容检索与识别方法,其特征在于,包括:
利用分布式计算引擎架构,存储并读取目标文章;
利用分布式计算引擎架构,对所述目标文章进行拆分,获得所述目标文章的语句和所述目标文章的词汇;
利用停词库,去除所述目标文章的语句和所述目标文章的词汇中的无效词汇;
将去除无效词汇后的语句和词汇依次输入预先生成的相似度分析模型中,获得去除无效词汇后的各语句与目标语句库的内容是否相似以及去除无效词汇后的各词汇与目标词库的内容是否相似的结果,进而提取出所述目标文章中与目标语句库的内容相似的所有语句和所述目标文章中与目标词库的内容相似的所有词汇;
其中,所述目标词库、停词库和目标语句库是针对预期获得的具体内容预先进行词库划分而获得的;所述预先生成的相似度分析模型是基于目标语句库和目标词库中的内容,利用逻辑回归算法而生成的。
2.根据权利要求1所述的方法,其特征在于,在利用分布式计算引擎架构,存储并读取目标文章之前,所述方法还包括:
针对预期获得的具体内容预先进行词库划分,分为目标词库、停词库和目标语句库;
其中,所述目标词库预置了内容提取的一个或多个关键词,只有符合这些关键词的内容会被提取出来;
所述停词库中预置了不希望出现在内容提取结果中的词汇或字,在内容提取中若出现与停词库中的内容相同的词汇或字,将这些词汇或字去除;
所述目标语句库预置了内容提取的一个或多个句子,这些句子用来比对输入的文献与既有文献内容的相似性。
3.根据权利要求2所述的方法,其特征在于,所述停词库中预置的词汇或字,包括:虚词和一般性技术词汇。
4.根据权利要求1所述的方法,其特征在于,所述分布式计算引擎架构,包括:计算引擎Spark架构;
相应地,所述利用分布式计算引擎架构,对所述目标文章进行拆分,获得所述目标文章的语句和所述目标文章的词汇,包括:
利用flatMap函数,对所述目标文章进行拆分,获得两个弹性分布式数据集RDD存储结构,其中,一个RDD存储结构存储所述目标文章的语句,另一个RDD存储结构存储所述目标文章的词汇。
5.根据权利要求1所述的方法,其特征在于,在将去除无效词汇后的语句和词汇依次输入预先生成的相似度分析模型中之前,所述方法还包括:
基于目标语句库和目标词库中的内容,利用逻辑回归算法,预先生成相似度分析模型。
6.根据权利要求5所述的方法,其特征在于,所述基于目标语句库和目标词库中的内容,利用逻辑回归算法,预先生成相似度分析模型,包括:
使用标记解析器tokenizer将目标语句库或目标词库的文本向量化,将自然语言转变为计算机可读懂的数学符号,并将转变后的文本向量转换为哈希hash值;
利用逻辑回归函数,对目标语句库或目标词库内的hash值进行学习,得到预测模型参数并生成一个相似度分析模型。
7.根据权利要求1所述的方法,其特征在于,所述将去除无效词汇后的语句和词汇依次输入预先生成的相似度分析模型中,获得去除无效词汇后的各语句与目标语句库的内容是否相似以及去除无效词汇后的各词汇与目标词库的内容是否相似的结果,包括:
依次选取去除无效词汇后的语句中的一条语句,判断本次选取的语句是否为最后一条语句,若否,则提取本次选取的语句的内容摘要,并将本次选取的语句输入预先生成的相似度分析模型中,获得本次选取的语句与目标语句库的内容是否相似的结果;
依次选取去除无效词汇后的词汇中的一个词汇,判断本次选取的词汇是否为最后一个词汇,若否,则对本次选取的词汇进行词频统计,并将本次选取的词汇输入预先生成的相似度分析模型中,获得本次选取的词汇与目标词库的内容是否相似的结果。
8.一种文献内容检索与识别装置,其特征在于,包括:
读取模块,用于利用分布式计算引擎架构,存储并读取目标文章;
拆分模块,用于利用分布式计算引擎架构,对所述目标文章进行拆分,获得所述目标文章的语句和所述目标文章的词汇;
去除模块,用于利用停词库,去除所述目标文章的语句和所述目标文章的词汇中的无效词汇;
提取模块,用于将去除无效词汇后的语句和词汇依次输入预先生成的相似度分析模型中,获得去除无效词汇后的各语句与目标语句库的内容是否相似以及去除无效词汇后的各词汇与目标词库的内容是否相似的结果,进而提取出所述目标文章中与目标语句库的内容相似的所有语句和所述目标文章中与目标词库的内容相似的所有词汇;
其中,所述目标词库、停词库和目标语句库是针对预期获得的具体内容预先进行词库划分而获得的;所述预先生成的相似度分析模型是基于目标语句库和目标词库中的内容,利用逻辑回归算法而生成的。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811312375.6A CN109635275A (zh) | 2018-11-06 | 2018-11-06 | 文献内容检索与识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811312375.6A CN109635275A (zh) | 2018-11-06 | 2018-11-06 | 文献内容检索与识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109635275A true CN109635275A (zh) | 2019-04-16 |
Family
ID=66067348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811312375.6A Pending CN109635275A (zh) | 2018-11-06 | 2018-11-06 | 文献内容检索与识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635275A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110782955A (zh) * | 2019-10-22 | 2020-02-11 | 中国科学院上海有机化学研究所 | 从研究文献中提取天然产物数据信息的方法及系统 |
CN110968666A (zh) * | 2019-11-22 | 2020-04-07 | 掌阅科技股份有限公司 | 基于相似度的标题生成模型的训练方法及计算设备 |
WO2021042526A1 (zh) * | 2019-09-06 | 2021-03-11 | 平安科技(深圳)有限公司 | 基于相似度值的搜索方法、装置、计算机设备和存储介质 |
CN113011689A (zh) * | 2019-12-19 | 2021-06-22 | 中国移动通信集团辽宁有限公司 | 软件开发工作量的评估方法、装置及计算设备 |
CN114461661A (zh) * | 2022-01-05 | 2022-05-10 | 贵州具京网络科技有限公司 | 一种基于大数据的数据查询方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004127086A (ja) * | 2002-10-04 | 2004-04-22 | Data Section Kk | 文書検索システム及びそれを用いた情報提供システム |
CN102567537A (zh) * | 2011-12-31 | 2012-07-11 | 武汉理工大学 | 一种基于检索结果数量的短文本相似度计算方法 |
CN103207905A (zh) * | 2013-03-28 | 2013-07-17 | 大连理工大学 | 一种基于目标文本的计算文本相似度的方法 |
CN103886063A (zh) * | 2014-03-18 | 2014-06-25 | 国家电网公司 | 一种文本检索方法和装置 |
CN104699763A (zh) * | 2015-02-11 | 2015-06-10 | 中国科学院新疆理化技术研究所 | 多特征融合的文本相似性度量系统 |
CN106294695A (zh) * | 2016-08-08 | 2017-01-04 | 深圳市网安计算机安全检测技术有限公司 | 一种面向实时大数据搜索引擎的实现方法 |
-
2018
- 2018-11-06 CN CN201811312375.6A patent/CN109635275A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004127086A (ja) * | 2002-10-04 | 2004-04-22 | Data Section Kk | 文書検索システム及びそれを用いた情報提供システム |
CN102567537A (zh) * | 2011-12-31 | 2012-07-11 | 武汉理工大学 | 一种基于检索结果数量的短文本相似度计算方法 |
CN103207905A (zh) * | 2013-03-28 | 2013-07-17 | 大连理工大学 | 一种基于目标文本的计算文本相似度的方法 |
CN103886063A (zh) * | 2014-03-18 | 2014-06-25 | 国家电网公司 | 一种文本检索方法和装置 |
CN104699763A (zh) * | 2015-02-11 | 2015-06-10 | 中国科学院新疆理化技术研究所 | 多特征融合的文本相似性度量系统 |
CN106294695A (zh) * | 2016-08-08 | 2017-01-04 | 深圳市网安计算机安全检测技术有限公司 | 一种面向实时大数据搜索引擎的实现方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021042526A1 (zh) * | 2019-09-06 | 2021-03-11 | 平安科技(深圳)有限公司 | 基于相似度值的搜索方法、装置、计算机设备和存储介质 |
CN110782955A (zh) * | 2019-10-22 | 2020-02-11 | 中国科学院上海有机化学研究所 | 从研究文献中提取天然产物数据信息的方法及系统 |
CN110782955B (zh) * | 2019-10-22 | 2023-03-28 | 中国科学院上海有机化学研究所 | 从研究文献中提取天然产物数据信息的方法及系统 |
CN110968666A (zh) * | 2019-11-22 | 2020-04-07 | 掌阅科技股份有限公司 | 基于相似度的标题生成模型的训练方法及计算设备 |
CN113011689A (zh) * | 2019-12-19 | 2021-06-22 | 中国移动通信集团辽宁有限公司 | 软件开发工作量的评估方法、装置及计算设备 |
CN113011689B (zh) * | 2019-12-19 | 2024-05-07 | 中国移动通信集团辽宁有限公司 | 软件开发工作量的评估方法、装置及计算设备 |
CN114461661A (zh) * | 2022-01-05 | 2022-05-10 | 贵州具京网络科技有限公司 | 一种基于大数据的数据查询方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291570B (zh) | 一种实现司法文书中要素识别的方法及装置 | |
CN109635275A (zh) | 文献内容检索与识别方法及装置 | |
Saloot et al. | Hadith data mining and classification: a comparative analysis | |
US20210124876A1 (en) | Evaluating the Factual Consistency of Abstractive Text Summarization | |
US9275135B2 (en) | Annotating entities using cross-document signals | |
Bertin et al. | A study of lexical distribution in citation contexts through the IMRaD standard | |
CN109471933A (zh) | 一种文本摘要的生成方法、存储介质和服务器 | |
CN105893410A (zh) | 一种关键词提取方法和装置 | |
Shirsat et al. | Document level sentiment analysis from news articles | |
CN104850617B (zh) | 短文本处理方法及装置 | |
CN109635288A (zh) | 一种基于深度神经网络的简历抽取方法 | |
CN109558482B (zh) | 一种基于Spark框架的文本聚类模型PW-LDA的并行化方法 | |
CN109472022B (zh) | 基于机器学习的新词识别方法及终端设备 | |
Youssef et al. | MoArLex: an Arabic sentiment lexicon built through automatic lexicon expansion | |
CN108536673B (zh) | 新闻事件抽取方法及装置 | |
Nogueira dos Santos et al. | Portuguese part-of-speech tagging using entropy guided transformation learning | |
Narendra et al. | Named entity recognition based resume parser and summarizer | |
Harris et al. | Ax-to-Grind Urdu: Benchmark Dataset for Urdu Fake News Detection | |
Wang et al. | A transition-based system for universal dependency parsing | |
Lai et al. | An unsupervised approach to discover media frames | |
Shalinda et al. | Hate words detection among sri lankan social media text messages | |
Gromann et al. | Hashtag Processing for Enhanced Clustering of Tweets. | |
Praveena et al. | Chunking based malayalam paraphrase identification using unfolding recursive autoencoders | |
Akhtar et al. | Unsupervised morphological expansion of small datasets for improving word embeddings | |
Oshadi et al. | AppGuider: Feature Comparison System using Neural Network with FastText and Aspect-based Sentiment Analysis on Play Store User Reviews |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190416 |