CN117251532B - 一种基于动态多级匹配的大规模文献机构消歧方法 - Google Patents
一种基于动态多级匹配的大规模文献机构消歧方法 Download PDFInfo
- Publication number
- CN117251532B CN117251532B CN202311503238.1A CN202311503238A CN117251532B CN 117251532 B CN117251532 B CN 117251532B CN 202311503238 A CN202311503238 A CN 202311503238A CN 117251532 B CN117251532 B CN 117251532B
- Authority
- CN
- China
- Prior art keywords
- matching layer
- merging
- similarity
- groups
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 157
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 52
- 230000008859 change Effects 0.000 claims description 23
- 230000008030 elimination Effects 0.000 claims description 14
- 238000003379 elimination reaction Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 abstract description 7
- 238000007418 data mining Methods 0.000 abstract description 2
- 230000008520 organization Effects 0.000 description 14
- 230000000694 effects Effects 0.000 description 7
- 238000012216 screening Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供了一种基于动态多级匹配的大规模文献机构消歧方法,涉及数据挖掘技术领域,包括:获取大规模文献机构原始数据,按照字段处理模板进行处理,并按照预设格式文件进行存储后生成消歧原始数据,建立多级匹配层,每个匹配层均包括重复识别单元和相似识别单元,对消歧原始数据进行识别,若满足重复识别单元和相似识别单元的预设条件,输出当前匹配层的机构合并组,作为下一匹配层的输入数据进行识别,以此类推,直至多级匹配层迭代完成,输出机构合并结果,接入预设存储格式对消歧结果进行管理。本发明解决了由于科技文献数据量庞大,现有技术按所属机构分类管理及统计这些文献数据,存在缺乏准确性,并且计算时间长、复杂度大的技术问题。
Description
技术领域
本发明涉及数据挖掘技术领域,具体涉及一种基于动态多级匹配的大规模文献机构消歧方法。
背景技术
目前国内外科技文献数据量呈指数增长,机构名称是科技文献中描述科研实体的重要信息,不仅是文献检索、知识导航的重要入口,也是判断科研机构学术影响力、机构竞争力的重要统计单元。然而,原始的文献数据中很多机构名称存在变体、误拼等情况给机构的准确识别带来很大困难,利用现代计算机技术分析这些文献数据实现机构名称消歧并自动将文献数据按机构分类及统计具有非常大的现实意义。
通常文献机构名称存在两种主要的歧义情况:变体,即两种不同的表示实属同一个机构;误拼,即存在机构名称的拼写错误。传统上通过单次的字符匹配计算得到两者的相似距离,虽然这种方法有一定的效果,但是还不够精确并且计算时间复杂度太大,无法在真实场景使用。
综上所述,目前严重限制大规模文献机构消歧任务的关键问题是计算准确性和计算复杂度。
发明内容
本申请通过提供一种基于动态多级匹配的大规模文献机构消歧方法,旨在解决由于科技文献数据量庞大,现有技术按所属机构分类管理及统计这些文献数据,存在缺乏准确性,并且计算时间长、复杂度大的技术问题。
鉴于上述问题,本申请提供了一种基于动态多级匹配的大规模文献机构消歧方法。
本申请公开的第一个方面,提供了一种基于动态多级匹配的大规模文献机构消歧方法,所述方法包括:从文献数据库中获取大规模文献机构原始数据;按照字段处理模板对所述文献机构原始数据进行处理,并将处理得到的特征字段集按照预设格式文件进行存储后生成消歧原始数据;建立多级匹配层,所述多级匹配层中的每个匹配层均包括重复识别单元和相似识别单元;调度所述消歧原始数据,根据所述多级匹配层对所述消歧原始数据进行识别,若满足当前匹配层中所述重复识别单元和所述相似识别单元的预设条件,输出当前匹配层的机构合并组;以当前匹配层的机构合并组作为下一匹配层的输入数据进行识别,以此类推,直至所述多级匹配层迭代完成,输出机构合并结果;接入预设存储格式,以所述预设存储格式对所述机构合并结果中的消歧结果进行管理。
本申请公开的另一个方面,提供了一种基于动态多级匹配的大规模文献机构消歧系统,所述系统用于上述方法,所述系统包括:原始数据获取单元,所述原始数据获取单元用于从文献数据库中获取大规模文献机构原始数据;原始数据处理单元,所述原始数据处理单元用于按照字段处理模板对所述文献机构原始数据进行处理,并将处理得到的特征字段集按照预设格式文件进行存储后生成消歧原始数据;匹配层构建单元,所述匹配层构建单元用于建立多级匹配层,所述多级匹配层中的每个匹配层均包括重复识别单元和相似识别单元;合并组输出单元,所述合并组输出单元用于调度所述消歧原始数据,根据所述多级匹配层对所述消歧原始数据进行识别,若满足当前匹配层中所述重复识别单元和所述相似识别单元的预设条件,输出当前匹配层的机构合并组;合并结果输出单元,所述合并结果输出单元用于以当前匹配层的机构合并组作为下一匹配层的输入数据进行识别,以此类推,直至所述多级匹配层迭代完成,输出机构合并结果;消歧结果管理单元,所述消歧结果管理单元用于接入预设存储格式,以所述预设存储格式对所述机构合并结果中的消歧结果进行管理。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
采用多级匹配层结构,通过重复识别和相似识别单元对文献机构进行逐层匹配,不仅根据机构名称进行匹配,还考虑地域、邮编等属性信息,综合判断文献机构之间的相似度和重复性,从而提高消歧结果的准确性;通过多级匹配的迭代方式,将匹配结果逐步精细化,避免无效的匹配操作,提高数据处理和匹配的效率,同时,通过记录数据变动指标并检测组别单一性,能够根据需求进行灵活的参数调整,进一步优化匹配效果;使用预设存储格式对机构合并结果中的消歧结果进行管理,提供可扩展性和灵活性,方便后续处理和分析。综上所述,该方法通过多级匹配层、动态参数调整和预设存储格式等技术手段,有效解决了现有技术在大规模文献机构消歧中存在的准确性和效率问题,提高了匹配结果的准确性和数据处理的效率。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
图1为本申请实施例提供了一种基于动态多级匹配的大规模文献机构消歧方法流程示意图;
图2为本申请实施例提供了一种基于动态多级匹配的大规模文献机构消歧系统结构示意图。
附图标记说明:原始数据获取单元10,原始数据处理单元20,匹配层构建单元30,合并组输出单元40,合并结果输出单元50,消歧结果管理单元60。
具体实施方式
本申请实施例通过提供一种基于动态多级匹配的大规模文献机构消歧方法,解决了由于科技文献数据量庞大,现有技术按所属机构分类管理及统计这些文献数据,存在缺乏准确性,并且计算时间长、复杂度大的技术问题。
在介绍了本申请基本原理后,下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。
实施例一
如图1所示,本申请实施例提供了一种基于动态多级匹配的大规模文献机构消歧方法,所述方法包括:
从文献数据库中获取大规模文献机构原始数据;
通过接口方式来加载文献数据库,如本地数据库、或加载公开的学术数据库。以NSTL文献数据库(一个包含自加工数据及第三方来源如Web of Science、Springer、IEEE等来源数据的数据库)为例,所述文献数据库中的文件以统一格式存储,构建符合要求的查询条件,包括指定出版日期、数据来源等,通过调用API,将构建好的查询提交给文献数据库,并获取返回的结果,结果以XML格式返回,包含了所需的文献机构原始数据。
按照字段处理模板对所述文献机构原始数据进行处理,并将处理得到的特征字段集按照预设格式文件进行存储后生成消歧原始数据;
进一步而言,所述方法还包括:
设置字段处理模板,其中,所述字段处理模板包括字符抽取单元、字符消除单元和字段转换单元;
利用所述字符抽取单元对所述文献机构原始数据进行特征字段抽取,将抽取得到的特征字段输入字符消除单元进行空格和特殊字符进行消除处理,将消除处理后的特征字段输入字段转换单元进行小写转换,输出所述特征字段集。
设计字段处理模板,包括字符抽取单元、字符消除单元和字段转换单元,这些单元定义了如何提取特定字段以及对字段进行清理和格式转换。
使用字符抽取单元从文献数据中提取特定的字段,例如,提取机构名称、出版年、优选机构名称(如有)、地址、邮编、国家、城市、文献doi、研究方向等信息;通过字符消除单元对抽取得到的字段进行清理和规范化,包括消除空格、特殊字符、多余的标点符号等,以保持字段的一致性;使用字段转换单元对清理后的字段进行格式转换,包括将字段转换为小写表示,去除冗余信息等,以统一字段的表示形式。经过全部处理后,输出所述特征字段集。
将经过处理和转换的特征字段集按照预设的格式文件进行存储,例如按行排列对齐,按csv表格格式进行存储,根据存储好的特征字段集,将其整合成消歧原始数据,基于文件量的庞大性,其处理环境可以采用HDFS文件系统,如将消歧原始数据上传到HDFS文件系统,待下一步使用Spark进行匹配计算。
建立多级匹配层,所述多级匹配层中的每个匹配层均包括重复识别单元和相似识别单元;
确定需要建立的多级匹配层数,并为每一级匹配层分配相应的编号,并将匹配层按照递增的顺序进行排列,如第一匹配层、第二匹配层,依次类推。
在每个匹配层中,设计重复识别单元,该单元的目标是识别具有相同特征的文献机构之间的重复,例如,可以利用机构名称、地域、特定标识字段等来进行比对;在每个匹配层中,设计相似识别单元,该单元用于评估两个文献机构之间的相似性,可以使用相似度算法来计算相似度,如余弦相似度等。
调度所述消歧原始数据,根据所述多级匹配层对所述消歧原始数据进行识别,若满足当前匹配层中所述重复识别单元和所述相似识别单元的预设条件,输出当前匹配层的机构合并组;
将生成的消歧原始数据作为输入,根据当前的匹配层,依次将消歧原始数据输入到对应的重复识别单元和相似识别单元中,这些识别单元对数据进行重复识别和相似识别,根据识别结果,判断是否符合预设的重复和相似条件,如设定重复阈值、相似度阈值。如果当前匹配层中的数据满足预设条件,将其标识为机构合并组,合并组包含具有相同机构名称或其他指定特征的文献机构。
以当前匹配层的机构合并组作为下一匹配层的输入数据进行识别,以此类推,直至所述多级匹配层迭代完成,输出机构合并结果;
将当前匹配层得到的机构合并组作为下一匹配层的输入数据,对下一匹配层的输入数据执行重复识别和相似识别操作,通过设定的条件判断是否出现重复的机构或相似度较高的机构,根据重复识别和相似识别的结果,将满足预设条件的机构合并为新的合并组,这些合并组包含了更多的机构,达到了进一步合并和消歧的效果。将输出的新合并组再作为下一匹配层的输入数据,重复执行上述步骤,形成一个迭代的循环,依次处理每个匹配层,直到所有的匹配层都被迭代完成,将得到的最终合并组作为机构合并结果输出。这些结果经过了多次迭代的处理,对重复和相似性较高的机构进行消歧,得到了更准确的机构合并结果。
接入预设存储格式,以所述预设存储格式对所述机构合并结果中的消歧结果进行管理。
确定用于管理机构合并结果消歧结果的预设存储格式,如csv表格格式,将机构合并结果中的消歧结果按照预设存储格式进行导入,根据预设格式的要求,将每个消歧结果的相关信息与对应的字段进行匹配,并将其存储在适当的位置,以便能够有效管理和使用。
进一步而言,所述多级匹配层中的第一匹配层包括:
获取预合并组,其中,所述预合并组为相同机构名称的合并结果,且每个合并组带有不相同的标识信息;
将所述预合并组输入所述第一匹配层中的重复识别单元对所述预合并组进行地域重复性识别,获取所属相同地域的组别;
再将所属相同地域的组别输入所述第一匹配层的相似识别单元进行两两相似度判断,将相似度大于第一预设相似区间的组别进行合并,输出第一机构合并结果。
从特征字段集中提取机构名称作为关键字段,根据机构名称对机构进行分组,将机构名称相似度较高的机构放在同一个组,以识别可能存在的重复机构,例如使用北京交通大学名称的文献有200篇,将这200篇文献中的北京交通大学归并后形成一条机构记录,这条机构记录中包含了机构特征字段。为每个合并组添加不相同的标识信息,如数字、字母等唯一标识符,这些标识信息用于区分每个合并组,方便对合并组进行后续的处理。
将预合并组作为输入数据传递给第一匹配层的重复识别单元,在重复识别单元中,对每个预合并组进行地域重复性识别,即通过比较组内机构的地域信息来判断它们是否属于相同的地域,根据地域重复性识别的结果,将相同地域的组别进行标记,并将属于相同地域的预合并组聚集在一起,形成所属相同地域的组别,每个地域组别包含多个相同地域的预合并组。
将标记为相同地域的组别作为输入数据传递给第一匹配层的相似识别单元,在相似识别单元中,在地域相同的情况下,对每对相同地域的组别之间进行两两相似度的判断,设置第一预设相似区间,例如设置优选机构名称的相似度大于0.95并且机构名称相似度大于0.5,筛选出满足该第一预设相似区间的组别对,将它们合并成新的合并组。经过相似度判断和合并操作后,输出第一机构合并结果,该结果是经过第一匹配层处理后得到的更精确的机构合并组。
进一步而言,所述多级匹配层的第二匹配层包括:
将所述第一机构合并结果输入所述第二匹配层的重复识别单元中进行邮编字段重复性识别,获取所属相同邮编字段的组别;
再将所属相同邮编字段的组别输入所述第二匹配层的相似识别单元进行两两相似度判断,将相似度大于第一预设相似度组别进行合并,输出第二机构合并结果。
将第一机构合并结果作为输入,传递给第二匹配层的重复识别单元,在重复识别单元中,对每个合并组内的机构进行邮编字段的重复性识别,通过比较机构的邮编字段来判断是否属于相同的邮编,根据邮编重复性识别的结果,标记出所属相同邮编字段的组别。将属于相同邮编字段的合并组聚集在一起,形成所属相同邮编字段的组别,每个邮编组别包含多个相同邮编字段的合并组。
将标记为相同邮编字段的组别作为输入数据传递给第二匹配层的相似识别单元,在相似识别单元中,对每对相同邮编字段的组别之间进行两两相似度的判断,设定第一预设相似度,如设置相似度阈值为0.95,筛选出相似度大于该阈值的组别对,将它们合并成新的合并组,经过相似度判断和合并操作后,输出第二机构合并结果,该结果是经过第二匹配层处理后得到的更精确的机构合并组。
进一步而言,所述多级匹配层的第三匹配层包括:
将所述第二机构合并结果输入所述第三匹配层的重复识别单元中进行前后名称重复性识别,获取前后名称相同的组别;
再将前后名称相同的组别输入所述第三匹配层的相似识别单元进行两两相似度判断,将相似度大于第二预设相似度组别进行合并,输出第三机构合并结果。
将第二机构合并结果作为输入,传递给第三匹配层的重复识别单元,在重复识别单元中,以每个组内出现次数最多的机构名称为代表,将机构名称按字典顺序排序,按照排序结果对比每一行前后的机构组,进行前后名称的重复性识别,根据识别的结果,标记出前后名称相同的组别,将属于前后名称相同的合并组聚集在一起,形成前后名称相同的组别,每个名称组别包含多个前后名称相同的合并组。
将标记为前后名称相同的组别作为输入数据传递给第三匹配层的相似识别单元,在相似识别单元中,对每对前后名称相同的组别之间进行两两相似度的判断,设定第二预设相似度区间,如设定机构名称相似度阈值为0.9,筛选出相似度大于该阈值的组别对,将它们合并成新的合并组。经过相似度判断和合并操作后,输出第三机构合并结果,该结果是经过第三匹配层处理后得到的更精确的机构合并组。
进一步而言,所述多级匹配层的第四匹配层包括:
将所述第三机构合并结果输入所述第四匹配层的重复识别单元中进行原始机构名称重复性识别,获取原始机构名称相同的组别;
再将原始机构名称相同的组别输入所述第四匹配层的相似识别单元进行两两相似度判断,将相似度大于第三预设相似度组别进行合并,输出第四机构合并结果。
将第三机构合并结果作为输入,传递给第四匹配层的重复识别单元,在重复识别单元中,对每个合并组内的机构进行原始机构名称的重复性识别,通过比较文献的原始机构名称字段来判断是否属于相同的名称,根据原始机构名称重复性识别的结果,标记出原始机构名称相同的组别,将属于原始机构名称相同的合并组聚集在一起,形成原始机构名称相同的组别,每个名称组别包含多个原始机构名称相同的合并组。
将标记为原始机构名称相同的组别作为输入数据传递给第四匹配层的相似识别单元,在相似识别单元中,对每对原始机构名称相同的组别之间进行两两相似度的判断,设定第三预设相似度,例如设置原始机构名称字段的相似度阈值为0.7,筛选出相似度大于该阈值的组别对,将它们合并成新的合并组。经过相似度判断和合并操作后,输出第四机构合并结果,该结果是经过第四匹配层处理后得到的更精确的机构合并组。
进一步而言,记录所述多级匹配层中每个匹配层的数据变动指标;
若连续三个匹配层的数据变动指标小于预设数据变动指标,所述多级匹配层迭代完成,输出机构合并结果。
针对每个匹配层,记录该层的数据变动指标,数据变动指标是某个衡量合并效果的度量值,例如合并组的数量,这样可以跟踪和分析随着匹配层迭代的进行,每个匹配层的匹配结果是否发生了显著变化。
检查最近连续的三个匹配层的数据变动指标是否均小于预设的数据变动指标,若小于,则表示过去连续三个匹配层的匹配结果相对稳定,没有显著变化,则提前终止迭代过程,以避免不必要的计算和资源消耗,此时可以将最后一个匹配层的机构合并结果作为最终的合并结果进行输出。
进一步而言,所述方法还包括:
若连续三个匹配层的数据变动指标小于所述预设数据变动指标,检测组别单一性,其中,所述组别单一性用于表示包括一个机构的组别数量占总组别数量的指标;
若所述组别单一性大于预设单一性,获取调整指令,根据所述调整指令对所述多级匹配层中存储的预设相似区间或预设相似度进行增量调节。
从机构合并结果中筛选只包含单个机构的组别,计算单个机构组别数量占总组别数量的比例,即组别单一性指标,将计算得到的组别单一性指标与预设的单一性阈值进行比较,如果组别单一性指标高于预设单一性阈值,则认为有较多的组别只包含一个机构,需要进行参数调整以优化匹配结果,获取调整指令,根据调整指令对多级匹配层中存储的预设相似区间或预设相似度进行增量调节,例如,将第三预设相似度从0.7调整为0.65,以进一步优化匹配结果。
综上所述,本申请实施例所提供的一种基于动态多级匹配的大规模文献机构消歧方法具有如下技术效果:
1.采用多级匹配层结构,通过重复识别和相似识别单元对文献进行逐层匹配,不仅根据机构名称进行匹配,还考虑地域、邮编等属性信息,综合判断文献机构之间的相似度和重复性,从而提高消歧结果的准确性;
2.通过多级匹配的迭代方式,将匹配结果逐步精细化,避免无效的匹配操作,提高数据处理和匹配的效率,同时,通过记录数据变动指标并检测组别单一性,能够根据需求进行灵活的参数调整,进一步优化匹配效果;
3.使用预设存储格式对机构合并结果中的消歧结果进行管理,提供可扩展性和灵活性,方便后续处理和分析。
综上所述,该方法通过多级匹配层、动态参数调整和预设存储格式等技术手段,有效解决了现有技术在大规模文献机构消歧中存在的准确性和效率问题,提高了匹配结果的准确性和数据处理的效率。
实施例二
基于与前述实施例中一种基于动态多级匹配的大规模文献机构消歧方法相同的发明构思,如图2所示,本申请提供了一种基于动态多级匹配的大规模文献机构消歧系统,所述系统包括:
原始数据获取单元10,所述原始数据获取单元10用于从文献数据库中获取大规模文献机构原始数据;
原始数据处理单元20,所述原始数据处理单元20用于按照字段处理模板对所述文献机构原始数据进行处理,并将处理得到的特征字段集按照预设格式文件进行存储后生成消歧原始数据;
匹配层构建单元30,所述匹配层构建单元30用于建立多级匹配层,所述多级匹配层中的每个匹配层均包括重复识别单元和相似识别单元;
合并组输出单元40,所述合并组输出单元40用于调度所述消歧原始数据,根据所述多级匹配层对所述消歧原始数据进行识别,若满足当前匹配层中所述重复识别单元和所述相似识别单元的预设条件,输出当前匹配层的机构合并组;
合并结果输出单元50,所述合并结果输出单元50用于以当前匹配层的机构合并组作为下一匹配层的输入数据进行识别,以此类推,直至所述多级匹配层迭代完成,输出机构合并结果;
消歧结果管理单元60,所述消歧结果管理单元60用于接入预设存储格式,以所述预设存储格式对所述机构合并结果中的消歧结果进行管理。
进一步而言,所述系统还包括特征字段集获取模块,以执行如下操作步骤:
设置字段处理模板,其中,所述字段处理模板包括字符抽取单元、字符消除单元和字段转换单元;
利用所述字符抽取单元对所述文献机构原始数据进行特征字段抽取,将抽取得到的特征字段输入字符消除单元进行空格和特殊字符进行消除处理,将消除处理后的特征字段输入字段转换单元进行小写转换,输出所述特征字段集。
进一步而言,所述系统还包括第一合并结果输出模块,以执行如下操作步骤:
获取预合并组,其中,所述预合并组为相同机构名称的合并结果,且每个合并组带有不相同的标识信息;
将所述预合并组输入所述第一匹配层中的重复识别单元对所述预合并组进行地域重复性识别,获取所属相同地域的组别;
再将所属相同地域的组别输入所述第一匹配层的相似识别单元进行两两相似度判断,将相似度大于第一预设相似区间的组别进行合并,输出第一机构合并结果。
进一步而言,所述系统还包括第二合并结果输出模块,以执行如下操作步骤:
将所述第一机构合并结果输入所述第二匹配层的重复识别单元中进行邮编字段重复性识别,获取所属相同邮编字段的组别;
再将所属相同邮编字段的组别输入所述第二匹配层的相似识别单元进行两两相似度判断,将相似度大于第一预设相似度组别进行合并,输出第二机构合并结果。
进一步而言,所述系统还包括第三合并结果输出模块,以执行如下操作步骤:
将所述第二机构合并结果输入所述第三匹配层的重复识别单元中进行前后名称重复性识别,获取前后名称相同的组别;
再将前后名称相同的组别输入所述第三匹配层的相似识别单元进行两两相似度判断,将相似度大于第二预设相似度组别进行合并,输出第三机构合并结果。
进一步而言,所述系统还包括第四合并结果输出模块,以执行如下操作步骤:
将所述第三机构合并结果输入所述第四匹配层的重复识别单元中进行原始机构名称重复性识别,获取原始机构名称相同的组别;
再将原始机构名称相同的组别输入所述第四匹配层的相似识别单元进行两两相似度判断,将相似度大于第三预设相似度组别进行合并,输出第四机构合并结果。
进一步而言,所述系统还包括机构合并结果输出模块,以执行如下操作步骤:
记录所述多级匹配层中每个匹配层的数据变动指标;
若连续三个匹配层的数据变动指标小于预设数据变动指标,所述多级匹配层迭代完成,输出机构合并结果。
进一步而言,所述系统还包括组别单一性分析模块,以执行如下操作步骤:
若连续三个匹配层的数据变动指标小于所述预设数据变动指标,检测组别单一性,其中,所述组别单一性用于表示包括一个机构的组别数量占总组别数量的指标;
若所述组别单一性大于预设单一性,获取调整指令,根据所述调整指令对所述多级匹配层中存储的预设相似区间或预设相似度进行增量调节。
本说明书通过前述对一种基于动态多级匹配的大规模文献机构消歧方法的详细描述,本领域技术人员可以清楚得知道本实施例中一种基于动态多级匹配的大规模文献机构消歧方法,对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述得比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (5)
1.一种基于动态多级匹配的大规模文献机构消歧方法,其特征在于,所述方法包括:
从文献数据库中获取大规模文献机构原始数据;
按照字段处理模板对所述文献机构原始数据进行处理,并将处理得到的特征字段集按照预设格式文件进行存储后生成消歧原始数据;
建立多级匹配层,所述多级匹配层中的每个匹配层均包括重复识别单元和相似识别单元;
调度所述消歧原始数据,根据所述多级匹配层对所述消歧原始数据进行识别,若满足当前匹配层中所述重复识别单元和所述相似识别单元的预设条件,输出当前匹配层的机构合并组;
以当前匹配层的机构合并组作为下一匹配层的输入数据进行识别,以此类推,直至所述多级匹配层迭代完成,输出机构合并结果;
接入预设存储格式,以所述预设存储格式对所述机构合并结果中的消歧结果进行管理;
其中,所述多级匹配层中的第一匹配层包括;
获取预合并组,其中,所述预合并组为相同机构名称的合并结果,且每个合并组带有不相同的标识信息;
将所述预合并组输入所述第一匹配层中的重复识别单元对所述预合并组进行地域重复性识别,获取所属相同地域的组别;
再将所属相同地域的组别输入所述第一匹配层的相似识别单元进行两两相似度判断,将相似度大于第一预设相似区间的组别进行合并,输出第一机构合并结果;
所述多级匹配层的第二匹配层包括:
将所述第一机构合并结果输入所述第二匹配层的重复识别单元中进行邮编字段重复性识别,获取所属相同邮编字段的组别;
再将所属相同邮编字段的组别输入所述第二匹配层的相似识别单元进行两两相似度判断,将相似度大于第一预设相似度组别进行合并,输出第二机构合并结果;
所述多级匹配层的第三匹配层包括:
将所述第二机构合并结果输入所述第三匹配层的重复识别单元中进行前后名称重复性识别,获取前后名称相同的组别;
再将前后名称相同的组别输入所述第三匹配层的相似识别单元进行两两相似度判断,将相似度大于第二预设相似度组别进行合并,输出第三机构合并结果;
所述多级匹配层的第四匹配层包括:
将所述第三机构合并结果输入所述第四匹配层的重复识别单元中进行原始机构名称重复性识别,获取原始机构名称相同的组别;
再将原始机构名称相同的组别输入所述第四匹配层的相似识别单元进行两两相似度判断,将相似度大于第三预设相似度组别进行合并,输出第四机构合并结果。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
设置字段处理模板,其中,所述字段处理模板包括字符抽取单元、字符消除单元和字段转换单元;
利用所述字符抽取单元对所述文献机构原始数据进行特征字段抽取,将抽取得到的特征字段输入字符消除单元进行空格和特殊字符进行消除处理,将消除处理后的特征字段输入字段转换单元进行小写转换,输出所述特征字段集。
3.如权利要求1所述的方法,其特征在于,记录所述多级匹配层中每个匹配层的数据变动指标;
若连续三个匹配层的数据变动指标小于预设数据变动指标,所述多级匹配层迭代完成,输出机构合并结果。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
若连续三个匹配层的数据变动指标小于所述预设数据变动指标,检测组别单一性,其中,所述组别单一性用于表示包括一个机构的组别数量占总组别数量的指标;
若所述组别单一性大于预设单一性,获取调整指令,根据所述调整指令对所述多级匹配层中存储的预设相似区间或预设相似度进行增量调节。
5.一种基于动态多级匹配的大规模文献机构消歧系统,其特征在于,所述系统包括:
原始数据获取单元,所述原始数据获取单元用于从文献数据库中获取大规模文献机构原始数据;
原始数据处理单元,所述原始数据处理单元用于按照字段处理模板对所述文献机构原始数据进行处理,并将处理得到的特征字段集按照预设格式文件进行存储后生成消歧原始数据;
匹配层构建单元,所述匹配层构建单元用于建立多级匹配层,所述多级匹配层中的每个匹配层均包括重复识别单元和相似识别单元;
合并组输出单元,所述合并组输出单元用于调度所述消歧原始数据,根据所述多级匹配层对所述消歧原始数据进行识别,若满足当前匹配层中所述重复识别单元和所述相似识别单元的预设条件,输出当前匹配层的机构合并组;
合并结果输出单元,所述合并结果输出单元用于以当前匹配层的机构合并组作为下一匹配层的输入数据进行识别,以此类推,直至所述多级匹配层迭代完成,输出机构合并结果;
消歧结果管理单元,所述消歧结果管理单元用于接入预设存储格式,以所述预设存储格式对所述机构合并结果中的消歧结果进行管理;
所述系统还包括:
第一合并结果输出模块,以执行如下操作步骤:
获取预合并组,其中,所述预合并组为相同机构名称的合并结果,且每个合并组带有不相同的标识信息;
将所述预合并组输入第一匹配层中的重复识别单元对所述预合并组进行地域重复性识别,获取所属相同地域的组别;
再将所属相同地域的组别输入所述第一匹配层的相似识别单元进行两两相似度判断,将相似度大于第一预设相似区间的组别进行合并,输出第一机构合并结果;
第二合并结果输出模块,以执行如下操作步骤:
将所述第一机构合并结果输入第二匹配层的重复识别单元中进行邮编字段重复性识别,获取所属相同邮编字段的组别;
再将所属相同邮编字段的组别输入所述第二匹配层的相似识别单元进行两两相似度判断,将相似度大于第一预设相似度组别进行合并,输出第二机构合并结果;
第三合并结果输出模块,以执行如下操作步骤:
将所述第二机构合并结果输入第三匹配层的重复识别单元中进行前后名称重复性识别,获取前后名称相同的组别;
再将前后名称相同的组别输入所述第三匹配层的相似识别单元进行两两相似度判断,将相似度大于第二预设相似度组别进行合并,输出第三机构合并结果;
第四合并结果输出模块,以执行如下操作步骤:
将所述第三机构合并结果输入第四匹配层的重复识别单元中进行原始机构名称重复性识别,获取原始机构名称相同的组别;
再将原始机构名称相同的组别输入所述第四匹配层的相似识别单元进行两两相似度判断,将相似度大于第三预设相似度组别进行合并,输出第四机构合并结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311503238.1A CN117251532B (zh) | 2023-11-13 | 2023-11-13 | 一种基于动态多级匹配的大规模文献机构消歧方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311503238.1A CN117251532B (zh) | 2023-11-13 | 2023-11-13 | 一种基于动态多级匹配的大规模文献机构消歧方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117251532A CN117251532A (zh) | 2023-12-19 |
CN117251532B true CN117251532B (zh) | 2024-01-23 |
Family
ID=89135331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311503238.1A Active CN117251532B (zh) | 2023-11-13 | 2023-11-13 | 一种基于动态多级匹配的大规模文献机构消歧方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117251532B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851669A (zh) * | 2019-10-17 | 2020-02-28 | 清华大学 | 基于地理位置信息的机构命名排歧方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8527522B2 (en) * | 2008-09-05 | 2013-09-03 | Ramp Holdings, Inc. | Confidence links between name entities in disparate documents |
-
2023
- 2023-11-13 CN CN202311503238.1A patent/CN117251532B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851669A (zh) * | 2019-10-17 | 2020-02-28 | 清华大学 | 基于地理位置信息的机构命名排歧方法及装置 |
Non-Patent Citations (4)
Title |
---|
A novel methodology to disambiguate organization names: an application to EU Framework Programmes data;Andrea Ancona;Scientometrics;全文 * |
中文文献题录数据机构名称归一化研究;杨昭;任娟;;图书情报工作(04);全文 * |
科研实体名称规范的研究与实践;张建勇;数据分析与知识发现;全文 * |
面向学术文献的作者名消歧方法研究综述;沈喆;王毅;姚毅凡;成颖;;数据分析与知识发现(08);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117251532A (zh) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8533203B2 (en) | Identifying synonyms of entities using a document collection | |
US10883345B2 (en) | Processing of computer log messages for visualization and retrieval | |
CN103279478B (zh) | 一种基于分布式互信息文档特征提取方法 | |
CN109117440B (zh) | 一种元数据信息获取方法、系统和计算机可读存储介质 | |
CN104573130A (zh) | 基于群体计算的实体解析方法及装置 | |
CN110334343B (zh) | 一种合同中个人隐私信息抽取的方法和系统 | |
CN103995828B (zh) | 一种云存储日志数据分析方法 | |
CN111127068A (zh) | 一种工程量清单自动组价方法和装置 | |
CN112052396A (zh) | 课程匹配方法、系统、计算机设备和存储介质 | |
CN103034656B (zh) | 章节内容分层方法和装置、文章内容分层方法和装置 | |
US10467276B2 (en) | Systems and methods for merging electronic data collections | |
CN112948429B (zh) | 一种数据报送方法、装置和设备 | |
CN117251532B (zh) | 一种基于动态多级匹配的大规模文献机构消歧方法 | |
CN113505117A (zh) | 基于数据指标的数据质量评估方法、装置、设备及介质 | |
TWI785724B (zh) | 資訊倉庫創建方法、電子設備及儲存介質 | |
CN112214494B (zh) | 检索方法及装置 | |
Nguyen et al. | Efficient agglomerative hierarchical clustering for biological sequence analysis | |
CN113434413A (zh) | 基于数据差异的数据测试方法、装置、设备及存储介质 | |
CN116881430B (zh) | 一种产业链识别方法、装置、电子设备及可读存储介质 | |
CN107577690B (zh) | 海量信息数据的推荐方法及推荐装置 | |
CN112258235A (zh) | 一种电力营销稽核新业务发现方法及系统 | |
CN112181490B (zh) | 功能点评估法中功能类别的识别方法、装置、设备及介质 | |
CN115392240B (zh) | 基于文本结构的数据自动提取处理方法、装置及系统 | |
CN112612945B (zh) | 一种分类搜索的方法和装置 | |
Melnyk et al. | TOWARDS THE DEVELOPMENT OF A CLASSIFICATION MODEL FOR TECHNICAL DOCUMENTS IN KNOWLEDGE DISCOVERY SYSTEMS. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |