CN110941957A - 交通科技数据标引方法及系统 - Google Patents

交通科技数据标引方法及系统 Download PDF

Info

Publication number
CN110941957A
CN110941957A CN201911176094.7A CN201911176094A CN110941957A CN 110941957 A CN110941957 A CN 110941957A CN 201911176094 A CN201911176094 A CN 201911176094A CN 110941957 A CN110941957 A CN 110941957A
Authority
CN
China
Prior art keywords
data
indexing
classification number
processing
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911176094.7A
Other languages
English (en)
Inventor
张丽
张晗
王玉田
郭瑜
林垚
秦晓燕
刘红英
罗琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Academy Of Science Ministry Of Transport
China Academy of Transportation Sciences
Original Assignee
Academy Of Science Ministry Of Transport
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Academy Of Science Ministry Of Transport filed Critical Academy Of Science Ministry Of Transport
Priority to CN201911176094.7A priority Critical patent/CN110941957A/zh
Publication of CN110941957A publication Critical patent/CN110941957A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种交通科技数据标引方法及系统,该方法包括:加载需要进行标引的数据;确定所述数据的数据类型,将所述数据类型根据标准数据库结构进行转换并导入处理数据库;对导入处理数据库的所述数据进行分词处理,获取N个第一关键词;根据M个所述第一关键词,进行自动标引;其中M和N为正整数,且M≤N。本发明的交通科技数据标引方法及系统,能够快速、高效、准确的进行交通科技数据的辅助标引,可以通过对大批量交通科技数据进行关键词和分类号的分词识别、提取,自动进行标引或者辅助人工标引人员进行标引工作,大大较少人工标引的工作强度和工作量。

Description

交通科技数据标引方法及系统
技术领域
本发明涉及一种数据标引方法,特别是一种交通科技数据标引方法。本发明还涉及
背景技术
建立文献数据仓库的关键步骤是文献标引、标引质量的优劣直接影响计算机检索效率。目前,每个文献库都有专职从事标引工作的标引人员,也即一般需要大量人员进行人工标引。但是,由于人工标引所存在的效率低,易出错的问题,目前的发展趋势是人工标引慢慢的向机器自动标引过渡。
一般来说,数据仓库在建设过程中,不仅仅局限于对已有数据的直接使用,更多的是对多来源数据的整合、归纳、聚类,使各数据能够在统一的框架下主题化、标签化,从而挖掘出科技数据中潜藏的价值,为更加智能化、个性化的需求来服务。如何从大量的文本数据中提炼其核心类别、核心点则是在系统建设中的重要的一点。目前的数据标引系统仍可能需要大量人工标引介入,数据标引效率较低,同时标引结果的准确性也不高。
因此,现有技术存在的上述问题亟待改进。
发明内容
鉴于现有技术存在的上述问题,本发明的一方面目的在于交通科技数据标引方法。该方法能够大量减少人工标引工作量,极大地提高数据标引效率。
为了实现上述目的,本发明的一个实施例提供了一种交通科技数据标引方法,包括:
加载需要进行标引的数据;
确定所述数据的数据类型,将所述数据类型根据标准数据库结构进行转换并导入处理数据库;
对导入处理数据库的所述数据进行分词处理,获取N个第一关键词;
根据M个所述第一关键词,进行自动标引;
其中M和N为正整数,且M≤N。
作为优选,在进行自动标引之前,对经过分词处理的N个所述第一关键词进行聚类,得到聚类词表,计算聚类词表中各个词的先验概率和对应的TF-IDF值得乘积,并根据得出的结果进行排序,抽取序列中前M个第一关键词,进行自动标引。
作为优选,所述M为选自3到8之间的正整数。
作为优选,该方法还包括:
计算关键词中的共现组合情况,与已有标准数据进行比对后,提取频次最高的中图分类号;
检索中图专业词表,抽取有效匹配数据的分类号;
将预设专业词表的分类号数据作为标准点加入聚类词表,计算各关键词的组合特征向量,并计算与其最接近的标准点,抽取该标准点数据的分类号作为学科相似分类号;
使用中图-学科分类号映射表,得出学科映射分类号;
对学科相似分类号和学科映射分类号取交集作为学科分类号结果。
作为优选,计算学科分类号时,通过以下优先级进行处理:
检索学科专业词表,抽取有效匹配数据的分类号;
将专业词表的有效匹配数据的分类号加入聚类词表。
本发明的另一方面,还提供了一种交通科技数据标引系统,该系统包括:
数据输入单元,其配置为加载需要进行标引的数据;
数据处理单元,其配置为确定所述数据的数据类型,将所述数据类型根据标准数据库结构进行转换并导入处理数据库;对导入处理数据库的所述数据进行分词处理,获取N个第一关键词;
数据标引单元,根据M个所述第一关键词,进行自动标引;其中M和N为正整数,且M≤N。
作为优选,所述数据处理单元还配置为:在进行自动标引之前,对经过分词处理的N个所述第一关键词进行聚类,得到聚类词表,计算聚类词表中各个词的先验概率和对应的TF-IDF值得乘积,并根据得出的结果进行排序,抽取序列中前M个第一关键词,进行自动标引。
作为优选,所述M为选自3到8之间的正整数。
作为优选,所述数据处理单元还配置为:
计算关键词中的共现组合情况,与已有标准数据进行比对后,提取频次最高的中图分类号;
检索中图专业词表,抽取有效匹配数据的分类号;
将预设专业词表的分类号数据作为标准点加入聚类词表,计算各关键词的组合特征向量,并计算与其最接近的标准点,抽取该标准点数据的分类号作为学科相似分类号;
使用中图-学科分类号映射表,得出学科映射分类号;
对学科相似分类号和学科映射分类号取交集作为学科分类号结果。
作为优选,计算学科分类号时,通过以下优先级进行处理:
检索学科专业词表,抽取有效匹配数据的分类号;
将专业词表的有效匹配数据的分类号加入聚类词表。
与现有技术相比较,本发明的交通科技数据标引方法及系统,能够快速、高效、准确的进行交通科技数据的辅助标引,可以通过对大批量交通科技数据进行关键词和分类号的分词识别、提取,自动进行标引或者辅助人工标引人员进行标引工作,大大较少人工标引的工作强度和工作量。
应当理解,前面的一般描述和以下详细描述都仅是示例性和说明性的,而不是用于限制本公开。
本申请文件提供本公开中描述的技术的各种实现或示例的概述,并不是所公开技术的全部范围或所有特征的全面公开。
附图说明
图1为本发明的交通科技数据标引方法的流程图。
图2为本发明的交通科技数据标引方法的数据库的结构示意图。
图3为本发明的交通科技数据标引方法中分词工具的结构框图。
图4为本发明的交通科技数据标引系统的基本结构框图。
具体实施方式
为了使得本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外定义,本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,还可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
为了保持本公开实施例的以下说明清楚且简明,本公开省略了已知功能和已知部件的详细说明。
如图1所示,本发明的一个实施例提供了一种交通科技数据标引方法,包括:
加载需要进行标引的数据;
确定所述数据的数据类型,将所述数据类型根据标准数据库结构进行转换并导入处理数据库;
对导入处理数据库的所述数据进行分词处理,获取N个第一关键词;
根据M个所述第一关键词,进行自动标引;
其中M和N为正整数,且M≤N。
作为优选,在进行自动标引之前,对经过分词处理的N个所述第一关键词进行聚类,得到聚类词表,计算聚类词表中各个词的先验概率和对应的TF-IDF值得乘积,并根据得出的结果进行排序,抽取序列中前M个第一关键词,进行自动标引。
作为优选,所述M为选自3到8之间的正整数。
作为优选,该方法还包括:
计算关键词中的共现组合情况,与已有标准数据进行比对后,提取频次最高的中图分类号;
检索中图专业词表,抽取有效匹配数据的分类号;
将预设专业词表的分类号数据作为标准点加入聚类词表,计算各关键词的组合特征向量,并计算与其最接近的标准点,抽取该标准点数据的分类号作为学科相似分类号;
使用中图-学科分类号映射表,得出学科映射分类号;
对学科相似分类号和学科映射分类号取交集作为学科分类号结果。
作为优选,计算学科分类号时,通过以下优先级进行处理:
检索学科专业词表,抽取有效匹配数据的分类号;
将专业词表的有效匹配数据的分类号加入聚类词表。
辅助标引工具核心数据为科技人员、科技项目、科技成果和科技文献4类数据,因此原生数据表即为科技人员、科技项目、科技成果和科技文献数据基础信息表。在原生表基础上,生成标引信息表,用于后续标引处理。通过TF-IDF权重表、分类号聚类表,对标引信息进行处理,并整合生成关键词标引结果表、分类号标引结果表。
(1)科技人员、科技项目、科技成果和科技文献为原生数据主表,表结构与公司数据仓库已有数据存储结构一致。部分科技人员信息缺失时,可用相关科技文献数据对其进行适当填充;
(2)自动标引处理过程需要自建词库进行支持,由于最后对科技人员进行分组处理,越准确完善的自建词库对自动标引结果的准确性提升越大。
(3)建立有效的调用接口。在本期数据标引处理过程中,为了提高数据标引的实效性,同时避免核心数据与外界进行过多接触,需要将其与公司数据仓库数据管控平台进行对接,相关处理数据均保存至公共存储区。对接过程中需要统一两方数据的输入、输出数据结构统一标准,并建立适当的数据标引处理请求提交与数据处理结果返回机制,在进行数据处理时,通过调用管控平台内部数据,自动计算并监控数据处理情况,使数据标引数据结果能够更加快速的反映在科技信息相关产品及服务上。
开发自动标引系统目的就是为了解决公司数据仓库在标引方面对标引质量、标引效率的问题。此系统能大量减少人工标引工作量,极大地提高数据标引效率,同时较好地保证了标引结果的准确性,同时为数据开发及加工人员工作提供有效的支持。
在公司数据仓库基础数据资源中要对系统中的科技项目、科技人员、科技成果等数据按照《中国图书资料分类法(第四版)》和《中华人民共和国学科分类与代码(国家标准GB/T 13745-2009)》等分类标准进行分类标引和关键词标引,达到标引规范科学,标引结果准确,标引复用性高的要求。
根据数据加工管理软件的建设任务,为软件的用户群包括系统管理员、数据开发人员、数据加工人员3类用户提供帮助:
(1)系统管理员,负责系统整体运行保障,实现数据导入与处理、数据库管理,管理系统用户、设置用户角色等;
(2)数据开发人员,可以调用相关软件接口,实现对目标数据的关键词、分类号的批量标引处理;
(3)数据加工人员,可以通过UI,实现对目标数据的关键词、分类号的标引处理。
参与本项目的所有工作人员将接受招标方组织的保密安全教育,严格遵守《保密法》,对在数据采集、整理、标引、关联等服务过程中涉及到的数据内容承担保密义务,保证采购方数据资料的安全、完整、不摄制、翻印、复制或以任何方式对外透露或者公布采购方的数据内容;
1.3引用文档
Figure BDA0002289982990000061
1.4标识
Figure BDA0002289982990000062
Figure BDA0002289982990000071
2工具概述
2.1建设目标
建立快速、高效、准确的科技数据辅助标引系统,对大批量科技数据进行关联词和分类号的自动识别、提取,用于辅助人工标引人员进行标引工作,大大减少人工标引的工作强度与工作量。
支持对各项标引结果进行统计性分析,在对分类准确精度无较高要求的情况下,支持对大批量科技数据进行全自动的关联词与分类号提取,为人物画像、智能推荐等功能提供数据支持。
2.2建设范围和内容
辅助标引工具建设内容包括词表构建、中文分词、关键词抽取、分类号计算:
2.2.1词表构建
词库数据包括自建词库、专业词库、映射词表三类。
建立自建词库是,通过对核心期刊论文进行筛选并抽取包含标题、摘要、关键词、中图分类号的有效数据,对其中关键词进行统计并计算其字符数、频次、主频、标准拟合度、分类聚合度、时间变化趋势等多个参数。
对各参数通过sigmod函数进行标准化处理,根据数据具体分布情况确定参数使其中位数标准值在0.5左右。对各标准化参数分配权重并计算与原始关键词的拟合度,并通过梯度下降计算其最优权重分配方案。将其作为各词的先验概率加入后续计算。
专业词库分为:
机械工业分类号与关键词对应表
无线电电子学、电信技术分类号与关键词对应表
电工技术分类号与关键词对应表
金属学与金属工艺分类号与关键词对应表
建筑科学分类号与关键词对应表
环境科学与安全科学分类号与关键词对应表
工程技术分类号与关键词对应表
自动化技术、计算机技术分类号与关键词对应表
经济分类号与关键词对应表
轻工业、手工业分类号与关键词对应表
水利工程分类号与关键词对应表
医学分类号与关键词对应表
农业分类号与关键词对应表
化学工业分类号与关键词对应表
该部分词表需要整理得出。
映射词表分为专业词-中图分类映射词表、专业词-学科分类映射词表、中图分类-学科分类号映射表。该部分词表需要整理得出。
2.2.2中文分词
分词通过IKanalyzer对标引数据进行分词,并将分词结果录入数据库。分词模式采用智能分词,对元数据中可能出现的词的组合进行能地提取。
同时,分词器可外挂已整理专业词表,作为在分词过程中高优先度的可用信息。
2.2.3关键词标引
对公司数据仓库中的科技项目、科技人员、科技成果等数据,进行关键词自动标引。支持自定义关键词个数,多个关键词用半角分号分隔。
在进行关键词标引前,需先对自建词库进行聚类。在对已采集文献分词结果进行迭代后,排除无效词(连续中文字符数少于2or连续英文字符数少于4)后,使用word2vec开源包对剩余分词结果进行聚类。其中size、min_count、window、n_cluster等核心参数根据系统资源与数据量确定,得到最终的聚类词表。词向量过程中需要使用的自然语言语料为txt格式,分隔符为“空格”;聚类使用的数据为csv格式,需保证处理关键词中不包含全半角“,”、全半角“””。
通过计算分词结果中各词的TF-IDF值,并引入词表中的先验概率,带入贝叶斯公式中。由于关键词提取针对同一条数据部分取值可视为常量,故可直接计算各词先验概率与对应TF-IDF值得乘积,对分词结果进行排序,并抽取前3-8个词作为其关键词。
2.2.1分类号标引
按照《中国图书资料分类法(第四版)》和《中华人民共和国学科分类与代码(国家标准GB/T 13745-2009)》等分类标准,对公司数据仓库中的科技项目、科技人员、科技成果等数据进行自动化分类标引,并支持自定义分类号的个数。
计算中图分类号时,通过以下优先级进行处理。:
a)计算关键词中的共现组合情况,与已有标准数据进行比对后,提取频次最高的中图分类号(无学科分类号数据)作为其结果。
b)检索中图专业词表,抽取有效匹配数据的分类号。
c)将专业词表的数据作为标准点加入聚类词表,计算各关键词的组合特征向量,并计算与其最接近的标准点,抽取该标准点数据的分类号。
a)计算学科分类号时,通过以下优先级进行处理。
b)检索学科专业词表,抽取有效匹配数据的分类号。
c)将专业词表的数据作为标准点加入聚类词表,计算各关键词的组合特征向量,并计算与其最接近的标准点,抽取该标准点数据的分类号作为学科相似分类号。同时通过使用中图-学科分类号映射表,得出学科映射分类号。对两个分类结果取交集作为学科分类号结果。
2.2.3分类号映射
根据采购人提供的中图分类法与其他分类标准的映射关系,将默认自动标引的中图分类号映射至目标分类号。
3整体设计
3.1项目部署设计
3.5.1硬件环境
window 7/10系统,32G以上内存,2T以上存储空间;
3.5.2软件环境
SQLSERVER 2008R2,需开启advanced options、Ole Automation Procedures、CMD_SHEEL、clr enabled等环境配置。
Mysql 5.7
Python 3,需包含pyodbc、pymysql、numpy、pandas、sklearn等相关包。
Navicat或相关数据库管理工具。
3.5.3网络环境
保证TCP/IP 1433、3306端口畅通。
3.2功能结构设计
建立一个稳定、高效、准确的辅助标引系统,对公司数据仓库数据进行自动标引,提高了数据的处理效率,减少了数据维护周期;减少了标引工作人员的工作强度,辅助其更好地完成标引工作;为公司数据仓库数据提供了标引数据支持,使各数据之间能进行有效分类,为其提供有力的数据支撑。基于以上的标准,本工具将具备以下功能:
Figure BDA0002289982990000101
3.3性能设计
对公司数据仓库文献数据,标引效率约为100000条/天,对公司数据仓库非文献数据,标引效率约为50000条/天。
4系统功能
4.1公共UI组件
该工具作为接入数据管控平台的方式提供辅助标引处理服务,所有处理过程均在后台执行,不涉及任何前台操作,故不存在公共UI组件。
4.2公共数据操作
1)概述
辅助标引工具由管控平台进行直接调用,工具本身不存储标引所需基础数据。在进行辅助标引处理时,标引工具将调用公共存储区中的对应数据至相应处理库中,进行后续标引处理。在标引处理完成后,同样将结果数据写入相应公共存储区指定位置,以供管控平台调用。
2)业务逻辑
辅助标引业务主要对科技人员数据进行标引处理。在标引计算过程中对于不同的处理请求,标引工具在公共存储区中使用的数据有所不同,以下为标引处理过程中需要使用的数据说明:
参数指定待处理数据、科技人员基本信息表、科技人员履历表(可为空).
接收到标引处理请求时,工具将会根据请求类型调用相应类型的处理模块,同时读取待处理数据及相关基础数据表,进行标引处理。由于标引周期较长,在成功进行处理后,会给调用接口返回正在处理的信号。在标引处理过程中,工具将对处理进度及状态进行跟踪,并将其记录在工具运行日志里,管理用可通过查看该日志跟踪系统处理情况。在处理结束后,工具将自动将标引结果写回公共存储区指定位置。
3)公共数据管理
标引工具中使用数据分为基础数据、计算数据、过程数据、日志数据、结果数据。
基础数据为处理所需各类元数据。该数据存储于公共存储区,由管控平台负责更新及维护。标引工具不涉及该部分数据的维护及管理。
计算数据为标引过程中计算依赖数据,包括数据数据处理规则、映射字典等。该部分数据存储于标引计算库中,在使用过程中不需要进行管理及维护,在工具升级时,由我方进行版本升级。
过程数据为标引处理过程中产生的临时数据,该部分数据无太大价值,且占用了较多的系统资源。该部分数据存储于计算库中,在每次标引处理结束后,由标引工具进行自动清理。
日志数据为对标引处理情况进行记录的数据,可通过日志数据对正在处理的标引状态及标引处理历史进行查看。该部分数据存储于标引计算库中,在使用过程中不需要进行管理及维护,在工具运行时会自动向其补充数据。
结果数据为标引处理结果。该数据存储于公共存储区,由管控平台负责版本管理及维护。标引工具不涉及该部分数据的维护及管理。
4.3输入及输出
4)概述
辅助标引工具由管控平台进行直接调用,对于数据对接的多个方面需要有统一的标准,否则会对处理过程的稳定性造成一定的负面影响。以下将分别从几个方面说明具体要求。
5)业务逻辑
管控平台调用辅助标引工具,提交数据处理相关参数,处理工具调用后台处理脚本对数据进行标引处理,同时根据进度对处理日志表进行更新,并返回目前数据处理进度。辅助标引工具主要对人员、项目、成果数据进行处理。同时对于其他类型数据在符合数据要求时,也可进行处理,但其数据结构与内容需要与三类资源相似。所以对需要进行标引处理的数据结构拥有统一的标准,在计算时才能尽可能地提高标引结果的完整性与准确性。
6)输入数据结构
调用接口通过参数控制后台处理脚本执行,通过Mysql ODBC对相关数据进行调用,避免了从接口传输数据的风险,其处理效率也有一定提高。
参数说明如下:
Figure BDA0002289982990000121
2.其中Type类型如下:
Figure BDA0002289982990000122
Figure BDA0002289982990000131
5)处理过程
通过Mysql ODBC对需要处理的数据进行导入,对采购方提交的需要进行标引处理的数据进行结构合法性判断,确认各数据具体数量、各字段填充率等信息,对存在问题或疑问的数据进行异常数据反馈,确保双方使用的数据结构保持一致且数据质量基本达到要求。经过系统审核自动进行后续的标引处理。
标引处理可细分为数据解析层、数据逻辑处理层、数据管理层三部分。
解析层功能为对数据进行分析及标准化处理
对已接收数据的结构及各项信息的完备程度进行初步分析,并根据约定的数据结构对部分异常数据进行标准化处理,在不修改原生数据的情况下,使用标准化处理过程使数据拥有统一标准。
对已经过标准化处理后的数据,调用分词模块对其进行分词处理,将处理结果存入标引处理数据库。
逻辑层为标引处理的核心模块,其功能为通过基础词库与自定义词库各词与待处理数据相关词的综合权重对公司数据仓库数据进行关键词标注处理。通过对标注关键词的分类聚类结果进行分类号标注处理,并根据需求通过分类号映射表将其映射至指定分类。
逻辑层对接收数据进行标引并得到处理结果。对相同ID数据直接提取历史处理结果,不再重复计算以提高整体标引效率。
管理层功能分为数据的导出与数据处理日志管理。数据导出功能可对已处理完成的标引数据结果导出数据源目标位置。在与数据管控平台进行对接后,也可根据不同需求进行自定义导出。日志管理主要对标引历史处理情况进行记录,同时对少量异常数据进行记录,保留处理日志,便于后期系统管理员对标引结果部分的优化与维护。
6)输出数据结构
Figure BDA0002289982990000132
Figure BDA0002289982990000141
4.4日志
1)概述
辅助标引日志分为处理日志及标引结果日志。
处理日志用于记录辅助标引工具的运行情况,用户可通过处理日志查看目前工具运行状态,同时对历史记录进行查看,当处理过程出现异常时,会通过该日志进行异常记录,便于对工具处理状况进行优化。
标引结果日志记录辅助标引工具处理具体情况。可对标引记录数、有效标引结果记录数等相关信息进行记录。若需要生成辅助标引相关统计报告,可通过标引结果日志进行查看。
2)适用用户
数据管控平台管理员。
3)输入数据结构
日志在标引处理过程中根据标引工具参数及具体处理情况进行自动加载,日志的生成不涉及外部参数。日志的调用可通过API中相关方法进行查看。
4)处理过程
日志自动获取当前时间、调用标引工具使用参数、目前执行进度、元数据各项统计指标、处理结果各项统计指标等信息,对相关日志表进行自动化编写,不需要人工介入。
5)输出数据结构
处理日志:
Figure BDA0002289982990000142
Figure BDA0002289982990000151
标引结果日志:
Figure BDA0002289982990000152
6)物理存储
日志数据将存储于数据标引处理过程数据库中,也可通过相关方法对其进行调用或导出。
5业务功能
5.1全量数据标引处理
1)概述
全量数据标引处理相对使用频率较低,该功能将对约定所有目标数据进行标引处理。由于标引信息多为描述性文字,其修改幅度不大,与之对应标引结果也不会有太大变化,且处理周期相对较长。
2)限制条件
在进行全库科技人员、项目、成果数据标引处理时,需保证使用数据及科技文献数据不处于更新过程中。
3)适用场景
建议仅在大批量数据内容变化时,或标引依赖的基础词库、自定义词库或相关标引算法存在改动时,对全量数据进行标引处理。
4)业务逻辑
加载目前所有需要进行标引的数据至标引处理数据库,对数据经过结构整合及分类后,依次调用对应数据标引工具进行计算并返回结果,同时对处理情况通过日志记性记录。该业务逻辑等同于分别依次调用人员、项目、成果对应的标引处理程序。
5)输入数据结构
调用接口通过参数控制后台处理脚本执行,通过Mysql ODBC对相关数据进行调用,避免了从接口传输数据的风险,其处理效率也有一定提高。
参数说明如下:
参数 参数类型 说明
DataBase string
Tbname string
Type int 9
6)输入数据字段限制和生成规则
当参数“Type”值为0时,不再获取其他参数,直接对约定位置的全量科技人员、项目、成果数据进行加载并计算标引结果。
7)处理过程
通过对Mysql ODBC读取的全量数据进行加载,调用自动标引模块,对其进行标引处理。处理完后将结果数据写入指定数据库。
8)输出数据结构
Figure BDA0002289982990000171
9)物理存储
标引处理过程整体周期较长,故不直接返回处理结果数据,改为返回目前日志中处理过程的进度情况。处理完毕后数据将直接写回指定数据库。
5.2人员(指定/非指定)数据标引处理
1)概述
人员数据标引处理时标引工具针对科技人员数据的标引模块。其中当指定数据源时,仅对指定部分数据进行标引处理。当不指定数据源时,将加载人员的全量数据进行标引处理。
2)限制条件
在进行人员数据标引处理时,需保证目标数据及科技文献数据不处于更新过程中。
3)适用场景
指定人员数据标引处理相对较为灵活,当需要对少量人员数据进行标引时均可调用。全量人员数据标引处理所耗费周期较长,建议仅在大批量数据内容变化时,或标引依赖的基础词库、自定义词库或相关标引算法存在改动时,对全量人员数据进行标引处理。
4)业务逻辑
加载目前所有需要进行标引的数据至标引处理数据库,对数据经过结构整合后,调用人员数据自动标引模块进行计算并返回结果,同时对处理情况通过日志记性记录。
5)输入数据结构
调用接口通过参数控制后台处理脚本执行,通过Mysql ODBC对相关数据进行调用,避免了从接口传输数据的风险,其处理效率也有一定提高。
参数说明如下:
参数 参数类型 说明
DataBase string
Tbname string
Type int 9
6)输入数据字段限制和生成规则
当参数“Type”值为1时,不再获取其他参数,直接对约定位置的全量科技人员数据进行加载并计算标引结果。
当参数“Type”值为2时,从指定位置数据库表中加载对应人员数据并进行数据结构查验,通过数据合法性差验后对此数据进行加载并计算标引结果。
7)处理过程
通过对Mysql ODBC读取的人员数据进行加载,调用人员自动标引模块,对其进行标引处理。处理完后将结果数据写入指定数据库。
8)输出数据结构
Figure BDA0002289982990000181
Figure BDA0002289982990000191
9)物理存储
标引处理过程整体周期较长,故不直接返回处理结果数据,改为返回目前日志中处理过程的进度情况。处理完毕后数据将直接写回指定数据库。
5.3项目(指定/非指定)数据标引处理
1)概述
项目数据标引处理时标引工具针对科技项目数据的标引模块。其中当指定数据源时,仅对指定部分数据进行标引处理。当不指定数据源时,将加载项目的全量数据进行标引处理。
2)限制条件
在进行项目数据标引处理时,需保证目标数据及科技文献数据不处于更新过程中。
3)适用场景
指定项目数据标引处理相对较为灵活,当需要对少量项目数据进行标引时均可调用。全量项目数据标引处理所耗费周期较长,建议仅在大批量数据内容变化时,或标引依赖的基础词库、自定义词库或相关标引算法存在改动时,对全量项目数据进行标引处理。
4)业务逻辑
加载目前所有需要进行标引的数据至标引处理数据库,对数据经过结构整合后,调用项目数据自动标引模块进行计算并返回结果,同时对处理情况通过日志记性记录。
5)输入数据结构
调用接口通过参数控制后台处理脚本执行,通过Mysql ODBC对相关数据进行调用,避免了从接口传输数据的风险,其处理效率也有一定提高。
参数说明如下:
Figure BDA0002289982990000192
Figure BDA0002289982990000201
9)物理存储
标引处理过程整体周期较长,故不直接返回处理结果数据,改为返回目前日志中处理过程的进度情况。处理完毕后数据将直接写回指定数据库。
5.4成果(指定/非指定)数据标引处理
1)概述
成果数据标引处理时标引工具针对科技成果数据的标引模块。其中当指定数据源时,仅对指定部分数据进行标引处理。当不指定数据源时,将加载成果的全量数据进行标引处理。
2)限制条件
在进行成果数据标引处理时,需保证目标数据及科技文献数据不处于更新过程中。
3)适用场景
指定成果数据标引处理相对较为灵活,当需要对少量成果数据进行标引时均可调用。全量成果数据标引处理所耗费周期较长,建议仅在大批量数据内容变化时,或标引依赖的基础词库、自定义词库或相关标引算法存在改动时,对全量成果数据进行标引处理。
4)业务逻辑
加载目前所有需要进行标引的数据至标引处理数据库,对数据经过结构整合后,调用成果数据自动标引模块进行计算并返回结果,同时对处理情况通过日志记性记录。
5)输入数据结构
调用接口通过参数控制后台处理脚本执行,通过Mysql ODBC对相关数据进行调用,避免了从接口传输数据的风险,其处理效率也有一定提高。
参数说明如下:
参数 参数类型 说明
DataBase string
Tbname string
Type int 9
6)输入数据字段限制和生成规则
当参数“Type”值为5时,不再获取其他参数,直接对约定位置的全量科技成果数据进行加载并计算标引结果。
当参数“Type”值为6时,从指定位置数据库表中加载对应成果数据并进行数据结构查验,通过数据合法性差验后对此数据进行加载并计算标引结果。
7)处理过程
通过对Mysql ODBC读取的成果数据进行加载,调用成果自动标引模块,对其进行标引处理。处理完后将结果数据写入指定数据库。
8)输出数据结构
Figure BDA0002289982990000211
9)物理存储
标引处理过程整体周期较长,故不直接返回处理结果数据,改为返回目前日志中处理过程的进度情况。处理完毕后数据将直接写回指定数据库。
6接口设计
6.1外部接口
通过dataTrans()方法,设置参数,程序自动加载相应的sql处理脚本。数据处理在SQL SERVER中完成,并得到结果表。同时通过查询接口queryDataExePro(),查询日志信息,实时反馈处理情况。
6.2内部接口
标引处理过程中,需要使用分词工具接口。这里使用的是IK Analyzer 2012。IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。
7系统错误处理设计
7.1接口调用异常
调用接口异常时,管控平台与接口之间的通信发生障碍,此时前段可直接获悉问题,并对两方之间的传输问题进行维护。
7.2数据源异常
但参数错误或其他原因导致无法对目标数据进行处理时,会直接抛出无有效数据的信息并在日志表中进行记录。处理人员可仔细核查日志信息中各参数是否准确,并对相关错误参数进行调整。
7.3数据处理过程异常
因不可控原因导致处理过程崩溃时,日志表会记录已正常执行的最近的处理进度,同时日志会定期对处理情况进行扫描,当发现已停止处理时,会对日志相关记录进行一场执行标记。处理人员可通过日志查询相关异常情况并联系开发人员对工具进行维护。
8数据库设计
8.1数据库逻辑设计
参见图2所示。
辅助标引工具核心数据为科技人员、科技项目、科技成果3类数据,因此原生数据表即为科技人员、科技项目、科技成果数据基础信息表。在原生表基础上,生成标引信息表,用于后续标引处理。通过TF-IDF权重表、分类号聚类表,对标引信息进行处理,并整生成关键词标引结果表、分类号标引结果表。
(1)科技人员、科技项目、科技成果为原生数据主表,表结构与公司数据仓库已有数据存储结构一致。部分科技人员信息缺失时,可用相关科技文献数据对其进行适当填充;
(2)自动标引处理过程需要自建词库进行支持,越准确完善的自建词库对自动标引结果的准确性提升越大。,由于最后对科技人员进行分组处理。
当然,以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.交通科技数据标引方法,包括:
加载需要进行标引的数据;
确定所述数据的数据类型,将所述数据类型根据标准数据库结构进行转换并导入处理数据库;
对导入处理数据库的所述数据进行分词处理,获取N个第一关键词;
根据M个所述第一关键词,进行自动标引;
其中M和N为正整数,且M≤N。
2.如权利要求1所述的交通科技数据标引方法,在进行自动标引之前,对经过分词处理的N个所述第一关键词进行聚类,得到聚类词表,计算聚类词表中各个词的先验概率和对应的TF-IDF值得乘积,并根据得出的结果进行排序,抽取序列中前M个第一关键词,进行自动标引。
3.如权利要求1所述的交通科技数据标引方法,,所述M为选自3到8之间的正整数。
4.如权利要求1所述的交通科技数据标引方法,该方法还包括:
计算关键词中的共现组合情况,与已有标准数据进行比对后,提取频次最高的中图分类号;
检索中图专业词表,抽取有效匹配数据的分类号;
将预设专业词表的分类号数据作为标准点加入聚类词表,计算各关键词的组合特征向量,并计算与其最接近的标准点,抽取该标准点数据的分类号作为学科相似分类号;
使用中图-学科分类号映射表,得出学科映射分类号;
对学科相似分类号和学科映射分类号取交集作为学科分类号结果。
5.如权利要求4所述的交通科技数据标引方法,,计算学科分类号时,通过以下优先级进行处理:
检索学科专业词表,抽取有效匹配数据的分类号;
将专业词表的有效匹配数据的分类号加入聚类词表。
6.交通科技数据标引系统,该系统包括:
数据输入单元,其配置为加载需要进行标引的数据;
数据处理单元,其配置为确定所述数据的数据类型,将所述数据类型根据标准数据库结构进行转换并导入处理数据库;对导入处理数据库的所述数据进行分词处理,获取N个第一关键词;
数据标引单元,根据M个所述第一关键词,进行自动标引;其中M和N为正整数,且M≤N。
7.如权利要求6所述的交通科技数据标引系统,所述数据处理单元还配置为:在进行自动标引之前,对经过分词处理的N个所述第一关键词进行聚类,得到聚类词表,计算聚类词表中各个词的先验概率和对应的TF-IDF值得乘积,并根据得出的结果进行排序,抽取序列中前M个第一关键词,进行自动标引。
8.如权利要求6所述的交通科技数据标引系统,所述M为选自3到8之间的正整数。
9.如权利要求6所述的交通科技数据标引系统,所述数据处理单元还配置为:
计算关键词中的共现组合情况,与已有标准数据进行比对后,提取频次最高的中图分类号;
检索中图专业词表,抽取有效匹配数据的分类号;
将预设专业词表的分类号数据作为标准点加入聚类词表,计算各关键词的组合特征向量,并计算与其最接近的标准点,抽取该标准点数据的分类号作为学科相似分类号;
使用中图-学科分类号映射表,得出学科映射分类号;
对学科相似分类号和学科映射分类号取交集作为学科分类号结果。
10.如权利要求9所述的交通科技数据标引系统,计算学科分类号时,通过以下优先级进行处理:
检索学科专业词表,抽取有效匹配数据的分类号;
将专业词表的有效匹配数据的分类号加入聚类词表。
CN201911176094.7A 2019-11-26 2019-11-26 交通科技数据标引方法及系统 Pending CN110941957A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911176094.7A CN110941957A (zh) 2019-11-26 2019-11-26 交通科技数据标引方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911176094.7A CN110941957A (zh) 2019-11-26 2019-11-26 交通科技数据标引方法及系统

Publications (1)

Publication Number Publication Date
CN110941957A true CN110941957A (zh) 2020-03-31

Family

ID=69908554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911176094.7A Pending CN110941957A (zh) 2019-11-26 2019-11-26 交通科技数据标引方法及系统

Country Status (1)

Country Link
CN (1) CN110941957A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732701A (zh) * 2021-01-26 2021-04-30 长威信息科技发展股份有限公司 一种数据智能标引和自动化数据清洗的方法及系统
CN113704412A (zh) * 2021-08-31 2021-11-26 交通运输部科学研究院 交通运输领域变革性研究文献早期识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732701A (zh) * 2021-01-26 2021-04-30 长威信息科技发展股份有限公司 一种数据智能标引和自动化数据清洗的方法及系统
CN113704412A (zh) * 2021-08-31 2021-11-26 交通运输部科学研究院 交通运输领域变革性研究文献早期识别方法

Similar Documents

Publication Publication Date Title
EP3640847A1 (en) Systems and methods for identifying form fields
CN104361018B (zh) 电子档案信息整编方法及装置
EP1990740A1 (en) Schema matching for data migration
US20180181646A1 (en) System and method for determining identity relationships among enterprise data entities
CN110765101B (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN110990529B (zh) 企业的行业明细划分方法及系统
EP3514745A1 (en) Transaction categorization system
CN112527970A (zh) 数据字典标准化处理方法、装置、设备及存储介质
CN115391439B (zh) 文档数据导出方法、装置、电子设备和存储介质
US10706030B2 (en) Utilizing artificial intelligence to integrate data from multiple diverse sources into a data structure
CN110941957A (zh) 交通科技数据标引方法及系统
CN113435859A (zh) 信访件处理方法、装置、电子设备和计算机可读介质
CN113468160A (zh) 数据治理方法及装置、电子设备
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN113722429A (zh) 数据归一化处理方法、装置、设备及计算机可读存储介质
CN117251777A (zh) 数据处理方法、装置、计算机设备和存储介质
CN113011156A (zh) 审核文本的质检方法、装置、介质以及电子设备
CN117592450A (zh) 基于员工信息整合的全景档案生成方法及系统
CN111061779A (zh) 一种基于大数据平台的数据处理方法及装置
CN116226108A (zh) 可实现不同治理程度的数据治理方法及系统
CN109829010A (zh) 一种词条修改方法和词条修改装置
CN113077362A (zh) 规章制度文件的处理方法及装置
EP3640861A1 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
EP4016327A1 (en) Method of processing data from a data source, apparatus and computer program
US20230297648A1 (en) Correlating request and response data using supervised learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination