CN113722460B - 指标数据入库方法、装置、设备及存储介质 - Google Patents
指标数据入库方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113722460B CN113722460B CN202111022190.3A CN202111022190A CN113722460B CN 113722460 B CN113722460 B CN 113722460B CN 202111022190 A CN202111022190 A CN 202111022190A CN 113722460 B CN113722460 B CN 113722460B
- Authority
- CN
- China
- Prior art keywords
- index
- keywords
- clustering
- word
- clustering center
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000011218 segmentation Effects 0.000 claims abstract description 120
- 238000013507 mapping Methods 0.000 claims abstract description 98
- 238000012545 processing Methods 0.000 claims abstract description 32
- 239000013598 vector Substances 0.000 claims description 20
- 238000004140 cleaning Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000005259 measurement Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims 2
- 238000007781 pre-processing Methods 0.000 abstract description 18
- 230000009193 crawling Effects 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 9
- 238000010606 normalization Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000003064 k means clustering Methods 0.000 description 4
- 238000013479 data entry Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 240000004282 Grewia occidentalis Species 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能领域,公开了一种指标数据入库方法、装置、设备及存储介质,该方法包括:获取预设的自定义词库,自定义词库包含指标关键词;对所有指标关键词进行聚类,得到对应的N个指标类别和聚类中心,将聚类中心作为指标名,并构建指标关键词与对应的指标名的映射关系表;获取目标文本进行数据预处理,得到对应的文本分词组,其中,文本分词组包括名词分词和数词分词;通过映射关系表,确定名词分词对应的指标名,并将对应的数词分词作为指标值;将目标文本对应的指标名和指标值作为指标数据录入预设的指标数据库中。本方法将目标文本中的指标关键词进行指标名的统一,建立从爬取,进行标准化处理到统一入库的全链条自动化数据处理流程。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种指标数据入库方法、装置、设备及存储介质。
背景技术
目前对文本指标的识别、提取,往往没有对相同含义的多种描述的指标进行后续归并处理。例如,当处理多个文本时,文本A中关于教师人数的描述为“教师人数为600人”,文本B描述为“在校老师700人”,文本C描述为“教职工800人”。通过特定的文本指标提取算法将指标提取后,未能将将这些不同描述的指标映射到数据库表中的同一个字段,做统一的存储。
特别是网络上的数据,不同网站对同一指标的描述不一样。将不同网站的指标从文本中提取出来,到数据清洗,到数据统一存储,往往任然需要人工参与。例如某市关于学校信息的网站,像每个学校的教师人数、学生人数、建筑面积、占地面积、成立时间,等指标,不是作为标准的指标项放在网站的固定属性项中,而是放在每个学校“描述”栏目中。而不同的学校描述中,对这些指标的描述不一样。
发明内容
本发明的主要目的在于解决现有的文本指标识别提取缺少对相同含义的指标进行归并处理的技术问题。
本发明第一方面提供了一种指标数据入库方法,包括:获取预设的自定义词库,其中,所述自定义词库包含指标关键词;对所述自定义词库中的所有指标关键词进行聚类,得到所有指标关键词对应的N个指标类别,以及所述指标类别对应的聚类中心,其中,N为不小于1的整数;将所述聚类中心作为指标名,并根据所述指标关键词与对应的指标名构建映射关系表;获取目标文本,并将所述目标文本进行分词和数据预处理,得到对应的文本分词组,其中,所述文本分词组包括名词分词和数词分词;通过所述映射关系表,确定所述文本分词组中的名词分词对应的指标名,并将对应的数词分词作为指标值;将所述目标文本对应的指标名和指标值作为指标数据录入预设的指标数据库中。
可选的,所述对所述自定义词库中的所有指标关键词进行聚类,得到所有指标关键词对应的N个指标类别,以及所述指标类别对应的聚类中心包括:设定聚类中心集,其中,所述聚类中心集为空;将所述自定义词库中的第一个指标关键词作为聚类中心加入所述聚类中心集中;计算第二个指标关键词与所述聚类中心集中每个聚类中心之间的相似度,并判断最小的相似度是否小于预设阈值;若是,则将所述第二个指标关键词与最小的相似度对应的聚类中心作为同一指标类别;若否,则将所述第二个指标关键词作为新的聚类中心加入所述聚类中心集中;循环上述过程,直至所有指标关键词完成聚类,得到所有指标关键词对应的N个指标类别,以及所述指标类别对应的聚类中心。
可选的,在本发明第一方面的第二种实现方式中,所述计算第二个指标关键词与所述聚类中心集中每个聚类中心之间的相似度包括:获取音码映射规则和形码映射规则;通过所述音码映射规则对所有指标关键词进行转换,得到对应的音码,并通过所述形码映射规则对所有指标关键词进行转换,得到对应的形码;将所述指标关键词对应的音码和对应的形码进行拼接,得到对应的指标音形码;根据所述指标音形码,计算所述第二个指标关键词与所述聚类中心集中每个聚类中心之间的编辑距离,并根据所述编辑距离计算所述第二个指标关键词与所述聚类中心集中每个聚类中心的相似度。
可选的,在本发明第一方面的第三种实现方式中,所述计算所述第二个指标关键词与所述聚类中心集中每个聚类中心之间的编辑距离,并根据所述编辑距离计算所述第二个指标关键词与所述聚类中心集中每个聚类中心的相似度包括:计算所述第二个指标关键词与所述聚类中心集中所有聚类中心之间的编辑距离;根据所述编辑距离构造对应的编辑距离矩阵;将所述编辑距离矩阵中最右下角的值作为对应的最短编辑距离;根据预设的相似度公式和所述最短编辑距离计算所述编辑距离计算所述第二个指标关键词与对应的聚类中心的相似度。
可选的,在本发明第一方面的第四种实现方式中,所述对所述自定义词库中的所有指标关键词进行聚类,得到所有指标关键词对应的N个指标类别,以及所述指标类别对应的聚类中心还包括:将所述指标关键词转换成对应的词向量,并设定聚类个数N个;在所述自定义词库中随机选择N个指标关键词作为初始聚类中心;分别计算所述自定义词库中的指标关键词到每一个初始聚类中心的余弦距离;将与初始聚类中心的余弦距离在预设的误差范围内的指标关键词划分为同一指标类别;计算所述指标类别中词向量的均值向量,并就所述均值向量重新选择当前聚类中心,以及计算所述当前聚类中心与对应的初始聚类中心的余弦距离;若所述当前聚类中心与对应的初始聚类中心的余弦距离小于或等于预设阈值,则得到所有指标关键词对应的N个指标类别,以及所述指标类别对应的聚类中心。若所述当前聚类中心与对应的初始聚类中心的余弦距离大于预设阈值,则以当前聚类中心进行重新聚类,直到当前聚类中心与上一聚类中心的余弦距离小于或等于预设阈值,得到所有指标关键词对应的N个指标类别,以及所述指标类别对应的聚类中心。
可选的,在本发明第一方面的第五种实现方式中,所述获取目标文本,并将所述目标文本进行分词和数据预处理,得到对应的文本分词组包括:通过预设的分词算法对所述目标文本进行分字,得到对应的分词;对所有分词进行数据清洗,剔除所有分词中的空格字符;将剔除空格字符后的所有分词中的数词进行标准化处理,得到所述目标文本对应的文本分词组。
可选的,在本发明第一方面的第六种实现方式中,所述将剔除空格字符后的所有分词中的数词进行标准化处理,得到所述目标文本对应的文本分词组包括:识别所述剔除空格字符后的所有分词中的数词的数字类型和单位,所述数字类型包括中文数字和阿拉伯数字;将所有分词中数字类型为中文数字的数词转换为阿拉伯数字的数词;将所有分词中数字类型为中文数字的数词的单位进行统一度量处理,得到所述目标文本对应的文本分词组。
本发明第二方面提供了一种指标数据入库装置,包括:获取模块,用于获取预设的自定义词库,其中,所述自定义词库包含指标关键词;聚类模块,用于对所述自定义词库中的所有指标关键词进行聚类,得到所有指标关键词对应的N个指标类别,以及所述指标类别对应的聚类中心,其中,N为不小于1的整数;映射表构建模块,用于将所述聚类中心作为指标名,并根据所述指标关键词与对应的指标名构建映射关系表;数据处理模块,用于获取目标文本,并将所述目标文本进行分词和数据预处理,得到对应的文本分词组,其中,所述文本分词组包括名词分词和数词分词;映射模块,用于通过所述映射关系表,确定所述文本分词组中的名词分词对应的指标名,并将对应的数词分词作为指标值;入库模块,用于将所述目标文本对应的指标名和指标值作为指标数据录入预设的指标数据库中。
可选的,在本发明第二方面的第一种实现方式中,所述聚类模块具体用于:设定聚类中心集,其中,所述聚类中心集为空;将所述自定义词库中的第一个指标关键词作为聚类中心加入所述聚类中心集中;计算第二个指标关键词与所述聚类中心集中每个聚类中心之间的相似度,并判断最小的相似度是否小于预设阈值;若是,则将所述第二个指标关键词与最小的相似度对应的聚类中心作为同一指标类别;若否,则将所述第二个指标关键词作为新的聚类中心加入所述聚类中心集中;循环上述过程,直至所有指标关键词完成聚类,得到所有指标关键词对应的N个指标类别,以及所述指标类别对应的聚类中心。
可选的,在本发明第二方面的第二种实现方式中,所述聚类模块具体还用于:获取音码映射规则和形码映射规则;通过所述音码映射规则对所有指标关键词进行转换,得到对应的音码,并通过所述形码映射规则对所有指标关键词进行转换,得到对应的形码;将所述指标关键词对应的音码和对应的形码进行拼接,得到对应的指标音形码;根据所述指标音形码,计算所述第二个指标关键词与所述聚类中心集中每个聚类中心之间的编辑距离,并根据所述编辑距离计算所述第二个指标关键词与所述聚类中心集中每个聚类中心的相似度。
可选的,在本发明第二方面的第三种实现方式中,所述聚类模块具体还用于:计算所述第二个指标关键词与所述聚类中心集中所有聚类中心之间的编辑距离;根据所述编辑距离构造对应的编辑距离矩阵;将所述编辑距离矩阵中最右下角的值作为对应的最短编辑距离;根据预设的相似度公式和所述最短编辑距离计算所述编辑距离计算所述第二个指标关键词与对应的聚类中心的相似度。
可选的,在本发明第二方面的第四种实现方式中,所述聚类模块具体还用于:将所述指标关键词转换成对应的词向量,并设定聚类个数N个;在所述自定义词库中随机选择N个指标关键词作为初始聚类中心;分别计算所述自定义词库中的指标关键词到每一个初始聚类中心的余弦距离;将与初始聚类中心的余弦距离在预设的误差范围内的指标关键词划分为同一指标类别;计算所述指标类别中词向量的均值向量,并就所述均值向量重新选择当前聚类中心,以及计算所述当前聚类中心与对应的初始聚类中心的余弦距离;若所述当前聚类中心与对应的初始聚类中心的余弦距离小于或等于预设阈值,则得到所有指标关键词对应的N个指标类别,以及所述指标类别对应的聚类中心。若所述当前聚类中心与对应的初始聚类中心的余弦距离大于预设阈值,则以当前聚类中心进行重新聚类,直到当前聚类中心与上一聚类中心的余弦距离小于或等于预设阈值,得到所有指标关键词对应的N个指标类别,以及所述指标类别对应的聚类中心。
可选的,在本发明第二方面的第五种实现方式中,所述数据处理模块包括:分词单元,用于通过预设的分词算法对所述目标文本进行分字,得到对应的分词;数据清洗单元,用于对所有分词进行数据清洗,剔除所有分词中的空格字符;标准化单元,用于将剔除空格字符后的所有分词中的数词进行标准化处理,得到所述目标文本对应的文本分词组。
可选的,在本发明第二方面的第六种实现方式中,所述标准化单元具体用于:识别所述剔除空格字符后的所有分词中的数词的数字类型和单位,所述数字类型包括中文数字和阿拉伯数字;将所有分词中数字类型为中文数字的数词转换为阿拉伯数字的数词;将所有分词中数字类型为中文数字的数词的单位进行统一度量处理,得到所述目标文本对应的文本分词组。
本发明第三方面提供了一种指标数据入库设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述指标数据入库设备执行上述的指标数据入库方法的步骤。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的指标数据入库方法的步骤。
本发明的技术方案中,获取预设的自定义词库,其中,所述自定义词库包含指标关键词;对所述自定义词库中的所有指标关键词进行聚类,得到所有指标关键词对应的N个指标类别,以及所述指标类别对应的聚类中心,其中,N为不小于1的整数;将所述聚类中心作为指标名,并根据所述指标关键词与对应的指标名构建映射关系表;获取目标文本,并将所述目标文本进行分词和数据预处理,得到对应的文本分词组,其中,所述文本分词组包括名词分词和数词分词;通过所述映射关系表,确定所述文本分词组中的名词分词对应的指标名,并将对应的数词分词作为指标值;将所述目标文本对应的指标名和指标值作为指标数据录入预设的指标数据库中。通过聚类的方式,对语义和形态相近的指标关键词进行归类,并将聚类中心对应的指标关键词作为指标名,构建指标关键词与指标名之间的映射关系,通过映射关系对需要识别的目标文本中的指标关键词进行标准化识别,将目标文本中的指标关键词进行指标名的统一,建立从网络数据爬取,进行标准化处理到统一入库的全链条自动化数据处理流程。
附图说明
图1为本发明实施例中指标数据入库方法的第一个实施例示意图;
图2为本发明实施例中指标数据入库方法的第二个实施例示意图;
图3为本发明实施例中指标数据入库方法的第三个实施例示意图;
图4为本发明实施例中指标数据入库方法的第四个实施例示意图;
图5为本发明实施例中指标数据入库方法的第五个实施例示意图;
图6为本发明实施例中指标数据入库装置的一个实施例示意图;
图7为本发明实施例中指标数据入库装置的另一个实施例示意图;
图8为本发明实施例中指标数据入库设备的一个实施例示意图。
具体实施方式
本发明的技术方案中,获取预设的自定义词库,其中,所述自定义词库包含指标关键词;对所述自定义词库中的所有指标关键词进行聚类,得到所有指标关键词对应的N个指标类别,以及所述指标类别对应的聚类中心,其中,N为不小于1的整数;将所述聚类中心作为指标名,并根据所述指标关键词与对应的指标名构建映射关系表;获取目标文本,并将所述目标文本进行分词和数据预处理,得到对应的文本分词组,其中,所述文本分词组包括名词分词和数词分词;通过所述映射关系表,确定所述文本分词组中的名词分词对应的指标名,并将对应的数词分词作为指标值;将所述目标文本对应的指标名和指标值作为指标数据录入预设的指标数据库中。通过聚类的方式,对语义和形态相近的指标关键词进行归类,并将聚类中心对应的指标关键词作为指标名,构建指标关键词与指标名之间的映射关系,通过映射关系对需要识别的目标文本中的指标关键词进行标准化识别,将目标文本中的指标关键词进行指标名的统一,建立从网络数据爬取,进行标准化处理到统一入库的全链条自动化数据处理流程。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中指标数据入库方法的第一个实施例包括:
101、获取预设的自定义词库,其中,自定义词库包含指标关键词;
可以理解的是,本发明的执行主体可以为指标数据入库装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在本实施例中,预设有自定义词库,自定义词库中的指标关键词可以是人工添加也可以是通过对指标数据的历史收录采集而成,本发明不做限定,词库中包含指标关键词,不同的指标关键词之间可能是近义词或同义词的关系,也可能两指标关键词之间不存在关系,例如对于历史中对某市关于学校信息的采集,不同学校之间可能对于教师有不同的表述,学校A中关于教师人数的描述为“教师人数为600人”,学校B描述为“在校老师700人”,学校C描述为“教职工800人”,对于教师人数这一指标,就存在不同的指标关键词进行描述,同时教师人数、学生人数、建筑面积、占地面积、成立时间等待指标关键词之间则不存在联系。
102、对自定义词库中的所有指标关键词进行聚类,得到所有指标关键词对应的N个指标类别,以及指标类别对应的聚类中心,其中,N为不小于1的整数;
在本实施例中,对指标关键词进行聚类可以使用K-Means聚类算法,K-Means算法通过对给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇,让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大,对于K-Means算法,首先要注意的是k值的选择,一般来说,我们会根据对数据的先验经验选择一个合适的k值,在本发明中,当自定义词库中的指标关键词为人为添加时,工作人员通过添加指标关键词的过程判断k的取值,当自定义词库是对指标数据的历史收录采集而成时,通过历史数据中记录的指标关键词的含义生成,例如对某市关于学校信息的采集,存在教师人数、学生人数、建筑面积、占地面积、成立时间等指标关键词以及对应的近义的指标关键词,则k的取值为5,同时,本方法也可以使用其他聚类方式,本发明不做限定。
103、将聚类中心作为指标名,并根据指标关键词与对应的指标名构建映射关系表;
在本实施例中,通过聚类得到聚类中心后,可以以聚类中心作为对应指标类别的标准,作为指标名,这是因为聚类是通过对给定的样本集,按照样本之间的距离大小,将样本集划分为多个簇,让簇内的点尽量紧密的连在一起,与簇中每个点中平均距离最近的即为聚类中心,所以聚类中心对应的指标关键词与相同指标类别中的其他指标关键词之间语义最为接近,可以作为该指标类别的标准,作为指标名称,并建立指标关键词与指标名称的映射关系。如维护一张数据库表(映射表),其中包含两列,keyword为所有待提取的关键字,index_name为指标名,作为所有相同含义的指标名。如关键字教师人数、教师数、老师数、老师人数等对应同一个指标名称教师人数,在本实施例中,指标名称还可以在进行聚类后由人为进行设置,如关键字教师人数、教师数、老师数、老师人数等对应同一个指标teacher_num。
104、获取目标文本,并将目标文本进行分词和数据预处理,得到对应的文本分词组,其中,文本分词组包括名词分词和数词分词;
在本实施例中,目标文本是文本中存在指标数据的文本,例如某市需要对各学校当前的学校信息进行标准化采集,而在有学校信息的网站,例如学校的官方网站,对于像每个学校的教师人数、学生人数、建筑面积、占地面积、成立时间,等指标,不是作为标准的指标项放在网站的固定属性项中,而是放在每个学校“描述”栏目中,而不同的学校描述中,对这些指标的描述不一样,则将每个学校的“描述”栏目中的文本作为目标文本。
在本实施例中,对目标文本分别进行分词处理和数据预处理,其中,分词处理可以使用结巴分词法,数据预处理主要包括对数据进行清洗或转换,如去掉空格字符、将中文数字转换为阿拉伯数字、将单位进行统一度量等清洗转换操作。
105、通过映射关系表,确定文本分词组中的名词分词对应的指标名,并将对应的数词分词作为指标值;
在本实施例中,将能够通过映射关系表得到指标名的名词分词进行保留,将不能通过映射关系表得到指标名的名词分词进行剔除,这是因为在目标文本进行分词处理后,可能存在不是用于描述指标的名词,将这些名词分词删除能够提高映射匹配的效率。
在本实施例中,将能够通过映射关系表得到指标名的名词分词通过映射关系找到指标名后,将最接近的数词分词作为对应的指标值,例如学校A中关于教师人数的描述为“教师人数为600人”,通过分词,获得名次分词“教师人数”,数词分词“600人”,通过映射关系得到名次分词“教师人数”对应的指标名为“teacher_num”,则对应的指标值为“600”。
106、将目标文本对应的指标名和指标值作为指标数据录入预设的指标数据库中。
在本实施例中,将目标文本对应的指标名和指标值作为指标数据录入预设的指标数据库之后,可以通过查看该目标文本对应的指标数据是否有缺失,并查看目标文本的原文进行映射关系表的补足,例如在自定义词库中,人工不能想到指标关键词足够多的近义词,或者历史数据不够完善,则构建的映射关系表不够全面,导致目标文本中的部分指标关键词无法找到对应的指标名称,导致录入的指标数据存在缺失,当确定缺失时,则将该指标关键词通过聚类或人工的方式,归属至对应的指标类别中,构建映射关系,加入映射关系表中。
在本实施例中,获取预设的自定义词库,其中,所述自定义词库包含指标关键词;对所述自定义词库中的所有指标关键词进行聚类,得到所有指标关键词对应的N个指标类别,以及所述指标类别对应的聚类中心,其中,N为不小于1的整数;将所述聚类中心作为指标名,并根据所述指标关键词与对应的指标名构建映射关系表;获取目标文本,并将所述目标文本进行分词和数据预处理,得到对应的文本分词组,其中,所述文本分词组包括名词分词和数词分词;通过所述映射关系表,确定所述文本分词组中的名词分词对应的指标名,并将对应的数词分词作为指标值;将所述目标文本对应的指标名和指标值作为指标数据录入预设的指标数据库中。通过聚类的方式,对语义和形态相近的指标关键词进行归类,并将聚类中心对应的指标关键词作为指标名,构建指标关键词与指标名之间的映射关系,通过映射关系对需要识别的目标文本中的指标关键词进行标准化识别,将目标文本中的指标关键词进行指标名的统一,建立从网络数据爬取,进行标准化处理到统一入库的全链条自动化数据处理流程。
请参阅图2,本发明实施例中指标数据入库方法的第二个实施例包括:
201、获取预设的自定义词库,其中,自定义词库包含指标关键词;
202、设定聚类中心集,其中,聚类中心集为空;
203、将自定义词库中的第一个指标关键词作为聚类中心加入聚类中心集中;
204、计算第二个指标关键词与聚类中心集中每个聚类中心之间的相似度,并判断最小的相似度是否小于预设阈值;
205、若是,则将第二个指标关键词与最小的相似度对应的聚类中心作为同一指标类别;
206、若否,则将第二个指标关键词作为新的聚类中心加入聚类中心集中;
207、循环上述过程,直至所有指标关键词完成聚类,得到所有指标关键词对应的N个指标类别,以及指标类别对应的聚类中心;
在实际应用中,可以使用K-Means聚类算法进行聚类算法进行聚类,而在本实施例中,可以使用上述的聚类过程,在聚类开始的时候,设定聚类中心集,聚类中心集为空;当第一个指标关键词输入之后,发现聚类中心集为空,则以当前的第一个指标关键词为基础建立一个聚类中心,并加入聚类中心集;当第二个短文本输入之后,遍历聚类中心集发现存在一个聚类中心,根据指标关键词和聚类中心的表示方式,结合形态和语义因素来计算当前指标关键词与聚类中心的相似度距离D;形态因素采用编辑距离相似度;语义因素采用知网、同义词林和WordNet知识库的词语语义相似度;如果D小于阈值T,则将该指标关键词加入该聚类中心并更新该聚类中心;否则从聚类中心集中取下一个聚类中心进行同样判断,当遍历完了聚类中心集之后依旧没有符合要求的聚类中心,则需要以该短文本为基础建立一个新的聚类中心并加入聚类中心集;依次循环上述过程,直到所有指标关键词完成聚类;最终的聚类中心集则为所需聚类结果,每个指标关键词与最终聚类中心集中哪个聚类中心的相似度距离最小,则该指标关键词就属于这个类。
208、将聚类中心作为指标名,并根据指标关键词与对应的指标名构建映射关系表;
209、获取目标文本,并将目标文本进行分词和数据预处理,得到对应的文本分词组,其中,文本分词组包括名词分词和数词分词;
210、通过映射关系表,确定文本分词组中的名词分词对应的指标名,并将对应的数词分词作为指标值;
211、将目标文本对应的指标名和指标值作为指标数据录入预设的指标数据库中。
本实施例在上一实施例的基础上,详细描述了对自定义词库中的所有指标关键词进行聚类,得到所有指标关键词对应的N个指标类别,以及指标类别对应的聚类中心的过程,通过设定聚类中心集,其中,聚类中心集为空;将自定义词库中的第一个指标关键词作为聚类中心加入聚类中心集中;计算第二个指标关键词与聚类中心集中每个聚类中心之间的相似度,并判断最小的相似度是否小于预设阈值;若是,则将第二个指标关键词与最小的相似度对应的聚类中心作为同一指标类别;若否,则将第二个指标关键词作为新的聚类中心加入聚类中心集中;循环上述过程,直至所有指标关键词完成聚类,得到所有指标关键词对应的N个指标类别,以及指标类别对应的聚类中心。通过本方法,能够在不需要进行聚类中心个数的情况下完成聚类,简化聚类过程。
请参阅图3,本发明实施例中指标数据入库方法的第三个实施例包括:
301、获取预设的自定义词库,其中,自定义词库包含指标关键词;
302、设定聚类中心集,其中,聚类中心集为空;
303、将自定义词库中的第一个指标关键词作为聚类中心加入聚类中心集中;
304、获取音码映射规则和形码映射规则;
305、通过音码映射规则对所有指标关键词进行转换,得到对应的音码,并通过形码映射规则对所有指标关键词进行转换,得到对应的形码;
306、将指标关键词对应的音码和对应的形码进行拼接,得到对应的指标音形码;
307、根据指标音形码,计算第二个指标关键词与聚类中心集中每个聚类中心之间的编辑距离,并根据编辑距离计算第二个指标关键词与聚类中心集中每个聚类中心的相似度,并判断最小的相似度是否小于预设阈值;
在本实施例中,将每一指标关键词中的汉字字符转化为音形码。通过这一转化过程,将每一指标关键词均转化成了不包含汉字字符的字符串。
在本实施例中,音形码包括12位:2位声母、2位韵母、5位四角编码、1位结构码、2位笔画数。所述形码的映射规则包括:汉字到拼音、笔画、结构和四角编码的映射规则,所述音码的映射规则包括声母、韵母、结构到数值码的映射规则。如下表1所示,下表1为声母、韵母到数值码的映射规则:
a | 01 | ai | 07 | ie | 13 | un | 19 |
o | 02 | ei | 08 | ve | 14 | vn | 20 |
e | 03 | ui | 09 | er | 15 | ang | 21 |
i | 04 | ao | 10 | an | 16 | eng | 22 |
u | 05 | ou | 11 | en | 17 | ing | 23 |
v | 06 | iu | 12 | in | 18 | ong | 24 |
表1
在本实施例中,通过映射表的方式,将汉字转换成了一系列的字符序列,对于一个词语,就是对词语的每个字符都转换成音型码,然后组成一个音型码列表。例如,药品这个词转换成音型码就是[’9I442441279’,’H2032606609’]。计算两个字符串的相似度就变成了计算两个字符串的音型码的相似度了。
在本实施例中,计算所述第二个指标关键词与所述聚类中心集中每个聚类中心之间的编辑距离,并根据所述编辑距离计算所述第二个指标关键词与所述聚类中心集中每个聚类中心的相似度主要是通过计算所述第二个指标关键词与所述聚类中心集中所有聚类中心之间的编辑距离;根据所述编辑距离构造对应的编辑距离矩阵;将所述编辑距离矩阵中最右下角的值作为对应的最短编辑距离,根据预设的相似度公式和所述最短编辑距离计算所述编辑距离计算所述第二个指标关键词与对应的聚类中心的相似度。在本实施例中,基于单个汉字的音形码映射规则,将第二个指标关键词a和聚类中心b分别进行映射,得到第一音形码ssca:{ssc1,ssc2,...sscp}和第二音形码sscb:{ssc1,ssc2,...sscq},其中,p、q分别表示a和b的汉字个数;将a、b、ssca、sscb以及n作为编辑距离算法的输入,并构建编辑距离矩阵,得到a与b之间的编辑距离d,并通过相似度公式计算两音形码相似度。
308、若是,则将第二个指标关键词与最小的相似度对应的聚类中心作为同一指标类别;
309、若否,则将第二个指标关键词作为新的聚类中心加入聚类中心集中;
310、循环上述过程,直至所有指标关键词完成聚类,得到所有指标关键词对应的N个指标类别,以及指标类别对应的聚类中心;
311、将聚类中心作为指标名,并根据指标关键词与对应的指标名构建映射关系表;
312、取目标文本,并将目标文本进行分词和数据预处理,得到对应的文本分词组,其中,文本分词组包括名词分词和数词分词;
313、通过映射关系表,确定文本分词组中的名词分词对应的指标名,并将对应的数词分词作为指标值;
314、将目标文本对应的指标名和指标值作为指标数据录入预设的指标数据库中。
本实施例在前实施例的基础上,详细描述了计算第二个指标关键词与聚类中心集中每个聚类中心之间的相似度的过程,通过获取音码映射规则和形码映射规则;通过音码映射规则对所有指标关键词进行转换,得到对应的音码,并通过形码映射规则对所有指标关键词进行转换,得到对应的形码;将指标关键词对应的音码和对应的形码进行拼接,得到对应的指标音形码;根据指标音形码,计算第二个指标关键词与聚类中心集中每个聚类中心之间的编辑距离,并根据编辑距离计算第二个指标关键词与聚类中心集中每个聚类中心的相似度。并且增加了图片渲染的过程,使得瓦片地图在地里信息系统中完整显示。本方法通过音形码的方式能够更精确的计算两指标关键词的相似度。
请参阅图4,本发明实施例中指标数据入库方法的第四个实施例包括:
401、获取预设的自定义词库,其中,自定义词库包含指标关键词;
402、将指标关键词转换成对应的词向量,并设定聚类个数N个;
403、在自定义词库中随机选择N个指标关键词作为初始聚类中心;
404、分别计算自定义词库中的指标关键词到每一个初始聚类中心的余弦距离;
405、将与初始聚类中心的余弦距离在预设的误差范围内的指标关键词划分为同一指标类别;
406、计算指标类别中词向量的均值向量,并就均值向量重新选择当前聚类中心,以及计算当前聚类中心与对应的初始聚类中心的余弦距离;
407、若当前聚类中心与对应的初始聚类中心的余弦距离小于或等于预设阈值,则得到所有指标关键词对应的N个指标类别,以及指标类别对应的聚类中心;
408、若当前聚类中心与对应的初始聚类中心的余弦距离大于预设阈值,则以当前聚类中心进行重新聚类,直到当前聚类中心与上一聚类中心的余弦距离小于或等于预设阈值,得到所有指标关键词对应的N个指标类别,以及指标类别对应的聚类中心;
在本实施例中,在本实施例中,通过K-means算法进行聚类,K-means聚类算法主要是通过确定k个聚类核心,其中,k可以认为进行选择,计算数据中每个数据与每一个聚类核心的距离(如欧式距离、余弦距离),离哪个聚类核心近,就划分到那个聚类核心所属的集合,划分好k个集合之后重新计算每个集合的聚类核心,如果新计算出来的聚类核心和原来的聚类核心之间的距离小于某一个设置的阈值可以认为聚类已经达到期望的结果,算法终止,如果新聚类核心和原聚类核心距离变化很大,则重复聚类,直到收敛为止,此外,还能够使用标签传播算法和最小熵算法进行聚类,本发明不做限定。在本实施例中,主要通过计算每个两个仓库工作人员两两之间的余弦距离,在本实施例中,余弦距离是用来衡量两个数据样本之间的相似度,余弦值越接近于1,说明这两个人员系数的含义越相似,可以划分为同一工作优先级。
409、将聚类中心作为指标名,并根据指标关键词与对应的指标名构建映射关系表;
410、获取目标文本,并将目标文本进行分词和数据预处理,得到对应的文本分词组,其中,文本分词组包括名词分词和数词分词;
411、通过映射关系表,确定文本分词组中的名词分词对应的指标名,并将对应的数词分词作为指标值;
412、将目标文本对应的指标名和指标值作为指标数据录入预设的指标数据库中。
本实施例在前实施例的基础上,增加了根据存储优先级下载瓦片地图的过程,通过使用预设大小的线程池下载预设数量的瓦片地图,并记录下载的数据量、下载时间、CPU占用率和内存占用率;根据所述数据量、下载时间、CPU占用率和内存占用率计算下载压力;根据所述下载压力和预设的压力阈值,调整所述线程池的大小以及下载所述瓦片地图的下载顺序,其中,所述下载顺序根据所述存储优先级进行调整。通过设置优先级,能够在计算机资源压力大的情况下,优先下载重要的瓦片地图,避免程序错误。
请参阅图5,本发明实施例中指标数据入库方法的第五个实施例包括:
501、获取预设的自定义词库,其中,自定义词库包含指标关键词;
502、对自定义词库中的所有指标关键词进行聚类,得到所有指标关键词对应的N个指标类别,以及指标类别对应的聚类中心,其中,N为不小于1的整数;
503、将聚类中心作为指标名,并根据指标关键词与对应的指标名构建映射关系表;
504、获取目标文本,并通过预设的分词算法对目标文本进行分字,得到对应的分词;
505、对所有分词进行数据清洗,剔除所有分词中的空格字符;
506、识别剔除空格字符后的所有分词中的数词的数字类型和单位,数字类型包括中文数字和阿拉伯数字;
507、将所有分词中数字类型为中文数字的数词转换为阿拉伯数字的数词;
508、将所有分词中数字类型为中文数字的数词的单位进行统一度量处理,得到目标文本对应的文本分词组,其中,文本分词组包括名词分词和数词分词;
在本实施例中,所述分词算法主要使用结巴分词法进行分词处理,结巴分词法为Python的结巴分词模块,该方法支持精确模式、全模式和搜索引擎模式三种分词模式。本发明采用具有词性标注功能的精确分词模式,方便后续进行停用词的删除,通过分词处理以及词性标注,对其中的形容词、副词、介词和动词进行删除。
本发明可以是根据词性对指标文本中分词进行部分删减,例如代词、副词、介词、连词、助词、拟声词和标点的数据,在前面进行分词的过程中,通过结巴分词法的精确模式,可以对所述目标文本进行词性标注,在所述目标文本中的停用词进行清除时可直接基于前面的词性标注进行上述词性的清除,同时根据不同需求可以增加停用词库的停用词数量。
在本实施例中,数据预处理主要包括对数据进行清洗或转换,如去掉空格字符、将中文数字转换为阿拉伯数字、将单位进行统一度量等清洗转换操作,例如将学校A中关于学生人数的描述为“学生人数为六千人左右”通过数据预处理转换成“学生人数为6000人左右”
509、通过映射关系表,确定文本分词组中的名词分词对应的指标名,并将对应的数词分词作为指标值;
510、将目标文本对应的指标名和指标值作为指标数据录入预设的指标数据库中。
本实施例在前实施例的基础上,详细描述了当所述用户非首次登陆所述地理信息系统或所述用户在所述地理信息系统中进行地图缩放操作时,根据所述本地图层缓存数据库中的缓存数据集进行对应的地图数据加载的过程,当所述用户非首次登陆所述地理信息系统或所述用户在所述地理信息系统中进行地图缩放操作时,获取所述缩放操作对应的缩放区域;判断所述缩放区域中是否包含所述业务标记点集中业务标记点;若是,则根据所述缩放区域中的业务标记点,从所述本地图层缓存数据库中的缓存数据集中调取对应的瓦片地图进行地图数据加载;若否,则根据所述缩放区域从预设的瓦片地图文件中下载对应的瓦片地图进行地图数据加载。
上面对本发明实施例中指标数据入库方法进行了描述,下面对本发明实施例中指标数据入库装置进行描述,请参阅图6,本发明实施例中指标数据入库装置一个实施例包括:
获取模块,用于获取预设的自定义词库,其中,所述自定义词库包含指标关键词;
聚类模块,用于对所述自定义词库中的所有指标关键词进行聚类,得到所有指标关键词对应的N个指标类别,以及所述指标类别对应的聚类中心,其中,N为不小于1的整数;
映射表构建模块,用于将所述聚类中心作为指标名,并根据所述指标关键词与对应的指标名构建映射关系表;
数据处理模块,用于获取目标文本,并将所述目标文本进行分词和数据预处理,得到对应的文本分词组,其中,所述文本分词组包括名词分词和数词分词;
映射模块,用于通过所述映射关系表,确定所述文本分词组中的名词分词对应的指标名,并将对应的数词分词作为指标值;
入库模块,用于将所述目标文本对应的指标名和指标值作为指标数据录入预设的指标数据库中。
本发明实施例中,所述指标数据入库装置运行上述指标数据入库方法,所述指标数据入库装置获取预设的自定义词库,其中,所述自定义词库包含指标关键词;对所述自定义词库中的所有指标关键词进行聚类,得到所有指标关键词对应的N个指标类别,以及所述指标类别对应的聚类中心,其中,N为不小于1的整数;将所述聚类中心作为指标名,并根据所述指标关键词与对应的指标名构建映射关系表;获取目标文本,并将所述目标文本进行分词和数据预处理,得到对应的文本分词组,其中,所述文本分词组包括名词分词和数词分词;通过所述映射关系表,确定所述文本分词组中的名词分词对应的指标名,并将对应的数词分词作为指标值;将所述目标文本对应的指标名和指标值作为指标数据录入预设的指标数据库中。通过聚类的方式,对语义和形态相近的指标关键词进行归类,并将聚类中心对应的指标关键词作为指标名,构建指标关键词与指标名之间的映射关系,通过映射关系对需要识别的目标文本中的指标关键词进行标准化识别,将目标文本中的指标关键词进行指标名的统一,建立从网络数据爬取,进行标准化处理到统一入库的全链条自动化数据处理流程。
请参阅图7,本发明实施例中指标数据入库装置的第二个实施例包括:
获取模块,用于获取预设的自定义词库,其中,所述自定义词库包含指标关键词;
聚类模块,用于对所述自定义词库中的所有指标关键词进行聚类,得到所有指标关键词对应的N个指标类别,以及所述指标类别对应的聚类中心,其中,N为不小于1的整数;
映射表构建模块,用于将所述聚类中心作为指标名,并根据所述指标关键词与对应的指标名构建映射关系表;
数据处理模块,用于获取目标文本,并将所述目标文本进行分词和数据预处理,得到对应的文本分词组,其中,所述文本分词组包括名词分词和数词分词;
映射模块,用于通过所述映射关系表,确定所述文本分词组中的名词分词对应的指标名,并将对应的数词分词作为指标值;
入库模块,用于将所述目标文本对应的指标名和指标值作为指标数据录入预设的指标数据库中。
在本实施例中,所述聚类模块602具体用于:设定聚类中心集,其中,所述聚类中心集为空;将所述自定义词库中的第一个指标关键词作为聚类中心加入所述聚类中心集中;计算第二个指标关键词与所述聚类中心集中每个聚类中心之间的相似度,并判断最小的相似度是否小于预设阈值;若是,则将所述第二个指标关键词与最小的相似度对应的聚类中心作为同一指标类别;若否,则将所述第二个指标关键词作为新的聚类中心加入所述聚类中心集中;循环上述过程,直至所有指标关键词完成聚类,得到所有指标关键词对应的N个指标类别,以及所述指标类别对应的聚类中心。
在本实施例中,所述聚类模块602具体还用于:获取音码映射规则和形码映射规则;通过所述音码映射规则对所有指标关键词进行转换,得到对应的音码,并通过所述形码映射规则对所有指标关键词进行转换,得到对应的形码;将所述指标关键词对应的音码和对应的形码进行拼接,得到对应的指标音形码;根据所述指标音形码,计算所述第二个指标关键词与所述聚类中心集中每个聚类中心之间的编辑距离,并根据所述编辑距离计算所述第二个指标关键词与所述聚类中心集中每个聚类中心的相似度。
在本实施例中,所述聚类模块602具体还用于:计算所述第二个指标关键词与所述聚类中心集中所有聚类中心之间的编辑距离;根据所述编辑距离构造对应的编辑距离矩阵;将所述编辑距离矩阵中最右下角的值作为对应的最短编辑距离;根据预设的相似度公式和所述最短编辑距离计算所述编辑距离计算所述第二个指标关键词与对应的聚类中心的相似度。
在本实施例中,所述聚类模块602具体还用于:将所述指标关键词转换成对应的词向量,并设定聚类个数N个;在所述自定义词库中随机选择N个指标关键词作为初始聚类中心;分别计算所述自定义词库中的指标关键词到每一个初始聚类中心的余弦距离;将与初始聚类中心的余弦距离在预设的误差范围内的指标关键词划分为同一指标类别;计算所述指标类别中词向量的均值向量,并就所述均值向量重新选择当前聚类中心,以及计算所述当前聚类中心与对应的初始聚类中心的余弦距离;若所述当前聚类中心与对应的初始聚类中心的余弦距离小于或等于预设阈值,则得到所有指标关键词对应的N个指标类别,以及所述指标类别对应的聚类中心。若所述当前聚类中心与对应的初始聚类中心的余弦距离大于预设阈值,则以当前聚类中心进行重新聚类,直到当前聚类中心与上一聚类中心的余弦距离小于或等于预设阈值,得到所有指标关键词对应的N个指标类别,以及所述指标类别对应的聚类中心。
在本实施例中,所述数据处理模块604包括:分词单元6041,用于通过预设的分词算法对所述目标文本进行分字,得到对应的分词;数据清洗单元6042,用于对所有分词进行数据清洗,剔除所有分词中的空格字符;标准化单元6043,用于将剔除空格字符后的所有分词中的数词进行标准化处理,得到所述目标文本对应的文本分词组。
在本实施例中,所述标准化单元6043具体用于:识别所述剔除空格字符后的所有分词中的数词的数字类型和单位,所述数字类型包括中文数字和阿拉伯数字;将所有分词中数字类型为中文数字的数词转换为阿拉伯数字的数词;将所有分词中数字类型为中文数字的数词的单位进行统一度量处理,得到所述目标文本对应的文本分词组。
本实施例在上一实施例的基础上,详细描述了各个模块的具体功能以及部分模块的单元构成,通过新增的模块,通过聚类的方式,对语义和形态相近的指标关键词进行归类,并将聚类中心对应的指标关键词作为指标名,构建指标关键词与指标名之间的映射关系,通过映射关系对需要识别的目标文本中的指标关键词进行标准化识别,将目标文本中的指标关键词进行指标名的统一,建立从网络数据爬取,进行标准化处理到统一入库的全链条自动化数据处理流程。
上面图6和图7从模块化功能实体的角度对本发明实施例中的中指标数据入库装置进行详细描述,下面从硬件处理的角度对本发明实施例中指标数据入库设备进行详细描述。
图8是本发明实施例提供的一种指标数据入库设备的结构示意图,该指标数据入库设备800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)810(例如,一个或一个以上处理器)和存储器820,一个或一个以上存储应用程序833或数据832的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器820和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对指标数据入库设备800中的一系列指令操作。更进一步地,处理器810可以设置为与存储介质830通信,在指标数据入库设备800上执行存储介质830中的一系列指令操作,以实现上述指标数据入库方法的步骤。
指标数据入库设备800还可以包括一个或一个以上电源840,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口860,和/或,一个或一个以上操作系统831,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图8示出的指标数据入库设备结构并不构成对本申请提供的指标数据入库设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述指标数据入库方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统或装置、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种指标数据入库方法,其特征在于,所述指标数据入库方法包括:
获取预设的自定义词库,其中,所述自定义词库包含指标关键词;
设定聚类中心集,其中,所述聚类中心集为空;将所述自定义词库中的第一个指标关键词作为聚类中心加入所述聚类中心集中;获取音码映射规则和形码映射规则;通过所述音码映射规则对所有指标关键词进行转换,得到对应的音码,并通过所述形码映射规则对所有指标关键词进行转换,得到对应的形码;将所述指标关键词对应的音码和对应的形码进行拼接,得到对应的指标音形码;根据所述指标音形码,计算所述第二个指标关键词与所述聚类中心集中每个聚类中心之间的编辑距离,并根据所述编辑距离计算所述第二个指标关键词与所述聚类中心集中每个聚类中心的相似度,并判断最小的相似度是否小于预设阈值;若是,则将所述第二个指标关键词与最小的相似度对应的聚类中心作为同一指标类别;若否,则将所述第二个指标关键词作为新的聚类中心加入所述聚类中心集中;循环上述过程,直至所有指标关键词完成聚类,得到所有指标关键词对应的N个指标类别,以及所述指标类别对应的聚类中心,其中,N为不小于1的整数;
将所述聚类中心作为指标名,并根据所述指标关键词与对应的指标名构建映射关系表;
获取目标文本,并通过预设的分词算法对所述目标文本进行分字,得到对应的分词;对所有分词进行数据清洗,剔除所有分词中的空格字符;识别所述剔除空格字符后的所有分词中的数词的数字类型和单位,所述数字类型包括中文数字和阿拉伯数字;将所有分词中数字类型为中文数字的数词转换为阿拉伯数字的数词;将所有分词中数字类型为中文数字的数词的单位进行统一度量处理,得到所述目标文本对应的文本分词组,其中,所述文本分词组包括名词分词和数词分词;
通过所述映射关系表,确定所述文本分词组中的名词分词对应的指标名,并将对应的数词分词作为指标值;
将所述目标文本对应的指标名和指标值作为指标数据录入预设的指标数据库中。
2.根据权利要求1所述的指标数据入库方法,其特征在于,所述计算所述第二个指标关键词与所述聚类中心集中每个聚类中心之间的编辑距离,并根据所述编辑距离计算所述第二个指标关键词与所述聚类中心集中每个聚类中心的相似度包括:
计算所述第二个指标关键词与所述聚类中心集中所有聚类中心之间的编辑距离;
根据所述编辑距离构造对应的编辑距离矩阵;
将所述编辑距离矩阵中最右下角的值作为对应的最短编辑距离;
根据预设的相似度公式和所述最短编辑距离计算所述编辑距离计算所述第二个指标关键词与对应的聚类中心的相似度。
3.根据权利要求1所述的指标数据入库方法,其特征在于,对所述自定义词库中的所有指标关键词进行聚类,得到所有指标关键词对应的N个指标类别,以及所述指标类别对应的聚类中心还包括:
将所述指标关键词转换成对应的词向量,并设定聚类个数N个;
在所述自定义词库中随机选择N个指标关键词作为初始聚类中心;
分别计算所述自定义词库中的指标关键词到每一个初始聚类中心的余弦距离;
将与初始聚类中心的余弦距离在预设的误差范围内的指标关键词划分为同一指标类别;
计算所述指标类别中词向量的均值向量,并就所述均值向量重新选择当前聚类中心,以及计算所述当前聚类中心与对应的初始聚类中心的余弦距离;
若所述当前聚类中心与对应的初始聚类中心的余弦距离小于或等于预设阈值,则得到所有指标关键词对应的N个指标类别,以及所述指标类别对应的聚类中心;
若所述当前聚类中心与对应的初始聚类中心的余弦距离大于预设阈值,则以当前聚类中心进行重新聚类,直到当前聚类中心与上一聚类中心的余弦距离小于或等于预设阈值,得到所有指标关键词对应的N个指标类别,以及所述指标类别对应的聚类中心。
4.一种指标数据入库装置,其特征在于,所述指标数据入库装置包括:
获取模块,用于获取预设的自定义词库,其中,所述自定义词库包含指标关键词;
聚类模块,用于设定聚类中心集,其中,所述聚类中心集为空;将所述自定义词库中的第一个指标关键词作为聚类中心加入所述聚类中心集中;获取音码映射规则和形码映射规则;通过所述音码映射规则对所有指标关键词进行转换,得到对应的音码,并通过所述形码映射规则对所有指标关键词进行转换,得到对应的形码;将所述指标关键词对应的音码和对应的形码进行拼接,得到对应的指标音形码;根据所述指标音形码,计算所述第二个指标关键词与所述聚类中心集中每个聚类中心之间的编辑距离,并根据所述编辑距离计算所述第二个指标关键词与所述聚类中心集中每个聚类中心的相似度,并判断最小的相似度是否小于预设阈值;若是,则将所述第二个指标关键词与最小的相似度对应的聚类中心作为同一指标类别;若否,则将所述第二个指标关键词作为新的聚类中心加入所述聚类中心集中;循环上述过程,直至所有指标关键词完成聚类,得到所有指标关键词对应的N个指标类别,以及所述指标类别对应的聚类中心,其中,N为不小于1的整数;
映射表构建模块,用于将所述聚类中心作为指标名,并根据所述指标关键词与对应的指标名构建映射关系表;
数据处理模块,用于获取目标文本,并通过预设的分词算法对所述目标文本进行分字,得到对应的分词;对所有分词进行数据清洗,剔除所有分词中的空格字符;识别所述剔除空格字符后的所有分词中的数词的数字类型和单位,所述数字类型包括中文数字和阿拉伯数字;将所有分词中数字类型为中文数字的数词转换为阿拉伯数字的数词;将所有分词中数字类型为中文数字的数词的单位进行统一度量处理,得到所述目标文本对应的文本分词组,其中,所述文本分词组包括名词分词和数词分词;
映射模块,用于通过所述映射关系表,确定所述文本分词组中的名词分词对应的指标名,并将对应的数词分词作为指标值;
入库模块,用于将所述目标文本对应的指标名和指标值作为指标数据录入预设的指标数据库中。
5.一种指标数据入库设备,其特征在于,所述指标数据入库设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述指标数据入库设备执行如权利要求1-3中任一项所述的指标数据入库方法的步骤。
6.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-3中任一项所述的指标数据入库方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111022190.3A CN113722460B (zh) | 2021-09-01 | 2021-09-01 | 指标数据入库方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111022190.3A CN113722460B (zh) | 2021-09-01 | 2021-09-01 | 指标数据入库方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113722460A CN113722460A (zh) | 2021-11-30 |
CN113722460B true CN113722460B (zh) | 2023-10-24 |
Family
ID=78680616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111022190.3A Active CN113722460B (zh) | 2021-09-01 | 2021-09-01 | 指标数据入库方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113722460B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969015A (zh) * | 2022-06-20 | 2022-08-30 | 立信(重庆)数据科技股份有限公司 | 一种调研数据标准化方法、系统及存储介质 |
CN117539978B (zh) * | 2023-10-31 | 2024-07-30 | 青矩技术股份有限公司 | 工程量清单数据归类指标方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250467A (zh) * | 2016-07-28 | 2016-12-21 | 北京中电普华信息技术有限公司 | 一种实现动态抽取指标的方法及装置 |
CN108319734A (zh) * | 2018-04-11 | 2018-07-24 | 中国计量大学 | 一种基于线性组合器的产品特征结构树自动构建方法 |
CN112508376A (zh) * | 2020-11-30 | 2021-03-16 | 中国科学院深圳先进技术研究院 | 一种指标体系构建方法 |
WO2021068798A1 (zh) * | 2019-10-11 | 2021-04-15 | 平安科技(深圳)有限公司 | 基于文本的指标提取方法、装置、计算机设备及存储介质 |
CN112861990A (zh) * | 2021-03-05 | 2021-05-28 | 电子科技大学 | 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质 |
-
2021
- 2021-09-01 CN CN202111022190.3A patent/CN113722460B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106250467A (zh) * | 2016-07-28 | 2016-12-21 | 北京中电普华信息技术有限公司 | 一种实现动态抽取指标的方法及装置 |
CN108319734A (zh) * | 2018-04-11 | 2018-07-24 | 中国计量大学 | 一种基于线性组合器的产品特征结构树自动构建方法 |
WO2021068798A1 (zh) * | 2019-10-11 | 2021-04-15 | 平安科技(深圳)有限公司 | 基于文本的指标提取方法、装置、计算机设备及存储介质 |
CN112508376A (zh) * | 2020-11-30 | 2021-03-16 | 中国科学院深圳先进技术研究院 | 一种指标体系构建方法 |
CN112861990A (zh) * | 2021-03-05 | 2021-05-28 | 电子科技大学 | 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
T ransactions on Pattern Analysis and Machine Intelligence;Josef K;IEEE(第12期);全文 * |
基于文本处理的指标数据提取;吴俊杰;秦晨;;科技创新导报(30);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113722460A (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111353030B (zh) | 基于旅游领域知识图谱的知识问答检索方法及装置 | |
US6665661B1 (en) | System and method for use in text analysis of documents and records | |
CN112035511A (zh) | 基于医学知识图谱的目标数据搜索方法及相关设备 | |
CN111581354A (zh) | 一种faq问句相似度计算方法及其系统 | |
CN109376352B (zh) | 一种基于word2vec和语义相似度的专利文本建模方法 | |
CN113722460B (zh) | 指标数据入库方法、装置、设备及存储介质 | |
CN107506389B (zh) | 一种提取职位技能需求的方法和装置 | |
CN107180045A (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
CN112395395B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
WO2009154570A1 (en) | System and method for aligning and indexing multilingual documents | |
CN111414763A (zh) | 一种针对手语计算的语义消歧方法、装置、设备及存储装置 | |
US20100023505A1 (en) | Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN114065758A (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN114138979B (zh) | 基于词拓展无监督文本分类的文物安全知识图谱创建方法 | |
CN116049354B (zh) | 基于自然语言的多表格检索方法及装置 | |
CN112100396A (zh) | 一种数据处理方法和装置 | |
CN111966810A (zh) | 一种用于问答系统的问答对排序方法 | |
CN116340544B (zh) | 一种基于知识图谱的中医药古籍可视分析方法与系统 | |
CN114707003B (zh) | 一种论文作者姓名消歧的方法、设备及储存介质 | |
CN113221559A (zh) | 利用语义特征的科技创新领域中文关键短语抽取方法及系统 | |
CN113673252A (zh) | 一种基于字段语义的数据表自动join推荐方法 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN116910599A (zh) | 数据聚类方法、系统、电子设备及存储介质 | |
CN113934910A (zh) | 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |