CN111694823A - 机构标准化方法、装置、电子设备及存储介质 - Google Patents
机构标准化方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111694823A CN111694823A CN202010417022.3A CN202010417022A CN111694823A CN 111694823 A CN111694823 A CN 111694823A CN 202010417022 A CN202010417022 A CN 202010417022A CN 111694823 A CN111694823 A CN 111694823A
- Authority
- CN
- China
- Prior art keywords
- sub
- fields
- information
- level
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008520 organization Effects 0.000 title claims description 54
- 238000011425 standardization method Methods 0.000 title abstract description 16
- 230000007246 mechanism Effects 0.000 claims abstract description 160
- 238000005516 engineering process Methods 0.000 claims abstract description 24
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000010276 construction Methods 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 35
- 238000004140 cleaning Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 239000003814 drug Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种机构标准化方法、装置、电子设备及存储介质,该机构标准化方法包括:获取机构信息中的子机构字段,采用文本识别技术识别所述子机构字段中的每个子机构字段,确定所述每个子机构字段对应的区域类别层级;确定所述每个子机构字段对应的子机构级别;将所述每个子机构字段对应的子机构级别中最低的级别作为所述机构信息的机构级别,将所述机构级别作为所述机构信息的标签进行存储,以完成知识图谱的构建;采用编辑距离算法对各个所述子机构字段进行标准化处理。本申请实施例有利于提高文档、信息查询和处理的效率和准确性。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种机构标准化方法、装置、电子设备及存储介质。
背景技术
随着科技的发展,进入信息爆炸的时代,即使在专业性很强的科研领域也是如此。对于专业科研工作者,经常需要阅读大量的专业性论文,关注业界优秀研究者与研究机构。
要关注某一研究领域的重要研究机构,首先就是要确定这个机构本身。而在许多文件、信息中,机构名称的书写存在错误或者不规范的情况较多,造成信息不准确,在存储系统大量的数据中,进行文档或信息查询和处理耗时较长、相关数据运算和信息统计也不够准确。
发明内容
为解决上述问题,本申请提供了一种机构标准化方法、装置、电子设备及存储介质,有利于提高文档、信息查询和处理的效率和准确性。
本申请实施例第一方面提供了一种机构标准化方法,该方法包括:
获取机构信息中的子机构字段,采用文本识别技术识别所述子机构字段中的每个子机构字段,确定所述每个子机构字段对应的区域类别层级;
确定所述每个子机构字段对应的子机构级别;
将所述每个子机构字段对应的子机构级别中最低的级别作为所述机构信息的机构级别,将所述机构级别作为所述机构信息的标签进行存储,以完成知识图谱的构建;
采用编辑距离算法对各个所述子机构字段进行标准化处理。
结合第一方面,在一种可能的实施方式中,所述采用编辑距离算法对各个所述子机构字段进行标准化处理,包括:
按照各个所述子机构字段的数量对各个所述子机构字段进行排序;
获取各个所述子机构字段之间的编辑距离;
对所述编辑距离小于距离阈值的各个所述子机构字段进行合并处理。
结合第一方面,在一种可能的实施方式中,所述对所述编辑距离小于距离阈值的各个所述子机构字段进行合并处理,包括:
将所述编辑距离小于距离阈值的各个所述子机构字段中数量最多的目标子机构字段作为各个所述子机构字段的标准化名称进行存储;
在获取机构信息中的子机构字段,采用文本识别技术识别所述子机构字段中的每个子机构字段,确定所述每个子机构字段对应的区域类别层级之前,所述方法还包括:
对终端提交的机构数据进行数据清洗,去除噪声信息。
结合第一方面,在一种可能的实施方式中,所述对终端提交的机构数据进行数据清洗,去除噪声信息,包括:
通过语义识别技术从所述机构数据中提取出所述机构信息和作者信息;
采用预设人名简写模板对所述作者信息进行匹配和修正;以及
识别所述机构信息中的预设连接词和预设名词,基于所述预设连接词和所述预设名词将所述机构信息拆分为多个字段,并在字段之间加入预设标点符号。
结合第一方面,在一种可能的实施方式中,所述方法还包括:
根据所述每个子机构字段对应的区域类别层级和子机构级别,匹配所述每个子机构字段的标准名称,得到匹配结果;
根据所述匹配结果对所述机构信息执行校正操作,得到标准化机构信息。
结合第一方面,在一种可能的实施方式中,所述方法还包括:
若识别到所述机构信息中存在相同子机构级别的子机构字段,则将相同子机构级别降低一级作为所述机构级别。
本申请实施例第二方面提供了一种机构标准化装置,该装置包括:
数据获取模块,用于获取机构信息中的子机构字段,采用文本识别技术识别所述子机构字段中的每个子机构字段,确定所述每个子机构字段对应的区域类别层级;
级别确定模块,用于确定所述每个子机构字段对应的子机构级别;
图谱构建模块,用于将所述每个子机构字段对应的子机构级别中最低的级别作为所述机构信息的机构级别,将所述机构级别作为所述机构信息的标签进行存储,以完成知识图谱的构建;
标准化模块,用于采用编辑距离算法对各个所述子机构字段进行标准化处理。
本申请实施例第三方面提供了一种电子设备,该电子设备包括输入设备和输出设备,还包括处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行上述第一方面所述的方法中的步骤。
本申请实施例第四方面提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行上述第一方面所述的方法中的步骤。
与现有技术相比,本申请实施例通过获取机构信息中的子机构字段,采用文本识别技术识别所述子机构字段中的每个子机构字段,确定所述每个子机构字段对应的区域类别层级;确定所述每个子机构字段对应的子机构级别;将所述每个子机构字段对应的子机构级别中最低的级别作为所述机构信息的机构级别,将所述机构级别作为所述机构信息的标签进行存储,以完成知识图谱的构建;采用编辑距离算法对各个所述子机构字段进行标准化处理。这样采用大量机构数据构建知识图谱,以标准化的机构级别作为机构信息的标签进行存储,同时,以编辑距离算法对各个子机构字段进行标准化,存储的是通用的标准名称,在后续查找机构的应用中,可通过相同机构级别的标签来匹配对应的标准化机构名称,有利于提高查询效率和准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种网络系统架构图;
图2为本申请实施例提供的一种机构标准化方法的流程示意图;
图3为本申请实施例提供的一种区域类别层级的示例图;
图4为本申请实施例提供的一种机构级别的示例图;
图5为本申请实施例提供的一种确定机构级别的示例图;
图6为本申请实施例提供的另一种机构标准化方法的流程示意图;
图7为本申请实施例提供的一种机构标准化装置的结构示意图;
图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请说明书、权利要求书和附图中出现的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,术语“第一”、“第二”和“第三”等是用于区别不同的对象,而并非用于描述特定的顺序。
本申请实施例提供一种机构标准化方案,所谓机构标准化即为科研机构或其他实体找到最标准的名称,本方案以医学文献为数据集进行实施,为文献中的学校、医院、实验室等构建标准化的数据结构,在存储系统大量的数据中有利于降低文档或信息查询和处理耗时、可以更快速匹配到准确的机构名称,并确定机构级别等,使相关数据运算和信息统计更准确。当然,在一些情况下,还可以其他类别文献或网页中个人主页上的机构信息进行实施,适用范围广泛。经过后续线上测试,科研机构匹配的准确性达到了90%以上,而地理位置的表现能够达到95%以上。
具体的,该机构标准化方案可基于图1所示的网络系统架构进行实施,如图1所示,该网络系统架构至少包括终端和服务器,整个网络系统通过有线或无线的网络连接,网络系统未示出的部分还可包括数据库、中继器、交换机等等。终端在知识图谱构建阶段用于向服务器提交知识图谱构建请求,该请求中可包括用于构建知识图谱的机构数据;而在线上标准化阶段(应用阶段),终端用于向服务器提交标准化请求,该请求中可包括待匹配或待标准化的机构数据。服务器为本方案的执行主体,在一些实施例中,服务器可以针对终端提交的知识图谱构建请求执行机构数据的数据清洗、子机构字段识别、子机构级别确定、编辑距离计算等相关步骤,服务器中集成有文本识别、编辑距离计算等各种算法,以支撑本方案的实施。可以理解的,本申请中的终端可以是电脑、平板电脑、智能手机等设备,服务器可以是本地服务器,也可以是云端服务器,图1仅仅是一种示例,并不对本申请实施例造成任何限定,在一些情况下,本方案还可以基于其他网络架构实施,例如:区块链网络。
基于图1所示的网络系统架构,以下结合相关附图对本申请实施例提出的机构标准化方法进行详细阐述,请参见图2,图2为本申请实施例提供的一种机构标准化方法的流程示意图,如图2所示,包括步骤S21-S24:
步骤S21,获取机构信息中的子机构字段,采用文本识别技术识别所述子机构字段中的每个子机构字段,确定所述每个子机构字段对应的区域类别层级;
本申请实施例中,机构信息即指机构数据中的机构名称,在基本的数据清理之后,可以将机构信息中不同部分的子机构字段抽取出来,比如国家,省份/州,城市大学,大学所属的学院,中心,实验室等。具体实施中如图3所示,可以预先设置多个区域类别层级,每个区域类别层级下存储多个对应层级的机构名称。具体的,构建三个区域类别层级,对应包括全球的国家、州(省)、城市的三个层级的词级,进行机构信息的数据匹配校正。
其中,将获取的子机构字段与预先存储的机构名称进行匹配,以确定每个子机构字段对应的区域类别层级。
可选的,在步骤S21之前,对终端提交的机构数据进行数据清洗,去除掉无意义的噪声信息,比如特殊符号、无意义的词(and、from等)。具体的,通过初步的语义识别可以分别提取机构信息和作者信息,对于作者信息中的人名,采用简写模式。可以采用预设的人名简写数据库中的模板进行匹配和修改。PubMed是一个提供生物医学方面的论文搜寻以及摘要,并且免费搜寻的数据库,pubmed文献会有人名简写来指示不同作者信息,本申请中预设人名简写规则的标准人名格式可以采用上述PubMed文献的人名简写。
可选的,可以从PubMed下载现存的所有文献,然后提取其中的上述机构(affiliation)数据。
一般论文作者的信息会写在一起,所以需要将不同作者的信息拆分开来,具体的,基于上述人名简写的格式,对作者信息进行规范,可以将作者信息基于预设人名简写规则进行匹配和自动校正,或者将该文献关联到正确的人名简写标签下。
对于获取的机构信息中,一般的名词写在一起的情况,可以采用索引拆分、分号拆分等。比如NewYorkCity,需要对此进行拆分,这是对数据深入观察得到的结果。
本申请中可以根据大量已有的子机构字段建立预设名词库,存储大量的常用预设名词,这些数据可以是经过认证整理的。可以依据预设名词、预设连接词对机构信息进行划分。具体的,对于一段文本,在识别出机构名词的情况下,服务器采用文本识别技术从中识别并提取预设名词作为拆分的字段,举例来讲,包括认证的机构名词如“TshinghuaUniversity”,以及整理的常用名词如“school of medicine”等;对于剩下无法与预设名词对应的字段,可以识别出其中多个预设连接词“of”、“and”等,进而执行拆分程序:识别到两个预设连接词之间存在至少两个独立名词的情况下,以该两个独立名词之间为拆分节点进行拆分,其中,对于拆分后的多个字段之间,增加标点符号“,”;
在两个预设连接词之间只存在一个名词的情况下,再对预设连接词前后的名词进行识别,确定其中的机构类型字段,比如“school”、“hospital”等等机构类型,对于这类可确认为机构类型的名词,其后“of”之后的名词与该名词分入一个划分字段;而与之通过“and”连接的字段划分为另一个字段。
举例来讲,设置预设连接词of、and模式拆分,比如“school of medicine ofTshinghua University”,识别到预设名词“Tshinghua University”,确定为一个划分字段,其之前的of可以替换为“,”;而“school of medicine”在作为预设名词时可以直接划分出来,若未被记为预设名词时,首先识别到其中的机构类型字段“school”,以及其后存在预设连接词“of”,从而将“of”之后的一个名词作为其修饰,划分为一个字段“school ofmedicine”,从而该机构名词拆分为多个字段:school of medicine,Tsinghuauniversity。再比如“Beijing Biology institute and Beijing Medical Center”,可以进行类似的处理,识别机构类型字段“institute”和“center”,通过and划分为BeijingBiology institute,Beijing Medical Center两部分。
步骤S22,确定所述每个子机构字段对应的子机构级别;
本申请具体实施例中,在确定区域类别层级的同时,如图4所示,构建三个子机构级别,即将机构分为三个等级,比如学校、医院成为一级机构,学院、分院等成为二级机构,系、部、实验室等成为第三级,这些子机构级别可以具有从属关系。
可选的,可以先将子机构字段进行字段匹配,确定标准化的子机构字段之后再进行层级和级别的确定。
比如很多国家的地理位置都写成简写,比如California写成CA,通过预先设置的简写映射关系,可以匹配出该简写对应的标准化的子机构字段。
可选的,若识别到机构信息中存在相同子机构级别的子机构字段,则将相同子机构级别降低一级作为机构信息的机构级别。举例说明,在将机构信息划分为多个字段后,如图5所示,对每一个完整的机构信息字段A,若其中包括两个可识别的子机构b、c,可以通过子机构数据库获取b、c的子机构级别,当检测到b和c的子机构级别均为N时,确定该机构信息字段A的级别为N-1。如对于一个机构信息中包括附属医院(一级机构)与学校(一级机构)时,就会成为二级机构,比如上海交通大学瑞金医院,识别到“上海交通大学”为“大学”,属于一级机构,“瑞金医院”为“医院”,属于一级机构,将“上海交通大学瑞金医院”的机构级别确定为二级机构。
步骤S23,将所述每个子机构字段对应的子机构级别中最低的级别作为所述机构信息的机构级别,将所述机构级别作为所述机构信息的标签进行存储,以完成知识图谱的构建;
本申请具体实施例中,在确定了每个子机构字段对应的子机构级别之后,可以将其中最低的级别作为所述机构信息的机构级别,以标签的形式存储。对于数据库中没有的机构,可以自动存储记录为新的机构信息,以扩大数据库信息量。在此之后,在查找机构的应用中,可以通过类似的方式,确定用户输入的机构信息的机构级别,通过相同机构级别的标签来匹配对应的标准化机构名称,以提高查询效率和准确性。
可选的,本申请实施例中还可以将区域类别层级与子机构级别作为机构信息的标签,然后进行存储。
可选的,本申请实施例中还可以根据每个子机构字段对应的区域类别层级和子机构级别,匹配每个子机构字段的标准名称,得到匹配结果;
根据匹配结果校正对获取到的机构信息执行校正操作,得到标准化机构信息。
步骤S24,采用编辑距离算法对各个所述子机构字段进行标准化处理。
本申请具体实施例中,采用步骤S21-S23构建好知识图谱后,继续对各个子机构字段进行标准化,可以采用编辑距离算法对子机构字段进行合并处理。
可选的,因为不同人对同一机构的写法也是不同的,比如上海交通大学,有人会写交通大学,因此,在一些实施例中还可以采用TF-IDF(term frequency–inverse documentfrequency,词频-逆向文件频率)算法进行后续的子机构字段标准化处理。
可以看出,本申请实施例通过获取机构信息中的子机构字段,采用文本识别技术识别所述子机构字段中的每个子机构字段,确定所述每个子机构字段对应的区域类别层级;确定所述每个子机构字段对应的子机构级别;将所述每个子机构字段对应的子机构级别中最低的级别作为所述机构信息的机构级别,将所述机构级别作为所述机构信息的标签进行存储,以完成知识图谱的构建;采用编辑距离算法对各个所述子机构字段进行标准化处理。这样采用大量机构数据构建知识图谱,以标准化的机构级别作为机构信息的标签进行存储,同时,以编辑距离算法对各个子机构字段进行标准化,存储的是通用的标准名称,在后续查找机构的应用中,可通过相同机构级别的标签来匹配对应的标准化机构名称,有利于提高查询效率和准确性。
请参见图6,图6为本申请实施例提供的另一种机构标准化方法的流程示意图,如图6所示,包括步骤S61-S66:
步骤S61,获取机构信息中的子机构字段,采用文本识别技术识别所述子机构字段中的每个子机构字段,确定所述每个子机构字段对应的区域类别层级;
步骤S62,确定所述每个子机构字段对应的子机构级别;
步骤S63,将所述每个子机构字段对应的子机构级别中最低的级别作为所述机构信息的机构级别,将所述机构级别作为所述机构信息的标签进行存储,以完成知识图谱的构建;
步骤S64,按照各个所述子机构字段的数量对各个所述子机构字段进行排序;
步骤S65,获取各个所述子机构字段之间的编辑距离;
步骤S66,对所述编辑距离小于距离阈值的各个所述子机构字段进行合并处理。
本申请具体实施例中,编辑距离是针对二个字符串的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。编辑距离可以用在自然语言处理中,例如拼写检查可以根据一个拼错的字和其他正确的字的编辑距离,判断哪一个(或哪几个)是比较可能的字。各个所述子机构字段之间的编辑距离可以理解为各个子机构字段之间的相似度,即该子机构字段与对应的子机构标准名称(可能是正确的写法)的相似度。具体的,因为有些机构会因为人为的关系会写错,所以用编辑距离进行标准化,具体是将数据以数量排序,然后再根据编辑距离度量相似度,将编辑距离小于上述距离阈值(比如3)的机构进行合并操作,将编辑距离小于距离阈值的各个子机构字段中数量最多的目标子机构字段作为各个所述子机构字段的标准化名称进行存储。例如:用于表示上海交通大学的子机构字段可能有上海交通大学、交通大学、上海交大、交大等等,而上海交通大学的数量是最多的,则将上海交通大学作为表示上海交通大学的各个子机构字段的标准化名称。
可选的,因为机构是分级的比如交通大学-计算机学院-软件工程系等,不同人也有不同写法,因此需要给出一个“标准写法”(大多数人写的方式)因此,对不同级别的越级现象进行修正。比如上例中,会出现不写计算机学院这一机构的情况,经过本方案的查询、匹配,会对缺失的机构进行填补。
需要说明的是,图6所示实施例中的部分步骤在图2所示的实施例中已有相关说明,此处不再赘述。
应用阶段,对文档、信息进行线上标准化的过程与知识图谱构建阶段类似,当一条新的机构数据过来后,会对其进行数据清洗,然后再进行抽取,获取其中的子机构字段(即如前述步骤S61、S62),接下来获取的子机构字段可进入知识库进行匹配,选出一些候选机构后,再进行排序,最终选出最优候选。在匹配时可以使用候选机构与待匹配机构的相似度、地理信息的一致性等衡量。可选的,当未达到匹配标准时,可以认为其为一个知识库外的机构,因此会将抽取的信息直接确定为其标准化机构。
基于上述方法实施例的描述,本申请实施例还提供一种机构标准化装置,所述机构标准化装置可以是运行于终端中的一个计算机程序(包括程序代码)。该机构标准化装置可以执行图2或图6所示的方法。请参见图7,该装置包括:
数据获取模块71,用于获取机构信息中的子机构字段,采用文本识别技术识别所述子机构字段中的每个子机构字段,确定所述每个子机构字段对应的区域类别层级;
级别确定模块72,用于确定所述每个子机构字段对应的子机构级别;
图谱构建模块73,用于将所述每个子机构字段对应的子机构级别中最低的级别作为所述机构信息的机构级别,将所述机构级别作为所述机构信息的标签进行存储,以完成知识图谱的构建;
标准化模块74,用于采用编辑距离算法对各个所述子机构字段进行标准化处理。
在一种可选的实施方式中,在采用编辑距离算法对各个所述子机构字段进行标准化处理方面,所述标准化模块74,具体用于:
按照各个所述子机构字段的数量对各个所述子机构字段进行排序;
获取各个所述子机构字段之间的编辑距离;
对所述编辑距离小于距离阈值的各个所述子机构字段进行合并处理。
在一种可选的实施方式中,在对所述编辑距离小于距离阈值的各个所述子机构字段进行合并处理方面,所述标准化模块74,具体用于:
将所述编辑距离小于距离阈值的各个所述子机构字段中数量最多的目标子机构字段作为各个所述子机构字段的标准化名称进行存储;
所述数据获取模块71,还用于:对终端提交的机构数据进行数据清洗,去除噪声信息。
在一种可选的实施方式中,在对终端提交的机构数据进行数据清洗,去除噪声信息方面,数据获取模块71,具体用于:
通过语义识别技术从所述机构数据中提取出所述机构信息和作者信息;
采用预设人名简写模板对所述作者信息进行匹配和修正;以及
识别所述机构信息中的预设连接词和预设名词,基于所述预设连接词和所述预设名词将所述机构信息拆分为多个字段,并在字段之间加入预设标点符号。
在一种可选的实施方式中,图谱构建模块73还用于:根据所述每个子机构字段对应的区域类别层级和子机构级别,匹配所述每个子机构字段的标准名称,得到匹配结果;
根据所述匹配结果对所述机构信息执行校正操作,得到标准化机构信息。
在一种可选的实施方式中,级别确定模块72还用于:若识别到所述机构信息中存在相同子机构级别的子机构字段,则将相同子机构级别降低一级作为所述机构级别。
根据本申请的一个实施例,图7所示的机构标准化装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本发明的其它实施例中,机构标准化装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图6中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图7所示的装置设备,以及来实现本发明实施例的上述方法。所述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
基于上述方法实施例以及装置实施例的描述,本发明实施例还提供一种电子设备。请参见图8,该电子设备至少包括处理器81、输入设备82、输出设备83以及计算机存储介质84。其中,电子设备内的处理器81、输入设备82、输出设备83以及计算机存储介质84可通过总线或其他方式连接。
计算机存储介质84可以存储在电子设备的存储器中,所述计算机存储介质84用于存储计算机程序,所述计算机程序包括程序指令,所述处理器81用于执行所述计算机存储介质84存储的程序指令。处理器81(或称CPU(Central Processing Unit,中央处理器))是电子设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。
在一个实施例中,本申请实施例提供的电子设备的处理器81可以用于进行一系列机构标准化处理,包括:
获取机构信息中的子机构字段,采用文本识别技术识别所述子机构字段中的每个子机构字段,确定所述每个子机构字段对应的区域类别层级;
确定所述每个子机构字段对应的子机构级别;
将所述每个子机构字段对应的子机构级别中最低的级别作为所述机构信息的机构级别,将所述机构级别作为所述机构信息的标签进行存储,以完成知识图谱的构建;
采用编辑距离算法对各个所述子机构字段进行标准化处理。
在一个实施例中,处理器81执行所述采用编辑距离算法对各个所述子机构字段进行标准化处理,包括:
按照各个所述子机构字段的数量对各个所述子机构字段进行排序;
获取各个所述子机构字段之间的编辑距离;
对所述编辑距离小于距离阈值的各个所述子机构字段进行合并处理。
在一个实施例中,处理器81执行所述对所述编辑距离小于距离阈值的各个所述子机构字段进行合并处理,包括:
将所述编辑距离小于距离阈值的各个所述子机构字段中数量最多的目标子机构字段作为各个所述子机构字段的标准化名称进行存储;
处理器81还用于执行:对终端提交的机构数据进行数据清洗,去除噪声信息。
在一个实施例中,处理器81执行所述对终端提交的机构数据进行数据清洗,去除噪声信息,包括:
通过语义识别技术从所述机构数据中提取出所述机构信息和作者信息;
采用预设人名简写模板对所述作者信息进行匹配和修正;以及
识别所述机构信息中的预设连接词和预设名词,基于所述预设连接词和所述预设名词将所述机构信息拆分为多个字段,并在字段之间加入预设标点符号。
在一个实施例中,处理器81还用于执行:根据所述每个子机构字段对应的区域类别层级和子机构级别,匹配所述每个子机构字段的标准名称,得到匹配结果;
根据所述匹配结果对所述机构信息执行校正操作,得到标准化机构信息。
在一个实施例中,处理器81还用于执行:若识别到所述机构信息中存在相同子机构级别的子机构字段,则将相同子机构级别降低一级作为所述机构级别。
本申请实施例通过获取机构信息中的子机构字段,采用文本识别技术识别所述子机构字段中的每个子机构字段,确定所述每个子机构字段对应的区域类别层级;确定所述每个子机构字段对应的子机构级别;将所述每个子机构字段对应的子机构级别中最低的级别作为所述机构信息的机构级别,将所述机构级别作为所述机构信息的标签进行存储,以完成知识图谱的构建;采用编辑距离算法对各个所述子机构字段进行标准化处理。这样采用大量机构数据构建知识图谱,以标准化的机构级别作为机构信息的标签进行存储,同时,以编辑距离算法对各个子机构字段进行标准化,存储的是通用的标准名称,在后续查找机构的应用中,可通过相同机构级别的标签来匹配对应的标准化机构名称,有利于提高查询效率和准确性。
示例性的,上述电子设备可以是智能手机、计算机、笔记本电脑、平板电脑、掌上电脑、服务器等。电子设备可包括但不仅限于处理器81、输入设备82、输出设备83以及计算机存储介质84。本领域技术人员可以理解,所述示意图仅仅是电子设备的示例,并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
需要说明的是,由于电子设备的处理器81执行计算机程序时实现上述的机构标准化方法中的步骤,因此上述机构标准化方法的实施例均适用于该电子设备,且均能达到相同或相似的有益效果。
本申请实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是电子设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括终端中的内置存储介质,当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器81加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器81的计算机存储介质。在一个实施例中,可由处理器81加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关机构标准化方法的相应步骤;具体实现中,计算机存储介质中的一条或多条指令由处理器81加载并执行如下步骤:
获取机构信息中的子机构字段,采用文本识别技术识别所述子机构字段中的每个子机构字段,确定所述每个子机构字段对应的区域类别层级;
确定所述每个子机构字段对应的子机构级别;
将所述每个子机构字段对应的子机构级别中最低的级别作为所述机构信息的机构级别,将所述机构级别作为所述机构信息的标签进行存储,以完成知识图谱的构建;
采用编辑距离算法对各个所述子机构字段进行标准化处理。
在一种示例中,计算机存储介质中的一条或多条指令由处理器81加载时还执行如下步骤:
按照各个所述子机构字段的数量对各个所述子机构字段进行排序;
获取各个所述子机构字段之间的编辑距离;
对所述编辑距离小于距离阈值的各个所述子机构字段进行合并处理。
在一种示例中,计算机存储介质中的一条或多条指令由处理器81加载时还执行如下步骤:
将所述编辑距离小于距离阈值的各个所述子机构字段中数量最多的目标子机构字段作为各个所述子机构字段的标准化名称进行存储。
在一种示例中,计算机存储介质中的一条或多条指令由处理器81加载时还执行如下步骤:
对终端提交的机构数据进行数据清洗,去除噪声信息。
在一种示例中,计算机存储介质中的一条或多条指令由处理器81加载时还执行如下步骤:
通过语义识别技术从所述机构数据中提取出所述机构信息和作者信息;
采用预设人名简写模板对所述作者信息进行匹配和修正;以及
识别所述机构信息中的预设连接词和预设名词,基于所述预设连接词和所述预设名词将所述机构信息拆分为多个字段,并在字段之间加入预设标点符号。
在一种示例中,计算机存储介质中的一条或多条指令由处理器81加载时还执行如下步骤:
根据所述每个子机构字段对应的区域类别层级和子机构级别,匹配所述每个子机构字段的标准名称,得到匹配结果;
根据所述匹配结果对所述机构信息执行校正操作,得到标准化机构信息。
在一种示例中,计算机存储介质中的一条或多条指令由处理器81加载时还执行如下步骤:
若识别到所述机构信息中存在相同子机构级别的子机构字段,则将相同子机构级别降低一级作为所述机构级别。
需要说明的是,由于计算机存储介质的计算机程序被处理器执行时实现上述的机构标准化方法中的步骤,因此上述机构标准化方法的所有实施例或实施方式均适用于该计算机存储介质,且均能达到相同或相似的有益效果。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种机构标准化方法,其特征在于,所述方法包括:
获取机构信息中的子机构字段,采用文本识别技术识别所述子机构字段中的每个子机构字段,确定所述每个子机构字段对应的区域类别层级;
确定所述每个子机构字段对应的子机构级别;
将所述每个子机构字段对应的子机构级别中最低的级别作为所述机构信息的机构级别,将所述机构级别作为所述机构信息的标签进行存储,以完成知识图谱的构建;
采用编辑距离算法对各个所述子机构字段进行标准化处理。
2.根据权利要求1所述的方法,其特征在于,所述采用编辑距离算法对各个所述子机构字段进行标准化处理,包括:
按照各个所述子机构字段的数量对各个所述子机构字段进行排序;
获取各个所述子机构字段之间的编辑距离;
对所述编辑距离小于距离阈值的各个所述子机构字段进行合并处理。
3.根据权利要求2所述的方法,其特征在于,所述对所述编辑距离小于距离阈值的各个所述子机构字段进行合并处理,包括:
将所述编辑距离小于距离阈值的各个所述子机构字段中数量最多的目标子机构字段作为各个所述子机构字段的标准化名称进行存储;
在获取机构信息中的子机构字段,采用文本识别技术识别所述子机构字段中的每个子机构字段,确定所述每个子机构字段对应的区域类别层级之前,所述方法还包括:
对终端提交的机构数据进行数据清洗,去除噪声信息。
4.根据权利要求3所述的方法,其特征在于,所述对终端提交的机构数据进行数据清洗,去除噪声信息,包括:
通过语义识别技术从所述机构数据中提取出所述机构信息和作者信息;
采用预设人名简写模板对所述作者信息进行匹配和修正;以及
识别所述机构信息中的预设连接词和预设名词,基于所述预设连接词和所述预设名词将所述机构信息拆分为多个字段,并在字段之间加入预设标点符号。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
根据所述每个子机构字段对应的区域类别层级和子机构级别,匹配所述每个子机构字段的标准名称,得到匹配结果;
根据所述匹配结果对所述机构信息执行校正操作,得到标准化机构信息。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
若识别到所述机构信息中存在相同子机构级别的子机构字段,则将相同子机构级别降低一级作为所述机构级别。
7.一种机构标准化装置,其特征在于,所述装置包括:
数据获取模块,用于获取机构信息中的子机构字段,采用文本识别技术识别所述子机构字段中的每个子机构字段,确定所述每个子机构字段对应的区域类别层级;
级别确定模块,用于确定所述每个子机构字段对应的子机构级别;
图谱构建模块,用于将所述每个子机构字段对应的子机构级别中最低的级别作为所述机构信息的机构级别,将所述机构级别作为所述机构信息的标签进行存储,以完成知识图谱的构建;
标准化模块,用于采用编辑距离算法对各个所述子机构字段进行标准化处理。
8.根据权利要求7装置,其特征在于,在采用编辑距离算法对各个所述子机构字段进行标准化处理方面,所述标准化模块,具体用于:
按照各个所述子机构字段的数量对各个所述子机构字段进行排序;
获取各个所述子机构字段之间的编辑距离;
对所述编辑距离小于距离阈值的各个所述子机构字段进行合并处理。
9.一种电子设备,包括输入设备和输出设备,其特征在于,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1-6任一项所述的方法中的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如权利要求1-6任一项所述的方法中的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010417022.3A CN111694823A (zh) | 2020-05-15 | 2020-05-15 | 机构标准化方法、装置、电子设备及存储介质 |
PCT/CN2020/118119 WO2021114825A1 (zh) | 2020-05-15 | 2020-09-27 | 机构标准化方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010417022.3A CN111694823A (zh) | 2020-05-15 | 2020-05-15 | 机构标准化方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111694823A true CN111694823A (zh) | 2020-09-22 |
Family
ID=72477881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010417022.3A Pending CN111694823A (zh) | 2020-05-15 | 2020-05-15 | 机构标准化方法、装置、电子设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111694823A (zh) |
WO (1) | WO2021114825A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148735A (zh) * | 2020-09-23 | 2020-12-29 | 上海爱数信息技术股份有限公司 | 一种用于结构化表格数据知识图谱的构建方法 |
CN112182312A (zh) * | 2020-09-23 | 2021-01-05 | 中国建设银行股份有限公司 | 一种机构名称匹配方法、装置、电子设备及可读存储介质 |
CN112463782A (zh) * | 2020-12-03 | 2021-03-09 | 北京三维天地科技股份有限公司 | 一种基于优化的编辑距离的数据清洗方法及系统 |
WO2021114825A1 (zh) * | 2020-05-15 | 2021-06-17 | 平安科技(深圳)有限公司 | 机构标准化方法、装置、电子设备及存储介质 |
CN113868312A (zh) * | 2021-10-13 | 2021-12-31 | 上海市研发公共服务平台管理中心 | 多方法融合的机构匹配方法、装置、设备和存储介质 |
CN114492413A (zh) * | 2021-12-27 | 2022-05-13 | 北京清格科技有限公司 | 文本校对方法、装置和电子设备 |
CN114880430A (zh) * | 2022-05-10 | 2022-08-09 | 马上消费金融股份有限公司 | 名称处理方法及装置 |
CN116364296A (zh) * | 2023-02-17 | 2023-06-30 | 中国人民解放军总医院 | 标准检查项目名称确认方法、装置、设备、介质及产品 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113002113B (zh) * | 2021-03-03 | 2022-02-08 | 浙江凌龙纺织有限公司 | 一种动物纤维织物肌理效果的制作装置及方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109739997A (zh) * | 2019-01-28 | 2019-05-10 | 致诚阿福技术发展(北京)有限公司 | 地址对比方法、装置及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6421066B1 (en) * | 1999-03-23 | 2002-07-16 | Klab.Com - The Knowledge Infrastructure Laboratory Ltd. | Method for creating a knowledge map |
CN106874384B (zh) * | 2017-01-10 | 2020-12-04 | 航天精一(广东)信息科技有限公司 | 一种异构地址标准转换及匹配方法 |
CN108052609A (zh) * | 2017-12-13 | 2018-05-18 | 武汉烽火普天信息技术有限公司 | 一种基于词典和机器学习的地址匹配方法 |
CN111694823A (zh) * | 2020-05-15 | 2020-09-22 | 平安科技(深圳)有限公司 | 机构标准化方法、装置、电子设备及存储介质 |
-
2020
- 2020-05-15 CN CN202010417022.3A patent/CN111694823A/zh active Pending
- 2020-09-27 WO PCT/CN2020/118119 patent/WO2021114825A1/zh active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109739997A (zh) * | 2019-01-28 | 2019-05-10 | 致诚阿福技术发展(北京)有限公司 | 地址对比方法、装置及系统 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021114825A1 (zh) * | 2020-05-15 | 2021-06-17 | 平安科技(深圳)有限公司 | 机构标准化方法、装置、电子设备及存储介质 |
CN112148735B (zh) * | 2020-09-23 | 2023-05-26 | 上海爱数信息技术股份有限公司 | 一种用于结构化表格数据知识图谱的构建方法 |
CN112182312A (zh) * | 2020-09-23 | 2021-01-05 | 中国建设银行股份有限公司 | 一种机构名称匹配方法、装置、电子设备及可读存储介质 |
CN112148735A (zh) * | 2020-09-23 | 2020-12-29 | 上海爱数信息技术股份有限公司 | 一种用于结构化表格数据知识图谱的构建方法 |
CN112463782A (zh) * | 2020-12-03 | 2021-03-09 | 北京三维天地科技股份有限公司 | 一种基于优化的编辑距离的数据清洗方法及系统 |
CN112463782B (zh) * | 2020-12-03 | 2022-03-18 | 北京三维天地科技股份有限公司 | 一种基于优化的编辑距离的数据清洗方法及系统 |
CN113868312A (zh) * | 2021-10-13 | 2021-12-31 | 上海市研发公共服务平台管理中心 | 多方法融合的机构匹配方法、装置、设备和存储介质 |
CN114492413A (zh) * | 2021-12-27 | 2022-05-13 | 北京清格科技有限公司 | 文本校对方法、装置和电子设备 |
CN114492413B (zh) * | 2021-12-27 | 2024-05-31 | 北京清格科技有限公司 | 文本校对方法、装置和电子设备 |
CN114880430A (zh) * | 2022-05-10 | 2022-08-09 | 马上消费金融股份有限公司 | 名称处理方法及装置 |
CN114880430B (zh) * | 2022-05-10 | 2023-07-18 | 马上消费金融股份有限公司 | 名称处理方法及装置 |
CN116364296A (zh) * | 2023-02-17 | 2023-06-30 | 中国人民解放军总医院 | 标准检查项目名称确认方法、装置、设备、介质及产品 |
CN116364296B (zh) * | 2023-02-17 | 2023-12-26 | 中国人民解放军总医院 | 标准检查项目名称确认方法、装置、设备、介质及产品 |
Also Published As
Publication number | Publication date |
---|---|
WO2021114825A1 (zh) | 2021-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111694823A (zh) | 机构标准化方法、装置、电子设备及存储介质 | |
US20230142217A1 (en) | Model Training Method, Electronic Device, And Storage Medium | |
Leidner et al. | Detecting geographical references in the form of place names and associated spatial natural language | |
CN117076653B (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
WO2010119615A1 (ja) | 学習データ生成装置、及び固有表現抽出システム | |
US11397855B2 (en) | Data standardization rules generation | |
CN110516260A (zh) | 实体推荐方法、装置、存储介质及设备 | |
Freire et al. | A metadata geoparsing system for place name recognition and resolution in metadata records | |
CN110019474B (zh) | 异构数据库中的同义数据自动关联方法、装置及电子设备 | |
Ardanuy et al. | Toponym disambiguation in historical documents using semantic and geographic features | |
CN110033382B (zh) | 一种保险业务的处理方法、装置及设备 | |
Kim et al. | Statute law information retrieval and entailment | |
CN114330335B (zh) | 关键词抽取方法、装置、设备及存储介质 | |
KR20220134695A (ko) | 인공지능 학습 모델을 이용한 저자 식별 시스템 및 그 방법 | |
CN112132238A (zh) | 一种识别隐私数据的方法、装置、设备和可读介质 | |
JP2018124617A (ja) | 教師データ収集装置、教師データ収集方法、及びプログラム | |
Küçük | Automatic compilation of language resources for named entity recognition in Turkish by utilizing Wikipedia article titles | |
CN114201598B (zh) | 文本推荐方法及文本推荐装置 | |
CN106933824A (zh) | 在多个文档中确定与目标文档相似的文档集合的方法和装置 | |
US20180307676A1 (en) | Systems, Devices, Components and Associated Computer Executable Code for Recognizing and Analyzing/Processing Modification Sentences within Human Language | |
Varol et al. | Detecting near-duplicate text documents with a hybrid approach | |
Han et al. | Disambiguating USPTO inventor names with semantic fingerprinting and DBSCAN clustering | |
Chang et al. | On chinese postal address and associated information extraction | |
CN113590792A (zh) | 用户问题的处理方法、装置和服务器 | |
Efremova et al. | A geo-tagging framework for address extraction from web pages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |