CN113627183A - 部门名称文本的标准化处理方法、装置、设备及存储介质 - Google Patents

部门名称文本的标准化处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113627183A
CN113627183A CN202110923974.7A CN202110923974A CN113627183A CN 113627183 A CN113627183 A CN 113627183A CN 202110923974 A CN202110923974 A CN 202110923974A CN 113627183 A CN113627183 A CN 113627183A
Authority
CN
China
Prior art keywords
department
name text
department name
standardized
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110923974.7A
Other languages
English (en)
Inventor
郑梓昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202110923974.7A priority Critical patent/CN113627183A/zh
Publication of CN113627183A publication Critical patent/CN113627183A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种部门名称文本的标准化处理方法,包括:获取待标准化部门名称文本,提取出待标准化部门名称文本中的部门地区信息,基于部门地区信息从标准部门名称文本库中筛选出与待标准化部门名称文本对应的标准部门名称文本集合,计算标准部门名称文本集合中每个标准部门名称文本与待标准化部门名称文本的文本相似值,根据文本相似值从标准部门名称文本集合中筛选出目标标准部门名称文本,最后基于目标标准部门名称文本执行对待标准化部门名称文本的标准化处理。可见,本发明能够实现部门名称文本的标准化处理的自动化,替代传统的人工进行标准化处理的方式,提高部门名称文本的标准化处理的处理效率和时效性。本发明还涉及区块链技术领域。

Description

部门名称文本的标准化处理方法、装置、设备及存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种部门名称文本的标准化处理方法、装置、计算机设备以及存储介质。
背景技术
在计算机政务项目中,由于在实际的政务中经常会推出新的政策,所以实现新政策的正常发布是计算机政务项目的一项常见需求。在实际应用中,入库的新政策在编写时通常对其中的部门名称缺乏统一的规范,导致新政策中的部门名称的文本形式未能统一,如,XX市发展和改革委员会这一部门在新政策中的部门名称的文本形式可以是“XX市发展和改革委员会”、“XX市发改委”、“XX发改委”等等。所以,在发布新政策之前,通常需要业务人员对新政策中的部门名称进行人工校准,具体地,业务人员人工地查找新政策中的部门名称,然后将查找到的部门名称与预设的标准部门名称库中的标准部门名称进行对比,最后将新政策中与标准部门名称不一致的部门名称修改为对应的标准部门名称,这样,对新政策进行人工校准之后,再发布新政策,从而能够保证新政策的正确发布。但是,这种人工校准部门名称的方式的校准效率较低,需要耗费大量的人力物力,且校准的时效性也较低,如,新政策在夜晚入库,则需要等到隔天业务人员上班之后进行人工校准才发布,导致新政策发布的时效性的降低。
发明内容
本发明所要解决的技术问题在于,目前的部门名称文本的标准化处理方法的处理效率和时效性较低。
为了解决上述技术问题,本发明第一方面公开了一种部门名称文本的标准化处理方法,所述方法包括:
获取待标准化处理的待标准化部门名称文本;
按照预设的部门地区分析方式对所述待标准化部门名称文本进行分析,以提取出所述待标准化部门名称文本中的部门地区信息;
基于所述待标准化部门名称文本对应的部门地区信息从预设的标准部门名称文本库中筛选出与所述待标准化部门名称文本对应的标准部门名称文本集合,其中,所述标准部门名称文本库中预先存储有多个标准部门名称文本集合,且每个所述标准部门名称文本集合均存在对应的部门地区信息;
基于预设的文本相似值算法计算所述标准部门名称文本集合中每个标准部门名称文本与所述待标准化部门名称文本的文本相似值;
根据所述标准部门名称文本集合中每个标准部门名称文本与所述待标准化部门名称文本的文本相似值,从所述标准部门名称文本集合中筛选出所述待标准化部门名称文本对应的目标标准部门名称文本;
基于所述目标标准部门名称文本执行对所述待标准化部门名称文本的标准化处理。
本发明第二方面公开了一种部门名称文本的标准化处理装置,所述装置包括:
获取模块,用于获取待标准化处理的待标准化部门名称文本;
分析模块,用于按照预设的部门地区分析方式对所述待标准化部门名称文本进行分析,以提取出所述待标准化部门名称文本中的部门地区信息;
筛选模块,用于基于所述待标准化部门名称文本对应的部门地区信息从预设的标准部门名称文本库中筛选出与所述待标准化部门名称文本对应的标准部门名称文本集合,其中,所述标准部门名称文本库中预先存储有多个标准部门名称文本集合,且每个所述标准部门名称文本集合均存在对应的部门地区信息;
计算模块,用于基于预设的文本相似值算法计算所述标准部门名称文本集合中每个标准部门名称文本与所述待标准化部门名称文本的文本相似值;
所述筛选模块,还用于根据所述标准部门名称文本集合中每个标准部门名称文本与所述待标准化部门名称文本的文本相似值,从所述标准部门名称文本集合中筛选出所述待标准化部门名称文本对应的目标标准部门名称文本;
标准化模块,用于基于所述目标标准部门名称文本执行对所述待标准化部门名称文本的标准化处理。
本发明第三方面公开了一种计算机设备,所述计算机设备包括:
存储有可执行程序代码的存储器;
与所述存储器连接的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的部门名称文本的标准化处理方法中的部分或全部步骤。
本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的部门名称文本的标准化处理方法中的部分或全部步骤。
本发明实施例中,获取待标准化部门名称文本,提取出待标准化部门名称文本中的部门地区信息,基于部门地区信息从标准部门名称文本库中筛选出与待标准化部门名称文本对应的标准部门名称文本集合,计算标准部门名称文本集合中每个标准部门名称文本与待标准化部门名称文本的文本相似值,根据文本相似值从标准部门名称文本集合中筛选出目标标准部门名称文本,最后基于目标标准部门名称文本执行对待标准化部门名称文本的标准化处理,从而能够实现部门名称文本的标准化处理的自动化,替代传统的人工进行标准化处理的方式,提高部门名称文本的标准化处理的处理效率和时效性。此外,在进行目标标准部门名称文本的筛选时,先提取出待标准化部门名称文本中的部门地区信息,然后基于部门地区信息从标准部门名称文本库中筛选出与待标准化部门名称文本对应的标准部门名称文本集合,再计算标准部门名称文本集合中每个标准部门名称文本与待标准化部门名称文本的文本相似值,从而能够缩小进行目标标准部门名称文本的筛选时待标准化部门名称文本的比对范围,从而能够节省文本比对所使用的计算资源,并提高标准化处理的处理效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种部门名称文本的标准化处理方法的流程示意图;
图2是本发明实施例公开的一种部门名称文本的标准化处理装置的结构示意图;
图3是本发明实施例公开的一种计算机设备的结构示意图;
图4是本发明实施例公开的一种计算机存储介质的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种部门名称文本的标准化处理方法、装置、计算机设备以及存储介质,获取待标准化部门名称文本,提取出待标准化部门名称文本中的部门地区信息,基于部门地区信息从标准部门名称文本库中筛选出与待标准化部门名称文本对应的标准部门名称文本集合,计算标准部门名称文本集合中每个标准部门名称文本与待标准化部门名称文本的文本相似值,根据文本相似值从标准部门名称文本集合中筛选出目标标准部门名称文本,最后基于目标标准部门名称文本执行对待标准化部门名称文本的标准化处理,从而能够实现部门名称文本的标准化处理的自动化,替代传统的人工进行标准化处理的方式,提高部门名称文本的标准化处理的处理效率和时效性。此外,在进行目标标准部门名称文本的筛选时,先提取出待标准化部门名称文本中的部门地区信息,然后基于部门地区信息从标准部门名称文本库中筛选出与待标准化部门名称文本对应的标准部门名称文本集合,再计算标准部门名称文本集合中每个标准部门名称文本与待标准化部门名称文本的文本相似值,从而能够缩小进行目标标准部门名称文本的筛选时待标准化部门名称文本的比对范围,从而能够节省文本比对所使用的计算资源,并提高标准化处理的处理效率。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种部门名称文本的标准化处理方法的流程示意图。如图1所示,该部门名称文本的标准化处理方法可以包括以下操作:
101、获取待标准化处理的待标准化部门名称文本;
在上述步骤101中,待标准化部门名称文本可以是由用户自行输入的,如,用户想要对部门名称文本“XX市发改委”进行标准化处理,则可以将部门名称文本“XX市发改委”作为待标准化部门名称文本进行输入。待标准化部门名称文本还可以是从新政策的全部文本中提取出的,如,用户输入新政策的全部文本,然后即可以从全部文本中提取出待标准化部门名称文本进行标准化处理。
102、按照预设的部门地区分析方式对所述待标准化部门名称文本进行分析,以提取出所述待标准化部门名称文本中的部门地区信息;
在上述步骤102中,某一个国家的政府部门共分为四个级别:国家级、省级、市级、区级。政府部门的级别通常会在其部门名称上有所体现,如,“XX市发展和改革委员会”为市级部门、“XX省财政局”为省级部门。可见,部门名称中的一部分信息(即部门地区信息)记录了该部门所在的地区,如,“XX市”这一部门地区信息表示该部门所在的地区为XX市。通过预设的部门地区分析方式即可以从待标准化部门名称文本中提取出部门地区信息,具体的提取过程,稍后进行具体描述。
103、基于所述待标准化部门名称文本对应的部门地区信息从预设的标准部门名称文本库中筛选出与所述待标准化部门名称文本对应的标准部门名称文本集合,其中,所述标准部门名称文本库中预先存储有多个标准部门名称文本集合,且每个所述标准部门名称文本集合均存在对应的部门地区信息;
在上述步骤103中,可以将每个部门的标准部门名称文本都预先存储在标准部门名称文本库中,并且将标准部门名称文本按照部门所在的地区进行划分,同一地区的标准部门名称文本划分同一组从而形成一个标准部门名称文本集合。如,“XX市发展和改革委员会”、“XX市科技创新局”、“XX市工业和信息化局”、“XX市财政局”这些标准部门名称文本均属于XX市地区,所以这些标准部门名称文本可以划分为一个标准部门名称文本集合,对应着XX市的部门地区信息。当待标准化部门名称文本为“XX市发改委”时,提取出的部门地区信息则为“XX市”,则该待标准化部门名称文本在标准部门名称文本库中对应的标准部门名称文本集合即为XX市地区的标准部门名称文本集合,也即“XX市发展和改革委员会”、“XX市科技创新局”、“XX市工业和信息化局”、“XX市财政局”。
104、基于预设的文本相似值算法计算所述标准部门名称文本集合中每个标准部门名称文本与所述待标准化部门名称文本的文本相似值;
在上述步骤104中,通过待标准化部门名称文本对应的部门地区信息先从标准部门名称文本库中筛选出与待标准化部门名称文本对应的标准部门名称文本集合,然后再计算标准部门名称文本集合中每个标准部门名称文本与待标准化部门名称文本的文本相似值,从而能够缩小待标准化部门名称文本的比对范围(即仅需要与标准部门名称文本集合中的每个标准部门名称文本进行比对,无须与标准部门名称文本库中的每个标准部门名称文本进行比对),从而能够节省文本比对所使用的计算资源,并提高标准化处理的效率。
105、根据所述标准部门名称文本集合中每个标准部门名称文本与所述待标准化部门名称文本的文本相似值,从所述标准部门名称文本集合中筛选出所述待标准化部门名称文本对应的目标标准部门名称文本;
在上述步骤105中,在计算出标准部门名称文本集合中每个标准部门名称文本与待标准化部门名称文本的文本相似值之后,即可以将文本相似值最高的标准部门名称文本作为待标准化部门名称文本对应的目标标准部门名称文本。
106、基于所述目标标准部门名称文本执行对所述待标准化部门名称文本的标准化处理。
在上述步骤106中,在确定出待标准化部门名称文本对应的目标标准部门名称文本之后,即可以执行相应的标准化处理。当待标准化部门名称文本是由用户自行输入时,即可以向用户输出目标标准部门名称文本,如,用户想要查询“XX市发改委”对应的标准部门名称文本,即可以直接将“XX市发改委”作为待标准化部门名称文本进行输入,然后确定出“XX市发改委”对应的目标标准部门名称文本为“XX市发展和改革委员会”,这时即可以直接向用户输出“XX市发展和改革委员会”,这样用户即可以知晓“XX市发改委”对应的标准部门名称文本为“XX市发展和改革委员会”。当待标准化部门名称文本是从新政策的全部文本中提取出时,即可以将新政策的全部文本中的待标准化部门名称文本全部替换为目标标准部门名称文本,从而完成标准化处理。
可见,实施图1所描述的部门名称文本的标准化处理方法,获取待标准化部门名称文本,提取出待标准化部门名称文本中的部门地区信息,基于部门地区信息从标准部门名称文本库中筛选出与待标准化部门名称文本对应的标准部门名称文本集合,计算标准部门名称文本集合中每个标准部门名称文本与待标准化部门名称文本的文本相似值,根据文本相似值从标准部门名称文本集合中筛选出目标标准部门名称文本,最后基于目标标准部门名称文本执行对待标准化部门名称文本的标准化处理,从而能够实现部门名称文本的标准化处理的自动化,替代传统的人工进行标准化处理的方式,提高部门名称文本的标准化处理的处理效率和时效性。此外,在进行目标标准部门名称文本的筛选时,先提取出待标准化部门名称文本中的部门地区信息,然后基于部门地区信息从标准部门名称文本库中筛选出与待标准化部门名称文本对应的标准部门名称文本集合,再计算标准部门名称文本集合中每个标准部门名称文本与待标准化部门名称文本的文本相似值,从而能够缩小进行目标标准部门名称文本的筛选时待标准化部门名称文本的比对范围,从而能够节省文本比对所使用的计算资源,并提高标准化处理的处理效率。
在一个可选的实施例中,所述按照预设的部门地区分析方式对所述待标准化部门名称文本进行分析,以提取出所述待标准化部门名称文本中的部门地区信息,包括:
基于预设的文本分类算法对所述待标准化部门名称文本进行级别分类处理,以得到所述待标准化部门名称文本对应的级别分类结果,其中,所述待标准化部门名称文本对应的级别分类结果为国家级、省级、市级和区级的其中一种;
当所述待标准化部门名称文本对应的级别分类结果为省级、市级或者区级时,基于预设的部门地区抽取模型对所述待标准化部门名称文本进行分析,以提取出所述待标准化部门名称文本中的部门地区信息;
当所述待标准化部门名称文本对应的级别分类结果为国家级时,将预设的国家级部门地区信息作为所述待标准化部门名称文本中的部门地区信息。
在该可选的实施例中,部门名称可以共分为四个级别:国家级、省级、市级、区级。根据部门名称的命名习惯,只有省级、市级和区级的部门名称中记录有该部门所在地区的信息,如,市级部门名称文本“XX市发改委”中部门地区信息为“XX市”,表示该部门在XX市地区。而国家级的部门名称中则不会记录有该部门所在地区的信息,因为国家级的部门名称的前缀通常是“XXX国”,其并未记录有任何的地区信息,如,国家级部门名称文本“XXX国国家发展和改革委员会”、“XXX国司法部”、“XXX国科学技术部”等,这些国家级部门名称文本中都不会记录有该部门所在地区的信息。所以,在提取出待标准化部门名称文本中的部门地区信息时,可以针对部门名称的部门级别的不同采用不同的处理方式,从而提高部门地区信息提取的效率和准确度。具体地,先使用文本分类算法对待标准化部门名称文本进行级别分类,若待标准化部门名称文本的级别为省级、市级或者区级,则使用部门地区抽取模型提取待标准化部门名称文本中的部门地区信息,若待标准化部门名称文本的级别为国家级,则无须进行部门地区信息的提取,直接将预设的国家级部门地区信息(如,“XXX国”)作为待标准化部门名称文本中的部门地区信息。
可见,实施该可选的实施例,在提取出待标准化部门名称文本中的部门地区信息时,先判断待标准化部门名称文本对应的部门级别,然后针对部门名称的部门级别的不同采用不同的部门地区信息提取方式,从而提高部门地区信息提取的效率和准确度。
在一个可选的实施例中,所述部门地区抽取模型是一个基于BILSTM-CRF模型的识别模型,其中,所述部门地区抽取模型的第一层为向量层,第二层为双向LSTM层,第三层为CRF层。
在该可选的实施例中,部门地区抽取模型可以是一个基于BILSTM-CRF模型的识别模型,其中,部门地区抽取模型的第一层为向量层,第二层为双向LSTM层,第三层为CRF层。在部门地区抽取模型中,以待标准化部门名称文本的每一个字符的向量作为模型的输入,将正向LSTM输出的隐状态序列与反向LSTM输出的隐状态序列进行拼接得到完整的隐状态序列,最后CRF层通过提取到的句子特征,进行句子级的序列标注,从而标注出待标准化部门名称文本中的部门地区信息,实现部门地区信息的提取。如,待标准化部门名称文本为“XX市发改委”,经过部门地区抽取模型的分析之后,将会对“XX市”这三个字符打上标注,这样即可以提取出被打上标注的三个字符“XX市”作为待标准化部门名称文本的部门地区信息。
可见,实施该可选的实施例,基于BILSTM-CRF模型构建部门地区抽取模型,并使部门地区抽取模型的第一层为向量层,第二层为双向LSTM层,第三层为CRF层,从而能够完成部门地区抽取模型的构建,实现对待标准化部门名称文本中的部门地区信息的提取。
在一个可选的实施例中,所述文本分类算法为TextCNN算法。
在一个可选的实施例中,所述基于预设的文本相似值算法计算所述标准部门名称文本集合中每个标准部门名称文本与所述待标准化部门名称文本的文本相似值,包括:
基于预设的特征值算法计算所述标准部门名称文本集合中每个标准部门名称文本和所述待标准化部门名称文本中每个字符的特征值;
根据所述标准部门名称文本集合中每个标准部门名称文本中每个字符的特征值,将该标准部门名称文本转换为对应的标准部门名称文本向量;
根据所述待标准化部门名称文本中每个字符的特征值,将所述待标准化部门名称文本转换为对应的待标准化部门名称文本向量;
基于预设的文本相似值算法计算每个所述标准部门名称文本向量与所述待标准化部门名称文本向量之间的文本相似值。
在该可选的实施例中,在使用特征值算法计算出每个标准部门名称文本和待标准化部门名称文本中每个字符的特征值之后,即可以将标准部门名称文本中每个字符的特征值作为向量中的每个元素,以形成对应的标准部门名称文本向量,将待标准化部门名称文本中每个字符的特征值作为向量中的每个元素,以形成对应的待标准化部门名称文本向量。如,标准部门名称文本为“XX市科技创新局”,其中,计算出的第一个“X”字符的特征值为5,第二个“X”字符的特征值为10,“市”字符的特征值为8,“科”字符的特征值为6,“技”字符的特征值为1,“创”字符的特征值为2,“新”字符的特征值为3,“局”字符的特征值为9,则组成的标准部门名称文本向量为(5,10,8,6,1,2,3,9)。在将标准部门名称文本和待标准化部门名称文本转换为标准部门名称文本向量和待标准化部门名称文本向量之后,即可以使用标准部门名称文本向量和待标准化部门名称文本向量计算出标准部门名称文本和待标准化部门名称文本之间的文本相似值。
可见,实施该可选的实施例,先通过预设的特征值算法计算标准部门名称文本和待标准化部门名称文本中每个字符的特征值,然后根据标准部门名称文本和待标准化部门名称文本中每个字符的特征值,将标准部门名称文本和待标准化部门名称文本转换为标准部门名称文本向量和待标准化部门名称文本向量,最后使用标准部门名称文本向量和待标准化部门名称文本向量计算出标准部门名称文本和待标准化部门名称文本之间的文本相似值,从而实现计算出能够表征标准部门名称文本和待标准化部门名称文本之间的相似程度的文本相似值。
在一个可选的实施例中,所述基于预设的特征值算法计算所述标准部门名称文本集合中每个标准部门名称文本和所述待标准化部门名称文本中每个字符的特征值,包括:
通过以下公式计算所述标准部门名称文本或者所述待标准化部门名称文本中每个字符的特征值:
η=α*β
α=count(w,d)/size(d)
β=log(n/docs(w,d))
其中,η是该字符的特征值,α是该字符的词语频率,β是该字符的逆向词语频率,count(w,d)是该字符在所有的标准部门名称文本和待标准化部门名称文本中出现的次数,size(d)是所有的标准部门名称文本和待标准化部门名称文本中字符的总数量,n是所有的标准部门名称文本和待标准化部门名称文本的文本的总数量,docs(w,d)是所有的标准部门名称文本和待标准化部门名称文本中包含该字符的文本的数量。
在该可选的实施例中,从α的定义可以看出字符在所有的标准部门名称文本和待标准化部门名称文本中出现的次数越多,则越有可能是文本中的关键字符,对于文本的区分意义越大,则α的值越大,从β的定义可以看出所有的标准部门名称文本和待标准化部门名称文本中包含该字符的文本的数量越多,则该字符有越大的可能是较为通用的字符,对于文本的区分意义越小,则β的值越小。将α与β相乘得到最终的特征值η,从而使最终计算得到的特征值η能够较好地表征字符对于文本的区分意义,使得最终根据特征值η计算出的文本相似值能够更好地表征标准部门名称文本和待标准化部门名称文本之间的相似程度。
可见,实施该可选的实施例,通过根据字符在所有的标准部门名称文本和待标准化部门名称文本中出现的次数、所有的标准部门名称文本和待标准化部门名称文本中包含字符的文本的数量计算出字符的特征值,从而能够使最终计算得到的特征值能够较好地表征字符对于文本的区分意义,使得最终根据特征值计算出的文本相似值能够更好地表征标准部门名称文本和待标准化部门名称文本之间的相似程度。
在一个可选的实施例中,所述文本相似值算法为LSA算法。
在该可选的实施例中,LSA算法使用向量来表示词和文档,并通过向量间的关系(如夹角)来判断词及文档间的关系,能够将词和文档映射到潜在语义空间,从而能够去除原始向量空间中的一些“噪音”,提高了信息检索的精确度。
可选地,还可以:将所述部门名称文本的标准化处理方法的部门名称文本的标准化处理信息上传至区块链中。
具体来说,部门名称文本的标准化处理信息是通过运行所述部门名称文本的标准化处理方法后得到的,用于记录部门名称文本的标准化处理情况,例如,获取到的部门名称文本、部门名称文本获取时间、提取到的部门地区信息等等。将部门名称文本的标准化处理信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得到该部门名称文本的标准化处理信息,以便查证所述部门名称文本的标准化处理方法的部门名称文本的标准化处理信息是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
实施例二
请参阅图2,图2是本发明实施例公开的一种部门名称文本的标准化处理装置的结构示意图。如图2所示,该部门名称文本的标准化处理装置可以包括:
获取模块201,用于获取待标准化处理的待标准化部门名称文本;
分析模块202,用于按照预设的部门地区分析方式对所述待标准化部门名称文本进行分析,以提取出所述待标准化部门名称文本中的部门地区信息;
筛选模块203,用于基于所述待标准化部门名称文本对应的部门地区信息从预设的标准部门名称文本库中筛选出与所述待标准化部门名称文本对应的标准部门名称文本集合,其中,所述标准部门名称文本库中预先存储有多个标准部门名称文本集合,且每个所述标准部门名称文本集合均存在对应的部门地区信息;
计算模块204,用于基于预设的文本相似值算法计算所述标准部门名称文本集合中每个标准部门名称文本与所述待标准化部门名称文本的文本相似值;
所述筛选模块203,还用于根据所述标准部门名称文本集合中每个标准部门名称文本与所述待标准化部门名称文本的文本相似值,从所述标准部门名称文本集合中筛选出所述待标准化部门名称文本对应的目标标准部门名称文本;
标准化模块205,用于基于所述目标标准部门名称文本执行对所述待标准化部门名称文本的标准化处理。
对于上述部门名称文本的标准化处理装置的具体描述可以参照上述部门名称文本的标准化处理方法的具体描述,为避免重复,在此不再一一赘述。
实施例三
请参阅图3,图3是本发明实施例公开的一种计算机设备的结构示意图。如图3所示,该计算机设备可以包括:
存储有可执行程序代码的存储器301;
与存储器301连接的处理器302;
处理器302调用存储器301中存储的可执行程序代码,执行本发明实施例一公开的部门名称文本的标准化处理方法中的步骤。
实施例四
请参阅图4,本发明实施例公开了一种计算机存储介质401,计算机存储介质401存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一公开的部门名称文本的标准化处理方法中的步骤。
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种部门名称文本的标准化处理方法、装置、计算机设备以及存储介质所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims (10)

1.一种部门名称文本的标准化处理方法,其特征在于,所述方法包括:
获取待标准化处理的待标准化部门名称文本;
按照预设的部门地区分析方式对所述待标准化部门名称文本进行分析,以提取出所述待标准化部门名称文本中的部门地区信息;
基于所述待标准化部门名称文本对应的部门地区信息从预设的标准部门名称文本库中筛选出与所述待标准化部门名称文本对应的标准部门名称文本集合,其中,所述标准部门名称文本库中预先存储有多个标准部门名称文本集合,且每个所述标准部门名称文本集合均存在对应的部门地区信息;
基于预设的文本相似值算法计算所述标准部门名称文本集合中每个标准部门名称文本与所述待标准化部门名称文本的文本相似值;
根据所述标准部门名称文本集合中每个标准部门名称文本与所述待标准化部门名称文本的文本相似值,从所述标准部门名称文本集合中筛选出所述待标准化部门名称文本对应的目标标准部门名称文本;
基于所述目标标准部门名称文本执行对所述待标准化部门名称文本的标准化处理。
2.根据权利要求1所述的部门名称文本的标准化处理方法,其特征在于,所述按照预设的部门地区分析方式对所述待标准化部门名称文本进行分析,以提取出所述待标准化部门名称文本中的部门地区信息,包括:
基于预设的文本分类算法对所述待标准化部门名称文本进行级别分类处理,以得到所述待标准化部门名称文本对应的级别分类结果,其中,所述待标准化部门名称文本对应的级别分类结果为国家级、省级、市级和区级的其中一种;
当所述待标准化部门名称文本对应的级别分类结果为省级、市级或者区级时,基于预设的部门地区抽取模型对所述待标准化部门名称文本进行分析,以提取出所述待标准化部门名称文本中的部门地区信息;
当所述待标准化部门名称文本对应的级别分类结果为国家级时,将预设的国家级部门地区信息作为所述待标准化部门名称文本中的部门地区信息。
3.根据权利要求2所述的部门名称文本的标准化处理方法,其特征在于,所述部门地区抽取模型是一个基于BILSTM-CRF模型的识别模型,其中,所述部门地区抽取模型的第一层为向量层,第二层为双向LSTM层,第三层为CRF层。
4.根据权利要求3所述的部门名称文本的标准化处理方法,其特征在于,所述文本分类算法为TextCNN算法。
5.根据权利要求1所述的部门名称文本的标准化处理方法,其特征在于,所述基于预设的文本相似值算法计算所述标准部门名称文本集合中每个标准部门名称文本与所述待标准化部门名称文本的文本相似值,包括:
基于预设的特征值算法计算所述标准部门名称文本集合中每个标准部门名称文本和所述待标准化部门名称文本中每个字符的特征值;
根据所述标准部门名称文本集合中每个标准部门名称文本中每个字符的特征值,将该标准部门名称文本转换为对应的标准部门名称文本向量;
根据所述待标准化部门名称文本中每个字符的特征值,将所述待标准化部门名称文本转换为对应的待标准化部门名称文本向量;
基于预设的文本相似值算法计算每个所述标准部门名称文本向量与所述待标准化部门名称文本向量之间的文本相似值。
6.根据权利要求5所述的部门名称文本的标准化处理方法,其特征在于,所述基于预设的特征值算法计算所述标准部门名称文本集合中每个标准部门名称文本和所述待标准化部门名称文本中每个字符的特征值,包括:
通过以下公式计算所述标准部门名称文本或者所述待标准化部门名称文本中每个字符的特征值:
η=α*β
α=count(w,d)/size(d)
β=log(n/docs(w,d))
其中,η是该字符的特征值,α是该字符的词语频率,β是该字符的逆向词语频率,count(w,d)是该字符在所有的标准部门名称文本和待标准化部门名称文本中出现的次数,size(d)是所有的标准部门名称文本和待标准化部门名称文本中字符的总数量,n是所有的标准部门名称文本和待标准化部门名称文本的文本的总数量,docs(w,d)是所有的标准部门名称文本和待标准化部门名称文本中包含该字符的文本的数量。
7.根据权利要求1-6任一项所述的部门名称文本的标准化处理方法,其特征在于,所述文本相似值算法为LSA算法。
8.一种部门名称文本的标准化处理装置,其特征在于,所述装置包括:
获取模块,用于获取待标准化处理的待标准化部门名称文本;
分析模块,用于按照预设的部门地区分析方式对所述待标准化部门名称文本进行分析,以提取出所述待标准化部门名称文本中的部门地区信息;
筛选模块,用于基于所述待标准化部门名称文本对应的部门地区信息从预设的标准部门名称文本库中筛选出与所述待标准化部门名称文本对应的标准部门名称文本集合,其中,所述标准部门名称文本库中预先存储有多个标准部门名称文本集合,且每个所述标准部门名称文本集合均存在对应的部门地区信息;
计算模块,用于基于预设的文本相似值算法计算所述标准部门名称文本集合中每个标准部门名称文本与所述待标准化部门名称文本的文本相似值;
所述筛选模块,还用于根据所述标准部门名称文本集合中每个标准部门名称文本与所述待标准化部门名称文本的文本相似值,从所述标准部门名称文本集合中筛选出所述待标准化部门名称文本对应的目标标准部门名称文本;
标准化模块,用于基于所述目标标准部门名称文本执行对所述待标准化部门名称文本的标准化处理。
9.一种计算机设备,其特征在于,所述计算机设备包括:
存储有可执行程序代码的存储器;
与所述存储器连接的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-7任一项所述的部门名称文本的标准化处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的部门名称文本的标准化处理方法。
CN202110923974.7A 2021-08-12 2021-08-12 部门名称文本的标准化处理方法、装置、设备及存储介质 Pending CN113627183A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110923974.7A CN113627183A (zh) 2021-08-12 2021-08-12 部门名称文本的标准化处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110923974.7A CN113627183A (zh) 2021-08-12 2021-08-12 部门名称文本的标准化处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113627183A true CN113627183A (zh) 2021-11-09

Family

ID=78384920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110923974.7A Pending CN113627183A (zh) 2021-08-12 2021-08-12 部门名称文本的标准化处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113627183A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120185478A1 (en) * 2011-01-17 2012-07-19 Topham Philip S Extracting And Normalizing Organization Names From Text
CN110175219A (zh) * 2019-05-10 2019-08-27 广州视源电子科技股份有限公司 一种k12阶段重复学校识别方法、装置、设备及存储介质
CN110765280A (zh) * 2019-10-22 2020-02-07 京东数字科技控股有限公司 地址识别方法和装置
WO2020230939A1 (ko) * 2019-05-14 2020-11-19 주식회사 슈퍼갈땐슈퍼맨 슈퍼마켓에서 발행되는 영수증 내 상품 명칭을 표준화된 상품 명칭으로 변경하여 영수증 정보를 저장하는 영수증 정보 관리 장치
CN113177412A (zh) * 2021-04-05 2021-07-27 北京智慧星光信息技术有限公司 基于bert的命名实体识别方法、系统、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120185478A1 (en) * 2011-01-17 2012-07-19 Topham Philip S Extracting And Normalizing Organization Names From Text
CN110175219A (zh) * 2019-05-10 2019-08-27 广州视源电子科技股份有限公司 一种k12阶段重复学校识别方法、装置、设备及存储介质
WO2020230939A1 (ko) * 2019-05-14 2020-11-19 주식회사 슈퍼갈땐슈퍼맨 슈퍼마켓에서 발행되는 영수증 내 상품 명칭을 표준화된 상품 명칭으로 변경하여 영수증 정보를 저장하는 영수증 정보 관리 장치
CN110765280A (zh) * 2019-10-22 2020-02-07 京东数字科技控股有限公司 地址识别方法和装置
CN113177412A (zh) * 2021-04-05 2021-07-27 北京智慧星光信息技术有限公司 基于bert的命名实体识别方法、系统、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN112464641B (zh) 基于bert的机器阅读理解方法、装置、设备及存储介质
US20230222366A1 (en) Systems and methods for semantic analysis based on knowledge graph
CN110457302B (zh) 一种结构化数据智能清洗方法
US10162848B2 (en) Methods and apparatus for harmonization of data stored in multiple databases using concept-based analysis
US9690788B2 (en) File type recognition analysis method and system
CN111125343A (zh) 适用于人岗匹配推荐系统的文本解析方法及装置
CN110580308B (zh) 信息审核方法及装置、电子设备、存储介质
CN112084334B (zh) 语料的标签分类方法、装置、计算机设备及存储介质
WO2008052240A1 (en) Document processor and associated method
US20200410170A1 (en) Method and system for translating natural language policy to logical access control policy
CN109800354B (zh) 一种基于区块链存储的简历修改意图识别方法及系统
CN115547466B (zh) 基于大数据的医疗机构登记评审系统及其方法
CN111814482B (zh) 文本关键数据的提取方法、系统和计算机设备
CN110765101A (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN111723192B (zh) 代码推荐方法和装置
CN111190946A (zh) 报告生成方法、装置、计算机设备和存储介质
CN112906361A (zh) 文本数据的标注方法和装置、电子设备和存储介质
CN115934926A (zh) 信息提取方法、装置、计算机设备、存储介质
CN115730087A (zh) 基于知识图谱的矛盾纠纷分析和预警方法及其应用
CN111949550A (zh) 自动生成测试数据的方法、装置、设备及存储介质
CN114003692A (zh) 合同文本信息的处理方法、装置、计算机设备及存储介质
CN114117038A (zh) 一种文档分类方法、装置、系统及电子设备
CN115952770A (zh) 一种数据标准化的处理方法、装置、电子设备及存储介质
CN107315807B (zh) 人才推荐方法和装置
CN113627183A (zh) 部门名称文本的标准化处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination