CN104462216A - 居委标准代码转换系统及方法 - Google Patents

居委标准代码转换系统及方法 Download PDF

Info

Publication number
CN104462216A
CN104462216A CN201410621040.8A CN201410621040A CN104462216A CN 104462216 A CN104462216 A CN 104462216A CN 201410621040 A CN201410621040 A CN 201410621040A CN 104462216 A CN104462216 A CN 104462216A
Authority
CN
China
Prior art keywords
committee
search key
storehouse
module
standard code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410621040.8A
Other languages
English (en)
Other versions
CN104462216B (zh
Inventor
王志崴
何峥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI NANYANGWANBANG SOFTWARE TECHNICAL Co Ltd
Original Assignee
SHANGHAI NANYANGWANBANG SOFTWARE TECHNICAL Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI NANYANGWANBANG SOFTWARE TECHNICAL Co Ltd filed Critical SHANGHAI NANYANGWANBANG SOFTWARE TECHNICAL Co Ltd
Priority to CN201410621040.8A priority Critical patent/CN104462216B/zh
Publication of CN104462216A publication Critical patent/CN104462216A/zh
Application granted granted Critical
Publication of CN104462216B publication Critical patent/CN104462216B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明揭示了一种居委标准代码转换系统及方法,所述系统包括:数据库模块、检索数据获取模块、匹配模块、智能学习模块。数据库模块用以存储设定数据;检索数据获取模块用以获取检索关键词;匹配模块用以将检索关键词与检索历史数据库中的历史检索数据进行匹配,若检索历史数据库中有与当前检索关键词相同的检索关键词,则输出对应的检索结果;智能学习模块用以跟踪历史检索事件中用户的行为,根据用户的行为判断其对匹配模块提供的匹配结果的满意度,以此确定匹配模块提供的匹配结果中各居委会对应属性在相应检索关键词下对应的权值。本发明可通过信息化手段将变更频繁的居委代码按统一标准提供给各业务系统,提高效率。

Description

居委标准代码转换系统及方法
技术领域
本发明属于电子信息技术领域,涉及一种代码转换系统,尤其涉及一种居委标准代码转换系统;同时,本发明还涉及一种居委标准代码转换方法。
背景技术
随着中国城市信息化程度的深入,政府的各部门工作的电子化程度也不断增加,目前作为城市最基层的居委会是直接面向市民的关键角色,很多具体的工作和业务信息的实际管理都是以居委为主体在进行的,所以建立电子政务信息系统的时候,以居委为层面的信息管理、政策发布和工作业务上传管理是不可避免的。
但是作为最小行政单位的居委会,也是变动最大,最难以管理的环节,实施标准化的信息区划管理存在一定的难度。以上海为例,行政区划的国家标准代码到街道、镇一级,居委会就是以地方标准代码为主了,而且和街道、镇的行政区划需要国家批准不同,居委会的变更较为简单、频繁;范围和名称的变更较为普遍。
目前相当多的政务信息的管理界面仅到街道层面处理,而涉及到居委会的各级业务系统所采用的居委名称和区划代码也各不相同,同一个居委会在不同信息系统中的名称和区划代码存在普遍的差异,这就造成大量的业务数据之间存在交互的问题。
同时具体掌握居民最及时信息的居委会层面无法对系统信息进行维护,随着民政局及下属各居委会和街道的工作的深入,随着近些年来上海城市经济和社会事业的快速发展,人口发展也进入一个新的时期。非上海户籍人口即外来人口在徐汇区居住、工作的数量将在今后几年内还会持续的增长;随着区城市改造的推进和住宅条件的改善,也使户籍人口中人户分离日趋增加,人员流动和市民办事业务的需求,对不同业务信息系统的信息交流、交互提出了更高的要求。但是不同业务系统中居委会信息的差异对信息的交互和整合带来了一定的影响。
有鉴于此,如今迫切需要设计一种新的居委会代码解决方案,以克服现有居委会代码更新不及时的缺陷。
发明内容
本发明所要解决的技术问题是:提供一种居委标准代码转换系统,可通过信息化手段将变更频繁的居委代码按统一标准提供给各业务系统,各业务系统可以不需要修改本系统中原有的代码定义方式,便可直接使用居委标准代码,可以在此基础上实现原来较为复杂的居委会基础上的信息交互和沟通。
此外,本发明还提供一种居委标准代码转换方法,可通过信息化手段将变更频繁的居委代码按统一标准提供给各业务系统,各业务系统可以不需要修改本系统中原有的代码定义方式,便可直接使用居委标准代码,可以在此基础上实现原来较为复杂的居委会基础上的信息交互和沟通。
为解决上述技术问题,本发明采用如下技术方案:
一种居委标准代码转换系统,将原有的逐个系统人工定制的工作方式通过本系统的学习记录和匹配流程成为自动化统一方案;系统流程为接收源数据和转换请求,通过匹配模块对源数据的分析和对比形成配对公式,最终输出标准代码数据;通过学习模块记录过程和结果公式记录下来,并跟踪用户多次提交源数据的转换结果确定配对权值;所述系统包括:
非标历史学习库,用以记录源数据状态和分析情况,以长度、编码方式、标准关键字进行记录;供后续配对使用;
配对公式库,用以记录结果公式,源数据能通过配对公式转化为标准代码;
检索记忆库,用以存放用户历史所检索的居委名称,作为智能学习库和检索数据库的桥梁;
居委会标准代码库,用以提供标准代码的基础数据库,本数据库通过自动爬网适配器,识别固定的网站标识符,自动从标准代码发布网站导入最新的标准代码,以提供给各业务系统使用;
智能学习库,用以存放用户历史所转换的结果和配对权值;
初始处理模块,用以接收服务对象,第三方业务系统的非标居委名称或/和代码,按关键字、排列、词库的方式进行整理,并在非标历史库中查询,如有相似的案例,直接作为配比方案提供下一流程,如无相似,则自动进行初步处理,并提供给人工审核界面,在人工处理完成后记录进入历史库,作为下次处理的案例,达到系统学习的目的;
算法匹配模块,用以根据初始处理的数据情况,从所述配对公式库中选择不同的算法公式,比如常见的最简单转换公式:原字串+“街道”=>对应标准代码表(将缺少“街道”的简称如“徐家汇”转化为“徐家汇街道”,获得徐家汇街道的标准代码310104014输出);根据不同的数据分类按:中文连续、中文简称、英文完整、英文简称、数字型、非标自定义这几种类型选择不同的配对算法,异常情况下有提交至人工处理,通过人工干涉和处理,完成流程,并学习进入配对公式库;
智能学习模块,用以跟踪历史申请转换事件中用户的行为,根据用户的提交频次和人工干涉结果判断其对匹配模块提供的匹配结果的满意度(如一次配对成功后续无提交和多次提交后还需人工干涉的配对结果权值相差极大),以此确定匹配模块提供的匹配结果中各居委会对应属性在相应转换公式下对应的权值;综合多次的用户行为分析,根据每次检索事件中各居委会对应属性的权值确定下次相同检索或检索关键词相似度在设定值范围内的相似检索中各居委会对应属性的排序;
代码转换模块,用以根据前期流程的处理结果,本模块提供转换接口,第三方业务系统通过接口来查询、调用、转换、批处理居委会标准代码;
行政区划模型辅助处理模块,用以提供辅助的信息关联,以使系统具备一定的扩展能力,除了对于代码的配对转换以外,还可以考虑将行政区划的信息作为转化配对的要素进行分析;本模块将居委会的行政区划方向类描述转换为详细的街道、门牌、楼宇为界限的信息;同时处理居委模型所有信息的查询和调用;处理居委行政区划的合并、拆分、调整,形成变更预案供业务系统和政府部门预处理;居委模型包括如下功能:居委会信息的代码地标和信息系统的转换、居委会地理信息的区划划分、居委会地理信息的采集、居委会地理信息和人口信息的运算、居委会地标代码和街道镇国标代码的混合使用;
所述算法匹配模块的分词配对方法包括如下步骤:
步骤A1、文字预处理过程、获取需要转换的原始业务系统的居委准备进行分析;
步骤A2、首先系统确定数据的编码为中文、英文和数字中的哪一种;
步骤A3、分析数据的编码的方式,是全称、简称,还是业务自定义;
步骤A4、分析中文数据调用检索历史库,查询关键字符、历史匹配记录;
步骤A5、判断是否有类似案例,如果有,直接采用;如果没有,系统显示并提交近似的方案,方案匹配度按编码、定义方式、业务类型的权重不同选型;
步骤A6、智能或人工审核干涉,形成固定解决方案;
步骤A7、方案记录进入学习历史库,提供给下次选型,检索历史库的内容通过积累,逐步覆盖大部分的业务类型;
所述智能学习模块智能学习的步骤包括:
步骤B1、用户输入设定的关键字作为一级检索关键字进行检索,智能学习库获取一级检索关键字;
步骤B2、在智能学习库中检索上一步骤所得的级别检索关键字,该级别检索关键字是否已存在于智能学习库,存在则执行步骤B4;若不存在,则将该级检索关键字结合分词法继续分解成下一级别学习检索,转步骤B3;
步骤B3、继续执行步骤B2;
步骤B4、将在智能学习库检索到的关键字关联搜索经验库相关记录呈现给用户,同时将一级检索关键字与结果关键字进行学习对比,学习存储到智能学习库;经过大量学习后,以后有用户输入的关键字如果和学习结果一致,能直接检索出结果;
步骤B5、学习成功和配对过程也存储在记忆库中作为加权参数,配对成功越多的级别检索将优先提供给下一次的配对检索。
一种居委标准代码转换系统,所述系统包括:
数据库模块,用以存储设定数据;包括检索历史数据库、居委会标准代码数据库;历史数据库中存储有检索关键词,以及对应的检索结果,即居委会标准代码;居委会标准代码数据库存储有居委会标准代码及相关属性;
检索数据获取模块,用以获取检索数据,即检索关键词;
匹配模块,用以将检索关键词与检索历史数据库中的历史检索数据进行匹配,若检索历史数据库中有与当前检索关键词相同的检索关键词,则输出对应的检索结果;若没有相同的检索关键词或选择重新匹配,则将检索关键词与居委会标准代码数据库进行匹配,输出相似度大于设定值的相关数据;
智能学习模块,用以跟踪历史检索事件中用户的行为,根据用户的行为判断其对匹配模块提供的匹配结果的满意度,以此确定匹配模块提供的匹配结果中各居委会对应属性在相应检索关键词下对应的权值;综合多次的用户行为分析,根据每次检索事件中各居委会对应属性的权值确定下次相同检索或检索关键词相似度在设定值范围内的相似检索中各居委会对应属性的排序。
作为本发明的一种优选方案,居委会的标准代码变化时,由于标准街道名称不会有变更,代码都会对应街道名称进行更换,对于更换后的历史代码也不会删除,作为历史记录以供查询。
作为本发明的一种优选方案,所述系统还包括:
算法匹配模块:根据初始处理的数据情况,从所述配对公式库中选择不同的算法公式,根据不同的数据分类按:中文连续、中文简称、英文完整、英文简称、数字型、非标自定义这几种类型选择不同的配对算法,异常情况下有提交至人工处理,通过人工干涉和处理,完成流程,并学习进入配对公式库。
作为本发明的一种优选方案,所述系统还包括:
行政区划模型处理:将居委会的行政区划方向类描述转换为详细的街道、门牌、楼宇为界限的信息;同时处理居委模型所有信息的查询和调用;处理居委行政区划的合并、拆分、调整,形成变更预案供业务系统和政府部门预处理;居委模型包括如下功能:居委会信息的代码地标和信息系统的转换、居委会地理信息的区划划分、居委会地理信息的采集、居委会地理信息和人口信息的运算、居委会地标代码和街道镇国标代码的混合使用;
作为本发明的一种优选方案,所述系统还包括:
居委会标准代码库:提供标准代码的基础数据库,本数据库通过自动爬网适配器,通过识别固定的网站标识符,自动从标准代码发布网站导入最新的标准代码,以提供给各业务系统使用。
一种上述居委标准代码转换系统的转换方法,所述方法包括如下步骤:
检索数据获取步骤,检索数据获取模块获取检索数据,即检索关键词;
检索关键词匹配步骤,匹配模块将检索关键词与检索历史数据库中的历史检索数据进行匹配,若检索历史数据库中有与当前检索关键词相同的检索关键词,则输出对应的检索结果;若没有相同的检索关键词或选择重新匹配,则将检索关键词与居委会标准代码数据库进行匹配,输出相似度大于设定值的相关数据;
智能学习步骤,智能学习模块跟踪历史检索事件中用户的行为,根据用户的行为判断其对匹配模块提供的匹配结果的满意度,以此确定匹配模块提供的匹配结果中各居委会对应属性在相应检索关键词下对应的权值;综合多次的用户行为分析,根据每次检索事件中各居委会对应属性的权值确定下次相同检索或检索关键词相似度在设定值范围内的相似检索中各居委会对应属性的排序。
作为本发明的一种优选方案,所述检索关键词匹配步骤中的分词配对方法包括如下步骤:
步骤A1、文字预处理过程、获取需要转换的原始业务系统的居委准备进行分析;
步骤A2、首先系统确定数据的编码为中文、英文和数字中的哪一种;
步骤A3、分析数据的编码的方式,是全称、简称,还是业务自定义;
步骤A4、分析中文数据调用检索历史库,查询关键字符、历史匹配记录;
步骤A5、判断是否有类似案例,如果有,直接采用;如果没有,系统显示并提交近似的方案,方案匹配度按编码、定义方式、业务类型的权重不同选型;
步骤A6、智能或人工审核干涉,形成固定解决方案;
步骤A7、方案记录进入学习历史库,提供给下次选型,检索历史库的内容通过积累,逐步覆盖大部分的业务类型。
作为本发明的一种优选方案,所述智能学习步骤具体包括:
步骤B1、用户输入设定的关键字作为一级检索关键字进行检索,智能学习库获取一级检索关键字;
步骤B2、在智能学习库中检索上一步骤所得的级别检索关键字,该级别检索关键字是否已存在于智能学习库,存在则执行步骤B4;若不存在,则将该级检索关键字结合分词法继续分解成下一级别学习检索,转步骤B3;
步骤B3、继续执行步骤B2;
步骤B4、将在智能学习库检索到的关键字关联搜索经验库相关记录呈现给用户,同时将一级检索关键字与结果关键字进行学习对比,学习存储到智能学习库;经过大量学习后,以后有用户输入的关键字如果和学习结果一致,能直接检索出结果;
步骤B5、学习成功和配对过程也存储在记忆库中作为加权参数,配对成功越多的级别检索将优先提供给下一次的配对检索。
本发明的有益效果在于:本发明提出的居委标准代码转换系统及方法,可把原来行政制度作为变更依据的居委会体制,通过信息化手段将变更频繁的居委代码按统一标准提供给各业务系统,各业务系统可以不需要修改本系统中原有的代码定义方式,便可直接使用居委标准代码,可以在此基础上实现原来较为复杂的居委会基础上的信息交互和沟通。
附图说明
图1为本发明居委标准代码转换系统的组成示意图。
图2为本发明中居委会标准代码库的形成示意图。
图3为本发明居委标准代码转换方法的流程图。
图4为本发明中检索词匹配步骤的流程图。
图5为本发明中智能学习步骤的流程图。
具体实施方式
下面结合附图详细说明本发明的优选实施例。
实施例一
建立居委会行政规划模型和其基本代码转换方法,对城市现有和将要建设的业务信息系统是完全必要的。该模型以数据清洗处理、数据配对、标准代码库、转换模块和接口、居委会基本信息库、行政区划信息库等模块组成,提供了一种方便快捷的居委会行政区划代码配对和转换方法。系统学习和收集和整理常用的业务系统名称,对其中的差异化内容进行比较和配比,使其转换成为标准代码和名称。
系统收集和导入统计局发布的现有国标(或地方标准)代码,在行政区划有变动的情况下,自动保留历史记录,实现历史时间轴上的行政区划回溯和对应。
这种实现方法具备通用业务接口,便于其他业务系统接入配对和获取标准区划代码,实现数据交互。同时可以提供居委会基础信息和行政区划的地理信息的快速应用。
系统在居委会信息和行政区划发生变更(合并、新建、更名等),可以快速形成变更预案并记录变更历史。
请参阅图1,本发明揭示了一种居委标准代码转换系统和方法,该系统包括初始处理模块,算法处理模块,代码转换模块,行政区划模块和相应接口。
初始处理模块:接收服务对象,第三方业务系统的非标居委名称和代码,按关键字、排列、词库的方式进行整理,并在非标历史库中查询,如有相似的案例,可以直接作为配比方案提供下一流程,如无相似,则自动进行初步处理,并提供给人工审核界面,在人工处理完成后记录进入历史库,作为下次处理的案例,达到系统学习的目的。
算法匹配模块:根据初始处理的数据情况,从配对公式库中选择不同的算法公司,比如常见的最简单转换公式:原字串+“街道”=>对应标准代码表(将缺少“街道”的简称如“徐家汇”转化为“徐家汇街道”,获得徐家汇街道的标准代码310104014输出),根据不同的数据分类可以按:中文连续、中文间称、英文完整、英文简称、数字型、非标自定义等几种类型选择不同的配对算法,异常情况下有提交人工处理机制,通过人工干涉和处理,完成流程,并学习进入配对公式库。
代码转换模块:请参阅图3,根据前期流程的处理结果,本模块提供转换接口,三方业务系统可以通过接口,快速方便查询、调用、转换、批处理居委会标准代码。
居委会标准代码库:提供标准代码的基础数据库,本数据库通过自动爬网适配器,通过定制的页面分析公式,自动从标准代码发布网站导入最新的标准代码,以提供给各业务系统使用(可参阅图2)。
行政区划模型辅助处理:本模块将通常居委会的行政区划方向类描述,转换为更详细的街道、门牌、楼宇为界限的信息;并可以处理居委模型所有信息的查询、和调用;可以处理居委行政区划的合并、拆分、调整等变更,形成变更预案供业务系统和政府部门预处理。居委模型包括以下子功能:居委会信息的代码地标和信息系统的转换、居委会地理信息的区划划分、居委会地理信息的采集、居委会地理信息和人口信息的运算方法、居委会地标代码和街道镇国标代码的混合使用。
请参阅图4,算法匹配模块的分词配对方法步骤如下:
步骤A1、文字预处理过程、获取需要转换的原始业务系统的居委准备进行分析;
步骤A2、首先系统确定数据的编码为中文、英文和数字;
步骤A3、分析是全称、简称、业务自定义的方式
步骤A4、分析中文数据调用历史库,查询关键字符、历史匹配记录;
步骤A5、是否有类似案例,如果有,可以直接采用;如果没有,系统显示并提交近似的方案,方案匹配度按编码、定义方式、业务类型的权重不同选型
步骤A6、智能或工审核干涉,形成固定解决方案
步骤A7、方案记录进入学习历史库,提供给下次选型,历史库的内容通过积累,可以逐步覆盖大部分的业务类型。
此外,系统需建立三个数据库为基础:检索数据库,存放上海市各区居委名称(通过标识街道国标区别);检索记忆库,存放用户历史所检索的居委名称(作为智能学习库和检索数据库的桥梁);智能学习库,存放用户历史所检索的各级关键字。
请参阅图5,智能学习模块的智能学习步骤具体包括:
步骤B1、用户输入设定的关键字作为一级检索关键字进行检索,智能学习库获取一级检索关键字;
步骤B2、在智能学习库中检索上一步骤所得的级别检索关键字,该级别检索关键字是否已存在于智能学习库,存在则执行步骤B4;若不存在,则将该级检索关键字结合分词法继续分解成下一级别学习检索;
步骤B3、继续循环步骤B2;
步骤B4、将在智能学习库检索到的关键字关联搜索经验库相关记录呈现给用户,同时将一级检索关键字与结果关键字进行学习关联,学习存储到智能学习库。经过大量学习后,以后有用户输入其关键字如果和学习结果一致,能直接检索出结果
步骤B5、学习成功和配对过程也存储在记忆库中作为加权参数,配对成功越多的级别检索将优先提供给下一次的配对检索
实施例二
本发明揭示一种居委标准代码转换系统,所述系统包括:数据库模块、检索数据获取模块、匹配模块、智能学习模块。
数据库模块用以存储设定数据;包括检索历史数据库、居委会标准代码数据库;历史数据库中存储有检索关键词,以及对应的检索结果,即居委会标准代码;居委会标准代码数据库存储有居委会标准代码及相关属性。
检索数据获取模块用以获取检索数据,即检索关键词。
匹配模块用以将检索关键词与检索历史数据库中的历史检索数据进行匹配,若检索历史数据库中有与当前检索关键词相同的检索关键词,则输出对应的检索结果;若没有相同的检索关键词或选择重新匹配,则将检索关键词与居委会标准代码数据库进行匹配,输出相似度大于设定值的相关数据。
智能学习模块用以跟踪历史检索事件中用户的行为,根据用户的行为判断其对匹配模块提供的匹配结果的满意度,以此确定匹配模块提供的匹配结果中各居委会对应属性在相应检索关键词下对应的权值;综合多次的用户行为分析,根据每次检索事件中各居委会对应属性的权值确定下次相同检索或检索关键词相似度在设定值范围内的相似检索中各居委会对应属性的排序。
以上介绍了本发明居委标准代码转换系统的组成,本发明在揭示上述系统的同时,还揭示一种上述居委标准代码转换系统的转换方法,所述方法包括如下步骤:
步骤S1、检索数据获取步骤,检索数据获取模块获取检索数据,即检索关键词;
步骤S2、检索关键词匹配步骤,匹配模块将检索关键词与检索历史数据库中的历史检索数据进行匹配,若检索历史数据库中有与当前检索关键词相同的检索关键词,则输出对应的检索结果;若没有相同的检索关键词或选择重新匹配,则将检索关键词与居委会标准代码数据库进行匹配,输出相似度大于设定值的相关数据;
步骤S3、智能学习步骤,智能学习模块跟踪历史检索事件中用户的行为,根据用户的行为判断其对匹配模块提供的匹配结果的满意度,以此确定匹配模块提供的匹配结果中各居委会对应属性在相应检索关键词下对应的权值;综合多次的用户行为分析,根据每次检索事件中各居委会对应属性的权值确定下次相同检索或检索关键词相似度在设定值范围内的相似检索中各居委会对应属性的排序。
实施例三
本发明揭示一种居委标准代码转换系统,将原有的逐个系统人工定制的工作方式通过本系统的学习记录和匹配流程成为自动化统一方案;系统流程为接收源数据和转换请求,通过匹配模块对源数据的分析和对比形成配对公式,最终输出标准代码数据;通过学习模块记录过程和结果公式记录下来,并跟踪用户多次提交源数据的转换结果确定配对权值。
所述居委标准代码转换系统包括:非标历史学习库、配对公式库、检索记忆库、居委会标准代码库、智能学习库、初始处理模块、算法匹配模块、智能学习模块、代码转换模块、行政区划模型辅助处理模块。
非标历史学习库用以记录源数据状态和分析情况,以长度、编码方式、标准关键字进行记录;供后续配对使用。
配对公式库用以记录结果公式,源数据能通过配对公式转化为标准代码。
检索记忆库用以存放用户历史所检索的居委名称,作为智能学习库和检索数据库的桥梁。
居委会标准代码库用以提供标准代码的基础数据库,本数据库通过自动爬网适配器,识别固定的网站标识符,自动从标准代码发布网站导入最新的标准代码,以提供给各业务系统使用。
智能学习库用以存放用户历史所转换的结果和配对权值。
初始处理模块用以接收服务对象,第三方业务系统的非标居委名称或/和代码,按关键字、排列、词库的方式进行整理,并在非标历史库中查询,如有相似的案例,直接作为配比方案提供下一流程,如无相似,则自动进行初步处理,并提供给人工审核界面,在人工处理完成后记录进入历史库,作为下次处理的案例,达到系统学习的目的。
算法匹配模块用以根据初始处理的数据情况,从所述配对公式库中选择不同的算法公式,比如常见的最简单转换公式:原字串+“街道”=>对应标准代码表(将缺少“街道”的简称如“徐家汇”转化为“徐家汇街道”,获得徐家汇街道的标准代码310104014输出);根据不同的数据分类按:中文连续、中文简称、英文完整、英文简称、数字型、非标自定义这几种类型选择不同的配对算法,异常情况下有提交至人工处理,通过人工干涉和处理,完成流程,并学习进入配对公式库。
智能学习模块用以跟踪历史申请转换事件中用户的行为,根据用户的提交频次和人工干涉结果判断其对匹配模块提供的匹配结果的满意度(如一次配对成功后续无提交和多次提交后还需人工干涉的配对结果权值相差极大),以此确定匹配模块提供的匹配结果中各居委会对应属性在相应转换公式下对应的权值;综合多次的用户行为分析,根据每次检索事件中各居委会对应属性的权值确定下次相同检索或检索关键词相似度在设定值范围内的相似检索中各居委会对应属性的排序。
代码转换模块用以根据前期流程的处理结果,本模块提供转换接口,第三方业务系统通过接口来查询、调用、转换、批处理居委会标准代码。
行政区划模型辅助处理模块用以提供辅助的信息关联,以使系统具备一定的扩展能力,除了对于代码的配对转换以外,还可以考虑将行政区划的信息作为转化配对的要素进行分析;本模块将居委会的行政区划方向类描述转换为详细的街道、门牌、楼宇为界限的信息;同时处理居委模型所有信息的查询和调用;处理居委行政区划的合并、拆分、调整,形成变更预案供业务系统和政府部门预处理;居委模型包括如下功能:居委会信息的代码地标和信息系统的转换、居委会地理信息的区划划分、居委会地理信息的采集、居委会地理信息和人口信息的运算、居委会地标代码和街道镇国标代码的混合使用。
所述算法匹配模块的分词配对方法包括如下步骤:
步骤A1、文字预处理过程、获取需要转换的原始业务系统的居委准备进行分析;
步骤A2、首先系统确定数据的编码为中文、英文和数字中的哪一种;
步骤A3、分析数据的编码的方式,是全称、简称,还是业务自定义;
步骤A4、分析中文数据调用检索历史库,查询关键字符、历史匹配记录;
步骤A5、判断是否有类似案例,如果有,直接采用;如果没有,系统显示并提交近似的方案,方案匹配度按编码、定义方式、业务类型的权重不同选型;
步骤A6、智能或人工审核干涉,形成固定解决方案;
步骤A7、方案记录进入学习历史库,提供给下次选型,检索历史库的内容通过积累,逐步覆盖大部分的业务类型。
所述智能学习模块智能学习的步骤包括:
步骤B1、用户输入设定的关键字作为一级检索关键字进行检索,智能学习库获取一级检索关键字;
步骤B2、在智能学习库中检索上一步骤所得的级别检索关键字,该级别检索关键字是否已存在于智能学习库,存在则执行步骤B4;若不存在,则将该级检索关键字结合分词法继续分解成下一级别学习检索,转步骤B3;
步骤B3、继续执行步骤B2;
步骤B4、将在智能学习库检索到的关键字关联搜索经验库相关记录呈现给用户,同时将一级检索关键字与结果关键字进行学习对比,学习存储到智能学习库;经过大量学习后,以后有用户输入的关键字如果和学习结果一致,能直接检索出结果;
步骤B5、学习成功和配对过程也存储在记忆库中作为加权参数,配对成功越多的级别检索将优先提供给下一次的配对检索。
综上所述,本发明提出的居委标准代码转换系统及方法,可把原来行政制度作为变更依据的居委会体制,通过信息化手段将变更频繁的居委代码按统一标准提供给各业务系统,各业务系统可以不需要修改本系统中原有的代码定义方式,便可直接使用居委标准代码,可以在此基础上实现原来较为复杂的居委会基础上的信息交互和沟通。
这里本发明的描述和应用是说明性的,并非想将本发明的范围限制在上述实施例中。这里所披露的实施例的变形和改变是可能的,对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是,在不脱离本发明的精神或本质特征的情况下,本发明可以以其它形式、结构、布置、比例,以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下,可以对这里所披露的实施例进行其它变形和改变。

Claims (9)

1.一种居委标准代码转换系统,其特征在于:接收源数据和转换请求,通过匹配模块对源数据的分析和对比形成配对公式,最终输出标准代码数据;通过学习模块记录过程和结果公式记录下来,并跟踪用户多次提交源数据的转换结果确定配对权值;所述系统包括: 
非标历史学习库,用以记录源数据状态和分析情况,以长度、编码方式、标准关键字进行记录;供后续配对使用; 
配对公式库,用以记录结果公式,源数据能通过配对公式转化为标准代码; 
检索记忆库,用以存放用户历史所检索的居委名称,作为智能学习库和检索数据库的桥梁; 
居委会标准代码库,用以提供标准代码的基础数据库,本数据库通过自动爬网适配器,识别固定的网站标识符,自动从标准代码发布网站导入最新的标准代码,以提供给各业务系统使用; 
智能学习库,用以存放用户历史所转换的结果和配对权值; 
初始处理模块,用以接收服务对象,第三方业务系统的非标居委名称或/和代码,按关键字、排列、词库的方式进行整理,并在非标历史库中查询,如有相似的案例,直接作为配比方案提供下一流程,如无相似,则自动进行初步处理,并提供给人工审核界面,在人工处理完成后记录进入历史库,作为下次处理的案例,达到系统学习的目的; 
算法匹配模块,用以根据初始处理的数据情况,从所述配对公式库中选择不同的算法公式;根据不同的数据分类按:中文连续、中文简称、英文完整、英文简称、数字型、非标自定义这几种类型选择不同的配对算法,异常情况下有提交至人工处理,通过人工干涉和处理,完成流程,并学习进入配对公式库; 
智能学习模块,用以跟踪历史申请转换事件中用户的行为,根据用户的提交频次和人工干涉结果判断其对匹配模块提供的匹配结果的满意度,以此确定匹配模块提供的匹配结果中各居委会对应属性在相应转换公式下对应的权值;综合多次的用户行为分析,根据每次检索事件中各居委会对应属性的 权值确定下次相同检索或检索关键词相似度在设定值范围内的相似检索中各居委会对应属性的排序; 
代码转换模块,用以根据前期流程的处理结果,本模块提供转换接口,第三方业务系统通过接口来查询、调用、转换、批处理居委会标准代码; 
行政区划模型辅助处理模块,用以提供辅助的信息关联,以使系统具备一定的扩展能力,除了对于代码的配对转换以外,考虑将行政区划的信息作为转化配对的要素进行分析;本模块将居委会的行政区划方向类描述转换为详细的街道、门牌、楼宇为界限的信息;同时处理居委模型所有信息的查询和调用;处理居委行政区划的合并、拆分、调整,形成变更预案供业务系统和政府部门预处理;居委模型包括如下功能:居委会信息的代码地标和信息系统的转换、居委会地理信息的区划划分、居委会地理信息的采集、居委会地理信息和人口信息的运算、居委会地标代码和街道镇国标代码的混合使用; 
所述算法匹配模块的分词配对方法包括如下步骤: 
步骤A1、文字预处理过程、获取需要转换的原始业务系统的居委准备进行分析; 
步骤A2、首先系统确定数据的编码为中文、英文和数字中的哪一种; 
步骤A3、分析数据的编码的方式,是全称、简称,还是业务自定义; 
步骤A4、分析中文数据调用检索历史库,查询关键字符、历史匹配记录; 
步骤A5、判断是否有类似案例,如果有,直接采用;如果没有,系统显示并提交近似的方案,方案匹配度按编码、定义方式、业务类型的权重不同选型; 
步骤A6、智能或人工审核干涉,形成固定解决方案; 
步骤A7、方案记录进入学习历史库,提供给下次选型,检索历史库的内容通过积累,逐步覆盖大部分的业务类型; 
所述智能学习模块智能学习的步骤包括: 
步骤B1、用户输入设定的关键字作为一级检索关键字进行检索,智能学习库获取一级检索关键字; 
步骤B2、在智能学习库中检索上一步骤所得的级别检索关键字,该级别 检索关键字是否已存在于智能学习库,存在则执行步骤B4;若不存在,则将该级检索关键字结合分词法继续分解成下一级别学习检索,转步骤B3; 
步骤B3、继续执行步骤B2; 
步骤B4、将在智能学习库检索到的关键字关联搜索经验库相关记录呈现给用户,同时将一级检索关键字与结果关键字进行学习对比,学习存储到智能学习库;经过大量学习后,以后有用户输入的关键字如果和学习结果一致,能直接检索出结果; 
步骤B5、学习成功和配对过程也存储在记忆库中作为加权参数,配对成功越多的级别检索将优先提供给下一次的配对检索。 
2.一种居委标准代码转换系统,其特征在于,所述系统包括: 
数据库模块,用以存储设定数据;包括检索历史数据库、居委会标准代码数据库;历史数据库中存储有检索关键词,以及对应的检索结果,即居委会标准代码;居委会标准代码数据库存储有居委会标准代码及相关属性; 
检索数据获取模块,用以获取检索数据,即检索关键词; 
匹配模块,用以将检索关键词与检索历史数据库中的历史检索数据进行匹配,若检索历史数据库中有与当前检索关键词相同的检索关键词,则输出对应的检索结果;若没有相同的检索关键词或选择重新匹配,则将检索关键词与居委会标准代码数据库进行匹配,输出相似度大于设定值的相关数据; 
智能学习模块,用以跟踪历史检索事件中用户的行为,根据用户的行为判断其对匹配模块提供的匹配结果的满意度,以此确定匹配模块提供的匹配结果中各居委会对应属性在相应检索关键词下对应的权值;综合多次的用户行为分析,根据每次检索事件中各居委会对应属性的权值确定下次相同检索或检索关键词相似度在设定值范围内的相似检索中各居委会对应属性的排序。 
3.根据权利要求2所述的居委标准代码转换系统,其特征在于: 
居委会的标准代码变化时,由于标准街道名称不会有变更,代码都会对 应街道名称进行更换,对于更换后的历史代码也不会删除,作为历史记录以供查询。 
4.根据权利要求2所述的居委标准代码转换系统,其特征在于: 
所述系统还包括: 
算法匹配模块:根据初始处理的数据情况,从所述配对公式库中选择不同的算法公式,根据不同的数据分类按:中文连续、中文简称、英文完整、英文简称、数字型、非标自定义这几种类型选择不同的配对算法,异常情况下有提交至人工处理,通过人工干涉和处理,完成流程,并学习进入配对公式库。 
5.根据权利要求2所述的居委标准代码转换系统,其特征在于: 
所述系统还包括: 
行政区划模型处理:将居委会的行政区划方向类描述转换为详细的街道、门牌、楼宇为界限的信息;同时处理居委模型所有信息的查询和调用;处理居委行政区划的合并、拆分、调整,形成变更预案供业务系统和政府部门预处理;居委模型包括如下功能:居委会信息的代码地标和信息系统的转换、居委会地理信息的区划划分、居委会地理信息的采集、居委会地理信息和人口信息的运算、居委会地标代码和街道镇国标代码的混合使用。 
6.根据权利要求2所述的居委标准代码转换系统,其特征在于: 
所述系统还包括: 
居委会标准代码库:提供标准代码的基础数据库,本数据库通过自动爬网适配器,通过识别固定的网站标识符,自动从标准代码发布网站导入最新的标准代码,以提供给各业务系统使用。 
7.一种根据权利要求2所述居委标准代码转换系统的转换方法,其特征在于,所述方法包括如下步骤: 
检索数据获取步骤,检索数据获取模块获取检索数据,即检索关键词; 
检索关键词匹配步骤,匹配模块将检索关键词与检索历史数据库中的历史检索数据进行匹配,若检索历史数据库中有与当前检索关键词相同的检索关键词,则输出对应的检索结果;若没有相同的检索关键词或选择重新匹配,则将检索关键词与居委会标准代码数据库进行匹配,输出相似度大于设定值的相关数据; 
智能学习步骤,智能学习模块跟踪历史检索事件中用户的行为,根据用户的行为判断其对匹配模块提供的匹配结果的满意度,以此确定匹配模块提供的匹配结果中各居委会对应属性在相应检索关键词下对应的权值;综合多次的用户行为分析,根据每次检索事件中各居委会对应属性的权值确定下次相同检索或检索关键词相似度在设定值范围内的相似检索中各居委会对应属性的排序。 
8.根据权利要求7所述的转换方法,其特征在于: 
所述检索关键词匹配步骤中的分词配对方法包括如下步骤: 
步骤A1、文字预处理过程、获取需要转换的原始业务系统的居委准备进行分析; 
步骤A2、首先系统确定数据的编码为中文、英文和数字中的哪一种; 
步骤A3、分析数据的编码的方式,是全称、简称,还是业务自定义; 
步骤A4、分析中文数据调用检索历史库,查询关键字符、历史匹配记录; 
步骤A5、判断是否有类似案例,如果有,直接采用;如果没有,系统显示并提交近似的方案,方案匹配度按编码、定义方式、业务类型的权重不同选型; 
步骤A6、智能或人工审核干涉,形成固定解决方案; 
步骤A7、方案记录进入学习历史库,提供给下次选型,检索历史库的内容通过积累,逐步覆盖大部分的业务类型。 
9.根据权利要求7所述的转换方法,其特征在于: 
所述智能学习步骤具体包括: 
步骤B1、用户输入设定的关键字作为一级检索关键字进行检索,智能学习库获取一级检索关键字; 
步骤B2、在智能学习库中检索上一步骤所得的级别检索关键字,该级别检索关键字是否已存在于智能学习库,存在则执行步骤B4;若不存在,则将该级检索关键字结合分词法继续分解成下一级别学习检索,转步骤B3; 
步骤B3、继续执行步骤B2; 
步骤B4、将在智能学习库检索到的关键字关联搜索经验库相关记录呈现给用户,同时将一级检索关键字与结果关键字进行学习对比,学习存储到智能学习库;经过大量学习后,以后有用户输入的关键字如果和学习结果一致,能直接检索出结果; 
步骤B5、学习成功和配对过程也存储在记忆库中作为加权参数,配对成功越多的级别检索将优先提供给下一次的配对检索。 
CN201410621040.8A 2014-11-06 2014-11-06 居委标准代码转换系统及方法 Active CN104462216B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410621040.8A CN104462216B (zh) 2014-11-06 2014-11-06 居委标准代码转换系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410621040.8A CN104462216B (zh) 2014-11-06 2014-11-06 居委标准代码转换系统及方法

Publications (2)

Publication Number Publication Date
CN104462216A true CN104462216A (zh) 2015-03-25
CN104462216B CN104462216B (zh) 2018-01-26

Family

ID=52908252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410621040.8A Active CN104462216B (zh) 2014-11-06 2014-11-06 居委标准代码转换系统及方法

Country Status (1)

Country Link
CN (1) CN104462216B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844698A (zh) * 2017-01-26 2017-06-13 成都市亚丁胡杨科技股份有限公司 一种数字云服务平台
CN109783735A (zh) * 2019-01-18 2019-05-21 广东小天才科技有限公司 一种基于用户语料获取内容的方法和装置
CN110458471A (zh) * 2019-08-19 2019-11-15 绍兴数纺科技有限公司 标准化染料信息管理系统
CN111274301A (zh) * 2020-01-20 2020-06-12 启迪数华科技有限公司 一种基于数据资产智能治理方法及系统
CN111444716A (zh) * 2020-03-30 2020-07-24 深圳市微购科技有限公司 标题分词方法、终端及计算机可读存储介质
CN111831716A (zh) * 2020-06-17 2020-10-27 西安电子科技大学 数据缓存与检索方法、系统、介质、计算机设备、终端
CN112487313A (zh) * 2020-11-30 2021-03-12 北京百度网讯科技有限公司 兴趣点识别方法、装置、电子设备和存储介质
CN112559579A (zh) * 2020-12-21 2021-03-26 福建星网天合智能科技有限公司 一种红外码库的高效对码方法、装置、设备和介质
CN112634605A (zh) * 2019-09-23 2021-04-09 北京轻享科技有限公司 一种车辆使用的控制方法、共享平台及车辆共享系统
CN114461714A (zh) * 2022-01-13 2022-05-10 湖北国际物流机场有限公司 Bim编码转换系统
CN114722179A (zh) * 2022-04-26 2022-07-08 国信专达(杭州)科技有限公司 基于信息追溯的检索分析及数据融合方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588968A (zh) * 2004-09-07 2005-03-02 北京通联好搜信息技术有限公司 使用移动终端的短信服务进行信息搜索的方法
CN101334796A (zh) * 2008-02-29 2008-12-31 浙江师范大学 一种个性化及协同化融合的网上多媒体检索与查询方法
CN101770474A (zh) * 2008-12-26 2010-07-07 新奥特硅谷视频技术有限责任公司 一种基于历史检索记录检索的方法和装置
CN103544219A (zh) * 2013-09-24 2014-01-29 北京光年无限科技有限公司 一种带智能推荐的问答系统
CN103605662A (zh) * 2013-10-21 2014-02-26 华为技术有限公司 一种分布式计算框架参数优化方法、装置及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588968A (zh) * 2004-09-07 2005-03-02 北京通联好搜信息技术有限公司 使用移动终端的短信服务进行信息搜索的方法
CN101334796A (zh) * 2008-02-29 2008-12-31 浙江师范大学 一种个性化及协同化融合的网上多媒体检索与查询方法
CN101770474A (zh) * 2008-12-26 2010-07-07 新奥特硅谷视频技术有限责任公司 一种基于历史检索记录检索的方法和装置
CN103544219A (zh) * 2013-09-24 2014-01-29 北京光年无限科技有限公司 一种带智能推荐的问答系统
CN103605662A (zh) * 2013-10-21 2014-02-26 华为技术有限公司 一种分布式计算框架参数优化方法、装置及系统

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844698A (zh) * 2017-01-26 2017-06-13 成都市亚丁胡杨科技股份有限公司 一种数字云服务平台
CN109783735A (zh) * 2019-01-18 2019-05-21 广东小天才科技有限公司 一种基于用户语料获取内容的方法和装置
CN110458471A (zh) * 2019-08-19 2019-11-15 绍兴数纺科技有限公司 标准化染料信息管理系统
CN112634605A (zh) * 2019-09-23 2021-04-09 北京轻享科技有限公司 一种车辆使用的控制方法、共享平台及车辆共享系统
CN111274301A (zh) * 2020-01-20 2020-06-12 启迪数华科技有限公司 一种基于数据资产智能治理方法及系统
CN111274301B (zh) * 2020-01-20 2023-08-29 国云数字科技(重庆)有限公司 一种基于数据资产智能治理方法及系统
CN111444716A (zh) * 2020-03-30 2020-07-24 深圳市微购科技有限公司 标题分词方法、终端及计算机可读存储介质
CN111831716A (zh) * 2020-06-17 2020-10-27 西安电子科技大学 数据缓存与检索方法、系统、介质、计算机设备、终端
CN112487313A (zh) * 2020-11-30 2021-03-12 北京百度网讯科技有限公司 兴趣点识别方法、装置、电子设备和存储介质
CN112487313B (zh) * 2020-11-30 2024-08-20 北京百度网讯科技有限公司 兴趣点识别方法、装置、电子设备和存储介质
CN112559579A (zh) * 2020-12-21 2021-03-26 福建星网天合智能科技有限公司 一种红外码库的高效对码方法、装置、设备和介质
CN114461714A (zh) * 2022-01-13 2022-05-10 湖北国际物流机场有限公司 Bim编码转换系统
CN114461714B (zh) * 2022-01-13 2024-03-29 湖北国际物流机场有限公司 Bim编码转换系统
CN114722179A (zh) * 2022-04-26 2022-07-08 国信专达(杭州)科技有限公司 基于信息追溯的检索分析及数据融合方法
CN114722179B (zh) * 2022-04-26 2023-07-04 国信专达(杭州)科技有限公司 基于信息追溯的检索分析及数据融合方法

Also Published As

Publication number Publication date
CN104462216B (zh) 2018-01-26

Similar Documents

Publication Publication Date Title
CN104462216A (zh) 居委标准代码转换系统及方法
CN110674311A (zh) 一种基于知识图谱的电力资产异构数据融合方法
CN100428227C (zh) 管理数据库系统中的表达式
CN111428053A (zh) 一种面向税务领域知识图谱的构建方法
CN107609052A (zh) 一种基于语义三角的领域知识图谱的生成方法及装置
US20060112133A1 (en) System and method for creating and maintaining data records to improve accuracy thereof
CN102169498A (zh) 一种地址模型的构建方法,以及地址匹配的方法和系统
CN108182972A (zh) 基于分词网络的中文疾病诊断的智能编码方法及系统
CN101393544A (zh) 面向地址编码的中文地址语义解析方法
CN110070872A (zh) 一种基于智能语音识别的物流填单方法
CN111061679A (zh) 一种基于rete和drools规则的科技创新政策速配的方法和系统
CN115935245A (zh) 一种政务热线案件自动分类分拨方法
CN104915388A (zh) 一种基于谱聚类和众包技术的图书标签推荐方法
CN118410175A (zh) 基于大语言模型和知识图谱智能制造能力诊断方法及装置
CN113421037A (zh) 一种多源协同建设规划编制方法和装置
Xu et al. Combining deep learning and crowd-sourcing images to predict housing quality in rural China
CN117787209A (zh) 一种基于自然语言进行地址结构化算法的治理系统
Nemoto et al. Is informal employment a result of market segmentation? evidence from china
CN113918724A (zh) 一种河湖健康知识图谱的构建方法
CN109522336A (zh) 一种基于电子政务内网信息资源的决策分析系统及方法
CN116561345A (zh) 一种基于多模态数据公司情报知识图谱构建方法
Li et al. Vandalism detection in OpenStreetMap via user embeddings
Kou et al. A Dynamic Assessment Method for Urban Eco‐environmental Quality Evaluation
CN116414808A (zh) 详细地址规范化的方法、装置、计算机设备和存储介质
CN115687438A (zh) 数据资产的运营方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant