CN115878807B - 一种基于城市大脑的一网通办案件分类方法及系统 - Google Patents

一种基于城市大脑的一网通办案件分类方法及系统 Download PDF

Info

Publication number
CN115878807B
CN115878807B CN202310165234.0A CN202310165234A CN115878807B CN 115878807 B CN115878807 B CN 115878807B CN 202310165234 A CN202310165234 A CN 202310165234A CN 115878807 B CN115878807 B CN 115878807B
Authority
CN
China
Prior art keywords
text
case
case text
character string
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310165234.0A
Other languages
English (en)
Other versions
CN115878807A (zh
Inventor
王静宇
马亚中
郭宝松
李建华
金海亮
张净
李蹊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongguancun Smart City Co Ltd
Original Assignee
Zhongguancun Smart City Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongguancun Smart City Co Ltd filed Critical Zhongguancun Smart City Co Ltd
Priority to CN202310165234.0A priority Critical patent/CN115878807B/zh
Publication of CN115878807A publication Critical patent/CN115878807A/zh
Application granted granted Critical
Publication of CN115878807B publication Critical patent/CN115878807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于城市大脑的一网通办案件分类方法及系统,属于数据处理技术领域,包括步骤S1:边缘计算模块获取案件文本,对案件文本的分类号进行标注;步骤S2:中央处理模块获取案件文本中的文字信息;步骤S3:中央处理模块选取模板文本,基于相似度判断边缘计算模块标注的分类号是否准确,若不准确,中央处理模块将案件文本输入至语义分析模块;步骤S4:语义分析模块获取案件文本的文本语义,基于文本语义确定案件文本的最终分类号;步骤S5:分配模块将案件文本发送至对应的处理终端,处理终端对接收到的案件文本进行处理;通过本发明实现了对案件文本的自动分配,从而大大提升了城市大脑平台对各类案件的处理效率。

Description

一种基于城市大脑的一网通办案件分类方法及系统
技术领域
本发明属于数据处理技术领域,具体涉及一种基于城市大脑的一网通办案件分类方法及系统。
背景技术
“城市大脑”是基于大数据、物联网、5G等新一代信息技术构建的支撑经济、社会、政府数字化转型的开放式智能服务管理平台,在“城市大脑”平台的支撑下,各个部门之间的信息系统被打通,数据得以在多个部门之间共享和流转,因此,传统前往多个部门才能完成的手续,在“城市大脑”的支撑下,群众只需操作一个办事平台,就能办成不同领域的事项,从而大大提升了城市的政务服务水平。
然而,在信息进入至平台之前,需要申请人手动选择申请事项所对应的部门,当申请人对部门管理事务缺乏了解时,可能会选择错误的部门,其结果是收到申请的相关部门无法处理事项,导致申请在部门之间还需进行流转,降低了事务的处理效率;为解决该问题,现有技术中提出了主动向申请人推荐事项的方式,如中国发明专利申请“CN202011115725.7”记载了一种基于政务事项数据分析提取匹配网上办事用户画像的方法,通过收集网上办事用户信息,对各用户进行标签化分类,形成特征化的用户画像,从而在申请前为申请人推荐合适的事项信息;然而,该种方式还需抓取申请人的历史信息,当申请人不存在历史信息时,便无法根据申请人的需求为其推荐合适的事项信息。
发明内容
本发明提供了一种基于城市大脑的一网通办案件分类方法及系统,以解决现有技术中的申请事项无法准确分配至对应处理部门的问题。
为了达到上述的发明目的,本发明提出一种基于城市大脑的一网通办案件分类方法,包括:
步骤S1:边缘计算模块获取案件文本,若案件文本为电子文本,所述边缘计算模块获取案件文本的来源信息,基于来源信息获取案件文本的分类号,将分类号标注于案件文本内,并将案件文本定义为第一文本,若案件文本为图像文本,所述边缘计算模块对案件文本进行一次识别,所述一次识别用于获取案件文本中包含的图形信息,若所述一次识别获取到案件文本中的图形信息,则基于图形信息获取案件文本的分类号,将分类号标注于案件文本内,同时将该案件定义为第二文本,若一次识别未获取到案件文本中的图形信息,则将该案件文本定义为第三文本;
步骤S2:所述边缘计算模块将案件文本发送至中央处理模块,若案件文本为第一文本,所述中央处理模块从案件文本中抽取文字信息,若案件文本为第二文本或第三文本,所述中央处理模块对案件文本进行二次识别,所述二次识别用于获取案件文本中包含的文字信息;
步骤S3:若案件文本为第一文本或第二文本,所述中央处理模块基于案件文本标注的分类号选取模板文本,将案件文本的文字信息与模板文本的文字信息进行对比,获取案件文本与模板文本的相似度,若相似度大于预设的第一匹配阈值,所述中央处理模块将案件文本发送至分配模块,若相似度小于预设的第一匹配阈值,所述中央处理模块将案件文本输入至语义分析模块,若案件文本为第三文本,则所述中央处理模块将案件文本输入至语义分析模块;
步骤S4:所述语义分析模块解析案件文本,基于解析结果获取案件文本的分类号,并对案件文本进行语义标注,若案件文本为第一文本或第二文本,所述语义分析模块判断所述边缘计算模块标注的案件文本分类号是否与自身获取的分类号相同,是的情况下,所述语义分析模块将案件文本发送至所述分配模块,否的情况下,所述语义分析模块使用基于解析结果获取的案件文本分类号替换所述边缘计算模块标注的分类号,并将案件文本发送至所述分配模块,若案件文本为第三文本,所述语义分析模块将基于解析结果获取的案件文本分类号标注于案件文本内,将案件文本发送至所述分配模块;
步骤S5:所述分配模块基于案件文本中标注的分类号,将案件文本发送至对应的处理终端,所述处理终端内建立有多个处理队列,所述处理终端在接收案件文本后,基于案件文本的语义标注,将案件文本分配至对应的处理队列中。
进一步的,获取案件文本与模板文本的相似度包括以下步骤:
基于标点符号将案件文本与模板文本中的文字信息拆分为多个第一字符串,设置数值,将每个所述第一字符串依次拆分为多个第二字符串,每个所述第二字符串包括个字符,且基于同一个所述第一字符串拆分出的相邻两个所述第二字符串中,首个所述第二字符串中第二个字符与后一个所述第二字符串中第一个字符相同;
筛选案件文本和模板文本中包括相同所述第二字符串的所述第一字符串,以所述第一字符串中相同的所述第二字符串为断点,将每个所述第一字符串拆分为多个第三字符串,基于第一公式获取案件文本中每个所述第一字符串与模板文本中每个所述第一字符串的相似度,所述第一公式为:,其中,为对比的所述两个第一字符串中,第一个所述第一字符串中第i个所述第三字符串与另一个所述第一字符串第j个所述第三字符串的相似度,为案件文本和模板文本包括相同所述第二字符串的所述第一字符串中,案件文本中第m个所述第一字符串与模板文本中第n个所述第一字符串的相似度;
若案件文本中所述第一字符串与模板文本中所述第一字符串的相似度超过预设的第二匹配阈值,定义该所述第一字符串为相似字符串,基于第二公式计算案件文本与模板文本的相似度,所述第二公式为:,其中,为案件文本中所述相似字符串的数量,为案件文本中所有所述第一字符串的数量。
进一步的,对案件文本的划分包括以下步骤:
所述边缘计算模块设置有第一识别率,所述边缘计算模块对案件文本进行所述一次识别后,获取对图形信息的识别率,若对图形信息的识别率大于所述第一识别率,则所述边缘计算模块基于图形信息获取案件文本的分类号,并将案件文本定义为第二文本,若对图形信息的识别率小于所述第一识别率,所述边缘计算模块将案件文本划分为第三文本;
所述中央处理模块设置有第二识别率,所述中央处理模块对案件文本进行所述二次识别后,获取本次对案件文本中文字信息的识别率,若对文字信息的识别率小于所述第二识别率,则所述中央处理模块判断案件文本内是否标注有分类号,是的情况下,将案件文本发送至与分类号对应的所述处理终端,否的情况下,将案件文本标注为无法识别。
进一步的,所述语义分析模块判断案件文本分类号包括以下步骤:
所述语义分析模块基于深度学习网络构建第一分类器、第二分类器和第三分类器,将案件文本的文本信息分别输入至第一分类器、第二分类器和第三分类器中,第一分类器、第二分类器和第三分类器分别对文本信息进行识别,获取文本语义,并基于文本语义获取案件文本的分类号,所述语义分析模块将三个分类结果的输出结果进行投票,选取票数最多的输出结果确定为最终分类结果,若案件文本为第一文本或第二文本,将所述边缘计算模块标注的分类号替换为所述最终分类结果对应的分类号,若案件文本为第三文本,则将所述最终分类结果对应的分类号标注于案件文本内。
进一步的,所述语义分析模块构建有第一词库和第二词库,所述第一词库和所述第二词库均包括多个文本词语以及对文本词语的释义,且所述第一词库内词语的释义基于字典获得,所述第二词库内词语的释义基于各部门的专有名词解释获得,各个分类器首先基于所述第二词库对文本信息进行解析,若文本信息中包括第二词库不存在的词语,则分类器再基于第一词库对文本信息进行解析。
本发明还提供了一种基于城市大脑的一网通办案件分类系统,该系统用于实现上述所述的一种基于城市大脑的一网通办案件分类方法,该系统主要包括:
边缘计算模块,用于获取案件文本,若案件文本为电子文本,则所述边缘计算模块基于来源信息获取案件文本的分类号,并将案件文本定义为第一文本,若案件文本为图像文本,则所述边缘计算模块对案件文本进行一次识别,若所述一次识别获取到案件文本中的图形信息,则基于图形信息获取案件文本的分类号,同时将该案件定义为第二文本,所述边缘计算模块将分类号标注于案件文本内,若所述一次识别未获取到案件文本中的图形信息,则将该案件文本定义为第三文本;
中央处理模块,用于从案件文本中抽取文字信息,若案件文本为第一文本或第二文本,所述中央处理模块基于案件文本标注的分类号选取模板文本,获取案件文本与模板文本的相似度,若相似度大于第一匹配阈值,所述中央处理模块将案件文本发送至分配模块,若相似度小于第一匹配阈值,所述中央处理模块将案件文本输入至所述语义分析模块,若案件文本为第三文本,则所述中央处理模块将案件文本输入至所述语义分析模块;
语义分析模块,所述语义分析模块基于深度学习网络构建第一分类器、第二分类器和第三分类器,将案件文本的文本信息分别输入至第一分类器、第二分类器和第三分类器中,第一分类器、第二分类器和第三分类器分别对文本信息进行识别,获取文本语义,并基于文本语义获取案件文本的分类号,所述语义分析模块将三个分类结果的输出结果进行投票,选取票数最多的输出结果确定为最终分类结果,若案件文本为第一文本或第二文本,将所述边缘计算模块标注的分类号替换为所述最终分类结果对应的分类号,若案件文本为第三文本,则将所述最终分类结果对应的分类号标注于案件文本内
分配模块,基于案件文本中标注的分类号,将案件文本发送至对应的处理终端;
处理终端,用于对案件文本进行处理,所述处理终端建立有多个处理队列,所述处理终端在接收案件文本后,基于案件文本的语义标注,将案件文本分配至对应的处理队列中。
本发明还提供了一种计算机存储介质,所述计算机存储介质存储有程序指令,其中,在所述程序指令运行时控制所述计算机存储介质所在设备上述所述的一种基于城市大脑的一网通办案件分类方法。
本发明还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述所述的一种基于城市大脑的一网通办案件分类方法。
与现有技术相比,本发明的有益效果至少如下所述:
本发明首先通过边缘计算模块对案件文本进行识别处理,从而对案件文本的分类号进行初步标注,且进行处理时仅识别案件文本中的图形信息,从而提升了边缘计算模块的处理效率;然后将案件文本发送至中央处理模块,中央处理模块基于分类号选择对应的模板文本,与案件文本进行比对,从而对案件文本的分类号进行核实,确保案件的分类准确,在此基础上,若边缘计算模块的分类号标注错误,则再使用语义分析模块分析文本语义,从而对案件文本的分类进行最终核实,保证案件文本的分类准确性,通过本发明实现了对案件文本的自动分配,从而大大提升了城市大脑平台对各类案件的处理效率。
附图说明
图1为本发明一种基于城市大脑的一网通办案件分类方法的步骤流程图;
图2为本发明一种基于城市大脑的一网通办案件分类系统的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
如图1所示,一种基于城市大脑的一网通办案件分类方法,包括:
步骤S1:边缘计算模块获取案件文本,若案件文本为电子文本,边缘计算模块获取案件文本的来源信息,基于来源信息获取案件文本的分类号,将分类号标注于案件文本内,并将案件文本定义为第一文本,若案件文本为图像文本,边缘计算模块对案件文本进行一次识别,一次识别用于获取案件文本中包含的图形信息,若一次识别获取到案件文本中的图形信息,则基于图形信息获取案件文本的分类号,将分类号标注于案件文本内,同时将该案件定义为第二文本,若一次识别未获取到案件文本中的图形信息,则将该案件文本定义为第三文本;
具体的,系统内包括多个边缘计算模块,每个边缘计算模块负责对一定区域内提交的案件文本数据进行初步处理,从而减少中央处理模块的处理压力;当用户在个人终端(例如手机)或公共终端(例如办事大厅内的便民服务终端)提交案件文本后,边缘计算模块首先对的案件文本类型进行判断;当案件文本为电子文本时,边缘计算模块可以获取案件文本的来源信息,例如申请人通过户口迁移模块填写案件文本,那么边缘计算模块可以根据该来源信息确定案件文本对应于户政部分的分类号;当案件文本为图像文本时,表明递交的案件文本可能基于纸质文本扫描或拍照得到,在此情况下,表明申请人可能不善于操作手机,可能是在他人的指导下填写的,因此需要根据申请人的案件文本内容对其进行判断;若申请人提交的纸质文本中带有部门标识,例如纸质文本中包括人社部门的标识,表明该申请人要申请与社保相关的事项,因此边缘计算模块将与社保部门相关的分类号标注于案件文本内;通过此步骤使得边缘计算模块对案件文本进行初步识别分类,可以减少中央处理模块的处理负担,当案件文本为图像文本时,由于边缘计算模块仅对案件本文中的图形信息进行识别,而不对文字部分进行识别,因此大大了边缘计算模块对案件文本的处理效率。
步骤S2:边缘计算模块将案件文本发送至中央处理模块,若案件文本为第一文本,中央处理模块从案件文本中抽取文字信息,若案件文本为第二文本或第三文本,中央处理模块对案件文本进行二次识别,二次识别用于获取案件文本中包含的文字信息;
步骤S3:若案件文本为第一文本或第二文本,中央处理模块基于案件文本标注的分类号选取模板文本,将案件文本的文字信息与模板文本的文字信息进行对比,获取案件文本与模板文本的相似度,若相似度大于预设的第一匹配阈值,中央处理模块将案件文本发送至分配模块,若相似度小于预设的第一匹配阈值,中央处理模块将案件文本输入至语义分析模块,若案件文本为第三文本,则中央处理模块将案件文本输入至语义分析模块;
当案件文本为第一文本或第二文本时,由于边缘计算模块已经在其中标注了分类号,因此中央处理模块可以根据分类号选取模板文本,模板文本具体为事先确定的、具有代表部门处理事务的文本,模板文本包括大量的、与分类号所属部门相关的文本信息,通过将案件文本与模板进行对比,从而获得案件文本与模板文本的相似度;第一匹配阈值为预先设置的百分比数值,若相似度大于等于预设的第一匹配阈值,表明案件文本内包括大量与模板文本相似的文字信息,也即申请人需要申请的事项与模板文本需要申请的事项相同或接近,因此可以确定边缘计算模块标注的分类号正确,可以将案件文本发送至分配模块进行下一步处理;若相似度小于预设的第一匹配阈值,表明案件文本内仅有少量与模板文本相似的文字信息,例如申请人申请事项为用电问题,使用了对应于电网部门的模块或带有电网部门标识的纸质文本,但案件文本的主要内容与物业管理相关,仅存在少量与电网相关的内容描述,案件文本实际需要房地产行政主管部门进行调解,在此种情况下,表明边缘计算模块的初步分类不准确,需要将案件文本再发送至语义分析模块进行进一步解析。由于被定义为第三文本的案件文本并未被标注分类号,因此无法找到其对应的模板文本,若将案件文本与每个模板文本都进行对比,寻找相似度最大的模板文件再确定分类号,则会浪费大量的时间,并且会增加中央处理模块的处理负荷,因此将本发明直接将案件文本发送至语义分析模块进行处理。
步骤S4:语义分析模块解析案件文本,基于解析结果获取案件文本的分类号,并对案件文本进行语义标注,若案件文本为第一文本或第二文本,语义分析模块判断边缘计算模块标注的案件文本分类号是否与自身获取的分类号相同,是的情况下,语义分析模块将案件文本发送至分配模块,否的情况下,语义分析模块使用基于解析结果获取的案件文本分类号替换边缘计算模块标注的分类号,并将案件文本发送至分配模块,若案件文本为第三文本,语义分析模块将基于解析结果获取的案件文本分类号标注于案件文本内,将案件文本发送至分配模块;
具体的,通过构建语义分析模型对案件文本进行分类,语义分析模型可以基于深度学习网络构建,当案件文本的文字信息被输入至语义分析模块后,语义分析模型分析文本语义,并基于分析结果输出自身对案件文本的分类号;当语义分析模块输出的分类号与边缘计算模块标注的分类号相同时,表明案件文本要表达的语义,与初步标注分类号对应部门要处理的事务相对应,此时可将案件文本发送至分配模块进行下一步处理;若语义分析模块输出的分类号与边缘计算模块标注的分类号不同,表明案件文本要表达的语义,与初步标注分类号对应部门要处理的事务不同,由于语义分析模块对文本语义进行了详细的分析,其分类结果较为准确,因此使用语义分析模块输出的分类号替换边缘计算模块标注的分类号。
步骤S5:分配模块基于案件文本中标注的分类号,将案件文本发送至对应的处理终端,处理终端内建立有多个处理队列,处理终端在接收案件文本后,基于案件文本的语义标注,将案件文本分配至对应的处理队列中。
具体的,语义标注为案件文本所要表达到的处理诉求,通过建立多个处理队列,每个处理队列对应同一项处理诉求,使得有相同诉求的案件文本被分配至同一队列内,例如针对同一小区暖气供应问题的诉求被分配至同一队列内,工作人员可以对案件文本进行批量处理,从而提升对案件文本的处理效率。
本发明首先通过边缘计算模块对案件文本进行识别处理,从而对案件文本的分类号进行初步标注,且进行处理时仅识别案件文本中的图形信息,从而提升了边缘计算模块的处理效率;然后将案件文本发送至中央处理模块,中央处理模块基于分类号选择对应的模板文本,与案件文本进行比对,从而对案件文本的分类号进行核实,确保案件的分类准确,在此基础上,若边缘计算模块的分类号标注错误,则再使用语义分析模块分析文本语义,从而对案件文本的分类进行最终核实,保证案件文本的分类准确性,通过本发明实现了对案件文本的自动分配,从而大大提升了城市大脑平台对各类案件的处理效率。
本发明可以对申请人递交的案件进行准确的分类,且分类过程层层推进,通过边缘计算模块的初步标注和中央处理模块的相似度判断,可以对大部门案件文本进行快速分类,在此基础上,针对少部门错误或无法识别的文本,使用语义分析模块对其进行精确判断,从而保证分类的准确性,使得案件文本能够被发送至正确的部门进行处理,提升事务的处理效率。
现有技术中,对文本相似度的判断包括一般通过提取两个文本中包括相同关键词的语句,然后构建神经网络模型对两个语句的相似度进行计算,然而,构建神经网络模型需要大量的数据进行预训练,当数据不足时会大大降低模型的判断准确性,并且训练过程也会对中央模块产生运算负担;而在本发明的应用场景中,由于文本相似度的比较仅是对边缘计算模块标注的分类号进行验证,因此,本发明提出以下步骤获取案件文本与模板文本的相似度:
基于标点符号将案件文本与模板文本中的文字信息拆分为多个第一字符串,设置数值,将每个第一字符串依次拆分为多个第二字符串,每个第二字符串包括个字符,且基于同一个第一字符串拆分出的相邻两个第二字符串中,首个第二字符串中第二个字符与后一个第二字符串中第一个字符相同;
具体的,标点符号包括汉语中常使用的逗号、句号和感叹号等,在大多数汉语文本场景中,每句话以标点符号结尾,因此通过识别文字信息中的标点符号将文本信息拆分为包括多个汉字的第一字符串;接着设置数值,数值为第二字符串中汉字的数量,如将数值设置为4,若第一字符串为“为什么我们小区电费比别人贵”,那么将第一字符串拆分为如下第二字符串:“为什么我”,“什么我们”“么我们小”“我们小区”“们小区电”“小区电费”“区电费比”“电费比别”“费比别人”“比别人贵”。
筛选案件文本和模板文本中包括相同第二字符串的第一字符串,以第一字符串中相同的第二字符串为断点,将每个第一字符串拆分为多个第三字符串,基于第一公式获取案件文本中每个第一字符串与模板文本中每个第一字符串的相似度,第一公式为:,其中,为对比的两个第一字符串中,第一个第一字符串中第i个第三字符串与另一个第一字符串第j个第三字符串的相似度,为案件文本和模板文本包括相同第二字符串的第一字符串中,案件文本中第m个第一字符串与模板文本中第n个第一字符串的相似度;
下面对本步骤进行解释,例如案件文本为纠纷调解请求书,其内容包括第一字符串X“我们精神差的原因肯定是因为施工噪音太大睡不好觉导致的”,而模板文本中包括第一字符串Y “施工产生施工噪音影响我们休息致使我们白天精神较差”,这两个第一字符串均包括第二字符串“施工噪音”,因此将“施工噪音”为断点,将第一个第一字符串X拆分为第三字符串A和第三字符串B,第三字符串A包括“我们精神差的原因肯定是因为”,第三字符串B包括“太大睡不好觉导致的”,将第二个第一字符串Y拆分为第三字符串C 和第三字符串D,第三字符串C 包括“施工噪音” ,第三字符串D包括“影响我们休息致使我们白天精神较差”,然后,将第三字符串A的分别与第三字符串C 和第三字符串D对比,获得相似度值,将第三字符串B的分别与第三字符串C 和第三字符串D对比,获得相似度值。两个第三字符串之间的相似度对比方法可采用如动态编程等现有技术,此处不再赘述。当上述两个第一字符串对比完毕后,在模板文本中寻找第二个包括“施工噪音”的第一字符串继续与第一字符串X进行对比,直至完成与模板文本中所有包含“施工噪音”的第一字符串的对比。
在找到相同关键词的情况下,由于第一字符串被切分包括更少字符的第三字符串,因此可以更加准确的去对比两个第三字符串的相似度。
若案件文本中第一字符串与模板文本中第一字符串的相似度超过预设的第二匹配阈值,定义该第一字符串为相似字符串,基于第二公式计算案件文本与模板文本的相似度,第二公式为:,其中,为案件文本中相似字符串的数量,为案件文本中所有第一字符串的数量。
具体的,若案件文本中第一字符串与模板文本中某个第一字符串的相似度超过第二匹配阈值时,则将该第一字符串定义为相似字符串,统计案件文本中所有相似字符串的数量,然后通过第二公式获得案件文本与模板文本的相似度;例如第二公式的计算结果为0.6,表明案件文本中有60%的句子可以从模板文本中找到,因此可以确定,案件文本所要表达的内容与模板文本基本相同,边缘计算模块标注的分类号正确。
通过上述步骤可以快速的对两个文本之间的相似度进行对比计算,且无需建立神经网络模型,也无需获取历史数据,从而实现案件文本被快速的进行分类和处理。
边缘计算模块设置有第一识别率,边缘计算模块对案件文本进行一次识别后,获取对图形信息的识别率,若对图形信息的识别率大于第一识别率,则边缘计算模块基于图形信息获取案件文本的分类号,并将案件文本定义为第二文本,若对图形信息的识别率小于第一识别率,边缘计算模块将案件文本划分为第三文本;
中央处理模块设置有第二识别率,中央处理模块对案件文本进行二次识别后,获取本次对案件文本中文字信息的识别率,若对文字信息的识别率小于第二识别率,则中央处理模块判断案件文本内是否标注有分类号,是的情况下,将案件文本发送至与分类号对应的处理终端,否的情况下,将案件文本标注为无法识别。
具体的,当获取案件文本的图形信息后,将其与数据库内各个图形信息进行对比,获取案件文本图形与数据库内每个图形的像素相似度,选取最高的像素相似度数值作为对案件文本图形信息的识别率;因此,当第一识别率设置较高时,边缘计算模块会将大部分的案件文本划分为第三文本,增加了文本的处理程序和处理时间;更进一步的,在本实施例中,可以根据实际情况动态的对第一识别率和第二识别率进行调整,具体的,当在第一固定时间段内处理K个数量的案件文本,其中有个案件文本被定义为第三文本,当与K的比值超过30%时,将第一识别率降低,当在第二固定时间段再处理到K个数量的案件文本时,其中第二固定时间段在第一固定时间段之后,若有个案件文本被定义为第三文本,且,表明第三文本数量过多是由识别率设置过低引起的,而不是由案件文本本身引起的,因此需要对识别率进行调整。
第二识别率为对案件文本中字符的识别数量,当第二识别率设置较高时,只有案件文本有绝大部分文字被识别后,才能不会被划分为第三文本,因此通过设置第二识别率可以保证获取文字信息的完整性。
语义分析模块判断案件文本分类号包括以下步骤:
语义分析模块基于深度学习网络构建第一分类器、第二分类器和第三分类器,将案件文本的文本信息分别输入至第一分类器、第二分类器和第三分类器中,第一分类器、第二分类器和第三分类器分别对文本信息进行识别,获取文本语义,并基于文本语义获取案件文本的分类号,语义分析模块将三个分类结果的输出结果进行投票,选取票数最多的输出结果确定为最终分类结果,若案件文本为第一文本或第二文本,将边缘计算模块标注的分类号替换为最终分类结果对应的分类号,若案件文本为第三文本,则将最终分类结果对应的分类号标注于案件文本内。
通过构建多个分类器,每个分类器通过使用不同的模型构建,可以从多角度对案件文本的语义进行分析,从获得对应分类号,最后由于存在三个分类器,可以对结果进行投票,以确定哪个分类器是正确的,例如,三个分类器中有两个分类器输出第一分类号,一个分类器输出第二分类号,则表明大多数分类器确认案件文本为第一分类号;若三个分类器中有两个分类器输出第二分类号,一个分类器输出第一分类号,则表明大多数分类器确认案件文本为第二分类号,此时由于分类号是基于文本语义分析得出的,因此相比于简单的图形识别具有更高的准确率,因此将第二结果确定的分类号标注于案件文本内,可以保证案件文本的准确度。
语义分析模块构建有第一词库和第二词库,第一词库和第二词库均包括多个文本词语以及对文本词语的释义,且第一词库内词语的释义基于字典获得,第二词库内词语的释义基于各部门的专有名词解释获得,各个分类器首先基于第二词库对文本信息进行解析,若文本信息中包括第二词库不存在的词语,则分类器再基于第一词库对文本信息进行解析。
具体的,当申请人提交设计知识产权的纠纷时,由于知识产权可能涉及大量的专有技术名词,基于普通的词库进行语义识别可能会大大影响案件文本的解析效果,因此,当接收到案件文本后,首先获取案件文本中多个出现次数的多个关键词,若关键词在某个第二词库内存在,则基于第二词库对文本信息进行解析,当第二词库不存在案件文本中的关键词时,再使用第一词库对文本进行解析,通过此步骤可以提升对案件文本的解析效果。
如图2所示,本发明还提供了一种基于城市大脑的一网通办案件分类系统,该系统用于实现上述的一种基于城市大脑的一网通办案件分类方法,该系统主要包括:
边缘计算模块,用于获取案件文本,若案件文本为电子文本,则边缘计算模块基于来源信息获取案件文本的分类号,并将案件文本定义为第一文本,若案件文本为图像文本,则边缘计算模块对案件文本进行一次识别,若一次识别获取到案件文本中的图形信息,则基于图形信息获取案件文本的分类号,同时将该案件定义为第二文本,边缘计算模块将分类号标注于案件文本内,若一次识别未获取到案件文本中的图形信息,则将该案件文本定义为第三文本;
中央处理模块,用于从案件文本中抽取文字信息,若案件文本为第一文本或第二文本,中央处理模块基于案件文本标注的分类号选取模板文本,获取案件文本与模板文本的相似度,若相似度大于第一匹配阈值,中央处理模块将案件文本发送至分配模块,若相似度小于第一匹配阈值,中央处理模块将案件文本输入至语义分析模块,若案件文本为第三文本,则中央处理模块将案件文本输入至语义分析模块;
语义分析模块,语义分析模块基于深度学习网络构建第一分类器、第二分类器和第三分类器,将案件文本的文本信息分别输入至第一分类器、第二分类器和第三分类器中,第一分类器、第二分类器和第三分类器分别对文本信息进行识别,获取文本语义,并基于文本语义获取案件文本的分类号,语义分析模块将三个分类结果的输出结果进行投票,选取票数最多的输出结果确定为最终分类结果,若案件文本为第一文本或第二文本,将边缘计算模块标注的分类号替换为最终分类结果对应的分类号,若案件文本为第三文本,则将最终分类结果对应的分类号标注于案件文本内
分配模块,基于案件文本中标注的分类号,将案件文本发送至对应的处理终端;
处理终端,用于对案件文本进行处理,处理终端建立有多个处理队列,处理终端在接收案件文本后,基于案件文本的语义标注,将案件文本分配至对应的处理队列中。
本发明还提供了一种计算机存储介质,计算机存储介质存储有程序指令,其中,在程序指令运行时控制计算机存储介质所在设备上述的一种基于城市大脑的一网通办案件分类方法。
本发明还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述的一种基于城市大脑的一网通办案件分类方法。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部门步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部门轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部门流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一个非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上上述的实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上上述的实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上上述的仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于城市大脑的一网通办案件分类方法,其特征在于,包括:
步骤S1:边缘计算模块获取案件文本,若案件文本为电子文本,所述边缘计算模块获取案件文本的来源信息,基于来源信息获取案件文本的分类号,将分类号标注于案件文本内,并将案件文本定义为第一文本,若案件文本为图像文本,所述边缘计算模块对案件文本进行一次识别,所述一次识别用于获取案件文本中包含的图形信息,若所述一次识别获取到案件文本中的图形信息,则基于图形信息获取案件文本的分类号,将分类号标注于案件文本内,同时将该案件定义为第二文本,若所述一次识别未获取到案件文本中的图形信息,则将该案件文本定义为第三文本;
步骤S2:所述边缘计算模块将案件文本发送至中央处理模块,若案件文本为第一文本,所述中央处理模块从案件文本中抽取文字信息,若案件文本为第二文本或第三文本,所述中央处理模块对案件文本进行二次识别,所述二次识别用于获取案件文本中包含的文字信息;
步骤S3:若案件文本为第一文本或第二文本,所述中央处理模块基于案件文本标注的分类号选取模板文本,将案件文本的文字信息与模板文本的文字信息进行对比,获取案件文本与模板文本的相似度,若相似度大于预设的第一匹配阈值,所述中央处理模块将案件文本发送至分配模块,若相似度小于预设的第一匹配阈值,所述中央处理模块将案件文本输入至语义分析模块,若案件文本为第三文本,则所述中央处理模块将案件文本输入至语义分析模块;
步骤S4:所述语义分析模块解析案件文本,基于解析结果获取案件文本的分类号,并对案件文本进行语义标注,若案件文本为第一文本或第二文本,所述语义分析模块判断所述边缘计算模块标注的案件文本分类号是否与自身获取的分类号相同,是的情况下,所述语义分析模块将案件文本发送至所述分配模块,否的情况下,所述语义分析模块使用基于解析结果获取的案件文本分类号替换所述边缘计算模块标注的分类号,并将案件文本发送至所述分配模块,若案件文本为第三文本,所述语义分析模块将基于解析结果获取的案件文本分类号标注于案件文本内,将案件文本发送至所述分配模块;
步骤S5:所述分配模块基于案件文本中标注的分类号,将案件文本发送至对应的处理终端,所述处理终端内建立有多个处理队列,所述处理终端在接收案件文本后,基于案件文本的语义标注,将案件文本分配至对应的处理队列中;
所述步骤S3中,获取案件文本与模板文本的相似度包括以下步骤:
基于标点符号将案件文本与模板文本中的文字信息拆分为多个第一字符串,设置数值将每个所述第一字符串依次拆分为多个第二字符串,每个所述第二字符串包括个字符,且基于同一个所述第一字符串拆分出的相邻两个所述第二字符串中,首个所述第二字符串中第二个字符与后一个所述第二字符串中第一个字符相同;
筛选案件文本和模板文本中包括相同所述第二字符串的所述第一字符串,以所述第一字符串中相同的所述第二字符串为断点,将每个所述第一字符串拆分为多个第三字符串,基于第一公式获取案件文本中每个所述第一字符串与模板文本中每个所述第一字符串的相似度,所述第一公式为:,其中,为对比的所述两个第一字符串中,第一个所述第一字符串中第i个所述第三字符串与另一个所述第一字符串第j个所述第三字符串的相似度,为案件文本和模板文本包括相同所述第二字符串的所述第一字符串中,案件文本中第m个所述第一字符串与模板文本中第n个所述第一字符串的相似度;
若案件文本中所述第一字符串与模板文本中所述第一字符串的相似度超过预设的第二匹配阈值,定义该所述第一字符串为相似字符串,基于第二公式计算案件文本与模板文本的相似度,所述第二公式为:,其中,为案件文本中所述相似字符串的数量,为案件文本中所有所述第一字符串的数量。
2.根据权利要求1所述的一种基于城市大脑的一网通办案件分类方法,其特征在于,对案件文本的划分包括以下步骤:
所述边缘计算模块设置有第一识别率,所述边缘计算模块对案件文本进行所述一次识别后,获取对图形信息的识别率,若对图形信息的识别率大于所述第一识别率,则所述边缘计算模块基于图形信息获取案件文本的分类号,并将案件文本定义为第二文本,若对图形信息的识别率小于所述第一识别率,所述边缘计算模块将案件文本划分为第三文本;
所述中央处理模块设置有第二识别率,所述中央处理模块对案件文本进行所述二次识别后,获取本次对案件文本中文字信息的识别率,若对文字信息的识别率小于所述第二识别率,则所述中央处理模块判断案件文本内是否标注有分类号,是的情况下,将案件文本发送至与分类号对应的所述处理终端,否的情况下,将案件文本标注为无法识别。
3.根据权利要求1所述的一种基于城市大脑的一网通办案件分类方法,其特征在于,所述语义分析模块判断案件文本分类号包括以下步骤:
所述语义分析模块基于深度学习网络构建第一分类器、第二分类器和第三分类器,将案件文本的文本信息分别输入至第一分类器、第二分类器和第三分类器中,第一分类器、第二分类器和第三分类器分别对文本信息进行识别,获取文本语义,并基于文本语义获取案件文本的分类号,所述语义分析模块将三个分类结果的输出结果进行投票,选取票数最多的输出结果确定为最终分类结果,若案件文本为第一文本或第二文本,将所述边缘计算模块标注的分类号替换为所述最终分类结果对应的分类号,若案件文本为第三文本,则将所述最终分类结果对应的分类号标注于案件文本内。
4.根据权利要求3所述的一种基于城市大脑的一网通办案件分类方法,其特征在于,所述语义分析模块构建有第一词库和第二词库,所述第一词库和所述第二词库均包括多个文本词语以及对文本词语的释义,且所述第一词库内词语的释义基于字典获得,所述第二词库内词语的释义基于各部门的专有名词解释获得,各个分类器首先基于所述第二词库对文本信息进行解析,若文本信息中包括第二词库不存在的词语,则分类器再基于第一词库对文本信息进行解析。
5.一种基于城市大脑的一网通办案件分类系统,用于实现如权利要求1-4任一项所述的一种基于城市大脑的一网通办案件分类方法,其特征在于,包括:
边缘计算模块,用于获取案件文本,若案件文本为电子文本,则所述边缘计算模块基于来源信息获取案件文本的分类号,并将案件文本定义为第一文本,若案件文本为图像文本,则所述边缘计算模块对案件文本进行一次识别,若所述一次识别获取到案件文本中的图形信息,则基于图形信息获取案件文本的分类号,同时将该案件定义为第二文本,所述边缘计算模块将分类号标注于案件文本内,若所述一次识别未获取到案件文本中的图形信息,则将该案件文本定义为第三文本;
中央处理模块,用于从案件文本中抽取文字信息,若案件文本为第一文本或第二文本,所述中央处理模块基于案件文本标注的分类号选取模板文本,基于标点符号将案件文本与模板文本中的文字信息拆分为多个第一字符串,设置数值,将每个所述第一字符串依次拆分为多个第二字符串,每个所述第二字符串包括个字符,且基于同一个所述第一字符串拆分出的相邻两个所述第二字符串中,首个所述第二字符串中第二个字符与后一个所述第二字符串中第一个字符相同,筛选案件文本和模板文本中包括相同所述第二字符串的所述第一字符串,以所述第一字符串中相同的所述第二字符串为断点,将每个所述第一字符串拆分为多个第三字符串,基于第一公式获取案件文本中每个所述第一字符串与模板文本中每个所述第一字符串的相似度,所述第一公式为:,其中,为对比的所述两个第一字符串中,第一个所述第一字符串中第i个所述第三字符串与另一个所述第一字符串第j个所述第三字符串的相似度,为案件文本和模板文本包括相同所述第二字符串的所述第一字符串中,案件文本中第m个所述第一字符串与模板文本中第n个所述第一字符串的相似度,若案件文本中所述第一字符串与模板文本中所述第一字符串的相似度超过预设的第二匹配阈值,定义该所述第一字符串为相似字符串,基于第二公式计算案件文本与模板文本的相似度,所述第二公式为:,其中,为案件文本中所述相似字符串的数量,为案件文本中所有所述第一字符串的数量,若相似度大于第一匹配阈值,所述中央处理模块将案件文本发送至分配模块,若相似度小于第一匹配阈值,所述中央处理模块将案件文本输入至所述语义分析模块,若案件文本为第三文本,则所述中央处理模块将案件文本输入至所述语义分析模块;
语义分析模块,所述语义分析模块基于深度学习网络构建第一分类器、第二分类器和第三分类器,将案件文本的文本信息分别输入至第一分类器、第二分类器和第三分类器中,第一分类器、第二分类器和第三分类器分别对文本信息进行识别,获取文本语义,并基于文本语义获取案件文本的分类号,所述语义分析模块将三个分类结果的输出结果进行投票,选取票数最多的输出结果确定为最终分类结果,若案件文本为第一文本或第二文本,将所述边缘计算模块标注的分类号替换为所述最终分类结果对应的分类号,若案件文本为第三文本,则将所述最终分类结果对应的分类号标注于案件文本内;
分配模块,基于案件文本中标注的分类号,将案件文本发送至对应的处理终端;
处理终端,用于对案件文本进行处理,所述处理终端建立有多个处理队列,所述处理终端在接收案件文本后,基于案件文本的语义标注,将案件文本分配至对应的处理队列中。
6.一种计算机存储介质,其特征在于,所述计算机存储介质存储有程序指令,其中,在所述程序指令运行时控制所述计算机存储介质所在设备执行权利要求1-4任一项所述的一种基于城市大脑的一网通办案件分类方法。
7.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1-4任一项所述的一种基于城市大脑的一网通办案件分类方法。
CN202310165234.0A 2023-02-27 2023-02-27 一种基于城市大脑的一网通办案件分类方法及系统 Active CN115878807B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310165234.0A CN115878807B (zh) 2023-02-27 2023-02-27 一种基于城市大脑的一网通办案件分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310165234.0A CN115878807B (zh) 2023-02-27 2023-02-27 一种基于城市大脑的一网通办案件分类方法及系统

Publications (2)

Publication Number Publication Date
CN115878807A CN115878807A (zh) 2023-03-31
CN115878807B true CN115878807B (zh) 2023-05-12

Family

ID=85761623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310165234.0A Active CN115878807B (zh) 2023-02-27 2023-02-27 一种基于城市大脑的一网通办案件分类方法及系统

Country Status (1)

Country Link
CN (1) CN115878807B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679153A (zh) * 2017-09-27 2018-02-09 国家电网公司信息通信分公司 一种专利分类方法及装置
CN110377618B (zh) * 2019-06-17 2024-01-05 平安科技(深圳)有限公司 裁决结果分析方法、装置、计算机设备和存储介质
CN110362592B (zh) * 2019-06-17 2023-06-23 平安科技(深圳)有限公司 裁决指引信息推送方法、装置、计算机设备和存储介质
CN111858923A (zh) * 2019-12-24 2020-10-30 北京嘀嘀无限科技发展有限公司 一种文本分类方法、系统、装置及存储介质
WO2022035942A1 (en) * 2020-08-11 2022-02-17 Nationstar Mortgage LLC, d/b/a/ Mr. Cooper Systems and methods for machine learning-based document classification
CN112597286A (zh) * 2020-12-11 2021-04-02 北京软通智慧城市科技有限公司 一种案件派遣处置方法、装置、电子设备和存储介质
CN112613501A (zh) * 2020-12-21 2021-04-06 深圳壹账通智能科技有限公司 信息审核分类模型的构建方法和信息审核方法

Also Published As

Publication number Publication date
CN115878807A (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
CN110209764B (zh) 语料标注集的生成方法及装置、电子设备、存储介质
CN108829681B (zh) 一种命名实体提取方法及装置
WO2020000688A1 (zh) 财务风险验证处理方法、装置、计算机设备及存储介质
CN111444723B (zh) 信息抽取方法、计算机设备和存储介质
CN112613501A (zh) 信息审核分类模型的构建方法和信息审核方法
CN109446511B (zh) 裁判文书处理方法、装置、计算机设备和存储介质
CN110705233B (zh) 基于文字识别技术的笔记生成方法、装置和计算机设备
CN108491406B (zh) 信息分类方法、装置、计算机设备和存储介质
CN110569356B (zh) 基于智能面试交互系统的面试方法、装置和计算机设备
CN108664595B (zh) 领域知识库构建方法、装置、计算机设备和存储介质
CN111324713B (zh) 对话自动回复方法、装置、存储介质和计算机设备
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN113591866B (zh) 基于db与crnn的特种作业证件检测方法及系统
CN110362798B (zh) 裁决信息检索分析方法、装置、计算机设备和存储介质
CN112699923A (zh) 文档分类预测方法、装置、计算机设备及存储介质
CN110517007A (zh) 仲裁申请立案审核处理方法、装置和计算机设备
CN112052305A (zh) 信息提取方法、装置、计算机设备及可读存储介质
CN114357174B (zh) 基于ocr和机器学习的代码分类系统及方法
CN112347254A (zh) 新闻文本的分类方法、装置、计算机设备和存储介质
CN116563868A (zh) 文本图像的识别方法、装置、计算机设备及存储介质
CN112380346B (zh) 金融新闻情感分析方法、装置、计算机设备及存储介质
CN115878807B (zh) 一种基于城市大脑的一网通办案件分类方法及系统
CN109992778B (zh) 基于机器学习的简历文档判别方法及装置
CN112800771A (zh) 文章识别方法、装置、计算机可读存储介质和计算机设备
CN115690819A (zh) 一种基于大数据的识别方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant