CN115827877A - 一种提案辅助并案的方法、装置、计算机设备和存储介质 - Google Patents

一种提案辅助并案的方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN115827877A
CN115827877A CN202310071201.XA CN202310071201A CN115827877A CN 115827877 A CN115827877 A CN 115827877A CN 202310071201 A CN202310071201 A CN 202310071201A CN 115827877 A CN115827877 A CN 115827877A
Authority
CN
China
Prior art keywords
proposal
merged
entry
entity
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310071201.XA
Other languages
English (en)
Other versions
CN115827877B (zh
Inventor
刘跃华
王新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Zhengyu Software Technology Development Co ltd
Original Assignee
Hunan Zhengyu Software Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Zhengyu Software Technology Development Co ltd filed Critical Hunan Zhengyu Software Technology Development Co ltd
Priority to CN202310071201.XA priority Critical patent/CN115827877B/zh
Publication of CN115827877A publication Critical patent/CN115827877A/zh
Application granted granted Critical
Publication of CN115827877B publication Critical patent/CN115827877B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请属于计算机技术领域,涉及一种提案辅助并案的方法、装置、计算机设备和存储介质。方法包括:获取历史提案并分类,得到多个提案类;对每个提案类建立知识图谱并分词,得到多个本体词条和本体词条库;获取多个待并案提案并分词,得到多个实体词条;根据知识图谱匹配实体词条,得到相关知识图谱,并得到相关的多个本体词条;计算每个实体词条在对应待并案提案中的分布概率,计算与每个实体词条相关的每个本体词条在对应的本体词条库中的分布概率,并建立正则化项;根据正则化项,计算每个待并案提案归属每个提案类的概率,得到待并案提案的提案类,并做并案处理。本方法能够有效实现提案并案。

Description

一种提案辅助并案的方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种提案辅助并案的方法、装置、计算机设备和存储介质。
背景技术
提案是代表和委员参加各级会议提出的、经提案审查委员会或者提案委员会审查立案后,交承办单位办理的书面意见和建议。
现有技术中,传统的提案并案方式均是由人工处理,通过人工选择出相似提案,分析其内容涉及到的问题(主题)、地区,判断它们是否属于同一主题的提案,从而考虑是否并案。
但是,这样做不仅费时费力,效率低下,而且误判率高。
发明内容
基于此,有必要针对上述技术问题,提供一种提案辅助并案的方法、装置、计算机设备和存储介质,能够有效实现提案并案。
一种提案辅助并案的方法,包括:
获取历史提案并进行分类,得到多个提案类;对每个提案类建立知识图谱,并对每个知识图谱进行分词,得到多个本体词条,并得到对应每个提案类的本体词条库;
获取多个待并案提案,对每个待并案提案进行分词,得到对应每个待并案提案的多个实体词条;
根据所有知识图谱匹配实体词条,得到每个实体词条的相关知识图谱;根据所述相关知识图谱,得到与每个实体词条相关的多个本体词条;
计算每个实体词条在对应待并案提案中的分布概率,得到第一概率;计算与每个实体词条相关的每个本体词条在对应的本体词条库中的分布概率,得到第二概率;根据所述第一概率和所述第二概率,建立正则化项;
根据所述正则化项,计算每个待并案提案归属每个提案类的概率,以概率的最大值所在的提案类作为对应待并案提案的提案类;根据所有待并案提案的提案类做并案处理。
在一个实施例中,计算每个实体词条在对应待并案提案中的分布概率,得到第一概率,包括:
Figure SMS_1
;
式中,
Figure SMS_3
为每个实体词条在对应待并案提案中的分布概率,A为待并案提案中的实体词条的集合,
Figure SMS_8
A中第
Figure SMS_11
个实体词条,
Figure SMS_4
A中第
Figure SMS_6
个实体词条在待并案提案中的出现次数,
Figure SMS_9
为第一超参数,
Figure SMS_10
A中除
Figure SMS_2
以外的每个实体词条在待并案提案中的出现次数与第一超参数之和的求和,
Figure SMS_7
A中第
Figure SMS_12
个实体词条在待并案提案中的出现次数,
Figure SMS_13
是除
Figure SMS_5
以外的任一个实体词条。
在一个实施例中,计算与每个实体词条相关的每个本体词条在对应的本体词条库中的分布概率,得到第二概率,包括:
Figure SMS_14
;
式中,
Figure SMS_17
为与每个实体词条相关的每个本体词条在对应的本体词条库中的分布概率,B为本体词条库,
Figure SMS_25
B中第
Figure SMS_26
个本体词条,
Figure SMS_16
B中第
Figure SMS_20
个本体词条在对应的本体词条库中的出现次数,
Figure SMS_23
为第二超参数,
Figure SMS_24
B中除
Figure SMS_15
以外的每个本体词条在对应的本体词条库中的出现次数与第二超参数之和的求和,
Figure SMS_19
B中第
Figure SMS_21
个本体词条在对应的本体词条库中的出现次数,
Figure SMS_22
是除
Figure SMS_18
以外的任一个本体词条。
在一个实施例中,根据所述第一概率和所述第二概率,建立正则化项,包括:
Figure SMS_27
Figure SMS_28
;
式中,
Figure SMS_30
为待并案提案与提案类的正则化项,
Figure SMS_33
为调整因子,
Figure SMS_37
Figure SMS_31
Figure SMS_34
的关联度,
Figure SMS_35
表示最大第一概率与最大第二概率的乘积,
Figure SMS_38
表示最小第一概率与最小第二概率的乘积,
Figure SMS_29
表示实体词条的集合A与本体词条库B中相同词条的个数,
Figure SMS_32
A中实体词条的总个数,
Figure SMS_36
B中本体词条的总个数。
在一个实施例中,根据所述正则化项,计算每个待并案提案归属每个提案类的概率,包括:
Figure SMS_39
;
式中,
Figure SMS_40
为每个待并案提案归属第
Figure SMS_41
个提案类的概率,
Figure SMS_42
为提案类的总数,
Figure SMS_43
为每个待并案提案与第n个提案类的正则化项,
Figure SMS_44
为第
Figure SMS_45
个提案类。
在一个实施例中,根据所有知识图谱匹配实体词条,得到每个实体词条的相关知识图谱,包括:
根据所有知识图谱建立训练机;
将每个实体词条依次输入所述训练机,匹配出包含所述实体词条的所有知识图谱,得到相关知识图谱。
在一个实施例中,获取多个待并案提案,对每个待并案提案进行分词,得到对应每个待并案提案的多个实体词条,包括:
获取多个待并案提案,采用Python语言的结巴分词库对每个待并案提案进行分词,得到每个待并案提案的分词表;
删除分词表中的停用词和静止词,得到对应每个待并案提案的多个实体词条。
一种提案辅助并案的装置,包括:
分类模块,用于获取历史提案并进行分类,得到多个提案类;对每个提案类建立知识图谱,并对每个知识图谱进行分词,得到多个本体词条,并得到对应每个提案类的本体词条库;
分词模块,用于获取多个待并案提案,对每个待并案提案进行分词,得到对应每个待并案提案的多个实体词条;
匹配模块,用于根据所有知识图谱匹配实体词条,得到每个实体词条的相关知识图谱;根据所述相关知识图谱,得到与每个实体词条相关的多个本体词条;
计算模块,用于计算每个实体词条在对应待并案提案中的分布概率,得到第一概率;计算与每个实体词条相关的每个本体词条在对应的本体词条库中的分布概率,得到第二概率;根据所述第一概率和所述第二概率,建立正则化项;
并案模块,用于根据所述正则化项,计算每个待并案提案归属每个提案类的概率,以概率的最大值所在的提案类作为对应待并案提案的提案类;根据所有待并案提案的提案类做并案处理。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取历史提案并进行分类,得到多个提案类;对每个提案类建立知识图谱,并对每个知识图谱进行分词,得到多个本体词条,并得到对应每个提案类的本体词条库;
获取多个待并案提案,对每个待并案提案进行分词,得到对应每个待并案提案的多个实体词条;
根据所有知识图谱匹配实体词条,得到每个实体词条的相关知识图谱;根据所述相关知识图谱,得到与每个实体词条相关的多个本体词条;
计算每个实体词条在对应待并案提案中的分布概率,得到第一概率;计算与每个实体词条相关的每个本体词条在对应的本体词条库中的分布概率,得到第二概率;根据所述第一概率和所述第二概率,建立正则化项;
根据所述正则化项,计算每个待并案提案归属每个提案类的概率,以概率的最大值所在的提案类作为对应待并案提案的提案类;根据所有待并案提案的提案类做并案处理。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取历史提案并进行分类,得到多个提案类;对每个提案类建立知识图谱,并对每个知识图谱进行分词,得到多个本体词条,并得到对应每个提案类的本体词条库;
获取多个待并案提案,对每个待并案提案进行分词,得到对应每个待并案提案的多个实体词条;
根据所有知识图谱匹配实体词条,得到每个实体词条的相关知识图谱;根据所述相关知识图谱,得到与每个实体词条相关的多个本体词条;
计算每个实体词条在对应待并案提案中的分布概率,得到第一概率;计算与每个实体词条相关的每个本体词条在对应的本体词条库中的分布概率,得到第二概率;根据所述第一概率和所述第二概率,建立正则化项;
根据所述正则化项,计算每个待并案提案归属每个提案类的概率,以概率的最大值所在的提案类作为对应待并案提案的提案类;根据所有待并案提案的提案类做并案处理。
上述提案辅助并案的方法、装置、计算机设备和存储介质,分别提取历史提案的本体词条和待并案提案的实体词条,然后根据知识图谱匹配本体词条和实体词条,并引入正则化项,计算每个待并案提案归属每个提案类的概率,以概率的最大值所在的提案类作为对应待并案提案的提案类,从而对所有待并案提案做并案处理。相较固定比例算法,本申请能够更好地确认提案文档之间语义信息的相关性,本体词条包含提案类的类别属性特征,实体词条包含提案的语义信息,引入的正则化项体现了本体词条和实体词条的相关性,能够提升文档与词条之间的概率分布精度,根据已知的待并案提案的实体词条,推算出提案文本的本体词条(即提案的特征属性),从而有效实现智能的提案并案,提高了提案办理人员的效率和准确度。
附图说明
图1为一个实施例中一种提案辅助并案的方法的应用场景图;
图2为一个实施例中一种提案辅助并案的方法的流程示意图;
图3为一个实施例中一种提案辅助并案的方法的框架示意图;
图4为一个实施例中文件建设类知识图谱;
图5为一个实施例中一种提案辅助并案的装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明,本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本申请中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多组”的含义是至少两组,例如两组,三组等,除非另有明确具体的限定。
在本申请中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接,还可以是物理连接或无线通信连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
另外,本申请各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
本申请提供的方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信,终端102可以包括但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以是各类门户网站、工作系统后台对应的服务器等。
本申请提供了一种提案辅助并案的方法,如图2所示,在一个实施例中,以该方法应用于图1中的终端为例进行说明,包括:
步骤202,获取历史提案并进行分类,得到多个提案类;对每个提案类建立知识图谱,并对每个知识图谱进行分词,得到多个本体词条,并得到对应每个提案类的本体词条库。
具体的:
获取历史提案,对所有历史提案进行分类,得到多个提案类,每个提案类均包括若干历史提案;在CN-DBpedia平台,对每个提案类建立对应的知识图谱;对每个知识图谱进行分词,得到对应每个知识图谱的多个本体词条,并得到对应每个提案类的本体词条库,最后得到对应所有提案类的多个本体词条库。
步骤204,获取多个待并案提案,对每个待并案提案进行分词,得到对应每个待并案提案的多个实体词条。
具体地:
获取多个待并案提案,采用Python语言的结巴分词库对每个待并案提案进行分词,得到每个待并案提案的分词表;删除分词表中的停用词和静止词,得到对应每个待并案提案的多个实体词条。
步骤206,根据所有知识图谱匹配实体词条,得到每个实体词条的相关知识图谱;根据相关知识图谱,得到与每个实体词条相关的多个本体词条。
具体地:
根据所有知识图谱建立训练机,训练机(现有技术)预置开源CN-DBpedia知识图谱;将每个实体词条依次输入训练机,匹配出包含对应实体词条的所有知识图谱,得到相关知识图谱,即以与一个实体词条相对应的所有知识图谱为相关知识图谱。
根据实体词条对应的相关知识图谱,输出相关知识图谱中该实体词条的所有相邻词条(以相关知识图谱中与该实体词条有映射关系的词条为相邻词条),即得到与该实体词条相关的多个本体词条,以相关的所有本体词条构成该实体词条的本体词条库。
步骤208,计算每个实体词条在对应待并案提案中的分布概率,得到第一概率;计算与每个实体词条相关的每个本体词条在对应的本体词条库中的分布概率,得到第二概率;根据第一概率和第二概率,建立正则化项。
具体地:
计算每个实体词条在对应待并案提案中的分布概率,得到第一概率,包括:
Figure SMS_46
;
式中,
Figure SMS_48
为每个实体词条在对应待并案提案中的分布概率,即
Figure SMS_51
A中的分布概率,以
Figure SMS_55
作为第一概率,A为待并案提案中的实体词条的集合,
Figure SMS_50
A中第
Figure SMS_54
个实体词条,
Figure SMS_56
A中第
Figure SMS_60
个实体词条在待并案提案中的出现次数,
Figure SMS_47
为第一超参数,是一个k维向量,k代表待并案提案中实体词条的总数,
Figure SMS_52
A中除
Figure SMS_57
以外的每个实体词条在待并案提案中的出现次数与第一超参数之和的求和,
Figure SMS_59
A中第
Figure SMS_49
个实体词条在待并案提案中的出现次数,
Figure SMS_53
是除
Figure SMS_58
以外的任一个实体词条。
计算与每个实体词条相关的每个本体词条在对应的本体词条库中的分布概率,得到第二概率,包括:
Figure SMS_61
;
式中,
Figure SMS_63
为与每个实体词条相关的每个本体词条在对应的本体词条库中的分布概率,即
Figure SMS_68
B中的分布概率,以
Figure SMS_70
作为第二概率,B为本体词条库,
Figure SMS_65
B中第
Figure SMS_67
个本体词条,
Figure SMS_71
B中第
Figure SMS_75
个本体词条在对应的本体词条库中的出现次数,
Figure SMS_62
为第二超参数,是一个m维向量,m代表与实体词条相关的本体词条的总数,
Figure SMS_66
B中除
Figure SMS_72
以外的每个本体词条在对应的本体词条库中的出现次数与第二超参数之和的求和,
Figure SMS_73
B中第
Figure SMS_64
个本体词条在对应的本体词条库中的出现次数,
Figure SMS_69
是除
Figure SMS_74
以外的任一个本体词条。
本体词条为词条特征属性,独立于选取的实体词集合或拟判定文档(也就是待并案提案),筛选出来的词条特征可以用于处理各种匹配的实体词条。
提案文档往往包含了许多潜藏的语义信息,笼统地使用开源知识图谱只能寻找到与文本信息接近的本体词条,无法提取词条之间的潜在联系,因此,在对提案文档进行主题建模时,加入一个体现本体词条和实体词条之间相关性的正则化项,通过离散正则化来优化主题建模的平滑度,具体地,根据第一概率和第二概率,建立正则化项,包括:
Figure SMS_76
;
Figure SMS_77
;
式中,
Figure SMS_79
为待并案提案与提案类的正则化项,
Figure SMS_84
为调整因子,0<
Figure SMS_87
<1,步长为0.01,
Figure SMS_80
Figure SMS_83
Figure SMS_85
的语义关联度,
Figure SMS_88
表示最大第一概率与最大第二概率的乘积,
Figure SMS_78
表示最小第一概率与最小第二概率的乘积,
Figure SMS_81
表示实体词条的集合A与本体词条库B中相同词条的个数,
Figure SMS_82
A中实体词条的总个数,
Figure SMS_86
B中本体词条的总个数。
需要说明,
Figure SMS_89
Figure SMS_90
是采用Gibbs采样算法进行参数估计并训练得到的,具体算法为现有技术。
步骤210,根据正则化项,计算每个待并案提案归属每个提案类的概率,以概率的最大值所在的提案类作为对应待并案提案的提案类;根据所有待并案提案的提案类做并案处理。
具体地:
根据正则化项,计算每个待并案提案归属每个提案类的概率,包括:
Figure SMS_91
;
式中,
Figure SMS_92
为每个待并案提案归属第
Figure SMS_93
个提案类的概率,
Figure SMS_94
为提案类的总数,
Figure SMS_95
为每个待并案提案与第
Figure SMS_96
个提案类的正则化项,也是实体词条与对应本体词条库的正则化项,
Figure SMS_97
为第
Figure SMS_98
个提案类。
以概率的最大值所在的提案类作为对应待并案提案的提案类是指:待并案提案归属哪个提案类的概率最大,就以哪个提案类作为待并案提案的提案类。
根据所有待并案提案的提案类做并案处理是指:将提案类相同的两个以上的待并案提案做并案处理。
上述提案辅助并案的方法,如图3所示,分别提取历史提案的本体词条和待并案提案的实体词条,然后利用训练机根据知识图谱匹配本体词条和实体词条,并引入正则化项进行离散正则化,计算每个待并案提案归属每个提案类的概率,得到概率表,以概率表中概率的最大值所在的提案类作为对应待并案提案的提案类,从而对所有待并案提案做并案处理。相较固定比例算法,本申请能够更好地确认提案文档之间语义信息的相关性,本体词条包含提案类的类别属性特征,实体词条包含提案的语义信息,引入的正则化项体现了本体词条和实体词条的相关性,能够提升文档与词条之间的概率分布精度,根据已知的待并案提案的实体词条,推算出提案文本的本体词条(即提案的特征属性),从而有效实现智能的提案并案,提高了提案办理人员的效率和准确度。本申请通过借助知识图谱的本体词条模型,更好地确认了提案文档之间语义信息的相关性;采用每个待并案提案归属每个提案类的概率公式,评估相似文档之间的关联性,将实体词条与本体词条关联起来,进而实现有效并案。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本申请还提供了一种提案辅助并案的装置,如图5所示,在一个实施例中,包括:分类模块502、分词模块504、匹配模块506、计算模块508和并案模块510,其中:
分类模块502,用于获取历史提案并进行分类,得到多个提案类;对每个提案类建立知识图谱,并对每个知识图谱进行分词,得到多个本体词条,并得到对应每个提案类的本体词条库;
分词模块504,用于获取多个待并案提案,对每个待并案提案进行分词,得到对应每个待并案提案的多个实体词条;
匹配模块506,用于根据所有知识图谱匹配实体词条,得到每个实体词条的相关知识图谱;根据相关知识图谱,得到与每个实体词条相关的多个本体词条;
计算模块508,用于计算每个实体词条在对应待并案提案中的分布概率,得到第一概率;计算与每个实体词条相关的每个本体词条在对应的本体词条库中的分布概率,得到第二概率;根据第一概率和第二概率,建立正则化项;
并案模块510,用于根据正则化项,计算每个待并案提案归属每个提案类的概率,以概率的最大值所在的提案类作为对应待并案提案的提案类;根据所有待并案提案的提案类做并案处理。
关于提案辅助并案的装置的具体限定可以参见上文中对于提案辅助并案的方法的限定,在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种提案辅助并案的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种提案辅助并案的方法,其特征在于,包括:
获取历史提案并进行分类,得到多个提案类;对每个提案类建立知识图谱,并对每个知识图谱进行分词,得到多个本体词条,并得到对应每个提案类的本体词条库;
获取多个待并案提案,对每个待并案提案进行分词,得到对应每个待并案提案的多个实体词条;
根据所有知识图谱匹配实体词条,得到每个实体词条的相关知识图谱;根据所述相关知识图谱,得到与每个实体词条相关的多个本体词条;
计算每个实体词条在对应待并案提案中的分布概率,得到第一概率;计算与每个实体词条相关的每个本体词条在对应的本体词条库中的分布概率,得到第二概率;根据所述第一概率和所述第二概率,建立正则化项;
根据所述正则化项,计算每个待并案提案归属每个提案类的概率,以概率的最大值所在的提案类作为对应待并案提案的提案类;根据所有待并案提案的提案类做并案处理。
2.根据权利要求1所述的提案辅助并案的方法,其特征在于,计算每个实体词条在对应待并案提案中的分布概率,得到第一概率,包括:
Figure QLYQS_1
;
式中,
Figure QLYQS_3
为每个实体词条在对应待并案提案中的分布概率,A为待并案提案中的实体词条的集合,
Figure QLYQS_8
A中第
Figure QLYQS_11
个实体词条,
Figure QLYQS_5
A中第
Figure QLYQS_7
个实体词条在待并案提案中的出现次数,
Figure QLYQS_10
为第一超参数,
Figure QLYQS_13
A中除
Figure QLYQS_2
以外的每个实体词条在待并案提案中的出现次数与第一超参数之和的求和,
Figure QLYQS_6
A中第
Figure QLYQS_9
个实体词条在待并案提案中的出现次数,
Figure QLYQS_12
是除
Figure QLYQS_4
以外的任一个实体词条。
3.根据权利要求2所述的提案辅助并案的方法,其特征在于,计算与每个实体词条相关的每个本体词条在对应的本体词条库中的分布概率,得到第二概率,包括:
Figure QLYQS_14
;
式中,
Figure QLYQS_16
为与每个实体词条相关的每个本体词条在对应的本体词条库中的分布概率,B为本体词条库,
Figure QLYQS_19
B中第
Figure QLYQS_22
个本体词条,
Figure QLYQS_18
B中第
Figure QLYQS_21
个本体词条在对应的本体词条库中的出现次数,
Figure QLYQS_24
为第二超参数,
Figure QLYQS_26
B中除
Figure QLYQS_15
以外的每个本体词条在对应的本体词条库中的出现次数与第二超参数之和的求和,
Figure QLYQS_20
B中第
Figure QLYQS_23
个本体词条在对应的本体词条库中的出现次数,
Figure QLYQS_25
是除
Figure QLYQS_17
以外的任一个本体词条。
4.根据权利要求3所述的提案辅助并案的方法,其特征在于,根据所述第一概率和所述第二概率,建立正则化项,包括:
Figure QLYQS_27
Figure QLYQS_28
式中,
Figure QLYQS_30
为待并案提案与提案类的正则化项,
Figure QLYQS_34
为调整因子,
Figure QLYQS_37
Figure QLYQS_31
Figure QLYQS_32
的关联度,
Figure QLYQS_35
表示最大第一概率与最大第二概率的乘积,
Figure QLYQS_38
表示最小第一概率与最小第二概率的乘积,
Figure QLYQS_29
表示实体词条的集合A与本体词条库B中相同词条的个数,
Figure QLYQS_33
A中实体词条的总个数,
Figure QLYQS_36
B中本体词条的总个数。
5.根据权利要求4所述的提案辅助并案的方法,其特征在于,根据所述正则化项,计算每个待并案提案归属每个提案类的概率,包括:
Figure QLYQS_39
;
式中,
Figure QLYQS_40
为每个待并案提案归属第
Figure QLYQS_41
个提案类的概率,
Figure QLYQS_42
为提案类的总数,
Figure QLYQS_43
为每个待并案提案与第
Figure QLYQS_44
个提案类的正则化项,
Figure QLYQS_45
为第
Figure QLYQS_46
个提案类。
6.根据权利要求1至5任一项所述的提案辅助并案的方法,其特征在于,根据所有知识图谱匹配实体词条,得到每个实体词条的相关知识图谱,包括:
根据所有知识图谱建立训练机;
将每个实体词条依次输入所述训练机,匹配出包含所述实体词条的所有知识图谱,得到相关知识图谱。
7.根据权利要求1至5任一项所述的提案辅助并案的方法,其特征在于,获取多个待并案提案,对每个待并案提案进行分词,得到对应每个待并案提案的多个实体词条,包括:
获取多个待并案提案,采用Python语言的结巴分词库对每个待并案提案进行分词,得到每个待并案提案的分词表;
删除分词表中的停用词和静止词,得到对应每个待并案提案的多个实体词条。
8.一种提案辅助并案的装置,其特征在于,包括:
分类模块,用于获取历史提案并进行分类,得到多个提案类;对每个提案类建立知识图谱,并对每个知识图谱进行分词,得到多个本体词条,并得到对应每个提案类的本体词条库;
分词模块,用于获取多个待并案提案,对每个待并案提案进行分词,得到对应每个待并案提案的多个实体词条;
匹配模块,用于根据所有知识图谱匹配实体词条,得到每个实体词条的相关知识图谱;根据所述相关知识图谱,得到与每个实体词条相关的多个本体词条;
计算模块,用于计算每个实体词条在对应待并案提案中的分布概率,得到第一概率;计算与每个实体词条相关的每个本体词条在对应的本体词条库中的分布概率,得到第二概率;根据所述第一概率和所述第二概率,建立正则化项;
并案模块,用于根据所述正则化项,计算每个待并案提案归属每个提案类的概率,以概率的最大值所在的提案类作为对应待并案提案的提案类;根据所有待并案提案的提案类做并案处理。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202310071201.XA 2023-02-07 2023-02-07 一种提案辅助并案的方法、装置、计算机设备和存储介质 Active CN115827877B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310071201.XA CN115827877B (zh) 2023-02-07 2023-02-07 一种提案辅助并案的方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310071201.XA CN115827877B (zh) 2023-02-07 2023-02-07 一种提案辅助并案的方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN115827877A true CN115827877A (zh) 2023-03-21
CN115827877B CN115827877B (zh) 2023-04-28

Family

ID=85520816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310071201.XA Active CN115827877B (zh) 2023-02-07 2023-02-07 一种提案辅助并案的方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN115827877B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117093716A (zh) * 2023-10-19 2023-11-21 湖南正宇软件技术开发有限公司 提案的自动分类方法、装置、计算机设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180232443A1 (en) * 2017-02-16 2018-08-16 Globality, Inc. Intelligent matching system with ontology-aided relation extraction
CN110489751A (zh) * 2019-08-13 2019-11-22 腾讯科技(深圳)有限公司 文本相似度计算方法及装置、存储介质、电子设备
CN111177386A (zh) * 2019-12-27 2020-05-19 安徽商信政通信息技术股份有限公司 一种提案分类方法及系统
CN111475613A (zh) * 2020-03-06 2020-07-31 深圳壹账通智能科技有限公司 案件分类方法、装置、计算机设备及存储介质
CN111816301A (zh) * 2020-07-07 2020-10-23 平安科技(深圳)有限公司 医疗问诊辅助方法、装置、电子设备及介质
WO2021000745A1 (zh) * 2019-06-29 2021-01-07 华为技术有限公司 一种知识图谱的嵌入表示方法及相关设备
CN115080867A (zh) * 2022-08-23 2022-09-20 湖南正宇软件技术开发有限公司 一种提案主题的推荐方法、装置、计算机设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180232443A1 (en) * 2017-02-16 2018-08-16 Globality, Inc. Intelligent matching system with ontology-aided relation extraction
WO2021000745A1 (zh) * 2019-06-29 2021-01-07 华为技术有限公司 一种知识图谱的嵌入表示方法及相关设备
CN110489751A (zh) * 2019-08-13 2019-11-22 腾讯科技(深圳)有限公司 文本相似度计算方法及装置、存储介质、电子设备
CN111177386A (zh) * 2019-12-27 2020-05-19 安徽商信政通信息技术股份有限公司 一种提案分类方法及系统
CN111475613A (zh) * 2020-03-06 2020-07-31 深圳壹账通智能科技有限公司 案件分类方法、装置、计算机设备及存储介质
CN111816301A (zh) * 2020-07-07 2020-10-23 平安科技(深圳)有限公司 医疗问诊辅助方法、装置、电子设备及介质
CN115080867A (zh) * 2022-08-23 2022-09-20 湖南正宇软件技术开发有限公司 一种提案主题的推荐方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
洪文兴;胡志强;翁洋;张恒;王竹;郭志新;: "面向司法案件的案情知识图谱自动构建" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117093716A (zh) * 2023-10-19 2023-11-21 湖南正宇软件技术开发有限公司 提案的自动分类方法、装置、计算机设备和存储介质
CN117093716B (zh) * 2023-10-19 2023-12-26 湖南正宇软件技术开发有限公司 提案的自动分类方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN115827877B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
WO2021169111A1 (zh) 简历筛选方法、装置、计算机设备和存储介质
CN110598845B (zh) 数据处理方法、装置、计算机设备和存储介质
EP3627759A1 (en) Method and apparatus for encrypting data, method and apparatus for training machine learning model, and electronic device
WO2021003938A1 (zh) 图像分类方法、装置、计算机设备和存储介质
CN111180086B (zh) 数据匹配方法、装置、计算机设备和存储介质
CN114372573B (zh) 用户画像信息识别方法、装置、计算机设备和存储介质
US9652695B2 (en) Label consistency for image analysis
WO2020034801A1 (zh) 医疗特征筛选方法、装置、计算机设备和存储介质
WO2020177365A1 (zh) 基于数据挖掘的社保数据处理方法、装置和计算机设备
CN109800346B (zh) 文本匹配方法、装置、计算机设备和存储介质
CN111145910A (zh) 基于人工智能的异常案例识别方法、装置、计算机设备
CN110674131A (zh) 财务报表数据处理方法、装置、计算机设备和存储介质
CN110705489B (zh) 目标识别网络的训练方法、装置、计算机设备和存储介质
CN111126339A (zh) 手势识别方法、装置、计算机设备和存储介质
CN111710383A (zh) 病历质控方法、装置、计算机设备和存储介质
CN111507285A (zh) 人脸属性识别方法、装置、计算机设备和存储介质
CN111324716A (zh) 指标数据获取方法、装置、计算机设备和存储介质
CN112530550A (zh) 影像报告生成方法、装置、计算机设备和存储介质
CN113159013A (zh) 基于机器学习的段落识别方法、装置、计算机设备和介质
CN114841161A (zh) 事件要素抽取方法、装置、设备、存储介质和程序产品
CN115827877B (zh) 一种提案辅助并案的方法、装置、计算机设备和存储介质
CN115409111A (zh) 命名实体识别模型的训练方法和命名实体识别方法
WO2021169099A1 (zh) 电子病例检测方法、装置、计算机设备和存储介质
CN117332766A (zh) 流程图生成方法、装置、计算机设备和存储介质
CN112464660A (zh) 文本分类模型构建方法以及文本数据处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant