CN115292611B - 一种案件信息处理方法及系统 - Google Patents
一种案件信息处理方法及系统 Download PDFInfo
- Publication number
- CN115292611B CN115292611B CN202211224700.XA CN202211224700A CN115292611B CN 115292611 B CN115292611 B CN 115292611B CN 202211224700 A CN202211224700 A CN 202211224700A CN 115292611 B CN115292611 B CN 115292611B
- Authority
- CN
- China
- Prior art keywords
- information
- case
- knowledge
- word segmentation
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及信息处理领域,具体涉及一种案件信息处理方法及系统,本方法结合知识模型匹配,通过分析不同模式间的关联性,进行公益诉讼案源信息匹配计算;通过对案源信息中语义映射关系进行挖掘,完成异构数据源的匹配计算;利用已有的信息模式结构,同案源信息的知识模型进行对比,获得高效且可扩展的匹配方法,达到信息自适应获取的目的;并通过信息自适应获取的应用,提高了一定时间范围内,信息获取数量。
Description
技术领域
本发明涉及信息处理领域,具体涉及一种案件信息处理方法及系统。
背景技术
近些年,公益诉讼案件开始不断发展,随着其主体范围的逐渐增大,其案源信息的类型也开始多元化发展。快速增长的案源信息数据量,在保证信息传输速度加快的同时,产生了信息过载的问题,难以有效提取所需公益诉讼案源信息。为了在后续应用中,快速获取所需案源信息,需要对其进行自适应信息获取设计,目前大多数采用效用的决策支持问题结构来制定设计决策,使总体效用最大化,实现基于性能的逐步信息获取。该方法的灵敏度效率较高,但信息自适应获取性能较低,如何更好地满足公益诉讼特定领域中数据处理的需要,成为现实需要解决的问题。
发明内容
为解决上述技术问题至少之一,本申请提出了一种用于案件信息的处理方法及系统。
所述方法包括根据用户端输入的需要获取的信息,确定需要获取的信息对应类型的URL, 并将确定类型的URL存储至URL列表中;
采用自动分词技术,将案源信息进行自动分词处理,并依据分词的差异,构建领域主题表与领域关键词表,形成对应领域的知识资源;
对自动分词获得的词汇做特征提取,将所述特征用于对需要获取的信息的自适应匹配获取;
其中,所述特征提取采用互信息量求解法,具体包括:将抽取出来的特征中,评估分值较高的项目选取出来,通过向量空间模型法表示特征选择结果;其中
互信息量的公式为:
优选的,采用自动分词技术,将案源信息进行自动分词处理,并依据分词的差异,构建领域主题表与领域关键词表,形成对应领域的知识资源包括:以公益诉讼案源信息所需信息为核心,构建知识概念图,将其与已有的案源信息领域之间的联系,做可视化表现图;通过知识概念图将各项案源信息的特征呈现出来。
优选的,所述方法还包括:作为自适应获取的方式采用神经网络算法,以完成所需知识同案源信息知识领域的匹配。
优选的,所述构建知识概念图,将其与已由的安源信息领域之间的联系,做可视化表现图,具体包括:所述可视化表现图包括基本信息,知识状态以及获取信息的属性与质量。
优选的,以案源信息领域知识模型作为自适应获取的方式,采用神经网络算法以完成所需知识同案源信息知识领域的匹配包括:
将公益诉讼案源信息数量设置为m,其应用次数设置为N,并将获取的个信息权
重指标用表示,并且1≤≤N;将第j个获取信息的区分度、猜测系数以及数据相似性
分别用、、进行表示;将评价标准设定在0-1的范围内,可以通过以下表达式进
行计算:
并将其与上述公式相结合,可得出:
通过以上公式,可以推导出获取信息的迭代公式,从而提升信息获取质量;迭代公式的初始值为:
迭代公式的终止规则为:
以上述公式(7)为约束条件,直到迭代公式运行结束,完成信息匹配的案源信息获取。
优选的,所述自动分词技术具备包括,采用中科院ICTCLAS分词将文本切分成子串序列。
优选的,所述神经网络算法采用Mask R-CNN模型。
优选的,所述方法的案件信息是公益诉讼案源信息中的文本信息。
优选的,自动分词技术基于循环神经网络的分词技术,对案件信息进行分词,获取案件信息的关键词集合。
提供一种案件信息处理系统,所述系统包括用户端和服务器,所述服务器用于执行如上任意一项的方法。
本发明公开的方案结合知识模型匹配,设计新的信息自适应获取系统。通过分析不同模式间的关联性,进行公益诉讼案源信息匹配计算;通过对案源信息中语义映射关系进行挖掘,从而完成异构数据源的匹配计算;利用已有的信息模式结构,同案源信息的知识模型进行对比,获得高效且可扩展的匹配方法,达到信息自适应获取的目的;并通过信息自适应获取的应用,提高了一定时间范围内,信息获取数量。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本方法的预处理流程示意图。
图2 是本方法的为领域知识模型框架示意图。
图3是应用本方法的系统框架示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本方案提出了一种案源案件信息的处理系统。所述方法包括,对公益诉讼案源信息,做预处理,实现信息的选择,将处理后的数据集保存至本地服务器中,预处理流程如图1所示。根据图1的处理流程,以系统采集准确性为基础,针对数量众多的案源信息,依据文本特点进行分类。为后续操作打下基础。公益诉讼应用于对社会公共利益有所损害的行为,主要包括两方面,一方面以环境为例,对多数群众的权益有损的行为,才可以通过公益诉讼进行公共利益维护。另一方面,除了常规的公益诉讼应用范围外,还可以以实际发展为依据,逐渐拓展公益诉讼应用范围。根据专业来源获取的公益诉讼案源信息,对其进行处理与分析,获取案源信息的特征,从中快速找到所需信息。
针对获取的信息需要对相应类型的URL进行确定,并将其存储至URL列表中。采用自动分词技术,诸如将文本切分成子串序列采用中科院ICTCLAS分词,对分词结果进行停用词过滤得到词语集合;将案源信息进行自动分词处理,并依据分词的差异,构建领域主题表与领域关键词表等,从而形成相关领域的知识资源。通过自动分词获得数量巨大的词汇,对其进行特征提取从而满足需求信息的自适应获取。
采用互信息量求解方法进行特征抽取。并将抽取出来的特征中,评估分值较高的项目选取出来,最后,通过向量空间模型法表示特征选择结果。
互信息量的公式为:
式中,P与N分别表示计算比重与分词出现频率,将训练文本数量用|D|表示,将案
源信息自动分词后的总词数用|V|表示,并用W表示计算词。此外,、分别表示分词与的所属类别。根据计算结果可以获取案源信息特征。
构建案源信息领域知识模型;以公益诉讼案源信息所需信息为核心,构建知识概念图,将其与已有的案源信息领域之间的联系,进行可视化描述。通过知识概念图,将各项案源信息的特征呈现出来,并以此为基础,可以实现案源信息的自适应获取。以案源信息领域知识模型作为自适应获取核心,采用神经元理论和智能推理的技术,完成所需知识同案源信息知识领域的匹配;融合模式匹配技术,有效提升了匹配精度。
如图2所示,其为领域知识模型框架。由图2可知,通过初始匹配矩阵、结构化语义推理模型,以及匹配知识自适应迭代模型相结合,构成具备良好性能的案源信息领域知识模型。以自动分词建立的信息库为参照,将领域知识模型所属元素向词条向量转换。并以向量匹配计算方法为基础,获取不同元素的匹配程度,从而获得初始匹配矩阵数据。将结构化语义推理算法的应用,作为领域知识模型的核心环节,主要需要依赖于神经元的特点,获得语义推导模型。并且以自适应迭代模型为基础,深入挖掘模式匹配知识特点,从而提升案源信息获取质量。
构建知识模型匹配,针对案源信息领域知识模型获取结果,结合需求信息知识模型,执行匹配。利用知识模型构建图谱,并通过知识图谱的动态更新,提升信息获取系统的实用性。通过关联规则的应用,依托于挖掘算法,获得频繁项集合与关联规则,实现案源信息的自适应获取。
可选的,在应用过程中,需要由基本信息、知识状态两大部分构成,并通过信息状
态结构的可视化表现图,明确获取信息的属性与质量。将公益诉讼案源信息数量设置为m,
其应用次数设置为N,并将获取的个信息权重指标用表示,并且1≤≤N。将第j个
获取信息的区分度、猜测系数以及数据相似性分别用、、进行表示。将评价标准
设定在0-1的范围内,可以通过以下表达式进行计算:
并将其与上述公式相结合,可得出:
通过以上公式,可以推导出获取信息的迭代公式,从而提升信息获取质量。迭代公式的初始值为:
迭代公式的终止规则为:
以上述公式为约束条件,直到迭代公式运行结束,完成信息匹配的案源信息获取。
应用所述方法的系统,其功能实现可通过如图3所示,图3为应用本方法的系统框架,完成案源信息自适应获取。所述系统主要包括为,包括客户端的信息获取,以及接口调用的信息获取两个较大部分。可选的,其中,客户端以Android开发为基础,使用者通过点击的形式,获取所需公益诉讼案源信息,并且为了保证信息获取速度,将选取信息通过本地压缩的方式,快速上传至服务器并向服务端传递。而信息获取的完成,则是以接口调用为沟通渠道,将案源信息传递给服务器上的Mask R-CNN模型,并将其向服务器返回。将获取的信息存储至服务器中,以待后续使用。
基于如上所述的示例,在一个实施例中涉及方法步骤的特征,可以被本发明提供的一种计算机设备/或系统实现,该计算机设备/系统包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现如上述各实施例中的任意一种方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性的计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各视频播放方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种案件信息处理方法,其特征在于:
根据用户端输入的需要获取的信息,确定需要获取的信息对应类型的URL,并将确定类型的URL存储至URL列表中;
采用自动分词技术,将案源信息进行自动分词处理,并依据分词的差异,构建领域主题表与领域关键词表,形成对应领域的知识资源;
对自动分词获得的词汇做特征提取,将所述特征用于对需要获取的信息的自适应匹配获取;
其中,所述特征提取采用互信息量求解法,具体包括:将抽取出来的特征中,评估分值较高的项目选取出来,通过向量空间模型法表示特征选择结果;其中
互信息量的公式为:
式中,P与N分别表示计算比重与分词出现频率,将训练文本数量用|D|表示,将案源信息自动分词后的总词数用|V|表示,并用W表示计算词;此外,di、Cj分别表示分词i与j的所属类别;根据计算结果获取案源信息特征;
以案源信息领域知识模型作为自适应获取的方式,采用神经网络算法完成所需知识同案源信息知识领域的匹配;
其中以案源信息领域知识模型作为自适应获取的方式,采用神经网络算法以完成所需知识同案源信息知识领域的匹配包括:
将公益诉讼案源信息数量设置为m,其应用次数设置为N,并将获取的α个信息权重指标用θα表示,并且1≤α≤N;将第j个获取信息的区分度、猜测系数以及数据相似性分别用ai、bi、ci进行表示;将评价标准设定在0-1的范围内,可以通过以下表达式进行计算:
通过以下公式,针对第m个获取信息,利用Uα表示其获取信息质量;并以此为依据,得到关于获取信息的回答结果,其矩阵函数U表示为:
式中,Uαj表示随机变量,并将其取值范围固定在0到1的范围内;利用Pαj表示推荐对象权重指标,L表示自变量数值的最大值,使得L与1nL具有相同的最大值,并使得1nL的参数偏导为0,则计算公式表示为:
并将其与上述公式相结合,可得出:
通过以上公式,可以推导出获取信息的迭代公式,从而提升信息获取质量;迭代公式的初始值为:
迭代公式的终止规则为:
|θα(k+1)-θαk|≤ε (7)
以上述公式(7)为约束条件,直到迭代公式运行结束,完成信息匹配的案源信息获取。
2.如权利要求1所述的方法,其特征在于:采用自动分词技术,将案源信息进行自动分词处理,并依据分词的差异,构建领域主题表与领域关键词表,形成对应领域的知识资源包括:以公益诉讼案源信息所需信息为核心,构建知识概念图,将其与已有的案源信息领域之间的联系,做可视化表现图;通过知识概念图将各项案源信息的特征呈现出来。
3.如权利要求1所述的方法,其特征在于:所述构建知识概念图,将其与已由的安源信息领域之间的联系,做可视化表现图,具体包括:所述可视化表现图包括基本信息,知识状态以及获取信息的属性与质量。
4.如权利要求3所述的方法,其特征在于:所述自动分词技术具备包括,采用中科院ICTCLAS分词将文本切分成子串序列。
5.如权利要求4所述的方法,其特征在于:所述神经网络算法采用Mask R-CNN模型。
6.如权利要求5所述的方法,其特征在于:所述方法的案件信息是公益诉讼案源信息中的文本信息。
7.如权利要求5所述的方法,其特征在于:自动分词技术基于循环神经网络的分词技术,对案件信息进行分词,获取案件信息的关键词集合。
8.一种案件信息处理系统,所述系统包括用户端和服务器,所述服务器用于执行如权利要求1-7中任意一项的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211224700.XA CN115292611B (zh) | 2022-10-09 | 2022-10-09 | 一种案件信息处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211224700.XA CN115292611B (zh) | 2022-10-09 | 2022-10-09 | 一种案件信息处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115292611A CN115292611A (zh) | 2022-11-04 |
CN115292611B true CN115292611B (zh) | 2023-01-17 |
Family
ID=83833520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211224700.XA Active CN115292611B (zh) | 2022-10-09 | 2022-10-09 | 一种案件信息处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115292611B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567308A (zh) * | 2011-12-20 | 2012-07-11 | 上海电机学院 | 一种信息处理特征提取方法 |
CN107992473B (zh) * | 2017-11-24 | 2021-04-27 | 国家计算机网络与信息安全管理中心 | 基于逐点互信息技术的诈骗信息特征词提取方法及系统 |
CN114969316B (zh) * | 2021-02-24 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 一种文本数据处理方法、装置、设备以及介质 |
CN114400090A (zh) * | 2022-01-20 | 2022-04-26 | 平安国际智慧城市科技股份有限公司 | 问诊辅助方法、问诊辅助装置、设备及存储介质 |
-
2022
- 2022-10-09 CN CN202211224700.XA patent/CN115292611B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115292611A (zh) | 2022-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN106294618A (zh) | 搜索方法及装置 | |
CN111159404B (zh) | 文本的分类方法及装置 | |
CN109472030B (zh) | 一种系统回复质量的评价方法及装置 | |
CN113158554B (zh) | 模型优化方法、装置、计算机设备及存储介质 | |
CN111400601A (zh) | 一种视频推荐的方法及相关设备 | |
JP2023535108A (ja) | ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN110728136A (zh) | 一种融合多因素的textrank关键词提取算法 | |
CN111563373A (zh) | 聚焦属性相关文本的属性级情感分类方法 | |
CN112000769A (zh) | 一种基于对抗网络的服装商品广告文案生成方法 | |
CN115188440A (zh) | 一种相似病历智能匹配方法 | |
CN115292611B (zh) | 一种案件信息处理方法及系统 | |
CN116050419A (zh) | 一种面向科学文献知识实体的无监督识别方法及系统 | |
CN113420680B (zh) | 一种基于gru注意力的遥感影像区域关注与文本生成方法 | |
CN116956931A (zh) | 语义识别模型的训练方法和装置、存储介质及电子设备 | |
CN103744830A (zh) | 基于语义分析的excel文档中身份信息的识别方法 | |
CN114298182A (zh) | 资源召回方法、装置、设备及存储介质 | |
CN112529637A (zh) | 基于情景感知的服务需求动态预测方法及系统 | |
CN112669836A (zh) | 命令的识别方法、装置及计算机可读存储介质 | |
CN110569331A (zh) | 一种基于上下文的关联性预测方法、装置及存储设备 | |
CN112819205B (zh) | 工时预测方法、装置及系统 | |
CN117237857B (zh) | 视频理解任务的执行方法、装置和存储介质及电子设备 | |
CN111611354B (zh) | 人机对话控制方法、装置、服务器及可读存储介质 | |
KR101356193B1 (ko) | 온톨로지 정보를 이용한 문서 주제어 생성 방법 및 그 장치 | |
CN115475388A (zh) | 一种游戏画风搜索网络的训练、游戏搜索方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |