CN111177367B - 案件分类方法、分类模型训练方法及相关产品 - Google Patents

案件分类方法、分类模型训练方法及相关产品 Download PDF

Info

Publication number
CN111177367B
CN111177367B CN201911099132.3A CN201911099132A CN111177367B CN 111177367 B CN111177367 B CN 111177367B CN 201911099132 A CN201911099132 A CN 201911099132A CN 111177367 B CN111177367 B CN 111177367B
Authority
CN
China
Prior art keywords
case
classification model
training set
words
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911099132.3A
Other languages
English (en)
Other versions
CN111177367A (zh
Inventor
骆雄辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911099132.3A priority Critical patent/CN111177367B/zh
Publication of CN111177367A publication Critical patent/CN111177367A/zh
Application granted granted Critical
Publication of CN111177367B publication Critical patent/CN111177367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Technology Law (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种案件分类方法、分类模型训练方法及相关产品,该案件分类方法可包括:获取待分类案件的案情信息;通过分类模型,识别待分类案件的案情信息所属的案件类型,其中,该分类模型是通过语料训练集和案件训练集训练得到的模型,该语料训练集用于构建该分类模型中与案件相关的词向量,该案件训练集用于构建该分类模型中案情信息与案件类型之间的映射关系,该语料训练集和该案件训练集都包括替换词,该替换词用于替换该语料训练集和该案件训练集中的原有词,该替换词还用于训练该分类模型识别该原有词。通过分类模型识别案件的案件类型,提高了案件分类的准确性。

Description

案件分类方法、分类模型训练方法及相关产品
技术领域
本发明涉及数据处理领域,尤其涉及一种案件分类方法、分类模型训练方法及相关产品。
背景技术
公安机关和人民检察院对已经立案的案件,会依照法定程序,收集案件信息。当前案件立案数虽然相比之前有所下降,但随着扫黑除恶、安保活动和社会治理的逐步深入,案件立案数预计会有所增加。
公安部门在处理案件时,需要对案件进行存档和分类。目前通常采用文本相似度匹配的方式对案件分类,这种方式在实际应用中分类准确性不足。
发明内容
本发明实施例提供了一种案件分类方法、分类模型训练方法及相关产品,通过分类模型识别案件的案件类型,提高了案件分类的准确性。
第一方面,本发明实施例提供了一种案件分类方法,该方法可包括:获取待分类案件的案情信息;通过分类模型,识别所述待分类案件的案情信息所属的案件类型,所述分类模型是通过语料训练集和案件训练集训练得到的模型,所述语料训练集用于构建所述分类模型中与案件相关的词向量,所述案件训练集用于构建所述分类模型中案情信息与案件类型之间的映射关系;所述语料训练集和所述案件训练集都包括替换词,所述替换词用于替换所述语料训练集和所述案件训练集中的原有词,所述替换词还用于训练所述分类模型识别所述原有词。
本申请实施例中,通过采用语料训练集和案件训练集训练得到的分类模型可以准确地识别待分类案件的案件信息所属的案件类型,在训练过程中,语料训练集和案件训练集包括的替换词,进一步提高分类模型识别的准确性。
在一个可选的实现方式中,所述替换词包括所述原有词的同义词、与所述原有词含义不同的词和无含义的字符中的至少一个;
所述语料训练集包括N个语料库,所述N为正整数;
所述案件训练集通过切分历史案件数据得到,所述历史案件数据包括至少三个历史案件的案情信息和案件类型。
在该实现方式中,用于训练分类模型的语料训练集和案件训练集包括替换词,替换词在训练过程中提高分类模型的识别能力,有利于分类模型准确识别待分类案件的案件信息,提高分类模型分类待分类模型的准确性;分类模型通过一个或一个以上的语料训练库进行预训练,使分类模型在分类待分类案件时准确将待分类案件的案件信息转换为词向量,提高分类准确性;分类模型通过采用切分历史案件数据得到案件训练集训练,以使分类模型准确地确定待分类案件的案件信息所属的案件类型,提高分类的准确性。
在一个可选的实现方式中,所述分类模型的超参数通过验证集进行更新,所述验证集通过切分所述历史案件数据得到,所述验证集与所述案件训练集不相交。
在该实现方式中,分类模型的超参数通过切分历史案件数据得到的验证集进行更新,提高分类模型的分类性能,进而提高分类模型分类待分类案件的准确性。
在一个可选的实现方式中,所述分类模型通过测试集进行测试,所述测试集通过切分所述历史案件数据得到,所述测试集、所述验证集和所述案件训练集互不相交。
在该实现方式中,分类模型通过历史案件数据切分出的测试集进行测试,评测分类模型的性能,进而可根据评测出的性能优化分类模型的性能,有利于提高分类模型分类待分类案件的性能。
在一个可选的实现方式中,在所述获取待分类案件的案情信息之后,在所述通过分类模型,识别所述待分类案件的案情信息所属的案件类型之前,所述方法还包括:从所述待分类案件的案件信息中提取所述待分类案件的案件特征,并将所述待分类案件的案件特征作为所述分类模型的输入数据。
在该实现方式中,通过预先提取待分类案件的案件信息中的案件特征,减少分类模型的工作量,和无效的案件信息对分类模型的干扰,有利于提高分类模型的分类准确性。
在一个可选的实现方式中,所述从所述待分类案件的案件信息中提取所述待分类案件的案件特征,包括:对所述待分类案件的案情信息进行格式化;在对所述待分类案件的案情信息进行格式化之后,从所述待分类案件的案情信息中切分出所述待分类案件的案件特征。
在该实现方式中,通过对待分类案件的案情信息进行格式化,有利于分类模型识别案情信息,从案情信息中切分出案件特征,有利于减少无效的案情信息对分类模型的干扰,提高分类准确性。
在一个可选的实现方式中,案件分类装置返回识别结果,所述识别结果至少用于指示是否成功识别所述待分类案件的案件类型。所述识别结果包括M个分类标识,所述M个分类标识用于指示待分类案件的案件类型。
在该实现方式中,通过返回识别结果,指示待分类案件不同层次的案件类型,有利于更准确对待分类案件进行分类。
第二方面,本发明实施例提供了一种分类模型训练方法,该方法可包括:通过语料训练集和案件训练集对分类模型进行训练,其中,所述语料训练集用于构建所述分类模型中与案件相关的词向量,所述案件训练集用于构建所述分类模型中案情信息与案件类型之间的映射关系;所述语料训练集和所述案件训练集都包括替换词,所述替换词用于替换所述语料训练集和所述案件训练集中的原有词,所述替换词还用于训练所述分类模型识别所述原有词。
本申请实施例中,通过语料训练集和案件训练集对分类模型进行训练,使分类模型识别待分类案件的案件信息所属的案件类型,其中,语料训练集和案件训练集包括替换词,通过包括替换词的语料训练集和案件训练集对分类模型进行训练,在训练过程中提高分类模型的识别能力,进而提高分类模型的识别准确性。
在一个可选的实现方式中,所述替换词包括所述原有词的同义词、与所述原有词含义不同的词和无含义的字符中的至少一个;
所述语料训练集包括N个语料库,所述N为正整数;
所述案件训练集通过切分历史案件数据得到,所述历史案件数据包括至少三个历史案件的案情信息和案件类型。
在该实现方式中,通过包括替换词的语料训练集和案件训练集对分类模型进行训练,替换词在训练过程中提高分类模型的识别能力,有利于分类模型准确识别待分类案件的案件信息,提高分类模型分类待分类模型的准确性;通过一个或一个以上的语料训练库对分类模型进行预训练,使分类模型在分类待分类案件时准确将待分类案件的案件信息转换为词向量,提高分类准确性;通过采用切分历史案件数据得到案件训练集训练,以使分类模型准确地确定待分类案件的案件信息所属的案件类型,提高分类的准确性。
在一个可选的实现方式中,该方法还包括:通过验证集更新所述分类模型的超参数,所述验证集通过切分所述历史案件数据得到,所述验证集与所述案件训练集不相交。
在该实现方式中,通过验证集更新分类模型的超参数,以提高分类模型的分类性能,进而提高分类模型分类待分类案件的分类准确性。
在一个可选的实现方式中,该方法还包括:通过测试集对所述分类模型进行测试,所述测试集通过切分所述历史案件数据得到,所述测试集、所述验证集和所述案件训练集互不相交。
在该实现方式中,通过历史案件数据切分出的数据对分类模型进行测试,测试集、验证集和案件训练集互不相交,以使在通过测试集测试分类模型时,不受验证集和案件训练集的干扰,提高测试的准确性,进而可根据评测出的性能优化分类模型的性能,有利于提高分类模型分类待分类案件的性能。
在一个可选的实现方式中,该方法还包括:切分所述历史案件数据,得到所述案件训练集、所述验证集和所述测试集,其中,所述案件训练集、所述验证集和所述测试集互不相交。在该实现方式中,分类模型训练装置对分类模型进行训练、超参数调整和测试,三个过程互不干扰,有利于提高分类模型的性能。
第三方面,本发明实施例提供了一种案件分类装置,该案件分类装置可包括:获取模块,用于获取待分类案件的案情信息;识别模块,用于通过分类模型,识别所述待分类案件的案情信息所属的案件类型,所述分类模型是通过语料训练集和案件训练集训练得到的模型,所述语料训练集用于构建所述分类模型中与案件相关的词向量,所述案件训练集用于构建所述分类模型中案情信息与案件类型之间的映射关系;所述语料训练集和所述案件训练集都包括替换词,所述替换词用于替换所述语料训练集和所述案件训练集中的原有词,所述替换词还用于训练所述分类模型识别所述原有词。
在一个可选的实现方式中,所述替换词包括所述原有词的同义词、与所述原有词含义不同的词和无含义的字符中的至少一个;所述语料训练集包括N个语料库,所述N为正整数;所述案件训练集通过切分历史案件数据得到,所述历史案件数据包括至少三个历史案件的案情信息和案件类型。
在一个可选的实现方式中,所述分类模型的超参数通过验证集进行更新,所述验证集通过切分所述历史案件数据得到,所述验证集与所述案件训练集不相交。
在一个可选的实现方式中,所述分类模型通过测试集进行测试,所述测试集通过切分所述历史案件数据得到,所述测试集、所述验证集和所述案件训练集互不相交。
在一个可选的实现方式中,所述案件分类装置还包括:提取模块,用于从所述待分类案件的案件信息中提取所述待分类案件的案件特征,并将所述待分类案件的案件特征作为所述分类模型的输入数据。
在一个可选的实现方式中,所述提取模块,具体用于对所述待分类案件的案情信息进行格式化;在对所述待分类案件的案情信息进行格式化之后,从所述待分类案件的案情信息中切分出所述待分类案件的案件特征。
第四方面,本发明实施例提供了一种分类模型训练装置,该装置可包括:训练模块,用于通过语料训练集和案件训练集对分类模型进行训练,其中,所述语料训练集用于构建所述分类模型中与案件相关的词向量,所述案件训练集用于构建所述分类模型中案情信息与案件类型之间的映射关系;所述语料训练集和所述案件训练集都包括替换词,所述替换词用于替换所述语料训练集和所述案件训练集中的原有词,所述替换词还用于训练所述分类模型识别所述原有词。
在一个可选的实现方式中,所述替换词包括所述原有词的同义词、与所述原有词含义不同的词和无含义的字符中的至少一个;所述语料训练集包括N个语料库,所述N为正整数;所述案件训练集通过切分历史案件数据得到,所述历史案件数据包括至少三个历史案件的案情信息和案件类型。
在一个可选的实现方式中,所述分类模型训练装置还包括:更新模块,用于通过验证集更新所述分类模型的超参数,所述验证集通过切分所述历史案件数据得到,所述验证集与所述案件训练集不相交。
在一个可选的实现方式中,所述分类模型训练装置还包括:测试模块,用于通过测试集对所述分类模型进行测试,所述测试集通过切分所述历史案件数据得到,所述测试集、所述验证集和所述案件训练集互不相交。
第五方面,本发明实施例提供了另一种电子设备,该电子设备包括接收器和发送器,还包括:处理器,适于实现一条或多条指令;以及,计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如上述第一方面以及上述第一方面中可选的实现方式的方法,或如上述第二方面以及上述第二方面中可选的实现方式的方法。
第六方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如上述第一方面以及上述第一方面中可选的实现方式的方法,或如上述第二方面以及上述第二方面中可选的实现方式的方法。
第七方面,本发明实施例提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如上述第一方面以及上述第一方面中可选的实现方式的方法,或如上述第二方面以及上述第二方面中可选的实现方式的方法。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1为本申请实施例提供的一种案件分类方法的应用场景示意图;
图2为本申请实施例提供的一种案件分类方法流程图;
图3为本申请实施例提供的另一种案件分类方法流程图;
图4A为本申请实施例提供的一种刑事案件分类方法流程图;
图4B为本申请实施例提供的一种刑事案件的类型层次示意图;
图5为本申请实施例提供的另一种分类模型训练方法流程图;
图6为本申请实施例提供的一种案件分类方法装置;
图7为本申请实施例提供的一种分类模型训练装置;
图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行描述。
为了使本技术领域的人员更好地理解本申请实施例方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。
本申请的说明书实施例和权利要求书及上述附图中的术语“第一”、“第二”、和“第三”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块。方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。“和/或”用于表示在其所连接的两个对象之间选择一个或全部。
本申请实施例提供了案件分类方法、分类模型训练方法及相关产品。为更清楚的描述本申请的方案,下面先介绍一些与本申请中的案件分类方法相关的背景知识。
采用双向编码表示的翻译(bidirectional encoder representation fromtransformers,BERT)模型是谷歌人工智能(Artificial Intelligence,AI)团队发布于2018年10月的机器学习模型,被认为是自然语言处理(natural language processing,NLP)领域的极大突破,刷新了11个NLP任务的当前最优结果。其对生成式预训练的翻译模型(generative pre-training transformer,GPT)做了进一步的改进,通过左、右两侧上下文来预测当前词和通过当前句子预测下一个句子,预训练的BERT表征可以仅用一个额外的输出层进行微调,在不对任务特定架构做出大量修改条件下,就可以为很多任务创建当前最优模型。
超参数是机器学习模型的一种参数,定义模型的学习能力和复杂度,包括模型的学习率、深层神经网络隐藏层数、迭代次数和每层神经元的个数。对机器学习模型的超参数进行优化,提高机器学习模型的学习性能和效果。
遮蔽语言模型(masked language model,MLM)应用于训练BERT模型,通过按照预置比例遮盖模型输入的单词对BERT模型进行训练,以使BERT模型预测被遮盖住的单词。
下一句预测(next sentence prediction)算法应用于训练BERT模型,该算法通过打乱文本句子之间的顺序对BERT模型进行训练,以使BERT模型预测文本句子之间的关系,以使BERT模型在问答和自然语言参与的数据处理任务中确定文本语句之间的关系。
图1为本申请实施例提供的一种案件分类方法的应用场景示意图。
如图1所示,本申请实施例的案件分类方法可以应用于自然语言处理系统。自然语言处理系统配置有服务器100和客户端集群。该客户端集群可以包括多个客户端。如图1所示,客户端集群包括客终端1、客户端2以及客户端3。如图1所示,客户端1、客终端2以及客户端3可以通过通信网络与服务器进行数据通信。在本申请的一个实施例中,服务器100可以配置有机器学习模型,用于执行诸如信息分类的自然语言处理任务。该机器学习模型为预先训练得到的网络,可用于识别待分类案件的案件信息所属的案件类型。在一些实施例中,用户可通过客户端(例如手机)输入源语言数据(例如待分类案件的案件信息),通过通信网络将输入的源语言数据传输到服务器100;服务器100利用机器学习模型对输入源语言数据执行诸如信息分类的自然语言处理,将作为自然语言处理结果的分类结果通过通信网络返回给客户端,并且客户端的用户界面上给用户提供源语言数据和检索结果的可视化呈现。举例来说,用户使用客户端对案件进行分类,该客户端将该用户输入的案件信息发送给服务器,该服务器识别该案件信息所属的案件类型并发送给该客户端,该客户端呈现该案件的案件类型。
可替代地,在本申请的另一个实施例中,客户端本身可以配置有机器学习模型,用于执行诸如信息分类的自然语言处理任务。用户可经由客户端的用户界面输入源语言数据,客户端利用机器学习模型对输入源语言数据执行诸如信息分类的自然语言处理,再将作为自然语言处理结果的分类结果经由用客户端的用户界面进行可视化呈现。
需要理解的是,服务器100包括但不限于配置有大数据处理能力和大容量数据存储能力的服务器装置,诸如搜索引擎服务器、内容提供服务器等。客户端包括但不限于笔记本计算机、台式计算机、智能电话、平板电脑等具有数据处理能力的移动终端或者固定终端。通信网络包括但不限于遵循诸如传输控制协议和互联网协议、用户数据报协议、超文本传输协议和/或文件传输协议配置的互联网、交互式电视网络、无线保真网络、无线局域网、局域网和/或城域网等。
图2为本申请实施例提供的一种案件分类方法流程图,该方法可包括:
201、案件分类装置获取待分类案件的案情信息。
案件分类装置获取待分类案件的案情信息。待分类案件的案情信息包括待分类案件的案件特征,案件特征用于区分待分类案件的类型。待分类案件可以是已由公安机关和/或人民检察院立案的刑事案件、民事案件、行政案件或经济案件。案件分类装置获取待分类案件的案情信息,以使案件分类装置识别待分类案件的案情信息,得到待分类案件的案件类型。
202、案件分类装置通过分类模型,识别待分类案件的案情信息所属的案件类型。
案件分类装置通过分类模型,识别待分类案件的案情信息所属的案件类型。其中,该分类模型是通过语料训练集和案件训练集训练得到的模型,该语料训练集用于构建该分类模型中与案件相关的词向量,该案件训练集用于构建该分类模型中案情信息与案件类型之间的映射关系,该语料训练集和该案件训练集都包括替换词,该替换词用于替换该语料训练集和该案件训练集中的原有词,该替换词还用于训练该分类模型识别该原有词。通过采用语料训练集和案件训练集训练得到的分类模型可以准确地识别待分类案件的案件信息所属的案件类型,在训练过程中,语料训练集和案件训练集包括的替换词,进一步提高分类模型识别的准确性。
可选的,该分类模型可以是BERT模型。该分类模型也可以是微调BERT模型得到的机器学习模型,例如在BERT模型的基础上增加全连接层。利用BERT模型对案情信息进行分类,可以更准确的识别待分类案件的案件类型。
在一个可选的实现方式中,替换词包括原有词的同义词、与原有词含义不同的词和无含义的字符中的至少一个。原有词的同义词有利于提高分类模型识别出原有词的概率,例如“检索”的同义词:“搜索”或“查找”。无含义的字符用于训练分类模型结合原有词的语句和上下文识别出原有词,例如统一使用替换词“NULL”替换语料训练集和案件训练集中的原有词。与原有词含义不同的词用于训练分类模型在存在词义干扰的情况下识别出原有词,例如用“不同”替换原有词“相同”。
在该实现方式中,用于训练分类模型的语料训练集和案件训练集包括替换词,替换词在训练过程中提高分类模型的识别能力,有利于分类模型准确识别待分类案件的案件信息,提高分类模型分类待分类模型的准确性。
在一个可选的实现方式中,语料训练集包括N个语料库,N为正整数。语料库用于训练分类模型识别词汇,例如通过一个中文语料库训练分类模型识别中文词汇。举例说明,语料训练库可以是腾讯语料库,可以是腾讯语料库和百度语料库,也可以是谷歌中文语料库、腾讯语料库和百度语料库,还可以是其他语料库或者语料库集合。在一些实施例中,分类模型分别通过语料训练集中的每个语料库进行训练。语料训练库用于构建分类模型中与案件相关的词向量,分类模型通过语料训练模型进行训练,有利于分类模型识别案情信息中的文本。
在一个可选的实现方式中,案件训练集通过切分历史案件数据得到,历史案件数据包括至少三个历史案件的案情信息和案件类型。分类模型的案件训练集、验证集和测试集均通过切分历史案件数据得到。在历史案件数据、案件训练集、验证集和测试集中,每个案件的案情信息与至少一个案件类型对应。案件训练集中的案情信息和案件类型用于训练分类模型构建案情信息和案件类型的映射关系。在一些实施方式中,案件训练集包括的历史案件数据量大于或等于训练集或测试集包括的历史案件数据量。需要说明的是,案件训练集中历史案件数据量越大,越有利于构建分类模型中案情信息与案件类型之间的映射关系。
本申请实施例中,通过采用语料训练集和案件训练集训练得到的分类模型可以准确地识别待分类案件的案件信息所属的案件类型,在训练过程中,语料训练集和案件训练集包括的替换词,进一步提高分类模型识别的准确性。
图3为本申请实施例提供的另一种案件分类方法流程图,该方法可包括:
301、案件分类装置获取待分类案件的案情信息。
案件分类装置获取待分类案件的案情信息。待分类案件的案情信息包括待分类案件的案件特征,案件特征用于区分待分类案件的类型。待分类案件可以是已由公安机关和/或人民检察院立案的刑事案件、民事案件、行政案件或经济案件。案件分类装置获取待分类案件的案情信息,以使案件分类装置识别待分类案件的案情信息,得到待分类案件的案件类型。
在一个可选的实现方式中,案件分类装置为服务器,该服务器配置有分类模型案件分类装置获取客户端发送的分类请求,该分类请求包括待分类案件的案情信息。在一些实施例中,案件分类装置从配置的数据库中获取待分类案件的案情信息。
在一个可选的实现方式中,案件分类装置为客户端,该客户端配置有分类模型,客户端检测用户的分类请求,该分类请求包括待分类案件的案情信息。
302、案件分类装置从待分类案件的案件信息中提取待分类案件的案件特征,并将待分类案件的案件特征作为分类模型的输入数据。
案件分类装置从待分类案件的案件信息中提取待分类案件的案件特征,并将待分类案件的案件特征作为分类模型的输入数据。案件信息包括有效信息和无效信息,案件特征为案件信息中的有效信息,有效信息用于区分待分类案件的案件类型,无效信息为对案件分类无用的案件信息。举例说明,在分类模型识别电信诈骗案件的过程中,电信诈骗案件的案件信息中报案时刻为无效信息,电信诈骗手段信息为有效信息。在该实现方式中,通过预先提取待分类案件的案件信息中的案件特征,减少分类模型的工作量,和无效的案件信息对分类模型的干扰,有利于提高分类模型的分类准确性。
在一个可选的实现方式中,案件分类装置从待分类案件的案件信息中提取待分类案件的案件特征,具体为:案件分类装置对待分类案件的案情信息进行格式化;案件分类装置在对待分类案件的案情信息进行格式化之后,从待分类案件的案情信息中切分出待分类案件的案件特征。
其中,案件分类装置对待分类模型的案情信息进行格式化,将案情信息的格式转换为分类模型可以识别的数据类型和文本格式,例如在分类模型识别的数据类型为美国信息交换标准代码(American standard code for information interchange,ASCII)字符,且案情信息的格式不是ASCII字符的情况下,案件分类装置将待分类案件的案情信息的格式转换为ASCII字符。在一些实施例中,分类模型在对待分类案件的案情信息进行格式化包括去除案情信息中无意义的字符,无意义的字符包括回车、换行和分隔符。在该实现方式中,通过对待分类案件的案情信息进行格式化,有利于分类模型识别案情信息。
在一个可选的实现方式中,案件分类装置从待分类案件的案情信息中切分出待分类案件的案件特征,具体为:案件分类装置根据预置切分词从案情信息中切分出待分类案件的案情特征。在一些实施例中,案件分类装置切分语句中预置切分词右端的词汇作为案件特征,例如在语句中将预置切分词“报案称”右端的案件信息作为案件特征。在一些实施例中,案件分类装置切分语句中预置切分词右端预置位数后的字符作为案件特征,预置位数由预置关键词确定,可以是2位、5位、10位,或其他位数,此处不作限定,例如由于18位身份证号码为无效信息,案件分类装置切分语句中预置切分词“身份证号码:”右端18位后的字符,作为案件特征。在该实现方式中,从案情信息中切分出案件特征,有利于减少无效的案情信息对分类模型的干扰,提高分类准确性。
303、案件分类装置通过分类模型,识别待分类案件的案情信息所属的案件类型。
案件分类装置通过分类模型,识别待分类案件的案情信息所属的案件类型。其中,该分类模型是通过语料训练集和案件训练集训练得到的模型,该语料训练集用于构建该分类模型中与案件相关的词向量,该案件训练集用于构建该分类模型中案情信息与案件类型之间的映射关系,该语料训练集和该案件训练集都包括替换词,该替换词用于替换该语料训练集和该案件训练集中的原有词,该替换词还用于训练该分类模型识别该原有词。通过采用语料训练集和案件训练集训练得到的分类模型可以准确地识别待分类案件的案件信息所属的案件类型,在训练过程中,语料训练集和案件训练集包括的替换词,进一步提高分类模型识别的准确性。
在一个可选的实现方式中,案件训练集通过切分历史案件数据得到,历史案件数据包括至少三个历史案件的案情信息和案件类型。分类模型的案件训练集、验证集和测试集均通过切分历史案件数据得到。在历史案件数据、案件训练集、验证集和测试集中,每个案件的案情信息与至少一个案件类型对应。案件训练集中的案情信息和案件类型用于训练分类模型构建案情信息和案件类型的映射关系。在一些实施方式中,案件训练集包括的历史案件数据量大于或等于训练集或测试集包括的历史案件数据量。需要说明的是,案件训练集中历史案件数据量越大,越有利于构建分类模型中案情信息与案件类型之间的映射关系。
在一个可选的实现方式中,该分类模型的超参数通过验证集进行更新,验证集通过切分历史案件数据得到,该验证集与案件训练集不相交。分类模型的超参数包括分类模型的学习率和迭代次数。分类模型在通过验证集进行验证得到的验证数据,调整分类模型设置的超参数,以优化分类模型的性能。在该实现方式中,分类模型的超参数通过切分历史案件数据得到的验证集进行更新,提高分类模型的分类性能,进而提高分类模型分类待分类案件的准确性。
在一个可选的实现方式中,该分类模型通过测试集进行测试,该测试集、验证集和案件训练集互不相交。该分类模型通过测试集进行测试,将测试得到的案件类型与实际案件类型进行对比,通过分类正确的案件数量计算分类的准确率,并将分类的准确率作为评测分类模型性能的标准之一。在该实现方式中,分类模型通过历史案件数据切分出的测试集进行测试,评测分类模型的性能,进而可根据评测出的性能优化分类模型的性能,有利于提高分类模型分类待分类案件的性能。
304、案件分类装置返回识别结果。
案件分类装置返回识别结果,该识别结果至少用于指示是否成功识别待分类案件的案件类型。该识别结果包括M个分类标识,该M个分类标识用于指示待分类案件的案件类型。
在一个可选的实现方式中,案件分类装置返回识别结果,具体为:案件分类装置确定待分类案件的分类层次和识别得到的案件类型,该待分类案件的分类层次由用户的分类需求确定,在案件分类装置确定待分类案件的分类层次和案件类型之后,输出L个分类标识,L由分类层次确定。
举例说明,在电信诈骗案件中,分类层次的层次数为2,分类层次包括第一层和第二层,第一层包括电信诈骗案件、非电信诈骗案件和类型无法识别案件,第二层为电信诈骗案件的十九个类别。在案件分类装置确定分类层次的层次数为2,且待分类案件的案件类型为电信诈骗案件中的游戏装备诈骗案件之后,案件分类装置返回的识别结果包括2个分类标识,一个分类标识用于指示该待分类案件的案件类型为电信诈骗案件,另一个分类标识用于指示该待分类案件的案件类型为电信诈骗案件中的游戏装备诈骗案件。
在该实现方式中,案件分类装置通过返回识别结果,指示待分类案件不同层次的案件类型,有利于更准确对待分类案件进行分类。
本申请实施例中,通过采用语料训练集和案件训练集训练得到的分类模型可以准确地识别待分类案件的案件信息所属的案件类型,在训练过程中,语料训练集和案件训练集包括的替换词,进一步提高分类模型识别的准确性。
图4A为本发明实施例提供的一种刑事案件分类方法流程图,图4A为在案件为刑事案件的情况下,案件分类装置对刑事案件的分类方法流程图。在本实施例中,刑事案件以是否为电信诈骗案件为依据进行分类,又进一步对电信诈骗案件进行细分。图4B为刑事案件的类型层次示意图。该方法可包括:
401、案件分类装置获取刑事案件中待分类案件的案件信息。
402、案件分类装置通过分类模型,识别待分类案件的案件信息所属的刑事案件类型。
案件分类装置通过分类模型,识别待分类案件的案件信息所属的刑事案件类型。分类模型通过刑事语料训练库和刑事案件训练库训练得到,刑事语料训练训练集用于构建分类模型中与刑事案件相关的词向量,例如“电信诈骗”、“网贷”等,刑事案件训练库用于构建分类模型中刑事案件的案情信息与案件类型之间的映射关系,例如构建刑事案件信息“网购”与案件类型“网络购物诈骗”之间的映射关系。
其中,刑事语料训练集和刑事案件训练集都包括替换词,替换词用于替换刑事语料训练集和刑事案件训练集中的原有词,并训练分类模型识别刑事语料训练集和刑事案件训练集中的原有词。
403、案件分类装置返回待分类案件的识别结果,该识别结果用于指示待分类案件的刑事案件类型。
案件分类装置返回待分类案件的识别结果,该识别结果用于指示待分类案件的刑事案件类型。该识别结果包括2个分类标识。每个分类标识属于一个分类层次。如图4B所示,刑事案件的分类层次为两层,第一层包括电信诈骗案件、非电信诈骗案件和类型无法识别案件,第二层为电信诈骗案件中的十九类别:QQ微信诈骗,电话冒充领导、熟人诈骗,机票退、改签诈骗,冒充购物客服退款诈骗,重金求子(慈善捐款)诈骗,冒充黑社会诈骗,PS图片诈骗,冒充公检法,代办信用卡、贷款类诈骗,冒充军警购物诈骗,网络交友诱导赌博、投资诈骗,游戏币、游戏点卡诈骗,游戏装备诈骗,虚假购物消费诈骗,补助、退税类诈骗,理财类诈骗,其他类型诈骗。其中,PS图片诈骗中的PS可以是photoshop图片处理软件。PS图片诈骗可以是指通过photoshop修改的图片进行诈骗,也可以是指通过其他图片处理软件修改的图片进行诈骗。因为刑事案件的分类层次为两层,案件分类装置输出包括两个分类标识的识别结果。可选的,当刑事案件不是电信诈骗案件时,分类结果包括的一个分类标识用于指示该待分类案件在该分类层次未划分案件类型,例如将非电信诈骗案件的第二层分类标识设置为0。
本发明实施例提供一种分类模型训练方法,该方法可包括:分类模型训练装置通过语料训练集和案件训练集对分类模型进行训练,其中,该语料训练集用于构建该分类模型中与案件相关的词向量,该案件训练集用于构建该分类模型中案情信息与案件类型之间的映射关系;该语料训练集和该案件训练集都包括替换词,该替换词用于替换该语料训练集和该案件训练集中的原有词,该替换词还用于训练该分类模型识别该原有词。
图5为本发明实施例提供的一种分类模型训练方法流程图,如图5所示的方法为分类模型训练方法的一种具体的实施方式。该方法可包括:
501、分类模型训练装置切分历史案件数据,得到案件训练集、验证集和测试集。
分类模型训练装置切分历史案件数据,得到案件训练集、验证集和测试集。案件训练集、验证集和测试集分别用于对分类模型进行训练、超参数调整和测试。可选的,案件训练集、验证集和测试集互不相交,在该实现方式中,分类模型训练装置对分类模型进行训练、超参数调整和测试,三个过程互不干扰,有利于提高分类模型的性能。
在一个可选的实现方式中,案件训练集为第一比例的历史案件数据,验证集为第二比例的历史案件数据,测试集为第三比例的历史案件数据,且第一比例、第二比例和第三比例的和为1。在一些实施例中,第一比例大于第二比例和第三比例,例如第一比例为百分之八十,第二比例如百分之十,第三比例为百分之十。在该实现方式中,分类模型训练装置充分利用历史案件数据对分类模型进行训练,有利于提高分类模型的性能。
502、分类模型训练装置通过语料训练集和案件训练集对分类模型进行训练。
分类模型训练装置通过语料训练集和案件训练集对分类模型进行训练。其中,分类模型训练装置通过该语料训练集构建该分类模型中与案件相关的词向量,分类模型训练装置通过该案件训练集构建该分类模型中案情信息与案件类型之间的映射关系,该语料训练集和该案件训练集都包括替换词,分类模型训练装置用替换词替换该语料训练集和该案件训练集中的原有词,并通过替换词训练该分类模型识别该原有词。在该实现方式中,通过语料训练集和案件训练集对分类模型进行训练,使分类模型识别待分类案件的案件信息所属的案件类型,其中,语料训练集和案件训练集包括替换词,通过包括替换词的语料训练集和案件训练集对分类模型进行训练,在训练过程中提高分类模型的识别能力,进而提高分类模型的识别准确性。
可选的,该分类模型可以是BERT模型。该分类模型也可以是微调BERT模型得到的机器学习模型,例如在BERT模型的基础上增加全连接层。利用BERT模型对案情信息进行分类,可以更准确的识别待分类案件的案件类型。
在一个可选的实现方式中,分类模型训练装置通过MLM模型来实现通过替换词训练分类模型识别原有词。替换词包括原有词的同义词、与原有词含义不同的词和无含义的字符中的至少一个。原有词的同义词有利于提高分类模型识别出原有词的概率,例如“检索”的同义词:“搜索”或“查找”。无含义的字符用于训练分类模型结合原有词的语句和上下文识别出原有词,例如统一使用替换词“A0”替换语料训练集和案件训练集中的原有词。与原有词含义不同的词用于训练分类模型在存在词义干扰的情况下识别出原有词,例如用“不同”替换原有词“相同”。
在一个可选的实现方式中,语料训练集包括N个语料库,N为正整数。语料库用于训练分类模型识别词汇,例如通过一个中文语料库训练分类模型识别中文词汇。举例说明,语料训练库可以是腾讯语料库,可以是腾讯语料库和百度语料库,也可以是谷歌中文语料库、腾讯语料库和百度语料库,还可以是其他语料库或者语料库集合。在一些实施例中,分类模型训练装置分别通过语料训练集中的每个语料库训练分类模型。语料训练库用于构建分类模型中与案件相关的词向量,分类模型通过语料训练模型进行训练,有利于分类模型识别案情信息中的文本。
在一个可选的实现方式中,在分类模型训练装置通过案件训练集对分类模型进行训练的过程中,分类模型训练装置可以在对案件训练集进行数据清洗,格式化,和/或提取特征之后,通过案件训练集构建分类模型中案件信息与案件类型之间的映射关系。在一些实施例中,分类模型训练装置通过根据预置关键词切分案件信息来提取特征,预置关键词用于确定案件的特征在文本中的位置,举例说明,分类模型训练装置切分语句中预置切分词右端的词汇作为案件特征,例如在语句中将预置切分词“报案称”右端的案件信息作为案件特征,或者分类模型训练装置切分语句中预置切分词右端预置位数后的字符作为案件特征,预置位数由预置关键词确定,可以是2位、5位、10位,或其他位数,此处不作限定,例如由于18位身份证号码为无效信息,案件分类装置切分语句中预置切分词“身份证号码:”右端18位后的字符,作为案件特征。在另一项实施例中,分类模型训练装置通过BERT模型来提取特征。
在一个可选的实现方式中,分类模型训练装置通过next sentence prediction算法训练分类模型确定句子之间的连接关系。在一些实施例中,分类模型训练装置改变句子正确连接的比例,来训练分类模型确定句子之间的联系方式,举例说明,句子A为语料训练集或案件训练集中任一句子,句子A的具有正确连接关系的下一句为句子B,在对分类模型训练过程中,句子A的下一句为句子B的比例为百分之二十。在该实现方式中,分类模型训练装置训练分类模型结合案件信息中的语句关系识别案件类型,提高案件分类的准确性。
503、分类模型训练装置通过验证集更新分类模型的超参数。
分类模型训练装置通过验证集更新分类模型的超参数。验证集通过切分历史案件数据得到,该验证集与案件训练集不相交。分类模型的超参数包括分类模型的学习率和迭代次数。分类模型在通过验证集进行验证得到的验证数据,调整分类模型设置的超参数,以优化分类模型的性能。在该实现方式中,分类模型的超参数通过切分历史案件数据得到的验证集进行更新,提高分类模型的分类性能,进而提高分类模型分类待分类案件的准确性。
504、分类模型训练装置通过测试集对分类模型进行测试。
分类模型训练装置通过测试集对分类模型进行测试。该分类模型通过测试集进行测试,分类模型训练装置将测试得到的案件类型与实际案件类型进行对比,通过分类正确的案件数量计算分类的准确率,并将分类的准确率作为评测分类模型性能的标准之一。在该实现方式中,分类模型通过历史案件数据切分出的测试集进行测试,评测分类模型的性能,进而可根据评测出的性能优化分类模型的性能,有利于提高分类模型分类待分类案件的性能。
本申请实施例中,通过语料训练集和案件训练集对分类模型进行训练,使分类模型识别待分类案件的案件信息所属的案件类型,其中,语料训练集和案件训练集包括替换词,通过包括替换词的语料训练集和案件训练集对分类模型进行训练,在训练过程中提高分类模型的识别能力,进而提高分类模型的识别准确性。
图6为本申请实施例提供的一种案件分类装置,如图6所示,该装置可包括:
获取模块601,用于获取待分类案件的案情信息;
识别模块602,用于通过分类模型,识别上述待分类案件的案情信息所属的案件类型,上述分类模型是通过语料训练集和案件训练集训练得到的模型,上述语料训练集用于构建上述分类模型中与案件相关的词向量,上述案件训练集用于构建上述分类模型中案情信息与案件类型之间的映射关系;上述语料训练集和上述案件训练集都包括替换词,上述替换词用于替换上述语料训练集和上述案件训练集中的原有词,上述替换词还用于训练上述分类模型识别上述原有词。
在一个可选的实现方式中,上述替换词包括上述原有词的同义词、与上述原有词含义不同的词和无含义的字符中的至少一个;上述语料训练集包括N个语料库,上述N为正整数;上述案件训练集通过切分历史案件数据得到,上述历史案件数据包括至少三个历史案件的案情信息和案件类型。
在一个可选的实现方式中,上述分类模型的超参数通过验证集进行更新,上述验证集通过切分上述历史案件数据得到,上述验证集与上述案件训练集不相交。
在一个可选的实现方式中,上述分类模型通过测试集进行测试,上述测试集通过切分上述历史案件数据得到,上述测试集、上述验证集和上述案件训练集互不相交。
在一个可选的实现方式中,上述案件分类装置还包括:提取模块603,用于从上述待分类案件的案件信息中提取上述待分类案件的案件特征,并将上述待分类案件的案件特征作为上述分类模型的输入数据。
在一个可选的实现方式中,上述提取模块603,具体用于对上述待分类案件的案情信息进行格式化;在对上述待分类案件的案情信息进行格式化之后,从上述待分类案件的案情信息中切分出上述待分类案件的案件特征。
图7为本申请实施例提供的一种分类模型训练装置,如图7所示,该装置可包括:
训练模块701,用于通过语料训练集和案件训练集对分类模型进行训练,其中,上述语料训练集用于构建上述分类模型中与案件相关的词向量,上述案件训练集用于构建上述分类模型中案情信息与案件类型之间的映射关系;上述语料训练集和上述案件训练集都包括替换词,上述替换词用于替换上述语料训练集和上述案件训练集中的原有词,上述替换词还用于训练上述分类模型识别上述原有词。
在一个可选的实现方式中,上述替换词包括上述原有词的同义词、与上述原有词含义不同的词和无含义的字符中的至少一个;上述语料训练集包括N个语料库,上述N为正整数;上述案件训练集通过切分历史案件数据得到,上述历史案件数据包括至少三个历史案件的案情信息和案件类型。
在一个可选的实现方式中,上述分类模型训练装置还包括:更新模块702,用于通过验证集更新上述分类模型的超参数,上述验证集通过切分上述历史案件数据得到,上述验证集与上述案件训练集不相交。
在一个可选的实现方式中,上述分类模型训练装置还包括:测试模块703,用于通过测试集对上述分类模型进行测试,上述测试集通过切分上述历史案件数据得到,上述测试集、上述验证集和上述案件训练集互不相交。
应理解以上候案件分类装置以及分类模型训练装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。例如,以上各个模块可以为单独设立的处理元件,也可以集成同一个芯片中实现,此外,也可以以程序代码的形式存储于控制器的存储元件中,由处理器的某一个处理元件调用并执行以上各个模块的功能。此外各个模块可以集成在一起,也可以独立实现。这里的处理元件可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。该处理元件可以是通用处理器,例如中央处理器(英文:central processing unit,简称:CPU),还可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(英文:application-specific integrated circuit,简称:ASIC),或,一个或多个微处理器(英文:digital signal processor,简称:DSP),或,一个或者多个现场可编程门阵列(英文:field-programmable gate array,简称:FPGA)等。
图8是本申请实施例提供的一种电子设备结构示意图,该电子设备800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)822(例如,一个或一个以上处理器)和存储器832,一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器822可以设置为与存储介质830通信,在电子设备800上执行存储介质830中的一系列指令操作。电子设备800可以为本申请提供的图像处理装置。
电子设备800还可以包括一个或一个以上电源826,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口858,和/或,一个或一个以上操作系统841,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由案件分类装置以及分类模型训练装置所执行的步骤可以基于该图8所示的电子设备结构。
在本申请的实施例中提供一种计算机可读存储介质,上述计算机存储介质存储有一条或多条指令,上述一条或多条指令被处理器执行时实现:获取待分类案件的案情信息;通过分类模型,识别上述待分类案件的案情信息所属的案件类型,上述分类模型是通过语料训练集和案件训练集训练得到的模型,上述语料训练集用于构建上述分类模型中与案件相关的词向量,上述案件训练集用于构建上述分类模型中案情信息与案件类型之间的映射关系;上述语料训练集和上述案件训练集都包括替换词,上述替换词用于替换上述语料训练集和上述案件训练集中的原有词,上述替换词还用于训练上述分类模型识别上述原有词。
在本申请的实施例中提供另一种计算机可读存储介质,述计算机存储介质存储有一条或多条指令,上述一条或多条指令被处理器执行时实现:通过语料训练集和案件训练集对分类模型进行训练,其中,上述语料训练集用于构建上述分类模型中与案件相关的词向量,上述案件训练集用于构建上述分类模型中案情信息与案件类型之间的映射关系;上述语料训练集和上述案件训练集都包括替换词,上述替换词用于替换上述语料训练集和上述案件训练集中的原有词,上述替换词还用于训练上述分类模型识别上述原有词。
在本申请的实施例中提供一种计算机程序产品,上述计算机程序产品包括程序指令,上述程序指令被处理器执行时实现:获取待分类案件的案情信息;通过分类模型,识别上述待分类案件的案情信息所属的案件类型,上述分类模型是通过语料训练集和案件训练集训练得到的模型,上述语料训练集用于构建上述分类模型中与案件相关的词向量,上述案件训练集用于构建上述分类模型中案情信息与案件类型之间的映射关系;上述语料训练集和上述案件训练集都包括替换词,上述替换词用于替换上述语料训练集和上述案件训练集中的原有词,上述替换词还用于训练上述分类模型识别上述原有词。
在本申请的实施例中提供另一种计算机程序产品,上述计算机程序产品包括程序指令,上述程序指令被处理器执行时实现:通过语料训练集和案件训练集对分类模型进行训练,其中,上述语料训练集用于构建上述分类模型中与案件相关的词向量,上述案件训练集用于构建上述分类模型中案情信息与案件类型之间的映射关系;上述语料训练集和上述案件训练集都包括替换词,上述替换词用于替换上述语料训练集和上述案件训练集中的原有词,上述替换词还用于训练上述分类模型识别上述原有词。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种案件分类方法,其特征在于,包括:
获取待分类案件的案情信息;
通过分类模型,识别所述待分类案件的案情信息所属的案件类型,所述分类模型是通过语料训练集和案件训练集训练得到的模型,所述语料训练集用于构建所述分类模型中与案件相关的词向量,所述案件训练集用于构建所述分类模型中案情信息与案件类型之间的映射关系;所述语料训练集和所述案件训练集都包括替换词,所述替换词用于替换所述语料训练集和所述案件训练集中的原有词,所述替换词还用于训练所述分类模型识别所述原有词,所述替换词包括原有词的同义词、与原有词含义不同的词和无含义的字符中的至少一个,所述原有词的同义词用于提高分类模型识别出原有词的概率,所述无含义的字符用于训练分类模型结合原有词的语句和上下文识别出原有词,所述与原有词含义不同的词用于训练分类模型在存在词义干扰的情况下识别出原有词。
2.根据权利要求1所述的方法,其特征在于,
所述语料训练集包括N个语料库,所述N为正整数;
所述案件训练集通过切分历史案件数据得到,所述历史案件数据包括至少三个历史案件的案情信息和案件类型。
3.根据权利要求2所述的方法,其特征在于,所述分类模型的超参数通过验证集进行更新,所述验证集通过切分所述历史案件数据得到,所述验证集与所述案件训练集不相交。
4.根据权利要求3所述的方法,其特征在于,所述分类模型通过测试集进行测试,所述测试集通过切分所述历史案件数据得到,所述测试集、所述验证集和所述案件训练集互不相交。
5.根据权利要求1所述的方法,其特征在于,在所述获取待分类案件的案情信息之后,在所述通过分类模型,识别所述待分类案件的案情信息所属的案件类型之前,所述方法还包括:
从所述待分类案件的案件信息中提取所述待分类案件的案件特征,并将所述待分类案件的案件特征作为所述分类模型的输入数据。
6.根据权利要求5所述的方法,其特征在于,所述从所述待分类案件的案件信息中提取所述待分类案件的案件特征,包括:
对所述待分类案件的案情信息进行格式化;
在对所述待分类案件的案情信息进行格式化之后,从所述待分类案件的案情信息中切分出所述待分类案件的案件特征。
7.一种分类模型训练方法,其特征在于,包括:
通过语料训练集和案件训练集对分类模型进行训练,所述语料训练集用于构建所述分类模型中与案件相关的词向量,所述案件训练集用于构建所述分类模型中案情信息与案件类型之间的映射关系;所述语料训练集和所述案件训练集都包括替换词,所述替换词用于替换所述语料训练集和所述案件训练集中的原有词,所述替换词还用于训练所述分类模型识别所述原有词,所述替换词包括原有词的同义词、与原有词含义不同的词和无含义的字符中的至少一个,所述原有词的同义词用于提高分类模型识别出原有词的概率,所述无含义的字符用于训练分类模型结合原有词的语句和上下文识别出原有词,所述与原有词含义不同的词用于训练分类模型在存在词义干扰的情况下识别出原有词。
8.一种案件分类装置,其特征在于,包括:
获取模块,用于获取待分类案件的案情信息;
识别模块,用于通过分类模型,识别所述待分类案件的案情信息所属的案件类型,所述分类模型是通过语料训练集和案件训练集训练得到的模型,所述语料训练集用于构建所述分类模型中与案件相关的词向量,所述案件训练集用于构建所述分类模型中案情信息与案件类型之间的映射关系;所述语料训练集和所述案件训练集都包括替换词,所述替换词用于替换所述语料训练集和所述案件训练集中的原有词,所述替换词还用于训练所述分类模型识别所述原有词,所述替换词包括原有词的同义词、与原有词含义不同的词和无含义的字符中的至少一个,所述原有词的同义词用于提高分类模型识别出原有词的概率,所述无含义的字符用于训练分类模型结合原有词的语句和上下文识别出原有词,所述与原有词含义不同的词用于训练分类模型在存在词义干扰的情况下识别出原有词。
9.一种电子设备,包括接收器和发送器,其特征在于,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1至7任一项所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如权利要求1至7任一项所述的方法。
CN201911099132.3A 2019-11-11 2019-11-11 案件分类方法、分类模型训练方法及相关产品 Active CN111177367B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911099132.3A CN111177367B (zh) 2019-11-11 2019-11-11 案件分类方法、分类模型训练方法及相关产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911099132.3A CN111177367B (zh) 2019-11-11 2019-11-11 案件分类方法、分类模型训练方法及相关产品

Publications (2)

Publication Number Publication Date
CN111177367A CN111177367A (zh) 2020-05-19
CN111177367B true CN111177367B (zh) 2023-06-23

Family

ID=70655373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911099132.3A Active CN111177367B (zh) 2019-11-11 2019-11-11 案件分类方法、分类模型训练方法及相关产品

Country Status (1)

Country Link
CN (1) CN111177367B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708885A (zh) * 2020-06-09 2020-09-25 西安交通大学 一种案件智能分流方法及装置
CN112070112B (zh) * 2020-07-28 2021-11-16 浙江警察学院 涉网犯罪分类方法、装置、计算机设备及存储介质
CN112950095A (zh) * 2021-04-23 2021-06-11 平安消费金融有限公司 贷款案件分案管理方法、系统、设备及存储介质
CN114547315A (zh) * 2022-04-25 2022-05-27 湖南工商大学 一种案件分类预测方法、装置、计算机设备及存储介质
CN115935245B (zh) * 2023-03-10 2023-05-26 吉奥时空信息技术股份有限公司 一种政务热线案件自动分类分拨方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291914A (zh) * 2017-06-27 2017-10-24 达而观信息科技(上海)有限公司 一种生成搜索引擎查询扩展词的方法及系统
CN109918674A (zh) * 2019-03-14 2019-06-21 武汉烽火普天信息技术有限公司 一种基于案件要素相似性建模的案件串并方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150095017A1 (en) * 2013-09-27 2015-04-02 Google Inc. System and method for learning word embeddings using neural language models
CN107122451B (zh) * 2017-04-26 2020-01-21 北京科技大学 一种法律文书案由分类器的自动构建方法
CN107657284A (zh) * 2017-10-11 2018-02-02 宁波爱信诺航天信息有限公司 一种基于语义相似性扩展的商品名称分类方法及系统
CN108021679A (zh) * 2017-12-07 2018-05-11 国网山东省电力公司电力科学研究院 一种并行化的电力设备缺陷文本分类方法
CN109871452B (zh) * 2019-01-31 2021-04-02 深度好奇(北京)科技有限公司 确定犯罪特征的方法、装置以及存储介质
CN110135457B (zh) * 2019-04-11 2021-04-06 中国科学院计算技术研究所 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN110162627B (zh) * 2019-04-28 2022-04-15 平安科技(深圳)有限公司 数据增量方法、装置、计算机设备及存储介质
CN110196901B (zh) * 2019-06-28 2022-02-11 北京百度网讯科技有限公司 对话系统的构建方法、装置、计算机设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291914A (zh) * 2017-06-27 2017-10-24 达而观信息科技(上海)有限公司 一种生成搜索引擎查询扩展词的方法及系统
CN109918674A (zh) * 2019-03-14 2019-06-21 武汉烽火普天信息技术有限公司 一种基于案件要素相似性建模的案件串并方法

Also Published As

Publication number Publication date
CN111177367A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN111177367B (zh) 案件分类方法、分类模型训练方法及相关产品
CN111897970B (zh) 基于知识图谱的文本比对方法、装置、设备及存储介质
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
CN110705301A (zh) 实体关系抽取方法及装置、存储介质、电子设备
CN112989035A (zh) 基于文本分类识别用户意图的方法、装置及存储介质
CN111866004B (zh) 安全评估方法、装置、计算机系统和介质
CN112016313B (zh) 口语化要素识别方法及装置、警情分析系统
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN116226785A (zh) 目标对象识别方法、多模态识别模型的训练方法和装置
CN115687980A (zh) 数据表的脱敏分类方法、分类模型训练方法及装置
CN115495744A (zh) 威胁情报分类方法、装置、电子设备及存储介质
CN115168590A (zh) 文本特征提取方法、模型训练方法、装置、设备及介质
CN113392920B (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN114092948A (zh) 一种票据识别方法、装置、设备以及存储介质
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN116610772A (zh) 一种数据处理方法、装置及服务器
CN116578700A (zh) 日志分类方法、日志分类装置、设备及介质
CN113342932B (zh) 目标词向量的确定方法、装置、存储介质和电子装置
CN114579876A (zh) 虚假信息检测方法、装置、设备及介质
CN115130473A (zh) 关键信息抽取方法、模型训练方法、相关装置及电子设备
CN113836297A (zh) 文本情感分析模型的训练方法及装置
CN113657443A (zh) 一种基于soinn网络的在线物联网设备识别方法
CN109408706B (zh) 一种图像过滤方法
CN114490620A (zh) 测试方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant