CN112559748A - 一种笔录数据案由分类方法、终端设备及存储介质 - Google Patents

一种笔录数据案由分类方法、终端设备及存储介质 Download PDF

Info

Publication number
CN112559748A
CN112559748A CN202011499205.0A CN202011499205A CN112559748A CN 112559748 A CN112559748 A CN 112559748A CN 202011499205 A CN202011499205 A CN 202011499205A CN 112559748 A CN112559748 A CN 112559748A
Authority
CN
China
Prior art keywords
data
record data
training set
feature word
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011499205.0A
Other languages
English (en)
Inventor
张云生
蔡鹏辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Fadu Information Technology Co ltd
Original Assignee
Xiamen Fadu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Fadu Information Technology Co ltd filed Critical Xiamen Fadu Information Technology Co ltd
Priority to CN202011499205.0A priority Critical patent/CN112559748A/zh
Publication of CN112559748A publication Critical patent/CN112559748A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种笔录数据案由分类方法、终端设备及存储介质,该方法中包括:S1:采集所有案由类型的笔录数据组成训练集,并对训练集中每个笔录数据的类型进行标注;S2:设置特征词词典,根据特征词词典提取训练集中每个笔录数据的所有特征词,并组成特征词集合;S3:根据训练集计算其对应的概率模型;S4:针对待分类笔录数据,根据特征词词典提取待分类笔录数据的所有特征词并组成特征词集合后,根据特征词集合和训练集对应的概率模型计算待分类笔录数据对应的类别。本发明通过对历史笔录数据中类型的概率进行统计,实现对案由的自动分类。

Description

一种笔录数据案由分类方法、终端设备及存储介质
技术领域
本发明涉及案件笔录领域,尤其涉及一种笔录数据案由分类方法、终端设备及存储介质。
背景技术
笔录是公安机关用于对证人、被害人、嫌疑人等进行记录问话信息的文档,而案由可以简要概述这份笔录的问话类型,案由会自动关联到笔录的案由属性,以便执法人员后续对笔录的自动归类。案由预测在执法人员对被询问人制作笔录时常常会出现忘记填写、无法分类或输入错误案由的情况。
发明内容
为了解决上述问题,本发明提出了一种笔录数据案由分类方法、终端设备及存储介质。
具体方案如下:
一种笔录数据案由分类方法,包括以下步骤:
S1:采集所有案由类型的笔录数据组成训练集,并对训练集中每个笔录数据的类型进行标注;
S2:设置特征词词典,根据特征词词典提取训练集中每个笔录数据的所有特征词,并组成特征词集合;
S3:根据训练集计算其对应的概率模型,概率模型中包括以下概率:P(yj)、P(Xi|yj)、P(Xi),其中,yj表示第j个类型,P(.)表示概率,Xi表示第i个特征词集合,Xi={x1,x2,…,xk},x1,x2,…,xk表示第1,2,…,k个特征词;P(Xi|yj)表示已知yj的情况下Xi的概率;j∈[1,m],m表示训练集中所有笔录数据的类型的总数,i∈[1,n],n表示训练集中所有笔录数据包含的特征词集合的总数;
S4:针对待分类笔录数据,根据特征词词典提取待分类笔录数据的所有特征词并组成特征词集合后,根据特征词集合和训练集对应的概率模型计算待分类笔录数据对应的类别。
进一步的,步骤S1还包括对组成训练集的笔录数据进行过滤,剔除无效的笔录数据。
进一步的,笔录数据的过滤采用以下三种方法种的任一种:
(1)人工手动删除;
(2)根据笔录数据中包含的问题数目进行过滤,过滤掉问题数少于第一阈值或大于第二阈值的笔录数据;
(3)根据笔录的开始时间和结束时间进行过滤,无效的笔录数据的结束时间≤开始时间。
进一步的,步骤S1还包括组成训练集的笔录数据中的敏感词进行替换。
进一步的,通过特征词词典提取笔录数据的特征词之前还包括提取笔录数据中的案情描述数据,通过特征词词典提取案情描述数据中包含的所有特征词。
进一步的,案情描述数据的提取方法为通过正则表达式和语句相似性的方法进行提取。
进一步的,类别的计算公式为:
Y=argmax(P(yj|X)),j∈[1,m]
其中,X表示待分类笔录数据的特征词集合。
进一步的,步骤S4中还包括对待分类笔录数据中模板语句去除。
一种笔录数据案由分类终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。
本发明采用如上技术方案,通过对历史笔录数据中类型的概率进行统计,实现对案由的自动分类。
附图说明
图1所示为本发明实施例一的流程图。
图2所示为该实施例中正则表达式模板示例图。
图3所示为该实施例中模板语句示例图。
具体实施方式
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。
现结合附图和具体实施方式对本发明进一步说明。
实施例一:
本发明实施例提供了一种笔录数据案由分类方法,如图1所示,所述方法包括以下步骤:
S1:采集所有案由类型的笔录数据组成训练集,并对训练集中每个笔录数据的类型进行标注。
由于笔录系统生成的笔录数据,可能会掺杂着一些用户测试系统时录入的笔录数据,在系统正式上线并进行采集的过程中,这些数据并未得到清理,而这部分数据如被采集,则会对后续的处理造成一定的感染,因此,需要首先对这部分无效的笔录数据进行过滤。
该实施例中过滤采用的具体方法从以下几种中任选其一:
(1)人工手动删除;
(2)根据笔录数据中包含的问题数目进行过滤,过滤掉问题数少于8个或大于90个的笔录数据;
需要说明的是,8和90仅为该实施例中设定的优选实时方式,其为根据实验数据得出的范围,在其他的实施例中,本领域技术人员可以将8和90修改为其他值,在此不做限制。
(3)根据笔录的开始时间和结束时间进行过滤,无效的笔录数据的结束时间<=开始时间。
需要说明的是,在其他实施例中也可以采用其他可行的方式进行过滤,在此不做限制。
由于笔录数据的内容中必然会带有人名、地名、手机号等涉及个人隐私的数据,该实施例中将这部分数据设定为敏感词,故需要在生成模板前把这些敏感词进行统一替换,如替换成xx。
S2:设置特征词词典,根据特征词词典提取训练集中每个笔录数据的所有特征词,并组成特征词集合。
通过特征词词典提取笔录数据的特征词之前还包括提取笔录数据中的案情描述数据,通过特征词词典提取案情描述数据中包含的所有特征词。该实施例中案情描述数据的提取方法为通过正则表达式和语句相似性的方法进行提取,采用的正则表达式模板示例如图2所示。语句相似性用于提取出相似但不相同的语句,避免信息的遗漏。
特征词为与案由类型相关的关键词。在特征词的提取过程中,首先对笔录数据进行分词处理,如将“小明昨天在万达广场被一个人偷走了手机”分词为小明、昨天、在、万达广场、被、一、个、人、偷、走了、手机。将分词处理后的各词与特征词词典中的所有词进行一一对比,查找到相同或相近的词后,将查找到的所有特征词组成特征词集合。如上述例子中查找到的特征词为被和偷,则特征词集合为{被,偷}。
S3:根据训练集计算其对应的概率模型,概率模型中包括以下概率:P(yj)、P(Xi|yj)、P(Xi)。
其中,yj表示第j个类型,P(.)表示概率,Xi表示第i个特征词集合,Xi={x1,x2,…,xk},x1,x2,…,xk表示第1,2,…,k个特征词;P(Xi|yj)表示已知yj的情况下Xi的概率;j∈[1,m],m表示训练集中所有笔录数据的类型的总数,i∈[1,n],n表示训练集中所有笔录数据包含的特征词集合的总数。
上述例子中,P(yj)为P(盗窃),其表示训练集的所有笔录数据中类型为盗窃的概率;P(Xi|yj)为P(被,偷|盗窃),其表示训练集的所有类型为盗窃的笔录数据中特征词集合为{被,偷}的概率;P(Xi)为P(被,偷),其表示训练集的所有笔录数据中特征词集合为{被,偷}的概率,如P(被,偷)=P(盗窃)*P(被,偷|盗窃)+P(抢劫)*P(被,偷|抢劫)+P(赌博)*P(被,偷|赌博)...........
S4:针对待分类笔录数据,根据特征词词典提取待分类笔录数据的所有特征词并组成特征词集合后,根据特征词集合和训练集对应的概率模型计算待分类笔录数据对应的类别。
类别的计算公式为:
Y=argmax(P(yj|X)),j∈[1,m]
其中,X表示待分类笔录数据的特征词集合。
另外,由于笔录内容的特殊性,所有笔录内容的前几句和后几句,一般都是相似的,该实施例中将其设定为模板语句,这些模板语句与用于分类的具体内容基本无关。因此在分类之前应将其去除,避免影响分类的准确性。模板语句示例如图3所示。
实施例二:
本发明还提供一种笔录数据案由分类终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。
进一步地,作为一个可执行方案,所述笔录数据案由分类终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述笔录数据案由分类终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,上述笔录数据案由分类终端设备的组成结构仅仅是笔录数据案由分类终端设备的示例,并不构成对笔录数据案由分类终端设备的限定,可以包括比上述更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述笔录数据案由分类终端设备还可以包括输入输出设备、网络接入设备、总线等,本发明实施例对此不做限定。
进一步地,作为一个可执行方案,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述笔录数据案由分类终端设备的控制中心,利用各种接口和线路连接整个笔录数据案由分类终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述笔录数据案由分类终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。
所述笔录数据案由分类终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)以及软件分发介质等。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。

Claims (10)

1.一种笔录数据案由分类方法,其特征在于,包括以下步骤:
S1:采集所有案由类型的笔录数据组成训练集,并对训练集中每个笔录数据的类型进行标注;
S2:设置特征词词典,根据特征词词典提取训练集中每个笔录数据的所有特征词,并组成特征词集合;
S3:根据训练集计算其对应的概率模型,概率模型中包括以下概率:P(yj)、P(Xi|yj)、P(Xi),其中,yj表示第j个类型,P(.)表示概率,Xi表示第i个特征词集合,Xi={x1,x2,…,xk},x1,x2,…,xk表示第1,2,…,k个特征词;P(Xi|yj)表示已知yj的情况下Xi的概率;j∈[1,m],m表示训练集中所有笔录数据的类型的总数,i∈[1,n],n表示训练集中所有笔录数据包含的特征词集合的总数;
S4:针对待分类笔录数据,根据特征词词典提取待分类笔录数据的所有特征词并组成特征词集合后,根据特征词集合和训练集对应的概率模型计算待分类笔录数据对应的类别。
2.根据权利要求1所述的笔录数据案由分类方法,其特征在于:步骤S1还包括对组成训练集的笔录数据进行过滤,剔除无效的笔录数据。
3.根据权利要求2所述的笔录数据案由分类方法,其特征在于:笔录数据的过滤采用以下三种方法种的任一种:
(1)人工手动删除;
(2)根据笔录数据中包含的问题数目进行过滤,过滤掉问题数少于第一阈值或大于第二阈值的笔录数据;
(3)根据笔录的开始时间和结束时间进行过滤,无效的笔录数据的结束时间≤开始时间。
4.根据权利要求1所述的笔录数据案由分类方法,其特征在于:步骤S1还包括组成训练集的笔录数据中的敏感词进行替换。
5.根据权利要求1所述的笔录数据案由分类方法,其特征在于:通过特征词词典提取笔录数据的特征词之前还包括提取笔录数据中的案情描述数据,通过特征词词典提取案情描述数据中包含的所有特征词。
6.根据权利要求5所述的笔录数据案由分类方法,其特征在于:案情描述数据的提取方法为通过正则表达式和语句相似性的方法进行提取。
7.根据权利要求1所述的笔录数据案由分类方法,其特征在于:类别的计算公式为:
Y=argmax(P(yj|X)),j∈[1,m]
其中,X表示待分类笔录数据的特征词集合。
8.根据权利要求1所述的笔录数据案由分类方法,其特征在于:步骤S4中还包括对待分类笔录数据中模板语句去除。
9.一种笔录数据案由分类终端设备,其特征在于:包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~8中任一所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1~8中任一所述方法的步骤。
CN202011499205.0A 2020-12-18 2020-12-18 一种笔录数据案由分类方法、终端设备及存储介质 Pending CN112559748A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011499205.0A CN112559748A (zh) 2020-12-18 2020-12-18 一种笔录数据案由分类方法、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011499205.0A CN112559748A (zh) 2020-12-18 2020-12-18 一种笔录数据案由分类方法、终端设备及存储介质

Publications (1)

Publication Number Publication Date
CN112559748A true CN112559748A (zh) 2021-03-26

Family

ID=75063327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011499205.0A Pending CN112559748A (zh) 2020-12-18 2020-12-18 一种笔录数据案由分类方法、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN112559748A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011145951A (ja) * 2010-01-15 2011-07-28 Nippon Telegr & Teleph Corp <Ntt> コンテンツ自動分類装置、コンテンツ自動分類方法およびコンテンツ自動分類プログラム
CN109165294A (zh) * 2018-08-21 2019-01-08 安徽讯飞智能科技有限公司 一种基于贝叶斯分类的短文本分类方法
CN109299255A (zh) * 2018-09-12 2019-02-01 东莞数汇大数据有限公司 基于朴素贝叶斯的案件文本分类方法、系统和存储介质
CN109800304A (zh) * 2018-12-29 2019-05-24 北京奇安信科技有限公司 案件笔录的处理方法、装置、设备及介质
CN110675288A (zh) * 2019-08-16 2020-01-10 平安科技(深圳)有限公司 智能辅助审判方法、装置、计算机设备及存储介质
CN111159360A (zh) * 2019-12-31 2020-05-15 合肥讯飞数码科技有限公司 获得讯询问话题分类模型、讯询问话题分类的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011145951A (ja) * 2010-01-15 2011-07-28 Nippon Telegr & Teleph Corp <Ntt> コンテンツ自動分類装置、コンテンツ自動分類方法およびコンテンツ自動分類プログラム
CN109165294A (zh) * 2018-08-21 2019-01-08 安徽讯飞智能科技有限公司 一种基于贝叶斯分类的短文本分类方法
CN109299255A (zh) * 2018-09-12 2019-02-01 东莞数汇大数据有限公司 基于朴素贝叶斯的案件文本分类方法、系统和存储介质
CN109800304A (zh) * 2018-12-29 2019-05-24 北京奇安信科技有限公司 案件笔录的处理方法、装置、设备及介质
CN110675288A (zh) * 2019-08-16 2020-01-10 平安科技(深圳)有限公司 智能辅助审判方法、装置、计算机设备及存储介质
CN111159360A (zh) * 2019-12-31 2020-05-15 合肥讯飞数码科技有限公司 获得讯询问话题分类模型、讯询问话题分类的方法和装置

Similar Documents

Publication Publication Date Title
CN110851598B (zh) 文本分类方法、装置、终端设备及存储介质
CN108090068B (zh) 医院数据库中的表的分类方法及装置
WO2020114100A1 (zh) 一种信息处理方法、装置和计算机存储介质
CN109299227B (zh) 基于语音识别的信息查询方法和装置
WO2020134684A1 (zh) 信息检索方法、装置、设备和介质
US11687647B2 (en) Method and electronic device for generating semantic representation of document to determine data security risk
US10049128B1 (en) Outlier detection in databases
CN111831629A (zh) 一种数据处理方法及装置
CN116701303B (zh) 基于深度学习的电子文件分类方法、系统及可读存储介质
CN112364625A (zh) 文本筛选方法、装置、设备及存储介质
CN114358001A (zh) 诊断结果的标准化方法及其相关装置、设备和存储介质
CN111488732A (zh) 一种变形关键词检测方法、系统及相关设备
CN110874570A (zh) 面部识别方法、装置、设备及计算机可读存储介质
TW202123026A (zh) 資料歸檔方法、裝置、電腦裝置及存儲介質
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN112395881B (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
WO2019085118A1 (zh) 基于主题模型的关联词分析方法、电子装置及存储介质
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN115544214B (zh) 一种事件处理方法、设备及计算机可读存储介质
CN110222179B (zh) 一种通讯录文本分类方法、装置及电子设备
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
CN112559748A (zh) 一种笔录数据案由分类方法、终端设备及存储介质
CN111931229B (zh) 一种数据识别方法、装置和存储介质
CN109408789B (zh) 一种笔录模板及其生成方法及笔录模板选择系统
CN113919352A (zh) 数据库敏感数据识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210326