CN111309911B - 面向司法领域的案件话题发现方法 - Google Patents
面向司法领域的案件话题发现方法 Download PDFInfo
- Publication number
- CN111309911B CN111309911B CN202010096028.5A CN202010096028A CN111309911B CN 111309911 B CN111309911 B CN 111309911B CN 202010096028 A CN202010096028 A CN 202010096028A CN 111309911 B CN111309911 B CN 111309911B
- Authority
- CN
- China
- Prior art keywords
- topic
- public
- time
- topics
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services; Handling legal documents
Abstract
本发明涉及面向司法领域的案件话题发现方法,属于自然语言处理技术领域。本发明首先从案件相关的舆情中抽取舆情标题,经由bert模型编码后得到同等长度的语义向量,并且加入舆情发布时间的约束,使用增量聚类的方式得到不同话题,然后使用每个话题下所有的舆情进行关键字提取,进行编码后用于话题合并,最终生成有效话题。本发明对于不同案件下的相关舆情,可以生成准确的话题类别,为后续的话题表征等工作提供了强有力的支撑。
Description
技术领域
本发明涉及面向司法领域的案件话题发现方法,属于自然语言处理技术领域。
背景技术
话题发现是自然语言处理领域中的主要任务之一。能够从大量文本数据中生成高质量的话题,对于后续的话题表征工作来说是重要支撑。话题是一个事件背后的舆情分布情况,而案件话题发现是针对案件背后的舆情,这些舆情文本没有固定格式,内容的重心也各有不同,如何结合案件舆情的文本特点进行有效聚类,这是本任务的重点和难点。因此,本发明提出了面向司法领域的案件话题发现方法,利用案件文本的特点,有效的从案件下的众多舆情中发现高质量话题。
发明内容
本发明提供了面向司法领域的案件话题发现方法,以用于如何结合案件舆情的文本特点进行有效聚类,从而有效的从案件下的众多舆情中发现高质量话题。
本发明的技术方案是:面向司法领域的案件话题发现方法,所述面向司法领域的案件话题发现方法的具体步骤如下:
Step1、首先得到每个案件下相关的舆情,抽取所有标题,进行去噪处理后得短文本数据;
Step2、对短文本数据使用bert模型进行编码,生成语义向量X={x1,x2,...xM};
Step3、使用语义向量X进行聚类,并根据舆情发布时间建立惩罚机制,得到不同的话题类别,并储存簇心;
Step4、拿到不同话题下的所有标题短文本,统计得到关键字,处理后进行语义编码,得到话题的核心语义向量C;
Step5、使用每个话题的核心语义向量C进行话题合并,并改变簇心向量;
Step6、定时更新舆情,对于新进入的舆情,进行增量聚类,且重复上述步骤。
作为本发明的优选方案,所述步骤Step1的具体步骤为:首先拿到案件相关的舆情标题,对标题进行降噪处理,包括数据集所有单词全部转小写、去掉所有的@符号以及后续部分无关内容去(包括去停用词);处理后得到的短文本列表作为数据进行初次聚类。
作为本发明的优选方案,所述步骤Step3的具体步骤:
Step3.1、Step2中编码模型采用的bert模型,将标题短文本输入该模型后得到746维的语义向量,然后用该向量和所有已存在的聚类簇心向量进行欧式距离计算;其中,首次聚类时无聚类簇心,则直接将该向量保存为簇心向量,其对应舆情的发布时间保存为聚类中心时间;
Step3.2、拿到当前舆情的发布时间,根据该时间和所有已存在的话题类别的聚类时间中心的距离建立时间距离惩罚机制,并根据参数来设置惩罚力度,得到该条舆情与已存在话题类别的距离权重w;
Step3.3、使用计算得到的欧式距离和距离权重w相乘,得到该条舆情和已存在话题类别的加权距离,然后遍历得到最小的加权距离所属的话题类别,并拿最小加权距离与预设阈值进行比较,小于预设阈值则归为一类,若大于或等于预设阈值则计算次小值,以此类推,当该条舆情归属与某一话题类别后,根据该话题类别已存在的舆情数量和该条舆情的语义向量进行修改簇心向量,并取该话题类别下的所有舆情的发布时间的中心时间作为聚类中心时间;若最终该条舆情无可归属话题类别,则新建簇心,保存该条舆情的语义向量为簇心向量。
作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.1、拿到不同话题类别下的所有舆情标题短文本作为统计数据;
Step4.1、使用jieba分词工具进行分词、去停用词、统计词频;
Step4.3、拿到前7个出现频率较高的词作为关键词保存,并将其组合成新的辅助短文本,输入到bert模型中,拿到746维的话题核心语义向量。
作为本发明的优选方案,所述步骤Step5的具体步骤为:
Step5.1、使用话题核心语义向量进行距离计算,得到话题之间的欧式距离;
Step5.2、拿话题之间的欧式距离与预设阈值进行对比,低于预设阈值的话题之间进行两两合并;
Step5.3、将要合并的两个话题的簇心向量按所属舆情个数进行权重加成,在相加,做为合并后的话题簇心向量;
Step5.3、将合并后的新话题所属的所有舆情发布时间进行统计,拿到时间中点作为新话题类别的聚类中心时间。
本发明的有益效果是:
1、本发明将增量聚类的思想应用到司法领域,可以实时监督发现话题,又结合词频统计生成辅助句进行话题合并,模型简单易于实现且得到的话题质量较高;
2、本发明提出的面向司法领域的案件话题发现方法,对于不同案件下的相关舆情舆情,可以生成准确的话题类别,为后续的话题表征等工作提供了强有力的支撑。
附图说明
图1为本发明中的总的流程图;
图2为本发明中的一种话题发现方法流程图;
图3为本发明中的一种话题合并方法流程图。
具体实施方式
实施例1:如图1-3所示,面向司法领域的案件话题发现方法,所述面向司法领域的案件话题发现方法的具体步骤如下:
Step1、首先得到每个案件下相关的舆情,抽取所有标题,进行去噪处理后得短文本数据;
作为本发明的优选方案,所述步骤Step1的具体步骤为:首先拿到案件相关的舆情标题,对标题进行降噪处理,包括数据集所有单词全部转小写、去掉所有的@符号以及后续部分无关内容去(包括去停用词);处理后得到的短文本列表作为数据进行初次聚类。
Step2、对短文本数据使用bert模型进行编码,生成语义向量X={x1,x2,...xM};
Step3、使用语义向量X进行聚类,并根据舆情发布时间建立惩罚机制,得到不同的话题类别,并储存簇心;
作为本发明的优选方案,所述步骤Step3的具体步骤:
Step3.1、Step2中编码模型采用的bert模型,将标题短文本输入该模型后得到746维的语义向量xi,然后用该向量和所有已存在的聚类簇心向量C={c1,c2,...,cn}进行欧式距离计算;得到两向量之间的距离D={d1,d2,...,dn};其中,首次聚类时无聚类簇心,则直接将该向量保存为簇心向量,即ci=xi,其对应舆情的发布时间保存为聚类中心时间ti;
Step3.2、拿到当前舆情的发布时间T,根据该时间和所有已存在的话题类别的聚类时间中心t的距离建立时间距离惩罚机制,并根据参数来设置惩罚力度s,得到该条舆情与已存在话题类别的距离权重w,具体公式如下:
Step3.3、使用计算得到的欧式距离di和距离权重wi相乘,得到该条舆情和已存在话题类别的加权距离dwi,然后遍历得到最小的加权距离dw-min所属的话题类别,并拿最小加权距离dw-min与预设阈值K进行比较,小于预设阈值则归为一类,若大于或等于预设阈值则计算次小值,以此类推,当该条舆情归属与某一话题类别后,根据该话题类别已存在的舆情数量和该条舆情的语义向量进行修改簇心向量,并取该话题类别下的所有舆情的发布时间的中心时间作为聚类中心时间;若最终该条舆情无可归属话题类别,则新建簇心,保存该条舆情的语义向量为簇心向量。
Step4、拿到不同话题下的所有标题短文本,统计得到关键字,处理后进行语义编码,得到话题的核心语义向量C;
作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.1、拿到不同话题类别下的所有舆情标题短文本作为统计数据;
Step4.1、使用jieba分词工具进行分词、去停用词、统计词频;
Step4.3、拿到前7个出现频率较高的词作为关键词保存,并将其组合成新的辅助短文本,输入到bert模型中,拿到746维的话题核心语义向量。
Step5、使用每个话题的核心语义向量C进行话题合并,并改变簇心向量;
作为本发明的优选方案,所述步骤Step5的具体步骤为:
Step5.1、使用话题核心语义向量进行距离计算,得到话题之间的欧式距离;
Step5.2、拿话题之间的欧式距离与预设阈值进行对比,低于预设阈值的话题之间进行两两合并;
Step5.3、将要合并的两个话题的簇心向量按所属舆情个数进行权重加成,在相加,做为合并后的话题簇心向量;
Step5.3、将合并后的新话题所属的所有舆情发布时间进行统计,拿到时间中点作为新话题类别的聚类中心时间。
Step6、定时更新舆情,对于新进入的舆情,进行增量聚类,且重复上述步骤。
实施例2:如图3所示,面向司法领域的案件话题发现方法,本实施例与实施例1相同,不同之处在于,图3为案件话题合并流程图,主要是对类似话题进行合并,以减少话题数量并提高话题质量,具体实施步骤如下:
首先拿到已经存在的所有话题,然后对每个话题下所有的舆情标题进行分词统计,因为同一话题下的舆情标题具有非常高的相似性,因此取前7个高频词组成该话题的辅助句。然后将每个话题的辅助句分别通过bert模型,得到每个话题的语义向量。最后对所有话题的语义向量进行两两比较,算出欧式距离并与预设阈值进行比较,小于阈值则进行话题合并,并将两个话题的簇心向量进行平均作为新话题的话题簇心。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (3)
1.面向司法领域的案件话题发现方法,其特征在于:所述面向司法领域的案件话题发现方法的具体步骤如下:
Step1、首先得到每个案件下相关的舆情,抽取所有标题,进行去噪处理后得短文本数据;
Step2、对短文本数据使用bert模型进行编码,生成语义向量X={x1,x2,...xM};
Step3、使用语义向量X进行聚类,并根据舆情发布时间建立惩罚机制,得到不同的话题类别,并储存簇心;
Step4、拿到不同话题下的所有标题短文本,统计得到关键字,处理后进行语义编码,得到话题的核心语义向量C;
Step5、使用每个话题的核心语义向量C进行话题合并,并改变簇心向量;
Step6、定时更新舆情,对于新进入的舆情,进行增量聚类,且重复上述步骤;
所述步骤Step3的具体步骤:
Step3.1、Step2中编码模型采用的bert模型,将标题短文本输入该模型后得到746维的语义向量,然后用该向量和所有已存在的聚类簇心向量进行欧式距离计算;其中,首次聚类时无聚类簇心,则直接将该向量保存为簇心向量,其对应舆情的发布时间保存为聚类中心时间;
Step3.2、拿到当前舆情的发布时间,根据该时间和所有已存在的话题类别的聚类时间中心的距离建立时间距离惩罚机制,并根据参数来设置惩罚力度,得到该条舆情与已存在话题类别的距离权重w;
Step3.3、使用计算得到的欧式距离和距离权重w相乘,得到该条舆情和已存在话题类别的加权距离,然后遍历得到最小的加权距离所属的话题类别,并拿最小加权距离与预设阈值进行比较,小于预设阈值则归为一类,若大于或等于预设阈值则计算次小值,以此类推,当该条舆情归属与某一话题类别后,根据该话题类别已存在的舆情数量和该条舆情的语义向量进行修改簇心向量,并取该话题类别下的所有舆情的发布时间的中心时间作为聚类中心时间;若最终该条舆情无可归属话题类别,则新建簇心,保存该条舆情的语义向量为簇心向量;
所述步骤Step5的具体步骤为:
Step5.1、使用话题核心语义向量进行距离计算,得到话题之间的欧式距离;
Step5.2、拿话题之间的欧式距离与预设阈值进行对比,低于预设阈值的话题之间进行两两合并;
Step5.3、将要合并的两个话题的簇心向量按所属舆情个数进行权重加乘,再相加,作为合并后的话题簇心向量;
Step5.4、将合并后的新话题所属的所有舆情发布时间进行统计,拿到时间中点作为新话题类别的聚类中心时间。
2.根据权利要求1所述的面向司法领域的案件话题发现方法,其特征在于:所述步骤Step1的具体步骤为:首先拿到案件相关的舆情标题,对标题进行降噪处理,包括数据集所有单词全部转小写、去掉所有的@符号以及去停用词;处理后得到的短文本列表作为数据进行初次聚类。
3.根据权利要求1所述的面向司法领域的案件话题发现方法,其特征在于:所述步骤Step4的具体步骤为:
Step4.1、拿到不同话题类别下的所有舆情标题短文本作为统计数据;
Step4.1、使用jieba分词工具进行分词、去停用词、统计词频;
Step4.3、拿到前7个出现频率较高的词作为关键词保存,并将其组合成新的辅助短文本,输入到bert模型中,拿到746维的话题核心语义向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010096028.5A CN111309911B (zh) | 2020-02-17 | 2020-02-17 | 面向司法领域的案件话题发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010096028.5A CN111309911B (zh) | 2020-02-17 | 2020-02-17 | 面向司法领域的案件话题发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111309911A CN111309911A (zh) | 2020-06-19 |
CN111309911B true CN111309911B (zh) | 2022-06-14 |
Family
ID=71158296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010096028.5A Active CN111309911B (zh) | 2020-02-17 | 2020-02-17 | 面向司法领域的案件话题发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111309911B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032557B (zh) * | 2021-02-09 | 2024-03-29 | 北京工业大学 | 一种基于频繁词集与bert语义的微博热点话题发现方法 |
CN113515593A (zh) * | 2021-04-23 | 2021-10-19 | 平安科技(深圳)有限公司 | 基于聚类模型的话题检测方法、装置和计算机设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101980199A (zh) * | 2010-10-28 | 2011-02-23 | 北京交通大学 | 基于态势评估的网络热点话题发现方法及系统 |
CN103745000A (zh) * | 2014-01-24 | 2014-04-23 | 福州大学 | 一种中文微博客的热点话题检测方法 |
CN105488092A (zh) * | 2015-07-13 | 2016-04-13 | 中国科学院信息工程研究所 | 一种时间敏感和自适应的子话题在线检测方法及系统 |
CN106844786A (zh) * | 2016-12-08 | 2017-06-13 | 中国电子科技网络信息安全有限公司 | 一种基于文本相似度的舆情地域热点发现方法 |
WO2017097231A1 (zh) * | 2015-12-11 | 2017-06-15 | 北京国双科技有限公司 | 话题处理方法及装置 |
CN109145180A (zh) * | 2018-06-27 | 2019-01-04 | 东华大学 | 一种基于增量聚类的企业热点事件挖掘方法 |
US10242019B1 (en) * | 2014-12-19 | 2019-03-26 | Experian Information Solutions, Inc. | User behavior segmentation using latent topic detection |
CN109710728A (zh) * | 2018-11-26 | 2019-05-03 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 新闻话题自动发现方法 |
CN110717041A (zh) * | 2019-09-19 | 2020-01-21 | 太极计算机股份有限公司 | 一种案件检索方法及系统 |
-
2020
- 2020-02-17 CN CN202010096028.5A patent/CN111309911B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101980199A (zh) * | 2010-10-28 | 2011-02-23 | 北京交通大学 | 基于态势评估的网络热点话题发现方法及系统 |
CN103745000A (zh) * | 2014-01-24 | 2014-04-23 | 福州大学 | 一种中文微博客的热点话题检测方法 |
US10242019B1 (en) * | 2014-12-19 | 2019-03-26 | Experian Information Solutions, Inc. | User behavior segmentation using latent topic detection |
CN105488092A (zh) * | 2015-07-13 | 2016-04-13 | 中国科学院信息工程研究所 | 一种时间敏感和自适应的子话题在线检测方法及系统 |
WO2017097231A1 (zh) * | 2015-12-11 | 2017-06-15 | 北京国双科技有限公司 | 话题处理方法及装置 |
CN106844786A (zh) * | 2016-12-08 | 2017-06-13 | 中国电子科技网络信息安全有限公司 | 一种基于文本相似度的舆情地域热点发现方法 |
CN109145180A (zh) * | 2018-06-27 | 2019-01-04 | 东华大学 | 一种基于增量聚类的企业热点事件挖掘方法 |
CN109710728A (zh) * | 2018-11-26 | 2019-05-03 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 新闻话题自动发现方法 |
CN110717041A (zh) * | 2019-09-19 | 2020-01-21 | 太极计算机股份有限公司 | 一种案件检索方法及系统 |
Non-Patent Citations (3)
Title |
---|
Construction of topics and clusters in Topic Detection and Tracking tasks;Masnizah Mohd 等;《2011 International Conference on Semantic Technology and Information Retrieval》;20110822;171-174 * |
基于图聚类的汉越双语新闻话题发现;王禹森 等;《数据采集与处理》;20180515;第33卷(第3期);530-537 * |
面向新闻的话题发现和热度评估方法研究;高星;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20180215(第02期);I138-3009 * |
Also Published As
Publication number | Publication date |
---|---|
CN111309911A (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
Li et al. | Filtering out the noise in short text topic modeling | |
CN107451126B (zh) | 一种近义词筛选方法及系统 | |
CN109165294B (zh) | 一种基于贝叶斯分类的短文本分类方法 | |
CN109815336B (zh) | 一种文本聚合方法及系统 | |
CN110162591B (zh) | 一种面向数字教育资源的实体对齐方法及系统 | |
CN108763402A (zh) | 基于依存关系、词性和语义词典的类中心向量文本分类法 | |
US20120259801A1 (en) | Transfer of learning for query classification | |
WO2021068683A1 (zh) | 正则表达式生成方法、装置、服务器及计算机可读存储介质 | |
EP4006745A1 (en) | Model training method and apparatus, short message verification method and apparatus, device, and storage medium | |
CN111309911B (zh) | 面向司法领域的案件话题发现方法 | |
CN106126605B (zh) | 一种基于用户画像的短文本分类方法 | |
CN111008274A (zh) | 特征扩展卷积神经网络的案件微博观点句识别构建方法 | |
CN113780007A (zh) | 语料筛选方法、意图识别模型优化方法、设备及存储介质 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN115186654B (zh) | 一种公文文本摘要生成方法 | |
Yan et al. | An improved single-pass algorithm for chinese microblog topic detection and tracking | |
CN112632982A (zh) | 一种能用于供应商评价的对话文本情感分析方法 | |
CN112732914A (zh) | 基于关键词匹配的文本聚类方法、系统、储存介质及终端 | |
Chen et al. | Chinese Weibo sentiment analysis based on character embedding with dual-channel convolutional neural network | |
Ao et al. | News keywords extraction algorithm based on TextRank and classified TF-IDF | |
CN114742071A (zh) | 基于图神经网络的汉越跨语言观点对象识别分析方法 | |
CN110929509B (zh) | 一种基于louvain社区发现算法的领域事件触发词聚类方法 | |
Niu et al. | OnSeS: a novel online short text summarization based on BM25 and neural network | |
CN110457685A (zh) | 一种基于机器学习的中文商业文本预处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |