CN110968691B - 司法热点确定方法及装置 - Google Patents

司法热点确定方法及装置 Download PDF

Info

Publication number
CN110968691B
CN110968691B CN201811162764.5A CN201811162764A CN110968691B CN 110968691 B CN110968691 B CN 110968691B CN 201811162764 A CN201811162764 A CN 201811162764A CN 110968691 B CN110968691 B CN 110968691B
Authority
CN
China
Prior art keywords
judicial
keyword
dimension
determining
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811162764.5A
Other languages
English (en)
Other versions
CN110968691A (zh
Inventor
林苗苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201811162764.5A priority Critical patent/CN110968691B/zh
Publication of CN110968691A publication Critical patent/CN110968691A/zh
Application granted granted Critical
Publication of CN110968691B publication Critical patent/CN110968691B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种司法热点确定方法及装置,可以获得用户对司法内容进行检索时使用的多个关键词;确定每个所述关键词所涉及的司法维度;根据所述司法维度将所述多个关键词划分到至少一个关键词组中,各所述关键词组均对应有至少一个司法维度且不同所述关键词组对应的司法维度不完全相同;根据各关键词组中关键词的检索次数确定司法热点。本发明通过确定关键词涉及的司法维度来对关键词进行划分,进而根据关键词检索次数确定司法热点。

Description

司法热点确定方法及装置
技术领域
本发明涉及司法信息处理技术领域,尤其涉及一种司法热点确定方法及装置。
背景技术
从2014年开始,我国的裁判文书开始在网络上公布,用户可以直接在裁判文书公开网站上检索裁判文书并进行观看和下载。
由于用户在裁判文书公开网站上检索时使用的关键词体现了用户所感兴趣的司法内容,因此对上述关键词进行分析来确定司法热点很有必要。
然而现在还没有一种对上述关键词进行分析来确定司法热点的技术方案。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的司法热点确定方法及装置,技术方案如下:
一种司法热点确定方法,包括:
获得用户对司法内容进行检索时使用的多个关键词;
确定每个所述关键词所涉及的司法维度;
根据所述司法维度将所述多个关键词划分到至少一个关键词组中,各所述关键词组均对应有至少一个司法维度且不同所述关键词组对应的司法维度不完全相同;
根据各关键词组中关键词的检索次数确定司法热点。
可选的,所述根据各关键词组中关键词的检索次数确定司法热点,包括:
对每个所述关键词组:对该关键词组中的关键词被检索的次数进行统计,获得该关键词组的统计结果;
将统计结果满足预设要求的关键词组对应的至少一个司法维度确定为司法热点。
可选的,所述对该关键词组中的关键词被检索的次数进行统计,获得该关键词组的统计结果,包括:
对该关键词组中的关键词被用户在预设时间段内检索的次数和/或被预设区域的用户检索的次数进行统计,获得该关键词组的统计结果。
可选的,每个所述关键词所涉及的司法维度的维度类型为:司法案件类别维度类型、案由维度类型、罪名维度类型、法院维度类型、事件维度类型、人物维度类型中的至少一种。
可选的,所述确定每个所述关键词所涉及的司法维度,包括:
将各所述关键词输入预设的司法维度确定模型中,获得所述预设的司法维度确定模型输出的每个所述关键词所涉及的司法维度,其中,所述预设的司法维度确定模型是对司法语料库中的司法语料进行机器学习后得到的;
或者,使用自然语言处理技术将各关键词分别与司法语料库中的司法语料进行比对,根据比对结果确定每个所述关键词所涉及的司法维度。
可选的,在所述获得用户对司法内容进行检索时使用的多个关键词之后,所述方法还包括:
对所述多个关键词进行聚类,获得多个关键词簇,每个关键词簇中至少包括一个关键词;
所述确定每个所述关键词所涉及的司法维度,包括:
确定各关键词簇所涉及的司法维度,将关键词簇所涉及的司法维度确定为该关键词簇内各关键词所涉及的司法维度。
一种司法热点确定装置,包括:关键词获得单元、维度确定单元、划分单元和热点确定单元,
所述关键词获得单元,用于获得用户对司法内容进行检索时使用的多个关键词;
所述维度确定单元,用于确定每个所述关键词所涉及的司法维度;
所述划分单元,用于根据所述司法维度将所述多个关键词划分到至少一个关键词组中,各所述关键词组均对应有至少一个司法维度且不同所述关键词组对应的司法维度不完全相同;
所述热点确定单元,用于根据各关键词组中关键词的检索次数确定司法热点。
可选的,所述热点确定单元包括:统计子单元和确定子单元,
所述统计子单元,用于对每个所述关键词组:对该关键词组中的关键词被检索的次数进行统计,获得该关键词组的统计结果;
所述确定子单元,用于将统计结果满足预设要求的关键词组对应的至少一个司法维度确定为司法热点。
一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在的设备执行上述的任一种司法热点确定方法。
一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行上述的任一种司法热点确定方法。
借由上述技术方案,本发明提供的一种司法热点确定方法及装置,可以获得用户对司法内容进行检索时使用的多个关键词;确定每个所述关键词所涉及的司法维度;根据所述司法维度将所述多个关键词划分到至少一个关键词组中,各所述关键词组均对应有至少一个司法维度且不同所述关键词组对应的司法维度不完全相同;根据各关键词组中关键词的检索次数确定司法热点。本发明通过确定关键词涉及的司法维度来对关键词进行划分,进而根据关键词检索次数确定司法热点。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种司法热点确定方法的流程图;
图2示出了本发明实施例提供的另一种司法热点确定方法的流程图;
图3示出了本发明实施例提供的另一种司法热点确定方法的流程图;
图4示出了本发明实施例提供的一种司法热点确定装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明实施例提供的一种司法热点确定方法,可以包括:
S100、获得用户对司法内容进行检索时使用的多个关键词;
其中,本发明可以从司法内容公开网站的服务器或司法内容检索网站的服务器处获得上述关键词,本发明也可以在上述网站的网页上布置代码来获得上述关键词。当然,本发明获得上述关键词的方式还可以有多种,本发明在此不做限定。
具体的,司法内容可以包括:裁判文书、司法新闻、法律法规等。
S200、确定每个所述关键词所涉及的司法维度;
其中,每个所述关键词所涉及的司法维度的维度类型为:司法案件类别维度类型、案由维度类型、罪名维度类型、法院维度类型、事件维度类型、人物维度类型中的至少一种。
具体的,司法案件类别维度类型的司法维度可以包括:刑事案件、民事案件、行政案件、赔偿案件和执行案件等。
具体的,案由维度类型的司法维度可以进一步分为不同级别的多种案由维度,各种案由维度可以根据级别形成树状结构。可选的,本发明实施例中使用的案由维度可以为中国裁判文书网所使用的案由维度。例如:第一级案由维度可以包括:刑事案由、民事案由、赔偿案由和行政案由。刑事案由的下一级案由可以包括:危害国家安全、危害公共安全、侵犯财产等。
其中,每个关键词涉及的司法维度可以有一个或多个,例如:关键词:演员,它涉及的司法维度可以有:民事案件(司法案件类别维度类型)、合同纠纷(第三级案由维度)、诈骗罪(罪名维度类型)、某市第一中级人民法院(法院维度类型)、虚假合同(事件维度类型)等。
在实际应用中,步骤S200可以具体包括:
将各所述关键词输入预设的司法维度确定模型中,获得所述预设的司法维度确定模型输出的每个所述关键词所涉及的司法维度,其中,所述预设的司法维度确定模型是对司法语料库中的司法语料进行机器学习后得到的。
其中,司法语料库中的司法语料可以包括:《刑事罪名业务规范》、《民事案由业务规范》、《行政案由业务规范》、《国家赔偿案由业务规范》、《执行案由业务规范》、裁判文书等司法语料中的一个或多个。
在进行机器学习时,可以将司法语料库中的司法语料进行分词,由于各司法语料与司法维度具有一定的对应关系(例如《刑事罪名业务规范》与刑事案件的司法维度对应),因此本发明可以对分词后得到的各词汇与司法维度的关系进行学习,从而获得可以根据输入的关键词确定并输出司法维度的司法维度确定模型。
在本发明其他实施例中,步骤S200可以具体包括:
使用自然语言处理技术将各关键词分别与司法语料库中的司法语料进行比对,根据比对结果确定每个所述关键词所涉及的司法维度。
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,NLP利用计算机为工具,对书面形式语言或者口头形式语言进行各种各样的处理和加工。NLP被广泛应用于信息检索、机器翻译、文档分类、问答系统、信息过滤、自动文摘、信息抽取、文本挖掘、舆情分析、机器写作、语音识别等领域。通过NLP,本发明可以将各关键词分别与司法语料库中的司法语料进行比对,当某关键词在某司法语料中出现频率较高时,本发明可以确定该司法语料对应的司法维度为该关键词所涉及的司法维度。当然,本发明其他实施例可以将各关键词分别与司法语料库中的司法语料进行比对,当某关键词在某司法语料中出现频率较高时,本发明可以根据NLP确定该关键词的语义,然后结合语义以及该司法语料对应的司法维度确定该关键词所涉及的司法维度。例如:当语义与该司法语料对应的司法维度的语义相似度高时,可以将该司法语料对应的司法维度确定为该关键词所涉及的司法维度,当相似度低时,可以继续将该关键词与其他司法语料进行比对。
S300、根据所述司法维度将所述多个关键词划分到至少一个关键词组中,各所述关键词组均对应有至少一个司法维度且不同所述关键词组对应的司法维度不完全相同;
其中,同一关键词组中的各关键词均涉及相同的至少一个司法维度。例如:某关键词组中的各关键词均涉及的司法维度包括:合同纠纷(第三级案由维度)、虚假合同(事件维度类型),该关键词组中可以包括:假合同、骗人、无效、合同、虚假、骗子等关键词。
具体的,本发明可以将每个关键词所涉及的司法维度设置为各关键词的标签,通过上述标签本发明就可以对关键词划分到关键词组中。
S400、根据各关键词组中关键词的检索次数确定司法热点。
具体的,如图2所示,步骤S400可以包括:
S410、对每个所述关键词组:对该关键词组中的关键词被检索的次数进行统计,获得该关键词组的统计结果;
进行上述统计时,本发明可以关键词组中的关键词被检索的次数加和,当然也可以有其他统计方法,本发明在此不做限定。
其中,步骤S410可以具体包括:
对每个所述关键词组:对该关键词组中的关键词被用户在预设时间段内检索的次数和/或被预设区域的用户检索的次数进行统计,获得该关键词组的统计结果。
其中,预设区域可以为预设行政区域或预设地理区域。预设行政区域可以为根据行政规划而产生的区域,例如:北京、河北等。预设地理区域可以为根据地理划分产生的区域,例如:黄土高原、华北平原、华南地区等。可以理解的是,不同地区的用户所关注的司法热点也可能不同。
通过预设时间段、预设区域的限制,本发明可以进行更有针对性的统计。
S420、将统计结果满足预设要求的关键词组对应的至少一个司法维度确定为司法热点。
其中,上述预设要求可以为统计结果最高,这样,本发明就可以将统计后的次数最高的关键词组对应的司法维度确定为司法热点。例如:某关键词组中包括:假合同、骗人、无效、合同、虚假、骗子等关键词,该关键词组中的各关键词均涉及的司法维度包括:合同纠纷(第三级案由维度)、虚假合同(事件维度类型)。经过统计,该关键词组中各关键词在2018年1至6月份被检索的次数最多,因此可以确定2018年1至6月份的司法热点为:合同纠纷和虚假合同。
本发明提供的一种司法热点确定方法,可以获得用户对司法内容进行检索时使用的多个关键词;确定每个所述关键词所涉及的司法维度;根据所述司法维度将所述多个关键词划分到至少一个关键词组中,各所述关键词组均对应有至少一个司法维度且不同所述关键词组对应的司法维度不完全相同;根据各关键词组中关键词的检索次数确定司法热点。本发明通过确定关键词涉及的司法维度来对关键词进行划分,进而根据关键词检索次数确定司法热点。
如图3所示,本发明实施例提供的另一种司法热点确定方法,可以包括:
S100、获得用户对司法内容进行检索时使用的多个关键词;
S110、对所述多个关键词进行聚类,获得多个关键词簇,每个关键词簇中至少包括一个关键词;
具体的,将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似。因此,本发明实施例获得的同一关键词簇中各关键词彼此相似度较高。
S210、确定各关键词簇所涉及的司法维度,将关键词簇所涉及的司法维度确定为该关键词簇内各关键词所涉及的司法维度。
其中,本发明可以将关键词簇中作为质心的关键词所涉及的司法维度确定为关键词簇所涉及的司法维度。当质心不为关键词时,本发明也可以将距离质心最近的关键词所涉及的司法维度确定为关键词簇所涉及的司法维度。
由于同一关键词簇中各关键词彼此相似度较高,因此本发明可以将关键词簇所涉及的司法维度确定为该关键词簇内各关键词所涉及的司法维度。通过这种方式,本发明就不需要分别确定关键词簇中每个关键词所涉及的司法维度,更加简便。
其中,步骤S210为图1所示方法步骤S200的一种具体执行方式。
S300、根据所述司法维度将所述多个关键词划分到至少一个关键词组中,各所述关键词组均对应有至少一个司法维度且不同所述关键词组对应的司法维度不完全相同;
S400、根据各关键词组中关键词的检索次数确定司法热点。
与本发明实施例提供的司法热点确定方法相对应,本发明还提供了一种司法热点确定装置。
如图4所示,本发明实施例提供的一种司法热点确定装置,可以包括:关键词获得单元100、维度确定单元200、划分单元300和热点确定单元400,
所述关键词获得单元100,用于获得用户对司法内容进行检索时使用的多个关键词;
其中,本发明可以从司法内容公开网站的服务器或司法内容检索网站的服务器处获得上述关键词,本发明也可以在上述网站的网页上布置代码来获得上述关键词。当然,本发明获得上述关键词的方式还可以有多种,本发明在此不做限定。
具体的,司法内容可以包括:裁判文书、司法新闻、法律法规等。
所述维度确定单元200,用于确定每个所述关键词所涉及的司法维度;
其中,每个所述关键词所涉及的司法维度的维度类型为:司法案件类别维度类型、案由维度类型、罪名维度类型、法院维度类型、事件维度类型、人物维度类型中的至少一种。
具体的,司法案件类别维度类型的司法维度可以包括:刑事案件、民事案件、行政案件、赔偿案件和执行案件等。
具体的,案由维度类型的司法维度可以进一步分为不同级别的多种案由维度,各种案由维度可以根据级别形成树状结构。可选的,本发明实施例中使用的案由维度可以为中国裁判文书网所使用的案由维度。例如:第一级案由维度可以包括:刑事案由、民事案由、赔偿案由和行政案由。刑事案由的下一级案由可以包括:危害国家安全、危害公共安全、侵犯财产等。
其中,每个关键词涉及的司法维度可以有一个或多个,例如:关键词:演员,它涉及的司法维度可以有:民事案件(司法案件类别维度类型)、合同纠纷(第三级案由维度)、诈骗罪(罪名维度类型)、某市第一中级人民法院(法院维度类型)、虚假合同(事件维度类型)等。
可选的,所述维度确定单元200具体可以用于:
将各所述关键词输入预设的司法维度确定模型中,获得所述预设的司法维度确定模型输出的每个所述关键词所涉及的司法维度,其中,所述预设的司法维度确定模型是对司法语料库中的司法语料进行机器学习后得到的;
或者,使用自然语言处理技术将各关键词分别与司法语料库中的司法语料进行比对,根据比对结果确定每个所述关键词所涉及的司法维度。
所述划分单元300,用于根据所述司法维度将所述多个关键词划分到至少一个关键词组中,各所述关键词组均对应有至少一个司法维度且不同所述关键词组对应的司法维度不完全相同;
其中,同一关键词组中的各关键词均涉及相同的至少一个司法维度。例如:某关键词组中的各关键词均涉及的司法维度包括:合同纠纷(第三级案由维度)、虚假合同(事件维度类型),该关键词组中可以包括:假合同、骗人、无效、合同、虚假、骗子等关键词。
具体的,本发明可以将每个关键词所涉及的司法维度设置为各关键词的标签,通过上述标签本发明就可以对关键词划分到关键词组中。
所述热点确定单元400,用于根据各关键词组中关键词的检索次数确定司法热点。
其中,所述热点确定单元400可以包括:统计子单元和确定子单元,
所述统计子单元,用于对每个所述关键词组:对该关键词组中的关键词被检索的次数进行统计,获得该关键词组的统计结果;
所述确定子单元,用于将统计结果满足预设要求的关键词组对应的至少一个司法维度确定为司法热点。
进一步,所述统计子单元可以具体用于:对每个所述关键词组:对该关键词组中的关键词被用户在预设时间段内检索的次数和/或被预设区域的用户检索的次数进行统计,获得该关键词组的统计结果。
其中,上述预设要求可以为统计结果最高,这样,本发明就可以将统计后的次数最高的关键词组对应的司法维度确定为司法热点。例如:某关键词组中包括:假合同、骗人、无效、合同、虚假、骗子等关键词,该关键词组中的各关键词均涉及的司法维度包括:合同纠纷(第三级案由维度)、虚假合同(事件维度类型)。经过统计,该关键词组中各关键词在2018年1至6月份被检索的次数最多,因此可以确定2018年1至6月份的司法热点为:合同纠纷和虚假合同。
本发明另一实施例中,图4所示装置还可以包括:聚类单元,用于在所述关键词获得单元100获得用户对司法内容进行检索时使用的多个关键词之后,对所述多个关键词进行聚类,获得多个关键词簇,每个关键词簇中至少包括一个关键词。
在此基础上,维度确定单元200可以具体用于:确定各关键词簇所涉及的司法维度,将关键词簇所涉及的司法维度确定为该关键词簇内各关键词所涉及的司法维度。
由于同一关键词簇中各关键词彼此相似度较高,因此本发明可以将关键词簇所涉及的司法维度确定为该关键词簇内各关键词所涉及的司法维度。通过这种方式,本发明就不需要分别确定关键词簇中每个关键词所涉及的司法维度,更加简便。
本发明实施例提供的一种司法热点确定装置,可以获得用户对司法内容进行检索时使用的多个关键词;确定每个所述关键词所涉及的司法维度;根据所述司法维度将所述多个关键词划分到至少一个关键词组中,各所述关键词组均对应有至少一个司法维度且不同所述关键词组对应的司法维度不完全相同;根据各关键词组中关键词的检索次数确定司法热点。本发明通过确定关键词涉及的司法维度来对关键词进行划分,进而根据关键词检索次数确定司法热点。
所述司法热点确定装置包括处理器和存储器,上述关键词获得单元、维度确定单元、划分单元和热点确定单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来确定司法热点。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述司法热点确定方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述司法热点确定方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
一种司法热点确定方法,包括:
获得用户对司法内容进行检索时使用的多个关键词;
确定每个所述关键词所涉及的司法维度;
根据所述司法维度将所述多个关键词划分到至少一个关键词组中,各所述关键词组均对应有至少一个司法维度且不同所述关键词组对应的司法维度不完全相同;
根据各关键词组中关键词的检索次数确定司法热点。
可选的,所述根据各关键词组中关键词的检索次数确定司法热点,包括:
对每个所述关键词组:对该关键词组中的关键词被检索的次数进行统计,获得该关键词组的统计结果;
将统计结果满足预设要求的关键词组对应的至少一个司法维度确定为司法热点。
可选的,所述对该关键词组中的关键词被检索的次数进行统计,获得该关键词组的统计结果,包括:
对该关键词组中的关键词被用户在预设时间段内检索的次数和/或被预设区域的用户检索的次数进行统计,获得该关键词组的统计结果。
可选的,每个所述关键词所涉及的司法维度的维度类型为:司法案件类别维度类型、案由维度类型、罪名维度类型、法院维度类型、事件维度类型、人物维度类型中的至少一种。
可选的,所述确定每个所述关键词所涉及的司法维度,包括:
将各所述关键词输入预设的司法维度确定模型中,获得所述预设的司法维度确定模型输出的每个所述关键词所涉及的司法维度,其中,所述预设的司法维度确定模型是对司法语料库中的司法语料进行机器学习后得到的;
或者,使用自然语言处理技术将各关键词分别与司法语料库中的司法语料进行比对,根据比对结果确定每个所述关键词所涉及的司法维度。
可选的,在所述获得用户对司法内容进行检索时使用的多个关键词之后,所述方法还包括:
对所述多个关键词进行聚类,获得多个关键词簇,每个关键词簇中至少包括一个关键词;
所述确定每个所述关键词所涉及的司法维度,包括:
确定各关键词簇所涉及的司法维度,将关键词簇所涉及的司法维度确定为该关键词簇内各关键词所涉及的司法维度。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
一种司法热点确定方法,包括:
获得用户对司法内容进行检索时使用的多个关键词;
确定每个所述关键词所涉及的司法维度;
根据所述司法维度将所述多个关键词划分到至少一个关键词组中,各所述关键词组均对应有至少一个司法维度且不同所述关键词组对应的司法维度不完全相同;
根据各关键词组中关键词的检索次数确定司法热点。
可选的,所述根据各关键词组中关键词的检索次数确定司法热点,包括:
对每个所述关键词组:对该关键词组中的关键词被检索的次数进行统计,获得该关键词组的统计结果;
将统计结果满足预设要求的关键词组对应的至少一个司法维度确定为司法热点。
可选的,所述对该关键词组中的关键词被检索的次数进行统计,获得该关键词组的统计结果,包括:
对该关键词组中的关键词被用户在预设时间段内检索的次数和/或被预设区域的用户检索的次数进行统计,获得该关键词组的统计结果。
可选的,每个所述关键词所涉及的司法维度的维度类型为:司法案件类别维度类型、案由维度类型、罪名维度类型、法院维度类型、事件维度类型、人物维度类型中的至少一种。
可选的,所述确定每个所述关键词所涉及的司法维度,包括:
将各所述关键词输入预设的司法维度确定模型中,获得所述预设的司法维度确定模型输出的每个所述关键词所涉及的司法维度,其中,所述预设的司法维度确定模型是对司法语料库中的司法语料进行机器学习后得到的;
或者,使用自然语言处理技术将各关键词分别与司法语料库中的司法语料进行比对,根据比对结果确定每个所述关键词所涉及的司法维度。
可选的,在所述获得用户对司法内容进行检索时使用的多个关键词之后,所述方法还包括:
对所述多个关键词进行聚类,获得多个关键词簇,每个关键词簇中至少包括一个关键词;
所述确定每个所述关键词所涉及的司法维度,包括:
确定各关键词簇所涉及的司法维度,将关键词簇所涉及的司法维度确定为该关键词簇内各关键词所涉及的司法维度。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (8)

1.一种司法热点确定方法,其特征在于,包括:
获得用户对司法内容进行检索时使用的多个关键词,所述司法内容包括:裁判文书、司法新闻以及法律法规;
将各所述关键词输入预设的司法维度确定模型中,获得所述预设的司法维度确定模型输出的每个所述关键词所涉及的司法维度,其中,所述预设的司法维度确定模型是对司法语料库中的司法语料进行机器学习后得到的,每个所述关键词所涉及的司法维度的维度类型为:司法案件类别维度类型、案由维度类型、罪名维度类型、法院维度类型、事件维度类型、人物维度类型中的至少一种,司法案件类别维度类型的司法维度可以包括:刑事案件、民事案件、行政案件、赔偿案件和执行案件;
或者,使用自然语言处理技术将各关键词分别与司法语料库中的司法语料进行比对,根据比对结果确定每个所述关键词所涉及的司法维度;
根据所述司法维度将所述多个关键词划分到至少一个关键词组中,各所述关键词组均对应有至少一个司法维度且不同所述关键词组对应的司法维度不完全相同;
根据各关键词组中关键词的检索次数确定司法热点。
2.根据权利要求1所述的方法,其特征在于,所述根据各关键词组中关键词的检索次数确定司法热点,包括:
对每个所述关键词组:对该关键词组中的关键词被检索的次数进行统计,获得该关键词组的统计结果;
将统计结果满足预设要求的关键词组对应的至少一个司法维度确定为司法热点。
3.根据权利要求2所述的方法,其特征在于,所述对该关键词组中的关键词被检索的次数进行统计,获得该关键词组的统计结果,包括:
对该关键词组中的关键词被用户在预设时间段内检索的次数和/或被预设区域的用户检索的次数进行统计,获得该关键词组的统计结果。
4.根据权利要求1所述的方法,其特征在于,在所述获得用户对司法内容进行检索时使用的多个关键词之后,所述方法还包括:
对所述多个关键词进行聚类,获得多个关键词簇,每个关键词簇中至少包括一个关键词;
所述确定每个所述关键词所涉及的司法维度,包括:
确定各关键词簇所涉及的司法维度,将关键词簇所涉及的司法维度确定为该关键词簇内各关键词所涉及的司法维度。
5.一种司法热点确定装置,其特征在于,包括:关键词获得单元、维度确定单元、划分单元和热点确定单元,
所述关键词获得单元,用于获得用户对司法内容进行检索时使用的多个关键词,所述司法内容包括:裁判文书、司法新闻以及法律法规;
所述维度确定单元,用于确定每个所述关键词所涉及的司法维度;
所述划分单元,用于根据所述司法维度将所述多个关键词划分到至少一个关键词组中,各所述关键词组均对应有至少一个司法维度且不同所述关键词组对应的司法维度不完全相同;
所述热点确定单元,用于根据各关键词组中关键词的检索次数确定司法热点;
所述维度确定单元具体用于:将各所述关键词输入预设的司法维度确定模型中,获得所述预设的司法维度确定模型输出的每个所述关键词所涉及的司法维度,其中,所述预设的司法维度确定模型是对司法语料库中的司法语料进行机器学习后得到的,每个所述关键词所涉及的司法维度的维度类型为:司法案件类别维度类型、案由维度类型、罪名维度类型、法院维度类型、事件维度类型、人物维度类型中的至少一种,司法案件类别维度类型的司法维度可以包括:刑事案件、民事案件、行政案件、赔偿案件和执行案件;或者,使用自然语言处理技术将各关键词分别与司法语料库中的司法语料进行比对,根据比对结果确定每个所述关键词所涉及的司法维度。
6.根据权利要求5所述的装置,其特征在于,所述热点确定单元包括:统计子单元和确定子单元,
所述统计子单元,用于对每个所述关键词组:对该关键词组中的关键词被检索的次数进行统计,获得该关键词组的统计结果;
所述确定子单元,用于将统计结果满足预设要求的关键词组对应的至少一个司法维度确定为司法热点。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在的设备执行如权利要求1至4中任一项所述的司法热点确定方法。
8.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如权利要求1至4中任一项所述的司法热点确定方法。
CN201811162764.5A 2018-09-30 2018-09-30 司法热点确定方法及装置 Active CN110968691B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811162764.5A CN110968691B (zh) 2018-09-30 2018-09-30 司法热点确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811162764.5A CN110968691B (zh) 2018-09-30 2018-09-30 司法热点确定方法及装置

Publications (2)

Publication Number Publication Date
CN110968691A CN110968691A (zh) 2020-04-07
CN110968691B true CN110968691B (zh) 2023-07-04

Family

ID=70029294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811162764.5A Active CN110968691B (zh) 2018-09-30 2018-09-30 司法热点确定方法及装置

Country Status (1)

Country Link
CN (1) CN110968691B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597236A (zh) * 2020-05-22 2020-08-28 中国工商银行股份有限公司 制度信息处理方法、装置和计算机系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899230A (zh) * 2014-03-07 2015-09-09 上海市玻森数据科技有限公司 舆情热点自动监测系统
CN106202372A (zh) * 2016-07-08 2016-12-07 中国电子科技网络信息安全有限公司 一种网络文本信息情感分类的方法
CN108021545A (zh) * 2016-11-03 2018-05-11 北京国双科技有限公司 一种司法文书的案由提取方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020073237A1 (en) * 2000-07-27 2002-06-13 George Nancy Fox Methods of managing data over a networked system of computers
CN101984423B (zh) * 2010-10-21 2012-07-04 百度在线网络技术(北京)有限公司 一种热搜词生成方法及系统
CN102194015B (zh) * 2011-06-30 2013-11-13 重庆新媒农信科技有限公司 根据检索信息热度统计实现检索的方法
US10430903B2 (en) * 2013-04-22 2019-10-01 Jianqing Wu Method for improving document review performance
CN106528716A (zh) * 2016-10-26 2017-03-22 腾讯音乐娱乐(深圳)有限公司 一种多媒体搜索内容的推荐方法和装置
CN108153792B (zh) * 2016-12-02 2023-04-18 阿里巴巴集团控股有限公司 一种数据处理方法和相关装置
CN107908616B (zh) * 2017-10-18 2022-01-28 北京京东尚科信息技术有限公司 预测趋势词的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899230A (zh) * 2014-03-07 2015-09-09 上海市玻森数据科技有限公司 舆情热点自动监测系统
CN106202372A (zh) * 2016-07-08 2016-12-07 中国电子科技网络信息安全有限公司 一种网络文本信息情感分类的方法
CN108021545A (zh) * 2016-11-03 2018-05-11 北京国双科技有限公司 一种司法文书的案由提取方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
health-related hot topic detection in online communities using text clustering;Liu yingjie等;plos one;第8卷(第2期);1-9 *
基于文献计量的我国搜索引擎研究现状和热点分析;王燕平;;现代情报;第32卷(第07期);68-73 *
基于时序关键词的学科交叉研究主题分析――以情报学与计算机科学为例;李长玲;郭凤娇;魏绪秋;;情报资料工作(第06期);44-48 *

Also Published As

Publication number Publication date
CN110968691A (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
US10740545B2 (en) Information extraction from open-ended schema-less tables
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
CN111339751A (zh) 一种文本关键词处理方法、装置及设备
CN101621391A (zh) 基于概率主题进行短文本分类的方法及系统
CN111125086B (zh) 获取数据资源的方法、装置、存储介质及处理器
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
CN111046221A (zh) 歌曲推荐方法、装置、终端设备以及存储介质
CN111797239A (zh) 应用程序的分类方法、装置及终端设备
CN110196910B (zh) 一种语料分类的方法及装置
US10037381B2 (en) Apparatus and method for searching information based on Wikipedia's contents
KR20220134695A (ko) 인공지능 학습 모델을 이용한 저자 식별 시스템 및 그 방법
CN108345694B (zh) 一种基于主题数据库的文献检索方法及系统
CN110674297A (zh) 舆情文本分类模型构建和舆情文本分类方法、装置及设备
Aguiar et al. Text classification in legal documents extracted from lawsuits in Brazilian courts
CN110968691B (zh) 司法热点确定方法及装置
CN117033744A (zh) 数据查询方法、装置、存储介质以及电子设备
CN111401047A (zh) 法律文书的争议焦点生成方法、装置及计算机设备
CN110955845A (zh) 用户兴趣识别方法及装置、搜索结果处理方法及装置
Hong et al. An efficient tag recommendation method using topic modeling approaches
CN113010573A (zh) 一种关联关系提取方法、装置及电子设备
Balaji et al. Finding related research papers using semantic and co-citation proximity analysis
CN111507105A (zh) 一种基于语义相似性分析的技术文件相似性排查方法
CN114637824B (zh) 数据增强处理方法及装置
CN117743558B (zh) 基于大模型的知识加工、知识问答方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant