CN113761928A - 一种基于词频打分算法获取法律文书案件地点的方法 - Google Patents

一种基于词频打分算法获取法律文书案件地点的方法 Download PDF

Info

Publication number
CN113761928A
CN113761928A CN202111058173.5A CN202111058173A CN113761928A CN 113761928 A CN113761928 A CN 113761928A CN 202111058173 A CN202111058173 A CN 202111058173A CN 113761928 A CN113761928 A CN 113761928A
Authority
CN
China
Prior art keywords
sentence
word
judicial
score
literature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111058173.5A
Other languages
English (en)
Inventor
汪天翔
张雨侠
吴雨豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Research Institute of Big Data SRIBD
Original Assignee
Shenzhen Research Institute of Big Data SRIBD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Research Institute of Big Data SRIBD filed Critical Shenzhen Research Institute of Big Data SRIBD
Priority to CN202111058173.5A priority Critical patent/CN113761928A/zh
Publication of CN113761928A publication Critical patent/CN113761928A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools

Abstract

本发明公开了一种基于词频打分算法获取法律文书案件地点的方法,先使用传统特征工程进行数据清洗和规则化,再通过TF‑IDF和权重矫正算法给地理句子打分,最终再通过多标签体系找到详细的位置,可以有效提高法律文书犯罪地点提取的准确性。

Description

一种基于词频打分算法获取法律文书案件地点的方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于词频打分算法获取法律文书案件地点的方法。
背景技术
NLP(Natural Language Processing)即自然语言处理,是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
在我国司法公开的大背景下,对于法律文书的研究成为了学界业界十分重要的一个课题,而对于文书中提到的案件发生的地理位置也是一个十分重要的变量,其可以用来分析区域民事纠纷、犯罪地点的分布情况。但是由于自然语言规律比较庞杂,单纯使用传统的正则提取十分困难。
发明内容
针对现有技术的不足,本发明旨在提供一种基于词频打分算法获取法律文书案件地点的方法,使用词频融合的算法来来进行文本提取,解决信息提取不准确的问题。
为了实现上述目的,本发明采用如下技术方案:
一种基于词频打分算法获取法律文书案件地点的方法,具体过程为:
S1、将待处理的司法文书采用分类算法分成设定的各种文书类型;
S2、将经过分类后的司法文书进行特征提取,获得待处理司法文书中包含地理位置的句子列表和受理法院名称的信息;
S3、通过top10和top1的TF-IDF融合算法得到待处理司法文书的句子列表中每个句子的评分;具体过程为:
S3.1、对每一种文书类型均找到2000份该文书类型下的司法文书样本;
S3.2、对每种文书类型,均将每份司法文书样本进行分句,然后将分句中的含有地理位置的句子筛选出来,再人工给这些句子打分;打分标准为:将地理位置从低到高分为省、市、区/县、街道、小区、楼宇信息、房间信息七个等级,等级越高,分数的权重越高,每个句子的分数为该句子中含有的地理位置中所有等级的分数总和;完成人工打分后,对每份司法文书均找出含有地理位置的分数最高的前10个句子和其中分数最高的句子;
S3.3、对于每种文书类型,均将每份司法文书样本的最高分的10个句子进行分词,然后通过TF-IDF词频算法得到每个词语的分数;计算公式如下:
TF词频公式为:
Figure BDA0003255379540000021
IDF逆词频公式为:
Figure BDA0003255379540000022
TF-IDF最终的公式为:tfidfi,j=tfi,j×idfi
其中,nk,j是词语ti在文书dj中的出现次数,∑knk,j是在文书dj中所有词语的出现次数之和;|D|为文书总数,|{j:ti∈dj}|为包含词语ti的文书数目;
S3.4、对于每种文书类型,均对每份司法文书样本里面的最高分句子进行分词,也通过TF-IDF词频算法得到每个词语的分数;
S3.5、形成每种文书类型的地理词库打分算法,每种文书类型的地理词库打分算法中,每个词语的分数由步骤S3.3中获得的该词语的分数和步骤S3.4中获得的该词语的分数各占50%权重加总得出;
S3.6、将步骤S2获得的司法文书的包含地理位置的句子列表中每一个句子进行分词,并根据其所属的文书类型利用步骤S5形成的相应的地理词库打分算法对句子中的各个词语进行打分并加总得到该句子的最终分数,从而得到一个得分最高的句子,然后跳转至步骤S4;
S4、对待处理司法文书的评分最高的句子进行地理位置的特征提取,得到该司法文书的案件地点;具体过程为:
S4.1、利用步骤S2获得的受理法院名称,获得该受理法院名称的地理位置信息;
S4.2、对步骤S3.6获得的得分最高的句子中的地理位置,通过全国的省市区词库找到对应的省、市、县,通过详细地址的词库找到这个句子里面提到的街道、小区、酒店的相关详细地址信息;
S4.3、融合步骤S4.1和步骤S4.2得到的地理信息,通过校验和拼接,得到最终的案件地点。
进一步地,步骤S1的具体过程为:
以待处理的司法文书作为输入,先根据司法文书的标题初步判断其属于哪种类型,如果根据标题无法识别出其文书类型,进一步通过各种文书类型对应的案由关键词库对于该司法文书进行二次划分,最终将输入的司法文书进行分类。
进一步地,步骤S2的具体过程为:
S2.1、从待处理司法文书的正文中将受理法院名称通过特征工程提取出来;
S2.2、对待处理司法文书的正文进行分句,得到一个初始句子列表,然后通过现有的地理词库和自行搜集构建的地理词库,判断每个句子中是否包含地理位置,如果没有则丢弃该句子,如果有则存留下来,最终过滤得到一个该司法文书的包含地理位置的句子列表。
进一步地,步骤S3.2中,每一个等级所得的分数为2^x,,x表示等级,省、市、区/县、街道、小区、楼宇信息、房间信息的等级x分别为0,1,2,…,6。
本发明提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述方法。
本发明提供一种设备,包括处理器和存储器,所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序时,实现上述方法。
本发明的有益效果在于:本发明对司法文书中的案件地理位置提取的时候,通过TF-IDF和权重矫正算法给地理句子打分,最终再通过多标签体系找到详细的位置,可以有效提高法律文书犯罪地点提取的准确性。
附图说明
图1为本发明实施例方法的总体流程示意图;
图2为本发明实施例方法中步骤S1的流程示意图;
图3为本发明实施例方法中步骤S2的流程示意图;
图4为本发明实施例方法中步骤S3的流程示意图;
图5为本发明实施例方法中步骤S4的流程示意图。
具体实施方式
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
本实施例提供一种基于词频打分算法获取法律文书案件地点的方法,如图1所示,具体过程为:
S1、将待处理的司法文书采用分类算法分成刑事、民事、行政、执行等各种文书类型;
S2、将经过分类后的司法文书进行特征提取,获得待处理司法文书中包含地理位置的句子列表和受理法院名称等相关信息;
S3、通过top10和top1的TF-IDF融合算法得到待处理司法文书的句子列表中每个句子的评分;
S4、对待处理司法文书的评分最高的句子进行地理位置的特征提取,得到该司法文书的案件地点。
进一步地,如图2所示,步骤S1的具体过程为:
以待处理的司法文书作为输入,先根据司法文书的标题初步判断其属于哪种类型,如果根据标题无法识别出其文书类型,进一步通过各种文书类型对应的案由关键词库对于该司法文书进行二次划分,最终将输入的司法文书进行分类。先对司法文书进行分类的目的在于方便后续过程对不同格式的文书进行区分处理。
进一步地,如图3所示,步骤S2的具体过程为:
S2.1、从待处理司法文书的正文中将受理法院名称通过特征工程提取出来;
S2.2、对待处理司法文书的正文进行分句,得到一个初始句子列表,然后通过现有的地理词库和自行搜集构建的地理词库,判断每个句子中是否包含地理位置,如果没有则丢弃该句子,如果有则存留下来,最终过滤得到一个该司法文书的包含地理位置的句子列表。
进一步地,如图4所示,步骤S3的具体过程为:
S3.1、对每一种文书类型均找到2000份该文书类型下的司法文书样本。
S3.2、对每种文书类型,均将每份司法文书样本进行分句,然后将分句中的含有地理位置的句子筛选出来,再人工给这些句子打分;打分标准为:将地理位置从低到高分为省、市、区/县、街道、小区、楼宇信息、房间信息七个等级,等级越高,分数的权重越高,每个句子的分数为该句子中含有的地理位置中所有等级的分数总和;完成人工打分后,对每份司法文书均找出含有地理位置的分数最高的前10个句子(不足的后面留空)和分数最高的句子(即前面10个句子中分数最高的句子)。
在本实施例中,每一个等级所得的分数为2^x,,x表示等级,省、市、区/县、街道、小区、楼宇信息、房间信息的等级x分别为0,1,2,…,6。例如,省为2^0=1,那么市即为2^1=2,如果一个句子中含有的地理位置包括有省、市、区/县,则该句子的分数就是2^0+2^1+2^2=7,这样就可以对于句子有一个初步的打分。
S3.3、对于每种文书类型,均将每份司法文书样本的最高分的10个句子进行分词,然后通过TF-IDF词频算法得到每个词语的分数;计算公式如下:
TF词频公式为:
Figure BDA0003255379540000071
IDF逆词频公式为:
Figure BDA0003255379540000072
TF-IDF最终的公式为:tfidfi,j=tfi,j×idfi
其中,ni,j是词语ti在文书dj中的出现次数,∑knk,j是在文书dj中所有词语的出现次数之和;|D|为文书总数,|{j:ti∈dj}|为包含词语ti的文书数目(即ni,j≠0的文书数目)。
例如,在某个一共有100词的句子中“街道”、“的”和“抓获”分别出现了1次、5次和2次,分词文书句子总量正好是20000(2000*10);"的"在15000个句子中出现过;“街道”在300个句子中出现过,“抓获”在500的句子中出现,如果新输入的句子是:‘李某在广东省龙岗区的惠盐街道抢劫被抓获’,通过分词找到了里面的关键词‘街道’,‘的’,‘抓获’几个关键词,首先计算TF(词频):街道:0.015;的:0.75;应用:0.025;然后计算IDF(逆文档频率):街道:log(20000/300)=1.8239;的:log(20000/15000)=0.1249;应用:log(20000/500)=1.6020;最后该句子计算的TF-IDF=0.015*1.8239+0.75*0.1249+0.025*1.602=0.1610。
S3.4、对于每种文书类型,均对每份司法文书样本里面的最高分句子进行分词,也通过TF-IDF词频算法得到每个词语的分数;
S3.5、形成每种文书类型的地理词库打分算法,每种文书类型的地理词库打分算法中,每个词语的分数由步骤S3.3中获得的该词语的分数和步骤S3.4中获得的该词语的分数各占50%权重加总得出;
S3.6、将步骤S2获得的司法文书的包含地理位置的句子列表中每一个句子进行分词,并根据其所属的文书类型利用步骤S5形成的相应的地理词库打分算法对句子中的各个词语进行打分并加总得到该句子的最终分数,从而得到一个得分最高的句子,然后跳转至步骤S4。
进一步地,如图5所示,步骤S4的具体过程为:
S4.1、利用步骤S2获得的受理法院名称,获得该受理法院名称的地理位置信息;
S4.2、对步骤S3.6获得的得分最高的句子中的地理位置,通过全国的省市区词库找到对应的省、市、县,通过详细地址的词库找到这个句子里面提到的如街道、小区、酒店的相关详细地址信息。
S4.3、融合步骤S4.1和步骤S4.2得到的地理信息,通过校验和拼接,得到最终的案件地点。
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。

Claims (6)

1.一种基于词频打分算法获取法律文书案件地点的方法,其特征在于,具体过程为:
S1、将待处理的司法文书采用分类算法分成设定的各种文书类型;
S2、将经过分类后的司法文书进行特征提取,获得待处理司法文书中包含地理位置的句子列表和受理法院名称的信息;
S3、通过top10和top1的TF-IDF融合算法得到待处理司法文书的句子列表中每个句子的评分;具体过程为:
S3.1、对每一种文书类型均找到2000份该文书类型下的司法文书样本;
S3.2、对每种文书类型,均将每份司法文书样本进行分句,然后将分句中的含有地理位置的句子筛选出来,再人工给这些句子打分;打分标准为:将地理位置从低到高分为省、市、区/县、街道、小区、楼宇信息、房间信息七个等级,等级越高,分数的权重越高,每个句子的分数为该句子中含有的地理位置中所有等级的分数总和;完成人工打分后,对每份司法文书均找出含有地理位置的分数最高的前10个句子和其中分数最高的句子;
S3.3、对于每种文书类型,均将每份司法文书样本的最高分的10个句子进行分词,然后通过TF-IDF词频算法得到每个词语的分数;计算公式如下:
TF词频公式为:
Figure FDA0003255379530000011
IDF逆词频公式为:
Figure FDA0003255379530000012
TF-IDF最终的公式为:tfidfi,j=tfi,j×idfi
其中,ni,j是词语ti在文书dj中的出现次数,∑knk,j是在文书dj中所有词语的出现次数之和;|D|为文书总数,|{j:ti∈dj}|为包含词语ti的文书数目;
S3.4、对于每种文书类型,均对每份司法文书样本里面的最高分句子进行分词,也通过TF-IDF词频算法得到每个词语的分数;
S3.5、形成每种文书类型的地理词库打分算法,每种文书类型的地理词库打分算法中,每个词语的分数由步骤S3.3中获得的该词语的分数和步骤S3.4中获得的该词语的分数各占50%权重加总得出;
S3.6、将步骤S2获得的司法文书的包含地理位置的句子列表中每一个句子进行分词,并根据其所属的文书类型利用步骤S5形成的相应的地理词库打分算法对句子中的各个词语进行打分并加总得到该句子的最终分数,从而得到一个得分最高的句子,然后跳转至步骤S4;
S4、对待处理司法文书的评分最高的句子进行地理位置的特征提取,得到该司法文书的案件地点;具体过程为:
S4.1、利用步骤S2获得的受理法院名称,获得该受理法院名称的地理位置信息;
S4.2、对步骤S3.6获得的得分最高的句子中的地理位置,通过全国的省市区词库找到对应的省、市、县,通过详细地址的词库找到这个句子里面提到的街道、小区、酒店的相关详细地址信息;
S4.3、融合步骤S4.1和步骤S4.2得到的地理信息,通过校验和拼接,得到最终的案件地点。
2.根据权利要求1所述的方法,其特征在于,步骤S1的具体过程为:
以待处理的司法文书作为输入,先根据司法文书的标题初步判断其属于哪种类型,如果根据标题无法识别出其文书类型,进一步通过各种文书类型对应的案由关键词库对于该司法文书进行二次划分,最终将输入的司法文书进行分类。
3.根据权利要求1所述的方法,其特征在于,步骤S2的具体过程为:
S2.1、从待处理司法文书的正文中将受理法院名称通过特征工程提取出来;
S2.2、对待处理司法文书的正文进行分句,得到一个初始句子列表,然后通过现有的地理词库和自行搜集构建的地理词库,判断每个句子中是否包含地理位置,如果没有则丢弃该句子,如果有则存留下来,最终过滤得到一个该司法文书的包含地理位置的句子列表。
4.根据权利要求1所述的方法,其特征在于,步骤S3.2中,每一个等级所得的分数为2^x,,x表示等级,省、市、区/县、街道、小区、楼宇信息、房间信息的等级x分别为0,1,2,…,6。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法。
6.一种设备,其特征在于,包括处理器和存储器,所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序时,实现权利要求1-4任一所述的方法。
CN202111058173.5A 2021-09-09 2021-09-09 一种基于词频打分算法获取法律文书案件地点的方法 Pending CN113761928A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111058173.5A CN113761928A (zh) 2021-09-09 2021-09-09 一种基于词频打分算法获取法律文书案件地点的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111058173.5A CN113761928A (zh) 2021-09-09 2021-09-09 一种基于词频打分算法获取法律文书案件地点的方法

Publications (1)

Publication Number Publication Date
CN113761928A true CN113761928A (zh) 2021-12-07

Family

ID=78794488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111058173.5A Pending CN113761928A (zh) 2021-09-09 2021-09-09 一种基于词频打分算法获取法律文书案件地点的方法

Country Status (1)

Country Link
CN (1) CN113761928A (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080104506A1 (en) * 2006-10-30 2008-05-01 Atefeh Farzindar Method for producing a document summary
JP2015194919A (ja) * 2014-03-31 2015-11-05 大日本印刷株式会社 文書要約装置、文書要約方法、及び、プログラム
CN108197163A (zh) * 2017-12-14 2018-06-22 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
CN108829780A (zh) * 2018-05-31 2018-11-16 北京万方数据股份有限公司 文本检测方法、装置、计算设备及计算机可读存储介质
CN108920579A (zh) * 2018-06-22 2018-11-30 龙马智芯(珠海横琴)科技有限公司 句子的分类方法、装置、终端设备及存储介质
CN110059311A (zh) * 2019-03-27 2019-07-26 银江股份有限公司 一种面向司法文本数据的关键词提取方法及系统
CN110413783A (zh) * 2019-07-23 2019-11-05 银江股份有限公司 一种基于注意力机制的司法文本分类方法及系统
CN111815426A (zh) * 2020-09-11 2020-10-23 深圳司南数据服务有限公司 一种涉及金融投研的数据处理方法及终端
CN112163219A (zh) * 2020-08-27 2021-01-01 北京航空航天大学 一种基于词嵌入和gcn的恶意程序识别和分类方法
CN112650838A (zh) * 2020-12-31 2021-04-13 南京视察者智能科技有限公司 一种基于历史案件大数据的智能问答方法及系统
CN113239681A (zh) * 2021-05-19 2021-08-10 苏州黑云智能科技有限公司 一种法院案件卷宗识别方法
CN113254651A (zh) * 2021-06-28 2021-08-13 人民法院信息技术服务中心 一种裁判文书的分析方法、装置、计算机设备及存储介质
CN113312474A (zh) * 2020-02-27 2021-08-27 北京睿客邦科技有限公司 一种基于深度学习的法律文书的相似案件智能检索系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080104506A1 (en) * 2006-10-30 2008-05-01 Atefeh Farzindar Method for producing a document summary
JP2015194919A (ja) * 2014-03-31 2015-11-05 大日本印刷株式会社 文書要約装置、文書要約方法、及び、プログラム
CN108197163A (zh) * 2017-12-14 2018-06-22 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
CN108829780A (zh) * 2018-05-31 2018-11-16 北京万方数据股份有限公司 文本检测方法、装置、计算设备及计算机可读存储介质
CN108920579A (zh) * 2018-06-22 2018-11-30 龙马智芯(珠海横琴)科技有限公司 句子的分类方法、装置、终端设备及存储介质
CN110059311A (zh) * 2019-03-27 2019-07-26 银江股份有限公司 一种面向司法文本数据的关键词提取方法及系统
CN110413783A (zh) * 2019-07-23 2019-11-05 银江股份有限公司 一种基于注意力机制的司法文本分类方法及系统
CN113312474A (zh) * 2020-02-27 2021-08-27 北京睿客邦科技有限公司 一种基于深度学习的法律文书的相似案件智能检索系统
CN112163219A (zh) * 2020-08-27 2021-01-01 北京航空航天大学 一种基于词嵌入和gcn的恶意程序识别和分类方法
CN111815426A (zh) * 2020-09-11 2020-10-23 深圳司南数据服务有限公司 一种涉及金融投研的数据处理方法及终端
CN112650838A (zh) * 2020-12-31 2021-04-13 南京视察者智能科技有限公司 一种基于历史案件大数据的智能问答方法及系统
CN113239681A (zh) * 2021-05-19 2021-08-10 苏州黑云智能科技有限公司 一种法院案件卷宗识别方法
CN113254651A (zh) * 2021-06-28 2021-08-13 人民法院信息技术服务中心 一种裁判文书的分析方法、装置、计算机设备及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ZHONGHAO LI: "A Classification Retrieval Approach for English Legal Texts", 2019 INTERNATIONAL CONFERENCE ON INTELLIGENT TRANSPORTATION, BIG DATA & SMART CITY, 21 March 2019 (2019-03-21), pages 220 *
张健东;: "基于法律大数据的智能系统", 工业控制计算机, vol. 33, no. 05, 25 May 2020 (2020-05-25), pages 69 *
王云飞等: "利用文本相似度计算的装配工作指令评估", 控制工程, vol. 28, no. 3, 20 March 2021 (2021-03-20), pages 592 *
王天宇等: "基于Transformer的新闻情感分析算法", 现代计算机, vol. 27, no. 24, 25 August 2021 (2021-08-25), pages 67 *
胡中皓: "基于规则和情感的法治舆情监测系统研究与实现", 中国优秀硕士学位论文全文数据库社会科学Ⅱ辑, no. 12, 15 December 2020 (2020-12-15), pages 123 - 10 *

Similar Documents

Publication Publication Date Title
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN109543178B (zh) 一种司法文本标签体系构建方法及系统
CN108563790B (zh) 一种语义理解方法及装置、设备、计算机可读介质
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和系统
CN107168954B (zh) 文本关键词生成方法及装置和电子设备及可读存储介质
WO2021043087A1 (zh) 文字布局方法、装置、电子设备及计算机可读存储介质
CN107679075B (zh) 网络监控方法和设备
CN110298039B (zh) 事件地的识别方法、系统、设备及计算机可读存储介质
CN112559658B (zh) 一种地址匹配方法及装置
CN108829661A (zh) 一种基于模糊匹配的新闻主体名称提取方法
CN109033212A (zh) 一种基于相似度匹配的文本分类方法
CN110750995A (zh) 一种基于自定义图谱的文件管理方法
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
CN112149422B (zh) 一种基于自然语言的企业新闻动态监测方法
CN108681977B (zh) 一种律师信息处理方法和系统
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN110287493B (zh) 风险短语识别方法、装置、电子设备及存储介质
CN112487306B (zh) 基于知识图谱的自动化事件标记与分类方法
CN107943937B (zh) 一种基于司法公开信息分析的债务人资产监控方法及系统
CN112307364B (zh) 一种面向人物表征的新闻文本发生地抽取方法
CN112183093A (zh) 一种企业舆情分析方法、装置、设备及可读存储介质
CN109241438B (zh) 基于要素的跨通道热点事件发现方法、装置及存储介质
CN109918661B (zh) 同义词获取方法及装置
CN109857746B (zh) 双语词库的自动更新方法、装置与电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination