CN109145097A - 一种基于信息提取的裁判文书分类方法 - Google Patents

一种基于信息提取的裁判文书分类方法 Download PDF

Info

Publication number
CN109145097A
CN109145097A CN201810595918.3A CN201810595918A CN109145097A CN 109145097 A CN109145097 A CN 109145097A CN 201810595918 A CN201810595918 A CN 201810595918A CN 109145097 A CN109145097 A CN 109145097A
Authority
CN
China
Prior art keywords
keyword
judgement document
document
judgement
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810595918.3A
Other languages
English (en)
Inventor
许建峰
孙福辉
王晓燕
骆斌
李忠金
雷妙妙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
People's Court Information Technology Service Center
Original Assignee
People's Court Information Technology Service Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by People's Court Information Technology Service Center filed Critical People's Court Information Technology Service Center
Priority to CN201810595918.3A priority Critical patent/CN109145097A/zh
Publication of CN109145097A publication Critical patent/CN109145097A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于信息提取的裁判文书分类方法,其步骤包括:建立裁判文书分类词库;使用正则表达式提取裁判文书段落;对提取的提取裁判文书段落进行关键词标注;关键词的特征提取;使用条件随机场算法训练模型;使用条件随机场算法自动标注裁判文书关键词;根据裁判文书的关键词,使用逆向匹配技术在建立的裁判文书分类词库中进行关键词匹配,输出裁判文书类别。本发明不仅能有效地将文书进行分类,而且还能标记文书中所涉及的产品,在文本分类技术领域具有广泛的应用价值,尤其适用于裁判文书的大数据分析研究。

Description

一种基于信息提取的裁判文书分类方法
技术领域
本发明属于文本分类技术领域,涉及一种分类方法。尤其涉及一种基于信息提取的裁判文书分类方法,
背景技术
裁判文书属于特定的文本范畴,它是记载人民法院审理案件的过程和结果,是诉讼活动结果的载体,也是人民法院确定和分配当事人实体权利义务的惟一凭证。不同于一般的文本,裁判文书都是结构完整、要素齐全、逻辑严谨的文本,它有常见文本没有的规范性和结构性。裁判文书中包含大量的司法和经济信息,通过深入对裁判文书的分类和全面分析,能梳理出相关司法的审判现状,找出相关的法律要素,剖析我国司法和经济中存在的问题,因此对裁判文书进行文书分类的研究非常重要。
文书分类是一种确定文章所属类别的分析方法,利用计算机对文本集按照一定的分类体系或标准进行自动分类,属于同一类别的文本被标上相同的类别标记的方法。目前,最高人民法院数据集中管理平台已经收集了大约2000万份的裁判文书,文本自动分类显得尤其重要,特别是现在面对海量的文本,人工分类已经无能为力。
目前用于文书分类的技术有很多,主流技术多数是基于统计学习法的,这些方法中比较著名的有朴素贝叶斯分类法(NB)、支持向量机算法(SVM)、基于最大熵模型的文本分类法、K邻近算法(KNN)等。这些分类算法一般采用向量空间模型(Vector Space Model,VSM)表示文本,当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。此类方法都需要对文本进行分词生成大量分词文本,还要有足够大的语料库用于机器的监督学习,具有操作复杂、运算量大的缺陷。而且,对大数据的裁判文书的分析不仅需要精确的分类,还需要统计出文书中涉及到的诉讼原因、诉讼结果、诉讼产品、造成结果等等信息,用于司法信息统计和法院领导决策。现有的分类算法都不能够即完成裁判文书的分类,还能够得到文书的诉讼信息。
发明内容
本发明的目的是为了解决上述技术所存在的不足之处,提供一种基于信息提取的裁判文书分类方法。
本发明解决其技术问题说采用的技术方案如下:
步骤(1)建立裁判文书分类词库;
步骤(2)使用正则表达式提取裁判文书段落;
步骤(3)对提取的提取裁判文书段落进行关键词标注;
步骤(4)关键词的特征提取;
步骤(5)使用条件随机场算法训练模型;
步骤(6)使用条件随机场算法自动标注裁判文书关键词;
步骤(7)根据裁判文书的关键词,使用逆向匹配技术在建立的裁判文书分类词库中进行关键词匹配,输出裁判文书类别。
所述步骤(1)中建立裁判文书分类词库的具体方法为:
(1.1)根据国家行业分类标准,对裁判文书所需要的类别进行分类;
(1.2)根据每个分类类别,整理该类别相对应的关键词,从而建立裁判文书分类关键词库。
所述步骤(2)中采用正则表达式提取裁判文书段落的具体方法为:
(2.1)编写正则表达式,并根据编写的正则表达式提取裁判文书中的“原告诉称段”段落。
所述的步骤(3)中裁判文书段落进行关键词标的具体方法为:
对“原告诉称段”段落进行关键词标注,关键词类别包括行业词汇名以及其他名称;领域词汇名包括:化工、服装、建筑、机械、食品以及药品等。
根据提取的关键词,初步标记该段落的所属类别;
所述的步骤(4)中关键词的特征提取如下:
(4.1)对提取的提取裁判文书段落进行分句,获取步骤(3)中标注的关键词的词性和词语本身,同时获取关键词在段中的所处位置;
(4.2)对每一个分句进行分词,获取关键词在分句中的所处位置;
(4.3)计算关键词的TF-IDF值;
(4.4)重复步骤(4.1)~(4.3),从而提取关键词的前置词和后置词的属性,生成属性集合;属性包括在段中位置、句中位置、TF-IDF值、词性和词语本身。属性集合包括关键词属性、关键词的前置词属性以及关键词的后置词属性。
所述步骤(4.1)的分句通过标点符号完成,分句的标点符号包括逗号、顿号、分号、冒号、句号、感叹号和问号。
所述步骤(4.3)的关键词的TF-IDF值的计算如下:
TF-IDF=TF(w)*IDF(w)
TF(w)=词语w在词汇集合Ⅲ中频率数/词汇集合Ⅲ中的词汇数量
IDF(w)=ln(所有裁判文书段落的总数/包含字符w的所有裁判文书段落的总数)
所述的步骤(5)中使用条件随机场算法训练模型,具体实现如下:
将训练集输入条件随机场算法,训练得到文书标注模型。其中属性集合的70%作为训练集,30%作为测试集;
所述的步骤(6)中使用条件随机场算法自动标注裁判文书关键词,具体实现如下:
将待标记的裁判文书输入到文书标注模型,得到该裁判文书对应的关键词。
所述的步骤(7)中根据裁判文书的关键词,使用逆向匹配技术在建立的裁判文书分类词库中进行关键词匹配,具体实现如下:
根据步骤(6)获得的关键词,使用逆向匹配技术在步骤(1)中建立的分类关键词库中进行匹配,从而得出该文书所属的类别。
本发明有益效果如下:
本发明不仅能有效地将裁判文书进行分类,而且还能标记文书中所涉及的产品,尤其适用于裁判文书的大数据分析研究。
通过本发明,司法研究人员根据裁判文书需要分类的类别,利用信息提取技术抽取文书中具有分类效果的关键词,然后根据逆向匹配的思想进行文书分类和关键词标记。
本发明提出的文书分类方法,具有运算量小、操作简单的优点,该方法不仅能有效地将文书进行分类,而且还能标记文书中所涉及的产品,在文本分类技术领域具有广泛的应用价值,尤其适用于裁判文书的分类研究。
附图说明
图1为本发明的整体步骤流程图。
图2为实施例的文书示例。
具体实施方式
为使本发明的目的、技术方案和优点更加清晰,下面将结合附图及具体实施例对本发明进行详细描述。
本发明的目的在于针对裁判文书分类问题,提出一种基于信息提取的裁判文书的自动分类方法。首先通过使用特定的正则规则,提取文书中与文本分类目标相关的段落,避免了全篇幅使用文书引入其他无关信息的问题;然后使用信息提取的方法抽取出文书中对分类效果有关的关键词;最后利用逆向匹配的思想进行关键词匹配,标记文书分类类别和所涉及到的诉讼信息。
如图1所示,本发明概括来说主要包括以下步骤:
步骤(1)建立裁判文书分类词库;
步骤(2)使用正则表达式提取裁判文书段落;
步骤(3)对提取的提取裁判文书段落进行关键词标注;
步骤(4)关键词的特征提取;
步骤(5)使用条件随机场算法训练模型;
步骤(6)使用条件随机场算法自动标注裁判文书关键词;
步骤(7)根据裁判文书的关键词,使用逆向匹配技术在建立的裁判文书分类词库中进行关键词匹配,输出裁判文书类别。
实施例
以裁判文书中有关民事产品质量纠纷的行业分类作为例子,对上述步骤分别进行实例描述。
步骤1.由最高人民法院数据集中管理平台收集的全国案件来看,民事案件的种类不仅繁多而且案件数量最多。根据裁判文书的写作要求,每篇文书都会带有案由标记,用于区分案件所属的大类。然而,只是根据案由分类来进行数据统计分析显然远远不够,通常是要分析某一个案由下的案件分类情况。那么,建立裁判文书分类词库的具体步骤包括:
(1.1)根据国家行业分类标准,对裁判文书所需要的类别进行分类。
以裁判文书中有关民事产品质量纠纷的行业分类作为例子,一般将民事文书涉及的分类分为:机械设备、农副食品、食品药品、酒水饮料茶、五金建材、化工、纺织服饰、电子通讯、交通运输、家电、文体生活用品、种植养殖和其他行业。
(1.2)根据每个分类类别,整理该类别相对应的关键词,从而建立裁判文书分类关键词库。
每个文书分类类别中,都会涉及到特定的关键词。如代表家电行业的关键词是洗衣机、微波炉、电饭锅、冰箱;再如,楼板、水泥、熟料管等词是属于五金建材行业;而衣服、大衣、裙子、T恤等关键词属于纺织服装行业。所以,每个行业分类都会有特定的一些关键词,界限非常清晰。因此,根据国家发布的国家行业分类标准或《国民经济行业分类》整理分类类别下的关键词。
(1.2)根据每个分类类别,整理该类别相对应的关键词,从而建立裁判文书分类关键词库。
步骤2.民事案件裁判文书的包含多个层次内容,其中很多段落与文书分类没有直接的联系,如原告、被告的诉称段落。为了提高信息抽取算法的精确度,只需要提取文书中对分类起决定性的段落,例如裁判文书中“原告诉称段”部分。文书通常是由word或txt格式存储,如图2中的文书片段所示。那么使用正则表达式提取文书段落的具体步骤包括:
(2.1)编写正则表达式抽取出裁判文书中的“原告诉称段”段落。可以用正则表达式“原告.*?诉称[\S\s]*(?=经审理查明)”来提取这一段落中的原告诉称段。
步骤3.对提取的提取裁判文书段落进行关键词标注,主要采用的思想是提取文书中的代表分类效果的关键词。所以需要利用人工的方式对文书中的关键词进行标记,然后进行机器学习以达到精确提取关键词的目的。那么标注裁判文书关键词的具体方法为:
(3.1)人工标注出裁判文书中具有分类效果的关键词。如图2中所示,为该文书标记的关键词为“灵芝片”。需要注意的是,涉及产品质量的文书至少会有一个关键词;在遇到一篇有多个关键词的时候,提取第一个关键词作为分类的标准。
步骤4.由于原始的裁判文书无法直接被输入到数学模型中进行计算,为了使用机器学习方法训练和测试关键词标注模型,从而自动从文本中抽取分类目标需要的关键词,裁判文书需要进行特征提取。特征提取方法能将原始文本转换成可计算的特征空间,为了提高关键词标注模型的准确度,充分挖掘文本信息和关键词特征十分必要,那么特征提取的具体方法为:
(4.1)对提取的提取裁判文书段落进行分句,获取步骤(3)中标注的关键词的词性和词语本身,同时获取关键词在段中的所处位置;
对文书段落分句的方法为:建立一个断句的字符列表,包含表达断句意义的字符,如“,.!?:;~,。!?:;~”,遍历段落,当匹配到断句符就拆分句子,记录下句子的编号。
(4.2)对每一个分句进行分词,获取关键词在分句中的所处位置;
对段落分句后的每一个句子进行分词,记录词语在句子中的位置。在步骤(4.1)中已经计算出句子在段落的位置,根据词语在句中所处位置,以及句子在段落中所处位置,我们可以得到每一个词语的位置特征。
(4.3)计算关键词的TF-IDF值;
(4.4)重复步骤(4.1)~(4.3),从而提取关键词的前置词和后置词的属性,生成属性集合;属性包括在段中位置、句中位置、TF-IDF值、词性和词语本身。属性集合包括关键词属性、关键词的前置词属性以及关键词的后置词属性。
所述步骤(4.1)的分句通过标点符号完成,分句的标点符号包括逗号、顿号、分号、冒号、句号、感叹号和问号。
所述步骤(4.3)的关键词的TF-IDF值的计算如下:
TF-IDF=TF(w)*IDF(w);
TF(w)=词语w在词汇集合Ⅲ中频率数/词汇集合Ⅲ中的词汇数量;
IDF(w)=ln(所有裁判文书段落的总数/包含字符w的所有裁判文书段落的总数);
TF表示词语在一段文本中的出现频率,IDF表示出现该词的文本在所有文本中的比例的倒数,TF-IDF等于TF和IDF的乘积。TF-IDF可以用来确定一个词语的重要性。通过计算词语的TF-IDF值,能够得到每一个词语的重要程度特征。
步骤5.将训练集输入条件随机场算法,训练得到文书标注模型。其中属性集合的70%作为训练集,30%作为测试集;为了实现自动的信息抽取,机器学习被用于对文本中的每一个词进行分类,例如,“原告两次在被告处购买了灵芝片”,为了抽取这句话中的关键词,机器学习需要对每一个词语进行分类,判断它的所属类别,在本例中,分类为这个词“是”或“不是”关键词。条件随机场算法能够实现顺序标注,即将一整句话转换为特征向量后,调用条件随机场算法,能够输出每一个词语的所属类别。
步骤6.使用条件随机场算法训练出文本关键词标注模型后,使用该模型自动标注文本的关键词。那么使用条件随机场算法自动标注裁判文书关键词的具体方法为:
将待标记的裁判文书输入到文书标注模型,得到该裁判文书对应的关键词。
步骤7.根据步骤6获得的关键词,使用逆向匹配技术在步骤1中建立的分类关键词库中进行匹配,从而得出该文书所属的类别;
逆向匹配算法思想大致为:先构造一个带权值的分类主题词表,然后依次从表中取出关键词到待分类的文本中进行模式匹配,匹配成功则加上该词对应的权值,依次统计每一类关键词匹配后得到的权值和,所有类别匹配完成后,取权值和最大者作为文书所属的类别。值得注意的是,在本发明中我们只使用一个关键词来代表文书。那么使用逆向匹配技术进行关键词匹配的具体方法为:
根据每篇裁判文书的关键词,使用逆向匹配技术在分类关键词库中进行匹配。以图2中的文书为例,利用信息提取方法提取的关键词是“灵芝片”。那么根据之前建立的文书分类关键词库,关键词“灵芝片”存在于酒水饮料茶行业的关键词库中。因此,逆向匹配的做法就是用代表文书的关键词,在所有行业的关键词库中进行遍历和匹配,一旦成功则匹配结束。
利用逆向匹配算法之后,最后将文书的分类结果进行标记,并记录文书所涉及的诉讼产品。
本发明对裁判文书分类测试时,数据集中70%的文书作为训练集,30%文书作为测试集,并获得了良好的结果。
根据逆向匹配的结果标记文书所属的类别和涉及到的诉讼产品。此时,关键词匹配成功之后,不仅能将文书进行了精确的分类,而且还能记录文书中的诉讼产品。再以图2中的文书为例,其所属的分类为酒水饮料茶,而且涉及到的诉讼产品为“灵芝片”。
本发明的分类效果与现有分类方法进行比较。在同样的训练集和测试集基础上,表1展示了多种分类算法的准确率,其中本发明提出的基于信息提取的裁判文书分类方法的分类效果最佳。
表1 准确率对比
分类算法 分类准确率
朴素贝叶斯 0.71
决策树 0.69
随机森林 0.78
支持<u>向量机</u> 0.84
基于信息提取方法 0.85
至此,上面已经参考附图对根据本发明实施的一种基于信息提取的裁判文书分类方法进行了详细描述。本发明具有如下优点:建立裁判文书分类的关键词库;使用正则表达式提取只与文本分类相关的目标段落;使用信息提取的方法抽取出表示文书的关键词;采用逆向匹配方法进行文书分类。通过上述文书分类方法,已经有效地将文书进行分类,并且可以同时标记出文书所涉及的诉讼产品。
上述实施方式并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换,也均属于本发明的保护范围。

Claims (8)

1.一种基于信息提取的裁判文书分类方法,其特征在于包括如下步骤:
步骤(1)建立裁判文书分类词库;
步骤(2)使用正则表达式提取裁判文书段落;
步骤(3)对提取的提取裁判文书段落进行关键词标注;
步骤(4)关键词的特征提取;
步骤(5)使用条件随机场算法训练模型;
步骤(6)使用条件随机场算法自动标注裁判文书关键词;
步骤(7)根据裁判文书的关键词,使用逆向匹配技术在建立的裁判文书分类词库中进行关键词匹配,输出裁判文书类别。
2.根据权利要求1所述的一种基于信息提取的裁判文书分类方法,其特征在于所述步骤(1)中建立裁判文书分类词库的具体方法为:
(1.1)根据国家行业分类标准,对裁判文书所需要的类别进行分类;
(1.2)根据每个分类类别,整理该类别相对应的关键词,从而建立裁判文书分类关键词库。
3.根据权利要求2所述的一种基于信息提取的裁判文书分类方法,其特征在于所述步骤(2)中采用正则表达式提取裁判文书段落的具体方法为:
(2.1)编写正则表达式,并根据编写的正则表达式提取裁判文书中的“原告诉称段”段落。
4.根据权利要求3所述的一种基于信息提取的裁判文书分类方法,其特征在于所述的步骤(3)中裁判文书段落进行关键词标的具体方法为:
对“原告诉称段”段落进行关键词标注,关键词类别包括行业词汇名以及其他名称;领域词汇名包括:化工、服装、建筑、机械、食品以及药品。
5.根据权利要求4所述的一种基于信息提取的裁判文书分类方法,其特征在于所述的步骤(4)中关键词的特征提取如下:
(4.1)对提取的提取裁判文书段落进行分句,获取步骤(3)中标注的关键词的词性和词语本身,同时获取关键词在段中的所处位置;
(4.2)对每一个分句进行分词,获取关键词在分句中的所处位置;
(4.3)计算关键词的TF-IDF值;
(4.4)重复步骤(4.1)~(4.3),从而提取关键词的前置词和后置词的属性,生成属性集合;属性包括在段中位置、句中位置、TF-IDF值、词性和词语本身;属性集合包括关键词属性、关键词的前置词属性以及关键词的后置词属性;
所述步骤(4.1)的分句通过标点符号完成,分句的标点符号包括逗号、顿号、分号、冒号、句号、感叹号和问号;
所述步骤(4.3)的关键词的TF-IDF值的计算如下:
TF-IDF=TF(w)*IDF(w)
TF(w)=词语w在词汇集合Ⅲ中频率数/词汇集合Ⅲ中的词汇数量
IDF(w)=ln(所有裁判文书段落的总数/包含字符w的所有裁判文书段落的总数)。
6.根据权利要求5所述的一种基于信息提取的裁判文书分类方法,其特征在于所述的步骤(5)中使用条件随机场算法训练模型,具体实现如下:
将训练集输入条件随机场算法,训练得到文书标注模型;其中属性集合的70%作为训练集,30%作为测试集。
7.根据权利要求6所述的一种基于信息提取的裁判文书分类方法,其特征在于所述的步骤(6)中使用条件随机场算法自动标注裁判文书关键词,具体实现如下:
将待标记的裁判文书输入到文书标注模型,得到该裁判文书对应的关键词。
8.根据权利要求7所述的一种基于信息提取的裁判文书分类方法,其特征在于所述的步骤(7)中根据裁判文书的关键词,使用逆向匹配技术在建立的裁判文书分类词库中进行关键词匹配,具体实现如下:
根据步骤(6)获得的关键词,使用逆向匹配技术在步骤(1)中建立的分类关键词库中进行匹配,从而得出该文书所属的类别。
CN201810595918.3A 2018-06-11 2018-06-11 一种基于信息提取的裁判文书分类方法 Pending CN109145097A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810595918.3A CN109145097A (zh) 2018-06-11 2018-06-11 一种基于信息提取的裁判文书分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810595918.3A CN109145097A (zh) 2018-06-11 2018-06-11 一种基于信息提取的裁判文书分类方法

Publications (1)

Publication Number Publication Date
CN109145097A true CN109145097A (zh) 2019-01-04

Family

ID=64801838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810595918.3A Pending CN109145097A (zh) 2018-06-11 2018-06-11 一种基于信息提取的裁判文书分类方法

Country Status (1)

Country Link
CN (1) CN109145097A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162539A (zh) * 2019-05-29 2019-08-23 北京市律典通科技有限公司 一种案件管辖智能判断系统、方法、电子设备和存储介质
CN110472231A (zh) * 2019-07-11 2019-11-19 阿里巴巴集团控股有限公司 一种识别法律文书案由的方法和装置
CN110688856A (zh) * 2019-10-08 2020-01-14 杭州费尔斯通科技有限公司 一种裁判文书信息提取方法
CN110751216A (zh) * 2019-10-21 2020-02-04 南京大学 一种基于改进卷积神经网络的裁判文书行业分类方法
CN111062834A (zh) * 2019-12-11 2020-04-24 深圳前海环融联易信息科技服务有限公司 纠纷案件实体识别方法、装置、计算机设备及存储介质
CN111292205A (zh) * 2019-12-17 2020-06-16 东方微银科技(北京)有限公司 一种司法数据解析方法、装置、设备及存储介质
CN111353041A (zh) * 2020-02-26 2020-06-30 山东爱城市网信息技术有限公司 一种基于自然语言处理的裁判文书文本分类方法
CN111538832A (zh) * 2019-02-02 2020-08-14 富士通株式会社 用于对文书进行事件标注的装置和方法及记录介质
CN111709221A (zh) * 2020-06-15 2020-09-25 广州润普网络科技有限公司 一种文书生成方法及系统
CN112269880A (zh) * 2020-11-04 2021-01-26 吾征智能技术(北京)有限公司 一种基于线性函数的口甜文本分类匹配系统
CN112307206A (zh) * 2020-10-29 2021-02-02 青岛檬豆网络科技有限公司 一种关于新技术的领域分类方法
CN112488886A (zh) * 2020-11-19 2021-03-12 武汉华成知识产权代理服务有限责任公司 一种基于Python的诉讼信息提取系统、方法及设备
CN112668284A (zh) * 2020-12-29 2021-04-16 长春市把手科技有限公司 一种法律文书分段方法及系统
CN112686339A (zh) * 2021-03-11 2021-04-20 共道网络科技有限公司 一种基于起诉状的案由确定方法和装置
CN112711940A (zh) * 2019-10-08 2021-04-27 台达电子工业股份有限公司 信息处理系统、信息处理法及非暂态电脑可读取记录媒体
WO2022142593A1 (zh) * 2020-12-28 2022-07-07 深圳壹账通智能科技有限公司 文本分类方法、装置、电子设备及可读存储介质
CN116402037A (zh) * 2023-06-08 2023-07-07 神州数码融信云技术服务有限公司 电子合同的生成方法及生成装置、计算机设备及存储介质
CN116842128A (zh) * 2023-09-01 2023-10-03 合肥机数量子科技有限公司 一种文本关系抽取方法、装置、计算机设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324628A (zh) * 2012-03-21 2013-09-25 腾讯科技(深圳)有限公司 一种针对发布文本的行业分类方法和系统
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN103488627A (zh) * 2013-09-05 2014-01-01 中国专利信息中心 全篇专利文献翻译方法及翻译系统
CN104572616A (zh) * 2014-12-23 2015-04-29 北京锐安科技有限公司 文本倾向性的确定方法和装置
CN105844424A (zh) * 2016-05-30 2016-08-10 中国计量学院 基于网络评论的产品质量问题发现及风险评估方法
US20160239564A1 (en) * 2015-02-16 2016-08-18 Canon Kabushiki Kaisha Information processing apparatus, information processing method, information processing system, and storage medium
CN106815204A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 裁判文书的分段方法及装置
CN107145476A (zh) * 2017-05-23 2017-09-08 福建师范大学 一种基于改进tf‑idf关键词提取算法
CN107608999A (zh) * 2017-07-17 2018-01-19 南京邮电大学 一种适用于自动问答系统的问句分类方法
CN108121700A (zh) * 2017-12-21 2018-06-05 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324628A (zh) * 2012-03-21 2013-09-25 腾讯科技(深圳)有限公司 一种针对发布文本的行业分类方法和系统
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN103488627A (zh) * 2013-09-05 2014-01-01 中国专利信息中心 全篇专利文献翻译方法及翻译系统
CN104572616A (zh) * 2014-12-23 2015-04-29 北京锐安科技有限公司 文本倾向性的确定方法和装置
US20160239564A1 (en) * 2015-02-16 2016-08-18 Canon Kabushiki Kaisha Information processing apparatus, information processing method, information processing system, and storage medium
CN106815204A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 裁判文书的分段方法及装置
CN105844424A (zh) * 2016-05-30 2016-08-10 中国计量学院 基于网络评论的产品质量问题发现及风险评估方法
CN107145476A (zh) * 2017-05-23 2017-09-08 福建师范大学 一种基于改进tf‑idf关键词提取算法
CN107608999A (zh) * 2017-07-17 2018-01-19 南京邮电大学 一种适用于自动问答系统的问句分类方法
CN108121700A (zh) * 2017-12-21 2018-06-05 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538832A (zh) * 2019-02-02 2020-08-14 富士通株式会社 用于对文书进行事件标注的装置和方法及记录介质
CN110162539A (zh) * 2019-05-29 2019-08-23 北京市律典通科技有限公司 一种案件管辖智能判断系统、方法、电子设备和存储介质
CN110472231A (zh) * 2019-07-11 2019-11-19 阿里巴巴集团控股有限公司 一种识别法律文书案由的方法和装置
CN110472231B (zh) * 2019-07-11 2023-05-12 创新先进技术有限公司 一种识别法律文书案由的方法和装置
CN112711940A (zh) * 2019-10-08 2021-04-27 台达电子工业股份有限公司 信息处理系统、信息处理法及非暂态电脑可读取记录媒体
CN110688856A (zh) * 2019-10-08 2020-01-14 杭州费尔斯通科技有限公司 一种裁判文书信息提取方法
CN112711940B (zh) * 2019-10-08 2024-06-11 台达电子工业股份有限公司 信息处理系统、信息处理法及非暂态电脑可读取记录媒体
CN110751216A (zh) * 2019-10-21 2020-02-04 南京大学 一种基于改进卷积神经网络的裁判文书行业分类方法
CN111062834A (zh) * 2019-12-11 2020-04-24 深圳前海环融联易信息科技服务有限公司 纠纷案件实体识别方法、装置、计算机设备及存储介质
CN111292205A (zh) * 2019-12-17 2020-06-16 东方微银科技(北京)有限公司 一种司法数据解析方法、装置、设备及存储介质
CN111353041A (zh) * 2020-02-26 2020-06-30 山东爱城市网信息技术有限公司 一种基于自然语言处理的裁判文书文本分类方法
CN111709221A (zh) * 2020-06-15 2020-09-25 广州润普网络科技有限公司 一种文书生成方法及系统
CN112307206A (zh) * 2020-10-29 2021-02-02 青岛檬豆网络科技有限公司 一种关于新技术的领域分类方法
CN112269880B (zh) * 2020-11-04 2024-02-09 吾征智能技术(北京)有限公司 一种基于线性函数的口甜文本分类匹配系统
CN112269880A (zh) * 2020-11-04 2021-01-26 吾征智能技术(北京)有限公司 一种基于线性函数的口甜文本分类匹配系统
CN112488886A (zh) * 2020-11-19 2021-03-12 武汉华成知识产权代理服务有限责任公司 一种基于Python的诉讼信息提取系统、方法及设备
WO2022142593A1 (zh) * 2020-12-28 2022-07-07 深圳壹账通智能科技有限公司 文本分类方法、装置、电子设备及可读存储介质
CN112668284A (zh) * 2020-12-29 2021-04-16 长春市把手科技有限公司 一种法律文书分段方法及系统
CN112668284B (zh) * 2020-12-29 2023-12-15 长春市把手科技有限公司 一种法律文书分段方法及系统
CN112686339A (zh) * 2021-03-11 2021-04-20 共道网络科技有限公司 一种基于起诉状的案由确定方法和装置
CN116402037A (zh) * 2023-06-08 2023-07-07 神州数码融信云技术服务有限公司 电子合同的生成方法及生成装置、计算机设备及存储介质
CN116842128A (zh) * 2023-09-01 2023-10-03 合肥机数量子科技有限公司 一种文本关系抽取方法、装置、计算机设备及存储介质
CN116842128B (zh) * 2023-09-01 2023-11-21 合肥机数量子科技有限公司 一种文本关系抽取方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN109145097A (zh) 一种基于信息提取的裁判文书分类方法
Liu et al. Text features extraction based on TF-IDF associating semantic
CN111104466A (zh) 一种海量数据库表快速分类的方法
CN104077407B (zh) 一种智能数据搜索系统及方法
CN109241297B (zh) 一种内容分类聚合方法、电子设备、存储介质及引擎
CN107315738A (zh) 一种文本信息的创新度评估方法
CN105825078B (zh) 基于基因大数据的小样本基因表达数据分类方法
KR20180072167A (ko) 유사특허 추출 시스템 및 그 방법
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
CN108664538A (zh) 一种输变电设备疑似家族性缺陷的自动辨识方法及系统
CN105868347A (zh) 一种基于多步聚类的重名消歧方法
Stoica et al. Mining customer feedback documents
Zubiaga et al. Political homophily in independence movements: analyzing and classifying social media users by national identity
CN115794803A (zh) 一种基于大数据ai技术的工程审计问题监测方法与系统
CN109145187A (zh) 基于评论数据的跨平台电商欺诈检测方法和系统
Saddam et al. Sentiment analysis of flood disaster management in Jakarta on Twitter using support vector machines
Cai et al. An efficient outlier detection method for data streams based on closed frequent patterns by considering anti-monotonic constraints
CN107992613A (zh) 一种基于机器学习的文本挖掘技术消费维权指标分析方法
CN107908749B (zh) 一种基于搜索引擎的人物检索系统及方法
Wu et al. An event timeline extraction method based on news corpus
CN108363759A (zh) 基于结构化数据的主题树生成方法及系统及智能对话方法
CN108595593A (zh) 基于主题模型的会议研究热点与发展趋势信息分析方法
Dubey et al. Smart Underwriting System: An Intelligent Decision Support System for Insurance Approval & Risk Assessment
CN108932247A (zh) 一种优化文本搜索的方法及装置
CN107368610A (zh) 基于全文的大文本 crf 和规则分类方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190104

RJ01 Rejection of invention patent application after publication