CN109299753A - 一种用于法律文本信息挖掘的集成学习方法及系统 - Google Patents

一种用于法律文本信息挖掘的集成学习方法及系统 Download PDF

Info

Publication number
CN109299753A
CN109299753A CN201811511621.0A CN201811511621A CN109299753A CN 109299753 A CN109299753 A CN 109299753A CN 201811511621 A CN201811511621 A CN 201811511621A CN 109299753 A CN109299753 A CN 109299753A
Authority
CN
China
Prior art keywords
law
integrated
law text
training
data source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811511621.0A
Other languages
English (en)
Inventor
段强
李锐
于治楼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Inspur Hi Tech Investment and Development Co Ltd
Original Assignee
Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Hi Tech Investment and Development Co Ltd filed Critical Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority to CN201811511621.0A priority Critical patent/CN109299753A/zh
Publication of CN109299753A publication Critical patent/CN109299753A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种用于法律文本信息挖掘的集成学习方法,涉及信息挖掘和集成学习技术领域,通过对预处理后的法律文本进行不同特征的提取构建相应的特征工程模型,利用线性SVM分类器学习不同特征工程模型得出的文本向量,并将学习后的线性SVM分类器对预处理后的法律文本进行预测,通过Stacking方法集成预测结果,同时训练并构建集成学习模型,以针对待处理法律文本输出更加全面和准确度更高的预测结果。本方法能更好的综合已有的信息,发现信息中上下文的关联,以此形成更强的非线性划分能力,降低泛化误差,相较于单一模型的预测,在罪名、法条、刑期等内容的预测上准确度更高。另外,本发明还公开一种用于法律文本信息挖掘的集成学习系统。

Description

一种用于法律文本信息挖掘的集成学习方法及系统
技术领域
本发明涉及信息挖掘和集成学习技术领域,具体的说是一种用于法律文本信息挖掘的集成学习方法及系统。
背景技术
机器学习领域中,集成学习本身不是一个单独的机器学习算法,它是通过构建多个学习器并将其结合来形成强学习器来完成学习任务。过程中要注意的是弱分类器模型的选择和形式及将弱分类器组合为一个强分类器的方式。
集成学习有Adaboost,Bagging等著名的同源集成方法,即通过对多个同类、同质的模型取平均、取多数票或多次训练取不同权重等方式进行集成学习。另外,还有Stacking的异源集成学习。它将训练集分为几个部分,分别使用不同的基分类器进行训练和预测。这些基分类器可以基于完全不同的思路和方法,具有更高的选择灵活性和结果差异性。然后将这几个基分类器的预测结果建立特征,并输入下一层分类器进行学习。下一层分类器将基分类器生成结果的组合模式作为特征进行进一步学习,从而获得更加泛化的学习能力。该层的预测结果即视为最终结果。
Stacking方法的特点是通过集成多个各有侧重的异源分类器的预测生成新特征,比起相互独立的预测模型,能够增强非线性的表述能力,降低泛化误差,提高预测准确度。理论上,Stacking中的组合模型可以使用各种分类和回归模型。
大数据和互联网的应用给传统的各行各业都开拓了新的思路,在法学研究和法律应用方面,法律数据呈现出数量大、更新快、多样化的特点。将大数据挖掘应用在法律数据相关的信息捕捉、管理、处理中,有助于提高数据处理的效率,将数据的价值充分的利用和体现出来。
具体到司法和法律领域中,使用机器学习和数据挖掘旨在赋予机器理解和学习法律文本并进行分析和判断的能力,以此来完成罪名预测、法条推荐、刑期或罚金预测等有实际应用需求的任务中,有望辅助法官律师等相关人士高效的进行法律判决。全国各地每天产生的法律文书是一个很好的数据挖掘和机器学习的数据源。法律文书往往有着规范的格式、简洁的语言、清晰的逻辑、和明确的判决,经过处理之后辅以自然语言处理的技术,可以用于机器学习和数据挖掘的领域中,做到如判定罪名或推荐法条,预测刑期等常见任务中。
在传统的机器学习中,通常只训练一个模型,通过选择合适的模型、调整参数和对数据的处理来提高预测的准确度。但在实际的判决中,案件的侧重点各有不同,要考虑多种因素;且各个因素间往往存在一定的上下文联系。因此,只通过单个模型往往很难具备广泛的适用性,准确度也会受到影响。
发明内容
本发明针对目前技术发展的需求和不足之处,提供一种用于法律文本信息挖掘的集成学习方法及系统。
本发明的一种用于法律文本信息挖掘的集成学习方法,解决上述技术问题采用的技术方案如下:
一种用于法律文本信息挖掘的集成学习方法,首先,收集专业法律工作人员处理过的法律文本作为数据源,对数据源进行预处理,其次,针对预处理结果训练得出不同的特征工程模型,线性SVM分类器学习不同特征工程模型得出的文本向量,随后,线性SVM分类器根据学习结果对预处理后的数据源进行预测,通过Stacking方法集成预测结果,将预测结果用于集成学习模型的训练,训练完成的集成学习模型针对待处理法律文本输出更加全面和准确度更高的预测结果。
具体的,所涉及对数据源进行预处理的操作包括:采用jieba或thulac工具构建词库,对数据源的法律文本进行分词和去除停用词处理。
具体的,利用现有开源停用词词库,或者,请专业的法律工作人员针对数据源建立分词词库和停用词词库。
具体的,将数据源的法律文本均分成三份,使用10-fold cross validation,然后对三份法律文本分别使用TFIDF、Word2Vec、CountVectorizer训练出相应的TFIDF特征工程模型、Word2Vec特征工程模型、CountVectorizer特征工程模型。当然,数据源的法律文本不一定非得均分成三份,还可以均分成四份、五份、甚至更过分,同样的,还可以使用ELMo、FastText、GloVe、WordRank训练出相应的ELMo特征工程模型、FastText特征工程模型、GloVe特征工程模型、WordRank特征工程模型。将数据源的法律文本均分成三份只是技术人员的一个常规选择。
具体的,所涉及集成学习模型选用Logistic regression,Stacking方法将线性SVM分类器的预测结果保存为三维向量矩阵,三维向量矩阵输入Logistic regression进行Logistic regression的训练,Logistic regression训练完成后,再有待处理法律文本输入Logistic regression时,Logistic regression即可直接输出预测结果。
基于上述一种用于法律文本信息挖掘的集成学习方法,本发明还公开一种用于法律文本信息挖掘的集成学习系统,其结构包括:
收集模块,用于收集专业法律工作人员处理过的法律文本作为数据源;
预处理模块,用于对数据源中的法律文本进行预处理;
特征提取模块,用于提取数据源中所有法律文本具有的不同特征;
训练构建模块,根据提取的不同特征训练并构建不同的特征工程模型;
线性SVM分类器模块,用于学习不同特征工程模型得出的文本向量,并根据学习结果对预处理后的数据源进行预测;
集成模块,用于通过Stacking方法集成线性SVM分类器模块的预测结果;
学习训练模块,用于学习预测结果并根据预测结果训练集成学习模型;
集成学习模型,用于对待处理法律文本进行更加全面和准确度更高的预测。
可选的,所涉及预处理模块采用jieba或thulac工具,具体用于数据源的法律文本进行分词和去除停用词处理。
可选的,所涉及集成学习系统还包括:
均分模块,用于将数据源中的所有法律文本均分成N等份,其中N为不小于2的自然数,使用10-fold cross validation,对N等份法律文本分别使用N个不同的特征工程模型进行训练。
优选的,所涉及N为3,均分模块使用10-fold cross validation,然后对三份法律文本分别使用TFIDF、Word2Vec、CountVectorizer训练出相应的TFIDF特征工程模型、Word2Vec特征工程模型、CountVectorizer特征工程模型。
可选的,所涉及集成学习模型选用Logistic regression,集成模块通过Stacking方法将线性SVM分类器模块的预测结果保存为三维向量矩阵,三维向量矩阵输入Logisticregression进行Logistic regression的训练,Logistic regression训练完成后,再有待处理法律文本输入Logistic regression时,Logistic regression即可直接输出预测结果。
本发明的一种用于法律文本信息挖掘的集成学习方法及系统,与现有技术相比具有的有益效果是:
1)本发明的集成学习方法通过对预处理后的法律文本进行不同特征的提取构建相应的特征工程模型,利用线性SVM分类器学习不同特征工程模型得出的文本向量,并将学习后的线性SVM分类器对预处理后的法律文本进行预测,通过Stacking方法集成预测结果,同时训练并构建集成学习模型,以针对待处理法律文本输出更加全面和准确度更高的预测结果;本方法能更好的综合已有的信息,发现信息中上下文的关联,以此形成更强的非线性划分能力,降低泛化误差,相较于单一模型的预测,在罪名、法条、刑期等内容的预测上准确度更高。
2)本发明的集成学习系统通过收集模块收集专业法律人员处理的法律文本,通过预处理模块对收集的法律文本进行预处理,通过特征提取模块、训练构建模块、线性SVM分类器模块、集成模块、学习训练模块、集成学习模型依次完成特征提取、训练、预测、集合预测结果、学习、再训练、再预测的过程,与集成学习方法相结合,都能更好的综合已有的信息,发现信息中上下文的关联,以此形成更强的非线性划分能力,降低泛化误差,提高预测准确度。
附图说明
附图1是本发明实施例一的流程框图;
附图2是本发明实施例二的连接框图。
附图中各标号信息表示:
1、收集模块,2、预处理模块,3、特征提取模块,
4、训练构建模块,5、线性SVM分类器模块,6、集成模块,
7、学习训练模块,8、集成学习模型,9、均分模块。
具体实施方式
为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本发明的技术方案进行清查、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下获得的所有实施例,都在本发明的保护范围之内。
实施例一:
结合附图1,本实施例提出一种用于法律文本信息挖掘的集成学习方法,首先,收集专业法律工作人员处理过的法律文本作为数据源,对数据源进行预处理,其次,针对预处理结果训练得出不同的特征工程模型,线性SVM分类器学习不同特征工程模型得出的文本向量,随后,线性SVM分类器根据学习结果对预处理后的数据源进行预测,通过Stacking方法集成预测结果,将预测结果用于集成学习模型的训练,训练完成的集成学习模型针对待处理法律文本输出更加全面和准确度更高的预测结果。
所涉及对数据源进行预处理的操作包括:采用jieba或thulac工具构建词库,对数据源的法律文本进行分词和去除停用词处理。在预处理操作过程中,我们可以利用现有开源停用词词库,或者,请专业的法律工作人员针对数据源建立分词词库和停用词词库。
通常,我们将数据源的法律文本均分成三份,使用10-fold cross validation,然后对三份法律文本分别使用TFIDF、Word2Vec、CountVectorizer训练出相应的TFIDF特征工程模型、Word2Vec特征工程模型、CountVectorizer特征工程模型。在本实施例中需要补充一点,将数据源的法律文本均分成三份只是技术人员的一个常规选择。数据源的法律文本还可以均分成四份、五份、甚至更过分,同样的,还可以使用ELMo、FastText、GloVe、WordRank训练出相应的ELMo特征工程模型、FastText特征工程模型、GloVe特征工程模型、WordRank特征工程模型。
在本实施例中,集成学习模型选用Logistic regression,Stacking方法将线性SVM分类器的预测结果保存为三维向量矩阵,三维向量矩阵输入Logistic regression进行Logistic regression的训练,Logistic regression训练完成后,再有待处理法律文本输入Logistic regression时,Logistic regression即可直接输出预测结果。
本实施例的集成学习方法通过对预处理后的法律文本进行不同特征的提取构建相应的特征工程模型,利用线性SVM分类器学习不同特征工程模型得出的文本向量,并将学习后的线性SVM分类器对预处理后的法律文本进行预测,通过Stacking方法集成预测结果,同时训练并构建集成学习模型,以针对待处理法律文本输出更加全面和准确度更高的预测结果;本方法能更好的综合已有的信息,发现信息中上下文的关联,以此形成更强的非线性划分能力,降低泛化误差,相较于单一模型的预测,在罪名、法条、刑期等内容的预测上准确度更高。
实施例二:
结合附图2,本实施例提出一种用于法律文本信息挖掘的集成学习系统,其结构包括:
收集模块1,用于收集专业法律工作人员处理过的法律文本作为数据源;
预处理模块2,用于对数据源中的法律文本进行预处理;
特征提取模块3,用于提取数据源中所有法律文本具有的不同特征;
训练构建模块4,根据提取的不同特征训练并构建不同的特征工程模型;
线性SVM分类器模块5,用于学习不同特征工程模型得出的文本向量,并根据学习结果对预处理后的数据源进行预测;
集成模块6,用于通过Stacking方法集成线性SVM分类器模块的预测结果;
学习训练模块7,用于学习预测结果并根据预测结果训练集成学习模型;
集成学习模型8,用于对待处理法律文本进行更加全面和准确度更高的预测。
在本实施例中,所涉及预处理模块2采用jieba或thulac工具,具体用于数据源的法律文本进行分词和去除停用词处理。
在本实施例中,所涉及集成学习系统还包括:
均分模块9,用于将数据源中的所有法律文本均分成N等份,其中N为不小于2的自然数,使用10-fold cross validation,对N等份法律文本分别使用N个不同的特征工程模型进行训练。
在本实施例中,所涉及N为3,均分模块9使用10-fold cross validation,然后对三份法律文本分别使用TFIDF、Word2Vec、CountVectorizer训练出相应的TFIDF特征工程模型、Word2Vec特征工程模型、CountVectorizer特征工程模型。
在本实施例中,所涉及集成学习模型8选用Logistic regression,集成模块6通过Stacking方法将线性SVM分类器模块5的预测结果保存为三维向量矩阵,三维向量矩阵输入Logistic regression进行Logistic regression的训练,Logistic regression训练完成后,再有待处理法律文本输入Logistic regression时,Logistic regression即可直接输出预测结果。
本实施例的集成学习系统通过收集模块1收集专业法律人员处理的法律文本,通过预处理模块2对收集的法律文本进行预处理,通过特征提取模块3、训练构建模块4、线性SVM分类器模块5、集成模块6、学习训练模块7、集成学习模型8依次完成特征提取、训练、预测、集合预测结果、学习、再训练、再预测的过程,与实施例一的集成学习方法相结合,都能更好的综合已有的信息,发现信息中上下文的关联,以此形成更强的非线性划分能力,降低泛化误差,提高预测准确度。
以上应用具体个例对本发明的原理及实施方式进行了详细阐述,这些实施例只是用于帮助理解本发明的核心技术内容,并不用于限制本发明的保护范围,本发明的技术方案不限制于上述具体实施方式内。基于本发明的上述具体实施例,本技术领域的技术人员在不脱离本发明原理的前提下,对本发明所作出的任何改进和修饰,皆应落入本发明的专利保护范围。

Claims (10)

1.一种用于法律文本信息挖掘的集成学习方法,其特征在于,首先,收集专业法律工作人员处理过的法律文本作为数据源,对数据源进行预处理,其次,针对预处理结果训练得出不同的特征工程模型,线性SVM分类器学习不同特征工程模型得出的文本向量,随后,线性SVM分类器根据学习结果对预处理后的数据源进行预测,通过Stacking方法集成预测结果,将预测结果用于集成学习模型的训练,训练完成的集成学习模型针对待处理法律文本输出更加全面和准确度更高的预测结果。
2.根据权利要求1所述的一种用于法律文本信息挖掘的集成学习方法,其特征在于,对数据源进行预处理的操作包括:采用jieba或thulac工具构建词库,对数据源的法律文本进行分词和去除停用词处理。
3.根据权利要求2所述的一种用于法律文本信息挖掘的集成学习方法,其特征在于,利用现有开源停用词词库,或者,请专业的法律工作人员针对数据源建立分词词库和停用词词库。
4.根据权利要求1所述的一种用于法律文本信息挖掘的集成学习方法,其特征在于,将数据源的法律文本均分成三份,使用10-fold cross validation,然后对三份法律文本分别使用TFIDF、Word2Vec、CountVectorizer训练出相应的TFIDF特征工程模型、Word2Vec特征工程模型、CountVectorizer特征工程模型。
5.根据权利要求4所述的一种用于法律文本信息挖掘的集成学习方法,其特征在于,所述集成学习模型选用Logistic regression,Stacking方法将线性SVM分类器的预测结果保存为三维向量矩阵,三维向量矩阵输入Logistic regression进行Logistic regression的训练,Logistic regression训练完成后,再有待处理法律文本输入Logistic regression时,Logistic regression即可直接输出预测结果。
6.一种用于法律文本信息挖掘的集成学习系统,其特征在于,该系统包括:
收集模块,用于收集专业法律工作人员处理过的法律文本作为数据源;
预处理模块,用于对数据源中的法律文本进行预处理;
特征提取模块,用于提取数据源中所有法律文本具有的不同特征;
训练构建模块,根据提取的不同特征训练并构建不同的特征工程模型;
线性SVM分类器模块,用于学习不同特征工程模型得出的文本向量,并根据学习结果对预处理后的数据源进行预测;
集成模块,用于通过Stacking方法集成线性SVM分类器模块的预测结果;
学习训练模块,用于学习预测结果并根据预测结果训练集成学习模型;
集成学习模型,用于对待处理法律文本进行更加全面和准确度更高的预测。
7.根据权利要求6所述的一种用于法律文本信息挖掘的集成学习系统,其特征在于,所述预处理模块采用jieba或thulac工具,具体用于数据源的法律文本进行分词和去除停用词处理。
8.根据权利要求6所述的一种用于法律文本信息挖掘的集成学习系统,其特征在于,还包括:
均分模块,用于将数据源中的所有法律文本均分成N等份,其中N为不小于2的自然数,使用10-fold cross validation,对N等份法律文本分别使用N个不同的特征工程模型进行训练。
9.根据权利要求8所述的一种用于法律文本信息挖掘的集成学习系统,其特征在于,所述N为3,均分模块使用10-fold cross validation,然后对三份法律文本分别使用TFIDF、Word2Vec、CountVectorizer训练出相应的TFIDF特征工程模型、Word2Vec特征工程模型、CountVectorizer特征工程模型。
10.根据权利要求9所述的一种用于法律文本信息挖掘的集成学习系统,其特征在于,所述集成学习模型选用Logistic regression,集成模块通过Stacking方法将线性SVM分类器模块的预测结果保存为三维向量矩阵,三维向量矩阵输入Logistic regression进行Logistic regression的训练,Logistic regression训练完成后,再有待处理法律文本输入Logistic regression时,Logistic regression即可直接输出预测结果。
CN201811511621.0A 2018-12-11 2018-12-11 一种用于法律文本信息挖掘的集成学习方法及系统 Pending CN109299753A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811511621.0A CN109299753A (zh) 2018-12-11 2018-12-11 一种用于法律文本信息挖掘的集成学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811511621.0A CN109299753A (zh) 2018-12-11 2018-12-11 一种用于法律文本信息挖掘的集成学习方法及系统

Publications (1)

Publication Number Publication Date
CN109299753A true CN109299753A (zh) 2019-02-01

Family

ID=65141835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811511621.0A Pending CN109299753A (zh) 2018-12-11 2018-12-11 一种用于法律文本信息挖掘的集成学习方法及系统

Country Status (1)

Country Link
CN (1) CN109299753A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919368A (zh) * 2019-02-26 2019-06-21 西安交通大学 一种基于关联图的法条推荐预测系统及方法
CN110175335A (zh) * 2019-05-08 2019-08-27 北京百度网讯科技有限公司 翻译模型的训练方法和装置
CN110851500A (zh) * 2019-11-07 2020-02-28 北京集奥聚合科技有限公司 一种用于机器学习建模所需的专家特征维度的生成方法
CN112115716A (zh) * 2020-09-17 2020-12-22 陕西师范大学 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN112232576A (zh) * 2020-10-22 2021-01-15 北京明略昭辉科技有限公司 判决预测方法、装置、电子设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160371261A1 (en) * 2015-06-19 2016-12-22 Gordon V. Cormack Systems and methods for conducting a highly autonomous technology-assisted review classification
CN107145560A (zh) * 2017-05-02 2017-09-08 北京邮电大学 一种文本分类方法及装置
CN108009284A (zh) * 2017-12-22 2018-05-08 重庆邮电大学 采用半监督卷积神经网络的法律文本分类方法
CN108038701A (zh) * 2018-03-20 2018-05-15 杭州恩牛网络技术有限公司 一种集成学习反欺诈测试方法及系统
CN108959566A (zh) * 2018-07-04 2018-12-07 哈尔滨工业大学 一种基于Stacking集成学习的医疗文本去隐私方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160371261A1 (en) * 2015-06-19 2016-12-22 Gordon V. Cormack Systems and methods for conducting a highly autonomous technology-assisted review classification
CN107145560A (zh) * 2017-05-02 2017-09-08 北京邮电大学 一种文本分类方法及装置
CN108009284A (zh) * 2017-12-22 2018-05-08 重庆邮电大学 采用半监督卷积神经网络的法律文本分类方法
CN108038701A (zh) * 2018-03-20 2018-05-15 杭州恩牛网络技术有限公司 一种集成学习反欺诈测试方法及系统
CN108959566A (zh) * 2018-07-04 2018-12-07 哈尔滨工业大学 一种基于Stacking集成学习的医疗文本去隐私方法和系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919368A (zh) * 2019-02-26 2019-06-21 西安交通大学 一种基于关联图的法条推荐预测系统及方法
CN109919368B (zh) * 2019-02-26 2020-11-17 西安交通大学 一种基于关联图的法条推荐预测系统及方法
CN110175335A (zh) * 2019-05-08 2019-08-27 北京百度网讯科技有限公司 翻译模型的训练方法和装置
CN110175335B (zh) * 2019-05-08 2023-05-09 北京百度网讯科技有限公司 翻译模型的训练方法和装置
CN110851500A (zh) * 2019-11-07 2020-02-28 北京集奥聚合科技有限公司 一种用于机器学习建模所需的专家特征维度的生成方法
CN110851500B (zh) * 2019-11-07 2022-10-28 北京集奥聚合科技有限公司 一种用于机器学习建模所需的专家特征维度的生成方法
CN112115716A (zh) * 2020-09-17 2020-12-22 陕西师范大学 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN112232576A (zh) * 2020-10-22 2021-01-15 北京明略昭辉科技有限公司 判决预测方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN109299753A (zh) 一种用于法律文本信息挖掘的集成学习方法及系统
CN112860872B (zh) 基于自学习的配电网操作票语义合规性的校验方法及系统
CN105930503A (zh) 基于组合特征向量和深度学习的情感分类方法及装置
CN106778882B (zh) 一种基于前馈神经网络的智能合约自动分类方法
CN106779087A (zh) 一种通用机器学习数据分析平台
CN108460089A (zh) 基于Attention神经网络的多元特征融合中文文本分类方法
CN107944480A (zh) 一种企业行业分类方法
CN106228183A (zh) 一种半监督学习分类方法与装置
CN107330011A (zh) 多策略融合的命名实体的识别方法及装置
CN106776538A (zh) 企业非标准格式文档的信息提取方法
Tang et al. Multi-label patent categorization with non-local attention-based graph convolutional network
CN107045788A (zh) 交通路况预测方法及装置
CN104899298A (zh) 一种基于大规模语料特征学习的微博情感分析方法
CN108563703A (zh) 一种罪名的判定方法、装置及计算机设备、存储介质
CN112732921B (zh) 一种虚假用户评论检测方法及系统
CN113051404B (zh) 一种基于张量分解的知识推理方法、装置、设备
CN109582963A (zh) 一种基于极限学习机的档案自动分类方法
CN109472310A (zh) 确定两份简历为相同人才的识别方法及装置
CN110705283A (zh) 基于文本法律法规与司法解释匹配的深度学习方法和系统
CN116703328B (zh) 一种项目评审方法及系统
Aristodemou et al. A literature review on the state-of-the-art on intellectual property analytics
Rathore et al. Student prediction system for placement training using fuzzy inference system
CN109918483A (zh) 匹配招聘职位与求职简历的装置和方法
CN107015965A (zh) 一种中文文本情感分析装置及方法
Kaur et al. Machine Learning Approach to Recommender System for Web Mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190201