CN106570170A - 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统 - Google Patents

基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统 Download PDF

Info

Publication number
CN106570170A
CN106570170A CN201610985729.8A CN201610985729A CN106570170A CN 106570170 A CN106570170 A CN 106570170A CN 201610985729 A CN201610985729 A CN 201610985729A CN 106570170 A CN106570170 A CN 106570170A
Authority
CN
China
Prior art keywords
text
name
classification
collection
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610985729.8A
Other languages
English (en)
Inventor
刘丽君
李成华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN TIPDM INTELLIGENT TECHNOLOGY Co Ltd
Original Assignee
WUHAN TIPDM INTELLIGENT TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN TIPDM INTELLIGENT TECHNOLOGY Co Ltd filed Critical WUHAN TIPDM INTELLIGENT TECHNOLOGY Co Ltd
Priority to CN201610985729.8A priority Critical patent/CN106570170A/zh
Publication of CN106570170A publication Critical patent/CN106570170A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

一种基于深度循环神经网络的文本分类和命名实体识别一体化方法,其包括如下步骤:S1、对已经知道类别的文本进行训练;所述训练包括文本分词处理、空间预降维、权重计算、再降维以及神经网络计算,得到特征向量集;S2、将需要处理的待分类文本进行分类;所述分类包括文本分词处理、特征选择、权重计算、神经网络计算以及分类结果评价从而得到分本分类结果;S3、根据分类结果同时实现文本中命名实体识别一体化。

Description

基于深度循环神经网络的文本分类和命名实体识别一体化方 法及系统
技术领域
本发明涉及大数据文本处理技术领域,特别涉及一种基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统。
背景技术
随着科学技术尤其是信息技术的不断发展,人与人之间的交流方式已经从单纯的面对面交流发展到越来越多的采用“文本”这种语言形式作为信息载体。最为明显的例子就是数字图书馆和网页文本。毫无疑问,对这些语言资源的有效管理可以为用户获取信息提供很大的便利。但是随着网络通信的发展,网上可用文本信息的数量急剧膨胀,甚至可以说是成指数级增长,如果再像以前那样手工对这些文本进行分类不但费时费力,而且准确率也无法保证,因此自动文本分类技术应运而生。此外,自动文本分类技术在许多方面都有应用,例如:文档索引的建立、不良信息的过滤、不同领域信息的分流、主题识别、自动文摘、词义消歧、智能信息检索以及其他需要对文档进行整理的地方。
从60年代计算机刚刚兴起,人们就认识到了文本分类技术重要性,并进行了初步的探索和研究,一直到80年代末基本上都是基于规则的知识工程的方法。这种方法费时费力,准确率也不高,尤其对于不常出现的关键词很难建立规则,同时还需要一支由语言学家组成的智囊团的支持。所以随着90年代基于统计的自然语言技术的兴起,机器学习的方法逐渐被应用到文本分类技术中,并迅速成为主流趋势,出现了各种各样的基于统计的文本分类方法:k近邻方法、贝叶斯方法、支持向量机、规则学习方法、相关反馈方法、神经网络方法、决策树等等。
但是现有的文本分类方法准确性和效率性有待提高;并且在识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等准确性不高。
发明内容
有鉴于此,本发明提出一种文本分类准确性、效率性高;同时能够完成命名实体识别一体化的基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统。
一种基于深度循环神经网络的文本分类和命名实体识别一体化方法,其包括如下步骤:
S1、对已经知道类别的文本进行训练;所述训练包括文本分词处理、空间预降维、权重计算、再降维以及神经网络计算,得到特征向量集;
S2、将需要处理的待分类文本进行分类;所述分类包括文本分词处理、特征选择、权重计算、神经网络计算以及分类结果评价从而得到分本分类结果;
S3、根据分类结果同时实现文本中命名实体识别一体化。
在本发明所述的基于深度循环神经网络的文本分类和命名实体识别一体化方法中,所述步骤S1包括:
结合停用词表对训练样本进行分词,得到训练样本集中的特征项集;
对特征项集进行特征项选择,直至符合预设的空间维数;并统计类别总数、每个类别下的文档总数、特征项总数、某一特征在制定类别中的总数、包含某个特征项的文档总数、包含某个特征项并属于制定类别的文档总数相对应的特征子集;
对特征子集中的每个特征项赋予权重值;
对特征空间进行预降维并进行压缩;
将经过压缩的文本模型中的每个向量作为神经网络的输入信号,并加盖各个参数进行适应性调整;从而构建出各个类对应的文本分类器,并保存神经网络算法的权值。
在本发明所述的基于深度循环神经网络的文本分类和命名实体识别一体化方法中,所述步骤S2包括:
结合停用词表对待分类的文本进行分词,得到待分类的文本的特征项集;
根据步骤S1中对特征项集进行特征项选择,直至符合预设的空间维数;并统计类别总数、每个类别下的文档总数、特征项总数、某一特征在制定类别中的总数、包含某个特征项的文档总数、包含某个特征项并属于制定类别的文档总数相对应的特征子集中选择特征项;
对选择的特征项赋予权重值;
根据步骤S1得到的文本分类器对待分类的文本进行分类,得到分类结果.。
在本发明所述的基于深度循环神经网络的文本分类和命名实体识别一体化方法中,所述步骤S3包括:通过标记集、命名实体类别进行组合,从而完成文本中命名实体识别一体化。
在本发明所述的基于深度循环神经网络的文本分类和命名实体识别一体化方法中,所述标记集包括单字词集、词的左边界集、词的中间部分集、词的右边界集;
命名实体类别包括人名集、地名集、机构名集;人名集包括单字人名集、人名中间部分集、人名中间部分集、人名右边界集;地名集包括单字地名、地名左边界集、地名中间部分集、地名右边界集;机构名集包括单字机构名集、机构名左边界集、机构名中间部分集、机构右边界集。
本发明还提供一种基于深度循环神经网络的文本分类和命名实体识别一体化系统,其包括如下单元:
文本训练单元,用于对已经知道类别的文本进行训练;所述训练包括文本分词处理、空间预降维、权重计算、再降维以及神经网络计算,得到特征向量集;
文本分类单元,用于将需要处理的待分类文本进行分类;所述分类包括文本分词处理、特征选择、权重计算、神经网络计算以及分类结果评价从而得到分本分类结果;
命名实体识别单元,用于根据分类结果同时实现文本中命名实体识别一体化。
在本发明所述的基于深度循环神经网络的文本分类和命名实体识别一体化系统中,所述文本训练单元包括:
结合停用词表对训练样本进行分词,得到训练样本集中的特征项集;
对特征项集进行特征项选择,直至符合预设的空间维数;并统计类别总数、每个类别下的文档总数、特征项总数、某一特征在制定类别中的总数、包含某个特征项的文档总数、包含某个特征项并属于制定类别的文档总数相对应的特征子集;
对特征子集中的每个特征项赋予权重值;
对特征空间进行预降维并进行压缩;
将经过压缩的文本模型中的每个向量作为神经网络的输入信号,并加盖各个参数进行适应性调整;从而构建出各个类对应的文本分类器,并保存神经网络算法的权值。
在本发明所述的基于深度循环神经网络的文本分类和命名实体识别一体化系统中,所述文本分类单元包括:
结合停用词表对待分类的文本进行分词,得到待分类的文本的特征项集;
根据文本训练单元中对特征项集进行特征项选择,直至符合预设的空间维数;并统计类别总数、每个类别下的文档总数、特征项总数、某一特征在制定类别中的总数、包含某个特征项的文档总数、包含某个特征项并属于制定类别的文档总数相对应的特征子集中选择特征项;
对选择的特征项赋予权重值;
根据文本训练单元得到的文本分类器对待分类的文本进行分类,得到分类结果.。
在本发明所述的基于深度循环神经网络的文本分类和命名实体识别一体化系统中,所述命名实体识别单元包括:通过标记集、命名实体类别进行组合,从而完成文本中命名实体识别一体化。
在本发明所述的基于深度循环神经网络的文本分类和命名实体识别一体化系统中,所述标记集包括单字词集、词的左边界集、词的中间部分集、词的右边界集;
命名实体类别包括人名集、地名集、机构名集;人名集包括单字人名集、人名中间部分集、人名中间部分集、人名右边界集;地名集包括单字地名、地名左边界集、地名中间部分集、地名右边界集;机构名集包括单字机构名集、机构名左边界集、机构名中间部分集、机构右边界集。
实施本发明提供的基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统与现有技术相比具有以下有益效果:能够实现文本分类准确性、效率性高;同时能够完成命名实体识别一体化。
附图说明
图1是本发明实施例的基于深度循环神经网络的文本分类和命名实体识别一体化方法流程图。
具体实施方式
如图1所示,一种基于深度循环神经网络的文本分类和命名实体识别一体化方法,其包括如下步骤:
S1、对已经知道类别的文本进行训练;所述训练包括文本分词处理、空间预降维、权重计算、再降维以及神经网络计算,得到特征向量集;
S2、将需要处理的待分类文本进行分类;所述分类包括文本分词处理、特征选择、权重计算、神经网络计算以及分类结果评价从而得到分本分类结果;
S3、根据分类结果同时实现文本中命名实体识别一体化。
在本发明所述的基于深度循环神经网络的文本分类和命名实体识别一体化方法中,所述步骤S1包括:
结合停用词表对训练样本进行分词,得到训练样本集中的特征项集;
对特征项集进行特征项选择,直至符合预设的空间维数;并统计类别总数、每个类别下的文档总数、特征项总数、某一特征在制定类别中的总数、包含某个特征项的文档总数、包含某个特征项并属于制定类别的文档总数相对应的特征子集;
对特征子集中的每个特征项赋予权重值;
对特征空间进行预降维并进行压缩;
将经过压缩的文本模型中的每个向量作为神经网络的输入信号,并加盖各个参数进行适应性调整;从而构建出各个类对应的文本分类器,并保存神经网络算法的权值。
在本发明所述的基于深度循环神经网络的文本分类和命名实体识别一体化方法中,所述步骤S2包括:
结合停用词表对待分类的文本进行分词,得到待分类的文本的特征项集;
根据步骤S1中对特征项集进行特征项选择,直至符合预设的空间维数;并统计类别总数、每个类别下的文档总数、特征项总数、某一特征在制定类别中的总数、包含某个特征项的文档总数、包含某个特征项并属于制定类别的文档总数相对应的特征子集中选择特征项;
对选择的特征项赋予权重值;
根据步骤S1得到的文本分类器对待分类的文本进行分类,得到分类结果.。
在本发明所述的基于深度循环神经网络的文本分类和命名实体识别一体化方法中,所述步骤S3包括:通过标记集、命名实体类别进行组合,从而完成文本中命名实体识别一体化。
在本发明所述的基于深度循环神经网络的文本分类和命名实体识别一体化方法中,所述标记集包括单字词集、词的左边界集、词的中间部分集、词的右边界集;
命名实体类别包括人名集、地名集、机构名集;人名集包括单字人名集、人名中间部分集、人名中间部分集、人名右边界集;地名集包括单字地名、地名左边界集、地名中间部分集、地名右边界集;机构名集包括单字机构名集、机构名左边界集、机构名中间部分集、机构右边界集。
本发明还提供一种基于深度循环神经网络的文本分类和命名实体识别一体化系统,其包括如下单元:
文本训练单元,用于对已经知道类别的文本进行训练;所述训练包括文本分词处理、空间预降维、权重计算、再降维以及神经网络计算,得到特征向量集;
文本分类单元,用于将需要处理的待分类文本进行分类;所述分类包括文本分词处理、特征选择、权重计算、神经网络计算以及分类结果评价从而得到分本分类结果;
命名实体识别单元,用于根据分类结果同时实现文本中命名实体识别一体化。
在本发明所述的基于深度循环神经网络的文本分类和命名实体识别一体化系统中,所述文本训练单元包括:
结合停用词表对训练样本进行分词,得到训练样本集中的特征项集;
对特征项集进行特征项选择,直至符合预设的空间维数;并统计类别总数、每个类别下的文档总数、特征项总数、某一特征在制定类别中的总数、包含某个特征项的文档总数、包含某个特征项并属于制定类别的文档总数相对应的特征子集;
对特征子集中的每个特征项赋予权重值;
对特征空间进行预降维并进行压缩;
将经过压缩的文本模型中的每个向量作为神经网络的输入信号,并加盖各个参数进行适应性调整;从而构建出各个类对应的文本分类器,并保存神经网络算法的权值。
在本发明所述的基于深度循环神经网络的文本分类和命名实体识别一体化系统中,所述文本分类单元包括:
结合停用词表对待分类的文本进行分词,得到待分类的文本的特征项集;
根据文本训练单元中对特征项集进行特征项选择,直至符合预设的空间维数;并统计类别总数、每个类别下的文档总数、特征项总数、某一特征在制定类别中的总数、包含某个特征项的文档总数、包含某个特征项并属于制定类别的文档总数相对应的特征子集中选择特征项;
对选择的特征项赋予权重值;
根据文本训练单元得到的文本分类器对待分类的文本进行分类,得到分类结果.。
在本发明所述的基于深度循环神经网络的文本分类和命名实体识别一体化系统中,所述命名实体识别单元包括:通过标记集、命名实体类别进行组合,从而完成文本中命名实体识别一体化。
在本发明所述的基于深度循环神经网络的文本分类和命名实体识别一体化系统中,所述标记集包括单字词集、词的左边界集、词的中间部分集、词的右边界集;
命名实体类别包括人名集、地名集、机构名集;人名集包括单字人名集、人名中间部分集、人名中间部分集、人名右边界集;地名集包括单字地名、地名左边界集、地名中间部分集、地名右边界集;机构名集包括单字机构名集、机构名左边界集、机构名中间部分集、机构右边界集。
实施本发明提供的基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统与现有技术相比具有以下有益效果:能够实现文本分类准确性、效率性高;同时能够完成命名实体识别一体化。
可以理解的是,对于本领域的普通技术人员来说,可以根据本发明的技术构思做出其它各种相应的改变与变形,而所有这些改变与变形都应属于本发明权利要求的保护范围。

Claims (10)

1.一种基于深度循环神经网络的文本分类和命名实体识别一体化方法,其特征在于,其包括如下步骤:
S1、对已经知道类别的文本进行训练;所述训练包括文本分词处理、空间预降维、权重计算、再降维以及神经网络计算,得到特征向量集;
S2、将需要处理的待分类文本进行分类;所述分类包括文本分词处理、特征选择、权重计算、神经网络计算以及分类结果评价从而得到分本分类结果;
S3、根据分类结果同时实现文本中命名实体识别一体化。
2.如权利要求1所述的基于深度循环神经网络的文本分类和命名实体识别一体化方法,其特征在于,所述步骤S1包括:
结合停用词表对训练样本进行分词,得到训练样本集中的特征项集;
对特征项集进行特征项选择,直至符合预设的空间维数;并统计类别总数、每个类别下的文档总数、特征项总数、某一特征在制定类别中的总数、包含某个特征项的文档总数、包含某个特征项并属于制定类别的文档总数相对应的特征子集;
对特征子集中的每个特征项赋予权重值;
对特征空间进行预降维并进行压缩;
将经过压缩的文本模型中的每个向量作为神经网络的输入信号,并加盖各个参数进行适应性调整;从而构建出各个类对应的文本分类器,并保存神经网络算法的权值。
3.如权利要求2所述的基于深度循环神经网络的文本分类和命名实体识别一体化方法,其特征在于,所述步骤S2包括:
结合停用词表对待分类的文本进行分词,得到待分类的文本的特征项集;
根据步骤S1中对特征项集进行特征项选择,直至符合预设的空间维数;并统计类别总数、每个类别下的文档总数、特征项总数、某一特征在制定类别中的总数、包含某个特征项的文档总数、包含某个特征项并属于制定类别的文档总数相对应的特征子集中选择特征项;
对选择的特征项赋予权重值;
根据步骤S1得到的文本分类器对待分类的文本进行分类,得到分类结果。
4.如权利要求3所述的基于深度循环神经网络的文本分类和命名实体识别一体化方法,其特征在于,所述步骤S3包括:通过标记集、命名实体类别进行组合,从而完成文本中命名实体识别一体化。
5.如权利要求4所述的基于深度循环神经网络的文本分类和命名实体识别一体化方法,其特征在于,所述标记集包括单字词集、词的左边界集、词的中间部分集、词的右边界集;
命名实体类别包括人名集、地名集、机构名集;人名集包括单字人名集、人名中间部分集、人名中间部分集、人名右边界集;地名集包括单字地名、地名左边界集、地名中间部分集、地名右边界集;机构名集包括单字机构名集、机构名左边界集、机构名中间部分集、机构右边界集。
6.一种基于深度循环神经网络的文本分类和命名实体识别一体化系统,其特征在于,其包括如下单元:
文本训练单元,用于对已经知道类别的文本进行训练;所述训练包括文本分词处理、空间预降维、权重计算、再降维以及神经网络计算,得到特征向量集;
文本分类单元,用于将需要处理的待分类文本进行分类;所述分类包括文本分词处理、特征选择、权重计算、神经网络计算以及分类结果评价从而得到分本分类结果;
命名实体识别单元,用于根据分类结果同时实现文本中命名实体识别一体化。
7.如权利要求6所述的基于深度循环神经网络的文本分类和命名实体识别一体化系统,其特征在于,所述文本训练单元包括:
结合停用词表对训练样本进行分词,得到训练样本集中的特征项集;
对特征项集进行特征项选择,直至符合预设的空间维数;并统计类别总数、每个类别下的文档总数、特征项总数、某一特征在制定类别中的总数、包含某个特征项的文档总数、包含某个特征项并属于制定类别的文档总数相对应的特征子集;
对特征子集中的每个特征项赋予权重值;
对特征空间进行预降维并进行压缩;
将经过压缩的文本模型中的每个向量作为神经网络的输入信号,并加盖各个参数进行适应性调整;从而构建出各个类对应的文本分类器,并保存神经网络算法的权值。
8.如权利要求7所述的基于深度循环神经网络的文本分类和命名实体识别一体化系统,其特征在于,所述文本分类单元包括:
结合停用词表对待分类的文本进行分词,得到待分类的文本的特征项集;
根据文本训练单元中对特征项集进行特征项选择,直至符合预设的空间维数;并统计类别总数、每个类别下的文档总数、特征项总数、某一特征在制定类别中的总数、包含某个特征项的文档总数、包含某个特征项并属于制定类别的文档总数相对应的特征子集中选择特征项;
对选择的特征项赋予权重值;
根据文本训练单元得到的文本分类器对待分类的文本进行分类,得到分类结果。
9.如权利要求7所述的基于深度循环神经网络的文本分类和命名实体识别一体化系统,其特征在于,所述命名实体识别单元包括:通过标记集、命名实体类别进行组合,从而完成文本中命名实体识别一体化。
10.如权利要求9所述的基于深度循环神经网络的文本分类和命名实体识别一体化系统,其特征在于,所述标记集包括单字词集、词的左边界集、词的中间部分集、词的右边界集;
命名实体类别包括人名集、地名集、机构名集;人名集包括单字人名集、人名中间部分集、人名中间部分集、人名右边界集;地名集包括单字地名、地名左边界集、地名中间部分集、地名右边界集;机构名集包括单字机构名集、机构名左边界集、机构名中间部分集、机构右边界集。
CN201610985729.8A 2016-11-09 2016-11-09 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统 Pending CN106570170A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610985729.8A CN106570170A (zh) 2016-11-09 2016-11-09 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610985729.8A CN106570170A (zh) 2016-11-09 2016-11-09 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统

Publications (1)

Publication Number Publication Date
CN106570170A true CN106570170A (zh) 2017-04-19

Family

ID=58540613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610985729.8A Pending CN106570170A (zh) 2016-11-09 2016-11-09 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统

Country Status (1)

Country Link
CN (1) CN106570170A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN107656990A (zh) * 2017-09-14 2018-02-02 中山大学 一种基于字和词两个层面特征信息的文本分类方法
RU2666277C1 (ru) * 2017-09-06 2018-09-06 Общество с ограниченной ответственностью "Аби Продакшн" Сегментация текста
CN108845560A (zh) * 2018-05-30 2018-11-20 国网浙江省电力有限公司宁波供电公司 一种电力调度日志故障分类方法
WO2019015269A1 (zh) * 2017-07-18 2019-01-24 中译语通科技股份有限公司 基于最大熵和神经网络模型的韩语命名实体识别方法
RU2699687C1 (ru) * 2018-06-18 2019-09-09 Общество с ограниченной ответственностью "Аби Продакшн" Обнаружение текстовых полей с использованием нейронных сетей
CN112084332A (zh) * 2020-08-28 2020-12-15 浙江大学 一种基于深度双向语言文本处理网络的违章分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101414300A (zh) * 2008-11-28 2009-04-22 电子科技大学 一种互联网舆情信息的分类处理方法
CN104615589A (zh) * 2015-02-15 2015-05-13 百度在线网络技术(北京)有限公司 训练命名实体识别模型的方法、命名实体识别方法及装置
CN104899304A (zh) * 2015-06-12 2015-09-09 北京京东尚科信息技术有限公司 命名实体识别方法及装置
CN104933152A (zh) * 2015-06-24 2015-09-23 北京京东尚科信息技术有限公司 命名实体识别方法及装置
CN105320645A (zh) * 2015-09-24 2016-02-10 天津海量信息技术有限公司 中文企业名称的识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101414300A (zh) * 2008-11-28 2009-04-22 电子科技大学 一种互联网舆情信息的分类处理方法
CN104615589A (zh) * 2015-02-15 2015-05-13 百度在线网络技术(北京)有限公司 训练命名实体识别模型的方法、命名实体识别方法及装置
CN104899304A (zh) * 2015-06-12 2015-09-09 北京京东尚科信息技术有限公司 命名实体识别方法及装置
CN104933152A (zh) * 2015-06-24 2015-09-23 北京京东尚科信息技术有限公司 命名实体识别方法及装置
CN105320645A (zh) * 2015-09-24 2016-02-10 天津海量信息技术有限公司 中文企业名称的识别方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN107102989B (zh) * 2017-05-24 2020-09-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
WO2019015269A1 (zh) * 2017-07-18 2019-01-24 中译语通科技股份有限公司 基于最大熵和神经网络模型的韩语命名实体识别方法
RU2666277C1 (ru) * 2017-09-06 2018-09-06 Общество с ограниченной ответственностью "Аби Продакшн" Сегментация текста
CN107656990A (zh) * 2017-09-14 2018-02-02 中山大学 一种基于字和词两个层面特征信息的文本分类方法
CN108845560A (zh) * 2018-05-30 2018-11-20 国网浙江省电力有限公司宁波供电公司 一种电力调度日志故障分类方法
CN108845560B (zh) * 2018-05-30 2021-07-13 国网浙江省电力有限公司宁波供电公司 一种电力调度日志故障分类方法
RU2699687C1 (ru) * 2018-06-18 2019-09-09 Общество с ограниченной ответственностью "Аби Продакшн" Обнаружение текстовых полей с использованием нейронных сетей
CN112084332A (zh) * 2020-08-28 2020-12-15 浙江大学 一种基于深度双向语言文本处理网络的违章分类方法

Similar Documents

Publication Publication Date Title
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
Thavareesan et al. Sentiment analysis in Tamil texts: A study on machine learning techniques and feature representation
CN106570170A (zh) 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统
CN108304468B (zh) 一种文本分类方法以及文本分类装置
CN106055538B (zh) 主题模型和语义分析相结合的文本标签自动抽取方法
CN105868184B (zh) 一种基于循环神经网络的中文人名识别方法
CN108763213A (zh) 主题特征文本关键词提取方法
KR102069621B1 (ko) 문서 구조와 딥러닝을 이용한 문서 분류 장치 및 방법
US20060089924A1 (en) Document categorisation system
CN109670014B (zh) 一种基于规则匹配和机器学习的论文作者名消歧方法
CN107451278A (zh) 基于多隐层极限学习机的中文文本分类方法
CN110069627A (zh) 短文本的分类方法、装置、电子设备和存储介质
CN108009148A (zh) 基于深度学习的文本情感分类表示方法
Ye et al. Sentiment classification for Chinese reviews: A comparison between SVM and semantic approaches
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN108199951A (zh) 一种基于多算法融合模型的垃圾邮件过滤方法
CN109002473A (zh) 一种基于词向量与词性的情感分析方法
CN107609113A (zh) 一种文本自动分类方法
CN109522544A (zh) 基于卡方检验的句向量计算方法、文本分类方法及系统
CN109299251A (zh) 一种基于深度学习算法的异常垃圾短信识别方法及系统
Nguyen et al. An ensemble of shallow and deep learning algorithms for Vietnamese sentiment analysis
CN108090178A (zh) 一种文本数据分析方法、装置、服务器和存储介质
Kathuria et al. Real time sentiment analysis on twitter data using deep learning (Keras)
CN107526721A (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN109558486A (zh) 电力客服客户诉求智能识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170419

RJ01 Rejection of invention patent application after publication