CN113076741A - 一种基于多语言文本数据分析方法 - Google Patents

一种基于多语言文本数据分析方法 Download PDF

Info

Publication number
CN113076741A
CN113076741A CN202110257644.9A CN202110257644A CN113076741A CN 113076741 A CN113076741 A CN 113076741A CN 202110257644 A CN202110257644 A CN 202110257644A CN 113076741 A CN113076741 A CN 113076741A
Authority
CN
China
Prior art keywords
model
module
text
data
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110257644.9A
Other languages
English (en)
Inventor
潘晓光
焦璐璐
令狐彬
宋晓晨
韩丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Sanyouhe Smart Information Technology Co Ltd
Original Assignee
Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi Sanyouhe Smart Information Technology Co Ltd filed Critical Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority to CN202110257644.9A priority Critical patent/CN113076741A/zh
Publication of CN113076741A publication Critical patent/CN113076741A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及自然语言处理领域,特别涉及一种基于多语言文本数据分析方法,包括如下模块:文本数据采集模块、数据处理模块、模型构建模块和模型保存模块,所述文本数据采集模块用于采集文本数据,并对所述文本数据类别进行标注,完成模型的数据集构建;所述数据处理模块用于通过嵌入层将文本中的词条转化为向量以方便进入架构;所述模型构建模块用于构建基于卷积神经网络CNN和长短期记忆网络LSTM的训练模型,通过卷积神经网络提取与语言无关的模型的特征,利用LSTM来捕获长期依赖关系,以便后续数据处理;所述模型保存模块用于当模型的损失函数不再下降,保存模型;本发明能使应用程序通过一种语言遗忘或语言无关的方式来利用情感分析得到的结果。

Description

一种基于多语言文本数据分析方法
技术领域
本申请涉及自然语言处理领域,特别涉及一种基于多语言文本数据分析方法。
背景技术
目前社交媒体平台和在线论坛产生的文本数量迅速增加,使企业、政府机构和媒体组织试图对这些丰富的文本数据进行情感分析。这些分析的结果用于调整营销策略、定制产品、安全和其他各种决策,然而大部分的方法都只适用于某一特殊领域或特殊语种。
情感分析的大部分方法都只适用于特定语言编写的文本,这大大限制了对特定人口和地理区域的适用性。
发明内容
基于此,本发明通过研发一种基于卷积神经网络(CNN)和基于长时记忆(LSTM)的体系结构,来完成通用的多语言文本数据情感分析。首先通过词嵌入层映射成向量以便后续提取特征,然后一路用CNN提取n-gram特征后接最大池化层,同时另一路用两层LSTM来捕获长期依赖关系,最后两路一齐进行全连接层,Dropout层,批标准化和Softmax层来防止过拟合以及提高准确率。这样的架构可以实现语言无关的特征提取的同时保证较高的准确率。
本申请公开了以下技术方案:
本申请公开的一种基于多语言文本数据分析方法,包括如下模块:文本数据采集模块、数据处理模块、模型构建模块和模型保存模块,
所述文本数据采集模块用于采集文本数据,并对所述文本数据类别进行标注,完成模型的数据集构建;
所述数据处理模块用于通过嵌入层将文本中的词条转化为向量以方便进入架构;
所述模型构建模块用于构建基于卷积神经网络CNN和长短期记忆网络LSTM的训练模型,通过卷积神经网络提取与语言无关的模型的特征,利用LSTM来捕获长期依赖关系,以便后续数据处理;
所述模型保存模块用于当模型的损失函数不再下降,保存模型。
进一步,文本数据采集模块中,具体包括如下模块:
所述文本数据采集模块中,使用的数据集可以由多种语言的文本内容组成,并被手动标注为为正类、中性类、负面类或无关类。
进一步,数据处理模块中,具体包括如下模块:
所述数据处理模块中,对数据集进行标准的训练集和测试集的分割之后输入模型,模型对于给定的输入文本进行词嵌入,即将每个单词映射到一个d维向量,用来在之后进行学习特征表示,所述特征转发到一个小分类器进行最终的预测。
进一步,模型保存模块中,具体包括如下子模块:
CNN子模块:CNN即卷积神经网络,使用CNN提取与语言无关的模型的特征;
LSTM子模块:LSTM即长短期记忆网络,使用两层LSTM来捕获长期依赖关系,以便后续数据处理;
最大池化层子模块:用来提取特征和降维;
全连接层子模块:整合卷积层或者池化层中具有类别区分性的局部信息.提升整个网络性能;
Dropout层子模块:添加Dropout层可以防止模型过拟合,其中Dropout是指在深度学习网络的训练过程中,按照一定的概率将一部分神经网络单元暂时从网络中丢弃,相当于从原始的网络中找到一个更简练的网络;
批标准化子模块:通过规范化手段,把每层神经网络任意神经元在做非线性变换前的激活输入值的分布强行拉回到均值为0方差为1的标准正态分布;
Softmax层子模块:即Softmax回归模型,用来解决模型中的分类问题,Softmax的公式如下:
Figure BDA0002968625290000031
本申请具有如下有益效果:
本方案通过提出了一种通用的多语言文本数据情感分析方法。这使得所有的应用程序都能够以一种语言遗忘或语言无关的方式利用情感分析的结果。所提出的模型专注于预测了文本的情感,而忽略了文本的语言且不包含任何特定于语言的工具。因此,它可以很容易地扩展到与语言无关的情绪分析或者更多的其他语种的语言。
附图说明
以下参考附图描述的实施例是示例性的,旨在用于解释和说明本申请,而不能理解为对本申请的保护范围的限制。
图1是本申请公开的主要步骤流程图。
具体实施方式
为使本申请实施的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图1,对本申请实施例中的技术方案进行更加详细的描述。
本申请公开的一种基于多语言文本数据分析方法,如图1所示,包括以下模块:文本数据采集模块、数据处理模块、模型构建模块和模型保存模块,
所述文本数据采集模块用于采集文本数据,并对所述文本数据类别进行标注,完成模型的数据集构建;
所述数据处理模块用于通过嵌入层将文本中的词条转化为向量以方便进入架构;
所述模型构建模块用于构建基于卷积神经网络CNN和长短期记忆网络LSTM的训练模型,通过卷积神经网络提取特征对于语言无关的模型,利用LSTM来捕获长期依赖关系,以便后续数据处理;
所述模型保存模块用于当模型的损失函数不再下降,保存模型。
所述文本数据采集模块中,采集模型所需的文本数据,并对其类别进行标注,完成模型所需的数据集构建。在本方案使用的数据集可以由多种语言的文本内容组成,并被手动标注为为正类、中性类、负面类或无关类。
所述数据处理模块中,通过嵌入层将文本中词条的转化为向量以方便进入架构。对数据集进行标准的训练集和测试集的分割之后输入模型,模型对于给定的输入文本,首先将每个单词映射到一个d维向量,称为词嵌入。词嵌入是用来在之后进行学习特征表示的。这些特征被转发到一个小分类器进行最终的预测。更正式地说,如果一个文本T有t个单词(T=<w1,w2,w3,…,wt>),其中每个单词都是由从均匀分布随机初始化的d维向量定义的。
所述模型构建模块中,
方案目标是预测T的情绪y∈{积极、中性、消极},为了实现此目标,提出了一种基于卷积神经网络(CNN)和基于长时记忆(LSTM)的体系结构。CNN的选择是从输入文本中学习n-gram特征,因为使用n-gram特征对于语言无关的模型是有用的。然而,这些现有的体系结构忽略了这样一个事实,即对文本中的长期依赖项进行编码对于学习健壮的特征表示也是十分重要的。所以使用两层LSTM来捕获长期依赖关系,而为了学习n-gram特征,使用了CNN。在CNN学习的表示法上使用最大池化层,它从特定的过滤器学到的每个特征映射中输出最大值。然后,将第二LSTM和全局最大池层的输出转发到一个小的前馈网络进行最终预测。这个前馈网络由一个全连接层组成,然后是dropout层和批标准化层,用来避免过拟合。我们对cnn和完全连接的层使用“relu”激活函数,它由σ(X)=max(x,0)定义。最后,使用“Softmax”层计算每个类的概率,并根据最大概率分配一个标签。
具体包括如下子模块:
CNN子模块:卷积神经网络是一种包含卷积计算且具有深度结构的前馈神经网络,卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,因此也被称为“平移不变人工神经网络。架构使用CNN的原因是使用其提取与语言无关的模型的特征效果显著;
LSTM子模块:长短期记忆网络是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。框架使用两层LSTM来捕获长期依赖关系,以便后续数据处理;
最大池化层子模块:最大池化层经常用到的处理模块,以保留文本中词语组合的局部信息而被广泛引用,其作用主要用来提取特征和降维;
全连接层子模块:全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来。由于其全相连的特性,因此特性得名全连接层。全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息.因而提升整个网络性能;
Dropout层子模块:Dropout是指在深度学习网络的训练过程中,按照一定的概率将一部分神经网络单元暂时从网络中丢弃,相当于从原始的网络中找到一个更简练的网络,添加Dropout层,主要是为了防止模型过拟合;
批标准化子模块:批标准化(Batch Normalization),因为深层神经网络在做非线性变换前的激活输入值随着网络深度加深或者在训练过程中,其分布逐渐发生偏移或者变动,之所以训练收敛慢,一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近,所以这导致反向传播时低层神经网络的梯度消失,这是训练深层神经网络收敛越来越慢的本质原因,而批标准化就是通过一定的规范化手段,把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布,这样输入的小变化就会导致损失函数较大的变化,其意义让梯度变大,避免梯度消失问题产生,而且梯度变大意味着学习收敛速度快,能大大加快训练速度;
Softmax层子模块:Softmax回归模型是logistic回归模型在多分类问题上的推广,在多分类问题中,待分类的类别数量大于2,且类别之间互斥。Softmax的公式如下:
Figure BDA0002968625290000061
可以看出如果某一个zj大过其他z,那这个映射的分量就逼近于1,其他就逼近于0,并且对所有输入数据进行归一化。在模型中主要解决分类问题。
所述模块模型保存模块中,当损失函数不在下降时,保存训练模型。
上述所有模块都可以封装进一个应用程序中,通过相互调用接口协同完成基于多语言文本数据分析的技术功能。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (5)

1.一种基于多语言文本数据分析方法,其特征在于,包括:文本数据采集模块、数据处理模块、模型构建模块和模型保存模块,
所述文本数据采集模块用于采集文本数据,并对所述文本数据类别进行标注,完成模型的数据集构建;
所述数据处理模块用于通过嵌入层将文本中的词条转化为向量以方便进入架构;
所述模型构建模块用于构建基于卷积神经网络CNN和长短期记忆网络LSTM的训练模型,通过卷积神经网络CNN提取与语言无关的模型的特征,利用长短期记忆网络LSTM来捕获长期依赖关系,以便后续数据处理;
所述模型保存模块用于当模型的损失函数不再下降,保存模型。
2.如权利要求1所述的一种基于多语言文本数据分析方法,其特征在于,所述文本数据采集模块中,使用的数据集可以由多种语言的文本内容组成,并被手动标注为为正类、中性类、负面类或无关类。
3.如权利要求1所述的一种基于多语言文本数据分析方法,其特征在于,所述数据处理模块中,对数据集进行标准的训练集和测试集的分割之后输入模型,模型对于给定的输入文本进行词嵌入,即将每个单词映射到一个d维向量,用来在之后进行学习特征表示,所述特征转发到一个小分类器进行最终的预测。
4.如权利要求1所述的一种基于多语言文本数据分析方法,其特征在于,所述模型构建模块中,包括如下子模块:
CNN子模块:CNN即卷积神经网络,使用CNN提取与语言无关的模型的特征;
LSTM子模块:LSTM即长短期记忆网络,使用两层LSTM来捕获长期依赖关系,以便后续数据处理;
最大池化层子模块:用来提取特征和降维;
全连接层子模块:整合卷积层或者池化层中具有类别区分性的局部信息.提升整个网络性能;
Dropout层子模块:添加Dropout层可以防止模型过拟合,其中Dropout是指在深度学习网络的训练过程中,按照一定的概率将一部分神经网络单元暂时从网络中丢弃,相当于从原始的网络中找到一个更简练的网络;
批标准化子模块:通过规范化手段,把每层神经网络任意神经元在做非线性变换前的激活输入值的分布强行拉回到均值为0方差为1的标准正态分布;
Softmax层子模块:即Softmax回归模型,用来解决模型中的分类问题,Softmax的公式如下:
Figure FDA0002968625280000021
5.如权利要求1所述的一种基于多语言文本数据分析方法,其特征在于,所述文本数据采集模块连接所述数据处理模块、所述数据处理模块块连接所述模型构建模块、所述模型构建模块连接所述模型保存模块。
CN202110257644.9A 2021-03-09 2021-03-09 一种基于多语言文本数据分析方法 Pending CN113076741A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110257644.9A CN113076741A (zh) 2021-03-09 2021-03-09 一种基于多语言文本数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110257644.9A CN113076741A (zh) 2021-03-09 2021-03-09 一种基于多语言文本数据分析方法

Publications (1)

Publication Number Publication Date
CN113076741A true CN113076741A (zh) 2021-07-06

Family

ID=76612206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110257644.9A Pending CN113076741A (zh) 2021-03-09 2021-03-09 一种基于多语言文本数据分析方法

Country Status (1)

Country Link
CN (1) CN113076741A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114596960A (zh) * 2022-03-01 2022-06-07 中山大学 基于神经网络和自然对话的阿尔兹海默症风险预估方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114596960A (zh) * 2022-03-01 2022-06-07 中山大学 基于神经网络和自然对话的阿尔兹海默症风险预估方法
CN114596960B (zh) * 2022-03-01 2023-08-08 中山大学 基于神经网络和自然对话的阿尔兹海默症风险预估方法

Similar Documents

Publication Publication Date Title
CN111709241B (zh) 一种面向网络安全领域的命名实体识别方法
CN110852368B (zh) 全局与局部特征嵌入及图文融合的情感分析方法与系统
CN110119786B (zh) 文本话题分类方法及装置
CN111274394B (zh) 一种实体关系的抽取方法、装置、设备及存储介质
CN107729309B (zh) 一种基于深度学习的中文语义分析的方法及装置
CN112347268A (zh) 一种文本增强的知识图谱联合表示学习方法及装置
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN110263325B (zh) 中文分词系统
CN108763510A (zh) 意图识别方法、装置、设备及存储介质
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
CN111475642A (zh) 一种文本分类方法、装置及模型训练方法
CN113705218B (zh) 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置
CN111522908A (zh) 一种基于BiGRU和注意力机制的多标签文本分类方法
CN110502742B (zh) 一种复杂实体抽取方法、装置、介质及系统
CN112163089B (zh) 一种融合命名实体识别的高技术文本分类方法及系统
CN112328797A (zh) 一种基于神经网络和注意力机制的情感分类方法及系统
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN111435375A (zh) 一种基于FastText的威胁情报自动化标注方法
CN113239694B (zh) 一种基于论元短语的论元角色识别的方法
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN110472655A (zh) 一种用于跨境旅游的标志物机器学习识别系统及方法
CN113590827A (zh) 一种基于多角度的科研项目文本分类装置和方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN113076741A (zh) 一种基于多语言文本数据分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Pan Xiaoguang

Inventor after: Jiao Lulu

Inventor after: LingHu Bin

Inventor after: Song Xiaochen

Inventor after: Han Dan

Inventor after: Zhao Peng

Inventor before: Pan Xiaoguang

Inventor before: Jiao Lulu

Inventor before: LingHu Bin

Inventor before: Song Xiaochen

Inventor before: Han Dan

CB03 Change of inventor or designer information