CN114386425B - 用于对自然语言文本内容进行处理的大数据体系建立方法 - Google Patents

用于对自然语言文本内容进行处理的大数据体系建立方法 Download PDF

Info

Publication number
CN114386425B
CN114386425B CN202210292434.8A CN202210292434A CN114386425B CN 114386425 B CN114386425 B CN 114386425B CN 202210292434 A CN202210292434 A CN 202210292434A CN 114386425 B CN114386425 B CN 114386425B
Authority
CN
China
Prior art keywords
natural language
matrix
vector
language text
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210292434.8A
Other languages
English (en)
Other versions
CN114386425A (zh
Inventor
李晋
刘宇鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liu Yupeng
Original Assignee
Tianjin Sirui Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Sirui Information Technology Co ltd filed Critical Tianjin Sirui Information Technology Co ltd
Priority to CN202210292434.8A priority Critical patent/CN114386425B/zh
Publication of CN114386425A publication Critical patent/CN114386425A/zh
Application granted granted Critical
Publication of CN114386425B publication Critical patent/CN114386425B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了用于对自然语言文本内容进行处理的大数据体系建立方法,包括:获得待处理的自然语言文本;对待处理的自然语言文本进行预处理,将待处理的自然语言文本进行规范化表示;用多个大小不等的卷积窗口对规范化表示的自然语言文本进行卷积及最大池化操作,得到特征向量矩阵;将具有相同实体对的句子经过步骤卷积及最大池化操作后,输出相同实体对特征向量矩阵,计算每个相同实体对特征向量的权重值,得到过滤后的特征向量矩阵,将过滤后的特征向量矩阵与预定的关系矩阵相乘,得到关联程度矩阵,利用目标函数训练和优化参数,得到大数据优化体系对待处理的自然语言文本做处理,输出处理后的目标结果。

Description

用于对自然语言文本内容进行处理的大数据体系建立方法
技术领域
本申请涉及自然语言处理领域,特别涉及用于对自然语言文本内容进行处理的大数据体系建立方法。
背景技术
自然语言处理是人工智能在众多研究学科领域中的一个重要分支,信息抽取IE(Information Extraction)是自然语言处理中的一个研究方向,它是从大量文本信息中获取命名实体及关系的结构化信息的过程。信息抽取是其他自然语言处理子任务的前置任务,其输出的结果实体关系对是知识图谱、问答系统等系统重要的组成部分,信息抽取是发现知识的有效手段之一,信息抽取分为命名实体识别和关系抽取。命名实体识别是给句子标注出能够表示时间地点人物等实体含义的词汇的过程,确定句子中哪些词有重要的含义。关系抽取是从己经被标注好实体的句子中,根据句子语义以及实体背景信息等预测句中实体之间的关系。
关系抽取是信息抽取的关键任务,其目的是从给定的自然语言文本中识别实体与实体之间的关系,并转化为人机可读的结构化形式存储。该任务不仅对知识图谱构建和扩充具有重要的作用,而且在智能搜索、自动问答及知识推理等任务中具有重要的应用价值。传统的关系抽取方法依赖特征工程和关系抽取模式,无法满足动态海量文本关系抽取的需求。近年来,随着深度学习技术在自然语言处理不同任务上的成功应用,深度学习成为关系抽取的主流方法。基于深度学习的关系抽取能够从大规模文本中自动学习关系表达的语义特征和关系模式,在性能上己经显著超越了传统模型,但仍然在语义表示、远程监督噪音、数据不平衡等方面存在着函待解决的问题。
例如专利文献CN111339407A,提出了一种信息抽取云平台的实现方法,数据获取,由用户输入选定的领域和初始关系集合,从中获取知识库,包括数据中的实体与关系;之后,采用经过训练的远程监督获取方法,通过远程监督获取文本库;最后,采用命名实体识别方法,利用知识库进行数据标注;设计关系抽取方法,句子级别注意力的关系抽取方法,将句子级别注意力关系抽取方法中使用字向量作为句子中每个单词的表示换成基于双向门控循环单元的方法来表示输入序列,建立关系抽取模型并运算输出结果。但是该技术方案仍然无法解决现有技术中数据不平衡等方面的问题,无法弥补了传统信息抽取方法的不足。
再例如CN102439590A,提出了一种用于自然语言文本的自动标注的方法和系统,接收来自电子形式的至少一个自然语言文件的文本;执行所述文本的基本语言分析;将在语言上分析的所述文本与存储的目标语义关系模式相匹配;通过基于在语言上分析的所述文本和在语言上分析的所述文本与所述目标语义关系模式的匹配的结果生成语义关系标签,来产生在语义上标注的文本,其中,所述语义关系标签与来自所述文本内的句子的词或短语相关联,并且指示预定类型的语义关系的成分;以及将所述在语义上标注的文本存储在数据库中。但该技术方案仍无法满足动态海量文本关系抽取的需求。
发明内容
为了解决上述技术问题,本发明提出了用于对自然语言文本内容进行处理的大数据体系建立方法,包括如下步骤:
S1、获得待处理的自然语言文本;
S2、对待处理的自然语言文本进行预处理,将待处理的自然语言文本进行规范化表示;
S3、用多个大小不等的卷积窗口对规范化表示的自然语言文本进行卷积及最大池化操作,得到句子特征向量矩阵;
S4、将具有相同实体对的句子S1,S2,…,Si,…,Sn经过步骤S3后,输出相同实体对特征向量矩阵
Figure 100002_DEST_PATH_IMAGE002
计算每个相同实体对特征向量的权重值
Figure 100002_DEST_PATH_IMAGE004
,得到过滤后特征向量矩阵
Figure 100002_DEST_PATH_IMAGE006
Figure 100002_DEST_PATH_IMAGE008
;其中,n表示所有句子的总数量;
S5、将过滤后特征向量矩阵
Figure 100002_DEST_PATH_IMAGE010
与预定的关系矩阵R相乘,得到关联程度矩阵O,
O=R
Figure 135571DEST_PATH_IMAGE010
+B;
其中B是偏置向量;
S6、计算条件概率
Figure 100002_DEST_PATH_IMAGE012
Figure 100002_DEST_PATH_IMAGE014
其中,O是关联程度矩阵,Ok是关联程度矩阵中代表第k个关系类型的关系向量,θ是条件概率参数,
Figure 678810DEST_PATH_IMAGE010
是过滤后特征向量矩阵,nZ是关系类型的总数量;
S7、利用目标函数
Figure 100002_DEST_PATH_IMAGE016
,训练和优化条件概率参数,得到大数据优化体系;
Figure 100002_DEST_PATH_IMAGE018
其中,
Figure 100002_DEST_PATH_IMAGE020
为第j个条件概率参数,M为条件概率参数的总数;
S8、利用步骤S7优化后的大数据体系对待处理的自然语言文本做处理,输出处理后的目标结果。
进一步地,所述步骤S2中,对所述待处理的自然语言文本的句子S=w1w2…wi…wn,通过查询词向量词典将词wi表示为dw维的词向量
Figure DEST_PATH_IMAGE022
,通过查询位置向量词典将wi相对位置信息表示为2×dp维的位置向量
Figure DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE026
分别表示词wi与句子中的前一个词和后一个词的距离,将词向量与位置向量连接成一个dw + 2×dp维的向量
Figure DEST_PATH_IMAGE028
,则所述待处理的自然语言文本的句子S被表示成大小为(dw + 2×dp)×n的矩阵x=[x1,x2,x3,…,xn]。
进一步地,所述步骤S3中,使用大小为k的卷积窗q,将xi、xi的父节点、xi的兄弟节点的词向量进行卷积操作,得到特征值hi
Figure DEST_PATH_IMAGE030
其中,
Figure DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE034
是查找词向量词典
Figure DEST_PATH_IMAGE036
得到的词wi的向量表示,
Figure DEST_PATH_IMAGE038
是wi的父节点的词向量,
Figure 100002_DEST_PATH_IMAGE040
是wi的兄弟节点的词向量,tanh是双曲正切函数,b是偏置项;
得到特征向量矩阵H = [h1,h2,...,hi,...,hn],最大池化操作将特征向量矩阵H中所有元素的最大值提取出来,作为卷积窗口q的最终抽取特征。
进一步地,所述步骤S4中,计算每个相同实体对特征向量的权重值
Figure 960012DEST_PATH_IMAGE004
Figure 558483DEST_PATH_IMAGE004
定义如下:
Figure 100002_DEST_PATH_IMAGE042
Figure 100002_DEST_PATH_IMAGE044
是中间过程的优先权重值。
进一步地,所述步骤S7中,采用Dropout进行正则化约束,在迭代时将目标函数J乘以一个小于1的因子λ,用于减小参数θ的值。
进一步地,使用Dropout进行正则化约束的具体过程如下:
S7.1、随机删掉用于训练的前馈神经网络中一半的隐藏神经元,输入输出神经元保持不变;
S7.2、把输入的条件概率参数通过删掉一半隐藏神经元的前馈神经网络中进行前向传播,然后把得到的输出结果通过前馈神经网络反向传播,利用一批训练样本执行完这个过程后,在没有被删除的神经元上按照随机梯度下降法更新对应的条件概率参数θ;
S7.3、继续重复上述过程,再次利用一批训练样本,先前向传播然后反向传播,并根据随机梯度下降法更新条件概率参数θ,没有被删除的神经元上的条件概率参数得到更新,删除的神经元参数保持被删除前的结果。
进一步地,设置所述迭代的上限次数为20,超过20次迭代后,无论大数据优化体系是否收敛都会停止训练和优化。
与现有技术相比,本申请具有以下优点:
在卷积提取特征时,使用多个数据处理单元并行地从多个卷积窗口中提取特征数据,提高了数据提取的速度,从而提高了卷积的处理效率。
采用Dropout进行正则化约束,比较有效的缓解过拟合的发生,在一定程度上达到正则化的效果。
反正传播更新模型中参数的时候,采用随机梯度下降的方式,加快训练速度以使得模型在尽可能短的时间内收敛。
采用本发明提供的用于对自然语言文本内容进行处理的大数据体系建立方法,利用大规模知识库数据生成目标自然语言文本句子向量,并将句子向量用于对目标自然语言文本进行文本处理,从而在有限的训练集场景下引入大量的外部信息的实体对,扩展了有限训练集所能表示的信息。
附图说明
附图1为本发明提供的用于对自然语言文本内容进行处理的大数据体系建立方法的流程图;
附图2为具有相同实体对的四个句子组成句子级别特征向量的形成过程示意图;
附图3为不同条件概率参数下的自然语言文本处理精度对比示意图;
附图4为本发明的Dropout的具体过程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请实施例方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。因此,基于本发明中的实施例,本领域普通技术人员在未经创造性劳动而能够获得的所有其他实施例都属于本发明保护的范围。
现有技术下,在将非结构化的自然语言文本转化为结构化信息的技术中,通常采用人工标注的方法获得样本对事件抽取系统进行训练,存在着样本量较小的问题,在一定程度上影响了事件抽取系统的性能。
在自然语言处理(NLP)中,为了通过比较连续空间中的向量表示来确定相似性,将自然语言文本表示为向量是有帮助的。然而,将词和短语表示为向量可能是一项困难的任务,每个已知的方法都具有其自身的缺点。本发明的实施例使用结构化信息,例如语法和语义信息,作为用于将词和/或短语表示为向量的上下文,而现有技术的方法仅包括使用相邻词(而不是结构化信息)来创建。
如图1所示为本申请实施例提供的一种用于对自然语言文本内容进行处理的大数据体系建立方法的流程图,该方法可包括:
S1、获得待处理的自然语言文本。
该待处理的自然语言文本可以是数据处理设备当前待处理的一个句子。该数据处理设备可以逐句对接收到的自然语言文本或者识别语音得到的自然语言文本做处理。获得待处理的自然语言文本可以是数据处理设备接收用户设备发送的语音或文本等数据,根据接收到的语音或文本等数据获得待处理的自然语言文本。但事实上转换的文本数据不限于短信内容,还可以是电子邮件,新闻等任何形式的文本数据。所述用户设备可以是手机、个人电脑、平板电脑、可穿戴设备、个人数字助理、游戏机、信息处理中心等智能终端。所述用户设备为自然语言数据处理的发起端,作为自然语言处理任务(例如翻译任务、复述任务等)的发起方,通常用户通过所述用户设备发起自然语言处理任务。复述任务是将一个自然语言文本转换为另一个与该自然语言文本意思相同但表达不同的文本的任务。
S2、对待处理的自然语言文本进行预处理,将待处理的自然语言文本进行规范化表示。
依存卷积神经网络的处理过程要求输入的待处理的自然语言文本长度相同,本步骤中使用增加同义词或去掉连词、介词等对语义影响小的词语的方式,将所有的待处理的自然语言文本的句子表示填充到预先设定的最长长度n。
本申请实施方式中获取同义词的方法可以利用《同义词词林》、《中文概念词典》等现有语义词典中蕴含的同义关系获取同义词,也可以根据百度百科信息框中特征词和汉典网中HTML标记获取同义词,同时还可利用DIPRE自动获取模式的方法,从百科文本中发现置信度较高的模式和同义关系。
本申请实施方式中去掉连词、介词等对语义影响小的词语的方式包括,去掉“的”“和”等。
填充到预先设定的最长长度n后,对一个待处理的自然语言文本的句子S=w1w2…wi…wn,通过查询词向量词典将词wi表示为dw维的词向量
Figure 28648DEST_PATH_IMAGE022
,通过查询位置向量词典将wi相对的位置信息表示为2×dp维的位置向量
Figure DEST_PATH_IMAGE046
Figure 8367DEST_PATH_IMAGE026
分别表示词wi与句子中的前一个词和后一个词的距离,将词向量与位置向量连接成一个dw + 2×dp维的向量表示
Figure DEST_PATH_IMAGE048
,则所述待处理的自然语言文本的句子S被表示成大小为(dw + 2×dp)×n的矩阵x=[x1,x2,x3,…,xn]。
S3、卷积及最大池化操作。
使用大小为k的卷积窗q,将词xi、xi的父节点、xi的兄弟节点的词向量按照如下方式进行卷积操作,得到特征值hi
Figure 213084DEST_PATH_IMAGE030
其中,
Figure 615246DEST_PATH_IMAGE032
Figure 2234DEST_PATH_IMAGE034
是查找词向量词典
Figure DEST_PATH_IMAGE050
得到的词wi的向量表示。V是将词按照语义类别组织在一起的词典,R代表词之间的关系,
Figure 933281DEST_PATH_IMAGE038
是wi的父节点的词向量,
Figure 156452DEST_PATH_IMAGE040
是wi的兄弟节点的词向量,tanh是双曲正切函数,
Figure DEST_PATH_IMAGE052
是偏置项。
当wi左侧的兄弟节点的数量小于k-2时,使用“自定义符号”来填充卷积窗口q。在本实施例中,节点wi到父节点路径上的节点为节点到父节点的一条或多条路径上的节点。也即,响应于节点wi到父节点有多条路径,可以选择其中一条路径上的节点,也可以选择其中的多条或全部路径上的节点。
当将卷积窗口q应用到矩阵x=[x1,x2,x3,…,xn]中的每一个词时,即i在区间「1,n]依次取值时,会得到一个特征向量矩阵H = [h1,h2,...,hi,...,hn]。用l3个大小不等的卷积窗口提取特征,会得到l3个与hi相同的特征向量。
在待处理的自然语言文本的句子S进行卷积操作提取特征时,每一个卷积窗口都会得到特征向量及一个特征向量矩阵。例如,使用第一种类型的卷积窗口q对句子S=w1w2…wi…wn提取特征时,会得到特征向量hi和一个特征向量矩阵H = [h1,h2,...,hi,...,hn]。
最大池化操作将特征向量矩阵H中所有特征向量的最大值hmax提取出来,作为卷积窗口q的最终抽取特征。
使用l1个卷积窗口对候选关系实例进行卷积、最大池化后,会得到一个l1维的特征向量矩阵Z1。同样地,使用l2个第二类卷积窗口及l3个第三类卷积窗口提取特征,会分别得到一个l2维的特征向量矩阵Z2及一个l3维的特征向量矩阵Z3。最后,将向量Z1、Z2、Z3首尾连接得到一个l1+ l2+ l3维的特征向量矩阵Z′,用于表示待处理的句子特征向量矩阵,即:Z′=[Z1,Z2,Z3]。
在优选实施例中,在卷积提取特征时,可以使用多个数据处理单元并行地从多个卷积窗口中提取特征数据,提高了数据提取的速度,从而提高了卷积的处理效率。
如果将步骤S3输出的表示待处理的句子的特征向量矩阵Z直接输入到分类器中进行分类,会发现由于错误标签的影响,整个分类的精确度较差。为了解决这一问题,进入步骤S4。
S4、将具有相同实体对的句子S1,S2,…,Si,…,Sn都经过上述卷积操作和最大池化后,输出句子级别的特征向量矩阵
Figure DEST_PATH_IMAGE054
,其中,
Figure DEST_PATH_IMAGE056
表示第i个句子的特征向量,最后输出的句子级别的特征向量矩阵表示为
Figure DEST_PATH_IMAGE058
其中,对于相同实体对是指,如果两个实体存在某种语义关系,那么所有包含这两个实体的句子都表达了它们之间的语义关系。对于一个己有的外部领域无关的实体知识库中的高质量实体关系实例,假设外部文档库中任何包含这对实体的句子,在一定程度上都反映了这种关系。例如知识库中的实体关系实例“发现者” (牛顿,力学定律),某些句子中同时存在“牛顿”和“力学定律"这一实体对,那么这些句子都将自动标注为“发现者”关系。
如图2为例,说明具有相同实体对的四个句子组成句子级别特征向量的过程。
上图可以明显看出,S1,S2,S3,S4四个句子构成的矩阵具有相同的实体对。经过步骤S4后,输出了句子级别的特征向量矩阵
Figure DEST_PATH_IMAGE060
对每个句子的特征向量作进一步的筛选,使得对句子级别的特征向量矩阵产生的影响较大的噪音数据直接被过滤。计算第i个相同实体对特征向量的权重值
Figure 840333DEST_PATH_IMAGE004
,定义如下:
Figure 832560DEST_PATH_IMAGE042
Figure 200087DEST_PATH_IMAGE044
是中间过程的优先权重值。
最后根据每个相同实体对特征向量获取到的权重值将句子级别的特征向量矩阵组合过滤后得到特征向量矩阵
Figure 159822DEST_PATH_IMAGE006
。具体的计算公式如下:
Figure DEST_PATH_IMAGE062
其中,n表示所有句子的总数量。
S5、将过滤后的特征向量矩阵
Figure 326623DEST_PATH_IMAGE010
与预定的关系矩阵R相乘,得到关联程度矩阵O,计算方法如下:
O=R
Figure 438935DEST_PATH_IMAGE010
+B;
其中B是偏置向量。
虽然得到了过滤后的特征向量矩阵
Figure 242943DEST_PATH_IMAGE010
与预定的关系矩阵R的关联程度,但是为了便于计算,进入步骤S6,利用条件概率
Figure 440707DEST_PATH_IMAGE012
公式,将关系程度映射到(0,1)之间的值。
S6、计算条件概率
Figure 972051DEST_PATH_IMAGE012
,公式如下:
Figure 938870DEST_PATH_IMAGE014
其中,O是关联程度矩阵,Ok是关联程度矩阵中代表第k个关系类型的关系向量,θ是条件概率参数,
Figure 179358DEST_PATH_IMAGE010
是过滤后的特征向量矩阵,nZ是关系类型的总数量,最终输出层的输出为体现了句子级别的特征向量矩阵与所有关系类型的匹配程度的一个概率的特征向量。
S7、利用目标函数训练和优化条件概率参数θ。
本发明采用交叉熵代价函数作为目标函数
Figure 83992DEST_PATH_IMAGE016
训练和优化条件概率参数θ,目标函数
Figure 435338DEST_PATH_IMAGE016
定义如下:
Figure 256664DEST_PATH_IMAGE018
其中,
Figure 402475DEST_PATH_IMAGE020
为第j个条件概率参数,M为条件概率参数的总数,使用优化器进行参数更新。如图3所示,四条曲线分别表示S1,S2,S3,S4四个句子在不同条件概率参数下的自然语言文本处理精度对比。
当用一个复杂的前馈神经网络作为目标函数训练条件概率参数θ时,在采用小的数据集时,容易造成过拟合。为了防止过拟合,可以通过阻止特征检测的共同作用来提高神经网络的性能,采用Dropout进行正则化约束。Dropout可以比较有效的缓解过拟合的发生,在一定程度上达到正则化的效果。
使用Dropout的具体过程如下:
(1)首先随机删掉前馈神经网络中一半的隐藏神经元,输入输出神经元保持不变,如图4中所示,虚线为部分临时被删除的神经元;
(2)然后把输入的条件概率参数通过删掉一半隐藏神经元的前馈神经网络中进行前向传播,然后把得到的输出结果通过前馈神经网络反向传播。利用一批训练样本执行完这个过程后,在没有被删除的神经元上按照随机梯度下降法更新对应的条件概率参数θ。
(3)然后继续重复这一过程,在迭代时,将目标函数乘以一个小于1的因子λ,用于减小参数θ的值,再次利用一批训练样本,先前向传播然后反向传播,并根据随机梯度下降法更新条件概率参数θ,没有被删除的神经元上的条件概率参数得到更新,删除的神经元参数保持被删除前的结果。
反复重复上述过程,Dropout在每次前向传播时,随机地丢弃一些隐层节点特征,即权值更新不依赖于固定的节点共同作用。正则化操作降低了数据偏移对结果的影响,增强了大数据优化体系的抗扰动性,避免了过拟合现象。
在优选实施例中,设置迭代的上限次数为20,即超过20次迭代轮次后无论大数据优化体系是否收敛都会停止训练。为了加快训练速度,将会分批次将数据放入模型中进行训练,每个批次设置为160个包。
采用dropout技术,每次在训练过程中以0.5的概率随机丢弃模型中的一些神经元,这样既加快了训练过程,同时避免了过拟合的现象产生。最小化损失函数,反正传播更新模型中参数的时候,采用随机梯度下降的方式,加快训练速度以使得模型在尽可能短的时间内收敛。
S8、利用步骤S7优化后的大数据体系对待处理的自然语言文本做处理,输出处理后的目标结果。
在优选实施例中,本发明还提出了一种用于对自然语言文本内容进行处理的大数据体系,采用上述的用于对自然语言文本内容进行处理的大数据体系建立方法进行构建。
大数据体系包括:
获取模块,用于获得待处理的自然语言文本。
还包括处理器,用于对自然语言文本内容进行预处理和训练,得到大数据优化体系,并利用处理器优化后的大数据体系对待处理的自然语言文本处理。
本实施例中提供的处理器可以部署于计算机设备,该处理器可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)和存储器,一个或一个以上存储应用程序或数据的存储介质 (例如一个或一个以上海量存储设备)。其中,存储器和存储介质可以是短暂存储或持久存储。存储在存储介质的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,处理器可以设置为与存储介质通信,在处理器上执行存储介质中的一系列指令操作。
本实施例的大数据体系还包括输出模块,用于输出自然语言文本处理后的的目标结果。
在优选实施例中,本发明用于实现构建大数据体系的数据处理设备可以是云服务器、网络服务器、应用服务器以及管理服务器等具有数据处理功能的设备或服务器。所述数据处理设备通过交互接口接收来自所述智能终端的查询语句/语音/文本等问句,再通过存储数据的存储器以及执行数据处理的处理器进行机器学习,深度学习,搜索,推理,决策等方式的语言数据处理。所述存储器可以是一个统称,包括本地存储以及存储历史数据的数据库,所述数据库可以在数据处理设备上,也可以在其它网络服务器上。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如前述各个实施例描述的方法。
本申请实施例中还提供一种包括程序的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例描述的方法。
采用本实施例提供的用于对自然语言文本内容进行处理的大数据体系建立方法,利用大规模知识库数据生成目标自然语言文本句子向量,并将句子向量用于对目标自然语言文本进行文本处理,从而在有限的训练集场景下引入大量的外部信息的实体对,扩展了有限训练集所能表示的信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(ReadOnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(RandomAccessMemory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(StaticRandomAccessMemory,SRAM)或动态随机存取存储器(DynamicRandomAccessMemory,DRAM)等。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (6)

1.用于对自然语言文本内容进行处理的大数据体系建立方法,其特征在于,包括如下步骤:
S1、获得待处理的自然语言文本;
S2、对待处理的自然语言文本进行预处理,将待处理的自然语言文本进行规范化表示;将所有的待处理的自然语言文本的句子表示填充到预先设定的最长长度n,对所述待处理的自然语言文本的句子S=w1w2…wi…wn,通过查询词向量词典将词wi表示为dw维的词向量
Figure DEST_PATH_IMAGE002
,通过查询位置向量词典将wi相对位置信息表示为2×dp维的位置向量
Figure DEST_PATH_IMAGE004
分别表示词wi与句子中的前一个词和后一个词的距离,将词向量与位置向量连接成一个dw + 2×dp维的向量
Figure DEST_PATH_IMAGE006
,则所述待处理的自然语言文本的句子S被表示成大小为(dw + 2×dp)×n的矩阵x=[x1,x2,x3,…,xn];
S3、用多个大小不等的卷积窗口对规范化表示的自然语言文本进行卷积及最大池化操作,得到句子特征向量矩阵;
使用l1个卷积窗口对候选关系实例进行卷积、最大池化后,得到一个l1维的特征向量矩阵Z1,使用l2个第二类卷积窗口及l3个第三类卷积窗口提取特征,分别得到一个l2维的特征向量矩阵Z2及一个l3维的特征向量矩阵Z3,将向量Z1、Z2、Z3首尾连接得到一个l1+ l2+ l3维的特征向量矩阵Z′,用于表示待处理的句子特征向量矩阵Z′,Z′=[Z1,Z2,Z3];
S4、将具有相同实体对的句子S1,S2,…,Si,…,Sn经过步骤S3后,输出相同实体对特征向量矩阵
Figure DEST_PATH_IMAGE008
计算每个相同实体对特征向量的权重值
Figure DEST_PATH_IMAGE010
,得到过滤后特征向量矩阵
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE014
;其中,n表示所有句子的总数量;
S5、将过滤后特征向量矩阵
Figure DEST_PATH_IMAGE015
与预定的关系矩阵R相乘,得到关联程度矩阵O,
Figure DEST_PATH_IMAGE016
其中B是偏置向量;
S6、计算条件概率
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE020
其中,O是关联程度矩阵,Ok是关联程度矩阵中代表第k个关系类型的关系向量,θ是条件概率参数,
Figure DEST_PATH_IMAGE021
是过滤后特征向量矩阵,nZ是关系类型的总数量;
S7、利用目标函数
Figure DEST_PATH_IMAGE023
,训练和优化条件概率参数,得到大数据优化体系;
Figure DEST_PATH_IMAGE025
其中,
Figure DEST_PATH_IMAGE027
为第j个条件概率参数,M为条件概率参数的总数;
S8、利用步骤S7优化后的大数据体系对待处理的自然语言文本做处理,输出处理后的目标结果。
2.根据权利要求1所述的大数据体系建立方法,其特征在于,所述步骤S3中,使用大小为k的卷积窗q,将xi、xi的父节点、xi的兄弟节点的词向量进行卷积操作,得到特征值hi
Figure DEST_PATH_IMAGE029
其中,
Figure DEST_PATH_IMAGE031
Figure DEST_PATH_IMAGE033
是查找词向量词典得到的词wi的向量表示,
Figure DEST_PATH_IMAGE035
是wi的父节点的词向量,
Figure DEST_PATH_IMAGE037
是wi的兄弟节点的词向量,tanh是双曲正切函数,b是偏置项;
得到特征向量矩阵H=[h1,h2,...,hi,...,hn],最大池化操作将特征向量矩阵H中所有元素的最大值提取出来,作为卷积窗口q的最终抽取特征。
3.根据权利要求2所述的大数据体系建立方法,其特征在于,所述步骤S4中,计算每个相同实体对特征向量的权重值
Figure DEST_PATH_IMAGE039
Figure DEST_PATH_IMAGE040
定义如下:
Figure DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE044
是中间过程的优先权重值。
4.根据权利要求1所述的大数据体系建立方法,其特征在于,所述步骤S7中,采用Dropout进行正则化约束,在迭代时将目标函数乘以一个小于1的因子λ,用于减小参数θ的值。
5.根据权利要求4所述的大数据体系建立方法,其特征在于,使用Dropout进行正则化约束的具体过程如下:
S7.1、随机删掉用于训练的前馈神经网络中一半的隐藏神经元,输入输出神经元保持不变;
S7.2、把输入的条件概率参数通过删掉一半隐藏神经元的前馈神经网络中进行前向传播,然后把得到的输出结果通过前馈神经网络反向传播,利用一批训练样本执行完这个过程后,在没有被删除的神经元上按照随机梯度下降法更新对应的条件概率参数θ;
S7.3、继续重复上述过程,再次利用一批训练样本,先前向传播然后反向传播,并根据随机梯度下降法更新条件概率参数θ,没有被删除的神经元上的条件概率参数得到更新,删除的神经元参数保持被删除前的结果。
6.根据权利要求4所述的大数据体系建立方法,其特征在于,设置所述迭代的上限次数为20,超过20次迭代后,无论大数据优化体系是否收敛都会停止训练和优化。
CN202210292434.8A 2022-03-24 2022-03-24 用于对自然语言文本内容进行处理的大数据体系建立方法 Active CN114386425B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210292434.8A CN114386425B (zh) 2022-03-24 2022-03-24 用于对自然语言文本内容进行处理的大数据体系建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210292434.8A CN114386425B (zh) 2022-03-24 2022-03-24 用于对自然语言文本内容进行处理的大数据体系建立方法

Publications (2)

Publication Number Publication Date
CN114386425A CN114386425A (zh) 2022-04-22
CN114386425B true CN114386425B (zh) 2022-06-10

Family

ID=81205498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210292434.8A Active CN114386425B (zh) 2022-03-24 2022-03-24 用于对自然语言文本内容进行处理的大数据体系建立方法

Country Status (1)

Country Link
CN (1) CN114386425B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117094260B (zh) * 2023-10-16 2024-01-19 上海合见工业软件集团有限公司 一种基于自然语言的命令交互系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107273349A (zh) * 2017-05-09 2017-10-20 清华大学 一种基于多种语言的实体关系抽取方法及服务器
CN109753566A (zh) * 2019-01-09 2019-05-14 大连民族大学 基于卷积神经网络的跨领域情感分析的模型训练方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753088A (zh) * 2020-06-28 2020-10-09 汪秀英 一种自然语言信息的处理方法
CN112069837A (zh) * 2020-09-17 2020-12-11 湖北亿咖通科技有限公司 一种基于神经网络的自然语言处理方法和电子设备
CN112364652A (zh) * 2020-10-27 2021-02-12 齐鲁工业大学 基于多通道卷积的文本实体关系抽取方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107273349A (zh) * 2017-05-09 2017-10-20 清华大学 一种基于多种语言的实体关系抽取方法及服务器
CN109753566A (zh) * 2019-01-09 2019-05-14 大连民族大学 基于卷积神经网络的跨领域情感分析的模型训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于深度神经网络的自然场景文本识别";黎洁涵;《中国优秀博硕士学位论文全文数据库(硕士)(信息科技辑)》;20200715(第07期);第2.4.3.3节 *

Also Published As

Publication number Publication date
CN114386425A (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN107291693B (zh) 一种改进词向量模型的语义计算方法
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN109726389B (zh) 一种基于常识和推理的中文缺失代词补全方法
CN111159416A (zh) 语言任务模型训练方法、装置、电子设备及存储介质
WO2022141878A1 (zh) 端到端的语言模型预训练方法、系统、设备及存储介质
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN106569998A (zh) 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN110134950B (zh) 一种字词结合的文本自动校对方法
CN109214006A (zh) 图像增强的层次化语义表示的自然语言推理方法
CN111125367A (zh) 一种基于多层次注意力机制的多种人物关系抽取方法
CN115495555A (zh) 一种基于深度学习的文献检索方法和系统
CN113761868B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN113704416A (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
US20220156489A1 (en) Machine learning techniques for identifying logical sections in unstructured data
CN116403231A (zh) 基于双视图对比学习与图剪枝的多跳阅读理解方法及系统
CN115545030A (zh) 实体抽取模型的训练方法、实体关系抽取方法及装置
CN115329075A (zh) 基于分布式机器学习的文本分类方法
CN114386425B (zh) 用于对自然语言文本内容进行处理的大数据体系建立方法
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法
JP2017010249A (ja) パラメタ学習装置、文類似度算出装置、方法、及びプログラム
CN113051886B (zh) 一种试题查重方法、装置、存储介质及设备
CN118095278A (zh) 一种基于预训练模型的共指消解文档级关系抽取方法
Chan et al. Applying and optimizing NLP model with CARU

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221101

Address after: 1709, F13, Block A, Yard 93, Jianguo Road, Chaoyang District, Beijing 100022

Patentee after: Liu Yupeng

Address before: 300000 No. 201-10, unit 2, building 2, No. 39, Gaoxin Sixth Road, Binhai science and Technology Park, high tech Zone, Binhai New Area, Tianjin

Patentee before: Tianjin Sirui Information Technology Co.,Ltd.

TR01 Transfer of patent right