CN110765243A - 自然语言处理系统的构建方法、电子装置及计算机设备 - Google Patents
自然语言处理系统的构建方法、电子装置及计算机设备 Download PDFInfo
- Publication number
- CN110765243A CN110765243A CN201910876792.1A CN201910876792A CN110765243A CN 110765243 A CN110765243 A CN 110765243A CN 201910876792 A CN201910876792 A CN 201910876792A CN 110765243 A CN110765243 A CN 110765243A
- Authority
- CN
- China
- Prior art keywords
- neural network
- text vector
- natural language
- text
- processing system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003058 natural language processing Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims description 43
- 238000013528 artificial neural network Methods 0.000 claims abstract description 132
- 239000013598 vector Substances 0.000 claims abstract description 86
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000004590 computer program Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 5
- 238000011524 similarity measure Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 abstract description 8
- 230000000694 effects Effects 0.000 abstract description 6
- 238000010276 construction Methods 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 70
- 210000002569 neuron Anatomy 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 241000282326 Felis catus Species 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000019771 cognition Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000002356 single layer Substances 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000008667 sleep stage Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种自然语言处理系统的构建方法、电子装置、计算机设备及存储介质,能够将接收的语句文本中提取的字词特征转换成D维度的文本向量,将所述文本向量传入神经网络,获取神经网络接收所述文本向量后的输出语句,根据所述输出语句与所述文本向量的误差项通过反向传播算法计算所述神经网络的目标权重参数,根据所述目标权重参数调整所述神经网络各节点的权重参数,直至神经网络的输出语句满足预设条件,得到自然语言处理系统,通过自动训练神经网络并达到较佳的处理效果,提高了构建自然语言处理系统的准确性以及便利性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种自然语言处理系统的构建方法、电子装置、计算机设备及存储介质。
背景技术
利用计算机来处理人类的语言的自然语言处理,体现了人工智能的最高任务与境界,常见的应用方式包括信息提取、机器翻译、智能问答系统等。在智能问答系统的自然语言处理系统中,实现用准确、简洁的自然语言回答人类用户用自然语言提出的问题。
目前常用的方法是利用预先训练好的基于神经网络的分类器提取自然语言语句的结构化特征,然后基于该结构化特征从预先建立的知识库中检索或推理得到相应的答案。在上述基于神经网络的分类器的训练以及知识库的建立过程中,都需要提供大量标注有结构化特征的训练数据供基于神经网络的分类器执行深度学习,这种手动标注费时且昂贵,对于知识库中没有的场景,应用效果较差,缺乏通用性,应用场景严重受限。
发明内容
有鉴于此,本发明提出一种自然语言处理系统的构建方法、电子装置、计算机设备及存储介质,能够自动训练神经网络并达到较佳的处理效果,提高了构建自然语言处理系统的准确性以及便利性。
首先,为实现上述目的,本发明提出一种自然语言处理系统的构建方法,该方法包括步骤:
从接收的语句文本中提取若干字词特征;
将所述字词特征转换成D维度的文本向量,并将所述文本向量传入神经网络;
获取神经网络接收所述文本向量后的输出语句,根据所述输出语句与所述文本向量的误差项通过反向传播算法计算所述神经网络的目标权重参数;及
根据所述目标权重参数调整所述神经网络各节点的权重参数,直至神经网络的输出语句满足预设条件,得到自然语言处理系统。
进一步地,所述从接收的语句文本中提取若干字词特征的步骤还包括:
将语句文本按照语法分割成若干字词,根据词性标记集标注语句文本中字词的词性;及
根据所述词性将所述语句文本分解成字词特征。
进一步地,所述将所述字词特征转换成D维度的文本向量的步骤还包括:
根据相似性度量方式匹配与所述字词特征相关的D-1个词条;
根据所述字词特征与所述词条的相关程度设置D个词条权重;及
根据所述D个词条权重生成D维度的文本向量。
进一步地,所述相似性度量方式包括余弦距离。
进一步地,所述根据所述输出语句与所述文本向量的误差项通过反向传播算法计算所述神经网络的目标权重参数的步骤还包括:
从神经网络的输出层开始,反向依次计算各隐藏层的误差项;及
根据所述误差项计算隐藏层各节点的权重参数。
进一步地,所述预设条件包括:所述神经网络的输出语句中属于自然界中存在的语句的占比达到预设阈值;
所述直至神经网络的输出语句满足预设条件的步骤之前还包括:
判断所述输出语句是否为自然界中存在的语句;
计算所述神经网络输出语句的总量为第一数量,计算其中属于自然界中存在的语句的输出语句的总量为第二数量;
计算所述第二数量与所述第一数量的比值,判断所述比值是否达到预设阈值。
进一步地,所述神经网络为深度神经网络;
所述将所述字词特征转换成D维度的文本向量,并将所述文本向量传入神经网络的步骤包括:
通过word2vec算法和/或doc2vec算法将所述字词特征转换成D维度的文本向量;
将所述文本向量传入所述深度神经网络中,通过所述深度神经网络的隐藏层对所述文本向量进行处理。
此外,为实现上述目的,本发明还提供一种电子装置,其包括:
提取模块,适于从接收的语句文本中提取若干字词特征;
转换模块,适于将所述字词特征转换成D维度的文本向量,并将所述文本向量传入神经网络;
计算模块,适于获取神经网络接收所述文本向量后的输出语句,根据所述输出语句与所述文本向量的误差项通过反向传播算法计算所述神经网络的目标权重参数;及
调整模块,适于根据所述目标权重参数调整所述神经网络各节点的权重参数,直至神经网络的输出语句满足预设条件,得到自然语言处理系统。
进一步地,所述提取模块包括:标注单元,适于将语句文本按照语法分割成若干字词,根据词性标记集标注语句文本中字词的词性;及分解单元,适于根据所述词性将所述语句文本分解成字词特征。
进一步地,所述转换模块包括:匹配单元,适于根据相似性度量方式匹配与所述字词特征相关的D-1个词条;设置单元,适于根据所述字词特征与所述词条的相关程度设置D个词条权重;及向量生成单元,适于根据所述D个词条权重生成D维度的文本向量。
进一步地,所述相似性度量方式包括余弦距离。
进一步地,所述计算模块还适于从神经网络的输出层开始,反向依次计算各隐藏层的误差项;及根据所述误差项计算隐藏层各节点的权重参数。
进一步地,所述预设条件包括:所述神经网络的输出语句中属于自然界中存在的语句的占比达到预设阈值;所述计算模块,还适于判断所述输出语句是否为自然界中存在的语句;计算所述神经网络输出语句的总量为第一数量,计算其中属于自然界中存在的语句的输出语句的总量为第二数量;计算所述第二数量与所述第一数量的比值,判断所述比值是否达到预设阈值。
进一步地,所述神经网络为深度神经网络;所述转换模块,还适于通过word2vec算法和/或doc2vec算法将所述字词特征转换成D维度的文本向量;将所述文本向量传入所述深度神经网络中,通过所述深度神经网络的隐藏层对所述文本向量进行处理。
为实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
为实现上述目的,本发明还提供计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
相较于现有技术,本发明所提出的自然语言处理系统的构建方法、电子装置、计算机设备及存储介质,通过将接收的语句文本中提取的字词特征转换成D维度的文本向量,将所述文本向量传入神经网络,获取神经网络接收所述文本向量后的输出语句,再根据所述输出语句与所述文本向量的误差项通过反向传播算法计算所述神经网络的目标权重参数,根据所述目标权重参数调整所述神经网络各节点的权重参数,通过不断自动训练神经网络,直至神经网络的输出语句满足预设条件,得到具有较佳的处理效果的自然语言处理系统,提高了构建自然语言处理系统的准确性以及便利性。
附图说明
图1是本发明一示例性实施例示出的自然语言处理系统的构建方法的流程示意图;
图2是本发明一示例性实施例示出的神经网络的结构示意图;
图3是本发明一示例性实施例示出的自然语言处理系统的构建方法的流程示意图;
图4是本发明一示例性实施例示出的自然语言处理系统的构建方法的流程示意图;
图5是本发明一示例性实施例示出的自然语言处理系统的构建方法的流程示意图;
图6是本发明一示例性实施例示出的神经网络的结构示意图;
图7是本发明一示例性实施例示出的电子装置的程序模块示意图;
图8是本发明一示例性实施例示出的电子装置的硬件架构示意图。
附图标记:
电子装置 | 20 |
存储器 | 21 |
处理器 | 22 |
网络接口 | 23 |
内存 | 24 |
提取模块 | 201 |
转换模块 | 202 |
计算模块 | 203 |
调整模块 | 204 |
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参阅图1所示,是本发明一实施例之自然语言处理系统的构建方法的流程示意图,所述方法包括以下步骤:
步骤S110,从接收的语句文本中提取若干字词特征;
步骤S120,将所述字词特征转换成D维度的文本向量,并将所述文本向量传入神经网络;
步骤S130,获取神经网络接收所述文本向量后的输出语句,根据所述输出语句与所述文本向量的误差项通过反向传播算法计算所述神经网络的目标权重参数;及
步骤S140,根据所述目标权重参数调整所述神经网络各节点的权重参数,直至神经网络的输出语句满足预设条件,得到自然语言处理系统。
利用计算机来处理人类的语言的自然语言处理,体现了人工智能的最高任务与境界,常见的应用方式包括信息提取、机器翻译、智能问答系统等。在智能问答系统的自然语言处理系统中,实现用准确、简洁的自然语言回答人类用户用自然语言提出的问题。以智能问答系统为例,系统可以根据用户说的话,理解其中含义,进而作出对应的回答。
从接收的语句文本中提取若干字词特征,所述接收的语句文本可以是用户在机器翻译、智能问答系统、机器人客服等场景下所说的话直接转换成文字得到的语句文本,将语句文本按照语法分割成若干字词,提取其中若干能表达所述语句文本的关键信息的字词特征。例如,当用户在机器人客服场景下说:“我上周提交的保险理赔进度怎么样了?”时,可以将其按照语法分割成“我”、“上周”、“提交”、“的”、“保险”、“理赔”、“进度”、“怎么样”、“了”,从中提取出能表达所述语句文本的关键信息的字词特征:“我”、“的”、“保险”、“理赔”、“进度”。字词特征需要转化成神经网络可以识别的形式,根据神经网络的维度设定词向量的维度D,对所有的词随机初始化为一个D维度的文本向量,然后对上下文所有的D维度的文本向量编码得到一个隐藏层的向量,从而成为所述神经网络可以处理的形式。
目前通常是通过神经网络进行自然语言处理,神经网络其实就是按照一定规则连接起来的多个神经元。参阅图2,图2展示了一个全连接(full connected,FC)神经网络,通过观察,可以发现FC神经网络的规则包括:
1)、神经元按照层来布局。最左边的层叫做输入层,负责接收输入数据;最右边的层叫输出层,用户可以从输出层获取神经网络输出的数据。输入层和输出层之间的层叫做隐藏层,因为它们对于外部来说是不可见的。
2)、同一层的神经元之间没有连接。
3)、第N层的每个神经元和第N-1层的所有神经元相连(这就是full connected的含义),第N-1层神经元的输出就是第N层神经元的输入。
4)、每个连接都有一个权值。
上面这些规则定义了全连接神经网络的结构,其中,图2中的神经网络所示的隐藏层仅为一层,实际上隐藏层的层数可以有多层,不以图中所示为限。事实上还存在很多其它结构的神经网络,比如卷积神经网络(CNN)、循环神经网络(RNN),他们都具有不同的连接规则。
神经网络根据接收的输入信息输出信息,为了保证输出信息的准确性,需要对神经网络进行训练,通常是通过训练样本训练神经网络。本发明一实施例中,所构建的神经网络是一个自然语言处理系统,因而,可以选用语句文本作为训练样本,所述语句文本可以是直接获取的文本形式的语句,也可以是通过对音频等进行识别转换而成的语句文本,本发明对语句文本的来源形式不作限定。
获取语句文本后,通过对语句文本进行解析以提取其中的字词特征,神经网络根据字词特征“理解”所述语句文本的含义。
如图3所示,本发明一实施例中,所述从接收的语句文本中提取若干字词特征的步骤可以包括以下步骤:
步骤S301,将语句文本按照语法分割成若干字词,根据词性标记集标注语句文本中字词的词性;及
步骤S302,根据所述词性将所述语句文本分解成字词特征。
目前,计算所汉语词性标记集(共计99个,22个一类,66个二类,11个三类)主要参考了以下词性标记集:北大《人民日报》语料库词性标记集、北大2002新版词性标记集(草稿)、清华大学汉语树库词性标记集、教育部语用所词性标记集(国家推荐标准草案2002版)、美国宾州大学中文树库(Chinese Penn Tree Bank)词性标记集。例如,当用户在机器人客服场景下说:“我上周提交的保险理赔进度怎么样了?”时,可以将其按照语法分割成“我”、“上周”、“提交”、“的”、“保险”、“理赔”、“进度”、“怎么样”、“了”,根据词性标记集标注语句文本中字词的词性。
词性标注就是依据句子的上下文给每个词确定一个最合适的词性。目前的标记集里有26个基本词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习惯用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,从语料库应用的角度,增加了专有名词(人名nr、地名ns、机构名称nt、其他专有名词nz);从语言学角度也增加了一些标记,总共使用了40多个标记,详见表1。
表1记性代码标注对照表
代码 | 名称 | 代码 | 名称 | 代码 | 名称 |
Ag | 形语素 | l | 习用语 | s | 处所词 |
a | 形容词 | Mg | 数语素 | Tg | 时间语素 |
ad | 副形词 | m | 数词 | t | 时间词 |
an | 名形词 | Ng | 名语素 | Ug | 助语素 |
Bg | 区别语素 | n | 名词 | u | 助词 |
b | 区别词 | nr | 人名 | Vg | 动语素 |
c | 连词 | ns | 地名 | v | 动词 |
Dg | 副语素 | nt | 机构团体 | vd | 副动词 |
d | 副词 | nx | 外文字符 | vn | 名动词 |
e | 叹词 | nz | 其它专名 | w | 标点符号 |
f | 方位词 | o | 拟声词 | x | 非语素字 |
g | 语素 | p | 介词 | Yg | 语气语素 |
h | 前接成分 | Qg | 量语素 | y | 语气词 |
i | 成语 | q | 量词 | z | 状态词 |
j | 简略语 | Rg | 代语素 | ||
k | 后接成分 | r | 代词 |
以下通过一个实例简单介绍如何对语句文本“我是一只小喵”进行词性标注:
进行词性标注的代码如下:
“import jieba.posseg as pseg
words=pseg.cut(“我是一只小喵”)
for word,flag in words:
print('%s%s'%(word,flag))”
输出结果如下:
我r
是v
一只m
小喵n
根据上述词性标注的结果,可以将所述语句文本分解成字词特征,例如,语句文本“我是一只小喵”可以分解成4个字词特征,分别为“我r”、“是v”、“一只m”、“小喵n”。
词性标注中的一个难点,就是针对一词多性的情况,比如工作、表演等词,它们既可以做动词又可以做名词,这类词又叫做兼类词,兼类词在常用词中出现的概率很大。针对这种情况我们通常利用概率的方法来解决,比如HMM(Hidden Markov Model,隐马尔科夫模型)是一种常用的方法来处理这种词语的标注,具体来说,就是利用HMM的图模型有一个发射的概率,即从一个词性到每个单词的概率,还有词性到词性之间的转移概率来求p(t|w)(其中,p(t|w)表示的是这个词属于某个词性的概率),具体的公式计算可以利用贝叶斯计算概率的方法。当然,还有基于转换的思想和基于分类的思想的方法进行词性标注。本发明对词性标注的方式不作限定。
对于神经网络而言,输入信息实际为一个D维向量,且输入向量的维数=输入层节点数。
如图4所示,本发明一实施例中,所述将所述字词特征转换成D维度的文本向量的步骤可以包括以下步骤:
步骤S401,根据相似性度量方式匹配与所述字词特征相关的D-1个词条;
步骤S402,根据所述字词特征与所述词条的相关程度设置D个词条权重;及
步骤S403,根据所述D个词条权重生成D维度的文本向量。
通过word2vec算法和/或doc2vec算法将所述字词特征转换成D维度的文本向量;将所述文本向量传入所述深度神经网络中,通过所述深度神经网络的隐藏层对所述文本向量进行处理。由于神经网络的输入向量的维数=输入层节点数,因此,需要将一个字词特征转换成一列向量,可以通过hash算法把字词特征打散成(01010101110)的数值,通过word2vec算法则可以在把字词特征打散成数值的同时还定义成向量,word2vec算法还考虑了上下语义,doc2vec算法还考虑了上下语句顺序,用在段落中较好。
根据词向量组成句向量的方式如下:
1)、如果是一个字词特征转换成一列向量,一般用简单相加来求得;
2)、如果是一个字词特征转换成一个向量,可以用字词特征的权重组合成向量的方式。
当然,还可以根据相似性度量方式(例如,余弦距离)匹配与所述字词特征相关的D-1个词条;根据所述字词特征与所述词条的相关程度设置D个词条权重;根据所述D个词条权重生成D维度的文本向量。
如图5所示,本发明一实施例中,所述根据所述输出语句与所述文本向量的误差项通过反向传播算法计算所述神经网络的目标权重参数的步骤可以包括以下步骤:
步骤S501,从神经网络的输出层开始,反向依次计算各隐藏层的误差项;及
步骤S502,根据所述误差项计算隐藏层各节点的权重参数。
神经网络实际上就是一个输入向量到输出向量的函数,即根据输入计算神经网络的输出,首先需要将输入向量的每个元素的值赋给神经网络的输入层的对应神经元,然后根据公式依次向前计算每一层的每个神经元的值,直到最后一层输出层的所有神经元的值计算完毕。最后,将输出层每个神经元的值串在一起就得到了输出向量。根据输出结果与预期结果的差距,反推神经元的权重参数该如何调整,以使神经网络的输出结果达到预期效果。
为了便于描述,以下以一个全连接(full connected,FC)神经网络为例进行说明,如图6所示,给神经网络的每个单元写上编号。输入层有三个节点,依次编号为1、2、3;隐藏层的4个节点,编号依次为4、5、6、7;输出层的两个节点编号为8、9。图6所示的为全连接神经网络,所以每个节点都和上一层的所有节点有连接。例如,隐藏层的节点4与输入层的1、2、3三个节点之间都有连接,其连接上的权重参数分别为w41、w42、w43。
节点1、2、3是输入层的节点,其输出值就是输入向量本身。根据图6所示,节点1、2、3的输出值分别是x1、x2、x3。节点1、2、3的输出值为节点4的输入值,根据节点1、2、3的输出值、节点4与输入层1、2、3三个节点之间的权重参数可以计算出节点4的输出值a4。相似地,还可以计算出节点5、6、7的输出值分别为a5、a6、a7,及输出层的节点8、9的输出值分别为y1、y2。
输出层节点的输出值即为该神经网络的实际输出值,可以根据实际输出值与输入值对应的预期输出值之前的误差计算隐藏层的目标权重参数,以减小实际输出值与预期输出值之间的误差。
计算一个节点的误差项,需要先计算每个与其相连的下一层节点的误差项。这就要求误差项的计算顺序必须是从输出层开始,然后反向依次计算每个隐藏层的误差项,直至与输入层相连的那个隐藏层。这也是反向传播算法的名字的含义。当所有节点的误差项计算完毕后,就可以更新所述神经网络各节点的权重参数。反复执行上述过程,直至神经网络的输出语句满足预设条件。所述预设条件包括:所述神经网络的输出语句中属于自然界中存在的语句的占比达到预设阈值。
所述神经网络对接收的语句文本进行“分析”,得到可以使机器能够“理解”的输出语句,本发明一实施例中,可以预测所述输出语句在自然界中是否存在,可以通过标记自然界中存在的句子为“真句子”,标记自然界中不存在的句子为“假句子”来进行整体预测。可以根据网上公开的数据集作为真值参考,以预测输出语句是否为“真句子”。所述直至神经网络的输出语句满足预设条件的步骤之前还包括:判断所述输出语句是否为自然界中存在的语句;计算所述神经网络输出语句的总量为第一数量,计算其中属于自然界中存在的语句的输出语句的总量为第二数量;计算所述第二数量与所述第一数量的比值,判断所述比值是否达到预设阈值。根据所得的一批输出语句中,“真句子”所占的比例是否达到预设阈值(例如,90%等),判断所述神经网络是否训练到较佳的状态。
本发明中,所述神经网络可以为深度神经网络,深度神经网络是一个多层神经网络,多层的好处是可以用较少的参数表示复杂的函数。建立多层神经网络的一个有效方法,简单的说,分为两步,一是每次训练一层网络,二是调优使原始表示x向上生成的高级表示r和该高级表示r向下生成的x'尽可能一致。方法是:
1)、首先逐层构建单层神经元,这样每次都是训练一个单层网络。
2)、当所有层训练完后,使用Wake-Sleep算法进行调优。将除最顶层的其它层间的权重变为双向的,这样最顶层仍然是一个单层神经网络,而其它层则变为了图模型。向上的权重用于“认知”,向下的权重用于“生成”。然后使用Wake-Sleep算法调整所有的权重。让认知和生成达成一致,也就是保证生成的最顶层表示能够尽可能正确的复原底层的结点。比如顶层的一个结点表示人脸,那么所有人脸的图像应该激活这个结点,并且这个结果向下生成的图像应该能够表现为一个大概的人脸图像。Wake-Sleep算法分为醒(Wake)和睡(Sleep)两个部分。
2.1)、Wake阶段,认知过程,通过外界的特征和向上的权重(认知权重)产生每一层的抽象表示(结点状态),并且使用梯度下降修改层间的下行权重(生成权重)。也就是“如果现实跟我想像的不一样,改变我的权重使得我想像的东西就是这样的”。
2.2)、Sleep阶段,生成过程,通过顶层表示(醒时学得的概念)和向下权重,生成底层的状态,同时修改层间向上的权重。也就是“如果梦中的景象不是我脑中的相应概念,改变我的认知权重使得这种景象在我看来就是这个概念”。
本发明所提出的自然语言处理系统的构建方法,能够将接收的语句文本中提取的字词特征转换成D维度的文本向量,将所述文本向量传入神经网络,获取神经网络接收所述文本向量后的输出语句,通过反向传播算法计算所述神经网络的目标权重参数,根据所述目标权重参数调整所述神经网络各节点的权重参数,直至神经网络的输出语句满足预设条件,通过自动训练神经网络并达到较佳的处理效果,提高了构建自然语言处理系统的准确性以及便利性。
本发明进一步提供一种电子装置。参阅图7,是本发明一示例性实施例示出的电子装置20的程序模块示意图。
所述电子装置20包括:
提取模块201,适于从接收的语句文本中提取若干字词特征;
转换模块202,适于将所述字词特征转换成D维度的文本向量,并将所述文本向量传入神经网络;
计算模块203,适于获取神经网络接收所述文本向量后的输出语句,通过反向传播算法计算所述神经网络的目标权重参数;及
调整模块204,适于根据所述目标权重参数调整所述神经网络各节点的权重参数,直至神经网络的输出语句满足预设条件。
进一步地,所述提取模块201包括:标注单元,适于标注语句文本中字词的词性;及分解单元,适于根据所述词性将所述语句文本分解成字词特征。
进一步地,所述转换模块202包括:匹配单元,适于根据相似性度量方式匹配与所述字词特征相关的D-1个词条;设置单元,适于根据所述字词特征与所述词条的相关程度设置D个词条权重;及向量生成单元,适于根据所述D个词条权重生成D维度的文本向量。
进一步地,所述相似性度量方式包括余弦距离。
进一步地,所述计算模块203还适于从神经网络的输出层开始,反向依次计算各隐藏层的误差项;及根据所述误差项计算隐藏层各节点的权重参数。
进一步地,所述预设条件包括:所述神经网络的输出语句中属于自然界中存在的语句的占比达到预设阈值。
进一步地,所述神经网络为深度神经网络。
本发明所提出的电子装置20,能够将接收的语句文本中提取的字词特征转换成D维度的文本向量,将所述文本向量传入神经网络,获取神经网络接收所述文本向量后的输出语句,通过反向传播算法计算所述神经网络的目标权重参数,根据所述目标权重参数调整所述神经网络各节点的权重参数,直至神经网络的输出语句满足预设条件,通过自动训练神经网络并达到较佳的处理效果,提高了构建自然语言处理系统的准确性以及便利性。
为实现上述目的,本发明还提供一种计算机设备20,包括存储器21、处理器22以及存储在存储器21上并可在所述处理器22上运行的计算机程序,所述处理器22执行所述计算机程序时实现上述方法的步骤。可以将所述计算机程序存储于内存24中。
为实现上述目的,本发明还提供计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过系统总线相互通信连接的存储器、处理器等。
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储电子装置20,被处理器22执行时实现本发明的自然语言处理系统的构建方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种自然语言处理系统的构建方法,其特征在于,所述方法包括步骤:
从接收的语句文本中提取若干字词特征;
将所述字词特征转换成D维度的文本向量,并将所述文本向量传入神经网络;
获取神经网络接收所述文本向量后的输出语句,根据所述输出语句与所述文本向量的误差项通过反向传播算法计算所述神经网络的目标权重参数;及
根据所述目标权重参数调整所述神经网络各节点的权重参数,直至神经网络的输出语句满足预设条件,得到自然语言处理系统。
2.如权利要求1所述的自然语言处理系统的构建方法,其特征在于,所述从接收的语句文本中提取若干字词特征的步骤还包括:
将语句文本按照语法分割成若干字词,根据词性标记集标注语句文本中字词的词性;及
根据所述词性将所述语句文本分解成字词特征。
3.如权利要求1所述的自然语言处理系统的构建方法,其特征在于,所述将所述字词特征转换成D维度的文本向量的步骤还包括:
根据相似性度量方式匹配与所述字词特征相关的D-1个词条;
根据所述字词特征与所述词条的相关程度设置D个词条权重;及
根据所述D个词条权重生成D维度的文本向量。
4.如权利要求3所述的自然语言处理系统的构建方法,其特征在于,所述相似性度量方式包括余弦距离。
5.如权利要求1所述的自然语言处理系统的构建方法,其特征在于,所述根据所述输出语句与所述文本向量的误差项通过反向传播算法计算所述神经网络的目标权重参数的步骤还包括:
从神经网络的输出层开始,反向依次计算各隐藏层的误差项;及
根据所述误差项计算隐藏层各节点的权重参数。
6.如权利要求1所述的自然语言处理系统的构建方法,其特征在于,所述预设条件包括:所述神经网络的输出语句中属于自然界中存在的语句的占比达到预设阈值;所述直至神经网络的输出语句满足预设条件的步骤之前还包括:
判断所述输出语句是否为自然界中存在的语句;
计算所述神经网络输出语句的总量为第一数量,计算其中属于自然界中存在的语句的输出语句的总量为第二数量;
计算所述第二数量与所述第一数量的比值,判断所述比值是否达到预设阈值。
7.如权利要求1所述的自然语言处理系统的构建方法,其特征在于,所述神经网络为深度神经网络;
所述将所述字词特征转换成D维度的文本向量,并将所述文本向量传入神经网络的步骤包括:
通过word2vec算法和/或doc2vec算法将所述字词特征转换成D维度的文本向量;
将所述文本向量传入所述深度神经网络中,通过所述深度神经网络的隐藏层对所述文本向量进行处理。
8.一种电子装置,其特征在于,其包括:
提取模块,适于从接收的语句文本中提取若干字词特征;
转换模块,适于将所述字词特征转换成D维度的文本向量,并将所述文本向量传入神经网络;
计算模块,适于获取神经网络接收所述文本向量后的输出语句,根据所述输出语句与所述文本向量的误差项通过反向传播算法计算所述神经网络的目标权重参数;及
调整模块,适于根据所述目标权重参数调整所述神经网络各节点的权重参数,直至神经网络的输出语句满足预设条件,得到自然语言处理系统。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述自然语言处理系统的构建方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至7任一项所述自然语言处理系统的构建方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910876792.1A CN110765243A (zh) | 2019-09-17 | 2019-09-17 | 自然语言处理系统的构建方法、电子装置及计算机设备 |
PCT/CN2019/118031 WO2021051585A1 (zh) | 2019-09-17 | 2019-11-13 | 自然语言处理系统的构建方法、电子装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910876792.1A CN110765243A (zh) | 2019-09-17 | 2019-09-17 | 自然语言处理系统的构建方法、电子装置及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110765243A true CN110765243A (zh) | 2020-02-07 |
Family
ID=69329984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910876792.1A Pending CN110765243A (zh) | 2019-09-17 | 2019-09-17 | 自然语言处理系统的构建方法、电子装置及计算机设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110765243A (zh) |
WO (1) | WO2021051585A1 (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868184A (zh) * | 2016-05-10 | 2016-08-17 | 大连理工大学 | 一种基于循环神经网络的中文人名识别方法 |
CN107038480A (zh) * | 2017-05-12 | 2017-08-11 | 东华大学 | 一种基于卷积神经网络的文本情感分类方法 |
WO2019167296A1 (ja) * | 2018-02-28 | 2019-09-06 | 日本電信電話株式会社 | 自然言語処理のための装置、方法及びプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109313719B (zh) * | 2016-03-18 | 2022-03-22 | 谷歌有限责任公司 | 使用神经网络生成文本段的依存性解析 |
CN108566627A (zh) * | 2017-11-27 | 2018-09-21 | 浙江鹏信信息科技股份有限公司 | 一种利用深度学习识别诈骗短信的方法及系统 |
CN108763477A (zh) * | 2018-05-29 | 2018-11-06 | 厦门快商通信息技术有限公司 | 一种短文本分类方法及系统 |
-
2019
- 2019-09-17 CN CN201910876792.1A patent/CN110765243A/zh active Pending
- 2019-11-13 WO PCT/CN2019/118031 patent/WO2021051585A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868184A (zh) * | 2016-05-10 | 2016-08-17 | 大连理工大学 | 一种基于循环神经网络的中文人名识别方法 |
CN107038480A (zh) * | 2017-05-12 | 2017-08-11 | 东华大学 | 一种基于卷积神经网络的文本情感分类方法 |
WO2019167296A1 (ja) * | 2018-02-28 | 2019-09-06 | 日本電信電話株式会社 | 自然言語処理のための装置、方法及びプログラム |
Non-Patent Citations (2)
Title |
---|
徐新峰: "基于循环神经网络的中文人名识别的研究", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 03, pages 138 - 6094 * |
罗小丰同学: "深入理解Embedding层的本质", pages 2 - 4, Retrieved from the Internet <URL:https://blog.csdn.net/weixin_42078618/article/details/84553940> * |
Also Published As
Publication number | Publication date |
---|---|
WO2021051585A1 (zh) | 2021-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11816438B2 (en) | Context saliency-based deictic parser for natural language processing | |
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
CN108763535B (zh) | 信息获取方法及装置 | |
CN113906433A (zh) | 澄清问题以用于重写有歧义的用户话语 | |
US10628529B2 (en) | Device and method for natural language processing | |
US11232263B2 (en) | Generating summary content using supervised sentential extractive summarization | |
CN110347802B (zh) | 一种文本分析方法及装置 | |
CN112287085B (zh) | 语义匹配方法、系统、设备及存储介质 | |
CN116541493A (zh) | 基于意图识别的交互应答方法、装置、设备、存储介质 | |
CN117271736A (zh) | 一种问答对的生成方法和系统、电子设备及存储介质 | |
CN115730597A (zh) | 多级语义意图识别方法及其相关设备 | |
Lhasiw et al. | A bidirectional LSTM model for classifying Chatbot messages | |
CN115878752A (zh) | 文本情感的分析方法、装置、设备、介质及程序产品 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN112307754A (zh) | 语句获取方法及装置 | |
CN115795007A (zh) | 智能问答方法、智能问答装置、电子设备及存储介质 | |
CN112016281B (zh) | 错误医疗文本的生成方法、装置及存储介质 | |
CN115017870A (zh) | 一种闭环的话术扩写方法、装置、计算机设备及存储介质 | |
CN115292492A (zh) | 意图分类模型的训练方法、装置、设备及存储介质 | |
CN110765243A (zh) | 自然语言处理系统的构建方法、电子装置及计算机设备 | |
CN114398903A (zh) | 意图识别方法、装置、电子设备及存储介质 | |
KR102354898B1 (ko) | 한국어 기반 신경망 언어 모델을 위한 어휘 목록 생성 방법 및 장치 | |
CN111401070B (zh) | 词义相似度确定方法及装置、电子设备及存储介质 | |
CN113850383A (zh) | 文本匹配模型训练方法、装置、电子设备及存储介质 | |
CN114676684B (zh) | 一种文本纠错方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |