CN113112007A - 神经网络中序列长度选择方法、装置、设备及存储介质 - Google Patents

神经网络中序列长度选择方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113112007A
CN113112007A CN202110651333.0A CN202110651333A CN113112007A CN 113112007 A CN113112007 A CN 113112007A CN 202110651333 A CN202110651333 A CN 202110651333A CN 113112007 A CN113112007 A CN 113112007A
Authority
CN
China
Prior art keywords
sequence
sample
prediction
sequence length
probability value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110651333.0A
Other languages
English (en)
Other versions
CN113112007B (zh
Inventor
任杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110651333.0A priority Critical patent/CN113112007B/zh
Publication of CN113112007A publication Critical patent/CN113112007A/zh
Application granted granted Critical
Publication of CN113112007B publication Critical patent/CN113112007B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例属于语言模型训练领域,涉及一种神经网络中序列长度选择方法,包括获取样本文章;基于指定的任意序列长度的序列参数,通过时序模型对所述样本文章中段落进行段落切分预测,得到样本字词预测结果;根据所述样本文章中的段落文本和所述样本字词预测结果,计算所述时序模型的预测概率值;计算序列参数在序列样本集合中的出现概率值;基于所述预测概率值和所述出现概率值,通过梯度下降法选择所述序列参数的序列长度,输出序列长度选择结果。本申请还提供一种神经网络中序列长度选择装置、计算机设备及存储介质。此外,本申请还涉及区块链技术。采用本方法大大提高了模型预测准确性和鲁棒性。

Description

神经网络中序列长度选择方法、装置、设备及存储介质
技术领域
本申请涉及语言模型训练领域,特别是涉及一种神经网络中序列长度选择方法、装置、计算机设备和存储介质。
背景技术
数字化运营管理是现代商业运营的重要组成部分,对于几乎所有运营业务而言,持续观测运营的效果非常重要。而数据观测领域基于时间序列的观测又被广泛的应用。随着新的AI和深度学习技术的发展,递归神经网络,比如LSTM(RNN)就成了时序模型的重要代表。
在时序模型的调参中,序列长度sequence是一个很重要的参数,这个参数极大程度影响到模型的准确率和鲁棒性。另一方面,目前又很少有方式或者模型来提示怎么进行这个重要参数的选择。
发明内容
基于此,针对上述技术问题,本申请提供一种神经网络中序列长度选择方法、装置、计算机设备及存储介质,以解决现有技术中时序模型,特别是LSTM模型中的序列参数的序列长度无法确定,导致的时序模型的准确率下降的技术问题。
一种神经网络中序列长度选择方法,所述方法包括:
获取样本文章;
基于指定的任意序列长度的序列参数,通过时序模型对所述样本文章中段落进行段落切分预测,得到样本字词预测结果;
根据所述样本文章中的段落文本和所述样本字词预测结果,计算所述时序模型的预测概率值;
计算所述序列参数在序列样本集合中的出现概率值;
基于所述预测概率值和所述出现概率值,通过梯度下降法选择所述序列参数的序列长度,输出序列长度选择结果。
一种神经网络中序列长度选择装置,所述装置包括:
数据获取模块,用于获取样本文章;
字词预测模块,用于基于指定的任意序列长度的序列参数,通过时序模型对所述样本文章中段落进行段落切分预测,得到样本字词预测结果;
第一概率计算模块,用于根据所述样本文章中的段落文本和所述样本字词预测结果,计算所述时序模型的预测概率值;
第二概率计算模块,用于计算所述序列参数在序列样本集合中的出现概率值;
序列选择模块,用于基于所述预测概率值和所述出现概率值,通过梯度下降法选择所述序列参数的序列长度,输出序列长度选择结果。
一种计算机设备,包括存储器和处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述神经网络中序列长度选择方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述神经网络中序列长度选择方法的步骤。
上述神经网络中序列长度选择方法、装置、计算机设备和存储介质,通过获取到的样本文章,基于需要进行序列长度选择的时序模型,对样本文章进行分词处理,或者段落切分处理,且,切分的长度与指定的序列参数的序列长度一致,然后再通过该时序模型预测各段落文本之后的至少第一个字词进行预测,预测该段落文本后的字词是什么,然后基于样本文章进行比对后对时序模型的预测准确率进行计算,最后通过梯度下降法最终得到一个准确的序列长度,该序列长度下的时序模型能够对样本文章进行精准的切分和预测,从而使得模型有较高的准确性的前提下,具有更好的鲁棒性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为神经网络中序列长度选择方法的应用环境示意图;
图2为神经网络中序列长度选择方法的流程示意图;
图3为神经网络中序列长度选择装置的示意图;
图4为一个实施例中计算机设备的示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的神经网络中序列长度选择方法,可以应用于如图1所示的应用环境中。其中,该应用环境可以包括终端102、网络以及服务端104,网络用于在终端102和服务端104之间提供通信链路介质,网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端102通过网络与服务端104交互,以接收或发送消息等。终端102上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端102可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器( Moving Picture Experts Group AudioLayer III,动态影像专家压缩标准音频层面3 )、MP4( Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4 )播放器、膝上型便携计算机和台式计算机等等。
服务端104可以是提供各种服务的服务器,例如对终端102上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的神经网络中序列长度选择方法一般由服务端/终端执行,相应地,神经网络中序列长度选择装置一般设置于服务端/终端设备中。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
应该理解,图1中的终端、网络和服务端的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
其中,终端102通过网络与服务端104进行通信。服务端104从终端102或者其他服务端获取样本文章;基于一指定序列长度的序列参数,通过时序模型对所述样本文章中的段落进行截取预测,得到样本预测结果;基于所述样本文章中的段落文本和所述样本预测结果计算时序模型的预测概率值,计算所述序列参数在样本集合中的出现概率;基于所述预测概率值和出现概率值通过梯度下降法选择所述序列参数的序列长度,输出序列长度选择结果。其中,终端102和服务端104之间通过网络进行连接,该网络可以是有线网络或者无线网络,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务端104可以用独立的服务器或者是多个组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种神经网络中序列长度选择方法,以该方法应用于图1中的服务端为例进行说明,包括以下步骤:
步骤202,获取样本文章。
本申请的技术方案一般可以应用于类似文本切分、预测的时序模型中,其中,该时序模型中的序列参数用于决定对样本文章的切分长度。优选地,在一些实施例中,时序模型可以是LSTM模型,其中,LSTM (Long Short Term Memory Network)长短时记忆网络是一种RNN模型。
此外,样本文章可以是任意的、至少一篇的论文或者文学文章。
进一步地,还可以提前对样本文章进行数字化编码后待用。
具体地,在神经网络中一般要将文本转化成矩阵进行计算,单单将文本转化为向量还是不够,所以需要将每个词编码转化成词向量。
一般地,此步骤一般先使用“one-hot”编码方式编码,这样就会将一条文本转化为一个n*n的矩阵(n表示文本中出现的不同的词个数)。然后通过神经网络的训练迭代更新得到一个合适的权重矩阵(具体实现过程可以参考skip-gram模型),行大小为n,列大小为词向量的维度(小于n)。
至此已经将文本数据预处理完毕,将每个样本文章转换为一个数字矩阵,矩阵的每一行表示一个词向量。
步骤204,基于指定的任意序列长度的序列参数,通过时序模型对样本文章中段落进行段落切分预测,得到样本字词预测结果。
在时序模型的调参中,序列长度sequence是一个很重要的参数,这个参数极大程度影响到模型的准确率和鲁棒性。另一方面,目前又很少有方法或者模型来提示怎么进行这个重要参数的选择。
在一些实施例中,本申请设计了一种递归神经网络中序列长度参数的自动选择模型,具体的流程如下:
传统上基于LSTM(RNN)模型,首先需要设计一个序列并指定序列长度,对这个序列进行编码作为自变量,以及采集训练使用的样本对应关系(即因变量),比如:
123->positive,
232->negative,
242->positive,
679->positive,
123->negative,
……(其中,每一位为10个数字中的任意一个)。
收集完成模型用来训练的样本和设计好的数据后,会有如下的两个前置的假设条件:
1)每一位的编码值,在所有可能发生的抽样中,为等概率事件,即第一位为1的概率都是1/10;
2)上面序列长度seq=3的例子中,每一位抽样为独立随机事件;
3)对整体序列的抽样如{123,232,……}的集合,已经满足大数定律。
具体地,结合场景来陈述序列参数在LSTM模型中的作用:将样本文章输入到LSTM模型中,基于序列参数对样本文章的段落进行切分,得到文本长度与序列长度一致的段落文本;并对与段落文本相邻,且在段落文本之后的至少一个字词进行预测,得到样本字词预测结果。
以NLP中语义识别的LSTM模型的场景为例,为了理解语义的意思,使用LSTM做样本训练,这里首先需要有一些搜集到的材料样本,即数量有限的多篇文章,为了使用LSTM训练本申请的算法,需要定义一个序列长度,来对文章中的段落进行截取,比如序列长度seq为5,那每次就是通过前5个字来预测下一个字可能是什么。一旦定义好序列长度seq的长度,可以基于该序列长度seq对已经对采集的样本文章进行裁剪,来获取基于该序列长度seq裁剪后的所有样本,如“今天天气真->好,我爱我的祖->国”之类的有限范围的样本。
最后,基于裁剪出的段落文本“今天天气真”,通过LSTM模型预测“好”,得到一个样本字词预测结果,而预测得到结果可能是“好”、也可以是“不错”、“还行”、“烦人”等结果。
步骤206,根据样本文章中的段落文本和样本字词预测结果,计算时序模型的预测概率值。
剪裁完所有的样本文章之后,基于LSTM模型,训练收敛得到一个相对精准的模型 的预测概率值
Figure 564617DEST_PATH_IMAGE001
,其中,
Figure 622703DEST_PATH_IMAGE001
为seq序列长度为某一长度时,基于样本训练后,递归神经 网络收敛后的准确率。
进一步地,这个准确率可以与样本文章实际进行对比得到,主要是通过计算字符串之间的相似度得到。
进一步地,计算预测概率值的方式可以通过余弦相似度(Cosine similarity),其 中,余弦相似度等效于欧几里得距离(Euclidean distance),计算编码处理后的样本字词 预测结果中的预测字词与实际字词的文本相似度,并将该文本相似度作为预测概率值
Figure 41921DEST_PATH_IMAGE002
具体地,可以通过公式(1)实现:
Figure 578076DEST_PATH_IMAGE003
(1)
其中,
Figure 376136DEST_PATH_IMAGE004
为预测字词
Figure 838079DEST_PATH_IMAGE005
与实际字词
Figure 246058DEST_PATH_IMAGE006
之间的相似度。
可选地,还可以通过曼哈顿距离计算预测概率值,其优点是度量可以调整为非等间距的度量。
可选地,还可以通过马氏距离计算预测字词与实际字词的文本相似度,马氏距离实际上是利用 Cholesky transformation 来消除不同维度之间的相关性和尺度不同的性质。
可选地,还可以对样本字词预测结果中的预测字词进行编码处理;并从相似度算法集中任选至少2种相似度算法,基于选择的各相似度算法计算编码处理后的预测字词与样本文章中实际字词的文本相似度;基于权重调整算法调整各文本相似度,得到作为预测概率值。
其中,权重调整算法可以是:
Figure 553280DEST_PATH_IMAGE007
其中,
Figure 363105DEST_PATH_IMAGE008
为预测概率值,
Figure 497414DEST_PATH_IMAGE009
为相似度算法集中相似度算法的数量,
Figure 891224DEST_PATH_IMAGE010
为当相似度算 法为时的权重,所有权重相加之和为1,
Figure 769181DEST_PATH_IMAGE011
为相似度算法为
Figure 181314DEST_PATH_IMAGE012
时的相似度。
具体地,从相似度算法集中随机选择预先相似度和马氏距离算法,计算得到编码处理后的预测字词与样本文章中实际字词的文本相似度。
步骤208,计算序列参数在序列样本集合中的出现概率值。
了解了递归神经网络的准备工作后,开始实现对序列长度选择的具体过程,其中,计算指定序列长度的序列参数在样本集合中的出现概率的公式(2)可以为:
计算可能发生的序列在样本集合中的概率:
Figure 752104DEST_PATH_IMAGE013
(2)
其中,n 为序列长度seq,10为可以选择的可能值的数量(不同递归神经网络模型设计下,值可以改变)。
结合上述NLP案例场景,此处每一个独立的字节可以选取的场景数为可以用常用汉字数,那么就是6000,如果是英文,那么这里就是26个英文字母之一,应为26,distinctseq_set为基于所搜集的文章的有限范围内,能获取的全部序列对的计数值。
步骤210,基于预测概率值和出现概率值,通过梯度下降法选择序列参数的序列长度,输出序列长度选择结果。
构造损失函数;基于预测概率值和出现概率值,通过梯度下降法计算损失函数的损失值;并根据损失值更新指定的序列长度,重复段落切分预测的操作,直到损失函数的损失值小于预设值,确定当前序列参数的序列长度,作为序列长度选择结果。
具体地,损失函数的损失值所满足的关系式包括预测概率值与出现概率值的乘积,构造损失函数(loss function),损失函数为不准确的概率:
Figure 633210DEST_PATH_IMAGE014
其中,
Figure 518121DEST_PATH_IMAGE015
为seq序列长度为某一长度时,基于样本训练后,递归神经网络收敛后 的准确率。进一步地,可以根据具体场景需要对该损失函数进行一定程度的变形,但是不脱 损失函数的损失值满足的关系式包括预测概率值与出现概率值的乘积的条件,例如:
Figure 801072DEST_PATH_IMAGE016
其中,
Figure 542763DEST_PATH_IMAGE017
为常数。
通过梯度下降计算损失函数的最小值min,并确定对应的参数seq序列长度:
Figure 412630DEST_PATH_IMAGE019
其中,
Figure 130925DEST_PATH_IMAGE020
为序列长度,预设值可以为0.23,根据经验得到。
上述神经网络中序列长度选择方法,通过获取样本文章;基于一指定序列长度的 序列参数,通过时序模型对样本文章中的段落进行截取预测,得到样本预测结果;基于样本 文章中的段落文本和样本预测结果计算时序模型的预测概率值
Figure 769848DEST_PATH_IMAGE021
;计算序列参数在样 本集合中的出现概率
Figure 938834DEST_PATH_IMAGE022
;基于预测概率值
Figure 30418DEST_PATH_IMAGE021
和出现概率
Figure 552404DEST_PATH_IMAGE022
通过梯度下降法选择序 列参数的序列长度,输出序列长度选择结果。通过上述的模型方案,可以实现自动对序列参 数的序列长度进行选择,得到基于采样的数据下,递归神经网络中序列长度最优参数,而且 实现了对样本文章的精准切分和预测,从而使得模型有较高的准确性的前提下,具有更好 的鲁棒性。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种神经网络中序列长度选择装置,该神经网络中序列长度选择装置与上述实施例中神经网络中序列长度选择方法一一对应。该神经网络中序列长度选择装置包括:
数据获取模块302,用于获取样本文章;
字词预测模块304,用于基于指定的任意序列长度的序列参数,通过时序模型对样本文章中段落进行段落切分预测,得到样本字词预测结果;
第一概率计算模块306,用于根据样本文章中的段落文本和样本字词预测结果,计算时序模型的预测概率值;
第二概率计算模块308,用于计算序列参数在序列样本集合中的出现概率值;
序列选择模块310,用于基于预测概率值和出现概率值,通过梯度下降法选择序列参数的序列长度,输出序列长度选择结果。
进一步地,时序模型为LSTM模型,字词预测模块,包括:
段落切分子模块,用于将样本文章输入到LSTM模型中,基于序列参数对样本文章的段落进行切分,得到文本长度与序列长度一致的段落文本;并
字词预测子模块,用于对与段落文本相邻,且在段落文本之后的至少一个字词进行预测,得到样本字词预测结果。
进一步地,第一概率计算模块306,包括
编码子模块,用于对样本字词预测结果中的预测字词进行编码处理;以及
相似计算子模块,用于从相似度算法集中任选至少2种相似度算法,基于选择的各相似度算法计算编码处理后的预测字词与样本文章中实际字词的文本相似度;
权重调整子模块,用于基于权重调整算法调整各文本相似度,得到作为预测概率值。
进一步地,序列选择模块310,包括:
函数构造子模块,用于构造损失函数;
损失计算子模块,用于基于预测概率值和出现概率值,通过梯度下降法计算损失函数的损失值;以及
长度选择子模块,用于根据损失值更新指定的序列长度,重复段落切分预测的操作,直到损失函数的损失值小于预设值,确定当前序列参数的序列长度,作为序列长度选择结果。
上述神经网络中序列长度选择装置,通过获取样本文章;基于一指定序列长度的 序列参数,通过时序模型对样本文章中的段落进行截取预测,得到样本预测结果;基于样本 文章中的段落文本和样本预测结果计算时序模型的预测概率值
Figure 45833DEST_PATH_IMAGE023
;计算序列参数在样 本集合中的出现概率
Figure 627862DEST_PATH_IMAGE024
;基于预测概率值
Figure 206742DEST_PATH_IMAGE023
和出现概率
Figure 768305DEST_PATH_IMAGE024
通过梯度下降法选择序 列参数的序列长度,输出序列长度选择结果。通过上述的模型方案,可以实现自动对序列参 数的序列长度进行选择,得到基于采样的数据下,递归神经网络中序列长度最优参数,而且 实现了对样本文章的精准切分和预测,从而使得模型有较高的准确性的前提下,具有更好 的鲁棒性。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储样本文档。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种神经网络中序列长度选择方法。
本实施例通过获取样本文章;基于一指定序列长度的序列参数,通过时序模型对 所述样本文章中的段落进行截取预测,得到样本预测结果;基于所述样本文章中的段落文 本和所述样本预测结果计算时序模型的预测概率值
Figure 145934DEST_PATH_IMAGE023
;计算所述序列参数在样本集合 中的出现概率
Figure 134750DEST_PATH_IMAGE024
;基于预测概率值
Figure 965040DEST_PATH_IMAGE023
和出现概率
Figure 330294DEST_PATH_IMAGE024
通过梯度下降法选择序列参数 的序列长度,输出序列长度选择结果。通过上述的模型方案,可以实现自动对序列参数的序 列长度进行选择,得到基于采样的数据下,递归神经网络中序列长度最优参数,而且实现了 对样本文章的精准切分和预测,从而使得模型有较高的准确性的前提下,具有更好的鲁棒 性。
其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器 (Digital Signal Processor,DSP)、嵌入式设备等。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机可读指令,计算机可读指令被处理器执行时实现上述实施例中神经网络中序列长度选择方法的步骤,例如图2所示的步骤202至步骤210,或者,处理器执行计算机可读指令时实现上述实施例中神经网络中序列长度选择装置的各模块/单元的功能,例如图3所示模块302至模块310的功能。
本实施例通过获取样本文章;基于一指定序列长度的序列参数,通过时序模型对 所述样本文章中的段落进行截取预测,得到样本预测结果;基于所述样本文章中的段落文 本和所述样本预测结果计算时序模型的预测概率值
Figure 31271DEST_PATH_IMAGE023
;计算所述序列参数在样本集合 中的出现概率
Figure 456567DEST_PATH_IMAGE025
;基于预测概率值
Figure 275619DEST_PATH_IMAGE023
和出现概率
Figure 943098DEST_PATH_IMAGE025
通过梯度下降法选择序列参数 的序列长度,输出序列长度选择结果。通过上述的模型方案,可以实现自动对序列参数的序 列长度进行选择,得到基于采样的数据下,递归神经网络中序列长度最优参数,而且实现了 对样本文章的精准切分和预测,从而使得模型有较高的准确性的前提下,具有更好的鲁棒 性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形、改进或者对部分技术特征进行等同替换,而这些修改或者替换,并不使相同技术方案的本质脱离本发明个实施例技术方案地精神和范畴,都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种神经网络中序列长度选择方法,其特征在于,所述方法包括:
获取样本文章;
基于指定的任意序列长度的序列参数,通过时序模型对所述样本文章中段落进行段落切分预测,得到样本字词预测结果;
根据所述样本文章中的段落文本和所述样本字词预测结果,计算所述时序模型的预测概率值;
计算所述序列参数在序列样本集合中的出现概率值;
基于所述预测概率值和所述出现概率值,通过梯度下降法选择所述序列参数的序列长度,输出序列长度选择结果。
2.根据权利要求1所述的方法,其特征在于,所述时序模型为LSTM模型,所述基于指定的任意序列长度的序列参数,通过时序模型对所述样本文章中段落进行段落切分预测,得到样本字词预测结果,包括:
将所述样本文章输入到所述LSTM模型中,基于所述序列参数对所述样本文章的段落进行切分,得到文本长度与所述序列长度一致的段落文本;并
对与所述段落文本相邻,且在所述段落文本之后的至少一个字词进行预测,得到样本字词预测结果。
3.根据权利要求1所述的方法,其特征在于,所述根据所述样本文章中的段落文本和所述样本字词预测结果,计算所述时序模型的预测概率值,包括
对所述样本字词预测结果中的预测字词进行编码处理;并
从相似度算法集中任选至少2种相似度算法,基于选择的各所述相似度算法计算编码处理后的预测字词与所述样本文章中实际字词的文本相似度;
基于权重调整算法调整各所述文本相似度,得到作为预测概率值。
4.根据权利要求3所述的方法,其特征在于,所述从相似度算法集中任选至少2种相似度算法,基于选择的各所述相似度算法计算编码处理后的预测字词与所述样本文章中实际字词的文本相似度,包括:
从所述相似度算法集中随机选择预先相似度和马氏距离算法,计算得到编码处理后的预测字词与所述样本文章中实际字词的文本相似度。
5.根据权利要求1所述的方法,其特征在于,所述基于所述预测概率值和所述出现概率值,通过梯度下降法选择所述序列参数的序列长度,输出序列长度选择结果,包括:
构造损失函数;
基于所述预测概率值和所述出现概率值,通过梯度下降法计算损失函数的损失值;并
根据所述损失值更新指定的所述序列长度,重复段落切分预测的操作,直到所述损失函数的损失值小于预设值,确定当前序列参数的序列长度,作为所述序列长度选择结果。
6.根据权利要求5所述的方法,其特征在于,所述构造损失函数,包括:
所述损失函数的损失值所满足的关系式包括所述预测概率值与所述出现概率值的乘积。
7.一种神经网络中序列长度选择装置,其特征在于,包括:
数据获取模块,用于获取样本文章;
字词预测模块,用于基于指定的任意序列长度的序列参数,通过时序模型对所述样本文章中段落进行段落切分预测,得到样本字词预测结果;
第一概率计算模块,用于根据所述样本文章中的段落文本和所述样本字词预测结果,计算所述时序模型的预测概率值;
第二概率计算模块,用于计算所述序列参数在序列样本集合中的出现概率值;
序列选择模块,用于基于所述预测概率值和所述出现概率值,通过梯度下降法选择所述序列参数的序列长度,输出序列长度选择结果。
8.根据权利要求7所述的装置,其特征在于,所述时序模型为LSTM模型,所述字词预测模块,包括:
段落切分子模块,用于将所述样本文章输入到所述LSTM模型中,基于所述序列参数对所述样本文章的段落进行切分,得到文本长度与所述序列长度一致的段落文本;并
字词预测子模块,用于对与所述段落文本相邻,且在所述段落文本之后的至少一个字词进行预测,得到样本字词预测结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202110651333.0A 2021-06-11 2021-06-11 神经网络中序列长度选择方法、装置、设备及存储介质 Active CN113112007B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110651333.0A CN113112007B (zh) 2021-06-11 2021-06-11 神经网络中序列长度选择方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110651333.0A CN113112007B (zh) 2021-06-11 2021-06-11 神经网络中序列长度选择方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113112007A true CN113112007A (zh) 2021-07-13
CN113112007B CN113112007B (zh) 2021-10-15

Family

ID=76723500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110651333.0A Active CN113112007B (zh) 2021-06-11 2021-06-11 神经网络中序列长度选择方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113112007B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101227435A (zh) * 2008-01-28 2008-07-23 浙江大学 基于Logistic回归的中文垃圾邮件过滤方法
CN107632981A (zh) * 2017-09-06 2018-01-26 沈阳雅译网络技术有限公司 一种引入源语组块信息编码的神经机器翻译方法
CN107894975A (zh) * 2017-10-12 2018-04-10 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的分词方法
CN109635274A (zh) * 2018-10-25 2019-04-16 平安科技(深圳)有限公司 文本输入的预测方法、装置、计算机设备和存储介质
CN109710759A (zh) * 2018-12-17 2019-05-03 北京百度网讯科技有限公司 文本切分方法、装置、计算机设备和可读存储介质
CN110489750A (zh) * 2019-08-12 2019-11-22 昆明理工大学 基于双向lstm-crf的缅甸语分词及词性标注方法及装置
CN110532555A (zh) * 2019-08-27 2019-12-03 北京电子科技学院 一种基于强化学习的语言评价生成方法
CN110688822A (zh) * 2019-09-27 2020-01-14 上海智臻智能网络科技股份有限公司 标点符号的添加方法及设备、介质
CN110717010A (zh) * 2018-06-27 2020-01-21 北京嘀嘀无限科技发展有限公司 一种文本处理方法及系统
CN111178092A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种动态调整长度惩罚及译文长度的翻译模型优化方法
US10817665B1 (en) * 2020-05-08 2020-10-27 Coupang Corp. Systems and methods for word segmentation based on a competing neural character language model
CN112464663A (zh) * 2020-12-01 2021-03-09 小牛思拓(北京)科技有限公司 一种多特征融合的中文分词方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101227435A (zh) * 2008-01-28 2008-07-23 浙江大学 基于Logistic回归的中文垃圾邮件过滤方法
CN107632981A (zh) * 2017-09-06 2018-01-26 沈阳雅译网络技术有限公司 一种引入源语组块信息编码的神经机器翻译方法
CN107894975A (zh) * 2017-10-12 2018-04-10 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的分词方法
CN110717010A (zh) * 2018-06-27 2020-01-21 北京嘀嘀无限科技发展有限公司 一种文本处理方法及系统
CN109635274A (zh) * 2018-10-25 2019-04-16 平安科技(深圳)有限公司 文本输入的预测方法、装置、计算机设备和存储介质
CN109710759A (zh) * 2018-12-17 2019-05-03 北京百度网讯科技有限公司 文本切分方法、装置、计算机设备和可读存储介质
CN110489750A (zh) * 2019-08-12 2019-11-22 昆明理工大学 基于双向lstm-crf的缅甸语分词及词性标注方法及装置
CN110532555A (zh) * 2019-08-27 2019-12-03 北京电子科技学院 一种基于强化学习的语言评价生成方法
CN110688822A (zh) * 2019-09-27 2020-01-14 上海智臻智能网络科技股份有限公司 标点符号的添加方法及设备、介质
CN111178092A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种动态调整长度惩罚及译文长度的翻译模型优化方法
US10817665B1 (en) * 2020-05-08 2020-10-27 Coupang Corp. Systems and methods for word segmentation based on a competing neural character language model
CN112464663A (zh) * 2020-12-01 2021-03-09 小牛思拓(北京)科技有限公司 一种多特征融合的中文分词方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
WANG HS等: "《 An improved unsupervised approach to word segmentation 》", 《 CHINA COMMUNICATIONS 》 *
尚小溥等: "《中文超声文本结构化与知识网络构建方法研究》", 《图书情报工作》 *
王康: "《 基于神经网络的藏语分词与词性标注研究》", 《中国优秀硕士学位论文全文数据库哲学与人文科学辑》 *
郭正斌等: "《基于定长序列的双向LSTM分词优化方法》", 《郑州大学学报(理学版)》 *

Also Published As

Publication number Publication date
CN113112007B (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
WO2022007438A1 (zh) 情感语音数据转换方法、装置、计算机设备及存储介质
CN110569500A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN112148987A (zh) 基于目标对象活跃度的消息推送方法及相关设备
CN112863683A (zh) 基于人工智能的病历质控方法、装置、计算机设备及存储介质
CN113220734A (zh) 课程推荐方法、装置、计算机设备及存储介质
CN112084752B (zh) 基于自然语言的语句标注方法、装置、设备及存储介质
CN112215008A (zh) 基于语义理解的实体识别方法、装置、计算机设备和介质
CN112508118A (zh) 针对数据偏移的目标对象行为预测方法及其相关设备
CN111651666A (zh) 用户主题推荐方法、装置、计算机设备及存储介质
CN112468658A (zh) 语音质量检测方法、装置、计算机设备及存储介质
CN112035549A (zh) 数据挖掘方法、装置、计算机设备及存储介质
CN112632256A (zh) 基于问答系统的信息查询方法、装置、计算机设备和介质
CN111639360A (zh) 智能数据脱敏方法、装置、计算机设备及存储介质
CN112712086A (zh) 数据处理方法、装置、计算机设备和存储介质
CN113240071A (zh) 图神经网络处理方法、装置、计算机设备及存储介质
CN110969261B (zh) 基于加密算法的模型构建方法及相关设备
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN114219664B (zh) 产品推荐方法、装置、计算机设备及存储介质
CN113360300B (zh) 接口调用链路生成方法、装置、设备及可读存储介质
CN113987154A (zh) 基于UniLM与对比学习的相似句生成模型训练方法及相关设备
CN113112007B (zh) 神经网络中序列长度选择方法、装置、设备及存储介质
CN111191011B (zh) 一种文本标签的搜索匹配方法、装置、设备及存储介质
CN113505595A (zh) 文本短语抽取方法、装置、计算机设备及存储介质
CN112417886A (zh) 意图实体信息抽取方法、装置、计算机设备及存储介质
CN112002352A (zh) 随机播放音乐方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant