CN109063155B - 语言模型参数确定方法、装置和计算机设备 - Google Patents
语言模型参数确定方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN109063155B CN109063155B CN201810907445.6A CN201810907445A CN109063155B CN 109063155 B CN109063155 B CN 109063155B CN 201810907445 A CN201810907445 A CN 201810907445A CN 109063155 B CN109063155 B CN 109063155B
- Authority
- CN
- China
- Prior art keywords
- language model
- preset
- generated
- training
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种语言模型参数确定方法,所述方法包括:获取多个样本文本,结合所述多个样本文本以及预设词库对原始语言模型进行训练获得训练语言模型;从所述预设词库中获取起始词,结合所获取到的起始词和所述训练语言模型获取生成文本,重复获取多个生成文本;将第一预设数量的所述生成文本和第二预设数量的所述样本文本输入预设分类器,获取当前分类准确率;获取当所述当前分类准确率为预设比率时所述训练语言模型的参数。本发明方案能够有效提高语言生成模型优化效率,降低成本。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种语言模型参数确定方法、装置和计算机设备。
背景技术
市场很多行业需要大量的行情文章、促销信息、导购文章、新产品上市等文本描述,因此正在尝试采用神经网络类型的语言模型进行语言撰写,但是在神经网络中有众多的参数对程序效果有很大的影响,有的参数影响准确率,有的参数影响训练成本,有的参数影响训练速度。
因此,需要对神经网络参数进行优化,目前市场上都是采用人工依靠过往经验进行多次调整参数来优化,但是人工优化效率低下。
发明内容
本发明的目的在于提供一种语言模型参数确定方法、装置计算机设备,能够自动确定语言生成模型的最优参数,有效提高语言生成模型优化效率,降低成本。
本发明的目的通过如下技术方案实现:
一种语言模型参数确定方法,所述方法包括:
获取多个样本文本,结合所述多个样本文本以及预设词库对原始语言模型进行训练获得训练语言模型;
从所述预设词库中获取起始词,结合所获取到的起始词和所述训练语言模型获取生成文本,重复获取多个生成文本;
将第一预设数量的所述生成文本和第二预设数量的所述样本文本输入预设分类器,获取当前分类准确率;
获取当所述当前分类准确率为预设比率时所述训练语言模型的参数。
在其中一个实施例中,所述结合所述多个样本文本以及预设词库对原始语言模型进行训练获得训练语言模型包括:
结合所述多个样本文本以及预设词库获取输入矩阵和输出矩阵,所述预设词库存储有多个词语;
将所述输入矩阵输入所述原始语言模型,训练所述原始语言模型获得所述训练语言模型,使所述训练语言模型输出所述输出矩阵。
在其中一个实施例中,所述根据所述多个样本文本获取输入矩阵和输出矩阵包括:
删除所述多个样本文本中的特殊字符获得多个预处理文本;
根据所述预设词库将所述每一所述预处理文本转换成对应的预处理向量;
根据每一所述预处理向量获取对应的输入向量和输出向量,分别结合多个预处理向量的输入向量和输出向量获取所述输入矩阵和输出矩阵。
在其中一个实施例中,所述预设次词库中每一所述词语具有对应的数字编号;所述根据所述预设词库将所述每一所述预处理文本转换成对应的预处理向量包括:
将每一所述预处理文本进行分词获得多个目标词语;
查询所述预设词库中与每一所述目标词语相同的词语,获取每一查询到的词语对应的数字编号;
将所述数字编号按照所述目标词语的顺序排序获得对应的预处理向量。
在其中一个实施例中,所述从所述预设词库中获取起始词,结合所获取到的起始词和所述训练语言模型获取生成文本包括:
随机获取所述预设词库中具有起始标记的起始词,结合所述起始词和所述训练语言模型获取与所述起始词连接的生成词语;
结合当前已获取的生成词语和所述训练语言学习模型获取与当前已获取的生成词语连接的当前生成词语;
当所述当前生成词语带有结束标记时,将所述起始词和已获取到的全部生成词语按照获取顺序依次连接形成所述生成文本;
当所述当前生成词语没有所述结束标记时,将所述当前生成词语作为新的上一生成词语,返回所述结合当前已获取的生成词语和所述训练语言学习模型获取与当前已获取的生成词语连接的当前生成词语的步骤。
在其中一个实施例中,所述获取当所述当前分类准确率为预设比率时所述训练语言模型的参数包括:
当所述当前分类准确率不是预设比率时,调整所述训练语言模型的参数并返回所述所述结合所获取到的起始词和所述训练语言模型获取生成文本的步骤;
当所述当前分类准确率为预设比率时,获取所述训练语言模型的参数。
在其中一个实施例中,所述第一预设数量和所述第二预设数量相同,所述预设比率为50%。
一种语言模型参数确定装置,所述装置包括:
训练语言模型获取模块,用于获取多个样本文本,结合所述多个样本文本以及预设词库对原始语言模型进行训练获得训练语言模型;
生成文本获取模块,用于从所述预设词库中获取起始词,结合所获取到的起始词和所述训练语言模型获取生成文本,重复获取多个生成文本;
分类准确率获取模块,用于将第一预设数量的所述生成文本和第二预设数量的所述样本文本输入预设分类器,获取当前分类准确率;
参数获取模块,用于获取当所述当前分类准确率为预设比率时所述训练语言模型的参数。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
获取多个样本文本,结合所述多个样本文本以及预设词库对原始语言模型进行训练获得训练语言模型;
从所述预设词库中获取起始词,结合所获取到的起始词和所述训练语言模型获取生成文本,重复获取多个生成文本;
将第一预设数量的所述生成文本和第二预设数量的所述样本文本输入预设分类器,获取当前分类准确率;
获取当所述当前分类准确率为预设比率时所述训练语言模型的参数。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
获取多个样本文本,结合所述多个样本文本以及预设词库对原始语言模型进行训练获得训练语言模型;
从所述预设词库中获取起始词,结合所获取到的起始词和所述训练语言模型获取生成文本,重复获取多个生成文本;
将第一预设数量的所述生成文本和第二预设数量的所述样本文本输入预设分类器,获取当前分类准确率;
获取当所述当前分类准确率为预设比率时所述训练语言模型的参数。
根据上述本发明的方案,其获取多个样本文本,结合多个样本文本以及预设词库对原始语言模型进行训练获得训练语言模型,然后从所述预设词库中获取起始词,结合所获取到的起始词和所述训练语言模型获取生成文本,重复获取多个生成文本,由于评判模型的参数是否最优需要判断生成文本是否和样本文本没有差别,因此将第一预设数量的所述生成文本和第二预设数量的所述样本文本输入预设分类器,获取当前分类准确率,获取当所述当前分类准确率为预设比率时所述训练语言模型的参数当当前分类准确率为预设比率时,说明生成文本和样本文本差异最小,此时语言模型的参数为最优参数,最优参数可以由计算机自动获取,无需依靠人工经验多次训练调整,能有效提高效率,并且降低成本。
附图说明
图1为一个实施例中语言模型参数确定方法的应用环境图;
图2为一个实施例中语言模型参数确定方法的流程示意图;
图3为一个实施例中语言模型参数确定方法的流程示意图;
图4为另一个实施例中语言模型参数确定方法的流程示意图;
图5为另一个实施例中语言模型参数确定方法的流程示意图;
图6为一个实施例中语言模型参数确定装置的结构框图;
图7为一个实施例中语言模型参数确定装置的结构框图;
图8为另一个实施例中语言模型参数确定装置的结构框图;
图9为另一个实施例中语言模型参数确定装置的结构框图;
图10为一个实施例中计算机设备的内部结构图;
图11为另一个实施例中计算机设备的内部结构图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
图1为一个实施例中服务器的内部结构示意图。该服务器包括通过系统总线连接的处理器、非易失性存储介质、网络接口、内存储器、输入装置。其中该服务器的非易失性存储介质有操作系统,还包括一种语言模型参数确定装置,该语言模型参数确定装置用于实现一种语言模型参数确定方法。该处理器用于提供计算和控制能力,支撑整个服务器的运行。服务器中的内存储器为非易失性存储介质中的语言模型参数确定装置的运行提供环境,网络接口用于与其他服务器或终端进行通信,如当服务器响应点击操作可以产生控制命令发送到其它服务器或者终端等。输入装置为键盘、鼠标或触摸屏等。具体的,服务器获取多个样本文本,结合所述多个样本文本以及预设词库对原始语言模型进行训练获得训练语言模型;从所述预设词库中获取起始词,结合所获取到的起始词和所述训练语言模型获取生成文本,重复获取多个生成文本;将第一预设数量的所述生成文本和第二预设数量的所述样本文本输入预设分类器,获取当前分类准确率;获取当所述当前分类准确率为预设比率时所述训练语言模型的参数。其中,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本领域技术人员可以理解,本申请提供的语言模型参数确定方法,不仅可以应用于图1所示的应用环境中,还可以应用但不限于各种计算机或服务器中。
在一个实施例中,如图2所示,提供了一种语言模型参数确定方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S101,获取多个样本文本,结合所述多个样本文本以及预设词库对原始语言模型进行训练获得训练语言模型;
具体的,预设词库存储有所述预设词库存储有多个词语,每一所述词语具有对应的数字编号。多个词语包括多个具有起始标记的起始词、多个具有结束标记的词语以及多个没有任何标记的词语。
步骤S102,从所述预设词库中获取起始词,结合所获取到的起始词和所述训练语言模型获取生成文本,重复获取多个生成文本;
具体的,所述预设词库中的多个词语包括多个具有起始标记的起始词、多个具有结束标记的词语以及多个没有任何标记的词语。
步骤S103,将第一预设数量的所述生成文本和第二预设数量的所述样本文本输入预设分类器,获取当前分类准确率;
具体的,衡量语言模型的参数是否最优,可以根据生产文本的质量来评价,将样本文本和生成文本混合,让预设分类器进行分别,通过分类准确率就可以判断生成文本的质量。
步骤S104,获取当所述当前分类准确率为预设比率时所述训练语言模型的参数。
上述语言模型参数确定方法中,通过获取多个样本文本,结合多个样本文本以及预设词库对原始语言模型进行训练获得训练语言模型,然后从所述预设词库中获取起始词,结合所获取到的起始词和所述训练语言模型获取生成文本,重复获取多个生成文本,由于评判模型的参数是否最优需要判断生成文本是否和样本文本没有差别,因此将第一预设数量的所述生成文本和第二预设数量的所述样本文本输入预设分类器,获取当前分类准确率,获取当所述当前分类准确率为预设比率时所述训练语言模型的参数,当当前分类准确率为预设比率时,说明生成文本和样本文本差异最小,此时语言模型的参数为最优参数,最优参数可以由计算机自动获取,无需依靠人工经验多次训练调整,能有效提高效率,并且降低成本。
在其中一个实施例中,如图3所示,所述所述结合所述多个样本文本以及预设词库对原始语言模型进行训练获得训练语言模型包括:
步骤S1011,结合所述多个样本文本以及预设词库获取输入矩阵和输出矩阵;
具体的,由于预设词库存储的每一所述词语具有对应的数字编号,那么可以获得每一样本文本对应的编号序列从而获得多个样本文本的输入矩阵和输出矩阵。
步骤S1012,将所述输入矩阵输入所述原始语言模型,训练所述原始语言模型获得所述训练语言模型,使所述训练语言模型输出所述输出矩阵。
具体的,限定原始语言模型的输入矩阵和输出矩阵,就可以对原始语言模型进行训练获得训练语言模型。
在其中一个实施例中,如图4所示,所述根据所述多个样本文本获取输入矩阵和输出矩阵包括:
步骤S10111,删除所述多个样本文本中的特殊字符获得多个预处理文本;
具体的,由于特殊字符在文本训练的过程中没有实际意义,并且可能对训练结果造成影响,因此先将特殊字符删除;
步骤S10112,根据所述预设词库将所述每一所述预处理文本转换成对应的预处理向量;
具体的,为了便于计算机处理,因此先将文本转化成数字的向量形式。
步骤S10113,根据每一所述预处理向量获取对应的输入向量和输出向量,分别结合多个预处理向量的输入向量和输出向量获取所述输入矩阵和输出矩阵。
例如,一预处理文本转化成的预处理向量为[1,112,112,3,25,5,112],那么构造输入为向量[1,112,112,3,25,5],输出为向量[112,112,3,25,5,112],即输入向量为整个预处理向量去除最后一位,输出向量为整个预处理向量去除起始数字,结合多个输入和输出向量就可以分别构建输入和输出矩阵。
在其中一个实施例中,如图5所示,所述根据所述预设词库将所述每一所述预处理文本转换成对应的预处理向量包括:
步骤S101121,将每一所述预处理文本进行分词获得多个目标词语;
具体的,可以采用jieba分词库,jieba分词库是一种中文分词库,可以对中文文本进行分词。
步骤S101122,查询所述预设词库中与每一所述目标词语相同的词语,获取每一查询到的词语对应的数字编号;
步骤S101123,将所述数字编号按照所述目标词语的顺序排序获得对应的预处理向量。
在其中一个实施例中,如图3所示,所述从所述预设词库中获取起始词,结合所获取到的起始词和所述训练语言模型获取生成文本包括:
步骤S1021,随机获取所述预设词库中具有起始标记的起始词,结合所述起始词和所述训练语言模型获取与所述起始词连接的生成词语;
步骤S1022,结合当前已获取的生成词语和所述训练语言学习模型获取与当前已获取的生成词语连接的当前生成词语;
步骤S1023,当所述当前生成词语带有结束标记时,将所述起始词和已获取到的全部生成词语按照获取顺序依次连接形成所述生成文本;
步骤S1024,当所述当前生成词语没有所述结束标记时,将所述当前生成词语作为新的上一生成词语,返回所述结合当前已获取的生成词语和所述训练语言学习模型获取与当前已获取的生成词语连接的当前生成词语的步骤。
具体的,结合起始词和所述训练语言模型获取与所述起始词连接的生成词语,生成词语是否具有结束标记,如果具有结束标记,那么连接起始词和生成词语获得生成文本;如果没有结束标记,那么结合起始词、生成词语以及训练语言模型,继续获取连接在生成词语后面的一个生成词语,然后重复判断连接在生成词语后面的一个生成词语是否具有结束标记,直至获得的生成词语具有结束标记为止。
在其中一个实施例中,如图3所示,所述获取当所述当前分类准确率为预设比率时所述训练语言模型的参数包括:
步骤S1041,当所述当前分类准确率不是预设比率时,调整所述训练语言模型的参数并返回所述结合所获取到的起始词和所述训练语言模型获取生成文本的步骤;
步骤S1042,当所述当前分类准确率为预设比率时,获取所述训练语言模型的参数。
具体的,首先判断当前分类准确率是否是预设比率,如果是预设比率,那么此时的训练语言模型的参数就是最优参数;如果当前分类准确率不是预设比率,那么需要重新调整训练模型的参数,计算机可以自动对训练模型的参数进行调整,直至最终获得的分类准确率为预设比率为止。
在其中一个实施例中,所述第一预设数量和所述第二预设数量相同,所述预设比率为50%,例如,选取10万条样本文本,并生成10万条生成文本,将10万条样本文本和10万条生成文本混合并输入预设分类器,可以采用CNN(Convolutional Neural Network,卷积神经网络)分类器,当生成文本质量非常好,和样本文本无差异时,将生成文本与样本文本一起输入CNN分类器时,CNN分类器就无法分辨哪些是样本文本,哪些是生成文本,那么分类准确率就会是50%。
应该理解的是,虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在其中一个实施例中,如图6所示,提供了一种语言模型参数确定装置,所述装置包括:
训练语言模型获取模块101,用于获取多个样本文本,结合所述多个样本文本以及预设词库对原始语言模型进行训练获得训练语言模型;
生成文本获取模块102,用于从所述预设词库中获取起始词,结合所获取到的起始词和所述训练语言模型获取生成文本,重复获取多个生成文本;
分类准确率获取模块103,用于将第一预设数量的所述生成文本和第二预设数量的所述样本文本输入预设分类器,获取当前分类准确率;
参数获取模块104,用于获取当所述当前分类准确率为预设比率时所述训练语言模型的参数。
在其中一个实施例中,如图7所示,所述训练语言模型获取模块101包括:
矩阵获取单元1011,用于结合所述多个样本文本以及预设词库获取输入矩阵和输出矩阵,所述预设词库存储有多个词语,每一所述词语具有对应的数字编号;
训练单元1012,用于将所述输入矩阵输入所述原始语言模型,训练所述原始语言模型获得所述训练语言模型,使所述训练语言模型输出所述输出矩阵。
在其中一个实施例中,如图8所示,所述矩阵获取单元1011包括:
删除单元10111,用于删除所述多个样本文本中的特殊字符获得多个预处理文本;
转换单元10112,用于根据所述预设词库将所述每一所述预处理文本转换成对应的预处理向量;
结合单元10113,用于根据每一所述预处理向量获取对应的输入向量和输出向量,分别结合多个预处理向量的输入向量和输出向量获取所述输入矩阵和输出矩阵。
在其中一个实施例中,如图9所示,所述转换单元10112包括:
分词单元101121,用于将每一所述预处理文本进行分词获得多个目标词语;
查询单元101122,用于查询所述预设词库中与每一所述目标词语相同的词语,获取每一查询到的词语对应的数字编号;
排序单元101123,用于将所述数字编号按照所述目标词语的顺序排序获得对应的预处理向量。
在其中一个实施例中,如图7所示,所述生成文本获取模块102包括:
生成词语获取单元1021,用于随机获取所述预设词库中具有起始标记的起始词,结合所述起始词和所述训练语言模型获取与所述起始词连接的生成词语;
连接单元1022,用于结合当前已获取的生成词语和所述训练语言学习模型获取与当前已获取的生成词语连接的当前生成词语;
第一生成单元1023,用于当所述当前生成词语带有结束标记时,将所述起始词和已获取到的全部生成词语按照获取顺序依次连接形成所述生成文本;
第二生成单元1024,用于当所述当前生成词语没有所述结束标记时,将所述当前生成词语作为新的上一生成词语,返回所述结合当前已获取的生成词语和所述训练语言学习模型获取与当前已获取的生成词语连接的当前生成词语的步骤。
在其中一个实施例中,如图7所示,所述参数获取模块104包括:
参数调整单元1041,用于当所述当前分类准确率不是预设比率时,调整所述训练语言模型的参数并返回所述所述结合所获取到的起始词和所述训练语言模型获取生成文本的步骤;
最优参数确定单元1042,用于当所述当前分类准确率为预设比率时,获取所述训练语言模型的参数。
在其中一个实施例中,所述第一预设数量和所述第二预设数量相同,所述预设比率为50%。
关于语言模型参数确定装置的具体限定可以参见上文中对于语言模型参数确定方法的限定,在此不再赘述。上述语言模型参数确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过装置总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作装置、计算机程序和数据库。该内存储器为非易失性存储介质中的操作装置和计算机程序的运行提供环境。该计算机设备的数据库用于存储语言模型参数确定涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语言模型参数确定方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语言模型参数确定方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10-11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取多个样本文本,结合所述多个样本文本以及预设词库对原始语言模型进行训练获得训练语言模型;从所述预设词库中获取起始词,结合所获取到的起始词和所述训练语言模型获取生成文本,重复获取多个生成文本;将第一预设数量的所述生成文本和第二预设数量的所述样本文本输入预设分类器,获取当前分类准确率;获取当所述当前分类准确率为预设比率时所述训练语言模型的参数。
在其中一个实施例中,处理器执行计算机程序时所述结合所述多个样本文本以及预设词库对原始语言模型进行训练获得训练语言模型包括:结合所述多个样本文本以及预设词库获取输入矩阵和输出矩阵,所述预设词库存储有多个词语,每一所述词语具有对应的数字编号;将所述输入矩阵输入所述原始语言模型,训练所述原始语言模型获得所述训练语言模型,使所述训练语言模型输出所述输出矩阵。
在其中一个实施例中,处理器执行计算机程序时所述根据所述多个样本文本获取输入矩阵和输出矩阵包括:删除所述多个样本文本中的特殊字符获得多个预处理文本;根据所述预设词库将所述每一所述预处理文本转换成对应的预处理向量;根据每一所述预处理向量获取对应的输入向量和输出向量,分别结合多个预处理向量的输入向量和输出向量获取所述输入矩阵和输出矩阵。
在其中一个实施例中,处理器执行计算机程序时所述根据所述预设词库将所述每一所述预处理文本转换成对应的预处理向量包括:将每一所述预处理文本进行分词获得多个目标词语;查询所述预设词库中与每一所述目标词语相同的词语,获取每一查询到的词语对应的数字编号;将所述数字编号按照所述目标词语的顺序排序获得对应的预处理向量。
在其中一个实施例中,处理器执行计算机程序时所述从所述预设词库中获取起始词,结合所获取到的起始词和所述训练语言模型获取生成文本包括:随机获取所述预设词库中具有起始标记的起始词,结合所述起始词和所述训练语言模型获取与所述起始词连接的生成词语;结合当前已获取的生成词语和所述训练语言学习模型获取与当前已获取的生成词语连接的当前生成词语;当所述当前生成词语带有结束标记时,将所述起始词和已获取到的全部生成词语按照获取顺序依次连接形成所述生成文本;当所述当前生成词语没有所述结束标记时,将所述当前生成词语作为新的上一生成词语,返回所述结合当前已获取的生成词语和所述训练语言学习模型获取与当前已获取的生成词语连接的当前生成词语的步骤。
在其中一个实施例中,处理器执行计算机程序时所述获取当所述当前分类准确率为预设比率时所述训练语言模型的参数,所获取到的参数为最优参数包括:当所述当前分类准确率不是预设比率时,调整所述训练语言模型的参数并返回所述所述结合所获取到的起始词和所述训练语言模型获取生成文本的步骤;当所述当前分类准确率为预设比率时,获取所述训练语言模型的参数,所获取到的参数为最优参数。
在其中一个实施例中,处理器执行计算机程序时所述第一预设数量和所述第二预设数量相同,所述预设比率为50%。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取多个样本文本,结合所述多个样本文本以及预设词库对原始语言模型进行训练获得训练语言模型;从所述预设词库中获取起始词,结合所获取到的起始词和所述训练语言模型获取生成文本,重复获取多个生成文本;将第一预设数量的所述生成文本和第二预设数量的所述样本文本输入预设分类器,获取当前分类准确率;获取当所述当前分类准确率为预设比率时所述训练语言模型的参数。
在其中一个实施例中,计算机程序被处理器执行时所述结合所述多个样本文本以及预设词库对原始语言模型进行训练获得训练语言模型包括:结合所述多个样本文本以及预设词库获取输入矩阵和输出矩阵,所述预设词库存储有多个词语,每一所述词语具有对应的数字编号;将所述输入矩阵输入所述原始语言模型,训练所述原始语言模型获得所述训练语言模型,使所述训练语言模型输出所述输出矩阵。
在其中一个实施例中,计算机程序被处理器执行时所述根据所述多个样本文本获取输入矩阵和输出矩阵包括:删除所述多个样本文本中的特殊字符获得多个预处理文本;根据所述预设词库将所述每一所述预处理文本转换成对应的预处理向量;根据每一所述预处理向量获取对应的输入向量和输出向量,分别结合多个预处理向量的输入向量和输出向量获取所述输入矩阵和输出矩阵。
在其中一个实施例中,计算机程序被处理器执行时所述根据所述预设词库将所述每一所述预处理文本转换成对应的预处理向量包括:将每一所述预处理文本进行分词获得多个目标词语;查询所述预设词库中与每一所述目标词语相同的词语,获取每一查询到的词语对应的数字编号;将所述数字编号按照所述目标词语的顺序排序获得对应的预处理向量。
在其中一个实施例中,计算机程序被处理器执行时所述从所述预设词库中获取起始词,结合所获取到的起始词和所述训练语言模型获取生成文本包括:随机获取所述预设词库中具有起始标记的起始词,结合所述起始词和所述训练语言模型获取与所述起始词连接的生成词语;结合当前已获取的生成词语和所述训练语言学习模型获取与当前已获取的生成词语连接的当前生成词语;当所述当前生成词语带有结束标记时,将所述起始词和已获取到的全部生成词语按照获取顺序依次连接形成所述生成文本;当所述当前生成词语没有所述结束标记时,将所述当前生成词语作为新的上一生成词语,返回所述结合当前已获取的生成词语和所述训练语言学习模型获取与当前已获取的生成词语连接的当前生成词语的步骤。
在其中一个实施例中,计算机程序被处理器执行时所述获取当所述当前分类准确率为预设比率时所述训练语言模型的参数,所获取到的参数为最优参数包括:当所述当前分类准确率不是预设比率时,调整所述训练语言模型的参数并返回所述所述结合所获取到的起始词和所述训练语言模型获取生成文本的步骤;当所述当前分类准确率为预设比率时,获取所述训练语言模型的参数,所获取到的参数为最优参数。
在其中一个实施例中,计算机程序被处理器执行时所述第一预设数量和所述第二预设数量相同,所述预设比率为50%。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种语言模型参数确定方法,其特征在于,所述方法包括:
获取多个样本文本,结合所述多个样本文本以及预设词库对原始语言模型进行训练获得训练语言模型,包括:
结合所述多个样本文本以及预设词库获取输入矩阵和输出矩阵;所述预设词库存储有多个词语,每一所述词语具有对应的数字编号,所述预设词库用于将所述多个样本文本转换成对应的多个预处理向量,所述多个预处理向量用于确定所述输入矩阵和所述输出矩阵;
将所述输入矩阵输入原始语言模型,训练所述原始语言模型获得所述训练语言模型,使所述训练语言模型输出所述输出矩阵;
从所述预设词库中获取起始词,结合所获取到的起始词和所述训练语言模型获取生成文本,重复获取多个生成文本;
将第一预设数量的所述生成文本和第二预设数量的所述样本文本输入预设分类器,获取当前分类准确率;
获取当所述当前分类准确率为预设比率时所述训练语言模型的参数。
2.根据权利要求1所述的语言模型参数确定方法,其特征在于,所述结合所述多个样本文本以及预设词库获取输入矩阵和输出矩阵包括:
删除所述多个样本文本中的特殊字符获得多个预处理文本;
根据所述预设词库将每一所述预处理文本转换成对应的预处理向量;
根据每一所述预处理向量获取对应的输入向量和输出向量,分别结合多个预处理向量的输入向量和输出向量获取所述输入矩阵和输出矩阵。
3.根据权利要求2所述的语言模型参数确定方法,其特征在于,所述预设词库中每一所述词语具有对应的数字编号;所述根据所述预设词库将每一所述预处理文本转换成对应的预处理向量包括:
将每一所述预处理文本进行分词获得多个目标词语;
查询所述预设词库中与每一所述目标词语相同的词语,获取每一查询到的词语对应的数字编号;
将所述数字编号按照所述目标词语的顺序排序获得对应的预处理向量。
4.根据权利要求1所述的语言模型参数确定方法,其特征在于,所述从所述预设词库中获取起始词,结合所获取到的起始词和所述训练语言模型获取生成文本包括:
随机获取所述预设词库中具有起始标记的起始词,结合所述起始词和所述训练语言模型获取与所述起始词连接的生成词语;
结合当前已获取的生成词语和所述训练语言学习模型获取与当前已获取的生成词语连接的当前生成词语;
当所述当前生成词语带有结束标记时,将所述起始词和已获取到的全部生成词语按照获取顺序依次连接形成所述生成文本;
当所述当前生成词语没有所述结束标记时,将所述当前生成词语作为新的上一生成词语,返回所述结合当前已获取的生成词语和所述训练语言学习模型获取与当前已获取的生成词语连接的当前生成词语的步骤。
5.根据权利要求1所述的语言模型参数确定方法,其特征在于,所述获取当所述当前分类准确率为预设比率时所述训练语言模型的参数包括:
当所述当前分类准确率不是预设比率时,调整所述训练语言模型的参数并返回所述结合所获取到的起始词和所述训练语言模型获取生成文本的步骤;
当所述当前分类准确率为预设比率时,获取所述训练语言模型的参数。
6.根据权利要求1所述的语言模型参数确定方法,其特征在于,所述第一预设数量和所述第二预设数量相同,所述预设比率为50%。
7.一种语言模型参数确定装置,其特征在于,所述装置包括:
训练语言模型获取模块,用于获取多个样本文本,结合所述多个样本文本以及预设词库对原始语言模型进行训练获得训练语言模型;
所述训练语言模型获取模块包括:
矩阵获取单元,用于结合所述多个样本文本以及预设词库获取输入矩阵和输出矩阵;所述预设词库存储有多个词语,每一所述词语具有对应的数字编号,所述预设词库用于将所述多个样本文本转换成对应的多个预处理向量,所述多个预处理向量用于确定所述输入矩阵和所述输出矩阵;
训练单元,用于将所述输入矩阵输入原始语言模型,训练所述原始语言模型获得所述训练语言模型,使所述训练语言模型输出所述输出矩阵;
生成文本获取模块,用于从所述预设词库中获取起始词,结合所获取到的起始词和所述训练语言模型获取生成文本,重复获取多个生成文本;
分类准确率获取模块,用于将第一预设数量的所述生成文本和第二预设数量的所述样本文本输入预设分类器,获取当前分类准确率;
参数获取模块,用于获取当所述当前分类准确率为预设比率时所述训练语言模型的参数。
8.根据权利要求7所述的语言模型参数确定装置,其特征在于,所述矩阵获取单元包括:
删除单元,用于删除所述多个样本文本中的特殊字符获得多个预处理文本;
转换单元,用于根据所述预设词库将每一所述预处理文本转换成对应的预处理向量;
结合单元,用于根据每一所述预处理向量获取对应的输入向量和输出向量,分别结合多个预处理向量的输入向量和输出向量获取所述输入矩阵和输出矩阵。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810907445.6A CN109063155B (zh) | 2018-08-10 | 2018-08-10 | 语言模型参数确定方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810907445.6A CN109063155B (zh) | 2018-08-10 | 2018-08-10 | 语言模型参数确定方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109063155A CN109063155A (zh) | 2018-12-21 |
CN109063155B true CN109063155B (zh) | 2020-08-04 |
Family
ID=64683400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810907445.6A Active CN109063155B (zh) | 2018-08-10 | 2018-08-10 | 语言模型参数确定方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109063155B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347799B (zh) * | 2019-07-12 | 2023-10-17 | 腾讯科技(深圳)有限公司 | 语言模型训练方法、装置和计算机设备 |
CN111626067B (zh) * | 2020-06-01 | 2022-04-19 | 北京世纪好未来教育科技有限公司 | 语言类型判别方法、装置、设备及存储介质 |
CN112417086B (zh) * | 2020-11-30 | 2024-02-27 | 深圳市与飞科技有限公司 | 数据处理方法、装置、服务器及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150371A (zh) * | 2013-03-08 | 2013-06-12 | 北京理工大学 | 正反向训练去混淆文本检索方法 |
CN107590177A (zh) * | 2017-07-31 | 2018-01-16 | 南京邮电大学 | 一种结合监督学习的中文文本分类方法 |
CN107909114A (zh) * | 2017-11-30 | 2018-04-13 | 深圳地平线机器人科技有限公司 | 训练有监督机器学习的模型的方法和装置 |
CN108021551A (zh) * | 2017-10-27 | 2018-05-11 | 北京捷通华声科技股份有限公司 | 一种语料扩展方法及装置 |
CN108108351A (zh) * | 2017-12-05 | 2018-06-01 | 华南理工大学 | 一种基于深度学习组合模型的文本情感分类方法 |
CN108334497A (zh) * | 2018-02-06 | 2018-07-27 | 北京航空航天大学 | 自动生成文本的方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101634983A (zh) * | 2008-07-21 | 2010-01-27 | 华为技术有限公司 | 一种文本分类方法和装置 |
US9836450B2 (en) * | 2014-12-09 | 2017-12-05 | Sansa AI Inc. | Methods and systems for providing universal portability in machine learning |
CN107818077A (zh) * | 2016-09-13 | 2018-03-20 | 北京金山云网络技术有限公司 | 一种敏感内容识别方法及装置 |
-
2018
- 2018-08-10 CN CN201810907445.6A patent/CN109063155B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150371A (zh) * | 2013-03-08 | 2013-06-12 | 北京理工大学 | 正反向训练去混淆文本检索方法 |
CN107590177A (zh) * | 2017-07-31 | 2018-01-16 | 南京邮电大学 | 一种结合监督学习的中文文本分类方法 |
CN108021551A (zh) * | 2017-10-27 | 2018-05-11 | 北京捷通华声科技股份有限公司 | 一种语料扩展方法及装置 |
CN107909114A (zh) * | 2017-11-30 | 2018-04-13 | 深圳地平线机器人科技有限公司 | 训练有监督机器学习的模型的方法和装置 |
CN108108351A (zh) * | 2017-12-05 | 2018-06-01 | 华南理工大学 | 一种基于深度学习组合模型的文本情感分类方法 |
CN108334497A (zh) * | 2018-02-06 | 2018-07-27 | 北京航空航天大学 | 自动生成文本的方法和装置 |
Non-Patent Citations (1)
Title |
---|
《用于文本情感极性分析的动态卷积神经网络超限学习算法》;贾熹滨;《北京工业大学学报》;20170110;第43卷(第1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109063155A (zh) | 2018-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287961B (zh) | 中文分词方法、电子装置及可读存储介质 | |
US11468233B2 (en) | Intention identification method, intention identification apparatus, and computer-readable recording medium | |
US11392838B2 (en) | Method, equipment, computing device and computer-readable storage medium for knowledge extraction based on TextCNN | |
CN109271521B (zh) | 一种文本分类方法及装置 | |
CN109753653B (zh) | 实体名称识别方法、装置、计算机设备和存储介质 | |
CN107330471B (zh) | 反馈内容的问题定位方法和装置、计算机设备、存储介质 | |
CN108959271B (zh) | 描述文本生成方法、装置、计算机设备和可读存储介质 | |
CN110853626B (zh) | 基于双向注意力神经网络的对话理解方法、装置及设备 | |
CN109063155B (zh) | 语言模型参数确定方法、装置和计算机设备 | |
CN110458638B (zh) | 一种商品推荐方法及装置 | |
CN112765984A (zh) | 命名实体识别方法、装置、计算机设备和存储介质 | |
US20230177251A1 (en) | Method, device, and system for analyzing unstructured document | |
CN110705489B (zh) | 目标识别网络的训练方法、装置、计算机设备和存储介质 | |
CN111209374B (zh) | 数据查询展示方法、装置、计算机系统及可读存储介质 | |
CN110795935A (zh) | 文字词向量模型的训练方法、装置、终端及存储介质 | |
CN109800333B (zh) | 基于机器学习的报表生成方法、装置和计算机设备 | |
CN115917613A (zh) | 文档中文本的语义表示 | |
CN110909768B (zh) | 一种标注数据获取方法及装置 | |
CN111737548A (zh) | 点选验证码识别方法、装置、计算机设备和存储介质 | |
CN112732884A (zh) | 目标回答语句生成方法、装置、计算机设备和存储介质 | |
CN112749639B (zh) | 模型训练方法、装置、计算机设备和存储介质 | |
CN110705211A (zh) | 文本重点内容标记方法、装置、计算机设备及存储介质 | |
CN117725960A (zh) | 基于知识蒸馏的语言模型训练方法、文本分类方法及设备 | |
CN114266252A (zh) | 命名实体识别方法、装置、设备及存储介质 | |
CN112381458A (zh) | 项目评审方法、项目评审装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |