CN110795935A - 文字词向量模型的训练方法、装置、终端及存储介质 - Google Patents
文字词向量模型的训练方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN110795935A CN110795935A CN202010008508.1A CN202010008508A CN110795935A CN 110795935 A CN110795935 A CN 110795935A CN 202010008508 A CN202010008508 A CN 202010008508A CN 110795935 A CN110795935 A CN 110795935A
- Authority
- CN
- China
- Prior art keywords
- training
- neural network
- word vector
- codes
- vector model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种文字词向量模型的训练方法、装置、终端及存储介质。所述文字词向量模型的训练方法包括:获取文字样本的文本信息;基于五笔输入法将文本信息的文字拆分成字根,将五笔字根转化为数值序列的形式,并建立五笔字根中各字根与数值的关系词典;根据关系词典将所有字根转化为相应的数值,对字根的数值进行独热编码,得到字根编码;将字根编码输入循环神经网络生成字形编码;对文本信息的各个词语进行词汇独热编码,获取相应的词汇编码;将字形编码和词汇编码输入双向循环神经网络进行模型训练,得到文字词向量模型。本申请利用字形编码和词汇编码训练双向循环神经网络,使文字词向量模型输出的词向量兼具字形信息及语境信息。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文字词向量模型的训练方法、装置、终端及存储介质。
背景技术
在自然语言处理的发展进程中,分布式表示方法是一大里程碑式的词语表征技术,其以多维向量的形式表示某一词语,能够从多个维度出发表示词语间的相似性,更贴近词语在语言中的内涵。
虽然分布式表示方法相较于早期的文本表征方法有了突破性进步,但对未登录词或者多义词无法有效识别和区分,使训练得到的文字词向量模型难以兼具语义及语法的复杂特点。
发明内容
本申请提供一种文字词向量模型的训练方法、装置、终端及存储介质,以解决当前文字词向量模型难以兼具语义及语法的复杂特点的问题。
为解决上述问题,本申请采用如下技术方案:
本申请提供一种文字词向量模型的训练方法,包括如下步骤:
获取文字样本的文本信息;
基于五笔输入法将文本信息的文字拆分成字根,将五笔字根转化为数值序列的形式,并建立五笔字根中各字根与数值的关系词典,根据关系词典将所有字根转化为相应的数值,对字根的数值进行独热编码,得到字根编码;
将字根编码输入循环神经网络生成字形编码;
对文本信息的各个词语进行词汇独热编码,获取相应的词汇编码;
将字形编码和词汇编码输入双向循环神经网络进行模型训练,得到文字词向量模型。
在一实施例中,基于五笔输入法将文本信息的文字拆分成字根的步骤,包括:
基于五笔输入法及文字拆分顺序对文本信息的文字进行拆分,得到文字的字根。
在一实施例中,将字根编码输入循环神经网络生成字形编码的步骤,包括:
将各字根对应的字根编码分别输入循环神经网络相应的神经元中,输出得到字形编码。
在一实施例中,将字形编码和词汇编码输入双向循环神经网络进行模型训练的步骤,包括:
将字形编码和词汇编码进行拼接,得到输入编码;
将输入编码输入双向循环神经网络进行模型训练。
在一实施例中,得到文字词向量模型之前,还包括:
将双向循环神经网络各神经网络层的训练结果进行加权平均,得到目标训练结果;
当目标训练结果满足预设要求时,将由双向循环神经网络构成的神经网络模型作为文字词向量模型。
在一实施例中,得到文字词向量模型之前,还包括:
将双向循环神经网络最高级神经网络层的前后向输出的训练结果进行拼接,得到目标训练结果;
当目标训练结果满足预设要求时,将由双向循环神经网络构成的神经网络模型作为文字词向量模型。
在一实施例中,将字形编码和词汇编码输入双向循环神经网络进行模型训练的步骤,包括:
将训练文字对应的字形编码和词汇编码输入双向循环神经网络进行模型训练;其中,训练文字为从文本信息中选择的连续文字;
当目标训练结果满足预设要求时,将由双向循环神经网络构成的神经网络模型作为文字词向量模型的步骤,包括:
当目标训练结果包括与参考文字相一致的预测文字时,则判定目标训练结果满足预设要求,并将由双向循环神经网络构成的神经网络模型作为文字词向量模型;其中,参考文字为文本信息中与训练文字相邻且位于训练文字之后的文字。
在一实施例中,获取文字样本的文本信息之前,还包括:
获取中文文本,对中文文本进行数据清洗及分词处理,得到文字样本。
本申请提供的一种文字词向量模型的训练装置,包括:
获取模块,用于获取文字样本的文本信息;
拆分模块,用于基于五笔输入法将文本信息的文字拆分成字根,将五笔字根转化为数值序列的形式,并建立五笔字根中各字根与数值的关系词典,根据关系词典将所有字根转化为相应的数值,对字根的数值进行独热编码,得到字根编码;
生成模块,用于将字根编码输入循环神经网络生成字形编码;
编码模块,用于对文本信息的各个词语进行词汇独热编码,获取相应的词汇编码;
训练模块,用于将字形编码和词汇编码输入双向循环神经网络进行模型训练,得到文字词向量模型。
本申请提供一种终端,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行如上任一项的文字词向量模型的训练方法。
本申请提供一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时,实现如上任一项的文字词向量模型的训练方法。
相对于现有技术,本申请的技术方案至少具备如下优点:
1、本申请提供的文字词向量模型的训练方法,通过获取文字样本的文本信息;基于五笔输入法将文本信息的文字拆分成字根,将五笔字根转化为数值序列的形式,并建立五笔字根中各字根与数值的关系词典;根据关系词典将所有字根转化为相应的数值,对字根的数值进行独热编码,得到字根编码;然后将字根编码输入循环神经网络生成字形编码;对文本信息的各个词语进行词汇独热编码,获取相应的词汇编码;将字形编码和词汇编码输入双向循环神经网络进行模型训练,得到文字词向量模型。本申请利用五笔输入法的字根拆解功能获取文字的字根,以反映文字的字形信息,利用字根的字形编码和词语的词汇编码训练双向循环神经网络,使得到的文字词向量模型对文字的字形及语义具有良好的识别,使文字词向量模型输出的词向量兼具字形信息及语境信息。
2、本申请基于五笔输入法及文字拆分顺序对文本信息的文字进行拆分,以方便快速地将文本信息的文字拆分成若干个有序的字根,以后续对字根进行编码。
3、通过将五笔字根转化为数值序列的形式,建立五笔字根中各字根与数值的关系词典;利用关系词典将所有字根转化为相应的数值,对字根的数值进行独热编码,从而实现对字根的编码,并利于后续双向循环神经网络的识别和处理。
4、本申请将双向循环神经网络各神经网络层的训练结果进行加权平均,得到目标训练结果;并对目标训练结果进行判断,当目标训练结果满足预设要求时,将由双向循环神经网络构成的神经网络模型作为文字词向量模型,从而得到训练结果满足要求的文字词向量模型,使文字词向量模型输出的词向量兼具语义及语法的特点,提高文字识别的准确性。
附图说明
图1为本申请文字词向量模型的训练方法一个实施例的流程框图;
图2为现有“江”和“河”对应词向量表示方式的示意图;
图3为本申请文字词向量模型的“江”和“河”对应词向量表示方式的示意图;
图4为一个实施例的五笔字根;
图5为利用循环神经网络将字根编码生成字形编码的示意图;
图6为将字形编码和词汇编码拼接成输入编码的示意图;
图7为本申请文字词向量模型的训练方法一个实施例的流程图;
图8为本申请文字词向量模型的训练方法又一个实施例的流程图;
图9为本申请文字词向量模型的训练装置一个实施例的模块框图;
图10为本申请一个实施例中终端的内部结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如S11、S12等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
本领域普通技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本领域普通技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,本申请所提供的一种文字词向量模型的训练方法,实现对未登录词或者多义词的有效识别和区分,使训练得到的文字词向量模型兼具语义及语法的复杂特点及随着语言环境而改变的能力。其中一种实施方式中,该文字词向量模型的训练方法包括如下步骤:
S11、获取文字样本的文本信息;
文本是计算机中的一种数据存在形式。例如,电商交易系统中,商品信息、商品描述、商品评价等可以保存为文本数据,或者,门户网站中多种类型的文章可以保存为文本数据。文字样本可以是指预先选取的多个文本,具体可以从已有的全部文本中选取全部文本作为文字样本,或者随机选取部分文本作为文字样本,或者按照一定规则选取文本作为文字样本。此外,还可以是将经过预先处理后的文本作为文字样本,即文字样本还可以是可直接利用的文本,其包括由多个文字组成的文本信息。
在一实施例中,可以通过网络爬虫的方式抓取各个网站不同文本类别的文本数据,从文本数据中筛选出中文文本,并对中文文本进行数据清洗及分词处理,以对中文文本的标点符号、停用词等非中文字符进行去除,并利用分词方法将数据清洗处理后的中文文本分成若干个字词,从而得到文字样本。文本类别为政治文本类别、经济文本类别、娱乐文本类别等。
其中,分词方法包括结巴分词方法、基于字典的分词方法、基础规则的分词方法、基于统计的分词方法(统计在一段话中出现频率最的那个分词字段)或基于深度学习的方法。
S12、基于五笔输入法将文本信息的文字拆分成字根,将五笔字根转化为数值序列的形式,并建立五笔字根中各字根与数值的关系词典,根据关系词典将所有字根转化为相应的数值,对字根的数值进行独热编码,得到字根编码;
五笔输入法是王永民在1983年8月发明的一种汉字输入法,其完全依据笔画和字形特征对汉字进行编码,是典型的形码输入法。本申请基于五笔输入法将文本信息的文字拆分成若干个字根,再对各个字根进行编码,得到字根编码,因大多数文字的字根可表示文字的语义信息,因此可利用字根表征文字的语义信息,并实现对字根的编码。
例如,“你好”中的“你”含有单人旁字根“亻”,因此“你”与人有关,例如暗指对人的称谓。因“你好”中的“你”由字根“亻”、“⺈”和“小”组成,“好”由字根"女"和字根"子"组成;从而将 “你好”拆分成“亻”、“⺈”、“小”、"女"和"子"五个字根。编码时,可分别为每一个字根设置一个数值,如将“亻”、“⺈”、“小”、"女"和"子"分别设置为1、2、3、4、5,当然,数值还可以二进制、四进制、八进制等机器语言的形式表示。
S13、将字根编码输入循环神经网络生成字形编码;
循环神经网络是一类具有短期记忆能力的神经网络。在循环神经网络中,神经元不但可以接受其它神经元的信息,也可以接受自身的信息,形成具有环路的网络结构。本步骤可将文字的字根编码输入循环神经网络中,循环神经网络可将各字根编码进行拼接,生成预设维数的字形编码,以表征文字的字形信息。其中,预设维数可通过预先设置在循环神经网络的参数进行确定。
S14、对文本信息的各个词语进行词汇独热编码,获取相应的词汇编码;
独热编码又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。独热编码是因为大部分算法是基于向量空间中的度量来进行计算的,为了使非偏序关系的变量取值不具有偏序性,并且到圆点是等距的。使用独热编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用独热编码,会让特征之间的距离计算更加合理。离散特征进行独热编码后,编码后的特征,其实每一维度的特征都可以看做是连续的特征。
本步骤将文本信息的文字以字词为单元进行词汇独热编码,生成相应的词汇编码。如“我爱吃苹果”可分成“我”、“爱”、“吃”“苹果”,则对应的独热编码可以是 0001,0010, 0100, 1000,从而便于后续数据的识别和处理,在一定程度上也起到了扩充特征的作用。
S15、将字形编码和词汇编码输入双向循环神经网络进行模型训练,得到文字词向量模型。
本步骤将上述得到的字形编码和词汇编码输入双向循环神经网络中,以对双向循环神经网络进行模型训练,训练时,可实时根据训练结果利用损失函数计算双向循环神经网络的损失,当损失满足预设值时,则表示模型训练完成,得到文字词向量模型,当损失不满足预设值时,则调整双向循环神经网络的参数,对模型继续训练,以得到训练合格的文字词向量模型。
本申请提供的文字词向量模型的训练方法,通过获取文字样本的文本信息;基于五笔输入法将文本信息的文字拆分成字根,并对字根进行编码,得到字根编码,以实现对字根的编码;然后将字根编码输入循环神经网络生成字形编码;对文本信息的各个词语进行词汇独热编码,获取相应的词汇编码;将字形编码和词汇编码输入双向循环神经网络进行模型训练,得到文字词向量模型。本申请利用五笔输入法的字根拆解功能获取文字的字根,以反映文字的字形信息,利用字根的字形编码和词语的词汇编码训练双向循环神经网络,使得到的文字词向量模型对文字的字形及语义具有良好的识别,使文字词向量模型输出的词向量兼具字形信息及语境信息。
为了更好的说明本申请,下面通过具体实施例进行说明:
现有的文字词向量模型对文字进行识别和区分时,由于某些文字并不存在字符信息,例如中文,因此难以在字形层面对这类文字进行卷积从而获取相应的语义信息,使现有的文字词向量模型难以兼具语义及语法的复杂特点及随着语言环境而改变的能力。而事实上,对于表意语系,文字形状本身蕴含了丰富的语义信息,因此可基于文字形状获取文字的语义信息。本申请根据五笔输入法,利用五笔输入法的字根拆解功能获取文字的字形信息,并对文字的字根进行字形编码,再结合双向循环神经网络模型对字形编码进行训练,使训练得到的文字词向量模型输出的文字词向量兼具字形信息及语境信息。
例如,在一般的词向量表示中,在利用文字样本对文字词向量模型进行训练之后,文字词向量模型输出的每一个词汇所对应的词向量是固定的,然而,所有的语言中均存在一词多义的现象,应用固定的词向量表示某一词汇并不适合多义词,例如,"我爱吃苹果"和"我买了一个苹果手机"中的"苹果",两者的语义差距较大,应当为不一样的词向量。
此外,在一般的词向量表示中,并没有考虑到词形相近的因素,如图2所示"江"和"河"的词向量,由图中可以看出,现有词向量表示"江"和"河"时,两者词向量的距离较大,即表示两者语义相差较大,但事实上,"江"和"河"的语义相近,因此该种词向量表示的错误率较大。而本申请所训练出的文字词向量模型,其可基于上下文含义输出词向量,输出的词向量能够综合考虑语境以及字词本身词形的特征,并充分考虑词形相近的因素,所训练出的"江"和"河"的词向量可如图3所示,其相比于图2,"江"和"河"之间词向量的距离更近,说明本申请更能考虑到词形相似所带来的词义相似性。
在一实施例中,在步骤S12中,基于五笔输入法将文本信息的文字拆分成字根的步骤,可具体包括:
基于五笔输入法及文字拆分顺序对文本信息的文字进行拆分,得到文字的字根。
在对文本信息进行字根拆分时,还可结合文字拆分顺序进行拆分,以方便快速地将文本信息的文字拆分成若干个有序的字根,以保证后续对字根进行编码的准确性。例如,将“你”进行拆分时,可按照从左到右、从上到下的拆分顺序依次拆分成“亻”、“⺈”和“小”三个字根。文字拆分顺序可与汉字书写顺序相一致。
在一实施例中,在步骤S12中,将五笔字根转化为数值序列的形式,并建立五笔字根中各字根与数值的关系词典;
根据关系词典将所有字根转化为相应的数值,对字根的数值进行独热编码,得到字根编码。
五笔的原理是将所有汉字拆分成字根,例如"好"由字根"女"和字根"子"组成;"们"由字根"亻"和字根"门"组成,并将字根分布在如图4所示五笔字根对应的25个键上,然后按照汉字书写顺序分别将"好"和"们"拆分成多个字根,并找到各个字根相应的键,便可打出相应的字,例如"好"对应"VB","们"对应"WU";如果是由两个字组成的词,组合每个字对应的前两个字根便可打出,如"字根"对应"PBSV"。在绝大多数情况下,字或词与相应的字母键组合为一一对应关系。
本申请将五笔字根转化为数值序列的形式,并建立如下所示的五笔字根中各字根与数值的关系词典:
{Q:0,W:1,E:2,R:3,T:4,Y:5,U:6,I:7,O:8,P:9,A:10,S:11,D:12,F:13,G:14,H:15,J:16,K:17,L:18,X:19,C:20,V:21,B:22,N:23,M:24};其中,关系词典可采用一对一或多对一的对应关系,即一个数值可对应一个字根,也可对应多个字根。
本申请根据关系词典将所有字根转化为相应的数值,例如,根据关系词典,可得文字"字根"对应的字根为“宀”、“子”、“木”和“彐”,各字根对应的键为"PBSV",而"PBSV"相应的数值形式为"9,22,11,21",并对字根的数值进行独热编码,得到如下所示的字根编码。
9: [0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
22: [0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0]
11: [0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0]
21: [0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0]。
在一实施例中,在步骤S13中,将字根编码输入循环神经网络生成字形编码的步骤,可具体包括:
将各字根对应的字根编码分别输入循环神经网络相应的神经元中,输出得到字形编码。
如图5所示,本实施例可将"PBSV"对应的字根编码分别输入循环神经网络不同的神经元RNNCell中,循环神经网络将各神经元的字根编码进行拼接,生成维数大小为m的向量。其中,预设维数可通过预先设置在循环神经网络的参数进行确定。
在一实施例中,在步骤S15中,将字形编码和词汇编码输入双向循环神经网络进行模型训练的步骤,可具体包括:
将字形编码和词汇编码进行拼接,得到输入编码;
将输入编码输入双向循环神经网络进行模型训练。
本实施例可将字形编码以及词汇的独热编码采用拼接的方式,得到表示文本信息的输入编码,将输入编码输入双向循环神经网络进行模型训练。如图6所示,假设字形编码的维数大小为m,词汇编码的维数大小为n,经过拼接后,输出得到的维数大小为m+n的输入编码,从而考虑文字的字形信息及文字组合信息。
如图7所示,得到输入编码以后,经由词向量层、双向双层的循环神经网络处理后,使训练得到的文字词向量模型更好地学习词语间的上下文关系,使文字词向量模型能够兼顾浅层及深层的语义表征,并动态地表示词向量。
在一实施例中,经历大量文字样本训练完成的文字词向量模型,对于输入文本中的任意词汇,可以有多种方法提取词向量,某一词汇在文字词向量模型的神经网络中可存在以下几种输出形式:
词向量层的输出;
双向双层的循环神经网络第一层神经网络的前向输出;
双向双层的循环神经网络第一层神经网络的后向输出;
双向双层的循环神经网络第二层神经网络的前向输出;
双向双层的循环神经网络第二层神经网络的后向输出。
在一实施例中,在步骤S15中,得到文字词向量模型之前,还可包括:
将双向循环神经网络各神经网络层的训练结果进行加权平均,得到目标训练结果;
当目标训练结果满足预设要求时,将由双向循环神经网络构成的神经网络模型作为文字词向量模型。
本实施例除上述输出形式外,还可将双向循环神经网络各神经网络层输出的训练结果进行加权平均,作为目标训练结果,并判断目标训练结果是否满足预设要求,如文字词向量模型输出的词向量可区分不同的语义信息及相近词时,则表示目标训练结果满足预设要求,从而将由双向循环神经网络构成的神经网络模型作为文字词向量模型。
在一实施例中,得到文字词向量模型之前,还包括:
将双向循环神经网络最高级神经网络层的前后向输出的训练结果进行拼接,得到目标训练结果;
当目标训练结果满足预设要求时,将由双向循环神经网络构成的神经网络模型作为文字词向量模型。
本实施例还可将双向循环神经网络最高级神经网络层的前后向输出的训练结果进行拼接,作为目标训练结果,如将双层双向循环神经网络的第二层神经网络的前后向输出进行拼接,得到目标训练结果,并判断文字词向量模型输出的词向量是否可区分不同的语义信息及相近词,若是,则表示目标训练结果满足预设要求,从而将含有双向循环神经网络的神经网络模型作为文字词向量模型。
在一实施例中,在步骤S15中,将字形编码和词汇编码输入双向循环神经网络进行模型训练的步骤,可具体包括:
将训练文字对应的字形编码和词汇编码输入双向循环神经网络进行模型训练;其中,训练文字为从文本信息中选择的连续文字;
当目标训练结果满足预设要求时,将由双向循环神经网络构成的神经网络模型作为文字词向量模型的步骤,包括:
当目标训练结果包括与参考文字相一致的预测文字时,则判定目标训练结果满足预设要求,并将由双向循环神经网络构成的神经网络模型作为文字词向量模型;其中,参考文字为文本信息中与训练文字相邻且位于训练文字之后的文字。
在本实施例中,对文字词向量模型进行训练时,需要搜集大量的中文数据,进行数据清洗以及分词,并且输入输出文本可前后错开一个或多个词汇。如图8所示,以文本为"我喜欢吃苹果"为例,各个字词对应的字形编码为"我"对应 "Q"、"喜欢"对应 "FKCQ"、"吃"对应 "KTN"、"苹果"对应 "AGJS"。输入的训练文字为"我","喜欢","吃"的连续文字,将该训练文字所对应的字形编码输入文字词向量模型中;则得到的输出文字为 "喜欢","吃","苹果";其中,输出文字的“苹果”为预测文字,由于预测文字与文本"我喜欢吃苹果"的训练文字后的“苹果”相一致,因此,训练得到的文字词向量模型可成功预测用户想表达的文字信息,并使文字词向量模型输出的词向量兼具语义及语法的特点,提高文字识别的准确性。
请参考图9,本申请的实施例还提供一种文字词向量模型的训练装置,一种本实施例中,包括获取模块11、拆分模块12、生成模块13、编码模块14及训练模块15。其中,
获取模块11,用于获取文字样本的文本信息;
文本是计算机中的一种数据存在形式。例如,电商交易系统中,商品信息、商品描述、商品评价等可以保存为文本数据,或者,门户网站中多种类型的文章可以保存为文本数据。文字样本可以是指预先选取的多个文本,具体可以从已有的全部文本中选取全部文本作为文字样本,或者随机选取部分文本作为文字样本,或者按照一定规则选取文本作为文字样本。此外,还可以是将经过预先处理后的文本作为文字样本,即文字样本还可以是可直接利用的文本,其包括由多个文字组成的文本信息。
在一实施例中,可以通过网络爬虫的方式抓取各个网站不同文本类别的文本数据,从文本数据中筛选出中文文本,并对中文文本进行数据清洗及分词处理,以对中文文本的标点符号、停用词等非中文字符进行去除,并利用分词方法将数据清洗处理后的中文文本分成若干个字词,从而得到文字样本。文本类别为政治文本类别、经济文本类别、娱乐文本类别等。
其中,分词方法包括结巴分词方法、基于字典的分词方法、基础规则的分词方法、基于统计的分词方法(统计在一段话中出现频率最的那个分词字段)或基于深度学习的方法。
拆分模块12,用于基于五笔输入法将文本信息的文字拆分成字根,将五笔字根转化为数值序列的形式,并建立五笔字根中各字根与数值的关系词典,根据关系词典将所有字根转化为相应的数值,对字根的数值进行独热编码,得到字根编码;
五笔输入法是王永民在1983年8月发明的一种汉字输入法,其完全依据笔画和字形特征对汉字进行编码,是典型的形码输入法。本申请基于五笔输入法将文本信息的文字拆分成若干个字根,再对各个字根进行编码,得到字根编码,因大多数文字的字根可表示文字的语义信息,因此可利用字根表征文字的语义信息,并实现对字根的编码。
例如,“你好”中的“你”含有单人旁字根“亻”,因此“你”与人有关,例如暗指对人的称谓。因“你好”中的“你”由字根“亻”、“⺈”和“小”组成,“好”由字根"女"和字根"子"组成;从而将 “你好”拆分成“亻”、“⺈”、“小”、"女"和"子"五个字根。编码时,可分别为每一个字根设置一个数值,如将“亻”、“⺈”、“小”、"女"和"子"分别设置为1、2、3、4、5,当然,数值还可以二进制、四进制、八进制等机器语言的形式表示。
生成模块13,用于将字根编码输入循环神经网络生成字形编码;
循环神经网络是一类具有短期记忆能力的神经网络。在循环神经网络中,神经元不但可以接受其它神经元的信息,也可以接受自身的信息,形成具有环路的网络结构。本模块可将文字的字根编码输入循环神经网络中,循环神经网络可将各字根编码进行拼接,生成预设维数的字形编码,以表征文字的字形信息。其中,预设维数可通过预先设置在循环神经网络的参数进行确定。
编码模块14,用于对文本信息的各个词语进行词汇独热编码,获取相应的词汇编码;
独热编码又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。独热编码是因为大部分算法是基于向量空间中的度量来进行计算的,为了使非偏序关系的变量取值不具有偏序性,并且到圆点是等距的。使用独热编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用独热编码,会让特征之间的距离计算更加合理。离散特征进行独热编码后,编码后的特征,其实每一维度的特征都可以看做是连续的特征。
本模块将文本信息的文字以字词为单元进行词汇独热编码,生成相应的词汇编码。如“我爱吃苹果”可分成“我”、“爱”、“吃”“苹果”,则对应的独热编码可以是 0001,0010, 0100, 1000,从而便于后续数据的识别和处理,在一定程度上也起到了扩充特征的作用。
训练模块15,用于将字形编码和词汇编码输入双向循环神经网络进行模型训练,得到文字词向量模型。
本模块将上述得到的字形编码和词汇编码输入双向循环神经网络中,以对双向循环神经网络进行模型训练,训练时,可实时根据训练结果利用损失函数计算双向循环神经网络的损失,当损失满足预设值时,则表示模型训练完成,得到文字词向量模型,当损失不满足预设值时,则调整双向循环神经网络的参数,对模型继续训练,以得到训练合格的文字词向量模型。
本申请提供的文字词向量模型的训练装置,通过获取文字样本的文本信息;基于五笔输入法将文本信息的文字拆分成字根,将五笔字根转化为数值序列的形式,并建立五笔字根中各字根与数值的关系词典;根据关系词典将所有字根转化为相应的数值,对字根的数值进行独热编码,得到字根编码,以实现对字根的编码;然后将字根编码输入循环神经网络生成字形编码;对文本信息的各个词语进行词汇独热编码,获取相应的词汇编码;将字形编码和词汇编码输入双向循环神经网络进行模型训练,得到文字词向量模型。本申请利用五笔输入法的字根拆解功能获取文字的字根,以反映文字的字形信息,利用字根的字形编码和词语的词汇编码训练双向循环神经网络,使得到的文字词向量模型对文字的字形及语义具有良好的识别,使文字词向量模型输出的词向量兼具字形信息及语境信息。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请提供的一种终端,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行如上任一项的文字词向量模型的训练方法。
在一实施例中,终端为一种计算机设备,如图10所示。本实施例的计算机设备可以是服务器、个人计算机以及网络设备等设备。计算机设备包括处理器402、存储器403、输入单元404以及显示单元405等器件。本领域技术人员可以理解,图10示出的设备结构器件并不构成对所有设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件。存储器403可用于存储计算机程序401以及各功能模块,处理器402运行存储在存储器403的计算机程序401,从而执行设备的各种功能应用以及数据处理。存储器可以是内存储器或外存储器,或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本申请所公开的存储器包括但不限于这些类型的存储器。本申请所公开的存储器只作为例子而非作为限定。
输入单元404用于接收信号的输入,以及接收用户输入的关键字。输入单元404可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程序驱动相应的连接装置;其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元405可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元405可采用液晶显示器、有机发光二极管等形式。处理器402是计算机设备的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器内的数据,执行各种功能和处理数据。
作为一个实施例,计算机设备包括:一个或多个处理器402,存储器403,一个或多个计算机程序401,其中一个或多个计算机程序401被存储在存储器403中并被配置为由一个或多个处理器402执行,一个或多个计算机程序401配置用于执行以上实施例的文字词向量模型的训练方法。
在一个实施例中,本申请还提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述文字词向量模型的训练方法。例如,存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(RandomAccess Memory,RAM)等。
综合上述实施例可知,本申请最大的有益效果在于:
本申请提供的文字词向量模型的训练方法、装置、终端及存储介质,通过获取文字样本的文本信息;基于五笔输入法将文本信息的文字拆分成字根,将五笔字根转化为数值序列的形式,并建立五笔字根中各字根与数值的关系词典;根据关系词典将所有字根转化为相应的数值,对字根的数值进行独热编码,得到字根编码,以实现对字根的编码;然后将字根编码输入循环神经网络生成字形编码;对文本信息的各个词语进行词汇独热编码,获取相应的词汇编码;将字形编码和词汇编码输入双向循环神经网络进行模型训练,得到文字词向量模型。本申请利用五笔输入法的字根拆解功能获取文字的字根,以反映文字的字形信息,利用字根的字形编码和词语的词汇编码训练双向循环神经网络,使得到的文字词向量模型对文字的字形及语义具有良好的识别,使文字词向量模型输出的词向量兼具字形信息及语境信息。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (11)
1.一种文字词向量模型的训练方法,其特征在于,包括:
获取文字样本的文本信息;
基于五笔输入法将所述文本信息的文字拆分成字根,将五笔字根转化为数值序列的形式,并建立五笔字根中各字根与数值的关系词典,根据所述关系词典将所有字根转化为相应的数值,对所述字根的数值进行独热编码,得到字根编码;
将所述字根编码输入循环神经网络生成字形编码;
对所述文本信息的各个词语进行词汇独热编码,获取相应的词汇编码;
将所述字形编码和词汇编码输入双向循环神经网络进行模型训练,得到文字词向量模型。
2.根据权利要求1所述的文字词向量模型的训练方法,其特征在于,基于五笔输入法将所述文本信息的文字拆分成字根的步骤,包括:
基于五笔输入法及文字拆分顺序对所述文本信息的文字进行拆分,得到文字的字根。
3.根据权利要求1所述的文字词向量模型的训练方法,其特征在于,将所述字根编码输入循环神经网络生成字形编码的步骤,包括:
将各字根对应的字根编码分别输入循环神经网络相应的神经元中,输出得到字形编码。
4.根据权利要求1所述的文字词向量模型的训练方法,其特征在于,将所述字形编码和词汇编码输入双向循环神经网络进行模型训练的步骤,包括:
将所述字形编码和词汇编码进行拼接,得到输入编码;
将所述输入编码输入双向循环神经网络进行模型训练。
5.根据权利要求1所述的文字词向量模型的训练方法,其特征在于,得到文字词向量模型之前,还包括:
将双向循环神经网络各神经网络层的训练结果进行加权平均,得到目标训练结果;
当目标训练结果满足预设要求时,将由所述双向循环神经网络构成的神经网络模型作为文字词向量模型。
6.根据权利要求1所述的文字词向量模型的训练方法,其特征在于,得到文字词向量模型之前,还包括:
将双向循环神经网络最高级神经网络层的前后向输出的训练结果进行拼接,得到目标训练结果;
当目标训练结果满足预设要求时,将由所述双向循环神经网络构成的神经网络模型作为文字词向量模型。
7.根据权利要求5或6所述的文字词向量模型的训练方法,其特征在于,
将所述字形编码和词汇编码输入双向循环神经网络进行模型训练的步骤,包括:
将训练文字对应的字形编码和词汇编码输入双向循环神经网络进行模型训练;其中,所述训练文字为从所述文本信息中选择的连续文字;
当目标训练结果满足预设要求时,将由所述双向循环神经网络构成的神经网络模型作为文字词向量模型的步骤,包括:
当目标训练结果包括与参考文字相一致的预测文字时,则判定目标训练结果满足预设要求,并将由所述双向循环神经网络构成的神经网络模型作为文字词向量模型;其中,所述参考文字为所述文本信息中与所述训练文字相邻且位于训练文字之后的文字。
8.根据权利要求1所述的文字词向量模型的训练方法,其特征在于,获取文字样本的文本信息之前,还包括:
获取中文文本,对所述中文文本进行数据清洗及分词处理,得到所述文字样本。
9.一种文字词向量模型的训练装置,其特征在于,包括:
获取模块,用于获取文字样本的文本信息;
拆分模块,用于基于五笔输入法将所述文本信息的文字拆分成字根,将五笔字根转化为数值序列的形式,并建立五笔字根中各字根与数值的关系词典,根据所述关系词典将所有字根转化为相应的数值,对所述字根的数值进行独热编码,得到字根编码;
生成模块,用于将所述字根编码输入循环神经网络生成字形编码;
编码模块,用于对所述文本信息的各个词语进行词汇独热编码,获取相应的词汇编码;
训练模块,用于将所述字形编码和词汇编码输入双向循环神经网络进行模型训练,得到文字词向量模型。
10.一种终端,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至8中任一项所述的文字词向量模型的训练方法。
11.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至8中任一项所述的文字词向量模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010008508.1A CN110795935A (zh) | 2020-01-06 | 2020-01-06 | 文字词向量模型的训练方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010008508.1A CN110795935A (zh) | 2020-01-06 | 2020-01-06 | 文字词向量模型的训练方法、装置、终端及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110795935A true CN110795935A (zh) | 2020-02-14 |
Family
ID=69448617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010008508.1A Pending CN110795935A (zh) | 2020-01-06 | 2020-01-06 | 文字词向量模型的训练方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110795935A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488423A (zh) * | 2020-03-05 | 2020-08-04 | 北京一览群智数据科技有限责任公司 | 一种基于索引数据的自然语言处理方法和系统 |
CN112347231A (zh) * | 2020-11-17 | 2021-02-09 | 广联达科技股份有限公司 | 建筑清单匹配模型的构建方法、匹配方法及装置 |
CN112528637A (zh) * | 2020-12-11 | 2021-03-19 | 平安科技(深圳)有限公司 | 文本处理模型训练方法、装置、计算机设备和存储介质 |
CN113255318A (zh) * | 2021-06-11 | 2021-08-13 | 北京明略软件系统有限公司 | 一种基于部首偏旁的字向量计算方法及装置 |
CN114399772A (zh) * | 2021-12-20 | 2022-04-26 | 北京百度网讯科技有限公司 | 样本生成、模型训练和轨迹识别方法、装置、设备和介质 |
CN115017915A (zh) * | 2022-05-30 | 2022-09-06 | 北京三快在线科技有限公司 | 一种模型训练、任务执行的方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595426A (zh) * | 2018-04-23 | 2018-09-28 | 北京交通大学 | 基于汉字字形结构性信息的词向量优化方法 |
CN109635274A (zh) * | 2018-10-25 | 2019-04-16 | 平安科技(深圳)有限公司 | 文本输入的预测方法、装置、计算机设备和存储介质 |
CN110059192A (zh) * | 2019-05-15 | 2019-07-26 | 北京信息科技大学 | 基于五笔码的字符级文本分类方法 |
-
2020
- 2020-01-06 CN CN202010008508.1A patent/CN110795935A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595426A (zh) * | 2018-04-23 | 2018-09-28 | 北京交通大学 | 基于汉字字形结构性信息的词向量优化方法 |
CN109635274A (zh) * | 2018-10-25 | 2019-04-16 | 平安科技(深圳)有限公司 | 文本输入的预测方法、装置、计算机设备和存储介质 |
CN110059192A (zh) * | 2019-05-15 | 2019-07-26 | 北京信息科技大学 | 基于五笔码的字符级文本分类方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488423A (zh) * | 2020-03-05 | 2020-08-04 | 北京一览群智数据科技有限责任公司 | 一种基于索引数据的自然语言处理方法和系统 |
CN112347231A (zh) * | 2020-11-17 | 2021-02-09 | 广联达科技股份有限公司 | 建筑清单匹配模型的构建方法、匹配方法及装置 |
CN112528637A (zh) * | 2020-12-11 | 2021-03-19 | 平安科技(深圳)有限公司 | 文本处理模型训练方法、装置、计算机设备和存储介质 |
CN112528637B (zh) * | 2020-12-11 | 2024-03-29 | 平安科技(深圳)有限公司 | 文本处理模型训练方法、装置、计算机设备和存储介质 |
CN113255318A (zh) * | 2021-06-11 | 2021-08-13 | 北京明略软件系统有限公司 | 一种基于部首偏旁的字向量计算方法及装置 |
CN114399772A (zh) * | 2021-12-20 | 2022-04-26 | 北京百度网讯科技有限公司 | 样本生成、模型训练和轨迹识别方法、装置、设备和介质 |
CN114399772B (zh) * | 2021-12-20 | 2024-02-27 | 北京百度网讯科技有限公司 | 样本生成、模型训练和轨迹识别方法、装置、设备和介质 |
CN115017915A (zh) * | 2022-05-30 | 2022-09-06 | 北京三快在线科技有限公司 | 一种模型训练、任务执行的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112329465B (zh) | 一种命名实体识别方法、装置及计算机可读存储介质 | |
CN110795935A (zh) | 文字词向量模型的训练方法、装置、终端及存储介质 | |
CN110442707B (zh) | 一种基于seq2seq的多标签文本分类方法 | |
JP6955580B2 (ja) | 文書要約自動抽出方法、装置、コンピュータ機器及び記憶媒体 | |
Ghosh et al. | Neural networks for text correction and completion in keyboard decoding | |
CN111753081B (zh) | 基于深度skip-gram网络的文本分类的系统和方法 | |
CN110444199B (zh) | 一种语音关键词识别方法、装置、终端及服务器 | |
CN107836000B (zh) | 用于语言建模和预测的改进的人工神经网络方法、电子设备 | |
CN109858039B (zh) | 一种文本信息识别方法及识别装置 | |
CN109657226B (zh) | 多联结注意力的阅读理解模型、系统及方法 | |
CN111368535A (zh) | 一种敏感词识别方法、装置及设备 | |
CN110286778B (zh) | 一种中文深度学习输入法、装置及电子设备 | |
CN111858843B (zh) | 一种文本分类方法及装置 | |
CN113553412B (zh) | 问答处理方法、装置、电子设备和存储介质 | |
CN112528637A (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN112507190B (zh) | 一种财经快讯的关键词提取方法和系统 | |
CN107341143A (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
CN110569505A (zh) | 一种文本输入方法及装置 | |
Yan et al. | ConvMath: a convolutional sequence network for mathematical expression recognition | |
CN110968697A (zh) | 文本分类方法、装置、设备及可读存储介质 | |
Rehman et al. | A scale and rotation invariant urdu nastalique ligature recognition using cascade forward backpropagation neural network | |
CN111241271B (zh) | 文本情感分类方法、装置及电子设备 | |
CN111581377B (zh) | 文本分类方法、装置、存储介质及计算机设备 | |
CN111898339A (zh) | 基于约束解码的古诗生成方法、装置、设备及介质 | |
CN110852066B (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200214 |
|
RJ01 | Rejection of invention patent application after publication |