CN111563379B

CN111563379B - 基于中文词向量模型的文本识别方法、装置及存储介质

Info

Publication number: CN111563379B
Application number: CN202010396412.7A
Authority: CN
Inventors: 赵建强; 蒋卓; 何星; 张辉极; 黄剑; 杜新胜; 陈诚; 邓叶勋; 李小亮
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2022-12-02
Anticipated expiration: 2040-05-12
Also published as: CN111563379A

Abstract

本发明提出了一种基于中文词向量模型的文本识别方法、装置及存储介质，该方法包括：基于目标词、上下文窗口词和目标词声调n‑grams构建第一中文词向量模型和第二中文词向量模型；基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型；使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果。本发明使用训练后的所述第二中文词向量模型对所述识别结果进行验证，提高了识别准确率，且构建词向量时使用了声调这一元素，丰富中文词向量所包含信息，避免了特征噪声对词向量的影响，最大程度的保留目标词的语义和语调特征，引入了负样本并构建了损失函数。

Description

基于中文词向量模型的文本识别方法、装置及存储介质

技术领域

本发明涉及文本数据处理技术领域，具体涉及一种基于中文词向量模型的文本识别方法、装置及存储介质。

背景技术

作为自然语言处理的基础工作之一，文本表示一直备受关注。通过文本表示技术，可以将非结构化的文本转换为计算机能够处理的结构化的数据，从而帮助计算机开展后续的工作。传统的文本表示是基于概率统计的思想实现的，典型的代表有词袋模型和主题模型；前者由于忽略语义信息和数据稀疏性的问题很难在实际任务中取得很好的结果，后者则因为先验知识的限制，也很难在下游任务中得到推广。

随着深度学习的发展，词向量逐渐进入研究者的视野并很快成为文本表示技术的主流方法。与传统的文本表示不同，词向量模型将文本中的每个词表示为一个低维、稠密且连续的实数向量，这种的分布式的词表示方法能够更好地捕捉自然语言的语义；而迁移学习的出现，也促进了词向量在自然语言处理领域的进一步应用。通过大规模语料预训练获取到的词向量，可以直接迁移到各种下游任务中并取得优异的结果，如文本分类、命名实体识别、情感分析等。

当前技术中的主流词向量模型，研究的重点都集中在基于上下文信息的表征学习上，其中词是文本语义切割的最小单位；也有方法为了更好地捕获文本的语义，通过合并字符级和词级粒度的特征进行联合学习。但这些研究主要集中在拉丁语系上，如英语、西班牙语和德语等，并不能直接应用于中文等具有完全不同书写系统的语言。

中文词汇只是多音节单词的一部分，通常还有其他信息丰富的字符存在，这些字符项通常包括字和拼音，分别对应中文词的语义成分和语音成分。考虑到汉字包含的语义与词包含的语义存在冗余，使用字和词进行联合训练无法保证语义信息互补；而拼音作为辅助汉字学习的工具，本身是靠规则聚集成的簇，其包含的信息对于理解文本语义并不具备直接的意义，盲目结合多个字符项，结果往往会引入更多的噪音，对于后续模型的学习带来困难。

因此，现有技术中的中文词向量模型，噪音大，训练复杂耗时，且对文本的识别并不一定有效，模型在训练时收敛速度慢等等，亟需一种新的中文词向量模型解决上述一个或多个技术缺陷。

发明内容

本发明针对上述现有技术中一个或多个技术缺陷，提出了如下技术方案。

一种基于中文词向量模型的文本识别方法，该方法包括：

建模步骤，基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型；

训练步骤，基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型；

识别步骤，使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果；

其中，所述第一中文词向量模型的输入为上下文窗口词和目标词声调n-grams，输出为目标词，所述第二中文词向量模型的输入为目标词和目标词声调n-grams，输出为上下文窗口词。

更进一步地，使用训练后的所述第二中文词向量模型对所述识别结果进行验证，如果验证结果低于第一阈值，则对所述第一中文词向量模型进行重新训练后再对输入的文本进行识别。

更进一步地，在所述训练步骤中，对语料库中的任一文档经过分词处理得到n个词，则将该文档的词列表和声调簇列表表示为：

W＝[w₁,w₂,…,w_i,…,w_n],1≤i≤n

T＝[t₁,t₂,…,t_i,…,t_n],1≤i≤n

其中，w_i为该文档的第i个词，t_i是第i个词的声调簇；

遍历该文档的所有词和声调簇，选取第i个词wi作为选择的目标词，[w_i-h,…w_i-1,w_i+1,…,w_i+h]为目标词的上下文窗口词，

为目标词及上下文窗口词对应的声调簇列表生成的声调n-grams作为目标词声调n-grams，其中，h为窗口的大小，n的取值为3、4、5，m为n-grams中成员的数目，在对第一中文词向量模型训练时，对w_i添加标签，[w_i-h,…w_i-1,w_i+1,…,w_i+h]和

作为输入；在对第二中文词向量模型训练时，对[w_i-h,…w_i-1,w_i+1,…,w_i+h]添加标签，w_i和

作为输入。

更进一步地，统计所述语料库所有文档的词和声调簇获取语料库词典和声调字典，基于所述语料库词典将所述目标词w_i和[w_i-h,…w_i-1,w_i+1,…,w_i+h]进行向量化，基于声调字典对

进行向量化，使用所述向量化后的w_i、[w_i-h,…w_i-1,w_i+1,…,w_i+h]和

对所述第一中文词向量模型和第二中文词向量模型进行训练。

更进一步地，在对所述第一中文词向量模型和第二中文词向量模型进行训练时，随机选择一部分词作为负样本，计算目标词的上下文窗口词的向量与目标词的向量的第一得分P(w_i|w_i±j)，计算目标词声调的向量与目标词的向量的第二得分

所述第一、二得分构成得分对：

其中，

和

分别为目标词的上下文窗口词的向量和目标词声调的向量的平均值，

为随机挑选的第k个负样本词的词向量，K为负样本词的个数，j＝1、2、……，h，z＝1、2、……，m；

根据所述得分对计算所述第一中文词向量模型和第二中文词向量模型的损失，其中，损失函数为L，用于控制所述第一、二中文词向量模型的学习速度，

其中，λ为正则系数，取值为[0,1]，D为训练集所有样本的个数。

本发明还提出了一种基于中文词向量模型的文本识别装置，该装置包括：

建模单元，基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型；

训练单元，基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型；

识别单元，使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果；

更进一步地，在所述训练单元中，对语料库中的任一文档经过分词处理得到n个词，则将该文档的词列表和声调簇列表表示为：

W＝[w₁,w₂,…,w_i,…,w_n],1≤i≤n

T＝[t₁,t₂,…,t_i,…,t_n],1≤i≤n

其中，w_i为该文档的第i个词，t_i是第i个词的声调簇；

遍历该文档的所有词和声调簇，选取第i个词w_i作为选择的目标词，[w_i-h,…w_i-1,w_i+1,…,w_i+h]为目标词的上下文窗口词，

作为输入。

进行向量化，使用所述向量化后的wi、[w_i-h,…w_i-1,w_i+1,…,w_i+h]和

所述第一、二得分构成得分对：

其中，

和

本发明还提出了一种计算机可读存储介质，所述存储介质上存储有计算机程序代码，当所述计算机程序代码被计算机执行时执行上述之任一的方法。

本发明的技术效果在于：本发明的一种基于中文词向量模型的文本识别方法，该方法包括：建模步骤，基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型；训练步骤，基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型；识别步骤，使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果；其中，所述第一中文词向量模型的输入为上下文窗口词和目标词声调n-grams，输出为目标词，所述第二中文词向量模型的输入为目标词和目标词声调n-grams，输出为上下文窗口词。本发明使用训练后的所述第二中文词向量模型对所述识别结果进行验证，如果验证结果低于第一阈值，则对所述第一中文词向量模型进行重新训练后再对输入的文本进行识别，提高了识别准确率，且本发明构建词向量时使用了声调这一元素，其能够将中文文本的音节规律和语调连贯性等信息嵌入到词向量中，丰富中文词向量所包含信息，同时还避免了特征噪声对词向量的影响；本发明最大程度的保留目标词的语义和语调特征，联合目标词的向量和声调向量作为训练第一中文词向量模型的输入，联合上下文窗口词的向量和声调向量作为训练第二中文词向量模型的输入，使得训练出的模型最大程度保留了语义和语调特征，提高了文本识别的精度，本发明引入了负样本并构建了损失函数为L，用于控制学习速度，通过以上方式，提高了模型训练的速度，但并没有降低其精度，由于本发明的中文词向量加入了语调特征，使其在中文文本的识别，特别是情感识别表现优异。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1是根据本发明的实施例的一种基于中文词向量模型的文本识别方法的流程图。

图2是根据本发明的实施例的目标词“人类”所形成的声调n-grams示意图。

图3是根据本发明的实施例的一种基于中文词向量模型的文本识别装置的结构图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明的理论基础为：声调指的是中文在发音过程中的抑扬顿挫，是中文音节所固有的、具有一定区别意义的声音特征，作为依附在中文音节上的超音段成分，声调或其组合的不同会直接影响字、词及其上下文所处的语境，换句话说，声调的变换起伏在一定程度上反映了文本不同的属性或风格(严肃刻板、轻快调皮等)。

古汉语将中文声调分为四个调类，分别为平声、上声、去声、入声，现代汉语与各个方言的调类也都是在这四声的基础上演变而来的。这四个调类与无声调共同构成了中文文本中单字的所有声调，考虑到中文文本中，词是字的不同组合，则每个词也都有一个声调组合与之对应，如“环境与人类的生存息息相关”，其分词结果为：“环境”，“与”，“人类”，“的”，“生存”，“息息相关”；声调则可以表示为：“上入”，“去”，“上入”，“无”，“平上”，“平平平平”。

图1示出了本发明的一种基于中文词向量模型的文本识别方法，该方法包括：

建模步骤S101，基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型。

训练步骤S102，基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型。

识别步骤S103，使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果；其中，所述第一中文词向量模型的输入为上下文窗口词和目标词声调n-grams，输出为目标词，所述第二中文词向量模型的输入为目标词和目标词声调n-grams，输出为上下文窗口词。

在一个实施例中，使用训练后的所述第二中文词向量模型对所述识别结果进行验证，如果验证结果低于第一阈值，则对所述第一中文词向量模型进行重新训练后再对输入的文本进行识别。

本发明中，通时构建了所述第一、二中文词向量模型，这两个中文词向量模型的一个输入都是目标词声调n-grams，另一个输入即关于词的输入二者是相反的，即，所述第一中文词向量模型的输入为目标词，输出为目标词的上下文窗口词，所述第二中文词向量模型的输入为目标词的上下文窗口词，输出为目标词，这使得两个模型在训练时可以交换目标词样本及上下文窗口词样本进行训练，训练方便，更重要的是，使用训练后的所述第二中文词向量模型对所述识别结果进行验证，如果验证结果低于第一阈值，则对所述第一中文词向量模型进行重新训练后再对输入的文本进行识别，提高了识别准确率，且本发明构建词向量时使用了声调这一元素，其能够将中文文本的音节规律和语调连贯性等信息嵌入到词向量中，丰富中文词向量所包含信息，同时还避免了特征噪声对词向量的影响，这是本发明的重要发明点之一。

在一个实施例中，在所述训练步骤中，对语料库中的任一文档经过分词处理得到n个词，则将该文档的词列表和声调簇列表表示为：

W＝[w₁,w₂,…,w_i,…,w_n],1≤i≤n

T＝[t₁,t₂,…,t_i,…,t_n],1≤i≤n

其中，w_i为该文档的第i个词，t_i是第i个词的声调簇；

为目标词及上下文窗口词对应的声调簇列表生成的声调n-grams作为目标词声调n-grams，其中，h为窗口的大小，n的取值为3、4、5……，m为n-grams中成员的数目，在对第一中文词向量模型训练时，对w_i添加标签，[w_i-h,…w_i-1,w_i+1,…,w_i+h]和

作为输入。

示例性地，以文档“环境与人类的生存息息相关”为例，选定目标词为“人类”，在窗口的大小h为2时，目标词的上下文窗口词为“环境、与、的、生存”，目标词“人类”所形成的声调n-grams，如图2所示。

在一个实施例中，为使计算机可以处理中文词、声调等，需要将目标词、上下文窗口词及目标词声调进行映射处理，即将他们映射为向量，映射过程是将文档转换为计算机能够理解的结构化数据的过程，根据语料库的词典和声调字典，首先将训练输入的目标词及其声调n-grams以及上下文窗口词分别转换为id的形式，然后根据词典和声调字典的长度初始化词和声调的映射矩阵，再通过查表操作获取对应的向量表示。

一个具体向量化的例子如下：统计所述语料库所有文档的词和声调簇获取语料库词典和声调字典，基于所述语料库词典将所述目标词wi和[w_i-h,…w_i-1,w_i+1,…,w_i+h]进行向量化，基于声调字典对

本发明中，为了最大程度的保留目标词的语义和语调特征，联合目标词的向量和声调向量作为训练第一中文词向量模型的输入，联合上下文窗口词的向量和声调向量作为训练第二中文词向量模型的输入，使得训练出的模型最大程度保留了语义和语调特征，提高了文本识别的精度，这是本发明的另一个重要发明点。

在一个实施例中，在对所述第一中文词向量模型和第二中文词向量模型进行训练时，随机选择一部分词作为负样本，计算目标词的上下文窗口词的向量与目标词的向量的第一得分{(w_i|w_i±j)，计算目标词声调的向量与目标词的向量的第二得分

所述第一、二得分构成得分对：

其中，

和

由于本发明需要根据模型训练的结果对所有可能的词计算得分，考虑到词典的长度，计算所有可能词的得分将给计算机带来极大的负担，因此，本发明创造性地采用负采样的思想，从所有可能的词里随机选择一部分词作为负样本，分别计算目标词的上下文窗口词向量与目标词的声调向量与目标词向量的得分对，并构建了损失函数为L，用于控制学习速度，通过以上方式，提高了模型训练的速度，但并没有降低其精度，由于本发明的中文词向量加入了语调特征，使其在中文文本的识别，特别是情感识别表现优异，这是本发明的重要发明点之另一。

图3示出了本发明的一种基于中文词向量模型的文本识别装置，该装置包括：

建模单元301，基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型。

训练单元302，基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型。

识别单元303，使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果；其中，所述第一中文词向量模型的输入为上下文窗口词和目标词声调n-grams，输出为目标词，所述第二中文词向量模型的输入为目标词和目标词声调n-grams，输出为上下文窗口词。

在一个实施例中，在所述训练单元中，对语料库中的任一文档经过分词处理得到n个词，则将该文档的词列表和声调簇列表表示为：

W＝[w₁,w₂,…,w_i,…,w_n],1≤i≤n

T＝[t₁,t₂,…,t_i,…,t_n],1≤i≤n

其中，w_i为该文档的第i个词，t_i是第i个词的声调簇；

作为输入。

所述第一、二得分构成得分对：

其中，

和

本发明的为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的装置。

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。