CN113095065B

CN113095065B - 一种中文字向量学习方法及装置

Info

Publication number: CN113095065B
Application number: CN202110645779.2A
Authority: CN
Inventors: 梁吉光; 徐凯波
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-09-17
Anticipated expiration: 2041-06-10
Also published as: CN113095065A

Abstract

本申请提供了一种中文字向量学习方法及装置，该方法包括：将中文词语库中的词进行拆分，得到待学习汉字，并将所述待学习汉字存入汉字库；根据所述中文词语库和汉字库，统计每个待学习汉字在所述中文词语库中的构词数，以及每个待学习汉字在每个词中的使用频次；针对每个待学习汉字，根据该待学习汉字对应的构词数，计算该待学习汉字对应的反词语频率；根据所述每个待学习汉字在每个词中的使用频次和每个待学习汉字的反词语频率进行加权计算，得到每个待学习汉字的字向量。

Description

一种中文字向量学习方法及装置

技术领域

本申请涉及自然语言处理领域，具体而言，涉及一种中文字向量学习方法及装置。

背景技术

语义表示是自然语言处理（Natural Language Processing，缩写为NLP）领域最为重要的研究任务之一，旨在理解蕴含在语言中的意义。在自然语言中，语言以符号的形式存在，如英文字母、汉字、拼音等，但符号本身不具有任何意义，只有当符号被赋予含义之后才能够形成信息，此时符号的含义即为语义。常见的文本语义表示方法有向量空间模型、概率模型、语言模型和词向量（Embedding）模型。

现有技术中，词向量模型是当前语义表示的最好方法。继Word2vec之后，相继涌现出Glove、ELMo、GPT、BERT等基于深度学习的词向量模型，很多学者、科研组织结构开源出较多的已训练好的词向量模型做为预训练模型，并在英文语料上取得相关不错的效果。而与英文的语义表示不同，中文的语义表示需要对文本进行分词，中文分词的效果直接影响后续应用，误差会被级联传播。因分词错误，词向量得不到有效的学习。从而导致文本得不到有效的语义表示，继而在后续如文本分类、预测、序列标注、信息抽取等很多应用场景下会直接导致精度的剧烈下降。另外，中文词语很难穷举，每天都会产生新词，但是字是可穷举的。对于预训练词向量模型会漏掉新词，这无形中也会造成精度的损失。

发明内容

有鉴于此，本申请的目的在于提供一种中文字向量学习方法及装置，用于解决现有技术中如何提高中文语义表示的准确度的问题。

第一方面，本申请实施例提供了一种中文字向量学习方法，该方法包括：

将中文词语库中的词进行拆分，得到待学习汉字，并将所述待学习汉字存入汉字库；

根据所述中文词语库和汉字库，统计每个待学习汉字在所述中文词语库中的构词数，以及每个待学习汉字在每个词中的使用频次；

针对每个待学习汉字，根据该待学习汉字对应的构词数，计算该待学习汉字对应的反词语频率；

根据所述每个待学习汉字在每个词中的使用频次、每个待学习汉字的反词语频率和每个词对应的词向量进行加权计算，得到每个待学习汉字的字向量。

在一些实施例中，所述根据所述每个待学习汉字在每个词中的使用频次、每个待学习汉字的反词语频率和每个词对应的词向量进行加权计算，得到每个待学习汉字的字向量，包括：

针对每个待学习汉字，根据该待学习汉字的反词语频率与每个词中该待学习汉字的使用频次的乘积，和每个词中除该待学习汉字外每个其他汉字的反词语频率与该其他汉字在该词语中的使用频次的乘积，计算该待学习汉字在每个词中的构词权重；

针对每个待学习汉字，根据该待学习汉字在每个词中的构词权重和每个词对应的词向量，计算该待学习汉字的字向量。

在一些实施例中，针对每个待学习汉字，根据该待学习汉字在每个词中的构词权重和每个词对应的词向量，计算该待学习汉字的字向量，包括：

针对每个待学习汉字，计算所有包含该待学习汉字的词语所对应的加权词向量之和作为该待学习汉字的字向量；所述加权词向量是该待学习汉字在每个词中的构词权重与该词语对应的词向量的乘积。

在一些实施例中，在所述将中文词语库中的词进行拆分，得到待学习汉字，并将所述待学习汉字存入汉字库之前，还包括：

获取预训练词向量模型；

解析所述预训练词向量模型，得到词和对应的词向量，并将所述词和对应的词向量存入中文词语库。

第二方面，本申请提供了一种中文字向量学习装置，该装置包括：

拆分模块，用于将中文词语库中的词进行拆分，得到待学习汉字，并将所述待学习汉字存入汉字库；

统计模块，用于根据所述中文词语库和汉字库，统计每个待学习汉字在所述中文词语库中的构词数，以及每个待学习汉字在每个词中的使用频次；

计算模块，用于针对每个待学习汉字，根据该待学习汉字对应的构词数，计算该待学习汉字对应的反词语频率；

学习模块，用于根据所述每个待学习汉字在每个词中的使用频次、每个待学习汉字的反词语频率和每个词对应的词向量进行加权计算，得到每个待学习汉字的字向量。

在一些实施例中，所述学习模块，包括：

权重单元，用于针对每个待学习汉字，根据该待学习汉字的反词语频率与每个词中该待学习汉字的使用频次的乘积，和每个词中除该待学习汉字外每个其他汉字的反词语频率与该其他汉字在该词语中的使用频次的乘积，计算该待学习汉字在每个词中的构词权重；

学习单元，用于针对每个待学习汉字，根据该待学习汉字在每个词中的构词权重和每个词对应的词向量，计算该待学习汉字的字向量。

在一些实施例中，所述学习单元，包括：

加权计算子单元，用于针对每个待学习汉字，计算所有包含该待学习汉字的词语所对应的加权词向量之和作为该待学习汉字的字向量；所述加权词向量是该待学习汉字在每个词中的构词权重与该词语对应的词向量的乘积。

在一些实施例中，该装置还包括：

获取模块，用于获取预训练词向量模型；

解析模块，用于解析所述预训练词向量模型，得到词和对应的词向量，并将所述词和对应的词向量存入中文词语库。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面中任一项所述的方法的步骤。

本申请实施例提出的一种中文字向量学习方法，通过对中文词语库中的词进行拆分，得到待学习汉字，统计每个待学习汉字在中文词语库中的构词数和在每个词中的使用频次，并计算每个待学习汉字的反词语频率，最后通过使用频次和反词语频率进行加权计算以得到每个待学习汉字的字向量。本申请实施例所提出的一种中文字向量学习方法，实现了将词向量转化为字向量，通过字向量进行文本表示，提高了中文语义表示的准确度。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种中文字向量学习方法的流程示意图；

图2为本申请实施例提供的一种中文字向量加权计算方法的流程示意图；

图3为本申请实施例提供的一种中文字向量学习装置的结构示意图；

图4为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种中文字向量学习方法，如图1所示，包括以下步骤：

步骤S101、将中文词语库中的词进行拆分，得到待学习汉字，并将上述待学习汉字存入汉字库；

步骤S102、根据上述中文词语库和汉字库，统计每个待学习汉字在上述中文词语库中的构词数，以及每个待学习汉字在每个词中的使用频次；

步骤S103、针对每个待学习汉字，根据该待学习汉字对应的构词数，计算该待学习汉字对应的反词语频率；

步骤S104、根据上述每个待学习汉字在每个词中的使用频次、每个待学习汉字的反词语频率和每个词对应的词向量进行加权计算，得到每个待学习汉字的字向量。

具体地，本申请是基于预训练好的中文词向量模型进行的中文字向量学习，因此需要先将中文词向量模型中的词拆分成单独的待学习汉字，并对拆分出来的汉字进行去重处理，再存入汉字库，例如：中文词语库中的词是{明略，明天，明白，大明朝，明明白白}，那么进行拆分后得到的汉字库就是{明，略，天，白，大，朝}。

然后，需要统计汉字库中每个待学习汉字在中文词语库中的构词数WF（WordFrequency），也就是每个待学习汉字参与了多少个词的构词，继续以中文词语库为{明略，明天，明白，大明朝，明明白白}，汉字库为{明，略，天，白，大，朝}为例，WF(明)=5，WF(略)=1，WF(天)=1，WF(白)=2，WF(大)=1，WF(朝)=1。还需要统计每个待学习汉字在每个词中的使用频次TF（Term Frequency），也就是每个待学习汉字在每个词中出现的次数，例如，TF（明略，明）=1，TF（明明白白，明）=2。

本申请实施例中所用到的字向量的加权算法中的权重用到了反词语频率IWF（Inverse Word Frequency），也就是构词数的倒数，并做了归一化。以中文词语库为{明略，明天，明白，大明朝，明明白白}，汉字库为{明，略，天，白，大，朝}为例，IWF(明)=0.2，IWF(略)=1，IWF(天)=1，IWF(白)=0.5，IWF(大)=1，IWF(朝)=1。

最后根据每个待学习汉字在每个词中的使用频次和每个待学习汉字的反词语频率，基于每个词对应的词向量通过预设的字向量加权算法计算每个待学习汉字的字向量。

在一些实施例中，上述步骤S104、根据上述每个待学习汉字在每个词中的使用频次、每个待学习汉字的反词语频率和每个词对应的词向量进行加权计算，得到每个待学习汉字的字向量，如图2所示，包括：

步骤S201、针对每个待学习汉字，根据该待学习汉字的反词语频率与每个词中该待学习汉字的使用频次的乘积，和每个词中除该待学习汉字外每个其他汉字的反词语频率与该其他汉字在该词语中的使用频次的乘积，计算该待学习汉字在每个词中的构词权重；

步骤S202、针对每个待学习汉字，根据该待学习汉字在每个词中的构词权重和每个词对应的词向量，计算该待学习汉字的字向量。

具体地，在本申请实施例所使用的加权算法中是以待学习汉字的反词语频率与每个词中该待学习汉字的使用频次的乘积，与每个词中除该待学习汉字外每个其他汉字的反词语频率与该其他汉字在该词语中的使用频次的乘积之比，作为该待学习汉字在每个词中的构词权重，具体公式为：

其中，W_i表示中文词语库中的词，f(W_i)表示词W_i中的待学习汉字集合，c_j表示构成词W_i的待学习汉字。

根据各待学习汉字在每个词中的构词权重对词向量进行加权，以计算该待学习汉字的字向量。

在一些实施例中，步骤S202、针对每个待学习汉字，根据该待学习汉字在每个词中的构词权重和每个词对应的词向量，计算该待学习汉字的字向量，包括：

步骤2021、针对每个待学习汉字，计算所有包含该待学习汉字的词语所对应的加权词向量之和作为该待学习汉字的字向量；上述加权词向量是该待学习汉字在每个词中的构词权重与该词语对应的词向量的乘积。

具体地，通过将以每个待学习汉字在每个词中的构词权重进行加权后的词向量进行求和，以得到该待学习汉字的字向量，加权算法公式如下：

其中，V_C(H)表示待学习汉字H的字向量，g(H)表示待学习汉字H参与构造的词的集合，V_W(W_i)表示词W_i对应的词向量。

在一些实施例中，在上述步骤S101、将中文词语库中的词进行拆分，得到待学习汉字，并将上述待学习汉字存入汉字库之前，还包括：

步骤105、获取预训练词向量模型；

步骤106、解析上述预训练词向量模型，得到词和对应的词向量，并将上述词和对应的词向量存入中文词语库。

具体地，中文词语库是通过解析获取到的预训练词向量模型得到的，预训练词向量模型可以是Word2vec、Glove、ELMo、GPT、BERT等。

通过解析预训练词向量模型，可以得到词和其对应的词向量，按照<词，词向量>的形式进行存储，构成中文词语库。

本申请实施例还提供了一种中文字向量学习装置，如图3所示，该装置包括：

拆分模块30，用于将中文词语库中的词进行拆分，得到待学习汉字，并将上述待学习汉字存入汉字库；

统计模块31，用于根据上述中文词语库和汉字库，统计每个待学习汉字在上述中文词语库中的构词数，以及每个待学习汉字在每个词中的使用频次；

计算模块32，用于针对每个待学习汉字，根据该待学习汉字对应的构词数，计算该待学习汉字对应的反词语频率；

学习模块33，用于根据上述每个待学习汉字在每个词中的使用频次、每个待学习汉字的反词语频率和每个词对应的词向量进行加权计算，得到每个待学习汉字的字向量。

在一些实施例中，上述学习模块33，包括：

权重单元331，用于针对每个待学习汉字，根据该待学习汉字的反词语频率与每个词中该待学习汉字的使用频次的乘积，和每个词中除该待学习汉字外每个其他汉字的反词语频率与该其他汉字在该词语中的使用频次的乘积，计算该待学习汉字在每个词中的构词权重；

学习单元332，用于针对每个待学习汉字，根据该待学习汉字在每个词中的构词权重和每个词对应的词向量，计算该待学习汉字的字向量。

在一些实施例中，上述学习单元332，包括：

加权计算子单元3321，用于针对每个待学习汉字，计算所有包含该待学习汉字的词语所对应的加权词向量之和作为该待学习汉字的字向量；上述加权词向量是该待学习汉字在每个词中的构词权重与该词语对应的词向量的乘积。

在一些实施例中，该装置还包括：

获取模块34，用于获取预训练词向量模型；

解析模块35，用于解析上述预训练词向量模型，得到词和对应的词向量，并将上述词和对应的词向量存入中文词语库。

对应于图1中的一种中文字向量学习方法，本申请实施例还提供了一种计算机设备400，如图4所示，该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序，其中，上述处理器402执行上述计算机程序时实现上述一种中文字向量学习方法。

具体地，上述存储器401和处理器402能够为通用的存储器和处理器，这里不做具体限定，当处理器402运行存储器401存储的计算机程序时，能够执行上述一种中文字向量学习方法，解决了现有技术中如何提高中文语义表示的准确度的问题。

对应于图1中的一种中文字向量学习方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述一种中文字向量学习方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述一种中文字向量学习方法，解决了现有技术中如何提高中文语义表示的准确度的问题，本申请实施例提出的一种中文字向量学习方法，通过对中文词语库中的词进行拆分，得到待学习汉字，统计每个待学习汉字在中文词语库中的构词数和在每个词中的使用频次，并计算每个待学习汉字的反词语频率，最后通过使用频次和反词语频率进行加权计算以得到每个待学习汉字的字向量。本申请实施例所提出的一种中文字向量学习方法，实现了将词向量转化为字向量，通过字向量进行文本表示，提高了中文语义表示的准确度。

在本申请所提供的实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种中文字向量学习方法，其特征在于，包括：

针对每个待学习汉字，根据该待学习汉字对应的构词数，计算该待学习汉字对应的反词语频率；该待学习汉字对应的反词语频率是该待学习汉字对应的构词数的倒数；

2.如权利要求1所述的方法，其特征在于，所述根据所述每个待学习汉字在每个词中的使用频次、每个待学习汉字的反词语频率和每个词对应的词向量进行加权计算，得到每个待学习汉字的字向量，包括：

3.如权利要求2所述的方法，其特征在于，针对每个待学习汉字，根据该待学习汉字在每个词中的构词权重和每个词对应的词向量，计算该待学习汉字的字向量，包括：

4.如权利要求1所述的方法，其特征在于，在所述将中文词语库中的词进行拆分，得到待学习汉字，并将所述待学习汉字存入汉字库之前，还包括：

获取预训练词向量模型；

5.一种中文字向量学习装置，其特征在于，包括：

计算模块，用于针对每个待学习汉字，根据该待学习汉字对应的构词数，计算该待学习汉字对应的反词语频率；该待学习汉字对应的反词语频率是该待学习汉字对应的构词数的倒数；

6.如权利要求5所述的装置，其特征在于，所述学习模块，包括：

7.如权利要求6所述的装置，其特征在于，所述学习单元，包括：

8.如权利要求5所述的装置，其特征在于，该装置还包括：

获取模块，用于获取预训练词向量模型；

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1-4中任一项所述的方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1-4中任一项所述的方法的步骤。