CN111144105B

CN111144105B - 词句的处理方法、装置及计算机存储介质

Info

Publication number: CN111144105B
Application number: CN201911305129.2A
Authority: CN
Inventors: 刘伟棠; 张�浩; 戴泽林; 李保敏; 何林强
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2023-03-14
Anticipated expiration: 2039-12-17
Also published as: CN111144105A

Abstract

本发明公开一种词句的处理方法、装置以及计算机存储介质，该处理方法包括：获取待处理词句的待处理笔画序列，将待处理笔画序列输入已训练的语言模型；利用语言模型以每条当前的待处理笔画的前向待处理笔画和/或后向待处理笔画作为上下文信息生成当前的待处理笔画的表示向量；根据待处理笔画的表示向量确定每一字的表示向量。通过上述方式，本发明依据字的待处理笔画的表示向量进而得到字的表示向量，从而可以利用字的内部的语义信息确定字的表现信息。

Description

词句的处理方法、装置及计算机存储介质

技术领域

本发明涉及词句处理领域，特别是涉及一种词句的处理方法、装置及计算机存储介质。

背景技术

近年来，相关语言模型的研究工作主要是基于字、词的语义进行语言模型的训练，在各种自然语言处理任务中取得了非常好的效果，并且目前已经存在很多的词向量模型，但是较多的词向量模型都是基于西方语言，像英语，西班牙语，德语等，这些西方语言的内部组成都是拉丁字母，然而，由于中文书写和西方语言完全不同，中文词语包含很少的中文字符，但是中文字符内部包含了很强的语义信息。

因此，如何有效利用中文字符内部的语义信息来获取中文字符的表现信息已经成为热点。

发明内容

本发明提供一种词句的处理方法、装置及计算机存储介质，以解决现有技术需要通过中文字符内部的语义信息获取中文字符的词义的问题。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种词句的处理方法，所述处理方法包括：获取待处理词句的待处理笔画序列，其中所述待处理笔画序列用于表征所述待处理词句按书写顺序排列的多条待处理笔画，所述待处理词句包括多个字，所述字包括至少一条所述待处理笔画；将所述待处理笔画序列输入已训练的语言模型；利用所述语言模型以每条当前的所述待处理笔画的前向待处理笔画和/或后向待处理笔画作为上下文信息生成当前的所述待处理笔画的表示向量；根据所述待处理笔画的表示向量确定每一所述字的表示向量。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种词句的处理装置，所述一种词句的处理装置包括处理器和存储器；所述存储器中存储有计算机程序，所述处理器用于执行所述计算机程序以实现如上述中任一项所述方法的步骤。

为解决上述技术问题，本发明采用的另一个技术方案是提供一种计算机存储介质，其中存储有计算机程序，计算机程序被执行时实现上述词句的处理方法的步骤。

区别于现有技术，本发明通过将待处理笔画序列输入已训练的语言模型，并利用语言模型以每条待处理笔画的前向待处理笔画和/或后向待处理笔画作为上下文信息生成每条待处理笔画的表示向量。从而使得每条待处理笔画都可以根据前后的待处理笔画进行向量表示，进而保证每个待处理笔画可以进行动态表示，可以与前后的待处理笔画进行关联，使得每个待处理笔画信息量表示的更为精确，从而更适合后续的数据分析。进一步的，根据同一字的待处理笔画的表示向量确定该字的表示向量，进而利用字本身具备的内部组成信息，从而可以利用字的内部的语义信息确定字的表现信息，且考虑到字之间的笔画顺序信息，可以更加细粒度角度得到字的表示向量。且本发明在对待处理笔画处理时候仅仅基于待处理笔画，而没有包括任何字本身的信息，可以更好的捕抓笔画之间的层次信息。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明词句的处理方法第一实施例的流程示意图；

图2是图1步骤S11的子步骤流程示意图；

图3是图2步骤S112的子步骤流程示意图；

图4是本发明词句的处理方法第二实施例的流程示意图；

图5是本发明词句的处理装置第一实施例的结构示意图；

图6是本发明词句的处理装置第二实施例的结构示意图；

图7是本发明计算机存储介质一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

具体请参阅图1，图1是本发明词句的处理方法第一实施例的流程示意图，本实施例词句的处理方法包括以下步骤。

S11，获取待处理词句的待处理笔画序列。

获取待处理词句的待处理笔画序列，待处理词句一般包括有多个字，例如“中国人”，依次包括有“中”、“国”以及“人”三个字。每个字均包括有至少一条所述待处理笔画，例如“中”包括有按照书写顺序的“丨”、“フ”、“一”以及“丨”四条待处理笔画。

其中，待处理笔画序列则用于表征待处理词句按书写顺序排列的多条待处理笔画。具体地待处理笔画序列包括有多条待处理笔画的信息。

请参阅图2，图2是图1步骤S11的子步骤流程示意图，具体步骤包括：

S111，将待处理词句按照书写顺序拆分为多条待处理笔画。

将待处理词句按照书写顺序拆分为多条待处理笔画，例如对于待处理词句“中国人”而言，按书写顺序排列的多条待处理笔画可以拆分为“丨”、“フ”、“一”、“丨”、“丨”、“フ”、“一”、“一”、“丨”、“一”、“丶”、“一”、“ノ”以及“丶”共十四条。

S112，给待处理笔画赋予初始向量。

给待处理笔画赋予初始向量，从而使得每条待处理笔画均可以在维度空间可以通过向量进行表示。

请参阅图3，图3是图2步骤S112的子步骤流程示意图，具体步骤包括：

S1121，从预先设置的映射字典获取笔画的映射ID。

首先，从预先设置的映射字典获取笔画的映射ID，具体地，映射字典可以是基于笔画预设设定的映射规则，对于每条笔画基于映射规则都有个对应的映射ID，例如映射字典中，“丨”对应的映射ID可以是0，“フ”对应的映射ID可以是1，“一”对应的映射ID可以是2，“丶”对应的映射ID可以是3，“ノ”对应的映射ID可以是4。相应的，在映射字典中，其他笔画也有对应的映射ID。例如“乛”可以是5等等。

在具体实施例中，待处理词句的多条待处理笔画均可以获取到相应的映射ID，具体地以上述映射字典为例，待处理词句“中国人”的多条待处理笔画的映射ID为[0，1，2，1，0，1，2，2，1，2，3，2，4，3]。

S1122，将待处理笔画的映射ID输入预设维度向量空间中，得到待处理笔画的初始向量。

可以预设一个预设维度向量空间，具体地，该预设维度向量空间具体可以与所有笔画的数量或者种类有关，如果笔画的种类为n种，则可以预设一个n*m维的预设维度向量空间。因此，对于每种笔画而言，在n*m维的预设维度向量空间均会有对应的初始向量进行表示。因此，将每条待处理笔画的映射ID输入预设维度向量空间中，均可以得到该待处理笔画的初始向量。在具体实施例中，m表示为点位向量所表示的维度。具体地可以为任意数值，如50、128、256等等。在本实施例中，采用m为300。

S113，将多条待处理笔画的初始向量按照书写顺序进行排列，以作为待处理笔画序列。

在获取到条待处理笔画的初始向量后，则将多条待处理笔画的初始向量依然按照书写顺序进行排列，并作为待处理笔画序列。

S12，将待处理笔画序列输入已训练的语言模型。

将待处理笔画序列输入已训练的语言模型，具体地，已训练的语言模型可以是已经经过大量数据进行训练的深度算法模型。

S13，利用语言模型以每条当前的待处理笔画的前向待处理笔画和/或后向待处理笔画作为上下文信息生成当前的待处理笔画的表示向量。

利用语言模型以每条当前的待处理笔画的前向待处理笔画和/或后向待处理笔画作为上下文信息生成当前的待处理笔画的表示向量。即对于每条当前的待处理笔画而言，其依据该待处理笔画的前向待处理笔画与后向待处理笔画的上下文信息得到该待处理笔画的表示向量。从而保证每条待处理笔画的表示向量是动态的，不仅仅具备本身的释义，还进一步结合前向和/或后向的待处理笔画确定本身的释义。

S14，根据待处理笔画的表示向量确定每一字的表示向量。

在确定待处理词句中每条待处理笔画的表示向量后，可以进一步根据待处理笔画的表示向量确定待处理词句中每个字的表示向量。

在具体实施例中，可以利用同一字的首个待处理笔画的表示向量与结尾待处理笔画的表示向量进行相加处理得到字的表示向量。

例如，对于将待处理词句“中国人”，依次包括有“中”、“国”以及“人”三个字。以“国”字为例，“国”字的首个待处理笔画为“丨”，“国”字的结尾待处理笔画为“一”。因此，“国”的表示向量具体可以通过待处理笔画“丨”的表示向量与待处理笔画“一”的表示向量相加得到。

具体地，上述方式可以适用于笔画数量较少的字。

在另一实施例中，可以利用同一字的全部待处理笔画的表示向量进行相加处理得到字的表示向量。

在具体实施例中，还可以利用一字的全部待处理笔画的表示向量确定字的表示向量。例如，对于将待处理词句“中国人”，依次包括有“中”、“国”以及“人”三个字。以“中”字为例，“中”字的全部待处理笔画包括“丨”、“フ”、“一”以及“丨”。因此，“中”字表示向量具体可以通过待处理笔画“丨”、“フ”、“一”以及“丨”的表示向量相加得到。

具体地，上述方式可以适用于笔画数量较多的字。

上述实施例中，通过将待处理笔画序列输入已训练的语言模型，并利用语言模型以每条待处理笔画的前向待处理笔画和/或后向待处理笔画作为上下文信息生成每条待处理笔画的表示向量。从而使得每条待处理笔画都可以根据前后的待处理笔画进行向量表示，进而保证每个待处理笔画可以进行动态表示，可以与前后的待处理笔画进行关联，使得每个待处理笔画信息量表示的更为精确，从而更适合后续的数据分析。进一步的，根据同一字的待处理笔画的表示向量确定该字的表示向量，进而利用字本身具备的内部组成信息，从而可以利用字的内部的语义信息确定字的表现信息，且考虑到字之间的笔画顺序信息，可以更加细粒度角度得到字的表示向量。且本发明在对待处理笔画处理时候仅仅基于待处理笔画，而没有包括任何字本身的信息，可以更好的捕抓笔画之间的层次信息。

具体请参阅图4，图4是本发明词句的处理方法第二实施例的流程示意图，本实施例词句的处理方法包括以下步骤。

S21，获取多个待训练笔画序列。

获取多个待训练笔画序列，每一待训练笔画序列与待训练词句对应，待训练笔画序列用于表征待训练词句按书写顺序排列的多条待训练笔画。

具体地，获取待训练笔画序列的具体步骤与上述实施例中待处理笔画序列的获取方式相同，这里不再赘述。

S22，将多个待训练笔画序列为训练数据输入所述语言模型，以对语言模型进行训练。

随后将多个待训练笔画序列输入语言模型，具体地，这里的多个待训练笔画序列应该是大量的待训练笔画序列，从而可以对语言模型进行更好的训练；以便于得到的语言模型更精确。

在具体实施例中，语言模型具体可以是基于上下文相关的语言模型，如可以采用LSTM(Long Short-Term Memory，长短期记忆网络)模型或GRU(Gated Recurrent Uni，一般可以认为LSTM变体)模型等常用的语言模型，还可以是RNN(Recurrent Neural Network，循环神经网络)模型。在具体实施例中，也可以采用其常用的语言模型，这里不做限定。

上述词句的处理方法一般由词句的处理装置实现，因而本发明还提出一种词句的处理装置。请参阅图5，图5是本发明词句的处理装置一实施例的结构示意图。本实施例词句的处理装置300包括有获取模块31、输入模块32、利用模块33以及处理模块34。

其中，获取模块31用于获取待处理词句的待处理笔画序列，待处理笔画序列包括待处理词句按书写顺序排列的多条待处理笔画，待处理词句包括多个字，字包括至少一条待处理笔画；输入模块32用于将待处理笔画序列输入已训练的语言模型；利用模块33用于利用语言模型以每条待处理笔画前向的待处理笔画和/或后向的待处理笔画作为上下文信息生成待处理笔画的表示向量；处理模块34用于根据待处理笔画的表示向量确定每一字的表示向量。

上述词句的处理方法一般由词句的处理装置实现，因而本发明还提出一种词句的处理装置。请参阅图6，图6是本发明词句的处理装置一实施例的结构示意图。本实施例词句的处理装置100包括处理器12和存储器11；存储器11中存储有计算机程序，处理器12用于执行计算机程序以实现如上述词句的处理方法的步骤。

上述词句的处理方法的逻辑过程以计算机程序呈现，在计算机程序方面，若其作为独立的软件产品销售或使用时，其可存储在计算机存储介质中，因而本发明提出一种计算机存储介质。请参阅图7，图7是本发明计算机存储介质一实施例的结构示意图，本实施例计算机存储介质200中存储有计算机程序21，计算机程序被处理器执行时实现上述配网方法或控制方法。

该计算机存储介质200具体可以为U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory，)、磁碟或者光盘等可以存储计算机程序的介质，或者也可以为存储有该计算机程序的服务器，该服务器可将存储的计算机程序发送给其他设备运行，或者也可以自运行该存储的计算机程序。该计算机存储介质200从物理实体上来看，可以为多个实体的组合，例如多个服务器、服务器加存储器、或存储器加移动硬盘等多种组合方式。

综上所述，本发明提供一种词句的处理方法、装置及计算机存储介质。通过将待处理笔画序列输入已训练的语言模型，并利用语言模型以每条待处理笔画的前向待处理笔画和/或后向待处理笔画作为上下文信息生成每条待处理笔画的表示向量。从而使得每条待处理笔画都可以根据前后的待处理笔画进行向量表示，进而保证每个待处理笔画可以进行动态表示，可以与前后的待处理笔画进行关联，使得每个待处理笔画信息量表示的更为精确，从而更适合后续的数据分析。进一步的，根据同一字的待处理笔画的表示向量确定该字的表示向量，进而利用字本身具备的内部组成信息，从而可以利用字的内部的语义信息确定字的表现信息，且考虑到字之间的笔画顺序信息，可以更加细粒度角度得到字的表示向量。且本发明在对待处理笔画处理时候仅仅基于待处理笔画，而没有包括任何字本身的信息，可以更好的捕抓笔画之间的层次信息。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种词句的处理方法，其特征在于，所述处理方法包括：

获取待处理词句的待处理笔画序列，其中所述待处理笔画序列用于表征所述待处理词句按书写顺序排列的多条待处理笔画，所述待处理词句包括多个字，所述字包括至少一条所述待处理笔画；

将所述待处理笔画序列输入已训练的语言模型；

利用所述语言模型以每条当前的所述待处理笔画的前向待处理笔画和/或后向待处理笔画作为上下文信息生成当前的所述待处理笔画的表示向量；

根据所述待处理笔画的表示向量确定每一所述字的表示向量。

2.根据权利要求1所述的处理方法，其特征在于，所述获取待处理词句的待处理笔画序列的子步骤包括：

将所述待处理词句按照书写顺序拆分为所述多条待处理笔画；

给所述待处理笔画赋予初始向量，其中相同的待处理笔画具有相同的初始向量；

将多条待处理笔画的初始向量按照书写顺序进行排列，以作为所述待处理笔画序列。

3.根据权利要求2所述的处理方法，其特征在于，所述给所述待处理笔画赋予初始向量的子步骤包括：

待处理笔画待处理笔画从预先设置的映射字典获取所述待处理笔画的映射ID；

将所述待处理笔画的映射ID输入预设维度向量空间中，得到所述待处理笔画的初始向量。

4.根据权利要求1所述的处理方法，其特征在于，所述根据所述待处理笔画的表示向量确定每一所述字的表示向量的子步骤包括：

利用同一所述字的首个待处理笔画的表示向量与结尾待处理笔画的表示向量进行相加处理得到所述字的表示向量。

5.根据权利要求1所述的处理方法，其特征在于，所述根据所述待处理笔画的表示向量确定每一所述字的表示向量的子步骤包括：

利用同一所述字的全部待处理笔画的表示向量进行相加处理得到所述字的表示向量。

6.根据权利要求1所述的处理方法，其特征在于，所述获取待处理词句的待处理笔画序列的步骤之前，进一步包括：

获取多个待训练笔画序列，每一所述待训练笔画序列与待训练词句对应，所述待训练笔画序列用于表征所述待训练词句按书写顺序排列的多条待训练笔画；

将所述多个待训练笔画序列为训练数据输入所述语言模型，以对所述语言模型进行训练。

7.根据权利要求1所述的处理方法，其特征在于，所述语言模型为LSTM模型或GRU模型。

8.一种词句的处理装置，其特征在于，所述词句的处理装置包括：

获取模块，用于获取待处理词句的待处理笔画序列，所述待处理笔画序列包括所述待处理词句按书写顺序排列的多条待处理笔画，所述待处理词句包括多个字，所述字包括至少一条所述待处理笔画；

输入模块，用于将所述待处理笔画序列输入已训练的语言模型；

利用模块，用于利用所述语言模型以每条所述待处理笔画前向的待处理笔画和/或后向的待处理笔画作为上下文信息生成所述待处理笔画的表示向量；

处理模块，用于根据所述待处理笔画的表示向量确定每一所述字的表示向量。

9.一种词句的处理装置，其特征在于，所述词句的处理装置包括处理器和存储器；所述存储器中存储有计算机程序，所述处理器用于执行所述计算机程序以实现如权利要求1-7中任一项所述方法的步骤。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序被执行时实现如权利要求1-7中任一项所述方法的步骤。