CN111144105B - 词句的处理方法、装置及计算机存储介质 - Google Patents
词句的处理方法、装置及计算机存储介质 Download PDFInfo
- Publication number
- CN111144105B CN111144105B CN201911305129.2A CN201911305129A CN111144105B CN 111144105 B CN111144105 B CN 111144105B CN 201911305129 A CN201911305129 A CN 201911305129A CN 111144105 B CN111144105 B CN 111144105B
- Authority
- CN
- China
- Prior art keywords
- processed
- stroke
- word
- strokes
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开一种词句的处理方法、装置以及计算机存储介质,该处理方法包括:获取待处理词句的待处理笔画序列,将待处理笔画序列输入已训练的语言模型;利用语言模型以每条当前的待处理笔画的前向待处理笔画和/或后向待处理笔画作为上下文信息生成当前的待处理笔画的表示向量;根据待处理笔画的表示向量确定每一字的表示向量。通过上述方式,本发明依据字的待处理笔画的表示向量进而得到字的表示向量,从而可以利用字的内部的语义信息确定字的表现信息。
Description
技术领域
本发明涉及词句处理领域,特别是涉及一种词句的处理方法、装置及计算机存储介质。
背景技术
近年来,相关语言模型的研究工作主要是基于字、词的语义进行语言模型的训练,在各种自然语言处理任务中取得了非常好的效果,并且目前已经存在很多的词向量模型,但是较多的词向量模型都是基于西方语言,像英语,西班牙语,德语等,这些西方语言的内部组成都是拉丁字母,然而,由于中文书写和西方语言完全不同,中文词语包含很少的中文字符,但是中文字符内部包含了很强的语义信息。
因此,如何有效利用中文字符内部的语义信息来获取中文字符的表现信息已经成为热点。
发明内容
本发明提供一种词句的处理方法、装置及计算机存储介质,以解决现有技术需要通过中文字符内部的语义信息获取中文字符的词义的问题。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种词句的处理方法,所述处理方法包括:获取待处理词句的待处理笔画序列,其中所述待处理笔画序列用于表征所述待处理词句按书写顺序排列的多条待处理笔画,所述待处理词句包括多个字,所述字包括至少一条所述待处理笔画;将所述待处理笔画序列输入已训练的语言模型;利用所述语言模型以每条当前的所述待处理笔画的前向待处理笔画和/或后向待处理笔画作为上下文信息生成当前的所述待处理笔画的表示向量;根据所述待处理笔画的表示向量确定每一所述字的表示向量。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种词句的处理装置,所述一种词句的处理装置包括处理器和存储器;所述存储器中存储有计算机程序,所述处理器用于执行所述计算机程序以实现如上述中任一项所述方法的步骤。
为解决上述技术问题,本发明采用的另一个技术方案是提供一种计算机存储介质,其中存储有计算机程序,计算机程序被执行时实现上述词句的处理方法的步骤。
区别于现有技术,本发明通过将待处理笔画序列输入已训练的语言模型,并利用语言模型以每条待处理笔画的前向待处理笔画和/或后向待处理笔画作为上下文信息生成每条待处理笔画的表示向量。从而使得每条待处理笔画都可以根据前后的待处理笔画进行向量表示,进而保证每个待处理笔画可以进行动态表示,可以与前后的待处理笔画进行关联,使得每个待处理笔画信息量表示的更为精确,从而更适合后续的数据分析。进一步的,根据同一字的待处理笔画的表示向量确定该字的表示向量,进而利用字本身具备的内部组成信息,从而可以利用字的内部的语义信息确定字的表现信息,且考虑到字之间的笔画顺序信息,可以更加细粒度角度得到字的表示向量。且本发明在对待处理笔画处理时候仅仅基于待处理笔画,而没有包括任何字本身的信息,可以更好的捕抓笔画之间的层次信息。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明词句的处理方法第一实施例的流程示意图;
图2是图1步骤S11的子步骤流程示意图;
图3是图2步骤S112的子步骤流程示意图;
图4是本发明词句的处理方法第二实施例的流程示意图;
图5是本发明词句的处理装置第一实施例的结构示意图;
图6是本发明词句的处理装置第二实施例的结构示意图;
图7是本发明计算机存储介质一实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
具体请参阅图1,图1是本发明词句的处理方法第一实施例的流程示意图,本实施例词句的处理方法包括以下步骤。
S11,获取待处理词句的待处理笔画序列。
获取待处理词句的待处理笔画序列,待处理词句一般包括有多个字,例如“中国人”,依次包括有“中”、“国”以及“人”三个字。每个字均包括有至少一条所述待处理笔画,例如“中”包括有按照书写顺序的“丨”、“フ”、“一”以及“丨”四条待处理笔画。
其中,待处理笔画序列则用于表征待处理词句按书写顺序排列的多条待处理笔画。具体地待处理笔画序列包括有多条待处理笔画的信息。
请参阅图2,图2是图1步骤S11的子步骤流程示意图,具体步骤包括:
S111,将待处理词句按照书写顺序拆分为多条待处理笔画。
将待处理词句按照书写顺序拆分为多条待处理笔画,例如对于待处理词句“中国人”而言,按书写顺序排列的多条待处理笔画可以拆分为“丨”、“フ”、“一”、“丨”、“丨”、“フ”、“一”、“一”、“丨”、“一”、“丶”、“一”、“ノ”以及“丶”共十四条。
S112,给待处理笔画赋予初始向量。
给待处理笔画赋予初始向量,从而使得每条待处理笔画均可以在维度空间可以通过向量进行表示。
请参阅图3,图3是图2步骤S112的子步骤流程示意图,具体步骤包括:
S1121,从预先设置的映射字典获取笔画的映射ID。
首先,从预先设置的映射字典获取笔画的映射ID,具体地,映射字典可以是基于笔画预设设定的映射规则,对于每条笔画基于映射规则都有个对应的映射ID,例如映射字典中,“丨”对应的映射ID可以是0,“フ”对应的映射ID可以是1,“一”对应的映射ID可以是2,“丶”对应的映射ID可以是3,“ノ”对应的映射ID可以是4。相应的,在映射字典中,其他笔画也有对应的映射ID。例如“乛”可以是5等等。
在具体实施例中,待处理词句的多条待处理笔画均可以获取到相应的映射ID,具体地以上述映射字典为例,待处理词句“中国人”的多条待处理笔画的映射ID为[0,1,2,1,0,1,2,2,1,2,3,2,4,3]。
S1122,将待处理笔画的映射ID输入预设维度向量空间中,得到待处理笔画的初始向量。
可以预设一个预设维度向量空间,具体地,该预设维度向量空间具体可以与所有笔画的数量或者种类有关,如果笔画的种类为n种,则可以预设一个n*m维的预设维度向量空间。因此,对于每种笔画而言,在n*m维的预设维度向量空间均会有对应的初始向量进行表示。因此,将每条待处理笔画的映射ID输入预设维度向量空间中,均可以得到该待处理笔画的初始向量。在具体实施例中,m表示为点位向量所表示的维度。具体地可以为任意数值,如50、128、256等等。在本实施例中,采用m为300。
S113,将多条待处理笔画的初始向量按照书写顺序进行排列,以作为待处理笔画序列。
在获取到条待处理笔画的初始向量后,则将多条待处理笔画的初始向量依然按照书写顺序进行排列,并作为待处理笔画序列。
S12,将待处理笔画序列输入已训练的语言模型。
将待处理笔画序列输入已训练的语言模型,具体地,已训练的语言模型可以是已经经过大量数据进行训练的深度算法模型。
S13,利用语言模型以每条当前的待处理笔画的前向待处理笔画和/或后向待处理笔画作为上下文信息生成当前的待处理笔画的表示向量。
利用语言模型以每条当前的待处理笔画的前向待处理笔画和/或后向待处理笔画作为上下文信息生成当前的待处理笔画的表示向量。即对于每条当前的待处理笔画而言,其依据该待处理笔画的前向待处理笔画与后向待处理笔画的上下文信息得到该待处理笔画的表示向量。从而保证每条待处理笔画的表示向量是动态的,不仅仅具备本身的释义,还进一步结合前向和/或后向的待处理笔画确定本身的释义。
S14,根据待处理笔画的表示向量确定每一字的表示向量。
在确定待处理词句中每条待处理笔画的表示向量后,可以进一步根据待处理笔画的表示向量确定待处理词句中每个字的表示向量。
在具体实施例中,可以利用同一字的首个待处理笔画的表示向量与结尾待处理笔画的表示向量进行相加处理得到字的表示向量。
例如,对于将待处理词句“中国人”,依次包括有“中”、“国”以及“人”三个字。以“国”字为例,“国”字的首个待处理笔画为“丨”,“国”字的结尾待处理笔画为“一”。因此,“国”的表示向量具体可以通过待处理笔画“丨”的表示向量与待处理笔画“一”的表示向量相加得到。
具体地,上述方式可以适用于笔画数量较少的字。
在另一实施例中,可以利用同一字的全部待处理笔画的表示向量进行相加处理得到字的表示向量。
在具体实施例中,还可以利用一字的全部待处理笔画的表示向量确定字的表示向量。例如,对于将待处理词句“中国人”,依次包括有“中”、“国”以及“人”三个字。以“中”字为例,“中”字的全部待处理笔画包括“丨”、“フ”、“一”以及“丨”。因此,“中”字表示向量具体可以通过待处理笔画“丨”、“フ”、“一”以及“丨”的表示向量相加得到。
具体地,上述方式可以适用于笔画数量较多的字。
上述实施例中,通过将待处理笔画序列输入已训练的语言模型,并利用语言模型以每条待处理笔画的前向待处理笔画和/或后向待处理笔画作为上下文信息生成每条待处理笔画的表示向量。从而使得每条待处理笔画都可以根据前后的待处理笔画进行向量表示,进而保证每个待处理笔画可以进行动态表示,可以与前后的待处理笔画进行关联,使得每个待处理笔画信息量表示的更为精确,从而更适合后续的数据分析。进一步的,根据同一字的待处理笔画的表示向量确定该字的表示向量,进而利用字本身具备的内部组成信息,从而可以利用字的内部的语义信息确定字的表现信息,且考虑到字之间的笔画顺序信息,可以更加细粒度角度得到字的表示向量。且本发明在对待处理笔画处理时候仅仅基于待处理笔画,而没有包括任何字本身的信息,可以更好的捕抓笔画之间的层次信息。
具体请参阅图4,图4是本发明词句的处理方法第二实施例的流程示意图,本实施例词句的处理方法包括以下步骤。
S21,获取多个待训练笔画序列。
获取多个待训练笔画序列,每一待训练笔画序列与待训练词句对应,待训练笔画序列用于表征待训练词句按书写顺序排列的多条待训练笔画。
具体地,获取待训练笔画序列的具体步骤与上述实施例中待处理笔画序列的获取方式相同,这里不再赘述。
S22,将多个待训练笔画序列为训练数据输入所述语言模型,以对语言模型进行训练。
随后将多个待训练笔画序列输入语言模型,具体地,这里的多个待训练笔画序列应该是大量的待训练笔画序列,从而可以对语言模型进行更好的训练;以便于得到的语言模型更精确。
在具体实施例中,语言模型具体可以是基于上下文相关的语言模型,如可以采用LSTM(Long Short-Term Memory,长短期记忆网络)模型或GRU(Gated Recurrent Uni,一般可以认为LSTM变体)模型等常用的语言模型,还可以是RNN(Recurrent Neural Network,循环神经网络)模型。在具体实施例中,也可以采用其常用的语言模型,这里不做限定。
上述词句的处理方法一般由词句的处理装置实现,因而本发明还提出一种词句的处理装置。请参阅图5,图5是本发明词句的处理装置一实施例的结构示意图。本实施例词句的处理装置300包括有获取模块31、输入模块32、利用模块33以及处理模块34。
其中,获取模块31用于获取待处理词句的待处理笔画序列,待处理笔画序列包括待处理词句按书写顺序排列的多条待处理笔画,待处理词句包括多个字,字包括至少一条待处理笔画;输入模块32用于将待处理笔画序列输入已训练的语言模型;利用模块33用于利用语言模型以每条待处理笔画前向的待处理笔画和/或后向的待处理笔画作为上下文信息生成待处理笔画的表示向量;处理模块34用于根据待处理笔画的表示向量确定每一字的表示向量。
上述词句的处理方法一般由词句的处理装置实现,因而本发明还提出一种词句的处理装置。请参阅图6,图6是本发明词句的处理装置一实施例的结构示意图。本实施例词句的处理装置100包括处理器12和存储器11;存储器11中存储有计算机程序,处理器12用于执行计算机程序以实现如上述词句的处理方法的步骤。
上述词句的处理方法的逻辑过程以计算机程序呈现,在计算机程序方面,若其作为独立的软件产品销售或使用时,其可存储在计算机存储介质中,因而本发明提出一种计算机存储介质。请参阅图7,图7是本发明计算机存储介质一实施例的结构示意图,本实施例计算机存储介质200中存储有计算机程序21,计算机程序被处理器执行时实现上述配网方法或控制方法。
该计算机存储介质200具体可以为U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory,)、磁碟或者光盘等可以存储计算机程序的介质,或者也可以为存储有该计算机程序的服务器,该服务器可将存储的计算机程序发送给其他设备运行,或者也可以自运行该存储的计算机程序。该计算机存储介质200从物理实体上来看,可以为多个实体的组合,例如多个服务器、服务器加存储器、或存储器加移动硬盘等多种组合方式。
综上所述,本发明提供一种词句的处理方法、装置及计算机存储介质。通过将待处理笔画序列输入已训练的语言模型,并利用语言模型以每条待处理笔画的前向待处理笔画和/或后向待处理笔画作为上下文信息生成每条待处理笔画的表示向量。从而使得每条待处理笔画都可以根据前后的待处理笔画进行向量表示,进而保证每个待处理笔画可以进行动态表示,可以与前后的待处理笔画进行关联,使得每个待处理笔画信息量表示的更为精确,从而更适合后续的数据分析。进一步的,根据同一字的待处理笔画的表示向量确定该字的表示向量,进而利用字本身具备的内部组成信息,从而可以利用字的内部的语义信息确定字的表现信息,且考虑到字之间的笔画顺序信息,可以更加细粒度角度得到字的表示向量。且本发明在对待处理笔画处理时候仅仅基于待处理笔画,而没有包括任何字本身的信息,可以更好的捕抓笔画之间的层次信息。
以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种词句的处理方法,其特征在于,所述处理方法包括:
获取待处理词句的待处理笔画序列,其中所述待处理笔画序列用于表征所述待处理词句按书写顺序排列的多条待处理笔画,所述待处理词句包括多个字,所述字包括至少一条所述待处理笔画;
将所述待处理笔画序列输入已训练的语言模型;
利用所述语言模型以每条当前的所述待处理笔画的前向待处理笔画和/或后向待处理笔画作为上下文信息生成当前的所述待处理笔画的表示向量;
根据所述待处理笔画的表示向量确定每一所述字的表示向量。
2.根据权利要求1所述的处理方法,其特征在于,所述获取待处理词句的待处理笔画序列的子步骤包括:
将所述待处理词句按照书写顺序拆分为所述多条待处理笔画;
给所述待处理笔画赋予初始向量,其中相同的待处理笔画具有相同的初始向量;
将多条待处理笔画的初始向量按照书写顺序进行排列,以作为所述待处理笔画序列。
3.根据权利要求2所述的处理方法,其特征在于,所述给所述待处理笔画赋予初始向量的子步骤包括:
待处理笔画待处理笔画从预先设置的映射字典获取所述待处理笔画的映射ID;
将所述待处理笔画的映射ID输入预设维度向量空间中,得到所述待处理笔画的初始向量。
4.根据权利要求1所述的处理方法,其特征在于,所述根据所述待处理笔画的表示向量确定每一所述字的表示向量的子步骤包括:
利用同一所述字的首个待处理笔画的表示向量与结尾待处理笔画的表示向量进行相加处理得到所述字的表示向量。
5.根据权利要求1所述的处理方法,其特征在于,所述根据所述待处理笔画的表示向量确定每一所述字的表示向量的子步骤包括:
利用同一所述字的全部待处理笔画的表示向量进行相加处理得到所述字的表示向量。
6.根据权利要求1所述的处理方法,其特征在于,所述获取待处理词句的待处理笔画序列的步骤之前,进一步包括:
获取多个待训练笔画序列,每一所述待训练笔画序列与待训练词句对应,所述待训练笔画序列用于表征所述待训练词句按书写顺序排列的多条待训练笔画;
将所述多个待训练笔画序列为训练数据输入所述语言模型,以对所述语言模型进行训练。
7.根据权利要求1所述的处理方法,其特征在于,所述语言模型为LSTM模型或GRU模型。
8.一种词句的处理装置,其特征在于,所述词句的处理装置包括:
获取模块,用于获取待处理词句的待处理笔画序列,所述待处理笔画序列包括所述待处理词句按书写顺序排列的多条待处理笔画,所述待处理词句包括多个字,所述字包括至少一条所述待处理笔画;
输入模块,用于将所述待处理笔画序列输入已训练的语言模型;
利用模块,用于利用所述语言模型以每条所述待处理笔画前向的待处理笔画和/或后向的待处理笔画作为上下文信息生成所述待处理笔画的表示向量;
处理模块,用于根据所述待处理笔画的表示向量确定每一所述字的表示向量。
9.一种词句的处理装置,其特征在于,所述词句的处理装置包括处理器和存储器;所述存储器中存储有计算机程序,所述处理器用于执行所述计算机程序以实现如权利要求1-7中任一项所述方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序被执行时实现如权利要求1-7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911305129.2A CN111144105B (zh) | 2019-12-17 | 2019-12-17 | 词句的处理方法、装置及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911305129.2A CN111144105B (zh) | 2019-12-17 | 2019-12-17 | 词句的处理方法、装置及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111144105A CN111144105A (zh) | 2020-05-12 |
CN111144105B true CN111144105B (zh) | 2023-03-14 |
Family
ID=70518627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911305129.2A Active CN111144105B (zh) | 2019-12-17 | 2019-12-17 | 词句的处理方法、装置及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111144105B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4658248A (en) * | 1984-11-01 | 1987-04-14 | Microtel Limited | Method for generating stroke-vector characters for use in a display system |
CN107832458A (zh) * | 2017-11-27 | 2018-03-23 | 中山大学 | 一种字符级的基于嵌套深度网络的文本分类方法 |
CN109948156A (zh) * | 2019-03-13 | 2019-06-28 | 青海师范大学 | 一种融合构件和字信息的藏文词向量表示方法 |
CN110334196A (zh) * | 2019-06-28 | 2019-10-15 | 同济大学 | 基于笔画和自注意力机制的神经网络中文问题生成系统 |
CN110377914A (zh) * | 2019-07-25 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 字符识别方法、装置及存储介质 |
-
2019
- 2019-12-17 CN CN201911305129.2A patent/CN111144105B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4658248A (en) * | 1984-11-01 | 1987-04-14 | Microtel Limited | Method for generating stroke-vector characters for use in a display system |
CN107832458A (zh) * | 2017-11-27 | 2018-03-23 | 中山大学 | 一种字符级的基于嵌套深度网络的文本分类方法 |
CN109948156A (zh) * | 2019-03-13 | 2019-06-28 | 青海师范大学 | 一种融合构件和字信息的藏文词向量表示方法 |
CN110334196A (zh) * | 2019-06-28 | 2019-10-15 | 同济大学 | 基于笔画和自注意力机制的神经网络中文问题生成系统 |
CN110377914A (zh) * | 2019-07-25 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 字符识别方法、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
基于深度学习的中文词表示学习技术研究;庄航;《中国优秀博士学位论文电子期刊》;全文 * |
基于笔画中文字向量模型设计与研究;赵浩新等;《中文信息学报》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111144105A (zh) | 2020-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162627B (zh) | 数据增量方法、装置、计算机设备及存储介质 | |
CN109871532B (zh) | 文本主题提取方法、装置及存储介质 | |
CN111914568B (zh) | 文本修辞句的生成方法、装置、设备及可读存储介质 | |
US11004448B2 (en) | Method and device for recognizing text segmentation position | |
CN107193807B (zh) | 基于人工智能的语言转换处理方法、装置及终端 | |
US11295092B2 (en) | Automatic post-editing model for neural machine translation | |
CN109871534B (zh) | 中英混合语料的生成方法、装置、设备及存储介质 | |
CN111401033A (zh) | 事件抽取方法、事件抽取装置和电子设备 | |
CN108304387B (zh) | 文本中噪音词的识别方法、装置、服务器组及存储介质 | |
CN110597971B (zh) | 基于神经网络的自动问答装置、方法及可读存储介质 | |
CN114547274B (zh) | 多轮问答的方法、装置及设备 | |
CN111859940B (zh) | 一种关键词提取方法、装置、电子设备及存储介质 | |
CN111984845B (zh) | 网站错别字识别方法和系统 | |
CN114757176A (zh) | 一种获取目标意图识别模型的方法以及意图识别方法 | |
GB2575580A (en) | Supporting interactive text mining process with natural language dialog | |
US20200356556A1 (en) | Assertion-based question answering | |
CN115186080A (zh) | 一种智能问答数据处理方法、系统、计算机设备及介质 | |
CN114861673A (zh) | 一种语义分析方法、装置及设备 | |
CN112749639B (zh) | 模型训练方法、装置、计算机设备和存储介质 | |
Yang et al. | Spell Checking for Chinese. | |
CN111144105B (zh) | 词句的处理方法、装置及计算机存储介质 | |
CN110347807B (zh) | 问题信息处理方法及装置 | |
CN111814433B (zh) | 一种维吾尔语实体识别的方法、装置和电子设备 | |
CN111708872B (zh) | 对话方法、装置及电子设备 | |
CN114416987A (zh) | 基于人工智能的文本分类方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |