CN111274793B - 一种文本处理方法、装置以及计算设备 - Google Patents

一种文本处理方法、装置以及计算设备 Download PDF

Info

Publication number
CN111274793B
CN111274793B CN201811375414.7A CN201811375414A CN111274793B CN 111274793 B CN111274793 B CN 111274793B CN 201811375414 A CN201811375414 A CN 201811375414A CN 111274793 B CN111274793 B CN 111274793B
Authority
CN
China
Prior art keywords
word
stroke
vector
chinese
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811375414.7A
Other languages
English (en)
Other versions
CN111274793A (zh
Inventor
包祖贻
徐光伟
李辰
刘恒友
李林琳
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811375414.7A priority Critical patent/CN111274793B/zh
Publication of CN111274793A publication Critical patent/CN111274793A/zh
Application granted granted Critical
Publication of CN111274793B publication Critical patent/CN111274793B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种文本处理方法、装置以及计算设备。方法包括:基于词语中单字的笔画信息,生成笔画向量矩阵,所述单字为表意文字,所述笔画为单字的最小连笔单位;将笔画向量矩阵输入到第一神经网络中进行处理,得到词语的词向量;获取词语序列中各词语的词向量,并输入到第二神经网络中进行处理,得到该词语序列的隐藏层表示,所述隐藏层表示用于表征所述词语序列的下一个词语的分布概率。

Description

一种文本处理方法、装置以及计算设备
技术领域
本发明涉及自然语言处理领域,具体涉及一种文本处理方法、装置以及计算设备。
背景技术
复杂的机器学习语言模型,特别是基于神经网络的语言模型都有庞大的模型参数,这使得模型对于存储、运行的环境都有了更高的要求;而其中很大的一部分参数都占用在模型的词向量表示上,模型的词表可高达20万词以上,每个词向量的维度少则上百维。于此同时,虽然有非常大的词表,但是这个词表一般是模型训练时就固定的,而现实中每天都有新的词语被发明出来,这些不在词表中的词(称为表外词或未登录词)对于固定词表的模型来说处理起来非常困难。
例如,在电商搜索场景下,为了吸引用户的注意,不少商家使用的商品名都是一些新词汇,比如“超甜蕉”、“上海青”、“奶青”等,这些词都不是固定词表能够很好覆盖的。而且庞大的词表使得模型参数无法控制,对于线上资源的要求也大大提高。
现有的一些模型压缩技术大都是对于模型本身进行通用的有损或无损压缩,而并不是从模型的设计上入手,所以压缩效率有限。
例如,对于通用的模型压缩算法,一种方法简单来说是剔除模型中不是很重要的参数,这种方法很容易对模型的性能造成损失;另一种是使用小模型对大模型进行学习的方法,得到参数较少的小模型,这种方法一方面可能会损失性能,另一方面会增加模型的训练成本。
对于未登录词的问题,一种方法是将所有低频词都统一用一个符号表示,模型会学习一个统一的表示来代表所有低频词,这种方法将所有低频词一起处理,不可避免地损失每个词本身特定的含义,使得系统性能下降;另一种方法是定期对系统词表进行更新,但是语言模型本身训练成本比较高,训练时间长,定期更新的开销比较大。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文本处理方法、装置以及计算设备。
根据本发明的一个方面,提供了一种文本处理方法,包括:
基于词语中单字的笔画信息,生成笔画向量矩阵,所述单字为表意文字,所述笔画为单字的最小连笔单位;
将笔画向量矩阵输入到第一神经网络中进行处理,得到词语的词向量;
获取词语序列中各词语的词向量,并输入到第二神经网络中进行处理,得到该词语序列的隐藏层表示,所述隐藏层表示用于表征所述词语序列的下一个词语的分布概率。
可选地,在根据本发明的文本处理方法中,所述词语包括中文词、日文词和韩文词中的至少一个。
可选地,在根据本发明的文本处理方法中,所述词语为中文词,所述单字为汉字,相应地,基于中文词中汉字的笔画信息,生成笔画向量矩阵,包括:对中文词包括的各汉字进行笔画分解;分别将各汉字的各笔画转换为笔画向量,并将各笔画向量拼接为笔画向量矩阵。
可选地,在根据本发明的文本处理方法中,所述分别将各汉字的各笔画转换为笔画向量,包括:将汉字的各笔画组合成n-gram集合;对于每个笔画,从n-gram集合中获取该笔画对应的j-gram元素,其中,j=1,2,…,n;分别将笔画的各j-gram元素映射为第一向量,并将各第一向量拼接为该笔画对应的笔画向量。
可选地,在根据本发明的文本处理方法中,所述分别将笔画的各j-gram元素映射为笔画向量,包括:对于每个j-gram元素,通过预设的映射矩阵将该j-gram元素映射为第一向量。
可选地,根据本发明的文本处理方法,还包括:获取目标词表中各中文词的词向量;基于获取的词向量以及所述隐藏层表示,确定所述目标词表中各中文词为所述下一个中文词的概率值。
可选地,在根据本发明的文本处理方法中,所述基于获取的词向量以及所述隐藏层表示,确定所述目标词表中各中文词为所述下一个中文词的概率值,包括:对于每个词向量,将该词向量与隐藏层表示进行点积,得到二者的相似度值;对相似度值进行softmax函数处理,得到该词向量所表示的中文词对应的概率值。
可选地,在根据本发明的文本处理方法中,所述中文词序列为待纠错词的上文,所述目标词表为待纠错词对应的候选词构成的集合。
可选地,根据本发明的文本处理方法,还包括:输出预定数目个概率值最大的候选词,作为纠错词。
可选地,根据本发明的文本处理方法,还包括:获取第一中文词序列对应的第一隐藏层表示和第二中文词序列对应的第二隐藏层表示;基于第一隐藏层表示和第二隐藏层表示,确定第一中文词序列和第二中文词序列的文本相似度。
可选地,在根据本发明的文本处理方法中,所述基于第一隐藏层表示和第二隐藏层表示,确定第一中文词序列和第二中文词序列的文本相似度,包括:对第一隐藏层表示和第二隐藏层表示进行点积,并对点积结果进行sigmoid函数处理,得到文本相似度概率值。
可选地,在根据本发明的文本处理方法中,所述第一神经网络包括卷积神经网络。
可选地,在根据本发明的文本处理方法中,所述第二神经网络包括循环神经网络。
根据本发明的一个方面,提供了一种文本处理装置,包括:
笔画向量生成模块,适于基于词语中单字的笔画信息,生成笔画向量矩阵,所述单字为表意文字,所述笔画为单字的最小连笔单位;
第一神经网络处理模块,适于将笔画向量矩阵输入到第一神经网络中进行处理,得到词语的词向量;
第二神经网络处理模块,适于获取词语序列中各词语的词向量,并输入到第二神经网络中进行处理,得到该词语序列的隐藏层表示,所述隐藏层表示用于表征所述词语序列的下一个词语的分布概率。
根据本发明的一个方面,提供了一种计算设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据上述的方法中的任一方法的指令。
根据本发明的文本处理方案,利用表意文字本身的特点,使用笔画信息来表示单字,并进一步表示词语,使得模型在词向量层的参数大大减少。另外,使用笔画来表示单字,使得语言模型可以在不更新参数的条件下,处理各种输入以及输出的未登录词,并能够更好地建模词语本身的含义,使得模型性能提升,同时也更适合在实际场景中使用。。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的语言模型100的示意图;
图2示出了根据本发明一个实施例的计算设备200的示意图;
图3示出了根据本发明一个实施例的文本处理方法300的流程图;
图4示出了利用本发明实施例的语言模型进行查询纠错的方法400的示意图;
图5示出了利用本发明实施例的语言模型进行文本相似度计算的方法500的示意图;
图6示出了根据本发明一个实施例的文本处理装置600的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
语言模型是一种机器学习模型,用于建模一段连续序列的概率分布。利用语言模型,可以确定哪个词序列的可能性更大,或者,给定若干个词,可以预测下一个最可能出现的词语。
语言模型在实际应用场景中有广泛的应用,例如查询纠错、文本相似度计算、语音识别、翻译、对话等。而训练时间长、开销大、模型参数庞大、对于表外词(Out OfVocabulary,OOV)处理能力不足等,都是语言模型主要面对的难题。一般情况下,语言模型都使用一个固定大小的词表,词表中存储有各种词语的向量化表示,这样的结构使得模型对于表外词的表达能力会大大下降;这些出现频率比较低的词语,往往是一些带有特定意义的实体名词,本身带有其特殊的意义,对于实际应用往往是有意义的。为了尽可能地让模型保留这些词语,就需要扩大词表,这又会使得模型变得更加庞大,训练速度也会受到影响。
为此,本发明实施例提出对词语内部的结构进行建模的方法,来更好地处理OOV问题;进一步,还可以将词向量层与softmax参数绑定,也能够减少模型参数。具体而言,本发明实施例结合表意文字本身的组成特点和表意特点,利用笔画信息对单字进行表示,并进一步进行词意的表示,使得模型大小大大压缩,同时能更好地处理OOV,有更强的泛化能力。
本发明实施例提供一种文本处理方法,包括如下步骤:
1)基于词语中单字的笔画信息,生成笔画向量矩阵;
本发明的文本处理方法适于对表意文字进行处理,表意文字例如为中文、日文、韩文等。为便于表述,将表意文字中单字的最小连笔单位称为笔画。
2)将笔画向量矩阵输入到第一神经网络中进行处理,得到词语的词向量;
3)获取词语序列中各词语的词向量,并输入到第二神经网络中进行处理,得到该词语序列的隐藏层表示,所述隐藏层表示用于表征所述词语序列的下一个词语的分布概率。
以下以中文为例对本发明进行描述。
图1示出了根据本发明一个实施例的语言模型100的示意图。参照图1,语言模型100包括:词向量层110、第二神经网络层120和输出层130,词向量层110包括笔画处理层110和第一神经网络层120。
词向量层110适于接收中文词的输入,将输入的中文词转换为词向量。与现有技术通过训练一个包括大量词语的词表,并根据词表来将中文词映射为词向量的方案不同,本发明利用汉字的笔画信息来生成词向量。具体地,由笔画处理层110对中文词包括的各汉字进行笔画分解,分别将各汉字的各笔画转换为笔画向量,并将各笔画向量拼接为笔画向量矩阵,然后,由第一神经网络层120将笔画向量矩阵输入到第一神经网络中进行处理,生成中文词对应的词向量。
第二神经网络层120适于接收中文词序列中各中文词的词向量,并将各词向量输入到第二神经网络中进行处理,得到该中文词序列的隐藏层表示,由该隐藏层表示来表征中文词序列的下一个中文词的分布概率。
输出层130可以将隐藏层表示转换为一个概率值向量,向量的每个元素对应于一个中文词的概率值,向量的所有元素的概率值之和为1。输出层130可以利用例如softmax函数来将隐藏层表示处理为概率值向量。
本发明的语言模型的处理方法可以在计算设备中执行。图2示出了根据本发明一个实施例的计算设备200的结构图。如图2所示,在基本的配置202中,计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。
取决于期望的配置,处理器204可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用,或者在一些实现中,存储器控制器218可以是处理器204的一个内部部分。
取决于期望的配置,系统存储器206可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统220、一个或者多个应用222以及程序数据224。应用222实际上是多条程序指令,其用于指示处理器204执行相应的操作。在一些实施方式中,应用222可以布置为在操作系统上使得处理器204利用程序数据224进行操作。
计算设备200还可以包括有助于从各种接口设备(例如,输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256,它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260,其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
在根据本发明的计算设备200中,应用222包括文本处理装置600,装置600包括多条程序指令,这些程序指令可以指示处理器104执行文本处理方法300。
图3示出了根据本发明一个实施例的文本处理方法300的流程图。方法300适于在计算设备(例如前述计算设备200)中执行。如图3所示,方法300始于步骤S310,在步骤S310中,首先对中文词包括的各汉字进行笔画分解,然后分别将各汉字的各笔画转换为笔画向量,最后将各笔画向量拼接为笔画向量矩阵。
具体过程如下:
1)将中文词按字分解为笔画,笔画种类例如基本的点、横、竖、撇、捺、提等,也可以使用复杂的横钩、横折等。例如,对于汉字“汉”,笔画分解结果如表1第2栏所示。
Figure BDA0001870606740000081
Figure BDA0001870606740000091
表1输入汉字笔画分解、n-gram集合示例
2)为了更好地表示笔画的组合信息,将分解的笔画组合成n-gram集合,n-gram集合包括n个序列,分别为1-gram序列、2-gram序列、…、n-gram序列。n-gram集合的示例数据如表1第3栏所示。n的取值可根据实际场景决定,例如n=3。
3)对于一个汉字的每个笔画,从n-gram集合中获取该笔画对应的j-gram元素,其中,j=1,2,…,n。这里,某个笔画对应的j-gram元素为j-gram序列中的第i个元素,i为该笔画在汉字的笔画分解结果中的顺序号。
以表1为例,对于第一个笔画“点”,对应的1-gram元素、2-gram元素、3-gram元素分别为:点、点点、点点提;
对于第二个笔画“点”,对应的1-gram元素、2-gram元素、3-gram元素分别为:点、点提、点提横;
4)分别将笔画的各j-gram元素映射为第一向量,向量维度可以根据实际场景决定,比如64,然后,将各第一向量拼接为该笔画对应的笔画向量。具体地,将多个第一向量按照j=1,2,…,n的顺序,首尾拼接为笔画向量。
其中,对于每个j-gram元素,通过预设的映射矩阵将该j-gram元素映射为第一向量,即从映射矩阵中查找该j-gram元素对应的列作为第一向量。所述映射矩阵是一个ds*C维的矩阵,ds表示第一向量的大小,C表示所有笔画种类对应的n-gram表示的数目(包括1-gram、2-gram、…、n-gram)。比如,笔画种类有6种,则其3-gram表示的总数量为6*6*6=216种。这样,拼接得到的第一向量的维度为n*ds,即每个笔画对应一个维度为n*ds的向量。并且,该映射矩阵可以通过对语言模型的训练得到,即该映射矩阵本身就是语言模型的参数。
5)将中文词的各汉字的各笔画向量拼接为笔画向量矩阵。笔画向量矩阵是一个(n*ds)*o维的矩阵,o代表中文词包括的汉字的笔画数之和。比如对于“汉字”这个中文词,“汉”包括5个笔画,“字”包括6个笔画,则o=5+6=11。具体地,是将中文词的第一汉字的第一个笔画对应的第一向量作为矩阵的第一列,第一汉字的第二个笔画对应的第一向量作为矩阵的第二列,以此类推。
在步骤S320中,将笔画向量矩阵输入到第一神经网络中进行处理,得到中文词的词向量。其中,可以利用各种类型的神经网络来将矩阵转换为向量。
以卷积神经网络为例,为了将笔画信息组合为词级别的信息,可以使用一组不同窗口大小的卷积核的卷积神经网络,来对笔画向量矩阵进行卷积操作,得到每个词各个笔画位置的一组卷积结果。然后,对每个词的各个位置的卷积结果,在位置维度上做最大值池化,得到词的向量表示。
假设卷积核宽度为k,该宽度卷积核数量为f,该宽度的卷积核矩阵则为一个维度为[f,n*ds,k]的三维矩阵F。与词笔画向量矩阵卷积,H=Vw X F,其中X为卷积运算,H为卷积结果矩阵,为一个f行,o列的矩阵,经过最大池化得到一个f维的列向量。
关于该卷积神经网络的具体结构及参数,本领域技术人员可以根据需要自行设定。
在步骤S330中,对于中文词序列中的每个中文词,获取该中文词对应的词向量(即按照上述步骤S310和步骤S320处理得到的词向量),并将获取到的各词向量(例如按照中文词中各汉字的顺序)输入到第二神经网络中进行处理,得到该中文词序列的隐藏层表示,所述隐藏层表示用于表征所述中文词序列的下一个中文词的分布概率。
同样,可以利用各种类型的神经网络来对词序列对应的多个词向量进行处理,以输出中文词序列的隐藏层表示。例如,可以采用循环神经网络来进行处理。关于循环神经网络的具体结构及参数,本领域技术人员可以根据需要自行设定。
在利用第二神经网络得到中文词序列的隐藏层表示之后,还可以进一步将该隐藏层表示转换为一个概率值向量,向量的每个元素对应于一个中文词的概率值,向量的所有元素的概率值之和为1。可以利用例如softmax函数来将隐藏层表示处理为概率值向量。
在利用本发明实施例的语言模型进行文本处理之前,需要先对该语言模型进行训练。训练过程与与现有的神经网络语言模型相似,区别在于如何将词语转换为词向量表示,具体训练过程可参考现有技术。
本发明实施例的语言模型可以应用于自然语言处理中的纠错、句子相似度计算的应用场景。以下分别介绍。
图4示出了利用本发明实施例的语言模型进行查询纠错的方法400的示意图。参照图4,方法400包括如下步骤:
1)将中文词序列和候选词表输入到词向量层110。
这里,中文词序列为待纠错词的上文,候选词表为待纠错词对应的候选词构成的集合。例如:“买番茄味数片”,待纠错词为“数片”,中文词序列为“买|番茄味|”,候选词表例如“数篇,薯片,数片,…”。候选词表可以按照各种方式产生,例如查表的方式,或者采用查询纠错领域的其他现有方式,本发明对此不做限制。
2)词向量层110中的笔画处理层112将中文词序列和候选词表中的各个中文词按照汉字进行笔画分解,将各汉字的各笔画转换为笔画向量,并将各笔画向量拼接为笔画向量矩阵。
3)词向量层100中的第一神经网络层114(例如卷积神经网络)将笔画向量矩阵转换为中文词对应的词向量,这样,中文词序列和候选词表中的每个词都转换为了词向量表示。
4)第二神经网络层120(例如循环神经网络)依次处理中文词序列的词向量表示,得到隐藏层表示。
5)输出层130将中文词序列的隐藏层表示与3)中得到的各个候选词的词向量相乘(点积),得到二者的相似度值,并对相似度值进行softmax函数处理,得到该词向量所表示的候选词对应的概率值。
6)输出预定数目个概率值最大的候选词,作为纠错词。
图5示出了利用本发明实施例的语言模型进行文本相似度计算的方法500的示意图。参照图5,方法500包括如下步骤:
1)将第一中文词序列和第二中文词序列输入到词向量层110。
2)词向量层110中的笔画处理层112将第一中文词序列和第二中文词序列中的各个中文词按照汉字进行笔画分解,将各汉字的各笔画转换为笔画向量,并将各笔画向量拼接为笔画向量矩阵。
3)词向量层100中的第一神经网络层114(例如卷积神经网络)将笔画向量矩阵转换为中文词对应的词向量,这样,第一中文词序列和第二中文词序列转换为了词向量表示。
4)第二神经网络层120(例如循环神经网络)依次处理第一中文词序列的词向量表示,得到第一隐藏层表示;依次处理第二中文词序列的词向量表示,得到第二隐藏层表示。
5)输出层130将第一隐藏层表示和第二隐藏层表示进行点积,并对点积结果进行sigmoid函数处理,得到第一中文词序列和第二中文词序列的文本相似度概率。
图6示出了根据本发明一个实施例的文本处理装置600的示意图。装置600驻留于计算设备(例如前述计算设备200)中,以使计算设备执行本发明的语言模型的处理方法(例如前述方法300)。如图6所示,装置5600包括:
笔画向量生成模块610,适于基于中文词中汉字的笔画信息,生成笔画向量矩阵;
第一神经网络处理模块620,适于将笔画向量矩阵输入到第一神经网络中进行处理,得到中文词的词向量;
第二神经网络处理模块630,适于获取中文词序列中各中文词的词向量,并输入到第二神经网络中进行处理,得到该中文词序列的隐藏层表示,所述隐藏层表示用于表征所述中文词序列的下一个中文词的分布概率。
综上所述,本发明实施例针对汉字的特点,对语言模型本身进行改进,使得语言模型在不损失性能的情况下,参数大小大大下降。同时也可以更好地处理输入以及输出OOV的问题,对于新词,甚至不需要更新模型,使得模型的泛化能力大大提升。
具体分析如下:
1)减少模型参数:
现有技术中,通常使用固定词表进行词向量表示,而实际词表是非常大的,比如超过20万,有大量长尾词。而本方案使用笔画生成词表示,笔画数量很有限,比如6种,其3-gram表示也不过6*6*6=216种,远小于词汇数量。
2)新词
现有技术中,通常使用固定词表进行词向量表示,对于新词则在固定词表中会找不到对应的表示,需要重新学习。而本方案使用笔画生成词表示,对于新词也会根据其构成生成表示,不需要重新学习。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

Claims (13)

1.一种文本处理方法,包括:
基于词语中单字的笔画信息,生成笔画向量矩阵,所述单字为表意文字,所述笔画为单字的最小连笔单位;
将笔画向量矩阵输入到第一神经网络中进行处理,得到词语的词向量;
获取词语序列中各词语的词向量,并输入到第二神经网络中进行处理,得到该词语序列的隐藏层表示,所述隐藏层表示用于表征所述词语序列的下一个词语的分布概率,
其中,所述单字为汉字,相应地,基于词语中汉字的笔画信息,生成笔画向量矩阵,包括:
对词语中包括的各汉字进行笔画分解;
分别将各汉字的各笔画转换为笔画向量,并将各笔画向量拼接为笔画向量矩阵其中,
其中,所述分别将各汉字的各笔画转换为笔画向量,包括:
将汉字的各笔画组合成n-gram集合;
对于每个笔画,从n-gram集合中获取该笔画对应的j-gram元素,其中,j=1,2,…,n;
分别将笔画的各j-gram元素映射为第一向量,并将各第一向量拼接为该笔画对应的笔画向量。
2.如权利要求1所述处理方法,所述词语包括中文词、日文词和韩文词中的至少一个。
3.如权利要求1所述的处理方法,其中,所述分别将笔画的各j-gram元素映射为笔画向量,包括:
对于每个j-gram元素,通过预设的映射矩阵将该j-gram元素映射为第一向量。
4.如权利要求2所述的处理方法,还包括:
获取目标词表中各中文词的词向量;
基于获取的词向量以及所述隐藏层表示,确定所述目标词表中各中文词为所述下一个中文词的概率值。
5.如权利要求4所述的处理方法,其中,所述基于获取的词向量以及所述隐藏层表示,确定所述目标词表中各中文词为所述下一个中文词的概率值,包括:
对于每个词向量,将该词向量与隐藏层表示进行点积,得到二者的相似度值;
对相似度值进行softmax函数处理,得到该词向量所表示的中文词对应的概率值。
6.如权利要求4所述的处理方法,其中,所述中文词序列为待纠错词的上文,所述目标词表为待纠错词对应的候选词构成的集合。
7.如权利要求6所述的处理方法,还包括:输出预定数目个概率值最大的候选词,作为纠错词。
8.如权利要求2所述的处理方法,还包括:
获取第一中文词序列对应的第一隐藏层表示和第二中文词序列对应的第二隐藏层表示;
基于第一隐藏层表示和第二隐藏层表示,确定第一中文词序列和第二中文词序列的文本相似度。
9.如权利要求8所述的处理方法,其中,所述基于第一隐藏层表示和第二隐藏层表示,确定第一中文词序列和第二中文词序列的文本相似度,包括:
对第一隐藏层表示和第二隐藏层表示进行点积,并对点积结果进行sigmoid函数处理,得到文本相似度概率值。
10.如权利要求1所述的处理方法,其中,所述第一神经网络包括卷积神经网络。
11.如权利要求1所述的处理方法,其中,所述第二神经网络包括循环神经网络。
12.一种文本处理装置,包括:
笔画向量生成模块,适于基于词语中单字的笔画信息,生成笔画向量矩阵,所述单字为表意文字,所述笔画为单字的最小连笔单位;
第一神经网络处理模块,适于将笔画向量矩阵输入到第一神经网络中进行处理,得到词语的词向量;
第二神经网络处理模块,适于获取词语序列中各词语的词向量,并输入到第二神经网络中进行处理,得到该词语序列的隐藏层表示,所述隐藏层表示用于表征所述词语序列的下一个词语的分布概率,
其中,所述单字为汉字,所述笔画向量生成模块包括:
对词语中包括的各汉字进行笔画分解;
将汉字的各笔画组合成n-gram集合;
对于每个笔画,从n-gram集合中获取该笔画对应的j-gram元素,其中,j=1,2,…,n;
分别将笔画的各j-gram元素映射为第一向量,并将各第一向量拼接为该笔画对应的笔画向量,并将各笔画向量拼接为笔画向量矩阵。
13.一种计算设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-11所述的方法中的任一方法的指令。
CN201811375414.7A 2018-11-19 2018-11-19 一种文本处理方法、装置以及计算设备 Active CN111274793B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811375414.7A CN111274793B (zh) 2018-11-19 2018-11-19 一种文本处理方法、装置以及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811375414.7A CN111274793B (zh) 2018-11-19 2018-11-19 一种文本处理方法、装置以及计算设备

Publications (2)

Publication Number Publication Date
CN111274793A CN111274793A (zh) 2020-06-12
CN111274793B true CN111274793B (zh) 2023-04-28

Family

ID=71002856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811375414.7A Active CN111274793B (zh) 2018-11-19 2018-11-19 一种文本处理方法、装置以及计算设备

Country Status (1)

Country Link
CN (1) CN111274793B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950272B (zh) * 2020-06-23 2023-06-27 北京百度网讯科技有限公司 文本相似度的生成方法、装置及电子设备
CN117648681B (zh) * 2024-01-30 2024-04-05 北京点聚信息技术有限公司 一种ofd版式电子文档隐藏信息提取嵌入方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168952A (zh) * 2017-05-15 2017-09-15 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
CN107423269A (zh) * 2017-05-26 2017-12-01 阿里巴巴集团控股有限公司 词向量处理方法及装置
CN108345580A (zh) * 2017-01-22 2018-07-31 阿里巴巴集团控股有限公司 一种词向量处理方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10019438B2 (en) * 2016-03-18 2018-07-10 International Business Machines Corporation External word embedding neural network language models
JP6842167B2 (ja) * 2017-05-08 2021-03-17 国立研究開発法人情報通信研究機構 要約生成装置、要約生成方法及びコンピュータプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345580A (zh) * 2017-01-22 2018-07-31 阿里巴巴集团控股有限公司 一种词向量处理方法及装置
CN107168952A (zh) * 2017-05-15 2017-09-15 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
CN107423269A (zh) * 2017-05-26 2017-12-01 阿里巴巴集团控股有限公司 词向量处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡浩 ; 李平 ; 陈凯琪 ; .基于汉字固有属性的中文字向量方法研究.中文信息学报.2017,(03),全文. *

Also Published As

Publication number Publication date
CN111274793A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN110765966B (zh) 一种面向手写文字的一阶段自动识别与翻译方法
KR102565275B1 (ko) 병렬 처리에 기초한 번역 방법 및 장치
CN107836000B (zh) 用于语言建模和预测的改进的人工神经网络方法、电子设备
CN109887484B (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN107273356B (zh) 基于人工智能的分词方法、装置、服务器和存储介质
CN112487182A (zh) 文本处理模型的训练方法、文本处理方法及装置
CN111105029B (zh) 神经网络的生成方法、生成装置和电子设备
WO2023160472A1 (zh) 一种模型训练方法及相关设备
CN112257858A (zh) 一种模型压缩方法及装置
US11347995B2 (en) Neural architecture search with weight sharing
CN110222330B (zh) 语义识别方法及装置、存储介质、计算机设备
CN107330379B (zh) 一种蒙古语手写识别方法和装置
CN107273357B (zh) 基于人工智能的分词模型的修正方法、装置、设备和介质
CN107273352B (zh) 一种基于Zolu函数的词嵌入学习模型及训练方法
US10963647B2 (en) Predicting probability of occurrence of a string using sequence of vectors
CN107291692B (zh) 基于人工智能的分词模型的定制方法、装置、设备和介质
KR101729461B1 (ko) 자연 언어 처리 시스템, 자연 언어 처리 방법, 및 자연 언어 처리 프로그램
CN111797589A (zh) 一种文本处理网络、神经网络训练的方法以及相关设备
CN107305543B (zh) 对实体词的语义关系进行分类的方法和装置
CN111274793B (zh) 一种文本处理方法、装置以及计算设备
CN111832564A (zh) 一种图像文字识别方法、系统及电子设备和存储介质
CN111476138A (zh) 建筑图纸构件识别模型构建方法、识别方法及相关设备
CN109359308A (zh) 机器翻译方法、装置及可读存储介质
CN115878805A (zh) 情感分析方法、装置、电子设备及存储介质
CN109919214B (zh) 一种神经网络模型的训练方法及训练装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant