CN106815244B - 文本向量表示方法及装置 - Google Patents
文本向量表示方法及装置 Download PDFInfo
- Publication number
- CN106815244B CN106815244B CN201510860394.2A CN201510860394A CN106815244B CN 106815244 B CN106815244 B CN 106815244B CN 201510860394 A CN201510860394 A CN 201510860394A CN 106815244 B CN106815244 B CN 106815244B
- Authority
- CN
- China
- Prior art keywords
- text
- theme
- target
- corpus
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文本向量表示方法及装置。该方法包括:获取测试文本;对测试文本进行特征化处理,得到多个文本特征表示的目标文本;利用预存的特征主题关系矩阵处理目标文本,得到目标文本的主题分布,其中,主题分布包括目标文本的目标主题与目标主题对应的比例;利用预存的特征嵌入向量集合对描述目标主题的文本特征进行扩展,得到目标主题特征集合,并根据目标主题特征集合得到表示目标主题的向量;以及对主题分布和表示目标主题的向量进行计算处理,得到表示测试文本的向量。通过本申请,解决了相关技术中的文本向量表示方法对文本包含的语义信息的表达能力较弱的问题。
Description
技术领域
本申请涉及自然语言处理领域,具体而言,涉及一种文本向量表示方法及装置。
背景技术
文本向量表示是将非结构化的文本通过一系列计算表示成数学向量的过程,是自然语言处理领域很多任务的基础和前提。在文本分类、文本聚类、相似度计算等任务中,都需要预先对文本进行向量化变换,然后用向量化的文本代替原来的文本进行数学运算和统计。由此可见,文本向量表示的好坏将直接影响到后面分析结果。目前,文本向量表示的一般方法是使用向量空间模型(Vector Space Model,简称VSM),将文本表示成若干特征维度下的向量。而向量表示文本的能力强弱则与特征的选取方式和每一个特征维度下权重的计算方式有关。相关技术中文本向量表示方法在特征选择上仅仅是在文本的切分词集合中选择若干相对具有表达能力的切分词作为候选特征。而特征权重的计算也是基于切分词在文本中的统计量计算获得。这种文本向量表示方法将文本割裂的看作是词语的集合,所产生的向量也并不能真正表达文本包含的语义信息。
针对相关技术中的文本向量表示方法对文本包含的语义信息的表达能力较弱的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种文本向量表示方法及装置,以解决相关技术中的文本向量表示方法对文本包含的语义信息的表达能力较弱的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种文本向量表示方法。该方法包括:获取测试文本;对测试文本进行特征化处理,得到多个文本特征表示的目标文本;利用预存的特征主题关系矩阵处理目标文本,得到目标文本的主题分布,其中,主题分布包括目标文本的目标主题与目标主题对应的比例;利用预存的特征嵌入向量集合对描述目标主题的文本特征进行扩展,得到目标主题特征集合,并根据目标主题特征集合得到表示目标主题的向量;以及对主题分布和表示目标主题的向量进行计算处理,得到表示测试文本的向量。
进一步地,在获取测试文本之前,该方法还包括:获取训练语料,其中,训练语料为用于训练的语料;对训练语料进行特征化处理,得到多个语料特征;分别训练每个语料特征的特征嵌入向量,得到特征嵌入向量集合;获取训练语料中的多个主题;分别训练每个主题与每个语料特征的关系,得到特征主题关系矩阵;以及存储特征嵌入向量集合和特征主题关系矩阵。
进一步地,特征化处理包括分词处理,对训练语料进行特征化处理,得到多个语料特征包括:对训练语料进行分词处理,得到多个语料切分结果,对测试文本进行特征化处理,得到多个文本特征表示的目标文本包括:对测试文本进行分词处理,得到多个文本切分结果。
进一步地,在对训练语料进行分词处理,得到多个语料切分结果之后,该方法还包括:分别对每个语料切分结果进行id化处理,得到id化处理后的第一数据集合,其中,id化处理是指将每个语料切分结果对应一个id;以及通过第一数据集合表示多个语料特征,在对测试文本进行分词处理,得到多个文本切分结果之后,该方法还包括:分别对每个文本切分结果进行id化处理,得到id化处理后的第二数据集合;以及通过第二数据集合表示目标文本。
进一步地,分别训练每个语料特征的特征嵌入向量为采用Word2vec算法训练每个语料特征的特征嵌入向量。
进一步地,分别训练每个主题与每个语料特征的关系为采用LDA算法训练每个主题与每个语料特征的关系。
进一步地,利用预存的特征主题关系矩阵处理目标文本,得到目标文本的主题分布包括:将目标文本通过预存的特征主题关系矩阵按照预设变换方式进行变换,得到目标文本的主题分布,其中,预设变换方式中采用的算法为LDA算法。
进一步地,对主题分布和表示目标主题的向量进行计算处理,得到表示测试文本的向量包括:分别将每个目标主题对应的比例与目标主题的向量进行相乘;以及将相乘后结果进行加权求和,得到表示测试文本的向量。
为了实现上述目的,根据本申请的另一方面,提供了一种文本向量表示装置。该装置包括:第一获取单元,用于获取测试文本;第一处理单元,用于对测试文本进行特征化处理,得到多个文本特征表示的目标文本;第二处理单元,用于利用预存的特征主题关系矩阵处理目标文本,得到目标文本的主题分布,其中,主题分布包括目标文本的目标主题与目标主题对应的比例;扩展单元,用于利用预存的特征嵌入向量集合对描述目标主题的文本特征进行扩展,得到目标主题特征集合,并根据目标主题特征集合得到表示目标主题的向量;以及计算单元,用于对主题分布和表示目标主题的向量进行计算处理,得到表示测试文本的向量。
进一步地,该装置还包括:第二获取单元,用于获取训练语料,其中,训练语料为用于训练的语料;第三处理单元,用于对训练语料进行特征化处理,得到多个语料特征;第一训练单元,用于分别训练每个语料特征的特征嵌入向量,得到特征嵌入向量集合;第三获取单元,用于获取训练语料中的多个主题;第二训练单元,用于分别训练每个主题与每个语料特征的关系,得到特征主题关系矩阵;以及存储单元,用于存储特征嵌入向量集合和特征主题关系矩阵。
通过本申请,采用以下步骤:获取测试文本;对测试文本进行特征化处理,得到多个文本特征表示的目标文本;利用预存的特征主题关系矩阵处理目标文本,得到目标文本的主题分布,其中,主题分布包括目标文本的目标主题与目标主题对应的比例;利用预存的特征嵌入向量集合对描述目标主题的文本特征进行扩展,得到目标主题特征集合,并根据目标主题特征集合得到表示目标主题的向量;以及对主题分布和表示目标主题的向量进行计算处理,得到表示测试文本的向量,解决了相关技术中的文本向量表示方法对文本包含的语义信息的表达能力较弱的问题。通过引入了主题和文本特征(语义)使得向量化的文本更具有表示能力,弥补了相关技术中文本向量表示方法对于文本字面背后隐含语义解释能力不足的缺点,也大大提高了计算机对文本语义理解的程度,进而达到了提升对文本包含的语义信息的表达能力的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的文本向量表示方法的流程图;以及
图2是根据本申请实施例的文本向量表示装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请的实施例,提供了一种文本向量表示方法。
图1是根据本申请实施例的文本向量表示方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,获取测试文本。
获取一条输入系统的文本并将其作为本申请中的测试文本。
优选地,在本申请实施例提供的文本向量表示方法中,在获取测试文本之前,该方法还包括:获取训练语料,其中,训练语料为用于训练的语料;对训练语料进行特征化处理,得到多个语料特征;分别训练每个语料特征的特征嵌入向量,得到特征嵌入向量集合;获取训练语料中的多个主题;分别训练每个主题与每个语料特征的关系,得到特征主题关系矩阵;以及存储特征嵌入向量集合和特征主题关系矩阵。
可选地,在本申请实施例提供的文本向量表示方法中,特征化处理包括分词处理,对训练语料进行特征化处理,得到多个语料特征包括:对训练语料进行分词处理,得到多个语料切分结果。
在对训练语料进行分词处理,得到多个语料切分结果之后,分别对每个语料切分结果进行id化处理,得到id化处理后的第一数据集合,其中,id化处理是指将每个语料切分结果对应一个id;以及通过第一数据集合表示多个语料特征。
可选地,在本申请实施例提供的文本向量表示方法中,分别训练每个语料特征的特征嵌入向量为采用Word2vec算法训练每个语料特征的特征嵌入向量;分别训练每个主题与每个语料特征的关系为采用LDA算法训练每个主题与每个语料特征的关系。
具体地,首先,通过大量需要处理的文本组成训练语料,训练语料可以来自资料和文件,也可以来自互联网。上述的特征化处理,是将训练语料表示为语料特征集合的过程,此处的语料特征用于表示训练语料的某处特点。语料特征的种类可以有多样,例如,训练语料中的每个词都可以称作一个语料特征,此外,任何相邻两个词组成的词组,或者训练语料中包含的疑问、转折关系等等,都可以作为语料特征。在本申请中采用对训练语料的分词处理作为特征化处理。对训练语料中每一条文本进行中文分词处理,得到多个语料切分结果。其中,每一个语料切分结果可以是一个语料切分词,也可以是任何相邻两个语料切分词组成的词组,或者训练语料中包含的疑问、转折关系等等。因此,整个训练语料中所包含全部语料切分结果的个数,就相当于全部语料特征的数量,数量记为D。
通过提前训练语料,得到多个语料特征,提升后续得到特征嵌入向量集合和特征主题关系矩阵的处理效率。
为了优化空间性能,在本申请中,将语料特征(语料切分结果)进行id化处理,使得每一个语料特征对应一个唯一的id,使用id作为对特征的表示方式,进行后续处理。通常id是对每一个语料特征生成的哈希码或者以0为初值的自增键,无论怎样表示id的字段都是int或long型,相比复杂的特征而言,空间上得到了很大的压缩。因此对空间性能进行了优化。
其次,设置向量维度n,训练语料中每个语料特征的n维特征嵌入向量,输出特征嵌入向量集合。所谓特征嵌入向量,是对特征的数学向量表示,可以近似的认为,特征嵌入向量具有特征本身全部的信息量。因此,通过训练过程得到全部特征数学向量化的表示。需要设置的参数n表示期望转化为向量的维度,因此,此处设置的参数n同时也是后续文本向量表示后向量的维度。一般,n的值不建议过大,考虑计算过程和存储,每一个特征有长度为n的数组,并且有D个特征,就共需要n*D个值,因此,n的取值与空间复杂度有关,此外,在较为合适的大小以后,嵌入向量已经足够对特性进行表示,再增加n的大小对表示更多信息的帮助也会越来越小,因此,n建议的参考值是200。在本申请中训练每个语料特征的特征嵌入向量可以使用Google提出的Word2vec算法,该算法使用3层神经网络对特征进行训练,可以得到本申请中需要的特征嵌入向量集合,在本申请中对训练每个语料特征的特征嵌入向量的具体算法不作限定。
最后,设置主题个数m,训练语料中所隐含主题与每个语料特征的m*D维关系矩阵,输出特征主题关系矩阵。设置主题个数的m与上述的向量维度n类似,m是与空间复杂度有关的参数,表示的是语义场中隐含主题的个数。通过训练语料,需要训练出训练语料背后隐含的主题。主题是一个假想的概念,无法直接通过描述来解释,而是通过可以描述主题的特征的集合来近似的解释主题。但是,通常对主题建模的情况都面临着一个问题,就是主题个数m难以确定。若实际语义场中存在主题m*个,但是很难在训练的过程中自动的优化出m*,因此,需要对m*进行近似的表述,即m。近似描述真实主题数量在于掌握尽量全部语义场中的信息。若m<m*,则造成部分主题信息未得到表示,若m>m*,则全部m*个主题的信息均有其相应的表示,同时,还额外存在m-m*个主题,是区分错误或者与m*个主题相重叠的部分。因此,对于本申请而言,选取相对较大的m作为主题个数,是不会造成信息丢失的较为安全的策略。在兼顾空间复杂度的考虑下,给出m的参考值为50至100即可。在本申请中,使用LDA算法实现训练主题与每个语料特征关系,除此之外,还可以采用PLSA、SVD等可替代的方法实现该训练过程。
步骤S102,对测试文本进行特征化处理,得到多个文本特征表示的目标文本。
对上述得到的测试文本进行特征化处理,本申请中以中文分词作为特征化处理的手段,即输入一条文本,程序将对文本进行中文分词处理,得到文本特征的序列,其中,每一个文本特征可以是一个文本特征词,也可以是任何相邻两个文本特征词组成的词组,或者测试文本中包含的疑问、转折关系等等。此处的文本特征与上述的语料特征相对应。
可选地,在本申请实施例提供的文本向量表示方法中,对测试文本进行特征化处理,得到多个文本特征表示的目标文本包括:对测试文本进行分词处理,得到多个文本切分结果。
在对测试文本进行分词处理,得到多个文本切分结果之后,分别对每个文本切分结果进行id化处理,得到id化处理后的第二数据集合;以及通过第二数据集合表示目标文本。
需要说明的是,文本切分结果可以是一个文本切分词,也可以是任何相邻两个文本切分词组成的词组,或者测试文本中包含的疑问、转折关系等等。在此对每个文本切分结果进行id化处理的目的与语料切分结果进行id化处理目的相同,在此不在赘述。
可选地,在本申请实施例提供的文本向量表示方法中,利用预存的特征主题关系矩阵处理目标文本,得到目标文本的主题分布包括:将目标文本通过预存的特征主题关系矩阵按照预设变换方式进行变换,得到目标文本的主题分布,其中,预设变换方式中采用的算法为LDA算法。
需要说明的是,在本申请中预设变换方式中采用的算法与训练每个主题与每个语料特征的关系采用的算法保持一致即可,在本申请中对其具体算法不作限定。
当经过中文分词过程得到切分词后,需要与特征主题关系矩阵中的语料特征与id进行匹配,将匹配到相同语料特征的id作为返回值,输出特征id序列。同时需要注意的是,在上述对训练语料的特征化处理步骤需要与对测试文本特征化处理步骤保持一致,即需要具有相同的特征化处理逻辑,才能保证处理出的特征集合可以比较。
需要说明的是,上述过程存在部分切分词并未出现在之前的训练语料中的情况,也就是在训练过程中并不存在相对应的特征的情形,可以直接丢弃掉未出现特征。
步骤S103,利用预存的特征主题关系矩阵处理目标文本,得到目标文本的主题分布,其中,主题分布包括目标文本的目标主题与目标主题对应的比例。
需要在系统内存中持久化存储上述得到的特征主题关系矩阵,在初始化时直接从存储媒介中读入特征主题关系矩阵到内存中即可。另外,也可以将训练特征主题关系矩阵的语料数据输入给系统,让系统预先在线训练特征主题关系矩阵,并将模型直接存储在内存中,后续直接进行在线处理即可。
训练过程所得到的特征主题关系矩阵可以表示为一个矩阵,矩阵的维度为m*D,即每一行表示一个主题,每一列表示一个语料特征,矩阵中的值表示语料特征属于主题的程度,在本申请中称该程度为隶属度。隶属度的含义和值域在不同训练征主题关系矩阵的算法中表示的结果也并不相同,但是总的来说,隶属度的相对比较关系是具有可参考意义的,即隶属度越大,表示语料特征越属于主题,语料特征越能够用于表述主题。因此,对于主题这一抽象概念的描述,可以通过提取最能够描述主题的若干个语料特征的方式近似表示。
该步骤中,输入的由文本特征表示的目标文本可以通过特征主题关系矩阵进行变换,变换成有主题分布表示的目标文本。同样,具体变换的方式与特征主题关系矩阵的结构和训练特征主题关系矩阵的算法有关,在上文中训练过程使用LDA算法,因此,在此同样采取LDA算法进行上述变换,细节如下:
初始过程,对由文本特征表示的目标文本的每一个文本特征都生成一个0至m-1的随机数,作为该文本特征属于对原文本贡献的主题信息投票。需要说明的是,这种投票是完全基于随机的。
在线处理过程将不断迭代文本中的每一个文本特征上的主题投票。每次全部遍历过文本中所有文本特征则算作一次迭代,迭代次数作为参数预先输入即可,通常参考值10以上,可以根据主题数量多少酌情增减。
对于每一个要更新的主题投票过程,决定下一次投票给哪个主题主要受两个因素的影响,一个是文本中所有其他文本特征在该时刻的投票主题分布,另一个是该文本特征在主题特征关系矩阵中隶属于不同主题下的分布情况。对于每一个可能的下一次投票值,可以得到投票给该主题的概率,公式1如下:
由上述公式1可以计算出下一次可能投票给每一个主题的概率,算法的采样过程将以此概率为概率投票给相应的主题,具体如下:
假设有长度为m的数组,其每一个值分别表示P(主题x|特征k),首先,遍历数组,并对后一项做累计求和计算,生成累计概率数组。例如:若原始数组为[0.2,0.5,0.3],累计求和后的结果则为[0.2,0.7(0.2+0.5),1(0.7+0.3)]。其次,生成一个随机数,并以此进行第二次遍历,判断随机数是否小于数组中的当前值,若小于,则返回当前的遍历位置。例如,若生成随机数为0.88,则遍历第0个数0.2,判断0.8>0.2,继续下一层遍历;遍历第1个数0.7,判断0.8>0.7,继续下一层遍历;遍历第2个数1,判断0.8<1,则返回遍历位置2。由此,经过在线的迭代处理过程,可以得到迭代终止后文本的每一个特征的投票主题。综合所有特征的投票主题结果,即能够得到文本的主题分布。
步骤S104,利用预存的特征嵌入向量集合对描述目标主题的文本特征进行扩展,得到目标主题特征集合,并根据目标主题特征集合得到表示目标主题的向量。
在系统需要在内存中需要持久化存储上述得到的特征嵌入向量集合,在初始化时直接从存储媒介中读入特征嵌入向量集合到内存中即可。另外,也可以将训练特征嵌入向量集合的语料数据输入给系统,让系统预先在线训练特征嵌入向量集合,并将特征嵌入向量集合直接存储在内存中,后续直接进行在线处理即可。
在步骤S103中得到了文本的主题分布,但是当前的主题分布仍是通过文本本身拥有的特征生成的。实际上对于每一个主题的表述也是基于每一个独立的特征的。因此,每一个使用到的特征的概念之间并没有相互关系,也就是独立的。例如,当前得到了本文的临时结果可能是目标文本中有20%描述音乐,30%描述体育,还有50%描述计算机。而各个主题下包含隶属度高的特征为{音乐:[“民谣”、“爵士”、“古典”],体育:[“足球”、“篮球”、“排球”],计算机:[“硬盘”、“内存”、“显卡”]}等等。但实际上,特征和特征之间的关系并不应该是相互独立存在的,因为“苹果”和“乔布斯”的关系一定比“苹果”和“体育”的关系要更接近,对于其它类型的特征也是同样的道理。因此,如果只是通过“足球”、“篮球”、“排球”描述体育类型,就会丢失掉很多其它与体育密切相关的其它特征信息,即如果没有考虑语义,那么对于体育主题来说,没有出现在主题描述特征下的“羽毛球”和“显示器”就都只能返回与体育无关的结果,但事实并非如此。因此本申请在此基础上考虑了特征的语义关系,对主题的描述由简单的特征集合基础上进行了基于语义的扩充,具体的实现方式为:基于训练过程中得到的特征嵌入向量模型,可以得到训练过程中每一个特征的特征嵌入向量,该嵌入向量维度为n,并可以近似的认为向量能够表征特征全部的信息。对于嵌入向量几何解释,可以解释成在n维空间中的一个点,或是由原点指向该点的向量。因此,不同的特征嵌入向量可以计算其向量的距离,因为嵌入向量表示特征,因此嵌入向量的具体也就是对应的特征之间的距离。
本申请中,根据描述主题的特征集合作为描述主题的源头,对源头的特征进行基于语义的特征扩展,扩展逻辑是计算与特征距离相近的其它特征,并与其它特征一同描述主题。例如,在上面的例子中,经过计算得到“羽毛球”与“足球”、“篮球”、“排球”的距离够较近,“羽毛球”则也作为属于描述主题“体育”的一个特征,而“显示器”就不能作为表述“体育”的特征。
在经过对描述主题在语义层面的扩展后,可以得到描述主题的丰富的特征集合,之后,需要对具体的主题进行语义层面的向量表示。同样,描述主题的向量同样需要依靠描述主题的特征集合。几何上,空间中若干点(特征)聚簇在一起,构成了空间中的一个点簇,这个点簇被共同描述某个主题。而某个主题对应于空间中的某一范围区域,需要使用一个向量近似的表示这一区域,最佳的方式之一是该区域的重心,即几何中点。由于主题区域未知,因此通过特征点簇近似的表示主题区域,即计算所有特征向量的算术平均值。至此,近似的得到了主题在语义层面上的向量表示,并且,向量的维度等于特征嵌入向量的维度n。
步骤S105,对主题分布和表示目标主题的向量进行计算处理,得到表示测试文本的向量。
可选地,在本申请实施例提供的文本向量表示方法中,对主题分布和表示目标主题的向量进行计算处理,得到表示测试文本的向量包括:分别将每个目标主题对应的比例与目标主题的向量进行相乘;以及将相乘后结果进行加权求和,得到表示测试文本的向量。
具体地,在这一步骤中,需要汇总步骤S103和步骤S104得到的结果,并汇总得到文本的向量表示。在步骤S103中,得到了文本的主题分布,即文本在各个主题下所用篇幅的分布。在步骤S104中,得到了每一个主题在语义层面上的向量表示。汇总两个部分的结果,只需要对两个步骤的输出进行加权求和即可,通过如下公式2即可实现:
例如:如果测试文本的主题分布是{音乐:0.2;体育:0.3;计算机:0.5;},且v(音乐)=[1,0,0],v(体育)=[0,1,0],v(计算机)=[0,0,1],那么,汇总得到的测试文本的向量表示为[0.2,0.3,0.5]。
本申请实施例提供的文本向量表示方法即是一种基于文本主题和语义的文本向量表示方法,这种方法极大程度地弥补了相关技术中文本向量表示方法对于文本字面背后隐含语义解释能力不足的缺点,能够表示文本背后的信息,具有更好的表示能力。同时本申请实施例提供的文本向量表示方法在线处理过程中支持单条文本输入并返回该文本的向量表示,并不需要依赖多条文本组成的语料整批的输入,这种数据流式的输入支持更符合实际功能需求。通过本申请实施例提供的文本向量表示方法得到的文本向量对于应用到后续文本分类、相似文章计算等自然语言处理任务时具有更高的评测结果,也大大提高了计算机对文本语义理解的程度。
本申请实施例提供的文本向量表示方法,通过获取测试文本;对测试文本进行特征化处理,得到多个文本特征表示的目标文本;利用预存的特征主题关系矩阵处理目标文本,得到目标文本的主题分布,其中,主题分布包括目标文本的目标主题与目标主题对应的比例;利用预存的特征嵌入向量集合对描述目标主题的文本特征进行扩展,得到目标主题特征集合,并根据目标主题特征集合得到表示目标主题的向量;以及对主题分布和表示目标主题的向量进行计算处理,得到表示测试文本的向量,解决了相关技术中的文本向量表示方法对文本包含的语义信息的表达能力较弱的问题。通过引入了主题和文本特征(语义)使得向量化的文本更具有表示能力,弥补了相关技术中文本向量表示方法对于文本字面背后隐含语义解释能力不足的缺点,也大大提高了计算机对文本语义理解的程度,进而达到了提升对文本包含的语义信息的表达能力的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种文本向量表示装置,需要说明的是,本申请实施例的文本向量表示装置可以用于执行本申请实施例所提供的用于文本向量表示方法。以下对本申请实施例提供的文本向量表示装置进行介绍。
图2是根据本申请实施例的文本向量表示装置的示意图。如图2所示,该装置包括:第一获取单元10、第一处理单元20、第二处理单元30、扩展单元40和计算单元50。
第一获取单元10,用于获取测试文本;第一处理单元20,用于对测试文本进行特征化处理,得到多个文本特征表示的目标文本。
第二处理单元30,用于利用预存的特征主题关系矩阵处理目标文本,得到目标文本的主题分布,其中,主题分布包括目标文本的目标主题与目标主题对应的比例。
扩展单元40,用于利用预存的特征嵌入向量集合对描述目标主题的文本特征进行扩展,得到目标主题特征集合,并根据目标主题特征集合得到表示目标主题的向量。
计算单元50,用于对主题分布和表示目标主题的向量进行计算处理,得到表示测试文本的向量。
本申请实施例提供的文本向量表示装置,通过第一获取单元10获取测试文本;第一处理单元20对测试文本进行特征化处理,得到多个文本特征表示的目标文本;第二处理单元30利用预存的特征主题关系矩阵处理目标文本,得到目标文本的主题分布,其中,主题分布包括目标文本的目标主题与目标主题对应的比例;扩展单元40利用预存的特征嵌入向量集合对描述目标主题的文本特征进行扩展,得到目标主题特征集合,并根据目标主题特征集合得到表示目标主题的向量;以及计算单元50对主题分布和表示目标主题的向量进行计算处理,得到表示测试文本的向量,解决了相关技术中的文本向量表示方法对文本包含的语义信息的表达能力较弱的问题。通过引入了主题和文本特征(语义)使得向量化的文本更具有表示能力,弥补了相关技术中文本向量表示方法对于文本字面背后隐含语义解释能力不足的缺点,也大大提高了计算机对文本语义理解的程度,进而达到了提升对文本包含的语义信息的表达能力的效果。
可选地,在本申请实施例提供的文本向量表示装置中,该装置还包括:第二获取单元,用于获取训练语料,其中,训练语料为用于训练的语料;第三处理单元,用于对训练语料进行特征化处理,得到多个语料特征;第一训练单元,用于分别训练每个语料特征的特征嵌入向量,得到特征嵌入向量集合;第三获取单元,用于获取训练语料中的多个主题;第二训练单元,用于分别训练每个主题与每个语料特征的关系,得到特征主题关系矩阵;以及存储单元,用于存储特征嵌入向量集合和特征主题关系矩阵。
所述文本向量表示装置包括处理器和存储器,上述第一获取单元、第一处理单元、第二处理单元、扩展单元和计算单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元实现相应功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数表示文本向量。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取测试文本;对测试文本进行特征化处理,得到多个文本特征表示的目标文本;利用预存的特征主题关系矩阵处理目标文本,得到目标文本的主题分布,其中,主题分布包括目标文本的目标主题与目标主题对应的比例;利用预存的特征嵌入向量集合对描述目标主题的文本特征进行扩展,得到目标主题特征集合,并根据目标主题特征集合得到表示目标主题的向量;以及对主题分布和表示目标主题的向量进行计算处理,得到表示测试文本的向量。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (9)
1.一种文本向量表示方法,其特征在于,包括:
获取测试文本;
对所述测试文本进行特征化处理,得到多个文本特征表示的目标文本;
利用预存的特征主题关系矩阵处理所述目标文本,得到所述目标文本的主题分布,其中,所述主题分布包括所述目标文本的目标主题与所述目标主题对应的比例;
利用预存的特征嵌入向量集合对描述所述目标主题的文本特征进行扩展,得到目标主题特征集合,并根据所述目标主题特征集合得到表示所述目标主题的向量;以及
对所述主题分布和表示所述目标主题的向量进行计算处理,得到表示所述测试文本的向量;
其中,对所述主题分布和表示所述目标主题的向量进行计算处理,得到表示所述测试文本的向量包括:
分别将每个目标主题对应的比例与所述目标主题的向量进行相乘;以及
将相乘后结果进行加权求和,得到表示所述测试文本的向量;
其中,利用预存的特征嵌入向量集合对描述所述目标主题的文本特征进行扩展,得到目标主题特征集合包括:
基于训练过程中得到的特征嵌入向量模型得到训练过程中每一个特征的n维特征嵌入向量,根据n维空间中特征之间的距离对所述目标主题的文本特征进行扩展,得到目标主题特征集合。
2.根据权利要求1所述的方法,其特征在于,在获取所述测试文本之前,所述方法还包括:
获取训练语料,其中,所述训练语料为用于训练的语料;
对所述训练语料进行特征化处理,得到多个语料特征;
分别训练每个语料特征的特征嵌入向量,得到特征嵌入向量集合;
获取所述训练语料中的多个主题;
分别训练每个主题与每个语料特征的关系,得到特征主题关系矩阵;以及
存储所述特征嵌入向量集合和所述特征主题关系矩阵。
3.根据权利要求2所述的方法,其特征在于,
所述特征化处理包括分词处理,对所述训练语料进行特征化处理,得到多个语料特征包括:对所述训练语料进行分词处理,得到多个语料切分结果,
对所述测试文本进行特征化处理,得到多个文本特征表示的目标文本包括:对所述测试文本进行分词处理,得到多个文本切分结果。
4.根据权利要求3所述的方法,其特征在于,
在对所述训练语料进行分词处理,得到多个语料切分结果之后,所述方法还包括:分别对每个语料切分结果进行id化处理,得到id化处理后的第一数据集合,其中,所述id化处理是指将每个语料切分结果对应一个id;以及通过所述第一数据集合表示所述多个语料特征,
在对所述测试文本进行分词处理,得到多个文本切分结果之后,所述方法还包括:分别对每个文本切分结果进行id化处理,得到id化处理后的第二数据集合;以及通过所述第二数据集合表示所述目标文本。
5.根据权利要求2所述的方法,其特征在于,分别训练每个语料特征的特征嵌入向量为采用Word2vec算法训练每个语料特征的特征嵌入向量。
6.根据权利要求2所述的方法,其特征在于,分别训练每个主题与每个语料特征的关系为采用LDA算法训练每个主题与每个语料特征的关系。
7.根据权利要求6所述的方法,其特征在于,利用预存的特征主题关系矩阵处理所述目标文本,得到所述目标文本的主题分布包括:
将所述目标文本通过所述预存的特征主题关系矩阵按照预设变换方式进行变换,得到所述目标文本的主题分布,其中,所述预设变换方式中采用的算法为所述LDA算法。
8.一种文本向量表示装置,其特征在于,包括:
第一获取单元,用于获取测试文本;
第一处理单元,用于对所述测试文本进行特征化处理,得到多个文本特征表示的目标文本;
第二处理单元,用于利用预存的特征主题关系矩阵处理所述目标文本,得到所述目标文本的主题分布,其中,所述主题分布包括所述目标文本的目标主题与所述目标主题对应的比例;
扩展单元,用于利用预存的特征嵌入向量集合对描述所述目标主题的文本特征进行扩展,得到目标主题特征集合,并根据所述目标主题特征集合得到表示所述目标主题的向量;以及
计算单元,用于对所述主题分布和表示所述目标主题的向量进行计算处理,得到表示所述测试文本的向量;
其中,所述计算单元还用于分别将每个目标主题对应的比例与所述目标主题的向量进行相乘;以及将相乘后结果进行加权求和,得到表示所述测试文本的向量;
其中,所述扩展单元还用于根据训练过程中得到的特征嵌入向量模型得到训练过程中每一个特征的n维特征嵌入向量,根据n维空间中特征之间的距离对所述目标主题的文本特征进行扩展,得到目标主题特征集合。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二获取单元,用于获取训练语料,其中,所述训练语料为用于训练的语料;
第三处理单元,用于对所述训练语料进行特征化处理,得到多个语料特征;
第一训练单元,用于分别训练每个语料特征的特征嵌入向量,得到特征嵌入向量集合;
第三获取单元,用于获取所述训练语料中的多个主题;
第二训练单元,用于分别训练每个主题与每个语料特征的关系,得到特征主题关系矩阵;以及
存储单元,用于存储所述特征嵌入向量集合和所述特征主题关系矩阵。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510860394.2A CN106815244B (zh) | 2015-11-30 | 2015-11-30 | 文本向量表示方法及装置 |
PCT/CN2016/107312 WO2017092623A1 (zh) | 2015-11-30 | 2016-11-25 | 文本向量表示方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510860394.2A CN106815244B (zh) | 2015-11-30 | 2015-11-30 | 文本向量表示方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106815244A CN106815244A (zh) | 2017-06-09 |
CN106815244B true CN106815244B (zh) | 2020-02-07 |
Family
ID=58796339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510860394.2A Active CN106815244B (zh) | 2015-11-30 | 2015-11-30 | 文本向量表示方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN106815244B (zh) |
WO (1) | WO2017092623A1 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975499B (zh) * | 2016-04-27 | 2019-06-25 | 深圳大学 | 一种文本主题检测方法及系统 |
CN109388796B (zh) * | 2017-08-11 | 2023-04-18 | 北京国双科技有限公司 | 裁判文书的推送方法及装置 |
CN107562729B (zh) * | 2017-09-14 | 2020-12-08 | 云南大学 | 基于神经网络和主题强化的党建文本表示方法 |
CN110965970B (zh) * | 2018-09-29 | 2022-02-11 | 北京国双科技有限公司 | 注水井与采油井的相关性的确定方法及装置 |
CN109858022A (zh) * | 2019-01-04 | 2019-06-07 | 平安科技(深圳)有限公司 | 一种用户意图识别方法、装置、计算机设备及存储介质 |
CN109829153A (zh) * | 2019-01-04 | 2019-05-31 | 平安科技(深圳)有限公司 | 基于卷积神经网络的意图识别方法、装置、设备及介质 |
CN110046228B (zh) * | 2019-04-18 | 2021-06-11 | 合肥工业大学 | 短文本主题识别方法和系统 |
CN110413730B (zh) * | 2019-06-27 | 2024-06-07 | 平安科技(深圳)有限公司 | 文本信息匹配度检测方法、装置、计算机设备和存储介质 |
CN110705289B (zh) * | 2019-09-29 | 2023-03-28 | 重庆邮电大学 | 一种基于神经网络和模糊推理的中文分词方法、系统及介质 |
CN111984789B (zh) * | 2020-08-26 | 2024-01-30 | 普信恒业科技发展(北京)有限公司 | 一种语料分类方法、装置及服务器 |
CN113010681B (zh) * | 2021-03-24 | 2024-03-15 | 华东理工大学 | 一种基于句子向量化的无监督选取医疗语料文本方法 |
CN115392192B (zh) * | 2022-10-27 | 2023-01-17 | 北京中科汇联科技股份有限公司 | 一种混合神经网络和字符信息的文本编码方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929906A (zh) * | 2012-08-10 | 2013-02-13 | 北京邮电大学 | 基于内容特征和主题特征的文本分组聚类方法 |
CN103455581A (zh) * | 2013-08-26 | 2013-12-18 | 北京理工大学 | 基于语义扩展的海量短文本信息过滤方法 |
CN104408153A (zh) * | 2014-12-03 | 2015-03-11 | 中国科学院自动化研究所 | 一种基于多粒度主题模型的短文本哈希学习方法 |
CN104991891A (zh) * | 2015-07-28 | 2015-10-21 | 北京大学 | 一种短文本特征提取方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070106657A1 (en) * | 2005-11-10 | 2007-05-10 | Brzeski Vadim V | Word sense disambiguation |
US8924391B2 (en) * | 2010-09-28 | 2014-12-30 | Microsoft Corporation | Text classification using concept kernel |
CN104298776B (zh) * | 2014-11-04 | 2017-12-22 | 苏州大学 | 基于lda模型的搜索引擎结果优化系统 |
CN104965867A (zh) * | 2015-06-08 | 2015-10-07 | 南京师范大学 | 基于chi特征选取的文本事件分类方法 |
CN105045812B (zh) * | 2015-06-18 | 2019-01-29 | 上海高欣计算机系统有限公司 | 文本主题的分类方法及系统 |
-
2015
- 2015-11-30 CN CN201510860394.2A patent/CN106815244B/zh active Active
-
2016
- 2016-11-25 WO PCT/CN2016/107312 patent/WO2017092623A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929906A (zh) * | 2012-08-10 | 2013-02-13 | 北京邮电大学 | 基于内容特征和主题特征的文本分组聚类方法 |
CN103455581A (zh) * | 2013-08-26 | 2013-12-18 | 北京理工大学 | 基于语义扩展的海量短文本信息过滤方法 |
CN104408153A (zh) * | 2014-12-03 | 2015-03-11 | 中国科学院自动化研究所 | 一种基于多粒度主题模型的短文本哈希学习方法 |
CN104991891A (zh) * | 2015-07-28 | 2015-10-21 | 北京大学 | 一种短文本特征提取方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2017092623A1 (zh) | 2017-06-08 |
CN106815244A (zh) | 2017-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106815244B (zh) | 文本向量表示方法及装置 | |
Xing et al. | Diagnosing deep learning models for high accuracy age estimation from a single image | |
Kosinski et al. | Mining big data to extract patterns and predict real-life outcomes. | |
CN103823896B (zh) | 一种学科特征值算法及基于其的项目评审专家推荐算法 | |
CN104574192B (zh) | 在多个社交网络中识别同一用户的方法及装置 | |
CN105022754B (zh) | 基于社交网络的对象分类方法及装置 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN109684476B (zh) | 一种文本分类方法、文本分类装置及终端设备 | |
CN108269122B (zh) | 广告的相似度处理方法和装置 | |
CN108960574A (zh) | 问答的质量确定方法、装置、服务器和存储介质 | |
CN109902823B (zh) | 一种基于生成对抗网络的模型训练方法及设备 | |
Zhou et al. | Convolutional neural networks based pornographic image classification | |
CN110633421A (zh) | 特征提取、推荐以及预测方法、装置、介质和设备 | |
CN107644051A (zh) | 用于同类实体分组的系统和方法 | |
CN108090178A (zh) | 一种文本数据分析方法、装置、服务器和存储介质 | |
Colliri et al. | A network-based high level data classification technique | |
CN113722512A (zh) | 基于语言模型的文本检索方法、装置、设备及存储介质 | |
CN112966072A (zh) | 案件的预判方法、装置、电子装置和存储介质 | |
Abuhay et al. | Analysis of computational science papers from iccs 2001-2016 using topic modeling and graph theory | |
CN113535912B (zh) | 基于图卷积网络和注意力机制的文本关联方法及相关设备 | |
CN114519508A (zh) | 基于时序深度学习和法律文书信息的信用风险评估方法 | |
CN113886697A (zh) | 基于聚类算法的活动推荐方法、装置、设备及存储介质 | |
Qi et al. | Cross-media similarity metric learning with unified deep networks | |
CN107665222B (zh) | 关键词的拓展方法和装置 | |
CN108229572B (zh) | 一种参数寻优方法及计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |