CN104035992A - 利用图像处理技术及语义向量空间的文本语义处理方法和系统 - Google Patents

利用图像处理技术及语义向量空间的文本语义处理方法和系统 Download PDF

Info

Publication number
CN104035992A
CN104035992A CN201410253847.0A CN201410253847A CN104035992A CN 104035992 A CN104035992 A CN 104035992A CN 201410253847 A CN201410253847 A CN 201410253847A CN 104035992 A CN104035992 A CN 104035992A
Authority
CN
China
Prior art keywords
semantic
statement
sentence
text
vectorial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410253847.0A
Other languages
English (en)
Other versions
CN104035992B (zh
Inventor
王晓平
肖仰华
汪卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jilian Network Technology Co ltd
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201410253847.0A priority Critical patent/CN104035992B/zh
Publication of CN104035992A publication Critical patent/CN104035992A/zh
Application granted granted Critical
Publication of CN104035992B publication Critical patent/CN104035992B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于文本语义信息处理技术领域,具体涉及一种利用图像处理技术及语义向量空间的文本语义处理方法和系统。本发明包括文本输入及预处理、语义向量构建、语义信息处理、语义处理结果展示模块;语义信息处理具体包括:语义转折句提取、语义噪声句检测、语义范围跟踪和语义场景分割。本发明将文本单元映射为图像中的像素,并将描述文本单元的语义向量视为图像中的像素点灰度,从而能引入图像处理领域中的各种技术和方法来灵活、直观地处理文本,而且不易受到词语本身形式多样化的影响;同时,通过引入Word2Vec方法构建语义向量,保证了算法的轻量级,以应对实时应用的需求。

Description

利用图像处理技术及语义向量空间的文本语义处理方法和系统
技术领域
本发明属于文本语义信息处理技术领域,具体涉及一种轻量级的利用图像处理技术及语义向量空间的文本语义处理方法和系统。
背景技术
随着计算机技术及网络的发展,如今已进入信息爆炸时代——各种海量的数据以电子文本的形式呈现出来,在这种情况下,能够快速、准确地从中抽取出用户所关心的信息这一需求日益迫切,文本信息处理技术正是在这种背景下应运而生的,而文本的语义处理则是重中之重,它使得我们从语言处理迈向了语言理解。文本语义处理技术在很多领域都很有应用价值,如文本语义分段、自动文本摘要抽取、电子阅读语义导航等。
然而,目前的文本语义处理技术仍有一些局限性,以文本语义分割技术为例,基本上上是从基于词频统计的角度出发,通过计算相邻文本块内重复出现词语的词频统计向量的相似度来实现语义分割,如经典的TextTiling算法、Dotplotting算法,但它们都没有考虑到词语蕴含的语义空间,不能应对词语变体或者是同义词、近义词的影响,因而鲁棒性不强;在此之后的一些算法如ESA(Explicit semantic analysis)算法虽然通过引入语义向量空间增强了鲁棒性,但由于其语义空间维度过高、计算代价巨大,无法满足实时应用的需求;还有如TopicTilling算法,虽然通过加入词与主题间的联系改进了分割性能,但其需要复杂的主题模型介入,等等。
发明内容
本发明针对文本语义信息处理技术背景的弱点提出了一种轻量级的利用图像处理技术及语义向量空间的文本语义处理方法和系统。
本发明将文本单元映射为图像中的像素,并将描述文本单元的语义向量视为图像中的像素点灰度,从而不仅得以引入图像处理领域中的各种技术和方法来对文本进行灵活、直观地处理,而且也不易受到词语本身形式多样化的影响;同时,通过引入Word2Vec方法构建语义向量,保证了算法的轻量级,能够满足实时应用需求。
本发明面向文本语义处理中的几个应用场景分别提出了针对性的技术。具体地:面向文本分割需求,使用图像边缘检测技术实现对语义转折句的提取;面向电子文本中的语义不相关语句(如广告植入语句),采用图像处理中的噪声检测方法进行提取;面向电子阅读中的语义导航需求,采用图像处理中的区域生长技术实现对用户感兴趣内容的语义范围跟踪;面向信息快速推送场合的语义切分需求,采用图像分割方法实现对不同语义场景的分割。
本发明提供的轻量级的利用图像处理技术及语义向量空间的文本语义处理方法,具体步骤分为:文本输入及预处理、语义向量构建、语义信息处理、语义处理结果展示;其中:
1.文本输入及预处理:是对于输入的文本,首先进行语句分割处理,从而得到有序的语句序列,然后对每一句都进行停用词去除操作,目的是去除助词等干扰、保留下真正有语义的词语;
2.语义向量构建:基于大数据资源进行训练,构建词与语义空间的映射,从而为语义的比较提供可靠依据;
3.语义信息处理:包括语义转折句提取、语义噪声句检测、语义范围跟踪、语义场景分割四个分步骤,核心是利用图像处理技术并结合语义向量空间来对不同的场景需求进行处理以实现相应的功能;
4.语义处理结果展示:将处理结果进行输出展示,并提交给用户。
各步骤的具体内容如下:
(1)文本输入及预处理,具体步骤如下:
文本输入及预处理包含两个分步骤:文本输入、文本预处理:
(1.1)文本输入,是将用户提交的待处理文本输入系统;
(1.2)文本预处理,具体步骤为:
(1.2.1) 对于输入的文本,首先按照语句分割标志符号(如句号、感叹号等)进行语句分割处理,从而得到有序的语句序列;
(1.2.2) 对序列中的每一句,进行停用词去除操作,目的是将真正有语义的词语保留下来,在减少无语义词语干扰、提高语义处理结果可靠性的同时,也减少了后续处理的计算量。
(2)语义向量构建,具体步骤如下:
将文本单元视作图像像素,语义特征视作像素灰度,语义特征可采用多种方法进行计算,如Word2Vec方法、ESA(Explicit semantic analysis)特征、LSA(Latent semantic analysis)特征、共现词频率特征等等,由于本发明的目的是面向能满足实时应用需求的轻量级的方法,因此,优选地,采用Word2Vec方法(https://code.google.com/p/word2vec/,同时参见文献[1,2,3])。
构建语义向量的训练数据可来源于各大知识库,优选地,采用维基百科知识库(http://www.wikipedia.org/)。
(3)语义信息处理,分为如下4个分步骤:
语义转折句提取、语义噪声句检测、语义范围跟踪、语义场景分割:
(3.1)语义转折句提取,具体步骤如下:
对预处理后得到的有序的语句序列,依次对每个语句进行如下操作:
以该句为中心进行加窗,窗口宽度W可根据实际情况而定,
其中,R为窗口半径。优选地,取窗口半径为1,即窗口宽度为3,此时参考图像处理中SOBEL模板并将其降至一维形式后得到的如下邻域模板对序列进行卷积:
具体地,语义梯度计算如下:
其中,S(i)表示序列号为i的语句对应的语义向量,Dist(a,b)表示向量a和向量b之间的距离。
为方便起见,可以直接考察相似度:
这里,Sim(a,b)表示向量a和向量b的相似度,这里的相似性度量可采用多种度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等,优选地,采用Cosine相似度,该值越小,对应语句是转折句的可能性就越大。
同时,为去除结果的冗余性,当相邻两句都符合语义转折句条件时,说明它们是前一语义段的末尾和后一语义段的开头,此时只需保留相似度较低的那一句即可;另外,为保证结果的稳定性,当邻域语句中至少有一句在去除停用词后剩余词语数目小于一定数值时的结果不予考虑(具体数值可依经验设定,优选地,可将此数值设为5)。
(3.2)语义噪声句检测
采用图像处理中的噪声检测方法,实现对语义无关句(诸如广告植入之类语句)的自动检测。
优选地,取窗口半径为1,即窗口宽度为3,此时参考图像处理中LAPLACIAN模板并将其降至一维形式后得到的如下邻域模板对序列进行卷积:
具体地,语义梯度计算如下:
其中,S(i)表示序列号为i的语句对应的语义向量,Dist(a,b)表示向量a和向量b之间的距离。
为方便起见,可以直接考察相似度:
这里,Sim(a,b)表示向量a和向量b的相似度,这里的相似性度量可采用多种度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等,优选地,采用Cosine相似度,该值越小,则对应语句为噪声句的可能性就越大。
(3.3)语义范围跟踪
采用图像处理中的区域生长方法来实现电子阅读中对用户感兴趣语义范围的自动导航。
(3.3.1)首先,选择一句或多句连续语句作为用户感兴趣的“种子”,也即初始化的语义范围。
(3.3.2)对当前语义范围中的语句序列,计算其语义均值向量m:
R为当前语句范围,序号范围为[IDbegin,IDend],N为R中的语句数目,S(i)为序号为i的语句的语义向量。
(3.3.3)对于待生长“像素”——当前语义范围的开始和结束的邻域语句IDbegin-1和IDend+1,分别计算其语义向量与当前区域的语义相似度,这里的相似性度量可采用多种度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等,优选地,采用Cosine相似度。
S1 = Sim(S(IDbegin-1),m)
S2 = Sim(S(IDend+1),m)
(3.3.4)然后按下述流程进行判断处理:
If (S1 > T && S2 > T){
If ( S1== Max(S1,S2) ){
IDbegin--;
}
Else{
IDend++;
}
Elseif (S1 > T){
IDbegin--;
}
Elseif (S2 > T){
IDend++;
}
如果满足条件(S1>T || S2>T),则按具体情况将相应的邻域语句归并入语义范围,再转至步骤(3.3.2),生长继续;如果不满足此条件,生长终止,并输出语义范围的生长结果。同时限定生长范围不能越界,这里的T为生长阈值。
(3.4)语义场景分割
信息时代的一个重要特征就是信息的迅速更新,目前人们获取信息的主要来源已从传统的纸质媒介、电视拓展至网络、便携式智能设备,而在这些新设备上的信息推送也已被广泛应用,其特征表现为简短紧凑、不同内容的信息被连续推送给用户,在这种情况下,如何对这些信息进行自动语义切分已成为一项重要需求。本模块即是针对此需求,引入图像处理领域中的分割方法提出了相应的解决方案。
引入图像分割中性能良好的OTSU法进行语义场景分割处理,其原理是使类间方差最大化:
也即:
最优分割阈值K*按下式确定:
u0、u1分别为前景、背景的均值语义向量,w0、w1分别为前景、背景语句的分布概率,K是分割阈值,为文本总体均值语义向量,N为文本中语句总数,Dist(a,b)表示向量a和向量b之间的距离,Sim(a,b)表示向量a和向量b的相似度,这里的相似性度量可采用多种度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等,优选地,采用Cosine相似度。
进一步地,本方法可推广至多场景分割中的多阈值情形:
(4)语义处理结果展示,具体步骤如下:
将处理结果进行输出展示,并提交给用户,语义信息处理步骤中4个分步骤输出内容分别为:
(4.1)对于语义转折句提取:输出提取出的语义转折句的序号及语句内容;
(4.2)对于语义噪声句检测:输出噪声句的序号及语句内容;
(4.3)对于语义范围跟踪:输出语义跟踪的范围(种子句、开始句、结束句的序号及语句内容);
(4.4)对于语义场景分割:输出分割后的对应着不同场景的开始句、结束句的序号及语句内容。
本发明提供的轻量级的利用图像处理技术及语义向量空间的文本语义处理系统,由四大模块组成:文本输入及预处理模块、语义向量构建模块、语义信息处理模块、语义处理结果展示模块,分别对应于本发明文本语义处理方法的4个步骤,其中:
1.文本输入及预处理模块:对于输入的文本,首先进行语句分割处理,从而得到有序的语句序列,然后对每一句都进行停用词去除操作,目的是去除助词等干扰、保留下真正有语义的词语。
2.语义向量构建模块:基于大数据资源进行训练,构建词与语义空间的映射,从而为语义的比较提供可靠依据。
3.语义信息处理模块:该模块包括语义转折句提取、语义噪声句检测、语义范围跟踪、语义场景分割四个子模块,核心是利用图像处理技术并结合语义向量空间来对不同的场景需求进行处理以实现相应的功能。
4.语义处理结果展示模块:将处理结果进行输出展示,并提交给用户。
具体内容进一步介绍如下:
(1)文本输入及预处理模块,具体内容如下:
文本输入及预处理模块包含两个子模块:文本输入子模块、文本预处理子模块。对应于文本输入及预处理步骤中的2个分步骤。
(1.1)文本输入子模块,该子模块将用户提交的待处理文本输入系统。
(1.2)文本预处理子模块,该子模块依次进行如下工作:
(1.2.1) 对于输入的文本,首先按照语句分割标志符号(如句号、感叹号等)进行语句分割处理,从而得到有序的语句序列;
(1.2.2) 对序列中的每一句,进行停用词去除操作,目的是将真正有语义的词语保留下来,在减少无语义词语干扰、提高语义处理结果可靠性的同时,也减少了后续处理的计算量。
(2)语义向量构建模块,具体内容如下:
将文本单元视作图像像素,语义特征视作像素灰度,语义特征可采用多种方法进行计算,如Word2Vec方法、ESA特征、LSA特征、共现词频率特征等等,由于本发明的目的是面向能满足实时应用需求的轻量级的方法,因此,优选地,采用Word2Vec方法;
构建语义向量的训练数据可来源于各大知识库,优选地,采用维基百科知识库。
(3)语义信息处理模块,具体内容如下:
该模块包括语义转折句提取、语义噪声句检测、语义范围跟踪、语义场景分割四个子模块,分别对应于语义信息处理步骤中的4个分步骤。
(3.1)语义转折句提取子模块
该模块具体内容如下:
对预处理后得到的有序的语句序列,依次对每个语句进行如下操作:
以该句为中心进行加窗,窗口宽度W可根据实际情况而定,
其中,R为窗口半径。优选地,取窗口半径为1,即窗口宽度为3,此时参考图像处理中SOBEL模板并将其降至一维形式后得到的如下邻域模板对序列进行卷积:
具体地,语义梯度计算如下:
其中,S(i)表示序列号为i的语句对应的语义向量,Dist(a,b)表示向量a和向量b之间的距离。
为方便起见,可以直接考察相似度:
这里,Sim(a,b)表示向量a和向量b的相似度,这里的相似性度量可采用多种度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等,优选地,采用Cosine相似度,该值越小,对应语句是转折句的可能性就越大。
同时,为去除结果的冗余性,当相邻两句都符合语义转折句条件时,说明它们是前一语义段的末尾和后一语义段的开头,此时只需保留相似度较低的那一句即可;另外,为保证结果的稳定性,当邻域语句中至少有一句在去除停用词后剩余词语数目小于一定数值时的结果不予考虑(具体数值可依经验设定,优选地,可将此数值设为5)。
(3.2)语义噪声句检测子模块
该子模块采用图像处理中的噪声检测方法,实现对语义无关句(诸如广告植入之类语句)的自动检测。
优选地,取窗口半径为1,即窗口宽度为3,此时参考图像处理中LAPLACIAN模板并将其降至一维形式后得到的如下邻域模板对序列进行卷积:
具体地,语义梯度计算如下:
其中,S(i)表示序列号为i的语句对应的语义向量,Dist(a,b)表示向量a和向量b之间的距离。
为方便起见,可以直接考察相似度:
这里,Sim(a,b)表示向量a和向量b的相似度,这里的相似性度量可采用多种度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等,优选地,采用Cosine相似度,该值越小,则对应语句为噪声句的可能性就越大。
(3.3)语义范围跟踪子模块
该子模块采用图像处理中的区域生长方法来实现电子阅读中对用户感兴趣语义范围的自动导航。
(3.3.1)首先,选择一句或多句连续语句作为用户感兴趣的“种子”,也即初始化的语义范围。
(3.3.2)对当前语义范围中的语句序列,计算其语义均值向量m:
R为当前语句范围,序号范围为[IDbegin,IDend],N为R中的语句数目,S(i)为序号为i的语句的语义向量。
(3.3.3)对于待生长“像素”——当前语义范围的开始和结束的邻域语句IDbegin-1和IDend+1,分别计算其语义向量与当前区域的语义相似度,这里的相似性度量可采用多种度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等,优选地,采用Cosine相似度,
S1 = Sim(S(IDbegin-1),m)
S2 = Sim(S(IDend+1),m)
(3.3.4)然后按下述流程进行判断处理:
If (S1 > T && S2 > T){
If ( S1== Max(S1,S2) ){
IDbegin--;
}
Else{
IDend++;
}
Elseif (S1 > T){
IDbegin--;
}
Elseif (S2 > T){
IDend++;
}
如果满足条件(S1>T || S2>T),则按具体情况将相应的邻域语句归并入语义范围,再转至步骤(3.3.2),生长继续;如果不满足此条件,生长终止,并输出语义范围的生长结果。同时限定生长范围不能越界,这里的T为生长阈值。
(3.4)语义场景分割子模块
信息时代的一个重要特征就是信息的迅速更新,目前人们获取信息的主要来源已从传统的纸质媒介、电视拓展至网络、便携式智能设备,而在这些新设备上的信息推送也已被广泛应用,其特征表现为简短紧凑、不同内容的信息被连续推送给用户,在这种情况下,如何对这些信息进行自动语义切分已成为一项重要需求。本模块即是针对此需求,引入图像处理领域中的分割方法提出了相应的解决方案。
引入图像分割中性能良好的OTSU法进行语义场景分割处理,其原理是使类间方差最大化:
也即:
最优分割阈值K*按下式确定:
u0、u1分别为前景、背景的均值语义向量,w0、w1分别为前景、背景语句的分布概率,K是分割阈值,为文本总体均值语义向量,N为文本中语句总数,Dist(a,b)表示向量a和向量b之间的距离,Sim(a,b)表示向量a和向量b的相似度,这里的相似性度量可采用多种度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等,优选地,采用Cosine相似度。
进一步地,本方法可推广至多场景分割中的多阈值情形:
(4)语义处理结果展示模块,具体内容如下:
该模块将处理结果进行输出展示,并提交给用户,输出内容按子模块的不同分别包括:
(4.1)语义转折句提取:输出提取出的语义转折句的序号及语句内容;
(4.2)语义噪声句检测:输出噪声句的序号及语句内容;
(4.3)语义范围跟踪:输出语义跟踪的范围(种子句、开始句、结束句的序号及语句内容);
(4.4)语义场景分割:输出分割后的对应着不同场景的开始句、结束句的序号及语句内容。
本发明的有益效果
本发明与传统的文本语义处理技术不同,本发明提出的方法通过将语句映射为图像中的像素,并将描述语句的语义向量看作是图像中的像素点灰度值,从而得以能引入图像处理领域中的各种技术和方法来灵活地对文本进行处理,满足了多种应用场合的需求;同时,引入Word2Vec方法构建语义向量,在有效应对词语变体、同义词、近义词的影响的同时,也保证了算法的轻量级,从而更好地满足了实时应用的需求。
附图说明
图1:系统模块图。
图2:语义转折句提取图。横坐标为语句序号,纵坐标为相似度。
图3:语义噪声句检测图。横坐标为语句序号,纵坐标为相似度。
图4:语义场景分割图。横坐标为语句序号,纵坐标为类间方差值。
具体实施方式
以下用实例来演示本发明的具体实施方式,系统各模块依次进行处理如下:
(1)文本输入
输入一段文本,进行语句切分后按顺序排列如下:
[1] The People's Republic of China (PRC), the third-largest country in the world after the former USSR and Canada and the largest nation in Asia, claims an area of approximately 9.6 million square kilometers.
[2] China's landscape is vast and diverse, ranging from forest steppes and the Gobi and Taklamakan deserts in the arid north to subtropical forests in the wetter south.
[3] The Himalaya, Karakoram, Pamir and Tian Shan mountain ranges separate China from South and Central Asia.
[4] The Yangtze and Yellow Rivers, the third- and sixth-longest in the world, run from the Tibetan Plateau to the densely populated eastern seaboard.
[5] China's climate is mainly dominated by dry seasons and wet monsoons, which lead to pronounced temperature differences between winter and summer.
[6] In the winter, northern winds coming from high-latitude areas are cold and dry; in summer, southern winds from coastal areas at lower latitudes are warm and moist.
[7] The climate in China differs from region to region because of the country's highly complex topography.
[8] Although most of China lies within the temperate zone, climate varies greatly with topography.
[9] The national census of 2010 recorded the population of the People's Republic of China as approximately 1,370,536,875.
[10] About 16.60% of the population were 14 years old or younger, 70.14% were between 15 and 59 years old, and 13.26% were over 60 years old.
[11] The government has emphasized family planning since the 1970s, and has accomplished a significant reduction in population growth.
[12] The projected population for the year 2025 was 1,476,000,000.
[13] The population density was 136 per sq km (353 per sq mi), but the distribution of the population throughout China is extremely uneven.
[14] The most densely populated areas near the coast have a population density of more than 154 people per sq km (400 per sq mi), while the western plateaus are sparsely populated.
[15] A revamping of China's health system was underway in the late 1990s to manage serious diseases.
[16] The Ministry of Public Heath's ninth five-year plan on the control of serious diseases outlined major reforms to be reached by the year 2000.
[17] These include strengthening epidemic prevention management systems and facilities.
[18] National health practices, including the provision of both Western and traditional Chinese health services are under the supervision of the Ministry of Health.
[19] The ministry has emphasized preventive medicine and general improvement of sanitary conditions.
[20] Since the introduction of economic reforms in 1978, China has become one of the world's fastest-growing major economies.
[21] According to the IMF, China's annual average GDP growth between 2001 and 2010 was 10.5%.
[22] Between 2007 and 2011, China's economic growth rate was equivalent to all of the G7 countries' growth combined.
[23] As of 2013, it is the world's second-largest economy by both nominal total GDP and purchasing power parity (PPP), and is also the world's largest exporter and importer of goods.。
(2)语义向量构建
基于整个英文维基库的文本语料,使用Word2Vec进行训练,训练输出的向量维度为500维。
(3)语义信息处理
(3.1)语义转折句提取
语义转折句提取见图2所示。
取阈值0.35,得到语义转折句为4、9、15、20,结果正确,可见这些转折句分别对应着不同区间上的波谷位置。
第4句:The Yangtze and Yellow Rivers, the third- and sixth-longest in the world, run from the Tibetan Plateau to the densely populated eastern seaboard.
第9句:The national census of 2010 recorded the population of the People's Republic of China as approximately 1,370,536,875.
第15句:A revamping of China's health system was underway in the late 1990s to manage serious diseases.
第20句:Since the introduction of economic reforms in 1978, China has become one of the world's fastest-growing major economies.。
(3.2)语义噪声句检测
在第18句的位置插入一个语义无关的句子(其后的语句序号依次增加1,全文总语句数也相应加1):
Heineken Lager Beer, or simply Heineken, is a pale lager beer with 5% alcohol by volume produced by the Dutch brewing company Heineken International.
语义噪声句检测见图3所示。
取阈值0.1,检测出的噪声句的位置为第18句,结果正确,该噪声句显然对应着整个区间上最深的波谷位置。
(3.3)语义范围跟踪
生长阈值取0.4。
(3.3.1)选取种子句为第3句:
The Himalaya, Karakoram, Pamir and Tian Shan mountain ranges separate China from South and Central Asia.
区域生长的结果范围为:第1句 ~ 第4句,结果正确。
(3.3.2)选取种子句为第5句:
China's climate is mainly dominated by dry seasons and wet monsoons, which lead to pronounced temperature differences between winter and summer.
区域生长的结果范围为:第5句 ~ 第8句,结果正确。
(3.3.3)选取种子句为第17句:
These include strengthening epidemic prevention management systems and facilities.
区域生长的结果范围为:第15句 ~ 第19句,结果正确。
(3.3.4)选取种子句为第20句:
Since the introduction of economic reforms in 1978, China has become one of the world's fastest-growing major economies.
区域生长的结果范围为:第20句 ~ 第23句,结果正确。
(3.4)语义场景分割
仍以上述输入文本为例,采用OTSU法进行包含前景、背景的双语义场景分割,并用推广的多阈值OTSU法进行多语义场景的分割。
(3.4.1)设定场景数为2,采用OTSU法进行分割,结果如下:
场景1:第1句 ~ 第14句
场景2:第15句 ~ 第23句
语义场景分割图(场景数为2时)见图2所示,从图中可知,分割结果对应着整个区间上最高的峰值位置。
(3.4.2)设定场景数为3,采用推广的多阈值OTSU法进行分割,结果如下:
场景1:第1句 ~ 第14句
场景2:第15句 ~ 第19句
场景3:第20句 ~ 第23句
(3.4.3)设定场景数为4,采用推广的多阈值OTSU法进行分割,结果如下:
场景1:第1句 ~ 第8句
场景2:第9句 ~ 第14句
场景3:第15句 ~ 第19句
场景4:第20句 ~ 第23句
可见,随着设定场景数的增加,分割结果也逐渐精细,从而满足了用户对不同粒度分割的需求。
参考文献
[1] Tomas Mikolov, et al. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.
[2] Tomas Mikolov, et al. Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS, 2013.
[3] Tomas Mikolov, et al. Linguistic Regularities in Continuous Space Word Representations. In Proceedings of NAACL HLT, 2013。

Claims (2)

1.一种利用图像处理技术及语义向量空间的文本语义处理方法,其特征在于具体步骤分为:文本输入及预处理、语义向量构建、语义信息处理、语义处理结果展示4个步骤;
各步骤的具体内容如下:
(1)文本输入及预处理,具体步骤如下:
文本输入及预处理包含两个分步骤:文本输入、文本预处理:
(1.1)文本输入,是将用户提交的待处理文本输入系统;
(1.2)文本预处理,具体步骤为:
(1.2.1) 对于输入的文本,首先按照语句分割标志符号进行语句分割处理,得到有序的语句序列;
(1.2.2) 对序列中的每一句,进行停用词去除操作,将真正有语义的词语保留下来,在减少无语义词语干扰、提高语义处理结果可靠性的同时,也减少了后续处理的计算量;
(2)语义向量构建,具体步骤如下:
将文本单元视作图像像素,语义特征视作像素灰度,语义特征采用多种方法进行计算,构建语义向量的训练数据来源于各大知识库;
(3)语义信息处理,分为如下4个分步骤:
语义转折句提取、语义噪声句检测、语义范围跟踪、语义场景分割:
(3.1)语义转折句提取,具体步骤如下:
对预处理后得到的有序的语句序列,依次对每个语句进行如下操作:
以该句为中心进行加窗,窗口宽度W根据实际情况而定:
其中,R为窗口半径,此时参考图像处理中SOBEL模板并将其降至一维形式后得到的如下邻域模板对序列进行卷积:
语义梯度计算如下:
其中,S(i)表示序列号为i的语句对应的语义向量,Dist(a,b)表示向量a和向量b之间的距离;
直接考察相似度:
这里,Sim(a,b)表示向量a和向量b的相似度;
同时,为去除结果的冗余性,当相邻两句都符合语义转折句条件时,说明它们是前一语义段的末尾和后一语义段的开头,此时只保留相似度较低的那一句;另外,为保证结果的稳定性,当邻域语句中至少有一句在去除停用词后剩余词语数目小于一定数值时的结果不予考虑;
(3.2)语义噪声句检测
采用图像处理中的噪声检测方法,实现对语义无关句的自动检测;
参考图像处理中LAPLACIAN模板并将其降至一维形式后得到的如下邻域模板对序列进行卷积:
语义梯度计算如下:
其中,S(i)表示序列号为i的语句对应的语义向量,Dist(a,b)表示向量a和向量b之间的距离;
直接考察相似度:
这里,Sim(a,b)表示向量a和向量b的相似度;
(3.3)语义范围跟踪
采用图像处理中的区域生长方法来实现电子阅读中对用户感兴趣语义范围的自动导航;
(3.3.1)首先,选择一句或多句连续语句作为用户感兴趣的“种子”,也即初始化的语义范围;
(3.3.2)对当前语义范围中的语句序列,计算其语义均值向量m:
R为当前语句范围,序号范围为[IDbegin,IDend],N为R中的语句数目,S(i)为序号为i的语句的语义向量;
(3.3.3)对于待生长“像素”——当前语义范围的开始和结束的邻域语句IDbegin-1和IDend+1,分别计算其语义向量与当前区域的语义相似度;
S1 = Sim(S(IDbegin-1),m)
S2 = Sim(S(IDend+1),m)
(3.3.4)然后按下述流程进行判断处理:
If (S1 > T && S2 > T){
If ( S1== Max(S1,S2) ){
IDbegin--;
}
Else{
IDend++;
}
Elseif (S1 > T){
IDbegin--;
}
Elseif (S2 > T){
IDend++;
}
如果满足条件(S1>T || S2>T),则按具体情况将相应的邻域语句归并入语义范围,再转至步骤(3.3.2),生长继续;如果不满足此条件,生长终止,并输出语义范围的生长结果;同时限定生长范围不能越界,这里的T为生长阈值;
(3.4)语义场景分割
引入图像分割中性能良好的OTSU法进行语义场景分割处理,其原理是使类间方差最大化:
也即:
最优分割阈值K*按下式确定:
u0、u1分别为前景、背景的均值语义向量,w0、w1分别为前景、背景语句的分布概率,K是分割阈值,为文本总体均值语义向量,N为文本中语句总数,Dist(a,b)表示向量a和向量b之间的距离,Sim(a,b)表示向量a和向量b的相似度;
(4)语义处理结果展示,具体步骤如下:
将处理结果进行输出展示,并提交给用户,对应于语义信息处理步骤中4个分步骤输出内容分别为:
(4.1)对于语义转折句提取:输出提取出的语义转折句的序号及语句内容;
(4.2)对于语义噪声句检测:输出噪声句的序号及语句内容;
(4.3)对于语义范围跟踪:输出语义跟踪的范围,包括种子句、开始句、结束句的序号及语句内容;
(4.4)对于语义场景分割:输出分割后的对应着不同场景的开始句、结束句的序号及语句内容。
2.基于权利要求1所述方法的利用图像处理技术及语义向量空间的文本语义处理系统,其特征在于由四大模块组成:文本输入及预处理模块、语义向量构建模块、语义信息处理模块、语义处理结果展示模块,分别对应于权利要求1中文本语义处理方法的4个步骤,其中:
(1)文本输入及预处理模块,包含两个子模块:文本输入子模块、文本预处理子模块,对应于权利要求1中文本输入及预处理步骤中的2个分步骤;
(1.1)文本输入子模块,该子模块将用户提交的待处理文本输入系统;
(1.2)文本预处理子模块,该子模块依次进行如下工作:
(1.2.1) 对于输入的文本,首先按照语句分割标志符号进行语句分割处理,得到有序的语句序列;
(1.2.2) 对序列中的每一句,进行停用词去除操作,将真正有语义的词语保留下来;
(2)语义向量构建模块,具体内容如下:
将文本单元视作图像像素,语义特征视作像素灰度,语义特征可采用多种方法进行计算得到;
构建语义向量的训练数据来源于各大知识库;
(3)语义信息处理模块,具体内容如下:
该模块包括语义转折句提取、语义噪声句检测、语义范围跟踪、语义场景分割四个子模块,分别对应于权利要求1中语义信息处理步骤中的4个分步骤:
(3.1)语义转折句提取子模块,具体内容如下:
对预处理后得到的有序的语句序列,依次对每个语句进行如下操作:
以该句为中心进行加窗,窗口宽度W可根据实际情况而定,
其中,R为窗口半径,参考图像处理中SOBEL模板并将其降至一维形式后得到的如下邻域模板对序列进行卷积:
语义梯度计算如下:
其中,S(i)表示序列号为i的语句对应的语义向量,Dist(a,b)表示向量a和向量b之间的距离;
直接考察相似度:
这里,Sim(a,b)表示向量a和向量b的相似度;
同时,为去除结果的冗余性,当相邻两句都符合语义转折句条件时,只保留相似度较低的那一句即可;为保证结果的稳定性,当邻域语句中至少有一句在去除停用词后剩余词语数目小于一定数值时的结果不予考虑;
(3.2)语义噪声句检测子模块
该子模块采用图像处理中的噪声检测方法,实现对语义无关句的自动检测;
参考图像处理中LAPLACIAN模板并将其降至一维形式后得到的如下邻域模板对序列进行卷积:
语义梯度计算如下:
其中,S(i)表示序列号为i的语句对应的语义向量,Dist(a,b)表示向量a和向量b之间的距离;
直接考察相似度:
这里,Sim(a,b)表示向量a和向量b的相似度;
(3.3)语义范围跟踪子模块
该子模块采用图像处理中的区域生长方法来实现电子阅读中对用户感兴趣语义范围的自动导航:
(3.3.1)首先,选择一句或多句连续语句作为用户感兴趣的“种子”,也即初始化的语义范围;
(3.3.2)对当前语义范围中的语句序列,计算其语义均值向量m:
R为当前语句范围,序号范围为[IDbegin,IDend],N为R中的语句数目,S(i)为序号为i的语句的语义向量;
(3.3.3)对于待生长“像素”——当前语义范围的开始和结束的邻域语句IDbegin-1和IDend+1,分别计算其语义向量与当前区域的语义相似度;
S1 = Sim(S(IDbegin-1),m)
S2 = Sim(S(IDend+1),m)
(3.3.4)然后按下述流程进行判断处理:
If (S1 > T && S2 > T){
If ( S1== Max(S1,S2) ){
IDbegin--;
}
Else{
IDend++;
}
Elseif (S1 > T){
IDbegin--;
}
Elseif (S2 > T){
IDend++;
}
如果满足条件(S1>T || S2>T),则按具体情况将相应的邻域语句归并入语义范围,再转至步骤(3.3.2),生长继续;如果不满足此条件,生长终止,并输出语义范围的生长结果;同时限定生长范围不能越界,这里的T为生长阈值;
(3.4)语义场景分割子模块
引入图像分割中性能良好的OTSU法进行语义场景分割处理,其原理是使类间方差最大化:
也即:
最优分割阈值K*按下式确定:
u0、u1分别为前景、背景的均值语义向量,w0、w1分别为前景、背景语句的分布概率,K是分割阈值,为文本总体均值语义向量,N为文本中语句总数,Dist(a,b)表示向量a和向量b之间的距离,Sim(a,b)表示向量a和向量b的相似度;
(4)语义处理结果展示模块,具体内容如下:
该模块将处理结果进行输出展示,并提交给用户,输出内容按子模块的不同分别包括:
(4.1)对于语义转折句提取:输出提取出的语义转折句的序号及语句内容;
(4.2)对于语义噪声句检测:输出噪声句的序号及语句内容;
(4.3)对于语义范围跟踪:输出语义跟踪的范围(种子句、开始句、结束句的序号及语句内容);
(4.4)对于语义场景分割:输出分割后的对应着不同场景的开始句、结束句的序号及语句内容。
CN201410253847.0A 2014-06-10 2014-06-10 利用图像处理技术及语义向量空间的文本语义处理方法和系统 Expired - Fee Related CN104035992B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410253847.0A CN104035992B (zh) 2014-06-10 2014-06-10 利用图像处理技术及语义向量空间的文本语义处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410253847.0A CN104035992B (zh) 2014-06-10 2014-06-10 利用图像处理技术及语义向量空间的文本语义处理方法和系统

Publications (2)

Publication Number Publication Date
CN104035992A true CN104035992A (zh) 2014-09-10
CN104035992B CN104035992B (zh) 2017-05-10

Family

ID=51466762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410253847.0A Expired - Fee Related CN104035992B (zh) 2014-06-10 2014-06-10 利用图像处理技术及语义向量空间的文本语义处理方法和系统

Country Status (1)

Country Link
CN (1) CN104035992B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
CN104834686A (zh) * 2015-04-17 2015-08-12 中国科学院信息工程研究所 一种基于混合语义矩阵的视频推荐方法
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN108388654A (zh) * 2018-03-01 2018-08-10 合肥工业大学 一种基于转折句语义块划分机制的情感分类方法
CN110807332A (zh) * 2019-10-30 2020-02-18 腾讯科技(深圳)有限公司 语义理解模型的训练方法、语义处理方法、装置及存储介质
CN110851641A (zh) * 2018-08-01 2020-02-28 杭州海康威视数字技术股份有限公司 跨模态检索方法、装置和可读存储介质
CN111078083A (zh) * 2019-06-09 2020-04-28 广东小天才科技有限公司 一种点读内容的确定方法及电子设备
CN112801217A (zh) * 2021-03-19 2021-05-14 北京世纪好未来教育科技有限公司 文本相似度判断方法、装置、电子设备以及可读存储介质
CN113283218A (zh) * 2021-06-24 2021-08-20 中国平安人寿保险股份有限公司 一种语义文本压缩方法及计算机设备
CN116665228A (zh) * 2023-07-31 2023-08-29 恒生电子股份有限公司 图像处理方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6608930B1 (en) * 1999-08-09 2003-08-19 Koninklijke Philips Electronics N.V. Method and system for analyzing video content using detected text in video frames
CN102073692A (zh) * 2010-12-16 2011-05-25 北京农业信息技术研究中心 基于农业领域本体库的语义检索系统和方法
CN102567537A (zh) * 2011-12-31 2012-07-11 武汉理工大学 一种基于检索结果数量的短文本相似度计算方法
US20120296897A1 (en) * 2011-05-18 2012-11-22 Microsoft Corporation Text to Image Translation
CN102968410A (zh) * 2012-12-04 2013-03-13 江南大学 一种基于rbf神经网络算法与语义特征选取的文本分类方法
US20140149451A1 (en) * 2012-11-28 2014-05-29 International Business Machines Corporation Searching alternative data sources

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6608930B1 (en) * 1999-08-09 2003-08-19 Koninklijke Philips Electronics N.V. Method and system for analyzing video content using detected text in video frames
CN102073692A (zh) * 2010-12-16 2011-05-25 北京农业信息技术研究中心 基于农业领域本体库的语义检索系统和方法
US20120296897A1 (en) * 2011-05-18 2012-11-22 Microsoft Corporation Text to Image Translation
CN102567537A (zh) * 2011-12-31 2012-07-11 武汉理工大学 一种基于检索结果数量的短文本相似度计算方法
US20140149451A1 (en) * 2012-11-28 2014-05-29 International Business Machines Corporation Searching alternative data sources
CN102968410A (zh) * 2012-12-04 2013-03-13 江南大学 一种基于rbf神经网络算法与语义特征选取的文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张鑫姝等: "一种新闻视频文本语义信息提取与分析的新方法", 《电子技术 》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834686A (zh) * 2015-04-17 2015-08-12 中国科学院信息工程研究所 一种基于混合语义矩阵的视频推荐方法
CN104834686B (zh) * 2015-04-17 2018-12-28 中国科学院信息工程研究所 一种基于混合语义矩阵的视频推荐方法
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
CN104778161B (zh) * 2015-04-30 2017-07-07 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
CN106650756A (zh) * 2016-12-28 2017-05-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN106650756B (zh) * 2016-12-28 2019-12-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN108388654A (zh) * 2018-03-01 2018-08-10 合肥工业大学 一种基于转折句语义块划分机制的情感分类方法
CN108388654B (zh) * 2018-03-01 2020-03-17 合肥工业大学 一种基于转折句语义块划分机制的情感分类方法
CN110851641A (zh) * 2018-08-01 2020-02-28 杭州海康威视数字技术股份有限公司 跨模态检索方法、装置和可读存储介质
CN111078083A (zh) * 2019-06-09 2020-04-28 广东小天才科技有限公司 一种点读内容的确定方法及电子设备
CN110807332A (zh) * 2019-10-30 2020-02-18 腾讯科技(深圳)有限公司 语义理解模型的训练方法、语义处理方法、装置及存储介质
CN110807332B (zh) * 2019-10-30 2024-02-27 腾讯科技(深圳)有限公司 语义理解模型的训练方法、语义处理方法、装置及存储介质
CN112801217A (zh) * 2021-03-19 2021-05-14 北京世纪好未来教育科技有限公司 文本相似度判断方法、装置、电子设备以及可读存储介质
CN113283218A (zh) * 2021-06-24 2021-08-20 中国平安人寿保险股份有限公司 一种语义文本压缩方法及计算机设备
CN116665228A (zh) * 2023-07-31 2023-08-29 恒生电子股份有限公司 图像处理方法及装置
CN116665228B (zh) * 2023-07-31 2023-10-13 恒生电子股份有限公司 图像处理方法及装置

Also Published As

Publication number Publication date
CN104035992B (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
CN104035992A (zh) 利用图像处理技术及语义向量空间的文本语义处理方法和系统
CN104750687B (zh) 改进双语语料库的方法及装置、机器翻译方法及装置
CN104462053A (zh) 一种文本内的基于语义特征的人称代词指代消解方法
CN112597773B (zh) 文档结构化方法、系统、终端及介质
CN106909537B (zh) 一种基于主题模型和向量空间的一词多义分析方法
WO2017177809A1 (zh) 语言文本的分词方法和系统
CN110717041B (zh) 一种案件检索方法及系统
CN103678288A (zh) 一种专名自动翻译的方法
CN104699797A (zh) 一种网页数据结构化解析方法和装置
CN106372118A (zh) 面向大规模媒体文本数据的在线语义理解搜索系统及方法
CN104360993A (zh) 一种从文本提取所需内容的方法
CN106610949A (zh) 一种基于语义分析的文本特征提取方法
El-Kishky et al. XLEnt: Mining a large cross-lingual entity dataset with lexical-semantic-phonetic word alignment
CN110399613A (zh) 一种基于词性标注的互联网新闻涉及地名识别方法及系统
CN102004795B (zh) 一种手语检索的方法
Qiao et al. Spatial relationship-assisted classification from high-resolution remote sensing imagery
Ziyu et al. Simple road detection based on vanishing point
CN104298975A (zh) 一种分布式图像识别方法
CN108664618A (zh) 一种基于品牌分析系统的nlp中文分词歧义识别方法
CN103903001A (zh) 一种手指静脉网络精确提取方法
CN103593339A (zh) 面向电子图书的语义空间表示方法及系统
CN103116448A (zh) 一种可视化信息的抽取方法
CN103034717A (zh) 基于it2 fs的区间ii-型模糊地理区域拓扑关系确定方法
Wang et al. Few-Shot Object Detection with Multi-level Information Interaction for Optical Remote Sensing Images
Ma et al. A discriminative sequence model for dialog state tracking using user goal change detection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190704

Address after: Room 1103, Building 21, 39 Jibang Road, Zhongming Town, Shanghai 202163

Patentee after: SHANGHAI JILIAN NETWORK TECHNOLOGY Co.,Ltd.

Address before: 200433 No. 220, Handan Road, Shanghai, Yangpu District

Patentee before: Fudan University

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170510