CN104035992A

CN104035992A - 利用图像处理技术及语义向量空间的文本语义处理方法和系统

Info

Publication number: CN104035992A
Application number: CN201410253847.0A
Authority: CN
Inventors: 王晓平; 肖仰华; 汪卫
Original assignee: Fudan University
Current assignee: Shanghai Jilian Network Technology Co ltd
Priority date: 2014-06-10
Filing date: 2014-06-10
Publication date: 2014-09-10
Anticipated expiration: 2034-06-10
Also published as: CN104035992B

Abstract

本发明属于文本语义信息处理技术领域，具体涉及一种利用图像处理技术及语义向量空间的文本语义处理方法和系统。本发明包括文本输入及预处理、语义向量构建、语义信息处理、语义处理结果展示模块；语义信息处理具体包括：语义转折句提取、语义噪声句检测、语义范围跟踪和语义场景分割。本发明将文本单元映射为图像中的像素，并将描述文本单元的语义向量视为图像中的像素点灰度，从而能引入图像处理领域中的各种技术和方法来灵活、直观地处理文本，而且不易受到词语本身形式多样化的影响；同时，通过引入Word2Vec方法构建语义向量，保证了算法的轻量级，以应对实时应用的需求。

Description

利用图像处理技术及语义向量空间的文本语义处理方法和系统

技术领域

本发明属于文本语义信息处理技术领域，具体涉及一种轻量级的利用图像处理技术及语义向量空间的文本语义处理方法和系统。

背景技术

随着计算机技术及网络的发展，如今已进入信息爆炸时代——各种海量的数据以电子文本的形式呈现出来，在这种情况下，能够快速、准确地从中抽取出用户所关心的信息这一需求日益迫切，文本信息处理技术正是在这种背景下应运而生的，而文本的语义处理则是重中之重，它使得我们从语言处理迈向了语言理解。文本语义处理技术在很多领域都很有应用价值，如文本语义分段、自动文本摘要抽取、电子阅读语义导航等。

然而，目前的文本语义处理技术仍有一些局限性，以文本语义分割技术为例，基本上上是从基于词频统计的角度出发，通过计算相邻文本块内重复出现词语的词频统计向量的相似度来实现语义分割，如经典的TextTiling算法、Dotplotting算法，但它们都没有考虑到词语蕴含的语义空间，不能应对词语变体或者是同义词、近义词的影响，因而鲁棒性不强；在此之后的一些算法如ESA（Explicit semantic analysis）算法虽然通过引入语义向量空间增强了鲁棒性，但由于其语义空间维度过高、计算代价巨大，无法满足实时应用的需求；还有如TopicTilling算法，虽然通过加入词与主题间的联系改进了分割性能，但其需要复杂的主题模型介入，等等。

发明内容

本发明针对文本语义信息处理技术背景的弱点提出了一种轻量级的利用图像处理技术及语义向量空间的文本语义处理方法和系统。

本发明将文本单元映射为图像中的像素，并将描述文本单元的语义向量视为图像中的像素点灰度，从而不仅得以引入图像处理领域中的各种技术和方法来对文本进行灵活、直观地处理，而且也不易受到词语本身形式多样化的影响；同时，通过引入Word2Vec方法构建语义向量，保证了算法的轻量级，能够满足实时应用需求。

本发明面向文本语义处理中的几个应用场景分别提出了针对性的技术。具体地：面向文本分割需求，使用图像边缘检测技术实现对语义转折句的提取；面向电子文本中的语义不相关语句（如广告植入语句），采用图像处理中的噪声检测方法进行提取；面向电子阅读中的语义导航需求，采用图像处理中的区域生长技术实现对用户感兴趣内容的语义范围跟踪；面向信息快速推送场合的语义切分需求，采用图像分割方法实现对不同语义场景的分割。

本发明提供的轻量级的利用图像处理技术及语义向量空间的文本语义处理方法，具体步骤分为：文本输入及预处理、语义向量构建、语义信息处理、语义处理结果展示；其中：

1．文本输入及预处理：是对于输入的文本，首先进行语句分割处理，从而得到有序的语句序列，然后对每一句都进行停用词去除操作，目的是去除助词等干扰、保留下真正有语义的词语；

2．语义向量构建：基于大数据资源进行训练，构建词与语义空间的映射，从而为语义的比较提供可靠依据；

3．语义信息处理：包括语义转折句提取、语义噪声句检测、语义范围跟踪、语义场景分割四个分步骤，核心是利用图像处理技术并结合语义向量空间来对不同的场景需求进行处理以实现相应的功能；

4．语义处理结果展示：将处理结果进行输出展示，并提交给用户。

各步骤的具体内容如下：

（1）文本输入及预处理，具体步骤如下：

文本输入及预处理包含两个分步骤：文本输入、文本预处理：

（1.1）文本输入，是将用户提交的待处理文本输入系统；

（1.2）文本预处理，具体步骤为：

(1.2.1) 对于输入的文本，首先按照语句分割标志符号（如句号、感叹号等）进行语句分割处理，从而得到有序的语句序列；

(1.2.2) 对序列中的每一句，进行停用词去除操作，目的是将真正有语义的词语保留下来，在减少无语义词语干扰、提高语义处理结果可靠性的同时，也减少了后续处理的计算量。

（2）语义向量构建，具体步骤如下：

将文本单元视作图像像素，语义特征视作像素灰度，语义特征可采用多种方法进行计算，如Word2Vec方法、ESA（Explicit semantic analysis）特征、LSA（Latent semantic analysis）特征、共现词频率特征等等，由于本发明的目的是面向能满足实时应用需求的轻量级的方法，因此，优选地，采用Word2Vec方法（https://code.google.com/p/word2vec/，同时参见文献[1,2,3]）。

构建语义向量的训练数据可来源于各大知识库，优选地，采用维基百科知识库（http://www.wikipedia.org/）。

（3）语义信息处理，分为如下4个分步骤：

语义转折句提取、语义噪声句检测、语义范围跟踪、语义场景分割：

（3.1）语义转折句提取，具体步骤如下：

对预处理后得到的有序的语句序列，依次对每个语句进行如下操作：

以该句为中心进行加窗，窗口宽度W可根据实际情况而定，

其中，R为窗口半径。优选地，取窗口半径为1，即窗口宽度为3，此时参考图像处理中SOBEL模板并将其降至一维形式后得到的如下邻域模板对序列进行卷积：

具体地，语义梯度计算如下：

其中，S(i)表示序列号为i的语句对应的语义向量，Dist（a，b）表示向量a和向量b之间的距离。

为方便起见，可以直接考察相似度：

这里，Sim(a，b)表示向量a和向量b的相似度，这里的相似性度量可采用多种度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等，优选地，采用Cosine相似度，该值越小，对应语句是转折句的可能性就越大。

同时，为去除结果的冗余性，当相邻两句都符合语义转折句条件时，说明它们是前一语义段的末尾和后一语义段的开头，此时只需保留相似度较低的那一句即可；另外，为保证结果的稳定性，当邻域语句中至少有一句在去除停用词后剩余词语数目小于一定数值时的结果不予考虑（具体数值可依经验设定，优选地，可将此数值设为5）。

（3.2）语义噪声句检测

采用图像处理中的噪声检测方法，实现对语义无关句（诸如广告植入之类语句）的自动检测。

优选地，取窗口半径为1，即窗口宽度为3，此时参考图像处理中LAPLACIAN模板并将其降至一维形式后得到的如下邻域模板对序列进行卷积：

具体地，语义梯度计算如下：

为方便起见，可以直接考察相似度:

这里，Sim(a，b)表示向量a和向量b的相似度，这里的相似性度量可采用多种度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等，优选地，采用Cosine相似度，该值越小，则对应语句为噪声句的可能性就越大。

（3.3）语义范围跟踪

采用图像处理中的区域生长方法来实现电子阅读中对用户感兴趣语义范围的自动导航。

（3.3.1）首先，选择一句或多句连续语句作为用户感兴趣的“种子”，也即初始化的语义范围。

（3.3.2）对当前语义范围中的语句序列，计算其语义均值向量m：

R为当前语句范围，序号范围为[ID_begin，ID_end]，N为R中的语句数目，S(i)为序号为i的语句的语义向量。

（3.3.3）对于待生长“像素”——当前语义范围的开始和结束的邻域语句ID_begin-1和ID_end+1，分别计算其语义向量与当前区域的语义相似度，这里的相似性度量可采用多种度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等，优选地，采用Cosine相似度。

S₁ = Sim(S(ID_begin-1)，m)

S₂ = Sim(S(ID_end+1)，m)

（3.3.4）然后按下述流程进行判断处理：

If (S₁> T && S₂> T){

If ( S₁== Max(S₁,S₂) ){

ID_begin--;

}

Else{

ID_end++;

}

Elseif (S₁> T){

ID_begin--;

}

Elseif (S₂> T){

ID_end++;

}

如果满足条件(S1>T || S2>T)，则按具体情况将相应的邻域语句归并入语义范围，再转至步骤（3.3.2），生长继续；如果不满足此条件，生长终止，并输出语义范围的生长结果。同时限定生长范围不能越界，这里的T为生长阈值。

（3.4）语义场景分割

信息时代的一个重要特征就是信息的迅速更新，目前人们获取信息的主要来源已从传统的纸质媒介、电视拓展至网络、便携式智能设备，而在这些新设备上的信息推送也已被广泛应用，其特征表现为简短紧凑、不同内容的信息被连续推送给用户，在这种情况下，如何对这些信息进行自动语义切分已成为一项重要需求。本模块即是针对此需求，引入图像处理领域中的分割方法提出了相应的解决方案。

引入图像分割中性能良好的OTSU法进行语义场景分割处理，其原理是使类间方差最大化：

也即：

最优分割阈值K^*按下式确定：

u₀、u₁分别为前景、背景的均值语义向量，w₀、w₁分别为前景、背景语句的分布概率，K是分割阈值，为文本总体均值语义向量，N为文本中语句总数，Dist（a，b）表示向量a和向量b之间的距离，Sim(a，b)表示向量a和向量b的相似度，这里的相似性度量可采用多种度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等，优选地，采用Cosine相似度。

进一步地，本方法可推广至多场景分割中的多阈值情形：

（4）语义处理结果展示，具体步骤如下：

将处理结果进行输出展示，并提交给用户，语义信息处理步骤中4个分步骤输出内容分别为：

（4.1）对于语义转折句提取：输出提取出的语义转折句的序号及语句内容；

（4.2）对于语义噪声句检测：输出噪声句的序号及语句内容；

（4.3）对于语义范围跟踪：输出语义跟踪的范围（种子句、开始句、结束句的序号及语句内容）；

（4.4）对于语义场景分割：输出分割后的对应着不同场景的开始句、结束句的序号及语句内容。

本发明提供的轻量级的利用图像处理技术及语义向量空间的文本语义处理系统，由四大模块组成：文本输入及预处理模块、语义向量构建模块、语义信息处理模块、语义处理结果展示模块，分别对应于本发明文本语义处理方法的4个步骤，其中：

1．文本输入及预处理模块：对于输入的文本，首先进行语句分割处理，从而得到有序的语句序列，然后对每一句都进行停用词去除操作，目的是去除助词等干扰、保留下真正有语义的词语。

2．语义向量构建模块：基于大数据资源进行训练，构建词与语义空间的映射，从而为语义的比较提供可靠依据。

3．语义信息处理模块：该模块包括语义转折句提取、语义噪声句检测、语义范围跟踪、语义场景分割四个子模块，核心是利用图像处理技术并结合语义向量空间来对不同的场景需求进行处理以实现相应的功能。

4．语义处理结果展示模块：将处理结果进行输出展示，并提交给用户。

具体内容进一步介绍如下：

（1）文本输入及预处理模块，具体内容如下：

文本输入及预处理模块包含两个子模块：文本输入子模块、文本预处理子模块。对应于文本输入及预处理步骤中的2个分步骤。

（1.1）文本输入子模块，该子模块将用户提交的待处理文本输入系统。

（1.2）文本预处理子模块，该子模块依次进行如下工作：

（2）语义向量构建模块，具体内容如下：

将文本单元视作图像像素，语义特征视作像素灰度，语义特征可采用多种方法进行计算，如Word2Vec方法、ESA特征、LSA特征、共现词频率特征等等，由于本发明的目的是面向能满足实时应用需求的轻量级的方法，因此，优选地，采用Word2Vec方法；

构建语义向量的训练数据可来源于各大知识库，优选地，采用维基百科知识库。

（3）语义信息处理模块，具体内容如下：

该模块包括语义转折句提取、语义噪声句检测、语义范围跟踪、语义场景分割四个子模块，分别对应于语义信息处理步骤中的4个分步骤。

（3.1）语义转折句提取子模块

该模块具体内容如下：

以该句为中心进行加窗，窗口宽度W可根据实际情况而定，

具体地，语义梯度计算如下：

为方便起见，可以直接考察相似度：

（3.2）语义噪声句检测子模块

该子模块采用图像处理中的噪声检测方法，实现对语义无关句（诸如广告植入之类语句）的自动检测。

具体地，语义梯度计算如下：

为方便起见，可以直接考察相似度:

（3.3）语义范围跟踪子模块

该子模块采用图像处理中的区域生长方法来实现电子阅读中对用户感兴趣语义范围的自动导航。

（3.3.3）对于待生长“像素”——当前语义范围的开始和结束的邻域语句ID_begin-1和ID_end+1，分别计算其语义向量与当前区域的语义相似度，这里的相似性度量可采用多种度量如Cosine、Cityblock、Euclidean、Mahalanobis、Minkowski、Chebychev等，优选地，采用Cosine相似度，

S₁ = Sim(S(ID_begin-1)，m)

S₂ = Sim(S(ID_end+1)，m)

（3.3.4）然后按下述流程进行判断处理：

If (S₁> T && S₂> T){

If ( S₁== Max(S₁,S₂) ){

ID_begin--;

}

Else{

ID_end++;

}

Elseif (S₁> T){

ID_begin--;

}

Elseif (S₂> T){

ID_end++;

}

（3.4）语义场景分割子模块

也即：

最优分割阈值K^*按下式确定：

进一步地，本方法可推广至多场景分割中的多阈值情形：

（4）语义处理结果展示模块，具体内容如下：

该模块将处理结果进行输出展示，并提交给用户，输出内容按子模块的不同分别包括：

（4.1）语义转折句提取：输出提取出的语义转折句的序号及语句内容；

（4.2）语义噪声句检测：输出噪声句的序号及语句内容；

（4.3）语义范围跟踪：输出语义跟踪的范围（种子句、开始句、结束句的序号及语句内容）；

（4.4）语义场景分割：输出分割后的对应着不同场景的开始句、结束句的序号及语句内容。

本发明的有益效果

本发明与传统的文本语义处理技术不同，本发明提出的方法通过将语句映射为图像中的像素，并将描述语句的语义向量看作是图像中的像素点灰度值，从而得以能引入图像处理领域中的各种技术和方法来灵活地对文本进行处理，满足了多种应用场合的需求；同时，引入Word2Vec方法构建语义向量，在有效应对词语变体、同义词、近义词的影响的同时，也保证了算法的轻量级，从而更好地满足了实时应用的需求。

附图说明

图1：系统模块图。

图2：语义转折句提取图。横坐标为语句序号，纵坐标为相似度。

图3：语义噪声句检测图。横坐标为语句序号，纵坐标为相似度。

图4：语义场景分割图。横坐标为语句序号，纵坐标为类间方差值。

具体实施方式

以下用实例来演示本发明的具体实施方式，系统各模块依次进行处理如下：

（1）文本输入

输入一段文本，进行语句切分后按顺序排列如下：

[1] The People's Republic of China (PRC), the third-largest country in the world after the former USSR and Canada and the largest nation in Asia, claims an area of approximately 9.6 million square kilometers.

[2] China's landscape is vast and diverse, ranging from forest steppes and the Gobi and Taklamakan deserts in the arid north to subtropical forests in the wetter south.

[3] The Himalaya, Karakoram, Pamir and Tian Shan mountain ranges separate China from South and Central Asia.

[4] The Yangtze and Yellow Rivers, the third- and sixth-longest in the world, run from the Tibetan Plateau to the densely populated eastern seaboard.

[5] China's climate is mainly dominated by dry seasons and wet monsoons, which lead to pronounced temperature differences between winter and summer.

[6] In the winter, northern winds coming from high-latitude areas are cold and dry; in summer, southern winds from coastal areas at lower latitudes are warm and moist.

[7] The climate in China differs from region to region because of the country's highly complex topography.

[8] Although most of China lies within the temperate zone, climate varies greatly with topography.

[9] The national census of 2010 recorded the population of the People's Republic of China as approximately 1,370,536,875.

[10] About 16.60% of the population were 14 years old or younger, 70.14% were between 15 and 59 years old, and 13.26% were over 60 years old.

[11] The government has emphasized family planning since the 1970s, and has accomplished a significant reduction in population growth.

[12] The projected population for the year 2025 was 1,476,000,000.

[13] The population density was 136 per sq km (353 per sq mi), but the distribution of the population throughout China is extremely uneven.

[14] The most densely populated areas near the coast have a population density of more than 154 people per sq km (400 per sq mi), while the western plateaus are sparsely populated.

[15] A revamping of China's health system was underway in the late 1990s to manage serious diseases.

[16] The Ministry of Public Heath's ninth five-year plan on the control of serious diseases outlined major reforms to be reached by the year 2000.

[17] These include strengthening epidemic prevention management systems and facilities.

[18] National health practices, including the provision of both Western and traditional Chinese health services are under the supervision of the Ministry of Health.

[19] The ministry has emphasized preventive medicine and general improvement of sanitary conditions.

[20] Since the introduction of economic reforms in 1978, China has become one of the world's fastest-growing major economies.

[21] According to the IMF, China's annual average GDP growth between 2001 and 2010 was 10.5%.

[22] Between 2007 and 2011, China's economic growth rate was equivalent to all of the G7 countries' growth combined.

[23] As of 2013, it is the world's second-largest economy by both nominal total GDP and purchasing power parity (PPP), and is also the world's largest exporter and importer of goods.。

（2）语义向量构建

基于整个英文维基库的文本语料，使用Word2Vec进行训练，训练输出的向量维度为500维。

（3）语义信息处理

（3.1）语义转折句提取

语义转折句提取见图2所示。

取阈值0.35，得到语义转折句为4、9、15、20，结果正确，可见这些转折句分别对应着不同区间上的波谷位置。

第4句：The Yangtze and Yellow Rivers, the third- and sixth-longest in the world, run from the Tibetan Plateau to the densely populated eastern seaboard.

第9句：The national census of 2010 recorded the population of the People's Republic of China as approximately 1,370,536,875.

第15句：A revamping of China's health system was underway in the late 1990s to manage serious diseases.

第20句：Since the introduction of economic reforms in 1978, China has become one of the world's fastest-growing major economies.。

（3.2）语义噪声句检测

在第18句的位置插入一个语义无关的句子（其后的语句序号依次增加1，全文总语句数也相应加1）：

Heineken Lager Beer, or simply Heineken, is a pale lager beer with 5% alcohol by volume produced by the Dutch brewing company Heineken International.

语义噪声句检测见图3所示。

取阈值0.1，检测出的噪声句的位置为第18句，结果正确，该噪声句显然对应着整个区间上最深的波谷位置。

（3.3）语义范围跟踪

生长阈值取0.4。

（3.3.1）选取种子句为第3句：

The Himalaya, Karakoram, Pamir and Tian Shan mountain ranges separate China from South and Central Asia.

区域生长的结果范围为：第1句～第4句，结果正确。

（3.3.2）选取种子句为第5句：

China's climate is mainly dominated by dry seasons and wet monsoons, which lead to pronounced temperature differences between winter and summer.

区域生长的结果范围为：第5句～第8句，结果正确。

（3.3.3）选取种子句为第17句：

These include strengthening epidemic prevention management systems and facilities.

区域生长的结果范围为：第15句～第19句，结果正确。

（3.3.4）选取种子句为第20句：

Since the introduction of economic reforms in 1978, China has become one of the world's fastest-growing major economies.

区域生长的结果范围为：第20句～第23句，结果正确。

（3.4）语义场景分割

仍以上述输入文本为例，采用OTSU法进行包含前景、背景的双语义场景分割，并用推广的多阈值OTSU法进行多语义场景的分割。

（3.4.1）设定场景数为2，采用OTSU法进行分割，结果如下：

场景1：第1句～第14句

场景2：第15句～第23句

语义场景分割图（场景数为2时）见图2所示，从图中可知，分割结果对应着整个区间上最高的峰值位置。

（3.4.2）设定场景数为3，采用推广的多阈值OTSU法进行分割，结果如下：

场景1：第1句～第14句

场景2：第15句～第19句

场景3：第20句～第23句

（3.4.3）设定场景数为4，采用推广的多阈值OTSU法进行分割，结果如下：

场景1：第1句～第8句

场景2：第9句～第14句

场景3：第15句～第19句

场景4：第20句～第23句

可见，随着设定场景数的增加，分割结果也逐渐精细，从而满足了用户对不同粒度分割的需求。

参考文献

[1] Tomas Mikolov, et al. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.

[2] Tomas Mikolov, et al. Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS, 2013.

[3] Tomas Mikolov, et al. Linguistic Regularities in Continuous Space Word Representations. In Proceedings of NAACL HLT, 2013。

Claims

1.一种利用图像处理技术及语义向量空间的文本语义处理方法，其特征在于具体步骤分为：文本输入及预处理、语义向量构建、语义信息处理、语义处理结果展示4个步骤；

各步骤的具体内容如下：

（1）文本输入及预处理，具体步骤如下：

（1.1）文本输入，是将用户提交的待处理文本输入系统；

（1.2）文本预处理，具体步骤为：

(1.2.1) 对于输入的文本，首先按照语句分割标志符号进行语句分割处理，得到有序的语句序列；

(1.2.2) 对序列中的每一句，进行停用词去除操作，将真正有语义的词语保留下来，在减少无语义词语干扰、提高语义处理结果可靠性的同时，也减少了后续处理的计算量；

（2）语义向量构建，具体步骤如下：

将文本单元视作图像像素，语义特征视作像素灰度，语义特征采用多种方法进行计算，构建语义向量的训练数据来源于各大知识库；

（3）语义信息处理，分为如下4个分步骤：

（3.1）语义转折句提取，具体步骤如下：

以该句为中心进行加窗，窗口宽度W根据实际情况而定：

其中，R为窗口半径，此时参考图像处理中SOBEL模板并将其降至一维形式后得到的如下邻域模板对序列进行卷积：

语义梯度计算如下：

其中，S(i)表示序列号为i的语句对应的语义向量，Dist（a，b）表示向量a和向量b之间的距离；

直接考察相似度：

这里，Sim(a，b)表示向量a和向量b的相似度；

同时，为去除结果的冗余性，当相邻两句都符合语义转折句条件时，说明它们是前一语义段的末尾和后一语义段的开头，此时只保留相似度较低的那一句；另外，为保证结果的稳定性，当邻域语句中至少有一句在去除停用词后剩余词语数目小于一定数值时的结果不予考虑；

（3.2）语义噪声句检测

采用图像处理中的噪声检测方法，实现对语义无关句的自动检测；

参考图像处理中LAPLACIAN模板并将其降至一维形式后得到的如下邻域模板对序列进行卷积：

语义梯度计算如下：

直接考察相似度:

这里，Sim(a，b)表示向量a和向量b的相似度；

（3.3）语义范围跟踪

采用图像处理中的区域生长方法来实现电子阅读中对用户感兴趣语义范围的自动导航；

（3.3.1）首先，选择一句或多句连续语句作为用户感兴趣的“种子”，也即初始化的语义范围；

R为当前语句范围，序号范围为[ID_begin，ID_end]，N为R中的语句数目，S(i)为序号为i的语句的语义向量；

（3.3.3）对于待生长“像素”——当前语义范围的开始和结束的邻域语句ID_begin-1和ID_end+1，分别计算其语义向量与当前区域的语义相似度；

S₁ = Sim(S(ID_begin-1)，m)

S₂ = Sim(S(ID_end+1)，m)

（3.3.4）然后按下述流程进行判断处理：

If (S₁> T && S₂> T){

If ( S₁== Max(S₁,S₂) ){

ID_begin--;

}

Else{

ID_end++;

}

Elseif (S₁> T){

ID_begin--;

}

Elseif (S₂> T){

ID_end++;

}

如果满足条件(S1>T || S2>T)，则按具体情况将相应的邻域语句归并入语义范围，再转至步骤（3.3.2），生长继续；如果不满足此条件，生长终止，并输出语义范围的生长结果；同时限定生长范围不能越界，这里的T为生长阈值；

（3.4）语义场景分割

也即：

最优分割阈值K^*按下式确定：

u₀、u₁分别为前景、背景的均值语义向量，w₀、w₁分别为前景、背景语句的分布概率，K是分割阈值，为文本总体均值语义向量，N为文本中语句总数，Dist（a，b）表示向量a和向量b之间的距离，Sim(a，b)表示向量a和向量b的相似度；

（4）语义处理结果展示，具体步骤如下：

将处理结果进行输出展示，并提交给用户，对应于语义信息处理步骤中4个分步骤输出内容分别为：

（4.3）对于语义范围跟踪：输出语义跟踪的范围，包括种子句、开始句、结束句的序号及语句内容；

2.基于权利要求1所述方法的利用图像处理技术及语义向量空间的文本语义处理系统，其特征在于由四大模块组成：文本输入及预处理模块、语义向量构建模块、语义信息处理模块、语义处理结果展示模块，分别对应于权利要求1中文本语义处理方法的4个步骤，其中：

（1）文本输入及预处理模块，包含两个子模块：文本输入子模块、文本预处理子模块，对应于权利要求1中文本输入及预处理步骤中的2个分步骤；

（1.1）文本输入子模块，该子模块将用户提交的待处理文本输入系统；

（1.2）文本预处理子模块，该子模块依次进行如下工作：

(1.2.2) 对序列中的每一句，进行停用词去除操作，将真正有语义的词语保留下来；

（2）语义向量构建模块，具体内容如下：

将文本单元视作图像像素，语义特征视作像素灰度，语义特征可采用多种方法进行计算得到；

构建语义向量的训练数据来源于各大知识库；

（3）语义信息处理模块，具体内容如下：

该模块包括语义转折句提取、语义噪声句检测、语义范围跟踪、语义场景分割四个子模块，分别对应于权利要求1中语义信息处理步骤中的4个分步骤：

（3.1）语义转折句提取子模块，具体内容如下：

以该句为中心进行加窗，窗口宽度W可根据实际情况而定，

其中，R为窗口半径，参考图像处理中SOBEL模板并将其降至一维形式后得到的如下邻域模板对序列进行卷积：

语义梯度计算如下：

直接考察相似度：

这里，Sim(a，b)表示向量a和向量b的相似度；

同时，为去除结果的冗余性，当相邻两句都符合语义转折句条件时，只保留相似度较低的那一句即可；为保证结果的稳定性，当邻域语句中至少有一句在去除停用词后剩余词语数目小于一定数值时的结果不予考虑；

（3.2）语义噪声句检测子模块

该子模块采用图像处理中的噪声检测方法，实现对语义无关句的自动检测；

语义梯度计算如下：

直接考察相似度:

这里，Sim(a，b)表示向量a和向量b的相似度；

（3.3）语义范围跟踪子模块

该子模块采用图像处理中的区域生长方法来实现电子阅读中对用户感兴趣语义范围的自动导航：

S₁ = Sim(S(ID_begin-1)，m)

S₂ = Sim(S(ID_end+1)，m)

（3.3.4）然后按下述流程进行判断处理：

If (S₁> T && S₂> T){

If ( S₁== Max(S₁,S₂) ){

ID_begin--;

}

Else{

ID_end++;

}

Elseif (S₁> T){

ID_begin--;

}

Elseif (S₂> T){

ID_end++;

}

（3.4）语义场景分割子模块

也即：

最优分割阈值K^*按下式确定：

（4）语义处理结果展示模块，具体内容如下：