CN105095204A

CN105095204A - 同义词的获取方法及装置

Info

Publication number: CN105095204A
Application number: CN201410156167.7A
Authority: CN
Inventors: 阮淑梨; 蒋建; 魏洪平; 谢庆伟
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd
Priority date: 2014-04-17
Filing date: 2014-04-17
Publication date: 2015-11-25
Anticipated expiration: 2034-04-17
Also published as: CN105095204B

Abstract

本发明涉及一种同义词的获取方法及装置，该方法包括：获取文本集，对文本集进行分词生成第一词语集；对第一词语集通过停词表进行无效词过滤生成第二词语集；对第二词语集中的任意两个词语进行编辑距离处理生成第一同义词对集；对第一词语集中的词语构建向量空间模型；根据该模型获得每对同义词的空间向量，计算每对同义词的余弦相似度值，将每对同义词进行余弦阈值过滤策略的识别，生成第二同义词对集；对第二同义词对集中的词语进行词性标注生成第三同义词对集；将第三同义词对集中的词语通过一元模型处理后获取同义词。因此，本申请实现了检索出的同义词更为准确，并且没有歧义词语和无效词语出现，从而智能的检索出同义词的相关网页。

Description

同义词的获取方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种同义词的获取方法及装置。

背景技术

随着互联网的高速发展，电子商务也逐步发展起来。对于电子商务网站的站内搜索引擎而言，应该尽可能准确的将与用户所输入的搜索请求的同义词相匹配的网页检索出来。在检索中同义词是语言中广泛存在的现象，这是由客观概念与具体词语间的复杂关系造成的。

对于业务同义词词表的构建，假如通过人工逐一标记，耗时长，同时不能保证数据能够被完全覆盖，而且人工带有个人感情色彩以及经验主义，所以人工生成的业务同义词词表正确性存在一定的主观元素。

现有的同义词林标记，由于同义词林庞大，内容广泛，很多同义词不属于业务词类，没必要进行标记但需要进行额外的过滤，同时，同义词林没有针对性，对于某些业务同义词没有特殊标记，所以用同义词林标注的业务同义词词表，会存在过多不相关的同义词对，以及会对某些业务同义词对有所疏漏。所以，针对业务数据特点，有必要通过数据获取的方式，智能快捷的标注出该业务场景下的同义词词表。

现有的同义词获取的方法侧重于基于词汇字面相似度算法以及基于《同义词词林》、《知网》等语义词典的语义相似度算法。基于词汇相似度算法的方法，主要是基于词汇字形相似度算法，有时会引入权重计算来提高字面相似度的识别效果，或是引入词性特点对同义词识别进行归类计算。但是现有技术中基于词汇字面相似度算法的同义词获取方法，只是通过编辑距离处理生成同义词集，识别效率还不够高，在识别出来的同义词词表中还需要进行大量的人工筛选操作才能获得最终的同义词词表。

在语义相似度算法上，主要是根据《同义词词林》的编码规范，将词汇相似度比较转换成词汇在词林中的编码相似度的比较。现有的基于语义相似度算法的同义词获取方法，在业务应用上很多时候显得不太实用，一来词林庞大，一般具有通用性，所以涵盖了大量不必要的同义词信息，而且词林不具有针对性，对于一些业务词汇没有进行词性标注，有时候还需要将一些词林词汇进行合成才能获得业务词汇，这个合成过程就会容易造成歧义词汇的出现。

发明内容

本发明的目的是提供了一种同义词的获取方法及装置，以解决现有技术中检索同义词时，歧义同义词和不精确的同义词的出现。

为实现上述目的，本发明一方面提供了一种同义词的获取方法，该方法包括：获取文本集，对文本集进行分词生成第一词语集；对第一词语集通过停词表识别，进行无效词过滤生成第二词语集；对第二词语集中的任意两个词语进行编辑距离处理生成第一同义词对集；对第一词语集中的词语构建向量空间模型；根据向量空间模型，获得第一同义词对集中的每对同义词的空间向量，计算第一同义词对集中的每对同义词的余弦相似度值，并根据余弦相似度值将每对同义词进行余弦阈值过滤策略的识别，生成第二同义词对集；对第二同义词对集中的词语进行词性标注，通过词性过滤策略生成第三同义词对集；将第三同义词对集中的词语通过一元模型处理后，生成第四同义词对集，以获取同义词。

本发明另一方面提供了一种同义词的获取装置，该装置包括：分词模块，用于获取文本集，对文本集进行分词生成第一词语集；过滤模块，用于对第一词语集通过停词表识别，进行无效词过滤生成第二词语集；编辑距离模块，用于对第二词语集中的任意两个词语进行编辑距离处理生成第一同义词对集；向量模块，用于对第一词语集中的词语构建向量空间模型；余弦模块，用于根据向量空间模型，获得第一同义词对集中的每对同义词的空间向量，计算第一同义词对集中的每对同义词的余弦相似度值，并根据余弦相似度值将每对同义词进行余弦阈值过滤策略的识别，生成第二同义词对集；词性策略模块，用于对第二同义词对集中的词语进行词性标注，通过词性过滤策略生成第三同义词对集；一元模型模块，用于将第三同义词对集中的词语通过一元模型处理后，生成第四同义词对集，以获取同义词。

本发明提供的同义词的获取方法及装置除了对词语进行编辑距离处理之外，还通过对词语进行无效词过滤、余弦相似度过滤、词性过滤和构建一元模型处理生成更为准确的同义词对集，实现了检索出的同义词更为准确，并且没有歧义词语和无效词语出现，从而智能快捷的检索出同义词的相关网页。

附图说明

图1为本发明实施例一的同义词的获取方法流程图；

图2为本发明实施例一的对词语进行编辑距离处理的流程图；

图3为本发明实施例二的同义词的获取装置示意图；

图4为本发明实施例二的编辑距离模块对词语进行编辑距离处理的装置示意图。

具体实施方式

为使本发明实施例的技术方案以及优点表达的更清楚，下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明提供的一种同义词的获取方法及装置，该方法通过对词语进行无效词过滤、编辑距离处理、余弦相似度过滤、词性过滤和构建一元模型(Unigram)处理生成更为准确的同义词对集，通过本发明中的同义词的获取方法及装置实现了检索出的同义词更为准确，并且没有歧义词语和无效词语出现，从而智能快捷的检索出同义词的相关网页。该方法通过对词语进行无效词过滤、编辑距离处理、余弦相似度过滤、词性过滤和构建一元模型处理生成更为准确的同义词对集。

图1为本发明实施例一的同义词的获取方法流程图。如图1所示，同义词的获取方法具体包括以下步骤：

步骤101、获取文本集，对文本集进行分词生成第一词语集。

具体地，文本集是在服务器中预先准备好的一组文本，例如：用户与客服交流的聊天记录，这些文本或聊天记录都存储在服务器上，文本集就是在这个服务器上获取的，或者文本集来源于专业业务人员整理的知识点数据。

对文本集进行分词的是利用具有将文本集中的语句段落进行拆分，分成多个词语的功能的软件或模块来完成的，例如：阿里分词（ALIwordseparate，ALIWS）软件。例如分词模块对“请问新款的秋冬连衣裙今年什么时间上架啊”进行分词，分为“请问、新款、的、秋冬连衣裙、今年、什么、时间、上架、啊”纳入第一词语集，“问问最新款连衣裙中的秋冬装连衣裙今年什么时候买”分为“问问、最新款、连衣裙、中、的、秋冬装连衣裙、今年、什么时候、买”也纳入第一词语集。

步骤102、对第一词语集通过停词表识别，进行无效词过滤生成第二词语集。

具体地，停词表是一个包括有很多无效词的词库，无效词是没有太多实际业务意义的词或字，这些无效词大多数是助词、语气词和代词等，例如：的，了，啊，我的，你的。通过停词表将第一词语集中的无效词过滤，比如“的，了，啊”类似的词过滤掉后生成第二词语集。例如对步骤101中第一词语集中的“请问、新款、的、秋冬连衣裙、今年、什么、时间、上架、啊”进行无效词过滤，生成“请问、新款、秋冬连衣裙、今年、什么、时间、上架”纳入第二词语集，“问问最新款连衣裙中的秋冬装连衣裙今年什么时候买”进行无效词过滤，生成“问问、最新款、连衣裙、秋冬装连衣裙、今年、什么时候、买”纳入第二词语集。经过过滤后生成的第二词语集中的词语比第一词语集中的词语更为准确，并减少了第一词语集的冗余。

步骤103、对第二词语集中的任意两个词语进行编辑距离处理生成第一同义词对集。

图2为本发明实施例一的对词语进行编辑距离处理的流程图。如图2所示，对词语进行编辑距离处理具体包括以下步骤：

步骤201、判断任意两个词语的长度比例是否小于等于2且大于等于1/2，如果是则进行下一步，如果否则计算结束。

具体地，两个词语的长度大于2后，再判断是否词语a的长度<=2*词语b的长度，且词语b的长度<=2*词语a的长度，如果结果为是则往下执行，否则计算结束，其中word1为词语a，word2为词语b。例如：第二词语集中的词语“秋冬连衣裙”与“秋冬装连衣裙”的长度比例是5/6,5/6小于等于2且大于等于1/2，则进行下一步骤。

步骤202、计算任意两个词语的编辑距离。

具体地，计算词语a与词语b的编辑距离。例如：词语“秋冬连衣裙”与“秋冬装连衣裙”的编辑距离为1。是第（3）步骤中计算词语a（word1）和词语b（word2）的编辑距离，编辑距离是根据最短编辑（Levenshtein）距离法公式计算得来，Levenshtein距离，由俄罗斯科学家VladinirLevenshtein在1965年提出的一种字符串相似度计算概念，是指对于两个字符串，由其中一个转成另一个所需要的最少编辑操作次数。其中，最短编辑距离主要的修改操作包括：插入一个字符、删除一个字符以及将一个字符替换成另一个字符，这3个修改操作都是允许的编辑操作。如果两个字符串间的编辑距离越少，则代表它们越相似，相反，则代表它们越不同。

步骤203、判断任意两个词语的编辑距离是否小于等于两个词语的长度中的最小长度的1/2，如果是则进行下一步，如果否则计算结束。

具体地，判断是否编辑距离dis<=0.5*两个词语长度中的最小长度，如果结果为是则往下执行，如果为否则计算结束。由于词语“秋冬连衣裙”和“秋冬装连衣裙”的最小长度为5，编辑距离1小于等于两个词语的长度中的最小长度5的1/2，则往下执行。

步骤204、输出所有满足判断条件的两个词语为第一同义词对集。

具体地，输出词语a和词语b为第一同义词对集。输出“秋冬连衣裙”与“秋冬装连衣裙”纳入第一同义词对集。

其中，对第二词语集中的任意两个词语进行编辑距离处理生成第一同义词对集的具体计算逻辑程序为：

input(word1,word2):

（1）如果word1，word2的单词长度大于2，则往下执行，否则计算结束；

（2）如果length(word1)<=2*length(word2)且length(word2)<=2*length(word1)，则往下执行，否则计算结束；

（3）计算word1，word2的编辑距离，dis=Levenshtein(word1，word2)；

（4）如果dis<=0.5*min(length(word1),length(word2)),则输出候选集(word1，word2)，计算结束。

“input(word1,word2)”表示：输入词语a和词语b;

（1）“如果word1，word2的单词长度大于2，则往下执行，否则计算结束”表示：如果词语a和词语b的词语长度大于2，则进行第（2）步骤，如果词语a和词语b的词语长度小于2，则结束。

（2）“如果length(word1)<=2*length(word2)且length(word2)<=2*length(word1)，则往下执行，否则计算结束”表示：如果词语a的长度小于或等于词语b长度的2倍，并且词语b的长度小于或等于词语a长度的2倍，则进行第（3）步骤，否则结束。

（3）“计算word1，word2的编辑距离，dis=Levenshtein(word1，word2)”表示计算词语a和词语b的编辑距离。

（4）“如果dis<=0.5*min(length(word1),length(word2)),则输出候选集(word1，word2)，计算结束”表示：如果词语a和词语b的编辑距离与这两个词语中的最小长度的比值小于等于0.5时，则词语a和词语b是同义词对，并输出词语a和词语b为候选集，计算结束。

由于各词语的长度是不一样的，仅仅通过编辑距离的计算并不能很好的计算出两个词语的相似度，利用编辑距离与词语的长度的比值作为衡量标准的结果，如果编辑距离与词语的长度的比值小于等于0.5时，则将这对词语作为候选同义词对。

其中，计算词语a和词语b的编辑距离，具体地根据如下编辑距离公式（一）计算词语a和词语b两个词语的编辑距离：

d_{ij} = \min \{\begin{matrix} d_{i - 1, j} + 1 \\ d_{i, j - 1} + 1 & , d_{i 0} = i, d_{0 j} = j, 1 \leq i \leq m, 1 \leq j \leq n \\ d_{i - 1, j - 1} + W_{sub} (a_{i}, b_{j}) \end{matrix}\}

...(一)

其中，W_ins,W_del和W_sub分别表示插入一个字符、删除一个字符和将一个字符替换成另一个字符的编辑代价。通常，这三者取值如下：

W_ins=1，W_del=1

W_{sub} (a_{i}, b_{j}) = \{\begin{matrix} 0, & a_{i} = b_{j} \\ 1, & a_{i} &NotEqual; b_{j} \end{matrix}

将公式（一）化简为如下公式（二）

d_{ij} = \min \{\begin{matrix} d_{i - 1, j} + 1 \\ d_{i, j - 1} + 1 & , d_{i 0} = i, d_{0 j} = j, 1 \leq i \leq m, 1 \leq j \leq n \\ d_{i - 1, j - 1} + W_{sub} (a_{i}, b_{j}) \end{matrix}\}

...(二)

a、b是第二词语集中的任意两个词语，a=a₁…a_i…a_n,b=b₁…b_j…b_n,d_ij为a的第i个字符到b的第j个字符的编辑距离,m为a的长度，n为b的长度，a_i为a的第i个字符，b_j为b的第j个字符。字符包括汉字和符号，这里的字符需要被计算机处理所以是编码字符。

例如：计算“秋冬连衣裙”到“秋冬装连衣裙”的编辑距离d_ij=1。

第二词语集经过步骤103的过滤后，生成了若干对同义词组成的第一同义词对集，将相似度大的同义词对保留，相似度小的同义词过滤，相对现有技术来说，使得生成的第一同义词对集更为准确。

步骤104、对第一词语集中的词语构建向量空间模型。

具体地，在此，向量空间模型是一种上下文语境向量空间模型，一种用来表示文本文件的代数模型，由Salton等人于1968年提出。通过计算向量与向量间的角度偏差，可获得两个向量间的相似度。由于该模型是一个相对于标准的布尔数学模型，它基于线性代数，模型简单，同时允许计算连续相似度以及能够进行局部匹配，所以该模型在信息检索系统中较为常用。构造一个向量空间模型的关键在于特征向量的选取以及权重计算。

本发明使用向量空间模型为基于上下文语境的。在一个上下文语境向量空间模型中，每个词表示为一个向量：

{\overset{&RightArrow;}{word}}_{i} = (w_{1 i}, w_{2 i}, . . ., w_{ti})

W_ti表示的含义与基于文档的向量空间模型类似，只是基于文档的向量空间模型对文档构造向量，而基于上下文语境的向量空间模型对文本集语料中的单词构造向量。在一个向量中，Wti表示wordi与wordt在上下文语境中的关系。假如在一个上下文语境中，word_i与word_t同时存在，则W_ti应该能反映出这个关系信息。举例说明，假如一句话就是一个上下文语境，文本集语料中有以下几句：

ABCDEAbDE

AbCDBCE

为B与b这两个词语可构造如下两个向量:

ABbCDE

\overset{&RightArrow;}{b} = (2,0,0,1,2,0)

\overset{&RightArrow;}{B} = (1,0,0,2,1,2)

基于上下文语境的向量空间模型可用于计算两个词的相似性。

根据如下公式为第一词语集中的词语构建向量空间模型：

{\overset{&RightArrow;}{d}}_{i} = (w_{1 i}, w_{2 i}, . . ., w_{ti})

其中，d_i为第一词语集中的任意词语，为d_i的空间向量，t为第一词语集中的词语总数，W_ti为第i个词语与第t个词语在上下文语境中的关系。例如：对第一词语集“请问、新款、的、秋冬连衣裙、今年、什么、时间、上架、啊”和“问问、最新款、连衣裙、中、的、秋冬装连衣裙、今年、什么时候、买”中的每个词语构建向量空间模型。

具体地，对第一词语集中的词语构建上下文语境向量空间模型的构建逻辑程序如下：

（1）初始化一个t*t的矩阵SVM，矩阵中每个值为0。其中t为文本集中不同词语总数；

（2）对于文本集中的每一句话，执行以下步骤：

对于每个词语W_i在句子中的前后S个词S_j,如果W_i≠S_j，则执行SVM【W_i】【S_j】+=1；

（3）输出向量空间模型SVM，计算结束。

（4）对于矩阵SVM的定义，可采用其他方法，来降低内存代价。S的取值根据经验值取。

步骤105、根据向量空间模型，获得第一同义词对集中的每对同义词的空间向量，计算第一同义词对集中的每对同义词的余弦相似度值，并根据余弦相似度值将每对同义词进行余弦阈值过滤策略的识别，生成第二同义词对集。

具体地，根据步骤104构建的上下文语境向量空间模型计算步骤103输出的第一同义词对集中的每对同义词的余弦相似度值，将余弦相似度值小于M的同义词对过滤掉，最后生成第二同义词对集。例如：根据步骤104中的空间向量获得“秋冬连衣裙”与“秋冬装连衣裙”的空间向量，并计算它们的余弦值。

对每对同义词进行余弦相似度处理主要是针对查询特征考虑在查询中两词的在相同上下文场景下出现的比例，取每个词在文本集中的句子前几个词和后几个词作为上下文，计算每对词在的上下文背景下的余弦相似度。余弦相似度是向量空间模型中的一种衡量方式，通过计算两个向量内积空间的夹角余弦值量度量这两个向量间的相似性。在文本获取中，余弦相似度常用于比较文档间的相似性，而在数据获取中，余弦相似度则常用于衡量集群中的凝聚力。

根据向量空间模型，获得第一同义词对集中的任意一对同义词A与B的空间向量为

\overset{&RightArrow;}{A} = (a_{1}, a_{2}, . . ., a_{n}), \overset{&RightArrow;}{B} = (b_{1}, b_{2}, . . ., b_{n});

根据如下公式计算每对同义词的余弦相似度值：

sim (\overset{&RightArrow;}{A}, \overset{&RightArrow;}{B}) = \cos (θ) \frac{\overset{&RightArrow;}{A} * \overset{&RightArrow;}{B}}{| | \overset{&RightArrow;}{A} | | | | \overset{&RightArrow;}{B} | |} = \frac{Σ_{i = 1}^{n} a_{i} \times b_{i}}{\sqrt{Σ_{i = 1}^{n} {(a_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(b_{i})}^{2}}}

其中，A与B是第一同义词对集中的任意一对同义词，与是A与B的空间向量，

\overset{&RightArrow;}{A} = (a_{1}, a_{2}, . . ., a_{n}), \overset{&RightArrow;}{B} = (b_{1}, b_{2}, . . ., b_{n}), sim (\overset{&RightArrow;}{A}, \overset{&RightArrow;}{B})

的取值范围为[-1,1]。分别表示A、B的上下文中词语个数，的取值范围为[-1,1]，当时，表示两个向量完全相反，而当时，则意味着两个向量完全相同。另外，当时，则认为这两个向量是互相独立的。如果小于M值，则将同义词对A和B过滤掉，M可以根据需要自定义经验值。

由于将第一同义词对集中的同义词对进行余弦相似度值的计算后，又将余弦相似度值小于阈值的同义词对过滤，由此第一同义词对集经过步骤105后生成的第二同义词对集中的同义词对更相近。

步骤106、对第二同义词对集中的词语进行词性标注，通过词性过滤策略生成第三同义词对集。

具体地，用ALIWS软件中的词性标注功能对第二同义词对集中的词语进行词性标注，通过词性过滤策略生成第三同义词对集。其中词性过滤策略是如果一对同义词中的两个词语的词性相差太大，则删除这对同义词；以及如果一对同义词中某个词语的词性是无效词性集合，则删除这对同义词。例如：一对同义词中一个词语是动词，另一个词语是形容词，词性相差大，则删除这对同义词；以及如果一对同义词中某个词语的词性是非业务性的词，则删除这对同义词，非业务性的词是与在应用中无关的词语，例如：在电商业务场景下，概率、模型等词可以认为是学术上的专有名词，是与业务无关的词语。例如：“秋冬连衣裙”与“秋冬装连衣裙”标注的是名词，通过词性过滤策略后“秋冬连衣裙”与“秋冬装连衣裙”纳入第三同义词对集。

通过词性过滤策略生成第三同义词对集具体包括以下步骤：

（1）如果在同义词对中，存在某个词的词性p∈S_invp,其中S_invp为无效词性集合，则删除该同义词对，否则往下执行。

（2）如果该同义词对词性相近，如词性v与词性vi相近，且该同义词词对的余弦相似度大于经验阈值N，则保留该同义词对，否则删除该同义词对。

如果该同义词对经过(1)、(2)步操作后没有被删除，则保留下来并输出。

由于将第一同义词对集中的同义词对进行余弦相似度值的计算后，又将余弦相似度值小于阈值的同义词对过滤，由此将第二同义词经过词性过滤策略过滤后的第三同义词对集可以避免歧义的同义词对出现。

步骤107、将第三同义词对集中的词语通过一元模型处理后，生成第四同义词对集，以获取同义词。

具体地，对步骤106输出的第三同义词对集构建一元模型（Unigram），将生成的一元模型值通过概率阈值过滤生成第四同义词对集。本发明在分布式集群上进行Unigram计算，Unigram计算公式如下：

P (W_{i}) = \frac{C (W_{i})}{t}

其中，W_i为第三同义词对集中的任意词语，P(W_i)为W_i的一元模型值，表示W_i在文本集中出现的概率，C(W_i)表示词语W_i在文本集中出现的次数，t表示文本集中所有词语出现的总次数。在Unigram模型的计算下，Unigram模型值就是词语在文本集中出现的概率值，将概率值少于阈值U，则过滤掉该对应的同义词对,其中U根据需要自定义经验值，最终生成第四同义词对集并输出。第四同义词对集是本发明最终生成的同义词库，例如可以用于搜索引擎，当用户在搜索栏里输入关键字搜索时，通过关键字在同义词库中的同义词关联相关的网页。例如：本发明生成的同义词库就可以应用于公告搜索和云客服搜索中。

由于通过步骤106过滤后，还有很多名词类的同义词剩下，如“秋冬连衣裙”与“秋冬装连衣裙”，这两个词本质上是同义词，但在业务同义词典上，可能是不需要的。“秋冬装连衣裙”的一元模型值小，出现的概率少，将把“秋冬装连衣裙”从第三同义词中删除。如“户口本”“户口簿”这组同义词，或许在业务同义词词典中正是需要的，需要保留下来。所以，此时对于没用的名词类同义词对的过滤，可通过对第三同义词对集中的词语构建一元模型（Unigram），采用Unigram模型的计算结果进行筛选。因为某个名词假如不是业务重点词，则其Unigram模型下计算出来生成的出现概率应该十分的低。所以筛选策略为：如果某个名词在Unigram模型的计算下，出现概率少于阈值U，则删除该对应的同义词对,其中U根据需要自定义经验值。

N元模型N-gram模型常用于分析在给定前n个词的情况下，出现某个词的概率。常用的N-gram模型一般为一元模型Unigram，二元模型Bigram以及三元模型Trigram。

N-gram是一种在统计分析文本中被广泛使用的概率语言模型。N表示长文本中，连续出现的N个词。该模型基于马尔科夫假设，认为：

（1）第n个词出现的概率仅仅依赖于它前n-1个词出现的概率；

（2）n个词连续出现的概率等于这n词分别出现的概率的乘积，用公式可表达成：

P(W₁W₂...W_n)=P(W₁)P(W₂|W₁)P(W₃|W₁W₂)...P(W_n|W₁W₂...W_n-1)对于P(W_i|W₁W₂...W_i-1)可采用最大似然估计记性计算，即：

P (W_{i} | W_{1} W_{2} . . . W_{i - 1}) = \frac{C (W_{1} W_{2} . . . W_{i})}{C (W_{1} W_{2} . . . W_{i - 1})}

其中C(W₁W₂...W_i)表示在文本集语料中，W₁W₂...W_i连续出现的频率。

本发明使用的Unigram模型，是指N=1的N-gram模型。在Unigram模型中，认为每个词都是互相独立的，它们的出现与其他词无关。所以，对于上面公式有：

P(W₁W₂...W_n)=P(W₁)P(W₂)...P(W_n)

在上述公式中，t表示在文本集中，所有单词出现的总数。

本发明提供的同义词的获取方法除了对词语进行编辑距离处理之外，还通过对词语进行无效词过滤、余弦相似度过滤、词性过滤和构建一元模型处理生成更为准确的同义词对集，实现了检索出的同义词更为准确，并且没有歧义词语和无效词语出现。

因此，本发明还提供了一种基于上面所描述的同义词的获取方法所生成的同义词的搜索方法。该搜索方法包括：搜索引擎接收搜索请求，搜索请求中包括关键词；搜索引擎根据关键词，从数据库中查找到本发明的同义词生成方法生成的同义词；搜索引擎根据关键词和同义词，进行搜索，并将根据关键词和同义词搜索得到的搜索结果发送给用户终端。在本发明搜索方法中，同义词的生成方法参见上面描述的，不再赘述。

基于本发明上面所描述的同义词的获取方法所生成的同义词除了可以应用于用户在商务网站上进行搜索的方法中之外，该方法还可以用于文本处理、同义词查询等场景。以便以后用户输入关键字后，不仅可以显示与该关键字相关的信息，而且还能显示与该关键字的同义词相关的信息，这样可以显示更多的处理信息。

图3为本发明实施例二的同义词的获取装置示意图。如图3所示，同义词的获取装置包括：分词模块301、过滤模块302、编辑距离模块303、向量模块304、余弦模块305、词性策略模块306和一元模型模块307。

分词模块301，用于获取文本集，对文本集进行分词生成第一词语集。

对文本集进行分词的是利用具有将文本集中的语句段落进行拆分，分成多个词语的功能的软件或模块来完成的，例如：阿里分词（ALIwordseparate，ALIWS）软件。例如分词模块301对“请问新款的秋冬连衣裙今年什么时间上架啊”进行分词，分为“请问、新款、的、秋冬连衣裙、今年、什么、时间、上架、啊”纳入第一词语集，“问问最新款连衣裙中的秋冬装连衣裙今年什么时候买”分为“问问、最新款、连衣裙、中、的、秋冬装连衣裙、今年、什么时候、买”也纳入第一词语集。

过滤模块302，用于对第一词语集通过停词表识别，进行无效词过滤生成第二词语集。

具体地，过滤模块302通过停词表将第一词语集中的无效词过滤，比如“的，了，啊”类似的词过滤掉后生成第二词语集。停词表是一个包括有很多无效词的词库，无效词是没有太多实际业务意义的词或字，这些无效词大多数是助词、语气词和代词等，例如：的，了，啊，我的，你的。通过停词表将第一词语集中的无效词过滤，比如“的，了，啊”类似的词过滤掉后生成第二词语集。例如对第一词语集中的“请问、新款、的、秋冬连衣裙、今年、什么、时间、上架、啊”进行无效词过滤，生成“请问、新款、秋冬连衣裙、今年、什么、时间、上架”纳入第二词语集，“问问最新款连衣裙中的秋冬装连衣裙今年什么时候买”进行无效词过滤，生成“问问、最新款、连衣裙、秋冬装连衣裙、今年、什么时候、买”纳入第二词语集。经过过滤后生成的第二词语集中的词语比第一词语集中的词语更为准确，并减少了第一词语集的冗余。

编辑距离模块303，用于对第二词语集中的任意两个词语进行编辑距离处理生成第一同义词对集。

图4为本发明实施例二的编辑距离模块对词语进行编辑距离处理的装置示意图。如图4所示，对词语进行编辑距离处理具体包括以下步骤：

第一判断单元401，用于判断任意两个词语的长度比例是否小于等于2且大于等于1/2，如果是则进行下一步，如果否则计算结束。

计算单元402，用于计算任意两个词语的编辑距离。

具体地，例如：词语“秋冬连衣裙”与“秋冬装连衣裙”的编辑距离为1。编辑距离是根据最短编辑（Levenshtein）距离法公式计算得来，Levenshtein距离，由俄罗斯科学家VladinirLevenshtein在1965年提出的一种字符串相似度计算概念，是指对于两个字符串，由其中一个转成另一个所需要的最少编辑操作次数。其中，最短编辑距离主要的修改操作包括：插入一个字符、删除一个字符以及将一个字符替换成另一个字符，这3个修改操作都是允许的编辑操作。如果两个字符串间的编辑距离越少，则代表它们越相似，相反，则代表它们越不同。

第二判断单元403，用于判断任意两个词语的编辑距离是否为两个词语的长度中的最小长度的1/2，如果是则进行下一步，如果否则计算结束。

输出单元404，用于输出所有满足判断条件的两个词语为第一同义词对集。

input(word1,word2):

（3）计算word1，word2的编辑距离，dis=Levenshtein(word1，word2)；

“input(word1,word2)”表示：输入词语a和词语b;

计算词语a和词语b的编辑距离，具体地根据如下编辑距离公式（一）计算词语a和词语b两个词语的编辑距离：

d_{ij} = \min \{\begin{matrix} d_{i - 1, j} + 1 \\ d_{i, j - 1} + 1 & , d_{i 0} = i, d_{0 j} = j, 1 \leq i \leq m, 1 \leq j \leq n \\ d_{i - 1, j - 1} + W_{sub} (a_{i}, b_{j}) \end{matrix}\}

...(一)

W_ins=1，W_del=1

W_{sub} (a_{i}, b_{j}) = \{\begin{matrix} 0, & a_{i} = b_{j} \\ 1, & a_{i} &NotEqual; b_{j} \end{matrix}

将公式（一）化简为如下公式（二）

d_{ij} = \min \{\begin{matrix} d_{i - 1, j} + 1 \\ d_{i, j - 1} + 1 & , d_{i 0} = i, d_{0 j} = j, 1 \leq i \leq m, 1 \leq j \leq n \\ d_{i - 1, j - 1} + W_{sub} (a_{i}, b_{j}) \end{matrix}\}

...(二)

a、b是第二词语集中的任意两个词语，a=a₁…a_i…a_n,b=b₁…b_j…b_n,d_ij为a的第i个字符到b的第j个字符的编辑距离,m为a的长度，n为b的长度，a_i为a的第i个字符，b_j为b的第j个字符。

计算出来的编辑距离结果d_ij为Levenshtein(word1，word2)。例如：计算“秋冬连衣裙”到“秋冬装连衣裙”的编辑距离d_ij=1。

编辑距离模块303将第二词语集经过编辑距离处理过滤后，生成了若干对同义词组成的第一同义词对集，将相似度大的同义词对保留，相似度小的同义词过滤，相对现有技术来说，使生成的第一同义词对集更为准确。

向量模块304，用于对第一词语集构建向量空间模型。

具体地，上下文语境向量空间模型，一种用来表示文本文件的代数模型，由Salton等人于1968年提出。通过计算向量与向量间的角度偏差，可获得两个向量间的相似度。由于该模型是一个相对于标准的布尔数学模型，它基于线性代数，模型简单，同时允许计算连续相似度以及能够进行局部匹配，所以该模型在信息检索系统中较为常用。构造一个向量空间模型的关键在于特征向量的选取以及权重计算。

{\overset{&RightArrow;}{word}}_{i} = (w_{1 i}, w_{2 i}, . . ., w_{ti})

W_ti表示的含义与基于文档的向量空间模型类似，只是基于文档的向量空间模型对文档构造向量，而基于上下文语境的向量空间模型对文本集语料中的单词构造向量。在一个向量中，W_ti表示word_i与word_t在上下文语境中的关系。假如在一个上下文语境中，word_i与word_t同时存在，则W_ti应该能反映出这个关系信息。举例说明，假如一句话就是一个上下文语境，文本集语料中有以下几句：

ABCDEAbDE

AbCDBCE

为B与b这两个词语可构造如下两个向量:

ABbCDE

\overset{&RightArrow;}{b} = (2,0,0,1,2,0)

\overset{&RightArrow;}{B} = (1,0,0,2,1,2)

根据如下公式为第一词语集中的词语构建向量空间模型：

{\overset{&RightArrow;}{d}}_{i} = (W_{1 i}, W_{2 i}, . . ., W_{ti})

（2）对于文本集中的每一句话，执行以下步骤：

对于每个词语Wi在句子中的前后S个词S_j,如果W_i≠S_j，则执行SVM【W_i】【S_j】+=1；

（3）输出向量空间模型SVM，计算结束。

余弦模块305，用于根据向量空间模型，获得第一同义词对集中的每对同义词的空间向量，计算第一同义词对集中的每对同义词的余弦相似度值，并根据余弦相似度值将每对同义词进行余弦阈值过滤策略的识别，生成第二同义词对集。

具体地，根据向量模块304构建的向量空间模型计算编辑模块输出的第一同义词对集中的每对同义词的余弦相似度值，将余弦相似度值小于M的同义词对过滤掉，最后生成第二同义词对集。例如：根据向量模块304构建的向量空间模型获得“秋冬连衣裙”与“秋冬装连衣裙”的空间向量，并计算它们的余弦值。

\overset{&RightArrow;}{A} = (a_{1}, a_{2}, . . ., a_{n}), \overset{&RightArrow;}{B} = (b_{1}, b_{2}, . . ., b_{n});

根据如下公式计算每对同义词的余弦相似度值：

sim (\overset{&RightArrow;}{A}, \overset{&RightArrow;}{B}) = \cos (θ) \frac{\overset{&RightArrow;}{A} * \overset{&RightArrow;}{B}}{| | \overset{&RightArrow;}{A} | | | | \overset{&RightArrow;}{B} | |} = \frac{Σ_{i = 1}^{n} a_{i} \times b_{i}}{\sqrt{Σ_{i = 1}^{n} {(a_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(b_{i})}^{2}}}

\overset{&RightArrow;}{A} = (a_{1}, a_{2}, . . ., a_{n}), \overset{&RightArrow;}{B} = (b_{1}, b_{2}, . . ., b_{n}), sim (\overset{&RightArrow;}{A}, \overset{&RightArrow;}{B})

由于将第一同义词对集中的同义词对进行余弦相似度值的计算后，又将余弦相似度值小于阈值的同义词对过滤生成第二同义词对集，第二同义词对集比第一同义词对集中的同义词对更相近。

词性策略模块306，用于对第二同义词对集中的词语进行词性标注，通过词性过滤策略生成第三同义词对集。

具体地，用ALIWS软件中的词性标注功能对第二同义词对集中的词语进行词性标注，通过词性过滤策略生成第三同义词对集。其中词性过滤策略是如果一对同义词中的两个词语的词性相差太大，则删除这对同义词；以及如果一对同义词中某个词语的词性是无效词性集合，则删除这对同义词。例如：一对同义词中一个词语是动词，另一个词语是形容词，词性相差大，则删除这对同义词；以及如果一对同义词中某个词语的词性是非业务性的词，则删除这对同义词，非业务性的词是与在应用中无关的词语，在电商业务场景下，概率、模型等词可以认为是学术上的专有名词，是与业务无关的词语。例如：“秋冬连衣裙”与“秋冬装连衣裙”标注的是名词，通过词性过滤策略后“秋冬连衣裙”与“秋冬装连衣裙”纳入第三同义词对集。

通过词性过滤策略生成第三同义词对集具体包括以下步骤：

将第二同义词经过词性过滤策略过滤后的第三同义词对集可以避免歧义的同义词对出现。

一元模型模块307，用于将第三同义词对集中的词语通过一元模型处理后，生成第四同义词对集，以获取同义词。

具体地，对第三同义词对集构建Unigram模型，将生成的一元模型值通过概率阈值过滤生成第四同义词对集。本发明在分布式集群上进行Unigram计算，Unigram计算公式如下：

P (W_{i}) = \frac{C (W_{i})}{t}

其中，W_i为第三同义词对集中的任意词语，P(W_i)为W_i的一元模型值，表示W_i在文本集中出现的概率，C(W_i)表示词语W_i在文本集中出现的次数，t表示文本集中所有词语出现的总次数。在Unigram模型的计算下，Unigram模型值就是词语在文本集中出现的概率值，将概率值少于阈值U，则过滤掉该对应的同义词对,其中U根据需要自定义经验值，最终生成第四同义词对集并输出。第四同义词对集是本发明最终生成的同义词库，可以用于搜索引擎，当用户在搜索栏里输入关键字搜索时，通过关键字在同义词库中的同义词关联相关的网页。例如：本发明生成的同义词库就可以应用于公告搜索和云客服搜索中。

例如“秋冬装连衣裙”的一元模型值小，出现的概率少，将把“秋冬装连衣裙”从第三同义词中删除。如“户口本”“户口簿”这组同义词，或许在业务同义词词典中正是需要的，需要保留下来。所以，此时对于没用的名词类同义词对的过滤，可通过对第三同义词对集中的词语构建一元模型（Unigram），采用Unigram模型的计算结果进行筛选。因为某个名词假如不是业务重点词，则其Unigram模型下计算出来生成的出现概率应该十分的低。所以筛选策略为：如果某个名词在Unigram模型的计算下，出现概率少于阈值U，则删除该对应的同义词对,其中U根据需要自定义经验值。

因此，通过本发明中的同义词的获取方法及装置实现了检索出的同义词更为准确，并且没有歧义词语和无效词语出现。从而智能快捷的检索出同义词的相关网页。一元模型处理主要是过滤掉出现概率低的词语，通过对词语进行词性标注后进行词性过滤处理，可以避免由于歧义词语的出现导致同义词配对不准确。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种同义词的获取方法，其特征在于，所述方法包括：

获取文本集，对所述文本集进行分词生成第一词语集；

对所述第一词语集通过停词表识别，进行无效词过滤生成第二词语集；

对所述第二词语集中的任意两个词语进行编辑距离处理，生成第一同义词对集；

对所述第一词语集中的词语构建向量空间模型；

根据所述向量空间模型，获得所述第一同义词对集中的每对同义词的空间向量，计算所述第一同义词对集中的每对同义词的余弦相似度值，并根据所述余弦相似度值将所述每对同义词进行余弦阈值过滤策略的识别，生成第二同义词对集；

对所述第二同义词对集中的词语进行词性标注，通过词性过滤策略生成第三同义词对集；

将所述第三同义词对集中的词语通过一元模型处理后，生成第四同义词对集，以获取同义词。

2.根据权利要求1中的同义词的获取方法，其特征在于，所述对所述第二词语集中的任意两个词语进行编辑距离处理生成第一同义词对集具体包括：

判断所述任意两个词语的长度比例是否小于等于2且大于等于1/2，如果是则进行下一步，如果否则计算结束；

计算所述任意两个词语的编辑距离；

判断所述任意两个词语的编辑距离是否小于等于所述两个词语的长度中的最小长度的1/2，如果是则进行下一步，如果否则计算结束；

输出所有满足判断条件的两个词语为第一同义词对集。

3.根据权利要求2中的同义词的获取方法，其特征在于，所述计算所述两个词语的编辑距离具体包括：根据如下公式计算所述两个词语的编辑距离：

d_{ij} = \min \{\begin{matrix} d_{i - 1, j} + 1 \\ d_{i, j - 1} + 1 & , d_{i 0} = i, d_{0 j} = j, 1 \leq i \leq m, 1 \leq j \leq n \\ d_{i - 1, j - 1} + W_{sub} (a_{i}, b_{j}) \end{matrix}\}

其中，

W_{sub} (a_{i}, b_{j}) = \{\begin{matrix} 0, & a_{i} = b_{j} \\ 1, & a_{i} &NotEqual; b_{j} \end{matrix}

a、b是所述第二词语集中的任意两个词语，a=a₁…a_i…a_n,b=b₁…b_j…b_n,d_ij为a的第i个字符到b的第j个字符的编辑距离,m为a的长度，n为b的长度，a_i为a的第i个字符，b_j为b的第j个字符。

4.根据权利要求1中的同义词的获取方法，其特征在于，所述对所述第一词语集中的词语构建向量空间模型具体包括：根据如下公式为所述第一词语集中的词语构建向量空间模型：

{\overset{&RightArrow;}{d}}_{i} = (W_{1 i}, W_{2 i}, . . ., W_{ti})

其中，d_i为所述第一词语集中的任意词语，为d_i的空间向量，t为所述第一词语集中的词语总数，W_ti为第i个词语与第t个词语在上下文语境中的关系。

5.根据权利要求1中的同义词的获取方法，其特征在于，所述根据所述向量空间模型，获得所述第一同义词对集中的每对同义词的空间向量，计算所述第一同义词对集中的每对同义词的余弦相似度值具体包括：

根据所述向量空间模型，获得所述第一同义词对集中的任意一对同义词A与B的空间向量为

\overset{&RightArrow;}{A} = (a_{1}, a_{2}, . . ., a_{n}), \overset{&RightArrow;}{B} = (b_{1}, b_{2}, . . ., b_{n});

根据如下公式计算每对同义词的余弦相似度值：

sim (\overset{&RightArrow;}{A}, \overset{&RightArrow;}{B}) = \cos (θ) \frac{\overset{&RightArrow;}{A} * \overset{&RightArrow;}{B}}{| | \overset{&RightArrow;}{A} | | | | \overset{&RightArrow;}{B} | |} = \frac{Σ_{i = 1}^{n} a_{i} \times b_{i}}{\sqrt{Σ_{i = 1}^{n} {(a_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(b_{i})}^{2}}}

其中，A与B是所述第一同义词对集中的任意一对同义词，与是A与B的空间向量，

\overset{&RightArrow;}{A} = (a_{1}, a_{2}, . . ., a_{n}), \overset{&RightArrow;}{B} = (b_{1}, b_{2}, . . ., b_{n}), sim (\overset{&RightArrow;}{A}, \overset{&RightArrow;}{B})

的取值范围为[-1,1]。

6.根据权利要求1中的同义词的获取方法，其特征在于，所述将所述第三同义词对集中的词语通过一元模型处理后，生成第四同义词对集具体包括：根据如下公式计算所述第三同义词对集中的词语的一元模型值，将所述第三同义词对集根据所述一元模型值通过概率阈值过滤生成所述第四同义词对集：

P (W_{i}) = \frac{C (W_{i})}{t}

其中，W_i为所述第三同义词对集中的任意词语，P(W_i)为W_i的一元模型值，表示W_i在所述文本集中出现的概率，C(W_i)表示词语W_i在所述文本集中出现的次数，t表示所述文本集中所有词语出现的总次数，将P(W_i)小于概率阈值U的词语过滤,其中U是自定义的值。

7.一种基于上述权利要求1-6任一所述同义词的获取方法所生成的同义词的搜索方法。

8.一种同义词的获取装置，其特征在于，所述装置包括：

分词模块，用于获取文本集，对所述文本集进行分词生成第一词语集；

过滤模块，用于对所述第一词语集通过停词表识别，进行无效词过滤生成第二词语集；

编辑距离模块，用于对所述第二词语集中的任意两个词语进行编辑距离处理生成第一同义词对集；

向量模块，用于对所述第一词语集中的词语构建向量空间模型；

余弦模块，用于根据所述向量空间模型，获得所述第一同义词对集中的每对同义词的空间向量，计算所述第一同义词对集中的每对同义词的余弦相似度值，并根据所述余弦相似度值将所述每对同义词进行余弦阈值过滤策略的识别，生成第二同义词对集；

词性策略模块，用于对所述第二同义词对集中的词语进行词性标注，通过词性过滤策略生成第三同义词对集；

一元模型模块，用于将所述第三同义词对集中的词语通过一元模型处理后，生成第四同义词对集，以获取同义词。

9.根据权利要求8中的同义词的获取装置，其特征在于，所述编辑距离模块，用于对所述第二词语集中的任意两个词语进行编辑距离处理生成第一同义词对集具体包括：

第一判断单元，用于判断所述任意两个词语的长度比例是否小于等于2且大于等于1/2，如果是则进行下一步，如果否则计算结束；

计算单元，用于计算所述任意两个词语的编辑距离；

第二判断单元，用于判断所述任意两个词语的编辑距离是否小于等于所述两个词语的长度中的最小长度的1/2，如果是则进行下一步，如果否则计算结束；

输出单元，用于输出所有满足判断条件的两个词语为第一同义词对集。

10.根据权利要求9中的同义词的获取装置，其特征在于，所述计算单元，用于计算所述两个词语的编辑距离具体包括：根据如下公式计算所述两个词语的编辑距离：

d_{ij} = \min \{\begin{matrix} d_{i - 1, j} + 1 \\ d_{i, j - 1} + 1 & , d_{i 0} = i, d_{0 j} = j, 1 \leq i \leq m, 1 \leq j \leq n \\ d_{i - 1, j - 1} + W_{sub} (a_{i}, b_{j}) \end{matrix}\}

其中，

W_{sub} (a_{i}, b_{j}) = \{\begin{matrix} 0, & a_{i} = b_{j} \\ 1, & a_{i} &NotEqual; b_{j} \end{matrix}

11.根据权利要求8中的同义词的获取装置，其特征在于，所述向量模块，用于对所述第一词语集中的词语构建向量空间模型具体包括：根据如下公式为所述第一词语集中的词语构建向量空间模型：

{\overset{&RightArrow;}{d}}_{i} = (W_{1 i}, W_{2 i}, . . ., W_{ti})

12.根据权利要求8中的同义词的获取装置，其特征在于，所述根据所述向量空间模型，获得所述第一同义词对集中的每对同义词的空间向量，计算所述第一同义词对集中的每对同义词的余弦相似度值具体包括：

\overset{&RightArrow;}{A} = (a_{1}, a_{2}, . . ., a_{n}), \overset{&RightArrow;}{B} = (b_{1}, b_{2}, . . ., b_{n});

根据如下公式计算每对同义词的余弦相似度值：

sim (\overset{&RightArrow;}{A}, \overset{&RightArrow;}{B}) = \cos (θ) \frac{\overset{&RightArrow;}{A} * \overset{&RightArrow;}{B}}{| | \overset{&RightArrow;}{A} | | | | \overset{&RightArrow;}{B} | |} = \frac{Σ_{i = 1}^{n} a_{i} \times b_{i}}{\sqrt{Σ_{i = 1}^{n} {(a_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(b_{i})}^{2}}}

\overset{&RightArrow;}{A} = (a_{1}, a_{2}, . . ., a_{n}), \overset{&RightArrow;}{B} = (b_{1}, b_{2}, . . ., b_{n}), sim (\overset{&RightArrow;}{A}, \overset{&RightArrow;}{B})

的取值范围为[-1,1]。

13.根据权利要求8中的同义词的获取装置，其特征在于，所述一元模型模块，用于将第三同义词对集中的词语通过一元模型处理后，生成第四同义词对集具体包括：根据如下公式计算第三同义词对集中的词语的一元模型值，将所述第三同义词对集根据所述一元模型值通过概率阈值过滤生成所述第四同义词对集：

P (W_{i}) = \frac{C (W_{i})}{t}