CN101576916A

CN101576916A - 一种获取同义词的方法及装置

Info

Publication number: CN101576916A
Application number: CNA2009100870761A
Authority: CN
Inventors: 刘奕群; 马少平; 张敏; 金奕江; 张阔; 茹立云
Original assignee: Tsinghua University; Beijing Sogou Technology Development Co Ltd
Current assignee: Tsinghua University; Beijing Sogou Technology Development Co Ltd
Priority date: 2009-06-18
Filing date: 2009-06-18
Publication date: 2009-11-11
Anticipated expiration: 2029-06-18
Also published as: CN101576916B

Abstract

本发明公开了一种获取同义词的方法及装置，属于计算机领域。所述方法包括：创建词与结果地址的匹配对的集合；将所述集合中的每个词作为待查找的词，根据所述待查找的词，从所述集合中查找匹配的结果地址；根据所述结果地址，从所述集合中查找与所述结果地址匹配的词，将所述查找到的词作为同义词。所述装置包括：创建模块、第一查找模块和第二查找模块。本发明能够更容易获取同义词，减少人力、物力资源以及提高算法效率。

Description

一种获取同义词的方法及装置

技术领域

本发明涉及计算机领域，特别涉及一种获取同义词的方法及装置。

背景技术

在互联网中，同义词不仅包括意义相同或相近的词，还包括同类型或意义相关的词。例如，“乙醇”与“酒精”是意义相同的词，“成就”与“成绩”是意义相近的词，“别克”与“丰田”是同类型的词，“就业”与“招聘”是意义相关的词。

获取互联网中的同义词，对于互联网的各类研究与应用有十分重要的意义，例如，在进行搜索引擎广告投放时，广告商希望自己的广告不仅在用户查询某些特定查询词的时候出现，还应当在查询这些查询词的同义词时也出现，以获得最佳的展示效果。

为了获取同义词，目前有以下几种方法：

第一种方法，采用手工方式获取同义词。该方法为：语言专家或学者根据特定语言的知识积累编写同义词词典。例如，汉语语言专家根据已积累的知识编写出同义词词典。

第二种方法，采用隐性语义分析(Latent Semantic Analysis)技术获取同义词。该方法为：对互联网文本内容进行分析，得到具有同现关系(同时出现在同一个互联网文本中)的词语，统计具有同现关系的词语出现的频率，根据统计的频率，从得到的词语中确定同义词。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

第一种方法，手工获取同义词耗费的人力、物力资源众多，难以获取新出现的同义词。

第二种方法，高度依赖互联网文本内容的质量，使得算法效率低。

发明内容

为了容易获取新出现的同义词，减少人力和物力资源的耗费并提高算法的效率，本发明实施例提供了一种获取同义词的方法及装置。所述技术方案如下：

一种获取同义词的方法，所述方法包括：

创建词与结果地址的匹配对的集合；

将所述集合中的每个词作为待查找的词，根据所述待查找的词，从所述集合中查找匹配的结果地址；

根据所述结果地址，从所述集合中查找与所述结果地址匹配的词，将所述查找到的词作为同义词。

所述创建词与结果地址的匹配对的集合，具体包括：

将查询日志中的每项查询信息划分为词；

将所述词与所述查询日志中的结果地址组成词与结果地址的匹配对；

将得到的所有匹配对组成集合。

所述将得到的所有匹配对组成集合，具体包括：

根据用户查询匹配对的频率和每个结果地址对应的匹配对数目，筛选所有匹配对；

将筛选得到的匹配对组成集合。

所述将查询日志中的每项查询信息划分为词之前，还包括：

从搜索引擎记录的查询日志中获取包括查询信息、结果地址和用户标识号的所述查询日志。

所述根据所述结果地址，从所述集合中查找与所述结果地址匹配的词，将所述查找到的词作为同义词之后，还包括：

在同义词词典中，确定所述同义词所属的同义词类别，将所述同义词存入所述同义词类别。

一种获取同义词的装置，所述装置包括：

创建模块，用于创建词与结果地址的匹配对的集合；

第一查找模块，用于将所述集合中的每个词作为待查找的词，根据所述待查找的词，从所述集合中查找匹配的结果地址；

第二查找模块，用于根据所述结果地址，从所述集合中查找与所述结果地址匹配的词，将所述查找到的词作为同义词。

所述创建模块具体包括：

分词单元，用于将查询日志中的每项查询信息划分为词；

第一组成单元，用于将所述词与所述查询日志中的结果地址组成词与结果地址的匹配对；

第二组成单元，用于将得到的所有匹配对组成集合。

所述第二组成单元具体包括：

筛选子单元，用于根据用户查询匹配对的频率和每个结果地址对应的匹配对数目，筛选所有匹配对；

组成子单元，用于将筛选得到的匹配对组成集合。

所述装置还包括：

获取模块，用于从搜索引擎记录的查询日志中获取包括查询信息、结果地址和用户标识号的所述查询日志。

所述装置还包括：

存储模块，用于在同义词词典中，确定所述同义词所属的同义词类别，将所述同义词存入所述同义词类别。

通过创建词与结果地址的匹配对的集合，将创建的集合中的每个词作为待查找的词，根据待查找的词，从创建的集合中查找结果地址，根据查找的结果地址，从创建的集合中查找词，将查找的词作为同义词，从而能够自动地获取同义词，减少人力、物力资源，另外，利用词与结果地址的匹配对，获取新出现的同义词，提高了算法效率。

附图说明

图1是本发明实施例提供的一种获取同义词的方法流程图；

图2是本发明实施例提供的一种获取同义词的方法详细流程图；

图3是本发明实施例提供的一种获取同义词的装置示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例1

如图1所示，本发明实施例提供了一种获取同义词的方法，包括：

步骤101：创建词与结果地址的匹配对的集合；

步骤102：将创建的集合中的每个词作为待查找的词，根据待查找的词，从创建的集合中查找匹配的结果地址；

步骤103：根据查找的结果地址，从创建的集合中查找该结果地址匹配的词，将查找到的词作为同义词。

在本发明实施例中，通过创建词与结果地址的匹配对的集合，将创建的集合中的每个词作为待查找的词，根据待查找的词，从创建的集合中查找结果地址，根据查找的结果地址，从创建的集合中查找词，将查找的词作为同义词，从而能够自动地获取同义词，减少人力、物力资源，另外，利用词与结果地址的匹配对，获取新出现的同义词，提高了算法效率。

实施例2

如图2所示，本发明实施例提供了一种获取同义词的方法，包括：

步骤201：从搜索引擎记录的查询日志中获取包括查询信息、结果地址和用户标识号的查询日志；

其中，本实施例基于搜索引擎记录的查询日志获取同义词。其中，查询日志是用户与搜索引擎进行交互的行为日志，当用户向搜索引擎提交查询信息时，搜索引擎为用户自动地分配用户标识号，搜索引擎向用户提供与查询信息相关的结果地址列表，用户从列表中点击一个结果地址，同时搜索引擎记录用户提交的查询信息，用户点击的结果地址和用户的用户标识号等信息作为用户的查询日志。例如，某用户向百度搜索北京奥运会的官方首页，该用户向百度提交的查询信息为“北京奥运会”，百度为该用户自动分配用户标识号UserID，同时向用户提供与“北京奥运会”相关的结果列表，然后该用户从结果列表中点击北京奥运会的官方首页。此时，百度记录用户提交的查询信息即“北京奥运会”，用户点击的结果地址即北京奥运会的官方首页的URL(Uniform Resource Locator，统一资源定位符)和用户的用户标识号即UserID等信息作为该用户的查询日志。

具体地，将搜索引擎记录的查询日志的编码格式(通常为URI(UniversalResource Identifier，通用资源标志符)格式)转换成国家标准汉字编码的GBK(Guo Biao Kuo，汉字国标扩展码)格式，在转换得到的查询日志中，保留查询日志中的查询信息、结果地址和用户标识号三项信息，去除其他的各项信息，在保留的查询日志中，利用字符串匹配技术过滤查询信息包括的噪声信息。

其中，噪声信息包括违禁查询词等等，违禁查询词是用户为了查找违法或者违背普遍道德的信息所提交的查询信息，如，“藏独”、“六合彩算号器”和“购买窃听器”等。

其中，从搜索引擎记录的查询日志中获取只包括查询信息、结果地址和用户标识号的查询日志，可以提高获取同义词的效率。

步骤202：对查询日志中每一个条目包括的查询信息进行分词，得到每个查询信息包括的词；

具体地，如果该查询日志涉及到的语言为英文或其他有空格对单词加以分割的语言，则以用户输入的空格为界，将查询信息分割成词；如果涉及到的语言为中文或其他没有空格对单词加以分割的语言，则选用一种分词程序，对查询信息进行分词，分割出查询信息包括的词。

例如，在本实施例中如果涉及到中文，则采用“ICTCLAS 3.0中文分词系统”，如果涉及到的语言为越南文，则采用户“JVnSegmenter越南文分词系统”。

例如，对如表1所示的查询日志中的每个条目包括的查询信息进行分词，将索尼索爱w580c分词得到的词分别为索尼、索爱、w580c；将索爱w580c进行分词得到的词分别为索爱，w580c；将索尼爱立信w580c进行分词得到的词分别为索尼、爱立信和w580c。

表1

查询信息	结果地址	用户标识号
查询信息	结果地址	用户标识号	索尼索爱w580c	URL1	UserID1
索爱w580c	URL1	UserID2	索尼索爱w580c	URL1	UserID1
索爱w580c	URL1	UserID2	索尼爱立信w580c	URL1	UserID3

步骤203：将查询日志中的每一个条目包括的每个词与该条目包括的结果地址组成词与结果地址的匹配对；

其中，查询日志中的每个条目组成的词与结果地址的匹配对的数目与该条目中的查询信息被分成的词的数目相同。

例如，将表1中每个条目分词得到的词与结果地址组成词与结果地址的匹配对，得到的结果如表2所示。

表2

查询信息	结果地址	用户标识号	词与结果地址的匹配对
查询信息	结果地址	用户标识号	词与结果地址的匹配对	索尼索爱w580c	URL1	UserID1	“索尼与URL1”，“索爱与URL1”，“w580c与URL1”
索爱w580c	URL1	UserID2	“索爱与URL1”，“w580c与URL1”	索尼索爱w580c	URL1	UserID1	“索尼与URL1”，“索爱与URL1”，“w580c与URL1”
索爱w580c	URL1	UserID2	“索爱与URL1”，“w580c与URL1”	索爱，索尼爱立信w580c	URL1	UserID3	“索爱与URL1”，“索尼与URL1”，“爱立信与URL1”，“w580c与URL1”

步骤204：确定用户查询每个词与结果地址的匹配对的频率；

具体地，根据查询日志中的每个条目包括的词与结果地址的匹配对以及对应的用户标识号，统计每对词与结果地址的匹配对对应的用户标识号的数目，即查询该词与结果地址的匹配对的用户数目，将每对词与结果地址的匹配对对应的用户数目作为用户查询其自身的频率；

例如，在表2中，“索尼与URL1”对应的用户标识号包括“UserID1”和“UserID3”，所以统计出用户查询“索尼与URL1”的频率为2。按同样的原理，统计出用户查询“索爱与URL1”的频率为3，用户查询“w580c与URL1”的频率为3，用户查询“爱立信与URL1”的频率为1。

步骤205：根据用户查询每对词与结果地址的匹配对的频率，筛选出频率大于或等于N的匹配对组成集合；

具体地，根据用户查询每对词与结果地址的匹配对的频率，对词与结果地址的匹配对进行筛选，筛选出频率大于或等于N的词与结果地址的匹配对，并将筛选出的词与结果地址的匹配对组成一个词与结果地址的匹配对的集合；

其中，N为事先设置的数值，通常将N设置为3。

例如，假设将N设置为3，在步骤204中得到表2中每对词与结果地址的匹配对被用户查询的频率，筛选出用户查询的频率大于或等于3的“索爱与URL1”和“w580c与URL1”，将“索爱与URL1”和“w580c与URL1”组成集合。

其中，用户查询词与结果地址的匹配对的频率越大，其包含的词成为同义词的可能性越大，所以通过阈值N对所有词与结果地址的匹配对进行筛选可以提高获取同义词的准确性。

步骤206：从词与结果地址的匹配对的集合中，读取集合包括的结果地址，统计每个结果地址对应的词与结果地址的匹配对的数目；

具体地，从词与结果地址的匹配对的集合中，读取每条匹配对中的结果地址，针对一个结果地址，从集合中统计包含该结果地址的匹配对的数目，按同样的方法统计出剩下每个结果地址的匹配对的数目。

例如，由“索爱与URL1”和“w580c与URL1”组成新的集合中，首先读取集合包括的结果地址URL1，统计出包含结果地址“URL1”的词与结果地址的匹配对的数目为2。

步骤207：根据结果地址对应的词与结果地址的匹配对的数目，对词与结果地址的匹配对的集合进行筛选并组成新的集合；

具体地，根据结果地址对应的词与结果地址的匹配对的数目，从读取的结果地址中，筛选出匹配对的数目小于M的结果地址，从词与结果地址的匹配对的集合中选取包含筛选的结果地址的词与结果地址的匹配对，并组成新的集合。

其中，M是事先设置的数值，通常设置M的取值为5。

例如，假设设置M的取值为5，筛选出匹配对数目小于5的URL1，在由“索爱与URL1”和“w580c与URL1”组成的集合中，选取包含URL1的“索爱与URL1”和“w580c与URL1”，并组成的新集合。

其中，对于一个结果地址所对应的词与结果地址的匹配对越少，其对应的所有词越有可能成为同义词，所以通过阈值M对词与结果地址的匹配对进行筛选可以提高获取同义词的准确性。

步骤208：从词与结果地址的匹配对的新集合中，获取新集合包括的所有词；

例如，从由“索爱与URL1”和“w580c与URL1”组成的新集合中，获取词为索爱和w580c。

步骤209：针对新集合包括的一个词，便于说明将该词称为待查找的词，从筛选出的词与结果地址的匹配对的新集合中，查找待查找的词对应的结果地址；

具体地，针对新集合中的一个词，为了便于说明将该词称为待查找的词，以待查找的词为索引从词与结果地址的匹配对的新集合中，查找包含有待查找的词的所有词与结果地址的匹配对，从查找出的词与结果地址的匹配对中读取所有的结果地址。

例如，将索爱作为待查找的词，以索爱为索引，从“索爱与URL1”和“w580c与URL1”组成的新集合中，查找索爱对应的结果地址“URL1”。

步骤210：从词与结果地址的匹配对的新集合中，查找查找的结果地址对应的词；

具体地，以每个查找的结果地址为索引，从词与结果地址的匹配对的新集合中，查找包含查找的结果地址的词与结果地址的匹配对，从查找的词与结果地址的匹配对中读取词。

例如，以“URL1”为索引，从“索爱与URL1”和“w580c与URL1”组成的新集合中，查找包含“URL1”的“索爱与URL1”和“w580c与URL1”，从查找的“索爱与URL1”和“w580c与URL1”中，读取“索爱”和“w580c”。

步骤211：判断查找的词的个数是否为一个，当查找的词的个数多于一个时，执行步骤212，否则，执行213；

例如，在步骤210中读取“索爱”和“w580c”，所以判断出查找的词多于一个，执行步骤212。

步骤212：将查找的词作为同义词，同时，将待查找的词与同义词中除待查找的词之外的每个同义词组成同义词对，执行步骤213；

其中，查找的词中包含待查找的词。

例如，将查找的“索爱”的“w580c”作为同义词，该同义词中包含待查找的词“索爱”，将待查找的词与同义词中除“索爱”之外的其他的每个词组成同义词对，即将待查找的词“索爱”与“w580c”组成“索爱与w580c”的同义词对。

步骤213：判断获取的新集合包括的词中是否还存在未被查找过的词，若不存在，则执行214，否则，执行209；

步骤214：可选地，在同义词词典中，确定同义词对中的每个同义词所属的同义词类别，将每个同义词存入所属的同义词类别中。

其中，同义词类别为一个包含若干个词语的集合，集合中任意两个词语之间具有同义词关系。将每个同义词的类别组成同义词词典，如表3所示的同义词典。

表3

同义词类别序号	包含的同义词
同义词类别序号	包含的同义词	1	索爱，手机，主题，软件，索尼，爱立信
2	标致，东风，207，307，hybrid，206	1	索爱，手机，主题，软件，索尼，爱立信
2	标致，东风，207，307，hybrid，206	3	手足口病，手足口，预防，疫情，防治，指南，医院，传染，手抄报，病例，中药
4	钢铁，集团，公司，企业，唐山，炼成，钢材，迁安，价格，工程，行业	3	手足口病，手足口，预防，疫情，防治，指南，医院，传染，手抄报，病例，中药

具体地，针对一对同义词，为了便于说明将该对同义词中的两个同义词分别称为第一同义词和第二同义词，分别以第一同义词和第二同义词为索引从同义词词典中的每个同义词类别中查找，如果第一同义词和第二同义词均未曾出现在任何一个同义词类别中，则在同义词词典中建立一个新的同义词类别，该类别包含的同义词初始设定为第一同义词和第二同义词；如果第一同义词出现在某个同义词类别中，而第二同义词未出现在任何一个同义词类别中，则将第二同义词归属于第一同义词所在的同义词类别中；如果第二同义词出现在某个同义词类别中，而第一同义词未出现在任何一个同义词类别中，则将第一同义词归属于第二同义词所在的同义词类别中；如果第一同义词和第二同义词均出现在同义词类别中，则将第一同义词所在的同义词类别和第二同义词所在的同义词类别合并成一个新的同义词类别，该同义词类别包含原有的两个同义词类别包含的所有同义词，按上述方法确定每个同义词所属的同义词类别，将每个同义词存入所属的同义词类别中。

其中，需要说明的是，搜索引擎的用户数目多，所以记录的查询日志的规模巨大，所以从搜索引擎记录的查询日志中更容易获取新出现的同义词。

在本发明实施例中，通过对查询日志的查询信息进行分词得到词，将词与查询日志中的结果地址，组成词与结果地址的匹配对的集合，以该集合中每个词作为待查找的词，以待查找的词为索引从集合中获取同义词，从而能够自动地获取同义词，减少人力、物力资源，另外，利用词与结果地址的匹配对集合，获取同义词容易获取新出现的同义词，提高算法效率。

实施例3

如图3所示，本发明实施例提供了一种获取同义词的装置，包括：

创建模块301，用于创建词与结果地址的匹配对的集合；

第一查找模块302，用于将创建的集合中的每个词作为待查找的词，根据待查找的词，从创建的集合中查找匹配的结果地址；

第二查找模块303，用于根据查找的结果地址，从创建的集合中查找该结果地址匹配的词，将查找到的词作为同义词。

其中，创建模块301具体包括：

分词单元，用于将查询日志中的每项查询信息划分为词；

第一组成单元，用于将划分的词与查询日志中的结果地址组成词与结果地址的匹配对；

第二组成单元，用于将得到的所有匹配对组成集合；

其中，第二组成单元具体包括：

组成子单元，用于将筛选得到的匹配对组成集合；

进一步地，该获取同义词的装置还包括：

获取模块，用于从搜索引擎记录的查询日志中获取包括查询信息、结果地址和用户标识号的查询日志。

进一步地，该获取同义词的装置还包括：

存储模块，用于在同义词词典中，确定同义词所属的同义词类别，将同义词存入所属的同义词类别。

以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现，其软件程序存储在可读取的存储介质中，存储介质例如：计算机中的硬盘、光盘或软盘。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1、一种获取同义词的方法，其特征在于，所述方法包括：

创建词与结果地址的匹配对的集合；

2、如权利要求1所述的方法，其特征在于，所述创建词与结果地址的匹配对的集合，具体包括：

将查询日志中的每项查询信息划分为词；

将得到的所有匹配对组成集合。

3、如权利要求2所述的方法，其特征在于，所述将得到的所有匹配对组成集合，具体包括：

将筛选得到的匹配对组成集合。

4、如权利要求2所述的方法，其特征在于，所述将查询日志中的每项查询信息划分为词之前，还包括：

5、如权利要求1所述的方法，其特征在于，所述根据所述结果地址，从所述集合中查找与所述结果地址匹配的词，将所述查找到的词作为同义词之后，还包括：

6、一种获取同义词的装置，其特征在于，所述装置包括：

创建模块，用于创建词与结果地址的匹配对的集合；

7、如权利要求6所述的装置，其特征在于，所述创建模块具体包括：

分词单元，用于将查询日志中的每项查询信息划分为词；

第二组成单元，用于将得到的所有匹配对组成集合。

8、如权利要求7所述的装置，其特征在于，所述第二组成单元具体包括：

组成子单元，用于将筛选得到的匹配对组成集合。

9、如权利要求7所述的装置，其特征在于，所述装置还包括：

10、如权利要求6所述的装置，其特征在于，所述装置还包括：