CN102033961A - 一种开放式知识共享平台及其多义词展现方法 - Google Patents

一种开放式知识共享平台及其多义词展现方法 Download PDF

Info

Publication number
CN102033961A
CN102033961A CN 201010619820 CN201010619820A CN102033961A CN 102033961 A CN102033961 A CN 102033961A CN 201010619820 CN201010619820 CN 201010619820 CN 201010619820 A CN201010619820 A CN 201010619820A CN 102033961 A CN102033961 A CN 102033961A
Authority
CN
China
Prior art keywords
meaning
word
entry
content
polysemant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201010619820
Other languages
English (en)
Inventor
陈浩然
来瑾颖
唐益龙
梁东杰
邓亮
耿磊
韦晨曦
严冰
陈恭明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN 201010619820 priority Critical patent/CN102033961A/zh
Publication of CN102033961A publication Critical patent/CN102033961A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种开放式知识共享平台及其多义词展现方法。该多义词展现方法包括:将同一词条的涉及不同主题的词条内容分别与对应的词义选项进行关联;接收用户的查询请求;查询与所述查询请求相匹配的词条;输出并进而在浏览器上呈现出与所述相匹配的词条对应的多个词义选项;以及接收并根据用户针对词义选项的请求输出并进而在浏览器上展现相关联的词条内容。通过上述所提供的技术方案,本发明提供了一种开放式知识共享平台及其多义词展现方法,通过以词义选项形式展现涉及不同主题的词条内容,使得开放式知识共享平台内容的粒度更细,更便于对同名不同主题的内容进行编辑完善和有针对性的引入扩展内容,从而提升用户的浏览体验。

Description

一种开放式知识共享平台及其多义词展现方法
【技术领域】
本本发明涉及网络技术,特别涉及一种开放式知识共享平台及其多义词展现方法。
【背景技术】
随着互联网技术的发展,开放式知识共享平台服务于互联网络中业已广泛应用。知识共享平台由大量用户对各种词条进行编辑,用以帮助有需要的人进行了解。但开放式知识共享平台经常存在涉及不同主题的多义词,例如词条“孙悦”可能涉及到“歌手孙悦”,也可能涉及到“球员孙悦”。再例如词条“苹果”可能涉及到植物、公司、国内电影以及国外电影等等。目前,现有的开放式知识共享平台是将涉及不同主题的多义词的词条内容统一呈现给用户,用户需要在众多词条内容中寻找自己想要的解释,导致用户的浏览体验不佳。
【发明内容】
有鉴于此,本发明提供了一种开放式知识共享平台及其多义词展现方法,通过以词义选项形式展现涉及不同主题的词条内容,使得开放式知识共享平台内容的粒度更细,更便于对同名不同主题的内容进行编辑完善和有针对性的引入扩展内容,从而提升用户的浏览体验。
本发明提供了一种开放式知识共享平台的多义词展现方法,包括:a.将同一词条的涉及不同主题的词条内容分别与对应的词义选项进行关联;b.接收用户的查询请求;c.查询与所述查询请求相匹配的词条;d.输出并进而在浏览器上呈现出与所述相匹配的词条对应的多个词义选项;e.接收并根据用户针对词义选项的请求输出并进而在浏览器上展现相关联的词条内容。
根据本发明之一优选实施方式,在所述步骤d中,进一步根据用户行为对所述多个词义选项进行排序。
根据本发明之一优选实施方式,在所述步骤d中,根据所述词义内容的展现量、所述用户对所述词义内容的浏览时间或所述词义内容的点击量与所述展现量之比对所述多个词义选项进行排序。
根据本发明之一优选实施方式,在所述步骤d中,所述展现量越高,对应的所述词义选项排名越靠前。
根据本发明之一优选实施方式,在所述步骤d中,所述浏览时间越长,对应的所述词义选项排名越靠前。
根据本发明之一优选实施方式,在所述步骤d中,所述点击量与展现量之比越高,对应的所述词义选项排名越靠前。
根据本发明之一优选实施方式,在所述步骤d中,根据所述词义内容的展现量、所述用户在所述词义内容的浏览时间以及所述词义内容的点击量与所述展现量之比的加权统计结果对所述多个词义选项进行排序。
本发明提供了一种开放式知识共享平台,包括:关联模块,将同一词条的涉及不同主题的词条内容分别与对应的词义选项进行关联;输入模块,接收用户的查询请求;查询模块,查询与所述查询请求相匹配的词条。输出模块,输出并进而在浏览器上呈现出与所述相匹配的词条对应的多个词义选项,其中所述输入模块进一步接收用户针对词义选项的请求,所述输出模块根据用户针对词义选项的请求输出并进而在浏览器上展现相关联的词条内容。
根据本发明之一优选实施方式,所述输出模块进一步根据用户行为对所述多个词义选项进行排序。
根据本发明之一优选实施方式,所述输出模块根据所述词义内容的展现量、所述用户在所述词义内容的浏览时间或所述词义内容的点击量与所述展现量之比对所述多个词义选项进行排序。
根据本发明之一优选实施方式,所述展现量越高,对应的所述词义选项排名越靠前。
根据本发明之一优选实施方式,所述浏览时间越长,对应的所述词义选项排名越靠前。
根据本发明之一优选实施方式,所述点击量与展现量之比越高,对应的所述词义选项排名越靠前。
根据本发明之一优选实施方式,输出模块根据所述词义内容的展现量、所述用户在所述词义内容的浏览时间以及所述词义内容的点击量与所述展现量之比的加权统计结果对所述多个词义选项进行排序。
通过上述所提供的技术方案,本发明提供了一种开放式知识共享平台及其多义词展现方法,通过以词义选项形式展现涉及不同主题的词条内容,使得开放式知识共享平台内容的粒度更细,更便于对同名不同主题的内容进行编辑完善和有针对性的引入扩展内容,从而提升用户的浏览体验。
【附图说明】
图1是本发明的开放式知识共享平台的多义词展现方法的流程示意图;
图2是本发明的开放式知识共享平台的示意框图;
图3是本发明的开放式知识共享平台的词条处理方法的流程示意图;
图4是本发明的开放式知识共享平台的多义词判定方法的流程示意图
图5是本发明的开放式知识共享平台的标注特征集合获取方法的流程示意图。
图6是本发明的开放式知识共享平台的多义词条的词义选项划分方法的流程示意图;
图7是本发明的开放式知识共享平台的词条处理装置的示意框图;
图8是本发明的开放式知识共享平台的多义词判定装置的示意框图
图9是本发明的开放式知识共享平台的标注特征集合获取装置的示意框图。
图10是本发明的开放式知识共享平台的多义词条的词义选项划分装置的示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施方式对本发明进行详细描述。
首先请参见图1,图1是本发明的开放式知识共享平台的多义词展现方法的流程示意图。
在步骤10中,将同一词条的涉及不同主题的词条内容分别与对应的词义选项进行关联。例如,在本步骤中,将词条“孙悦”的涉及到“歌手孙悦”的词条内容划分并关联到词义选项“歌手孙悦”下,并将涉及到“球员孙悦”的词条内容划分并关联到词义选项“球员孙悦”下。多义词的具体判断过程以及词条内容的具体划分过程将在下文中进行描述。
在步骤11中,接收用户的查询请求。具体来说,用户通过浏览器发送查询请求,该查询请求经互联网传送到开放式知识共享平台。
在步骤12中,查询与查询请求相匹配的词条。
在步骤13中,输出并在浏览器上呈现出与相匹配的词条对应的多个词义选项。具体来说,开放式知识共享平台在接收到查询请求后,在数据库内查询与该查询请求相匹配的词条。若该词条为涉及不同主题的多义词,则输出并在浏览器中呈现与相匹配词条对应的多个词义选项。例如,当用户输入的查询请求为“孙悦”时,开放式知识共享平台输出并在浏览器上呈现出“歌手孙悦”以及“球员孙悦”两个词义选项。
在步骤14中,根据用户针对词义选项的请求展现相关联的词条内容。具体来说,用户通过词义选项确定自己所感兴趣的主题,进而点击对应的词义选项。开放式知识共享平台则将与该词义选项相关联的词条内容输出到浏览器上,进而展现给用户。例如,用户感兴趣的是“歌手孙悦”,用户点击词义选项“歌手孙悦”,则开放式知识共享平台将与“歌手孙悦”相关的词条内容输出到浏览器上,进而展现给用户。
在步骤13中,优选根据用户行为对浏览器上呈现的多个词义选项进行排序,使得关注度高的词义选项排在该多个词义选项的前列,由此进一步提高用户的浏览体验。
例如,可根据词条内容的展现量、用户对词条内容的浏览时间或词条内容的点击量与展现量之比对多个词义选项进行排序。其中,词条内容的展现量是指根据用户针对词义选项的请求展现相关联的词条内容的次数。一般来说,词条内容的展现量越多证明该词条内容受到的关注度越高,其所对应的词义选项排名应该越靠前。用户在词条内容的浏览时间是指用户在该词条内容展现后到该词条内容关闭之前所花费的时间,用户对词条内容的浏览时间越长,也证明用户对该词条的关注度越高,其所对应的词义选项排名应该越靠前。词条内容的点击量是指用户对所展现的词条内容中的标题、图片或链接等内容的点击次数。词条内容的点击量与展现量之比越高,则也证明用户对该词条的关注度越高,其所对应的词义选项排名应该越靠前。
在优选实施方式中,综合考虑上述三个衡量标准,来对词义选项进行排序。也就是,根据词义内容的展现量、用户对词义内容的浏览时间以及词义内容的点击量与展现量之比的加权统计结果对多个词义选项进行排序。具体加权统计算法可根据实际需要进行设计。例如,在统计词义内容的展现量时,将浏览时间较短的展现行为赋予较低的权重,再参与到展现量统计中,由此可降低由于用户误操作所产生的展现量对词义选项排序的影响。
如图2所示,图2是本发明的开放式知识共享平台的示意框图。本发明的开放式知识共享平台包括关联模块20、输入模块21、匹配模块22以及输出模块23。
关联模块20将同一词条的涉及不同主题的词条内容分别与对应的词义选项进行关联。例如,关联模块20将词条“孙悦”的涉及到“歌手孙悦”的词条内容划分并关联到词义选项“歌手孙悦”下,并将涉及到“球员孙悦”的词条内容划分并关联到词义选项“球员孙悦”下。
输入模块21接收用户通过浏览器发送的查询请求。匹配模块22根据输入模块21接收到查询请求在数据库内查询与该查询请求相匹配的词条。若该词条为涉及不同主题的多义词,则输出模块23输入该词条对应的多个词义选项,进而在浏览器中呈现该多个词义选项。例如,当用户输入的查询请求为“孙悦”时,输出模块23输出并在浏览器上呈现出“歌手孙悦”以及“球员孙悦”两个词义选项。
输入模块21进一步接收用户针对某个词义选项的请求,输出模块23进一步根据用户针对词义选项的请求输出并进而展现相关联的词条内容。具体来说,用户通过词义选项确定自己所感兴趣的主题,进而点击对应的词义选项。输出模块23则将与该词义选项相关联的词条内容输出到浏览器上,进而展现给用户。例如,用户感兴趣的是“歌手孙悦”,用户点击词义选项“歌手孙悦”,则输出模块23则将与“歌手孙悦”相关的词条内容输出到浏览器上,进而展现给用户。
输出模块23优选根据用户行为对浏览器上呈现的多个词义选项进行排序,使得关注度高的词义选项排在该多个词义选项的前列,由此进一步提高用户的浏览体验。
例如,可根据词条内容的展现量、用户对词条内容的浏览时间或词条内容的点击量与展现量之比对多个词义选项进行排序。其中,词条内容的展现量是指根据用户针对词义选项的请求展现相关联的词条内容的次数。一般来说,词条内容的展现量越多证明该词条内容受到的关注度越高,其所对应的词义选项排名应该越靠前。用户在词条内容的浏览时间是指用户在该词条内容展现后到该词条内容关闭之前所花费的时间,用户对词条内容的浏览时间越长,也证明用户对该词条的关注度越高,其所对应的词义选项排名应该越靠前。词条内容的点击量是指用户对所展现的词条内容中的标题、图片或链接等内容的点击次数。词条内容的点击量与展现量之比越高,则也证明用户对该词条的关注度越高,其所对应的词义选项排名应该越靠前。
在优选实施方式中,综合考虑上述三个衡量标准,来对词义选项进行排序。也就是,根据词义内容的展现量、用户对词义内容的浏览时间以及词义内容的点击量与展现量之比的加权统计结果对多个词义选项进行排序。具体加权统计算法可根据实际需要进行设计。例如,在统计词义内容的展现量时,将浏览时间较短的展现行为赋予较低的权重,再参与到展现量统计中,由此可降低由于用户误操作所产生的展现量对词义选项排序的影响。
如图3所示,图3是本发明的开放式知识共享平台的词条处理方法的流程示意图。
在步骤30中,获取词条以及词条内容。在优选实施方式中,该词条及词条内容可以是现有开放式知识共享平台中的以目录形式呈现的词条及词条内容。也就是说,该词条内容包括多个目录以及分别位于各目录下的目录内容。其中,目录可以包括多个一级目录,每个一级目录下还可以进一步包括多个二级目录、三级目录等子目录。
在步骤31中,判断词条是否为涉及不同主题的多义词。判断词条是否为多义词的方法有多种,下面将以几个具体实施方式进行描述。
在一实施方式中,根据目录中的目录信息判断词条是否为涉及不同主题的多义词。具体来说,判断不同的目录信息中是否存在涉及不同主题的关键词。例如,如果词条“孙悦”的两个目录信息中分别出现了“歌手孙悦”和“球员孙悦”,由于“歌手”和“球员”涉及到不同的主题,则认为该词条“孙悦”为多义词。再例如,在词条“射雕英雄传”的两个目录信息中分别出现了“1983版”和“2008版”,则同样认为词条“射雕英雄传”为多义词。
在一实施方式中,在步骤30中,进一步获取词条的分类信息,在步骤31中,根据词条的分类信息判断该词条是否为不同主题的多义词。例如,词条“苹果”的分类信息中包括“植物”、“电影”以及“公司”三个不同的分类,则认为词条“苹果”为多义词。
在另一实施方式中,可根据词条内容通过机器挖掘方法来自动识别词条是否是多义词。如图4所示,图4是本发明的开放式知识共享平台的多义词判定方法的流程示意图。
在步骤40中,对待判定词条的词条内容进行特征提取,以获取多个词条特征。具体来说,对词条内容进行分词及过滤,并将分词及过滤后获得的字词作为词条特征。其中,分词的作用是将词条内容中的汉字序列切分成有意义的字词,以便后续处理。具体分词的方法包括:正向匹配分词、反向匹配分词、正向反向匹配分词、基于全切分词图的分词,最大熵马尔科夫模型分词、最大熵分词或条件随机场分词等,上述分词方法均为本领域公知技术,在此不再赘述。过滤的作用是去除标点符号、助词等无用信息。
在步骤41中,获取标注特征集合。标注特征集合包括多个带有权重值的标注特征。如图5所示,图5是本发明的开放式知识共享平台的标注特征集合获取方法的流程示意图。
在步骤50中,获取包括多个多义词样本和非多义词样本的标注语料。在标注语料中,多义词样本是指已经判定为多义词的词条及词条内容,非多义词样本是指已经判定为非多义词的词条及词条内容。
在步骤51中,从标注语料中提取多个标注特征。具体来说,分别对每个多义词样本以及每个非多义词样本进行分词及过滤,并将分词及过滤后获得的字词作为标注特征。
在步骤52中,根据标注特征在多义词样本和非多义词样本的出现情况为标注特征分别分配对应的权重值。具体来说,计算标注特征在多义词样本中出现的次数M,计算标注特征在非多义词样本中出现的次数N,并计算该标注特征的权重值等于M/(M+N)。通过上述方法可知,如果某个标注特征在多义词样本中出现的次数较多,同时在非多义词样本中出现的次数较少时,该标注特征的权重值就相对较高。如果某个标注特征在多义词样本和非多义词中出现的次数相仿或者在多义词样本中出现的次数较少,同时在非多义词样本中出现的次数较多时,该标注特征的权重值就相对较低。
在步骤42中,根据标注特征分别为从待判定词条的词条内容提取的每一词条特征分配对应的权重值。具体来说,在标注特征集合中判断是否存在与每一词条特征相同的标注特征,若存在,则将该标注特征的权重值分配给该词条特征。
在步骤43中,对从待判定词条的词条内容提取的多个词条特征的权重值进行求和,并将权重值求和高于阈值的词条作为多义词。具体来说,如果待判定词条的多个词条特征的权重值越高,则代表该词条特征在多义词样本中出现的次数越高,该待判定词条是多义词的概率就越高。在本实施方式中,具体阈值可根据实际情况进行设置。
在步骤33中,若判定词条为涉及不同主题的多义词,则将涉及不同主题的词条内容分别划分到对应词义选项下。在一优选实施方式中,以词条的一级目录以及一级目录下的目录内容作为一个基本预测单元,预测基本预测单元是否属于不同主题,并根据预测结果将属于同一主题的基本预测单元划分到同一词义选项。预测基本预测单元是否属于不同主题有多种,下面将以几个具体实施方式进行描述。
在一实施方式中,根据一级目录中的目录信息进行预测。例如,如果词条“孙悦”的两个一级目录的目录信息中分别出现了“歌手孙悦”和“球员孙悦”,由于“歌手”和“球员”涉及到不同的主题,则将目录信息中包含“歌手孙悦”的一级目录及其目录内容划分并关联到词义选项“歌手孙悦”下,并将目录信息中包含“球员孙悦”的一级目录及其目录内容划分并关联到词义选项“球员孙悦”下。此外,还可以根据目录信息所体现的用户编辑行为来进行预测。例如,如果不同的一级目录的目录信息中的第一个字为数字,并连续排列,则将带有数字的一级目录及其目录内容以及下方不带有数字的第一目录及其目录内容分别划分到不同的词义选项下。
在一实施方式中,当判定词条为涉及不同主题的多义词时,可以通过机器挖掘的方式将涉及不同主题的词条内容分别划分到对应的词义选项下。如图6所示,图6是本发明的开放式知识共享平台的多义词条的词义选项划分方法的流程示意图。
由于词条中目录通常是按照前后顺序排列的,也就是在通常情况下,多义词条中的相同主题的目录是按照前后顺序排列的,较少出现乱序排列的情况,因此在这种情况下,只需要判断前后目录之间是否是相关的,即可以得知不同主题的目录的分割位置。
在步骤61中,获取未进行词义选项分类的多义词词条数据。该进行词义选项分类的多义词词条数据可以通过上述图3所示的步骤31或者图4所示多义词判定方法来获得。
在步骤62中,根据词条中目录的位置获取词条的目录信息。在优选的实施方式中,本发明根据多义词词条中一级目录的位置对词条进行分割,获取每个一级目录的目录信息,目录信息包括一级目录名称以及一级目录下的目录内容等。
在步骤63中,根据获取的目录信息,从中提取出多个特征。在对目录信息进行特征提取的时候,需要先对词条内容进行分词及过滤,并将分词及过滤后获得的字词作为词条特征。其中,分词的作用是将词条内容中的汉字序列切分成有意义的字词,以便后续处理。具体分词的方法包括:正向匹配分词、反向匹配分词、正向反向匹配分词、基于全切分词图的分词,最大熵马尔科夫模型分词、最大熵分词或条件随机场分词等,上述分词方法均为本领域公知技术,在此不再赘述。过滤的作用是去除标点符号、助词等无用信息。在优选的实施方式中,本发明采用正向最大匹配分词和反向最大匹配分词相结合的方式对分词结果进行校正,以获取正确率较高的分词结果。
在步骤64中,获取含目录特征关联度关系的机器模型。如图6所示,步骤64进一步包括:
步骤641,获取已分类为不同主题的词义选项的多义词条样本库。由于样本是已经分类为不同主题的词义选项的多义词条,因此每一个词义选项下面的目录所对应的主题是相同的。
步骤642,获取词义选项的目录信息。即获取词义选项下面具有相同主题特性的目录信息。优选的实施方式中,获取词义选项的一级目录信息。
步骤643,根据词义选项的目录信息提取词义选项的目录特征。对具有相同主题特性的目录信息提取对应的目录特征。
步骤644,根据词义选项的目录特征进行机器建模,生成包括词义选项的相邻的目录信息的目录特征的关联度关系的机器模型。由于多义词条样本库的每一个词条都包括了多个词义选项,通过对同一词义选项下的具有相同主题特性的目录特征进行学习训练,以及对不同词义选项下的具有不同主题特性的目录特征进行学习训练,可以建立包括词义选项的相邻的目录信息的目录特征的关联度关系的机器模型。在优选的实施方式中,词义选项的相邻的目录信息的目录特征的关联度关系包括相同词汇的数量、相同词汇的词汇属性、相同词汇所占目录信息的比例、关联词汇的数量、关联词汇的词汇属性、关联词汇所占目录信息的比例之一或其组合。
在步骤65中,根据所提取的目录特征,应用机器模型对前后相邻的目录信息的目录特征进行关联度计算。其中,关联度计算可以采用多种方法,并且各种方法之间也可以单独实施或相互结合实施,本发明现举例两种可以单独实施或相互结合实施的方法,但并非用于限制本发明的实施方式。
在本发明的一种实施方式中,应用机器模型对前后相邻的目录信息的目录特征中的相同词汇的参数进行计算,通过计算相同词汇的数量、相同词汇所占目录信息的比例,或者对相同词汇的词汇属性进行判断,实现对前后相邻的目录信息的关联度计算。例如,对于文艺作品,特别是影视连续剧、连载小说等,其目录名称相同而内容不同,目录内容中相同词汇出现数量很多,而且词汇属性为名词、动名词等,因此可以据此计算前后目录的关联度。
在本发明的另一种实施方式中,应用机器模型对前后相邻的目录信息的目录特征中的关联词汇的参数进行计算,通过计算关联词汇的数量、关联词汇所占目录信息的比例,或者对关联词汇的词汇属性进行判断,实现对前后相邻的目录信息的关联度计算。例如“刘德华”和“朱丽倩”的相关度很高,“刘德华”和“老人”的相关度就低,“歌星”与“专辑”的相关度很高,“歌星”与“战争”的相关度就低。这种词汇相关度可以通过相关词词典或者机器样本学习的方式进行判断。
在步骤66中,根据关联度计算结果对目录信息进行标记。标记方法包括多种实施方式。在本发明的一种实施方式中,可以根据关联度计算结果将目录信息根据主题进行分类。在本发明的另一种实施方式中,根据关联度计算结果将前后相邻的目录信息划分为相关和无关,将起始目录以及与在前目录信息相关的目录信息标记为第一标记,将与在前目录信息无关的目录信息标记为第二标记。举例来说,一个多义词条包括6个目录。通过各个目录和对应的目录内容识别出该目录是不是一个相同主题的词义选项的开始部分,如果是,标记成“B”,如果不是,标记成“I”。这样,6个目录可能被标记成如“BIBIIB”这样的结果,那么目录1-2就是一个词义选项,目录3-5是一个词义选项,目录6是一个词义选项。这样就实现了对多义词条内具有相同主题的目录的分类。
如图7所示,图7是本发明的开放式知识共享平台的词条处理装置的示意框图。在本实施方式中,词条处理装置包括词条获取模块70、多义词判断模块71以及词义选项划分模块72
词条获取模块70用于获取词条以及词条内容。在优选实施方式中,该词条及词条内容可以是现有开放式知识共享平台中的以目录形式呈现的词条及词条内容。也就是说,该词条内容包括多个目录以及分别位于各目录下的目录内容。其中,目录可以包括多个一级目录,每个一级目录下还可以进一步包括多个二级目录、三级目录等子目录。
多义词判断模块71用于判断词条是否为涉及不同主题的多义词。判断词条是否为多义词的方法有多种,下面将以几个具体实施方式进行描述。
在一实施方式中,多义词判断模块71根据目录中的目录信息判断词条是否为涉及不同主题的多义词。具体来说,多义词判断模块71判断不同的目录信息中是否存在涉及不同主题的关键词。例如,如果词条“孙悦”的两个目录信息中分别出现了“歌手孙悦”和“球员孙悦”,由于“歌手”和“球员”涉及到不同的主题,则认为该词条“孙悦”为多义词。再例如,在词条“射雕英雄传”的两个目录信息中分别出现了“1983版”和“2008版”,则同样认为词条“射雕英雄传”为多义词。
在一实施方式中,词条获取模块70进一步获取词条的分类信息,多义词判断模块71根据词条的分类信息判断该词条是否为不同主题的多义词。例如,词条“苹果”的分类信息中包括“植物”、“电影”以及“公司”三个不同的分类,则认为词条“苹果”为多义词。
在另一实施方式中,可根据词条内容通过机器挖掘方法来自动识别词条是否是多义词。如图8所示,图8是本发明的开放式知识共享平台的多义词判断模块的示意框图。在本实施方式中,多义词判断模块包括词条特征提取模块80、标注特征集合获取模块81、词条特征权重计算模块82以及阈值判断模块83
词条特征提取模块80用于对待判定词条的词条内容进行特征提取,以获取多个词条特征。具体来说,词条特征提取模块80对词条内容进行分词及过滤,并将分词及过滤后获得的字词作为词条特征。其中,分词的作用是将词条内容中的汉字序列切分成有意义的字词,以便后续处理。具体分词的方法包括:正向匹配分词、反向匹配分词、正向反向匹配分词、基于全切分词图的分词,最大熵马尔科夫模型分词、最大熵分词或条件随机场分词等,上述分词方法均为本领域公知技术,在此不再赘述。过滤的作用是去除标点符号、助词等无用信息。
标注特征集合获取模块81用于获取标注特征集合。标注特征集合包括多个带有权重值的标注特征。如图9所示,图8是本发明的开放式知识共享平台的标注特征集合获取模块的示意框图。在本实施方式中,标注特征集合获取模块包括标注语料获取模块90、标注特征提取模块91以及标注特征权重计算模块92。
标注语料获取模块90用于获取包括多个多义词样本和非多义词样本的标注语料。在标注语料中,多义词样本是指已经判定为多义词的词条及词条内容,非多义词样本是指已经判定为非多义词的词条及词条内容。
标注特征提取模块91用于从标注语料中提取多个标注特征。具体来说,标注特征提取模块91分别对每个多义词样本以及每个非多义词样本进行分词及过滤,并将分词及过滤后获得的字词作为标注特征。
标注特征权重计算模块92用于根据标注特征在多义词样本和非多义词样本的出现情况为标注特征分别分配对应的权重值。具体来说,标注特征权重计算模块92计算标注特征在多义词样本中出现的次数M,计算标注特征在非多义词样本中出现的次数N,并计算该标注特征的权重值等于M/(M+N)。通过上述方法可知,如果某个标注特征在多义词样本中出现的次数较多,同时在非多义词样本中出现的次数较少时,该标注特征的权重值就相对较高。如果某个标注特征在多义词样本和非多义词中出现的次数相仿或者在多义词样本中出现的次数较少,同时在非多义词样本中出现的次数较多时,该标注特征的权重值就相对较低。
词条特征权重计算模块82用于根据标注特征分别为从待判定词条的词条内容提取的每一词条特征分配对应的权重值。具体来说,词条特征权重计算模块82在标注特征集合中判断是否存在与每一词条特征相同的标注特征,若存在,则将该标注特征的权重值分配给该词条特征。
阈值判断模块83用于对从待判定词条的词条内容提取的多个词条特征的权重值进行求和,并将权重值求和高于阈值的词条作为多义词。具体来说,如果待判定词条的多个词条特征的权重值越高,则代表该词条特征在多义词样本中出现的次数越高,该待判定词条是多义词的概率就越高。在本实施方式中,具体阈值可根据实际情况进行设置。
若多义词判断模块71判定词条为涉及不同主题的多义词,则词义选项划分模块72将涉及不同主题的词条内容分别划分到对应词义选项下。在一优选实施方式中,词义选项划分模块72以词条的一级目录以及一级目录下的目录内容作为一个基本预测单元,预测基本预测单元是否属于不同主题,并根据预测结果将属于同一主题的基本预测单元划分到同一词义选项。预测基本预测单元是否属于不同主题有多种,下面将以几个具体实施方式进行描述。
如图10所示,图10是本发明的开放式知识共享平台的多义词条的词义选项划分装置的示意框图。词义选项划分模块进一步包括:词条数据获取模块101、目录信息获取模块102、目录特征提取模块103、机器模型获取模块104、目录相关度计算模块105以及标记模块106。
词条数据获取模块101用于获取未进行词义选项分类的多义词词条数据。该进行词义选项分类的多义词词条数据可以通过上述图3所示的步骤31或者图4所示多义词判定方法来获得。
目录信息获取模块102用于根据词条中目录的位置获取词条的目录信息。在优选的实施方式中,本发明根据多义词词条中一级目录的位置对词条进行分割,获取每个一级目录的目录信息,目录信息包括一级目录名称以及一级目录下的目录内容等。
目录特征提取模块103用于根据获取的目录信息,从中提取出多个特征。在对目录信息进行特征提取的时候,需要先对词条内容进行分词及过滤,并将分词及过滤后获得的字词作为词条特征。在优选的实施方式中,本发明采用正向最大匹配分词和反向最大匹配分词相结合的方式对分词结果进行校正,以获取正确率较高的分词结果。
机器模型获取模块104用于获取含目录特征关联度关系的机器模型。如图10所示,机器模型获取模块104进一步包括:样本获取模块1041、词义选项目录信息获取模块1042、目录特征提取模块1043以及机器建模模块1044。样本获取模块1041用于获取已分类为不同主题的词义选项的多义词条样本库。由于样本是已经分类为不同主题的词义选项的多义词条,因此每一个词义选项下面的目录所对应的主题是相同的。词义选项目录信息获取模块1042用于获取词义选项的目录信息。即获取词义选项下面具有相同主题特性的目录信息。优选的实施方式中,获取词义选项的一级目录信息。目录特征提取模块1043用于根据词义选项的目录信息提取词义选项的目录特征。对具有相同主题特性的目录信息提取对应的目录特征。机器建模模块1044用于根据词义选项的目录特征进行机器建模,生成包括词义选项的相邻的目录信息的目录特征的关联度关系的机器模型。在优选的实施方式中,词义选项的相邻的目录信息的目录特征的关联度关系包括相同词汇的数量、相同词汇的词汇属性、相同词汇所占目录信息的比例、关联词汇的数量、关联词汇的词汇属性、关联词汇所占目录信息的比例之一或其组合。
目录相关度计算模块105用于根据所提取的目录特征,应用机器模型对前后相邻的目录信息的目录特征进行关联度计算。其中,目录相关度计算模块105可以采用多种计算结构实现,并且各种计算结构之间也可以单独实施或相互结合实施。在本发明的一种实施方式中,目录相关度计算模块105应用机器模型对前后相邻的目录信息的目录特征中的相同词汇的参数进行计算,通过计算相同词汇的数量、相同词汇所占目录信息的比例,或者对相同词汇的词汇属性进行判断,实现对前后相邻的目录信息的关联度计算。在本发明的另一种实施方式中,目录相关度计算模块105应用机器模型对前后相邻的目录信息的目录特征中的关联词汇的参数进行计算,通过计算关联词汇的数量、关联词汇所占目录信息的比例,或者对关联词汇的词汇属性进行判断,实现对前后相邻的目录信息的关联度计算。
标记模块106用于根据关联度计算结果对目录信息进行标记。标记方法包括多种实施方式。在本发明的一种实施方式中,可以根据关联度计算结果将目录信息根据主题进行分类。在本发明的另一种实施方式中,根据关联度计算结果将前后相邻的目录信息划分为相关和无关,将起始目录以及与在前目录信息相关的目录信息标记为第一标记,将与在前目录信息无关的目录信息标记为第二标记。标记模块106标记模块进一步包括:关联度分类模块、第一标记模块以及第二标记模块。关联度分类模块根据关联度计算结果将前后相邻的目录信息划分为相关和无关。第一标记模块将起始目录以及与在前目录信息相关的目录信息标记为第一标记。第二标记模块将与在前目录信息无关的目录信息标记为第二标记。
通过上述所提供的技术方案,本发明提供了一种开放式知识共享平台及其多义词展现方法,可将多义词中不同主题的词义选项显示出来,由用户进行选择,提高用户体验。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (14)

1.一种开放式知识共享平台的多义词展现方法,其特征在于,所述多义词展现方法包括:
a.将同一词条的涉及不同主题的词条内容分别与对应的词义选项进行关联;
b.接收用户的查询请求;
c.查询与所述查询请求相匹配的词条;
d.输出并进而在浏览器上呈现出与所述相匹配的词条对应的多个词义选项;
e.接收并根据用户针对词义选项的请求输出并进而在浏览器上展现相关联的词条内容。
2.根据权利要求1所述的多义词展现方法,其特征在于,在所述步骤d中,进一步根据用户行为对所述多个词义选项进行排序。
3.根据权利要求2所述的多义词展现方法,其特征在于,在所述步骤d中,根据所述词义内容的展现量、所述用户对所述词义内容的浏览时间或所述词义内容的点击量与所述展现量之比对所述多个词义选项进行排序。
4.根据权利要求3所述的多义词展现方法,其特征在于,在所述步骤d中,所述展现量越高,对应的所述词义选项排名越靠前。
5.根据权利要求3所述的多义词展现方法,其特征在于,在所述步骤d中,所述浏览时间越长,对应的所述词义选项排名越靠前。
6.根据权利要求3所述的多义词展现方法,其特征在于,在所述步骤d中,所述点击量与展现量之比越高,对应的所述词义选项排名越靠前。
7.根据权利要求2所述的多义词展现方法,其特征在于,在所述步骤d中,根据所述词义内容的展现量、所述用户在所述词义内容的浏览时间以及所述词义内容的点击量与所述展现量之比的加权统计结果对所述多个词义选项进行排序。
8.一种开放式知识共享平台,其特征在于,所述开放式知识共享平台包括:
关联模块,将同一词条的涉及不同主题的词条内容分别与对应的词义选项进行关联;
输入模块,接收用户的查询请求;
查询模块,查询与所述查询请求相匹配的词条;
输出模块,输出并进而在浏览器上呈现出与所述相匹配的词条对应的多个词义选项,其中所述输入模块进一步接收用户针对词义选项的请求,所述输出模块根据用户针对词义选项的请求输出并进而在浏览器上展现相关联的词条内容。
9.根据权利要求8所述的开放式知识共享平台,其特征在于,所述输出模块进一步根据用户行为对所述多个词义选项进行排序。
10.根据权利要求9所述的开放式知识共享平台,其特征在于,所述输出模块根据所述词义内容的展现量、所述用户在所述词义内容的浏览时间或所述词义内容的点击量与所述展现量之比对所述多个词义选项进行排序。
11.根据权利要求10所述的开放式知识共享平台,其特征在于,所述展现量越高,对应的所述词义选项排名越靠前。
12.根据权利要求10所述的开放式知识共享平台,其特征在于,所述浏览时间越长,对应的所述词义选项排名越靠前。
13.根据权利要求10所述的开放式知识共享平台,其特征在于,所述点击量与展现量之比越高,对应的所述词义选项排名越靠前。
14.根据权利要求9所述的开放式知识共享平台,其特征在于,所述输出模块根据所述词义内容的展现量、所述用户在所述词义内容的浏览时间以及所述词义内容的点击量与所述展现量之比的加权统计结果对所述多个词义选项进行排序。
CN 201010619820 2010-12-31 2010-12-31 一种开放式知识共享平台及其多义词展现方法 Pending CN102033961A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010619820 CN102033961A (zh) 2010-12-31 2010-12-31 一种开放式知识共享平台及其多义词展现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010619820 CN102033961A (zh) 2010-12-31 2010-12-31 一种开放式知识共享平台及其多义词展现方法

Publications (1)

Publication Number Publication Date
CN102033961A true CN102033961A (zh) 2011-04-27

Family

ID=43886854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010619820 Pending CN102033961A (zh) 2010-12-31 2010-12-31 一种开放式知识共享平台及其多义词展现方法

Country Status (1)

Country Link
CN (1) CN102033961A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008186A (zh) * 2014-06-11 2014-08-27 北京京东尚科信息技术有限公司 从目标文本中确定关键词的方法和装置
CN108509449A (zh) * 2017-02-24 2018-09-07 腾讯科技(深圳)有限公司 一种信息处理的方法及服务器
CN109635196A (zh) * 2018-12-17 2019-04-16 广东小天才科技有限公司 一种基于多义词的智能搜索方法及家教设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286175A (zh) * 2008-05-09 2008-10-15 北京大学 一种基于标签的文件呈现方法及其系统
CN101405725A (zh) * 2006-03-10 2009-04-08 独立行政法人情报通信研究机构 多义词的信息检索装置以及程序

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101405725A (zh) * 2006-03-10 2009-04-08 独立行政法人情报通信研究机构 多义词的信息检索装置以及程序
CN101286175A (zh) * 2008-05-09 2008-10-15 北京大学 一种基于标签的文件呈现方法及其系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008186A (zh) * 2014-06-11 2014-08-27 北京京东尚科信息技术有限公司 从目标文本中确定关键词的方法和装置
CN104008186B (zh) * 2014-06-11 2018-10-16 北京京东尚科信息技术有限公司 从目标文本中确定关键词的方法和装置
CN108509449A (zh) * 2017-02-24 2018-09-07 腾讯科技(深圳)有限公司 一种信息处理的方法及服务器
CN108509449B (zh) * 2017-02-24 2022-07-08 腾讯科技(深圳)有限公司 一种信息处理的方法及服务器
CN109635196A (zh) * 2018-12-17 2019-04-16 广东小天才科技有限公司 一种基于多义词的智能搜索方法及家教设备

Similar Documents

Publication Publication Date Title
CN103678564B (zh) 一种基于数据挖掘的互联网产品调研系统
Boia et al. A:) is worth a thousand words: How people attach sentiment to emoticons and words in tweets
CN103176983B (zh) 一种基于互联网信息的事件预警方法
CN103207899B (zh) 文本文件推荐方法及系统
CN106407484B (zh) 一种基于弹幕语义关联的视频标签提取方法
CN103294778B (zh) 一种推送资讯信息的方法及系统
CN106095737A (zh) 文档相似度计算方法及相似文档全网检索跟踪方法
CN102929873A (zh) 一种基于情境搜索提取搜索价值词的方法及装置
CN109543178A (zh) 一种司法文本标签体系构建方法及系统
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN103455562A (zh) 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN103390051A (zh) 一种基于微博数据的话题发现与追踪方法
CN107544988B (zh) 一种获取舆情数据的方法和装置
CN109388743B (zh) 语言模型的确定方法和装置
CN106951530B (zh) 一种事件类型抽取方法和装置
CN102063497B (zh) 一种开放式知识共享平台及其词条处理方法
CN101609459A (zh) 一种情感特征词提取系统
CN102831193A (zh) 基于分布式多级聚类的话题检测装置及方法
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
CN102200975A (zh) 一种利用语义分析的垂直搜索引擎系统与方法
CN104537341A (zh) 人脸图片信息获取方法和装置
CN108549697A (zh) 基于语义关联的信息推送方法、装置、设备以及存储介质
CN103218368B (zh) 一种挖掘热词的方法与装置
CN108021667A (zh) 一种文本分类方法和装置
CN108388556B (zh) 同类实体的挖掘方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110427