CN102929962A - 一种搜索引擎的评测方法 - Google Patents
一种搜索引擎的评测方法 Download PDFInfo
- Publication number
- CN102929962A CN102929962A CN2012103843185A CN201210384318A CN102929962A CN 102929962 A CN102929962 A CN 102929962A CN 2012103843185 A CN2012103843185 A CN 2012103843185A CN 201210384318 A CN201210384318 A CN 201210384318A CN 102929962 A CN102929962 A CN 102929962A
- Authority
- CN
- China
- Prior art keywords
- keyword
- current
- search engine
- weighted value
- webpage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种搜索引擎的评测方法,包括:根据用于表示当前关键词与其他关键词的权重及权重关系的领域本体图及用于表示当前网页中当前关键词与其他关键词的权重及权重关系的网页本体图计算当前领域本体中的某一关键词在当前网页的网页相关度;计算所述当前关键词通过搜索引擎返回的若干网页的网页相关度总和,获得当前搜索引擎在所述当前关键词所处领域的评分。通过采用本发明公开的方法,实现了简洁、准确、快速的对搜索引擎进行评测。
Description
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种搜索引擎的评测方法。
背景技术
互联网的迅猛发展和广泛普及,使人们可以方便地从网络上获得信息,但网络信息的爆炸性增长,又使人们准确、快速地获得有价值信息的难度大大增加。由于每个搜索引擎的语料库大小、索引新鲜度和语料重复度不同,导致搜索引擎相对于同一个关键词的返回结果大不相同。
当用户需要对某个领域关键词进行搜索,并期望准确的找到所需要的信息时,则需要先对比较各个搜索引擎在当前领域的优劣,以选择最合适的搜索引擎进行信息的获取。
现有技术中对搜索引擎进行评测时需具备访问搜索引擎内部数据的特权,并且需掌握搜索引擎工作原理等专业知识。然而,普通用户并不具备上述能力,因此,无法快速、高效的实现搜索引擎评测。
发明内容
本发明的目的是提供一种搜索引擎的评测方法,基于领域本体的外部方法,实现了简洁、准确、快速的对搜索引擎进行评测。
本发明的目的是通过以下技术方案实现的:
一种搜索引擎的评测方法,包括:
根据用于表示当前关键词与其他关键词的权重及权重关系的领域本体图及用于表示当前网页中当前关键词与其他关键词的权重及权重关系的网页本体图计算当前领域本体中的某一关键词在当前网页的网页相关度;
计算所述当前关键词通过搜索引擎返回的若干网页的网页相关度总和,获得当前搜索引擎在所述当前关键词所处领域的评分。
由上述本发明提供的技术方案可以看出,本发明无需访问搜索引擎内部文件或目录来进行搜索引擎评测,而通过基于领域本体的外部方法,实现了简洁、准确、快速的对搜索引擎进行评测。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例一提供的一种搜索引擎的评测方法的流程图;
图2为本发明实施例二提供的又一种搜索引擎的评测方法的流程图;
图3为本发明实施例二提供的一种领域本体图中关键词权重值及关系权重值的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
实施例一
下面将结合附图对本发明实施例作进一步地详细描述。
如图1所示,一种搜索引擎的评测方法,包括如下步骤:
步骤101、根据用于表示当前关键词与其他关键词的权重及权重关系的领域本体图及用于表示当前网页中当前关键词与其他关键词的权重及权重关系的网页本体图计算当前领域本体中的某一关键词在当前网页的网页相关度。
其方法可以为:根据选定的关键词构建领域本体图,该领域本体图中包括当前关键词与当前领域中其他关键词间权重关系;将该关键词通过搜索引擎进行搜索,选定返回的搜索结果的中的某一网页,构建网页本体图,该网页本体图中包括当前关键词在当前网页中与当前领域中其他关键词间权重关系的;根据该关键词的领域本体图及网页本体图,计算该关键词在当前网页的网页相关度。
步骤102、计算所述当前关键词通过搜索引擎返回的若干网页的网页相关度总和,获得当前搜索引擎在所述当前关键词所处领域的评分。
其计算方法具体可以为:分别将每一个返回的网页的网页相关度与该网页在当前搜索引擎页面的权重值相乘,再计算总和,该数值则为当前搜索引擎在所述某一关键词所处领域的评分。其中,返回的网页的权重值与该网页所处搜索引擎页面相关,一般而言,返回的网页越靠前其权重值越大,反之越小。
还可将所述某一关键词分别通过N(大于0的自然数)个搜索引擎进行搜索,并统一选取返回的若干网页,分别计算每一个搜索引擎返回的若干网页的网页相关度总和,按照所述网页相关度总和的大小,判断搜索引擎在所述某一关键词所处领域优劣。
本发明实施例提供的搜索引擎的评测方法,无需访问搜索引擎内部文件或目录来进行搜索引擎评测,而通过基于领域本体的外部方法,实现了简洁、准确、快速的对搜索引擎进行评测。
实施例二
为便于理解,下面将结合附图2-3对本发明实施例的具体实现方式作进一步描述。
如图2所示,一种搜索引擎的评测方法,包括如下步骤:
步骤201、抓取关键词。从专业目录网站中,例如维基百科、百度百科和ODP等,抓取关键词,将抓取到的关键词按照领域进行分类形成关键词词库,如音乐,体育等。一般而言,利用专业目录网站中的抓取到的关键词来构建领域相关的问询词词库,可以提高网页相关度评测的准确性,进而提高系统的准确性。
步骤202、选定关键词,并根据选定好的关键词构建领域本体图。
首先选择一个关键词,根据当前关键词所处的领域类型建立关键词集合,确定所述关键词集合中所有关键词的词性(如名次,动词等),并按照语义相近程度将所述关键词集合中的关键词聚类;再根据分类学、语义和聚类概念对所述关键词集合中的关键词进行抽取,获得分类关系、关系集合与聚簇关系集合;最后根据抽取时的概率计算每一个关键词在当前领域本体中的权重值、分类关系中关键词间的关系权重值及关系集合中关键词间的关系权重值。
上述仅为领域本体图的其中一种建立方法,用户还可以根据实际需求做出调整。例如,可在建立关键词集合后通过本体语料库对关键词进行校正等,还可对关键词集合进行其他类型的抽取,再建立对应的集合;还可将七步法或骨架法等其他领域本体图的构建方法与上述方法相结合。
为了便于理解通过上述方法建立的领域本体图的含义,可将其定义为OG=<T,F,H,R,C,A>,其中T代表OG中关键词集合,F代表属于T中关键词的词性,H代表T中关键词的分类关系,R代表关键词之间关系集合,C代表T中关键词的聚簇关系集合,A代表描述R中每个关系的理论集合。例如,以“娱乐”作为主体构建的领域本体图,关键词集合T={(娱乐,1),(音乐,0.9),(电影,0.9),(流行,0.8),(唱歌,0.7),(卡通,0.6),(演出,0.5),(演员,0.5)};词性集合F={(娱乐,noun),(音乐,noun),(流行,noun),(唱歌,verb),(卡通,noun),(电影,noun)(演出,noun),(演员,noun)};H={(娱乐,音乐,0.5),(音乐,流行,0.5)};R={(唱歌,音乐,0.8),(演员,演出,0.9),(演员,电影,0.9)};C={(音乐,音乐),(音乐,流行),(音乐,唱歌),(动画,卡通),(电影,演出),(电影,演员)},其中F中的英文为该关键词的词性,如名词、动词等;T中的数字为该关键词在以“娱乐”为主体构建的领域本体图中的权重值;H与R中的数字为两个关键词的权重边的值。上述权重值与权重边的值是根据抽该时出现的概率计算而来,对于不同的领域本体其关键词的权重值与权重边也会发生一定的变化。为更形象的表示各个关键词的权重值及权重边的值的关系,可以构建如图3所示的示意图。
而为了便于计算,可以使用关键词的权重值及关键词中的权重边的值,计算相关联的关键词的关系权重值,下表以“娱乐”、“音乐”、“流行”和“唱歌”为例计算关系权重值:
关键词 | 娱乐 | 音乐 | 流行 | 唱歌 |
娱乐 | 1 | 0.5 | ||
音乐 | 0.45 | 1 | 0.45 | 0.72 |
流行 | 0.4 | 1 | ||
唱歌 | 0.56 | 1 |
表1
其中,空白部分则表示两个关键词无直接关系;娱乐→音乐的关系权重为0.5的含义为:娱乐自身的权重值乘以两者的权重边的值(1*0.5=0.5);音乐→娱乐的关系权重为0.45的含义为:音乐自身的权重值乘以两者的权重边的值(0.9*0.5=0.45),其他的关系权重值算法与上述算法一致,而某个关键词与其自身的关系权重值默认为1。
步骤203、根据搜索引擎返回的结果及领域本体图,构建网页本体图。其方法可以为,将选定关键词通过搜索引擎进行搜索,选定某一个搜索结果,将该结果中的网页文本将分割为M(M为大于0的自然数)个短句,从中提取出N(N为大于0的自然数)个当前领域本体中的关键词,例如搜索的关键词为“娱乐”,则将当前网页中提取以娱乐为主体构建的领域本体图中的关键词(例如音乐、流行等),并分别按照关键词出现的次数来计算每一个关键词在当前网页中的权重值,根据当前领域本体图查找具有相关性的关键词,并将其在当前网页中的权重值和当前领域本体图中对应的所述相关关键词的关系权重值相乘,获得其在网页中的关系权重值。
例如,选定的关键词为“娱乐”,并在选定的网页中提出了“音乐”、“流行”与“唱歌”。若上述四个关键词各出现四次,则上述四个关键词的权重值相同,均为0.25,然后,将其在当前网页中的权重值和当前领域本体图中对应的所述相关关键词的关系权重值相结合,获得其在网页中的关系权重值,如下表所示:
关键词 | 娱乐 | 音乐 | 流行 | 唱歌 |
娱乐 | 0.25 | 0.125 | ||
音乐 | 0.1125 | 0.25 | 0.1125 | 0.18 |
流行 | 0.1 | 0.25 | ||
唱歌 | 0.14 | 0.25 |
表2
其中,空白部分则表示两个关键词无直接关系;娱乐→音乐的网页中关系权重为0.125的含义为:“娱乐”在网页中的权重值乘以“娱乐”与“音乐”在领域本体图中的关系权重值(0.25*0.15=0.1125),其余的网页关系权重值算法与娱乐→音乐的网页关系权重值算法一致,而某个关键词与其自身的关系权重值则为其自身的权重值。
步骤204、根据领域本体图及网页本体图计算当前领域本体中的某一关键词在当前网页的网页相关度。具体的:将网页本体图中所有具有相关性的关键词的关系权重值之和除以领域本体图中所有具有相关性的关键词间的关系权重值之和,获得某一关键词在当前网页的网页相关度。
例如:以上述“娱乐”为搜索关键词,计算网页相关度;将表2中除去自身关系权重值的所有关系权重值之和除以表1中除去自身关系权重值的所有关系权重值之和;即score=(0.125+0.1125+0.1125+0.18+0.1+0.14)/(0.5+0.45+0.45+0.72+0.4+0.56)=0.77/3.08=0.25
对于同一关键词而言(例如上述示例中的“娱乐”)其领域本体图中的各个关键词的权重值及关系权重值不会发生变化,但网页本体图中的各个关键词的权重值及关系权重值会根据搜索引擎及各个网页内容的不同而发生相应的变化。
步骤205、计算所述选定关键词通过搜索引擎返回的若干网页的网页相关度总和,获得当前搜索引擎在所述某一关键词所处领域的评分。
计算方法可以为:分别将每一个返回的网页的网页相关度与该网页在当前搜索引擎页面的权重值相乘,之后再计算总和,该数值则为当前搜索引擎在所述某一关键词所处领域的评分。其中,返回的网页的权重值与该网页所处搜索引擎页面相关,一般而言,返回的网页越靠前其权重值越大,反之越小。
当对多个搜索引擎评测时,一般统一取若干网页来计算网页相关度总和作为总评分,根据每一个搜索引擎的总评分来判断搜索引擎在某一领域的优劣。然而,当通过搜索引擎搜索某一关键词时会返回大量的网页,但越靠后的网页一般可用的信息量越小,为使得对搜索引擎的评分更为准确,需要按照返回网页的页面顺序赋予权重值。例如,在某些搜索引擎进行某个关键词进行搜索后,第一页中出现大量的推广网页,而根据推广网页的内容用户无法准确的获取所需要的信息,因此,该搜索引擎在当前领域的评分应该低于其他搜索引擎的在当前领域的评分。
为便于理解,通过如下两个示例做详细介绍。
(1)当某一搜索引擎搜索“娱乐”后,取前两页的返回结果,每一页均有10个网页,通过步骤204的计算后得出第一页的网页相关度分别为:0.25、0.35、0.3、0.4、0.3、0.5、0.25、0.3、0.35与0.45,第二页的网页相关度分别为:0.25、0.2、0.2、0.2、0.15、0.25、0.1、0.25、0.3与0.2,并且第一页的权重值会高于第二页的权重值(例如第一页的权重值为1第二页的权重值为0.9),此时,计算总评分可以将第一页与第二的网页相关度的数值分别乘以其页面的权重值(第一页权重值为1,第二页为0.9)后再求和,也可以将第一页的网页相关度求和之后乘以权重值(第一页权重值为1)在加上第二页的网页相关度之和乘以权重值(第二页权重值为0.9),以第二种计算方法为例:(0.25+0.35+0.3+0.4+0.3+0.5+0.25+0.3+0.35+0.45)x1+(0.25+0.2+0.2+0.2+0.15+0.25+0.1+0.25+0.3+0.2)x0.9=3.45+1.89=5.34
(2)当另一搜索引擎搜索“娱乐”后,同样取前两页的返回结果,每一页均有10个网页,但由于该搜索引擎中含有大量的推广网页(例如,第一页有7个推广网页),通过步骤204的计算后得出第一页的网页相关度分别为:0.1、0.05、0.15、0.1、0.15、0.05、0.15、0.3、0.35与0.4,第二页的网页相关度分别为:0.2、0.2、0.25、0.25、0.15、0.2、0.15、0.2、0.3与0.25;其总评分的计算方法与上述示例(1)的方法一致:(0.1+0.05+0.15+0.1+0.15+0.05+0.15+0.3+0.35+0.4)x1+(0.2+0.2+0.25+0.25+0.15+0.2+0.15+0.2+0.3+0.25)x0.9=1.8+2.15=3.95
对上述两个示例的总评分进行比较,可知示例(1)中使用的搜索引擎在“娱乐”这一领域的评分高于示例(2)中的评分,因此,相对“娱乐”领域而言示例(1)中的搜索引擎能够为用户提供较为准确的信息。
本发明实施例提供的搜索引擎的评测方法,无需访问搜索引擎内部文件或目录来进行搜索引擎评测,而通过基于领域本体的外部方法,实现了简洁、准确、快速的对搜索引擎进行评测。
显然,本发明不仅可以应用于对于某一领域本体的领域方面的搜索引擎评估,也可以根据不同的领域本体对搜索引擎进行整体评估;同时本发明也可应用于其他诸如视频类网站的视频相关度评估、图片类网站的图片相关度评估等。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (7)
1.一种搜索引擎的评测方法,其特征在于,包括:
根据用于表示当前关键词与其他关键词的权重及权重关系的领域本体图及用于表示当前网页中当前关键词与其他关键词的权重及权重关系的网页本体图计算当前关键词在当前网页中的网页相关度;
计算所述当前关键词通过搜索引擎返回的若干网页的网页相关度总和,获得当前搜索引擎在所述当前关键词所处领域的评分。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:
抓取关键词,将抓取到的关键词按照领域进行分类,并构建领域本体图;
将某一关键词发送至搜索引擎,通过所述搜索引擎返回的相关网页及所述某一关键词对应的领域本体图,构建对应的网页本体图。
3.根据权利要求2所述的方法,其特征在于,所述领域本体图包括:关键词集合及每个关键词的权重值、关键词的词性、关键词的分类关系及相关关键词间的关系权重值;
构建领域本体图的步骤为:
按照领域类型建立关键词集合,确定所述关键词集合中所有关键词的词性,并按照语义相近程度将所述关键词集合中的关键词聚类;
再根据分类学、语义和聚类概念对所述关键词集合中的关键词进行抽取,获得分类关系、关系集合与聚簇关系集合;
根据抽取时的概率计算每一个关键词在当前领域本体中的权重值、分类关系中关键词间的关系权重值及关系集合中关键词间的关系权重值。
4.根据权利要求3所述的方法,其特征在于,构建网页本体图的步骤包括:
将网页文本分割为M个短句,从中提取出N个当前领域本体中的关键词,并分别计算每一个关键词在当前网页中的权重值,所述M、N为大于0的自然数;
根据当前领域本体图查找具有相关性的关键词,并将其在当前网页中的权重值和当前领域本体图中对应的相关关键词的关系权重值相乘,获得其在网页中的关系权重值。
5.根据权利要求4所述的方法,其特征在于,所述计算某一关键词在当前网页的网页相关度的步骤包括:
将网页本体图中该关键词与其自身间关系权重值之外的所有关系权重值之和除以当前领域本体图中该关键词与其自身间关系权重值之外的所有关系权重值之和,获得某一关键词在当前网页的网页相关度。
6.根据权利要求5所述的方法,其特征在于,所述计算所述某一关键词通过搜索引擎返回的若干网页的网页相关度总和包括:
分别将每一个返回的网页的网页相关度与所述网页在当前搜索引擎页面的权重值相乘,再计算总和,获得当前搜索引擎在所述某一关键词所处领域的评分。
7.根据权利要求1或6所述的方法,其特征在于,该方法还包括:
将某一关键词分别通过S个搜索引擎进行搜索,并统一选取返回的若干网页,分别计算每一个搜索引擎返回的若干网页的网页相关度总和,按照所述网页相关度总和的大小,判断搜索引擎在所述某一关键词所处领域优劣,所述S为大于0的自然数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210384318.5A CN102929962B (zh) | 2012-10-11 | 2012-10-11 | 一种搜索引擎的评测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210384318.5A CN102929962B (zh) | 2012-10-11 | 2012-10-11 | 一种搜索引擎的评测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102929962A true CN102929962A (zh) | 2013-02-13 |
CN102929962B CN102929962B (zh) | 2015-08-12 |
Family
ID=47644760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210384318.5A Expired - Fee Related CN102929962B (zh) | 2012-10-11 | 2012-10-11 | 一种搜索引擎的评测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102929962B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104699825A (zh) * | 2015-03-30 | 2015-06-10 | 北京奇虎科技有限公司 | 搜索引擎性能的衡量方法和装置 |
CN104699830A (zh) * | 2015-03-30 | 2015-06-10 | 北京奇虎科技有限公司 | 衡量搜索引擎排序算法有效性的方法和装置 |
CN105550359A (zh) * | 2015-12-31 | 2016-05-04 | 北京金山安全软件有限公司 | 一种基于垂直搜索的网页排序方法、装置及服务器 |
CN106484917A (zh) * | 2016-10-27 | 2017-03-08 | 李亚强 | 网页编辑器搜索引擎友好度检测与评价、建议的方法 |
CN106528727A (zh) * | 2016-10-27 | 2017-03-22 | 李亚强 | 网页编辑器搜索引擎友好度检测与评价、建议的方法 |
CN110147443A (zh) * | 2017-08-03 | 2019-08-20 | 北京国双科技有限公司 | 话题分类评判方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101241512A (zh) * | 2008-03-10 | 2008-08-13 | 北京搜狗科技发展有限公司 | 一种重新定义查询词的搜索方法及装置 |
CN101344890A (zh) * | 2008-08-22 | 2009-01-14 | 清华大学 | 一种基于观点检索的信息检索文档的评分方法 |
-
2012
- 2012-10-11 CN CN201210384318.5A patent/CN102929962B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101241512A (zh) * | 2008-03-10 | 2008-08-13 | 北京搜狗科技发展有限公司 | 一种重新定义查询词的搜索方法及装置 |
CN101344890A (zh) * | 2008-08-22 | 2009-01-14 | 清华大学 | 一种基于观点检索的信息检索文档的评分方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104699825A (zh) * | 2015-03-30 | 2015-06-10 | 北京奇虎科技有限公司 | 搜索引擎性能的衡量方法和装置 |
CN104699830A (zh) * | 2015-03-30 | 2015-06-10 | 北京奇虎科技有限公司 | 衡量搜索引擎排序算法有效性的方法和装置 |
CN105550359A (zh) * | 2015-12-31 | 2016-05-04 | 北京金山安全软件有限公司 | 一种基于垂直搜索的网页排序方法、装置及服务器 |
CN105550359B (zh) * | 2015-12-31 | 2019-04-26 | 北京金山安全软件有限公司 | 一种基于垂直搜索的网页排序方法、装置及服务器 |
CN106484917A (zh) * | 2016-10-27 | 2017-03-08 | 李亚强 | 网页编辑器搜索引擎友好度检测与评价、建议的方法 |
CN106528727A (zh) * | 2016-10-27 | 2017-03-22 | 李亚强 | 网页编辑器搜索引擎友好度检测与评价、建议的方法 |
CN110147443A (zh) * | 2017-08-03 | 2019-08-20 | 北京国双科技有限公司 | 话题分类评判方法及装置 |
CN110147443B (zh) * | 2017-08-03 | 2021-04-27 | 北京国双科技有限公司 | 话题分类评判方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102929962B (zh) | 2015-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10120861B2 (en) | Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time | |
CN103049470B (zh) | 基于情感相关度的观点检索方法 | |
US8560485B2 (en) | Generating a domain corpus and a dictionary for an automated ontology | |
CN102929962B (zh) | 一种搜索引擎的评测方法 | |
CN102081602B (zh) | 确定未登录词的类别的方法和设备 | |
US8200671B2 (en) | Generating a dictionary and determining a co-occurrence context for an automated ontology | |
CN106598937A (zh) | 用于文本的语种识别方法、装置和电子设备 | |
JP2009093650A (ja) | 文書の段落分析によるその文書のタグの選択 | |
JP2009093649A (ja) | オントロジー空間を規定するタームの推奨 | |
JP2009093651A (ja) | 統計分布を用いたトピックスのモデリング | |
CN103646099A (zh) | 一种基于多层图的论文推荐方法 | |
US8428933B1 (en) | Usage based query response | |
CN113761890A (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
WO2015035401A1 (en) | Automated discovery using textual analysis | |
Riedhammer et al. | Packing the meeting summarization knapsack. | |
CN109284389A (zh) | 一种文本数据的信息处理方法、装置 | |
Ferro et al. | CLEF 2009 ad hoc track overview: TEL and persian tasks | |
CN111274366A (zh) | 搜索推荐方法及装置、设备、存储介质 | |
JP5497105B2 (ja) | 文書検索装置および方法 | |
Czarnowska et al. | Words are vectors, dependencies are matrices: Learning word embeddings from dependency graphs | |
Gupta et al. | Text analysis and information retrieval of text data | |
Rosu et al. | Nlp based deep learning approach for plagiarism detection | |
KR20120038418A (ko) | 탐색 방법 및 디바이스 | |
JP5362807B2 (ja) | ドキュメントランク付け方法および装置 | |
Pang et al. | Query expansion and query fuzzy with large-scale click-through data for microblog retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150812 Termination date: 20211011 |
|
CF01 | Termination of patent right due to non-payment of annual fee |