CN103336765A - 一种文本关键词的马尔可夫矩阵离线修正方法 - Google Patents

一种文本关键词的马尔可夫矩阵离线修正方法 Download PDF

Info

Publication number
CN103336765A
CN103336765A CN2013102456298A CN201310245629A CN103336765A CN 103336765 A CN103336765 A CN 103336765A CN 2013102456298 A CN2013102456298 A CN 2013102456298A CN 201310245629 A CN201310245629 A CN 201310245629A CN 103336765 A CN103336765 A CN 103336765A
Authority
CN
China
Prior art keywords
keyword
keywords
text
historical
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013102456298A
Other languages
English (en)
Other versions
CN103336765B (zh
Inventor
陈雪
高英虎
汤文清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201310245629.8A priority Critical patent/CN103336765B/zh
Publication of CN103336765A publication Critical patent/CN103336765A/zh
Application granted granted Critical
Publication of CN103336765B publication Critical patent/CN103336765B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本关键词的马尔可夫矩阵离线修正方法,其步骤:(1)将用户每次搜索下载的各文本记为用户搜索的历史文本集合;(2)抽取出用户搜索的历史文本集合中有交集的关键词集合;(3)将抽取到的历史文本集中有交集的关键词采用马尔可夫矩阵来表示;(4)建立修正词的选取规则,各有交集的关键词按修正词的选取规则从各有交集的关键词中选出修正词;(5)用户输入新的关键词并进行下一次新的搜索时,查找对应的修正词,给予修正并将修正后结果返回。该方法在于抽取的关键词的来自源是用户的历史记录,用户自己行为的记录,采用马尔可夫矩阵表示,能够准确地分析领域知识结构,给予修正,有效地提高用户搜索效率。

Description

一种文本关键词的马尔可夫矩阵离线修正方法
技术领域
本发明涉及一种计算机自动提取文本关键词并对于用户输入给予离线修正的方法,更具体地说,涉及一种文本关键词的马尔可夫矩阵离线修正方法。
背景技术
在中国专利说明书中还公开了一种“文本关键词的提取方法”(专利申请号:200710041150. 7),该方法指出“在TF-IDF方法提取文本关键词的基础上,通过篇频修正法提取单篇文本的关键词,提高从单篇文本中提取关键词的精度;通过词频修正法或对比选择法提取同类文本集合中共同的领域关键词”,该方法能避免一个关键词在一篇文档中频繁出现导致绝对词频很高而被计入领域关键词。可以有效地提高单篇文本的关键词提取精度,从而提高文本领域知识获取的性能与领域知识本体建立的效果,提高网络资源服务的质量与效果。然而,但上述方法提取领域关键词时,并未对用户的历史记录进行提取和分析,因此,提取关键词的准确度及用户满意度不高。
发明内容
本发明的目的在于针对当前技术中存在的不足,提供一种文本关键词的马尔可夫矩阵离线修正方法,该方法能够提高用户文献搜索的速度和准确度。 
为达到上述目的,本发明采用下述技术方案:
一种文本关键词的马尔可夫矩阵离线修正方法,该方法通过分析用户的历史记录抽取各关键词,各有交集的关键词采用马尔可夫矩阵表示,建立各关键词的修正词选取规则,对用户下一次输入的关键词进行给予修正,其具体步骤如下:
(1)、将用户每次搜索下载的各文本,记为用户搜索的历史文本集合,记为M;
(2)、抽取出用户搜索的历史文本集合M中有交集的关键词集合,记为N;
(3)、将抽取历史文本集合中有交集的关键词采用马尔可夫矩阵表示;
(4)、建立修正词的选取规则,按修正词的选取规则从各有交集的关键词中选出修正词,记为Ri;
(5)、用户进行新的搜索,首先用户输入新的关键词,然后搜查步骤(2)中所述的有交集的关键词集合N中是否存在用户输入新的关键词,若存在与用户输入新的关键词相同的关键词,则再查找与用户输入新的关键词对应的修正词,给予修正,并将修正后结果返回;若有交集的关键词集合N中不存在与用户输入新的关键词相同的关键词,则不再查找与用户输入新的关键词对应的修正词Ri,也不给予修正。
上述步骤(2)中所述的抽取出用户搜索的历史文本集合中有交集的关键词,其详细步骤如下:
(2-1)、用户搜索的历史文本集合中的所有文本,记为M;
(2-2)、统计用户搜索的历史文本集合M中所有文本中的关键词,记为N。
上述步骤(3)中所述的将抽取历史文本集合中有交集的关键词采用马尔可夫矩阵表示,具体如下:
(3-1)、统计用户搜索的历史文本集合所有文本中的关键词集合N中所有关键词的文本频率;
(3-2)、去掉文本频率为1的关键词,剩余的即为抽取到的关键词,将抽取出的关键词采用马尔可夫矩阵表示,其矩阵表达式如下:
其中,A表示抽取出的第一个关键词, B表示抽取出的第二个关键词,C表示抽取出的第三个关键词;
含义为:关键词B出现的所有历史文章中,关键词A与关键词B共现的概率,其共现的概率表达式为:
Figure 351257DEST_PATH_IMAGE003
其中,
Figure 319213DEST_PATH_IMAGE004
表示关键词A和关键词B共现的历史文本的总篇数,表示关键词B出现过的历史文本的总篇数;
Figure 297588DEST_PATH_IMAGE006
含义为:关键词C出现的所有历史文章中,关键词A与关键词C共现的概率,其共现的概率表达式为:
Figure 428355DEST_PATH_IMAGE007
其中,
Figure 567212DEST_PATH_IMAGE008
表示关键词A和关键词C共现的历史文本的总篇数,表示关键词C出现过的历史文本的总篇数;
Figure 338039DEST_PATH_IMAGE010
含义为:关键词A 出现的所有历史文章中,关键词B与关键词A共现的概率,其共现的概率表达式为:
Figure 323312DEST_PATH_IMAGE011
其中,
Figure 570754DEST_PATH_IMAGE012
表示关键词B和关键词A共现的历史文本的总篇数,
Figure 641478DEST_PATH_IMAGE013
表示关键词A出现过的历史文本的总篇数;
含义为:关键词C出现的所有历史文章中,关键词B与关键词C共现的概率,其共现的概率表达式为:
Figure 534665DEST_PATH_IMAGE015
其中,
Figure 953008DEST_PATH_IMAGE016
表示关键词B和关键词C共现的历史文本的总篇数,
Figure 245449DEST_PATH_IMAGE009
表示关键词C出现过的历史文本的总篇数;
Figure 102547DEST_PATH_IMAGE017
含义为:关键词A出现的所有历史文章中,关键词C与关键词A共现的概率,其共现的概率表达式为:
其中,表示关键词C和关键词A共现的历史文本的总篇数,
Figure 929929DEST_PATH_IMAGE013
表示关键词A出现过的历史文本的总篇数;
Figure 325138DEST_PATH_IMAGE020
含义为:关键词B出现的所有历史文章中,关键词C与关键词B共现的概率,其共现的概率表达式为:
Figure 811614DEST_PATH_IMAGE021
其中,
Figure 899656DEST_PATH_IMAGE022
表示关键词C和关键词B共现的历史文本的总篇数,
Figure 166689DEST_PATH_IMAGE005
表示关键词B出现过的历史文本的总篇数。上述步骤(4)中所述的建立各关键词修正词的选取修正规则,按修正词的选取规则从各有交集的关键词中选出一个修正关键词,具体规则如下: 
{X=I|MAX(
Figure 37694DEST_PATH_IMAGE023
)},
其中, {X=I|MAX(
Figure 706572DEST_PATH_IMAGE023
)}表示从各有交集的关键词中选取第I个关键词为修正词,该词能使
Figure 965515DEST_PATH_IMAGE023
取最大值;X表示要选取的修正词,I表示有交集的关键词中第I个关键词, 
Figure 454265DEST_PATH_IMAGE024
表示关键词I出现的所有历史文章中,关键词A与关键词I共现的概率,
Figure 394540DEST_PATH_IMAGE025
表示关键词A 出现的所有历史文章中,关键词I与关键词A共现的概率,表示两者的概率差。
本发明的一种文本关键词的马尔可夫矩阵与现有推荐及修正技术相比校,具有如下显而易见的突出性特点和显著进步:本发明是通过分析用户的历史记录抽取出关键词,建立类马尔可夫矩阵,构建各关键词的修正词的修正规则,对用户下次输入的关键词给予修正。该方法在于抽取的关键词的来自源是用户的历史记录,修正词的选取也是基于对用户输入的历史记录的分析得到的,因此能够准确地分析出用户的领域知识结构,并给予的修正,从而有效地提高了用户的搜索效率。
附图说明
图1是本发明的一种文本关键词的马尔可夫矩阵离线修正方法的流程图。
具体实施方式
以下结合附图对本发明的实施例作进一步的详细描述。
如图1所示,一种文本关键词的马尔可夫矩阵离线修正方法,该方法通过分析用户的历史记录抽取各关键词,各有交集的关键词采用马尔可夫矩阵表示,建立各关键词的修正词的选取规则,选取出修正词对用户下一次输入的关键词进行修正,其操作步骤如下:
 (1)、将用户每次搜索下载的各文本,记为用户搜索的历史文本集合,记为M;
(2)、抽取出用户搜索的历史文本集合中有交集的关键词集合,其详细步骤如下:
(2-1)、取得用户搜索的历史文本集合中的所有文本M;
(2-2)、统计用户搜索的历史文本集合M中所有文本中的关键词集合N;
(3)、将抽取的历史文本集合中有交集的关键词采用马尔可夫矩阵表示,具体如下:
(3-1)、统计用户搜索的历史文本集合所有文本中的关键词集合N中所有关键词的文本频率;
(3-2)、去掉文本频率为1的关键词,剩余的即为抽取到的关键词,将抽取出的关键词采用马尔可夫矩阵表示,具体如下:
假设,在当前一个 “云计算”领域,各种算法的用户输入的关键词为“调度”,在用户的历史文本集合中抽取出关键词,如果抽取出的背景关键词为“调度”、“蚁群算法”和“云计算”,按上述马尔可夫矩阵分别两两计算三个关键词的共现的概率,其马尔可夫矩阵为:
Figure 82190DEST_PATH_IMAGE026
其中,A表示历史文本集合中抽取出的关键词为“调度”,B表示历史文本集合中抽取出的关键词为“蚁群算法”,C表示历史文本集合中抽取出的关键词为“云计算”,
Figure 765893DEST_PATH_IMAGE002
表示关键词“蚁群算法”出现的所有历史文章中,关键词“调度”与关键词“蚁群算法”共现的概率,其共现的概率表达式为: 
其中, 
Figure 684488DEST_PATH_IMAGE004
表示关键词“调度”和关键词“蚁群算法”共现的历史文本的总篇数,
Figure 285233DEST_PATH_IMAGE005
表示关键词“蚁群算法”出现过的历史文本的总篇数;
Figure 686259DEST_PATH_IMAGE006
表示关键词“云计算”出现的所有历史文章中,关键词“调度”与关键词“云计算”共现的概率,其共现的概率表达式为:
Figure 30652DEST_PATH_IMAGE007
其中,
Figure 528630DEST_PATH_IMAGE008
表示关键词“调度”和关键词“云计算”共现的历史文本的总篇数,
Figure 34697DEST_PATH_IMAGE009
表示关键词“云计算”出现过的历史文本的总篇数;
Figure 188598DEST_PATH_IMAGE010
表示关键词“调度”出现的所有历史文章中,关键词“蚁群算法”与关键词“调度”共现的概率,其共现的概率表达式为:
其中,
Figure 423588DEST_PATH_IMAGE012
表示关键词“蚁群算法”和关键词“调度”共现的历史文本的总篇数,
Figure 38240DEST_PATH_IMAGE013
表示关键词“调度”出现过的历史文本的总篇数;表示关键词“云计算”出现的所有历史文章中,关键词“蚁群算法”与关键词“云计算”共现的概率,其共现的概率表达式为:
Figure 162370DEST_PATH_IMAGE015
其中,表示关键词“蚁群算法”和关键词“云计算”共现的历史文本的总篇数,
Figure 919029DEST_PATH_IMAGE009
表示关键词“云计算”出现过的历史文本的总篇数;
Figure 844259DEST_PATH_IMAGE017
表示关键词“调度”出现的所有历史文章中,关键词“云计算”与关键词“调度”共现的概率,其共现的概率表达式为:
Figure 68567DEST_PATH_IMAGE018
其中,
Figure 333327DEST_PATH_IMAGE019
表示关键词“云计算”和关键词“调度”共现的历史文本的总篇数,
Figure 617677DEST_PATH_IMAGE013
表示关键词“调度”出现过的历史文本的总篇数;
表示关键词“蚁群算法”出现的所有历史文章中,关键词“云计算”与关键词“蚁群算法”共现的概率,其共现的概率表达式为:
Figure 792624DEST_PATH_IMAGE021
其中,
Figure 911889DEST_PATH_IMAGE022
表示关键词“云计算”和关键词“蚁群算法”共现的历史文本的总篇数,
Figure 304825DEST_PATH_IMAGE005
表示关键词“蚁群算法”出现过的历史文本的总篇数;
 (4)、建立修正词的选取规则,按修正词的选取规则从各有交集的关键词集中选出一个修正词,其具体为:
{X=I|MAX(
Figure 204648DEST_PATH_IMAGE023
)},
其中,{X=I|MAX(
Figure 770758DEST_PATH_IMAGE023
),}表示从各有交集的关键词中选取第I个关键词为修正词,该词能使
Figure 243066DEST_PATH_IMAGE023
取最大值;X表示要选取的修正词,I表示有交集的关键词第I个关键词, 
Figure 869219DEST_PATH_IMAGE024
表示关键词I出现的所有历史文章中,关键词A与关键词I共现的概率,
Figure 990759DEST_PATH_IMAGE025
表示关键词A 出现的所有历史文章中,关键词I与关键词A共现的概率,
Figure 360560DEST_PATH_IMAGE023
表示两者的概率差。
由步骤(3)中建立的马尔可夫矩阵,对关键词“调度”计算得
Figure 454418DEST_PATH_IMAGE027
,依据以上修正词选取规则,应取“云计算”为“调度”的修正词。
 (5)、用户进行新的搜索,首先用户输入关键词后,然后搜查步骤(2)中所述的有交集的关键词集合N中是否存在用户输入新的关键词,若存在与用户输入新的关键词相同的关键词,则再查找与用户输入新的关键词对应的修正词Ri,给予修正,并将修正后结果返回;若有交集的关键词集合N中不存在与用户输入新的关键词相同的关键词,则不再查找与用户输入新的关键词对应的修正词Ri,也不给予修正。
由步骤(4)中从各有交集的关键词集中选出一个修正词“云计算”可知,当用户下次搜索时,若输入的关键词为“调度”则计算机会将其修正为“云计算、调度”,并将修正结果返回。 

Claims (4)

1.一种文本关键词的马尔可夫矩阵离线修正方法,该方法通过分析用户的历史记录抽取各关键词,各有交集的关键词采用马尔可夫矩阵表示,建立各关键词的修正树规则,对用户下一次输入的关键词进行给予修正,其具体步骤如下:
(1)、将用户每次搜索下载的各文本,记为用户搜索的历史文本集合,记为M;
(2)、抽取出用户搜索的历史文本集合M中有交集的关键词集合,记为N;
(3)、将抽取历史文本集合中有交集的关键词采用马尔可夫矩阵表示;
(4)、建立修正词的选取规则,按修正词的选取规则从各有交集的关键词中选出修正词,记为Ri;
(5)、用户进行新的搜索,首先用户输入新的关键词,然后搜查步骤(2)中所述的有交集的关键词集合N中是否存在用户输入新的关键词,若存在与用户输入新的关键词相同的关键词,则再查找与用户输入新的关键词对应的修正词Ri,给予修正,并将修正后结果返回;若有交集的关键词集合N中不存在与用户输入新的关键词相同的关键词,则不再查找与用户输入新的关键词对应的修正词Ri,也不给予修正。
2.根据权利要求1所述的一种文本关键词的马尔可夫矩阵离线修正方法,其特征在于,上述步骤(2)中所述的抽取出用户搜索的历史文本集中有交集的关键词,其详细步骤如下:
(2-1)、用户搜索的历史文本集合中的所有文本,记为M;
(2-2)、统计用户搜索的历史文本集合M中所有文本中的关键词,记为N。
3.根据权利要求2所述的一种文本关键词的马尔可夫矩阵离线修正方法,其特征在于,上述步骤(3)中所述的将抽取出历史文本集合中有交集的关键词采用马尔可夫矩阵表示,具体步骤如下:
(3-1)、统计集合N中所有关键词的文本频率;
(3-2)、去掉文本频率为1的关键词,剩余的即为抽取到的关键词,将抽取出的关键词采用马尔可夫矩阵表示,其矩阵表达式如下:
Figure 2013102456298100001DEST_PATH_IMAGE002
其中,A表示抽取出的第一个关键词, B表示抽取出的第二个关键词,C表示抽取出的第三个关键词;
含义为:关键词B出现的所有历史文章中,关键词A与关键词B共现的概率,其共现的概率表达式为:
Figure 2013102456298100001DEST_PATH_IMAGE006
其中,表示关键词A和关键词B共现的历史文本的总篇数,
Figure 2013102456298100001DEST_PATH_IMAGE010
表示关键词B出现过的历史文本的总篇数;
Figure 2013102456298100001DEST_PATH_IMAGE012
含义为:关键词C出现的所有历史文章中,关键词A与关键词C共现的概率,其共现的概率表达式为:
Figure DEST_PATH_IMAGE014
其中,
Figure DEST_PATH_IMAGE016
表示关键词A和关键词C共现的历史文本的总篇数,表示关键词C出现过的历史文本的总篇数;
Figure DEST_PATH_IMAGE020
含义为:关键词A 出现的所有历史文章中,关键词B与关键词A共现的概率,其共现的概率表达式为:
Figure DEST_PATH_IMAGE022
其中,
Figure DEST_PATH_IMAGE024
表示关键词B和关键词A共现的历史文本的总篇数,
Figure DEST_PATH_IMAGE026
表示关键词A出现过的历史文本的总篇数;
Figure DEST_PATH_IMAGE028
含义为:关键词C出现的所有历史文章中,关键词B与关键词C共现的概率,其共现的概率表达式为:
其中,
Figure DEST_PATH_IMAGE032
表示关键词B和关键词C共现的历史文本的总篇数,
Figure 878842DEST_PATH_IMAGE018
表示关键词C出现过的历史文本的总篇数;
Figure DEST_PATH_IMAGE034
含义为:关键词A出现的所有历史文章中,关键词C与关键词A共现的概率,其共现的概率表达式为:
Figure DEST_PATH_IMAGE036
其中,
Figure DEST_PATH_IMAGE038
表示关键词C和关键词A共现的历史文本的总篇数,
Figure 920616DEST_PATH_IMAGE026
表示关键词A出现过的历史文本的总篇数;
Figure DEST_PATH_IMAGE040
含义为:关键词B出现的所有历史文章中,关键词C与关键词B共现的概率,其共现的概率表达式为:
Figure DEST_PATH_IMAGE042
其中,
Figure DEST_PATH_IMAGE044
表示关键词C和关键词B共现的历史文本的总篇数,
Figure 762670DEST_PATH_IMAGE010
表示关键词B出现过的历史文本的总篇数。
4. 根据权利要求3所述的一种文本关键词的马尔可夫矩阵离线修正方法,其特征在于,
上述步骤(4)中所述的建立各关键词修正词的选取修正规则,按修正词的选取规则从各有交集的关键词中选出一个修正关键词,具体如下: 
{X=I|MAX(
Figure DEST_PATH_IMAGE046
)},
其中, {X=I|MAX(),}表示从各有交集的关键词中选取第I个关键词为修正词,该词能使
Figure 34568DEST_PATH_IMAGE046
取最大值;X表示要选取的修正词,I表示有交集的关键词中第I个关键词, 
Figure DEST_PATH_IMAGE048
表示关键词I出现的所有历史文章中,关键词A与关键词I共现的概率,表示关键词A 出现的所有历史文章中,关键词I与关键词A共现的概率,
Figure 919348DEST_PATH_IMAGE046
表示两者的概率差。
CN201310245629.8A 2013-06-20 2013-06-20 一种文本关键词的马尔可夫矩阵离线修正方法 Expired - Fee Related CN103336765B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310245629.8A CN103336765B (zh) 2013-06-20 2013-06-20 一种文本关键词的马尔可夫矩阵离线修正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310245629.8A CN103336765B (zh) 2013-06-20 2013-06-20 一种文本关键词的马尔可夫矩阵离线修正方法

Publications (2)

Publication Number Publication Date
CN103336765A true CN103336765A (zh) 2013-10-02
CN103336765B CN103336765B (zh) 2016-04-27

Family

ID=49244934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310245629.8A Expired - Fee Related CN103336765B (zh) 2013-06-20 2013-06-20 一种文本关键词的马尔可夫矩阵离线修正方法

Country Status (1)

Country Link
CN (1) CN103336765B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530344A (zh) * 2013-10-09 2014-01-22 上海大学 一种基于改进的tf-idf方法的检索词实时修正方法
WO2017161899A1 (zh) * 2016-03-24 2017-09-28 华为技术有限公司 一种文本处理方法、装置及计算设备
WO2017193865A1 (zh) * 2016-05-09 2017-11-16 广州神马移动信息科技有限公司 一种信息搜索方法及装置
CN107766318A (zh) * 2016-08-17 2018-03-06 北京金山安全软件有限公司 一种关键词的抽取方法、装置及电子设备
CN108595437A (zh) * 2018-05-04 2018-09-28 和美(深圳)信息技术股份有限公司 文本查询纠错方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法
KR100869545B1 (ko) * 2008-04-28 2008-11-19 한국생명공학연구원 검색 히스토리를 생성하는 되풀이 검색시스템
CN102043845A (zh) * 2010-12-08 2011-05-04 百度在线网络技术(北京)有限公司 一种用于基于查询序列簇提取核心关键词的方法与设备
CN102375810A (zh) * 2010-08-04 2012-03-14 阿里巴巴集团控股有限公司 整体帐户搜索关键词的估计值反馈方法及服务器
CN103064853A (zh) * 2011-10-20 2013-04-24 北京百度网讯科技有限公司 一种搜索建议生成方法、装置及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法
KR100869545B1 (ko) * 2008-04-28 2008-11-19 한국생명공학연구원 검색 히스토리를 생성하는 되풀이 검색시스템
CN102375810A (zh) * 2010-08-04 2012-03-14 阿里巴巴集团控股有限公司 整体帐户搜索关键词的估计值反馈方法及服务器
CN102043845A (zh) * 2010-12-08 2011-05-04 百度在线网络技术(北京)有限公司 一种用于基于查询序列簇提取核心关键词的方法与设备
CN103064853A (zh) * 2011-10-20 2013-04-24 北京百度网讯科技有限公司 一种搜索建议生成方法、装置及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530344A (zh) * 2013-10-09 2014-01-22 上海大学 一种基于改进的tf-idf方法的检索词实时修正方法
WO2017161899A1 (zh) * 2016-03-24 2017-09-28 华为技术有限公司 一种文本处理方法、装置及计算设备
CN107229627A (zh) * 2016-03-24 2017-10-03 华为技术有限公司 一种文本处理方法、装置及计算设备
WO2017193865A1 (zh) * 2016-05-09 2017-11-16 广州神马移动信息科技有限公司 一种信息搜索方法及装置
CN107766318A (zh) * 2016-08-17 2018-03-06 北京金山安全软件有限公司 一种关键词的抽取方法、装置及电子设备
CN107766318B (zh) * 2016-08-17 2021-03-16 北京金山安全软件有限公司 一种关键词的抽取方法、装置及电子设备
CN108595437A (zh) * 2018-05-04 2018-09-28 和美(深圳)信息技术股份有限公司 文本查询纠错方法、装置、计算机设备和存储介质
CN108595437B (zh) * 2018-05-04 2022-06-03 和美(深圳)信息技术股份有限公司 文本查询纠错方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN103336765B (zh) 2016-04-27

Similar Documents

Publication Publication Date Title
US20200184146A1 (en) Techniques for combining human and machine learning in natural language processing
US10268758B2 (en) Method and system of acquiring semantic information, keyword expansion and keyword search thereof
EP2833271A1 (en) Multimedia question and answer system and method
CN102693279B (zh) 一种快速计算评论相似度的方法、装置及系统
CN103106287B (zh) 一种用户检索语句的处理方法及系统
CN110110322A (zh) 网络新词发现方法、装置、电子设备及存储介质
CN103336765B (zh) 一种文本关键词的马尔可夫矩阵离线修正方法
Han et al. HIT at TREC 2012 Microblog Track.
CN103294778A (zh) 一种推送资讯信息的方法及系统
CN104008186A (zh) 从目标文本中确定关键词的方法和装置
CN101794307A (zh) 基于互联网分词思想的车载导航poi搜索引擎
CN102567409A (zh) 一种提供检索关联词的方法及装置
CN104111925A (zh) 项目推荐方法和装置
CN103164537B (zh) 一种面向用户信息需求的搜索引擎日志数据挖掘的方法
CN106874419B (zh) 一种多粒度实时热点聚合方法
CN103218368B (zh) 一种挖掘热词的方法与装置
US11328218B1 (en) Identifying subjective attributes by analysis of curation signals
CN110929509B (zh) 一种基于louvain社区发现算法的领域事件触发词聚类方法
CN104166712A (zh) 科技文献检索方法及系统
CN112597768A (zh) 文本审核方法、装置、电子设备、存储介质及程序产品
CN103092838B (zh) 一种获取英文词的方法及装置
CN105512270B (zh) 一种确定相关对象的方法和装置
CN113468866B (zh) 非标准json串的解析方法及装置
JP6173958B2 (ja) 複数のハッシュテーブルを用いて検索するプログラム、装置及び方法
CN110069703B (zh) 一种基于特征增强的微博话题检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160427

Termination date: 20190620