CN103336765B - 一种文本关键词的马尔可夫矩阵离线修正方法 - Google Patents

一种文本关键词的马尔可夫矩阵离线修正方法 Download PDF

Info

Publication number
CN103336765B
CN103336765B CN201310245629.8A CN201310245629A CN103336765B CN 103336765 B CN103336765 B CN 103336765B CN 201310245629 A CN201310245629 A CN 201310245629A CN 103336765 B CN103336765 B CN 103336765B
Authority
CN
China
Prior art keywords
keyword
occurrence
history
text
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310245629.8A
Other languages
English (en)
Other versions
CN103336765A (zh
Inventor
陈雪
高英虎
汤文清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201310245629.8A priority Critical patent/CN103336765B/zh
Publication of CN103336765A publication Critical patent/CN103336765A/zh
Application granted granted Critical
Publication of CN103336765B publication Critical patent/CN103336765B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种文本关键词的马尔可夫矩阵离线修正方法,其步骤:(1)将用户每次搜索下载的各文本记为用户搜索的历史文本集合;(2)抽取出用户搜索的历史文本集合中有交集的关键词集合;(3)将抽取到的历史文本集中有交集的关键词采用马尔可夫矩阵来表示;(4)建立修正词的选取规则,各有交集的关键词按修正词的选取规则从各有交集的关键词中选出修正词;(5)用户输入新的关键词并进行下一次新的搜索时,查找对应的修正词,给予修正并将修正后结果返回。该方法在于抽取的关键词的来自源是用户的历史记录,用户自己行为的记录,采用马尔可夫矩阵表示,能够准确地分析领域知识结构,给予修正,有效地提高用户搜索效率。

Description

一种文本关键词的马尔可夫矩阵离线修正方法
技术领域
本发明涉及一种计算机自动提取文本关键词并对于用户输入给予离线修正的方法,更具体地说,涉及一种文本关键词的马尔可夫矩阵离线修正方法。
背景技术
在中国专利说明书中还公开了一种“文本关键词的提取方法”(专利申请号:200710041150.7),该方法指出“在TF-IDF方法提取文本关键词的基础上,通过篇频修正法提取单篇文本的关键词,提高从单篇文本中提取关键词的精度;通过词频修正法或对比选择法提取同类文本集合中共同的领域关键词”,该方法能避免一个关键词在一篇文档中频繁出现导致绝对词频很高而被计入领域关键词。可以有效地提高单篇文本的关键词提取精度,从而提高文本领域知识获取的性能与领域知识本体建立的效果,提高网络资源服务的质量与效果。然而,但上述方法提取领域关键词时,并未对用户的历史记录进行提取和分析,因此,提取关键词的准确度及用户满意度不高。
发明内容
本发明的目的在于针对当前技术中存在的不足,提供一种文本关键词的马尔可夫矩阵离线修正方法,该方法能够提高用户文献搜索的速度和准确度。
为达到上述目的,本发明采用下述技术方案:
一种文本关键词的马尔可夫矩阵离线修正方法,该方法通过分析用户的历史记录抽取各关键词,各有交集的关键词采用马尔可夫矩阵表示,建立各关键词的修正词选取规则,对用户下一次输入的关键词进行给予修正,其具体步骤如下:
(1)、将用户每次搜索下载的各文本,记为用户搜索的历史文本集合,记为M;
(2)、抽取出用户搜索的历史文本集合M中有交集的关键词集合,记为N;
(3)、将抽取历史文本集合中有交集的关键词采用马尔可夫矩阵表示;
(4)、建立修正词的选取规则,按修正词的选取规则从各有交集的关键词中选出修正词,记为Ri;
(5)、用户进行新的搜索,首先用户输入新的关键词,然后搜查步骤(2)中所述的有交集的关键词集合N中是否存在用户输入新的关键词,若存在与用户输入新的关键词相同的关键词,则再查找与用户输入新的关键词对应的修正词,给予修正,并将修正后结果返回;若有交集的关键词集合N中不存在与用户输入新的关键词相同的关键词,则不再查找与用户输入新的关键词对应的修正词Ri,也不给予修正。
上述步骤(2)中所述的抽取出用户搜索的历史文本集合中有交集的关键词,其详细步骤如下:
(2-1)、用户搜索的历史文本集合中的所有文本,记为M;
(2-2)、统计用户搜索的历史文本集合M中所有文本中的关键词,记为N。
上述步骤(3)中所述的将抽取历史文本集合中有交集的关键词采用马尔可夫矩阵表示,具体如下:
(3-1)、统计用户搜索的历史文本集合所有文本中的关键词集合N中所有关键词的文本频率;
(3-2)、去掉文本频率为1的关键词,剩余的即为抽取到的关键词,将抽取出的关键词采用马尔可夫矩阵表示,其矩阵表达式如下:
其中,A表示抽取出的第一个关键词,B表示抽取出的第二个关键词,C表示抽取出的第三个关键词;
含义为:关键词B出现的所有历史文章中,关键词A与关键词B共现的概率,其共现的概率表达式为:
其中,表示关键词A和关键词B共现的历史文本的总篇数,表示关键词B出现过的历史文本的总篇数;
含义为:关键词C出现的所有历史文章中,关键词A与关键词C共现的概率,其共现的概率表达式为:
其中,表示关键词A和关键词C共现的历史文本的总篇数,表示关键词C出现过的历史文本的总篇数;
含义为:关键词A出现的所有历史文章中,关键词B与关键词A共现的概率,其共现的概率表达式为:
其中,表示关键词B和关键词A共现的历史文本的总篇数,表示关键词A出现过的历史文本的总篇数;
含义为:关键词C出现的所有历史文章中,关键词B与关键词C共现的概率,其共现的概率表达式为:
其中,表示关键词B和关键词C共现的历史文本的总篇数,表示关键词C出现过的历史文本的总篇数;
含义为:关键词A出现的所有历史文章中,关键词C与关键词A共现的概率,其共现的概率表达式为:
其中,表示关键词C和关键词A共现的历史文本的总篇数,表示关键词A出现过的历史文本的总篇数;
含义为:关键词B出现的所有历史文章中,关键词C与关键词B共现的概率,其共现的概率表达式为:
其中,表示关键词C和关键词B共现的历史文本的总篇数,表示关键词B出现过的历史文本的总篇数。上述步骤(4)中所述的建立各关键词修正词的选取修正规则,按修正词的选取规则从各有交集的关键词中选出一个修正关键词,具体规则如下:
{X=I|MAX()},
其中,{X=I|MAX()}表示从各有交集的关键词中选取第I个关键词为修正词,该词能使取最大值;X表示要选取的修正词,I表示有交集的关键词中第I个关键词,表示关键词I出现的所有历史文章中,关键词A与关键词I共现的概率,表示关键词A出现的所有历史文章中,关键词I与关键词A共现的概率,表示两者的概率差。
本发明的一种文本关键词的马尔可夫矩阵与现有推荐及修正技术相比校,具有如下显而易见的突出性特点和显著进步:本发明是通过分析用户的历史记录抽取出关键词,建立类马尔可夫矩阵,构建各关键词的修正词的修正规则,对用户下次输入的关键词给予修正。该方法在于抽取的关键词的来自源是用户的历史记录,修正词的选取也是基于对用户输入的历史记录的分析得到的,因此能够准确地分析出用户的领域知识结构,并给予的修正,从而有效地提高了用户的搜索效率。
附图说明
图1是本发明的一种文本关键词的马尔可夫矩阵离线修正方法的流程图。
具体实施方式
以下结合附图对本发明的实施例作进一步的详细描述。
如图1所示,一种文本关键词的马尔可夫矩阵离线修正方法,该方法通过分析用户的历史记录抽取各关键词,各有交集的关键词采用马尔可夫矩阵表示,建立各关键词的修正词的选取规则,选取出修正词对用户下一次输入的关键词进行修正,其操作步骤如下:
(1)、将用户每次搜索下载的各文本,记为用户搜索的历史文本集合,记为M;
(2)、抽取出用户搜索的历史文本集合中有交集的关键词集合,其详细步骤如下:
(2-1)、取得用户搜索的历史文本集合中的所有文本M;
(2-2)、统计用户搜索的历史文本集合M中所有文本中的关键词集合N;
(3)、将抽取的历史文本集合中有交集的关键词采用马尔可夫矩阵表示,具体如下:
(3-1)、统计用户搜索的历史文本集合所有文本中的关键词集合N中所有关键词的文本频率;
(3-2)、去掉文本频率为1的关键词,剩余的即为抽取到的关键词,将抽取出的关键词采用马尔可夫矩阵表示,具体如下:
假设,在当前一个“云计算”领域,各种算法的用户输入的关键词为“调度”,在用户的历史文本集合中抽取出关键词,如果抽取出的背景关键词为“调度”、“蚁群算法”和“云计算”,按上述马尔可夫矩阵分别两两计算三个关键词的共现的概率,其马尔可夫矩阵为:
其中,A表示历史文本集合中抽取出的关键词为“调度”,B表示历史文本集合中抽取出的关键词为“蚁群算法”,C表示历史文本集合中抽取出的关键词为“云计算”,
表示关键词“蚁群算法”出现的所有历史文章中,关键词“调度”与关键词“蚁群算法”共现的概率,其共现的概率表达式为:
其中,表示关键词“调度”和关键词“蚁群算法”共现的历史文本的总篇数,表示关键词“蚁群算法”出现过的历史文本的总篇数;
表示关键词“云计算”出现的所有历史文章中,关键词“调度”与关键词“云计算”共现的概率,其共现的概率表达式为:
其中,表示关键词“调度”和关键词“云计算”共现的历史文本的总篇数,表示关键词“云计算”出现过的历史文本的总篇数;
表示关键词“调度”出现的所有历史文章中,关键词“蚁群算法”与关键词“调度”共现的概率,其共现的概率表达式为:
其中,表示关键词“蚁群算法”和关键词“调度”共现的历史文本的总篇数,表示关键词“调度”出现过的历史文本的总篇数;表示关键词“云计算”出现的所有历史文章中,关键词“蚁群算法”与关键词“云计算”共现的概率,其共现的概率表达式为:
其中,表示关键词“蚁群算法”和关键词“云计算”共现的历史文本的总篇数,表示关键词“云计算”出现过的历史文本的总篇数;
表示关键词“调度”出现的所有历史文章中,关键词“云计算”与关键词“调度”共现的概率,其共现的概率表达式为:
其中,表示关键词“云计算”和关键词“调度”共现的历史文本的总篇数,表示关键词“调度”出现过的历史文本的总篇数;
表示关键词“蚁群算法”出现的所有历史文章中,关键词“云计算”与关键词“蚁群算法”共现的概率,其共现的概率表达式为:
其中,表示关键词“云计算”和关键词“蚁群算法”共现的历史文本的总篇数,表示关键词“蚁群算法”出现过的历史文本的总篇数;
(4)、建立修正词的选取规则,按修正词的选取规则从各有交集的关键词集中选出一个修正词,其具体为:
{X=I|MAX()},
其中,{X=I|MAX(),}表示从各有交集的关键词中选取第I个关键词为修正词,该词能使取最大值;X表示要选取的修正词,I表示有交集的关键词第I个关键词,表示关键词I出现的所有历史文章中,关键词A与关键词I共现的概率,表示关键词A出现的所有历史文章中,关键词I与关键词A共现的概率,表示两者的概率差。
由步骤(3)中建立的马尔可夫矩阵,对关键词“调度”计算得,依据以上修正词选取规则,应取“云计算”为“调度”的修正词。
(5)、用户进行新的搜索,首先用户输入关键词后,然后搜查步骤(2)中所述的有交集的关键词集合N中是否存在用户输入新的关键词,若存在与用户输入新的关键词相同的关键词,则再查找与用户输入新的关键词对应的修正词Ri,给予修正,并将修正后结果返回;若有交集的关键词集合N中不存在与用户输入新的关键词相同的关键词,则不再查找与用户输入新的关键词对应的修正词Ri,也不给予修正。
由步骤(4)中从各有交集的关键词集中选出一个修正词“云计算”可知,当用户下次搜索时,若输入的关键词为“调度”则计算机会将其修正为“云计算、调度”,并将修正结果返回。

Claims (4)

1.一种文本关键词的马尔可夫矩阵离线修正方法,该方法通过分析用户的历史记录抽取各关键词,各有交集的关键词采用马尔可夫矩阵表示,建立各关键词的修正树规则,对用户下一次输入的关键词进行给予修正,其具体步骤如下:
(1)、将用户每次搜索下载的各文本,记为用户搜索的历史文本集合,记为M;
(2)、抽取出用户搜索的历史文本集合M中有交集的关键词集合,记为N;
(3)、将抽取历史文本集合中有交集的关键词采用马尔可夫矩阵表示;
(4)、建立修正词的选取规则,按修正词的选取规则从各有交集的关键词中选出修正词,记为Ri;
(5)、用户进行新的搜索,首先用户输入新的关键词,然后搜查步骤(2)中所述的有交集的关键词集合N中是否存在用户输入新的关键词,若存在与用户输入新的关键词相同的关键词,则再查找与用户输入新的关键词对应的修正词Ri,给予修正,并将修正后结果返回;若有交集的关键词集合N中不存在与用户输入新的关键词相同的关键词,则不再查找与用户输入新的关键词对应的修正词Ri,也不给予修正。
2.根据权利要求1所述的一种文本关键词的马尔可夫矩阵离线修正方法,其特征在于,上述步骤(2)中所述的抽取出用户搜索的历史文本集中有交集的关键词,其详细步骤如下:
(2-1)、用户搜索的历史文本集合中的所有文本,记为M;
(2-2)、统计用户搜索的历史文本集合M中所有文本中的关键词,记为L;
(2-3)、统计集合L中所有关键词的文本频率;
(2-4)、去掉集合L中文本频率为1的关键词,剩余的即为抽取到的关键词集合,记为N。
3.根据权利要求2所述的一种文本关键词的马尔可夫矩阵离线修正方法,其特征在于,上述步骤(3)中所述的将抽取出历史文本集合中有交集的关键词采用马尔可夫矩阵表示,具体步骤如下:
将抽取出的关键词采用马尔可夫矩阵表示,其矩阵表达式如下:
其中,A表示抽取出的第一个关键词,B表示抽取出的第二个关键词,C表示抽取出的第三个关键词;
含义为:关键词B出现的所有历史文章中,关键词A与关键词B共现的概率,其共现的概率表达式为:
其中,表示关键词A和关键词B共现的历史文本的总篇数,表示关键词B出现过的历史文本的总篇数;
含义为:关键词C出现的所有历史文章中,关键词A与关键词C共现的概率,其共现的概率表达式为:
其中,表示关键词A和关键词C共现的历史文本的总篇数,表示关键词C出现过的历史文本的总篇数;
含义为:关键词A出现的所有历史文章中,关键词B与关键词A共现的概率,其共现的概率表达式为:
其中,表示关键词B和关键词A共现的历史文本的总篇数,表示关键词A出现过的历史文本的总篇数;
含义为:关键词C出现的所有历史文章中,关键词B与关键词C共现的概率,其共现的概率表达式为:
其中,表示关键词B和关键词C共现的历史文本的总篇数,表示关键词C出现过的历史文本的总篇数;
含义为:关键词A出现的所有历史文章中,关键词C与关键词A共现的概率,其共现的概率表达式为:
其中,表示关键词C和关键词A共现的历史文本的总篇数,表示关键词A出现过的历史文本的总篇数;
含义为:关键词B出现的所有历史文章中,关键词C与关键词B共现的概率,其共现的概率表达式为:
其中,表示关键词C和关键词B共现的历史文本的总篇数,表示关键词B出现过的历史文本的总篇数。
4.根据权利要求3所述的一种文本关键词的马尔可夫矩阵离线修正方法,其特征在于,
上述步骤(4)中所述的建立各关键词修正词的选取修正规则,按修正词的选取规则从各有交集的关键词中选出一个修正关键词,具体如下:
{X=I|MAX()},
其中,{X=I|MAX(),}表示从各有交集的关键词中选取第I个关键词为修正词,该词能使取最大值;X表示要选取的修正词,I表示有交集的关键词中第I个关键词,表示关键词I出现的所有历史文章中,关键词A与关键词I共现的概率,表示关键词A出现的所有历史文章中,关键词I与关键词A共现的概率,表示两者的概率差。
CN201310245629.8A 2013-06-20 2013-06-20 一种文本关键词的马尔可夫矩阵离线修正方法 Expired - Fee Related CN103336765B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310245629.8A CN103336765B (zh) 2013-06-20 2013-06-20 一种文本关键词的马尔可夫矩阵离线修正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310245629.8A CN103336765B (zh) 2013-06-20 2013-06-20 一种文本关键词的马尔可夫矩阵离线修正方法

Publications (2)

Publication Number Publication Date
CN103336765A CN103336765A (zh) 2013-10-02
CN103336765B true CN103336765B (zh) 2016-04-27

Family

ID=49244934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310245629.8A Expired - Fee Related CN103336765B (zh) 2013-06-20 2013-06-20 一种文本关键词的马尔可夫矩阵离线修正方法

Country Status (1)

Country Link
CN (1) CN103336765B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530344A (zh) * 2013-10-09 2014-01-22 上海大学 一种基于改进的tf-idf方法的检索词实时修正方法
CN107229627B (zh) * 2016-03-24 2020-12-22 华为技术有限公司 一种文本处理方法、装置及计算设备
CN105930505A (zh) * 2016-05-09 2016-09-07 广州神马移动信息科技有限公司 一种信息搜索方法及装置
CN107766318B (zh) * 2016-08-17 2021-03-16 北京金山安全软件有限公司 一种关键词的抽取方法、装置及电子设备
CN108595437B (zh) * 2018-05-04 2022-06-03 和美(深圳)信息技术股份有限公司 文本查询纠错方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法
KR100869545B1 (ko) * 2008-04-28 2008-11-19 한국생명공학연구원 검색 히스토리를 생성하는 되풀이 검색시스템
CN102043845A (zh) * 2010-12-08 2011-05-04 百度在线网络技术(北京)有限公司 一种用于基于查询序列簇提取核心关键词的方法与设备
CN102375810A (zh) * 2010-08-04 2012-03-14 阿里巴巴集团控股有限公司 整体帐户搜索关键词的估计值反馈方法及服务器
CN103064853A (zh) * 2011-10-20 2013-04-24 北京百度网讯科技有限公司 一种搜索建议生成方法、装置及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法
KR100869545B1 (ko) * 2008-04-28 2008-11-19 한국생명공학연구원 검색 히스토리를 생성하는 되풀이 검색시스템
CN102375810A (zh) * 2010-08-04 2012-03-14 阿里巴巴集团控股有限公司 整体帐户搜索关键词的估计值反馈方法及服务器
CN102043845A (zh) * 2010-12-08 2011-05-04 百度在线网络技术(北京)有限公司 一种用于基于查询序列簇提取核心关键词的方法与设备
CN103064853A (zh) * 2011-10-20 2013-04-24 北京百度网讯科技有限公司 一种搜索建议生成方法、装置及系统

Also Published As

Publication number Publication date
CN103336765A (zh) 2013-10-02

Similar Documents

Publication Publication Date Title
CN103605665B (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN102456058B (zh) 类目信息提供方法及装置
CN103336765B (zh) 一种文本关键词的马尔可夫矩阵离线修正方法
CN103729359B (zh) 一种推荐搜索词的方法及系统
JP2019533205A (ja) ユーザキーワード抽出装置、方法、及びコンピュータ読み取り可能な記憶媒体
CN103279478B (zh) 一种基于分布式互信息文档特征提取方法
CN106649818A (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN104077407B (zh) 一种智能数据搜索系统及方法
CN104281649A (zh) 一种输入方法、装置及电子设备
CN103076892A (zh) 一种用于提供输入字符串所对应的输入候选项的方法与设备
CN104156352A (zh) 一种中文事件的处理方法及系统
CN104504024B (zh) 基于微博内容的关键词挖掘方法及系统
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN103810198A (zh) 一种商品信息的搜索方法及装置
CN102567409A (zh) 一种提供检索关联词的方法及装置
CN104636407B (zh) 参数取值训练及搜索请求处理方法和装置
CN103123624A (zh) 确定中心词的方法及装置、搜索方法及装置
CN104268230A (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN104915405A (zh) 一种基于多层次的微博查询扩展方法
CN103744918A (zh) 基于垂直领域的微博搜索排序方法及系统
CN103744954A (zh) 一种词关联网模型的构建方法及其构建器
CN105045808A (zh) 一种复合规则集匹配方法和系统
CN106980639B (zh) 短文本数据聚合系统及方法
CN105956158A (zh) 基于海量微博文本和用户信息的网络新词自动提取的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160427

Termination date: 20190620