CN103336765A - 一种文本关键词的马尔可夫矩阵离线修正方法 - Google Patents
一种文本关键词的马尔可夫矩阵离线修正方法 Download PDFInfo
- Publication number
- CN103336765A CN103336765A CN2013102456298A CN201310245629A CN103336765A CN 103336765 A CN103336765 A CN 103336765A CN 2013102456298 A CN2013102456298 A CN 2013102456298A CN 201310245629 A CN201310245629 A CN 201310245629A CN 103336765 A CN103336765 A CN 103336765A
- Authority
- CN
- China
- Prior art keywords
- keyword
- keywords
- text
- historical
- correction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000002715 modification method Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本关键词的马尔可夫矩阵离线修正方法,其步骤:(1)将用户每次搜索下载的各文本记为用户搜索的历史文本集合;(2)抽取出用户搜索的历史文本集合中有交集的关键词集合;(3)将抽取到的历史文本集中有交集的关键词采用马尔可夫矩阵来表示;(4)建立修正词的选取规则,各有交集的关键词按修正词的选取规则从各有交集的关键词中选出修正词;(5)用户输入新的关键词并进行下一次新的搜索时,查找对应的修正词,给予修正并将修正后结果返回。该方法在于抽取的关键词的来自源是用户的历史记录,用户自己行为的记录,采用马尔可夫矩阵表示,能够准确地分析领域知识结构,给予修正,有效地提高用户搜索效率。
Description
技术领域
本发明涉及一种计算机自动提取文本关键词并对于用户输入给予离线修正的方法,更具体地说,涉及一种文本关键词的马尔可夫矩阵离线修正方法。
背景技术
在中国专利说明书中还公开了一种“文本关键词的提取方法”(专利申请号:200710041150. 7),该方法指出“在TF-IDF方法提取文本关键词的基础上,通过篇频修正法提取单篇文本的关键词,提高从单篇文本中提取关键词的精度;通过词频修正法或对比选择法提取同类文本集合中共同的领域关键词”,该方法能避免一个关键词在一篇文档中频繁出现导致绝对词频很高而被计入领域关键词。可以有效地提高单篇文本的关键词提取精度,从而提高文本领域知识获取的性能与领域知识本体建立的效果,提高网络资源服务的质量与效果。然而,但上述方法提取领域关键词时,并未对用户的历史记录进行提取和分析,因此,提取关键词的准确度及用户满意度不高。
发明内容
本发明的目的在于针对当前技术中存在的不足,提供一种文本关键词的马尔可夫矩阵离线修正方法,该方法能够提高用户文献搜索的速度和准确度。
为达到上述目的,本发明采用下述技术方案:
一种文本关键词的马尔可夫矩阵离线修正方法,该方法通过分析用户的历史记录抽取各关键词,各有交集的关键词采用马尔可夫矩阵表示,建立各关键词的修正词选取规则,对用户下一次输入的关键词进行给予修正,其具体步骤如下:
(1)、将用户每次搜索下载的各文本,记为用户搜索的历史文本集合,记为M;
(2)、抽取出用户搜索的历史文本集合M中有交集的关键词集合,记为N;
(3)、将抽取历史文本集合中有交集的关键词采用马尔可夫矩阵表示;
(4)、建立修正词的选取规则,按修正词的选取规则从各有交集的关键词中选出修正词,记为Ri;
(5)、用户进行新的搜索,首先用户输入新的关键词,然后搜查步骤(2)中所述的有交集的关键词集合N中是否存在用户输入新的关键词,若存在与用户输入新的关键词相同的关键词,则再查找与用户输入新的关键词对应的修正词,给予修正,并将修正后结果返回;若有交集的关键词集合N中不存在与用户输入新的关键词相同的关键词,则不再查找与用户输入新的关键词对应的修正词Ri,也不给予修正。
上述步骤(2)中所述的抽取出用户搜索的历史文本集合中有交集的关键词,其详细步骤如下:
(2-1)、用户搜索的历史文本集合中的所有文本,记为M;
(2-2)、统计用户搜索的历史文本集合M中所有文本中的关键词,记为N。
上述步骤(3)中所述的将抽取历史文本集合中有交集的关键词采用马尔可夫矩阵表示,具体如下:
(3-1)、统计用户搜索的历史文本集合所有文本中的关键词集合N中所有关键词的文本频率;
(3-2)、去掉文本频率为1的关键词,剩余的即为抽取到的关键词,将抽取出的关键词采用马尔可夫矩阵表示,其矩阵表达式如下:
其中,A表示抽取出的第一个关键词, B表示抽取出的第二个关键词,C表示抽取出的第三个关键词;
含义为:关键词B出现的所有历史文章中,关键词A与关键词B共现的概率,其共现的概率表达式为:
含义为:关键词C出现的所有历史文章中,关键词B与关键词C共现的概率,其共现的概率表达式为:
其中,表示关键词C和关键词B共现的历史文本的总篇数,表示关键词B出现过的历史文本的总篇数。上述步骤(4)中所述的建立各关键词修正词的选取修正规则,按修正词的选取规则从各有交集的关键词中选出一个修正关键词,具体规则如下:
其中, {X=I|MAX()}表示从各有交集的关键词中选取第I个关键词为修正词,该词能使取最大值;X表示要选取的修正词,I表示有交集的关键词中第I个关键词, 表示关键词I出现的所有历史文章中,关键词A与关键词I共现的概率,表示关键词A 出现的所有历史文章中,关键词I与关键词A共现的概率,表示两者的概率差。
本发明的一种文本关键词的马尔可夫矩阵与现有推荐及修正技术相比校,具有如下显而易见的突出性特点和显著进步:本发明是通过分析用户的历史记录抽取出关键词,建立类马尔可夫矩阵,构建各关键词的修正词的修正规则,对用户下次输入的关键词给予修正。该方法在于抽取的关键词的来自源是用户的历史记录,修正词的选取也是基于对用户输入的历史记录的分析得到的,因此能够准确地分析出用户的领域知识结构,并给予的修正,从而有效地提高了用户的搜索效率。
附图说明
图1是本发明的一种文本关键词的马尔可夫矩阵离线修正方法的流程图。
具体实施方式
以下结合附图对本发明的实施例作进一步的详细描述。
如图1所示,一种文本关键词的马尔可夫矩阵离线修正方法,该方法通过分析用户的历史记录抽取各关键词,各有交集的关键词采用马尔可夫矩阵表示,建立各关键词的修正词的选取规则,选取出修正词对用户下一次输入的关键词进行修正,其操作步骤如下:
(1)、将用户每次搜索下载的各文本,记为用户搜索的历史文本集合,记为M;
(2)、抽取出用户搜索的历史文本集合中有交集的关键词集合,其详细步骤如下:
(2-1)、取得用户搜索的历史文本集合中的所有文本M;
(2-2)、统计用户搜索的历史文本集合M中所有文本中的关键词集合N;
(3)、将抽取的历史文本集合中有交集的关键词采用马尔可夫矩阵表示,具体如下:
(3-1)、统计用户搜索的历史文本集合所有文本中的关键词集合N中所有关键词的文本频率;
(3-2)、去掉文本频率为1的关键词,剩余的即为抽取到的关键词,将抽取出的关键词采用马尔可夫矩阵表示,具体如下:
假设,在当前一个 “云计算”领域,各种算法的用户输入的关键词为“调度”,在用户的历史文本集合中抽取出关键词,如果抽取出的背景关键词为“调度”、“蚁群算法”和“云计算”,按上述马尔可夫矩阵分别两两计算三个关键词的共现的概率,其马尔可夫矩阵为:
其中,A表示历史文本集合中抽取出的关键词为“调度”,B表示历史文本集合中抽取出的关键词为“蚁群算法”,C表示历史文本集合中抽取出的关键词为“云计算”,
其中,表示关键词“蚁群算法”和关键词“调度”共现的历史文本的总篇数,表示关键词“调度”出现过的历史文本的总篇数;表示关键词“云计算”出现的所有历史文章中,关键词“蚁群算法”与关键词“云计算”共现的概率,其共现的概率表达式为:
表示关键词“蚁群算法”出现的所有历史文章中,关键词“云计算”与关键词“蚁群算法”共现的概率,其共现的概率表达式为:
(4)、建立修正词的选取规则,按修正词的选取规则从各有交集的关键词集中选出一个修正词,其具体为:
其中,{X=I|MAX(),}表示从各有交集的关键词中选取第I个关键词为修正词,该词能使取最大值;X表示要选取的修正词,I表示有交集的关键词第I个关键词, 表示关键词I出现的所有历史文章中,关键词A与关键词I共现的概率,表示关键词A 出现的所有历史文章中,关键词I与关键词A共现的概率,表示两者的概率差。
(5)、用户进行新的搜索,首先用户输入关键词后,然后搜查步骤(2)中所述的有交集的关键词集合N中是否存在用户输入新的关键词,若存在与用户输入新的关键词相同的关键词,则再查找与用户输入新的关键词对应的修正词Ri,给予修正,并将修正后结果返回;若有交集的关键词集合N中不存在与用户输入新的关键词相同的关键词,则不再查找与用户输入新的关键词对应的修正词Ri,也不给予修正。
由步骤(4)中从各有交集的关键词集中选出一个修正词“云计算”可知,当用户下次搜索时,若输入的关键词为“调度”则计算机会将其修正为“云计算、调度”,并将修正结果返回。
Claims (4)
1.一种文本关键词的马尔可夫矩阵离线修正方法,该方法通过分析用户的历史记录抽取各关键词,各有交集的关键词采用马尔可夫矩阵表示,建立各关键词的修正树规则,对用户下一次输入的关键词进行给予修正,其具体步骤如下:
(1)、将用户每次搜索下载的各文本,记为用户搜索的历史文本集合,记为M;
(2)、抽取出用户搜索的历史文本集合M中有交集的关键词集合,记为N;
(3)、将抽取历史文本集合中有交集的关键词采用马尔可夫矩阵表示;
(4)、建立修正词的选取规则,按修正词的选取规则从各有交集的关键词中选出修正词,记为Ri;
(5)、用户进行新的搜索,首先用户输入新的关键词,然后搜查步骤(2)中所述的有交集的关键词集合N中是否存在用户输入新的关键词,若存在与用户输入新的关键词相同的关键词,则再查找与用户输入新的关键词对应的修正词Ri,给予修正,并将修正后结果返回;若有交集的关键词集合N中不存在与用户输入新的关键词相同的关键词,则不再查找与用户输入新的关键词对应的修正词Ri,也不给予修正。
2.根据权利要求1所述的一种文本关键词的马尔可夫矩阵离线修正方法,其特征在于,上述步骤(2)中所述的抽取出用户搜索的历史文本集中有交集的关键词,其详细步骤如下:
(2-1)、用户搜索的历史文本集合中的所有文本,记为M;
(2-2)、统计用户搜索的历史文本集合M中所有文本中的关键词,记为N。
3.根据权利要求2所述的一种文本关键词的马尔可夫矩阵离线修正方法,其特征在于,上述步骤(3)中所述的将抽取出历史文本集合中有交集的关键词采用马尔可夫矩阵表示,具体步骤如下:
(3-1)、统计集合N中所有关键词的文本频率;
(3-2)、去掉文本频率为1的关键词,剩余的即为抽取到的关键词,将抽取出的关键词采用马尔可夫矩阵表示,其矩阵表达式如下:
其中,A表示抽取出的第一个关键词, B表示抽取出的第二个关键词,C表示抽取出的第三个关键词;
含义为:关键词B出现的所有历史文章中,关键词A与关键词B共现的概率,其共现的概率表达式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310245629.8A CN103336765B (zh) | 2013-06-20 | 2013-06-20 | 一种文本关键词的马尔可夫矩阵离线修正方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310245629.8A CN103336765B (zh) | 2013-06-20 | 2013-06-20 | 一种文本关键词的马尔可夫矩阵离线修正方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103336765A true CN103336765A (zh) | 2013-10-02 |
CN103336765B CN103336765B (zh) | 2016-04-27 |
Family
ID=49244934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310245629.8A Expired - Fee Related CN103336765B (zh) | 2013-06-20 | 2013-06-20 | 一种文本关键词的马尔可夫矩阵离线修正方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103336765B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530344A (zh) * | 2013-10-09 | 2014-01-22 | 上海大学 | 一种基于改进的tf-idf方法的检索词实时修正方法 |
WO2017161899A1 (zh) * | 2016-03-24 | 2017-09-28 | 华为技术有限公司 | 一种文本处理方法、装置及计算设备 |
WO2017193865A1 (zh) * | 2016-05-09 | 2017-11-16 | 广州神马移动信息科技有限公司 | 一种信息搜索方法及装置 |
CN107766318A (zh) * | 2016-08-17 | 2018-03-06 | 北京金山安全软件有限公司 | 一种关键词的抽取方法、装置及电子设备 |
CN108595437A (zh) * | 2018-05-04 | 2018-09-28 | 和美(深圳)信息技术股份有限公司 | 文本查询纠错方法、装置、计算机设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067808A (zh) * | 2007-05-24 | 2007-11-07 | 上海大学 | 文本关键词的提取方法 |
KR100869545B1 (ko) * | 2008-04-28 | 2008-11-19 | 한국생명공학연구원 | 검색 히스토리를 생성하는 되풀이 검색시스템 |
CN102043845A (zh) * | 2010-12-08 | 2011-05-04 | 百度在线网络技术(北京)有限公司 | 一种用于基于查询序列簇提取核心关键词的方法与设备 |
CN102375810A (zh) * | 2010-08-04 | 2012-03-14 | 阿里巴巴集团控股有限公司 | 整体帐户搜索关键词的估计值反馈方法及服务器 |
CN103064853A (zh) * | 2011-10-20 | 2013-04-24 | 北京百度网讯科技有限公司 | 一种搜索建议生成方法、装置及系统 |
-
2013
- 2013-06-20 CN CN201310245629.8A patent/CN103336765B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067808A (zh) * | 2007-05-24 | 2007-11-07 | 上海大学 | 文本关键词的提取方法 |
KR100869545B1 (ko) * | 2008-04-28 | 2008-11-19 | 한국생명공학연구원 | 검색 히스토리를 생성하는 되풀이 검색시스템 |
CN102375810A (zh) * | 2010-08-04 | 2012-03-14 | 阿里巴巴集团控股有限公司 | 整体帐户搜索关键词的估计值反馈方法及服务器 |
CN102043845A (zh) * | 2010-12-08 | 2011-05-04 | 百度在线网络技术(北京)有限公司 | 一种用于基于查询序列簇提取核心关键词的方法与设备 |
CN103064853A (zh) * | 2011-10-20 | 2013-04-24 | 北京百度网讯科技有限公司 | 一种搜索建议生成方法、装置及系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530344A (zh) * | 2013-10-09 | 2014-01-22 | 上海大学 | 一种基于改进的tf-idf方法的检索词实时修正方法 |
WO2017161899A1 (zh) * | 2016-03-24 | 2017-09-28 | 华为技术有限公司 | 一种文本处理方法、装置及计算设备 |
CN107229627A (zh) * | 2016-03-24 | 2017-10-03 | 华为技术有限公司 | 一种文本处理方法、装置及计算设备 |
WO2017193865A1 (zh) * | 2016-05-09 | 2017-11-16 | 广州神马移动信息科技有限公司 | 一种信息搜索方法及装置 |
CN107766318A (zh) * | 2016-08-17 | 2018-03-06 | 北京金山安全软件有限公司 | 一种关键词的抽取方法、装置及电子设备 |
CN107766318B (zh) * | 2016-08-17 | 2021-03-16 | 北京金山安全软件有限公司 | 一种关键词的抽取方法、装置及电子设备 |
CN108595437A (zh) * | 2018-05-04 | 2018-09-28 | 和美(深圳)信息技术股份有限公司 | 文本查询纠错方法、装置、计算机设备和存储介质 |
CN108595437B (zh) * | 2018-05-04 | 2022-06-03 | 和美(深圳)信息技术股份有限公司 | 文本查询纠错方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103336765B (zh) | 2016-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200184146A1 (en) | Techniques for combining human and machine learning in natural language processing | |
US10268758B2 (en) | Method and system of acquiring semantic information, keyword expansion and keyword search thereof | |
EP2833271A1 (en) | Multimedia question and answer system and method | |
CN102693279B (zh) | 一种快速计算评论相似度的方法、装置及系统 | |
CN103106287B (zh) | 一种用户检索语句的处理方法及系统 | |
CN110110322A (zh) | 网络新词发现方法、装置、电子设备及存储介质 | |
CN103336765B (zh) | 一种文本关键词的马尔可夫矩阵离线修正方法 | |
Han et al. | HIT at TREC 2012 Microblog Track. | |
CN103294778A (zh) | 一种推送资讯信息的方法及系统 | |
CN104008186A (zh) | 从目标文本中确定关键词的方法和装置 | |
CN101794307A (zh) | 基于互联网分词思想的车载导航poi搜索引擎 | |
CN102567409A (zh) | 一种提供检索关联词的方法及装置 | |
CN104111925A (zh) | 项目推荐方法和装置 | |
CN103164537B (zh) | 一种面向用户信息需求的搜索引擎日志数据挖掘的方法 | |
CN106874419B (zh) | 一种多粒度实时热点聚合方法 | |
CN103218368B (zh) | 一种挖掘热词的方法与装置 | |
US11328218B1 (en) | Identifying subjective attributes by analysis of curation signals | |
CN110929509B (zh) | 一种基于louvain社区发现算法的领域事件触发词聚类方法 | |
CN104166712A (zh) | 科技文献检索方法及系统 | |
CN112597768A (zh) | 文本审核方法、装置、电子设备、存储介质及程序产品 | |
CN103092838B (zh) | 一种获取英文词的方法及装置 | |
CN105512270B (zh) | 一种确定相关对象的方法和装置 | |
CN113468866B (zh) | 非标准json串的解析方法及装置 | |
JP6173958B2 (ja) | 複数のハッシュテーブルを用いて検索するプログラム、装置及び方法 | |
CN110069703B (zh) | 一种基于特征增强的微博话题检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160427 Termination date: 20190620 |