CN105677633A - 词语联想方法及装置 - Google Patents
词语联想方法及装置 Download PDFInfo
- Publication number
- CN105677633A CN105677633A CN201410673771.7A CN201410673771A CN105677633A CN 105677633 A CN105677633 A CN 105677633A CN 201410673771 A CN201410673771 A CN 201410673771A CN 105677633 A CN105677633 A CN 105677633A
- Authority
- CN
- China
- Prior art keywords
- word
- document
- information
- idf
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明是有关一种词语联想方法及装置,涉及信息处理领域,方法包括:获取文档集合,所述文档集合中包含至少一个文档;将所述文档中的语句进行分词处理,得到至少一个词语信息;对每个所述词语信息进行分析,得到所述词语信息的分析信息,将所述词语信息以及所述分析信息保存;从所述保存的词语信息中选出目标词语,计算所述目标词语的TF-IDF;计算除所述目标词语外其他词语的TF-IDF;循环所述目标词语外其他所有词语,计算其他所有词语与所述目标词语的关联度;依据所述关联度,将排名前N的词语作为与所述目标词组相关的词组。本发明公开基于TF-IDF的词语联想分析方法,可以从给定文档集合中挖掘出与目标词语最相关词语。
Description
技术领域
本发明涉及信息处理领域,特别是涉及一种词语联想方法及装置。
背景技术
通过词语联想可以挖掘发现不同的词语在文本中的相关性,从而衍生出各式各样的应用。因此,在文本分析中,给定一个文档集合,挖掘出与目标词最相关的词是很有价值的。
例如,在中国移动业务领域,对“流量”这个词语进行联想,可以对移动提供新业务提供参考价值,如用户办理最多的流量是“30M”,因此,当对“流量”这个词语进行联想后,可以将“流量30M”的业务推荐给用户。又例如,在电子商务领域中,购买“牛奶”的同时,很多人会同时购买“面包”,因此对“牛奶”这个词语联想,可以给用户推荐其它商品,比如“面包”。
然而,现有的技术无法从给定文档集合中提取与目标词最相关的词语。
发明内容
有鉴于上述现有技术所存在的缺陷,本发明的目的是要解决现有的技术无法从给定文档集合中提取与目标词最相关的词语的问题,因此,本发明实施例提供一种词语联想方法,技术方案如下:
一种词语联想方法,包括:
获取文档集合,所述文档集合中包含至少一个文档;
将所述文档中的语句进行分词处理,得到至少一个词语信息;
对每个所述词语信息进行分析,得到所述词语信息的分析信息,将所述词语信息以及所述分析信息保存;
从所述保存的词语信息中选出目标词语,计算所述目标词语的TF-IDF;
计算除所述目标词语外其他词语的TF-IDF;
循环所述目标词语外其他所有词语,计算其他所有词语与所述目标词语的关联度;
依据所述关联度,将排名前N的词语作为与所述目标词组相关的词组。
优选的,在上述的词语联想方法中,所述对每个所述词语信息进行分析,得到所述词语信息的分析信息,包括:
对每个所述词语信息进行统计,得到所述词语信息在所述文档集合中出现的总次数、所述词语信息出现的文档数、所述文档集合中总的词语数目、所述文档集合中总的文档的数目。
优选的,在上述的词语联想方法中,所述计算所述目标词语的TF-IDF,包括:
根据公式TF-IDF=TF×IDF计算所述目标词语的TF-IDF,其中:
所述TF目标词语的词频=所述目标词语在所述文档集合中出现的总次数/所述文档集合中总的词语数目;
所述
优选的,在上述的词语联想方法中,所述计算其他所有词语与所述目标词语的关联度,包括:
根据公式关联度=1-︳所述目标词语的TF-IDF-除所述目标词语的其他词语的TF-IDF︳。
优选的,在上述的词语联想方法中,还包括:
获取停止词列表;
将得到的所述多个词语信息与所述停止词列表中的停止词一一对比,在所述词语信息中筛选出与所述停止词列表中停止词相同的词语;
删除所述筛选出的词语。
本发明实施例还提供一种词语联想装置,包括:
获取单元,用于获取文档集合,所述文档集合中包含至少一个文档;
分词处理单元,用于将所述文档中的语句进行分词处理,得到至少一个词语信息;
分析单元,用于对每个所述词语信息进行分析,得到所述词语信息的分析信息,将所述词语信息以及所述分析信息保存;
第一TF-IDF处理单元,用于从所述保存的词语信息中选出目标词语,计算所述目标词语的TF-IDF;
第二TF-IDF处理单元,用于计算除所述目标词语外其他词语的TF-IDF;
关联度计算单元,用于循环所述目标词语外其他所有词语,计算其他所有词语与所述目标词语的关联度;
关联单元,用于依据所述关联度,将排名前N的词语作为与所述目标词组相关的词组。
优选的,在上述的词语联想装置中,所述分析单元,包括:
统计模块,用于对每个所述词语信息进行统计,得到所述词语信息在所述文档集合中出现的总次数、所述词语信息出现的文档数、所述文档集合中总的词语数目、所述文档集合中总的文档的数目。
优选的,在上述的词语联想装置中,所述第一TF-IDF处理单元,包括:
第一计算子模块,用于根据公式TF-IDF=TF×IDF计算所述目标词语的TF-IDF,其中:
所述TF目标词语的词频=所述目标词语在所述文档集合中出现的总次数/所述文档集合中总的词语数目;
所述
优选的,在上述的词语联想装置中,所述关联度计算单元,包括:
关联度计算子模块,用于公式关联度=1-︳所述目标词语的TF-IDF-除所述目标词语的其他词语的TF-IDF︳。
优选的,在上述的词语联想装置中,还包括:
停止词列表获取单元,用于获取停止词列表;
词语筛选单元,用于将得到的所述多个词语信息与所述停止词列表中的停止词一一对比,在所述词语信息中筛选出与所述停止词列表中停止词相同的词语;
词语删除单元,用于删除所述筛选出的词语。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明的词语联想方法,至少具有下列优点:
本发明实施例提供一种基于TF-IDF的词语联想分析方法,可以从给定文档集合中挖掘出与目标词语最相关词语。
附图说明
图1为本发明实施例提供的词语联想方法的一种流程示意图;
图2为本发明实施例提供的词语联想方法的另一流程示意图;
图3为本发明实施例提供的词语联想方法的另一流程示意图;
图4为本发明实施例提供的词语联想方法的另一流程示意图;
图5为本发明实施例提供的词语联想装置的一种结构示意图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的(名称)其具体实施方式、步骤、结构、特征及其功效详细说明。
实施例一
参见图1,本发明实施例提供一种词语联想方法,包括:
步骤110:获取文档集合,文档集合中包含至少一个文档。
步骤120:将文档中的语句进行分词处理,得到至少一个词语信息。
循环上述文档集合中所有的文档,对每个文档均进行分词处理,如文档集合中包含文档“感谢您的来电”,则对该文档进行分词处理,分词处理后得到的三个词语信息,分别为“感谢”“您的”“来电”。可以选用分词器对文档进行分词处理,分词器可以选用庖丁解牛、imdict、mmseg4j、IK分词器。优选的,本发明实施例使用IK分词器。
步骤130:对每个词语信息进行分析,得到词语信息的分析信息,将词语信息以及分析信息保存。
对各个文档中的每个词语进行处理和分析,将其中出现的各个词语的信息保存。分析信息可以包括每个词语在文档集合中出现的总的次数,词语出现的文档数。
步骤140:从保存的词语信息中选出目标词语,计算目标词语的TF-IDF。
其中,TF-IDF(termfrequency–inversedocumentfrequency)是一种用于资讯检索与资讯探勘的常用加权技术。
步骤150:计算除目标词语外其他词语的TF-IDF。
步骤160:循环目标词语外其他所有词语,计算其他所有词语与目标词语的关联度。
步骤170:依据关联度,将排名前N的词语作为与目标词组相关的词组。
可以根据计算的关联度进行倒序排列,选取其中最靠前的TOPN作为结果返回,排名前N的词语作为与目标词组相关的词组。
需要说明的是,N为大于等于1的自然数,其可以根据实际情况设定,在此不做限定。
本发明实施例提供一种基于TF-IDF的词语联想分析方法,可以从给定文档集合中挖掘出与目标词语最相关词语。
实施例二
参见图2,本发明实施例提供一种词语联想方法,包括:
步骤210:获取文档集合,文档集合中包含至少一个文档。
步骤220:将文档中的语句进行分词处理,得到至少一个词语信息。
循环上述文档集合中所有的文档,对每个文档均进行分词处理,如文档集合中包含文档“感谢您的来电”,则对该文档进行分词处理,分词处理后得到的三个词语信息,分别为“感谢”“您的”“来电”。可以选用分词器对文档进行分词处理,分词器可以选用庖丁解牛、imdict、mmseg4j、IK分词器。优选的,本发明实施例使用IK分词器。
步骤230:对每个词语信息进行分析,得到词语信息的四个分析信息,将词语信息以及四个分析信息保存,其中,四个分析参数为所述词语信息在所述文档集合中出现的总次数、所述词语信息出现的文档数、所述文档集合中总的词语数目、所述文档集合中总的文档的数目。
对每个所述词语信息进行统计,得到所述词语信息在所述文档集合中出现的总次数、所述词语信息出现的文档数、所述文档集合中总的词语数目、所述文档集合中总的文档的数目。
步骤240:从保存的词语信息中选出目标词语,根据公式TF-IDF计算目标词语的TF-IDF。
根据目标词语,在得到的所有词语中查找与该目标词语相同的词语,如果没有查找出,则这个目标词语没有相关联的词语,结束流程,如果查找到,则将目标词语相关的分析信息提取出来,公式TF-IDF计算目标词语的TF-IDF。
其中,TF-IDF(termfrequency–inversedocumentfrequency)是一种用于资讯检索与资讯探勘的常用加权技术。
TF-IDF公式=TF×IDF计算所述目标词语的TF-IDF,
其中:
TF目标词语的词频=目标词语在所述文档集合中出现的总次数/文档集合中总的词语数目;
步骤250:计算除目标词语外其他词语的TF-IDF。
计算方法可以根据步骤240中方法进行,在此不做赘述。
步骤260:循环目标词语外其他所有词语,根据关联度公式计算其他所有词语与目标词语的关联度。
其中,关联度公式=1-︳目标词语的TF-IDF-除目标词语的其他词语的TF-IDF︳
步骤270:依据关联度,将排名前N的词语作为与目标词组相关的词组。
可以根据计算的关联度进行倒序排列,选取其中最靠前的TOPN作为结果返回,排名前N的词语作为与目标词组相关的词组。
需要说明的是,N为大于等于1的自然数,其可以根据实际情况设定,在此不做限定。
本发明实施例提供一种基于TF-IDF的词语联想分析方法,可以从给定文档集合中挖掘出与目标词语最相关词语。
实施例三
参见图3,在上述所有实施例中,还可以包括以下步骤:
步骤310:获取停止词列表。
获取相关行业的停止词列表。停止词意味着与业务无关的词,如中国移动的停止词可能会有:所有单个的字、你好、您好、不然、哈哈等。
步骤320:将得到的多个词语信息与停止词列表中的停止词一一对比,在词语信息中筛选出与停止词列表中停止词相同的词语。
步骤320:删除筛选出的词语。
本发明实施例提供的方法,主要是将一些无关紧要的词语去掉,减小数据处理的规模。不同的行业,相应的业务目标列表会不一样,与具体待分析的数据密切相关,对每个文档中的每个词进行处理,如果将一些没用的词去掉能够有效地减小数据规模,可以加快处理效率以及去除噪声干扰,提高准确度。
实施例四
参见图4,本发明实施例提供一种词语联想方法,包括:
步骤401:选定给定的文档集合。
步骤402:从上述文档集合中取出任意一个文档。
步骤403:对取出的文档进行分词处理,得到至少一个词语信息。
步骤404:计算并保存相关参数。
步骤405:判断上述文档集合中的文档是否处理完毕,如果是,则继续步骤406,如果否,则跳转至步骤402。
步骤406:得到所有词语的TF-IDF。
步骤407:在得到的所有词语中任意取一个词语。
步骤408:跟选取的目标词语一起进行分析,计算并保存选取的词语与目标词语的关联度。
步骤409:判断所有词语是否处理完毕,如果是,则继续步骤410,如果否,则跳转至步骤407。
步骤410:按照关联度排序输出。
依据关联度,将排名前N的词语作为与目标词组相关的词组。
本发明实施例提供一种基于TF-IDF的词语联想分析方法,可以从给定文档集合中挖掘出与目标词语最相关词语。
实施例五
参见图5,本发明实施例提供一种词语联想装置,包括:
获取单元U110,用于获取文档集合,文档集合中包含至少一个文档。
分词处理单元U120,用于将文档中的语句进行分词处理,得到至少一个词语信息。
分析单元U130,用于对每个词语信息进行分析,得到词语信息的分析信息,将词语信息以及分析信息保存。
第一TF-IDF处理单元U140,用于从保存的词语信息中选出目标词语,计算目标词语的TF-IDF。
第二TF-IDF处理单元U150,用于计算除目标词语外其他词语的TF-IDF。
关联度计算单元U160,用于循环目标词语外其他所有词语,计算其他所有词语与目标词语的关联度。
关联单元U170,用于依据关联度,将排名前N的词语作为与目标词组相关的词组。
本发明实施例提供一种基于TF-IDF的词语联想分析装置,可以从给定文档集合中挖掘出与目标词语最相关词语。
进一步的,在本发明的其他实施例中,上述分析单元,包括:
统计模块,用于对每个词语信息进行统计,得到词语信息在文档集合中出现的总次数、词语信息出现的文档数、文档集合中总的词语数目、文档集合中总的文档的数目。
进一步的,在本发明的其他实施例中,上述第一TF-IDF处理单元,包括:
第一计算子模块,用于根据公式TF-IDF=TF×IDF计算目标词语的TF-IDF,其中:
TF目标词语的词频=目标词语在文档集合中出现的总次数/文档集合中总的词语数目;
进一步的,在本发明的其他实施例中,上述关联度计算单元,包括:
关联度计算子模块,用于公式关联度=1-︳目标词语的TF-IDF-除目标词语的其他词语的TF-IDF︳。
进一步的,在本发明的其他实施例中,上述词语联想装置还包括:
停止词列表获取单元,用于获取停止词列表;
词语筛选单元,用于将得到的多个词语信息与停止词列表中的停止词一一对比,在词语信息中筛选出与停止词列表中停止词相同的词语;
词语删除单元,用于删除筛选出的词语。
虽然本发明已以较佳实施例揭露如上,然并非用以限定本发明实施的范围,依据本发明的权利要求书及说明内容所作的简单的等效变化与修饰,仍属于本发明技术方案的范围内。
Claims (10)
1.一种词语联想方法,其特征在于,包括:
获取文档集合,所述文档集合中包含至少一个文档;
将所述文档中的语句进行分词处理,得到至少一个词语信息;
对每个所述词语信息进行分析,得到所述词语信息的分析信息,将所述词语信息以及所述分析信息保存;
从所述保存的词语信息中选出目标词语,计算所述目标词语的TF-IDF;
计算除所述目标词语外其他词语的TF-IDF;
循环所述目标词语外其他所有词语,计算其他所有词语与所述目标词语的关联度;
依据所述关联度,将排名前N的词语作为与所述目标词组相关的词组。
2.根据权利要求1所述的方法,其特征在于,所述对每个所述词语信息进行分析,得到所述词语信息的分析信息,包括:
对每个所述词语信息进行统计,得到所述词语信息在所述文档集合中出现的总次数、所述词语信息出现的文档数、所述文档集合中总的词语数目、所述文档集合中总的文档的数目。
3.根据权利要求2所述的方法,其特征在于,所述计算所述目标词语的TF-IDF,包括:
根据公式TF-IDF=TF×IDF计算所述目标词语的TF-IDF,其中:
所述TF目标词语的词频=所述目标词语在所述文档集合中出现的总次数/所述文档集合中总的词语数目;
4.根据权利要求3所述的方法,其特征在于,所述计算其他所有词语与所述目标词语的关联度,包括:
根据公式关联度=1-︳所述目标词语的TF-IDF-除所述目标词语的其他词语的TF-IDF︳。
5.根据权利要求1-4任意一项所述的方法,其特征在于,还包括:
获取停止词列表;
将得到的所述多个词语信息与所述停止词列表中的停止词一一对比,在所述词语信息中筛选出与所述停止词列表中停止词相同的词语;
删除所述筛选出的词语。
6.一种词语联想装置,其特征在于,包括:
获取单元,用于获取文档集合,所述文档集合中包含至少一个文档;
分词处理单元,用于将所述文档中的语句进行分词处理,得到至少一个词语信息;
分析单元,用于对每个所述词语信息进行分析,得到所述词语信息的分析信息,将所述词语信息以及所述分析信息保存;
第一TF-IDF处理单元,用于从所述保存的词语信息中选出目标词语,计算所述目标词语的TF-IDF;
第二TF-IDF处理单元,用于计算除所述目标词语外其他词语的TF-IDF;
关联度计算单元,用于循环所述目标词语外其他所有词语,计算其他所有词语与所述目标词语的关联度;
关联单元,用于依据所述关联度,将排名前N的词语作为与所述目标词组相关的词组。
7.根据权利要求6所述的装置,其特征在于,所述分析单元,包括:
统计模块,用于对每个所述词语信息进行统计,得到所述词语信息在所述文档集合中出现的总次数、所述词语信息出现的文档数、所述文档集合中总的词语数目、所述文档集合中总的文档的数目。
8.根据权利要求7所述的装置,其特征在于,所述第一TF-IDF处理单元,包括:
第一计算子模块,用于根据公式TF-IDF=TF×IDF计算所述目标词语的TF-IDF,其中:
所述TF目标词语的词频=所述目标词语在所述文档集合中出现的总次数/所述文档集合中总的词语数目;
9.根据权利要求8所述的装置,其特征在于,所述关联度计算单元,包括:
关联度计算子模块,用于公式关联度=1-︳所述目标词语的TF-IDF-除所述目标词语的其他词语的TF-IDF︳。
10.根据权利要求6-9任意一项所述的装置,其特征在于,还包括:
停止词列表获取单元,用于获取停止词列表;
词语筛选单元,用于将得到的所述多个词语信息与所述停止词列表中的停止词一一对比,在所述词语信息中筛选出与所述停止词列表中停止词相同的词语;
词语删除单元,用于删除所述筛选出的词语。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410673771.7A CN105677633A (zh) | 2014-11-21 | 2014-11-21 | 词语联想方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410673771.7A CN105677633A (zh) | 2014-11-21 | 2014-11-21 | 词语联想方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105677633A true CN105677633A (zh) | 2016-06-15 |
Family
ID=56957542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410673771.7A Pending CN105677633A (zh) | 2014-11-21 | 2014-11-21 | 词语联想方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105677633A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070016571A1 (en) * | 2003-09-30 | 2007-01-18 | Behrad Assadian | Information retrieval |
CN102831185A (zh) * | 2012-08-01 | 2012-12-19 | 北京百度网讯科技有限公司 | 一种词条推荐方法及装置 |
CN103744954A (zh) * | 2014-01-06 | 2014-04-23 | 同济大学 | 一种词关联网模型的构建方法及其构建器 |
CN103885947A (zh) * | 2012-12-19 | 2014-06-25 | 北京百度网讯科技有限公司 | 一种搜索需求的挖掘方法、智能搜索方法及其装置 |
-
2014
- 2014-11-21 CN CN201410673771.7A patent/CN105677633A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070016571A1 (en) * | 2003-09-30 | 2007-01-18 | Behrad Assadian | Information retrieval |
CN102831185A (zh) * | 2012-08-01 | 2012-12-19 | 北京百度网讯科技有限公司 | 一种词条推荐方法及装置 |
CN103885947A (zh) * | 2012-12-19 | 2014-06-25 | 北京百度网讯科技有限公司 | 一种搜索需求的挖掘方法、智能搜索方法及其装置 |
CN103744954A (zh) * | 2014-01-06 | 2014-04-23 | 同济大学 | 一种词关联网模型的构建方法及其构建器 |
Non-Patent Citations (5)
Title |
---|
岑咏华 等: "关联推荐及其在学术资源检索网站中的应用研究", 《图书情报工作》 * |
方延风: "科技项目查重中特征词TF-IDF值计算方法的改进", 《情报探索》 * |
蒋永新 等: "基于tf-idf方法的图情学核心期刊学科特征分析", 《情报资料工作》 * |
覃世安 等: "文本分类中TF-IDF方法的改进研究", 《现代图书情报技术》 * |
钱爱兵 等: "基于改进TF-IDF的中文网页关键词抽取-以新闻网页为例", 《情报理论与实践》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10909427B2 (en) | Method and device for classifying webpages | |
Yu et al. | Click prediction for web image reranking using multimodal sparse coding | |
CN104376406B (zh) | 一种基于大数据的企业创新资源管理与分析方法 | |
CN106095737A (zh) | 文档相似度计算方法及相似文档全网检索跟踪方法 | |
CN103020303B (zh) | 基于互联网跨媒体地标的历史事件提取及相关图片的搜索方法 | |
CN106815307A (zh) | 公共文化知识图谱平台及其使用办法 | |
WO2017092622A1 (zh) | 法律条文的搜索方法及装置 | |
CN106682172A (zh) | 一种基于关键词的文献研究热点推荐方法 | |
CN110543595B (zh) | 一种站内搜索系统及方法 | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN103294681B (zh) | 一种搜索结果的生成方法和装置 | |
CN104408191A (zh) | 关键词的关联关键词的获取方法和装置 | |
CN102831193A (zh) | 基于分布式多级聚类的话题检测装置及方法 | |
CN105975491A (zh) | 企业新闻分析方法及系统 | |
US10387805B2 (en) | System and method for ranking news feeds | |
CN106980651B (zh) | 一种基于知识图谱的爬取种子列表更新方法及装置 | |
CN105138558A (zh) | 基于用户访问内容的实时个性化信息采集方法 | |
KR101757900B1 (ko) | 지식 베이스의 구축 방법 및 장치 | |
CN106844571A (zh) | 识别同义词的方法、装置和计算设备 | |
Livne et al. | Predicting citation counts using text and graph mining | |
CN104679731B (zh) | 提取页面中关键词的方法及装置 | |
Singh et al. | Sentiment analysis of Twitter data using TF-IDF and machine learning techniques | |
CN103744954A (zh) | 一种词关联网模型的构建方法及其构建器 | |
CN111198946A (zh) | 一种网络新闻热点挖掘方法及装置 | |
CN103064982A (zh) | 一种专利检索时智能推荐专利的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160615 |
|
RJ01 | Rejection of invention patent application after publication |