CN102541935A - 一种新的基于特征向量的中文Web文档表示方法 - Google Patents
一种新的基于特征向量的中文Web文档表示方法 Download PDFInfo
- Publication number
- CN102541935A CN102541935A CN2010106181125A CN201010618112A CN102541935A CN 102541935 A CN102541935 A CN 102541935A CN 2010106181125 A CN2010106181125 A CN 2010106181125A CN 201010618112 A CN201010618112 A CN 201010618112A CN 102541935 A CN102541935 A CN 102541935A
- Authority
- CN
- China
- Prior art keywords
- speech
- word
- rule
- chinese web
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了提出了一种新的基于特征向量的中文Web文档表示方法,该方法包括:将中文词典分词法进行算法扩展,使其能够通过拼接零散词的方式发现新词,并扩展分词词典;将词—文档向量矩阵扩展为词—事务向量矩阵,并利用关联规则挖掘算法,在词—事务向量矩阵中挖掘出置信度高于经验阈值的规则,将规则中的词聚为一类,降低了特征向量空间的维数。利用本发明,解决了目前中文Web文档的向量表示中,不能将新词表示出来的缺陷,同时还降低了文档向量表示的维度,大大节省了存储开销,降低了后续文本数据挖掘计算的时间复杂度。
Description
技术领域
本方法属于信息检索技术领域。
背景技术
在信息社会中,计算机网络已经在人类的学习与生活中得到了普及。网络使各种信息资源得到共享,它将人类的交流空间和时间极大扩展,同时提高了人们的工作或学习效率。随着网络规模的不断扩大,网络资源不断丰富,信息检索成为人们获取知识的普遍手段,而如何实现准确、高效的搜索引擎成了信息科学领域研究的关键技术。
Web文本信息检索的实质是对Web文档集合的检索,要实现这样的检索系统通常的做法是,首先对文本进行分词,然后去除停用词和低频词,最后建立倒排索引,用户在检索时实际是检索该倒排索引文件搜索自己关心的文档。更本质的说,每一个文档被表示成为一个基于词的向量,用户的查询也用一个向量来表达,通过向量的方式来计算查询与文档之间的相似度。其中文本分词部分,如果是英文文档可以通过词与词之间的空格进行分词,如果是中文文档,则需要对用特殊的分词手段,目前最流行也是公认最有效的中文分词方法是词典分词法。本发明仅针对中文文档的处理,并且是以词典分词法为基础的发明。
另外,如果对大量文档做数据挖掘,比如聚类、分类,最常用的方法也是建立向量空间模型(Vector Space Model)。再对该模型进行矩阵运算。
上面提到的这种通用的对文档处理流程有以下缺点:
1. 词典分词器因为其有穷性的特点,对网络中层出不穷的新的热点词无能为力,比如“三鹿奶粉”,词典分词器会将其分成:三/鹿/奶粉。这些零散的词语将极大地影响热点词提取的准确性。
2.向量空间模型存在一个突出的问题就是其高维特性。由于自然语言文本的复杂多样性,词汇量过于丰富,因此所形成的向量空间模型常常具有过高的维数,而给后期的挖掘过程带来很大困难,而且每篇文档并不是用一个真正的特征向量表示,这个特性被人们“维度灾难”。
针对以上缺点,目前科研人员提出了很多方法进行改进,但能同时照顾到两个缺点改进又有效的方法并不多。
发明内容
本发明实施例提供了一种新的基于特征向量的中文Web文档表示方法,用以解决现有技术存在的不能将发现网络中文新词作为特征和文档特征向量维度高的缺陷。
一种中文Web新词汇的发现方法包括:
将预处理和经过词典分词后的零散词进行拼接;
计算拼接后的词串的词频,达到阈值的被认为是新词;
将新词加入词典。
一种利用关联规则算法发现同类词的方法包括:
将词—文档矩阵扩展为词—事务矩阵,形成二值矩阵;
在二值矩阵上使用关联规则算法来发现置信度大于一定阈值的规则,将规则中的词归为一类;
将词类作为一个特征维度,从而大大降低了文档特征向量的维度
本发明实施例既弥补了词典分词不能发现网络新词的缺点,又能在发现新词之后将其收录入词典;通过关联规则将词归类,大大降低了文档特征向量维度,有利于文档聚类、分类等工作,也有利于提高信息检索的准确率。在此处键入技术领域描述段落。
附图说明
图1为现有基于特征向量的中文Web文档表示方法的示意图;
图2为本发明实施例提供的一种新的基于特征向量的中文Web文档表示方法的示意图
图3为本发明实施例提供的停用词过滤和规则过滤流程示意图;
图4为本发明实施例通过零散词拼接来发现新词的方法示意图;
图5为本发明实施例利用关联规则算法发现同类词的方法示意图。
Claims (6)
1.一种新的基于特征向量的中文Web文档表示方法,其特征在于,该方法包括:
一种中文Web新词汇的发现方法;
一种利用关联规则算法发现同类词的方法;
通过以上两种方法,将中文Web文档更有效的表示为维度更低的特征向量。
2.如权利要求1所述的方法,其特征在于,一种中文Web新词汇的发现方法,包括:
对中文Web文档进行预处理;
对分词后的零散词进行拼接成字符串,然后判断字符串是否属于新词,如果是新词,则新词还要加入分词词典。
3.如权利要求2所述的方法,其特征在于,所述对中文Web文档进行预处理的步骤具体包括:
Web网页去噪声;中文词典分词;停用词过滤和规则过滤。
4.如权利要求2所述的方法,其特征在于,所述通过零散词拼接来发现新词的方法具体包括:
定义零散词为长度小于或等于三的词汇,对2-3个连续的零散词进行拼接,使用长度为3的链表存储;
设置词频阈值,即词在文档中出现的次数,达到阈值的词串,被认为是新词;
三个词构成的词串用“词1词2词3”表示,若词频(“词1”)>=词频阈值,那么:若词频(“词1词2”)/词频(“词1”)>=一定阈值(如0.95),收录“词1词2”,将“词1”标记为不收录;若词频(“词1词2词3”)/词频(“词1词2”)>=一定阈值,收录“词1词2词3”,将“词1词2”标记为不收录;
将新发现的词汇加入分词词典。
5.如权利要求3所述的方法,其特征在于,停用词过滤和规则过滤的方法包括:
停用词过滤:使用一个人工整理的停用词表,用以过滤常见的无意义词串;
规则过滤:去掉规则明显的无用词串,没必要拼成新词串。
6.如权利要求1所述的方法,其特征在于,一种利用关联规则算法发现同类词的方法,包括:
将词—文档矩阵转换成词—事务矩阵:将词—文档矩阵用来表示文档的列分解为表示事物的列,方法是若词频>1则将其分解为1和0,从而使词—事务矩阵变成布尔矩阵;
对词—事务进行二值关联规则挖掘,得到词与词的规则,当规则的置信度达到领域经验的阈值时,将规则中的词归为一类;
将归好的词类作为特征中的一个维度,从而将中文Web文档表示成特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010106181125A CN102541935A (zh) | 2010-12-31 | 2010-12-31 | 一种新的基于特征向量的中文Web文档表示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010106181125A CN102541935A (zh) | 2010-12-31 | 2010-12-31 | 一种新的基于特征向量的中文Web文档表示方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102541935A true CN102541935A (zh) | 2012-07-04 |
Family
ID=46348851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010106181125A Pending CN102541935A (zh) | 2010-12-31 | 2010-12-31 | 一种新的基于特征向量的中文Web文档表示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102541935A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104298778A (zh) * | 2014-11-04 | 2015-01-21 | 北京科技大学 | 一种基于关联规则树的轧钢产品质量的预测方法及系统 |
CN104899190A (zh) * | 2015-06-04 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 分词词典的生成方法和装置及分词处理方法和装置 |
CN105095196A (zh) * | 2015-07-24 | 2015-11-25 | 北京京东尚科信息技术有限公司 | 文本中新词发现的方法和装置 |
CN108108345A (zh) * | 2016-11-25 | 2018-06-01 | 上海掌门科技有限公司 | 用于确定新闻主题的方法与设备 |
CN112101018A (zh) * | 2020-08-05 | 2020-12-18 | 中国工业互联网研究院 | 一种基于词频矩阵特征向量计算文本中新词的方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008086378A1 (en) * | 2007-01-08 | 2008-07-17 | Microsoft Corporation | Document clustering based on entity association rules |
CN101853277A (zh) * | 2010-05-14 | 2010-10-06 | 南京信息工程大学 | 一种基于分类和关联分析的漏洞数据挖掘方法 |
-
2010
- 2010-12-31 CN CN2010106181125A patent/CN102541935A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008086378A1 (en) * | 2007-01-08 | 2008-07-17 | Microsoft Corporation | Document clustering based on entity association rules |
CN101853277A (zh) * | 2010-05-14 | 2010-10-06 | 南京信息工程大学 | 一种基于分类和关联分析的漏洞数据挖掘方法 |
Non-Patent Citations (3)
Title |
---|
吴春颖等: "一种基于新词发现的web文本表示方法", 《计算机应用》 * |
宋擒豹等: "基于关联规则的web文档聚类算法", 《软件学报》 * |
曾依灵等: "网络热点信息发现研究", 《通信学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104298778A (zh) * | 2014-11-04 | 2015-01-21 | 北京科技大学 | 一种基于关联规则树的轧钢产品质量的预测方法及系统 |
CN104298778B (zh) * | 2014-11-04 | 2017-07-04 | 北京科技大学 | 一种基于关联规则树的轧钢产品质量的预测方法及系统 |
CN104899190A (zh) * | 2015-06-04 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 分词词典的生成方法和装置及分词处理方法和装置 |
CN105095196A (zh) * | 2015-07-24 | 2015-11-25 | 北京京东尚科信息技术有限公司 | 文本中新词发现的方法和装置 |
CN105095196B (zh) * | 2015-07-24 | 2017-11-14 | 北京京东尚科信息技术有限公司 | 文本中新词发现的方法和装置 |
CN108108345A (zh) * | 2016-11-25 | 2018-06-01 | 上海掌门科技有限公司 | 用于确定新闻主题的方法与设备 |
CN112101018A (zh) * | 2020-08-05 | 2020-12-18 | 中国工业互联网研究院 | 一种基于词频矩阵特征向量计算文本中新词的方法及系统 |
CN112101018B (zh) * | 2020-08-05 | 2024-03-12 | 北京工联科技有限公司 | 一种基于词频矩阵特征向量计算文本中新词的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108573411B (zh) | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 | |
CN107451126B (zh) | 一种近义词筛选方法及系统 | |
CN104199972B (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
WO2019085236A1 (zh) | 检索意图识别方法、装置、电子设备及可读存储介质 | |
CN106156286B (zh) | 面向专业文献知识实体的类型抽取系统及方法 | |
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN104573046B (zh) | 一种基于词向量的评论分析方法及系统 | |
CN102289522B (zh) | 一种对于文本智能分类的方法 | |
CN102419778B (zh) | 一种挖掘查询语句子话题并聚类的信息搜索方法 | |
CN102955857B (zh) | 一种搜索引擎中基于类中心压缩变换的文本聚类方法 | |
CN103559191B (zh) | 基于隐空间学习和双向排序学习的跨媒体排序方法 | |
CN103605665A (zh) | 一种基于关键词的评审专家智能检索与推荐方法 | |
CN103617290B (zh) | 中文机器阅读系统 | |
CN103942340A (zh) | 一种基于文本挖掘的微博用户兴趣识别方法 | |
WO2017101728A1 (zh) | 一种相似词的聚合方法和装置 | |
CN103678670A (zh) | 一种微博热词与热点话题挖掘系统及方法 | |
CN107423288A (zh) | 一种基于无监督学习的中文分词系统及方法 | |
CN109145180B (zh) | 一种基于增量聚类的企业热点事件挖掘方法 | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN102541935A (zh) | 一种新的基于特征向量的中文Web文档表示方法 | |
KR101696499B1 (ko) | 한국어 키워드 검색문 해석 장치 및 방법 | |
CN104281694A (zh) | 一种文本情感倾向分析系统 | |
CN103744837B (zh) | 基于关键词抽取的多文本对照方法 | |
CN104346382A (zh) | 使用语言查询的文本分析系统和方法 | |
CN111460147A (zh) | 一种基于语义增强的标题短文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120704 |