CN101075251A - 一种基于数据挖掘的文本搜索方法 - Google Patents
一种基于数据挖掘的文本搜索方法 Download PDFInfo
- Publication number
- CN101075251A CN101075251A CN 200710062175 CN200710062175A CN101075251A CN 101075251 A CN101075251 A CN 101075251A CN 200710062175 CN200710062175 CN 200710062175 CN 200710062175 A CN200710062175 A CN 200710062175A CN 101075251 A CN101075251 A CN 101075251A
- Authority
- CN
- China
- Prior art keywords
- document
- text
- similarity
- data mining
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于数据挖掘的文本搜索方法。它涉及计算机技术领域中的电子文本文档进行精确表示及搜索的技术。它利用数据挖掘技术能够从海量数据中发现重要信息的特性,对文本文档进行分析并抽取多层次上的特征作为文档的表示。这些多层次上的特征能够形成文档的精确表示,建立了一种新的文本检索系统,达到文本搜索的目的。本发明还具有运算速度快、性能稳定、适用面广的特点。本发明可以用于任何语言的文本文档的文本搜索、文本聚类、文本摘要等诸多文本智能处理。
Description
技术领域
本发明涉及计算机技术领域中的一种基于数据挖掘的文本搜索方法,特别可适用于任何语言的文本文档的精确表示、检索、聚类和自动文本摘要等诸多文本智能处理。
背景技术
目前对文本的表示通常采用向量空间模型,即从词汇表中抽取特征词构成一个公共表示空间—向量空间,然后把文档集合中的每一个文档表示在向量空间中。在向量空间模型中,是以单个词为处理对象的。并且,有一个重要的前提:假设词与词之间是相互独立的。在这种设计中,由于是以单个词为处理对象,这样就割裂了语言中词与词之间相互关联关系;同样,词与词之间相互独立这一假设也是不成立的。在现实语言中,词与词之间是相互关联的。因此,基于向量空间模型的文档表示,它具有表示不清,文档间易于混淆等缺点。
发明内容
本发明所要解决的技术问题在于避免上述背景技术中的不足之处而提供一种利用数据挖掘算法充分发现文本中那些相互关联的且与文本中心内容紧密相关的词组,这些词组代表了与文本中心思想相关的概念,通过这些概念词组对文档进行精确表示的一种基于数据挖掘的文本搜索方法。且本发明还具有运算速度快,性能稳定,与文本所用语言无关,适用面广的特点。
本发明所要解决的技术问题由以下技术方案实现,包括步骤:
①利用计算机采用概率统计理论建立领域专用或通用词典;
②基于词典对文本进行分词处理;
③利用数据挖据技术对文档进行分析;
④基于对文档的分析,抽取文档的多层次的词组特征,形成对文档的多精度表示;
⑤基于文档的多精度词组特征表示,根据词组特征间的匹配计算文档之间的相似度;
⑥基于文档间的相似度,直接搜出需要文档,或基于文档间的相似度,利用紧密度分布算法对文档进行聚类搜出需要文档;完成基于数据挖掘文本搜索。
本发明第②步中所述的分词处理包括断词标注和词性标注。
本发明与背景技术相比具有以下有优点:
1.本发明利用数据挖掘技术对文本进行分析抽取文本的概念词组,对文本进行多层次描述,比传统方法抽取的单个词的特征更能反映文本的内容实质。
2.传统的向量空间模型试图用一个向量空间表示文档集合中所有的文档,由于向量空间所含特征维数是受到限制的。因此,向量空间模型的表示能力是有限的。随着文档集合中文档数量的增加,向量空间模型的这种局限性就越明显。因此,向量空间模型不适用于动态增加的文档集合。但现实生活中,大部分文档集合是动态增加的。本发明能对每个文档单独处理,抽取其特征,从而避免了上述缺点,适合于动态文档集合。
3.本发明还具有运算速度快,性能稳定,与文本所用语言无关,适用面广等优点。
附图说明
图1是本发明基于数据挖掘的文本检索系统的工作流程图。图1的左侧表示对文档集合进行建模的过程;图1的右侧表示检索过程。
具体实施方式
参照图1,本发明包括步骤如下:
①利用计算机采用概率统计理论建立领域专用或通用词典。
②基于词典对文本进行分词处理。本发明分词处理包括断词标注和词性标注。实施例分词处理是基于领域专用词典或通用词典对中文文本进行断词和词性标注处理。对西方语言文本进行词性标注处理。如图1中分词处理模块所示。实施例分词处理结果需经停用词、非关键词过滤处理,即把与文本内容不相关的词,如介词、连词等从文本中删除。这样不会损失文本的原有信息,且可以减少运算量。如图1中停用词过滤非关键词过滤模块所示。
③利用数据挖据技术对文档进行分析。实施例利用数据挖掘技术抽取关键概念词组,利用数据挖掘技术对文档进行分析以获得文档多个层次上的特征。如图1中利用数据挖掘技术抽取关键概念词组模块所示。
④基于对文档的分析,抽取文档的多层次的词组特征,形成对文档的多精度表示。实施例利用概念词组对文档进行多精度表示。如图1中文档多精度表示模块所示。
⑤基于文档的多精度词组特征表示,根据词组特征间的匹配计算文档之间的相似度。实施例计算相似度时,考虑了命名实体在文本中的作用,对发生在命名实体上的匹配给予更高权重。
⑥基于文档间的相似度,直接搜出需要文档,或基于文档间的相似度,利用紧密度分布算法对文档进行聚类搜出需要文档。实施例基于文档特征对文档进行聚类处理,形成各个聚类的类中心表示。在建模阶段进行聚类可以减少检索阶段的运算时间。如图1中聚类模块所示。
本发明具体的检索过程如下:
首先对用户提供的样本文档进行分词、去除停用词等处理,然后,利用数据挖掘技术抽取文本的多层次特征,基于这些特征计算样本文档与各个聚类的相似度,找出相似的聚类。最后,计算样本文档与相似聚类内的每个文档间的相似度,按相似度由大到小排序形成检索结果。
Claims (2)
1.一种基于数据挖掘的文本搜索方法,其特征在于它包括步骤:
①利用计算机采用概率统计理论建立领域专用或通用词典;
②基于词典对文本进行分词处理;
③利用数据挖据技术对文档进行分析;
④基于对文档的分析,抽取文档的多层次的词组特征,形成对文档的多精度表示;
⑤基于文档的多精度词组特征表示,根据词组特征间的匹配计算文档之间的相似度;
⑥基于文档间的相似度,直接搜出需要文档,或基于文档间的相似度,利用紧密度分布算法对文档进行聚类搜出需要文档;完成基于数据挖掘文本搜索。
2.根据权利要求1所述的一种基于数据挖掘的文本搜索方法,其特征在于:第②步中所述的分词处理包括断词标注和词性标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200710062175 CN101075251A (zh) | 2007-06-18 | 2007-06-18 | 一种基于数据挖掘的文本搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200710062175 CN101075251A (zh) | 2007-06-18 | 2007-06-18 | 一种基于数据挖掘的文本搜索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101075251A true CN101075251A (zh) | 2007-11-21 |
Family
ID=38976304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200710062175 Pending CN101075251A (zh) | 2007-06-18 | 2007-06-18 | 一种基于数据挖掘的文本搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101075251A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101820444A (zh) * | 2010-03-24 | 2010-09-01 | 北京航空航天大学 | 一种基于描述信息匹配相似度的资源服务匹配与搜索方法 |
CN101866337A (zh) * | 2009-04-14 | 2010-10-20 | 日电(中国)有限公司 | 词性标注系统、用于训练词性标注模型的装置及其方法 |
CN101436194B (zh) * | 2008-11-04 | 2011-02-16 | 中国电子科技集团公司第五十四研究所 | 一种基于数据挖掘技术的文本多精度表示方法 |
CN102216928A (zh) * | 2008-09-12 | 2011-10-12 | 马来西亚微电子系统有限公司 | 用于检索数据并显示数据存储器的内容密度的方法和系统 |
CN101794218B (zh) * | 2009-11-25 | 2012-02-01 | 北京航空航天大学 | 一种基于知识库并支持复杂产品先进制造系统的语义soa集成方法 |
CN102929870A (zh) * | 2011-08-05 | 2013-02-13 | 北京百度网讯科技有限公司 | 一种建立分词模型的方法、分词的方法及其装置 |
CN103617157A (zh) * | 2013-12-10 | 2014-03-05 | 东北师范大学 | 基于语义的文本相似度计算方法 |
CN104866537A (zh) * | 2014-02-25 | 2015-08-26 | 英特尔公司 | 用于特征搜索的系统、装置和方法 |
WO2015124096A1 (en) * | 2014-02-22 | 2015-08-27 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for determining morpheme importance analysis model |
CN105279176A (zh) * | 2014-06-30 | 2016-01-27 | 江苏韦度一号信息科技有限公司 | 一种办公系统的数据挖掘方法 |
US10282465B2 (en) | 2014-02-25 | 2019-05-07 | Intel Corporation | Systems, apparatuses, and methods for deep learning of feature detectors with sparse coding |
CN110347820A (zh) * | 2019-05-22 | 2019-10-18 | 贵州电网有限责任公司 | 一种电网文本信息匹配的方法、系统和存储介质 |
CN111488429A (zh) * | 2020-03-19 | 2020-08-04 | 杭州叙简科技股份有限公司 | 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法 |
-
2007
- 2007-06-18 CN CN 200710062175 patent/CN101075251A/zh active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102216928A (zh) * | 2008-09-12 | 2011-10-12 | 马来西亚微电子系统有限公司 | 用于检索数据并显示数据存储器的内容密度的方法和系统 |
CN102216928B (zh) * | 2008-09-12 | 2014-04-30 | 马来西亚微电子系统有限公司 | 用于检索数据并显示数据存储器的内容密度的方法和系统 |
CN101436194B (zh) * | 2008-11-04 | 2011-02-16 | 中国电子科技集团公司第五十四研究所 | 一种基于数据挖掘技术的文本多精度表示方法 |
CN101866337A (zh) * | 2009-04-14 | 2010-10-20 | 日电(中国)有限公司 | 词性标注系统、用于训练词性标注模型的装置及其方法 |
CN101794218B (zh) * | 2009-11-25 | 2012-02-01 | 北京航空航天大学 | 一种基于知识库并支持复杂产品先进制造系统的语义soa集成方法 |
CN101820444A (zh) * | 2010-03-24 | 2010-09-01 | 北京航空航天大学 | 一种基于描述信息匹配相似度的资源服务匹配与搜索方法 |
CN102929870A (zh) * | 2011-08-05 | 2013-02-13 | 北京百度网讯科技有限公司 | 一种建立分词模型的方法、分词的方法及其装置 |
CN103617157B (zh) * | 2013-12-10 | 2016-08-17 | 东北师范大学 | 基于语义的文本相似度计算方法 |
CN103617157A (zh) * | 2013-12-10 | 2014-03-05 | 东北师范大学 | 基于语义的文本相似度计算方法 |
WO2015124096A1 (en) * | 2014-02-22 | 2015-08-27 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for determining morpheme importance analysis model |
US10296582B2 (en) | 2014-02-22 | 2019-05-21 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for determining morpheme importance analysis model |
CN104866537A (zh) * | 2014-02-25 | 2015-08-26 | 英特尔公司 | 用于特征搜索的系统、装置和方法 |
US10282465B2 (en) | 2014-02-25 | 2019-05-07 | Intel Corporation | Systems, apparatuses, and methods for deep learning of feature detectors with sparse coding |
US10296660B2 (en) | 2014-02-25 | 2019-05-21 | Intel Corporation | Systems, apparatuses, and methods for feature searching |
CN104866537B (zh) * | 2014-02-25 | 2019-09-10 | 英特尔公司 | 用于特征搜索的系统、装置和方法 |
CN105279176A (zh) * | 2014-06-30 | 2016-01-27 | 江苏韦度一号信息科技有限公司 | 一种办公系统的数据挖掘方法 |
CN110347820A (zh) * | 2019-05-22 | 2019-10-18 | 贵州电网有限责任公司 | 一种电网文本信息匹配的方法、系统和存储介质 |
CN111488429A (zh) * | 2020-03-19 | 2020-08-04 | 杭州叙简科技股份有限公司 | 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101075251A (zh) | 一种基于数据挖掘的文本搜索方法 | |
WO2022022045A1 (zh) | 基于知识图谱的文本比对方法、装置、设备及存储介质 | |
CN108573045B (zh) | 一种基于多阶指纹的比对矩阵相似度检索方法 | |
CN111104794A (zh) | 一种基于主题词的文本相似度匹配方法 | |
CN109635297B (zh) | 一种实体消歧方法、装置、计算机装置及计算机存储介质 | |
Choudhury et al. | Figure metadata extraction from digital documents | |
CN108536677A (zh) | 一种专利文本相似度计算方法 | |
CN101079031A (zh) | 一种网页主题提取系统和方法 | |
Chen et al. | Towards robust unsupervised personal name disambiguation | |
WO2008107305A2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
Anke et al. | Syntactically aware neural architectures for definition extraction | |
CN101079024A (zh) | 一种专业词表动态生成系统和方法 | |
CN104281702A (zh) | 基于电力关键词分词的数据检索方法及装置 | |
CN114254653A (zh) | 一种科技项目文本语义抽取与表示分析方法 | |
Mahmood et al. | Query based information retrieval and knowledge extraction using Hadith datasets | |
CN113221559B (zh) | 利用语义特征的科技创新领域中文关键短语抽取方法及系统 | |
Pomikálek et al. | Building a 70 billion word corpus of English from ClueWeb. | |
CN110188359B (zh) | 一种文本实体抽取方法 | |
WO2009017464A1 (en) | Relation extraction system | |
CN109446313B (zh) | 一种基于自然语言分析的排序系统及方法 | |
Xafopoulos et al. | Language identification in web documents using discrete HMMs | |
CN115794995A (zh) | 目标答案获取方法及相关装置、电子设备和存储介质 | |
Watrin et al. | An N-gram frequency database reference to handle MWE extraction in NLP applications | |
CN110705285A (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN115759037A (zh) | 建筑施工方案智能审核框架及审核方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |