CN110807099B - 一种基于模糊集的文本分析检索方法 - Google Patents

一种基于模糊集的文本分析检索方法 Download PDF

Info

Publication number
CN110807099B
CN110807099B CN201911041146.XA CN201911041146A CN110807099B CN 110807099 B CN110807099 B CN 110807099B CN 201911041146 A CN201911041146 A CN 201911041146A CN 110807099 B CN110807099 B CN 110807099B
Authority
CN
China
Prior art keywords
text
keyword
keywords
occurrences
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911041146.XA
Other languages
English (en)
Other versions
CN110807099A (zh
Inventor
孙北宁
吕维新
张叶
吴波
林宝德
钏涛
朱延杰
曾俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Center of Yunnan Power Grid Co Ltd
Original Assignee
Information Center of Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Center of Yunnan Power Grid Co Ltd filed Critical Information Center of Yunnan Power Grid Co Ltd
Priority to CN201911041146.XA priority Critical patent/CN110807099B/zh
Publication of CN110807099A publication Critical patent/CN110807099A/zh
Application granted granted Critical
Publication of CN110807099B publication Critical patent/CN110807099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于模糊集的文本分析检索方法,属于文本检索领域。本发明通过对文本进行预处理和分词处理,可以有效地释放更多的存储空间,为后续步骤进行快速搜索提供支撑;结合聚类算法对出现的次数进行分析,获得构建隶属度函数的参数,而关键词在文本的频率是高中低三个等级,对应优先级也是高中低,通过取大取小操作避免了将低优先级的判断成高优先级,引起不必要的误判,进一步提高检索的准确度。

Description

一种基于模糊集的文本分析检索方法
技术领域
本发明涉及一种基于模糊集的文本分析检索方法,属于文本检索领域。
背景技术
公司通常涉及的业务众多,业务产生的文本数量也会越来越多,即使归类后每类的文本数量依然众多。因此当相关人员想要查阅某些文件时,搜索难度高。而根据公司信息化规划以及信息化实施计划,要对信息化需求进行规划符合性审查,即需要通过一些关键词搜索到相关的文本。但目前一般的文本搜索工具只能根据文本的标题进行搜索,而能根据文本内容进行搜索的工具XSearch和everything存在搜索速度慢、搜索不到或是非准确搜索的问题。因此需要一种能根据关键词快速且准确搜索文本内容从而搜索到需要的文本的方法。
发明内容
本发明提供了一种基于模糊集的文本分析检索方法,以用于通过本方法实现文本的检索。
本发明的技术方案是:一种基于模糊集的文本分析检索方法,所述方法步骤如下:
Step1、输入搜索的关键词;其中,搜索的关键词中的第j个关键词记为Sj
Step2、建立文本库W,将文本库W中存入所有需要被检索的文本;其中,文本库W中的第n个文本记为Wn
Step3、文本预处理:采用常用词分词工具Jieba对文本库中的每个文本进行串匹配分词;其中,经过分词处理后的第n个文本中的第i个分词记为Wn_Ai,将第n个文本Wn中所有关键词出现的总次数记为N_Wn
Step4、分词处理:建立停用词表,再将经过Step3处理得到的每个分词中出现的停用词进行删除;接着使用近义词工具包Synonyms合并同义词;
Step5、利用近义词工具判断文本库中每个文本中是否存在与关键词一致的分词:
如果第n个文本中的第i个分词Wn_Ai与搜索的第j个关键词Sj一致,则统计分词Wn_Ai出现的次数,即关键词Sj在文本Wn出现的次数,记为N_WnSj
如果第n个文本Wn中不存在与关键词Sj一致的词,则令关键词Sj在文本Wn出现的次数N_WnSj等于0;
Step6、利用隶属度函数将关键词在文本中出现的次数模糊化为频率,频率为“高”、“中”、“低”三个等级,其计算方法如下:
将关键词Sj在文本Wn出现的次数记为
Figure BDA0002252850890000021
其包括
Figure BDA0002252850890000022
Figure BDA0002252850890000023
其中
Figure BDA0002252850890000024
表示关键词Sj在文本中Wn出现的频率为“低”,
Figure BDA0002252850890000025
表示关键词Sj在文本中Wn出现的频率为“中”,
Figure BDA0002252850890000026
表示关键词Sj在文本中Wn出现的频率为“高”;
Step7、根据频率等级的个数,利用k-means算法对关键词在文本中出现的次数聚成3个类,得到关键词Sj在文本中出现的次数的聚类结果,根据聚类结果选取第一个类的质心为Sjχ1,第二个类的质心为Sjχ2,第三个类的质心为Sjχ3
Step8、关键词Sj在文本中Wn出现的次数N_WnSj符合正态分布,结合质心,确定N_WnSj的隶属度函数表示为式(1):
Figure BDA0002252850890000027
其中,
Figure BDA0002252850890000028
表示关键词Sj在文本Wn中出现次数N_WnSj的等级属于
Figure BDA0002252850890000029
的程度;式(1)可简记为
Figure BDA00022528508900000210
Step9、将第n个文本Wn的决策值Pn用模糊语言进行定义,记为
Figure BDA00022528508900000211
Figure BDA00022528508900000212
根据关键词的权重不同,将关键词的权重集记为R,关键词Sj的权重记为Rj,则关键词的权重集R=(R1,R2,…,Rj);则第n个文本Wn的决策值Pn为式(2):
Figure BDA00022528508900000213
其中,
Figure BDA00022528508900000214
表示文本Wn与搜索的关键词的匹配符合程度为“低”,
Figure BDA00022528508900000215
表示文本Wn与搜索的关键词的匹配符合程度为“中”,
Figure BDA00022528508900000216
表示文本Wn与搜索的关键词的匹配符合程度为“高”;R1+R2+…+Rj=1;
Figure BDA0002252850890000036
表示模糊合成max-min,模糊算子“∧”采用取小运算,“∨”采用取大运算;而文本中关键词出现次数的频率:
Figure BDA0002252850890000031
Step10、文本匹配:由Step9得出第n个文本Wn的决策值
Figure BDA0002252850890000032
所述停用词表包括以下几类:助词、副词、连词、冠词、指示词、特定词。
根据Step10的决策值进行被检索的文本输出:
如果文本Wn的决策值中最大值对应存在
Figure BDA0002252850890000033
则输出该文本;如果文本Wn的决策值中最大值对应的不存在
Figure BDA0002252850890000034
则不输出该文本;或者,
如果文本Wn的决策值中最大值对应的不存在
Figure BDA0002252850890000035
则输出该文本;否则,不输出该文本;
其中,当决策值中存在最大值为两个值相同的情况,则两个值都作为最大值,参与判断。
本发明的有益效果是:本发明通过对文本进行预处理和分词处理,可以有效地释放更多的存储空间,为后续步骤进行快速搜索提供支撑;结合聚类算法对出现的次数进行分析,获得构建隶属度函数的参数,而关键词在文本的频率是高中低三个等级,对应优先级也是高中低,通过取大取小操作避免了将低优先级的判断成高优先级,引起不必要的误判,进一步提高检索的准确度。
附图说明
图1为本发明的流程图。
具体实施方式
实施例1:如图1所示,一种基于模糊集的文本分析检索方法,所述方法步骤如下:
Step1、输入搜索的关键词;其中,搜索的关键词中的第j个关键词记为Sj
Step2、建立文本库W,将文本库W中存入所有需要被检索的文本;其中,文本库W中的第n个文本记为Wn
Step3、文本预处理:采用常用词分词工具Jieba对文本库中的每个文本进行串匹配分词;其中,经过分词处理后的第n个文本中的第i个分词记为Wn_Ai,将第n个文本Wn中所有关键词出现的总次数记为N_Wn
通过该步骤的处理,可以把文本句子中所有的可能是词语的都扫描出来;
Step4、分词处理:建立停用词表,再将经过Step3处理得到的每个分词中出现的停用词进行删除;接着使用近义词工具包Synonyms合并同义词;
进一步,可以设置所述停用词表包括以下几类:助词、副词、连词、冠词、指示词、特定词。
如:
(1)助词:中文本文中的“的”、“地”、“得”,英文文本中的“of”等;
(2)副词:中文本文中的“十分”、“特别”、“非常”等,英文文本中的“really”;
(3)连词:中文本文中的“是”,英文文本中的“am”、“is”、“are”;
(4)冠词:中文本文中的“你”、“我”、“他”、“她”等,英文文本中的“I”、“my”、“you”等;
(5)指示词:中文本文中的“这”、“那”等,英文文本中的“the”、“these”、“those”等;
(6)特定词:与文本无关的词,如“html”、“www”等。
通过Step2的预处理后,还存在大量含义相近的分词,不仅占用了存储空间,而且造成了搜索效率低的问题;本申请中采用首先要建立停用词表,再将经过step1的每个分词中出现的所有停用词都删除,其可以去掉非常多无意义的词(停用词),接着利用近义词工具包Synonyms能搜索近义词和比较语句相似度,且包含的词汇量巨大的特征进行合并同义词处理,处理后可以释放更多的存储空间,为后续步骤进行快速搜索提供支撑;
Step5、利用近义词工具判断文本库中每个文本中是否存在与关键词一致的分词:
如果第n个文本中的第i个分词Wn_Ai与搜索的第j个关键词Sj一致,则统计分词Wn_Ai出现的次数,即关键词Sj在文本Wn出现的次数,记为N_WnSj
如果第n个文本Wn中不存在与关键词Sj一致的词,则令关键词Sj在文本Wn出现的次数N_WnSj等于0;
本发明基于根据关键词在文本中出现的次数作为是否被搜索出的依据,即关键词在某个文本中出现的次数越多说明该文本为需要被搜索出的文本的可能性越大;但次数是具体值,对于哪个大小的次数相应的文本是所需的,并没有判断依据,因此将其进行聚类,判断次数属于某个类的程度;再结合隶属度将关键词在文本中出现的次数的频率划为属于“高”、“中”、“低”的程度,不易遗漏文件;且函数计算简单。因此与其他方式(XSearch和DocFetcher)相比准确率更高且速度更快。
Step6、利用隶属度函数将关键词在文本中出现的次数模糊化为频率,频率为“高”、“中”、“低”三个等级,其计算方法如下:
将关键词Sj在文本Wn出现的次数记为
Figure BDA0002252850890000051
其包括
Figure BDA0002252850890000052
Figure BDA0002252850890000053
其中
Figure BDA0002252850890000054
表示关键词Sj在文本中Wn出现的频率为“低”,
Figure BDA0002252850890000055
表示关键词Sj在文本中Wn出现的频率为“中”,
Figure BDA0002252850890000056
表示关键词Sj在文本中Wn出现的频率为“高”;
Step7、根据频率等级的个数,利用k-means算法对关键词在文本中出现的次数聚成3个类,得到关键词Sj在文本中出现的次数的聚类结果,根据聚类结果选取第一个类的质心为Sjχ1,第二个类的质心为Sjχ2,第三个类的质心为Sjχ3
Step8、关键词Sj在文本中Wn出现的次数N_WnSj符合正态分布,结合质心,确定N_WnSj的隶属度函数表示为式(1):
Figure BDA0002252850890000057
其中,
Figure BDA0002252850890000058
表示关键词Sj在文本Wn中出现次数N_WnSj的等级属于
Figure BDA0002252850890000059
的程度;式(1)可简记为
Figure BDA00022528508900000510
Step9、将第n个文本Wn的决策值Pn用模糊语言进行定义,记为
Figure BDA00022528508900000511
Figure BDA00022528508900000512
根据关键词的权重不同,将关键词的权重集记为R,关键词Sj的权重记为Rj,则关键词的权重集R=(R1,R2,…,Rj);则第n个文本Wn的决策值Pn为式(2):
Figure BDA0002252850890000061
其中,
Figure BDA0002252850890000062
表示文本Wn与搜索的关键词的匹配符合程度为“低”,
Figure BDA0002252850890000063
表示文本Wn与搜索的关键词的匹配符合程度为“中”,
Figure BDA0002252850890000064
表示文本Wn与搜索的关键词的匹配符合程度为“高”;R1+R2+…+Rj=1;
Figure BDA00022528508900000610
表示模糊合成max-min,模糊算子“∧”采用取小运算,“∨”采用取大运算;而文本中关键词出现次数的频率:
Figure BDA0002252850890000065
Step10、文本匹配:由Step9得出第n个文本Wn的决策值
Figure BDA0002252850890000066
进一步地,可以设置根据Step10的决策值进行被检索的文本输出:
如果文本Wn的决策值中最大值对应存在
Figure BDA0002252850890000067
则输出该文本;如果文本Wn的决策值中最大值对应的不存在
Figure BDA0002252850890000068
则不输出该文本;或者,
如果文本Wn的决策值中最大值对应的不存在
Figure BDA0002252850890000069
则输出该文本;否则,不输出该文本;
其中,当决策值中存在最大值为两个值相同的情况,则两个值都作为最大值,参与判断。
设定“决策值中存在最大值为两个值相同的情况,则两个值都作为最大值,参与判断”可以综合权衡权重的影响和文本中关键词出现的次数的影响。
进一步地,对本申请中的步骤作出如下实例说明:
假设需要被搜索的文本有W1、W2和W3。搜索的关键词为:“耗时环节”、“用户活跃度”、“活跃状态”。“耗时环节”对应的权重为0.5;“用户活跃度”对应的权重为0.4;“活跃状态”对应的权重为0.1。文本W1中的内容为“最最耗时的环节用户的活跃度安全生产非常活跃的状态最最耗时的环节最最耗时的环节非常活跃的状态……”,文本W2中的内容为“出现的次数最耗时的环节用户的活跃度用户的活跃度最耗时的环节最耗时的环节……”,文本W3中的内容为“耗时间的环节用户的活跃度安全的生产方式耗时间的环节耗时间的环节……”。
根据建立的文本库W,将所有需要被搜索的文本存入文本库W中。使用分词工具Jieba对文本W1、W2和W3进行分词后的结果为:文本W1的分词:“最耗时的环节”、“用户的活跃度”、“安全生产”、“非常活跃的状态”;文本W2的分词:“出现的次数”、“最耗时的环节”、“用户的活跃度”;文本W3的分词:“耗时间的环节”、“用户的活跃度”、“安全的生产方式”。
根据分词处理后的结果为:文本W1的分词:“耗时环节”、“用户活跃度”、“安全生产”、“活跃状态”;文本W2的分词:“出现次数”、“耗时环节”、“高工艺”;文本W3的分词:“耗时环节”、“用户活跃度”、“安全生产”。将文本W1的分词分别记为:“耗时环节”为W1_A1,“用户活跃度”为W1_A2、“安全生产”为W1_A3、“活跃状态”为W1_A4;文本W2的分词分别记为:“出现次数”为W2_A1、“耗时环节”为W2_A2、“用户活跃度”为W2_A3;文本W3的分词分别记为:“耗时间的环节”为W3_A1、“用户的活跃度”为W3_A2、“安全的生产方式”为W3_A3
将搜索的关键词“耗时环节”记为S1、“用户活跃度”记为S2、“活跃状态”记为S3。根据近义词工具得到文本W1中的第1个分词W1_A1与搜索的第1个关键词S1一致,统计得到分词W1_A1出现的次数N_W1S1=80;文本W1中的第2个分词W1_A2与搜索的第2个关键词S2一致,统计得到分词W1_A2出现的次数N_W1S2=110;文本W1中的第4个分词W1_A4与搜索的第3个关键词S3一致,统计得到分词W1_A4出现的次数N_W1S3=50。文本W2中的第2个分词W2_A2与搜索的第1个关键词S1一致,统计得到分词W2_A2出现的次数N_W2S1=50;文本W2中不存在与搜索的第2个关键词S2一致的词,令关键词S2在文本W2出现的次数N_W2S2=0;文本W2中不存在与搜索的第3个关键词S3一致的词,令关键词S3在文本W2出现的次数N_W2S3=0。文本W3中的第1个分词W3_A1与搜索的第1个关键词S1一致,统计得到分词W3_A1出现的次数N_W3S1=240;文本W3中的第2个分词W3_A2与搜索的第2个关键词S2一致,统计得到分词W3_A2出现的次数N_W3S2=100;文本W3中不存在与搜索的第3个关键词S3一致的词,令关键词S3在文本W3出现的次数N_W3S3=0。根据k-means算法得到关键词S1在文本中出现的次数的聚类结果:S1χ1=0,S1χ2=50,S1χ3=100;关键词S2在文本中出现的次数的聚类结果:S2χ1=0,S2χ2=40,S2χ3=80;关键词S3在文本中出现的次数的聚类结果:S3χ1=0,S3χ2=100,S3χ3=200。
在文本W1中,S1χ1=0,S1χ2=50,S1χ3=100,因此N_W1S1的隶属度函数:
Figure BDA0002252850890000081
N_W1S2的隶属度函数:
Figure BDA0002252850890000082
同理可得:N_W1S3的隶属度函数:
Figure BDA0002252850890000083
在文本W2中,S2χ1=0,S2χ2=40,S2χ3=80。同理可得:N_W2S1的隶属度函数:
Figure BDA0002252850890000084
N_W2S2的隶属度函数:
Figure BDA0002252850890000085
N_W2S3的隶属度函数:
Figure BDA0002252850890000086
在文本W3中,S3χ1=0,S3χ2=100,S3χ3=200。同理可得:N_W3S1的隶属度函数:
Figure BDA0002252850890000091
N_W3S2的隶属度函数:
Figure BDA0002252850890000092
N_W3S3的隶属度函数:
Figure BDA0002252850890000093
关键词S1对应的权重为0.5,即R1=0.5;“用户活跃度”对应的权重为0.4,即R2=0.4;“活跃状态”对应的权重为0.1,即R3=0.1。则关键词的权重集R=(0.5,0.4,0.1)。
第1个文本W1的决策值P1为:
Figure BDA0002252850890000094
第2个文本W2的决策值P2为:
Figure BDA0002252850890000095
第3个文本W3的决策值P3
Figure BDA0002252850890000096
文本信息系统M=<W,S,V,P>。其中,W为文本库,包括文本W1、W2和W3;S为搜索的关键词,包括文本W1、W2和W3;V为文本中关键词出现次数的频率;P为决策值,将第n个文本Wn的决策值记为Pn
文本信息系统用决策表表示如表2:
Figure BDA0002252850890000101
采用“如果文本Wn的决策值中最大值对应存在
Figure BDA0002252850890000102
则输出该文本;如果文本Wn的决策值中最大值对应的不存在
Figure BDA0002252850890000103
则不输出该文本;”,得出:
根据得出的文本W1的决策值P1为(0 0.24 0.5),其中最大值0.5对应的是
Figure BDA00022528508900001011
则输出文本W1;文本W2的决策值P1为(0.4 0.5 0.19),其中最大值0.5对应的是
Figure BDA00022528508900001012
则不输出文本W2;文本W3的决策值P1为(0.1 0.4 0.5),其中最大值0.5对应的是
Figure BDA00022528508900001013
则输出文本W3
采用“如果文本Wn的决策值中最大值对应的不存在
Figure BDA0002252850890000104
则输出该文本;否则,不输出该文本;”,得出:
根据得出的文本W1的决策值P1为(0 0.24 0.5),其中最大值0.5对应的是
Figure BDA0002252850890000105
(不存在
Figure BDA0002252850890000106
则输出文本W1;文本W2的决策值P1为(0.4 0.5 0.19),其中最大值0.5对应的是
Figure BDA0002252850890000107
(不存在
Figure BDA0002252850890000108
),则输出文本W2;文本W3的决策值P1为(0.1 0.4 0.5),其中最大值0.5对应的是
Figure BDA0002252850890000109
(不存在
Figure BDA00022528508900001010
),则输出文本W3
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (3)

1.一种基于模糊集的文本分析检索方法,其特征在于:所述方法步骤如下:
Step1、输入搜索的关键词;其中,搜索的关键词中的第j个关键词记为Sj
Step2、建立文本库W,将文本库W中存入所有需要被检索的文本;其中,文本库W中的第n个文本记为Wn
Step3、文本预处理:采用常用词分词工具Jieba对文本库中的每个文本进行串匹配分词;其中,经过分词处理后的第n个文本中的第i个分词记为Wn_Ai,将第n个文本Wn中所有关键词出现的总次数记为N_Wn
Step4、分词处理:建立停用词表,再将经过Step3处理得到的每个分词中出现的停用词进行删除;接着使用近义词工具包Synonyms合并同义词;
Step5、利用近义词工具判断文本库中每个文本中是否存在与关键词一致的分词:
如果第n个文本中的第i个分词Wn_Ai与搜索的第j个关键词Sj一致,则统计分词Wn_Ai出现的次数,即关键词Sj在文本Wn出现的次数,记为N_WnSj
如果第n个文本Wn中不存在与关键词Sj一致的词,则令关键词Sj在文本Wn出现的次数N_WnSj等于0;
Step6、利用隶属度函数将关键词在文本中出现的次数模糊化为频率,频率为“高”、“中”、“低”三个等级,其计算方法如下:
将关键词Sj在文本Wn出现的次数记为
Figure FDA0002252850880000011
其包括
Figure FDA0002252850880000012
Figure FDA0002252850880000013
其中
Figure FDA0002252850880000014
表示关键词Sj在文本中Wn出现的频率为“低”,
Figure FDA0002252850880000015
表示关键词Sj在文本中Wn出现的频率为“中”,
Figure FDA0002252850880000016
表示关键词Sj在文本中Wn出现的频率为“高”;
Step7、根据频率等级的个数,利用k-means算法对关键词在文本中出现的次数聚成3个类,得到关键词Sj在文本中出现的次数的聚类结果,根据聚类结果选取第一个类的质心为Sjχ1,第二个类的质心为Sjχ2,第三个类的质心为Sjχ3
Step8、关键词Sj在文本中Wn出现的次数N_WnSj符合正态分布,结合质心,确定N_WnSj的隶属度函数表示为式(1):
Figure FDA0002252850880000021
其中,
Figure FDA0002252850880000022
表示关键词Sj在文本Wn中出现次数N_WnSj的等级属于
Figure FDA0002252850880000023
的程度;式(1)可简记为
Figure FDA0002252850880000024
Step9、将第n个文本Wn的决策值Pn用模糊语言进行定义,记为
Figure FDA0002252850880000025
Figure FDA0002252850880000026
根据关键词的权重不同,将关键词的权重集记为R,关键词Sj的权重记为Rj,则关键词的权重集R=(R1,R2,…,Rj);则第n个文本Wn的决策值Pn为式(2):
Figure FDA0002252850880000027
其中,
Figure FDA0002252850880000028
表示文本Wn与搜索的关键词的匹配符合程度为“低”,
Figure FDA0002252850880000029
表示文本Wn与搜索的关键词的匹配符合程度为“中”,
Figure FDA00022528508800000210
表示文本Wn与搜索的关键词的匹配符合程度为“高”;R1+R2+…+Rj=1;
Figure FDA00022528508800000211
表示模糊合成max-min,模糊算子“∧”采用取小运算,“∨”采用取大运算;而文本中关键词出现次数的频率:
Figure FDA00022528508800000212
Step10、文本匹配:由Step9得出第n个文本Wn的决策值
Figure FDA00022528508800000213
2.根据权利要求1所述的基于模糊集的文本分析检索方法,其特征在于:所述停用词表包括以下几类:助词、副词、连词、冠词、指示词、特定词。
3.根据权利要求1所述的基于模糊集的文本分析检索方法,其特征在于:根据Step10的决策值进行被检索的文本输出:
如果文本Wn的决策值中最大值对应存在
Figure FDA0002252850880000031
则输出该文本;如果文本Wn的决策值中最大值对应的不存在
Figure FDA0002252850880000032
则不输出该文本;或者,
如果文本Wn的决策值中最大值对应的不存在
Figure FDA0002252850880000033
则输出该文本;否则,不输出该文本;
其中,当决策值中存在最大值为两个值相同的情况,则两个值都作为最大值,参与判断。
CN201911041146.XA 2019-10-30 2019-10-30 一种基于模糊集的文本分析检索方法 Active CN110807099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911041146.XA CN110807099B (zh) 2019-10-30 2019-10-30 一种基于模糊集的文本分析检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911041146.XA CN110807099B (zh) 2019-10-30 2019-10-30 一种基于模糊集的文本分析检索方法

Publications (2)

Publication Number Publication Date
CN110807099A CN110807099A (zh) 2020-02-18
CN110807099B true CN110807099B (zh) 2022-05-17

Family

ID=69489578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911041146.XA Active CN110807099B (zh) 2019-10-30 2019-10-30 一种基于模糊集的文本分析检索方法

Country Status (1)

Country Link
CN (1) CN110807099B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651596A (zh) * 2020-05-27 2020-09-11 软通动力信息技术有限公司 一种文本聚类的方法、装置、服务器及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354872A (zh) * 2016-09-18 2017-01-25 广州视源电子科技股份有限公司 文本聚类的方法及系统
CN106897356A (zh) * 2017-01-03 2017-06-27 四川用联信息技术有限公司 改进的模糊c‑均值算法实现搜索引擎关键词优化
CN106934005A (zh) * 2017-03-07 2017-07-07 重庆邮电大学 一种基于密度的文本聚类方法
CN107122352A (zh) * 2017-05-18 2017-09-01 成都四方伟业软件股份有限公司 一种基于k‑means、word2vec的抽取关键词的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090119281A1 (en) * 2007-11-03 2009-05-07 Andrew Chien-Chung Wang Granular knowledge based search engine
US20180025303A1 (en) * 2016-07-20 2018-01-25 Plenarium Inc. System and method for computerized predictive performance analysis of natural language

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354872A (zh) * 2016-09-18 2017-01-25 广州视源电子科技股份有限公司 文本聚类的方法及系统
CN106897356A (zh) * 2017-01-03 2017-06-27 四川用联信息技术有限公司 改进的模糊c‑均值算法实现搜索引擎关键词优化
CN106934005A (zh) * 2017-03-07 2017-07-07 重庆邮电大学 一种基于密度的文本聚类方法
CN107122352A (zh) * 2017-05-18 2017-09-01 成都四方伟业软件股份有限公司 一种基于k‑means、word2vec的抽取关键词的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Efficiency of unstructured text search improving methods in the electronic archive of computer-aided design systems;A. Y. Alikov 等;《2017 International Conference on Industrial Engineering, Applications and Manufacturing (ICIEAM)》;20171023;第1-2页 *
网络舆情模糊C均值并行聚类方法研究;周昭文;《情报探索》;20180515(第5期);第33-37页 *

Also Published As

Publication number Publication date
CN110807099A (zh) 2020-02-18

Similar Documents

Publication Publication Date Title
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
US8983963B2 (en) Techniques for comparing and clustering documents
WO2021139262A1 (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
WO2019091026A1 (zh) 知识库文档快速检索方法、应用服务器及计算机可读存储介质
US20030101181A1 (en) Systems, Methods, and software for classifying text from judicial opinions and other documents
CN109670014B (zh) 一种基于规则匹配和机器学习的论文作者名消歧方法
US10049148B1 (en) Enhanced text clustering based on topic clusters
US20110295857A1 (en) System and method for aligning and indexing multilingual documents
CN111753048B (zh) 文档检索方法、装置、设备及存储介质
JP2016532173A (ja) 意味情報、キーワード拡張及びそれに関するキーワード検索の方法及びシステム
CA2789010C (en) Propagating classification decisions
US8380731B2 (en) Methods and apparatus using sets of semantically similar words for text classification
US7836059B2 (en) System and method for minimally predictive feature identification
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
Basmatkar et al. An overview of contextual topic modeling using bidirectional encoder representations from transformers
CN110807099B (zh) 一种基于模糊集的文本分析检索方法
Murthy et al. A comparative study on term weighting methods for automated telugu text categorization with effective classifiers
Ruambo et al. Towards enhancing information retrieval systems: A brief survey of strategies and challenges
Guadie et al. Amharic text summarization for news items posted on social media
Miotto et al. Supporting the Curation of Biological Databases Reusable Text Mining
Amin et al. Algorithm for bengali keyword extraction
Ebrahimi Rashed et al. A supervised method for constructing sentiment lexicon in persian language
Hirsch et al. Evolving rules for document classification
CN114116956A (zh) 检索方法和装置
Don et al. Feature selection for automatic categorization of patent documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant