CN110807099B - 一种基于模糊集的文本分析检索方法 - Google Patents
一种基于模糊集的文本分析检索方法 Download PDFInfo
- Publication number
- CN110807099B CN110807099B CN201911041146.XA CN201911041146A CN110807099B CN 110807099 B CN110807099 B CN 110807099B CN 201911041146 A CN201911041146 A CN 201911041146A CN 110807099 B CN110807099 B CN 110807099B
- Authority
- CN
- China
- Prior art keywords
- text
- keyword
- keywords
- occurrences
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000004458 analytical method Methods 0.000 title claims abstract description 10
- 230000011218 segmentation Effects 0.000 claims abstract description 39
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 230000009849 deactivation Effects 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于模糊集的文本分析检索方法,属于文本检索领域。本发明通过对文本进行预处理和分词处理,可以有效地释放更多的存储空间,为后续步骤进行快速搜索提供支撑;结合聚类算法对出现的次数进行分析,获得构建隶属度函数的参数,而关键词在文本的频率是高中低三个等级,对应优先级也是高中低,通过取大取小操作避免了将低优先级的判断成高优先级,引起不必要的误判,进一步提高检索的准确度。
Description
技术领域
本发明涉及一种基于模糊集的文本分析检索方法,属于文本检索领域。
背景技术
公司通常涉及的业务众多,业务产生的文本数量也会越来越多,即使归类后每类的文本数量依然众多。因此当相关人员想要查阅某些文件时,搜索难度高。而根据公司信息化规划以及信息化实施计划,要对信息化需求进行规划符合性审查,即需要通过一些关键词搜索到相关的文本。但目前一般的文本搜索工具只能根据文本的标题进行搜索,而能根据文本内容进行搜索的工具XSearch和everything存在搜索速度慢、搜索不到或是非准确搜索的问题。因此需要一种能根据关键词快速且准确搜索文本内容从而搜索到需要的文本的方法。
发明内容
本发明提供了一种基于模糊集的文本分析检索方法,以用于通过本方法实现文本的检索。
本发明的技术方案是:一种基于模糊集的文本分析检索方法,所述方法步骤如下:
Step1、输入搜索的关键词;其中,搜索的关键词中的第j个关键词记为Sj;
Step2、建立文本库W,将文本库W中存入所有需要被检索的文本;其中,文本库W中的第n个文本记为Wn;
Step3、文本预处理:采用常用词分词工具Jieba对文本库中的每个文本进行串匹配分词;其中,经过分词处理后的第n个文本中的第i个分词记为Wn_Ai,将第n个文本Wn中所有关键词出现的总次数记为N_Wn;
Step4、分词处理:建立停用词表,再将经过Step3处理得到的每个分词中出现的停用词进行删除;接着使用近义词工具包Synonyms合并同义词;
Step5、利用近义词工具判断文本库中每个文本中是否存在与关键词一致的分词:
如果第n个文本中的第i个分词Wn_Ai与搜索的第j个关键词Sj一致,则统计分词Wn_Ai出现的次数,即关键词Sj在文本Wn出现的次数,记为N_WnSj;
如果第n个文本Wn中不存在与关键词Sj一致的词,则令关键词Sj在文本Wn出现的次数N_WnSj等于0;
Step6、利用隶属度函数将关键词在文本中出现的次数模糊化为频率,频率为“高”、“中”、“低”三个等级,其计算方法如下:
Step7、根据频率等级的个数,利用k-means算法对关键词在文本中出现的次数聚成3个类,得到关键词Sj在文本中出现的次数的聚类结果,根据聚类结果选取第一个类的质心为Sjχ1,第二个类的质心为Sjχ2,第三个类的质心为Sjχ3;
Step8、关键词Sj在文本中Wn出现的次数N_WnSj符合正态分布,结合质心,确定N_WnSj的隶属度函数表示为式(1):
Step9、将第n个文本Wn的决策值Pn用模糊语言进行定义,记为 根据关键词的权重不同,将关键词的权重集记为R,关键词Sj的权重记为Rj,则关键词的权重集R=(R1,R2,…,Rj);则第n个文本Wn的决策值Pn为式(2):
其中,表示文本Wn与搜索的关键词的匹配符合程度为“低”,表示文本Wn与搜索的关键词的匹配符合程度为“中”,表示文本Wn与搜索的关键词的匹配符合程度为“高”;R1+R2+…+Rj=1;表示模糊合成max-min,模糊算子“∧”采用取小运算,“∨”采用取大运算;而文本中关键词出现次数的频率:
所述停用词表包括以下几类:助词、副词、连词、冠词、指示词、特定词。
根据Step10的决策值进行被检索的文本输出:
其中,当决策值中存在最大值为两个值相同的情况,则两个值都作为最大值,参与判断。
本发明的有益效果是:本发明通过对文本进行预处理和分词处理,可以有效地释放更多的存储空间,为后续步骤进行快速搜索提供支撑;结合聚类算法对出现的次数进行分析,获得构建隶属度函数的参数,而关键词在文本的频率是高中低三个等级,对应优先级也是高中低,通过取大取小操作避免了将低优先级的判断成高优先级,引起不必要的误判,进一步提高检索的准确度。
附图说明
图1为本发明的流程图。
具体实施方式
实施例1:如图1所示,一种基于模糊集的文本分析检索方法,所述方法步骤如下:
Step1、输入搜索的关键词;其中,搜索的关键词中的第j个关键词记为Sj;
Step2、建立文本库W,将文本库W中存入所有需要被检索的文本;其中,文本库W中的第n个文本记为Wn;
Step3、文本预处理:采用常用词分词工具Jieba对文本库中的每个文本进行串匹配分词;其中,经过分词处理后的第n个文本中的第i个分词记为Wn_Ai,将第n个文本Wn中所有关键词出现的总次数记为N_Wn;
通过该步骤的处理,可以把文本句子中所有的可能是词语的都扫描出来;
Step4、分词处理:建立停用词表,再将经过Step3处理得到的每个分词中出现的停用词进行删除;接着使用近义词工具包Synonyms合并同义词;
进一步,可以设置所述停用词表包括以下几类:助词、副词、连词、冠词、指示词、特定词。
如:
(1)助词:中文本文中的“的”、“地”、“得”,英文文本中的“of”等;
(2)副词:中文本文中的“十分”、“特别”、“非常”等,英文文本中的“really”;
(3)连词:中文本文中的“是”,英文文本中的“am”、“is”、“are”;
(4)冠词:中文本文中的“你”、“我”、“他”、“她”等,英文文本中的“I”、“my”、“you”等;
(5)指示词:中文本文中的“这”、“那”等,英文文本中的“the”、“these”、“those”等;
(6)特定词:与文本无关的词,如“html”、“www”等。
通过Step2的预处理后,还存在大量含义相近的分词,不仅占用了存储空间,而且造成了搜索效率低的问题;本申请中采用首先要建立停用词表,再将经过step1的每个分词中出现的所有停用词都删除,其可以去掉非常多无意义的词(停用词),接着利用近义词工具包Synonyms能搜索近义词和比较语句相似度,且包含的词汇量巨大的特征进行合并同义词处理,处理后可以释放更多的存储空间,为后续步骤进行快速搜索提供支撑;
Step5、利用近义词工具判断文本库中每个文本中是否存在与关键词一致的分词:
如果第n个文本中的第i个分词Wn_Ai与搜索的第j个关键词Sj一致,则统计分词Wn_Ai出现的次数,即关键词Sj在文本Wn出现的次数,记为N_WnSj;
如果第n个文本Wn中不存在与关键词Sj一致的词,则令关键词Sj在文本Wn出现的次数N_WnSj等于0;
本发明基于根据关键词在文本中出现的次数作为是否被搜索出的依据,即关键词在某个文本中出现的次数越多说明该文本为需要被搜索出的文本的可能性越大;但次数是具体值,对于哪个大小的次数相应的文本是所需的,并没有判断依据,因此将其进行聚类,判断次数属于某个类的程度;再结合隶属度将关键词在文本中出现的次数的频率划为属于“高”、“中”、“低”的程度,不易遗漏文件;且函数计算简单。因此与其他方式(XSearch和DocFetcher)相比准确率更高且速度更快。
Step6、利用隶属度函数将关键词在文本中出现的次数模糊化为频率,频率为“高”、“中”、“低”三个等级,其计算方法如下:
Step7、根据频率等级的个数,利用k-means算法对关键词在文本中出现的次数聚成3个类,得到关键词Sj在文本中出现的次数的聚类结果,根据聚类结果选取第一个类的质心为Sjχ1,第二个类的质心为Sjχ2,第三个类的质心为Sjχ3;
Step8、关键词Sj在文本中Wn出现的次数N_WnSj符合正态分布,结合质心,确定N_WnSj的隶属度函数表示为式(1):
Step9、将第n个文本Wn的决策值Pn用模糊语言进行定义,记为 根据关键词的权重不同,将关键词的权重集记为R,关键词Sj的权重记为Rj,则关键词的权重集R=(R1,R2,…,Rj);则第n个文本Wn的决策值Pn为式(2):
其中,表示文本Wn与搜索的关键词的匹配符合程度为“低”,表示文本Wn与搜索的关键词的匹配符合程度为“中”,表示文本Wn与搜索的关键词的匹配符合程度为“高”;R1+R2+…+Rj=1;表示模糊合成max-min,模糊算子“∧”采用取小运算,“∨”采用取大运算;而文本中关键词出现次数的频率:
进一步地,可以设置根据Step10的决策值进行被检索的文本输出:
其中,当决策值中存在最大值为两个值相同的情况,则两个值都作为最大值,参与判断。
设定“决策值中存在最大值为两个值相同的情况,则两个值都作为最大值,参与判断”可以综合权衡权重的影响和文本中关键词出现的次数的影响。
进一步地,对本申请中的步骤作出如下实例说明:
假设需要被搜索的文本有W1、W2和W3。搜索的关键词为:“耗时环节”、“用户活跃度”、“活跃状态”。“耗时环节”对应的权重为0.5;“用户活跃度”对应的权重为0.4;“活跃状态”对应的权重为0.1。文本W1中的内容为“最最耗时的环节用户的活跃度安全生产非常活跃的状态最最耗时的环节最最耗时的环节非常活跃的状态……”,文本W2中的内容为“出现的次数最耗时的环节用户的活跃度用户的活跃度最耗时的环节最耗时的环节……”,文本W3中的内容为“耗时间的环节用户的活跃度安全的生产方式耗时间的环节耗时间的环节……”。
根据建立的文本库W,将所有需要被搜索的文本存入文本库W中。使用分词工具Jieba对文本W1、W2和W3进行分词后的结果为:文本W1的分词:“最耗时的环节”、“用户的活跃度”、“安全生产”、“非常活跃的状态”;文本W2的分词:“出现的次数”、“最耗时的环节”、“用户的活跃度”;文本W3的分词:“耗时间的环节”、“用户的活跃度”、“安全的生产方式”。
根据分词处理后的结果为:文本W1的分词:“耗时环节”、“用户活跃度”、“安全生产”、“活跃状态”;文本W2的分词:“出现次数”、“耗时环节”、“高工艺”;文本W3的分词:“耗时环节”、“用户活跃度”、“安全生产”。将文本W1的分词分别记为:“耗时环节”为W1_A1,“用户活跃度”为W1_A2、“安全生产”为W1_A3、“活跃状态”为W1_A4;文本W2的分词分别记为:“出现次数”为W2_A1、“耗时环节”为W2_A2、“用户活跃度”为W2_A3;文本W3的分词分别记为:“耗时间的环节”为W3_A1、“用户的活跃度”为W3_A2、“安全的生产方式”为W3_A3。
将搜索的关键词“耗时环节”记为S1、“用户活跃度”记为S2、“活跃状态”记为S3。根据近义词工具得到文本W1中的第1个分词W1_A1与搜索的第1个关键词S1一致,统计得到分词W1_A1出现的次数N_W1S1=80;文本W1中的第2个分词W1_A2与搜索的第2个关键词S2一致,统计得到分词W1_A2出现的次数N_W1S2=110;文本W1中的第4个分词W1_A4与搜索的第3个关键词S3一致,统计得到分词W1_A4出现的次数N_W1S3=50。文本W2中的第2个分词W2_A2与搜索的第1个关键词S1一致,统计得到分词W2_A2出现的次数N_W2S1=50;文本W2中不存在与搜索的第2个关键词S2一致的词,令关键词S2在文本W2出现的次数N_W2S2=0;文本W2中不存在与搜索的第3个关键词S3一致的词,令关键词S3在文本W2出现的次数N_W2S3=0。文本W3中的第1个分词W3_A1与搜索的第1个关键词S1一致,统计得到分词W3_A1出现的次数N_W3S1=240;文本W3中的第2个分词W3_A2与搜索的第2个关键词S2一致,统计得到分词W3_A2出现的次数N_W3S2=100;文本W3中不存在与搜索的第3个关键词S3一致的词,令关键词S3在文本W3出现的次数N_W3S3=0。根据k-means算法得到关键词S1在文本中出现的次数的聚类结果:S1χ1=0,S1χ2=50,S1χ3=100;关键词S2在文本中出现的次数的聚类结果:S2χ1=0,S2χ2=40,S2χ3=80;关键词S3在文本中出现的次数的聚类结果:S3χ1=0,S3χ2=100,S3χ3=200。
在文本W1中,S1χ1=0,S1χ2=50,S1χ3=100,因此N_W1S1的隶属度函数:
N_W1S2的隶属度函数:
关键词S1对应的权重为0.5,即R1=0.5;“用户活跃度”对应的权重为0.4,即R2=0.4;“活跃状态”对应的权重为0.1,即R3=0.1。则关键词的权重集R=(0.5,0.4,0.1)。
第1个文本W1的决策值P1为:
第2个文本W2的决策值P2为:
第3个文本W3的决策值P3为
文本信息系统M=<W,S,V,P>。其中,W为文本库,包括文本W1、W2和W3;S为搜索的关键词,包括文本W1、W2和W3;V为文本中关键词出现次数的频率;P为决策值,将第n个文本Wn的决策值记为Pn。
文本信息系统用决策表表示如表2:
根据得出的文本W1的决策值P1为(0 0.24 0.5),其中最大值0.5对应的是则输出文本W1;文本W2的决策值P1为(0.4 0.5 0.19),其中最大值0.5对应的是则不输出文本W2;文本W3的决策值P1为(0.1 0.4 0.5),其中最大值0.5对应的是则输出文本W3。
根据得出的文本W1的决策值P1为(0 0.24 0.5),其中最大值0.5对应的是(不存在则输出文本W1;文本W2的决策值P1为(0.4 0.5 0.19),其中最大值0.5对应的是(不存在),则输出文本W2;文本W3的决策值P1为(0.1 0.4 0.5),其中最大值0.5对应的是(不存在),则输出文本W3。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (3)
1.一种基于模糊集的文本分析检索方法,其特征在于:所述方法步骤如下:
Step1、输入搜索的关键词;其中,搜索的关键词中的第j个关键词记为Sj;
Step2、建立文本库W,将文本库W中存入所有需要被检索的文本;其中,文本库W中的第n个文本记为Wn;
Step3、文本预处理:采用常用词分词工具Jieba对文本库中的每个文本进行串匹配分词;其中,经过分词处理后的第n个文本中的第i个分词记为Wn_Ai,将第n个文本Wn中所有关键词出现的总次数记为N_Wn;
Step4、分词处理:建立停用词表,再将经过Step3处理得到的每个分词中出现的停用词进行删除;接着使用近义词工具包Synonyms合并同义词;
Step5、利用近义词工具判断文本库中每个文本中是否存在与关键词一致的分词:
如果第n个文本中的第i个分词Wn_Ai与搜索的第j个关键词Sj一致,则统计分词Wn_Ai出现的次数,即关键词Sj在文本Wn出现的次数,记为N_WnSj;
如果第n个文本Wn中不存在与关键词Sj一致的词,则令关键词Sj在文本Wn出现的次数N_WnSj等于0;
Step6、利用隶属度函数将关键词在文本中出现的次数模糊化为频率,频率为“高”、“中”、“低”三个等级,其计算方法如下:
Step7、根据频率等级的个数,利用k-means算法对关键词在文本中出现的次数聚成3个类,得到关键词Sj在文本中出现的次数的聚类结果,根据聚类结果选取第一个类的质心为Sjχ1,第二个类的质心为Sjχ2,第三个类的质心为Sjχ3;
Step8、关键词Sj在文本中Wn出现的次数N_WnSj符合正态分布,结合质心,确定N_WnSj的隶属度函数表示为式(1):
Step9、将第n个文本Wn的决策值Pn用模糊语言进行定义,记为 根据关键词的权重不同,将关键词的权重集记为R,关键词Sj的权重记为Rj,则关键词的权重集R=(R1,R2,…,Rj);则第n个文本Wn的决策值Pn为式(2):
其中,表示文本Wn与搜索的关键词的匹配符合程度为“低”,表示文本Wn与搜索的关键词的匹配符合程度为“中”,表示文本Wn与搜索的关键词的匹配符合程度为“高”;R1+R2+…+Rj=1;表示模糊合成max-min,模糊算子“∧”采用取小运算,“∨”采用取大运算;而文本中关键词出现次数的频率:
2.根据权利要求1所述的基于模糊集的文本分析检索方法,其特征在于:所述停用词表包括以下几类:助词、副词、连词、冠词、指示词、特定词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911041146.XA CN110807099B (zh) | 2019-10-30 | 2019-10-30 | 一种基于模糊集的文本分析检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911041146.XA CN110807099B (zh) | 2019-10-30 | 2019-10-30 | 一种基于模糊集的文本分析检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110807099A CN110807099A (zh) | 2020-02-18 |
CN110807099B true CN110807099B (zh) | 2022-05-17 |
Family
ID=69489578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911041146.XA Active CN110807099B (zh) | 2019-10-30 | 2019-10-30 | 一种基于模糊集的文本分析检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110807099B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111651596A (zh) * | 2020-05-27 | 2020-09-11 | 软通动力信息技术有限公司 | 一种文本聚类的方法、装置、服务器及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106354872A (zh) * | 2016-09-18 | 2017-01-25 | 广州视源电子科技股份有限公司 | 文本聚类的方法及系统 |
CN106897356A (zh) * | 2017-01-03 | 2017-06-27 | 四川用联信息技术有限公司 | 改进的模糊c‑均值算法实现搜索引擎关键词优化 |
CN106934005A (zh) * | 2017-03-07 | 2017-07-07 | 重庆邮电大学 | 一种基于密度的文本聚类方法 |
CN107122352A (zh) * | 2017-05-18 | 2017-09-01 | 成都四方伟业软件股份有限公司 | 一种基于k‑means、word2vec的抽取关键词的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090119281A1 (en) * | 2007-11-03 | 2009-05-07 | Andrew Chien-Chung Wang | Granular knowledge based search engine |
US20180025303A1 (en) * | 2016-07-20 | 2018-01-25 | Plenarium Inc. | System and method for computerized predictive performance analysis of natural language |
-
2019
- 2019-10-30 CN CN201911041146.XA patent/CN110807099B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106354872A (zh) * | 2016-09-18 | 2017-01-25 | 广州视源电子科技股份有限公司 | 文本聚类的方法及系统 |
CN106897356A (zh) * | 2017-01-03 | 2017-06-27 | 四川用联信息技术有限公司 | 改进的模糊c‑均值算法实现搜索引擎关键词优化 |
CN106934005A (zh) * | 2017-03-07 | 2017-07-07 | 重庆邮电大学 | 一种基于密度的文本聚类方法 |
CN107122352A (zh) * | 2017-05-18 | 2017-09-01 | 成都四方伟业软件股份有限公司 | 一种基于k‑means、word2vec的抽取关键词的方法 |
Non-Patent Citations (2)
Title |
---|
Efficiency of unstructured text search improving methods in the electronic archive of computer-aided design systems;A. Y. Alikov 等;《2017 International Conference on Industrial Engineering, Applications and Manufacturing (ICIEAM)》;20171023;第1-2页 * |
网络舆情模糊C均值并行聚类方法研究;周昭文;《情报探索》;20180515(第5期);第33-37页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110807099A (zh) | 2020-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609121B (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
US8983963B2 (en) | Techniques for comparing and clustering documents | |
WO2021139262A1 (zh) | 文献主题词聚合方法、装置、计算机设备及可读存储介质 | |
WO2019091026A1 (zh) | 知识库文档快速检索方法、应用服务器及计算机可读存储介质 | |
US20030101181A1 (en) | Systems, Methods, and software for classifying text from judicial opinions and other documents | |
CN109670014B (zh) | 一种基于规则匹配和机器学习的论文作者名消歧方法 | |
US10049148B1 (en) | Enhanced text clustering based on topic clusters | |
US20110295857A1 (en) | System and method for aligning and indexing multilingual documents | |
CN111753048B (zh) | 文档检索方法、装置、设备及存储介质 | |
JP2016532173A (ja) | 意味情報、キーワード拡張及びそれに関するキーワード検索の方法及びシステム | |
CA2789010C (en) | Propagating classification decisions | |
US8380731B2 (en) | Methods and apparatus using sets of semantically similar words for text classification | |
US7836059B2 (en) | System and method for minimally predictive feature identification | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
Basmatkar et al. | An overview of contextual topic modeling using bidirectional encoder representations from transformers | |
CN110807099B (zh) | 一种基于模糊集的文本分析检索方法 | |
Murthy et al. | A comparative study on term weighting methods for automated telugu text categorization with effective classifiers | |
Ruambo et al. | Towards enhancing information retrieval systems: A brief survey of strategies and challenges | |
Guadie et al. | Amharic text summarization for news items posted on social media | |
Miotto et al. | Supporting the Curation of Biological Databases Reusable Text Mining | |
Amin et al. | Algorithm for bengali keyword extraction | |
Ebrahimi Rashed et al. | A supervised method for constructing sentiment lexicon in persian language | |
Hirsch et al. | Evolving rules for document classification | |
CN114116956A (zh) | 检索方法和装置 | |
Don et al. | Feature selection for automatic categorization of patent documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |