CN116628201B - 一种文本资料库的智能化分群和推送方法 - Google Patents
一种文本资料库的智能化分群和推送方法 Download PDFInfo
- Publication number
- CN116628201B CN116628201B CN202310564461.0A CN202310564461A CN116628201B CN 116628201 B CN116628201 B CN 116628201B CN 202310564461 A CN202310564461 A CN 202310564461A CN 116628201 B CN116628201 B CN 116628201B
- Authority
- CN
- China
- Prior art keywords
- micro
- group
- keywords
- groups
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012163 sequencing technique Methods 0.000 claims abstract description 7
- 238000010586 diagram Methods 0.000 claims description 54
- 230000002776 aggregation Effects 0.000 claims description 14
- 238000004220 aggregation Methods 0.000 claims description 13
- 238000005192 partition Methods 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000009833 condensation Methods 0.000 claims description 4
- 230000005494 condensation Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010348 incorporation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000005054 agglomeration Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000015271 coagulation Effects 0.000 description 1
- 238000005345 coagulation Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 244000005706 microflora Species 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种文本资料库的智能化分群和推送方法,属于信息检索技术领域,包括以下步骤:步骤S1,初始设定:设定分群数为m、关键词x;从包含关键词x的文本上获取所有关联关键词;步骤S2,对关键词集S是否需要分群的判断;步骤S3,关键词排序:计算各关键词的多样性凝聚值并依此将所有关键词递减排序,记录在关键词集S中;步骤S4,关键词分群;步骤S5,随机选定m个关键词作为核心点并构成m个微群;步骤S6,系统将m个微群的核心点所对应的关键词,推送给用户选择。本方案,分群时,考察了各个微群之间的关联度,优先将关联度高的微群合并,从而使得相同或者相似含义的关键词相互靠拢,避免同义词分到不同的微群中。
Description
技术领域
本发明属于信息检索技术领域,具体涉及一种文本资料库的智能化分群和推送方法。
背景技术
文本资料库的文本需要分类归档,方便查询和匹配。传统的分类方法,是通过专家事先确定分类的类别并进行关键词标注,其结果严谨且具有专业性。但是,人工标注的方式,效率有限,并不适应于当代智能化的发展,另外,分类相对固定,无法与多变的用户需求相匹配,同时,关键词难以分类,存在两个阻碍:一个是一词多义,另一个是同义词。
对于一词多义,同一个词语关键词,在不同的语境下具有不同的含义,应该被分到不同的类别中,但是由于一词多义,导致不同含义的同一个关键词,被分到相同的类别中。
对于同义词,不同的两个关键词彼此之间具有语义相关性,应该被分到相同的类别中,但是由于同义词为两个词汇,反而被分到不同的类别中。
申请号为201610772919.1的中国发明专利公开了一种资料集的同义词识别方法,其对资料集中的每份文本提取关键词之后,先计算出资料集中每个关键词与该关键词所对应的同生词之间的同生值,以及确定出每个关键词的高值词群,其中,所谓的同生值是用来衡量任意两个关键词在同一份资料中出现的概率;然后当通过高值词群的比对发现某两个关键词很可能是同义词之后,若进一步发现这两个关键词并没有出现在同一份资料中,则将这两个关键词识别成同义词。然而,该方法对于每个关键词都计算出其高值词群,两个关键词之间的两两相似度在各自的高值词群中均单独计算了一遍,计算开销较大。
发明内容
鉴于上述现有技术的现状和不足之处,本发明的目的在于提供一种文本资料库的智能化分群和推送方法。
一种文本资料库的智能化分群和推送方法,包括以下步骤:
步骤S1,初始设定:系统或用户设定分群数为m;用户输入或点选的一个关键词x;系统从包含关键词x的文本上获取所有关联关键词,并计算关键词x和关联关键词之间的关联度;将关联关键词根据关联度降序排列并存入关键词集S中;
步骤S2,对关键词集S是否需要分群的判断:对于关键词集S,判断关键词数量n是否大于2*m:如果n>2*m,则转入步骤S3,对关键词集S中的关键词进行关键词排序和关键词分群,并将结果存入关键词集S;否则,转入步骤S5,直接指派微量关键词到已有微群;
步骤S3,关键词排序:计算各关键词的多样性凝聚值并依此将所有关键词递减排序,记录在关键词集S中;
步骤S4,关键词分群,包括:
步骤S401,产生微群:判别关键词为核心点或边界点:依序从关键词集S中取出一个关键词,若取出的关键词无法与当前微群内的任一关键词为邻居,则该取出的关键词成为新的核心点,并记录于核心点序列,否则为边界点,并记录于边界点序列;
步骤S402,微群合并前处理:如果两微群存在1对1配对关系,则将其合并;
步骤S403,微群合并:根据微群与微群之间的边界点数量和支持度,进行微群合并至所设定的分群数;然后转至步骤S6;
步骤S5,随机选定m个关键词作为核心点并构成m个微群,每个微群只有一个核心点,剩余的未被选定的关键词为微量关键词,将所有微量关键词均并入到m个微群中,因此每个微群都获得了所有微量关键词,且微量关键词为边界点;
步骤S6,系统将m个微群的核心点所对应的关键词,推送给用户选择;将用户选择的关键词所在微群的边界点所对应的关键词,组成关键词集S,并转到步骤S2,直到用户选择关键词所在的微群的边界点数量少于或等于分群数m,则结束流程。
进一步,步骤S1中,关键词x与关联关键词的关联度,等于两者共同出现文本数除以两者出现文本交集数。
进一步,步骤S3中,多样性凝聚值,为乘上多样性权重的凝聚值;凝聚值,为扣除目标点之后,加总目标点的邻居各自的邻居数量;多样性权重,为目标点第一层邻居和第二层邻居组成的集合的点的总数,除以目标点第一层邻居数加上凝聚值的和;前k近关键词,为前k个语意最近似目标关键词的关键词之一,k是预设的参数,记录于单向k近图;当两个关键词双方互为前k近,则双方互为第一层邻居,简称邻居,记录于双向k近图。
进一步,步骤S401中,计算各微群的关联程度:若微群B的边界点把微群C的核心点视为前k近关键词,则该边界点个数,定义为微群B→微群C的关系键强度;若两个微群的具有至少1个相同的边界点,则这两个微群为强微群关联,并记录在微群关联图与强微群关联图中;若两个微群中,一个微群的边界点未加入到另一个微群,但是该边界点视其未加入微群的核心点为前k近关键词,则这两个微群为弱微群关联,并仅更新在微群关联图中;同时更新目前微群数c,并判断微群数c是否等于分群数m,如果相同则结束流程,否则重复本步骤,直到边界点序列为空。
进一步,步骤S402中,通过强微群关联图找出互相视为前k近微群,若微群A与微群B互相把对方视为前k近微群,且这两微群都没有和其他微群视为前k近微群,则这样的配对微群为1对1配对关系,找出这种1对1配对关系的配对微群,并根据他们的关系键强度递减排序,记录于配对序列;依序将配对序列中的配对的两个微群合并,合并后新的微群包含原本微群内的所有关键词,原大群的核心点为新微群的核心点,更新微群关联图,每次合并均把目前微群数c减1,并判断微群数c是否等于分群数m,如果相同则结束流程,否则重复本步骤,直到配对序列为空时,则结束流程。
进一步,步骤S403中,微群关联图中的矩阵,令X行Y列为微群Y→微群X的关系键强度,则加总微群X每一列的关联键强度后除以该列不为0的个数,得到微群X的支持度;对各微群根据边界点数量递增排序,若关键词数相同则根据支持度递增排序,作为微群合并时的顺序;依序取出一个微群v,通过微群关联图找出微群v视为前k近的微群,并将微群v并入前述找出的微群中,即,把微群v的行加入到前述找出的微群的行,把微群v的列加入到前述找出的微群的列,并更新微群关联图,此时,微群数c减1;若微群v未把任何微群视为前k近微群,称此微群v为离异微群,并暂存至离异微群集中;当微群数c减少至设定分群数m时,再从离异微群集取出离异微群,逐一将离异微群加入近邻的微群中;然后转至步骤S6。
进一步,从离异微群集取出离异微群后,计算离异微群的核心点到各微群核心点的距离的平均值作为门槛;若离异微群的核心点到微群的核心点的距离小于等于门槛,则将该离异微群的核心点合并到该微群中。
1.本方案,分群运用了排序和合并的方式,计算方式简单,满足实时推荐的要求。
2.本方案,关键词排序主要参考了多样性凝聚值,在考虑关键词聚合的同时,还考虑到了关键词邻居的代表性和多样性,而非只考察关键词单一的聚合程度,使得选择出来的核心点更具有代表性。
3.本方案,分群时,先产生较小的微群,然后分析微群之间的关联,从而将微群合并至所需的分群数,分群效果更加精准。
4.本方案,分群时,考察了各个微群之间的关联度,优先将关联度高的微群合并,从而使得相同或者相似含义的关键词相互靠拢,避免同义词分到不同的微群中。
5.本方案,考察了关键词之间的关联度,一词多义的关键词能根据其不用含义,分别与多个关键词相互关联,从而使得该关键词能根据词义重复重现在不同的微群中。
附图说明
图1为本发明的流程图;
图2为多样性凝聚值的案例图;
图3是分群方法的流程图;
图4是产生微群的流程图;
图5是关键词为核心点或者边界点的流程图;
图6是将边界点关键词分入微群并计算各微群的关联程度的流程图;
图7是微群合并前处理的流程图;
图8是微群合并的流程图;
图9是关键词的前k近、邻居和多样性凝聚值的汇总图;
图10是关键词的邻居和前k近的示意图;
图11是关键词的邻居的示意图;
图12是加入点L、A至F后核心点和边界点的示意图;
图13是加入点H、A、G、I后核心点和边界点的示意图;
图14是微群的核心点和边界点的示意图;
图15是视核心点为前k近的其他点的示意图;
图16是微群关联图;
图17是强微群关联图;
图18是微群关联图的更新图;
图19是合并前处理的微群关联图;
图20是微群的排序图;
图21是E并入L和F的微群排序图;
图22是J并入F、P并入L的微群排序图;
图23是微群数合并至3的微群排序图;
图24是微群数合并至3的微群关联图。
具体实施方式
下面结合附图,对本发明作进一步详细说明。
在本方案中,用户通过关键词来检索文本,然后系统根据该关键词,推送3个关联关键词给用户,供用户选择;用户选定推送的某一关键词之后,系统再次推送3个关联关键词给用户,供用户选择,从而逼近用户的检索意图。关键词形成一个树状结构;如图2中的点B形成的树状结构;在此树状结构中,上部的父节点有3个子节点,最底部的父节点至少有一个子节点。每一父节点与其子节点,构成一个微群,同一微群的关键词具有较高的语义相关性。节点越靠近顶部,就越具有较高的语义广度。每一父节点,都是其子节点的代表,表示重要性较高或者语义范围涵盖较广的关键词。同一父节点的子节点,表示该父节点对应关键词语义下的3个不同的语义分群。在树状结构中从上之下的路径中,不同路径中可以出现相同关键词,而同一路径中不能出现相同关键词。
本方案,可以作为检索的补充方案,用户每次只浏览3个关键词,从上至下选择感兴趣的关键词,避免一次浏览过多的关键词,又充分利用了关键词之间的语义关联,提升检索效率。
图1为本发明的流程图;图1中,实线是主体流程,虚线是资料存取的流程,平行四边形是关键词集S,椭圆是系统初始设定。
一种文本资料库的智能化分群和推送方法,如图1所示,包括以下步骤:
步骤S1,初始设定:系统或用户设定分群数为m;用户输入或点选的一个关键词x;系统从包含关键词x的文本上获取所有关联关键词,并计算关键词x和关联关键词之间的关联度;将关联关键词根据关联度降序排列并存入关键词集S中。
系统搜寻并取得关键词x的关联关键词,此为现有技术,例如:关键词x与关联关键词的关联度,等于两者共同出现文本数除以两者出现文本交集数,例如,关键词"A"出现在a1、a2、a3、a4及a5五篇文本,而关键词"B"出现在a3、a4、a5及a6四篇文本,这两个关键词的关联度会是共同出现文本数3除以两者出现文本交集数6,通过这种方式或类似作法即可建立表达两两关键词之间的关联度,关联度可以自行设置最低的阈值。当然,本方案也可以采用其他已有的方法,例如,申请号为201710181664.6、名称为《一种云计算中保护数据隐私的快速多关键词语义排序搜索方法》的发明专利,公开了一种计算原单词和拓展词之间的语义相似度并排序的方法,本方案可以采用此方法,相似度(关联度)可以自行设置阈值。
步骤S2,对关键词集S是否需要分群的判断:
对于关键词集S,判断关键词数量n是否大于2*m:如果n>2*m,则转入步骤S3,对关键词集S中的关键词进行关键词排序和关键词分群,并将结果存入关键词集S;否则,转入步骤S5,直接指派微量关键词到已有微群。
步骤S3,关键词排序:
图4是产生微群的流程图;如图4所示。计算每个关键词的前k近关键词,记录于单向k近图;当点v和点u双方互为前k近,则点u是点v为第一层邻居,简称邻居,记录于双向k近图;计算各关键词的多样性凝聚值并依此将所有关键词递减排序,记录在关键词集S中。
前k近关键词,就是先计算某一关键词与其关联关键词的关联度并降序排列,取前k个关联关键词构成该关键词的前k近关键词。
将关键词之间的联系转换为矢量图,矢量图中,关键词代表点,边代表两个代表点之间的邻近关系。给定一个矢量图G={V,E},其中V是点的集合,代表所有关键词,而E是有向边的集合,代表关键词之间是否存在邻近关系,边e=A→B表示点B是点A前k近的点,即关键词B属于前k个语意最近似关键词A的关键词之一,k是预设的参数。
令N(v)为点v的第一层邻居的集合,|N(v)|表示点v的第一层邻居数量,此时,N(v)={u|u∈kNN(v)∩v∈kNN(u)},其中,kNN(v)表示点v前k近的点的集合,当语意相似度值相等导致多于k个点落在此集合时,选择最先被选定的k个点;kNN(u)表示点u前k近的点的集合。
令扣除点v后,点v邻居的邻居为第二层邻居,将第二层邻居的集合表示为,其中,N-v(u)表示点u的邻居集合N(u)扣除点v后的集合。
凝聚值:扣除点v之后,加总点v的邻居各自的邻居数量。凝聚值越高表示点v可以通过邻居将比较多的点汇集成一个较大的微群,因此,点v作为核心点,其表示的关键词适合作为这个微群的代表关键词。
凝聚值的计算公式为:,其中,点u属于点v的第一层邻居N(v),N-v(u)表示点u的邻居N(u)扣除点v后的集合,|N-v(u)|表示集合N-v(u)的数量。
核心点v的邻居的邻居之间的共同邻居的重复数量,代表了这些邻居的多样性,共同邻居重复的越少代表多样性越高,聚集而成的分群也比较大;
若凝聚值很高但实际的邻居总数很少,表示邻居大多是核心点v前2层邻居总数连结,多样性相对较低,该核心点v牵涉的关键词语意范围有限,因此,应该给予较低的多样性权重;以“核心点v第一层邻居和第二层邻居组成的集合的点的总数”除以“第一层邻居数加上凝聚值”来计算此权重,称为多样性权重。
多样性权重计算公式为:;其中,N(v)表示点v的第一层邻居的集合;点u是点v为第一层邻居;/>表示点v的第二层邻居的集合,即凝聚值。
多样性凝聚值,为乘上多样性权重的凝聚值。作为每个点(关键词)的多样性凝聚值越高,代表拥有越多邻居且其邻居拥有越多相异邻居的,表示该点越适合放入关键词阶层的越上层点。
图2为多样性凝聚值的计算案例图。
表1表示图2中的点A、B、C、D的计算值。
图2中,点A的常规案例,点B、点C和点D为极端案例。点B虽然第一层邻居和点A一样多,但是邻居的邻居之间完全没有重复的,因此,点B的多样性凝聚值最高。点C虽然第一层邻居和点B一样多,但因邻居之间两两互连,因此多样性凝聚值降为2。点D虽然第一层邻居和点C一样多,但是,其第一层邻居没有第二层邻居,表示第一层邻居没有凝聚力,且第一层邻居之间的关联度不大,因此,点D的多样性凝聚值为0。
步骤S4,关键词分群。
图3是分群方法的流程图。n为关键词数量,k为前k近关键词的值,给定系统或用户设定的分群数m值,参数k设定为3,若[n/m]小于3,则k=[n/m],其中,[]为取整符号。
步骤S401,产生微群:
图5是关键词为核心点或者边界点的流程图;如图5所示。判别关键词为核心点或边界点:依序从关键词集S中取出一个关键词,若取出的关键词无法与当前微群内的任一关键词为邻居,则该取出的关键词成为新的核心点,并记录于核心点序列,否则为边界点,并记录于边界点序列。
图6是将边界点关键词分入微群并计算各微群的关联程度的流程图;如图6所示。将边界点分入微群并计算各微群的关联程度:依序从边界点序列中取出关键词,若该关键词的邻居为核心点,则将关键词作为该邻居所在微群的边界点;每个核心点所对应边界点各形成一个微群,每个微群以核心点为命名,例如核心点A有边界点B与C,则{A,B,C}称为微群A。
微群B的边界点把微群C的核心点视为前k近关键词,则该边界点的个数,定义为微群B→微群C的关系键强度;若两个微群具有至少1个相同的边界点,则这两个微群为强微群关联,并记录在微群关联图与强微群关联图中;若两个微群中,一个微群的边界点未加入到另一个微群,但是该边界点视其未加入微群的核心点为前k近关键词,则这两个微群为弱微群关联,并仅更新在微群关联图中;同时更新目前微群数c,并判断微群数c是否等于分群数m,如果相同则结束流程,否则重复本步骤,直到边界点序列为空。
例如,从边界点序列取出关键词A,而核心点序列中有B、C与D,关键词A分别与微群B、C与D的核心点为邻居,则关键词A分别放入微群B、C与D中,形成微群{B,A}、微群{C,A}、微群{D,A},令w1为边界点A所加入微群的集合,w1={微群B,微群C,微群D},把焦点看到微群B与C之间,发现微群B的一个边界点,把微群C的核心点作为边界点的前k近关键词,此时定义微群B把微群C视为前k近微群,表示为:微群B→微群C;若微群B中有两个边界点把微群C的核心点视为前k近关键词,则定义微群B→微群C的关系键强度为2,并记录在微群关联图中。而w1中的两两微群互相把对方视为前k近微群,用↔表示,即微群B↔微群C、微群B↔微群D与微群C↔微群D,把互为前k近微群关联分别记录在微群关联图与强微群关联图中。若w1={微群B,微群C,微群D},边界关键词A也把其他微群核心E与F视为前k近微群但该核心E与F未把边界A视为前k近微群,纪录微群为w2={微群E,微群F},定义w1*w2={微群B→微群E,微群B→微群F,微群C→微群E,微群C→微群F,微群D→微群E,微群D→微群F},表示微群中只有一个方向把对方视为前k近微群,把此关系仅更新在微群关联图中,可以得知微群关联图必包含强微群关联图。
步骤S402,微群合并前处理:如果两微群存在1对1配对关系,则将其合并。
图7是微群合并前处理的流程图。通过强微群关联图找出互相视为前k近微群,若微群A与微群B互相把对方视为前k近微群(关系键强度大于1的微群为前k近微群),且这两微群都没有和其他微群视为前k近微群,则这样的配对微群为1对1配对关系,找出这种1对1配对关系的配对微群,并根据他们的关系键强度递减排序,记录于配对序列。依序将配对序列中的配对的两个微群合并,合并后新的微群包含原本微群内的所有关键词,原大群的核心点为新微群的核心点,更新微群关联图,每次合并均把目前微群数c减1,并判断微群数c是否等于分群数m,如果相同则结束流程,否则重复本步骤,直到配对序列为空时,则结束流程。例如,微群A并入微群B,核心点B将被留下,微群所对应行列相加称为继承,并把微群A与他群关系继承到B中,更新微群关联图。
步骤S403,微群合并,根据微群与微群之间的边界点数量和支持度,进行微群合并至所设定的分群数;然后转至步骤S6。
图8是微群合并的流程图。微群关联图中的矩阵,令X行Y列为微群Y→微群X的关系键强度,则加总微群X每一列的关联键强度后除以该列不为0的个数,得到微群X的支持度;对各微群根据边界点数量递增排序,若关键词数相同则根据支持度递增排序,作为微群合并时的顺序;依序取出一个微群v,通过微群关联图找出微群v视为前k近的微群,并将微群v并入前述找出的微群中,即,把微群v的行加入到前述找出的微群的行,把微群v的列加入到前述找出的微群的列,并更新微群关联图,表示前述找出的微群(被并入的微群)继承微群v所有关联,此时,微群数c减1。若微群v未把任何微群视为前k近微群,称此微群v为离异微群,并暂存至离异微群集中。当微群数c减少至设定分群数m时,再取出离异微群集,逐一将离异微群加入近邻的微群中;然后转至步骤S6。
步骤S5,直接指派微量关键词到已有微群:
随机选定m个关键词作为核心点并构成m个微群,每个微群只有一个核心点,剩余的未被选定的关键词为微量关键词,微量关键词的个数小于等于m,将所有微量关键词均并入到m个微群中,因此每个微群都获得了所有微量关键词,且微量关键词为边界点。
例如m=3,S={a,b,c,d,e,f},n≤2*m,假设随机选择3个群的代表关键词为a、b、c,其余的微量关键词d、e、f均并入3个群中,每个群都接收微量关键词d、e、f。
步骤S6,系统将m个微群的核心点所对应的关键词,推送给用户选择;将用户选择的关键词所在微群的边界点所对应的关键词,组成关键词集S,并转到步骤S2,直到用户选择关键词所在的微群的边界点数量少于或等于分群数m,则结束流程。
对步骤S4关键词分群,举例分析。例如,图9是关键词的前k近、邻居和多样性凝聚值的汇总图;图9中左侧的表格,是关键词的信息,分群数m值设定为3,k设定为3,点F的前三近关键词的点是I、G、J,而互为前k近关键词为I与G,简称为邻居,多样性凝聚值为2。根据图9中左侧的表格中前k近的点的信息所画出的单向k近图,如图10所示,图10是关键词的邻居和前k近的示意图;根据图9中左侧的表格中邻居的信息所画出的双向k近图,如图11所示,图11是关键词的邻居的示意图。
第一,产生微群。双向前k近的点,表示彼此非常相像,在字义上可能是类似的,所以只考虑用双向前k近的点来找出核心点与边界点。首先,使用多样性凝聚值得到如图9中右的表格为加入关键词的顺序,若加入关键词无法与目前序列的任何关键词相连则该关键词为核心点,否则为边界点。开始图G={Ø},加入L后,因为一开始没有任何点能与L相连所,以L为核心点,G={核心点{L}},插入A后,一样没有核心点可以与A相连,所以A为新的核心点G={核心点{L,A}},再插入B后,B能连到A,所以B为边界点,G={核心点{L,A},边界点{B}},接着插入C、D、F过程结果如图12,图12是加入点L、A至F后核心点和边界点的示意图。插入H、M、G、I结果如图13,图13是加入点H、A、G、I后核心点和边界点的示意图。图14是加入完所有关键词后微群的核心点和边界点的示意图。
核心点所涵盖的所有边界点视为一个微群。如图14,核心点{L}加上边界点{M,Q}简称微群L,利用边界点所在微群,考虑两点的单向k近关系,其边界点→核心点,核心点→核心点,结果如图15,图15是视核心点为前k近的其他点的示意图。G、I分别为F与H的边界点,可以看成微群F有两个边界点G、I把H视为前k近关键词,两微群关系是微群H是微群F的前k近微群两次,定义微群F→微群H的关系键强度是2,反之微群H→微群F的关系键强度也是2。
令(X,Y)为微群Y→微群X的关系键强度,将图15所有微群关联纪录在微群关联图,结果如图16,图16是微群关联图,(L行,N列)为2,表示微群N→微群L的关系键强度为2。互为前k近微群关联,表示此两微群彼此有很高的相似性,将所有互为前k近微群的关联纪录在强微群关联图,强微群关联图如图17,图17是强微群关联图。
第二步骤,微群合并前处理,通过强微群关联图、微群关联图进行微群合并直到系统或用户设定的分群数,例如m等于3。首先使用强微群关联图,找出互为关联的微群,且为1对1的配对,找到X行与Y列除了(X,Y)其余都为0且(X,Y)≥1,如图17的(F,H),有这种关联的优先合并,算是特例处理,表示彼此有很强的群聚相似性,并且不考虑三群以上的互连状况,以节省耗费时间计算与群数控制方便。把所有这种互为1对1的配对关系的微群先依序按照关系键结强度排好,关系键强度高的先合并,若微群数达到3则停止。更新微群关联图,将已合并的微群的行列合并,如图18左侧表格所示,图18是微群关联图的更新图;提取H行与H列,把H行加入到F行,H列加入到F列,得到图18右侧表格。合并的结果,表示微群F继承微群H的所有关联,结果如图19,图19是合并前处理的微群关联图;接着使用此微群关联图,进行下一阶段的合并。
第三步骤,微群合并。微群合并顺序,主要有两种考量,微群的边界点数量;微群支持度。微群的数量越大表示为越大的群集,以小群优先去并入其它的大群,已经存在的大群会越来越大。计算微群关联图的某一微群的列的关联键强度总合,称为记数,表示有多少其它微群把目标微群视为前k近微群,再除以该列不为0的个数(前k近的微群数),称为支持度,若其列皆为0,则支持度为0。例如图19,微群L支持度为(2+2+1)/3=1.667。首先对各微群递增排序,根据边界点数量排序,若数量相同则根据支持度排序,结果如图20,图20是微群的排序图。
由小群并入大群的原则,所以小群去找可以并入的微群。合并顺序为R、E、J、P、L、N、A、F,在微群关联图中,如图19,微群R没有把任何微群视为自己的前k近微群,表示为离异微群,所以推入离异微群集队列中,直到合并群数达3群时,才来处理。接着E先去寻找可以并入的微群,L、F是E的前k近微群,所以微群E合并L与F,{微群L}={微群E,微群L},{微群F}={微群E,微群F}并更新微群关联图,如图21,图21是E并入L和F的微群排序图。接着J并入F与P并入L的过程如图22,图22是J并入F、P并入L的微群排序图;当合并群数达到3,如图23,图23是微群数合并至3的微群排序图。
最后,把存在离异微群集队列的所有离异微群依序取出,计算离异微群的核心点到各微群核心点的距离(关联度)的平均值作为门槛,若离异微群的核心点到微群的核心点的距离小于等于门槛,则将该离异微群的核心点合并到微群中。例如,核心点R到各微群核心点分别为RA=0.4、RL=0.7、RF=0.3,门槛值为0.466,RA、RF小于等于门槛值,所以离异微群R并入群集F与微群A。群数合并至分群数3的结果如图24,图24是微群数合并至3的微群关联图;将这3个微群的核心点对应的关键词,推送给用户。
典型的应用场景是政策的搜索与匹配。政策涵盖优惠条款、限制性条款以及处罚条款等内容,企业具有对接的需求。传统的归类方法,是将政策文件划分为:补贴、奖励、融资支持、税收优惠等。本方案通过提取政策中的关联关键词,并分组后推送给用户选择,从而逼近用户的检索意图,最后通过关键词找到相关的政策文件。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。
Claims (7)
1.一种文本资料库的智能化分群和推送方法,其特征在于,包括以下步骤:
步骤S1,初始设定:系统或用户设定分群数为m;用户输入或点选的一个关键词x;系统从包含关键词x的文本上获取所有关联关键词,并计算关键词x和关联关键词之间的关联度;将关联关键词根据关联度降序排列并存入关键词集S中;
步骤S2,对关键词集S是否需要分群的判断:对于关键词集S,判断关键词数量n是否大于2*m:如果n>2*m,则转入步骤S3,对关键词集S中的关键词进行关键词排序和关键词分群,并将结果存入关键词集S;否则,转入步骤S5,直接指派微量关键词到已有微群;
步骤S3,关键词排序:计算各关键词的多样性凝聚值并依此将所有关键词递减排序,记录在关键词集S中;
步骤S4,关键词分群,包括:
步骤S401,产生微群:判别关键词为核心点或边界点:依序从关键词集S中取出一个关键词,若取出的关键词无法与当前微群内的任一关键词为邻居,则该取出的关键词成为新的核心点,并记录于核心点序列,否则为边界点,并记录于边界点序列;
步骤S402,微群合并前处理:如果两微群存在1对1配对关系,则将其合并;
步骤S403,微群合并:根据微群与微群之间的边界点数量和支持度,进行微群合并至所设定的分群数;然后转至步骤S6;
步骤S5,随机选定m个关键词作为核心点并构成m个微群,每个微群只有一个核心点,剩余的未被选定的关键词为微量关键词,将所有微量关键词均并入到m个微群中,因此每个微群都获得了所有微量关键词,且微量关键词为边界点;
步骤S6,系统将m个微群的核心点所对应的关键词,推送给用户选择;将用户选择的关键词所在微群的边界点所对应的关键词,组成关键词集S,并转到步骤S2,直到用户选择关键词所在的微群的边界点数量少于或等于分群数m,则结束流程。
2.根据权利要求1所述的一种文本资料库的智能化分群和推送方法,其特征在于,步骤S1中,关键词x与关联关键词的关联度,等于两者共同出现文本数除以两者出现文本交集数。
3.根据权利要求1所述的一种文本资料库的智能化分群和推送方法,其特征在于,步骤S3中,多样性凝聚值,为乘上多样性权重的凝聚值;凝聚值,为扣除目标点之后,加总目标点的邻居各自的邻居数量;多样性权重,为目标点第一层邻居和第二层邻居组成的集合的点的总数,除以目标点第一层邻居数加上凝聚值的和;前k近关键词,为前k个语意最近似目标关键词的关键词之一,k是预设的参数,记录于单向k近图;当两个关键词双方互为前k近,则双方互为第一层邻居,简称邻居,记录于双向k近图。
4.根据权利要求3所述的一种文本资料库的智能化分群和推送方法,其特征在于,步骤S401中,计算各微群的关联程度:若微群B的边界点把微群C的核心点视为前k近关键词,则微群B把微群C视为前k近微群,并且该边界点个数,定义为微群B→微群C的关系键强度;若两个微群的具有至少1个相同的边界点,则这两个微群为强微群关联,并记录在微群关联图与强微群关联图中;若两个微群中,一个微群的边界点未加入到另一个微群,但是该边界点视其未加入微群的核心点为前k近关键词,则这两个微群为弱微群关联,并仅更新在微群关联图中;同时更新目前微群数c,并判断微群数c是否等于分群数m,如果相同则结束流程,否则重复本步骤,直到边界点序列为空。
5.根据权利要求4所述的一种文本资料库的智能化分群和推送方法,其特征在于,步骤S402中,通过强微群关联图找出互相视为前k近微群,若微群A与微群B互相把对方视为前k近微群,且这两微群都没有和其他微群视为前k近微群,则这样的配对微群为1对1配对关系,找出这种1对1配对关系的配对微群,并根据他们的关系键强度递减排序,记录于配对序列;依序将配对序列中的配对的两个微群合并,合并后新的微群包含原本微群内的所有关键词,原大群的核心点为新微群的核心点,更新微群关联图,每次合并均把目前微群数c减1,并判断微群数c是否等于分群数m,如果相同则结束流程,否则重复本步骤,直到配对序列为空时,则结束流程。
6.根据权利要求5所述的一种文本资料库的智能化分群和推送方法,其特征在于,步骤S403中,微群关联图中的矩阵,令X行Y列为微群Y→微群X的关系键强度,则加总微群X每一列的关联键强度后除以该列不为0的个数,得到微群X的支持度;对各微群根据边界点数量递增排序,若关键词数相同则根据支持度递增排序,作为微群合并时的顺序;依序取出一个微群v,通过微群关联图找出微群v视为前k近的微群,并将微群v并入前述找出的微群中,即,把微群v的行加入到前述找出的微群的行,把微群v的列加入到前述找出的微群的列,并更新微群关联图,此时,微群数c减1;若微群v未把任何微群视为前k近微群,称此微群v为离异微群,并暂存至离异微群集中;当微群数c减少至设定分群数m时,再从离异微群集取出离异微群,逐一将离异微群加入近邻的微群中;然后转至步骤S6。
7.根据权利要求6所述的一种文本资料库的智能化分群和推送方法,其特征在于,从离异微群集取出离异微群后,计算离异微群的核心点到各微群核心点的距离的平均值作为门槛;若离异微群的核心点到微群的核心点的距离小于等于门槛,则将该离异微群的核心点合并到该微群中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310564461.0A CN116628201B (zh) | 2023-05-18 | 2023-05-18 | 一种文本资料库的智能化分群和推送方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310564461.0A CN116628201B (zh) | 2023-05-18 | 2023-05-18 | 一种文本资料库的智能化分群和推送方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116628201A CN116628201A (zh) | 2023-08-22 |
CN116628201B true CN116628201B (zh) | 2023-10-20 |
Family
ID=87609223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310564461.0A Active CN116628201B (zh) | 2023-05-18 | 2023-05-18 | 一种文本资料库的智能化分群和推送方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116628201B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1301365A (zh) * | 1997-10-21 | 2001-06-27 | 英国电讯有限公司 | 信息管理系统 |
AU2003204958A1 (en) * | 1998-03-16 | 2003-11-27 | Sli Systems Inc. | Improved Search Engine |
CA2504106A1 (en) * | 2004-04-15 | 2005-10-15 | Microsoft Corporation | Related term suggestion for multi-sense query |
CN1691019A (zh) * | 2004-04-15 | 2005-11-02 | 微软公司 | 检验关键字和Web站点内容之间的相关性 |
CN101063975A (zh) * | 2007-02-15 | 2007-10-31 | 刘二中 | 电子文本处理与检索的方法和系统 |
JP2007317217A (ja) * | 2007-07-17 | 2007-12-06 | Hitachi Ltd | 情報関連付け方法、端末装置、サーバ装置、プログラム |
JP2009086771A (ja) * | 2007-09-27 | 2009-04-23 | Nomura Research Institute Ltd | 検索サービス装置 |
CN103020049A (zh) * | 2011-09-20 | 2013-04-03 | 中国电信股份有限公司 | 搜索方法及搜索系统 |
CN105095279A (zh) * | 2014-05-13 | 2015-11-25 | 深圳市腾讯计算机系统有限公司 | 文件推荐方法和装置 |
CN110460452A (zh) * | 2019-06-26 | 2019-11-15 | 深圳市天彦通信股份有限公司 | 消息推送方法及相关产品 |
CN112559684A (zh) * | 2020-12-10 | 2021-03-26 | 中科院计算技术研究所大数据研究院 | 一种关键词提取及信息检索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10409870B2 (en) * | 2011-12-15 | 2019-09-10 | Ebay Inc. | Searching multiple sellers by multiple matching items |
-
2023
- 2023-05-18 CN CN202310564461.0A patent/CN116628201B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1301365A (zh) * | 1997-10-21 | 2001-06-27 | 英国电讯有限公司 | 信息管理系统 |
AU2003204958A1 (en) * | 1998-03-16 | 2003-11-27 | Sli Systems Inc. | Improved Search Engine |
CA2504106A1 (en) * | 2004-04-15 | 2005-10-15 | Microsoft Corporation | Related term suggestion for multi-sense query |
CN1691019A (zh) * | 2004-04-15 | 2005-11-02 | 微软公司 | 检验关键字和Web站点内容之间的相关性 |
CN101063975A (zh) * | 2007-02-15 | 2007-10-31 | 刘二中 | 电子文本处理与检索的方法和系统 |
JP2007317217A (ja) * | 2007-07-17 | 2007-12-06 | Hitachi Ltd | 情報関連付け方法、端末装置、サーバ装置、プログラム |
JP2009086771A (ja) * | 2007-09-27 | 2009-04-23 | Nomura Research Institute Ltd | 検索サービス装置 |
CN103020049A (zh) * | 2011-09-20 | 2013-04-03 | 中国电信股份有限公司 | 搜索方法及搜索系统 |
CN105095279A (zh) * | 2014-05-13 | 2015-11-25 | 深圳市腾讯计算机系统有限公司 | 文件推荐方法和装置 |
CN110460452A (zh) * | 2019-06-26 | 2019-11-15 | 深圳市天彦通信股份有限公司 | 消息推送方法及相关产品 |
CN112559684A (zh) * | 2020-12-10 | 2021-03-26 | 中科院计算技术研究所大数据研究院 | 一种关键词提取及信息检索方法 |
Non-Patent Citations (3)
Title |
---|
Object retrieval with large vocabularies and fast spatial matching;J. Philbin 等;《2007 IEEE Conference on Computer Vision and Pattern Recognition, Minneapolis》;1-8 * |
基于数据挖掘的移动用户行为分析系统的构建;陈红;《中国优秀硕士学位论文全文数据库信息科技辑 》(第(2019)2期);I138-1059 * |
多源数据环境下科研热点识别方法研究;裘惠麟 等;《图书情报工作》;第64卷(第5期);78-88 * |
Also Published As
Publication number | Publication date |
---|---|
CN116628201A (zh) | 2023-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8341159B2 (en) | Creating taxonomies and training data for document categorization | |
US8280886B2 (en) | Determining candidate terms related to terms of a query | |
US7225183B2 (en) | Ontology-based information management system and method | |
US20090094223A1 (en) | System and method for classifying search queries | |
Hersh et al. | SAPHIRE—An information retrieval system featuring concept matching, automatic indexing, probabilistic retrieval, and hierarchical relationships | |
US10002330B2 (en) | Context based co-operative learning system and method for representing thematic relationships | |
US7185001B1 (en) | Systems and methods for document searching and organizing | |
CN101339551B (zh) | 自然语言查询需求扩展设备及其方法 | |
CN109558494A (zh) | 一种基于异质网络嵌入的学者名字消歧方法 | |
CN110516146B (zh) | 一种基于异质图卷积神经网络嵌入的作者名字消歧方法 | |
US20090094208A1 (en) | Automatically Generating A Hierarchy Of Terms | |
KR100756921B1 (ko) | 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. | |
CN108563773B (zh) | 基于知识图谱的法律条文精准搜索排序方法 | |
US20090094021A1 (en) | Determining A Document Specificity | |
EP2045735A2 (en) | Refining a search space inresponse to user Input | |
US20100077001A1 (en) | Search system and method for serendipitous discoveries with faceted full-text classification | |
US20090094233A1 (en) | Modeling Topics Using Statistical Distributions | |
US20110184932A1 (en) | Search using proximity for clustering information | |
EP2045732A2 (en) | Determining the depths of words and documents | |
Lin et al. | ACIRD: intelligent Internet document organization and retrieval | |
US20070168346A1 (en) | Method and system for implementing two-phased searching | |
CN108733745B (zh) | 一种基于医学知识的查询扩展方法 | |
Zhang et al. | Unsupervised entity resolution with blocking and graph algorithms | |
Juršič et al. | Bridging concept identification for constructing information networks from text documents | |
CN105488195A (zh) | 一种基于层次结构子话题的搜索结果多样化排序方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |