CN109543034A - 基于知识图谱的文本聚类方法、装置及可读存储介质 - Google Patents
基于知识图谱的文本聚类方法、装置及可读存储介质 Download PDFInfo
- Publication number
- CN109543034A CN109543034A CN201811323010.3A CN201811323010A CN109543034A CN 109543034 A CN109543034 A CN 109543034A CN 201811323010 A CN201811323010 A CN 201811323010A CN 109543034 A CN109543034 A CN 109543034A
- Authority
- CN
- China
- Prior art keywords
- text
- urtext
- interactive relation
- based map
- clustering method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 230000002452 interceptive effect Effects 0.000 claims abstract description 77
- 238000013507 mapping Methods 0.000 claims abstract description 45
- 238000010606 normalization Methods 0.000 claims abstract description 44
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 230000007246 mechanism Effects 0.000 claims description 22
- 239000000284 extract Substances 0.000 claims description 15
- 238000005516 engineering process Methods 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 7
- 238000007635 classification algorithm Methods 0.000 claims description 6
- 238000004088 simulation Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000005295 random walk Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000000192 social effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于知识图谱的文本聚类方法,包括以下步骤:获取原始文本,并确定所述原始文本的待抽取要素类型;根据所述待抽取要素类型抽取所述原始文本的文本要素;统计所述文本要素间的交互关系,并根据统计结果计算所述交互关系的归一化概率;根据所述归一化概率构建知识图谱,并根据所述知识图谱对所述原始文本进行聚类。本发明还公开了一种基于知识图谱的文本聚类装置及计算机可读存储介质。本发明通过归一化概率构建知识图谱,进而根据知识图谱对原始文本进行自动聚类,解决人工分类效率低,成本高的技术问题。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于知识图谱的文本聚类方法、装置及计算机可读介质。
背景技术
城市新闻,是一座城市里居住生活的人所产生的活动的外在表现,很大程度上反映了一个城市的精神内涵与内在规律。同时因为其公开性,使得新闻的获取成本很低。对大量新闻文本进行充分处理、分析、挖掘,找出新闻之间的关联,知晓并掌握城市的内在运作规律,对政策制定、舆情监控、城市发展规划等具有重要的现实意义。
由于新闻本身的客观性要求,导致新闻文本的离散程度较大,因此从表面上看起来没有关联。若是由相关从业人员进行分析挖掘,则需要在日常工作中耗费大量时间精力对新闻进行广度和深度上的挖掘,对从业人员的专业要求及经验积累要求较高,使得新闻分析从业成本较高。
在现有技术中,一般通过统计的方法实现对文本数据进行分类,这样导致只能获取所述文本数据中已知维数的分类结果。
发明内容
本发明的主要目的在于提供一种基于知识图谱的文本聚类方法、装置及存储介质,旨在实现根据文本内容进行深度分析,并根据分析结果进行自动聚类。
为实现上述目的,本发明提供一种基于知识图谱的文本聚类方法,所述基于知识图谱的文本聚类方法包括以下步骤:
获取原始文本,并确定所述原始文本的待抽取要素类型;
根据所述待抽取要素类型抽取所述原始文本的文本要素;
统计所述文本要素间的交互关系,并根据统计结果计算所述交互关系的归一化概率;
根据所述归一化概率构建知识图谱,并根据所述知识图谱对所述原始文本进行聚类。
优选地,所述原始文本为新闻文本,所述待抽取要素类型涉及地点、涉及机构、涉及人物、涉及时间及/或新闻主题。
优选地,所述根据所述待抽取要素类型抽取所述原始文本的文本要素的步骤包括:
通过词典匹配技术和命名实体识别技术抽取所述新闻文本中的所述涉及地点及/或涉及机构;
通过所述命名实体识别技术抽取所述新闻文本中的所述涉及人物;
通过正则匹配抽取所述新闻文本中的所述涉及时间;
通过调用分类算法确定所述新闻文本的新闻主题。
优选地,所述统计所述文本要素间的交互关系,并根据统计结果计算所述交互关系的归一化概率的步骤包括:
获取所述文本要素间的交互关系,并统计所述交互关系的出现次数;
根据所述交互关系的出现次数计算所述交互关系的所述归一化概率。
优选地,所述根据所述交互关系的出现次数计算所述交互关系的所述归一化概率的步骤包括:
根据所述交互关系的出现次数确定与预设文本要素关联的交互关系总数,及预设交互关系总数;
根据所述与预设文本要素关联的交互关系总数,及所述预设交互关系总数计算所述交互关系的所述归一化概率。
优选地,所述根据所述归一化概率构建知识图谱,并根据所述知识图谱对所述原始文本进行聚类的步骤包括:
通过预设算法及所述归一化概率模拟信息流动;
根据模拟结果及信息传递聚类算法对所述原始文本进行聚类。
优选地,所述预设算法为Node2vec算法。
优选地,所述信息传递聚类算法为AP聚类算法。
此外,为实现上述目的,本发明还提供一种基于知识图谱的文本聚类装置,其特征在于,所述基于知识图谱的文本聚类装置置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本聚类程序,所述文本聚类程序被所述处理器执行时实现如上所述的基于知识图谱的文本聚类方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文本聚类程序,所述文本聚类程序被处理器执行时实现如上所述的基于知识图谱的文本聚类方法的步骤。
本发明实施例提出的一种基于知识图谱的文本聚类方法、装置及计算机可读存储介质,先获取原始文本,并确定原始文本的待抽取要素类型;然后根据所述待抽取要素类型抽取原始文本的文本要素;统计所述文本要素间的交互关系,并根据统计结果计算交互关系的归一化概率;根据归一化概率构建知识图谱,并根据所述知识图谱对所述原始文本进行聚类。由于本发明可以根据文本要素间的交互关系构建知识图谱,因而可以自动增加分类项,从而丰富文本分类的维数。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图;
图2为本发明基于知识图谱的文本聚类方法第一实施例的流程示意图;
图3为本发明基于知识图谱的文本聚类方法第二实施例的流程示意图;
图4为本发明基于知识图谱的文本聚类方法第三实施例的流程示意图;
图5为本发明基于知识图谱的文本聚类方法第四实施例的流程示意图;
图6为本发明基于知识图谱的文本聚类方法第五实施例的流程示意图;
图7为PLDA模型图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:
获取原始文本,并确定所述原始文本的待抽取要素类型;
根据所述待抽取要素类型抽取所述原始文本的文本要素;
统计所述文本要素间的交互关系,并根据统计结果计算所述交互关系的归一化概率;
根据所述归一化概率构建知识图谱,并根据所述知识图谱对所述原始文本进行聚类。
本发明实施例提出的一种基于知识图谱的文本聚类方法、装置及计算机可读存储介质,先获取原始文本,并确定原始文本的待抽取要素类型;然后根据所述待抽取要素类型抽取原始文本的文本要素;统计所述文本要素间的交互关系,并根据统计结果计算交互关系的归一化概率;根据归一化概率构建知识图谱,并根据所述知识图谱对所述原始文本进行聚类。由于本发明可以根据文本要素间的交互关系构建知识图谱,因而可以自动增加分类项,从而丰富文本分类的维数。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例终端可以是PC,也可以是便携计算机、智能移动终端或服务器等终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)、鼠标等,可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口 (如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及文本聚类程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的文本聚类程序,并执行以下操作:
获取原始文本,并确定所述原始文本的待抽取要素类型;
根据所述待抽取要素类型抽取所述原始文本的文本要素;
统计所述文本要素间的交互关系,并根据统计结果计算所述交互关系的归一化概率;
根据所述归一化概率构建知识图谱,并根据所述知识图谱对所述原始文本进行聚类。
进一步地,处理器1001可以调用存储器1005中存储的文本聚类程序,还执行以下操作:
通过词典匹配技术和命名实体识别技术抽取所述新闻文本中的所述涉及地点及/或涉及机构;
通过所述命名实体识别技术抽取所述新闻文本中的所述涉及人物;
通过正则匹配抽取所述新闻文本中的所述涉及时间;
通过调用分类算法确定所述新闻文本的新闻主题。
进一步地,处理器1001可以调用存储器1005中存储的文本聚类程序,还执行以下操作:
获取所述文本要素间的交互关系,并统计所述交互关系的出现次数;
根据所述交互关系的出现次数计算所述交互关系的所述归一化概率。
进一步地,处理器1001可以调用存储器1005中存储的文本聚类程序,还执行以下操作:
根据所述交互关系的出现次数确定与预设文本要素关联的交互关系总数,及预设交互关系总数;
根据所述与预设文本要素关联的交互关系总数,及所述预设交互关系总数计算所述交互关系的所述归一化概率。
进一步地,处理器1001可以调用存储器1005中存储的文本聚类程序,还执行以下操作:
通过预设算法及所述归一化概率模拟信息流动;
根据模拟结果及信息传递聚类算法对所述原始文本进行聚类。
参照图2,本发明基于知识图谱的文本聚类方法第一实施例,所述基于知识图谱的文本聚类方法包括:
步骤S10、获取原始文本,并确定所述原始文本的待抽取要素类型;
在本实施例中,所述原始文本可以是任意的可读文本,例如新闻文本等。所述待抽取要素类型,可以通过用户,根据所述原始文本的共性自定义设置。
具体地,例如,城市新闻,是一座城市里居住生活的人所产生的活动的外在表现,很大程度上反映了一个城市的精神内涵与内在规律。同时因为其公开性,使得新闻的获取成本很低。对大量新闻文本进行充分处理、分析、挖掘,找出新闻之间的关联,知晓并掌握城市的内在运作规律,对政策制定、舆情监控、城市发展规划等具有重要的现实意义。
但是,由于新闻本身的客观性要求,大多是具体到哪些人于哪个时间在哪个地点做了什么事,导致新闻看起来很稀疏,表面上看起来没有关联。若是由相关从业人员进行分析挖掘,则需要在日常工作中耗费大量时间精力对新闻进行广度和深度上的挖掘,对从业人员的专业要求及经验积累要求较高,使得新闻分析从业成本较高。而基于统计的方法虽然能定量地获取热点新闻、热点人物或热点地点等,但只能关注于某一方面的信息概貌,仍然无法得知新闻内在的联系。因而,可以根据本发明对新闻文本进行归类。
进一步地,由于新闻文本的主要组成要素为时间、地点、人物、起因、经过和结果。因此,可以根据上述组成要素确定原始文本(即新闻文本)的待抽取要素类型。又因为,新闻的参与主体可以是人或单位,因而,可以将人物要素替换为“涉及人物”与“涉及机构”;由于具体到天的时间对新闻信息的贡献十分有限,且以发生时间作为要素构建图谱时会显得信息冗杂,因而,可以基于时间要素,识别出特殊时间段(如春节、特定会议等),在当前新闻文本所涉及的时间要素不在特殊时间段时,可以舍去时间要素;地点保留;考虑到现有自然语言处理技术尚不能对一段文本中分析出起因、经过、结果,因此考虑用新闻的主题代替。
步骤S20、根据所述待抽取要素类型抽取所述原始文本的文本要素;
在本实施例中,当确定所述待抽取要素类型时,通过算法从所述原始文本中抽取文本要素。其中,根据预设目标在文本文件中,抽预所述预设目标的方法可以根据所述待抽取要素类型的具体内容确定。例如,当所述代抽要素为时间要素时,则可以直接通过正则匹配的方法从文本中抽取。由于,对于不同的文本,其对应的文本要素也不相同,由于,文本要素不同,因而其抽取打方法也可以不同。因此,无法在此枚举出全部的要素抽取方法。
具体地,以新闻文本为例,可以将新闻文本的待抽取要素类型预设为涉及地点、涉及机构、涉及人物、涉及时间及/或新闻主题。因此,可以通过词典匹配技术和命名实体识别技术抽取所述新闻文本中的所述涉及地点及/或涉及机构;通过所述命名实体识别技术抽取所述新闻文本中的所述涉及人物;通过正则匹配抽取所述新闻文本中的所述涉及时间;通过调用分类算法确定所述新闻文本的新闻主题。
需要说明的是,在抽取所述文本要素之前,还可以对所述文本进行预处理,所述预处理可以包括数据清洗,即去除无关因素。例如,当所述原始文本为新闻文本时,原始文本中往往包含大量重复或无关文本,通过去重、去空白新闻、去无意义文本等过程进行数据清洗,留下有效新闻。
进一步地,所述数据清洗还可以包括去除对文本分析无作用的干扰参数,以新闻文本为例,上述干扰参数可以是“本栏目统筹:XXX,摄影:XXX”等,还有网址、电话、邮箱等。其中,所述数据清洗可以通过正则匹配的方式进行,也可以根据其它数据过滤模型进行。本发明在此不作限定。
步骤S30、统计所述文本要素间的交互关系,并根据统计结果计算所述交互关系的归一化概率;
在本实施例中,所述文本要素之间的交互关系由于是客观存在的,因而可以预先保存至于存储介质中,当在统计所述文本要素之间的交互关系时,可以直接读取。
具体地,以所述原始文本为新闻文本为例,其文本要素可以包括涉及地点、涉及机构、涉及人物、涉及时间及/或新闻主题。所述文本要素间存在如下表所示的交互关系:
进一步地,在获取到所述交互关系时,根据所述交互关系的统计结果计算各要素基于其它要素的归一化概率,计算公式如下:
其中,P(ai|bj)为要素a第i个项在要素b的第j个项出现的情况下共现的概率,num表示出现的次数。
步骤S40、根据所述归一化概率构建知识图谱,并根据所述知识图谱对所述原始文本进行聚类。
在本实施例中,通过预设算法及所述归一化概率模拟信息流动,以构建知识图谱,进一步的,根据所述知识图谱,及信息传递聚类算法对所述原始文本进行聚类。
具体地,所述预设算法可以是为Node2vec算法,所述信息传递聚类算法为AP(Affinity propagation,近邻传播)聚类算法
在本实施例中,先获取原始文本,并确定原始文本的待抽取要素类型;然后根据所述待抽取要素类型抽取原始文本的文本要素;统计所述文本要素间的交互关系,并根据统计结果计算交互关系的归一化概率;根据归一化概率构建知识图谱,并根据所述知识图谱对所述原始文本进行聚类。由于本发明可以根据文本要素间的交互关系构建知识图谱,因而可以自动增加分类项,从而丰富文本分类的维数。
进一步地,参照图3,本发明基于知识图谱的文本聚类方法第二实施例,基于上述第一实施例,所述步骤S20包括:
步骤S21、通过词典匹配技术和命名实体识别技术抽取所述新闻文本中的所述涉及地点及/或涉及机构;
在本实施例中,分别通过词典匹配技术和命名实体识别技术两种方法从新闻文本中抽取所述涉及地点及/或涉及机构。为提高抽取结果的准确性,可以分别通过词典匹配技术和命名实体识别技术从新闻文本抽取所述地点及/或涉及机构。在获取两组抽取结果时,对两组抽取结果取并集。
进一步地,在获取到所述涉及地点时,还可对所述涉及地点进行规范化描述。即将所述涉及地点描述为统一格式。例如“省、市、区、路”。在获取到所述涉及机构时,由于涉及机构可能存在大量指代实体相同而表述不同的情况,如“北京大学”与“北大”(全称与简称),“XX公司长沙制造厂”与“XX公司长沙工厂”(表述不同)等,需要进行消歧与合并。
具体地,所述词典匹配是指从各大输入法的词库中搜寻与该城市相关的地点词典及/或城市机构词典,并进行清洗、去重后,构造为可以用于进行文本要素抽取的,目标城市地点词典及/或目标城市机构词典,然后基于所述目标城市地点词典及/或目标城市机构词典,通过正则匹配抽取所述涉及地点及/ 或涉及机构。例如,可以通过搜狗输入法或百度输入法的词库中采集与该城市相关的地点词典及/或城市机构词典。
进一步地,由于抽取的所述涉及地点存在描述方式不相同的问题,从而导致描述粒度粗细不同,例如,有些地点精确到某某路某某号,有些地点则模糊地说在某个区;以及相同地点描述不同的情况,如“广州市人民政府”与“广州市越秀区府前路1号”实际指的是同一个地点。因此需要进行规范化描述,合并相同的实体,统一描述粒度。具体实现方式可以是采用百度地图开发中心的API(Application Programming Interface,应用程序编程接口)先将地点转化为经纬度,再将经纬度信息转化为规范化描述。此处规范化描述可以统一采取“省、市、区、路”的格式。
由于抽取的所述涉及机构存在指代实体相同而表述不同的情况,如“北京大学”与“北大”(全称与简称),“XX公司长沙制造厂”与“XX公司长沙工厂”(表述不同)等,需要进行消歧与合并。通过计算编辑相似度、杰卡德相似度、余弦相似度(需分词并预训练词向量),综合考虑三者的值来达到消歧、合并的目的。
所述编辑相似度Ls(s1,s2)的计算公式为:
其中,s1,s2为待计算的文本字符串,LD(s1,s2)为编辑距离,‖s1‖、‖s2‖分别为文本s1和s2的长度。
所述杰卡德相似度J(s1,s2)的计算公式为:
其中,s1表示新闻s1中的字集合,|s1∩s2|表示s1和s2的交集中包含的字集合的数量,|s1∪s2|表示s1和s2的并集中包含的字集合的数量。
所述余弦相似度cos(s1,s2)计算公式为:
其中,s1,s2为待计算的文本字符串,‖s1‖、‖s2‖分别为文本s1和s2的长度。
在计算余弦相似度时需要先对要素文本进行分词,并加载词向量,词向量可以采用ACL 2018 Analogical Reasoning on Chinese Morphological and SemanticRelations用人民日报语料预训练的300维词向量。
在计算出所述编辑相似度、杰卡德相似度和余弦相似度时,分别设置对应的相似度阈值,当三个相似度值均大于阈值时,判定为相同实体。
需要说明的是,本市实施仅用于提供一种实施方式,并不用于限定本发明。
步骤S22、通过所述命名实体识别技术抽取所述新闻文本中的所述涉及人物;
在本市实施例中,当通过命名实体识别技术抽取出所述涉及人物时,可以输出所述涉及人物对应的标识符(一般为人名),以通过人工对所述涉及人物进行进一步筛选。
步骤S23、通过正则匹配抽取所述新闻文本中的所述涉及时间;
在本实施例中,可以通过正则匹配法从新闻中抽取新闻的发生时间,并利用人为构造的时间段词典将发生时间转化为特殊时间段,未在此范围内的时间则舍去。
具体地,通过正则匹配法抽取新闻中“XX月XX日”的关键字作为发生时间;如出现“昨日”“前天”“明天”非确定性时间时,可以根据报道时间相应推算其发生时间;如出现“近日”“几日前”等不定量时间限制词时,可以统一以报道时间往前4天作为发生时间。
对每一条新闻都抽取出发生时间后,利用预设的时间段词典将发生时间映射为时间段。例如,预设的时间段词典中可以包括22个词项,分别为:
元旦、春节、清明、五一、端午、中秋、国庆等7个国家法定假日;
元宵、七夕、重阳、冬至等4个传统文化节日;
情人节、圣诞节等2个流行节日;
特定会议、高考等2个具有重大政治或社会意义的时间段;
南方车展、广交会、庙会、灯光节、书香节、荔枝节等6个城市特色时间段;
跨年夜等1个其他时间段。
步骤S24、通过调用分类算法确定所述新闻文本的新闻主题。
具体地,可以通过调用百度AI开放平台的“文章分类”API为新闻打上类别标签,并通过有监督的主题模型方法,使用新闻正文与新闻类别标签作为输入,为新闻标注主题。
由于类别标签范围比较广泛,比如建设高速公路与爱心献血活动同属于“社会”这一类别,但前者属于基建民生类,后者属于公益活动类,因此有必要将标签细化,使新闻专注到某一主题上。
由于百度的开放平台的“文章分类”API支持26个一级粗粒度分类类别,包括社会、财经、汽车、教育、旅游、时事、文化、家居、健康养生、科技、娱乐、时尚、美食、母婴育儿、体育、音乐、综合、国际、动漫、情感、军事、星座运势、游戏、宠物、搞笑、历史。
因此可以根据所述一级粗粒度分类标签进行分类。由于类别标签范围比较广泛,比如建设高速公路与爱心献血活动同属于“社会”这一类别,但前者属于基建民生类,后者属于公益活动类,因此有必要将标签细化,使新闻专注到某一主题上。因此可以使用一种有监督的主题模型PLDA(Partially Labeled Dirichlet Allocation,隐含狄利克雷分布)进行标签细化、标注主题。
如说明书附图7所示,每篇文档D的单词w与标签集合Λ是已知的,阴影节点;ψ是每篇文档的标签分布,θ是某篇文档特定标签下的主题分布,Φ是每个主题下的单词分布。l为采样得到的标签,z为采样得到的主题(由于Λ已知,γ为雷迪克先验参数,但在模型中不起作用),Kd是文档D的主题集合, Wd是文档D的词集合,K是所有的主题的集合。
先为文档的标签集合Λd里的每一个标签l都通过狄利克雷先验α生成主题分布θd,l;然后通过狄利克雷先验α生成标签分布ψd。接下来,先从ψd采样出一个标签l,从θd,l采样出一个主题z,再从主题-单词分布φd,l采样出单词。
整个过程可用公式表达:
使用主题模型学到每个新闻的主题分布后,本发明取最大概率的主题作为新闻的主题。
在本实施例中,通过词典匹配技术和命名实体识别技术抽取所述新闻文本中的所述涉及地点及/或涉及机构;通过所述命名实体识别技术抽取所述新闻文本中的所述涉及人物;通过正则匹配抽取所述新闻文本中的所述涉及时间;通过调用分类算法确定所述新闻文本的新闻主题。实现了新闻文本中文本要素的抽取。
进一步地,参照图4,本发明基于知识图谱的文本聚类方法第三实施例,基于上述第一至第二实施例,所述步骤S30包括:
步骤S31、获取所述文本要素间的交互关系,并统计所述交互关系的出现次数;
步骤S32、根据所述交互关系的出现次数计算所述交互关系的所述归一化概率。
在本实施例中,可以先统计原始文本中各文本要素之间的交互关系,进而根据统计结果计算对所述文本要素间的交互进行归一化表示概率。
具体地,以原始文本为新闻文本为例,分别统计计算新闻(即原始文本)、地点(即设计地点)、机构(即涉及机构)、人物(即涉及人物)、时间段(及涉及时间)、主题(新闻主题)之间的关系,并对要素间的交互进行归一化表示概率。要素之间的交互关系归一化公式如下:
式子表示在要素a的第i个项在要素b的第j个项出现的情况下共现的概率, num表示出现的次数(注意:统计交互信息时,为了避免极小概率的干扰,将共现次数为1的舍去。再用保留的项计算归一化概率)。
在本实施例中,先获取所述文本要素间的交互关系,并统计所述交互关系的出现次数,然后根据所述交互关系的出现次数计算所述交互关系的所述归一化概率。这样实现了归一化概率的计算。
进一步地,参照图5,本发明基于知识图谱的文本聚类方法第四实施例,基于上述第一至第三实施例,所述步骤S32包括:
步骤S321、根据所述交互关系的出现次数确定与预设文本要素关联的交互关系总数,及预设交互关系总数;
步骤S322、根据所述与预设文本要素关联的交互关系总数,及所述预设交互关系总数计算所述交互关系的所述归一化概率。
在本实施例中,以原始文本为新闻文本时,要素中的人物-地点关系为例,假设有预设人物P对应地点A、地点B、地点C,P与地点A在新闻里共现次数是10,与B共现次数是30,与C共现次数是60,则
需要说明的是,归一化概率可以作为知识图谱的边的权重,作为Node2vec 算法采样用。
在本实施例中,根据交互关系的统计结果确定归一化概率,这样使得可以根据所述概率确定对应交互关系的权重。
进一步地,参照图6,本发明基于知识图谱的文本聚类方法第五实施例,基于上述第一至第三实施例,所述步骤S40包括:
步骤S41、通过预设算法及所述归一化概率模拟信息流动;
步骤S41、根据模拟结果及信息传递聚类算法对所述原始文本进行聚类。
在本实施例中,以原始文本为新闻文本为例,“空间关联”是通过统计两个涉及地点同时出现在同一条新闻的数量并计算概率得到,共现数量大于1 即构成“空间关联”关系;“业务关联”是通过统计两个机构(人)同时出现在同一条新闻的数量并计算概率得到,可直观理解为有合作关系、竞争关系、母子公司等,共现数量大于1即构成“业务关联”关系。
基于上述所构建的关系,构建网络图形成新闻知识图谱。网络中节点类型为:新闻、地点、机构、人物、时间段、主题;边类型为所构建的相互关系,形成城市新闻知识图谱。
将新闻通过要素间的连接视作为一种信息的流动,可以采用基于随机游走的方法来模拟这种信息的流动,并带动新闻节点向量的表示学习。且由于随机游走所得到的信息会有冗余,所以需要额外的参数来控制信息的流动方向。Node2vec是一种带偏置的随机游走方法,它采用返回参数p和进出参数以控制邻近节点的采样,因此可以采用Node2vec来学习新闻向量。
AP聚类是一种基于信息传递的聚类方法,不需要事先指定聚类类别数。通过吸引度矩阵和归属度矩阵的迭代来达到相似文本聚类的目的。适用于基于信息传递的聚类场景。
在本实施例中,通过预设算法及所述归一化概率模拟信息流动,根据模拟结果及信息传递聚类算法对所述原始文本进行聚类,使得原始文本可以进行自动归类。
此外,本发明实施例还提出一种基于知识图谱的文本聚类装置,所述基于知识图谱的文本聚类装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本聚类程序,所述文本聚类程序被所述处理器执行时实现如上各个实施例所述的基于知识图谱的文本聚类方法的步骤。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有文本聚类程序,所述文本聚类程序被处理器执行时实现如上各个实施例所述的基于知识图谱的文本聚类方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是智能移动端,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于知识图谱的文本聚类方法,其特征在于,所述基于知识图谱的文本聚类方法包括以下步骤:
获取原始文本,并确定所述原始文本的待抽取要素类型;
根据所述待抽取要素类型抽取所述原始文本的文本要素;
统计所述文本要素间的交互关系,并根据统计结果计算所述交互关系的归一化概率;
根据所述归一化概率构建知识图谱,并根据所述知识图谱对所述原始文本进行聚类。
2.如权利要求1所述的基于知识图谱的文本聚类方法,其特征在于,所述原始文本为新闻文本,所述待抽取要素类型包括涉及地点、涉及机构、涉及人物、涉及时间及/或新闻主题。
3.如权利要求2所述的基于知识图谱的文本聚类方法,其特征在于,所述根据所述待抽取要素类型抽取所述原始文本的文本要素的步骤包括:
通过词典匹配技术和命名实体识别技术抽取所述新闻文本中的所述涉及地点及/或涉及机构;
通过所述命名实体识别技术抽取所述新闻文本中的所述涉及人物;
通过正则匹配抽取所述新闻文本中的所述涉及时间;
通过调用分类算法确定所述新闻文本的新闻主题。
4.如权利要求1所述的基于知识图谱的文本聚类方法,其特征在于,所述统计所述文本要素间的交互关系,并根据统计结果计算所述交互关系的归一化概率的步骤包括:
获取所述文本要素间的交互关系,并统计所述交互关系的出现次数;
根据所述交互关系的出现次数计算所述交互关系的所述归一化概率。
5.如权利要求4所述的基于知识图谱的文本聚类方法,其特征在于,所述根据所述交互关系的出现次数计算所述交互关系的所述归一化概率的步骤包括:
根据所述交互关系的出现次数确定与预设文本要素关联的交互关系总数,及预设交互关系总数;
根据所述与预设文本要素关联的交互关系总数,及所述预设交互关系总数计算所述交互关系的所述归一化概率。
6.如权利要求1所述的基于知识图谱的文本聚类方法,其特征在于,所述根据所述归一化概率构建知识图谱,并根据所述知识图谱对所述原始文本进行聚类的步骤包括:
通过预设算法及所述归一化概率模拟信息流动;
根据模拟结果及信息传递聚类算法对所述原始文本进行聚类。
7.如权利要求6所述的基于知识图谱的文本聚类方法,其特征在于,所述预设算法为Node2vec算法。
8.如权利要求6所述的基于知识图谱的文本聚类方法,其特征在于,所述信息传递聚类算法为AP聚类算法。
9.一种基于知识图谱的文本聚类装置,其特征在于,所述基于知识图谱的文本聚类装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本聚类程序,所述文本聚类程序被所述处理器执行时实现如权利要求1至8中任一项所述的基于知识图谱的文本聚类方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质介质上存储有文本聚类程序,所述文本聚类程序被处理器执行时实现如权利要求1至8中任一项所述的基于知识图谱的文本聚类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811323010.3A CN109543034B (zh) | 2018-11-07 | 2018-11-07 | 基于知识图谱的文本聚类方法、装置及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811323010.3A CN109543034B (zh) | 2018-11-07 | 2018-11-07 | 基于知识图谱的文本聚类方法、装置及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109543034A true CN109543034A (zh) | 2019-03-29 |
CN109543034B CN109543034B (zh) | 2021-07-16 |
Family
ID=65844817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811323010.3A Active CN109543034B (zh) | 2018-11-07 | 2018-11-07 | 基于知识图谱的文本聚类方法、装置及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109543034B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704636A (zh) * | 2019-09-27 | 2020-01-17 | 吉林大学 | 一种改进的基于Node2vec的知识图谱向量表示方法 |
CN111158746A (zh) * | 2019-12-31 | 2020-05-15 | 中国银行股份有限公司 | 一种调用关系的获取方法及装置 |
CN111811818A (zh) * | 2020-06-02 | 2020-10-23 | 桂林电子科技大学 | 基于指定聚类数目ap聚类算法的滚动轴承故障诊断方法 |
CN111813955A (zh) * | 2020-07-01 | 2020-10-23 | 浙江工商大学 | 一种基于知识图谱表示学习的服务聚类方法 |
CN111881300A (zh) * | 2020-07-03 | 2020-11-03 | 扬州大学 | 面向第三方库依赖的知识图谱构建方法及系统 |
CN112036165A (zh) * | 2019-05-14 | 2020-12-04 | 西交利物浦大学 | 一种新闻特征向量的构建方法及应用 |
CN112417082A (zh) * | 2020-10-14 | 2021-02-26 | 西南科技大学 | 一种科研成果数据消歧归档存储方法 |
CN113033201A (zh) * | 2020-11-06 | 2021-06-25 | 新华智云科技有限公司 | 一种地震新闻信息抽取方法及其系统 |
CN114818681A (zh) * | 2022-06-24 | 2022-07-29 | 西南财经大学 | 一种实体识别方法及系统、计算机可读存储介质及终端 |
CN115767204A (zh) * | 2022-11-10 | 2023-03-07 | 北京奇艺世纪科技有限公司 | 一种视频处理方法、电子设备及存储介质 |
CN118692693A (zh) * | 2024-08-26 | 2024-09-24 | 贵阳康养职业大学 | 一种基于文本分析的康养服务需求挖掘方法及系统 |
CN118692693B (zh) * | 2024-08-26 | 2024-10-25 | 贵阳康养职业大学 | 一种基于文本分析的康养服务需求挖掘方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391942A (zh) * | 2014-11-25 | 2015-03-04 | 中国科学院自动化研究所 | 基于语义图谱的短文本特征扩展方法 |
US9015160B2 (en) * | 2011-12-14 | 2015-04-21 | Brainspace Corporation | Multi-concept latent semantic analysis queries |
CN105468605A (zh) * | 2014-08-25 | 2016-04-06 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
CN107633044A (zh) * | 2017-09-14 | 2018-01-26 | 国家计算机网络与信息安全管理中心 | 一种基于热点事件的舆情知识图谱构建方法 |
CN108763333A (zh) * | 2018-05-11 | 2018-11-06 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
-
2018
- 2018-11-07 CN CN201811323010.3A patent/CN109543034B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9015160B2 (en) * | 2011-12-14 | 2015-04-21 | Brainspace Corporation | Multi-concept latent semantic analysis queries |
CN105468605A (zh) * | 2014-08-25 | 2016-04-06 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
CN104391942A (zh) * | 2014-11-25 | 2015-03-04 | 中国科学院自动化研究所 | 基于语义图谱的短文本特征扩展方法 |
CN107633044A (zh) * | 2017-09-14 | 2018-01-26 | 国家计算机网络与信息安全管理中心 | 一种基于热点事件的舆情知识图谱构建方法 |
CN108763333A (zh) * | 2018-05-11 | 2018-11-06 | 北京航空航天大学 | 一种基于社会媒体的事件图谱构建方法 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036165A (zh) * | 2019-05-14 | 2020-12-04 | 西交利物浦大学 | 一种新闻特征向量的构建方法及应用 |
CN110704636A (zh) * | 2019-09-27 | 2020-01-17 | 吉林大学 | 一种改进的基于Node2vec的知识图谱向量表示方法 |
CN111158746A (zh) * | 2019-12-31 | 2020-05-15 | 中国银行股份有限公司 | 一种调用关系的获取方法及装置 |
CN111158746B (zh) * | 2019-12-31 | 2024-01-23 | 中国银行股份有限公司 | 一种调用关系的获取方法及装置 |
CN111811818A (zh) * | 2020-06-02 | 2020-10-23 | 桂林电子科技大学 | 基于指定聚类数目ap聚类算法的滚动轴承故障诊断方法 |
CN111811818B (zh) * | 2020-06-02 | 2022-02-01 | 桂林电子科技大学 | 基于指定聚类数目ap聚类算法的滚动轴承故障诊断方法 |
CN111813955B (zh) * | 2020-07-01 | 2021-10-19 | 浙江工商大学 | 一种基于知识图谱表示学习的服务聚类方法 |
CN111813955A (zh) * | 2020-07-01 | 2020-10-23 | 浙江工商大学 | 一种基于知识图谱表示学习的服务聚类方法 |
CN111881300A (zh) * | 2020-07-03 | 2020-11-03 | 扬州大学 | 面向第三方库依赖的知识图谱构建方法及系统 |
CN112417082A (zh) * | 2020-10-14 | 2021-02-26 | 西南科技大学 | 一种科研成果数据消歧归档存储方法 |
CN113033201A (zh) * | 2020-11-06 | 2021-06-25 | 新华智云科技有限公司 | 一种地震新闻信息抽取方法及其系统 |
CN114818681A (zh) * | 2022-06-24 | 2022-07-29 | 西南财经大学 | 一种实体识别方法及系统、计算机可读存储介质及终端 |
CN114818681B (zh) * | 2022-06-24 | 2022-10-11 | 西南财经大学 | 一种实体识别方法及系统、计算机可读存储介质及终端 |
CN115767204A (zh) * | 2022-11-10 | 2023-03-07 | 北京奇艺世纪科技有限公司 | 一种视频处理方法、电子设备及存储介质 |
CN118692693A (zh) * | 2024-08-26 | 2024-09-24 | 贵阳康养职业大学 | 一种基于文本分析的康养服务需求挖掘方法及系统 |
CN118692693B (zh) * | 2024-08-26 | 2024-10-25 | 贵阳康养职业大学 | 一种基于文本分析的康养服务需求挖掘方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109543034B (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543034A (zh) | 基于知识图谱的文本聚类方法、装置及可读存储介质 | |
Li et al. | Analyzing COVID-19 on online social media: Trends, sentiments and emotions | |
El‐Assady et al. | NEREx: Named‐entity relationship exploration in multi‐party conversations | |
CN108038205B (zh) | 针对中文微博的观点分析原型系统 | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
Ju et al. | Things and strings: improving place name disambiguation from short texts by combining entity co-occurrence with topic modeling | |
CN109543031A (zh) | 一种基于多任务对抗学习的文本分类方法 | |
CN105528437A (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
Celli et al. | Relationships between personality and interactions in facebook | |
CN109815485A (zh) | 一种微博短文本情感极性识别的方法、装置及存储介质 | |
Shi et al. | Automatic generation of meteorological briefing by event knowledge guided summarization model | |
van Loon | Three families of automated text analysis | |
Deraman et al. | A social media mining using topic modeling and sentiment analysis on tourism in Malaysia during COVID19 | |
Liu | [Retracted] On the Training Mode of Innovative and Entrepreneurial Talents in Higher Vocational Finance and Economics Professional Groups under the Background of “Big Wisdom and Cloud” | |
Yan et al. | Two Diverging roads: a semantic network analysis of chinese social connection (“guanxi”) on Twitter | |
KR20130068624A (ko) | 화자 그룹 기반 음성인식 장치 및 방법 | |
CN110019556A (zh) | 一种话题新闻获取方法、装置及其设备 | |
Maltseva et al. | Topic modeling of russian-language texts using the parts-of-speech composition of topics (on the example of volunteer movement semantics in social media) | |
Li et al. | NFRNet: a deep neural network for automatic classification of non-functional requirements | |
CN116450827A (zh) | 一种基于大规模语言模型的事件模板归纳方法和系统 | |
CN116578697A (zh) | 一种面向金融的语言情感分析和标注方法 | |
Li et al. | Short text sentiment analysis based on convolutional neural network | |
Luo et al. | Research on civic hotline complaint text classification model based on word2vec | |
Liang et al. | Exploring online reviews for user experience modeling | |
Elahi et al. | An Examination of Cross-Cultural Similarities and Differences from Social Media Data with respect to Language Use. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |