CN111368553A - 智能词云图数据处理方法、装置、设备及存储介质 - Google Patents
智能词云图数据处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111368553A CN111368553A CN202010126063.7A CN202010126063A CN111368553A CN 111368553 A CN111368553 A CN 111368553A CN 202010126063 A CN202010126063 A CN 202010126063A CN 111368553 A CN111368553 A CN 111368553A
- Authority
- CN
- China
- Prior art keywords
- sentence
- original
- display content
- similarity
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims description 17
- 238000000034 method Methods 0.000 claims abstract description 60
- 230000006698 induction Effects 0.000 claims abstract description 27
- 239000013598 vector Substances 0.000 claims description 54
- 230000000295 complement effect Effects 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000001939 inductive effect Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 9
- 230000003993 interaction Effects 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 230000036651 mood Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000003086 colorant Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种智能词云图数据处理方法、装置、设备及存储介质,该方法包括获取原始文本数据集,所述原始文本数据集中包含有多个原始语句;确定每个所述原始语句之间的句子相似度,根据所述句子相似度进行所述原始语句的聚类得到第一显示内容;对所述第一显示内容进行归纳处理,得到第二显示内容;将所述第二显示内容进行展示。本方案提高了词云图交互效率以及显示效果,显示内容更加清晰明了。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种智能词云图数据处理方法、装置、设备及存储介质。
背景技术
词云图也称文字云,在词云图的显示过程,会在收集到的文字内容中选择出现频率较高的词、句子进行显示,通常在显示过程中基于词出现的频率的不同显示文字被赋予不同大小和显示颜色。示例性的,频率出现最高的词字体字号越大,同时可显示在显示界面的中心位置,一些出现频率较低的词,则显示在出现频率较高的词的周围。通过词云图的显示方式,可以使浏览者第一时间直观的了解文字大意,而略过其他无用信息。
由于词云图的众多优点,其应用场景也越来越广泛,如在课堂交互场景中,老师可提出一个问题,每个学生的作答内容可以以词云图的方式进行展示。在实现本发明的过程中,发明人发现现有技术存在如下缺陷:按词频统计的方法没办法把描述不同但语义相同的句子合并起来,如”开心“与”高兴“同样都是描述心情很好,可以只展示其中一个词,但是现有的技术方案会把这两个词同时展示,造成信息冗余,让词云图看起来非常密,不利于老师了解学生的回答情况。当学生的回答内容是句子形式的时候,现有的技术方案有两个选择,一个是直接显示句子,另一个是进行分词后再显示,无论采取哪种方式,其都存在较大弊端,直接显示句子会让词云图的内容非常多,无法凸显重点;进行分词会让把学生的回答切分成几个词,无法聚焦,老师不能完整地知道学生真正想表达的内容。
发明内容
有鉴于此,本发明实施例提供了一种智能词云图数据处理方法、装置、设备及存储介质,提高了词云图交互效率以及显示效果,显示内容更加清晰明了。
第一方面,本发明实施例提供了一种智能词云图数据处理方法,包括:
获取原始文本数据集,所述原始文本数据集中包含有多个原始语句;
确定每个所述原始语句之间的句子相似度,根据所述句子相似度进行所述原始语句的聚类得到第一显示内容;
对所述第一显示内容进行归纳处理,得到第二显示内容;
将所述第二显示内容进行展示。
可选的,所述确定每个所述原始语句之间的句子相似度,包括:
通过预训练模型对每个所述原始语句进行编码得到每个所述原始语句对应的句子向量;
根据每个所述原始语句对应的句子向量计算得到每个所述原始语句之间的句子相似度。
可选的,所述确定每个所述原始语句之间的句子相似度,包括:
提取每个所述原始语句中的关键词,通过预训练模型对每个关键词进行编码得到每个所述原始语句对应的关键词向量;
根据每个所述原始语句对应的关键词向量和句子向量计算得到每个所述原始语句之间的句子相似度。
可选的,所述根据每个所述原始语句对应的关键词向量和句子向量计算得到每个所述原始语句之间的句子相似度,包括:
计算每个所述原始语句对应的关键词向量的余弦相似度,以及对应的句子的余弦相似度;
依据预设比例对所述关键词向量的余弦相似度和所述句子的余弦相似度进行加权融合得到每个所述原始语句之间的句子相似度。
可选的,所述根据所述句子相似度进行所述原始语句的聚类得到第一显示内容,包括:
根据所述句子相似度进行所述原始语句的聚类得到多个不同聚类类别;
确定每个所述聚类类别下原始语句的平均相似度,将平均相似度最高的原始语句确定为第一显示内容。
可选的,所述对所述第一显示内容进行归纳处理,得到第二显示内容,包括:
对所述第一显示内容中的每个语句进行分词、词性标注和依存句法分析处理得到待处理语句,提取所述待处理语句的句子主干信息;
将所述句子主干信息进行连接得到第二显示内容。
可选的,所述提取所述待处理语句的句子主干信息,包括:
提取所述待处理语句的主语和谓语,确定所述待处理语句是否存在补语,如果存在补语,则提取所述待处理语句的补语,如果不存在则提取所述待处理语句的宾语。
可选的,在确定所述待处理语句是否存在补语,还包括:
确定所述待处理语句是否存在并列语,如果是,则提取所述待处理语句中的并列语。
可选的,在提取所述待处理语句的主语之后,还包括:
确定所述待处理语句中是否存在否定副词,如果是,则提取所述待处理语句中的否定副词。
可选的,将所述句子主干信息进行连接得到第二显示内容,包括:
将所述句子主干信息进行连接,确定语句通顺度;
如果满足预设条件,则将所述句子主干信息的连接结果确定为第二显示内容。
可选的,所述确定语句通顺度,如果满足预设条件,则将所述句子主干信息的连接结果确定为第二显示内容,包括:
通过预设语言模型验证语句通顺度得到语句困惑度值;
如果所述语句困惑度值小于设定阈值时,将所述句子主干信息的连接结果确定为第二显示内容。
第二方面,本发明实施例还提供一种智能词云图数据处理装置,包括:
数据获取模块,用于获取原始文本数据集,所述原始文本数据集中包含有多个原始语句;
语句聚类模块,用于确定每个所述原始语句之间的句子相似度,根据所述句子相似度进行所述原始语句的聚类得到第一显示内容;
语句归纳模块,用于对所述第一显示内容进行归纳处理,得到第二显示内容;
数据显示模块,用于将所述第二显示内容进行展示。
第三方面,本发明实施例还提供一种智能词云图数据处理设备,包括:存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的智能词云图数据处理方法。
第四方面,本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的智能词云图数据处理方法。
上述提供的智能词云图数据处理方法、装置、设备及存储介质,确定每个原始语句之间的句子相似度,根据句子相似度进行原始语句的聚类得到第一显示内容,将语义相近但表述不同的句子聚合到一起,显著的优化了词云图的显示效果,对聚类完毕后的语句再进行归纳处理,得到第二显示内容,使得词云图的显示内容更加简洁。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例提供的一种智能词云图数据处理方法的流程图;
图2为现有技术中的依据原始语句频率进行的词云图显示界面示意图;
图3为本发明实施例提供的词云图显示界面示意图;
图4为本发明实施例提供的另一种智能词云图数据处理方法的流程图;
图5为本发明实施例提供的另一种智能词云图数据处理方法的流程图;
图6为本发明实施例提供的另一种智能词云图数据处理方法的流程图;
图7为本发明实施例提供的另一种智能词云图数据处理方法的流程图;
图8为本发明实施例提供的另一种智能词云图数据处理方法的流程图;
图9为本发明实施例提供的另一种智能词云图数据处理方法的流程图;
图10为本发明实施例六提供的一种智能词云图数据处理装置的结构示意图;
图11为本发明实施例七提供的一种智能词云图数据处理设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或操作或对象与另一个实体或操作或对象区分开来,而不一定要求或者暗示这些实体或操作或对象之前存在任何这种实际的关系或顺序。例如,第一操作指令和第二操作指令的“第一”和“第二”用来区分两个不同的指令操作。
本申请实施例中提供的智能词云图数据处理方法可以由智能词云图数据处理设备执行,该智能词云图数据处理设备可以通过软件和/或硬件的方式实现,该智能词云图数据处理设备可以是两个或多个物理实体构成,也可以是一个物理实体构成。例如,智能词云图数据处理设备可以云服务器或电脑终端设备等。
图1为本申请实施例提供的一种智能词云图数据处理方法的流程图。参考图1,该智能词云图数据处理方法具体包括:
S101、获取原始文本数据集。
其中,原始文本数据为需要通过词云图形式显示的原始语句的集合。示例性的,该原始文本数据集中的原始语句可以是学生回答老师问题的语句。如老师在课堂上提出问题:“请用一句话或一个词描述你现在的心情”,每位学生对该问题进行回答,每个回答结果作为一个原始语句。该原始语句可以是一个文字、词组、短句或长句,可以是中文、英文等不同文字语言。
S102、确定每个原始语句之间的句子相似度,根据所述句子相似度进行所述原始语句的聚类得到第一显示内容。
句子相似度表征了原始语句之间的相似程度。例如,原始文本数据集中包含有50个原始语句,分别为原始语句1、原始语句2至原始语句50,计算过程中可确定原始语句1和其他剩余原始语句之间的相似度,原始语句2至原始语句50同理。
在确定出每个原始语句和其他原始语句的句子相似度后,根据该句子相似度进行原始语句的聚类。如原始语句1、原始语句15、原始语句18和原始语句37的句子相似度较高,则将原始语句1、原始语句15、原始语句18和原始语句37进行聚类,确定为一个聚类类别。同理,对原始文本数据集中包含的所有原始语句均依据句子相似度进行聚类操作得到1个或多个聚类类别。
在一个实施例中,可随机的在每个聚类类别下,挑选一个原始语句作为第一显示内容,如通过对原始语句的聚类操作得到15个聚类类别,每个聚类类别中随机选取一原始原句作为第一显示内容。
其中,该第一显示内容包含一个或多个确定出的需要显示的原始语句,为在词云图显示时所显示的具体文字内容。
S103、对所述第一显示内容进行归纳处理,得到第二显示内容。
在一个实施例中,针对聚类处理后得到的第一显示内容进行归纳处理,通过归纳处理以得到第一显示内容中每个句子的核心表达内容,即中心思想。示例性的,一个语句中包含15个文字,通过对该语句进行归纳处理将其简化为6个文字或更少。将第一显示内容中所有归纳处理后得到的语句确定为第二显示内容。
S104、将所述第二显示内容进行展示。
其中,该第一显示内容为对原始语句进行聚类后得到的显示内容,第二显示内容为对第一显示内容语句进行归纳处理、简化后的显示内容。
现有技术方案中,在词云图显示时,仅根据每个原始语句的出现频率大小对其按频率高低的不同进行直接显示,由此使词云图的显示内容混乱,重点不突出,其交互性和显示效果较差。
在一个实施例中,以老师提出问题:“请用一句话或一个词描述你现在的心情”为例,对学生回答问题的结果采取词云图的方式进行显示,如图2所示,图2为现有技术中的依据原始语句频率进行的词云图显示界面示意图,由图可知,其显示内容较多,不易学生和老师进行直观的观察,且部分显示内容冗余度较高。如图3所示,图3为本发明实施例提供的词云图显示界面示意图,通过对原始语句进行聚类处理,将许多重复的语句进行合并,如将“高兴”和“高兴的”合并为“高兴”并进行显示,使得显示界面清晰、明了,针对冗余的复杂语句通过归纳处理,进行了简化,如将“现在的心情很平静”归纳简化为了“心情平静”,使得表达内容和交互效果更佳。
本实施例提供的技术方案中,确定每个原始语句之间的句子相似度,根据句子相似度进行所述原始语句的聚类得到第一显示内容,将语义相近但表述不同的句子聚合到一起,显著的优化了词云图的显示效果,对第一显示内容进行归纳处理,得到第二显示内容,使得词云图的显示内容更加简洁。
在一个可能的实施例中,在对语句进行归纳处理时,判断语句包含的文本长度,如果文本长度大于预设长度(如7个文本字符以上),则进行归纳处理,由此,进一步提高了归纳处理效率。
在一个可能的实施例中,还可以是,在获取到原始文本数据集后,先对其中的原始语句进行归纳处理,再对归纳处理后的结果进行聚类处理。可选的,在获取原始文本数据集后确定其中包含的原始语句的平均字符长度,如果平均字符长度大于预设字符长度(如10个字符)则先进行归纳处理,后进行聚类处理。由此进一步提高词云图数据处理效率。
图4为本发明实施例提供的另一种智能词云图数据处理方法的流程图,给出了一种具体的确定每个原始语句之间的句子相似度的方法。具体的,参考图4,该智能词云图数据处理方法具体包括:
步骤S201、获取原始文本数据集。
步骤S202、通过预训练模型对每个原始语句进行编码得到每个原始语句对应的句子向量,根据每个原始语句对应的句子向量计算得到每个原始语句之间的句子相似度。
在一个实施例中,该预训练模型可以是Bert预训练模型,通过Bert预训练模型对每个原始语句进行编码得到每个原始语句对应的句子向量(如512维的向量)。计算每个原始语句之间的句子相似度时,根据得到的句子向量采用余弦相似度计算方法计算句子之间的相似度值,句子向量S与句子向量T的相似度值计算如下:
其中,Si表示句子向量S的第i维,Ti表示句子向量T的第i维,n代表向量维度。
步骤S203、根据所述句子相似度进行所述原始语句的聚类得到第一显示内容。
在一个实施例中,针对每一个原始语句按照步骤S202描述的方式得到该原始语句和其他语句的句子相似度,设定相似度阈值为0.85,将大于该相似度阈值的原始语句与该原始语句划分在同一组,在该组中可随机选取一原始语句作为第一显示内容。同理,将所有原始语句进行聚类划分后,在得到的每一组中选择一原始语句共同组成第一显示内容。
步骤S204、对所述第一显示内容进行归纳处理,得到第二显示内容。
步骤S205、将所述第二显示内容进行展示。
本实施例提供的技术方案中,通过使用预训练模型对原始语句进行编码得到句子向量后,计算相似度并进行聚类合并以最终得到第一显示内容,提高了聚类效率,简化了聚类处理步骤。
图5为本发明实施例提供的另一种智能词云图数据处理方法的流程图,给出了另一种具体的确定每个原始语句之间的句子相似度的方法。具体的,参考图5,该智能词云图数据处理方法具体包括:
步骤S301、获取原始文本数据集。
步骤S302、提取每个原始语句中的关键词,通过预训练模型对每个关键词进行编码得到每个原始语句对应的关键词向量,根据每个原始语句对应的关键词向量计算得到每个原始语句之间的句子相似度。
在一个实施例中,首先提取每个原始语句中的关键词,通过预训练模型对每个关键词进行编码后得到关键词向量,在根据关键词向量计算得到每个原始语句之间的句子相似度,具体计算方式可同样采用计算余弦相似度值的方式,此处不再赘述。
步骤S303、根据所述句子相似度进行所述原始语句的聚类得到第一显示内容。
步骤S304、对所述第一显示内容进行归纳处理,得到第二显示内容。
步骤S305、将所述第二显示内容进行展示。
本实施例提供的技术方案中,通过对原始语句提取关键词,计算关键词的向量并基于关键词向量来计算原始语句之间的相似度,显著的减少了数据计算量,同时使得聚类效果更佳,可以准确的进行原始语句的分类。
图6为本发明实施例提供的另一种智能词云图数据处理方法的流程图,给出了另一种具体的确定每个原始语句之间的句子相似度的方法。具体的,参考图6,该智能词云图数据处理方法具体包括:
步骤S401、获取原始文本数据集。
步骤S402、通过预训练模型对每个原始语句进行编码得到每个所述原始语句对应的句子向量,提取每个所述原始语句中的关键词,通过预训练模型对每个关键词进行编码得到每个所述原始语句对应的关键词向量。
步骤S403、根据每个所述原始语句对应的关键词向量和句子向量计算得到每个所述原始语句之间的句子相似度。
在一个实施例中,通过预训练模型分别得到原始语句整句对应的句子向量以及提取关键词后得到的关键词向量,将二者进行结合确定出原始语句之间的句子相似度。如按照1:1的比例进行加权融合得到最终的句子相似度,示例性的,以原始语句a和原始语句b为例,二者根据句子向量计算得到的相似度值为0.81,二者根据关键词向量计算得到的相似度值为0.73,则最终确定出的二者相似度值为0.77。
步骤S404、根据所述句子相似度进行所述原始语句的聚类得到第一显示内容。
步骤S405、对所述第一显示内容进行归纳处理,得到第二显示内容。
步骤S406、将所述第二显示内容进行展示。
本实施例提供的技术方案中,在进行原始语句之间相似度计算时,分别计算句子向量相似度和关键词向量相似度,使得最终计算得到的结果误差更小,进一步提高了聚类准确率。
图7为本发明实施例提供的另一种智能词云图数据处理方法的流程图,给出了一种具体的根据句子相似度进行原始语句的聚类得到第一显示内容的方法。具体的,参考图7,该智能词云图数据处理方法具体包括:
步骤S501、获取原始文本数据集。
步骤S502、确定每个原始语句之间的句子相似度。
步骤S503、根据所述句子相似度进行所述原始语句的聚类得到多个不同聚类类别,确定每个所述聚类类别下原始语句的平均相似度,将平均相似度最高的原始语句确定为第一显示内容。
在一个实施例中,在得到多个聚类类别后,确定每个聚类类别下每个原始语句的平均相似度,将平均相似度最高的原始语句确定为第一显示内容。具体的,针对每个原始语句,计算与其在同一聚类类别下的其他句子的平均相似度M(Si),公式如下:
其中,Si,Sj表示第i,j个句子,k表示与Si相似的句子个数。同样,对该类下的其它句子,计算平均相似度,取平均相似度最大的句子代表该类,显示到词云图中。
步骤S504、对所述第一显示内容进行归纳处理,得到第二显示内容。
步骤S505、将所述第二显示内容进行展示。
本实施例提供的技术方案中,确定每个聚类类别下每个原始语句的平均相似度,将平均相似度最高的原始语句确定为第一显示内容,使得词云图中显示的每个语句更具有代表性,提高了词云图的交互效果,更加准确明了的进行文字展示。
图8为本发明实施例提供的另一种智能词云图数据处理方法的流程图,给出了一种具体的对第一显示内容进行归纳处理,得到第二显示内容的方法。具体的,参考图8,该智能词云图数据处理方法具体包括:
步骤S601、获取原始文本数据集。
步骤S602、确定每个原始语句之间的句子相似度,根据所述句子相似度进行所述原始语句的聚类得到第一显示内容。
步骤S603、对所述第一显示内容进行分词、词性标注和依存句法分析处理得到待处理语句,提取所述待处理语句的句子主干信息,将所述句子主干信息进行连接得到第二显示内容。
在一个实施例中,采取分词、词性标注和依存句法分析处理的方式对第一显示内容进行预处理操作得到待处理语句,针对待处理语句进行句子主干信息的提取。具体的,提取方式可以是:提取所述待处理语句的主语和谓语,确定所述待处理语句是否存在补语,如果存在补语,则提取所述待处理语句的补语,如果不存在则提取所述待处理语句的宾语。在确定所述待处理语句是否存在补语,还包括:确定所述待处理语句是否存在并列语,如果是,则提取所述待处理语句中的并列语。在提取所述待处理语句的主语之后,还包括:确定所述待处理语句中是否存在否定副词,如果是,则提取所述待处理语句中的否定副词。
步骤S604、将所述第二显示内容进行展示。
本实施例提供的技术方案中,首先第一显示内容进行预处理,根据得到的待处理语句的主谓宾内容以及动补结构、并列关系等进行主干信息的提取,对原始语句进行了显著的简化,同时简化后的内容可以清晰的表达原始语句想要表达的含义。
图9为本发明实施例提供的另一种智能词云图数据处理方法的流程图,给出了一种具体的将所述句子主干信息进行连接得到第二显示内容的方法。具体的,参考图9,该智能词云图数据处理方法具体包括:
步骤S701、获取原始文本数据集。
步骤S702、确定每个原始语句之间的句子相似度,根据所述句子相似度进行所述原始语句的聚类得到第一显示内容。
步骤S703、对所述第一显示内容进行分词、词性标注和依存句法分析处理得到待处理语句,提取所述待处理语句的句子主干信息。
步骤S704、将所述句子主干信息进行连接,确定语句通顺度,如果满足预设条件,则将所述句子主干信息的连接结果确定为第二显示内容。
在一个实施例中,预设语言模型(如tri-gram语言模型)验证语句通顺度得到语句困惑度值,具体的,可采用如下公式进行计算:
其中,wi表示句子中的第i个词,N代表句子长度,对于tri-gram语言模型存在:
P(w1w2…wN)=P(w1)×P(w2|w1)×…×P(wn|wn-1wn-2)
在得到语句困惑度值后,如果语句困惑度值小于设定阈值时,则将句子主干信息的连接结果确定为第二显示内容。相应的,如果得到的语句困惑度值较大,则意味着得到的语句通顺度较差,不将其作为第二显示内容进行显示。
步骤S705、将所述第二显示内容进行展示。
本实施例提供的技术方案中,在对原始语句进行归纳处理得到第二显示内容是,引入确定语句通顺度的机制,将通顺度满足条件的语句确定为第二显示内容,使得词云图的显示结果符合语句规律,使得交互体验更佳。
图10为本发明实施例六提供的一种智能词云图数据处理装置的结构示意图。参考图10,该智能词云图数据处理装置包括:数据获取模块101、语句聚类模块102、语句归纳模块103以及数据显示模块104。
其中,数据获取模块101,用于获取原始文本数据集,所述原始文本数据集中包含有多个原始语句;语句聚类模块102,用于确定每个所述原始语句之间的句子相似度,根据所述句子相似度进行所述原始语句的聚类得到第一显示内容;语句归纳模块103,用于对所述第一显示内容进行归纳处理,得到第二显示内容;数据显示模块104,用于将所述第二显示内容进行展示。
本实施例提供的技术方案,通过确定每个原始语句之间的句子相似度,根据句子相似度进行所述原始语句的聚类得到第一显示内容,将语义相近但表述不同的句子聚合到一起,显著的优化了词云图的显示效果,对第一显示内容进行归纳处理,得到第二显示内容,使得词云图的显示内容更加简洁。
可选的,所述语句聚类模块102具体用于:
通过预训练模型对每个所述原始语句进行编码得到每个所述原始语句对应的句子向量;
根据每个所述原始语句对应的句子向量计算得到每个所述原始语句之间的句子相似度。
可选的,所述语句聚类模块102具体用于:
提取每个所述原始语句中的关键词,通过预训练模型对每个关键词进行编码得到每个所述原始语句对应的关键词向量;
根据每个所述原始语句对应的关键词向量和句子向量计算得到每个所述原始语句之间的句子相似度。
可选的,所述语句聚类模块102具体用于:
计算每个所述原始语句对应的关键词向量的余弦相似度,以及对应的句子的余弦相似度;
依据预设比例对所述关键词向量的余弦相似度和所述句子的余弦相似度进行加权融合得到每个所述原始语句之间的句子相似度。
可选的,所述语句聚类模块102具体用于:
根据所述句子相似度进行所述原始语句的聚类得到多个不同聚类类别;
确定每个所述聚类类别下原始语句的平均相似度,将平均相似度最高的原始语句确定为第一显示内容。
可选的,所述语句归纳模块103具体用于:
对所述第一显示内容中的每个语句进行分词、词性标注和依存句法分析处理得到待处理语句,提取所述待处理语句的句子主干信息;
将所述句子主干信息进行连接得到第二显示内容。
可选的,所述语句归纳模块103具体用于:
提取所述待处理语句的主语和谓语,确定所述待处理语句是否存在补语,如果存在补语,则提取所述待处理语句的补语,如果不存在则提取所述待处理语句的宾语。
可选的,所述语句归纳模块103还用于:
确定所述待处理语句是否存在并列语,如果是,则提取所述待处理语句中的并列语。
可选的,所述语句归纳模块103还用于:
确定所述待处理语句中是否存在否定副词,如果是,则提取所述待处理语句中的否定副词。
可选的,所述语句归纳模块103具体用于:
将所述句子主干信息进行连接,确定语句通顺度;
如果满足预设条件,则将所述句子主干信息的连接结果确定为第二显示内容。
可选的,所述所述语句归纳模块103具体用于:
通过预设语言模型验证语句通顺度得到语句困惑度值;
如果所述语句困惑度值小于设定阈值时,将所述句子主干信息的连接结果确定为第二显示内容。
图11为本发明实施例七提供的一种智能词云图数据处理设备的结构示意图。如图11所示,该智能词云图数据处理设备包括至少一个处理器61、至少一个网络接口62、用户接口63、存储器64以及至少一个通信总线65。
其中,通信总线65用于实现这些组件之间的连接通信。
其中,用户接口62可以包括按钮、摄像头,可选用户接口63还可以包括标准的有线接口、无线接口。其中,网络接口62可选包括标准的有线接口、无线接口(如Wi-Fi接口)。
其中,处理器61可以包括一个或多个处理核心。处理器61利用各种接口和线路连接整个智能词云图处理设备60内的各个部分,通过运行或执行存储在处理器61内的指令、程序、代码集或指令集,以及调用存储在存储器64内的数据,执行智能词云图数据处理设备60的各种功能和处理数据。可选的,处理器61可以采用数字信号处理(Digital SignalProcessing,DSP)、现场可编程门阵列(Field-Programmable GateArray,FPGA)、可编程逻辑阵列(Programmable logic arrays,PLA)中的至少一种硬件形式来实现。处理器61可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics ProcessingUnit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制,两个显示屏可以共用同一GPU,或者每个显示屏对应一个GPU;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器61中,单独通过一块芯片进行实现。
其中,存储器64可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器64包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器64可用于存储指令、程序、代码、代码集或指令集。存储器64可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器64可选的还可以是至少一个位于远离前述处理器61的存储装置。如图11所示,作为一种计算机存储介质的存储器64中可以包括操作系统、网络通信模块、用户接口模块以及智能词云图数据处理设备的操作应用程序。
在图11所示的智能词云图数据处理设备60中,用户接口63主要用于为用户提供输入的接口,获取用户输入的指令;而处理器61可以用于调用存储器64中存储的智能词云图数据处理设备的操作应用程序,并具体执行上述实施例中智能词云图数据处理方法中的相关操作。
上述提供的智能词云图数据处理设备可用于执行上述任意实施例提供的智能词云图数据处理方法,具备相应的功能和有益效果。
本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种智能词云图数据处理方法,包括:
获取原始文本数据集,所述原始文本数据集中包含有多个原始语句;
确定每个所述原始语句之间的句子相似度,根据所述句子相似度进行所述原始语句的聚类得到第一显示内容;
对所述第一显示内容进行归纳处理,得到第二显示内容;
将所述第二显示内容进行展示。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的智能词云图数据处理的操作,还可以执行本发明任意实施例所提供的智能词云图数据处理方法中的相关操作,且具备相应的功能和有益效果。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是机器人,个人计算机,服务器,或者网络设备等)执行本发明任意实施例所述的智能词云图数据处理方法。
值得注意的是,上述智能词云图数据处理装置中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (14)
1.一种智能词云图数据处理方法,其特征在于,包括:
获取原始文本数据集,所述原始文本数据集中包含有多个原始语句;
确定每个所述原始语句之间的句子相似度,根据所述句子相似度进行所述原始语句的聚类得到第一显示内容;
对所述第一显示内容进行归纳处理,得到第二显示内容;
将所述第二显示内容进行展示。
2.根据权利要求1所述的方法,其特征在于,所述确定每个所述原始语句之间的句子相似度,包括:
通过预训练模型对每个所述原始语句进行编码得到每个所述原始语句对应的句子向量;
根据每个所述原始语句对应的句子向量计算得到每个所述原始语句之间的句子相似度。
3.根据权利要求2所述的方法,其特征在于,所述确定每个所述原始语句之间的句子相似度,包括:
提取每个所述原始语句中的关键词,通过预训练模型对每个关键词进行编码得到每个所述原始语句对应的关键词向量;
根据每个所述原始语句对应的关键词向量和句子向量计算得到每个所述原始语句之间的句子相似度。
4.根据权利要求3所述的方法,其特征在于,所述根据每个所述原始语句对应的关键词向量和句子向量计算得到每个所述原始语句之间的句子相似度,包括:
计算每个所述原始语句对应的关键词向量的余弦相似度,以及对应的句子的余弦相似度;
依据预设比例对所述关键词向量的余弦相似度和所述句子的余弦相似度进行加权融合得到每个所述原始语句之间的句子相似度。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述根据所述句子相似度进行所述原始语句的聚类得到第一显示内容,包括:
根据所述句子相似度进行所述原始语句的聚类得到多个不同聚类类别;
确定每个所述聚类类别下原始语句的平均相似度,将平均相似度最高的原始语句确定为第一显示内容。
6.根据权利要求1所述的方法,其特征在于,所述对所述第一显示内容进行归纳处理,得到第二显示内容,包括:
对所述第一显示内容中的每个语句进行分词、词性标注和依存句法分析处理得到待处理语句,提取所述待处理语句的句子主干信息;
将所述句子主干信息进行连接得到第二显示内容。
7.根据权利要求6所述的方法,其特征在于,所述提取所述待处理语句的句子主干信息,包括:
提取所述待处理语句的主语和谓语,确定所述待处理语句是否存在补语,如果存在补语,则提取所述待处理语句的补语,如果不存在则提取所述待处理语句的宾语。
8.根据权利要求7所述的方法,其特征在于,在确定所述待处理语句是否存在补语,还包括:
确定所述待处理语句是否存在并列语,如果是,则提取所述待处理语句中的并列语。
9.根据权利要求7所述的方法,其特征在于,在提取所述待处理语句的主语之后,还包括:
确定所述待处理语句中是否存在否定副词,如果是,则提取所述待处理语句中的否定副词。
10.根据权利要求6所述的方法,其特征在于,将所述句子主干信息进行连接得到第二显示内容,包括:
将所述句子主干信息进行连接,确定语句通顺度;
如果满足预设条件,则将所述句子主干信息的连接结果确定为第二显示内容。
11.根据权利要求10所述的方法,其特征在于,所述确定语句通顺度,如果满足预设条件,则将所述句子主干信息的连接结果确定为第二显示内容,包括:
通过预设语言模型验证语句通顺度得到语句困惑度值;
如果所述语句困惑度值小于设定阈值时,将所述句子主干信息的连接结果确定为第二显示内容。
12.一种智能词云图数据处理装置,其特征在于,包括:
数据获取模块,用于获取原始文本数据集,所述原始文本数据集中包含有多个原始语句;
语句聚类模块,用于确定每个所述原始语句之间的句子相似度,根据所述句子相似度进行所述原始语句的聚类得到第一显示内容;
语句归纳模块,用于对所述第一显示内容进行归纳处理,得到第二显示内容;
数据显示模块,用于将所述第二显示内容进行展示。
13.一种智能词云图数据处理设备,其特征在于,包括:存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-11任一所述的智能词云图数据处理方法。
14.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-11任一所述的智能词云图数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010126063.7A CN111368553B (zh) | 2020-02-27 | 2020-02-27 | 智能词云图数据处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010126063.7A CN111368553B (zh) | 2020-02-27 | 2020-02-27 | 智能词云图数据处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111368553A true CN111368553A (zh) | 2020-07-03 |
CN111368553B CN111368553B (zh) | 2024-02-06 |
Family
ID=71211546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010126063.7A Active CN111368553B (zh) | 2020-02-27 | 2020-02-27 | 智能词云图数据处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111368553B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111913646A (zh) * | 2020-08-18 | 2020-11-10 | 科大讯飞股份有限公司 | 一种信息发送方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8402030B1 (en) * | 2011-11-21 | 2013-03-19 | Raytheon Company | Textual document analysis using word cloud comparison |
US20160019885A1 (en) * | 2014-07-17 | 2016-01-21 | Verint Systems Ltd. | Word cloud display |
CN106372208A (zh) * | 2016-09-05 | 2017-02-01 | 东南大学 | 一种基于语句相似度的话题观点聚类方法 |
CN108182523A (zh) * | 2017-12-26 | 2018-06-19 | 新疆金风科技股份有限公司 | 故障数据的处理方法和装置、计算机可读存储介质 |
CN109189931A (zh) * | 2018-09-05 | 2019-01-11 | 腾讯科技(深圳)有限公司 | 一种目标语句的筛选方法及装置 |
CN110222172A (zh) * | 2019-05-15 | 2019-09-10 | 北京邮电大学 | 一种基于改进层次聚类的多源网络舆情主题挖掘方法 |
CN110287319A (zh) * | 2019-06-13 | 2019-09-27 | 南京航空航天大学 | 基于情感分析技术的学生评教文本分析方法 |
CN110309303A (zh) * | 2019-05-22 | 2019-10-08 | 浙江工业大学 | 一种基于加权tf-idf的司法纠纷数据可视分析方法 |
-
2020
- 2020-02-27 CN CN202010126063.7A patent/CN111368553B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8402030B1 (en) * | 2011-11-21 | 2013-03-19 | Raytheon Company | Textual document analysis using word cloud comparison |
US20160019885A1 (en) * | 2014-07-17 | 2016-01-21 | Verint Systems Ltd. | Word cloud display |
CN106372208A (zh) * | 2016-09-05 | 2017-02-01 | 东南大学 | 一种基于语句相似度的话题观点聚类方法 |
CN108182523A (zh) * | 2017-12-26 | 2018-06-19 | 新疆金风科技股份有限公司 | 故障数据的处理方法和装置、计算机可读存储介质 |
CN109189931A (zh) * | 2018-09-05 | 2019-01-11 | 腾讯科技(深圳)有限公司 | 一种目标语句的筛选方法及装置 |
CN110222172A (zh) * | 2019-05-15 | 2019-09-10 | 北京邮电大学 | 一种基于改进层次聚类的多源网络舆情主题挖掘方法 |
CN110309303A (zh) * | 2019-05-22 | 2019-10-08 | 浙江工业大学 | 一种基于加权tf-idf的司法纠纷数据可视分析方法 |
CN110287319A (zh) * | 2019-06-13 | 2019-09-27 | 南京航空航天大学 | 基于情感分析技术的学生评教文本分析方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111913646A (zh) * | 2020-08-18 | 2020-11-10 | 科大讯飞股份有限公司 | 一种信息发送方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111368553B (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
US20190287142A1 (en) | Method, apparatus for evaluating review, device and storage medium | |
CN106649742B (zh) | 数据库维护方法和装置 | |
US10831796B2 (en) | Tone optimization for digital content | |
CN111651996B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN109753661B (zh) | 一种机器阅读理解方法、装置、设备及存储介质 | |
EP4310695A1 (en) | Data processing method and apparatus, computer device, and storage medium | |
KR20200087977A (ko) | 멀티모달 문서 요약 시스템 및 방법 | |
CN110619051A (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN114757176A (zh) | 一种获取目标意图识别模型的方法以及意图识别方法 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN113255331B (zh) | 文本纠错方法、装置及存储介质 | |
CN112101042A (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
CN111767394A (zh) | 一种基于人工智能专家系统的摘要提取方法及装置 | |
EP4191544A1 (en) | Method and apparatus for recognizing token, electronic device and storage medium | |
CN111813993A (zh) | 视频内容的拓展方法、装置、终端设备及存储介质 | |
CN116882372A (zh) | 文本生成方法、装置、电子设备以及存储介质 | |
CN109033082B (zh) | 语义模型的学习训练方法、装置及计算机可读存储介质 | |
CN111104572A (zh) | 用于模型训练的特征选择方法、装置及电子设备 | |
CN110969005A (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN111368553B (zh) | 智能词云图数据处理方法、装置、设备及存储介质 | |
CN111240962B (zh) | 测试方法、装置、计算机设备及计算机存储介质 | |
CN112527967A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN112559725A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN112560490A (zh) | 知识图谱关系抽取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |