CN110874531B - 一种话题分析方法、装置和存储介质 - Google Patents

一种话题分析方法、装置和存储介质 Download PDF

Info

Publication number
CN110874531B
CN110874531B CN202010065623.2A CN202010065623A CN110874531B CN 110874531 B CN110874531 B CN 110874531B CN 202010065623 A CN202010065623 A CN 202010065623A CN 110874531 B CN110874531 B CN 110874531B
Authority
CN
China
Prior art keywords
topics
text corpus
text
word segmentation
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010065623.2A
Other languages
English (en)
Other versions
CN110874531A (zh
Inventor
耿雪芹
王晓斌
焦梦姝
黄三伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Eefung Software Co ltd
Original Assignee
Hunan Eefung Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Eefung Software Co ltd filed Critical Hunan Eefung Software Co ltd
Priority to CN202010065623.2A priority Critical patent/CN110874531B/zh
Publication of CN110874531A publication Critical patent/CN110874531A/zh
Application granted granted Critical
Publication of CN110874531B publication Critical patent/CN110874531B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种话题分析方法,包括:获取待处理文本语料,并获取每一个待处理文本语料所对应的分词结果和对应的词性;获取过滤后文本语料;通过依存句法对过滤后的每一文本语料的分词结果和对应的词性进行分析,获得分词的语法成分和分词之间的依存关系以及获得每一个文本语料对应的依存对;根据组合句式结构和依存对,获得每一个文本语料对应的话题;获取相似话题,并根据相似话题的数量进行排序。本发明还同时公开了话题分析装置和存储介质,通过分词的基础上使用句法分析,来分析文本语句中的语法结构和分词结果之间的依存关系,再按照预设的多种汉语常见组合句式结构,提取出通顺、准确的话题,能够从海量文本中分析话题。

Description

一种话题分析方法、装置和存储介质
技术领域
本发明涉及话题的分析处理领域,尤其涉及一种话题分析方法、装置和存储介质。
背景技术
随着信息技术的飞速发展,互联网已经成为民众获取和发布信息的主要渠道。由于网络信息量大、来源广泛、传播速度快,对于普通网民来说,如何快速、准确地找到自己想要的网络信息,变得越来越麻烦。因此,如何快速、准确、全面地从海量的网络信息中分析提取出网民所关注的热门话题,已经成为当前很热门的一个研究方向。
目前网络话题仍然以文本为主要的表达方式,而现阶段从文本中发现话题的技术手段仍然局限在词法级别,即依靠关键词、热词、共现词、敏感词、情感倾向词、实体词识别等寻找与话题有关的信息,另一方面目前话题分析算法大都基于聚类算法,把同一话题的文本聚为一类。然而,仅在词的级别上来分析,获取到的往往是局部的信息,无法获取到完整的语义信息。另外,有时一篇文章不仅仅只有一个话题,还会有相关的子话题。即话题与文章不是一对一的关系,而聚类算法认为一篇文本只有一个话题,因此无法完整概括出整篇文本的核心内容。
发明内容
有鉴于此,本发明的主要目的在于提供一种话题分析方法、装置和存储介质,旨在通过分词的基础上使用句法分析,来分析文本语句中的语法结构和分词结果之间的依存关系,再按照预设的多种汉语常见组合句式结构,提取出通顺、准确的话题,能够从海量文本中分析话题。
为达到上述目的,本发明的技术方案是这样实现的:本发明提供了一种话题分析方法,所述方法包括:
获取待处理文本语料,并获取每一个待处理文本语料所对应的分词结果和对应的词性;
根据所述分词结果,对所述待处理文本语料进行过滤,并获取过滤后文本语料;
通过依存句法对过滤后的每一文本语料的分词结果和对应的词性进行分析,获得分词的语法成分和分词之间的依存关系以及获得每一个文本语料对应的依存对;
根据组合句式结构和所述依存对,获得每一个文本语料对应的话题;
获取相似话题,并根据相似话题的数量进行排序;
所述获取相似话题,并根据相似话题的数量进行排序,包括:
针对每一话题,计算与所获取的其他话题的相似度值;
根据相似度值进行相似性合并;
根据话题的文档id分布进行合并,若两个话题的文档id列表中相同的id个数超过预设数量时,则这两个话题合并成一个话题;
将合并后的话题进行排序,根据频数选择目标数量的话题输出。
上述方案中,所述获取待处理文本语料,并获取每一个待处理文本语料所对应的分词结果的步骤,包括:
根据标点符号,对文本语料进行语句划分处理;
对每一个待处理文本语料进行分词处理,得到分词结果。
上述方案中,所述根据所述分词结果,对所述待处理文本语料进行过滤,并获取过滤后文本语料的步骤,包括:
计算分词结果中每一分词的文档频率,并进行降序排列;
获取排列在前的话题关键词;
获取待过滤文本语料,其中,所述待过滤文本语料为不包含话题关键词中任意一个分词的文本语料;
从所述待处理文本语料中去除待过滤文本语料,获取过滤后文本语料。
上述方案中,所述根据标点符号,对文本语料进行语句划分处理的步骤,包括:
给文本语料中的各文档随机分配编号,删除文本语料各文档中的预设标点符号,获得目标文本语句,并标记文本语句所在的文档编号;
采用标点符号,对所述目标文本语句进行分割,并统计分割后语句的频数,将分割后语句所在的文档编号标记为句子的文档id。其中,所述标点符号至少包括:逗号、分号、句号、问号、感叹号、省略号;
将分割后的且标记频数和文档id的文本语料作为待处理文本语料。
上述方案中,所述对每一个待处理文本语料进行分词处理,得到分词结果的步骤,包括:
对每一个待处理文本语料进行分词处理;
去除分词处理结果中的停用词、特殊符号、字母、表情符;
获得分词结果。
上述方案中,所述通过依存句法对过滤后的每一文本语料的分词结果和对应的词性进行分析,获得分词的语法成分和分词之间的依存关系以及获得每一个文本语料对应的依存对的步骤,包括:
通过依存句法对过滤后的每一文本语料的分词结果和对应的词性进行分析,得到语法成分和分词之间的依存关系,其中,所述语法成分包括主语、谓语、宾语、定语、状语、补语,所述依存关系为短语关系;
将构成依存关系的分词确定为一个依存对;
其中,所述依存句法为:基于图的分析方法、基于转移的分析方法或基于深度学习的分析方法。
上述方案中,所述根据组合句式结构和所述依存对,获得每一个文本语料对应的话题的步骤,包括:
根据依存句法分析,获得每一文本语句的核心词;
确定与核心词依存关系为主谓关系和动宾关系的分词;
将所确定的分词按照预设顺序进行组合,获得话题主干,其中,所述预设顺序为:主谓宾顺序和其他关系的组合,其中,所述其他关系为:主谓关系词、核心词、动宾关系词的组合;
对所确定的话题主干进行填充,获得话题。
上述方案中,所述对所确定的话题主干进行填充,获得话题的步骤,包括:
通过寻找与主语、谓语、宾语依存关系为定中关系或状中关系的词,进行填充;
保留长度在预设长度区间内的填充结果,作为话题;
所述获取相似话题,并根据相似话题的数量进行排序的步骤,包括:
针对每一话题,计算与所获取的其他话题的相似度值;
根据相似度值进行相似性合并;
将合并后的话题重新排序,根据频数选择目标数量的话题输出。
为实现上述目的,本发明还提供了一种话题分析装置,所述装置包括处理器、以及通过通信总线与所述处理器连接的存储器;其中,
所述存储器,用于存储话题分析程序;
所述处理器,用于执行所述话题分析程序,
所述一个或者多个处理器执行上述任一方案所述的话题分析步骤。
为实现上述目的,本发明还提供了一种计算机可读存储介质,具体为计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以使所述一个或者多个处理器执行上述任一方案所述的话题分析步骤。
本发明所提供的一种话题分析方法、装置和存储介质,通过分词的基础上使用句法分析,来分析文本语句中的语法结构和分词结果之间的依存关系,再按照预设的多种汉语常见组合句式结构,提取出通顺、准确的话题,能够从海量文本中分析话题。
附图说明
图1为本发明一可选实施例中话题分析方法流程示意图;
图2为本发明一可选实施例中的依存关系示意图;
图3为本发明一可选实施例中的依存句法分析的结果可视化示意图;
图4为本发明一可选实施例中的组合句式结构示例图;
图5为本发明一可选实施例中话题分析装置的组成结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明再作进一步详细的说明。
图1为本发明实施例中话题分析方法流程示意图,请参阅图1,本发明实施例提供了一种话题分析方法,所述方法包括:
S101:获取待处理文本语料,并获取每一个待处理文本语料所对应的分词结果和对应的词性。
需要说明的是文本语料为进行数据抓取的语料集合,其中可能包含有病句或者语句中包含特殊符号。因此,需要对包含特殊符号的文本进行处理。
本发明的一种实现方式中,根据标点符号,对文本语料进行语句划分处理,从而去除语句中所包含的特定标点符号。
具体的,所述根据标点符号,对文本语料进行语句划分处理的步骤,包括:给文本语料中的各文档随机分配编号,删除文本语料各文档中的预设标点符号,获得目标文本语句,并标记文本语句所在的文档编号;采用标点符号,对所述目标文本语句进行分割,并统计分割后语句的频数,将分割后语句所在的文档编号标记为句子的文档id。其中,所述标点符号至少包括:逗号、分号、句号、问号、感叹号、省略号;将分割后的且标记频数和文档id的文本语料作为待处理文本语料。
一种实现中,分句处理过程包括:首先删除以下标点符号:【】、{}、「」、“”、[]、《》;然后按以下标点符号分割文本:逗号、分号、句号、问号、感叹号、省略号。
可以理解的是,通过标点符号进行文本分割能够将文本处理为一个个的文本语句,将分割后的文本语句作为待处理文本语料。
进而对每一个待处理文本语料进行分词处理,得到分词结果。具体实现包括:对每一个待处理文本语料进行分词处理;去除分词处理结果中的停用词、特殊符号、字母、表情符;获得分词结果。
需要说明的是,分词是文本挖掘的预处理的重要的一步,可以通过LSTM等语言模型实现分词,该过程为现有技术,分词完成后,可以继续做一些其他的特征工程,比如向量化(vectorize),TF-IDF以及Hash trick。
S102:根据所述分词结果,对所述待处理文本语料进行过滤,并获取过滤后文本语料。
可以理解的是,可以通过文本挖掘获得待处理文本语料,其中未必所有的语句都具有关联,例如,语句之间可能存在完全不一样的内容,那么需要对语句进行过滤筛选,筛选掉那些完全不相关的语句。
本发明实施例,所述根据所述分词结果,对所述待处理文本语料进行过滤,并获取过滤后文本语料的步骤,包括:计算分词结果中每一分词的文档频率,并进行降序排列;获取排列在前的话题关键词;获取待过滤文本语料,其中,所述待过滤文本语料为不包含话题关键词中任意一个分词的文本语料;从所述待处理文本语料中去除待过滤文本语料,获取过滤后文本语料。
可以理解的是,在进行分词处理完毕后,计算词的文档频率,根据词的文档频率排序,根据降序排列,输出排序最高的预设数量个关键词作为话题关键词。将不包含话题关键词的文本语料进行去除,实现不包含话题关键词的文本语料的过滤,使待处理文本语料中均是与话题关键词相关的文本语料。
S103:通过依存句法对过滤后的每一文本语料的分词结果和对应的词性进行分析,获得分词的语法成分和分词之间的依存关系以及获得每一个文本语料对应的依存对。
本发明的一种实现方式中,通过依存句法对过滤后的每一文本语料的分词结果和对应的词性进行分析,得到语法成分和分词之间的依存关系,其中,所述语法成分包括主语、谓语、宾语、定语、状语、补语,所述依存关系为短语关系;将构成依存关系的分词确定为一个依存对;其中,所述依存句法为:基于图的分析方法、基于转移的分析方法或基于深度学习的分析方法。
输出的每个句子的词、词性输入到依存句法分析算法,得到词的语法成分和词之间的依存关系。本发明中,采用的词的语法成分包括主语、谓语、宾语、定语、状语、补语等,采用的依存关系为中文短语结构中常见的短语关系,如图2所示,依存关系为主谓关系,例如我喜欢;动宾关系,例如写作文;定中关系,例如红花;状中关系,例如非常喜欢;动补关系,例如写完;并列关系,例如蓝天和白云;前置宾语,例如作业写完;介宾关系,例如把作业;左右附加关系,例如包含“的”字句;核心关系,例如句子的核心词一般为动词,以及其他关系,在此不做具体限定。
关于依存句法分析的结果,如图3所示。依存句法分析是对输入的文本句子进行分析以得到句子的句法结构或者句子中词汇之间的依存关系的一种算法。依存句法中,词与词之间发生依存关系,构成一个依存对,依存对中包含两个词(其中一个是核心词,另一个是修饰词)和一个依存弧(一个有向弧,用来表示两个词的依存关系,依存弧的方向为由修饰词指向核心词)。
因此,能够获得每一个文本语料对应的依存对,且每一个文本语料可以对应多个依存对。
S104:根据组合句式结构和所述依存对,获得每一个文本语料对应的话题。
在获得每一个文本语料对应的依存对以后,可以根据依存句法分析,获得每一文本语句的核心词;确定与核心词依存关系为主谓关系和动宾关系的分词;将所确定的分词按照预设顺序进行组合,获得话题主干,其中,所述预设顺序为:主谓宾顺序和其他关系的组合,其中,所述其他关系为:主谓关系词、核心词、动宾关系词的组合;对所确定的话题主干进行填充,获得话题。
还可以通过寻找与主语、谓语、宾语依存关系为定中关系或状中关系的词,进行填充;保留长度在预设长度区间内的填充结果,作为话题。
通过每个句子中两个词、词之间的依存关系,按照多种组合句式结构将相关词组合在一起作为话题,本发明实施例中给出了主谓宾组合句式,其他就是提取方式类似,本领域技术人员可以依据主谓宾组合句式的形式获得其他的组合句式,本发明实施例在此不对其他句式进行赘述。
具体的,句法组合步骤为包括根据依存句法分析的结果寻找句子的核心词,例如图4中核心词为“做出”;然后寻找与核心词依存关系为“主谓关系”和“动宾关系”的词,图4中分别为“警方”和“通报”;再将词按照主谓宾顺序<主谓关系词+核心词+动宾关系词>组合在一起,图4中词组合为:警方[主语]做出[谓语]通报[宾语],因此,获得了话题主干,由于话题主干的成分并不完整,所以需要进行填充,获得话题枝干。
枝干填充步骤为:
1)修饰限定填充:寻找与主语、谓语、宾语依存关系为“定中关系”或“状中关系”的词。图4中只有谓语词“做出”存在这两种依存关系,对应词为“对”;
2)其他成分填充:若上一步没有填充到词,结束。若有,继续对上一步填充的词进行填充,寻找与填充词依存关系为图2中其他关系的词。图4中存在填充词“对”,且存在依存关系“介宾关系”,对应词为“事件”。
3)重复2),直至没有填充词为止。图4对词“事件”继续填充,得到“定中关系”词“暴力”。
4)填充后的词组合在一起的短句即为话题。图4中为:“警察对暴力事件做出通报”。
5)对上述话题,保留长度在预设长度区间内的话题。
S105:获取相似话题,并根据相似话题的数量进行排序。
在话题较多的情况下,需要通过判断哪些是相似的话题,从而进行归类或者合并处理。对于众多相似的话题,随机选择一条话题,频数为其所有相似话题频数的累加。
所述获取相似话题,并根据相似话题的数量进行排序的步骤,包括:针对每一话题,计算与所获取的其他话题的相似度值;根据相似度值进行相似性合并;根据话题的文档id分布进行合并:若两个话题的文档id列表中相同的id个数超过预设数量时,则这两个话题合并成一个话题;将合并后的话题重新排序,根据频数选择目标数量的话题输出。
经过步骤S101-S104处理后,所有文本语料都会输出对应的话题,记句子频数为该句生成话题的频数,记句子文档id为该句生成话题的文档id,对所有话题进行相似性合并,相似性合并方法包括聚类、编辑距离、词向量等。将合并后的话题重新排序,按频数选择一定数量的话题输出(例如按照话题的频数进行降序排列,选取排列在前的一定数量个话题),作为最终的话题。
为实现上述目的,本发明还提供了一种话题分析装置,请参阅图5,所述装置包括处理器501、以及通过通信总线502与所述处理器501连接的存储器503;其中,所述存储器503,用于存储话题分析程序;所述处理器501,用于获取待处理文本语料,并获取每一个待处理文本语料所对应的分词结果和对应的词性;根据所述分词结果,对所述待处理文本语料进行过滤,并获取过滤后文本语料;通过依存句法对过滤后的每一文本语料的分词结果和对应的词性进行分析,获得分词的语法成分和分词之间的依存关系以及获得每一个文本语料对应的依存对;根据组合句式结构和所述依存对,获得每一个文本语料对应的话题;获取相似话题,并根据相似话题的数量进行排序。
这里,所述处理器501,用于执行所述话题分析程序,以实现如下话题分析步骤:根据标点符号,对文本语料进行语句划分处理;对每一个待处理文本语料进行分词处理,得到分词结果。
这里,所述处理器501,用于执行所述话题分析程序,以实现如下话题分析步骤:计算分词结果中每一分词的文档频率,并进行降序排列;获取排列在前的话题关键词;获取待过滤文本语料,其中,所述待过滤文本语料为不包含话题关键词中任意一个分词的文本语料;从所述待处理文本语料中去除待过滤文本语料,获取过滤后文本语料。
这里,所述处理器501,用于执行所述话题分析程序,以实现如下话题分析步骤:给文本语料中的各文档随机分配编号,删除文本语料各文档中的预设标点符号,获得目标文本语句,并标记文本语句所在的文档编号;采用标点符号,对所述目标文本语句进行分割,并统计分割后语句的频数,将分割后语句所在的文档编号标记为句子的文档id。其中,所述标点符号至少包括:逗号、分号、句号、问号、感叹号、省略号;将分割后的且标记频数和文档id的文本语料作为待处理文本语料。
这里,所述处理器501,用于执行所述话题分析程序,以实现如下话题分析步骤:对每一个待处理文本语料进行分词处理;去除分词处理结果中的停用词、特殊符号、字母、表情符;获得分词结果。
这里,所述处理器501,用于执行所述话题分析程序,以实现如下话题分析步骤:通过依存句法对过滤后的每一文本语料的分词结果和对应的词性进行分析,得到语法成分和分词之间的依存关系,其中,所述语法成分包括主语、谓语、宾语、定语、状语、补语,所述依存关系为短语关系;将构成依存关系的分词确定为一个依存对;其中,所述依存句法为:基于图的分析方法、基于转移的分析方法或基于深度学习的分析方法。
这里,所述处理器501,用于执行所述话题分析程序,以实现如下话题分析步骤:根据依存句法分析,获得每一文本语句的核心词;确定与核心词依存关系为主谓关系和动宾关系的分词;将所确定的分词按照预设顺序进行组合,获得话题主干,其中,所述预设顺序为:主谓宾顺序和其他关系的组合,其中,所述其他关系为:主谓关系词、核心词、动宾关系词的组合;对所确定的话题主干进行填充,获得话题。
这里,所述处理器501,用于执行所述话题分析程序,以实现如下话题分析步骤:通过寻找与主语、谓语、宾语依存关系为定中关系或状中关系的词,进行填充;保留长度在预设长度区间内的填充结果,作为话题;针对每一话题,计算与所获取的其他话题的相似度值;根据相似度值进行相似性合并;根据话题的文档id分布进行合并:若两个话题的文档id列表中相同的id个数超过预设数量时,则这两个话题合并成一个话题;将合并后的话题重新排序,根据频数选择目标数量的话题输出。
可选的,所述处理器501可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。这里,所述处理器501执行的程序可以存储在与所述处理器501通过通信总线502连接的存储器503之中,所述存储器503可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-OnlyMemory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-OnlyMemory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-OnlyMemory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random AccessMemory)、同步连接动态随机存取存储器(SLDRAM,Sync Link Dynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器503旨在包括但不限于这些和任意其它适合类型的存储器503。本发明实施例中的存储器503用于存储各种类型的数据以支持所述处理器501的操作。这些数据的示例包括:供所述处理器501操作的任何计算机程序,如操作系统和应用程序;联系人数据;电话簿数据;消息;图片;视频等。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。
为实现上述目的,本发明还提供了一种计算机可读存储介质,具体为计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器501执行,以使所述一个或者多个处理器501执行上述任一方案所述的话题分析步骤:获取待处理文本语料,并获取每一个待处理文本语料所对应的分词结果和对应的词性;根据所述分词结果,对所述待处理文本语料进行过滤,并获取过滤后文本语料;通过依存句法对过滤后的每一文本语料的分词结果和对应的词性进行分析,获得分词的语法成分和分词之间的依存关系以及获得每一个文本语料对应的依存对;根据组合句式结构和所述依存对,获得每一个文本语料对应的话题;获取相似话题,并根据相似话题的数量进行排序。
可选的,所述一个或者多个程序可被一个或者多个处理器501执行,以使所述一个或者多个处理器501执行以下话题分析步骤:根据标点符号,对文本语料进行语句划分处理;对每一个待处理文本语料进行分词处理,得到分词结果和对应的词性。
可选的,所述一个或者多个程序可被一个或者多个处理器501执行,以使所述一个或者多个处理器501执行以下话题分析步骤:计算分词结果中每一分词的文档频率,并进行降序排列;获取排列在前的话题关键词;获取待过滤文本语料,其中,所述待过滤文本语料为不包含话题关键词中任意一个分词的文本语料;从所述待处理文本语料中去除待过滤文本语料,获取过滤后文本语料。
可选的,所述一个或者多个程序可被一个或者多个处理器501执行,以使所述一个或者多个处理器501执行以下话题分析步骤:给文本语料中的各文档随机分配编号,删除文本语料各文档中的预设标点符号,获得目标文本语句,并标记文本语句所在的文档编号;采用标点符号,对所述目标文本语句进行分割,并统计分割后语句的频数,将分割后语句所在的文档编号标记为句子的文档id。其中,所述标点符号至少包括:逗号、分号、句号、问号、感叹号、省略号;将分割后的且标记频数和文档id的文本语料作为待处理文本语料。
可选的,所述一个或者多个程序可被一个或者多个处理器501执行,以使所述一个或者多个处理器501执行以下话题分析步骤:从对每一个待处理文本语料进行分词处理;去除分词处理结果中的停用词、特殊符号、字母、表情符;获得分词结果。
可选的,所述一个或者多个程序可被一个或者多个处理器501执行,以使所述一个或者多个处理器501执行以下话题分析步骤:通过依存句法对过滤后的每一文本语料的分词结果和对应的词性进行分析,得到语法成分和分词之间的依存关系,其中,所述语法成分包括主语、谓语、宾语、定语、状语、补语,所述依存关系为短语关系;将构成依存关系的分词确定为一个依存对;其中,所述依存句法为:基于图的分析方法、基于转移的分析方法或基于深度学习的分析方法。
可选的,所述一个或者多个程序可被一个或者多个处理器501执行,以使所述一个或者多个处理器501执行以下话题分析步骤:根据依存句法分析,获得每一文本语句的核心词;确定与核心词依存关系为主谓关系和动宾关系的分词;将所确定的分词按照预设顺序进行组合,获得话题主干,其中,所述预设顺序为:主谓宾顺序和其他关系的组合,其中,所述其他关系为:主谓关系词、核心词、动宾关系词的组合;对所确定的话题主干进行填充,获得话题。
可选的,所述一个或者多个程序可被一个或者多个处理器501执行,以使所述一个或者多个处理器501执行以下话题分析步骤:通过寻找与主语、谓语、宾语依存关系为定中关系或状中关系的词,进行填充;保留长度在预设长度区间内的填充结果,作为话题;针对每一话题,计算与所获取的其他话题的相似度值;根据相似度值进行相似性合并;根据话题的文档id分布进行合并:若两个话题的文档id列表中相同的id个数超过预设数量时,则这两个话题合并成一个话题;将合并后的话题重新排序,根据频数选择目标数量的话题输出。
可选的,所述计算机可读存储介质可以是易失性存储器,例如随机存取存储器;或者非易失性存储器,例如只读存储器,快闪存储器,硬盘或固态硬盘;也可以是包括上述存储器503之一或任意组合的各自设备,如移动电话、计算机、平板设备、个人数字助理等。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (8)

1.一种话题分析方法,其特征在于,所述方法包括:
获取待处理文本语料,并获取每一个待处理文本语料所对应的分词结果和对应的词性;其中,所述获取待处理文本语料,并获取每一个待处理文本语料所对应的分词结果的步骤,包括:根据标点符号,对文本语料进行语句划分处理;对每一待处理文本语料进行分词处理,得到分词结果;所述标点符号至少包括:逗号、分号、句号、问号、感叹号、省略号;
根据所述分词结果,对所述待处理文本语料进行过滤,并获取过滤后文本语料;其中,所述根据所述分词结果,对所述待处理文本语料进行过滤,并获取过滤后文本语料的步骤,包括:计算分词结果中每一分词的文档频率,并进行降序排列;获取排列在前的话题关键词;获取待过滤文本语料,其中,所述待过滤文本语料为不包含话题关键词中任意一个分词的文本语料;从所述待处理文本语料中去除待过滤文本语料,获取过滤后文本语料;
通过依存句法对过滤后的每一文本语料的分词结果和对应的词性进行分析,获得分词的语法成分和分词之间的依存关系以及获得每一个文本语料对应的依存对;
根据组合句式结构和所述依存对,获得每一个文本语料对应的话题;
获取相似话题,并根据相似话题的数量进行排序;
所述获取相似话题,并根据相似话题的数量进行排序,包括:
针对每一话题,计算与所获取的其他话题的相似度值;
根据相似度值进行相似性合并;
根据话题的文档id分布进行合并,若两个话题的文档id列表中相同的id个数超过预设数量时,则这两个话题合并成一个话题;
将合并后的话题进行排序,根据频数选择目标数量的话题输出。
2.根据权利要求1所述话题分析方法,其特征在于,所述根据标点符号,对文本语料进行语句划分处理的步骤,包括:
给文本语料中的各文档随机分配编号,删除文本语料各文档中的预设标点符号,获得目标文本语句,并标记文本语句所在的文档编号;
采用标点符号,对所述目标文本语句进行分割,并统计分割后语句的频数,将分割后语句所在的文档编号标记为句子的文档id;
将分割后的且标记频数和文档id的文本语料作为待处理文本语料。
3.根据权利要求1所述话题分析方法,其特征在于,所述对每一个待处理文本语料进行分词处理,得到分词结果的步骤,包括:
对每一个待处理文本语料进行分词处理;
去除分词处理结果中的停用词、特殊符号、字母、表情符;
获得分词结果。
4.根据权利要求1所述话题分析方法,其特征在于,所述通过依存句法对过滤后的每一文本语料的分词结果和对应的词性进行分析,获得分词的语法成分和分词之间的依存关系以及获得每一个文本语料对应的依存对的步骤,包括:
通过依存句法对过滤后的每一文本语料的分词结果和对应的词性进行分析,得到语法成分和分词之间的依存关系,其中,所述语法成分包括主语、谓语、宾语、定语、状语、补语,所述依存关系为短语关系;
将构成依存关系的分词确定为一个依存对;
其中,所述依存句法为:基于图的分析方法、基于转移的分析方法或基于深度学习的分析方法。
5.根据权利要求4所述话题分析方法,其特征在于,所述根据组合句式结构和所述依存对,获得每一个文本语料对应的话题的步骤,包括:
根据依存句法分析,获得每一文本语句的核心词;
确定与核心词依存关系为主谓关系和动宾关系的分词;
将所确定的分词按照预设顺序进行组合,获得话题主干,其中,所述预设顺序为:主谓宾顺序和其他关系的组合,其中,所述其他关系为:主谓关系词、核心词、动宾关系词的组合;
对所确定的话题主干进行填充,获得话题。
6.根据权利要求5所述话题分析方法,其特征在于,所述对所确定的话题主干进行填充,获得话题的步骤,包括:
通过寻找与主语、谓语、宾语依存关系为定中关系或状中关系的词,进行填充;
保留长度在预设长度区间内的填充结果,作为话题。
7.一种话题分析装置,其特征在于,所述装置包括处理器、以及通过通信总线与所述处理器连接的存储器;其中,
所述存储器,用于存储话题分析程序;
所述处理器,用于执行所述话题分析程序,以实现如权利要求1至6中任一项所述的话题分析步骤。
8.一种存储介质,其特征在于,具体为计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以使所述一个或者多个处理器执行如权利要求1至6中任一项所述的话题分析步骤。
CN202010065623.2A 2020-01-20 2020-01-20 一种话题分析方法、装置和存储介质 Active CN110874531B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010065623.2A CN110874531B (zh) 2020-01-20 2020-01-20 一种话题分析方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010065623.2A CN110874531B (zh) 2020-01-20 2020-01-20 一种话题分析方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN110874531A CN110874531A (zh) 2020-03-10
CN110874531B true CN110874531B (zh) 2020-07-10

Family

ID=69717606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010065623.2A Active CN110874531B (zh) 2020-01-20 2020-01-20 一种话题分析方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN110874531B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460787B (zh) * 2020-03-27 2023-09-22 深圳价值在线信息科技股份有限公司 一种话题提取方法、装置、终端设备及存储介质
CN113761182A (zh) * 2020-06-17 2021-12-07 北京沃东天骏信息技术有限公司 一种确定业务问题的方法和装置
CN112084793B (zh) * 2020-09-14 2024-05-14 深圳前海微众银行股份有限公司 基于依存句法的语义识别方法、设备和可读存储介质
CN112069800A (zh) * 2020-09-14 2020-12-11 深圳前海微众银行股份有限公司 基于依存句法的句子时态识别方法、设备和可读存储介质
CN112069801B (zh) * 2020-09-14 2024-09-20 深圳前海微众银行股份有限公司 基于依存句法的句子主干抽取方法、设备和可读存储介质
CN112052678B (zh) * 2020-09-24 2024-10-01 大众问问(北京)信息科技有限公司 一种模型训练、语料处理方法、装置以及计算机设备
CN112148872B (zh) * 2020-09-28 2024-04-02 国家计算机网络与信息安全管理中心广东分中心 自然对话主题分析方法、装置、电子设备和存储介质
CN112711695A (zh) * 2020-12-29 2021-04-27 网易传媒科技(北京)有限公司 基于内容的搜索建议生成方法及装置
CN112686024B (zh) * 2020-12-31 2023-12-22 竹间智能科技(上海)有限公司 句法解析方法及装置、电子设备、存储介质
CN112632973A (zh) * 2020-12-31 2021-04-09 中国农业银行股份有限公司 一种文本处理的方法、装置、设备及存储介质
CN112784574B (zh) * 2021-02-02 2023-09-15 网易(杭州)网络有限公司 一种文本分割方法、装置、电子设备及介质
CN113033610B (zh) * 2021-02-23 2022-09-13 河南科技大学 一种多模态融合敏感信息分类检测方法
CN112860896A (zh) * 2021-03-05 2021-05-28 三一重工股份有限公司 语料泛化方法及用于工业领域的人机对话情感分析方法
CN113011178B (zh) * 2021-03-29 2023-05-16 广州博冠信息科技有限公司 文本生成方法、文本生成装置、电子设备及存储介质
CN113129866B (zh) * 2021-04-13 2022-08-02 重庆度小满优扬科技有限公司 语音处理方法、装置、存储介质及计算机设备
CN113111650A (zh) * 2021-04-16 2021-07-13 中国工商银行股份有限公司 文本处理方法、装置、系统及存储介质
CN113407739B (zh) * 2021-07-14 2023-01-06 海信视像科技股份有限公司 信息标题中概念的确定方法、装置和存储介质
CN113536779B (zh) * 2021-07-21 2024-02-02 南京中孚信息技术有限公司 基于公文标题的热门话题数据处理方法、装置及电子设备
CN113591488A (zh) * 2021-08-04 2021-11-02 山西长河科技股份有限公司 一种语义分析方法及装置
CN113743090B (zh) * 2021-09-08 2024-04-12 度小满科技(北京)有限公司 一种关键词提取方法及装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7272853B2 (en) * 2003-06-04 2007-09-18 Microsoft Corporation Origination/destination features and lists for spam prevention
JP2011076194A (ja) * 2009-09-29 2011-04-14 Nec Corp トピック具体表現辞書作成システム、トピック具体表現辞書作成方法及びそのプログラム
US9037529B2 (en) * 2011-06-15 2015-05-19 Ceresis, Llc Method for generating visual mapping of knowledge information from parsing of text inputs for subjects and predicates
CN103268311A (zh) * 2012-11-07 2013-08-28 上海大学 基于事件结构的中文语句分析方法
CN104077274B (zh) * 2014-06-13 2017-05-10 清华大学 一种从文档集中抽取热词短语的方法和装置
CN104050302B (zh) * 2014-07-10 2017-05-24 华东师范大学 一种基于图谱模型的话题探测系统
CN104156352B (zh) * 2014-08-15 2017-04-19 苏州大学 一种中文事件的处理方法及系统
CN104281645B (zh) * 2014-08-27 2017-06-16 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法
JP6414967B2 (ja) * 2014-11-25 2018-10-31 日本放送協会 文書処理装置およびプログラム
US9390087B1 (en) * 2015-02-09 2016-07-12 Xerox Corporation System and method for response generation using linguistic information
CN106156041B (zh) * 2015-03-26 2019-05-28 科大讯飞股份有限公司 热点信息发现方法及系统
CN105512238B (zh) * 2015-11-30 2019-06-04 北大方正集团有限公司 一种基于目标知识点的句群抽取方法及装置
CN105574092B (zh) * 2015-12-10 2019-08-23 百度在线网络技术(北京)有限公司 信息挖掘方法和装置
CN108804432A (zh) * 2017-04-26 2018-11-13 慧科讯业有限公司 一种基于网络媒体数据流发现并跟踪热点话题的方法、系统和装置
CN108984521A (zh) * 2018-06-20 2018-12-11 国家计算机网络与信息安全管理中心 一种新闻事件中人物观点抽取方法
CN109492109B (zh) * 2018-11-22 2021-09-17 鼎富智能科技有限公司 一种信息热点挖掘方法及装置
CN110134942B (zh) * 2019-04-01 2020-10-23 北京中科闻歌科技股份有限公司 文本热点提取方法及装置
CN110598203B (zh) * 2019-07-19 2023-08-01 中国人民解放军国防科技大学 一种结合词典的军事想定文书实体信息抽取方法及装置
CN110516067B (zh) * 2019-08-23 2022-02-11 北京工商大学 基于话题检测的舆情监控方法、系统及存储介质
CN110705296A (zh) * 2019-09-12 2020-01-17 华中科技大学 一种基于机器学习和深度学习的中文自然语言处理工具系统
CN110705261B (zh) * 2019-09-26 2023-03-24 浙江蓝鸽科技有限公司 中文文本分词方法及其系统

Also Published As

Publication number Publication date
CN110874531A (zh) 2020-03-10

Similar Documents

Publication Publication Date Title
CN110874531B (zh) 一种话题分析方法、装置和存储介质
CN109241538B (zh) 基于关键词和动词依存的中文实体关系抽取方法
JP6721179B2 (ja) 因果関係認識装置及びそのためのコンピュータプログラム
US9626358B2 (en) Creating ontologies by analyzing natural language texts
CN110765235B (zh) 训练数据的生成方法、装置、终端及可读介质
RU2618374C1 (ru) Выявление словосочетаний в текстах на естественном языке
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
WO2017206492A1 (zh) 二元特征词典的构建方法和装置
Van Durme et al. Open knowledge extraction through compositional language processing
JP2011118689A (ja) 検索方法及びシステム
CN110851714A (zh) 基于异构主题模型和词嵌入模型的文本推荐方法和系统
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN108399157A (zh) 实体与属性关系的动态抽取方法、服务器及可读存储介质
CN109992647B (zh) 一种内容搜索方法及装置
CN104572628B (zh) 一种基于句法特征的学术定义自动抽取系统及方法
CN108573025B (zh) 基于混合模板抽取句子分类特征的方法及装置
Rufaida et al. Lexicon-based sentiment analysis using inset dictionary: A Systematic literature review
KR20200073524A (ko) 특허 문서의 키프레이즈 추출 장치 및 방법
CN113590768B (zh) 一种文本关联度模型的训练方法及装置、问答方法及装置
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法
Barbaresi Collection, description, and visualization of the German Reddit corpus
JP2018077604A (ja) 機能記述からの実現手段・方法の侵害候補を自動特定する人工知能装置
CN108563617B (zh) 汉语句子混合模板的挖掘方法及装置
Feyisetan et al. Quick-and-clean extraction of linked data entities from microblogs
Kumar et al. TelStem: An unsupervised telugu stemmer with heuristic improvements and normalized signatures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant