CN112989042A - 热点话题的提取方法、装置、计算机设备及存储介质 - Google Patents

热点话题的提取方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112989042A
CN112989042A CN202110277638.XA CN202110277638A CN112989042A CN 112989042 A CN112989042 A CN 112989042A CN 202110277638 A CN202110277638 A CN 202110277638A CN 112989042 A CN112989042 A CN 112989042A
Authority
CN
China
Prior art keywords
hot
sentence
text data
data
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110277638.XA
Other languages
English (en)
Other versions
CN112989042B (zh
Inventor
黄振宇
铁瑞雪
王磊
陈又新
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110277638.XA priority Critical patent/CN112989042B/zh
Publication of CN112989042A publication Critical patent/CN112989042A/zh
Application granted granted Critical
Publication of CN112989042B publication Critical patent/CN112989042B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及大数据处理领域,揭示了一种热点话题的提取方法、装置、计算机设备及存储介质,其中方法包括:获取文本数据;对所述文本数据进行数据预处理,剔除所述文本数据中的噪音数据,得到候选文本数据;对所述候选文本数据进行句法结构分类,并根据句法结构特征将分类后的候选文本数据组合生成句子文本;基于深度语义学习模型提取所述句子文本中的核心成分后生成热度短句,并输出所述热度短句,所述热度短句用于描述热点话题。本申请能够大量的文本数据中识别出热点话题,提高热点话题的提取效率,并用精简的热度短句描述所述热点话题,使得热点话题的语义信息含量更加丰富,提高热点话题的信息阅读效率。

Description

热点话题的提取方法、装置、计算机设备及存储介质
技术领域
本申请涉及到大数据领域,特别是涉及到一种热点话题的提取方法、装置、计算机设备及存储介质。
背景技术
信息爆炸时代,每日的舆论信息数量都在百万级别甚至千万、上亿级别,用户往往需要花费大量时间甄别舆论信息中的热点信息,因此用户希望可以快速浏览到舆论信息的热点核心信息,然而目前缺少对舆论热点话题的提取自动化技术方案,目前大多数的舆论热点话题,均是由人工进行设置,例如以#XXX#表示,其中XXX标识热点话题的内容,因此当热点话题出现时,一般都是由各个平台人工归纳总结,再编写出热点话题,热点话题的提取的自动化程度低,而且该方案对于热点话题的覆盖程度低,无法覆盖大量的舆论信息,并且难以第一时间发现热点信息并归纳总结热点话题,导致对于热点话题的提取的效率太低,同时,热点话题的表征大多是句子级别或单词级别的,其中,句子级别的热点话题语义完整却不够简练,单词级别的热点话题简练但词义不够丰富,更加无法体现完整逻辑性,导致热点话题的信息阅读容易出现偏差。
发明内容
本申请的主要目的为提供一种热点话题的提取方法、装置、计算机设备及存储介质,旨在解决目前的热点话题的提取的自动化程度低,覆盖程度低的问题。
为了实现上述发明目的,本申请提出一种热点话题的提取方法,包括:
获取文本数据;
对所述文本数据进行数据预处理,剔除所述文本数据中的噪音数据,得到候选文本数据;
对所述候选文本数据进行句法结构分类,并根据句法结构特征将分类后的候选文本数据组合生成句子文本;
基于深度语义学习模型提取所述句子文本中的核心成分后生成热度短句,并输出所述热度短句,所述热度短句用于描述热点话题。
进一步地,所述基于深度语义学习模型提取所述句子文本中的核心成分后生成热度短句,并输出所述热度短句,包括:
基于深度语义学习模型提取所述句子文本中的核心成分后生成热度短句;
对所述热度短句进行置信度评估,确定所述热度短句的置信度值;
若所述热度短句的置信度值满足标准值,输出所述热度短句。
进一步地,所述对所述热度短句进行置信度评估,确定所述热度短句的置信度值之后,还包括:
若所述热度短句的置信度值不满足标准值,根据备用方案获取句子的完整结构,根据所述句子的完整结构将所述句子文本输出为热度句子,所述热度句子用于描述热点话题。
进一步地,所述基于深度语义规则提取所述句子文本中的核心成分后生成热度短句之后,还包括:
对所述热度短句进行句法结构验证,判断所述热度短句是否符合句法约束规则;
若是,确定所述热度短句的句法结构满足句法约束要求,输出所述热度短句。
进一步地,所述获取文本数据,包括:
获取文本数据,对文本数据进行聚类,得到聚类文本数据;
对所述聚类文本数据进行话题分类,确定不同话题的文本数据。
进一步地,所述对所述文本数据进行数据预处理,剔除所述文本数据中的噪音数据,包括:
对所述文本数据进行大数据标注,得到文本数据基于大数据识别的标注结果;
对所述标注结果进行十折交叉验证验证,若所述验证结果异常,确定所述文本数据为噪音数据;
剔除所述文本数据中的噪音数据。
进一步地,所述根据句法结构特征将分类后的候选文本数据组合生成句子文本,包括:
获取不同场景下的句法结构特征;
根据所述不同场景下的句法结构特征将分类后的候选文本数据组合,基于所述句法结构特征的句子描述方式生成对应场景下的句子文本。
本申请还提供一种热点话题的提取装置,包括:
文本获取模块:用于获取文本数据;
文本处理模块:用于对所述文本数据进行数据预处理,剔除所述文本数据中的噪音数据,得到候选文本数据;
句子生成模块:用于对所述候选文本数据进行句法结构分类,并根据句法结构特征将分类后的候选文本数据组合生成句子文本;
核心提取模块:用于基于深度语义学习模型提取所述句子文本中的核心成分后生成热度短句,并输出所述热度短句,所述热度短句用于描述热点话题。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述热点话题的提取方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述热点话题的提取方法的步骤。
本申请例提供了一种短句级别的热点话题信息的提取方法,通过获取文本数据,所述文本数据包含的热点信息,然后对所述文本数据进行数据预处理,剔除所述文本数据中的噪音数据,减少噪音数据对话题提取的干扰,得到候选文本数据,再对所述候选文本数据进行分类,确定所述候选文本数据在句子文本中的类型,当所述候选文本数据分类完成后,根据句法结构特征将分类后的候选文本数据组合生成句子文本,再基于深度语义规则提取所述句子文本中的核心成分后,将所述句子文本的核心成分保存,将所述句子文本的旁支成分删除,从而生成热度短句,所述热度短句用于描述热点话题,从而在大量的文本数据中识别出热点话题,提高热点话题的提取效率,并用精简的热度短句描述所述热点话题,使得热点话题的语义信息含量更加丰富,提高热点话题的信息阅读效率。
附图说明
图1为本申请热点话题的提取方法的一实施例流程示意图;
图2为本申请热点话题的提取方法的另一实施例流程示意图;
图3为本申请热点话题的提取装置的一实施例结构示意图;
图4为本申请计算机设备的一实施例结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种热点话题的提取方法,包括步骤S10-S40,对于所述热点话题的提取方法的各个步骤的详细阐述如下。
S10、获取文本数据。
本实施例中,互联网上会产生各式各样的信息,包括文本信息、图像信息、音频信息、视频信息,本实施例主要是针对互联网上产生的文本信息进行处理,获取互联网上的文本数据,即收集互联网中的文本信息,在一种实施方式中,本实施例应用于资讯社交应用软件,在资讯社交应用软件上不同用户可以发布不同的信息,然后获取所述信息中的文本信息;在另一种实施方式中,通过爬虫技术从互联网下载预设时间段内的论坛、博客或微博等网页,然后从该些网页中提取文本,从而获取文本数据。
S20、对所述文本数据进行数据预处理,剔除所述文本数据中的噪音数据,得到候选文本数据。
本实施例中,为了从获取的文本数据中输出所述文本数据表征的当前话题信息,需要对所述文本数据进行数据预处理,所述数据预处理包括根据正则表达规则筛选出文本数据中的弱特征数据和长样例数据,所述弱特征数据为出现频次低于预设值的文本数据;所述长样例数据为结构复杂,成分关联多样的文本数据,即所述弱特征数据和长样例数据为标注模糊的数据,然后对所述文本数据中的弱特征数据和长样例数据进行增强,对弱特征数据及长样例数据进行增强,可以实现对文本数据的正常标注,然后再对数据预处理后的文本数据进行筛选,剔除所述文本数据中的噪音数据,若文本数据经过数据预处理后,仍然存在标注异常的数据,将标注异常的数据定义为噪音数据,然后剔除所述文本数据中的噪音数据,得到候选文本数据。
S30、对所述候选文本数据进行句法结构分类,并根据句法结构特征将分类后的候选文本数据组合生成句子文本。
本实施例中,在得到候选文本数据后,需要根据所述候选文本数据生成表征当前话题的信息,具体的,对所述候选文本数据进行分类,即确定所述候选文本数据在句子文本中的类型,所述候选文本数据的分类包括主语、谓语、宾语、动词、形容词、副词等分类,当所述候选文本数据分类完成后,根据句法结构特征将分类后的候选文本数据组合生成句子文本,句法结构特征规定了每一种分类的候选文本数据的填入位置,将对应分类的候选文本数据根据句法结构特征规定的所述填入位置填入后,生成句子文本。由于中文语法的丰富性以及大量的不同地方语言,所述句法结构特征并非是单一固定的句法结构特征,可以根据不同的需求变换不同的句法结构特征,从而将分类后的候选文本数据组合生成不同的句子文本,而该些不同句法结构特征的句子文本仍然表达的是同一个主题。
S40、基于深度语义学习模型提取所述句子文本中的核心成分后生成热度短句,并输出所述热度短句,所述热度短句用于描述热点话题。
本实施例中,在将分类后的候选文本数据组合生成句子文本后,所述句子文本为具有完整的句法结构特征的句子,为了简明地表达所述句子文本所要表达的信息,基于深度语义学习模型提取所述句子文本中的核心成分后生成热度短句。深度语义学习模型通过学习大量句子文本数据,识别句子文本中各个成分的含义,并确定所述句子文本的核心成分以及旁支成分,然后将所述句子文本的核心成分保存,将所述句子文本的旁支成分删除,从而生成热度短句。所述核心成分包括句子文本中的主语、谓语及宾语,且为名词或动词词性组合,所述句子文本的旁支成分包括副词、形容词等,提取句子文本中的核心成分生成热度短句,达到精简句子文本的目的,然后将所述热度短句输出,所述热度短句用于描述热点话题,从而在大量的文本数据中识别出热点话题,并用精简的热度短句描述所述热点话题,使得热点话题的语义信息含量更加丰富。
本实施例提供了一种短句级别的热点话题信息的提取方法,通过获取文本数据,所述文本数据包含的热点信息,然后对所述文本数据进行数据预处理,剔除所述文本数据中的噪音数据,减少噪音数据对话题提取的干扰,得到候选文本数据,再对所述候选文本数据进行分类,确定所述候选文本数据在句子文本中的类型,当所述候选文本数据分类完成后,根据句法结构特征将分类后的候选文本数据组合生成句子文本,再基于深度语义学习模型提取所述句子文本中的核心成分后,将所述句子文本的核心成分保存,将所述句子文本的旁支成分删除,从而生成热度短句,所述热度短句用于描述热点话题,从而在大量的文本数据中识别出热点话题,提高热点话题的提取效率,并用精简的热度短句描述所述热点话题,使得热点话题的语义信息含量更加丰富,提高热点话题的信息阅读效率。
在一个实施例中,所述步骤S40中的基于深度语义学习模型提取所述句子文本中的核心成分后生成热度短句,并输出所述热度短句,包括:
基于深度语义学习模型提取所述句子文本中的核心成分后生成热度短句;
对所述热度短句进行置信度评估,确定所述热度短句的置信度值;
若所述热度短句的置信度值满足标准值,输出所述热度短句。
本实施例中,在基于深度语义学习模型提取所述句子文本中的核心成分后生成热度短句之后,还需要保证所述热度短句能够正确地表征当前的话题信息,具体的,在基于深度语义学习模型提取所述句子文本中的核心成分后生成热度短句后,对所述热度短句进行置信度评估,确定所述热度短句的置信度值,置信度值能够表征所述热度短句对于当前的话题信息的预测结果的可靠程度,若所述热度短句的置信度值满足标准值,则确定所述热度短句能够表征当前的话题信息,然后输出所述热度短句。所述置信度评估通过计算所述热度短句中各个成分的第一得分,以及各个成分的组合的第二得分,再将所述热度短句与句子文本进行比对,确定热度短句与句子文本共同出现的词语个数,计算第三得分,所述各个成分的第一得分根据所述各个成分出现的频率进行计算,当出现的频率越高时,所述第一得分越高;所述各个成分的组合的第二得分,即将各个成分分别进行组合,根据所述各个成分的组合同时出现的频率进行计算,当同时出现的频率越高时,所述第二得分越高;第三得分是根据热度短句与句子文本共同出现的词语个数的比值确定的,当热度短句与句子文本共同出现的词语个数越多时,第三得分越高;根据所述第一得分、第二得分、第三得分确定所述热度短句的置信度值,所述第一得分、第二得分、第三得分具有对应的权重系数,根据所述第一得分、第二得分、第三得分的权重系数分别与第一得分、第二得分、第三得分的分值确定所述热度短句的置信度值,完成对所述热度短句的置信度评估。
在一个实施例中,所述对所述热度短句进行置信度评估,确定所述热度短句的置信度值之后,还包括:
若所述热度短句的置信度值不满足标准值,根据备用方案获取句子的完整结构,根据所述句子的完整结构将所述句子文本输出为热度句子,所述热度句子用于描述热点话题。
本实施例中,若对所述热度短句进行置信度评估后,所述热度短句的置信度值不满足标准值,表示当前生成的热度短句无法准确地表达当前的话题信息,可能是热度短句的句法出现错误,或者热度短句出现语言信息遗漏,或者热度短句的句子过短或过长,均会导致热度短句的置信度值不满足标准值,当热度短句的置信度值不满足标准值,根据备用方案获取句子的完整结构,根据所述句子的完整结构将所述句子文本输出为热度句子,所述热度句子用于描述热点话题,即重新根据所述句子文本进行热点话题描述词语的提取,然后生成热度句子,在一种实施方式中,所述备用方案为句子的完整结构,句子的完整结构包含了六要素,WHO,WHEN,WHAT,WHERE,WHY,HOW,从句子文本中提取句子的完整结构包含的各项成分后,再根据句子的完整结构包含的各项成分生成热度句子;再用所述热度句子描述热点话题,所述热度句子相较于热度短句而言,具有更长的句子结构以及更完整的句子信息,避免了错误的热度短句的输出导致对于热点话题的描述错误。
在一个实施例中,所述步骤S40中的基于深度语义学习模型提取所述句子文本中的核心成分后生成热度短句之后,还包括:
对所述热度短句进行句法结构验证,判断所述热度短句是否符合句法约束规则;
若是,确定所述热度短句的句法结构满足句法约束要求,输出所述热度短句。
本实施例中,在基于深度语义学习模型提取所述句子文本中的核心成分后生成热度短句之后,再对所述热度短句进行句法结构验证,确保所述热度短句的逻辑性及语法均符合正常的阅读要求,具体的,判断所述热度短句是否符合句法约束规则,在一种实施方式中,判断所述热度短句是否符合句法约束规则包括对热度短句增加时态词,然后判断是否符合句法约束规则,即增加所述时态词后,热度短句是否语义逻辑正确;进一步的,再对热度短句进行主体识别,识别主体是否能够完成相应的动作,若是,则判断所述主体符合句法约束规则,若符合,则确定所述热度短句的句法结构满足句法约束规则,输出所述热度短句,所述热度短句用于描述热点话题,从而在大量的文本数据中识别出热点话题,并用精简的热度短句描述所述热点话题,使得热点话题的语义信息含量更加丰富。
在一个实施例中,所述步骤S10的获取文本数据,包括:
对文本数据进行聚类,得到聚类文本数据;
对所述聚类文本数据进行分类,确定不同话题的文本数据。
本实施例中,在获取文本数据时,获取的是不同话题的文本数据,然后再对该话题的文本数据进行热点话题信息的提取,从而快速地发现不同的热点话题,所述获取不同话题的文本数据具体包括,对文本数据进行聚类,得到聚类文本数据,即将收集到的文本数据先进行聚类,将属性相同的、描述同一话题的文本数据进行聚类,得到聚类文本数据,在一种实施方式中,将所述文本数据根据其文本属性转化为聚类簇,再标记各个聚类簇的热度值,当所述聚类簇的热度值满足一定数值时,确定该聚类簇满足聚类要求,得到聚类文本数据,再对所述聚类文本数据进行分类,确定所述聚类文本数据所属的话题,从而确定不同话题的文本数据,后续根据不同话题的文本数据,能够快速地提取该话题下的热度短句,完成对热点话题的提取,提高热点话题的提取效率。
在一个实施例中,如图2所示,所述步骤S20中的对所述文本数据进行数据预处理,剔除所述文本数据中的噪音数据,包括:
S21:对所述文本数据进行大数据标注,得到文本数据基于大数据识别的标注结果;
S22:对所述标注结果进行十折交叉验证,若所述验证结果异常,确定所述文本数据为噪音数据;
S23:剔除所述文本数据中的噪音数据。
本实施例中,在对所述文本数据进行数据预处理时,基于大数据对所述文本数据进行大数据标注,标注的目的是为了更好地对文本数据进行统计及分类,对所述文本数据进行大数据标注能够得到每一个文本数据的统计及分类,然后得到文本数据的标注结果,再对所述标注结果进行验证,在一种实施方式中,所述对所述标注结果进行验证包括对所述标注结果执行十折交叉验证,具体的,将文本数据及文本数据的标注结果均匀分成10份,每次用9份数据训练一个模型,训练时的模型的参数相同,用剩下的1份进行数据标注,记录错误的数据,整合10份数据中错误的数据,作为异常数据进一步核对标注结果的正确性,对标注后的数据再次进十折交叉验证,直至错误数据小于数据总量的20%;若所述标注结果进行验证后,所述验证结果异常,则表示该文本数据的标注错误,确定所述文本数据为噪音数据,然后将该噪音数据从文本数据中剔除,得到均能正确标注的文本数据,从而减少后续数据量的处理,提高数据的处理效率。
在一个实施例中,所述步骤S30的所述根据句法结构特征将分类后的候选文本数据组合生成句子文本,包括:
获取不同场景下的句法结构特征;
根据所述不同场景下的句法结构特征将分类后的候选文本数据组合,基于所述句法结构特征的句子描述方式生成对应场景下的句子文本。
本实施例中,在根据句法结构特征将分类后的候选文本数据组合生成句子文本时,不同的场景下所需要的热点话题的描述方式不同,因而先获取不同场景下的句法结构特征,然后再根据所述不同场景下的句法结构特征将分类后的候选文本数据组合,生成对应场景下的句子文本,从而生成不同场景下的句子文本,以便后续从所述句子文本中提取出不同场景下的热度短句,从而提高不同场景下的热度短句的提取效率,方便不同场景下的热点话题的阅读,在一种实施方式中,不同场景包括场景A和场景B,场景A为地方频道a,场景B为地方频道b,不同的地方频道的语言习惯不同,根据不同的语言习惯获取对应的句法结构特征,然后根据所述不同场景下的句法结构特征将分类后的候选文本数据组合,生成对应场景下的句子文本,后续根据所述句子文本提取的热度短句更能符合对应场景下的阅读需求,满足不同场景的热点话题的阅读需求。
参照图3,本申请还提供一种热点话题的提取装置,包括:
文本获取模块10:用于获取文本数据;
文本处理模块20:用于对所述文本数据进行数据预处理,剔除所述文本数据中的噪音数据,得到候选文本数据;
句子生成模块30:用于对所述候选文本数据进行句法结构分类,并根据句法结构特征将分类后的候选文本数据组合生成句子文本;
核心提取模块40:用于基于深度语义学习模型提取所述句子文本中的核心成分后生成热度短句,并输出所述热度短句,所述热度短句用于描述热点话题。
如上所述,可以理解地,本申请中提出的所述热点话题的提取装置的各组成部分可以实现如上所述热点话题的提取方法任一项的功能。
在一个实施例中,所述核心提取模块40还包括执行:
基于深度语义学习模型提取所述句子文本中的核心成分后生成热度短句;
对所述热度短句进行置信度评估,确定所述热度短句的置信度值;
若所述热度短句的置信度值满足标准值,输出所述热度短句。
在一个实施例中,所述核心提取模块40还包括执行:
若所述热度短句的置信度值不满足标准值,根据备用方案获取句子的完整结构,根据所述句子的完整结构将所述句子文本输出为热度句子,所述热度句子用于描述热点话题。
在一个实施例中,所述核心提取模块40还包括执行:
对所述热度短句进行句法结构验证,判断所述热度短句是否符合句法约束规则;
若是,确定所述热度短句的句法结构满足句法约束要求,输出所述热度短句。
在一个实施例中,所述文本获取模块10还包括执行:
获取文本数据,对文本数据进行聚类,得到聚类文本数据;
对所述聚类文本数据进行话题分类,确定不同话题的文本数据。
在一个实施例中,所述文本处理模块20还包括执行:
对所述文本数据进行大数据标注,得到文本数据基于大数据识别的标注结果;
对所述标注结果进行十折交叉验证验证,若所述验证结果异常,确定所述文本数据为噪音数据;
剔除所述文本数据中的噪音数据。
在一个实施例中,所述句子生成模块30还包括执行:
获取不同场景下的句法结构特征;
根据所述不同场景下的句法结构特征将分类后的候选文本数据组合,基于所述句法结构特征的句子描述方式生成对应场景下的句子文本。
参照图4,本申请实施例中还提供一种计算机设备,该计算机设备可以是移动终端,其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和显示装置及输入装置。其中,该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的输入装置用于接收用户的输入。该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质。该非易失性存储介质存储有操作系统、计算机程序和数据库。该计算机设备的数据库用于存放数据。该计算机程序被处理器执行时以实现一种热点话题的提取方法。
上述处理器执行上述的热点话题的提取方法,包括:获取文本数据;对所述文本数据进行数据预处理,剔除所述文本数据中的噪音数据,得到候选文本数据;对所述候选文本数据进行句法结构分类,并根据句法结构特征将分类后的候选文本数据组合生成句子文本;基于深度语义学习模型提取所述句子文本中的核心成分后生成热度短句,并输出所述热度短句,所述热度短句用于描述热点话题。
所述计算机设备提供了一种短句级别的热点话题信息的提取方法,通过获取文本数据,所述文本数据为互联网上的文本数据,从而实时监测互联网上的热点信息,然后对所述文本数据进行数据预处理,剔除所述文本数据中的噪音数据,减少噪音数据对话题提取的干扰,得到候选文本数据,再对所述候选文本数据进行分类,确定所述候选文本数据在句子文本中的类型,当所述候选文本数据分类完成后,根据句法结构特征将分类后的候选文本数据组合生成句子文本,句法结构特征规定了每一种分类的候选文本数据的填入位置,将对应分类的候选文本数据根据句法结构特征规定的位置填入后,生成句子文本,再基于深度语义学习模型提取所述句子文本中的核心成分后,将所述句子文本的核心成分保存,将所述句子文本的旁支成分删除,从而生成热度短句,所述热度短句用于描述热点话题,从而在大量的文本数据中识别出热点话题,提高热点话题的提取效率,并用精简的热度短句描述所述热点话题,使得热点话题的语义信息含量更加丰富,提高热点话题的信息阅读效率。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被所述处理器执行时实现一种热点话题的提取方法,包括步骤:获取文本数据;对所述文本数据进行数据预处理,剔除所述文本数据中的噪音数据,得到候选文本数据;对所述候选文本数据进行句法结构分类,并根据句法结构特征将分类后的候选文本数据组合生成句子文本;基于深度语义学习模型提取所述句子文本中的核心成分后生成热度短句,并输出所述热度短句,所述热度短句用于描述热点话题。
所述计算机可读存储介质提供了一种短句级别的热点话题信息的提取方法,通过获取文本数据,所述文本数据为互联网上的文本数据,从而实时监测互联网上的热点信息,然后对所述文本数据进行数据预处理,剔除所述文本数据中的噪音数据,减少噪音数据对话题提取的干扰,得到候选文本数据,再对所述候选文本数据进行分类,确定所述候选文本数据在句子文本中的类型,当所述候选文本数据分类完成后,根据句法结构特征将分类后的候选文本数据组合生成句子文本,句法结构特征规定了每一种分类的候选文本数据的填入位置,将对应分类的候选文本数据根据句法结构特征规定的位置填入后,生成句子文本,再基于深度语义学习模型提取所述句子文本中的核心成分后,将所述句子文本的核心成分保存,将所述句子文本的旁支成分删除,从而生成热度短句,所述热度短句用于描述热点话题,从而在大量的文本数据中识别出热点话题,提高热点话题的提取效率,并用精简的热度短句描述所述热点话题,使得热点话题的语义信息含量更加丰富,提高热点话题的信息阅读效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。
非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围。
凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种热点话题的提取方法,其特征在于,包括:
获取文本数据;
对所述文本数据进行数据预处理,剔除所述文本数据中的噪音数据,得到候选文本数据;
对所述候选文本数据进行句法结构分类,并根据句法结构特征将分类后的候选文本数据组合生成句子文本;
基于深度语义学习模型提取所述句子文本中的核心成分后生成热度短句,并输出所述热度短句,所述热度短句用于描述热点话题。
2.根据权利要求1所述的热点话题的提取方法,其特征在于,所述基于深度语义学习模型提取所述句子文本中的核心成分后生成热度短句,并输出所述热度短句,包括:
基于深度语义学习模型提取所述句子文本中的核心成分后生成热度短句;
对所述热度短句进行置信度评估,确定所述热度短句的置信度值;
若所述热度短句的置信度值满足标准值,输出所述热度短句。
3.根据权利要求2所述的热点话题的提取方法,其特征在于,所述对所述热度短句进行置信度评估,确定所述热度短句的置信度值之后,还包括:
若所述热度短句的置信度值不满足标准值,根据备用方案获取句子的完整结构,根据所述句子的完整结构将所述句子文本输出为热度句子,所述热度句子用于描述热点话题。
4.根据权利要求1所述的热点话题的提取方法,其特征在于,所述基于深度语义规则提取所述句子文本中的核心成分后生成热度短句之后,还包括:
对所述热度短句进行句法结构验证,判断所述热度短句是否符合句法约束规则;
若是,确定所述热度短句的句法结构满足句法约束要求,输出所述热度短句。
5.根据权利要求1所述的热点话题的提取方法,其特征在于,所述获取文本数据,包括:
获取文本数据,对文本数据进行聚类,得到聚类文本数据;
对所述聚类文本数据进行话题分类,确定不同话题的文本数据。
6.根据权利要求1所述的热点话题的提取方法,其特征在于,所述对所述文本数据进行数据预处理,剔除所述文本数据中的噪音数据,包括:
对所述文本数据进行大数据标注,得到文本数据基于大数据识别的标注结果;
对所述标注结果进行十折交叉验证验证,若所述验证结果异常,确定所述文本数据为噪音数据;
剔除所述文本数据中的噪音数据。
7.根据权利要求1所述的热点话题的提取方法,其特征在于,所述根据句法结构特征将分类后的候选文本数据组合生成句子文本,包括:
获取不同场景下的句法结构特征;
根据所述不同场景下的句法结构特征将分类后的候选文本数据组合,基于所述句法结构特征的句子描述方式生成对应场景下的句子文本。
8.一种热点话题的提取装置,其特征在于,包括:
文本获取模块:用于获取文本数据;
文本处理模块:用于对所述文本数据进行数据预处理,剔除所述文本数据中的噪音数据,得到候选文本数据;
句子生成模块:用于对所述候选文本数据进行句法结构分类,并根据句法结构特征将分类后的候选文本数据组合生成句子文本;
核心提取模块:用于基于深度语义学习模型提取所述句子文本中的核心成分后生成热度短句,并输出所述热度短句,所述热度短句用于描述热点话题。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述热点话题的提取方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述热点话题的提取方法的步骤。
CN202110277638.XA 2021-03-15 2021-03-15 热点话题的提取方法、装置、计算机设备及存储介质 Active CN112989042B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110277638.XA CN112989042B (zh) 2021-03-15 2021-03-15 热点话题的提取方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110277638.XA CN112989042B (zh) 2021-03-15 2021-03-15 热点话题的提取方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112989042A true CN112989042A (zh) 2021-06-18
CN112989042B CN112989042B (zh) 2024-03-15

Family

ID=76335639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110277638.XA Active CN112989042B (zh) 2021-03-15 2021-03-15 热点话题的提取方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112989042B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018073334A1 (en) * 2016-10-20 2018-04-26 Cortical.Io Ag Methods and systems for identifying a level of similarity between a plurality of data representations
CN107967299A (zh) * 2017-11-03 2018-04-27 中国农业大学 一种面向农业舆情的热词自动提取方法及系统
CN109271642A (zh) * 2018-11-26 2019-01-25 科大讯飞股份有限公司 文本要点检测方法、装置、设备、存储介质及评估方法
US20190122145A1 (en) * 2017-10-23 2019-04-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for extracting information
CN111460153A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 热点话题提取方法、装置、终端设备及存储介质
CN111581358A (zh) * 2020-04-08 2020-08-25 北京百度网讯科技有限公司 信息抽取方法、装置及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018073334A1 (en) * 2016-10-20 2018-04-26 Cortical.Io Ag Methods and systems for identifying a level of similarity between a plurality of data representations
US20190122145A1 (en) * 2017-10-23 2019-04-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for extracting information
CN107967299A (zh) * 2017-11-03 2018-04-27 中国农业大学 一种面向农业舆情的热词自动提取方法及系统
CN109271642A (zh) * 2018-11-26 2019-01-25 科大讯飞股份有限公司 文本要点检测方法、装置、设备、存储介质及评估方法
CN111460153A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 热点话题提取方法、装置、终端设备及存储介质
CN111581358A (zh) * 2020-04-08 2020-08-25 北京百度网讯科技有限公司 信息抽取方法、装置及电子设备

Also Published As

Publication number Publication date
CN112989042B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN108376151B (zh) 问题分类方法、装置、计算机设备和存储介质
KR101498331B1 (ko) 텍스트 세그먼트를 가진 문서로부터 용어를 추출하기 위한 시스템
US10242049B2 (en) Method, system and storage medium for implementing intelligent question answering
CN111651996B (zh) 摘要生成方法、装置、电子设备及存储介质
CN108875059B (zh) 用于生成文档标签的方法、装置、电子设备和存储介质
CN110765235B (zh) 训练数据的生成方法、装置、终端及可读介质
CN113282955B (zh) 隐私政策中隐私信息提取方法、系统、终端及介质
CN108388553B (zh) 对话消除歧义的方法、电子设备及面向厨房的对话系统
CN104978314A (zh) 媒体内容推荐方法及装置
KR102122081B1 (ko) 인공지능 음성인식 기반 검수기 및 분석기의 상호학습을 통한 자연어 말뭉치 구축 방법
CN112149386A (zh) 一种事件抽取方法、存储介质及服务器
CN116244410B (zh) 一种基于知识图谱和自然语言的指标数据分析方法及系统
CN114580346A (zh) 结合rpa和ai的信息生成方法、装置、电子设备及存储介质
CN117407507A (zh) 基于大语言模型的事件处理方法、装置、设备及介质
CN113705207A (zh) 语法错误识别方法及装置
CN112989042B (zh) 热点话题的提取方法、装置、计算机设备及存储介质
CN116451646A (zh) 一种标准草案检测方法、系统、电子设备及存储介质
CN113806667B (zh) 一种支持网页分类的方法和系统
CN116383710A (zh) 标签确定方法、装置、电子设备及存储介质
CN115510192A (zh) 一种新闻事件脉络关系检测方法及装置
CN109992778A (zh) 基于机器学习的简历文档判别方法及装置
CN112735465B (zh) 无效信息确定方法、装置、计算机设备及存储介质
CN108573025B (zh) 基于混合模板抽取句子分类特征的方法及装置
CN114154497A (zh) 语病识别方法、装置、电子设备和存储介质
CN114911922A (zh) 一种情感分析方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant