CN114186066B - 一种报告生成方法、系统、存储介质及电子设备 - Google Patents

一种报告生成方法、系统、存储介质及电子设备 Download PDF

Info

Publication number
CN114186066B
CN114186066B CN202210139471.5A CN202210139471A CN114186066B CN 114186066 B CN114186066 B CN 114186066B CN 202210139471 A CN202210139471 A CN 202210139471A CN 114186066 B CN114186066 B CN 114186066B
Authority
CN
China
Prior art keywords
data
text data
classification
target text
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210139471.5A
Other languages
English (en)
Other versions
CN114186066A (zh
Inventor
张壹鼎
李伟
顾夏辉
安涛
刘威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zichang Technology Beijing Co ltd
Original Assignee
Zichang Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zichang Technology Beijing Co ltd filed Critical Zichang Technology Beijing Co ltd
Priority to CN202210139471.5A priority Critical patent/CN114186066B/zh
Publication of CN114186066A publication Critical patent/CN114186066A/zh
Application granted granted Critical
Publication of CN114186066B publication Critical patent/CN114186066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能自然语言处理技术领域,特别地涉及一种报告生成方法、系统、存储介质以及电子设备。公开了一种报告生成方法、系统、存储介质及电子设备,所述方法包括:获取目标文本数据;对所述目标文本数据进行去重,获得去重后的目标文本数据;对所述去重后的目标文本数据进行分类,获得分类数据;按照预设时间间隔更新所述分类数据;在达到预设时刻时,获取当前时刻的分类数据;对所述当前时刻的分类数据进行排序,获得排序后的分类数据;根据所述排序后的分类数据生成目标报告。根据用户提供的长文本数据通过深度学习可以高效地生成报告内容,有效降低了人工成本,并提高了生成的报告的精准度。

Description

一种报告生成方法、系统、存储介质及电子设备
技术领域
本发明涉及人工智能自然语言处理技术领域,特别地涉及一种报告生成方法、系统、存储介质以及电子设备。
背景技术
报告是一段时间内针对某个事件的一个总结,内容需要简洁明了并能突出事件核心的要点,也要拥有较强的说服力。伴随着报告在商业中的应用领域越来越多,更加需要生成高效的报告说明书。
由于网上的数据大都是非结构化的数据,通过人工去筛选复杂的文本类型的数据既耗时又耗力,而新闻报告的时效性要求比较高,所以传统的人工的方法无法高效的实时的呈现出研究报告。
发明内容
针对上述问题,本发明提出一种报告生成方法、系统、存储介质及电子设备,解决了通过人工去筛选复杂的文本类型的数据既耗时又耗力,无法高效的实时的呈现出研究报告的问题。
本发明的第一个方面,提供了一种报告生成方法,所述方法包括:
获取目标文本数据;
对所述目标文本数据进行去重,获得去重后的目标文本数据;
对所述去重后的目标文本数据进行分类,获得分类数据;
按照预设时间间隔更新所述分类数据;
在达到预设时刻时,获取当前时刻的分类数据;
对所述当前时刻的分类数据进行排序,获得排序后的分类数据;
根据所述排序后的分类数据生成目标报告。
在一些实施例中,所述按照预设时间间隔更新所述分类数据,包括:
从所述获取目标文本数据的时刻开始计时,每当达到预设时间间隔时,获取当前时刻的目标文本数据;
根据所述当前时刻的目标文本数据和所述分类数据,获取汇总数据;
对所述汇总数据进行去重,获得去重后的汇总数据;
对所述去重后的汇总数据进行分类,获得分类后的汇总数据;
将所述分类后的汇总数据作为更新后的分类数据。
在一些实施例中,所述对所述目标文本数据进行去重,获得去重后的目标文本数据,包括:
去除所述目标文本数据中完全相同的文本内容,得到去重后的第一数据;
去除所述第一数据中相似的文本内容,得到去重后的第二数据,将所述第二数据作为去重后的目标文本数据。
在一些实施例中,所述去除所述目标文本数据中完全相同的文本内容,得到去重后的第一数据,包括:
通过布隆过滤器去除所述目标文本数据中完全相同的文本,得到去重后的第一数据。
在一些实施例中,所述去除所述第一数据中相似的文本内容,得到去重后的第二数据,将所述第二数据作为去重后的目标文本数据,包括:
通过Simhash算法去除所述第一数据中相似的文本,得到去重后的第二数据,将所述第二数据作为去重后的目标文本数据。
在一些实施例中,所述对所述去重后的目标文本数据进行分类,获得分类数据,包括:
根据词汇出现的频率,从所述去重后的目标文本数据中获取关键词;
对所述关键词进行one-hot编码,得到编码后的目标文本数据;
通过分类层对所述编码后的目标文本数据进行分类,得到所述分类后的数据。
在一些实施例中,所述对所述去重后的目标文本数据进行分类,获得分类数据,还包括:
按照预设窗口从所述去重后的目标文本数据中滑动截取窗口数据;
将所述窗口数据输入Bert预训练模型,得到Bert向量;
将所述Bert向量输入LSTM模型,得到第一训练结果;
通过分类层对所述第一训练结果进行分类,得到所述分类数据。
在一些实施例中,所述Bert预训练模型的训练过程,包括:
获取标注数据;
对所述标注数据进行训练,得到Bert预训练模型。
在一些实施例中,所述对所述分类数据进行排序,获得排序后的分类数据,包括:
从所述分类数据中选取多条文本数据;
分别将每条文本数据输入Bert预训练模型,得到每条文本数据对应的第一Bert向量;
通过第一预设算法处理所述第一Bert向量,得到单文本向量;
通过第二预设算法处理所有的所述单文本向量,得到第一目标向量;
获取第二目标向量;
获取所述第一目标向量与所述第二目标向量的相似度结果;
根据所述相似度结果对所述目标文本数据进行排序。
在一些实施例中,所述获取第二目标向量,包括:
获取待处理文本数据;
对所述待处理文本数据进行去重,得到去重后的文本数据;
从所述去重后的文本数据中选取多条文本数据;
分别将每条文本数据输入Bert预训练模型进行训练,得到每条文本数据对应的第二Bert向量;
通过第一预设算法分别处理每个第二Bert向量,得到每个第二Bert向量对应的单文本向量;
通过第二预设算法处理所有的所述单文本向量,得到第二目标向量。
本发明的第二个方面,提供了一种报告生成系统,所述系统包括:
第一获取单元,用于获取目标文本数据;
去重单元,用于对所述目标文本数据进行去重,获得去重后的目标文本数据;
分类单元,用于对所述去重后的目标文本数据进行分类,获得分类数据;
更新单元,用于按照预设时间间隔更新所述分类数据;
第二获取单元,用于在达到预设时刻时,获取当前时刻的分类数据;
排序单元,用于对所述当前时刻的分类数据进行排序,获得排序后的分类数据;
生成单元,用于根据所述排序后的分类数据生成目标报告。
本发明的第三个方面,提供了一种存储介质,该存储介质存储的计算机程序,可被一个或多个处理器执行,用以实现如上所述的报告生成方法。
本发明的第四个方面,提供了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述存储器和所述处理器之间互相通信连接,该计算机程序被所述处理器执行时,实现如上所述的报告生成方法。
与现有技术相比,本发明的技术方案具有以下优点或有益效果:
根据用户提供的长文本数据通过深度学习可以高效地生成报告内容,有效降低了人工成本,并提高了生成的报告的精准度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本公开实施例提供的一种报告生成方法的流程图;
图2为本公开实施例提供的一种报告生成系统的示意图;
图3为本公开实施例提供的一种电子设备的连接框图。
具体实施方式
以下将结合附图及实施例来详细说明本公开的实施方式,借此对本公开如何应用技术手段来解决技术问题,并达到相应技术效果的实现过程能充分理解并据以实施。本公开实施例以及实施例中的各个特征,在不相冲突前提下可以相互结合,所形成的技术方案均在本公开的保护范围之内。
实施例一
本实施例提供一种报告生成方法,图1为本公开实施例提供的一种报告生成方法的流程图,如图1所示,本实施例的方法包括:
S100、获取目标文本数据。
可选的,目标文本数据包括长文本数据,可以按照预设时间间隔获取目标文本数据,比如,每隔1小时获取一次文本数据。
S200、对目标文本数据进行去重,获得去重后的目标文本数据。
在一些实施例中,对目标文本数据进行去重,获得去重后的目标文本数据,包括:
去除目标文本数据中完全相同的文本内容,得到去重后的第一数据;
去除第一数据中相似的文本内容,得到去重后的第二数据,将第二数据作为去重后的目标文本数据。
在一些实施例中,去除目标文本数据中完全相同的文本内容,得到去重后的第一数据,包括:
通过布隆过滤器去除目标文本数据中完全相同的文本,得到去重后的第一数据。
在一些实施例中,去除第一数据中相似的文本内容,得到去重后的第二数据,将第二数据作为去重后的目标文本数据,包括:
通过Simhash算法去除第一数据中相似的文本,得到去重后的第二数据,将第二数据作为去重后的目标文本数据。
可选的,针对文本数据的去重,主要通过两种算法来进行,首先通过布隆过滤器去除目标文本数据中完全相同的文本,得到去重后的第一数据,然后通过Simhash算法去除第一数据中相似的文本,得到去重后的第二文本数据,并将第二文本数据作为去重后的数据。
S300、对去重后的目标文本数据进行分类,获得分类数据。
在一些实施例中,对去重后的目标文本数据进行分类,获得分类数据,包括:
根据词汇出现的频率,从去重后的目标文本数据中获取关键词;
对关键词进行one-hot编码,得到编码后的目标文本数据;
通过分类层对编码后的目标文本数据进行分类,得到分类后的数据。
可选的,通过TF-IDF算法(Term Frequency-Inverse Document Frequency算法)从去重后的数据中根据词汇出现的频率获取关键词(包括名词,动词,组织结构等),通过one-hot编码+基于选词的bertembeding对上述筛选出的关键词进行编码,通过分类层(F分类层)对去重后的数据进行分类,得到分类后的数据。其中,TF-IDF算法是一种用于信息检索(information retrieval)与文本挖掘(text mining)的加权技术;one-hot编码是将类别变量转换为机器学习算法易于利用的一种形式的过程。
需要说明的是,分类层(F分类层)属于深度学习的最后一层(也可称之为分类器),其作用是用于概率计算。训练模型需要将接收到的文本信息转换为计算机所能认知的数字特征信息,通过深度学习中的网络层的学习,将高纬度的数字特征信息降维到低纬度(比如三维的篇章数字信息降维到二维的句子级别的数字信息,这个就是提取摘要的过程),分类层的作用是将低维的数字信息通过Softmax函数计算进而得到一个概率值的过程,通过该概率值训练模型就能判断其接收到的该文本信息是属于什么类型的,从而训练模型就可以判断这个文本信息的主旨意思更加偏向于哪个类别。
在一些实施例中,对去重后的目标文本数据进行分类,获得分类数据,还包括:
按照预设窗口从所述去重后的目标文本数据中滑动截取窗口数据;
将所述窗口数据输入Bert预训练模型,得到Bert向量;
将所述Bert向量输入LSTM模型,得到第一训练结果;
通过分类层对所述第一训练结果进行分类,得到所述分类数据。
在一些实施例中,所述Bert预训练模型的训练过程,包括:
获取标注数据;
对所述标注数据进行训练,得到Bert预训练模型。
举例说明,数据标注是对模型进行训练的第一步,深度学习大多数为监督学习,其中,通过标注数据进行训练的学习可称为监督学习。对文本数据进行标注的过程包括:用户通过对文本数据进行总结,总结出该文本数据内容的主旨意思属于什么类别,进而对该文本数据设置相应的类别标签(如标为体育或财经等)。标注数据可以包括,在该文本数据的基础上经用户进行设置类别标签之后所得到新的文本数据。标注数据的来源可以包括网上的新闻或者本地存储的用以进行训练的预设文本数据等;标注数据中的文本内容可以包括新闻文本的原文和/或标题,以及用户所设置的类别标签。比如,获取标注数据的方式可以包括,首先,获取存储在本地的用以进行训练的预设文本数据,然后,用户对预设文本数据进行分析并设置类别标签进而生成标注数据,可选的,还可以将生成的标注数据存储到本地以供后续再次进行训练时使用。
可选的,根据标注数据对文本数据进行打标签,提高模型的泛化系,将标注数据输入Bert(Bidirectional Encoder Representations from Transformers)预训练模型进行训练,由于Bert限制文本长度,可以通过滑动窗口的方式从去重后的数据中选择句子进行训练,将文本数据输入Bert预训练模型进行训练得到句子级别的Bert向量,然后再将句子级别的Bert向量输入LSTM模型(Long-Short Term Memory长短期记忆模型是一种特殊的RNN模型)中进行训练,最后,通过分类层对去重后的数据进行分类,得到分类后的数据。
在一些实施例中,本实施例的报告生成方法还包括:
获取样本外数据;
根据所述样本外数据对所述预训练模型进行检验。
可选的,在将句子级别的Bert向量输入LSTM模型中进行训练之后,及在通过分类层进行分类,得到分类后的数据之前,基于之前的训练,通过样本外的数据进行预测以检验其有效性。
需要说明的是,样本外数据可以包括获取到的实时新闻数据,并且还可以按照预设的时间间隔获取样本外数据。比如,可以设置一个获取样本外数据的接口(ApplicationProgramming Interface,应用程序接口,简称api),通过该接口按照一定的时间间隔获取样本外数据。样本外数据的获取方式可根据用户的实际需求进行设定,具体此处不做限定。
S400、按照预设时间间隔更新分类数据。
在一些实施例中,按照预设时间间隔更新分类数据,包括:
从获取目标文本数据的时刻开始计时,每当达到预设时间间隔时,获取当前时刻的目标文本数据;
根据当前时刻的目标文本数据和分类数据,获取汇总数据;
对汇总数据进行去重,获得去重后的汇总数据;
对去重后的汇总数据进行分类,获得分类后的汇总数据;
将分类后的汇总数据作为更新后的分类数据。
需要说明的是,预设时间间隔可以根据用户的实际需求进行设定,具体此处不做限定。
可选的,每隔1小时获取一次文本数据(文本数据和前述的文本数据可为格式相同的数据),将该文本数据与之前已得到的分类数据进行汇总,对汇总后的数据再进行去重分类等操作。
可选的,分类后生成摘要数据,在生产的摘要这段小文本中主要包括感兴趣的主要事件,比如,包括时间、地点、关键人物等数据。
S500、在达到预设时刻时,获取当前时刻的分类数据。
可选的,在进行排序之前获取当前时刻的分类数据。
S600、对当前时刻的分类数据进行排序,获得排序后的分类数据。
在一些实施例中,对分类数据进行排序,获得排序后的分类数据,包括:
从分类数据中选取多条文本数据;
分别将每条文本数据输入Bert预训练模型,得到每条文本数据对应的第一Bert向量;
通过第一预设算法处理第一Bert向量,得到单文本向量;
通过第二预设算法处理所有的单文本向量,得到第一目标向量;
获取第二目标向量;
获取第一目标向量与第二目标向量的相似度结果;
根据相似度结果对目标文本数据进行排序。
在一些实施例中,获取第二目标向量,包括:
获取待处理文本数据;
对待处理文本数据进行去重,得到去重后的文本数据;
从去重后的文本数据中选取多条文本数据;
分别将每条文本数据输入Bert预训练模型进行训练,得到每条文本数据对应的第二Bert向量;
通过第一预设算法分别处理每个第二Bert向量,得到每个第二Bert向量对应的单文本向量;
通过第二预设算法处理所有的单文本向量,得到第二目标向量。
可选的,第一预设算法可选为Maxpooling,第二预设算法可选为Avgpooling。
需要说明的是,第一预设算法和第二预设算法均可以根据用户的实际需求进行选择,具体此处不做限定。
S700、根据排序后的分类数据生成目标报告。
本实施例通过获取目标文本数据;对目标文本数据进行去重,获得去重后的目标文本数据;对去重后的目标文本数据进行分类,获得分类数据;按照预设时间间隔更新分类数据;在达到预设时刻时,获取当前时刻的分类数据;对当前时刻的分类数据进行排序,获得排序后的分类数据;根据排序后的分类数据生成目标报告。根据用户提供的长文本数据通过深度学习可以高效地生成报告内容,有效降低了人工成本,并提高了生成的报告的精准度。
实施例二
本实施例提供一种报告生成系统,本实施例可以用于执行本公开方法实施例,对于本实施例中未披露的细节,请参照本公开方法实施例。图2为本公开实施例提供的一种报告生成系统的示意图,如图2所示,本实施例提供的系统包括:
第一获取单元201,用于获取目标文本数据;
去重单元202,用于对目标文本数据进行去重,获得去重后的目标文本数据;
分类单元203,用于对去重后的目标文本数据进行分类,获得分类数据;
更新单元204,用于按照预设时间间隔更新分类数据;
第二获取单元205,用于在达到预设时刻时,获取当前时刻的分类数据;
排序单元206,用于对当前时刻的分类数据进行排序,获得排序后的分类数据;
生成单元207,用于根据排序后的分类数据生成目标报告。
在一些实施例中,去重单元202包括第一去除子单元和第二去除子单元;其中,第一去除子单元用于去除目标文本数据中完全相同的文本内容,得到去重后的第一数据;第二去除子单元用于去除第一数据中相似的文本内容,得到去重后的第二数据,将第二数据作为去重后的目标文本数据。
在一些实施例中,第一去除子单元用于通过布隆过滤器去除目标文本数据中完全相同的文本,得到去重后的第一数据。
在一些实施例中,第二去除子单元用于通过Simhash算法去除第一数据中相似的文本,得到去重后的第二数据,将第二数据作为去重后的目标文本数据。
在一些实施例中,分类单元203包括第一获取子单元,编码子单元,第一分类子单元;其中,第一获取子单元用于根据词汇出现的频率,从去重后的目标文本数据中获取关键词;编码子单元用于对关键词进行one-hot编码,得到编码后的目标文本数据;第一分类子单元用于通过分类层对编码后的目标文本数据进行分类,得到分类后的数据。
在一些实施例中,分类单元203还包括第二获取子单元,第一训练子单元,选择子单元,第二训练子单元,第三训练子单元,第二分类子单元;其中,第二获取子单元用于获取标注数据;第一训练子单元用于将标注数据输入Bert预训练模型进行训练;选择子单元用于从去重后的目标分类数据中选择文本数据;第二训练子单元用于将文本数据输入Bert预训练模型进行训练,得到Bert向量;第三训练子单元用于将Bert向量输入LSTM模型中进行训练;第二分类子单元用于通过分类层对去重后的数据进行分类,得到分类后的数据。
在一些实施例中,分类单元203还包括:检验子单元,用于在将句子级别的Bert向量输入LSTM模型中进行训练之后,及在通过分类层进行分类,得到分类后的数据之前,根据所述样本外数据对所述预训练模型进行检验。
可选的,通过第一获取单元201获取样本外数据。
可选的,第一获取单元201还用于从获取目标文本数据的时刻开始计时,每当达到预设时间间隔时,获取当前时刻的目标文本数据;
在一些实施例中,更新单元204包括汇总子单元,用于根据当前时刻的目标文本数据和分类数据,获取汇总数据。
可选的,第二获取单元205,用于在达到预设时刻时,获取当前时刻的分类数据。
在一些实施例中,排序单元206包括:第一获取子单元,训练子单元,第一压缩子单元,第二处理子单元,第二处理子单元,计算子单元,排序子单元;其中,第一获取子单元用于从分类数据中选取多条文本数据;训练子单元用于分别将每条文本数据输入Bert预训练模型,得到每条文本数据对应的第一Bert向量;第一处理子单元用于通过第一预设算法处理第一Bert向量,得到单文本向量;第二处理子单元用于通过第二预设算法处理所有的单文本向量,得到第一目标向量;第二获取子单元用于获取第二目标向量;计算子单元用于获取第一目标向量与第二目标向量的相似度结果;排序子单元用于根据相似度结果对目标文本数据进行排序。
需要说明的是,上述各个模块/单元可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
实施例三
本实施例还提供一种存储介质,该存储介质中存储有计算机程序,该计算机程序被处理器执行时可以实现如实施例一中的方法步骤,本实施例在此不再重复赘述。
其中,存储介质还可单独包括计算机程序、数据文件、数据结构等,或者包括其组合。存储介质或计算机程序可被计算机软件领域的技术人员具体设计和理解,或存储介质对计算机软件领域的技术人员而言可以是公知和可用的。存储介质的示例包括:磁性介质,例如硬盘、软盘和磁带;光学介质,例如,CDROM盘和DVD;磁光介质,例如,光盘;和硬件装置,具体被配置以存储和执行计算机程序,例如,只读存储器(ROM)、随机存取存储器(RAM)、闪存;或服务器、app应用商城等。计算机程序的示例包括机器代码(例如,由编译器产生的代码)和包含高级代码的文件,可由计算机通过使用解释器来执行高级代码。所描述的硬件装置可被配置为用作一个或多个软件模块,以执行以上描述的操作和方法,反之亦然。另外,存储介质可分布在联网的计算机系统中,可以分散的方式存储和执行程序代码或计算机程序。
实施例四
图3为本公开实施例提供的一种电子设备的连接框图,如图3所示,该电子设备500可以包括:处理器501,存储器502,多媒体组件503,输入/输出(I/O)接口504,以及通信组件505。
其中,处理器501用于执行如实施例一中的报告生成方法中的全部或部分步骤。存储器502用于存储各种类型的数据,这些数据例如可以包括电子设备中的任何应用程序或方法的指令,以及应用程序相关的数据。
处理器501可以是专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(Digital Signal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable LogicDevice,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述实施例一中的报告生成方法。
存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
多媒体组件503可以包括屏幕和音频组件,该屏幕可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或通过通信组件发送。音频组件还包括至少一个扬声器,用于输出音频信号。
I/O接口504为处理器501和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。
通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G、4G或5G,或它们中的一种或几种的组合,因此相应的该通信组件505可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
综上,本公开提供的一种报告生成方法、系统、存储介质以及电子设备,该方法包括:获取目标文本数据;对目标文本数据进行去重,获得去重后的目标文本数据;对去重后的目标文本数据进行分类,获得分类数据;按照预设时间间隔更新分类数据;在达到预设时刻时,获取当前时刻的分类数据;对当前时刻的分类数据进行排序,获得排序后的分类数据;根据排序后的分类数据生成目标报告。根据用户提供的长文本数据通过深度学习可以高效地生成报告内容,有效降低了人工成本,并提高了生成的报告的精准度。
另外应该理解到,在本发明所提供的实施例中所揭露的方法或系统,也可以通过其它的方式实现。以上所描述的方法或系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的方法和装置的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、计算机程序段或计算机程序的一部分,模块、计算机程序段或计算机程序的一部分包含一个或多个用于实现规定的逻辑功能的计算机程序。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生,实际上也可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机程序的组合来实现。
在本发明中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、装置或者设备中还存在另外的相同要素;如果有描述到“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系;在本发明的描述中,除非另有说明,术语“多个”、“多”的含义是指至少两个;如果有描述到服务器,需要说明的是,服务器可以是独立的物理服务器或终端,也可以是多个物理服务器构成的服务器集群,可以是能够提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器;如果有描述到智能终端或移动设备,需要说明的是,智能终端或移动设备可以是智能手机、平板电脑、智能手表、智能电视、智能音响、笔记本电脑、台式计算机等,但并不局限于此。
最后需要说明的是,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“一个示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式进行结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例都是示例性的,所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (11)

1.一种报告生成方法,其特征在于,所述方法包括:
获取目标文本数据;
对所述目标文本数据进行去重,获得去重后的目标文本数据;
对所述去重后的目标文本数据进行分类,获得分类数据,包括:
根据词汇出现的频率,从所述去重后的目标文本数据中获取关键词;对所述关键词进行one-hot编码,得到编码后的目标文本数据;通过分类层对所述编码后的目标文本数据进行分类,得到所述分类后的数据;
按照预设时间间隔更新所述分类数据;
在达到预设时刻时,获取当前时刻的分类数据;
对所述当前时刻的分类数据进行排序,获得排序后的分类数据;
根据所述排序后的分类数据生成目标报告;
所述按照预设时间间隔更新所述分类数据,包括:
从所述获取目标文本数据的时刻开始计时,每当达到预设时间间隔时,获取当前时刻的目标文本数据;
根据所述当前时刻的目标文本数据和所述分类数据,获取汇总数据;
对所述汇总数据进行去重,获得去重后的汇总数据;
对所述去重后的汇总数据进行分类,获得分类后的汇总数据;
将所述分类后的汇总数据作为更新后的分类数据。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标文本数据进行去重,获得去重后的目标文本数据,包括:
去除所述目标文本数据中完全相同的文本内容,得到去重后的第一数据;
去除所述第一数据中相似的文本内容,得到去重后的第二数据,将所述第二数据作为去重后的目标文本数据。
3.根据权利要求2所述的方法,其特征在于,所述去除所述目标文本数据中完全相同的文本内容,得到去重后的第一数据,包括:
通过布隆过滤器去除所述目标文本数据中完全相同的文本,得到去重后的第一数据。
4.根据权利要求2所述的方法,其特征在于,所述去除所述第一数据中相似的文本内容,得到去重后的第二数据,将所述第二数据作为去重后的目标文本数据,包括:
通过Simhash算法去除所述第一数据中相似的文本,得到去重后的第二数据,将所述第二数据作为去重后的目标文本数据。
5.根据权利要求1所述的方法,其特征在于,所述对所述去重后的目标文本数据进行分类,获得分类数据,还包括:
按照预设窗口从所述去重后的目标文本数据中滑动截取窗口数据;
将所述窗口数据输入Bert预训练模型,得到Bert向量;
将所述Bert向量输入LSTM模型,得到第一训练结果;
通过分类层对所述第一训练结果进行分类,得到所述分类数据。
6.根据权利要求5所述的方法,其特征在于,所述Bert预训练模型的训练过程,包括:
获取标注数据;
对所述标注数据进行训练,得到Bert预训练模型。
7.根据权利要求1所述的方法,其特征在于,所述对所述分类数据进行排序,获得排序后的分类数据,包括:
从所述分类数据中选取多条文本数据;
分别将每条文本数据输入Bert预训练模型,得到每条文本数据对应的第一Bert向量;
通过第一预设算法处理所述第一Bert向量,得到单文本向量;
通过第二预设算法处理所有的所述单文本向量,得到第一目标向量;
获取第二目标向量;
获取所述第一目标向量与所述第二目标向量的相似度结果;
根据所述相似度结果对所述目标文本数据进行排序。
8.根据权利要求7所述的方法,其特征在于,所述获取第二目标向量,包括:
获取待处理文本数据;
对所述待处理文本数据进行去重,得到去重后的文本数据;
从所述去重后的文本数据中选取多条文本数据;
分别将每条文本数据输入Bert预训练模型进行训练,得到每条文本数据对应的第二Bert向量;
通过第一预设算法分别处理每个第二Bert向量,得到每个第二Bert向量对应的单文本向量;
通过第二预设算法处理所有的所述单文本向量,得到第二目标向量。
9.一种报告生成系统,其特征在于,所述系统包括:
第一获取单元,用于获取目标文本数据;
去重单元,用于对所述目标文本数据进行去重,获得去重后的目标文本数据;
分类单元,用于对所述去重后的目标文本数据进行分类,获得分类数据;
更新单元,用于按照预设时间间隔更新所述分类数据;
第二获取单元,用于在达到预设时刻时,获取当前时刻的分类数据;
排序单元,用于对所述当前时刻的分类数据进行排序,获得排序后的分类数据;
生成单元,用于根据所述排序后的分类数据生成目标报告;
其中,所述分类单元包括:获取子模块,编码子模块以及分类子模块;其中,所述获取子模块用于根据词汇出现的频率,从所述去重后的目标文本数据中获取关键词;所述编码子模块用于对所述关键词进行one-hot编码,得到编码后的目标文本数据;所述分类子模块用于通过分类层对所述编码后的目标文本数据进行分类,得到所述分类后的数据。
10.一种存储介质,其特征在于,该存储介质存储的计算机程序,可被一个或多个处理器执行,可用来实现如权利要求
Figure FFW0000023556130000041
任意一项所述的报告生成方法。
11.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有计算机程序,所述存储器和所述处理器之间互相通信连接,该计算机程序被所述处理器执行时,执行如权利要求
Figure FFW0000023556130000042
任意一项所述的报告生成方法。
CN202210139471.5A 2022-02-16 2022-02-16 一种报告生成方法、系统、存储介质及电子设备 Active CN114186066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210139471.5A CN114186066B (zh) 2022-02-16 2022-02-16 一种报告生成方法、系统、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210139471.5A CN114186066B (zh) 2022-02-16 2022-02-16 一种报告生成方法、系统、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN114186066A CN114186066A (zh) 2022-03-15
CN114186066B true CN114186066B (zh) 2022-10-25

Family

ID=80546022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210139471.5A Active CN114186066B (zh) 2022-02-16 2022-02-16 一种报告生成方法、系统、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN114186066B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113886568A (zh) * 2021-09-30 2022-01-04 宿迁硅基智能科技有限公司 一种文本摘要的生成方法及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070027848A1 (en) * 2005-07-29 2007-02-01 Microsoft Corporation Smart search for accessing options
JP5963312B2 (ja) * 2013-03-01 2016-08-03 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、情報処理方法、及びプログラム
CN108846050B (zh) * 2018-05-30 2022-01-21 重庆望江工业有限公司 基于多模型融合的核心工艺知识智能推送方法及系统
CN109451147B (zh) * 2018-10-15 2020-11-24 麒麟合盛网络技术股份有限公司 一种信息展示方法及装置
CN110297886A (zh) * 2019-05-31 2019-10-01 广州大学 基于短文本的oj题目分类器构建方法及题目模拟方法
CN112950170B (zh) * 2020-06-19 2022-08-26 蚂蚁胜信(上海)信息技术有限公司 审核方法以及装置
CN111858912A (zh) * 2020-07-03 2020-10-30 黑龙江阳光惠远知识产权运营有限公司 一种基于单篇长文本的摘要生成方法
CN112183078B (zh) * 2020-10-22 2023-01-10 上海风秩科技有限公司 文本摘要确定方法和装置
CN112464639A (zh) * 2020-12-14 2021-03-09 上海爱数信息技术股份有限公司 一种搜索文本折叠处理系统及其方法
CN113869044A (zh) * 2021-10-12 2021-12-31 平安科技(深圳)有限公司 关键词自动提取方法、装置、设备及存储介质
CN113902354B (zh) * 2021-12-03 2022-03-04 环球数科集团有限公司 旅游评价数据处理方法、装置和计算机设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113886568A (zh) * 2021-09-30 2022-01-04 宿迁硅基智能科技有限公司 一种文本摘要的生成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
The study on keywords frequency composite function of public opinion toward Macau"s gambling industry: Using the Fruit Fly Optimization Algorithm;Shianghau Wu 等;《2013 International Conference on Engineering, Management Science and Innovation (ICEMSI)》;20141002;1-3 *
舆情数据的多文档自动摘要系统的研究与实现;韩晓冬;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115(第01(2019)期);I138-5052 *

Also Published As

Publication number Publication date
CN114186066A (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
JP7206288B2 (ja) 音楽推薦方法、装置、コンピューティング機器及び媒体
US9923860B2 (en) Annotating content with contextually relevant comments
US20160019671A1 (en) Identifying multimedia objects based on multimedia fingerprint
CN107193974B (zh) 基于人工智能的地域性信息确定方法和装置
CN112528147B (zh) 内容推荐方法和装置、训练方法、计算设备和存储介质
CN111898675B (zh) 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备
CN109582825B (zh) 用于生成信息的方法和装置
CN112307770A (zh) 敏感信息的检测方法、装置、电子设备及存储介质
US20220309292A1 (en) Growing labels from semi-supervised learning
CN113806588A (zh) 搜索视频的方法和装置
CN114625918A (zh) 视频推荐方法、装置、设备、存储介质及程序产品
JP2023550211A (ja) テキストを生成するための方法および装置
CN114119136A (zh) 一种产品推荐方法、装置、电子设备和介质
CN111816170A (zh) 一种音频分类模型的训练和垃圾音频识别方法和装置
CN111414471A (zh) 用于输出信息的方法和装置
CN111078849A (zh) 用于输出信息的方法和装置
CN112182255A (zh) 用于存储媒体文件和用于检索媒体文件的方法和装置
CN114625699A (zh) 对先前呈现的材料的识别和重构
CN109117471B (zh) 一种词语相关度的计算方法及终端
CN113096687A (zh) 音视频处理方法、装置、计算机设备及存储介质
CN112633004A (zh) 文本标点符号删除方法、装置、电子设备和存储介质
CN114186066B (zh) 一种报告生成方法、系统、存储介质及电子设备
CN109902152B (zh) 用于检索信息的方法和装置
CN111950265A (zh) 一种领域词库构建方法和装置
CN114625971B (zh) 一种基于用户签到的兴趣点推荐方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant