CN117236315A - 一种文本数据智能分析方法、装置和设备 - Google Patents
一种文本数据智能分析方法、装置和设备 Download PDFInfo
- Publication number
- CN117236315A CN117236315A CN202311503549.8A CN202311503549A CN117236315A CN 117236315 A CN117236315 A CN 117236315A CN 202311503549 A CN202311503549 A CN 202311503549A CN 117236315 A CN117236315 A CN 117236315A
- Authority
- CN
- China
- Prior art keywords
- text
- analysis
- target
- result
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 321
- 239000012634 fragment Substances 0.000 claims description 38
- 238000000034 method Methods 0.000 claims description 28
- 238000007405 data analysis Methods 0.000 claims description 15
- 230000009471 action Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 5
- 241000083513 Punctum Species 0.000 claims description 3
- 238000005065 mining Methods 0.000 abstract description 5
- 238000004891 communication Methods 0.000 description 12
- 238000003058 natural language processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000001427 coherent effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 235000002198 Annona diversifolia Nutrition 0.000 description 1
- 241000258957 Asteroidea Species 0.000 description 1
- 241000282842 Lama glama Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004141 dimensional analysis Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种文本数据智能分析方法、装置和设备,方案通过滑动窗口方式将目标分析文本输入至目标分析模型,使得所述目标分析模型基于第一提示词对每个窗口内容进行分析,并将分析结果作为下一窗口的一部分再次录入所述目标分析模型,在汇总每个窗口对应的第一分析结果得到汇总结果,当汇总结果数据量不大于预设值时,在控制目标分析模型基于第二提示词对汇总结果进行分析,得到第二分析结果,此时,用户就可以将第二分析结果作为所述目标分析文本的核心内容,对所述目标分析文本进行价值评估,实现了目标分析文本的快速分析和挖掘。
Description
技术领域
本发明涉及设备监测技术领域,具体涉及一种文本数据智能分析方法、装置和设备。
背景技术
在影视剧行业,内容质量始终是作品好坏的核心。为了开发好的影视剧,需要阅读分析评估大量原创小说,并对其内容进行甄选。但往往此类小说篇幅较长,精读一本小说至少需要耗费数十小时甚至更多。因此需要从海量原创小说中挖掘出具有影视剧开发价值的小说,时间成本非常高。
发明内容
有鉴于此,本发明实施例提供一种文本数据智能分析方法、装置和设备,以目标文本的快速分析和挖掘。
为实现上述目的,本发明实施例提供如下技术方案:
一种文本数据智能分析方法,包括:
获取目标分析文本;
获取目标分析模型的单次录入数据量;
获取第一提示词,所述第一提示词用于控制所述目标分析模型基于第一目标原则对输入内容进行概括,所述目标分析模型为大语言模型;
基于所述单次录入数据量、采用滑动窗口的方式向所述目标分析模型录入所述目标分析文本,且相邻的两个窗口的录入内容中,后一窗口的内容包括第一部分和第二部分,所述第一部分为所述目标分析模型基于第一提示词对前一窗口的文本的分析结果,所述第二部分为由所述目标分析文本提取到的、至少重叠上一窗口的部分文本内容;
获取所述目标分析模型基于所述第一提示词对每个窗口的输入内容的分析结果,记为第一分析结果;
顺序连接每个窗口的第一分析结果,记为汇总结果;
判断所述汇总结果的数据量是否大于预设值;
如果汇总结果的数据量大于预设值,将所述汇总结果作为目标分析文本,采用滑动窗口的方式将所述汇总结果输入至所述目标分析模型,再执行动作顺序连接每个窗口的第一分析结果,直至所述汇总结果的数据量不大于所述预设值;
如果汇总结果的数据量不大于预设值,将所述汇总结果录入所述目标分析模型;
获取所述目标分析模型基于第二提示词对每个窗口的输入内容的第二分析结果;所述第二分析结果用于控制所述目标分析模型基于目标原则对所述汇总结果进行概括。
可选的,上述文本数据智能分析方法中,所述目标原则包括:
以目标维度对所述汇总结果进行概括;
所述目标维度为预设维度集合中的一项,所述预设维度集合中的维度至少包括:人物关系、高能看点、金句分析、关键词总结、一句话主题总结、雷点分析、泪点分析、结局分析、背景分析和受众分析。
可选的,上述文本数据智能分析方法中,所述获取第二提示词,包括:
依次遍历所述预设维度集合中的各个维度,获取与遍历到的目标维度作相匹配的目标原则,生成与所述目标原则相匹配的第二提示词。
可选的,上述文本数据智能分析方法中,所述第二部分包括第一文本内容、第二文本内容和第三文本内容;
所述第二文本内容为所述目标分析文本中,以上一窗口的第二部分的末尾文本为起始位置之后的预设长度的文本内容;
所述第一文本内容以目标分析文本中以所述第二文本内容中首次出现的人物位置为终点,向前推N个文本片段为起点,所述N为不小于1的正整数;
所述第三文本内容以目标分析文本中以所述第二文本内容中最后一次出现的人物位置为起点,向后推N个文本片段为终点。
可选的,上述文本数据智能分析方法中,所述第一文本内容中的N个文本片段的确定方式为:
获取所述第二文本内容之前的M个文本片段,所述M为大于N的正整数;
获取所述M个文本片段中的每个文本片段中出现的人物;
计算M个文本片段中出现的人物与所述第二文本内容中的人物之间的交集程度;
获取所述M个文本片段中人物交集程度最高的N个文本片段,作为所述第一文本内容中的N个文本片段。
可选的,上述文本数据智能分析方法中,所述第三文本内容中的N个文本片段的确定方式为:
获取所述第二文本内容之后的M个文本片段,所述M为大于1的正整数;
获取所述M个文本片段中的每个文本片段中出现的人物;
计算M个文本片段中出现的人物与所述第二文本内容中的人物之间的交集程度;
获取所述M个文本片段中人物交集程度最高的N个文本片段,作为所述第三文本内容中的N个文本片段。
可选的,上述文本数据智能分析方法中,包括:
采用滑动窗口的方式将所述汇总结果输入至所述目标分析模型时,且相邻的两个滑动窗口中,后一窗口的内容包括第一部分和第二部分,所述第一部分为所述目标分析模型基于预设原则对前一窗口的文本的内容进行精简的输出结果;
所述第二部分为由所述汇总结果提取到的汇总结果中延续上一窗口的第二部分的内容。
一种文本数据智能分析装置,包括:
文本输入单元,用于获取目标分析文本;获取目标分析模型的单次录入数据量;获取第一提示词,所述第一提示词用于控制所述目标分析模型基于第一目标原则对输入内容进行概括,所述目标分析模型为大语言模型;基于所述单次录入数据量、采用滑动窗口的方式向所述目标分析模型录入所述目标分析文本,且相邻的两个窗口的录入内容中,后一窗口的内容包括第一部分和第二部分,所述第一部分为所述目标分析模型基于第一提示词对前一窗口的文本的分析结果,所述第二部分为由所述目标分析文本提取到的、至少重叠上一窗口的部分文本内容;
分析结果汇总单元,用于获取所述目标分析模型基于所述第一提示词对每个窗口的输入内容的分析结果,记为第一分析结果;顺序连接每个窗口的第一分析结果,记为汇总结果;
汇总结果文本输入单元,用于判断所述汇总结果的数据量是否大于预设值;如果汇总结果的数据量大于预设值,将所述汇总结果作为目标分析文本,采用滑动窗口的方式将所述汇总结果输入至所述目标分析模型,再执行动作顺序连接每个窗口的第一分析结果,直至所述汇总结果的数据量不大于所述预设值;
概括内容获取单元,用于如果汇总结果的数据量不大于预设值,将所述汇总结果录入所述目标分析模型;获取所述目标分析模型基于第二提示词对每个窗口的输入内容的第二分析结果;所述第二分析结果用于控制所述目标分析模型基于目标原则对所述汇总结果进行概括。
一种文本数据智能分析设备,包括:
存储器和处理器;所述存储器存储有适于所述处理器执行的程序,所述程序用于实现上述任意一项所述的文本数据智能分析方法。
可选的,所述文本数据智能分析设备为电脑或手机。
基于上述技术方案,本申请上述实施例公开的技术方案,通过滑动窗口方式将目标分析文本输入至目标分析模型,使得所述目标分析模型基于第一提示词对每个窗口内容进行分析,并将分析结果作为下一窗口的一部分再次录入所述目标分析模型,在汇总每个窗口对应的第一分析结果得到汇总结果,当汇总结果数据量不大于预设值时,在控制目标分析模型基于第二提示词对汇总结果进行分析,得到第二分析结果,此时,用户就可以将第二分析结果作为所述目标分析文本的核心内容,对所述目标分析文本进行价值评估,实现了目标分析文本的快速分析和挖掘。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的文本数据智能分析方法的流程示意图;
图2为第一文本内容中的N个文本片段的确定方式的流程示意图;
图3为第三文本内容中的N个文本片段的确定方式的流程示意图;
图4为本申请实施例公开的滑动窗口的录入方式示意图;
图5为本申请实施例公开的文本数据智能分析装置的结构示意图;
图6为本申请实施例公开的文本数据智能分析设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在介绍本申请方案之前,首先对本文中涉及到的英文进行解释:
prompt:提示词。在与AI(如人工智能模型)进行交互时,需要向AI发送的指令,其可以是用于触发和引导文本生成的初始文本或提示文本。Prompt可以是一个问题、一个描述性的语句、一个主题、一个关键词列表等等,比如你和AI交互时输入的“请帮我推荐一首流行音乐”,也可以是按照一定格式的参数描述,比如让AI按照一定格式进行绘图,需要描述相关绘图参数。
大语言模型(Large language model,LLM):指的是那些在大规模文本语料上训练、包含百亿级别(或更多)参数的语言模型,例如GPT-3,PaLM,LLaMA等。目前的大语言模型采用与小模型类似的Transformer架构和预训练目标(如 Language Modeling),与小模型的主要区别在于增加模型大小、训练数据和计算资源。大语言模型的表现往往遵循扩展法则,但是对于某些能力,只有当语言模型规模达到某一程度才会显现,这些能力被称为“涌现能力”,代表性的涌现能力包括上下文学习、指令遵循、逐步推理等
Prompt(提示词):指的是用于触发和引导文本生成的初始文本或提示文本。Prompt可以是一个问题、一个描述性的语句、一个主题、一个关键词列表等等。
Prompt Tuning(提示词微调):是一种在自然语言处理(NLP)中使用的技术,旨在让机器能够更好地理解和回答人类的问题。它的基本原理就是通过对Prompt进行微调,来改善机器学习模型的性能,以便更好地完成各种NLP任务,例如文本分类、语言生成、问答系统等。Prompt Tuning已经在各个领域得到了广泛应用,比如搜索引擎、聊天机器人、语音识别、语言翻译等,并取得了良好的效果。
本发明借助大语言模型能够快速生成小说的梗概、生成通篇及分章节的核心内容提取、人物关系、人物小传、性格特点等基本分析,总结整本小说的泪点、槽点、笑点;每个人物的高光时刻等。针对更多细节内容还可以通过交互式对话进行获取。便于用户从海量数据的小说内容中,快速总结小说的核心内容。
参见图1,本申请实施例公开的文本数据智能分析方法,可以包括:
步骤S101:获取目标分析文本。
所述目标分析文本,指的就是所需进行核心内容提取的小说文本,当然,除了小说文本之外,也可以为其他沿着某条主线或核心进行介绍的文本内容。
步骤S102:获取目标分析模型的单次录入数据量。
目标分析模型的单次录入数据量由大木星的token的大小决定,在大语言模型中,"token"是指文本中的一个最小单位。通常,一个token可以是一个单词、一个标点符号、一个数字、一个符号等。每个大语言模型有固定的最大token数,比如chatgpt使用的gpt3.5,最大长度是4096 token,每个汉字=2token,每个英文=0.5 token。也就是4ktoken。而gpt4 最长是32k,claude2可达到100k, 四万字的汉字。所以以claude2大语言模型作为基础模型为例,那么单词输入的token数最多就是100k,也就是100×1024,也就是4万个汉字左右。
步骤S103:获取第一提示词,所述第一提示词用于控制所述目标分析模型基于第一目标原则对所述汇总结果进行概括,所述目标分析模型为大语言模型。
在本方案中,可以预先确定一个提示词,基于所述提示词可以对目标分析模型的输入内容进行概括,例如,在本方案中,所述第一提示词可以为“请将下面内容进行概括,要求去掉过多描述性语句,保留核心内容(Contentwindow N)”,“请根据下面的内容提炼浓缩剧情内容和人物关系”等,本领域技术人员也可以根据需求配置合适的提示词。
步骤S104:基于所述单次录入数据量、采用滑动窗口的方式向所述目标分析模型录入所述目标分析文本。
考虑到所述目标分析文本数据量巨大,难以一次性的录入所述目标分析模型,因此需要采用滑动窗口的方式向所述目标分析模型录入所述目标分析文本,考虑到滑窗内容的连贯性及避免全文信息的遗漏。后一个滑窗内容需要不断叠加所述目标分析模型对前面滑窗的提取的内容。且下一个滑窗的内容需要与上一滑窗内容有一定比例的重叠。即,相邻的两个窗口的录入内容中,后一窗口的内容包括第一部分和第二部分,所述第一部分为所述目标分析模型基于第一提示词对前一窗口的文本的分析结果,所述第二部分为由所述目标分析文本提取到的、至少重叠上一窗口的部分文本内容。
假设每一个滑窗内容通过所述目标分析模型的输出为:Outputlastwindow N,(N为滑窗标号,用于表示滑窗的序号),为了便于介绍,在本方案中,可以将所述目标分析模型封装成函数LLM。
在本申请一具体实例中,假设每一个滑窗输入的内容:Contentwindow N,假设Contentwindow N-1的在目标分析文本中的范围为 (pos_start,pos_end),那当前滑窗的起始位置可以为 (pos_start+pos_end)/2,即窗口直接重叠上一个窗口的一半内容,最终当前窗口所包含的目标分析文本的内容长度为40000- Outputlastwindow N-1。此时,该滑窗的输入内容为Outputlastwindow N-1+ Contentwindow N,其对应的目标分析模型的输出内容为Outputwindow N= LLM(Outputlastwindow N-1+ Contentwindow N),LLM(Outputlastwindow N-1+Contentwindow N)表示所述目标分析模型基于第一提示词对(Outputlastwindow N-1+Contentwindow N)进行处理,得到分析结果Outputwindow N。
步骤S105:获取所述目标分析模型基于所述第一提示词对每个窗口的输入内容的分析结果,记为第一分析结果。
在将所述目标分析文本通过滑动窗口的方式全部录入所述目标分析模型后,获取所述目标分析模型基于所述第一提示词对每个滑窗内容的分析结果,将该结果即为第一分析结果。
步骤S106:顺序连接每个窗口的第一分析结果,记为汇总结果。
在本步骤中,依次连接每个滑窗内容对应的第一分析结果,将连接后的分析结果记为汇总结果。
步骤S107:判断所述汇总结果的数据量是否大于预设值。
在得到汇总结果以后,判断所述汇总结果的数据量是否大于预设值,所述预设值的大小可以根据用户自身需求自行设置。在一具体实施例中,所述预设值可以指的是所述目标分析模型单次可以录入的数据的最大量。在本方案中,当所述汇总结果的数据量不大于预设值时,汇总结果即为目标分析文本的核心剧情内容,将所述汇总结果记为Knowledge。
如果汇总结果的数据量大于预设值,将所述汇总结果作为目标分析文本,采用滑动窗口的方式将所述汇总结果输入至所述目标分析模型,再执行动作顺序连接每个窗口的第一分析结果,直至所述汇总结果的数据量不大于所述预设值。
在本步骤中,如果所述汇总结果的数据量大于预设值,表明所述汇总结果数据量仍然过大,此时,可以再次将所述目标结果作为目标分析文本,再此执行步骤S104,直至所述汇总结果的数据量不大于所述预设值为止。
步骤S108:如果汇总结果的数据量不大于预设值,将所述汇总结果录入所述目标分析模型。
本步骤中,将所述汇总结果Knowledge录入至所述目标分析模型。
步骤S109:获取所述目标分析模型基于第二提示词对每个窗口的输入内容的第二分析结果;所述第二分析结果用于控制所述目标分析模型基于目标原则对所述汇总结果进行概括。
本申请上述实施例公开的技术方案,通过滑动窗口方式将目标分析文本输入至目标分析模型,使得所述目标分析模型基于第一提示词对每个窗口内容进行分析,并将分析结果作为下一窗口的一部分再次录入所述目标分析模型,在汇总每个窗口对应的第一分析结果得到汇总结果,当汇总结果数据量不大于预设值时,在控制目标分析模型基于第二提示词对汇总结果进行分析,得到第二分析结果,此时,用户就可以将第二分析结果作为所述目标分析文本的核心内容,对所述目标分析文本进行价值评估,实现了目标分析文本的快速分析和挖掘。
本步骤所述大语言模型的修改内容为Knowledge,并将提示词修改为第二提示词,获取所述目标分析模型基于第二提示词对输入内容进行分析得到的第二分析结果,在本步骤中,所述第二分析结果用于控制所述目标分析模型基于目标原则对所述汇总结果进行概括。所述目标原则指的是以目标维度对所述汇总结果进行概括;所述目标维度为预设维度集合中的一项,所述预设维度集合中的维度至少包括:人物关系、高能看点、金句分析、关键词总结、一句话主题总结、雷点分析、泪点分析、结局分析、背景分析和受众分析。例如,所述第二提示词可以为 “请将下面内容进行概括,要求去掉过多描述性语句,为每个人物输出人物小传(Knowledge)”,基于该提示词,可以获得所述目标分析文本中的所有人物的人物小传,其中,“每个人物输出人物小传”即为上述目标维度。
在本实施例中,为了能够提取所述目标文本的各个维度对应的第二分析结果,以便于用户能够更快的分析得到所述目标文本的质量,在本方案汇总,可以预先配置预设维度集合,依次遍历所述预设维度集合中的各个维度,获取与遍历到的目标维度作相匹配的目标原则,进而生成与所述目标原则相匹配的第二提示词,依次基于各个维度对应的第二提示词,执行动作获取所述目标分析模型基于第二提示词对每个窗口的输入内容的第二分析结果。从而可以使得用户从各个维度对所述目标分析文本进行分析,能够更加精准的分析所述目标分析文本。
在本实施例公开的技术方案中,在采用滑动窗口方式向所述目标分析模型录入所述目标分析文本时,为了使得相邻窗口内容更加连贯,每个滑窗内容中的第二部分SlidingContentwindow N包括第一文本内容DilatedUpwindow N、第二文本内容Slidingwindow N和第三文本内容DilatedDownwindow N。其中,所述第二文本内容为所述目标分析文本中,以上一窗口的第二部分的末尾文本为起始位置之后的预设长度的文本内容,所述预设长度基于用户需求自行设定,例如,上一窗口的末尾文本为A,则所述第二文本内容为所述目标分析文本中A之后的预设长度的文本内容。
所述第一文本内容以目标分析文本中以所述第二文本内容中首次出现的人物位置为终点,向前推N个文本片段为起点,所述N为不小于1的正整数。在确定所述第一文本内容时,通过NLP的NER(命名实体识别技术),或者直接让大模型输出第二文本内容Slidingwindow N内容中的人物,该人物可以指的是所述第二文本内容 Slidingwindow N内容中的目标人物,该目标人物可以指的是首次出现的人物、最后一次出现的人物,或者是所述第二文本内容 Slidingwindow N内容中的核心人物,以确定的所述第二文本内容Slidingwindow N中人物位置为终点,向前推N个文本片段为起点,所述目标分析文本中该终点和起点之间的内容即为所述第一文本内容DilatedUpwindow N,所述N为不小于1的正整数;每个文本片段的可以包含1000个字符,或者是其他长度。
第三文本内容DilatedDownwindow N的确定过程与所述第一文本内容DilatedUpwindow N的确定过程类似,所述第三文本内容以目标分析文本中以所述第二文本内容中最后一次出现的上述人物位置为起点,向后推N个文本片段为终点,所述目标分析文本中该起点和终点的位置即为所述第三文本内容DilatedDownwindow N。
进一步的,为了使得相邻两个滑窗内容之间的内容更加连贯,在本方案中,还提供了一种第一文本内容DilatedUpwindow N更加精准的确定方式,如图2所示,在本实施例中,所述第一文本内容DilatedUpwindow N中的N个文本片段的确定方式为:
步骤S201:获取所述第二文本内容之前的M个文本片段,所述M为大于N的正整数。
获取所述目标分析文本中所述第二文本内容Slidingwindow N的起始位置之前的M个文本片段,所述M为大于N的正整数,例如所述M的值可以为10,所述N的值可以为5。
步骤S202:获取所述M个文本片段中的每个文本片段中出现的人物。
其中,每个文本片段中出现的人物,可以指的是每个判断中出现的核心人物,各个片段的核心人物可以由NLP的NER(命名实体识别技术),或者直接让大模型对文本片段分析得到。
步骤S203:计算M个文本片段中出现的人物与所述第二文本内容的人物之间的交集程度。
在本步骤中,确定所述每个文本片段中出现的人物后,通过所述目标分析模型可以计算得到每个文本片段中出现的人物与所述第二文本内容中的人物之间的交集程度,在这里所提到的所述第二文本内容中的人物,可以指的是所述第二文本内容中首次出现的人物或者是第二文本内容的核心人物。
步骤S204:获取所述M个文本片段中人物交集程度最高的N个文本片段,作为所述第一文本内容中的N个文本片段。
对应的,如图3所示,所述第三文本内容中的N个文本片段的确定方式为:
步骤S301:获取所述第二文本内容之后的M个文本片段,所述M为大于1的正整数。
步骤S302:获取所述M个文本片段中的每个文本片段中出现的人物;
步骤S303:计算M个文本片段中出现的人物与所述第二文本内容中的人物之间的交集程度。
在本步骤中,确定所述每个文本片段中出现的人物后,通过所述目标分析模型可以计算得到每个文本片段中出现的人物与所述第二文本内容中的人物之间的交集程度,在这里所提到的所述第二文本内容中的人物,可以指的是所述第二文本内容中最后一次出现的人物或者是第二文本内容的核心人物。
步骤S304:获取所述M个文本片段中人物交集程度最高的N个文本片段,作为所述第三文本内容中的N个文本片段。
采用上述方式确定所述第一文本内容中的N个文本片段和第三文本内容中的N个文本片段,扩大了当前窗口的上下文信息,对比传统只往上重叠部分内容的方式,还拥有下文信息,且通过基于人物关系权重的方式构建了空洞滑窗,使得上下文的信息覆盖更广,内容更加连贯。
参见图4,图4中的全局知识可以指的是Knowledge,在将汇总结果输入至所述目标分析模型时,采用滑动窗口的方式将所述汇总结果输入至所述目标分析模型时,且相邻的两个滑动窗口中,后一窗口的内容包括第一部分和第二部分,所述第一部分为所述目标分析模型基于预设原则对前一窗口的文本的内容进行精简的输出结果;所述第二部分为由所述汇总结果提取到的汇总结果中延续上一窗口的第二部分的内容,且,下一窗口的第二部分内容与上一窗口的第二部分内容部分重叠,并且在图4的示例中,上一个窗口的输出与当前窗口的汉字所需的token数之和,需小于大模型的最大允许输入token数。具体的,因为Knowledge本身token数已经比较高,所以选择一个尽可能大的固定窗口采用传统滑窗,以滑窗内容block1 = [1,2], 滑窗内容block2 = [2,3], 滑窗内容block3 = [3,4], 滑窗内容block4 = [4,5], 滑窗内容block5 = [5,6]的方式,结合Knowledge本身作为输入,要求大语言模型根据block的内容对Knwoledge本身进行细微调整。调整后的Knowledge将作为下一个block微调的输入。此时,KnowledgeN = LLM( KnowledgeN-1+ Blockwindow N),其中,KnowledgeN即为大语言模型针对第N滑窗内容的分析结果,KnowledgeN-1即为大语言模型针对第N-1滑窗内容的分析结果,Blockwindow N即为低N滑窗录入的Knowledge的文本内容,在该过程中,所述每个滑窗内容包括两部分,第一部分为KnowledgeN-1,第二部分为Blockwindow N,第二部分为Blockwindow N即为上文中的block1、block2……block5,相邻两个滑窗的两个block部分内容重叠。
进一步的,在确定第二分析结果以后,还可以针对所述第二分析结果内容进行深度挖掘,具体做法可以为将所述第二分析结果与所述汇总结果Knowledge,以及所需的提示词输入至所述目标分析模型,此时,所述目标分析模型就可以基于提示词对所述汇总结果Knowledge以及第二分析结果进行分析,得到所需分析结果,此时,这里的提示词需要与所述第二分析结果对应的维度相匹配,例如,所述提示词可以为“请分析下文中最感人的一个场景”,所述第二分析结果为泪点分析维度对应的、对汇总结果Knowledge及西宁分析的分析结果,采用此种方式,这样就针对多维度分析结果可以继续深度挖掘内容。
进一步的,本方案还可以直接对目标维度以外的内容进行对话交互问答,具体做法为将汇总结果Knowledge目标分析模型的输入,通过自定义的提示词,使得所述目标分析模型基于所述自定义的提示词对汇总结果Knowledge进行分析,获得模型输出,例如:所述自定义提示词可以为改写小说结局,优化小说故事情节,指出小说逻辑漏洞,指出人物关系错误等。
本实施例中公开了一种文本数据智能分析装置,装置中的各个单元的具体工作内容,请参见上述方法实施例的内容。
下面对本发明实施例提供的文本数据智能分析装置进行描述,下文描述的文本数据智能分析装置与上文描述的文本数据智能分析方法可相互对应参照。
参见图5,该装置可以包括:
文本输入单元10,用于获取目标分析文本;获取目标分析模型的单次录入数据量;获取第一提示词,所述第一提示词用于控制所述目标分析模型基于第一目标原则对输入内容进行概括,所述目标分析模型为大语言模型;基于所述单次录入数据量、采用滑动窗口的方式向所述目标分析模型录入所述目标分析文本,且相邻的两个窗口的录入内容中,后一窗口的内容包括第一部分和第二部分,所述第一部分为所述目标分析模型基于第一提示词对前一窗口的文本的分析结果,所述第二部分为由所述目标分析文本提取到的、至少重叠上一窗口的部分文本内容;
分析结果汇总单元20,用于获取所述目标分析模型基于所述第一提示词对每个窗口的输入内容的分析结果,记为第一分析结果;顺序连接每个窗口的第一分析结果,记为汇总结果;
汇总结果文本输入单元30,用于判断所述汇总结果的数据量是否大于预设值;如果汇总结果的数据量大于预设值,将所述汇总结果作为目标分析文本,采用滑动窗口的方式将所述汇总结果输入至所述目标分析模型,再执行动作顺序连接每个窗口的第一分析结果,直至所述汇总结果的数据量不大于所述预设值;
概括内容获取单元40,用于将所述汇总结果录入所述目标分析模型;获取所述目标分析模型基于第二提示词对每个窗口的输入内容的第二分析结果;所述第二分析结果用于控制所述目标分析模型基于目标原则对所述汇总结果进行概括。
图6为本发明实施例提供的文本数据智能分析设备的硬件结构图,所述的文本数据智能分析设备可以为电脑或手机或者是其他智能终端。参见图6所示,可以包括:至少一个处理器100,至少一个通信接口200,至少一个存储器300和至少一个通信总线400;
在本发明实施例中,处理器100、通信接口200、存储器300、通信总线400的数量为至少一个,且处理器100、通信接口200、存储器300通过通信总线400完成相互间的通信;显然,图6所示的处理器100、通信接口200、存储器300和通信总线400所示的通信连接示意仅是可选的;
可选的,通信接口200可以为通信模块的接口,如GSM模块的接口;
处理器100可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器300可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
其中,处理器100具体用于:实现上述任意一项文本数据智能分析方法实施例公开的各个步骤。
例如,所述处理器100用于:获取目标分析文本;
获取目标分析模型的单次录入数据量;
获取第一提示词,所述第一提示词用于控制所述目标分析模型基于第一目标原则对输入内容进行概括,所述目标分析模型为大语言模型;
基于所述单次录入数据量、采用滑动窗口的方式向所述目标分析模型录入所述目标分析文本,且相邻的两个窗口的录入内容中,后一窗口的内容包括第一部分和第二部分,所述第一部分为所述目标分析模型基于第一提示词对前一窗口的文本的分析结果,所述第二部分为由所述目标分析文本提取到的、至少重叠上一窗口的部分文本内容;
获取所述目标分析模型基于所述第一提示词对每个窗口的输入内容的分析结果,记为第一分析结果;
顺序连接每个窗口的第一分析结果,记为汇总结果;
判断所述汇总结果的数据量是否大于预设值;
如果汇总结果的数据量大于预设值,将所述汇总结果作为目标分析文本,采用滑动窗口的方式将所述汇总结果输入至所述目标分析模型,再执行动作顺序连接每个窗口的第一分析结果,直至所述汇总结果的数据量不大于所述预设值;
将所述汇总结果录入所述目标分析模型;
获取所述目标分析模型基于第二提示词对每个窗口的输入内容的第二分析结果;所述第二分析结果用于控制所述目标分析模型基于目标原则对所述汇总结果进行概括。
为了描述的方便,描述以上系统时以功能分为各种模块分别描述。当然,在实施本发明时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种文本数据智能分析方法,其特征在于,包括:
获取目标分析文本;
获取目标分析模型的单次录入数据量;
获取第一提示词,所述第一提示词用于控制所述目标分析模型基于第一目标原则对输入内容进行概括,所述目标分析模型为大语言模型;
基于所述单次录入数据量,采用滑动窗口的方式向所述目标分析模型录入所述目标分析文本,且相邻的两个窗口的录入内容中,后一窗口的内容包括第一部分和第二部分,所述第一部分为所述目标分析模型基于第一提示词对前一窗口的文本的分析结果,所述第二部分为由所述目标分析文本提取到的、至少重叠上一窗口的部分文本内容;
获取所述目标分析模型基于所述第一提示词对每个窗口的输入内容的分析结果,记为第一分析结果;
顺序连接每个窗口的第一分析结果,记为汇总结果;
判断所述汇总结果的数据量是否大于预设值;
如果汇总结果的数据量大于预设值,将所述汇总结果作为目标分析文本,采用滑动窗口的方式将所述汇总结果输入至所述目标分析模型,再执行动作顺序连接每个窗口的第一分析结果,直至所述汇总结果的数据量不大于所述预设值;
如果汇总结果的数据量不大于预设值,将所述汇总结果录入所述目标分析模型;
获取所述目标分析模型基于第二提示词对每个窗口的输入内容的第二分析结果;所述第二分析结果用于控制所述目标分析模型基于目标原则对所述汇总结果进行概括。
2.根据权利要求1所述的文本数据智能分析方法,其特征在于,所述目标原则包括:
以目标维度对所述汇总结果进行概括;
所述目标维度为预设维度集合中的一项,所述预设维度集合中的维度至少包括:人物关系、高能看点、金句分析、关键词总结、一句话主题总结、雷点分析、泪点分析、结局分析、背景分析和受众分析。
3.根据权利要求2所述的文本数据智能分析方法,其特征在于,获取所述第二提示词的过程,包括:
依次遍历所述预设维度集合中的各个维度,获取与遍历到的目标维度作相匹配的目标原则,生成与所述目标原则相匹配的第二提示词。
4.根据权利要求2所述的文本数据智能分析方法,其特征在于,所述第二部分包括第一文本内容、第二文本内容和第三文本内容;
所述第二文本内容为所述目标分析文本中,以上一窗口的第二部分的末尾文本为起始位置之后的预设长度的文本内容;
所述第一文本内容以目标分析文本中以所述第二文本内容中首次出现的人物位置为终点,向前推N个文本片段为起点,所述N为不小于1的正整数;
所述第三文本内容以目标分析文本中以所述第二文本内容中最后一次出现的人物位置为起点,向后推N个文本片段为终点。
5.根据权利要求4所述的文本数据智能分析方法,其特征在于,所述第一文本内容中的N个文本片段的确定方式为:
获取所述第二文本内容之前的M个文本片段,所述M为大于N的正整数;
获取所述M个文本片段中的每个文本片段中出现的人物;
计算M个文本片段中出现的人物与所述第二文本内容中的人物之间的交集程度;
获取所述M个文本片段中人物交集程度最高的N个文本片段,作为所述第一文本内容中的N个文本片段。
6.根据权利要求4所述的文本数据智能分析方法,其特征在于,所述第三文本内容中的N个文本片段的确定方式为:
获取所述第二文本内容之后的M个文本片段,所述M为大于1的正整数;
获取所述M个文本片段中的每个文本片段中出现的人物;
计算M个文本片段中出现的人物与所述第二文本内容中的人物之间的交集程度;
获取所述M个文本片段中人物交集程度最高的N个文本片段,作为所述第三文本内容中的N个文本片段。
7.根据权利要求1所述的文本数据智能分析方法,其特征在于,采用滑动窗口的方式将所述汇总结果输入至所述目标分析模型时,相邻的两个滑动窗口中,后一窗口的内容包括第一部分和第二部分,所述第一部分为所述目标分析模型基于预设原则对前一窗口的文本的内容进行精简的输出结果;
所述第二部分为由所述汇总结果提取到的汇总结果中延续上一窗口的第二部分的内容。
8.一种文本数据智能分析装置,其特征在于,包括:
文本输入单元,用于获取目标分析文本;获取目标分析模型的单次录入数据量;获取第一提示词,所述第一提示词用于控制所述目标分析模型基于第一目标原则对输入内容进行概括,所述目标分析模型为大语言模型;基于所述单次录入数据量,采用滑动窗口的方式向所述目标分析模型录入所述目标分析文本,且相邻的两个窗口的录入内容中,后一窗口的内容包括第一部分和第二部分,所述第一部分为所述目标分析模型基于第一提示词对前一窗口的文本的分析结果,所述第二部分为由所述目标分析文本提取到的、至少重叠上一窗口的部分文本内容;
分析结果汇总单元,用于获取所述目标分析模型基于所述第一提示词对每个窗口的输入内容的分析结果,记为第一分析结果;顺序连接每个窗口的第一分析结果,记为汇总结果;
汇总结果文本输入单元,用于判断所述汇总结果的数据量是否大于预设值;如果汇总结果的数据量大于预设值,将所述汇总结果作为目标分析文本,采用滑动窗口的方式将所述汇总结果输入至所述目标分析模型,再执行动作顺序连接每个窗口的第一分析结果,直至所述汇总结果的数据量不大于所述预设值;
概括内容获取单元,用于如果汇总结果的数据量不大于预设值,将所述汇总结果录入所述目标分析模型;获取所述目标分析模型基于第二提示词对每个窗口的输入内容的第二分析结果;所述第二分析结果用于控制所述目标分析模型基于目标原则对所述汇总结果进行概括。
9.一种文本数据智能分析设备,其特征在于,包括:
存储器和处理器;所述存储器存储有适于所述处理器执行的程序,所述程序用于实现权利要求1-7任意一项所述的文本数据智能分析方法。
10.根据权利要求9所述的文本数据智能分析设备,其特征在于,所述文本数据智能分析设备为电脑或手机。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311503549.8A CN117236315B (zh) | 2023-11-13 | 2023-11-13 | 一种文本数据智能分析方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311503549.8A CN117236315B (zh) | 2023-11-13 | 2023-11-13 | 一种文本数据智能分析方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117236315A true CN117236315A (zh) | 2023-12-15 |
CN117236315B CN117236315B (zh) | 2024-01-30 |
Family
ID=89084575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311503549.8A Active CN117236315B (zh) | 2023-11-13 | 2023-11-13 | 一种文本数据智能分析方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117236315B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458428A (zh) * | 2019-07-26 | 2019-11-15 | 北京小土科技有限公司 | 一种电影剧本精彩度量化评估系统 |
CN113780418A (zh) * | 2021-09-10 | 2021-12-10 | 平安科技(深圳)有限公司 | 一种数据的筛选方法、系统、设备和存储介质 |
CN116702749A (zh) * | 2023-06-09 | 2023-09-05 | 科大讯飞股份有限公司 | 多媒体内容分析方法、装置、设备及存储介质 |
KR102588332B1 (ko) * | 2023-06-22 | 2023-10-12 | (주)액션파워 | 대본 텍스트로부터 스토리보드를 생성하는 방법 |
CN116956896A (zh) * | 2023-08-03 | 2023-10-27 | 深圳特为科创信息技术有限公司 | 基于人工智能的文本分析方法、系统、电子设备及介质 |
-
2023
- 2023-11-13 CN CN202311503549.8A patent/CN117236315B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458428A (zh) * | 2019-07-26 | 2019-11-15 | 北京小土科技有限公司 | 一种电影剧本精彩度量化评估系统 |
CN113780418A (zh) * | 2021-09-10 | 2021-12-10 | 平安科技(深圳)有限公司 | 一种数据的筛选方法、系统、设备和存储介质 |
CN116702749A (zh) * | 2023-06-09 | 2023-09-05 | 科大讯飞股份有限公司 | 多媒体内容分析方法、装置、设备及存储介质 |
KR102588332B1 (ko) * | 2023-06-22 | 2023-10-12 | (주)액션파워 | 대본 텍스트로부터 스토리보드를 생성하는 방법 |
CN116956896A (zh) * | 2023-08-03 | 2023-10-27 | 深圳特为科创信息技术有限公司 | 基于人工智能的文本分析方法、系统、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117236315B (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Uc-Cetina et al. | Survey on reinforcement learning for language processing | |
JP7430660B2 (ja) | テキストの創作方法、装置、機器及び記憶媒体 | |
EP3648099B1 (en) | Voice recognition method, device, apparatus, and storage medium | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
JP2022153441A (ja) | モデル事前訓練方法および装置、テキスト生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム | |
CN108595629B (zh) | 用于答案选择系统的数据处理方法及应用 | |
CN108763535B (zh) | 信息获取方法及装置 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN111832282B (zh) | 融合外部知识的bert模型的微调方法、装置及计算机设备 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN111341293B (zh) | 一种文本语音的前端转换方法、装置、设备和存储介质 | |
CN110442515B (zh) | 应用测试方法、装置、设备及可读存储介质 | |
JPWO2007097208A1 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
CN115328756A (zh) | 一种测试用例生成方法、装置及设备 | |
CN112185361B (zh) | 一种语音识别模型训练方法、装置、电子设备及存储介质 | |
CN112861518A (zh) | 文本纠错方法、装置和存储介质及电子装置 | |
CN114420102B (zh) | 语音断句方法、装置、电子设备及存储介质 | |
CN107424612A (zh) | 处理方法、装置和机器可读介质 | |
CN111428487B (zh) | 模型训练方法、歌词生成方法、装置、电子设备及介质 | |
CN111161730B (zh) | 语音指令匹配方法、装置、设备及存储介质 | |
CN117236315B (zh) | 一种文本数据智能分析方法、装置和设备 | |
CN112905835B (zh) | 一种多模态乐曲标题生成方法、装置及存储介质 | |
CN111128181B (zh) | 背诵题评测方法、装置以及设备 | |
CN114398875A (zh) | 一种纠错模型的训练方法、检索词纠错方法、设备及介质 | |
CN113012685B (zh) | 音频识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |