CN117764056A - 文本数据分析处理方法及系统、电子设备 - Google Patents
文本数据分析处理方法及系统、电子设备 Download PDFInfo
- Publication number
- CN117764056A CN117764056A CN202311821233.3A CN202311821233A CN117764056A CN 117764056 A CN117764056 A CN 117764056A CN 202311821233 A CN202311821233 A CN 202311821233A CN 117764056 A CN117764056 A CN 117764056A
- Authority
- CN
- China
- Prior art keywords
- processing
- data
- analysis
- text
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 47
- 238000003672 processing method Methods 0.000 title claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 137
- 238000004458 analytical method Methods 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000004590 computer program Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 230000001502 supplementing effect Effects 0.000 claims description 6
- 238000007639 printing Methods 0.000 claims description 5
- 230000007547 defect Effects 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010197 meta-analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及计算机领域,提供一种文本数据分析处理方法及系统、电子设备,其中文本数据分析处理方法包括:接收用户输入的文本,基于大语言模型和系统内置的信息提取提示词,对文本中的信息进行语义解析,得到规整后的目标数据和处理分析方式;基于大语言模型和系统内置的数据处理提示词,对目标数据进行对应分析处理方式的分析处理,并将分析处理结果返回给用户。用以解决现有技术中对于纯文本信息进行数据处理时,无法保证速度和准确性的缺陷,可实现自动对数据进行绘图或分析处理,降低业务人员对数据分析处理的门槛;基于大语言模型进行文本数据处理分析,能够节省人力,实现自动对纯文本信息进行准确、高效数据处理。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本数据分析处理方法及系统、电子设备。
背景技术
文职人员工作过程中不可避免的需要对数据进行制图或者计算的处理,但是如果遇到格式不规范的数据,例如文本格式的数据,进行数据处理时就比较繁琐,现有技术中的方案需要完全依赖于工作人员,进行人工逐个复制粘贴,无法保证速度和准确性,数据量大的时候极易出错,且无法做到格式统一,影响工作人员的工作效率。
发明内容
本发明提供一种文本数据分析处理方法,用以解决现有技术中对于纯文本信息进行数据处理时,需要人工逐个操作,无法保证速度和准确性的缺陷,可以基于大语言模型进行文本数据可视化分析,能够节省人力,实现自动对纯文本信息进行数据处理。
本发明提供一种文本数据分析处理方法,包括:
接收用户输入的文本,基于大语言模型和系统内置的信息提取提示词,对文本中的信息进行语义解析,得到规整后的目标数据和处理分析方式;
基于大语言模型和系统内置的数据处理提示词,对目标数据进行对应分析处理方式的分析处理,并将分析处理结果返回给用户。
根据本发明提供的文本数据分析处理方法,信息提取提示词通过如下方式获得:
基于用户输入的文本,对系统内置的提示词模板进行补充,得到信息提取提示词;
数据处理提示词通过如下方式获得:
基于处理分析方式,对系统内置的提示词模板进行补充,得到数据处理提示词。
根据本发明提供的文本数据分析处理方法,基于大语言模型和系统内置的数据处理提示词,对目标数据进行对应分析处理方式的分析处理,包括:
将目标数据转换为表格数据,将表格数据和处理方式再次输入大语言模型;
大语言模型基于表格数据和处理方式对目标数据进行处理,得到数据处理结果。
根据本发明提供的文本数据分析处理方法,将目标数据转换为表格数据,包括:
将目标数据转换为DataFrame的数据结构,并进行打印。
根据本发明提供的文本数据分析处理方法,处理方式为绘图,基于大语言模型和系统内置的数据处理提示词,对目标数据进行对应分析处理方式的分析处理,还包括:
建立坐标轴,基于坐标轴绘图。
根据本发明提供的文本数据分析处理方法,处理方式为计算,基于大语言模型和系统内置的数据处理提示词,对目标数据进行对应分析处理方式的分析处理,还包括:
基于表格数据计算得到计算结果。
本发明还提供一种文本数据分析处理系统,包括:
语义解析模块,用于接收用户输入的文本,基于大语言模型和系统内置的信息提取提示词,对文本中的信息进行语义解析,得到规整后的目标数据和处理分析方式;
数据处理模块,用于基于大语言模型和系统内置的数据处理提示词,对目标数据进行对应分析处理方式的分析处理,并将分析处理结果返回给用户。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如上述任一种文本数据分析处理方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种文本数据分析处理方法。
本发明还提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如上述任一种文本数据分析处理方法。
应用本申请的方案,用户无需任何数据分析处理可视化经验即可对一段文字进行画图、计算等统计分析操作,最终达到一种更友好的交互方式,更符合话语或书面文字的数据分析处理和可视化的新形式,而非使用传统的统计表格、统计软件(如Excel等)进行数据分析、可视化。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文本数据分析处理方法的流程示意图之一;
图2是本发明实施例提供的文本数据分析处理系统的结构示意图;
图3是本发明实施例提供的文本数据分析处理方法的流程示意图之二;
图4是本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明提供的文本数据分析处理方法的流程示意图之一。
如图1所示,本实施例提供了一种文本数据分析处理方法,包括:
步骤101,接收用户输入的文本,基于大语言模型和系统内置的信息提取提示词,让大语言模型对文本中的信息进行语义解析,得到规整后的目标数据和处理分析方式;
步骤102,基于大语言模型和系统内置的数据处理提示词,对目标数据进行对应分析处理方式的分析处理,并将分析处理结果返回给用户。
其中提示词指的是用于告诉大语言模型需要对所给定的文本进行何种方式的处理,如在进行数据提取时,清晰的告诉大语言模型,“请帮我在给你的文本中提取有效的二维表格数据”;在进行数据处理时,提示词可以是“我想要对这份数据绘制折线图”,“请帮我撰写一段python代码”,“用于对此数据绘制折线图”等。大语言模型拿到给定的文本或数据和对应的提示词后,能够清晰意图,返回针对的结果。
对目标数据进行对应分析处理方式的分析处理,具体可以为:针对目标数据和处理分析方式让大语言模型生成数据分析和处理代码,对目标数据进行处理分析,得到代码后运行代码得到分析结果。
示例性实施例中,信息提取提示词通过如下方式获得:
基于用户输入的文本,对系统内置的提示词模板进行补充,得到信息提取提示词;
数据处理提示词通过如下方式获得:
基于处理分析方式,对系统内置的提示词模板进行补充,得到数据处理提示词。
示例性实施例中,基于大语言模型和系统内置的数据处理提示词,对目标数据进行对应分析处理方式的分析处理,包括:
将目标数据转换为表格数据,将表格数据和处理方式再次输入大语言模型;
大语言模型基于表格数据和处理方式对目标数据进行处理,得到数据处理结果。
示例性实施例中,将目标数据转换为表格数据,包括:
将目标数据转换为DataFrame的数据结构,并进行打印。
示例性实施例中,处理方式为绘图,基于大语言模型和系统内置的数据处理提示词,对目标数据进行对应分析处理方式的分析处理,还包括:
建立坐标轴,基于坐标轴绘图。
示例性实施例中,处理方式为计算,基于大语言模型和系统内置的数据处理提示词,对目标数据进行对应分析处理方式的分析处理,还包括:
基于表格数据计算得到计算结果。
下面对本发明提供的文本数据分析处理系统进行描述,下文描述的文本数据分析处理系统与上文描述的文本数据分析处理方法可相互对应参照。
图2是本发明实施例提供的文本数据分析处理系统的结构示意图。
如图2所示,本实施例提供的文本数据分析处理系统包括:
语义解析模块201,用于接收用户输入的文本,基于大语言模型和系统内置的信息提取提示词,对文本中的信息进行语义解析,得到规整后的目标数据和处理分析方式;
数据处理模块202,用于基于大语言模型和系统内置的数据处理提示词,对目标数据进行对应分析处理方式的分析处理,并将分析处理结果返回给用户。
示例性实施例中,数据处理模块202具体用于:
将目标数据转换为表格数据,将表格数据和处理方式再次输入大语言模型;
大语言模型基于表格数据和处理方式对目标数据进行处理,得到数据处理结果。
示例性实施例中,数据处理模块202还用于:
将目标数据转换为DataFrame的数据结构,并进行打印。
示例性实施例中,数据处理模块202还用于:
建立坐标轴,基于坐标轴绘图。
示例性实施例中,数据处理模块202还用于:
基于表格数据计算得到计算结果。
本实施例提供的文本数据分析处理系统的具体实施方法可以参照上述实施例进行实施,此处不再赘述。
下面以两个具体的实施例说明本发明提供的文本数据分析处理方法。
图3是本发明实施例提供的文本数据分析处理方法的流程示意图之二。
如图3所示,本实施例提供的文本数据分析处理方法包括:
用户输入需要进行数据分析或者可视化的文本,例如输入:某公司第一季度收入10w,第二季度收入20w,第三季度收入15w,第四季度收入20w,绘制一份全年收入柱状图;
将此文本及数据解析的提示词发送到大语言模型,解析出表格数据和对应的分析内容,并转为json格式;
使用pandas库读取数据并转换成DataFrame的数据结构,并进行打印,得到如下数据:
之后可以基于上述表格数据以及确定的处理方法(本实施例中为绘制一份全年收入柱状图),再结合对应的提示词结合生成一条新的问题再次发送到大语言模型,让其根据的问题生成对应的python代码,之后执行待代码可以得到最终的处理结果,并返回给用户。
本实施例提供的另一个具体的实施例包括:
用户输入的文本为“第一季度收入10w,第二季度收入20w,第三季度收入15w,第四季度收入20w,计算全年总收入”;
转换成DataFrame的数据结构,并进行打印,得到如下数据:
最后计算得到“全年总收入是65万元”并将结果返回给用户。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行文本数据分析处理方法,该方法包括:
接收用户输入的文本,基于大语言模型和系统内置的信息提取提示词,对文本中的信息进行语义解析,得到规整后的目标数据和处理分析方式;
基于大语言模型和系统内置的数据处理提示词,对目标数据进行对应分析处理方式的分析处理,并将分析处理结果返回给用户。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,计算机程序被处理器执行时,计算机能够执行上述各方法所提供的文本数据分析处理方法,该方法包括:
接收用户输入的文本,基于大语言模型和系统内置的信息提取提示词,对文本中的信息进行语义解析,得到规整后的目标数据和处理分析方式;
基于大语言模型和系统内置的数据处理提示词对目标数据进行对应分析处理方式的分析处理,并将分析处理结果返回给用户。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的文本数据分析处理方法,该方法包括:
接收用户输入的文本,基于大语言模型和系统内置的信息提取提示词,对文本中的信息进行语义解析,得到规整后的目标数据和处理分析方式;
基于大语言模型和系统内置的数据处理提示词对目标数据进行对应分析处理方式的分析处理,并将分析处理结果返回给用户。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.文本数据分析处理方法,其特征在于,包括:
接收用户输入的文本,基于大语言模型和系统内置的信息提取提示词,对所述文本中的信息进行语义解析,得到规整后的目标数据和处理分析方式;
基于所述大语言模型和系统内置的数据处理提示词,对所述目标数据进行对应所述分析处理方式的分析处理,并将分析处理结果返回给用户。
2.根据权利要求1所述的文本数据分析处理方法,其特征在于,所述信息提取提示词通过如下方式获得:
基于用户输入的文本,对系统内置的提示词模板进行补充,得到所述信息提取提示词;
所述数据处理提示词通过如下方式获得:
基于所述处理分析方式,对系统内置的提示词模板进行补充,得到所述数据处理提示词。
3.根据权利要求1所述的文本数据分析处理方法,其特征在于,所述基于所述大语言模型和系统内置的数据处理提示词,对所述目标数据进行对应所述分析处理方式的分析处理,包括:
将所述目标数据转换为表格数据,将所述表格数据和所述处理方式再次输入所述大语言模型;
所述大语言模型基于所述表格数据和所述处理方式生成数据处理分析代码,执行生成的代码,得到数据处理结果。
4.根据权利要求3所述的文本数据分析处理方法,其特征在于,所述将所述目标数据转换为表格数据,包括:
将所述目标数据转换为DataFrame的数据结构,并进行打印。
5.根据权利要求3所述的文本数据分析处理方法,其特征在于,所述处理方式为绘图,所述基于所述大语言模型和系统内置的数据处理提示词,对所述目标数据进行对应所述分析处理方式的分析处理,还包括:
建立坐标轴,基于所述坐标轴绘图。
6.根据权利要求3所述的文本数据分析处理方法,其特征在于,所述处理方式为计算,所述基于所述大语言模型和系统内置的数据处理提示词,对所述目标数据进行对应所述分析处理方式的分析处理,还包括:
基于所述表格数据计算得到计算结果。
7.文本数据分析处理系统,其特征在于,包括:
语义解析模块,用于接收用户输入的文本,基于大语言模型和系统内置的信息提取提示词,对所述文本中的信息进行语义解析,得到规整后的目标数据和处理分析方式;
数据处理模块,用于基于所述大语言模型和系统内置的数据处理提示词,对所述目标数据进行对应所述分析处理方式的分析处理,并将分析处理结果返回给用户。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一实施例所述文本数据分析处理方法。
9.一种非暂态计算机可读存储介质,存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一实施例所述文本数据分析处理方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,计算机程序被处理器执行时实现如权利要求1至6任一实施例所述文本数据分析处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311821233.3A CN117764056A (zh) | 2023-12-27 | 2023-12-27 | 文本数据分析处理方法及系统、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311821233.3A CN117764056A (zh) | 2023-12-27 | 2023-12-27 | 文本数据分析处理方法及系统、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117764056A true CN117764056A (zh) | 2024-03-26 |
Family
ID=90314356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311821233.3A Pending CN117764056A (zh) | 2023-12-27 | 2023-12-27 | 文本数据分析处理方法及系统、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117764056A (zh) |
-
2023
- 2023-12-27 CN CN202311821233.3A patent/CN117764056A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018205389A1 (zh) | 语音识别方法、系统、电子装置及介质 | |
CN112016304A (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
CN112506951B (zh) | 数据库慢查询日志的处理方法、服务器、计算设备和系统 | |
CN108090043B (zh) | 基于人工智能的纠错举报处理方法、装置及可读介质 | |
CN108304442B (zh) | 一种文本信息处理方法、装置及存储介质 | |
CN107221328B (zh) | 修改源的定位方法及装置、计算机设备及可读介质 | |
DE112016005912T5 (de) | Technologien zur satzende-detektion unter verwendung von syntaktischer kohärenz | |
CN110222330B (zh) | 语义识别方法及装置、存储介质、计算机设备 | |
CN114428771B (zh) | 基于表单设计的通用数据库模型生成方法、装置和设备 | |
CN110675863A (zh) | 语音语料生成方法及装置、语音识别方法及装置 | |
CN111651994B (zh) | 一种信息抽取方法、装置、电子设备和存储介质 | |
CN115168562A (zh) | 一种智能问答系统的构建方法、装置、设备及介质 | |
CN113553428A (zh) | 文档分类方法、装置及电子设备 | |
CN112988962A (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
CN110543641B (zh) | 一种中外文信息对比方法及装置 | |
CN117764056A (zh) | 文本数据分析处理方法及系统、电子设备 | |
CN110442843B (zh) | 字符替换方法、系统、计算机设备及计算机可读存储介质 | |
CN114239562B (zh) | 文档中程序代码块的识别方法、装置和设备 | |
CN112542163A (zh) | 智能语音交互方法、设备及存储介质 | |
CN115544973A (zh) | 文档生成方法、装置、电子设备及存储介质 | |
CN115563985A (zh) | 语句分析方法、装置、设备、存储介质及程序产品 | |
CN110134957B (zh) | 一种基于语义分析的科技成果入库方法及系统 | |
CN114511863A (zh) | 表格结构提取方法、装置、电子设备及存储介质 | |
CN114049686A (zh) | 签名识别模型训练方法、装置及电子设备 | |
CN113360672A (zh) | 用于生成知识图谱的方法、装置、设备、介质和产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |