CN117473081A - 文本管理方法、装置、计算机设备和存储介质 - Google Patents

文本管理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN117473081A
CN117473081A CN202311218741.2A CN202311218741A CN117473081A CN 117473081 A CN117473081 A CN 117473081A CN 202311218741 A CN202311218741 A CN 202311218741A CN 117473081 A CN117473081 A CN 117473081A
Authority
CN
China
Prior art keywords
target
text
language model
training
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311218741.2A
Other languages
English (en)
Inventor
谢航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202311218741.2A priority Critical patent/CN117473081A/zh
Publication of CN117473081A publication Critical patent/CN117473081A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种文本管理方法、装置、计算机设备和存储介质,涉及人工智能技术领域。所述方法包括:获取目标文本,对所述目标文本进行数据预处理,得到所述目标文本对应的语义向量;根据所述语义向量和已训练的通用语言模型对所述目标文本进行分类,以获得关于所述目标文本的文本类型的目标分类结果;根据存储路径与分类结果的映射关系,确定所述目标分类结果对应的目标存储路径;根据所述目标存储路径,对所述目标文本进行存储。采用本方法能够提高文档管理效率。

Description

文本管理方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种文本管理方法、装置、计算机设备和存储介质。
背景技术
随着数字化转型的不断深入,企业的电子文档数量呈现快速增长的趋势,传统以纸质形式存储的客户信息、业务记录、制度文档和会议纪要等内容都逐渐转变为电子形式存储。
相关技术中,通常由人工对电子文档进行分类管理,在电子文档数量快速增长的情况下,需要耗费较多的人力资源,文档管理效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高文档管理效率的文本管理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种文本管理方法。所述方法包括:
获取目标文本,对目标文本进行数据预处理,得到目标文本对应的语义向量;
根据语义向量和已训练的通用语言模型对目标文本进行分类,以获得关于目标文本的文本类型的目标分类结果;
根据存储路径与分类结果的映射关系,确定目标分类结果对应的目标存储路径;
根据目标存储路径,对目标文本进行存储。
在其中一个实施例中,已训练的通用语言模型的构建方式,包括:
获取分类训练集和问答训练集;分类训练集包括训练文本和文本类型标签;问答训练集包括训练问题和问题解答;
将训练文本输入至初始通用语言模型,以训练文本对应的文本类型标签作为目标输出,训练初始通用语言模型,得到第一中间语言模型;
将训练问题输入至第一中间语言模型,以训练问题对应的问题解答作为目标输出,训练第一中间语言模型,得到第二中间语言模型;
根据分类验证集和问答验证集,对第二中间语言模型进行参数调优,得到已训练的通用语言模型。
在其中一个实施例中,所述方法还包括:
获取用户问答请求;用户问答请求包括问题描述信息;
将问题描述信息输入已训练的通用语言模型,以获得关于问题描述信息的目标问题解答;
根据目标问题解答,生成用户问答请求对应的用户问答响应。
在其中一个实施例中,对目标文本进行存储之后,还包括:
获取用户反馈信息;用户反馈信息包括目标文本标识和目标文本类型;
根据目标文本类型,对目标文本标识对应的目标文本进行类型调整。
在其中一个实施例中,所述方法还包括:
在目标文本的数量达到第一数量阈值或者用户反馈信息的数量达到第二数量阈值的情况下,根据目标文本和用户反馈信息对已训练的通用语言模型进行更新训练,得到更新后的通用语言模型;
在用户流量不大于流量阈值的情况下,根据更新后的通用语言模型,对已训练的通用语言模型进行更新。
在其中一个实施例中,所述方法还包括:
获取文本查询请求;文本查询请求中包括查询关键字;
根据查询关键字生成查询索引值,根据查询索引值,确定查询结果;查询结果包括与查询关键字对应的目标文本;
根据查询结果生成文本查询响应。
第二方面,本申请还提供了一种文本管理装置。所述装置包括:
预处理模块,用于获取目标文本,对目标文本进行数据预处理,得到目标文本对应的语义向量;
分类模块,用于根据语义向量和已训练的通用语言模型对目标文本进行分类,以获得关于目标文本的文本类型的目标分类结果;
映射模块,用于根据存储路径与分类结果的映射关系,确定目标分类结果对应的目标存储路径;
存储模块,用于根据目标存储路径,对目标文本进行存储。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取目标文本,对目标文本进行数据预处理,得到目标文本对应的语义向量;
根据语义向量和已训练的通用语言模型对目标文本进行分类,以获得关于目标文本的文本类型的目标分类结果;
根据存储路径与分类结果的映射关系,确定目标分类结果对应的目标存储路径;
根据目标存储路径,对目标文本进行存储。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取目标文本,对目标文本进行数据预处理,得到目标文本对应的语义向量;
根据语义向量和已训练的通用语言模型对目标文本进行分类,以获得关于目标文本的文本类型的目标分类结果;
根据存储路径与分类结果的映射关系,确定目标分类结果对应的目标存储路径;
根据目标存储路径,对目标文本进行存储。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取目标文本,对目标文本进行数据预处理,得到目标文本对应的语义向量;
根据语义向量和已训练的通用语言模型对目标文本进行分类,以获得关于目标文本的文本类型的目标分类结果;
根据存储路径与分类结果的映射关系,确定目标分类结果对应的目标存储路径;
根据目标存储路径,对目标文本进行存储。
上述文本管理方法、装置、计算机设备、存储介质和计算机程序产品,通过首先获取目标文本,对目标文本进行数据预处理,得到目标文本对应的语义向量,并根据语义向量和已训练的通用语言模型对目标文本进行分类,以获得关于目标文本的文本类型的分类结果,进而根据存储路径与分类结果的映射关系,确定目标分类结果对应的目标存储路径,根据目标存储路径,对目标文本进行存储,这样,能够根据已训练的通用语言模型对文本进行自动分类存储,从而提高文档管理效率。
附图说明
图1为一个实施例中文本管理方法的应用环境图;
图2为一个实施例中文本管理方法的流程示意图;
图3为另一个实施例中文本管理方法的流程示意图;
图4为一个实施例中文本管理装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的文本管理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。终端102可以向服务器104上传目标文本,服务器104可以对接收到的目标文本进行自动分类存储。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种文本管理方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
S202:获取目标文本,对目标文本进行数据预处理,得到目标文本对应的语义向量。
其中,目标文本是指生产经营过程中需要留存的工作文档,例如技术文档、制度文档、财务报告、会议纪要等,在此不做具体限定。
可选地,在进行文本管理过程中,服务器接收用户通过网页、终端应用或者邮箱上传的目标文本。
接收到目标文本后,服务器首先通过预设正则表达式对目标文本进行清洗,去除目标文本中的标点符号和特殊字符等无意义内容。然后,服务器对清洗后的目标文本进分词,例如通过通用分词工具进行分词,得到第一分词结果,并去除第一分词结果中的停用词,得到第二分词结果。从第二分词结果中,提取目标文本的关键词,例如,可以根据词频或者词性确定目标文本的关键词,在此不做具体限定。进而,根据目标文本的关键词对目标文本进行向量化处理,得到目标文本对应的语义向量。
S204:根据语义向量和已训练的通用语言模型对目标文本进行分类,以获得关于目标文本的文本类型的目标分类结果。
其中,已训练的通用语言模型可以根据语义向量对文本进行分类,从预设的文本类型集合中,确定输入文本对应的文本类型。
可选地,得到语义向量后,服务器将语义向量输入已训练的通用语言模型中,根据已训练的通用语言模型的输出,确定目标文本的文本类型。
S206:根据存储路径与分类结果的映射关系,确定目标分类结果对应的目标存储路径。
其中,服务器中预先配置了文本类型集合中每个文本类型对应的存储路径,该配置可以根据文本类型集合的修改进行更新。
可选地,确定目标文本的目标分类结果后,服务器根据目标文本的目标分类结果以及存储路径与分类结果的映射关系,匹配得到目标文本的存储路径。S208:根据目标存储路径,对目标文本进行存储。
可选地,在确定目标存储路径后,服务器将目标文本存储至目标存储路径对应的存储空间中。
上述文本管理方法中,通过首先获取目标文本,对目标文本进行数据预处理,得到目标文本对应的语义向量,并根据语义向量和已训练的通用语言模型对目标文本进行分类,以获得关于目标文本的文本类型的分类结果,进而根据存储路径与分类结果的映射关系,确定目标分类结果对应的目标存储路径,根据目标存储路径,对目标文本进行存储,这样,能够根据已训练的通用语言模型对文本进行自动分类存储,从而提高文档管理效率。
在一个实施例中,已训练的通用语言模型的构建方式,包括:获取分类训练集和问答训练集;分类训练集包括训练文本和文本类型标签;问答训练集包括训练问题和问题解答;将训练文本输入至初始通用语言模型,以训练文本对应的文本类型标签作为目标输出,训练初始通用语言模型,得到第一中间语言模型;将训练问题输入至第一中间语言模型,以训练问题对应的问题解答作为目标输出,训练第一中间语言模型,得到第二中间语言模型;根据分类验证集和问答验证集,对第二中间语言模型进行参数调优,得到已训练的通用语言模型。
其中,初始通用语言模型可以是清华GLM-6B或者其他适用的通用语言模型,在此不做具体限定。
可选地,在对初始通用语言模型进行训练的过程中,服务器首先获取分类训练集和问答训练集。分类训练集中包括多组分类训练样本,每个分类训练样本由一组训练文本和文本类型标签组成。问答训练集根据已存储的历史目标文件构建,包括多组问答训练样本,每个问答训练样本由一组问题文本和目标解答文本组成。
获取分类训练集后,服务器将分类训练集输入至初始通用语言模型中进行模型训练,得到各训练文本对应的文本类型预测值。然后,根据文本类型预测值、文本类型标签和预先配置的损失函数,调整初始通用语言模型的模型参数,并进行重复训练,直至达到预设停止条件。当达到预设停止条件时,根据训练过程中损失值最小或者鲁棒性最好的模型参数,生成第一中间语言模型。
获取第一中间语言模型后,服务器将问答训练集输入至第一中间语言模型中,得到各问题文本对应的预测解答文本。然后,根据预测解答文本、目标解答文本和预先配置的损失函数,调整第一中间语言模型的模型参数,并进行重复训练,直至达到预设停止条件,当达到预设停止条件时,根据训练过程中损失值最小或者鲁棒性最好的模型参数,生成第二中间语言模型。
获取第二中间语言模型后,服务器将分类验证集和问答验证集输入至第二中间语言模型中,得到各验证文本对应的文本类型预测值和各验证问题文本对应的预测解答文本,根据各验证文本的文本类型标签和文本类型预测值的一致性,以及各验证问题文本对应的预设解答文本和目标解答文本的一致性,调整第二中间语言模型的模型参数,得到已训练的通用语言模型。
本实施例中,通过获取分类训练集,将训练文本输入至初始通用语言模型,以训练文本对应的文本类型标签作为目标输出,训练初始通用语言模型,得到中间语言模型,并根据分类验证集,对中间语言模型进行参数调优,得到已训练的通用语言模型,从而能够对目标文本准确进行类型分类,并生成用户问题的相关解答。
在一个实施例中,该方法还包括:获取用户问答请求;用户问答请求包括问题描述信息;将问题描述信息输入已训练的通用语言模型,以获得关于问题描述信息的目标问题解答;根据目标问题解答,生成用户问答请求对应的用户问答响应。
可选地,在问答过程中,服务器接收终端发送的用户问答请求,并将用户问答请求中的问题描述信息输入已训练的通用语言模型中,得到问题描述信息对应的目标问题解答,并根据目标问题解答生成用户问答响应,将用户问答响应发送给终端。
本实施例中,通过首先获取用户问答请求,并将用户问答请求中的问题描述信息输入已训练的通用语言模型,以获得关于问题描述信息的目标问题解答,进而根据目标问题解答,生成用户问答请求对应的用户问答响应,这样,能够对用户问题进行及时响应,提高信息获取效率。
在一个实施例中,对目标文本进行存储之后,还包括:获取用户反馈信息;用户反馈信息包括目标文本标识和目标文本类型;根据目标文本类型,对目标文本标识对应的目标文本进行类型调整。
可选地,对目标文本进行存储之后,服务器向终端发送文本分类消息,指示目标文本通过自动分类的文本类型。用户在终端的交互界面获取到文本分类消息后,如果认定分类结果有误,可以进行调整,通过终端向服务器发送用户反馈信息。
服务器接收到用户反馈信息后,根据目标文本标识确定待调整目标文本,进而将待调整目标文本的文本类型调整为目标文本类型。
本实施例中,通过获取用户反馈信息,根据目标文本类型,对目标文本标识对应的目标文本进行类型调整,能够通过用户反馈信息确定文本分类错误,并及时修正,从而提高目标文本的分类准确性。
在一个实施例中,该方法还包括:在目标文本的数量达到第一数量阈值或者用户反馈信息的数量达到第二数量阈值的情况下,根据目标文本和用户反馈信息对已训练的通用语言模型进行更新训练,得到更新后的通用语言模型;在用户流量不大于流量阈值的情况下,根据更新后的通用语言模型,对已训练的通用语言模型进行更新。
其中,用户流量是指服务器文本管理业务的业务访问量。
可选地,在文本管理过程中,服务器对目标文本的数量以及用户反馈信息的数量进行计数。当新的目标文本数量达到第一数量阈值,或者新的用户反馈信息数量达到第二阈值的情况下,服务器根据新的目标文本和新的用户反馈信息对已训练的通用语言模型进行更新训练,确定新的模型参数,并对目标文本数量和用户反馈信息数量进行重新计数。
在用户流量不大于流量阈值的情况下,服务器根据新的模型参数对已训练的通用语言模型进行更新。
本实施例中,通过在目标文本的数量达到第一数量阈值或者用户反馈信息的数量达到第二数量阈值的情况下,根据目标文本和用户反馈信息对已训练的通用语言模型进行更新训练,得到更新后的通用语言模型,这样,能够根据目标文本和用户反馈信息进行自学习和优化,提高文本分类的准确性,并在用户流量不大于流量阈值的情况下,根据更新后的通用语言模型,对已训练的通用语言模型进行更新,这样,能够实现平滑迁移,减小更新过程对用户的影响。
在一个实施例中,该方法还包括:获取文本查询请求;文本查询请求中包括查询关键字;根据查询关键字生成查询索引值,根据查询索引值,确定查询结果;查询结果包括与查询关键字对应的目标文本;根据查询结果生成文本查询响应。
可选地,服务器在存储目标文件的过程中,会根据目标文件生成查询索引。用户查询目标文件的过程中,服务器获取终端上传的文本查询请求,根据文本查询请求中的查询关键字生成查询索引值,根据查询索引值和查询索引,确定查询关键字对应的目标文本,并根据目标文本生成文本查询响应发送给终端。
本实施例中,通过获取文本查询请求,根据文本查询请求中查询关键字生成查询索引值,根据查询索引值,确定查询结果,根据查询结果生成文本查询响应,从而能够快速检索目标文本。
在一个实施例中,一种文本管理方法,以应用于一种文本管理系统为例,如图3所示,系统包括用户接口组件、文件上传组件、已训练的GLM模型、文件存储与管理组件、文件搜索与索引管理组件、训练与更新组件、用户交互组件、数据库管理组件、负载均衡组件、备份与恢复组件、监控与报警组件和数据安全组件,其中:
用户接口组件,负责接收用户通过web页面、嵌入在公司终端的办公软件、以及邮箱等方式上传的文档。在文档上传的过程中,用户可以附带对文档的描述以及训练要求,从而让系统更好地理解文档的内容。文档也可以通过拖拽至聊天框的方式进行上传,让用户的交互更加便捷。训练结果将通过自然语言描述反馈,通过交互界面、邮箱等方式通知用户,用户可以对结果进行进一步调整。
文件上传组件,负责接收来自用户接口的文档,以及对文档的描述和训练要求,并将文档发送至已训练的GLM模型以及文件存储与管理组件。
已训练的GLM模型,负责接收来自文件上传组件的文档,并根据文档的内容以及用户的描述和训练要求对文档内容进行理解和分类,以及对用户提出的问题进行回答。文件存储与管理组件:负责接收文件上传组件转发的文档,并根据已训练的GLM模型的分类结果对文档进行存储。此外,文件存储与管理组件还具有调用API接口,可以将文件上传至第三方文件管理平台的能力,例如WPS云平台。
文件搜索与索引管理组件,负责创建文档的索引,使文档能够被快速搜索,并通过关键词搜索,帮助用户快速定位所需的文件。随着文档的更新和添加,定期更新索引库。结合已训练的GLM模型,允许用户使用自然语言搜索文件。
训练与更新组件,负责基于已分类的文档以及用户反馈信息,对模型进行训练和更新。训练的触发机制为,当系统中累积一定量的新文档时,或者用户提供了一定量的新反馈信息时,该组件将启动训练过程。模型的训练不仅会考虑新的数据,还会参考过去的训练历史,从而做到持续优化。
用户交互组件,负责接收用户反馈信息,并将用户反馈信息传递给训练与更新组件;通过自然语言处理将已训练的GLM模型的输出结果转换为易于理解的文本描述发送给用户;在模型训练或查询任务完成的情况下,即时通过邮箱、短信或系统内通知等方式通知用户;为复杂的数据或多维结果提供图表或其他可视化元素;允许用户在接收到初步结果后进行调整或提出进一步的问题;保存用户的查询历史和结果,以便进行比较或进一步分析;提供将结果下载为常用格式(例如CSV、PDF等)的选项。
数据库管理组件,负责管理关系型数据库和向量数据库。其中,关系型数据库用于存储结构化的数据,例如用户信息、文档的分类信息等;向量数据库则用于存储非结构化的数据,例如文档的文本内容、GLM模型的训练历史等。
负载均衡组件,负责根据系统中各个组件的工作负荷,进行任务的分配,以确保系统的高效运行。
备份与恢复组件,负责进行数据的定期备份,并在数据出现问题时进行数据恢复。
监控与报警组件,负责监控系统的运行状态,并在系统出现问题时发出警报。
数据安全组件,负责进行数据加密、访问控制、入侵检测、审计日志、数据隐私保护。
以下对GLM模型训练的相关内容作进一步说明:
1、数据预处理
(1)文本清洗:使用正则表达式来去除非字母、数字和常见的标点符号。
(2)分词:可以使用现成的分词工具如NLTK或spaCy进行英文分词,对于中文可以使用jieba。
(3)词嵌入:使用GLoVe或Word2Vec进行预训练,或直接使用GLM模型的预训练词嵌入。
2、模型结构
(1)网络层数和大小:假设使用12层,每层有768个神经元。
(2)激活函数:使用ReLU(Rectified Linear Unit)激活函数。
(3)正则化方法:使用L2正则化和0.5的dropout比率。
3、训练策略
(1)学习率:使用0.001的初始学习率,并应用学习率衰减。
(2)优化器:使用Adam优化器。
(3)批次大小:使用32的批次大小。
(4)训练轮数:设定最多50个训练周期。
4、验证与测试
(1)数据划分:80%的数据用于训练,10%用于验证,10%用于测试。
(2)性能指标:使用F1分数和准确度作为主要的性能指标。
(3)早停策略:如果在连续10个验证周期内性能没有提升,则停止训练。
5、模型更新策略
(1)触发条件:当累积新数据达到10000个样本或收到50个以上的用户反馈。
(2)版本控制:使用Git进行模型的版本控制。
(3)平滑迁移:在低流量时段进行模型更新,以减小对用户的影响。
6、迁移学习
(1)预训练模型:使用清华GLM-6B或其他适用的GLM模型作为预训练模型。
(2)数据适应:使用少量标签化的领域特定数据进行微调。
(3)数据增强:使用回译(将文本翻译成另一种语言,然后再翻译回来)和同义词替换;对少数类样本进行过采样或加权。
7、超参数调优方案
(1)初步筛选:使用小批量(Mini-batch)的数据进行快速实验,通过随机搜索(Random Search)进行初步筛选。
(2)核心参数优化
学习率:使用网格搜索在0.001,0.01,0.1这几个值中选取最优的学习率;正则化参数:尝试L1、L2正则化,或是它们的组合,以防止过拟合。
(3)模型复杂度调整:根据初步结果,需要微调模型的层数或隐藏单元数。
(4)高级优化:在核心参数优化的基础上,进一步使用贝叶斯优化来寻找最优参数。
(5)早停与交叉验证:使用早停策略以及5折交叉验证来精确评估模型性能。
(6)学习率调度:在训练的后期阶段实施学习率衰减或周期性调整。
(7)实验跟踪与版本控制:用TensorBoard或MLflow等工具跟踪所有实验;使用Git进行参数和模型版本控制。
(8)评估与反馈:在独立的测试集上对模型上进行评估,并与业务和研发团队进行反馈循环。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的文本管理方法的文本管理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个文本管理装置实施例中的具体限定可以参见上文中对于文本管理方法的限定,在此不再赘述。
在一个实施例中,如图4所示,提供了一种文本管理装置,包括:预处理模块410、分类模块420、映射模块430和存储模块440,其中:
预处理模块410,用于获取目标文本,对目标文本进行数据预处理,得到目标文本对应的语义向量。
分类模块420,用于根据语义向量和已训练的通用语言模型对目标文本进行分类,以获得关于目标文本的文本类型的目标分类结果。
映射模块430,用于根据存储路径与分类结果的映射关系,确定目标分类结果对应的目标存储路径。
存储模块440,用于根据目标存储路径,对目标文本进行存储。
在一个实施例中,分类模块420还用于获取分类训练集和问答训练集;分类训练集包括训练文本和文本类型标签;问答训练集包括训练问题和问题解答;
将训练文本输入至初始通用语言模型,以训练文本对应的文本类型标签作为目标输出,训练初始通用语言模型,得到第一中间语言模型;将训练问题输入至第一中间语言模型,以训练问题对应的问题解答作为目标输出,训练第一中间语言模型,得到第二中间语言模型;根据分类验证集和问答验证集,对第二中间语言模型进行参数调优,得到已训练的通用语言模型。
在一个实施例中,分类模块420还用于获取用户问答请求;用户问答请求包括问题描述信息;将问题描述信息输入已训练的通用语言模型,以获得关于问题描述信息的目标问题解答;根据目标问题解答,生成用户问答请求对应的用户问答响应。
在一个实施例中,存储模块440还用于获取用户反馈信息;用户反馈信息包括目标文本标识和目标文本类型;根据目标文本类型,对目标文本标识对应的目标文本进行类型调整。
在一个实施例中,分类模块420还用于在目标文本的数量达到第一数量阈值或者用户反馈信息的数量达到第二数量阈值的情况下,根据目标文本和用户反馈信息对已训练的通用语言模型进行更新训练,得到更新后的通用语言模型;在用户流量不大于流量阈值的情况下,根据更新后的通用语言模型,对已训练的通用语言模型进行更新。
在一个实施例中,存储模块440还用于获取文本查询请求;文本查询请求中包括查询关键字;根据查询关键字生成查询索引值,根据查询索引值,确定查询结果;查询结果包括与查询关键字对应的目标文本;根据查询结果生成文本查询响应。
上述文本管理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储目标文本和其他业务数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本管理方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取目标文本,对目标文本进行数据预处理,得到目标文本对应的语义向量;根据语义向量和已训练的通用语言模型对目标文本进行分类,以获得关于目标文本的文本类型的目标分类结果;根据存储路径与分类结果的映射关系,确定目标分类结果对应的目标存储路径;根据目标存储路径,对目标文本进行存储。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取分类训练集和问答训练集;分类训练集包括训练文本和文本类型标签;问答训练集包括训练问题和问题解答;将训练文本输入至初始通用语言模型,以训练文本对应的文本类型标签作为目标输出,训练初始通用语言模型,得到第一中间语言模型;将训练问题输入至第一中间语言模型,以训练问题对应的问题解答作为目标输出,训练第一中间语言模型,得到第二中间语言模型;根据分类验证集和问答验证集,对第二中间语言模型进行参数调优,得到已训练的通用语言模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取用户问答请求;用户问答请求包括问题描述信息;将问题描述信息输入已训练的通用语言模型,以获得关于问题描述信息的目标问题解答;根据目标问题解答,生成用户问答请求对应的用户问答响应。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取用户反馈信息;用户反馈信息包括目标文本标识和目标文本类型;根据目标文本类型,对目标文本标识对应的目标文本进行类型调整。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在目标文本的数量达到第一数量阈值或者用户反馈信息的数量达到第二数量阈值的情况下,根据目标文本和用户反馈信息对已训练的通用语言模型进行更新训练,得到更新后的通用语言模型;在用户流量不大于流量阈值的情况下,根据更新后的通用语言模型,对已训练的通用语言模型进行更新。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取文本查询请求;文本查询请求中包括查询关键字;根据查询关键字生成查询索引值,根据查询索引值,确定查询结果;查询结果包括与查询关键字对应的目标文本;根据查询结果生成文本查询响应。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取目标文本,对目标文本进行数据预处理,得到目标文本对应的语义向量;根据语义向量和已训练的通用语言模型对目标文本进行分类,以获得关于目标文本的文本类型的目标分类结果;根据存储路径与分类结果的映射关系,确定目标分类结果对应的目标存储路径;根据目标存储路径,对目标文本进行存储。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取分类训练集和问答训练集;分类训练集包括训练文本和文本类型标签;问答训练集包括训练问题和问题解答;将训练文本输入至初始通用语言模型,以训练文本对应的文本类型标签作为目标输出,训练初始通用语言模型,得到第一中间语言模型;将训练问题输入至第一中间语言模型,以训练问题对应的问题解答作为目标输出,训练第一中间语言模型,得到第二中间语言模型;根据分类验证集和问答验证集,对第二中间语言模型进行参数调优,得到已训练的通用语言模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取用户问答请求;用户问答请求包括问题描述信息;将问题描述信息输入已训练的通用语言模型,以获得关于问题描述信息的目标问题解答;根据目标问题解答,生成用户问答请求对应的用户问答响应。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取用户反馈信息;用户反馈信息包括目标文本标识和目标文本类型;根据目标文本类型,对目标文本标识对应的目标文本进行类型调整。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:在目标文本的数量达到第一数量阈值或者用户反馈信息的数量达到第二数量阈值的情况下,根据目标文本和用户反馈信息对已训练的通用语言模型进行更新训练,得到更新后的通用语言模型;在用户流量不大于流量阈值的情况下,根据更新后的通用语言模型,对已训练的通用语言模型进行更新。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取文本查询请求;文本查询请求中包括查询关键字;根据查询关键字生成查询索引值,根据查询索引值,确定查询结果;查询结果包括与查询关键字对应的目标文本;根据查询结果生成文本查询响应。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:获取目标文本,对目标文本进行数据预处理,得到目标文本对应的语义向量;根据语义向量和已训练的通用语言模型对目标文本进行分类,以获得关于目标文本的文本类型的目标分类结果;根据存储路径与分类结果的映射关系,确定目标分类结果对应的目标存储路径;根据目标存储路径,对目标文本进行存储。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取分类训练集和问答训练集;分类训练集包括训练文本和文本类型标签;问答训练集包括训练问题和问题解答;将训练文本输入至初始通用语言模型,以训练文本对应的文本类型标签作为目标输出,训练初始通用语言模型,得到第一中间语言模型;将训练问题输入至第一中间语言模型,以训练问题对应的问题解答作为目标输出,训练第一中间语言模型,得到第二中间语言模型;根据分类验证集和问答验证集,对第二中间语言模型进行参数调优,得到已训练的通用语言模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取用户问答请求;用户问答请求包括问题描述信息;将问题描述信息输入已训练的通用语言模型,以获得关于问题描述信息的目标问题解答;根据目标问题解答,生成用户问答请求对应的用户问答响应。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取用户反馈信息;用户反馈信息包括目标文本标识和目标文本类型;根据目标文本类型,对目标文本标识对应的目标文本进行类型调整。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:在目标文本的数量达到第一数量阈值或者用户反馈信息的数量达到第二数量阈值的情况下,根据目标文本和用户反馈信息对已训练的通用语言模型进行更新训练,得到更新后的通用语言模型;在用户流量不大于流量阈值的情况下,根据更新后的通用语言模型,对已训练的通用语言模型进行更新。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取文本查询请求;文本查询请求中包括查询关键字;根据查询关键字生成查询索引值,根据查询索引值,确定查询结果;查询结果包括与查询关键字对应的目标文本;根据查询结果生成文本查询响应。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种文本管理方法,其特征在于,所述方法包括:
获取目标文本,对所述目标文本进行数据预处理,得到所述目标文本对应的语义向量;
根据所述语义向量和已训练的通用语言模型对所述目标文本进行分类,以获得关于所述目标文本的文本类型的目标分类结果;
根据存储路径与分类结果的映射关系,确定所述目标分类结果对应的目标存储路径;
根据所述目标存储路径,对所述目标文本进行存储。
2.根据权利要求1所述的方法,其特征在于,所述已训练的通用语言模型的构建方式,包括:
获取分类训练集和问答训练集;所述分类训练集包括训练文本和文本类型标签;所述问答训练集包括训练问题和问题解答;
将训练文本输入至初始通用语言模型,以训练文本对应的文本类型标签作为目标输出,训练所述初始通用语言模型,得到第一中间语言模型;
将训练问题输入至第一中间语言模型,以训练问题对应的问题解答作为目标输出,训练所述第一中间语言模型,得到第二中间语言模型;
根据分类验证集和问答验证集,对所述第二中间语言模型进行参数调优,得到所述已训练的通用语言模型。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取用户问答请求;所述用户问答请求包括问题描述信息;
将所述问题描述信息输入所述已训练的通用语言模型,以获得关于所述问题描述信息的目标问题解答;
根据所述目标问题解答,生成所述用户问答请求对应的用户问答响应。
4.根据权利要求1所述的方法,其特征在于,所述对所述目标文本进行存储之后,还包括:
获取用户反馈信息;所述用户反馈信息包括目标文本标识和目标文本类型;
根据所述目标文本类型,对所述目标文本标识对应的目标文本进行类型调整。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
在所述目标文本的数量达到第一数量阈值或者所述用户反馈信息的数量达到第二数量阈值的情况下,根据所述目标文本和所述用户反馈信息对所述已训练的通用语言模型进行更新训练,得到更新后的通用语言模型;
在用户流量不大于流量阈值的情况下,根据所述更新后的通用语言模型,对所述已训练的通用语言模型进行更新。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取文本查询请求;所述文本查询请求中包括查询关键字;
根据所述查询关键字生成查询索引值,根据所述查询索引值,确定查询结果;所述查询结果包括与所述查询关键字对应的目标文本;
根据所述查询结果生成文本查询响应。
7.一种文本管理装置,其特征在于,所述装置包括:
预处理模块,用于获取目标文本,对所述目标文本进行数据预处理,得到所述目标文本对应的语义向量;
分类模块,用于根据所述语义向量和已训练的通用语言模型对所述目标文本进行分类,以获得关于所述目标文本的文本类型的目标分类结果;
映射模块,用于根据存储路径与分类结果的映射关系,确定所述目标分类结果对应的目标存储路径;
存储模块,用于根据所述目标存储路径,对所述目标文本进行存储。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202311218741.2A 2023-09-20 2023-09-20 文本管理方法、装置、计算机设备和存储介质 Pending CN117473081A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311218741.2A CN117473081A (zh) 2023-09-20 2023-09-20 文本管理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311218741.2A CN117473081A (zh) 2023-09-20 2023-09-20 文本管理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN117473081A true CN117473081A (zh) 2024-01-30

Family

ID=89638657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311218741.2A Pending CN117473081A (zh) 2023-09-20 2023-09-20 文本管理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN117473081A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117993461A (zh) * 2024-01-31 2024-05-07 广电运通集团股份有限公司 大语言模型的训练方法及装置、计算机设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117993461A (zh) * 2024-01-31 2024-05-07 广电运通集团股份有限公司 大语言模型的训练方法及装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
US11640494B1 (en) Systems and methods for construction, maintenance, and improvement of knowledge representations
Lakshmanan et al. Machine learning design patterns
US11580104B2 (en) Method, apparatus, device, and storage medium for intention recommendation
US11487941B2 (en) Techniques for determining categorized text
US10628409B2 (en) Distributed data transformation system
US11645321B2 (en) Calculating relationship strength using an activity-based distributed graph
US12001439B2 (en) Information service for facts extracted from differing sources on a wide area network
US10565234B1 (en) Ticket classification systems and methods
US9535902B1 (en) Systems and methods for entity resolution using attributes from structured and unstructured data
US9646262B2 (en) Data intelligence using machine learning
US8266148B2 (en) Method and system for business intelligence analytics on unstructured data
CN111801674A (zh) 通过处理使用数据来改进自然语言接口
AU2018201670A1 (en) BiLSTM-SIAMESE NETWORK BASED CLASSIFIER FOR IDENTIFYING TARGET CLASS OF QUERIES AND PROVIDING RESPONSES THEREOF
US11481412B2 (en) Data integration and curation
US10755338B1 (en) Method, medium, and system for generating synthetic data
US11599666B2 (en) Smart document migration and entity detection
CN108563734A (zh) 制度信息查询方法、装置、计算机设备和存储介质
US10824694B1 (en) Distributable feature analysis in model training system
CN117473081A (zh) 文本管理方法、装置、计算机设备和存储介质
CN110740111B (zh) 一种数据防漏方法、装置及计算机可读存储介质
US10776399B1 (en) Document classification prediction and content analytics using artificial intelligence
US11985571B2 (en) Predicting user interaction with communications
AU2020104034A4 (en) IML-Cloud Data Performance: Cloud Data Performance Improved using Machine Learning.
US20240289560A1 (en) Prompt engineering and automated quality assessment for large language models
US20240333675A1 (en) Email management system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination