CN117094283B - 文本处理方法、装置、电子设备、存储介质和程序产品 - Google Patents

文本处理方法、装置、电子设备、存储介质和程序产品 Download PDF

Info

Publication number
CN117094283B
CN117094283B CN202311325944.1A CN202311325944A CN117094283B CN 117094283 B CN117094283 B CN 117094283B CN 202311325944 A CN202311325944 A CN 202311325944A CN 117094283 B CN117094283 B CN 117094283B
Authority
CN
China
Prior art keywords
segment
text
target
vector
referred
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311325944.1A
Other languages
English (en)
Other versions
CN117094283A (zh
Inventor
欧阳逸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311325944.1A priority Critical patent/CN117094283B/zh
Publication of CN117094283A publication Critical patent/CN117094283A/zh
Application granted granted Critical
Publication of CN117094283B publication Critical patent/CN117094283B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本处理方法、装置、电子设备、存储介质和程序产品;涉及大语言模型,本申请实施例获取待参考文本,并对待参考文本进行分段处理,得到文本片段序列;获取目标片段对应的参考片段,以及参考片段对应的片段概括向量;根据参考片段对应的片段概括向量,对目标片段进行编码处理,得到目标片段对应的片段特征向量和片段概括向量;根据每个目标片段对应的片段概括向量,对所有目标片段对应的片段特征向量进行解码处理,得到待参考文本对应的总结文本。在本申请实施例中通过参考每个目标片段对应的片段概括向量,可以快速解码所有目标片段对应的片段特征向量,得到可以精确地传达待参考文本的核心内容的总结文本,提升了文本处理效率。

Description

文本处理方法、装置、电子设备、存储介质和程序产品
技术领域
本申请涉及计算机领域,具体涉及一种文本处理方法、装置、电子设备、存储介质和程序产品。
背景技术
文本处理模型是一种自动化工具,通过使用自然语言处理(Natural LanguageProcessing,NLP)技术来分析和处理文本数据,它能够解析文本的结构和含义,从中提取有用的信息,并应用于各种应用场景。
然而,当前的文本处理模型在处理较长的文本段落时,由于计算资源的限制,可能无法实现快速处理文本的需求。
发明内容
本申请实施例提供一种文本处理方法、装置、电子设备、存储介质和程序产品,可以提升文本处理效率。
本申请实施例提供一种文本处理方法,包括:
获取待参考文本,并对待参考文本进行分段处理,得到文本片段序列,文本片段序列包括至少一个文本片段,文本片段包括至少一个字词;
获取目标片段对应的参考片段,以及参考片段对应的片段概括向量,目标片段为文本片段序列中的任意一个文本片段,参考片段为文本片段序列中在目标片段之前的文本片段;
根据参考片段对应的片段概括向量,对目标片段进行编码处理,得到目标片段对应的片段特征向量和片段概括向量;
根据每个目标片段对应的片段概括向量,对所有目标片段对应的片段特征向量进行解码处理,得到待参考文本对应的总结文本。
本申请实施例还提供一种文本处理装置,包括:
文本获取单元,用于获取待参考文本,并对待参考文本进行分段处理,得到文本片段序列,文本片段序列包括至少一个文本片段,文本片段包括至少一个字词;
片段获取单元,用于获取目标片段对应的参考片段,以及参考片段对应的片段概括向量,目标片段为文本片段序列中的任意一个文本片段,参考片段为文本片段序列中在目标片段之前的文本片段;
编码单元,用于根据参考片段对应的片段概括向量,对目标片段进行编码处理,得到目标片段对应的片段特征向量和片段概括向量;
解码单元,用于根据每个目标片段对应的片段概括向量,对所有目标片段对应的片段特征向量进行解码处理,得到待参考文本对应的总结文本。
在一些实施例中,根据参考片段对应的片段概括向量,对目标片段进行编码处理,得到目标片段对应的片段特征向量和片段概括向量,包括:
获取文本片段中各个字词对应的标记;
根据目标片段中各个字词对应的标记,以及参考片段对应的片段概括向量,对目标片段进行编码处理,得到目标片段对应的片段特征向量和片段概括向量。
在一些实施例中,获取文本片段中各个字词对应的标记,包括:
针对文本片段中的各个字词,获取字词在文本片段中的位置,以及字词在文本片段中对应的相邻字词;
根据字词在文本片段中的位置和相邻字词,确定字词的词义;
根据字词在文本片段中的位置,以及字词的词义,从预设标记中确定字词对应的标记。
在一些实施例中,根据目标片段中各个字词对应的标记,以及参考片段对应的片段概括向量,对目标片段进行编码处理,得到目标片段对应的片段特征向量和片段概括向量,包括:
根据文本片段中各个字词对应的标记,得到文本片段对应的标记序列;
对文本片段和其对应的标记序列进行拼接处理,得到标记片段;
根据参考标记片段对应的片段概括向量,对目标标记片段进行编码处理,得到目标标记片段对应的片段特征向量和片段概括向量,参考标记片段为参考片段和其对应的标记序列进行拼接处理后对应的片段,目标标记片段为目标片段和其对应的标记序列进行拼接处理后对应的片段;
根据每个目标片段对应的片段概括向量,对所有目标片段对应的片段特征向量进行解码处理,得到待参考文本对应的总结文本,包括:
根据每个目标标记片段对应的片段概括向量,对所有目标标记片段对应的片段特征向量进行解码处理,得到待参考文本对应的总结文本。
在一些实施例中,根据参考标记片段对应的片段概括向量,对目标标记片段进行编码处理,得到目标标记片对应的片段特征向量和片段概括向量,包括:
对参考标记片段对应的片段概括向量和目标标记片段进行拼接处理,得到待处理的目标标记片段;
对待处理的目标标记片段进行编码处理,得到待处理的目标标记片段对应的片段特征向量和片段概括向量。
在一些实施例中,获取待参考文本,包括:
获取待参考的至少一个参考标题对应的参考内容;
对至少一个参考标题对应的参考内容进行拼接处理,得到待参考文本。
在一些实施例中,对待参考文本进行分段处理,得到文本片段序列,包括:
获取待参考文本的文本分布特征;
根据文本分布特征,从至少一个预设划分策略中确定目标划分策略;
采用目标划分策略,对待参考文本进行分段处理,得到文本片段序列。
在一些实施例中,对待参考文本进行分段处理,得到文本片段序列,包括:
从待参考文本中获取加密项,以及加密项对应的加密内容;
对待参考文本中的加密项对应的加密内容进行加密处理,得到加密参考文本;
对加密参考文本进行分段处理,得到文本片段序列。
在一些实施例中,根据每个目标片段对应的片段概括向量,对所有目标片段对应的片段特征向量进行解码处理,得到待参考文本对应的总结文本,包括:
对每个目标片段对应的片段概括向量进行拼接处理,得到全文概括向量;
对所有目标片段对应的片段特征向量进行拼接处理,得到全文特征向量;
对全文概括向量和全文特征向量进行拼接处理,得到待解码向量;
对待解码向量进行解码处理,得到参考文本对应的总结文本。
在一些实施例中,根据每个目标片段对应的片段概括向量,对所有目标片段对应的片段特征向量进行解码处理,得到待参考文本对应的总结文本,包括:
获取至少一个总结标题;
根据至少一个总结标题,以及每个目标片段对应的片段概括向量,对所有目标片段对应的片段特征向量进行解码处理,得到每个总结标题对应的总结内容。
在一些实施例中,文本片段序列中的每个文本片段携带有索引值;
获取目标片段对应的参考片段,包括:
获取目标片段在文本片段序列中的目标索引值;
根据目标索引值,从文本片段序列中的每个文本片段携带的索引值中确定参考索引值;
根据参考索引值,从文本片段序列中定位目标片段对应的参考片段。
本申请实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行本申请实施例所提供的任一种文本处理方法中的步骤。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例所提供的任一种文本处理方法中的步骤。
本申请实施例还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现本申请实施例所提供的任一种文本处理方法中的步骤。
本申请实施例可以获取待参考文本,并对待参考文本进行分段处理,得到文本片段序列,文本片段序列包括至少一个文本片段,文本片段包括至少一个字词;获取目标片段对应的参考片段,以及参考片段对应的片段概括向量,目标片段为文本片段序列中的任意一个文本片段,参考片段为文本片段序列中在目标片段之前的文本片段;根据参考片段对应的片段概括向量,对目标片段进行编码处理,得到目标片段对应的片段特征向量和片段概括向量;根据每个目标片段对应的片段概括向量,对所有目标片段对应的片段特征向量进行解码处理,得到待参考文本对应的总结文本。
在本申请中,通过将待参考文本进行分段处理,可以将长文本拆分为更小、更可处理的文本片段序列,这有助于提高后续文本处理任务的灵活性和效率,以可以逐个处理每个文本片段,而不需要同时处理整个长文本。在得到参考片段对应的片段概括向量后,可以利用片段概括向量高度概括参考片段的内容,片段概括向量可以包含参考片段中的主要信息,使得对目标片段的处理更加全面、准确,并且具有上下文感知。通过结合参考片段的片段概括向量,对目标片段进行编码处理可以进一步提升文本处理的质量和效果。通过参考每个目标片段对应的片段概括向量,可以快速解码所有目标片段对应的片段特征向量,得到可以精确地传达待参考文本的核心内容的总结文本,相比直接采用上下文段生成向量的方案,这种分段处理和利用片段概括向量的方案减少了计算量,提升了文本处理效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的文本处理方法的场景示意图;
图1b是本申请实施例提供的文本处理方法的流程示意图;
图2a是本申请实施例提供的文本处理方法应用在模型训练场景中的示意图;
图2b是本申请实施例提供的文本处理的结构示意图;
图2c是本申请实施例提供的文本处理系统的结构示意图;
图2d是本申请实施例提供的文本处理方法应用在模型训练场景中的流程图;
图3是本申请实施例提供的文本处理装置的结构示意图;
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种文本处理方法、装置、电子设备、存储介质和程序产品。
其中,该文本处理装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer,PC)等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
在一些实施例中,该文本处理装置还可以集成在多个电子设备中,比如,文本处理装置可以集成在多个服务器中,由多个服务器来实现本申请的文本处理方法。
在一些实施例中,服务器也可以以终端的形式来实现。
可以理解的是,在本申请的具体实施方式中,涉及到用户相关信息等的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
例如,参考图1a,该电子设备可以获取待参考文本,并对待参考文本进行分段处理,得到文本片段序列,文本片段序列包括至少一个文本片段,文本片段包括至少一个字词;获取目标片段对应的参考片段,以及参考片段对应的片段概括向量,目标片段为文本片段序列中的任意一个文本片段,参考片段为文本片段序列中在目标片段之前的文本片段;根据参考片段对应的片段概括向量,对目标片段进行编码处理,得到目标片段对应的片段特征向量和片段概括向量;根据所有目标片段对应的片段概括向量,对所有目标片段对应的片段特征向量进行解码处理,得到待参考文本对应的总结文本。
其中,通过将待参考文本进行分段处理,可以将长文本拆分为更小、更可处理的文本片段序列,这有助于提高后续文本处理任务的灵活性和效率,以可以逐个处理每个文本片段,而不需要同时处理整个长文本。在得到参考片段对应的片段概括向量后,可以利用片段概括向量高度概括参考片段的内容,片段概括向量可以包含参考片段中的主要信息,使得对目标片段的处理更加全面、准确,并且具有上下文感知。通过结合参考片段的片段概括向量,对目标片段进行编码处理可以进一步提升文本处理的质量和效果。通过参考每个目标片段对应的片段概括向量,可以快速解码所有目标片段对应的片段特征向量,得到可以精确地传达待参考文本的核心内容的总结文本,相比直接采用上下文段生成向量的方案,这种分段处理和利用片段概括向量的方案减少了计算量,提升了文本处理效率。
以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。
人工智能(Artificial Intelligence,AI)是一种利用数字计算机来模拟人类感知环境、获取知识并使用知识的技术,该技术可以使机器具有类似于人类的感知、推理与决策的功能。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
在本实施例中,提供了一种涉及人工智能的基于自然语言处理的文本处理方法,如图1b所示,该文本处理方法的具体流程可以如下:
110、获取待参考文本,并对待参考文本进行分段处理,得到文本片段序列,文本片段序列包括至少一个文本片段,文本片段包括至少一个字词。
其中,待参考文本是指在文本处理任务中,需要借鉴或参考的特定文本材料,且待参考文本可以是由至少一个文本材料组合所得到的文本。
比如,若文本处理任务为医学领域的文本处理任务,则待参考文本可以是某某用户的病历文本,病历文本可以包括入院情况、入院诊断、影像报告、实验室检验单、病程记录等;若文本处理任务是学术领域的文本处理任务,则待参考文本可以是论文集合,论文集合可以包括相关领域的论文等。若文本处理任务是金融领域的文本处理任务,则待参考文本可以是财务报表、市场分析报告等。
文本片段序列是由待参考文本划分成的多个文本片段组成的有序集合,文本片在文本片段序列中按照其在待参考文本中的位置排列。
文本片段是文本片段序列中的一个子集,可以包括至少一个字词,具有相对独立的意义和完整的表达。
在一些实施例中,为了使文本处理模型生成的文本可以综合考虑多个需要参考的文本材料,获取待参考文本,包括:
获取待参考的至少一个参考标题对应的参考内容;
对至少一个参考标题对应的参考内容进行拼接处理,得到待参考文本。
其中,参考标题是指需要参考的文本材料的标题。
参考内容是指与参考标题相关的具体内容。
比如,若参考标题可以是某某用户的【入院情况】、【入院诊断】、【影像报告】、【实验室检验单】、【病程记录】等,参考标题对应的参考内容包括某某用户的【入院情况】参考内容、【入院诊断】参考内容、【影像报告】参考内容、【实验室检验单】参考内容、【病程记录】参考内容等。
在一些实施例中,为了可以拼接至少一个参考标题对应的参考内容,对至少一个参考标题对应的参考内容进行拼接处理,得到待参考文本,包括:
针对至少一个参考标题对应的参考内容,在每两个参考标题对应的参考内容之间添加预设拼接符,得到待参考文本。
其中,预设拼接符为预先设置的用于拼接两个参考标题对应的参考内容的标识符。
比如,若预设拼接符为“*”,则待参考文本可以是【入院情况】参考内容*【入院诊断】参考内容*【影像报告】参考内容*【实验室检验单】参考内容*【病程记录】参考内容。
在一些实施例中,为了可以选择适当的划分策略来划分待参考文本,对待参考文本进行分段处理,得到文本片段序列,包括:
获取待参考文本的文本来源信息;
根据文本来源信息,从至少一个预设划分策略中确定目标划分策略;
采用目标划分策略,对待参考文本进行分段处理,得到文本片段序列。
其中,文本来源信息可以反映构成待参考文本的材料文本的文本来源。比如,文本来源信息可以反映待参考文本由至少一个材料文本构成。
预设划分策略为预先设置的划分待参考文本所采用的策略。比如,随机划分策略、均匀划分策略和章节划分策略等。
目标划分策略为预设划分策略中划分待参考文本时所采用的划分策略。
比如,若文本来源信息反映待参考文本由多个材料文本构成,且待参考文本中携带有每个材料文本的参考标题,则可以选用章节划分策略,通过章节划分策略可以确保参考标题对应的材料文本被划分在同一文本片段中,便于快速理解待参考文本。
若文本来源信息反映待参考文本由1个材料文本构成,或是由多个材料文本构成,但确未携带每个材料文本的参考标题,则可以采用随机划分策略或均匀划分策略,适用于没有明显结构特征的文本,明显结构特征可以是指参考标题。
在一些实施例中,考虑到待参考文本中可能携带有用户信息,如用户的身份信息等,为了避免用户信息的泄露等,对待参考文本进行分段处理,得到文本片段序列,包括:
从待参考文本中获取加密项,以及加密项对应的加密内容;
对待参考文本中的加密项对应的加密内容进行加密处理,得到加密参考文本;
对加密参考文本进行分段处理,得到文本片段序列。
其中,加密项是指待参考文本中需要进行加密的标识项。
加密内容为待参考文本中与加密项对应的内容。
比如,若加密项为用户姓名标识项、用户身份证号码标识项、用户手机号标识项,则加密内容为用户姓名标识项对应的用户姓名、用户身份证号码标识项对应的用户身份证号码、用户手机号标识项对应的用户手机号等。
加密参考文本为待参考文本中的加密项对应的加密内容在加密后所对应的参考文本。
在一些实施例中,待参考文本包括至少一个标识项;
从待参考文本中获取加密项,包括:
计算每个标识项与预设加密项之间的匹配度;
根据匹配度,从至少一个标识项中确定加密项。
其中,标识项是指在待参考文本中用于标识、区分或识别个体、实体或事物的特定信息项。
预设加密项为预先设置的需要加密的标识项。
匹配度用于指示标识项与预设加密项之间的相似度。
加密处理的方法包括但不限于:
1)、可以覆盖待参考文本中的加密项对应的加密内容;
2)、还可以删除待参考文本中的加密项对应的加密内容;
3)、还可以采用秘钥加密待参考文本中的加密项对应的加密内容。
120、获取目标片段对应的参考片段,以及参考片段对应的片段概括向量,目标片段为文本片段序列中的任意一个文本片段,参考片段为文本片段序列中在目标片段之前的文本片段。
其中,目标片段为文本片段序列中的任意一个文本片段。
参考片段为文本片段序列中在目标片段之前的文本片段。
比如,若文本片段序列包括第一个文本片段、第二个文本片段和第三个文本片段,当目标片段为第一个文本片段时,则第一个文本片段不存在对应的参考片段,当目标片段为第二个文本片段时,则第二个文本片段对应的参考片段包括第一个文本片段,当目标片段为第三个文本片段时,则第三个文本片段对应的参考片段包括第一个文本片段和第二个文本片段。
参考片段对应的片段概括向量是指对参考片段进行语义理解和归纳总结所得到的向量,它包含了对参考片段的关键信息进行提炼和概括的能力,注重了对参考片段的语义理解和总结,它能够捕捉到参考片段的中心思想和重要信息,即参考片段对应的片段概括向量包含了参考片段中的主要信息。
在一些实施例中,为了可以获取目标片段对应的参考片段,文本片段序列中的每个文本片段携带有索引值;
获取目标片段对应的参考片段,包括:
获取目标片段在文本片段序列中的目标索引值;
根据目标索引值,从文本片段序列中的每个文本片段携带的索引值中确定参考索引值;
根据参考索引值,从文本片段序列中定位目标片段对应的参考片段。
其中,索引值是指在文本片段序列中,每个文本片段所对应的唯一标识符或编号,它用于标识每个文本片段在序列中的位置和顺序。比如,索引值可以是数字、字母等。
比如,若索引值是整数,从0开始递增,依次对应文本片段在序列中的位置。文本片段序列中的第一个文本片段的索引值为0,第二个文本片段的索引值为1,以此类推。
目标索引值是指目标片段在文本片段序列中的位置编号。
参考索引值是指文本片段序列中在目标索引值之前的索引值。比如,若索引值在文本片段序列中递增,则参考索引值小于目标索引值,若索引值在文本片段序列中递减,则参考索引值大于目标索引值,等等。
比如,若文本片段序列包括3个文本片段,第一个文本片段的索引值为0、第二个文本片段的索引值为1、第三个文本片段的索引值为2,当目标片段的目标索引值为2时,参考索引值可以是0和1,即参考片段为索引值0对应的第一个文本片段,以及索引值1对应的第二个文本片段。
130、根据参考片段对应的片段概括向量,对目标片段进行编码处理,得到目标片段对应的片段特征向量和片段概括向量。
其中,目标片段对应的片段特征向量是指对目标片段进行特征提取和编码所得到的向量,这个向量主要包含了目标片段的所有信息。
目标片段对应的片段概括向量是指对目标片段进行语义理解和归纳总结所得到的向量,它包含了对目标片段的关键信息进行提炼和概括的能力,注重了对目标片段的语义理解和总结,它能够捕捉到目标片段的中心思想和重要信息。
比如,当目标片段为文本片段序列中的第一个文本片段时,则不存在目标片段对应的参考片段,则对目标片段编码后得到的片段概括向量仅注重了目标片段的语义理解和总结。
当目标片段为文本片段序列中除第一个文本片段以外的文本片段时,则存在目标片段对应的参考片段,则对目标片段编码后得到的片段概括向量除了包括自身的语义理解和总结之外,还包括与参考文本之间的语义关系。
在一些实施例中,为了便于文本处理模型理解文本片段,根据参考片段对应的片段概括向量,对目标片段进行编码处理,得到目标片段对应的片段特征向量和片段概括向量,包括:
获取文本片段中各个字词对应的标记;
根据目标片段中各个字词对应的标记,以及参考片段对应的片段概括向量,对目标片段进行编码处理,得到目标片段对应的片段特征向量和片段概括向量。
其中,标记是指定义字词的标识符,可以表示文本片段中字词的信息。比如,标记可以表示字词的位置、词性(动词、名词、形容词等)、词义等。
比如,若每个字词对应的标记都可以是“#”,目标片段为“今天天气真好”,目标片段中的字词为“今天”、“天气”和“真好”,可以得到“###”,通过 “###”便于分析目标片段中的字词。
比如,若依据字词在文本片段中的位置、词性和词义,同一个字词在不同的上下文中可以扮演不同的角色,因此应该根据具体的语境来确定其标记,当目标片段中的字词为“今天”、“天气”和“真好”,“今天”对应的标记可以是adv,以表示时间状语,“天气”对应的标记可以是n,以表示主语,“今天”对应的标记可以是adj,以表示表语,以可以通过每个字词对应的标记体现目标片段的文本结构。
当目标片段为文本片段序列中的第一个文本片段时,不存在参考片段,便于通过“今天”对应的标记adv,“天气”对应的标记n,“今天”对应的标记adj分析目标片段,可以得到目标片段对应的片段特征向量,以及可以概括目标片段的片段概括特征。
当目标片段为文本片段序列中除第一个文本片段以外的文本片段时,则存在参考片段,便于通过“今天”对应的标记adv,“天气”对应的标记n,“今天”对应的标记adj分析目标片段,同时,通过借鉴参考片段对应的片段概括向量编码目标片段,以使编码后得到的目标片段对应的片段特征向量以及片段概括向量可以与参考片段之间存在语义联系。
在一些实施例中,获取文本片段中各个字词对应的标记,包括:
针对文本片段中的各个字词,获取字词在文本片段中的位置,以及字词在文本片段中对应的相邻字词;
根据字词在文本片段中的位置和相邻字词,确定字词的词义;
根据字词在文本片段中的位置,以及字词的词义,从预设标记中确定字词对应的标记。
其中,位置是指字词在文本片段中的相对位置。
相邻字词是指文本片段中与该字词相邻的字词。
比如,若字词为文本片段中的第一个字词,则相邻字词为文本片段中的第二个字词,若字词为文本片段中除第一个字词以外的字词,则相邻字词为文本片段中与其相邻的前一个字词,以及后一个字词。
词义是通过分析字词在文本片段中的位置和其相邻字词,推断出该字词在特定上下文中所表示的具体含义。
预设标记为预先设置的用于定义字词的标识符。
比如,文本片段为“我爱吃苹果”,其包括的字词为“我”、“爱”、“吃”和“苹果”,“我”是文本片段中的第一个字词,且其的相邻字词为“爱”,则 “我”指的是说话者自己,即“我”为主语;“爱”是文本片段中的第二个字词,其且其的相邻字词为“我”和“吃”,则“爱”表示喜欢、钟爱的意思,即“爱”为谓语;“吃”是文本片段中的第三个字词,其且其的相邻字词为“爱”和“苹果”,则“吃”表示进食的行为,即“吃”也为谓语;“苹果”是文本片段中的第四个字词,其且其的相邻字词为“苹果”,则“苹果”表示水果,即“苹果”为宾语。依据“我”为主语、“爱”为谓语、“吃”为谓语、“苹果”为宾语可以分别得到“我”对应的标记、“爱”对应的标记、“吃”对应的标记以及“苹果”对应的标记,以便通过字词对应的标记,理解文本片段。
140、根据每个目标片段对应的片段概括向量,对所有目标片段对应的片段特征向量进行解码处理,得到待参考文本对应的总结文本。
其中,总结文本是指在对待参考文本进行概括和简化后所得到的文本,它提供了待参考文本中最重要、最关键的信息,并将其以简洁明了的方式呈现出来,总结文本通常更短,并着重于传达核心内容,帮助读者快速了解原始文本的要点。
比如,若待参考文本为病历文本,则总结文本可以是出院记录。若待参考文本为论文集合,则总结文本可以是技术总结。若待参考文本为财务报表,则总结文本可以是财务总结,等等。
比如,获取文本片段序列中每个文本片段作为目标片段所得到的片段概括向量和片段特征向量,目标片段对应的片段概括向量可以捕捉目标片段的语义信息,以及目标片段之间的语义关系,通过参考每个目标片段对应的片段概括向量,解码所有目标片段对应的片段特征向量,可以确保生成的总结文本能够全面概括每个目标片段,使其不遗漏任何重要信息,具有全面性和概括性。
在一些实施例中,为了在编码时便于理解文本片段的文本结构,根据目标片段中各个字词对应的标记,以及参考片段对应的片段概括向量,对目标片段进行编码处理,得到目标片段对应的片段特征向量和片段概括向量,包括:
根据文本片段中各个字词对应的标记,得到文本片段对应的标记序列;
对文本片段和其对应的标记序列进行拼接处理,得到标记片段;
根据参考标记片段对应的片段概括向量,对目标标记片段进行编码处理,得到目标标记片段对应的片段特征向量和片段概括向量,参考标记片段为参考片段和其对应的标记序列进行拼接处理后对应的片段,目标标记片段为目标片段和其对应的标记序列进行拼接处理后对应的片段;
根据每个目标片段对应的片段概括向量,对所有目标片段对应的片段特征向量进行解码处理,得到待参考文本对应的总结文本,包括:
根据每个目标标记片段对应的片段概括向量,对所有目标标记片段对应的片段特征向量进行解码处理,得到待参考文本对应的总结文本。
其中,标记序列为文本片段中各个字词对应的标记构成的序列。
比如,若文本片段为“今天天气真好”,“今天”对应的标记可以是adv,“天气”对应的标记可以是n,“今天”对应的标记可以是adj,标记序列为“adv-n-adj”。
标记片段是将文本片段和其对应的标记序列进行拼接处理所得到的结果,以便表明文本片段的特征和语义,其中,文本片段对应的标记序列可以拼接在文本片段的头部、中部、或尾部等。
比如,文本片段为“今天天气真好”,标记序列为“adv-n-adj”,则标记片段可以是“今天天气真好adv-n-adj”、“adv-n-adj今天天气真好”、“今天adv-n-adj天气真好”等。
比如,通过文本片段序列中的文本片段可知,文本片段序列包括多个标记片段,多个标记片段包括目标标记片段,目标标记片段可以是任意一个标记片段,通过目标标记片段,可以得到多个标记片段中在目标标记片段之前的标记片段作为参考标记片段。
目标标记片段对应的片段特征向量是指对目标标记片段进行特征提取和编码所得到的向量,这个向量主要包含了目标片段的所有信息。
目标标记片段对应的片段概括向量是指对目标标记片段进行语义理解和归纳总结所得到的向量,它包含了对目标片段的关键信息进行提炼和概括的能力,注重了对目标片段的语义理解和总结,它能够捕捉到目标片段的中心思想和重要信息。
在一些实施例中,为了便于文本处理模型分析目标片段,根据参考标记片段对应的片段概括向量,对目标标记片段进行编码处理,得到目标标记片对应的片段特征向量和片段概括向量,包括:
对参考标记片段对应的片段概括向量和目标标记片段进行拼接处理,得到待处理的目标标记片段;
对待处理的目标标记片段进行编码处理,得到待处理的目标标记片段对应的片段特征向量和片段概括向量。
其中,待处理的目标标记片段是将目标标记片段和参考标记片段对应的片段概括向量进行拼接处理所得到的结果,以便表明目标片段在待参考文本中特征和语义,其中,参考标记片段对应的片段概括向量可以拼接在目标标记片段的头部、中部、或尾部等。
比如,若文本片段序列包括3个标记片段,目标标记片段为第三个标记片段,则参考标记片段为第一个标记片段和第二个标记片段,处理的目标标记片段可以是“第一个标记片段对应的片段概括向量+第二个标记片段对应的片段概括向量+目标标记片段”、还可以是“目标标记片段+第一个标记片段对应的片段概括向量+第二个标记片段对应的片段概括向量”,还可以是“第一个标记片段对应的片段概括向量+目标标记片段+第二个标记片段对应的片段概括向量”等等。
在一些实施例中,为了可以快速解码生成总结文本,根据每个目标片段对应的片段概括向量,对所有目标片段对应的片段特征向量进行解码处理,得到待参考文本对应的总结文本,包括:
对每个目标片段对应的片段概括向量进行拼接处理,得到全文概括向量;
对所有目标片段对应的片段特征向量进行拼接处理,得到全文特征向量;
对全文概括向量和全文特征向量进行拼接处理,得到待解码向量;
对待解码向量进行解码处理,得到参考文本对应的总结文本。
其中,全文概括向量是指待参考文本的全文概括,其可以捕捉到待参考文本的主题、重点和核心思想,反映出待参考文本的整体意义和信息。
全文特征向量是指待参考文本的全文特征,其包含了待参考文本的所有信息的向量表示。
待解码向量是指经过拼接处理后的全文概况概括向量和全文特征向量所组成的一个向量,它包含了对待参考文本的全文理解、归纳总结以及所有特征的综合表示,实现将待参考文本的整体理解和全面特征结合起来,以提供更多信息来辅助解码过程。以在解码待解码向量后,可以得到参考文本对应的总结文本,在减少了解码步骤的同时,使总结文本不遗漏任何重要信息,具有全面性和概括性。
在一些实施例中,为了可以输出符合规格的总结文本,根据每个目标片段对应的片段概括向量,对所有目标片段对应的片段特征向量进行解码处理,得到待参考文本对应的总结文本,包括:
获取至少一个总结标题;
根据至少一个总结标题,以及每个目标片段对应的片段概括向量,对所有目标片段对应的片段特征向量进行解码处理,得到每个总结标题对应的总结内容。
其中,总结标题可以指示依据待参考文本需要总结的方向。比如,总结标题可以是总结待参考文本时输入到文本处理模型中的总结标题,还可以文本处理模型在训练时所得到的总结标题,等等。
总结内容是对待参考文本进行概括和提炼后得到的文字段落,反映了总结标题所涵盖的主要信息和要点。
比如,若待参考文本为病历文本,至少一个总结标题可以包括入院情况、入院诊断、诊疗经过、出院情况、出院诊断等,则总结文本可以包括【入院情况】总结内容*【入院诊断】总结内容*【诊疗经过】总结内容*【出院情况】总结内容*【出院诊断】总结内容等。
相比直接参考上下文段落生成向量的方案,本申请还至少具有以下优势:
1、上下文精确性:传统的参考上下文段落生成向量的方法通常基于固定长度的窗口或滑动窗口,但这种方法可能无法准确捕捉到与目标片段相关的上下文信息。而通过分段处理和编码/解码的方式,可以针对每个目标片段选择性地获取其前面的参考片段作为上下文,从而更精确地提供相关内容,避免了不必要的干扰;
2、灵活性和扩展性:现有的参考上下文段落生成向量的方法通常依赖于固定长度的上下文窗口,这可能会导致在处理长文本或需要不同长度上下文的任务时出现困难。而分段处理的方法没有这样的限制,可以根据具体情况灵活地选择参考片段,并适应各种长度和格式的文本,具有更好的扩展性;
3、语义关联性:由于该方法利用片段概括向量和片段特征向量来编码和解码文本片段,能够更好地捕捉文本片段之间的语义关系。这可以在生成总结文本时确保更准确的语义相关性,增强总结文本的连贯性和一致性;
4、特定任务的适应性:该方法可以根据具体任务的需求调整片段概括向量和片段特征向量的表示。这为特定任务的优化提供了灵活性,并能够通过针对不同任务的微调来进一步提高结果质量。
由上可知,本申请实施例可以获取待参考文本,并对待参考文本进行分段处理,得到文本片段序列,文本片段序列包括至少一个文本片段,文本片段包括至少一个字词;获取目标片段对应的参考片段,以及参考片段对应的片段概括向量,目标片段为文本片段序列中的任意一个文本片段,参考片段为文本片段序列中在目标片段之前的文本片段;根据参考片段对应的片段概括向量,对目标片段进行编码处理,得到目标片段对应的片段特征向量和片段概括向量;根据所有目标片段对应的片段概括向量,对所有目标片段对应的片段特征向量进行解码处理,得到待参考文本对应的总结文本。
由此本方案可以通过将待参考文本进行分段处理,将长文本拆分为更小、更可处理的文本片段序列,这有助于提高后续文本处理任务的灵活性和效率,以可以逐个处理每个文本片段,而不需要同时处理整个长文本。在得到参考片段对应的片段概括向量后,可以利用片段概括向量高度概括参考片段的内容,片段概括向量可以包含参考片段中最重要、最关键的信息,使得对目标片段的处理更加全面、准确,并且具有上下文感知。通过结合参考片段的片段概括向量,对目标片段进行编码处理可以进一步提升文本处理的质量和效果。通过参考每个目标片段对应的片段概括向量,可以快速解码所有目标片段对应的片段特征向量,得到可以精确地传达待参考文本的核心内容的总结文本,相比直接采用上下文段生成向量的方案,这种分段处理和利用片段概括向量的方案减少了计算量,提升了文本处理效率。
根据上述实施例所描述的方法,以下将作进一步详细说明。
在本实施例中,将以文本处理模型经过训练后可以生成出院记录为例,对本申请实施例的方法进行详细说明。
如图2a和图2b所示,一种文本处理模型的训练方法,应用于基础问答模型,具体流程如下:
210、获取目标患者的病历样本,以及其对应的出院记录标签。
比如,目标患者的入院信息涉及入院情况、入院诊断、影像报告、实验室检验单、病程记录等参考标题,将【入院情况】内容*【入院诊断】内容*【影像报告】内容*【实验室检验单】内容*【病程记录】内容*…拼接后得到病历样本,“…”为省略符号,用来表示未提及的参考标题。
比如,其对应的出院记录标签涉及入院情况、入院诊断、诊疗经过、出院情况、出院诊断等总结标题,将【入院情况】内容*【入院诊断】内容*【诊疗经过】内容*【出院情况】内容*【出院诊断】内容*…拼接后得到出院记录标签,“…”为省略符号,用来表示未提及的总结标题。
在一些实施例中,获取目标患者的病历样本,包括:
对病例样本中的用户信息进行加密处理,得到加密后的病历样本。
220、采用随机划分策略、均匀划分策略和章节划分策略中的任意一种划分策略,将病历样本划分成n个训练文本片段,并得到训练文本片段序列
随机划分策略是指将病历样本随机划分为不同的训练文本片段,这些训练文本片段的长度也是随机的,它们可能相同,也可能不同。
均匀划分是指先设置分段长度,再按照这个长度对病历样本进行分段截取,使得每个训练文本片段的长度都相同。
章节划分是指按照病历样本中的各个章节(如:【入院情况】、【入院诊断】、【病程记录】等)进行划分,使得文本处理模型能够按照每个章节进行学习。
230、对训练文本片段进行分词处理,得到训练文本片段中的字词,并获取训练文本片段中各个字词对应的标记,得到训练文本片段对应的训练标记序列。
比如,若训练文本片段中有k个字词,则可以得到k个标记,k个标记构成训练标记序列,其可以表示文本片段的摘要信息。具体地,对于文本片段,它的训练标记序列为
240、将训练文本片段和其对应的训练标记序列进行拼接处理,得到训练标记片段,并通过训练标记片段更新训练文本片段序列。
比如,在训练文本片段的开头或结尾添加训练标记序列,得到训练标记片段。
250、对更新后的训练文本片段序列中的第一个训练标记片段进行编码处理,得到第一个训练标记片段对应的片段特征向量和片段概括向量。
比如,,其中,是第一个训练文本片段,是第一个训练文本片段对应的训练标记序列,是第一个训练标记片段,对应的片段特征向量,对应的片段概括向量,LLM是基础问答模型,具体可以是大语言模型,||表示拼接操作。
260、针对更新后的训练文本片段序列中的第一个训练标记片段以外,对训练标记片段进行编码处理,得到训练标记片段对应的片段特征向量和片段概括向量。
比如,,其中,是第i个训练文本片段,是第i个训练文本片段对应的训练标记序列,是第i个训练标记片段,之前的所有训练文本片段对应的片段概括向量,对应的片段特征向量,对应的片段概括向量。
270、根据每个训练标记片段对应的片段概括向量,对所有训练标记片段对应的片段特征向量进行解码处理,得到目标患者的病历样本对应的预测出院记录。
在一些实施例中,根据每个训练标记片段对应的片段概括向量,对所有训练标记片段对应的片段特征向量进行解码处理,得到目标患者的病历样本对应的预测出院记录,包括:
将每个训练标记片段对应的片段概括向量进行拼接,得到全文概括向量;
根据全文概括向量,对所有训练标记片段对应的片段特征向量进行解码处理,得到目标患者的病历样本对应的预测出院记录。
比如,全文概括向量可以是
280、根据预测出院记录和出院记录标签之间的差异,计算基础问答模型的损失函数的损失值。
以训练文本片段为例,利用每个训练文本片段对应的片段概括向量,编码所有训练文本片段对应的片段特征向量,以预测出院记录,以此来构建损失函数微调大语言模型。
290、根据损失值更新基础问答模型的模型参数。
由所有文本片段的全文概况向量组成的概括矩阵的大小可以表示为,其中,b表示训练批次大小,n表示训练文本片段数量,k表示每个训练文本片段的标记数量,d表示片段概括向量的维度大小。而不采用分段学习,直接将整个输入病历文本输入大语言模型,最终得到的矩阵大小可以表示为,其中表示输入病历文本的长度。通常情况下,nk要明显小于,并且在训练过程中,分段建模不需要计算和存储整个病历文本的完整信息,因此能够减少计算资源的消耗。
经过上述过程,就能得到微调之后的大语言模型(基础问答模型),此时的大语言模型具备了生成出院记录的能力。模型推理阶段的系统架构图如图2c所示,首先根据患者的入院记录、影像报告、实验室检验单、病程记录等信息构建病历样本,即提示(prompt)作为模型输入,然后将其输入到大语言模型中进行处理,其中的模型细节如图2b所示,最后能得到对应的出院记录。模型推理阶段的详细流程图如图2d所示,在模型推理阶段的详细处理过程如下:
首先,根据prompt的格式对测试集中的入院记录、影像报告、实验室检验单、病程记录等数据进行处理得到病历样本,将构建的病历样本输入到大语言模型中;
然后,模型会根据设定的划分策略将输入的病历样本划分为多个训练文本片段,再给每个训练文本片段添加训练标记序列,并将每个训练文本片段都输入到大语言模型就能得到每个训练文本片段的片段概括向量,可以表示该片段的摘要信息;
接着,在每个训练文本片段中都添加上之前所有训练文本片段生成的片段概括向量,并按照训练文本片段序列顺序依次处理各个训练文本片段,这样能够使得每个训练文本片段的信息都能向后传递,每个训练文本片段也都能利用之前所有训练文本片段的信息,既能保证不遗忘之前训练文本片段的信息,也能保证上下文语义的连贯;
最后,将所有输入训练文本片段的片段概括向量进行组合就能得到整个全文概括向量,也是对整个输入信息的浓缩。经过了微调阶段,大语言模型具备了参考全文概括向量,编码所有目标片段对应的片段特征向量生成出院记录的能力,因此大语言模型能够基于病历样的全文概括向量,再结合微调之后的大语言模型的出院记录生成能力来生成对应的出院记录。
由上可知,该申请能够根据患者在住院期间的各项记录来自动生成患者的出院记录,而不需要医生通过手动整理来生成患者的出院记录。这样能减轻医生的工作量,从而更好地与其他住院患者进行沟通与治疗。通过对输入的病历信息进行分段建模与学习,可以提取出输入的摘要信息,这样能够减少计算资源消耗。并且通过对输入的病历信息进行分段建模与学习,可以有效地处理长度较长的输入病历信息。相比于专门训练一个出院记录生成模型,该方案使用的大语言模型微调的性能更好,生成的出院记录质量更高。该方案构建的病历样本和其对应的出院记录标签数据集除了可以用于出院病历生成任务,还能用于其它多项任务及科研用途。
为了更好地实施以上方法,本申请实施例还提供一种文本处理装置,该文本处理装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
比如,在本实施例中,将以文本处理装置具体集成在服务器为例,对本申请实施例的方法进行详细说明。
例如,如图3所示,该文本处理装置可以包括文本获取单元310、片段获取单元320、编码单元330以及解码单元340,如下:
(一)、文本获取单元310。
文本获取单元310,用于获取待参考文本,并对待参考文本进行分段处理,得到文本片段序列,文本片段序列包括至少一个文本片段,文本片段包括至少一个字词。
在一些实施例中,获取待参考文本,包括:
获取待参考的至少一个参考标题对应的参考内容;
对至少一个参考标题对应的参考内容进行拼接处理,得到待参考文本。
在一些实施例中,对待参考文本进行分段处理,得到文本片段序列,包括:
获取待参考文本的文本分布特征;
根据文本分布特征,从至少一个预设划分策略中确定目标划分策略;
采用目标划分策略,对待参考文本进行分段处理,得到文本片段序列。
在一些实施例中,对待参考文本进行分段处理,得到文本片段序列,包括:
从待参考文本中获取加密项,以及加密项对应的加密内容;
对待参考文本中的加密项对应的加密内容进行加密处理,得到加密参考文本;
对加密参考文本进行分段处理,得到文本片段序列。
(二)、片段获取单元320。
片段获取单元320,用于获取目标片段对应的参考片段,以及参考片段对应的片段概括向量,目标片段为文本片段序列中的任意一个文本片段,参考片段为文本片段序列中在目标片段之前的文本片段。
在一些实施例中,文本片段序列中的每个文本片段携带有索引值;
获取目标片段对应的参考片段,包括:
获取目标片段在文本片段序列中的目标索引值;
根据目标索引值,从文本片段序列中的每个文本片段携带的索引值中确定参考索引值;
根据参考索引值,从文本片段序列中定位目标片段对应的参考片段。
(三)、编码单元330。
编码单元330,用于根据参考片段对应的片段概括向量,对目标片段进行编码处理,得到目标片段对应的片段特征向量和片段概括向量。
在一些实施例中,根据参考片段对应的片段概括向量,对目标片段进行编码处理,得到目标片段对应的片段特征向量和片段概括向量,包括:
获取文本片段中各个字词对应的标记;
根据目标片段中各个字词对应的标记,以及参考片段对应的片段概括向量,对目标片段进行编码处理,得到目标片段对应的片段特征向量和片段概括向量。
在一些实施例中,获取文本片段中各个字词对应的标记,包括:
针对文本片段中的各个字词,获取字词在文本片段中的位置,以及字词在文本片段中对应的相邻字词;
根据字词在文本片段中的位置和相邻字词,确定字词的词义;
根据字词在文本片段中的位置,以及字词的词义,从预设标记中确定字词对应的标记。
在一些实施例中,根据参考标记片段对应的片段概括向量,对目标标记片段进行编码处理,得到目标标记片对应的片段特征向量和片段概括向量,包括:
对参考标记片段对应的片段概括向量和目标标记片段进行拼接处理,得到待处理的目标标记片段;
对待处理的目标标记片段进行编码处理,得到待处理的目标标记片段对应的片段特征向量和片段概括向量。
(四)、解码单元340。
解码单元340,用于根据每个目标片段对应的片段概括向量,对所有目标片段对应的片段特征向量进行解码处理,得到待参考文本对应的总结文本。
在一些实施例中,根据目标片段中各个字词对应的标记,以及参考片段对应的片段概括向量,对目标片段进行编码处理,得到目标片段对应的片段特征向量和片段概括向量,包括:
根据文本片段中各个字词对应的标记,得到文本片段对应的标记序列;
对文本片段和其对应的标记序列进行拼接处理,得到标记片段;
根据参考标记片段对应的片段概括向量,对目标标记片段进行编码处理,得到目标标记片段对应的片段特征向量和片段概括向量,参考标记片段为参考片段和其对应的标记序列进行拼接处理后对应的片段,目标标记片段为目标片段和其对应的标记序列进行拼接处理后对应的片段;
根据每个目标片段对应的片段概括向量,对所有目标片段对应的片段特征向量进行解码处理,得到待参考文本对应的总结文本,包括:
根据每个目标标记片段对应的片段概括向量,对所有目标标记片段对应的片段特征向量进行解码处理,得到待参考文本对应的总结文本。
在一些实施例中,根据每个目标片段对应的片段概括向量,对所有目标片段对应的片段特征向量进行解码处理,得到待参考文本对应的总结文本,包括:
对每个目标片段对应的片段概括向量进行拼接处理,得到全文概括向量;
对所有目标片段对应的片段特征向量进行拼接处理,得到全文特征向量;
对全文概括向量和全文特征向量进行拼接处理,得到待解码向量;
对待解码向量进行解码处理,得到参考文本对应的总结文本。
在一些实施例中,根据每个目标片段对应的片段概括向量,对所有目标片段对应的片段特征向量进行解码处理,得到待参考文本对应的总结文本,包括:
获取至少一个总结标题;
根据至少一个总结标题,以及每个目标片段对应的片段概括向量,对所有目标片段对应的片段特征向量进行解码处理,得到每个总结标题对应的总结内容。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例的文本处理装置由文本获取单元获取待参考文本,并对待参考文本进行分段处理,得到文本片段序列,文本片段序列包括至少一个文本片段,文本片段包括至少一个字词;由片段获取单元获取目标片段对应的参考片段,以及参考片段对应的片段概括向量,目标片段为文本片段序列中的任意一个文本片段,参考片段为文本片段序列中在目标片段之前的文本片段;由编码单元根据参考片段对应的片段概括向量,对目标片段进行编码处理,得到目标片段对应的片段特征向量和片段概括向量;由解码单元根据每个目标片段对应的片段概括向量,对所有目标片段对应的片段特征向量进行解码处理,得到待参考文本对应的总结文本。
由此,本申请实施例可以提升文本处理效率。
本申请实施例还提供一种电子设备,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑,等等;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,等等。
在一些实施例中,该文本处理装置还可以集成在多个电子设备中,比如,文本处理装置可以集成在多个服务器中,由多个服务器来实现本申请的文本处理方法。
在本实施例中,将以本实施例的电子设备是服务器为例进行详细描述,比如,如图4所示,其示出了本申请实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器410、一个或一个以上计算机可读存储介质的存储器420、电源430、输入模块440以及通信模块450等部件。本领域技术人员可以理解,图4中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器410是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器420内的软件程序和/或模块,以及调用存储在存储器420内的数据,执行服务器的各种功能和处理数据。在一些实施例中,处理器410可包括一个或多个处理核心;在一些实施例中,处理器410可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器410中。
存储器420可用于存储软件程序以及模块,处理器410通过运行存储在存储器420的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器420还可以包括存储器控制器,以提供处理器410对存储器420的访问。
服务器还包括给各个部件供电的电源430,在一些实施例中,电源430可以通过电源管理系统与处理器410逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源430还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入模块440,该输入模块440可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
该服务器还可包括通信模块450,在一些实施例中通信模块450可以包括无线模块,服务器可以通过该通信模块450的无线模块进行短距离无线传输,从而为用户提供了无线的宽带互联网访问。比如,该通信模块450可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器410会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器420中,并由处理器410来运行存储在存储器420中的应用程序,从而实现各种功能,如下:
获取待参考文本,并对待参考文本进行分段处理,得到文本片段序列,文本片段序列包括至少一个文本片段,文本片段包括至少一个字词;
获取目标片段对应的参考片段,以及参考片段对应的片段概括向量,目标片段为文本片段序列中的任意一个文本片段,参考片段为文本片段序列中在目标片段之前的文本片段;
根据参考片段对应的片段概括向量,对目标片段进行编码处理,得到目标片段对应的片段特征向量和片段概括向量;
根据每个目标片段对应的片段概括向量,对所有目标片段对应的片段特征向量进行解码处理,得到待参考文本对应的总结文本。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,通过将待参考文本进行分段处理,可以将长文本拆分为更小、更可处理的文本片段序列,这有助于提高后续文本处理任务的灵活性和效率,以可以逐个处理每个文本片段,而不需要同时处理整个长文本。在得到参考片段对应的片段概括向量后,可以利用片段概括向量高度概括参考片段的内容,片段概括向量可以包含参考片段中最重要、最关键的信息,使得对目标片段的处理更加全面、准确,并且具有上下文感知。通过结合参考片段的片段概括向量,对目标片段进行编码处理可以进一步提升文本处理的质量和效果。通过参考每个目标片段对应的片段概括向量,可以快速解码所有目标片段对应的片段特征向量,得到可以精确地传达待参考文本的核心内容的总结文本,相比直接采用上下文段生成向量的方案,这种分段处理和利用片段概括向量的方案减少了计算量,提升了文本处理效率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种文本处理方法中的步骤。例如,该指令可以执行如下步骤:
获取待参考文本,并对待参考文本进行分段处理,得到文本片段序列,文本片段序列包括至少一个文本片段,文本片段包括至少一个字词;
获取目标片段对应的参考片段,以及参考片段对应的片段概括向量,目标片段为文本片段序列中的任意一个文本片段,参考片段为文本片段序列中在目标片段之前的文本片段;
根据参考片段对应的片段概括向量,对目标片段进行编码处理,得到目标片段对应的片段特征向量和片段概括向量;
根据每个目标片段对应的片段概括向量,对所有目标片段对应的片段特征向量进行解码处理,得到待参考文本对应的总结文本。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序/指令,该计算机程序/指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机程序/指令,处理器执行该计算机程序/指令,使得该电子设备执行上述实施例中提供的文本处理方面的各种可选实现方式中提供的方法。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种文本处理方法中的步骤,因此,可以实现本申请实施例所提供的任一种文本处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种文本处理方法、装置、电子设备、存储介质和程序产品进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (14)

1.一种文本处理方法,其特征在于,包括:
获取待参考文本,并对所述待参考文本进行分段处理,得到文本片段序列,所述文本片段序列包括至少一个文本片段,所述文本片段包括至少一个字词;
获取目标片段对应的参考片段,以及所述参考片段对应的片段概括向量,所述目标片段为所述文本片段序列中的任意一个文本片段,所述参考片段为所述文本片段序列中在所述目标片段之前的所有文本片段;
根据所述参考片段对应的片段概括向量,对所述目标片段进行编码处理,得到所述目标片段对应的片段特征向量和片段概括向量,所述目标片段对应的片段特征向量是指对所述目标片段进行特征提取和编码所得到的向量,所述目标片段对应的片段概括向量是指对所述目标片段进行语义理解和归纳总结所得到的向量;
根据每个所述目标片段对应的片段概括向量,对所有所述目标片段对应的片段特征向量进行解码处理,得到所述待参考文本对应的总结文本。
2.如权利要求1所述的文本处理方法,其特征在于,所述根据所述参考片段对应的片段概括向量,对所述目标片段进行编码处理,得到所述目标片段对应的片段特征向量和片段概括向量,包括:
获取所述文本片段中各个字词对应的标记;
根据所述目标片段中各个字词对应的标记,以及所述参考片段对应的片段概括向量,对所述目标片段进行编码处理,得到所述目标片段对应的片段特征向量和片段概括向量。
3.如权利要求2所述的文本处理方法,其特征在于,所述获取所述文本片段中各个字词对应的标记,包括:
针对所述文本片段中的各个字词,获取所述字词在所述文本片段中的位置,以及所述字词在所述文本片段中对应的相邻字词;
根据所述字词在所述文本片段中的位置和所述相邻字词,确定所述字词的词义;
根据所述字词在所述文本片段中的位置,以及所述字词的词义,从预设标记中确定所述字词对应的标记。
4.如权利要求2所述的文本处理方法,其特征在于,所述根据所述目标片段中各个字词对应的标记,以及所述参考片段对应的片段概括向量,对所述目标片段进行编码处理,得到所述目标片段对应的片段特征向量和片段概括向量,包括:
根据所述文本片段中各个字词对应的标记,得到所述文本片段对应的标记序列;
对所述文本片段和其对应的标记序列进行拼接处理,得到标记片段;
根据参考标记片段对应的片段概括向量,对目标标记片段进行编码处理,得到所述目标标记片段对应的片段特征向量和片段概括向量,所述参考标记片段为所述参考片段和其对应的标记序列进行拼接处理后对应的片段,所述目标标记片段为所述目标片段和其对应的标记序列进行拼接处理后对应的片段;
所述根据每个所述目标片段对应的片段概括向量,对所有所述目标片段对应的片段特征向量进行解码处理,得到所述待参考文本对应的总结文本,包括:
根据每个所述目标标记片段对应的片段概括向量,对所有所述目标标记片段对应的片段特征向量进行解码处理,得到所述待参考文本对应的总结文本。
5.如权利要求4所述的文本处理方法,其特征在于,所述根据参考标记片段对应的片段概括向量,对目标标记片段进行编码处理,得到所述目标标记片对应的片段特征向量和片段概括向量,包括:
对参考标记片段对应的片段概括向量和目标标记片段进行拼接处理,得到待处理的目标标记片段;
对所述待处理的目标标记片段进行编码处理,得到所述待处理的目标标记片段对应的片段特征向量和片段概括向量。
6.如权利要求1所述的文本处理方法,其特征在于,所述获取待参考文本,包括:
获取待参考的至少一个参考标题对应的参考内容;
对所述至少一个参考标题对应的参考内容进行拼接处理,得到待参考文本。
7.如权利要求1所述的文本处理方法,其特征在于,所述对所述待参考文本进行分段处理,得到文本片段序列,包括:
获取所述待参考文本的文本分布特征;
根据所述文本分布特征,从至少一个预设划分策略中确定目标划分策略;
采用所述目标划分策略,对所述待参考文本进行分段处理,得到文本片段序列。
8.如权利要求1所述的文本处理方法,其特征在于,所述对所述待参考文本进行分段处理,得到文本片段序列,包括:
从所述待参考文本中获取加密项,以及所述加密项对应的加密内容;
对所述待参考文本中的所述加密项对应的加密内容进行加密处理,得到加密参考文本;
对所述加密参考文本进行分段处理,得到文本片段序列。
9.如权利要求1所述的文本处理方法,其特征在于,所述根据每个所述目标片段对应的片段概括向量,对所有所述目标片段对应的片段特征向量进行解码处理,得到所述待参考文本对应的总结文本,包括:
对每个所述目标片段对应的片段概括向量进行拼接处理,得到全文概括向量;
对所有所述目标片段对应的片段特征向量进行拼接处理,得到全文特征向量;
对所述全文概括向量和所述全文特征向量进行拼接处理,得到待解码向量;
对所述待解码向量进行解码处理,得到所述参考文本对应的总结文本。
10.如权利要求1所述的文本处理方法,其特征在于,所述根据每个所述目标片段对应的片段概括向量,对所有所述目标片段对应的片段特征向量进行解码处理,得到所述待参考文本对应的总结文本,包括:
获取至少一个总结标题;
根据所述至少一个总结标题,以及每个所述目标片段对应的片段概括向量,对所有所述目标片段对应的片段特征向量进行解码处理,得到每个所述总结标题对应的总结内容。
11.如权利要求1所述的文本处理方法,其特征在于,所述文本片段序列中的每个文本片段携带有索引值;
所述获取目标片段对应的参考片段,包括:
获取目标片段在所述文本片段序列中的目标索引值;
根据所述目标索引值,从所述文本片段序列中的每个文本片段携带的索引值中确定参考索引值;
根据所述参考索引值,从所述文本片段序列中定位所述目标片段对应的参考片段。
12.一种文本处理装置,其特征在于,包括:
文本获取单元,用于获取待参考文本,并对所述待参考文本进行分段处理,得到文本片段序列,所述文本片段序列包括至少一个文本片段,所述文本片段包括至少一个字词;
片段获取单元,用于获取目标片段对应的参考片段,以及所述参考片段对应的片段概括向量,所述目标片段为所述文本片段序列中的任意一个文本片段,所述参考片段为所述文本片段序列中在所述目标片段之前的所有文本片段;
编码单元,用于根据所述参考片段对应的片段概括向量,对所述目标片段进行编码处理,得到所述目标片段对应的片段特征向量和片段概括向量,所述目标片段对应的片段特征向量是指对所述目标片段进行特征提取和编码所得到的向量,所述目标片段对应的片段概括向量是指对所述目标片段进行语义理解和归纳总结所得到的向量;
解码单元,用于根据每个所述目标片段对应的片段概括向量,对所有所述目标片段对应的片段特征向量进行解码处理,得到所述待参考文本对应的总结文本。
13.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行如权利要求1~11任一项所述的文本处理方法中的步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1~11任一项所述的文本处理方法中的步骤。
CN202311325944.1A 2023-10-13 2023-10-13 文本处理方法、装置、电子设备、存储介质和程序产品 Active CN117094283B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311325944.1A CN117094283B (zh) 2023-10-13 2023-10-13 文本处理方法、装置、电子设备、存储介质和程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311325944.1A CN117094283B (zh) 2023-10-13 2023-10-13 文本处理方法、装置、电子设备、存储介质和程序产品

Publications (2)

Publication Number Publication Date
CN117094283A CN117094283A (zh) 2023-11-21
CN117094283B true CN117094283B (zh) 2024-02-13

Family

ID=88770130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311325944.1A Active CN117094283B (zh) 2023-10-13 2023-10-13 文本处理方法、装置、电子设备、存储介质和程序产品

Country Status (1)

Country Link
CN (1) CN117094283B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274764A (zh) * 2020-01-23 2020-06-12 北京百度网讯科技有限公司 语言生成方法、装置、计算机设备及存储介质
CN111832292A (zh) * 2020-06-03 2020-10-27 北京百度网讯科技有限公司 文本识别处理方法、装置、电子设备和存储介质
CN111859954A (zh) * 2020-07-01 2020-10-30 腾讯科技(深圳)有限公司 目标对象识别方法、装置、设备及计算机可读存储介质
CN116050352A (zh) * 2022-12-12 2023-05-02 华润数字科技有限公司 文本编码方法和装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274764A (zh) * 2020-01-23 2020-06-12 北京百度网讯科技有限公司 语言生成方法、装置、计算机设备及存储介质
CN111832292A (zh) * 2020-06-03 2020-10-27 北京百度网讯科技有限公司 文本识别处理方法、装置、电子设备和存储介质
CN111859954A (zh) * 2020-07-01 2020-10-30 腾讯科技(深圳)有限公司 目标对象识别方法、装置、设备及计算机可读存储介质
CN116050352A (zh) * 2022-12-12 2023-05-02 华润数字科技有限公司 文本编码方法和装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN117094283A (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
US11288593B2 (en) Method, apparatus and device for extracting information
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
US10147051B2 (en) Candidate answer generation for explanatory questions directed to underlying reasoning regarding the existence of a fact
US9535980B2 (en) NLP duration and duration range comparison methodology using similarity weighting
CN111144120A (zh) 一种训练语句的获取方法、装置、存储介质及电子设备
CN112188312B (zh) 用于确定新闻的视频素材的方法和装置
CN111552766B (zh) 使用机器学习来表征在引用图形上应用的参考关系
CN112052424B (zh) 一种内容审核方法及装置
CA3207902A1 (en) Auditing citations in a textual document
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
Rafail et al. Natural language processing
US11748562B2 (en) Selective deep parsing of natural language content
CN118070072A (zh) 基于人工智能的问题处理方法、装置、设备及存储介质
Sharma et al. Lerna: transformer architectures for configuring error correction tools for short-and long-read genome sequencing
US11409950B2 (en) Annotating documents for processing by cognitive systems
CN117094283B (zh) 文本处理方法、装置、电子设备、存储介质和程序产品
CN111831829A (zh) 一种面向开放域的实体关系抽取方法、装置及终端设备
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN116796840A (zh) 医疗实体信息抽取方法、装置、计算机设备及存储介质
Jung et al. Expansive data, extensive model: Investigating discussion topics around LLM through unsupervised machine learning in academic papers and news
Bramer Inducer: a public domain workbench for data mining
CN118297189B (zh) 训练数据生成方法、模型训练方法、装置、设备及介质
CN116010593B (zh) 疾病情感信息的确定方法、装置、计算机设备和存储介质
CN117573956B (zh) 元数据管理方法、装置、设备及存储介质
Osowski et al. Previous Opinions is All You Need—Legal Information Retrieval System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant