CN116956917A - 文本处理方法以及装置 - Google Patents

文本处理方法以及装置 Download PDF

Info

Publication number
CN116956917A
CN116956917A CN202310664648.8A CN202310664648A CN116956917A CN 116956917 A CN116956917 A CN 116956917A CN 202310664648 A CN202310664648 A CN 202310664648A CN 116956917 A CN116956917 A CN 116956917A
Authority
CN
China
Prior art keywords
text
document
processed
extraction
paragraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310664648.8A
Other languages
English (en)
Inventor
宋红叶
康杨杨
林君
孙常龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202310664648.8A priority Critical patent/CN116956917A/zh
Publication of CN116956917A publication Critical patent/CN116956917A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供文本处理方法以及装置,其中所述文本处理方法包括:接收针对待处理文档的文本抽取指令,其中,所述文本抽取指令中携带有参考抽取文本;解析所述待处理文档,获得所述待处理文档对应的至少一个初始文档段落;基于所述参考抽取文本在所述至少一个初始文档段落中确定至少一个待处理文档段落;在所述至少一个待处理文档段落中抽取所述参考抽取文本对应的文本抽取结果。通过在待处理文档对应的初始文档段落中,确定待处理文档段落,进而在待处理文档段落中抽取文本抽取结果,从而缩小了抽取范围,提升了抽取效率。

Description

文本处理方法以及装置
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种文本处理方法。
背景技术
目前,为了获得文本中的关键内容,通常采用实体抽取的方式,对文本中实体信息进行抽取,以便基于实体信息进行后续的任务处理。
然而,在实际的应用场景中,文本内容形式非常丰富,并且不包含实体的文本内容较多;而对全部的文本内容进行抽取操作,会浪费较多的计算资源,影响文本抽取的效率。
因此,需要提供更快速的文本抽取方法,减少不包含实体的文本对实体抽取的影响。
发明内容
有鉴于此,本说明书实施例提供了一种文本处理方法。本说明书一个或者多个实施例同时涉及一种文本处理装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种文本处理方法,包括:
接收针对待处理文档的文本抽取指令,其中,所述文本抽取指令中携带有参考抽取文本;
解析所述待处理文档,获得所述待处理文档对应的至少一个初始文档段落;
基于所述参考抽取文本在所述至少一个初始文档段落中确定至少一个待处理文档段落;
在所述至少一个待处理文档段落中抽取所述参考抽取文本对应的文本抽取结果。
根据本说明书实施例的第二方面,提供了一种文本处理装置,包括:
接收模块,被配置为接收针对待处理文档的文本抽取指令,其中,所述文本抽取指令中携带有参考抽取文本;
解析模块,被配置为解析所述待处理文档,获得所述待处理文档对应的至少一个初始文档段落;
确定模块,被配置为基于所述参考抽取文本在所述至少一个初始文档段落中确定至少一个待处理文档段落;
抽取模块,被配置为在所述至少一个待处理文档段落中抽取所述参考抽取文本对应的文本抽取结果。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述文本处理方法的步骤。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述文本处理方法的步骤。
根据本说明书实施例的第五方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述文本处理方法的步骤。
本说明书一个实施例提供的文本处理方法,接收针对待处理文档的文本抽取指令,其中,所述文本抽取指令中携带有参考抽取文本;解析所述待处理文档,获得所述待处理文档对应的至少一个初始文档段落;基于所述参考抽取文本在所述至少一个初始文档段落中确定至少一个待处理文档段落;在所述至少一个待处理文档段落中抽取所述参考抽取文本对应的文本抽取结果。
通过对待处理文档进行解析,获得初始文档段落,从而在待处理文档中识别出可以进行信息抽取的内容;基于参考抽取文本在初始文档段落中确定待处理文档段落,从而缩小了信息抽取的范围;在待处理文档段落中进行信息抽取,获得文本抽取结果,从而提升了信息抽取效率。
附图说明
图1是本说明书一个实施例提供的一种文本处理系统的架构图;
图2是本说明书一个实施例提供的一种文本处理方法的流程图;
图3是本说明书一个实施例提供的一种文本处理方法的处理过程流程图;
图4是本说明书一个实施例提供的一种文本处理装置的结构示意图;
图5是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
此外,需要说明的是,本说明书一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
OCR:OCR(opticalcharacterrecognition)光学字符识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程。
IDP:IDP英文全称是IntelligentDocumentProcessing,又称智能文档处理,指使用机器学习(MachineLearning)、深度学习(DeepLearning)、计算机视觉(包括opticalcharacterrecognition,光学字符识别/IntelligentCharacterRecognition,智能字符识别)和自然语言技术(Neuro-LinguisticProgramming),来从结构化和非结构化的文档(如发票、采购订单、年度报告、视频文件、音频、工作表、邮件等)中捕获或提取信息、以及对文档进行处理(比如合并、分割、校正文档,数据去噪、验证、标注、验证)等操作。
文档抽取:从文档中抽取出关键信息或者关键实体。
多模态:文本、视觉、layout等。
文档内检索:根据查询文本对文档中的内容进行相关性检索。
onnx:openneuralnetworkexchange(onnx,开放神经网络交换)格式,是一个用于表示深度学习模型的标准,可使模型在不同框架之间进行转移。
当前的文档AI包括了版面分析、文档结构化、文档信息抽取、文档QA、文档转换、文档比对等技术任务。这些技术任务来自OCR或NLP领域,但在实际场景中处理的文档都是富文本文档VRDs(visuallyrichdocuments),这些文档有着共同的特点:1.图文并茂:视觉和文字信息丰富、表达方式多样且有很强的内在关联,图表、文字相互指代。例如图表、图纸与图注以及相应的文字描述,所以需要多模态相互监督、相互增强。2.版式多样性:格式上,多栏、侧栏以及各种对齐格式的布局;版面上,段落、表格、表单、特殊版式文本(目录、脚注等)、自由文本等更丰富的版面类型频繁出现。3.跨页长文档:长文档会由若干子文档、附件汇总而成,版面会出现跨页、甚至跨多页的情况。这就要求能够结合上下文语义信息对长文档做全局的理解与合并。4.信息重要载体-表格:在文档中,众多有价值的信息都会以表格形式存储,对嵌套表格、长表格、无框表格、异形表格等复杂表格的结构化理解逐渐成为文档结构化中的重要命题,也是下游任务(表格信息抽取)的基础。这让文档AI的技术有别于经典的NLP和OCR技术。长期以来,这些任务采用的都是启发式规则或者特化的机器学习方法,基于单模态设计,彼此差异巨大。完整的文档AI应用涉及到的技术繁杂,研发成本高,复用性和泛化性也堪忧。面对如此复杂的文档,技术已经越来越不能满足项目增长的需要了。
为解决上述问题,本说明书提供的文本处理方法,将文档转换为文本,在对文档进行信息抽取之前,增加检索模块,即基于参考文本在文本内容中查询相关文本,再对相关文本进行信息抽取,减少信息抽取的计算量,从而提升抽取的效率。
在本说明书中,提供了一种文本处理方法,本说明书同时涉及一种文本处理装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了本说明书一个实施例提供的一种文本处理系统的架构图,文本处理系统可以包括客户端100和服务端200;
客户端100,用于向服务端200发送针对待处理文档的文本抽取指令;
服务端200,用于接收针对待处理文档的文本抽取指令,其中,所述文本抽取指令中携带有参考抽取文本;解析所述待处理文档,获得所述待处理文档对应的至少一个初始文档段落;基于所述参考抽取文本在所述至少一个初始文档段落中确定至少一个待处理文档段落;在所述至少一个待处理文档段落中抽取所述参考抽取文本对应的文本抽取结果,并向客户端100发送文本抽取结果;
客户端100,还用于接收服务端200发送的文本抽取结果,并对文本抽取结果进行展示。
具体的,客户端100确定存在信息抽取需求的待处理文档,并生成针对待处理文档的文本抽取指令;将文本处理指令发送至服务端200;服务端200接收针对待处理文档的文本抽取指令后,对待处理文档中的文本内容利用IDP和OCR进行识别,获得至少一个初始文档段落;解析接收到的文本抽取指令,获得参考抽取文本;将参考抽取文本和至少一个初始文档段落输入至检索模型;检索模型中的第一编码器对参考抽取文本进行编码,获得第一编码文本,第二编码器对初始文档段落进行编码,得到第二编码文本;基于第一编码文本和第二编码文本计算各初始文档段落对应的相似度;由检索模型中的筛选模块基于相似度对初始文档段落进行排序,选择预设数量的初始文档段落作为待处理文档段落;将检索得到的待处理文档段落输入信息抽取模型,由信息抽取模型在各待处理文档段落进行信息抽取,获得信息抽取模型输出的文本抽取结果;将文本抽取结果输入至后处理模块,从而确定文本抽取结果在待处理文档中的坐标信息,进而可以基于坐标信息对文本抽取结果在待处理文档中标记。
应用本说明书实施例的方案,接收针对待处理文档的文本抽取指令,其中,所述文本抽取指令中携带有参考抽取文本;解析所述待处理文档,获得所述待处理文档对应的至少一个初始文档段落;基于所述参考抽取文本在所述至少一个初始文档段落中确定至少一个待处理文档段落;在所述至少一个待处理文档段落中抽取所述参考抽取文本对应的文本抽取结果。
通过对待处理文档进行解析,获得初始文档段落,从而在待处理文档中识别出可以进行信息抽取的内容;基于参考抽取文本在初始文档段落中确定待处理文档段落,从而缩小了信息抽取的范围;在待处理文档段落中进行信息抽取,获得文本抽取结果,从而提升了信息抽取效率。
进一步地,客户端100可以称为端侧设备,服务端200可以称为云侧设备。多个客户端100之间通过服务端200可以建立通信连接,在文本处理场景中,服务端200即用来在多个客户端100之间提供信息传输的服务,多个客户端100可以分别作为发送端或接收端,通过服务端200实现通信。
用户通过客户端100可与服务端200进行交互以接收其它客户端100发送的数据,或将数据发送至其它客户端100等。在文本处理场景中,可以是用户通过客户端100向服务端200发布数据流,服务端200根据该数据流生成文本抽取结果,并将文本抽取结果推送至其他建立通信的客户端中。
其中,客户端100与服务端200之间通过网络建立连接。网络为客户端100与服务端200之间提供了通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。客户端100所传输的数据可能需要经过编码、转码、压缩等处理之后才发布至服务端200。
客户端100可以为浏览器、APP(Application,应用程序)、或网页应用如H5(HyperText MarkupLanguage5,超文本标记语言第5版)应用、或轻应用(也被称为小程序,一种轻量级应用程序)或云应用等,客户端100可以基于服务端200提供的相应服务的软件开发工具包(SDK,SoftwareDevelopmentKit),如基于实时通信(RTC,RealTimeCommunication)SDK开发获得等。客户端100可以部署在电子设备中,需要依赖设备运行或者设备中的某些APP而运行等。电子设备例如可以具有显示屏并支持信息浏览等,如可以是个人移动终端如手机、平板电脑、个人计算机等。在电子设备中通常还可以配置各种其它类应用,例如人机对话类应用、模型训练类应用、文本处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
服务端200可以包括提供各种服务的服务器,例如为多个客户端提供通信服务的服务器,又如为客户端上使用的模型提供支持的用于后台训练的服务器,又如对客户端发送的数据进行处理的服务器等。需要说明的是,服务端200可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器也可以是云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,ContentDeliveryNetwork)以及大数据和人工智能平台等基础云计算服务的云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。
值得说明的是,本说明书实施例中提供的文本处理方法一般由服务端执行,但是,在本说明书的其它实施例中,客户端也可以与服务端具有相似的功能,从而执行本说明书实施例所提供的文本处理方法。在其它实施例中,本说明书实施例所提供的文本处理方法还可以是由客户端与服务端共同执行。
参见图2,图2示出了本说明书一个实施例提供的一种文本处理方法的流程图,具体包括以下步骤:
步骤202:接收针对待处理文档的文本抽取指令,其中,所述文本抽取指令中携带有参考抽取文本。
其中,待处理文档是指具备文档抽取需求的文档,例如,合同文档、简历文档等等;文本抽取指令是指在待处理文档中抽取文本的指令,例如,在合同文档中抽取甲方、乙方公司信息、在简历文档中抽取工作经历等等;参考抽取文本是指在待处理文档中抽取文本的参考文本,例如,在合同文档中抽取公司名称,则参考抽取文本可以是“公司”。
具体的,基于用户对待处理文档的信息抽取请求,根据信息抽取请求确定参考抽取文本,并基于参考抽取文本生成文本抽取指令;将文本抽取指令发送至具备信息抽取功能的终端;终端接收针对待处理文档的文本抽取指令,该终端可以是手机、平板电脑、个人计算机、服务器等等,本说明书不做具体限定;在文本抽取指令中包含参考抽取文本,用于后续基于参考抽取文本在待处理文本进行信息抽取。
在本说明书一具体实施方式中,终端接收针对合同文档的文本抽取请求,其中,文档抽取请求携带有参考抽取文本。
通过接收针对待处理文档的文本抽取指令,以便后续基于文本抽取指令的参考抽取文本对待处理文档中的文本进行信息抽取。
进一步地,接收针对待处理文档的文本抽取指令之前,还包括:
获取待处理文档和所述待处理文档对应的参考抽取文本;
基于所述参考抽取文本生成针对所述待处理文档的文本抽取指令。
具体的,接收用户或文档处理任务触发的针对待处理文档的信息抽取请求;响应于信息抽取请求,确定符合所述信息抽取请求的参考抽取文本;基于所述参考抽取文本生成针对待处理文档的文本抽取指令。
在本说明书一具体实施方式中,接收用户抽取合同文档中条款信息的请求,确定合同文档以及条款参考文本;基于条款参考文本生成针对合同文档的文本抽取指令。
通过基于参考抽取文本生成文本抽取指令,以便后续响应于文本抽取指令,基于参考抽取文本对待处理文档中的文本进行信息抽取,从而提升抽取效率。
步骤204:解析所述待处理文档,获得所述待处理文档对应的至少一个初始文档段落。
其中,初始文档段落是指在待处理文档包含的段落,例如,待处理文档为小说文档,则小说文档的初始文档段落可以是50个小说内容的段落。
具体的,响应于文本抽取指令,对待处理文档进行解析,确定待处理文档中包含的文本内容和文本格式;根据文本内容和文本格式,确定待处理文档中包含的至少一个初始文档段落。
在本说明书一具体实施方式中,响应于文本抽取指令,对合同文档进行解析,获得合同文本中的文本内容以及文本格式;基于文本格式在文本内容中划分文本段落,获得待处理文本中包含的多个初始文档段落。
在实际应用中,解析所述待处理文档,获得所述待处理文档对应的至少一个初始文档段落的方法可以包括:
解析所述待处理文档,获得所述待处理文档中的待处理内容;
识别所述待处理内容,获得待处理文本和文档结构信息;
基于所述待处理文本和所述文档结构信息,获取所述待处理文档中的至少一个初始文档段落。
其中,待处理内容是指待处理文本中包含的多媒体资源;待处理内容包括待处理文档中各种类型的多媒体资源,例如,待处理文档的表格内容,待处理文档的图片内容等等;待处理文本是指待处理内容中包含的文本内容,例如,待处理文档的表格中的文本内容、图片中的文本内容等等;文档结构信息是指待处理文本在待处理文档中对应的文档结构,例如,确定待处理文本“甲方应履行义务”和待处理文本“乙方应履行义务”在待处理文档的一个段落中,则可以确定上述待处理文本对应的文档结构信息为划分为同一初始文档段落。
具体的,解析待处理文档,确定待处理文档中包含的待处理内容,包括但不限于表格内容、图片内容等等;识别待处理内容包含的待处理文本和文本结构信息,例如,通过OCR识别确定待处理内容包含的待处理文本,并对待处理文本进行语义分析,获得待处理文本对应的文档结构信息;基于待处理文本和文档结构信息在待处理内容中确定初始文档段落。
在本说明书一具体实施方式中,解析合同文档,确定合同文档中包含图片、表格、段落文本等待处理内容;通过IDP对待处理内容进行识别,获得待处理内容中的待处理文本和文档结构信息;基于待处理文本和文档结构信息确定待处理文档中的初始文档段落。
通过获取待处理文档中至少一个初始文档段落,以便后续在初始文档段落中选取用于进行信息抽取的段落。
步骤206:基于所述参考抽取文本在所述至少一个初始文档段落中确定至少一个待处理文档段落。
其中,待处理文档段落是指在初始文档段落中筛选出的,用于后续进行信息抽取的文档段落。
具体的,对文本抽取指令进行解析,获得文本抽取指令中包含的参考抽取文本;基于参考抽取文本在待处理文档对应的初始文档段落中,筛选与参考抽取文本相关的待处理文档段落。
在实际应用中,基于所述参考抽取文本在所述至少一个初始文档段落中确定至少一个待处理文档段落,包括:
确定所述参考抽取文本与各初始文档段落之间的相似度;
基于各初始文档段落对应的相似度对各初始文档段落进行排序,获得段落排序结果;
在所述段落排序结果中筛选预设数量的初始文档段落,作为待处理文档段落。
其中,相似度是指参考抽取文本与初始文档段落中的文本之间的相似度数值;段落排序结果是指基于相似度对初始文档段落进行排序,获得的初始文档段落的排序结果,例如,基于相似度度由大到小对初始文档段落进行排序,得到段落排序结果为{(初始文档段落1,相似度80%)、(初始文档段落2,相似度70%)、(初始文档段落3,相似度60%)};预设数量是指选取待处理文档段落的总数量,例如,基于用户需求可以将预设数量设置为200,即在初始文档段落中筛选200个待处理文档段落;待处理文档段落是指根据段落排序结果和预设数量,在初始文档段落中筛选出的文档段落。
具体的,分别计算参考抽取文本与各初始文档段落之间的相似度;获得各初始文档段落对应的相似度后,基于相似度对初始文档段落进行排序,例如,基于相似度大小由大到小进行排序,或由小到大进行排序等;通过对初始文档段落进行排序,获得段落排序结果;基于预设数量在段落排序结果筛选预设数量的初始文档段落,作为待处理文档段落,例如,根据段落排序结果,选取相似度大的前十个初始文档段落作为待处理文档段落。
在本说明书一具体实施方式中,基于预设的相似度算法计算参考抽取文本a与初始文档段落1的相似度40%、参考抽取文本a与初始文档段落2的相似度35%以及参考抽取文本a与初始文档段落3的相似度50%;基于初始文档段落对应的相似度,对初始文档段落进行排序,获得段落排序结果为{(初始文档段落3,50%)、(初始文档段落1,40%)、(初始文档段落2,35%)};确定预设数量为1,即在初始文档段落中选取一个文档段落即可,则可以选取相似度较高的初始文档段落3作为待处理文档段落。
需要注意的是,上述实施方式为一种可实现的方式,在实际应用中,初始文档段落可以包含较大的数量,如,50、100个等等;预设数量也可以根据对信息抽取的精度要求进行调整,例如,若对信息抽取的精度要求较低,则可以在50个初始文档段落中选取10个相似度较大的初始文档段落作为待处理文档段落,若对信息抽取信息的精度要求较高,则可以在50个初始文档段落中选取30个相似度较大的初始文档段落作为待处理文档段落。
通过计算参考抽取文本与各初始文档段落之间的相似度,从而可以基于相似度确定初始文档段落与参考抽取文本之间的关联程度;通过相似度对初始文档段落进行排序,进而基于段落排序结果筛选预设数量的待处理文档段落,从而便于后续基于待处理文档段落进行信息抽取,提升信息抽取效率。
在实际应用中,基于所述参考抽取文本在所述至少一个初始文档段落中确定至少一个待处理文档段落的方法可以包括:
将所述参考抽取文本和所述至少一个初始文档段落输入至检索模型;
获取所述检索模型输出的至少一个待处理文档段落。
其中,检索模型是指在初始文档段落中检索待处理文档段落的模型,实际应用中,检索模型为基于样本集预先训练完成的神经网络模型。
具体的,将获取到的参考抽取文本和待处理文档对应的至少一个初始文档段落输入至检索模型;由检索模型在初始文档段落中,基于参考抽取文本进行文档检索,确定初始文档段落中与参考抽取文本较为相近的待处理文档段落。
在本说明书一具体实施方式中,获取预先训练完成的检索模型;将参考抽取文本分别与各初始文档段落生成文本对,将各文本对输入至检索模型;获取检索模型基于输入的文本对,输出的至少一个待处理文档段落。
通过基于预先训练完成的检索模型,实现在初始文档段落中检索待处理文档段落,从而提升筛选待处理文档段落的效率。
在实际应用中,将所述参考抽取文本和所述至少一个初始文档段落输入至检索模型的方法可以包括:
将所述参考抽取文本输入所述检索模型的第一编码器,获取第一编码文本;
将所述至少一个初始文档段落输入所述检索模型的第二编码器,获得各初始文档段落对应的第二编码文本;
将所述第一编码文本和各第二编码文本输入所述检索模型的计算模块,获得所述第一编码文本与各第二编码文本之间的相似度;
将各相似度和各初始文档段落对应的第二编码文本输入所述检索模型的筛选模块。
其中,第一编码器是指对参考抽取文本进行编码的编码器;第二编码器是指对初始文档段落进行编码的编码器;第一编码文本是指对参考抽取文本进行编码获得的文本内容;第二编码文本是指对初始文档段落进行编码获得的文本内容;计算模块是指计算第一编码文本与第二编码文本之间相似度的模块;筛选模块是指根据相似度在第二编码文本中筛选目标第二编码文本的模块;目标第二编码文本是指待处理文档段落对应的第二编码文本。
具体的,检索模型可以是双塔模型,即检索模型中包含两个编码器,第一编码器和第二编码器,由第一编码器对参考抽取文本进行编码,由第二编码器对初始文档段落进行编码;基于编码获得的第一编码文本和第二编码文本,由计算模块计算各初始文档段落对应的相似度;筛选模块基于相似度在第二编码文本中筛选待处理文档段落对应的目标第二编码文本。
在本说明书一具体实施方式中,将参考抽取文本“甲方名称”,各初始文档段落输入至检索模型,包括初始文档段落1、初始文档段落2和初始文档段落3;检索模型的第一编码器对参考抽取文本进行编码,获得第一编码文本;检索模型的第二编码器对各初始文档段落进行编码,获得第二编码文本;计算第一编码文本与各第二编码文本之间的相似度,基于各相似度和第二编码文本,在第二编码文本中选择初始文档段落2对应的目标第二编码文本,并将初始文档段落2作为待处理文档段落。
通过检索模型实现对待处理文档段落的筛选,提升了筛选效率,节省了计算资源。
在实际应用中,获取检索模型进行段落筛选之前,需要对检索模型进行训练,具体的,所述检索模型可以通过下述步骤训练获得:
获取目标样本对,其中,所述目标样本对中包含目标参考文本和目标样本文本,所述目标样本对携带有相似度标签;
将所述目标样本对输入至所述检索模型,获取预测相似度;
根据所述相似度标签和所述预测相似度计算模型损失值;
基于所述模型损失值对所述检索模型进行训练,直至达到模型训练停止条件,获得训练完成的检索模型。
其中,目标样本对是指由目标参考文本和目标样本文本组成的数据对;目标参考文本是指用于对检索模型进行训练的参考抽取文本;目标样本文本是指用于检索模型进行训练的初始文档段落;相似度标签是指目标参考文本与目标样本文本之间的相似度数值;预设相似度是指检索模型计算出的目标参考文本与目标样本文本之间的相似度。
具体的,在训练样本集中选取任一目标样本对,其中,训练样本集中包含至少一个目标样本对,各目标样本对均由目标参考文本和目标样本文本组成,并携带有相似度标签;将目标样本对输入检索模型中,获取检索模型输出的预测相似度;基于预测相似度和目标样本对的相似度标签,计算检索模型的模型损失值;基于模型损失值对检索模型进行训练,直至获得训练完成的检索模型。
进一步地,为了提升检索模型的检索准确度,本说明书的目标样本对同一文档中进行正负样本的提取。
具体的,获取目标样本对的方法可以包括:
获取第一目标参考文本、第二目标参考文本和目标样本文档;
基于所述第一目标参考文本在所述目标样本文档中,获取所述第一目标参考文本对应的第一正样本文本和第一负样本文本;
根据所述第一正样本文本和所述第一负样本文本,在所述目标样本文档中确定参考样本文本,其中,所述参考样本文本是指所述目标样本文档中除所述第一正样本文本和所述第一负样本文本之外的文本;
基于所述第二目标参考文本在所述参考样本文本中,获取所述第二目标参考文本对应的第二正样本文本和第二负样本文本。
其中,目标样本文档是指基于目标参考文本,获取到对应的正样本和负样本的文档;第一目标参考文本是指不同于第二目标参考文本的参考抽取文本;第二目标参考文本是指不同于第一目标参考文本的参考抽取文本;例如,确定第一目标参考文本为“甲方名称”、确定第二目标参考文本为“乙方名称”;第一正样本文本是指第一目标参考文本对应的正样本,第一负样本是指第二目标参考文本对应的负样本;参考样本文本是指目标样本文档中不包含第一正样本文本和第一负样本文本的文本;第二正样本文本是指第二目标参考文本对应的正样本,第二负样本文本是指第二目标参考文本对应的负样本。
在本说明书一具体实施方式中,确定第一目标参考文本“甲方名称”、第二目标参考文本“乙方名称”以及目标样本文档“合同文档”;基于“甲方名称”在“合同文档”筛选与“甲方名称”较为相关的文本作为第一正样本文本,将相关度较低的文本作为第一负样本文本;在“合同文档”中确定第一正样本文本和第一负样本文本后,确定“合同文档”中剩余的文本作为参考样本文本;再基于“乙方名称”在参考样本文本中获取第二正样本文本和第二负样本文本;基于第一目标参考文本和对应的第一正样本文本、第一负样本文本生成目标样本对;基于第二目标参考文本和对应的第二正样本文本、第二负样本文本生成目标样本对;将生成的样本对添加至检索模型的训练样本集中。
通过在目标样本文档中获取第一正样本文本、第一负样本文本以及第二正样本文本、第二负样本文本,避免了在目标样本文档中获取到第一正样本文本后,将目标样本文档中剩余的文本均作为第一负样本文本,或第二负样本文本,从而提升了样本准确度,进而便于基于目标样本对训练获得检索准确度更高的检索模型。
需要注意的是,上述步骤缩减了后续信息抽取的计算量,但为了保证后续的信息抽取效果,还需要通过对检索模型裁剪、利用onnx加速等,缩减检索模型的计算时间,从而保证信息抽取的处理效率;例如,通过将检索模型裁剪为不同规格,并记录不同规格下检索模型的处理时长,从而选取使用时长较小的模型规格,作为检索模型的模型规格。
步骤208:在所述至少一个待处理文档段落中抽取所述参考抽取文本对应的文本抽取结果。
其中,文本抽取结果是指对待处理文档中进行信息抽取,获得的信息抽取结果。
具体的,在所述至少一个待处理文档段落中抽取所述参考抽取文本对应的文本抽取结果的方法可以包括:
基于所述文本抽取指令,确定目标抽取任务;
根据所述目标抽取任务,在各待处理文档段落中抽取所述参考抽取文本对应的文本抽取结果。
其中,目标抽取任务是指在文本抽取指令中解析出的抽取任务,例如,目标抽取任务为实体抽取任务、关系抽取任务、事件抽取任务中的一个或多个任务构成。
具体的,对接收到的文本抽取指令进行解析,获得文本抽取指令对应的目标抽取任务;根据目标抽取任务,在上述筛选出的待处理文档中进行信息抽取,获得文本抽取结果。
在本说明书一具体实施方式中,对文本抽取指令进行解析,获得实体抽取任务;基于实体抽取任务在待处理文档段落中抽取文本中包含的实体信息,将抽取的实体信息作为文本抽取结果。
进一步地,根据所述目标抽取任务,在各待处理文档段落中抽取所述参考抽取文本对应的文本抽取结果的方法可以包括:
将所述目标抽取任务和各待处理文档段落输入信息抽取模型;
获取所述信息抽取模型,基于所述目标抽取任务和各待处理文档段落输出的文本抽取结果。
其中,信息抽取模型是指对待处理文档段落进行信息抽取的神经网络模型。
在本说明书一具体实施方式中,在确定目标抽取任务为实体抽取任务后,将实体抽取任务和待处理文档段落输入至信息抽取模型;信息抽取模型基于实体抽取任务,在待处理文档段落中进行实体抽取,获得文本抽取结果。
通过信息抽取模型实现对文本抽取结果的获得,提升了对待处理文档段落进行信息抽取的抽取效率。
进一步地,为了便于对文本抽取结果进行展示,在所述至少一个待处理文档段落中抽取所述参考抽取文本对应的文本抽取结果之后,还包括:
确定所述文本抽取结果在所述待处理文档中的文本坐标信息;
基于所述文本坐标信息,在所述待处理文档中标记所述文本抽取结果。
其中,文本坐标信息是指文本抽取结果中文本在待处理文档中的位置。
具体的,根据文本抽取结果确定待处理文档中抽取的文本,并确定文本对应的文本坐标信息;基于文本坐标信息在待处理文档中标记文本,如,对文本进行高亮展示,调整文本的字体颜色等等。
在本说明书一具体实施方式中,确定文本抽取结果为“甲方名称”;确定“甲方名称”在待处理文本中的位置坐标;基于位置坐标在待处理文档中对“甲方名称”进行标记,具体为将“甲方名称”底纹调整至黄色。
本说明书的文本处理方法,接收针对待处理文档的文本抽取指令,其中,所述文本抽取指令中携带有参考抽取文本;解析所述待处理文档,获得所述待处理文档对应的至少一个初始文档段落;基于所述参考抽取文本在所述至少一个初始文档段落中确定至少一个待处理文档段落;在所述至少一个待处理文档段落中抽取所述参考抽取文本对应的文本抽取结果。
通过对待处理文档进行解析,获得初始文档段落,从而在待处理文档中识别出可以进行信息抽取的内容;基于参考抽取文本在初始文档段落中确定待处理文档段落,从而缩小了信息抽取的范围;在待处理文档段落中进行信息抽取,获得文本抽取结果,从而提升了信息抽取效率。
下述结合附图3,以本说明书提供的文本处理方法在合同文档的应用为例,对所述文本处理方法进行进一步说明。其中,图3示出了本说明书一个实施例提供的一种文本处理方法的处理过程流程图,具体包括以下步骤:
步骤302:接收针对合同文档的文本抽取指令,其中,所述文本抽取指令中携带有参考抽取文本。
步骤304:解析所述合同文档,获得所述合同文档中的至少一个初始文档段落。
具体的,利用IDF对合同文档的内容进行解析和识别,确定合同文档中的至少一个初始文档段落。
步骤306:将所述参考抽取文本和所述至少一个初始文档段落输入至检索模型。
具体的,检索模型为预先训练完成的,具备检索功能的模型;将所述参考抽取文本输入所述检索模型的第一编码器,获取第一编码文本;将所述至少一个初始文档段落输入所述检索模型的第二编码器,获得各初始文档段落对应的第二编码文本;将所述第一编码文本和各第二编码文本输入所述检索模型的计算模块,获得所述第一编码文本与各第二编码文本之间的相似度;将各相似度和各初始文档段落对应的第二编码文本输入所述检索模型的筛选模块。
步骤308:获取所述检索模型输出的至少一个待处理文档段落。
具体的,获取筛选模块输出的至少一个第二编码文本,并将第二编码文本对应的初始文档段落作为待处理文档段落。
步骤310:解析文本抽取指令,获得目标抽取任务。
步骤312:将所述目标抽取任务和各待处理文档段落输入信息抽取模型。
步骤314:获取所述信息抽取模型,基于所述目标抽取任务和各待处理文档段落输出的文本抽取结果。
本说明书的文本处理方法,接收针对合同文档的文本抽取指令,其中,所述文本抽取指令中携带有参考抽取文本;解析所述合同文档,获得所述合同文档对应的至少一个初始文档段落;基于所述参考抽取文本在所述至少一个初始文档段落中确定至少一个待处理文档段落;在所述至少一个待处理文档段落中抽取所述参考抽取文本对应的文本抽取结果。
通过对合同文档进行解析,获得初始文档段落,从而在合同文档中识别出可以进行信息抽取的内容;基于参考抽取文本在初始文档段落中确定待处理文档段落,从而缩小了信息抽取的范围;在待处理文档段落中进行信息抽取,获得文本抽取结果,从而提升了信息抽取效率。
与上述方法实施例相对应,本说明书还提供了文本处理装置实施例,图4示出了本说明书一个实施例提供的一种文本处理装置的结构示意图。如图4所示,该装置包括:
接收模块402,被配置为接收针对待处理文档的文本抽取指令,其中,所述文本抽取指令中携带有参考抽取文本;
解析模块404,被配置为解析所述待处理文档,获得所述待处理文档对应的至少一个初始文档段落;
确定模块406,被配置为基于所述参考抽取文本在所述至少一个初始文档段落中确定至少一个待处理文档段落;
抽取模块408,被配置为在所述至少一个待处理文档段落中抽取所述参考抽取文本对应的文本抽取结果。
可选地,所述解析模块404,进一步被配置为:
解析所述待处理文档,获得所述待处理文档中的待处理内容;
识别所述待处理内容,获得待处理文本和文档结构信息;
基于所述待处理文本和所述文档结构信息,获取所述待处理文档中的至少一个初始文档段落。
可选地,所述确定模块406,进一步被配置为:
确定所述参考抽取文本与各初始文档段落之间的相似度;
基于各初始文档段落对应的相似度对各初始文档段落进行排序,获得段落排序结果;
在所述段落排序结果中筛选预设数量的初始文档段落,作为待处理文档段落。
可选地,所述确定模块406,进一步被配置为:
将所述参考抽取文本和所述至少一个初始文档段落输入至检索模型;
获取所述检索模型输出的至少一个待处理文档段落。
可选地,所述确定模块406,进一步被配置为:
将所述参考抽取文本输入所述检索模型的第一编码器,获取第一编码文本;
将所述至少一个初始文档段落输入所述检索模型的第二编码器,获得各初始文档段落对应的第二编码文本;
将所述第一编码文本和各第二编码文本输入所述检索模型的计算模块,获得所述第一编码文本与各第二编码文本之间的相似度;
将各相似度和各初始文档段落对应的第二编码文本输入所述检索模型的筛选模块。
可选地,所述装置还包括训练模块,被配置为:
获取目标样本对,其中,所述目标样本对中包含目标参考文本和目标样本文本,所述目标样本对携带有相似度标签;
将所述目标样本对输入至所述检索模型,获取预测相似度;
根据所述相似度标签和所述预测相似度计算模型损失值;
基于所述模型损失值对所述检索模型进行训练,直至达到模型训练停止条件,获得训练完成的检索模型。
可选地,所述训练模块,进一步被配置为:
获取第一目标参考文本、第二目标参考文本和目标样本文档;
基于所述第一目标参考文本在所述目标样本文档中,获取所述第一目标参考文本对应的第一正样本文本和第一负样本文本;
根据所述第一正样本文本和所述第一负样本文本,在所述目标样本文档中确定参考样本文本,其中,所述参考样本文本是指所述目标样本文档中除所述第一正样本文本和所述第一负样本文本之外的文本;
基于所述第二目标参考文本在所述参考样本文本中,获取所述第二目标参考文本对应的第二正样本文本和第二负样本文本。
可选地,所述抽取模块408,进一步被配置为:
基于所述文本抽取指令,确定目标抽取任务;
根据所述目标抽取任务,在各待处理文档段落中抽取所述参考抽取文本对应的文本抽取结果。
可选地,所述抽取模块408,进一步被配置为:
将所述目标抽取任务和各待处理文档段落输入信息抽取模型;
获取所述信息抽取模型,基于所述目标抽取任务和各待处理文档段落输出的文本抽取结果。
可选地,所述装置还包括生成模块,被配置为:
获取待处理文档和所述待处理文档对应的参考抽取文本;
基于所述参考抽取文本生成针对所述待处理文档的文本抽取指令。
可选地,所述装置还包括标记模块,被配置为:
确定所述文本抽取结果在所述待处理文档中的文本坐标信息;
基于所述文本坐标信息,在所述待处理文档中标记所述文本抽取结果。
本说明书的文本处理装置,接收针对待处理文档的文本抽取指令,其中,所述文本抽取指令中携带有参考抽取文本;解析所述待处理文档,获得所述待处理文档对应的至少一个初始文档段落;基于所述参考抽取文本在所述至少一个初始文档段落中确定至少一个待处理文档段落;在所述至少一个待处理文档段落中抽取所述参考抽取文本对应的文本抽取结果。
通过对待处理文档进行解析,获得初始文档段落,从而在待处理文档中识别出可以进行信息抽取的内容;基于参考抽取文本在初始文档段落中确定待处理文档段落,从而缩小了信息抽取的范围;在待处理文档段落中进行信息抽取,获得文本抽取结果,从而提升了信息抽取效率。
上述为本实施例的一种文本处理装置的示意性方案。需要说明的是,该文本处理装置的技术方案与上述的文本处理方法的技术方案属于同一构思,文本处理装置的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
图5示出了本说明书一个实施例提供的一种计算设备的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接,数据库550用于保存数据。
计算设备500还包括接入设备540,接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN,PublicSwitchedTelephoneNetwork)、局域网(LAN,LocalAreaNetwork)、广域网(WAN,WideArea Network)、个域网(PAN,PersonalAreaNetwork)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,NetworkInterfaceCard))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocalAreaNetworks)无线接口、全球微波互联接入(Wi-MAX,World InteroperabilityforMicrowaveAccess)接口、以太网接口、通用串行总线(USB,UniversalSerialBus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,NearField Communication)接口,等等。
在本说明书的一个实施例中,计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图5所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备500可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(PC,PersonalComputer)的静止计算设备。计算设备500还可以是移动式或静止式的服务器。
其中,处理器520用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述文本处理方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文本处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述文本处理方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述文本处理方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的文本处理方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (14)

1.一种文本处理方法,包括:
接收针对待处理文档的文本抽取指令,其中,所述文本抽取指令中携带有参考抽取文本;
解析所述待处理文档,获得所述待处理文档对应的至少一个初始文档段落;
基于所述参考抽取文本在所述至少一个初始文档段落中确定至少一个待处理文档段落;
在所述至少一个待处理文档段落中抽取所述参考抽取文本对应的文本抽取结果。
2.如权利要求1所述的方法,解析所述待处理文档,获得所述待处理文档对应的至少一个初始文档段落,包括:
解析所述待处理文档,获得所述待处理文档中的待处理内容;
识别所述待处理内容,获得待处理文本和文档结构信息;
基于所述待处理文本和所述文档结构信息,获取所述待处理文档中的至少一个初始文档段落。
3.如权利要求1所述的方法,基于所述参考抽取文本在所述至少一个初始文档段落中确定至少一个待处理文档段落,包括:
确定所述参考抽取文本与各初始文档段落之间的相似度;
基于各初始文档段落对应的相似度对各初始文档段落进行排序,获得段落排序结果;
在所述段落排序结果中筛选预设数量的初始文档段落,作为待处理文档段落。
4.如权利要求1所述的方法,基于所述参考抽取文本在所述至少一个初始文档段落中确定至少一个待处理文档段落,包括:
将所述参考抽取文本和所述至少一个初始文档段落输入至检索模型;
获取所述检索模型输出的至少一个待处理文档段落。
5.如权利要求4所述的方法,将所述参考抽取文本和所述至少一个初始文档段落输入至检索模型,包括:
将所述参考抽取文本输入所述检索模型的第一编码器,获取第一编码文本;
将所述至少一个初始文档段落输入所述检索模型的第二编码器,获得各初始文档段落对应的第二编码文本;
将所述第一编码文本和各第二编码文本输入所述检索模型的计算模块,获得所述第一编码文本与各第二编码文本之间的相似度;
将各相似度和各初始文档段落对应的第二编码文本输入所述检索模型的筛选模块。
6.如权利要求4所述的方法,所述检索模型通过下述步骤训练获得:
获取目标样本对,其中,所述目标样本对中包含目标参考文本和目标样本文本,所述目标样本对携带有相似度标签;
将所述目标样本对输入至所述检索模型,获取预测相似度;
根据所述相似度标签和所述预测相似度计算模型损失值;
基于所述模型损失值对所述检索模型进行训练,直至达到模型训练停止条件,获得训练完成的检索模型。
7.如权利要求6所述的方法,获取目标样本对,包括:
获取第一目标参考文本、第二目标参考文本和目标样本文档;
基于所述第一目标参考文本在所述目标样本文档中,获取所述第一目标参考文本对应的第一正样本文本和第一负样本文本;
根据所述第一正样本文本和所述第一负样本文本,在所述目标样本文档中确定参考样本文本,其中,所述参考样本文本是指所述目标样本文档中除所述第一正样本文本和所述第一负样本文本之外的文本;
基于所述第二目标参考文本在所述参考样本文本中,获取所述第二目标参考文本对应的第二正样本文本和第二负样本文本。
8.如权利要求1所述的方法,在所述至少一个待处理文档段落中抽取所述参考抽取文本对应的文本抽取结果,包括:
基于所述文本抽取指令,确定目标抽取任务;
根据所述目标抽取任务,在各待处理文档段落中抽取所述参考抽取文本对应的文本抽取结果。
9.如权利要求8所述的方法,根据所述目标抽取任务,在各待处理文档段落中抽取所述参考抽取文本对应的文本抽取结果,包括:
将所述目标抽取任务和各待处理文档段落输入信息抽取模型;
获取所述信息抽取模型,基于所述目标抽取任务和各待处理文档段落输出的文本抽取结果。
10.如权利要求1所述的方法,接收针对待处理文档的文本抽取指令之前,还包括:
获取待处理文档和所述待处理文档对应的参考抽取文本;
基于所述参考抽取文本生成针对所述待处理文档的文本抽取指令。
11.如权利要求1所述的方法,在所述至少一个待处理文档段落中抽取所述参考抽取文本对应的文本抽取结果之后,还包括:
确定所述文本抽取结果在所述待处理文档中的文本坐标信息;
基于所述文本坐标信息,在所述待处理文档中标记所述文本抽取结果。
12.一种文本处理装置,包括:
接收模块,被配置为接收针对待处理文档的文本抽取指令,其中,所述文本抽取指令中携带有参考抽取文本;
解析模块,被配置为解析所述待处理文档,获得所述待处理文档对应的至少一个初始文档段落;
确定模块,被配置为基于所述参考抽取文本在所述至少一个初始文档段落中确定至少一个待处理文档段落;
抽取模块,被配置为在所述至少一个待处理文档段落中抽取所述参考抽取文本对应的文本抽取结果。
13.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至11任意一项所述方法的步骤。
14.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至11任意一项所述方法的步骤。
CN202310664648.8A 2023-06-06 2023-06-06 文本处理方法以及装置 Pending CN116956917A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310664648.8A CN116956917A (zh) 2023-06-06 2023-06-06 文本处理方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310664648.8A CN116956917A (zh) 2023-06-06 2023-06-06 文本处理方法以及装置

Publications (1)

Publication Number Publication Date
CN116956917A true CN116956917A (zh) 2023-10-27

Family

ID=88450150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310664648.8A Pending CN116956917A (zh) 2023-06-06 2023-06-06 文本处理方法以及装置

Country Status (1)

Country Link
CN (1) CN116956917A (zh)

Similar Documents

Publication Publication Date Title
CN107451126B (zh) 一种近义词筛选方法及系统
CN107392143B (zh) 一种基于svm文本分类的简历精确解析方法
KR20220133141A (ko) 텍스트 추출 방법, 텍스트 추출 모델 트레이닝 방법, 장치 및 기기
CN101079031A (zh) 一种网页主题提取系统和方法
US11055373B2 (en) Method and apparatus for generating information
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN110765740B (zh) 一种基于dom树的全类型文本替换方法、系统、装置及存储介质
CN115982376B (zh) 基于文本、多模数据和知识训练模型的方法和装置
CN112347339A (zh) 一种搜索结果处理方法及装置
CN115687572A (zh) 一种数据信息的检索方法、装置、设备及存储介质
CN110175288B (zh) 一种面向青少年群体的文字和图像数据的过滤方法及系统
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN116523041A (zh) 装备领域知识图谱构建方法、检索方法、系统及电子设备
CN116956068A (zh) 基于规则引擎的意图识别方法、装置、电子设备及介质
CN116610781A (zh) 任务模型训练方法以及装置
CN116956917A (zh) 文本处理方法以及装置
CN114398903B (zh) 意图识别方法、装置、电子设备及存储介质
CN116467500B (zh) 数据关系识别、自动问答、查询语句生成方法
Feng et al. Sequence-to-Sequence Pre-training with Unified Modality Masking for Visual Document Understanding
CN116522014B (zh) 数据处理方法及装置
CN116595154B (zh) 任务处理方法以及自动问答方法
CN117851557A (zh) 模型处理方法及问答系统
CN116680245A (zh) 任务处理方法、数据补充方法以及任务处理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination