CN117236314B - 支持超长答案的信息抽取方法、系统、装置和存储介质 - Google Patents
支持超长答案的信息抽取方法、系统、装置和存储介质 Download PDFInfo
- Publication number
- CN117236314B CN117236314B CN202311463402.0A CN202311463402A CN117236314B CN 117236314 B CN117236314 B CN 117236314B CN 202311463402 A CN202311463402 A CN 202311463402A CN 117236314 B CN117236314 B CN 117236314B
- Authority
- CN
- China
- Prior art keywords
- text
- paragraph
- information
- paragraphs
- spliced
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 104
- 238000000034 method Methods 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims description 64
- 238000002372 labelling Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 238000010801 machine learning Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000007787 long-term memory Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 9
- 238000005457 optimization Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本说明书实施例提供一种支持超长答案的信息抽取方法、系统、装置和存储介质,该方法包括基于待处理文本,确定段落特征信息;基于段落特征信息,通过以段落为粒度的信息抽取模型确定目标段落位置。本说明书实施例通过信息抽取模型对段落特征信息进行处理,有助于从大量的文本内容中抽取特定内容,实现对超长答案的快速提取,有效面对多答案、答案字符超长的情况,提高抽取准确率和效率。
Description
技术领域
本说明书涉及机器阅读理解领域,特别涉及一种支持超长答案的信息抽取方法、系统、装置和存储介质。
背景技术
机器阅读理解是根据问题从文本中自动地抽取答案的任务。目前主流的自然语言处理模型只适合抽取答案小于固定字符长度的数据。然而,在金融、律法等领域的答案抽取任务中,需要抽取的答案字符长度往往是该固定字符长度的几倍或几十倍等。
有鉴于此,希望提出一种支持超长答案的信息抽取方法、系统、装置和存储介质,以有效面对多答案、答案字符超长的情况,提高抽取准确率和效率。
发明内容
为了解决难以抽取文本中包含多答案、答案字符超长的问题,本发明旨在提出一种支持超长答案的信息抽取方法、系统、装置和存储介质,以有效面对多答案、答案字符超长的情况,提高抽取准确率和效率。
本发明内容之一提供一种支持超长答案的信息抽取方法,所述方法包括:基于待处理文本,确定段落特征信息,所述待处理文本包括多个文本段落;基于所述段落特征信息,通过信息抽取模型确定目标段落位置,所述信息抽取模型为序列标注模型。
本发明内容之一提供一种支持超长答案的信息抽取系统,所述系统包括:预处理模块,用于基于待处理文本,确定段落特征信息,所述待处理文本包括多个文本段落;抽取模块,用于基于所述段落特征信息,通过以段落为粒度的信息抽取模型确定目标段落位置,所述信息抽取模型为序列标注模型。
本发明内容之一提供一种支持超长答案的信息抽取装置,所述装置包括处理器,所述处理器用于执行支持超长答案的信息抽取方法。
本发明内容之一提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行支持超长答案的信息抽取方法。
本发明内容至少包括以下有益效果:通过信息抽取模型对段落特征信息进行处理,可以利用机器学习模型的自学习能力,从大量数据中找到规律,获取到段落特征信息与目标段落位置之间的关联关系,提高确定目标段落位置的准确度和效率,有助于从大量的文本内容中抽取特定内容,实现对答案的快速提取。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书一些实施例所示的信息抽取系统的示例性模块图;
图2是根据本说明书一些实施例所示的信息抽取方法的示例性流程图;
图3是根据本说明书一些实施例所示的确定段落特征信息的示例性示意图;
图4是根据本说明书一些实施例所示的确定语义向量的示例性示意图;
图5是根据本说明书一些实施例所示的注意力掩码的示例性示意图;
图6是根据本说明书一些实施例所示的信息抽取方法的示例性示意图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
图1是根据本说明书一些实施例所示的信息抽取系统的示例性模块图。在一些实施例中,信息抽取系统100可以包括预处理模块110和抽取模块120。在一些实施例中,预处理模块110和抽取模块120可以由处理器实现。
在一些实施例中,预处理模块110可以用于基于待处理文本确定段落特征信息。
在一些实施例中,预处理模块110可以基于文本信息,生成语义向量;基于布局信息,生成布局向量;基于语义向量和布局向量,确定段落特征信息。
在一些实施例中,预处理模块110可以将多个文本段落拼接,形成拼接段落,所述拼接段落的总字符长度不超过预设字符长度;对拼接段落进行编码,确定位置编码,所述位置编码包括段落分割码和序位码,所述序位码反映所述拼接段落包含的文本段落从开始字符到结束字符的字符位置;将拼接段落和位置编码输入语义提取模型,批量生成至少一个文本段落对应的语义向量。
在一些实施例中,预处理模块110可以基于初始文本,通过文本解析模型和/或文本解析算法生成待处理文本,所述文本解析模型为机器学习模型。
在一些实施例中,抽取模块120可以用于基于段落特征信息,通过以段落为粒度的信息抽取模型确定目标段落位置。
关于各个模块的详细说明可参见图2-图4及其相关描述。
需要注意的是,以上对于信息抽取系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。在一些实施例中,图1中披露的预处理模块110和抽取模块120可以是一个系统中的不同模块,也可以是一个模块实现上述的两个或两个以上模块的功能。例如,各个模块可以共用一个存储模块,各个模块也可以分别具有各自的存储模块。诸如此类的变形,均在本说明书的保护范围之内。
图2是根据本说明书一些实施例所示的信息抽取方法的示例性流程图。在一些实施例中,流程200可以由处理器执行。如图2所示,流程200包括下述步骤。
步骤210,基于待处理文本,确定段落特征信息。
待处理文本是指待用于进行信息抽取的文本。例如,待处理文本可以包含一种或多种字体类型、一种或多种字体大小的文字内容、标点符号等。关于信息抽取的更多说明参见后文。
在一些实施例中,待处理文本可以包括多个文本段落。其中,文本段落可以包括一个或多个句子。
在一些实施例中,待处理文本可以包括多个文本段落的文本信息和布局信息。
文本信息是指与文本相关的信息。例如,文本信息可以包括文字内容、文字类型等。其中,文字类型可以包括但不限于中文、英文、日文、韩文、意大利文等。
布局信息是指与文本在段落中的编排有关的信息。布局信息可以包括文本的字体类型、字体大小、标点符号、文本所在页面的起始文本坐标和结尾文本坐标、文本所在页面的页码等。其中,文本所在页面的起始文本坐标和结尾文本坐标可以根据起始文本和结尾文本在预设坐标系中的位置坐标确定。预设坐标系可以是任何合适的坐标系,预设坐标系的原点可以位于页面的任意位置(例如,页面左上角、页面右下角等)处。仅作为示例,预设坐标系可以是具有X轴、Y轴的二维坐标系。X轴可以与页面中文字排列的方向平行,Y轴可以垂直于X轴。
在一些实施例中,处理器可以通过多种方式获取待处理文本。例如,处理器可以从存储设备中读取待处理文本。其中,所述存储设备可以是信息抽取系统自带的存储设备,也可以是不属于信息抽取系统的外部存储设备,例如,硬盘、光盘等。在一些实施例中,处理器可以通过接口读取待处理文本,所述接口包括但不限于程序接口、数据接口、传输接口等。在一些实施例中,信息抽取系统工作时,可以自动从所述接口中提取待处理文本。在一些实施例中,信息抽取系统可以被外部其他设备或系统调用,在调用时待处理文本被传递给信息抽取系统。
参见图6,在一些实施例中,处理器可以基于初始文本,通过文本解析模型和/或文本解析算法生成待处理文本。
初始文本是指用于确定待处理文本的文本数据。初始文本可以是多种形式。在一些实施例中,初始文本可以包括PDF文档、Word文档、纸质文档扫描件等。
文本解析模型指用于解析初始文本的计算模型。在一些实施例中,文本解析模型包括机器学习模型等。
文本解析算法指用于解析初始文本的计算规则以及方法。在一些实施例中,文本解析算法包括目标检测算法、图像分割算法、光学字符识别(Optical CharacterRecognition, OCR)算法等。例如,处理器可以通过图像分割算法进行文档布局分析、版面分析等,再利用OCR算法进行文字识别等,以对初始文本进行解析,得到待处理文本。
在一些实施例中,处理器可以通过文本解析模型和/或文本解析算法对初始文本进行解析,生成待处理文本。在一些实施例中,还可以采用本领域技术人员熟知的任意方式获取待处理文本,本说明书对此不做限制。
本说明书一些实施例中,通过对初始文本进行解析获取待处理文本,可以有效解决计算机难以识别的文档格式(例如PDF文档等)的抽取问题。
段落特征信息是指描述段落的一个或多个特征的信息。例如,段落特征信息可以包括描述段落的语义、布局等方面的特征。
在一些实施例中,处理器可以通过多种方式对待处理文本进行处理,确定段落特征信息。例如,处理器可以通过任意可行的方式确定待处理文本的句子数量、词汇数量、字符数量、平均词汇长度、停用词数量、特殊字符数量、数字数量、大写字母数量等。其中,停用词是指对句子语义没有影响的词汇。例如,英文中的“a”、“their”、“the”等。特殊字符可以是“%”、“@”等符号。
参见图6,在一些实施例中,针对待处理文本中包含的多个文本段落中的其中一个文本段落,处理器可以确定该文本段落包含的文本信息对应的语义向量,以及该文本段落包含的布局信息对应的布局向量。在一些实施例中,每个文本段落可以对应确定一个或多个语义向量、一个或多个布局向量。
参见图3,在一些实施例中,处理器可以基于文本段落310包含的文本信息311,生成语义向量320;基于文本段落310包含的布局信息312,生成布局向量330;基于语义向量320和布局向量330,确定段落特征信息340。
语义向量是指用于表示文本语义的特征向量。
在一些实施例中,处理器可以基于文本信息,通过多种方式确定语义向量。
在一些实施例中,处理器可以基于现成的语义提取模型对文本信息进行处理,确定对应的语义向量。现成的语义提取模型包括RoBERTa模型、BERT(Bidirectional EncoderRepresentation from Transformers)模型、XL-Net模型、ALBERT(A Lite BERT)模型等。本说明书实施例对现成的语义提取模型没有特殊的限定,采用本领域技术人员熟知的模型类型即可。
关于确定语义向量的更多说明参见图4及其相关描述。
布局向量是指用于表示布局信息的特征向量。
在一些实施例中,处理器可以基于布局信息,通过多种方式确定布局向量。在一些实施例中,处理器可以对布局信息进行归一化处理,得到对应的布局向量。其中,归一化处理可以是Min-Max归一化、Z-Score归一化、对数归一化、单位向量归一化中的任意一种或其组合。例如,处理器可以对布局信息中的字号大小、字体类型、页码、段落左上点和右下点对应的坐标共5维特征进行归一化处理,得到对应的布局向量。
在一些实施例中,处理器可以通过其他方式基于布局信息生成布局向量。例如,将布局信息按照预设顺序进行排列得到布局向量。仅作为示例,布局向量可以是[a,b,c,d,e],其中的每一个元素代表一种布局信息(如字体、字号、页码、坐标等)。本说明书对此不做限制。
在一些实施例中,处理器可以基于语义向量、布局向量,通过多种方式确定段落特征信息。
在一些实施例中,处理器可以分别将语义向量与布局向量进行拼接,确定段落特征信息。例如,处理器可以将属于同一文本段落的语义向量和布局向量,在特征维度上进行拼接,得到带有布局信息的语义向量作为段落特性信息。
本说明书的一些实施例中,通过对待处理文本的文本信息、布局信息分别提取语义向量、布局向量,并基于语义向量、布局向量确定段落特征信息,可以准确地得到与待处理文本相符的段落特征信息,以确保后续确定的文本标注信息准确。
步骤220,基于段落特征信息,通过以段落为粒度的信息抽取模型确定目标段落位置。
参见图6,在本实例中,处理器可以利用信息抽取模型对待处理文本的特定段落进行抽取,得到目标段落位置。
目标段落位置是指根据问题从待处理文本中抽取的答案的位置。
在一些实施例中,处理器可以基于BIOES标注方法对段落进行标记,例如BIE表示连续的几段,S表示单独的段落,其余情况可以标注O。又例如,对于一份诉讼公告,第一、二、三段讲了一个案件,第四段讲了一个案件,第五段为案件总结,需要抽取案件的描述而不要案件总结,则根据段落抽取的标记为:B-案件描述,I-案件描述,E-案件描述,S-案件描述,O。在一些实施例中,也可以采用其他标注方法进行标注,例如BILOU、BIO等标注方法,在此不做限制。
信息抽取模型是用于进行特定内容抽取的模型。在一些实施例中,信息抽取模型可以为下文中自定义结构的机器学习模型。信息抽取模型还可以是其他结构的机器学习模型,例如神经网络模型等。
在一些实施例中,信息抽取模型可以基于长短期记忆网络(Long Short-TermMemory,LSTM)层和条件随机场算法(Conditional Random Field,CRF)层联合训练得到。其中,LSTM层可以基于待处理文本的段落特征信息进行文本标注,LSTM层的输出(即文本标注结果)可以为每个单词或字符对应于每个标签的概率得分。其中,标签可以是BIOES类型的标签等。LSTM层的输出可以作为CRF层的输入,CRF层可以对LSTM层的输出提供辅助,加强文本标注的逻辑顺序,CRF层的输出可以是目标段落位置。例如,对于某一字符x,标注方法采用“BIO”时,LSTM层的输出的概率得分可以为1.5(B-person)、0.9(I-person)、0.09(B-organization)、0.08(I-organization)、0.05(O)。
在一些实施例中,信息抽取模型可以基于双向长短期记忆网络(BidirectionalLong Short-Term Memory,Bi-LSTM)层和CRF层联合训练得到。在一些实施例中,信息抽取模型还可以基于BERT层和条件随机场算法(Conditional Random Field,CRF)层联合训练得到。
在一些实施例中,处理器可以基于多个带有标签的训练样本,通过各种方法进行训练,更新模型参数,得到信息抽取模型。例如,可以基于梯度下降法进行训练。仅作为示例,可以将多个带有标签的训练样本输入初始LSTM层,得到初始LSTM层输出的文本标注结果,并将其作为训练样本输入初始CRF层,得到初始CRF层输出的目标段落位置。通过标签和初始CRF层的输出结果构建损失函数,基于损失函数迭代更新初始LSTM层和初始CRF层的参数。当损失函数满足预设条件时模型训练完成,得到训练好的信息抽取模型。其中,预设条件可以是损失函数收敛、迭代的次数达到阈值等。
在一些实施例,训练样本可以包括样本文本的段落特征信息,标签可以是样本文本对应的目标段落位置。在一些实施例中,标签可以人为标注确定。
本说明书一些实施例中,通过信息抽取模型对段落特征信息进行处理,可以利用机器学习模型的自学习能力,从大量数据中找到规律,获取到段落特征信息与目标段落位置之间的关联关系,提高确定目标段落位置的准确度和效率,有助于从大量的文本内容中抽取特定内容,实现对答案的快速提取。通过上述训练方式获得信息抽取模型的参数,在一些情况下有利于解决单独训练LSTM模型时难以获得标签的问题。
图4是根据本说明书一些实施例所示的确定语义向量的示例性示意图。
在一些实施例中,处理器可以将一个或多个段落拼接为拼接段落;对拼接段落进行编码,确定位置编码;将拼接段落和位置编码输入语义提取模型,批量生成一个或多个文本段落对应的语义向量。
参见图4,处理器可以将文本段落410-1、文本段落510-2、……、文本段落410-N进行拼接,得到拼接段落420;再对拼接段落420进行编码得到拼接段落420的位置编码430。进一步利用语义提取模型440对拼接段落420和位置编码430进行处理,批量得到与文本段落410-1对应的语义向量450-1、与文本段落410-2对应的语义向量450-2、……、与文本段落410-N对应的语义向量450-N。
拼接段落是指由至少一个文本段落拼接而成的长段落。
在一些实施例中,拼接段落的总字符长度不超过预设字符长度。总字符长度为拼接段落包含的至少一个文本段落的字符长度的总和。预设字符长度可以由技术人员基于实际需求确定。例如,预设字符长度可以是512字符、256字符、128字符等等。优选地,预设字符长度可以为512字符。
在一些实施例中,处理器可以通过多种方式,将至少一个文本段落拼接为拼接段落。例如,处理器可以先将单个文本段落作为当前拼接段落,并判断当前拼接段落的句长是否超过预设字符长度。响应于当前拼接段落的句长超过预设字符长度,处理器可以截断单个文本段落的前预设字符长度个字符作为本次拼接得到的拼接段落。响应于当前拼接段落的句长未超过预设字符长度,处理器可以在当前拼接段落的基础上拼接下一个文本段落得到更新后拼接段落。响应于更新后拼接段落的句长超过预设字符长度,处理器放弃本次拼接并将当前拼接段落作为本次拼接得到的拼接段落,并重新开启一次拼接。响应于更新后拼接段落的句长未超过预设字符长度,处理器可以在更新后拼接段落的基础上,继续拼接下一个文本段落。重复上述步骤,直至所有文本段落均被拼接,得到至少一个拼接段落。
在一些实施例中,位置编码可以表示拼接段落与构成拼接段落的至少一个文本段落之间位置关系的编码信息。在一些实施例中,位置编码可以表示拼接段落的各个字符在拼接段落中所处位置的编码信息。
在一些实施例中,位置编码可以包括段落分割码和序位码。
段落分割码是表示拼接段落中的文本段落开始和结束的符号。在一些实施例,拼接段落中的每个文本段落中可以以符号[CLS]表示开始,以符号[SEP]表示结束。
序位码是表示拼接段落中各个字符在对应的文本段落中的位置的符号。在一些实施例中,每个字符可以对应一个序位码。在一些实施例中,段落分割码可以对应一个序位码。例如,“[CLS]”的序位码可以置为“0”,“[SEP]”的序位码可以为文本段落的字符长度+1。
在一些实施例中,处理器可以通过预设编码规则确定拼接段落的位置编码。例如,预设编码规则可以是:将拼接段落中每个文本段落中的符号[CLS]的序位码设置为0,按照字符在文本段落中的顺序从1开始递增设置各个字符的序位码,将每个文本段落中的符号[SEP]的序位码设置为字符长度+1,得到各个文本段落对应的位置编码。进一步地,按照各个文本段落在拼接段落中的顺序,将各个文本段落对应的位置编码进行拼接,得到拼接段落的位置编码。例如,拼接段落为['[CLS]','你','好','吗','[SEP]','[CLS]','我','很','好,'[SEP]'],其中,文本段落['[CLS] ','你','好','吗','[SEP]']对应的位置编码为[0,1,2,3,4],文本段落['[CLS] ','我','很','好',' [SEP]']的位置编码为[0,1,2,3,4],则拼接段落的位置编码为[0,1,2,3,4,0,1,2,3,4]。
在一些实施例中,处理器可以将拼接段落和位置编码输入语义提取模型,批量生成至少一个文本段落对应的语义向量。
语义提取模型可以是机器学习模型。例如,语义提取模型可以包括各种模型和结构,例如深度神经网络模型、循环神经网络模型、自定义的模型结构等等。
在一些实施例中,处理器可以基于多种方式训练语义提取模型。比如,处理器可以使用无监督或半监督的学习方式训练语义提取模型。
在一些实施例中,语义提取模型为基于RoBERTa模型进行优化处理得到的机器学习模型。
优化处理是指在RoBERTa模型的基础上进行的优化操作。在一些实施例中,基于RoBERTa模型进行优化处理可以包括对位置编码和注意力掩码进行的优化处理。
参见图4,在一些实施例中,对位置编码进行的优化处理包括:将位置表征(Position Embedding)设置为['E0','E1',……,'En-1','En'],其中,E0为[CLS]的序位码,E1为文本段落中第一个字符的序位码,依次类推,En为文本段落中最后一个字符的序位码,n为文本段落的字符长度+1。根据该位置编码方式,处理器可以对拼接段落中至少一个文本段落中的每个文本段落,将每个文本段落中的符号[CLS]的序位码设置为0,按照字符在文本段落中的顺序从1开始递增设置各个字符的序位码,将每个文本段落中的符号[SEP]的序位码设置为字符长度+1,得到各个文本段落对应的位置编码。
在一些实施例中,对注意力掩码进行的优化处理包括:使用0和1构成的注意力掩码矩阵,使得拼接段落中的每个文本段落只能注意到其本身,无法注意到其他文本段落。如图5所示,语义提取模型的注意力掩码矩阵在形式上为一个C×C的矩阵,C为拼接段落的总字符长度,注意力掩码矩阵中1表示为可见(如图5中涂色的圆圈),0表示为不可见(如图5中未涂色的圆圈)。
在一些实施例中,语义提取模型的注意力掩码矩阵包括多个位于注意力掩码矩阵的对角线上的子矩阵,每个文本段落都对应一个子矩阵。子矩阵在形式上为一个M×M的矩阵,M为子矩阵对应的文本段落的字符长度,子矩阵中元素值全为1。
在一些实施例中,为了还原文本段落单独执行语义向量提取的设置,处理器可以将拼接段落中各个文本段落的段表征(Segment Embedding)均设置为0,例如,设置为['E0','E0',……,'E0','E0']。其中,E0个数与文本段落的数量相同。
在一些实施例中,处理器可以获取语义提取模型输出的每个文本段落对应的序列输出,再根据每个文本段落的句长计算平均句长,基于平均句长即可得到每个文本段落对应的语义向量。例如,参见图4,语义提取模型440输出的文本段落410-1对应的序列输出可以是[['T[CLS]','T1',……,' TN',' T[SEP]'],文本段落410-2对应的序列输出可以是[['T[CLS]','T1',……,' Tm',' T[SEP]'],……,文本段落410-N对应的序列输出可以是[['T[CLS]','T1',……,' Tk',' T[SEP]']。
在一些实施例中,通过语义提取模型并行、批量对一个或多个段落进行特征提取,在句长维度上实现了批处理,以在不影响下游任务精度情况下有效提升语义提取模型的处理速度。通过优化RoBERTa模型的位置编码方式和注意力掩码矩阵得到语义提取模型,可以在利用语义提取模型对拼接段落进行处理时,使得语义提取模型在处理拼接段落的每个文本段落时,只能在注意力掩码矩阵中注意到当前的文本段落,而无法注意到其他文本段落。通过该优化处理,可以使语义提取模型对拼接段落进行语义提取的方式与对单个文本段落进行语义提取的方式保持一致,可以在最大长度范围内一次进行语义向量的提取,避免对多个小段落进行多次处理,可以有效提高处理速度,进而有利于信息提取模型应对多答案、答案字符超长的情况。
本说明书一个或多个实施例提供一种信息抽取装置,所述装置包括至少一个处理器以及至少一个存储器;所述至少一个存储器用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现上述实施例中任一项所述的信息抽取方法。
本说明书一个或多个实施例提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如上述实施例中任一项所述的信息抽取方法。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
Claims (8)
1.一种支持超长答案的信息抽取方法,其特征在于,所述方法由处理器执行,包括:
基于待处理文本,确定段落特征信息,所述待处理文本包括多个文本段落,所述待处理文本包括所述多个文本段落的文本信息和布局信息,所述段落特征信息包括所述文本段落的语义向量和布局向量,所述语义向量的确定方式包括:
将所述多个文本段落拼接为拼接段落,所述拼接段落的总字符长度不超过预设字符长度;
对所述拼接段落进行编码,确定位置编码,所述位置编码表示所述拼接段落与构成所述拼接段落的所述多个文本段落之间位置关系的编码信息,所述位置编码包括段落分割码和序位码,所述序位码反映所述拼接段落包含的文本段落从开始字符到结束字符的字符位置;
将所述拼接段落和所述位置编码输入语义提取模型,批量生成所述多个文本段落对应的所述语义向量;其中,所述语义提取模型为基于RoBERTa模型进行优化处理得到的机器学习模型,所述优化处理包括对所述RoBERTa模型的位置编码方式和注意力掩码进行优化,对所述注意力掩码进行的优化包括使用0和1构成的注意力掩码矩阵,使得所述拼接段落中的每个文本段落只能注意到其本身,无法注意到其他文本段落,所述注意力掩码包括多个位于所述注意力掩码矩阵的对角线上的子矩阵,所述子矩阵对应于文本段落;
基于所述段落特征信息,通过以段落为粒度的信息抽取模型确定目标段落位置,所述信息抽取模型为序列标注模型,所述目标段落位置为根据问题从所述待处理文本中抽取的答案的位置。
2.如权利要求1所述的方法,其特征在于,所述基于待处理文本,确定段落特征信息,包括:
基于所述文本信息,生成语义向量;
基于所述布局信息,生成布局向量;
基于所述语义向量和所述布局向量,确定所述段落特征信息。
3.如权利要求1所述的方法,其特征在于,所述信息抽取模型基于长短期记忆网络层和条件随机场算法层联合训练得到;所述长短期记忆网络层基于所述待处理文本的所述段落特征信息进行文本标注,所述长短期记忆网络层的输出为每个单词或字符对应于每个标签的概率得分,所述标签是 BIOES 类型的标签;所述条件随机场算法层的输入为所述长短期记忆网络层的输出,所述条件随机场算法层的输出为所述目标段落位置。
4.一种支持超长答案的信息抽取系统,其特征在于,所述系统包括:
预处理模块,用于基于待处理文本,确定段落特征信息,所述待处理文本包括多个文本段落,所述待处理文本包括所述多个文本段落的文本信息和布局信息,所述段落特征信息包括所述文本段落的语义向量和布局向量,所述语义向量的确定方式包括:
将所述多个文本段落拼接为拼接段落,所述拼接段落的总字符长度不超过预设字符长度;
对所述拼接段落进行编码,确定位置编码,所述位置编码表示所述拼接段落与构成所述拼接段落的所述多个文本段落之间位置关系的编码信息,所述位置编码包括段落分割码和序位码,所述序位码反映所述拼接段落包含的文本段落从开始字符到结束字符的字符位置;
将所述拼接段落和所述位置编码输入语义提取模型,批量生成所述多个文本段落对应的所述语义向量;其中,所述语义提取模型为基于RoBERTa模型进行优化处理得到的机器学习模型,所述优化处理包括对所述RoBERTa模型的位置编码方式和注意力掩码进行优化,对所述注意力掩码进行的优化包括使用0和1构成的注意力掩码矩阵,使得所述拼接段落中的每个文本段落只能注意到其本身,无法注意到其他文本段落,所述注意力掩码包括多个位于所述注意力掩码矩阵的对角线上的子矩阵,所述子矩阵对应于文本段落;
抽取模块,用于基于所述段落特征信息,通过以段落为粒度的信息抽取模型确定目标段落位置,所述信息抽取模型为序列标注模型,所述目标段落位置为根据问题从所述待处理文本中抽取的答案的位置。
5.如权利要求4所述的系统,其特征在于,所述预处理模块进一步用于:
基于所述文本信息,生成语义向量;
基于所述布局信息,生成布局向量;
基于所述语义向量和所述布局向量,确定所述段落特征信息。
6.如权利要求4所述的系统,其特征在于,所述信息抽取模型基于长短期记忆网络层和条件随机场算法层联合训练得到;所述长短期记忆网络层基于所述待处理文本的所述段落特征信息进行文本标注,所述长短期记忆网络层的输出为每个单词或字符对应于每个标签的概率得分,所述标签是 BIOES 类型的标签;所述条件随机场算法层的输入为所述长短期记忆网络层的输出,所述条件随机场算法层的输出为所述目标段落位置。
7.一种支持超长答案的信息抽取装置,所述装置包括处理器,其特征在于,所述装置包括至少一个处理器以及至少一个存储器;
所述至少一个存储器用于存储计算机指令;
所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现如权利要求1至3中任意一项所述的支持超长答案的信息抽取方法。
8.一种计算机可读存储介质,所述存储介质存储计算机指令,其特征在于,当计算机读取存储介质中的计算机指令后,计算机执行如权利要求1至3中任意一项所述的支持超长答案的信息抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311463402.0A CN117236314B (zh) | 2023-11-06 | 2023-11-06 | 支持超长答案的信息抽取方法、系统、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311463402.0A CN117236314B (zh) | 2023-11-06 | 2023-11-06 | 支持超长答案的信息抽取方法、系统、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117236314A CN117236314A (zh) | 2023-12-15 |
CN117236314B true CN117236314B (zh) | 2024-03-01 |
Family
ID=89091506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311463402.0A Active CN117236314B (zh) | 2023-11-06 | 2023-11-06 | 支持超长答案的信息抽取方法、系统、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117236314B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347229A (zh) * | 2020-11-12 | 2021-02-09 | 润联软件系统(深圳)有限公司 | 一种答案抽取方法、装置、计算机设备及存储介质 |
CN113342950A (zh) * | 2021-06-04 | 2021-09-03 | 北京信息科技大学 | 基于语义联合的答案选取方法及系统 |
CN114511084A (zh) * | 2022-01-29 | 2022-05-17 | 北京航空航天大学 | 增强问答交互信息的自动问答系统答案抽取方法及系统 |
CN114741494A (zh) * | 2022-05-25 | 2022-07-12 | 北京明略昭辉科技有限公司 | 问答方法、装置、设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105677764B (zh) * | 2015-12-30 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 信息提取方法和装置 |
-
2023
- 2023-11-06 CN CN202311463402.0A patent/CN117236314B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347229A (zh) * | 2020-11-12 | 2021-02-09 | 润联软件系统(深圳)有限公司 | 一种答案抽取方法、装置、计算机设备及存储介质 |
CN113342950A (zh) * | 2021-06-04 | 2021-09-03 | 北京信息科技大学 | 基于语义联合的答案选取方法及系统 |
CN114511084A (zh) * | 2022-01-29 | 2022-05-17 | 北京航空航天大学 | 增强问答交互信息的自动问答系统答案抽取方法及系统 |
CN114741494A (zh) * | 2022-05-25 | 2022-07-12 | 北京明略昭辉科技有限公司 | 问答方法、装置、设备及介质 |
Non-Patent Citations (2)
Title |
---|
Shuohang Wang等.Machine Comprehension Using MATCH-LSTM and Answer Pointer.《arXiv》.2016,全文. * |
林登雯.面向问答系统的多文档段落深度学习排序方法研究.《中国优秀硕士学位论文全文数据库 信息科技辑 (月刊)》.2022,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN117236314A (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109284400B (zh) | 一种基于Lattice LSTM和语言模型的命名实体识别方法 | |
CN109408824B (zh) | 用于生成信息的方法和装置 | |
CN110276069B (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
CN110825875A (zh) | 文本实体类型识别方法、装置、电子设备和存储介质 | |
Poostchi et al. | BiLSTM-CRF for Persian named-entity recognition ArmanPersoNERCorpus: the first entity-annotated Persian dataset | |
CN113255652B (zh) | 文本修正方法、装置、设备及介质 | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN113657098B (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN112434520A (zh) | 命名实体识别方法、装置及可读存储介质 | |
CN110750977A (zh) | 一种文本相似度计算方法及系统 | |
CN113255331A (zh) | 文本纠错方法、装置及存储介质 | |
CN117332788B (zh) | 一种基于英语口语文本的语义分析方法 | |
CN114218940A (zh) | 文本信息处理、模型训练方法、装置、设备及存储介质 | |
CN113743101A (zh) | 文本纠错方法、装置、电子设备和计算机存储介质 | |
CN111597302B (zh) | 文本事件的获取方法、装置、电子设备及存储介质 | |
CN117236314B (zh) | 支持超长答案的信息抽取方法、系统、装置和存储介质 | |
CN112784573A (zh) | 文本情感内容分析方法、装置、设备及存储介质 | |
CN115130437B (zh) | 一种文档智能填写方法、装置及存储介质 | |
CN110851597A (zh) | 一种基于同类实体替换的语句标注的方法及装置 | |
CN114429106B (zh) | 页面信息处理方法、装置、电子设备和存储介质 | |
CN115563278A (zh) | 一种句子文本的问题分类处理方法及装置 | |
CN114611489A (zh) | 文本逻辑条件抽取ai模型构建方法、抽取方法及系统 | |
CN115203415A (zh) | 一种简历文档信息提取方法及相关装置 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |