CN114936565A - 主旨信息提取方法及装置 - Google Patents

主旨信息提取方法及装置 Download PDF

Info

Publication number
CN114936565A
CN114936565A CN202210790551.7A CN202210790551A CN114936565A CN 114936565 A CN114936565 A CN 114936565A CN 202210790551 A CN202210790551 A CN 202210790551A CN 114936565 A CN114936565 A CN 114936565A
Authority
CN
China
Prior art keywords
text
processed
feature vector
semantic information
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210790551.7A
Other languages
English (en)
Inventor
冯硕
李长亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Digital Entertainment Co Ltd filed Critical Beijing Kingsoft Digital Entertainment Co Ltd
Priority to CN202210790551.7A priority Critical patent/CN114936565A/zh
Publication of CN114936565A publication Critical patent/CN114936565A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供主旨信息提取方法及装置,其中所述主旨信息提取方法包括:获取待处理文本,将待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量,将语义信息特征向量输入预先训练的多头注意力模型,获得待处理文本中的词类型特征向量,对语义信息特征向量和词类型特征向量进行融合计算,得到融合结果,根据融合结果,确定待处理文本的主旨信息。通过语义信息提取模型对输入的待处理文本进行语义分析,获得待处理文本的上下文语义,即语义信息特征向量,然后利用多头注意力模型对语义信息特征向量进行处理,得到词类型特征向量,综合考虑了待处理文本,有效保证待处理文本的主旨信息被提取出来,进而提高主旨信息提取的准确性。

Description

主旨信息提取方法及装置
技术领域
本申请涉及计算机技术领域,特别涉及一种主旨信息提取方法。本申请同时涉及一种主旨信息提取装置、一种计算设备,以及一种计算机可读存储介质。
背景技术
随着互联网技术的发展,自然语言处理(NLP,Natural Language Processing)的阅读理解任务中,由于长文本的内容多、篇幅长,为了方便用户在阅读长文本之前,可以简单、快速地了解长文本的主旨内容,确定是否继续阅读该长文本,自动提取长文本的主旨逐渐成为阅读理解任务中的研究重点。
当前提取长文本主旨的方法一般为切长文本为短文本,利用关键词提取方法获得短文本段落中的各个主旨词,计算短文本段落中各个主旨词的概率,之后将各个主旨词进行拼接排序获得长文本的主旨。然而,利用该方法,各个短文本的主旨词概率是独立计算的,短文本之间的关联性低,基于各个短文本独立计算的主旨词进行拼接排序的结果,是不客观的,极大影响了文本主旨信息提取的准确性。
发明内容
有鉴于此,本申请实施例提供了一种主旨信息提取方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种主旨信息提取装置,一种计算设备,以及一种计算机可读存储介质。
根据本申请实施例的第一方面,提供了一种主旨信息提取方法,包括:
获取待处理文本;
将待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量;
将语义信息特征向量输入预先训练的多头注意力模型,获得待处理文本中的词类型特征向量;
对语义信息特征向量和词类型特征向量进行融合计算,得到融合结果;
根据融合结果,确定待处理文本的主旨信息。
可选地,将待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量的步骤,包括:
将待处理文本输入预先训练的语义信息提取模型,获取语义信息提取模型的隐层输出作为语义信息特征向量。
可选地,在将待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量的步骤之前,还包括:
对待处理文本进行向量化处理,获得向量化后的待处理文本;
将待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量的步骤,包括:
将向量化后的待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量。
可选地,在对待处理文本进行向量化处理,获得向量化后的待处理文本的步骤之前,还包括:
对待处理文本进行分词处理,获得分词结果;
对待处理文本进行向量化处理,获得向量化后的待处理文本的步骤,包括:
对分词结果进行向量化处理,获得待处理文本的分词向量化信息,其中,分词向量化信息包括各分词向量。
可选地,将向量化后的待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量的步骤,包括:
对各分词向量进行捆绑处理,获得待处理文本的多个捆绑向量;
分别将各捆绑向量依次输入预先训练的语义信息提取模型,获得各捆绑向量对应的语义信息特征向量;
将语义信息特征向量输入预先训练的多头注意力模型,获得待处理文本中的词类型特征向量的步骤,包括:
针对各捆绑向量,将该捆绑向量对应的语义信息特征向量输入预先训练的多头注意力模型,获得该捆绑向量对应的词类型特征向量;
对语义信息特征向量和词类型特征向量进行融合计算,得到融合结果的步骤,包括:
针对各捆绑向量,对该捆绑向量对应的语义信息特征向量和词类型特征向量进行融合计算,得到该捆绑向量对应的融合结果;
根据融合结果,确定待处理文本的主旨信息的步骤,包括:
分析各捆绑向量对应的融合结果,确定待处理文本的主旨信息。
可选地,分词向量化信息还包括各分词向量的位置信息;
将语义信息特征向量输入预先训练的多头注意力模型,获得待处理文本中的词类型特征向量的步骤,包括:
针对各分词向量,将该分词向量对应的语义特征向量和该分词向量的位置信息输入预先训练的多头注意力模型,获得该分词向量对应的查询向量、键向量和值向量;
基于查询向量、键向量和值向量,计算该分词向量的词分值,对词分值进行归一化处理,得到归一化后的词分值;
利用归一化后的词分值,对各分词向量进行加权,获得待处理文本中的词类型特征向量。
可选地,对语义信息特征向量和词类型特征向量进行融合计算,得到融合结果的步骤,包括:
将语义信息特征向量和词类型特征向量进行点积运算,得到融合结果。
可选地,根据融合结果,确定待处理文本的主旨信息的步骤,包括:
将融合结果输入解码器,获得待处理文本的主旨信息。
根据本申请实施例的第二方面,提供了一种主旨信息提取装置,包括:
获取模块,被配置为获取待处理文本;
语义信息特征向量生成模块,被配置为将待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量;
词类型特征向量生成模块,被配置为将语义信息特征向量输入预先训练的多头注意力模型,获得待处理文本中的词类型特征向量;
融合结果生成模块,被配置为对语义信息特征向量和词类型特征向量进行融合计算,得到融合结果;
主旨信息确定模块,被配置为根据融合结果,确定待处理文本的主旨信息。
可选地,语义信息特征向量生成模块,进一步被配置为将待处理文本输入预先训练的语义信息提取模型,获取语义信息提取模型的隐层输出作为语义信息特征向量。
可选地,该装置还包括:
向量化处理模块,被配置为对待处理文本进行向量化处理,获得向量化后的待处理文本;
语义信息特征向量生成模块,进一步被配置为将向量化后的待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量。
可选地,该装置还包括:
分词处理模块,被配置为对待处理文本进行分词处理,获得分词结果;
向量化处理模块,进一步被配置为对分词结果进行向量化处理,获得待处理文本的分词向量化信息,其中,分词向量化信息包括各分词向量。
可选地,语义信息特征向量生成模块,进一步被配置为对各分词向量进行捆绑处理,获得待处理文本的多个捆绑向量;分别将各捆绑向量依次输入预先训练的语义信息提取模型,获得各捆绑向量对应的语义信息特征向量;
词类型特征向量生成模块,进一步被配置为针对各捆绑向量,将该捆绑向量对应的语义信息特征向量输入预先训练的多头注意力模型,获得该捆绑向量对应的词类型特征向量;
融合结果生成模块,进一步被配置为针对各捆绑向量,对该捆绑向量对应的语义信息特征向量和词类型特征向量进行融合计算,得到该捆绑向量对应的融合结果;
主旨信息确定模块,进一步被配置为分析各捆绑向量对应的融合结果,确定待处理文本的主旨信息。
可选地,分词向量化信息还包括各分词向量的位置信息;
词类型特征向量生成模块,进一步被配置为针对各分词向量,将该分词向量对应的语义特征向量和该分词向量的位置信息输入预先训练的多头注意力模型,获得该分词向量对应的查询向量、键向量和值向量;基于查询向量、键向量和值向量,计算该分词向量的词分值,对词分值进行归一化处理,得到归一化后的词分值;利用归一化后的词分值,对各分词向量进行加权,获得待处理文本中的词类型特征向量。
可选地,融合结果生成模块,进一步被配置为将语义信息特征向量和词类型特征向量进行点积运算,得到融合结果。
可选地,主旨信息确定模块,进一步被配置为将融合结果输入解码器,获得待处理文本的主旨信息。
根据本申请实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述主旨信息提取方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述主旨信息提取方法的步骤。
根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现所述主旨信息提取方法的步骤。
本申请提供的主旨信息提取方法,通过获取待处理文本,将待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量,将语义信息特征向量输入预先训练的多头注意力模型,获得待处理文本中的词类型特征向量,对语义信息特征向量和词类型特征向量进行融合计算,得到融合结果,根据融合结果,确定待处理文本的主旨信息。通过语义信息提取模型对输入的待处理文本进行语义分析,获得待处理文本的上下文语义,即语义信息特征向量,然后利用多头注意力模型对语义信息特征向量进行处理,得到词语的词性类型,即词类型特征向量,将语义信息特征向量和词类型特征向量进行融合,根据融合结果,确定待处理文本的主旨信息,综合考虑了待处理文本的上下文语义和词语的词性,有效保证待处理文本的主旨信息被提取出来,进而提高主旨信息提取的准确性。
附图说明
图1a是本申请一实施例提供的一种主旨信息提取系统下主旨信息提取方法的处理流程示意图;
图1b是本申请一实施例提供的另一种主旨信息提取系统下主旨信息提取方法的处理流程示意图;
图2是本申请一实施例提供的第一种主旨信息提取方法的流程图;
图3是本申请一实施例提供的第二种主旨信息提取方法的流程图;
图4是本申请一实施例提供的第三种主旨信息提取方法的流程图;
图5是本申请一实施例提供的第四种主旨信息提取方法的流程图;
图6是本申请一实施例提供的第五种主旨信息提取方法的流程图;
图7是本申请一实施例提供的第六种主旨信息提取方法的流程图;
图8是本申请一实施例提供的第七种主旨信息提取方法的流程图;
图9是本申请一实施例提供的第八种主旨信息提取方法的流程图;
图10是本申请一实施例提供的第九种主旨信息提取方法的流程图;
图11是本申请一实施例提供的一种主旨信息提取装置的结构示意图;
图12是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
词频(TF,term frequency):指的是某一个给定的词语在该文件中出现的次数。
反文档频率(IDF,inverse document frequency):是一个词语普遍重要性的度量。某一特定词语的反文档频率,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取以10为底的对数得到。
停用词:是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。
光学字符识别(OCR,Optical CharacterRecognition):是指对文本资料进行扫描后,对图像文件进行分析处理,获取文字及版面信息的过程,衡量OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性、产品的稳定性、易用性及可行性等。
One-Hot编码:又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候只有一位有效。
编码器(encoder):是一种能将信号(如比特流)或数据进行编制、转换为可用以通讯、传输和存储的信号形式的设备。
解码器(decoder):是一种能将数字视音频数据流解码还原成模拟视音频信号的硬件/软件设备。
在本申请中,提供了一种主旨信息提取方法。本申请同时涉及一种主旨信息提取装置、一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1a示出了根据本申请一实施例提供的一种主旨信息提取系统下主旨信息提取方法的处理流程示意图,主旨信息提取系统包括服务器和应用终端:
服务器,获取应用终端发送的样本集,基于样本集对预设的语义信息提取模型和预设的多头注意力模型进行训练,将训练好的语义信息提取模型和训练好的多头注意力模型发送至应用终端。
应用终端,接收训练好的语义信息提取模型和训练好的多头注意力模型,将待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量,将语义信息特征向量输入预先训练的多头注意力模型,获得待处理文本中的词类型特征向量,对语义信息特征向量和词类型特征向量进行融合计算,得到融合结果,根据融合结果,确定待处理文本的主旨信息。
应用本申请实施例的方案,通过获取待处理文本,将待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量,将语义信息特征向量输入预先训练的多头注意力模型,获得待处理文本中的词类型特征向量,对语义信息特征向量和词类型特征向量进行融合计算,得到融合结果,根据融合结果,确定待处理文本的主旨信息。通过语义信息提取模型对输入的待处理文本进行语义分析,获得待处理文本的上下文语义,即语义信息特征向量,然后利用多头注意力模型对语义信息特征向量进行处理,得到词语的词性类型,即词类型特征向量,将语义信息特征向量和词类型特征向量进行融合,根据融合结果,确定待处理文本的主旨信息,综合考虑了待处理文本的上下文语义和词语的词性,有效保证待处理文本的主旨信息被提取出来,进而提高主旨信息提取的准确性。
图1b示出了根据本申请一实施例提供的另一种主旨信息提取系统下主旨信息提取方法的处理流程示意图,主旨信息提取系统包括服务器和应用终端:
服务器,获取应用终端发送的待处理文本,将待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量,将语义信息特征向量输入预先训练的多头注意力模型,获得待处理文本中的词类型特征向量,对语义信息特征向量和词类型特征向量进行融合计算,得到融合结果,根据融合结果确定待处理文本的主旨信息,并将主旨信息发送至应用终端。
应用终端,向服务器发送待处理文本;接收服务器发送的待处理文本的主旨信息。
应用本申请实施例的方案,通过获取待处理文本,将待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量,将语义信息特征向量输入预先训练的多头注意力模型,获得待处理文本中的词类型特征向量,对语义信息特征向量和词类型特征向量进行融合计算,得到融合结果,根据融合结果,确定待处理文本的主旨信息。通过语义信息提取模型对输入的待处理文本进行语义分析,获得待处理文本的上下文语义,即语义信息特征向量,然后利用多头注意力模型对语义信息特征向量进行处理,得到词语的词性类型,即词类型特征向量,将语义信息特征向量和词类型特征向量进行融合,根据融合结果,确定待处理文本的主旨信息,综合考虑了待处理文本的上下文语义和词语的词性,有效保证待处理文本的主旨信息被提取出来,进而提高主旨信息提取的准确性。
值得说明的是,服务器不仅可以将应用终端发送的待处理文本对应的主旨信息反馈回应用终端,还可以将主旨信息发送至其他与服务器建立连接的应用终端中,本申请实施例对此不做任何限定。
图2示出了根据本申请一实施例提供的第一种主旨信息提取方法的流程图,具体包括以下步骤:
步骤S202:获取待处理文本。
在本申请实施例中,待处理文本可以是等待处理的文本,该待处理文本一般为长文本,其文本类型包括但不限于文本文件格式类型、图片文件格式类型,待处理文本可以是各个语言的文本,如中文文本、英文文本等,本申请实施例对此不做任何限定。
实际应用中,由于待处理文本包括多种文本类型,后续对待处理文本进行处理时,需要将不同的文本类型转化为同一文本类型,以适应语义信息提取模型。因而若待处理文本是图片文件格式类型,语义信息提取模型的识别类型为文本文件类型,则可以对该待处理文本进行OCR识别,得到该待处理文本的文本文件。当然,还可以采用其他图片识别方法,以得到该待处理文本的文本文件,本申请实施例对此不做任何限定。
步骤S204:将待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量。
在本申请实施例中,获取待处理文本后,为了提取出待处理文本上下文的语义关系,可以将待处理文本输入预先训练的语义信息提取模型,其中,语义信息提取模型可以是双向长短期记忆网络模型(BI-LSTM,Bi-directional Long Short-Term Memory),也可以是其他能够提取文本语义信息的模型,如Transformer模型,本申请实施例对此不做任何限定。将待处理文本输入预先训练的语义信息提取模型中,能够获得语义信息特征向量,该语义信息特征向量可以表征待处理文本上下文的语义关系,有效保证待处理文本的主旨信息被提取出来。
需要说明的是,语义信息提取模型至少包括隐层和第一输出层,其中,隐层也可以理解为隐藏层,隐层可以将输入数据的特征,抽象到另一个维度空间,来展现输入数据更抽象化的特征,这些更抽象化的特征能更好的进行线性划分。语义信息提取模型可以通过如下方法训练得到:获取第一样本文本集,其中,该第一样本文本集包括多个样本文本,每个样本文本均携带有文本标签,文本标签为对应的样本文本中的主旨词;获取第一样本文本集之后,提取第一样本文本集中的第一样本文本,其中,第一样本文本为第一样本文本集中的任一样本文本;对第一样本文本进行分词处理,获得第一样本分词结果,对第一样本分词结果进行向量化处理,获得第一样本分词向量化信息,其中,第一样本分词向量化信息包括第一样本中各分词向量和各分词向量的位置信息;对第一样本中各分词向量进行捆绑处理,获得第一样本文本的多个样本捆绑向量,分别将各样本捆绑向量依次输入预设的语义信息提取模型,预设的语义信息提取模型的第一输出层输出第一样本文本的第一预测词语;根据第一预测词语和第一文本标签,计算得到第一损失值,将第一损失值和第一预设阈值进行比较。其中,第一文本标签为第一样本文本的文本标签。
具体地,捆绑处理也可以理解为对各分词向量进行批处理,例如有2000个分词向量,每500个分词向量进行一次捆绑处理,即可获得4个捆绑向量。
实际应用中,获取第一样本文本集的方式可以是人工输入的大量样本文本组成第一样本文本集,也可以是从其他数据获取设备或者数据库中读取大量样本文本组成第一样本文本集。一般情况下,第一样本文本集中各个样本文本的文本标签可以由人工进行标注获得。
需要说明的是,可以基于第一预测词语与第一文本标签计算第一损失值,第一文本标签是指真实想要预设的语义信息提取模型输出的结果,也即第一文本标签包括的各个主旨词为真实结果,而将第一样本文本输入预设的语义信息提取模型,输出的第一预测词语就是模型的预测结果,在预测结果和真实结果之间的差值足够小时,说明预测结果足够接近真实结果,此时预设的语义信息提取模型训练完成,得到训练好的语义信息提取模型。本申请实施例中通过计算第一损失值可以直观的示出模型的预测结果与真实结果之间的差异,后续可以基于该差异对预设的语义信息提取模型进行针对性训练,调整参数,可以有效提高模型训练的速率及模型训练的效果。
一种可能的实现方式中,可以仅基于第一损失值和第一预设阈值之间的关系,确定是否停止训练。具体的,若第一损失值大于第一预设阈值,则说明第一预测词语和第一文本标签的差异较大,预设的语义信息提取模型提取语义信息的能力较差,此时可以调整预设的语义信息提取模型的模型参数,并返回执行提取第一样本文本集中的第一样本文本,对第一样本文本进行分词处理,获得第一样本分词结果的步骤,继续对预设的语义信息提取模型进行训练,直至第一损失值小于或等于第一预设阈值,说明第一预测词语和第一文本标签的差异较小,停止训练,获得训练后的语义信息提取模型。
其中,第一预设阈值为第一损失值的临界值,在第一损失值大于或等于第一预设阈值的情况下,说明预设的语义信息提取模型的预测结果与真实结果之间仍存在一定偏差,仍需调整预设的语义信息提取模型的参数,并获取第一样本文本集中的样本文本继续对该预设的语义信息提取模型进行训练;在第一损失值小于第一预设阈值的情况下,说明预设的语义信息提取模型的预测结果与真实结果的接近程度已经足够,可以停止训练。第一预设阈值的数值可以根据实际情况确定,本申请实施例对此不做限制。
本申请实施例中可以根据第一损失值判断预设的语义信息提取模型的具体训练情况,并在训练未合格的情况下根据第一损失值反向调整预设的语义信息提取模型的参数以提高该模型的分析能力,训练速率高,且训练效果好。
另一种可能的实现方式中,除了比较第一损失值和第一预设阈值的关系之外,还可以结合迭代次数,确定当前的语义信息提取模型是否训练完成。具体的,若第一损失值大于第一预设阈值,则说明第一预测词语和第一文本标签的差异较大,预设的语义信息提取模型提取语义信息的能力较差,此时可以调整预设的语义信息提取模型的模型参数,并返回执行提取第一样本文本集中的第一样本文本,对第一样本文本进行分词处理,获得第一样本分词结果的步骤,继续对预设的语义信息提取模型进行训练,直至达到第一预设迭代次数的情况下,停止迭代,得到训练后的语义信息提取模型。
其中,第一预设迭代次数根据实际情况进行设置,本申请实施例对此不做任何限定,在训练次数达到第一预设迭代次数时,说明预设的语义信息提取模型的训练次数已经足够,此时预设的语义信息提取模型的预测结果与真实结果的接近程度已经足够,可以停止训练。
在实际应用中,计算第一损失值的函数有很多,如交叉熵损失函数、L1范数损失函数、最大损失函数、均方误差损失函数、对数损失函数等,在本申请中,不对计算第一损失值的函数的选择做限定。
优选的,可以利用交叉熵损失函数计算第一损失值,交叉熵损失函数为:
Figure BDA0003733742050000081
其中,C代表类别数,pi为真实,qi为预测。
通过利用交叉熵损失函数,计算第一预测文本和第一文本标签之间的交叉熵作为损失值,提高了计算损失值的效率和准确率,使训练得到的语义信息提取模型更加准确。
步骤S206:将语义信息特征向量输入预先训练的多头注意力模型,获得待处理文本中的词类型特征向量。
在本申请实施例中,获取语义信息特征向量后,可以将语义信息特征向量输入预先训练的多头注意力模型(Multi-headAttention),利用多头注意力模型中的注意力编码器(attention-encoder)对语义信息特征向量进行分类,获得待处理文本中的词类型特征向量。
需要说明的是,多头注意力模型至少包括特征提取层和第二输出层,可以根据预设注意力模型作精调(fine-tune),通过如下方法训练得到:获取第二样本文本集,其中,该第二样本文本集包括多个样本文本以及各样本文本对应的文本标签,每个样本文本有对应的位置信息,其中,样本文本为某一长文本中的主旨词的集合,文本标签是指各个主旨词的词性;获取第二样本文本集之后,提取第二样本文本集中的第二样本文本,其中,第二样本文本为第二样本文本集中的任一样本文本;将该第二样本文本中各主旨词的词向量和第二样本文本中各主旨词的词向量的位置信息输入预设注意力模型,通过预设注意力模型获得各词向量对应的查询向量、键向量和值向量,基于查询向量、键向量和值向量,计算各词向量的词分值,对词分值进行归一化处理,得到归一化后的词分值,利用归一化后的词分值,对各词向量进行加权,预设注意力模型特征提取层输出第二样本文本的预测第二词类型特征向量,最终,预设注意力模型的第二输出层输出第二样本文本的预测词性。根据预测词性和第二文本标签,计算得到第二损失值,将第二损失值和第二预设阈值进行比较。其中,第二文本标签为第二样本文本对应的文本标签。
实际应用中,获取第二样本文本集的方式可以是人工输入的大量样本文本组成第二样本文本集,也可以是从其他数据获取设备或者数据库中读取大量样本文本组成第二样本文本集。一般情况下,获取第二样本文本的方式可以是人工查找长文本中的主旨词,对主旨词进行标注得到第二文本标签,还可以从上述语义信息提取模型的第一输出层获得,由人工对第二样本文本的词性进行批注。
需要说明的是,可以基于预测词性和第二文本标签计算第二损失值,第二文本标签是指真实想要预设注意力模型输出的结果,也即第二文本标签包括的各个主旨词的词性为真实结果,而将第二样本文本输入预设注意力模型,输出的预测词性就是模型的预测结果,在预测结果和真实结果之间的差值足够小时,说明预测结果足够接近真实结果,此时预设注意力模型训练完成,得到训练好的多头注意力模型。本申请实施例中通过计算第二损失值可以直观的示出模型的预测结果与真实结果之间的差异,后续可以基于该差异对预设注意力模型进行针对性训练,调整参数,可以有效提高模型训练的速率及模型训练的效果。
值得说明的是,由于训练好的多头注意力模型已经足够准确,训练好的多头注意力模型中包括的特征提取层、输出层等各层的输出也足够准确,因此,利用多头注意力模型中的注意力编码器(attent i on-encoder)对语义信息特征向量进行分类,可以准确获得待处理文本中的词类型特征向量。
一种可能的实现方式中,可以仅基于第二损失值和第二预设阈值之间的关系,确定是否停止训练。具体的,若第二损失值大于第二预设阈值,则说明预测词性和第二文本标签的差异较大,预设注意力模型的分类能力较差,此时可以调整预设注意力模型的模型参数,并返回执行提取第二样本集中的第二样本文本,将该第二样本文本和第二样本文本的位置信息输入预设注意力模型,获得该第二样本文本对应的查询向量、键向量和值向量的步骤,继续对预设注意力模型进行训练,直至第二损失值小于或等于第二预设阈值,说明预测词性和第二文本标签的差异较小,停止训练,获得训练后的多头注意力模型。
另一种可能的实现方式中,除了比较第二损失值和第二预设阈值的关系之外,还可以结合迭代次数,确定当前的注意力模型是否训练完成。具体的,若第二损失值大于第二预设阈值,则说明预测词性和第二文本标签的差异较大,预设注意力模型的分类能力较差,此时可以调整预设注意力模型的模型参数,并返回执行提取第二样本集中的第二样本文本,将该第二样本文本和第二样本文本的位置信息输入预设注意力模型,获得该第二样本文本对应的查询向量、键向量和值向量的步骤,继续对预设注意力模型进行训练,直至达到第二预设迭代次数的情况下,停止迭代,得到训练后的多头注意力模型。
其中,第二预设迭代次数根据实际情况进行设置,本申请实施例对此不做任何限定。
在实际应用中,计算第二损失值的函数有很多,如交叉熵损失函数、L1范数损失函数、最大损失函数、均方误差损失函数、对数损失函数等,在本申请中,不对计算第二损失值的函数的选择做限定。
步骤S208:对语义信息特征向量和词类型特征向量进行融合计算,得到融合结果。
在本申请实施例中,获取语义信息特征向量和词类型特征向量后,可以对语义信息特征向量和词类型特征向量进行融合计算,需要说明的是,该融合计算包括但不限于点积运算,还可以利用剪枝算法、升维度算法、s i n/cos融合算法等,具体根据实际情况进行选择,本申请实施例对此不作任何限定,融合结果是指语义信息特征向量和词类型特征向量的计算结果,以点积运算为例,即融合结果是指语义信息特征向量和词类型特征向量的点积结果,使经过语义信息提取模型和多头注意力模型的结果在语法和语义上更为合理。
步骤S210:根据融合结果,确定待处理文本的主旨信息。
在本申请实施例中,获得语义信息特征向量和词类型特征向量的融合结果后,由于该融合结果为向量形式,因此需要对该融合结果进行处理,得到最终待处理文本的主旨信息,待处理文本的主旨信息为待处理文本的主旨句。需要说明的是,对融合结果的处理方式包括但不限于利用注意力解码器(attention-decoder)对融合结果进行处理,还可以利用条件随机场(CRF,conditional random field)对融合结果进行处理,具体根据实际情况进行选择,本申请实施例对此不作任何限定。
应用本申请实施例的方案,通过获取待处理文本,将待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量,将语义信息特征向量输入预先训练的多头注意力模型,获得待处理文本中的词类型特征向量,对语义信息特征向量和词类型特征向量进行融合计算,得到融合结果,根据融合结果,确定待处理文本的主旨信息。通过语义信息提取模型对输入的待处理文本进行语义分析,获得待处理文本的上下文语义,即语义信息特征向量,然后利用多头注意力模型对语义信息特征向量进行处理,得到词语的词性类型,即词类型特征向量,将语义信息特征向量和词类型特征向量进行融合,根据融合结果,确定待处理文本的主旨信息,综合考虑了待处理文本的上下文语义和词语的词性,有效保证待处理文本的主旨信息被提取出来,进而提高主旨信息提取的准确性。
图3示出了根据本申请一实施例提供的第二种主旨信息提取方法的流程图,具体包括以下步骤:
步骤S302:获取待处理文本。
其中,步骤S302与步骤S202相同,本实施例便不再进行赘述。
步骤S304:将待处理文本输入预先训练的语义信息提取模型,获取语义信息提取模型的隐层输出作为语义信息特征向量。
需要说明的是,在本申请一种可能的实现方式中,将待处理文本输入预先训练的语义信息提取模型中,获取语义信息提取模型的隐层输出作为语义信息特征向量,直接将语义信息提取模型的隐层输出嫁接到多头注意力模型,无须再经过语义信息提取模型中Softmax等层的处理,从而提高文本主旨信息提取的效率。
步骤S306:将语义信息特征向量输入预先训练的多头注意力模型,获取多头注意力模型的特征提取层输出作为词类型特征向量。
步骤S308:对语义信息特征向量和词类型特征向量进行融合计算,得到融合结果。
步骤S310:根据融合结果,确定待处理文本的主旨信息。
其中,步骤S306、步骤S308、步骤S310与步骤S206、步骤S208、步骤S210相同,本实施例便不再进行赘述。
应用本申请实施例的方案,通过获取待处理文本,将待处理文本输入预先训练的语义信息提取模型,获取语义信息提取模型的隐层输出作为语义信息特征向量,将语义信息特征向量输入预先训练的多头注意力模型,获得待处理文本中的词类型特征向量,对语义信息特征向量和词类型特征向量进行融合计算,得到融合结果,根据融合结果,确定待处理文本的主旨信息。通过语义信息提取模型对输入的待处理文本进行语义分析,获得待处理文本的上下文语义,即语义信息特征向量,然后利用多头注意力模型对语义信息特征向量进行处理,得到词语的词性类型,即词类型特征向量,将语义信息特征向量和词类型特征向量进行融合,根据融合结果,确定待处理文本的主旨信息,综合考虑了待处理文本的上下文语义和词语的词性,有效保证待处理文本的主旨信息被提取出来,进而提高主旨信息提取的准确性,并且,直接将语义信息提取模型的隐层输出作为语义信息特征向量嫁接到多头注意力模型,无须再经过语义信息提取模型中Softmax等层的处理,从而提高文本主旨信息提取的效率。
图4示出了根据本申请一实施例提供的第三种主旨信息提取方法的流程图,具体包括以下步骤:
步骤S402:获取待处理文本。
其中,步骤S402与步骤S202相同,本实施例便不再进行赘述。
步骤S404:对待处理文本进行向量化处理,获得向量化后的待处理文本。
在本申请实施例中,获取待处理文本后,由于语义信息提取模型的输入为向量形式,因此,需要将待处理文本进行向量化处理。需要说明的是,本申请中对待处理文本进行向量化处理的方式有很多种,包括但不限于One-Hot编码向量化文本、词频-反文档频率(TF-IDF)向量化文本、哈希向量化文本等,具体根据实际情况进行选择,本申请实施例对此不做任何限定。
一种可能实现的方式中,可以采用词频-反文档频率(TF-IDF)向量化文本,具体的,假设每一个词是文本向量的一个维度,一个文本看做一个词袋,忽略词在文本中出现的顺序,去掉没有意义的停用词,考虑一个词出现的次数和重要性,也即词频-反文档频率(TF-IDF),可以利用待处理文本中各词语出现的次数以及总词语数计算各词语的词频特征,利用总文本数目除以包含各词语的文本的数目,再将得到的商取以10为底的对数得到各词语的反文档频率特征,之后计算各词语的重要性,构建向量空间。
步骤S406:将向量化后的待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量。
在本申请实施例中,获取向量化后的待处理文本后,为了提取出待处理文本的高阶语义信息,可以将向量化后的待处理文本输入预先训练的语义信息提取模型,将向量化后的待处理文本输入预先训练的语义信息提取模型中,能够获得语义信息特征向量,该语义信息特征向量可以表征待处理文本上下文的语义关系,有效保证待处理文本的主旨信息被提取出来,语义信息提取模型的训练过程参见步骤S204的描述,本实施例便不再进行赘述。
步骤S408:将语义信息特征向量输入预先训练的多头注意力模型,获得待处理文本中的词类型特征向量。
步骤S410:对语义信息特征向量和词类型特征向量进行融合计算,得到融合结果。
步骤S412:根据融合结果,确定待处理文本的主旨信息。
其中,步骤S408、步骤S410、步骤S412与步骤S206、步骤S208、步骤S210相同,本实施例便不再进行赘述。
应用本申请实施例的方案,通过获取待处理文本,对待处理文本进行向量化处理,获得向量化后的待处理文本,将向量化后的待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量,对语义信息特征向量和词类型特征向量进行融合计算,得到融合结果,根据融合结果,确定待处理文本的主旨信息。通过语义信息提取模型对输入的待处理文本进行语义分析,获得待处理文本的上下文语义,即语义信息特征向量,然后利用多头注意力模型对语义信息特征向量进行处理,得到词语的词性类型,即词类型特征向量,将语义信息特征向量和词类型特征向量进行融合,根据融合结果,确定待处理文本的主旨信息,综合考虑了待处理文本的上下文语义和词语的词性,有效保证待处理文本的主旨信息被提取出来,进而提高主旨信息提取的准确性。
图5示出了根据本申请一实施例提供的第四种主旨信息提取方法的流程图,具体包括以下步骤:
步骤S502:获取待处理文本。
其中,步骤S502与步骤S202相同,本实施例便不再进行赘述。
步骤S504:对待处理文本进行分词处理,获得分词结果。
需要说明的是,在语义分析提取的过程中,词是表意的完整单位,比如“发现”这个词里,“发”可能有发出、发展、发财等多种意思,只有“发现”两个字出现在一起时,才能确定是“发现”的意思,以词为单位对待处理文本进行处理,语义信息提取模型可以不进行上述思考过程,以词为单位可以缩短一句话中具有表意的两个词语之间的距离,使得处理文本更加适应模型。
一种可能的实现方式中,由于待处理文本中包含大量停用词,这些停用词一般是指对文本主旨影响较低的词,如助词、语气词等,因此可以利用预先设定的停用词表对待处理文本进行分词。例如:将待处理文本的部分内容“苹果又大又红”进行分词,得到分词结果“苹果”、“又”、“大”、“又”、“红”,将分词结果与预先设定的停用词表进行匹配,预先设定的停用词表中包括停用词“又”,则删除分词结果中的停用词“又”,获得待处理文本的部分内容的分词结果为“苹果”、“大”、“红”。上述分词处理过程也可以调用预设分词组件对待处理文本进行分词处理,其中,预设分词组件包括但不限于简易中文分词系统(SCWS,SimpleChinese Words Segmentation)、结巴分词工具等,具体根据实际情况进行选择,本申请实施例对此不做任何限定。
另一种可能的实现方式中,为了得到待处理文本的分词结果,可以预先设定分词规则,按照预先设定的分词规则进行分词处理,这样可以实现不借用预设分词组件即可对待处理文本进行分词。例如,预先设定一个常用字词库,将待处理文本中的部分内容“苹果又大又红”与预先设定的常用字词库做匹配,预先设定的常用字词库中包括“苹果”、“大”、“红”,由此可以得出待处理文本中的部分内容的分词结果为“苹果”、“大”、“红”。
另一种可能的实现方式中,还可以采用正向最大匹配法、逆向最大匹配法、最少切分法、双向最大匹配法对待处理文本进行分词,具体根据实际情况进行选择,本申请实施例对此不做任何限定。
步骤S506:对分词结果进行向量化处理,获得待处理文本的分词向量化信息,其中,分词向量化信息包括各分词向量。
在本申请实施例中,对待处理文本进行分词处理,获得分词结果后,由于语义信息提取模型的输入为向量形式,因此,需要将待处理文本的分词结果进行向量化处理,获得包括各分词向量的分词向量化信息。需要说明的是,本申请中对待处理文本的分词结果进行向量化处理的方式有很多种,包括但不限于利用One-Hot编码、词频-反文档频率(TF-IDF)、哈希处理等,具体根据实际情况进行选择,本申请实施例对此不做任何限定。
步骤S508:将各分词向量输入预先训练的语义信息提取模型,获得语义信息特征向量。
其中,各分词向量可以理解为向量化后的待处理文本。
步骤S510:将语义信息特征向量输入预先训练的多头注意力模型,获得待处理文本中的词类型特征向量。
步骤S512:对语义信息特征向量和词类型特征向量进行融合计算,得到融合结果。
步骤S514:根据融合结果,确定待处理文本的主旨信息。
其中,步骤S508、步骤S510、步骤S512、步骤S514与步骤S406、步骤S408、步骤S410、步骤S412相同,本实施例便不再进行赘述。
应用本申请实施例的方案,通过获取待处理文本,对待处理文本进行分词处理,获得分词结果,对分词结果进行向量化处理,获得待处理文本的分词向量化信息,将各分词向量输入预先训练的语义信息提取模型,获得语义信息特征向量,对语义信息特征向量和词类型特征向量进行融合计算,得到融合结果,根据融合结果,确定待处理文本的主旨信息。通过语义信息提取模型对输入的待处理文本进行语义分析,获得待处理文本的上下文语义,即语义信息特征向量,然后利用多头注意力模型对语义信息特征向量进行处理,得到词语的词性类型,即词类型特征向量,将语义信息特征向量和词类型特征向量进行融合,根据融合结果,确定待处理文本的主旨信息,综合考虑了待处理文本的上下文语义和词语的词性,有效保证待处理文本的主旨信息被提取出来,进而提高主旨信息提取的准确性,并且,对待处理文本进行分词,获得分词结果,可以提高文本主旨信息提取的效率和准确率。
图6示出了根据本申请一实施例提供的第五种主旨信息提取方法的流程图,具体包括以下步骤:
步骤S602:获取待处理文本。
步骤S604:对待处理文本进行分词处理,获得分词结果。
步骤S606:对分词结果进行向量化处理,获得待处理文本的分词向量化信息,其中,分词向量化信息包括各分词向量。
其中,步骤S602、步骤S604、步骤S606与步骤S502、步骤S504、步骤S506相同,本实施例便不再进行赘述。
步骤S608:对各分词向量进行捆绑处理,获得待处理文本的多个捆绑向量。
在本申请实施例中,因为输入语义信息提取模型的文本是需要切成固定大小的,因此,在获得待处理文本的分词向量化信息后,需要对各分词向量进行捆绑(batch)处理,获得待处理文本的多个捆绑向量。
需要说明的是,为了保留多个batch之间交叉位置的相关信息,待获取的捆绑向量可以由上一捆绑向量的内容与新分词向量共同组成,这种获取捆绑向量的方式称为“滑动窗口方式”。
具体地,假设将1024个字捆绑为一个batch,采用“128长度的滑动窗口”是指新batch的前128个字来自于上一个batch尾部的128个字,剩余的896个字是新的,也即下一个batch的文本长度是上一个文本长度尾部的128长度+896新文本长度。
步骤S610:分别将各捆绑向量依次输入预先训练的语义信息提取模型,获得各捆绑向量对应的语义信息特征向量。
在本申请实施例中,获取待处理文本的多个捆绑向量后,为了提取出待处理文本的高阶语义信息,可以将各捆绑向量依次输入预先训练的语义信息提取模型中进行处理,获得各捆绑向量对应的语义信息特征向量。其中,语义信息提取模型可以是双向长短期记忆网络模型(BI-LSTM,Bi-directional Long Short-Term Memory),也可以是其他能够提取文本语义信息的模型,本申请实施例对此不做任何限定。其中,语义信息特征向量可以表征待处理文本上下文的语义关系,有效保证待处理文本的主旨信息被提取出来,语义信息提取模型的训练过程参见步骤S204的描述,本实施例便不再进行赘述。
步骤S612:针对各捆绑向量,将该捆绑向量对应的语义信息特征向量输入预先训练的多头注意力模型,获得该捆绑向量对应的词类型特征向量。
在本申请实施例中,获得各捆绑向量对应的语义信息特征向量后,可以针对各捆绑向量,将该捆绑向量对应的语义信息特征向量输入预先训练的多头注意力模型(Multi-head Attention),利用多头注意力模型中的注意力编码器(attention-encoder)对语义信息特征向量进行分类,获得该捆绑向量对应的词类型特征向量,多头注意力模型的训练过程参见步骤S206的描述,本实施例便不再进行赘述。
步骤S614:针对各捆绑向量,对该捆绑向量对应的语义信息特征向量和词类型特征向量进行融合计算,得到该捆绑向量对应的融合结果。
步骤S616:分析各捆绑向量对应的融合结果,确定待处理文本的主旨信息。
其中,步骤S614、步骤S616与步骤S208、步骤S210相同,本实施例便不再进行赘述。
示例的,获取待处理文本为“白色的丝线拧成细细的绳子”,对该待处理文本进行分词,得到待处理文本的分词结果为“白色”、“丝线”、“拧成”、“绳”;
对分词结果进行向量化处理,得到“白色”的分词向量和位置信息、“丝线”的分词向量和位置信息、“拧成”的分词向量和位置信息、“绳”的分词向量和位置信息;
将“白色”的分词向量和“丝线”的分词向量进行捆绑处理得到第一捆绑向量,将“拧成”的分词向量和“绳子”的分词向量进行捆绑处理得到第二捆绑向量;例如,第一捆绑向量可以为“白色丝线”对应的向量,第二捆绑向量可以为“线拧成绳”对应的向量,第二捆绑向量中包括了第一捆绑向量尾部的内容,可以保留两个捆绑向量之间交叉位置的相关信息。
分别将第一捆绑向量和第二捆绑向量依次输入预先训练的语义信息提取模型,获得第一捆绑向量对应的第一语义信息特征向量和第二捆绑向量对应的第二语义信息特征向量;
将第一语义信息特征向量和对应的第一位置信息输入预先训练的多头注意力模型,得到第一词类型特征向量,将第二语义信息特征向量和对应的第二位置信息输入预先训练的多头注意力模型,得到第二词类型特征向量;
将第一语义信息特征向量和第一词类型特征向量进行点积运算,得到第一融合结果,将第二语义信息特征向量和第二词类型特征向量进行点积运算,得到第二融合结果;
将第一融合结果和第二融合结果输入解码器,确定待处理文本“白色的丝线拧成细细的绳子”的主旨句为“丝线拧成绳”。
应用本申请实施例的方案,通过对各分词向量进行捆绑处理,获得待处理文本的多个捆绑向量,使得处理文本更加适合语义信息提取模型,分别将各捆绑向量依次输入预先训练的语义信息提取模型,获得各捆绑向量对应的语义信息特征向量,针对各捆绑向量,将该捆绑向量对应的语义信息特征向量输入预先训练的多头注意力模型,获得该捆绑向量对应的词类型特征向量,针对各捆绑向量,对该捆绑向量对应的语义信息特征向量和词类型特征向量进行融合计算,得到该捆绑向量对应的融合结果,分析各捆绑向量对应的融合结果,确定待处理文本的主旨信息,综合考虑了待处理文本,有效保证待处理文本的主旨信息被提取出来,进而提高主旨信息提取的准确性。
图7示出了根据本申请一实施例提供的第六种主旨信息提取方法的流程图,具体包括以下步骤:
步骤S702:获取待处理文本。
步骤S704:对待处理文本进行分词处理,获得分词结果。
步骤S706:对分词结果进行向量化处理,获得待处理文本的分词向量化信息,其中,分词向量化信息包括各分词向量和各分词向量的位置信息。
步骤S708:将各分词向量输入预先训练的语义信息提取模型,获得语义信息特征向量。
其中,步骤S702、步骤S704、步骤S706、步骤S708与步骤S502、步骤S504、步骤S506、步骤S508相同,本实施例便不再进行赘述。
步骤S710:针对各分词向量,将该分词向量对应的语义特征向量和该分词向量的位置信息输入预先训练的多头注意力模型,获得该分词向量对应的查询向量、键向量和值向量。
步骤S712:基于查询向量、键向量和值向量,计算该分词向量的词分值,对词分值进行归一化处理,得到归一化后的词分值。
步骤S714:利用归一化后的词分值,对各分词向量进行加权,获得待处理文本中的词类型特征向量。
在本申请实施例中,在针对各分词向量,将该分词向量对应的语义特征向量输入预先训练的多头注意力模型中时,由于所有的语义特征向量是同时输入多头注意力模型并被处理的,如果不添加位置信息,那么所有的语义特征向量对多头注意力模型来说就不会有语义上的差别,会产生相同的输出,因此,针对各分词向量,需要将该分词向量对应的语义特征向量和该分词向量的位置信息输入预先训练的多头注意力模型,获得该分词向量对应的查询向量、键向量和值向量,利用以下公式进行计算:
Figure BDA0003733742050000161
其中,Q为查询向量,K为键向量,V为值向量,T是扩容倍率,d是压缩倍率。
需要说明的是,本申请中对词分值进行归一化处理的方法包括但不限于线性归一化、标准差归一化和非线性归一化,具体根据实际情况进行选择,本申请实施例对此不作任何限定。
步骤S716:对语义信息特征向量和词类型特征向量进行融合计算,得到融合结果。
步骤S718:根据融合结果,确定待处理文本的主旨信息。
其中,步骤S716、步骤S718与步骤S512、步骤S514相同,本实施例便不再进行赘述。
应用本申请实施例的方案,通过针对各分词向量,将该分词向量对应的语义特征向量和该分词向量的位置信息输入预先训练的多头注意力模型,获得该分词向量对应的查询向量、键向量和值向量,基于查询向量、键向量和值向量,计算该分词向量的词分值,对词分值进行归一化处理,得到归一化后的词分值,利用归一化后的词分值,对各分词向量进行加权,获得待处理文本中的词类型特征向量,综合考虑了待处理文本,有效保证待处理文本的主旨信息被提取出来,进而提高主旨信息提取的准确性。
图8示出了根据本申请一实施例提供的第七种主旨信息提取方法的流程图,具体包括以下步骤:
步骤S802:获取待处理文本。
步骤S804:将待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量。
步骤S806:将语义信息特征向量输入预先训练的多头注意力模型,获得待处理文本中的词类型特征向量。
其中,步骤S802、步骤S804、步骤S806与步骤S202、步骤S204、步骤S206相同,本实施例便不再进行赘述。
步骤S808:将语义信息特征向量和词类型特征向量进行点积运算,得到融合结果。
需要说明的是,点积运算就是将语义信息特征向量和词类型特征向量对应的元素进行相乘,如向量a=[a1,a2,…,an]和向量b=[b1,b2,…,bn]的点积定义为:a·b=a1*b1+a2*b2+……+an*bn。根据点积的结果,将点积的结果通过ReLu激活函数和Softmax层,如以下公式计算得到各分词结果的权重信息:
d=softmax(V'*ReLu(V*U'+b)+b') (3)
其中,V是多头注意力机制模型中一个线性层对应的权重,b是多头注意力机制模型中一个线性层对应的残差,V'是多头注意力机制模型中经过激活函数后的第二个线形层对应的权重,b`是多头注意力机制模型中经过激活函数后的第二个线形层对应的残差,U'是融合结果,通过激活函数和两个线性层后,原本线性的数据变得非线性,使模型的输出更加多元化。
步骤S810:根据融合结果,确定待处理文本的主旨信息。
其中,步骤S808、步骤S810与步骤S208、步骤S210相同,本实施例便不再进行赘述。
应用本申请实施例的方案,通过将语义信息特征向量和词类型特征向量进行点积运算,得到融合结果,提高了文本主旨信息提取的准确性。
图9示出了根据本申请一实施例提供的第八种主旨信息提取方法的流程图,具体包括以下步骤:
步骤S902:获取待处理文本。
步骤S904:将待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量。
步骤S906:将语义信息特征向量输入预先训练的多头注意力模型,获得待处理文本中的词类型特征向量。
步骤S908:对语义信息特征向量和词类型特征向量进行融合计算,得到融合结果。
其中,步骤S902、步骤S904、步骤S906、步骤S908与步骤S202、步骤S204、步骤S206、步骤S208相同,本实施例便不再进行赘述。
步骤S910:将融合结果输入解码器,获得待处理文本的主旨信息。
在本申请实施例中,计算得到语义信息特征向量和词类型特征向量的融合结果后,可以将融合结果输入解码器中,对该融合结果进行解码,生成待处理文本的连贯的主旨句,提高主旨信息提取结果的连贯,进一步提高用户体验度。
图10示出了根据本申请一实施例提供的第九种主旨信息提取方法的流程图,具体包括:
数据预处理:针对待处理文本,利用分词工具进行分词,获得分词结果;对分词结果进行向量化处理,获得分词向量化信息;对各分词向量进行捆绑处理获得多个捆绑向量;
其中,分词向量化信息包括各分词向量和各分词向量的位置信息;
语义信息提取模型处理:将各捆绑向量依次输入预先训练的语义信息提取模型,获得各捆绑向量对应的语义信息特征向量;
多头注意力模型处理:针对各分词向量,将该分词向量对应的语义特征向量和该分词向量的位置信息输入预先训练的多头注意力模型,获得待处理文本中的词类型特征向量;
数据融合:将语义信息特征向量和词类型特征向量进行点积运算,得到融合结果;
生成主旨信息:将融合结果输入解码器,获得待处理文本的主旨信息。
其中,图10中的内容具体可参见图2-图9,本实施例便不再进行赘述。
应用本申请实施例的方案,通过获取待处理文本,将待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量,将语义信息特征向量输入预先训练的多头注意力模型,获得待处理文本中的词类型特征向量,对语义信息特征向量和词类型特征向量进行融合计算,得到融合结果,根据融合结果,确定待处理文本的主旨信息。通过语义信息提取模型对输入的待处理文本进行语义分析,获得待处理文本的上下文语义,即语义信息特征向量,然后利用多头注意力模型对语义信息特征向量进行处理,得到词语的词性类型,即词类型特征向量,将语义信息特征向量和词类型特征向量进行融合,根据融合结果,确定待处理文本的主旨信息,综合考虑了待处理文本的上下文语义和词语的词性,有效保证待处理文本的主旨信息被提取出来,进而提高主旨信息提取的准确性。
与上述方法实施例相对应,本申请还提供了主旨信息提取装置实施例,图11示出了本申请一实施例提供的一种主旨信息提取装置的结构示意图。如图11所示,该装置包括:
获取模块102,被配置为获取待处理文本;
语义信息特征向量生成模块104,被配置为将待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量;
词类型特征向量生成模块106,被配置为将语义信息特征向量输入预先训练的多头注意力模型,获得待处理文本中的词类型特征向量;
融合结果生成模块108,被配置为对语义信息特征向量和词类型特征向量进行融合计算,得到融合结果;
主旨信息确定模块110,被配置为根据融合结果,确定待处理文本的主旨信息。
可选地,语义信息特征向量生成模块104,进一步被配置为将待处理文本输入预先训练的语义信息提取模型,获取语义信息提取模型的隐层输出作为语义信息特征向量。
可选地,该装置还包括:向量化处理模块,被配置为对待处理文本进行向量化处理,获得向量化后的待处理文本;语义信息特征向量生成模块104,进一步被配置为将向量化后的待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量。
可选地,该装置还包括:分词处理模块,被配置为对待处理文本进行分词处理,获得分词结果;向量化处理模块,进一步被配置为对分词结果进行向量化处理,获得待处理文本的分词向量化信息,其中,分词向量化信息包括各分词向量。
可选地,语义信息特征向量生成模块104,进一步被配置为对各分词向量进行捆绑处理,获得待处理文本的多个捆绑向量;分别将各捆绑向量依次输入预先训练的语义信息提取模型,获得各捆绑向量对应的语义信息特征向量;词类型特征向量生成模块106,进一步被配置为针对各捆绑向量,将该捆绑向量对应的语义信息特征向量输入预先训练的多头注意力模型,获得该捆绑向量对应的词类型特征向量;融合结果生成模块108,进一步被配置为针对各捆绑向量,对该捆绑向量对应的语义信息特征向量和词类型特征向量进行融合计算,得到该捆绑向量对应的融合结果;主旨信息确定模块110,进一步被配置为分析各捆绑向量对应的融合结果,确定待处理文本的主旨信息。
可选地,分词向量化信息还包括各分词向量的位置信息;词类型特征向量生成模块106,进一步被配置为针对各分词向量,将该分词向量对应的语义特征向量和该分词向量的位置信息输入预先训练的多头注意力模型,获得该分词向量对应的查询向量、键向量和值向量;基于查询向量、键向量和值向量,计算该分词向量的词分值,对词分值进行归一化处理,得到归一化后的词分值;利用归一化后的词分值,对各分词向量进行加权,获得待处理文本中的词类型特征向量。
可选地,融合结果生成模块108,进一步被配置为将语义信息特征向量和词类型特征向量进行点积运算,得到融合结果。
可选地,主旨信息确定模块110,进一步被配置为将融合结果输入解码器,获得待处理文本的主旨信息。
应用本申请实施例的方案,通过获取待处理文本,将待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量,将语义信息特征向量输入预先训练的多头注意力模型,获得待处理文本中的词类型特征向量,对语义信息特征向量和词类型特征向量进行融合计算,得到融合结果,根据融合结果,确定待处理文本的主旨信息。通过语义信息提取模型对输入的待处理文本进行语义分析,获得待处理文本的上下文语义,即语义信息特征向量,然后利用多头注意力模型对语义信息特征向量进行处理,得到词语的词性类型,即词类型特征向量,将语义信息特征向量和词类型特征向量进行融合,根据融合结果,确定待处理文本的主旨信息,综合考虑了待处理文本的上下文语义和词语的词性,有效保证待处理文本的主旨信息被提取出来,进而提高主旨信息提取的准确性。
上述为本实施例的一种主旨信息提取装置的示意性方案。需要说明的是,该主旨信息提取装置的技术方案与上述的主旨信息提取方法的技术方案属于同一构思,主旨信息提取装置的技术方案未详细描述的细节内容,均可以参见上述主旨信息提取方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
图12示出了根据本申请一实施例提供的一种计算设备的结构框图。该计算设备200的部件包括但不限于存储器300和处理器400。处理器400与存储器300通过总线500相连接,数据库800用于保存数据。
计算设备200还包括接入设备600,接入设备600使得计算设备200能够经由一个或多个网络700通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,LocalAreaNetwork)、广域网(WAN,WideAreaNetwork)、个域网(PAN,PersonalAreaNetwork)或诸如因特网的通信网络的组合。接入设备600可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,Network Interface Card))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,Wireless LocalAreaNetworks)无线接口、全球微波互联接入(Wi-MAX,World Interoperability for Microwave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,NearField Communication)接口,等等。
在本申请的一个实施例中,计算设备200的上述部件以及图12中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图12所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备200可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备200还可以是移动式或静止式的服务器。
其中,处理器400用于执行所述主旨信息提取方法的计算机可执行指令。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的主旨信息提取方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述主旨信息提取方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于主旨信息提取方法。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的主旨信息提取方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述主旨信息提取方法的技术方案的描述。
本申请一实施例还提供一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现所述主旨信息提取方法的步骤。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (11)

1.一种主旨信息提取方法,其特征在于,包括:
获取待处理文本;
将所述待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量;
将所述语义信息特征向量输入预先训练的多头注意力模型,获得所述待处理文本中的词类型特征向量;
对所述语义信息特征向量和所述词类型特征向量进行融合计算,得到融合结果;
根据所述融合结果,确定所述待处理文本的主旨信息。
2.根据权利要求1所述的方法,其特征在于,所述将所述待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量的步骤,包括:
将所述待处理文本输入预先训练的语义信息提取模型,获取所述语义信息提取模型的隐层输出作为语义信息特征向量。
3.根据权利要求1或2所述的方法,其特征在于,在所述将所述待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量的步骤之前,还包括:
对所述待处理文本进行向量化处理,获得向量化后的待处理文本;
所述将所述待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量的步骤,包括:
将所述向量化后的待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量。
4.根据权利要求3所述的方法,其特征在于,在所述对所述待处理文本进行向量化处理,获得向量化后的待处理文本的步骤之前,还包括:
对所述待处理文本进行分词处理,获得分词结果;
所述对所述待处理文本进行向量化处理,获得向量化后的待处理文本的步骤,包括:
对所述分词结果进行向量化处理,获得所述待处理文本的分词向量化信息,所述分词向量化信息包括各分词向量。
5.根据权利要求4所述的方法,其特征在于,所述将所述向量化后的待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量的步骤,包括:
对所述各分词向量进行捆绑处理,获得所述待处理文本的多个捆绑向量;
分别将各捆绑向量依次输入预先训练的语义信息提取模型,获得各捆绑向量对应的语义信息特征向量;
所述将所述语义信息特征向量输入预先训练的多头注意力模型,获得所述待处理文本中的词类型特征向量的步骤,包括:
针对各捆绑向量,将该捆绑向量对应的语义信息特征向量输入预先训练的多头注意力模型,获得该捆绑向量对应的词类型特征向量;
所述对所述语义信息特征向量和所述词类型特征向量进行融合计算,得到融合结果的步骤,包括:
针对各捆绑向量,对该捆绑向量对应的语义信息特征向量和词类型特征向量进行融合计算,得到该捆绑向量对应的融合结果;
所述根据所述融合结果,确定所述待处理文本的主旨信息的步骤,包括:
分析各捆绑向量对应的融合结果,确定所述待处理文本的主旨信息。
6.根据权利要求4所述的方法,其特征在于,所述分词向量化信息还包括各分词向量的位置信息;
所述将所述语义信息特征向量输入预先训练的多头注意力模型,获得所述待处理文本中的词类型特征向量的步骤,包括:
针对各分词向量,将该分词向量对应的语义特征向量和该分词向量的位置信息输入预先训练的多头注意力模型,获得该分词向量对应的查询向量、键向量和值向量;
基于所述查询向量、所述键向量和所述值向量,计算该分词向量的词分值,对所述词分值进行归一化处理,得到归一化后的词分值;
利用归一化后的词分值,对所述各分词向量进行加权,获得所述待处理文本中的词类型特征向量。
7.根据权利要求1所述的方法,其特征在于,所述对所述语义信息特征向量和所述词类型特征向量进行融合计算,得到融合结果的步骤,包括:
将所述语义信息特征向量和所述词类型特征向量进行点积运算,得到所述融合结果。
8.根据权利要求1所述的方法,其特征在于,所述根据所述融合结果,确定所述待处理文本的主旨信息的步骤,包括:
将所述融合结果输入解码器,获得所述待处理文本的主旨信息。
9.一种主旨信息提取装置,其特征在于,包括:
获取模块,被配置为获取待处理文本;
语义信息特征向量生成模块,被配置为将所述待处理文本输入预先训练的语义信息提取模型,获得语义信息特征向量;
词类型特征向量生成模块,被配置为将所述语义信息特征向量输入预先训练的多头注意力模型,获得所述待处理文本中的词类型特征向量;
融合结果生成模块,被配置为对所述语义信息特征向量和所述词类型特征向量进行融合计算,得到融合结果;
主旨信息确定模块,被配置为根据所述融合结果,确定所述待处理文本的主旨信息。
10.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令实现权利要求1至权利要求8任意一项所述主旨信息提取方法的步骤。
11.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至权利要求8任意一项所述主旨信息提取方法的步骤。
CN202210790551.7A 2022-07-06 2022-07-06 主旨信息提取方法及装置 Pending CN114936565A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210790551.7A CN114936565A (zh) 2022-07-06 2022-07-06 主旨信息提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210790551.7A CN114936565A (zh) 2022-07-06 2022-07-06 主旨信息提取方法及装置

Publications (1)

Publication Number Publication Date
CN114936565A true CN114936565A (zh) 2022-08-23

Family

ID=82869001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210790551.7A Pending CN114936565A (zh) 2022-07-06 2022-07-06 主旨信息提取方法及装置

Country Status (1)

Country Link
CN (1) CN114936565A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329742A (zh) * 2022-10-13 2022-11-11 深圳市大数据研究院 基于文本分析的科研项目产出评价验收方法及系统
CN115994217A (zh) * 2022-11-29 2023-04-21 南京审计大学 一种财务报告舞弊检测方法及系统
CN116089586A (zh) * 2023-02-10 2023-05-09 百度在线网络技术(北京)有限公司 基于文本的问题生成方法及问题生成模型的训练方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329742A (zh) * 2022-10-13 2022-11-11 深圳市大数据研究院 基于文本分析的科研项目产出评价验收方法及系统
CN115994217A (zh) * 2022-11-29 2023-04-21 南京审计大学 一种财务报告舞弊检测方法及系统
CN115994217B (zh) * 2022-11-29 2024-01-23 南京审计大学 一种财务报告舞弊检测方法及系统
CN116089586A (zh) * 2023-02-10 2023-05-09 百度在线网络技术(北京)有限公司 基于文本的问题生成方法及问题生成模型的训练方法
CN116089586B (zh) * 2023-02-10 2023-11-14 百度在线网络技术(北京)有限公司 基于文本的问题生成方法及问题生成模型的训练方法

Similar Documents

Publication Publication Date Title
CN114936565A (zh) 主旨信息提取方法及装置
CN110781276A (zh) 文本抽取方法、装置、设备及存储介质
CN110083729B (zh) 一种图像搜索的方法及系统
CN111428493A (zh) 实体关系获取方法、装置、设备及存储介质
CN113961685A (zh) 信息抽取方法及装置
CN115982376B (zh) 基于文本、多模数据和知识训练模型的方法和装置
CN112084435A (zh) 搜索排序模型训练方法及装置、搜索排序方法及装置
CN115495555A (zh) 一种基于深度学习的文献检索方法和系统
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN114090776A (zh) 文档解析方法、系统及装置
CN114495129A (zh) 文字检测模型预训练方法以及装置
KR102487820B1 (ko) 유사한 비교콘텐츠들과의 차별점을 제공하는 콘텐츠 기획과 제작을 위한 통합 플랫폼 서비스 제공 장치, 방법 및 프로그램
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN115964638A (zh) 多模态社交数据情感分类方法、系统、终端、设备及应用
CN114691525A (zh) 测试用例的选择方法及装置
CN113076720B (zh) 长文本的分段方法及装置、存储介质、电子装置
CN112732862B (zh) 一种基于神经网络的双向多段落阅读零样本实体链接方法和装置
CN114120342A (zh) 简历文档识别方法、装置、计算设备及存储介质
CN116795789B (zh) 自动生成专利检索报告的方法及装置
CN113723077A (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN117093864A (zh) 文本生成模型训练方法以及装置
CN114782958A (zh) 文本检错模型训练方法、文本检错方法及装置
CN115525757A (zh) 合同摘要的生成方法和装置、合同关键信息提取模型的训练方法
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN116127060A (zh) 一种基于提示词的文本分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination