CN111639177B - 文本提取方法和装置 - Google Patents
文本提取方法和装置 Download PDFInfo
- Publication number
- CN111639177B CN111639177B CN202010501058.XA CN202010501058A CN111639177B CN 111639177 B CN111639177 B CN 111639177B CN 202010501058 A CN202010501058 A CN 202010501058A CN 111639177 B CN111639177 B CN 111639177B
- Authority
- CN
- China
- Prior art keywords
- clause
- text
- clauses
- training
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供一种文本提取方法和装置,通过将待处理文本划分为多个子句,并获得各个子句的组合向量。将子句的组合向量导入预先训练得到的提取模型,输出该子句的分类结果,该分类结果可标识该子句是否为待处理文本的核心内容。基于各个子句的分类结果对待处理文本包含的多个子句进行提取操作,基于提取出的子句构成待处理文本对应的目标文本。如此,通过预先训练得到提取模型的方式,并结合待处理文本的子句的向量,实现子句的提取。该文本提取方案可实现自动提取的基础上,且通过提取模型以子句为最小提取单元进行分类,可提高核心内容提取的准确度。
Description
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种文本提取方法和装置。
背景技术
随着信息时代的全面普及,各类文档报告已实现电子化,人们能接触到的报告文档信息,呈几何指数增长。如何让人们快速理解与获取相关报告文本的核心内容观点,是个亟待解决的问题。
目前,常用的文本提取技术,主要是采用预先设置关键词,并基于预先设置的关键词对待处理文本进行内容提取,从而得到待处理文本对应的核心文本。这种方式,由于关键词的设置人为主观操作过重,一则加重人工工作量,二则,难以以标准化的方式进行文本提取,提取文本的准确度较低。
发明内容
本申请的目的包括,例如,提供了一种文本提取方法和装置,其能够实现文本核心内容自动提取的基础上,提高核心内容提取准确度。
本申请的实施例可以这样实现:
第一方面,本申请实施例提供一种文本提取方法,所述方法包括:
将待处理文本划分为多个子句;
针对每个所述子句,获得所述子句的组合向量;
将所述组合向量导入预先训练得到的提取模型,输出所述子句的分类结果,该分类结果用于标识所述子句是否为所述待处理文本的核心内容;
基于各所述子句的分类结果对所述待处理文本包含的多个子句进行提取操作,基于提取出的子句构成与所述待处理文本对应的目标文本。
在可选的实施方式中,所述获得所述子句的组合向量的步骤,包括:
获得所述子句的子句向量;
根据所述子句在所述待处理文本中的位置信息获得所述子句的位置向量;
根据所述子句向量和所述位置向量构成所述子句的组合向量。
在可选的实施方式中,所述基于提取出的子句构成与所述待处理文本对应的目标文本的步骤,包括:
获得提取出的各个子句在所述待处理文本中的位置信息;
根据各所述子句的位置信息按先后顺序对提取出的多个子句进行拼接处理,得到所述待处理文本对应的目标文本。
在可选的实施方式中,所述基于各所述子句的分类结果对所述待处理文本包含的多个子句进行提取操作的步骤,包括:
获得各所述子句的分类分值,将分类分值满足预设条件的子句从所述待处理文本中提取出。
在可选的实施方式中,所述将分类分值满足预设条件的子句从所述待处理文本中提取出的步骤,包括:
获取预先设置的提取上限值;
将分类分值排在前预设位的子句从所述待处理文本中提取出,以使提取出的子句的大小之和在所述提取上限值的预设误差范围内。
在可选的实施方式中,所述待处理文本包含多个句子,各所述句子包含至少一个子句,所述将分类分值满足预设条件的子句从所述待处理文本中提取出的步骤,包括:
筛选出分类分值超过预设值的子句;
针对筛选出的子句,获得所述子句所属的句子,其中,该句子除所述子句外还包含至少一个其他子句;
获得所述句子中的关键词,若所述关键词属于所述子句,则将所述子句提取出,若所述关键词不属于所述子句,则将所述子句以及所述关键词所属的其他子句提取出。
在可选的实施方式中,所述方法还包括预先训练得到所述提取模型的步骤,该步骤包括:
获取多个训练样本以及各所述训练样本的目标样本,其中,所述目标样本为对应的训练样本的部分内容;
针对每个所述训练样本,根据所述训练样本的目标样本对所述训练样本包含的各个训练子句设置样本分类标识,并获得各所述训练子句的位置信息;
根据各所述训练子句、所述训练子句的位置信息以及样本分类标识,对构建的神经网络模型进行训练,得到所述提取模型。
在可选的实施方式中,所述根据各所述训练子句、所述训练子句的位置信息以及样本分类标识,对构建的神经网络模型进行训练,得到所述提取模型的步骤,包括:
将每任意两个携带有位置信息的训练子句导入至构建的神经网络模型;
在导入的两个训练子句的样本分类标识相同时,调整所述神经网络模型的参数,以使该两个训练子句对应的向量之间的距离小于第一预设值;
在导入的两个训练子句的样本分类标识不相同时,调整所述神经网络模型的参数,以使该两个训练子句对应的向量之间的距离大于第二预设值;
根据各所述训练子句的输出结果以及各所述训练子句的样本分类标识,对所述神经网络模型的参数进行调整后继续训练,在满足预设停止条件时,得到所述提取模型。
在可选的实施方式中,所述将待处理文本划分为多个子句的步骤,包括:
识别出待处理文本中的第一断句标识,根据所述第一断句标识将所述待处理文本划分为多个句子;
针对每个所述句子,识别出所述句子中的第二断句标识,根据所述第二断句标识将所述句子划分为多个子句;
所述针对每个子句,获得所述子句的子句向量的步骤,包括:
针对每个所述子句,对所述子句进行分词处理得到多个切分词,并获得各所述切分词的词向量;
根据所述子句包含的切分词的词向量,获得所述子句的子句向量。
第二方面,本申请实施例提供一种文本提取装置,所述装置包括:
划分模块,用于将待处理文本划分为多个子句;
向量获得模块,用于针对每个所述子句,获得所述子句的组合向量;
分类结果获得模块,用于将所述组合向量导入预先训练得到的提取模型,输出所述子句的分类结果,该分类结果用于标识所述子句是否为所述待处理文本的核心内容;
提取模块,用于基于各所述子句的分类结果对所述待处理文本包含的多个子句进行提取操作,基于提取出的子句构成与所述待处理文本对应的目标文本。
本申请实施例的有益效果包括,例如:
本申请实施例提供的文本提取方法和装置,通过将待处理文本划分为多个子句,并获得各个子句的组合向量。将子句的组合向量导入预先训练得到的提取模型,输出该子句的分类结果,该分类结果可标识该子句是否为待处理文本的核心内容。基于各个子句的分类结果对待处理文本包含的多个子句进行提取操作,基于提取出的子句构成待处理文本对应的目标文本。如此,通过预先训练得到提取模型的方式,并结合待处理文本的子句的向量,实现子句的提取。该文本提取方案可实现自动提取的基础上,且通过提取模型以子句为最小提取单元进行分类,可提高核心内容提取的准确度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备的结构框图;
图2为本申请实施例提供的文本提取方法的流程图;
图3为本申请实施例提供的提取模型训练方法的流程图;
图4为本申请实施例提供的提取模型训练方法包含的子步骤的流程图;
图5为本申请实施例提供的训练样本输出结果的示意性曲线图;
图6为本申请实施例提供的组合向量获得方法的流程图;
图7为本申请实施例提供的子句提取方法的流程图;
图8为本申请实施例提供的子句提供方法的另一流程图;
图9为本申请实施例提供的文本提取装置的功能模块框图。
图标:110-处理器;120-存储器;130-通信模块;900-文本提取装置;910-划分模块;920-向量获得模块;930-分类结果获得模块;940-提取模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
请参阅图1,为本申请实施例提供的电子设备的结构图,该电子设备可以包括但不限于计算机、服务器等设备。该电子设备可包括存储器120、处理器110及通信模块130。所述存储器120、处理器110以及通信模块130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
其中,存储器120用于存储程序或者数据。所述存储器120可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(ErasableProgrammable Read-Only Memory,EPROM),电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory,EEPROM)等。
处理器110用于读/写存储器120中存储的数据或程序,并执行本申请任意实施例提供的文本提取方法。
通信模块130用于通过网络建立电子设备与其它通信终端之间的通信连接,并用于通过网络收发数据。
应当理解的是,图1所示的结构仅为电子设备的结构示意图,所述电子设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
请参阅图2,图2示出了本申请实施例提供的文本提取方法的流程示意图,该文本提取方法可由图1中所示的电子设备执行。应当理解,在其它实施例中,本实施例的文本提取方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该文本提取方法的详细步骤介绍如下。
步骤S210,将待处理文本划分为多个子句。
步骤S220,针对每个所述子句,获得所述子句的组合向量。
步骤S230,将所述组合向量导入预先训练得到的提取模型,输出所述子句的分类结果,该分类结果用于标识所述子句是否为所述待处理文本的核心内容。
步骤S240,基于各所述子句的分类结果对所述待处理文本包含的多个子句进行提取操作,基于提取出的子句构成与所述待处理文本对应的目标文本。
本实施例中,通过对文本进行处理,以提取出文本的核心内容,可将提取的核心内容作为文本的摘要,以便用户可一目了然了解文本的主要信息。可针对多种格式的文本进行处理,例如,待处理文本的格式可以是txt格式、pdf格式、word文本格式等,此外,也可以是从网页内容中所抓取的文本内容等。
在获得待处理文本后,可将待处理文本划分为多个子句,应当理解,待处理文本可包含多个句子,而各个句子可包含至少一个子句。本实施例中,首先可通过识别待处理文本中的第一断句标识,根据识别出的第一断句标识将待处理文本划分为多个句子。其中,第一断句标识可以是,例如断句符号“。”,当然,也可以是包含断句符号“。”以及符号“;”,可以根据实际的需求设置第一断句标识,对此不作具体限制。
在划分得到多个句子的基础上,为了进行更为细粒度的核心内容识别,针对划分得到的每个句子,可识别出句子中的第二断句标识,根据第二断句标识将句子划分为多个子句。其中,第二断句标识可以是,例如断句符号“,”、符号“/”、符号“,”等。当然,应该理解,若一个句子中并未识别出第二断句标识,则表明该句子自身可作为一个子句,后续针对该句子本身进行识别、判定即可。
本实施例中,预先基于构建的神经网络模型并利用训练样本进行训练得到提取模型,该提取模型可以用于针对文本所包含的多个子句,分类判别出各个子句是否为文本的核心内容,后续将对提取模型的具体训练过程进行阐述。
训练得到的提取模型的输入应当是文本形式的子句转换后的向量形式,输出可以为该子句对应的分类结果,该分类结果可用于标识该子句是否为待处理文本的核心内容。
基于各个子句的分类结果,则可对待处理文本进行提取操作,从而将待处理文本中的对应核心内容的子句提取出,并将提取出的子句构成目标文本。该目标文本即为对应待处理文本整篇内容的核心内容,即通常所称的摘要。
本实施例中,通过将待处理文本切分为细粒度的多个子句,并结合预先训练得到的提取模型,以分类判别出各个子句在待处理文本中的重要程度,从而实现核心内容提取。在实现核心内容自动提取的基础上,可提高提取的核心内容的准确性。
请结合参阅图3,以下将对预先训练得到提取模型的具体过程进行详细阐述。
步骤S310,获取多个训练样本以及各所述训练样本的目标样本,其中,所述目标样本为对应的训练样本的部分内容。
步骤S320,针对每个所述训练样本,根据所述训练样本的目标样本对所述训练样本包含的各个训练子句设置分类标识,并获得各所述训练子句的位置信息。
步骤S330,根据各所述训练子句、所述训练子句的位置信息以及分类标识,对构建的神经网络模型进行训练,得到所述提取模型。
本实施例中,预先进行训练阶段,可获取多个训练样本,例如可以是多篇文章,可以是pdf格式、word格式、txt格式,或者是直接从网页上抓取的文本内容。各个训练样本具有对应的目标样本,该目标样本即为该训练样本的核心内容,可以是预先进行人工摘取所获得的核心内容。
针对各个训练样本,可以采用上述同样的方式将训练样本划分为多个训练子句,本实施例在此不作赘述。而针对各个训练子句,应当理解,在目标样本中可能可以找到该训练子句,即该训练子句存在于目标样本中,也可能在目标样本中不能找到该训练子句,即该训练子句不存在于目标样本中。可为各训练子句设置分类标识,若该训练子句存在于目标样本中,则将该训练子句设置为正样本,例如可标识为1,若该训练子句不存在于目标样本中,则将该训练子句设置为负样本,例如可标识为0。
为了避免人工进行目标样本的选择时,可能由于用户作了一些修改,导致目标样本中的内容并不能与训练样本中包含的训练子句完全相同,而是作了一些微小修改后但实质意思一致的内容。因此,在训练时,在判断某个子句是否存在于目标样本时,可将该训练子句与目标样本中的各个子句作相似度比对,在相似度超过预设阈值时,可确定该训练子句存在于目标样本中。其中,进行文本之间的相似度的计算时,可采用目前常用的语义相似计算方式进行,本实施例在此不作具体限制。
考虑到一般情况下,文本中的处于某个位置的内容往往会作为该文本的核心内容以摘取至摘要中,例如文本最开始的内容或文本结尾处的内容等,因此,在确定文本的核心内容时,各个子句在文本中的位置也十分重要,而目前现有技术中的文本提取方式中,完全没有考虑子句的位置信息对提取结果的影响。
基于上述考虑,本实施例中,可获取训练样本中各个训练子句的位置信息,该位置信息可以是该训练子句所在文本中的第几句,可采用数字形式来表示。
本实施例中,预先构建神经网络模型,该神经网络模型可以是LSMT(Long Short-Term Memory,长短期记忆)模型,LSTM模型的输入层、输出层及隐藏层均针对向量形式,因此,本实施例中,在基于构建的LSTM进行训练时,可根据上述各个训练子句(转换为向量形式)、各个子句的位置信息(转换为向量形式)以及各个训练子句的分类标识,以对构建的神经网络模型进行训练,得到用于对后续进行正式处理时的文本中的子句进行分类以标识是否为核心内容的提取模型。可选地,对于子句向量的表征可采用LSTM encoder(编码器),对于子句位置向量的表征可采用One hot encoder或Cosine encoder。其中,关于LSTMencoder、One hot encoder、Cosine encoder的具体实现原理可参考现有相关技术的描述,本实施例在此不作赘述。
本实施例中,为了能够增加不同类之间的差距、减小相同类之间的差别,使模型能够提高对子句的分类准确率,请参阅图4,本实施例中,通过以下的方式对构建的神经网络模型进行训练。
步骤S410,将每任意两个携带有位置信息的训练子句导入至构建的神经网络模型。
步骤S420,在导入的两个训练子句的分类标识相同时,调整所述神经网络模型的参数,以使该两个训练子句对应的向量之间的距离小于第一预设值。
步骤S430,在导入的两个训练子句的分类标识不相同时,调整所述神经网络模型的参数,以使该两个训练子句对应的向量之间的距离大于第二预设值。
步骤S440,根据各所述训练子句的输出结果以及各所述训练子句的分类标识,对所述神经网络模型的参数进行调整后继续训练,在满足预设停止条件时,得到所述提取模型。
本实施例中,在对模型进行训练时,可采用每轮两个训练子句进行训练,以进行多轮训练的方式以执行。在每轮训练中,可将任意两个训练子句导入至构建的神经网络模型中,若该两个训练子句的分类标识相同,例如该两个训练子句均为正样本,即分类标识为1,或者该两个训练子句均为负样本,即分类标识为0。则在利用该两个训练子句对神经网络模型进行训练时,可通过调整神经网络模型的参数,使得该两个训练子句的向量之间的距离小于第一预设值,可以进行两者训练子句的向量之间距离最小化处理。
而若导入至神经网络模型的两个训练子句的分类标识不同,例如一个为正样本,即分类标识为1,另一个为负样本,即分类标识为0。则在利用该两个训练子句对神经网络模型进行训练时,可通过调整神经网络模型的参数,使得该两个训练子句的向量之间的距离大于第二预设值。
如此,在经过多轮对神经网络模型的训练之后,得到的神经网络模型后续在对子句进行分类判别时,不同类别的子句的分类结果可具有较大差异,而相同类别的子句的分类结果将大致相同,如此,可避免不同类差距较小导致的识别不出,或识别不够准确的问题。
在上述基础上,还应当根据各个训练子句的输出结果以及各个训练子句本身的分类标识对神经网络模型的参数进行调整,且在调整之后继续训练,以期输出结果能够与训练子句本身的分类标识一致。在训练并检测到模型能够满足预设停止条件时,可得到上述的提取模型。
其中,该预设停止条件可以是,训练样本包含的训练子句中,被识别为正样本的训练子句的准确率达到预设值、识别为正样本的训练子句的数量与目标样本中的数量相等,或者是训练的次数达到预设上限值等。神经网络模型对于训练子句的输出结果可以是分类分值的形式,例如,分类分值大于100可以确定为正样本,分类分值小于100可为负样本。其中,图5示例性示出,神经网络模型对多个训练子句的输出结果,其中,训练子句中本身的分类标识为正样本的训练子句的输出结果(Pos score),基本上大于100,表明可较好识别出正样本。而训练子句中本身的分类标识为负样本的训练子句的输出结果(Neg score),基本上小于100,表明同样可以较好识别出负样本。而训练集中所有的训练子句的输出结果(Pos+Neg),集中在正的五百多和负的六百左右,表明对所有训练子句的识别分类,整体的分类准确率较高,且不同类之间的差距较大。
需要说明的是,在实际执行过程中,上述步骤如S420、步骤S430及步骤S440的执行顺序并不限定于此,实际执行过程中可能是并行进行,也可能按不同的顺序执行,以上的所述的顺序并不用于限定实际的各个步骤的实际执行先后顺序。
以上过程即为预先进行训练得到提取模型的过程,后续在正式进行文本提取时,可直接基于得到的提取模型进行识别分类。
本实施例中,根据上述可知,在进行待处理文本的核心内容提取时,是通过将各个子句的组合向量导入至提取模型进行识别分类,其中,请参阅图6,子句的组合向量通过以下方式获得:
步骤S610,获得所述子句的子句向量。
步骤S620,根据所述子句在所述待处理文本中的位置信息获得所述子句的位置向量。
步骤S630,根据所述子句向量和所述位置向量构成所述子句的组合向量。
本实施例中,各个子句的组合向量包含了子句本身内容对应的向量以及子句所在待处理文本中的位置信息对应的向量。
在获取各个子句本身的子句向量时,可针对各子句,对子句进行分词处理得到多个切分词,并获得各个切分词的词向量。其中,分词处理可以采用如Jieba分词方法实现,本实施例对此不作具体限制。再根据子句所包含的切分词的词向量,组合得到该子句的子句向量。也即在获得子句的子句向量时,是将子句拆分为多个词,再由多个词的词向量构成子句的子句向量。
在获得各个子句的组合向量的基础上,将各个子句分别导入至上述提取模型,通过提取模型的识别分类,可以得到子句的分类结果,该分类识别可以是一个二分类问题,输出结果可以直接是分类标识,例如标识为1或标识为0,即标识为1表明该子句为待处理文本的核心内容,后续可将该子句提取出以添加至目标文本,若标识为0表明该子句不是待处理文本的核心内容,不对该子句进行提取操作。
此外,提取模型的分类结果还可以是以数值形式输出,该数值的大小可表明该子句在待处理文本的核心重要程度,例如,该分类数值达到预设值,则表明该子句为待处理文本的核心内容,否则,则表明该子句不为待处理文本的核心内容。
在本实施例中,对于包含多个子句的句子而言,若该句子包含的一个或多个子句被提取并添加至目标文本,为了避免可能存在该句子本身的关键词并未包含在所提取的子句中,从而导致提取出的子句在目标文本中存在语义不连贯的问题,因此,请参阅图7,本实施例中通过以下方式改善这个问题。
步骤S710,筛选出分类分值超过预设值的子句。
步骤S720,针对筛选出的子句,获得所述子句所属的句子,其中,该句子除所述子句外还包含至少一个其他子句。
步骤S730,获得所述句子中的关键词。
步骤S740,若所述关键词属于所述子句,则将所述子句提取出。
步骤S750,若所述关键词不属于所述子句,则将所述子句以及所述关键词所属的其他子句提取出。
其中,分类分值超过预设值的子句可认为是待处理文本的核心内容的子句。以句子A为例,若句子A包含子句a、子句b和子句c。在通过提取模型的识别分类后,其中,子句a的分类分值超过预设值,即子句a为待处理文本的核心内容。对句子A进行关键词检测,其中,关键词检测方式可根据需求进行设置,例如以其中的名词为关键词、以动词为关键词等不限。若句子A的关键词属于子句a,则直接将子句a提取出,以构成目标文本,并不影响到以子句a来体现句子A的语义。而若句子A的关键词不属于子句a,而属于子句b。则为了避免子句a单独提取出,而导致可能存在语义表述不准确、语义不连贯的问题,因此。可将子句a和子句b一起提取出,以添加至目标文本中。
如此,通过以上方式,可基于识别分类结果并结合上下文,对提取操作进行调整,以达到提高提取出的内容的语义连贯性的问题。
此外,一般性地,文本摘要是对文本的核心内容的集中阐述,一般应以短小、简洁为主,但是又不能过于简短而导致表达不完善的问题。因此,对于提取的目标文本的大小可以根据实际需求设置在一个合理的范围内。请结合参阅图8,因此,在进行子句的提取时,可通过以下方式进行。
步骤S810,获取预先设置的提取上限值。
步骤S820,将分类分值排在前预设位的子句从所述待处理文本中提取出,以使提取出的子句的大小之和在所述提取上限值的预设误差范围内。
本实施例中,预先可设置提取上限值,例如,该上限值可以是200个字或300个字等不限。根据提取模型对各个子句的分类所输出的分类分值,可按分类分值从高到低的顺序进行排序,其中,分类分值越高表明该子句在待处理文本中更为核心,分类分值越低,表明该子句对于待处理文本的整体表达并无太大影响。
因此,可基于预先设置的提取上限值,将分类分值排在前预设位的子句提取出,使得提取出的子句的大小之和在提取上限值的预设误差范围内。例如,若提取上限值为200个,预设误差范围可以是上下20,则提取出的子句的大小之和(即字数之和)可以在180到220之间即可。
在经过以上过程提取出作为待处理文本的核心内容的子句之后,可获得提取出的各个子句在待处理文本中的位置信息,并根据各个子句的位置信息按先后顺序对提取出的多个子句进行拼接处理,得到待处理文本对应的目标文本,即体现出待处理文本主要信息的摘要信息,以提供给用户。
通过以上过程,可以通过预先训练得到提取模型的方式,以在对待处理文本进行提取时,可直接基于该提取模型进行识别分类,实现核心内容的自动提取。并且,本实施例中,以子句为最小提取单元进行识别提取,使提取动作更加细粒化,提高提取精确度。此外,在对子句进行分类时,还加入了子句的位置信息,可将位置信息所能够体现的子句在文本中的重要程度考虑在内,提高得到的分类结果的准确性。
进一步地,本实施例中,在进行子句的提取时,还考虑了子句所在句子的关键词的问题,从而使提取出的子句能够准确表达所属句子的语义,避免出现提取出的文本表达不连贯的问题。并且,本实施例中,还可灵活设置提取出的文本的大小,方便用户根据自身需求进行调整,提升实用性。
请参阅图9,为本申请另一实施例提供的文本提取装置900的功能模块框图,该文本提取装置900,该文本提取装置包括划分模块910、向量获得模块920、分类结果获得模块930以及提取模块940。
划分模块910,用于将待处理文本划分为多个子句。
可以理解,该划分模块910可以用于执行上述步骤S210,关于该划分模块910的详细实现方式可以参照上述对步骤S210有关的内容。
向量获得模块920,用于针对每个所述子句,获得所述子句的组合向量。
可以理解,该向量获得模块920可以用于执行上述步骤S220,关于该向量获得模块920的详细实现方式可以参照上述对步骤S220有关的内容。
分类结果获得模块930,用于将所述组合向量导入预先训练得到的提取模型,输出所述子句的分类结果,该分类结果用于标识所述子句是否为所述待处理文本的核心内容。
可以理解,该分类结果获得模块930可以用于执行上述步骤S230,关于该分类结果获得模块930的详细实现方式可以参照上述对步骤S230有关的内容。
提取模块940,用于基于各所述子句的分类结果对所述待处理文本包含的多个子句进行提取操作,基于提取出的子句构成与所述待处理文本对应的目标文本。
可以理解,该提取模块940可以用于执行上述步骤S240,关于该提取模块940的详细实现方式可以参照上述对步骤S240有关的内容。
进一步地,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有机器可执行指令,机器可执行指令被执行时实现上述实施例提供的文本提取方法。
其中,前述计算机程序运行时执行的各步骤,在此不再一一赘述,可参考前文对所述文本提取方法的解释说明。
综上所述,本申请实施例提供了一种文本提取方法和装置,通过将待处理文本划分为多个子句,并获得各个子句的组合向量。将子句的组合向量导入预先训练得到的提取模型,输出该子句的分类结果,该分类结果可标识该子句是否为待处理文本的核心内容。基于各个子句的分类结果对待处理文本包含的多个子句进行提取操作,基于提取出的子句构成待处理文本对应的目标文本。如此,通过预先训练得到提取模型的方式,并结合待处理文本的子句的向量,实现子句的提取。该文本提取方案可实现自动提取的基础上,且通过提取模型以子句为最小提取单元进行分类,可提高核心内容提取的准确度。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (9)
1.一种文本提取方法,其特征在于,所述方法包括:
将待处理文本划分为多个子句;
针对每个所述子句,获得所述子句的组合向量;
将所述组合向量导入预先训练得到的提取模型,输出所述子句的分类结果,该分类结果用于标识所述子句是否为所述待处理文本的核心内容;
基于各所述子句的分类结果对所述待处理文本包含的多个子句进行提取操作,基于提取出的子句构成与所述待处理文本对应的目标文本;
所述获得所述子句的组合向量的步骤,包括:
获得所述子句的子句向量;根据所述子句在所述待处理文本中的位置信息获得所述子句的位置向量;根据所述子句向量和所述位置向量构成所述子句的组合向量。
2.根据权利要求1所述的文本提取方法,其特征在于,所述基于提取出的子句构成与所述待处理文本对应的目标文本的步骤,包括:
获得提取出的各个子句在所述待处理文本中的位置信息;
根据各所述子句的位置信息按先后顺序对提取出的多个子句进行拼接处理,得到所述待处理文本对应的目标文本。
3.根据权利要求1所述的文本提取方法,其特征在于,所述基于各所述子句的分类结果对所述待处理文本包含的多个子句进行提取操作的步骤,包括:
获得各所述子句的分类分值,将分类分值满足预设条件的子句从所述待处理文本中提取出。
4.根据权利要求3所述的文本提取方法,其特征在于,所述将分类分值满足预设条件的子句从所述待处理文本中提取出的步骤,包括:
获取预先设置的提取上限值;
将分类分值排在前预设位的子句从所述待处理文本中提取出,以使提取出的子句的大小之和在所述提取上限值的预设误差范围内。
5.根据权利要求3所述的文本提取方法,其特征在于,所述待处理文本包含多个句子,各所述句子包含至少一个子句,所述将分类分值满足预设条件的子句从所述待处理文本中提取出的步骤,包括:
筛选出分类分值超过预设值的子句;
针对筛选出的子句,获得所述子句所属的句子,其中,该句子除所述子句外还包含至少一个其他子句;
获得所述句子中的关键词,若所述关键词属于所述子句,则将所述子句提取出,若所述关键词不属于所述子句,则将所述子句以及所述关键词所属的其他子句提取出。
6.根据权利要求1所述的文本提取方法,其特征在于,所述方法还包括预先训练得到所述提取模型的步骤,该步骤包括:
获取多个训练样本以及各所述训练样本的目标样本,其中,所述目标样本为对应的训练样本的部分内容;
针对每个所述训练样本,根据所述训练样本的目标样本对所述训练样本包含的各个训练子句设置分类标识,并获得各所述训练子句的位置信息;
根据各所述训练子句、所述训练子句的位置信息以及分类标识,对构建的神经网络模型进行训练,得到所述提取模型。
7.根据权利要求6所述的文本提取方法,其特征在于,所述根据各所述训练子句、所述训练子句的位置信息以及分类标识,对构建的神经网络模型进行训练,得到所述提取模型的步骤,包括:
将每任意两个携带有位置信息的训练子句导入至构建的神经网络模型;
在导入的两个训练子句的分类标识相同时,调整所述神经网络模型的参数,以使该两个训练子句对应的向量之间的距离小于第一预设值;
在导入的两个训练子句的分类标识不相同时,调整所述神经网络模型的参数,以使该两个训练子句对应的向量之间的距离大于第二预设值;
根据各所述训练子句的输出结果以及各所述训练子句的分类标识,对所述神经网络模型的参数进行调整后继续训练,在满足预设停止条件时,得到所述提取模型。
8.根据权利要求1所述的文本提取方法,其特征在于,所述将待处理文本划分为多个子句的步骤,包括:
识别出待处理文本中的第一断句标识,根据所述第一断句标识将所述待处理文本划分为多个句子;
针对每个所述句子,识别出所述句子中的第二断句标识,根据所述第二断句标识将所述句子划分为多个子句;
所述针对每个所述子句,获得所述子句的子句向量的步骤,包括:
针对每个所述子句,对所述子句进行分词处理得到多个切分词,并获得各所述切分词的词向量;
根据所述子句包含的切分词的词向量,获得所述子句的子句向量。
9.一种文本提取装置,其特征在于,所述装置包括:
划分模块,用于将待处理文本划分为多个子句;
向量获得模块,用于针对每个所述子句,获得所述子句的组合向量;
分类结果获得模块,用于将所述组合向量导入预先训练得到的提取模型,输出所述子句的分类结果,该分类结果用于标识所述子句是否为所述待处理文本的核心内容;
提取模块,用于基于各所述子句的分类结果对所述待处理文本包含的多个子句进行提取操作,基于提取出的子句构成与所述待处理文本对应的目标文本;
所述向量获得模块用于,获得所述子句的子句向量;根据所述子句在所述待处理文本中的位置信息获得所述子句的位置向量;根据所述子句向量和所述位置向量构成所述子句的组合向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010501058.XA CN111639177B (zh) | 2020-06-04 | 2020-06-04 | 文本提取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010501058.XA CN111639177B (zh) | 2020-06-04 | 2020-06-04 | 文本提取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111639177A CN111639177A (zh) | 2020-09-08 |
CN111639177B true CN111639177B (zh) | 2023-06-02 |
Family
ID=72332669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010501058.XA Active CN111639177B (zh) | 2020-06-04 | 2020-06-04 | 文本提取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111639177B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381147B (zh) * | 2020-11-16 | 2024-04-26 | 虎博网络技术(上海)有限公司 | 动态图片相似度模型建立、相似度计算方法和装置 |
CN113553892A (zh) * | 2020-12-31 | 2021-10-26 | 内蒙古卫数数据科技有限公司 | 一种基于深度学习和ocr的检验、体检报告单结果提取方法 |
CN112699689B (zh) * | 2021-01-05 | 2024-07-19 | 虎博网络技术(上海)有限公司 | 音频切分方法、装置和电子设备 |
CN112802585B (zh) * | 2021-01-26 | 2022-10-04 | 武汉大学 | 一种基于分类器的优化医疗x线检查数据分类方法及装置 |
CN112800227B (zh) * | 2021-01-29 | 2023-01-17 | 科大讯飞股份有限公司 | 文本分类模型的训练方法及其设备、存储介质 |
CN112800747A (zh) * | 2021-02-02 | 2021-05-14 | 虎博网络技术(北京)有限公司 | 文本处理方法、装置及计算机设备 |
CN113033216B (zh) * | 2021-03-03 | 2024-05-28 | 东软集团股份有限公司 | 文本预处理方法、装置、存储介质及电子设备 |
CN113204637B (zh) * | 2021-04-13 | 2022-09-27 | 北京三快在线科技有限公司 | 一种文本处理的方法、装置、存储介质及电子设备 |
CN113468309B (zh) * | 2021-06-30 | 2023-12-22 | 竹间智能科技(上海)有限公司 | 文本中的答案抽取方法以及电子设备 |
CN114139545A (zh) * | 2021-12-07 | 2022-03-04 | 北京金山数字娱乐科技有限公司 | 信息提取方法及装置 |
CN114266238A (zh) * | 2021-12-14 | 2022-04-01 | 科大讯飞(苏州)科技有限公司 | 文本要素提取方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019758A (zh) * | 2019-04-11 | 2019-07-16 | 北京百度网讯科技有限公司 | 一种核心要素提取方法、装置及电子设备 |
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301170B (zh) * | 2017-06-19 | 2020-12-22 | 北京百度网讯科技有限公司 | 基于人工智能的切分语句的方法和装置 |
-
2020
- 2020-06-04 CN CN202010501058.XA patent/CN111639177B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
CN110019758A (zh) * | 2019-04-11 | 2019-07-16 | 北京百度网讯科技有限公司 | 一种核心要素提取方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
王闻慧 ; .基于谷歌翻译及Doc2vec的中英句子相似度计算.电脑知识与技术.2019,(15),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111639177A (zh) | 2020-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639177B (zh) | 文本提取方法和装置 | |
CN110209764B (zh) | 语料标注集的生成方法及装置、电子设备、存储介质 | |
CN107291723B (zh) | 网页文本分类的方法和装置,网页文本识别的方法和装置 | |
CN102576358B (zh) | 单词对取得装置、单词对取得方法及其程序 | |
CN111125354A (zh) | 文本分类方法及装置 | |
CN113590764B (zh) | 训练样本构建方法、装置、电子设备和存储介质 | |
CN108536868B (zh) | 社交网络上短文本数据的数据处理方法及装置 | |
US20150154245A1 (en) | System and method of quality assessment of a search index | |
CN115544240B (zh) | 文本类敏感信息识别方法、装置、电子设备和存储介质 | |
CN113722492A (zh) | 一种意图识别方法及装置 | |
CN112395392A (zh) | 一种意图识别方法及装置、可读存储介质 | |
CN110321557A (zh) | 一种文本分类方法、装置、电子设备及存储介质 | |
CN115758183A (zh) | 日志异常检测模型的训练方法及装置 | |
CN115086182A (zh) | 邮件识别模型的优化方法、装置、电子设备及存储介质 | |
CN114398968B (zh) | 基于文件相似度对同类获客文件进行标注的方法和装置 | |
CN114048740A (zh) | 敏感词检测方法、装置及计算机可读存储介质 | |
CN108475265B (zh) | 获取未登录词的方法与装置 | |
CN117149956A (zh) | 一种文本检索方法、装置、电子设备及可读存储介质 | |
CN108733733B (zh) | 基于机器学习的生物医学文本分类方法、系统和存储介质 | |
CN115577109A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN111611394B (zh) | 一种文本分类方法、装置、电子设备及可读存储介质 | |
CN115526173A (zh) | 一种基于计算机信息技术的特征词提取方法及系统 | |
CN114120425A (zh) | 一种情绪识别方法、装置、电子设备及存储介质 | |
CN113297482A (zh) | 基于多模型的搜索引擎数据的用户画像刻画方法及系统 | |
CN112308453A (zh) | 风险识别模型训练方法、用户风险识别方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |