CN112836508A - 信息提取模型训练方法、装置、终端设备及存储介质 - Google Patents
信息提取模型训练方法、装置、终端设备及存储介质 Download PDFInfo
- Publication number
- CN112836508A CN112836508A CN202110125161.3A CN202110125161A CN112836508A CN 112836508 A CN112836508 A CN 112836508A CN 202110125161 A CN202110125161 A CN 202110125161A CN 112836508 A CN112836508 A CN 112836508A
- Authority
- CN
- China
- Prior art keywords
- label
- information
- vector
- model training
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本申请适用于人工智能技术领域,提供了一种信息提取模型训练方法、装置、终端设备及存储介质,该方法包括:根据预设的标签提取方式对样本文本进行标签提取,得到标签信息;获取预设的标签提取方式对应的标签类型,并根据标签类型对标签信息进行标签设置;提取样本文本的特征向量,并根据标签设置后的标签信息对特征向量进行标签标记;根据标签标记后的特征向量构建模型训练集,并根据模型训练集对信息提取模型进行模型训练,直至信息提取模型收敛。本申请能根据需求有效地提取到样本文本中不同的标签信息,并能自动进行标签信息的标签设置,防止了由于人工进行标签设置所导致的标签设置准确性低下的现象。此外,本申请还涉及区块链技术。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种信息提取模型训练方法、装置、终端设备及存储介质。
背景技术
随着互联网的快速发展,网络上传播的数据信息越来越多。为了使人们快速从数据信息中提取到有效信息,对数据信息的结构化是必要过程,数据信息结构化是指从数据信息中提取出事件发生的时间、地点、人物、事件核心等要素的过程。
现有数据信息的结构化均是基于信息提取模型的方式进行信息的提取,但现有的信息提取模型训练过程中,均是采用人工的方式进行标签设置,进而导致用户操作繁琐,且人工进行标签设置准确性低下,降低了信息提取模型的训练效果。
发明内容
有鉴于此,本申请实施例提供了一种信息提取模型训练方法、装置、终端设备及存储介质,以解决现有技术的信息提取模型训练过程中,由于采用人工的方式进行标签设置,导致的信息提取模型训练效果低下的问题。
本申请实施例的第一方面提供了一种信息提取模型训练方法,包括:
获取样本文本,并根据预设的标签提取方式对所述样本文本进行标签提取,得到标签信息;
获取所述预设的标签提取方式对应的标签类型,并根据所述标签类型对所述标签信息进行标签设置;
提取所述样本文本的特征向量,并根据标签设置后的所述标签信息对所述特征向量进行标签标记;
根据标签标记后的所述特征向量构建模型训练集,并根据所述模型训练集对信息提取模型进行模型训练,直至所述信息提取模型收敛。
进一步地,所述根据预设的标签提取方式对所述样本文本进行标签提取,得到标签信息,包括:
对所述样本文本进行分词,得到分词词汇,并获取所述预设的标签提取方式对应的标签词汇列表,其中,所述标签词汇列表中存储有预先设置的标签词汇;
将所述标签词汇与所述分词词汇进行匹配;
若所述分词词汇与所述标签列表中任一所述标签词汇相匹配,则对所述分词词汇进行提取,得到所述标签信息。
进一步地,所述获取所述预设的标签提取方式对应的标签类型,并根据所述标签类型对所述标签信息进行标签设置,包括:
获取所述标签词汇列表对应的列表标识,并获取所述列表标识所指向的类型;
将获取到的类型设置为对应所述预设的标签提取方式的所述标签类型;
根据所述标签类型对同一所述标签词汇列表相匹配到的所述标签信息进行标签设置。
进一步地,所述提取所述样本文本的特征向量,包括:
分别提取所述样本文本中的词向量、词位置向量、文本顺序向量、字符向量和重叠词向量;
将提取到的所述词向量、所述词位置向量、所述文本顺序向量、所述字符向量和所述重叠词向量进行向量组合,得到所述特征向量。
进一步地,所述分别提取所述样本文本中的词向量、词位置向量、文本顺序向量、字符向量和重叠词向量,包括:
对所述样本文本中语句内的词汇进行向量映射处理,得到所述词向量,所述样本文本中至少包括一条所述语句,每个所述语句内至少包括一个所述词汇;
分别获取所述词汇在对应所述语句中的位置信息,并对所述位置信息进行位置编码处理,得到所述词位置向量,所述位置编码处理用于将所述位置信息编码为对应的向量特征;
获取所述样本文本中不同所述语句之间的段落顺序,并根据所述段落顺序对所述语句进行顺序编码,得到所述文本顺序向量;
获取所述样本文本中的文本字符,并将所述文本字符与预设的字符向量表进行匹配,得到所述字符向量,所述字符向量表中存储有不同所述文本字符与对应所述字符向量之间的对应关系;
分别获取所述样本文本中词汇的切分次数,并获取所述切分次数所指向的向量,得到所述重叠词向量,所述切分次数为对应所述词汇被切分为指定词组的次数。
进一步地,所述根据所述模型训练集对信息提取模型进行模型训练,包括:
将所述模型训练集输入所述信息提取模型中的编码器,并根据所述编码器对所述模型训练集中的所述特征向量进行编码;
将所述编码器的编码结果输入所述信息提取模型中的解码器,并根据所述解码器对所述编码结果进行解码,得到解码结果;
根据所述解码结果和所述模型训练集中的所述特征向量携带的所述标签信息进行损失计算,得到模型损失值;
若所述模型损失值小于或等于损失阈值,则根据所述模型损失值对所述编码器和所述解码器进行参数权重的更新,并根据更新后的所述编码器继续执行对所述模型训练集中的所述特征向量进行编码的步骤以及后续步骤,直到损失计算得到的所述模型损失值大于所述损失阈值。
本申请实施例的第二方面提供了一种信息提取方法,包括:
获取待提取数据,并将所述待提取数据输入采用第一方面提供的信息提取模型训练方法训练后的所述信息提取模型进行信息提取,得到目标信息。
本申请实施例的第三方面提供了一种信息提取模型训练装置,包括:
标签提取单元,用于获取样本文本,并根据预设的标签提取方式对所述样本文本进行标签提取,得到标签信息;
标签设置单元,用于获取所述预设的标签提取方式对应的标签类型,并根据所述标签类型对所述标签信息进行标签设置;
标签标记单元,用于提取所述样本文本的特征向量,并根据标签设置后的所述标签信息对所述特征向量进行标签标记;
模型训练单元,用于根据标签标记后的所述特征向量构建模型训练集,并根据所述模型训练集对信息提取模型进行模型训练,直至所述信息提取模型收敛。
本申请实施例的第四方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在终端设备上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方案提供的信息提取模型训练方法的各步骤。
本申请实施例的第五方面提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方案提供的信息提取模型训练方法的各步骤。
本申请实施例提供的一种信息提取模型训练方法、装置、终端设备及存储介质具有以下有益效果:
本申请实施例提供的一种信息提取模型训练方法,通过获取样本文本,并根据预设的标签提取方式对样本文本进行标签提取,能根据需求有效地提取到样本文本中不同的标签信息,通过获取预设的标签提取方式对应的标签类型,并根据标签类型对标签信息进行标签设置,能自动进行标签信息的标签设置,有效防止了由于人工进行标签设置所导致的标签设置准确性低下的现象,进而提高了信息提取模型的训练效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种信息提取模型训练方法的实现流程图;
图2是本申请另一实施例提供的一种信息提取模型训练方法的实现流程图;
图3是图2中步骤S31的具体实施步骤的流程图;
图4是本申请实施例提供的一种信息提取模型训练装置的结构框图;
图5是本申请实施例提供的一种终端设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例所涉及的信息提取模型训练方法,可以由控制设备或终端(以下称“移动终端”)执行。
请参阅图1,图1示出了本申请实施例提供的一种信息提取模型训练方法的实现流程图,包括:
步骤S10,获取样本文本,并根据预设的标签提取方式对所述样本文本进行标签提取,得到标签信息。
其中,通过接收预先设置的事件信息,以获取该样本文本,该事件信息可以采用文字信息、语音信息或图像信息的方式进行传输,若该事件信息采用语音信息的方式进行传输时,则对该事件信息进行语音转换,以得到该事件信息对应的样本文本,若该事件信息采用图像信息的方式进行传输时,则对该事件信息进行图像文字识别,以得到该事件信息对应的样本文本。
本实施例中,至少设置有两个不同的预设的标签提取方式,该预设的标签提取方式可用于提取该样本文本中对应标签类型的标签信息,不同预设的标签提取方式对应的标签类型不相同,即,不同预设的标签提取方式提取到的标签信息不相同。
例如,本实施例中包括第一预设的标签提取方式、第二预设的标签提取方式和第三预设的标签提取方式,第一预设的标签提取方式对应的标签类型是时间,第二预设的标签提取方式对应的标签类型是地点,第三预设的标签提取方式对应的标签类型是人物,则根据第一预设的标签提取方式、第二预设的标签提取方式和第三预设的标签提取方式分别对该样本文本进行标签提取,以得到时间标签对应的标签信息a1、地点标签对应的第二标签信息和人物标签对应的标签信息a3。
具体的,该步骤中,所述根据预设的标签提取方式对所述样本文本进行标签提取,得到标签信息,包括:
对所述样本文本进行分词,得到分词词汇,并获取所述预设的标签提取方式对应的标签词汇列表;
其中,该样本文本中至少包括一条语句,每个语句至少包括一个词汇,该步骤中,通过将该样本文本中的语句分别与词汇查询表进行匹配,以得到该分词词汇,该词汇查询表中存储有预先设置的指定词汇,若该语句中的词汇与任一指定词汇相匹配时,则根据匹配到的指定词汇对该语句中的词汇进行分词,得到该分词词汇,通过对样本文本进行分词,有效的提高了对样本文本进行标签提取的准确性,进一步地,该标签词汇列表中存储有预先设置的标签词汇。
具体的,通过将该预设的标签提取方式的提取标识所指向的词汇列表设置为该预设的标签提取方式对应的标签词汇列表,以得到不同预设的标签提取方式对应的标签词汇列表,例如,本实施例中包括第一预设的标签提取方式、第二预设的标签提取方式和第三预设的标签提取方式,则根据第一预设的标签提取方式、第二预设的标签提取方式和第三预设的标签提取方式的提取标签分别进行词汇列表的查询,以得到第一标签词汇列表、第二标签词汇列表和第三标签词汇列表,需要说明的是,不同预设的标签提取方式对应的提取标签不相同。
将所述标签词汇与所述分词词汇进行匹配;
其中,若获取到的标签词汇列表包括第一标签词汇列表、第二标签词汇列表和第三标签词汇列表时,则将第一标签词汇列表、第二标签词汇列表和第三标签词汇列表分别与分词词汇进行匹配。
若所述分词词汇与所述标签列表中任一所述标签词汇相匹配,则对所述分词词汇进行提取,得到所述标签信息;
其中,若分词词汇与标签列表中任一标签词汇相匹配,则判定该分词词汇为对应样本文本的标签信息,该步骤中,基于第一标签词汇列表、第二标签词汇列表和第三标签词汇列表与分词词汇之间的匹配结果,以得到该第一预设的标签提取方式对应的标签信息a1、第二预设的标签提取方式对应的标签信息a2和第三预设的标签提取方式对应的标签信息a3。
步骤S20,获取所述预设的标签提取方式对应的标签类型,并根据所述标签类型对所述标签信息进行标签设置。
其中,该标签类型用于对该预设的标签提取方式提取到的标签信息进行标签的设置,例如,本实施例中包括第一预设的标签提取方式、第二预设的标签提取方式和第三预设的标签提取方式,第一预设的标签提取方式、第二预设的标签提取方式和第三预设的标签提取方式提取到的标签信息包括标签信息a1、标签信息a2和标签信息a3,第一预设的标签提取方式、第二预设的标签提取方式和第三预设的标签提取方式对应的标签类型为标签类型b1、标签类型b2和标签类型b3,则根据标签类型b1对该标签信息a1进行标签设置,根据标签类型b2对该标签信息a2进行标签设置,根据标签类型b3对该标签信息a3进行标签设置。
该步骤中,当该标签类型b1是时间,则将该标签信息a1设置为样本文本中的时间标签,当该标签类型b2是地点,则将该标签信息a2设置为样本文本中的地点标签,当该标签类型b3是人物,则将该标签信息a3设置为样本文本中的人物标签。
具体的,该步骤中,所述获取所述预设的标签提取方式对应的标签类型,并根据所述标签类型对所述标签信息进行标签设置,包括:
获取所述标签词汇列表对应的列表标识,并获取所述列表标识所指向的类型,其中,不同标签词汇列表之间的列表标识不相同;
将获取到的类型设置为对应所述预设的标签提取方式的所述标签类型;
根据所述标签类型对同一所述标签词汇列表相匹配到的所述标签信息进行标签设置,其中,通过根据标签类型对同一标签词汇列表相匹配到的标签信息进行标签设置,有效的提高了对标签信息进行标签设置的准确性。
步骤S30,提取所述样本文本的特征向量,并根据标签设置后的所述标签信息对所述特征向量进行标签标记。
其中,该特征向量用于表征样本文本中的文本特征,该文本特征包括词汇内容特征、词汇位置特征、文本顺序特征、字符特征和重叠词特征,该词汇内容特征用于表征样本文本中词汇的内容,该词汇位置特征用于表征对应词汇在样本文本中的位置,文本顺序特征用于表征对应语句在样本文本中的顺序,字符特征用于表征对应字符内容,重叠词特征用于表征对应词汇在样本文本中可以被切分为指定词组的次数。
具体的,该步骤中,通过根据标签设置后的标签信息对所述特征向量进行标签标记,以达到对特征向量进行样本标记的效果,该标签标记用于将标签设置后的标签信息与特征向量之间形成一一对应关系,有效的提高了后续信息提取模型训练的准确性。
步骤S40,根据标签标记后的所述特征向量构建模型训练集,并根据所述模型训练集对信息提取模型进行模型训练,直至所述信息提取模型收敛。
其中,通过将标签标记后的特征向量与对应的标签信息进行存储,以构建该模型训练集。
具体的,该步骤中,所述根据所述模型训练集对信息提取模型进行模型训练,包括:
将所述模型训练集输入所述信息提取模型中的编码器,并根据所述编码器对所述模型训练集中的所述特征向量进行编码,其中,通过根据编码器对模型训练集中的特征向量进行编码,能有效的将模型训练集中的不同特征向量编码为对应的向量信息;
将所述编码器的编码结果输入所述信息提取模型中的解码器,并根据所述解码器对所述编码结果进行解码,得到解码结果,其中,通过根据解码器对编码结果进行解码,能有效的将编码器的编码结果进行解码,得到对应的解码结果;
根据所述解码结果和所述模型训练集中的所述特征向量携带的所述标签信息进行损失计算,得到模型损失值,其中,通过解码结果和模型训练集中的特征向量携带的标签信息进行损失计算,以计算编码器和解码器的计算误差;
若所述模型损失值小于或等于损失阈值,则根据所述模型损失值对所述编码器和所述解码器进行参数权重的更新,并根据更新后的所述编码器继续执行对所述模型训练集中的所述特征向量进行编码的步骤以及后续步骤,直到损失计算得到的所述模型损失值大于所述损失阈值。
本实施例中,通过获取样本文本,并根据预设的标签提取方式对样本文本进行标签提取,能根据需求有效地提取到样本文本中不同的标签信息,通过获取预设的标签提取方式对应的标签类型,并根据标签类型对标签信息进行标签设置,能自动进行标签信息的标签设置,有效防止了由于人工进行标签设置所导致的标签设置准确性低下的现象,进而提高了信息提取模型的训练效果。
请参阅图2,图2是本申请另一实施例提供的一种信息提取模型训练方法的实现流程图。相对于图1实施例,本实施例提供的信息提取模型训练方法是对图1实施例中步骤S30作进一步细化,包括:
步骤S31,分别提取所述样本文本中的词向量、词位置向量、文本顺序向量、字符向量和重叠词向量。
具体的,请参阅图3,是图2中步骤S31的具体实施步骤的流程图,包括:
步骤S310,对所述样本文本中语句内的词汇进行向量映射处理,得到所述词向量。
其中,可以根据预设映射算法对样本文本中语句内的词汇进行向量映射,以得到不同词汇对应的词向量,该预设映射算法可以根据需求进行设置,例如,该预设映射算法可以设置为计数向量算法(Count Vector)、TF-IDF矢量算法(TF-IDF Vector)和共现向量算法(Co-Occurence Vector)等。
步骤S311,分别获取所述词汇在对应所述语句中的位置信息,并对所述位置信息进行位置编码处理,得到所述词位置向量。
其中,该位置编码处理用于将位置信息编码为对应的向量特征,该步骤中,基于词汇在对应语句中的位置信息执行向量嵌入操作,以得到该词位置向量,通过基于词汇在对应语句中的位置信息执行向量嵌入操作,以根据位置信息的位置编码结果,将不同位置信息对应的词向量进行向量嵌入,得到该词位置向量。
步骤S312,获取所述样本文本中不同所述语句之间的段落顺序,并根据所述段落顺序对所述语句进行顺序编码,得到所述文本顺序向量。
其中,通过分别获取样本文本中不同语句对应的段落信息,基于获取到的段落信息对该语句中的词向量进行向量嵌入操作,以得到该文本顺序向量,通过基于获取到的段落信息对该语句中的词向量进行向量嵌入操作,以根据段落信息的顺序编码结果,将不同段落信息对应语句中的词向量进行向量嵌入,得到该文本顺序向量。
步骤S313,获取所述样本文本中的文本字符,并将所述文本字符与预设的字符向量表进行匹配,得到所述字符向量。
其中,该文本字符包括字母、标点、空白符或公式等信息,该字符向量表中存储有不同文本字符与对应字符向量之间的对应关系,因此,通过将样本文本中获取到的文本字符分别与字符向量表进行匹配,以得到文本字符对应的字符向量。
步骤S314,分别获取所述样本文本中词汇的切分次数,并获取所述切分次数所指向的向量,得到所述重叠词向量。
其中,该切分次数为对应词汇被切分为指定词组的次数,通过分别获取样本文本中词汇的切分次数,并将切分次数所指向的向量设置为该词汇的重叠词向量,有效的方便了样本文本中词汇的歧义分析。
例如,当样本文本为“中国驻美国大使馆”时,由于词汇“中国”和“美国”可以单独被当成词组,因此,词汇“中国”和“美国”的切分次数为2,其他词汇的切分次数均为1,并将词汇对应的切分次数与重叠词向量查询表进行匹配,以得到不同切分次数对应词汇的重叠词向量,该重叠词向量查询表中存储有不同切分次数与对应重叠词向量之间的对应关系。
请继续参阅图2,步骤S32,将提取到的所述词向量、所述词位置向量、所述文本顺序向量、所述字符向量和所述重叠词向量进行向量组合,得到所述特征向量。
其中,通过将提取到的词向量、词位置向量、文本顺序向量、字符向量和重叠词向量进行矢量求和,以得到该特征向量。
本实施例中,通过对样本文本中语句内的词汇进行向量映射处理,以得到不同词汇对应的词向量,通过分别获取词汇在对应语句中的位置信息,并对位置信息进行位置编码处理,以根据位置信息的位置编码结果,将不同位置信息对应的词向量进行向量嵌入得到该词位置向量,通过获取样本文本中不同语句之间的段落顺序,并根据段落顺序对语句进行顺序编码,以根据段落信息的顺序编码结果,将不同段落信息对应语句中的词向量进行向量嵌入,得到该文本顺序向量,通过获取样本文本中的文本字符,并将文本字符与预设的字符向量表进行匹配,能有效的获取到样本文本中不同文本字符对应的字符向量,进而提高了后续信息提取模型中对文本字符特征的学习。
本申请实施例还提供一种信息提取方法,包括:
获取待提取数据,并将所述待提取数据输入采用图1或图2实施例信息提取模型训练方法训练后的所述信息提取模型进行信息提取,得到目标信息。
本实施例中,基于信息提取模型训练方法训练后的信息提取模型,能有效的提取到待提取数据中的词向量、词位置向量、文本顺序向量、字符向量和重叠词向量,并通过信息提取模型对待提取数据中的词向量、词位置向量、文本顺序向量、字符向量和重叠词向量进行文本转化,得到该目标信息。
在本申请的所有实施例中,基于模型训练集对信息提取模型进行模型训练得到收敛后的信息提取模型,具体来说,收敛后的信息提取模型由模型训练集对信息提取模型进行模型训练得到。将收敛后的信息提取模型上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得到该收敛后的信息提取模型,以便查证收敛后的信息提取模型是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
请参阅图4,图4是本申请实施例提供的一种信息提取模型训练装置100的结构框图。本实施例中该信息提取模型训练装置100包括的各单元用于执行图1、图2、图3对应的实施例中的各步骤。具体请参阅图1、图2、图3以及图1、图2、图3所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图4,信息提取模型训练装置100包括:标签提取单元10、标签设置单元11、标签标记单元12和模型训练单元13,其中:
标签提取单元10,用于获取样本文本,并根据预设的标签提取方式对所述样本文本进行标签提取,得到标签信息。
其中,该标签提取单元10还用于:对所述样本文本进行分词,得到分词词汇,并获取所述预设的标签提取方式对应的标签词汇列表,其中,所述标签词汇列表中存储有预先设置的标签词汇;
将所述标签词汇与所述分词词汇进行匹配;
若所述分词词汇与所述标签列表中任一所述标签词汇相匹配,则对所述分词词汇进行提取,得到所述标签信息。
标签设置单元11,用于获取所述预设的标签提取方式对应的标签类型,并根据所述标签类型对所述标签信息进行标签设置。
其中,该标签设置单元11还用于:获取所述标签词汇列表对应的列表标识,并获取所述列表标识所指向的类型;
将获取到的类型设置为对应所述预设的标签提取方式的所述标签类型;
根据所述标签类型对同一所述标签词汇列表相匹配到的所述标签信息进行标签设置。
标签标记单元12,用于提取所述样本文本的特征向量,并根据标签设置后的所述标签信息对所述特征向量进行标签标记。
其中,该标签标记单元12还用于:分别提取所述样本文本中的词向量、词位置向量、文本顺序向量、字符向量和重叠词向量;
将提取到的所述词向量、所述词位置向量、所述文本顺序向量、所述字符向量和所述重叠词向量进行向量组合,得到所述特征向量。
可选的,该标签标记单元12还用于:对所述样本文本中语句内的词汇进行向量映射处理,得到所述词向量,所述样本文本中至少包括一条所述语句,每个所述语句内至少包括一个所述词汇;
分别获取所述词汇在对应所述语句中的位置信息,并对所述位置信息进行位置编码处理,得到所述词位置向量,所述位置编码处理用于将所述位置信息编码为对应的向量特征;
获取所述样本文本中不同所述语句之间的段落顺序,并根据所述段落顺序对所述语句进行顺序编码,得到所述文本顺序向量;
获取所述样本文本中的文本字符,并将所述文本字符与预设的字符向量表进行匹配,得到所述字符向量,所述字符向量表中存储有不同所述文本字符与对应所述字符向量之间的对应关系;
分别获取所述样本文本中词汇的切分次数,并获取所述切分次数所指向的向量,得到所述重叠词向量,所述切分次数为对应所述词汇被切分为指定词组的次数。
模型训练单元13,用于根据标签标记后的所述特征向量构建模型训练集,并根据所述模型训练集对信息提取模型进行模型训练,直至所述信息提取模型收敛。
其中,该模型训练单元13还用于:将所述模型训练集输入所述信息提取模型中的编码器,并根据所述编码器对所述模型训练集中的所述特征向量进行编码;
将所述编码器的编码结果输入所述信息提取模型中的解码器,并根据所述解码器对所述编码结果进行解码,得到解码结果;
根据所述解码结果和所述模型训练集中的所述特征向量携带的所述标签信息进行损失计算,得到模型损失值;
若所述模型损失值小于或等于损失阈值,则根据所述模型损失值对所述编码器和所述解码器进行参数权重的更新,并根据更新后的所述编码器继续执行对所述模型训练集中的所述特征向量进行编码的步骤以及后续步骤,直到损失计算得到的所述模型损失值大于所述损失阈值。
本实施例中,通过获取样本文本,并根据预设的标签提取方式对样本文本进行标签提取,能根据需求有效地提取到样本文本中不同的标签信息,通过获取预设的标签提取方式对应的标签类型,并根据标签类型对标签信息进行标签设置,能自动进行标签信息的标签设置,有效防止了由于人工进行标签设置所导致的标签设置准确性低下的现象,进而提高了信息提取模型的训练效果。
图5是本申请另一实施例提供的一种终端设备2的结构框图。如图5所示,该实施例的终端设备2包括:处理器20、存储器21以及存储在所述存储器21中并可在所述处理器20上运行的计算机程序22,例如信息提取模型训练方法的程序。处理器20执行所述计算机程序23时实现上述各个信息提取模型训练方法各实施例中的步骤,例如图1所示的S10至S40,或者图2所示的S31至S32,或者图3所示的S310至S314。或者,所述处理器20执行所述计算机程序22时实现上述图4对应的实施例中各单元的功能,例如,图4所示的单元10至13的功能,具体请参阅图5对应的实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序22可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器21中,并由所述处理器20执行,以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序22在所述终端设备2中的执行过程。例如,所述计算机程序22可以被分割成标签提取单元10、标签设置单元11、标签标记单元12和模型训练单元13,各单元具体功能如上所述。
所述终端设备可包括,但不仅限于,处理器20、存储器21。本领域技术人员可以理解,图5仅仅是终端设备2的示例,并不构成对终端设备2的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器20可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器21可以是所述终端设备2的内部存储单元,例如终端设备2的硬盘或内存。所述存储器21也可以是所述终端设备2的外部存储设备,例如所述终端设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器21还可以既包括所述终端设备2的内部存储单元也包括外部存储设备。所述存储器21用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器21还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种信息提取模型训练方法,其特征在于,包括:
获取样本文本,并根据预设的标签提取方式对所述样本文本进行标签提取,得到标签信息;
获取所述预设的标签提取方式对应的标签类型,并根据所述标签类型对所述标签信息进行标签设置;
提取所述样本文本的特征向量,并根据标签设置后的所述标签信息对所述特征向量进行标签标记;
根据标签标记后的所述特征向量构建模型训练集,并根据所述模型训练集对信息提取模型进行模型训练,直至所述信息提取模型收敛。
2.根据权利要求1所述的信息提取模型训练方法,其特征在于,所述根据预设的标签提取方式对所述样本文本进行标签提取,得到标签信息,包括:
对所述样本文本进行分词,得到分词词汇,并获取所述预设的标签提取方式对应的标签词汇列表,其中,所述标签词汇列表中存储有预先设置的标签词汇;
将所述标签词汇与所述分词词汇进行匹配;
若所述分词词汇与所述标签列表中任一所述标签词汇相匹配,则对所述分词词汇进行提取,得到所述标签信息。
3.根据权利要求2所述的信息提取模型训练方法,其特征在于,所述获取所述预设的标签提取方式对应的标签类型,并根据所述标签类型对所述标签信息进行标签设置标签信息,包括:
获取所述标签词汇列表对应的列表标识,并获取所述列表标识所指向的类型;
将获取到的类型设置为对应所述预设的标签提取方式的所述标签类型;
根据所述标签类型对同一所述标签词汇列表相匹配到的所述标签信息进行标签设置。
4.根据权利要求1所述的信息提取模型训练方法,其特征在于,所述提取所述样本文本的特征向量,包括:
分别提取所述样本文本中的词向量、词位置向量、文本顺序向量、字符向量和重叠词向量;
将提取到的所述词向量、所述词位置向量、所述文本顺序向量、所述字符向量和所述重叠词向量进行向量组合,得到所述特征向量。
5.根据权利要求4所述的信息提取模型训练方法,其特征在于,所述分别提取所述样本文本中的词向量、词位置向量、文本顺序向量、字符向量和重叠词向量,包括:
对所述样本文本中语句内的词汇进行向量映射处理,得到所述词向量,所述样本文本中至少包括一条所述语句,每个所述语句内至少包括一个所述词汇;
分别获取所述词汇在对应所述语句中的位置信息,并对所述位置信息进行位置编码处理,得到所述词位置向量,所述位置编码处理用于将所述位置信息编码为对应的向量特征;
获取所述样本文本中不同所述语句之间的段落顺序,并根据所述段落顺序对所述语句进行顺序编码,得到所述文本顺序向量;
获取所述样本文本中的文本字符,并将所述文本字符与预设的字符向量表进行匹配,得到所述字符向量,所述字符向量表中存储有不同所述文本字符与对应所述字符向量之间的对应关系;
分别获取所述样本文本中词汇的切分次数,并获取所述切分次数所指向的向量,得到所述重叠词向量,所述切分次数为对应所述词汇被切分为指定词组的次数。
6.根据权利要求1所述的信息提取模型训练方法,其特征在于,所述根据所述模型训练集对信息提取模型进行模型训练,包括:
将所述模型训练集输入所述信息提取模型中的编码器,并根据所述编码器对所述模型训练集中的所述特征向量进行编码;
将所述编码器的编码结果输入所述信息提取模型中的解码器,并根据所述解码器对所述编码结果进行解码,得到解码结果;
根据所述解码结果和所述模型训练集中的所述特征向量携带的所述标签信息进行损失计算,得到模型损失值;
若所述模型损失值小于或等于损失阈值,则根据所述模型损失值对所述编码器和所述解码器进行参数权重的更新,并根据更新后的所述编码器继续执行对所述模型训练集中的所述特征向量进行编码的步骤以及后续步骤,直到损失计算得到的所述模型损失值大于所述损失阈值。
7.一种信息提取方法,其特征在于,包括:
获取待提取数据,并将所述待提取数据输入采用如权利要求1至6任一项所述方法训练后的所述信息提取模型进行信息提取,得到目标信息。
8.一种信息提取模型训练装置,其特征在于,包括:
标签提取单元,用于获取样本文本,并根据预设的标签提取方式对所述样本文本进行标签提取,得到标签信息;
标签设置单元,用于获取所述预设的标签提取方式对应的标签类型,并根据所述标签类型对所述标签信息进行标签设置;
标签标记单元,用于提取所述样本文本的特征向量,并根据标签设置后的所述标签信息对所述特征向量进行标签标记;
模型训练单元,用于根据标签标记后的所述特征向量构建模型训练集,并根据所述模型训练集对信息提取模型进行模型训练,直至所述信息提取模型收敛。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110125161.3A CN112836508B (zh) | 2021-01-29 | 2021-01-29 | 信息提取模型训练方法、装置、终端设备及存储介质 |
PCT/CN2021/091081 WO2022160490A1 (zh) | 2021-01-29 | 2021-04-29 | 信息提取模型训练方法、装置、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110125161.3A CN112836508B (zh) | 2021-01-29 | 2021-01-29 | 信息提取模型训练方法、装置、终端设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112836508A true CN112836508A (zh) | 2021-05-25 |
CN112836508B CN112836508B (zh) | 2023-04-14 |
Family
ID=75931077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110125161.3A Active CN112836508B (zh) | 2021-01-29 | 2021-01-29 | 信息提取模型训练方法、装置、终端设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112836508B (zh) |
WO (1) | WO2022160490A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204956A (zh) * | 2021-07-06 | 2021-08-03 | 深圳市北科瑞声科技股份有限公司 | 多模型训练方法、摘要分段方法、文本分段方法及装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116186271B (zh) * | 2023-04-19 | 2023-07-25 | 北京亚信数据有限公司 | 一种医疗专业名词分类模型训练方法、分类方法及装置 |
CN117520754B (zh) * | 2024-01-05 | 2024-04-12 | 北京睿企信息科技有限公司 | 一种模型训练数据的预处理系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933662A (zh) * | 2019-02-15 | 2019-06-25 | 北京奇艺世纪科技有限公司 | 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质 |
CN110781682A (zh) * | 2019-10-23 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 命名实体识别模型训练方法、识别方法、装置及电子设备 |
CN111695352A (zh) * | 2020-05-28 | 2020-09-22 | 平安科技(深圳)有限公司 | 基于语义分析的评分方法、装置、终端设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110728139A (zh) * | 2018-06-27 | 2020-01-24 | 鼎复数据科技(北京)有限公司 | 关键信息提取模型及其构建方法 |
CN110163220B (zh) * | 2019-04-26 | 2024-08-13 | 腾讯科技(深圳)有限公司 | 图片特征提取模型训练方法、装置和计算机设备 |
KR20190103090A (ko) * | 2019-08-15 | 2019-09-04 | 엘지전자 주식회사 | 연합학습(Federated learning)을 통한 단말의 POI 데이터를 생성하는 모델의 학습방법 및 이를 위한 장치 |
CN111444723B (zh) * | 2020-03-06 | 2023-07-28 | 深圳追一科技有限公司 | 信息抽取方法、计算机设备和存储介质 |
CN111343203B (zh) * | 2020-05-18 | 2020-08-28 | 国网电子商务有限公司 | 一种样本识别模型训练方法、恶意样本提取方法及装置 |
CN112069315A (zh) * | 2020-08-31 | 2020-12-11 | 深圳市卡牛科技有限公司 | 提取文本多维度信息方法、装置、服务器及存储介质 |
-
2021
- 2021-01-29 CN CN202110125161.3A patent/CN112836508B/zh active Active
- 2021-04-29 WO PCT/CN2021/091081 patent/WO2022160490A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109933662A (zh) * | 2019-02-15 | 2019-06-25 | 北京奇艺世纪科技有限公司 | 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质 |
CN110781682A (zh) * | 2019-10-23 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 命名实体识别模型训练方法、识别方法、装置及电子设备 |
CN111695352A (zh) * | 2020-05-28 | 2020-09-22 | 平安科技(深圳)有限公司 | 基于语义分析的评分方法、装置、终端设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204956A (zh) * | 2021-07-06 | 2021-08-03 | 深圳市北科瑞声科技股份有限公司 | 多模型训练方法、摘要分段方法、文本分段方法及装置 |
CN113204956B (zh) * | 2021-07-06 | 2021-10-08 | 深圳市北科瑞声科技股份有限公司 | 多模型训练方法、摘要分段方法、文本分段方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2022160490A1 (zh) | 2022-08-04 |
CN112836508B (zh) | 2023-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112836508B (zh) | 信息提取模型训练方法、装置、终端设备及存储介质 | |
CN109271631B (zh) | 分词方法、装置、设备及存储介质 | |
CN109299458B (zh) | 实体识别方法、装置、设备及存储介质 | |
CN110909548B (zh) | 中文命名实体识别方法、装置及计算机可读存储介质 | |
CN110827929B (zh) | 疾病分类编码识别方法、装置、计算机设备及存储介质 | |
CN107273356B (zh) | 基于人工智能的分词方法、装置、服务器和存储介质 | |
WO2023241410A1 (zh) | 数据处理方法、装置、设备及计算机介质 | |
CN111694826A (zh) | 基于人工智能的数据增强方法、装置、电子设备及介质 | |
CN114580424B (zh) | 一种用于法律文书的命名实体识别的标注方法和装置 | |
CN113656547B (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN113408268B (zh) | 槽位填充方法、装置、设备及存储介质 | |
CN112613322B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN111382271A (zh) | 文本分类模型的训练方法及装置、文本分类方法及装置 | |
CN113094478B (zh) | 表情回复方法、装置、设备及存储介质 | |
CN113434642B (zh) | 文本摘要生成方法、装置及电子设备 | |
CN112906403B (zh) | 语义分析模型训练方法、装置、终端设备及存储介质 | |
US11977975B2 (en) | Learning method using machine learning to generate correct sentences, extraction method, and information processing apparatus | |
CN113742454A (zh) | 基于人工智能的应答语料生成方法及相关设备 | |
CN114626380A (zh) | 实体识别的方法和装置、电子设备和存储介质 | |
CN116483979A (zh) | 基于人工智能的对话模型训练方法、装置、设备及介质 | |
CN111159394A (zh) | 一种文本摘要生成方法和装置 | |
CN114639096A (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN109614494B (zh) | 一种文本分类方法及相关装置 | |
CN115169330B (zh) | 中文文本纠错及验证方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |