CN111737999A - 一种序列标注方法、装置、设备及可读存储介质 - Google Patents
一种序列标注方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN111737999A CN111737999A CN202010591943.1A CN202010591943A CN111737999A CN 111737999 A CN111737999 A CN 111737999A CN 202010591943 A CN202010591943 A CN 202010591943A CN 111737999 A CN111737999 A CN 111737999A
- Authority
- CN
- China
- Prior art keywords
- word vector
- sentence
- word
- participle
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 151
- 239000013598 vector Substances 0.000 claims abstract description 246
- 238000000034 method Methods 0.000 claims abstract description 52
- 230000011218 segmentation Effects 0.000 claims description 31
- 238000011176 pooling Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 25
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 230000004927 fusion Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 5
- 230000008520 organization Effects 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本公开涉及自然语言处理技术领域,特别涉及一种序列标注方法、装置、设备及可读存储介质,用于提高序列标注的准确率,该方法为:针对待识别语句中包含的每一个分词,采用预先训练的字向量生成模型和预设的词向量生成模型,分别生成一个分词对应的第一词向量和第二词向量,并采用预先训练的权重系数,结合第一词向量和第二词向量,生成一个分词对应的第三词向量,然后,采用预先训练的序列标注模型,生成序列标注结果。这样,通过采用预先训练的权重系数进行词向量的融合,并将融合生成的第三词向量,作为序列标注模型的输入,优化了序列标注的处理过程,提高了序列标注的准确率、处理效率。
Description
技术领域
本公开涉及自然语言处理技术领域,特别涉及一种序列标注方法、装置、 设备及可读存储介质。
背景技术
序列标注是自然语言处理中一项基本且重要的问题,其涵盖范围广泛, 可用于解决一系列对字符进行分类的问题,如分词、词性标注、命名实体识 别、关系抽取等。
目前,在进行序列标注时,通常采用字粒度的特征方式进行序列标注。 然而,只考虑字粒度的特征方式,导致序列特征考虑的维度单一,从而造成 序列标注存在误差,导致序列标注的准确性较低。
由此可见,需要设计一种新的方案,以克服上述缺陷。
发明内容
本公开的主要目的在于提供一种序列标注方法、装置、设备及可读存储 介质,旨在优化序列标注的处理过程,提高序列标注的准确率。
为实现上述目的,本公开提供一种序列标注方法,所述序列标注方法包 括:
获取待识别语句,并对所述待识别语句进行分词处理,以确定所述待识 别语句中包含的各个分词;
采用预先训练的字向量生成模型,生成所述各个分词分别对应的第一词 向量;
采用预设的词向量生成模型,生成所述各个分词分别对应的第二词向量;
基于预先训练的权重系数,结合所述第一词向量和第二词向量,生成所 述各个分词分别对应的第三词向量;
基于获得的各个分词分别对应的第三词向量,采用预先训练的序列标注 模型,生成序列标注结果。
可选的,获取待识别语句之前,进一步包括:
获取若干样本数据,并对所述若干样本数据标注相应的真实标注结果;
采用循环迭代的方式,针对各个样本数据,执行以下操作,直到满足预 设的收敛条件为止:
对一个样本数据进行预处理,生成一个样本语句;
采用初始字向量生成模型、所述词向量生成模型、初始权重系数、初 始序列标注模型,生成所述一个样本语句对应的预测标注结果;
基于所述预测标注结果,以及所述一个样本数据对应的真实标注结果, 对所述初始字向量生成模型和所述初始序列标注模型进行训练;
基于所述预测标注结果,以及所述真实标注结果,对所述初始权重系 数进行训练;
确定满足预设的收敛条件时,输出训练后的字向量生成模型、序列标 注模型、权重系数。
可选的,基于所述预测标注结果,以及所述一个样本数据对应的真实标 注结果,对所述初始字向量生成模型、所述初始权重系数、所述初始序列标 注模型进行训练,具体包括:
将所述预测标注结果与所述一个样本数据对应的真实标注结果进行对比;
确定所述预测标注结果与所述真实标注结果之间存在误差时,根据所述 误差对所述初始字向量生成模型和所述初始序列标注模型中包含的各个参数 进行调整。
可选的,基于所述预测标注结果,以及所述真实标注结果,对所述初始 权重系数进行训练,具体包括:
将所述预测标注结果与所述一个样本数据对应的真实标注结果进行对比;
确定所述预测标注结果与所述真实标注结果之间存在误差时,根据所述 误差对所述初始权重系数进行调整,其中,所述初始权重系数至少包含缩放 参数或单项权重中的任一项或组合,所述缩放参数用于表征一个分词对应的 第一词向量和第二词向量的加和的整体权重,所述单项权重用于表征所述各 个分词对应的各个词向量的权重。
可选的,基于预先训练的权重系数,结合所述第一词向量和第二词向量, 生成所述各个分词分别对应的第三词向量,具体包括:
基于所述预先训练的权重系数中包含的单项权重,对所述第一词向量和 所述第二词向量进行加权求和,得到相应的整体值;
基于所述预先训练的权重系数中包含的缩放参数,将所述整体值进行调 整,得到所述各个分词分别对应的第三词向量;
其中,所述预先训练的权重系数是基于样本语句的各分词对应的第一词 向量和第二词向量,对所述样本语句的标注结果的影响权重进行学习得到的。
可选的,获取待识别语句之前,进一步包括:
获取待处理数据,并确定所述待处理数据的语句长度;
若所述语句长度未达到预设的固定语句长度,则采用预设的字符对所述 待处理数据进行填补,生成待识别语句;
若所述语句长度超过预设的固定语句长度时,则将所述待处理数据中超 过所述固定语句长度的部分进行截断,生成待识别语句;
若所述语句长度达到预设的固定语句长度时,则直接将所述待处理数据 作为待识别语句。
可选的,基于预先训练的字向量生成模型,生成各个分词对应的第一词 向量,具体包括:
采用预先训练的字向量生成模型,确定所述各个分词中包含的各个字分 别对应的各个字向量;
基于所述各个字向量,采用池化操作,生成所述各个分词对应的第一词 向量。
此外,为实现上述目的,本公开还提供一种序列标注装置,所述序列标 注装置包括:
第一处理单元,用于获取待识别语句,并对所述待识别语句进行分词处 理,以确定所述待识别语句中包含的各个分词;
第二处理单元,用于采用预先训练的字向量生成模型,生成所述各个分 词分别对应的第一词向量;
第三处理单元,用于采用预设的词向量生成模型,生成所述各个分词分 别对应的第二词向量;
第四处理单元,用于基于预先训练的权重系数,结合所述第一词向量和 第二词向量,生成所述各个分词分别对应的第三词向量;
第五处理单元,用于基于获得的各个分词分别对应的第三词向量,采用 预先训练的序列标注模型,生成序列标注结果。
此外,为实现上述目的,本公开还提供一种序列标注装置,所述序列标 注装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运 行的序列标注程序,所述序列标注程序被所述处理器执行时实现如上述任一 项所述的序列标注方法的步骤。
此外,为实现上述目的,本公开还提供一种计算机可读存储介质,所述 计算机可读存储介质上存储有序列标注程序,所述序列标注程序被处理器执 行时实现如上述任一项所述的序列标注方法的步骤。
综上所述,针对待识别语句中包含的各个分词,采用预先训练的字向量 生成模型和预设词向量生成模型,分别生成各个分词对应的第一词向量和第 二词向量,然后,采用预先训练的权重系数,结合第一词向量和第二词向量, 生成各个分词对应的第三词向量,之后,基于各个分词对应的第三词向量, 采用预先训练的序列标注模型,生成序列标注结果。这样,通过采用预先训 练的权重系数进行词向量的融合,不仅考虑到了词向量这一维度的特征,优 化了序列标注的处理过程,提高了序列标注的准确率,同时,通过将词向量融合生成的第三词向量,作为序列标注模型的输入,从而进一步提升了序列 标注的准确率,并减少了序列标注过程的数据处理时长,提高了序列标注的 处理效率。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例中提供的一种模型训练方法的流程示意图;
图2为本公开实施例中提供的一种序列标注方法的流程示意图;
图3为本公开实施例中提供的一种序列标注装置的逻辑架构示意图;
图4为本公开实施例中提供的一种序列标注装置的实体架构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步 说明。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示 了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不 应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地 理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了进一步提高序列标注的准确率,本公开实施例中,针对待识别语句 中包含的各个分词,分别采用预先训练的字向量生成模型、预设的词向量生 成模型,生成各个分词对应的第一词向量、第二词向量,然后,基于预先训 练的权重系数,结合第一词向量和第二词向量,生成各个分词对应的第三词 向量,接着,基于获得的各个分词对应的第三词向量,采用预先训练的序列 标注模型,生成序列标注结果。
下面结合附图对本公开优先的实施方式做出进一步详细说明。
本公开实施例中,序列标注包括但不限于是指分词、词性标注、命名实 体识别、关系抽取等,为了便于描述,下文中,仅以命名实体识别为例进行 说明。
参阅图1所示,本公开实施例中,对字向量生成模型、权重系数、序列标 注模型的训练流程如下:
S101:获取若干样本数据,并对若干样本数据标注相应的真实标注结果。
例如,获取样本数据1{小明今天去银行还款两千元}、样本数据2{小明于 2020年2月2日在北京体育馆看球赛},并对样本数据1、样本数据2标注相应的 真实标注结果1、真实标注结果2,其中,真实标注结果1表征样本数据1中“小 明”为人名、“今天”为时间、“银行”为机构名、“两千元”为货币量, 真实标注结果2表征样本数据2中“小明”为人名、“2020年2月2日”为时间、 “北京体育馆”为机构名。
需要说明的是,本公开实施例中,采用循环迭代的方式,基于若干样本 数据,对初始字向量生成模型、初始权重系数、初始序列标注模型进行训练, 直到满足预设的收敛条件为止。
在每一次的迭代过程中,采用批处理的形式进行模型训练,即,根据预 设的批处理大小,确定每一次读取相应数目的样本数据进行模型训练。
例如,假设,预设的批处理大小为32,确定每一次读取32个样本数据进 行模型训练。
又例如,假设,预设的批处理大小为64,确定每一次读取64个样本数据 进行模型训练。
为了便于描述,下文中,仅以读取一个样本数据为例,对训练过程进行 说明。
S102:读取一个样本数据,并对一个样本数据进行预处理,生成一个样 本语句。
具体的,读取一个样本数据,并确定一个样本数据的语句长度。
例如,读取样本数据1{小明今天去银行还款两千元},并确定样本数据1 的语句长度为12个字符。
本公开实施例中,基于一个样本数据的语句长度,存在但不限于以下几 种情况:
第一种情况:一个样本数据的语句长度未达到预设的固定语句长度。
若一个样本数据的语句长度未达到预设的固定语句长度,则采用预设的 字符对一个样本数据进行填补,生成一个样本语句。
例如,假设,预设的固定语句长度为128个字符,预设的字符为[PAD], 样本数据1的语句长度为12个字符,此时,样本数据1的语句长度未达到128个 字符,采用[PAD]对样本数据1进行填补,生成样本语句1。
第二种情况:一个样本数据的语句长度达到预设的固定语句长度。
若一个样本数据的语句长度超过预设的固定语句长度,则将一个样本数 据超过固定语句长度的部分进行截断,生成一个样本语句。
例如,假设,预设的固定语句长度为128个字符,样本数据2的语句长度 为130个字符,此时,样本数据2的语句长度超过128个字符,将样本数据2超 过128个字符的部分进行截断,生成样本语句2。
第三种情况:一个样本数据的语句长度达到预设的固定语句长度。
若一个样本数据的语句长度达到预设的固定语句长度时,则直接将一个 样本数据作为一个样本语句。
例如,假设,预设的固定语句长度为128个字符,样本数据3的语句长度 为128个字符,则直接将样本数据3作为样本语句3。
需要说明的是,本公开实施例中,在确定一个样本数据的语句长度之前, 基于预设的句首标签和预设的句末标签,在一个样本数据的句首设置句首标 签,在一个样本数据的句末设置句末标签。
例如,假设,预设的句首标签为[CLS],预设的句末标签为[SEP],针对样 本数据1,基于[CLS]和[SEP],在样本数据1的句首设置[CLS],在一个样本数 据的句末设置[SEP]。
S103、采用初始字向量生成模型、预设的词向量生成模型、初始权重系 数、初始序列标注模型,生成一个样本语句对应的预测标注结果。
具体的,基于一个样本语句,采用预设的分词算法,确定样本语句中包 含的各个分词。
需要说明的是,本公开实施例中,预设的分词算法可以采用但不限于结 巴分词、汉语言处理(Han Language Processing,Hanlp)分词、语言技术平台 (LanguageTechnology Plantform,LTP)分词,本公开对此限定。
例如,基于样本语句1,采用结巴分词,确定样本语句1中包含分词1“小 明”、分词2“今天”、分词3“去”、分词4“银行”、分词5“还款”、分 词6“两千元”。
分别针对每一个分词,执行以下操作:
A1、采用初始字向量生成模型,生成一个分词对应的第一词向量。
需要说明的是,本公开实施例中,字向量生成模型为来自转换器的双向 编码器表示(Bidirectional Encoder Representation from Transformers,BERT) 模型。
具体的,采用初始字向量生成模型,确定一个分词中包含的各个字分别 对应的各个字向量。
例如,采用初始BERT模型,确定分词5“还款”中,“还”对应的字向 量1,“款”对应的字向量2,其中,字向量1和字向量2均为768维。
由于向量维度过高,下文中,仅以各个向量的前3维为例,进行说明。
确定一个分词中包含的各个字分别对应的各个字向量之后,可采用但不 限于以下两种方式,生成一个分词对应的第一词向量:
第一种方式:基于各个字向量,采用最大值池化操作,生成一个分词对 应的第一词向量。
例如,假设,字向量1的前3维的取值为0.4、0.6、0.8,,字向量2的前3维 的取值为0.3、0.7、0.8,那么,基于字向量1和字向量2,采用最大值池化操作, 生成分词5“还款”对应的第一词向量w5,1,其中,w5,1的前3维的取值为0.4、 0.7、0.8。
第二种方式:基于各个字向量,采用平均值池化操作,生成一个分词对 应的第一词向量。
例如,假设,字向量1的前3维的取值为0.4、0.6、0.8,,字向量2的前3维 的取值为0.3、0.7、0.8,那么,基于字向量1和字向量2,采用平均值池化操作, 生成分词5“还款”对应的第一词向量w5,1,其中,w5,1的前3维的取值为0.35、 0.65、0.8。
A2、采用预设的词向量生成模型,生成一个分词对应的第二词向量。
需要说明的是,本公开实施例中,词向量生成模型可采用但不限于嵌入 式语言模型(Embedding from Language Model,ELMo)模型、词的向量化表 示(Global Vectors forword representation,GloVe)模型等。
例如,采用ELMo模型,生成分词5“还款”对应的第二词向量w5,2,其 中,w5,2的前3维的取值为0.75、0.65、0.4。
A3、基于初始权重系数,结合第一词向量和第二词向量,生成一个分词 对应的第三词向量。
本公开实施例中,采用以下公式确定一个分词对应的第三词向量wi:
其中,缩放参数γi表示第i个分词对应的第一词向量和第二词向量的加和 的整体权重,单项权重αi,j表示第i个分词的第j个词向量的权重,wi,j表示第i 个分词的第j个词向量。
需要说明的是,本公开实施例中,权重系数至少包含γi或αi,j中的任一 项或组合,下文中,仅以权重系数为γi和为例进行说明。
例如,假设,初始γ5的取值为1,初始α5,1的取值为0.5,初始α5,2的取 值为0.5,w5,1的前3维的取值为0.35、0.65、0.8,w5,2的前3维的取值为0.75、 0.65、0.4,结合w5,1和w5,2,生成分词5“还款”对应的第三词向量w5,其中, w5的前3维的取值为0.55、0.65、0.6。
确实各个分词对应的第三词向量之后,基于获得的各个分词对应的第三 词向量,采用初始序列标注模型,生成一个样本语句对应的预测标注结果。
本公开实施例中,序列标注模型采用双向循环神经网络(BidirectionalRecurrent Neural Network,BiRNN)+条件随机场(Conditional Random Fields, CRF)模型,其中,BiRNN包含但不限于双向长短期记忆网络(Bidirectional Long Short-TermMemory,BiLSTM)、双向门控循环单元(Bidirection Gated Recurrent Unit,BiGRU)。
例如,确定分词1、分词2、分词3、分词4、分词5、分词6对应的w1、w2、 w3、w4、w5、w6之后,基于样本语句1的w1、w2、w3、w4、w5、w6,采用初 始BiLSTM+CRF模型,生成样本语句1对应的预测标注结果1,预测标注结果1 表征样本数据1中“小明”为人名、“银行”为机构名。
S104:判断预测标注结果与真实标注结果之间是否存在误差,若是,则 执行步骤S105,否则,执行步骤S107。
具体的,将预测标注结果与一个样本数据对应的真实标注结果进行对比, 判断预测标注结果与真实标注结果之间是否存在误差。
例如,预测标注结果1表征样本数据1中“小明”为人名、“银行”为机 构名,真实标注结果1表征样本数据1中“小明”为人名、“今天”为时间、 “银行”为机构名、“两千元”为货币量,将预测标注结果1,与样本数据1 对应的真实标注结果1进行对比,判断预测标注结果1与真实标注结果1之间存 在误差,执行步骤S105。
S105:根据误差对初始字向量生成模型和初始序列标注模型中包含的各 个参数进行调整。
需要说明的是,本公开实施例中,对初始字向量生成模型和初始序列标 注模型中包含的各个参数进行调整,也可以理解为对初始字向量生成模型和 初始序列标注模型中包含的各个函数进行调整。
例如,将预测标注结果1,与样本数据1对应的真实标注结果1进行对比, 确定预测标注结果1与真实标注结果1之间存在误差时,根据误差对初始BERT 模型和初始BiLSTM+CRF模型中包含的各个参数进行调整,仅以初始BERT模 型中用于生成相应的嵌入的position_embeddings函数为例,对 position_embeddings函数进行调整,仅以初始BiLSTM+CRF模型中转移分数 (transition score)函数为例,对transition score函数进行调整。
S106:根据误差对初始权重系数进行调整。
例如,将预测标注结果1,与样本数据1对应的真实标注结果1,确定预测 标注结果与真实标注结果1之间存在误差时,对初始γi和初始进行调整。
S107:判断是否满足预设的收敛条件,若是,则执行步骤S108,否则, 执行步骤S102。
具体的,本公开实施例中,可采用但不限于以下方式判定满足预设的收 敛条件:
第一种方式:确定连续N次迭代过程中,每一次迭代过程中样本数据的预 测准确率与前一次迭代过程中样本数据的预测准确率之间的差值,满足预设 的准确率差值范围时,确定满足预设的收敛条件。
需要说明的是,本公开实施例中,N的取值可根据实际应用场景进行设定。
例如,假设,N的取值为2,预设的准确率差值范围为1%-5%,第10次迭 代过程中样本数据的预测准确率1为80%,第9次迭代过程中样本数据的预测准 确率2为75%,第8次迭代过程中样本数据的预测准确率3为70%,显然,第10 次迭代过程中样本数据的预测准确率1与第9次迭代过程样本数据的预测准确 率2之间的差值为5%,第9次迭代过程中样本数据的预测准确率2与第8次迭代 过程样本数据的预测准确率3之间的差值为5%,此时,确定连续2次迭代过程 中,每一次迭代过程中样本数据的预测准确率与前一次迭代过程中样本数据 的预测准确率之间的差值,满足预设的1%-5%,那么,判定满足预设的收敛 条件。
第二种方式:确定连续M次迭代过程中,每一次迭代过程中样本数据的损 失与前一次迭代过程中样本数据的损失之间的差值,满足预设的损失差值范 围时,确定满足预设的收敛条件。
需要说明的是,本公开实施例中,M的取值可根据实际应用场景进行设定。
例如,假设,M的取值为3,预设的损失差值范围为2%-6%,第7次迭代过 程中样本数据的损失1为24%,第6次迭代过程中样本数据的损失2为20%,第5 次迭代过程中样本数据的损失3为16%,第4次迭代过程中样本数据的损失4为 14%,显然,第7次迭代过程中样本数据的损失1与第6次迭代过程样本数据的 损失2之间的差值为4%,第6次迭代过程中样本数据的损失2与第5次迭代过程 样本数据的损失3之间的差值为4%,第5次迭代过程中样本数据的损失3与第4 次迭代过程样本数据的损失4之间的差值为2%,此时,确定连续3次迭代过程 中,每一次迭代过程中样本数据的损失与前一次迭代过程中样本数据的损失 之间的差值,满足预设的2%-6%,那么,确定满足预设的收敛条件。
第三种方式:确定当前迭代次数达到预设的最大迭代次数时,确定满足 预设的收敛条件。
例如,假设,预设的最大迭代次数为10,确定当前迭代次数达到10时, 确定满足预设的收敛条件。
S108:输出训练后的字向量生成模型、序列标注模型、权重系数。
例如,输出训练后的BERT模型、BiLSTM+CRF模型、γi和。
下面,采用训练得到的字向量生成模型、序列标注模型、权重系数,对 序列标注过程进行说明。
参阅图2所示,本公开实施例中,进行序列标注的流程如下:
S201:获取待识别语句,并对待识别语句进行分词处理,以确定待识别 语句中包含的各个分词。
具体的,获取待处理数据,并确定待处理数据的语句长度。
例如,获取待处理数据1{小王去公园锻炼},并确定待处理数据1的语句 长度为7个字符。
基于待处理数据的语句长度,存在但不限于以下几种情况:
第一种情况:待处理数据的语句长度未达到预设的固定语句长度。
若待处理数据的语句长度未达到预设的固定语句长度,则采用预设的字 符对待处理数据进行填补,生成待识别语句。
例如,假设,预设的固定语句长度为128个字符,预设的字符为[PAD], 样本数据1的语句长度为12个字符,此时,待处理数据1的语句长度未达到128 个字符,采用[PAD]对待处理数据1进行填补,生成待识别语句1。
第二种情况:待处理数据的语句长度达到预设的固定语句长度。
若待处理数据的语句长度超过预设的固定语句长度,则将待处理数据超 过固定语句长度的部分进行截断,生成待识别语句。
例如,假设,预设的固定语句长度为128个字符,待处理数据2的语句长 度为140个字符,此时,待处理数据2的语句长度超过128个字符,将待处理数 据2超过128个字符的部分进行截断,生成待识别语句2。
第三种情况:待处理数据的语句长度达到预设的固定语句长度。
若待处理数据的语句长度达到预设的固定语句长度时,则直接将待处理 数据作为待识别语句。
例如,假设,预设的固定语句长度为128个字符,待处理数据3的语句长 度为128个字符,则直接将待处理数据3作为待识别语句3。
需要说明的是,本公开实施例中,在确定待处理数据的语句长度之前, 基于预设的句首标签和预设的句末标签,在一个待处理数据的句首设置句首 标签,在一个待处理数据的句末设置句末标签。
例如,假设,预设的句首标签为[CLS],预设的句末标签为[SEP],针对待 处理数据1,基于[CLS]和[SEP],在待处理数据1的句首设置[CLS],在一个待 处理数据1的句末设置[SEP]。
生成待识别语句之后,对待识别语句进行分词处理,确定待识别语句中 包含的各个分词。
需要说明的是,本公开实施例中,可以采用预设的分词算法对待识别语 句进行分词处理,预设的分词算法可以但不限于采用结巴分词、Hanlp分词、 LTP分词等,本公开对此不做限定。
例如,基于待识别语句1,采用结巴分词,确定待识别语句1中包含分词1 “小王”、分词2“去”、分词3“公园”、分词4“锻炼”。
S202:采用预先训练的字向量生成模型,生成各个分词分别对应的第一 词向量。
为了便于描述,下文中,仅以待识别语句中包含的一个分词为例,对第 一词向量、第二词向量、第三词向量的生成过程进行说明。
需要说明的是,本公开实施例中,预先训练的字向量生成模型是指模型 训练过程输出的字向量生成模型。
具体的,采用预先训练的字向量生成模型,确定一个分词中包含的各个 字分别对应的各个字向量。
例如,采用预先训练的BERT模型,确定分词3“公园”中,“公”对应 的字向量1,“园”对应的字向量2,其中,字向量1和字向量2均为768维。
由于向量维度过高,下文中,仅以各个向量的前3维为例,进行说明。
确定一个分词中包含的各个字分别对应的各个字向量之后,可采用但不 限于以下两种方式,生成一个分词对应的第一词向量:
第一种方式:基于各个字向量,采用最大值池化操作,生成一个分词对 应的第一词向量。
例如,假设,字向量1的前3维的取值为0.1、0.2、0.3,,字向量2的前3维 的取值为0.1、0.3、0.3,那么,基于字向量1和字向量2,采用最大值池化操作, 生成分词3“公园”对应的第一词向量w3,1,其中,w3,1的前3维的取值为0.1、 0.3、0.3。
第二种方式:基于各个字向量,采用平均值池化操作,生成一个分词对 应的第一词向量。
例如,假设,字向量1的前3维的取值为0.1、0.2、0.3,,字向量2的前3维 的取值为0.1、0.3、0.3,那么,基于字向量1和字向量2,采用平均值池化操作, 生成分词3“公园”对应的第一词向量w3,1,其中,w3,1的前3维的取值为0.1、 0.25、0.3。
S203:采用预设的词向量生成模型,生成各个分词分别对应的第二词向 量。
需要说明的是,本公开实施例中,词向量生成模型可采用但不限于ELMo 模型、GloVe模型等。
例如,采用ELMo模型,生成分词3“公园”对应的第二词向量w3,2,其 中,w3,2的前3维的取值为0.1、0.1、0.1。
S204:基于预先训练的权重系数,结合第一词向量和第二词向量,生成 各个分词分别对应的第三词向量。
需要说明的是,本公开实施例中,预先训练的权重系数是指模型训练过 程输出的权重系数。
本公开实施例中,采用以下公式确定一个分词对应的第三词向量wi:
其中,γi表示第i个分词对应的第一词向量和第二词向量的加和的整体权 重,αi,j表示第i个分词的第j个词向量的权重,wi,j表示第i个分词的第j个词向 量,本公开实施例中,权重系数为γi和。
例如,假设,预先训练的γ3的取值为1,预先训练的的取值为0.5,预先 训练的的取值为0.5,w3,1的前3维的取值为0.1、0.25、0.3,w3,2的前3维的取 值为0.1、0.1、0.1,结合w3,1和w3,2,生成分词3“公园”对应的第三词向量 w3,其中,w3的前3维的取值为0.1、0.175、0.2。
S205:基于获得的各个分词分别对应的第三词向量,采用预先训练的序 列标注模型,生成序列标注结果。
需要说明的是,本公开实施例中,预先训练的序列标注模型是指模型训 练过程输出的序列标注模型。
例如,确定待识别语句1的分词1、分词2、分词3、分词4对应的w1、w2、 w3、w4之后,基于待识别语句1的各个分词分别对应的w1、w2、w3、w4,采用 预先训练的BiLSTM+CRF模型,生成待识别语句1对应的序列标注结果1,序 列标注结果1表征待识别语句1中“小王”为人名、“公园”为地名。
基于同一发明构思,参阅图3所示,本公开实施例中,提供一种序列识别 装置,至少包括:第一处理单元301、第二处理单元302、第三处理单元303、 第四处理单元304和第五处理单元305,其中,
第一处理单元301,用于获取待识别语句,并对所述待识别语句进行分词 处理,以确定所述待识别语句中包含的各个分词;
第二处理单元302,用于采用预先训练的字向量生成模型,生成所述各个 分词分别对应的第一词向量;
第三处理单元303,用于采用预设的词向量生成模型,生成所述各个分词 分别对应的第二词向量;
第四处理单元304,用于基于预先训练的权重系数,结合所述第一词向量 和第二词向量,生成所述各个分词分别对应的第三词向量;
第五处理单元305,用于基于获得的各个分词分别对应的第三词向量,采 用预先训练的序列标注模型,生成序列标注结果。
可选的,所述序列识别装置进一步包括训练单元,所述训练单元用于:
获取若干样本数据,并对所述若干样本数据标注相应的真实标注结果;
采用循环迭代的方式,针对各个样本数据,执行以下操作,直到满足预 设的收敛条件为止:
对一个样本数据进行预处理,生成一个样本语句;
采用初始字向量生成模型、所述词向量生成模型、初始权重系数、初 始序列标注模型,生成所述一个样本语句对应的预测标注结果;
基于所述预测标注结果,以及所述一个样本数据对应的真实标注结果, 对所述初始字向量生成模型和所述初始序列标注模型进行训练;
基于所述预测标注结果,以及所述真实标注结果,对所述初始权重系 数进行训练;
确定满足预设的收敛条件时,输出训练后的字向量生成模型、序列标 注模型、权重系数。
可选的,基于所述预测标注结果,以及所述一个样本数据对应的真实标 注结果,对所述初始字向量生成模型、所述初始权重系数、所述初始序列标 注模型进行训练时,所述训练单元具体用于:
将所述预测标注结果与所述一个样本数据对应的真实标注结果进行对比;
确定所述预测标注结果与所述真实标注结果之间存在误差时,根据所述 误差对所述初始字向量生成模型和所述初始序列标注模型中包含的各个参数 进行调整。
可选的,基于所述预测标注结果,以及所述真实标注结果,对所述初始 权重系数进行训练时,所述训练单元具体用于:
将所述预测标注结果与所述一个样本数据对应的真实标注结果进行对比;
确定所述预测标注结果与所述真实标注结果之间存在误差时,根据所述 误差对所述初始权重系数进行调整,其中,所述初始权重系数至少包含缩放 参数或单项权重中的任一项或组合,所述缩放参数用于表征一个分词对应的 第一词向量和第二词向量的加和的整体权重,所述单项权重用于表征所述各 个分词对应的各个词向量的权重。
可选的,基于预先训练的权重系数,结合所述第一词向量和第二词向量, 生成所述各个分词分别对应的第三词向量,所述第四处理单元304具体用于:
基于所述预先训练的权重系数中包含的单项权重,对所述第一词向量和 所述第二词向量进行加权求和,得到相应的整体值;
基于所述预先训练的权重系数中包含的缩放参数,将所述整体值进行调 整,得到所述各个分词分别对应的第三词向量;
其中,所述预先训练的权重系数是基于样本语句的各分词对应的第一词 向量和第二词向量,对所述样本语句的标注结果的影响权重进行学习得到的。
可选的,获取待识别语句之前,所述第一处理单元301进一步用于:
获取待处理数据,并确定所述待处理数据的语句长度;
若所述语句长度未达到预设的固定语句长度,则采用预设的字符对所述 待处理数据进行填补,生成待识别语句;
若所述语句长度超过预设的固定语句长度时,则将所述待处理数据中超 过所述固定语句长度的部分进行截断,生成待识别语句;
若所述语句长度达到预设的固定语句长度时,则直接将所述待处理数据 作为待识别语句。
可选的,基于预先训练的字向量生成模型,生成一个分词对应的第一词 向量时,所述第二处理单元302具体用于:
采用预先训练的字向量生成模型,确定所述各个分词中包含的各个字分 别对应的各个字向量;
基于所述各个字向量,采用池化操作,生成所述各个分词对应的第一词 向量。
基于同一发明构思,参阅图4所示,本公开实施例提供一种序列标注装置, 至少包括:存储器401、处理器402及存储在所述存储器401上并可在所述处理 器402上运行的序列标注程序,所述序列标注程序被所述处理器402执行时实 现如上所述的序列标注方法的步骤。
基于同一发明构思,本公开实施例提供一种计算机可读存储介质,所述 计算机可读存储介质上存储有序列标注程序,所述序列标注程序被处理器执 行时实现如上所述的序列标注方法的步骤。
综上所述,本公开实施例中,针对待识别语句中包含的各个分词,采用 预先训练的字向量生成模型和预设词向量生成模型,分别生成各个分词对应 的第一词向量和第二词向量,然后,采用预先训练的权重系数,结合第一词 向量和第二词向量,生成各个分词对应的第三词向量,之后,基于各个分词 对应的第三词向量,采用预先训练的序列标注模型,生成序列标注结果。这 样,通过采用预先训练的权重系数进行词向量的融合,不仅考虑到了词向量 这一维度的特征,优化了序列标注的处理过程,提高了序列标注的准确率, 同时,通过将词向量融合生成的第三词向量,作为序列标注模型的输入,从 而进一步提升了序列标注的准确率,并减少了序列标注过程的数据处理时长, 提高了序列标注的处理效率。
对于系统/装置实施例而言,由于其基本相似于方法实施例,所以描述的 比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来 将一个实体或者一个操作与另一个实体或者另一个操作区分开来,而不一定 要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变 体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品 或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是 还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的 情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过 程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的 技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘) 中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器, 空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是 利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间 接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种序列标注方法,其特征在于,包括:
获取待识别语句,并对所述待识别语句进行分词处理,以确定所述待识别语句中包含的各个分词;
采用预先训练的字向量生成模型,生成所述各个分词分别对应的第一词向量;
采用预设的词向量生成模型,生成所述各个分词分别对应的第二词向量;
基于预先训练的权重系数,结合所述第一词向量和第二词向量,生成所述各个分词分别对应的第三词向量;
基于获得的各个分词分别对应的第三词向量,采用预先训练的序列标注模型,生成序列标注结果。
2.如权利要求1所述的方法,其特征在于,获取待识别语句之前,进一步包括:
获取若干样本数据,并对所述若干样本数据标注相应的真实标注结果;
采用循环迭代的方式,针对各个样本数据,执行以下操作,直到满足预设的收敛条件为止:
对一个样本数据进行预处理,生成一个样本语句;
采用初始字向量生成模型、所述词向量生成模型、初始权重系数、初始序列标注模型,生成所述一个样本语句对应的预测标注结果;
基于所述预测标注结果,以及所述一个样本数据对应的真实标注结果,对所述初始字向量生成模型和所述初始序列标注模型进行训练;
基于所述预测标注结果,以及所述真实标注结果,对所述初始权重系数进行训练;
确定满足预设的收敛条件时,输出训练后的字向量生成模型、序列标注模型、权重系数。
3.如权利要求2所述的方法,其特征在于,基于所述预测标注结果,以及所述一个样本数据对应的真实标注结果,对所述初始字向量生成模型、所述初始权重系数、所述初始序列标注模型进行训练,具体包括:
将所述预测标注结果与所述一个样本数据对应的真实标注结果进行对比;
确定所述预测标注结果与所述真实标注结果之间存在误差时,根据所述误差对所述初始字向量生成模型和所述初始序列标注模型中包含的各个参数进行调整。
4.如权利要求2所述的方法,其特征在于,基于所述预测标注结果,以及所述真实标注结果,对所述初始权重系数进行训练,具体包括:
将所述预测标注结果与所述一个样本数据对应的真实标注结果进行对比;
确定所述预测标注结果与所述真实标注结果之间存在误差时,根据所述误差对所述初始权重系数进行调整,其中,所述初始权重系数至少包含缩放参数或单项权重中的任一项或组合,所述缩放参数用于表征一个分词对应的第一词向量和第二词向量的加和的整体权重,所述单项权重用于表征一个分词对应的各个词向量的权重。
5.如权利要求1-4中任一项所述的方法,其特征在于,基于预先训练的权重系数,结合所述第一词向量和第二词向量,生成所述各个分词分别对应的第三词向量,具体包括:
基于所述预先训练的权重系数中包含的单项权重,对所述第一词向量和所述第二词向量进行加权求和,得到相应的整体值;
基于所述预先训练的权重系数中包含的缩放参数,将所述整体值进行调整,得到所述各个分词分别对应的第三词向量;
其中,所述预先训练的权重系数是基于样本语句的各分词对应的第一词向量和第二词向量,对所述样本语句的标注结果的影响权重进行学习得到的。
6.如权利要求1-4中任一项所述的方法,其特征在于,获取待识别语句之前,进一步包括:
获取待处理数据,并确定所述待处理数据的语句长度;
若所述语句长度未达到预设的固定语句长度,则采用预设的字符对所述待处理数据进行填补,生成待识别语句;
若所述语句长度超过预设的固定语句长度时,则将所述待处理数据中超过所述固定语句长度的部分进行截断,生成待识别语句;
若所述语句长度达到预设的固定语句长度时,则直接将所述待处理数据作为待识别语句。
7.如权利要求1-4中任一项所述的方法,其特征在于,基于预先训练的字向量生成模型,生成各个分词对应的第一词向量,具体包括:
采用预先训练的字向量生成模型,确定所述各个分词中包含的各个字分别对应的各个字向量;
基于所述各个字向量,采用池化操作,生成所述各个分词对应的第一词向量。
8.一种序列标注装置,其特征在于,包括:
第一处理单元,用于获取待识别语句,并对所述待识别语句进行分词处理,以确定所述待识别语句中包含的各个分词;
第二处理单元,用于采用预先训练的字向量生成模型,生成所述各个分词分别对应的第一词向量;
第三处理单元,用于采用预设的词向量生成模型,生成所述各个分词分别对应的第二词向量;
第四处理单元,用于基于预先训练的权重系数,结合所述第一词向量和第二词向量,生成所述各个分词分别对应的第三词向量;
第五处理单元,用于基于获得的各个分词分别对应的第三词向量,采用预先训练的序列标注模型,生成序列标注结果。
9.一种序列标注设备,其特征在于,所述序列标注设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的序列标注程序,所述序列标注程序被所述处理器执行时实现如权利要求1至7中任一项所述的序列标注方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有序列标注程序,所述序列标注程序被处理器执行时实现如权利要求1至7中任一项所述的序列标注方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010591943.1A CN111737999A (zh) | 2020-06-24 | 2020-06-24 | 一种序列标注方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010591943.1A CN111737999A (zh) | 2020-06-24 | 2020-06-24 | 一种序列标注方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111737999A true CN111737999A (zh) | 2020-10-02 |
Family
ID=72651121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010591943.1A Pending CN111737999A (zh) | 2020-06-24 | 2020-06-24 | 一种序列标注方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737999A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380872A (zh) * | 2020-11-27 | 2021-02-19 | 深圳市慧择时代科技有限公司 | 一种目标实体的情感倾向确定方法及装置 |
CN114065740A (zh) * | 2021-09-29 | 2022-02-18 | 北京搜狗科技发展有限公司 | 语句的序列标注方法、装置、电子设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090210218A1 (en) * | 2008-02-07 | 2009-08-20 | Nec Laboratories America, Inc. | Deep Neural Networks and Methods for Using Same |
CN107608970A (zh) * | 2017-09-29 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 词性标注模型生成方法和装置 |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN109299262A (zh) * | 2018-10-09 | 2019-02-01 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
WO2019072166A1 (zh) * | 2017-10-10 | 2019-04-18 | 腾讯科技(深圳)有限公司 | 语义分析方法、装置和存储介质 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
CN110287479A (zh) * | 2019-05-20 | 2019-09-27 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
CN110334340A (zh) * | 2019-05-06 | 2019-10-15 | 北京泰迪熊移动科技有限公司 | 基于规则融合的语义分析方法、装置以及可读存储介质 |
CN110334357A (zh) * | 2019-07-18 | 2019-10-15 | 北京香侬慧语科技有限责任公司 | 一种命名实体识别的方法、装置、存储介质及电子设备 |
WO2019200806A1 (zh) * | 2018-04-20 | 2019-10-24 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN111008526A (zh) * | 2019-12-06 | 2020-04-14 | 安徽理工大学 | 一种基于双通道神经网络的命名实体识别方法 |
CN111222327A (zh) * | 2019-12-23 | 2020-06-02 | 东软集团股份有限公司 | 一种词嵌入表示方法、装置及设备 |
-
2020
- 2020-06-24 CN CN202010591943.1A patent/CN111737999A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090210218A1 (en) * | 2008-02-07 | 2009-08-20 | Nec Laboratories America, Inc. | Deep Neural Networks and Methods for Using Same |
CN107608970A (zh) * | 2017-09-29 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 词性标注模型生成方法和装置 |
WO2019072166A1 (zh) * | 2017-10-10 | 2019-04-18 | 腾讯科技(深圳)有限公司 | 语义分析方法、装置和存储介质 |
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
WO2019200806A1 (zh) * | 2018-04-20 | 2019-10-24 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN109299262A (zh) * | 2018-10-09 | 2019-02-01 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
CN110083831A (zh) * | 2019-04-16 | 2019-08-02 | 武汉大学 | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 |
CN110334340A (zh) * | 2019-05-06 | 2019-10-15 | 北京泰迪熊移动科技有限公司 | 基于规则融合的语义分析方法、装置以及可读存储介质 |
CN110287479A (zh) * | 2019-05-20 | 2019-09-27 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
CN110334357A (zh) * | 2019-07-18 | 2019-10-15 | 北京香侬慧语科技有限责任公司 | 一种命名实体识别的方法、装置、存储介质及电子设备 |
CN111008526A (zh) * | 2019-12-06 | 2020-04-14 | 安徽理工大学 | 一种基于双通道神经网络的命名实体识别方法 |
CN111222327A (zh) * | 2019-12-23 | 2020-06-02 | 东软集团股份有限公司 | 一种词嵌入表示方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
SHUIFEI ZENG;YAN MA;XIAOYAN ZHANG;XIAOFENG DU;: "Term-Based Pooling in Convolutional Neural Networks for Text Classification", 中国通信, no. 04, 15 April 2020 (2020-04-15) * |
陈毅;符磊;代云霞;张剑;: "基于特征融合的中文简历解析方法研究", 计算机工程与应用, no. 10, 30 October 2018 (2018-10-30) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380872A (zh) * | 2020-11-27 | 2021-02-19 | 深圳市慧择时代科技有限公司 | 一种目标实体的情感倾向确定方法及装置 |
CN112380872B (zh) * | 2020-11-27 | 2023-11-24 | 深圳市慧择时代科技有限公司 | 一种目标实体的情感倾向确定方法及装置 |
CN114065740A (zh) * | 2021-09-29 | 2022-02-18 | 北京搜狗科技发展有限公司 | 语句的序列标注方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931513B (zh) | 一种文本的意图识别方法及装置 | |
CN110046221B (zh) | 一种机器对话方法、装置、计算机设备及存储介质 | |
CN109977416B (zh) | 一种多层次自然语言反垃圾文本方法及系统 | |
WO2022142041A1 (zh) | 意图识别模型的训练方法、装置、计算机设备和存储介质 | |
CN109992664B (zh) | 争议焦点的标注分类方法、装置、计算机设备和存储介质 | |
CN111062217A (zh) | 语言信息的处理方法、装置、存储介质及电子设备 | |
CN113297366B (zh) | 多轮对话的情绪识别模型训练方法、装置、设备及介质 | |
CN113268561B (zh) | 一种基于多任务联合训练的问题生成方法 | |
CN110517693A (zh) | 语音识别方法、装置、电子设备和计算机可读存储介质 | |
CN111859964A (zh) | 一种语句中命名实体的识别方法及装置 | |
CN109344242B (zh) | 一种对话问答方法、装置、设备及存储介质 | |
CN111984780A (zh) | 多意图识别模型训练方法和多意图识别方法及相关装置 | |
CN115599901B (zh) | 基于语义提示的机器问答方法、装置、设备及存储介质 | |
CN111737999A (zh) | 一种序列标注方法、装置、设备及可读存储介质 | |
CN113672731B (zh) | 基于领域信息的情感分析方法、装置、设备及存储介质 | |
CN112818086A (zh) | 一种机器人催收获取客户意向标签的多标签分类方法 | |
CN112966476B (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN110597968A (zh) | 一种回复选择方法及装置 | |
CN113128232A (zh) | 一种基于albert与多重词信息嵌入的命名实体识别方法 | |
CN110489727B (zh) | 人名识别方法及相关装置 | |
CN115147849A (zh) | 字符编码模型的训练方法、字符匹配方法和装置 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN115017890A (zh) | 基于字音字形相似的文本纠错方法和装置 | |
CN113408287A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN110334340B (zh) | 基于规则融合的语义分析方法、装置以及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |